تکنولوژی

چالش مشاهده پذیری داده های بزرگ: ایجاد اعتماد در کل

چالش مشاهده پذیری داده های بزرگ: ایجاد اعتماد در کل

هزینه تمیز کردن داده ها برای شرکت هایی که پر از داده های بالقوه کثیف هستند، اغلب خارج از منطقه راحتی است. این مسیرها را برای یک جریان داده های شرکتی قابل اعتماد و سازگار مسدود می کند.

به گفته کایل کیروان، یکی از بنیانگذاران و مدیر عامل پلتفرم نظارت بر داده Bigeye، تعداد کمی از شرکت ها منابع لازم برای توسعه ابزارهایی برای چالش هایی مانند نظارت بر داده ها در مقیاس را دارند. در نتیجه، بسیاری از شرکت‌ها نابینا هستند و زمانی که مشکلی پیش می‌آید به جای پرداختن به کیفیت داده‌ها، واکنش نشان می‌دهند.

اعتماد به داده ها یک چارچوب قانونی برای مدیریت داده های مشترک فراهم می کند. همکاری را از طریق قوانین مشترک امنیت داده ها، حریم خصوصی و محرمانگی ترویج می کند. سازمان ها را قادر می سازد تا به طور ایمن به منابع داده خود در یک مخزن داده مشترک متصل شوند.

Bigeye مهندسان داده، تحلیلگران، دانشمندان و سهامداران را برای ایجاد اعتماد در داده ها گرد هم می آورد. پلتفرم آن به شرکت‌ها کمک می‌کند نظارت خودکار، تشخیص ناهنجاری‌ها و ایجاد توافق‌نامه‌های سطح خدمات را برای اطمینان از کیفیت داده و خطوط لوله قابل اعتماد ایجاد کنند.

با دسترسی کامل به API، رابط کاربری آسان، و سفارشی‌سازی خودکار و انعطاف‌پذیر، تیم‌های داده می‌توانند کیفیت را کنترل کنند، به طور فعال مشکلات را شناسایی و حل کنند و اطمینان حاصل کنند که هر کاربر می‌تواند به داده‌ها تکیه کند.

تجربه داده Uber

دو عضو اولیه تیم داده Uber – Kirwan و Peggy، یکی از بنیانگذاران و CTO Igor Gryaznov – تصمیم گرفتند از آنچه در ساخت مقیاس Uber یاد گرفته‌اند برای ایجاد ابزارهای SaaS با قابلیت استقرار آسان‌تر برای مهندسان داده استفاده کنند.

Kirwan یکی از اولین دانشمندان داده در Uber و اولین مدیر محصول برای ابرداده بود. گریازنوف یک مهندس در سطح کارکنان بود که انبار داده Vertica اوبر را مدیریت می کرد و چندین ابزار و چارچوب مهندسی داده داخلی را توسعه می داد.

آن‌ها متوجه شدند که تیم‌هایشان ابزارهایی را برای مدیریت دریاچه داده‌های بزرگ Uber می‌سازند و هزاران کاربر داده داخلی آن‌ها بسیار جلوتر از آنچه در دسترس اکثر تیم‌های مهندسی داده بود، بودند.

نظارت و تشخیص خودکار مسائل مربوط به قابلیت اطمینان در هزاران جدول در انبارهای داده کار آسانی نیست. شرکت‌هایی مانند Instacart، Udacity، Docker و Clubhouse از Bigeye استفاده می‌کنند تا تجزیه و تحلیل و یادگیری ماشین را به طور مداوم در حال اجرا نگه دارند.

زمینه در حال رشد

آنها با تأسیس Bigeye در سال 2019، متوجه شدند که سازمان‌ها با مشکل رو به رشدی در استقرار داده‌ها در موارد استفاده با بازگشت سرمایه بالا مانند گردش‌های کاری فرآیندی با یادگیری ماشین، محصولات و خدمات، تجزیه و تحلیل استراتژیک، و تصمیم‌گیری مبتنی بر هوش تجاری مواجه هستند.

فضای پایش داده ها در سال 2021 شاهد تعدادی شرکت کننده بود. Bigeye با ارائه قابلیت ارزیابی خودکار کیفیت داده های مشتری با بیش از 70 معیار کیفیت داده منحصر به فرد، خود را از آن بسته جدا کرد.

این معیارها با استفاده از هزاران مدل تشخیص ناهنجاری جداگانه آموزش داده می‌شوند تا اطمینان حاصل شود که مسائل مربوط به کیفیت داده – حتی سخت‌ترین آنها – هرگز برای مهندسان داده نادیده گرفته نمی‌شوند.

در سال گذشته، مشاهده‌پذیری داده‌ها با دست‌کم ده‌ها استارت‌آپ نظارت بر داده‌ها که دورهای اصلی تامین مالی را اعلام کردند، برجسته شده است.

کیروان پیش‌بینی می‌کند که امسال پایش داده‌ها به یک اولویت برای تیم‌های داده تبدیل شود، زیرا آنها به دنبال متعادل کردن تقاضا برای مدیریت پلتفرم‌های پیچیده با نیاز به اطمینان از کیفیت داده و قابلیت اطمینان خط لوله هستند.

راه حل خلاصه

پلتفرم داده Bigeye دیگر در مرحله بتا نیست. برخی از ویژگی های درجه سازمانی مانند کنترل دسترسی کامل مبتنی بر نقش هنوز در نقشه راه هستند. اما موارد دیگر، مانند استقرار SSO و in-VPC، امروزه در دسترس هستند.

این برنامه منبع بسته است، همانطور که مدل های اختصاصی مورد استفاده برای تشخیص انحرافات هستند. Bigeye یکی از طرفداران پر و پا قرص گزینه‌های منبع باز است، اما تصمیم گرفت گزینه‌های خود را برای دستیابی به اهداف عملکردی تعیین‌شده داخلی خود توسعه دهد.

یادگیری ماشینی در چند مکان کلیدی برای ارائه ترکیبی منحصر به فرد از معیارها برای هر جدول در منابع داده مرتبط با مشتری استفاده می شود. مدل‌های تشخیص ناهنجاری در هر یک از این مقیاس‌ها برای تشخیص رفتار غیرعادی آموزش داده می‌شوند.

سه ویژگی ساخته شده در پایان سال 2021 به طور خودکار مسائل مربوط به کیفیت داده ها را شناسایی و هشدار می دهد و توافق نامه های سطح خدمات کیفیت داده را فعال می کند.

اولی، Deltas، مقایسه و اعتبارسنجی چندین نسخه از هر مجموعه داده را آسان می کند.

مسائل، ثانیاً، چندین هشدار را با هم در یک جدول زمانی واحد با زمینه ارزشمند در مورد مسائل مرتبط گروه بندی می کنند. این باعث می‌شود که مستندسازی اصلاحات قبلی آسان‌تر شود و وضوح تصویر افزایش یابد.

پانل سوم، داشبورد، نمای کلی از سلامت داده ها را ارائه می دهد، به شناسایی نقاط داغ با کیفیت داده ها، پر کردن شکاف ها در پوشش نظارت و شناسایی پیشرفت هایی که تیم برای قابلیت اطمینان انجام می دهد، کمک می کند.

مخازن داده های چشم

TechNewsWorld با Kirwan صحبت کرد تا برخی از پیچیدگی‌هایی را که پلتفرم جستجوی داده‌های شرکتش در اختیار دانشمندان داده قرار می‌دهد، ابهام کند.

TechNewsWorld: چه چیزی برنامه درسی Bigeye را نوآورانه یا پیشرفته می کند؟

Kyle Kirwan PJ یکی از بنیانگذاران و مدیرعامل
کایل کیروان، یکی از بنیانگذاران و مدیرعامل Bigeye

کایل کیروان: نظارت بر داده ها مستلزم دانش ثابت و کامل از آنچه در تمام جداول و خطوط لوله در پشته داده شما اتفاق می افتد، دارد. شبیه SRE است [site reliability engineering] و DevOps توسط تیم های تجاری استفاده می شود تا برنامه ها و زیرساخت ها را به صورت شبانه روزی در حال اجرا نگه دارند. اما برای دنیای مهندسی داده و علم داده دوباره تصور شده است.

در حالی که کیفیت داده ها و قابلیت اطمینان داده ها برای چندین دهه یک مسئله بوده است، برنامه های کاربردی داده در حال حاضر برای تعداد شرکت های پیشرو در حال فعالیت حیاتی هستند. زیرا هر گونه از دست دادن داده، وقفه یا بدتر شدن می تواند به سرعت منجر به از دست دادن درآمد و مشتریان شود.

بدون مشاهده‌پذیری داده‌ها، تاجران داده باید دائماً با مسائل مربوط به کیفیت داده تعامل داشته باشند و باید در هنگام استفاده از داده‌ها درباره آن بحث کنند. بهترین راه حل، شناسایی پیشگیرانه مشکلات و رفع علل ریشه ای است.

اعتماد چگونه بر داده ها تأثیر می گذارد؟

کیروان: اغلب، مشکلات توسط ذینفعانی مانند مدیران عامل که به داشبورد اغلب خراب اعتماد ندارند، کشف می شود. یا کاربران نتایج گیج کننده ای از مدل های یادگیری ماشین در محصول دریافت می کنند. اگر مهندسان داده زودتر به آنها هشدار داده شود، بهتر می توانند مشکلات را پیش بینی کنند و از تأثیرات تجاری جلوگیری کنند.

این مفهوم چه تفاوتی با فناوری های صوتی مشابه مانند مدیریت یکپارچه داده دارد؟

کیروان: یکی از کارکردهای اولیه در عملیات داده (فکر کنید: مدیریت داده ها) توانایی نظارت بر داده ها است. بسیاری از مشتریان به دنبال بهترین راه حل ها برای هر عملکرد در عملیات داده هستند. به همین دلیل است که فناوری هایی مانند Snowflake، Fivetran، Airflow و dbt بسیار محبوب هستند. هر کدام بخش مهمی از “پشته داده های مدرن” هستند نه یک راه حل واحد که با هیچ چیز مناسب نیست.

مشاهده پذیری داده ها، قراردادهای سطح خدمات، و ETL [extract, transform, load] کنترل نسخه کد، آزمایش خط لوله داده و سایر فناوری ها باید در کنار هم مورد استفاده قرار گیرند تا همه خطوط لوله داده مدرن به خوبی کار کنند. درست مانند مهندسان نرم افزار با کارایی بالا و تیم های DevOps، آنها از فناوری های خواهر خود استفاده می کنند.

خطوط لوله داده و DataOps چه نقشی در مشاهده داده ها دارند؟

کیروان: توانایی نظارت بر داده ها ارتباط نزدیکی با DataOps و روش نوظهور مهندسی قابلیت اطمینان داده دارد. DataOps به گسترده‌ترین مجموعه از چالش‌های عملیاتی که صاحبان پلت‌فرم داده با آن‌ها مواجه خواهند شد، اشاره دارد. مهندسی قابلیت اطمینان داده جزئی است، اما تنها بخشی از عملیات داده، همانطور که مهندسی قابلیت اطمینان سایت با همه عملیات DevOps مرتبط است اما در آن گنجانده نشده است.

مقیاس پذیری داده ها می تواند مزایای امنیت داده ها را داشته باشد، زیرا می توان از آن برای شناسایی تغییرات غیرمنتظره در اندازه پرس و جو در جداول مختلف یا تغییرات در رفتار خطوط لوله ETL استفاده کرد. با این حال، بعید است که نظارت بر داده ها به تنهایی یک راه حل کامل امنیت داده باشد.

چالش های پیش روی این فناوری چیست؟

کیروان: این چالش‌ها موضوعاتی مانند کشف و حاکمیت داده‌ها، ردیابی و مدیریت هزینه و کنترل‌های دسترسی را پوشش می‌دهند. همچنین نحوه مدیریت تعداد روزافزون پرس و جوها، داشبوردها و ویژگی‌ها و فرم‌های ML را پوشش می‌دهد.

قابلیت اطمینان و آپتایم چالش هایی هستند که بسیاری از تیم های DevOps مسئولیت آن ها را بر عهده می گیرند. اما آنها اغلب جنبه های دیگری مانند سرعت توسعه دهنده و ملاحظات امنیتی را نیز بر عهده دارند. در این دو حوزه، نظارت بر داده ها به تیم های داده امکان می دهد تا ببینند آیا داده ها و خطوط لوله داده بدون خطا هستند یا خیر.

چالش های پیاده سازی و حفظ فناوری پایش داده ها چیست؟

کیروان: سیستم های کنترل داده موثر باید در جریان کاری تیم داده ادغام شوند. این به آنها امکان می دهد تا به جای واکنش مداوم به مسائل داده و خاموش کردن آتش داده ها، روی رشد پلت فرم های داده خود تمرکز کنند. با این حال، تنظیم ضعیف سیستم نظارت بر داده ها می تواند منجر به سیل مثبت کاذب شود.

یک سیستم داده مؤثر همچنین باید با تطبیق خودکار با تغییرات کسب و کار، خارج از آزمایش مسائل مربوط به کیفیت داده، تعمیر و نگهداری زیادی را انجام دهد. با این حال، یک سیستم پایش داده بهینه شده ضعیف ممکن است تغییرات در کار را اصلاح نکند یا تغییرات کار را بیش از حد اصلاح نکند، که نیاز به تنظیم دستی دارد که می‌تواند زمان‌بر باشد.

نظارت بر داده‌ها همچنین می‌تواند از انبار داده مالیات بگیرد اگر به درستی بهینه نشده باشد. تیم‌های Bigeye در بهبود مشاهده‌پذیری داده‌ها در مقیاس تجربه دارند تا اطمینان حاصل کنند که پلت فرم بر عملکرد انبار داده تأثیر نمی‌گذارد.

مشاهده بیشتر

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا