چالش مشاهده پذیری داده های بزرگ: ایجاد اعتماد در کل
چالش مشاهده پذیری داده های بزرگ: ایجاد اعتماد در کل
هزینه تمیز کردن داده ها برای شرکت هایی که پر از داده های بالقوه کثیف هستند، اغلب خارج از منطقه راحتی است. این مسیرها را برای یک جریان داده های شرکتی قابل اعتماد و سازگار مسدود می کند.
به گفته کایل کیروان، یکی از بنیانگذاران و مدیر عامل پلتفرم نظارت بر داده Bigeye، تعداد کمی از شرکت ها منابع لازم برای توسعه ابزارهایی برای چالش هایی مانند نظارت بر داده ها در مقیاس را دارند. در نتیجه، بسیاری از شرکتها نابینا هستند و زمانی که مشکلی پیش میآید به جای پرداختن به کیفیت دادهها، واکنش نشان میدهند.
اعتماد به داده ها یک چارچوب قانونی برای مدیریت داده های مشترک فراهم می کند. همکاری را از طریق قوانین مشترک امنیت داده ها، حریم خصوصی و محرمانگی ترویج می کند. سازمان ها را قادر می سازد تا به طور ایمن به منابع داده خود در یک مخزن داده مشترک متصل شوند.
Bigeye مهندسان داده، تحلیلگران، دانشمندان و سهامداران را برای ایجاد اعتماد در داده ها گرد هم می آورد. پلتفرم آن به شرکتها کمک میکند نظارت خودکار، تشخیص ناهنجاریها و ایجاد توافقنامههای سطح خدمات را برای اطمینان از کیفیت داده و خطوط لوله قابل اعتماد ایجاد کنند.
با دسترسی کامل به API، رابط کاربری آسان، و سفارشیسازی خودکار و انعطافپذیر، تیمهای داده میتوانند کیفیت را کنترل کنند، به طور فعال مشکلات را شناسایی و حل کنند و اطمینان حاصل کنند که هر کاربر میتواند به دادهها تکیه کند.
تجربه داده Uber
دو عضو اولیه تیم داده Uber – Kirwan و Peggy، یکی از بنیانگذاران و CTO Igor Gryaznov – تصمیم گرفتند از آنچه در ساخت مقیاس Uber یاد گرفتهاند برای ایجاد ابزارهای SaaS با قابلیت استقرار آسانتر برای مهندسان داده استفاده کنند.
Kirwan یکی از اولین دانشمندان داده در Uber و اولین مدیر محصول برای ابرداده بود. گریازنوف یک مهندس در سطح کارکنان بود که انبار داده Vertica اوبر را مدیریت می کرد و چندین ابزار و چارچوب مهندسی داده داخلی را توسعه می داد.
آنها متوجه شدند که تیمهایشان ابزارهایی را برای مدیریت دریاچه دادههای بزرگ Uber میسازند و هزاران کاربر داده داخلی آنها بسیار جلوتر از آنچه در دسترس اکثر تیمهای مهندسی داده بود، بودند.
نظارت و تشخیص خودکار مسائل مربوط به قابلیت اطمینان در هزاران جدول در انبارهای داده کار آسانی نیست. شرکتهایی مانند Instacart، Udacity، Docker و Clubhouse از Bigeye استفاده میکنند تا تجزیه و تحلیل و یادگیری ماشین را به طور مداوم در حال اجرا نگه دارند.
زمینه در حال رشد
آنها با تأسیس Bigeye در سال 2019، متوجه شدند که سازمانها با مشکل رو به رشدی در استقرار دادهها در موارد استفاده با بازگشت سرمایه بالا مانند گردشهای کاری فرآیندی با یادگیری ماشین، محصولات و خدمات، تجزیه و تحلیل استراتژیک، و تصمیمگیری مبتنی بر هوش تجاری مواجه هستند.
فضای پایش داده ها در سال 2021 شاهد تعدادی شرکت کننده بود. Bigeye با ارائه قابلیت ارزیابی خودکار کیفیت داده های مشتری با بیش از 70 معیار کیفیت داده منحصر به فرد، خود را از آن بسته جدا کرد.
این معیارها با استفاده از هزاران مدل تشخیص ناهنجاری جداگانه آموزش داده میشوند تا اطمینان حاصل شود که مسائل مربوط به کیفیت داده – حتی سختترین آنها – هرگز برای مهندسان داده نادیده گرفته نمیشوند.
در سال گذشته، مشاهدهپذیری دادهها با دستکم دهها استارتآپ نظارت بر دادهها که دورهای اصلی تامین مالی را اعلام کردند، برجسته شده است.
کیروان پیشبینی میکند که امسال پایش دادهها به یک اولویت برای تیمهای داده تبدیل شود، زیرا آنها به دنبال متعادل کردن تقاضا برای مدیریت پلتفرمهای پیچیده با نیاز به اطمینان از کیفیت داده و قابلیت اطمینان خط لوله هستند.
راه حل خلاصه
پلتفرم داده Bigeye دیگر در مرحله بتا نیست. برخی از ویژگی های درجه سازمانی مانند کنترل دسترسی کامل مبتنی بر نقش هنوز در نقشه راه هستند. اما موارد دیگر، مانند استقرار SSO و in-VPC، امروزه در دسترس هستند.
این برنامه منبع بسته است، همانطور که مدل های اختصاصی مورد استفاده برای تشخیص انحرافات هستند. Bigeye یکی از طرفداران پر و پا قرص گزینههای منبع باز است، اما تصمیم گرفت گزینههای خود را برای دستیابی به اهداف عملکردی تعیینشده داخلی خود توسعه دهد.
یادگیری ماشینی در چند مکان کلیدی برای ارائه ترکیبی منحصر به فرد از معیارها برای هر جدول در منابع داده مرتبط با مشتری استفاده می شود. مدلهای تشخیص ناهنجاری در هر یک از این مقیاسها برای تشخیص رفتار غیرعادی آموزش داده میشوند.
سه ویژگی ساخته شده در پایان سال 2021 به طور خودکار مسائل مربوط به کیفیت داده ها را شناسایی و هشدار می دهد و توافق نامه های سطح خدمات کیفیت داده را فعال می کند.
اولی، Deltas، مقایسه و اعتبارسنجی چندین نسخه از هر مجموعه داده را آسان می کند.
مسائل، ثانیاً، چندین هشدار را با هم در یک جدول زمانی واحد با زمینه ارزشمند در مورد مسائل مرتبط گروه بندی می کنند. این باعث میشود که مستندسازی اصلاحات قبلی آسانتر شود و وضوح تصویر افزایش یابد.
پانل سوم، داشبورد، نمای کلی از سلامت داده ها را ارائه می دهد، به شناسایی نقاط داغ با کیفیت داده ها، پر کردن شکاف ها در پوشش نظارت و شناسایی پیشرفت هایی که تیم برای قابلیت اطمینان انجام می دهد، کمک می کند.
مخازن داده های چشم
TechNewsWorld با Kirwan صحبت کرد تا برخی از پیچیدگیهایی را که پلتفرم جستجوی دادههای شرکتش در اختیار دانشمندان داده قرار میدهد، ابهام کند.
TechNewsWorld: چه چیزی برنامه درسی Bigeye را نوآورانه یا پیشرفته می کند؟
کایل کیروان: نظارت بر داده ها مستلزم دانش ثابت و کامل از آنچه در تمام جداول و خطوط لوله در پشته داده شما اتفاق می افتد، دارد. شبیه SRE است [site reliability engineering] و DevOps توسط تیم های تجاری استفاده می شود تا برنامه ها و زیرساخت ها را به صورت شبانه روزی در حال اجرا نگه دارند. اما برای دنیای مهندسی داده و علم داده دوباره تصور شده است.
در حالی که کیفیت داده ها و قابلیت اطمینان داده ها برای چندین دهه یک مسئله بوده است، برنامه های کاربردی داده در حال حاضر برای تعداد شرکت های پیشرو در حال فعالیت حیاتی هستند. زیرا هر گونه از دست دادن داده، وقفه یا بدتر شدن می تواند به سرعت منجر به از دست دادن درآمد و مشتریان شود.
بدون مشاهدهپذیری دادهها، تاجران داده باید دائماً با مسائل مربوط به کیفیت داده تعامل داشته باشند و باید در هنگام استفاده از دادهها درباره آن بحث کنند. بهترین راه حل، شناسایی پیشگیرانه مشکلات و رفع علل ریشه ای است.
اعتماد چگونه بر داده ها تأثیر می گذارد؟
کیروان: اغلب، مشکلات توسط ذینفعانی مانند مدیران عامل که به داشبورد اغلب خراب اعتماد ندارند، کشف می شود. یا کاربران نتایج گیج کننده ای از مدل های یادگیری ماشین در محصول دریافت می کنند. اگر مهندسان داده زودتر به آنها هشدار داده شود، بهتر می توانند مشکلات را پیش بینی کنند و از تأثیرات تجاری جلوگیری کنند.
این مفهوم چه تفاوتی با فناوری های صوتی مشابه مانند مدیریت یکپارچه داده دارد؟
کیروان: یکی از کارکردهای اولیه در عملیات داده (فکر کنید: مدیریت داده ها) توانایی نظارت بر داده ها است. بسیاری از مشتریان به دنبال بهترین راه حل ها برای هر عملکرد در عملیات داده هستند. به همین دلیل است که فناوری هایی مانند Snowflake، Fivetran، Airflow و dbt بسیار محبوب هستند. هر کدام بخش مهمی از “پشته داده های مدرن” هستند نه یک راه حل واحد که با هیچ چیز مناسب نیست.
مشاهده پذیری داده ها، قراردادهای سطح خدمات، و ETL [extract, transform, load] کنترل نسخه کد، آزمایش خط لوله داده و سایر فناوری ها باید در کنار هم مورد استفاده قرار گیرند تا همه خطوط لوله داده مدرن به خوبی کار کنند. درست مانند مهندسان نرم افزار با کارایی بالا و تیم های DevOps، آنها از فناوری های خواهر خود استفاده می کنند.
خطوط لوله داده و DataOps چه نقشی در مشاهده داده ها دارند؟
کیروان: توانایی نظارت بر داده ها ارتباط نزدیکی با DataOps و روش نوظهور مهندسی قابلیت اطمینان داده دارد. DataOps به گستردهترین مجموعه از چالشهای عملیاتی که صاحبان پلتفرم داده با آنها مواجه خواهند شد، اشاره دارد. مهندسی قابلیت اطمینان داده جزئی است، اما تنها بخشی از عملیات داده، همانطور که مهندسی قابلیت اطمینان سایت با همه عملیات DevOps مرتبط است اما در آن گنجانده نشده است.
مقیاس پذیری داده ها می تواند مزایای امنیت داده ها را داشته باشد، زیرا می توان از آن برای شناسایی تغییرات غیرمنتظره در اندازه پرس و جو در جداول مختلف یا تغییرات در رفتار خطوط لوله ETL استفاده کرد. با این حال، بعید است که نظارت بر داده ها به تنهایی یک راه حل کامل امنیت داده باشد.
چالش های پیش روی این فناوری چیست؟
کیروان: این چالشها موضوعاتی مانند کشف و حاکمیت دادهها، ردیابی و مدیریت هزینه و کنترلهای دسترسی را پوشش میدهند. همچنین نحوه مدیریت تعداد روزافزون پرس و جوها، داشبوردها و ویژگیها و فرمهای ML را پوشش میدهد.
قابلیت اطمینان و آپتایم چالش هایی هستند که بسیاری از تیم های DevOps مسئولیت آن ها را بر عهده می گیرند. اما آنها اغلب جنبه های دیگری مانند سرعت توسعه دهنده و ملاحظات امنیتی را نیز بر عهده دارند. در این دو حوزه، نظارت بر داده ها به تیم های داده امکان می دهد تا ببینند آیا داده ها و خطوط لوله داده بدون خطا هستند یا خیر.
چالش های پیاده سازی و حفظ فناوری پایش داده ها چیست؟
کیروان: سیستم های کنترل داده موثر باید در جریان کاری تیم داده ادغام شوند. این به آنها امکان می دهد تا به جای واکنش مداوم به مسائل داده و خاموش کردن آتش داده ها، روی رشد پلت فرم های داده خود تمرکز کنند. با این حال، تنظیم ضعیف سیستم نظارت بر داده ها می تواند منجر به سیل مثبت کاذب شود.
یک سیستم داده مؤثر همچنین باید با تطبیق خودکار با تغییرات کسب و کار، خارج از آزمایش مسائل مربوط به کیفیت داده، تعمیر و نگهداری زیادی را انجام دهد. با این حال، یک سیستم پایش داده بهینه شده ضعیف ممکن است تغییرات در کار را اصلاح نکند یا تغییرات کار را بیش از حد اصلاح نکند، که نیاز به تنظیم دستی دارد که میتواند زمانبر باشد.
نظارت بر دادهها همچنین میتواند از انبار داده مالیات بگیرد اگر به درستی بهینه نشده باشد. تیمهای Bigeye در بهبود مشاهدهپذیری دادهها در مقیاس تجربه دارند تا اطمینان حاصل کنند که پلت فرم بر عملکرد انبار داده تأثیر نمیگذارد.