مهندسی داده از نگاه نتفلیکس، Airbnb و Databricks

اوایل خرداد، نتفلیکس در رویداد سالانه‌ی خود یعنی Data Engineering Open Forum 2025، پنلی جذاب با عنوان «آینده مهندسی داده» برگزار کرد که در آن سه متخصص از غول‌های فناوری دیدگاه‌های‌شان را درباره آینده این حوزه به اشتراک گذاشتند.

 Tikica (مدیر پنل – مهندس ارشد نتفلیکس)

 Ryan Blue (هم‌بنیان‌گذار Databricks و سازنده Iceberg)

 Jerry (مهندس ارشد Airbnb)

 Ena (مهندس داده در نتفلیکس)

ویدئوی ۲۰ دقیقه‌ای این پنل:

https://www.youtube.com/watch?v=VVWjdsuNrwE&ab_channel=NetflixEngineering

The Future of Data Engineering | Data Engineering Open Forum 2025

This talk is a part of the Data Engineering Open Forum 2025 at Netflix. Speakers: Inna Giguere, Director, Content and Studio Data Engineering at Netflix Ryan Blue, Technical Staff at Databricks Jerry Wang, Data Infrastructure Senior Leader at Airbnb Moderated by Tulika Bhatt, Senior Software Engineer at Netflix — If you are interested in attending a future Data Engineering Open Forum, we highly recommend you join our Google Group (https://groups.google.com/g/data-engineering-open-forum) to stay tuned to event announcements.

https://www.youtube.com/watch?v=VVWjdsuNrwE

در این پنل، از مسیرهای شغلی تا چالش‌های امروز و مهارت‌های فردا صحبت شد. خلاصه‌ای از نکات مطرح‌شده را در ادامه می‌خوانید:

 ۱. هوش‌مصنوعی؛ دستیار قدرتمند، نه تهدید

برخلاف تصور رایج، #GenAI شغل مهندس داده را تهدید نمی‌کند، بلکه ابزار توانمندی برای کمک در کارهای پیچیده و تکراری‌ست:

بازنویسی کوئری و کمک در مهاجرت

بهبود مستندسازی و تسهیل پلتفرم

تمرکز بیشتر بر حل مسائل کسب‌وکار

ارتقاء کیفیت کد

اما این تحولات، نیاز به داده‌ی باکیفیت، مستند و شفاف را دوچندان می‌کند.

۲. چالش‌های فعلی در مهندسی_داده

مهندسی داده دیگر فقط ساختن چند جدول و اجرای ETL نیست.

با رشد داده‌ها، ابزارها و انتظارات، چالش‌ها هم رشد کرده‌اند:

بررسی مشکلات کیفی در داده‌هایی که وارد مدل‌های LLM می‌شوند بسیار سخت‌تر است. برخلاف داشبورد یا A/B تست‌ها، این مدل‌ها شفاف نیستند.

اتصال بین انباره‌های داده آفلاین، آنلاین و اپلیکیشن‌های واقعی محصول‌محور، باعث شده دیتاپایپ‌لاین‌ها بسیار پیچیده‌تر شوند.

نگرانی‌های جدیدی درباره‌ی حریم خصوصی، لو رفتن اطلاعات حساس و نحوه‌ی کنترل داده‌های تولیدشده توسط LLMها شکل گرفته است.

مهاجرت به داده‌های چندرسانه‌ای (متن، تصویر، ویدیو) نیاز به مهارت و ابزارهایی دارد که خیلی از ما هنوز با آنها آشنا نیستیم.

 ۳. مهارت‌های کلیدی برای آینده

پنلیست‌ها تاکید کردند که مسیر موفقیت همچنان از «پایه‌های مهندسی قوی» می‌گذرد:

مدل‌سازی دقیق داده

درک ساختارها

تعهد به کیفیت

اما برای آینده، باید مهارت‌های زیر را نیز توسعه داد:

پردازش real-time و event-driven

آشنایی با جستجوی معنایی و vector DBها

توانایی پردازش داده‌های multimodal

یادگیری ابزارهای مدرن مانند DBT، DuckDB، PyIceberg و…

نوشته های مشابه