مهندسی داده از نگاه نتفلیکس، Airbnb و Databricks
اوایل خرداد، نتفلیکس در رویداد سالانهی خود یعنی Data Engineering Open Forum 2025، پنلی جذاب با عنوان «آینده مهندسی داده» برگزار کرد که در آن سه متخصص از غولهای فناوری دیدگاههایشان را درباره آینده این حوزه به اشتراک گذاشتند.
Tikica (مدیر پنل – مهندس ارشد نتفلیکس)
Ryan Blue (همبنیانگذار Databricks و سازنده Iceberg)
Jerry (مهندس ارشد Airbnb)
Ena (مهندس داده در نتفلیکس)
ویدئوی ۲۰ دقیقهای این پنل:
https://www.youtube.com/watch?v=VVWjdsuNrwE&ab_channel=NetflixEngineering
The Future of Data Engineering | Data Engineering Open Forum 2025
This talk is a part of the Data Engineering Open Forum 2025 at Netflix. Speakers: Inna Giguere, Director, Content and Studio Data Engineering at Netflix Ryan Blue, Technical Staff at Databricks Jerry Wang, Data Infrastructure Senior Leader at Airbnb Moderated by Tulika Bhatt, Senior Software Engineer at Netflix — If you are interested in attending a future Data Engineering Open Forum, we highly recommend you join our Google Group (https://groups.google.com/g/data-engineering-open-forum) to stay tuned to event announcements.
https://www.youtube.com/watch?v=VVWjdsuNrwE
در این پنل، از مسیرهای شغلی تا چالشهای امروز و مهارتهای فردا صحبت شد. خلاصهای از نکات مطرحشده را در ادامه میخوانید:
۱. هوشمصنوعی؛ دستیار قدرتمند، نه تهدید
برخلاف تصور رایج، #GenAI شغل مهندس داده را تهدید نمیکند، بلکه ابزار توانمندی برای کمک در کارهای پیچیده و تکراریست:
بازنویسی کوئری و کمک در مهاجرت
بهبود مستندسازی و تسهیل پلتفرم
تمرکز بیشتر بر حل مسائل کسبوکار
ارتقاء کیفیت کد
اما این تحولات، نیاز به دادهی باکیفیت، مستند و شفاف را دوچندان میکند.
۲. چالشهای فعلی در مهندسی_داده
مهندسی داده دیگر فقط ساختن چند جدول و اجرای ETL نیست.
با رشد دادهها، ابزارها و انتظارات، چالشها هم رشد کردهاند:
بررسی مشکلات کیفی در دادههایی که وارد مدلهای LLM میشوند بسیار سختتر است. برخلاف داشبورد یا A/B تستها، این مدلها شفاف نیستند.
اتصال بین انبارههای داده آفلاین، آنلاین و اپلیکیشنهای واقعی محصولمحور، باعث شده دیتاپایپلاینها بسیار پیچیدهتر شوند.
نگرانیهای جدیدی دربارهی حریم خصوصی، لو رفتن اطلاعات حساس و نحوهی کنترل دادههای تولیدشده توسط LLMها شکل گرفته است.
مهاجرت به دادههای چندرسانهای (متن، تصویر، ویدیو) نیاز به مهارت و ابزارهایی دارد که خیلی از ما هنوز با آنها آشنا نیستیم.
۳. مهارتهای کلیدی برای آینده
پنلیستها تاکید کردند که مسیر موفقیت همچنان از «پایههای مهندسی قوی» میگذرد:
مدلسازی دقیق داده
درک ساختارها
تعهد به کیفیت
اما برای آینده، باید مهارتهای زیر را نیز توسعه داد:
پردازش real-time و event-driven
آشنایی با جستجوی معنایی و vector DBها
توانایی پردازش دادههای multimodal
یادگیری ابزارهای مدرن مانند DBT، DuckDB، PyIceberg و…
