دریاچه داده Data Lake و تفاوت با باتلاق داده Data Swamp

دریاچه داده (Data Lake) و مفهوم بیگ دیتا دو واژه ناگسستنی هستند به عبارتی Data Lake ظرفی برای نگهداری بیگ دیتا یا کلان داده است که با توجه به گذر زمان ویژگیهای فنی زیادی برای آن شمارده شده است که در ادامه به آن میپردازیم. نکته ای درک آن بسیار مهم است این است که دریاچه داده به تنهایی این امکان را فراهم میکند که جایگزینی برای انبار داده و سایر اعضا همچون دیتا مارت گردد. این مفهوم غلط است که دریاچه داده تنها برای نگهداری داده های خام است. در دریاچه داده نه تنها ذخیره هر نوع داده امکان پذیر است بلکه و پردازش و داده کاوی در دریاچه داده نشانه افزایش سطح بلوغ آن بوده که در ادامه بررسی خواهد شد.

عناوين مطالب: ‘

دریاچه داده (Data Lake) چيست؟

یک دریاچه را در نظر بگیرید که رودخانه‌های مختلف به آن وارد می‌شوند. در واقع هر رودخانه مقداری آب در این دریاچه خواهد ریخت و آب‌های موجود در این دریاچه حاصل مجموعه این رودها است. دریاچه داده یا همان Data Lake نیز به همین صورت است. یک مخزن عظیم که داده‌های مختلف از طُرق متفاوت وارد این دریاچه می‌شوند و در آن ذخیره می‌گردند.

تفاوت انبارداده (Data Warehouse) و دریاچه داده (Data Lake)

دریاچه داده محلی برای نگهداری بیگ دیتا است. با بیان ساده، مفهوم دریاچه داده را می‌توان اینگونه توضیح داد که اگر انبار داده را مشابه یک بطری آب تصفیه‌شده، بسته‌بندی شده و آماده مصرف در نظر بگیریم، دریاچه داده (همانند نام آن) دریاچه‌ای است که آب از منابع مختلف ( آب باران، چشمه‌ها، رودها یا منابع دیگر) در آن سرازیر شده و افراد می‌توانند از آب دریاچه برای شنا، آشامیدن یا حتی نمونه‌برداری! استفاده کنند. در یک شرکت، ما باید همیشه بر اساس داده ها تصمیم بگیریم. ما به داده های کل گروه نیاز داریم تا تصویری جامع داشته باشیم و تصمیمات تجاری درستی بگیریم، هدف حاکمیت داده از اهداف مهم دریاچه داده است.

انبارداده (Data Warehouse)
انبارداده (Data Warehouse)

در انبارداده، داده‌های ساختاریافته (Structured Data) قرار می‌گیرند در حالی که در دریاچه داده  هر نوع داده‌ای (چه ساختاریافته و چه غیرساختاریافته) می‌توانند در دریاچه داده یا همان Data Lake ذخیره شوند. دریاچه داده یک الگوی طراحی مبتنی بر داده‌های مدرن است که برای نگهداری طیف گستردهای از انواع داده‌ها، اعم از قدیمی و جدید، در مقیاس وسیع کاربرد دارد. طبق تعریف، دریاچه داده به منظور ذخیره سریع داده‌های خام به همراه پردازش داده‌ها برای اکتشاف، تجزیه و تحلیل و عملیات بهینه‌سازی شده است.

مزایای دریاچه داده (Data Lake)

دمکراتیک کردن داده ها

یک دریاچه داده می تواند داده ها را در اختیار کل سازمان قرار دهد. این همان چیزی است که ما آن را دموکراتیزاسیون داده ها می نامیم. در حال حاضر، فقط مدیران ارشد این تجمل را دارند که از بخش‌های مختلف گزارش بخواهند، چیزهایی را از آن‌ها دریافت کنند و سپس تصمیم بگیرند. سایر مزایای دریاچه داده را در شکل زیر بررسی کنید:

مزایای دریاچه داده
مزایای دریاچه داده

Ingestion Data

این مفهوم به اتصالات اجازه می‌دهد تا داده‌ها را از منابع مختلف داده دریافت کرده و در دریاچه اطلاعات بارگیری کنند. مفهوم Ingestion Data با موارد زیر سر و کار دارد:

  • انواع مختلف منابع داده مانند پایگاه داده، وب سرورها، ایمیل‌ها، اینترنت اشیا و FTP
  • استفاده از داده‌ها به دفعات زیاد مانند مصرف دسته‌ای یا مصرف لحظه‌ای
  • انواع داده ‌های ساختار یافته، داده های نیمه ساختار یافته و ساختار نیافته

حاکمیت داده‌ها

این مفهوم برای کنترل در دسترس بودن، قابلیت استفاده، امنیت و یکپارچگی داده‌های مورد استفاده در سازمان مورد استفاده قرار می‌گیرد.

 مقیاس پذیر

ذخیره داده یک مفهوم مقیاس پذیر است. این مفهوم، با ارائه یک ذخیره سازی به صرفه، دسترسی سریع به اکتشاف داده را امکان‌پذیر می‌کند. همچنین مفهوم «ذخیره داده» باید از قالب‌های مختلف داده پشتیبانی و حمایت کند.

مدیریت سرور، پشتیبانی و کانفیگ سرور – آفاق هاستینگ

نوشته های مشابه