مجموعه داده یا دیتاست برای یادگیری عمیق

معمولا برای هر کار تحلیل در هر حوزه ای به مجموعه داده ی آن حوزه نیاز میباشد. کلید دستیابی به مهارت اصیل در یادگیری ماشین، تمرین کردن رویکرد های مختلف یادگیری ماشین با دیتاست های گوناگون است چرا که در یادگیری ماشین، هر مسئله، به خودی خود، یک مسئله منحصر به فرد محسوب می شود و نیازمند استراتژی مجزا و منحصر به فرد مخصوص خود می باشد. یکی از مشکلات دانشجویان ارشد و دکترا برای گرایش یادگیری ماشین و یادگیری عمیق این است که: برای فلان تحقیق (مثلاً درس یادگیری ماشین و یادگیری عمیق) یا پایان‌نامه، نیاز به یک دیتاست (DataSet = مجموعه داده) دارم، از کجا می‌توانم گیر بیاورم؟

هر چند می‌شود با جستجو، به نتایجی دست یافت اما بد نیست در این سایت برخی از مهم‌ترین سایت‌های مورد نظر خود را جستجو کنید. من امروز میخوام به شما یکی از بزرگترین مخزنهای دیتاستهای مربوط به حوزه یادگیری ماشین و یادگیری عمیق در جهان! رو معرفی کنم. این سایت  AcademicTorrents هست.

دیتاست برای یادگیری عمیق
دیتاست برای یادگیری عمیق

تو این سایت شما میتونید بزرگترین دیتاست ها تو تمام زمینه هایی که فکرشو بکنید پیدا کنید. از دیتاست عظیمی مثل ImageNet2012 با تقریبا ۲۰۰ گیگابایت حجم گرفته تا دیتاستهای پزشکی و دریایی و نقاشی های ونگوگ! و الی اخر رو میتونید پیدا کنید.

نکته خیلی مهمی که باعث میشه این سایت فوق العاده برای ما مهم باشه اینه که بعضی از دیتاستهایی که شما اونجا پیدا میکنید در حالت عادی امکان استفاده ازش رو ممکنه پیدا نکنید. یعنی چی ؟ بعنوان مثال شما برای دانلود دیتاست ایمیج نت حتما باید ایمیل دانشگاهی داشته باشید و تایید بشید و اگر در دانشگاهی باشید که ایمیل بهتون ندن و یا دانشگاه شما تایید نشه نمیتونید از این دیتاست استفاده کنید.(دانلود تصاویر البته. بصورت ریموت میتونیدالبته!) دیتاست های دیگه ای هم هستن که بصورت مکتوب یک اجازه نامه رو باید ببرید ریاست دانشگاه تایید بکنه که شما قصد تحقیقات اکادمیک دارید و از طرف فلان دانشگاه هستید و با مفاد مندرج در موافقنامه دیتاست موافقید و بعد اون اجازه نامه رو بعد تایید ارسال کنید تا اونقوت بتونید دیتاست رو دانلود و استفاده کنید. و این تازه مربوط به دانشجوهاست . اگر شما فارغ  التحصیل شده باشید و یا تو یه شرکت قصد انجام یکسری تحقیقات تو این زمینه رو داشته باشید قائدتا مشکلات بیشتری براتون پیش میاد. یا باید با واسطه از ایمیل یک دانشجو دیگه برای دانلود استفاده کنید و یا کلا بیخیال بشید) . شخصا خود من مشکلاتی که گفتم رو باهاش برخورد کردم . مسئولین دانشگاه امضا موافقت نامه رو به این بهانه که قبلا مورد مشابهی بوده و مشکل ایجاد شده و الخ رد میکردن و امضا نمیکردن و کلی داستان دیگر.برای همین وجود یک همچین سایتی مثل یک جواهر میمونه

مخزن دیتاستهای یادگیری ماشین دانشگاه UCI

از مهمترین منابع دیگر میتوان به سایت دیتاستهای یادگیری ماشین دانشگاه UC  اشاره کرد. در این سایت شما حتی میتونید آموزش های مختلف اساتید برتر دنیا مثل اندرو ان جی استاد ماشین لرنینگ دانشگاه استنفورد و یکی از مهندسان ارشد شرکت بایدو و یا جفری هینتون یکی از بنیانگذاران یادگیری عمیق و استاد دانشگاه تورنتو (استاد الکس کریژوسکی برنده رقابت ۲۰۱۲ ایمیج نت!) و… رو پیدا کنید .حتی آموزش دانشگاه استنفورد که من اخیرا گذاشتم هم بصورت کامل اینجا هست و میتونید دانلود کنید. به اینها مقالات رو هم اضافه کنید . در یک کلام این سایت فوق العاده است. این سایت توسط دانشگاه های مطرح دنیا استفاده میشه و امیدوارم شما هم بهترین استفاده رو ازش ببرید.

مجموعه داه یا دیتاست برای یادگیری عمیق
مجموعه داه یا دیتاست برای یادگیری عمیق

معرفی پایگاه‌های دیتاست‌های مهم دیگر

و در انتها به معرفی برخی از پایگاه‌هایی که دیتاست‌های خوبی در آن‌ها قابل‌دسترسی هست می‌پردازیم: 

 

  • و همچنین دیتاست داده‌های نرم‌افزارها و بازی‌های موجود در کافه بازار که با روش استخراج داده از وب جمع‌آوری‌شده است:

https://github.com/Mahdi-Mohammadi/CafeBazaar.ir

منبع:
deeplearning.ir

مدیریت سرور پشتیبانی و مشاوره – ثبت دامنه

نوشته های مشابه