جلوگیری از افشای دیتابیس DeepSeek
DeepSeek یک استارت آپ هوش مصنوعی چینی هستش که اخیرا به دلیل مدلهای هوش مصنوعی پیشگامانه خودش، بویژه مدل DeepSeek-R1، توجه رسانه ها رو به خودش جلب کرده.
این مدل از نظر عملکرد با سیستمهای هوش مصنوعی پیشرو مانند مدل o1 شرکت OpenAI رقابت میکنه و بدلیل مقرون به صرفه بودن و کارایی، برجسته شده.
همانطور که DeepSeek در فضای هوش مصنوعی موجی به راه انداخت، تیم تحقیقاتی WIZ تصمیم گرفت وضعیت امنیت اونو ارزیابی کنه و هرگونه آسیبپذیری احتمالی رو شناسایی کنه. در حقیقت اومدن این استارت آپ رو مثله برنامه باگ بانتی، بررسی کردن.
در عرض چند دقیقه، محققا یک دیتابیس ClickHouse در معرض دید عموم مرتبط با DeepSeek رو پیدا کردن که کاملاً باز و بدون احراز هویت بود و دادههای حساس رو در معرض دید قرار میداد. این دیتابیس در oauth2callback.deepseek.com:9000 و dev.deepseek.com:9000 میزبانی میشد و حاوی حجم قابل توجهی از تاریخچه چت، داده های بک اند و اطلاعات حساس، از جمله لاگ استریمها، اطلاعات حساس API و جزئیات عملیاتی بود.
نکته جالبتر، امکان کنترل کامل دیتابیس و افزایش احتمالی امتیازات در محیط DeepSeek رو بدون هیچگونه احراز هویت یا مکانیسم دفاعی رو فراهم میکرد.
این موارد رو طبق افشای مسئولانه، به DeepSeek گزارش دادن تا از افشای اونا بصورت عمومی جلوگیری کنن.
محققا چطوری این دیتابیس رو در DeepSeek پیدا کردن:
محققا در قدم اول اومدن دامنه هایی که در دسترس عموم هستش رو ارزیابی کردن. با روشهای مختلف ریکان، پسیو و زیر دامنه های فعال، تونستن حدود ۳۰ سابدومین در معرض دید از طریق اینترنت رو شناسایی کنن. خیلیاشون مورد خاصی نداشتن و چیزایی مانند رابط چتبات، صفحه وضعیت و مستندات API رو میزبانی میکردن و هیچکدومشون در ابتدا نشون دهنده یک افشا با ریسک بالا رو نداشتن.
محققا جستجوشون رو فراتر از پورتهای استاندارد HTTP یعنی 80 و 443 بردن و تونستن دو پورت باز غیرمعمول، 8123 و 9000 رو روی میزبانهای زیر پیدا کنن:
http://oauth2callback.deepseek.com:8123
http://dev.deepseek.com:8123
http://oauth2callback.deepseek.com:9000
http://dev.deepseek.com:9000
در ادامه اومدن این موارد رو بررسی کردن و از این پورتها رسیدن به یک دیتابیس ClickHouse که بصورت پابلیک و بدون احراز هویت در معرض دید عموم بوده.
ClickHouse یک سیستم مدیریت پایگاه داده ستونی متنباز هستش که برای کوئری های تحلیلی سریع روی مجموعه دادههای بزرگ طراحی شده. این سیستم توسط Yandex توسعه یافته و بطور گسترده برای پردازش دادههای بیدرنگ، ذخیرهسازی لاگها و تحلیل دادههای بزرگ استفاده میشه. این موارد نشون میده که دیتابیسی که محققا کشف کردن، میتونه ارزشمند و حساس باشه.
محققا از طریق اینترفیس وب ClickHouse ، تونستن به مسیر play/ دسترسی پیدا کنن، که امکان اجرای مستقیم کوئری های SQL رو از طریق مرورگر میده. در این محیط اومدن کوئری SHOW TABLES رو اجرا کردن تا لیستی از داده های در دسترس رو مشاهده کنن.
در بین این اطلاعات، جدول log_stream جذاب بوده. این جدول حاوی لاگهای استریم همراه با داده های حساس بوده و حدود یک میلیون رکورد داشته با ستون های زیر:
- timestamp: لاگها از 6 ژانویه 2025
- span_name: رفرنسها به نقاط پایانی DeepSeek API داخلی
- string.values: لاگها بصورت متن ساده شامل: تاریخچه چتها، کلیدهای API ، جزییات بک اند و متادیتاهای عملیاتی
- service_: نشون میده که کدوم سرویس DeepSeek، لاگها رو ایجاد کرده
- source_: منشاء درخواستهای لاگ رو نشون میده که شامل تاریخچه چت، کلیدهای API ، ساختار دایرکتوری و لاگهای متادیتای چت بات
این سطح از دسترسی، یک ریسک حیاتی برای امنیت خود DeepSeek و کاربران نهایی اونا ایجاد میکرد. نه تنها یک مهاجم میتونست لاگهای حساس و پیامهای چت رو بازیابی کنه، بلکه میتونست بطور بالقوه رمزهای عبور متن ساده و فایلهای محلی به همراه اطلاعات اختصاصی رو مستقیماً از سرور با استفاده از کوئریهایی مانند: SELECT * FROM file('filename')
بسته به پیکربندی ClickHouse استخراج کنه.
نکته کنکوری: اگه باگ بانتی وب انجام میدید، میتونید ClickHouse رو هم در تارگتهاتون بررسی کنید.
نکات کلیدی:
استفادهی سریع از سرویسهای هوش مصنوعی بدون توجه به امنیتشون، ذاتاً خطرناک است. این افشا بر این واقعیت تأکید میکنه که خطرات امنیتی برای برنامههای هوش مصنوعی از زیرساختها و ابزارهای پشتیبان اونا ناشی میشه.
در حالیکه بیشتر توجه پیرامون امنیت هوش مصنوعی بر تهدیدات آیندهنگر متمرکز هستش، خطرات واقعی اغلب از ریسکهای اساسی ، مانند افشای تصادفی دیتابیس، ناشی میشن. این ریسکها، که برای امنیت بنیادی هستن، باید در اولویت اصلی تیمهای امنیتی باقی بمونن.
همانطور که سازمانها برای پذیرش ابزارها و سرویسهای هوش مصنوعی از تعداد فزایندهای از استارتآپها و ارائه دهندگان عجله میکنن، مهم است که به یاد داشته باشیم که با انجام این کار، ما به این شرکتها، دادههای حساس رو امانت میدیم. پذیریش سریع، اغلب منجر به نادیده گرفتن امنیت میشه، اما محافظت از دادههای مشتریان باید در اولویت اصلی باقی بمونه.
بسیار مهم است که تیمهای امنیتی از نزدیک با مهندسان هوش مصنوعی همکاری کنن تا از دیده شدن معماری، ابزارها و مدلهای مورد استفاده اطمینان حاصل کنن، تا بتونن از دادهها محافظت و از افشا جلوگیری کنن.