همکاری مهندسان اوپنایآی و تیم قرمز چطور به ایمنسازی ChatGPT Agent کمک کرد؟

شرکت اوپنایآی چند روز پیش از عامل هوش مصنوعی جدیدی به نام «ChatGPT Agent» رونمایی کرد که به کاربران پولی این شرکت اجازه میدهد با استفاده از بخش «ابزارها» یا «Tools» در این چتبات و انتخاب حالتی که به هوش مصنوعی عاملیت میدهد به نام «Agent mode» بتوانند وظایفی مثل پاسخ به ایمیل، دانلود، اصلاح فایل و غیره را به هوش مصنوعی واگذار کنند.
به گزارش پیوست، معرفی یک عامل هوش مصنوعی گامی مهم برای توسعه دهنده پرمخطابترین چتبات جهان است اما در حالی که عاملهای هوش مصنوعی میتوانند وظایفی را از سمت کاربر برعهده گرفته و به انجام برسانند، حساسیت امنیتی آنها افزایش مییابد. ابزاری که حالا با اجازه شما به حسابهای مختلف کاربری مثل ایمیل دسترسی دارد و خود دستوراتی را به اجرا میگذارد، در صورت اشتباه تبعات مهمی را به دنبال دارد.
اهمیت این مساله باعث شده است تا تیم ویژهای در اوپنایآی بر تضمین امنیت این ابزار تمرکز کنند. برای مقابله با این چالشها، اوپنایآی از یک تیم خبره موسوم به «تیم قرمز» (Red Team) بهره گرفته است؛ گروهی متشکل از ۱۶ پژوهشگر امنیتی با مدرک دکترای مرتبط با ایمنی زیستی که وظیفه داشتند در یک بازه زمانی ۴۰ ساعته، سامانه را به طور کامل آزمایش و نقاط ضعف آن را شناسایی کنند.
ونچربیت گزارش میدهد که تیم قرمز در بررسی پیش از عرضه ChatGPT Agent هفت آسیبپذیری سراسری را شناسایی کرد که امکان سو استفاده از سیستم را فراهم میساخت. مهندسان اوپنایآی پس از بررسیهای این تیم توانستند پیش از عرضه تغییرات و اصلاحاتی را اعمال کرده و از بهبود امنیت اطمینان حاصل کنند.
کشف ۷ آسیبپذیری سراسری با ۱۱۰ حمله هدفمند
اعضای تیم قرمز توانستند در طول چهار مرحله آزمایش، هفت آسیبپذیری سراسری را کشف کنند. این آسیبپذیریها پتانسیل آن را داشتند تا هر مکالمهای در ChatGPT Agent را در معرض خطر قرار دهند. از جمله تهدیدهای کشف شده در این آزمایشها میتوان به موارد زیر اشاره کرد:
- دستورات مخفی بصری در مرورگر: این دسته از حملات پیش از اصلاح با موفقیت ۳۳ درصدی امکان استخراج فعال داده از صفحات وب را فراهم میکردند. هدف این آسیبپذیری صفحات وبی بود که عامل هوش مصنوعی با آنها تعامل داشت.
- سواستفاده از اتصال به Google Drive: این آسیبپذیری که نرخ موفقیت آن منتشر نشده است مستندات ابری را در گوگل درایو هدف میگرفت و باعث نشد اسناد ذخیره شده میشد.
- حملات چندمرحلهای زنجیرهوار: این حملات که نرخ موفقیت متغییر داشتند اقدامات میان سایتی را هدف میگیرفتند و میتوانستند تمام روند اجرای دستور را تحت تاثیر قرار دهند.
- استخراج اطلاعات زیستی خطرناک: در این آسیبپذیری ۱۶ مورد از آزمایشها توانستند از سرحدهای مشخص شده عبور کنند و با هدف گرفتن اطلاعات خطرناک، پتانسیل سو استفاده از دادهها برای تولید سلاح زیستی را در خود داشتند.
اوپنایآی در پاسخ به اطلاعات و دادههایی که تیم قرمز در اختیار آنها قرار داده بود، معماری عامل هوش مصنوعی خود را به طور کامل تغییر داد که از جمله آنها میتوان به ساخت یک معماری دولایه برای بررسی اشاره کرد؛ ساختاری که ۱۰۰ درصد از ترافیک تولید را در لحظه مورد نظارت قرار میدهد.
بازطراحی زیرساخت امنیتی ChatGPT Agent
در پاسخ به این یافتهها، اوپنایآی تغییرات عمیقی را در معماری زیرساخت امنیتی خود اعمال کرد که از جمله آنها میتوان به موارد زیر اشاره کرد:
- نظارت کامل بر ترافیک: هر تعامل با عامل هوش مصنوعی بهطور ۱۰۰ درصدی و در لحظه مورد بررسی قرار میگیرد.
- طبقهبندی و شناسایی دولایه برای تهدیدها: این معماری ابتدا محتوای در یک بررسی سریع و با دقت ۹۶ درصدی محتوای مشکوک را شناسایی میکند و در لایه دوم نیز یک مدل استدلالگربا دقت ۸۴ درصدی، موارد شناسایی شده را برای پیدا کردن تهدیدهای واقعی مورد بررسی قرار میدهد.
- ممنوعیت حافظه: با اینکه قابلیت «Memory» یا حافظه از جمله مهمترین ویژگیهای هوش مصنوعی اوپنایآی است، اما در زمان عرضه این قابلیت غیرفعال شده است تا از نشت تدریجی اطلاعات در حملاتی که تیم قرمز مشخص کرده بود جلوگیری شود.
- محدودیت در اجرای دستور در شبکه: دسترسی عامل هوش مصنوعی در شبکه با محدودیتهایی همراه شده و تنها اجازه درخواستهای GET یا دریافت داده برای عامل وجود دارد و درخواست POST یا ارسال داده به طور کامل محدود شده است تا مانع اجرای دستورات از راه دور شود.
- فعالسازی حالت Watch یا نظاره: وقتی عامل هوش منصوعی اوپنایآی به اطلاعات حساسی همچون اطلاعات بانکی یا حساب ایمیل دسترسی پیدا کند، سیستم در صورت ترک صفحه از سوی کاربر، به طور کامل غیرفعال میشود تا از استخراج داده جلوگیری شود.
بیدارباش زیستی: تهدیدهای خطرناک علمی
یکی از نگرانیهای اصلی تیم قرمز، توانایی احتمالی ChatGPT Agent در تجزیه و تحلیل اطلاعات حساس علمی بود. این محققان که در حوزه زیستشناسی تخصص داشتند توانستند با موفقیت اطلاعاتی را از این عامل استخراج کنند که میتوان از آنها در ساخت عوامل تهدیدزای زیستی و یا توسعه آنها استفاده کرد.
هرچند نشانهای از «سونیت واقعی» در این عاملیت یافت نشد، اما همین امکان نظری باعث شد تا عامل هوش مصنوعی اوپنایآی پیش از عرضه در دسته «قابلیت بالا در زیستشناسی و شیمی» قرار گیرد.
از این رو مهندسان اوپنایآی برای رفع این آسیبپذیری اقداماتی را در دستور کار قرار دادند. با تغییرات اعمال شده، سامانههای تشخیص تهدیدات زیستی به طور دائم در این عامل هوش مصنوعی فعال هستند و ۱۰۰ درصد از ترافیک را مورد بررسی قرار میدهند.
همچنین سامانه تشخیص موضوعات زیستی با دقت ۹۶ در این عامل فعالیت دارد و سامانه تحلیلی دیگری با استفاده از مدل استدلالگر با ۸۴ درصدی نیز در لایه دوم قرار میگیرد و استفاده نظامی را هدف میگیرد.
علاوه بر این اوپنایآی یک طرح باگبانتی در حوزه زیستی در نظر گرفته تا نقاط ضعف دیگر نیز توسط جامعه شناسایی و گزارش شوند.
تیم قرمز فلسفه امنیتی اوپنایآی را تغییر داد
تجربه تیم قرمز برای اوپنایآی فراتر از یک تست امنیتی ساده بود و این تجربه درسهایی بنیادین برای طراحی سامانههای هوش مصنوعی ایمن در اختیار اوپنایآی قرار داد. بررسیهای تیم بر عامل جدید هوش مصنوعی به اوپنایآی آموخت:
- پایداری مهمتر از قدرت است: حملات ساده اما مداوم میتوانند در نهایت به نفوذ منتهی شوند.
- مرزهای اعتماد ساختگی هستند: وقتی عامل هوش مصنوعی شما میتواند به گوگل درایو دسترسی پیدا کند، اینترنت را مرور و کد اجرا کند، پارامترهای سنتی امنیت از میان میروند. اعضای تیم قرمز توانستند از شکافهایی در میان این قابلیتها سو استفاده کنند.
- نظارت یک انتخاب نیست: نمونهبرداری تصادفی برای حفظ امنیت عامل هوش مصنوعی کافی نیست و به دلیل اینکه ممکن است حملاتی از این نمونهبرداریهای تصادفی پنهان بمانند، نظارت ۱۰۰ درصدی نیاز است.
- سرعت اهمیت حیاتی دارد: چرخههای سنتی رفع آسیبپذیری که چندین هفته به طول میانجامند برای مقابله با حملات تزریق پرامپتی که در لحظه منتشر میشوند مناسب نیستند. در شرایط جدید باید طی چند ساعت آسیبپذیریها را با پروتکلهای سریع برطرف کرد.
فراتر از اوپنایآی:تدوین استانداردهای جدید برای صنعت
برای مدیران امنیت اطلاعات (CISO) و شرکتهایی که از هوش مصنوعی استفاده میکنند، ChatGPT Agent اکنون بهعنوان یک معیار امنیتی جدید شناخته میشود.
تجربه اوپنایآی و تیم قرمز چهار اصل امنیتی مهم را به عنوان یک استداندارد صنعتی معرفی میکند:
- محافظت باید قابل اندازه گیری باشد: نرخ دفاع ۹۵ عامل هوش مصنوعی اوپنایآی در برابر حملات یک معیار صنعتی را مشخص میکند و هرکسی که در حوزه امنیت مدل فعالیت دارد باید نحوه تحقق این سطح از محافظت را مورد بررسی قرار دهد.
- نظارت کامل بر ترافیک: نظارت بر ۱۰۰ درصد ترافیک دیگر یک آرمان نیست و تجربه اوپنایآی نشان میدهد که چرا چنین چیزی یک الزام است و چطور تیمهای قرمز میتوانند حملات خود را در هر جایی مخفی کنند.
- پاسخ سریع: آسیبپذیریها باید ظرف چند ساعت، نه روند رایج چندهفتهای، برطرف شود.
- اعمال مرزبندی: برخی عملکردها (همچون دسرتسی به حافظه در طول وظایف حساس) تا زمان اثبات ایمنی باید غیرفعال بمانند.
عامل هوش مصنوعی اوپنایآی نخستین نماینده نسلی از مدلهای هوش مصنوعی است که امنیت در آن نهفقط یک قابلیت، بلکه زیرساخت اصلی طراحی بهشمار میرود. تمامی ۱۱۰ حمله شناساییشده، سبب اصلاحات سیستماتیک شد تا عامل چتجیپیتی با بالاترین سطح اطمینان در اختیار کاربران قرار گیرد.
کرن گو از تیم امنیتی اوپنایآی در این باره نوشت: «این لحظه مهمی برای آمادگی ما است. پیش از این ما به توانمندی بالا دست پیدا کردیم و آماده سازی در تجزیهتحلیل توانمندیها و برنامهریزی محافظتها خلاصه میشد. اما حالا برای عامل هوش مصنوعی و آینده مدلهای توانمند، محافظتها به یک الزام عملیاتی تبدیل شدهاند.»
منبع





