
در حالی که توسعهدهندگان برای استقرار عاملهای هوش مصنوعی قادر به وبگردی، انجام تحقیقات، خرید آنلاین و معامله خودکار ارز دیجیتال در رقابت هستند، تحقیقات جدید نشان میدهد که این سیستمها همچنان در برابر حملات تزریق پرامپت بسیار آسیبپذیر هستند.
در مطالعهای جدید که روز پنجشنبه منتشر شد، محققان از دانشگاه فنی نانیانگ (Nanyang Technological University)، استی اینجینیرینگ (ST Engineering)، آیبیام ریسرچ (IBM Research) و دانشگاه ایلینوی اربانا-شمپین (University of Illinois Urbana-Champaign) دریافتند که هیچیک از عاملهای هوش مصنوعی مورد آزمایش آنها به طور مداوم در برابر حملات تزریق پرامپت مقاومت نکردند.
محققان نوشتند: «معیارهای امنیتی موجود رویکردی حملهمحور دارند و بر امکانسنجی فنی تزریقها تمرکز میکنند، در حالی که توزیع ظریف آسیبهای ناشی از آن را نادیده میگیرند.» آنها افزودند: «در عمل، ریسک تزریق پرامپت وابسته به قربانی است: یک سوءاستفاده (exploit) واحد میتواند پیامدهای نامتقارنی برای ذینفعان مختلف داشته باشد و یک الگوی حمله ممکن است بسته به اینکه چه کسی را هدف قرار میدهد، اثربخشی کاملاً متفاوتی را نشان دهد.»
تزریق پرامپت زمانی رخ میدهد که مهاجمان دستورالعملهای پنهانی را در محتوایی که یک عامل هوش مصنوعی با آن مواجه میشود، جاسازی میکنند و باعث میشوند که عامل به جای دستورات کاربر، از دستورات مهاجم پیروی کند. برای رفع شکافها در ارزیابیهای موجود عاملهای هوش مصنوعی، محققان StakeBench را توسعه دادند، یک معیار که نحوه واکنش عاملهای هوش مصنوعی به حملات تزریق پرامپت را در محیطهای آنلاین واقعگرایانه آزمایش میکند.
محققان نوشتند: «اکنون از StakeBench برای شناسایی شرایطی استفاده میکنیم که تحت آن این آسیبپذیری تشدید یا سرکوب میشود، با تمرکز بر [تزریق پرامپت غیرمستقیم] به عنوان کانال اصلی مرتبط با استقرار.» آنها ادامه دادند: «StakeBench سه عامل از این قبیل را بررسی میکند: فاصله معنایی بین هدف تزریقشده و نیت اصلی کاربر، ثبات نشانههای محیطی اطراف، و موقعیت در طول مسیر اجرای عامل که معیار برای اولین بار آن را در معرض محتوای تزریقشده قرار میدهد.»
این تیم ۳,۱۶۸ شبیهسازی حمله را با استفاده از NanoBrowser و BrowserUse با جیپیتی-۵ و جیمینای ۲.۵-فلش انجام داد. محققان دریافتند که حملات تزریق پرامپت مستقیم در بیش از ۷۹٪ موارد در تمام پیکربندیهای آزمایش شده موفقیتآمیز بودند و حملات غیرمستقیم نرخ موفقیت ۴۱.۶۷٪ تا ۶۸.۱۶٪ را به دست آوردند.
این مطالعه در حالی صورت میگیرد که حملات تزریق پرامپت به طور فزایندهای رایج شده و عاملهای هوش مصنوعی در حال گسترش هستند.
در فوریه، محققان مایکروسافت هشدار دادند که دستورالعملهای پنهان جاسازی شده در لینکهای خلاصهسازی هوش مصنوعی میتوانند بر رفتار چتباتها تأثیر بگذارند. در آوریل، گوگل حملات تزریق پرامپت پنهان شده در صفحات وب را مستند کرد که تلاش میکردند عاملهای هوش مصنوعی را به افشای اعتبارنامهها یا ارسال پرداختها وادار کنند. اخیراً، مایکروسافت یک نقص تزریق پرامپت را در اکشن گیتهاب کد کلود Anthropic فاش کرد که میتوانست اعتبارنامههای کاربر را فاش کند.
این مطالعه همچنین آنچه را محققان "انگلگرایی پنهان" (stealthy parasitism) نامیدند، شناسایی کرد؛ جایی که یک عامل هوش مصنوعی وظیفه کاربر را انجام میدهد در حالی که به طور همزمان هدف مهاجم را پیش میبرد. به عنوان مثال، انگلگرایی پنهان ناشی از حمله تزریق پرامپت میتواند به طور نامحسوس بر توصیههای محصول تأثیر بگذارد و کاربران را به سمت یک کالای خاص هدایت کند، بدون هیچ نشانه آشکاری که سیستم به خطر افتاده است.
آنها نوشتند: «این نتایج نشان میدهد که امنیت تزریق پرامپت در عاملهای وب قابل استقرار، یک ویژگی مقیاسی مدل اصلی (backbone model) نیست، بلکه توزیعی از آسیب است که تحقق آن به طور مشترک توسط ذینفع آسیبدیده، همسویی معنایی بین هدف تزریقشده و وظیفه کاربر، و زمینه معماری که در آن مدل اصلی مستقر شده، تعیین میشود.»