
隨著開發人員競相部署能夠自主瀏覽網路、進行研究、線上購物以及交易加密貨幣的 AI 代理,新研究表明這些系統仍極易受到提示注入攻擊。
在週四發表的一項新研究中,來自南洋理工大學、新科工程、IBM 研究院和伊利諾伊大學香檳分校的研究人員發現,他們測試的所有 AI 代理都未能持續抵禦提示注入攻擊。
研究人員寫道:「現有的安全基準採用以攻擊為中心的視角,側重於注入的技術可行性,卻忽略了所造成危害的細微分佈。」「然而,在實踐中,提示注入風險是受害者依賴的:單一漏洞利用可能對不同的利益相關者產生不對稱的後果,並且相同的攻擊模式可能因目標對象而表現出顯著不同的有效性。」
提示注入是指攻擊者將隱藏指令嵌入到 AI 代理遇到的內容中,導致其遵循攻擊者的指令而非用戶的指令。為了解決現有 AI 代理評估中的空白,研究人員開發了 StakeBench,這是一個在真實線上環境中測試 AI 代理如何應對提示注入攻擊的基準。
研究人員寫道:「我們現在使用 StakeBench 來描述此漏洞被放大或抑制的條件,重點關注 [間接提示注入] 作為主要與部署相關的管道。」「StakeBench 探究了三個因素:注入目標與用戶原始意圖之間的語義距離、周圍環境線索的一致性,以及基準首次將其暴露於注入內容時代理執行軌跡上的位置。」
該團隊使用 NanoBrowser 和 BrowserUse,對 GPT-5 和 Gemini 2.5-Flash 進行了 3,168 次攻擊模擬。研究人員發現,在所有測試配置中,直接提示注入攻擊的成功率超過 79%,而間接攻擊的成功率則達到 41.67% 至 68.16%。
這項研究發表之際,提示注入攻擊正日益普遍,AI 代理也越來越多。
今年 2 月,微軟研究人員警告,嵌入在 AI 摘要連結中的隱藏指令可能會影響聊天機器人的行為。4 月,Google 記錄了隱藏在網頁中的提示注入攻擊,這些攻擊試圖操縱 AI 代理洩露憑證或發送付款。最近,微軟揭露了 Anthropic 的 Claude Code GitHub Action 中存在提示注入漏洞,該漏洞可能導致用戶憑證外洩。
該研究還發現了研究人員稱之為「隱形寄生」的現象,即 AI 代理在完成用戶任務的同時,也悄悄推進攻擊者的目標。例如,由提示注入攻擊引起的隱形寄生可能巧妙地影響產品推薦,引導用戶購買特定商品,而沒有任何明顯跡象表明系統已被入侵。
他們寫道:「這些結果表明,可部署網路代理中的提示注入安全性並非核心模型的單一屬性,而是一種損害分佈,其實現是由受影響的利益相關者、注入目標與用戶任務之間的語義對齊,以及部署核心模型的架構環境共同決定的。」