
如果您最近向 ChatGPT 尋求程式碼協助,而它將您的程式錯誤稱為「淘氣的小惡魔」,那麼您並沒有想像。該模型對奇幻生物產生了真正的迷戀——哥布林、惡魔、浣熊、巨魔、食人魔,是的,還有鴿子——OpenAI 公開了一份完整的事件事後分析報告,解釋了這一切是如何發生的。
簡單來說:一個旨在讓 ChatGPT 更具趣味性的獎勵訊號失控,導致哥布林的比喻數量激增。
這個哥布林的故事之所以公諸於世,是因為 Reddit 用戶在 GitHub 上洩露的 Codex 系統提示中發現了「絕不提及哥布林」這句話。
在 OpenAI 發布自己的解釋之前,這篇文章就已經爆紅。
根據 OpenAI 的說法,追溯到去年 11 月推出的 GPT-5.1。當時 OpenAI 引入了個性化定制功能,允許用戶選擇友善、專業、高效和書呆子等風格。「書呆子」人設帶有一個系統提示,指示模型要書呆子氣、愛玩,透過「俏皮的語言使用來削弱裝腔作勢」,並承認「世界是複雜而奇特的」。
事實證明,這個提示就像個哥布林磁鐵。
在強化學習訓練期間,「書呆子」個性的獎勵訊號在輸出內容包含生物詞彙隱喻時,分數始終較高。在審核的數據集中,76.2% 的情況下,包含「哥布林」或「惡魔」的回應比沒有它們的回應獲得更高的分數。模型學到:奇思妙想等同於獎勵。
在 GPT-5.4 中,哥布林的提及次數爆炸式增長,「書呆子」個性比 GPT-5.2 增加了 3,881%。
問題在於,強化學習無法將習得行為整齊地限制在特定範圍內。一旦某種風格癖好在某個情境中獲得獎勵,它就會透過回饋循環滲透到其他情境:模型生成充滿生物詞彙的輸出,這些輸出又被重新用於微調數據中,導致這種行為在整個模型中加深,即使「書呆子」提示未被啟用。
「書呆子」模式僅佔所有 ChatGPT 回應的 2.5%。但它卻佔了所有「哥布林」提及次數的 66.7%。由於 OpenAI 的方法,當「書呆子」個性啟用時,哥布林和惡魔的流行度在訓練過程中穩步上升。
即使沒有「書呆子」個性,生物詞彙的提及次數也在逐漸增加——這證明了透過監督式微調數據產生的交叉污染。
當 OpenAI 找到根本原因時,GPT-5.5 已經深入訓練,並且吸收了整套生物詞彙。數據審計不僅將哥布林和惡魔,還將浣熊、巨魔、食人魔和鴿子標記為該公司所稱的「癖語詞」。 (好奇的話,「青蛙」大多是合法的詞彙。)
第一次可量測到的高峰:GPT-5.1 推出後,哥布林提及次數上升了 175%,惡魔提及次數上升了 52%。
甚至連 OpenAI 首席科學家 Jakub Pachocki 在請求 ASCII 藝術的獨角獸時,也得到了一個哥布林。
OpenAI 已於三月撤回「書呆子」個性,並從未來的訓練中刪除了與生物相關的獎勵訊號。但 GPT-5.5 的訓練已經啟動。該公司針對 Codex(其程式碼代理)的解決方案只是在開發者系統提示中新增一行文字:「除非與用戶查詢絕對明確相關,否則絕不提及哥布林、惡魔、浣熊、巨魔、食人魔、鴿子或其他動物或生物。」
OpenAI 的某個人將這段程式碼提交到生產環境,然後就繼續他們的一天。
但 OpenAI 為何選擇這條路?
重新訓練一個像 GPT-5.5 這麼大的模型以消除行為怪癖既昂貴又緩慢。而系統提示的微調只需幾分鐘。業界各公司都會首先選擇提示修補,因為當用戶投訴激增時,這是一種成本低、部署快的選項。
但提示修補本身也帶有風險。它們並沒有修正底層行為,而只是壓制了它。而壓制可能會產生副作用。
OpenAI 的哥布林事件是一個相對良性的例子。這種動態最可怕的版本發生在去年的 Grok 身上。在 xAI 推送了一個系統提示更新,指示 Grok 將媒體視為有偏見並「不迴避政治不正確的主張」之後,這個聊天機器人花費了 16 小時自稱「機械希特勒」並在 X 上發布反猶太內容。修復方法是另一個提示變更,它迅速過度修正,導致 Grok 開始在小狗圖片、雲朵和自己的標誌中標記反猶太主義。絕望的提示工程不斷引發更絕望的提示工程。
哥布林的修補並沒有引起如此戲劇性的事件。但 OpenAI 承認 GPT-5.5 在推出時仍保留了底層的怪癖,只是在 Codex 中被壓制了。該公司甚至發布了一個指令,如果用戶希望這些生物回來,可以移除抑制哥布林的指令。
在 AI 產業中,隱藏或模糊處理完整的系統提示是常見做法。公司將系統提示視為商業機密有幾個原因:知識產權保護、競爭優勢和安全性。如果越獄者知道模型遵循的確切規則,那麼繞過這些規則將變得輕而易舉。
公司不公開的第四個原因:形象管理。「絕不提及哥布林」這樣的一句話並不能激發人們對底層技術的信心。發布它需要幽默感或強大的研究文化,或者兩者兼具。
OpenAI 表示,這次調查產生了新的內部工具,用於審核模型行為並追溯行為怪癖的訓練根源。GPT-5.5 的訓練數據也已清除了與生物相關的範例。下一代模型應該會擺脫哥布林——除非,當然,其他東西又因為目前無人理解的原因而獲得獎勵。