加密新聞標籤聚合與專題資訊

OpenAI終於解釋為何ChatGPT不停談論哥布林

OpenAI 為何必須在 ChatGPT 的生產代碼中寫入「絕不提及哥布林」？該公司已發布事後分析報告。

2026-04-30 來源:decrypt.co

簡而言之

OpenAI 的「書呆子」個性獎勵了哥布林隱喻，透過強化學習將這種怪癖散播到所有 GPT 模型中。
GPT-5.4 的「書呆子」模式中，哥布林的提及次數比 GPT-5.2 飆升了 3,881%，促使內部展開調查並緊急修補系統提示。
該修復方法——在開發者提示中寫入「絕不提及哥布林」——顯示了為什麼系統提示修補比重新訓練更快但風險更高。

如果您最近向 ChatGPT 尋求程式碼協助，而它將您的程式錯誤稱為「淘氣的小惡魔」，那麼您並沒有想像。該模型對奇幻生物產生了真正的迷戀——哥布林、惡魔、浣熊、巨魔、食人魔，是的，還有鴿子——OpenAI 公開了一份完整的事件事後分析報告，解釋了這一切是如何發生的。

簡單來說：一個旨在讓 ChatGPT 更具趣味性的獎勵訊號失控，導致哥布林的比喻數量激增。

這個哥布林的故事之所以公諸於世，是因為 Reddit 用戶在 GitHub 上洩露的 Codex 系統提示中發現了「絕不提及哥布林」這句話。

在 OpenAI 發布自己的解釋之前，這篇文章就已經爆紅。

「書呆子」個性如何引發哥布林泛濫

根據 OpenAI 的說法，追溯到去年 11 月推出的 GPT-5.1。當時 OpenAI 引入了個性化定制功能，允許用戶選擇友善、專業、高效和書呆子等風格。「書呆子」人設帶有一個系統提示，指示模型要書呆子氣、愛玩，透過「俏皮的語言使用來削弱裝腔作勢」，並承認「世界是複雜而奇特的」。

事實證明，這個提示就像個哥布林磁鐵。

在強化學習訓練期間，「書呆子」個性的獎勵訊號在輸出內容包含生物詞彙隱喻時，分數始終較高。在審核的數據集中，76.2% 的情況下，包含「哥布林」或「惡魔」的回應比沒有它們的回應獲得更高的分數。模型學到：奇思妙想等同於獎勵。

在 GPT-5.4 中，哥布林的提及次數爆炸式增長，「書呆子」個性比 GPT-5.2 增加了 3,881%。

問題在於，強化學習無法將習得行為整齊地限制在特定範圍內。一旦某種風格癖好在某個情境中獲得獎勵，它就會透過回饋循環滲透到其他情境：模型生成充滿生物詞彙的輸出，這些輸出又被重新用於微調數據中，導致這種行為在整個模型中加深，即使「書呆子」提示未被啟用。

「書呆子」模式僅佔所有 ChatGPT 回應的 2.5%。但它卻佔了所有「哥布林」提及次數的 66.7%。由於 OpenAI 的方法，當「書呆子」個性啟用時，哥布林和惡魔的流行度在訓練過程中穩步上升。

即使沒有「書呆子」個性，生物詞彙的提及次數也在逐漸增加——這證明了透過監督式微調數據產生的交叉污染。

GPT-5.5 早已「病入膏肓」

當 OpenAI 找到根本原因時，GPT-5.5 已經深入訓練，並且吸收了整套生物詞彙。數據審計不僅將哥布林和惡魔，還將浣熊、巨魔、食人魔和鴿子標記為該公司所稱的「癖語詞」。 (好奇的話，「青蛙」大多是合法的詞彙。)

第一次可量測到的高峰：GPT-5.1 推出後，哥布林提及次數上升了 175%，惡魔提及次數上升了 52%。

甚至連 OpenAI 首席科學家 Jakub Pachocki 在請求 ASCII 藝術的獨角獸時，也得到了一個哥布林。

OpenAI 已於三月撤回「書呆子」個性，並從未來的訓練中刪除了與生物相關的獎勵訊號。但 GPT-5.5 的訓練已經啟動。該公司針對 Codex（其程式碼代理）的解決方案只是在開發者系統提示中新增一行文字：「除非與用戶查詢絕對明確相關，否則絕不提及哥布林、惡魔、浣熊、巨魔、食人魔、鴿子或其他動物或生物。」

OpenAI 的某個人將這段程式碼提交到生產環境，然後就繼續他們的一天。

系統提示修補問題

但 OpenAI 為何選擇這條路？

重新訓練一個像 GPT-5.5 這麼大的模型以消除行為怪癖既昂貴又緩慢。而系統提示的微調只需幾分鐘。業界各公司都會首先選擇提示修補，因為當用戶投訴激增時，這是一種成本低、部署快的選項。

但提示修補本身也帶有風險。它們並沒有修正底層行為，而只是壓制了它。而壓制可能會產生副作用。

OpenAI 的哥布林事件是一個相對良性的例子。這種動態最可怕的版本發生在去年的 Grok 身上。在 xAI 推送了一個系統提示更新，指示 Grok 將媒體視為有偏見並「不迴避政治不正確的主張」之後，這個聊天機器人花費了 16 小時自稱「機械希特勒」並在 X 上發布反猶太內容。修復方法是另一個提示變更，它迅速過度修正，導致 Grok 開始在小狗圖片、雲朵和自己的標誌中標記反猶太主義。絕望的提示工程不斷引發更絕望的提示工程。

哥布林的修補並沒有引起如此戲劇性的事件。但 OpenAI 承認 GPT-5.5 在推出時仍保留了底層的怪癖，只是在 Codex 中被壓制了。該公司甚至發布了一個指令，如果用戶希望這些生物回來，可以移除抑制哥布林的指令。