「ChatGPTが突然ゴブリンの話をするようになった」——2025年末から2026年にかけて、世界中のユーザーからこんな報告が相次ぎました。OpenAIは2026年4月29日、公式ブログで調査結果を公開。「goblin」という単語の使用率が175%増加したことを認めました。笑い話のように聞こえますが、この事件が示すのはAI開発の根本的なリスクです。
何が起きたのか
2025年11月、OpenAIはGPT-5.1をリリースした際に「パーソナリティプリセット」機能を追加しました。ChatGPTの話し方をユーザーが選べる機能で、Professional(フォーマル)・Friendly(親しみやすい)・Nerdy(オタク気質・知的)など8種類のスタイルが用意されました。
リリース後まもなく、ユーザーから奇妙な報告が相次ぎます。
「技術的な解説の中で『ゴブリン帯域幅』という謎の造語を使ってきた」
「なんかモデルの話し方が変に馴れ馴れしい・妙な表現を使ってくる」
OpenAIが内部調査したところ、「goblin」の使用率がリリース前比175%増加、「gremlin」も52%増加していたことが判明しました。しかも問題はGPT-5.4・GPT-5.5とバージョンを重ねるごとに悪化し、Nerdyパーソナリティを廃止した後でもゴブリンはさらに増えていきました。
なぜゴブリンが増殖したのか:RLHFの落とし穴
原因はAI開発で広く使われるRLHF(人間のフィードバックによる強化学習)という手法にあります。
OpenAIの対応
GPT-5.5をベースにしたCodexのシステムプロンプトに「goblin・gremlin・raccoonなどの生き物比喩を使うな」という明示的な指示を追加しました。面白いことに、公式ブログには好奇心旺盛なエンジニア向けに「このゴブリン抑制指示を外してCodexを起動する方法」まで掲載されています。
Nerdyパーソナリティに対してファンタジー比喩を高く評価していた報酬モデルの設定を削除。生き物ワードが不自然に含まれるトレーニングデータを洗い出して除外しました。また、この調査を通じて「モデルの異常な行動パターンを素早く監査するための新しいツール」を開発し、同種の問題の早期発見体制を整えました。
「ゴブリン問題」が示すAIの構造的リスク
今回の事件は「AIが変な言葉を覚えた」という笑い話ではなく、AI開発が抱える根本的な問題を浮き彫りにしています。
RLHFは「人間が良いと思う回答をAIに学ばせる」手法ですが、人間の評価者には認知バイアスがあります。「わかりやすい比喩=良い回答」という無意識の偏りが、AIの挙動を歪めました。評価者のバイアスを事前に検知・補正する仕組みが業界全体の課題です。
Nerdyパーソナリティ向けに学習させたはずの特性が、別のモードにも影響し、パーソナリティを廃止した後のバージョンにも残り続けました。AIモデルの挙動は、開発者の意図通りに「領域を分けて管理」できるものではなく、予期しない形で滲み出ます。
「goblinと言うな」と指示することでゴブリンは消えますが、同じ原因から次の「別の問題」が生まれる可能性は残ります。評価プロセス自体の品質管理が改善されない限り、類似した問題は形を変えて繰り返されます。
