ChatGPTやGeminiに何気ない質問をすると、なぜか例え話に「侍」や「東京」が出てくる——そんな経験はないでしょうか。スペインのバスク大学・英カーディフ大学などの研究チームが発表した論文で、この「AI日本好き」現象の実態と原因が明らかになりました。面白い研究なのでエンジニア目線で整理します。
何を調べた実験か
論文タイトルは「Why are all LLMs Obsessed with Japanese Culture?」(なぜすべてのLLMは日本文化に執着するのか)。欧州の研究者たちが「AIは本当に日本好きなのか、もしそうなら原因は何か」を実験で検証しました。
実験の工夫がポイントで、「国名を一切含まない質問」をAIに投げかけて、AIが自発的にどの国・文化を引き合いに出すかを観察しました。「例え話を使って説明して」「具体的な場面を想像して」といった形で、外から誘導せずにAI内部の文化的な偏りをあぶり出す設計です。
結果:8モデル中6モデルで日本が1位
まず前提として、AIは質問された言語の国を優先する傾向がありました。日本語で質問すれば日本を、中国語で質問すれば中国を引き合いに出す。これはある意味で自然です。
面白いのはここからです。入力言語に直接紐づく国を分析から除外した場合——たとえば日本語での質問で「日本」以外の国への言及を見たとき——何が起きたか。
GPT-4o-miniやGemini 2.5 FlashのようなOpenAI・Google製の主流モデルから、DeepSeek・Qwenのような中国製モデルまで、メーカーを問わず「日本好き」が確認されました。
なぜAIは日本が好きなのか
研究チームはオープンソースモデルを使って、トレーニングのどの段階でこのバイアスが生まれるかを調査しました。原因として指摘されているのは主に2つです。
インターネット上の英語以外のコンテンツの中で、日本語コンテンツの量と質は突出しています。マンガ・アニメ・ゲーム・技術文書・料理レシピ・観光情報など、あらゆるジャンルで日本語の高品質なテキストが大量に存在します。AIはこのデータを大量に学習するため、「文化の例え話をする場面」で日本が最も自然な選択肢として浮かび上がります。
人間のフィードバックによる強化学習(RLHF)の過程でも偏りが強化された可能性があります。日本文化に関連する回答が評価者に「具体的でわかりやすい」と高く評価されると、AIはその傾向をさらに学習します。ゴブリン問題と同じメカニズムです。
エンジニア・Web制作者にとっての意味
AIでグローバル向けのコンテンツを自動生成する場合、指示しなければ日本や米国に偏った例え話・事例が出てくる可能性があります。ターゲット国に合わせて「〇〇の文化を例に使って」と明示する必要があります。
AIが例として挙げた国・文化・事例が「最も一般的なもの」とは限りません。それはAIが学習したデータの偏りを反映しているだけです。ビジネス意思決定や市場調査にAIを使う際には、この点を意識する必要があります。
逆に言えば、日本語のコンテンツは学習データが豊富なため、AIの日本語理解・生成の精度は比較的高い水準にあります。日本向けのコンテンツ生成・日本語のコードコメント生成などでは、このデータの豊富さが有利に働きます。
まとめ
AIを使って日本語コンテンツを自動生成している身からすると「なるほど」という研究でした。日本語で指示すると日本の例えが出てくる現象には、ちゃんと理由があったわけです。
