Infostand海外ITトピックス

サボるAI GPT-4の奇妙なふるまい

アップデートしたが、原因は明らかにならず

 ChatGPTの怠惰は、どのように理解すればよいのだろう。この話題が広まってから、さまざまな仮説が挙げられてきた。

 ひとつは、OpenAIのサービスインフラが追いつかず、負荷を軽減するため答えを間引いているという説。あるいは、反倫理的な回答や悪用を防ぐためのチューニングを過度に施したことで、ろくに答えられなくなったという説もある。

 そして、多くの興味を引いたのが「冬休み説」だ。年末のホリデーシーズンが近づくと、米国では多くの人が仕事をセーブして「休暇モード」になる。LLMは、人間がアウトプットした膨大なデータで訓練されている。そのため、典型的な米国の労働者のふるまいをまねた可能性があるというのだ。

 実際、LLMでは、「最初に深呼吸をさせる(プロンプトに“Take a deep breath”と入れる)と、回答精度が上がる」「他のLLMを褒めると不機嫌になった」など、妙に人間くさいふるまいが観察されている。LLMが休み気分になることもあるかも、と考える専門家もいる。

 訴訟データプラットフォームの会社で製品責任者を務めるエンジニアRob Lynch氏がXに投稿した実験によると、GPT-4 Turbo(API経由でテスト)は、現在日付を「5月」とした場合に比べ、「12月」とした場合、有意に回答が短かったという。ただし、Lynch氏の手法には統計学的に問題があるの指摘も出ている。

 そして年をまたいだ1月25日。OpenAIは新世代エンベッディングモデルとAPI利用管理ツールと合わせて、GPT-4 Turbo previewのアップデートをリリースした。

 公式ブログでは、「このモデルは、コード生成などのタスクを以前のものより徹底的に完了させる。モデルがタスクを完了しない“怠慢”のケースを減らすことを意図している」と説明している。

 しかし、同社は何が原因だったのか、どう更新したのかには言及していない。結局、憶測ばかりで、怠惰のメカニズムは不明なままだ。世界中のユーザーが利用しているGPT-4は、OpenAIの秘密のガードの向こうにある。