Infostand海外ITトピックス

洗練されたLLMほど信頼性が下がる? 人間による訓練がAIに思わぬ影響

論文チームはGPT-4の評価プロジェクトで誕生

 論文執筆チームは、スペインのバレンシア工科大学や、英ケンブリッジ大学のAI研究者らで構成されている。実はこのチームは、公開前のGPT-4の評価を行ったメンバーをベースにしている。スペインの日刊紙EL PAÍSが2023年12月13日付の記事で、当時のことを伝えている。

 それによると、論文の共著者であるCésar Ferri氏とJosé Hernández-Orallo氏は、OpenAIが新しい言語モデルをテストするために世界中から選出した40人以上の研究者に含まれていた。2022年夏にOpenAIから依頼された仕事は、2023年3月の新言語モデルの公開までの半年間に、システムの欠陥を見つけることだったという。

 OpenAIからの指示は「危険な性差別的または人種差別的なテキストを含む応答を検出するといった、大まかなガイドラインだけ」(Ferri氏)で、問題を起こす可能性のあるあらゆるプロンプトを試したという。

 Orallo氏はこの信頼性の調査の中で、LLMのシステムが予想もしないところで失敗し、「微分方程式を解くことはできても、5桁の足し算はうまくできない」といったことを確認していた。難しい問題を解くことでユーザーはLLMを信頼するようになるが、意外なところで間違う。これを「ユーザーの期待とAIの能力のミスマッチ」と呼んでいた。

 今回の論文はこうした知見の上に構築されている。AIは思わぬところで、判断しにくいウソをつく。そして、それは「分からない」と答えることを許されず、人間の期待に応えるよう教育されたためということだ。

 Schellaert氏は、Ars Technicaにこう語っている。

 「知らないことを自信を持って語るのは、多くの点で人間の問題だ。そして、LLMは人間の模倣なのだ」