Infostand海外ITトピックス

AIが読解力テストで人間を上回った! MicrosoftとAlibabaの快挙

 AIの進化は目覚ましいが、またひとつエポックとなるニュースが飛び込んできた。スタンフォード大学の読解力テストで、AIが初めて人間のスコアを上回った。しかも2社続けての達成で、開発したのは、それそれMicrosoftとAlibaba。「AIが人間を超えた」とあちこちで報じられている。だが、AIは(少なくとも、まだ)知性ではなく、その能力は人間のものとは異なる。

スタンフォード大学の読解力テスト

 読解力テストは、スタンフォード大学の「SQuAD」(Stanford Question Answering Dataset)というデータセットを使用するものだ。新年早々の1月3日、まずMicrosoft Research Asiaが「82.650」、2日後の5日にはAlibabaのiDST(Institute of Data Science of Technologies)自然言語処理部門が「82.440」というスコアを出した。同じテストでの人間のスコアは「82.304」で、両社が初めて人間のスコアを上回ったのだ。

 このテストは、文章を読んだ上で正しい答えを出すことをAIに求めるもので、SQuADのデータセットを使用する。Wikipediaの500以上の記事をベースに、10万以上の質問と回答の組み合わせがある。例えば、「チンギスハン」では、Wikipediaの記事に書かれている内容から「チンギスハンが設立した国はなんと呼ばれる?」「ユーラシア大陸制服前にどの民族を統一した」などという質問を出し、正答率をスコアにする。

 この結果について、AlibabaのAI研究所自然言語処理のチーフサイエンティストLuo Si氏は「AIは、『降雨の原因になるものは?』といった、事実に基づく質問に高い精度で答えられるようになった」と述べている。Washington Postなどが伝えている。

 人間を上回ったというスコア「EM」は、質問と回答が完全一致した率(Exact Match)を示したものだ。SQuADにはEMのほか、分類問題の評価スコア「F1」もあり、こちらは、Alibabaが「88.607」、Microsoftが「88.493」で、まだ人間のスコア(91.221)に届いていない。

 SQuADを開発した同大のPranav Rajpurkar氏は、「EMで人間レベルを上回るモデルが出た。次のチャレンジはF1だ」とツイートしている。