Infostand海外ITトピックス

揺れるGoogle AI倫理研究者の退社問題

大規模言語処理モデルの4つのリスク

 Gebru氏の論文は「確率的オウムの危険:言語モデルは巨大になりすぎていいのか?」と題したもので、同氏を含む6人で執筆した。大規模言語処理モデルが持つ社会的、倫理的リスクとして、以下の4項目を挙げている。


    1.環境的・金銭的コスト
    2.大量データと不可解なモデル
    3.研究の機会コスト
    4.意味の錯覚

 一般に大規模言語処理モデルは、膨大なテキストデータから事前学習を行い、これをベースに文章の生成、機械翻訳、要約などのさまざまな処理をこなす。その威力を広く見せつけたのは、「Transformer」技術を搭載して2018年にGoogleが発表した「BERT」だ。

 だが、学習に使うデータはどんどん巨大になっている。続くOpenAIの「GPT-2」は、人手で選択した800万のWebページから学習し、パラメータは15億個だった。次バージョンの「GPT-3」は、5兆語のデータで学習して、パラメータ数は1750億個ある。

 論文はこうした手法のリスクを挙げている。大規模言語処理モデルは膨大なコンピューター処理能力が必要となり、電力を消費して環境負荷を高め、資金力のある組織のみが恩恵を受けるようになる(環境的・金銭的コスト)。また、巨大ハイテク企業は利益を得やすい大規模言語処理モデルに投資し続け、省エネモデルの研究を二の次にする(研究の機会コスト)。

 また、大量のテキストデータの手軽な入手先としてインターネットに頼るため、差別的、罵倒的な言葉が訓練データに含まれやすい。同時にオンライン活動が少ない国や民族のデータが少なく、裕福な国の慣習に偏る(大量データと不可解なモデル)。人間の模倣が得意で、悪用されやすい。誤報の生成に使われたり、意図しない誤訳も起こっている(意味の錯覚)。

 MIT Technology Reviewに論文の草稿を提供した共著者は「論文の目的は自然言語処理研究の現状把握」であり、「どんな欠点があるのかを問い直すことが重要なのだ」と述べている。

 その発表が差し止めになったことで、Gebru氏を支援する人たちは、GoogleのAI原則を破るものだと反発。さらには経営陣に都合の悪い内容だったからではないかとの疑問も出ている。BERTは、同社のビジネスの中心である検索サービスの基盤技術でもある。