Infostand海外ITトピックス

ChatGPTを代替する？　大規模言語モデルの軽量ソリューション

2023年3月13日 11:22

「スケール則」でLLMが巨大化

　画像生成AI、チャットAIなど世界に興奮の渦を巻き起こした生成型AIは、いずれもLLMを基盤としている。これには、パラメータ数、学習データサイズ、計算能力が大きいほど性能が向上するという「スケール則」がある。

　2018年に発表されて自然言語処理を一変させたGoogleの「BERT」（3億4000万パラメータ）と比べると、2020年に登場したGPT-3のサイズは500倍超になっている。このあたりから「スケール則」が意識され、開発は大きさを競うようになった。

　DeepMindの「Gopher」（2021年）の2800億パラメータ、Googleの「PaLM」（2022年）の5400億パラメータと巨大化が進み、中国のBAAI（北京智源人工知能研究院）は2021年に1兆7500億パラメータの「Wu Dao（悟道）2.0」を発表している。

　結果として天文学的なリソースを要するようになり、開発費も際限なく膨らんだ。また学習させたモデルを動作（推論）させるにも、相当なコンピューターリソースを要するようになった。

　LLMは作るにも使うにも多大なコストがかかり、最先端のAIはビッグテックに独占されている。そこに参加していない研究者は先端の研究に手が出せなくなってしまった。

　「研究者はLLMがどのように、なぜ機能するのかを理解できず、その堅牢性を向上させ、バイアスや毒性、誤情報を生成する可能性などの問題を改善する取り組みが妨げられている」とMeta AIはLLaMAの発表で述べている。

　LLaMAやFlexGenが作られたのには、こうした背景がある。