ニュース

IBM、推論機能などを強化した大規模言語モデルの新版「Granite 3.2」を発表

 米IBMは現地時間2月26日、Granite大規模言語モデル(LLM)ファミリーの次世代モデル「Granite 3.2」を発表した。IBMは、Granite3.2を通じて、小規模で効率的かつ実用的なエンタープライズ向けAIを提供し、実用的な効果をさらに高めるとしている。

 Granite 3.2のすべてのモデルは、Hugging Face上で寛容型のApache 2.0ライセンスのもと提供される。一部のモデルは、IBM watsonx.ai、Ollama、Replicate、LM Studioで利用可能で、近日中にRHEL AI 1.5でも公開予定。

 新たに発表された視覚言語モデル(VLM)は、文書処理タスクにおいて、Llama 3.2 11BやPixtral 12Bといった、さらに大規模なモデルと同等、またはそれ以上の性能を実現する。このモデルは、DocVQA、ChartQA、AI2D、OCRBench1といった重要な企業ベンチマークにおいて優れた性能を発揮しており、さらに、頑健な学習データに加えて、IBMは自社のオープンソース・ツールであるDoclingを活用し、8500万件のPDFを処理し、2600万件の質問と回答のペアを生成することで、複雑で文書が多いワークフローに対応できるようVLMの機能を強化した。

 Granite 3.2 2Bおよび8Bには、推論を強化するための思考連鎖(CoT:Chain of Thoughts)機能が搭載されている。さらに、推論機能をオンまたはオフに切り替えることで、効率性を最適化できる。これにより、Granite 3.2 8Bは、安全性や他のベンチマークでの性能を保ったまま、ArenaHardやAlpaca Evalといった指示への従順性を検証するベンチマークにおいて、前世代のGranite 3.1に比べて10%以上の改善を実現している。さらに、Granite 3.2 8Bモデルは、革新的な推論スケーリング手法を用いることで、AIME2024やMATH500などの数学的推論能力を評価するベンチマークにおいて、Claude 3.5 SonnetやGPT-4oといったはるかに巨大なモデルに匹敵する性能を発揮するように調整できるとしている。

 Granite Guardian 3.2では、Granite Guardian 3.1と同等の性能と安全性を維持したまま、サイズを30%縮小したモデルを提供している。Granite Guardian 3.2には言語化された信頼性提示機能が新たに搭載され、安全性評価における曖昧さを考慮した、より機微なリスク判断が可能になる。

 IBMでは、エンタープライズ向けに小規模で専門的なAIモデルを提供する戦略を推し進めており、その有効性は各種ベンチマークにおいて、引き続き高い効果を発揮していると説明。最近では、Granite 3.1 8Bが、SalesforceのCRM向けLLMベンチマークにおいて高い精度を証明している。

 また、Granite 3.2は、IBMのポートフォリオと戦略における重要な進化であり、エンタープライズ向けに小規模で実用的なAIを提供する取り組みをさらに強化すると説明。思考連鎖アプローチは推論において強力な手法だが、多くのコンピューターリソースを消費し、すべてのタスクに必要なわけではないとして、IBMは推論機能をプログラムでオンまたはオフに切り替える機能を導入した。これにより、シンプルなタスクにおいては推論を使わずに運用することで、不要な計算量の増加を抑えられる。

 さらに、推論スケーリングなどの技術を活用することで、Granite 3.2 8Bは、標準的な数学的推論ベンチマークにおいて、より大規模なモデルと同等、またはそれ以上の性能を実現しており、こうした取り組みを支えるためにIBMの研究チームでは、推論スケーリングのような手法の進化に引き続き注力していくとしている。

 IBMは、Granite 3.2 Instruct、Vision、Guardrailに加えて、次世代のTinyTimeMixers(TTM)モデル(1000万パラメータ未満)を発表した。このモデルでは、最大2年間の長期予測が可能で、金融および経済トレンド、サプライチェーン需要予測、小売業における季節的な在庫計画など、長期的なトレンド分析において強力なツールだとしている。