ニュース

NTT、AIモデルの再学習コストを大幅に削減可能な「学習転移」技術を開発

 日本電信電話株式会社(以下、NTT)は7日、深層学習において過去の学習過程をモデル間で再利用する全く新たな仕組みとして、「学習転移」技術を実現したと発表した。

 学習転移技術は、ニューラルネットワークのパラメーター空間における高い対称性を活用し、過去の学習過程のパラメーター列を適切に変換することにより、新たなモデルの学習結果を低コストで求めることを可能にする。これにより、生成AIなど大規模な基盤モデルを用途ごとに追加学習(以下、チューニング)して利用する場合に不可欠な、基盤モデルの定期的な更新に伴う再チューニングコストを大幅に削減でき、生成AIの運用容易化や適用領域拡大、消費電力の削減に貢献することが期待されるとしている。

 一般に深層学習では、与えられた訓練用のデータセットに対して、ニューラルネットワークモデルのパラメーターを逐次的に最適化することで学習が行われる。学習中のパラメーター変化に関する履歴はモデルの学習過程と呼ばれ、学習の初期値やランダム性に大きく影響されることが知られているが、一方で、初期値やランダム性の異なるモデル間の学習過程がどのように相違・類似しているかは解明されておらず、活用されてこなかったという。

 NTTでは、ニューラルネットワークのパラメーター空間にある高い対称性に着目し、特に置換変換と呼ばれるニューロンの入れ替えに関する対称性の下で、異なるモデル間の学習過程同士を近似的に同一視できることを発見した。この発見に基づき、過去の学習過程を適切な置換対称性によって変換することで、新たなモデルの学習過程として再利用できる、学習転移技術を世界で初めて提唱および実証した。

置換変換による対称性
学習転移の概要

 学習転移では、高コストな学習を行うことなく、低コストな変換のみで一定の精度を達成できる。さらに、学習転移後に追加の学習を行うことで、目標精度に早く収束することも示した。

基盤モデル更新時の学習高速化

 学習転移は、2つのパラメーター初期値が与えられたときに、一方の初期値に対する学習過程(以下、ソース)を変換したときにもう一方の初期値の学習過程(以下、ターゲット)との距離を最小化するような置換変換を求める、最適化問題として定式化された。このように2つの学習過程間の変換を最適化するという枠組み自体が、今回の研究により世界で初めて提案されたものになるという。

 また、前述の最適化問題に現れるターゲットの学習過程は、そもそも学習転移によって求めたかったものであり事前には未知であるため、そのままでは実際の計算機上で扱うことはできなかった。そこで、学習過程の各ステップが勾配で近似できるという仮定を置くことで、実際に計算機で扱える非線形最適化問題を導出した。また、非線形性のために、そのままでは効率的に解くことができなかったが、学習過程の部分的な転移と線形最適化とを交互に行うことにより、高速に解くことが可能とになった。

 2層ニューラルネットワークの数理モデルにおいて、ネットワークサイズが大きくなればなるほど、最適な置換変換が高い確率で存在し、ソースの初期学習過程を変換することでターゲットの初期学習過程にいくらでも近づけられることを証明した。この結果は、ニューラルネットワークが大規模になるほど、実際に学習転移が可能となることを理論的に示しているとしている。

 NTTでは、今回の成果は、深層学習における新たな学習手法の基礎理論を確立し、その応用として基盤モデル更新・変更時のチューニングコストを大幅に低減できる可能性を明らかにしたと説明。これにより、NTTが研究開発を進める大規模言語モデル(LLM)「tsuzumi」をはじめとした多様な基盤モデルの運用コスト削減・環境負荷軽減や、多数のAIで議論することで多様な解の創出をめざしたAIコンステレーションの構想具現化など、次世代のAI技術開発に貢献するとしている。