特集

AIにとっては必然のもの？　東芝が推進するMLOps活用の取り組み

大河原克行

2022年5月2日 06:00

　東芝は、MLOps（Machine Learning Operations）の活用に取り組んでいる。

　MLOpsとは、Machine Learning（機械学習）とOperations（運用）の合成語。機械学習を活用したシステムを開発して運用を開始したあとも、継続的にモニタリングを行い、システム運用や市場環境の変化を通じて再学習や改良、改善を実施し、品質を保つことを目的としたものだ。

MLOpsとは

　東芝研究開発センター首席技監兼技術企画部 AI-CoEプロジェクトチーム長の堀修氏は、「機械学習モデルを実装したあとも改善を加え、システム運用を円滑に進めるための管理体制を実現するのがMLOpsとなる。AIにとっては必然のものである」と位置づける。

東芝研究開発センター首席技監兼技術企画部 AI-CoEプロジェクトチーム長の堀修氏

　その背景にあるのは、AI技術の進化に伴い、AI特有の新たな課題が発生していることが挙げられる。

　「AIは、約10年前から広がった深層学習により、人の能力を超える精度で予測ができるようになった。だが、その一方で、従来にない課題も生まれている。判断した結果に対して、説明性が確保できないブラックボックス化すること、学習したデータによって判断にバイアスが入り込むリスクがあること、誤認識をゼロにはできないことなどが挙げられる。所得が低い学生のデータばかりを利用していたため、学生というだけで融資を拒否するという判断をしてしまったり、人を誤認識して動物であるとAIが判断し、人権問題に発展したりというケースが実際に起きている」と指摘する。

　一方で欧州では、AIシステム規制法案を2024年後半にも施行する予定であり、顔認証などのバイオメトリクスや、道路や水道、ガス、電気といった重要インフラに関わるAIシステムに関しては、出荷前に適合性評価を行い、出荷後も継続的に品質をモニタリングすることが求められる。これを怠ると、3000万ユーロあるいは年間総売上高の6％のいずれかの高い方を罰金として支払うことになるという。「AIを開発したり製品として提供したりする企業は、こうした規制に対して、いまから準備をしておく必要がある。そこにMLOpsが有効である」とする。

欧州AIシステム規制法案の概要

　東芝ではMLOpsとは別に、AI品質保証の取り組みを約2年前から開始しており、品質保証のためのテストツールの提供なども行ってている。こうした取り組みも、新たなAIが抱える課題を解決する手段のひとつになる。

AI導入に踏み出した企業がAIで失敗しないために――

　その一方で、AI導入に踏み出した企業がAIで失敗しないためにも、MLOpsが有効だという。

　東芝研究開発センター知能化システム技術センター AI基盤技術開発部シニアマネジャーの西澤実氏は、「企業がAIを活用したいと考えても、データを収集する仕組みがなかったり、データが足りなかったり、あるいはありきたりの結果しか出ない、期待した結果が出ないといった場合もある。また、面白い分析結果が出たものの、ビジネスへの活用方法が検討されていないため、それが生かせないなどの失敗例がある」と指摘する。

　その上で、「MLOpsでは、AIモデルを作る開発フェーズと、開発したものを運用保守するフェーズを行き来しながら、システムを繰り返し改善していくことができる。機械学習やシステム開発、システム運用、ビジネス領域といった各分野の専門家がチームとなって、継続的にサービスを改善していることになり、ビジネスへの貢献が可能なAIを実現することができる」とする。AI導入による失敗を引き起こさない環境が生まれることになるともいえるのだ。

東芝研究開発センター知能化システム技術センター AI基盤技術開発部シニアマネジャーの西澤実氏

　MLOpsは、ビジネス、機械学習（ML）、開発（Dev）、運用（Ops）の4つのフェーズに分けられ、そこに6つのステップが存在するという。

　まず、ビジネスのフェーズでは、現場を知る社員との話し合いでAIを適用するタスクを見極めるステップと、AIモデルを利用するシステムとの「界面」を見極める2つのステップが大切だという。また、機械学習フェーズでは、開発者がデータを集めて、学習させるためのデータセットを作るステップと、機械学習のモデルを開発するというステップがある。開発フェーズでは、現場に定着させるためのシステム化を図り、モデルを組み込むことになる。そして、運用フェーズでは、システム運用者が運用しながら、効果を測定するというステップになる。

　「こうしたサイクルを回し、全体を通して運用し、課題を発見し、システムの使用方法を改善しながら、良質なデータを収集し、継続的なアップデートを進めていくことが大切である」と提言する。

AIをビジネスにつなげていくための6つのステップ

　今回の説明では、MLOpsの4つのフェーズのうち、運用フェーズに関して詳しく述べた。

　ここでは、工場の生産ラインにおける外観検査を例に挙げた。

　生産ラインでは、従来は人による目視での外観検査を実施していたものを、カメラと画像認識AIを組み合わせることで、検査の自動化にシフトするケースが増えている。

　この運用においては、3つのアクションを通じてAIモデルを保守していくことになるという。

Ops（運用）のワークフローにおける3つのアクション

　ひとつめは、モニタリングによるAIモデルの問題の発見だ。AIモデルは、時間経過や環境の変化によって、精度が低下することが一般的だ。そのため、定期的にモデルの精度をモニタリングし、問題を発見する活動を行う必要がある。

　「データの性質の変化により、AIモデルは性能や精度が低下するため、モニタリングが必要である。具体的には、外観検査の場合、不良品の誤分類が増加することで、救い上げ工数が増加し、ビジネスKPIに影響する可能性がある。また、冬のデータで学習し、それで運用を開始したものが、その後、夏を迎え、気温の変化の影響を受けたり、製造装置の部品交換によって特性が変化して、モデルの精度が低下するといったことが起こる場合がある」と指摘する。こうした変化をとらえるためには、モデルの精度を定期的にモニタリングする必要があり、ダッシュボードによって、事前に定めたメトリクスを監視し、一定値を超えたときにはアラートがあがるようにしておくことで、精度の低下に気がつきやすくできるという。

　「モニタリングでは、KPIと気づきの共有が重要になる。再学習を行う前に、現場担当者と運用担当者が連携し、KPIが達成できていない場合には、問題発生時の対処方針を明確化し、アクションを決め、運用にあわせてAIを改善していくべきである」

KPIと現場の気付きの共有

　2つめは、AIモデルの問題への対応だ。モデルの再学習によって精度を改善することができる。

　「AIモデルは、運用しながらも再学習を行い、継続的な改善を行う必要がある。そのためには、再学習を簡単に行える仕組みになっていることが大切である。データ前処理、学習用データセット作成、モデルの再学習、学習済モデル検証、学習済モデルテストといった一連の処理を自動化し、継続的に実行するMLパイプライン化を確立することが適している」と提案する。

　ここでは、再学習するために必要となるデータ収集の効率化も重要なポイントであり、外観検査の場合には、生産ラインで取得したデータを、データベースに蓄積し、そのなかから正しい外観データには正解ラベルを付与。これによって、MLパイプライン化する際に必要なデータをそろえることができる。これがないと再学習に向けた手間が大きくかかることになったり、再学習ができなかったりということが発生し、AIモデルの改善がスムーズに行われない状態に陥ることになる。

MLパイプライン

再学習のためのデータ準備

　そして3つめが、再学習によって新たに作り上げたAIモデルのデプロイである。これは、AIを適用している現場において、新たなAIモデルに置き換えることを指す。

　「再学習したAIモデルを本番環境に反映させる上で、リリースする基準を明確にしておく必要がある。この基準を満たした場合にデプロイし、満たさない場合には、再学習の設定変更を試みたり、設定を変更しても基準を満たせない場合には、AIモデルの開発者に報告し、対応を依頼するといった方法を取ることになる」とした。

　AIモデルのデプロイがしっかりと行われることで、安定した品質でのシステム稼働を維持できることになる。

　東芝の西澤シニアマネジャーは、「このように、MLOpsの運用においては、モニタリング、再学習、デプロイといったモデルのライフサイクルマネジメントが必要である」とする。

モデルのデプロイ

　また、「これらの取り組みを属人的に対応すると、トラブルが発生しやすい」と指摘。「モデル学習の履歴を残していないために、前回はどのMLパイプラインを利用していたのかが不明だったり、どういう設定で再学習していたのかが不明になったりする。さらに、開発環境の構築にも時間がかかり、セットアップがうまくいかなかったり、インストールしても動作しなかったりといった問題も発生する。運用フェーズにおいて、モニタリング、再学習、デプロイといった3つのアクションがスムーズにつながらずに、ライフサイクルが回らないというトラブルが発生する」とする。

　東芝では、こうした課題を解決するために、MLOpsの運用の定期化・自動化を支援する共通基盤の導入が適していると提案する。

　すでに東芝社内では、グループ全体が共通で運用できるMLOps基盤を開発し、運用を行っており、データ管理環境、モデル開発環境、デプロイ環境、運用環境をそれぞれ構築しているという。

　「運用を可視化するダッシュボードのツールやMLパイプラインの設定、実行結果を可視化するツールなど、MLOpsに必要なツールがそれぞれの環境で統合されている。こうしたMLOpsの取り組みによって、東芝は継続的に進化するAIを提供し、活用することができる」と述べる。

　AIの活用において、導入に失敗しないため、また、高品質なAIを安定的に運用するためには、MLOpsが欠かせないといえる。

MLOpsの運用の定期化・自動化を支援する共通基盤の導入が適している

AIにとっては必然のもの？ 東芝が推進するMLOps活用の取り組み

AI導入に踏み出した企業がAIで失敗しないために――

AIにとっては必然のもの？　東芝が推進するMLOps活用の取り組み