ニュース

NEC、超大規模データから高速に予測モデルを生成できる「分散版異種混合学習技術」を開発

 日本電気株式会社(NEC)は5月26日、人工知能(AI)によりビッグデータに混在する多数の規則性を発見する技術「異種混合学習技術」をもとに、超大規模データから分散コンピューティングシステムで予測モデルを生成する機能を強化した「分散版異種混合学習技術」を新たに開発したと発表した。

 新技術の発表にあたり、NEC データサイエンス研究所 所長の山田昭雄氏が、同社のAIへの取り組み状況について説明した。「当社では、社会システムをオペレーションする人々を高信頼のAI技術で支えることを目的に、技術開発に取り組んでいる。その歴史は古く、半世紀に及ぶ技術蓄積と事業実績をもっており、『見える化』『分析』『制御・誘導』といった分野で世界トップ性能のAI技術群を開発し、数多くの社会ソリューション事業を展開してきた」という。「この中でも、分析の分野については、より複雑なシステムをAI技術で制御・誘導していくことを開発の基本方針にしている。そのため、発見したロジックを説明できないブラックボックス型ではなく、ロジックを説明できるホワイトボックス型に着目し、人と協調して問題を解くAI技術にこだわって開発を進めている」と、分析に関わるAI技術の開発方針について述べた。

分析におけるAI技術開発の基本方針
「異種混合学習」によって学習される予測モデルのイメージ
NEC データサイエンス研究所 所長の山田昭雄氏

 人と協調して問題を解く独自のAI技術として、同社が開発・強化に取り組んでいるのが「異種混合学習技術」だ。この技術は、ビッグデータの分析・予測において曜日や天気などの条件による「データの場合分け」や「因子の組み合わせ」を自動で発見する機械学習技術で、すでに、資源の効率化のためのエネルギー・水・食料の需給予測や、物流管理を効率化するための在庫需要予測、小売店舗管理の高度化のための商品需要予測で活用されるなど、実用化が進んでいるという。「一方で、近年、需要予測に用いるデータが急速に大規模化・複雑化してきている。たとえば、電力需要予測では、今までのビル1棟の需要予測から、都市全体の需要予測が求められている。また、小売商財需要予測では、1店舗の仕入れ最適化から、多数店舗の仕入れ最適化のニーズが高まりつつある。そこで今回、こうした超大規模データの分析にも対応できる新たなAI技術として、『分散版異種混合学習技術』を開発した」(山田氏)と、「分散版異種混合学習技術」の開発に至った背景を説明した。

 超大規模データの分析で、従来の「異種混合学習技術」が抱えていた課題について、NEC データサイエンス研究所 主席研究員の藤巻遼平氏は、「サンプル数が数千万件以上で、コンピュータ1台のメモリ容量を超えるような大規模データでは、あらかじめデータを分割する必要があり、学習に非常に長い計算時間がかかっていた。また、高性能なCPUの搭載やコア数の増加にも制限があり、性能が限定されるなどの課題があった」と指摘する。

 これに対して、新たに開発した「分散版異種混合学習技術」では、「複数のコンピュータが協調する分散版異種混合学習アルゴリズム(手法)を新規に開発し、分散計算基盤Apache Spark上で動作するエンジンを実現した。これにより、分散コンピューティングシステムで異種混合学習を実行することが可能となり、サンプル数が数千万件以上の超大規模データでも、コンピュータの台数を増加させることでデータの規模に制限なく予測モデルを生成することができる」(藤巻氏)としている。

NEC データサイエンス研究所 主席研究員の藤巻遼平氏

 分散版異種混合学習アルゴリズムの仕組みとしては、複数のコンピュータ間で、予測モデル情報(データの場合分けや因子の組み合わせの情報)のみを共有し、共有された個々の予測モデルの情報を独自アルゴリズムで統合する。これによって、各コンピュータが独立して異種混合学習での分析を行いながら、大規模データ全体で整合が取れた高精度な予測モデルを生成することが可能となった。

分散版異種混合学習アルゴリズムの動作イメージ

 また、分散コンピューティングシステム基盤の一つであるApache Spark上で動作する分散版異種混合学習アルゴリズムの実行用ソフトウェアを開発した。同ソフトウェアでは、すべての分析対象データを、一度各コンピュータのメモリ上に分散配置すると、以降一切の再配置や再読み込みを行うことなく、分散版異種混合学習アルゴリズムを実行する。これにより、通常、コンピュータの台数増加によって頻度が増す分析対象データの通信やディスク読み込みが不要となり、Apache Sparkの特長である分散メモリ上での計算性能を最大限に発揮。超大規模データの分析においても、コンピュータの台数を増やすことで、高速にアルゴリズムを実行できるようになった。

 なお、同社では、「分散版異種混合学習技術」を用いて、日本全国に設置されたATMの残高を推定する実証実験を実施した。分析対象のATM数は約2万台、学習データのサンプル数は約2300万件。「分散版異種混合学習技術」のコンピュータ環境は、総CPUコア数が128、総メモリ量が2.5TB。一方、従来の「異種混合学習技術」は、CPU1コア、256GBのメモリで処理を実行した。この結果、「異種混合学習技術」と比較して、「分散版異種混合学習技術」の予測精度は平均17%向上し、学習速度も約110倍向上したという。

 今後同社は、メモリ利用効率のさらなる改善や、クラウド上のマイクロクラスタへの適応などの改善を図り、2017年度の実用化を目指す。

唐沢 正和