ニュース

富士通研究所、教師データなしで高次元データの特徴を正確に獲得できるAI技術を開発

 株式会社富士通研究所は13日、AIによる検知・判断における精度向上に向け、高次元データの分布・確率などの本質的な特徴量を正確に獲得するAI技術「DeepTwin(ディープツイン)」を世界で初めて開発したと発表した。

 DeepTwinは、富士通研究所が情報通信分野で培ってきた映像圧縮技術の知見とディープラーニング(深層学習)を融合させることで、高次元データの削減すべき次元数と次元削減後のデータの分布をディープラーニングで最適化し、データの特徴量を正確に抽出できるAI技術。これにより、AI分野の重要な課題の一つである、データの正確な分布や発生確率の獲得が可能となるため、異常データ検知など様々なAI技術の判断精度向上に貢献し、幅広いビジネス領域におけるAI適用が期待されるとしている。

 通常、AIの学習には大量の教師データが必要となるが、教師データの作成に要する時間・工数などのコストがかかるため、正解ラベルを付与しない教師なし学習の必要性が増している。しかし、通信や画像など、扱うデータが高次元の場合は、データの特徴を獲得するのが計算量の観点で困難なため、ディープラーニングを使って入力データの次元を削減する手法が用いられていたが、この手法では次元削減後の空間における各データの分布や発生確率を考慮せずに削減していたため、入力データの正確な特徴量を捉えきれておらず、AIが誤った判定を行ってしまうといった問題があった。

従来の課題(異常検知の例):定量的な裏付けのない経験的な手法のため、誤った判定が発生

 数千から数百万次元の高次元データである画像や音声データの情報圧縮においては、長年の研究でデータの分布や発生確率が解明されており、これらの既知の分布や確率に対して最適化された離散コサイン変換などの手法で次元数を削減する方法がすでに確立されている。また、次元削減後のデータの分布と発生確率を用いてデータを復元すると、元の画像・音声と復元後の画像・音声との間の劣化を一定に抑えたときに、圧縮データの情報量を最も小さくできることが理論的に証明されていている。

 富士通研究所では、この理論から着想を得て、通信アクセスデータや医療データなど、分布・確率が未知の高次元データに対し、その次元をニューラルネットワークの一つであるオートエンコーダ(ニューラルネットワークに基づく教師なしの次元圧縮技術)で削減した後、また復元したときに、元の高次元データと復元後のデータとの間の劣化を一定値に抑えつつ、次元削減後の情報量を最小化したデータは、元の高次元データの特徴を正確に捉え、かつ、次元を最小限に削減できていることを世界で初めて数学的に証明したという。

 また、一般にディープラーニングは、最小化したい評価項目を定めると、複雑な問題でも評価項目が最小となるパラメータの組み合わせを求めることが可能となる。この特徴を利用し、高次元データの削除すべき次元数と削除後のデータの分布を制御するパラメータを導入し、圧縮後の情報量を評価項目に定め、ディープラーニングで最適化した。これにより、前述の数学理論に基づいて最適化されたときの次元を削減したデータの分布および確率は、データの特徴を正確に捉えることが可能になるとしている。

情報圧縮技術に着想を得た、データの特徴に忠実な分布・確率の獲得の理論フレームワーク

 富士通研究所では、開発した技術をデータマイニングの国際学会「Knowledge Discovery and Data Mining(KDD)」が配布している通信アクセスデータ、およびカリフォルニア大学アーヴァイン校が配布している甲状腺数値データ、不整脈データといった異なる分野での異常検知のベンチマークにおいて、従来のディープラーニングベースの誤り率と比較して最大で37%改善し、全データで世界最高精度を達成した。この技術は、データの特徴を正確に捉えるというAIの根本的な課題を解く技術であるため、幅広い分野でのAI適用が期待できるとしている。

 富士通研究所では、開発した技術の実用化を進め、2021年度中の実用化を目指すとともに、さらに多くのAI技術に適用していくと説明。また、その成果を富士通のAI技術「FUJITSU Human Centric AI Zinrai(ジンライ)」に活用していく。