ニュース

東芝、教師なしで多量のデータの中から少量の不良品データを分類する「深層クラスタリング技術」を開発

 株式会社東芝は14日、教師なしで少量の不良品データを高精度に分類する深層学習技術「深層クラスタリング技術」を開発したと発表した。教師なし学習において、世界トップレベルの分類精度98.4%を実現したという。

 深層学習により製造装置や生産品のデータを分析し、生産性を改善する試みが広まっているが、例えば、良品と不良品を深層学習で自動分類する場合、一般的には、あらかじめデータに対して良品か不良品かという人間の判断を人手で付与する教示作業(教師あり学習)が必要になる。

 また、自動分類を高精度に行うためには、こうした教示作業において多量のデータを用いる必要があり、作業に時間がかかることから、深層学習をはじめとした機械学習の導入が難しいという課題があった。

 一方、こうした教示作業を必要としない、教師なし学習の一種であるクラスタリング技術では、データ間の距離や類似度といった基準に基づいて、データを所定の数のグループ(クラスタ)に分類している。

 しかしクラスタが少量の場合は、クラスタ中心からデータまでの距離が短いため、クラスタの外にあるデータもクラスタ中心に近いとして分類してしまっていた。その結果、従来のクラスタリング技術では、良品に対して不良品の数が少ない場合、少量のデータ群(不良品)に他の多くのデータ(良品)が混入してしまい、十分な分類精度が得られなかったという。

 これに対して、東芝が新たに開発した「深層クラスタリング技術」では、クラスタの中心にデータ群が集まる従来の学習基準に加え、類似度の高いデータ同士が離れなくなるような独自の学習基準を導入。これにより、少量のデータ群が他のデータに混入することを抑制し、少量のデータ群を独立したクラスタとして分類可能になった。

 同社がこの技術を使用し、世界共通の手書き数字の公開データを分類したところ、教師なし学習での分類精度が従来の93.8%から98.4%に向上し、世界トップレベルの分類精度を達成したとのこと。

 なお東芝では、この技術を東芝デバイス&ストレージ株式会社の半導体工場に適用する予定。また今後は、社内外においてにおいて半導体以外の分野を含めた製造現場への適用拡大を目指すとしている。