ニュース

富士通、人工知能技術活用で中国語手書き文字認識率96.7%を達成、“人の認識率”を上回る

 富士通研究開発中心有限公司(FRDC)と株式会社富士通研究所は17日、人間の脳の働きを模した人工知能技術を活用し、学会で提唱された“人の認識率”を上回る認識率96.7%の中国語手書き文字認識技術を、世界で初めて開発したと発表した。

 FRDCと富士通研究所はこれまで、文書画像処理分野でトップレベルの国際会議「ICDAR 」主催の手書き文字(中国語)認識コンテストで1位(認識率94.8%)を獲得するなど、業界トップの精度を実現してきたが、人間の認識能力相当(認識率96.1%)には到達していなかった。

 さらに認識精度を高めるため、文字の変形の多様性を学習する新たな仕組みとして、人間の脳内を模した文字の特徴を捉える階層的モデルにおいて、認識精度を支配する神経細胞間の結線数を拡大し、文字の変形をきめ細かく学習するために、文字の基本パターンから多種多様な変形パターンを自動生成する技術を開発した。

 開発した技術では、文字認識の過程で利用する階層モデルの神経細胞間をつなぐ結線に対し、きめ細かく変形を学習できるよう、結線の数を従来技術の約280万から約1億5000万まで増やすことで認識精度を高めた。

文字認識の過程における各神経細胞間で学習された特徴の可視化
より多くの特徴を捉えるため階層モデルの結線数の拡大

 また、認識対象となる中国語の文字は約3800種類あることから、各文字の実際の変形パターンを収集するのは困難となっていたことから、既存の文字サンプルをランダムに変形して様々な学習文字サンプルを自動生成する技術を開発。多種多様な変形文字パターンを階層的モデルに学習させることが可能になった。

 従来手法は、二次元の位置を変形していたため、背景部分と文字の部分(文字線)の明るさの変化や文字線の局所的な変化が困難だったが、三次元のランダム変形に基づく文字サンプル生成技術を考案し、文字パターン画像上のX座標、Y座標に加え、画素ごとの濃淡値をZ座標のパラメーターとして様々な変形パターンを生成することができる。

三次元ランダム変形に基づく学習文字サンプル生成

 これらの開発した技術により、中国語の手書き文字で人間の認識率相当の96.1%を超える96.7%を達成。この技術により、人が行っているコンピュータへの入力業務や確認作業の自動化が期待されるとしている。

 FRDCと富士通研究所では、文字認識技術のさらなる高精度化と画像や音声といった文字以外のメディア認識への適用拡大を進めながら、技術の2015年度中の実用化を目指す。また、数字やアルファベット、日本語など、多言語の文字認識への適用もあわせて検討していく。

三柳 英樹