ニュース

富士通研究所、AIを活用して手書き文字列の認識を向上させる新技術

富士通のAI技術「Zinrai」への活用目指す

石井一志

2016年11月8日 13:00

　富士通研究開発中心有限公司（以下、FRDC）と株式会社富士通研究所は8日、人工知能（AI）モデルを活用した、高精度の手書き文字列認識技術を開発したと発表した。両社によれば、中国語の手書き文字列の認識性能において、世界最高精度を達成したとのことで、富士通株式会社のAI技術「Human Centric AI Zinrai（ジンライ）」（以下、Zinrai）への活用を予定している。

　深層学習をはじめとする人工知能モデルを利用した、単一の中国語手書き文字認識は、すでに人間の認識能力を超えているというが、中国語の文字列は複雑な感じの連続であるため、手書きなど1つの文字の区切りが明確でない場合は、1つの文字の区切りを正しく判別できず、これが実用上の大きな課題となっていたとのこと。

従来深層学習モデルの文字列認識結果

　今回は、手書き文字列の画像認識において、正しい文字を高信頼度に、文字にならない部分を低信頼度に出力可能な新しい人工知能モデルを開発。このモデルを適用することにより、文字の認識ミスを従来の半分以下に抑えられるため、手書きテキスト電子化入力作業などの効率が大幅に向上するとした。

　人工知能を活用した従来の手書き文字列の認識は、まず文字の教師サンプルを用いて、多数の文字パターンの特徴を学習して記憶。次に、文字列画像を空白部分を判別することで部首とつくりのような複数領域に分割し、分割した領域が1つの文字を表す場合と、隣り合う領域を組み合わせて1つの文字になる場合に分け、それぞれが単一文字と仮定し、学習に基づく認識アルゴリズムにより、候補となる文字と信頼度を出力する。

　従来技術では、部首やつくりなど、文字ではない画像に対しても高い信頼度を出力してしまう場合があり、正しく文字の区切りを判別できない課題があったが、従来の文字の教師サンプルに加え、部首やつくりなどのパーツや、文字にならないパーツの組み合わせからなる非文字の教師サンプルによる異種深層学習モデルにより、正しい文字のみに高い信頼度が出力されるような技術を開発している。

異種深層学習モデルの訓練と認識処理

異種深層学習モデルの文字列認識結果

　なお、中国科学院自動化研究所「Institute of Automation, Chinese Academy of Sciences（CASIA）」が公開し、学会で標準として用いられている手書き中国語データベースに適用したベンチマークでは、従来技術に比べて5％上回る96.3％の最高精度を達成した。これにより、手書きテキスト入力作業などの効率が大幅に向上するとしている。

　なお今回の技術は、スペースによる単語の区切りのない中国語、日本語、韓国語などの言語に対して有効に働くため、富士通研究所が強みとしている日本語の言語処理技術と融合させると、日本語の自由手書き文字に対しても認識精度の大きな向上が見込まれるとのこと。

　富士通では2017年に「Zinrai」での活用を目指しており、順次、日本向けの手書き帳票電子化などのソリューションに適用する意向だ。