ニュース

中国富士通研究開発、古文書の文字認識において学習用データを削減できる深層学習技術を開発

 富士通研究開発中心有限公司(以下、FRDC)は21日、中国古文書文字の高精度な文字認識に用いる深層学習技術において、少ない数の学習データでも高精度な文字認識を実現できる技術を開発したと発表した。

 中国には5000万冊以上の古文書が所蔵されているが、時間の経過や閲覧などにより劣化や破損が進んでいる。古文書を保管している各図書館では、古文書を電子画像として保存する作業を進めているが、保全目的だけでなく、古文書のデータをICT技術で利活用していくためには、電子画像中の文字をテキストデータ化する必要がある。現在、この作業はごく一部の古文書について専門家が手作業で行っており、すべての古文書を電子化するためには多大な時間とコストが必要となっている。

 深層学習技術による文字認識では、あらかじめ、文字画像と正解とする文字を正しくひも付けた学習用データ(教師データ)を用いて認識エンジンに学習させる。このとき、教師データの数が多いほど認識精度が高くなるが、古文書文字への適用では十分な数の教師データを用意することに課題があった。

開発した文字認識方法の構成

 FRDCでは、古文書の文字画像を、その文字画像と文字をひも付けた学習用データ(教師データ)で学習させる深層学習の認識エンジンと、文字とひも付けられていない二つの文字画像が同じ文字か異なる文字かという特徴を学習する深層学習エンジンを組み合わせて学習させる技術を開発した。

 技術では、技術学習に利用できるデータを増やすため、これまで、正解の文字と対応づけられておらず、教師データとして利用されていなかった大量の文字画像データを学習に活用。同じ文字ラベルを持つ文字画像の特徴パターンと、異なる文字ラベルを持つ文字画像の特徴パターンを比較し、その比較情報を元に認識エンジンに学習させていくことで、少ない数の教師データでも高い認識精度を実現できた。

 この技術を、中国古文書文字認識用のデータとして公開されている1000枚の中国敦煌古籍文献画像を用いたベンチマークに適用。技術適用前の、教師データのみを用いて学習する従来技術で得られる81%と同じ精度を、一文字当たり約70%少ない教師データ数で達成できた。また、ベンチマークにおいて、一文字当たり50個の同じ数の教師データを用いて学習させた場合に、これまで報告されている82%に対して、今回の技術では88%の認識率を達成したという。

 FRDCでは今回の技術を、中国各地の図書館や、古文書画像と検索などの利用ができる電子化テキストが一体に保って保管されている古文書データベース向けに、中国古文書電子化ソリューションとして展開していく。また、技術は日本語や韓国語など、認識すべき文字の種類が多い用途に対しても認識精度を高めるのに有効だと説明。技術は2018年度に富士通のAI技術「Human Centric AI Zinrai」への活用を目指し、多数の画像データを認識して分類するような、植物の識別など認識すべき対象が多い用途に適用していくとしている。