ニュース

凸版印刷、近代の手書き文字を解読するAI-OCRを開発 20234月より正式サービスとして提供予定

 凸版印刷株式会社は11日、明治期から昭和初期(以下、近代)の手書き文字に対応したAI-OCRを開発したと発表した。凸版印刷では、古文書解読とくずし字資料の利活用サービス「ふみのは」として、江戸時代のくずし字を対象としたAI-OCRを提供しているが、今回はさらに、近代の多様な筆跡の手書き文字にまで対応の範囲を拡張している。

 近代に作成されたくずし字を多く含む手書きの資料は、全国に大量に残存しており、その中には公文書、企業経営文書、業務日誌、書簡のような貴重な情報が記された資料が数多く含まれている。

 また手書きの謄本類を取り扱う業務においては、近代の手書き資料の解読が日常的に行われているが、これら資料の解読は、専門家にとっても難易度が高く手間のかかる作業であり、実用レベルのOCR技術もこれまで開発されていなかったとのこと。

 これは、近代の手書き文字には、書き手によるくずし方のバラつきが大きい、筆記用具の多様化、カタカナ語が混在、旧字旧仮名遣い表記といった特性があるためだが、今回凸版印刷では、神戸大学経済経営研究所附属企業資料総合センターおよび公益財団法人三井文庫の共同研究のもと、近代のくずし字を解読するAI-OCR技術を独自に開発した。開発されたAI-OCRでは、さまざまなパターンの文字をAIに学習させることで、これらの難読文字の解読を実現している。

近代手書き文字AI-OCRの解読例。鐘淵紡績株式會社「株主総会速記録」(左)、鐘淵紡績株式會社「支配人回章」(右)。いずれも神戸大学経済経営研究所附属企業資料総合センター所蔵の資料である

 今後は、神戸大学経済経営研究所附属企業資料総合センター等との実証実験を行い、提供中の「ふみのはゼミシステム」の追加サービスとして2023年4月より正式に提供を開始する予定。また、開発中の古文書解読スマホアプリの追加サービスや、API形式での提供も順次リリースするとしている。

近代手書き文字AI-OCR サービス全体像