ニュース
TOPPANホールディングスとTOPPAN、中世ギリシャ語を解読可能なAI-OCRエンジンを開発
認識精度95%以上の達成を目指す
2026年4月8日 14:07
TOPPANホールディングス株式会社とTOPPAN株式会社は7日、中世ギリシャ語の解読が可能なAI-OCRエンジンを開発したと発表した。今後は、ヴァチカン教皇庁図書館のギリシャ語写本の画像やテキストデータを用いて学習データの蓄積や精度改善を重ね、認識精度95%以上の達成を目指すという。
TOPPANはこれまで、現代人には判読困難な「くずし字」で書かれた古文書の解読に関する取り組みを行ってきており、2015年には、AI画像認識技術を活用して「くずし字」を解読する「くずし字OCR」の研究開発を開始。古文書解読・利活用サービス「ふみのは」や、手軽に古文書を解読できるスマホアプリ「古文書カメラ」などを展開してきた。
一方で、中世ギリシャ語は、時代や書き手によって字形が異なるほか、単語の一部が省略されたり、現代とは異なる綴りが用いられたりするなど、表記が一定ではないという特徴を持つ。また、単語と単語の間に区切りを設けずに文章が書かれていることもあり、専門知識のない現代人には読み取りが困難だという。
TOPPANでは今回、「くずし字」の解読で培ってきたAI-OCRに関する技術や知見を生かして、中世ギリシャ語の解読が可能なAI-OCRエンジンを開発した。100万字規模の字形や行のデータベースを学習データとして用意することで、中世ギリシャ語文字の解読を実現した。
また今後は、TOPPANホールディングスが運営する印刷博物館と協力関係にある、ヴァチカン教皇庁図書館が保有するギリシャ語写本約5000点のうち、すでに翻刻や注釈などの付加情報を加えた50点(IIIF画像約400枚)と翻刻テキストをAIの学習データとして活用する。
写本画像と翻刻テキストの高精度な学習に加え、専門家による目視確認も組み合わせることで、解読精度の向上と品質の担保を両立し、膨大なギリシャ語写本コレクションのテキストデータ化を加速させるとともに、開発したAI-OCRエンジンにおける中世ギリシャ語文字の認識精度95%以上の達成を目指すとしている。

