ニュース

熊本大学とTOPPAN、くずし字対応のAI-OCRを用いて「細川家文書」約5万枚の全文テキスト化に成功

新しく発見された災害関連の記録の、現代の防災計画への活用を目指す

 国立大学法人 熊本大学とTOPPAN株式会社は26日、熊本大学が公益財団法人永青文庫から寄託を受けている歴史資料「細川家文書」のうち、専門家でも解読が困難な、難易度の高いくずし字で書かれた約5万枚の未解読の古文書(藩政記録)を、AI-OCRを用いて短期間で解読し、約950万文字のテキストデータを生成することに成功したと発表した。両者では、大規模な古文書解読のためのシステム構築を行うとともに、地域における災害記録をはじめとした網羅的な調査を開始している。

 TOPPANでは2015年から、大学共同利用機関法人人間文化研究機構 国文学研究資料館との共同研究を開始し、多数の研究機関等とくずし字AI-OCR技術の開発・実証を重ねてきた。また2017年からは、古文書解読とくずし字資料の利活用サービス「ふみのは」として、さまざまなくずし字解読ソリューションを提供しているという。

 一方、熊本大学は、公益財団法人永青文庫が所有する、九州の国持大名だった肥後細川家(1600~1632年 小倉藩主、以降1871年まで熊本藩主)に伝来した歴史資料や美術品のうち、約5万7000点、約288万枚を寄託されているとのこと。

 こうした中で、熊本大学とTOPPANでは、2021年より文献資料の新たな大規模調査手法の検討と、永青文庫所蔵資料に対するAI-OCRの精度向上に取り組んできたが、今回は約5万枚・約950万文字を全文テキスト化した。

 さらに、くずし字資料の解読システムと連動するキーワード検索システムを構築することにより、江戸時代前期の細川藩領国(小倉領40万石から熊本領54万石)の、約90年間にわたるあらゆる社会的事件や統治制度の変容を示す記述を含んだ資料を、即時に検索収集できるようになったという。

 なお、今回解読された古文書は、「細川家文書」のうち、細川家奉行所の執務記録である「奉行所日帳」、藩主細川忠利の口頭での命令を日次に記録した「奉書」、参勤中の細川藩主が国元の家老・奉行衆に発した書状の控えである「御国御書案文」、小倉・熊本の惣奉行衆から各業務を担当する奉行たちへ発せられた指示書類の控えである「方々への状控」など。

 また、くずし字AI-OCRにより作成されたテキストデータに対して、「地震、大雨、洪水、虫、飢、疫」など、災害に関連するキーワードで検索・調査を実施したところ、300件以上の記述が発見された。

くずし字文献資料の大規模調査のフロー図

 この中には、今までよく知られていなかった、17世紀後期の気象災害に起因する大規模な飢饉と疫病の蔓延を物語る熊本藩奉行所の執務記録の記述など、未知の重要な記述が含まれることが確認されたとのこと。

今後、熊本大学とTOPPANは、「細川家文書」の解読と分析を進め、江戸時代の社会史研究の通時的深化に貢献するとともに、新しく発見された災害関連の記録を活用することにより、熊本における地域防災などに活用するための研究を今後進めていくとしている。

「奉行所日帳」に含まれる「洪水」の記述67件の中から、正徳2年(1712年)旧暦6月10日の洪水で、熊本町の「長六橋」が流された記録を発見