ニュース
さくら情報システム、生成AIとAI-OCRを組み合わせた新サービス「AI Textract(仮称)」を6月にも提供開始
2024年1月26日 09:00
さくら情報システム株式会社は25日、生成AIとAI-OCRを組み合わせたデータ化サービス「AI Textract(仮称)」を提供すると発表した。特殊な帳票や独自の帳票から情報を抽出したい企業での利用に適しているという。なお、提供開始は6月を予定している。
「AI Textract(仮称)」は、Azure Open AI Serviceを利用して、さまざまな非定型帳票から必要な情報を自動的に抽出するAI-OCRサービス。
比較的フォーマットが決まっている請求書や領収書などの帳票の読み取り技術は確立しつつある一方で、例えばアンケートや報告書といったフリーフォーマットの帳票はイメージを読み込む前に、フォーマットをあらかじめ利用者側で設定する必要がある。
しかしGPT(生成AI)は、膨大なテキストデータを事前学習することにより、さまざまな文書と固有の用語に関する基礎知識を有しているため、羅列されたテキストを適切な箇所で区切り、必要な情報を抽出する精度が一般的なAI-OCR製品より高い傾向があるとのこと。
そこでさくら情報システムでは、この特長に着目し、全文OCR結果から必要な情報を抽出するサービスとして、「AI Textract(仮称)」を提供するとした。
新サービスでは、は帳票に書かれた文字データをGPTが自動認識できるよう、同社でプロンプト(AIとの対話形式のシステムにおいて用いられる、利用者が入力する指示のこと)の指定を行うため、従来のAI-OCRで必要とされている利用時の事前設定や調整が不要。また、活字だけでなく手書き文字の帳票もデータ化可能としている。
利用形態としては、2種類を用意した。1つ目のWeb画面方式では、Web画面のメニューから帳票タイプを選択し、PDFをアップロードすると、読み取り結果をまとめたCSVデータをダウンロードできる。
一方のAPI方式は、利用企業が開発したアプリケーションや他社製のサービスから、APIを経由して、帳票タイプと1ページごとのPDFを渡すと、結果のテキストが返される仕組みだ。
なお、6月予定している正式発表後にWeb画面方式の環境を公開し、メールアドレスのみで枚数を限定して試用できる環境と、企業の情報を登録した上で、より多くの枚数を試用できる環境を公開する予定としている。