ニュース

Sansanの名刺特化型OCRエンジン「NineOCR」、名刺記載の全項目をデータ化可能に

 Sansan株式会社は17日、名刺に特化した独自OCRエンジン「NineOCR」(旧称:DSOC OCR)のデータ化範囲を拡大し、名刺に記載されている全項目の情報に対応したと発表した。

 Sansanでは、名刺管理を中核とした営業DX(デジタルトランスフォーメーション)サービス「Sansan」において、OCRエンジンと手入力を組み合わせたデータ化フローを構築し、高いデータ化精度を実現してきた。

 その際に利用しているOCRエンジンのNineOCRは、Sansanの技術本部が培ってきたデータ化ノウハウをOCRエンジンに展開することにより開発されたもので、撮影された画像により精度にばらつきが出る一般的なOCRエンジンとは異なり、定型・不定形や撮影された環境を問わず、高い精度でデータ化を行える特徴を持つ。

 そのデータ化範囲は、従来、氏名とメールアドレスに限られていたが、今回は役職、会社名、住所、URL等、名刺全体まで拡大され、利用者が、データ化された名刺の最終データを受け取るまでにかかる時間を短縮するという。

 今回Sansanでは、NineOCRの開発にあたって、文字列検出・文字認識・情報統合を各研究員で分担するとともに、氏名とメールアドレスを読み取る旧バージョンから要件の見直しを実施し、文字列検出器のマルチクラス化・文字認識器の複数行認識対応を行っている。特に文字列認識器では、自然言語処理分野で発展したTransformerベースのモデルを採用して最先端のモデルを取り込み、高性能かつ柔軟な認識を可能にしたとのことだ。

 なおOCRエンジンは、データ化した情報を即時使用するシーンでの活用が多いことから、正確さだけではなくスピードも重要視される。Sansanでは、NineOCRは0.3秒の即時デジタル化に対応したハイパフォーマンスを実現しており、高速処理が可能なため、ユーザー体験を損なうことなくサービス内への実装が可能と、高速性能をアピールした。