ニュース

自然言語処理で企業名認識が可能、TISが企業名辞書「JCLdic」を公開

 TIS株式会社は20日、自然言語処理で企業名認識を行うための辞書「JCLdic」(日本会社名辞書)を無償公開すると発表した。辞書を生成するコードをオープンソースソフトウェア(OSS)として公開する。

 「JCLdic」は、800万以上の企業名を収録している企業名辞書。企業名の表記揺れを正確に認識するために、さまざまな表記を網羅しているとのことで、例えばTIS自身については、「TIS株式会社」の表記は「TIS株式会社」(全角)、「TIS」(アルファベット)、「ティアイエス」(カタカナ)など、同一企業でも複数の名称があるが、「JCLdic」を活用することで同じ企業を指す商号として認識可能になるという。

 作成においては、国税庁の公開している480万以上の法人データを収集。重名の会社名を除いて、一意の210万の会社名をベースに、別名生成手法によって、800万以上の会社別名を生成した。

 これを利用すると、有価証券報告書、ニュース、クチコミなどのテキストから会社名を認識可能。無数のテキストから会社情報が含まれたテキストを特定可能なため、これらのテキストをソースにした機械学習モデルを利用し、細かい会社情報のマイニングを行うこともできるという。

 また、テキストデータに自動的にタグを付ける機能を備えているので、収録した膨大な会社名を活用し、ラベルがないテキストに自動で会社名をタグ付けすることで、固有表現認識、関係抽出などの自然言語処理タスクの機械学習のモデルに活用できるとしている。

 なおTISでは、企業に関するナレッジグラフを構築するため、テキストからの情報抽出に取り組んだものの、これまでの辞書では企業名のカバレッジが低く、表記揺れで認識にくいという問題を解決するために「JCLdic」を作成したとのこと。そして今回、同様の研究を行う研究者にも活用をしてもらい、その知見を交換することを目的に無償公開するとしている。

 同社は今後、現在提供している与信管理ソリューション「SCORE LINK」、企業分析サービス「Finplus」などのサービスに「JCLdic」を活用した企業ナレッジグラフを加え、企業の与信・融資業務支援の充実や、投資・融資を受ける企業側の、数値面だけでない評価といった機能・メニューの拡張を目指すとのことだ。