富士通研、文書内の社外秘マークや透かし文字を検出する新技術

情報漏えい対策に2011年度の実用化めざす


ソフト&ソリューション研究所 言語・メディア研究部 主任研究員の堀田悦伸氏

 株式会社富士通研究所(富士通研)は6日、情報漏えい対策の新技術として、文書に含まれる社外秘マークや透かし文字を検出する技術を開発したと発表した。

 近年、情報漏えい対策として、PCから社外に送信されるデータを監視し、そのデータに機密情報が含まれていた場合には、警告や送信保留を行う仕組みが求められている。一般的にDLP(Data Loss Prevention)と呼ばれる技術だが、従来はその文書の機密性を判定するため、文書内のテキスト情報から「Confidential」や「社外秘」などの特定文字列を検出する方法などが採られていた。

 「しかし、文書の機密性はテキスト情報だけでなく、マークや背景の透かし文字のような形式で指定される場合も少なくない」とソフト&ソリューション研究所 言語・メディア研究部 主任研究員の堀田悦伸氏は指摘する。機密文書であることを高い精度で判定するには、このようなさまざまな形式に対応することが課題になっているというのだ。

 これに対して新技術は、文書に含まれるテキスト情報、マークだけでなく、透かし文字からも特定文字列を検出し、機密性を判定できるもの。

1)本文中のテキスト情報、2)背景にある「関係者外秘」などの透かし文字、3)画像として張られた社外秘マークを検出する新技術従来技術では本文のテキストのみ監視可能。対して、新技術では透かし文字やマーク中の機密キーワードも検出できる

 仕組みは、1)さまざまなアプリケーションの文書に仮想的な印刷処理を行い、汎用的に用いられる印刷データ(EMF:Enhanced Metafile)を作成する。2)このEMFを解析することで、テキストや描画されている図形、画像を種類ごとに適切に分類。3)分類した種類ごとに、それぞれに適した文字認識処理によるテキスト抽出を実施。透かし文字やマークなど、テキスト形式ではないイメージに関しては、そのイメージの描画方法に応じた解析処理を行った後、文字認識処理により文字情報を抽出する。

 「2)の図形、画像を種類ごとに適切に抽出・分類する点が特長で、これにより透かし文字やベクトル図形による文字列も判定できるようになっている。さらに1)の印刷処理を行うことで、文書作成に使ったアプリケーションの種類に依存せず判定できるほか、3)のように分離した種類ごとに処理をかけることで、OCR方式よりも高精度な検出が可能になっている」(堀田氏)とのこと。

機密文書の検出の仕組み。テキスト・図形・画像の各描画データを分離し、それぞれに最適な文字認識技術を適用する点が新しいベクトル図形として書かれた透かし文字も最初に抽出・分類することが可能

 用途としては、メール送信時の添付文書チェックや、印刷時の監視、あるいはPC内の機密文書洗い出しなどに活用できるとしている。

 同社では2011年度をめどに実用化を進める方針。「現状でメール送信時のチェックに使うと、20~30ページの文書をチェックするのに数十秒かかってしまうため、パフォーマンスの向上が今後の課題」(同氏)とのこと。

関連情報