日本IBM、数億件の非構造化データに対応できるテキスト分析ツール新版

1週間分の日本語の全ツイートを一度に分析可能

　日本アイ・ビー・エム株式会社（以下、日本IBM）は7日、テキストデータなど非構造化データを分析するソフトの新版「IBM Content Analytics with Enterprise Search（ICA） V3.0」を発表した。Hadoopとの連携に対応したため、数億件におよぶソーシャルメディアの書き込みを一括して分析できるようになったという。価格は100 Processor Value Unitの場合で801万円（税別）から。

　ICAは、非構造化データの分析を行うためのソフト。ソフトウェア事業インダストリー・ソリューションズ事業部 ECM営業部長の山田桂子氏は、「ある地域である商品が突然売れ出したような場合には、構造化情報の中から理由を見つけるのは難しい。コールセンターに寄せられるお客さまの声、インターネットへ書き込まれている情報などにヒントが隠されており、ICAによって、自然言語処理によってそれらを分析することができる」と、その特徴を説明する。

　特に現在では、FacebookやTwitterをはじめとしたソーシャルメディアの重要性が増しており、顧客行動や市場動向などを把握する上でも、これらに書き込まれた非構造化データの重要性が飛躍的に重要さを増している。また同時に、ソーシャルメディア上のデータが急激に増加しているため、それを分析するソフトにも大量データの処理能力が求められるようになっていた。

　今回の新版ではこうしたニーズを反映し、分析可能な非構造化データの件数が前バージョンの数千万件から数億件規模に拡張され、1～2週間分の日本語によるTwitterの全つぶやきを一度に分析できるスケーラビリティを備えたという。

　この拡張は、日本IBMが「IBM InfoSphere BigInsights」として提供しているHadoopソリューションとの連携によって実現したもので、山田氏は「データ量にして1PB規模、新聞の朝刊260万年分に相当する膨大なデータの分析が可能になった。こんな規模が必要なのかと思われるかもしれないが、すでに数件の引き合いをいただいている」と、その価値を強調した。


ソフトウェア事業インダストリー・ソリューションズ事業部 ECM営業部長の山田桂子氏	数億件の非構造化データ分析が可能に

　また、自社の検索ソフト「IBM OmniFind」の統合により、検索と分析を1つのシステムで対応可能になったのが2つ目の強化点。これによって、企業内の膨大かつ分散した技術情報を検索する場合でも、単語レベルの検索でなく、文章の意味を踏まえた検索結果の絞り込みや、検索結果の時系列分析、相関分析などの検索画面への表示が可能になり、必要な情報へより早くたどり着けるようになったという。

　さらに、従来対応していた日本語、英語、中国語（繁体字・簡体字）など11言語に加え、今回はロシア語、チェコ後、ヘブライ語、ポーランド語に対応している。もともとICAは、日本IBMの東京基礎研究所で開発された技術をベースにしており、日本語処理には自信があるとのことで、こうした対応言語の広がりによって、グローバルに展開する日本企業を強力に支援できるとしている。


検索と分析技術の統合	15言語に対応した