ビッグデータ分析基盤「Teradata Aster MapReduce Appliance」を出荷開始


 日本テラデータ株式会社は11日、ビッグデータ分析プラットフォーム「Teradata Aster MapReduce Appliance」の販売・出荷を開始した。今回は英語版を先行させ、2013年初頭に日本語版もリリースする予定。

 Teradata Aster MapReduce Applianceは、RDBとMapReduce技術を統合した並列処理型ソフト「Aster」を、ハードウェアプラットフォームにあらかじめインストールした、ビッグデータ分析のためのアプライアンス製品。

 特長として「SQL-MapReduce」と「SQL-H」の2つが挙げられる。SQL-MapReduceは、Webアクセスログ、テキストデータ、マシンセンサーログデータといった多構造化データを分析する際に、高頻度で利用されるMapReduce処理を関数として事前にパッケージ化し、分析ユーザーがSQLの関数として呼び出せる機能。

 SQL-MapReduceは基本的にSQLの文法で記述され、Asterに事前に用利されている50以上のMapReduce関数、もしくは開発者がJavaなどで記述し、Aster内に配備したMapReduce関数をSQL文の中で呼び出し実行することで処理がなされる。これにより、多構造化データに対する並列分析処理を、SQL記述とほぼ同等のスキルで対話的・反復的に実施できるという。

 代表例としては、シーケンシャルな物事の順序や経路を分析するためのnPath関数、順序に基づいて番号を付与していくSessionize関数、文章などのデータをキーワードに分解するTokenize関数が用意されている。

 一方、Hadoop分散ファイルシステム(HDFS)に対しても、SQLおよびSQL-MapReduceで直接アクセス可能にするのがSQL-H機能。Hadoop環境下において、データはファイルとして管理され、ファイルはデータブロックに分解されて、各コンピュータノード(Data Node)に分散格納される。SQL-Hは、オープンソースで提供されているHadoop関連ソフト「HCatalog」が提供する、HDFS内ファイルのデータ定義情報を読み取る。そのためAsterからは、テーブルとカラムを指定するのと同じ方法でHDFS管理下のデータにアクセスし、SQLもしくはSQL-MapReduceを実行することが可能となる。

 また、SQL-Hを介して実行された命令に基づき、HDFS内の該当データはAster内に転送され、そのデータに対してSQL、SQL-MapReduceが実行されるため、Asterの並列パフォーマンスを最大限に生かした処理が可能となる。処理結果は分析ユーザーに返されるほか、AsterのテーブルもしくはHDFS内にファイルとして書き込むことも可能という。

 従来、RDBへのアクセスにはSQLが用いられ、データ操作に特化したSQLという平易な言語によって、対話的にデータ分析は行われていた。一方、RDBに格納されるデータはあらかじめ定義された行と列のテーブル形式に構造化される必要があり、Webサイトのアクセスログ、テキスト文書、マシンセンサーログといった多構造化データの処理には不向きだった。

 また、オープンソースで提供されているHadoopは、多構造化データの並列処理フレームワークとしてMapReduceを提供しているが、MapReduceはJavaなどで開発言語を利用する必要があり、データ分析にはソフト開発者と同等のスキルやプログラム量が必要だった。

 SQL-MapReduceは、このようなSQLおよびMapReduce双方の利点を含んだ技術という。これにより、多構造化データの分析が容易に実現できるのがメリットとのこと。

関連情報
(川島 弘之)
2012/10/11 14:22