ビッグデータ時代を導くOracleの技術、製品とは?

~Oracle OpenWorld Tokyo 2012でマーク・タウンゼント氏が講演


 日本オラクルが開催したOracle OpenWorld Tokyo 2012において4日、米Oracle データベース製品担当バイスプレジデント マーク・タウンゼント氏が、「Big Data Management-Are You Ready? ビッグデータ時代を導く真のITテクノロジー」をテーマに講演した。

 講演のなかでは、Oracleが提供するソフトウェア、ハードウェア製品群について紹介。また、ビッグデータを人に例え、それを取り巻く人たちの動きをユーモラスに描いたビデオも上映し、ビッグデータの課題を浮き彫りにしてみせた。

【お詫びと訂正】
初出時、講演者の氏名をアンディ・メンデルソン氏としておりましたが、マーク・タウンゼント氏の誤りでした。お詫びして訂正いたします。

 

価値の低いデータで構成されるのがビッグデータ

米Oracle データベース製品担当バイスプレジデント マーク・タウンゼント氏

 講演の冒頭、タウンゼント氏は、「ビッグデータとはなにか」と切り出し、「ビッグデータとは、これまでのOracle Databaseに格納されているようなトランザクションデータとは異なる。そして、これまでとは違うテクノロジースタックが必要になる」と定義。さらに、「ビッグデータは2つの分野から生成されることになる」とした。

 「ひとつは、機械から生成されるデータ。Webサイトで生成されるWebログや、大規模な製造プロセスにおいて設置されている大量のセンサーから収集されるデータのほか、入院をしている入院患者につながれたモニタリングマシンから収集される健康状態のデータなどである。これらのデータの特徴は、リアルタイムで生成させているという点である。そして、2つめは、人が出すデータである。FacebookやTwitterなどの情報がこれにあたる。これらのデータを活用してなにか洞察が得られないかという動きがある」と説明。

 さらに、「ビッグデータの時代には、新しいタイプのデータを集め、格納し、処理するといったことが求められている。大量のデータがあり、さまざまな場所、手段から、リアルタイムに出てくるのがビッグデータである。もちろん、大量のデータを、短時間に処理し、しかも、各種のリッチデータを扱うという点では、たくさんのOracle Databaseを使えば実現できる。しかし、ビッグデータの特徴は、ひとつひとつのデータの価値が低いという点が見逃せない。従来型のデータベースに入れても、価値の低い情報を扱っていれば、コストが高まるだけである。価値の低い、大量のデータから、いかに価値を生んでいくのかがビッグデータの大きな課題である」と定義した。

 

ソフトウェアで異なる2つの世界を結ぶ

 ITシステムの世界は、価値の高い構造化データを扱う世界と、価値の低い大量の非構造化データを扱う2つの世界に分類されているとする。そこではデータを取り扱う部門も異なり、セキュリティに対する考え方も異なり、使う製品も異なっている。

 そこに対して、「Oracleは、まず2つの世界をカバーし、結びつけるためのソフトウェア製品を提供している」と語り、具体的な事例を紹介した。

 最初の事例として、データの収集について説明。ここではNoSQLデータベースについて言及した。

 タウンゼント氏が事例としてあげたのが、以下のような点だ。

 「私の自宅の車庫は、修理用の道具をどこに収めるかが、壁のボードにシルエットで書かれている。そこに置けば収納できるようになっている。しかし、妻はキッチンで、料理に使うすべてのツールを引き出しのなかに入れる。片づけるのは簡単だが、探すのには時間がかかる。後者の手法がNoSQLデータベースである。つまり、あらゆるものを、素早く格納でき、これをWebアプリケーションが探してくれるというものである。Oracleでは、Berkeley DBを持っており、複数のマシンでクラスタリングし、アプリケーションを短期間に開発し、変更することができ、スケールアウトもできる。NoSQLデータベースはビッグデータの取得の段階において、重要なツールになる」などとした。

 続いて触れたのが、データを価値のあるものに変革するための体系化への取り組みである。

 「ビッグデータを解析したいと思っても、既存のデータベースに影響を与えないようにする必要がある。そこでSandBoxが重要になる。OracleではOracle Enterprise Managerを使うことで、SandBoxを構築することができる。ここがデータを分析する人たちが使う領域であり、CPU、メモリなどのリソースなどについても、ほかのデータベースに影響を与えないで済む。最新のOracle Enterprise Managerでは、どれぐらいのリソースが使われるのかを確認でき、それに対する従量課金も可能になっている」とした。

 また、価値の低い大量のデータの解析には、Hadoopを活用した事例を示した。

 わかりやすい事例として、タウンゼント氏があげたのは以下のような事例だ。

 データウェアハウスという「家」のなかに、切り分けられた部屋のようなものがあり、そのなかにテーブルがある。ここにスーパーで購入してきた余計な食品を、缶に入った食べ物、パックされた食料、次には飲み物といったように分類しながらテーブルに置く。さらに、缶詰の場合は、それがフルーツなのか、野菜なのかといったようにテーブルをどんどん分割していく。そこに400人ぐらいのスタッフがやってきて、この食品をこちらのテーブルに置いた方がいいと割り振り、すべての食べ物がボックスのなかに入ることになる。

 「Hadoopという小さなプログラムは、それぞれの小さなコンピュータ上で走り、ひとつのコンピュータから情報をとってきて、次のコンピュータに移動させることができる。テラバイト級のデータでも、並列環境のなかでも、ソーティングし、体系化し、分散化させることができる。ただし、Javaのプログラムを知り、並列化処理の知識も必要である。コードも複雑になる。そこで、Oracleは、Oracle Data Integratorを提供しており、次世代E-LT環境を提案できる。拡張機能により、Hadoopコードも書くことができ、Hadoopクラスタで動作させることもできる。さらに、Hadoop Distributed File System(HDFS)に対して、Hadoopのソフトウェアだけでなく、Oracle Databaseのソフトウェアからもアクセスすることができる環境を提供している」などとした。

 続いて、データウェアハウスへのローディングについて話を進め、ここでは、Oracle Loader for Hadoopをあげながら、「これにより、HadoopとOracle Databaseを接続し、大量のデータを迅速にロードできるようになる」と語った。

 

データアナリストが抽出した結果をどう活用するか

 さらに、ここから抽出されたデータに対して、十分なトレーニングを受けたデータアナリストが、いかにこのデータを活用するかといった点に話を進めた。

 「データアナリストはSASのようなパワフルな分析ツールを活用しているが、これは高額なものである。そのため、データアナリストの多くが大学でもSASを使ったトレーニングを行っていない。しかし、近年は、オープンソースの統計解析であるR(アール)でトレーニングを受けている。Rは、パワフルな言語であり、センサーデータを素早く分析し、チャットなどの機能も持っている。だが、Rの問題は、対象としていたのはラップトップPCで解析できるような少ない情報量であることだった。Oracleでは、Oracle R EnterpriseによりOracle Databaseと接続。データアナリストは、Exadataの機能を活用しながら、ラップトップ上でRを利用し、大量のデータを分析し、グラフィカルに表示することができる。また、ネイティブなRによるアクセスを、Hadoopに提供しており、統計的な解析のための抽出も可能にしている」などと語った。

 これらのデータをいかに経営に活用するかが次の課題である。

 「大量のデータから具体的な分析をすることができ、ビジネス上の問題を抽出できたが、これをデータアナリストのみの情報から、現場にいるエンドユーザーが活用できるように、ギャップを埋めるための作業が必要。そのためには、マーケットのダッシュボードに統合し、リアルタイムで変更できるようにすることが必要である。ここでは、Oracle Business Intelligence Suite Enterprise Edition(OBIEE)が有効に機能する。OBIEEは、Hadoop環境でも活用できるようになり、RのチャートもOBIEEのダッシュボードに統合できる」とその価値を説明。

 「また、iPadやiPhoneなどでチャートを見る人が増加しており、こうした使い方の変化にもOBIEEは対応している。iPadであれば、SQLのクエリーを入力するのではなく、指でタッチすれば使えるようにしている。しかし、チャートを見る場合にも、ネットワークを介して、バックエンドのOracle Databaseにアクセスするとなるとあまり意味がない。そこで、これを解決するためにOBIEEのためのアプライアンスを作った。これがOracle Exalyticsである。40コアのプロセッサ、1テラバイトのメインメモリを搭載し、InfiniBandにより、Oracle Exadata Database Machineに高速接続することも可能になる。Oracleのインメモリデータベース技術により、カラム圧縮機能もあり、エンドユーザーは考えるスピードと同じぐらいに、チャートによる可視化を可能としている」と語った。

 

ハードウェアとソフトウェアの両面からサポート

 ここまで触れたあと、タウンゼント氏は、ハードウェアビジネスにおける取り組みについて話を広げた。いくつかの具体的な製品に触れながら、「Oracleは、ソフトウェアのビジネスだけをやっているわけではない。ハードウェアも作り上げ、プラットフォームとしてソフトウェアを提供している」と前置きし、「意思決定においては、Oracle Exalyticsがあり、データウェアハウスにおいて、優れたハードウェアとなるExadataもある。ビッグデータを集め、体系化する点では、BigData Applianceを発表し、ハードウェアストレージでHadoopを動かすことができる」などとしたほか、「OracleはHadoopのディストリビューションは持っていないが、Clouderaをサポートし、Cloudera Managerを使ってこれをサポートすることもできる。BigData Connectorsを使って、さまざまな環境と接続することもできる」などと語った。

 

講演中にユーモラスなビデオで課題を指摘

 ビデオでは、ある会社において、経営層、IT部門、現場などの参加し、売り上げを拡大するためにビッグデータを活用する議論の様子を紹介。講演の合間らに何度かに分けて放映した。

 ビッグデータを擬人化して、それに問いかけてみても、なんら回答がないこと、会話をするためにこれまでの技術では難しいこと、効率化な分析の仕組みが必要であること、分析した結果、個人の情報に関してさまざまな分析が可能であることなどを、コミカルに描いた。

 タウンゼント氏は、「大量のデータを取得し、それを体系化し、分析し、価値を発見し、会社全体でこれを共有し、行動に移さなくてはならない。しかし、多くの企業はこれらの取り組みにおいて、数多くの課題に直面している。Oracleは、ハードウェアとソフトウェアとの組み合わせによって、ビッグデータ全体を体系化することができ、統合したスタックとして市場に提供できる。そして、これらのハードウェア、ソフトウェア製品を、迅速に市場投入を行っている」などとした。

関連情報