ニュース

Isilonで実現できるスケールアウト型データレイクの価値とは?~EMCジャパン

 EMCジャパン株式会社は28日、昨今、注目を集め始めている「データレイク(データの湖)」に関する取り組みと、スケールアウトストレージのEMC Isilonを中心とした、データレイクに関する同社の製品ポートフォリオについて説明した。

データレイクとは何か?

 データレイクとは、多種多様で膨大なビッグデータを効率よく活用するため、すべてのデータを一元的に管理する概念。「ビッグデータの保管に適した、比較的安価なコンピュータハードウェア上で構築される、大規模で、アクセスが容易なデータリポジトリのことであり、データは、湖のような広い、ひとつの場所に集約され、さまざまな種類の非構造データが集まり、そのデータには、さまざまな手段でアクセスすることができる」とする。
 EMCジャパン マーケティング本部 アイシロン シニアマーケティングマネージャーの大川博史氏は、「当社の調べによると、ビッグデータについては、79%の企業が導入済みもしくは関心を持っており、活用領域は社外向けだけでなく、社内の活動に向けてもビッグデータを活用するといった動きが出ている。企業活動のほぼ全般に及んでおり、ビッグデータの活用は今後はさらに必要不可欠なものになっていくだろう」と前置き。

 「だが、ビッグデータの活用を進める上で、27%の企業が費用対効果やコストを課題にあげている。また、なにから手をつけていいかわからない、どんな成果が得られるのかがわからないといった声もある。このような課題に対する回答のひとつがデータレイクである」とする。

データレイクとは?
EMCジャパン マーケティング本部 アイシロン シニアマーケティングマネージャーの大川博史氏
ビッグデータは、79%の企業が導入済みもしくは関心を持っている
27%の企業が、費用対効果やコストを課題して挙げた

 そして、「企業におけるデータ管理の課題としては、業務ごとに分離した非効率的なストレージサイロの環境、アクセス手段やアクセス先が異なることなどを背景とした容易ではないアクセス環境、一貫性のないセキュリティ、分析して、知見を得て、ビジネスに反映されるまでに時間がかかるといった点が挙げられる。ある医療分野の顧客では、分析するためにデータを変換およびコピーをして、分析を行うまでに23時間かかるといった例がある。中継サーバーの管理が煩雑になるという課題も生まれている。また、毎日10TB近いデータを生成する企業もあり、性能と拡張性も求められている。データレイクは、こうした課題を解決することができるものである」と説明。

 「非効率なストレージサイロの排除」「管理を簡素化し、コストを削減」「より良い情報供給環境の実現」「エンタープライズレベルのデータ保護およびセキュリティ」「新たな知見を得るためのデータ分析」「データに基づく意思決定のサポート」という、データレイクの6つの利点を示した。

EMCの考えるデータレイクとその利点

Isilonで実現できるスケールアウト型データレイク

 EMCジャパンが提供するIsilonでは、スケールアウト型のデータレイクを実現できるとし、80%に及ぶディスク利用効率、容易な導入と運用管理、18TBから最大20PBまでのデータを単一の領域でカバーすることができるという。

 「スケールアウトデータレイクは、ばらばらに管理されていたものをひとつの湖のなかで管理し、必要なときに必要なデータを自由に取り出して、分析するといった環境を整えることができる。また、ひとつのセキュリティポリシーのなかでデータを管理することもできる。HDFSを直接サポートしているIsilonの特徴とともに、ビッグデータソリューションであるPivotal、仮想化ソリューションであるVMware、縦串として提供するRSAによるセキュリティソリューション、さらには検証済みの構成ソリューションであるVCEを組み合わせた『EMCフェデレーション(連合)』のなかで提案することができる強みがある。Isilonとの親和性の高さも特徴である。データレイクという湖に流れ込むデータは、どんなものでも構わない。そこにたまったデータは、HDFSを使ってどんな形にでも加工できるというのがEMCのデータレイクの考え方。EMCには、データレイクのコンセプトを具現化できる製品がそろっている」とした。

Isilonによるスケールアウトデータレイク
スケールアウトデータレイクによるメリット
スケールアウトデータレイクを支える基盤

 IsilonによるHadoop環境では、HDFSを直接サポートしておりデータのコピーが不要、データノードをIsilon内に持つためにデータ複製が不要、ネームノードをIsilon内に持ち、致命的な問題になりえる単一障害点を解消できる、といったメリットを持つ。

 こうしたことから、「中継サーバーが不要になり、20PBまでのデータを単一領域でカバーするなど、システム構成がシンプルになり管理者の負担を減らすだけでなく、分析結果を得るまでの時間が劇的に短縮することができる。データ量が増加するほどパフォーマンスが高まる」と述べた。

Isilonを用いたHadoop環境のメリット

 さらに、EMCジャパンのデータレイクへの具体的な提案活動についても、「当社では、まずはデータを蓄積するというところからデータレイクの提案を開始している。細分化されたデータを集約し、そこにPivotalなどのソリューションを活用して、初期段階での予測的な分析を可能とする簡易的な導入を行う。その後に、DOA(データドリブンアプリケーション)として本格的にな予測的な分析を実施。さらに、仮想基盤を用いたり、ビジネス分析をサービスとして提供したり、といった段階を踏むことになる」と言及した。

 また、「ある日本の大手サービスプロバイダーでは、初期段階の予測的な分析を行っているところだが、データレイクの活用としては国内で最先端の取り組みだといえる。Hadoopによる大量のログデータの集計処理には限界があったため、IsilonによるPBクラスのスケールアウトデータレイクを構築。分析エンジンにPivotal HDを採用することで、Read/Write性能やパフォーマンス、耐障害性といった課題を解決している。これまでは、Isilonのような大容量ストレージは不要だともいわれたが、データレイクの時代になり、時代のニーズがIsilonにようやく追いついてきたといえる」などとし、同社顧客の取り組み事例を紹介した。

 一方で、「まずはデータを蓄積するところから始めるという提案では、どんな成果がもたらされるかが不透明であり、経営者に対して、データレイクの明確なメリットを伝えられないという課題があるのも事実だ。同業他社の導入メリットを伝えるなど、時間をかけて提案していく必要がある。米本社には、金融、医療などの分野に精通した専門家が、CTOとして社内に在籍しており、そうした知見も提案活動に活用している」と述べ、EMCトータルでの強みをアピールしている。

EMCが提供するビッグデータ関連ソリューション

大河原 克行