ニュース

NRI、「Apache Kafka」と「Apache Hadoop＋Apache Spark」の技術サポートサービスを提供開始

三柳英樹

2020年7月7日 12:55

　株式会社野村総合研究所（以下、NRI）は7日、Apache Hadoop＋Apache SparkおよびApache Kafkaのサポートサービスを、企業のオープンソースソフトウェア活用をサポートする「OpenStandia」において7月から提供を開始したと発表した。

　NRIでは、企業のデジタルトランスフォーメーション（DX）を支える技術の一つとしてビッグデータ分析が挙げられるが、DXの分野ではモバイル端末や家電・自動車といった、さまざまなデバイスを発生源とするアクセスログやセンサーデータなど、大量かつ構造化されていないデータを短時間で分析処理するという、従来のシステムとは異なる要件が求められると説明。

　こうした背景を受け、リアルタイムに大量のデータを扱えるストリーミングプラットフォームである「Apache Kafka」と、大規模データを効率的に分散処理するためのフレームワークである「Apache Hadoop＋Apache Spark」の技術サポートサービスの提供を開始したとしている。

　Apache Kafkaは、システムが受信するデータを一時的に保持する分散メッセージキューソフトウェア。Apache Kafkaを導入することで、データ送受信を行うシステム間の関係を疎結合にすることや、ストリーミングデータを扱うアプリケーションにおいて、急激に入力データが増加する際の負荷を抑制することが可能となる。また、複数台のサーバーで並列分散処理を行うため、コンピュータの台数を増やすことでシステム全体の性能を向上させる手法であるスケールアウトによる拡張性と耐障害性を有する。

　Apache Hadoopは、データウェアハウスなど専用の製品を必要とせず、一般的なサーバーを利用してビッグデータの処理を実現するソフトウェア。複数台のサーバーで並列分散処理を行い、データ量の増加に応じてコンピュータの台数を増やすことで、システム全体の性能を向上させる手法であるスケールアウトで柔軟な対応が可能になり、耐障害性の面でも優れる。

　Apache Hadoopのみでデータを処理する場合には、ファイルシステムに対して読み込みと書き込みを繰り返すため、リアルタイムな処理には向いていないという弱点がある。そこで、高速にデータを読みこむことができるメモリ上にデータを保持することができるApache SparkをApache Hadoopと組み合わせることにより、高速なデータ処理が可能になる。また、Apache Sparkは、機械学習のためのMLlibや、ストリーミング処理のためのSpark Streamingといったコンポーネントライブラリを提供し、高速・大容量・柔軟なデータ処理でさまざまなビジネスを支援する。

　NRIでは、OpenStandiaにおいて、Apache Kafkaと、Apache Hadoop＋Apache Sparkの年間サポートサービスと技術支援サービスを用意。それぞれの問い合わせ対応や障害調査、セキュリティ情報などの提供を行う。