ニュース
日本オラクル、“データの洪水”に対応できる「MySQL HeatWave Lakehouse」を解説
Redshiftと比べクエリ実行性能は6倍、データロード性能は8倍
2022年12月19日 06:00
日本オラクル株式会社は16日、MySQL HeatWaveポートフォリオの最新サービスである「MySQL HeatWave Lakehouse」の説明を行った。現在β版を提供しており、2023年上期には一般提供開始を予定している。
Oracleが2022年10月、米国ラスベガスで開催した年次イベント「Oracle CloudWorld 2022」のなかで発表したもので、CSVやParquetへの対応のほか、AWS AuroraやRedshiftのエクスポートデータなど、各種ファイル形式で保存したオブジェクトストレージのデータに対して、MySQL HeatWaveのSQL文で分析処理を行え、大量データに対する高速な分析を可能にする。
「調査によると、2020年には一人あたりの毎秒1.7MBのデータを生成しており、しかも99.5%のデータが使われない。いわば、『データの洪水』という課題が発生している。この課題に対応できるのがMySQL HeatWave Lakehouseである」(日本オラクル MySQL Global Business Unit Asia Pacific & Japan担当 MySQLソリューション・エンジニアリング・ディレクターの梶山隆輔氏)と位置づけた。
MySQL HeatWaveはMySQLによるクラウドデータベースで、開発、運用、サポートをMySQLの開発チームが担当。トランザクション処理や分析処理、予測処理をひとつのデータベースで実行できるのが特徴だ。トランザクション処理では、Auroraに比べて最大10倍のスループット性能を実現するといった特徴を持つ。
また、リアルタイムでのデータ分析を可能としており、分析処理性能はRedshiftの11倍、Snowflakeの9倍、BigQueryの9倍、Synapseの3倍を実現。広告やキャンペーンの効果を知るマーケティング分析、迅速なプレイヤー体験を実現するゲーム分析のほか、糖尿病患者のリアルタイムモニタリングなど、新たなビジネス領域での利用も可能だという。
今回発表したMySQL HeatWave Lakehouseは、MySQL HeatWaveのポートフォリオに追加した新たな製品で、各種ファイル形式でオブジェクトストレージに保存されている最大400TBのデータに対して、処理およびクエリ実行ができるようになり、データのクエリに、標準のMySQL構文を利用できる。
単一のMySQLデータベース内で、トランザクション処理、アナリティクス、機械学習、機械学習をベースとした自動化を組み合わせた唯一のクラウドサービスであり、HeatWaveクラスタは最大512ノードに拡張できる。
CSVやParquetなどの各種ファイル形式で保存されたデータや、AWSのAuroraおよびRedshiftのバックアップをロードして処理。これにより、データがMySQLデータベースに保存されていない場合でも、MySQL HeatWaveのメリットを活用。データの保存ファイル形式に関係なく、同じクエリ性能が提供される。また、MySQLデータベースに保存されているOLTPデータのクエリを実行し、オブジェクトストアに保存されているデータと結合。OLTPデータに加えた変更はリアルタイムに更新され、クエリ実行結果に反映される。
また、MySQL Autopilot機能をMySQL HeatWave Lakehouse向けに強化。自動プロビジョニングや自動クエリ実行計画改善といった機能により、データベース管理のオーバーヘッドをさらに解消し、性能を向上させることができる。また、MySQL Autopilotの新たな機能として提供されるスキーマ自動予測、データサンプリングの最適化、自動データロード、データフローの最適化も可能になる。特に、データフローの最適化では、HeatWaveがオブジェクトストレージのパフォーマンスを学習し、データベースがデータを参照する速度を動的に調整し、利用可能な帯域を最大限活用して、データのロードやリロード、復旧時間を最適化する。
日本オラクルの梶山氏は、「InnoDBのデータを、MySQL HeatWaveの各ノードに分散配置し、並列処理を行うのに加えて、MySQL HeatWave Lakehouseにより、オブジェクトストレージに蓄積されたデータをMySQL HeatWaveのノード上に展開し、高速に処理することができる。ベンチマークでは、400TBのデータを512ノードに展開した際のクエリ実行時間の平均は42秒となり、Snowflakeの17分の1、Redshiftの6分の1の時間で完了している。データロード性能ではSnowflakeの約3分の1、Redshiftの8分の1の時間で終わる。また、Snowflakeに対しては約30%のコスト削減となり、全方位での優位性を発揮している。高い性能を出すために高価な環境にしているわけではない」などと述べた。
また、MySQL HeatWaveに関するその他の機能強化についても説明した。
「オラクルのマルチクラウド戦略の一環として、AWS上のリソースを利用してデプロイができるMySQL HeatWave on AWSに加えて、Oracle Database Service for AzureのひとつとしてOCIのリソース上にデプロイし、Azureのサービスのように、容易および迅速に導入が可能なMySQL HeatWave for Azureを発表した。OCIだけでなく、AWS、AzureでもMySQL HeatWaveの利用を可能にしたほか、顧客のデータセンター内で利用したい場合には、Oracle Dedicated Region Cloud@CustomerでもMySQL HeatWaveが利用可能になっている。MySQL HeatWave on AWSは、発表以降、大きな反響を得ている。AWS環境でMySQLを利用していたユーザーが、処理性能の高さを実感している。今後はそれらの事例を発表していきたい」と語った。
さらに、機械学習をベースとした運用の自動化を行うMySQL Autopilotと、アプリケーション開発者向けに提供している機械学習エンジンのHeatWave AutoMLについても紹介した。
MySQL Autopilotでは、MySQLサーバーのインスタンスタイプを推奨する自動シェイプ予測、トランザクション処理向けに、持続的で、高性能なスループットを提供する自動スレッドプーリングを提供。OLTPでは、Auroraの最大10倍のスループット性能を実現するという。
HeatWave AutoMLは、追加料金不要ですぐに利用できるMySQLの機械学習プラットフォームで、従来のHeatWave MLから改称。機械学習工程を自動化し、実業務に活用できる説明可能性をサポート。パラメータやアルゴリズムの選択など、専門的な知識は不要で、トレーニングの高速化により、迅速なモデル生成を支援する。
「Oracle CloudWorld 2022におけるMySQL HeatWaveに関連する発表によって、データ管理におけるお客さまの課題を解決できる。MySQL HeatWave Lakehouseで、データの洪水に対応し、MySQL HeatWave がOCI、AWS、Azureへの対応で、クラウドに対する選択肢の必要性を実現する。また、MySQL HeatWave AutoMLにより、機械学習の民主化を実現する」と述べた。