イベント

グーグル・クラウド、BigQueryとデータレイクを統合する「BigLake」を発表 楽天のデータ分析基盤の移行事例も

「Google Cloud Day:Digital」基調講演レポート

 グーグル・クラウド・ジャパンのイベント「Google Cloud Day: Digital '22」が4月19日から開幕した。主にエンタープライズ向けにGoogle Cloudをアピールするイベントで、昨年に続きオンライン開催となった。

 本記事では、4月19日に開かれた基調講演のうち、BigQueryとデータレイクを統合する「BigLake」の発表や、楽天のデータ分析基盤をオンプレミスからBigQueryに移行した事例の部分を取り上げる。

BigQueryとデータレイクを統合するBigLakeの発表、Spark on Google Cloudも一般提供開始

 Google Cloudのデータクラウドについては、最近の新サービスなどをGoogle Cloud GM & VP Databases, Data Analytics and Lookerのゲリット・カズマイアー氏が紹介した。

Google Cloud GM & VP Databases, Data Analytics and Looker ゲリット・カズマイアー氏

 カズマイアー氏は「小規模なデータはもう存在しない」「データを扱うワークロードが拡大し続ける」「人々のデータアクセスも無限」3つのパラダイムシフトを中心にした新しい考え方を採用する必要があると説明。企業のデータへのニーズと、現在のシステムとのギャップが拡大しており、戦略的なデータクラウドを導入する必要があると述べた。

 その中でデータクラウドとしてのGoogle Cloudを強調。BigQueryで1秒間に110TBのデータが解析されていることや、Vertex AIと組み合わせて機械学習モデルの導入が2.5倍になったことを紹介した。

BigQueryで1秒間に110TBのデータが解析されている
BigQueryとVertex AIの組み合わせ

 4月に発表された新サービスが「BigLake」(プレビュー版)だ。BigQueryのデータウェアハウスと、Amazon S3・Google Cloud Storage・Azureなどの上のデータレイクに統合的にアクセスできるようにするものだ。アクセス制御なども共通できめ細かく設定できるという。

 また、サーバーレスでApache Sparkを利用できる「Spark on Google Cloud」が一般提供開始されたこともカズマイアー氏は紹介した。

 そのほか、データポータルとLooker、コネクテッドシートの統合が発表されたことも紹介された。LookerのGoverned BI Connectorによりデータにガバナンスを効かせ、データアナリストが使い慣れたツールを使えるという。

BigQueryのデータレイクとデータウェアハウスを統合するBigLake(プレビュー版)発表
「Spark on Google Cloud」が一般提供開始
データポータルとLooker、コネクテッドシートの統合

楽天のデータ分析基盤をBigQueryに移行した事例

 Google Cloudのデータクラウドの活用事例として、楽天のデータ分析基盤をBigQueryに移行した話を、楽天グループ株式会社 執行役員 Cloud Platform Supervisory Department ディレクターのロヒット・デワン氏が語った。

楽天グループ株式会社 執行役員 Cloud Platform Supervisory Department ディレクターのロヒット・デワン氏

 楽天ではデータ分析基盤として「Rakuten Data Platform(SuperDB)」を構築している。70以上のサービスにおいて1,000名以上が分析に活用しているという。

 これまでのSuperDB 1.0は、自社データセンナー上のTeradataを使ったものだったが、内部ユーザーからはシステムが遅いと言われていたとデワン氏は言う。さらにハードウェアの寿命もあって、代替を探して、BigQueryにたどり着いたと説明した。

 BigQueryによるSuperDB 2.0への移行は、2021年2月から開始しているが、現在順調に進んでおり、2022年第4四半期までに終わらせる予定とのこと。

 移行においては、ユーザーを取り込むためのチェンジマネジメントが最大の課題だったとデワン氏は語った。これまで“シャドウ分析”が行われていて適切なコミュニケーションが行われていなかったという。それを、移行に伴ってプロセスを標準化したと氏は説明した。

 現在では、SuperDB 2.0の活用が広がり、特にデータサイエンティストが高い関心を示しているという。

 さらに、パブリッククラウドとオンプレイスのリソースを組み合わせるハイブリッドアプローチにも価値を見出すようになったとデワン氏は語った。例えばスーパーセール期間中のキャパシティ管理などのクラウドバースト(オンプレミスの負荷をパブリッククラウドに逃がすこと)に利点があるという。

Rakuten Data Platform(SuperDB)
従来のオンプレミスのSuperDB 1.0
BigQueryを採用したSuperDB 2.0
ハイブリッドアプローチのランドスケープ