トピック

「フードロス削減」から「歌の聖地の特定」まで、ADWCの可能性は無限大!? 「Autonomous選手権 ~JDMCコラボ編~」レポート

 業務の新たな高度化の手段としてデータ分析に力を入れる企業が増えている。その取り組みを強力に支援するのが、機械学習によりDBの構築や運用、さらにチューニングまで自動化した自律型クラウドサービス「Oracle Autonomous Database Cloud」の「Oracle Autonomous Data Warehouse Cloud(ADWC)」だ。日本オラクル株式会社は2月27日、その使いやすさを実感してもらうべく、日本データマネジメント・コンソーシアム(JDMC)と共同で、ADWCによるオープンデータの活用コンテスト「Autonomous選手権 ~JDMCコラボ編~」を開催した。本稿では、その模様をダイジェストでレポートする。

 Autonomous選手権の開催は今回で2回め。開催に先立ち、日本オラクルの永久さんが大会の概要を紹介。「昨年11月に開催した第一回大会は高い評価をいただき、今回は日本データマネジメント・コンソーシアム様の協賛を得ることができました。第3回の実現のためにも皆さんの発表に期待しています」と参加者にエールを送った。

日本オラクル本社ビル22Fのカフェで開催されるエンジニア向けイベントは、お酒を飲みながらの砕けた雰囲気が特徴。今回のAutonomous選手権も、日本オラクル株式会社の永久 舞氏による乾杯の音頭で始まった

 なお、第一回のAutonomosu選手権については、僚誌Think-ITの記事(台風!? 食生活!? 婚活!? ADWCでアレコレ分析してみました! 「Autonomous選手権 ~オープンデータ分析編~」レポート https://thinkit.co.jp/article/15483)を参照していただきたい。

 今回、Autonomosu選手権に参加したのは「JDMCエンジニアの会」から選抜された5チーム。各チームの発表が終わった段階で投票が行われ、ビジネス賞とアイデア賞が決定された。実際のサービスにつながるような取り組みに与えられるのがビジネス賞で、アイデア賞は面白さや奇抜さが評価ポイントとなる。

フードロス削減に向けた偉大な一歩

 まずは、ビジネス賞を受賞したチーム「株式会社ぐるなび DA」の発表内容から紹介しよう。ぐるなびのデータアドミニストレーター二人(宮澤 英智氏と中島 正統氏)のチームが掲げたテーマは「分析の業務経験ゼロでもできる!『Oracle Cloud』の機械学習で、飲食店の廃棄 ロスに挑む」だ。

チーム「株式会社ぐるなび DA」の宮澤 英智氏

 日本の外食産業で廃棄される食品は1年あたり120トン。ぐるなび DAではその原因の一つを「見込みの来客数や注文数に対する実績の下振れ」と捉え、ADWCとOracle Analytics Cloud(OAC)でどれほど高い予測精度を出せるかに取り組んだ。

 採用したデータはカレンダーや気象情報、イベント情報などのオープンデータと、実店舗から収集して加工したサンプルデータ。最初に2017年の実績データをOACの機械学習モデルに学習させて「来店数」「注文数」の両予測モデルを作成。次に、2018年の天候データなどを基に年間の来店/注文予測を行い、結果を実績と突き合わせて評価した。

 宮澤氏は「我々はデータ分析に関しては素人で、深い数式やモデルの知識はほとんどありません。実施した作業は、用意された学習モデルにデータを適応する程度です」と語るが、蓋を開ければ驚きの結果に。まず、来店者数では年間だけでなく週レベルの変動もほぼ正確に再現できた。

来店者数の予測(青)と実績(黄)。2つの線がほぼ重なり高い精度で予測できた

 一方、注文数に関しては季節性のないメニューAと季節性のあるメニューBの2つを用意。メニューAは高い精度で予測できたものの、メニューBは思わしくない結果に。その原因を調べたところ、気温データが正しく使われていなかったという。最初は最低気温、最高気温、平均気温の3つのデータを投入していたが、これを1つに絞ることで問題は解消。「料理の季節性の有無を問わず、通年でも満足のいく精度が出せました」(宮澤氏)。

メニューB(季節性あり)の予測(青)と実績(緑)。最初のモデル(左)では大きなズレが発生したが、気温データを正しく扱うように調整したモデル(右)は高い精度で予測ができている

 宮澤氏は「OACで生成した予測モデルに十分な妥当性が認められました」と強調。併せて「精度を高め、かつ実際に広く利用してもらうには、様々な飲食店の実績データの蓄積と、雨量や風速の予測など、よりきめ細かなデータも必要となります」と述べ、さらなる改善の余地を示した。

エンジニア賞を受賞した株式会社ぐるなび DAチームには、「JDMCエンジニアの会」のリーダーでもある東京海上日動システムズ株式会社の山田 文彦氏(右)からトロフィーと粗品が贈られた。写真左は今回裏方に徹した株式会社ぐるなびの中島 正統氏

あの歌詞の場所は果たしてどこ?

 奇抜なアイデアとは対照的な硬派な分析でアイデア賞を獲得したのは、「マネージメントサービスぐるうぷ」チームによる「あの消波ブロックを勝手に特定してみた!」だ。メンバーはマネージメントサービス株式会社の東 夏果氏、寺内 潤氏、そして、「実はすでに転職しまして……」と打ち明けた元社員の村田 剛一氏だ。

アイデア賞を受賞したチーム「マネージメントサービスぐるうぷ」のメンバー、左から東 夏果氏、寺内 潤氏、村田 剛⼀氏。同チームには日本オラクルの社員犬キャンディのぬいぐるみと粗品が送られた

 同チームのテーマは、アーティストaikoのヒット曲「ボーイフレンド」に登場するテトラポット(消波ブロック)がどこにあるのか、オープンデータを分析して推測するというもの。

 「ボーイフレンド」の歌詞だけだと手がかりが少ないということで、aikoさんの他の曲も動員して、鍵となるフレーズを拾い、「テトラポット=海沿い」「靴飛ばそう=靴を海に飛ばしても戻ってくる=漂着物が多い場所」「花火=花火大会開催地」「シルバーリングが黒く=銀が黒ずむ=温泉がある」などの条件を設け、それらすべてを最も満たす場所の特定に取り組んだ。

 データには緯度と経度、漂着物の有無などが格納された海上保安庁などのオープンデータと、花火大会や温泉地などを特定できるWikipediaのデータを準備。総当たり方式で候補の場所を組み合わせ、そのすべてをクラスタ分析して結果のデンドグラム(樹形図)の平均距離が最も短いものを該当場所とした。組み合わせ総数は実に600万パターンに達したという。

 作業の滑り出しは順調だったとのことだが、その後、「処理自体は可能なものの、平均距離、つまり分析過程まではなぜか可視化できないことが判明しました」(寺内氏)。イベント開催が迫るなか、同チームが選択した打開策は使い慣れたJupyter NotebookでPythonにより機械学習プログラムを独自開発し、手元のMacBookとOracle Autonomous Databaseを接続して平均距離を求めるという力技。とはいえ、「サクサク動くため作業は楽しかったというのが実感です」と寺内氏。唯一の心残りは、遊びが過ぎたために、特定した場所を訪れる時間がなくなったことだとか。

Jupyter Notebookでの機会学習の様子。Jupyter Notebookを選んだのはPythonでプログラミングできるから。オラクルのクラウドサービス「Oracle Machine Learning」は開発言語がPL/SQLで勉強する時間がなかったという

 ともあれ最後に明かされたその地とは和歌山県の西御坊である。真偽のほどは不明だが、「せっかくなので、aikoファンの方はぜひ聖地巡礼を!」と村田さんは呼びかけた。

試行錯誤の結果、求められた消波ブロックの所在地は和歌山県の西御坊。複数の曲の歌詞が入り混じっている時点で信憑性は?だが、その努力に会場からは拍手が湧いた

オープンデータに潜む意外な罠

 続けて他3チームの発表内容も見ていこう。

 「日頃お世話になっているあの人に、感謝の温泉旅行をプレゼントしたい」――そんな切なる(?)思いで生まれた分析が、SBIホールディングス株式会社でデータアナリスト職にある鍋倉 由樹氏が、後輩の加藤 瑠氏、職場で知り合った株式会社アシストの松山 晋ノ助氏で結成された混成チーム「強制参加(させられた人たち)」による「SNS情報を通して見るホットスポットの分析」だ。SNSの情報とオープンデータを活用して、相手の趣味嗜好にベストマッチする温泉地を見つけ出すというのがその内容である。

チーム「強制参加(させられた人達)」のSBIホールディングス株式会社の鍋倉 由樹氏(中央)と加藤 瑠氏(右)、株式会社アシストの松山 晋ノ助氏(左)

 作業は最初から難題に直面。各自治体からオープンデータを収集したまでは良かったが、「データごとにコード体系や名称がバラバラ」かつ「エクセルをわざわざPDF化したものがほとんど」。つまり、分析に利用できるものが非常に限られる状況だったのだ。

 こうした中、温泉データとして、温泉の泉質データなども含まれた環境省のデータに着目。併せて、ツイッターの口コミとぐるなびの飲食店データを組み合わせ、観光や食べ歩きなどの観点から、良い温泉地を絞り込む手法にたどり着く。もっとも、作業に手間取ったこともあり、OACによる分析が可能になった時には、あと5日しか猶予が残されていなかったのだという。

 「ただし、そこからが速かった!」と鍋倉氏。形態素解析によるツイートの分析結果と地理データを紐付けることで、OACの標準機能を利用するだけで温泉に関する分析ダッシュボードが完成。温泉地でつぶやかれたツイートを県別に集計したり、県ごとにツイートのキーワードをタグクラウドで表示し、そこから温泉情報を即座に確認できるシステムが完成した。

 このシステムを利用し、加藤氏は静岡県のタグクラウドの中に、温泉に似つかわしくない「カエル」のキーワードを発見、「珍しいカエルの博物館を巡る静岡県の温泉旅」を企画。一方、鍋倉氏は食べ物のツイート数に着目し、「ラーメン」と「寿司」の比率を県別に比較。全国と比較して寿司に関するツイートの多い石川県を発見、ぐるなびのデータも活用して「石川県大聖寺で寿司とラーメンを堪能するツアー」を企画した。この食べ歩きツアーのプレゼントの申し出を受けた松山氏は、「(仕事もあるので)ありがたく頂戴します」と神妙に語った。

静岡県の温泉に関するツイートのタグクラウド。そこには一見温泉地に似つかわしくない「カエル」の文字が…
ツイート内の「ラーメン」(黄)と「寿司」(紫)の出現率の県別比較。他と比較して寿司の比率が高い都道府県の中から、石川県を候補地として選定した

超高齢化社会に向け、老後の生活を考える3つのヒント

 東京海上日動システムズの「じゃがノート」チームは、老後に良い暮らしを送れそうな都道府県を探る「高齢化社会を生き延びる、老後の住まいは○○県がおすすめ!?」を発表した。これは、生活に関係のある各種条件で都道府県を比較分析し、ランキング付けするもの。その切り口は次の3つだ。

チーム「じゃがノート」のメンバー、東京海上日動システムズ株式会社の光岡 高宏氏(左)、西村 彩希氏(中)、濱口 憲太氏(右)

 1つ目は、「介護職につくなら?」だ。賃金や待遇が良ければ、それだけ働き手も増え、ひいては、介護サービスの質の向上も期待される。そこで、この分析では都道府県別の医療福祉賃金と物価指数、各職種の平均賃金を基に介護職の魅力が高い地域を探った。結果は上位から新潟県、和歌山県、青森県、鳥取県、佐賀県となり、東京都はなんと最下位だった。

左は医療福祉賃金(黄色)と物価指標(水色)の比較、右は医療福祉賃金(黄色)と全業種平均賃金(紫)の比較。この2つから介護職として生活しやすい場所を推定

 2つ目は、「介護施設を作るなら?」だ。この分析では経営的な観点から、要介護認定者数と養護老人ホームの定員数を比べ、今後、介護施設の増加が見込める地域を調べた。
 すると、東京都と大阪府、神奈川県などの都市部が上位を独占する一方で、鳥取県、佐賀県、福井県などの地方が下位に低迷し、都市部の介護施設不足が浮き彫りとなった。

要介護者数(赤)と介護施設の定員数(水色)の比較。東京、大阪を始めとする都市部では介護施設がまったく足りていない

 3つ目は、本発表の本命「手厚い介護を受けるなら?」だ。介護のリソースが今後も一定にとどまると仮定すれば、要介護認定者数が増えるほど、介護の質は低下せざるを得ない。ただし、要介護認定者数についての公的な将来予測データは存在しない。そこで、同チームでは現在の要介護認定者数が75歳以上人口と強い相関があることに着目し、75歳以上人口の推計値から2045年時点の要介護認定者数を推測。要介護認定者数の増加率を基に比較し、増加率が低いほど手厚い介護が期待できるとしてランキングを作成した。その結果は秋田県、島根県、高知県などの地方が首位を独占。東京都、神奈川県、埼玉県などの都市部は総じて下位に沈んだ。

 光岡氏は「老後は地方に移住するのがおすすめです」とコメントし、発表を締めくくった。

2016年時点での要介護し認定者数(黄)と2045年の推測値(紫)。都市部では増加率が2倍を超えている

冬物の売れ行きを左右するのは気温?

 最後を飾った発表は、株式会社三越伊勢丹システム・ソリューションズの田中 大資氏による「購買って自分の趣味嗜好だけでは決まらない!?」だ。

株式会社三越伊勢丹システム・ソリューションズの田中 大資氏

 消費者ニーズの多様化が進む中、拡販に向け消費者ニーズをより細かく分析する動きがあらゆる業界で盛り上がっている。衣料品だけを見ても、ブランドや色、デザインなど、人には確かに好みがある。

 だが、「人が本当に欲しいと思うときには、自分の好み以外の要因も存在するのではないでしょうか」と田中氏。事実、ある瞬間では猛烈に欲しくても、それが過ぎれば関心が薄れることはよくあるものだ。

 では、購買を左右する因子は何かを突き止めるのが本発表のテーマである。分析に用いたのは数年分の気象データと百貨店の売り上げデータで、どちらもオープンデータである。

 天候は百貨店の売り上げに影響を及ぼすといわれる。まず、2017年と2018年の売上データを比較すると、2018年11月の前年比売上が低いことを発見。その原因が天候状況にあるかどうかを調べた。

 雨が降っているかどうかは客の出足を大きく左右すると言われる。だが、2018年11月の雨の日はここ数年で最も少なく、むしろお出かけ日和が多かったという。では気温はどうか。前日との寒暖差に着目すると、「前日比で2度以上の差がある日は、特に衣料品の売り上げが伸びていることが判明した」と田中氏。

雨の日数の比較と、2017年11月・2018年11月の前日との寒暖差の比較

 ただし、気温の変動が最大の説明因子かと言うとそうではない。対象をコートの売上に絞って、気候データとの相関を調べたところ、気温よりも風速のほうがコートの売上と強い相関があることを発見。特に西風と南風が吹く日に売り上げが伸びていたのだという。なぜこの風向きなのは不明だが、確かに風の強さは体感気温に大きく影響することを考えれば、なるほど納得である。

コートの売上に対する気象データの説明因子分析。特に西風と南風が強い相関を示した

 「この結果だけを見ても、売り上げ向上に向け、オープンデータに活用の余地はまだあることは明らかです」と田中氏は訴えた。

 以上、第二回のAutonomous選手権 ~JDMCコラボ編~の模様をレポートした。JDMCの会員たちはデータ“管理”のプロフェッショナルだが、皆が“分析”を得意としているわけではない。今回の発表者たちからは、ADWCやOACの手軽さ、強力さに驚いたという声が多く聞かれた。データをどう使い、どんな成果を出すかはアイデア次第だ。第3回目のコンテストでどんな分析が登場するかに乞うご期待である。