インタビュー
声なき声を可視化せよ――ソフトバンクの接続率No.1を支えたAgoopのビッグデータ分析
(2013/8/14 06:00)
少し前の話になるが、今年4月に東京で行われた日本オラクルのイベント「Oracle CloudWorld Tokyo」において、基調講演に登壇したソフトバンク 代表取締役社長 孫正義氏が「ソフトバンクはExadataなどのオラクル製品のおかげで接続率No.1になった」と発言し、ちょっとした話題となった。
日々発生する膨大なトラフィックをOracle Exadataをはじめとするオラクル製品を使い、さまざまな角度から分析を行って通信エリアの改善や拡大に努めた結果、「接続率No.1の座を手に入れた」という。
この「接続率No.1」という表現には異論もあるようだが、ソフトバンクの通信環境が大幅に改善されたことは確かで、その陰には同社のビッグデータ分析を支えたデータサイエンティストたちがいる。そして彼らが使ったのは実はオラクル製品だけではない。Hadoop、MongoDBといったオープンソースソフト、さらにはMicrosoft SQL Server 2012といったプロプライエタリ製品も駆使して分析にあたっている。
そしてソフトバンクの通信データ分析を担当するのが、ソフトバンクグループの“ビジネスインテリジェンスプロバイダ”を掲げるAgoop(アグープ)だ。今回、自身もデータサイエンティストとして日々のデータ分析にかかわるAgoop 代表取締役社長 柴山和久氏に、ソフトバンクの通信データ分析についてお話を伺う機会を得たので、これを紹介したい。
さまざまなビッグデータソリューションを提供
――Agoopという会社について、簡単にご紹介いただけますか。
柴山氏
会社の設立は2009年ですが、それ以前からソフトバンクモバイルにおいて携帯電話の電波状況を監視したり、トラフィックの分析を行ったりしてきました。現在ではソフトバンクだけでなく数多くのお客さまに対し、ビッグデータの収集から分析、見える化に至るまで、さまざまなアプローチでビッグデータソリューションを提供しています。
特に地理情報システム(GIS)とビッグデータを結びつけたソリューションを得意としており、Webブラウザで操作が可能で直感的なUIが特徴的な地理情報システムも提供しています。顧客情報や統計情報などを地図上にプロッティングし、視覚的にも分析しやすいシステムとして高い評価をいただいています。
――ソフトバンクモバイルからスピンオフした理由は?
柴山氏
もともとわれわれがGISシステムをオリジナルで開発したのは、既存のGISベンダーの製品ではエリア分析に適当なものがなかったからです。データと空間情報をひもづける、しかも膨大なデータから一瞬で必要な情報を地図上に表示できるシステムはほとんど存在しなかった。だから自社開発したのですが、その後、ほかの企業からこのシステムを使わせてほしいという依頼を多くいただくようになり、ならばプロフィット化しようということでスピンオフし、現在に至ります。
――ビッグデータを空間情報にプロッティングするという市場のニーズが大きくなってきたと。
柴山氏
存じのようにスマートフォンの普及が拡大してから、われわれのような通信業界だけではなく、あらゆる市場で扱うべきデータ量が増大しています。しかしそれらのデータを分析のために可視化しようとすると、グラフ化で止まってしまう場合が多い。Agoopは“AnyGIS of Object-Oriented Planner”の略ですが、その名の通り「いつでも、どこでも、誰でも、地理情報を扱える」ということに力を注いでいます。
われわれにとって情報の見える化というのはグラフを出すところで終わりではありません。地図にデータを落とし込み、必要な情報をリアルタイムに表示できるところまでできて初めて可視化できたと言えます。膨大なデータが埋め込まれた地図を使い、一瞬で宝探しをするようなイメージでしょうか。
空間情報の扱いに優れるSQL Server 2012
――ソフトバンクの電波改善について少し伺わせてください。現在、Agoopでは接続率改善のためのデータ分析を行っているということですが、具体的にはどんな内容なのでしょうか。
柴山氏
最も重要なのはエリア分析です。通信エリアに関するあらゆるデータ――、つまり電波の悪い場所、パケ詰まりを起こしている場所、急激に人が増えている、あるいは減少している場所、トラフィックが急激に増加/現象している場所、さらにはお客さまからのクレームやシミュレーション情報なども含め、これを地図に落とし込みエリア分析を行う。この繰り返しです。スマートフォンだけでも接続情報は月間6億件に上ります。
――ものすごい量のデータを日々分析されているわけですが、4月のイベントで孫社長が「オラクル製品で接続率No.1になった」と発言されたようにオラクル製品をここでも使われているのでしょうか。
柴山氏
オラクルはソフトバンクグループにとって大事なパートナーですが、当然ながら一社の製品しか使わないということはありえません。Agoopが行った接続率改善のためのデータ分析においてもさまざまなベンダの製品が使われています。特にデータの見える化においては日本マイクロソフトのSQL Server 2012が活躍しています。SQL Server 2012は非常に空間情報の扱いにすぐれたデータベースで、われわれのソリューションであるWeb GISアプリケーションでも採用しています。
――例えばどんな点がすぐれているのでしょうか。
柴山氏
Agoopでは前のバージョンであるSQL Server 2008 R2も使っていましたが、その当時からSQL Serverは空間情報の扱いにたけていました。しかし、例えばポリゴンなどイレギュラーな形式のデータは自動で登録できなかったり、空間インデックス付けを手動で行わなければならないなどの手間がかかっていたことも事実です。チューニングにも相応の時間を要していました。
SQL Server 2012にバージョンアップしてからはそうした問題のほとんどが解決され、データベース自体が空間情報を扱えるようになったので、パフォーマンスやコスト、運用面において多くのメリットが得られています。SQL Server 2008 R2ではクレームや基地局の情報など必要な情報を表示するのに5秒以上かかっていましたが、現在では1秒以下です。
――地理情報を使って分析する人間にとってSQL Server 2012は扱いやすいデータベースであると。
柴山氏
通信業界のデータ分析は、例えば昔からあるPOSデータ分析のような類とはやや異なります。われわれにとって重要なのは“人の流れ”の分析です。当たり前ですが人は動きます。その流動人口を空間情報と密に結びつけ、できるだけリアルタイムな状態で正確に把握することが、電波の改善につながっていくわけです。その流動性を視覚的にも把握しやすいのがSQL Server 2012です。現場の分析者に身近な存在のデータベースとも言えますね。
――分析している内容をもう少し詳しく教えていただけますか。
柴山氏
分析データは基地局建設のための重要な指標です。電波改善のために基地局を作ると言っても、どこにでも建てられるわけではなく、限られたコストの中で最も効率的に改善を見込める場所を選んで建てる必要があります。基地局が変われば利用シーンも変わる、それくらい基地局の場所は重要なのです。
基地局の適切な場所を見極めるためには、まずNGが連発している場所、パケ詰まりが発生している場所での要素要因を分析にしなければなりません。アンテナバーが立っているのにつながらない、これはラッシュアワー時の駅周辺や小さなビルが密集して建っている地帯などで頻発します。
したがってむやみに基地局を増設すればかえって電波が干渉し合い、もっとつながりにくくなってしまうこともありえます。むしろインドアの基地局を作ったほうが効果が高い場合もある。またゴールデンウィークの箱根や夏休み中のキャンプ場などの一時的にトラフィック量が増える場所には、臨時局やWi-Fiの拠点を置くという対策が考えられます。
こうした需要の変化はこれまで積み重ねたデータである程度予測可能なので、できるだけ早急に手を打つことが肝要です。対策をすぐに採らなければお客さまの不満度が高くなりますから。
――不満度が上がるというのは「つながらない」「遅い」などのクレームの数が増えるということでしょうか。
柴山氏
以前は販売店に寄せられるクレームや、基地局からの電波の強弱とその相関関係を入力し、シミュレーション分析を行っていましたが、正直、こうしたシミュレーションでは実際のつながりにくさを正確に把握することは難しい。最終的には分析者が現場に足を運んで目で確かめることも少なくありません。むしろわれわれにとって怖いのはサイレントクレーマー、お客さまの声なき抗議のほうです。実際には声になっていないお客さまの不満を膨大なデータから時間軸と空間軸に沿ってあぶり出す、これは非常に重要な作業です。
声なき声の可視化で問題をあぶり出す
――具体的にはどうやって声なき声を可視化するのでしょうか。
柴山氏
Yahoo!が配布したスマートフォン用の防災アプリやAgoopが配布している「ラーメンチェッカー」「Wi-Fiチェッカー」などのアプリに電波の接続状況をチェックするプログラムをいれてあります。10秒以下でつながらなければパケ詰まりとして記録する。そうやって収集したデータを元にサイレントクレーマーの声をプロッティングしていきます。
【お詫びと訂正】
初出時、防災アプリの配布者をソフトバンクとしておりましたが、Yahoo!の誤りです。お詫びして訂正いたします。
――チェッカーアプリに通信ログをチェックする機能を入れていることについては利用者の許諾は得ているのでしょうか。
柴山氏
もちろんです。アプリをスマホにインストールする際、必ずわれわれの利用目的を表示し、ユーザーの同意を得るようにしています。また収集する通信ログのデータと個人情報のひも付けも一切行っていません。ただしわれわれの反省点として、こうしたリーガルチェックに関する部分の告知が不十分だったというのはあります。今後はユーザーに不安を抱かせないよう、どの部分のデータが送られるのかをきちんと説明し、ケアしていきたい。
――スマートフォン時代になってから個人情報やデータの収集に対して世の中全体が非常に敏感になっていますが、ビジネスがしにくくなるとは思われませんか。
柴山氏
これからO2Oがますます発展するにともない、個人情報の扱いは大きな課題となってくると思います。だからこそわれわれのようなデータを扱う事業者は、ユーザーに対して明確なラインを提示するべきです。どこからどこまでのデータが送られるのか、解除はできるのか、個人情報は本当に守られるのか、そうしたすべての疑問に答えられなくてはなりません。
個人的にはプライバシーに抵触するデータを集めて個人を特定するような時代はもう終わったと思っています。個人情報とはひもづけることなく、地域の特性を理解することは十分に可能ですから。
――そのためにはデータの量がやはり重要になってくるような気がします。
柴山氏
その通りです。われわれにとって最も重要なのはデータです。圧倒的な量のデータがあれば、極端な話、統計学はさほど重要じゃない。少ないデータを元に統計学を駆使するよりも、圧倒的な量のデータがあれば仮説から自然に結論を導き出せる。データこそ王道です。
いま、データサイエンティストという言葉がブームになっているようですが、データが発生する現場を知らずにシミュレーションができても、正しい情報が得られるとは思えないですね。私自身もデータサイエンティストという肩書になっていますが、データサイエンティストが業務を行うのではなく、業務の専門家がデータサイエンティストでなくては意味がないのではないでしょうか。
現場の知識、例えば新宿の小さなビルが密集している場所の電波状況を時間と空間に沿ってイメージできる力がないと、どんなにシミュレーションを繰り返したところで正しい施策を打ち出すことはできない。そしてそうした力を高めるにはデータが必要です。はじめにデータがあって、だからこそ現場の分析力が生きるんです。
――誰もがデータサイエンティストになりうる可能性をもっていると。
柴山氏
われわれの目的はデータを使ってビジネスのパフォーマンスを上げていくことです。データサイエンティストどうこうよりも、より多くのデータを収集し、そのデータの海に対して自ら仮説を立て、その検証を繰り返しながら、新たなビジネスチャンスを生み出せる、そういう現場の人材を増やしていきたいですね。