特別企画

音に親しいヤマハだからこそ――、
聞き取りやすい遠隔コミュニケーションを実現する「YVC-1000」

開発者に“コダワリ”を聞く

 ヤマハ株式会社が発売している、遠隔コミュニケーションを自然に行うためのシステム「YVC-1000」は、PCベースのWeb会議を補完する音声コミュニケーション機器として、数多くのビジネス現場、そして教育現場などで用いられている。

 こうした音声コミュニケーション機器の市場にヤマハが参入したのは2006年だったが、現在、国内のWeb会議向けスピーカーフォンで6割の市場シェアを取っており、幅広いユーザー層に受け入れられているのだ。

 一見、単なるマイクとスピーカーのセットのようにも見える機材ではあるが、実はここには多くの最先端技術が詰め込まれているという。そこで今回は、YVC-1000の開発に携わったエンジニアやマーケティング担当者など6人に登場していただき、この製品に投入した技術や、YVC-1000に込める思いを語ってもらった。

YVC-1000
Web会議を利用するPCにUSB接続し、マイク機能とスピーカー機能を提供するのが一般的な利用法だ

【ヤマハ スピーカーフォン/マイク&スピーカー関連記事】

・【イベント】「体感すれば良さがわかる」、ヤマハの次世代型マイクスピーカーシステム「YVC-1000」
  http://cloud.watch.impress.co.jp/docs/news/20150615_706879.html
・ヤマハ、高音質化した遠隔会議向けマイクスピーカーシステム
  http://cloud.watch.impress.co.jp/docs/news/20140418_644999.html
・【特別企画】ヤマハの音声処理技術はホントに効果的? スピーカーフォン「YVC-300」を使ってみた
  http://cloud.watch.impress.co.jp/docs/special/20150928_720144.html
・ヤマハ、聴感上2倍の大音量を実現、さらなる高音質化を実現したスピーカーフォン「YVC-300」
  http://cloud.watch.impress.co.jp/docs/news/20150825_717789.html
・ヤマハ、6名程度に適したマイクスピーカーシステム、Web会議や遠隔講義に最適
  http://cloud.watch.impress.co.jp/docs/news/20150410_697081.html

エコーキャンセルと残響抑圧で聞き取りやすい音を届ける

 究極のシステムともいえるYVC-1000だが、これが突然生まれたわけではない。ここに至るまでには、さまざまな技術進化、変遷があったわけだが、この一連の機器として2006年最初にリリースされたのは、PJP-100Hという製品だった。当時について音響開発統括部 SN開発部 コミュニケーション機器グループの田中克哉マネージャーは、次のように語る。

 「従来、東京と大阪、東京とニューヨークというような遠隔地での会議を行うには、テレビ会議システムや電話会議システムが利用されており、かなり高価なもので、通信費も多くかかっていました。そこに、より安価でできるWeb会議が登場し、急速に市場が伸びていったのです。多くのWeb会議ソフトウェアベンダー(やサービス事業者)が、ソフトウェアをベースに開発を行っていましたが、当社はハードウェアからのアプローチで、音声コミュニケーション機器の製品開発を行い、Web会議ソフトウェアベンダーとタッグを組んで販売を開始しました」。

 もっとも、最初に出したPJP-100HはPCを使わず、IPアドレスを割り振った上で、LANケーブルに直接つないで使うというIP電話会議システムだったが、その直後には、ハードウェア構造はほぼそのままに、PCとUSB接続するスピーカーフォンのPJP-100UHを出した。その音声技術を、各ベンダーが絶賛したのだ。

田中克哉氏
ヤマハの音声コミュニケーション機器の初代製品として登場したPJP-100H

 では、既存のシステムとは何が違ったというのだろうか? この点について、エンジニアである音響開発統括部 SN開発部 コミュニケーション機器グループの鵜飼訓史主任は、一番大きなキーになったのはエコーキャンセルだと主張する。

 「Web会議では、相手の声がスピーカーから出力され、そこにいる人たちの声をマイクで拾って相手へ届けます。しかし、スピーカーから出力された声も同様にマイクに入ってしまうので、それをそのまま送ってしまうと、自分の声が時間差で聞こえてしまうエコーバックという現象が発生し、非常にしゃべりにくいものとなります。このエコーバックを抑えるのがエコーキャンセルという技術なのです。エコーキャンセル自体は、Web会議ソフトウェアにも搭載されているケースがありますが、これは簡易的なもので、大きな効果は望めません。それをデバイス側で信号処理技術も用いて行っているのが、当社のシステムなのです」。

鵜飼訓史氏

 その信号処理とは、実際に何をやっているのかがちょっと気になるところだ。これについては、音響開発統括部 SN開発部 コミュニケーション機器グループの佐藤航一郎主任が解説してくれた。

 「スピーカーから出た音が、そのままマイクに入ってくる直接音については、そのまま取り除けばいいのですが、それ以外にも壁などに反射して戻ってくる2次反射、3次反射、4次反射……という音もあるので、それらも丁寧に取り除いていく必要があるのです。そのために、部屋の形状を測定し、どんな反射音が返ってくるかを予測しながら取り除く、というデジタル処理を行っています。そして、もとの話者の声をできるだけ傷つけずにエコーバックだけをきれいに消すところが当社製品の特長です」。

 さらに、エコーキャンセルを行うと同時に、残響抑圧という処理も行っている。「ガラス張りの部屋だと、まるでお風呂でしゃべっているように残響が多くて聞き取りにくくなってしまいます。特に母音と次の母音が重なってしまうと何をしゃべっているかがわからなくなってしまうので、計算処理をしながら残響成分を取り除き、聞き取りやすい音にするわけです」(佐藤氏)。

佐藤航一郎氏

 これらに使われている部屋を測定する技術は、ヤマハのAVアンプなどでも使われているのと同様な技術。通常これらのAV機器では、部屋に設置した最初だけユーザーが簡単な測定操作を行うが、YVC-1000はそれ自体を、会話しながら自動で行っていくのが特長になる。

 「AV機器のような測定ボタンも持っていますが、ユーザーができるだけ限り簡単に使えるように、使いながら自動で測定を行い、その結果をシステムに反映させていくという学習方式をとるようにしました。そのため、あらかじめ測定をしなかったとしても、会議をスタートしてしばらくするとだんだん音がよくなっていく、という構造になっているのです」(鵜飼氏)。

ファンの音など、外から入ってくるノイズも自動的に消す

 会話を妨げるのはエコーバックだけではない。空調の音やプロジェクターのファンの音、またPCから発生するノイズなど、さまざまな音があり、これが声を妨げて音質を劣化させる原因になる。YVC-1000は、これら外から入ってくるノイズを消す技術も搭載している。

 これについて、音響開発統括部 SN開発部 コミュニケーション機器グループの梶山高志技師補は、「ノイズを消すというのは、結構難しい技術なんです。そもそも求められる音と、そうでない音をシステム的に区別した上で不要な音を消す、ということになるのですから。ここで行っているのは、まず定常音を消すという処理です。会話の合間にある空白部に出ている音を測定し、その後、その成分を減衰していく処理を行っています。ただし単純に引き算をすると、人の声を傷つけてしまうので、どこの周波数を消し、どこを残しておくべきかというものも計算しながら処理していくのです。ここでも、エコーキャンセルの時と同様に学習しながら行っています」と語る。

 「ただし、ユーザーによってはマイクをプロジェクターのファンのすぐ横に設置してしまうようなケースもあります。そんな時は、一生懸命システムで計算してノイズを消すよりも、マイクを少し離してもらうほうが効果的です。そのため、測定ボタンを使った場合にノイズ源が近くにあれば、警告メッセージを出すようしているんですよ」(佐藤氏)。

 単なるマイクとスピーカーのように見える機器だが、その機器内部においては、かなり高度な処理が行われているようである。

梶山高志氏

マイクが自動追尾して音量調整、話者の声を正確に届ける

 さらに、YVC-1000にはほかのスピーカーフォンにはない、ユニークな拡張性を備えている。

 「御覧いただくとわかる通り、YVC-1000はスピーカーを内蔵する本体ユニットと、そこに接続するマイクとセパレートになっているのですが、このマイクを数珠つなぎに最大5つまで接続できます。またマイク接続のケーブルの長さは5mあるので、最大で25mまで離すことができるのも特徴。これによってかなり大きな部屋で使うことができるようになっています。人数的には、マイクの数によって8人から40人くらいまでが対象となっています」と話すのは、音響営業統括部 SN営業部 営業推進課の細川知巳課長代理。

細川知巳氏
YVC-1000用の外部マイクユニット。最大で5つまで接続できる

 でも、マイクが多くなれば、いろいろな音を拾って、聞き取りにくくなってしまいそうだが、その辺はどうなっているのだろうか?

 「1つのマイクユニットの中には、実は3方向から音を収録できるように3つのマイクが埋め込まれています。そのため、5つのマイクユニットを接続すれば計15個のマイクから音を拾うことになるわけですが、全部をそのまま相手へ送り届けているわけではないのです。各マイクからの音をチェックした上で、いま発言している人の音がどこから入っているか確認し、適度な音量になるように自動調整しているのです。ちょうど、中にPAのミキシングエンジニアがいるような感じでしょうか」と前出の佐藤氏が説明してくれた。

 もちろん、部屋が広くなり、人数が多くなって来れば、いろいろな物音も出る。その時、物音の音量を上げてしまってはいけないので、人の声であることを判定した上で、ゆっくりと音量を上げていくのだとか。これはヤマハが開発した「Human Voice Activity Detection(HVAD)」という技術を使っている。見た目からは想像もできない高度な処理をしているようなのだ。

 ちなみに、このマイクへの給電も、すべて数珠つなぎで接続される1本のケーブルを通じて、本体から行われている。誰でも簡単に使えるというYVCのコンセプトから、このような設計になっているのだ。

スピーカーから出る音をより明瞭にするオートルームEQ

 ところで、ここまではマイクで拾った音をいかにキレイ相手に届けるかという観点で見てきたが、反対に相手から届いた声を、会議室にいる人たちへ明瞭な音声で伝える、というのも重要なポイントになる。

 「スピーカーから音を出す時には、オートルームEQという機能を用いています。先ほどはマイクからの集音という点で部屋を測定している話をしましたが、その測定情報から反射の多い部屋なのか、壁での吸収が大きい部屋なのかがわかるので、それに応じたフィルターをかけて周波数成分の調整を行っているのです。テレビの音声のように、もともとプロがスタジオでマイクで収録した明瞭な音であれば、適当に音を出しても聞き取りやすくなっていますが、ここに届くのは普通の部屋で録った不明瞭な音。それをこちらに部屋で反響させて出したのでは、まともに聞き取ることができません。そこで、こちらの部屋に合わせてフィルターをかける処理をしているのです」と梶山氏。

 例えば、スピーカーを壁側に置くと低域が持ち上がってしまうため、それを低減させるといった処理が行われているわけなのだ。

YVC-1000では、自動で最適な音質に調整できるよう、これだけ多くの技術が活用されている

DSPのパワーアップで音質が大幅に向上

 2014年に発売された最新の機材はYVC-1000という型番であるのに対し、2006年以降、YVC-1000がリリースされるまではずっと、PJP(プロジェクトフォン)という型番だった。実は、ここにもヤマハの開発陣の思いが込められているとともに、大きな技術革新があったのだ。その経緯について田中氏は次のように振り返る

 「PJPシリーズを開発してきた中で、この先、どのような製品にしてくのがいいのか議論をし、あらためてヤマハのアドバンテージが何なのかを考えました。世界中にはいろいろな競合がある中、どうやって生き延びていくかを考えると、音質での強みをさらに伸ばしていくのがいい、そのためにはもう一度エコーキャンセルを強化させよう、ということになったのです。当時の製品で少し指摘が出ていたのは、エコーキャンセルをかけすぎて音質が変化しているという点でした。それはDSPの処理能力不足からくるものだったので、搭載するDSPのパワーアップを行い、音質向上を目指しました」。

 また梶山氏は、「そこで、処理能力の高いPCを使ってエコーキャンセルのプロトタイプを作成した上で、新しいDSPに移植するという手法で開発を行っていったのです。その結果、音は格段に変わりました。ちょうどわれわれ開発チームの隣にはDSPでAVアンプを開発する部署があるので、こことも情報交換をしながら、AVアンプに搭載しているのと同レベルのDSPを採用したのです。見た目にもシンプルなこのマイクユニットの中には、そのDSPチップが1つずつ搭載されており、これらがお互いに通信で情報のやりとりをしているわけなのです」と話す。

 もう1つ、PJP時代はマイク・スピーカー一体型だったのが、YVC-1000では分離型になった背景には、ユーザービリティというものもある。つまり、相手が映し出される映像のそばにスピーカーを配置することにより、より自然な感じでの使えるようになり、一方話す側にとっては、目の前のマイクにしゃべりかけるだけで相手に通じるシステムとなっているのだ。

スマートデバイス対応、広がる遠隔コミュニケーション、教育現場や専門分野の支援でも

 このPJPからYVCへという変革によって、従来の会議用システムから、より幅広いヒューマンコミュニケーションのための機材へと進化している。実は、YVCは「ヤマハ・ボイス・コミュニケーション」の略で、「遠隔地にいる人が、あたかも目の前にいるような感じ」を実現するためのシステムに変わったのだ。

 では会議以外で、どのような使い方があるのだろうか? 音響営業統括部 SN営業部 国内営業課の笹本拓也主任は次のように語る。

 「例えば学校での導入は急速に進んでいます。人口の少ない地方にいくと、学校が本校と分校に分かれているケースが増えていますが、英語など専門学科の先生をすべての分校に配置するというのは困難な状況です。そのため、YVCなどを導入し、本校の授業と合わせて分校にも参加してもらうという使い方が広がっています。また、今年から日本の法律が変わり、従来は単位として認定されなかった高校での遠隔地授業が認められるようになったのも、普及に加速度を付けています。さらに、教育という面では学校だけでなく、企業の研修などで用いられるケースも増えてきています。従来は地方から本社へ出張して、そこで研修を行うのが一般的でしたが、それでは出張旅費など経費がかさんでしまいます。そのためYVCなどを導入し、そのコストや手間を大幅に削減しようというわけですね」。

笹本拓也氏

 また細川氏は、「専門職を遠隔地から支援という意味では銀行でも導入されるケースが出てきています。銀行の各支店に融資専門の人を配置するのは困難なので、それをスピーカーフォンを用いて行うのです。銀行窓口の一番奥のカウンターがテレビ会議システムとなっており、ここに融資相談の顧客に来てもらい、相談してもらうわけです」といったシーンを紹介した。

 このように、YVCの利用用途はどんどん広がっているようだ。複雑なシステムではあるものの、USB接続したPCから見れば単なる1つのスピーカーと1つのマイクにしか見えない構造で、さらにスマートデバイスとBluetoothで接続できる。そのため、どんなシステムともマッチングできる点が、大きなポイントになる。

 今後は、もっと小規模なシステムの開発なども企画しているという。そうなると、部屋での利用だけでなく、オープンスペースでの利用というケースも出てくるので、新たな技術を投入させる必要も出てくるとのことだが、YVCを利用するケースはますます増えていきそうだ。

取材は、浜松にあるヤマハ本社で行われた

藤本 健