ニュース

日本マイクロソフト、Skype通話をリアルタイム翻訳するサービスなどを開始

翻訳サービスのエンジンをニューラルネットワーク技術ベースに変更

 日本マイクロソフト株式会社は7日、自動翻訳サービスの翻訳のエンジン「Microsoft Translator」を、統計的手法による翻訳(SMT:Statistical Machine Translation)から、ニューラルネットワークによる翻訳へと切り替えたことを発表した。

 また、リアルタイム音声翻訳機能「Translator Speech」についても、新たに日本語に対応したことで、Skypeの拡張機能であるリアルタイム翻訳が4月7日のアップデートから日本語に対応したことをあわせて発表した。

10カ国語の音声入力に対応するSkypeのリアルタイム翻訳

 Skypeのリアルタイム翻訳にも使用されているTranslator Speechは、これまで英語、ドイツ語、フランス語、中国語、スペイン語、ポルトガル語、イタリア語、ロシア語、アラビア語の9言語に対応していた。今回、日本語の対応が開始されたことで、合計10言語の音声入力をリアルタイムで翻訳できるようになった。

 リアルタイム翻訳サービスの日本語対応開始にあわせ、都内においてプレス向けに開催されたSkypeのリアルタイム翻訳体験会では、日本語と英語、ドイツ語、スペイン語による翻訳が披露された。レストランの予約といった簡単なやり取りであれば、多少不自然な日本語翻訳になってしまう部分はあるものの、十分に意味が通じる結果となっている。また、やり取りされた会話の内容は、テキストとして画面上に表示されるため、イントネーションが多少不自然な人工音声でも、視覚的な補助があるため内容は理解しやすい。

Skype for Windowsによる自動翻訳実現の様子。音声入力された内容はテキスト化されて、画面上に表示される。ただし、自分の話した言葉がどのように翻訳されているかは確認できない

 日本マイクロソフト Officeマーケティング本部 シニアプロダクトマーケティングマネージャー 鈴木哉氏は、「Skypeは空間と言語の壁を越えて、人と人を会話でつなぐ」と述べる。また、Skype翻訳の利用方法について、「現在、日本国内には約100万人の外国人労働者がいると言われており、外国人労働者やその家族とのコミュニケーションに利用できる。あるいは、国際結婚した家族や親せきとのコミュニケーションにも役に立つ。海外旅行のレストランやホテルの予約、教育現場での利用もできる」と述べ利用シーンの多さをアピールした。

日本マイクロソフト Officeマーケティング本部 シニアプロダクトマーケティングマネージャー 鈴木哉氏

リアルタイム翻訳は2つのAIが連動して実現

 リアルタイム翻訳を利用するには、「会話を開始する相手を選択する」「翻訳機能をONにする」「翻訳する言語を選択する」「会話を開始する」という手順を踏む。このように発信する側で翻訳の機能を設定するため、相手がSkypeアプリ以外の固定電話や携帯電話であっても翻訳することができるが、着信側から翻訳機能を設定することはできない。また、グループ会話には対応していないため、1対1のみの通話でのみ利用可能だ。

 また、音声通話以外でも、Skypeのチャット画面においても、会話のテキストをリアルタイムで翻訳することが可能になっている。テキスト翻訳は60カ国に対応している。

 音声とテキストでリアルタイム翻訳サービスの対応言語に違いがあるのは、音声によるリアルタイム翻訳サービスが、音声認識を担当する「Translator Speech」と翻訳エンジンの2つのAIが連動することで実現するため。

 Translator Speechは、マイクから入力された音声を、翻訳用に整形した「TrueText」として出力する。このテキストを翻訳エンジンが処理し、最後にテキスト読み上げの音声データが出力されるしくみとなっている。

音声によるリアルタイム翻訳は2つのAIが連動して実現する

 なお、現在リアルタイム翻訳に対応しているSkypeアプリは、Windows向けデスクトップアプリの「Skype for Windows」および、UWPアプリ「Skype Preview for Windows 10」のみとなっている。「Skype for Business」や、AndroidやiOSなどのモバイルアプリでは利用できず、今後の対応予定についても未定となっている。

今後は翻訳サービスが多くの製品やサービスから利用可能に

 新しい翻訳エンジンであるMicrosoft Translatorのを使用した翻訳サービスは、Skypeのリアルタイム翻訳以外にも、Webアプリやモバイルアプリの「Microsoft Translator」が提供されているほか、Microsoft Edgeや各種Office製品からも利用できるようになるという。すでに、「Microsoft Edge」「Outlook」「PowerPoint」のアドインのプレビュー版が利用可能となっている。

 また、開発者向けに翻訳機能のAPIとして音声翻訳の「Microsoft Translator Speech API」、テキスト翻訳の「Microsoft Translator Text API」が「Microsoft Cognitive Services」より提供される。これによって、マイクロソフト以外のアプリやサービスにおいても、ニューラルネットワークの技術を用いた翻訳エンジンが利用できるようになる。

マイクロソフトの多くの製品で翻訳サービスが利用可能に

ニューラルネットワークを用いた翻訳エンジンによる精度の向上

 米Microsoft AI & Researchグループ機械翻訳プロダクト戦略担当ディレクターのオリビエ・フォンタナ氏は、今回の発表に先駆けて行われた事前ブリーフィングにおいて、マイクロソフトが翻訳エンジンを変更した理由を「従来の統計的手法による翻訳では、品質の向上に限界があった。Microsoftのミッションである『言語のバリアーをこえる』ため、ニューラルネットワークを用いた翻訳エンジンに移行した」と説明している。

米Microsoft AI & Researchグループ機械翻訳プロダクト戦略担当ディレクター オリビエ・フォンタナ氏

 統計的手法による翻訳は、人により翻訳された膨大なデータ(コーパス)を活用し、単語の並び順などのマッチングを図って翻訳する。しかし、長い文章全体の関係を処理することが難しく、翻訳結果は機械的で違和感があった。

 一方、ニューラルネットワークを用いた翻訳エンジンでは、全体の文脈を見て単語のモデルを作成し、文脈で翻訳する。例えば「犬」という単語であっても、「子犬の世話をしている」という文章であれば、その犬は「雌」だろうとイメージし、より自然な言語に翻訳できるという。

ニューラルネットワークによる翻訳は全体の文脈を見て翻訳する

 なおフォンタナ氏は、「AIは学習データ次第。データの蓄積によってわれわれのシステムは改善されていくため、ユーザーが使えば使うほどシステムが進化していく」と述べており、現在Skype翻訳やMicrosoft Translatorアプリの翻訳結果が多少不自然な結果であったとしても、今後多くのユーザーが利用することで翻訳の精度が高まっていくことをアピールした。