ニュース

Google、テキスト読み上げサービス「Cloud Text-to-Speech」を一般公開

三柳英樹

2018年3月29日 16:31

　Googleは米国時間27日、Google Cloud Platform（GCP）のサービスとして、テキストファイルを自然な会話調の音声で読み上げる「Cloud Text-to-Speech」の一般提供を開始した。

　Cloud Text-to-Speechは、日本語を含む12の言語と32の異なる音声が用意され、音声ピッチ、速度、ボリュームのカスタマイズが可能で、MP3やWAVなどさまざまなオーディオ形式での出力をサポートする。

　GoogleアシスタントやGoogleマップといったGoogleのサービスで用いられている音声生成技術「Text to Speech（TTS）」を利用することで、より自然な会話調の音声サービスを可能にしており、氏名、日付、時間、住所といった複雑なテキストも正確に発音が可能。コールセンターの自動音声応答装置や、IoT機器のトークバック機能、ニュースや本などテキストコンテンツのポッドキャストやオーディオブックへの音声変換など、さまざまな用途で利用できるとしている。

　Cloud Text-to-Speechには、2014年にGoogleが買収したDeepMindが開発した音声生成モデル「WaveNet」による、より原音に忠実で高品質な音声素材が含まれている。

　DeepMindでは、2016年後半にWaveNetの最初のバージョンを公開しており、このモデルでは大量の音声サンプルデータをニューラルネットワークに学習させることで、一から音声波形を生成。トレーニングの過程では、ニューラルネットワークがどのようなトーンの組み合わせが自然か、リアルな音声の波形はどんな形かといった構造を抽出し、入力されたテキストに対し音声波形を生成、より品質と精度の高い音声の生成を可能にした。

　現在、Googleでは、Google Cloud TPU上で改良版のWaveNetを運用しており、当初に比べサンプル波形の生成速度は1000倍になり、1秒の音声を0.05秒で生成。また、この1秒の長さの音声は、2万4000個のサンプル点からなる波形で構成され、出力音声の解像度も8ビットから16ビットになったことで、より自然な音声の生成を可能にしており、新しいWaveNetが生成したUS Englishの音声は、平均オピニオン評点で5点満点中4.1点と、従来版の音声と比較して20％向上し、人の自然なスピーチとのギャップも70％以上縮まったとしている。

　また、WaveNetは少ない録音データから高精度のモデルを生成でき、今後も音声の種類や品質の改善が期待されるとしている。