株式会社KDDI総合研究所 このページを印刷する

わずか3分の音声データから自分の声を合成する技術を開発

~身近な人の声で楽しい音声コミュニケーションへ~

2021年10月1日
株式会社KDDI総合研究所

株式会社KDDI総合研究所(本社:埼玉県ふじみ野市、代表取締役所長:中村 元、以下、KDDI総合研究所)は、3分程度の少量の音声データから、その人の声質に似た音声を合成する「高効率声質再現音声合成技術」(以下、本技術)を2021年9月に開発しました。本技術により音声収録にかかる時間を大幅に軽減でき、独自の声質を使った音声対話システムやチャットシステムなど、これまでにない新しいコミュニケーション体験が容易に実現できます。

 

 

 

利用イメージ図

 

 

【背景】
多様かつ大量の情報にあふれている現代において、画面を見たり操作したりする方法での情報活用には限界があり、AIスピーカーや対話ロボットを中心とした音声インタラクションでの情報活用手段が注目されています。KDDI総合研究所は、これまでに、スマートフォンやIoT・組み込み向けマイコンボード単体で省メモリかつ軽量に動作する日本語テキスト音声合成ソフトウエア「N2」(注1)を提供するなど、情報出力手段として重要となる音声合成技術を誰でも簡単に使えるようにする技術の研究開発を進めてきました。しかし、あらかじめ用意した声質以外での音声合成は容易ではなく、独自の声質を使いたいニーズへの対応が課題となっていました。

 

【今回の成果】
この度、KDDI総合研究所は3分程度の少量の音声データからでもその人の声質に似た音声を合成できる「高効率声質再現音声合成技術」を開発しました。本技術は基となる音声合成方式にDNN-HSMM音声合成方式(注2)を採用することで、合成音声品質の低下を抑えつつ音声の特徴を表すパラメーターの数を削減し、さらに独自のDNN適応技術を組み合わせることで、短時間の音声から高効率にその声質を再現する音声合成を実現しました。
この手法を検証するため、数十名の話者による100時間以上の音声で学習した汎用的なDNNを新規の約3分の音声で適応し、その声質を再現した合成音声を作成しました。この手順で作成した10声質、各5文の合成音声に対して、基となった自然音声との比較を11名の判定者により行ったところ、94%の音声で、似た声質の音声が合成できていると過半数の判定者により判定されました。

 

 

 

高効率声質再現音声合成技術の概要図

 

 

【今後の展望】
他のサービスから本技術を容易に利用可能にするためのプラットフォーム化の検討を進めていきます。また、どこでも簡単に録音作業ができたり、より短時間の音声でも音声合成ができたりすることや、合成音声が適切に利用されることを確保する機能など、本技術をより多くのお客さまに安全で使いやすい技術にしていくための研究開発を進めていきます(注3)。
さらに、本技術の基盤であるDNN-HSMM音声合成方式の処理量が他の深層学習に基づく方式よりも小さいことを生かし、日本語テキスト音声合成ソフトウエア「N2」と統合した、PCやスマートフォン、ロボット上でスタンドアローン動作する音声合成システムの開発を進めていきます。

 

<KDDI総合研究所の取り組みについて>
KDDI総合研究所はKDDIと共に、経済発展と社会的課題の解決を両立する持続可能な生活者中心の社会「Society 5.0」の実現を加速する、次世代社会構想「KDDI Accelerate 5.0」を策定しました。両社は、ネットワーク、プラットフォーム、ビジネスの3レイヤの環境整備を進めると共に、3つのレイヤを支える先端技術となる7つの分野のテクノロジーと、それらが密接に連携するオーケストレーション技術の研究開発を推進します。
今回の成果は7分野のテクノロジーの中の「ロボティクス」に該当します。

 

 

(注1)日本語テキスト音声合成ソフトウエア「N2」

 

(注2)DNN-HSMM音声合成方式:名古屋工業大学 徳田恵一教授らのグループが提案している、HSMM音声合成(HSMM:隠れセミマルコフモデル)におけるHSMMパラメーターを、深層ニューラルネットワーク(DNN)でモデル化することで高品質な音声を合成する方式。HSMM音声合成と同様、音素(ここでは言語的な音の分類を目的とした規則に沿って、音声を時間的に分割した際の最小単位のことをいいます)を内部的に5個程度の可変長の状態に分割し、この状態単位で処理を行うことで、DNNが出力する出力音声時間あたりのパラメーターの数は、固定周期のフレーム単位で予測処理を行う従来のDNN音声合成方式の数分の1から数十分の1となり、より性能の低い計算機上でも音声合成を行うことができます。なお、従来のHSMM音声合成は、HMM音声合成(HMM:隠れマルコフモデル)と呼ばれることもあります。

 

(注3)合成音声に真正性を保証するための技術開発と特許出願など、本技術の悪用を防止するための取り組みを並行して進めています。

 

※ニュースリリースに記載された情報は、発表日現在のものです。 商品・サービスの料金、サービス内容・仕様、お問い合わせ先などの情報は予告なしに変更されることがありますので、あらかじめご了承ください。