暮らしで活躍する音声合成技術と音声強調技術
音声を“自然”かつ“明瞭”に届けるために

富士通研究所は、放送コンテンツや各種アナウンス、eラーニング教材に適用可能な、プロのナレーターに迫る高音質な音声合成技術を開発。また、携帯電話向けに、周囲騒音を判別して相手の声を聞きやすくする音声強調技術「スーパーはっきりボイス3」を開発しました。
富士通研究所では、誰もが簡単に使えるインターフェースの実現をめざし、業界をリードする様々な技術の研究・開発を続けています。今回はそのなかで“音声”にフォーカスし、文字から音声を自動生成する「音声合成技術」と、通話相手の声を聞きやすくする「音声強調技術」をご紹介します。いずれも音声信号処理技術として始まり、コンピュータを介した音声を「より人間らしく」「聞きやすく」する取り組みであると同時に、ユニバーサルデザインの観点からも注目される最新技術です。
音声合成技術:プロのナレーターに迫る自然な語り口に
プロのナレーターの代替になれなかったこれまでの合成音声
コンピュータで人の声を人工的に作り出す「音声合成」技術は、携帯電話のメール読み上げ機能や、電話による自動音声応答システム(注1)など、私たちの暮らしのなかで幅広く利用されています。特に最近では、ユニバーサルデザインへの配慮から、ウェブコンテンツや銀行のATM端末機の操作などでも、画面と同じ情報を音声で提供することもおこなわれるようになりました。
音声合成技術は、その明瞭な音質が評価され、「情報を正確に伝える」ことに利用されてきましたが、肉声と比較すると機械的でぎこちなく、人工的に作られたものであることは誰にもわかります。そのため、自然な語り口が求められるテレビやラジオの放送や、eラーニング、イベント会場などのナレーションでは、違和感が持たれ、プロのナレーターの代替としては利用されてきませんでした。
課題は「流暢な語り口」と「歪みのない声質」
音声合成技術では、次のような流れによって音声(以下、合成音声)を作り上げます。
例えば、ユーザーが「橋を渡る」と入力した場合、まず「言語処理」部において、基本単語辞書を使い、読み・アクセント(高低)、間(ま)の取り方などを決定します。次に、「韻律(注2)生成」部において、イントネーションやリズムのパターンを決定します。そして、「波形処理」部において、様々な単語や文例を収めた音声波形辞書を使い、先ほどのイントネーションのパターンに沿って音声波形をつなぎ合わせ、合成音声を作成します。

このように生成される合成音声を、違和感なく聞ける音声にするには、次の2つの課題がありました。
1つは、プロのナレーターに迫る人間らしい流暢な語り口の実現です。私たちが文章を読み上げる時は、いくつかの音が自然にまとまり、無意識のうちに日本語独特のリズム(以下、発話リズム)で発声しています。音声合成で人間らしい流暢な語り口を実現するためには、「韻律生成」部において、発話リズムを適切に制御することが必要でした。
しかしこれまでは、あらかじめ多種多様な声を収集して「あ」「い」「う」といった音の平均的な音の長さを調べ、音声の合成の際に、個々の音の長さを単純につないでリズムを作っていました。そのため、どのような言葉や文章もリズムが一定になり、これが機械的な印象を生み出す原因となっていました。
もう1つの課題は、歪みの発生を抑え、人間の声に匹敵する声質を実現することです。合成音声は、入力した文章に適した音声波形をつなぎ合わせることにより生成されますが、この課題を解決するには、どのような文章が入力されても最適な音声波形を用意できる音声波形データベースが必要でした。
これまでの音声波形データベースは網羅性に欠け、データベースにない単語同士の音声波形をつなぎ合わせる際は、不連続や濁りのある音が合成されてしまい、これが声質の歪みを生み出す原因となっていました。
独自の制御モデルと大規模データベースにより自然性を実現
富士通研究所では、次の2つの技術を開発することにより、これまで成しえなかった、極めて自然で人間の声に迫る高品質な音声合成技術を実現しました。
1. 独自の発話リズム制御モデル
人間らしい流暢な音声を実現させるために、今回、人間の発話リズムを解析するための新たな統計手法を開発し、その手法に基づいて独自の発話リズム制御モデルを構築しました。

私たちが日本語を話す際、無意識のうちにいくつかの音のまとまりで発声していることに着目し、例えば、「東京都」という音声の合成では、これまでは「と」「う」「きょ」「う」「と」と一つひとつの音の長さを個別に制御していたため、読み上げのリズムが一定であったものを、いくつかの音をまとめた「とぅ」「きょぅ」「と」という単位で音の長さを制御することにより、私たちの発話に近いリズムで読み上げることができるようになりました。
これにより、各音の長さと、肉声との差を従来の3分の2(当社比)に抑え、一つひとつの音の長さのバランスがとれた、流暢な読み上げ音声を実現しました。
2. 大規模な音声波形データベース
様々なイントネーションを網羅し、かつ使用頻度の高い単語や文例を中心とした音声波形を収集し、従来の約10倍(当社比)となる数万個ものフレーズからなる、大規模音声波形データベースを構築しました。

収集した音声波形は、すべてプロのナレーターの読み上げによるもので、ナレーターが自然に読み上げられるようフレーズ選定を工夫するなどして、安定した声質の音声波形を確保しました。本データベースを用いることで、入力した文章に適した音声波形を選択することができ、各単語間のつながり部分などで、機械的な歪みのない合成音声が生成できるようになりました。

プロのナレーションの80%の品質を達成
本技術による合成音声は、音声品質の評価方法であるCMOS評価(注3)において、プロのナレーション品質の80%に迫る、業界最高クラスの高いスコアを達成しました。これにより、明瞭さと自然さを兼ね備えたプロのナレーターの音声に迫る読み上げが可能になり、各種アナウンスなど、様々な利用シーンで最適な合成音声が利用できます。
例えばeラーニングの教材開発の現場では、教材が頻繁に改訂され、わずかの改訂であっても、ナレーターの手配、スタジオ録音、編集といった作業が発生し、時間とコストの負荷が課題となってきました。音声合成技術は、テキストを入力するだけで必要な音声メッセージを瞬時に作成できます。これまでナレーター音声を利用していた分野に、本技術の合成音声を採用することで、費用および時間を大幅に削減することができます。

現在、富士通研究所では、各種利用シーンに対して迅速な適用を可能にするための機能強化をはかり、2009年度中の実用化を目指しています。
音声強調技術:騒音を自動判別し、自然な声質でより聞きやすく
相手の声が聞き取りやすい「はっきりボイス」
携帯電話は、駅のホームやショッピングセンターなど、屋外の様々な場所でも利用されます。富士通研究所では、こうした携帯電話の実利用シーンをふまえ、相手の声の聞きやすさを高める「はっきりボイス」を開発。2003年、NTTドコモ様の富士通製ユニバーサルケータイ「らくらくホンⅢ」に本技術が搭載されて以来、ご利用いただくお客様の声を反映して、その後も段階的に進化しています。
「はっきりボイス」は、周囲が騒がしい時に相手の声を強調して聞きやすくする音声強調技術です。一般に音声は、周波数が高くなるにつれて電力値が小さくなる傾向があるため、周波数の高い、高音域になるほど、周囲の騒音に埋もれやすくなります。はっきりボイスは、この音声の特性に着目し、高い周波数の音を増幅する(電力値を高める)ことで、相手の声を強調し、聞き取りやすくしています。
人込みに対応して明瞭性と自然性を高めた「スーパーはっきりボイス3」
2008年8月発売の「らくらくホンV」に搭載された「スーパーはっきりボイス2」では、強調した音声がより自然に聞こえるようになりました。騒音と相手の声の周波数の関係を見ながら、音域に分けて増幅のレベルを細かく調整。これにより、相手の声を強調しながらも、自然な声質を維持することに成功しました。
はっきりボイスが搭載された「らくらくホン」は、その音声の高い明瞭度が評価され、「Formula NIPPON」(フォーミュラ・ニッポン)のレーシングカーに搭載され、騒音の厳しい環境下でドライバーとピットクルー間の通話に使用されています。
さらに、2009年8月発売の「らくらくホン6」に搭載された「スーパーはっきりボイス3」では、相手の声をより聞きやすくするために、「人込み」の騒音を識別。人込みの場合は相手の声の高音域を強調し、その他の騒音の環境では「スーパーはっきりボイス2」と同様の強調をおこなうといった、周囲の騒音に合わせた適切な強調で聞きやすさのさらなる向上を実現しています。
駅のホームやショッピングセンター、ゲームセンターといった人込みは、特に、近くを通り過ぎる人の声や、場内アナウンスなど、通話相手の声と特性の似た騒音が、多数存在します。そのため、相手の声と騒音との区別がつきにくく、こうした環境では相手の声の明瞭度が低くなることが、その後の調査でわかってきました。そこで富士通研究所は、人込みであることを自動的に感知する技術を新たに開発。周囲のガヤガヤした音に対して、相手の声だけを明瞭にする機能を組み込み、今まで以上に相手の声を聞きやすくしました。

誰にでも、使いやすくするために
今回ご紹介した2つの音声処理技術は、いずれも汎用性の高い技術であり、他の様々な技術と組み合わせることで、より自然な人とのコミュニケーションを支援するコンピュータづくりに貢献する技術です。特に、「らくらくホンシリーズ」は、累計台数1,500万台を超え、数ある携帯電話のなかでも出荷台数が堅調に推移しているロングセラー製品となっています。富士通研究所では、これからも、音声の聞きやすさを追求し、より多くのお客様にご利用いただける技術の研究開発に注力していきます。
注記
- (注1) 自動音声応答システムとは :
- 企業の電話窓口で、音声ガイダンスによる自動応答をおこなうコンピュータシステム。情報提供や資料請求など、定型的な業務で利用することができ、24時間365日の対応が実現可能。
- (注2) 韻律とは :
- 声の高さ、イントネーション、リズム、ポーズなどの喋り方の特徴。
- (注3) CMOS (Comparison Mean Opinion Score) :
- ITU-T勧告P.800 Annex Eで規定されている音声品質評価方法の国際標準。評価対象音声を評価基準となる音声と聞き比べてマイナス3~プラス3の7段階の点数で評価し、複数の評価者の評価点を平均して算出する。主に、音声通信における受聴品質の評価に使われる。
関連リンク
[2009年10月1日 公開]
ジャーナル最新のテーマ
お客様の声をお聞かせください

富士通ジャーナルに掲載している記事やコンテンツについてのご意見・ご感想を、ぜひお寄せください。
お寄せいただいたご意見・ご感想については、富士通からの回答をお約束するものではありません。ご了承ください。
なお、富士通からのご回答を必要とするお問い合わせについては、
富士通ジャーナルに関するお問い合わせをご利用ください。





