富士通研究所

サイトマップ

Japan

ホーム | English

印刷用

元のページへ戻る

  1. ホーム >
  2. 技術情報 >
  3. やさしい技術講座 >
  4. 講座一覧 >
  5. 音声合成

更新日2001年2月1日


音声合成

音声合成とは、人間が話す声をコンピュータで作り出すことです。

目次

声はどのようにしてでるのでしょう
原理
・波形編集方式
・コーパスベース方式
先端技術
特長
小話
おまけ1(人間と音声合成の聞き比べ)、答え
おまけ2(音声合成による歌)


声はどのようにしてでるのでしょう

声帯の中では、まだブザーのような音の高低しかわかりません

原理-音声合成の流れ-

まず言語処理部で、漢字かな混じり文を解析して、かな文字列抑制情報を作ります。次に、音響処理部で音声波形を組み合わせて自然な合成音声を作ります。そして合成した音声を発します

原理-波形編集方式-

任意の文章に「読み・間・アクセント」をつけ、「波形同士のつなぎを滑らかにする技術」を使うことにより、自然な合成音声を作ります。

どこに使われているのでしょう

カーナビや電子メールの読み上げなどに使用されています。


どうやって合成しているのかな

1番任意の文章を入力、2番言語処理部で文章の間やアクセントをつけます。3番音響処理部で音声データを辞書から選び、文字と文字を滑らかにつなげるようにします。4番合成した音を発します
スピーカーのアイコンをクリックしてください。例文を読み上げる合成音を聞くことができます

もっと詳しく知りたい方へ(雑誌FUJITSU)


原理-コーパスベース方式-

任意の文章(長文)を、自由に合成でき、より自然な合成音声を作ります。
(コーパスとは、沢山のデータが入ったデータベースの事です)

どこに使われているのでしょう

電話・Faxによる応答サービス(チケット予約など)や電子メール・ホームページの読み上げに使用されています。(FMV2000年・冬モデルに搭載)


どうやって合成しているのかな

前のページの波長編集方式との違いは音響処理部で音声データを辞書から選ぶ際に波長編集方式はひと文字ずつ選びます。コーパスベース方式の場合は、より長くつなぎあわせやすいものを辞書から選びます。たとえば、箸で食べる、という文章の場合、ハとシでわけずに、はし、と認識します
スピーカーのアイコンをクリックしてください。例文を読み上げる合成音を聞くことができます

「Inspirium音声合成ライブラリ」として、コーパスベース方式使用の製品が販売されています。


先端技術

将来

従来、音声合成は無表情なものでした。より人間らしさの追求、また、電話応対システムなどユーザとの音声対話を行うシステムが増える世の中、感情を表現できる合成音声ができれば・・・どんなにいいだろう。音声合成の技術は、今まさに自由自在に感情表現できる合成音声が可能になりつつあります。
近い将来こんなものができるかもしれません。

口下手なあなたの代わりにラブレターを読み上げてくれたり、子供達に童話を読み上げてくれたり

感情を加えた音声合成

スピーカーのアイコンをクリックしてください。感情を加えた合成音を聞くことができます

富士通技術の特長

自然な合成音

波形編集方式を採用しています。
ナレーターの声を一文字ごとに切り波形に変えて、つなぎ合わせて音声をつくる方式です。

機械的でなく、肉声に近い音声です

読み間違いが少ない

富士通では国内トップクラスのデータ量を保持しています。これが、読み間違いが少ない理由です。

私は日本人です。このとき「ハ」ではなく「ワ」と発音します。


小話-開発者の苦労話-

音声の収録はこんなにかかる

音声合成システムはどんな日本語でも音声にしなければなりません。そもそも日本語にはどれくらいの音があるのでしょうか。普通「日本語50音」といいます。でもこれには「が」や「ぱ」などの濁音と半濁音、「きゃ」などの拗音が含まれていません。その他に「ファイル」の「ファ」、「ジェット機」の「ジェ」など、外来語を発音するための音も必要です。そういう音を入れると、全部で150~200音節の音声を用意しなくてはいけません。(この数は正確にきまっていません、システムによって異なります)

さて、次に「青い」と「赤い」という言葉を考えてください。先頭の音はどちらも「あ」ですが、実はその音声波形を比べるとずいぶん違います。「青い」の「あ」の音の後ろのほうは、ちょっと「お」の音にも近づき、「赤い」の「あ」の音の後ろの方は「か」を発音するための準備をしています。日本語は1音節で色々な波形をもっています。富士通の合成音声では、全部で約5000個の波形を用意しています。それだけの波形を用意するには、沢山の音声データが必要になります。この音声データを収録するのに全部で24時間かかりました(ずっとしゃべっていると疲れてきますから、毎日少しずつ録音して、その合計時間が24時間)。それに、その音声データの内、どの波形をどういう風に使うか、人間が音声を聞いたり、波形を目で見たりして決めますが、その作業に3ヶ月かかりました。このような大変な作業の結果、品質の高い音声合成ができるようになったのです。

アクセントがなくなっていく

最近、「彼女」「かなり」などの言葉をアクセントを付けずに話しているのを聞いて、違和感を感じたことはありませんか?でもこれは不思議なことではありません。例えば「電車」という言葉、本来は「で’んしゃ」と「で」にアクセントを付けるものでしたが、今では「でんしゃ」とアクセントを付けずに言っても、あまり違和感がありません。人はその言葉に慣れ親しんでいくうちに、アクセントなしで平坦に言うようになっていく傾向があるようです。コンピュータをよく使う人は「ファイル」「コマンド」などの言葉を平坦に読みますよね。このようにして、日本語のアクセントはどんどんなくなり、抑揚を付けないように話すという説があります。「新版NHK日本語発音アクセント辞典」という言葉のアクセントを記した辞書があります。合成音声では今のところ、これに見習ってアクセントをつけていますが、どんどん変わっていくアクセントに対応していかなければいけません。新しい言葉も増え、今ある言葉のアクセントが変わってくると、もしあなたが100年後の日本語を聞くことができても、全く理解できないかもしれませんね。

男性の声と女性の声はどこが違うのでしょう

男性と女性の声はどのように違うのでしょう。女性のほうが高い声だというのは想像がつくと思いますが、その他に声道のかたちの違いが影響(声はどのようにして出るのでしょうを参照してください)してきます。女性の声道は男性の約3分の2しかないので、声道での音の響き方が変わり、その結果として発声される音声に含まれている周波数成分が違ってきます。(音声は色々な周波数の音が交じり合っていて、それを周波数成分といいます。その違いによって音質が変わってくるのです。犯罪捜査に使われる声紋はこの周波数成分を表したものです。)合成音声では音の高さを自由に変えることができます。でも男性の声を高くしていっても女性の声にはなりません。やっぱり男性が無理して高い声でしゃべっている声になります。それに男性と同じイントネーションで女性の声を合成しても、淡々と情報を伝えているだけで、女性らしい声にはなりません。やはり、イントネーションの中にも男性らしさ、女性らしさがあるようです。


おまけ1-人間の声と機械の声の違いがわかるかな-

音声合成の音はどちらでしょうか。AボタンかBボタンのどちらかを押してください。
ボタンを押すと音声が流れます。(RealAudioはプラグインが必要です)

こちらがウェブ形式のAボタンです。押してください

こちらがウェブ形式のBボタンです。押してください

答えはこちらのアイコンを押してください。

おまけ1-答え-

正解はAが音声合成です

おまけ2-歌だって唄えるんです-

音声合成で歌う「パーソナルシステム研究所の歌」です。どうぞお聞きください
リアルオーディオ形式です。ボタンを押すと歌が流れます。