更新日2001年2月1日
音声合成とは、人間が話す声をコンピュータで作り出すことです。
| 声はどのようにしてでるのでしょう | |
| 原理 ・波形編集方式 ・コーパスベース方式 |
|
| 先端技術 | |
| 特長 | |
| 小話 | |
| おまけ1(人間と音声合成の聞き比べ)、答え | |
| おまけ2(音声合成による歌) |



任意の文章に「読み・間・アクセント」をつけ、「波形同士のつなぎを滑らかにする技術」を使うことにより、自然な合成音声を作ります。
カーナビや電子メールの読み上げなどに使用されています。



もっと詳しく知りたい方へ(雑誌FUJITSU)
任意の文章(長文)を、自由に合成でき、より自然な合成音声を作ります。
(コーパスとは、沢山のデータが入ったデータベースの事です)
電話・Faxによる応答サービス(チケット予約など)や電子メール・ホームページの読み上げに使用されています。(FMV2000年・冬モデルに搭載)




「Inspirium音声合成ライブラリ」として、コーパスベース方式使用の製品が販売されています。
従来、音声合成は無表情なものでした。より人間らしさの追求、また、電話応対システムなどユーザとの音声対話を行うシステムが増える世の中、感情を表現できる合成音声ができれば・・・どんなにいいだろう。音声合成の技術は、今まさに自由自在に感情表現できる合成音声が可能になりつつあります。
近い将来こんなものができるかもしれません。



波形編集方式を採用しています。
ナレーターの声を一文字ごとに切り波形に変えて、つなぎ合わせて音声をつくる方式です。

富士通では国内トップクラスのデータ量を保持しています。これが、読み間違いが少ない理由です。
私は日本人です。このとき「ハ」ではなく「ワ」と発音します。

音声合成システムはどんな日本語でも音声にしなければなりません。そもそも日本語にはどれくらいの音があるのでしょうか。普通「日本語50音」といいます。でもこれには「が」や「ぱ」などの濁音と半濁音、「きゃ」などの拗音が含まれていません。その他に「ファイル」の「ファ」、「ジェット機」の「ジェ」など、外来語を発音するための音も必要です。そういう音を入れると、全部で150~200音節の音声を用意しなくてはいけません。(この数は正確にきまっていません、システムによって異なります)
さて、次に「青い」と「赤い」という言葉を考えてください。先頭の音はどちらも「あ」ですが、実はその音声波形を比べるとずいぶん違います。「青い」の「あ」の音の後ろのほうは、ちょっと「お」の音にも近づき、「赤い」の「あ」の音の後ろの方は「か」を発音するための準備をしています。日本語は1音節で色々な波形をもっています。富士通の合成音声では、全部で約5000個の波形を用意しています。それだけの波形を用意するには、沢山の音声データが必要になります。この音声データを収録するのに全部で24時間かかりました(ずっとしゃべっていると疲れてきますから、毎日少しずつ録音して、その合計時間が24時間)。それに、その音声データの内、どの波形をどういう風に使うか、人間が音声を聞いたり、波形を目で見たりして決めますが、その作業に3ヶ月かかりました。このような大変な作業の結果、品質の高い音声合成ができるようになったのです。
最近、「彼女」「かなり」などの言葉をアクセントを付けずに話しているのを聞いて、違和感を感じたことはありませんか?でもこれは不思議なことではありません。例えば「電車」という言葉、本来は「で’んしゃ」と「で」にアクセントを付けるものでしたが、今では「でんしゃ」とアクセントを付けずに言っても、あまり違和感がありません。人はその言葉に慣れ親しんでいくうちに、アクセントなしで平坦に言うようになっていく傾向があるようです。コンピュータをよく使う人は「ファイル」「コマンド」などの言葉を平坦に読みますよね。このようにして、日本語のアクセントはどんどんなくなり、抑揚を付けないように話すという説があります。「新版NHK日本語発音アクセント辞典」という言葉のアクセントを記した辞書があります。合成音声では今のところ、これに見習ってアクセントをつけていますが、どんどん変わっていくアクセントに対応していかなければいけません。新しい言葉も増え、今ある言葉のアクセントが変わってくると、もしあなたが100年後の日本語を聞くことができても、全く理解できないかもしれませんね。
男性と女性の声はどのように違うのでしょう。女性のほうが高い声だというのは想像がつくと思いますが、その他に声道のかたちの違いが影響(声はどのようにして出るのでしょうを参照してください)してきます。女性の声道は男性の約3分の2しかないので、声道での音の響き方が変わり、その結果として発声される音声に含まれている周波数成分が違ってきます。(音声は色々な周波数の音が交じり合っていて、それを周波数成分といいます。その違いによって音質が変わってくるのです。犯罪捜査に使われる声紋はこの周波数成分を表したものです。)合成音声では音の高さを自由に変えることができます。でも男性の声を高くしていっても女性の声にはなりません。やっぱり男性が無理して高い声でしゃべっている声になります。それに男性と同じイントネーションで女性の声を合成しても、淡々と情報を伝えているだけで、女性らしい声にはなりません。やはり、イントネーションの中にも男性らしさ、女性らしさがあるようです。

音声合成の音はどちらでしょうか。AボタンかBボタンのどちらかを押してください。
ボタンを押すと音声が流れます。(RealAudioはプラグインが必要です)





