音声合成システムはどんな日本語でも音声にしなければなりません。そもそも日本語にはどれくらいの音があるのでしょうか。普通「日本語50音」といいます。でもこれには「が」や「ぱ」などの濁音と半濁音、「きゃ」などの拗音が含まれていません。その他に「ファイル」の「ファ」、「ジェット機」の「ジェ」など、外来語を発音するための音も必要です。そういう音を入れると、全部で150~200音節の音声を用意しなくてはいけません。(この数は正確にきまっていません、システムによって異なります)
さて、次に「青い」と「赤い」という言葉を考えてください。先頭の音はどちらも「あ」ですが、実はその音声波形を比べるとずいぶん違います。「青い」の「あ」の音の後ろのほうは、ちょっと「お」の音にも近づき、「赤い」の「あ」の音の後ろの方は「か」を発音するための準備をしています。日本語は1音節で色々な波形をもっています。富士通の合成音声では、全部で約5000個の波形を用意しています。それだけの波形を用意するには、沢山の音声データが必要になります。この音声データを収録するのに全部で24時間かかりました(ずっとしゃべっていると疲れてきますから、毎日少しずつ録音して、その合計時間が24時間)。それに、その音声データの内、どの波形をどういう風に使うか、人間が音声を聞いたり、波形を目で見たりして決めますが、その作業に3ヶ月かかりました。このような大変な作業の結果、品質の高い音声合成ができるようになったのです。
最近、「彼女」「かなり」などの言葉をアクセントを付けずに話しているのを聞いて、違和感を感じたことはありませんか?でもこれは不思議なことではありません。例えば「電車」という言葉、本来は「で’んしゃ」と「で」にアクセントを付けるものでしたが、今では「でんしゃ」とアクセントを付けずに言っても、あまり違和感がありません。人はその言葉に慣れ親しんでいくうちに、アクセントなしで平坦に言うようになっていく傾向があるようです。コンピュータをよく使う人は「ファイル」「コマンド」などの言葉を平坦に読みますよね。このようにして、日本語のアクセントはどんどんなくなり、抑揚を付けないように話すという説があります。「新版NHK日本語発音アクセント辞典」という言葉のアクセントを記した辞書があります。合成音声では今のところ、これに見習ってアクセントをつけていますが、どんどん変わっていくアクセントに対応していかなければいけません。新しい言葉も増え、今ある言葉のアクセントが変わってくると、もしあなたが100年後の日本語を聞くことができても、全く理解できないかもしれませんね。
男性と女性の声はどのように違うのでしょう。女性のほうが高い声だというのは想像がつくと思いますが、その他に声道のかたちの違いが影響(声はどのようにして出るのでしょうを参照してください)してきます。女性の声道は男性の約3分の2しかないので、声道での音の響き方が変わり、その結果として発声される音声に含まれている周波数成分が違ってきます。(音声は色々な周波数の音が交じり合っていて、それを周波数成分といいます。その違いによって音質が変わってくるのです。犯罪捜査に使われる声紋はこの周波数成分を表したものです。)合成音声では音の高さを自由に変えることができます。でも男性の声を高くしていっても女性の声にはなりません。やっぱり男性が無理して高い声でしゃべっている声になります。それに男性と同じイントネーションで女性の声を合成しても、淡々と情報を伝えているだけで、女性らしい声にはなりません。やはり、イントネーションの中にも男性らしさ、女性らしさがあるようです。
