更新日2005年12月12日
| 音声信号処理技術ってなんだろう | |
| 携帯電話の音声信号処理 | |
| 携帯電話「らくらくホン」の技術 ・ゆっくりボイス ・はっきりボイス |
|
| 小話 | |
| 関連ページへのリンク |

電話などで人と通話する時に、相手の声が聞き取りづらかったら誰でも困りますよね。音声信号処理とは、利用者に良い音質で通話してもらう技術です。実際に携帯電話やインターネットを使ったパソコン電話などで使われています。
私達が意識しなくても、通信機器の中で自動的に音声信号処理の仕事はおこなわれています。人間の声はマイクで録るとアナログ信号となりますが、これを機械で扱いやすくするためにデジタル信号に換えます。このデジタル信号となった音声を、ノイズなどの不要な信号を取り除いたあと、相手にスムーズに送れるように小さく圧縮して送ります。受信側では圧縮された信号を復元し、聞き取りやすく加工して、最後はアナログ信号に戻して音声として聞かせます。
このように人がより快適におしゃべり(通話)できるようにしてくれる技術です。

携帯電話では通話相手の声以外に周囲の雑音も同時に送られてきますが、できれば雑音は少ないほうが聞き取りやすいですよね。そこで音声処理技術を使って相手の声を聞きやすくしています。



携帯電話の相手の声をゆっくりさせて聞きやすくする技術です。ゆっくりさせても違和感なく会話することができて、本人の声を保ったまま聞こえます。携帯電話の中では、どのような処理がおこなわれているのでしょうか。
テープレコーダをゆっくり再生させると本人の声より低く、別人のように感じます。それは、声を単純に引伸ばして再生しているからです。 声の波形には、ピッチ(同じような波形が繰り返される周期)があります。ピッチを変えると、声の高さも変わります。この技術では、同じピッチのまま(声の高さを保ったまま)繰返すことで、本人の声のままゆっくり聞こえます。

声を引伸ばしたからといって、テレビ番組の衛星中継のようにズレてしまったら、スムーズに会話を楽しむことができません。ゆっくり再生しても楽しく会話をするために「文章中の無音(音の無い瞬間)を使って、声のはじまりをなるべくそろえる」というルールを守っています。その無音というのは、「もしもしA子です昨日はどうもありがとう」という文章の中にも、無音があります。「もしもし(無音)A子です(無音)昨日はどう もありがとう」というように隠れています。その無音の瞬間を見逃さないのが「無音検出技術」です。また、声をそろえるための無音がない場合でも、違和感を感じさせないズレの最大値を決めています。ズレが1秒以上遅延する時には、少しずつ元の速さに戻すのですが、ゆっくり感を保ちながら違和感を感じさせないように戻しかたを工夫をしています。

携帯電話の相手の声を聞き取りやすくする技術です。例えば相手の声がこもって聞こえる時、はっきりボイスをONにすると、アナウンサーのように声をはっきりさせることができます。
音声を横軸に周波数、縦軸に電力値であらわしてみると、複数の山を持つ波のような図形になります。人は電力値が高いほど聞きやすいのですが、音声は周波数が低い場合で電力値が高く、周波数が高くなるにつれて電力値は低くなる傾向があります。 これに対して、例えば図のような一定の電力値の雑音が周囲から聞こえてくると、電力値の低い音声は雑音の中に埋もれてしまいますので、主に高い周波数の電力値を高くして、人が聞きやすいようにしています。

受信したデジタルデータを周波数に変換します。次に個人の特徴を示す周波数成分を抽出し、電力値が低い部分と比較して、どれくらいの修正が必要か割り出します。そして、周波数成分を修正して、デジタルデータに戻します。この後は、アナログデータに変換して、音声として聞かせます。

私たちが普段発音する音には、有声音と無声音があります。
発音するときに、喉に手を当ててみてください。
「あー」「いー」「うー」などは、当てた手に喉の振動が伝わってくるでしょう。これが有声音です。
「すー」「つー」「ふー」などは、当てた手に何も振動が伝わってこないでしょう。これが無声音です。
その違いがわかったでしょうか。
少し難しくなりますが、声の波形には、ピッチ(繰り返し周期)というものがあります。人それぞれの声の特徴は異なりますが、ピッチの違いが、声の特徴として表れます。
例えば、ピッチが短いと高い声になり、ピッチが長いと低い声になります。
そして、有声音にはピッチが存在しますが、無声音にはピッチは存在しません。
「ゆっくりボイス」では、このピッチによる本人の声の特長が変わらないように声をゆっくりさせています。
![]() |
![]() |
![]() |
|
どういう音声が聞きやすいか、というのは人によって違うものです。
それを万人に丁度聞きやすいものにするには、どのような実験をしてデータを集めたのでしょうか。
そもそも「聞きやすさ」は人間が感じ取る感覚なので、機械で調べ、良い数値が出たからといって、必ずしも聞きやすいとは限らなかったそうです。毎日の開発では、研究員が何度も聞き比べ、聞きやすいかどうか判別 していますが、製品化までには何回か一般利用者に聞いてもらい、その意見も反映させながら、より聞きやすい音を作り上げていくそうです。
そこで、研究員とは別の一般のユーザである20代から80代の人達に「聞きやすさ」を調査しました。
その結果、ゆっくり過ぎても聞き取りづらいことが分かり、「万人に聞きやすいレベル」を見つけることができました。
