富士通研究所

サイトマップ

Japan

ホーム | English

印刷用

元のページへ戻る

  1. ホーム >
  2. 技術情報 >
  3. やさしい技術講座 >
  4. 講座一覧 >
  5. 音声信号処理技術(携帯電話)

更新日2005年12月12日


音声信号処理技術(携帯電話)

目次

音声信号処理技術ってなんだろう
携帯電話の音声信号処理
携帯電話「らくらくホン」の技術
・ゆっくりボイス
・はっきりボイス
小話
関連ページへのリンク


音声信号処理技術ってなんだろう

電話などで人と通話する時に、相手の声が聞き取りづらかったら誰でも困りますよね。音声信号処理とは、利用者に良い音質で通話してもらう技術です。実際に携帯電話やインターネットを使ったパソコン電話などで使われています。

音声信号処理の仕事ってどんなことかな

私達が意識しなくても、通信機器の中で自動的に音声信号処理の仕事はおこなわれています。人間の声はマイクで録るとアナログ信号となりますが、これを機械で扱いやすくするためにデジタル信号に換えます。このデジタル信号となった音声を、ノイズなどの不要な信号を取り除いたあと、相手にスムーズに送れるように小さく圧縮して送ります。受信側では圧縮された信号を復元し、聞き取りやすく加工して、最後はアナログ信号に戻して音声として聞かせます。
このように人がより快適におしゃべり(通話)できるようにしてくれる技術です。


携帯電話の音声信号処理

携帯電話では通話相手の声以外に周囲の雑音も同時に送られてきますが、できれば雑音は少ないほうが聞き取りやすいですよね。そこで音声処理技術を使って相手の声を聞きやすくしています。

携帯電話のしくみ

送信側

  1. 人の声をアナログ信号からデジタル信号に変換します。
  2. 邪魔になる音(ノイズやエコー)をカットして、音質をよくします。
  3. 信号を伝送しやすいように圧縮して送ります。

受信側

  1. 圧縮されて送られてきたデータを復元します。
  2. 聞き取りやすいように音声をゆっくりにしたり、はっきりした声に加工します。
  3. デジタル信号からアナログ信号へ変換し、人が聞き取れるようにします。

携帯電話「らくらくホン」の「ゆっくりボイス」

携帯電話の相手の声をゆっくりさせて聞きやすくする技術です。ゆっくりさせても違和感なく会話することができて、本人の声を保ったまま聞こえます。携帯電話の中では、どのような処理がおこなわれているのでしょうか。

伸ばしてもアナタの声 「音声伸長技術」

テープレコーダをゆっくり再生させると本人の声より低く、別人のように感じます。それは、声を単純に引伸ばして再生しているからです。 声の波形には、ピッチ(同じような波形が繰り返される周期)があります。ピッチを変えると、声の高さも変わります。この技術では、同じピッチのまま(声の高さを保ったまま)繰返すことで、本人の声のままゆっくり聞こえます。

ゆっくり再生しても会話がズレない 「遅延制御技術」と音のない瞬間を見逃さない「無音検出技術」

声を引伸ばしたからといって、テレビ番組の衛星中継のようにズレてしまったら、スムーズに会話を楽しむことができません。ゆっくり再生しても楽しく会話をするために「文章中の無音(音の無い瞬間)を使って、声のはじまりをなるべくそろえる」というルールを守っています。その無音というのは、「もしもしA子です昨日はどうもありがとう」という文章の中にも、無音があります。「もしもし(無音)A子です(無音)昨日はどう もありがとう」というように隠れています。その無音の瞬間を見逃さないのが「無音検出技術」です。また、声をそろえるための無音がない場合でも、違和感を感じさせないズレの最大値を決めています。ズレが1秒以上遅延する時には、少しずつ元の速さに戻すのですが、ゆっくり感を保ちながら違和感を感じさせないように戻しかたを工夫をしています。


携帯電話「らくらくホン」の「はっきりボイス」

携帯電話の相手の声を聞き取りやすくする技術です。例えば相手の声がこもって聞こえる時、はっきりボイスをONにすると、アナウンサーのように声をはっきりさせることができます。

どうやって声をはっきりさせているのかな(概要)

音声を横軸に周波数、縦軸に電力値であらわしてみると、複数の山を持つ波のような図形になります。人は電力値が高いほど聞きやすいのですが、音声は周波数が低い場合で電力値が高く、周波数が高くなるにつれて電力値は低くなる傾向があります。 これに対して、例えば図のような一定の電力値の雑音が周囲から聞こえてくると、電力値の低い音声は雑音の中に埋もれてしまいますので、主に高い周波数の電力値を高くして、人が聞きやすいようにしています。

どうやって声をはっきりさせているのかな(詳細)

受信したデジタルデータを周波数に変換します。次に個人の特徴を示す周波数成分を抽出し、電力値が低い部分と比較して、どれくらいの修正が必要か割り出します。そして、周波数成分を修正して、デジタルデータに戻します。この後は、アナログデータに変換して、音声として聞かせます。


小話

「ゆっくりボイス」で必要になる「有声音」について

私たちが普段発音する音には、有声音と無声音があります。
発音するときに、喉に手を当ててみてください。
「あー」「いー」「うー」などは、当てた手に喉の振動が伝わってくるでしょう。これが有声音です。
「すー」「つー」「ふー」などは、当てた手に何も振動が伝わってこないでしょう。これが無声音です。
その違いがわかったでしょうか。
少し難しくなりますが、声の波形には、ピッチ(繰り返し周期)というものがあります。人それぞれの声の特徴は異なりますが、ピッチの違いが、声の特徴として表れます。
例えば、ピッチが短いと高い声になり、ピッチが長いと低い声になります。
そして、有声音にはピッチが存在しますが、無声音にはピッチは存在しません。
「ゆっくりボイス」では、このピッチによる本人の声の特長が変わらないように声をゆっくりさせています。


音の聞きやすさの市場調査

どういう音声が聞きやすいか、というのは人によって違うものです。
それを万人に丁度聞きやすいものにするには、どのような実験をしてデータを集めたのでしょうか。
そもそも「聞きやすさ」は人間が感じ取る感覚なので、機械で調べ、良い数値が出たからといって、必ずしも聞きやすいとは限らなかったそうです。毎日の開発では、研究員が何度も聞き比べ、聞きやすいかどうか判別 していますが、製品化までには何回か一般利用者に聞いてもらい、その意見も反映させながら、より聞きやすい音を作り上げていくそうです。
そこで、研究員とは別の一般のユーザである20代から80代の人達に「聞きやすさ」を調査しました。
その結果、ゆっくり過ぎても聞き取りづらいことが分かり、「万人に聞きやすいレベル」を見つけることができました。


関連ページへのリンク

研究紹介

  • 画像・音声処理、 PDF 「音声信号処理技術」(235KB /A4・1ページ)

プレスリリース

  • 携帯電話初の「ゆっくりボイスⅡ」機能を搭載した「FOMAらくらくホン」のテレビCMが9月1日よりオンエア開始 (2005年8月30日)
  • 「FOMAらくらくホンⅡ」新発売~携帯電話初 通話の声が聞き取りやすい「ゆっくりボイス」搭載~ (2005年8月9日)

製品紹介

  • FMWORLD(携帯電話)FOMAらくらくホンⅡ