- 音声だけでスマートフォンから情報を取得できる技術

スマートフォン等のモバイル端末は、タッチ操作を中心に画面を見ながら利用しますが、歩行中や運転中、作業中等、目や手が放せない状況下でも、利用の必要性に迫られることがあります。こうした背景から、富士通研究所では、携帯電話やコールセンター等に実用化されている業界トップクラスの音声認識(注1)・音声合成(注2)技術を基盤に、新しい音声インターフェースの実現を目指しています。
従来の音声インターフェースは、携帯電話・カーナビ等の組み込み製品や、電話の受け付けを自動で処理する音声応答システム等、特定用途向けに利用されていました。近年では、クラウド上の豊富な演算能力や大規模な単語辞書(注3)を活用した高性能な音声技術の開発が進み、音声入力で情報検索やメール作成が行える新しいサービスも登場しています。音声技術はキー入力の手間を省く等、一部の操作の利便性向上に役立っていますが、サービスの利用形態は、依然として画面を見ながらの操作が前提となっています。
これに対し、目や手が放せない状況下では、画面を見ずに、音声だけで手軽に情報が引き出せることが重要です。モバイル端末で一連の入出力が音声のみで行えるようになれば、これまでにない新たな価値の提供が期待できます。そのためには、「人が話す言葉を正しく聞く」「人が意図した通りの情報を抽出する」「情報を正しく読み上げる」という音声による応答のループをスムーズに実現する音声インターフェース技術が必要となります。
富士通研究所は、ユーザーが端末の画面を見ず、触れずに、音声だけで様々な情報を取得できるインターフェース技術を新たに開発しました。本技術により、例えば、スマートフォンでニュースのヘッドラインを聞いている最中に、その中の気になる言葉を発声するだけで、関連する記事の詳細を読み上げてもらえる、といった利用が可能になります(図1)。

本技術のポイントは次の3つです(図2)。

今後、モバイル端末等で本技術を活用すれば、歩行中や運転中等、画面が見づらい状況下でもニュースやメールの利用が可能になります。また、博物館等において、音声ガイダンスや展示説明の中の言葉を来場者が話すと、詳細情報が提供される、といった新しいサービスにもつながります。
現在、富士通の位置情報クラウドサービス「SPATIOWL(注4)(スペーシオウル)」の音声処理サービスとしての実証実験を行っており、2012年度中には、お客様・パートナー様が展開される車両・モバイル向け移動支援サービスへの適用を目指しています。
[2012年2月7日 公開]
[先端テクノロジー]
のリンク先をご覧になるには、アドビ システムズ社のAdobe® Reader® (無償) が必要です。
栗本鐵工所様が、富士通とともに取り組んだ、グローバル競争を勝ち抜くための「遠隔保守」についてご紹介します。
NKSJひまわり生命保険株式会社様が、富士通とともに取り組んだ、システム連携基盤を活用し実現した、統合コストの最小化についてご紹介します。