このページの本文へ移動
  1. ホーム >
  2. 経営課題へのアプローチ(富士通ジャーナル プレミアム) >
  3. 創る力・導く力 >
  4. 先端テクノロジー >
  5. 音声だけでスマートフォンから情報を取得できる技術

音声だけでスマートフォンから情報を取得できる技術

画面を見ず、触れずに、気になる情報の詳細を入手

関連カテゴリ:
ヒューマンセントリック

スマートフォン等のモバイル端末は、タッチ操作を中心に画面を見ながら利用しますが、歩行中や運転中、作業中等、目や手が放せない状況下でも、利用の必要性に迫られることがあります。こうした背景から、富士通研究所では、携帯電話やコールセンター等に実用化されている業界トップクラスの音声認識注1・音声合成注2技術を基盤に、新しい音声インターフェースの実現を目指しています。

目や手が放せない状況下の活用が期待される音声インターフェース

従来の音声インターフェースは、携帯電話・カーナビ等の組み込み製品や、電話の受け付けを自動で処理する音声応答システム等、特定用途向けに利用されていました。近年では、クラウド上の豊富な演算能力や大規模な単語辞書注3を活用した高性能な音声技術の開発が進み、音声入力で情報検索やメール作成が行える新しいサービスも登場しています。音声技術はキー入力の手間を省く等、一部の操作の利便性向上に役立っていますが、サービスの利用形態は、依然として画面を見ながらの操作が前提となっています。

これに対し、目や手が放せない状況下では、画面を見ずに、音声だけで手軽に情報が引き出せることが重要です。モバイル端末で一連の入出力が音声のみで行えるようになれば、これまでにない新たな価値の提供が期待できます。そのためには、「人が話す言葉を正しく聞く」「人が意図した通りの情報を抽出する」「情報を正しく読み上げる」という音声による応答のループをスムーズに実現する音声インターフェース技術が必要となります。

気になる言葉に呼応して最新情報を読み上げる

富士通研究所は、ユーザーが端末の画面を見ず、触れずに、音声だけで様々な情報を取得できるインターフェース技術を新たに開発しました。本技術により、例えば、スマートフォンでニュースのヘッドラインを聞いている最中に、その中の気になる言葉を発声するだけで、関連する記事の詳細を読み上げてもらえる、といった利用が可能になります(図1)。

図1 音声だけで情報を取得する利用シーンの例

本技術のポイントは次の3つです(図2)。

図2 応答のループが途切れない、レスポンスのよい音声処理

  1. 最新の時事用語・新語を自動反映
    読み方の不明な時事用語や新語をシステムが正しく読み上げ、正しく聞き取るために、インターネット上の知識を活用し、Web上に存在する様々な形式で書かれた新語のフリガナの中から、正しい読みを抽出する独自のアルゴリズムを開発しました。 抽出した新語の読みを大規模な単語辞書に自動登録し、それを音声認識辞書及び音声合成辞書に反映することで、読み間違いや誤認識の少ない音声インターフェースを可能にしました。
  2. 対話履歴を考慮して同音異義語を判断
    読み上げる情報の履歴を利用し、同音異義語による曖昧性を解消。話題にフォーカスした応答を可能にしました。 例えば、スポーツニュースのヘッドラインで読み上げた「後攻(こうこう)」という単語を含む動的辞書を、サーバ上で高速生成しておきます。これを聞いたユーザーが「こうこう」と言えば、汎用辞書中の他の「高校」や「航行」等の同音異義語よりも動的辞書の単語を優先することで、ユーザーが意図したニュースを読み上げます。
  3. 快適な体感レスポンスを実現
    サーバ上の音声処理や、データ通信にかかる遅延を低減し、さらに通知音等を工夫することで単体の組み込み製品と同等の快適な体感レスポンスを実現しました。 音声データを小単位に分割し、ダウンロードしながら端末で再生することにより、遅延を吸収しています。また、サーバの動作状況を通知音やメッセージでユーザーに伝え、体感的な待ち時間を減らしています。

「SPATIOWL(スペーシオウル)」の音声処理サービス実用化に向けて

今後、モバイル端末等で本技術を活用すれば、歩行中や運転中等、画面が見づらい状況下でもニュースやメールの利用が可能になります。また、博物館等において、音声ガイダンスや展示説明の中の言葉を来場者が話すと、詳細情報が提供される、といった新しいサービスにもつながります。

現在、富士通の位置情報クラウドサービス「SPATIOWL注4(スペーシオウル)」の音声処理サービスとしての実証実験を行っており、2012年度中には、お客様・パートナー様が展開される車両・モバイル向け移動支援サービスへの適用を目指しています。

注記

(注1)音声認識 :
コンピュータで人が喋った内容を聞き取る(テキストに変換する)技術。
(注2)音声合成 :
コンピュータでテキストから人の声(読み上げ音声)を人工的に作り出す技術。
(注3)単語辞書 :
単語の表記・読み・品詞等の情報が登録されているデータセット。日本語では、音声合成における漢字の読みの解析や、音声認識におけるユーザー発声と単語の対応付け等に利用される。
(注4)SPATIOWL :
様々なセンサーや車両から収集した位置情報を活用したクラウドサービス。

[2012年2月7日 公開]

関連リンク

ソリューション&サービス

プレスリリース

PDF のリンク先をご覧になるには、アドビ システムズ社のAdobe® Reader® (無償) が必要です。

Adobe® Reader® ダウンロードページ Get ADOBE READER


この記事に関連するカテゴリー

メッセージ・トレンド・経営課題別

メッセージ別


最新事例

栗本鐵工所様

栗本鐵工所様が、富士通とともに取り組んだ、グローバル競争を勝ち抜くための「遠隔保守」についてご紹介します。

NKSJひまわり生命保険様

NKSJひまわり生命保険株式会社様が、富士通とともに取り組んだ、システム連携基盤を活用し実現した、統合コストの最小化についてご紹介します。



新製品やサービス、無料セミナー、イベント情報が満載の無料メールマガジン「富士通BizNews」のお申し込みはこちらから。

富士通BizNews お申し込みはこちら!

ソリューション・製品および本サイトに関するお問い合わせ/ご意見・ご要望

Webでのお問い合わせ

お問い合わせ ご意見・ご要望

当社はセキュリティ保護の観点からSSL技術を使用しております。

お電話でのお問い合わせ

0120-933-200 富士通コンタクトライン(総合窓口)

受付時間 9時~17時30分
(土曜・日曜・祝日・当社指定の休業日を除く)