- 会話からキーワードのみを検出する音声認識技術 事前学習なく高速・高精度な音声検索を実現
富士通研究所は、ワードスポッティングの技術を応用し、会話からリアルタイムでキーワードを検出する技術や音声ファイルにインデックスを付ける技術を開発。コールセンター業務などへ音声検索サービスの短期導入・コスト削減に貢献しています。
カーナビや携帯電話のハンズフリー操作、サポート窓口の自動音声応答システムなど、私たちの生活シーンには、音声を用いたサービスが多く提供されています。しかしこうしたサービスはいずれも、機械が認識できる言葉をあらかじめ登録して、その言葉だけを人が機械のタイミングにあわせて発話する必要がありました。
富士通研究所では、音声認識を人にやさしい技術にするために、こうした制約を排除し、自由な発話を認識できる技術が求められていると考えました。私たちが自然な会話をしていても、常に傍らで見守り、必要時だけサポートする音声認識技術であれば、今までにない音声サービスの可能性が広がります。
機械を私たちの自然な会話に対応させるには、従来、辞書や言語モデル(単語と単語のつながりやすさを確率で表したもの)を構築し、機械に事前学習させた上で、人の会話をすべて抽出して文章化する、という手法があります。しかしこの方法では、事前学習にかかる時間と費用が膨大になります。そこで富士通研究所は、事前学習を必要とせず、会話の中のキーワードだけを抽出する「ワードスポッティング(注1)」という音声技術に着目しました。
ワードスポッティング技術による音声サービスとして、富士通研究所がまずターゲットとしたのは、コールセンターです。多くのコールセンターでは、コンプライアンスの観点から、通話をすべて録音しています。ところが、全オペレーターの通話をモニタリングして問題に対処したり、監視が必要と思われる通話をピンポイントで取り出したりするといった活用までには至らず、日々増え続ける録音データを管理しきれていないというのが実情です。
こうした状況から、富士通研究所は、音声を簡単に検索できる仕組みがコールセンターには必要であると考え、ワードスポッティング技術を用いて、オペレーターの発話からキーワードを検出して通知する技術及び、録音データにインデックスを付けて音声検索を可能にする技術を開発しました。いずれの技術も、検出したい言葉を登録するキーワードリストをユーザーが容易に作成することができ、追加・削除などのメンテナンスも随時おこなえます。

以下に開発した二つの技術について説明します。
本技術は、オペレーターの発話のうち、キーワードリストに登録した言葉にマッチングした発話のみを拾い出して画面にリアルタイムで表示できます。例えば、証券会社の売買窓口において、オペレーターが顧客に必ず説明しなければならない項目の言葉や、逆に言ってはならないNGワード(例:保証します)をキーワードリストに登録しておきます。これにより、バックヤードのスーパーバイザーは、画面に表示されるキーワードから問題のある通話を見つけ出し、すぐにオペレーターに指示を出すことができます。

本技術は、録音データとキーワードリストをマッチングし、キーワードが出現する箇所にインデックスを付け、音声波形のタイムライン上に表示します。ユーザーは、タイムラインを動かしてキーワードに登録した言葉の有無を確認したり、聴取したい検出キーワードをクリックすることにより、音声の頭出し再生ができます。

本技術は、次のようなアプリケーションや技術との連携によって高速化・高精度化をはかっています。
発話の中から誤認識しやすい不要な類似語を除きキーワードを高精度に認識できます。例えば、「和歌山県」という言葉をキーワードに登録した場合、音が似ている「岡山県」を誤って検出することのないように、類似語を除去します。従来の機械に登録し事前学習させる手法を使ってこの処理をおこなうと、登録してあるデータの内容に精度が制限されてしまうため、独自技術により、システム側で類似語を自動生成しています。
富士通研究所では、数千人規模の音声から集めた波形データを基に、不特定話者が発話した「あ」という発話を、「あ」という音としてマッチングするための音響モデル(音の特徴をモデル化したもの)を独自に開発しています。今回はさらにこの技術をキーワード単位でマッチングできるように改良をはかりました。これにより、不特定話者が発話するキーワードを、電話音質(サンプリング周波数8kHz)で認識します。
音声ファイルのインデックス付けを、録音時間の数十分の一の時間で高速に処理できます(インテルXeonプロセッサモデルのサーバ利用時)。1日分の全オペレーターの通話データを夜のうちにバッチ処理しておき、翌日確認する、といった運用に利用できます。
周囲に雑音のある環境下でも音声認識できるよう、雑音波形のモデルを推定して雑音を抑圧したり、雑音は雑音として認識させることで雑音の影響を軽減するなど、コールセンターでの利用を想定した雑音対策をおこなっています。
本技術は、株式会社アニモ(注2)の日本初キーワード型音声検索ソフトウェア「VoiceTracking/KeywordFinder(ボイストラッキングキーワードファインダー)」において、NGワードや販促用ワードの検出、FAQ自動表示などのエンジンとして採用され、金融機関・流通・サービスを始めとするコールセンターに導入されています。
また一方では、振り込め詐欺防止に向けた取り組みも始まっています。本技術を、人間の声の調子を検出する技術と組み合わせることで、被害者の異常な心理状態での発話や行動を検出し、被害者に注意喚起するための仕組みを、国立大学法人 名古屋大学と富士通で共同研究(注3)しています。
今後は、マーケティング活動への適用、さらにはICレコーダなどの小型端末への搭載も視野に入れ、引き続き速度や精度の向上と機能強化をはかっていきます。
[2010年11月1日 公開]
栗本鐵工所様が、富士通とともに取り組んだ、グローバル競争を勝ち抜くための「遠隔保守」についてご紹介します。
NKSJひまわり生命保険株式会社様が、富士通とともに取り組んだ、システム連携基盤を活用し実現した、統合コストの最小化についてご紹介します。