富士通ソフトウェアテクノロジーズ

  1. ホーム >
  2. 製品 & サービス >
  3. Inspirium >
  4. Inspirium 音声認識ライブラリ

Inspirium (インスピリアム) 音声認識ライブラリ V2.0

Inspirium 音声認識ライブラリ」は、組込み機器上で動作するアプリケーションプログラムに、音声認識の機能を提供するC言語インターフェースのライブラリです。
事前の音声登録手続きや、学習をせずに、任意の発話者の自然な発話を認識します。

| 特長 | 機能 | 動画 | 構成 | 導入実績 | 製番・サービス | 仕様  |

特長

  • 雑音環境下でも高い認識性能
    • 背景雑音対策(区間検出、雑音抑圧)を施した音響処理技術
    • 複数の実環境下で収録した音声データを基に照合用モデル(音声辞書)を開発
  • 正確な数字認識
    • 実環境下での数字音声データから照合用モデルを作成し、数字(電話番号、製品番号など)認識を強化
  • 電話音声認識での実績
    • 電話音声認識で業界トップレベルの認識性能
    • 音声ポータル、業務支援システムに採用

高い認識性能が実現可能な理由

  1. 本ライブラリは、下図のように音声をマイクより入力し、その発話内容を認識し、認識結果をアプリケーションプログラムに返却します。
     
  2. 認識する内容については認識文法を定義するツールによりお客様自身が作成することができます。認識語彙数については簡単な数語程度のコマンドから十万を越える全国住所まで使用可能な資源量に応じて定義することが可能です。
     
  3. 認識を行なう際に重要なパラメタとなる感度、信頼度の閾値、発話終了を判定するための無音時間などを使用環境に合わせて容易に設定することができます。
    例えば、極めて高い雑音環境においては雑音を誤って認識することが頻繁に発生することがありえます。このような環境でも、雑音棄却率を高めるようにパラメタを調整することにより、高い認識性能を実現することが可能となります。
高い認識性能を実現可能にする処理イメージ

機能

  • 雑音除去機能
    独自の雑音除去技術により高い精度で雑音を除去し、正確な音声区間を抽出することができます。家庭、車内等の生活環境および、オフィス、工場等の作業環境においても、高い認識性能を実現できます。
  • Nベスト
    一回の認識で複数の認識結果をアプリケーションプログラムに返却することができます。例えば、類似語など複数の認識結果から絞込みを行うことで、発話者の負担を軽減しスムーズな音声入力を行うことができます。
  • 入力音声品質通知機能
    入力音声の品質に関する情報を通知することができます。例えば、入力音声のレベルが過大/過小の場合にアプリケーションプログラムに通知することで、発話者に認識し易い発話を促すことができます。
  • XML形式の認識文法
    認識文法をXML形式で記述することが可能なため、認識語彙の追加/削除を容易に行うことができます。認識文法はアプリケーション実行中に動的に切り替えることが可能で、複数の文法を同時に使うこともできます。また、認識文法毎に重要度に応じての重み付けを設定でき、複数の認識結果を返却できます。

音声認識紹介動画

幹線道路ノイズ環境下における
擬似的な音声認識実験
ムービーを再生します [21.3MB]

構成

Inspirium 音声認識ライブラリを利用した場合の構成、および、データの流れは以下のとおりです。

構成とデータの流れ図
  1. 音声入力部へ音声が入力されます。
  2. 音声入力部がアプリケーションに、音声ストリームを渡します。
  3. アプリケーションがInspirium 音声認識ライブラリに、音声ストリームを渡します。
  4. Inspirium 音声認識ライブラリが認識結果を出力します。

導入実績

  • 検査業務における音声入力サービスを提供
  • 音声ポータルにおける情報提供サービス

製品・サービス

製品・サービス名 内容
音声認識ライブラリコア組込み お客様の組込み機器に組込み可能な音声認識ライブラリコアを提供します。
ソフトウェア開発キット お客様の組込み機器開発へ製品を乗せ、動作させるのに必要な音声認識ライブラリおよび、ソフトウェア一式をご提供します。
音声辞書カスタマイズ お客様のご利用環境に応じ、音声辞書をカスタマイズします(個別見積り要)。
認識性能チューニング お客様のニーズに沿った認識文法チューニングや、認識パラメタチューニングサービスをご提供します(個別見積り要)。
サポート Q&A及び障害への対応などのサポートを実施します。

仕様

項目 詳細
認識方式 不特定話者(登録不要)
連続単語認識
OS μITRON, Windows2000/XP/CE, Linux
CPU ARM, IA32, FR-V, SH
認識語彙 数語~10万語
認識文法(語彙セット)の切り換え可能
複数認識文法の同時処理可能
認識語彙の動的追加可能
資源量(size) 認識ライブラリ(10Mbytes)
認識用音声辞書(5Mbytes)
認識文法(数十Kbytes~数Mbytes (語彙数に依存))
サンプリング周波数 11.025kHz
まずはお気軽にご相談・お問い合わせください