富士通ソフトウェアテクノロジーズ

  1. ホーム >
  2. 製品 & サービス >
  3. Inspirium >
  4. Inspirium 音声合成ライブラリ

Inspirium (インスピリアム) 音声合成ライブラリ V3.0

Inspirium 音声合成ライブラリ」は、組込み機器上で動作するアプリケーションプログラムに、日本語音声合成の機能を提供するC言語インターフェースのライブラリです。
任意の漢字仮名混じり文から、自然かつ正確な音声合成を行います。

| 特長 | 機能 | ツール | サンプル音声 | 構成 | 導入事例 | 導入実績 | 製品・サービス | 仕様  |

特長

  • 新たな最適化素片複合方式による柔らかな合成音
    人工的な印象を無くし、柔らかな合成音声を実現します。よく使われる言い回しやフレーズについて、人間の音声からその特徴を分析し、自然性を向上しました。
  • 言語辞書の充実による正確な読み上げ
    17万語の言語辞書を用いて正確に読み上げます。
  • 各種製品での豊富な実績
    携帯電話、銀行ATM端末などに搭載しています。

自然かつ正確な読み上げが可能な理由

  • 新たな最適化素片複合方式では、音声合成に用いる音声素片や素片同士を接続する位置を、大量の音声データを用いて最適化することで合成音の劣化を防ぎ、人工的な印象を無くした柔らかな合成音声を実現しました。また、通常よく使われる言い回しやフレーズについて、人間の実際の音声からその特徴を分析し、一層の自然性を向上させました。
最適化素片複合方式
  • 日本語文字列の解析処理では、約17万語以上の標準言語辞書を使って、入力文字列の解析を行います。標準言語辞書だけでは解析できない入力文字列に対応するため、ユーザー言語辞書に単語を登録し、言語解析で用いることもできます。
     
  • 入力文字列の数字の読み方(棒読み、桁読み)や、記号の読み方(読む、読まない)、区切り方法などを、アプリケーションプログラムから制御することができます。
    このほかにも、出力する音声データのスピード、ピッチ(声の高さ)、イントネーションの強さ、音量などをアプリケーションプログラムから制御することができます。
音声合成処理の流れ

機能

  • 「最適化素片複合方式」により人工的な印象を無くし、柔らかな合成音声を提供します。通常よく使われる言い回しやフレーズについて、人間の実際の音声からその特徴を分析し、一層の自然性を向上させました。
  • 日本語漢字かな混じり文を読み上げる機能を提供します。
  • 読み上げに必要な標準言語辞書には、約17万語の語句を登録しています。また、標準言語辞書に加えて、ユーザー言語辞書を最大15個まで同時使用できますので、標準言語辞書に含まれない単語の読み方や独自の読み方を登録したい場合に便利です。
  • 読み上げ音質は、使用する波形辞書によって決まります。
    読み上げ音声の属性としては、男性、女性が選択できるほか、スピード、ピッチ(声の高さ)、アクセント等の設定、文章の区切りかた、数字の読みかた等も設定できます。
  • 上記機能以外に、録音ファイルから抽出した韻律を利用し、固定文を高品質に合成する肉声韻律合成を提供することができます。
  • 地方や地域によって異なる読みを持つ住所単語を区別して読み上げることを可能とした住所読みライブラリを提供することができます。

音声合成ファイル作成ツール

韻律コーパス合成のサンプル音声

構成

Inspirium 音声合成ライブラリを利用した場合の構成、および、データの流れは以下のとおりです。

構成とデータの流れ図
  1. アプリケーションから音声合成ライブラリに、文字列を指定します。
  2. 音声合成ライブラリからアプリケーションに、合成データを出力します。
  3. アプリケーションが音声出力部に、合成データを渡します。
  4. 音声出力部が音声を出力します。

導入事例

富士通フロンテック株式会社様「金融店舗向けATMサービス専用端末 FACT-V」に採用

  • 音声案内システム
    • 目の不自由な方や操作に不慣れな方のために、音声合成で操作を案内します。
金融店舗向けATMサービス専用端末 FACT-V FACT-V ハンドセット

自治体・官庁・企業様などでご利用のウェブ・アクセシビリティ支援ツール「WebUD」に採用

  • Webサイトの音声読み上げ機能
    • 「WebUD」は、障がい者、高齢者などの方が、より容易にかつ主体的にウェブ・サイトをご利用できるように、ウェブ・サイト内の文章の音声読み上げ、文字や図の拡大、文字色や背景色の変更、漢字の読み仮名表示、入力支援などの様々なアクセシビリティ機能を提供する、ウェブ・アクセシビリティ支援ツールです。
WebUDサービスイメージ

導入実績

  • 管制指令システムによる各種指令出力
  • 自治体情報端末による情報提供
  • 金融端末による操作補助
  • 携帯電話機によるメール・操作メニューの読み上げ
  • 教育ソフトのテキスト読み上げ

製品・サービス

製品・サービス名 内容
音声合成ライブラリコア組込み お客様の組込み機器に組込み可能な音声合成ライブラリコアを提供します。
ソフトウェア開発キット お客様の組込み機器開発へ製品を乗せ、動作させるのに必要な音声合成ライブラリおよび、ソフトウェア一式をご提供します。
音声合成ファイル作成ツール 任意の漢字かな混じり文字列から音声合成を生成可能とするツールを提供します。
言語辞書カスタマイズ お客様の目的や用途に応じて、言語辞書を充実し、正確な読み上げを実現します(個別見積要)。
波形辞書カスタマイズ お客様の目的や用途に応じた波形辞書を作成し、合成音声出カを実現します(個別見積要)。
サポート Q&A及び障害への対応などのサポートを実施します。

仕様

方式 OS CPU 言語辞書
(size)
波形辞書
サンプリング
(size)
声種
高品質版 µITRON,
Windows Vista/XP/
2000/CE, Linux
ARM, IA32,
FR-V, SH
17万語
(1.5Mbytes)
8.00kHz(18Mbytes)
16.00kHz(35Mbytes)
22.05kHz(50Mbytes)
標準:男声1種、女声2種
追加(男2種、女3種)可
省資源版 8.00Hz(3.2Mbytes)
16.00kHz(6.5Mbytes)
標準:男声1種、
女声2種

言語辞書・波形辞書のサイズについては、カスタマイズの内容によって変動します。

まずはお気軽にご相談・お問い合わせください


サンプル音声を聞くには、マイクロソフト社のWindows Media Player(無償)などが必要です。