Newテクノロジー(1) | Newテクノロジー(2) |
Newテクノロジー(2)
レイアウト定義不要で帳票の
論理構造を認識する先進技術
確率伝搬法を用いた論理構造認識技術の開発
本技術の原理を示します(図2)。まず、見積書や請求書等、帳票の種類毎に共通した論理要素(見出しやデータ)に対応する文字列の特徴と、それらの意味関係の可能性を記述した論理構造パターンを用意しておきます。例えば氏名欄の見出しの可能性として、「氏名」「お名前」等があり、その見出しには「氏」「名」あるいは「姓」「名」等の見出しが含まれる、といった論理要素間の関係を、確率ネットワーク上で表現します。そしてそのネットワーク上で文字列の情報を相互に伝搬させることにより、各論理要素に対応する信頼度の高いデータを認識し、逆に信頼度の低いデータを棄却していきます。また信頼度の低いデータであっても、信頼度の高いデータとの整合性があれば信頼性が高められていくといったプロセスが適用されることにより、複雑な帳票からも高精度な論理構造認識が可能となります。
こうした方式を用いることによって帳票毎の位置関係の登録が不要となり、多様なレイアウトへの対応が可能となります。加えて、文字認識誤りを類推したり、省略された論理要素を検出したりすることも可能になり、階層的な見出しを持つ複雑な帳票においても、安定した認識結果が得られるようになります。
[図2]論理構造認識技術の原理

「紙」と「電子」のシームレスな連携の
実現によって期待される様々なソリューション
本技術を富士通指定の20の評価文書に適用したところ、9割以上の論理構造認識率(論理要素に対する文字列の対応付け正答率)が得られました。この結果から、従来は全てを手作業に頼っていた検索用キーワード付与やデータ入力コストを約60%削減することが期待できます(コストモデルに基づく試算)。即ち、これまで5日かかっていた人手によるデータ入力・確認作業を2日に短縮でき、担当部門の作業を大幅に効率化できます。
本技術は、レイアウトが未知な帳票を扱うデータ入力作業に適していることから、帳票入力業務の支援のためのソリューションとして、富士通のOCRソフトやスキャナ製品への搭載を目指していきます。
また本技術の自動タグ付与機能は、紙だけでなく電子データにも適用できます。したがって、WordやExcel形式のファイルでタグを自動付与し、「“取引日”が“2007/5/1”の伝票」といった検索をすることも可能になります。
今後さらに論理構造認識技術の性能を高めることにより、e-文書法に対応したキーワード付与や、内部統制に対応した帳票間での整合性確認や情報保証に関連するソリューションへの採用を目指します。
お問い合わせ先
- 株式会社富士通研究所
ITコア研究所 言語・メディア研究部
Tel: 044-754-2678
E-mail: lm-pr@ml.labs.fujitsu.com
内部統制に関連する記事
ジャーナル最新のテーマ
お客様の声をお聞かせください

富士通ジャーナルに掲載している記事やコンテンツについてのご意見・ご感想を、ぜひお寄せください。
お寄せいただいたご意見・ご感想については、富士通からの回答をお約束するものではありません。ご了承ください。
なお、富士通からのご回答を必要とするお問い合わせについては、
富士通ジャーナルに関するお問い合わせをご利用ください。






