Fujitsu The Possibilities are Infinite

 

 Newテクノロジー(1) |  Newテクノロジー(2) |


Newテクノロジー(1)
レイアウト定義不要で帳票の
論理構造を認識する先進技術

PDFダウンロード(217KB)

富士通研究所は、見積書や納品書といった多様な帳票から、あらかじめレイアウト定義を行うことなく高精度にデータの論理構造を認識する技術を開発しました。この技術により、レイアウトが未知な帳票を扱う窓口業務においてデータ入力業務の負担を大幅に軽減できるほか、タグの自動付与機能によってタグ付き検索が可能になります。
またe-文書法や日本版SOX法に対応したソリューションへの応用も期待されています。

求められる非定型帳票の効率的な電子保存

e-文書法の施行によって、それまで紙による保存が義務付けられていた財務・税務関係書類は、電子的に保存することが認められるようになりました。また一方、2008年3月決算期からの施行が予定されている日本版SOX法では、従来以上に財務状況の管理・監視が求められると同時に、IT活用による内部統制の重要性も示されています。
こうした環境の変化から、企業ではさかんに紙文書・帳票の電子化を進めていますが、スキャナで取り込んだ文書を画像データとして保存してデータベース化するには、日付や取引先名、金額のデータを検索できるようにキーワードを付与する作業が必要になってきます。
しかし見積書や納品書は、項目の論理的な構造は似ていても、レイアウトや見出し表記はそれを発行する企業毎に異なります。こうした「非定型帳票」に対して、あらかじめレイアウトを定義する必要のあるOCR技術を適用するには、異なる帳票毎、あるいはレイアウト変更が行われる毎に定義を登録しなければなりません。また、OCRを導入せず人手によってデータ入力をするとなると、帳票の枚数に比例して膨大なコストがかかってきます。

確率伝搬法を用いた論理構造認識技術の開発

そこで富士通研究所は、文字の位置やレイアウトに依存しない技術の開発に取り組み、2006年10月、業界で初めて、多様なレイアウトの帳票から見出しやデータの論理構造を高精度に認識できる技術の開発に成功しました。
非定型帳票の論理構造認識技術は以前から存在していましたが、それは、「見出し辞書」として登録してある見出し(例えば“氏名”)のような文字列をまず帳票から認識し、次にその見出しの位置から一定の範囲内の文字列(例えば“富士太郎”)がデータであると認識する逐次探索方式でした。しかしながらこの方式では、見出しに対応するデータを位置関係から検出するためのルール記述が膨大になり、多様なレイアウトへの対応は非常に困難でした。また、見出しとしての“氏名”が認識できなければ、“富士太郎”がデータであると正しく認識できないため、複雑な階層の見出しや、見出しの抜けがある帳票にも適用できませんでした。
富士通研究所が開発した論理構造認識技術は、スキャナで読み取ったキーワードやデータとなる文字列の意味関係に基づく推論方式を用いて論理構造を認識することによって逐次探索方式による問題を解決しました(図1)。

[図1]レイアウト定義が不要な非定型帳票のデータ入力技術の実現

内部統制に関連する記事


ジャーナル最新のテーマ

今月のテーマ:新世代ERP 迅速な経営判断と戦略展開を支援します 続きを読む


今月のアンケート 第2回集計結果公開中 情報の「見える化」による予測の実現を望む声多数 2009年11月17日集計 気になる結果は?


お客様の声をお聞かせください

富士通ジャーナルに掲載している記事やコンテンツについてのご意見・ご感想を、ぜひお寄せください。

ご意見・ご感想フォーム いただいた、お客様の声


お寄せいただいたご意見・ご感想については、富士通からの回答をお約束するものではありません。ご了承ください。
なお、富士通からのご回答を必要とするお問い合わせについては、
富士通ジャーナルに関するお問い合わせをご利用ください。