Fujitsu The Possibilities are Infinite

 

    
  1. ホーム >
  2. 富士通ジャーナル >
  3. 現場の声 >
  4. どんなレイアウトの帳票でも確度の高いデータを抽出することに成功。レガシーな技術と新たな技術の橋渡しを目指す

どんなレイアウトの帳票でも確度の高いデータを抽出することに成功。レガシーな技術と新たな技術の橋渡しを目指す

写真左から、武部研究員、藤本主任研究員

J-SOX法や内部統制を背景として紙のデジタル化支援へのニーズは高まりを見せている。

これに呼応する形で富士通研究所、言語・メディア研究部では、帳票をスキャンし、取り込んだ文字情報を予めシステムに格納させた論理構造パターン・データベースと照合することで、論理情報と一致する文字列を取り出す技術開発に取り組んでいる。

今回の技術開発の背景とその成果をITコア研究所、言語・メディア研究部主任研究員の藤本克仁ならびに研究員武部浩明に聞いた。


ニーズにあった技術を持って来れば良いというものではありません。
われわれの技術は画像認識技術の蓄積をベースにしています。

チームリーダの武部浩明(たけべ ひろあき)は、プロジェクトを振り返る。
「同じ見積書であっても予想を上回るバリエーションがあることを認識しました。例えば、口座振替伝票だけでも数十万にも上る種類があったのです。これら全てのタイプの帳票をカバーする認識技術の開発ですから胸が躍りましたね。現状ではこれら情報を手動で入力しているのですから、それは大変な作業量です。」

武部をリーダとするプロジェクトチームメンバーには共通の認識があった。

「文字認識というのは基盤なので最も大切であり、ですから、他社ベンダーも押しなべて競って研究しているので優劣がつきにくいのです。
人間の認識レベルと同程度の画像認識技術をブレイクして開発できれば完璧なる差別化につながります。我々はもちろんそれを目指しています。
富士通が得意とするのは、カラー画像処理やJPEGの劣化画像処理、そしてレイアウト認識、テキストブロック抽出技術などです。これを競争力の源泉として生かしていこうと考えました。」
と武部は当時を振り返る。

定義体レス認識というテーマは、まさに、言語・メディア研究部がこれまで培ってきた技術の延長線上にあった。

武部研究員

「マーケティングという声が高らかに唱えられていますが、ニーズにあった技術を持って来れば良いというものではありません。自分が有利にいるポジションを活用することこそが大切なのです。」
「研究所はとかく蛸壺になりがちですが、強みを生かすということはこれが世の中に適応できるのならばこれを生かすのが大切なことです。」
と、プロジェクトリーダの藤本は研究員としての姿勢を語る。

「役割分担は結構難しかった面があります。
従来型の技術であれば開発プロジェクトがどんな規模か、そしてそれはどんなブロックで構成され、ブロックにはどんな組み合わせが可能かも分かっています。
しかし、今回は新プロジェクトであったため、最初の描いた枠組みで巧くいく保証はありませんでした。仮説とは食い違いが生じるのです。」

武部の仕事は手作業よりも考えることが業務の中心だった。
「方式アルゴリズムを作り出すことが仕事でした。問題の本質は何か。何が問題を難しくさせているか。どのように問題を解くか。そして、本当に確率伝搬法を使うことが正しいのか。それらを考えることが私の仕事でした。」

地球横断的なプロジェクト活動
その道のりは平坦ではなかった。

画像データにキーワードを自動的に付与するところからこのプロジェクトはスタートしたものの、論理構造認識モデルの生成は勿論のこと、他にもさまざまな壁に遭遇したのは言うまでも無い。

「文字が行儀良く並んでいるところは比較的判断が容易です。しかし均等割付でなかったり不規則な並び方の文字は認識が難しい。しかし、武部君が作ってくれたソフトでは縦分離文字も正確に判断するレベルに進化しましたよ。その上、判断が誤ってもこれを復旧するという機能も盛り込んでいるのです。」
と藤本は、武部評を交えながらプロジェクトの手応えを実感している表情を見せた。

藤本は、はるばる米国のSOX法や内部統制に関する学会や関連企業にまで足を運び米国の事情を調査したり、漢字文化の先輩である中国に赴き、富士通研究開発有限公司、北京研究所で働く中国人エンジニアとも議論を重ねたという。その成果は、本プロジェクトにも反映されている。

本技術により、論理構造の認識率は91.7%を達成。これによる効果はデータ入力業務、キーワード付与業務において約60%のコスト削減に寄与する結果を生んだ。
e-文書法の要件である文書にキーワードを付与する要件に対応したキーワードの自動付与が可能で、また論理要素をタグとして扱うことにより、容易なタグつき検索が実現する。また内部統制と言う観点からは帳票の整合性確認といった税務情報の確認や保証が可能になる。

レガシー資産をどうするか?
真に役立つ技術を目指して

藤本主任研究員

レガシー。「遺産」とか「財産」とかを意味する英語である。とかくIT業界では否定的に使われるこの多い言葉を藤本は大切にしたいという。

今回のプロジェクトは、まさにレガシーなものと新しいものを繋ぐ技術開発だと語る。

「最近、よく言われることがレガシーなものを捨て、ある理想的な世界を作って何でも電子化して改革しましょうという風潮があります。それは、確かにITの本流なのですが、 全て新しいもので定義して完璧なものをつくろうとしても、必ずそれは失敗しています。それは、どういう状況が良いかのいうことがまだ明確に定義がなされていないからですね。その上、法律というものは必ず変化するものです。
理想と言うものは徐々に決まっていくもの。故に常に完全なシステムというものは定義できないのですね。」

確かにJ-SOX法は日本でもようやくガイドラインが登場したところだ。曖昧さも残すこの法律に対処していく上では、柔軟に変化に強い新しいシステムを付け加えていくことが大切なのだと説く。

「実際、政府のIT新改革戦略もこれを踏襲した動きをしています。紙を無くすということも含めて紙に対する情報の価値をも考えなくてはいけません。船舶などの緊急安全マニュアルなどは紙のほうが優れているのです。」と武部は紙の電子化に対する思いを吐露した。

リーダの藤本も武部の意見を支持するかのように話を締めくくった。
「我々の技術は色んな法則や文化のある世界に住む人たちに向けたものです。つまり、ヘテロジーニャス(異種または異質である様子)な世界を相手にしたいと考えます。今のIT業界はとかく一つの法則に従ったホモジーニャス(同種または同質、均質である様子)な理想を追いかけていく人が多いですからね。それらの世界と繋がる技術開発を続けたいと思います。」

古いシステムに柔軟に対応し、新たなシステムやサブシステムを加えて、変化に強い、そして真に役に立つ技術開発をメンバーたちは目指して今日も研究に取り組んでいる。

2007年6月20日 公開


ジャーナル最新のテーマ

今月のテーマ 安心安全 「守り」+「攻め」の安心安全へ お客様の企業価値向上をご支援します 続きを読む


今月のアンケート 集計結果は7月9日から毎週更新 Q:あなたの会社では、ノートブックPCにセキュリティ対策をしていますか? 回答する


お客様の声をお聞かせください

富士通ジャーナルに掲載している記事やコンテンツについてのご意見・ご感想を、ぜひお寄せください。

ご意見・ご感想フォーム いただいた、お客様の声


お寄せいただいたご意見・ご感想については、富士通からの回答をお約束するものではありません。ご了承ください。
なお、富士通からのご回答を必要とするお問い合わせについては、
富士通ジャーナルに関するお問い合わせをご利用ください。