TRECVID
マネジングコンサルタント 大塚宏子
2008年2月12日(火曜日)
今日、エクサバイト(*)とも言われる膨大な量の情報がネット上に存在していますが、デジタル化やネットワークの高速化、メモリなどの記憶装置の大容量化と低廉化等に伴い、多種多様な動画や映像(以下、映像情報という)がますます流通、蓄積されるようになっています。こうしたネット上の情報を検索する場合、現在はキーワードを入れて検索を行うテキスト検索が一般的ですが、映像情報がネット上にあふれてくると、様々な映像情報を直接検索する必要性も高まってきます。
現在、映像情報の検索では、映像情報に付与されたメタデータやキーワードを活用する方法が主力になっています。しかし、この方法では、付与した人の主観が入りメタデータやキーワードに偏りが出てしまうなどの問題があります。本当の意味での映像情報の検索を行うためには、映像として、そこに何が写っているのかをコンピュータに認識させることが必要であり、映像の意味内容の解析や理解のための技術が重要になってきます。
こうした、大量の映像情報から映像検索を行うための映像検索・解析技術に関する研究が2001年から世界的なレベルで取り組まれています。それが TRECVID (TREC Video Retrieval Evaluation)です。TRECVIDは、膨大なテキストデータから情報検索を行うテキスト検索を主とした技術研究を目的に、米国の国立標準技術研究所(NIST: National Institute of Standards and Technology)と国防総省(U.S. Department of Defense)主催で1992年から開催されているワークショップ(TREC: Text REtrieval Conference)で、一つの研究テーマとなっていた映像に関するワークショップが独立する形で組成されたものです。その特長は、毎年、大学や企業の研究グループ単位で参加者を募り、参加者に対し課題を出題、参加者は、出された課題に対して、同じ映像データを用い、異なるアプローチ・手法で取り組み、その結果を比較検討・公表する仕組みをとっている点です。参加者同士を競争させ、その成果を共有することで、映像検索技術のさらなる進歩とその促進を狙ってのことです。
2007年のTRECVIDワークショップは、10月に開催され、世界中から54のチームが参加しました。日本からは、国立情報学研究所、NHK放送技術研究所、旭化成、KDDI研究所+徳島大学+東京大学、東京工業大学、電気通信大学の6チームが参加しています。今年の主要課題は、(1) 与えられた映像中のショットの境界検出、(2) ショットに含まれる意味的な特徴を抽出する高次特徴抽出、(3) 要求に合致するショットの検索、(4) 映像中の重要な部分のサマライズの4つで、国立情報学研究所は、高次特徴抽出で検出精度第2位、NHK放送技術研究所は、ショット境界検出で検出速度第1位、検出精度第4位の成果を挙げています。
デジタル放送の開始によるデジタル映像の増加、個人制作映像の増加、また、こうした映像も含め、映像の二次利用が求められている中で、映像検索・解析技術の重要性は、今後ますます増大していくことになるでしょう。富士通総研では、前述の国立情報学研究所、NHK放送技術研究所、および、富士通研究所と共同で、映像の意味理解のための基礎技術に関する研究を、経済産業省の情報大航海プロジェクトの一環として受託し、取り組んでいます。
注釈
* エクサバイト(Exa Byte) : 10の18乗バイト もしくは 2の60乗バイト
