富士通総研

Webからの情報取得を自動化

活用支援

  1. 会社名
    LencomSoftware
  2. Web Site
    LencomSoftware(http://www.lencom.com/)
  3. Web 開始時期
    1999年
  4. 会社概要
    LencomSoftware
    2528BayviewAvenue
    Toronto,ON,Canada
    M2L2Y4
  5. ビジネス
    Webからの情報取得を自動化するツールに特化してシェアウェアを開発している。近年、Webサイトのデータベースからの動的生成や、データソースのXML化、メタデータ化などが先端技術として導入されている。しかし、結果として出力されているのはHTMLという、あまり構造的でない形式である。
    たとえば複数のECサイトで商品説明のページがあるとして、このばらばらのデザインのHTMLから、各社の商品名、価格情報、商品説明などを分離して取得してリストを作るのは手作業ではやっかいだ。この作業を何とか自動化する方法はないだろうか。それには、各サイトのデザインを解析して、タグ情報を頼りにそれぞれの抽出ルールを作ればよい。
    Lancomでは、この抽出ルール作成の支援と、抽出実行を行うソフトウェアを5つほど提供している。
    ・VisualWebTask
    ブラウザでWebページを見ながら、インタラクティブに情報抽出ルールを作成するソフトウェア。HTMLの構造を階層構造としてみながら、どの部分を抽出対象にするか、マウスで指定できる。また、このルールを実行するプログラムも自動で生成してくれる。
    ・SurfVCR
    ネットサーフィンの模様を録画し、再生するプログラムを生成する。
    ・RoboNavigationdevelopmentkit3.0
    情報抽出ルール作成と実行機能を持ったプログラムを開発するための開発者キット。
    ・FastEmailExtractor
    Webページを巡回してメールアドレスを抽出し、データベース化するソフト。
    ・SharewareNavigator
    シェアウェアディレクトリから、シェアウェア情報を抽出するプログラム。
  6. 競合可能性
    巡回ソフトの一部に、Webの簡単な情報抽出機能を持つものがある。
  7. 対象市場
    インターネットユーザ
  8. 収益性
    シェアウェア販売している。VisualWebTaskは1ライセンス149ドル。
  9. コメント
    抽出ルールの作成をGUIでインタラクティブに指定できるのは便利。