Fujitsu The Possibilities are Infinite

元のページへ戻る

  1. ホーム >
  2. 導入事例 >
  3. 国立遺伝学研究所 生命情報・DDBJ研究センター様

導入事例
国立遺伝学研究所 生命情報・DDBJ研究センター様

富士通が開発したXML型データベースエンジン「Shunsaku」を基盤技術に
国際競争を勝ち抜く世界最速の次世代バイオデータベースの実現へ

[2005年2月23日 掲載]

導入事例キーワード
業種: 文教、自治体、官庁、公企業
ソフトウェア: XML型データベースエンジン「Interstage Shunsaku Data Manager」
ハードウェア: アプリケーションサーバ「PRIMERGY RX200」、ディレクターサーバ「PRIMEPOWER 450」、サーチサーバ「PRIMERGY RX200」
課題と効果
1 絶対量、増加量とも膨大なデータベースの高速化 データ量(約4,300万件)、複雑な検索条件、トラフィック数に関わらず、常に5、6秒の安定した高速検索を実現
2 年率1.5~2倍で増大するデータ量への対応 データ件数の増大に対してCPUとメモリの単純追加で十分対応可能に。検索性能も保証され、将来のビジョンがより明確に
3 データの変更、更新時におけるインデックス化やチューニングに要する膨大な手間とコストの削減 インデックス、チューニングが不要に。データの更新、変更もテキスト処理のみで対応可能に

2003年4月、ヒトゲノムの解読完了が発表され、ゲノム関連の研究は解読から応用へとシフトしつつあります。ますます過熱するバイオ分野の研究開発を支えているのが三大国際DNAデータバンクです。そのひとつ、DDBJ(日本DNAデータバンク)を管理運営している国立遺伝学研究所 生命情報・DDBJセンター様と富士通は、増大するデータ量への対応や、高速検索ニーズ等に応えるべく、次世代バイオデータベースの共同開発を進めています。

次世代バイオデータベースの基盤技術には、富士通が世界に先駆けて開発したXML型データベースエンジン「Interstage Shunsaku Data Manager」を採用。驚異の高速性、インデックス不要など従来のデータベースの概念を超えた高いポテンシャルが現在の、そして明日のバイオデータベースが抱える課題解決への道を拓きます。世界最速、ライフサイエンス分野のデファクトスタンダードへ、その一歩となるテスト版の一般公開もスタートしました。
医療・健康ユビキタス社会の早期実現へ、バイオ分野の国際的な最前線で富士通の先進技術が貢献しています。

導入の背景

1億件(新聞約500年分)の膨大なデータ量に対応するために

五條堀 孝教授
生命情報・DDBJ 研究センター長

日本のライフサイエンスの中心、国立遺伝学研究所様は、WatsonとCrickがDNAの二重らせん構造を発見(1953年)する4年前、1949年に設立されました。その歴史はまさにライフサイエンスの歴史そのものです。

今日のライフサイエンスの研究では、日々、大変なスピードで蓄積されるDNAデータなどの生命情報の処理や解析にIT技術を活用することが不可欠となっています。そうした研究者のニーズに応えているのが、日本におけるバイオインフォマティクス(注1)の国際的な研究拠点、国立遺伝学研究所 生命情報・DDBJ 研究センター(以下、生命情報・DDBJ 研究センター)様です。
生命情報・DDBJ 研究センター様は、欧州の分子生物学研究所 (EBI/EMBL)、米国の国立バイオテクノロジー情報センター (NCBI/GenBank)と並ぶ三大国際DNAデータバンクの一つ、DDBJ(日本DNAデータバンク)を管理運営しています。
三大国際DNAデータバンクでは世界中のバイオ研究者が実験等により発見し決定したDNAデータを管理運営するために「DDBJ/EMBL/GenBank 国際塩基配列データベース(注2)」を共同で構築しインターネット上で公開しています。

現在、国際塩基配列データベースには約4,300万件(1千200億文字、新聞約200年分)のDNAデータが登録されています。データ量は毎年約1.5~2倍の伸び率で増大しており、2006年には1億件(新聞約500年分)になると予測されています。

「DDBJのデータベースは絶対量も増加量も非常に膨大なものとなっています。データ量が増えるほどに検索するのに多くの時間を要してしまいます。バイオ分野の研究開発は時間との勝負でもあり、スピードは不可欠な要素です。膨大なデータ量と高速性、この相反する課題を解決することは、DDBJはもとよりEMBL、GenBankにとっても大きな課題となっています」と生命情報・DDBJ 研究センター長の五條堀孝教授は語ります。

導入の経緯

数百万件を瞬時に検索。DDBJデータを用いたプロトタイプ版の高速性に驚嘆

DDBJには日本の全省にわたる様々な生物のゲノムプロジェクトのデータや塩基配列の特許情報等も登録されており、利用者は日本の研究者だけでなく世界中の研究者に広がっています。DDBJは日本のバイオインフォマティクスの顔ともいえる存在です。その存在の重要性ゆえに、課題の解決は急務でした。

DDBJの課題は大きく4点に集約できます。第一点は状況を打開するための根本的なデータベースの見直し。第二点は三大国際DNAデータバンクにおけるDDBJの特色の創造。第三点はバイオインフォマティクス分野の先進性としての研究開発成果の達成。第四点は産学連携の加速。「富士通にはDDBJで使っているスーパーコンピュータシステムの運用等で10年前からご協力頂いています。そうしたお付き合いもあり、富士通のSEにDDBJが抱えている課題をお伝えしたところ、Shunsakuという非常に高速で、従来のデータベースとは異なる全く新しい発想のXML(注3)型データベースエンジンがあるというお話を伺いました」(五條堀教授)

「どのくらい高速なのか。百聞は一見にしかず。XML化されていれば原則的にそのまま使えるということでしたので、すでにDDBJ XMLとしてXML化を果たしていたDDBJのデータを使って実際にやって頂くことになりました。目の前で何百万件が瞬時に検索されてでてきたときには本当にびっくりしました。そのあとの技術の説明を聞くのにも力が入りました」(五條堀教授)
Shunsakuは、九州大学理学部の有川節夫教授(現、同大学副学長)と研究グループが開発した超高速アルゴリズム「SIGMA(注4)」をコアに、富士通が約10年の歳月をかけ発展させたものです。「有川先生は以前からよく存じあげています。日本人の手で開発し実装していた純国産の技術を、さらに世界に向けて育てたいと思いました。また、現在の課題だけでなく、将来的なDDBJのデータベースの発展や利用形態の進化を考えたとき、一つの技術的な答えがShunsakuにあるという確信を得ました。そうした経緯で今回のシステム導入と、ライフサイエンス分野での応用的な共同研究開発を決断しました」(五條堀教授)

導入の効果

高速性はもとよりインデックス不要で更新も簡単

Shunsakuを基盤技術とした次世代バイオデータベースは2004年7月に第一弾として当時の約3500万件全データを対象に国立遺伝学研究所内の研究者に公開されました。

「なによりもその検索スピードに、皆さん驚かれます。研究者はいままでの経験から検索には時間がかかるものと覚悟しています。とくに複雑な検索条件のときには数十分かかることもありました。それが、どんなに複雑な条件でも5、6秒で結果がでてくるわけですから、それはもう驚嘆に近い声も聞こえてきます」と五條堀教授は驚きを隠しません。「アクセスが集中しても検索スピードがほとんど変わらないということも驚きです」と五條堀教授は続けます。Shunsakuは超高速アルゴリズム「SIGMA」に加え、複数の検索要求をまとめて検索するハイトラフィック技術(注5)を採用し、複雑な検索条件やトラフィック数に無縁の安定した高速性を実現しています。

「データ変更、更新の容易さも評価が高いです。DDBJではデータ量も膨大ですが、そのデータに対しては様々な修正も入ってきます。RDBといった従来のデータベースでは登録時はもとより変更、更新時もインデックス(注6)や正規化(データ項目の統一)が必要になります。これには大変な人材の投入が必要となり、多くの時間やコストがかかります。Shunsakuならインデックスは不要で、変更、更新もテキスト処理だけです」(五條堀教授)
ShunsakuはXML型のテキストデータを先頭から最後まで一文字ずついわばベタ読みしていくシンプルな検索方式のため、登録項目の数や種類を増やすことも簡単です。さらに文字数や項目の制限もなく、あらかじめ慎重にデータ領域を設計する必要もありません。これによりインデックスもチューニング(注7)も不要にしています。「インデックスが不要ということはインデックスに縛られることなく全項目を自由に検索できるということでもあります。このことは今後の研究の自由度を保証する意味でも画期的です」(五條堀教授)

システム構成図

懸案の課題だったデータ量の増加に対しても、Shunsakuの検索時間の大半はデータ量、CPU数とメモリ容量のみに依存するため、物理的なCPUやメモリの増強で対応可能となり、検索性能も保証できます。「今後のデータ件数の増大に対してもCPUやメモリの単純追加で十分対応できると富士通から説明を受けたときは将来に向けて一筋の光が射した思いでした」(五條堀教授)

将来の展望と富士通への期待

ライフサイエンス分野におけるデータベース技術のデファクトスタンダード

生命情報・DDBJ研究センター様では、2004年12月27日からDDBJサイト上で、DDBJ 新キーワード検索システム ARSA (All-round Retrieval of Sequence and Annotation)として次世代バイオデータベースのプロトタイプ版をテスト公開しています。

「ARSAは現在テスト公開をしております。本格運用のときには世界最速をマークすると確信しています」(五條堀教授)

バイオ分野における研究開発を一層進展させるためには様々なプロジェクトで生み出されるデータとのさらなる連携が不可欠です。そのためには複数のデータベースを仮想的に統合するデータグリッド(注8)が重要なキーワードになります。

「データグリッドの実現においては従来のデータベース技術ではインデックス化や正規化が大きな障害となります。しかしShunsakuなら難なくクリアすることができるでしょう。またこれからは、異なる種類の情報の高速検索といった複雑性や、自然言語処理などさらなる開発要件も出てきます。新たなニーズにもShunsakuは応えられるポテンシャルがあると考えています。たとえば、健康予防やテーラーメード医療などIT技術の開発スピードへの貢献です。富士通には、世界NO.1を目指して欲しいですね。DDBJとの共同開発によるデータベース技術が、世界を変えてゆくライフサイエンス分野の日本発のデファクトスタンダードへと進展していくことも夢ではないし、異業種へのブレークスルーにも貢献できると思っています」(五條堀教授)

富士通は、今回の共同開発の成果をもとに様々なビジネス分野への応用も視野に入れています。また、今後もバイオインフォマティクスを重点分野と位置付け、一人一人の個性に合わせたテーラーメード医療(注9)やゲノム創薬(注10)をはじめとする健康・医療ユビキタス社会の実現を加速させるために、Shunsakuをはじめとする先進的・総合的なIT技術を駆使し貢献していきます。

【研究所概要】

大学共同利用機関法人 情報・システム研究機構
国立遺伝学研究所

  • 所長: 小原 雄治
  • 設立: 1949年(昭和24年)設立。2004年(平成16年)、大学共同利用機関法人情報・システム研究機構国立遺伝学研究所に改組
  • 目的: 遺伝学の基礎とその応用に関する総合的研究を行い、学術研究の発展に資することを目的として設置された大学共同利用機関
  • ホームページ: 「国立遺伝学研究所」ホームページ

国立遺伝学研究所
生命情報・DDBJ 研究センター

  • 主な活動: 「国際塩基配列データベース」の共同構築と運営/関連生命情報データベースの運営/DNA データベースのオンライン利用の管理・運用/ソウトウェアの開発/広報活動/国立遺伝学研究所コンピュータシステムならびにネットワークの管理・運用
  • ホームページ: 「国立遺伝学研究所 生命情報・DDBJ 研究センター」ホームページ

五條堀孝教授 プロフィール

  • 現職: 国立遺伝学研究所 生命情報・DDBJ研究センター長・教授/国立大学法人総合研究大学院大学生命科学研究科・教授(併任)/独立行政法人産業技術総合研究所/生物情報解析研究センター・副センター長(併任)/慶応義塾大学客員教授(併任)。ライフサイエンス分野における政府等委員も多数、歴任。

【お問い合わせ】

用語解説

注1: バイオインフォマティクス
バイオテクノロジー(生命工学)と情報技術(IT)が融合した技術分野のことで、生命情報科学ともいう。
注2: 国際塩基配列データベース
国際塩基配列データベースは、日本(DDBJ)、欧州(EMBL)、米国(GenBank)の 3 箇所に置かれ、定期的(1 日1 回)にデータ交換を行うことで、データベースの内容を同期させている。たとえば日本の研究者がDDBJデータベースに登録した DNA 塩基配列の情報は24 時間以内に EMBL、GenBank へ反映される。
注3: XML(Extensible Markup Language)
Web関連技術の標準化団体であるW3C(World Wide Web Consortium)において標準化された拡張可能なマーク付け言語。ブロードバンド時代の情報流通とIT統合の基盤技術のひとつ。
注4: 超高速アルゴリズム「SIGMA」
有川節夫教授(九州大学)らが開発した一方向逐次処理による高速文字列照合アルゴリズム。
注5: ハイトラフィック技術
富士通が開発した、アプリケーションからの検索要求が重なっても同じ検索時間で応答する技術。(特許出願済)
注6: インデックス
高速に検索するために、検索対象のデータとは別に対象データの位置情報を示すデータの集まり。
注7: チューニング
あらゆるデータ操作を高速に処理できるよう、データベースを最適な状態に調整すること。
注8: データグリッド
さまざまなシステムに、地理的、組織的に分散するデータを、利用者がデータの所在やアクセス方法の違いを意識することなく活用できる基盤を提供する仕組み。
注9: テーラーメード医療
個人個人に合った医療。たとえば個人の遺伝子の微妙な違いを解析し、薬の効き目や副作用を事前に判断しようとするもの。
注10: ゲノム創薬
がんなどの病気の原因となる特定の遺伝子やたんぱく質の情報に基づいて、その働きを抑える薬を開発したり、個人個人の遺伝子に合わせた効き目の高い薬を開発する方法。

本事例中に記載の肩書きや数値、固有名詞等は掲載日現在のものであり、このページの閲覧時には変更されている可能性があることをご了承ください。