WO2003001409A1

WO2003001409A1 - Dispositif de traitement de donnees structurees

Info

Publication number: WO2003001409A1
Application number: PCT/JP2002/006288
Authority: WO
Inventors: Kiyoshi Nitta; Yasuo Uemura
Original assignee: Celestar Lexico-Sciences, Inc.
Priority date: 2001-06-22
Filing date: 2002-06-24
Publication date: 2003-01-03
Also published as: US20040177082A1; EP1403779A1; JPWO2003001409A1

Description

明細書構造化データ処理装置

技術分野

本発明は、構造化データ処理装置、構造化データ処理方法、プログラム、および、記録媒体に関し、特に、様々な形式のスキーマ言語により定義された様々な形式の構造化データを効率的に処理することができる構造化データ処理装置、構造化データ処理方法、プログラム、および、記録媒体に関する。

背景技術

従来、バイオインフォマティクス分野において扱われる基本的なデータベースとして、大規模な塩基またはアミノ酸などの配列情報データベースや、文献情報データベースがある。例えば、既存の配列情報データベースの例として、「Ge nB a nkj などがあり、文献情報データベースの例として「PubMe d」なとがある (http://www. ncbi. nlm. nih. gov/Genbank/ 参照) 。

第 1図は、遺伝子の塩基配列または蛋白質のァミノ酸配列の配列情報データべースの基本的なデータ構造の例を示す図である。

ここで、第 1図に示すように、配列情報データベースに格納される各配列情報のデータ構造は、一般的に（1) 配列本体を格納するフィールド、（2) 配列の一部分についてのァノテーション情報を格納する部分修飾記述フィールド、（ 3 ) 配列の全体についてのァノテーシヨン情報を格納する全体記述フィールド、の 3つのフィールド群からなっている。

上記 (1) の配列本体を格納するフィールドは、塩基配列またはアミノ酸配列からなつている。塩基配列は、生物細胞の染色体を構成する 4種類の塩基 (AC GT) を一次元の列に並べたものである。塩基配列が遺伝子として働くときにそめ特定の配列情報から特定の蛋白質が生成される。アミノ酸配列は、その蛋白質を構成する二十数種のァミノ酸を一次元の列に並べたものである。

上記 (2) の部分修飾記述フィールドは、配列本体の一部分について、実験や解析を通して得た知見（物性や構造情報など）等のァノテーシヨン情報を記したものである。この情報は配列によっては全くない場合もあるし、同一の配列部分に複数の部分修飾記述フィールドが記述されることもある。

また、上記 (3) の全体記述フィールドは、その配列全体に関する情報であり、例えば、分類 I D、通称、自然言語による説明、生物種、染色体上の位置、（発現データの場合）臓器、関連する学術文献の参照先、キーワードなどに関するデータからなる。

これらのデータベースに格納される配列情報は、レコード毎に埋まるフィールドゃ繰り返し回数が異なるという性質を持つ。そのため、ある程度書式付けされたテキスト形式または XMLなどの構造化された記述形式で流通することが多い。バイオインフォマティクス分野で用いられている既存の構造化記述言語には、例えば、「ASN. 1 (Ab s t r a c t S y n t a No t a t i o n 1 ) J (h t t p ： / / www. n c b i . n 1 ni. n i n . g o / a ι t e m a p Z S u mm a r y/a s n l. h tm l、 J ame s M. O s t e l 1， I n t e g r a t e d Ac c e s s t o He t e r o g e n e o u s D a t a f r om NCB I " , p p. 730-736, I EEE E n g i n e e r i n g i n Me d i c i n e a n d B i o l o g y, No vZD e C， 1 995) や、 XMLベースの「B SML (B i o S e q e n c e Ma r k u L a n g u a g e) 」 h t t p ZZwww. 1 a b b o o k . c o m/ f a q/ b sm l . a s p) 、「B i oML (Th e B I Op o 1 yme r Ma r ku ； L a n g u a g e) 」 (h t t p :Z/w ww. b i om l . c o va/ B I OMLZ i n d e , h tm l) 、およぴ、「 GAME (Ge n ome Ann o t a t i o n Ma r k u p E l eme n t s ) J (h t t p ： / / www. b i o xm l . o r g/P r o j e c t s/ g ame/) などが存在している。これらの配列データは大規模（例えば、 G e n B a n kのレコード数は 1 0 0 0万件規模）であり、効率的な検索処理を行なうために上述の例のデータでは、リレーショナルデータベース（R D B ) を用いたデータベースシステムに変換 Z 格納されている。

しかしながら、従来のシステムには、

( 1 ) 多種の構造ィヒ記述形式に対応する高い拡張性を持つ形式でデータを格納することができない。

( 2 ) データを効率よく格納 ·利用することができない。

という 2つの問題点があった。以下、これらの問題点について具体的に説明する。まず問題点（1 ) で述べている、データ記述形式に関する高い拡張性は、バイォインフォマテイクス（B I ) 分野では特に重要である。ここで B I分野において格納すべき情報は、 XMLや B SMLや B i o MLなどの既存の構造化記述言語で表記されるものだけではない。すなわち、 B I分野全体の研究が進むにつれて格納すべき情報の定義情報の集合（スキーマ）などは変化する。例えば、新たに実験手段が開発された場合、その結果を格納するフィールドや定義するためのスキーマが追加されることになる。

また、同じ事実を複数の表現で格納するために繰り返し構造が導入されることも多い。このような場合、既存形式のデータを新規形式のデータに変換する必要があり、変換プログラムの開発と変換処理のコストが発生する。

さらに他の例として、相互作用する複数の蛋白質の部位の情報を、枠組みを変えずに蛋白質のレコードに含めようとする場合には、同じ情報を異なる 2つのレコードに同期して格納する必要がある。この場合、格納領域が多く使用される、格納 ·修正等の機能の実装が複雑になる、などの管理上の問題が発生する。

また、第 1 6図は、 B I分野で一般的に用いられる B S MLにより記述された構造化データと、同様に一般的に用いられる B i o MLにより記述された構造ィ匕データとの構造的な相違を説明するための図である。

上述したように、現在でも複数種類の構造化記述言語で記述された構造化記述形式があり、既存のソフトウェア資産を再利用するためにはそれらへ容易に変換できる必要がある。特に、第 1 6図に示すように、 B SMLと B i o MLの間には、部分修飾記述フィールドの形式に構造的な相違がある。 B i o MLは、蛋白質の構造に関する一部の部分修飾記述を XML文書の木構造に埋め込むのに対して、 B SMLは、全ての部分修飾記述を配列位置情報との組で別記している。このような違いのある複数の形式へ変換を効率的に行なうためには、格納構造の表現能力が十分に柔軟である必要がある。

問題点（2 ) は、問題点（1 ) を解決するような柔軟なデータを対象にしたときの効率について述べている。

RD B技術は、古くから実用化されており.、既存の計算機アプリケーションにおいては、信頼性が高く、大規模データの処理効率に優れた運用が可能である。し力し、 R D Bでは、対象ドメインで扱うデータのスキーマが静的であることを前提にデータモデルが設計される。特に、データ構造が複雑になるに従って固定化の度合が高まる。そのため、問題点（1 ) に対して求められるような高い拡張性を持つシステムの構築は、本来想定されておれず、上述したような効率上の課題が生じる。

R D Bが利用できない場合は、最も柔軟な格納方式であるプレーンテキストフアイルでの格納になるが、これは大規模データにおける検索や取り出し性能が実用的ではない。特に、 B I分野ではこれらのデータを対象に大規模な解析処理を連続して行なうため、各レコ^"ド操作に求められる効率は、事務帳票処理ゃェンドユーザが起因となるトランザクション処理に比べて高くなつてしまう。

従って、本発明は、遺伝子の塩基配列や蛋白質のアミノ酸配列などの配列情報のような大規模なデータを、高レヽ拡張性を持つ形式でデータを格納し、しかもデータを効率よく格納 ·利用することが可能となる構造化データ処理装置、構造ィ匕データ処理方法、プログラム、および、記録媒体を提供することを目的としている。発明の開示

本発明にかかる構造化デ一タ処理装置は、構造化記述言語で記述された構造化データと、当該構造化データの構造を定義したスキーマデータとを取得する構造化データ取得手段と、上記構造化データ取得手段にて取得した上記構造ィヒデ一タおよび上記スキーマデータを、スキーマ形式変換指示情報に.基づいて変換する形式変換手段と、上記形式変換手段にて変換された変換後の構造化データおよびスキーマデータをデータベースに登録する構造化データ登録手段と、上記構造化デ一タ登録手段にて登録された上記データベースにアクセスしてデータ処理を行うッールプログラムと、当該ッールプログラムに入力される上記構造化データのスキーマのリソースを定義するスキーマリソース定義情報とを対応させて登録する分析ツール登録手段と、上記ツールプログラムが起動された場合に、起動された当該ツールプログラムに対応する上記スキーマリソース定義情報に従って、上記データベースに登録された構造化データおよびスキーマデータを変換して当該ッールプログラムに入力する分析ツール起動手段とを備えたことを特徴とする。この装置によれば、構造化記述言語で記述された構造化データと、当該構造化データの構造を定義したスキーマデータとを取得し,、取得した構造化データおよびスキーマデータを、スキーマ形式変換指示情報に基づいて変換し、変換された変換後の構造化データおよびスキーマデ―タをデータベースに登録し、登録されたデータベースにアクセスしてデータ処理を行うッールプログラムと、当該ツールプログラムに入力される構造ィヒデータのスキーマのリソースを定義するスキーマリソース定義情報とを対応させて登録し、ツールプログラムが起動された場合に、起動された当該ツールプログラムに対応するスキーマリソース定義情報に従つて、データベースに登録された構造化データおよぴスキーマデータを動的に変換して当該ツールプログラムに入力するので、異なる構造化言語やスキーマ言語で記述された取得データを予めまたは必要に応じて定めた形式に変換することができるようになる。

また、各種の外部データベースから取得したデータ間の整合を容易にとることができるようになり、データ記述形式に関する高い拡張性を担保することができるようになる。その結果、各種のデータ記述形式に対応する外部データベースへのアクセスを容易に行うことができるようになる。すなわち、統一した特定の構造化記述言語の形式（例えば、 BSMLや B i oML等）で内部のデータベースを管理することが可能になるため、データベースの利用効率などを著しく向上させることができるようになる。

また、スキーマに新たなリソース（例えば、 XMLの要素など）が追加された場合であっても、容易に il¾卩された形式に変換することができるようになる。また、各分析ツールにより随時項目追加が発生し、その追加項目を後段の分析ツールの処理で使用するような場合であっても、分析ツールの仕様に手を加えることなく、使用する各データの拡張性を容易に担保することができるようになる。また、共有部分のデータベースの一括形式変換を行うことができるようになる。つぎの発明にかかる構造化データ処理装置は、上記の構造化データ処理装置において、上記構造ィヒ記述言語は、 XML、 SGML, B i oML、 B SML、 A SN. 1、 GAME、若しくは、これらのいずれかを拡張した構造化記述言語、または、これらと同等の記述能力を持つ構造化記述言語であることを特徴とする。これは構造化記述言語の一例を一層具体的に示すものである。この装置によれば、構造化記述言語は、 XML、 SGML, B i oML、 B SML、 ASN. 1、 GAME, 若しくは、これらのいずれかを拡張した構造化記述言語、または、これらと同等の記述能力を持つ構造ィ匕記述言語であるので、これらのバイオインフォマテイクス分野において一般的に用いられる構造化記述言語により記述された構造ィ匕データを効率的に変換することができるようになる。

つぎの発明にかかる構造化データ処理装置は、上記の構造ィヒデータ処理装置において、上記スキーマデータは、 DTD、 XMLスキーマ、 RELAX、若しくは、これらのいずれかを拡張したスキーマ言語、または、これらと同等の記述能力を持つスキーマ言語により記述されたデータであることを特徴とする。

これはスキーマデータの一例を一層具体的に示すものである。この装置によれば、スキーマデータは、 D T D、 XMLスキーマ、 R E L AX、若しくは、これらのいずれかを拡張したスキーマ言語、または、これらと同等の記述能力を持つスキーマ言語により記述されたデータであるので、これらのパイォインフォマテイクス分野において一般的に用いられるスキーマ言語により記述されたスキーマデータを効率的に変換することができるようになる。

つぎの発明にかかる構造ィ匕データ処理装置は、上記の構造化データ処理装置において、上記スキーマ形式変換指示情報および上記スキーマリソース定義情報は、 X S L、若しくは、これを拡張した言語、または、これらと同等の記述能力を持つ木構造変換言語により記述されたデータであることを特徴とする。

これはスキーマ形式変換指示情報およびスキーマリソース定義情報の一例を一層具体的に示すものである。この装置によれば、スキーマ形式変換指示情報およぴスキーマリソース定義情報は、 X S L、若しくは、これを拡張した言語、または、これらと同等の記述能力を持つ木構造変換言語により記述されたデ一タであるので、これらのバイオインフォマティクス分野において一般的に用いられるスキーマ変換記述言語により記述されたスキーマ形式変換指示情報およびスキーマリソース定義情報に基づいて、構造ィヒデータおよびスキーマデータを効率的に変換することができるようになる。

つぎの発明にかかる構造化データ処理装置は、上記の構造化データ処理装置において、上記構造化データは、塩基配列および/またはアミノ酸配列を含む配列情報、文献情報のうち少なくとも一つに関する要素を含むことを特徴とする。これはスキーマ形式変換指示情報およびスキーマリソース定義情報の一例を一層具体的に示すものである。この装置によれば、構造化データは、塩基配列および Zまたはアミノ酸配列を含む配列情報、文献情報のうち少なくとも一つに関する要素を含むので、 G e n B a n kなどに登録された配列情報や、 P u b M e d などに登録された文献情報を取得して形式変換することができるようになる。つぎの発明にかかる構造化データ処理方法は、構造化記述言語で記述された構造化データと、当該構造ィヒデータの構造を定義したスキーマデータとを取得する構造化データ取得ステップと、上記構造ィ匕データ取得ステップにて取得した上記構造化データおよび上記スキーマデータを、スキーマ形式変換指示情報に基づいて変換する形式変換ステップと、上記形式変換ステップにて変換された変換後の構造化データおよびスキーマデータをデータベースに登録する構造化データ登録ステップと、上記構造ィヒデータ登録ステップにて登録された上記データベースにアクセスしてデータ処理を行うツールプログラムと、当該ツールプログラムに入力される上記構造ィ匕データのスキーマのリソースを定義するスキーマリソース定義情報とを対応させて登録する分析ツール登録ステップと、上記ツールプロダラムが起動された場合に、起動された当該ツールプログラムに.対する上記スキーマリソース定義情報に従って、上記データベースに登録された構造ィ匕データおよぴスキーマデータを動的に変換して当該ッールプログラムに入力する分析ッール起動ステップとを含むことを特徴とする。

この方法によれば、構造ィ匕記述言語で記述された構造ィ匕データと、当該構造化データの構造を定義したスキーマデータとを取得し、取得した構造化データおよぴスキーマデータを、スキーマ形式変換指示情報に基づいて変換し、変換された変換後の構造化データおよびスキーマデータをデータベースに登録し、登録されたデータベースにアクセスしてデータ処理を行うッールプログラムと、当該ツールプログラムに入力される構造化データのスキーマのリソースを定義するスキーマリソース定義情報とを対応させて登録し、ツールプログラムが起動された場合に、起動された当該ツールプログラムに対応するスキーマリソース定義情報に従つて、データベースに登録された構造化デ"タおよびスキーマデータを動的に変換して当該ツールプログラムに入力するので、異なる構造化言語やスキーマ言語で記述された取得データを予めまたは必要に応じて定めた形式に変換することができるようになる。

また、スキーマに新たなリソース（例えば、 XMLの要素など）が追加された場合であっても、容易に追加された形式に変換することができるようになる。また、各分析ツールにより随時項目追加が発生し、その追加項目を後段の分析ツールの処理で使用するような場合であっても、分析ツールの仕様に手を加えることなく、使用する各データの拡張性を容易に担保することができるようになる。また、共有部分のデータベースの一括形式変換を行うことができるようになる。つぎの発明にかかる構造化データ処理方法は、上記の構造化データ処理方法において、上記構造化記述言語は、 XML、 SGML, B i oML、 BSML、 A SN. 1、 GAME, 若しくは、これらのいずれかを拡張した構造ィヒ記述言語、または、これらと同等の記述能力を持つ構造化記述言語であることを特徴とする。これは構造化記述言語の一例を一層具体的に示すものである。この方法によれば、構造化記述言語は、 XML、 SGML, B i oML、 BSML、 ASN. 1、 GAME, 若しくは、これらのいずれかを拡張した構造化記述言語、または、これらと同等の記述能力を持つ構造化記述言語であるので、これらのバイオインフォマテイクス分野において一般的に用いられる構造化記述言語により記述された構造ィ匕データを効率的に変換することができるようになる。

つぎの発明にかかる構造ィヒデータ処理方法は、上記の構造化データ処理方法において、上記スキーマデータは、 DTD、 XMLスキーマ、 RELAX、若しくは、これらのいずれかを拡張したスキーマ言語、または、これらと同等の記述能力を持つスキーマ言語により記述されたデ一タであることを特徴とする。

これはスキーマデータの一例を一層具体的に示すものである。この方法によれば、スキーマデータは、 DTD、 XMLスキーマ、 RELAX、若しくは、これらのいずれかを拡張したスキーマ言語、または、これらと同等の記述能力を持つスキーマ言語により記述されたデータであるので、これらのバイオインフォマティクス分野にぉレ、て一般的に用いられるスキーマ言語により記述されたスキーマデータを効率的に変換することができるようになる。

つぎの発明にかかる構造化データ処理方法は、上記の構造化データ処理方法において、上記スキーマ形式変換指示情報および上記スキーマリソース定義情報は、 X S L、若しくは、これを拡張した言語、または、これらと同等の記述能力を持つ木構造変換言語により記述されたデータであることを特徴とする。

これはスキーマ形式変換指示情報およびスキーマリソース定義情報の一例を一層具体的に示すものである。この方法によれば、スキーマ形式変換指示情報およぴスキーマリソース定義情報は、 X S L、若しくは、これを拡張した言語、または、これらと同等の記述能力を持つ木構造変換言語により記述されたデータであるので、これらのバイオインフォマティクス分野において一般的に用いられるスキーマ変換記述言語により記述されたスキーマ形式変換指示情報およびスキーマリソース定義情報に基づいて、構造ィ匕データおよびスキーマデータを効率的に変換することができるようになる。

つぎの発明にかかる構造化データ処理方法は、上記の構造化データ処理方法において、上記構造ィ匕データは、塩基配列および/またはアミノ酸配列を含む配列情報、文献情報のうち少なくとも一つに関する要素を含むことを特徴とする。これはスキーマ形式変換指示情報およびスキーマリソース定義情報の一例を一層具体的に示すものである。この方法によれば、構造化データは、塩基配列および/またはアミノ酸配列を含む配列情報、文献情報のうち少なくとも一つに関する要素を含むので、 G e n B a n kなどに登録された配列情報や、 P u b M e d などに登録された文献情報を取得して形式変換することができるようになる。つぎの発明にかかるプログラムは、構造化記述言語で記述された構造ィ匕データと、当該構造化データの構造を定義したスキーマデータとを取得する構造化データ取得ステップと、上記構造化データ取得ステップにて取得した上記構造化データおよび上記スキーマデータを、スキーマ形式変換指示情報に基づいて変換する形式変換ステツプと、上記形式変換ステップにて変換された変換後の構造化データおよびスキーマデータをデータベースに登録する構造化データ登録ステツプと、上記構造化データ登録ステップにて登録された上記データベースにアクセスしてデータ処理を行うッールプログラムと、当該ツールプログラムに入力される上記構造化データのスキーマのリソースを定義するスキーマリソース定義情報とを対応させて登録する分析ツール登録ステップと、上記ツールプログラムが起動された場合に、起動された当該ツールプログラムに対応する上記スキーマリソース定義情報に従つて、上記データベースに登録された構造化データおよびスキーマデータを動的に変換して当該ツールプログラムに入力する分析ツール起動ステップとを含む構造ィ匕データ処理方法をコンピュータに実行させることを特徴とする。このプログラムによれば、構造化記述言語で記述された構造化データと、当該構造化データの構造を定義したスキーマデータとを取得し、取得した構造ィ匕デ一タおよびスキーマデータを、スキーマ形式変換指示情報に基づいて変換し、変換された変換後の構造化データおよぴスキーマデータをデータベースに登録し、登録されたデータベースにアクセスしてデータ処理を行うツールプログラムと、当該ツールプログラムに入力される構造化データのスキーマのリソースを定義するスキーマリソース定義情報とを対応させて登録し、ツールプログラムが起動された場合に、起動された当該ツールプログラムに対応するスキーマリソース定義情報に従って、データベースに登録された構造ィヒデ一タおよびスキーマデータを動的に変換して当該ツールプログラムに入力するので、異なる構造化言語やスキーマ言語で記述された取得データを予めまたは必要に応じて定めた形式に変換することができるようになる。

また、各種の外部データベースから取得したデータ間の整合を容易にとることができるようになり、データ記述形式に関する高い拡張性を担保することができるようになる。その結果、各種のデータ記述形式に対応する外部データベースへのアクセスを容易に行うことができるようになる。すなわち、統一した特定の構造化記述言語の形式（例えば、 B SMLや B 1 o M L等）で内部のデータベースを管理することが可能になるため、データベースの利用効率などを著しく向上させることができるようになる。

また、スキーマに新たなリソース（例えば、 XMLの要素など）が追カ卩された場合であっても、容易に追加された形式に変換することができるようになる。また、各分析ツールにより随時項目追加が発生し、その追加項目を後段の分析ツールの処理で使用するような場合であっても、分析ツールの仕様に手を加えることなく、使用する各データの拡張性を容易に担保することができるようになる。また、共有部分のデータベースの一括形式変換を行うことができるようになる。つぎの発明にかかるプログラムは、上記のプログラムにおいて、上記構造化記述言語は、 XML、 S GML , B i o ML、 B SML、 A S N. 1、 GAME , 若しくは、これらのいずれかを拡張した構造化記述言語、または、これらと同等の記述能力を持つ構造化記述言語であることを特数とする。

これは構造ィヒ記述言語の一例を一層具体的に示すものである。このプログラムによれば、構造化記述言語は、 XML、 S GM L , B i o ML、 B SML、 A S N. 1、 GAME , 若しくは、これらのいずれかを拡張した構造ィ匕記述言語、または、これらと同等の記述能力を持つ構造ィヒ記述言語であるので、これらのバイ • ォインフォマテイクス分野において一般的に用いられる構造ィヒ記述言語により記述された構造化データを効率的に変換することができるようになる。

つぎの発明にかかるプログラムは、上記のプログラムにおいて、上記スキーマデータは、 D T D、 XMLスキーマ、 R E L AX、若しくは、これらのいずれかを拡張したスキーマ言語、または、これらと同等の記述能力を持つスキーマ言語により記述されたデータであることを特徴とする。

これはスキーマデータの一例を一層具体的に示すものである。このプログラムによれば、スキーマデータは、 D TD、 XMLスキーマ、 R E LAX、若しくは、これらのいずれかを拡張したスキーマ言語、または、これらと同等の記述能力を持つスキーマ言語により記述されたデータであるので、これらのバイオインフォマテイクス分野において一般的に用いられるスキーマ言語により記述されたスキ一マデータを効率的に変換することができるようになる。

つぎの発明にかかるプログラムは、上記のプログラムにおいて、上記スキーマ形式変換指示情報おょぴ上記スキーマリソース定義情報は、 X S L、若しくは、これを拡張した言語、または、これらと同等の記述能力を持つ木構造変換言語により記述されたデータであることを特徴とする。

これはスキーマ形式変換指示情報おょぴスキーマリソース定義情報の一例を一層具体的に示すものである。このプログラムによれば、スキーマ形式変換指示情報およびスキーマリソース定義情報は、 X S L、若しくは、これを拡張した言語、または、これらと同等の記述能力を持つ木構造変換言語により記述されたデータであるので、これらのバイオインフォマティクス分野において一般的に用いられるスキーマ変換記述言語により記述されたスキーマ形式変換指示情報およぴスキ一マリソース定義情報に基づいて、構造化データおょぴスキーマデータを効率的に変換することができるようになる。

つぎの発明にかかるプログラムは、上記のプログラムにおいて、上記構造化データは、塩基配列および Zまたはアミノ酸配列を含む配列情報、文献情報のうち少なくとも一つに関する要素を含むことを特徴とする。

これはスキーマ形式変換指示情報およびスキーマリソース定義情報の一例を一層具体的に示すものである。このプログラムによれば、構造化データは、塩基配列および Zまたはアミノ酸配列を含む配列情報、文献情報のうち少なくとも一つに関する要素を含むので、 G e n B a n kなどに登録された配列情報や、 P u b M e dなどに登録された文献情報を取得して形式変換することができるようになる。

つぎの発明にかかる記録媒体は、上記のプログラムを記録したことを特敷とする。

この記録媒体によれば、当該記録媒体に記録されたプログラムをコンピュータに読み取らせて実行することによって、上記のプログラムをコンピュータを利用して実現することができ、これら各方法と同様の効果を得ることができる。図面の簡単な説明

第 1図は、遺伝子の塩基配列または蛋白質のアミノ酸配列の配列情報データべースの基本的なデータ構造の例を示す図であり、第 2図は、本発明が適用される本システムの構成の一例を示すブロック図であり、第 3図は、本発明の基本原理を示す原理構成図であり、第 4図は、本発明による取得データの形式変換の一例を説明する概念図であり、第 5図は、分析ツールの入力データの形式変換の処理を示すフロー図であり、第 6図は、 X S Lにより記述された配列情報のスキーマ形式変換指示情報の一例を示す図であり、第 7図は、第 6図に示すスキーマ形式変換指示情報により形式変換された後の構造化データ（XML文書）の一例を示す図であり、第 8図は、第 6図に示すスキーマ形式変換指示情報により形式変換された後のスキーマデータ（D T D) の一例を示す図であり、第 9図は、 X S L により記述された文献情報のスキーマ形式変換指示情報の一例を示す図であり、第 1 0図は、第 9図に示すスキーマ形式変換指示情報により形式変換された後の構造化データ（XML文書）の一例を示す図であり、第 1 1図は、第 9図に示すスキーマ形式変換指示情報により形式変換された後のスキーマデータ（D T D) の一例を示す図であり、第 1 2図は、遺伝子発現制御解析処理の処理の概要を示すフロー図であり、第 1 3図は、転写単位の予測の概要を示す概念図であり、第 1 4図は、制御部位の予測の概要を示す概念図であり、第 1 5図は、制御遺伝子の予測の概要を示す概念図であり、第 1 6図は、 B I分野で一般的に用いられる B S MLにより記述されたデータと、同様に一般的に用いられる B i o MLにより記述されたデータとの構造的な相違を説明するための図であり、第 1 7図は、本発明が適用される構造化データ処理装置の概念を説明するための図であり、第 1 8図は、本発明が適用される構造化データ処理装置の基本構成を示す図であり、第 1 9図は、文書格納サービスのメインルーチンを示すフロー図であり、第 2 0 '図は、文書格納サービスのサブルーチン「形式変換処理」を示すフロー図であり、第 2 1図は、文書格納サービスのサブルーチン「文書登録処理」を示すフロー図であり、第 2 2図は、解析処理.ツール登録サービスの処理を説明するためのフロ一図であり、第 2 3図は、角早析処理サービスの処理を説明するためのフロー図であり、第 2 4図は、第 1 3図で示した転写単位データベースのスキーマデータについて D T Dを用いて記述した場合を一例に示す図であり、第 2 5図は、第 1 3 図で示した転写単位データベースの構造ィ匕データについて XM L文書を用いて記述した場合を一例に示す図であり、第 2 6図は、第 1 4図で示した制御部位データベースのスキーマデータについて D T Dを用いて記述した場合を一例に示す図であり、第 2 7図は、第 1 4図で示した制御部位データベースの構造化データについて XML文書を用いて記述した場合を一例に示す図であり、第 2 8図は、第 1 5図で示した制御ネットワークデータベースのスキーマデータについて D T D を用いて記述した場合を一例に示す図であり、第 2 9図は、第 1 5図で示した制御ネットワークデータベースの構造化データについて XML文書を用いて記述した場合を一例に示す図であり、第 3 0図は、スキーマリソース定義情報の概念について説明する図である。発明を実施するための最良の形態

以下に、本発明にかかる構造ィヒデータ処理装置、構造ィヒデータ処理方法、プログラム、および、記録媒体の実施の形態を図面に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。

特に、以下の実施の形態においては、本発明を、 XM Lベースの構造化記述言語およびスキーマ言語に適用した例について説明するが、この場合に限られず、他のいずれの構造ィ匕記述言語およぴスキーマ言語に適用可能なシステム等について、同様に適用することができる。

[本発明の概要〗

以下、本発明の概要について説明し、その後、本発明の構成および処理等について詳細に説明する。第 3図は本発明の基本原理を示す原理構成図である。

本発明は、概略的に、以下の基本的特徴を有する。すなわち、本発明は、まず、構造化記述言語で記述された構造化データと、当該構造化データの構造を定義したスキーマデータとを、インターネット等を介してタト部のデータベース等から取得する（ステップ SA— 1) 。

ここで、外部のデータベースは、例えば、 Ge nB a nk、 EMB L (Eu r o p e a n Mo l e c u l a r B i o l o gy L a b o r a t o r y) 、 DDB J (DNA D a t a B a nk o f J a a n) 等の配列データべースや、 GDB (Ge nome Da t a B a s e) _% OM I M (o n 1 i n e me n d e l i a n i nh e r i t a n c e i n ma n) 等のヒ卜ゲノム地図データに関するデータベースや、 P I R (P r o t e i n I d e n t i f i c a t i o n Re s ou r c e；) 、 SWI SS— PROT、 PRF等のアミノ酸配列データベースや、 PROS I TE、 B LOCKS等の蛋白質機能データベースや、 PDB (P r o t e i n Da t a B a nk) 等の蛋白質立体構造データベースや、 En t r e z等の統合型データベースや、 Pu bMe d等の文献データベース等が公知である。これらの各データベースは、それぞれ予め定めた構造化記述言語により構造化データを記述し、また、同様に予め定めたスキーマ言語により記述された、構造ィヒデータに対応するスキーマデータを収集している。

ここで、外部のデータベースなどから取得する構造化データを記述する構造ィ匕記述言語は、 XML、 SGML, B i oML、 B SML、 ASN. 1、 GAME, 若しくは、これらのいずれかを拡張した構造ィ匕記述言語、または、これらと同等の記述能力を持つ構造ィ匕記述言語であってもよく、また、スキーマデータは、 D TD、 XMLスキーマ、 RELAX、若しくは、これらのいずれかを拡張したスキーマ言語、または、これらと同等の記述能力を持つスキーマ言語により記述されたデータであってもよい。

次に、本発明は、取得した構造ィヒデータおよびスキーマデータを、スキーマ形式変換指示情報に基づいて変換する（ステップ SA— 2) 。ここで、第 4図は、本発明による取得データの形式変換の一例を説明する概念図である。 ' 第 4図に示すように、構造ィヒ記述言語で記述された構造ィ匕データと、スキーマ言語で記述されたスキーマデータとをそれぞれ外部のデータベースなどから取得すると、予め定めたスキーマ形式変換指示情報に従って、取得データを変換する。ここで、スキーマ形式変換指示情報は、 X S L、若しくは、これを拡張した言語、または、これらと同等の記述能力を持つ木構造変換言語により記述されたデータであってもよく、この場合、変換処理は、 X a 1 a n (A P A C HE XM L P R O J E C T) や X T ( J a m e s C 1 a r k ) 等の既知の X S L Tプ口セッサを用いて実行してもよい。

ここで、第 6図は、 X S Lにより記述された配列情報のスキーマ形式変換指示情報の一例を示す図であり、第 7図は、第 6図に示すスキーマ形式変換指示情報により形式変換された後の構造化データ（XML文書）の一例を示す図であり、また、第 8図は、第 6図に示すスキーマ形式変換指示情報により形式変換された後のスキーマデータ（D T D) の一例を示す図である。第 6図に示す X S L文書により、取得データのスキーマデータは第 8図に示す D TDの形式に変換され、構造化データは第 7図に示す XM L文書に変換される。

第 8図に示す変換後の D T Dの例では、構造化データ内で用いられる要素（ ELEMENT)は、 Sequence 、 Title 、 Nucleotide, Peptide, Reference 、 RefTitle、 Idであり、それぞれの要素の型を定義している。各要素のうち「Sequence」は、塩基配列データを意味し、配列に関する自然言語による説明を意味する「Title 」と、塩基配列を意味する「Nucl_eotide」と、塩基配列を変換したアミノ酸配列を意味する「Peptide」と、参考文献の題名を意味する「RefTitle」および参考文献の参照番号を意味する「Id」を子の要素として備え、参考文献を意味する「 Reference] と、を子の要素として備える。

また、第 9図は、 X S Lにより記述された文献情報のスキーマ形式変換指示情報の一例を示す図であり、第 1 0図は、第 9図に示すスキーマ形式変換指示情報により形式変換された後の構造化データ（XML文書）の一例を示す図であり、また、第 1 1図は、第 9図に示すスキーマ形式変換指示情報により形式変換された後のスキーマデータ（D T D) の一例を示す図である。

第 1 1図に示す変換後の D T Dの例では、構造ィ匕データ内で用いられる要素（ ELEMENT) は、 Literature, Title, Abstract, Link, Idであり、それぞれの要素の型を定義している。各要素のうち（"LiteratureJ は、文献データ全体を意味し、文献の題名を意味する「Title」と、文献の概要を意味する「Abstract」と、関連する配列データへの参照番号集合を意味し、個々の参照番号を意味する「Id 」を子の要素として備える「LinkJ と、を子の要素として備える。

これにより、異なる構造化言語やスキーマ言語で記述された取得データを予めまたは必要に応じて定めた形式に変換することができるようになるので、各種の外部データベースから取得したデータ間の整合を容易にとることができるようになりデータ記述形式に関する高い拡張性を担保することができるようになる。その結果、各種のデータ記述形式に対応する外部データベースへのアクセスを容易に行うことができるようになる。すなわち、統一した特定の構造化記述言語の形式（例えば、 B SMLや B i o ML等）で内部のデータベースを管理することが可能になるため、データベースの利用効率などを著しく向上させることができるようになる。

また、スキーマに新たなリソース（例えば、 XMLの要素など）が追加された場合であっても、容易に追加された形式に変換することができるようになる。また、本発明は、外部のデータベースからデータを取得する場合に限られず、同様に自己が管理する内部データベースからデータを取得することにより、内部データの一括形式変換を行うことができるようになる。

再び第 3図に戻り、本発明は、次に、変換された変換後の構造化データおよびスキーマデータをデータベースに登録する（ステップ S A— 3 ) 。 .

ここで、既知の XML格納システム（例えば、 e X c e l o n、 T a m i n o 等の D OM木格納のもの、 XMLネイティブ格納方式のもの、 RD Bラッパ一形式のもの、または、同等機能の処理系をもつもの等）を用いてもよい。

次に、本発明は、ステップ S A— 3において登録された各種のデータベースにアクセスしてデータ処理を行うツールプログラム（分析ツール）と、当該ツーノレプログラムに入力される構造ィ匕データのスキーマのリソースを定義するスキーマリソース定義情報とを対応させて登録する（ステップ SA— 4) 。

ここで、スキーマリソース定義情報の概念について第 30図を参照して説明する。スキーマリソース定義情報は、例えば、各種のデータベースに登録された構造化データのスキーマデータと、各種のツールの入力書式とのマッピングを定義することにより、登録された各データソースと、ツールの利用形態の各リソースとの対応を定義してもよい。また、スキーマリソース定義情報は、 XSL、若しくは、これを拡張した言語、または、これらと同等の記述能力を持つ木構造変換言語により記述されたデータであってもよい。

次に、本発明は、ツールプログラム（分析ツール）が起動された場合に、起動された当該ツールプログラムに対応するスキーマリソース定義情報に従って、データベースに登録された構造化データおよぴスキーマデータを動的に変換して（ステップ S A— 6) 、該ツールプログラムに入力する（ステップ SA— 7) 。ここで、分析ツールの入力データの形式変換の処理フローを第 5図に示す。まず、ユーザが登録された分析ツール A を起動すると（ステップ SB— 1) 、分析ツール格納ファイルから分析ツール Aを読み出して（ロード）、 CPUが分析ツール Aを実行可能な状態にする（ステップ SB— 2) 。

そして、本発明は、スキーマリソース定義ファイルから分析ツール Aに対応するスキーマリソース定義情報 A (例えば、 XSL文書など）を取得する（ステツプ SB— 3) 。

そして、本発明は、取得したスキーマリソース定義情報 Aにより、各データべースに登録された各構造化データおよぴ各スキーマデータの形式を変換する（ステツプ SB— 4) 。

そして、変換後の各構造ィ匕データおよび各スキーマデータを分析ツール Aの入力データとする（ステップ SB— 5) 。これにて、変換処理を終了する。

ここで、ステップ S A— 6の変換処理は、 Xa l a n (APACHE XML PROJECT) や XT (J ame s C l a r k) 等の既知の XS LTプロセッサを用レ、て実行してもよい。

再び第 3図に戻り、次に、本発明は、分析ツールの処理結果を各種のデータべースに登録し、出力装置に処理結果を出力する（ステップ SA— 8) 。

ここで、 3種類の分析ツールを起動して遺伝子発現制御解析を実行し、これらの処理結果を各種のデータベースに登録する場合の処理概要を第 12図〜第 15 図および第 240〜第 29図等を参照して説明する。

第 12図は、遺伝子発現制御解析処理の処理の概要を示すフロー図である。 ■ まず、本発明は、第 13図に示すように、転写単位予測ツールを起動して転写単位を予測する（ステップ SC— 1) 。ここで、第 13図は、転写単位の予測の概要を示す概念図である。

第 13図に示すように、まず、各種の外部データベースにアクセスして種々のデータを取得し、これらの上述の方法により必要に応じて形式変換を行って共有部分のデータベースを予め作成しておく。

そして、転写単位予測ツールは、対応するスキーマリソース定義情報に基づいて共有部分のデータベースにアクセスして適宜形式変換が行われたデータを入力データとして処理を行い、処理結果を転写単位データベースに登録する。転写単位予測ツールのスキーマリソース定義情報は、遺伝子名データベースから各遺伝子について、（遺伝子名、開始位置、終了位置）の形式で転写単位予測ツールの入力データにマッピングしている。すなわち、遺伝子名データベースに登録された各遺伝子のデータは、転写単位予測ツールのスキーマリソース定義情報により (遺伝子名、開始位置、終了位置）の形式のデータに変換されて、転写単位予測ツールの入力データとなる。

ここで、第 13図で示した転写単位データベースに格納されるスキーマデータおよび構造ィヒデータの一例を第 24図おょぴ第 25図を参照して説明する。第 24図は、第 13図で示した転写単位データベースのスキーマデータについて DTDを用いて記述した場合を一例に示す図であり、第 25図は、第 1 3図で示した転写単位データベースの構造化データについて XML文書を用いて記述した場合を一例に示す図である。第 2 4図に示すように、第 1 3図で示した転写単位データベースの文書型が定義され、第 2 5図に示すように構造化データが記述される。

再び、第 1 2図に戻り、次に、本発明は、第 1 4図に示すように制御部位予測ツールを起動して制御部位を予測する（ステップ S C—2 ) 。ここで、第 1 4図は、制御部位の予測の概要を示す概念図である。

起動された制御部位予測ツールは、対応するスキーマリソース定義情報に基づ V、て共有部分のデータベースに Tクセスして適宜形式変換が行われたデータや、 B L A S T等の他の配列統計処理ツールの処理結果データや、転写単位予測ツールの処理結果を格納した転写単位データベースに登録されたデータなどを入力データとして処理を行い、処理結果を制御部位データベースに登録する。制御部位予測ツールのスキーマリソース定義情報は、転写単位データベース、遺伝子名データベース、全ゲノムデータベースから、各転写単位について、（転写単位識別子、開始位置、終了位置、任意の長さのアミノ酸配列）の形式で制御部位予測ッールの入力データとマッピングを行い、また、配列統計処理ツールの処理結果から任意の長さのァミノ酸部分配列の全ての出現する組合せについて、（アミノ酸部分配列、ゲノム中の出願回数）の形式で制御部位予測ツールの入力データとマッビングを行う。また、 B L A S Tなどの配列統計処理ツールのスキーマリソース定義情報は、全ゲノムデータベースから配列全体を取り出すように配列統計処理ツールの入力データとマツピングを行う。

ここで、第 1 4図で示した制御部位データベースに格納されるスキーマデータおよび構造ィ匕データの一例を第 2 6図および第 2 7図を参照して説明する。第 2 6図は、第 1 4図で示した制御部位データベースのスキーマデータについて D T Dを用いて記述した場合を一例に示す図であり、第 2 7図は、第 1 4図で示した制御部位データベースの構造化データについて XML文書を用いて記述した場合を一例に示す図である。第 2 6図に示すように、第 1 4図で示した制御部位データベースの文書型が定義され、第 2 7図に示すように構造化データが記述される。

再び、第 1 2図に戻り、次に本発明は、第 1 5図に示すように制御遺伝子予測ツールを起動して制御遺伝子を予測する（ステップ S C— 3 ) 。ここで、第 1 5 図は、制御遺伝子の予測の概要を示す概念図である。

起動された制御遺伝子予測ツールは、対応するスキーマリソース定義情報に基づレ、て共有部分のデータベースにアクセスして適宜形式変換が行われたデータや、 B L A S T等の他の配列統計処理ツールの処理結果データや、転写単位予測ツールの処理結果を格納した転写単位データベースに登録されたデ一タや、制御部位予測ッールの処理結果を格納した制御部位データベースに登録されたデ一タなどを入力データとして処理を行い、処理結果を制御ネットワークデータベースに登録する。制御遺伝子予測ツールのスキーマリソース定義情報は、配列データべ一スから、各 D N A結合蛋白質の遺伝子について、（遺伝子名、アミノ酸配列）の形式で制御遺伝子予測ツールの入力データとマツビングを行レ、、また、転写単位データベース、全ゲノムデータベースから各転写単位について、（転写単位識別子、制御部位（開始位置、終了位置、アミノ酸配列）のリスト）の形式で制御遺伝子予測ツールの入力データとマツビングを行う。

ここで、第 1 5図で示した制御ネットワークデータベースに格納されるスキーマデータおよび構造ィヒデータの一例を第 2 8図および第 2 9図を参照して説明する。

第 2 8図は、第 1 5図で示した制御ネットワークデータベースのスキーマデータについて D T Dを用いて記述した場合を一例に示す図であり、第 2 9図は、第 1 5図で示した制御ネットワークデータベースの構造化データについて XM L文書を用いて記述した場合を一例に示す図である。第 2 8図に示すように、第 1 5 図で示した制御ネットワークデータベースの文書型が定義され、第 2 9図に示すように構造化データが記述される。

これにて、遺伝子発現制御解析処理を終了する。このように、各分析ツールにより随時項目追加が発生し、その追加項目を後段の分析ツールの処理で使用するような場合であっても、分析ツールの仕様に手を加えることなく、使用する各データの拡張性を容易に担保することができるようになる。また、共有部分のデータベースの一括形式変換を行うことができるようになる。

[システム構成]

まず、本システムの構成について説明する。第 2図は、本発明が適用される本システムの構成の一例を示すプロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。本システムは、概略的に、構造化データ処理装置 1 0 0と、配列情報等に関する外部データベースゃホモロジ一検索等の外部プログラム等を提供する外部システム 2 0 0とを、ネットワーク 3 0 0を介して通信可能に接続して構成されている。

第 2図においてネットワーク 3 0 0は、構造化データ処理装置 1 0 0と外部システム 2 0 0とを相互に接続する機能を有し、例えば、インターネット等である。第 2図において外部システム 2 0 0は、ネットワーク 3 0 0を介して、構造ィ匕データ処理装置 1 0 0と相互に接続され、利用者に対して配列情報等に関する外部デ、ータベースやホモ口ジー検索やモチーフ検索等の外部プロダラムを実行するウェブサイトを提供する機能を有する。

ここで、外部システム 2 0 0は、 WE Bサーバや A S Pサーバ等として構成してもよく、そのハードウェア構成は、一般に市販されるワークステーション、パーソナルコンピュータ等の情報処理装置およびその付属装置により構成してもよレ、。また、外部システム 2 0 0の各機能は、外部システム 2 0◦のハードウエア構成中の C P U、ディスク装置、メモリ装置、入力装置、出力装置、通信制御装置等およぴそれらを制御するプログラム等により実現される。

第 2図において構造化データ処理装置 1 0 0は、概略的に、構造化データ処理装置 1 0 0の全体を統括的に制御する C P U等の制御部 1 0 2、通信回線等に接続されるルータ等の通信装置（図示せず）に接続される通信制御インターフエ一ス部 1 0 4、入力装置 1 1 2や出力装置 1 1 4に接続される入出力制御インターフェース部 1 0 8、および、各種のデータベースやテーブルなどを格納する記憶部 1 0 6を備えて構成されており、これら各部は任意の通信路を介して通信可能に接続されている。さらに、この構造ィ匕データ処理装置 1 0 0は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、ネットワーク 3 0 0に通信可能に接続されている。

記憶部 1 0 6に格納される各種のデータベースやテーブル（構造化データ格納データベース 6 a〜処理結果データベース 1 0 6 ί ) は、固定ディスク装置等のストレージ手段であり、各種処理に用いる各種のプログラムやテーブルゃフアイルゃデ一タベースやゥェプぺージ用フアイル等を格納する。

これら記憶部 1 0 6の各構成要素のうち、構造化データ格納データベース 1 0 6 aは、構造化データを格納したデータベースである。

また、スキーマデータ格納データベース 1 0 6 bは、スキーマデータを格納するデータベースである。

また、スキーマ形式変換指示情報ファイル 1 0 6 cは、スキーマ形式変換指示情報等を格納するスキーマ形式変換指示情報格納手段である。

また、分析ツール格納ファイル 1 0 6 dは、分析ツールに関する情報等を格納する分析ツール格納手段である。

また、スキーマリソース定義ファイル 1 0 6 eは、スキーマリソース定義情報等を格納するスキーマリソース定義情報格納手段である。

また、処理結果データベース 1 0 6 f は、分析ツールの処理結果に関する情報等を格納する処理結果格納手段である。

また、第 2図において、通信制御インターフェース部 1 0 4は、構造化データ処理装置 1 0 0とネットワーク 3 0 0 (またはルータ等の通信装置）との間における通信制御を行う。すなわち、通信制御インターフェース部 1 0 4は、他の端末と通信回線を介してデータを通信する機能を有する。

また、第 2図において、入出力制御インターフェース部 1 0 8は、入力装置 1 1 2や出力装置 1 14の制御を行う。ここで、出力装置 1 14としてはモニタ (家庭用テレビを含む）の他、スピーカを用いることができる（なお、以下にお' いては出力装置 1 14をモニタとして記載する場合がある）。また、入力装置 1 1 2としては、キーボード、マウス、および、マイク等を用いることができる。また、モニタも、マウスと協働してポインティングデバイス機能を実現する。また、第 2図において、制御部 102は、 OS (Op e r a t i n g S y s t ern) 等の制御プログラム、各種の処理手順等を規定したプログラム、および所要データを格納するための內部メモリを有し、これらのプログラム等により、種々の処理を実行するための情報処理を行う。制御部 1 02は、機能概念的に、構造化データ取得部 102 a, 形式変換部 1 02 b, 構造化データ登録部 1 02 c、分析ツール登録部 1 02 d、分析ツール起動部 1 02 e、および、処理結果登録部 102 ίを備えて構成されている。

このうち、構造化データ取得部 1 02 aは、構造化記述言語で記述された構造化データと'：当該構造化データの構造を定義したスキーマデータとを取得する構造化データ取得手段である。

また、形式変換部 102 bは、構造ィ匕データ取得手段にて取得した上記構造ィ匕データおよび上記スキーマデータを、スキーマ形式変換指示情報に基づいて変換する形式変換手段である。

また、構造化データ登録部 1 02 cは、形式変換手段にて変換された変換後の構造化データおよぴスキーマデータをデータベースに登録する構造化データ登録手段である。

また、分析ツール登録部 1 02 dは、構造ィ匕データ登録手段にて登録された上記データベースにアクセスしてデータ処理を行うッールプログラムと、当該ツールプログラムに入力される上記構造ィ匕データのスキーマのリソースを定義するスキーマリソース定義情報とを対応させて登録する分析ツール登録手段である。また、分析ツール起動部 1 02 eは、ツールプログラムが起動された場合に、起動された当該ッールプログラムに対応する上記スキーマリソース定義情報に従つて、上記データベースに登録された構造化データおよびスキーマデータを動的に変換して当該ッールプログラムに入力する分析ッール起動手段である。

また、処理結果登録部 1 0 2 f は、分析ツールの処理結果をデータベースに登録する処理結果登録手段である。

なお、これら各部によって行なわれる処理の詳細については、後述する。

[実施例]

次に、このように構成された本実施の形態における本システムの処理の一例について、以下に第 1 7図〜第 2 3図等を参照して詳細に説明する。

第 1 7図は、本発明が適用される構造化データ処理装置の概念を説明するための図である。

本発明は、第 1 7図に示すような各データベースを設ける。本データベースは、複数のサブデータベースから構成される。第 1 7図中のサブデータベース「酉己列データベース」には配列データを格納する。第 1 7図では配列データベースはひとつしか示されていないが、複数あっても良い。

配列データベースの各レコードには、少なくとも塩基またはァミノ酸配列データ本体が入る。 BSML 、 BioML、 GAME のように、部分修飾記述や全体記述が含まれても良い。

複数の配列データに関係するデータは、配列データベースとは別にサブデータベース「関係データベース」に格納する。第 1 7図中では関係データベース A乃至 Dの 4種類の関係データベースが示されている。

関係データベースの各レコードには、少なくとも 1つの参照情報が含まれる。参照情報は、システム内のサブデータベースまたは外部データベースのレコード全体、またはレコード内の特定部分を差し示している。関係データベースの各レコードには部分修飾記述や全体記述その他が含まれても良い。第 1 7図中では関係データベース「D」に配列データベースと関係データベース「A」乃至「C」への参照を含むレコードが存在することが、「参照」というラベルの付！/ヽた矢線で示されている。第 1 8図は、本発明が適用される構造ィヒデータ処理装置の基本構成を示す図である。本発明は、第 1 8図に示すようなデータベースシステム（構造化データ処理装置）を構成する。このシステムは、基本処理モジュール、拡張処理モジユール、記憶部から構成されている。

基本処理モジュールは、ツール登録処理部（概念的に第 2図における分析ツール登録部 1 0 2 dに対応する）、文書登録処理部（概念的に第 2図における構造化データ登録部 1 0 2 cに対応する）、形式変換処理部（概念的に第 2図における形式変換部 1 0 2 bに対応する）、サービス仲介処理部（概念的に第 2図における分析ツール起動部 1 0 2 eおよび処理結果登録部 1 0 2 f に対応する）、リンク処理部から構成されている。拡張処理モジュールは、いくつかのツール部 ( 第 1 8図中、分析ツール A、分析ツール B、 · · 'であり、これらは、概念的に第 2図における分析ツール格納ファイル 1 0 6 dに対応する）から構成されている。記憶部は構造格納部（概念的に第 2図における構造化データ格納データべ一ス 1 0 6 aに対応する）、スキーマ格納部（概念的に第 2図におけるスキーマデータ格納データベース 1 0 6 bに対応する）、スキーマリソース定義部（概念的に第 2図におけるスキーマリソース定義ファイル 1 0 6 eに対応する）、結果フアイル（概念的に第 2図における処理結果データベース 1 0 6 f に対応する）からなる。

そして、本システムは、大きく 3つのサービスを提供する。これらのサービスは、第 1 8図におけるツール登録処理部による解析処理ツール登録サービス、文書登録処理部による文書格納サービス、サービス仲介処理部による解析処理（検索処理などを含む）サービスからなっている。

解析処理ツール登録サービスでは、ツール登録処理部が解析ツールとそれに対になるリソース定義を読み込み、解析ツールをツール部に、リソース定義をスキ一マリソース定義部にそれぞれ登録する。

文書格納サービスでは、 D TD XML— S c h e m aや R E L AXなどの文書型を明記した構造ィ匕文書を読み込み、必要に応じて形式変換処理を行ない、構造格納部に格納する。次に、その構造化文書の文書型（複数あっても良い）が既に登録されているかどうかスキーマ格納部に問！/、合わせる。既に登録されている場合は何もしないが、登録されていない場合は文書型を取得しスキーマ格納部に登録する。

角析処理サービスでは、サービス仲介処理部がサービス要求を受け取り、その実行に必要な解析処理ツールを決定する。その解析ツールと対になるリソース定義をスキーマリソース定義部から取得する。サービス仲介処理部は、実行に必要な文書データをリソース定義などに従ってリンク参照を解決しながら構造格納部から文書集合を取得する。また、その文書集合の処理を解析処理ツールに依頼し、結果を生成する。

ここで、第 1 8図中の太い矢線は、データの移動を意味する。ただし、構造格納部から出る矢線については、必ずしも実際のデータ移動を意味せず、参照情報 (ポインタ）のみを移動させることを意味する場合もある。

すなわち、本発明の一態様によれば、本発明の構造ィ匕データ処理装置は、遺伝子の塩基配列または蛋白質のアミノ酸配列に関連した情報を管理する構造化データ処理装置であって、上記塩基配列または上記アミノ酸配列に関する配列データを格納する配列データ格納部と、複数の上記配列データに関係する関係データを格納する複数の関係データ格納部とを備え、上記塩基配列または上記ァミノ酸配列の全体に関する情報は、上記配列データ格納部または上記関係データ格納部に格納され、上記関係データ格納部に格納された各関係データレコードは、上記関係データ格納部自身への参照構造、または上記配列データ格納部を構成するデータレコード全体または一部への参照構造を有することを特徴とする。

また、本発明の構造化データ処理装置は、基本処理部と、拡張処理部と、記憶部とを備え、上記基本処理部が、解析ツールおよび上記解析ツールと対になるリソース定義を読み込み、上記解析ツールおよび上記リソース定義を登録するツール登録部と、文書型を明記した構造化文書を読み込み、必要に応じて形式変換処理を行ない、上記記憶部に上記構造ィ匕文書を登録する文書登録部と、サービスの要求を受け取り、上記サービスの実行に必要な解析処理ツールを決定するサービス仲介部と、上記参照構造への参照を行なうリンク処理部とを備え、上記拡張処理部が、上記構造化文書の解析処理を実行する複数種類の解析処理ツールを備え、上記記憶部が、上記文書登録部によって読み込んだ上記構造ィ匕文書を格納する構造格納部と、上記構造ィ匕文書のスキーマを格納するスキーマ格納部と、上記ツール登録部によって登録されるリソース定義を格納するスキーマリソース定義部とを備え、上記構造格納部が、構造ィ匕文書の木構造を保ったまま格納することが望ましい。

また、本発明の構造ィヒデータ処理装置は、外部データベースからデータを読み込み、上記配歹 ijデータ格納部または上記関係データ格納部に格納するためのデータに変換する変換手段を備えることが望ましい。

また、本発明の構造化データ処理装置は、上記配列データ格納部または上記関係データ格納部を検索し、検索した結果を構造化文書で出力する検索手段を備えることが望ましい。

また、本発明の構造化データ処理装置は、上記検索手段が、 BSML (B i o S e q u e n c e Ma r kup La n gu a g e) 开式の記述开式に変換することが望ましい。

また、本発明の構造化データ処理装置は、上記検索手段が、 B i oML (B I O o l yme r Ma r kup L a n gu a g e) 开$式の記述开$式に変換することが望ましい。

以下、本発明の実施例の処理概要を、図面を参照しながら詳細に説明する。構造化データ処理装置（システム）は、第 18図に示すように構成されている。本実施の形態では、特定目的を達成するための構成方法を具体的に示す。ここでは、塩基配列を入力と.して、関連する塩基配列を検索するサービスを目的とする。このとき関連配列は、次のようにして探す。

まず、塩基配列を含むレコードからリンクされている文献レコードに自然言語的に近い文献レコードを求める。この文献レコードに含まれる塩基配列が検索結果となる。このように文献データを用いて関連配列を検索する方法をここでは「文献類似法」と呼ぶ。文献類似法では 2つの配列間に介在する文献 DBレコードの数（上記説明では 2) を増減することでヒット件数を制御することができる。上述したように、本システムは、 3つのサービスを提供する。本実施の形態では、コマンド、ライブラリ、 TCP/ I Pサービス、 h t t pサービス（CG I ) など複数考えられるが、ここの説明では簡便のためコマンドとする。

本システムが稼働状態にあるときには、次のサービスコマンドを実行できる。

(1) 文書格納サービス

( 2 ) 解析処理ツール登録サービス

(3) 解析処理サービス

ただし、サービス（2) は、サービス（1) の格納条件に依存し、サービス (3) は、サービス（1) とサービス（2) の格納 '登録条件に依存する。これらの各条件の詳細は後述する。

(1) 文書格納サービス

文書格納サービスコマンド（1) は、次のように実行する。 store <文書名〉 < スキーマ名〉 [くスキーマ変換記述名〉] ここで、 "store " は、文書格納サービスコマンド名である。く文書名〉には、格納する XML文書のファイル名を、くスキーマ名〉には、格納する XML文書の文書型定義（DTD) のファイル名を、くスキーマ変換記述名〉には、格納する XML文書のスキーマから本システム用のスキーマへの変換指示を XS L言語で記したファイル名を指定する。形式変換を行わないでそのままの形式で構造格納部へ格納する場合は、スキーマ変換記述名は省略しても良レ、。

第 19図乃至第 21図は、文書格納サービスの処理を示すフロー図である。第 19図は、文書格納サービスのメインルーチンを示すフロー図である。

store コマンドによる文書格納サービスは、次の手順で実行される。まず、ステップ S 31において、格納する構造化文書のスキーマがスキーマ格納部に登録されているかどうかを調べる。

ステップ S 31で格納されていないと判断された場合（ステップ S 31 ： NO ) は、ステップ S 32において、スキーマ変換記述が利用可能かどうかを調べる。 —方、ステップ S 31で格納されている場合（ステップ S 31 ： YES) は、サブルーチン文書登録処理へ進む。サブルーチン文書登録処理については、第 5図を用いて後述する。

そして、ステップ S 32で利用可能であると判断された場合（ステップ S 32 ： YES) は、サブルーチン形式変換処理へ進む。サブルーチン形式変換処理については、第 20図を用いて後述する。一方、ステップ S 32で利用可能でないと判断された場合（ステップ S 32 ： NO) は、サブルーチン文書登録処理へ進む。

第 20図は、文書格納サービスのサブルーチン「形式変換処理」を示すフ口一図である。

形式変換処理は、次の手順で実行される。

まず、ステップ S 41において、格納する構造化文書のスキーマとスキーマ変換記述から格納構造のスキーマを生成する。

そして、ステップ S42において、スキーマ変換記述に従って構造ィヒ文書を変換し、その結果をステップ S 41で生成したスキーマと共にサブルーチン文書登録処理に渡す。ここで、上記変換は、一般に入手可能な XS LTプロセッサ（S a x o n, Xa 1 a n等）または同等機能の処理系を利用する。

第 21図は、文書格納サービスのサブルーチン「文書登録処理」を示すフロー図である。

文書登録処理は次の手順で実行する。

まず、ステップ S 51において、文書を構造格納部に格納する。ここで、上記格納は、市販の XML格納システム（eXc e l on、 T ami n o等の DOM 木格納、 XMLネイティブ格納方式のもの、 RDBラッパ一方式のもの、または同等機能の処理系）を用いる。

そして、ステップ S 5 2において、スキーマがスキーマ格納部に登録されている力否かを判断する。

ステップ S 5 2で登録されていないと判断された場合（ステップ S 5 2 ： N O ) は、ステップ S 5 3において、スキーマを登録して終了する。一方、ステップ S 5 2で登録されていると判断された場合（ステップ S 5 2 ： Y E S ) は、そのまま終了する。

次に、文書格納サービスの実行例を以下に示す。

この実行例では、文書を XMLで表現し、スキーマを XML D T D (文書型定義）で表現する。格納するデータは、下記の UR Lのサービスを用いて XM L 文書としてローカルに保存する。配列データは、 G e n B a n kサービスを利用し、文献データは、 P u b M e d サービスを利用する（ http ://www. ncbi. nlm. nih. gov/Genbank/ 参照）。 G e n B a n k力、ら直接取得できるデータとスキーマの引用は割愛する。

配列データのスキーマ変換記述を sequence, xsl (第 6図）とし、文献データのスキーマ変換記述を literature, xsl (第 9図）とする。以上のデータが形式変換処理への入力となる。

形式変換処理後、文書登録処理が行なわれるデータは次のようになる。

配列データは、 sequence, xml (第 7図）、スキーマは、 squence. dtd (第 8図 ) となる。

Sequence タグは、配列全体を意味し、 Title タグは、配列に関する自然言語による説明を意味し、 Nucleotide タグは、塩基配列を意味し、 Peptide タグは、塩基配列を変換したアミノ酸配列を意味し、 Reference タグは、参考文献を意味し、 RefTitle タグは、参考文献の題名を意味し、 Idタグは、参考文献の参照番号を意味する。

また、文献データの 1レコードは、 literature, xral (第 1 0図）となり、スキ一マは、 literature, dtd (第 1 1図）となる。 Literature タグは、文献データ全体を意味し、 Title タグは、文献の題名を意味し、 Abstract タグは、文献の概要を意味し、 Link タグは、関連する配列データへの参照番号集合を意味し、 Idタグは、個々の参照番号を意味する。

( 2 ) 解析処理ツール登録サービス

次に、解析処理ツール登録サービスコマンド（2 ) を説明する。

解析処理ツール登録サービスコマンド（2 ) は、次のように実行する。 register ぐツールコマンド名〉 [くリソース定義〉] ここで "register" は、解析処理ツール登録サービスコマンド名である。くッールコマンド名〉には、登録する解析処理ツールのファイル名を指定し、くリソース定義〉には、本システム格納用データスキーマからツールの入力となるデータ形式への変換指示を X S L言語で記したファイル名を指定する。ツールへの入力が格納部内のデータに由来しない場合は、リソース定義は省略しても良い。第 2 2図は、解析処理ツール登録サービスの処理を説明するためのフロー図である。

registerコマンドによるツール登録処理は次の手順で実行される。

まず、ステップ S 6 1において、解析ツールが実行可能な状態になっているか否かを判断する。

ステップ S 6 1で実行可能な状態になっていないと判断された場合（ステップ S 6 1 ： N O) は、ステップ S 6 2において、本システムが実行可能な場所に複写する。

そして、ステップ S 6 1で実行可能な状態になっていると判断された場合（ステツプ S 6 1 ： Y E S ) 、あるいは、ステップ S 6 2で複写した後、ステップ S 6 3において、解析ツールのコマンド名を記憶する。

さらに、ステップ S 6 4において、リソース定義をスキーマリソース定義部に格納して終了する。次に、解析処理ツール登録サービスの実行例を以下に説明する。

本実行例では、システムに格納された配列データと文献データを対象に文献類似法による配列検索を行なうための 2つの解析処理ツール（索引付け処理、検索処理）をそれぞれ上記手順で登録する。

索引付け処理は、 1 h— i n d e Xコマンドとし、検索処理は、 1 h— s e a r c hコマンドとする。 1 h— i n d e xコマンドは、検索対象の文字列と識別子の組の集合からなる全検索対象データを引数にとる。本コマンドは、リソース定義 I h— i n d e x , x s 1と共に登録する。 1 h— s e a r c hコマンドは、検索キーである配列を引数にとる。本コマンドと同時に登録するリソース定義はない。 '

( 3 ) 解析処理サービス

解析処理サービスコマンド（3 ) は、次のように実行する。 process <解析ツーノレ名〉 [- toolargsくツール引数リスト〉]

[-serviceargs <サービス引数リスト〉] ここで "process " は、解析処理サービスコマンド名である。く解析ツール名 > には、システムに登録済みの解析ツールの名前を指定し、くツール引数リスト > には、その解析ツールに渡すパラメータを指定する。解析ツールが追加の引数を必要としない場合、ツール引数リストは省略しても良い。くサービス引数リスト〉には、解析ツールには直接渡さず、サービスに必要なパラメータを指定する。必要ない場合は、サービス引数リストは省略しても良い。

第 2 3図は、解析処理サービスの処理を説明するためのフロー図である。

process コマンドによる解析処理サービスは、サービス仲介処理部によって次の手順で実行される。

まず、ステップ S 7 1において、解析ツール（分析ツール）がシステムに登録されているカ否かを判断する。ステップ S 71で登録されていないと判断された場合（ステップ S 71 ： NO ) は、ステップ S 72において、エラー処理を行なう。

—方、ステップ S 71で登録されていると判断された場合（ステップ S 71 ： YES) は、ステップ S 73において、解析ツールに対応したリソース定義がスキーマリソース定義部に登録されている力否かを判断する。

ステップ S 73で登録されていると判断された場合（ステップ S 73 ： YES ) は、ステップ S 74において、（サービス引数リストが存在する場合はそれも用いて、）構造格納部内の各文書についてリソース定義（XSL) を適用し、それぞれの結果に解析ツールを適用する。そして、ステップ S 75において、全文書の処理が終了した力否かを判断することにより、全文書が終了（ステップ S 7 5 ： YES) するまでステップ S 74を繰り返す。

一方、ステップ S 73で登録されていないと判断された場合（ステップ S 73 ： NO) は、ステップ S 76において、解析ツールを実行する。

そして、ステップ S 76における角析ツールの実行後、あるいは、ステップ S 75における処理の終了後、実行結果を出力して終了する。

次に、解析処理ツール登録サービスの実行例を以下に説明する。

既に述べたように文献類似法は、索引作成処理を行なう l h— i n d e xと検索処理を行なう 1 h— s e a r c h との 2つの解析ツールにより実装される。索引作成処理では、次のように p r o c e s sコマンドを起動する。 process In - index -toolargs ©documents -serviceargs -depth=2

1 h— i n d e xツールには、リソース定義として 1 h— s e a r c h . x s 1が存在しているため、構造格納部内の全文書に関して XSLT処理を行なう。この処理は、リソース定義 1 h— i n d e X. x s 1とサービス引数一 d e p t h = 2の情報を用いて次のように動作する。

構造格納部中の各配列レコード sから参照される文献レコード集合を L 1とする。 L Iの各文献レコード 1 力ら参照される配列レコード集合を S 1とする。

S 1の各配列レコード S' 力ら参照される文献レコード集合を L 2とする。このように配歹リ ·文献の組のパスを 2段階迪つて（この段数を" 一 d e p t = 2 " が指定している。）得られる全集合から自然言語（テキスト）データのある部分のみを元の配列 sの I dと共に取り出す。この XS LT処理の結果を 1 h— i n d e xに渡し（この渡し方を" 一 t o o l a r g s " ©d o cume n t s により指定している。 ) 索引を作成する。

検索処理では、次のように process コマンドを起動する。 process lh - search - toolargs く酉己列 ID>...

1 h- s e a r c h ツーノレにはリソース定義が存在していないため、直接 1 h- s e a r c h が起動され、 1 h— i n d e xが作成した索引を用いて配列 I Dに関連のある配列 I D集合を結果に出す。

以上説明してきたように、本発明によれば、関係 DBに配列 DBとは独立な拡張が可能になることで、配列 D Bレコードの枠組みに収まらないスキーマ拡張が容易に行なえるようになり、問題点（1) を解決している。

+また、本発明によれば、構造格納方式の文書記憶部を持ち、レコードの部分構造を参照する関係 DBを持つことで、構造的に違いの大きい複数形式への変換を総合的に効率よく行なうことができ、問題点（2) を解決している。

また、発明の実施の形態の項で文献類似法の例を挙げて示したように、本システムは、柔軟性と実装効率を両立しており、問題点（2) を解決している。この性質は、構造格納部を RDB技術で実装するよりもネイティブな構造格納技術を用いた方がより顕著になる。

また、文献類似法の実装例では、インデックス作成時に処理対象となるテキスト部を XSLTを用いて動的に生成した。そのため、リンクをたどる段数をパラメータ化でき、実行可能な機能の柔軟性が高くなつた。効率に関しては、実際のところ、上述の実施の形態のようなコマンドラインで解析ツールを結合する仕組では、データをバイトストリームで渡すことになり、そこがネックになるが、データ空間を共有するタイプのコンポーネント結合技^ fを用いることでそれは角军決することができる。

また、文献類似法以外の解析コンポーネントについても、ツールが必要とする文書をスキーマ格納部に登録されている文書形式から生成する指示を準備することで柔軟に追加することができる。また、登録する構造化文書の形式が多用な場合でも、とりあえず構造格納部に格納してしまう運用が可能であり、このような柔軟性も備えている。

[他の実施の形態]

さて、これまで本発明の実施の形態について説明したが、本発明は、上述した実施の形態以外にも、上記特許請求の範囲に記載した技術的思想の範囲内にぉレヽて種々の異なる実施の形態にて実施されてよいものである。

例えば、構造化データ処理装置 1 0 0がスタンドア口ーンの形態で処理を行う ±易合を一例に説明したが、構造化データ処置 1 0 0とは別筐体で構成されるクライアント端末からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するように構成してもよい。

また、実施形態において説明した各処理のうち、自動的に行なわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。

この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除レ、て任意に変更することができる。

また、構造ィ匕データ処理装置 1ひ 0に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。例えば、構造化データ処理装置 1 0 0の各部または各装置が備える処理機能、特に制御部 102にて行なわれる各処理機能については、その全部または任意の一部を、 CPU (C e n t r a l P r o c e s s i n g Un i t) および当該 CPUにて解釈実行されるプログラムにて実現することができ、あるいは、ヮィヤードロジックによるハードウエアとして実現することも可能である。なお、プログラムは、後述する記録媒体に記録されており、必要に応じて構造化データ処理装置 100に機械的に読み取られる。

すなわち、 ROMまたは HDなどの記憶部 106などには、 OS (Op e r a t i n g S y s t em) と協働して C PUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。このコンピュータプログラムは、 RAM等にロードされることによって実行され、 CPUと協働して制御部 102 を構成する。また、このコンピュータプログラムは、構造化データ処理装置 10 0に対して任意のネッ 1、ワーク 300を介して接続されたアプリケーションプログラムサーバに記録されてもよく、必要に応じてその全部または一部をダウン口ードすることも可能である。

また、本発明にかかるプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。ここで、この「記録媒体」とは、フレキシブノレディスク、光磁気ディスク、 ROM、 EPROM、 EEPROM、 CD-ROM, MO、 D 等の任意の「可搬用の物理媒体」や、各種コンピュータシステムに内蔵される ROM、 RAM, HD等の任意の「固定用の物理媒体」、あるいは、 LAN、 WAN, インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。

また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールゃライブラリとして分散構成されるものや、 OS (Op e r a t i n g Sy s t e m) に代表される別個のプログラムと協働してその機能を達成するものをも含む。なお、実施の形態に示した各装置にぉレヽて記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインスト一ノレ手順等については、周知の構成や手順を用いることができる。

記憶部 106に格納される各種のデータベース等（構造化データ格納データべース 106 a〜処理結果データベース 106 ί) は、 RAM、 ROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、光デイスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラムゃテ一ブルやフアイルゃデ一タベースゃゥェブベージ用フアイル等を格納する。

また、構造ィヒデータ処理装置 100は、既知のパーソナルコンピュータ、ヮークステーション等の情報処理端末等の情報処理装置にプリンタゃモニタやィメージスキャナ等の周辺装置を接続し、該情報処理装置に本発明の方法を実現させるソフトウェア（プログラム、データ等を含む）を実装することにより実現してもよい。

さらに、構造ィ匕データ処理装置 100の分散 ·統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷等に応じた任意の単位で、機能的または物理的に分散 '統合して構成することができる。例えば、各データべ一スを独立したデータベース装置として独立に構成してもよく、また、処理の一部を CG I (Co mmo n Ga t ewa y I n t e r f a c e) を用いて実現してもよい。

また、ネットワーク 300は、構造化データ処理装置 100と外部システム 2 00とを相互に接続する機能を有し、例えば、インターネットや、イントラネットゃ、 LAN (有線/無線の双方を含む）や、 VANや、パソコン通信網や、公衆電話網（アナログ/デジタルの双方を含む）や、専用回線網（アナログ Zデジタルの双方を含む）や、 CATV網や、 IMT2000方式、 GSM方式または ?0〇？0〇ー？方式等の携帯回線交換網7携帯パケット交換網や、無線呼出網や、 B 1 u e t o o t h等の局所無線網や、 PHS網や、 C S、 B Sまたは I S D B等の衛星通信網等のうちいずれかを含んでもよレ、。すなわち、本システムは、有線'無線を問わず任意のネットワークを介して、各種データを送受信することができる。

以上詳細に説明したように、本発明によれば、構造化記述言語で記述された構造化データと、当該構造化データの構造を定義したスキーマデータとを取得し、取得した構造化データおよびスキーマデータを、スキーマ形式変換指示情報に基づいて変換し、変換された変換後の構造化データおよびスキーマデータをデータベースに登録し、登録されたデータベースにアクセスしてデータ処理を行うツールプログラムと、当該ッールプログラムに入力される構造化データのスキーマのリソースを定義するスキーマリソース定義情報とを対応させて登録し、ツールプログラムが起動された場合に、起動された当該ツールプログラムに対応するスキ一マリソース定義情報に従って、データベースに登録された構造化データおよびスキーマデータを動的に変換して当該ツールプログラムに入力するので、異なる構造化言語ゃスキーマ言語で記述された取得データを予めまたは必要に応じて定めた形式に変換することができる構造化データ処理装置、構造ィ匕データ処理方法、プログラム、および、記録媒体を提供することができる。

また、本発明によれば、各種の外部データベースから取得したデータ間の整合を容易にとることができるようになり、データ記述形式関する高い拡張性を担保することができるようになる。その結果、各種のデータ記述形式に対応する外部データベースへのアクセスを容易に行うことができるようになる。すなわち、統一した特定の構造化記述言語の形式（例えば、 B SMLや B i o ML等）で内部のデータベースを管理することが可能になるため、データベースの利用効率などを著しく向上させることができる構造化データ処理装置、構造化データ処理方法、プログラム、および、記録媒体を提供することができる。

また、本発明によれば、スキーマに新たなリソース（例えば、 XMLの要素など）が追加された場合であっても、容易に追加された形式に変換することができる構造化データ処理装置、構造化データ処理方法、プログラム、および、記録媒体を提供することができる。

また、本発明によれば、各分析ツールにより随時項目追加が発生し、その追加項目を後段の分析ツールの処理で使用するような場合であっても、分析ツールの仕様に手を加えることなく、使用する各データの拡張性を容易に担保することができる構造化データ処理装置、構造化データ処理方法、プログラム、および、記録媒体を提供することができる。

また、本発明によれば、共有部分のデータベースの一括形式変換を行うことができる構造化データ処理装置、構造化データ処理方法、プログラム、および、記録媒体を提供することができる。

また、本発明によれば、構造化記述言語は、 XM L、 S GML , B i o ML、■ B S ML、 A S N. 1、 G AME , 若しくは、これらのいずれかを拡張した構造化記述言語、または、これらと同等の記述能力を持つ構造化記述言語であるので、これらのバイオインフォマティクス分野において一般的に用いられる構造化記述言語により記述された構造化データを効率的に変換することができる構造化デ一タ処理装置、構造化データ処理方法、プログラム、および、記録媒体を提供することができる。

また、本発明によれば、スキーマデータは、 D T D、 XMLスキーマ、 R E L AX、若しくは、これらのいずれかを拡張したスキーマ言語、または、これらと同等の記述能力を持つスキーマ言語により記述されたデータであるので、これらのバイオインフォマティクス分野において一般的に用いられるスキーマ言語により記述されたスキーマデータを効率的に変換することができる構造化データ処理装置、構造化データ処理方法、プログラム、および、記録媒体を提供することができる。

また、本発明によれば、スキーマ形式変換指示情報およぴスキーマリソース定義情報は、 X S L、若しくは、これを拡張した言語、または、これらと同等の記述能力を持つ木構造変換言語により記述されたデ一タであるので、これらのバイオインフォマテイクス分野において一般的に用いられるスキーマ変換記述言語により記述されたスキーマ形式変換指示情報およびスキーマリソース定義情報に基づいて、構造化データおよびスキーマデータを効率的に変換することができる構造化データ処理装置、構造化データ処理方法、プログラム、および、記録媒体を提供することができる。

また、本発明によれば、構造化データは、塩基配列および/またはアミノ酸配列を含む配列情報、文献情報のうち少なくとも一つに関する要素を含むので、 G e n B a n kなどに登録された配列情報や、 P u b M e dなどに登録された文献情報を取得して形式変換することができる構造化データ処理装置、構造化データ処理方法、プログラム、および、記録媒体を提供することができる。 . 産業上の利用可能性

以上のように、本発明にかかる構造化データ処理装置、構造化データ処理方法、プログラム、および、記録媒体は、様々な形式のスキーマ言語により定義された様々な形式の構造ィ匕データを効率的に処理するのに適している。

Claims

請求の範囲

1 . 構造ィヒ記述言語で記述された構造ィ匕データと、当該構造化データの構造を定義したスキーマデータとを取得する構造化データ取得手段と、

上記構造化データ取得手段にて取得した上記構造化データおよび上記スキーマデータを、スキーマ形式変換指示情報に基づいて変換する形式変換手段と、上記形式変換手段にて変換された変換後の構造ィ匕データおょぴスキーマデータをデータベースに登録する構造化データ登録手段と、

上記構造化データ登録手段にて登録された上記データベースにアクセスしてデータ処理を行うツールプログラムと、当該ツールプログラムに入力される上記構造ィ匕データのスキーマのリソースを定義するスキーマリソース定義情報とを対応させて登録する分析ッール登録手段と、

上記ツールプログラムが起動された場合に、起動された当該ツールプログラムに対応する上記スキーマリソース定義情報に従って、上記データベースに登録された構造ィ匕データおょぴスキーマデータを変換して当該ツールプログラムに入力 'する分析ツール起動手段と、

を備えたことを特微とする構造ィ匕データ処理装置。

2 . 上記構造化記述言語は、 XML、 S GML , B i o ML、 B S ML、 A S N. 1、 GAME , 若しくは、これらのいずれかを拡張した構造ィヒ記述言語、または、これらと同等の記述能力を持つ構-造化記述言語であること、

を特徴とする請求の範囲第 1項に記載の構造化データ処理装置。

3 . 上記スキーマデータは、 D T D、 XMLスキーマ、 R E L AX、若しくは、これらのいずれかを拡張したスキーマ言語、または、これらと同等の記述能力を持つスキーマ言語により記述されたデ一タであること、

を特徴とする請求の範囲第 1項または第 2項に記載の構造ィ匕デ一タ処理装置。

4 . 上記スキーマ形式変換指示情報および上記スキーマリソース定義情報は、 X S L、若しくは、これを拡張した言語、または、これらと同等の記述能力を持つ木構造変換言語により記述されたデータであること、

を特徴とする請求の範囲第 1項から第 3項のいずれか一つに記載の構造化データ処理装置。

5 . 上記構造化データは、塩基配列および/またはアミノ酸配列を含む配列情報、文献情報のうち少なくとも一つに関する要素を含むこと、

を特徴とする請求の範囲第 1項から第 4項のいずれか一つに記載の構造ィヒデ一タ処理装置。

6 . 構造化記述言語で記述された構造化データと、当該構造ィ匕データの構造を定義したスキーマデータとを取得する構造ィ匕データ取得ステップと、

上記構造化データ取得ステップにて取得した上記構造化データおよび上記スキ一マデータを、スキーマ形式変換指示情報に基づいて変換する形式変換ステップと、

上記形式変换ステップにて変換された変換後の構造化データおよびスキーマデータをデータベースに登録する構造化データ登録ステップと、

上記構造ィ匕データ登録ステップにて登録された上記データベースにアクセスしてデータ処理を行うッールプログラムと、当該ッールプログラムに入力される上記構造ィヒデータのスキーマのリソースを定義するスキーマリソース定義情報とを対応させて登録する分析ツール登録ステップと、

上記ツールプログラムが起動された場合に、起動された当該ツールプログラムに対応する上記スキーマリソース定義情報に従って、上記データベースに登録された構造化データおよびスキーマデータを変換して当該ツールプログラムに入力する分析ッール起動ステップと、を含むことを特徴とする構造化データ処理方法。

7. 上記構造化記述言語は、 XML、 SGML, B i oML、 BSML、 AS N. 1、 GAME, 若しくは、これらのいずれかを拡張した構造化記述言語、または、これらと同等の記述能力を持つ構造化記述言語であること、

を特徴とする請求の範囲第 6項に記載の構造化データ処理方法。

8. 上記スキーマデータは、 DTD、 XMLスキーマ、 RELAX、若しくは、これらのいずれかを拡張したスキーマ言語、または、これらと同等の記述能力を持つスキーマ言語により記述されたデ一タであること、

を特徴とする請求の範囲第 6項または第 7項に記載の構造ィヒデータ処理方法。

9. 上記スキーマ形式変換指示情報およぴ上記スキーマリソース定義情報は、 XSL、若しくは、これを拡張した言語、または、これらと同等の記述能力を持つ木構造変換言語により記述されたデータであること、

を特徴とする請求の範囲第 6項から第 8項のいずれか一つに記載の構造ィヒデ一タ処理方法。

10. 上記構造化データは、塩基配列および Zまたはアミノ酸配列を含む配列情報、文献情報のうち少なくとも一つに関する要素を含むこと、

を特徴とする請求の範囲第 6項から第 9項のいずれか一つに記載の構造ィヒデ一タ処理方法。

11. 構造化記述言語で記述された構造化データと、当該構造化データの構造を定義したスキーマデータとを取得する構造化データ取得ステップと、

上記構造化データ取得ステップにて取得した上記構造ィ匕デ一タおよび上記スキ一マデータを、スキーマ形式変換指示情報に基づいて変換する形式変換；と、

上記形式変換ステップにて変換された変換後の構造化データおよびスキーマデータをデータベースに登録する構造化データ登録ステップと、

上記構造ィ匕データ登録ステップにて登録された上記データベースにアクセスしてデータ処理を行うツールプログラムと、当該ツールプログラムに入力される上記構造ィ匕データのスキーマのリソースを定義するスキーマリソース定義情報とを対応させて登録する分析ッール登録ステツプと、

上記ツールプログラムが起動された場合に、起動された当該ツールプログラムに対応する上記スキーマリソース定義情報に従って、上記データベースに登録された構造化データおよびスキーマデータを変換して当該ツールプログラムに入力する分析ツール起動ステップと、

を含む構造ィ匕データ処理方法をコンピュータに実行させることを特徴とするプログラム。

12. 上記構造化記述言語は、 XML、 SGML, B i oML、 B SML、 A SN. 1、 GAME, 若しくは、これらのいずれかを拡張した構造ィヒ記述言語、または、これらと同等の記述能力を持つ構造化記述言語であること、

を特徴とする請求の範囲第 1 1項に記載のプログラム。

13. 上記スキーマデータは、 DTD、 XMLスキーマ、 RELAX、若しくは、これらのいずれかを拡張したスキーマ言語、または、これらと同等の記述能力を持つスキーマ言語により記述されたデータであること、

を特徴とする請求の範囲第 11項または第 12項に記載のプログラム。

14. 上記スキーマ形式変換指示情報およぴ上記スキーマリソース定義情報は、 XSL、若しくは、これを拡張した言語、または、これらと同等の記述能力を持つ木構造変換言語により記述されたデータであること、を特徴とする請求の範囲第 1 1項から第 1 3項のいずれか一^ ^に記載のプログラム。

1 5 . 上記構造化データは、塩基配列および/またはァミノ酸配列を含む配列情報、文献情報のうち少なくとも一つに関する要素を含むこと、

を特徴とする請求の範囲第 1 1項から第 1 4項のいずれ力一^ ^こ記載のプログラム。

1 6 . 上記請求の範囲第 1 1項から第 1 5項のいずれか一つに記載されたプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。