JPWO2003001409A1 - Structured data processing device - Google Patents

Structured data processing device Download PDF

Info

Publication number
JPWO2003001409A1
JPWO2003001409A1 JP2003507726A JP2003507726A JPWO2003001409A1 JP WO2003001409 A1 JPWO2003001409 A1 JP WO2003001409A1 JP 2003507726 A JP2003507726 A JP 2003507726A JP 2003507726 A JP2003507726 A JP 2003507726A JP WO2003001409 A1 JPWO2003001409 A1 JP WO2003001409A1
Authority
JP
Japan
Prior art keywords
schema
data
structured
structured data
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003507726A
Other languages
Japanese (ja)
Inventor
新田 清
清 新田
泰央 上村
泰央 上村
Original Assignee
セレスター・レキシコ・サイエンシズ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2001189631 priority Critical
Priority to JP2001189631 priority
Application filed by セレスター・レキシコ・サイエンシズ株式会社 filed Critical セレスター・レキシコ・サイエンシズ株式会社
Priority to PCT/JP2002/006288 priority patent/WO2003001409A1/en
Publication of JPWO2003001409A1 publication Critical patent/JPWO2003001409A1/en
Application status is Granted legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • G06F16/86Mapping to a database
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Abstract

構造化データ処理装置(100)は、構造化データ処理装置(100)の全体を統括的に制御するCPU等の制御部(102)、通信回線等に接続されるルータ等の通信装置(図示せず)に接続される通信制御インターフェース部(104)、入力装置(112)や出力装置(114)に接続される入出力制御インターフェース部(108)、および、各種のデータベースやテーブルなどを格納する記憶部(106)を備えて構成されており、これら各部は任意の通信路を介して通信可能に接続されている。 Structured data processing unit (100), the control unit (102) such as a CPU that integrally controls the entire structured data processing unit (100), a communication device such as a router connected to a communication line or the like (shown a communication control interface unit which is connected without) (104), an input device (112) output control interface unit and is connected to the output device (114) (108), and a storage that stores various databases and tables parts are configured with a (106), these units are communicably connected through an optional communication channel.

Description

技術分野本発明は、構造化データ処理装置、構造化データ処理方法、プログラム、および、記録媒体に関し、特に、様々な形式のスキーマ言語により定義された様々な形式の構造化データを効率的に処理することができる構造化データ処理装置、構造化データ処理方法、プログラム、および、記録媒体に関する。 TECHNICAL FIELD The present invention structured data processing apparatus, structured data processing method, a program, and relates to a recording medium, in particular, the structured data of various format defined by various type schema language efficiently processed structured data processing apparatus capable of, structured data processing method, a program, and a recording medium.
背景技術従来、バイオインフォマティクス分野において扱われる基本的なデータベースとして、大規模な塩基またはアミノ酸などの配列情報データベースや、文献情報データベースがある。 BACKGROUND ART As basic database handled in bioinformatics, sequence information database and a large-scale base or amino acid, there is a document information database. 例えば、既存の配列情報データベースの例として、「GenBank」などがあり、文献情報データベースの例として「PubMed」などがある(http://www.ncbi.nlm.nih.gov/Genbank/参照)。 For example, as examples of the existing sequence information database, include "GenBank" include "PubMed" as an example of a document information database (see http://www.ncbi.nlm.nih.gov/Genbank/).
第1図は、遺伝子の塩基配列または蛋白質のアミノ酸配列の配列情報データベースの基本的なデータ構造の例を示す図である。 Figure 1 is a diagram illustrating an example of a basic data structure of the sequence information database of the amino acid sequence of the nucleotide sequence or protein gene.
ここで、第1図に示すように、配列情報データベースに格納される各配列情報のデータ構造は、一般的に(1)配列本体を格納するフィールド、(2)配列の一部分についてのアノテーション情報を格納する部分修飾記述フィールド、(3)配列の全体についてのアノテーション情報を格納する全体記述フィールド、の3つのフィールド群からなっている。 Here, as shown in FIG. 1, the data structure of each sequence information stored in the sequence information database is generally (1) field for storing a sequence body, the annotation information about the portion of (2) sequence partially qualified description field for storing, consist (3) overall description field for storing annotation information about the entire sequence, three fields in the.
上記(1)の配列本体を格納するフィールドは、塩基配列またはアミノ酸配列からなっている。 Field for storing the sequence body (1) consists of a nucleotide sequence or amino acid sequence. 塩基配列は、生物細胞の染色体を構成する4種類の塩基(ACGT)を一次元の列に並べたものである。 Nucleotide sequence is obtained by arranging four bases constituting the chromosomes of an organism cells (ACGT) in a one-dimensional column. 塩基配列が遺伝子として働くときにその特定の配列情報から特定の蛋白質が生成される。 Nucleotide sequence that is specific proteins from a specific sequence information is generated when acting as a gene. アミノ酸配列は、その蛋白質を構成する二十数種のアミノ酸を一次元の列に並べたものである。 Amino acid sequences are those obtained by arranging two dozen amino acids constituting the protein with one-dimensional string.
上記(2)の部分修飾記述フィールドは、配列本体の一部分について、実験や解析を通して得た知見(物性や構造情報など)等のアノテーション情報を記したものである。 Partially qualified description field (2) above, the portion of the sequence the body, in which marked the annotation information such as knowledge obtained through experiment and analysis (such as physical properties and structure information). この情報は配列によっては全くない場合もあるし、同一の配列部分に複数の部分修飾記述フィールドが記述されることもある。 This information is to sometimes not at all by the arrangement, sometimes in the same sequence portion a plurality of partially qualified description field is described.
また、上記(3)の全体記述フィールドは、その配列全体に関する情報であり、例えば、分類ID、通称、自然言語による説明、生物種、染色体上の位置、(発現データの場合)臓器、関連する学術文献の参照先、キーワードなどに関するデータからなる。 Moreover, the entire description field of (3) is information about the entire sequence, for example, classification ID, commonly known as described in natural language, species, location on a chromosome, (for expression data) organs, associated refer to the academic literature, consisting of data on such as keywords.
これらのデータベースに格納される配列情報は、レコード毎に埋まるフィールドや繰り返し回数が異なるという性質を持つ。 Sequence information stored in these databases, has the property of fields and the number of repetitions buried in each record is different. そのため、ある程度書式付けされたテキスト形式またはXMLなどの構造化された記述形式で流通することが多い。 Therefore, it is often distributed in description format that is structured, such as text or XML, which is somewhat formatting.
バイオインフォマティクス分野で用いられている既存の構造化記述言語には、例えば、「ASN.1(Abstract Syntax Notation 1)」(http://www.ncbi.nlm.nih.gov/Sitemap/Summary/asn1.html、James M. Ostell, ”Integrated Access to Heterogeneous Data from NCBI”,pp.730−736,IEEE Engineering in Medicine and Biology,Nov/Dec,1995)や、XMLベースの「BSML(Bio Sequence Markup Language)」(http://www.labbook.com/faq/bsml.asp)、 The existing structured description language that is used in the field of bioinformatics, for example, "ASN.1 (Abstract Syntax Notation 1)" (Http://Www.Ncbi.Nlm.Nih.Gov/Sitemap/Summary/asn1 .html, James M. Ostell, "Integrated Access to Heterogeneous Data from NCBI", pp.730-736, IEEE Engineering in Medicine and Biology, Nov / Dec, 1995) and, XML-based "BSML (Bio Sequence Markup Language) "(http://www.labbook.com/faq/bsml.asp), BioML(The BIOpolymer Markup Language)」(http://www.bioml.com/BIOML/index.html)、および、「GAME(Genome Annotation Markup Elements)」(http://www.bioxml.org/Projects/game/)などが存在している。 BioML (The BIOpolymer Markup Language) "(http://www.bioml.com/BIOML/index.html), and," GAME (Genome Annotation Markup Elements) "(http://www.bioxml.org/Projects/ game /) and the like are present.
これらの配列データは大規模(例えば、GenBankのレコード数は1000万件規模)であり、効率的な検索処理を行なうために上述の例のデータでは、リレーショナルデータベース(RDB)を用いたデータベースシステムに変換/格納されている。 These sequence data large (e.g., GenBank number of records 10 million scale) and, in order to perform efficient search processing in the data of the above example, a database system using a relational database (RDB) It has been converted / stored.
しかしながら、従来のシステムには、 However, the conventional system,
(1)多種の構造化記述形式に対応する高い拡張性を持つ形式でデータを格納することができない。 (1) you can not store the data in a format with high extensibility corresponding to a wide structured description format.
(2)データを効率よく格納・利用することができない。 (2) not be able to efficiently store and use the data.
という2つの問題点があった。 There were two problem. 以下、これらの問題点について具体的に説明する。 It will be specifically described below these problems.
まず問題点(1)で述べている、データ記述形式に関する高い拡張性は、バイオインフォマティクス(BI)分野では特に重要である。 It is first discussed problems (1), scalability related data description format is particularly important in bioinformatics (BI) field. ここでBI分野において格納すべき情報は、XMLやBSMLやBioMLなどの既存の構造化記述言語で表記されるものだけではない。 Here information to be stored in BI field is not only what is written in existing structured description language such as XML and BSML and BioML. すなわち、BI分野全体の研究が進むにつれて格納すべき情報の定義情報の集合(スキーマ)などは変化する。 That is, such a set of definition information of the information to be stored as the study of the entire BI field progresses (schema) changes. 例えば、新たに実験手段が開発された場合、その結果を格納するフィールドや定義するためのスキーマが追加されることになる。 For example, when a new experimental unit was developed, so that the schema to fields and define and store the result is added.
また、同じ事実を複数の表現で格納するために繰り返し構造が導入されることも多い。 Moreover, often repetitive structure to store the same facts multiple representations are introduced. このような場合、既存形式のデータを新規形式のデータに変換する必要があり、変換プログラムの開発と変換処理のコストが発生する。 In such a case, it is necessary to convert the data of the existing format to the new format of the data, the cost of development and transformation process of the conversion program is generated.
さらに他の例として、相互作用する複数の蛋白質の部位の情報を、枠組みを変えずに蛋白質のレコードに含めようとする場合には、同じ情報を異なる2つのレコードに同期して格納する必要がある。 As yet another example, the site of information of a plurality of proteins that interact, when the attempt to include the protein records without changing the framework needs to be stored in synchronization with the same information to two different records is there. この場合、格納領域が多く使用される、格納・修正等の機能の実装が複雑になる、などの管理上の問題が発生する。 In this case, storage areas are often used, implementation is complicated functions of storing and modifying such, the management problems, such as occur.
また、第16図は、BI分野で一般的に用いられるBSMLにより記述された構造化データと、同様に一般的に用いられるBioMLにより記述された構造化データとの構造的な相違を説明するための図である。 Further, FIG. 16, for explaining a general structured data described by BSML used in BI fields, the structural differences between the described structured data similarly by commonly BioML used it is a diagram of.
上述したように、現在でも複数種類の構造化記述言語で記述された構造化記述形式があり、既存のソフトウェア資産を再利用するためにはそれらへ容易に変換できる必要がある。 As described above, there is described a structured description format in a plurality of types of structured description language Even today, in order to reuse existing software assets need to be easily converted to them. 特に、第16図に示すように、BSMLとBioMLの間には、部分修飾記述フィールドの形式に構造的な相違がある。 In particular, as shown in FIG. 16, between the BSML and BioML, there are structural differences in the form of partial modification description field. BioMLは、蛋白質の構造に関する一部の部分修飾記述をXML文書の木構造に埋め込むのに対して、BSMLは、全ての部分修飾記述を配列位置情報との組で別記している。 BioML is that the embedding part of the portion modified description of the structure of a protein in a tree structure of the XML document, BSML is otherwise specified all parts modified described in combination with sequence position information. このような違いのある複数の形式へ変換を効率的に行なうためには、格納構造の表現能力が十分に柔軟である必要がある。 Thus in order to perform efficiently the conversion into multiple formats with differences, it is necessary expressive power storage structure is sufficiently flexible.
問題点(2)は、問題点(1)を解決するような柔軟なデータを対象にしたときの効率について述べている。 Problem (2) describe the efficiency when that target flexible data as to solve the problems (1).
RDB技術は、古くから実用化されており、既存の計算機アプリケーションにおいては、信頼性が高く、大規模データの処理効率に優れた運用が可能である。 RDB technology has been put to practical use for a long time, in the existing computer application, reliable, and can be excellent operational processing efficiency of large data. しかし、RDBでは、対象ドメインで扱うデータのスキーマが静的であることを前提にデータモデルが設計される。 However, the RDB, the data model on the assumption that the schema of the data to be handled in the target domain is a static is designed. 特に、データ構造が複雑になるに従って固定化の度合が高まる。 In particular, increasing the degree of immobilization in accordance with the data structure is complicated. そのため、問題点(1)に対して求められるような高い拡張性を持つシステムの構築は、本来想定されておれず、上述したような効率上の課題が生じる。 Therefore, building a system with the problems (1) scalability as determined for the not I is originally assumed, resulting efficiency on the above problems.
RDBが利用できない場合は、最も柔軟な格納方式であるプレーンテキストファイルでの格納になるが、これは大規模データにおける検索や取り出し性能が実用的ではない。 If the RDB is unavailable, becomes to store the plain text file is the most flexible storage mode, this search and extraction performance is not practical in the large-scale data. 特に、BI分野ではこれらのデータを対象に大規模な解析処理を連続して行なうため、各レコード操作に求められる効率は、事務帳票処理やエンドユーザが起因となるトランザクション処理に比べて高くなってしまう。 In particular, since the BI field continuously performed extensive analysis to target these data, the efficiency required for each record operation, is higher than the transaction processing office form processing and end users is due put away.
従って、本発明は、遺伝子の塩基配列や蛋白質のアミノ酸配列などの配列情報のような大規模なデータを、高い拡張性を持つ形式でデータを格納し、しかもデータを効率よく格納・利用することが可能となる構造化データ処理装置、構造化データ処理方法、プログラム、および、記録媒体を提供することを目的としている。 Accordingly, the present invention provides a large-scale data such as sequence information, such as the amino acid sequence of the nucleotide sequence and protein of a gene, and stores the data in a format having a highly scalable, yet efficiently store and use that data structured data processing apparatus becomes possible, structured data processing method, a program, and has an object to provide a recording medium.
発明の開示本発明にかかる構造化データ処理装置は、構造化記述言語で記述された構造化データと、当該構造化データの構造を定義したスキーマデータとを取得する構造化データ取得手段と、上記構造化データ取得手段にて取得した上記構造化データおよび上記スキーマデータを、スキーマ形式変換指示情報に基づいて変換する形式変換手段と、上記形式変換手段にて変換された変換後の構造化データおよびスキーマデータをデータベースに登録する構造化データ登録手段と、上記構造化データ登録手段にて登録された上記データベースにアクセスしてデータ処理を行うツールプログラムと、当該ツールプログラムに入力される上記構造化データのスキーマのリソースを定義するスキーマリソース定義情報とを対応させて登録する分析ツール Disclose structured data processing apparatus according to the present invention the invention includes a structured data acquisition means for acquiring a structured data described in a structured description language, and a schema data defining the structure of the structured data, the the structured data and the schema data acquired in structured data acquisition means, and format conversion means for converting based on the schema format conversion instruction information, structured data and resulting from the conversion by said format converting means and structured data registration means for registering the schema data in a database, the tool program that performs data processing by accessing the database registered in the structured data registration means, the structured data to be input to the tool program analysis tool that registers the schema resource definition information to define the schema of resources so as to correspond 録手段と、上記ツールプログラムが起動された場合に、起動された当該ツールプログラムに対応する上記スキーマリソース定義情報に従って、上記データベースに登録された構造化データおよびスキーマデータを変換して当該ツールプログラムに入力する分析ツール起動手段とを備えたことを特徴とする。 And recording means, when the tool program is started, according to the schema resource definition information corresponding to the tool program activated, to the tool program converts the structured data and schema data registered in the database characterized by comprising an analysis tool activation means for inputting.
この装置によれば、構造化記述言語で記述された構造化データと、当該構造化データの構造を定義したスキーマデータとを取得し、取得した構造化データおよびスキーマデータを、スキーマ形式変換指示情報に基づいて変換し、変換された変換後の構造化データおよびスキーマデータをデータベースに登録し、登録されたデータベースにアクセスしてデータ処理を行うツールプログラムと、当該ツールプログラムに入力される構造化データのスキーマのリソースを定義するスキーマリソース定義情報とを対応させて登録し、ツールプログラムが起動された場合に、起動された当該ツールプログラムに対応するスキーマリソース定義情報に従って、データベースに登録された構造化データおよびスキーマデータを動的に変換して当該ツールプロ According to this apparatus, it acquires the structured data described in a structured description language, and a schema data defining the structure of the structured data, acquired structured data and schema data, schema format conversion instruction information register converted, the converted structured data and schema data after conversion has a database based on a tool program for performing data processing by accessing the registered database, structured data that is input to the tool program register of the schema resource definition information defining the schema of resource in association, if the tool program is started, according to the schema resource definition information corresponding to the tool program activated, structured in a database data and the schema data by dynamically converting the tool Pro ラムに入力するので、異なる構造化言語やスキーマ言語で記述された取得データを予めまたは必要に応じて定めた形式に変換することができるようになる。 Since input to the ram, it becomes possible to convert the acquired data written in different structured language or schema language in advance or format determined according to need.
また、各種の外部データベースから取得したデータ間の整合を容易にとることができるようになり、データ記述形式に関する高い拡張性を担保することができるようになる。 Furthermore, now the matching between the data acquired from various external databases can take ease, it is possible to ensure the scalability on the data description format. その結果、各種のデータ記述形式に対応する外部データベースへのアクセスを容易に行うことができるようになる。 As a result, as access to external database corresponding to various data description format can be easily performed. すなわち、統一した特定の構造化記述言語の形式(例えば、BSMLやBioML等)で内部のデータベースを管理することが可能になるため、データベースの利用効率などを著しく向上させることができるようになる。 That unified particular structured description language format that (e.g., BSML and BioML etc.) it becomes possible to manage the internal databases, it is possible to significantly improve and the use efficiency of the database.
また、スキーマに新たなリソース(例えば、XMLの要素など)が追加された場合であっても、容易に追加された形式に変換することができるようになる。 Also, new resource schema (e.g., XML elements) even when is added, it is possible to convert easily added form.
また、各分析ツールにより随時項目追加が発生し、その追加項目を後段の分析ツールの処理で使用するような場合であっても、分析ツールの仕様に手を加えることなく、使用する各データの拡張性を容易に担保することができるようになる。 Also, from time to time item added is generated by each analysis tool, even if the additional items such as used in the processing of the subsequent analysis tool, without modifying the specifications of the analysis tool, the respective data used it is possible to easily ensure the scalability. また、共有部分のデータベースの一括形式変換を行うことができるようになる。 Further, it is possible to perform a batch format conversion database shared portion.
つぎの発明にかかる構造化データ処理装置は、上記の構造化データ処理装置において、上記構造化記述言語は、XML、SGML、BioML、BSML、ASN. Next invention structured data processing apparatus according to, in structured data processing apparatus described above, the structured description language, XML, SGML, BioML, BSML, ASN. 1、GAME、若しくは、これらのいずれかを拡張した構造化記述言語、または、これらと同等の記述能力を持つ構造化記述言語であることを特徴とする。 1, GAME, or those of any of the extended structured description language or, characterized in that it is a structured description language with these equivalent description capability.
これは構造化記述言語の一例を一層具体的に示すものである。 This shows an example of a structured description language more specifically. この装置によれば、構造化記述言語は、XML、SGML、BioML、BSML、ASN. According to this device, the structured description language, XML, SGML, BioML, BSML, ASN. 1、GAME、若しくは、これらのいずれかを拡張した構造化記述言語、または、これらと同等の記述能力を持つ構造化記述言語であるので、これらのバイオインフォマティクス分野において一般的に用いられる構造化記述言語により記述された構造化データを効率的に変換することができるようになる。 1, GAME, or those of any of the extended structured description language, or because it is structured description language with these equivalent description capabilities, generally structured description used in these Bioinformatics it is possible to convert the structured data described in a language efficiently.
つぎの発明にかかる構造化データ処理装置は、上記の構造化データ処理装置において、上記スキーマデータは、DTD、XMLスキーマ、RELAX、若しくは、これらのいずれかを拡張したスキーマ言語、または、これらと同等の記述能力を持つスキーマ言語により記述されたデータであることを特徴とする。 Following structured data processing apparatus according to the invention is the structured data processing apparatus described above, the schema data, DTD, XML Schema, RELAX, or these schema language to extend one or a equivalent thereof characterized in that it is a data described by the schema language with a description ability of.
これはスキーマデータの一例を一層具体的に示すものである。 This shows an example of the schema data more specifically. この装置によれば、スキーマデータは、DTD、XMLスキーマ、RELAX、若しくは、これらのいずれかを拡張したスキーマ言語、または、これらと同等の記述能力を持つスキーマ言語により記述されたデータであるので、これらのバイオインフォマティクス分野において一般的に用いられるスキーマ言語により記述されたスキーマデータを効率的に変換することができるようになる。 According to this apparatus, schema data, DTD, XML Schema, RELAX, or these schema language to extend one or since it is data described in a schema language with these equivalent description capabilities, It consists generally schema data described in a schema language used to be able to efficiently convert in these bioinformatics.
つぎの発明にかかる構造化データ処理装置は、上記の構造化データ処理装置において、上記スキーマ形式変換指示情報および上記スキーマリソース定義情報は、XSL、若しくは、これを拡張した言語、または、これらと同等の記述能力を持つ木構造変換言語により記述されたデータであることを特徴とする。 Next invention structured data processing apparatus according to, in structured data processing apparatus described above, the schema format conversion instruction information and the schema resource definition information, XSL, or the language extension of this, or equivalent thereof characterized in that it is a data described by a tree structure conversion language with a description ability of.
これはスキーマ形式変換指示情報およびスキーマリソース定義情報の一例を一層具体的に示すものである。 This shows an example of a schema format conversion instruction information and schema resource definition information more specifically. この装置によれば、スキーマ形式変換指示情報およびスキーマリソース定義情報は、XSL、若しくは、これを拡張した言語、または、これらと同等の記述能力を持つ木構造変換言語により記述されたデータであるので、これらのバイオインフォマティクス分野において一般的に用いられるスキーマ変換記述言語により記述されたスキーマ形式変換指示情報およびスキーマリソース定義情報に基づいて、構造化データおよびスキーマデータを効率的に変換することができるようになる。 According to this apparatus, schema format conversion instruction information and schema resource definition information, XSL, or the language extension of this, or, because it is data described by a tree structure conversion language with these equivalent description capability , so that can be converted on the basis of the described schema format conversion instruction information and schema resource definition information by general schema transformation description language used in these bioinformatics, structured data and schema data efficiently become.
つぎの発明にかかる構造化データ処理装置は、上記の構造化データ処理装置において、上記構造化データは、塩基配列および/またはアミノ酸配列を含む配列情報、文献情報のうち少なくとも一つに関する要素を含むことを特徴とする。 Next invention structured data processing apparatus according to, in structured data processing apparatus described above, the structured data includes sequence information including the nucleotide sequence and / or amino acid sequence, at least one related elements of the document information it is characterized in.
これはスキーマ形式変換指示情報およびスキーマリソース定義情報の一例を一層具体的に示すものである。 This shows an example of a schema format conversion instruction information and schema resource definition information more specifically. この装置によれば、構造化データは、塩基配列および/またはアミノ酸配列を含む配列情報、文献情報のうち少なくとも一つに関する要素を含むので、GenBankなどに登録された配列情報や、PubMedなどに登録された文献情報を取得して形式変換することができるようになる。 According to this apparatus, structured data, sequence information comprising the nucleotide sequence and / or amino acid sequence, because it contains elements related to at least one of the document information, and sequence information registered like GenBank, registration etc. PubMed acquires document information it is possible to format conversion.
つぎの発明にかかる構造化データ処理方法は、構造化記述言語で記述された構造化データと、当該構造化データの構造を定義したスキーマデータとを取得する構造化データ取得ステップと、上記構造化データ取得ステップにて取得した上記構造化データおよび上記スキーマデータを、スキーマ形式変換指示情報に基づいて変換する形式変換ステップと、上記形式変換ステップにて変換された変換後の構造化データおよびスキーマデータをデータベースに登録する構造化データ登録ステップと、上記構造化データ登録ステップにて登録された上記データベースにアクセスしてデータ処理を行うツールプログラムと、当該ツールプログラムに入力される上記構造化データのスキーマのリソースを定義するスキーマリソース定義情報とを対応させて Structured data processing method according to still another aspect of the present invention includes a structured data described in a structured description language, and structured data acquisition step of acquiring the schema data that defines the structure of the structured data, the structured was the structured data and the schema data acquired in the data acquiring step, a format conversion step of converting, based on the schema format conversion instruction information, structured data and schema data resulting from the conversion by the format conversion step and structured data registration step of registering the database, and tool program for performing data processing by accessing the database registered in the structured data registration step, the schema of the structured data to be input to the tool program and the schema resource definition information that defines the resources of so as to correspond 録する分析ツール登録ステップと、上記ツールプログラムが起動された場合に、起動された当該ツールプログラムに対応する上記スキーマリソース定義情報に従って、上記データベースに登録された構造化データおよびスキーマデータを動的に変換して当該ツールプログラムに入力する分析ツール起動ステップとを含むことを特徴とする。 And analysis tool registration step of recording, when the tool program is started, according to the schema resource definition information corresponding to the tool program activated, dynamically structured data and schema data registered in the database It converted and characterized in that it comprises an analysis tool activation step of inputting to the tool programs.
この方法によれば、構造化記述言語で記述された構造化データと、当該構造化データの構造を定義したスキーマデータとを取得し、取得した構造化データおよびスキーマデータを、スキーマ形式変換指示情報に基づいて変換し、変換された変換後の構造化データおよびスキーマデータをデータベースに登録し、登録されたデータベースにアクセスしてデータ処理を行うツールプログラムと、当該ツールプログラムに入力される構造化データのスキーマのリソースを定義するスキーマリソース定義情報とを対応させて登録し、ツールプログラムが起動された場合に、起動された当該ツールプログラムに対応するスキーマリソース定義情報に従って、データベースに登録された構造化データおよびスキーマデータを動的に変換して当該ツールプロ According to this method, it acquires the structured data described in a structured description language, and a schema data defining the structure of the structured data, acquired structured data and schema data, schema format conversion instruction information register converted, the converted structured data and schema data after conversion has a database based on a tool program for performing data processing by accessing the registered database, structured data that is input to the tool program register of the schema resource definition information defining the schema of resource in association, if the tool program is started, according to the schema resource definition information corresponding to the tool program activated, structured in a database data and the schema data by dynamically converting the tool Pro ラムに入力するので、異なる構造化言語やスキーマ言語で記述された取得データを予めまたは必要に応じて定めた形式に変換することができるようになる。 Since input to the ram, it becomes possible to convert the acquired data written in different structured language or schema language in advance or format determined according to need.
また、各種の外部データベースから取得したデータ間の整合を容易にとることができるようになり、データ記述形式に関する高い拡張性を担保することができるようになる。 Furthermore, now the matching between the data acquired from various external databases can take ease, it is possible to ensure the scalability on the data description format. その結果、各種のデータ記述形式に対応する外部データベースへのアクセスを容易に行うことができるようになる。 As a result, as access to external database corresponding to various data description format can be easily performed. すなわち、統一した特定の構造化記述言語の形式(例えば、BSMLやBioML等)で内部のデータベースを管理することが可能になるため、データベースの利用効率などを著しく向上させることができるようになる。 That unified particular structured description language format that (e.g., BSML and BioML etc.) it becomes possible to manage the internal databases, it is possible to significantly improve and the use efficiency of the database.
また、スキーマに新たなリソース(例えば、XMLの要素など)が追加された場合であっても、容易に追加された形式に変換することができるようになる。 Also, new resource schema (e.g., XML elements) even when is added, it is possible to convert easily added form.
また、各分析ツールにより随時項目追加が発生し、その追加項目を後段の分析ツールの処理で使用するような場合であっても、分析ツールの仕様に手を加えることなく、使用する各データの拡張性を容易に担保することができるようになる。 Also, from time to time item added is generated by each analysis tool, even if the additional items such as used in the processing of the subsequent analysis tool, without modifying the specifications of the analysis tool, the respective data used it is possible to easily ensure the scalability. また、共有部分のデータベースの一括形式変換を行うことができるようになる。 Further, it is possible to perform a batch format conversion database shared portion.
つぎの発明にかかる構造化データ処理方法は、上記の構造化データ処理方法において、上記構造化記述言語は、XML、SGML、BioML、BSML、ASN. Structured data processing method according to still another aspect of the present invention is the structured data processing method described above, the structured description language, XML, SGML, BioML, BSML, ASN. 1、GAME、若しくは、これらのいずれかを拡張した構造化記述言語、または、これらと同等の記述能力を持つ構造化記述言語であることを特徴とする。 1, GAME, or those of any of the extended structured description language or, characterized in that it is a structured description language with these equivalent description capability.
これは構造化記述言語の一例を一層具体的に示すものである。 This shows an example of a structured description language more specifically. この方法によれば、構造化記述言語は、XML、SGML、BioML、BSML、ASN. According to this method, a structured description language, XML, SGML, BioML, BSML, ASN. 1、GAME、若しくは、これらのいずれかを拡張した構造化記述言語、または、これらと同等の記述能力を持つ構造化記述言語であるので、これらのバイオインフォマティクス分野において一般的に用いられる構造化記述言語により記述された構造化データを効率的に変換することができるようになる。 1, GAME, or those of any of the extended structured description language, or because it is structured description language with these equivalent description capabilities, generally structured description used in these Bioinformatics it is possible to convert the structured data described in a language efficiently.
つぎの発明にかかる構造化データ処理方法は、上記の構造化データ処理方法において、上記スキーマデータは、DTD、XMLスキーマ、RELAX、若しくは、これらのいずれかを拡張したスキーマ言語、または、これらと同等の記述能力を持つスキーマ言語により記述されたデータであることを特徴とする。 Structured data processing method according to still another aspect of the present invention is the structured data processing method described above, the schema data, DTD, XML Schema, RELAX, or these schema language to extend one or a equivalent thereof characterized in that it is a data described by the schema language with a description ability of.
これはスキーマデータの一例を一層具体的に示すものである。 This shows an example of the schema data more specifically. この方法によれば、スキーマデータは、DTD、XMLスキーマ、RELAX、若しくは、これらのいずれかを拡張したスキーマ言語、または、これらと同等の記述能力を持つスキーマ言語により記述されたデータであるので、これらのバイオインフォマティクス分野において一般的に用いられるスキーマ言語により記述されたスキーマデータを効率的に変換することができるようになる。 According to this method, schema data, DTD, XML Schema, RELAX, or these schema language to extend one or since it is data described in a schema language with these equivalent description capabilities, It consists generally schema data described in a schema language used to be able to efficiently convert in these bioinformatics.
つぎの発明にかかる構造化データ処理方法は、上記の構造化データ処理方法において、上記スキーマ形式変換指示情報および上記スキーマリソース定義情報は、XSL、若しくは、これを拡張した言語、または、これらと同等の記述能力を持つ木構造変換言語により記述されたデータであることを特徴とする。 Structured data processing method according to still another aspect of the present invention is the structured data processing method described above, the schema format conversion instruction information and the schema resource definition information, XSL, or the language extension of this, or equivalent thereof characterized in that it is a data described by a tree structure conversion language with a description ability of.
これはスキーマ形式変換指示情報およびスキーマリソース定義情報の一例を一層具体的に示すものである。 This shows an example of a schema format conversion instruction information and schema resource definition information more specifically. この方法によれば、スキーマ形式変換指示情報およびスキーマリソース定義情報は、XSL、若しくは、これを拡張した言語、または、これらと同等の記述能力を持つ木構造変換言語により記述されたデータであるので、これらのバイオインフォマティクス分野において一般的に用いられるスキーマ変換記述言語により記述されたスキーマ形式変換指示情報およびスキーマリソース定義情報に基づいて、構造化データおよびスキーマデータを効率的に変換することができるようになる。 According to this method, schema format conversion instruction information and schema resource definition information, XSL, or the language extension of this, or, because it is data described by a tree structure conversion language with these equivalent description capability , so that can be converted on the basis of the described schema format conversion instruction information and schema resource definition information by general schema transformation description language used in these bioinformatics, structured data and schema data efficiently become.
つぎの発明にかかる構造化データ処理方法は、上記の構造化データ処理方法において、上記構造化データは、塩基配列および/またはアミノ酸配列を含む配列情報、文献情報のうち少なくとも一つに関する要素を含むことを特徴とする。 Structured data processing method according to still another aspect of the present invention is the structured data processing method described above, the structured data includes sequence information including the nucleotide sequence and / or amino acid sequence, at least one related elements of the document information it is characterized in.
これはスキーマ形式変換指示情報およびスキーマリソース定義情報の一例を一層具体的に示すものである。 This shows an example of a schema format conversion instruction information and schema resource definition information more specifically. この方法によれば、構造化データは、塩基配列および/またはアミノ酸配列を含む配列情報、文献情報のうち少なくとも一つに関する要素を含むので、GenBankなどに登録された配列情報や、PubMedなどに登録された文献情報を取得して形式変換することができるようになる。 According to this method, structured data, sequence information comprising the nucleotide sequence and / or amino acid sequence, because it contains elements related to at least one of the document information, and sequence information registered like GenBank, registration etc. PubMed acquires document information it is possible to format conversion.
つぎの発明にかかるプログラムは、構造化記述言語で記述された構造化データと、当該構造化データの構造を定義したスキーマデータとを取得する構造化データ取得ステップと、上記構造化データ取得ステップにて取得した上記構造化データおよび上記スキーマデータを、スキーマ形式変換指示情報に基づいて変換する形式変換ステップと、上記形式変換ステップにて変換された変換後の構造化データおよびスキーマデータをデータベースに登録する構造化データ登録ステップと、上記構造化データ登録ステップにて登録された上記データベースにアクセスしてデータ処理を行うツールプログラムと、当該ツールプログラムに入力される上記構造化データのスキーマのリソースを定義するスキーマリソース定義情報とを対応させて登録する分 Program according to the next invention comprises a structured data described in a structured description language, and structured data acquisition step of acquiring the schema data that defines the structure of the structured data, in the structured data acquisition step registered the structured data and the schema data acquisition, and format conversion step of converting, based on the schema format conversion instruction information, structured data and schema data resulting from the conversion by the format converting step to the database Te definition and structured data registration step, a tool program for performing data processing by accessing the database registered in the structured data registration step, the resource schema of the structured data to be input to the tool program that minute to register so as to correspond to the schema resource definition information ツール登録ステップと、上記ツールプログラムが起動された場合に、起動された当該ツールプログラムに対応する上記スキーマリソース定義情報に従って、上記データベースに登録された構造化データおよびスキーマデータを動的に変換して当該ツールプログラムに入力する分析ツール起動ステップとを含む構造化データ処理方法をコンピュータに実行させることを特徴とする。 A tool registration step, when the tool program is started, according to the schema resource definition information corresponding to the tool program activated, dynamically convert structured data and schema data registered in the database characterized in that to execute a structured data processing method comprising an analysis tool activation step of inputting to the tool program in the computer.
このプログラムによれば、構造化記述言語で記述された構造化データと、当該構造化データの構造を定義したスキーマデータとを取得し、取得した構造化データおよびスキーマデータを、スキーマ形式変換指示情報に基づいて変換し、変換された変換後の構造化データおよびスキーマデータをデータベースに登録し、登録されたデータベースにアクセスしてデータ処理を行うツールプログラムと、当該ツールプログラムに入力される構造化データのスキーマのリソースを定義するスキーマリソース定義情報とを対応させて登録し、ツールプログラムが起動された場合に、起動された当該ツールプログラムに対応するスキーマリソース定義情報に従って、データベースに登録された構造化データおよびスキーマデータを動的に変換して当該ツー According to this program, it acquires the structured data described in a structured description language, and a schema data defining the structure of the structured data, acquired structured data and schema data, schema format conversion instruction information register converted, the converted structured data and schema data after conversion has a database based on a tool program for performing data processing by accessing the registered database, structured data that is input to the tool program register of the schema resource definition information defining the schema of resource in association, if the tool program is started, according to the schema resource definition information corresponding to the tool program activated, structured in a database the to-data and the schema data by dynamically converting プログラムに入力するので、異なる構造化言語やスキーマ言語で記述された取得データを予めまたは必要に応じて定めた形式に変換することができるようになる。 Since the input to the program, it becomes possible to convert the acquired data written in different structured language or schema language in advance or format determined according to need.
また、各種の外部データベースから取得したデータ間の整合を容易にとることができるようになり、データ記述形式に関する高い拡張性を担保することができるようになる。 Furthermore, now the matching between the data acquired from various external databases can take ease, it is possible to ensure the scalability on the data description format. その結果、各種のデータ記述形式に対応する外部データベースへのアクセスを容易に行うことができるようになる。 As a result, as access to external database corresponding to various data description format can be easily performed. すなわち、統一した特定の構造化記述言語の形式(例えば、BSMLやBioML等)で内部のデータベースを管理することが可能になるため、データベースの利用効率などを著しく向上させることができるようになる。 That unified particular structured description language format that (e.g., BSML and BioML etc.) it becomes possible to manage the internal databases, it is possible to significantly improve and the use efficiency of the database.
また、スキーマに新たなリソース(例えば、XMLの要素など)が追加された場合であっても、容易に追加された形式に変換することができるようになる。 Also, new resource schema (e.g., XML elements) even when is added, it is possible to convert easily added form.
また、各分析ツールにより随時項目追加が発生し、その追加項目を後段の分析ツールの処理で使用するような場合であっても、分析ツールの仕様に手を加えることなく、使用する各データの拡張性を容易に担保することができるようになる。 Also, from time to time item added is generated by each analysis tool, even if the additional items such as used in the processing of the subsequent analysis tool, without modifying the specifications of the analysis tool, the respective data used it is possible to easily ensure the scalability. また、共有部分のデータベースの一括形式変換を行うことができるようになる。 Further, it is possible to perform a batch format conversion database shared portion.
つぎの発明にかかるプログラムは、上記のプログラムにおいて、上記構造化記述言語は、XML、SGML、BioML、BSML、ASN. Program according to the next invention, in the above program, said structured description language, XML, SGML, BioML, BSML, ASN. 1、GAME、若しくは、これらのいずれかを拡張した構造化記述言語、または、これらと同等の記述能力を持つ構造化記述言語であることを特徴とする。 1, GAME, or those of any of the extended structured description language or, characterized in that it is a structured description language with these equivalent description capability.
これは構造化記述言語の一例を一層具体的に示すものである。 This shows an example of a structured description language more specifically. このプログラムによれば、構造化記述言語は、XML、SGML、BioML、BSML、ASN. According to this program, a structured description language, XML, SGML, BioML, BSML, ASN. 1、GAME、若しくは、これらのいずれかを拡張した構造化記述言語、または、これらと同等の記述能力を持つ構造化記述言語であるので、これらのバイオインフォマティクス分野において一般的に用いられる構造化記述言語により記述された構造化データを効率的に変換することができるようになる。 1, GAME, or those of any of the extended structured description language, or because it is structured description language with these equivalent description capabilities, generally structured description used in these Bioinformatics it is possible to convert the structured data described in a language efficiently.
つぎの発明にかかるプログラムは、上記のプログラムにおいて、上記スキーマデータは、DTD、XMLスキーマ、RELAX、若しくは、これらのいずれかを拡張したスキーマ言語、または、これらと同等の記述能力を持つスキーマ言語により記述されたデータであることを特徴とする。 Program according to the next invention, in the above program, the above schema data, DTD, XML Schema, RELAX, or these schema language to extend one or schema language with these equivalent description capability characterized in that it is a written data.
これはスキーマデータの一例を一層具体的に示すものである。 This shows an example of the schema data more specifically. このプログラムによれば、スキーマデータは、DTD、XMLスキーマ、RELAX、若しくは、これらのいずれかを拡張したスキーマ言語、または、これらと同等の記述能力を持つスキーマ言語により記述されたデータであるので、これらのバイオインフォマティクス分野において一般的に用いられるスキーマ言語により記述されたスキーマデータを効率的に変換することができるようになる。 According to this program, schema data, DTD, XML Schema, RELAX, or these schema language to extend one or since it is data described in a schema language with these equivalent description capabilities, It consists generally schema data described in a schema language used to be able to efficiently convert in these bioinformatics.
つぎの発明にかかるプログラムは、上記のプログラムにおいて、上記スキーマ形式変換指示情報および上記スキーマリソース定義情報は、XSL、若しくは、これを拡張した言語、または、これらと同等の記述能力を持つ木構造変換言語により記述されたデータであることを特徴とする。 Such program to the next invention, in the above program, the above schema format conversion instruction information and the schema resource definition information, XSL, or the language extension of this or tree structure conversion with these equivalent description capability characterized in that it is a data described by the language.
これはスキーマ形式変換指示情報およびスキーマリソース定義情報の一例を一層具体的に示すものである。 This shows an example of a schema format conversion instruction information and schema resource definition information more specifically. このプログラムによれば、スキーマ形式変換指示情報およびスキーマリソース定義情報は、XSL、若しくは、これを拡張した言語、または、これらと同等の記述能力を持つ木構造変換言語により記述されたデータであるので、これらのバイオインフォマティクス分野において一般的に用いられるスキーマ変換記述言語により記述されたスキーマ形式変換指示情報およびスキーマリソース定義情報に基づいて、構造化データおよびスキーマデータを効率的に変換することができるようになる。 According to this program, schema format conversion instruction information and schema resource definition information, XSL, or the language extension of this, or, because it is data described by a tree structure conversion language with these equivalent description capability , so that can be converted on the basis of the described schema format conversion instruction information and schema resource definition information by general schema transformation description language used in these bioinformatics, structured data and schema data efficiently become.
つぎの発明にかかるプログラムは、上記のプログラムにおいて、上記構造化データは、塩基配列および/またはアミノ酸配列を含む配列情報、文献情報のうち少なくとも一つに関する要素を含むことを特徴とする。 Program according to the next invention, in the above program, it said structured data, sequence information comprising the nucleotide sequence and / or amino acid sequence, characterized in that it comprises an element for at least one of document information.
これはスキーマ形式変換指示情報およびスキーマリソース定義情報の一例を一層具体的に示すものである。 This shows an example of a schema format conversion instruction information and schema resource definition information more specifically. このプログラムによれば、構造化データは、塩基配列および/またはアミノ酸配列を含む配列情報、文献情報のうち少なくとも一つに関する要素を含むので、GenBankなどに登録された配列情報や、PubMedなどに登録された文献情報を取得して形式変換することができるようになる。 According to this program, structured data, sequence information comprising the nucleotide sequence and / or amino acid sequence, because it contains elements related to at least one of the document information, and sequence information registered like GenBank, registration etc. PubMed acquires document information it is possible to format conversion.
つぎの発明にかかる記録媒体は、上記のプログラムを記録したことを特徴とする。 Recording medium according to the next invention is characterized in that recording the above program.
この記録媒体によれば、当該記録媒体に記録されたプログラムをコンピュータに読み取らせて実行することによって、上記のプログラムをコンピュータを利用して実現することができ、これら各方法と同様の効果を得ることができる。 According to this recording medium, by executing to read the program recorded in the recording medium into the computer, it can be implemented using a computer the program, the same effect as each of these methods be able to.
発明を実施するための最良の形態以下に、本発明にかかる構造化データ処理装置、構造化データ処理方法、プログラム、および、記録媒体の実施の形態を図面に基づいて詳細に説明する。 Invention will best mode for carrying out the structured data processing apparatus according to the present invention, structured data processing method, a program, and will be described in detail with reference to the embodiment of the recording medium to the drawings. なお、この実施の形態によりこの発明が限定されるものではない。 It should be understood that the invention is not limited by these embodiments.
特に、以下の実施の形態においては、本発明を、XMLベースの構造化記述言語およびスキーマ言語に適用した例について説明するが、この場合に限られず、他のいずれの構造化記述言語およびスキーマ言語に適用可能なシステム等について、同様に適用することができる。 In particular, in the following embodiment, the present invention will be described an example of applying the structured description language and schema language XML-based, not limited to this case, any other structured description language and schema language it can be about the applicable system or the like, similarly applied to.
[本発明の概要] Summary of the invention]
以下、本発明の概要について説明し、その後、本発明の構成および処理等について詳細に説明する。 Hereinafter, an overview of the present invention, then, will be described in detail the configuration and processing of the present invention. 第3図は本発明の基本原理を示す原理構成図である。 Figure 3 is a principle configurational diagram showing the basic principle of the present invention.
本発明は、概略的に、以下の基本的特徴を有する。 The present invention generally has the following basic features. すなわち、本発明は、まず、構造化記述言語で記述された構造化データと、当該構造化データの構造を定義したスキーマデータとを、インターネット等を介して外部のデータベース等から取得する(ステップSA−1)。 That is, the present invention, first, a structured data described in a structured description language, and a schema data defining the structure of the structured data is acquired from an external database or the like via the Internet or the like (step SA -1).
ここで、外部のデータベースは、例えば、GenBank、EMBL(European Molecular Biology Laboratory)、DDBJ(DNA Data Bank of Japan)等の配列データベースや、GDB(Genome Data Base)、OMIM(online mendelian inheritance in man)等のヒトゲノム地図データに関するデータベースや、PIR(Protein Identification Resource)、SWISS−PROT、PRF等のアミノ酸配列データベースや、PROSITE、BLOCKS等の蛋白質機能データベースや、PDB(Protein Data Bank)等の蛋白質立体構造データベースや、Entrez等の統合型 Here, the external database, for example, GenBank, EMBL (European Molecular Biology Laboratory), DDBJ and sequence databases (DNA Data Bank of Japan) and the like, GDB (Genome Data Base), OMIM (online mendelian inheritance in man), etc. and a database of the human genome map data, PIR (protein Identification Resource), SWISS-PROT, and amino acid sequence databases PRF such, PROSITE, protein function database or the like BLOCKS, Ya protein tertiary structure database such as PDB (protein data Bank) , integrated, such as Entrez ータベースや、PubMed等の文献データベース等が公知である。 Database and is known literature databases such as PubMed. これらの各データベースは、それぞれ予め定めた構造化記述言語により構造化データを記述し、また、同様に予め定めたスキーマ言語により記述された、構造化データに対応するスキーマデータを収集している。 Each of these databases, respectively describe the structure of data by a predetermined structured description language, also described by similarly predetermined schema language, it has collected schema data corresponding to structured data.
ここで、外部のデータベースなどから取得する構造化データを記述する構造化記述言語は、XML、SGML、BioML、BSML、ASN. Here, the structured description language that describes the structure of data to be acquired from an external database, XML, SGML, BioML, BSML, ASN. 1、GAME、若しくは、これらのいずれかを拡張した構造化記述言語、または、これらと同等の記述能力を持つ構造化記述言語であってもよく、また、スキーマデータは、DTD、XMLスキーマ、RELAX、若しくは、これらのいずれかを拡張したスキーマ言語、または、これらと同等の記述能力を持つスキーマ言語により記述されたデータであってもよい。 1, GAME, or those of any of the extended structured description language, or may be a structured description language with these equivalent description capabilities, also schema data, DTD, XML Schema, RELAX or, these schema language to extend one or may be data described in a schema language with these equivalent description capability.
次に、本発明は、取得した構造化データおよびスキーマデータを、スキーマ形式変換指示情報に基づいて変換する(ステップSA−2)。 Next, the present invention, the obtained structured data and schema data, and converts, based on the schema format conversion instruction information (step SA-2). ここで、第4図は、本発明による取得データの形式変換の一例を説明する概念図である。 Here, FIG. 4 is a conceptual diagram illustrating an example of a format conversion of the acquired data according to the present invention.
第4図に示すように、構造化記述言語で記述された構造化データと、スキーマ言語で記述されたスキーマデータとをそれぞれ外部のデータベースなどから取得すると、予め定めたスキーマ形式変換指示情報に従って、取得データを変換する。 As shown in FIG. 4, the structured data described in a structured description language, when acquiring the schema data described in a schema language etc. each external database, according to the schema format conversion instruction information predetermined, to convert the acquired data.
ここで、スキーマ形式変換指示情報は、XSL、若しくは、これを拡張した言語、または、これらと同等の記述能力を持つ木構造変換言語により記述されたデータであってもよく、この場合、変換処理は、Xalan(APACHE XML PROJECT)やXT(James Clark)等の既知のXSLTプロセッサを用いて実行してもよい。 Here, schema format conversion instruction information, XSL, or the language extension of this, or may be data described in a tree structure conversion language with these equivalent description capabilities, in this case, conversion processing may be performed using known XSLT processor such Xalan (APACHE XML PROJECT) and XT (James Clark).
ここで、第6図は、XSLにより記述された配列情報のスキーマ形式変換指示情報の一例を示す図であり、第7図は、第6図に示すスキーマ形式変換指示情報により形式変換された後の構造化データ(XML文書)の一例を示す図であり、また、第8図は、第6図に示すスキーマ形式変換指示情報により形式変換された後のスキーマデータ(DTD)の一例を示す図である。 Here, FIG. 6 is a diagram showing an example of a schema format conversion instruction information sequence information described by XSL, Figure 7, after being format-converted by the schema format conversion instruction information shown in Figure 6 is a diagram illustrating an example of structured data (XML documents), and FIG. 8 is a view showing an example of a schema data after format conversion by the schema format conversion instruction information shown in FIG. 6 (DTD) it is. 第6図に示すXSL文書により、取得データのスキーマデータは第8図に示すDTDの形式に変換され、構造化データは第7図に示すXML文書に変換される。 The XSL document shown in FIG. 6, the schema data acquisition data is converted into the format of the DTD shown in FIG. 8, the structured data is converted into XML document shown in Figure 7.
第8図に示す変換後のDTDの例では、構造化データ内で用いられる要素(ELEMENT)は、Sequence、Title、Nucleotide、Peptide、Reference、RefTitle、Idであり、それぞれの要素の型を定義している。 The DTD for example after conversion shown in FIG. 8, elements used in the structured data (ELEMENT) is, Sequence, Title, Nucleotide, Peptide, Reference, RefTitle, an Id, and defines the type of each element ing. 各要素のうち「Sequence」は、塩基配列データを意味し、配列に関する自然言語による説明を意味する「Title」と、塩基配列を意味する「Nucleotide」と、塩基配列を変換したアミノ酸配列を意味する「Peptide」と、参考文献の題名を意味する「RefTitle」および参考文献の参照番号を意味する「Id」を子の要素として備え、参考文献を意味する「Reference」と、を子の要素として備える。 "Sequence" of each element means a base sequence data, which means the "Title" meaning described in natural language concerning sequence, it means a nucleotide sequence as "Nucleotide", the amino acid sequence obtained by converting the nucleotide sequence and "Peptide" comprises "Id" which means reference numbers "RefTitle" and references means the title of references as child elements includes a "reference" meaning references as child elements .
また、第9図は、XSLにより記述された文献情報のスキーマ形式変換指示情報の一例を示す図であり、第10図は、第9図に示すスキーマ形式変換指示情報により形式変換された後の構造化データ(XML文書)の一例を示す図であり、また、第11図は、第9図に示すスキーマ形式変換指示情報により形式変換された後のスキーマデータ(DTD)の一例を示す図である。 Further, FIG. 9 is a diagram showing an example of a schema format conversion instruction information literature information described by XSL, FIG. 10, after being format-converted by the schema format conversion instruction information shown in FIG. 9 is a diagram illustrating an example of structured data (XML documents), and FIG. 11 is a diagram showing an example of the schema data (DTD) after being format-converted by the schema format conversion instruction information shown in FIG. 9 is there.
第11図に示す変換後のDTDの例では、構造化データ内で用いられる要素(ELEMENT)は、Literature、Title、Abstract、Link、Idであり、それぞれの要素の型を定義している。 The DTD for example after conversion shown in FIG. 11, elements used in the structured data (ELEMENT) is, Literature, Title, Abstract, Link, an Id, defines the type of each element. 各要素のうち「Literature」は、文献データ全体を意味し、文献の題名を意味する「Title」と、文献の概要を意味する「Abstract」と、関連する配列データへの参照番号集合を意味し、個々の参照番号を意味する「Id」を子の要素として備える「Link」と、を子の要素として備える。 "Literature" of each element refers to the entire document data, means a "Title", which means the title of document, the "Abstract" meaning an overview of literature, reference number set to the associated array data comprises comprising a "Id", which means individual reference numbers as elements of the child as a "Link", as child elements.
これにより、異なる構造化言語やスキーマ言語で記述された取得データを予めまたは必要に応じて定めた形式に変換することができるようになるので、各種の外部データベースから取得したデータ間の整合を容易にとることができるようになりデータ記述形式に関する高い拡張性を担保することができるようになる。 Thereby, different so it is possible to convert the predetermined format in accordance with acquired data described in a structured language or schema language in advance or necessary, facilitate alignment between data acquired from various external databases it becomes possible to ensure the scalability relates becomes data description format to allow to take. その結果、各種のデータ記述形式に対応する外部データベースへのアクセスを容易に行うことができるようになる。 As a result, as access to external database corresponding to various data description format can be easily performed. すなわち、統一した特定の構造化記述言語の形式(例えば、BSMLやBioML等)で内部のデータベースを管理することが可能になるため、データベースの利用効率などを著しく向上させることができるようになる。 That unified particular structured description language format that (e.g., BSML and BioML etc.) it becomes possible to manage the internal databases, it is possible to significantly improve and the use efficiency of the database.
また、スキーマに新たなリソース(例えば、XMLの要素など)が追加された場合であっても、容易に追加された形式に変換することができるようになる。 Also, new resource schema (e.g., XML elements) even when is added, it is possible to convert easily added form.
また、本発明は、外部のデータベースからデータを取得する場合に限られず、同様に自己が管理する内部データベースからデータを取得することにより、内部データの一括形式変換を行うことができるようになる。 Further, the present invention is not limited to the case of acquiring data from an external database, as well as by acquiring the data from the internal database managed by itself to, it is possible to perform a batch format conversion of the internal data.
再び第3図に戻り、本発明は、次に、変換された変換後の構造化データおよびスキーマデータをデータベースに登録する(ステップSA−3)。 Returning to FIG. 3 again, the present invention will now registers the converted structured data and schema data after conversion are in the database (Step SA-3).
ここで、既知のXML格納システム(例えば、eXcelon、Tamino等のDOM木格納のもの、XMLネイティブ格納方式のもの、RDBラッパー形式のもの、または、同等機能の処理系をもつもの等)を用いてもよい。 Here, a known XML storage system (e.g., eXcelon, those DOM tree storage such as Tamino, those XML native storage scheme, those RDB wrapper style, or those like having a processing system of equivalent function) using it may be.
次に、本発明は、ステップSA−3において登録された各種のデータベースにアクセスしてデータ処理を行うツールプログラム(分析ツール)と、当該ツールプログラムに入力される構造化データのスキーマのリソースを定義するスキーマリソース定義情報とを対応させて登録する(ステップSA−4)。 Next, the present invention is defined as tool program (analysis tools) that accesses the registered various databases performs data processing at Step SA-3, the resource schema structured data inputted to the tool program made to correspond to the schema resource definition information and registers (step SA-4).
ここで、スキーマリソース定義情報の概念について第30図を参照して説明する。 It will now be described with reference to Figure 30 the concept of the schema resource definition information. スキーマリソース定義情報は、例えば、各種のデータベースに登録された構造化データのスキーマデータと、各種のツールの入力書式とのマッピングを定義することにより、登録された各データソースと、ツールの利用形態の各リソースとの対応を定義してもよい。 Schema resource definition information includes, for example, the schema data in a structured data registered in various databases, by defining the mapping between the input format of various tools, and each data source is registered, tool usage form it may be defined correspondence between each resource. また、スキーマリソース定義情報は、XSL、若しくは、これを拡張した言語、または、これらと同等の記述能力を持つ木構造変換言語により記述されたデータであってもよい。 Further, the schema resource definition information, XSL, or the language extension of this, or may be data described in a tree structure conversion language with these equivalent description capability.
次に、本発明は、ツールプログラム(分析ツール)が起動された場合に、起動された当該ツールプログラムに対応するスキーマリソース定義情報に従って、データベースに登録された構造化データおよびスキーマデータを動的に変換して(ステップSA−6)、該ツールプログラムに入力する(ステップSA−7)。 Next, the present invention, when the tool program (analysis tools) is activated, according to the schema resource definition information corresponding to the tool program activated, dynamically structured data and schema data registered in the database conversion to (step SA-6), and inputs to the tool program (step SA-7).
ここで、分析ツールの入力データの形式変換の処理フローを第5図に示す。 Here, the format conversion processing flow of the input data analysis tools in Figure 5. まず、ユーザが登録された分析ツールAを起動すると(ステップSB−1)、分析ツール格納ファイルから分析ツールAを読み出しで(ロード)、CPUが分析ツールAを実行可能な状態にする(ステップSB−2)。 First, when starting the analysis tool A the user has been registered (Step SB-1), the analysis tool A from the analysis tool storage file in read (load), CPU is an analysis tool A to an executable state (Step SB -2).
そして、本発明は、スキーマリソース定義ファイルから分析ツールAに対応するスキーマリソース定義情報A(例えば、XSL文書など)を取得する(ステップSB−3)。 The present invention obtains the schema resource definition corresponding to the analysis tool A from the schema resource definition file information A (e.g., XSL document, etc.) (step SB-3).
そして、本発明は、取得したスキーマリソース定義情報Aにより、各データベースに登録された各構造化データおよび各スキーマデータの形式を変換する(ステップSB−4)。 The present invention converts the acquired schema resource definition information A, the format of each structured data and the schema data registered in the database (Step SB-4).
そして、変換後の各構造化データおよび各スキーマデータを分析ツールAの入力データとする(ステップSB−5)。 Then, each structured data and the schema data after conversion and the input data of the analysis tool A (step SB-5). これにて、変換処理を終了する。 This in, to end the conversion process.
ここで、ステップSA−6の変換処理は、Xalan(APACHE XMLPROJECT)やXT(James Clark)等の既知のXSLTプロセッサを用いて実行してもよい。 Here, conversion processing of Step SA-6 may be performed using known XSLT processor such Xalan (APACHE XMLPROJECT) and XT (James Clark).
再び第3図に戻り、次に、本発明は、分析ツールの処理結果を各種のデータベースに登録し、出力装置に処理結果を出力する(ステップSA−8)。 Returning to FIG. 3 again, then the present invention, the processing result of the analysis tools registered in various databases, and outputs the processed result to the output device (step SA-8).
ここで、3種類の分析ツールを起動して遺伝子発現制御解析を実行し、これらの処理結果を各種のデータベースに登録する場合の処理概要を第12図〜第15図および第24図〜第29図等を参照して説明する。 Here, three types of analysis to start the tool running gene expression control analysis, these processes process outline in registration in the various databases results Figure 12 - Figure 15 and Figure 24, second 29 Referring to FIG like will be described.
第12図は、遺伝子発現制御解析処理の処理の概要を示すフロー図である。 FIG. 12 is a flowchart showing an outline of a process of gene expression control analysis.
まず、本発明は、第13図に示すように、転写単位予測ツールを起動して転写単位を予測する(ステップSC−1)。 First, the present invention is, as shown in FIG. 13, for predicting the transcription unit to start the transfer unit prediction tools (Step SC-1). ここで、第13図は、転写単位の予測の概要を示す概念図である。 Here, FIG. 13 is a conceptual diagram showing an outline of a prediction of the transcription unit.
第13図に示すように、まず、各種の外部データベースにアクセスして種々のデータを取得し、これらの上述の方法により必要に応じて形式変換を行って共有部分のデータベースを予め作成しておく。 As shown in FIG. 13, first acquires various data by accessing various external database, previously created a database of shared portion performs format conversion as needed by the method of the above .
そして、転写単位予測ツールは、対応するスキーマリソース定義情報に基づいて共有部分のデータベースにアクセスして適宜形式変換が行われたデータを入力データとして処理を行い、処理結果を転写単位データベースに登録する。 The transfer unit prediction tool performs processing corresponding based on the schema resource definition information to access the database of the shared portion appropriately format conversion has been performed the data as input data, and registers the result of the process to transfer the unit database . 転写単位予測ツールのスキーマリソース定義情報は、遺伝子名データベースから各遺伝子について、(遺伝子名、開始位置、終了位置)の形式で転写単位予測ツールの入力データにマッピングしている。 Schema resource definition information transfer units prediction tool, for each gene from the gene name database, which maps to (gene name, start position, end position) input data transcription units prediction tool in the form of. すなわち、遺伝子名データベースに登録された各遺伝子のデータは、転写単位予測ツールのスキーマリソース定義情報により(遺伝子名、開始位置、終了位置)の形式のデータに変換されて、転写単位予測ツールの入力データとなる。 That is, the data of each gene is registered in the gene name database, the schema resource definition information transfer units prediction tools (gene name, start position, end position) is converted into the format of the data, the input transcription units prediction tools the data.
ここで、第13図で示した転写単位データベースに格納されるスキーマデータおよび構造化データの一例を第24図および第25図を参照して説明する。 Here, an example of a schema data and structured data is stored in the transfer unit database shown in FIG. 13 with reference to FIG. 24 and FIG. 25.
第24図は、第13図で示した転写単位データベースのスキーマデータについてDTDを用いて記述した場合を一例に示す図であり、第25図は、第13図で示した転写単位データベースの構造化データについてXML文書を用いて記述した場合を一例に示す図である。 FIG. 24, a case where the schema data transfer unit database shown in FIG. 13 described using the DTD is a diagram showing an example, FIG. 25, the structure of the transfer unit database shown in FIG. 13 is a diagram illustrating an example of the case described using XML document for the data. 第24図に示すように、第13図で示した転写単位データベースの文書型が定義され、第25図に示すように構造化データが記述される。 As shown in FIG. 24, the document type of transcription unit database shown in FIG. 13 are defined, structured data as shown in FIG. 25 is described.
再び、第12図に戻り、次に、本発明は、第14図に示すように制御部位予測ツールを起動して制御部位を予測する(ステップSC−2)。 Again, returning to FIG. 12, then, the present invention predicts a control portion activates the control site prediction tool as shown in FIG. 14 (Step SC-2). ここで、第14図は、制御部位の予測の概要を示す概念図である。 Here, FIG. 14 is a conceptual diagram showing an outline of a prediction of the control sites.
起動された制御部位予測ツールは、対応するスキーマリソース定義情報に基づいて共有部分のデータベースにアクセスして適宜形式変換が行われたデータや、BLAST等の他の配列統計処理ツールの処理結果データや、転写単位予測ツールの処理結果を格納した転写単位データベースに登録されたデータなどを入力データとして処理を行い、処理結果を制御部位データベースに登録する。 Activated control site prediction tool response and data schema resource definition information appropriate format conversion by accessing the database of the shared portion based on is performed to, Ya processing result data of another sequence statistical processing tools such as BLAST and the data registered in the transfer unit database storing a processing result of the transcription unit predicting tool performs processing as input data, and registers the processed result to the control part database. 制御部位予測ツールのスキーマリソース定義情報は、転写単位データベース、遺伝子名データベース、全ゲノムデータベースから、各転写単位について、(転写単位識別子、開始位置、終了位置、任意の長さのアミノ酸配列)の形式で制御部位予測ツールの入力データとマッピングを行い、また、配列統計処理ツールの処理結果から任意の長さのアミノ酸部分配列の全ての出現する組合せについて、(アミノ酸部分配列、ゲノム中の出願回数)の形式で制御部位予測ツールの入力データとマッピングを行う。 Schema resource definition information of the control site prediction tool transcription unit database, gene name database, from whole genome database, for each transfer unit, the form of the (transcriptional unit identifier, start position, end position, any length of amino acid sequence) for all emerging combinations in performs input data and mapping of the control site prediction tool, also, SEQ statistical processing tool of the processing result from any length of amino acid subsequences (amino acid moiety sequence, application number in the genome) performing input data and mapping of the control site prediction tool in the form. また、BLASTなどの配列統計処理ツールのスキーマリソース定義情報は、全ゲノムデータベースから配列全体を取り出すように配列統計処理ツールの入力データとマッピングを行う。 Further, the schema resource definition information sequence statistical processing tools such as BLAST performs input data and mapping of sequences statistical processing tool to retrieve the entire sequence from the whole genome database.
ここで、第14図で示した制御部位データベースに格納されるスキーマデータおよび構造化データの一例を第26図および第27図を参照して説明する。 Here, an example of a schema data and structured data is stored in the control site database shown in FIG. 14 with reference to FIG. 26 and FIG. 27.
第26図は、第14図で示した制御部位データベースのスキーマデータについてDTDを用いて記述した場合を一例に示す図であり、第27図は、第14図で示した制御部位データベースの構造化データについてXML文書を用いて記述した場合を一例に示す図である。 Figure 26 is a case where the schema data of the control site database shown in FIG. 14 described using the DTD is a diagram showing an example, FIG. 27, the structure of the control site database shown in FIG. 14 is a diagram illustrating an example of the case described using XML document for the data. 第26図に示すように、第14図で示した制御部位データベースの文書型が定義され、第27図に示すように構造化データが記述される。 As shown in FIG. 26, the document type of the control site database shown in FIG. 14 are defined, structured data, as shown in FIG. 27 is described.
再び、第12図に戻り、次に本発明は、第15図に示すように制御遺伝子予測ツールを起動して制御遺伝子を予測する(ステップSC−3)。 Again, returning to FIG. 12, then the present invention predicts a control gene activates the control gene prediction tool as shown in Figure 15 (step SC-3). ここで、第15図は、制御遺伝子の予測の概要を示す概念図である。 Here, FIG. 15 is a conceptual diagram showing an outline of a prediction of a control gene.
起動された制御遺伝子予測ツールは、対応するスキーマリソース定義情報に基づいて共有部分のデータベースにアクセスして適宜形式変換が行われたデータや、BLAST等の他の配列統計処理ツールの処理結果データや、転写単位予測ツールの処理結果を格納した転写単位データベースに登録されたデータや、制御部位予測ツールの処理結果を格納した制御部位データベースに登録されたデータなどを入力データとして処理を行い、処理結果を制御ネットワークデータベースに登録する。 Activated control gene prediction tools, response and data schema resource definition information appropriate format conversion by accessing the database of the shared portion based on is performed to, Ya processing result data of another sequence statistical processing tools such as BLAST , processing results and the data registered in the transfer unit database storing transcription units prediction tools, such as a performs processing as input data data registered in the control site database storing a processing result of the control site prediction tool, processing results a register to control network database. 制御遺伝子予測ツールのスキーマリソース定義情報は、配列データベースから、各DNA結合蛋白質の遺伝子について、(遺伝子名、アミノ酸配列)の形式で制御遺伝子予測ツールの入力データとマッピングを行い、また、転写単位データベース、全ゲノムデータベースから各転写単位について、(転写単位識別子、制御部位(開始位置、終了位置、アミノ酸配列)のリスト)の形式で制御遺伝子予測ツールの入力データとマッピングを行う。 Schema resource definition information of the control gene prediction tools, from sequence databases for genes of each DNA binding protein performs input data and mapping of the control gene prediction tool in the form of (gene name, amino acid sequence), The transfer unit database for each transcription unit from whole genome database, to input data and mapping of the control gene prediction in the form (transfer unit identifier, the control site (start position, end position, a list of amino acid sequences)) tool.
ここで、第15図で示した制御ネットワークデータベースに格納されるスキーマデータおよび構造化データの一例を第28図および第29図を参照して説明する。 Here, an example of a schema data and structured data is stored in the control network database shown in FIG. 15 with reference to Figure 28 and Figure 29.
第28図は、第15図で示した制御ネットワークデータベースのスキーマデータについてDTDを用いて記述した場合を一例に示す図であり、第29図は、第15図で示した制御ネットワークデータベースの構造化データについてXML文書を用いて記述した場合を一例に示す図である。 Figure 28, a case where the schema data of the control network database shown in FIG. 15 described using the DTD is a diagram showing an example, FIG. 29, the structure of the control network database shown in FIG. 15 is a diagram illustrating an example of the case described using XML document for the data. 第28図に示すように、第15図で示した制御ネットワークデータベースの文書型が定義され、第29図に示すように構造化データが記述される。 As shown in FIG. 28, the document type of the control network database shown in FIG. 15 are defined, structured data, as shown in FIG. 29 is described.
これにて、遺伝子発現制御解析処理を終了する。 This at ends of gene expression control analysis.
このように、各分析ツールにより随時項目追加が発生し、その追加項目を後段の分析ツールの処理で使用するような場合であっても、分析ツールの仕様に手を加えることなく、使用する各データの拡張性を容易に担保することができるようになる。 Thus, at any time item added is generated by each analysis tool, even if the additional items such as used in the processing of the subsequent analysis tool, without modifying the specifications of the analysis tool, the use the extension of the data so that it is possible to easily secured. また、共有部分のデータベースの一括形式変換を行うことができるようになる。 Further, it is possible to perform a batch format conversion database shared portion.
[システム構成] [System configuration]
まず、本システムの構成について説明する。 First, the configuration of the system. 第2図は、本発明が適用される本システムの構成の一例を示すブロック図であり、該構成のうち本発明に関係する部分のみを概念的に示している。 Figure 2 is a block diagram showing an example of the system configuration to which the present invention is applied, showing conceptually only the region relevant to the present invention of the structure. 本システムは、概略的に、構造化データ処理装置100と、配列情報等に関する外部データベースやホモロジー検索等の外部プログラム等を提供する外部システム200とを、ネットワーク300を介して通信可能に接続して構成されている。 The system, schematically, a structured data processing apparatus 100, and an external system 200 which provides external databases and homology search, such as an external program concerning such sequence information, and communicatively connected to each other via a network 300 It is configured.
第2図においてネットワーク300は、構造化データ処理装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネット等である。 Network 300 in FIG. 2, has a function of connecting the structured data processing apparatus 100 and the external system 200 to each other, for example, the Internet.
第2図において外部システム200は、ネットワーク300を介して、構造化データ処理装置100と相互に接続され、利用者に対して配列情報等に関する外部データベースやホモロジー検索やモチーフ検索等の外部プログラムを実行するウェブサイトを提供する機能を有する。 External system 200 in FIG. 2, through the network 300 are connected to each other and structured data processing device 100, executes the external database and homology search and motif search such as an external program regarding such sequence information to the user It has the function of providing a web site to be.
ここで、外部システム200は、WEBサーバやASPサーバ等として構成してもよく、そのハードウェア構成は、一般に市販されるワークステーション、パーソナルコンピュータ等の情報処理装置およびその付属装置により構成してもよい。 The external system 200 may be configured as WEB server or ASP server or the like, its hardware configuration, as a commercially available workstation, be constituted by an information processing device and the accessory device such as a personal computer good. また、外部システム200の各機能は、外部システム200のハードウェア構成中のCPU、ディスク装置、メモリ装置、入力装置、出力装置、通信制御装置等およびそれらを制御するプログラム等により実現される。 Each function of the external system 200, CPU in the hardware configuration of the external system 200, a disk device, a memory device, an input device, output device, is realized by such and communication control device program for controlling them.
第2図において構造化データ処理装置100は、概略的に、構造化データ処理装置100の全体を統括的に制御するCPU等の制御部102、通信回線等に接続されるルータ等の通信装置(図示せず)に接続される通信制御インターフェース部104、入力装置112や出力装置114に接続される入出力制御インターフェース部108、および、各種のデータベースやテーブルなどを格納する記憶部106を備えて構成されており、これら各部は任意の通信路を介して通信可能に接続されている。 Structured data processor 100 in FIG. 2, schematically, a communication device such as a router connected control unit 102 such as a CPU that integrally controls the entire structured data processing apparatus 100, the communication line or the like ( communication control interface unit 104 connected to not shown), input-output control interface unit 108 is connected to the input device 112 and output device 114 and, configured to include a storage unit 106 that stores various databases and tables are, these units are communicably connected through an optional communication channel. さらに、この構造化データ処理装置100は、ルータ等の通信装置および専用線等の有線または無線の通信回線を介して、ネットワーク300に通信可能に接続されている。 Further, the structured data processing device 100 via a wired or wireless communication line of a communication device and a dedicated line or the like such as a router, is communicatively connected to the network 300.
記憶部106に格納される各種のデータベースやテーブル(構造化データ格納データベース106a〜処理結果データベース106f)は、固定ディスク装置等のストレージ手段であり、各種処理に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。 Various databases and tables stored in the storage unit 106 (structured data storage database 106a~ processing result database 106f) is a storage unit such as a fixed disk device, various programs used for various processes, tables, files, databases to store and web page files, and the like.
これら記憶部106の各構成要素のうち、構造化データ格納データベース106aは、構造化データを格納したデータベースである。 Among the constituent elements of the storage unit 106, structured data storage database 106a is a database storing structured data.
また、スキーマデータ格納データベース106bは、スキーマデータを格納するデータベースである。 Further, the schema data storage database 106b is a database that stores the schema data.
また、スキーマ形式変換指示情報ファイル106cは、スキーマ形式変換指示情報等を格納するスキーマ形式変換指示情報格納手段である。 Also, schema format conversion instruction information file 106c is a schema format conversion instruction information storage means for storing a schema format conversion instruction information and the like.
また、分析ツール格納ファイル106dは、分析ツールに関する情報等を格納する分析ツール格納手段である。 The analysis tool storage file 106d is an analytical tool storage means for storing information concerning the analysis tools.
また、スキーマリソース定義ファイル106eは、スキーマリソース定義情報等を格納するスキーマリソース定義情報格納手段である。 Further, the schema resource definition file 106e is a schema resource definition information storage means for storing schema resource definition information.
また、処理結果データベース106fは、分析ツールの処理結果に関する情報等を格納する処理結果格納手段である。 The processing result database 106f is processing result storage means for storing information concerning the processing result of the analysis tool.
また、第2図において、通信制御インターフェース部104は、構造化データ処理装置100とネットワーク300(またはルータ等の通信装置)との間における通信制御を行う。 In the second diagram, the communication control interface unit 104 performs communication control between the structured data processing apparatus 100 and the network 300 (or communication apparatus such as router). すなわち、通信制御インターフェース部104は、他の端末と通信回線を介してデータを通信する機能を有する。 That is, the communication control interface unit 104 has a function of communicating data via a communication line with other terminals.
また、第2図において、入出力制御インターフェース部108は、入力装置112や出力装置114の制御を行う。 In the second view, input-output control interface unit 108 controls the input device 112 and output device 114. ここで、出力装置114としては、モニタ(家庭用テレビを含む)の他、スピーカを用いることができる(なお、以下においては出力装置114をモニタとして記載する場合がある)。 Here, the output device 114, monitor (including home television), can be used speaker (Note that there is the output device 114 may be described as a monitor in the following). また、入力装置112としては、キーボード、マウス、および、マイク等を用いることができる。 As the input device 112, a keyboard, a mouse, and can be used microphone. また、モニタも、マウスと協働してポインティングデバイス機能を実現する。 The monitor also realizes a pointing device function in cooperation with the mouse.
また、第2図において、制御部102は、OS(Operating System)等の制御プログラム、各種の処理手順等を規定したプログラム、および所要データを格納するための内部メモリを有し、これらのプログラム等により、種々の処理を実行するための情報処理を行う。 In the second diagram, the control unit 102 includes OS (Operating System) control program such as a program defining the various procedures and the like, and an internal memory for storing the necessary data, these programs Accordingly, it performs information processing for executing various processes. 制御部102は、機能概念的に、構造化データ取得部102a、形式変換部102b、構造化データ登録部102c、分析ツール登録部102d、分析ツール起動部102e、および、処理結果登録部102fを備えて構成されている。 The control unit 102 functionally and conceptually, structured data acquisition unit 102a, format conversion unit 102b, the structured data registration unit 102c, analysis tools registering unit 102d, analysis tool activation unit 102e, and comprises a processing result registration unit 102f It is configured Te.
このうち、構造化データ取得部102aは、構造化記述言語で記述された構造化データと、当該構造化データの構造を定義したスキーマデータとを取得する構造化データ取得手段である。 Of these, the structured data acquisition unit 102a is structured data acquisition means for acquiring a structured data described in a structured description language, and a schema data defining the structure of the structured data.
また、形式変換部102bは、構造化データ取得手段にて取得した上記構造化データおよび上記スキーマデータを、スキーマ形式変換指示情報に基づいて変換する形式変換手段である。 Also, the format conversion unit 102b, the structured data and the schema data acquired in structured data acquisition means, a format conversion means for converting based on the schema format conversion instruction information.
また、構造化データ登録部102cは、形式変換手段にて変換された変換後の構造化データおよびスキーマデータをデータベースに登録する構造化データ登録手段である。 Further, the structured data registration unit 102c is a structured data registration means for registering the structured data and schema data resulting from the conversion by the format converting unit to the database.
また、分析ツール登録部102dは、構造化データ登録手段にて登録された上記データベースにアクセスしてデータ処理を行うツールプログラムと、当該ツールプログラムに入力される上記構造化データのスキーマのリソースを定義するスキーマリソース定義情報とを対応させて登録する分析ツール登録手段である。 The analysis tool registration unit 102d, defines a tool program for performing data processing by accessing the database registered in the structured data registration unit, a resource schema of the structured data to be input to the tool program an analytical tool registration means for registering in correspondence with the schema resource definition information.
また、分析ツール起動部102eは、ツールプログラムが起動された場合に、起動された当該ツールプログラムに対応する上記スキーマリソース定義情報に従って、上記データベースに登録された構造化データおよびスキーマデータを動的に変換して当該ツールプログラムに入力する分析ツール起動手段である。 The analysis tool activation unit 102e, when the tool program is started, according to the schema resource definition information corresponding to the tool program activated, dynamically structured data and schema data registered in the database conversion to an analytical tool activation means for inputting to the tool programs.
また、処理結果登録部102fは、分析ツールの処理結果をデータベースに登録する処理結果登録手段である。 The processing result registration unit 102f is a processing result registration means for registering the processing results of the analysis tool in the database.
なお、これら各部によって行なわれる処理の詳細については、後述する。 The details of the processing performed by these units will be described later.
[実施例] [Example]
次に、このように構成された本実施の形態における本システムの処理の一例について、以下に第17図〜第23図等を参照して詳細に説明する。 Next, an example of processing of the present system in the thus configured present embodiment will be described in detail with reference to FIG. 17-FIG. 23, etc. below.
第17図は、本発明が適用される構造化データ処理装置の概念を説明するための図である。 17 is a diagram for explaining the concept of structured data processing apparatus to which the present invention is applied.
本発明は、第17図に示すような各データベースを設ける。 The present invention is provided with a respective database as shown in FIG. 17. 本データベースは、複数のサブデータベースから構成される。 This database is comprised of a plurality of sub-databases. 第17図中のサブデータベース「配列データベース」には配列データを格納する。 The sub-database "sequence databases" in Figure 17 stores the sequence data. 第17図では配列データベースはひとつしか示されていないが、複数あっても良い。 In the FIG. 17 is not shown is only one sequence database may be a plurality.
配列データベースの各レコードには、少なくとも塩基またはアミノ酸配列データ本体が入る。 Each record in the sequence database, at least nucleotide or amino acid sequence data body enters. BSML、BioML、GAMEのように、部分修飾記述や全体記述が含まれても良い。 BSML, BioML, as GAME, may be included partially qualified description and overall description.
複数の配列データに関係するデータは、配列データベースとは別にサブデータベース「関係データベース」に格納する。 Data relating to a plurality of sequence data from the sequence databases stored separately in the sub-database "relational database". 第17図中では関係データベースA乃至Dの4種類の関係データベースが示されている。 The in FIG. 17 are shown four types of relational database relational database A to D.
関係データベースの各レコードには、少なくとも1つの参照情報が含まれる。 Each record of the relational database includes at least one reference information. 参照情報は、システム内のサブデータベースまたは外部データベースのレコード全体、またはレコード内の特定部分を差し示している。 Reference information indicates pointing to sub-database or the entire records of the external database, or specific portions of the record in the system. 関係データベースの各レコードには部分修飾記述や全体記述その他が含まれても良い。 Description entire partially qualified descriptions and in each record in the relational database other may be included. 第17図中では関係データベース「D」に配列データベースと関係データベース「A」乃至「C」への参照を含むレコードが存在することが、「参照」というラベルの付いた矢線で示されている。 That record in FIG. 17 containing references to sequence database and relational database in a relational database, "D", "A" through "C" is present, it is indicated by arrows labeled "Reference" .
第18図は、本発明が適用される構造化データ処理装置の基本構成を示す図である。 FIG. 18 is a diagram showing a basic configuration of a structured data processing apparatus to which the present invention is applied. 本発明は、第18図に示すようなデータベースシステム(構造化データ処理装置)を構成する。 The present invention constitutes a database system as shown in FIG. 18 (structured data processing unit). このシステムは、基本処理モジュール、拡張処理モジュール、記憶部から構成されている。 The system is configured basic processing module, expansion processing module, from the storage unit.
基本処理モジュールは、ツール登録処理部(概念的に第2図における分析ツール登録部102dに対応する)、文書登録処理部(概念的に第2図における構造化データ登録部102cに対応する)、形式変換処理部(概念的に第2図における形式変換部102bに対応する)、サービス仲介処理部(概念的に第2図における分析ツール起動部102eおよび処理結果登録部102fに対応する)、リンク処理部から構成されている。 The basic processing module, the tool registration processing section (corresponding to the analysis tool registration section 102d in conceptually Figure 2) (corresponding to the structured data registration unit 102c in conceptually Figure 2) document registration processing unit, format (corresponding to the conceptual format conversion section 102b in Fig. 2) conversion processing section (corresponding to the analysis tool activation section 102e and the processing result registration unit 102f in conceptually Figure 2) service mediation process unit, the link and a processing unit. 拡張処理モジュールは、いくつかのツール部(第18図中、分析ツールA、分析ツールB、・・・であり、これらは、概念的に第2図における分析ツール格納ファイル106dに対応する)から構成されている。 Expansion processing module, several tools portion (in FIG. 18, the analysis tools A, analysis tools B, and ..., it is conceptually corresponds to the analytical tool storage file 106d in FIG. 2) from It is configured. 記憶部は構造格納部(概念的に第2図における構造化データ格納データベース106aに対応する)、スキーマ格納部(概念的に第2図におけるスキーマデータ格納データベース106bに対応する)、スキーマリソース定義部(概念的に第2図におけるスキーマリソース定義ファイル106eに対応する)、結果ファイル(概念的に第2図における処理結果データベース106fに対応する)からなる。 Storage unit (corresponding to the structured data storage database 106a in conceptually Figure 2) structure storage unit (corresponding to the schema data storage database 106b in FIG. 2 conceptually) schema storing portion, the schema resource definition unit (conceptually corresponding to the schema resource definition file 106e in FIG. 2) consists of the result file (conceptually corresponding to the processing result database 106f in FIG. 2).
そして、本システムは、大きく3つのサービスを提供する。 The present system provides a large three services. これらのサービスは、第18図におけるツール登録処理部による解析処理ツール登録サービス、文書登録処理部による文書格納サービス、サービス仲介処理部による解析処理(検索処理などを含む)サービスからなっている。 These services consist 18th analysis process by the tool registration processing unit in the diagram tool registration service, document storage service by the document registration processing unit, (including search process) analysis by service mediating processor services.
解析処理ツール登録サービスでは、ツール登録処理部が解析ツールとそれに対になるリソース定義を読み込み、解析ツールをツール部に、リソース定義をスキーマリソース定義部にそれぞれ登録する。 The analysis tool registration service, reads the resource definition tool registration processing unit is analysis tools and its paired, and tool part analysis tools, respectively registers the resources defined in the schema resource definition section.
文書格納サービスでは、DTDやXML−SchemaやRELAXなどの文書型を明記した構造化文書を読み込み、必要に応じて形式変換処理を行ない、構造格納部に格納する。 The document storage service, reads the structured document as specified document types, such as DTD or XML-Schema and RELAX, performs format conversion process if necessary, stored in the structure storage unit. 次に、その構造化文書の文書型(複数あっても良い)が既に登録されているかどうかスキーマ格納部に問い合わせる。 Then, the document type of the structured document (may be more a) already queried the schema storing portion whether it is registered. 既に登録されている場合は何もしないが、登録されていない場合は文書型を取得しスキーマ格納部に登録する。 Although not nothing if it is already registered, if not registered and registers the schema storage section obtains a document type.
解析処理サービスでは、サービス仲介処理部がサービス要求を受け取り、その実行に必要な解析処理ツールを決定する。 In the analysis processing services, service mediating processing unit receives the service request, determines the analysis tools required for the execution. その解析ツールと対になるリソース定義をスキーマリソース定義部から取得する。 To obtain the resource definitions become the analysis tool and the counter from the schema resource definition section. サービス仲介処理部は、実行に必要な文書データをリソース定義などに従ってリンク参照を解決しながら構造格納部から文書集合を取得する。 Service mediation process unit acquires document set from structure storage unit while solving the link reference in accordance with such resource definition document data required for execution. また、その文書集合の処理を解析処理ツールに依頼し、結果を生成する。 Also, ask the processing of the document set in the analysis processing tool, to produce a result.
ここで、第18図中の太い矢線は、データの移動を意味する。 Here, a thick arrow in FIG. 18 refers to the movement of data. ただし、構造格納部から出る矢線については、必ずしも実際のデータ移動を意味せず、参照情報(ポインタ)のみを移動させることを意味する場合もある。 However, the arrows emanating from the structure storage unit, there does not necessarily mean the actual data movement, if only the reference information (pointer) means to move also.
すなわち、本発明の一態様によれば、本発明の構造化データ処理装置は、遺伝子の塩基配列または蛋白質のアミノ酸配列に関連した情報を管理する構造化データ処理装置であって、上記塩基配列または上記アミノ酸配列に関する配列データを格納する配列データ格納部と、複数の上記配列データに関係する関係データを格納する複数の関係データ格納部とを備え、上記塩基配列または上記アミノ酸配列の全体に関する情報は、上記配列データ格納部または上記関係データ格納部に格納され、上記関係データ格納部に格納された各関係データレコードは、上記関係データ格納部自身への参照構造、または上記配列データ格納部を構成するデータレコード全体または一部への参照構造を有することを特徴とする。 That is, according to one aspect of the present invention, structured data processing apparatus of the present invention is a structured data processing apparatus for managing information related to the amino acid sequence of the nucleotide sequence or protein of a gene, the nucleotide sequence or and array data storage unit that stores arrangement data relating to the amino acid sequence, and a plurality of related data storage unit for storing relationship data relating to a plurality of the sequence data, the information about the entire of the nucleotide sequence or the amino acid sequence , stored in the array data storage unit or the relational data storage unit, the relationship each relationship data records stored in the data storage unit, the reference structure to the relationship data storage unit itself or configure the array data storage unit, characterized in that it has a data record reference structure to the entire or part of that.
また、本発明の構造化データ処理装置は、基本処理部と、拡張処理部と、記憶部とを備え、上記基本処理部が、解析ツールおよび上記解析ツールと対になるリソース定義を読み込み、上記解析ツールおよび上記リソース定義を登録するツール登録部と、文書型を明記した構造化文書を読み込み、必要に応じて形式変換処理を行ない、上記記憶部に上記構造化文書を登録する文書登録部と、サービスの要求を受け取り、上記サービスの実行に必要な解析処理ツールを決定するサービス仲介部と、上記参照構造への参照を行なうリンク処理部とを備え、上記拡張処理部が、上記構造化文書の解析処理を実行する複数種類の解析処理ツールを備え、上記記憶部が、上記文書登録部によって読み込んだ上記構造化文書を格納する構造格納部と、上記構 Also, structured data processing apparatus of the present invention reads a basic processing unit, and the expansion processing section, a storage section, the basic processing unit, a resource definitions become analysis tools and the analysis tools paired, the and analysis tools and tool registration section that registers the resource definition, reads the structured document as specified document type, performs format conversion process if necessary, the document registration unit that registers the structured document in the storage unit It receives a request for service includes a service mediating unit for determining the analysis tools required for the execution of the service, and a link processing unit that performs a reference to the reference structure, the extension processing unit, the structured document comprising a plurality of kinds of analysis tools that perform analysis processing, the storage unit includes a structure storage unit for storing the structured document read by the document registration unit, the structure 化文書のスキーマを格納するスキーマ格納部と、上記ツール登録部によって登録されるリソース定義を格納するスキーマリソース定義部とを備え、上記構造格納部が、構造化文書の木構造を保ったまま格納することが望ましい。 And schema storage unit for storing schema document, store remains a schema resource definition section for storing the resource definition to be registered by the tool registration section, the structure storage unit, keeping the tree structure of the structured document it is desirable to.
また、本発明の構造化データ処理装置は、外部データベースからデータを読み込み、上記配列データ格納部または上記関係データ格納部に格納するためのデータに変換する変換手段を備えることが望ましい。 Also, structured data processing apparatus of the present invention reads data from an external database, it is desirable to provide a converting means for converting the data to be stored in the array data storage unit or the relational data storage unit.
また、本発明の構造化データ処理装置は、上記配列データ格納部または上記関係データ格納部を検索し、検索した結果を構造化文書で出力する検索手段を備えることが望ましい。 Also, structured data processing apparatus of the present invention searches the array data storage unit or the relational data storage unit, it is desirable to have a search means for outputting a structured document results retrieved.
また、本発明の構造化データ処理装置は、上記検索手段が、BSML(Bio Sequence Markup Language)形式の記述形式に変換することが望ましい。 Also, structured data processing apparatus of the present invention, the search unit, it is desirable to convert the BSML (Bio Sequence Markup Language) format description format.
また、本発明の構造化データ処理装置は、上記検索手段が、BioML(BIO polymer Markup Language)形式の記述形式に変換することが望ましい。 Also, structured data processing apparatus of the present invention, the search unit, it is desirable to convert the BioML (BIO polymer Markup Language) format description format.
以下、本発明の実施例の処理概要を、図面を参照しながら詳細に説明する。 Hereinafter, a general process of embodiments of the present invention will be described in detail with reference to the drawings.
構造化データ処理装置(システム)は、第18図に示すように構成されている。 Structured data processing apparatus (system) is configured as shown in FIG. 18. 本実施の形態では、特定目的を達成するための構成方法を具体的に示す。 In this embodiment, specifically showing the configuration method for achieving a specific purpose. ここでは、塩基配列を入力として、関連する塩基配列を検索するサービスを目的とする。 Here, as an input the base sequence, an object of service of searching for related nucleotide sequences. このとき関連配列は、次のようにして探す。 Related sequences this time, look in the following manner.
まず、塩基配列を含むレコードからリンクされている文献レコードに自然言語的に近い文献レコードを求める。 First, the natural language are close Document record to document records linked from the record that contains the base sequence. この文献レコードに含まれる塩基配列が検索結果となる。 Nucleotide sequence contained in the document record the search results. このように文献データを用いて関連配列を検索する方法をここでは「文献類似法」と呼ぶ。 Thus here how to find related sequences using literature data is referred to as "Document analogous method". 文献類似法では2つの配列間に介在する文献DBレコードの数(上記説明では2)を増減することでヒット件数を制御することができる。 In the literature similar methods can control the number of hits by increasing or decreasing the number of documents DB record interposed between two sequences (2 in the above description).
上述したように、本システムは、3つのサービスを提供する。 As described above, the system provides three services. 本実施の形態では、コマンド、ライブラリ、TCP/IPサービス、httpサービス(CGI)など複数考えられるが、ここの説明では簡便のためコマンドとする。 In this embodiment, command libraries, TCP / IP services, it is considered more like http service (CGI), a command for convenience in the description herein.
本システムが稼働状態にあるときには、次のサービスコマンドを実行できる。 When the system is in the operating state can perform the following services command.
(1)文書格納サービス(2)解析処理ツール登録サービス(3)解析処理サービスただし、サービス(2)は、サービス(1)の格納条件に依存し、サービス(3)は、サービス(1)とサービス(2)の格納・登録条件に依存する。 (1) document storage service (2) analysis tool registration service (3) analysis service, however, the service (2) is dependent on the storage conditions of the service (1), service (3) comprises a service (1) depending on the store and registration conditions of service (2). これらの各条件の詳細は後述する。 Details of each of these conditions will be described later.
(1)文書格納サービス文書格納サービスコマンド(1)は、次のように実行する。 (1) document storage service document storage service command (1) is performed as follows.
store〈文書名〉〈スキーマ名〉[〈スキーマ変換記述名〉] store <document name> <schema name> <schema conversion descriptive name>]
ここで、“store”は、文書格納サービスコマンド名である。 Here, "store" is a document storage service command name. 〈文書名〉には、格納するXML文書のファイル名を、〈スキーマ名〉には、格納するXML文書の文書型定義(DTD)のファイル名を、〈スキーマ変換記述名〉には、格納するXML文書のスキーマから本システム用のスキーマへの変換指示をXSL言語で記したファイル名を指定する。 The <document name>, the file name of the XML document to be stored, the <schema name>, the file name of the document type definition of the XML document (DTD) to be stored, the <schema exchange description name> stores to specify the file name that was noted in XSL language the conversion instruction to the schema for this system from the schema of an XML document. 形式変換を行わないでそのままの形式で構造格納部へ格納する場合は、スキーマ変換記述名は省略しても良い。 When storing the structure storage unit in raw form without performing format conversion, schema transformation descriptive name may be omitted.
第19図乃至第21図は、文書格納サービスの処理を示すフロー図である。 Figure 19 through Figure 21 is a flow diagram showing the process of document storage service.
第19図は、文書格納サービスのメインルーチンを示すフロー図である。 FIG. 19 is a flowchart showing a main routine of a document storage service.
storeコマンドによる文書格納サービスは、次の手順で実行される。 Document storage services store command is executed in the following procedure.
まず、ステップS31において、格納する構造化文書のスキーマがスキーマ格納部に登録されているかどうかを調べる。 First, in step S31, the schema of a structured document to store determine whether registered in the schema storage section.
ステップS31で格納されていないと判断された場合(ステップS31:NO)は、ステップS32において、スキーマ変換記述が利用可能かどうかを調べる。 If it is determined not to be stored in step S31 (step S31: NO), in step S32, examines the schema conversion descriptor whether available. 一方、ステップS31で格納されている場合(ステップS31:YES)は、サブルーチン文書登録処理へ進む。 On the other hand, if it is stored in step S31 (step S31: YES), the process proceeds to a subroutine document registration processing. サブルーチン文書登録処理については、第5図を用いて後述する。 Subroutine document registration processing will be described later with reference to FIG. 5.
そして、ステップS32で利用可能であると判断された場合(ステップS32:YES)は、サブルーチン形式変換処理へ進む。 If it is determined to be available in step S32 (step S32: YES), the process proceeds to a subroutine format conversion process. サブルーチン形式変換処理については、第20図を用いて後述する。 Subroutine format conversion process will be described later with reference to Figure 20. 一方、ステップS32で利用可能でないと判断された場合(ステップS32:NO)は、サブルーチン文書登録処理へ進む。 On the other hand, if it is determined not to be available in step S32 (step S32: NO), the process proceeds to a subroutine document registration processing.
第20図は、文書格納サービスのサブルーチン「形式変換処理」を示すフロー図である。 FIG. 20 is a flowchart showing a subroutine "format conversion process" in the document storage service.
形式変換処理は、次の手順で実行される。 Format conversion processing is executed in the following procedure.
まず、ステップS41において、格納する構造化文書のスキーマとスキーマ変換記述から格納構造のスキーマを生成する。 First, in step S41, it generates a schema storage structure from the schema and the schema exchange description of the structured document to be stored.
そして、ステップS42において、スキーマ変換記述に従って構造化文書を変換し、その結果をステップS41で生成したスキーマと共にサブルーチン文書登録処理に渡す。 Then, in step S42, it converts the structured document according to the schema exchange description, and passes to the subroutine document registration process with the schema that generated the result in step S41. ここで、上記変換は、一般に入手可能なXSLTプロセッサ(Saxon、Xalan等)または同等機能の処理系を利用する。 Here, the conversion is commonly available XSLT processor (Saxon, Xalan etc.) utilizing a processing system or equivalent functions.
第21図は、文書格納サービスのサブルーチン「文書登録処理」を示すフロー図である。 FIG. 21 is a flowchart showing a subroutine "document registration processing" of the document storage service.
文書登録処理は次の手順で実行する。 Document registration processing is executed in the following procedure.
まず、ステップS51において、文書を構造格納部に格納する。 First, in step S51, it stores the document in the structure storage unit. ここで、上記格納は、市販のXML格納システム(eXcelon、Tamino等のDOM木格納、XMLネイティブ格納方式のもの、RDBラッパー方式のもの、または同等機能の処理系)を用いる。 Here, the storage is commercially available XML storage system (eXcelon, DOM tree storage such as Tamino, those XML native storage scheme, those RDB wrapper type, or processing system equivalent function) is used.
そして、ステップS52において、スキーマがスキーマ格納部に登録されているか否かを判断する。 Then, in step S52, the schema to determine whether or not it is registered in the schema storage section.
ステップS52で登録されていないと判断された場合(ステップS52:NO)は、ステップS53において、スキーマを登録して終了する。 If it is determined not to be registered in step S52 (step S52: NO), in step S53, and ends by registering the schema. 一方、ステップS52で登録されていると判断された場合(ステップS52:YES)は、そのまま終了する。 On the other hand, if it is determined to be registered in step S52 (step S52: YES), the process directly ends.
次に、文書格納サービスの実行例を以下に示す。 Next, an example of executing the document storage service below.
この実行例では、文書をXMLで表現し、スキーマをXML DTD(文書型定義)で表現する。 In this implementation, it expresses a document in XML, representing the schema XML DTD (Document Type Definition). 格納するデータは、下記のURLのサービスを用いてXML文書としてローカルに保存する。 Data to be stored is stored locally as an XML document using the services of the following URL. 配列データは、GenBankサービスを利用し、文献データは、PubMedサービスを利用する(http://www.ncbi.nlm.nih.gov/Genbank/参照)。 Sequence data utilizing GenBank services, document data utilizes PubMed service (see http://www.ncbi.nlm.nih.gov/Genbank/). GenBankから直接取得できるデータとスキーマの引用は割愛する。 Quote of the data and schema that can be obtained directly from GenBank will be omitted.
配列データのスキーマ変換記述をsequence. The schema conversion description of the sequence data sequence. xsl(第6図)とし、文献データのスキーマ変換記述をliterature. xsl (Figure 6) and, literature schema exchange description of literature data. xsl(第9図)とする。 And xsl (Figure 9). 以上のデータが形式変換処理への入力となる。 More data is input to the format conversion process.
形式変換処理後、文書登録処理が行なわれるデータは次のようになる。 After format conversion, data document registration processing is performed is as follows.
配列データは、sequence. Sequence data, sequence. xml(第7図)、スキーマは、squence. xml (Figure 7), the schema, squence. dtd(第8図)となる。 It becomes dtd (Figure 8).
Sequenceタグは、配列全体を意味し、Titleタグは、配列に関する自然言語による説明を意味し、Nucleotideタグは、塩基配列を意味し、Peptideタグは、塩基配列を変換したアミノ酸配列を意味し、Referenceタグは、参考文献を意味し、RefTitleタグは、参考文献の題名を意味し、Idタグは、参考文献の参照番号を意味する。 Sequence tags refers to the entire array, Title tag means described natural language related sequences, Nucleotide tags means a nucleotide sequence, Peptide tags refers to an amino acid sequence obtained by converting the nucleotide sequence, Reference tag means a bibliography, RefTitle tag refers to the title of the bibliography, Id tag refers to the reference number of references.
また、文献データの1レコードは、literature. Also, one record of the literature data, literature. xml(第10図)となり、スキーマは、literature. xml (FIG. 10), and the schema, literature. dtd(第11図)となる。 It becomes dtd (Figure 11).
Literatureタグは、文献データ全体を意味し、Titleタグは、文献の題名を意味し、Abstractタグは、文献の概要を意味し、Linkタグは、関連する配列データへの参照番号集合を意味し、Idタグは、個々の参照番号を意味する。 Literature tag refers to the entire document data, Title tag refers to the title of the document, Abstract tag means a summary of the literature, Link tag means a reference number set to the associated array data, Id tag refers to an individual reference number.
(2)解析処理ツール登録サービス次に、解析処理ツール登録サービスコマンド(2)を説明する。 (2) the analysis processing tool registration service Next, explaining the analysis processing tool registration service command (2).
解析処理ツール登録サービスコマンド(2)は、次のように実行する。 Analysis processing tool registration service command (2) is performed as follows.
register〈ツールコマンド名〉[〈リソース定義〉] register <tool command name> <Resource Definition>]
ここで“register”は、解析処理ツール登録サービスコマンド名である。 Here "register" is an analysis processing tool registration service command name. 〈ツールコマンド名〉には、登録する解析処理ツールのファイル名を指定し、〈リソース定義〉には、本システム格納用データスキーマからツールの入力となるデータ形式への変換指示をXSL言語で記したファイル名を指定する。 The <tool command name>, specify the file name of the analysis processing tool to be registered, the <resource definition>, the serial conversion instruction from the data schema for the system stored in the input to become data format of the tool in the XSL language to specify the file name. ツールへの入力が格納部内のデータに由来しない場合は、リソース定義は省略しても良い。 If the input to the tool is not derived from the data in the storage unit, the resource definitions may be omitted.
第22図は、解析処理ツール登録サービスの処理を説明するためのフロー図である。 FIG. 22 is a flowchart for explaining the processing of the analysis tool registration service.
registerコマンドによるツール登録処理は次の手順で実行される。 Tool registration process by the register command is executed in the following procedure.
まず、ステップS61において、解析ツールが実行可能な状態になっているか否かを判断する。 First, in step S61, it is determined whether the analysis tool is ready to run.
ステップS61で実行可能な状態になっていないと判断された場合(ステップS61:NO)は、ステップS62において、本システムが実行可能な場所に複写する。 Step S61 If it is determined not to become executable state (Step S61: NO), in step S62, the system is copying the executable location.
そして、ステップS61で実行可能な状態になっていると判断された場合(ステップS61:YES)、あるいは、ステップS62で複写した後、ステップS63において、解析ツールのコマンド名を記憶する。 When it is determined that the ready to run at step S61 (step S61: YES), or after copying in step S62, in step S63, it stores the command name of the analysis tool.
さらに、ステップS64において、リソース定義をスキーマリソース定義部に格納して終了する。 Further, in step S64, and ends by storing the resource definition in the schema resource definition section.
次に、解析処理ツール登録サービスの実行例を以下に説明する。 Next, the example of executing the analysis processing tool registration service below.
本実行例では、システムに格納された配列データと文献データを対象に文献類似法による配列検索を行なうための2つの解析処理ツール(索引付け処理、検索処理)をそれぞれ上記手順で登録する。 In this implementation, two analysis tools (indexing process, the search process) for performing sequence search the literature similar methods targeting sequence data and literature data stored in the system each register in the above procedure.
索引付け処理は、1h−indexコマンドとし、検索処理は、1h−searchコマンドとする。 Indexing process, and 1h-index command, search process, and 1h-search command. 1h−indexコマンドは、検索対象の文字列と識別子の組の集合からなる全検索対象データを引数にとる。 1h-index command, take all the search target data consisting of a set of sets of strings and the identifier of the search target in the argument. 本コマンドは、リソース定義1h−index. This command, resource definition 1h-index. xslと共に登録する。 To register with the xsl. 1h−searchコマンドは、検索キーである配列を引数にとる。 1h-search command, take a sequence that is a search key to the argument. 本コマンドと同時に登録するリソース定義はない。 This command is not a resource definition that you register at the same time as.
(3)解析処理サービス解析処理サービスコマンド(3)は、次のように実行する。 (3) analysis service analysis service commands (3) is performed as follows.
process〈解析ツール名〉[−toolargs〈ツール引数リスト〉][−serviceargs〈サービス引数リスト〉] process <analysis tool name> [- toolargs <tool argument list>] [- serviceargs <service argument list>]
ここで“process”は、解析処理サービスコマンド名である。 Here in the "process" is an analysis processing service command name. 〈解析ツール名〉には、システムに登録済みの解析ツールの名前を指定し、〈ツール引数リスト〉には、その解析ツールに渡すパラメータを指定する。 The <analysis tool name>, specify the name of the registered analysis tools to the system, to <tool argument list> specifies the parameters to be passed to the analysis tool. 解析ツールが追加の引数を必要としない場合、ツール引数リストは省略しても良い。 If the analysis tool does not require additional arguments, tool argument list may be omitted. 〈サービス引数リスト〉には、解析ツールには直接渡さず、サービスに必要なパラメータを指定する。 To <service argument list> is, the analysis tool not passed directly, specify the parameters required for the service. 必要ない場合は、サービス引数リストは省略しても良い。 If you do not need, the service argument list may be omitted.
第23図は、解析処理サービスの処理を説明するためのフロー図である。 FIG. 23 is a flowchart for explaining a process of analysis processing services.
processコマンドによる解析処理サービスは、サービス仲介処理部によって次の手順で実行される。 process command by analysis processing service is performed in the following procedure by the service mediation process unit.
まず、ステップS71において、解析ツール(分析ツール)がシステムに登録されているか否かを判断する。 First, in step S71, the analysis tool (analytical tool) to determine whether or not it is registered in the system.
ステップS71で登録されていないと判断された場合(ステップS71:NO)は、ステップS72において、エラー処理を行なう。 If it is determined not to be registered in step S71 (step S71: NO), at step S72, the performs error processing.
一方、ステップS71で登録されていると判断された場合(ステップS71:YES)は、ステップS73において、解析ツールに対応したリソース定義がスキーマリソース定義部に登録されているか否かを判断する。 On the other hand, if it is determined to be registered in step S71 (step S71: YES), in step S73, the resource definition that corresponds to the analysis tool to determine whether or not it is registered in the schema resource definition section.
ステップS73で登録されていると判断された場合(ステップS73:YES)は、ステップS74において、(サービス引数リストが存在する場合はそれも用いて、)構造格納部内の各文書についてリソース定義(XSL)を適用し、それぞれの結果に解析ツールを適用する。 Step S73 If it is judged to be registered in (step S73: YES), in step S74, (if the service argument list exists it be used) for each document in the structure storage unit resource definition (XSL ) was applied, and to apply the analysis tools in each of the results. そして、ステップS75において、全文書の処理が終了したか否かを判断することにより、全文書が終了(ステップS75:YES)するまでステップS74を繰り返す。 Then, in step S75, the by processing of all documents to determine whether or not it is completed, the entire document is finished (step S75: YES) repeating step S74 until.
一方、ステップS73で登録されていないと判断された場合(ステップS73:NO)は、ステップS76において、解析ツールを実行する。 On the other hand, if it is determined not to be registered in step S73 (step S73: NO), in step S76, it executes the analysis tool.
そして、ステップS76における解析ツールの実行後、あるいは、ステップS75における処理の終了後、実行結果を出力して終了する。 Then, after the execution of the analysis tool in step S76, or after the processing in step S75, the ends and outputs the execution result.
次に、解析処理ツール登録サービスの実行例を以下に説明する。 Next, the example of executing the analysis processing tool registration service below.
既に述べたように文献類似法は、索引作成処理を行なう1h−indexと検索処理を行なう1h−search との2つの解析ツールにより実装される。 Already literature similar methods as described may be implemented by two analysis tools and 1h-search performing 1h-index and search processing for indexing operation.
索引作成処理では、次のようにprocessコマンドを起動する。 The index creation process, to start the process command in the following manner.
1h−indexツールには、リソース定義として1h−search. 1h-index in the tool, 1h-search as a resource definition. xslが存在しているため、構造格納部内の全文書に関してXSLT処理を行なう。 Since xsl exists, it performs XSLT processing for all documents in the structure storage unit. この処理は、リソース定義1h−index. This process, resource definition 1h-index. xslとサービス引数−depth=2の情報を用いて次のように動作する。 It operates as follows using xsl and service arguments -depth = 2 information.
構造格納部中の各配列レコードsから参照される文献レコード集合をL1とする。 The document record set referenced from each sequence record s in the structure storage unit and L1. L1の各文献レコードl から参照される配列レコード集合をS1とする。 The sequence record set that is referenced from the literature record l of L1 and S1.
S1の各配列レコードS'から参照される文献レコード集合をL2とする。 The document record set referenced from each sequence record S 'of S1, and L2. このように配列・文献の組のパスを2段階辿って(この段数を”−depth=2”が指定している。)得られる全集合から自然言語(テキスト)データのある部分のみを元の配列sのIdと共に取り出す。 Thus the sequence-references the set of paths by following two steps (the number of stages "-depth = 2" is designated.) Natural language from the entire set obtained (text) of only the data portion of the original take out along with the Id of the array s. このXSLT処理の結果を1h−indexに渡し(この渡し方を”−toolargs ″@documents″”により指定している。)索引を作成する。 (Which is designated by the Passing the "-toolargs" @documents "".) Passes the results of this XSLT processing in 1h-index to create the index.
検索処理では、次のようにprocessコマンドを起動する。 In the search process, to start the process command in the following manner.
1h−search ツールにはリソース定義が存在していないため、直接1h−search が起動され、1h−indexが作成した索引を用いて配列IDに関連のある配列ID集合を結果に出す。 For 1h-search the tool does not exist resource definition, directly 1h-search is started, put the result into an array ID set are relevant to the sequence ID using indexes 1h-index is created.
以上説明してきたように、本発明によれば、関係DBに配列DBとは独立な拡張が可能になることで、配列DBレコードの枠組みに収まらないスキーマ拡張が容易に行なえるようになり、問題点(1)を解決している。 As described above, according to the present invention, that it allows independent expansion and sequence DB in relation DB, schema extensions that do not fit in the framework of the arrangement DB record becomes easily so, problems have solved the point (1).
また、本発明によれば、構造格納方式の文書記憶部を持ち、レコードの部分構造を参照する関係DBを持つことで、構造的に違いの大きい複数形式への変換を総合的に効率よく行なうことができ、問題点(2)を解決している。 Further, according to the present invention has a document storage portion of the structure storage mode, to have a relation DB referring a partial structure of a record, overall perform efficient conversion to large multiple formats of differences in structural it can be, has solved the problem (2).
また、発明の実施の形態の項で文献類似法の例を挙げて示したように、本システムは、柔軟性と実装効率を両立しており、問題点(2)を解決している。 Further, as shown by way of example in the literature similar methods in the section of the embodiment of the invention, the system is compatible mounting efficiency and flexibility, have solved the problem of (2). この性質は、構造格納部をRDB技術で実装するよりもネイティブな構造格納技術を用いた方がより顕著になる。 This property is preferable to use the native structure storage technologies than implementing structure storage unit on the RDB technology becomes more pronounced.
また、文献類似法の実装例では、インデックス作成時に処理対象となるテキスト部をXSLTを用いて動的に生成した。 Also, in the implementation of the document similar method, the text portion to be processed during indexing dynamically generated using XSLT. そのため、リンクをたどる段数をパラメータ化でき、実行可能な機能の柔軟性が高くなった。 Therefore, can be parameterized number of stages to follow links, the flexibility of executable functions is increased. 効率に関しては、実際のところ、上述の実施の形態のようなコマンドラインで解析ツールを結合する仕組では、データをバイトストリームで渡すことになり、そこがネックになるが、データ空間を共有するタイプのコンポーネント結合技術を用いることでそれは解決することができる。 With respect to efficiency, in fact, the mechanism for coupling the analyzing tool from the command line, such as the embodiment described above, will pass the data in the byte stream, which is becomes a bottleneck, to share data space type it can be solved by using the component bonding techniques.
また、文献類似法以外の解析コンポーネントについても、ツールが必要とする文書をスキーマ格納部に登録されている文書形式から生成する指示を準備することで柔軟に追加することができる。 As for the analysis component other than the literature similar methods, it is possible to flexibly add by preparing the instructions for generating a document format that is registered documents required by the tools in the schema storage section. また、登録する構造化文書の形式が多用な場合でも、とりあえず構造格納部に格納してしまう運用が可能であり、このような柔軟性も備えている。 Further, even if the format of a structured document to be registered is frequently used, but may be operated to become stored time being in the structure storage unit, and includes also this flexibility.
[他の実施の形態] Other Embodiments
さて、これまで本発明の実施の形態について説明したが、本発明は、上述した実施の形態以外にも、上記特許請求の範囲に記載した技術的思想の範囲内において種々の異なる実施の形態にて実施されてよいものである。 Now, have been described embodiments of the present invention, the present invention is, in addition to the above-described embodiment, the various different embodiments within the scope of the technical idea described in the scope of the appended claims in which it may be implemented Te.
例えば、構造化データ処理装置100がスタンドアローンの形態で処理を行う場合を一例に説明したが、構造化データ処理装置100とは別筐体で構成されるクライアント端末からの要求に応じて処理を行い、その処理結果を当該クライアント端末に返却するように構成してもよい。 For example, a case has been described where structured data processing device 100 performs the process in the form of a stand-alone as an example, the processing in response to a request from the client terminal, which is a separate unit from the structured data processor 100 performed, the processing result may be configured to be returned to the client terminal.
また、実施形態において説明した各処理のうち、自動的に行なわれるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。 Also, among the processes explained in the embodiments, all or part of the processes explained as being automatically performed can be manually performed. Alternatively, all of the processes explained as being manually performed or it may be automatically performed through a portion in a known manner.
この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種の登録データや検索条件等のパラメータを含む情報、画面例、データベース構成については、特記する場合を除いて任意に変更することができる。 In addition, processing procedures, specific names, control procedures, specific names, information including various parameters, such as registration data or search conditions, display example, the database configuration, unless otherwise stated it can be changed to any.
また、構造化データ処理装置100に関して、図示の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。 With respect to structured data processing apparatus 100, the components shown are functionally conceptual and are not necessarily physically configured as depicted.
例えば、構造化データ処理装置100の各部または各装置が備える処理機能、特に制御部102にて行なわれる各処理機能については、その全部または任意の一部を、CPU(Central Processing Unit)および当該CPUにて解釈実行されるプログラムにて実現することができ、あるいは、ワイヤードロジックによるハードウェアとして実現することも可能である。 For example, the processing functions of the respective units or each unit of the structured data processing apparatus 100, especially the each process function performed by the control unit 102, the entirely or partially, CPU (Central Processing Unit) and the CPU at can be realized by a computer program executed, or it can be implemented as hardware by wired logic. なお、プログラムは、後述する記録媒体に記録されており、必要に応じて構造化データ処理装置100に機械的に読み取られる。 The computer program, recorded on a recording medium to be described later, can be mechanically read by the structured data processing apparatus 100 as required.
すなわち、ROMまたはHDなどの記憶部106などには、OS(Operating System)と協働してCPUに命令を与え、各種処理を行うためのコンピュータプログラムが記録されている。 In other words, the like storage unit 106 such as a ROM or HD, providing instructions to the CPU in cooperation with the OS (Operating System), a computer program for performing various processes is recorded. このコンピュータプログラムは、RAM等にロードされることによって実行され、CPUと協働して制御部102を構成する。 This computer program is executed by being loaded in the RAM or the like, constituting the CPU in cooperation with the control unit 102. また、このコンピュータプログラムは、構造化データ処理装置100に対して任意のネットワーク300を介して接続されたアプリケーションプログラムサーバに記録されてもよく、必要に応じてその全部または一部をダウンロードすることも可能である。 Further, the computer program can be recorded in the application program server connected via any network 300 with respect to structured data processing device 100, also be fully or partially loaded as needed possible it is.
また、本発明にかかるプログラムを、コンピュータ読み取り可能な記録媒体に格納することもできる。 Further, the program according to the present invention, can be stored in a computer-readable recording medium. ここで、この「記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、EPROM、EEPROM、CD−ROM、MO、DVD等の任意の「可搬用の物理媒体」や、各種コンピュータシステムに内蔵されるROM、RAM、HD等の任意の「固定用の物理媒体」、あるいは、LAN、WAN、インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように、短期にプログラムを保持する「通信媒体」を含むものとする。 Here, the "recording medium", a flexible disk, a magneto-optical disk, ROM, EPROM, EEPROM, CD-ROM, MO, any "portable physical medium" or a DVD or the like, are built in various computer systems that ROM, RAM, any "fixed physical medium" such as HD, or, LAN, WAN, such as a communication line or a carrier wave when over a network such as the Internet for transmitting the program, short-term program holding the shall include "communications media."
また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコード等の形式を問わない。 Further, "Program" is a data processing method written in any computer language and written method, may be of any format such as source code or binary code. なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、OS(Operating System)に代表される別個のプログラムと協働してその機能を達成するものをも含む。 Note that "program" is not necessarily limited to those composed singularly, what is distributed configuration as a plurality of modules or libraries, or in cooperation with a different program such as the OS (Operating System) that also including those to achieve the function. なお、実施の形態に示した各装置において記録媒体を読み取るための具体的な構成、読み取り手順、あるいは、読み取り後のインストール手順等については、周知の構成や手順を用いることができる。 It should be noted that the specific configuration for reading the recording medium in each device shown in the embodiment, the reading procedure or, for such installation procedure after reading, may be well-known configuration and procedure.
記憶部106に格納される各種のデータベース等(構造化データ格納データベース106a〜処理結果データベース106f)は、RAM、ROM等のメモリ装置、ハードディスク等の固定ディスク装置、フレキシブルディスク、光ディスク等のストレージ手段であり、各種処理やウェブサイト提供に用いる各種のプログラムやテーブルやファイルやデータベースやウェブページ用ファイル等を格納する。 Of various stored in the storage unit 106 database (structured data storage database 106a~ processing result database 106f) are, RAM, memory devices such as a ROM, a fixed disk device such as a hard disk, a flexible disk, in the storage means such as an optical disk Yes, stores various programs, tables, files, databases, web page files, and the like used for various processing and web site provides.
また、構造化データ処理装置100は、既知のパーソナルコンピュータ、ワークステーション等の情報処理端末等の情報処理装置にプリンタやモニタやイメージスキャナ等の周辺装置を接続し、該情報処理装置に本発明の方法を実現させるソフトウェア(プログラム、データ等を含む)を実装することにより実現してもよい。 Also, structured data processing device 100, known personal computer, and connecting peripheral devices such as a printer or a monitor or an image scanner to an information processing apparatus such as an information processing terminal such as a workstation, the present invention in the information processing apparatus software to implement the method may be implemented by mounting (including programs, data, etc.).
さらに、構造化データ処理装置100の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷等に応じた任意の単位で、機能的または物理的に分散・統合して構成することができる。 Further, specific forms of distribution and integration of the structured data processing apparatus 100 is not limited to that illustrated in the drawings, in arbitrary units according to various loads such as, functionally or physically distributed and integration to can be configured. 例えば、各データベースを独立したデータベース装置として独立に構成してもよく、また、処理の一部をCGI(Common Gateway Interface)を用いて実現してもよい。 For example, it may be constituted independently as a separate database device each database, also a part of the processing may be implemented using a CGI (Common Gateway Interface).
また、ネットワーク300は、構造化データ処理装置100と外部システム200とを相互に接続する機能を有し、例えば、インターネットや、イントラネットや、LAN(有線/無線の双方を含む)や、VANや、パソコン通信網や、公衆電話網(アナログ/デジタルの双方を含む)や、専用回線網(アナログ/デジタルの双方を含む)や、CATV網や、IMT2000方式、GSM方式またはPDC/PDC−P方式等の携帯回線交換網/携帯パケット交換網や、無線呼出網や、Bluetooth等の局所無線網や、PHS網や、CS、BSまたはISDB等の衛星通信網等のうちいずれかを含んでもよい。 The network 300 has a function of connecting the structured data processing apparatus 100 and the external system 200 to each other, for example, Internet, intranet or, or LAN (including both wired / wireless), and VAN, and personal computer communication network (including both analog / digital) public telephone network and, (including both analog / digital) leased line network and, CATV network or IMT2000 system, GSM system or PDC / PDC-P system or the like of and mobile circuit switched network / mobile packet switched network, or a wireless calling network, local wireless network, such as Bluetooth, a PHS network, CS, may include any of a satellite communication network such as BS or ISDB. すなわち、本システムは、有線・無線を問わず任意のネットワークを介して、各種データを送受信することができる。 That is, the present system can be via any network regardless of wired or wireless, to send and receive various data.
以上詳細に説明したように、本発明によれば、構造化記述言語で記述された構造化データと、当該構造化データの構造を定義したスキーマデータとを取得し、取得した構造化データおよびスキーマデータを、スキーマ形式変換指示情報に基づいて変換し、変換された変換後の構造化データおよびスキーマデータをデータベースに登録し、登録されたデータベースにアクセスしてデータ処理を行うツールプログラムと、当該ツールプログラムに入力される構造化データのスキーマのリソースを定義するスキーマリソース定義情報とを対応させて登録し、ツールプログラムが起動された場合に、起動された当該ツールプログラムに対応するスキーマリソース定義情報に従って、データベースに登録された構造化データおよびスキーマデータを動的 As described above in detail, according to the present invention, it obtains a structured data described in a structured description language, and a schema data defining the structure of the structured data, acquired structured data and schema data, and tools program for converting based on the schema format conversion instruction information, and registers the converted structured data and schema data after conversion are in the database, perform data processing by accessing the registered database, the tool a schema resource definition information defining the resource schema structured data inputted to the program registered in correspondence, when the tool program is started, according to the schema resource definition information corresponding to the tool program activated , dynamically structured data and schema data registered in the database 変換して当該ツールプログラムに入力するので、異なる構造化言語やスキーマ言語で記述された取得データを予めまたは必要に応じて定めた形式に変換することができる構造化データ処理装置、構造化データ処理方法、プログラム、および、記録媒体を提供することができる。 Since conversion to be input to the tool program, structured data processing apparatus capable of converting acquired data described in different structured language or schema language in advance or format determined according to need, structured data processing method, a program, and can provide a recording medium.
また、本発明によれば、各種の外部データベースから取得したデータ間の整合を容易にとることができるようになり、データ記述形式に関する高い拡張性を担保することができるようになる。 Further, according to the present invention, now the matching between the data acquired from various external databases can take ease, it is possible to ensure the scalability on the data description format. その結果、各種のデータ記述形式に対応する外部データベースへのアクセスを容易に行うことができるようになる。 As a result, as access to external database corresponding to various data description format can be easily performed. すなわち、統一した特定の構造化記述言語の形式(例えば、BSMLやBioML等)で内部のデータベースを管理することが可能になるため、データベースの利用効率などを著しく向上させることができる構造化データ処理装置、構造化データ処理方法、プログラム、および、記録媒体を提供することができる。 That, unified form of specific structured description language (e.g., BSML and the like BioML) Since it becomes possible to manage the internal database, structured data processing can be remarkably improved and the utilization efficiency of the database apparatus, structured data processing method, a program, and can provide a recording medium.
また、本発明によれば、スキーマに新たなリソース(例えば、XMLの要素など)が追加された場合であっても、容易に追加された形式に変換することができる構造化データ処理装置、構造化データ処理方法、プログラム、および、記録媒体を提供することができる。 Further, according to the present invention, a new resource schema (e.g., XML elements) even when it is added, structured data processing device can be converted to easily add form, structure data processing method, a program, and can provide a recording medium.
また、本発明によれば、各分析ツールにより随時項目追加が発生し、その追加項目を後段の分析ツールの処理で使用するような場合であっても、分析ツールの仕様に手を加えることなく、使用する各データの拡張性を容易に担保することができる構造化データ処理装置、構造化データ処理方法、プログラム、および、記録媒体を提供することができる。 Further, according to the present invention, without any time item added is generated, adding even if the additional items such as used in the processing of the subsequent analysis tool, a hand specification of analytical tools by each analysis tool each data scalability to can be easily secured structured data processing apparatus, structured data processing method used, the program, and can provide a recording medium.
また、本発明によれば、共有部分のデータベースの一括形式変換を行うことができる構造化データ処理装置、構造化データ処理方法、プログラム、および、記録媒体を提供することができる。 Further, according to the present invention, structured data processing apparatus capable of performing a batch format conversion database shared portion, structured data processing method, a program, and can provide a recording medium.
また、本発明によれば、構造化記述言語は、XML、SGML、BioML、BSML、ASN. Further, according to the present invention, the structured description language, XML, SGML, BioML, BSML, ASN. 1、GAME、若しくは、これらのいずれかを拡張した構造化記述言語、または、これらと同等の記述能力を持つ構造化記述言語であるので、これらのバイオインフォマティクス分野において一般的に用いられる構造化記述言語により記述された構造化データを効率的に変換することができる構造化データ処理装置、構造化データ処理方法、プログラム、および、記録媒体を提供することができる。 1, GAME, or those of any of the extended structured description language, or because it is structured description language with these equivalent description capabilities, generally structured description used in these Bioinformatics structured data processing apparatus capable of converting the structured data described in a language efficiently structured data processing method, a program, and can provide a recording medium.
また、本発明によれば、スキーマデータは、DTD、XMLスキーマ、RELAX、若しくは、これらのいずれかを拡張したスキーマ言語、または、これらと同等の記述能力を持つスキーマ言語により記述されたデータであるので、これらのバイオインフォマティクス分野において一般的に用いられるスキーマ言語により記述されたスキーマデータを効率的に変換することができる構造化データ処理装置、構造化データ処理方法、プログラム、および、記録媒体を提供することができる。 Further, according to the present invention, the schema data, DTD, XML Schema, RELAX, or those of any of the extended schema language or, is the data described by the schema language with these equivalent description capability so structured data processing apparatus commonly schema data described in a schema language used can be converted efficiently at these bioinformatics, structured data processing method, a program, and, a recording medium can do.
また、本発明によれば、スキーマ形式変換指示情報およびスキーマリソース定義情報は、XSL、若しくは、これを拡張した言語、または、これらと同等の記述能力を持つ木構造変換言語により記述されたデータであるので、これらのバイオインフォマティクス分野において一般的に用いられるスキーマ変換記述言語により記述されたスキーマ形式変換指示情報およびスキーマリソース定義情報に基づいて、構造化データおよびスキーマデータを効率的に変換することができる構造化データ処理装置、構造化データ処理方法、プログラム、および、記録媒体を提供することができる。 Further, according to the present invention, the schema format conversion instruction information and schema resource definition information, XSL, or the language extension of this, or in data described by a tree structure conversion language with these equivalent description capability some because, generally based on schema format conversion instruction information written by the schema transformation description language used and schema resource definition information in these bioinformatics, to convert the structured data and schema data efficiently structured data processing apparatus capable, structured data processing method, a program, and can provide a recording medium.
また、本発明によれば、構造化データは、塩基配列および/またはアミノ酸配列を含む配列情報、文献情報のうち少なくとも一つに関する要素を含むので、GenBankなどに登録された配列情報や、PubMedなどに登録された文献情報を取得して形式変換することができる構造化データ処理装置、構造化データ処理方法、プログラム、および、記録媒体を提供することができる。 Further, according to the present invention, structured data, sequence information comprising the nucleotide sequence and / or amino acid sequence, since at least one related elements of the document information, and sequence information registered in such GenBank, PubMed, etc. structured data processor acquires the document information registered can be format conversion, structured data processing method, a program, and a recording medium can be provided to.
産業上の利用可能性以上のように、本発明にかかる構造化データ処理装置、構造化データ処理方法、プログラム、および、記録媒体は、様々な形式のスキーマ言語により定義された様々な形式の構造化データを効率的に処理するのに適している。 As the above INDUSTRIAL APPLICABILITY structured data processing apparatus according to the present invention, structured data processing method, a program, and a recording medium, various forms of structure defined by various types schema languages suitable for treating data efficiently.
【図面の簡単な説明】 BRIEF DESCRIPTION OF THE DRAWINGS
第1図は、遺伝子の塩基配列または蛋白質のアミノ酸配列の配列情報データベースの基本的なデータ構造の例を示す図であり、第2図は、本発明が適用される本システムの構成の一例を示すブロック図であり、第3図は、本発明の基本原理を示す原理構成図であり、第4図は、本発明による取得データの形式変換の一例を説明する概念図であり、第5図は、分析ツールの入力データの形式変換の処理を示すフロー図であり、第6図は、XSLにより記述された配列情報のスキーマ形式変換指示情報の一例を示す図であり、第7図は、第6図に示すスキーマ形式変換指示情報により形式変換された後の構造化データ(XML文書)の一例を示す図であり、第8図は、第6図に示すスキーマ形式変換指示情報により形式変換された後のスキーマデ FIG. 1 is a diagram showing an example of a basic data structure of the sequence information database of the amino acid sequence of the nucleotide sequence or protein of the gene, Fig. 2, an example of the configuration of the system to which the present invention is applied is a block diagram illustrating, FIG. 3 is a principle configurational diagram showing the basic principle of the present invention, FIG. 4 is a conceptual diagram illustrating an example of a format conversion of the acquired data according to the present invention, FIG. 5 is a flow diagram illustrating a process of format conversion of the input data analysis tools, FIG. 6 is a diagram showing an example of a schema format conversion instruction information sequence information described by XSL, 7 figures is a diagram showing an example of structured data (XML documents) after being format-converted by the schema format conversion instruction information shown in FIG. 6, FIG. 8 is the format converted by the schema format conversion instruction information shown in Figure 6 Sukimade after being タ(DTD)の一例を示す図であり、第9図は、XSLにより記述された文献情報のスキーマ形式変換指示情報の一例を示す図であり、第10図は、第9図に示すスキーマ形式変換指示情報により形式変換された後の構造化データ(XML文書)の一例を示す図であり、第11図は、第9図に示すスキーマ形式変換指示情報により形式変換された後のスキーマデータ(DTD)の一例を示す図であり、第12図は、遺伝子発現制御解析処理の処理の概要を示すフロー図であり、第13図は、転写単位の予測の概要を示す概念図であり、第14図は、制御部位の予測の概要を示す概念図であり、第15図は、制御遺伝子の予測の概要を示す概念図であり、第16図は、BI分野で一般的に用いられるBSMLにより記述されたデータと、同様 Is a diagram showing an example of data (DTD), FIG. 9 is a diagram showing an example of a schema format conversion instruction information literature information described by XSL, FIG. 10, schema format shown in FIG. 9 is a diagram showing an example of the structured data after the format conversion by the conversion instruction information (XML document), FIG. 11, the schema data after format conversion by the schema format conversion instruction information shown in FIG. 9 ( is a diagram showing an example of a DTD), FIG. 12 is a flow diagram showing an outline of a process of gene expression control analysis processing, FIG. 13 is a conceptual diagram showing an outline of a prediction of the transcription unit, the 14 Figure is a schematic diagram showing an outline of a prediction of the control portion, FIG. 15 is a conceptual diagram showing an outline of a prediction of a control gene, FIG. 16, the BSML commonly used in BI field and written data, same 一般的に用いられるBioMLにより記述されたデータとの構造的な相違を説明するための図であり、第17図は、本発明が適用される構造化データ処理装置の概念を説明するための図であり、第18図は、本発明が適用される構造化データ処理装置の基本構成を示す図であり、第19図は、文書格納サービスのメインルーチンを示すフロー図であり、第20図は、文書格納サービスのサブルーチン「形式変換処理」を示すフロー図であり、第21図は、文書格納サービスのサブルーチン「文書登録処理」を示すフロー図であり、第22図は、解析処理ツール登録サービスの処理を説明するためのフロー図であり、第23図は、解析処理サービスの処理を説明するためのフロー図であり、第24図は、第13図で示した転写単位データベース Is a diagram for explaining a structural difference between the written data by commonly BioML used, FIG. 17 is a diagram for explaining the concept of structured data processing apparatus to which the present invention is applied , and the FIG. 18 is a diagram showing a basic configuration of a structured data processing apparatus to which the present invention is applied, FIG. 19 is a flowchart showing a main routine of a document storage service, FIG. 20 a flow diagram showing a sub-routine "format conversion process" in the document storage service, FIG. 21 is a flowchart showing a subroutine "document registration processing" of the document storage service, FIG. 22, the analysis processing tool registration service is a flowchart for explaining the processing, FIG. 23 is a flowchart for explaining a process of analysis processing services, FIG. 24, the transfer unit database shown in FIG. 13 のスキーマデータについてDTDを用いて記述した場合を一例に示す図であり、第25図は、第13図で示した転写単位データベースの構造化データについてXML文書を用いて記述した場合を一例に示す図であり、第26図は、第14図で示した制御部位データベースのスキーマデータについてDTDを用いて記述した場合を一例に示す図であり、第27図は、第14図で示した制御部位データベースの構造化データについてXML文書を用いて記述した場合を一例に示す図であり、第28図は、第15図で示した制御ネットワークデータベースのスキーマデータについてDTDを用いて記述した場合を一例に示す図であり、第29図は、第15図で示した制御ネットワークデータベースの構造化データについてXML文書を用いて記述し Is a diagram showing a case described using a DTD for schema data to an example, FIG. 25 shows an example of the case described using an XML document for structured data transfer unit database shown in FIG. 13 a diagram, FIG. 26, a case where the schema data of the control site database shown in FIG. 14 described using the DTD is a diagram showing an example, FIG. 27, the control portion shown in FIG. 14 the database structured data is a diagram showing an example of the case described using the XML document, Figure 28, a case where the schema data of the control network database shown in FIG. 15 described using the DTD as an example is a diagram illustrating, FIG. 29, the structure of data of the control network database shown in FIG. 15 described using the XML document 場合を一例に示す図であり、第30図は、スキーマリソース定義情報の概念について説明する図である。 If the is a diagram showing an example, FIG. 30 is a diagram illustrating the concept of a schema resource definition information.

Claims (16)

  1. 構造化記述言語で記述された構造化データと、当該構造化データの構造を定義したスキーマデータとを取得する構造化データ取得手段と、 And structured data described in a structured description language, and structured data acquisition means for acquiring the schema data that defines the structure of the structured data,
    上記構造化データ取得手段にて取得した上記構造化データおよび上記スキーマデータを、スキーマ形式変換指示情報に基づいて変換する形式変換手段と、 The structured data and the schema data acquired in the structured data acquisition means, and format conversion means for converting based on the schema format conversion instruction information,
    上記形式変換手段にて変換された変換後の構造化データおよびスキーマデータをデータベースに登録する構造化データ登録手段と、 And structured data registration means for registering the structured data and schema data resulting from the conversion by said format converting means in the database,
    上記構造化データ登録手段にて登録された上記データベースにアクセスしてデータ処理を行うツールプログラムと、当該ツールプログラムに入力される上記構造化データのスキーマのリソースを定義するスキーマリソース定義情報とを対応させて登録する分析ツール登録手段と、 Response and tool program for performing data processing by accessing the registered said database, the schema resource definition information defining the resource schema of the structured data to be input to the tool program in the structured data registration means and analysis tool registration means for registering by,
    上記ツールプログラムが起動された場合に、起動された当該ツールプログラムに対応する上記スキーマリソース定義情報に従って、上記データベースに登録された構造化データおよびスキーマデータを変換して当該ツールプログラムに入力する分析ツール起動手段と、 When the tool program is started, according to the schema resource definition information corresponding to the tool program activated, analytical tools to be input to the tool program converts the structured data and schema data registered in the database and start-up means,
    を備えたことを特徴とする構造化データ処理装置。 Structured data processing apparatus characterized by comprising a.
  2. 上記構造化記述言語は、XML、SGML、BioML、BSML、ASN. The structured description language, XML, SGML, BioML, BSML, ASN. 1、GAME、若しくは、これらのいずれかを拡張した構造化記述言語、または、これらと同等の記述能力を持つ構造化記述言語であること、 1, GAME, or that these either an extended structured description language, or a structured description language with these equivalent description capabilities,
    を特徴とする請求の範囲第1項に記載の構造化データ処理装置。 Structured data processing apparatus according to claim 1, wherein.
  3. 上記スキーマデータは、DTD、XMLスキーマ、RELAX、若しくは、これらのいずれかを拡張したスキーマ言語、または、これらと同等の記述能力を持つスキーマ言語により記述されたデータであること、 The schema data, DTD, XML Schema, RELAX, or that these schema language to extend one or a data described by the schema language with these equivalent description capabilities,
    を特徴とする請求の範囲第1項または第2項に記載の構造化データ処理装置。 Structured data processing apparatus according to paragraph 1 or claim 2, wherein.
  4. 上記スキーマ形式変換指示情報および上記スキーマリソース定義情報は、XSL、若しくは、これを拡張した言語、または、これらと同等の記述能力を持つ木構造変換言語により記述されたデータであること、 The schema format conversion instruction information and the schema resource definition information, XSL, or the language extension of this or, it is data described by a tree structure conversion language with these equivalent description capabilities,
    を特徴とする請求の範囲第1項から第3項のいずれか一つに記載の構造化データ処理装置。 Structured data processing apparatus according to any one of the third term from claim 1, wherein, wherein.
  5. 上記構造化データは、塩基配列および/またはアミノ酸配列を含む配列情報、文献情報のうち少なくとも一つに関する要素を含むこと、 The structured data, sequence information comprising the nucleotide sequence and / or amino acid sequence, comprises at least one related elements of the document information,
    を特徴とする請求の範囲第1項から第4項のいずれか一つに記載の構造化データ処理装置。 Structured data processing apparatus according to any one of the fourth term from the first term claims, wherein.
  6. 構造化記述言語で記述された構造化データと、当該構造化データの構造を定義したスキーマデータとを取得する構造化データ取得ステップと、 And structured data described in a structured description language, and structured data acquisition step of acquiring the schema data that defines the structure of the structured data,
    上記構造化データ取得ステップにて取得した上記構造化データおよび上記スキーマデータを、スキーマ形式変換指示情報に基づいて変換する形式変換ステップと、 The structured data and the schema data acquired in the structured data acquisition step, a format conversion step of converting, based on the schema format conversion instruction information,
    上記形式変換ステップにて変換された変換後の構造化データおよびスキーマデータをデータベースに登録する構造化データ登録ステップと、 And structured data registration step of registering the structured data and schema data resulting from the conversion by the format converting step to the database,
    上記構造化データ登録ステップにて登録された上記データベースにアクセスしてデータ処理を行うツールプログラムと、当該ツールプログラムに入力される上記構造化データのスキーマのリソースを定義するスキーマリソース定義情報とを対応させて登録する分析ツール登録ステップと、 Response and tool program for performing data processing by accessing the registered said database, the schema resource definition information defining the resource schema of the structured data to be input to the tool program in the structured data registration step and analysis tool registration step of registering by,
    上記ツールプログラムが起動された場合に、起動された当該ツールプログラムに対応する上記スキーマリソース定義情報に従って、上記データベースに登録された構造化データおよびスキーマデータを変換して当該ツールプログラムに入力する分析ツール起動ステップと、 When the tool program is started, according to the schema resource definition information corresponding to the tool program activated, analytical tools to be input to the tool program converts the structured data and schema data registered in the database start-up and step,
    を含むことを特徴とする構造化データ処理方法。 Structured data processing method, which comprises a.
  7. 上記構造化記述言語は、XML、SGML、BioML、BSML、ASN. The structured description language, XML, SGML, BioML, BSML, ASN. 1、GAME、若しくは、これらのいずれかを拡張した構造化記述言語、または、これらと同等の記述能力を持つ構造化記述言語であること、 1, GAME, or that these either an extended structured description language, or a structured description language with these equivalent description capabilities,
    を特徴とする請求の範囲第6項に記載の構造化データ処理方法。 Structured data processing method according to claim 6, wherein.
  8. 上記スキーマデータは、DTD、XMLスキーマ、RELAX、若しくは、これらのいずれかを拡張したスキーマ言語、または、これらと同等の記述能力を持つスキーマ言語により記述されたデータであること、 The schema data, DTD, XML Schema, RELAX, or that these schema language to extend one or a data described by the schema language with these equivalent description capabilities,
    を特徴とする請求の範囲第6項または第7項に記載の構造化データ処理方法。 Structured data processing method according to paragraph 6 or Claim 7, characterized in.
  9. 上記スキーマ形式変換指示情報および上記スキーマリソース定義情報は、XSL、若しくは、これを拡張した言語、または、これらと同等の記述能力を持つ木構造変換言語により記述されたデータであること、 The schema format conversion instruction information and the schema resource definition information, XSL, or the language extension of this or, it is data described by a tree structure conversion language with these equivalent description capabilities,
    を特徴とする請求の範囲第6項から第8項のいずれか一つに記載の構造化データ処理方法。 Structured data processing method according to claim 6 in any one of paragraph 8, wherein.
  10. 上記構造化データは、塩基配列および/またはアミノ酸配列を含む配列情報、文献情報のうち少なくとも一つに関する要素を含むこと、 The structured data, sequence information comprising the nucleotide sequence and / or amino acid sequence, comprises at least one related elements of the document information,
    を特徴とする請求の範囲第6項から第9項のいずれか一つに記載の構造化データ処理方法。 Structured data processing method according to claim 6 in any one of Section 9, characterized in.
  11. 構造化記述言語で記述された構造化データと、当該構造化データの構造を定義したスキーマデータとを取得する構造化データ取得ステップと、 And structured data described in a structured description language, and structured data acquisition step of acquiring the schema data that defines the structure of the structured data,
    上記構造化データ取得ステップにて取得した上記構造化データおよび上記スキーマデータを、スキーマ形式変換指示情報に基づいて変換する形式変換ステップと、 The structured data and the schema data acquired in the structured data acquisition step, a format conversion step of converting, based on the schema format conversion instruction information,
    上記形式変換ステップにて変換された変換後の構造化データおよびスキーマデータをデータベースに登録する構造化データ登録ステップと、 And structured data registration step of registering the structured data and schema data resulting from the conversion by the format converting step to the database,
    上記構造化データ登録ステップにて登録された上記データベースにアクセスしてデータ処理を行うツールプログラムと、当該ツールプログラムに入力される上記構造化データのスキーマのリソースを定義するスキーマリソース定義情報とを対応させて登録する分析ツール登録ステップと、 Response and tool program for performing data processing by accessing the registered said database, the schema resource definition information defining the resource schema of the structured data to be input to the tool program in the structured data registration step and analysis tool registration step of registering by,
    上記ツールプログラムが起動された場合に、起動された当該ツールプログラムに対応する上記スキーマリソース定義情報に従って、上記データベースに登録された構造化データおよびスキーマデータを変換して当該ツールプログラムに入力する分析ツール起動ステップと、 When the tool program is started, according to the schema resource definition information corresponding to the tool program activated, analytical tools to be input to the tool program converts the structured data and schema data registered in the database start-up and step,
    を含む構造化データ処理方法をコンピュータに実行させることを特徴とするプログラム。 A program characterized by executing the structured data processing method in a computer including.
  12. 上記構造化記述言語は、XML、SGML、BioML、BSML、ASN. The structured description language, XML, SGML, BioML, BSML, ASN. 1、GAME、若しくは、これらのいずれかを拡張した構造化記述言語、または、これらと同等の記述能力を持つ構造化記述言語であること、 1, GAME, or that these either an extended structured description language, or a structured description language with these equivalent description capabilities,
    を特徴とする請求の範囲第11項に記載のプログラム。 Program according to claim 11, wherein.
  13. 上記スキーマデータは、DTD、XMLスキーマ、RELAX、若しくは、これらのいずれかを拡張したスキーマ言語、または、これらと同等の記述能力を持つスキーマ言語により記述されたデータであること、 The schema data, DTD, XML Schema, RELAX, or that these schema language to extend one or a data described by the schema language with these equivalent description capabilities,
    を特徴とする請求の範囲第11項または第12項に記載のプログラム。 Claims, characterized in paragraph 11 or a program according to paragraph 12.
  14. 上記スキーマ形式変換指示情報および上記スキーマリソース定義情報は、XSL、若しくは、これを拡張した言語、または、これらと同等の記述能力を持つ木構造変換言語により記述されたデータであること、 The schema format conversion instruction information and the schema resource definition information, XSL, or the language extension of this or, it is data described by a tree structure conversion language with these equivalent description capabilities,
    を特徴とする請求の範囲第11項から第13項のいずれか一つに記載のプログラム。 Program according to any one of paragraph 13 to the range 11 of claims, characterized.
  15. 上記構造化データは、塩基配列および/またはアミノ酸配列を含む配列情報、文献情報のうち少なくとも一つに関する要素を含むこと、 The structured data, sequence information comprising the nucleotide sequence and / or amino acid sequence, comprises at least one related elements of the document information,
    を特徴とする請求の範囲第11項から第14項のいずれか一つに記載のプログラム。 Program according to any one of paragraph 14 to the range 11 of claims, characterized.
  16. 上記請求の範囲第11項から第15項のいずれか一つに記載されたプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。 The claims 11 computer-readable recording medium characterized by recording a program as set forth in any one of the 15th paragraphs.
JP2003507726A 2001-06-22 2002-06-24 Structured data processing device Granted JPWO2003001409A1 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2001189631 2001-06-22
JP2001189631 2001-06-22
PCT/JP2002/006288 WO2003001409A1 (en) 2001-06-22 2002-06-24 Structured data processing apparatus

Publications (1)

Publication Number Publication Date
JPWO2003001409A1 true JPWO2003001409A1 (en) 2004-10-14

Family

ID=19028525

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003507726A Granted JPWO2003001409A1 (en) 2001-06-22 2002-06-24 Structured data processing device

Country Status (4)

Country Link
US (1) US20040177082A1 (en)
EP (1) EP1403779A1 (en)
JP (1) JPWO2003001409A1 (en)
WO (1) WO2003001409A1 (en)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050108219A1 (en) * 1999-07-07 2005-05-19 Carlos De La Huerga Tiered and content based database searching
JP3972323B2 (en) * 2001-09-04 2007-09-05 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Maschines Corporation Schema generation device, data processing device, method thereof, and program
US7418663B2 (en) 2002-12-19 2008-08-26 Microsoft Corporation Contact picker interface
US7360174B2 (en) 2002-12-19 2008-04-15 Microsoft Corporation Contact user interface
US7240298B2 (en) * 2002-12-19 2007-07-03 Microsoft Corporation Contact page
US7360172B2 (en) 2002-12-19 2008-04-15 Microsoft Corporation Contact controls
US7636719B2 (en) * 2002-12-19 2009-12-22 Microsoft Corporation Contact schema
US7313760B2 (en) * 2002-12-19 2007-12-25 Microsoft Corporation Contact picker
US7549125B2 (en) 2003-10-23 2009-06-16 Microsoft Corporation Information picker
US7953759B2 (en) * 2004-02-17 2011-05-31 Microsoft Corporation Simplifying application access to schematized contact data
US7430719B2 (en) 2004-07-07 2008-09-30 Microsoft Corporation Contact text box
JP2006113786A (en) * 2004-10-14 2006-04-27 Mitsubishi Space Software Kk Sequence information extraction apparatus, sequence information extraction method and sequence information extraction program
US8219898B2 (en) * 2007-06-11 2012-07-10 Brother Kogyo Kabushiki Kaisha Document registration system, information processing apparatus, and computer usable medium therefor
US7970943B2 (en) * 2007-08-14 2011-06-28 Oracle International Corporation Providing interoperability in software identifier standards
US8137201B2 (en) * 2009-01-09 2012-03-20 Microsoft Corporation Arrangement for building and operating human-computation and other games

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6424980B1 (en) * 1998-06-10 2002-07-23 Nippon Telegraph And Telephone Corporation Integrated retrieval scheme for retrieving semi-structured documents
JP3160265B2 (en) * 1998-06-10 2001-04-25 日本電信電話株式会社 Semistructured document information integration search apparatus and semi-structured document information extraction apparatus, its method, and recording medium for storing the program
JP2000187626A (en) * 1998-10-16 2000-07-04 Mitsubishi Electric Corp Inter-application data transmission and reception system and its method and computer readable recording medium for recording program and the method
JP2002108903A (en) * 2000-09-29 2002-04-12 Toshiba Corp System and method for collecting data, medium recording program and program product

Also Published As

Publication number Publication date
US20040177082A1 (en) 2004-09-09
EP1403779A1 (en) 2004-03-31
WO2003001409A1 (en) 2003-01-03

Similar Documents

Publication Publication Date Title
Gasteiger et al. ExPASy: the proteomics server for in-depth protein knowledge and analysis
Demir et al. PATIKA: an integrated visual environment for collaborative construction and analysis of cellular pathways
Dogan et al. SplicePort—an interactive splice-site analysis tool
Stoesser et al. The EMBL nucleotide sequence database
Benson et al. GenBank.
Mewes et al. MIPS: analysis and annotation of proteins from whole genomes in 2005
Altermann et al. PathwayVoyager: pathway mapping using the Kyoto Encyclopedia of Genes and Genomes (KEGG) database
Mathivanan et al. An evaluation of human protein-protein interaction data in the public domain
Stoesser et al. The EMBL nucleotide sequence database
Gentleman et al. Bioconductor: open software development for computational biology and bioinformatics
Bussey et al. MatchMiner: a tool for batch navigation among gene and gene product identifiers
Goldberg et al. The Open Microscopy Environment (OME) Data Model and XML file: open tools for informatics and quantitative analysis in biological imaging
Campanella et al. MatGAT: an application that generates similarity/identity matrices using protein or DNA sequences
Wu et al. The Protein Information Resource: an integrated public resource of functional annotation of proteins
CA2298582C (en) Distributed computing architecture
US20040205452A1 (en) Apparatus, method and system for transforming data
Apweiler et al. The InterPro database, an integrated documentation resource for protein families, domains and functional sites
CN100464294C (en) Reflection-based processing method and system of input parameters for commands
KR101026606B1 (en) Integrating design, deployment, and management phases for systems
Benson et al. GenBank.
Chapman et al. Biopython: Python tools for computational biology
Zhao et al. Semantically linking and browsing provenance logs for e-science
Dewey Aligning multiple whole genomes with Mercator and MAVID
Baker et al. The EMBL nucleotide sequence database
TWI272492B (en) Contents conversion system, automatic style sheet selection method and program thereof

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050613

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080819

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20081216