WO2003001409A1 - Dispositif de traitement de donnees structurees - Google Patents

Dispositif de traitement de donnees structurees Download PDF

Info

Publication number
WO2003001409A1
WO2003001409A1 PCT/JP2002/006288 JP0206288W WO03001409A1 WO 2003001409 A1 WO2003001409 A1 WO 2003001409A1 JP 0206288 W JP0206288 W JP 0206288W WO 03001409 A1 WO03001409 A1 WO 03001409A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
schema
structured
language
structured data
Prior art date
Application number
PCT/JP2002/006288
Other languages
English (en)
French (fr)
Inventor
Kiyoshi Nitta
Yasuo Uemura
Original Assignee
Celestar Lexico-Sciences, Inc.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Celestar Lexico-Sciences, Inc. filed Critical Celestar Lexico-Sciences, Inc.
Priority to US10/480,292 priority Critical patent/US20040177082A1/en
Priority to EP20020743697 priority patent/EP1403779A1/en
Priority to JP2003507726A priority patent/JPWO2003001409A1/ja
Publication of WO2003001409A1 publication Critical patent/WO2003001409A1/ja

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • G06F16/86Mapping to a database
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/30Data warehousing; Computing architectures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/20Heterogeneous data integration

Definitions

  • the present invention relates to a structured data processing device, a structured data processing method, a program, and a recording medium, and in particular, efficiently processes structured data in various formats defined by various schema languages.
  • the present invention relates to a structured data processing device, a structured data processing method, a program, and a recording medium that can perform the processing.
  • FIG. 1 is a diagram showing an example of a basic data structure of a sequence information database of a base sequence of a gene or an amino acid sequence of a protein.
  • the data structure of each sequence information stored in the sequence information database generally consists of (1) a field for storing the array body, and (2) an annotation for a part of the array. It consists of three field groups: a partially qualified description field for storing information, and (3) an overall description field for storing annotation information for the entire array.
  • the field for storing the sequence body in (1) above consists of a base sequence or an amino acid sequence.
  • the nucleotide sequence is a one-dimensional array of four types of bases (AC GT) that make up the chromosome of a biological cell.
  • AC GT ACGT
  • a nucleotide sequence acts as a gene a specific protein is generated from specific sequence information.
  • the amino acid sequence of the protein Are arranged in a one-dimensional row.
  • the partial modification description field in (2) described above describes annotation information such as knowledge (physical properties and structural information) obtained through experiments and analysis for a part of the sequence body. This information may not be present at all in some arrangements, or there may be multiple partial qualification description fields in the same arrangement part.
  • the entire description field in (3) above is information on the entire sequence, such as classification ID, common name, description in natural language, species, location on chromosome, (in case of expression data) organ, association It consists of data on references to academic literature, keywords, etc.
  • sequence information stored in these databases has the property that the field to be filled / the number of repetitions differs for each record. For this reason, it is often distributed in a text format with a certain format or a structured description format such as XML.
  • existing structured description languages used in the field of bioinformatics include, for example, "ASN. 1 (Abstract Synth Notation 1) J (http: //www.ncbi.n1ni.nin.go/ a ⁇ temap ZS u mmary / asn l. Biology, No vZD e C, 1995), XML-based “B SML (Bio Sequence Marque Language)” http ZZwww. 1 abbook.
  • the high extensibility of the data description format described in Problem (1) is particularly important in the field of bioinformatics (BI).
  • the information to be stored in the BI field is not limited to information expressed in existing structured description languages such as XML, BSML, and BioML.
  • the set (schema) of information to be stored changes. For example, when a new experimental method is developed, a field for storing the result and a schema for defining the result will be added.
  • FIG. 16 is a structural diagram of structured data described by BSML generally used in the BI field and structured data described by BioML commonly used in the BI field. It is a figure for explaining a difference.
  • Problem (2) describes the efficiency when targeting flexible data that solves problem (1).
  • RDB The RDB technology has been in practical use for a long time.
  • Existing computer applications can operate with high reliability and excellent processing efficiency for large-scale data.
  • the data model is designed on the assumption that the schema of the data handled in the target domain is static.
  • the degree of fixation increases as the data structure becomes more complex. Therefore, the construction of a system with high scalability required for the problem (1) is not originally assumed, and the above-mentioned efficiency problem occurs.
  • RDB Resource Description Framework
  • the storage is in a plain text file, which is the most flexible storage method, but this is not practical for searching and retrieving large data.
  • large-scale analysis processing is continuously performed on these data, so the efficiency required for each record operation is lower than the transaction processing that is caused by the business report processing end user. And become expensive.
  • the present invention stores large-scale data, such as sequence information such as the base sequence of a gene or the amino acid sequence of a protein, in a format having high rescalability, and efficiently stores the data. It is an object of the present invention to provide a structured data processing device, a structured data processing method, a program, and a recording medium that can be used. Disclosure of the invention
  • the structured data processing apparatus comprises: structured data acquisition means for acquiring structured data described in a structured description language; and schema data defining the structure of the structured data.
  • Format conversion means for converting the structure data and the schema data obtained by the converted data obtaining means based on the schema format conversion instruction information; and structuring after conversion by the format conversion means.
  • Structured data registration means for registering data and schema data in a database; a tool program for accessing the database registered by the structured data registration means for data processing; and a tool program input to the tool program. Register the schema data definition information that defines the schema resource of the structured data in association with it.
  • the structured program and the schema data registered in the database are converted according to the schema resource definition information corresponding to the activated tool program, and the tool program is executed. And an analysis tool starting means for inputting the information to the user.
  • structured data described in a structured description language and schema data defining the structure of the structured data are acquired, and the acquired structured data and schema data are converted into a schema format. It converts based on the conversion instruction information, registers the converted converted structured data and schema data in a database, accesses the registered database and processes the data, and the tool program that is input to the tool program.
  • a tool program is started, it is registered in the database according to the schema resource definition information corresponding to the started tool program. Dynamic conversion of registered structured data and schema data Since the input to the tool program, it becomes possible to convert the acquired data written in different structured language or schema language in advance or format determined according to need.
  • a new resource for example, an XML element
  • it can be easily converted to an edited format.
  • the data of each data to be used can be used without changing the specifications of the analysis tool. Extensibility can be easily secured.
  • the structured data processing apparatus is the above structured data processing apparatus, wherein the structure description language is XML, SGML, BioML, BSML, ASN.1, GAME, or It is characterized by a structured description language that is an extension of any of these, or a structured description language that has the same description capability as these.
  • the structured description language is XML, SGML, BioML, BSML, ASN.1, GAME, or a structured description language that is an extension of any of these, or is equivalent to these. Since it is a structured script description language with the ability to describe, it is possible to efficiently convert structured script data described by a structured description language generally used in the field of bioinformatics. .
  • the structured data processing device is the above structured data processing device, wherein the schema data is a DTD, an XML schema, a RELAX, or a schema language that is an extension of any of these, or It is characterized by data described in a schema language with the same description power as these.
  • schema data is DTD, XML schema, REL AX, or a schema language that is an extension of any of them, or data that is described in a schema language that has equivalent descriptive power to these, Schema data described in the schema language generally used in the bioinformatics field can be efficiently converted.
  • the structured data processing device is the structured data processing device according to the above, wherein the schema format conversion instruction information and the schema resource definition information are XSL, or a language obtained by extending this, or It is characterized by data described in a tree-structured transformation language with the same description power.
  • the schema format conversion instruction information and the schema resource definition information are converted into data described in XSL or a language that is an extension of XSL or a tree structure conversion language having a description capability equivalent to these. Therefore, based on the schema conversion instruction information and the schema resource definition information described in the schema conversion description language generally used in the bioinformatics field, the structure data and the schema data can be efficiently converted. It can be converted.
  • the structured data processing device is the above structured data processing device, wherein the structured data is an element relating to at least one of sequence information including a base sequence and / or an amino acid sequence and document information. It is characterized by including. This more specifically shows an example of the schema format conversion instruction information and the schema resource definition information.
  • the structured data since the structured data includes elements relating to at least one of sequence information including a base sequence, a Z or amino acid sequence, and literature information, a sequence registered in Gen Bank, etc. Information and bibliographic information registered in Pub Med, etc. can be obtained and converted.
  • a structured data processing method acquires structured data described in a structured description language and schema data defining the structure of the structured data.
  • a structured data registration step of registering the converted converted structured data and schema data in a database, a tool program for accessing the database registered in the structure data registration step and performing data processing, and the tool program An analysis tool registration step of registering the schema resource definition information that defines the schema resource of the structure data of the structure input to the database in a corresponding manner; and when the tool program is started, the analysis tool is started.
  • the above schema for the tool program According to the source definition information, characterized in that it comprises an analysis tools start step of dynamically converting the structure I spoon data Oyo Pi schema data registered in the database input to the Tsu Lumpur program.
  • the structured data described in the structured language and the schema data defining the structure of the structured data are acquired, and the acquired structured data and schema data are converted into a schema. It converts based on the format conversion instruction information, registers the converted converted structured data and schema data in the database, accesses the registered database and processes the data, and the tool program that is input to the tool program.
  • the database is registered in accordance with the schema resource definition information corresponding to the started tool program when the tool program is started. Dynamic conversion of structured data and schema data registered in Since the input to the tool program, it becomes possible to convert the acquired data written in different structured language or schema language in advance or format determined according to need.
  • the structured data processing method is the above structured data processing method, wherein the structured description language is XML, SGML, BioML, BSML, ASN.1, GAME, or It is a structured description language that is an extension of either of them, or a structured description language that has the same description capability as these.
  • the structured description language is XML, SGML, BioML, BSML, ASN.1, GAME, or a structured description language that extends any of these, or an equivalent Since it is a structured description language having description ability, it is possible to efficiently convert structured data described by a structured description language generally used in the field of bioinformatics.
  • the structure data processing method according to the next invention is the above structured data processing method, wherein the schema data is DTD, XML schema, RELAX, or a schema language that is an extension of any of these, or It is characterized by data described in a schema language having the same description capability as these.
  • the schema data is DTD, XML Schema, RELAX, or a schema language that extends either of them, or equivalent description power. Since the data is described in a schema language, it becomes possible to efficiently convert schema data described in a generally used schema language in the field of bioinformatics.
  • the schema format conversion instruction information and the schema resource definition information are XSL or a language extended from the XSL or It is characterized by data described in a tree-structured translation language having the same description capability as.
  • the schema format conversion instruction information and the schema resource definition information are stored in XSL or a language extended from XSL, or data described in a tree structure conversion language having the same description capability as these. Therefore, based on the schema conversion instruction information and the schema resource definition information described in the schema conversion description language generally used in the field of bioinformatics, the structure data and the schema data can be efficiently converted. It can be converted.
  • the structured data processing method is the above structured data processing method, wherein the structural data is related to at least one of sequence information including a base sequence and / or an amino acid sequence, and document information. It is characterized by including an element. This more specifically shows an example of the schema format conversion instruction information and the schema resource definition information.
  • the structured data since the structured data includes elements relating to at least one of sequence information including a base sequence and / or an amino acid sequence and literature information, the sequence data registered in Gen Bank, etc. Information and bibliographic information registered in Pub Med, etc. can be obtained and converted.
  • a program according to the next invention comprises: a structured data acquisition step of acquiring structured data described in a structured description language; and schema data defining a structure of the structured data.
  • a format conversion step a structured data registration step of registering the converted structured data and schema data converted in the format conversion step in a database, and a structured data registration step in the database registered in the structured data registration step.
  • An analysis tool registration step of registering a tool program for accessing and processing data and schema resource definition information for defining a schema resource of the structured data input to the tool program, and When activated, the structured data and schema data registered in the database are dynamically converted and input to the tool program according to the schema resource definition information corresponding to the activated tool program.
  • Analysis tool launching step Characterized in that to execute the structure I spoon data processing method in a computer.
  • structured data described in a structured description language and schema data defining the structure of the structured data are acquired, and the acquired structured data and schema data are converted into a schema format.
  • a tool program for performing conversion based on the conversion instruction information, registering the converted converted structured data and schema data in a database, accessing the registered database and performing data processing, and the tool program. Defines the schema resource of the structured data that is input to the schema data and registers it in association with the schema resource definition information.
  • the tool program is started, it is registered according to the schema resource definition information corresponding to the started tool program. Dynamically exports structural data and schema data registered in the database. Since the data is converted and input to the tool program, acquired data described in a different structured language or schema language can be converted into a predetermined or predetermined format.
  • the internal database is in the form of a specific unified structured description language (for example, BSML or B1oML). Can be managed, so that the efficiency of database use can be significantly improved.
  • the program according to the following invention is the program according to the above, wherein the structured description language is XML, SGML, BioML, BSML, AS N.1, GAME, or a structure obtained by expanding any of these. It is a special description that is a structured description language or a structured description language with the same description capability.
  • the structured description language is XML, SGML, BioML, BSML, AS N.1, GAME, or a structured language description language that is an extension of any of these, or Since it is a structured description language having the same description capability as these, it is possible to efficiently use structured data described by the structure description language generally used in the field of bioinformatics. Can be converted.
  • the program according to the following invention is the program according to the above-mentioned program, wherein the schema data is DTD, XML schema, REL AX, or a schema language that is an extension of any of these, or a schema language that has an equivalent description capability.
  • the data is characterized by the following.
  • the schema data is data written in DTD, XML schema, RE LAX, or a schema language that is an extension of any of these, or a schema language that has the same description power as these Therefore, a schema described in a schema language commonly used in these bioinformatics fields is used. It is possible to efficiently convert one data.
  • the program according to the next invention is the program according to the above-mentioned program, wherein the schema format conversion instruction information and the schema resource definition information are XSL or an extended language thereof, or a tree having a description capability equivalent thereto. It is characterized by data described in a structure conversion language.
  • schema format conversion instruction information and schema resource definition information are data described in XSL, or a language that extends XSL, or a tree structure conversion language having the same description capability as these. Therefore, structured data and schema data can be efficiently converted based on schema format conversion instruction information and schema resource definition information described in a schema conversion description language generally used in these bioinformatics fields. Can be converted to
  • a program according to the next invention is characterized in that, in the above program, the structured data includes an element relating to at least one of sequence information including a base sequence, a Z or amino acid sequence, and literature information.
  • the structured data includes elements related to at least one of base sequence, sequence information including Z or amino acid sequence, and literature information, so that sequence information registered in Gen Bank, etc. Document information registered in Pub Med, etc., can be acquired and format-converted.
  • a recording medium according to the next invention is characterized by recording the above-mentioned program.
  • FIG. 1 is a diagram showing an example of a basic data structure of a sequence information database of a gene base sequence or a protein amino acid sequence
  • FIG. 2 is a diagram showing a configuration of the system to which the present invention is applied.
  • FIG. 3 is a block diagram illustrating the basic principle of the present invention
  • FIG. 4 is a conceptual diagram illustrating an example of format conversion of acquired data according to the present invention.
  • FIG. 5 is a flowchart showing a format conversion process of input data of the analysis tool.
  • FIG. 6 is a diagram showing an example of schema format conversion instruction information of sequence information described by XSL. The figure shows an example of structured data (XML document) after format conversion by the schema format conversion instruction information shown in FIG. 6, and FIG. 8 shows the schema format conversion instruction shown in FIG.
  • FIG. 9 is a diagram showing an example of data (DTD).
  • FIG. 9 is a diagram showing an example of schema format conversion instruction information of document information described by XSL.
  • FIG. 10 is a diagram showing the schema shown in FIG.
  • FIG. 11 is a diagram showing an example of structured data (XML document) after format conversion by format conversion instruction information.
  • FIG. 11 shows a schema after format conversion by schema format conversion instruction information shown in FIG.
  • FIG. 12 is a diagram showing an example of data (DTD).
  • FIG. 12 is a flow chart showing an outline of a gene expression control analysis process.
  • FIG. 13 is a concept showing an overview of a transcription unit prediction.
  • FIG. 14 is a conceptual diagram showing an outline of prediction of a control site, FIG.
  • FIG. 15 is a conceptual diagram showing an outline of prediction of a regulatory gene
  • FIG. Data described in BSML, which is commonly used in FIG. 17 is a diagram for explaining a structural difference from data described by BioML
  • FIG. 17 is a diagram for explaining the concept of a structured data processing device to which the present invention is applied.
  • FIG. 18 is a diagram showing a basic configuration of a structured data processing device to which the present invention is applied.
  • FIG. 19 is a flowchart showing a main routine of the document storage service.
  • FIG. 20 ' is a flowchart showing a subroutine "format conversion process" of the document storage service.
  • FIG. 21 is a flowchart showing a subroutine "document registration process” of the document storage service.
  • FIG. 22 is a flow chart for explaining the processing of the analysis processing and the tool registration service
  • Fig. 23 is a flow chart for explaining the processing of the corner fast analysis processing service.
  • FIG. 24 is a diagram showing an example of a case where the schema data of the transcription unit database shown in FIG. 13 is described using DTD
  • FIG. 25 is a diagram shown in FIG.
  • FIG. 26 is a diagram showing, as an example, a case where the structure data of the transcription unit database is described using an XML document.
  • FIG. 26 shows a DTD for the schema data of the control site database shown in FIG.
  • Fig. 27 is a diagram showing an example of the case where the description is made by using an XML document.
  • FIG. 27 is a diagram showing an example of the case where the structured data of the control part database shown in Fig. 14 is described using an XML document.
  • FIG. 28 shows the control network shown in FIG. Fig. 29 is a diagram showing an example of the case where the schema data of the control database is described using DTD.
  • Fig. 29 shows the structure data of the control network database shown in Fig. 15 described using XML documents.
  • FIG. 30 is a diagram showing an example of such a case.
  • FIG. 30 is a diagram for explaining the concept of schema resource definition information. BEST MODE FOR CARRYING OUT THE INVENTION
  • FIG. 3 is a principle configuration diagram showing the basic principle of the present invention.
  • the present invention generally has the following basic features. That is, the present invention firstly The structured data described in the structured description language and the schema data defining the structure of the structured data are obtained from the database of the tatto section via the Internet or the like (step SA-1).
  • external databases include, for example, sequence databases such as GenBank, EMBL (European Molecular Biology Laboratory), and DDBJ (DNA Data Bank of Jan).
  • GDB Gene Data Base
  • % OM IM on 1ine me ndeliani nh eritancein man
  • SWI SS Amino acid sequence database
  • PROT and PRF protein function database
  • PROS ITE and BLOCKS protein three-dimensional structure database
  • PubMed Protein Data Bank
  • Each of these databases describes structured data in a predetermined structured description language, and also collects schema data corresponding to the structural data, which is also described in a predetermined schema language.
  • the structure description language that describes structured data obtained from an external database or the like is XML, SGML, BioML, BSML, ASN.1, GAME, or a structure extended from any of these.
  • the scripting language may be a scripting description language or a scripting description language having a description capability equivalent to these
  • the schema data may be a DTD, an XML schema, a RELAX, or a extension of any of these.
  • the data may be data described in a schema language or a schema language having the same description capability.
  • FIG. 4 is a conceptual diagram illustrating an example of format conversion of acquired data according to the present invention.
  • the schema format conversion instruction information may be XSL, or an extended language thereof, or data described in a tree structure conversion language having a description capability equivalent to these.
  • the conversion process may be performed using a known XSLT processor such as Xa1 an (APAC HE XM LPROJECT) or XT (James C1 ark).
  • FIG. 6 is a diagram showing an example of schema format conversion instruction information of sequence information described by XSL
  • FIG. 7 is a diagram showing a format after the format conversion by the schema format conversion instruction information shown in FIG.
  • FIG. 8 is a diagram showing an example of structured data (XML document)
  • FIG. 8 is a diagram showing an example of schema data (DTD) after format conversion by the schema format conversion instruction information shown in FIG. It is.
  • the schema data of the acquired data is converted into the DTD format shown in FIG. 8
  • the structured data is converted into the XML document shown in FIG.
  • the elements (ELEMENT) used in the structured data are Sequence, Title, Nucleotide, Peptide, Reference, RefTitle, and Id, and define the type of each element. ing.
  • Sequence of each element means nucleotide sequence data, "Title” which means explanation of sequence in natural language, "Nucl eo tide” which means nucleotide sequence, and amino acid sequence converted from base sequence It has "Peptide” meaning “RefTitle” meaning the title of the bibliography and “Id” meaning the reference number of the bibliography as child elements. Prepare as.
  • FIG. 9 is a diagram showing an example of schema format conversion instruction information of document information described by XSL.
  • FIG. 10 shows a format converted by the schema format conversion instruction information shown in FIG.
  • FIG. 11 is a diagram showing an example of the structured data (XML document) after that.
  • FIG. 11 shows a format converted by the schema format conversion instruction information shown in FIG.
  • FIG. 5 is a diagram showing an example of schema data (DTD) after the completion.
  • the elements (ELEMENT) used in the structure data are Literature, Title, Abstract, Link, and Id, and define the type of each element. I have. Of each element ("LiteratureJ” means the entire document data, “Title” which means the title of the document, “Abstract” which means the outline of the document, and a set of reference numbers to the related sequence data. Provide “Id” which means individual reference number as a child element. “LinkJ and” are provided as child elements.
  • the present invention is not limited to the case where data is obtained from an external database. Similarly, by obtaining data from an internal database managed by itself, it becomes possible to perform batch conversion of internal data.
  • the present invention registers the converted structured data and schema data in the database (step S A-3). .
  • a known XML storage system for example, one that stores a DOM tree such as eXcelon, Tamino, etc., one that stores XML natively, one that uses an RDB wrapper, or a processing system with an equivalent function
  • a known XML storage system for example, one that stores a DOM tree such as eXcelon, Tamino, etc., one that stores XML natively, one that uses an RDB wrapper, or a processing system with an equivalent function
  • step SA-3 Register a tool program (analysis tool) for accessing and processing data, and schema resource definition information that defines the schema resource of the structured data to be input to the tool program (step SA-4). .
  • the schema resource definition information is, for example, by defining the mapping between the schema data of the structured data registered in various databases and the input format of various tools, the registered data sources and the usage of the tools The correspondence with each resource of may be defined.
  • the schema resource definition information may be data described in XSL or a language extended from XSL, or a tree structure conversion language having a description capability equivalent to these.
  • a tool program (analysis tool)
  • the structured data and schema data registered in the database are stored in accordance with the schema resource definition information corresponding to the activated tool program.
  • Dynamic conversion step SA-6
  • input to the tool program step SA-7
  • Fig. 5 shows the processing flow of the format conversion of the input data of the analysis tool.
  • the present invention acquires schema resource definition information A (for example, an XSL document) corresponding to the analysis tool A from the schema resource definition file (step SB-3).
  • schema resource definition information A for example, an XSL document
  • Step SB-4 the format of each structured data and each schema data registered in each database is converted based on the acquired schema resource definition information A.
  • each converted structure data and each schema data after the conversion are used as input data of the analysis tool A (step SB-5). This ends the conversion process.
  • step SA-6 is performed by Xa lan (APACHE XML
  • a known XSLT processor such as PROJECT) or XT (James Clark) may be used for execution.
  • the present invention registers the processing results of the analysis tool in various databases and outputs the processing results to an output device (step SA-8).
  • FIG. 12 is a flowchart showing an outline of the gene expression control analysis processing.
  • a transcription unit prediction tool is activated to predict a transcription unit (step SC-1).
  • FIG. 13 is a conceptual diagram showing an outline of prediction of a transcription unit.
  • the transcription unit prediction tool accesses the database of the shared part based on the corresponding schema resource definition information, processes the appropriately converted data as input data, and registers the processing result in the transcription unit database.
  • the schema resource definition information of the transcription unit prediction tool maps each gene from the gene name database to the input data of the transcription unit prediction tool in the form of (gene name, start position, end position). In other words, the data of each gene registered in the gene name database is converted into data in the form of (gene name, start position, end position) according to the schema resource definition information of the transcription unit prediction tool, and input to the transcription unit prediction tool. Data.
  • FIG. 24 is a diagram showing, as an example, a case where the schema data of the transcription unit database shown in FIG. 13 is described using DTD
  • FIG. 25 is a diagram showing the case of FIG.
  • FIG. 3 is a diagram showing an example of a case where the structured data of the transcription unit database shown is described using an XML document. As shown in FIG. 24, the document type of the transcription unit database shown in FIG. 13 is defined, and structured data is described as shown in FIG.
  • FIG. 14 is a conceptual diagram showing an outline of prediction of a control part.
  • the activated control site prediction tool accesses the database of the shared part based on the corresponding schema resource definition information and performs appropriate format conversion, as well as other sequence statistical processing tools such as BLAST. Processing is performed using the processing result data and the data registered in the transcription unit database that stores the processing results of the transcription unit prediction tool as input data, and the processing results are registered in the control part database.
  • the schema resource definition information of the control site prediction tool is based on the transcription unit database, gene name database, and whole genome database.
  • Input data of the control site prediction tool is mapped in the form of (1), and from the processing results of the sequence statistical processing tool, for all the possible combinations of amino acid partial sequences of any length, (amino acid partial sequence, Input data of the control site prediction tool and mapping in the form of (number of applications in the genome).
  • sequence statistics processing tools such as BLAST is mapped with the input data of sequence statistics processing tools so that the entire sequence is extracted from the whole genome database.
  • FIG. 26 is a diagram showing, as an example, a case where the schema data of the control part database shown in FIG. 14 is described using the DTD
  • FIG. 27 is a diagram showing the control data shown in FIG.
  • FIG. 3 is a diagram illustrating an example of a case where structured data of a region database is described using an XML document.
  • the control unit shown in FIG. The document type of the position database is defined, and structured data is described as shown in Fig. 27.
  • FIG. 15 is a conceptual diagram showing an outline of prediction of a control gene.
  • the activated control gene prediction tool accesses the database of the shared part based on the corresponding schema resource definition information, converts the format as appropriate, and processes other sequence statistical processing tools such as BLAST.
  • Input data such as result data and data registered in the transcription unit database that stores the processing results of the transcription unit prediction tool, and data registered in the control region database that stores the processing results of the control region prediction tool. Process as data and register the processing result in the control network database.
  • the schema resource definition information of the control gene prediction tool is based on the sequence database. For each DNA-binding protein gene, the input data of the control gene prediction tool and the matching are performed in the form of (gene name, amino acid sequence). In addition, for each transcription unit from the transcription unit database and whole genome database, input data of the control gene prediction tool and matching data in the form of (transcription unit identifier, control site (start position, end position, amino acid sequence) list). I do.
  • FIG. 28 is a diagram showing, as an example, a case where the schema data of the control network database shown in FIG. 15 is described using DTD
  • FIG. 29 is a diagram showing the control data shown in FIG.
  • FIG. 3 is a diagram illustrating an example of a case where structured data of a network database is described using an XML document. As shown in FIG. 28, the document type of the control network database shown in FIG. 15 is defined, and structured data is described as shown in FIG.
  • FIG. 2 is a block diagram showing an example of the configuration of the present system to which the present invention is applied, and conceptually shows only a portion related to the present invention in the configuration.
  • This system roughly includes a structured data processing device 100 and an external system 200 that provides an external database 200 related to sequence information and the like, an external program such as homologous search, and the like. It is configured to be communicably connected via a.
  • the network 300 has a function of interconnecting the structured data processing device 100 and the external system 200, and is, for example, the Internet.
  • an external system 200 is interconnected with a structure processing data processor 100 via a network 300, and provides an external database, database, and homologous information about sequence information to a user. It has a function to provide a website for executing external programs such as lip search and motif search.
  • the external system 200 may be configured as a WEB server, an ASP server, or the like, and its hardware configuration is generally a commercially available workstation, an information processing device such as a personal computer, and an accessory device thereof. It may be composed by
  • each function of the external system 200 includes a CPU, a disk device, a memory device, an input device, an output device, a communication control device, and the like in the hardware configuration of the external system 200 and a program for controlling them. And so on.
  • the structured data processing device 100 is generally connected to a control unit 102 such as a CPU that controls the entire structured data processing device 100 as a whole, a communication line, and the like.
  • Communication control interface connected to a communication device (not shown) such as a router Interface unit 104, an input / output control interface unit 108 connected to the input device 112 and the output device 114, and a storage unit 106 for storing various databases and tables.
  • a communication device such as a router Interface unit 104, an input / output control interface unit 108 connected to the input device 112 and the output device 114, and a storage unit 106 for storing various databases and tables.
  • the structure data processing apparatus 100 is communicably connected to a network 300 via a communication device such as a router and a wired or wireless communication line such as a dedicated line.
  • Various databases and tables stored in the storage unit 106 are storage means such as a fixed disk device, and are used for various types of processing. Stores programs, table file databases, and files for pages.
  • the structured data storage database 106a is a database that stores structured data.
  • the schema data storage database 106 b is a database that stores schema data.
  • the schema format conversion instruction information file 106c is a schema format conversion instruction information storage unit that stores schema format conversion instruction information and the like.
  • the analysis tool storage file 106 d is an analysis tool storage unit for storing information on the analysis tool and the like.
  • the schema resource definition file 106 e is a schema resource definition information storage unit that stores schema resource definition information and the like.
  • the processing result database 106 f is processing result storage means for storing information on the processing results of the analysis tool.
  • a communication control interface unit 104 controls communication between the structured data processing device 100 and the network 300 (or a communication device such as a router). That is, the communication control interface unit 104 has a function of communicating data with another terminal via a communication line.
  • the input / output control interface unit 108 is connected to the input device 1 12 and the output device 114 are controlled.
  • a speaker can be used as the output device 114 (the output device 114 may be described as a monitor in the following).
  • the input device 112 a keyboard, a mouse, a microphone, and the like can be used. The monitor also realizes the pointing device function in cooperation with the mouse.
  • the control unit 102 includes a control program such as an operating system (OS), a program defining various processing procedures, and a partial memory for storing required data. The information processing for performing various processes is performed by the program or the like.
  • OS operating system
  • the information processing for performing various processes is performed by the program or the like.
  • the control unit 102 is functionally conceptually structured data acquisition unit 102a, format conversion unit 102b, structured data registration unit 102c, analysis tool registration unit 102d, and analysis tool activation unit 102e. , And a processing result registration unit 102 #.
  • the structured data acquisition unit 102a is structured data acquisition means for acquiring structured data described in a structured description language and ': schema data defining the structure of the structured data.
  • the format conversion unit 102b is a format conversion unit that converts the structure data and the schema data acquired by the structure data acquisition unit based on schema format conversion instruction information.
  • the structured data registration unit 102c is structured data registration means for registering the converted structured data and schema data converted by the format conversion means in a database.
  • the analysis tool registration unit 102 d includes a tool program for accessing the above-mentioned database registered by the structure data registration unit and performing data processing, and a tool program for the structure data input to the tool program.
  • This is an analysis tool registration unit for registering schema resource definition information that defines schema resources in association with each other.
  • the analysis tool starting unit 102e performs the analysis according to the schema resource definition information corresponding to the started tool program.
  • processing result registration unit 102f is a processing result registration unit that registers the processing result of the analysis tool in a database.
  • FIG. 17 is a diagram for explaining the concept of a structured data processing device to which the present invention is applied.
  • each database is provided as shown in FIG.
  • This database is composed of multiple sub-databases.
  • the sequence data is stored in the sub-database “Rooster database” in Fig. 17. Although only one sequence database is shown in FIG. 17, there may be multiple sequence databases.
  • Each record of the sequence database contains at least the base or amino acid sequence data itself.
  • BSML, BioML, and GAME a partial modification description and a whole description may be included.
  • Each record in the relational database contains at least one reference.
  • Reference information refers to an entire record in a sub-database or external database in the system, or to a specific portion within a record.
  • Each record in the relational database may include a partially qualified description, a full description, and so on.
  • FIG. 18 is a diagram showing a basic configuration of a structural data processing apparatus to which the present invention is applied.
  • the present invention constitutes a database system (structured data processing device) as shown in FIG. This system consists of a basic processing module, an extended processing module, and a storage unit.
  • the basic processing module includes a tool registration processing unit (conceptually corresponding to the analysis tool registration unit 102 d in FIG. 2), a document registration processing unit (conceptually the structured data registration unit 10 in FIG. 2). 2c), a format conversion processing unit (conceptually corresponding to the format conversion unit 102b in FIG. 2), a service mediation processing unit (conceptually starting the analysis tool in FIG. 2) (Corresponding to the section 102 e and the processing result registration section 102 f), and a link processing section.
  • the extension processing module is composed of several tool parts (analysis tool A, analysis tool B, ... 'in Fig. 18), which are conceptually stored in the analysis tool storage file 106 d in Fig. 2. Corresponding).
  • the storage unit is a structure storage unit (conceptually corresponding to the structured data storage database 106a in FIG. 2), a schema storage unit (conceptually the schema data storage database 106 in FIG. 2). b), the schema resource definition section (conceptually corresponding to the schema resource definition file 106 e in FIG. 2), and the result file (conceptually in the processing result database 106 f in FIG. 2). Corresponding).
  • This system provides three major services. These services consist of the analysis processing tool registration service by the tool registration processing unit in Fig. 18, the document storage service by the document registration processing unit, and the analysis processing (including search processing) service by the service mediation processing unit. I have.
  • the tool registration processing unit reads the analysis tool and its corresponding resource definition, and registers the analysis tool in the tool unit and the resource definition in the schema resource definition unit.
  • the document storage service reads a structured document that specifies the document type, such as DTD XML—Schema or REL AX, and performs format conversion processing as necessary. Stored in the structure storage unit. Next, it asks the schema storage if the document type (there may be more than one) of the structured document is already registered! / Match. If it has already been registered, nothing is done. If it is not registered, the document type is acquired and registered in the schema storage.
  • the document type such as DTD XML—Schema or REL AX
  • the service mediation processing unit receives the service request and determines the analysis processing tool required for its execution. Obtain the resource definition to be paired with the analysis tool from the schema resource definition section. The service mediation processing unit obtains a document set from the structure storage unit while resolving the link reference according to the resource definition etc. for the document data required for execution. It also requests the analysis processing tool to process the set of documents and generates a result.
  • the thick arrow in FIG. 18 indicates data movement.
  • the arrow coming out of the structure storage does not necessarily mean actual data movement, but may mean moving only reference information (pointer).
  • the structural data processing apparatus of the present invention is a structured data processing apparatus that manages information related to the nucleotide sequence of a gene or the amino acid sequence of a protein, A sequence data storage unit for storing sequence data relating to the base sequence or the amino acid sequence; and a plurality of relation data storage units for storing relation data relating to the plurality of sequence data, wherein the base sequence or the amino acid sequence is provided.
  • a sequence data storage unit for storing sequence data relating to the base sequence or the amino acid sequence
  • a plurality of relation data storage units for storing relation data relating to the plurality of sequence data, wherein the base sequence or the amino acid sequence is provided.
  • the structured data processing device of the present invention includes a basic processing unit, an extended processing unit, and a storage unit, wherein the basic processing unit reads an analysis tool and a resource definition paired with the analysis tool, A tool registration unit for registering the analysis tool and the resource definition, reads a structured document specifying a document type, performs format conversion processing as necessary, and registers the structured document in the storage unit.
  • Document registration department and service A service intermediary unit for receiving a request and determining an analysis processing tool necessary for executing the service; and a link processing unit for referring to the reference structure, wherein the extension processing unit A plurality of types of analysis processing tools for executing an analysis process are provided, and the storage unit stores a structure storage unit that stores the structured document read by the document registration unit, and a schema of the structured document. It is preferable that a schema storage unit and a schema resource definition unit that stores the resource definition registered by the tool registration unit be provided, and that the structure storage unit store the tree structure while maintaining the tree structure. No.
  • the structural data processing apparatus of the present invention includes a conversion unit that reads data from an external database and converts the data into data to be stored in the system ij data storage unit or the relational data storage unit.
  • the structured data processing device of the present invention includes a search unit that searches the array data storage unit or the relation data storage unit, and outputs a search result as a structured document.
  • the search means converts the expression into a description expression of a BSML (BioSequenCeMa rkupLanguage) expression.
  • the search means converts the BIOML (BIO lyme rMa rkupLanguAge) ⁇ $ expression into a description ⁇ $ expression.
  • the structured data processing device (system) is configured as shown in FIG.
  • a configuration method for achieving a specific purpose will be specifically described.
  • the purpose here is to provide a service that searches for related nucleotide sequences by inputting the nucleotide sequence. At this time, the related sequence is searched as follows.
  • a reference record that is close in natural language to the reference record linked from the record containing the base sequence is obtained.
  • the base sequence contained in this reference record is searched. Results.
  • Such a method of searching for a related sequence using document data is referred to herein as a “document similarity method”.
  • the number of hits can be controlled by increasing or decreasing the number of literature DB records (2 in the above explanation) intervening between two sequences.
  • this system provides three services. In the present embodiment, a plurality of commands, libraries, TCP / IP services, http services (CGI), and the like are conceivable.
  • service (2) depends on the storage condition of service (1)
  • service (3) depends on the storage condition of service (1) and service (2). Details of each of these conditions will be described later.
  • the document storage service command (1) is executed as follows.
  • store ⁇ document name> ⁇ schema name> [ku schema conversion description name]
  • "store” is the document storage service command name.
  • ⁇ Document name> contains the file name of the XML document to be stored
  • ⁇ Schema name> contains the file name of the document type definition (DTD) of the XML document to be stored
  • ⁇ Schema conversion description name> stores the file name.
  • FIG. 19 to FIG. 21 are flowcharts showing the processing of the document storage service.
  • FIG. 19 is a flowchart showing a main routine of the document storage service.
  • step S31 it is checked whether or not the schema of the structured document to be stored is registered in the schema storage.
  • step S31 If it is determined in step S31 that the data is not stored (step S31: NO), it is checked in step S32 whether a schema conversion description is available. If it is stored in step S31 (step S31: YES), the process proceeds to the subroutine document registration process.
  • the subroutine document registration processing will be described later with reference to FIG.
  • step S32 If it is determined in step S32 that it can be used (step S32: YES), the process proceeds to a subroutine format conversion process.
  • the subroutine format conversion processing will be described later with reference to FIG.
  • step S32: NO the process proceeds to a subroutine document registration process.
  • FIG. 20 is a flowchart showing a subroutine “format conversion processing” of the document storage service.
  • the format conversion process is performed in the following procedure.
  • step S41 a schema of the storage structure is generated from the schema of the structured document to be stored and the schema conversion description.
  • step S42 the structured document is converted according to the schema conversion description, and the result is passed to the subroutine document registration process together with the schema generated in step S41.
  • the above conversion uses a generally available XSLT processor (Saxon, Xa1an, etc.) or a processing system having an equivalent function.
  • FIG. 21 is a flowchart showing a subroutine “document registration processing” of the document storage service.
  • the document registration process is executed in the following procedure.
  • a document is stored in the structure storage unit.
  • the storage is a commercially available XML storage system (DOM tree storage such as eXcelon, Tamino, XML native storage system, RDB wrapper system, or A processing system with equivalent functions) is used.
  • step S52 it is determined whether or not the schema is registered in the schema storage unit.
  • step S52 If it is determined in step S52 that it is not registered (step S52: NO), in step S53, the schema is registered and the process ends. On the other hand, if it is determined in step S52 that it is registered (step S52: Y E S), the process ends.
  • the document is represented by XML
  • the schema is represented by XML TD (document type definition).
  • the data to be stored is stored locally as an XML document using the following URL service.
  • Sequence data uses the GenBank service
  • literature data uses the PubMed service (see http://www.ncbi.nlm.nih.gov/Genbank/).
  • PubMed service see http://www.ncbi.nlm.nih.gov/Genbank/).
  • We omit citations of data and schemas that can be obtained directly, such as G en B an k.
  • the data subjected to the document registration process is as follows.
  • sequence data is sequence, xml ( Figure 7), and the schema is squence.dtd ( Figure 8).
  • the Sequence tag means the entire sequence
  • the Title tag means the description of the sequence in natural language
  • the Nucleotide tag means the base sequence
  • the Peptide tag means the amino acid sequence converted from the base sequence
  • the Reference tag refers to the reference
  • the RefTitle tag refers to the title of the reference
  • the Id tag refers to the reference number of the reference.
  • the Literature tag refers to the entire document data
  • the Title tag refers to the title of the document
  • the Abstract tag refers to the summary of the document
  • the Link tag refers to the set of reference numbers to the relevant sequence data.
  • the Id tag stands for the individual reference number.
  • the analysis tool registration service command (2) is executed as follows. register-tool-command-name> [ku-resource-definition]
  • "register” is the name of the analysis processing tool registration service command.
  • FIG. 22 is a flowchart for explaining the processing of the analysis processing tool registration service.
  • the tool registration processing by the register command is executed in the following procedure.
  • step S61 it is determined whether or not the analysis tool is in an executable state.
  • step S62 If it is determined in step S61 that it is not in an executable state (step S61: NO), in step S62, it is copied to a place where this system can be executed.
  • step S61 YES
  • step S62 the analysis tool
  • step S64 the resource definition is stored in the schema resource definition section, and the process ends.
  • an execution example of the analysis processing tool registration service will be described below.
  • the indexing process is a 1h-indeX command
  • the search process is a 1h-search command.
  • the 1 h— i n d e x command takes as an argument the entire search target data consisting of a set of pairs of character strings and identifiers to be searched. This command is registered with the resource definition Ih—index, xs1.
  • the 1 h—se a r ch h command takes an array that is the search key as an argument. There is no resource definition registered at the same time as this command. '
  • the analysis processing service command (3) is executed as follows. process ⁇ analysis tool name> [-toolargs ⁇ tool argument list>]
  • FIG. 23 is a flowchart for explaining the processing of the analysis processing service.
  • the analysis processing service by the process command is executed by the service mediation processing unit in the following procedure.
  • step S71 it is determined whether or not an analysis tool (analysis tool) is registered in the system. If it is determined in step S71 that the information is not registered (step S71: NO), error processing is performed in step S72.
  • step S71 determines whether the resource definition is registered (step S71: YES). If it is determined in step S71 that the resource definition is registered (step S71: YES), then in step S73, the resource definition corresponding to the analysis tool is registered in the schema resource definition section. Judge.
  • step S73 If it is determined in step S73 that the document is registered (step S73: YES), then in step S74 (using the service argument list if it exists), a resource is set for each document in the structure storage unit. Apply the definition (XSL) and apply the analysis tool to each result. Then, in step S75, it is determined whether or not the processing is completed for all the documents, and step S74 is repeated until all the documents are completed (step S75: YES).
  • step S73 determines whether it is registered (step S73: NO). If it is determined in step S73 that it is not registered (step S73: NO), the analysis tool is executed in step S76.
  • step S76 After the execution of the squaring tool in step S76, or after the processing in step S75, the execution result is output and the processing ends.
  • the literature similarity method is implemented by two analysis tools: lh—index, which performs the indexing process, and 1h—search, which performs the search process.
  • the set of document records referred to from each array record S 'of S1 is L2.
  • the part with natural language (text) data from the entire set obtained Only with I d of the original array s.
  • the result of this XSLT processing is passed to 1h-index (this way of passing is specified by "one to olargs" ⁇ doocuments). An index is created.
  • the 1h-search is directly invoked, and an array ID set related to the array ID is obtained using the index created by the 1h-index.
  • the relation DB can be extended independently of the array DB, so that the schema extension that does not fit in the framework of the array DB record can be easily performed. Problem (1) has been solved.
  • the present system has both flexibility and mounting efficiency, and solves the problem (2). This property becomes more prominent when using native structure storage technology than when implementing structure storage using RDB technology.
  • the text part to be processed at the time of index creation was dynamically generated using XSLT.
  • the number of steps to follow the link can be parameterized, increasing the flexibility of the functions that can be performed.
  • the data is passed in a byte stream, which is a bottleneck, but a component combining technique of a type that shares the data space. It can be determined by using ⁇ f.
  • analysis components other than the literature similarity method can be flexibly added by preparing instructions to generate documents required by the tool from the document format registered in the schema storage unit.
  • the format of the structured document to be registered is frequent, it can be stored in the structure storage section for the time being, and such flexibility is provided.
  • the structured data processing apparatus 100 performs processing in the form of a stand-alone microphone. Processing may be performed in response to a request from the terminal, and the processing result may be returned to the client terminal.
  • all or a part of the processes described as being performed automatically may be manually performed, or the processes described as being performed manually may be performed. All or part can be performed automatically by a known method.
  • each processing function performed by the control unit 102 can be realized by a CPU (Central Processing Unit) and a program interpreted and executed by the CPU. Alternatively, it can also be implemented as hardware using wired logic. Note that the program is recorded on a recording medium described later, and is mechanically read by the structured data processing device 100 as necessary.
  • CPU Central Processing Unit
  • a computer program for giving an instruction to the CPU in cooperation with an OS (OperaintSystem) and performing various processes is recorded.
  • This computer program is executed by being loaded into a RAM or the like, and forms the control unit 102 in cooperation with the CPU.
  • this computer program may be recorded in an application program server connected to the structured data processing apparatus 100 via an arbitrary network 1 or network 300, and if necessary, all or part of the computer program. It is also possible to download this.
  • the program according to the present invention can be stored in a computer-readable recording medium.
  • the “recording medium” refers to any “portable physical medium” such as a flexible disk, magneto-optical disk, ROM, EPROM, EEPROM, CD-ROM, MO, D, etc., or built-in various computer systems.
  • Short-term such as communication lines and carrier waves when transmitting programs via arbitrary fixed physical media such as ROM, RAM, HD, etc., or networks represented by LAN, WAN, and the Internet.
  • “communications media” that hold programs.
  • a “program” is a data processing method described in any language and description method, regardless of the format of source code or binary code. Note that the “program” is not necessarily limited to a single program, but may be distributed with multiple module libraries or a separate program typified by an operating system (OS). Including those that work to achieve that function. It should be noted that, for a specific configuration for reading the recording medium by each device described in the embodiment, a reading procedure, or an installation procedure after reading, a known configuration or procedure is used. be able to.
  • Various databases and the like stored in the storage unit 106 include memory devices such as RAM and ROM, fixed disk devices such as hard disks, flexible disks, and optical disks. It is a storage means such as a disk, and stores various kinds of program tables and files used for various kinds of processing and provision of websites, files for database, web pages, and the like.
  • the structural data processing device 100 connects a peripheral device such as a printer monitor or an image scanner to an information processing device such as a known personal computer or an information processing terminal such as a work station. This may be achieved by implementing software (including programs, data, etc.) that implements the method.
  • each database may be independently configured as an independent database device, and a part of the processing may be realized by using CGI (Common Gat ewa y Inte rfa c e).
  • CGI Common Gat ewa y Inte rfa c e
  • the network 300 has a function of interconnecting the structured data processing apparatus 100 and the external system 200, and includes, for example, the Internet, an intranet, a LAN (including both wired / wireless), VAN, PC communication network, public telephone network (including both analog and digital), leased line network (including both analog and Z digital), CATV network, IMT2000 system, GSM system or? 0 ?? 0? 7 mobile packet switching network, wireless paging network, local wireless network such as B 1 uetooth, PHS network, CS, BS or I It may include any of satellite communication networks such as SDB. That is, the present system can transmit and receive various data via any network regardless of wired or wireless.
  • structured data described in a structured description language and schema data defining the structure of the structured data are acquired, and the acquired structured data and schema are acquired.
  • a tool program that converts data based on the schema conversion instruction information, registers the converted structured data and schema data in the database, and accesses the registered database to perform data processing. And register the schema resource definition information that defines the schema resource of the structured data input to the relevant tool program, and when the tool program is started, the schema resource corresponding to the started tool program is started.
  • An apparatus, a structure processing method, a program, and a recording medium can be provided.
  • a structured data processing device a structured data processing method, a program, and a recording medium that can be provided.
  • the structured data processing apparatus can easily convert the schema into the added format.
  • Structured data processing method, program, and recording medium Body can be provided.
  • a structured data processing device capable of performing batch format conversion of a database of a shared portion.
  • the structured description language is XML, SGML, BioML, ⁇ BSML, AS N.1, GAME, or a structured description language obtained by expanding any of these. Or, because it is a structured description language that has the same description capability as these, it is possible to efficiently convert structured data described by a structured description language generally used in these bioinformatics fields. It is possible to provide a structured data processing device, a structured data processing method, a program, and a recording medium.
  • the schema data is DTD, XML schema, REL AX, or data written in a schema language that is an extension of any of these, or a schema language having a description capability equivalent to these. Therefore, a structured data processing device, a structured data processing method, a program, and a record capable of efficiently converting schema data described in a schema language generally used in these bioinformatics fields Media can be provided.
  • the schema format conversion instruction information and the schema resource definition information are described in XSL, a language extended from XSL, or a tree structure conversion language having a description capability equivalent to these. Since the data has been compiled, it is a schema conversion description language generally used in these bioinformatics fields.
  • a recording medium can be provided.
  • the structured data includes an element relating to at least one of sequence information including a base sequence and / or an amino acid sequence and document information, the sequence information registered in Gen Bank, etc.
  • the structured data processing device, the structured data processing method, the program, and the recording medium according to the present invention are capable of efficiently converting various types of structured data defined by various types of schema languages. Suitable for processing.

Description

明 細 書 構造化データ処理装置
技術分野
本発明は、 構造化データ処理装置、 構造化データ処理方法、 プログラム、 およ び、 記録媒体に関し、 特に、 様々な形式のスキーマ言語により定義された様々な 形式の構造化データを効率的に処理することができる構造化データ処理装置、 構 造化データ処理方法、 プログラム、 および、 記録媒体に関する。
背景技術
従来、 バイオインフォマティクス分野において扱われる基本的なデータベース として、 大規模な塩基またはアミノ酸などの配列情報データベースや、 文献情報 データベースがある。 例えば、 既存の配列情報データベースの例として、 「Ge nB a nkj などがあり、 文献情報データベースの例として 「PubMe d」 な とがある (http://www. ncbi. nlm. nih. gov/Genbank/ 参照) 。
第 1図は、 遺伝子の塩基配列または蛋白質のァミノ酸配列の配列情報データべ ースの基本的なデータ構造の例を示す図である。
ここで、 第 1図に示すように、 配列情報データベースに格納される各配列情報 のデータ構造は、 一般的に (1) 配列本体を格納するフィールド、 (2) 配列の 一部分についてのァノテーション情報を格納する部分修飾記述フィールド、 ( 3 ) 配列の全体についてのァノテーシヨン情報を格納する全体記述フィールド、 の 3つのフィールド群からなっている。
上記 (1) の配列本体を格納するフィールドは、 塩基配列またはアミノ酸配列 からなつている。 塩基配列は、 生物細胞の染色体を構成する 4種類の塩基 (AC GT) を一次元の列に並べたものである。 塩基配列が遺伝子として働くときにそ め特定の配列情報から特定の蛋白質が生成される。 アミノ酸配列は、 その蛋白質 を構成する二十数種のァミノ酸を一次元の列に並べたものである。
上記 (2) の部分修飾記述フィールドは、 配列本体の一部分について、 実験や 解析を通して得た知見 (物性や構造情報など) 等のァノテーシヨン情報を記した ものである。 この情報は配列によっては全くない場合もあるし、 同一の配列部分 に複数の部分修飾記述フィールドが記述されることもある。
また、 上記 (3) の全体記述フィールドは、 その配列全体に関する情報であり、 例えば、 分類 I D、 通称、 自然言語による説明、 生物種、 染色体上の位置、 (発 現データの場合) 臓器、 関連する学術文献の参照先、 キーワードなどに関するデ ータからなる。
これらのデータベースに格納される配列情報は、 レコード毎に埋まるフィール ドゃ繰り返し回数が異なるという性質を持つ。 そのため、 ある程度書式付けされ たテキスト形式または XMLなどの構造化された記述形式で流通することが多い。 バイオインフォマティクス分野で用いられている既存の構造化記述言語には、 例えば、 「ASN. 1 (Ab s t r a c t S y n t a No t a t i o n 1 ) J (h t t p : / / www. n c b i . n 1 ni. n i n . g o / a ι t e m a p Z S u mm a r y/a s n l. h tm l、 J ame s M. O s t e l 1, I n t e g r a t e d Ac c e s s t o He t e r o g e n e o u s D a t a f r om NCB I " , p p. 730-736, I EEE E n g i n e e r i n g i n Me d i c i n e a n d B i o l o g y, No vZD e C, 1 995) や、 XMLベースの 「B SML (B i o S e q e n c e Ma r k u L a n g u a g e) 」 h t t p ZZwww. 1 a b b o o k . c o m/ f a q/ b sm l . a s p) 、 「B i oML (Th e B I Op o 1 yme r Ma r ku ; L a n g u a g e) 」 (h t t p :Z/w ww. b i om l . c o va/ B I OMLZ i n d e , h tm l) 、 およぴ、 「 GAME (Ge n ome Ann o t a t i o n Ma r k u p E l eme n t s ) J (h t t p : / / www. b i o xm l . o r g/P r o j e c t s/ g ame/) などが存在している。 これらの配列データは大規模 (例えば、 G e n B a n kのレコード数は 1 0 0 0万件規模) であり、 効率的な検索処理を行なうために上述の例のデータでは、 リレーショナルデータベース (R D B ) を用いたデータベースシステムに変換 Z 格納されている。
しかしながら、 従来のシステムには、
( 1 ) 多種の構造ィヒ記述形式に対応する高い拡張性を持つ形式でデータを格納 することができない。
( 2 ) データを効率よく格納 ·利用することができない。
という 2つの問題点があった。 以下、 これらの問題点について具体的に説明する。 まず問題点 (1 ) で述べている、 データ記述形式に関する高い拡張性は、 バイ ォインフォマテイクス (B I ) 分野では特に重要である。 ここで B I分野におい て格納すべき情報は、 XMLや B SMLや B i o MLなどの既存の構造化記述言 語で表記されるものだけではない。 すなわち、 B I分野全体の研究が進むにつれ て格納すべき情報の定義情報の集合 (スキーマ) などは変化する。 例えば、 新た に実験手段が開発された場合、 その結果を格納するフィールドや定義するための スキーマが追加されることになる。
また、 同じ事実を複数の表現で格納するために繰り返し構造が導入されること も多い。 このような場合、 既存形式のデータを新規形式のデータに変換する必要 があり、 変換プログラムの開発と変換処理のコストが発生する。
さらに他の例として、 相互作用する複数の蛋白質の部位の情報を、 枠組みを変 えずに蛋白質のレコードに含めようとする場合には、 同じ情報を異なる 2つのレ コードに同期して格納する必要がある。 この場合、 格納領域が多く使用される、 格納 ·修正等の機能の実装が複雑になる、 などの管理上の問題が発生する。
また、 第 1 6図は、 B I分野で一般的に用いられる B S MLにより記述された 構造化データと、 同様に一般的に用いられる B i o MLにより記述された構造ィ匕 データとの構造的な相違を説明するための図である。
上述したように、 現在でも複数種類の構造化記述言語で記述された構造化記述 形式があり、 既存のソフトウェア資産を再利用するためにはそれらへ容易に変換 できる必要がある。 特に、 第 1 6図に示すように、 B SMLと B i o MLの間に は、 部分修飾記述フィールドの形式に構造的な相違がある。 B i o MLは、 蛋白 質の構造に関する一部の部分修飾記述を XML文書の木構造に埋め込むのに対し て、 B SMLは、 全ての部分修飾記述を配列位置情報との組で別記している。 こ のような違いのある複数の形式へ変換を効率的に行なうためには、 格納構造の表 現能力が十分に柔軟である必要がある。
問題点 (2 ) は、 問題点 (1 ) を解決するような柔軟なデータを対象にしたと きの効率について述べている。
RD B技術は、 古くから実用化されており.、 既存の計算機アプリケーションに おいては、 信頼性が高く、 大規模データの処理効率に優れた運用が可能である。 し力 し、 R D Bでは、 対象ドメインで扱うデータのスキーマが静的であることを 前提にデータモデルが設計される。 特に、 データ構造が複雑になるに従って固定 化の度合が高まる。 そのため、 問題点 (1 ) に対して求められるような高い拡張 性を持つシステムの構築は、 本来想定されておれず、 上述したような効率上の課 題が生じる。
R D Bが利用できない場合は、 最も柔軟な格納方式であるプレーンテキストフ アイルでの格納になるが、 これは大規模データにおける検索や取り出し性能が実 用的ではない。 特に、 B I分野ではこれらのデータを対象に大規模な解析処理を 連続して行なうため、 各レコ^"ド操作に求められる効率は、 事務帳票処理ゃェン ドユーザが起因となるトランザクション処理に比べて高くなつてしまう。
従って、 本発明は、 遺伝子の塩基配列や蛋白質のアミノ酸配列などの配列情報 のような大規模なデータを、 高レヽ拡張性を持つ形式でデータを格納し、 しかもデ ータを効率よく格納 ·利用することが可能となる構造化データ処理装置、 構造ィ匕 データ処理方法、 プログラム、 および、 記録媒体を提供することを目的としてい る。 発明の開示
本発明にかかる構造化デ一タ処理装置は、 構造化記述言語で記述された構造化 データと、 当該構造化データの構造を定義したスキーマデータとを取得する構造 化データ取得手段と、 上記構造化データ取得手段にて取得した上記構造ィヒデ一タ および上記スキーマデータを、 スキーマ形式変換指示情報に.基づいて変換する形 式変換手段と、 上記形式変換手段にて変換された変換後の構造化データおよびス キーマデータをデータベースに登録する構造化データ登録手段と、 上記構造化デ 一タ登録手段にて登録された上記データベースにアクセスしてデータ処理を行う ッールプログラムと、 当該ッールプログラムに入力される上記構造化データのス キーマのリソースを定義するスキーマリソース定義情報とを対応させて登録する 分析ツール登録手段と、 上記ツールプログラムが起動された場合に、 起動された 当該ツールプログラムに対応する上記スキーマリソース定義情報に従って、 上記 データベースに登録された構造化データおよびスキーマデータを変換して当該ッ ールプログラムに入力する分析ツール起動手段とを備えたことを特徴とする。 この装置によれば、 構造化記述言語で記述された構造化データと、 当該構造化 データの構造を定義したスキーマデータとを取得し,、 取得した構造化データおよ びスキーマデータを、 スキーマ形式変換指示情報に基づいて変換し、 変換された 変換後の構造化データおよびスキーマデ―タをデータベースに登録し、 登録され たデータベースにアクセスしてデータ処理を行うッールプログラムと、 当該ツー ルプログラムに入力される構造ィヒデータのスキーマのリソースを定義するスキー マリソース定義情報とを対応させて登録し、 ツールプログラムが起動された場合 に、 起動された当該ツールプログラムに対応するスキーマリソース定義情報に従 つて、 データベースに登録された構造化データおよぴスキーマデータを動的に変 換して当該ツールプログラムに入力するので、 異なる構造化言語やスキーマ言語 で記述された取得データを予めまたは必要に応じて定めた形式に変換することが できるようになる。
また、 各種の外部データベースから取得したデータ間の整合を容易にとること ができるようになり、 データ記述形式に関する高い拡張性を担保することができ るようになる。 その結果、 各種のデータ記述形式に対応する外部データベースへ のアクセスを容易に行うことができるようになる。 すなわち、 統一した特定の構 造化記述言語の形式 (例えば、 BSMLや B i oML等) で内部のデータベース を管理することが可能になるため、 データベースの利用効率などを著しく向上さ せることができるようになる。
また、 スキーマに新たなリソース (例えば、 XMLの要素など) が追加された 場合であっても、 容易に il¾卩された形式に変換することができるようになる。 また、 各分析ツールにより随時項目追加が発生し、 その追加項目を後段の分析 ツールの処理で使用するような場合であっても、 分析ツールの仕様に手を加える ことなく、 使用する各データの拡張性を容易に担保することができるようになる。 また、 共有部分のデータベースの一括形式変換を行うことができるようになる。 つぎの発明にかかる構造化データ処理装置は、 上記の構造化データ処理装置に おいて、 上記構造ィヒ記述言語は、 XML、 SGML, B i oML、 B SML、 A SN. 1、 GAME、 若しくは、 これらのいずれかを拡張した構造化記述言語、 または、 これらと同等の記述能力を持つ構造化記述言語であることを特徴とする。 これは構造化記述言語の一例を一層具体的に示すものである。 この装置によれ ば、 構造化記述言語は、 XML、 SGML, B i oML、 B SML、 ASN. 1、 GAME, 若しくは、 これらのいずれかを拡張した構造化記述言語、 または、 こ れらと同等の記述能力を持つ構造ィ匕記述言語であるので、 これらのバイオインフ ォマテイクス分野において一般的に用いられる構造化記述言語により記述された 構造ィ匕データを効率的に変換することができるようになる。
つぎの発明にかかる構造化データ処理装置は、 上記の構造ィヒデータ処理装置に おいて、 上記スキーマデータは、 DTD、 XMLスキーマ、 RELAX、 若しく は、 これらのいずれかを拡張したスキーマ言語、 または、 これらと同等の記述能 力を持つスキーマ言語により記述されたデータであることを特徴とする。
これはスキーマデータの一例を一層具体的に示すものである。 この装置によれ ば、 スキーマデータは、 D T D、 XMLスキーマ、 R E L AX、 若しくは、 これ らのいずれかを拡張したスキーマ言語、 または、 これらと同等の記述能力を持つ スキーマ言語により記述されたデータであるので、 これらのパイォインフォマテ イクス分野において一般的に用いられるスキーマ言語により記述されたスキーマ データを効率的に変換することができるようになる。
つぎの発明にかかる構造ィ匕データ処理装置は、 上記の構造化データ処理装置に おいて、 上記スキーマ形式変換指示情報および上記スキーマリソース定義情報は、 X S L、 若しくは、 これを拡張した言語、 または、 これらと同等の記述能力を持 つ木構造変換言語により記述されたデータであることを特徴とする。
これはスキーマ形式変換指示情報およびスキーマリソース定義情報の一例を一 層具体的に示すものである。 この装置によれば、 スキーマ形式変換指示情報およ ぴスキーマリソース定義情報は、 X S L、 若しくは、 これを拡張した言語、 また は、 これらと同等の記述能力を持つ木構造変換言語により記述されたデ一タであ るので、 これらのバイオインフォマティクス分野において一般的に用いられるス キーマ変換記述言語により記述されたスキーマ形式変換指示情報およびスキーマ リソース定義情報に基づいて、 構造ィヒデータおよびスキーマデータを効率的に変 換することができるようになる。
つぎの発明にかかる構造化データ処理装置は、 上記の構造化データ処理装置に おいて、 上記構造化データは、 塩基配列および/またはアミノ酸配列を含む配列 情報、 文献情報のうち少なくとも一つに関する要素を含むことを特徴とする。 これはスキーマ形式変換指示情報およびスキーマリソース定義情報の一例を一 層具体的に示すものである。 この装置によれば、 構造化データは、 塩基配列およ び Zまたはアミノ酸配列を含む配列情報、 文献情報のうち少なくとも一つに関す る要素を含むので、 G e n B a n kなどに登録された配列情報や、 P u b M e d などに登録された文献情報を取得して形式変換することができるようになる。 つぎの発明にかかる構造化データ処理方法は、 構造化記述言語で記述された構 造化データと、 当該構造ィヒデータの構造を定義したスキーマデータとを取得する 構造化データ取得ステップと、 上記構造ィ匕データ取得ステップにて取得した上記 構造化データおよび上記スキーマデータを、 スキーマ形式変換指示情報に基づい て変換する形式変換ステップと、 上記形式変換ステップにて変換された変換後の 構造化データおよびスキーマデータをデータベースに登録する構造化データ登録 ステップと、 上記構造ィヒデータ登録ステップにて登録された上記データベースに アクセスしてデータ処理を行うツールプログラムと、 当該ツールプログラムに入 力される上記構造ィ匕データのスキーマのリソースを定義するスキーマリソース定 義情報とを対応させて登録する分析ツール登録ステップと、 上記ツールプロダラ ムが起動された場合に、 起動された当該ツールプログラムに.対 する上記スキー マリソース定義情報に従って、 上記データベースに登録された構造ィ匕データおよ ぴスキーマデータを動的に変換して当該ッールプログラムに入力する分析ッール 起動ステップとを含むことを特徴とする。
この方法によれば、 構造ィ匕記述言語で記述された構造ィ匕データと、 当該構造化 データの構造を定義したスキーマデータとを取得し、 取得した構造化データおよ ぴスキーマデータを、 スキーマ形式変換指示情報に基づいて変換し、 変換された 変換後の構造化データおよびスキーマデータをデータベースに登録し、 登録され たデータベースにアクセスしてデータ処理を行うッールプログラムと、 当該ツー ルプログラムに入力される構造化データのスキーマのリソースを定義するスキー マリソース定義情報とを対応させて登録し、 ツールプログラムが起動された場合 に、 起動された当該ツールプログラムに対応するスキーマリソース定義情報に従 つて、 データベースに登録された構造化デ"タおよびスキーマデータを動的に変 換して当該ツールプログラムに入力するので、 異なる構造化言語やスキーマ言語 で記述された取得データを予めまたは必要に応じて定めた形式に変換することが できるようになる。
また、 各種の外部データベースから取得したデータ間の整合を容易にとること ができるようになり、 データ記述形式に関する高い拡張性を担保することができ るようになる。 その結果、 各種のデータ記述形式に対応する外部データベースへ のアクセスを容易に行うことができるようになる。 すなわち、 統一した特定の構 造化記述言語の形式 (例えば、 BSMLや B i oML等) で内部のデータベース を管理することが可能になるため、 データベースの利用効率などを著しく向上さ せることができるようになる。
また、 スキーマに新たなリソース (例えば、 XMLの要素など) が追加された 場合であっても、 容易に追加された形式に変換することができるようになる。 また、 各分析ツールにより随時項目追加が発生し、 その追加項目を後段の分析 ツールの処理で使用するような場合であっても、 分析ツールの仕様に手を加える ことなく、 使用する各データの拡張性を容易に担保することができるようになる。 また、 共有部分のデータベースの一括形式変換を行うことができるようになる。 つぎの発明にかかる構造化データ処理方法は、 上記の構造化データ処理方法に おいて、 上記構造化記述言語は、 XML、 SGML, B i oML、 BSML、 A SN. 1、 GAME, 若しくは、 これらのいずれかを拡張した構造ィヒ記述言語、 または、 これらと同等の記述能力を持つ構造化記述言語であることを特徴とする。 これは構造化記述言語の一例を一層具体的に示すものである。 この方法によれ ば、 構造化記述言語は、 XML、 SGML, B i oML、 BSML、 ASN. 1、 GAME, 若しくは、 これらのいずれかを拡張した構造化記述言語、 または、 こ れらと同等の記述能力を持つ構造化記述言語であるので、 これらのバイオインフ ォマテイクス分野において一般的に用いられる構造化記述言語により記述された 構造ィ匕データを効率的に変換することができるようになる。
つぎの発明にかかる構造ィヒデータ処理方法は、 上記の構造化データ処理方法に おいて、 上記スキーマデータは、 DTD、 XMLスキーマ、 RELAX、 若しく は、 これらのいずれかを拡張したスキーマ言語、 または、 これらと同等の記述能 力を持つスキーマ言語により記述されたデ一タであることを特徴とする。
これはスキーマデータの一例を一層具体的に示すものである。 この方法によれ ば、 スキーマデータは、 DTD、 XMLスキーマ、 RELAX、 若しくは、 これ らのいずれかを拡張したスキーマ言語、 または、 これらと同等の記述能力を持つ スキーマ言語により記述されたデータであるので、 これらのバイオインフォマテ ィクス分野にぉレ、て一般的に用いられるスキーマ言語により記述されたスキーマ データを効率的に変換することができるようになる。
つぎの発明にかかる構造化データ処理方法は、 上記の構造化データ処理方法に おいて、 上記スキーマ形式変換指示情報および上記スキーマリソース定義情報は、 X S L、 若しくは、 これを拡張した言語、 または、 これらと同等の記述能力を持 つ木構造変換言語により記述されたデータであることを特徴とする。
これはスキーマ形式変換指示情報およびスキーマリソース定義情報の一例を一 層具体的に示すものである。 この方法によれば、 スキーマ形式変換指示情報およ ぴスキーマリソース定義情報は、 X S L、 若しくは、 これを拡張した言語、 また は、 これらと同等の記述能力を持つ木構造変換言語により記述されたデータであ るので、 これらのバイオインフォマティクス分野において一般的に用いられるス キーマ変換記述言語により記述されたスキーマ形式変換指示情報およびスキーマ リソース定義情報に基づいて、 構造ィ匕データおよびスキーマデータを効率的に変 換することができるようになる。
つぎの発明にかかる構造化データ処理方法は、 上記の構造化データ処理方法に おいて、 上記構造ィ匕データは、 塩基配列および/またはアミノ酸配列を含む配列 情報、 文献情報のうち少なくとも一つに関する要素を含むことを特徴とする。 これはスキーマ形式変換指示情報およびスキーマリソース定義情報の一例を一 層具体的に示すものである。 この方法によれば、 構造化データは、 塩基配列およ び/またはアミノ酸配列を含む配列情報、 文献情報のうち少なくとも一つに関す る要素を含むので、 G e n B a n kなどに登録された配列情報や、 P u b M e d などに登録された文献情報を取得して形式変換することができるようになる。 つぎの発明にかかるプログラムは、 構造化記述言語で記述された構造ィ匕データ と、 当該構造化データの構造を定義したスキーマデータとを取得する構造化デー タ取得ステップと、 上記構造化データ取得ステップにて取得した上記構造化デー タおよび上記スキーマデータを、 スキーマ形式変換指示情報に基づいて変換する 形式変換ステツプと、 上記形式変換ステップにて変換された変換後の構造化デー タおよびスキーマデータをデータベースに登録する構造化データ登録ステツプと、 上記構造化データ登録ステップにて登録された上記データベースにアクセスして データ処理を行うッールプログラムと、 当該ツールプログラムに入力される上記 構造化データのスキーマのリソースを定義するスキーマリソース定義情報とを対 応させて登録する分析ツール登録ステップと、 上記ツールプログラムが起動され た場合に、 起動された当該ツールプログラムに対応する上記スキーマリソース定 義情報に従つて、 上記データベースに登録された構造化データおよびスキーマデ ータを動的に変換して当該ツールプログラムに入力する分析ツール起動ステップ とを含む構造ィ匕データ処理方法をコンピュータに実行させることを特徴とする。 このプログラムによれば、 構造化記述言語で記述された構造化データと、 当該 構造化データの構造を定義したスキーマデータとを取得し、 取得した構造ィ匕デ一 タおよびスキーマデータを、 スキーマ形式変換指示情報に基づいて変換し、 変換 された変換後の構造化データおよぴスキーマデータをデータベースに登録し、 登 録されたデータベースにアクセスしてデータ処理を行うツールプログラムと、 当 該ツールプログラムに入力される構造化データのスキーマのリソースを定義する スキーマリソース定義情報とを対応させて登録し、 ツールプログラムが起動され た場合に、 起動された当該ツールプログラムに対応するスキーマリソース定義情 報に従って、 データベースに登録された構造ィヒデ一タおよびスキーマデータを動 的に変換して当該ツールプログラムに入力するので、 異なる構造化言語やスキー マ言語で記述された取得データを予めまたは必要に応じて定めた形式に変換する ことができるようになる。
また、 各種の外部データベースから取得したデータ間の整合を容易にとること ができるようになり、 データ記述形式に関する高い拡張性を担保することができ るようになる。 その結果、 各種のデータ記述形式に対応する外部データベースへ のアクセスを容易に行うことができるようになる。 すなわち、 統一した特定の構 造化記述言語の形式 (例えば、 B SMLや B 1 o M L等) で内部のデータベース を管理することが可能になるため、 データベースの利用効率などを著しく向上さ せることができるようになる。
また、 スキーマに新たなリソース (例えば、 XMLの要素など) が追カ卩された 場合であっても、 容易に追加された形式に変換することができるようになる。 また、 各分析ツールにより随時項目追加が発生し、 その追加項目を後段の分析 ツールの処理で使用するような場合であっても、 分析ツールの仕様に手を加える ことなく、 使用する各データの拡張性を容易に担保することができるようになる。 また、 共有部分のデータベースの一括形式変換を行うことができるようになる。 つぎの発明にかかるプログラムは、 上記のプログラムにおいて、 上記構造化記 述言語は、 XML、 S GML , B i o ML、 B SML、 A S N. 1、 GAME , 若しくは、 これらのいずれかを拡張した構造化記述言語、 または、 これらと同等 の記述能力を持つ構造化記述言語であることを特数とする。
これは構造ィヒ記述言語の一例を一層具体的に示すものである。 このプログラム によれば、 構造化記述言語は、 XML、 S GM L , B i o ML、 B SML、 A S N. 1、 GAME , 若しくは、 これらのいずれかを拡張した構造ィ匕記述言語、 ま たは、 これらと同等の記述能力を持つ構造ィヒ記述言語であるので、 これらのバイ • ォインフォマテイクス分野において一般的に用いられる構造ィヒ記述言語により記 述された構造化データを効率的に変換することができるようになる。
つぎの発明にかかるプログラムは、 上記のプログラムにおいて、 上記スキーマ データは、 D T D、 XMLスキーマ、 R E L AX、 若しくは、 これらのいずれか を拡張したスキーマ言語、 または、 これらと同等の記述能力を持つスキーマ言語 により記述されたデータであることを特徴とする。
これはスキーマデータの一例を一層具体的に示すものである。 このプログラム によれば、 スキーマデータは、 D TD、 XMLスキーマ、 R E LAX、 若しくは、 これらのいずれかを拡張したスキーマ言語、 または、 これらと同等の記述能力を 持つスキーマ言語により記述されたデータであるので、 これらのバイオインフォ マテイクス分野において一般的に用いられるスキーマ言語により記述されたスキ 一マデータを効率的に変換することができるようになる。
つぎの発明にかかるプログラムは、 上記のプログラムにおいて、 上記スキーマ 形式変換指示情報おょぴ上記スキーマリソース定義情報は、 X S L、 若しくは、 これを拡張した言語、 または、 これらと同等の記述能力を持つ木構造変換言語に より記述されたデータであることを特徴とする。
これはスキーマ形式変換指示情報おょぴスキーマリソース定義情報の一例を一 層具体的に示すものである。 このプログラムによれば、 スキーマ形式変換指示情 報およびスキーマリソース定義情報は、 X S L、 若しくは、 これを拡張した言語、 または、 これらと同等の記述能力を持つ木構造変換言語により記述されたデータ であるので、 これらのバイオインフォマティクス分野において一般的に用いられ るスキーマ変換記述言語により記述されたスキーマ形式変換指示情報およぴスキ 一マリソース定義情報に基づいて、 構造化データおょぴスキーマデータを効率的 に変換することができるようになる。
つぎの発明にかかるプログラムは、 上記のプログラムにおいて、 上記構造化デ ータは、 塩基配列および Zまたはアミノ酸配列を含む配列情報、 文献情報のうち 少なくとも一つに関する要素を含むことを特徴とする。
これはスキーマ形式変換指示情報およびスキーマリソース定義情報の一例を一 層具体的に示すものである。 このプログラムによれば、 構造化データは、 塩基配 列および Zまたはアミノ酸配列を含む配列情報、 文献情報のうち少なくとも一つ に関する要素を含むので、 G e n B a n kなどに登録された配列情報や、 P u b M e dなどに登録された文献情報を取得して形式変換することができるようにな る。
つぎの発明にかかる記録媒体は、 上記のプログラムを記録したことを特敷とす る。
この記録媒体によれば、 当該記録媒体に記録されたプログラムをコンピュータ に読み取らせて実行することによって、 上記のプログラムをコンピュータを利用 して実現することができ、 これら各方法と同様の効果を得ることができる。 図面の簡単な説明
第 1図は、 遺伝子の塩基配列または蛋白質のアミノ酸配列の配列情報データべ ースの基本的なデータ構造の例を示す図であり、 第 2図は、 本発明が適用される 本システムの構成の一例を示すブロック図であり、 第 3図は、 本発明の基本原理 を示す原理構成図であり、 第 4図は、 本発明による取得データの形式変換の一例 を説明する概念図であり、 第 5図は、 分析ツールの入力データの形式変換の処理 を示すフロー図であり、 第 6図は、 X S Lにより記述された配列情報のスキーマ 形式変換指示情報の一例を示す図であり、 第 7図は、 第 6図に示すスキーマ形式 変換指示情報により形式変換された後の構造化データ (XML文書) の一例を示 す図であり、 第 8図は、 第 6図に示すスキーマ形式変換指示情報により形式変換 された後のスキーマデータ (D T D) の一例を示す図であり、 第 9図は、 X S L により記述された文献情報のスキーマ形式変換指示情報の一例を示す図であり、 第 1 0図は、 第 9図に示すスキーマ形式変換指示情報により形式変換された後の 構造化データ (XML文書) の一例を示す図であり、 第 1 1図は、 第 9図に示す スキーマ形式変換指示情報により形式変換された後のスキーマデータ (D T D) の一例を示す図であり、 第 1 2図は、 遺伝子発現制御解析処理の処理の概要を示 すフロー図であり、 第 1 3図は、 転写単位の予測の概要を示す概念図であり、 第 1 4図は、 制御部位の予測の概要を示す概念図であり、 第 1 5図は、 制御遺伝子 の予測の概要を示す概念図であり、 第 1 6図は、 B I分野で一般的に用いられる B S MLにより記述されたデータと、 同様に一般的に用いられる B i o MLによ り記述されたデータとの構造的な相違を説明するための図であり、 第 1 7図は、 本発明が適用される構造化データ処理装置の概念を説明するための図であり、 第 1 8図は、 本発明が適用される構造化データ処理装置の基本構成を示す図であり、 第 1 9図は、 文書格納サービスのメインルーチンを示すフロー図であり、 第 2 0 '図は、 文書格納サービスのサブルーチン 「形式変換処理」 を示すフロー図であり、 第 2 1図は、 文書格納サービスのサブルーチン 「文書登録処理」 を示すフロー図 であり、 第 2 2図は、 解析処理.ツール登録サービスの処理を説明するためのフロ 一図であり、 第 2 3図は、 角早析処理サービスの処理を説明するためのフロー図で あり、 第 2 4図は、 第 1 3図で示した転写単位データベースのスキーマデータに ついて D T Dを用いて記述した場合を一例に示す図であり、 第 2 5図は、 第 1 3 図で示した転写単位データベースの構造ィ匕データについて XM L文書を用いて記 述した場合を一例に示す図であり、 第 2 6図は、 第 1 4図で示した制御部位デー タベースのスキーマデータについて D T Dを用いて記述した場合を一例に示す図 であり、 第 2 7図は、 第 1 4図で示した制御部位データベースの構造化データに ついて XML文書を用いて記述した場合を一例に示す図であり、 第 2 8図は、 第 1 5図で示した制御ネットワークデータベースのスキーマデータについて D T D を用いて記述した場合を一例に示す図であり、 第 2 9図は、 第 1 5図で示した制 御ネットワークデータベースの構造化データについて XML文書を用いて記述し た場合を一例に示す図であり、 第 3 0図は、 スキーマリソース定義情報の概念に ついて説明する図である。 発明を実施するための最良の形態
以下に、 本発明にかかる構造ィヒデータ処理装置、 構造ィヒデータ処理方法、 プロ グラム、 および、 記録媒体の実施の形態を図面に基づいて詳細に説明する。 なお、 この実施の形態によりこの発明が限定されるものではない。
特に、 以下の実施の形態においては、 本発明を、 XM Lベースの構造化記述言 語およびスキーマ言語に適用した例について説明するが、 この場合に限られず、 他のいずれの構造ィ匕記述言語およぴスキーマ言語に適用可能なシステム等につい て、 同様に適用することができる。
[本発明の概要〗
以下、 本発明の概要について説明し、 その後、 本発明の構成および処理等につ いて詳細に説明する。 第 3図は本発明の基本原理を示す原理構成図である。
本発明は、 概略的に、 以下の基本的特徴を有する。 すなわち、 本発明は、 まず、 構造化記述言語で記述された構造化データと、 当該構造化データの構造を定義し たスキーマデータとを、 インターネット等を介してタト部のデータベース等から取 得する (ステップ SA— 1) 。
ここで、 外部のデータベースは、 例えば、 Ge nB a nk、 EMB L (Eu r o p e a n Mo l e c u l a r B i o l o gy L a b o r a t o r y) 、 DDB J (DNA D a t a B a nk o f J a a n) 等の配列データべ ースや、 GDB (Ge nome Da t a B a s e) % OM I M (o n 1 i n e me n d e l i a n i nh e r i t a n c e i n ma n) 等のヒ卜ゲ ノム地図データに関するデータベースや、 P I R (P r o t e i n I d e n t i f i c a t i o n Re s ou r c e;) 、 SWI SS— PROT、 PRF等の アミノ酸配列データベースや、 PROS I TE、 B LOCKS等の蛋白質機能デ ータベースや、 PDB (P r o t e i n Da t a B a nk) 等の蛋白質立体 構造データベースや、 En t r e z等の統合型データベースや、 Pu bMe d等 の文献データベース等が公知である。 これらの各データベースは、 それぞれ予め 定めた構造化記述言語により構造化データを記述し、 また、 同様に予め定めたス キーマ言語により記述された、 構造ィヒデータに対応するスキーマデータを収集し ている。
ここで、 外部のデータベースなどから取得する構造化データを記述する構造ィ匕 記述言語は、 XML、 SGML, B i oML、 B SML、 ASN. 1、 GAME, 若しくは、 これらのいずれかを拡張した構造ィ匕記述言語、 または、 これらと同等 の記述能力を持つ構造ィ匕記述言語であってもよく、 また、 スキーマデータは、 D TD、 XMLスキーマ、 RELAX、 若しくは、 これらのいずれかを拡張したス キーマ言語、 または、 これらと同等の記述能力を持つスキーマ言語により記述さ れたデータであってもよい。
次に、 本発明は、 取得した構造ィヒデータおよびスキーマデータを、 スキーマ形 式変換指示情報に基づいて変換する (ステップ SA— 2) 。 ここで、 第 4図は、 本発明による取得データの形式変換の一例を説明する概念図である。 ' 第 4図に示すように、 構造ィヒ記述言語で記述された構造ィ匕データと、 スキーマ 言語で記述されたスキーマデータとをそれぞれ外部のデータベースなどから取得 すると、 予め定めたスキーマ形式変換指示情報に従って、 取得データを変換する。 ここで、 スキーマ形式変換指示情報は、 X S L、 若しくは、 これを拡張した言 語、 または、 これらと同等の記述能力を持つ木構造変換言語により記述されたデ ータであってもよく、 この場合、 変換処理は、 X a 1 a n (A P A C HE XM L P R O J E C T) や X T ( J a m e s C 1 a r k ) 等の既知の X S L Tプ 口セッサを用いて実行してもよい。
ここで、 第 6図は、 X S Lにより記述された配列情報のスキーマ形式変換指示 情報の一例を示す図であり、 第 7図は、 第 6図に示すスキーマ形式変換指示情報 により形式変換された後の構造化データ (XML文書) の一例を示す図であり、 また、 第 8図は、 第 6図に示すスキーマ形式変換指示情報により形式変換された 後のスキーマデータ (D T D) の一例を示す図である。 第 6図に示す X S L文書 により、 取得データのスキーマデータは第 8図に示す D TDの形式に変換され、 構造化データは第 7図に示す XM L文書に変換される。
第 8図に示す変換後の D T Dの例では、 構造化データ内で用いられる要素 ( ELEMENT)は、 Sequence 、 Title 、 Nucleotide, Peptide, Reference 、 RefTitle、 Idであり、 それぞれの要素の型を定義している。 各要素のうち 「Sequence」 は、 塩基配列データを意味し、 配列に関する自然言語による説明を意味する 「Title 」 と、 塩基配列を意味する 「Nucleotide」 と、 塩基配列を変換したアミノ酸配列 を意味する 「Peptide」 と、 参考文献の題名を意味する 「RefTitle」 および参考 文献の参照番号を意味する 「Id」 を子の要素として備え、 参考文献を意味する 「 Reference] と、 を子の要素として備える。
また、 第 9図は、 X S Lにより記述された文献情報のスキーマ形式変換指示情 報の一例を示す図であり、 第 1 0図は、 第 9図に示すスキーマ形式変換指示情報 により形式変換された後の構造化データ (XML文書) の一例を示す図であり、 また、 第 1 1図は、 第 9図に示すスキーマ形式変換指示情報により形式変換され た後のスキーマデータ (D T D) の一例を示す図である。
第 1 1図に示す変換後の D T Dの例では、 構造ィ匕データ内で用いられる要素 ( ELEMENT) は、 Literature, Title, Abstract, Link, Idであり、 それぞれの要 素の型を定義している。 各要素のうち ("LiteratureJ は、 文献データ全体を意味 し、 文献の題名を意味する 「Title」 と、 文献の概要を意味する 「Abstract」 と、 関連する配列データへの参照番号集合を意味し、 個々の参照番号を意味する 「Id 」 を子の要素として備える 「LinkJ と、 を子の要素として備える。
これにより、 異なる構造化言語やスキーマ言語で記述された取得データを予め または必要に応じて定めた形式に変換することができるようになるので、 各種の 外部データベースから取得したデータ間の整合を容易にとることができるように なりデータ記述形式に関する高い拡張性を担保することができるようになる。 そ の結果、 各種のデータ記述形式に対応する外部データベースへのアクセスを容易 に行うことができるようになる。 すなわち、 統一した特定の構造化記述言語の形 式 (例えば、 B SMLや B i o ML等) で内部のデータベースを管理することが 可能になるため、 データベースの利用効率などを著しく向上させることができる ようになる。
また、 スキーマに新たなリソース (例えば、 XMLの要素など) が追加された 場合であっても、 容易に追加された形式に変換することができるようになる。 また、 本発明は、 外部のデータベースからデータを取得する場合に限られず、 同様に自己が管理する内部データベースからデータを取得することにより、 内部 データの一括形式変換を行うことができるようになる。
再び第 3図に戻り、 本発明は、 次に、 変換された変換後の構造化データおよび スキーマデータをデータベースに登録する (ステップ S A— 3 ) 。 .
ここで、 既知の XML格納システム (例えば、 e X c e l o n、 T a m i n o 等の D OM木格納のもの、 XMLネイティブ格納方式のもの、 RD Bラッパ一形 式のもの、 または、 同等機能の処理系をもつもの等) を用いてもよい。
次に、 本発明は、 ステップ S A— 3において登録された各種のデータベースに アクセスしてデータ処理を行うツールプログラム (分析ツール) と、 当該ツーノレ プログラムに入力される構造ィ匕データのスキーマのリソースを定義するスキーマ リソース定義情報とを対応させて登録する (ステップ SA— 4) 。
ここで、 スキーマリソース定義情報の概念について第 30図を参照して説明す る。 スキーマリソース定義情報は、 例えば、 各種のデータベースに登録された構 造化データのスキーマデータと、 各種のツールの入力書式とのマッピングを定義 することにより、 登録された各データソースと、 ツールの利用形態の各リソース との対応を定義してもよい。 また、 スキーマリソース定義情報は、 XSL、 若し くは、 これを拡張した言語、 または、 これらと同等の記述能力を持つ木構造変換 言語により記述されたデータであってもよい。
次に、 本発明は、 ツールプログラム (分析ツール) が起動された場合に、 起動 された当該ツールプログラムに対応するスキーマリソース定義情報に従って、 デ ータベースに登録された構造化データおよぴスキーマデータを動的に変換して ( ステップ S A— 6) 、 該ツールプログラムに入力する (ステップ SA— 7) 。 ここで、 分析ツールの入力データの形式変換の処理フローを第 5図に示す。 ま ず、 ユーザが登録された分析ツール A を起動すると (ステップ SB— 1) 、 分 析ツール格納ファイルから分析ツール Aを読み出して (ロード) 、 CPUが分析 ツール Aを実行可能な状態にする (ステップ SB— 2) 。
そして、 本発明は、 スキーマリソース定義ファイルから分析ツール Aに対応す るスキーマリソース定義情報 A (例えば、 XSL文書など) を取得する (ステツ プ SB— 3) 。
そして、 本発明は、 取得したスキーマリソース定義情報 Aにより、 各データべ ースに登録された各構造化データおよぴ各スキーマデータの形式を変換する (ス テツプ SB— 4) 。
そして、 変換後の各構造ィ匕データおよび各スキーマデータを分析ツール Aの入 力データとする (ステップ SB— 5) 。 これにて、 変換処理を終了する。
ここで、 ステップ S A— 6の変換処理は、 Xa l a n (APACHE XML PROJECT) や XT (J ame s C l a r k) 等の既知の XS LTプロセ ッサを用レ、て実行してもよい。
再び第 3図に戻り、 次に、 本発明は、 分析ツールの処理結果を各種のデータべ ースに登録し、 出力装置に処理結果を出力する (ステップ SA— 8) 。
ここで、 3種類の分析ツールを起動して遺伝子発現制御解析を実行し、 これら の処理結果を各種のデータベースに登録する場合の処理概要を第 12図〜第 15 図および第 240〜第 29図等を参照して説明する。
第 12図は、 遺伝子発現制御解析処理の処理の概要を示すフロー図である。 ■ まず、 本発明は、 第 13図に示すように、 転写単位予測ツールを起動して転写 単位を予測する (ステップ SC— 1) 。 ここで、 第 13図は、 転写単位の予測の 概要を示す概念図である。
第 13図に示すように、 まず、 各種の外部データベースにアクセスして種々の データを取得し、 これらの上述の方法により必要に応じて形式変換を行って共有 部分のデータベースを予め作成しておく。
そして、 転写単位予測ツールは、 対応するスキーマリソース定義情報に基づい て共有部分のデータベースにアクセスして適宜形式変換が行われたデータを入力 データとして処理を行い、 処理結果を転写単位データベースに登録する。 転写単 位予測ツールのスキーマリソース定義情報は、 遺伝子名データベースから各遺伝 子について、 (遺伝子名、 開始位置、 終了位置) の形式で転写単位予測ツールの 入力データにマッピングしている。 すなわち、 遺伝子名データベースに登録され た各遺伝子のデータは、 転写単位予測ツールのスキーマリソース定義情報により (遺伝子名、 開始位置、 終了位置) の形式のデータに変換されて、 転写単位予測 ツールの入力データとなる。
ここで、 第 13図で示した転写単位データベースに格納されるスキーマデータ および構造ィヒデータの一例を第 24図おょぴ第 25図を参照して説明する。 第 24図は、 第 13図で示した転写単位データベースのスキーマデータについ て DTDを用いて記述した場合を一例に示す図であり、 第 25図は、 第 1 3図で 示した転写単位データベースの構造化データについて XML文書を用いて記述し た場合を一例に示す図である。 第 2 4図に示すように、 第 1 3図で示した転写単 位データベースの文書型が定義され、 第 2 5図に示すように構造化データが記述 される。
再び、 第 1 2図に戻り、 次に、 本発明は、 第 1 4図に示すように制御部位予測 ツールを起動して制御部位を予測する (ステップ S C—2 ) 。 ここで、 第 1 4図 は、 制御部位の予測の概要を示す概念図である。
起動された制御部位予測ツールは、 対応するスキーマリソース定義情報に基づ V、て共有部分のデータベースに Tクセスして適宜形式変換が行われたデータや、 B L A S T等の他の配列統計処理ツールの処理結果データや、 転写単位予測ツー ルの処理結果を格納した転写単位データベースに登録されたデータなどを入力デ ータとして処理を行い、 処理結果を制御部位データベースに登録する。 制御部位 予測ツールのスキーマリソース定義情報は、 転写単位データベース、 遺伝子名デ ータベース、 全ゲノムデータベースから、 各転写単位について、 (転写単位識別 子、 開始位置、 終了位置、 任意の長さのアミノ酸配列) の形式で制御部位予測ッ ールの入力データとマッピングを行い、 また、 配列統計処理ツールの処理結果か ら任意の長さのァミノ酸部分配列の全ての出現する組合せについて、 (アミノ酸 部分配列、 ゲノム中の出願回数) の形式で制御部位予測ツールの入力データとマ ッビングを行う。 また、 B L A S Tなどの配列統計処理ツールのスキーマリソー ス定義情報は、 全ゲノムデータベースから配列全体を取り出すように配列統計処 理ツールの入力データとマツピングを行う。
ここで、 第 1 4図で示した制御部位データベースに格納されるスキーマデータ および構造ィ匕データの一例を第 2 6図および第 2 7図を参照して説明する。 第 2 6図は、 第 1 4図で示した制御部位データベースのスキーマデータについ て D T Dを用いて記述した場合を一例に示す図であり、 第 2 7図は、 第 1 4図で 示した制御部位データベースの構造化データについて XML文書を用いて記述し た場合を一例に示す図である。 第 2 6図に示すように、 第 1 4図で示した制御部 位データベースの文書型が定義され、 第 2 7図に示すように構造化データが記述 される。
再び、 第 1 2図に戻り、 次に本発明は、 第 1 5図に示すように制御遺伝子予測 ツールを起動して制御遺伝子を予測する (ステップ S C— 3 ) 。 ここで、 第 1 5 図は、 制御遺伝子の予測の概要を示す概念図である。
起動された制御遺伝子予測ツールは、 対応するスキーマリソース定義情報に基 づレ、て共有部分のデータベースにアクセスして適宜形式変換が行われたデータや、 B L A S T等の他の配列統計処理ツールの処理結果データや、 転写単位予測ツー ルの処理結果を格納した転写単位データベースに登録されたデ一タや、 制御部位 予測ッールの処理結果を格納した制御部位データベースに登録されたデ一タなど を入力データとして処理を行い、 処理結果を制御ネットワークデータベースに登 録する。 制御遺伝子予測ツールのスキーマリソース定義情報は、 配列データべ一 スから、 各 D N A結合蛋白質の遺伝子について、 (遺伝子名、 アミノ酸配列) の 形式で制御遺伝子予測ツールの入力データとマツビングを行レ、、 また、 転写単位 データベース、 全ゲノムデータベースから各転写単位について、 (転写単位識別 子、 制御部位 (開始位置、 終了位置、 アミノ酸配列) のリスト) の形式で制御遺 伝子予測ツールの入力データとマツビングを行う。
ここで、 第 1 5図で示した制御ネットワークデータベースに格納されるスキー マデータおよび構造ィヒデータの一例を第 2 8図および第 2 9図を参照して説明す る。
第 2 8図は、 第 1 5図で示した制御ネットワークデータベースのスキーマデー タについて D T Dを用いて記述した場合を一例に示す図であり、 第 2 9図は、 第 1 5図で示した制御ネットワークデータベースの構造化データについて XM L文 書を用いて記述した場合を一例に示す図である。 第 2 8図に示すように、 第 1 5 図で示した制御ネットワークデータベースの文書型が定義され、 第 2 9図に示す ように構造化データが記述される。
これにて、 遺伝子発現制御解析処理を終了する。 このように、 各分析ツールにより随時項目追加が発生し、 その追加項目を後段 の分析ツールの処理で使用するような場合であっても、 分析ツールの仕様に手を 加えることなく、 使用する各データの拡張性を容易に担保することができるよう になる。 また、 共有部分のデータベースの一括形式変換を行うことができるよう になる。
[システム構成]
まず、 本システムの構成について説明する。 第 2図は、 本発明が適用される本 システムの構成の一例を示すプロック図であり、 該構成のうち本発明に関係する 部分のみを概念的に示している。 本システムは、 概略的に、 構造化データ処理装 置 1 0 0と、 配列情報等に関する外部データベースゃホモロジ一検索等の外部プ ログラム等を提供する外部システム 2 0 0とを、 ネットワーク 3 0 0を介して通 信可能に接続して構成されている。
第 2図においてネットワーク 3 0 0は、 構造化データ処理装置 1 0 0と外部シ ステム 2 0 0とを相互に接続する機能を有し、 例えば、 インターネット等である。 第 2図において外部システム 2 0 0は、 ネットワーク 3 0 0を介して、 構造ィ匕 データ処理装置 1 0 0と相互に接続され、 利用者に対して配列情報等に関する外 部デ、ータベースやホモ口ジー検索やモチーフ検索等の外部プロダラムを実行する ウェブサイトを提供する機能を有する。
ここで、 外部システム 2 0 0は、 WE Bサーバや A S Pサーバ等として構成し てもよく、 そのハードウェア構成は、 一般に市販されるワークステーション、 パ ーソナルコンピュータ等の情報処理装置およびその付属装置により構成してもよ レ、。 また、 外部システム 2 0 0の各機能は、 外部システム 2 0◦のハードウエア 構成中の C P U、 ディスク装置、 メモリ装置、 入力装置、 出力装置、 通信制御装 置等およぴそれらを制御するプログラム等により実現される。
第 2図において構造化データ処理装置 1 0 0は、 概略的に、 構造化データ処理 装置 1 0 0の全体を統括的に制御する C P U等の制御部 1 0 2、 通信回線等に接 続されるルータ等の通信装置 (図示せず) に接続される通信制御インターフエ一 ス部 1 0 4、 入力装置 1 1 2や出力装置 1 1 4に接続される入出力制御インター フェース部 1 0 8、 および、 各種のデータベースやテーブルなどを格納する記憶 部 1 0 6を備えて構成されており、 これら各部は任意の通信路を介して通信可能 に接続されている。 さらに、 この構造ィ匕データ処理装置 1 0 0は、 ルータ等の通 信装置および専用線等の有線または無線の通信回線を介して、 ネットワーク 3 0 0に通信可能に接続されている。
記憶部 1 0 6に格納される各種のデータベースやテーブル (構造化データ格納 データベース 6 a〜処理結果データベース 1 0 6 ί ) は、 固定ディスク装置 等のス トレージ手段であり、 各種処理に用いる各種のプログラムやテーブルゃフ アイルゃデ一タベースやゥェプぺージ用フアイル等を格納する。
これら記憶部 1 0 6の各構成要素のうち、 構造化データ格納データベース 1 0 6 aは、 構造化データを格納したデータベースである。
また、 スキーマデータ格納データベース 1 0 6 bは、 スキーマデータを格納す るデータベースである。
また、 スキーマ形式変換指示情報ファイル 1 0 6 cは、 スキーマ形式変換指示 情報等を格納するスキーマ形式変換指示情報格納手段である。
また、 分析ツール格納ファイル 1 0 6 dは、 分析ツールに関する情報等を格納 する分析ツール格納手段である。
また、 スキーマリソース定義ファイル 1 0 6 eは、 スキーマリソース定義情報 等を格納するスキーマリソース定義情報格納手段である。
また、 処理結果データベース 1 0 6 f は、 分析ツールの処理結果に関する情報 等を格納する処理結果格納手段である。
また、 第 2図において、 通信制御インターフェース部 1 0 4は、 構造化データ 処理装置 1 0 0とネットワーク 3 0 0 (またはルータ等の通信装置) との間にお ける通信制御を行う。 すなわち、 通信制御インターフェース部 1 0 4は、 他の端 末と通信回線を介してデータを通信する機能を有する。
また、 第 2図において、 入出力制御インターフェース部 1 0 8は、 入力装置 1 1 2や出力装置 1 14の制御を行う。 ここで、 出力装置 1 14としては モニタ (家庭用テレビを含む) の他、 スピーカを用いることができる (なお、 以下にお' いては出力装置 1 14をモニタとして記載する場合がある) 。 また、 入力装置 1 1 2としては、 キーボード、 マウス、 および、 マイク等を用いることができる。 また、 モニタも、 マウスと協働してポインティングデバイス機能を実現する。 また、 第 2図において、 制御部 102は、 OS (Op e r a t i n g S y s t ern) 等の制御プログラム、 各種の処理手順等を規定したプログラム、 および 所要データを格納するための內部メモリを有し、 これらのプログラム等により、 種々の処理を実行するための情報処理を行う。 制御部 1 02は、 機能概念的に、 構造化データ取得部 102 a, 形式変換部 1 02 b, 構造化データ登録部 1 02 c、 分析ツール登録部 1 02 d、 分析ツール起動部 1 02 e、 および、 処理結果 登録部 102 ίを備えて構成されている。
このうち、 構造化データ取得部 1 02 aは、 構造化記述言語で記述された構造 化データと': 当該構造化データの構造を定義したスキーマデータとを取得する構 造化データ取得手段である。
また、 形式変換部 102 bは、 構造ィ匕データ取得手段にて取得した上記構造ィ匕 データおよび上記スキーマデータを、 スキーマ形式変換指示情報に基づいて変換 する形式変換手段である。
また、 構造化データ登録部 1 02 cは、 形式変換手段にて変換された変換後の 構造化データおよぴスキーマデータをデータベースに登録する構造化データ登録 手段である。
また、 分析ツール登録部 1 02 dは、 構造ィ匕データ登録手段にて登録された上 記データベースにアクセスしてデータ処理を行うッールプログラムと、 当該ツー ルプログラムに入力される上記構造ィ匕データのスキーマのリソースを定義するス キーマリソース定義情報とを対応させて登録する分析ツール登録手段である。 また、 分析ツール起動部 1 02 eは、 ツールプログラムが起動された場合に、 起動された当該ッールプログラムに対応する上記スキーマリソース定義情報に従 つて、 上記データベースに登録された構造化データおよびスキーマデータを動的 に変換して当該ッールプログラムに入力する分析ッール起動手段である。
また、 処理結果登録部 1 0 2 f は、 分析ツールの処理結果をデータベースに登 録する処理結果登録手段である。
なお、 これら各部によって行なわれる処理の詳細については、 後述する。
[実施例]
次に、 このように構成された本実施の形態における本システムの処理の一例に ついて、 以下に第 1 7図〜第 2 3図等を参照して詳細に説明する。
第 1 7図は、 本発明が適用される構造化データ処理装置の概念を説明するため の図である。
本発明は、 第 1 7図に示すような各データベースを設ける。 本データベースは、 複数のサブデータベースから構成される。 第 1 7図中のサブデータベース 「酉己列 データベース」 には配列データを格納する。 第 1 7図では配列データベースはひ とつしか示されていないが、 複数あっても良い。
配列データベースの各レコードには、 少なくとも塩基またはァミノ酸配列デー タ本体が入る。 BSML 、 BioML、 GAME のように、 部分修飾記述や全体記述が含 まれても良い。
複数の配列データに関係するデータは、 配列データベースとは別にサブデータ ベース 「関係データベース」 に格納する。 第 1 7図中では関係データベース A乃 至 Dの 4種類の関係データベースが示されている。
関係データベースの各レコードには、 少なくとも 1つの参照情報が含まれる。 参照情報は、 システム内のサブデータベースまたは外部データベースのレコード 全体、 またはレコード内の特定部分を差し示している。 関係データベースの各レ コードには部分修飾記述や全体記述その他が含まれても良い。 第 1 7図中では関 係データベース 「D」 に配列データベースと関係データベース 「A」 乃至 「C」 への参照を含むレコードが存在することが、 「参照」 というラベルの付!/ヽた矢線 で示されている。 第 1 8図は、 本発明が適用される構造ィヒデータ処理装置の基本構成を示す図で ある。 本発明は、 第 1 8図に示すようなデータベースシステム (構造化データ処 理装置) を構成する。 このシステムは、 基本処理モジュール、 拡張処理モジユー ル、 記憶部から構成されている。
基本処理モジュールは、 ツール登録処理部 (概念的に第 2図における分析ツー ル登録部 1 0 2 dに対応する) 、 文書登録処理部 (概念的に第 2図における構造 化データ登録部 1 0 2 cに対応する) 、 形式変換処理部 (概念的に第 2図におけ る形式変換部 1 0 2 bに対応する) 、 サービス仲介処理部 (概念的に第 2図にお ける分析ツール起動部 1 0 2 eおよび処理結果登録部 1 0 2 f に対応する) 、 リ ンク処理部から構成されている。 拡張処理モジュールは、 いくつかのツール部 ( 第 1 8図中、 分析ツール A、 分析ツール B、 · · 'であり、 これらは、 概念的に 第 2図における分析ツール格納ファイル 1 0 6 dに対応する) から構成されてい る。 記憶部は構造格納部 (概念的に第 2図における構造化データ格納データべ一 ス 1 0 6 aに対応する) 、 スキーマ格納部 (概念的に第 2図におけるスキーマデ ータ格納データベース 1 0 6 bに対応する) 、 スキーマリソース定義部 (概念的 に第 2図におけるスキーマリソース定義ファイル 1 0 6 eに対応する) 、 結果フ アイル (概念的に第 2図における処理結果データベース 1 0 6 f に対応する) か らなる。
そして、 本システムは、 大きく 3つのサービスを提供する。 これらのサービス は、 第 1 8図におけるツール登録処理部による解析処理ツール登録サービス、 文 書登録処理部による文書格納サービス、 サービス仲介処理部による解析処理 (検 索処理などを含む) サービスからなっている。
解析処理ツール登録サービスでは、 ツール登録処理部が解析ツールとそれに対 になるリソース定義を読み込み、 解析ツールをツール部に、 リソース定義をスキ 一マリソース定義部にそれぞれ登録する。
文書格納サービスでは、 D TD XML— S c h e m aや R E L AXなどの文 書型を明記した構造ィ匕文書を読み込み、 必要に応じて形式変換処理を行ない、 構 造格納部に格納する。 次に、 その構造化文書の文書型 (複数あっても良い) が既 に登録されているかどうかスキーマ格納部に問!/、合わせる。 既に登録されている 場合は何もしないが、 登録されていない場合は文書型を取得しスキーマ格納部に 登録する。
角析処理サービスでは、 サービス仲介処理部がサービス要求を受け取り、 その 実行に必要な解析処理ツールを決定する。 その解析ツールと対になるリソース定 義をスキーマリソース定義部から取得する。 サービス仲介処理部は、 実行に必要 な文書データをリソース定義などに従ってリンク参照を解決しながら構造格納部 から文書集合を取得する。 また、 その文書集合の処理を解析処理ツールに依頼し、 結果を生成する。
ここで、 第 1 8図中の太い矢線は、 データの移動を意味する。 ただし、 構造格 納部から出る矢線については、 必ずしも実際のデータ移動を意味せず、 参照情報 (ポインタ) のみを移動させることを意味する場合もある。
すなわち、 本発明の一態様によれば、 本発明の構造ィ匕データ処理装置は、 遺伝 子の塩基配列または蛋白質のアミノ酸配列に関連した情報を管理する構造化デー タ処理装置であって、 上記塩基配列または上記アミノ酸配列に関する配列データ を格納する配列データ格納部と、 複数の上記配列データに関係する関係データを 格納する複数の関係データ格納部とを備え、 上記塩基配列または上記ァミノ酸配 列の全体に関する情報は、 上記配列データ格納部または上記関係データ格納部に 格納され、 上記関係データ格納部に格納された各関係データレコードは、 上記関 係データ格納部自身への参照構造、 または上記配列データ格納部を構成するデー タレコード全体または一部への参照構造を有することを特徴とする。
また、 本発明の構造化データ処理装置は、 基本処理部と、 拡張処理部と、 記憶 部とを備え、 上記基本処理部が、 解析ツールおよび上記解析ツールと対になるリ ソース定義を読み込み、 上記解析ツールおよび上記リソース定義を登録するツー ル登録部と、 文書型を明記した構造化文書を読み込み、 必要に応じて形式変換処 理を行ない、 上記記憶部に上記構造ィ匕文書を登録する文書登録部と、 サービスの 要求を受け取り、 上記サービスの実行に必要な解析処理ツールを決定するサービ ス仲介部と、 上記参照構造への参照を行なうリンク処理部とを備え、 上記拡張処 理部が、 上記構造化文書の解析処理を実行する複数種類の解析処理ツールを備え、 上記記憶部が、 上記文書登録部によって読み込んだ上記構造ィ匕文書を格納する構 造格納部と、 上記構造ィ匕文書のスキーマを格納するスキーマ格納部と、 上記ツー ル登録部によって登録されるリソース定義を格納するスキーマリソース定義部と を備え、 上記構造格納部が、 構造ィ匕文書の木構造を保ったまま格納することが望 ましい。
また、 本発明の構造ィヒデータ処理装置は、 外部データベースからデータを読み 込み、 上記配歹 ijデータ格納部または上記関係データ格納部に格納するためのデー タに変換する変換手段を備えることが望ましい。
また、 本発明の構造化データ処理装置は、 上記配列データ格納部または上記関 係データ格納部を検索し、 検索した結果を構造化文書で出力する検索手段を備え ることが望ましい。
また、 本発明の構造化データ処理装置は、 上記検索手段が、 BSML (B i o S e q u e n c e Ma r kup La n gu a g e) 开式の記述开式に変換す ることが望ましい。
また、 本発明の構造化データ処理装置は、 上記検索手段が、 B i oML (B I O o l yme r Ma r kup L a n gu a g e) 开$式の記述开$式に変換 することが望ましい。
以下、 本発明の実施例の処理概要を、 図面を参照しながら詳細に説明する。 構造化データ処理装置 (システム) は、 第 18図に示すように構成されている。 本実施の形態では、 特定目的を達成するための構成方法を具体的に示す。 ここで は、 塩基配列を入力と.して、 関連する塩基配列を検索するサービスを目的とする。 このとき関連配列は、 次のようにして探す。
まず、 塩基配列を含むレコードからリンクされている文献レコードに自然言語 的に近い文献レコードを求める。 この文献レコードに含まれる塩基配列が検索結 果となる。 このように文献データを用いて関連配列を検索する方法をここでは 「文献類似法」 と呼ぶ。 文献類似法では 2つの配列間に介在する文献 DBレコー ドの数 (上記説明では 2) を増減することでヒット件数を制御することができる。 上述したように、 本システムは、 3つのサービスを提供する。 本実施の形態で は、 コマンド、 ライブラリ、 TCP/ I Pサービス、 h t t pサービス (CG I ) など複数考えられるが、 ここの説明では簡便のためコマンドとする。
本システムが稼働状態にあるときには、 次のサービスコマンドを実行できる。
(1) 文書格納サービス
( 2 ) 解析処理ツール登録サービス
(3) 解析処理サービス
ただし、 サービス (2) は、 サービス (1) の格納条件に依存し、 サービス (3) は、 サービス (1) とサービス (2) の格納 '登録条件に依存する。 これ らの各条件の詳細は後述する。
(1) 文書格納サービス
文書格納サービスコマンド (1) は、 次のように実行する。 store <文書名〉 < スキーマ名〉 [くスキーマ変換記述名〉] ここで、 "store " は、 文書格納サービスコマンド名である。 く文書名〉 には、 格納する XML文書のファイル名を、 く スキーマ名〉 には、 格納する XML文書 の文書型定義 (DTD) のファイル名を、 く スキーマ変換記述名〉 には、 格納す る XML文書のスキーマから本システム用のスキーマへの変換指示を XS L言語 で記したファイル名を指定する。 形式変換を行わないでそのままの形式で構造格 納部へ格納する場合は、 スキーマ変換記述名は省略しても良レ、。
第 19図乃至第 21図は、 文書格納サービスの処理を示すフロー図である。 第 19図は、 文書格納サービスのメインルーチンを示すフロー図である。
store コマンドによる文書格納サービスは、 次の手順で実行される。 まず、 ステップ S 31において、 格納する構造化文書のスキーマがスキーマ格 納部に登録されているかどうかを調べる。
ステップ S 31で格納されていないと判断された場合 (ステップ S 31 : NO ) は、 ステップ S 32において、 スキーマ変換記述が利用可能かどうかを調べる。 —方、 ステップ S 31で格納されている場合 (ステップ S 31 : YES) は、 サ ブルーチン文書登録処理へ進む。 サブルーチン文書登録処理については、 第 5図 を用いて後述する。
そして、 ステップ S 32で利用可能であると判断された場合 (ステップ S 32 : YES) は、 サブルーチン形式変換処理へ進む。 サブルーチン形式変換処理に ついては、 第 20図を用いて後述する。 一方、 ステップ S 32で利用可能でない と判断された場合 (ステップ S 32 : NO) は、 サブルーチン文書登録処理へ進 む。
第 20図は、 文書格納サービスのサブルーチン 「形式変換処理」 を示すフ口一 図である。
形式変換処理は、 次の手順で実行される。
まず、 ステップ S 41において、 格納する構造化文書のスキーマとスキーマ変 換記述から格納構造のスキーマを生成する。
そして、 ステップ S42において、 スキーマ変換記述に従って構造ィヒ文書を変 換し、 その結果をステップ S 41で生成したスキーマと共にサブルーチン文書登 録処理に渡す。 ここで、 上記変換は、 一般に入手可能な XS LTプロセッサ (S a x o n, Xa 1 a n等) または同等機能の処理系を利用する。
第 21図は、 文書格納サービスのサブルーチン 「文書登録処理」 を示すフロー 図である。
文書登録処理は次の手順で実行する。
まず、 ステップ S 51において、 文書を構造格納部に格納する。 ここで、 上記 格納は、 市販の XML格納システム (eXc e l on、 T ami n o等の DOM 木格納、 XMLネイティブ格納方式のもの、 RDBラッパ一方式のもの、 または 同等機能の処理系) を用いる。
そして、 ステップ S 5 2において、 スキーマがスキーマ格納部に登録されてい る力否かを判断する。
ステップ S 5 2で登録されていないと判断された場合 (ステップ S 5 2 : N O ) は、 ステップ S 5 3において、 スキーマを登録して終了する。 一方、 ステップ S 5 2で登録されていると判断された場合 (ステップ S 5 2 : Y E S ) は、 その まま終了する。
次に、 文書格納サービスの実行例を以下に示す。
この実行例では、 文書を XMLで表現し、 スキーマを XML D T D (文書型 定義) で表現する。 格納するデータは、 下記の UR Lのサービスを用いて XM L 文書としてローカルに保存する。 配列データは、 G e n B a n kサービスを利用 し、 文献デー タ は、 P u b M e d サー ビス を利用す る ( http ://www. ncbi. nlm. nih. gov/Genbank/ 参照) 。 G e n B a n k力、ら直接取得 できるデータとスキーマの引用は割愛する。
配列データのスキーマ変換記述を sequence, xsl (第 6図) とし、 文献データ のスキーマ変換記述を literature, xsl (第 9図) とする。 以上のデータが形式 変換処理への入力となる。
形式変換処理後、 文書登録処理が行なわれるデータは次のようになる。
配列データは、 sequence, xml (第 7図) 、 スキーマは、 squence. dtd (第 8図 ) となる。
Sequence タグは、 配列全体を意味し、 Title タグは、 配列に関する自然言語 による説明を意味し、 Nucleotide タグは、 塩基配列を意味し、 Peptide タグは、 塩基配列を変換したアミノ酸配列を意味し、 Reference タグは、 参考文献を意味 し、 RefTitle タグは、 参考文献の題名を意味し、 Idタグは、 参考文献の参照番 号を意味する。
また、 文献データの 1レコードは、 literature, xral (第 1 0図) となり、 スキ 一マは、 literature, dtd (第 1 1図) となる。 Literature タグは、 文献データ全体を意味し、 Title タグは、 文献の題名を 意味し、 Abstract タグは、 文献の概要を意味し、 Link タグは、 関連する配列デ ータへの参照番号集合を意味し、 Idタグは、 個々の参照番号を意味する。
( 2 ) 解析処理ツール登録サービス
次に、 解析処理ツール登録サービスコマンド (2 ) を説明する。
解析処理ツール登録サービスコマンド (2 ) は、 次のように実行する。 register ぐツールコマンド名〉 [くリソース定義〉] ここで "register" は、 解析処理ツール登録サービスコマンド名である。 く ッ ールコマンド名〉 には、 登録する解析処理ツールのファイル名を指定し、 く リソ ース定義〉 には、 本システム格納用データスキーマからツールの入力となるデー タ形式への変換指示を X S L言語で記したファイル名を指定する。 ツールへの入 力が格納部内のデータに由来しない場合は、 リソース定義は省略しても良い。 第 2 2図は、 解析処理ツール登録サービスの処理を説明するためのフロー図で ある。
registerコマンドによるツール登録処理は次の手順で実行される。
まず、 ステップ S 6 1において、 解析ツールが実行可能な状態になっているか 否かを判断する。
ステップ S 6 1で実行可能な状態になっていないと判断された場合 (ステップ S 6 1 : N O) は、 ステップ S 6 2において、 本システムが実行可能な場所に複 写する。
そして、 ステップ S 6 1で実行可能な状態になっていると判断された場合 (ス テツプ S 6 1 : Y E S ) 、 あるいは、 ステップ S 6 2で複写した後、 ステップ S 6 3において、 解析ツールのコマンド名を記憶する。
さらに、 ステップ S 6 4において、 リソース定義をスキーマリソース定義部に 格納して終了する。 次に、 解析処理ツール登録サービスの実行例を以下に説明する。
本実行例では、 システムに格納された配列データと文献データを対象に文献類 似法による配列検索を行なうための 2つの解析処理ツール (索引付け処理、 検索 処理) をそれぞれ上記手順で登録する。
索引付け処理は、 1 h— i n d e Xコマンドとし、 検索処理は、 1 h— s e a r c hコマンドとする。 1 h— i n d e xコマンドは、 検索対象の文字列と識別 子の組の集合からなる全検索対象データを引数にとる。 本コマンドは、 リソース 定義 I h— i n d e x , x s 1と共に登録する。 1 h— s e a r c hコマンドは、 検索キーである配列を引数にとる。 本コマンドと同時に登録するリソース定義は ない。 '
( 3 ) 解析処理サービス
解析処理サービスコマンド (3 ) は、 次のように実行する。 process <解析ツーノレ名〉 [- toolargsくツール引数リスト〉]
[-serviceargs <サービス引数リスト〉] ここで "process " は、 解析処理サービスコマンド名である。 く解析ツール名 > には、 システムに登録済みの解析ツールの名前を指定し、 く ツール引数リスト > には、 その解析ツールに渡すパラメータを指定する。 解析ツールが追加の引数 を必要としない場合、 ツール引数リストは省略しても良い。 くサービス引数リス ト〉 には、 解析ツールには直接渡さず、 サービスに必要なパラメータを指定する。 必要ない場合は、 サービス引数リストは省略しても良い。
第 2 3図は、 解析処理サービスの処理を説明するためのフロー図である。
process コマンドによる解析処理サービスは、 サービス仲介処理部によって次 の手順で実行される。
まず、 ステップ S 7 1において、 解析ツール (分析ツール) がシステムに登録 されているカ否かを判断する。 ステップ S 71で登録されていないと判断された場合 (ステップ S 71 : NO ) は、 ステップ S 72において、 エラー処理を行なう。
—方、 ステップ S 71で登録されていると判断された場合 (ステップ S 71 : YES) は、 ステップ S 73において、 解析ツールに対応したリソース定義がス キーマリソース定義部に登録されている力否かを判断する。
ステップ S 73で登録されていると判断された場合 (ステップ S 73 : YES ) は、 ステップ S 74において、 (サービス引数リストが存在する場合はそれも 用いて、 ) 構造格納部内の各文書についてリソース定義 (XSL) を適用し、 そ れぞれの結果に解析ツールを適用する。 そして、 ステップ S 75において、 全文 書の処理が終了した力否かを判断することにより、 全文書が終了 (ステップ S 7 5 : YES) するまでステップ S 74を繰り返す。
一方、 ステップ S 73で登録されていないと判断された場合 (ステップ S 73 : NO) は、 ステップ S 76において、 解析ツールを実行する。
そして、 ステップ S 76における角析ツールの実行後、 あるいは、 ステップ S 75における処理の終了後、 実行結果を出力して終了する。
次に、 解析処理ツール登録サービスの実行例を以下に説明する。
既に述べたように文献類似法は、 索引作成処理を行なう l h— i n d e xと検 索処理を行なう 1 h— s e a r c h との 2つの解析ツールにより実装される。 索引作成処理では、 次のように p r o c e s sコマンドを起動する。 process In - index -toolargs ©documents -serviceargs -depth=2
1 h— i n d e xツールには、 リソース定義として 1 h— s e a r c h . x s 1が存在しているため、 構造格納部内の全文書に関して XSLT処理を行なう。 この処理は、 リソース定義 1 h— i n d e X. x s 1とサービス引数一 d e p t h = 2の情報を用いて次のように動作する。
構造格納部中の各配列レコード sから参照される文献レコード集合を L 1とす る。 L Iの各文献レコード 1 力 ら参照される配列レコード集合を S 1とする。
S 1の各配列レコード S' 力 ら参照される文献レコード集合を L 2とする。 こ のように配歹リ ·文献の組のパスを 2段階迪つて (この段数を" 一 d e p t = 2 " が指定している。 ) 得られる全集合から自然言語 (テキスト) データのある部 分のみを元の配列 sの I dと共に取り出す。 この XS LT処理の結果を 1 h— i n d e xに渡し (この渡し方を" 一 t o o l a r g s " ©d o cume n t s により指定している。 ) 索引を作成する。
検索処理では、 次のように process コマンドを起動する。 process lh - search - toolargs く酉己列 ID>...
1 h- s e a r c h ツーノレにはリソース定義が存在していないため、 直接 1 h- s e a r c h が起動され、 1 h— i n d e xが作成した索引を用いて配列 I Dに関連のある配列 I D集合を結果に出す。
以上説明してきたように、 本発明によれば、 関係 DBに配列 DBとは独立な拡 張が可能になることで、 配列 D Bレコードの枠組みに収まらないスキーマ拡張が 容易に行なえるようになり、 問題点 (1) を解決している。
+また、 本発明によれば、 構造格納方式の文書記憶部を持ち、 レコードの部分構 造を参照する関係 DBを持つことで、 構造的に違いの大きい複数形式への変換を 総合的に効率よく行なうことができ、 問題点 (2) を解決している。
また、 発明の実施の形態の項で文献類似法の例を挙げて示したように、 本シス テムは、 柔軟性と実装効率を両立しており、 問題点 (2) を解決している。 この 性質は、 構造格納部を RDB技術で実装するよりもネイティブな構造格納技術を 用いた方がより顕著になる。
また、 文献類似法の実装例では、 インデックス作成時に処理対象となるテキス ト部を XSLTを用いて動的に生成した。 そのため、 リンクをたどる段数をパラ メータ化でき、 実行可能な機能の柔軟性が高くなつた。 効率に関しては、 実際の ところ、 上述の実施の形態のようなコマンドラインで解析ツールを結合する仕組 では、 データをバイトストリームで渡すことになり、 そこがネックになるが、 デ ータ空間を共有するタイプのコンポーネント結合技^ fを用いることでそれは角军決 することができる。
また、 文献類似法以外の解析コンポーネントについても、 ツールが必要とする 文書をスキーマ格納部に登録されている文書形式から生成する指示を準備するこ とで柔軟に追加することができる。 また、 登録する構造化文書の形式が多用な場 合でも、 とりあえず構造格納部に格納してしまう運用が可能であり、 このような 柔軟性も備えている。
[他の実施の形態]
さて、 これまで本発明の実施の形態について説明したが、 本発明は、 上述した 実施の形態以外にも、 上記特許請求の範囲に記載した技術的思想の範囲内にぉレヽ て種々の異なる実施の形態にて実施されてよいものである。
例えば、 構造化データ処理装置 1 0 0がスタンドア口ーンの形態で処理を行う ±易合を一例に説明したが、 構造化データ処 置 1 0 0とは別筐体で構成される クライアント端末からの要求に応じて処理を行い、 その処理結果を当該クライア ント端末に返却するように構成してもよい。
また、 実施形態において説明した各処理のうち、 自動的に行なわれるものとし て説明した処理の全部または一部を手動的に行うこともでき、 あるいは、 手動的 に行なわれるものとして説明した処理の全部または一部を公知の方法で自動的に 行うこともできる。
この他、 上記文書中や図面中で示した処理手順、 制御手順、 具体的名称、 各種 の登録データや検索条件等のパラメータを含む情報、 画面例、 データベース構成 については、 特記する場合を除レ、て任意に変更することができる。
また、 構造ィ匕データ処理装置 1ひ 0に関して、 図示の各構成要素は機能概念的 なものであり、 必ずしも物理的に図示の如く構成されていることを要しない。 例えば、 構造化データ処理装置 1 0 0の各部または各装置が備える処理機能、 特に制御部 102にて行なわれる各処理機能については、 その全部または任意の 一部を、 CPU (C e n t r a l P r o c e s s i n g Un i t) および当 該 CPUにて解釈実行されるプログラムにて実現することができ、 あるいは、 ヮ ィヤードロジックによるハードウエアとして実現することも可能である。 なお、 プログラムは、 後述する記録媒体に記録されており、 必要に応じて構造化データ 処理装置 100に機械的に読み取られる。
すなわち、 ROMまたは HDなどの記憶部 106などには、 OS (Op e r a t i n g S y s t em) と協働して C PUに命令を与え、 各種処理を行うため のコンピュータプログラムが記録されている。 このコンピュータプログラムは、 RAM等にロードされることによって実行され、 CPUと協働して制御部 102 を構成する。 また、 このコンピュータプログラムは、 構造化データ処理装置 10 0に対して任意のネッ 1、ワーク 300を介して接続されたアプリケーションプロ グラムサーバに記録されてもよく、 必要に応じてその全部または一部をダウン口 ードすることも可能である。
また、 本発明にかかるプログラムを、 コンピュータ読み取り可能な記録媒体に 格納することもできる。 ここで、 この 「記録媒体」 とは、 フレキシブノレディスク、 光磁気ディスク、 ROM、 EPROM、 EEPROM、 CD-ROM, MO、 D 等の任意の 「可搬用の物理媒体」 や、 各種コンピュータシステムに内蔵され る ROM、 RAM, HD等の任意の 「固定用の物理媒体」 、 あるいは、 LAN、 WAN, インターネットに代表されるネットワークを介してプログラムを送信す る場合の通信回線や搬送波のように、 短期にプログラムを保持する 「通信媒体」 を含むものとする。
また、 「プログラム」 とは、 任意の言語や記述方法にて記述されたデータ処理 方法であり、 ソースコードやバイナリコード等の形式を問わない。 なお、 「プロ グラム」 は必ずしも単一的に構成されるものに限られず、 複数のモジュールゃラ イブラリとして分散構成されるものや、 OS (Op e r a t i n g Sy s t e m) に代表される別個のプログラムと協働してその機能を達成するものをも含む。 なお、 実施の形態に示した各装置にぉレヽて記録媒体を読み取るための具体的な構 成、 読み取り手順、 あるいは、 読み取り後のインスト一ノレ手順等については、 周 知の構成や手順を用いることができる。
記憶部 106に格納される各種のデータベース等 (構造化データ格納データべ ース 106 a〜処理結果データベース 106 ί) は、 RAM、 ROM等のメモリ 装置、 ハードディスク等の固定ディスク装置、 フレキシブルディスク、 光デイス ク等のストレージ手段であり、 各種処理やウェブサイト提供に用いる各種のプロ グラムゃテ一ブルやフアイルゃデ一タベースゃゥェブベージ用フアイル等を格納 する。
また、 構造ィヒデータ処理装置 100は、 既知のパーソナルコンピュータ、 ヮー クステーション等の情報処理端末等の情報処理装置にプリンタゃモニタやィメー ジスキャナ等の周辺装置を接続し、 該情報処理装置に本発明の方法を実現させる ソフトウェア (プログラム、 データ等を含む) を実装することにより実現しても よい。
さらに、 構造ィ匕データ処理装置 100の分散 ·統合の具体的形態は図示のもの に限られず、 その全部または一部を、 各種の負荷等に応じた任意の単位で、 機能 的または物理的に分散 '統合して構成することができる。 例えば、 各データべ一 スを独立したデータベース装置として独立に構成してもよく、 また、 処理の一部 を CG I (Co mmo n Ga t ewa y I n t e r f a c e) を用いて実現 してもよい。
また、 ネットワーク 300は、 構造化データ処理装置 100と外部システム 2 00とを相互に接続する機能を有し、 例えば、 インターネットや、 イントラネッ トゃ、 LAN (有線/無線の双方を含む) や、 VANや、 パソコン通信網や、 公 衆電話網 (アナログ/デジタルの双方を含む) や、 専用回線網 (アナログ Zデジ タルの双方を含む) や、 CATV網や、 IMT2000方式、 GSM方式または ?0〇 ?0〇ー?方式等の携帯回線交換網7携帯パケット交換網や、 無線呼出 網や、 B 1 u e t o o t h等の局所無線網や、 PHS網や、 C S、 B Sまたは I S D B等の衛星通信網等のうちいずれかを含んでもよレ、。 すなわち、 本システム は、 有線'無線を問わず任意のネットワークを介して、 各種データを送受信する ことができる。
以上詳細に説明したように、 本発明によれば、 構造化記述言語で記述された構 造化データと、 当該構造化データの構造を定義したスキーマデータとを取得し、 取得した構造化データおよびスキーマデータを、 スキーマ形式変換指示情報に基 づいて変換し、 変換された変換後の構造化データおよびスキーマデータをデータ ベースに登録し、 登録されたデータベースにアクセスしてデータ処理を行うツー ルプログラムと、 当該ッールプログラムに入力される構造化データのスキーマの リソースを定義するスキーマリソース定義情報とを対応させて登録し、 ツールプ ログラムが起動された場合に、 起動された当該ツールプログラムに対応するスキ 一マリソース定義情報に従って、 データベースに登録された構造化データおよび スキーマデータを動的に変換して当該ツールプログラムに入力するので、 異なる 構造化言語ゃスキーマ言語で記述された取得データを予めまたは必要に応じて定 めた形式に変換することができる構造化データ処理装置、 構造ィ匕データ処理方法、 プログラム、 および、 記録媒体を提供することができる。
また、 本発明によれば、 各種の外部データベースから取得したデータ間の整合 を容易にとることができるようになり、 データ記述形式 関する高い拡張性を担 保することができるようになる。 その結果、 各種のデータ記述形式に対応する外 部データベースへのアクセスを容易に行うことができるようになる。 すなわち、 統一した特定の構造化記述言語の形式 (例えば、 B SMLや B i o ML等) で内 部のデータベースを管理することが可能になるため、 データベースの利用効率な どを著しく向上させることができる構造化データ処理装置、 構造化データ処理方 法、 プログラム、 および、 記録媒体を提供することができる。
また、 本発明によれば、 スキーマに新たなリソース (例えば、 XMLの要素な ど) が追加された場合であっても、 容易に追加された形式に変換することができ る構造化データ処理装置、 構造化データ処理方法、 プログラム、 および、 記録媒 体を提供することができる。
また、 本発明によれば、 各分析ツールにより随時項目追加が発生し、 その追加 項目を後段の分析ツールの処理で使用するような場合であっても、 分析ツールの 仕様に手を加えることなく、 使用する各データの拡張性を容易に担保することが できる構造化データ処理装置、 構造化データ処理方法、 プログラム、 および、 記 録媒体を提供することができる。
また、 本発明によれば、 共有部分のデータベースの一括形式変換を行うことが できる構造化データ処理装置、 構造化データ処理方法、 プログラム、 および、 記 録媒体を提供することができる。
また、 本発明によれば、 構造化記述言語は、 XM L、 S GML , B i o ML、■ B S ML、 A S N. 1、 G AME , 若しくは、 これらのいずれかを拡張した構造 化記述言語、 または、 これらと同等の記述能力を持つ構造化記述言語であるので、 これらのバイオインフォマティクス分野において一般的に用いられる構造化記述 言語により記述された構造化データを効率的に変換することができる構造化デ一 タ処理装置、 構造化データ処理方法、 プログラム、 および、 記録媒体を提供する ことができる。
また、 本発明によれば、 スキーマデータは、 D T D、 XMLスキーマ、 R E L AX、 若しくは、 これらのいずれかを拡張したスキーマ言語、 または、 これらと 同等の記述能力を持つスキーマ言語により記述されたデータであるので、 これら のバイオインフォマティクス分野において一般的に用いられるスキーマ言語によ り記述されたスキーマデータを効率的に変換することができる構造化データ処理 装置、 構造化データ処理方法、 プログラム、 および、 記録媒体を提供することが できる。
また、 本発明によれば、 スキーマ形式変換指示情報およぴスキーマリソース定 義情報は、 X S L、 若しくは、 これを拡張した言語、 または、 これらと同等の記 述能力を持つ木構造変換言語により記述されたデ一タであるので、 これらのバイ オインフォマテイクス分野において一般的に用いられるスキーマ変換記述言語に より記述されたスキーマ形式変換指示情報およびスキーマリソース定義情報に基 づいて、 構造化データおよびスキーマデータを効率的に変換することができる構 造化データ処理装置、 構造化データ処理方法、 プログラム、 および、 記録媒体を 提供することができる。
また、 本発明によれば、 構造化データは、 塩基配列および/またはアミノ酸配 列を含む配列情報、 文献情報のうち少なくとも一つに関する要素を含むので、 G e n B a n kなどに登録された配列情報や、 P u b M e dなどに登録された文献 情報を取得して形式変換することができる構造化データ処理装置、 構造化データ 処理方法、 プログラム、 および、 記録媒体を提供することができる。 . 産業上の利用可能性
以上のように、 本発明にかかる構造化データ処理装置、 構造化データ処理方法、 プログラム、 および、 記録媒体は、 様々な形式のスキーマ言語により定義された 様々な形式の構造ィ匕データを効率的に処理するのに適している。

Claims

請 求 の 範 囲
1 . 構造ィヒ記述言語で記述された構造ィ匕データと、 当該構造化データの構造を 定義したスキーマデータとを取得する構造化データ取得手段と、
上記構造化データ取得手段にて取得した上記構造化データおよび上記スキーマ データを、 スキーマ形式変換指示情報に基づいて変換する形式変換手段と、 上記形式変換手段にて変換された変換後の構造ィ匕データおょぴスキーマデータ をデータベースに登録する構造化データ登録手段と、
上記構造化データ登録手段にて登録された上記データベースにアクセスしてデ ータ処理を行うツールプログラムと、 当該ツールプログラムに入力される上記構 造ィ匕データのスキーマのリソースを定義するスキーマリソース定義情報とを対応 させて登録する分析ッール登録手段と、
上記ツールプログラムが起動された場合に、 起動された当該ツールプログラム に対応する上記スキーマリソース定義情報に従って、 上記データベースに登録さ れた構造ィ匕データおょぴスキーマデータを変換して当該ツールプログラムに入力 'する分析ツール起動手段と、
を備えたことを特微とする構造ィ匕データ処理装置。
2 . 上記構造化記述言語は、 XML、 S GML , B i o ML、 B S ML、 A S N. 1、 GAME , 若しくは、 これらのいずれかを拡張した構造ィヒ記述言語、 ま たは、 これらと同等の記述能力を持つ構-造化記述言語であること、
を特徴とする請求の範囲第 1項に記載の構造化データ処理装置。
3 . 上記スキーマデータは、 D T D、 XMLスキーマ、 R E L AX、 若しくは、 これらのいずれかを拡張したスキーマ言語、 または、 これらと同等の記述能力を 持つスキーマ言語により記述されたデ一タであること、
を特徴とする請求の範囲第 1項または第 2項に記載の構造ィ匕デ一タ処理装置。
4 . 上記スキーマ形式変換指示情報および上記スキーマリソース定義情報は、 X S L、 若しくは、 これを拡張した言語、 または、 これらと同等の記述能力を持 つ木構造変換言語により記述されたデータであること、
を特徴とする請求の範囲第 1項から第 3項のいずれか一つに記載の構造化デー タ処理装置。
5 . 上記構造化データは、 塩基配列および/またはアミノ酸配列を含む配列情 報、 文献情報のうち少なくとも一つに関する要素を含むこと、
を特徴とする請求の範囲第 1項から第 4項のいずれか一つに記載の構造ィヒデ一 タ処理装置。
6 . 構造化記述言語で記述された構造化データと、 当該構造ィ匕データの構造を 定義したスキーマデータとを取得する構造ィ匕データ取得ステップと、
上記構造化データ取得ステップにて取得した上記構造化データおよび上記スキ 一マデータを、 スキーマ形式変換指示情報に基づいて変換する形式変換ステップ と、
上記形式変换ステップにて変換された変換後の構造化データおよびスキーマデ ータをデータベースに登録する構造化データ登録ステップと、
上記構造ィ匕データ登録ステップにて登録された上記データベースにアクセスし てデータ処理を行うッールプログラムと、 当該ッールプログラムに入力される上 記構造ィヒデータのスキーマのリソースを定義するスキーマリソース定義情報とを 対応させて登録する分析ツール登録ステップと、
上記ツールプログラムが起動された場合に、 起動された当該ツールプログラム に対応する上記スキーマリソース定義情報に従って、 上記データベースに登録さ れた構造化データおよびスキーマデータを変換して当該ツールプログラムに入力 する分析ッール起動ステップと、 を含むことを特徴とする構造化データ処理方法。
7. 上記構造化記述言語は、 XML、 SGML, B i oML、 BSML、 AS N. 1、 GAME, 若しくは、 これらのいずれかを拡張した構造化記述言語、 ま たは、 これらと同等の記述能力を持つ構造化記述言語であること、
を特徴とする請求の範囲第 6項に記載の構造化データ処理方法。
8. 上記スキーマデータは、 DTD、 XMLスキーマ、 RELAX、 若しくは、 これらのいずれかを拡張したスキーマ言語、 または、 これらと同等の記述能力を 持つスキーマ言語により記述されたデ一タであること、
を特徴とする請求の範囲第 6項または第 7項に記載の構造ィヒデータ処理方法。
9. 上記スキーマ形式変換指示情報およぴ上記スキーマリソース定義情報は、 XSL、 若しくは、 これを拡張した言語、 または、 これらと同等の記述能力を持 つ木構造変換言語により記述されたデータであること、
を特徴とする請求の範囲第 6項から第 8項のいずれか一つに記載の構造ィヒデ一 タ処理方法。
10. 上記構造化データは、 塩基配列および Zまたはアミノ酸配列を含む配列 情報、 文献情報のうち少なくとも一つに関する要素を含むこと、
を特徴とする請求の範囲第 6項から第 9項のいずれか一つに記載の構造ィヒデ一 タ処理方法。
11. 構造化記述言語で記述された構造化データと、 当該構造化データの構造 を定義したスキーマデータとを取得する構造化データ取得ステップと、
上記構造化データ取得ステップにて取得した上記構造ィ匕デ一タおよび上記スキ 一マデータを、 スキーマ形式変換指示情報に基づいて変換する形式変換; と、
上記形式変換ステップにて変換された変換後の構造化データおよびスキーマデ ータをデータベースに登録する構造化データ登録ステップと、
上記構造ィ匕データ登録ステップにて登録された上記データベースにアクセスし てデータ処理を行うツールプログラムと、 当該ツールプログラムに入力される上 記構造ィ匕データのスキーマのリソースを定義するスキーマリソース定義情報とを 対応させて登録する分析ッール登録ステツプと、
上記ツールプログラムが起動された場合に、 起動された当該ツールプログラム に対応する上記スキーマリソース定義情報に従って、 上記データベースに登録さ れた構造化データおよびスキーマデータを変換して当該ツールプログラムに入力 する分析ツール起動ステップと、
を含む構造ィ匕データ処理方法をコンピュータに実行させることを特徴とするプ ログラム。
12. 上記構造化記述言語は、 XML、 SGML, B i oML、 B SML、 A SN. 1、 GAME, 若しくは、 これらのいずれかを拡張した構造ィヒ記述言語、 または、 これらと同等の記述能力を持つ構造化記述言語であること、
を特徴とする請求の範囲第 1 1項に記載のプログラム。
13. 上記スキーマデータは、 DTD、 XMLスキーマ、 RELAX、 若しく は、 これらのいずれかを拡張したスキーマ言語、 または、 これらと同等の記述能 力を持つスキーマ言語により記述されたデータであること、
を特徴とする請求の範囲第 11項または第 12項に記載のプログラム。
14. 上記スキーマ形式変換指示情報およぴ上記スキーマリソース定義情報は、 XSL、 若しくは、 これを拡張した言語、 または、 これらと同等の記述能力を持 つ木構造変換言語により記述されたデータであること、 を特徴とする請求の範囲第 1 1項から第 1 3項のいずれか一^ ^に記載のプログ ラム。
1 5 . 上記構造化データは、 塩基配列および/またはァミノ酸配列を含む配列 情報、 文献情報のうち少なくとも一つに関する要素を含むこと、
を特徴とする請求の範囲第 1 1項から第 1 4項のいずれ力一^ ^こ記載のプログ ラム。
1 6 . 上記請求の範囲第 1 1項から第 1 5項のいずれか一つに記載されたプロ グラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
PCT/JP2002/006288 2001-06-22 2002-06-24 Dispositif de traitement de donnees structurees WO2003001409A1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US10/480,292 US20040177082A1 (en) 2001-06-22 2002-06-24 Structured data processing apparatus
EP20020743697 EP1403779A1 (en) 2001-06-22 2002-06-24 Structured data processing apparatus
JP2003507726A JPWO2003001409A1 (ja) 2001-06-22 2002-06-24 構造化データ処理装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2001-189631 2001-06-22
JP2001189631 2001-06-22

Publications (1)

Publication Number Publication Date
WO2003001409A1 true WO2003001409A1 (fr) 2003-01-03

Family

ID=19028525

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2002/006288 WO2003001409A1 (fr) 2001-06-22 2002-06-24 Dispositif de traitement de donnees structurees

Country Status (4)

Country Link
US (1) US20040177082A1 (ja)
EP (1) EP1403779A1 (ja)
JP (1) JPWO2003001409A1 (ja)
WO (1) WO2003001409A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006113786A (ja) * 2004-10-14 2006-04-27 Mitsubishi Space Software Kk 配列情報抽出装置、配列情報抽出方法および配列情報抽出プログラム

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050108219A1 (en) * 1999-07-07 2005-05-19 Carlos De La Huerga Tiered and content based database searching
JP3972323B2 (ja) * 2001-09-04 2007-09-05 インターナショナル・ビジネス・マシーンズ・コーポレーション スキーマ生成装置、データ処理装置及びその方法並びにプログラム
US7360172B2 (en) 2002-12-19 2008-04-15 Microsoft Corporation Contact controls
US7240298B2 (en) * 2002-12-19 2007-07-03 Microsoft Corporation Contact page
US7418663B2 (en) * 2002-12-19 2008-08-26 Microsoft Corporation Contact picker interface
US7360174B2 (en) 2002-12-19 2008-04-15 Microsoft Corporation Contact user interface
US7313760B2 (en) * 2002-12-19 2007-12-25 Microsoft Corporation Contact picker
US7636719B2 (en) * 2002-12-19 2009-12-22 Microsoft Corporation Contact schema
US7549125B2 (en) 2003-10-23 2009-06-16 Microsoft Corporation Information picker
US7953759B2 (en) * 2004-02-17 2011-05-31 Microsoft Corporation Simplifying application access to schematized contact data
US7430719B2 (en) 2004-07-07 2008-09-30 Microsoft Corporation Contact text box
US8219898B2 (en) * 2007-06-11 2012-07-10 Brother Kogyo Kabushiki Kaisha Document registration system, information processing apparatus, and computer usable medium therefor
US7970943B2 (en) * 2007-08-14 2011-06-28 Oracle International Corporation Providing interoperability in software identifier standards
US8137201B2 (en) * 2009-01-09 2012-03-20 Microsoft Corporation Arrangement for building and operating human-computation and other games
CN111739585B (zh) * 2020-06-24 2022-10-18 胡嘉欣 一种基于ncbi数据库的信息提取方法及其相关设备
MX2022015885A (es) * 2020-09-14 2023-04-03 Illumina Inc Archivos de datos personalizado para medicina personalizada.

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000187626A (ja) * 1998-10-16 2000-07-04 Mitsubishi Electric Corp アプリケ―ション間デ―タ送受信システム及びアプリケ―ション間デ―タ送受信方式及びアプリケ―ション間デ―タ送受信方法及びプログラムを記録したコンピュ―タ読取可能な記録媒体
JP2000348061A (ja) * 1998-06-10 2000-12-15 Nippon Telegr & Teleph Corp <Ntt> 半構造化文書情報統合検索装置および半構造化文書情報抽出装置、その方法、ならびにそのプログラムを格納する記録媒体
JP2002108903A (ja) * 2000-09-29 2002-04-12 Toshiba Corp データ収集システムおよびデータ収集方法およびプログラムを記録した媒体およびプログラム製品

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6424980B1 (en) * 1998-06-10 2002-07-23 Nippon Telegraph And Telephone Corporation Integrated retrieval scheme for retrieving semi-structured documents

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000348061A (ja) * 1998-06-10 2000-12-15 Nippon Telegr & Teleph Corp <Ntt> 半構造化文書情報統合検索装置および半構造化文書情報抽出装置、その方法、ならびにそのプログラムを格納する記録媒体
JP2000187626A (ja) * 1998-10-16 2000-07-04 Mitsubishi Electric Corp アプリケ―ション間デ―タ送受信システム及びアプリケ―ション間デ―タ送受信方式及びアプリケ―ション間デ―タ送受信方法及びプログラムを記録したコンピュ―タ読取可能な記録媒体
JP2002108903A (ja) * 2000-09-29 2002-04-12 Toshiba Corp データ収集システムおよびデータ収集方法およびプログラムを記録した媒体およびプログラム製品

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
BUNEMAN P. ET AL., A DATA TRANSFORMATION SYSTEM FOR BIOLOGICAL DATA SOURCES, vol. 21, 11 September 1995 (1995-09-11), pages 158 - 169, XP002960468 *
KITAKAMI ET AL.: "Idenshi joho shori eno chosen (11) DNA databse system", BIT, vol. 25, no. 11, 1 November 1993 (1993-11-01), pages 24 - 36, XP002960467 *
KITAMURA, NOZAKI, TATSUMI: "Script ni motozuku WWW joho togo shien system to genome database eno oyo", THE TRANSACTIONS OF THE INSTITUTE OF ELECTRONICS, INFORMATION AND COMMUNICATION ENGINEERS, vol. J81-D-I, no. 5, 25 May 1998 (1998-05-25), pages 451 - 459, XP002960465 *
MIKAMI ET AL.: "Multi agent ni yoru ishu no bunshi seibutsugaku data base no togo to kensaku no jitsugen", IPSJ: INFORMATION PROCESSING SOCIETY OF JAPAN KENKYU HOKOKU (98-DBS-114-17), vol. 98, no. 2, 19 January 1998 (1998-01-19), pages 121 - 128, XP002960466 *
STEIN L.D. ET AL.: "JADA: an approach for interconnecting bioinformatics database", GENE, vol. 209, no. 1/2, 16 March 1998 (1998-03-16), pages GC39 - GC43, XP004114998 *
STOKES A.J. ET AL.: "GXML: A novel method for exchanging and querying complete genomes by representing them as structured documents", INFORMATION PROCESSING SOCIETY OF JAPAN RONBUNSHI, vol. 40, no. SIG6(TOD3), 15 August 1999 (1999-08-15), pages 66 - 78, XP002960464 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006113786A (ja) * 2004-10-14 2006-04-27 Mitsubishi Space Software Kk 配列情報抽出装置、配列情報抽出方法および配列情報抽出プログラム

Also Published As

Publication number Publication date
US20040177082A1 (en) 2004-09-09
EP1403779A1 (en) 2004-03-31
JPWO2003001409A1 (ja) 2004-10-14

Similar Documents

Publication Publication Date Title
Yang et al. NCBI's conserved domain database and tools for protein domain analysis
WO2003001409A1 (fr) Dispositif de traitement de donnees structurees
Maidak et al. The ribosomal database project
US7761586B2 (en) Accessing and manipulating data in a data flow graph
Kerrien et al. Broadening the horizon–level 2.5 of the HUPO-PSI format for molecular interactions
Bussey et al. MatchMiner: a tool for batch navigation among gene and gene product identifiers
US6848079B2 (en) Document conversion using an intermediate computer which retrieves and stores position information on document data
US20060253540A1 (en) Method and system for transferring information
US20070180471A1 (en) Presenting digitized content on a network using a cross-linked layer of electronic documents derived from a relational database
Michalickova et al. SeqHound: biological sequence and structure database as a platform for bioinformatics research
JP2006318373A (ja) タスク選択支援サーバ、及び、タスク選択支援方法
CN111259067B (zh) 一种基于Spring实现DAO接口的方法、装置及设备
Sayers et al. Using GenBank and SRA
Seibel et al. XML schemas for common bioinformatic data types and their application in workflow systems
US20060242110A1 (en) Methods and apparatus for accessing geospatial information
EP1460563A1 (en) Knowledge search apparatus, knowledge search method, program, and recording medium
Cheng et al. SoyXpress: a database for exploring the soybean transcriptome
Rifaieh et al. SWAMI: integrating biological databases and analysis tools within user friendly environment
Kossenkov et al. ASAP: automated sequence annotation pipeline for web-based updating of sequence information with a local dynamic database
Stanislaus et al. RPPAML/RIMS: a metadata format and an information management system for reverse phase protein arrays
Choi et al. Browsing large scale cheminformatics data with dimension reduction
Keller et al. Inferring core genome phylogenies for bacteria
JP2002108903A (ja) データ収集システムおよびデータ収集方法およびプログラムを記録した媒体およびプログラム製品
Bruskiewich et al. The generation challenge programme platform: semantic standards and workbench for crop science.
Bagnacani et al. Tools for understanding miRNA–mRNA interactions for reproducible RNA analysis

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ OM PH PL PT RO RU SD SE SG SI SK SL TJ TM TN TR TT TZ UA UG US UZ VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2003507726

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 10480292

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 2002743697

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2004107261

Country of ref document: RU

Kind code of ref document: A

Ref document number: 2004107089

Country of ref document: RU

Kind code of ref document: A

WWP Wipo information: published in national office

Ref document number: 2002743697

Country of ref document: EP

REG Reference to national code

Ref country code: DE

Ref legal event code: 8642

WWW Wipo information: withdrawn in national office

Ref document number: 2002743697

Country of ref document: EP