WO2003056458A1 - Est arrangement mapping method and mapping program - Google Patents

Est arrangement mapping method and mapping program Download PDF

Info

Publication number
WO2003056458A1
WO2003056458A1 PCT/JP2002/013648 JP0213648W WO03056458A1 WO 2003056458 A1 WO2003056458 A1 WO 2003056458A1 JP 0213648 W JP0213648 W JP 0213648W WO 03056458 A1 WO03056458 A1 WO 03056458A1
Authority
WO
WIPO (PCT)
Prior art keywords
sequence
est
prefix
aligning
subsequence
Prior art date
Application number
PCT/JP2002/013648
Other languages
French (fr)
Japanese (ja)
Inventor
Shinichi Morishita
Jun Ogasawara
Original Assignee
Center For Advanced Science And Technology Incubation, Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Center For Advanced Science And Technology Incubation, Ltd. filed Critical Center For Advanced Science And Technology Incubation, Ltd.
Priority to AU2002359917A priority Critical patent/AU2002359917A1/en
Publication of WO2003056458A1 publication Critical patent/WO2003056458A1/en

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Definitions

  • the present invention relates to an EST array mapping method and a mapping program.
  • the present invention relates to the mapping of an EST (Expressed Sequence Tag) to a genome sequence.
  • An object of the present invention is to provide a method capable of aligning an EST sequence at a high speed by an algorithm for inserting a small number of long gaps.
  • An object of the present invention is a method of mapping an EST sequence to a genomic sequence, comprising the steps of: referring to the genomic sequence, generating a map table indicating a position where each primary key of a predetermined length appears in the genomic sequence. Generating, referring to the map table, finding a position corresponding to a prefix of an EST sequence in the genome sequence, and aligning the prefix; and referring to the maptable, the genome sequence
  • a step of finding a position corresponding to the suffix of the EST sequence and aligning the suffix, and a first subsequence interposed between the prefix and the suffix in the EST sequence Equivalent to aligned prefix Sequence and that is achieved by mapping methods E S T sequence, characterized in that it includes a step of ⁇ line placement in a second subsequence interposed between the sequence corresponding to the suffix.
  • a so-called dynamic program can be used for the alignment.
  • the step of aligning the second subsequence with the step of extending exon which is an area in the EST in which the alignment is performed, and skipping an intron And the step of performing. Exxon lengthening and skipping of introns allows for higher processing speeds.
  • the step of aligning the first subsequence with the second subsequence extends the prefix as long as the element in the EST sequence and the element in the genome sequence match.
  • the extended prefix is specified as exon, and in the EST sequence, a map of a predetermined length following the prefix is referred to as a primary key in a map table.
  • the step of aligning the prefix comprises, referring to the map table, determining a position where a sequence of a predetermined length at a predetermined position from the front of the EST sequence is found in the genome sequence.
  • the step of aligning the suffix includes the step of referring to the map table and specifying a position where a sequence of a predetermined length at a predetermined position from the back of the EST sequence is found in the genome sequence.
  • a step of aligning the second suspended portion which is a subsequence located behind the predetermined position, with a subsequence located behind the position in the genome sequence.
  • the step of aligning the second subsequence with the second subsequence comprises: Extending, and when the elements do not match, the extended prefix is specified as exon, and in the EST sequence, a sequence of a predetermined length at a predetermined position ahead of the prefix is a genome sequence. Identifying a position found therein; and, with respect to a third suspended portion which is a subsequence located between the end of the prefix and the predetermined position, the sequence corresponding to the prefix in the genome sequence. And aligning a sub-string located between the position to be found and the position to be found. And
  • the step of finding the element includes the steps of shifting the intron back and forth to specify a new intron candidate while maintaining the number of elements of the subsequence determined to be an intron; To determine whether or not to obey the intron motif rule.
  • the method further comprises a step of calculating a matching ratio of an EST sequence from the result of the alignment. This also makes it possible to evaluate the accuracy of the EST sequence.
  • an object of the present invention is a computer-readable program for operating a computer to map an EST sequence to a genomic sequence. Generating a map table indicating a position where each of the primary keys of a predetermined length appears; and referring to the map table, finding a position corresponding to a prefix of an EST sequence in the genome sequence, A step of aligning a prefix; a step of finding a position corresponding to a suffix of an EST sequence in the genomic sequence with reference to the map table; and aligning the suffix; and a prefix of the EST sequence.
  • the computer executes a step of aligning a sequence corresponding to the aligned prefix and a second subsequence interposed between the sequence corresponding to the suffix in the genome sequence.
  • a step of aligning a sequence corresponding to the aligned prefix and a second subsequence interposed between the sequence corresponding to the suffix in the genome sequence is also achieved by an EST sequence mapping program characterized by Preferably, in the step of aligning the first subsequence with the second subsequence, the exon is a region in the EST that has been aligned And the step of skipping the intron are executed during the combination.
  • the step of aligning the first subsequence with the second subsequence the step of extending the prefix as long as the element in the EST sequence matches the element in the genome sequence If the elements do not match, the extended prefix is identified as an exon, and in the EST sequence, a map of a predetermined length following the prefix is referred to as a maptable as a primary key. Finding a position corresponding to the primary leak in the genomic sequence and aligning the sequence of the predetermined length; and as long as the element in the EST sequence and the element in the genomic sequence match. Extending the sequence of the predetermined length in the combination, and executing the sequence of the predetermined length. A step of extending the steps of aligning the sequence of the subsequent predetermined length, is executed by the repetitive computer, to the genomic sequence, to achieve the alignment of the E S T sequence.
  • FIG. 1 is a diagram showing an example of a map table according to the present invention.
  • FIG. 2 is a diagram for explaining the alignment of prefixes and suffixes according to the present invention.
  • FIG. 3 is a diagram schematically showing an alignment process according to the present invention.
  • FIG. 4 is a diagram schematically showing exon extension and detection of the next exon in the alignment according to the present invention.
  • FIG. 5 is a block diagram illustrating a schematic configuration of the mapping system according to the present embodiment.
  • FIG. 6 is a flowchart showing processing executed by the start Z end point detection unit and the alignment execution unit according to the present embodiment.
  • FIG. 7 is a diagram showing an outline of alignment processing with further improvement according to the present invention.
  • FIG. 8 shows the exon in the further improved alignment according to the present invention.
  • FIG. 9 is a diagram illustrating the detection of the next exon in an alignment with further improvements according to the present invention.
  • FIG. 1A and 1B schematically show the results of further improved alignment according to the present invention, respectively.
  • FIG. 11 is a flowchart showing a process of estimating a start point and an end point in an alignment with further improvement according to the present invention.
  • FIG. 12 is a flowchart showing a process of extending an exon and detecting the next exon in the alignment with further improvement according to the present invention.
  • FIG. 13 is a diagram schematically illustrating another alignment method according to the present invention.
  • ESTs are up to tens of thousands of bases long, while genomic sequences are about 300 million bases long.
  • genomic sequences are about 300 million bases long.
  • the applicants have pre-processed the genomic sequence.
  • a DNA array of length L as the primary key. Applicants' idea is to generate a map table that stores the position where each primary key appears in the genome sequence.
  • FIG. 1 is a diagram showing an example of a map table according to the present invention.
  • the prefix and suffix of the length L of the gene are derived by referring to the map table in the main memory. Assuming that four nucleotides appear randomly in the genome sequence, the position can be inferred from the map table by accessing the main memory an average of M L 4 L times (M is the length of the genome sequence).
  • the primary key length was set to 14. Of course, it is not limited to this. In the example of FIG. 1, the length of the primary key is set to 2 for ease of explanation.
  • Means an array consisting of G. j] is
  • the alignment of the i-th nucleotide in E S ⁇ sequence ⁇ in genome sequence G is defined as position f (i) in genome sequence G.
  • a unique position f (i) is associated with the genome sequence G.
  • a start point and an end point are detected.
  • L be the length of the primary key in the map table
  • the length of the prefix in the three-row array be L (E n , L] ).
  • the array 203 is a map table. Referring to the genome sequence G (symbol 20) Identify the position that appears in). Further, focusing on the sequence of the end length L of the EST sequence E (suffix: see reference numeral 204), referring to the map table, the position where the sequence 204 appears in the genome sequence G is specified.
  • the alignment is realized by dynamic programming.
  • dynamic programming the unassigned EST subsequence E [L + 1 , N - L] is transformed into a subsequence G [f (L) +1 , f (N _L + 1) Align with _.
  • dynamic programming for example, dynamic programming of “Goto” (r An improved algorithm for matching biological sequencesj: Journal of Molecular Biology, 162: 705-708, 1982) can be used.
  • Dynamic programming in the second step finds an optimal alignment of EST with long introns in the sequence.
  • the first step finding the start and end points of a given EST in the genome sequence is successful because it can be realized only by accessing the main memory.
  • the interval of genomic sequence G [f (L) +1, f (N - L is, for the dynamic programming, because still too long, the second step is in need of much execution time.
  • FIG. 3 is a diagram schematically showing this step.
  • extension steps One nucleotide is added at the end of the exon for each repetition.
  • FIG. 5 is a block diagram showing a schematic configuration of the mapping system according to the present embodiment.
  • the mapping system 10 includes a map table generation unit 12 for generating a map table, a map table storage unit 14 for storing the generated map table, and a start point and an end point. It has a start Z end point detecting section 16 for detecting, an alignment executing section 18 for executing the alignment, and a result storage section 20 for storing the alignment result.
  • the mapping system 10 accesses the genome sequence DB 22 storing the genome sequence, and executes necessary processing (map table generation alignment) with reference to the genome sequence G.
  • the genome sequence DB 22 may be stored on the hard disk of a computer (for example, a personal computer) that implements the mapping system 10, or may be mounted on another server (a server overnight), such as a LAN or an
  • the mapping system 10 may be accessed via a network such as Yuichi Net.
  • the map table generation unit 12 refers to the genome sequence G in the genome sequence DB 22 and determines at which position in the genome sequence G each of the primer keys of a required length (for example, 14-mer) appears. Is generated, and this is stored in the map table storage unit 14. The alignment using the map table generated by the map table generation unit 12 will be described in more detail below.
  • FIG. 6 is a flowchart showing processing executed by the start / end point detection unit 16 and the alignment execution unit 18. As shown in FIG. 6, first, the start / end point detection unit 16 determines, from the beginning of the EST array E, the one extracted by the length L of the primary key as a prefix, and from the end of the EST array E The suffix is determined by taking out the length L of the primary key (step 601).
  • the start Z end point detection unit 16 refers to the map table in the map table storage unit 14 and aligns the prefix and suffix on the genome sequence G (step 602). This is achieved by referring to the map table to specify the position of the array corresponding to the prefix and specifying the position of the array corresponding to the suffix.
  • the prefix of the length L in the EST sequence E (see reference numeral 301) is aligned with a predetermined portion of the genome sequence G (see reference numeral 302), and the suffix (see reference numeral 311) is obtained.
  • the alignment execution unit 18 executes the above-described extension step and the step of detecting the next exon skipping the intron.
  • the alignment execution unit 18 sets E [i (i + L - 12 ) in the EST array E as the primary key, by referring to a map table in the map table storage unit 14, find the position of the E [i + L _ u in the genome sequence G (step 607.) This is the position of the next E click Son is identified.
  • the sequence existing between the end position in the genome sequence G aligned to the exon extended in the previous process and the head position in the genome sequence G aligned to the next exon becomes an intron.
  • the position i of the nucleotide is set to i + L (step 609) o
  • the exon is extended (see reference numerals 401 and 403) to achieve alignment to the genomic sequence G (see reference numbers 402 and 404).
  • the following nucleotide does not match (see arrow 432).
  • the next L-mer sequence “TGCC” is specified in the EST sequence E, and is aligned with the genome sequence G by referring to the mappable (see reference numeral 412). ). Therefore, the array interposed between the reference numerals 404 and 412 is the intron 410. Further, for the next exon 411, a similar process is performed to extend the exon as long as the nucleotides match.
  • the start point (start) is scanned from the start point (start) until a subsequence of length L is found in the map table, and in a similar manner the end point (end) From, three arrays are scanned. This will be described in more detail with reference to FIGS.
  • This may use dynamic programming.
  • E [j + 1 , N] is referred to as the suspended part of the EST that remains to be aligned (see step 1105 in FIG. 11 and reference numeral 13 in FIG. 7).
  • dynamic programming Can be used. '
  • FIG. 10A shows a case where no intron was detected after dynamic programming
  • FIG. 10B shows a case where an intron (see reference numeral 1011) was found.
  • introns can be thousands of base pairs in length, often many hundreds of base pairs in length.
  • Pendant moieties of the EST sequence E [x + 1, the i_ n, G [f (x ) +1, in rudimentary dynamic programming for causing ⁇ Line Instrument in f (i) _ n is Sutetsu flop 2. If G [f (X) + 1 , f ) — 13 contains an intron at 3, a furious calculation is performed. To accelerate this step, E [x + 1 , i-n (see reference numeral 1301 in FIG. 13) and G [1 : 1 (see reference numerals 1302, 1304 and 1303 in FIG. 13) before applying the dynamic program.
  • G [f ( X ) +1 , f (1 )-!] Contains an intron.
  • G [f (x) +1 , f (1) _ n is significantly larger than E [x + 1 , (for example, set a predetermined ratio or set a threshold for the difference between subsequences) the, G [f) + 1, f) - 13 includes an intron (reference numeral 1304).
  • E [x + 1, i is, G [f (x) + i, f (x) + (i -x)] ( marks "3 ⁇ 4 130 irradiation) and G [f (1) one ⁇ i - x ), f (i) -!] (see reference numeral 1303), so that the suspended part E [x + 1) i _ n of the EST array is Array concatenation, G [f (x) +1 , f (x) + (i
  • the boundaries can also be (pattern B): GC / CT ⁇ ⁇ ⁇ A / CGT
  • the matching rate is the same. Therefore, it is not possible to determine which pattern is correct.
  • the binding position of intron / exon can be determined based on the idea of an intron motif.
  • the introns are flanked by spliced sites at the 5 'and 3' ends according to the so-called "GT-AG” rule. So a typical intron starts with “GT” and ends with “AG” which is a dinucleotide. The probability that an arbitrarily selected splice site has these motifs at both ends is 1/256.
  • an intron motif was found in the genomic sequence when the frame of the intron moved forward or backward (ie, at the 5 'end to the 3' end, or at the 3 'end to the 5' end).
  • the intron may be a genuine intron.
  • the position of the intron is shifted back and forth, and the bases at both ends of the intron (intron candidate) in the shifted state are shifted. Find out. If the bases at both ends follow the intron motif, the position of the candidate intron is estimated as the position of a new intron.
  • the matching ratio between the genome sequence and the mapped EST region is examined. If the EST sequence is read correctly, the matching rate between the genomic sequence and the encoded EST sequence is 99.9% (the remaining 0.1% is the difference between the human genomes). Therefore, it was considered that the EST sequence with a low matching rate was not encoded. In fact, EST sequences with low matching rates contain a large number of misread (misread) nucleotides, Or not encoded in the genome sequence. According to our results, the lower boundary of the matching rate was set to some value between 80% and 90%.
  • step 1.1 and step 1.2 in the drawing, steps 110 to 1106 in Fig. 11
  • the start and end points of ES ⁇ were estimated. If there is a large number of candidates, the start and end points are not determined.
  • the set of starting point candidates in the map table in step 1.1 (see steps 1101 to 1103 in FIG. 11) is used as a starting set
  • step 1.2 (steps in FIG. 11) 1104 to 1106) is a set of end point candidates in the end set.
  • the algorithm is described below.
  • the positions of the start and end of the EST array are specified, and then the position of the EST array sandwiched between the start and end is determined. Align the rest with the corresponding subsequence in the genome sequence. Is mentoring.
  • the exon is first extended from the length of the primary key, and the exon is extended from the position where the nucleotides of the EST sequence and the genomic sequence do not match until the next exon appears. Subsequences in nom array G can be skipped. This makes it possible to realize alignment at higher speed.
  • the length of the intron is shifted back and forth while maintaining the length of the intron, and the base at the end of the intron candidate at the shifted position is examined.
  • it is not limited to such a method.
  • the function of one means may be realized by two or more physical means, or the function of two or more means may be realized by one physical means. Good.
  • mapping cDNA a more accurate gene map can be created. By doing this, it is possible to know the number of human genes, the entire region of the promoter, and the structure of intronic noexons. In the field of medicine, there are many cases where genes related to diseases are known. Creating a complete genetic map allows for localization of such genes.

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

An EST arrangement is aligned at a high speed by an algorithm for inserting a small number of long gaps. Firstly, by referencing a map table indicating the positions where primary keys of a predetermined length appear, a position (302) equivalent to a prefix (301) of the EST arrangement is found in the genome arrangement and the prefix is aligned. By referencing the map table, a position (312) equivalent to a suffix (311) of the EST arrangement is found in the genome arrangement and the suffix is aligned. Next, a first partial string present between the prefix and the suffix in the EST arrangement is aligned with a second partial string present between the arrangement equivalent to the prefix aligned and the arrangement equivalent to the suffix (arrows 311, 322) in the genome arrangement.

Description

明 細 書  Specification
E S T配列の写像方法、 および、 写像プログラム 発明の属する技術分野  TECHNICAL FIELD The present invention relates to an EST array mapping method and a mapping program.
本発明は、 ゲノム配列への E S T (Expressed Sequence Tag)の写像に関する。 背景技術  The present invention relates to the mapping of an EST (Expressed Sequence Tag) to a genome sequence. Background art
ゲノム配列に E S Tを写像することが有用となっており、 実際に、 種々の配列 写像アルゴリズムが提案されている。 最近では、 動的プログラミング手法と比較 して高速であるため、 Fastaや Blastのような heuristi cアルゴリズムが用いら れている。  It has become useful to map E ST to genome sequences, and in fact, various sequence mapping algorithms have been proposed. Recently, heuristic algorithms such as Fasta and Blast have been used because they are faster than dynamic programming techniques.
しかしながら、 これらアルゴリズムは、 多くの処理時間を必要とする。 また、 二つの配列感の類似性を解くことのみのために設計されているため、 E S Tを、 既知のコード化すべきゲノムに射影することができない。  However, these algorithms require a lot of processing time. In addition, EST cannot be projected to a known genome to be coded because it is designed only to solve the similarity between two sequences.
2 5 0万個のヒト E S T (長さ数百から 1万程度) を約 3 0億個の塩基からな るゲノム配列に写像する場合に、 ヒト E S Tをェクソンに分割しながらゲノム配 列に写像しなければならない点が問題となる。 Blast , Fasta , Smith-Watermanの アルゴリズムは、 2つの配列を比較し、 ホモロジ一の高い 1つの連続した部分配 列を出力する。 しかし、 ェクソン一イントロン構造を明らかにするには長さが数 万におよび長大なギャップ (イントロン) を複数挿入しながら、 ホモロジ一の高 い領域 (ェクソン) を複数の計算するよう考慮しなければならない。  When mapping 250,000 human ESTs (several hundred to 10,000 in length) to a genomic sequence consisting of about 300 billion bases, map human ESTs into genomic sequences while dividing them into exons. The problem is what you have to do. The Blast, Fasta, and Smith-Waterman algorithms compare two sequences and output one contiguous partial distribution with the highest homology. However, in order to clarify the exon-intron structure, it is necessary to consider multiple calculations of the region with the highest homology (exon) while inserting several tens of thousands and long gaps (introns). No.
Blast を利用して、 ェクソンを計算することも不可能ではない。 たとえば、 ヒ ト E S Tをヒトゲノム配列に対して Blastを使って問い合わせると、 E S Tの部 分配列が高いマッチ率でヒトゲノムの一部にァラインメントされた結果が複数リ ストされて返ってくる。 この結果の 1つ 1つがェクソンを意味している可能性が 高いので、 あとは人手で丹念にェクソンを繋げていくこともできないわけではな い。 しかし、 非常に時間のかかる作業となる。  It is not impossible to calculate Exon using Blast. For example, if a human EST is queried against a human genome sequence using Blast, multiple results will be returned in which the EEST partial sequence is aligned to a part of the human genome with a high match rate. Since each of these results is likely to mean exon, it is not unfortunate that the exons cannot be carefully connected manually. However, this is a very time-consuming task.
また、 Blast , Fastaに比べて精度が高い Smith-Watermanでさえ、 そのまま適 用すると、 短いギャップを大量に揷入したアラインメントを出力してしまい、 ェ クソンを出力してくれるわけではない。 In addition, even Smith-Waterman, which has higher accuracy than Blast and Fasta, outputs alignment with a large amount of short gaps if applied as it is. It does not output Kuson.
本発明は、 長いギャップを少数だけ挿入するようなアルゴリズムにより、,高速 に E S T配列をァラインメントできる手法を提供することを目的とする。  An object of the present invention is to provide a method capable of aligning an EST sequence at a high speed by an algorithm for inserting a small number of long gaps.
発明の開示 Disclosure of the invention
本発明の目的は、 ゲノム配列に対して、 E S T配列を写像する方法であって、 ゲノム配列を参照して、 当該ゲノム配列中に、 所定長のプライマリーキーの各々 が表れる位置を示すマップテーブルを生成するステップと、 前記マップテーブル を参照して、 前記ゲノム配列において、 E S T配列のプリフィックスに相当する 位置を見出して、 前記プリフィックスをアラインメントさせるステップと、 前記 マヅプテ一ブルを参照して、 前記ゲノム配列において、 E S T配列のサフィック スに相当する位置を見出して、 前記サフィックスをアラインメントさせるステツ プと、 前記 E S T配列においてプリフィヅクスおよびサフィヅクスの間に介在す る第 1の部分列に関して、 前記ゲノム配列中、 前記アラインメントされたプリフ ィックスに相当する配列と、 サフィックスに相当する配列との間に介在する第 2 の部分列にァラインメントさせるステップとを備えたことを特徴とする E S T配 列の写像方法により達成される。 アラインメントに際しては、 いわゆる動的プロ グラムを利用することができる。  An object of the present invention is a method of mapping an EST sequence to a genomic sequence, comprising the steps of: referring to the genomic sequence, generating a map table indicating a position where each primary key of a predetermined length appears in the genomic sequence. Generating, referring to the map table, finding a position corresponding to a prefix of an EST sequence in the genome sequence, and aligning the prefix; and referring to the maptable, the genome sequence In the genomic sequence, a step of finding a position corresponding to the suffix of the EST sequence and aligning the suffix, and a first subsequence interposed between the prefix and the suffix in the EST sequence, Equivalent to aligned prefix Sequence and that is achieved by mapping methods E S T sequence, characterized in that it includes a step of § line placement in a second subsequence interposed between the sequence corresponding to the suffix. A so-called dynamic program can be used for the alignment.
好ましい実施態様においては、 前記第 1の部分列に関して、 第 2の部分列にァ ラインメントさせるステップが、 ァラインメントがなされた E S T中の領域であ るェクソンを延長させるステップと、 イントロンをスキップするステップとを有 する。 ェクソンの延長およびイントロンのスキップにより、 処理スピードをより 高めることが可能となる。  In a preferred embodiment, with respect to the first subsequence, the step of aligning the second subsequence with the step of extending exon, which is an area in the EST in which the alignment is performed, and skipping an intron And the step of performing. Exxon lengthening and skipping of introns allows for higher processing speeds.
より好ましい実施態様においては、 前記第 1の部分列に関して、 第 2の部分列 にァラインメン卜させるステップが、 前記 E S T配列中の要素とゲノム配列中の 要素とがー致する限り、 前記プリフィックスを延長するステップと、 前記要素が 一致しない場合に、 前記延長されたプリフィックスをェクソンと特定するととも に、 E S T配列において、 前記プリフィックスに引き続く、 所定長の配列をブラ イマリ―キ—として、 マヅプテーブルを参照して、 前記ゲノム配列において、 当 該プライマリーキーに相当する位置を見出して、 当該所定長の配列をァラインメ ントさせるステップと、 前記 E S T配列中の要素とゲノム配列中の要素とがー致 する限り、 前記所定長の配列を延長するステップとを有し、 前記所定長の配列を 延長するステップと、 前記引き続く所定長の配列をァラインメントするステップ とを繰り返すことにより、 前記ゲノム配列への、 前記 E S T配列のァラインメン トを実現する。 In a more preferred embodiment, the step of aligning the first subsequence with the second subsequence extends the prefix as long as the element in the EST sequence and the element in the genome sequence match. And when the elements do not match, the extended prefix is specified as exon, and in the EST sequence, a map of a predetermined length following the prefix is referred to as a primary key in a map table. In the genome sequence, Finding a position corresponding to the primary key and aligning the sequence of the predetermined length; and extending the sequence of the predetermined length as long as the element in the EST sequence and the element in the genome sequence match. And repeating the step of extending the sequence of the predetermined length and the step of aligning the subsequent sequence of the predetermined length to realize alignment of the EST sequence with the genomic sequence. .
別の好ましい実施態様においては、 前記プリフィックスをアラインメントさせ るステップが、 前記マップテーブルを参照して、 前記 E S T配列の前方から所定 の位置にある所定長の配列が、 ゲノム配列中に見出される位置を特定するステツ プと、当該所定の位置より前方に位置する部分列である第 1の懸垂部分に関して、 前記ゲノム配列中の位置より前方に位置する部分列にァラインメントさせるステ ップとを有する。同様に、前記サフィヅクスをァラインメントさせるステップが、 前記マップテーブルを参照して、 前記 E S T配列の後方から所定の位置にある所 定長の配列が、 ゲノム配列中に見出される位置を特定するステップと、 前記所定 の位置より後方に位置する部分列である第 2の懸垂部分に関して、 前記ゲノム配 列中の位置より後方に位置する部分列にァラインメントさせるステップとを有す るのが望ましい。  In another preferred embodiment, the step of aligning the prefix comprises, referring to the map table, determining a position where a sequence of a predetermined length at a predetermined position from the front of the EST sequence is found in the genome sequence. A step of specifying, and a step of aligning the first suspension portion, which is a subsequence located before the predetermined position, with a subsequence located before the position in the genome sequence. . Similarly, the step of aligning the suffix includes the step of referring to the map table and specifying a position where a sequence of a predetermined length at a predetermined position from the back of the EST sequence is found in the genome sequence. And a step of aligning the second suspended portion, which is a subsequence located behind the predetermined position, with a subsequence located behind the position in the genome sequence. .
上記実施態様によれば、 いわゆるミスマッチが含まれている場合にも、 懸垂部 分をァラインメントすることにより、 適切なマツビングが可能となる。  According to the above-described embodiment, even when a so-called mismatch is included, appropriate mubbing can be performed by aligning the suspended portion.
より好ましい実施態様においては、 前記第 1の部分列に関して、 第 2の部分列 にァラインメントさせるステップが、 前記 E S T配列中の要素とゲノム配列中の 要素とがー致する限り、 前記プリフィックスを延長するステップと、 前記要素が 一致しない場合に、 前記延長されたプリフィックスをェクソンと特定するととも に、 前記 E S T配列において、 前記プリフィ ックスより前方の所定の位置にある 所定長の配列が、 ゲノム配列中に見出される位置を特定するステップと、 前記プ リフィックスの端部と、 前記所定の位置との間に位置する部分列である第 3の懸 垂部分に関して、 前記ゲノム配列において、 前記プリフィックスに相当する位置 と、 前記見出される位置との間に位置する部分列にァラインメントさせるステツ プとを有する。 In a more preferred embodiment, for the first subsequence, the step of aligning the second subsequence with the second subsequence comprises: Extending, and when the elements do not match, the extended prefix is specified as exon, and in the EST sequence, a sequence of a predetermined length at a predetermined position ahead of the prefix is a genome sequence. Identifying a position found therein; and, with respect to a third suspended portion which is a subsequence located between the end of the prefix and the predetermined position, the sequence corresponding to the prefix in the genome sequence. And aligning a sub-string located between the position to be found and the position to be found. And
別の好ましい実施態様においては、 さらに、 前記イントロンと判断された部分 列のそれそれの端部から、 所定の範囲にある要素を参照して、 イントロンのモチ ーフ則に従う要素を見出すステップと、 前記要素を端部とするようにィントロン を修正するステップとを備えている。 これにより、 ミスマヅチが増加する可能性 があるが、 ィントロンのモチーフ則に沿った部分列をィントロンと推定すること が可能となる。 たとえば、 前記要素を見出すステップは、 イントロンと判断され た部分列の要素数を保持しつつ、 当該イントロンを前後にずらして、 新たなイン トロン候補を特定するステップと、 新たなィントロン候補のそれそれの端部が、 イントロンのモチーフ則に従うか否かを判断するステップとを有している。 また、 別の好ましい実施態様においては、 さらに、 前記アラインメントの結果 から、 E S T配列のマッチング率を算出するステップを備えている。これにより、 E S T配列の精度を評価することも可能となる。  In another preferred embodiment, further, from each end of the substring determined to be an intron, referring to an element in a predetermined range to find an element that complies with the motif rule of the intron; Modifying the intron to end with the element. This may increase mismatch, but it is possible to estimate a subsequence along the intron motif rule as an intron. For example, the step of finding the element includes the steps of shifting the intron back and forth to specify a new intron candidate while maintaining the number of elements of the subsequence determined to be an intron; To determine whether or not to obey the intron motif rule. In another preferred embodiment, the method further comprises a step of calculating a matching ratio of an EST sequence from the result of the alignment. This also makes it possible to evaluate the accuracy of the EST sequence.
また、 本発明の目的は、 ゲノム配列に対して、 E S T配列を写像するためにコ ンピュー夕を動作させる、 コンピュータにより読み取り可能なプログラムであつ て、 ゲノム配列を参照して、 当該ゲノム配列中に、 所定長のプライマリ一キーの 各々が表れる位置を示すマップテ一ブルを生成するステップと、 前記マツプテ一 プルを参照して、 前記ゲノム配列において、 E S T配列のプリフィヅクスに相当 する位置を見出して、 前記プリフィ ヅクスをアラインメントさせるステップと、 前記マップテーブルを参照して、 前記ゲノム配列において、 E S T配列のサフィ ックスに相当する位置を見出して、 前記サフィックスをァラインメントさせるス テツプと、 前記 E S T配列においてプリフィックスおよびサフィックスの間に介 在する第 1の部分列に関して、 前記ゲノム配列中、 前記アラインメントされたプ リフィックスに相当する配列と、 サフィックスに相当する配列との間に介在する 第 2の部分列にアラインメントさせるステップとを、 前記コンピュータに実行さ せることを特徴とする E S T配列の写像プログラムによっても達成される。 好ましくは、 前記第 1の部分列に関して、 第 2の部分列にアラインメントさせ るステップにおいて、 ァラインメントがなされた E S T中の領域であるェクソン を延長させるステップと、 イントロンをスキップするステップとを、 前記コンビ ユー夕に実行させる。 Also, an object of the present invention is a computer-readable program for operating a computer to map an EST sequence to a genomic sequence. Generating a map table indicating a position where each of the primary keys of a predetermined length appears; and referring to the map table, finding a position corresponding to a prefix of an EST sequence in the genome sequence, A step of aligning a prefix; a step of finding a position corresponding to a suffix of an EST sequence in the genomic sequence with reference to the map table; and aligning the suffix; and a prefix of the EST sequence. And the first subsequence intervening between the suffix And causing the computer to execute a step of aligning a sequence corresponding to the aligned prefix and a second subsequence interposed between the sequence corresponding to the suffix in the genome sequence. This is also achieved by an EST sequence mapping program characterized by Preferably, in the step of aligning the first subsequence with the second subsequence, the exon is a region in the EST that has been aligned And the step of skipping the intron are executed during the combination.
より具体的には、 前記第 1の部分列に関して、 第 2の部分列にアラインメント させるステップにおいて、 前記 E S T配列中の要素とゲノム配列中の要素とがー 致する限り、 前記プリフィックスを延長するステップと、 前記要素が一致しない 場合に、 前記延長されたプリフィ ヅクスをェクソンと特定するとともに、 E S T 配列において、 前記プリフィ ックスに引き続く、 所定長の配列をプライマリ一キ 一として、 マヅプテ一ブルを参照して、 前記ゲノム配列において、 当該プライマ リーキ一に相当する位置を見出して、 当該所定長の配列をァラインメントさせる ステップと、 前記 E S T配列中の要素とゲノム配列中の要素とがー致する限り、 前記所定長の配列を延長するステップとを前記コンビユー夕に実行させ、 前記所 定長の配列を延長するステップと、 前記引き続く所定長の配列をアラインメント するステップと、 繰り返しコンピュータに実行させることにより、 前記ゲノム配 列への、 前記 E S T配列のアラインメントを実現する。  More specifically, in the step of aligning the first subsequence with the second subsequence, the step of extending the prefix as long as the element in the EST sequence matches the element in the genome sequence If the elements do not match, the extended prefix is identified as an exon, and in the EST sequence, a map of a predetermined length following the prefix is referred to as a maptable as a primary key. Finding a position corresponding to the primary leak in the genomic sequence and aligning the sequence of the predetermined length; and as long as the element in the EST sequence and the element in the genomic sequence match. Extending the sequence of the predetermined length in the combination, and executing the sequence of the predetermined length. A step of extending the steps of aligning the sequence of the subsequent predetermined length, is executed by the repetitive computer, to the genomic sequence, to achieve the alignment of the E S T sequence.
図面の簡単な説明 BRIEF DESCRIPTION OF THE FIGURES
図 1は、 本発明にかかるマップテーブルの例を示す図である。  FIG. 1 is a diagram showing an example of a map table according to the present invention.
図 2は、 本発明にかかるプレフィックスおよびサフィックスのアラインメント を説明するための図である。  FIG. 2 is a diagram for explaining the alignment of prefixes and suffixes according to the present invention.
図 3は、 本発明にかかるァラインメン卜の処理を概略的に示す図である。  FIG. 3 is a diagram schematically showing an alignment process according to the present invention.
図 4は、 本発明にかかるァラインメントにおけるェクソンの延長および次のェ クソンの検出を概略的に示す図である。  FIG. 4 is a diagram schematically showing exon extension and detection of the next exon in the alignment according to the present invention.
図 5は、 本実施の形態にかかる写像システムの概略構成を示すブロックダイヤ グラムである。  FIG. 5 is a block diagram illustrating a schematic configuration of the mapping system according to the present embodiment.
図 6は、 本実施の形態にかかる開始 Z終了ボイント検出部およびァラインメン ト実行部により実行される処理を示すフローチャートである。  FIG. 6 is a flowchart showing processing executed by the start Z end point detection unit and the alignment execution unit according to the present embodiment.
図 7は、 本発明にかかるさらに改良を加えたァラインメントの処理の概略を示 す図である。  FIG. 7 is a diagram showing an outline of alignment processing with further improvement according to the present invention.
図 8は、 本発明にかかるさらに改良を加えたァラインメントにおけるェクソン の延長等を説明する図である。 FIG. 8 shows the exon in the further improved alignment according to the present invention. FIG.
図 9は、 本発明にかかるさらに改良を加えたァラインメントにおける次のェク ソンの検出を説明する図である。  FIG. 9 is a diagram illustrating the detection of the next exon in an alignment with further improvements according to the present invention.
図 1 O Aおよび Bは、 それそれ、 本発明にかかるさらに改良を加えたァライン メントの結果を概略的に示す図である。  1A and 1B schematically show the results of further improved alignment according to the present invention, respectively.
図 1 1は、 本発明にかかるさらに改良を加えたアラインメントにおける、 開始 ボイントおよび終了ボイントを推定する処理を示すフローチャートである。 図 1 2は、 本発明にかかるさらに改良を加えたアラインメントにおける、 ェク ソンの延長および次のェクソンの検出の処理を示すフローチャートである。 図 1 3は、 本発明にかかるさらに他のアラインメントの手法の概略を説明する 図である。  FIG. 11 is a flowchart showing a process of estimating a start point and an end point in an alignment with further improvement according to the present invention. FIG. 12 is a flowchart showing a process of extending an exon and detecting the next exon in the alignment with further improvement according to the present invention. FIG. 13 is a diagram schematically illustrating another alignment method according to the present invention.
発明を実施するための望ましい形態 BEST MODE FOR CARRYING OUT THE INVENTION
[本発明の原理]  [Principle of the present invention]
数百万にのぼる E S Tを、 ヒトゲノム配列に写像することは困難を伴う。 E S Tは、 最大で、 数万の塩基の長さをもち、 他方、 ゲノム配列は、 約 3 0億の塩基 の長さをもつ。 計算時間を短縮化するために、 本出願人らは、 ゲノム配列に前処 理を施した。 まず、 プライマリ一キーとして、 長さ Lの D N A配列を定義した。 本出願人らの考えは、 各プライマリ一キーがゲノム配列中に現れる位置を記憶し たマヅプテーブルを生成することにある。  The mapping of millions of E STs to human genomic sequences is challenging. ESTs are up to tens of thousands of bases long, while genomic sequences are about 300 million bases long. In order to reduce the computation time, the applicants have pre-processed the genomic sequence. First, we defined a DNA array of length L as the primary key. Applicants' idea is to generate a map table that stores the position where each primary key appears in the genome sequence.
図 1は、 本発明にかかるマップテーブルの例を示す図である。 特定の E S T配 列を考えるときに、 主メモリ中のマップテーブルを参照することにより、 遺伝子 の長さ Lのプレフィ ヅクスおよびサフィヅクスが導き出される。 4つのヌクレオ チドが、 ランダムに、 ゲノム配列中に現れると考えると、 主メモリを平均 MZ 4 L回 (Mは、 ゲノム配列の長さ) だけアクセスすることにより、 マップテーブル から位置が推論できる。 FIG. 1 is a diagram showing an example of a map table according to the present invention. When considering a specific EST sequence, the prefix and suffix of the length L of the gene are derived by referring to the map table in the main memory. Assuming that four nucleotides appear randomly in the genome sequence, the position can be inferred from the map table by accessing the main memory an average of M L 4 L times (M is the length of the genome sequence).
[マツプテーブルの生成]  [Generating Map Table]
マップテ一プルおよびその生成につきより詳細に説明を加える。  A more detailed description is given of the map template and its generation.
それに先立ち、プライマリ一キーの長さを決定する必要がある。本出願人らは、 プライマリ一キーの長さを 14とした。 無論、 これに限定されるものでないこと は言うまでも無い。 なお、 図 1の例では、 説明を容易にするため、 プライマリー キーの長さを 2としてある。 Prior to that, it is necessary to determine the length of the primary key. Applicants have: The primary key length was set to 14. Of course, it is not limited to this. In the example of FIG. 1, the length of the primary key is set to 2 for ease of explanation.
図 1のマップテーブル 10 0を参照すると、 ゲノム配列 1 0 1に関して、 「T Α」 が、 ゲノム配列 10 1中の第 9番の位置に存在すること (符号 102参照) や、 「GC」が、 第 3番および第 1 2番の位置に存在すること (符号 1 03参照) が理解できるであろう。  Referring to the map table 100 in FIG. 1, regarding the genome sequence 101, “TΑ” is located at the ninth position in the genome sequence 101 (see reference numeral 102), and “GC” is It can be seen that it is located in positions 3 and 12 (see reference numeral 103).
以下の説明において、 ゲノム配列 Gは、  In the following description, the genomic sequence G
gい § 2 , - - ' , Su ( Si≡ {A, T, G, C, N} )  g § 2,--', Su (Si≡ {A, T, G, C, N})
からなる配列を意味し、 かつ、 £ 3丁配列£は、 And an array of £ 3
e 15 e2, · · · , en ( e ^ {A, T, G, C, N} ) e 15 e 2 , · · ·, e n (e ^ {A, T, G, C, N})
からなる配列を意味する。 また、 G . j]は、 Means an array consisting of G. j] is
部分列 g gi + 1, · · · , g j Subsequence gg i + 1 ,,, gj
を意味し、 E [i( も、 Means E [i ( also,
部分列  Substring
を意味する。 Means
E S Τ配列 Ε中の第 i番のヌクレオチドの、 ゲノム配列 G中のァラインメント (alignment) を、 ゲノム配列 G中の位置 f ( i) として定義する。 換言すれば、 各 eiについて、 一意的な位置 f (i) は、 ゲノム配列 Gと関連する。  The alignment of the i-th nucleotide in E S {sequence} in genome sequence G is defined as position f (i) in genome sequence G. In other words, for each ei, a unique position f (i) is associated with the genome sequence G.
[マップテ一ブルを利用した第 1の手法]  [First method using map table]
まず、 マップテーブル生成のための第 1の手法につき説明を加える。  First, the first method for generating a map table will be explained.
第 1のステップにおいては、 開始ボイントおよび終了ボイントを検出する。 Lをマヅプテーブル中のプライマリ一キーの長さとし、 かつ、 £ 3丁配列£中 のプレフィヅクスの長さを L (E n, L] ) と考える。 マヅプテーブルをアクセス することにより、 ゲノムと、 プレフィックスおよびサフィックスとをァラインメ ントさせる。 たとえば、 図 2に示すように、 E S T配列 E (符号 202参照) の 先頭の長さ L (この場合 L = 4) の配列 (プレフィヅクス :符号 203参照) に 着目し、 当該配列 2 03がマップテーブルを参照して、 ゲノム配列 G (符号 20 1参照) 中に表れる位置を特定する。 また、 EST配列 Eの終端の長さ Lの配列 (サフィックス :符号 204参照) に着目して、 マップテーブルを参照して、 当 該配列 204が、 ゲノム配列 G中に表れる位置を特定する。 In the first step, a start point and an end point are detected. Let L be the length of the primary key in the map table, and let the length of the prefix in the three-row array be L (E n , L] ). By accessing the map table, the genome is aligned with the prefix and suffix. For example, as shown in FIG. 2, focusing on an array (prefix: see code 203) having a head length L (in this case, L = 4) of the EST array E (see code 202), the array 203 is a map table. Referring to the genome sequence G (symbol 20) Identify the position that appears in). Further, focusing on the sequence of the end length L of the EST sequence E (suffix: see reference numeral 204), referring to the map table, the position where the sequence 204 appears in the genome sequence G is specified.
次いで、 第 2のステップにおいて、 動的プログラミングによりアラインメント を実現する。 ここでは、 動的プログラミングを用いて、 割り当てられていない E S Tの部分列 E [L+ 1N-L]を、ゲノム配列 Gの部分列 G [f (L) +1, f (N_L+1) _ にアラインメントさせる。 動的プログラミングとして、 たとえば、 「後藤」 の動 的プロ グラ ミ ング ( r An improved algorithm for matching biological sequencesj : Journal of Molecular Biology, 162: 705-708, 1982) を利用する ことができる。 Then, in a second step, the alignment is realized by dynamic programming. Here, using dynamic programming, the unassigned EST subsequence E [L + 1 , N - L] is transformed into a subsequence G [f (L) +1 , f (N _L + 1) Align with _. As the dynamic programming, for example, dynamic programming of “Goto” (r An improved algorithm for matching biological sequencesj: Journal of Molecular Biology, 162: 705-708, 1982) can be used.
第 2のステップにおける動的プログラミングは、 配列中の長いィントロンを有 する E S Tの最適なァラインメントを見出すものである。  Dynamic programming in the second step finds an optimal alignment of EST with long introns in the sequence.
第 1のステツプにおいて、 ゲノム配列中に与えられた E S Tの開始ボイントぉ よび終了ボイントを見出すことは、 主メモリのアクセスのみにより実現できるた め、 上首尾なものとなる。 しかしながら、 ゲノム配列の間隔 G [f (L) +1, f (NL は、 動的プログラミングにとっては、 依然として長すぎるため、 第 2の ステップは多くの実行時間を必要としている。 In the first step, finding the start and end points of a given EST in the genome sequence is successful because it can be realized only by accessing the main memory. However, the interval of genomic sequence G [f (L) +1, f (N - L is, for the dynamic programming, because still too long, the second step is in need of much execution time.
[マップテーブルを利用した第 2の手法]  [Second method using map table]
第 2のステップにおける動的プログラミングを加速させるため、 ェクソンを延 長し、 かつ、 マップテーブルを利用して長いイントロンをスキップすることによ り ( i) を定義している。 以下に、 E S Tを単一のェクソンにアラインメント させるアルゴリズムにっき説明を加える。  To accelerate dynamic programming in the second step, we define (i) by extending exon and skipping long introns using a map table. The following is an explanation of the algorithm for aligning E ST to a single exon.
ここでは、 L+ 1から N— Lの各 iについて、 f ( i - 1 ) +1を f (i) と 設定する。 図 3は、 このステップを概略的に示す図である。  Here, f (i-1) +1 is set as f (i) for each i from L + 1 to NL. FIG. 3 is a diagram schematically showing this step.
上記ステップを、 延長ステップと称する。 反復ごとに、 ェクソンの末尾に 1つ のヌクレオチドが追加されるからである。  The above steps are called extension steps. One nucleotide is added at the end of the exon for each repetition.
なお、 複数のェクソンに関して E S Tを取り扱うためには、 ェクソンの延長が 失敗したときに、 イントロンをスキップする工程が組み込まれる (図 4参照) 。 E S T配列 E中の第 i番のヌクレオチドが、 ゲノム配列 G中の第: f (i) 番の ヌクレオチドと一致する限り、 f (i) =f (i- 1) +1として、 かつ、 iを インクリメントする (第 2のステップにおけるステップ 2— 1 ) 。 To handle ESTs for multiple exons, a step to skip introns when exon extension fails is incorporated (see Fig. 4). As long as the i-th nucleotide in the EST sequence E matches the f-th (i) nucleotide in the genomic sequence G, let f (i) = f (i-1) +1 and i Increment (step 2-1 in the second step).
ステップ 2— 1は、 ェクソンが、 E ST配列 E中の第 i番で終端していること を示すため、 E [ i + L_nをプライマ リーキ一としてマヅプテーブルを参照する ことにより、 次のェクソンの位置を検出する。 f (j) (j = i, · · 。, i + L- 1 ) が設定される次のェクソンの位置を決定した後に、 iを Lだけインクリ メントして、ステップ 2_ 1に戻る(第 2のステップにおけるステップ 2— 2) 。 Step 2 1 Ekuson is, to indicate that terminates at the i-th in E ST sequence E, by referring to Madzuputeburu E a [i + L _ n as primers leek one, the following Ekuson Detect the position of. After determining the position of the next exon at which f (j) (j = i, ···, i + L-1) is set, i is incremented by L and the process returns to step 2_1 (step 2 Step 2—2) of the step.
[上記手法を実現するシステム例]  [Example of system that implements the above method]
本実施の形態においては、 第 2の手法を用いて高速な E S T配列のァラインメ ントを実現している。 図 5は、 本実施の形態にかかる写像システムの概略構成を 示すブロックダイヤグラムである。 図 5に示すように、 写像システム 10は、 マ ップテ一ブルを生成するマップテーブル生成部 12と、 生成されたマップテープ ルを記憶するマップテーブル記憶部 14と、 上記開始ボイントおよび終了ボイン トを検出する開始 Z終了ポイント検出部 16と、 アラインメントを実行するァラ インメント実行部 18と、 アラインメント結果を記憶する結果記憶部 20とを有 している。  In the present embodiment, high-speed alignment of the EST array is realized by using the second technique. FIG. 5 is a block diagram showing a schematic configuration of the mapping system according to the present embodiment. As shown in FIG. 5, the mapping system 10 includes a map table generation unit 12 for generating a map table, a map table storage unit 14 for storing the generated map table, and a start point and an end point. It has a start Z end point detecting section 16 for detecting, an alignment executing section 18 for executing the alignment, and a result storage section 20 for storing the alignment result.
写像システム 10は、 ゲノム配列を記憶したゲノム配列 DB 22をアクセスし て、 ゲノム配列 Gを参照して必要な処理 (マップテーブルの生成ゃァラインメン ト) を実行するようになっている。 ゲノム配列 DB 22は、 写像システム 10を 実現するコンピュータ (たとえば、 パーソナルコンピュータ) のハードディスク に記憶されているものでも良いし、 或いは、 他のサーバ (デ一夕べ一スサーバ) に搭載され、 LANやイン夕一ネットなどのネッ トワークを介して、 写像システ ム 10がアクセスするようなものであっても良い。  The mapping system 10 accesses the genome sequence DB 22 storing the genome sequence, and executes necessary processing (map table generation alignment) with reference to the genome sequence G. The genome sequence DB 22 may be stored on the hard disk of a computer (for example, a personal computer) that implements the mapping system 10, or may be mounted on another server (a server overnight), such as a LAN or an The mapping system 10 may be accessed via a network such as Yuichi Net.
マップテーブル生成部 12は、 ゲノム配列 DB 22中のゲノム配列 Gを参照し て、 必要な長さ (たとえば、 14—mer) のプライマ一キーの各々が、 ゲノム 配列 G中のどの位置に表れているかを示すマップテーブルを生成して、 これをマ ヅプテーブル記憶部 14に記憶する。 マップテーブル生成部 1 2により生成されたマップテーブルを利用したァライ ンメントに関して、 以下により詳細に説明を加える。 図 6は、 開始/終了ポイン ト検出部 1 6およびァラインメント実行部 1 8により実行される処理を示すフロ —チャートである。図 6に示すように、まず、開始/終了ボイント検出部 1 6は、 E S T配列 Eの先頭からプライマリーキ一の長さ Lだけ取り出したものをプレフ ィックスに決定するとともに、 E S T配列 Eの末尾からプライマリ一キーの長さ Lだけ取り出したものをサフィヅクスと決定する (ステップ 6 0 1 ) 。 次いで、 開始 Z終了ボイント検出部 1 6は、 マップテ一プル記憶部 14中のマヅプテープ ルを参照して、 プリフィックスおよびサフィックスを、 ゲノム配列 G上にァライ ンメントする (ステップ 602 ) 。 これは、 マップテーブルを参照して、 プリフ イツクスに対応する配列の位置を特定し、 また、 サフィックスに対応する配列の 位置を特定することにより実現される。 これにより、 図 3において、 E S T配列 Eにおける長さ Lのプリフィックス (符号 3 0 1参照) が、 ゲノム配列 Gの所定 の部分 (符号 302参照) にァランメントされ、 かつ、 サフィ ヅクス (符号 3 1 1参照) が、 ゲノム配列 Gの所定の部分 (符号 3 1 2参照) にァラインメントさ ァラインメント実行部 1 8は、 上記延長ステップおよびィントロンをスキップ した次のェクソンの検出ステップを実行する。 ここでは、 初期的には、 E S T酉己 列中の第 L+ 1番の位置に着目する ( i = L + l ) (ステップ 603 ) 。 ァライ ンメント実行部 1 8は、 E S T配列中の第 i番のヌクレオチド eiが、 対応する ゲノム配列 G中の第: e (i) 番のヌクレオチド g (f (in と一致するか否かを判 断する(ステップ 6 04)。ステップ 6 04でイエス(Yes)と判断された場合には、 f ( i) =f ( i - 1) + 1としてから iをインクリメントして (ステップ 6 0 5、 6 06 ) 、 引き続くヌクレオチドが一致するか否かが判断される。 The map table generation unit 12 refers to the genome sequence G in the genome sequence DB 22 and determines at which position in the genome sequence G each of the primer keys of a required length (for example, 14-mer) appears. Is generated, and this is stored in the map table storage unit 14. The alignment using the map table generated by the map table generation unit 12 will be described in more detail below. FIG. 6 is a flowchart showing processing executed by the start / end point detection unit 16 and the alignment execution unit 18. As shown in FIG. 6, first, the start / end point detection unit 16 determines, from the beginning of the EST array E, the one extracted by the length L of the primary key as a prefix, and from the end of the EST array E The suffix is determined by taking out the length L of the primary key (step 601). Next, the start Z end point detection unit 16 refers to the map table in the map table storage unit 14 and aligns the prefix and suffix on the genome sequence G (step 602). This is achieved by referring to the map table to specify the position of the array corresponding to the prefix and specifying the position of the array corresponding to the suffix. As a result, in FIG. 3, the prefix of the length L in the EST sequence E (see reference numeral 301) is aligned with a predetermined portion of the genome sequence G (see reference numeral 302), and the suffix (see reference numeral 311) is obtained. However, the alignment execution unit 18 executes the above-described extension step and the step of detecting the next exon skipping the intron. Here, initially, attention is paid to the position of L + 1 in the EST sequence (i = L + l) (step 603). The alignment execution unit 18 determines whether the i-th nucleotide ei in the EST sequence matches the nucleotide g (f ( in ) in the corresponding genomic sequence G: e (i). (Step 604) If it is determined to be Yes in Step 604, then i is incremented after setting f (i) = f (i-1) + 1 (Step 605, 6). 06), it is determined whether the subsequent nucleotides match.
図 3において、 たとえば、 E S T配列 Eにおいて、 第 5番 ( 5 = 1 + L : ただ し L = 4) のヌクレオチドと、 ゲノム配列 Gにおける第 f (5) 番のヌクレオチ ドとが比較され (矢印 32 1参照) 、 これらが一致するため、 ェクソンが一つ延 長される。 次いで、 第 6番のヌクレオチドと、 ゲノム配列における第: f (6) 番 (f (6) =f (5) + 1)のヌクレオチドとが比較される (矢印 322参照) 。 このようにして、 双方が一致する限りェクソンが延長される。 In FIG. 3, for example, in the EST sequence E, the 5th nucleotide (5 = 1 + L: L = 4) is compared with the f (5) nucleotide in the genome sequence G (arrow Since these match, Exxon is extended by one. Next, the sixth nucleotide and the f (6) in the genome sequence (f (6) = f (5) +1) is compared (see arrow 322). In this way, the exon is extended as long as the two agree.
eiと ) とが一致しなくなった状態で (ステップ 604でノ一(No)) 、 ア ラインメント実行部 18は、 E S T配列 E中の E [i( i + L-12をプライマリ一キー として、 マップテーブル記憶部 14中のマップテーブルを参照して、 ゲノム配列 G中の E [ i + L_uの位置を見出す (ステップ 607) 。 これにより、 次のェク ソンの位置が特定される。 先の処理において延長されたェクソンにァラインメン トされたゲノム配列 Gにおける終了位置と、 次のェクソンにァラインメントされ たゲノム配列 Gにおける先頭位置との間に存在する配列が、 イントロンとなる。 ェクソンの位置が特定されると、 当該ェクソンを延長させる処理が繰り返され る。 これに際して、 ヌクレオチドの位置 iが、 i +Lに設定される (ステップ 6 09) o When ei and) no longer match (No in step 604 (No)), the alignment execution unit 18 sets E [i (i + L - 12 ) in the EST array E as the primary key, by referring to a map table in the map table storage unit 14, find the position of the E [i + L _ u in the genome sequence G (step 607.) This is the position of the next E click Son is identified. The sequence existing between the end position in the genome sequence G aligned to the exon extended in the previous process and the head position in the genome sequence G aligned to the next exon becomes an intron. When the position of the exon is specified, the process of extending the exon is repeated, and at this time, the position i of the nucleotide is set to i + L (step 609) o
たとえば、 図 4において、最初のェクソンに関して、ェクソンが延長されて (符 号 40 1、 403参照) 、 ゲノム配列 Gへのアラインメントが実現される (符号 402、 404参照) 。 ここで、 矢印 431に示す位置において、 £ 311配列£ 中のヌクレオチドと、 ゲノム配列 G中のヌクレオチドとは一致するが、 次のヌク レオチドは一致しない (矢印 432参照) 。 このような場合には、 E S T配列 E において、 次の L— me r配列である 「TGCC」 が特定され、 マヅプテ一ブル を参照することにより、 これがゲノム配列 Gにアラインメントされる (符号 41 2参照) 。 したがって、 符号 404と符号 4 12との間に介在する配列がイント ロン 410となる。 さらに、 次のェクソン 4 1 1に関して、 同様の処理が実行さ れて、 ヌクレオチドが一致する限りェクソンが延長される。 For example, in FIG. 4, for the first exon, the exon is extended (see reference numerals 401 and 403) to achieve alignment to the genomic sequence G (see reference numbers 402 and 404). Here, at the position indicated by the arrow 431, and £ 31 1 sequence £ medium nucleotides, but coincides with the nucleotides in the genomic sequence G, the following nucleotide does not match (see arrow 432). In such a case, the next L-mer sequence “TGCC” is specified in the EST sequence E, and is aligned with the genome sequence G by referring to the mappable (see reference numeral 412). ). Therefore, the array interposed between the reference numerals 404 and 412 is the intron 410. Further, for the next exon 411, a similar process is performed to extend the exon as long as the nucleotides match.
' このような処理が、 サフィックスに到達するまで繰り返される (図 6のステヅ プ 608、 図 4の符号 421、 422参照) 。 'Such processing is repeated until the suffix is reached (see step 608 in FIG. 6 and reference numerals 421 and 422 in FIG. 4).
このように本実施の形態によれば、 ェクソンを延長するステップ、 および、 ィ ントロンをスキップするステップとを繰り返すことにより、 より高速にァライン メントを実現することが可能となる。  As described above, according to the present embodiment, it is possible to realize the alignment at higher speed by repeating the step of extending the exon and the step of skipping the intron.
[ミスマッチを認めるァラインメント] 実際には、 E S Tが、 1 00%の同一性をもってアラインメントされることは なく、 アラインメント中にはミスマッチが生じている。 これらミスマッチを認め るために、 本出願人らは、 上記アルゴリズムを改良した。 [Alignment to allow mismatch] In practice, ESTs are not aligned with 100% identity, and there is a mismatch during alignment. To recognize these mismatches, the Applicants have improved the above algorithm.
実際には、 上記第 1のステップにおいて、 E S T配列 E中のプレフィックスお よびサフィックスの位置を決定することは容易ではない。 これは、 プレフィック ス E E1, L]或いはサフィヅクス E [N_L+ 1, N]がミスマッチを含む可能性があるか らである。 したがって、 ゲノム配列中の E S T配列の開始ポイントおよび終了ポ イントを検出することができない。これを解決するために、マヅプテーブル中で、 長さ Lの部分列が見出されるまで、 開始ポイント (先頭) から、 £ 3丁配列£が 走査され、 かつ、 同様の手法で、 終了ポイント (終端) から、 3丁配列 が走 査される。 これについて、 図 1 1等を参照しつつ、 より詳細に説明を加える。 In practice, it is not easy to determine the positions of the prefix and suffix in the EST sequence E in the first step. This is because the prefix E E1 , L] or the suffix E [ N_L + 1 , N] may contain a mismatch. Therefore, the start point and end point of the EST sequence in the genome sequence cannot be detected. To solve this, the start point (start) is scanned from the start point (start) until a subsequence of length L is found in the map table, and in a similar manner the end point (end) From, three arrays are scanned. This will be described in more detail with reference to FIGS.
[E S Tの開始ポイントの近似 (推定) :第 1のステップ中のステップ 1. 1] i = lに初期化し、マヅプテ一プル中で E [ i + uの位置が見出されるまで iをインクリメントする (図 1 1のステップ 1 1 0 1 ) 0この後、 E n, i— nを、 ァラインメントすべきものとして残った、 E S Tの懸垂部分(dangling part)と称 する (図 1 1のステップ 1 1 02および図 7の符号 703参照) 。 次いで、 E S T配列 Eの懸垂部分 E i→1を、 ゲノム配列の部分列 G [f (i) _i + 1> f (i) _u (符号 704参照) とァラインメン トさせ (矢印 72 1) 、 各 h= 1 , · · ·、 i - 1に対する f (h) を求める (図 1 1のステップ 1 1 03) 。 これには、 動 的プログラミングが用いられ得る。 [Approximation of the starting point of EST (estimation): Step 1.1 in the first step] Initialize to i = l, and increment i until the position of E [i + u is found in the map ( Figure 1 1 step 1 1 0 1) 0 Thereafter, E n, the i-n, remained as to be § line Instruments, referred to as the suspended portion of the EST (dangling part) (step 1 1 in Figure 1 1 02 and 703 in FIG. 7). Then, the pendant moieties E i → 1 EST sequences E, subsequence of genomic sequence G [f (i) _ i + 1> f (i) _ u ( reference numeral 704) and Arainmen by preparative (arrow 72 1) , F (h) for each h = 1,..., I−1 (step 1 103 in FIG. 11). This may use dynamic programming.
[E S Tの終了ポイントの近似 (推定) : ステヅプ 1. 2]  [Approximation (estimation) of the end point of EST: step 1.2]
j =Nに初期化し、 マップテーブル中で、 E — の位置が見出されるま で iをデクリメントする (図 1 1のステップ 1 1 04)。この後、 E [ j + 1,N]を、 アラインメントすべきものとして残った、 E S Tの懸垂部分と称する (図 1 1の ステップ 1 10 5および図 7の符号 Ί 1 3参照) 。 次いで、 E ST配列 Eの懸垂 部分 E u + 1, N]を、 ゲノム配列の部分列 G [ (符号 7 14参 照) とアラインメントさせ (矢印 72 2 ) 、 各 h = j + 1 , · · · Nに対する f (h) を求める (図 1 1のステップ 1 1 06) 。 これにも、 動的プログラミング が用いられ得る。 ' Initialize to j = N and decrement i until the position of E — is found in the map table (step 1 104 in Figure 11). Thereafter, E [j + 1 , N] is referred to as the suspended part of the EST that remains to be aligned (see step 1105 in FIG. 11 and reference numeral 13 in FIG. 7). Next, the suspended portion Eu + 1 , N] of the EST sequence E is aligned with the subsequence G [ (see reference numeral 714) of the genomic sequence (arrow 722), and each h = j + 1,. · Find f (h) for N (step 1 106 in Fig. 11). Again, dynamic programming Can be used. '
また、 EST中のミスマッチは、 ェクソンを延長し、 また、 イントロンをスキ ップすることを困難にする。 延長は、 ミスマッチが無くェクソンが終端したとき に終了するが、 ェクソンの終端に達し、 或いは、 アラインメントにミスマッチが あったときには、 ェクソンの延長は失敗に終わってしまう。  Mismatches during the EST also prolong exons and make it difficult to skip introns. The extension ends when there is no mismatch and the exon ends, but when the end of the exon is reached or there is a mismatch in the alignment, the exon extension will fail.
[ 1つのェクソンの特定:ステップ 2. 1]  [Identifying One Exon: Step 2.1]
上記第 1のステップに引き続いて実行される処理につき、 図 12等を参照して 説明を加える。  The processing executed subsequent to the first step will be described with reference to FIG. 12 and the like.
アラインメントされていない E S Tの最小位置に iを初期化して (図 12のス テヅプ 1201および図 8の EST配列 Eにおける第(i + 4)番の位置参照)、 EST配列 E中の第 i番のヌクレオチドが、 ゲノム配列 G中の第 (f ( i- 1) + 1 ) 番のヌクレオチドと一致する限り (図 12のステップ 1202でイエス (Yes)), f ( i) = f ( i— 1 ) + 1にセットして(図 12のステップ 1203)、 iをインクリメントする (図 12のステップ 1204および図 8の矢印 821参 照) 。 次いで、 x= i— 1にセッ トして、 延長が終わる E S T中の位置 i— 1を 記憶する。  Initialize i to the minimum position of the unaligned EST (see step 1201 in FIG. 12 and position (i + 4) in EST sequence E in FIG. 8), and As long as the nucleotide matches nucleotide (f (i-1) +1) in genome sequence G (yes in step 1202 in FIG. 12), f (i) = f (i-1) Set it to +1 (step 1203 in FIG. 12) and increment i (see step 1204 in FIG. 12 and arrow 821 in FIG. 8). Then, set x = i-1 and memorize the position i-1 in EST where the extension ends.
[次のェクソンの特定:ステップ 2 , 2 ]  [Identify the next exon: Steps 2 and 2]
マップテーブル中に、 E i i + h-1}の位置が見出されるまで、 iをィンクリメ ントする(図 12のステップ 1205参照)。今後、 E [x + 1, i 13を、 ァラインメ ントすべきものとして残った、 ESTの懸垂部分と称する (図 12のステップ 1 206および図 9の符号 903参照) 。 図 9においては、 E S T配列 Eの第 i番 の位置からの配列 E [i, i + 3]が、 ゲノム配列 G中の G [ i + 3]にァラインメント されている (符号 901、 902参照) 。 この E , 1+ 3] 901が次のェクソン となる。 Increment i until the position of E ii + h - 1} is found in the map table (see step 1205 in FIG. 12). In the future, the E [x + 1, i 13 , remained as should Arainme Santos, referred to as pendant moieties of the EST (reference numeral 903 in steps 1 206 and 9 in Figure 12). In FIG. 9, the sequence E [i, i + 3] from the i-th position of the EST sequence E is aligned with G [ i + 3] in the genome sequence G (reference numerals 901 and 902). See). This E, 1 + 3] 901 is the next exon.
[E S Tの懸垂部分のアラインメント :ステップ 2. 3] [Alignment of the suspended part of E ST: Step 2.3]
3?配列£の懸垂部分∑ [x+ 1 ) i_ (図 9の符号 903参照) を、 ゲノム配 列 Gの部分列 G [f (x) +1, f (i) _1: (図 9の符号 904参照) とァラインメント させる (ステップ 1207) 。 ここでも動的プログラミングを利用することがで きる。 図 10Aは、 動的プログラミングの後、 イントロンが検出されなかった場 合を示し、 図 10Bは、 イントロン (符号 101 1参照) が見出された場合を示 す。 ? 3 sequence £ pendant moiety Σ [x + 1) i_ (reference numeral 903 in FIG. 9), the genomic sequence G subsequence G [f (x) +1, f (i) _ 1: ( in FIG. 9 It is aligned with reference numeral 904) (step 1207). Again, you can use dynamic programming Wear. FIG. 10A shows a case where no intron was detected after dynamic programming, and FIG. 10B shows a case where an intron (see reference numeral 1011) was found.
このような処理をサフィヅクスに到達するまで繰り返す (図 12のステップ 1 208, 1209参照) 。  Such processing is repeated until the suffix is reached (see steps 1208 and 1209 in FIG. 12).
[さらなる高速化]  [Faster speed]
実際に、 イントロンは、 多くは数百の塩基対の長さとなるが、 数千の塩基対の 長さとなり得る。 EST配列の懸垂部分 E [x + 1, i_ nを、 G [f (x) +1, f (i) _n にァラインメントさせるための初歩的な動的プログラミングにおいては、 ステツ プ 2. 3で G [f (X) + 1, f ) — 13がィントロンを含む場合に、 猛烈な計算が実行 される。 このステップを加速するために、 動的プログラムを適用する前に、 E [x + 1, i- n (図 13の符号 1301参照) と G [ 11 (図 13の符号 1302、 1304および 1303参照) とを比較することにより、 部分列 G [f (X) + 1, f (1) -!]にイントロンが含まれるか否かが判断される。 G [f (x) +1f (1) _nが、 E [x+ 1, より著しく大きい場合 (たとえば、 所定の比率を設定し、 或いは、 部分列の差の閾値を設定すればよい) には、 G [f+ 1, f ) — 13は、 イントロン (符号 1304参照) を含む。 この場合には、 E [x + 1 , i は、 G [f (x) + i , f (x) + ( i -x) ] (符" ¾ 130 照) および G [f ( 1 ){ i-x) , f ( i ) - !] (符号 1303参照) にアラインメントさせるべきであるため、 EST配列の懸 垂部分 E [x + 1 ) i _ nを、 長さ i— Xの二つの配列の連結、 G [f (x) +1, f (x) + (i In fact, introns can be thousands of base pairs in length, often many hundreds of base pairs in length. Pendant moieties of the EST sequence E [x + 1, the i_ n, G [f (x ) +1, in rudimentary dynamic programming for causing § Line Instrument in f (i) _ n is Sutetsu flop 2. If G [f (X) + 1 , f ) — 13 contains an intron at 3, a furious calculation is performed. To accelerate this step, E [x + 1 , i-n (see reference numeral 1301 in FIG. 13) and G [1 : 1 (see reference numerals 1302, 1304 and 1303 in FIG. 13) before applying the dynamic program. ) To determine whether the subsequence G [f ( X ) +1 , f (1 )-!] Contains an intron. G [f (x) +1 , f (1) _ n is significantly larger than E [x + 1 , (for example, set a predetermined ratio or set a threshold for the difference between subsequences) the, G [f) + 1, f) - 13 includes an intron (reference numeral 1304). In this case, E [x + 1, i is, G [f (x) + i, f (x) + (i -x)] ( marks "¾ 130 irradiation) and G [f (1) one { i - x ), f (i) -!] (see reference numeral 1303), so that the suspended part E [x + 1) i _ n of the EST array is Array concatenation, G [f (x) +1 , f (x) + (i
-x) ] +G [ f ( i ) - ( i -x) , f ( i ) - 1 ]にァラインメントさせる。 -x)] + G [f (i)-(i -x), f (i)-1].
[イントロンモチーフ]  [Intron motif]
上記実施の形態においては、ェクソン領域およびィントロン領域が推定された。 しかしながら、 ェクソン/イントロンの境界に関する決定には、 考慮すべき他の 要素が求められる。 たとえば、 ある境界が以下のものであると考える (パターン A) 。  In the above embodiment, the exon region and the intron region were estimated. However, decisions regarding the exon / intron boundary require other factors to consider. For example, consider a boundary to be (pattern A):
GC C/T . . · AC/GT  GC C / T.. · AC / GT
また、 境界は、 以下のものともなり得る (パターン B) 。 GC/C T · · · A/CGT The boundaries can also be (pattern B): GC / CT · · · A / CGT
これらの各々において、 マッチング率は同一だからである。 したがって、 何れ のパターンが正しいかを決定することができない。  In each of these, the matching rate is the same. Therefore, it is not possible to determine which pattern is correct.
また、 イントロン/ェクソンの結合位置は、 イントロンモチーフの考えに基づ いて決定することができる。 イントロンは、 いわゆる "GT— AG "ルールに従 う 5 '末端および 3 '末端の継ぎ合わされた位置(スプライスサイ ト: splice site) により側面を接している。 つまり、 典型的なイントロンは、 "GT"で開始し、 ダイヌクレオチド(dinucleotide)である "AG"で終わっている。 任意に選択さ れたスプライスサイ トが、 両端でこれらモチーフを有している確率は、 1/25 6である。 したがって、 イントロンのフレームが、 前方或いは後方 (つまり、 5, 末端から 3' 末端、 或いは、 3' 末端から 5' 末端) に動いたときに、 ゲノム配 列においてィントロンモチーフが見出された場合には、 ィントロンモチーフの考 えに基づき、 ィントロンが真正なイントロンである可能性がある。  Also, the binding position of intron / exon can be determined based on the idea of an intron motif. The introns are flanked by spliced sites at the 5 'and 3' ends according to the so-called "GT-AG" rule. So a typical intron starts with "GT" and ends with "AG" which is a dinucleotide. The probability that an arbitrarily selected splice site has these motifs at both ends is 1/256. Thus, an intron motif was found in the genomic sequence when the frame of the intron moved forward or backward (ie, at the 5 'end to the 3' end, or at the 3 'end to the 5' end). In some cases, based on the idea of the intron motif, the intron may be a genuine intron.
したがって、 本実施の形態においても、 必要に応じて、 イントロンのモチーフ 則を利用して、ァラインメントの結果に修正を加えることも可能である。以下に、 その手順につき説明を加える。  Therefore, also in the present embodiment, it is possible to make corrections to the alignment result using the intron motif rule, if necessary. The procedure is described below.
たとえば、ァラインメントの処理により決定されたィントロンの領域の長さ(塩 基数) を保持した状態で、 イントロンの位置を、 前後にずらし、 ずらした状態に おけるイントロン (イントロン候補) の両端の塩基を調べる。 両端の塩基がイン トロンモチーフに従うのであれば、 当該イントロン候補の位置を、 新たなイント ロンの位置と推定する。  For example, while maintaining the length (base number) of the intron region determined by the alignment process, the position of the intron is shifted back and forth, and the bases at both ends of the intron (intron candidate) in the shifted state are shifted. Find out. If the bases at both ends follow the intron motif, the position of the candidate intron is estimated as the position of a new intron.
[マッチング率]  [Matching rate]
上記ィントロン領域を決定すると、 ゲノム配列と写像された E S T領域とのマ ヅチング率が調べられる。 E S T配列が正確に読まれている場合には、 ゲノム配 列とコード化された E S T配列との間のマッチング率は 99. 9% (残りの 0. 1%は、 各ヒトゲノムの間の相違つまり SNPである) であるため、 マッチング 率の低い E S T配列はコード化されていないと考えた。 実際に、 マッチング率の 低い EST配列は、 多数のミスリードの (読み違えた) ヌクレオチドを含み、 或 いは、 ゲノム配列中でコード化されていない。 本出願人らの実行結果によれば、 マッチング率の下限(lower boundary)は、 80%から 90%の間のいずれかの値 に設定された。 When the above-mentioned intron region is determined, the matching ratio between the genome sequence and the mapped EST region is examined. If the EST sequence is read correctly, the matching rate between the genomic sequence and the encoded EST sequence is 99.9% (the remaining 0.1% is the difference between the human genomes). Therefore, it was considered that the EST sequence with a low matching rate was not encoded. In fact, EST sequences with low matching rates contain a large number of misread (misread) nucleotides, Or not encoded in the genome sequence. According to our results, the lower boundary of the matching rate was set to some value between 80% and 90%.
[2以上のァラインメントのための解決法]  [Solution for two or more alignments]
ゲノム配列中の 2以上の E S Tをそれそれァラインメン卜させるための解決法 について説明を加える。 これは、 ESTが、 しばしば、 レトロ トランスポジショ ン (retro— transposition)や遺伝子の二重ィ匕 (gene— duplication)により、ある染色 体において多数の異なる領域にァラインメントされるからである。 この問題を解 決するために、 開始ボイントおよび終了ボイントの組からなる幾つかの対をァラ インメントさせた。  A solution for aligning two or more ESTs in a genomic sequence is described. This is because ESTs are often aligned to many different regions in a chromosome by retro-transposition or gene-duplication. To solve this problem, several pairs of start and end points were aligned.
ステップ 1. 1およびステップ 1. 2 (図面においては、 図 11のステップ 1 10 ί〜1 106) において、 E S Τの開始ポイントと終了ポイントが推定され たが、マップテ一ブルが、プライマリ一キーごとに多数の候補を有する場合には、 開始ポイントおよび終了ポイントは決定されない。 この場合には、 ステップ 1. 1 (図 11のステップ 1101〜 1103参照) におけるマップテーブル中の開 始ポイントの候補の組を、 開始集合とし、 かつ、 ステップ 1. 2 (図 11のステ ップ 1104〜1 106参照) における終了ポイントの候補の組を、 終了集合と する。 以下に、 アルゴリズムを記す。  In step 1.1 and step 1.2 (in the drawing, steps 110 to 1106 in Fig. 11), the start and end points of ES Τ were estimated. If there is a large number of candidates, the start and end points are not determined. In this case, the set of starting point candidates in the map table in step 1.1 (see steps 1101 to 1103 in FIG. 11) is used as a starting set, and step 1.2 (steps in FIG. 11) 1104 to 1106) is a set of end point candidates in the end set. The algorithm is described below.
[ステップ 1. 3]  [Step 1.3]
「s t a r t」 および「e nd」 ( s t a r t e開始集合, e n d e終了集合) の間の距離が、 所定の大きさ (たとえば、 1, 000, O O Obp) より小さい 場合には、 ステップ 2. 1〜2. 3 (図面においては図 12の処理) を実行する ことにより、 E [ j— L]を G [s tart, end]にアラインメントさせる。 この手法 は力ずくのように思えるが、 与えられた E S Tを適切にァラインメン卜させるこ とができる。 If the distance between “start” and “end” (starte start set, ende end set) is smaller than a predetermined size (for example, 1,000, OO Obp), steps 2.1-2. 3 (Processing of Fig. 12 in the drawing) aligns E [j- L] with G [s start , end] . Although this method seems brute force, it can properly align a given EST.
このように、 本実施の形態によれば、 マップテーブルを参照して、 まず、 E.S T配列の先頭部分および終端部分の位置を特定し、 次いで、 先頭部分と終端部分 に挟まれた E S T配列の残りの部分を、 対応するゲノム配列中の部分列にァライ ンメントしている。 このアラインメントにおいて、 マップテ一プルを参照して、 まず、 プライマリーキーの長さからェクソンを延長させ、 かつ、 E S T配列とゲ ノム配列のヌクレオチドがー致しない位置から次のェクソンが表れるまでの、 ゲ ノム配列 G中の部分列をスキップすることができる。 これにより、 ァラインメン トをより高速に実現することが可能となる。 As described above, according to the present embodiment, by referring to the map table, first, the positions of the start and end of the EST array are specified, and then the position of the EST array sandwiched between the start and end is determined. Align the rest with the corresponding subsequence in the genome sequence. Is mentoring. In this alignment, referring to the map template, the exon is first extended from the length of the primary key, and the exon is extended from the position where the nucleotides of the EST sequence and the genomic sequence do not match until the next exon appears. Subsequences in nom array G can be skipped. This makes it possible to realize alignment at higher speed.
本発明は、 以上の実施の形態に限定されることなく、 特許請求の範囲に記載さ れた発明の範囲内で、 種々の変更が可能であり、 それらも本発明の範囲内に包含 されるものであることは言うまでもない。  The present invention is not limited to the above embodiments, and various modifications are possible within the scope of the invention described in the claims, and these are also included in the scope of the present invention. Needless to say,
たとえば、 前記実施の形態において、 イントロンモチーフを用いたァラインメ ントの修正法では、 イントロンの長さを保ちつつ、 前後にずらして、 ずらされた 位置におけるィントロン候補の端部の塩基を調べているが、 このような手法に限 定されるものではない。  For example, in the above embodiment, in the alignment correction method using the intron motif, the length of the intron is shifted back and forth while maintaining the length of the intron, and the base at the end of the intron candidate at the shifted position is examined. However, it is not limited to such a method.
また、 本発明を利用することで、 E S T配列がどの程度正確に読まれているか を、 マッチング率を調べることにより評価することもできる。 \  Further, by using the present invention, it is also possible to evaluate how accurately the EST sequence is read by examining the matching ratio. \
さらに、 本明細書において、 一つの手段の機能が、 二つ以上の物理的手段によ り実現されても、 若しくは、 二つ以上の手段の機能が、 一つの物理的手段により 実現されてもよい。  Furthermore, in this specification, the function of one means may be realized by two or more physical means, or the function of two or more means may be realized by one physical means. Good.
本発明によれば、長いギヤップを少数だけ挿入するようなァルゴリズムにより、 高速に E S T配列をァラインメントできる手法を提供することが可能となる。 産業上の利用分野  ADVANTAGE OF THE INVENTION According to this invention, it becomes possible to provide the technique which can align an EST arrangement | sequence at high speed by the algorithm which inserts only a few long gaps. Industrial applications
たとえば、 c D N Aを写像することにより、 より正確な遺伝子マップを作成す ることができる。 これにより、 人の遺伝子の数、 プロモ一夕一領域、 イントロン ノエクソンの構造を知ることができる。 医薬の分野では、 病気に関係する遺伝子 が知られたような事例が多数存在する。 完全な遺伝子マップを作ることにより、 このような遺伝子の局在化(local ization)が可能となる。  For example, by mapping cDNA, a more accurate gene map can be created. By doing this, it is possible to know the number of human genes, the entire region of the promoter, and the structure of intronic noexons. In the field of medicine, there are many cases where genes related to diseases are known. Creating a complete genetic map allows for localization of such genes.

Claims

請 求 の 範 囲 The scope of the claims
. ゲノム配列に対して、 E S T配列を写像する方法であって、 A method of mapping an EST sequence to a genome sequence,
ゲノム配列を参照して、 当該ゲノム配列中に、 所定長のプライマリ一キーの 各々が表れる位置を示すマップテーブルを生成するステップと、  Generating a map table indicating a position where each of the primary keys of a predetermined length appears in the genome sequence by referring to the genome sequence;
前記マップテーブルを参照して、 前記ゲノム配列において、 E S T配列のプ リフィックスに相当する位置を見出して、 前記プリフィックスをァラインメン 卜させるステップと、  Referring to the map table, finding a position corresponding to a prefix of an EST sequence in the genome sequence, and aligning the prefix;
前記マップテーブルを参照して、 前記ゲノム配列において、 E S T配列のサ フィックスに相当する位置を見出して、 前記サフィックスをァラインメントさ せるステップと、  Referring to the map table, finding a position corresponding to a suffix of an EST sequence in the genomic sequence, and aligning the suffix;
前記 E S T配列においてプリフィックスおよびサフィックスの間に介在する 第 1の部分列に関して、 前記ゲノム配列中、 前記アラインメントされたプリフ ィ ックスに相当する配列と、 サフィックスに相当する配列との間に介在する第 2の部分列にァラインメントさせるステツプとを備えたことを特徴とする E S T配列の写像方法。  Regarding a first subsequence interposed between a prefix and a suffix in the EST sequence, a second intervening sequence between the sequence corresponding to the aligned prefix and the sequence corresponding to the suffix in the genomic sequence. And a step of aligning the sub-sequences.
. 前記第 1の部分列に関して、 第 2の部分列にアラインメントさせるステップ が、 . Aligning the second subsequence with respect to the first subsequence comprises:
ァラインメントがなされた E S T中の領域であるェクソンを延長させるステ ヅプと、  Extending exon, a region in the aligned E ST, and
ィントロンをスキップするステップとを有することを特徴とする請求項 1に 記載の方法。 Skipping the intron.
. 前記第 1の部分列に関して、 第 2の部分列にアラインメントさせるステップ が、 For the first sub-sequence, the step of aligning the second sub-sequence comprises:
前記 E S T配列中の要素とゲノム配列中の要素とがー致する限り、 前記プリ フィックスを延長するステップと、  Extending the prefix as long as the elements in the E ST sequence and the elements in the genome sequence match;
前記要素が一致しない場合に、 前記延長されたプリフィックスをェクソンと 特定するとともに、 E S T配列において、 前記プリフィックスに引き続く、 所 定長の配列をプライマリーキーとして、 マップテーブルを参照して、 前記ゲノ ム配列において、 当該プライマリーキ一に相当する位置を見出して、 当該所定 長の配列をァラインメントさせるステップと、 If the elements do not match, the extended prefix is identified as an exon, and in the EST sequence, a fixed-length array following the prefix is used as a primary key, and a map table is referred to, and Finding a position corresponding to the primary key in the sequence, and aligning the sequence of the predetermined length;
前記 E S T配列中の要素とゲノム配列中の要素とがー致する限り、 前記所定 長の配列を延長するステップとを有し、  Extending the sequence of the predetermined length as long as the element in the EST sequence and the element in the genome sequence match,
前記所定長の配列を延長するステップと、 前記引き続く所定長の配列をァラ ィンメントするステップとを繰り返すことにより、 前記ゲノム配列への、 前記 E S T配列のァラインメントを実現することを特徴とする請求項 1または 2 に記載の方法。  By repeating the step of extending the sequence of the predetermined length and the step of aligning the subsequent sequence of the predetermined length, alignment of the EST sequence with the genomic sequence is realized. 3. The method according to claim 1 or 2.
. 前記プリフィックスをァラインメントさせるステップが、 The step of aligning the prefix comprises:
前記マップテーブルを参照して、 前記 E S T配列の前方から所定の位置にあ る所定長の配列が、 ゲノム配列中に見出される位置を特定するステップと、 当該所定の位置より前方に位置する部分列である第 1の懸垂部分に関して、 前記ゲノム配列中の位置より前方に位置する部分列にァラインメントさせる ステップとを有することを特徴とする請求項 1ないし 3の何れか一項に記載 の方法。  Referring to the map table to identify a position where a sequence of a predetermined length at a predetermined position from the front of the EST sequence is found in the genome sequence; and a subsequence positioned before the predetermined position. And aligning the first suspended portion with a subsequence located ahead of the position in the genome sequence. 4. The method according to claim 1, wherein .
. 前記サフィヅクスをァラインメントさせるステツプが、 The steps for aligning the suffix include:
前記マップテーブルを参照して、 前記 E S T配列の後方から所定の位置にあ る所定長の配列が、 ゲノム配列中に見出される位置を特定するステップと、 前記所定の位置より後方に位置する部分列である第 2の懸垂部分に関して、 前記ゲノム配列中の位置より後方に位置する部分列にァラインメントさせる ステップとを有することを特徴とする請求項 1ないし 4の何れか一項に記載 の方法。 Referring to the map table to identify a position where a sequence of a predetermined length located at a predetermined position from the back of the EST sequence is found in the genome sequence; and a subsequence positioned behind the predetermined position. And aligning the second suspended portion with a subsequence located after the position in the genome sequence. 5. The method according to claim 1, wherein .
. 前記第 1の部分列に関して、 第 2の部分列にアラインメントさせるステップ が、 For the first sub-sequence, the step of aligning the second sub-sequence comprises:
前記 E S T配列中の要素とゲノム配列中の要素とがー致する限り、 前記プリ フィヅクスを延長するステップと、  Extending the prefix as long as the element in the EST sequence and the element in the genomic sequence match;
前記要素が一致しない場合に、 前記延長されたプリフィックスをェクソンと 特定するとともに、 前記 E S T配列において、 前記プリフィックスより前方の 所定の位置にある所定長の配列が、 ゲノム配列中に見出される位置を特定する ステップと、 If the elements do not match, the extended prefix is identified as exon, and in the EST sequence, Identifying a position where a sequence of a predetermined length at a predetermined position is found in the genome sequence;
前記プリフィックスの端部と、 前記所定の位置との間に位置する部分列であ る第 3の懸垂部分に関して、 前記ゲノム配列において、 前記プリフィックスに 相当する位置と、 前記見出される位置との間に位置する部分列にァラインメン ドさせるステップとを有することを特徴とする請求項 3または 4に記載の方 法。  Regarding a third suspension portion, which is a subsequence positioned between the end of the prefix and the predetermined position, in the genome sequence, between a position corresponding to the prefix and the position to be found 5. The method according to claim 3, further comprising the step of aligning the located sub-sequence.
7 . さらに、 前記イントロンと判断された部分列のそれそれの端部から、 所定の 範囲にある要素を参照して、 ィントロンのモチーフ則に従う要素を見出すステ ップと、  7. Further, from each end of each of the substrings determined to be introns, referencing elements within a predetermined range, and finding elements that conform to the intron motif rule;
前記要素を端部とするようにイントロンを修正するステツプとを備えたこと を特徴とする請求項 2ないし 6の何れか一項に記載の方法。  7. A method as claimed in any one of claims 2 to 6, comprising the step of modifying the intron to end the element.
8 . 前記要素を見出すステップが、 8. The step of finding the element is
前記ィントロンと判断された部分列の要素数を保持しつつ、 当該ィントロン を前後にずらして、 新たなイントロン候補を特定するステップと、  Identifying the new intron candidate by shifting the intron back and forth while retaining the number of elements of the subsequence determined to be the intron;
前記新たなィントロン候補のそれそれの端部が、 イントロンのモチーフ則に 従うか否かを判断するステップとを有することを特徴とする請求項 7に記載 の方法。  Determining whether each end of the new intron candidate obeys the intron motif rule.
9 . さらに、 前記アラインメントの結果から、 E S T配列のマッチング率を算出 するステツプを備えたことを特徴とする請求項 1ないし 8の何れか一項に記 載の方法。  9. The method according to any one of claims 1 to 8, further comprising a step of calculating an EST sequence matching ratio from the result of the alignment.
10. ゲノム配列に対して、 E S T配列を写像するためにコンビュ一夕を動作させ る、 コンピュータにより読み取り可能なプログラムであって、  10. A computer-readable program for operating a computer to map an EST sequence to a genomic sequence,
ゲノム配列を参照して、 当該ゲノム配列中に、 所定長のプライマリ一キーの 各々が表れる位置を示すマヅプテ一ブルを生成するステップと、  Generating a map showing a position where each of the primary keys of a predetermined length appears in the genome sequence by referring to the genome sequence;
前記マップテ一ブルを参照して、 前記ゲノム配列において、 E S T配列のプ リフィックスに相当する位置を見出して、 前記プリフィヅクスをァラインメン トさせるステップと、 前記マヅプテーブルを参照して、 前記ゲノム配列において、 E S T配列のサ フィックスに相当する位置を見出して、 前記サフィックスをアラインメントさ せるステップと、 Referring to the map table, finding a position corresponding to a prefix of an EST sequence in the genomic sequence, and aligning the prefix; Referring to the map table, finding a position corresponding to a suffix of an EST sequence in the genome sequence, and aligning the suffix;
前記 E S T配列においてプリフィヅクスおよびサフィヅクスの間に介在する 第 1の部分列に関して、 前記ゲノム配列中、 前記アラインメントされたプリフ ィックスに相当する配列と、 サフィックスに相当する配列との間に介在する第 2の部分列にァラインメン卜させるステップとを、 前記コンピュータに実行さ せることを特徴とする E S T配列の写像プログラム。  Regarding the first subsequence intervening between the prefix and the suffix in the EST sequence, a second intervening sequence between the sequence corresponding to the aligned prefix and the sequence corresponding to the suffix in the genomic sequence. Causing the computer to execute the step of aligning the subsequences.
11. 前記第 1の部分列に関して、 第 2の部分列にアラインメントさせるステップ において、 11. With respect to the first subsequence, aligning to a second subsequence,
ァラインメントがなされた E S T中の領域であるェクソンを延長させるステ ヅプと、  Extending exon, a region in the aligned E ST, and
ィントロンをスキップするステップとを、 前記コンピュータに実行させるこ とを特徴とする請求項 1 0に記載のプログラム。  10. The program according to claim 10, wherein the computer is caused to execute the step of skipping an intron.
12. 前記第 1の部分列に関して、 第 2の部分列にアラインメントさせるステップ において、 12. With respect to the first subsequence, in aligning with a second subsequence,
前記 E S T配列中の要素とゲノム配列中の要素とがー致する限り、 前記プリ フィックスを延長するステヅプと、  A step of extending the prefix as long as the element in the EST sequence and the element in the genome sequence match;
前記要素が一致しない場合に、 前記延長されたプリフィックスをェクソンと 特定するとともに、 E S T配列において、 前記プリフィックスに引き続く、 所 定長の配列をプライマリ一キーとして、 マップテ一プルを参照して、 前記ゲノ ム配列において、 当該プライマリ一キーに相当する位置を見出して、 当該所定 長の配列をァラインメントさせるステヅプと、  If the elements do not match, the extended prefix is identified as exon, and in the EST array, the array of a predetermined length following the prefix is used as a primary key, and the map template is referred to. A step of finding a position corresponding to the primary key in the sequence, and aligning the sequence of the predetermined length;
前記 E S T配列中の要素とゲノム配列中の要素とがー致する限り、 前記所定 長の配列を延長するステップとを前記コンピュータに実行させ、  Extending the sequence of the predetermined length as long as the element in the EST sequence and the element in the genome sequence match,
前記所定長の配列を延長するステップと、 前記引き続く所定長の配列をァラ インメントするステップと、 繰り返しコンビュ一夕に実行させることにより、 前記ゲノム配列への、 前記 E S T配列のアラインメントを実現することを特徴 とする請求項 1 0または 1 1に記載のプログラム。 Extending the sequence of the predetermined length; aligning the subsequent sequence of the predetermined length; and repeatedly executing the sequence to realize the alignment of the EST sequence with the genomic sequence. Features The program according to claim 10 or 11, wherein
13. 前記プリフィヅクスをァラインメントさせるステップにおいて、  13. In the step of aligning the prefix,
前記マップテーブルを参照して、 前記 E S T配列の前方から所定の位置にあ る所定長の配列が、 ゲノム配列中に見出される位置を特定するステップと、 当該所定の位置より前方に位置する部分列である第 1の懸垂部分に関して、 前記ゲノム配列中の位置より前方に位置する部分列にァラインメントさせる ステップとを、 前記コンビユー夕に実行させることを特徴とする請求項 1 0な いし 1 2の何れか一項に記載のプログラム。  Referring to the map table to identify a position where a sequence of a predetermined length at a predetermined position from the front of the EST sequence is found in the genome sequence; and a subsequence positioned before the predetermined position. And performing the step of aligning a partial sequence located in front of a position in the genome sequence with respect to the first suspension portion, wherein the first suspension portion is executed in the combination mode. The program according to any one of the above.
14. 前記サフィ ヅクスをァラインメントさせるステップにおいて、  14. In the step of aligning the suffix,
前記マップテーブルを参照して、 前記 E S T配列の後方から所定の位置にあ る所定長の配列が、 ゲノム配列中に見出される位置を特定するステップと、 前記所定の位置より後方に位置する部分列である第 2の懸垂部分に関して、 前記ゲノム配列中の位置より後方に位置する部分列にァラインメントさせる ステップとを、 前記コンピュータに実行させることを特徴とする請求項 1 0な いし 1 3の何れか一項に記載のプログラム。  Referring to the map table to identify a position where a sequence of a predetermined length located at a predetermined position from the back of the EST sequence is found in the genome sequence; and a subsequence positioned behind the predetermined position. Causing the computer to execute the step of: aligning the second suspended portion with a subsequence located after the position in the genome sequence. A program according to any one of the preceding claims.
15. 前記第 1の部分列に関して、 第 2の部分列にアラインメントさせるステップ において、  15. Aligning the first subsequence with the second subsequence,
前記 E S T配列中の要素とゲノム配列中の要素とがー致する限り、 前記プリ フィヅクスを延長するステップと、  Extending the prefix as long as the element in the EST sequence and the element in the genomic sequence match;
前記要素が一致しない場合に、 前記延長されたプリフィックスをェクソンと 特定するとともに、 前記 E S T配列において、 前記プリフィックスより前方の 所定の位置にある所定長の配列が、 ゲノム配列中に見出される位置を特定する ステップと、  If the elements do not match, the extended prefix is identified as an exon, and in the EST sequence, a sequence of a predetermined length at a predetermined position ahead of the prefix is identified in a genome sequence. Step
前記プリフィックスの端部と、 前記所定の位置との間に位置する部分列であ る第 3の懸垂部分に関して、 前記ゲノム配列において、 前記プリフィックスに 相当する位置と、 前記見出される位置との間に位置する部分列にァラインメン トさせるステップとを、 前記コンピュータに実行させることを特徴とする請求 項 1 2または 1 3に記載のプログラム。 Regarding a third suspension portion, which is a subsequence positioned between the end of the prefix and the predetermined position, in the genome sequence, between a position corresponding to the prefix and the position to be found 14. The program according to claim 12 or 13, wherein the step of causing the computer to execute the step of aligning the substrings located therein is performed.
16. さらに、 前記イントロンと判断された部分列のそれそれの端部から、 所定の 範囲にある要素を参照して、 ィントロンのモチーフ則に従う要素を見出すステ ップと、 16. Further, from each end of the subsequence determined to be an intron, referring to elements within a predetermined range, finding an element that complies with the intron motif rule;
前記要素を端部とするようにィントロンを修正するステップとを、 前記コン ピュー夕に実行させることを特徴とする請求項 1 1ないし 1 5の何れか一項 に記載のプログラム。  The program according to any one of claims 11 to 15, wherein the step of modifying the intron so that the element is an end portion is performed on the computer.
17. 前記要素を見出すステップにおいて、  17. In the step of finding the element,
前記ィントロンと判断された部分列の要素数を保持しつつ、 当該ィントロン を前後にずらして、 新たなィントロン候補を特定するステップと、  Identifying the new intron candidate by shifting the intron back and forth while retaining the number of elements of the subsequence determined to be the intron;
前記新たなィントロン候補のそれそれの端部が、 イントロンのモチーフ則に 従うか否かを判断するステップとを、 前記コンピュータに実行させることを特 徴とする請求項 1 6に記載のプログラム。  Determining whether or not each end of the new intron candidate complies with the motif rule of introns. The program according to claim 16, wherein the program is executed by the computer.
18. さらに、 前記アラインメントの結果から、 E S T配列のマヅチング率を算出 するステップを、 前記コンピュータに実行させることを特徴とする請求項 1 0 ないし 1 7の何れか一項に記載のプログラム。  18. The program according to any one of claims 10 to 17, further comprising causing the computer to execute a step of calculating a matching ratio of an EST sequence from the result of the alignment.
PCT/JP2002/013648 2001-12-27 2002-12-26 Est arrangement mapping method and mapping program WO2003056458A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
AU2002359917A AU2002359917A1 (en) 2001-12-27 2002-12-26 Est arrangement mapping method and mapping program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2001396217A JP2003223452A (en) 2001-12-27 2001-12-27 Photographing method and program for est arrangement
JP2001-396217 2001-12-27

Publications (1)

Publication Number Publication Date
WO2003056458A1 true WO2003056458A1 (en) 2003-07-10

Family

ID=19189072

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2002/013648 WO2003056458A1 (en) 2001-12-27 2002-12-26 Est arrangement mapping method and mapping program

Country Status (3)

Country Link
JP (1) JP2003223452A (en)
AU (1) AU2002359917A1 (en)
WO (1) WO2003056458A1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019129239A1 (en) * 2017-12-29 2019-07-04 Act Genomics Co., Ltd. Method and system for sequence alignment and variant calling

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07105224A (en) * 1993-08-10 1995-04-21 Hitachi Ltd Character array retrieving method
JPH08314975A (en) * 1995-05-22 1996-11-29 Matsushita Electric Ind Co Ltd Information retrieving device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07105224A (en) * 1993-08-10 1995-04-21 Hitachi Ltd Character array retrieving method
JPH08314975A (en) * 1995-05-22 1996-11-29 Matsushita Electric Ind Co Ltd Information retrieving device

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MORISHITA ET AL.: "Genome ikagaku to kiso kara no bioinformatics hito genome database, homology kensaku, SNP, proteome kaiseki kara shikkan kaiseki soyaku eno oyo made dai 3 sho jikken shien no tame no informatics 5. Hito genome hairetsu eno hito EST no shazo", EXPERIMENTAL MEDICINE, vol. 19, no. 11, 5 July 2001 (2001-07-05), pages 1406 - 1409, XP002963789 *

Also Published As

Publication number Publication date
AU2002359917A1 (en) 2003-07-15
JP2003223452A (en) 2003-08-08

Similar Documents

Publication Publication Date Title
TWI443544B (en) Data compression method and sequence compression devices
Pertea et al. Computational gene finding in plants
KR20070083641A (en) Gene identification signature(gis) analysis for transcript mapping
JP2022533801A (en) Fast forward sequencing by synthesis
WO2018061693A1 (en) Method for designing primer for multiplex pcr
EP2394165A1 (en) Oligomer sequences mapping
WO2010091021A2 (en) Oligomer sequences mapping
Hertzberg et al. Finding motifs in promoter regions
CN108140071B (en) DNA alignment using hierarchical inverted index tables
KR20140056559A (en) System and method for aligning genome sequence
WO2019242186A1 (en) Method, apparatus, computer device and storage medium for determining target to be detected
WO2003056458A1 (en) Est arrangement mapping method and mapping program
US20150142328A1 (en) Calculation method for interchromosomal translocation position
KR20160039386A (en) Apparatus and method for detection of internal tandem duplication
NL2013120B1 (en) A method for finding associated positions of bases of a read on a reference genome.
Ogasawara et al. A fast and sensitive algorithm for aligning ESTs to the human genome
Damasevicius Analysis of binary feature mapping rules for promoter recognition in imbalanced DNA sequence datasets using support vector machine
KR102380935B1 (en) System and method for searching genomic regions
Gromyko et al. Promoter motif inference and annotation of promoter sequences in bacterial genomes based on the analysis of structures of alternative sigma factor-promoter complexes
Wang et al. LocPatcH: An efficient long-read hybrid error correction algorithm based on local pHMM
US20140121992A1 (en) System and method for aligning genome sequence
WO2019171601A1 (en) Template dna-primer relationship analyzer, template dna-primer relationship analyzing method, template dna-primer relationship analyzing program, template dna-primer relationship evaluation device, template dna-primer relationship evaluation method, and template dna-primer relationship evaluation program
JP4198707B2 (en) Method for selecting a probe from a group consisting of a plurality of polynucleotides
JP2005301532A (en) Primer design apparatus and program
WO2021105974A1 (en) Molecular data storage systems and methods

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE ES FI GB GD GE GH GM HR HU ID IL IN IS KE KG KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NO NZ OM PH PL PT RO RU SC SD SE SG SK SL TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW MZ SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR IE IT LU MC NL PT SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

121 Ep: the epo has been informed by wipo that ep was designated in this application
DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
122 Ep: pct application non-entry in european phase