JPWO2005093631A1 - 特異的塩基配列探索方法 - Google Patents

特異的塩基配列探索方法 Download PDF

Info

Publication number
JPWO2005093631A1
JPWO2005093631A1 JP2006511480A JP2006511480A JPWO2005093631A1 JP WO2005093631 A1 JPWO2005093631 A1 JP WO2005093631A1 JP 2006511480 A JP2006511480 A JP 2006511480A JP 2006511480 A JP2006511480 A JP 2006511480A JP WO2005093631 A1 JPWO2005093631 A1 JP WO2005093631A1
Authority
JP
Japan
Prior art keywords
base sequence
base
specific
candidate
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2006511480A
Other languages
English (en)
Other versions
JP4991287B2 (ja
Inventor
真一 森下
真一 森下
山田 智之
智之 山田
雄樹 内藤
雄樹 内藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BIOTHINKTANK, CO. LTD.
Original Assignee
BIOTHINKTANK, CO. LTD.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BIOTHINKTANK, CO. LTD. filed Critical BIOTHINKTANK, CO. LTD.
Priority to JP2006511480A priority Critical patent/JP4991287B2/ja
Publication of JPWO2005093631A1 publication Critical patent/JPWO2005093631A1/ja
Application granted granted Critical
Publication of JP4991287B2 publication Critical patent/JP4991287B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

発現遺伝子に特異的に現れる塩基配列を効率よく決定する。かかる目的を達成するために、発現遺伝子が、エクソン(301)…(306)で構成され、特に、エクソン(301)とエクソン(302)、エクソン(302)とエクソン(303)が接合するとした場合、エクソンの塩基配列(301)…(305)の和集合である塩基配列(401)…(403)と、エクソン(301)とエクソン(302)、エクソン(302)とエクソン(303)の境界にまたがって存在する塩基配列(404)と(405)、(406)と(407)、を接合して得られる境界塩基配列と、の集合を作り、この集合に対して検索を行なう。もし、発現遺伝子に特異的に現れる塩基配列であれば、検索結果数は1となり、そうでなければ、複数となる。

Description

本発明は、遺伝子の塩基配列に特異的に現れる塩基配列を検索する方法、装置、プログラムなどに関する。
ワトソンとクリックとによるDNA(Doexyribo Nucleic Acid)の構造の解明に基づき、塩基配列に基づく遺伝子情報の研究が発展している。DNAは、アデニン(A)、シトシン(C)、グアニン(G)、チミン(T)の塩基のいずれかを含むヌクレオチドが並んでいる構造を持ち、細胞の核の中では、通常、AとT、GとC、の結合により、二重らせんの構造となっている。遺伝子を表現するDNAのヌクレオチドの配列(以下、「遺伝子配列」と呼ぶ)が、RNA(Ribonucleic Acid)に転写され、スプライシングを経て、mRNA(messenger RNA)が生成され、たんぱく質の合成がされることが知られている。RNAは、D−リボースを糖成分として、アデニン(A)、シトシン(C)、グアニン(G)、ウラシル(U)を塩基とする核酸である。遺伝子配列のうち、たんぱく質の情報を持つ部分がエクソンと呼ばれ、そうでない部分は、イントロンと呼ばれる。したがって、スプライシングにより、RNAのイントロン部分が切除されることとなる。
近年、RNA干渉と呼ばれる現象が発生することが知られるようになった。RNA干渉とは、細胞内の2本鎖RNAの存在により、特定の配列のmRNAを破壊し、遺伝子の発現を抑制する現象である。この現象は、最初、線虫の細胞を用いた実験で発見された。その後、この現象は、哺乳動物細胞でも起きることが知られるようになり、注目を集めることとなった。人為的にRNA干渉を起こすことにより、特定の遺伝子の働きを抑制することにより、その特定の遺伝子の働きを調べることができるからである。また、RNA干渉の発見により、特定の遺伝子の働きを抑制する効果を発揮する薬を開発できる可能性も生まれてきた。
図1は、RNA干渉の過程の概略を示す図である。RNA干渉は、以下のようなプロセスを経て発生すると考えられている。およそ21から23塩基対の長さのsiRNA(short interfering RNA)101がマルチ・タンパク質複合体と結合し、RISC(RNA-induced silencing complex)102を形成する。RISCは、そのsiRNAと相同性を持つmRNA103と結合し、そのmRNAを分解することにより、そのmRNAが機能しなくなる(図1において、断片104、105が、mRNAが分解されてできた断片を表わしている)。ここで、「二つの塩基配列が相同性を有する」とは、2つの塩基配列が相補性を有しているか、または、不完全な相補性を有していることをいう。ここに「相補性」とは、二つの塩基配列の全体において、AとT、GとC、AとUとの対が完全に形成されていることをいう。したがって、相同性とは、二つの塩基配列の一部に、AとT、GとC、AとUという三種類の相補性を有する塩基対以外の対が発生していることを意味する。なお、どのような場合に、二つの塩基配列の間に相補性を有する塩基対がどれだけの存在すれば、その二つの塩基配列が相同性を有すると判断されるかについて説明すると次のようになる。すなわち、RNA干渉の場合には、80%以上、好ましくは90%以上、さらに好ましくは95%以上の場合に、相同性を有すると判断される場合が多い。また、相補性を有する塩基対の割合のみならず、相補性を有する塩基列が塩基配列中にどれだけの個数連続して現れているかを考慮にいれて、二つの塩基配列の間の相同性の有無を判断することもある。また、AとT、GとC、AとUとの3種類の相補性を有する塩基対に、GとUとの対が形成される可能性もあることが知られているので、GとUとの塩基対の存在も考慮に入れて相同性の有無を判断することもある。
したがって、RNA干渉を発生させ、目的とする遺伝子の働きを抑制するためには、siRNAの配列を決定することが重要である。すなわち、目的とする遺伝子だけに現れ、他の遺伝子の塩基配列と相同性を持たない、siRNAの配列を決定することが重要である。
なお、哺乳類においては、ある遺伝子の特定領域と相同性を有するsiRNAの全てがRNA干渉を起こすわけではないことが知られている。そのため、RNA干渉を発生させるためのsiRNAの塩基配列の評価方法が提案されている(例えば、非特許文献1参照。)。この知見からすると、本発明は、塩基配列の評価の前段階として実施されるべきものである。あるいは、塩基配列の評価を行なった後に、高い評価値が得られた塩基配列の中から本発明を実施して特定領域と相同性を有する塩基配列を得るようにしてもよい。
また、近年、マイクロアレイを用いた遺伝子解析や遺伝子診断などが実施されている。「マイクロアレイ」とは、長さが15から30塩基程度のオリゴDNAをガラスなどの基板上に合成したDNAチップの一種である(例えば、非特許文献2参照。)。
図2は、マイクロアレイを用いた遺伝子解析や遺伝子診断などの過程を例示する。ガラスなどの基板上に合成したオリゴDNAを持つマイクロアレイ201上に、蛍光色素などの標識203を付加されたDNA(202)を流すと、そのDNAと相補性あるいは相同性を持つマイクロアレイ上のオリゴDNAとが結合(ハイブリダイズ)する(符号204)。どの場所のオリゴDNAとハイブリダイズしたかを、標識の蛍光色素による蛍光を検出することにより、DNA(202)の種類などを判定する。図2では、マイクロアレイ上に数本のオリゴDNAしか示されていないが、実際のマイクロアレイは、縦横の長さが0.5インチ程度の領域に万のオーダーでオリゴDNAが配置される。
したがって、どのような塩基配列を持つオリゴDNAをマイクロアレイに配置するかを決めることは、マイクロアレイの設計において、極めて重要な工程である。
Angela Reynolds他著、"Rational siRNA design for RNA interference"、Nature Biotechnology、Published online 1 February 2004. 杉本直己著、"遺伝子化学"、19ページ、株式会社化学同人発行、2002年
本発明が解決しようとする課題は、与えられた遺伝子に特異的に現れる塩基配列を効率よく決定することである。「特異的」とは、その遺伝子にだけ現れ、他の遺伝子には現れないことを意味する。これにより、与えられた遺伝子だけを抑制するためのsiRNAの塩基配列が得られる。また、与えられた遺伝子だけを検出するオリゴDNAの配列が得られる。
既に遺伝子の塩基配列のデータベースが構築されているが、そのような既存のデータベースを使用して特異的に現れる塩基配列を決定するには困難が伴う。これについて以下説明する。
図3は、DNA配列と、mRNAに転写される発現遺伝子配列と、の関係を示す。図3(A)には、4本のDNA配列の部分が示されているが、これらは、分かりやすさのために、一つのDNA配列全体の一部を示しており、同じ部分の塩基配列が上下に対応するように示されている。DNA配列には、発現遺伝子を構成するエクソンの部分と、発現遺伝子を構成しないイントロンの部分と、があることが知られている。図3(A)において、符号301、302、303、304、305、306の部分がエクソンであり、他の部分がイントロンであるとする。図3(B)は発現遺伝子配列を示す。図3(B)に示すように、一つのエクソンは、一つの発現遺伝子配列にだけ現れるとは限らず、複数の発現遺伝子配列に表れる場合がある。例えば、エクソン302は、エクソン301と接合されることにより、ある発現遺伝子を構成するが、エクソン303と接合されることにより、別の発現遺伝子を構成する。
また、エクソンの一部がエクソンとなっている場合がある。例えば、図3(A)においてエクソン302の一部が、エクソン304となり、また、エクソン303の一部が、エクソン305、エクソン306になっている。
したがって、発現遺伝子配列を格納するデータベースにおいては、一つのエクソン、またはその一部、の塩基配列が、複数の発現遺伝子配列に表れることになる。このため、例えば、エクソン302に特異的に現れる塩基配列を検索すると、検索の結果は一つではなく、複数あることになり、特異的に現れる塩基配列でないと判断されてしまう可能性がある。その可能性を排除するため、検索の結果が複数得られた場合には、検索の結果を精査して、特定のエクソンだけに特異的に現れる配列かどうかのチェックを別途行なう必要がある。
このような現象を避ける一つの方法としては、ゲノム配列全体に対して検索を行なうものがある。しかし、このような検索を行なうと、発現遺伝子配列のエクソンの境界をまたぐ塩基配列が検索されないことになってしまう。すなわち、発現遺伝子配列が、ゲノム配列中の複数のエクソンが接合してできる場合において、塩基配列の一部分が一のエクソンに含まれ、その塩基配列の残りの部分が他のエクソンに含まれる場合、すなわち、エクソンの端に位置する塩基であるエクソンの境界が、その塩基配列の中に含まれる場合には、その塩基配列はゲノム配列中にそのまま現れることはないので、検索されない。このため、ある塩基配列が、発現遺伝子配列のエクソンの境界をまたぐように複数回現れる場合には、その塩基配列が特異的なものでないという判断を行なうことができない。もしくは、エクソンの境界をまたぐような配列が特異的であったとしても、その配列が特異的であるという判断を行なうこともできない。
そこで、本発明は、発現遺伝子に特異的に現れる塩基配列(より正確に言えば、一つのエクソンに特異的に現れる塩基配列、又は、エクソンが結合することにより発現遺伝子に特異的に現れる塩基配列)を効率よく検出する方法、装置、データベース、プログラムなどを提供することを目的とする。
本発明においては、塩基配列のデータベースとして、エクソンの塩基配列の和集合と、発現遺伝子のエクソンの境界をまたぐ塩基配列の集合と、の和集合を用いて検索を行なう。これにより、発現遺伝子配列に特異的に現れる塩基配列であれば、検索の結果は一となる。また、特異的に現れる塩基配列でなければ、検索の結果は複数となる。結果として、検索結果を調べるだけで、特異的に現れる塩基配列かどうかを直ちに判定することができる。これにより、課題が解決される。
なお、発現遺伝子のエクソンの境界をまたぐ塩基配列は、適宜統合することが可能である。これにより、データベースのレコード数を減少させることもできる。
また、相同性の程度を指定するために、検索の際に、いくつまでの塩基のミスマッチ(不適合)を許すかどうかを指定するようにしてもよい。また、加えて、相同性の程度を指定するために、不適合とみなす塩基の対を指定してもよい。また、不適合の発生の分布を指定してもよい。このように指定される分布の例としては、不適合でない塩基が連続する長さ(すなわち、塩基の対が連続して発生する長さ)がある。この長さがある程度以上の長さになると、RNA干渉においては、不適合の塩基配列があるにもかかわらずsiRNAがmRNAに結合してしまうと考えられている。そこで、そのような結合を排除するために、不適合でない塩基が連続する長さを指定する。
なお、本発明においては、ゲノム配列中のどの部分がエクソンであり、また、イントロンであるかについてが、検索に用いられる塩基配列のデータベースの構成に大きな影響を与える。以下の説明では、すでに研究された結果を用いることを主に想定しているが、今後の研究成果を取り入れて、塩基配列のデータベースを構成することが可能である。
本発明においては、エクソンの塩基配列と、エクソンの境界に現れる塩基配列と、から塩基配列集合を生成して、検索を行なうことにより、発現遺伝子に特異的に現れる塩基配列かどうかを検索結果数に基づいて決定できる。
以下、本発明を実施するための最良の形態を、図を用いて、実施形態として説明する。なお、本発明は、これら実施形態に何ら限定されるものではなく、その要旨を逸脱しない範囲において、種々なる態様で実施し得る。
(発明の概要)
実施形態について説明する前に、本発明の概要をいくつかの節に分けて説明する。
図4は、エクソンの和集合と、発現遺伝子のエクソンの境界をまたぐ塩基配列と、を説明するための図である。なお、以下では、発現遺伝子を構成するエクソンの境界をまたぐ塩基配列を、「境界塩基配列」ということにする。
<第一節:エクソンの塩基配列の和集合>
図4(A)は、エクソンの塩基配列の和集合を説明するための図である。図4(A)には、図3(A)のように、4本のDNA配列の部分が示されているが、これらは、一つのDNA配列全体の一部を示しており、同じ部分の塩基配列が、上下に対応するように示されている。エクソン301、302、303、304、305、306が図のような関係にあるとする。すなわち、エクソン301と重なり、又は、包含関係にあるエクソンは他になく、エクソン302の一部として、エクソン304があり、エクソン303の一部にエクソン305、306があるとする。このような場合に、これらのエクソンの和集合として、配列401、402、403が得られる。すなわち、配列401は、エクソン301そのものであり、配列402は、エクソン302とエクソン304との和である。このエクソン304は、エクソン302の一部であるので、配列402は、エクソン302そのものとなる。同様に、配列403は、エクソン303そのものとなる。図4においては、エクソン302とエクソン304との関係のように、あるエクソンが他のエクソンを包含している関係にある場合が示されている。他の関係としては、包含ではなく、二つのエクソンの塩基配列の一部だけ重なっている場合がある。この場合については、後に図6、図7などを用いて説明する。
<第二節:境界塩基配列>
図4の下部は、境界塩基配列を説明するための図である。エクソン301とエクソン302とが接合して発現遺伝子を構成する場合、その接合における境界の左右の部分404と405とを接合した塩基配列が、境界塩基配列となる。同様に、エクソン302とエクソン303とが接合する場合、部分406と407を接合した塩基配列が、境界塩基配列となる。なお、ここでの境界塩基配列の長さは、発現遺伝子配列に特異的に現れるかどうかを調べるための検索が行なわれる塩基配列の長さである。その長さをNとすると、境界塩基配列は、N−1通りあることになる。
図5は、N−1通りの境界塩基配列を例示する。エクソン501とエクソン502とが接合して発現遺伝子を構成するとする。この場合、エクソン501の右端のN−1mer(「mer」は、塩基配列の長さの単位であり、1塩基の長さを1merとする)の部分503と、エクソン502の左端の1merの部分504と、を接合することにより、境界塩基配列が一つ得られる。以下、同様に、N−2merの部分505と2merの部分506、…、2merの部分507とN−2merの部分508、1merの部分509とN−1merの部分510、のN−2通りの塩基配列が得られる。これらN−1通りの塩基配列は、包含関係にはなく一部だけが重なっている関係にあり、エクソンの和集合を求める場合のように、統合して一つにまとめることが可能である。
<第三節:塩基配列の統合>
図6は、塩基配列の統合を説明するための図である。すなわち、塩基配列601と塩基配列602とが、部分603の重なっている関係にある場合、塩基配列601と塩基配列602とを統合して、塩基配列604が得られることが示されている。塩基配列604は、塩基配列601から部分603を除いた部分、部分603、塩基配列602から部分603を除いた部分の3つを接合することにより得られる。
<第四節:塩基配列の統合の処理>
図7は、統合を正確に説明するための図である。図7の上部に示すように、DNAの塩基配列を構成する塩基は、DNAの端(例えば、DNAの化学構造により、「5´末端」と呼ばれる端)の塩基を1として順に番号を付けることができる。例えば、端点701を5´末端とし、端点702を3´末端として、端点701の塩基より、1、2、3、…のように塩基に番号をつけることができる。このような番号を、塩基位置ということにする。図7の下部703において、例えば、塩基配列704に現れる塩基Aの上に1024が付されているのは、その塩基Aは、DNAの5´末端より、1024番目に現れることを示す。塩基配列704と705とが、一部だけが重なっている関係にあるとする。すなわち、塩基配列1026番目と1027番目との部分重なっている。この場合、塩基配列704と705とを統合することにより、塩基配列706が得られる。
図8は、塩基配列の和集合、特に統合、を計算するために用いるテーブルを例示する。ここでいう「計算」は計算機を用いてプログラムを動作させて行なうのが好適である。その場合には、テーブルとしては、データベース管理システムなどで管理されるようになっていてもよい。図8のテーブルは、「左端位置」と「右端位置」という名の列を有している。各行は、エクソンの塩基配列の左端と右端の塩基位置を格納する。また、エクソンの境界をまたぐ塩基配列の左端と右端の塩基位置を格納してもよい(後に説明するように、エクソンの境界をまたぐ塩基配列の統合には、やや複雑な操作が必要となる場合がある。図8のテーブルを使用することができるのは、限られた場合である)。なお、テーブルの各行には、行801には1が、行802には2が、という具合に行番号が付いているとする。従って、行801を「第1行目」、行802を「第2行目」という。
また、図8に例示されたテーブルに格納される各行に関連づけて、エクソンの属性情報が蓄積されていてもよい。例えば、図8のテーブルの行番号と、エクソンの属性情報と、を関連付けて蓄積する別のテーブルがあってもよい。あるいは、エクソンの属性情報は、図8に例示されたテーブルに列を追加してその列に格納されてもよい。ここに、「属性情報」とは、(1)エクソンの配列位置を示す情報または(2)エクソンが構成する遺伝子を識別する情報を、含む情報をいう。「エクソンの配列位置を示す情報」とは、エクソンがゲノム配列のどの位置に存在するかを示す情報である。例えば、DNAの端からの位置である。この情報は、図8に例示されたテーブルの左端位置または右端位置の列に格納されているが、和集合を求める際に、左端位置または右端位置の列に格納されている値が変化するので、別に格納してもよい。また、「エクソンが構成する遺伝子を識別する情報」とは、そのエクソンの塩基配列を含む遺伝子を表わす情報、例えば、遺伝子の名前など、である。また、エクソンの配列位置を示す情報、エクソンが構成する遺伝子を識別する情報、以外には、エクソンの長さなどがある。
図9は、塩基配列の和集合、特に統合、を計算するための処理のフローチャートを例示する。上述したように、「計算」は計算機を用いて行なうのが好適である。したがって、図9に例示されるフローチャートの処理は、計算機で行なうのが好適である。ステップS901において、左端位置という名前の列の値により、昇順に行をソートする。すなわち、図8に例示された表の行を、N+1行目の左端位置という名前の列の値がN行目の左端位置という名前の列の値より小さくならないように、並び替えることを行なう。次にステップS902において、変数rに2を代入する。変数rは、現在、何行目の処理を行なっているかを示す変数である。
ステップS903において、rの値が、全行数の値以下であるかどうかを判断する。すなわち、第r行目がテーブルに存在するかどうかを判断する。もし、そうならば(ステップS903:Yへ分岐する場合)、ステップS904以下を行なう。そうでなければ(ステップS903:Nへ分岐する場合)、全ての行に対する処理が終わったことになる。
ステップS904において、第r行目が表わす塩基配列と第(r−1)行目が表わす塩基配列が包含関係または一部が重なる関係にあるかどうかを調べる。すなわち、第(r−1)行目の左端位置の列の値≦第r行目の左端の列の値、かつ、第r行目の左端位置の列の値≦第(r−1)行目の右端位置の列の値、が成立するかどうかを調べる。ステップS905において、成立する場合(ステップS905:Yへ分岐する場合)には、ステップS906へ分岐し、そうでなければ(ステップS905:Nへ分岐する場合)、ステップS909へ分岐する。
ステップS906において、第r行目の左端位置の列へ、第(r−1)行目の左端位置の列の値を代入する。ステップS907において、第r行目の右端位置の列の値が第(r−1)行目の右端位置の値より小ならば、第r行目の右端位置の列へ、第(r−1)行目の右端位置の値を代入する。ステップS906とステップS907により、第(r−1)行目と第r行目とが表わす塩基配列を統合したものが、第r行目により表わされるようになる。したがって、第(r−1)行目は不要となるので、ステップS908により、第(r−1)行目を削除する。これにより、全行数の値は1減ることとなる。その後、ステップS903へ戻る。なお、ステップS908において、第(r−1)行目を削除して消滅させるのではなく、第(r−1)行目を別のテーブルに移動して蓄積してもよい。これにより、例えば、エクソンの位置が、元来どの配列に由来しているものであるかという情報をその別のテーブルに蓄積することができ、検索が可能となる。
なお、ステップS907において、第r行目に関連付けて蓄積されている属性情報を、第(r−1)行目に関連付けて蓄積されている属性情報にマージすることを行なってもよい。マージの例としては、第r行目に関連付けて蓄積されている属性情報を表現する文字列と、第(r−1)行目に関連付けて蓄積されている属性情報を表現する文字列と、を連接する。このように連接して得られた文字列を第(r−1)行目に関連づけて蓄積される属性情報としてもよい。例えば、第(r−1)行目に関連付けて、「A、B」のように区切りとして「、」が用いられて「A」と「B」とが蓄積され、第r行目に関連付けて「C」が蓄積されていれば、「A、B」と「C」とを、区切りを示す「、」とともに連接して得られる「A、B、C」を第(r−1)行目に関連付けて蓄積してもよい。このようにすることにより、エクソンの和集合の要素がどのエクソンに由来しているか、例えば、どの遺伝子に関係しているか、を容易に知ることができる。
ステップS909においては、次の行に対する処理を行なうために、rの値を1増加させ、ステップS903へ戻る。
<第五節:境界塩基配列の統合が直ちに求められる場合>
図10は、二つのエクソンが接合して発現遺伝子を構成する場合におけるN−1通りの境界塩基配列を統合した塩基配列の求め方を例示する。エクソン1001とエクソン1002とが接合して発現遺伝子を構成するとする。この場合、エクソン1001とエクソン1002との境界における境界塩基配列を統合した塩基配列は、エクソン1001の右端のN−1merの塩基配列1003と、エクソン1002の左端のN−1merの塩基配列1004を接合した2N−2merの塩基配列となる。ただし、図10においては、エクソン1001とエクソン1002のそれぞれの長さがN−1mer以上である必要がある。
<第六節:境界塩基配列の統合が直ちに求められない場合>
図11は、長さがN−1mer未満のエクソンが存在する場合を例示する。図11において、符号1101、1102、1103、1104を付した部分がエクソンであるとし、エクソン1101、1102、1103が接合して一つの発現遺伝子を構成し、エクソン1101、1102、1104が接合して別の発現遺伝子を構成するとする。また、エクソン1102の長さはN−1mer未満とし、エクソン1103とエクソン1104は、一部が重なった関係にあるとする。符合1105、1106、1107、1108を付した部分はイントロンであるとする。
この場合、境界塩基配列を求めると、符号1109、1110が付されたものの実線部分に相当するものが得られる。発現遺伝子に特異的に現れる塩基配列かどうかを判断するための検索は、エクソン1101、1102、1103、1104の和集合に、これらの境界塩基配列の集合を和として加えた集合に対して行なうことになる。あるいは、これらの境界塩基配列の集合の代わりに、境界塩基配列の集合に対して次のような統合の操作を行なって得られる塩基配列の集合を用いてもよい。
<第七節:境界塩基配列の統合を求める一般的な処理>
図12は、統合の操作を行なうために使用するテーブルを例示する。テーブルは、「発現遺伝子」、「左端位置」、「右端位置」の列からなっている。「発現遺伝子」の列は、境界塩基配列が現れる発現遺伝子を識別する識別子を格納する。図12では、発現遺伝子を構成するエクソンの符号を並べたものにより、そのような識別子が表わされている。「左端位置」と「右端位置」とは、図8のテーブルにおける意味と同じ意味を持ち、境界塩基配列の左端の塩基の位置と、右端の塩基の位置と、を格納する。なお、統合の操作も、計算機でプログラムを動作させることにより実行することが可能である。その場合、テーブルは、データベース管理システムにより管理されて操作が行なわれるようになっていてもよい。また、そのようなプログラムはフレキシブルディスク、光ディスク、メモリスティックなどの媒体に記録することもできる。
まず、一つの境界塩基配列に対応して、図12のテーブルの行が一つ作られるが、境界塩基配列の集合がテーブルに格納されるようにするために、「左端位置」と「右端位置」の列の値の組がユニークになるようにする。すなわち、「左端位置」と「右端位置」の列の値の組が複数回テーブルに現れないようにする処理を行なう。この処理を高速に行なうためには、例えば、左端位置の列と右端位置の列との組みに対して索引を定義しておき、テーブルに新たな行を追加しようとする際には、その索引を参照して、すでにテーブルに格納されている行の左端位置と右端位置という列の値の組に同じものがあるかどうかを調べるようにすればよい。ここにいう索引は、キーとしてテーブルの左端位置という名前の列と右端位置という名前の列との組の値を持ち、バリューとしてテーブル行番号やテーブルの行を一意に特定する列の値を持つ。もし、索引を参照して、新たに追加しようとする行の左端位置と右端位置という名前の列の値の組が同じなるような行が既にテーブルにあれば、テーブルに行を追加することはしない。もし、新たに追加しようとする行の左端位置と右端位置という名前の列の値の組が同じなるような行がまだ格納されていなければ、テーブルに行を追加する。これにより、境界塩基配列の集合が得られる。
次に、境界塩基配列の集合の要素の統合を行なう。この統合の際には、発現遺伝子の列の値が同じものの間で統合を行なう。すなわち、エクソン1101、1102、1103の境界塩基配列は、エクソン1101、1102、1103から構成される発現遺伝子の境界塩基配列と統合することとし、エクソン1101、1102、1104から構成される発現遺伝子とは統合しないようにする。このために、例えば、テーブルにおいて、発現遺伝子の列の値でソートを行ない、発現遺伝子の列の値が同じ行の集まりを作ることによりテーブルを分割して、それぞれの分割に対して、図9のフローチャートで示される処理を適用する。このように発現遺伝子の列の値が同じものの間で統合を行なうのは、発現遺伝子にあり得ない塩基配列が生成されることを防ぐためである。このような処理の結果、符合1113、1114が付された塩基配列が得られる。
図13は、以上説明した境界塩基配列の集合に対する統合の処理のフローチャートを例示する。まず、最初のステップとして、左端位置、右端位置の列の値の組に重複が発生しないように、境界塩基配列の情報をテーブルに付加する。次のステップとして、発現遺伝子の列の値が同じである行の集合ごとに、統合の操作を行なう。すなわち、テーブルを、発現遺伝子の列の値が同じになるようにテーブルをグルーピングすることにより(例えば、SQL(Structured Query Language)におけるgroup by節を用いることにより)テーブルをいくつかの小テーブルに分割し、それぞれの小テーブルに対して図9のフローチャートで示される処理を適用する。
(実施形態1:主に請求項20、24に対応する)
図14は、本発明の実施形態1に係る塩基配列集合生成方法の処理のフローチャートを例示する。本実施形態に係る塩基配列集合生成方法は、候補塩基長取得ステップと、エクソン塩基配列集合取得ステップと、境界塩基配列集合生成ステップと、和集合生成ステップと、を含む。これらのステップは、図14に例示されたフローチャートのS1401、S1402、S1403、S1404にそれぞれ対応する。以下の説明から分かるように、これらのステップは、計算機にプログラムを動作させて実行させることが可能である。また、そのようなプログラムをフレキシブルディスク、光ディスク、メモリスティックなどの媒体に記録することも可能である。
「候補塩基長取得ステップ」(S1401)は、発現遺伝子の塩基配列に特異的に現れる塩基配列の候補の塩基配列の長さ(以下、「候補塩基配列長」という。)を取得するステップである。取得される候補塩基配列長は、本実施形態に係る塩基配列集合生成方法により生成される塩基配列の集合が、siRNAの設計を目的とするならば、その上限は、好ましくは30以下、より好ましくは、22以下、さらに好ましくは20以下であり、その下限は、好ましくは13以上、より好ましくは16以上、さらに好ましくは18以上である。例えば、19が好適な値である。また、その塩基配列の集合が、マイクロアレイのオリゴDNAの設計を目的とするならば、その上限は30以下であるのが好ましい。
「エクソン塩基配列集合取得ステップ」(S1402)は、エクソンの塩基配列の和集合を取得する。本明細書において「取得」という単語は、生成の意味を含むとする。もし、ここでエクソンの塩基配列の和集合を生成するのであれば、上記の第四節で述べたように生成する。
「境界塩基配列集合生成ステップ」(S1403)は、境界塩基配列集合を生成する。「境界塩基配列集合」とは、複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列を示す情報であって、候補塩基配列長取得ステップで取得された長さと同じ長さの塩基配列を示す情報、からなる集合に対して、発現遺伝子が同じで、塩基配列の位置が重複する塩基配列を示す情報を統合することにより得られる集合である。具体的には、上記の第五節、又は、第六節、第七節で説明した処理により得られる塩基配列の集合である。
「和集合生成ステップ」(S1404)は、エクソン塩基配列集合取得ステップで取得された塩基配列の集合と、境界塩基配列集合生成ステップで生成された塩基配列の集合と、の和集合を生成するステップである。このステップにおける和集合は、基本的には、単純な集合の和を取る操作で得られるものである。ただし、例外として、単純な集合の和の操作にならない場合が2つある。まず、エクソンの塩基配列の和集合の要素である塩基配列であって、発現遺伝子の端に配置され、N−1mer以下のものがある場合は、そのような塩基配列は境界塩基配列またはそれを統合した塩基配列に含まれている(すなわち、包含関係にある)ので、そのような塩基配列を除去する必要がある。また、エクソンの塩基配列の和集合の要素である塩基配列であって、発現遺伝子の端ではなく中間に配置され、2N−2mer以下のものがある場合には、そのような塩基配列が、境界塩基配列またはそれを統合した塩基配列に含まれる可能性がある(N−1mer以下である場合には必ず含まれる)ので、そのような塩基配列が存在すれば除去する。
図15は、図14の和集合生成ステップS1404で得られた塩基配列を格納したテーブルを例示する。例えば、「左端位置」の列には塩基配列の左端の塩基の塩基配列のDNA配列における位置を格納し、「塩基配列」の列には、塩基配列を格納する。他に、発現遺伝子の識別子などの情報を格納するための列があってもよい。
本実施形態により生成される塩基配列の集合に対して検索を行なうことにより、与えられた遺伝子に特異的に現れる塩基配列を効率よく決定できることとなる。すなわち、特異的に現れる塩基配列であれば、その塩基配列を用いて塩基配列の集合を検索すると、検索結果は1となり、そうでなければ、検索結果は複数となる。
(実施形態2:主に請求項1、2、23に対応する)
図16は、本発明の実施形態2に係る特異的塩基配列探索方法のフローチャートを例示する。本実施形態に係る特異的塩基配列探索方法は、特異的塩基配列候補取得ステップと、塩基配列検索ステップと、判断ステップと、を含む。以下の説明から分かるように、これらのステップは、プログラムによって計算機に実行させることが可能である。また、そのようなプログラムをフレキシブルディスク、光ディスク、メモリスティックなどの媒体に記録することも可能である。
「特異的塩基配列候補取得ステップ」(S1601)は、特異的塩基配列候補を取得する。「特異的塩基配列候補」とは、発現遺伝子の塩基配列に特異的に現れる塩基配列の候補である。任意の塩基配列を候補としてもよいが、例えば、従来技術として知られる方法により塩基配列に対して特異的に現れる可能性が高いかどうかの評価を行ない、特異的に現れる可能性が高いという評価値が得られた塩基配列を候補としてもよい。ここにいう従来技術として知られている方法としては、(1)発現遺伝子の塩基配列情報と同一または類似の塩基配列を、NCBIのRefSeqなどのデータベースで公開されている塩基配列情報などから、例えば、BLAST、FASTA、ssearchなどの既存のホモロジ検索手段を用いて検索し、(2)検索された塩基配列のうち発現遺伝子とは無関係の遺伝子の塩基配列情報の総数や発現遺伝子とは無関係の遺伝子の塩基配列情報に付された同一類似の度合いを示す値―例えば、BALST、FASTA、ssearchの場合における「E value」―に基づいて、同一または類似の度合いを示す値の逆数の総和を算出して、その総和を求め、(3)その総和に基づいて―例えば、総和の大小などに基づいて―発現遺伝子の塩基配列に特異的であるか否かを判断する方法がある。特異的塩基配列候補取得ステップを計算機に実行させるためには、キーボードなどから入力された特異的塩基配列候補を表わす文字列などを読み取ることを計算機に行なわせる。
「塩基配列検索ステップ」(S1602)は、塩基配列集合の中から、適合塩基配列を検索する。「塩基配列集合」とは、エクソンの塩基配列の和集合と、境界塩基配列の集合と、の和集合を含む集合である。塩基配列集合は、例えば、第一節で説明したエクソンの塩基配列の和集合と、第二節で説明した境界塩基配列の集合と、の和集合である。あるいは、実施形態1に係る塩基配列集合生成方法にて生成された集合であってもよい。エクソンの塩基配列の和集合については、エクソンの塩基配列に対して第四節で説明した統合の処理を行なって得られるものであってもよい。また、塩基配列集合は、ゲノム配列が解読されてない等の理由によって、エクソンであるか、あるいは、その境界にまたがって存在するのかが不明な配列をさらに含んでいてもよい。場合によっては、塩基配列集合は、遺伝子の配列の集合全体となってもよい。また、第四節の終わりの部分で説明したように、エクソンの塩基配列の和集合の要素には、エクソンの配列位置を示す情報またはエクソンが構成する遺伝子を識別する情報が関連付けられていてもよい。
「境界塩基配列」とは、第二節で述べた通りである。すなわち、複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列であり、特異的塩基配列候補の塩基配列と同じ長さの塩基配列である。「適合塩基配列」とは、特異的塩基配列候補取得ステップにて取得された特異的塩基配列候補が表わす塩基配列と適合する塩基配列である。ここに「2つの塩基配列が適合する」とは、2つの塩基配列を構成する塩基を、対ごとに比較を行なった結果、所定の二項関係を満たさない対が所定の数以下であることをいう。ここでいう二項関係とは、多くの場合、対を構成する塩基が合い等しいことをいう。すなわち、数学の集合論の言葉で説明すれば、二項関係が反射律のみを満たす場合である。また、塩基のGとUとが結合しやすいことを考慮に入れた二項関係を用いてもよい。また、二項関係のみに依存して適合かどうかを判断せず、適合する塩基の連続する数などを考慮に入れて、2つの塩基配列が適合するかどうかを判断してもよい。「所定の数以下」とは、例えば、20%以下、好ましくは10%以下、より好ましくは5%以下を意味してもよい。このような検索の方法については、バイオインフォマティクスの分野で研究が進んでおり、例えば、FASTA、BLAST、スミス‐ウォーターマンダイナミックプログラミング法を使う方法など、計算機を用いて行なう方法が知られている(例えば、David W.Mount著、"Bioinformatics:Sequence and Genome Analysis"、Cold Spring Harbor Laboratory Press、2001年など参照。)。
「判断ステップ」(S1603)は、塩基配列検索ステップでの検索結果に、適合塩基配列が複数あるかどうかに基づいて、特異的塩基配列候補取得ステップにて取得された特異的塩基配列候補が特異的塩基配列であるか判断する。ここに「特異的塩基配列」とは、発現遺伝子に特異的に現れる塩基配列を意味する。判断ステップでは、検索結果の適合塩基配列が1であれば、特異的塩基配列候補が特異的塩基配列であると判断すればよい。もし、検索結果の適合塩基配列が2以上であれば、特異的塩基配列でないと判断する。もし、検索結果の適合塩基配列が0であれば、類似のものが存在しないと判断する。検索結果の適合塩基配列が0となる場合には、このような特異的塩基配列候補は、何の効果ももたらさないと推定される。したがって、計算機に判断ステップを実行させるには、検索結果集合の数を取得させて判断をさせることになる。
(実施形態3:主に請求項3に対応する)
本発明の実施形態3は、実施形態2に係る特異的塩基配列探索方法において、境界塩基配列の集合を、第四節、第七節にあるように塩基配列の統合をして得られる集合としたものである。
すなわち、境界塩基配列の集合を、(1)複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列を示す情報であって、(2)特異的塩基配列候補の長さと同じ長さの塩基配列を示す情報、からなる集合に対して、発現遺伝子が同じで、塩基配列の位置が重複する塩基配列を示す情報を統合することにより得られる集合としたものである。なお、統合ができなくなるまで、すなわち、完全に統合の処理を行なう必要はない。また、統合の処理により、エクソンの塩基配列の和集合の中に、統合されて得られる塩基配列に含まれる塩基配列が現れる場合があり、そのような塩基配列を取り除く必要が出てくるのは、実施形態1で述べたとおりである。
塩基配列を示す情報とは、例えば、図8に例示されたテーブルに格納された各行、あるいは、図12に例示されたテーブルに格納された各行、を意味する。
本実施形態においては、統合が行なわれるので、検索が行なわれる要素を減少させることができ、集合のサイズを小さくすることができる。また、検索のスピードを向上させることができる。
(実施形態4:主に請求項4に対応する)
本発明の実施形態4は、実施形態2または3に係る特異的塩基配列探索方法に、適合許容数取得ステップを含ませた特異的塩基配列探索方法である。
図17は、本実施形態に係る特異的塩基配列探索方法のフローチャートを例示する。このフローチャートは、図16のフローチャートに適合許容数取得ステップであるS1702を追加したものである。
「適合許容数取得ステップ」とは、適合許容数を取得する。「適合許容数」とは、塩基配列集合の塩基配列と特異的塩基配列候補が表わす塩基配列との適合の度合いとして、いくつの塩基の不適合まで許容するかを示す数値である。好ましくは、1、2、3、4、5のいずれかの値である。ここでいう「塩基の不適合」とは、塩基の対が所定の二項関係を満たさないことをいう。計算機に適合許容数取得ステップを実行させるためには、例えば、キーボードなどから入力されたり、画面に表示されたラジオボタンの選択により入力されたりする適合許容数を計算機に読み取らせる。
本実施形態においては、塩基配列検索ステップでは、適合許容数取得ステップで取得された適合許容数に基づいて検索が行なわれる。例えば、前に説明したBLASTなどを用いて検索を行なう。この場合、「適合許容数に基づいて」とは不適合となる塩基対の数が適合許容数以下になるように検索を行なうことを意味する。ただし、BLASTにおいては、通常、7塩基が連続して同じになる部分を用いて検索が行なわれるため、候補塩基配列長が19で適合許容数が3である場合には、図18の×の位置で塩基の不適合がある場合を検索することができない。そこで、特異的塩基配列候補において、×の位置の塩基を他の塩基に置き換えた塩基配列を生成して、特定記塩基配列候補が表わす塩基配列と一致しまたは相補性のある塩基配列を検索するようにしてもよい。なお、適合許容数を指定して検索を行なう方法としては、Tomoyuki YAMADA and Sinichi MORISHITA, "Computing Highly Specific and Noise-Tolerant Oligomers Efficiently, To appear in Journal of Bioinformatics and Computational Biology, Imperial College Pressに述べられている方法がある。
(実施形態5:主に請求項5に対応する)
本発明の実施形態5として、塩基配列検索ステップにて不適合と判断する塩基の対を取得するステップを含む特異的塩基配列探索方法について説明する。
本実施形態に係る特異的塩基配列探索方法は、実施形態4に係る特異的塩基配列探索方法が、さらに、不適合塩基対取得ステップを含む方法である。
「不適合塩基対取得ステップ」とは、塩基配列検索ステップにおいて不適合と判断する塩基の対を取得する。この取得は、計算機に接続されたキーボードから入力された塩基対を取得することにより行なわれたり、媒体に記録された塩基対を示す情報を読み込んだり、通信回線を通じて入力される情報を取得したりすることにより行なわれる。塩基配列検索ステップにおいては、同一の塩基でなければ不適合と扱うのが通常である。しかし、例えば、GとUとが結合して対を形成することが知られているので、GとUとの対を不適合とみなしたくない場合もある。そこで、本実施形態においては、不適合であると判断する塩基の対を取得することができるようにする。なお、不適合であると判断する塩基の対を取得するかわりに、適合すると判断する塩基の対を取得することにより、間接的に不適合であると判断する塩基の対を取得してもよい。また、取得される塩基の対は、適合あるいは不適合の程度を関連付けて取得されるようになってもよい。例えば、同じ塩基の対であれば1という値を割り当て、例えば、GとUの対には、0.5という値を割り当ててもよい。なお、不適合塩基対取得ステップは、塩基配列検索ステップS1703が実行されるまでに実行される。例えば、不適合塩基対取得ステップを実行してから、図17に例示されるフローチャートを実行する。
(実施形態6:主に請求項6、7に対応する)
本発明の実施形態6として、塩基の不適合の発生の分布を指定して検索を行なう特異的塩基配列探索方法について説明する。
本実施形態に係る特異的塩基配列探索方法は、実施形態2から5のいずれかに係る特異的塩基配列探索方法が、さらに、不適合分布情報取得ステップを含む方法である。
「不適合分布情報取得ステップ」とは、塩基配列集合の塩基配列と特異的塩基配列候補が表わす塩基配列との適合の度合いとして、分布情報を取得する。「分布情報」とは、塩基の不適合の発生の分布を示す情報である。分布情報の例としては、塩基の不適合が連続して2以上存在しない、特異的塩基配列候補の5´末端側には不適合が少ない、特異的塩基配列候補との塩基の不適合が連続して所定の回数以上発生しない、などがある。このように分布情報を取得する目的としては、例えば、同じ数の塩基の不適合があっても、塩基の不適合が連続などしていると核酸がハイブリダイズしにくくなるので、適合許容数を満たしていても、塩基の不適合が連続などしている塩基配列を排除することがある。また、塩基の不適合があっても、不適合とみなされない塩基が連続している場合には、不適合な部分があるにもかかわらず、ハイブリダイズする可能性が出てくるので、そのような場合を排除することを目的として、不適合とみなされない塩基が所定の値以上連続しないことを指定する。
分布情報は、例えば、塩基の不適合の分布が所定の分布となっているかどうかを判定するプログラムであってもよい。あるいは、あらかじめ塩基の不適合の分布の類型をいくつか決めておき、それらを選択するための情報であってもよい。例えば、塩基の不適合の分布に番号をつけておき、その番号を示す情報であってもよい。
本実施形態においては、塩基配列検索ステップの処理は、例えば、次のように行なう。すなわち、不適合分布情報取得ステップで取得された分布情報をさらに考慮に入れて、検索が行なわれる。例えば、まず、実施形態2から5のいずれかにおける検索を行ない、検索の結果から、不適合分布情報を満たすもの―例えば塩基の不適合が連続して2以上存在しないもの、特異的塩基配列候補の5´末端側に不適合が少ないもの、不適合とみなされない塩基が所定の数以上連続して発生しないもの―を選択する。
(実施形態7:主に請求項8に対応する)
本発明の実施形態7に係る特異的塩基配列探索方法は、実施形態2から6のいずれか一の特異的塩基配列探索方法において、特異的塩基配列候補を、マイクロアレイのオリゴDNAの塩基配列の候補とした方法である。
これにより、従来技術のように検索結果を精査する必要が無くなるので、マイクロアレイのオリゴDNAの設計を効率よく行なうことができる。
(実施形態8:主に請求項9に対応する)
本発明の実施形態8に係る特異的塩基配列探索方法は、実施形態2から6のいずれか一の特異的塩基配列探索方法において、特異的塩基配列候補を、siRNAの塩基配列の候補とした特異的塩基配列探索方法である。
これにより、従来技術のように検索結果を精査する必要が無くなるので、siRNAの配列の決定を効率よく行なうことができる。
(実施形態9:主に請求項10、11、21に対応する)
図19は、本発明の実施形態9に係る特異的塩基配列探索装置の機能ブロック図を例示する。本実施形態に係る特異的塩基配列探索装置は、例えば実施形態2に係る特異的塩基配列探索方法を使用するための装置である。
特異的塩基配列探索装置1900は、塩基配列集合蓄積部1901と、特異的塩基配列候補取得部1902と、塩基配列検索部1903と、を有する。なお、本明細書において、機能ブロック図により表わされる構成は、ハードウェアとしては、任意の計算機のCPU、メモリ、その他のLSIなどにより実現される。また、ソフトウェアとしては、メモリにロードされたプログラムなどにより実現される。また、ハードウェアとソフトウェアとの連携により実現することもできる。特にソフトウェアが用いられて実現される場合には、これらの部は、計算機にプログラムをインストールして実行することにより実現可能である。例えば、プログラムは、各種の記録媒体に記録され、必要に応じて特異的塩基配列探索装置1900を実現するための計算機に機械的に読み取られる。ここで、「記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、EPROM、EEPROM、CD−ROM、MO、DVD、フラッシュディスク等の任意の「可搬用の物理媒体」や、各種計算機システムに内蔵されるROM、RAM、HD等の任意の「固定用の物理媒体」、あるいはLAN、WAN、インターネットに代表されるネットワークを介してプログラムを送信する場合の通信回線や搬送波のように短期にプログラムを保持する「通信媒体」を含むものとする。なお、ここにいう計算機とは、メインフレーム計算機に限定されることはなく、ワークステーションやパーソナルコンピュータなどの情報処理装置であってもよい。また、そのような情報処理装置には、プリンタやスキャナなどの周辺装置がされに接続されていてもよい。
また、「プログラム」とは、任意の言語や記述方法にて記述されたデータ処理方法であり、ソースコードやバイナリコート等の形式を問わない。なお、「プログラム」は必ずしも単一的に構成されるものに限られず、複数のモジュールやライブラリとして分散構成されるものや、オペレーティングシステムに代表される別個のプログラムと協同してその機能を達成するものをも含む。なお、特異的塩基配列探索装置1900において記録媒体を読み取るための具体的な構成、読み取り手段、あるいは、読み取り後のインストール手順等は、周知の構成や手順を用いることができる。
ここでは図示を省略しているが、特異的塩基配列探索装置1900は、遺伝子の塩基配列情報等に関する外部データベースやホモロジ検索等の外部プログラム等を提供する外部システムに、インターネット等の通信網を介して通信可能に接続された構成であってもよい。かかる構成により、外部プログラムを実行するウェブサイトが提供される。外部システムは、WEBサーバやASPサーバ等として構成されてもよい。例えば、塩基配列集合蓄積部1901及び/又は特異的塩基配列候補取得部1902が外部システムに通信可能に接続されてもよい。通信網の構成は特には限定されないが、例えば、ルータ等の通信装置や専用線等の有線又は無線の通信回線により構成される。
「塩基配列集合蓄積部」1901は、塩基配列集合を保持する。「塩基配列集合」とは、エクソンの塩基配列の和集合と、複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する境界塩基配列の集合と、の和集合を含む集合である。例えば、実施形態1で説明した方法により生成された集合である。あるいは、実施形態2の方法などの塩基配列検索ステップにて検索がされる集合である。塩基配列集合蓄積部1901は、塩基配列集合を、例えば、RAM、ROMなどのメモリ装置、ハードディスクなどの固定ディスク装置、フレキシブルディスクや光ディスクを用いる蓄積装置を用いて所定のフォーマット、形式としてのデータとして入出力可能に蓄積する。したがって、特異的塩基配列探索装置1900が計算機を用いて実現される場合には、これら蓄積のための装置との入出力を行なうドライバ及び、そのドライバを用いてデータの入出力を行なうプログラムのモジュールなどが、塩基配列集合蓄積部1901に相当する。
「特異的塩基配列候補取得部」1902は、発現遺伝子の塩基配列に特異的に現れる塩基配列の候補である特異的塩基配列候補を取得する。例えば、インターネットなどの通信網によって通信を行なうことができる計算機で動作するウェブブラウザに表示されたウェブページのテキストエリアに入力され、HTTP(HyperText Transfer Protocol)を用いてそのブラウザからテキスト情報などとして送信された特異的塩基配列候補を受信することにより、特異的塩基配列候補の取得がされる。したがって、特異的塩基配列探索装置1900が計算機を用いて実現される場合には、通信インターフェースや、マウス、キーボード、ディスプレイとのデータの入出力を行なうための入出力インターフェースにおける入出力を行なうドライバ、及び、そのドライバを用いてデータの入出力を行なうプログラムのモジュールなどが、特異的塩基配列候補取得部1902に相当する。
「塩基配列検索部」1903は、塩基配列集合蓄積部1901に蓄積された塩基配列集合に含まれる塩基配列から、特異的塩基配列候補取得部1902で取得された特異的塩基配列候補と適合する塩基配列である適合塩基配列を検索する。この検索には、例えば、実施形態2から4のいずれかで説明したアルゴリズム(例えば、BLAST)を実行するプログラムを用いる。検索の結果は、特異的塩基配列候補を送信したブラウザに返信するようになっていてもよい。例えば、検索の結果の件数を返信したり、特異的塩基配列候補に適合する塩基配列を発現遺伝子に関する情報を取得して返信を行なったりしてもよい。また、検索の結果の件数に応じて、特異的塩基配列候補取得部1902が取得した特異的塩基配列候補が特異的塩基配列であるかどうかを判断した結果を返信するようになっていてもよい。また、ブラウザの内部でJAVA(登録商標)などで記述されたプログラムが動作しており、そのプログラムにより、特異的塩基配列候補が特異的塩基配列であるかどうかを判断するようになっていてもよい。なお、特異的塩基配列探索装置1900が計算機を用いて実現される場合には、計算機のCPUによる制御の下で、特異的塩基配列候補取得部1902に相当するモジュールなどとデータの受け渡しを行ない、また、塩基配列集合蓄積部1901に相当するモジュールなどとデータの受け渡しを行ない、ハードディスクなどに蓄積された塩基配列集合の検索を行なうモジュールなどが、塩基配列検索部1903に相当する。
また、特異的塩基配列探索装置1900には、塩基配列検索部1903による検索の結果を蓄積する部が備わっていてもよい。特異的塩基配列候補取得部1902で取得された特異的塩基配列候補と、塩基配列検索部1903による検索の結果と、を関連付けて蓄積する部が備わっていてもよい。このような部を備えることにより、同じ特異的塩基配列候補が特異的塩基配列候補取得部1902で複数回取得される場合には、二回目以降は、この部に蓄積された情報を検索することにより、応答スピードを速くすることができる。
(実施形態10:主に請求項12に対応する)
本発明の実施形態10は、実施形態9の特異的塩基配列探索装置において、境界塩基配列集合を、複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列を示す情報であって、前記特異的塩基配列候補の塩基配列の長さと同じ長さの塩基配列を示す情報、からなる集合に対して、発現遺伝子が同じで、塩基配列の位置が重複する塩基配列を示す情報を統合することにより得られる集合に基づいて得られるものとした特異的塩基配列探索装置である。本実施形態に係る特異的塩基配列探索装置は、例えば実施形態3に係る特異的塩基配列探索方法を使用するための装置である。
すなわち、本実施形態に係る特異的塩基配列探索装置は、塩基配列集合蓄積部1901に蓄積される塩基配列集合を、境界塩基配列に第七節などで説明した処理による統合の処理を行なった集合とした特異的塩基配列探索装置である。
統合を行なうことにより、塩基配列集合の要素数を減少させることができるので、塩基配列集合蓄積部1901が使用するディスクスペースを節約することができる。また、要素数の減少による検索速度の向上も実現される。
(実施形態11:主に請求項13に対応する)
図20は、本発明の実施形態11に係る特異的塩基配列探索装置の機能ブロック図を例示する。特異的塩基配列探索装置2000は、塩基配列集合蓄積部1901と、特異的塩基配列候補取得部1902と、塩基配列検索部1903と、適合許容数取得部2001と、を有する。したがって、本実施形態に係る特異的塩基配列探索装置は、実施形態9または10に係る特異的塩基配列探索装置が適合許容数取得部を有した構成となっている。なお、本明細書においては、同じ定義が適用できる部には、同じ符号を割り当てることとする。ただし、実際の製造においては、同じ符号が割り当てられているからといって、つくりなどが同じになるとは限らない。なお、本実施形態に係る特異的塩基配列探索装置は、例えば実施形態4に係る特異的塩基配列探索方法を使用するための装置である。
「適合許容数取得部」2001は、塩基配列集合の塩基配列と特異的塩基配列候補が表わす塩基配列との適合の度合いとして、いくつの塩基の不適合まで許容するかを示す数値である適合許容数を取得する。例えば、特異的塩基配列候補がブラウザから送信されるときに、そのブラウザから適合許容数も送信されてもよい。適合許容数取得部2001は、そのように送信される適合許容数を取得する。また、適合許容数を直接入力する構成であってもよい。
本実施形態においては、塩基配列検索部1903は、適合許容数取得部2001にて取得された適合許容数に基づいて検索を行なう。この検索の方法については、実施形態4で述べたとおりである。
(実施形態12:主に請求項14に対応する)
図21は、本発明の実施形態12に係る特異的塩基配列探索装置の機能ブロック図を例示する。特異的塩基配列探索装置2100は、塩基配列集合蓄積部1901と、特異的塩基配列候補取得部1902と、塩基配列検索部1903と、適合許容数取得部2001と、不適合塩基対取得部2101と、を有する。したがって、本実施形態に係る特異的塩基配列探索装置は、実施形態11に係る特異的塩基配列探索装置が、さらに、不適合塩基対取得部2101を有する構成となっている。本実施形態に係る特異的塩基配列探索装置は、例えば実施形態5に係る特異的塩基配列探索方法を使用するための装置である。
「不適合塩基対取得部」2101は、塩基配列検索部による検索において、不適合と判断する塩基の対を取得する。例えば、不適合と判断するべき塩基の対を示すテキスト情報を取得する。あるいは、適合と判断するべき塩基の対(例えば、GとU)を取得することにより、間接的に不適合と判断するべき塩基の対を取得するようになっていてもよい。したがって、通信インターフェースや、マウス、キーボード、ディスプレイとのデータの入出力を行なうための入出力インターフェースにおける入出力を行なうドライバ、及び、そのドライバを用いてデータの入出力を行なうプログラムのモジュールなどが不適合塩基対取得部2101に相当する。
本実施形態に係る特異的塩基配列探索装置の処理の流れは、実施形態11に係る特異的塩基配列探索装置と同じである。ただし、適合塩基配列を検索する前に、不適合塩基対取得部2101により塩基配列検索部による検索において、不適合と判断する塩基の対を取得することが行なわれる。
(実施形態13:主に請求項15、16に対応する)
図22は、本発明の実施形態13に係る特異的塩基配列探索装置の機能ブロック図を例示する。特異的塩基配列探索装置2200は、塩基配列集合蓄積部1901と、特異的塩基配列候補取得部1902と、塩基配列検索部1903と、適合許容数取得部2001と、不適合分布情報取得部2201と、を有する。また、特異的塩基配列探索装置2200は、さらに、不適合塩基対取得部を有していてもよい。したがって、本実施形態に係る特異的塩基配列探索装置は、実施形態9から12のいずれかに係る特異的塩基配列探索装置が、不適合分布情報取得部2201を有した構成となっている。本実施形態に係る特異的塩基配列探索装置は、例えば実施形態6に係る特異的塩基配列探索方法を使用するための装置である。
「不適合分布情報取得部」2201は、塩基配列集合の塩基配列と特異的塩基配列候補が表わす塩基配列との適合の度合いとして、塩基の不適合の発生の分布を示す情報である分布情報を取得する。分布情報の例としては、実施形態6で述べたとおりである。したがって、通信インターフェースや、マウス、キーボード、ディスプレイとのデータの入出力を行なうための入出力インターフェースにおける入出力を行なうドライバ、及び、そのドライバを用いてデータの入出力を行なうプログラムのモジュールなどが不適合分布情報取得部2201に相当する。
本実施形態においては、塩基配列検索部1903は、不適合分布情報取得部2201で取得された分布情報に基づいて検索を行なう。例えば、実施形態11または実施形態12におけるように検索を行ない、その検索の結果である中間結果から、分布情報に基づいて検索を行なう。すなわち、中間結果から、分布情報に合致するものを選択して、最終的な検索の結果とする。
(実施形態14:主に請求項17、18に対応する)
本発明の実施形態14は、塩基配列集合保持装置である。すなわち、エクソンの塩基配列の和集合と、複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列である境界塩基配列の集合と、の和集合を含む集合である塩基配列集合を、検索可能に保持する装置である。
したがって、本実施形態に係る塩基配列集合保持装置の形態としては、例えば実施形態8に係る特異的塩基配列探索装置1900の塩基配列集合蓄積部1901を実現するハードディスクが外付けハードディスク装置になっているものを挙げることができる。また、特異的塩基配列探索装置1900の塩基配列集合蓄積部1901を実現するハードディスクを有するサーバ装置であってもよい。
本実施形態に係る塩基配列集合保持装置により、様々な検索アルゴリズムに基づく検索を実現することが可能となる。
(実施形態15:主に請求項19、22に対応する)
本発明の実施形態15は、実施形態14の塩基配列集合保持装置において、保持される境界塩基配列の集合を、複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列を示す情報であって、検索の入力となる塩基配列の長さと同じ長さの塩基配列を示す情報、からなる集合に対して、発現遺伝子が同じで、塩基配列の位置が重複する塩基配列を示す情報を統合することにより得られる集合に基づいて得られるものとした、塩基配列集合保持装置である。すなわち、実施形態10に係る特異的塩基配列探索装置の塩基配列集合蓄積部を、別の装置とした形態である。例えば、実施形態10に係る特異的塩基配列探索装置の塩基配列集合蓄積部に蓄積されるデータを、NAS(Network Attached Storage)やSAN(Storage Area Network)に蓄積させることにより得られる形態である。
本実施形態においては、境界塩基配列に対して統合の操作が行なわれるので、必要なディスクスペースを減少させることができる。
本発明においては、エクソンの塩基配列と、エクソンの境界に現れる塩基配列と、から塩基配列集合を生成して、検索を行なうので、発現遺伝子に特異的に現れる塩基配列かどうかを検索結果数に基づいて決定できるので、特異的塩基配列を決定する上で有用である。
RNA干渉の過程の概略を示す図 マイクロアレイを用いた遺伝子解析や遺伝子診断などの過程の一例図 DNA配列とmRNAに転写される発現遺伝子配列との関係の一例図 エクソンの和集合と発現遺伝子のエクソンの境界をまたぐ塩基配列の一例図 N−1通りの境界塩基配列の一例図 塩基配列の統合を説明するための図 塩基配列の統合を説明するための図 塩基配列の和集合を計算するために用いるテーブルの一例図 塩基配列の和集合を計算するためのフローチャート 境界塩基配列の統合の求め方の一例図 長さがN−1mer未満のエクソンが存在する場合の一例図 統合の操作を行なうために使用するテーブルの一例図 統合の処理のフローチャート 本発明の実施形態1に係る塩基配列集合生成方法の処理のフローチャート 和集合生成ステップで得られた塩基配列を格納したテーブルの一例図 本発明の実施形態2に係る特異的塩基配列探索方法のフローチャート 本発明の実施形態4に係る特異的塩基配列探索方法のフローチャート 候補塩基配列長が19で適合許容数が3である場合にBLASTでは検索できないと考えられる塩基配列のミスマッチを示す図 本発明の実施形態9に係る特異的塩基配列探索装置の機能ブロック図 本発明の実施形態11に係る特異的塩基配列探索装置の機能ブロック図 本発明の実施形態12に係る特異的塩基配列探索装置の機能ブロック図 本発明の実施形態13に係る特異的塩基配列探索装置の機能ブロック図
符号の説明
301 エクソン
302 エクソン
303 エクソン
304 エクソン
305 エクソン
306 エクソン
401 エクソンの和集合の一要素
402 エクソンの和集合の一要素
403 エクソンの和集合の一要素
404 境界塩基配列の一部
405 境界塩基配列の一部
406 境界塩基配列の一部
407 境界塩基配列の一部

Claims (23)

  1. 発現遺伝子の塩基配列に特異的に現れる塩基配列の候補である特異的塩基配列候補を取得する特異的塩基配列候補取得ステップと、
    エクソンの塩基配列の和集合と、
    複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列である境界塩基配列の集合と、
    の和集合を含む集合である塩基配列集合の中から、前記特異的塩基配列候補取得ステップにて取得された特異的塩基配列候補が表わす塩基配列と適合する塩基配列である適合塩基配列を検索する塩基配列検索ステップと、
    前記塩基配列検索ステップでの検索結果に適合塩基配列が複数あるかどうかに基づいて、前記特異的塩基配列候補取得ステップにて取得された特異的塩基配列候補が特異的塩基配列であるか判断する判断ステップと、
    を含む特異的塩基配列探索方法。
  2. 前記エクソンの塩基配列の和集合の要素には、エクソンの配列位置を示す情報またはエクソンが構成する遺伝子を識別する情報を含む属性情報が関連付けられている請求項1に記載の特異的塩基配列探索方法。
  3. 前記境界塩基配列の集合は、
    複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列を示す情報であって、前記特異的塩基配列候補の塩基配列の長さと同じ長さの塩基配列を示す情報、からなる集合に対して、発現遺伝子が同じで、塩基配列の位置が重複する塩基配列を示す情報を統合することにより得られる集合に基づいて得られるものである請求項1または2に記載の特異的塩基配列探索方法。
  4. 前記塩基配列集合の塩基配列と前記特異的塩基配列候補が表わす塩基配列との適合の度合いとして、いくつの塩基の不適合まで許容するかを示す数値である適合許容数を取得する適合許容数取得ステップを含み、
    前記塩基配列検索ステップでは、前記適合許容数取得ステップにて取得された適合許容数に基づいて検索を行なう請求項1から3のいずれか一に記載の特異的塩基配列探索方法。
  5. 前記塩基配列検索ステップにおいて不適合と判断する塩基の対を取得する不適合塩基対取得ステップを含む請求項4に記載の特異的塩基配列探索方法。
  6. 前記塩基配列集合の塩基配列と前記特異的塩基配列候補が表わす塩基配列との適合の度合いとして、塩基の不適合の発生の分布を示す情報である分布情報を取得する不適合分布情報取得ステップを含み、
    前記塩基配列検索ステップでは、前記不適合分布情報取得ステップで取得された分布情報に基づいて検索を行なう請求項1から5のいずれか一に記載の特異的塩基配列探索方法。
  7. 前記分布情報は、不適合とみなされない塩基が連続する長さを表わす請求項6に記載の特異的塩基配列探索方法。
  8. 前記特異的塩基配列候補は、マイクロアレイのオリゴDNAの塩基配列の候補である請求項1から7のいずれか一に記載の特異的塩基配列探索方法。
  9. 前記特異的塩基配列候補は、siRNAの塩基配列の候補を示す請求項1から7のいずれか一に記載の特異的塩基配列探索方法。
  10. エクソンの塩基配列の和集合と、
    複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列である境界塩基配列の集合と、
    の和集合を含む集合である塩基配列集合を保持する塩基配列集合蓄積部と、
    発現遺伝子の塩基配列に特異的に現れる塩基配列の候補である特異的塩基配列候補を取得する特異的塩基配列候補取得部と、
    前記塩基配列集合蓄積部に蓄積された塩基配列集合に含まれる塩基配列から、前記特異的塩基配列候補取得部で取得された特異的塩基配列候補と適合する塩基配列である適合塩基配列を検索する塩基配列検索部と、
    を有する特異的塩基配列探索装置。
  11. 前記エクソンの塩基配列の和集合の要素には、エクソンの配列位置を示す情報またはエクソンが構成する遺伝子を識別する情報を含む属性情報が関連付けられている請求項10に記載の特異的塩基配列探索装置。
  12. 前記境界塩基配列の集合は、
    複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列を示す情報であって、前記特異的塩基配列候補の塩基配列の長さと同じ長さの塩基配列を示す情報、からなる集合に対して、発現遺伝子が同じで、塩基配列の位置が重複する塩基配列を示す情報を統合することにより得られる集合に基づいて得られるものである請求項10または11に記載の特異的塩基配列探索装置。
  13. 前記塩基配列集合の塩基配列と前記特異的塩基配列候補が表わす塩基配列との適合の度合いとして、いくつの塩基の不適合まで許容するかを示す数値である適合許容数を取得する適合許容数取得部を有し、
    前記塩基配列検索部は、前記適合許容数取得部にて取得された適合許容数に基づいて検索を行なう請求項10から12のいずれか一に記載の特異的塩基配列探索装置。
  14. 前記塩基配列検索部による検索において不適合と判断する塩基の対を取得する不適合塩基対取得部を有する請求項13に記載の特異的塩基配列探索装置。
  15. 前記塩基配列集合の塩基配列と前記特異的塩基配列候補が表わす塩基配列との適合の度合いとして、塩基の不適合の発生の分布を示す情報である分布情報を取得する不適合分布情報取得部を有し、
    前記塩基配列検索部は、前記不適合分布情報取得部で取得された分布情報に基づいて検索を行なう請求項10から14のいずれか一に記載の特異的塩基配列探索装置。
  16. 前記分布情報は、不適合とみなされない塩基が連続する長さを表わす請求項15に記載の特異的塩基配列探索装置。
  17. エクソンの塩基配列の和集合と、
    複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列である境界塩基配列の集合と、
    の和集合を含む集合である塩基配列集合を、検索可能に保持する塩基配列集合保持装置。
  18. 前記エクソンの塩基配列の和集合の要素には、エクソンの配列位置を示す情報またはエクソンが構成する遺伝子を識別する情報を含む属性情報が関連付けられている請求項17に記載の塩基配列集合保持装置。
  19. 前記境界塩基配列の集合は、
    複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列を示す情報であって、検索の入力となる塩基配列の長さと同じ長さの塩基配列を示す情報、からなる集合に対して、発現遺伝子が同じで、塩基配列の位置が重複する塩基配列を示す情報を統合することにより得られる集合に基づいて得られるものである請求項17または18に記載の塩基配列集合保持装置。
  20. 発現遺伝子の塩基配列に特異的に現れる塩基配列の候補の塩基配列の長さを取得する候補塩基配列長取得ステップと、
    エクソンの塩基配列の和集合を取得するエクソン塩基配列集合取得ステップと、
    複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列を示す情報であって、候補塩基配列長ステップで取得された長さと同じ長さの塩基配列を示す情報、からなる集合に対して、発現遺伝子が同じで、塩基配列の位置が重複する塩基配列を示す情報を統合することにより塩基配列の集合を生成する境界塩基配列集合生成ステップと、
    前記エクソン塩基配列集合取得ステップで取得された塩基配列の集合と、前記境界塩基配列集合生成ステップで生成された塩基配列の集合との和集合を生成する和集合生成ステップと、
    を含む塩基配列集合生成方法。
  21. 発現遺伝子の塩基配列に特異的に現れる塩基配列の候補である特異的塩基配列候補を取得する特異的塩基配列候補取得ステップと、
    エクソンの塩基配列の和集合と、複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列である境界塩基配列の集合と、の和集合を含む集合である塩基配列集合に含まれる塩基配列から、前記特異的塩基配列候補取得ステップで取得された特異的塩基配列候補と適合する塩基配列である適合塩基配列を検索する塩基配列検索ステップと、
    を計算機に実行させるための特異的塩基配列探索プログラム。
  22. 発現遺伝子の塩基配列に特異的に現れる塩基配列の候補の塩基配列の長さを取得する候補塩基配列長取得ステップと、
    エクソンの塩基配列の和集合を取得するエクソン塩基配列集合取得ステップと、
    複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列を示す情報であって、候補塩基配列長ステップで取得された長さと同じ長さの塩基配列を示す情報、からなる集合に対して、発現遺伝子が同じで、塩基配列の位置が重複する塩基配列を示す情報を統合することにより塩基配列の集合を生成する境界塩基配列集合生成ステップと、
    前記エクソン塩基配列集合取得ステップで取得された塩基配列の集合と、前記境界塩基配列集合生成ステップで生成された塩基配列の集合との和集合を生成する和集合生成ステップと、
    を計算機に実行させるための塩基配列集合生成プログラム。
  23. 発現遺伝子の塩基配列に特異的に現れる塩基配列の候補である特異的塩基配列候補を取得する特異的塩基配列候補取得ステップと、
    エクソンの塩基配列の和集合と、
    複数のエクソンから構成される発現遺伝子におけるエクソンの境界にまたがって存在する塩基配列である境界塩基配列の集合と、
    の和集合を含む集合である塩基配列集合の中から、前記特異的塩基配列候補取得ステップにて取得された特異的塩基配列候補が表わす塩基配列と適合する塩基配列である適合塩基配列を検索する塩基配列検索ステップと、
    前記塩基配列検索ステップでの検索結果に適合塩基配列が複数あるかどうかに基づいて、前記特異的塩基配列候補取得ステップにて取得された特異的塩基配列候補が特異的塩基配列であるか判断する判断ステップと、
    を計算機に実行させるための特異的塩基配列探索プログラム。
JP2006511480A 2004-03-26 2005-03-23 特異的塩基配列探索方法 Active JP4991287B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006511480A JP4991287B2 (ja) 2004-03-26 2005-03-23 特異的塩基配列探索方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2004093301 2004-03-26
JP2004093301 2004-03-26
PCT/JP2005/005290 WO2005093631A1 (ja) 2004-03-26 2005-03-23 特異的塩基配列探索方法
JP2006511480A JP4991287B2 (ja) 2004-03-26 2005-03-23 特異的塩基配列探索方法

Publications (2)

Publication Number Publication Date
JPWO2005093631A1 true JPWO2005093631A1 (ja) 2008-02-14
JP4991287B2 JP4991287B2 (ja) 2012-08-01

Family

ID=35056388

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006511480A Active JP4991287B2 (ja) 2004-03-26 2005-03-23 特異的塩基配列探索方法

Country Status (4)

Country Link
US (1) US20070202504A1 (ja)
EP (1) EP1732021A4 (ja)
JP (1) JP4991287B2 (ja)
WO (1) WO2005093631A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080250016A1 (en) * 2007-04-04 2008-10-09 Michael Steven Farrar Optimized smith-waterman search
US9430526B2 (en) * 2008-09-29 2016-08-30 Teradata Us, Inc. Method and system for temporal aggregation

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001258568A (ja) * 2000-03-22 2001-09-25 Hitachi Ltd プライマー設計システム
JP2003256434A (ja) * 2002-02-28 2003-09-12 Hitachi Ltd スプライスバリアント比較表示方法
JP2005516300A (ja) * 2002-01-25 2005-06-02 アプレラ コーポレイション 製品およびサービスに対する注文を発注し、受理し、および充足する方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001258568A (ja) * 2000-03-22 2001-09-25 Hitachi Ltd プライマー設計システム
JP2005516300A (ja) * 2002-01-25 2005-06-02 アプレラ コーポレイション 製品およびサービスに対する注文を発注し、受理し、および充足する方法
JP2003256434A (ja) * 2002-02-28 2003-09-12 Hitachi Ltd スプライスバリアント比較表示方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
JPN6010065195, Pospisil, H., "EASED: Extended Alternatively Spliced EST Database", Nucleic Acids Research, 20040101, Vol.32, p.D70−D74 *

Also Published As

Publication number Publication date
US20070202504A1 (en) 2007-08-30
EP1732021A1 (en) 2006-12-13
JP4991287B2 (ja) 2012-08-01
EP1732021A4 (en) 2009-07-29
WO2005093631A1 (ja) 2005-10-06

Similar Documents

Publication Publication Date Title
Fudenberg et al. Predicting 3D genome folding from DNA sequence with Akita
Ghanbari et al. Deep neural networks for interpreting RNA-binding protein target preferences
Hsu et al. Integrating high dimensional bi-directional parsing models for gene mention tagging
Kim et al. HISAT: a fast spliced aligner with low memory requirements
Li et al. Fast and accurate long-read alignment with Burrows–Wheeler transform
Chu et al. Innovations and challenges in detecting long read overlaps: an evaluation of the state-of-the-art
CN108985008B (zh) 一种快速比对基因数据的方法和比对系统
JP7319197B2 (ja) 標的核酸のシークエンシングデータをアライメントする方法
WO2015061099A1 (en) Systems and methods for transcriptome analysis
Panigrahi et al. FusionHub: a unified web platform for annotation and visualization of gene fusion events in human cancer
Nepomuceno et al. Integrating biological knowledge based on functional annotations for biclustering of gene expression data
Machné et al. Similarity-based segmentation of multi-dimensional signals
Sarrazin-Gendron et al. Automated, customizable and efficient identification of 3D base pair modules with BayesPairing
Shen et al. MAGUS+ eHMMs: improved multiple sequence alignment accuracy for fragmentary sequences
Sadiq et al. NvPD: novel parallel edit distance algorithm, correctness, and performance evaluation
Frid et al. A simple, practical and complete O-time Algorithm for RNA folding using the Four-Russians Speedup
JP4614949B2 (ja) 塩基配列検索装置及び塩基配列検索方法
Bi et al. Clarion is a multi-label problem transformation method for identifying mRNA subcellular localizations
Vineetha et al. SPARK-MSNA: Efficient algorithm on Apache Spark for aligning multiple similar DNA/RNA sequences with supervised learning
Monsu et al. Fast alignment of reads to a variation graph with application to SNP detection
Salmela et al. Fast and accurate correction of optical mapping data via spaced seeds
JP4991287B2 (ja) 特異的塩基配列探索方法
Beretta et al. Mapping RNA-seq data to a transcript graph via approximate pattern matching to a hypertext
Mann et al. Memory-efficient RNA energy landscape exploration
Choyon et al. Presa2i: incremental decision trees for prediction of adenosine to inosine rna editing sites

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071201

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20100219

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20100303

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101116

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20110117

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20110124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110215

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110816

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20111014

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120410

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120507

R150 Certificate of patent or registration of utility model

Ref document number: 4991287

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150511

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R371 Transfer withdrawn

Free format text: JAPANESE INTERMEDIATE CODE: R371

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250