JPWO2003038091A1 - ミスハイブリダイゼーションを回避しうるオリゴヌクレオチド配列とその設計方法 - Google Patents
ミスハイブリダイゼーションを回避しうるオリゴヌクレオチド配列とその設計方法 Download PDFInfo
- Publication number
- JPWO2003038091A1 JPWO2003038091A1 JP2003540356A JP2003540356A JPWO2003038091A1 JP WO2003038091 A1 JPWO2003038091 A1 JP WO2003038091A1 JP 2003540356 A JP2003540356 A JP 2003540356A JP 2003540356 A JP2003540356 A JP 2003540356A JP WO2003038091 A1 JPWO2003038091 A1 JP WO2003038091A1
- Authority
- JP
- Japan
- Prior art keywords
- sequences
- template
- sequence
- oligonucleotide
- length
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/20—Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Chemical & Material Sciences (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
互いにミスハイブリダイゼーションを起こしにくいDNA配列を効率よくかつシステマティックに設計する方法を提供するものである。所定の長さのDNA配列を、G又はCとA又はTを0と1からなるビット列(テンプレート)で表わした場合、各テンプレート間、各テンプレートの逆配列間、これらをシフトした配列間、これらの連結配列間とのハミング距離が、いずれも所定値以上になるテンプレートを選択し、該テンプレートが表現するDNA配列の集合の中から、ハミング符号等の任意の誤り訂正符号の符号語と組み合わせることにより、テンプレートが表現するDNA配列同士が少なくとも前記ハミング距離kを保つDNA配列の集合を選定する。
Description
技術分野
本発明は、一定の固定長のオリゴヌクレオチド配列の集合S中のいかなる配列も、集合S中の他の配列及び配列どうしを連結したつなぎ目部分と、ある一定値以上のミスマッチを必ず含ませてミスハイブリダイゼーションを起こさぬようにしたオリゴヌクレオチド配列の集合Sやそのシステマティックな設計方法、前記オリゴヌクレオチド配列の集合Sの設計に用いられるGCテンプレート又はAGテンプレートのシステマティックな設計方法、並びに、前記オリゴヌクレオチド配列の集合Sを利用したDNA又はRNAチップ、DNA又はRNAタグ、DNA又はRNA計算システム、DNA又はRNAプローブに関する。
背景技術
DNAは4種類の塩基、すなわちアデニン(A),シトシン(C),グアニン(G),チミン(T)が鎖状に連結した構造を有し、AはTと、CはGと水素結合により塩基対を形成することから、A−T,C−Gは相補的であるといわれ、2本のDNA鎖が相補的に2重ラセン構造を有し、かかるDNA2重ラセンは、温度が上昇すると1本鎖DNAずつに解離し、温度が降下すると再び相補鎖と結合するが、この相補鎖と結合する過程がハイブリダイズといわれ、DNA鎖の解離する温度やハイブリダイズする温度は、その配列中のGC含量に左右されることが知られている。
ところで、遺伝子増幅法として非常に有効であり、広範囲のバイオ関連研究における必須の技術であるPCR(polymerase chain reaction)を実施する上で必要不可欠とされる2種類のプライマーをデザインする際に、プライマー同士の相互作用の問題が指摘されている。PCR反応液中のプライマーの濃度は、標的遺伝子の濃度に比べて圧倒的に大きいため、プライマー同士がお互いにハイブリダイズしやすい構造をもっていると、センス鎖間、アンチセンス鎖間又はセンス鎖とアンチセンス鎖間でミスハイブリダイゼーションが起こり、いわゆるプライマーダイマーを形成し、標的遺伝子とのハイブリダイゼーションが大幅に抑制されてしまうことになる。
また、論理式やグラフ構造など様々な記号処理演算系を書き込んだDNA配列を合成し、その配列を生物学実験のプロトコールに従って切り貼りする作業からなる、いわゆるDNA計算においては、問題の規模に相当する数だけ基本パーツになるDNAを合成し、非常に単純な“generate and test”方式で問題を解くことが行われている(Science 266,1021−1024,1994)。すなわち、パーツをランダムにつなぎ合わせて、解空間をカバーするのに十分な量のDNA配列をランダムに生成し、かかるランダムに生成した膨大な組み合わせの配列から一定の制約を満たす解のみを抽出することにより、DNA計算を実施することができる。上記解の抽出には、例えば制限酵素による切断を利用することができ、正解でない配列は制限酵素の認識部位を含み、正解の配列は制限酵素の認識部位を含まないようにパーツが設計されている。このようなDNA計算モデルの応用として、固相にDNAの5’末端を固定したDNAメモリーが知られており(Nature,403:175−179,2000)、様々な組み合わせの配列をランダムに生成して固相に固定し、そこから不適切なものを順次切り取りながら解を探索する手法が利用され、固相上の配列の切り取りには制限酵素が用いられ、伸長にはポリメラーゼが用いられている。このDNAメモリーの場合、DNAの配列同士がミスハイブリダイゼーションを起こさないように注意する必要がある。
上記のプライマー設計やDNA計算などにおいて、配列同士がミスハイブリダイゼーションを起こさないDNAを設計することも知られている。例えば、DNA配列やmRNA配列のGenBankデータベースに基づいてオリゴヌクレオチド配列を設計し、ユーザが選択した遺伝子配列との間で正確及び不正確なマッチモデリングを実行するための手段や、遺伝子配列についてのハイブリダイゼーション強度モデリングを実行するための手段等を備えたプログラムコンピュータシステム(特表平8−503091号公報)や、固定長のDNA配列が互いにシフトするフレームシフトエラーハイブリダイゼーション過程におけるシフトエラーをハミング距離を考慮して阻止又は最小限にする、遺伝的アルゴリズムを用いたコンピューターによるDNA計算法(”A New Metric for DNA Computing”Proceedings of the 2nd Annual Genetic Programming Conference,Palo Alto,472−478,1997)や、固定長のDNA配列において特定の長さの部分配列が設計した固定長のDNA配列セットに2度以上出現しない条件を付したコンピューターによるDNA計算法(ヨーロッパ特許出願97302313号、米国特許5604097)も報告されている。
DNA計算とは、前記のように、組み合わせ数学や論理などの計算を生物学実験によって行う研究分野であり、具体的には、論理式やグラフ構造など様々な記号処理演算系を書き込んだDNA配列を人工的に合成し、その配列を分子生物学実験のプロトコールに従って切り貼りすることにより、実験の最後に得られる配列がDNA計算の「計算結果」となる計算である。このように、人為的に意味づけされた情報(例えば論理変数や数学など)をDNA塩基にエンコードして用いる技術は、バイオテクノロジーの進展と共に加速度的に需要が増すと思われる。この技術を成功させるには、エラーによって間違った解釈が起きないようにあらかじめDNA配列を上手に設計しておくことが不可欠である。例えば、記号xをACACという4塩基で表現した場合、文字列xxはACACACACになるため、つなぎ目部分にもxの塩基配列が出現し、エラーの原因となる。これを防ぐには、どの配列も他の配列や配列同士の連結部分と、ある一定値以上のミスマッチを必ず含むような配列集合を効率よくかつシステマテッィクに求める手法が必要になる。
前記のように、DNA配列等のオリゴヌクレオチド配列同士がミスマッチを含み、互いにミスハイブリダイゼーションを回避するようにオリゴヌクレオチド配列を作製する配列設計方法は知られていたが、これらの設計方法は固相に固定するDNA配列等のオリゴヌクレオチドの設計が目的だったため、オリゴヌクレオチド配列におけるシフトと連結を含めてミスハイブリダイゼーションを回避する配列は設計されていない。例えば、DNA配列が液相に存在したり、配列同士を連結した場合でもミスハイブリダイゼーションを回避することを保証する配列設計方法は現在まで報告されていない。また、従来のミスハイブリダイゼーションを回避する配列の設計は、遺伝的アルゴリズムを利用したり、非常に単純な“generate and test”方式あるいはそれを改良した方式を用いたコンピューターによるDNA計算法であり、これらのDNA計算法はシステマティックな計算方法といいうるものではなかった。
本発明の課題は、所定の長さn(nは3以上、好ましくは6以上の整数)のオリゴヌクレオチド配列の集合S中の各オリゴヌクレオチド配列が、集合S中の各オリゴヌクレオチド配列との間、集合S中の他の各オリゴヌクレオチド配列の相補配列との間、これらをシフトした配列との間、並びに、前記各オリゴヌクレオチド配列同士、前記相補配列同士、及び前記各オリゴヌクレオチド配列と前記相補配列を連結した配列との間に、所定値以上のミスマッチを含み、前記各オリゴヌクレオチド配列との間、前記相補配列との間、これらをシフトした配列との間、並びに、前記各オリゴヌクレオチド配列同士、前記相補配列同士、及び前記各オリゴヌクレオチド配列と前記相補配列を連結した配列との間でのミスハイブリダイゼーションを回避することができるオリゴヌクレオチド配列の集合Sをシステマティックに設計する方法を提供することにある。また本発明の課題は、相補配列同様に、逆配列に対してもミスハイブリダイゼーションを回避することができるオリゴヌクレオチド配列の集合Sをシステマティックに設計する方法を提供することにある。なお、所定値以上のミスマッチを含み、オリゴヌクレオチド配列間でミスハイブリダイゼーションを回避することができることを以下「直交する」、直交する配列を「直交配列」ということがある。
本発明者は、DNA計算及び今後のバイオテクノロジーにおいて、正しい実験結果を得るための重要な技術となる、シフトと連結を含めた直交配列のシステマティックな配列設計方法について鋭意研究し、所定の長さnのオリゴヌクレオチド配列を、その各ポジションがG又はC([GC])あるいはA又はT([AT])であることを意味する、0と1からなるビット列(GCテンプレート)で表わした場合、各GCテンプレート間のハミング距離、各GCテンプレートの逆配列との間のハミング距離、これらをシフトした配列との間のハミング距離、並びに、各GCテンプレート同士、各GCテンプレートの逆配列同士、及び各GCテンプレートとその逆配列を連結した配列との間のハミング距離が、いずれも所定値k以上になるGCテンプレートを選択し、かかる選択されたGCテンプレートが表現するオリゴヌクレオチド配列の集合の中から、任意の誤り訂正符号の符号語と組み合わせ、前記選択されたGCテンプレートが表現するオリゴヌクレオチド配列同士が少なくとも前記ハミング距離kを保つオリゴヌクレオチド配列の集合を選定することにより、シフトと連結を含めたミスハイブリダイゼーションの値を保証する直交オリゴヌクレオチド配列の集合Sを設計しうることを見い出し、本発明を完成するに至った。
発明の開示
すなわち本発明は、所定の長さn(nは3以上の整数)のオリゴヌクレオチド配列の集合Sからなり、かかる集合S中の各オリゴヌクレオチド配列は、集合S中の各オリゴヌクレオチド配列との間、集合S中の他の各オリゴヌクレオチド配列の相補配列との間、これらをシフトした配列との間、並びに、前記各オリゴヌクレオチド配列同士、前記相補配列同士、及び前記各オリゴヌクレオチド配列と前記相補配列を連結した配列との間に、所定値以上のミスマッチを含み、前記各オリゴヌクレオチド配列との間、前記相補配列との間、これらをシフトした配列との間、並びに、前記各オリゴヌクレオチド配列同士、前記相補配列同士、及び前記各オリゴヌクレオチド配列と前記相補配列を連結した配列との間でのミスハイブリダイゼーションを回避することができることを特徴とするオリゴヌクレオチド配列の集合S(請求項1)や、所定の長さn(nは3以上の整数)のオリゴヌクレオチド配列の集合Sからなり、かかる集合S中の各オリゴヌクレオチド配列は、集合S中の各オリゴヌクレオチド配列との間、集合S中の各オリゴヌクレオチド配列の逆配列との間、これらをシフトした配列との間、並びに、前記各オリゴヌクレオチド配列同士、前記逆配列同士、及び前記各オリゴヌクレオチド配列と前記逆配列を連結した配列との間に、所定値以上のミスマッチを含み、前記各オリゴヌクレオチド配列との間、前記逆配列との間、これらをシフトした配列との間、並びに、前記各オリゴヌクレオチド配列同士、前記逆配列同士、及び前記各オリゴヌクレオチド配列と前記逆配列を連結した配列との間でのミスハイブリダイゼーションを回避することができることを特徴とするオリゴヌクレオチド配列の集合S(請求項2)や、所定の長さn(nは6以上の整数)のオリゴヌクレオチド配列からなる請求項1又は2記載のオリゴヌクレオチド配列の集合S(請求項3)や、所定の長さnのオリゴヌクレオチド配列の集合Sが、32以下の長さのオリゴヌクレオチド配列の集合Sであることを特徴とする請求項1〜3のいずれか記載のオリゴヌクレオチド配列の集合S(請求項4)や、所定値以上のミスマッチが、所定の長さnの1/4以上のミスマッチであることを特徴とする請求項1〜4のいずれか記載のオリゴヌクレオチド配列の集合S(請求項5)や、オリゴヌクレオチド配列の集合Sが、特定の部分配列を含む、又は特定の部分配列を含まないオリゴヌクレオチド配列の集合であることを特徴とする請求項1〜5のいずれか記載のオリゴヌクレオチド配列の集合S(請求項6)や、特定の部分配列が、制限酵素認識部位であることを特徴とする請求項6記載のオリゴヌクレオチド配列の集合S(請求項7)に関する。
また本発明は、請求項3記載のオリゴヌクレオチド配列の集合Sの設計方法であって、所定の長さnのオリゴヌクレオチド配列を、その各ポジションがG又はC([GC])あるいはA又はT([AT])であることを意味する、0と1からなる所定の長さL(Lは6以上の整数)のビット列(GCテンプレート)で表わした場合、各GCテンプレート間のハミング距離、各GCテンプレートの逆配列との間のハミング距離、これらをシフトした配列との間のハミング距離、並びに、各GCテンプレート同士、各GCテンプレートの逆配列同士、及び各GCテンプレートとその逆配列を連結した配列との間のハミング距離が、いずれも所定値k以上になるGCテンプレートを選択し、かかる選択されたGCテンプレートが表現するオリゴヌクレオチド配列の集合の中から、所定の誤り訂正符号の符号語と組み合わせることにより、前記選択されたGCテンプレートが表現するオリゴヌクレオチド配列同士が少なくとも前記ハミング距離kを保つオリゴヌクレオチド配列の集合を選定することを特徴とするオリゴヌクレオチド配列の集合Sの設計方法(請求項8)や、請求項1又は2記載のオリゴヌクレオチド配列の集合Sの設計方法であって、所定の長さnのオリゴヌクレオチド配列を、その各ポジションがA又はG([AG])あるいはT又はC([TC])であることを意味する、0と1からなる所定の長さL(Lは3以上の整数)のビット列(AGテンプレート)で表わした場合、各AGテンプレート間のハミング距離、各AGテンプレートの逆反転配列との間のハミング距離、これらをシフトした配列との間のハミング距離、並びに、各AGテンプレート同士、各AGテンプレートの逆反転配列同士、及び各AGテンプレートとその逆反転配列を連結した配列との間のハミング距離が、いずれも所定値k以上になるAGテンプレートを選択し、かかる選択されたAGテンプレートが表現するオリゴヌクレオチド配列の集合の中から、所定の誤り訂正符号の符号語と組み合わせることにより、前記選択されたAGテンプレートが表現するオリゴヌクレオチド配列同士が少なくとも前記ハミング距離kを保つオリゴヌクレオチド配列の集合を選定することを特徴とするオリゴヌクレオチド配列の集合Sの設計方法(請求項9)や、ハミング距離kを保つオリゴヌクレオチド配列の集合が、各配列同士の間、他の各配列の相補配列との間、これらをシフトした配列との間、並びに、前記各配列同士、前記相補配列同士、及び前記各配列と前記相補配列を連結した配列との間に、所定値以上のミスマッチを含み、前記各配列同士の間、他の各配列の相補配列との間、これらをシフトした配列との間、並びに、前記各配列同士、前記相補配列同士、及び前記各配列と前記相補配列を連結した配列との間でのミスハイブリダイゼーションを回避することができることを特徴とする請求項8又は9記載のオリゴヌクレオチド配列の集合Sの設計方法(請求項10)や、ハミング距離kを保つオリゴヌクレオチド配列の集合が、各配列同士の間、該各配列の逆配列との間、これらをシフトした配列との間、並びに、前記各配列同士、前記逆配列同士、及び前記各配列と前記逆配列を連結した配列との間に、所定値以上のミスマッチを含み、前記各配列同士の間、前記逆配列との間、これらをシフトした配列との間、並びに、前記各配列同士、前記逆配列同士、及び前記各配列と前記逆配列を連結した配列との間でのミスハイブリダイゼーションを回避することができることを特徴とする請求項8又は9記載のオリゴヌクレオチド配列の集合Sの設計方法(請求項11)や、所定の長さnのオリゴヌクレオチド配列の集合Sが、32以下の長さのオリゴヌクレオチド配列の集合Sであることを特徴とする請求項7〜9のいずれか記載のオリゴヌクレオチド配列の集合Sの設計方法(請求項12)や、所定値kが、Lの1/4以上の値であることを特徴とする請求項8〜12のいずれか記載のオリゴヌクレオチド配列の集合Sの設計方法(請求項13)や、オリゴヌクレオチド配列の集合Sが、特定の部分配列を含む、又は特定の部分配列を含まないオリゴヌクレオチド配列の集合であることを特徴とする請求項8〜13のいずれか記載のオリゴヌクレオチド配列の集合Sの設計方法(請求項14)や、特定の部分配列が、制限酵素認識部位であることを特徴とする請求項14記載のオリゴヌクレオチド配列の集合Sの設計方法(請求項15)や、所定の誤り訂正符号の符号語が、ハミング符号、BCH符号、最大長系列符号、Golay符号、ReedMuller符号、ReedSolomon符号、Hadamard符号、Preparata符号、リバーシブル符号、重み一定符号から選ばれることを特徴とする請求項8〜15のいずれか記載のオリゴヌクレオチド配列の集合Sの設計方法(請求項16)に関する。
また本発明は、請求項3記載のオリゴヌクレオチド配列の集合Sを作製するために用いられるGCテンプレートの設計方法であって、所定の長さnのオリゴヌクレオチド配列を、その各ポジションがG又はC([GC])あるいはA又はT([AT])であることを意味する、0と1からなる所定の長さL(Lは6以上の整数)のビット列(GCテンプレート)で表わした場合、各GCテンプレート間のハミング距離、各GCテンプレートの逆配列との間のハミング距離、これらをシフトした配列との間のハミング距離、並びに、各GCテンプレート同士、各GCテンプレートの逆配列同士、及び各GCテンプレートとその逆配列を連結した配列との間のハミング距離が、いずれも所定値k以上になるGCテンプレートを選択することを特徴とするGCテンプレートの設計方法(請求項17)や、所定の長さLのGCテンプレートが、32以下の長さのGCテンプレートであることを特徴とする請求項17記載のGCテンプレートの設計方法(請求項18)や、所定値kが、Lの1/4以上の値であることを特徴とする請求項17又は18記載のGCテンプレートの設計方法(請求項19)や、GCテンプレートが、長さL=6〜10のとき所定値k=2、長さL=11〜15のとき所定値k=4、長さL=16〜18のとき所定値k=6、長さL=19のとき所定値k=7、長さL=20〜22,24のとき所定値k=8、長さL=23,25のとき所定値k=9、長さL=26,27のとき所定値k=10、長さL=28,29のとき所定値k=11、長さL=30〜32のとき所定値k=12のGCテンプレートであることを特徴とする請求項18記載のGCテンプレートの設計方法(請求項20)や、オリゴヌクレオチド配列の集合Sが、特定の部分配列を含む、又は特定の部分配列を含まないオリゴヌクレオチド配列の集合であることを特徴とする請求項17〜20のいずれか記載のGCテンプレートの設計方法(請求項21)や、特定の部分配列が、制限酵素認識部位であることを特徴とする請求項21記載のGCテンプレートの設計方法(請求項28)に関する。
また本発明は、請求項1又は2記載のオリゴヌクレオチド配列の集合Sを作製するために用いられるAGテンプレートの設計方法であって、所定の長さnのオリゴヌクレオチド配列を、その各ポジションがA又はG([AG])あるいはT又はC([TC])であることを意味する、0と1からなる所定の長さL(Lは3以上の整数)のビット列(AGテンプレート)で表わした場合、各AGテンプレート間のハミング距離、各AGテンプレートの逆反転配列との間のハミング距離、これらをシフトした配列との間のハミング距離、並びに、各AGテンプレート同士、各AGテンプレートの逆反転配列同士、及び各AGテンプレートとその逆反転配列を連結した配列との間のハミング距離が、いずれも所定値k以上になるAGテンプレートを選択することを特徴とするAGテンプレートの設計方法(請求項23)や、所定の長さLのAGテンプレートが、32以下の長さのAGテンプレートであることを特徴とする請求項23記載のAGテンプレートの設計方法(請求項24)や、所定値kが、Lの1/4以上の値であることを特徴とする請求項23又は24記載のAGテンプレートの設計方法(請求項25)や、AGテンプレートが、長さL=3〜5のとき所定値k=1、長さL=6〜8のとき所定値k=2、長さL=9のとき所定値k=3、長さL=10〜12のとき所定値k=4、長さL=13,14のとき所定値k=5、長さL=15〜18のとき所定値k=6、長さL=19のとき所定値k=7、長さL=20〜22のとき所定値k=8、長さL=23のとき所定値k=9、長さL=24〜26のとき所定値k=10、長さL=27のとき所定値k=11、長さL=28〜30のとき所定値k=12、長さL=31のとき所定値k=13、長さL=32のとき所定値k=13のAGテンプレートであることを特徴とする請求項23記載のAGテンプレートの設計方法(請求項26)や、オリゴヌクレオチド配列の集合Sが、特定の部分配列を含む、又は特定の部分配列を含まないオリゴヌクレオチド配列の集合であることを特徴とする請求項23〜26のいずれか記載のAGテンプレートの設計方法(請求項27)や、特定の部分配列が、制限酵素認識部位であることを特徴とする請求項27記載のAGテンプレートの設計方法(請求項28)に関する。
さらに本発明は、請求項1〜7のいずれか記載のオリゴヌクレオチド配列の集合Sを有することを特徴とするDNA又はRNAチップ(請求項29)や、請求項1〜7のいずれか記載のオリゴヌクレオチド配列の集合Sを有することを特徴とするDNA又はRNAタグ(請求項30)や、請求項1〜7のいずれか記載のオリゴヌクレオチド配列の集合Sを有することを特徴とするDNA又はRNA計算システム(請求項31)や、請求項1〜7のいずれか記載のオリゴヌクレオチド配列の集合Sから選択されるオリゴヌクレオチド配列からなることを特徴とするDNA又はRNAプローブ(請求項32)に関する。
発明を実施するための最良の形態
本発明のオリゴヌクレオチド配列(以下「P配列」ということがある)の集合Sとしては、所定の長さn(GCテンプレートの場合nは6以上の整数、AGテンプレートの場合nは3以上の整数)のP配列の集合Sからなり、かかる集合S中の各P配列は、集合S中の各P配列との間、集合S中の他の各P配列の相補配列(以下「PC配列」ということがある)又は各P配列の逆配列(以下「PR配列」ということがある)との間、これらをシフトした配列との間、並びに、集合S中の各P配列同士、各PC配列又はPR配列同士、及び各P配列と各PC配列又はPR配列を連結した配列との間に、所定値以上のミスマッチを含み、前記集合S中の各P配列との間、各PC配列又はPR配列との間、これらをシフトした配列との間、並びに、集合S中の各P配列同士、各PC配列又はPR配列同士、及び各P配列と各PC配列又はPR配列を連結した配列との間でのミスハイブリダイゼーションを回避することができる直交配列の集合であれば特に制限されるものではなく、上記オリゴヌクレオチド配列にはDNA配列やRNA配列が含まれ、また、オリゴヌクレオチド配列の所定の長さn(GCテンプレートの場合nは6以上の整数、AGテンプレートの場合nは3以上の整数)の上限は限定されないが、PCRにおけるプライマーやDNAチップにおける使用を考慮すると、通常100塩基、好ましくは32塩基であり、他方、所定の長さが5以下の場合(GCテンプレート)あるいは2以下の場合(AGテンプレート)は本発明のオリゴヌクレオチド配列の集合Sを得ることができない。なお、本発明の対象となるオリゴヌクレオチド配列の集合Sには、便宜上集合Sの部分集合も含まれる。以下、オリゴヌクレオチド配列がDNA配列の場合を中心とし、相補配列も含めてミスマッチを含む集合Sを、GCテンプレートを用いて設計する場合を中心に説明する。
GCテンプレートを用いて設計される本発明の集合S中のP配列は、それ自体の配列及び集合S中の他のP配列との間に、シフトのない場合とシフトのある(配列同士をずらした)場合に関わらず所定値以上のミスマッチを含み、ミスハイブリダイゼーションを回避することができるばかりでなく、集合S中の他の(それ自体を除く)各オリゴヌクレオチド配列の相補配列であるPC配列との間、すなわち、P配列におけるAをT、TをA、GをC、CをGにそれぞれ置換し、5’と3’の向きを逆にしたPC配列との間に、シフトのない場合とシフトのある場合に関わらず所定値以上のミスマッチを含み、ミスハイブリダイゼーションを回避することや、集合S中の各オリゴヌクレオチド配列を連結したオリゴヌクレオチド配列、すなわち、各P配列同士の連結配列、各PC配列同士の連結配列、各P配列とPC配列との連結配列、各PC配列と各P配列との連結配列等との間に、所定値以上のミスマッチを含み、ミスハイブリダイゼーションを回避することができる。ここで、ミスマッチとは、ハイブリダイズした場合の相補塩基以外との対合をいい、所定値以上のミスマッチとしては、ミスハイブリダイゼーションを回避することができるミスマッチ数であれば特に制限されないが、好ましくはオリゴヌクレオチド配列の所定の長さn(nは6以上の整数)の1/5個以上、より好ましくは1/4個以上、特に好ましくは1/3個以上のミスマッチを挙げることができる。
また、本発明の集合S中のP配列としては、それ自体の配列及び集合S中の他のP配列との間に、シフトのない場合とシフトのある(配列同士をずらした)場合に関わらず所定値以上のミスマッチを含み、ミスハイブリダイゼーションを回避することができるばかりでなく、集合S中の各P配列の逆配列であるPR配列との間、すなわち、P配列における5’→3’の配列(例えば、AATTGACT)の3’側を5’側とし、5’側を3’側とした配列(例えば、TCAGTTAA)との間に、シフトのない場合とシフトのある場合に関わらず所定値以上のミスマッチを含み、ミスハイブリダイゼーションを回避することや、各P配列同士の連結配列、各PR配列同士の連結配列、各P配列とPR配列との連結配列、各PR配列と各P配列との連結配列等との間に、所定値以上のミスマッチを含み、ミスハイブリダイゼーションを回避することができる。
また、本発明の集合Sを構成するオリゴヌクレオチド配列としては、特定の部分配列を含んだり、あるいは、特定の部分配列を含まないオリゴヌクレオチド配列として操作しうることが好ましい。かかる特定の部分配列としては、制限酵素認識部位や、RNAのポリA部分、翻訳開始コドンであるATG、ストップコドンであるTAA,TAG,TGA等を初めとする発現シグナル配列や、転写因子の認識するコンセンサス配列GCCAATCT,ATGCAAATや、抗体の可変ドメインをコードする塩基配列などの任意のDNA配列シグナルを例示することができる。
上述の本発明のオリゴヌクレオチド配列の集合Sは、通常、2段階で設計することができる。最初の段階は、ハミング距離を用いたGCテンプレートの設計段階であり、次の段階は、設計されたGCテンプレートが表現するオリゴヌクレオチド配列の集合の中から、誤り訂正符号の理論を利用して、目的とする本発明のオリゴヌクレオチド配列の集合Sを設計することができる。DNA配列はG又はC[GC]やA又はT[AT]からなる配列とすることができることから、まず最初の段階で、配列の各ポジションが[GC]か[AT]かを決定する。このポジションは0と1からなるGCテンプレート;b1b2…bi(bi∈{0,1})で表現され、1は[AT],0は[GC]、又は1は[GC],0は[AT]を意味する。このため、長さLのGCテンプレートで、4L通りでなく2L通りの配列を表現することになる。次の段階で、GCテンプレートが1の部位は[AT],0の部位は[GC]、又は1の部位は[GC],0の部位は[AT]の塩基へ具体的に置換することにより塩基配列が決定される。
上記ハミング距離は、配列間の類似度の尺度として用いられる。例えば、2つの文字列x=x1x2…xnとy=y1y2…ynのハミング距離は、xi≠yiとなるインデクスiの数と定義される。また、DNA配列間のミスハイブリダイゼーションは、配列がシフトした(ずれた)状態でも起こりうるから、配列がシフトした場合のハミング距離も考慮する必要がある。シフトはどちらか一方の配列が他方に比べて長い場合に生じることであるから、例えば、|x|<|y|とすると、2つの文字列間のハミング距離は、xと、長さ|x|のy中に含まれる(|y|−|x|+1)個の部分配列それぞれとのハミング距離の最小値とすることができる。この最小値で表されるハミング距離をH(x,y)で表すこととする。
次に、GCテンプレートtと、該GCテンプレートt同士の連結配列,GCテンプレートtの逆配列tR同士の連結配列,GCテンプレートtと逆配列tRの連結配列とのハミング距離を求めるためにGCテンプレートtに対する関数MD(min distanceの略)を考えるが、上記GCテンプレートtの逆配列tRは、GCテンプレートtのビット列を逆向きに並べた配列を意味する。GCテンプレートtと、連結配列における両外側の配列となるGCテンプレートtやその逆配列tRとのハミング距離は既に求められているから、連結配列に対してGCテンプレートtをシフトさせハミング距離の最小値を求める場合、連結配列の両端の一文字づつを取り除いた配列について検討すればよいことから、MD(t)の数式には記号〔〕を用いると便利である。記号〔〕は〔s1s2s3…sm−1sm〕=s2…sm−1、すなわち両端の一文字づつを取り除いた配列を意味する。そうすると、GCテンプレートtと連結配列とのハミング距離の最小値MD(t)は次式で表される。
MD(t)=min{H(t,tR),H(t,〔tt〕),H(t,〔ttR〕),H(t,〔tRt〕),H(t,〔tRtR〕)}
したがって、あるGCテンプレートtに対してMD(t)=k(k≧0)の場合、連結配列に対してGCテンプレートtをシフトさせた場合、連結配列の両端の一文字づつを取り除いた配列〔tt〕,〔ttR〕,〔tRt〕,〔tRtR〕に対して、その連結部分を含め、少なくともkのハミング距離が保証される。図1に、GCテンプレートt=110100の場合にMD(t)=2となることが示されている。この場合、逆配列tR=001011,〔tt〕=1010011010,〔ttR〕=1010000101,〔tRt〕=0101111010,〔tRtR〕=0101100101となり、図1には各ハミング距離が2の場合が示されている。図1からもわかるように、GCテンプレートt=110100は、どのようにシフトしてもハミング距離を2より小さくできないので、MD(t)=2となる。
このように、本発明のGCテンプレートの設計方法は、本発明のオリゴヌクレオチド配列の集合Sを作製するための最初の段階で用いられる。かかる本発明のGCテンプレートの設計方法としては、上述の説明からもわかるように、所定の長さnのオリゴヌクレオチド配列を、その各ポジションが[GC]あるいは[AT]であることを意味する、0と1からなるビット列(GCテンプレート)で表わした場合、各GCテンプレート間のハミング距離、各GCテンプレートの逆配列との面のハミング距離、これらをシフトした配列との間のハミング距離、並びに、各GCテンプレート同士、各GCテンプレートの逆配列同士、及び各GCテンプレートとその逆配列を連結した配列との間のハミング距離MD(t)が、いずれも所定値k以上になるGCテンプレートを選択する方法であれば特に制限されるものではないが、GCテンプレートの長さLは6以上、好ましくは6〜100、より好ましくは6〜32、特に好ましくは分子生物学実験でよく用いられる20前後であり、5以下の場合は所望のハミング距離を有するものが得られない。かかる長さLを有するGCテンプレートを用いると、相当する長さnのオリゴヌクレオチド配列の集合Sを得ることができる。また、所定値kとしては、かかるGCテンプレートから作製されるオリゴヌクレオチド配列が、ミスハイブリダイゼーションを回避することができる本発明のオリゴヌクレオチド配列となる値であれば特に制限されないが、好ましくはGCテンプレートの長さLの1/5以上、より好ましくは1/4以上、特に好ましくは1/3以上の値を挙げることができる。
一般に、長さLを大きくした場合や、MD値(k値)を下げた場合はより多くのGCテンプレートが存在することになるが、所定の長さで最も大きいk値(MD値)を有するGCテンプレートは特に重要である。長さL=6〜32で最も大きいk値(MD値)を有するGCテンプレートとしては、長さL=6〜10のとき所定値k=2、長さL=11〜15のとき所定値k=4、長さL=16〜18のとき所定値k=6、長さL=19のとき所定値k=7、長さL=20〜22,24のとき所定値k=8、長さL=23,25のとき所定値k=9、長さL=26,27のとき所定値k=10、長さL=28,29のとき所定値k=11、長さL=30〜32のとき所定値k=12のGCテンプレートである。上記の長さL=6〜32のGCテンプレートにおける所定値kの最大値と、その最大値を有するGCテンプレート数と、具体例を[表1]に示す。また、特定のMD値(k値)を満たす最短のGCテンプレートを[表2]に示す。さらに、長さL=11〜27のGCテンプレートにおける具体例を[表3]に、長さL=28〜30のGCテンプレートにおける具体例を[表4]に示す。なお、[表2]においては、01の反転又は逆配列が等しくなる場合を省いて列挙されており、[表3]及び[表4]においては、サイクリックシフト(cyclic shift)して同一になるGCテンプレートを省いた数が「数(item)」として示されている。
上記[表1]〜[表4]等に列挙されているにGCテンプレート配列は、全て0の配列から全て1の配列までの全パターンを網羅的に探索することにより、当業者であれば選び出すことができる。しかし、長さLのGCテンプレートを見つけるのに2L個のパターン全てを探す必要はなく、ビット01を反転させたGCテンプレートは同じ性質を持つことから、GCテンプレートに含まれるビット1がL/2以下のものを考えればよい。また、ミスマッチ個数の制約から、最小距離がdの場合、少なくとも(L−sqrt(L2−2dL))/2個のビット1をもつことが示される(sqrtは平方根)。このような制約を追加的に用いることで、GCテンプレートを効率よく求めることができる。さらに、GCテンプレートの設計に際して、GCテンプレートから作製したオリゴヌクレオチド配列の集合Sが、前述した制限酵素認識部位等の特定の部分配列を含む、又は特定の部分配列を含まないオリゴヌクレオチド配列の集合となるように設計することは、網羅的探索の空間を狭めることに対応するため、より容易に設計することができる。
本発明のオリゴヌクレオチド配列の集合Sは、上記ハミング距離を用いたGCテンプレートの設計段階に続く、設計されたGCテンプレートが表現するオリゴヌクレオチド配列の集合の中から、誤り訂正符号の理論を利用する段階、すなわち、誤り訂正符号の符号語と組み合わせることにより、GCテンプレートが1の部位は[AT],0の部位は[GC]、又は1の部位は[GC],0の部位は[AT]の塩基へ具体的に置換することにより設計することができる。上記誤り訂正符号の符号語としては、公知の誤り訂正符号の符号語であればどのようなものでもよく、ハミング符号、BCH符号、最大長系列符号、Golay符号、ReedMuller符号、ReedSolomon符号、Hadamard符号、Preparata符号、リバーシブル符号等を具体的に例示することができる。
誤り訂正符号の理論を用いる動機は、シフトの無い場合に相補配列との間でミスマッチを保証することにある(請求項1参照)。従って、逆配列も考慮したミスマッチを含む集合S(請求項2参照)については、必ずしも誤り訂正符号を用いる必要はない。誤り訂正符号は任意の符号語間にミスマッチの数が一定以上存在するような符号語の集合であるが、集合Sとその逆配列の集合がミスハイブリダイゼーションを防ぐようにする場合は、任意の符号語間に(ミスマッチではなく)マッチの数が一定以上存在するような符号語の集合を適用するだけでよい。本発明のオリゴヌクレオチド配列の集合Sは、GCテンプレートの情報とともに符号語の情報が配列に反映される。従って、相補配列との間でk個のミスマッチを保証するには、ハミング距離(ミスマッチの数)k以上を保つ誤り訂正符合を用いればよく、逆配列との間でk個のミスマッチを保証するには、マッチの数k以上を保つ符合を用いればよい。
誤り訂正符号の理論では、与えられた情報ビットに検査ビットと呼ばれる誤り検出、訂正用の冗長なビットを付け加え、任意の符号語間のハミング距離を一定値以上にするような符号が開発されている。任意の符号語間のハミング距離をある値以上にするような符号が開発されている。この符号語間のハミング距離の最小値は最小距離と呼ばれる。符号理論の目標は、最小距離を大きく保ちつつ符号語数が多いものを設計することにあるため、本発明の目的にかなう符号が多く存在する。例えば符号長23で最小距離が7のGolay符号は4096語ある。この符号を用いば長さ23のGCテンプレート(MD値は9まで)一つに対し、4096個のオリゴヌクレオチドを設計可能である。
次に、誤り訂正符号とGCテンプレートの組み合わせの具体例を挙げて説明する。GCテンプレートとしては、MD(t)=2、長さL=7の1101000(上段)に、ハミング符号として、最小距離3、長さL=7のものを適用する。こうしてできた配列は、いかなる連結、シフトに対しても、お互いに最低2ミスマッチ(シフトしない場合は3ミスマッチ)が保証される。例えば、00をA,01をT,10をG,11をCにすると、GC含量が3/7である[表5]に示される7塩基からなる16個のDNA配列の集合が与えられる。また、00をG,01をC,10をA,11をTにすると、GC含量が4/7である[表6]に示される7塩基からなる16個のDNA配列の集合が与えられる。
以上、GCテンプレートを用いて設計される本発明のオリゴヌクレオチド配列の集合Sの設計方法を具体的に示したが、かかる本発明のオリゴヌクレオチド配列の集合Sの設計方法としては、上述の説明からもわかるように、オリゴヌクレオチド配列の集合Sの設計方法であって、所定の長さnのオリゴヌクレオチド配列を、その各ポジションがG又はC([GC])あるいはA又はT([AT])であることを意味する、0と1からなる所定の長さL(Lは6以上の整数)ビット列(GCテンプレート)で表わした場合、各GCテンプレート間のハミング距離、各GCテンプレートの逆配列との間のハミング距離、これらをシフトした配列との間のハミング距離、並びに、各GCテンプレート同士、各GCテンプレートの逆配列同士、及び各GCテンプレートとその逆配列を連結した配列との間のハミング距離が、いずれも所定値k以上になるGCテンプレートを選択し、かかる選択されたGCテンプレートが表現するオリゴヌクレオチド配列の集合の中から、所定の誤り訂正符号の符号語と組み合わせることにより、前記選択されたGCテンプレートが表現するオリゴヌクレオチド配列同士が少なくとも前記ハミング距離kを保つオリゴヌクレオチド配列の集合を選定する設計方法であれば特に制限されるものではないが、ハミング距離kを保つオリゴヌクレオチド配列の集合が、前述のように、集合S中の各P配列との間、集合S中の他の各P配列の相補配列又は各P配列の逆配列との間、これらをシフトした配列との間、並びに、集合S中の各P配列同士、各PC配列又はPR配列同士、及び各P配列と各PC配列又はPR配列を連結した配列との間に、所定値以上のミスマッチを含み、前記集合S中の各P配列との間、各PC配列又はPR配列との間、これらをシフトした配列との間、並びに、集合S中の各P配列同士、各PC配列又はPR配列同士、及び各P配列と各PC配列又はPR配列を連結した配列との間でのミスハイブリダイゼーションを回避することができる設計方法が好ましい。
また、本発明のGCテンプレートの設計方法における、所定の集合S中のオリゴヌクレオチド配列の長さnや、GCテンプレートの長さLや、所定値kの値については、前述の説明の通りであり、これらオリゴヌクレオチド配列の集合Sが、特定の部分配列を含む、又は特定の部分配列を含まないオリゴヌクレオチド配列の集合である点も前述の説明の通りである。そして、上記所定の誤り訂正符号の符号語として、ハミング符号、BCH符号、最大長系列符号、Golay符号、ReedMuller符号等を用いることができることも前記のとおりである。
これまで述べたGCテンプレートは、ビット列が[GC]、[AT]を指定するものであったが、その応用として、各ポジションがA又はG([AG])あるいはT又はC([TC])を指定するAGテンプレートによる設計法を示すことができる。このためには、前記GCテンプレートにおける関数MDの定義を以下のように再定義する。
MD(t)=min{H(t,TR),H(t,〔tt〕),H(t,〔TRTR〕),H(t,〔tTR〕),H(t,〔TRt〕)}
ここで、記号Tはテンプレートtのビットを全て01反転したビット列を意味する(例えばt=010101ならば、T=101010)。与えられた長さLのビット列で、このMD値を最大化するようなものを一つ選び、これをtとした場合、tのビット列は[AG]又は[TC]を指定するため、誤り訂正符号語と組み合わせた際、設計されるDNA配列のGC含量が揃わない点に、GCテンプレートとの最大の違いがある。GCテンプレートでは、テンプレートの01でGCのポジションを指定し、誤り訂正符号語の01でAGのポジションを指定した。AGテンプレートでは、そのポジション指定が逆になる。従ってGC含量を揃えることは、任意の誤り訂正符号語を用いてはできず、重み一定符号と呼ばれる、符号語中の1の数が一定値であるような誤り訂正符号を利用しなくてはならない。重み一定符号は、[GC]又は[AT]を指定するテンプレートが利用できるBCH符号やHadamard符号といった一般によく使われる符号よりも設計が困難であるが、論文BSS90(IEEE Trans.On Information Theory,36,pp.1334−1380,1990)にある結果を用いてシステマティックに設計することが可能である。
しかし、利用可能な誤り訂正符号に制約が課される半面、テンプレートのMD値、つまりシフトや連結を考慮した際のハミング距離は、[GC]又は[AT]を指定するテンプレートよりも大きくすることが可能である。また、同じMD値を持つテンプレートの個数も、[GC]又は[AT]を指定するテンプレートよりも多くなることがわかっている。AGテンプレートの長さLは3以上、好ましくは3〜100、より好ましくは3〜32、特に好ましくは分子生物学実験でよく用いられる20前後であり、2以下の場合は所望のハミング距離を有するものが得られない。また、所定値kとしては、かかるAGテンプレートから作製されるオリゴヌクレオチド配列が、ミスハイブリダイゼーションを回避することができる本発明のオリゴヌクレオチド配列となる値であれば特に制限されないが、好ましくはGCテンプレートの長さLの1/5以上、より好ましくは1/4以上、特に好ましくは1/3以上の値を挙げることができる。
GCテンプレートの場合と同様に、長さLを大きくした場合や、MD値(k値)を下げた場合はより多くのAGテンプレートが存在することになるが、所定の長さで最も大きいk値(MD値)を有するAGテンプレートは特に重要である。長さL=3〜32で最も大きいk値(MD値)を有するAGテンプレートとしては、長さL=3〜5のとき所定値k=1、長さL=6〜8のとき所定値k=2、長さL=9のとき所定値k=3、長さL=10〜12のとき所定値k=4、長さL=13,14のとき所定値k=5、長さL=15〜18のとき所定値k=6、長さL=19のとき所定値k=7、長さL=20〜22のとき所定値k=8、長さL=23のとき所定値k=9、長さL=24〜26のとき所定値k=10、長さL=27のとき所定値k=11、長さL=28〜30のとき所定値k=12、長さL=31のとき所定値k=13、長さL=32のとき所定値k=13のAGテンプレートである。上記の長さL=3〜30のAGテンプレートにおける所定値kの最大値と、その最大値を有するAGテンプレート数と、具体例を[表7]に示す。なお、[表7]におけるAGテンプレート数には、サイクリックシフトして同一になるテンプレートや反転して同一になるテンプレートを除かず、全てのテンプレートが数えられている。
オリゴヌクレオチド配列の集合Sが、制限酵素認識部位等の特定の部分配列を含む、又は特定の部分配列を含まないオリゴヌクレオチド配列の集合が好ましい点など、AGテンプレートを用いる場合、前述のGCテンプレートを用いる場合と多くの共通点を有する。しかし、[AG]又は[TC]を指定するテンプレートは、[GC]又は[AT]を指定するテンプレートより、ハミング距離を大きく保てることが利点ではあるが、重み一定符号の符号語数は一般にそう多くない。そのため、設計可能な語数の観点からは、GCテンプレートのほうが柔軟で応用がきく。また、GCテンプレートはGC含量だけでなく、GC塩基の並び方まで全配列で揃うため、生物学実験で用いられる再接近塩基対法により計算される融解温度も揃うという大きなメリットを持つ。そのため、AGテンプレートは可能なバリエーションの一つとして取り扱うこともできる。
基板上に複数種類のオリゴヌクレオチド鎖を高密度に固定化しても、配列同士が直交し、互いにミスハイブリダイゼーションを起こしにくいため、本発明のオリゴヌクレオチド配列の集合SはDNA又はRNAチップに、あるいはDNA又はRNAタグとして有利に用いることができる。また、相補配列ともミスハイブリダイゼーションを起こしにくいため、本発明のオリゴヌクレオチド配列の集合SはPCR等におけるプライマーとして有用である。さらに、本発明のオリゴヌクレオチド配列の集合Sは、互いにミスハイブリダイゼーションを起こしにくいことに加えて、制限酵素認識部位等の特定の配列部分を有することから、論理式やグラフ構造など様々な記号処理演算系を書き込んだDNA配列を人工的に合成し、その配列を分子生物学実験のプロトコールに従って切り貼りすることにより、実験の最後に得られる配列がDNA計算の「計算結果」となるDNA計算システムに有利に用いることができる。
産業上の利用可能性
本発明のオリゴヌクレオチド配列の集合Sの設計方法によると、配列どうしが直交するため、互いにミスハイブリダイゼーションを起こしにくいDNA配列を効率よくかつシステマティックに設計することができることから、DNAに情報を書き込むバイオテクノロジー全般において、本発明の設計方法は、DNAのミスハイブリダイゼーションによる実験エラーを低減するための必須技術であるといえる。また、本発明のGCテンプレートの設計方法により得られるGCテンプレートの集合と、任意の誤り訂正符号の符号語とを組み合わせることで、ミスハイブリダイゼーションの値を保証する配列をシステマティックに生成することができる。さらに、本発明のオリゴヌクレオチド配列の集合Sの設計方法によると、GCまたはAT塩基の出現場所が固定されるために、以下の利点を有する。
(1)配列のGC含量を揃えることができるので、配列の物理的特性(特に融解温度)を容易に調整することができる。
(2)制限酵素認識部位等の特定の部分配列を、配列パターンに一致するGCテンプレートを探すことにより、あらかじめ導入することができる(指定配列部分は誤り訂正符号の情報ビットに対応させれば、任意の部分配列を組み込みことが可能となる。)。
(3)GCテンプレートどうしをつなげてもMD値が低くならなければ、複数GCテンプレートを組み合わせて利用することが可能。
【図面の簡単な説明】
第1図は、本発明のGCテンプレートt=110100を用いた場合、連結配列に対してGCテンプレートtをどのようにシフトさせても、ハミング距離の最小値MD(t)=2となることを示す図である。
本発明は、一定の固定長のオリゴヌクレオチド配列の集合S中のいかなる配列も、集合S中の他の配列及び配列どうしを連結したつなぎ目部分と、ある一定値以上のミスマッチを必ず含ませてミスハイブリダイゼーションを起こさぬようにしたオリゴヌクレオチド配列の集合Sやそのシステマティックな設計方法、前記オリゴヌクレオチド配列の集合Sの設計に用いられるGCテンプレート又はAGテンプレートのシステマティックな設計方法、並びに、前記オリゴヌクレオチド配列の集合Sを利用したDNA又はRNAチップ、DNA又はRNAタグ、DNA又はRNA計算システム、DNA又はRNAプローブに関する。
背景技術
DNAは4種類の塩基、すなわちアデニン(A),シトシン(C),グアニン(G),チミン(T)が鎖状に連結した構造を有し、AはTと、CはGと水素結合により塩基対を形成することから、A−T,C−Gは相補的であるといわれ、2本のDNA鎖が相補的に2重ラセン構造を有し、かかるDNA2重ラセンは、温度が上昇すると1本鎖DNAずつに解離し、温度が降下すると再び相補鎖と結合するが、この相補鎖と結合する過程がハイブリダイズといわれ、DNA鎖の解離する温度やハイブリダイズする温度は、その配列中のGC含量に左右されることが知られている。
ところで、遺伝子増幅法として非常に有効であり、広範囲のバイオ関連研究における必須の技術であるPCR(polymerase chain reaction)を実施する上で必要不可欠とされる2種類のプライマーをデザインする際に、プライマー同士の相互作用の問題が指摘されている。PCR反応液中のプライマーの濃度は、標的遺伝子の濃度に比べて圧倒的に大きいため、プライマー同士がお互いにハイブリダイズしやすい構造をもっていると、センス鎖間、アンチセンス鎖間又はセンス鎖とアンチセンス鎖間でミスハイブリダイゼーションが起こり、いわゆるプライマーダイマーを形成し、標的遺伝子とのハイブリダイゼーションが大幅に抑制されてしまうことになる。
また、論理式やグラフ構造など様々な記号処理演算系を書き込んだDNA配列を合成し、その配列を生物学実験のプロトコールに従って切り貼りする作業からなる、いわゆるDNA計算においては、問題の規模に相当する数だけ基本パーツになるDNAを合成し、非常に単純な“generate and test”方式で問題を解くことが行われている(Science 266,1021−1024,1994)。すなわち、パーツをランダムにつなぎ合わせて、解空間をカバーするのに十分な量のDNA配列をランダムに生成し、かかるランダムに生成した膨大な組み合わせの配列から一定の制約を満たす解のみを抽出することにより、DNA計算を実施することができる。上記解の抽出には、例えば制限酵素による切断を利用することができ、正解でない配列は制限酵素の認識部位を含み、正解の配列は制限酵素の認識部位を含まないようにパーツが設計されている。このようなDNA計算モデルの応用として、固相にDNAの5’末端を固定したDNAメモリーが知られており(Nature,403:175−179,2000)、様々な組み合わせの配列をランダムに生成して固相に固定し、そこから不適切なものを順次切り取りながら解を探索する手法が利用され、固相上の配列の切り取りには制限酵素が用いられ、伸長にはポリメラーゼが用いられている。このDNAメモリーの場合、DNAの配列同士がミスハイブリダイゼーションを起こさないように注意する必要がある。
上記のプライマー設計やDNA計算などにおいて、配列同士がミスハイブリダイゼーションを起こさないDNAを設計することも知られている。例えば、DNA配列やmRNA配列のGenBankデータベースに基づいてオリゴヌクレオチド配列を設計し、ユーザが選択した遺伝子配列との間で正確及び不正確なマッチモデリングを実行するための手段や、遺伝子配列についてのハイブリダイゼーション強度モデリングを実行するための手段等を備えたプログラムコンピュータシステム(特表平8−503091号公報)や、固定長のDNA配列が互いにシフトするフレームシフトエラーハイブリダイゼーション過程におけるシフトエラーをハミング距離を考慮して阻止又は最小限にする、遺伝的アルゴリズムを用いたコンピューターによるDNA計算法(”A New Metric for DNA Computing”Proceedings of the 2nd Annual Genetic Programming Conference,Palo Alto,472−478,1997)や、固定長のDNA配列において特定の長さの部分配列が設計した固定長のDNA配列セットに2度以上出現しない条件を付したコンピューターによるDNA計算法(ヨーロッパ特許出願97302313号、米国特許5604097)も報告されている。
DNA計算とは、前記のように、組み合わせ数学や論理などの計算を生物学実験によって行う研究分野であり、具体的には、論理式やグラフ構造など様々な記号処理演算系を書き込んだDNA配列を人工的に合成し、その配列を分子生物学実験のプロトコールに従って切り貼りすることにより、実験の最後に得られる配列がDNA計算の「計算結果」となる計算である。このように、人為的に意味づけされた情報(例えば論理変数や数学など)をDNA塩基にエンコードして用いる技術は、バイオテクノロジーの進展と共に加速度的に需要が増すと思われる。この技術を成功させるには、エラーによって間違った解釈が起きないようにあらかじめDNA配列を上手に設計しておくことが不可欠である。例えば、記号xをACACという4塩基で表現した場合、文字列xxはACACACACになるため、つなぎ目部分にもxの塩基配列が出現し、エラーの原因となる。これを防ぐには、どの配列も他の配列や配列同士の連結部分と、ある一定値以上のミスマッチを必ず含むような配列集合を効率よくかつシステマテッィクに求める手法が必要になる。
前記のように、DNA配列等のオリゴヌクレオチド配列同士がミスマッチを含み、互いにミスハイブリダイゼーションを回避するようにオリゴヌクレオチド配列を作製する配列設計方法は知られていたが、これらの設計方法は固相に固定するDNA配列等のオリゴヌクレオチドの設計が目的だったため、オリゴヌクレオチド配列におけるシフトと連結を含めてミスハイブリダイゼーションを回避する配列は設計されていない。例えば、DNA配列が液相に存在したり、配列同士を連結した場合でもミスハイブリダイゼーションを回避することを保証する配列設計方法は現在まで報告されていない。また、従来のミスハイブリダイゼーションを回避する配列の設計は、遺伝的アルゴリズムを利用したり、非常に単純な“generate and test”方式あるいはそれを改良した方式を用いたコンピューターによるDNA計算法であり、これらのDNA計算法はシステマティックな計算方法といいうるものではなかった。
本発明の課題は、所定の長さn(nは3以上、好ましくは6以上の整数)のオリゴヌクレオチド配列の集合S中の各オリゴヌクレオチド配列が、集合S中の各オリゴヌクレオチド配列との間、集合S中の他の各オリゴヌクレオチド配列の相補配列との間、これらをシフトした配列との間、並びに、前記各オリゴヌクレオチド配列同士、前記相補配列同士、及び前記各オリゴヌクレオチド配列と前記相補配列を連結した配列との間に、所定値以上のミスマッチを含み、前記各オリゴヌクレオチド配列との間、前記相補配列との間、これらをシフトした配列との間、並びに、前記各オリゴヌクレオチド配列同士、前記相補配列同士、及び前記各オリゴヌクレオチド配列と前記相補配列を連結した配列との間でのミスハイブリダイゼーションを回避することができるオリゴヌクレオチド配列の集合Sをシステマティックに設計する方法を提供することにある。また本発明の課題は、相補配列同様に、逆配列に対してもミスハイブリダイゼーションを回避することができるオリゴヌクレオチド配列の集合Sをシステマティックに設計する方法を提供することにある。なお、所定値以上のミスマッチを含み、オリゴヌクレオチド配列間でミスハイブリダイゼーションを回避することができることを以下「直交する」、直交する配列を「直交配列」ということがある。
本発明者は、DNA計算及び今後のバイオテクノロジーにおいて、正しい実験結果を得るための重要な技術となる、シフトと連結を含めた直交配列のシステマティックな配列設計方法について鋭意研究し、所定の長さnのオリゴヌクレオチド配列を、その各ポジションがG又はC([GC])あるいはA又はT([AT])であることを意味する、0と1からなるビット列(GCテンプレート)で表わした場合、各GCテンプレート間のハミング距離、各GCテンプレートの逆配列との間のハミング距離、これらをシフトした配列との間のハミング距離、並びに、各GCテンプレート同士、各GCテンプレートの逆配列同士、及び各GCテンプレートとその逆配列を連結した配列との間のハミング距離が、いずれも所定値k以上になるGCテンプレートを選択し、かかる選択されたGCテンプレートが表現するオリゴヌクレオチド配列の集合の中から、任意の誤り訂正符号の符号語と組み合わせ、前記選択されたGCテンプレートが表現するオリゴヌクレオチド配列同士が少なくとも前記ハミング距離kを保つオリゴヌクレオチド配列の集合を選定することにより、シフトと連結を含めたミスハイブリダイゼーションの値を保証する直交オリゴヌクレオチド配列の集合Sを設計しうることを見い出し、本発明を完成するに至った。
発明の開示
すなわち本発明は、所定の長さn(nは3以上の整数)のオリゴヌクレオチド配列の集合Sからなり、かかる集合S中の各オリゴヌクレオチド配列は、集合S中の各オリゴヌクレオチド配列との間、集合S中の他の各オリゴヌクレオチド配列の相補配列との間、これらをシフトした配列との間、並びに、前記各オリゴヌクレオチド配列同士、前記相補配列同士、及び前記各オリゴヌクレオチド配列と前記相補配列を連結した配列との間に、所定値以上のミスマッチを含み、前記各オリゴヌクレオチド配列との間、前記相補配列との間、これらをシフトした配列との間、並びに、前記各オリゴヌクレオチド配列同士、前記相補配列同士、及び前記各オリゴヌクレオチド配列と前記相補配列を連結した配列との間でのミスハイブリダイゼーションを回避することができることを特徴とするオリゴヌクレオチド配列の集合S(請求項1)や、所定の長さn(nは3以上の整数)のオリゴヌクレオチド配列の集合Sからなり、かかる集合S中の各オリゴヌクレオチド配列は、集合S中の各オリゴヌクレオチド配列との間、集合S中の各オリゴヌクレオチド配列の逆配列との間、これらをシフトした配列との間、並びに、前記各オリゴヌクレオチド配列同士、前記逆配列同士、及び前記各オリゴヌクレオチド配列と前記逆配列を連結した配列との間に、所定値以上のミスマッチを含み、前記各オリゴヌクレオチド配列との間、前記逆配列との間、これらをシフトした配列との間、並びに、前記各オリゴヌクレオチド配列同士、前記逆配列同士、及び前記各オリゴヌクレオチド配列と前記逆配列を連結した配列との間でのミスハイブリダイゼーションを回避することができることを特徴とするオリゴヌクレオチド配列の集合S(請求項2)や、所定の長さn(nは6以上の整数)のオリゴヌクレオチド配列からなる請求項1又は2記載のオリゴヌクレオチド配列の集合S(請求項3)や、所定の長さnのオリゴヌクレオチド配列の集合Sが、32以下の長さのオリゴヌクレオチド配列の集合Sであることを特徴とする請求項1〜3のいずれか記載のオリゴヌクレオチド配列の集合S(請求項4)や、所定値以上のミスマッチが、所定の長さnの1/4以上のミスマッチであることを特徴とする請求項1〜4のいずれか記載のオリゴヌクレオチド配列の集合S(請求項5)や、オリゴヌクレオチド配列の集合Sが、特定の部分配列を含む、又は特定の部分配列を含まないオリゴヌクレオチド配列の集合であることを特徴とする請求項1〜5のいずれか記載のオリゴヌクレオチド配列の集合S(請求項6)や、特定の部分配列が、制限酵素認識部位であることを特徴とする請求項6記載のオリゴヌクレオチド配列の集合S(請求項7)に関する。
また本発明は、請求項3記載のオリゴヌクレオチド配列の集合Sの設計方法であって、所定の長さnのオリゴヌクレオチド配列を、その各ポジションがG又はC([GC])あるいはA又はT([AT])であることを意味する、0と1からなる所定の長さL(Lは6以上の整数)のビット列(GCテンプレート)で表わした場合、各GCテンプレート間のハミング距離、各GCテンプレートの逆配列との間のハミング距離、これらをシフトした配列との間のハミング距離、並びに、各GCテンプレート同士、各GCテンプレートの逆配列同士、及び各GCテンプレートとその逆配列を連結した配列との間のハミング距離が、いずれも所定値k以上になるGCテンプレートを選択し、かかる選択されたGCテンプレートが表現するオリゴヌクレオチド配列の集合の中から、所定の誤り訂正符号の符号語と組み合わせることにより、前記選択されたGCテンプレートが表現するオリゴヌクレオチド配列同士が少なくとも前記ハミング距離kを保つオリゴヌクレオチド配列の集合を選定することを特徴とするオリゴヌクレオチド配列の集合Sの設計方法(請求項8)や、請求項1又は2記載のオリゴヌクレオチド配列の集合Sの設計方法であって、所定の長さnのオリゴヌクレオチド配列を、その各ポジションがA又はG([AG])あるいはT又はC([TC])であることを意味する、0と1からなる所定の長さL(Lは3以上の整数)のビット列(AGテンプレート)で表わした場合、各AGテンプレート間のハミング距離、各AGテンプレートの逆反転配列との間のハミング距離、これらをシフトした配列との間のハミング距離、並びに、各AGテンプレート同士、各AGテンプレートの逆反転配列同士、及び各AGテンプレートとその逆反転配列を連結した配列との間のハミング距離が、いずれも所定値k以上になるAGテンプレートを選択し、かかる選択されたAGテンプレートが表現するオリゴヌクレオチド配列の集合の中から、所定の誤り訂正符号の符号語と組み合わせることにより、前記選択されたAGテンプレートが表現するオリゴヌクレオチド配列同士が少なくとも前記ハミング距離kを保つオリゴヌクレオチド配列の集合を選定することを特徴とするオリゴヌクレオチド配列の集合Sの設計方法(請求項9)や、ハミング距離kを保つオリゴヌクレオチド配列の集合が、各配列同士の間、他の各配列の相補配列との間、これらをシフトした配列との間、並びに、前記各配列同士、前記相補配列同士、及び前記各配列と前記相補配列を連結した配列との間に、所定値以上のミスマッチを含み、前記各配列同士の間、他の各配列の相補配列との間、これらをシフトした配列との間、並びに、前記各配列同士、前記相補配列同士、及び前記各配列と前記相補配列を連結した配列との間でのミスハイブリダイゼーションを回避することができることを特徴とする請求項8又は9記載のオリゴヌクレオチド配列の集合Sの設計方法(請求項10)や、ハミング距離kを保つオリゴヌクレオチド配列の集合が、各配列同士の間、該各配列の逆配列との間、これらをシフトした配列との間、並びに、前記各配列同士、前記逆配列同士、及び前記各配列と前記逆配列を連結した配列との間に、所定値以上のミスマッチを含み、前記各配列同士の間、前記逆配列との間、これらをシフトした配列との間、並びに、前記各配列同士、前記逆配列同士、及び前記各配列と前記逆配列を連結した配列との間でのミスハイブリダイゼーションを回避することができることを特徴とする請求項8又は9記載のオリゴヌクレオチド配列の集合Sの設計方法(請求項11)や、所定の長さnのオリゴヌクレオチド配列の集合Sが、32以下の長さのオリゴヌクレオチド配列の集合Sであることを特徴とする請求項7〜9のいずれか記載のオリゴヌクレオチド配列の集合Sの設計方法(請求項12)や、所定値kが、Lの1/4以上の値であることを特徴とする請求項8〜12のいずれか記載のオリゴヌクレオチド配列の集合Sの設計方法(請求項13)や、オリゴヌクレオチド配列の集合Sが、特定の部分配列を含む、又は特定の部分配列を含まないオリゴヌクレオチド配列の集合であることを特徴とする請求項8〜13のいずれか記載のオリゴヌクレオチド配列の集合Sの設計方法(請求項14)や、特定の部分配列が、制限酵素認識部位であることを特徴とする請求項14記載のオリゴヌクレオチド配列の集合Sの設計方法(請求項15)や、所定の誤り訂正符号の符号語が、ハミング符号、BCH符号、最大長系列符号、Golay符号、ReedMuller符号、ReedSolomon符号、Hadamard符号、Preparata符号、リバーシブル符号、重み一定符号から選ばれることを特徴とする請求項8〜15のいずれか記載のオリゴヌクレオチド配列の集合Sの設計方法(請求項16)に関する。
また本発明は、請求項3記載のオリゴヌクレオチド配列の集合Sを作製するために用いられるGCテンプレートの設計方法であって、所定の長さnのオリゴヌクレオチド配列を、その各ポジションがG又はC([GC])あるいはA又はT([AT])であることを意味する、0と1からなる所定の長さL(Lは6以上の整数)のビット列(GCテンプレート)で表わした場合、各GCテンプレート間のハミング距離、各GCテンプレートの逆配列との間のハミング距離、これらをシフトした配列との間のハミング距離、並びに、各GCテンプレート同士、各GCテンプレートの逆配列同士、及び各GCテンプレートとその逆配列を連結した配列との間のハミング距離が、いずれも所定値k以上になるGCテンプレートを選択することを特徴とするGCテンプレートの設計方法(請求項17)や、所定の長さLのGCテンプレートが、32以下の長さのGCテンプレートであることを特徴とする請求項17記載のGCテンプレートの設計方法(請求項18)や、所定値kが、Lの1/4以上の値であることを特徴とする請求項17又は18記載のGCテンプレートの設計方法(請求項19)や、GCテンプレートが、長さL=6〜10のとき所定値k=2、長さL=11〜15のとき所定値k=4、長さL=16〜18のとき所定値k=6、長さL=19のとき所定値k=7、長さL=20〜22,24のとき所定値k=8、長さL=23,25のとき所定値k=9、長さL=26,27のとき所定値k=10、長さL=28,29のとき所定値k=11、長さL=30〜32のとき所定値k=12のGCテンプレートであることを特徴とする請求項18記載のGCテンプレートの設計方法(請求項20)や、オリゴヌクレオチド配列の集合Sが、特定の部分配列を含む、又は特定の部分配列を含まないオリゴヌクレオチド配列の集合であることを特徴とする請求項17〜20のいずれか記載のGCテンプレートの設計方法(請求項21)や、特定の部分配列が、制限酵素認識部位であることを特徴とする請求項21記載のGCテンプレートの設計方法(請求項28)に関する。
また本発明は、請求項1又は2記載のオリゴヌクレオチド配列の集合Sを作製するために用いられるAGテンプレートの設計方法であって、所定の長さnのオリゴヌクレオチド配列を、その各ポジションがA又はG([AG])あるいはT又はC([TC])であることを意味する、0と1からなる所定の長さL(Lは3以上の整数)のビット列(AGテンプレート)で表わした場合、各AGテンプレート間のハミング距離、各AGテンプレートの逆反転配列との間のハミング距離、これらをシフトした配列との間のハミング距離、並びに、各AGテンプレート同士、各AGテンプレートの逆反転配列同士、及び各AGテンプレートとその逆反転配列を連結した配列との間のハミング距離が、いずれも所定値k以上になるAGテンプレートを選択することを特徴とするAGテンプレートの設計方法(請求項23)や、所定の長さLのAGテンプレートが、32以下の長さのAGテンプレートであることを特徴とする請求項23記載のAGテンプレートの設計方法(請求項24)や、所定値kが、Lの1/4以上の値であることを特徴とする請求項23又は24記載のAGテンプレートの設計方法(請求項25)や、AGテンプレートが、長さL=3〜5のとき所定値k=1、長さL=6〜8のとき所定値k=2、長さL=9のとき所定値k=3、長さL=10〜12のとき所定値k=4、長さL=13,14のとき所定値k=5、長さL=15〜18のとき所定値k=6、長さL=19のとき所定値k=7、長さL=20〜22のとき所定値k=8、長さL=23のとき所定値k=9、長さL=24〜26のとき所定値k=10、長さL=27のとき所定値k=11、長さL=28〜30のとき所定値k=12、長さL=31のとき所定値k=13、長さL=32のとき所定値k=13のAGテンプレートであることを特徴とする請求項23記載のAGテンプレートの設計方法(請求項26)や、オリゴヌクレオチド配列の集合Sが、特定の部分配列を含む、又は特定の部分配列を含まないオリゴヌクレオチド配列の集合であることを特徴とする請求項23〜26のいずれか記載のAGテンプレートの設計方法(請求項27)や、特定の部分配列が、制限酵素認識部位であることを特徴とする請求項27記載のAGテンプレートの設計方法(請求項28)に関する。
さらに本発明は、請求項1〜7のいずれか記載のオリゴヌクレオチド配列の集合Sを有することを特徴とするDNA又はRNAチップ(請求項29)や、請求項1〜7のいずれか記載のオリゴヌクレオチド配列の集合Sを有することを特徴とするDNA又はRNAタグ(請求項30)や、請求項1〜7のいずれか記載のオリゴヌクレオチド配列の集合Sを有することを特徴とするDNA又はRNA計算システム(請求項31)や、請求項1〜7のいずれか記載のオリゴヌクレオチド配列の集合Sから選択されるオリゴヌクレオチド配列からなることを特徴とするDNA又はRNAプローブ(請求項32)に関する。
発明を実施するための最良の形態
本発明のオリゴヌクレオチド配列(以下「P配列」ということがある)の集合Sとしては、所定の長さn(GCテンプレートの場合nは6以上の整数、AGテンプレートの場合nは3以上の整数)のP配列の集合Sからなり、かかる集合S中の各P配列は、集合S中の各P配列との間、集合S中の他の各P配列の相補配列(以下「PC配列」ということがある)又は各P配列の逆配列(以下「PR配列」ということがある)との間、これらをシフトした配列との間、並びに、集合S中の各P配列同士、各PC配列又はPR配列同士、及び各P配列と各PC配列又はPR配列を連結した配列との間に、所定値以上のミスマッチを含み、前記集合S中の各P配列との間、各PC配列又はPR配列との間、これらをシフトした配列との間、並びに、集合S中の各P配列同士、各PC配列又はPR配列同士、及び各P配列と各PC配列又はPR配列を連結した配列との間でのミスハイブリダイゼーションを回避することができる直交配列の集合であれば特に制限されるものではなく、上記オリゴヌクレオチド配列にはDNA配列やRNA配列が含まれ、また、オリゴヌクレオチド配列の所定の長さn(GCテンプレートの場合nは6以上の整数、AGテンプレートの場合nは3以上の整数)の上限は限定されないが、PCRにおけるプライマーやDNAチップにおける使用を考慮すると、通常100塩基、好ましくは32塩基であり、他方、所定の長さが5以下の場合(GCテンプレート)あるいは2以下の場合(AGテンプレート)は本発明のオリゴヌクレオチド配列の集合Sを得ることができない。なお、本発明の対象となるオリゴヌクレオチド配列の集合Sには、便宜上集合Sの部分集合も含まれる。以下、オリゴヌクレオチド配列がDNA配列の場合を中心とし、相補配列も含めてミスマッチを含む集合Sを、GCテンプレートを用いて設計する場合を中心に説明する。
GCテンプレートを用いて設計される本発明の集合S中のP配列は、それ自体の配列及び集合S中の他のP配列との間に、シフトのない場合とシフトのある(配列同士をずらした)場合に関わらず所定値以上のミスマッチを含み、ミスハイブリダイゼーションを回避することができるばかりでなく、集合S中の他の(それ自体を除く)各オリゴヌクレオチド配列の相補配列であるPC配列との間、すなわち、P配列におけるAをT、TをA、GをC、CをGにそれぞれ置換し、5’と3’の向きを逆にしたPC配列との間に、シフトのない場合とシフトのある場合に関わらず所定値以上のミスマッチを含み、ミスハイブリダイゼーションを回避することや、集合S中の各オリゴヌクレオチド配列を連結したオリゴヌクレオチド配列、すなわち、各P配列同士の連結配列、各PC配列同士の連結配列、各P配列とPC配列との連結配列、各PC配列と各P配列との連結配列等との間に、所定値以上のミスマッチを含み、ミスハイブリダイゼーションを回避することができる。ここで、ミスマッチとは、ハイブリダイズした場合の相補塩基以外との対合をいい、所定値以上のミスマッチとしては、ミスハイブリダイゼーションを回避することができるミスマッチ数であれば特に制限されないが、好ましくはオリゴヌクレオチド配列の所定の長さn(nは6以上の整数)の1/5個以上、より好ましくは1/4個以上、特に好ましくは1/3個以上のミスマッチを挙げることができる。
また、本発明の集合S中のP配列としては、それ自体の配列及び集合S中の他のP配列との間に、シフトのない場合とシフトのある(配列同士をずらした)場合に関わらず所定値以上のミスマッチを含み、ミスハイブリダイゼーションを回避することができるばかりでなく、集合S中の各P配列の逆配列であるPR配列との間、すなわち、P配列における5’→3’の配列(例えば、AATTGACT)の3’側を5’側とし、5’側を3’側とした配列(例えば、TCAGTTAA)との間に、シフトのない場合とシフトのある場合に関わらず所定値以上のミスマッチを含み、ミスハイブリダイゼーションを回避することや、各P配列同士の連結配列、各PR配列同士の連結配列、各P配列とPR配列との連結配列、各PR配列と各P配列との連結配列等との間に、所定値以上のミスマッチを含み、ミスハイブリダイゼーションを回避することができる。
また、本発明の集合Sを構成するオリゴヌクレオチド配列としては、特定の部分配列を含んだり、あるいは、特定の部分配列を含まないオリゴヌクレオチド配列として操作しうることが好ましい。かかる特定の部分配列としては、制限酵素認識部位や、RNAのポリA部分、翻訳開始コドンであるATG、ストップコドンであるTAA,TAG,TGA等を初めとする発現シグナル配列や、転写因子の認識するコンセンサス配列GCCAATCT,ATGCAAATや、抗体の可変ドメインをコードする塩基配列などの任意のDNA配列シグナルを例示することができる。
上述の本発明のオリゴヌクレオチド配列の集合Sは、通常、2段階で設計することができる。最初の段階は、ハミング距離を用いたGCテンプレートの設計段階であり、次の段階は、設計されたGCテンプレートが表現するオリゴヌクレオチド配列の集合の中から、誤り訂正符号の理論を利用して、目的とする本発明のオリゴヌクレオチド配列の集合Sを設計することができる。DNA配列はG又はC[GC]やA又はT[AT]からなる配列とすることができることから、まず最初の段階で、配列の各ポジションが[GC]か[AT]かを決定する。このポジションは0と1からなるGCテンプレート;b1b2…bi(bi∈{0,1})で表現され、1は[AT],0は[GC]、又は1は[GC],0は[AT]を意味する。このため、長さLのGCテンプレートで、4L通りでなく2L通りの配列を表現することになる。次の段階で、GCテンプレートが1の部位は[AT],0の部位は[GC]、又は1の部位は[GC],0の部位は[AT]の塩基へ具体的に置換することにより塩基配列が決定される。
上記ハミング距離は、配列間の類似度の尺度として用いられる。例えば、2つの文字列x=x1x2…xnとy=y1y2…ynのハミング距離は、xi≠yiとなるインデクスiの数と定義される。また、DNA配列間のミスハイブリダイゼーションは、配列がシフトした(ずれた)状態でも起こりうるから、配列がシフトした場合のハミング距離も考慮する必要がある。シフトはどちらか一方の配列が他方に比べて長い場合に生じることであるから、例えば、|x|<|y|とすると、2つの文字列間のハミング距離は、xと、長さ|x|のy中に含まれる(|y|−|x|+1)個の部分配列それぞれとのハミング距離の最小値とすることができる。この最小値で表されるハミング距離をH(x,y)で表すこととする。
次に、GCテンプレートtと、該GCテンプレートt同士の連結配列,GCテンプレートtの逆配列tR同士の連結配列,GCテンプレートtと逆配列tRの連結配列とのハミング距離を求めるためにGCテンプレートtに対する関数MD(min distanceの略)を考えるが、上記GCテンプレートtの逆配列tRは、GCテンプレートtのビット列を逆向きに並べた配列を意味する。GCテンプレートtと、連結配列における両外側の配列となるGCテンプレートtやその逆配列tRとのハミング距離は既に求められているから、連結配列に対してGCテンプレートtをシフトさせハミング距離の最小値を求める場合、連結配列の両端の一文字づつを取り除いた配列について検討すればよいことから、MD(t)の数式には記号〔〕を用いると便利である。記号〔〕は〔s1s2s3…sm−1sm〕=s2…sm−1、すなわち両端の一文字づつを取り除いた配列を意味する。そうすると、GCテンプレートtと連結配列とのハミング距離の最小値MD(t)は次式で表される。
MD(t)=min{H(t,tR),H(t,〔tt〕),H(t,〔ttR〕),H(t,〔tRt〕),H(t,〔tRtR〕)}
したがって、あるGCテンプレートtに対してMD(t)=k(k≧0)の場合、連結配列に対してGCテンプレートtをシフトさせた場合、連結配列の両端の一文字づつを取り除いた配列〔tt〕,〔ttR〕,〔tRt〕,〔tRtR〕に対して、その連結部分を含め、少なくともkのハミング距離が保証される。図1に、GCテンプレートt=110100の場合にMD(t)=2となることが示されている。この場合、逆配列tR=001011,〔tt〕=1010011010,〔ttR〕=1010000101,〔tRt〕=0101111010,〔tRtR〕=0101100101となり、図1には各ハミング距離が2の場合が示されている。図1からもわかるように、GCテンプレートt=110100は、どのようにシフトしてもハミング距離を2より小さくできないので、MD(t)=2となる。
このように、本発明のGCテンプレートの設計方法は、本発明のオリゴヌクレオチド配列の集合Sを作製するための最初の段階で用いられる。かかる本発明のGCテンプレートの設計方法としては、上述の説明からもわかるように、所定の長さnのオリゴヌクレオチド配列を、その各ポジションが[GC]あるいは[AT]であることを意味する、0と1からなるビット列(GCテンプレート)で表わした場合、各GCテンプレート間のハミング距離、各GCテンプレートの逆配列との面のハミング距離、これらをシフトした配列との間のハミング距離、並びに、各GCテンプレート同士、各GCテンプレートの逆配列同士、及び各GCテンプレートとその逆配列を連結した配列との間のハミング距離MD(t)が、いずれも所定値k以上になるGCテンプレートを選択する方法であれば特に制限されるものではないが、GCテンプレートの長さLは6以上、好ましくは6〜100、より好ましくは6〜32、特に好ましくは分子生物学実験でよく用いられる20前後であり、5以下の場合は所望のハミング距離を有するものが得られない。かかる長さLを有するGCテンプレートを用いると、相当する長さnのオリゴヌクレオチド配列の集合Sを得ることができる。また、所定値kとしては、かかるGCテンプレートから作製されるオリゴヌクレオチド配列が、ミスハイブリダイゼーションを回避することができる本発明のオリゴヌクレオチド配列となる値であれば特に制限されないが、好ましくはGCテンプレートの長さLの1/5以上、より好ましくは1/4以上、特に好ましくは1/3以上の値を挙げることができる。
一般に、長さLを大きくした場合や、MD値(k値)を下げた場合はより多くのGCテンプレートが存在することになるが、所定の長さで最も大きいk値(MD値)を有するGCテンプレートは特に重要である。長さL=6〜32で最も大きいk値(MD値)を有するGCテンプレートとしては、長さL=6〜10のとき所定値k=2、長さL=11〜15のとき所定値k=4、長さL=16〜18のとき所定値k=6、長さL=19のとき所定値k=7、長さL=20〜22,24のとき所定値k=8、長さL=23,25のとき所定値k=9、長さL=26,27のとき所定値k=10、長さL=28,29のとき所定値k=11、長さL=30〜32のとき所定値k=12のGCテンプレートである。上記の長さL=6〜32のGCテンプレートにおける所定値kの最大値と、その最大値を有するGCテンプレート数と、具体例を[表1]に示す。また、特定のMD値(k値)を満たす最短のGCテンプレートを[表2]に示す。さらに、長さL=11〜27のGCテンプレートにおける具体例を[表3]に、長さL=28〜30のGCテンプレートにおける具体例を[表4]に示す。なお、[表2]においては、01の反転又は逆配列が等しくなる場合を省いて列挙されており、[表3]及び[表4]においては、サイクリックシフト(cyclic shift)して同一になるGCテンプレートを省いた数が「数(item)」として示されている。
上記[表1]〜[表4]等に列挙されているにGCテンプレート配列は、全て0の配列から全て1の配列までの全パターンを網羅的に探索することにより、当業者であれば選び出すことができる。しかし、長さLのGCテンプレートを見つけるのに2L個のパターン全てを探す必要はなく、ビット01を反転させたGCテンプレートは同じ性質を持つことから、GCテンプレートに含まれるビット1がL/2以下のものを考えればよい。また、ミスマッチ個数の制約から、最小距離がdの場合、少なくとも(L−sqrt(L2−2dL))/2個のビット1をもつことが示される(sqrtは平方根)。このような制約を追加的に用いることで、GCテンプレートを効率よく求めることができる。さらに、GCテンプレートの設計に際して、GCテンプレートから作製したオリゴヌクレオチド配列の集合Sが、前述した制限酵素認識部位等の特定の部分配列を含む、又は特定の部分配列を含まないオリゴヌクレオチド配列の集合となるように設計することは、網羅的探索の空間を狭めることに対応するため、より容易に設計することができる。
本発明のオリゴヌクレオチド配列の集合Sは、上記ハミング距離を用いたGCテンプレートの設計段階に続く、設計されたGCテンプレートが表現するオリゴヌクレオチド配列の集合の中から、誤り訂正符号の理論を利用する段階、すなわち、誤り訂正符号の符号語と組み合わせることにより、GCテンプレートが1の部位は[AT],0の部位は[GC]、又は1の部位は[GC],0の部位は[AT]の塩基へ具体的に置換することにより設計することができる。上記誤り訂正符号の符号語としては、公知の誤り訂正符号の符号語であればどのようなものでもよく、ハミング符号、BCH符号、最大長系列符号、Golay符号、ReedMuller符号、ReedSolomon符号、Hadamard符号、Preparata符号、リバーシブル符号等を具体的に例示することができる。
誤り訂正符号の理論を用いる動機は、シフトの無い場合に相補配列との間でミスマッチを保証することにある(請求項1参照)。従って、逆配列も考慮したミスマッチを含む集合S(請求項2参照)については、必ずしも誤り訂正符号を用いる必要はない。誤り訂正符号は任意の符号語間にミスマッチの数が一定以上存在するような符号語の集合であるが、集合Sとその逆配列の集合がミスハイブリダイゼーションを防ぐようにする場合は、任意の符号語間に(ミスマッチではなく)マッチの数が一定以上存在するような符号語の集合を適用するだけでよい。本発明のオリゴヌクレオチド配列の集合Sは、GCテンプレートの情報とともに符号語の情報が配列に反映される。従って、相補配列との間でk個のミスマッチを保証するには、ハミング距離(ミスマッチの数)k以上を保つ誤り訂正符合を用いればよく、逆配列との間でk個のミスマッチを保証するには、マッチの数k以上を保つ符合を用いればよい。
誤り訂正符号の理論では、与えられた情報ビットに検査ビットと呼ばれる誤り検出、訂正用の冗長なビットを付け加え、任意の符号語間のハミング距離を一定値以上にするような符号が開発されている。任意の符号語間のハミング距離をある値以上にするような符号が開発されている。この符号語間のハミング距離の最小値は最小距離と呼ばれる。符号理論の目標は、最小距離を大きく保ちつつ符号語数が多いものを設計することにあるため、本発明の目的にかなう符号が多く存在する。例えば符号長23で最小距離が7のGolay符号は4096語ある。この符号を用いば長さ23のGCテンプレート(MD値は9まで)一つに対し、4096個のオリゴヌクレオチドを設計可能である。
次に、誤り訂正符号とGCテンプレートの組み合わせの具体例を挙げて説明する。GCテンプレートとしては、MD(t)=2、長さL=7の1101000(上段)に、ハミング符号として、最小距離3、長さL=7のものを適用する。こうしてできた配列は、いかなる連結、シフトに対しても、お互いに最低2ミスマッチ(シフトしない場合は3ミスマッチ)が保証される。例えば、00をA,01をT,10をG,11をCにすると、GC含量が3/7である[表5]に示される7塩基からなる16個のDNA配列の集合が与えられる。また、00をG,01をC,10をA,11をTにすると、GC含量が4/7である[表6]に示される7塩基からなる16個のDNA配列の集合が与えられる。
以上、GCテンプレートを用いて設計される本発明のオリゴヌクレオチド配列の集合Sの設計方法を具体的に示したが、かかる本発明のオリゴヌクレオチド配列の集合Sの設計方法としては、上述の説明からもわかるように、オリゴヌクレオチド配列の集合Sの設計方法であって、所定の長さnのオリゴヌクレオチド配列を、その各ポジションがG又はC([GC])あるいはA又はT([AT])であることを意味する、0と1からなる所定の長さL(Lは6以上の整数)ビット列(GCテンプレート)で表わした場合、各GCテンプレート間のハミング距離、各GCテンプレートの逆配列との間のハミング距離、これらをシフトした配列との間のハミング距離、並びに、各GCテンプレート同士、各GCテンプレートの逆配列同士、及び各GCテンプレートとその逆配列を連結した配列との間のハミング距離が、いずれも所定値k以上になるGCテンプレートを選択し、かかる選択されたGCテンプレートが表現するオリゴヌクレオチド配列の集合の中から、所定の誤り訂正符号の符号語と組み合わせることにより、前記選択されたGCテンプレートが表現するオリゴヌクレオチド配列同士が少なくとも前記ハミング距離kを保つオリゴヌクレオチド配列の集合を選定する設計方法であれば特に制限されるものではないが、ハミング距離kを保つオリゴヌクレオチド配列の集合が、前述のように、集合S中の各P配列との間、集合S中の他の各P配列の相補配列又は各P配列の逆配列との間、これらをシフトした配列との間、並びに、集合S中の各P配列同士、各PC配列又はPR配列同士、及び各P配列と各PC配列又はPR配列を連結した配列との間に、所定値以上のミスマッチを含み、前記集合S中の各P配列との間、各PC配列又はPR配列との間、これらをシフトした配列との間、並びに、集合S中の各P配列同士、各PC配列又はPR配列同士、及び各P配列と各PC配列又はPR配列を連結した配列との間でのミスハイブリダイゼーションを回避することができる設計方法が好ましい。
また、本発明のGCテンプレートの設計方法における、所定の集合S中のオリゴヌクレオチド配列の長さnや、GCテンプレートの長さLや、所定値kの値については、前述の説明の通りであり、これらオリゴヌクレオチド配列の集合Sが、特定の部分配列を含む、又は特定の部分配列を含まないオリゴヌクレオチド配列の集合である点も前述の説明の通りである。そして、上記所定の誤り訂正符号の符号語として、ハミング符号、BCH符号、最大長系列符号、Golay符号、ReedMuller符号等を用いることができることも前記のとおりである。
これまで述べたGCテンプレートは、ビット列が[GC]、[AT]を指定するものであったが、その応用として、各ポジションがA又はG([AG])あるいはT又はC([TC])を指定するAGテンプレートによる設計法を示すことができる。このためには、前記GCテンプレートにおける関数MDの定義を以下のように再定義する。
MD(t)=min{H(t,TR),H(t,〔tt〕),H(t,〔TRTR〕),H(t,〔tTR〕),H(t,〔TRt〕)}
ここで、記号Tはテンプレートtのビットを全て01反転したビット列を意味する(例えばt=010101ならば、T=101010)。与えられた長さLのビット列で、このMD値を最大化するようなものを一つ選び、これをtとした場合、tのビット列は[AG]又は[TC]を指定するため、誤り訂正符号語と組み合わせた際、設計されるDNA配列のGC含量が揃わない点に、GCテンプレートとの最大の違いがある。GCテンプレートでは、テンプレートの01でGCのポジションを指定し、誤り訂正符号語の01でAGのポジションを指定した。AGテンプレートでは、そのポジション指定が逆になる。従ってGC含量を揃えることは、任意の誤り訂正符号語を用いてはできず、重み一定符号と呼ばれる、符号語中の1の数が一定値であるような誤り訂正符号を利用しなくてはならない。重み一定符号は、[GC]又は[AT]を指定するテンプレートが利用できるBCH符号やHadamard符号といった一般によく使われる符号よりも設計が困難であるが、論文BSS90(IEEE Trans.On Information Theory,36,pp.1334−1380,1990)にある結果を用いてシステマティックに設計することが可能である。
しかし、利用可能な誤り訂正符号に制約が課される半面、テンプレートのMD値、つまりシフトや連結を考慮した際のハミング距離は、[GC]又は[AT]を指定するテンプレートよりも大きくすることが可能である。また、同じMD値を持つテンプレートの個数も、[GC]又は[AT]を指定するテンプレートよりも多くなることがわかっている。AGテンプレートの長さLは3以上、好ましくは3〜100、より好ましくは3〜32、特に好ましくは分子生物学実験でよく用いられる20前後であり、2以下の場合は所望のハミング距離を有するものが得られない。また、所定値kとしては、かかるAGテンプレートから作製されるオリゴヌクレオチド配列が、ミスハイブリダイゼーションを回避することができる本発明のオリゴヌクレオチド配列となる値であれば特に制限されないが、好ましくはGCテンプレートの長さLの1/5以上、より好ましくは1/4以上、特に好ましくは1/3以上の値を挙げることができる。
GCテンプレートの場合と同様に、長さLを大きくした場合や、MD値(k値)を下げた場合はより多くのAGテンプレートが存在することになるが、所定の長さで最も大きいk値(MD値)を有するAGテンプレートは特に重要である。長さL=3〜32で最も大きいk値(MD値)を有するAGテンプレートとしては、長さL=3〜5のとき所定値k=1、長さL=6〜8のとき所定値k=2、長さL=9のとき所定値k=3、長さL=10〜12のとき所定値k=4、長さL=13,14のとき所定値k=5、長さL=15〜18のとき所定値k=6、長さL=19のとき所定値k=7、長さL=20〜22のとき所定値k=8、長さL=23のとき所定値k=9、長さL=24〜26のとき所定値k=10、長さL=27のとき所定値k=11、長さL=28〜30のとき所定値k=12、長さL=31のとき所定値k=13、長さL=32のとき所定値k=13のAGテンプレートである。上記の長さL=3〜30のAGテンプレートにおける所定値kの最大値と、その最大値を有するAGテンプレート数と、具体例を[表7]に示す。なお、[表7]におけるAGテンプレート数には、サイクリックシフトして同一になるテンプレートや反転して同一になるテンプレートを除かず、全てのテンプレートが数えられている。
オリゴヌクレオチド配列の集合Sが、制限酵素認識部位等の特定の部分配列を含む、又は特定の部分配列を含まないオリゴヌクレオチド配列の集合が好ましい点など、AGテンプレートを用いる場合、前述のGCテンプレートを用いる場合と多くの共通点を有する。しかし、[AG]又は[TC]を指定するテンプレートは、[GC]又は[AT]を指定するテンプレートより、ハミング距離を大きく保てることが利点ではあるが、重み一定符号の符号語数は一般にそう多くない。そのため、設計可能な語数の観点からは、GCテンプレートのほうが柔軟で応用がきく。また、GCテンプレートはGC含量だけでなく、GC塩基の並び方まで全配列で揃うため、生物学実験で用いられる再接近塩基対法により計算される融解温度も揃うという大きなメリットを持つ。そのため、AGテンプレートは可能なバリエーションの一つとして取り扱うこともできる。
基板上に複数種類のオリゴヌクレオチド鎖を高密度に固定化しても、配列同士が直交し、互いにミスハイブリダイゼーションを起こしにくいため、本発明のオリゴヌクレオチド配列の集合SはDNA又はRNAチップに、あるいはDNA又はRNAタグとして有利に用いることができる。また、相補配列ともミスハイブリダイゼーションを起こしにくいため、本発明のオリゴヌクレオチド配列の集合SはPCR等におけるプライマーとして有用である。さらに、本発明のオリゴヌクレオチド配列の集合Sは、互いにミスハイブリダイゼーションを起こしにくいことに加えて、制限酵素認識部位等の特定の配列部分を有することから、論理式やグラフ構造など様々な記号処理演算系を書き込んだDNA配列を人工的に合成し、その配列を分子生物学実験のプロトコールに従って切り貼りすることにより、実験の最後に得られる配列がDNA計算の「計算結果」となるDNA計算システムに有利に用いることができる。
産業上の利用可能性
本発明のオリゴヌクレオチド配列の集合Sの設計方法によると、配列どうしが直交するため、互いにミスハイブリダイゼーションを起こしにくいDNA配列を効率よくかつシステマティックに設計することができることから、DNAに情報を書き込むバイオテクノロジー全般において、本発明の設計方法は、DNAのミスハイブリダイゼーションによる実験エラーを低減するための必須技術であるといえる。また、本発明のGCテンプレートの設計方法により得られるGCテンプレートの集合と、任意の誤り訂正符号の符号語とを組み合わせることで、ミスハイブリダイゼーションの値を保証する配列をシステマティックに生成することができる。さらに、本発明のオリゴヌクレオチド配列の集合Sの設計方法によると、GCまたはAT塩基の出現場所が固定されるために、以下の利点を有する。
(1)配列のGC含量を揃えることができるので、配列の物理的特性(特に融解温度)を容易に調整することができる。
(2)制限酵素認識部位等の特定の部分配列を、配列パターンに一致するGCテンプレートを探すことにより、あらかじめ導入することができる(指定配列部分は誤り訂正符号の情報ビットに対応させれば、任意の部分配列を組み込みことが可能となる。)。
(3)GCテンプレートどうしをつなげてもMD値が低くならなければ、複数GCテンプレートを組み合わせて利用することが可能。
【図面の簡単な説明】
第1図は、本発明のGCテンプレートt=110100を用いた場合、連結配列に対してGCテンプレートtをどのようにシフトさせても、ハミング距離の最小値MD(t)=2となることを示す図である。
Claims (32)
- 所定の長さn(nは3以上の整数)のオリゴヌクレオチド配列の集合Sからなり、かかる集合S中の各オリゴヌクレオチド配列は、集合S中の各オリゴヌクレオチド配列との間、集合S中の他の各オリゴヌクレオチド配列の相補配列との間、これらをシフトした配列との間、並びに、前記各オリゴヌクレオチド配列同士、前記相補配列同士、及び前記各オリゴヌクレオチド配列と前記相補配列を連結した配列との間に、所定値以上のミスマッチを含み、前記各オリゴヌクレオチド配列との間、前記相補配列との間、これらをシフトした配列との間、並びに、前記各オリゴヌクレオチド配列同士、前記相補配列同士、及び前記各オリゴヌクレオチド配列と前記相補配列を連結した配列との間でのミスハイブリダイゼーションを回避することができることを特徴とするオリゴヌクレオチド配列の集合S。
- 所定の長さn(nは3以上の整数)のオリゴヌクレオチド配列の集合Sからなり、かかる集合S中の各オリゴヌクレオチド配列は、集合S中の各オリゴヌクレオチド配列との間、集合S中の各オリゴヌクレオチド配列の逆配列との間、これらをシフトした配列との間、並びに、前記各オリゴヌクレオチド配列同士、前記逆配列同士、及び前記各オリゴヌクレオチド配列と前記逆配列を連結した配列との間に、所定値以上のミスマッチを含み、前記各オリゴヌクレオチド配列との間、前記逆配列との間、これらをシフトした配列との間、並びに、前記各オリゴヌクレオチド配列同士、前記逆配列同士、及び前記各オリゴヌクレオチド配列と前記逆配列を連結した配列との間でのミスハイブリダイゼーションを回避することができることを特徴とするオリゴヌクレオチド配列の集合S。
- 所定の長さn(nは6以上の整数)のオリゴヌクレオチド配列からなる請求項1又は2記載のオリゴヌクレオチド配列の集合S。
- 所定の長さnのオリゴヌクレオチド配列の集合Sが、32以下の長さのオリゴヌクレオチド配列の集合Sであることを特徴とする請求項1〜3のいずれか記載のオリゴヌクレオチド配列の集合S。
- 所定値以上のミスマッチが、所定の長さnの1/4以上のミスマッチであることを特徴とする請求項1〜4のいずれか記載のオリゴヌクレオチド配列の集合S。
- オリゴヌクレオチド配列の集合Sが、特定の部分配列を含む、又は特定の部分配列を含まないオリゴヌクレオチド配列の集合であることを特徴とする請求項1〜5のいずれか記載のオリゴヌクレオチド配列の集合S。
- 特定の部分配列が、制限酵素認識部位であることを特徴とする請求項6記載のオリゴヌクレオチド配列の集合S。
- 請求項3記載のオリゴヌクレオチド配列の集合Sの設計方法であって、所定の長さnのオリゴヌクレオチド配列を、その各ポジションがG又はC([GC])あるいはA又はT([AT])であることを意味する、0と1からなる所定の長さL(Lは6以上の整数)のビット列(GCテンプレート)で表わした場合、各GCテンプレート間のハミング距離、各GCテンプレートの逆配列との間のハミング距離、これらをシフトした配列との間のハミング距離、並びに、各GCテンプレート同士、各GCテンプレートの逆配列同士、及び各GCテンプレートとその逆配列を連結した配列との間のハミング距離が、いずれも所定値k以上になるGCテンプレートを選択し、かかる選択されたGCテンプレートが表現するオリゴヌクレオチド配列の集合の中から、所定の誤り訂正符号の符号語と組み合わせることにより、前記選択されたGCテンプレートが表現するオリゴヌクレオチド配列同士が少なくとも前記ハミング距離kを保つオリゴヌクレオチド配列の集合を選定することを特徴とするオリゴヌクレオチド配列の集合Sの設計方法。
- 請求項1又は2記載のオリゴヌクレオチド配列の集合Sの設計方法であって、所定の長さnのオリゴヌクレオチド配列を、その各ポジションがA又はG([AG])あるいはT又はC([TC])であることを意味する、0と1からなる所定の長さL(Lは3以上の整数)のビット列(AGテンプレート)で表わした場合、各AGテンプレート間のハミング距離、各AGテンプレートの逆反転配列との間のハミング距離、これらをシフトした配列との間のハミング距離、並びに、各AGテンプレート同士、各AGテンプレートの逆反転配列同士、及び各AGテンプレートとその逆反転配列を連結した配列との間のハミング距離が、いずれも所定値k以上になるAGテンプレートを選択し、かかる選択されたAGテンプレートが表現するオリゴヌクレオチド配列の集合の中から、所定の誤り訂正符号の符号語と組み合わせることにより、前記選択されたAGテンプレートが表現するオリゴヌクレオチド配列同士が少なくとも前記ハミング距離kを保つオリゴヌクレオチド配列の集合を選定することを特徴とするオリゴヌクレオチド配列の集合Sの設計方法。
- ハミング距離kを保つオリゴヌクレオチド配列の集合が、各配列同士の間、他の各配列の相補配列との間、これらをシフトした配列との間、並びに、前記各配列同士、前記相補配列同士、及び前記各配列と前記相補配列を連結した配列との間に、所定値以上のミスマッチを含み、前記各配列同士の間、他の各配列の相補配列との間、これらをシフトした配列との間、並びに、前記各配列同士、前記相補配列同士、及び前記各配列と前記相補配列を連結した配列との間でのミスハイブリダイゼーションを回避することができることを特徴とする請求項8又は9記載のオリゴヌクレオチド配列の集合Sの設計方法。
- ハミング距離kを保つオリゴヌクレオチド配列の集合が、各配列同士の間、該各配列の逆配列との間、これらをシフトした配列との間、並びに、前記各配列同士、前記逆配列同士、及び前記各配列と前記逆配列を連結した配列との間に、所定値以上のミスマッチを含み、前記各配列同士の間、前記逆配列との間、これらをシフトした配列との間、並びに、前記各配列同士、前記逆配列同士、及び前記各配列と前記逆配列を連結した配列との間でのミスハイブリダイゼーションを回避することができることを特徴とする請求項8又は9記載のオリゴヌクレオチド配列の集合Sの設計方法。
- 所定の長さnのオリゴヌクレオチド配列の集合Sが、32以下の長さのオリゴヌクレオチド配列の集合Sであることを特徴とする請求項7〜9のいずれか記載のオリゴヌクレオチド配列の集合Sの設計方法。
- 所定値kが、Lの1/4以上の値であることを特徴とする請求項8〜12のいずれか記載のオリゴヌクレオチド配列の集合Sの設計方法。
- オリゴヌクレオチド配列の集合Sが、特定の部分配列を含む、又は特定の部分配列を含まないオリゴヌクレオチド配列の集合であることを特徴とする請求項8〜13のいずれか記載のオリゴヌクレオチド配列の集合Sの設計方法。
- 特定の部分配列が、制限酵素認識部位であることを特徴とする請求項14記載のオリゴヌクレオチド配列の集合Sの設計方法。
- 所定の誤り訂正符号の符号語が、ハミング符号、BCH符号、最大長系列符号、Golay符号、ReedMuller符号、ReedSolomon符号、Hadamard符号、Preparata符号、リバーシブル符号、重み一定符号から選ばれることを特徴とする請求項8〜15のいずれか記載のオリゴヌクレオチド配列の集合Sの設計方法。
- 請求項3記載のオリゴヌクレオチド配列の集合Sを作製するために用いられるGCテンプレートの設計方法であって、所定の長さnのオリゴヌクレオチド配列を、その各ポジションがG又はC([GC])あるいはA又はT([AT])であることを意味する、0と1からなる所定の長さL(Lは6以上の整数)のビット列(GCテンプレート)で表わした場合、各GCテンプレート間のハミング距離、各GCテンプレートの逆配列との間のハミング距離、これらをシフトした配列との間のハミング距離、並びに、各GCテンプレート同士、各GCテンプレートの逆配列同士、及び各GCテンプレートとその逆配列を連結した配列との間のハミング距離が、いずれも所定値k以上になるGCテンプレートを選択することを特徴とするGCテンプレートの設計方法。
- 所定の長さLのGCテンプレートが、32以下の長さのGCテンプレートであることを特徴とする請求項17記載のGCテンプレートの設計方法。
- 所定値kが、Lの1/4以上の値であることを特徴とする請求項17又は18記載のGCテンプレートの設計方法。
- GCテンプレートが、長さL=6〜10のとき所定値k=2、長さL=11〜15のとき所定値k=4、長さL=16〜18のとき所定値k=6、長さL=19のとき所定値k=7、長さL=20〜22,24のとき所定値k=8、長さL=23,25のとき所定値k=9、長さL=26,27のとき所定値k=10、長さL=28,29のとき所定値k=11、長さL=30〜32のとき所定値k=12のGCテンプレートであることを特徴とする請求項18記載のGCテンプレートの設計方法。
- オリゴヌクレオチド配列の集合Sが、特定の部分配列を含む、又は特定の部分配列を含まないオリゴヌクレオチド配列の集合であることを特徴とする請求項17〜20のいずれか記載のGCテンプレートの設計方法。
- 特定の部分配列が、制限酵素認識部位であることを特徴とする請求項21記載のGCテンプレートの設計方法。
- 請求項1又は2記載のオリゴヌクレオチド配列の集合Sを作製するために用いられるAGテンプレートの設計方法であって、所定の長さnのオリゴヌクレオチド配列を、その各ポジションがA又はG([AG])あるいはT又はC([TC])であることを意味する、0と1からなる所定の長さL(Lは3以上の整数)のビット列(AGテンプレート)で表わした場合、各AGテンプレート間のハミング距離、各AGテンプレートの逆反転配列との間のハミング距離、これらをシフトした配列との間のハミング距離、並びに、各AGテンプレート同士、各AGテンプレートの逆反転配列同士、及び各AGテンプレートとその逆反転配列を連結した配列との間のハミング距離が、いずれも所定値k以上になるAGテンプレートを選択することを特徴とするAGテンプレートの設計方法。
- 所定の長さLのAGテンプレートが、32以下の長さのAGテンプレートであることを特徴とする請求項23記載のAGテンプレートの設計方法。
- 所定値kが、Lの1/4以上の値であることを特徴とする請求項23又は24記載のAGテンプレートの設計方法。
- AGテンプレートが、長さL=3〜5のとき所定値k=1、長さL=6〜8のとき所定値k=2、長さL=9のとき所定値k=3、長さL=10〜12のとき所定値k=4、長さL=13,14のとき所定値k=5、長さL=15〜18のとき所定値k=6、長さL=19のとき所定値k=7、長さL=20〜22のとき所定値k=8、長さL=23のとき所定値k=9、長さL=24〜26のとき所定値k=10、長さL=27のとき所定値k=11、長さL=28〜30のとき所定値k=12、長さL=31のとき所定値k=13、長さL=32のとき所定値k=13のAGテンプレートであることを特徴とする請求項23記載のAGテンプレートの設計方法。
- オリゴヌクレオチド配列の集合Sが、特定の部分配列を含む、又は特定の部分配列を含まないオリゴヌクレオチド配列の集合であることを特徴とする請求項23〜26のいずれか記載のAGテンプレートの設計方法。
- 特定の部分配列が、制限酵素認識部位であることを特徴とする請求項27記載のAGテンプレートの設計方法。
- 請求項1〜7のいずれか記載のオリゴヌクレオチド配列の集合Sを有することを特徴とするDNA又はRNAチップ。
- 請求項1〜7のいずれか記載のオリゴヌクレオチド配列の集合Sを有することを特徴とするDNA又はRNAタグ。
- 請求項1〜7のいずれか記載のオリゴヌクレオチド配列の集合Sを有することを特徴とするDNA又はRNA計算システム。
- 請求項1〜7のいずれか記載のオリゴヌクレオチド配列の集合Sから選択されるオリゴヌクレオチド配列からなることを特徴とするDNA又はRNAプローブ。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001331732 | 2001-10-29 | ||
JP2001331732 | 2001-10-29 | ||
PCT/JP2002/011163 WO2003038091A1 (fr) | 2001-10-29 | 2002-10-28 | Sequences oligonucleotidiques exemptes d'erreurs d'hybridation et procedes de conception correspondants |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2003038091A1 true JPWO2003038091A1 (ja) | 2005-04-07 |
Family
ID=19147247
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003540356A Pending JPWO2003038091A1 (ja) | 2001-10-29 | 2002-10-28 | ミスハイブリダイゼーションを回避しうるオリゴヌクレオチド配列とその設計方法 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20050089860A1 (ja) |
EP (1) | EP1452598A4 (ja) |
JP (1) | JPWO2003038091A1 (ja) |
WO (1) | WO2003038091A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004355294A (ja) * | 2003-05-29 | 2004-12-16 | National Institute Of Advanced Industrial & Technology | 情報担体としてのdna符号の設計方法 |
JP2006217897A (ja) * | 2005-02-14 | 2006-08-24 | Canon Inc | コントロールブローブ用塩基配列及びその設計方法 |
JP4853898B2 (ja) * | 2005-08-30 | 2012-01-11 | 独立行政法人産業技術総合研究所 | Dna標準物質 |
US20090017455A1 (en) * | 2006-08-02 | 2009-01-15 | Kwong Gabriel A | Methods and systems for detecting and/or sorting targets |
US20090020700A1 (en) * | 2007-07-17 | 2009-01-22 | Locheed Martin Corporation | Method and device for generating an electrical signal in response to light |
US20100323348A1 (en) * | 2009-01-31 | 2010-12-23 | The Regents Of The University Of Colorado, A Body Corporate | Methods and Compositions for Using Error-Detecting and/or Error-Correcting Barcodes in Nucleic Acid Amplification Process |
US8407554B2 (en) * | 2009-02-03 | 2013-03-26 | Complete Genomics, Inc. | Method and apparatus for quantification of DNA sequencing quality and construction of a characterizable model system using Reed-Solomon codes |
EP2616555B1 (en) * | 2010-09-16 | 2017-11-08 | Gen-Probe Incorporated | Capture probes immobilizable via l-nucleotide tail |
US11492662B2 (en) | 2020-08-06 | 2022-11-08 | Singular Genomics Systems, Inc. | Methods for in situ transcriptomics and proteomics |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5556749A (en) * | 1992-11-12 | 1996-09-17 | Hitachi Chemical Research Center, Inc. | Oligoprobe designstation: a computerized method for designing optimal DNA probes |
US5604097A (en) * | 1994-10-13 | 1997-02-18 | Spectragen, Inc. | Methods for sorting polynucleotides using oligonucleotide tags |
EP0832287B1 (en) * | 1995-06-07 | 2007-10-10 | Solexa, Inc | Oligonucleotide tags for sorting and identification |
AU1603199A (en) * | 1997-12-03 | 1999-06-16 | Curagen Corporation | Methods and devices for measuring differential gene expression |
-
2002
- 2002-10-28 JP JP2003540356A patent/JPWO2003038091A1/ja active Pending
- 2002-10-28 US US10/494,148 patent/US20050089860A1/en not_active Abandoned
- 2002-10-28 EP EP02770278A patent/EP1452598A4/en not_active Withdrawn
- 2002-10-28 WO PCT/JP2002/011163 patent/WO2003038091A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2003038091A1 (fr) | 2003-05-08 |
EP1452598A1 (en) | 2004-09-01 |
US20050089860A1 (en) | 2005-04-28 |
EP1452598A4 (en) | 2006-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lopez et al. | DNA assembly for nanopore data storage readout | |
Meiser et al. | Reading and writing digital data in DNA | |
Organick et al. | Random access in large-scale DNA data storage | |
US10566077B1 (en) | Re-writable DNA-based digital storage with random access | |
Bornholt et al. | A DNA-based archival storage system | |
Alphey | What is DNA Sequencing? | |
US10370246B1 (en) | Portable and low-error DNA-based data storage | |
Brenneman et al. | Strand design for biomolecular computation | |
KR20190109393A (ko) | 핵산-기반 데이터 저장 | |
US20070042372A1 (en) | Method for designing dna codes used as information carrier | |
US20200387769A1 (en) | Efficient assembly of oligonucleotides for nucleic acid based data storage | |
US11495324B2 (en) | Flexible decoding in DNA data storage based on redundancy codes | |
US20210074380A1 (en) | Reverse concatenation of error-correcting codes in dna data storage | |
Feldkamp et al. | Software tools for DNA sequence design | |
JPWO2003038091A1 (ja) | ミスハイブリダイゼーションを回避しうるオリゴヌクレオチド配列とその設計方法 | |
CN114072523A (zh) | 用于检测核酸变体的方法 | |
Deaton et al. | Design and test of noncrosshybridizing oligonucleotide building blocks for DNA computers and nanostructures | |
WO2014058890A1 (en) | Methods and systems for identifying, from read symbol sequences, variations with respect to a reference symbol sequence | |
Ezpeleta et al. | Robust and scalable barcoding for massively parallel long-read sequencing | |
Arita | Writing information into DNA | |
Nassirpour et al. | Embedded codes for reassembling non-overlapping random DNA fragments | |
Garzon et al. | In search of optimal codes for DNA computing | |
D’yachkov et al. | A weighted insertion-deletion stacked pair thermodynamic metric for DNA codes | |
Shyam et al. | A novel encryption scheme based on DNA computing | |
Milenkovic et al. | DNA-based data storage systems: A review of implementations and code constructions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20050801 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20081125 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20090126 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20090406 |