WO2004107243A1

WO2004107243A1 - 情報担体としてのdna符号の設計方法

Info

Publication number: WO2004107243A1
Application number: PCT/JP2004/007271
Authority: WO
Inventors: Masanori Arita
Original assignee: National Institute Of Advanced Industrial Science And Technology
Priority date: 2003-05-29
Filing date: 2004-05-27
Publication date: 2004-12-09
Also published as: US20070042372A1; JP2004355294A; CN1791875A

Abstract

　設計したＤＮＡを利用する際に生じる誤り等を回避しうる、ＤＮＡの遺伝情報を含まない任意の非コード領域に任意の情報を書き込むための情報担体としての情報コードの集合からなるＤＮＡ符号の設計方法が提供される。所定の長さのＤＮＡ配列を、Ｇ又はＣとＡ又はＴを０と１からなるビット列（テンプレート）で表わした場合、各テンプレート間、シフト配列間、連結配列間とのハミング距離が、いずれも所定値以上になるテンプレートを選択し、さらにその中から長さｍのサブワード制約を有するテンプレートを選定する。こうして選択したテンプレートと、長さｍのサブワード制約を有する所定の誤り訂正符号の符号語と組み合わせることにより情報伝達における単位信号に対応する塩基配列の集合Ｓ１を得る。　

Description

明細書

情報担体としての DNA符号の設計方法

技術分野

[0001] 本発明は、人工的に設計した DNAを情報担体として利用する際に生じうる誤りを回避できるとともに、生体高分子へ情報を書き込むための単純で一般的な情報担体とすることのできる DNA符号の設計方法、力かる設計方法により得られる DNA符号、カゝかる DNA符号語を遺伝情報を含まなヽ任意の非コード領域に埋め込むことによる DNAへの任意の情報書込み手法に関する。

背景技術

[0002] DNAは 4種類の塩基、すなわちアデニン (A) ,シトシン（C) ,グァニン（G) ,チミン（ T)が鎖状に連結した構造を有し、 Aは Tと、 Cは Gと水素結合により塩基対を形成することから、 A— T, C Gは相補的であるといわれ、 2本の DNA鎖が相補的に 2重らせん構造を有し、力かる DNA2重らせんは、温度が上昇すると 1本鎖 DNAずつに解離し、温度が降下すると再び相補鎖と結合する。この相補鎖と結合する過程はハイプリダイズといわれ、 DNA鎖の解離する温度やハイブリダィズする温度は、その配列中の GC含量に左右されることがよく知られている。また、 2本鎖における非相補的塩基対は、安定した水素結合を形成することができず、（塩基の）ミスマッチと呼ばれている。 DNA2重らせんの安定性 (例えば、自由エネルギー）は、塩基のミスマッチの数及び分布に依存している（例えば、非特許文献 1参照)。この DNAを用いて情報を記述するには、文字に対応する複数のオリゴヌクレオチド配列を用意する。このような固定長の人工オリゴヌクレオチド配列の集合は、以下に示すように多くの応用分野で用いられている。

[0003] 例えば、バイオテクノロジーの進展に伴い、人為的な遺伝子改変が日常的に行われるので、改変した遺伝子の著作権を保護することが重要視されている。しかしながら、遺伝子には 4塩基の組み合わせによって構成されている以外に、特に主だった特徴はなぐ遺伝子改変によって新規作製された生物細胞、若しくは遺伝子断片等を特徴づけ、不正利用から保護する方法は未だ確立されていない。こうした開発者の意図しない利用や盗用に歯止めをかけるためには、 DNA署名 (DNA signature)またはテガノグラフィー (他の情報内に隠すことで実現する、表向きは見えない署名）が有用とされる。例えば、これは、 DNAの出所を識別するために署名情報を D NA塩基配列として表現し、人為的に改変したゲノムに、識別用の塩基配列を組み込むことで実現される（例えば、特許文献 1参照)。実用上は、固定長のオリゴヌタレォチド配列を人為的に設計し、署名用配列として利用する。

[0004] また、現在のコンピュータと異なる計算パラダイムの代表として「DNAコンピュータ」と呼ばれる、まったく新しいタイプのコンピュータがある（例えば、非特許文献 2参照）。この研究分野では、数学の問題等を解くために論理変数又はグラフの構成要素を DNAの塩基配列として表現し、その塩基配列に分子生物学における実験的方法を適用することにより、記号処理を実現する。ここでも、人為的に設計された固定長オリゴヌクレオチド配列の集合が使用される。

[0005] また、 DNAタグ Zアンチタグシステム (例えば、非特許文献 3— 5参照）では、固定長の短、オリゴヌクレオチドタグを用いて遺伝子発現量を観察する。これらのタグは、個々の遺伝子に対応する情報を表現した符号とみなすことができる。その他、 DNA をデータ蓄積の将来的な媒体として利用する方法 (例えば、非特許文献 6参照)も提唱されている。これらのアプローチでも個々のデータを表現するために固定長のオリゴヌクレオチド配列を利用する。

[0006] 以上の手法は、全て塩基配列に情報を書き込むことを主眼としており、「DNA符号」の設計を必要とする。ここでの DNA符号とは、同じ長さを持つ、互いに異なる塩基配列の集合である。こうして設計される DNA符号が満たすべき制約とは、全符号語（塩基配列）について、融解温度などの物理的性質が一定であることと、符号語の間で望ましくな、ノヽイブリダィゼーシヨン（ミスハイブリダィゼーシヨン）を起こさな、ことであり、その設計法は、古典的な誤り訂正符号の設計法と多くの共通点をもつ。しかしながら、 DNA符号の設計は誤り訂正符号のそれと異なる部分もあり、標準的な設計方法は存在しない。以下、従来 DNA符号の設計に用いられてきた次の 3つの基本的アプローチについて説明する：（1)テンプレートマップ戦略（template- map strategy )、 (2) De Bruijn配列による設計 (DeBruijn construction)、及び（3)確率的方法 ( stochastic method)で teる。

[0007] (テンプレートマップ戦略）

この設計法は、 Condonのグループが最初に提案した (例えば、非特許文献 7参照）。基本的なアイデアは、 DNA符号における制約を 2つの 2進符号に割り振り、両者を組み合わせて 4進符号 (DNA符号)を構成する。例えば、 GC含量を一定に保つ 2進符号 (テンプレート (template)と呼ばれる）と、符号語間のミスマッチを保証する 2進符号 (マップ (map)と呼ばれる）を組み合わせ、両者の制約をともに満たす 4進符号を設計する。 Frutos et al.は、長さ 8の DNA符号 108語を設計、（1)各符号語は 4つの G Cを持ち、（2)各符号語の間には、相補配列を含め少なくとも 4つのミスマッチを持つ (例えば、非特許文献 8参照）ようにした。また、 Li et al.は、 Hadamard符号（

Hadamard code)を使用し、この設計法をより長い DNA符号へと一般ィ匕した (例えば、非特許文献 9参照)。例として長さ 12でミスマッチ数が少なくとも 6の DNA符号を 52 8語設計している。

[0008] テンプレートマップ戦略は、二つの 2進符号を組み合わせて DNA符号を作成するため、この手法で設計した DNA符号は従来 2進符号で研究された性質しか満たすことができない。しかし、 DNAは、電子的に用いられる符号と異なり符号語の区切り（ comma)を特定できないため、符号語の読み枠がずれた場合に、ずれていることを必ず検出できる仕組みを持たせる必要がある。この性質はコンマを必要としな、と、う意味でコンマフリー（comma-free)と呼ばれる。符号語の連結部分と各符号語の間で、（読み枠がずれた際に)必ずミスマッチを d個生じる符号を、インデクス dのコンマフリ一符号という。残念なことに、 2進符号において高いインデタスのコンマフリー符号に関する理論はほとんど研究されていない。そのため（例えば、非特許文献 14、 15参照）、テンプレートマップ戦略では DNA符号にコンマフリー性を持たせることができない。

[0009] (De Bruijnの構成）

塩基対が連続して一致する長さが長、程、ミスハイブリダィゼーシヨンの危険性は高くなる。そのため、長さ kの連続した塩基の一致を持たない (k:通常は 7から 8)制約 (サブワード制約）を課する必要がある。 Ben-Dor et al.は、オーダー kの De Bruijn配列から同じ融解温度を有する長さ kの配列を切り出してくることにより、長さ kのサブヮード制約を満たすオリゴヌクレオチドタグの最適選択アルゴリズムを示した (例えば、非特許文献 11参照)。オーダー kの De Bruijn配列とは長さ kの配列が正確に 1度生じる、長さ 2^kの巡回配列（circular sequence)であり、 De Bruijn配列を構成するための線形時間アルゴリズム（linear time algorithm)が知られている。

De Bruijn配列を用いる類似手法は他にもあり、こうして構成されたタグを利用した D NAチップが市販されている (例えば、特許文献 2、非特許文献 12参照)。

[0010] オーダー kの De Bruijn配列力選んだオリゴヌクレオチド配列は、長さ k以上の連続一致を持たな、ため、 DNA符号語の長さを 2k以上にすれば符号語の連結部分が他の符号語と完全に一致することを防ぐことができる (インデクス 1のコンマフリー符号 ) o実際、 Brennerは、インデクス 1のコンマフリー符号をオリゴヌクレオチドタグの設計に適用した (例えば、特許文献 3、非特許文献 16、 17参照)。し力し De Bruijn配列を用いた場合、インデタスが 2以上のコンマフリー符号を持たせることは難しい。また、 De Bruijn配列を利用して設計した符号語間ではミスマッチの個数を保証することも難しい。従って、高いインデタスのコンマフリー性や、符号語間でミスマッチ個数の多い DNA符号を設計することは非常に難、。

[0011] (確率的方法）

確率的方法は、符号の設計に最も広く使用されるアプローチである。 Deaton et al. は、「拡張した (extended)」 Hamming制約、すなわち、シフトした場合のミスマッチも考慮する制約を満たし、かつ融解温度の揃った符号語を探すために、遺伝的アルゴリズムを用いた (例えば、非特許文献 18参照)。彼らの報告によれば、問題の複雑さのために、遺伝的アルゴリズムは長さ 25までの符号語の設計にしか適用できない（例えば、非特許文献 19参照)。

[0012] Landweber et al.は、長さ 15の符号語 10語を 2セット設計するために、ランダムな符号語生成プログラムを使用した。それにより設計した配列は、以下の条件を満たす： ( 1)どの符号語をつなぎあわせても、 5以上の塩基の連続一致がない、（2) 45°Cに揃つた融解温度、（3)二次構造の回避、及び (4) 7つの塩基対以上の連続した組み合わせはない（最初の条件が満たされていれば、 4つ目の条件は不要である。ここには原典に示されている条件を提示した)。彼らはこれらの制約を、 3種の塩基のみで実現した (例えば、非特許文献 20参照)。同じように、 3種の塩基のみ力符号語を設計したグループは、設計にランダムな符号生成を用いている（例えば、非特許文献 2 1一 23参照)。

[0013] 確率的方法に用いるアルゴリズムの理論的な分析はなされていないが、その手法の威力は、 Tulpan et al. (例えば、非特許文献 24参照）の研究において明らかにされている。彼らは、確率的方法によりテンプレートマップ戦略によって設計された符号の語数を増カロさせることはができた力確率的方法だけではテンプレートマップ戦略による設計をしのぐことはできな力つた。従って確率的方法は、既に設計された符号語の数を増やすために用いることが好ましい。確率的方法の欠点は、（確率的であるがゆえに)設計される符号語が毎回異なる点、設計可能な符号語の数を推し量れない点、設計される符号語の特徴 (例えばミスマッチの個数など)をあらかじめ推し量ることができな、点などである。

[0014] 以上、設計の従来法を示したが、いずれも短所があり理想的な設計法とは言いがたい。理想的な DNA符号語は、以下に説明するさまざまな制約を満たさねばならない。

(ハミング距離の制約）

設計した DNA符号は、全ての符号語間で、ノ、ミング距離を大きく保たねばならない。誤り訂正符号の理論と比べ DNA符号設計をより困難にしているのは、符号語のみならず、それらの相補配列とのハイブリダィゼーシヨンにおけるミスマッチ数も考慮しなければならな!/、点である。

[0015] (Comma- Freeの制約）

Comma-Freeとは、符号語の読み枠が揃った際のミスマッチ個数のみならず、配列の読み枠がずれた時でも所定のミスマッチ数が保証される性質である。 DNAは固定された読み枠を持たないため、設計した符号は comma-freeであることが望ましい。定義上は、 2つの必ずしも相違しない符号語、 X X · χ及び y y -yの連結部分 (すな

1 2 n 1 2 n

わち、 X X - --x y y - --y ;0<r<n)力別の符号語と必ず d個以上のミスマッチを含 r+1 H-2 n 1 2 r

む場合、コードはインデクス dで comma-freeである（例えば、非特許文献 25、 26参照 )。従って、 DNA符号は、高いインデタスで comma-freeでなくてはならない。ここで留意すべきは、 comma-freeという性質力符号語間に「スぺーサー（spacer)」符号語を導入することによっては補償されないことである。かかるスぺーサ一の存在は、符号語の復号を容易にはできても、ミスハイブリダィゼーシヨンの回避には貢献しない。また、スぺーサ一は、余分な DNA配列を各符号語間に入れるため、情報の密度を減らしてしまう。

[0016] (エネルギーの制約）

ミスマッチに対する上記制約に加え、 DNA符号の融解温度を揃えることは、実験おいて偏りない反応を保証するために必要である。融解温度を推定するための公式は複数ある：（1)非常に短いオリゴヌクレオチドについては、 GC含量又は 2— 4ルール (2 - 4ルールでは融解温度を (AT塩基対の数） X 2 + (GC塩基対の数） X 4°Cで評価する）、（2)比較的短いオリゴヌクレオチドについては、最近接塩基対法を用いた概算 (例えば、非特許文献 27、 28参照）、そして (3)より長いオリゴヌクレオチドについては、 Wetmurの概算（例えば、非特許文献 29参照）である。これら公式のうちのひとつを使用することにより、全符号語の融解温度が狭い範囲内にあるように設計することができる。

[0017] (その他の制約）

利用するモデルによって、塩基のミスマッチに関する以下の制約が知られている。

1.制限酵素の認識部位、塩基の単なる反復、又はその他生物学的なシグナル配列などに対応する部分配列が出現しないようにすること。この制約は、設計した符号語中のみならず、それらの（相補配列を含めた)連結部分のどこにもあってはならない。この制約は符号語の書き込み先がゲノム DNAなどあら力じめ決まった配列の場合、また特定の制限酵素を使用する場合に必要となる。

2.長さ kのサブワード力設計した符号語とそれらの連結の間に 2度以上現れないこと。この制約は、ミスハイブリダィゼーシヨンの回避を確実にするために必要である。

3.期待される符号語のハイブリダィゼーシヨンを妨げるような二次構造が生じてはならない。この制約は、 DNA符号語の応用分野において温度調節が重要な役割を占める場合に必要となる。特許文献 1：特開 2001— 352980号公報

特許文献 2：欧州特許第 97302313号公報

特許文献 3：米国特許第 5604097号明細書

非特許文献 1 : Biochemistry 37, 26, 9435-9444, 1998

非特許文献 2 : Science 266, 5187, 1021-1024, 1994

非特許文献 3： Proceedings of the National Academy of Sciences of USA 89, 12, 5381-5383, 1992

非特許文献 4 : Proceedings of the National Academy of Sciences of USA 97, 4, 1665-1670, 2000

非特許文献 5 Journal of Computational Biology 7, 3-4, 503-519, 2000

非特許文献 6 : 10th Foresight Conference on Molecular Nanotechnology (Bethesda,

USA) Poster abstract, 2002

非特許文献 7 : Nucleic Acids Research 25, 23, 4748-4757, 1997

非特許文献 9 : Langmuir 18, 3, 805-812, 2002

非特許文献 10 Journal of Computational Biology 8, 3, 201-219, 2001

非特許文献 11 Journal of Computational Biology 7, 3-4, 503-519, 2000

非特許文献 12 : Genome Research 10, 6, 853-860, 2000

非特許文献 13 :Judson, H. F.: The Eighth Day of Creation: Makers of the

Revolution in Biology. (Original 1979; Expanded Edition 1996) Cold Spring Harbor

Laboratory 1996

非特許文献 14 : IEEE Transactions on Information Theory, IT- 11, 107-112, 1965 非特許文献 15 : Stiffler, J. J.: Theory of Synchronous Communication. Prentice-Hall, Inc., Englewood Cliffs, N. J., 1971

非特許文献 16 : Proceedings of the National Academy of Sciences of USA 89, 12, 5381-5383, 1992

非特許文献 17 : Proceedings of the National Academy of sciences of USA 97, 4, 1665-1670, 2000

非特許文献 18 : DNA Based Computers II, DIMACS Series in Discrete Mathematics and Theoretical Computer Science 44, 247-258, 1998

非特許文献 19 : Proceedings of the 3rd Annual Genetic Programming Conference, Morgan Kauftnann 684-690, 1998

非特許文献 20 : Proceedings of the National Academy of Sciences of USA 97, 4, 1385-1389, 2000

非特許文献 21 : DNA Computing: 6th International Workshop on DNA- Based

Computers (DNA 2000; Leiden, The Netherlands)

非特許文献 22 : LNCS 2054, 17-26, 2001

非特許文献 23 : Science 296, 5567, 499-502, 2002

非特許文献 24： Proceedings of 8th International Meeting on DNA- Based Computers (DNA 2002; Sapporo, Japan), 311—323, 2002

非特許文献 25 : Canadian Journal of Mathematics 10, 202-209, 1958

非特許文献 26 : Canadian Journal of Mathematics 39, 3, 513—526, 1987

非特許文献 27 : Proceedings of the National Academy of sciences of USA 83, 11,

3746-3750, 1986

非特許文献 28 biochemistry 37, 26, 9435-9444, 1998

非特許文献 29 : Critical Reviews in Biochemistry and Molecular Biology 2b, 3-4, 227-259, 1991

発明の開示

発明が解決しょうとする課題

上述したように、ノィォテクノロジー及びナノテクノロジーが進歩するに従、、 DNA に情報を書き込むことへの需要は高まりつつあり、力かる技術が適用される分野は、人工的な情報を DNAに書き込もうとする点で、従来におけるバイオテクノロジーとは異なっている。 DNA符号のための様々な設計法が提案されてはいる力それらの手法は DNAを情報媒体として使う際の（例えば ASCIIコードのような)標準コードを目指してはいない。これは、それぞれの手法が利用される分野において DNA配列の満たすべき制約が異なることに起因すると考えられる。情報媒体として DNAを利用する場合、単純かつ汎用的な符号が必要とされる。 [0020] DNA中に情報を読み書きする際には、以下の現象を考慮せねばならない。

1. DNAを読み取る際、塩基配列の読み間違いや、数塩基程度のスキップなどのェラーが生じる。

2. DNAを読み取る際には、プライマーと呼ばれる特異的な配列が必要となる。ブライマ一配列は、情報を保持する配列の両端に配置され、プライマー配列で挟まれた領域 (情報配列)のみを増幅する。

3. DNAに書き込む配列の物理的特性 (融解温度など）が揃うことが必要とされる。情報を表現する DNA配列の物理的特性が大幅に異なる場合には、特異な二次構造を作成したり、プライマーによる増幅効率が激減したりする。また、目標 DNA中に情報配列を組み込む際にも困難をともなう。

4.出現して欲しくない配列の存在がある。このため、例えば、特定の制限酵素部位が情報配列中に出な、ようにする制約や、特定の遺伝子配列と共通の配列を持たないようにする制約は非常に重要であり、一般的である。

[0021] 従来の DNA符号に関する技術は、書き込んだ情報を「そっくりそのまま」 DNAから読み出せるという仮定のもとに理論が構築されており、読み取りエラーの存在を考慮していない。また、プライマーについても考慮しないか、「DNAへ埋め込む情報の両端に特異的な配列を用意する」、つた非常に曖昧な解決法し力提示して、な、。また、従来法は、 DNAの中に情報を書き込むための具体的な手段を示していないため、物理的特性を揃え、特定配列の出現を防ぐといった手法も表していない。遺伝情報の複製には多くの実験的制約が存在し、高い技術力をもってしても遺伝情報を誤り無しに複製することは不可能である。また複製の段階で誤りがなくなったとしても、生体の DNAに情報配列を記入する場合は、生体内分子や放射線による配列の突然変異も考慮しなくてはならない。

[0022] したがって、本発明の課題は、 DNAの遺伝情報を含まなヽ任意の非コード領域に、任意の情報を読み書きするための情報担体としての符号 (アルファベットなど人工的に意味付けをおこなった記号の集合)用塩基配列の集合、すなわち DNA符号の設計方法を提供することにある。力かる DNA符号の符号語は、コンピュータが利用するコード体系と対応付け可能であり、文字をどのようにつなぎあわせても符号語の復号が非常に高い信頼度で可能となる点に特徴がある。この DNA符号語は、天然 DNAと十分に異なる特徴を有しており、 DNAの遺伝情報を含まなヽ任意の部分に埋め込むことができる。また、本発明の設計方法により作製された DNA符号語は、情報の記憶媒体として利用することも可能である。

課題を解決するための手段

[0023] 本発明者は、先に、所定の長さ n (nは 3以上、好ましくは 6以上の整数)のオリゴヌクレオチド配列の集合 S1中の各オリゴヌクレオチド配列力集合 S1中の各オリゴヌタレォチド配列との間、集合 S1中の他の各オリゴヌクレオチド配列の相補配列との間、これらをシフトした配列との間、並びに、前記各オリゴヌクレオチド配列同士、前記相補配列同士、及び前記各オリゴヌクレオチド配列と前記相補配列を連結した配列との間に、所定値以上のミスマッチを含み、前記各オリゴヌクレオチド配列との間、前記相補配列との間、これらをシフトした配列との間、並びに、前記各オリゴヌクレオチド配列同士、前記相補配列同士、及び前記各オリゴヌクレオチド配列と前記相補配列を連結した配列との間でのミスハイブリダィゼーシヨンを回避することができるオリゴヌクレオチド配列の集合 S1をシステマティックに設計する方法や、相補配列同様に、逆配列に対してもミスハイブリダィゼーシヨンを回避することができるオリゴヌクレオチド配列の集合 S 1をシステマティックに設計する方法を提案して!/ヽる（特願 2001-3317 32)。

[0024] 本発明者は、上記課題を解決するために鋭意研究し、 DNAに情報を埋め込む配列の設計には誤り訂正機能のほかに融解温度のような物理的特性も均質に保つ必要があることから、上記本発明者によるオリゴヌクレオチド配列の集合を設計する際に用いたテンプレートから、更に長さ mのサブワード制約を有するものを選定し、同じく長さ mのサブワード制約を有する所定の誤り訂正符号の符号語と組み合わせることで情報を記述する際の文字として利用可能な塩基配列の集合 S2とすることにより、これらの条件を全て満たす DNA符号の設計法を見ヽだし、 ASCIIコードを含む既存の文字コード体系と DNAの塩基配列によるコード体系との対応付けを実現することで本発明を完成するに至った。

[0025] すなわち、本発明は、所定の長さ n(nは 6以上の整数)のオリゴヌクレオチド配列を、その各ポジションが G又は C ( [GC] )ある!/、は A又は T ( [AT] )であることを意味する、 0と 1からなる所定の長さ L (Lは 6以上の整数）のビット列（GCテンプレート）で表わした場合、各 GCテンプレート間のノ、ミング距離、各 GCテンプレートの逆配列との間のハミング距離、これらをシフトした配列との間のノ、ミング距離、並びに、各 GCテンプレート同士、各 GCテンプレートの逆配列同士、及び各 GCテンプレートとその逆配列を連結した配列との間のハミング距離力 V、ずれも所定値 k以上になる GCテンプレートを選択し、力かる選択された GCテンプレートの集合から、長さ mのサブワード制約を有する集合をテンプレートとして選定し、同じく長さ mのサブワード制約を有する所定の誤り訂正符号の符号語と組み合わせることによりオリゴヌクレオチド配列の集合 S1を作成することを特徴とする DNA符号の設計方法 (請求項 1)や、所定の長さ n (nは 6以上の整数）のオリゴヌクレオチド配列を、その各ポジションが A又は G ( [A G])あるいは T又は C ( [CT])であることを意味する、 0と 1からなる所定の長さ L (Lは 6以上の整数）のビット列 (AGテンプレート）で表わした場合、各 AGテンプレート間のハミング距離、各 AGテンプレートの逆反転配列との間のノ、ミング距離、これらをシフトした配列との間のハミング距離、並びに、各 AGテンプレート同士、各 AGテンプレ一トの逆反転配列同士、及び各 AGテンプレートとその逆反転配列を連結した配列との間のハミング距離が、いずれも所定値 k以上になる AGテンプレートを選択し、かかる選択された AGテンプレートの集合から、長さ mのサブワード制約を有する集合をテンプレートとして選定し、同じく長さ mのサブワード制約を有する所定の誤り訂正符号の符号語と組み合わせることによりオリゴヌクレオチド配列の集合 S1を作成することを特徴とする DNA符号の設計方法 (請求項 2)や、ハミング距離 kを保つオリゴヌクレオチド配列の集合 S1が、各配列同士の間、他の各配列の相補配列との間、これらをシフトした配列との間、並びに、前記各配列同士、前記相補配列同士、及び前記各配列と前記相補配列を連結した配列との間に、所定値以上のミスマッチを含み、前記各配列同士の間、他の各配列の相補配列との間、これらをシフトした配列との間、並びに、前記各配列同士、前記相補配列同士、及び前記各配列と前記相補配列を連結した配列との間でのミスハイブリダィゼーシヨンを回避することができ、また情報の復号を容易にすることを特徴とする DNA符号の設計方法 (請求項 3)や、所定の長さ nのオリゴヌクレオチド配列の集合 SIが、 32以下の長さのオリゴヌクレオチド配列の集合 S1であることを特徴とする DNA符号の設計方法 (請求項 4)や、ハミング距離の所定値 kが、 Lの 1Z4以上の値であることを特徴とする DNA符号の設計方法 (請求項 5)や、長さ mのサブワード制約力 Lの 1Z2以上の値であることを特徴とする DN A符号の設計方法 (請求項 6)や、オリゴヌクレオチド配列の集合 S1が、特定の部分配列を含む、又は特定の部分配列を含まな、オリゴヌクレオチド配列の集合であることを特徴とする DNA符号の設計方法 (請求項 7)や、所定の誤り訂正符号の符号語力ハミング符号、 BCH符号、最大長系列符号、 Golay符号、 ReedMuller符号、 ReedSolomon符号、 Hadamard符号、 Preparata符号、リバーシブル符号、重み一定符号、非線型符号から選ばれる符号語であることを特徴とする DNA符号の設計方法（請求項 8)や、記号単位に対応する塩基配列の集合が、天然の DNAと異なる配列を有し、かつ一定の [GC] [AT]または [CT] [AG]の並びを有することを特徴とする D NA符号の設計方法 (請求項 9)が提供される。

また、本発明は、 DNAの遺伝情報を含まな、任意の非コード領域に、コンピュータで解読可能なコード体系を用いて任意の情報を書き込むことができる、記号単位に対応する塩基配列の集合から DNA符号 (請求項 10)や、一定の [GC] [AT]または [CT] [AG]の並びを有し、融解温度が所定の範囲内に揃うように設計された塩基配列の集合力なる DNA符号 (請求項 11)や、数塩基のスキップまたは置換等の誤りの検出が容易な塩基配列の集合力なる DNA符号 (請求項 12)や、記号単位に対応する塩基配列の読み枠のずれや、複数塩基の置換等の誤りの存在下でも高ヽ信頼度で解読 (復号)できる誤り訂正機能を備えて!/、る DNA符号 (請求項 13)や、記号単位に対応する塩基配列同士で安定な二次構造を形成せず、文字をどのように連結してもプライマーによる増幅を妨げるような物理的阻害が生じない DNA符号 (請求項 14)や、天然の DNAと容易に区別しうる、記号単位に対応する塩基配列の集合からなる DNA符号 (請求項 15)や、塩基配列における塩基並び方が制限され、特定の部分配列が出現するかどうかを簡単に検証することができる DNA符号 (請求項 16) や、いかなるハイブリダィゼーシヨンでも少なくとも 4つの位置でミスマッチを示し、連続的なサブシーケンスが高々 6つしかなぐ最近接塩基対概算において同じ融解温度を保持する、長さ 12、 112語の符号語からなる DNA符号 (請求項 17)や、上記のいずれかの設計方法により得ることができる DNA符号 (請求項 18)や、その DNA符号を、 DNAの遺伝情報を含まな、任意の非コード領域に埋め込むことを特徴とする DNAへの任意の情報の書込み方法 (請求項 19)が提供される。

[0027] さらに、本発明は、 DNAがベクター DNAであることを特徴とする DNAへの任意の情報の書込み方法 (請求項 20)や、 DNAがゲノム DNAであることを特徴とする DN Aへの任意の情報の書込み方法 (請求項 21)や、 DNA符号により、 DNAの作成者を識別することができる DNAへの任意の情報の書込み方法 (請求項 22)や、これらの DNA符号が、 DNAの遺伝情報を含まな、任意の非コード領域に埋め込まれた標識ィ匕ベクター（請求項 23)や、これらの DNA符号が、 DNAの遺伝情報を含まない任意の非コード領域に埋め込まれた標識ィ匕細胞 (請求項 24)や、これらの DNA符号を有する DNAタグ (請求項 25)が提供される。

発明の効果

[0028] 本発明によると、以下の特徴をもつ DNA符号を設計することができる。

1.全ての文字が同じ GCZATの並びをもつ。この条件により融解温度を揃えることができ、かつ天然 DNAとの区別が容易である。また、数塩基のスキップといった誤り検出も容易である。さらに、全ての文字配列が同じパターンであることから、特定の塩基配列の出現箇所が極度に制限され、特定の部分配列が出現するかどうかを簡単に検証することができる。

2.全ての文字どうしは、文字を表現する DNA配列長の約 1Z3に相当する塩基が異なっており、さらに相補配列を含め、任意の文字をつなげた部分とも、約 1Z3に相当する塩基が異なっている。これは「誤り訂正機能」と呼ばれ、文字配列の読み枠のずれや、複数塩基の置換と!/、つた誤りの存在下でも高、信頼度で情報文字列を解読できる機能を提供する。

3.全ての文字どうしおよび文字の連結部分は、一定の長さ以上の連続した塩基配列一致部分を持たない。この条件から、文字どうしで非常に安定な二次構造を作らないことが示され、文字配列をどのようにつなげてもプライマーによる増幅を妨げるような物理的阻害は起こらない。発明を実施するための最良の形態

本発明の DNA符号の設計方法としては、所定の長さ n (nは 6以上の整数)のオリゴヌクレオチド配列を、その各ポジションが G又は C ( [GC] )あるいは A又は T ( [AT] ) であることを意味する、 0と 1からなる所定の長さ L (Lは 6以上の整数)のビット列（GC テンプレート）で表わした場合、各 GCテンプレート間のハミング距離、各 GCテンプレ一トの逆配列との間のハミング距離、これらをシフトした配列との間のハミング距離、並びに、各 GCテンプレート同士、各 GCテンプレートの逆配列同士、及び各 GCテンプレートとその逆配列を連結した配列との間のノ、ミング距離力 V、ずれも所定値 k以上になる GCテンプレートを選択し、かかる選択された GCテンプレートの集合から、長さ mのサブワード制約を有する集合をテンプレートとして選定し、同じく長さ mのサブワード制約を有する所定の誤り訂正符号の符号語と組み合わせる、あるいは、所定の長さ n(nは 6以上の整数）のオリゴヌクレオチド配列を、その各ポジションが A又は G ( [AG] )あるいは T又は C ( [CT] )であることを意味する、 0と 1からなる所定の長さし (Lは 6以上の整数）のビット列 (AGテンプレート）で表わした場合、各 AGテンプレート間のハミング距離、各 AGテンプレートの逆反転配列との間のノ、ミング距離、これらをシフトした配列との間のノ、ミング距離、並びに、各 AGテンプレート同士、各 AGテンプレートの逆反転配列同士、及び各 AGテンプレートとその逆反転配列を連結した配列との間のハミング距離が、 V、ずれも所定値 k以上になる AGテンプレートを選択し、力かる選択された AGテンプレートの集合から、長さ mのサブワード制約を有する集合をテンプレートとして選定し、同じく長さ mのサブワード制約を有する所定の誤り訂正符号の符号語と組み合わせることにより、情報伝達における単位信号に対応するオリゴヌクレオチド配列の集合 S1を作成する方法であれば特に制限されるものではなぐ上記オリゴヌクレオチド配列には DNA配列や RNA配列が含まれ、上記「情報担体としての DNA符号の設計方法」には、便宜上「情報担体としての RNA符号の設計方法」も含まれる。なお、本発明において、符号化とは、文字や記号をコンピュータで扱うために、文字や記号に特定の塩基配列を対応させることをいい、また、 DNA 符号とは、 DNAを媒体として表記された単位信号 (アルファベット等の文字、 DNA 符号語ということもある）の集合を云う。本発明の設計方法により得られる DNA符号は、 DNAの遺伝情報を含まないイントロン、 5，一非コード領域、 3，一非コード領域等の任意の非コード領域に任意の情報を書き込む場合に、有利に用いることができる。

[0030] 上記オリゴヌクレオチド配列の所定の長さ n(nは 6以上の整数)の上限は限定されないが、通常 100塩基、好ましくは 32塩基であり、上記オリゴヌクレオチド配列の集合 S1には、便宜上集合 S1の部分集合も含まれる。以下、オリゴヌクレオチド配列が DN A配列の場合を中心とし、相補配列も含めてミスマッチを含む集合 S1を用いた、アルファベット等の単位信号に対応する塩基配列の集合力もなる DNA符号を、 GCテンプレートを用いて設計する場合を中心に説明する。

[0031] テンプレートを用いて設計される上記集合 S1中の P配列は、それ自体の配列及び集合 S1中の他の P配列との間に、シフトのない場合とシフトのある（配列同士をずらした)場合に関わらず所定値以上のミスマッチを含み、ミスハイブリダィゼーシヨンを回避することができるば力りでなぐ集合 S1中の他の（それ自体を除く）各オリゴヌクレオチド配列の相補配列である P^e配列との間、すなわち、 P配列における Aを T、 Τを Α、 Gを C、 Cを Gにそれぞれ置換し、 5'と 3'の向きを逆にした P^e配列との間に、シフトのない場合とシフトのある場合に関わらず所定値以上のミスマッチを含み、ミスノ、イブリダイゼーシヨンを回避することや、集合 S1中の各オリゴヌクレオチド配列を連結したォリゴヌクレオチド配列、すなわち、各 P配列同士の連結配列、各 PC配列同士の連結配列、各 P配列と PC配列との連結配列、各 PC配列と各 P配列との連結配列等との間に、所定値以上のミスマッチを含み、ミスハイブリダィゼーシヨンを回避することができる。ここで、ミスマッチとは、ハイブリダィズした場合の相補塩基以外との対合をいい、所定値以上のミスマッチとしては、ミスハイブリダィゼーシヨンを回避することができるミスマッチ数であれば特に制限されないが、好ましくはオリゴヌクレオチド配列の所定の長さ n (nは 6以上の整数)の 1Z5個以上、より好ましくは 1/4個以上、特に好ましくは 1Z3個以上のミスマッチを挙げることができる。

[0032] また、上記集合 S1を構成するオリゴヌクレオチド配列としては、特定の部分配列の出現個所を容易に特定できる配列集合として操作しうることが好まし、。かかる特定の部分配列としては、制限酵素認識部位や、 RNAのポリ A部分、翻訳開始コドンである ATG、ストップコドンである TAA, TAG, TGA等を初めとする発現シグナル配列や、転写因子の認識するコンセンサス配列 GCCAATCT, ATGCAAATや、抗体の可変ドメインをコードする塩基配列などの任意の DNA配列シグナルを例示することができる。

[0033] 上述のオリゴヌクレオチド配列の集合 S 1は、通常、 2段階で設計できる。最初の段階は、ノ、ミング距離を用いた GCテンプレートの設計段階、次の段階は、設計された GCテンプレートが表現するオリゴヌクレオチド配列の集合の中から、誤り訂正符号の理論を利用して、目的とする本発明のオリゴヌクレオチド配列の集合 S 1を設計する段階である。最初の段階で、配列の各ポジションが [GC]か [AT]かを決定する。このポジシヨンは 0と 1からなる GCテンプレート； b b - - -b (b≡{0, 1 } )で表現され、 1は [AT

1 2 i i

] , 0は [GC]、又は 1は [GC] , 0は [AT]を意味する。このため、長さ Lの GCテンプレートで、通りでなく 2^通りの配列を表現することになる。次の段階で、 GCテンプレートが 1の部位は [AT] , 0の部位は [GC]、（又はその逆の組み合わせ）の塩基へ具体的に置換することにより塩基配列が決定される。

[0034] 上記ノ、ミング距離は、配列間の類似度の尺度として用いられる。例えば、 2つの文字列 x = x X · χと y=y y - --yのハミング距離は、 x≠yとなるインデクス iの数と定義

1 2 n 1 2 n i i

される。また、 DNA配列間のミスノ、イブリダィゼーシヨンは、配列がシフトした (ずれた )状態でも起こりうるから、配列がシフトした場合のノ、ミング距離も考慮する必要がある。シフトはどちらか一方の配列が他方に比べて長い場合に生じることであるから、例えば、 I X I く I y Iとすると、 2つの文字列間のハミング距離は、 Xと、長さ I X Iの y 中に含まれる（ I y I - I X I + 1)個の部分配列それぞれとのノ、ミング距離の最小値とすることができる。この最小値で表されるノ、ミング距離を H (x, y)で表す。

[0035] 次に、 GCテンプレート tと、該 GCテンプレート t同士の連結配列， GCテンプレート t の逆配列 t^R同士の連結配列， GCテンプレート tと逆配列 t^Rの連結配列とのハミング距離を求めるために GCテンプレート tに対する関数 MD (minimum distanceの略）を考える。上記 GCテンプレート tの逆配列 t^Rは、 GCテンプレート tのビット列を逆向きに並ベた配列を意味する。 GCテンプレート tと、連結配列における両外側の配列となる G Cテンプレート tやその逆配列 t^Rとのノ、ミング距離は既に求められているから、連結配列に対して GCテンプレート tをシフトさせハミング距離の最小値を求める場合、連結配列の両端の一文字ずつを取り除、た配列につ、て検討すればょ、。 MD (t)の式には記号〔〕を用いると便利である。記号〔〕は〔s s s "'s s ] =s - --s 、すなわち両

1 2 3 m-1 m 2 m-1

端の一文字ずつを取り除いた配列を意味する。そうすると、 GCテンプレート tと連結配列とのノ、ミング距離の最小値 MD (t)は次式で表される。

MD (t) =min{H (t, t^R) , H (t, 〔tt〕）， H (t, 〔tt^R〕）， H (t, 〔t^Rt〕）， H (t, [tV] ) } [0036] したがって、ある GCテンプレート tに対して MD (t) =k(k≥0)の場合、連結配列に対して GCテンプレート tをシフトさせた場合、連結配列の両端の一文字ずつを取り除いた配列〕，〔tt^R〕，〔t^Rt〕，〔tY〕に対して、その連結部分を含め、少なくとも kのハミング距離が保証される。図 1に、 GCテンプレート t= 110100の場合に MD (t) = 2 となることが示されている。この場合、逆配列 t^R=001011, [tt] = 1010011010, 〔 tt^R] = 1010000101, 〔t^Rt〕 =0101111010, 〔t^Rt^R〕 =0101100101となり、図 1には各ノ、ミング距離が 2の場合が示されている。図 1からもわ力るように、 GCテンプレート t= 110100は、どのようにシフトしてもノ、ミング距離を 2より小さくできないので、 MD (t) = 2となる。

[0037] このように、上記 GCテンプレートの設計方法は、上記オリゴヌクレオチド配列の集合 S1を作製するための最初の段階で用いられる。かかる GCテンプレートの設計方法としては、上述の説明からもわ力るように、所定の長さ nのオリゴヌクレオチド配列を、その各ポジションが [GC]あるいは [AT]であることを意味する、 0と 1力もなるビット列（GCテンプレート)で表わした場合、各 GCテンプレート間のノ、ミング距離、各 GC テンプレートの逆配列との間のハミング距離、これらをシフトした配列との間のハミング距離、並びに、各 GCテンプレート同士、各 GCテンプレートの逆配列同士、及び各 GCテンプレートとその逆配列を連結した配列との間のハミング距離 MD (t)力いずれも所定値 k以上になる GCテンプレートを選択する方法であれば特に制限されるものではないが、 GCテンプレートの長さ Lは 6以上、好ましくは 6— 100、より好ましくは 6— 32、特に好ましくは分子生物学実験でよく用いられる 20前後であり、 5以下の場合は所望のハミング距離を有するものが得られな、。力かる長さ Lを有する GCテンプレートを用いると、相当する長さ nのオリゴヌクレオチド配列の集合 S1を得ることができる。また、所定値 kとしては、力かる GCテンプレートから作製されるオリゴヌクレオチド配列力ミスノ、イブリダィゼーシヨンを回避することができる本発明のオリゴヌクレオチド配列となる値であれば特に制限されないが、好ましくは GCテンプレートの長さ Lの 1 Z5以上、より好ましくは 1Z4以上、特に好ましくは 1Z3以上の値を挙げることができる。

[0038] 一般に、長さ Lを大きくした場合や、 MD値 (k値)を下げた場合はより多くの GCテンプレートが存在することになる力所定の長さで最も大きい k値 (MD値）を有する GC テンプレートは特に重要である。長さ L = 6— 32で最も大きい k値 (MD値）を有する G Cテンプレートとしては、長さ L=6— 10のとき所定値 k= 2、長さ L= 11一 15のとき所定値 k=4、長さ L= 16— 18のとき所定値 k=6、長さ L= 19のとき所定値 k= 7、長さ L = 20— 22, 24のとき所定値 k=8、長さ L = 23, 25のとき所定値 k= 9、長さ L = 26 , 27のとき所定値 k= 10、長さ L= 28, 29のとき所定値 k= l l、長さ L= 30— 32のとき所定値 k= 12の GCテンプレートである。上記の長さ L = 6— 32の GCテンプレートにおける所定値 kの最大値と、その最大値を有する GCテンプレート数と、具体例を [ 表 1]に示す。また、特定の MD値 (k値)を満たす最短の GCテンプレートを [表 2]に示す。さらに、長さ L= 11一 27の GCテンプレートにおける具体例を [表 3]に、長さ L = 28— 30の GCテンプレートにおける具体例を [表 4]に示す。なお、 [表 2]においては、 01の反転又は逆配列が等しくなる場合を省いて列挙されており、 [表 3]及び [表 4]においては、サイクリックシフト（cyclic shift)して同一になる GCテンプレートを省いた数が「数 (item)」として示されて、る。

[0039] [表 1]

O

亍

[f 濯]

uzLoo/toozdr/iJd ει^οι請 OAV

[0043] 上記 [表 1]一 [表 4]等に列挙されている GCテンプレート配列は、全て 0の配列から全て 1の配列までの全パターンを網羅的に探索することにより、当業者であれば選び出すことができる。しかし、長さ Lの GCテンプレートを見つけるのに 2^L個のパターン全てを探す必要はなぐビット 01を反転させた GCテンプレートは同じ性質を持つことから、 GCテンプレートに含まれるビット 1が L/2以下のものを考えればよい。また、ミスマッチ個数の制約から、最小距離が dの場合、少なくとも（L sqrt (L²— 2dL) ) Z2個のビット 1をもつことが示される（sqrtは平方根)。このような制約を追カ卩的に用いることで、 GCテンプレートを効率よく求めることができる。さらに、 GCテンプレートの設計に際して、 GCテンプレートから作製したオリゴヌクレオチド配列の集合 S1が、前述した制限酵素認識部位等の特定の部分配列を含む、又は特定の部分配列を含まないォリゴヌクレオチド配列の集合となるように設計することは、網羅的探索の空間を狭めることに対応するため、より容易に設計することができる。

[0044] 上記オリゴヌクレオチド配列の集合 S1は、上記ハミング距離を用いた GCテンプレートの設計段階に続ぐ設計された GCテンプレートが表現するオリゴヌクレオチド配列の集合の中から、誤り訂正符号の理論を利用する段階、すなわち、誤り訂正符号の符号語と組み合わせることにより設計することができる。上記誤り訂正符号の符号語としては、公知の誤り訂正符号の符号語であればどのようなものでもよぐノ、ミング符号、 BCH符号、最大長系列符号、 Golay符号、 ReedMuller符号、 ReedSolomon符号、 Hadamard符号、 Preparata符号、リバーシブル符号、重み一定符号、非線型符号等を具体的に例示することができる。

[0045] 誤り訂正符号の理論を用いる動機は、シフトの無!、場合に相補配列との間でミスマツチを保証することにある。従って、逆配列を考慮する集合 S1については、必ずしも誤り訂正符号を用いる必要はない。誤り訂正符号は任意の符号語間にミスマッチの数が一定以上存在するような符号語の集合であるが、集合 S1とその逆配列の集合がミスハイブリダィゼーシヨンを防ぐようにする場合は、任意の符号語間に（ミスマッチではなく）マッチの数が一定以上存在するような符号語の集合を適用するだけでよい。上記オリゴヌクレオチド配列の集合 S1は、 GCテンプレートの情報とともに符号語の情報が配列に反映される。従って、相補配列との間で k個のミスマッチを保証するには、ノ、ミング距離 (ミスマッチの数) k以上を保つ誤り訂正符号を用いればよぐ逆配列との間で k個のミスマッチを保証するには、マッチの数 k以上を保つ符号を用いればよい。

[0046] 誤り訂正符号の理論では、与えられた情報ビットに検査ビットと呼ばれる誤り検出、訂正用の冗長なビットを付け加え、任意の符号語間のノヽミング距離を一定値以上にするような符号が開発されている。この符号語間のハミング距離の最小値は最小距離と呼ばれる。符号理論の目標は、最小距離を大きく保ちつつ符号語数が多いものを設計することにあるため、本発明の目的にかなう符号が多く存在する。例えば符号長 23で最小距離が 7の Golay符号は 4096語ある。この符号を用いれば長さ 23の GC テンプレート（MD値は 9まで）一つに対し、 4096個のオリゴヌクレオチドを設計可能である。

[0047] 汎用の DNA符号には、更に厳しい制約をみたすオリゴヌクレオチド配列を用意するため、上記の集合 S1で利用するテンプレートを選択する際に長さ mのサブワード制約もあわせて考慮せねばならない。力かる集合を選定する際には、集合 S1を生成するテンプレート間で 01のビット列が m個以上連続することのないようにし、また、誤り訂正符号語からは、符号語間の距離を最大クリーク問題への自明なトランスフォーメーシヨンを使うことで、符号語間でビット列が m個以上連続一致しないように設計する。このような長さ mのサブワード制約における m値としては、ミスマッチを十分に分散させることができる点で、 10以下の値であることが好ましい。例えば Lが 12のとき、 m値として 7を挙げることができる。

[0048] 例えば、集合 S1におけるテンプレートとして、 MD (t) =4、長さ 7のサブワード制約を有する長さ L= 12の 000110011101と 001010111100 (上段）に、最 /J、距離 4、長さ 7のサブワード制約を有する長さ L = 12の非線型符号の符号語として、 001110 010000、 001001010100、 000000000000、 010001110101、 1110100110 00 (下段）を組み合わせると、得られる塩基配列はいかなる連結、シフトに対しても、お互いに最低 4ミスマッチを含み、ミスマッチを起こさな!/、塩基配列が 7塩基以上連続することがない。例えば、 00を A, 01を T, 10を G, 11を Cにすると、 GC含量が 1/2 となる [表 5]に示される 12塩基力もなる 10個の DNA配列の集合が与えられる。また , OO^G, 01を C, 10を A, 11を Tにすると、 GC含量が 1/2である [表 6]に示される 12塩基力もなる 10個の DNA配列の集合が与えられる。

[0049] [表 5]

0 0 0 1 1 0 0 1 1 1 0 1 0 0 0 1 1 0 0 1 1 1 0 1 0 0 0 1 0 0 0 0 1 1 1 0 0 1 0 0 0 0 0 0 1 0 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0

A A T C C A A C G T A G A A T C G T A G C C A G A A A G G A A

1 1 1 0 1 0 0 0 1 7 0 0 1 1 1 0 1 0 0 0 1 〗 0 0 1 1 1 0 1 0 0 0 0 0 0 1 0 0 0 1 1 1 0 1 0 1 1 1 1 0 1 0 0 1 1 0 0 0

G G G A C» A T A G G T T C G C A C T T T G C A A C C G A G

0 0 1 0 1 0 1 1 1 1 0 0 O O 1 0 1 0 1 1 1 1 0 0 0 0 1 0 1 0 1 0 0 1 1 1 0 0 1 0 0 0 0 0 0 1 0 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0 A A C T C A G C G T A A A A C A G T G C G C A A A A G A G A G

1 1 1 0 0 0 0 1 0 1 0 1 1 1 1： < o0 0 0 0 1 0 1 0 1 1 1 1 0 0 0 0 0 0 0 0 1 0 0 0 1 1 1 0 1 0： < o 1—1 1 1 1 0 1 0 0 1 1 0 0 0 G G A A A T G A G T C C G C A T T T C A C A G C C G A A

[0050] [表 6]

D o o ;

O o o：

0 0 0 1 1 0 0 1 1 1 0 1 0 0 1 1 1 0 1 0 0 0 1 1 0 0

0 0 1 1 1 0 0 1 0 0 0 0 1 0 1 0 1 0 0 0 0 0 0 0 0 0

G G C T T (·; G T A A G A C G T A T G A G G G A A G G

1 1 1 0 1 0 0 0 1 1 0 0 1 1 1 0 1 0 0 0 1 1 0 0 1 1 1 0 1 0 0 0 0 0 0 1 0 0 0 1 1 1 0 1 0 1 1 1 1 0 1 0 0 1 1 0 0 0 A A A G A G C G A A C C T A丁 '':； T C C C A T G G T T A G A

0 0 1 0 1 0 1 1 1 1 0 0 0 0 1 0 1 0 1 0 0 1 0 1 0 1

0 0 1 1 1 0 0 1 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0

G G T C T G A T A A G G G G T G A C A G G A G A G A

1 1 1 0 0 0 0 1 0 1 0 1 1 1 1 0 0 0 0 1 0 1 0 1 1 1 1 0 0 0 0 0 0 0 0 1 0 0 0 1 1 1 0 1 0 1 1 1 1 0 1 0 0 1 1 0 0 0 A A A G G G C A G A C T T A T G C C C T G T C A T T A G G

[0051] 次に、本発明の DNA符号は、 DNAの遺伝情報を含まなヽ任意の非コード領域に、 2進符号などのコンピュータで解読可能なコード体系を用いて任意の情報を書き込むことができる、符号ィ匕された塩基配列集合力もなるものであれば特に制限されるものではないが、 GC含量だけでなく GC塩基の並び方が揃い、生物学実験で用いられる最近接塩基対法により計算される融解温度が所定の範囲内に揃うように符号化された塩基配列の集合力なる DNA符号や、数塩基のスキップまたは置換等の誤りの検出が容易な符号化された塩基配列の集合カゝらなる DNA符号、符号化された塩基配列の読み枠のずれや複数塩基の置換等の誤りの存在下でも高い信頼度で解読できる誤り訂正機能を備えた DNA符号、符号化された塩基配列同士で安定な二次構造を形成せず、符号語をどのように連結してもプライマーによる増幅を妨げるような物理的阻害が生じない DNA符号、天然の DNAと容易に区別しうる、文字に対応する符号化された塩基配列の集合力なる DNA符号、塩基の並びが制限され、特定の部分配列の出現を簡単に検証することができる DNA符号が好ましぐ力かる DNA符号は、前記本発明の DNA符号の設計方法により得ることができる。そして具体例として、符号語をその相補配列を含めていかように連結しても符号語間で少なくとも 4つの位置でミスマッチ含み、塩基の連続一致がたかだか 6つしかな、ためにミスハイブリダィゼーシヨンを防ぎ、さらに最近接塩基対概算における同じ融解温度を保持する、長さ 12の符号語 112語からなる DNA符号を挙げることができる。

[0052] また、本発明による DNAを用いた任意の情報の書込み法としては、アルファベット等の文字に対応する塩基配列の集合からなる上記本発明の DNA符号を、 DNAの遺伝情報を含まないイントロン、 5'—非コード領域、又は 3'—非コード領域等の任意の非コード領域に埋め込む方法であれば特に制限されるものではなぐ本発明の D

NA符号が埋め込まれる DNAとしては、プラスミドベクター DNAやウィルスベクター DNA等のベクター DNA、動植物細胞や微生物細胞のゲノム DNAを例示することができる。本発明の DNAへの任意の情報の書込み方法により、 DNAの遺伝情報を含まない任意の非コード領域に、作成者を識別することができるアルファベット等の文字に対応する DNA符号を埋め込むことにより、 DNA署名を行うことができる。本発明はまた、本発明の DNA符号力 ¾NAの遺伝情報を含まな、任意の非コード領域に埋め込まれた、作成者を識別することができる標識化ベクターや標識化細胞に関する。

[0053] 基板上に複数種類の本発明の DNA符号カゝらなるオリゴヌクレオチド鎖を高密度に固定ィ匕しても、配列同士が互いにミスノ、イブリダィゼーシヨンを起こしにくいため、本発明の符号ィ匕された塩基配列の集合は DNA又は RNAチップに、あるいは DNA又は RNAタグとして有利に用いることができる。また、相補配列ともミスハイブリダィゼーシヨンを起こしにくいため、本発明の符号ィ匕された塩基配列の集合は PCR等におけるプライマーとしても有用である。さらに、本発明の符号化された塩基配列の集合は、互いにミスハイブリダィゼーシヨンを起こしにくいことにカ卩えて、制限酵素認識部位等の特定の配列部分を有しな、ことを容易に証明できることから、論理式やグラフ構造など様々な記号処理演算系を書き込んだ DNA配列を人工的に合成し、その配列を分子生物学実験のプロトコールに従って切り貼りすることにより、実験の最後に得られる配列が DNA計算の「計算結果」となる DNA計算システムに有利に用いることができる。

実施例

[0054] 以下、実施例により本発明をより具体的に説明するが、本発明の技術的範囲はこれらの例示に限定されるものではない。

[0055] (DNAアスキー符号）

DNAを用いて ASCIIコード（128文字）の設計を想定した場合、アルファベット等の各文字に対し、 1つの DNA符号語が使用される。少なくとも 128符号を持つ長さの短い誤り訂正符号に、非線型（nonlinear) (12, 144, 4)符号がある（Sloane, N. J. A. and Mac Williams, F. J.: The Theory of Error-Correcting Codes. Elsevier, 1977J。上記（12, 144, 4)の表示は、最小距離 4を持つ 144符号語の長さ 12のコード（1つの誤り修正、 2つの誤り検出）を意味する。 144語の中から、最大クリーク問題のソルバー（http：〃 rtm.science.unitn.it/intertools/)を使用することにより、長さ 6、長さ 7及び長さ 8のサブワード制約をそれぞれ満たす、 32、 56及び 104の語を選択することができる。（12, 144, 4)で表されるコードは表 7に示され、力かる 144の符号語の内でダガーが付されて!ヽるものは、長さ 7のサブワード制約を満たす 56の符号語である

[0056] [表 7] ΙΙϋΟΙΟΙΙΧΚΚΚ) 】顧 "οιοοοο' iinoonooi io noooooonioi 101100100000' 10100100l000^t 101ί)00010001 ioiooofloono^r 】ooimoooiH)t 100100011000 100 I 00000011 100011000010 1000蘭 0100 100010001001 1D0000110010 1麵鳴 1100' ()11100000010 οποιηοοοιοη 011000110000' 011000001001 010110001000 010100100100 010100010001

()讓蘭) 001 0100KXJ10010 mo on HKX) mcxmiooono oinonoio()oii^t 010000011100 001110010000* 001101000001¹ 001細 101000， Q(}1010000011 0010011000L0 οοιοοιοιοιοο' OOlDOO!OOtOl 001000011010' ooonoLOOoio O00UO (蘭 01 0001011 lOOOO¹

0001議 01010 nnoiooioiooi^f 000100010110 000011100100 000011011000 OOOOlOllOOOl¹ οοουιοοοιπο 000001010011 WKWOlOOHOl' oonoiomn 001111110101

0l(X)11011Lll^f 議 11011ひ m^f ΟΙΟΠΙΙΟΙΙΙΟ' ΟΠ010Π10Π t onoiinnoo omooniioi' OlllOUOlOtl 011110011110' looioimoii 100111001111' lOOlllllOlLO lOLOOlllOUl 10101101)011 101.01 L101H0 101100111110 101101101101 101U0010111. VOll 10111001 LOllllOlllOO' 101111100011 Hooioimio' ii(K)iiiinovi^f 110101010111 union Π100¹ 110110011101 uonnioioii' Il011l011010^f 11011110010L lUOOlOilLOl a looi 11 loio 111010110101 nioiimono* 111011101001 111100011011 111L001001L1 ΙΙΗΟΙΟΟΠΙθ' 1 LilOlllOOOl 111110101100 1ΠΠ0110Ο10¹ 0OO0(X)0{)flO0O^f liuimu¹0000001.11111 00001110101 if 000101100111 0001100】 ιοιΌ

(KwnoiuioD 001001111901 001ϋΙ(Χ)Π10Ι otnomi loiio oon trail oi ]^f ΟΟΠ11000110¹

0I00011I0101 οιοοιοιοποι' 010100001111^f 010100111010 010111010應 011000010111 11000I0IU0 on ιοιοποοο' 011110100001 mi 11 rooooo 1Π 100010100' liitnooiiooot 11麵 100100 11.讓 000011， 110110000110 110101100010 110101001001 ιιοουοοιιοο 110000111 01 ^r 101110001010* lonoioinoiof 10101111000O 1010110OOt0l^f loomioi議 100111010001 100100110101 ^f 1000101001 n' 100001011110

[0057] 長さが 12で最小距離 4の GCテンプレートは 74個あり、これらのうち、逆配列及び 0 1反転したものを同一とみなした 31のテンプレートを表 8に示す。サブワード制約のもとで、 128の符号語を 1つのテンプレートから得ることはできないため、テンプレートの対を選択する。かかる 2対のテンプレートは、テンプレートどうしをいかように連結しても、 4以上のミスマッチを含み、長さ 7以上の部分配列を共有しない。そのような 8糸且のテンプレート対を表 9に示す。このテンプレート対から生成される DNA符号語は、連結された場合に GC塩基の分布が均等になる。この条件の下では、これらのテンプレートに由来する DNA符号は、近い融解温度を持つ (New Generation Computing 20, 3, 263-277, 2002) ₀

[0058] [表 8] loioni looooo oi uxioux)oo lonoi umoo 101100001000 omouoiooo πποπιοιοαο

001010011000101110011000.111001-011扁 01011011100000110讓) 10001110110010Π 00111101010000111011010011101000! 10[) nOOlOlOllOO 101111000010111001100010 010111100010 !IIIOOOIOOK) 01100000101U ΟΙΙϋΙΟΙΟΟΠΟ 10000111011.0 lOOlOOOllllQ 111010010001 110110010001 100110101001 101110000101 111000100101 〗10101000011 1101 (丽) 0011

[0059] [表 9] 00011001 1 101 and OOI OIO U I IOO 000] 10011 101 and 001111010100 001010111画 nd 101110011000 001 111010100 and 10111001 1000 010001100Π 1 and 1 10000101011 0100011001 i l and 11010腦 0011 1 1000010101 1 and 11 1001 100010 1 10101000011 and Π 1001100010

[0060] 表 9の 8糸且のテンプレート対のうちの 1対のテンプレートを、表 7の長さ 7のサブワード制約を満たす 56の符号語を組み合わせることによって、以下の条件を満たす 112符号語を得ることができる（その内の 10符号語を表 5や表 6に示す)。

符号語とその相補配列の間で、少なくとも 4つの位置でミスマッチを含む。かかる 4つのミスマッチは、それら自体及びそれらの相補配列（指数 4の comma-freeness)とのシフト及び連結の下で保証される。

- 、かなるシフト及び連鎖にぉ、ても、長さ 7以上の部分配列を共有しな、。

全ての符号は、最近接塩基対概算における融解温度が近い。

全ての符号が 2つのテンプレートのみに由来するため、特定の部分配列の出現を簡単に突き止めることができる。また、特定の部分配列を回避することも簡単である。

[0061] こうして設計できる符号語数は 112であり、 128の ASCII文字を満たしていない。しかし、 ASCII文字においていくつかの文字は使用されていない。例えば、 HTML文字において & # 14から & # 31までの値は使用されていない。従って、力かる 112符号語は、 DNAの ASCII文字を表現するのに十分である。この妥協は 128符号を得るために制約を緩めるよりは好ま U、。

[0062] DNAを用いた情報記述法の現状にっヽて検討し、 DNA符号を構成する際の必要性及び問題について説明した。本発明の DNA符号の設計方法により、長さ 12の 112の DNA符号語及び comma-free指数 4を提供することができる。本発明の DNA 符号は相補鎖を含む符号間の任意の連鎖を考慮しており、力かる DNA符号は現在まで知られていない。

図面の簡単な説明

[0063] [図 1]本発明の GCテンプレート t= 110100を用いた場合、連結配列に対して GCテンプレート tをどのようにシフトさせても、ハミング距離の最小値 MD (t) = 2となることを示す図である。

Claims

請求の範囲

[1] 所定の長さ n (nは 6以上の整数）のオリゴヌクレオチド配列を、その各ポジションが G 又は C ( [GC])あるいは A又は T( [AT])であることを意味する、 0と 1からなる所定の長さ L (Lは 6以上の整数)のビット列（GCテンプレート）で表わした場合、各 GCテンプレート間のハミング距離、各 GCテンプレートの逆配列との間のハミング距離、これらをシフトした配列との間のノ、ミング距離、並びに、各 GCテンプレート同士、各 GCテンプレートの逆配列同士、及び各 GCテンプレートとその逆配列を連結した配列との間のハミング距離が、いずれも所定値 k以上になる GCテンプレートを選択し、かかる選択された GCテンプレートの集合から、長さ mのサブワード制約を有する集合をテンプレートとして選定し、同じく長さ mのサブワード制約を有する所定の誤り訂正符号の符号語と組み合わせることによりオリゴヌクレオチド配列の集合 S1を作成することを特徴とする DNA符号の設計方法。

[2] 所定の長さ n (nは 6以上の整数）のオリゴヌクレオチド配列を、その各ポジションが A 又は G ( [AG] )あるいは T又は C ( [CT] )であることを意味する、 0と 1からなる所定の長さ L (Lは 6以上の整数)のビット列 (AGテンプレート）で表わした場合、各 AGテンプレート間のハミング距離、各 AGテンプレートの逆反転配列との間のハミング距離、これらをシフトした配列との間のハミング距離、並びに、各 AGテンプレート同士、各 A Gテンプレートの逆反転配列同士、及び各 AGテンプレートとその逆反転配列を連結した配列との間のノ、ミング距離力 V、ずれも所定値 k以上になる AGテンプレートを選択し、力かる選択された AGテンプレートの集合から、長さ mのサブワード制約を有する集合をテンプレートとして選定し、同じく長さ mのサブワード制約を有する所定の誤り訂正符号の符号語と組み合わせることによりオリゴヌクレオチド配列の集合 S1を作成することを特徴とする DNA符号の設計方法。

[3] ノ、ミング距離 kを保つオリゴヌクレオチド配列の集合 S1が、各配列同士の間、他の各配列の相補配列との間、これらをシフトした配列との間、並びに、前記各配列同士、前記相補配列同士、及び前記各配列と前記相補配列を連結した配列との間に、所定値以上のミスマッチを含み、前記各配列同士の間、他の各配列の相補配列との間、これらをシフトした配列との間、並びに、前記各配列同士、前記相補配列同士、及び前記各配列と前記相補配列を連結した配列との間でのミスハイブリダィゼーシヨンを回避することができ、また情報の復号を容易にすることを特徴とする請求項 1又は 2 記載の DNA符号の設計方法。

[4] 所定の長さ nのオリゴヌクレオチド配列の集合 S1が、 32以下の長さのオリゴヌクレオチド配列の集合 S1であることを特徴とする請求項 1一 3のいずれか記載の DNA符号の設計方法。

[5] ノ、ミング距離の所定値 k力 Lの 1Z4以上の値であることを特徴とする請求項 1一 4 の!、ずれか記載の DNA符号の設計方法。

[6] 長さ mのサブワード制約力 Lの 1Z2以上の値であることを特徴とする請求項 1一 5 の!、ずれか記載の DNA符号の設計方法。

[7] オリゴヌクレオチド配列の集合 S1が、特定の部分配列を含む、又は特定の部分配列を含まな、オリゴヌクレオチド配列の集合であることを特徴とする請求項 1一 6のヽずれか記載の DNA符号の設計方法。

[8] 所定の誤り訂正符号の符号語が、ハミング符号、 BCH符号、最大長系列符号、

Golay符号、 ReedMuller符号、 ReedSolomon符号、 Hadamard符号、 Preparata符号、リバーシブル符号、重み一定符号、非線型符号から選ばれる符号語であることを特徴とする請求項 1一 7のいずれか記載の DNA符号の設計方法。

[9] 記号単位に対応する塩基配列の集合が、天然の DNAと異なる配列を有し、かつ一定の [GC] [AT]または [CT] [AG]の並びを有することを特徴とする請求項 1一 8 の!、ずれか記載の DNA符号の設計方法。

[10] DNAの遺伝情報を含まない任意の非コード領域に、コンピュータで解読可能なコード体系を用いて任意の情報を書き込むことができる、記号単位に対応する塩基配列の集合カゝらなることを特徴とする DNA符号。

[11] 一定の [GC] [AT]または [CT] [AG]の並びを有し、融解温度が所定の範囲内に揃うように設計された塩基配列の集合力もなることを特徴とする請求項 10記載の DN

A符号。

[12] 数塩基のスキップまたは置換等の誤りの検出が容易な塩基配列の集合力なることを特徴とする請求項 10又は 11記載の DNA符号。

[13] 記号単位に対応する塩基配列の読み枠のずれや、複数塩基の置換等の誤りの存在下でも高ヽ信頼度で解読 (復号)できる誤り訂正機能を備えてヽることを特徴とする請求項 10— 12のいずれか記載の DNA符号。

[14] 記号単位に対応する塩基配列同士で安定な二次構造を形成せず、文字をどのように連結してもプライマーによる増幅を妨げるような物理的阻害が生じないことを特徴とする請求項 10— 13のいずれか記載の DNA符号。

[15] 天然の DNAと容易に区別しうる、記号単位に対応する塩基配列の集合からなることを特徴とする請求項 10— 14のいずれか記載の DNA符号。

[16] 塩基配列における塩基並び方が制限され、特定の部分配列が出現するかどうかを簡単に検証することができることを特徴とする請求項 10— 15のいずれか記載の DN

A符号。

[17] いかなるハイブリダィゼーシヨンでも少なくとも 4つの位置でミスマッチを示し、連続的なサブシーケンスが高々 6つしかなぐ最近接塩基対概算において同じ融解温度を保持する、長さ 12、 112語の符号語からなることを特徴とする請求項 10— 16のいずれか記載の DNA符号。

[18] 請求項 1一 9のいずれか記載の設計方法により得ることができることを特徴とする請求項 10— 17のいずれか記載の DNA符号。

[19] 請求項 10— 18のいずれか記載の DNA符号を、 DNAの遺伝情報を含まない任意の非コード領域に埋め込むことを特徴とする DNAへの任意の情報の書込み方法。

[20] DNAがベクター DNAであることを特徴とする請求項 19記載の DNAへの任意の情報の書込み方法。

[21] DNAがゲノム DNAであることを特徴とする請求項 19記載の DNAへの任意の情報の書込み方法。

[22] DNA符号により、 DNAの作成者を識別することができることを特徴とする請求項 1 9一 21のいずれか記載の DNAへの任意の情報の書込み方法。

[23] 請求項 10— 18のいずれか記載の DNA符号力 DNAの遺伝情報を含まない任意の非コード領域に埋め込まれたことを特徴とする標識ィ匕ベクター。

[24] 請求項 10— 18のいずれか記載の DNA符号力 DNAの遺伝情報を含まない任意の非コード領域に埋め込まれたことを特徴とする標識化細胞。

[25] 請求項 10— 18のいずれか記載の DNA符号を有することを特徴とする DNAタグ ₍