KR20150037824A

KR20150037824A - 핵산을 이용하여 정보를 저장하는 방법

Info

Publication number: KR20150037824A
Application number: KR1020157000931A
Authority: KR
Inventors: 조지 엠. 처치
Original assignee: 프레지던트 앤드 펠로우즈 오브 하바드 칼리지
Priority date: 2012-07-19
Filing date: 2013-07-17
Publication date: 2015-04-08
Also published as: AU2013292709A1; JP2015533077A; IN2015DN01001A; US20240070422A1; US20190258909A1; US20160358055A1; CA2878042A1; AU2013292709B2; HK1210848A1; US12067434B2; CN104662544B; US20210241059A1; US9996778B2; US20200272872A1; CN108875312A; KR101743846B1; US11900191B2; US20150269313A1; US9384320B2; EP2875458A2

Abstract

본 발명은 하나 이상의 핵산을 이용하여 데이터를 저장하는 방법에 관한 것이다.

Description

핵산을 이용하여 정보를 저장하는 방법 {METHODS OF STORING INFORMATION USING NUCLEIC ACIDS}

관련 출원 데이터

본 출원은 2012년 7월 19일에 출원된 미국 가출원 번호 61/673,690 및 2012년 7월 26일에 출원된 미국 가출원 번호 61/676,081을 우선권 주장하며, 이들 가출원 각각은 모든 목적을 위해 그 전문이 본원에 참조로 포함된다.

정부 권리의 언급

본 발명은 미국 해군 연구소 N000141010144 하 정부 지원으로 만들어졌다. 정부는 본 발명에 대한 특정 권리를 갖고 있다.

분야

본 발명은 일반적으로 하나 이상의 핵산 서열을 이용하여 정보를 저장하는 방법에 관한 것이다.

우리의 디지털 경험 세계는 빠르게 성장하고 있다. 예를 들어, 정보의 1.8 제타바이트(zettabyte) (10²¹)가 2011년에 만들어지고 복제되었는데, 그 양은 2년 마다 배로 증가하였다 (문헌 1 ["Extracting Value from Chaos" (IDC, Framingham, MA 2011); world wide web site emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-ar.pdf] 참조). 아카이브 데이터 저장은 종종 하드 드라이브, 광학 매체, 및 자기 테이프의 형태인데, 이는 5 내지 30년의 권장 수명을 제공한다 (문헌 2 [J. Rothenberg, Scientific American 272, 42-47 (1995)] 참조). 디지털 정보가 지속적으로 축적됨에 따라, 더 높은 밀도와 보다 장기간 저장 솔루션이 필요하다. DNA는 정보 저장용 매체로서 많은 잠재적 이점을 지니고 있다 (문헌 3 [C. Bancroft, T. Bowler, B. Bloom, C. T. Clelland, Science 293, 1763-1765 (2001)] 참조). 일반적 디지털 정보를 DNA 내로 코딩하는 첫 번째 사례가 1988년에 35 비트(bit)였다 (문헌 7 [J. Davis, Art Journal 55, 70-74 (1996)] 참조). 최근의 연구는 데이터를 DNA (통상적으로 대문자로 제한됨)로 압축 및 부호 매김하는 것과 살아있는 세포에서의 그의 생존 능력을 다루고 있다 (문헌 3, 8 및 9 [C. Bancroft, T. Bowler, B. Bloom, C. T. Clelland, Science 293, 1763-1765 (2001)], [C. Gustafsson, Nature 458, 703 (2009)], 및 [D. G. Gibson et al., Science 329, 52-56 (2010)] 참조).

개요

본 개시내용의 실시양태는 정보 저장용 매체로서 뉴클레오티드를 포함한 핵산 서열(들)을 이용하는 방법에 관한 것이다. 통상의 뉴클레오티드는 A, C, G 및 T를 포함한다. 본 개시내용의 측면들은 차세대 서열분석 및 합성 기술을 사용하여 디지털 정보를 강력하고도 대규모로 판독 및 기입하는 방법에 관한 것이고, 이러한 방법의 한 예가 도 1A에 도식적으로 제공된다. 한 측면에 따르면, 텍스트 및/또는 이미지는 메가비트로 변환된다. 한 측면에 따르면, 메가비트로 변환된 텍스트 및/또는 이미지는 비트 스트림을 포함한다. 그 다음, 이러한 메가비트는 올리고뉴클레오티드로 코딩된다. 한 측면에 따르면, 올리고뉴클레오티드는 데이터 블록 서열을 포함한다. 한 측면에 따르면, 올리고뉴클레오티드는 비트 스트림 내의 데이터 블록의 위치를 특정하는 어드레스(address) 서열 (예컨대 바코드 서열)을 포함한다. 한 측면에 따르면, 올리고뉴클레오티드는 증폭 및 서열분석을 위해 이러한 올리고뉴클레오티드의 각 말단에 플랭킹(flanking) 공통 서열을 포함한다. 한 측면에 따르면, 올리고뉴클레오티드는 데이터 블록 서열, 비트 스트림 내의 데이터 블록의 위치를 특정하는 어드레스 서열 (예컨대 바코드 서열), 및 증폭 및 서열분석을 위한 올리고뉴클레오티드의 각 말단에의 플랭킹 공통 서열 중 하나 이상 또는 모두를 포함한다.

본 개시내용의 한 측면에 따르면, 염기 당 1 비트가 코딩된다. 이러한 측면에 따르면, 단일 메시지가 다수의 방식으로 코딩될 수 있는데, 즉 0의 경우에는 A 또는 C가 코딩되고 수 1의 경우에는 G 또는 T가 코딩된다. 따라서, 본 개시내용의 상기 측면은 극단적 GC 함량, 반복부 또는 2차 구조와 같이 판독이나 기입하기가 어려운 서열 특색은 회피한다.

한 측면에 따르면, 비트 스트림은 어드레스된 데이터 블록으로 분할된다. 이러한 측면에 따르면, 조립하기 어려운 긴 DNA 구축물은 피할 수 있다.

한 측면에 따르면, 각각의 개별적 올리고뉴클레오티드의 많은 사본이 합성되고, 저장되며, 서열분석된다. 합성 및 서열분석에 있어서의 오류가 거의 일치하지 않기 때문에, 각각의 분자 사본은 다른 사본의 오류를 수정한다.

한 측면에 따르면, 이러한 공정은 시험관내에서 수행된다. 이러한 측면에 따르면, 시험관내 접근법은 생체내 접근법의 클로닝 및 안정성 문제를 피한다.

한 측면에 따르면, 고 처리량의 차세대 기술을 DNA 합성과 서열분석 둘 다에 사용하여 다량의 정보를 코딩하고 해독할 수 있다.

한 측면에 따르면, 정보의 포맷을, 각각 상응하는 비트 바코드를 갖는 비트 스트림의 다수의 비트 서열로 변환시키는 단계, 다수의 비트 서열을, 코딩되는 염기 당 1 비트를 이용하여 다수의 상응하는 올리고뉴클레오티드 서열로 변환시키는 단계, 다수의 상응하는 올리고뉴클레오티드 서열을 합성하는 단계, 및 합성된 다수의 상응하는 올리고뉴클레오티드 서열을 저장하는 단계를 포함하는, 뉴클레오티드를 이용하여 정보를 저장하는 방법이 제공된다. 한 측면에 따르면, 올리고뉴클레오티드 서열은 데이터 블록 서열, 비트 스트림 내의 데이터 블록의 위치를 특정하는 어드레스 서열, 또는 증폭 및 서열분석을 위한 올리고뉴클레오티드의 각 말단에의 플랭킹 공통 서열 중 하나 이상 또는 모두를 포함한다.

한 측면에 따르면, 다수의 올리고뉴클레오티드 서열을 증폭시키는 단계, 증폭된 올리고뉴클레오티드 서열을 서열분석하는 단계, 올리고뉴클레오티드 서열을 비트 서열로 변환시키는 단계, 및 비트 서열을 정보의 포맷으로 변환시키는 단계를 포함하는, 정보의 포맷의 비트 서열을 코딩하는 다수의 합성된 올리고뉴클레오티드 서열로부터 정보의 포맷을 검색하는 방법이 제공된다. 한 측면에 따르면, 올리고뉴클레오티드 서열은 데이터 블록 서열, 비트 스트림 내의 데이터 블록의 위치를 특정하는 어드레스 서열, 또는 증폭 및 서열분석을 위한 올리고뉴클레오티드의 각 말단에의 플랭킹 공통 서열 중 하나 이상 또는 모두를 포함한다.

한 측면에 따르면, 다수의 올리고뉴클레오티드 서열을 증폭시키는 단계, 증폭된 올리고뉴클레오티드 서열을 서열분석하는 단계, 올리고뉴클레오티드 서열을 비트 서열로 변환시키는 단계, 비트 서열을 정보의 포맷으로 변환시키는 단계, 및 정보의 포맷을 시각화하는 단계를 포함하는, 정보의 포맷의 비트 서열을 코딩하는 다수의 합성된 올리고뉴클레오티드 서열로부터 정보의 포맷에 접근하는 방법이 제공된다. 한 측면에 따르면, 올리고뉴클레오티드 서열은 데이터 블록 서열, 비트 스트림 내의 데이터 블록의 위치를 특정하는 어드레스 서열, 또는 증폭 및 서열분석을 위한 올리고뉴클레오티드의 각 말단에의 플랭킹 공통 서열 중 하나 이상 또는 모두를 포함한다.

한 측면에 따르면, 정보의 포맷을 비트 스트림으로 변환시키는 단계, 비트 서열을 상응하는 올리고뉴클레오티드 서열로 코딩하는 단계, 올리고뉴클레오티드 서열을 합성하는 단계, 올리고뉴클레오티드 서열을 서열분석하는 단계, 올리고뉴클레오티드 서열을 비트 서열로 해독하는 단계, 비트 서열을 비트 스트림으로 조립하는 단계, 및 비트 스트림을 정보의 포맷으로 변환시키는 단계를 포함하는, 뉴클레오티드를 이용하여 정보를 저장하는 방법이 제공된다. 한 측면에 따르면, 올리고뉴클레오티드 서열은 데이터 블록 서열, 비트 스트림 내의 데이터 블록의 위치를 특정하는 어드레스 서열, 또는 증폭 및 서열분석을 위한 올리고뉴클레오티드의 각 말단에의 플랭킹 공통 서열 중 하나 이상 또는 모두를 포함한다.

정보의 제1 포맷을 제1 비트 스트림으로 변환시키는 단계, 제1 비트 서열을 상응하는 올리고뉴클레오티드 서열로 코딩하는 단계, 올리고뉴클레오티드 서열을 합성하는 단계, 올리고뉴클레오티드 서열을 서열분석하는 단계, 올리고뉴클레오티드 서열을 제2 비트 서열로 해독하는 단계, 제2 비트 서열을 제2 비트 스트림으로 조립하는 단계, 및 제2 비트 스트림을 정보의 제2 포맷으로 변환시키는 단계를 포함하는, 뉴클레오티드를 이용하여 정보를 저장하는 방법이 제공된다. 한 측면에 따르면, 올리고뉴클레오티드 서열은 데이터 블록 서열, 비트 스트림 내의 데이터 블록의 위치를 특정하는 어드레스 서열, 또는 증폭 및 서열분석을 위한 올리고뉴클레오티드의 각 말단에의 플랭킹 공통 서열 중 하나 이상 또는 모두를 포함한다.

특정 측면에 따르면, 정보는 DNA를 이용하여 (이러한 DNA의 밀도를 이용함) 저장한다. 특정 측면에 따르면, 이론적 최대에서, DNA는 나트륨 염 약 4 그램에서 뉴클레오티드 (nt)당 2 비트, 또는 1.8 제타바이트를 코딩할 수 있다 (문헌 4 [Information on materials and methods is available on Science Online] 참조). 특정 측면에 따르면, DNA의 밀리그램은 통상의 기술자에게 공지된 상업용 올리고 크기 및 서열분석 기술을 이용하여 달성가능하고 (48 비트 바코드 + 128 비트 페이로드), 100x 커버리지의 경우에는, 페타바이트(petabyte) (10¹⁵)를 달성할 수 있다. 이러한 양을 1536 웰 판에 저장하여 엑사바이트(exabyte)를 제공할 수 있는데, 이는 제타바이트 (8 x 10²¹ 비트)를 만드는 것 (한 변이 0.5 m 입방체)을 수천 개 갖고 있다. 저장된 데이터의 서브세트는 혼합체로 저장하고, 직교 (즉, 최소 교차-프라이밍) 플랭킹 프라이머를 사용함으로써 별개로 검색할 수 있다 (문헌 [Church GM, Kieffer-Higgins S (1988) Multiplex Sequencing]; 및 [Kosuri S, Eroshenko N, LeProust E, Super M, Way J, Li JB, Church GM (2010) A Scalable Gene Synthesis Platform Using High-Fidelity DNA Microchips. Nature Biotech. 28(12):1295-9] 참조).

특정 측면에 따르면, DNA는 저장을 위한 평면 표면을 필요로 하지 않고, 용이하게 보존되며, 밀레니아(millennia)에 따라 회수되어 왔다 (문헌 5 [J. Bonnet et al., Nucleic Acids Research 38, 1531-1546 (2010)] 및 문헌 6 [S. Paeaebo et al., M. A. Uyterlinde et al., Eds. Annual Review of Genetics 38, 645-679 (2004)] 참조). 특정 측면에 따르면, DNA의 필수 생물학적 역할은 자연 판독 및 기입 효소에 대한 접근을 제공해 주고, DNA가 예측가능한 미래에 대한 판독가능한 표준을 유지할 것인지를 확인해 준다.

본 발명의 전술된 특색 및 이점과 기타 특색 및 이점은 첨부된 도면과 연계해서 취한 다음 예시적 실시양태의 상세한 설명으로부터 보다 잘 이해될 것이다.
도 1(A)는 DNA 정보 저장의 도식도이다. 코딩된 html 북 내의 문장의 12 바이트 부분은 전반적인 북 내의 코딩된 비트의 위치를 결정하는 19 비트 바코드 (적색)를 갖는 비트 (청색)로 변환된다. 이어서, 코딩되는 염기 당 1 비트 (ac = 0; TG = 1)를 사용하여 비트 서열을 DNA로 코딩하는데, 이 동안에 또한, 4개 이상의 뉴클레오티드 반복부는 회피하고 GC 함량은 균형을 맞춘다. 전체 5.27 메가비트 html 북은 54,898개 올리고뉴클레오티드를 사용하였고, 합성하였으며, DNA 마이크로칩으로부터 용출시켰다. 증폭시킨 후 (모든 올리고뉴클레오티드에 대한 통상의 프라이머 서열은 도시되지 않음), 차세대 서열분석을 이용하여 올리고뉴클레오티드 라이브러리를 서열분석하였다. 정확한 바코드와 길이를 갖는 개별적 판독치를 대상으로 하여 컨센서스에 관해 스크리닝한 다음, 본래의 북을 수득하는 비트로 재변환시켰다. 통틀어서, 기입, 증폭 및 판독으로 인해 5.27 메가비트 중에서 10 비트 오류가 발생하였다. (B) 다른 기술과의 비교. 본 발명자들은 보고서 또는 상업용 단위로 코딩된 비트의 log₁₀에 의해 측정된 바와 같은 현재의 확장성과 비교하여 정보 밀도 (비트의 log₁₀/㎣)를 플롯팅하였다 (문헌 4 [Information on materials and methods is available on Science Online] 참조).
도 2는 설계된 라이브러리의 각 구성원에 대한 관찰 개수의 히스토그램이다.

상세한 설명

본 발명은 올리고머를 이용하여 정보를 저장하는 방법에 관한 것이다. 이러한 올리고머는 단량체로부터 형성될 수 있다. 예시적 단량체는 뉴클레오티드를 포함한다. 예시적 올리고머는 올리고뉴클레오티드를 포함한다. 한 측면에 따르면, 비트의 서열을 뉴클레오티드의 서열로 변환시키는, 정보를 코딩하는 방법이 제공되는데, 이러한 뉴클레오티드의 서열은 올리고뉴클레오티드이다. 한 측면에 따르면, 핵산 합성의 상업적으로 이용가능한 방법이 사용된다. 한 측면에 따르면, 핵산 증폭의 상업적으로 이용가능한 방법이 사용된다. 한 측면에 따르면, 핵산 서열분석의 상업적으로 이용가능한 방법이 사용된다.

한 측면에 따르면, 정보의 포맷의 부분(들), 예를 들어 정보의 html 포맷, 예컨대 텍스트 및/또는 이미지를 갖는 html 북을 비트, 즉 0과 1로 변환시키고, 비트 바코드를 가하여 비트 서열, 즉 통상적으로 이해되는 바와 같은 일련의 0과 1을 형성시킨다. 비트로 변환될 수 있는 정보의 다른 포맷은 통상의 기술자에게 공지되어 있다. 한 측면에 따르면, 비트로 변환될 정보의 html 포맷의 부분이 바이트 부분으로서 지칭될 수 있다. 비트 바코드는 정보의 전반적인 html 포맷 내의 코딩된 비트의 위치를 결정할 수 있다. 이어서, 이러한 비트 서열은 코딩되는 염기 당 1 비트 (ac=0; TG=1)를 이용하여 뉴클레오티드 서열, 즉 올리고뉴클레오티드 또는 DNA로 변환시켜 상응하는 코딩된 올리고뉴클레오티드 서열, 즉 상기 비트 서열에 상응하거나 이를 코딩하는 올리고뉴클레오티드 서열을 형성시킨다. 한 측면에 따르면, 4개 이상의 뉴클레오티드 반복부는 회피하고, GC 함량은 균형을 맞춘다. 정보의 일부 또는 전체 html 포맷에 상응하는 다수의 비트 서열을 만든다. 따라서, 그와 함께 만들어진 다수의 상응하는 코딩된 올리고뉴클레오티드 서열은 라이브러리로서 지칭될 수 있다. 코딩된 올리고뉴클레오티드 서열의 라이브러리는 정보의 html 포맷을 나타낸다. 이어서, 이러한 코딩된 올리고뉴클레오티드 서열은 통상의 기술자에게 공지된 방법을 이용하여, 예컨대 DNA 마이크로칩을 이용하여 합성한다. 그 다음, 합성된 올리고뉴클레오티드는 통상의 기술자에게 공지된 방법을 이용하여 증폭시켜 올리고뉴클레오티드의 라이브러리를 형성한다. 이어서, 이러한 올리고뉴클레오티드의 라이브러리는 통상의 기술자에게 공지된 방법, 예컨대 차세대 서열분석 방법을 이용하여 서열분석한다. 그 다음, 이와 같이 서열분석된 올리고뉴클레오티드는 정보의 html 포맷에 상응하는 비트 서열로 변환시킨다. 이러한 비트 서열은 통상의 기술자에게 공지된 방법을 이용하여 정보의 포맷으로 변환시킬 수 있다. 정보의 포맷은 통상의 기술자에게 공지된 방법 및 장치를 이용하여 시각화하거나 디스플레이할 수 있다.

본원에서 사용된 핵산 화학, 생화학, 유전학, 및 분자 생물학의 용어 및 부호는 그 분야에서의 표준 논문 및 텍스트의 것을 따른다 (예를 들어, 문헌 [Komberg and Baker, DNA Replication, Second Edition (W.H. Freeman, New York, 1992)]; [Lehninger, Biochemistry, Second Edition (Worth Publishers, New York, 1975)]; [Strachan and Read, Human Molecular Genetics, Second Edition (Wiley-Liss, New York, 1999)]; [Eckstein, editor, Oligonucleotides and Analogs: A Practical Approach (Oxford University Press, New York, 1991)]; [Gait, editor, Oligonucleotide Synthesis: A Practical Approach (IRL Press, Oxford, 1984)] 등 참조).

본원에 사용된 바와 같은, 용어 "비트"는 통상의 기술자에게 통상적인 그의 의미에 따르는 것으로 이해되어야 한다. 용어 "비트"는 "이진 숫자"의 단축형일 수 있으며, 컴퓨팅 및 통신 정보의 기본 용량을 지칭할 수 있다. "비트"는 1 또는 0 만을 표현한다. 이러한 표현은 두 상태 장치를 통하여 각종 시스템에서 구현될 수 있다.

본원에 사용된 바와 같은, 용어 "핵산 분자", "핵산 서열", "핵산 단편" 및 "올리고머"는 상호교환적으로 사용되고, 다양한 길이를 가질 수 있는 뉴클레오티드의 중합체성 형태 (데옥시리보뉴클레오티드 또는 리보뉴클레오티드, 또는 이들의 유사체 포함)를 포함하지만, 이에 제한되지 않는다. 본 발명에 사용하기 위한 올리고머는 완전히 설계되거나, 부분적으로 설계되거나 (즉, 부분적으로 무작위 처리되거나) 또는 완전히 무작위 처리될 수 있다. 본 발명의 특정 측면에서, 핵산 풀은 DNA의 단일 가닥 90량체를 함유한다.

일반적으로, "증폭시키는" 것은 프라이밍된 효소적 합성의 반복 라운드를 통하여 핵산 분자의 사본들을 생성시키는 것을 포함한다. "계내" 증폭은 증폭이 용액 중에서가 아니라 지지체 또는 비드 상에 위치한 주형 핵산 분자와 함께 이루어진다는 것을 표시하였다. 계내 증폭 방법은 미국 특허 번호 6,432,360에 기재되어 있다.

폴리머라제의 다양한 선택은 온도, 가닥 변위 및 교정과 같은 상이한 특성으로 존재한다. 증폭은 다음 문헌에 기재된 다중 변위 증폭 (MDA)과 같은 유사한 적응에서 그리고 상기 언급된 바와 같이 등온적일 수 있다 (문헌 [Dean et al., Comprehensive human genome amplification using multiple displacement amplification, Proc. Natl. Acad. Sci. U.S.A., vol. 99, p. 5261-5266. 2002]; 또한 [Dean et al., Rapid amplification of plasmid and phage DNA using phi29 DNA polymerase and multiply-primed rolling circle amplification, Genome Res., vol. 11, p. 1095-1099. 2001]; 또한 [Aviel-Ronen et al., Large fragment Bst DNA polymerase for whole genome amplification of DNA formalin-fixed paraffin-embedded tissues, BMC Genomics, vol. 7, p. 312. 2006] 참조). 증폭은 또한, 다음 문헌에 의해 대중화된 전통적인 폴리머라제 연쇄 반응 (PCR)과 같은 상이한 온도 연대를 통하여 순환될 수 있다 (문헌 [Mullis et al., Specific enzymatic amplification of DNA in vitro: The polymerase chain reaction. Cold Spring Harbor Symp. Quant. Biol., vole 51, p. 263-273. 1986] 참조). 게놈 증폭에 더 적용가능한 변동은 다음 문헌에 기재되어 있다 (문헌 [Zhang et al., Whole genome amplification from a single cell: implications for genetic analysis, Proc. Natl. Acad. Sci. U.S.A., vol. 89, p. 5847-5851. 1992]; 및 [Telenius et al., Degenerate oligonucleotide-primed PCR: general amplification of target DNA by a single degenerate primer, Genomics, vol. 13, p. 718-725. 1992] 참조). 기타 방법은 폴로니(Polony) PCR (문헌 [Mitra and Church, In situ localized amplification and contact replication of many individual DNA molecules, Nuc. Acid. Res., vole 27, pages e34. 1999] 참조); 에멀젼 PCR (ePCR) (문헌 [Shendure et al., Accurate multiplex polony sequencing of an evolved bacterial genome, Science, vol. 309, p. 1728-32. 2005]; 및 [Williams et al., Amplification of complex gene libraries by emulsion PCR, Nat. Methods, vol. 3, p. 545-550. 2006] 참조)을 포함한다. 어떠한 증폭 방법도 역전사 단계와 선험적으로 조합하여 RNA를 증폭시킬 수 있다. 특정 측면에 따르면, 증폭이 절대적으로 요구되는 것은 아닌데, 이는 충분한 감도를 지닌 프로브, 리포터 및 검출 시스템을 사용하여, 기재된 주형 비-혼성화 핵산 구조를 이용하여 단일 분자를 검출할 수 있기 때문이다. 시스템 중에서의 감도를 조정하는 방식은 여기 공급원 (예를 들어, 조명) 및 검출 (예를 들어, 광 검출기, 광전자 증배관)의 선택을 포함한다. 신호 수준을 조정하는 방식은 리포터의 적층을 허용하는 프로브를 포함하고, 고 강도 리포터 (예를 들어, 양자점)를 사용할 수도 있다.

본 개시내용에 유용한 증폭 방법은 핵산을, 혼성화 및 쇄 연장을 촉진시켜 주는 조건 하에 이러한 핵산과 특이적으로 혼성화하는 하나 이상의 프라이머와 접촉시키는 것을 포함할 수 있다. 핵산을 증폭시키기 위한 예시적 방법은 폴리머라제 연쇄 반응 (PCR) (예를 들어, 문헌 [Mullis et al. (1986) Cold Spring Harb. Symp. Quant. Biol. 51 Pt 1:263] 및 [Cleary et al. (2004) Nature Methods 1:241]; 및 [미국 특허 번호 4,683,195 및 4,683,202] 참조), 앵커(anchor) PCR, RACE PCR, 라이게이션 연쇄 반응 (LCR) (예를 들어, 문헌 [Landegran et al. (1988) Science 241:1077-1080]; 및 [Nakazawa et al. (1994) Proc. Natl. Acad. Sci. U.S.A. 91:360-364] 참조), 자기 유지 서열 복제 (문헌 [Guatelli et al. (1990) Proc. Natl. Acad. Sci. U.S.A. 87:1874] 참조), 전사 증폭 시스템 (문헌 [Kwoh et al. (1989) Proc. Natl. Acad. Sci. U.S.A. 86:1173] 참조), Q-베타 레플리카제 (문헌 [Lizardi et al. (1988) BioTechnology 6:1197] 참조), 반복되는 PCR (문헌 [Jaffe et al. (2000) J. Biol. Chem. 275:2619]; 및 [Williams et al. (2002) J. Biol. Chem. 277:7790] 참조), 미국 특허 번호 6,391,544, 6,365,375, 6,294,323, 6,261,797, 6,124,090 및 5,612,199에 기재된 증폭 방법, 또는 통상의 기술자에게 널리 공지된 기술을 이용하는 기타 모든 핵산 증폭 방법을 포함한다. 예시적 실시양태에서, 본원에 개시된 방법은 PCR 증폭을 활용한다.

특정의 예시적 실시양태에서, 핵산 서열을 증폭시키는 방법이 제공된다. 핵산을 증폭시키는 예시적 방법은 폴리머라제 연쇄 반응 (PCR) (예를 들어, 문헌 [Mullis et al. (1986) Cold Spring Harb. Symp. Quant. Biol. 51 Pt 1:263] 및 [Cleary et al. (2004) Nature Methods 1:241]; 및 [미국 특허 번호 4,683,195 및 4,683,202] 참조), 앵커 PCR, RACE PCR, 라이게이션 연쇄 반응 (LCR) (예를 들어, 문헌 [Landegran et al. (1988) Science 241:1077-1080]; 및 [Nakazawa et al. (1994) Proc. Natl. Acad. Sci. U.S.A. 91:360-364] 참조), 자기 유지 서열 복제 (문헌 [Guatelli et al. (1990) Proc. Natl. Acad. Sci. U.S.A. 87:1874] 참조), 전사 증폭 시스템 (문헌 [Kwoh et al. (1989) Proc. Natl. Acad. Sci. U.S.A. 86:1173] 참조), Q-베타 레플리카제 (문헌 [Lizardi et al. (1988) BioTechnology 6:1197] 참조), 반복되는 PCR (문헌 [Jaffe et al. (2000) J. Biol. Chem. 275:2619]; 및 [Williams et al. (2002) J. Biol. Chem. 277:7790] 참조), 미국 특허 번호 6,391,544, 6,365,375, 6,294,323, 6,261,797, 6,124,090 및 5,612,199에 기재된 증폭 방법, 등온 증폭 (예를 들어, 롤링 서클 증폭 (RCA), 초분기(hyperbranched) 롤링 서클 증폭 (HRCA), 가닥 변위 증폭 (SDA), 헬리카제(helicase)-의존적 증폭 (HDA), PWGA), 또는 통상의 기술자에게 널리 공지된 기술을 이용하는 기타 모든 핵산 증폭 방법을 포함한다.

"폴리머라제 연쇄 반응" 또는 "PCR"은 DNA의 상보적 가닥의 동시 프라이머 연장에 의해 특이적 DNA 서열을 시험관내 증폭시키기 위한 반응을 지칭한다. 달리 언급하면, PCR은 프라이머 결합 부위에 의해 플랭킹된 표적 핵산의 다수 사본 또는 복제물을 만드는 반응, 예컨대 다음 단계 중 하나 이상의 반복을 포함하는 반응이다: (i) 표적 핵산을 변성시키는 단계, (ii) 프라이머를 프라이머 결합 부위에 어닐링시키는 단계, 및 (iii) 상기 프라이머를 뉴클레오시드 트리포스페이트의 존재 하에 핵산 폴리머라제에 의해 연장시키는 단계. 통상적으로, 상기 반응은 열 사이클러 기기에서 각 단계에 대해 최적화된 상이한 온도를 통하여 순환된다. 특별한 온도, 각 단계에서의 지속 기간, 및 단계들 간의 변화 속도는 통상의 기술자에게 널리 공지된 많은 요인들에 좌우되는데, 예를 들어 다음 문헌에 예시되어 있다 (문헌 [McPherson et al., editors, PCR: A Practical Approach and PCR2: A Practical Approach (각각 IRL Press, Oxford, 1991 and 1995)] 참조). 예를 들어, Taq DNA 폴리머라제를 이용하는 통상적인 PCR에서는, 이중 가닥 표적 핵산을 90℃ 초과 온도에서 변성시킬 수 있고, 프라이머는 50 내지 75℃ 범위의 온도에서 어닐링시킬 수 있으며, 프라이머는 68 내지 78℃ 범위의 온도에서 연장시킬 수 있다.

용어 "PCR"은 상기 반응의 유도체 형태를 포괄하는데, 이는 RT-PCR, 실시간 PCR, 중첩된 PCR, 정량적 PCR, 다중화 PCR, 조립 PCR 등을 포함하지만, 이에 제한되지 않는다. 반응 부피는 수백 나노리터, 예를 들어 200 nL에서 수백 마이크로리터, 예를 들어 200 ㎕ 까지의 범위이다. "역전사 PCR" 또는 "RT-PCR"은 표적 RNA를 상보적 단일 가닥 DNA로 변환시킨 다음 증폭시키는, 역전사 반응이 선행되는 PCR을 의미한다 (예를 들어, 문헌 [Tecott et al., 미국 특허 번호 5,168,038] 참조). "실시간 PCR"은 반응이 진행됨에 따라 반응 생성물, 즉 앰플리콘(amplicon)의 양을 모니터링하기 위한 PCR을 의미한다. 반응 생성물을 모니터링하는 데 사용된 검출 화학에 있어서 주로 상이한, 많은 형태의 실시간 PCR이 있다 (예를 들어, 문헌 [Gelfand et al., 미국 특허 번호 5,210,015 ("Taqman")]; [Wittwer et al., 미국 특허 번호 6,174,670 및 6,569,627 (intercalating dyes)]; [Tyagi et al., 미국 특허 번호 5,925,517 (molecular beacons)] 참조). 실시간 PCR에 대한 검출 화학은 문헌 ([Mackay et al., Nucleic Acids Research, 30:1292-1305 (2002)] 참조)에서 고찰된다. "중첩된 PCR"은 제1 PCR의 앰플리콘이 새로운 프라이머 세트 (이중 적어도 하나는 제1 앰플리콘의 내부 위치와 결합됨)를 이용하여 제2 PCR을 위한 샘플이 되는 2-단계 PCR을 의미한다. 본원에 사용된 바와 같은, 중첩된 증폭 반응과 관련한 "초기 프라이머"는 제1 앰플리콘을 생성시키기 위해 사용된 프라이머를 의미하고, "2차 프라이머"는 제2 앰플리콘 또는 중첩된 앰플리콘을 생성시키기 위해 사용된 하나 이상의 프라이머를 의미한다. "다중화 PCR"은 다중 표적 서열 (또는 단일 표적 서열과 하나 이상의 참조 서열)이 동일한 반응 혼합물에서 동시에 수행되는 PCR을 의미한다 (예를 들어, 문헌 [Bernard et al. (1999) Anal. Biochem., 273:221-228 (two-color real-time PCR)] 참조). 통상적으로, 별개의 프라이머 세트를 증폭되는 각 서열에 이용한다. "정량적 PCR"은 특정 샘플 또는 표본 중의 하나 이상의 특이적 표적 서열의 존재량을 측정하기 위해 설계된 PCR을 의미한다. 정량적 PCR을 위한 기술은 통상의 기술자에게 널리 공지되어 있고, 다음 참고 문헌에 예시된 바와 같다 (문헌 [Freeman et al., Biotechniques, 26:112-126 (1999)]; [Becker-Andre et al., Nucleic Acids Research, 17:9437-9447 (1989)]; [Zimmerman et al., Biotechniques, 21:268-279 (1996)]; [Diviacco et al., Gene, 122:3013-3020 (1992)]; [Becker-Andre et al., Nucleic Acids Research, 17:9437-9446 (1989)] 등 참조).

본 개시내용에 유용한 서열분석 방법은 다음 문헌에 기재된 것을 포함한다 (문헌 [Shendure et al., Accurate multiplex polony sequencing of an evolved bacterial genome, Science, vol. 309, p. 1728-32. 2005]; [Drmanac et al., Human genome sequencing using unchained base reads on self-assembling DNA nanoarrays, Science, vol. 327, p. 78-81. 2009]; [McKernan et al., Sequence and structural variation in a human genome uncovered by short-read, massively parallel ligation sequencing using two-base encoding, Genome Res., vol. 19, p. 1527-41. 2009]; [Rodrigue et al., Unlocking short read sequencing for metagenomics, PLoS One, vol. 28, e11840. 2010]; [Rothberg et al., An integrated semiconductor device enabling non-optical genome sequencing, Nature, vol. 475, p. 348-352. 2011]; [Margulies et al., Genome sequencing in microfabricated high-density picolitre reactors, Nature, vol. 437, p. 376-380. 2005]; [Rasko et al. Origins of the E. coli strain causing an outbreak of hemolytic-uremic syndrome in Germany, N. Engl. J. Med., Epub. 2011]; [Hutter et al., Labeled nucleoside triphosphates with reversibly terminating aminoalkoxyl groups, Nucleos. Nucleot. Nucl., vol. 92, p. 879-895. 2010]; [Seo et al., Four-color DNA sequencing by synthesis on a chip using photocleavable fluorescent nucleotides, Proc. Natl. Acad. Sci. USA., Vol. 102, P. 5926-5931 (2005)]; [Olejnik et al., Photocleavable biotin derivatives: a versatile approach for the isolation of biomolecules, Proc. Natl. Acad. Sci. U.S.A., vol. 92, p. 7590-7594. 1995]; [US 5,750,34; US 2009/0062129 및 US 2009/0191553] 참조).

일반적으로, 용어 "핵산 분자", "핵산 서열", "핵산 단편", "올리고뉴클레오티드" 및 "폴리뉴클레오티드"는 상호교환적으로 사용되고, 다양한 길이를 가질 수 있는 뉴클레오티드의 중합체성 형태인 데옥시리보뉴클레오티드 (DNA) 또는 리보뉴클레오티드 (RNA), 또는 이들의 유사체를 포함하지만, 이에 제한되지 않는다. 올리고뉴클레오티드는 전형적으로, 4개 뉴클레오티드 염기의 특이적 서열로 구성된다: 아데닌 (A); 시토신 (C); 구아닌 (G); 및 티민 (T) (폴리뉴클레오티드가 RNA인 경우에는, 우라실 (U)이 티민 (T)을 대체한다). 따라서, 용어 "올리고뉴클레오티드 서열"은 폴리뉴클레오티드 분자의 알파벳 표현이고; 또 다른 한편으론, 상기 용어는 폴리뉴클레오티드 분자 자체에 적용될 수 있다. 이러한 알파벳 표현은 중앙 처리 장치를 갖는 컴퓨터의 데이터베이스에 입력할 수 있고, 기능 유전체학 및 상 동성 검색과 같은 생물 정보학 적용을 위해 사용될 수 있다. 올리고뉴클레오티드는 하나 이상의 비-표준 뉴클레오티드(들), 뉴클레오티드 유사체(들) 및/또는 변형된 뉴클레오티드를 임의로 포함할 수 있다.

본 개시내용의 실시양태는 통상의 기술자에게 공지된 자연 발생적 또는 합성 올리고머를 포함한다. 이러한 올리고머는 올리고뉴클레오티드 또는 폴리뉴클레오티드 (예컨대, DNA 또는 RNA), 폴리펩티드 (예컨대, 콜라겐 및 반코마이신), 폴리케티드 (예컨대, 지방 및 테트라시클린), 폴리사카라이드 (예컨대, 셀룰로스 및 전분), 폴리테르펜 (예컨대, 콜레스테롤 및 고무), 폴리아미노산 (예컨대, 리그닌 및 폴리알칼로이드), 폴리피롤 (예컨대, 헴 및 비타민 B12), 및 폴리에스테르 (예컨대, PHA, PHV)를 포함한다. 올리고머는 생체 모방 부류의 결합을 갖는 것을 포함한다 (US2008/0096253의 표 1 참조). 추가의 올리고머는 비-생물학적 중합체, 예컨대 폴리실록산, 폴리아크릴아미드 등을 포함한 선형 중합체를 포함한다. 이러한 올리고머는 충분한 열 안정성을 지닐 수 있거나 또는 나노포어 또는 기타 중합체 서열분석용 장치에서의 검출 용이성을 지닐 수 있다.

변형된 뉴클레오티드의 예는 디아미노퓨린, S²T, 5-플루오로우라실, 5-브로모우라실, 5-클로로우라실, 5-아이오도우라실, 하이포크산틴, 크산틴, 4-아세틸시토신, 5-(카르복시히드록실메틸)우라실, 5-카르복시메틸아미노메틸-2-티오우리딘, 5-카르복시메틸아미노메틸우라실, 디히드로우라실, 베타-D-갈락토실퀘오신, 이노신, N6-이소펜테닐아데닌, 1-메틸구아닌, 1-메틸이노신, 2,2-디메틸구아닌, 2-메틸아데닌, 2-메틸구아닌, 3-메틸시토신, 5-메틸시토신, N6-아데닌, 7-메틸구아닌, 5-메틸아미노메틸우라실, 5-메톡시아미노메틸-2-티오우라실, 베타-D-만노실퀘오신, 5'-메톡시카르복시메틸우라실, 5-메톡시우라실, 2-메틸티오-D46-이소펜테닐아데닌, 우라실-5-옥시아세트산 (v), 와이부톡소신, 슈도우라실, 퀘오신, 2-티오시토신, 5-메틸-2-티오우라실, 2-티오우라실, 4-티오우라실, 5-메틸우라실, 우라실-5-옥시아세트산 메틸에스테르, 우라실-5-옥시아세트산 (v), 5-메틸-2-티오우라실, 3-(3-아미노-3-N-2-카르복시프로필) 우라실, (acp3)w, 2,6-디아미노퓨린 등을 포함하지만, 이에 제한되지 않는다. 핵산 분자는 또한, 염기 모이어티 (예를 들어, 상보적 뉴클레오티드와 수소 결합을 형성하기 위해 전형적으로 이용가능한 하나 이상의 원자에서 및/또는 전형적으로 상보적 뉴클레오티드와 수소 결합을 형성할 수 없는 하나 이상의 원자에서), 당 모이어티 또는 포스페이트 백본에서 변형될 수 있다. 핵산 분자는 또한, 아민 반응성 모이어티, 예컨대 N-히드록시 숙신이미드 에스테르 (NHS)의 공유 부착을 허용하는 아민 변형 기, 예컨대 아미노알릴-dUTP (aa-dUTP) 및 아미노헥실아크릴아미드-dCTP (aha-dCTP)를 함유할 수 있다.

본 개시내용의 올리고뉴클레오티드 내의 표준 DNA 염기쌍 또는 RNA 염기쌍에 대한 대안은 1 ㎣ 당 비트 상의 보다 고 밀도, 보다 높은 안전성 (자연 독소의 우발적 또는 의도적 합성에 대한 저항성), 광-프로그램된 폴리머라제 상의 보다 용이한 차별, 또는 보다 낮은 2차 구조를 제공할 수 있다. 신생 및/또는 증폭 합성을 위한 자연 및 돌연변이체 폴리머라제와 상용성인 상기 대체 염기쌍은 다음 문헌에 기재되어 있다 (문헌 [Betz K, Malyshev DA, Lavergne T, Welte W, Diederichs K, Dwyer TJ, Ordoukhanian P, Romesberg FE, Marx A (2012) KlenTaq polymerase replicates unnatural base pairs by inducing a Watson-Crick geometry, Nature Chem. Biol. 8:612-614]; [Seo YJ, Malyshev DA, Lavergne T, Ordoukhanian P, Romesberg FE. J Am Chem Soc. 2011 Dec 14;133(49):19878-88, Site-specific labeling of DNA and RNA using an efficiently replicated and transcribed class of unnatural base pairs]; [Switzer CY, Moroney SE, Benner SA. (1993) Biochemistry. 32(39):10489-96. Enzymatic recognition of the base pair between isocytidine and isoguanosine]; [Yamashige R, Kimoto M, Takezawa Y, Sato A, Mitsui T, Yokoyama S, Hirao I. Nucleic Acids Res. 2012 Mar;40(6):2793-806. Highly specific unnatural base pair systems as a third base pair for PCR amplification]; 및 [Yang Z, Chen F, Alvarado JB, Benner SA. J Am Chem Soc. 2011 Sep 28;133(38):15105-12, Amplification, mutation, and sequencing of a six-letter synthetic genetic system] 참조).

다음 6개 쌍 (A-T, G-C, Z-P, Ds-Px, NAM-SSICS, 이소C-이소G)은 폴리머라제와 상용성이고 서로 직각 (즉, 낮은 수준의 교차 쌍형성)인 것으로 밝혀졌다:

특정의 예시적 실시양태에서, 올리고뉴클레오티드 서열은 포스포르아미다이트 링커 중 하나 이상을 이용하여 제조할 수 있고/있거나 통상의 기술자에게 공지된 라이게이션 방법에 의해 서열분석할 수 있다. 올리고뉴클레오티드 서열은 또한, 적합한 모든 방법, 예를 들어 표준 포스포르아미다이트 방법, 예컨대 본원에서 다음에 기재된 방법 뿐만 아니라 문헌 ([Beaucage and Carruthers ((1981) Tetrahedron Lett. 22: 1859)] 참조)에 기재된 방법 또는 문헌 ([Matteucci et al. (1981) J. Am. Chem. Soc. 103:3185] 참조)에 따르는 트리에스테르 방법에 의해 제조할 수 있거나, 또는 통상의 기술자에게 공지된 상업용 자동화 올리고뉴클레오티드 합성기 또는 고 처리량, 고 밀도 어레이 방법을 이용하는 기타 화학적 방법에 의해 제조할 수 있다 (미국 특허 번호 5,602,244, 5,574,146, 5,554,744, 5,428,148, 5,264,566, 5,141,813, 5,959,463, 4,861,571 및 4,659,774 참조; 모든 목적을 위해 그 전문이 본원에 참조로 포함된다). 예비 합성된 올리고뉴클레오티드는 또한, 각종 판매사로부터 상업적으로 수득할 수 있다.

특정의 예시적 실시양태에서, 올리고뉴클레오티드 서열은 당해 분야에 공지된 각종 마이크로어레이 기술을 이용하여 제조할 수 있다. 예비 합성된 올리고뉴클레오티드 및/또는 폴리뉴클레오티드 서열은 지지체에 부착시킬 수 있거나 또는 다음 참고문헌에 제시된 광 지향 방법, 유동 채널 및 스폿팅 방법, 잉크젯 방법, 핀 기반 방법 및 비드 기반 방법을 이용하여 계내 합성할 수 있다 (문헌 [McGall et al. (1996) Proc. Natl. Acad. Sci. U.S.A. 93:13555]; [Synthetic DNA Arrays In Genetic Engineering, Vol. 20:111, Plenum Press (1998)]; [Duggan et al. (1999) Nat. Genet. S21:10]; [Microarrays: Making Them and Using Them In Microarray Bioinformatics, Cambridge University Press, 2003]; [미국 특허 출원 공개 번호 2003/0068633 및 2002/0081582]; [미국 특허 번호 6,833,450, 6,830,890, 6,824,866, 6,800,439, 6,375,903 및 5,700,637]; 및 [PCT 출원 번호 WO 04/031399, WO 04/031351, WO 04/029586, WO 03/100012, WO 03/066212, WO 03/065038, WO 03/064699, WO 03/064027, WO 03/064026, WO 03/046223, WO 03/040410 및 WO 02/24597] 참조).

특정의 예시적 실시양태에서, 본원에 기재된 하나 이상의 올리고뉴클레오티드 서열은 지지체 (예를 들어, 고체 및/또는 반고체 지지체) 상에 고정화시킨다. 특정 측면에서, 올리고뉴클레오티드 서열은 본원에 기재된 포스포르아미다이트 링커 중 하나 이상을 이용하여 지지체에 부착시킬 수 있다. 적합한 지지체는 슬라이드, 비드, 칩, 입자, 가닥, 겔, 시트, 튜빙, 구, 용기, 모세관, 패드, 슬라이스, 필름, 판 등을 포함하지만, 이에 제한되지 않는다. 각종 실시양태에서, 고체 지지체는 생물학적, 비생물학적, 유기, 무기, 또는 그들의 모든 조합일 수 있다. 실질적으로 편평한 지지체를 사용하는 경우, 이러한 지지체는, 예를 들어 참호, 홈, 웰, 또는 화학적 장벽 (예를 들어, 소수성 코팅 등)을 이용하여 영역별로 물리적으로 분리시킬 수 있다. 특정의 예시적 실시양태에서, 지지체는 마이크로어레이이다. 본원에 사용된 바와 같은, 용어 "마이크로어레이"는 한 실시양태에서, 각각 고정화된 혼성화 프로브를 함유하는 공간상 규정된 비-중복 영역 또는 부위의 어레이가 위에 존재하는 실질적으로 편평한 표면을 갖는 고체 상 지지체를 포함하는 검정 유형을 지칭한다. "실질적으로 편평한"은 특정 표면 상의 관심 특색 또는 대상, 예컨대 프로브 부위가 특정 표면 위 또는 아래로 연장되는 부피를 점유할 수 있고 그의 치수가 이러한 표면의 치수와 비교해서 작은 것을 의미한다. 예를 들어, 광섬유 다발의 단면 상에 배치된 비드는 프로브 부위의 실질적으로 편평한 표면을 창출시키거나, 또는 다공성 평면 기판 상에 배치되거나 합성된 올리고뉴클레오티드는 실질적으로 편평한 표면을 창출시킨다. 공간상 규정된 부위는 그의 위치 및 이러한 위치에서의 고정화 프로브의 실체가 공지되어 있거나 결정가능하다는 점에서 추가적으로 "어드레스 지정 가능(addressable)"일 수 있다.

마이크로어레이 상에 고정화된 올리고뉴클레오티드는 검정 반응에서 생성되거나 또는 이러한 반응으로부터 생성되는 핵산을 포함한다. 전형적으로, 마이크로어레이 상의 올리고뉴클레오티드 또는 폴리뉴클레오티드는 단일 가닥이고, 통상적으로 5'-말단 또는 3'-말단에 의해 고체 상 지지체에 공유적으로 부착된다. 특정의 예시적 실시양태에서, 프로브는 본원에 기재된 절단가능한 링커 중 하나 이상을 통하여 고정화시킨다. 마이크로어레이 중의 핵산을 함유하는 비-중복 영역의 밀도는 전형적으로, 100/㎠ 초과, 보다 전형적으로 1,000/㎠ 초과이다. 핵산 프로브와 관련된 마이크로어레이 기술은 다음 예시적 참고문헌에서 고찰된다 (문헌 [Schena, Editor, Microarrays: A Practical Approach (IRL Press, Oxford, 2000)]; [Southern, Current Opin. Chem. Biol., 2: 404-410 (1998)]; [Nature Genetics Supplement, 21:1-60 (1999)]; 및 [Fodor et al., 미국 특허 번호 5,424,186; 5,445,934; 및 5,744,305] 참조).

올리고뉴클레오티드를 지지체에 고정화시키는 방법은 당해 분야에 공지되어 있다 (비드: (문헌 [Dressman et al. (2003) Proc. Natl. Acad. Sci. USA 100:8817], [Brenner et al. (2000) Nat. Biotech. 18:630], [Albretsen et al. (1990) Anal. Biochem. 189:40], 및 [Lang et al. Nucleic Acids Res. (1988) 16:10861] 참조); 니트로셀룰로스: (문헌 [Ranki et al. (1983) Gene 21:77] 참조); 셀룰로스: (문헌 [Goldkorn (1986) Nucleic Acids Res. 14:9171] 참조); 폴리스티렌: (문헌 [Ruth et al. (1987) Conference of Therapeutic and Diagnostic Applications of Synthetic Nucleic Acids, Cambridge U.K.] 참조); 테플론-아크릴아미드: (문헌 [Duncan et al. (1988) Anal. Biochem. 169:104] 참조); 폴리프로필렌: (문헌 [Polsky-Cynkin et al. (1985) Clin. Chem. 31:1438] 참조); 나일론: (문헌 [Van Ness et al. (1991) Nucleic Acids Res. 19:3345] 참조); 아가로스: (문헌 [Polsky-Cynkin et al., Clin. Chem. (1985) 31:1438] 참조); 및 세파크릴: (문헌 [Langdale et al. (1985) Gene 36:201] 참조); 라텍스: (문헌 [Wolf et al. (1987) Nucleic Acids Res. 15:2911] 참조)).

본원에 사용된 바와 같은, 용어 "부착하다"는 공유적 상호작용과 비공유적 상호작용 둘 다를 지칭한다. 공유적 상호작용은 한 쌍의 전자 (즉, 단일 결합), 두 쌍의 전자 (즉, 이중 결합) 또는 세 쌍의 전자 (즉, 삼중 결합)를 공유함으로써 형성된 두 원자들 또는 라디칼들 간의 화학적 연결이다. 공유적 상호작용은 또한, 전자 쌍 상호작용 또는 전자 쌍 결합으로서 당해 분야에 공지되어 있다. 비공유적 상호작용은 반 데르 발스(van der Waals) 상호작용, 수소 결합, 약한 화학적 결합 (즉, 단거리 비공유 힘을 통함), 소수성 상호작용, 이온 결합 등을 포함하지만, 이에 제한되지 않는다. 비공유적 상호작용에 관한 고찰은 다음 문헌에서 찾을 수 있다 (문헌 [Alberts et al., in Molecular Biology of the Cell, 3d edition, Garland Publishing, 1994] 참조).

본 개시내용에 따르는 서열분석용 프라이머는 표적 폴리뉴클레오티드의 공지된 결합 영역과 결합할 수 있고 본 개시내용의 올리고뉴클레오티드 프로브의 라이게이션을 촉진시킬 수 있는 것이다. 서열분석용 프라이머는, 예를 들어 DNAWorks, 또는 Gene2Oligo와 같은 컴퓨터 프로그램의 도움 하에 설계할 수 있다. 상기 결합 영역은 길이가 다양할 수 있지만, 서열분석용 프라이머와 혼성화하기에 충분히 길어야 한다. 표적 폴리뉴클레오티드는 다수 개의 상이한 결합 영역을 가질 수 있으므로, 표적 폴리뉴클레오티드의 상이한 절편들이 서열분석될 수 있도록 해준다. 서열분석용 프라이머는 고도로 안정적인 이중체를 형성하도록 선택되므로, 이들 프라이머는 연속되는 라이게이션 주기 동안에도 여전히 혼성화된다. 서열분석용 프라이머는 라이게이션이 5'에서 3' 방향으로 또는 3'에서 5' 방향으로 진행되거나 또는 둘다로 진행될 수 있도록 선택될 수 있다. 서열분석용 프라이머는 그들의 혼성화 효율을 증강시켜 주거나, 그들의 안정성을 개선시켜 주거나 또는 한쪽 말단 또는 다른 쪽 말단으로부터의 연장을 방지시켜 주는 변형된 뉴클레오티드 또는 결합을 함유할 수 있다.

한 측면에 따르면, 단일 가닥 DNA 주형 (ssDNA)은 상기 언급된 바와 같은 RCA에 의해 제조되어 서열분석용 프라이머와 함께 사용된다. 또 다른 한편으론, 단일 가닥 주형은 에멀젼 중의 비드 또는 나노입자에 부착시키고 ePCR을 통하여 증폭시킨다. 그 결과는 단일 증폭된 ssDNA 주형을 수반한 클로날 비드이다.

몇 가지 주형 뉴클레오티드 서열을 동시에 확인할 목적으로, 상기 주형을 PBS 완충제 (pH 7.4) 중에 희석시키고, 각종 부착 방법, 예컨대 비오틴-스트렙타비딘, 아지드-알킬 (예를 들어, 클릭 화학), NHS-에스테르 또는 실란화 (예를 들어, 알데히드-, 에폭시-, 아미노-실란)를 활용하여 패턴화된 또는 비패턴화된 기질에 결합시킨다. 한 측면에 따르면, 롤로니를 패턴화된 표면, 예컨대 SiO₂ 고체 표면에 부착시키고, 1% 아미노실란 (v/v)으로 처리하며, 일정 시간 (전형적으로, 5분 내지 2시간) 동안 상호작용하게 둔다. 이어서, 결합되지 않은 모든 주형은 세척 1 완충제로 세척 제거한다.

그 다음, 서열분석용 프라이머를 제조하고, 서열분석용 프라이머 혼성화 부위와 혼성화시킨다. 특정 측면에 따르면, 주형의 공지된 서열과 혼성화할 수 있는 서열분석용 프라이머를 제조할 수 있다. 또 다른 한편으론, 주형 제조 동안, 공지된 핵산 서열을 갖는 적응인자를, 통상의 기술자에게 공지되고 본원에 기재된 방법에 따라서 라이게이션, 증폭, 전위 또는 재조합시킴으로써 공지되지 않은 핵산 서열에 가한다. 또한 또 다른 한편으론, 특정 수준의 축중성을 갖는 서열분석용 프라이머를 사용하여, 주형을 따라 특정 위치와 혼성화시킬 수 있었다. 한 측면에 따르면, 프라이머가 주형을 따라 반-무작위로 혼성화할 수 있게 해주는 프라이머 축중성을 사용한다. 프라이머 축중성은 일정 길이의 주형을 따라 특정 간격으로 혼성화되는 프라이머를 촉진시켜 주는 통상의 기술자에게 공지된 통계학적 방법을 기초로 하여 선택된다. 이러한 측면에 따르면, N개 염기마다, 예컨대 100개 염기마다, 200개 염기마다, 2,000개 염기마다, 100,000개 염기마다 결합을 촉진시켜 주는 특정 축중성을 갖는 프라이머를 설계할 수 있다. 일정 길이의 주형을 따라 프라이머가 결합하는 것은 프라이머의 디자인과, 프라이머 디자인이 일정 길이의 주형을 따라 대략 N개 염기마다 결합할 통계학적 확률에 기초한다. 서열분석용 프라이머 P1은 라이게이션에 의해 연장될 것이기 때문에, 이러한 서열분석용 프라이머의 말단 기는 전형적으로, DNA 리가제에 의해 올리고뉴클레오티드 프로브와 즉시 공유적으로 연결되도록 합성된다. 이러한 라이게이션이 열분석용 프라이머의 5' 말단과 올리고뉴클레오티드 프로브의 3' 말단 사이에서 일어나는 경우에는, 포스페이트 기 (5'-PO₄)가 서열분석용 프라이머 상에 존재해야만 하고, 이와 동시에 히드록실 기 (3'-OH)는 올리고뉴클레오티드 프로브 상에 존재해야만 하는데, 그 반대도 가능하다. 서열분석용 프라이머를 서열분석용 프라이머 혼성화 부위와 혼성화시키기 위해서는, 5X SSPE 완충제에 희석된 1 uM의 서열분석용 프라이머를 사용한다. 그 다음, 이 혼합물을 실온 위에서 수분 동안 인큐베이션하여 적당한 어닐링을 조장한다 (전형적으로, 25 내지 55℃ 하에 1 내지 5분).

특정 측면에 따르면, 통상의 기술자에게 공지된 잉크젯 기술, 통상의 기술자에게 공지된 전기화학적 기술, 통상의 기술자에게 공지된 미세유동성 기술, 통상의 기술자에게 공지된 광발생된 산, 또는 통상의 기술자에게 공지된 광탈보호된 단량체를 이용하여 올리고뉴클레오티드 서열을 제조할 수 있다. 이러한 기술은 올리고뉴클레오티드를 고속, 저 비용, 보다 적은 독성 화학물질, 증강된 이동성, 및 DNA 생화학 (예를 들어, 변형, 폴리머라제, 혼성화 등)에 신생 (디지털 또는 아날로그) 합성을 삽입할 수 있는 능력으로 제조할 수 있게 해준다. 예를 들어, 카메라 광학 또는 디지털 마이크로미러 디스플레이 장치 (DMD)로부터 직접적으로, 공간상 패턴화된 광을 수성 화학과 함께 사용할 수 있다 (US2003/0228611 참조). 예를 들어, 주형-비의존성 폴리머라제, 예컨대 말단 데옥시뉴클레오티딜 트랜스퍼라제 (TdT) 또는 폴리(A) 폴리머라제 (또 다른 한편으론, 주형-의존성 폴리머라제, 예컨대 Taq 또는 Phi29 유도체)는 아조벤젠 아미노산 (문헌 [Hoppmann C, Schmieder P, Heinrich N, Beyermann M. (2011) Chembiochem.12(17):2555-9. doi: 10.1002/cbic.201100578. Epub 2011 Oct 13, Photoswitchable click amino acids: light control of conformation and bioactivity] 참조)을 폴리머라제 또는 5'→3' 엑소뉴클레아제 도메인 (존재하는 경우)의 활성 부위 내로 혼입시킴으로써 빛에 의해 프로그램가능한 충실도, 염기-특이성 또는 그의 기본 폴리머라제 기능을 지닐 수 있다.

광 민감성 신경세포 (광유전학)는 이온 민감성 폴리머라제를 촉발시킬 수 있거나 (문헌 [Zamft B, Marblestone A, Kording K, Schmidt D, Martin-Alarcon D, Tyo K, Boyden E, Church GM(2012) Measuring Cation Dependent DNA Polymerase Fidelity Landscapes by Deep Sequencing. PLoS One, in press] 참조) 또는 일부 적용의 경우에는, 이온 플럭스 패턴 자체가 저장된 데이터세트를 구성할 수 있다.

신생 중합체는 폴리머라제 증폭을 수반하거나 수반하지 않으면서 저장 및 판독할 수 있다. 증폭은 열 사이클링 또는 등온을 통하여 이루어질 수 있다. 앰플리콘은 현재 화학적 합성의 경우에 편리한 바와 같이 짧을 수 있거나 (100 내지 200량체) 또는 폴리머라제를 이용하여 달성가능할 수도 있는 바와 같이 1 Mbp 이하일 수 있다.

혼입된 뉴클레오티드 유형은 다음에 의해 결정될 수 있다: a) dNTP 솔루션의 주기적 패턴의 그 시점에 존재하는 특별한 dNTP (또는 rNTP 또는 기타 단량체 부류)와 일치하는 광 펄스의 교차점; b) '갇힌(caged)' (즉, 광-활동성 또는 광-비활동성) dNTP, rNTP 또는 양이온; c) 염기-특이적, 광-변조된 입체적 또는 입체형태적 선택성 (문헌 [Hoppmann C, Schmieder P, Heinrich N, Beyermann M. (2011) Chembiochem.12(17):2555-9. doi: 10.1002/cbic.201100578. Epub 2011 Oct 13. Photoswitchable click amino acids: light control of conformation and bioactivity] 참조). 폴리(A) 폴리머라제가 특히 유용한데, 이는 다른 rNTP와 비교해서 ATp에 대한 그의 특이성이, 광 민감성 아미노산 연결 (예컨대, 가교결합을 수반하거나 수반하지 않은 아조벤젠)에 의해 모방될 수 있는 입체형태적 변화에 기인하기 때문이다.

본 발명은 다음 실시예에 의해 추가로 예시되지만, 이로써 제한되는 것으로 간주되지 않아야 한다. 본 출원 전반에 걸쳐 인용된 모든 참고문헌, 특허 및 공개 특허 출원의 내용은 모든 목적을 위해 그들의 전문이 본원에 참조로 포함된다.

실시예 I

DNA 를 이용하여 저장하고자 하는 기입된 정보

기본 북 (미국 뉴욕주 뉴욕)으로써 발행될 제네시스(Regenesis) (Church GM and Regis E)라는 초안 북의 HTML 버전이 현대 서식, 이미지, 및 자바스크립트(javascript)를 설명하기 위해 선정되었다. 전형적인 웹 페이지와 같이, 범용 글자 세트 변환 포맷, 8 비트 (UTF-8), 특수 글자 및 글꼴에 대한 ASCII 및 UNICODE와 거꾸로 호환되는 가변 폭 코딩을 사용하였다. 검은색과 흰색 및 JPEG 코딩되는 11개의 이미지가 있었다 (전형적으로, 품질의 손실이 거의 없는 10:1 데이터 압축). 이들은 64 기수 포맷으로 html에서 "인라인" (즉, 별도의 파일이 없다) 내장되었다. 이러한 JPEG 세그먼트들 중 어느 것의 중간 컨센서스 비트 오류는 그 세그먼트 내에서 하류 데이터에만 영향을 미칠 것이다. 텍스트 내의 비트 오류는 이러한 오류를 함유하는 올리고뉴클레오티드 중의 최대 12개 글자에 영향을 미칠 것이다. 자바스크립트는 곡선 동적으로 커서 위치를 따를 수 있는 37 비트 텍스트 문자열의 간단한 디스플레이 (유전자 암호의 연상기호 코딩)이다. 본 개시내용에 따르면, DNA (기타 디지털 매체 등)는 디지털 기계에 대한 실행가능한 지침을 코딩할 수 있다.

실시예 II

기입된 정보를 DNA 내로 코딩함

상기 북은 html 포맷 (내장된 jpg 이미지를 수반함)으로 변환되었다. 상기 북은 비트 형태로 읽은 후, 개별 비트가 0의 경우에는 A 또는 C로 변환되었고 1의 경우에는 T 또는 G로 변환되었다. 염기를 무작위로 선택하였는데, 이 동안에 허용되지 않는 단독중합체는 3 보다 더 크게 실행된다. 비트 스트림의 어드레스는 19 비트 길이였고 0000000000000000001부터 시작하여 연속적으로 넘버링되었다. 스크립트 Bits2DNA.pl (암호 섹션 참조)은 html 파일을 DNA 세그먼트로 코딩하는 데 사용된 프로그램이다.

실시예 III

합성 및 증폭

54,898개 올리고뉴클레오티드를 애질런트(Agilent) 올리고 라이브러리 합성 마이크로어레이 플랫폼 상에서 합성하였다. DNA를 애질런트에 의해 용출시켜 100 ㎕ TE (10 mM 트리스(Tris)-Cl pH 7.5, 0.1 mM EDTA) 중의 올리고뉴클레오티드의 약 10 피코몰 풀을 수득하였다.

상기 라이브러리를 다음과 같이 증폭시켰다. 1 ㎕ (약 10 펨토몰 예상됨)의 라이브러리를 바이오래드(BioRad) CFX96 실시간 PCR 기계에서 Sybr 패스트 마스터 믹스 (카파 바이오시스템즈(Kapa Biosystems))를 사용하여 6 주기 동안 각 200 nM의 프라이머 MD-테스트-1F 및 MD-테스트-1R을 이용하여 50 ㎕ PCR 증폭 반응에 사용하였고, 증폭 동안 Sybr 그린 채널을 모니터링하였다.

95℃에서 3 min 동안

95℃에서 10 sec 동안

60℃에서 30 sec 동안

Sybr 그린 채널 판독

총 10 주기 동안 단계 2로 간다

68℃에서 30 sec 동안

4℃ 하에 유지.

이로써 생성된 PCR 생성물은 제조업자의 지시에 따라서 퀴아젠 민엘루트(Qiagen MinElute) PCR 클린업 칼럼을 이용하여 10 ㎕의 완충제 EB (10 mM 트리스-Cl, pH 8.5) 내로 정제하였다. 이와 같이 용출된 DNA는 나노드롭(NanoDrop) 2000c 분광광도계에 의해 측정된 바와 같은 36.8 ng/㎕의 농도 (A260/A280 = 1.85)를 제공하였다.

1 ㎕의 1:11 희석된 (수중) 증폭 반응물의 2개 튜브를, 동일한 조건이긴 하지만, 이번에는 200 nM의 PE-PCR 프라이머 1.0 - F 및 PE-PCR 프라이머 2.0 - R을 이용하여 9 주기 동안 증폭시켰다. PCR 반응물을, 제조업자의 제안 (애젠코트(Agencourt))에 따라서 앰푸어(Ampure) 비드를 이용하여 청소하여 잔류 프라이머를 제거하였고, 이를 50 ㎕의 TE에 재현탁시켰다. 최종 생성물은 나노드롭과 아가로스 겔 영상화 둘 다를 통하여 정량화된 바와 같이 약 22 ng/㎕였다. 사용된 프라이머는 다음과 같고, *는 포스포로티오에이트 연결을 나타낸다.

>MD 테스트 1-F

>MD 테스트 1-R

>PE PCR 프라이머 1.0 - F

>PE PCR 프라이머 2.0 - R

실시예 IV

서열분석 및 프로세싱

증폭된 라이브러리는 쌍을 이룬 말단 100개 판독치를 이용하여 HiSeq 2000의 단일 레인 상에 1 ml의 14 pM 라이브러리 (14 fmol; 증폭된 라이브러리의 1:1000)를 부하함으로써 서열분석하였다. 상기 레인으로부터, 본 발명자들은 346,151,426백만개의 쌍을 이룬 판독치를 87.14% >= Q30 및 평균 Q 스코어 34.16으로 획득하였다. 쌍을 이룬 100 bp 판독치를 수반한 115 bp 구축물이 서열분석되었기 때문에, SeqPrep (문헌 11 [J. St. John, SeqPrep https://github.com/jstjohn/SeqPrep (2011)] 참조)를 사용하여, 다음 명령어를 이용하여 중복 판독치를 단일 콘티그(contig) 내로 합하였다 (HiSeq 레인의 단일 표제의 경우): SeqPrep -f MTMC2_NoIndex_L006_R1_002.fastq.gz -r MTMC2_NoIndex_L006_R2_002.fastq.gz -1 tile2r1.fastq.gz -2 tile2r2.fastq.gz -s tile2-merged.fastq.gz -E tile2-align.txt.gz -o 50 -m 0.1 -n 0.8.

SeqPrep 후, 292,371,030개의 콘티그가 형성되었다. 이들 콘티그를 다음 명령어를 이용하여 보우티에(Bowtie)2 버전 2.0.0-베타5 (문헌 17 [B. Langmead, S. L. Salzberg, Nature Methods 9, 357-360 (2012)] 참조) 및 샘툴즈(SamTools) 버전 0.1.18 (문헌 18 [H. Li et al., Bioinformatics 25, 2078-2079 (2009)] 참조)을 사용하여 상기 참조물에 정렬시켰다: zcat *merged* | bowtie2 -p 10 --end-to-end -x ../../../agilentlib -U - | samtools view -bS - > alltiles-merged.bam.

정렬시킨 후, 267,993,389개 (92%)가 합성 라이브러리의 한 구성원에 정렬되어, 4882 ± 1261 (±1 표준 편차)의 평균 커버리지를 제공하였다. 완전한 길이의 115 bp 콘티그를 제공하는 SeqPrep된 콘티그를 여과시키면, 190,284,472개 판독치와 3419 ± 998 평균 커버리지가 생성되었다. 라이브러리의 각 구성원에 대해 평균적으로, 판독치의 약 69.5% ± 0.4가 완전한 길이였다. 가장 적은 수의 판독치를 갖는 구축물이 올리고 md-37545였는데, 이는 115 bp 필터링 전 및 후에 94개 및 9개의 판독치를 가졌고; 이로써 생성되는 컨센서스는 이러한 올리고에 대해 여전히 정확하였다.

도 2는 설계된 라이브러리의 각 구성원에 대한 관찰 개수의 히스토그램이다. SeqPrep로부터의 콘티그를 형성한 모든 판독치 (즉, 판독치들 간에 중복이 있음)를 보우티에2를 이용하여 상기 합성된 라이브러리에 대항하여 정렬시키고, 비닝 및 플롯팅하였다 (적색). 동일한 정보는 길이가 115 bp인 콘티그에 대해서만 녹색으로 표시된다. 삽화는 분포 꼬리의 뷰(view)를 확대하여 보여준다.

실시예 V

오류

컨센서스 라이브러리로부터, 다음 표 1에 요약되어 있는 판독 서열과 설계된 서열 간에 불일치가 발견되었다. 보여진 바와 같이, 22개의 불일치가 발견되었는데, 이중 10개는 비트 오류를 초래하였다 (진하게 표시됨). 오류의 대부분 (22개 중 20개)은 서열의 마지막 15개 염기 내에 위치하였는데, 여기서는 서열분석 동안 단일 커버리지 만이 있었다. 또한, 대부분의 오류 (22개 중 18개)로 인해, 적어도 3개의 연속되는 반복 뉴클레오티드의 실행이 초래되었다. 4개 이상의 반복된 뉴클레오티드의 단독중합체 판독치를 걸러내면 (회색 박스), 12개의 불일치가 야기되는데, 이중 7개가 비트 오류이다.

표 1은 설계된 라이브러리와 판독 라이브러리 간의 불일치를 표시한다. 각 오류는 바코드를 표시하는 하나의 행이고, 오류는 올리고 내의 위치 (115 중에서), 오류 유형, 오류로 인해 비트 변화가 초래하는 지의 여부, 본래의 상황정보, 및 새로운 상황정보 (오류 위치가 파선의 중간에 있음), 및 최종적으로 오류로 인해 4개 염기 (이는 걸러질 수도 있었음)의 실행을 초래하는 지의 여부와 연관이 있다. 비트 오류를 초래하는 라인은 진하게 표시되고, 4개 연속되는 염기의 실행을 기초로 하여 걸러질 수 있었던 라인은 그늘지게 나타낸다.

실시예 VI

데이터 밀도에 대한 계산

이론적 DNA 밀도는 단일 가닥 DNA의 뉴클레오티드 당 2 비트를 사용함으로써 계산하였다. 본 발명자들이 사용한 DNA의 분자량은 ATGC 균형을 맞춘 라이브러리의 나트륨 염에 대한 무수 중량의 평균 330.95 g/mol/뉴클레오티드를 기초로 하였다. 이로써 2.75 x 10^-22 g 당 1 비트의 중량 밀도가 생성되므로, 1.8 x 10²¹ 비트를 3.96 g에 저장할 수 있다. 물론, 실제 최대치는 원하는 중복성, 바코딩 및 코딩 방식의 유형에 따라서 밀도가 몇 배 더 낮을 것이다. 이러한 이론적 최대치 계산은 도 1B에서 사용되지 않는다.

도 1B에 플롯팅된 데이터는 매우 상이한 기술들 간의 비교이다. 두께가 보고되지 않은 평면 밀도 계산의 경우에는, 깊이로서 100 ㎛를 선택하였다 (이는 하드 드라이브 플래터 보다 약 10x 더 작고, 현재의 플래쉬 메모리 적층 보다 33% 더 작다). 현재의 정보 코딩 밀도 (159 bp 당 96 비트)와 저장 중인 DNA의 100x 합성된 커버리지가 추정되었다. 아마도 건조 DNA에 대한 약간 과소 평가치인, 순수한 물의 밀도, 즉 1 g/ ㎤의 대략적 부피가 추정되었다.

표 2는 상이한 매체 중의 데이터 밀도를 비교하기 위해 도 1B에 사용된 데이터를 보여준다. 정보 코딩을 위한 매우 상이한 기술들을 비교하기 위해서, 모든 데이터 밀도는 각종 정보를 추정함으로써 체적 데이터 밀도로 변환시켰다. 상업용 기술의 경우, 이용가능한 정보를 사용할 수 있는 기판의 두께에 대해 사용하였다. 플래쉬 메모리의 경우에는, 클래스 데이터 밀도 중 최상의 것을 상이한 제조업체로부터의 칩 적층 두께와 합하였다. 전시용 데이터 저장 기술의 경우에는, 기판 두께가 보고되지 않았다. 따라서, 100 ㎛ 두께로 추정하였는데, 이는 적층 플래쉬 저장 기술의 현재 두께의 1/3 수준이다. 이것은 모든 전시용이 4˚K 및 진공 하에수행되었다고 공개한 그 기술에 대해 비현실적일 수 있다. 건조 DNA의 밀도는 물의 밀도에 근접하였는데, 이는 과소평가될 수 있다. 클로닝된 DNA를 이용하는 기타 생물학적 전시용의 경우에는, 개별적 세포의 부피를 부피로서 사용하였다. 최종적으로, 회색 행은 도 1B에 도시되지 않았는데, 이는 그들이 다른 데이터 포인트에 의해 가려졌지만, 완전한 설명을 위해 여기에 포함되어 있다.

실시예 VII

암호

실시예 VIII

공정 요약

한 측면에 따르면, 53,426개 단어, 11개 JPG 이미지 및 1개 자바스크립트 프로그램을 포함한 북의 html 코딩 초안을 5.27 메가비트로 변환시켰다 (문헌 4 [Information on materials and methods is available on Science Online] 참조). 이어서, 비트를 각각 96-비트 데이터 블록 (96 nt), 비트 스트림 내의 데이터 블록의 위치를 특정하는 19-비트 어드레스 (19 nt), 및 증폭 및 서열분석을 위한 플랭킹 22 nt 공통 서열을 코딩하는 54,898개의 159 nt 올리고뉴클레오티드 상으로 코딩한다. 올리고뉴클레오티드 라이브러리를 잉크젯 프린트된 고 충실도 DNA 마이크로칩에 의해 합성하였다 (문헌 10 [E. M. LeProust et al., Nucleic Acids Research 38, 2522-2540 (2010)] 참조). 이와 같이 코딩된 북을 판독하기 위하여, 상기 라이브러리를 제한된 주기 PCR에 의해 증폭시킨 다음, 일루미나(Illumina) HiSeq의 단일 레인 상에서 서열분석하였다. 중복되는 쌍을 이룬-말단 100 nt 판독치를 결합하여 서열분석 오류의 효과를 저하시켰다 (문헌 11 [J. St. John, SeqPrep https://github.com/jstjohn/SeqPrep (2011)] 참조). 그 다음, 예상된 115 nt 길이와 완벽한 바코드 서열을 제공하는 판독치 만을 이용하여, 평균 약 3000배 커버리지로 각 데이터 블록의 각 염기에서 컨센서스를 생성시켰다. 본 발명자들이 단지 단일 서열 커버리지를 갖고 있었다고 한 올리고의 말단에서 실행되는 단독중합체 내에 주로 위치한 총 10 비트 오류 (5백 27만개 중에서)를 나타내는 모든 데이터 블록을 회수하였다 (문헌 4 [Information on materials and methods is available on Science Online] 참조).

본원에 개시된 실시양태의 밀도는 100x 합성 커버리지에서 약 5.5 페타비트/㎣였다. 본원에 개시된 실시양태의 규모는 약 5.27 메가비트였다. 본원에 기재된 방법 단계는 상업적으로 이용가능한 물질 및 기기를 이용하여 수행하였다. 도 1B는 본 개시내용의 실시양태 ("본 작업")가 다른 저장 매체와 비교해서 보다 높은 정보 밀도를 제공하였다는 것을 보여주는 정보 밀도의 비교이다. 특정 측면에 따르면, 실시양태는 밀도, 분포 및 오류율을 개선하는 압축, 여분 코딩, 패리티(parity) 검사 및 오류 정정의 사용을 포함한다. 특정 측면에 따르면, DNA 라이브러리는 또한, 직교 증폭을 허용하는 독특한 프라이밍 부위를 이용함으로써 물리적 분리 없이 저장될 수 있다 (문헌 12 [S. Kosuri et al., Nature Biotechnology 28, 1295-1299 (2010)] 참조). 특정 측면에 따르면, DNA 또는 DNA 변형물 이외의 중합체를 또한 사용하여 판독, 기입 및 저장 능력을 최대화시킬 수 있다 (문헌 13 [S. A. Benner, Z. Yang, F. Chen, Comptes Rendus Chimie 14, 372-387 (2011)] 참조). 한 측면에 따르면, 휴대용의 단일 분자 DNA 서열분석기를 사용하여 DNA-코딩 정보를 판독할 수 있다 (문헌 15 [E. Pennissi, Science 336, 534-537 (2012)] 참조). 한 측면에 따르면, 라이브러리 합성 및 컨센서스 서열분석과 병용해서 어드레스된 데이터 블록을 사용하는 일반적인 접근법은 상업적으로 이용가능한 DNA 서열분석 및 합성 기술과 호환된다. 한 측면에 따르면, 정보 저장과 같은 DNA의 또 다른 소비자 수준 사용은 합성 및 서열분석 기술을 개선시키기 위한 새로운 기술의 개발을 가속화시킬 수 있었다 (문헌 16 [S. Kosuri, A. M. Sismour, ACS Synth Biol 1, 109-110 (2012)] 참조).

본원에서 확인된 참고문헌 및 다음 참고문헌은 모든 목적을 위해 그들의 전문이 본원에 참조로 포함되고, 상응하는 숫자로써 본 개시내용 전반에 걸쳐 언급된다.

등가물

기타 실시양태가 통상의 기술자에게 명백할 것이다. 전술된 설명은 단지 명료하게 하기 위해 제공된 것이고 예시적이란 것을 인지해야 할 것이다. 본 발명의 요지 및 범위는 상기 실시예로 제한되지 않지만, 특허청구범위에 의해 포괄된다. 상기 인용된 모든 공개문헌, 특허 및 특허 출원은 각각의 개별적 공개문헌 또는 특허 출원이 참조로 포함된다고 구체적으로 표시되는 것과 동일한 정도로 모든 목적을 위해 그들의 전문이 본원에 참조로 포함된다.

Claims

정보의 포맷을, 각각 상응하는 비트 바코드를 갖는 비트 스트림의 다수의 비트 서열로 변환시키는 단계,
다수의 비트 서열을, 코딩되는 염기 당 1 비트를 이용하여 다수의 상응하는 올리고뉴클레오티드 서열로 변환시키는 단계,
다수의 상응하는 올리고뉴클레오티드 서열을 합성하는 단계, 및
합성된 다수의 상응하는 올리고뉴클레오티드 서열을 저장하는 단계
를 포함하는, 뉴클레오티드를 이용하여 정보를 저장하는 방법.
제1항에 있어서, 올리고뉴클레오티드 서열이 데이터 블록 서열, 비트 스트림 내의 데이터 블록의 위치를 특정하는 어드레스 서열, 또는 증폭 및 서열분석을 위한 올리고뉴클레오티드의 각 말단에의 플랭킹 공통 서열 중 하나 이상 또는 모두를 포함하는 것인 방법.
다수의 올리고뉴클레오티드 서열을 증폭시키는 단계,
증폭된 올리고뉴클레오티드 서열을 서열분석하는 단계,
올리고뉴클레오티드 서열을 비트 서열로 변환시키는 단계, 및
비트 서열을 정보의 포맷으로 변환시키는 단계
를 포함하는, 정보의 포맷의 비트 서열을 코딩하는 다수의 합성된 올리고뉴클레오티드 서열로부터 정보의 포맷을 검색하는 방법.
제3항에 있어서, 올리고뉴클레오티드 서열이 데이터 블록 서열, 비트 스트림 내의 데이터 블록의 위치를 특정하는 어드레스 서열, 또는 증폭 및 서열분석을 위한 올리고뉴클레오티드의 각 말단에의 플랭킹 공통 서열 중 하나 이상 또는 모두를 포함하는 것인 방법.
다수의 올리고뉴클레오티드 서열을 증폭시키는 단계,
증폭된 올리고뉴클레오티드 서열을 서열분석하는 단계,
올리고뉴클레오티드 서열을 비트 서열로 변환시키는 단계,
비트 서열을 정보의 포맷으로 변환시키는 단계, 및
정보의 포맷을 시각화하는 단계
를 포함하는, 정보의 포맷의 비트 서열을 코딩하는 다수의 합성된 올리고뉴클레오티드 서열로부터 정보의 포맷에 접근하는 방법.
제5항에 있어서, 올리고뉴클레오티드 서열이 데이터 블록 서열, 비트 스트림 내의 데이터 블록의 위치를 특정하는 어드레스 서열, 또는 증폭 및 서열분석을 위한 올리고뉴클레오티드의 각 말단에의 플랭킹 공통 서열 중 하나 이상 또는 모두를 포함하는 것인 방법.
정보의 포맷을 비트 스트림으로 변환시키는 단계,
제1 비트 서열을 상응하는 올리고뉴클레오티드 서열로 코딩하는 단계,
올리고뉴클레오티드 서열을 합성하는 단계,
올리고뉴클레오티드 서열을 서열분석하는 단계,
올리고뉴클레오티드 서열을 비트 서열로 해독하는 단계,
비트 서열을 비트 스트림으로 조립하는 단계, 및
비트 스트림을 정보의 포맷으로 변환시키는 단계
를 포함하는, 뉴클레오티드를 이용하여 정보를 저장하는 방법.
제7항에 있어서, 올리고뉴클레오티드 서열이 데이터 블록 서열, 비트 스트림 내의 데이터 블록의 위치를 특정하는 어드레스 서열, 또는 증폭 및 서열분석을 위한 올리고뉴클레오티드의 각 말단에의 플랭킹 공통 서열 중 하나 이상 또는 모두를 포함하는 것인 방법.
정보의 포맷을 제1 비트 스트림으로 변환시키는 단계,
제1 비트 서열을 상응하는 올리고뉴클레오티드 서열로 코딩하는 단계,
올리고뉴클레오티드 서열을 합성하는 단계,
올리고뉴클레오티드 서열을 서열분석하는 단계,
올리고뉴클레오티드 서열을 제2 비트 서열로 해독하는 단계,
제2 비트 서열을 제2 비트 스트림으로 조립하는 단계, 및
제2 비트 스트림을 정보의 포맷으로 변환시키는 단계
를 포함하는, 뉴클레오티드를 이용하여 정보를 저장하는 방법.
제9항에 있어서, 올리고뉴클레오티드 서열이 데이터 블록 서열, 비트 스트림 내의 데이터 블록의 위치를 특정하는 어드레스 서열, 또는 증폭 및 서열분석을 위한 올리고뉴클레오티드의 각 말단에의 플랭킹 공통 서열 중 하나 이상 또는 모두를 포함하는 것인 방법.
정보의 제1 포맷을 제1 비트 스트림으로 변환시키는 단계,
제1 비트 서열을 상응하는 올리고뉴클레오티드 서열로 코딩하는 단계,
올리고뉴클레오티드 서열을 합성하는 단계,
올리고뉴클레오티드 서열을 서열분석하는 단계,
올리고뉴클레오티드 서열을 제2 비트 서열로 해독하는 단계,
제2 비트 서열을 제2 비트 스트림으로 조립하는 단계, 및
제2 비트 스트림을 정보의 제2 포맷으로 변환시키는 단계
를 포함하는, 뉴클레오티드를 이용하여 정보를 저장하는 방법.
제11항에 있어서, 올리고뉴클레오티드 서열이 데이터 블록 서열, 비트 스트림 내의 데이터 블록의 위치를 특정하는 어드레스 서열, 또는 증폭 및 서열분석을 위한 올리고뉴클레오티드의 각 말단에의 플랭킹 공통 서열 중 하나 이상 또는 모두를 포함하는 것인 방법.
증폭된 올리고뉴클레오티드 서열을 서열분석하는 단계,
올리고뉴클레오티드 서열을 비트 서열로 변환시키는 단계, 및
비트 서열을 정보의 포맷으로 변환시키는 단계
를 포함하는, 정보의 포맷의 비트 서열을 코딩하는 다수의 합성된 올리고뉴클레오티드 서열로부터 정보의 포맷을 검색하는 방법.
제13항에 있어서, 올리고뉴클레오티드 서열이 데이터 블록 서열, 비트 스트림 내의 데이터 블록의 위치를 특정하는 어드레스 서열, 또는 증폭 및 서열분석을 위한 올리고뉴클레오티드의 각 말단에의 플랭킹 공통 서열 중 하나 이상 또는 모두를 포함하는 것인 방법.
증폭된 올리고뉴클레오티드 서열을 서열분석하는 단계,
올리고뉴클레오티드 서열을 비트 서열로 변환시키는 단계,
비트 서열을 정보의 포맷으로 변환시키는 단계, 및
정보의 포맷을 시각화하는 단계
를 포함하는, 정보의 포맷의 비트 서열을 코딩하는 다수의 합성된 올리고뉴클레오티드 서열로부터 정보의 포맷에 접근하는 방법.
제15항에 있어서, 올리고뉴클레오티드 서열이 데이터 블록 서열, 비트 스트림 내의 데이터 블록의 위치를 특정하는 어드레스 서열, 또는 증폭 및 서열분석을 위한 올리고뉴클레오티드의 각 말단에의 플랭킹 공통 서열 중 하나 이상 또는 모두를 포함하는 것인 방법.