KR102310441B1

KR102310441B1 - Rna-염색질 상호작용 분석용 조성물 및 이의 용도

Info

Publication number: KR102310441B1
Application number: KR1020167008685A
Authority: KR
Inventors: 이준 루안; 메이젠 정; 준홍 오스카 루
Original assignee: 더 잭슨 래보라토리
Priority date: 2013-09-05
Filing date: 2014-09-05
Publication date: 2021-10-07
Also published as: JP6684216B2; US11466307B2; SG11201600645SA; JP2020036598A; IL272171B; IL244191A0; EP3041952B1; CA2936089A1; AU2014315104A1; EP3041952A1; HK1252806A1; US20160177380A1; US20180312908A1; SG10201801779XA; CN105899672A; HK1252807A1; IL272171A; SG10201913351XA; EP3296408A1; US9938565B2

Abstract

본 원에 기재된 본 발명은 시약(예, 키프) 조성물, 및 치우치지 않은 게놈-전반 전략을 실시하여 모든 ncRNA를 위한 기능적 타겟을 확인하는방법을 제공한다.

Description

RNA-염색질 상호작용 분석용 조성물 및 이의 용도 {COMPOSITIONS FOR RNA-CHROMATIN INTERACTION ANALYSIS AND USES THEREOF}

관련 출원 참조

본 출원은 2013년 9월 5일자로 출원된 미국 가출원 번호 제 61/873,928호에 대한 우선권과 이익을 주장하며, 이의 전체 내용은 참조로서 본원에 병합된다.

발명의 배경

비-코딩 RNA (noncoding RNA, ncRNA)는 게놈에서 전사된다고 널리 믿어지고 있으며, 다수의 ncRNA가 확인되었다. 그러나, 어울리지 않게, 그것들의 기능적 역할에 대해서는 아직까지 잘 알려져 있지 않다. 알려진 ncRNA 기능의 대부분은 섭동실험으로 추론되는데, 이것은 ncRNA가 상호작용하는 특정 타겟에 대한 설명이 부족하다. CLIP/RIP-Seq 및 ChiRP-Seq과 같은 기술은 일부 ncRNA이 상호작용하는 단백질 요인과 염색질 위치에 대한 엄청난 통찰력을 제공하고 있다. 그러나, 현재의 방법은 ncRNA 또는 상호작용하는 타겟을 한번에 검사하는 데에 한계가 있다. 따라서, 모든 ncRNA에 대한 기능적 타겟을 확인하기 위하여 치우치지 않은 게놈-전체 전략을 갖는 것이 바람직하다.

본 발명은 RNA-염색질 상호작용 분석용 조성물 및 이의 용도를 제공하고자 한다.

발명의 요약

본 발명의 일 태양은, (1) RNA 링커로서, (i) 제1 폴리뉴클레오티드, 및 (ii) 제2 폴리뉴클레오티드를 포함하며, 상기 제1 및 제2 폴리뉴클레오티드는, 제1 결찰 호환성 말단의 측면에 위치하는 제1 이중 가닥 영역, 및 제1 폴리뉴클레오티드의 3'-말단에서의 3'-돌출부를 형성하되, 상기 3'-돌출부는 랜덤-서열 프라이머를 포함하는 RNA 링커; 및 (2) DNA 링커로서, (iii) 제3 폴리뉴클레오티드, 및 (iv) 제4 폴리뉴클레오티드를 포함하며, 상기 제3 및 제4 폴리뉴클레오티드는, 평활 말단(blunt end) 및 제2 결찰 호환성 말단의 측면에 위치하는 제 2 이중 가닥 영역을 형성하는 DNA 링커를 포함하되, 상기 제1 및 제2 결찰 호환성 말단은 서로 결찰하거나 서로 결찰하는데 적합한 키트를 제공한다.

소정 구현예에서, 상기 제1 결찰 호환성 말단은 제2 폴리뉴클레오티드의 제 3'-말단에서의 3'-돌출부이고, 상기 제 2 결찰 호환성 말단은 제3 폴리뉴클레오티드의 제 3'-말단에서의 3'-돌출부이며, 결찰을 위하여 상기 두 3'-돌출부를 서로 어닐링한다.

소정 구현예에서, 상기 제1 이중 가닥 영역은 상기 랜덤-서열 프라이머의 3'측에 있는 부분을 절단하는 제1 제한 효소(restriction enzyme, RE)를 위한 제1 인식 부위를 포함한다.

소정 구현예에서, 상기 제2 이중 가닥 영역은 상기 제3 폴리뉴클레오티드의 5'측에 있는 부분을 절단하는 제2 제한 효소(RE)를 위한 제2 인식 부위를 포함한다.

소정 구현예에서, 상기 제1, 제2, 제3, 및 제4 폴리뉴클레오티드 중 하나 이상이 DNA이다.

소정 구현예에서, 상기 제1, 제2, 제3, 및 제4 폴리뉴클레오티드 중 하나 이상은 변형 뉴클레오티드이다.

소정 구현예에서, 상기 변형 뉴클레오티드는 비오티닐화 T (티미딘)이다.

소정 구현예에서, 상기 제1 폴리뉴클레오티드는, 랜덤-서열 프라이머 영역에서만 서로 상이한 복수의 폴리뉴클레오티드를 포함한다.

소정 구현예에서, 상기 제1 폴리뉴클레오티드는 동일한 랜덤-서열 프라이머를 갖는 동질 군집(homogeneous population)의 폴리뉴클레오티드를 포함한다.

소정 구현예에서, 상기 랜덤-서열 프라이머는 4, 5, 6, 7, 8개 또는 그 이상의 뉴클레오티드를 포함한다.

소정 구현예에서, 상기 제1 이중 가닥 영역은 상기 RNA 링커와 상기 DNA 링커를 구별하는 독특한 서열을 포함한다.

소정 구현예에서, 상기 제2 이중 가닥 영역은 상기 RNA 링커와 상기 DNA 링커를 구별하는 독특한 서열을 포함한다.

소정 구현예에서, 상기 제1 인식 부위의 마지막 뉴클레오티드는 상기 랜덤-서열 프라이머에 대하여 5' 측에 있는 마지막 염기-쌍 뉴클레오티드이다.

소정 구현예에서, 상기 제2 인식 부위의 마지막 뉴클레오티드는 상기 평활 말단에서의 염기-쌍 뉴클레오티드이다.

소정 구현예에서, 상기 제1 및 제2 제한 효소는 동일하다.

소정 구현예에서, 상기 제1 또는 제2 제한 효소는 AarI, AceIII, AloI, BaeI, Bbr7I, BbvI, BbvII, BccI, Bce83I, BceAI, BcefI, BcgI, BciVI, BfiI, BinI, BplI, BsaXI, BscAI, BseMII, BseRI, BsgI, BsmI, BsmAI, BsmFI, Bsp24I, BspCNI, BspMI, BsrI, BsrDI, BstF5I, BtgZI, BtsI, CjeI, CjePI, EciI, Eco31I, Eco57I, Eco57MI, EcoP15I, Esp3I, FalI, FauI, FokI, GsuI, HaeIV, HgaI, Hin4I, HphI, HpyAV, Ksp632I, MboII, MlyI, MmeI, MnlI, PleI, PpiI, PsrI, RleAI, SapI, SfaNI, SspD5I, Sth132I, StsI, TaqII, TspDTI, TspGWI, TspRI 또는 Tth111II으로부터 독립적으로 선택된다.

소정 구현예에서, 상기 제1 또는 제2 제한 효소의 상기 절단 부위는 상기 인식 부위의 마지막 뉴클레오티드의 3'측에 있는 적어도 약 10, 12, 14, 16, 18, 20개, 또는 그 이상의 뉴클레오티드이다.

소정 구현예에서, 상기 제1 및 제4 폴리뉴클레오티드는 탈인산화된다.

소정 구현예에서, 단백질 및 폴리뉴클레오티드를 가교하는 시약을 추가로 포함한다.

소정 구현예에서, 상기 시약은 포름알데히드를 포함한다.

소정 구현예에서, 염색질의 성분(예, 히스톤)에 특이적으로 또는 선택적으로 결합하는 친화성 시약(예, 항체 또는 단일클론 항체)을 추가로 포함한다.

소정 구현예에서, 손상된 또는 비호환성 5'- 및/또는 3'-돌출 말단을 함유한 DNA를 5'-인산화, 평활-말단 DNA로 전환하는, 말단-보수 혼합물을 추가로 포함한다.

소정 구현예에서, DNA 리가아제(예, T4 리가아제)를 추가로 포함한다.

소정 구현예에서, 단백질과 폴리뉴클레오티드(예, 프로테이나아제 K)의 가교를 가역하는 시약을 추가로 포함한다.

소정 구현예에서, 제1 및/또는 제2 제한 효소를 추가로 포함한다.

소정 구현예에서, 평활-말단된(blunt-ended) 이중 가닥 DNA의 PCR 증폭을 위한 한 쌍의 연접성(concatenating) 어댑터를 추가로 포함한다.

소정 구현예에서, Taq DNA 폴리머라아제를 추가로 포함한다.

소정 구현예에서, 역전사 효소를 추가로 포함한다.

본 발명의 다른 태양은, 대상(subject) RNA 및 DNA 링커의 제1 및 제2 이중 가닥 영역을 포함하는 중앙 영역을 포함하는 쌍-말단 태그(paired-end tag, PET) 폴리뉴클레오티드로서, 상기 중앙 영역은, (1) 상기 제1 이중 가닥 영역의 근접 부위에서, 비-코딩 RNA (ncRNA)의 서열 태그; 및 (2) 상기 제2 이중 가닥 영역의 근접 부위에서, 게놈 DNA의 서열 태그의 측면에 배치되는 쌍-말단 태크 폴리뉴클레오티드를 제공한다.

소정 구현예에서, 상기 비-코딩 RNA(ncRNA)의 서열 태그는 상기 제1 제한 효소에 의한 소화에 의하여 얻어지는 자유단을 가진다.

소정 구현예에서, 상기 비-코딩 RNA(ncRNA)의 서열 태그는 ncRNA가 전사되는 게놈 영역을 독특하게 확인한다.

소정 구현예에서, 상기 비-코딩 RNA(ncRNA)의 서열 태그는 약 8-30개의 염기쌍 길이를 가진다.

소정 구현예에서, 상기 게놈 DNA의 서열 태그는 상기 제2 제한 효소에 의한 소화에 의하여 얻어지는 자유단을 가진다.

소정 구현예에서, 상기 게놈 DNA의 서열 태그는 게놈 DNA가 위치하는 게놈 영역을 독특하게 확인한다.

소정 구현예에서, 상기 게놈 DNA의 상기 서열 태그는 약 8-30개의 염기쌍 길이를 가진다.

본 발명의 다른 태양은, 대상 PET 폴리뉴클레오티드의 둘 이상의 멤버를 포함하는 쌍-말단 태그(paired-end tag, PET) 라이브러리로서, 상기 PET 라이브러리의 각 멤버는 동일한 상기 중앙 영역, 및 비-코딩 RNA(ncRNA)의 상이한 상기 서열 또는 상기 게놈 DNA의 상이한 상기 서열 태그 또는 둘 다를 포함하는 쌍-말단 태그 라이브러리를 제공한다.

소정 구현예에서, 상기 대상 PET 폴리뉴클레오티드를 포함하는 벡터를 제공한다.

소정 구현예에서, 연접된 대상 PET 폴리뉴클레오티드를 복수개 포함한다.

소정 구현예에서, 상기 대상 PET 폴리뉴클레오티드를 2개 이상을 포함하는 콘카테머(concatemer)를 제공한다.

본 발명의 다른 태양은, 게놈의 비-코딩 RNA (ncRNA)를 위한 게놈 내에서 기능적 상호작용 좌위를 확인하는 방법으로서, 상기 방법은, (1) 가교된 게놈 DNA 단편 및 가교된 ncRNA를 포함하는 염색질 단편을 제공하는 단계; (2) 제1항의 RNA 링커 및 DNA 링커를 이용하여, 근접 결찰의 조건 하에서, 가교된 게놈 DNA 단편의 말단을 가교된 ncRNA의 cDNA의 말단에 결찰하는 단계로서, 상기 가교된 게놈 DNA 단편의 상기 말단이 상기 DNA 링커에 결찰되고, 상기 가교된 ncRNA의 상기 cDNA의 상기 말단은 상기 RNA 링커를 포함하는 단계: (3) 시퀀싱 분석을 위하여, 제29항의 PET 폴리뉴클레오티드를 단리하는 단계; 및 (4) 상기 각 PET 폴리뉴클레오티드 내의 상기 게놈 DNA의 서열 태그 및 상기 ncRNA의 상기 서열태그를 참조 게놈에 맵핑하여, 상기 참조 게놈의 상기 비-코딩 RNA (ncRNA)를 위한 참조 게놈 내에서 기능적 상호작용 좌위를 확인하는 단계를 포함하는 방법을 제공한다.

소정 구현예에서, 상기 ncRNA 및 상기 게놈 DNA는 포름알데히드-매개 가교를 통하여 살아있는 세포에서 가교한다.

소정 구현예에서, 염색질 단편은 초음파 처리에 의하여 생성한다.

소정 구현예에서, 상기 가교된 ncRNA의 상기 cDNA는 상기 RNA 링커의 랜덤-서열 프라이머로부터 역전사된 제1 가닥 cDNA, 및 ncRNA 템플릿을 포함한다.

소정 구현예에서, 근접 결찰 이후 (3) 단계 이전에, 제 2 가닥 cDNA 합성을 실시한다.

소정 구현예에서, 상기 방법은 (2) 단계 이전에, 가교된 게놈 DNA 단편의 말단을 5'-인산화되고, 평활-말단된 DNA로 수복하는 단계를 추가로 포함한다.

소정 구현예에서, 상기 DNA 링커의 상기 제3 폴리뉴클레오티드는 탈인산화되고, 상기 DNA 링커는 자가-결찰하지 않는다.

소정 구현예에서, 상기 방법은 게놈 DNA의 중첩 서열 태그 및 ncRNA의 중첩 서열 태그를 갖는 둘 이상의 PET 폴리뉴클레오티드의 클러스터를 확인하는 단계를 추가로 포함한다.

소정 구현예에서, 상기 방법은 rRNA의 서열 태그를 포함하는 PET 폴리뉴클레오티드를 배제하는 단계를 추가로 포함한다.

소정 구현예에서, 상기 방법은 (2) 단계 이전에, 염색질 단편 서브세트를 단리하거나 농축하는 단계를 추가로 포함한다.

소정 구현예에서, 상기 염색질 단편 서브세트의 단백질 성분에 특이적인 항체를 이용하여, 상기 염색질 단편 서브세트를 면역침전에 의하여 단리하거나 농축한다.

소정 구현예에서, 상기 단백질 성분은 히스톤, 전사 인자, 폴리콤-그룹(polycomb-group, PcG) 패밀리 단백질; 재조합 관여 인자; 염색질 인슐레이터(insulator) 또는 염색질 웨이버(waver); 메틸-CpG-결합 단백질; 또는 RNA 결합 단백질이다.

제한되지 않는, 임의의 기술, 시약, 실험 조건, 제한 부위, 효소, 벡터, 프라이머 등을 포함하여, 본 발명의 일 구현예(예를 들어, 실시예에만 기재된 구현예)를 실시하려는 목적을 위하여 기재된 어떠한 서술도, 본 발명의 일 (그러나 다른) 태양에서 상세히 기재된 구현예들을 포함하여, 본 발명의 다른 구현예와 조합하여 사용될 수 있음을 알아야 한다. 발명의 본 구현예에 대한 다른 구현예에서 기재된 기술 및 물질을 어떻게 채용할 것인지는 당업자에게 명백할 것이다.

본 발명에 따르면 RNA-염색질 상호작용 분석용 조성물 및 이의 용도가 제공된다.

도 1a는 RNA 링커 및 DNA 링커 쌍을 이용한 RICh-PET 방법의 전형적인 설정의 개략적 흐름을 보여준다. 염색질과 ncRNA의 상호작용을 가교에 의하여 캡쳐링하고, 초음파처리하여 염색질 섬유를 RNA, DNA, 및 단백질 성분을 갖는 테더링 복합물(tethering complexes)로 분해한다. 이어서, 각 염색질 단편 복합물의 테더링된 RNA 및 DNA를, 방향성 및 특이성을 위한 독특한 서열 바코드도 가질 수 있는, 특이적으로 설계된 RNA 링커 및 DNA 링커에 의하여 매개된 결찰 반응(ligation reaction) 세트에 의하여 연결한다. 각 염색질 복합물에서, RNA의 3'-말단을 RNA의 무작위 헥사머 돌출 부분으로 어닐하고 cDNA 합성을 위한 역전사를 실시한다. 한편, DNA 링커를 테더링된 DNA 단편의 평활 말단에 결찰에 의하여 첨가한다. 과량의 링커 올리고를 세척한 후, 부착된 RNA 및 DNA 링커를 서로 결찰시켜, 테더링된 RNA 및 DNA 분자를 연결한다. 역 교차 후, 하이브리드 결찰 생성물을, 전단(shearing) 또는 한정(restriction) 소화에 의하여, 추가 증폭, 시퀀싱, 및 맵핑 분석을 위하여, 원하는 크기로 단편화하여, RNA가 전사되는 위치 및 게놈에서 그것이 상호작용하는 위치를 확인한다.
도 1b는 변경된 RNA 링커를 이용한 RICh-PET 방법의 전형적인 설정의 개략적 흐름을 보여준다.
도 1c는 직접 RNA 링커를 이용한 RICh-PET 방법의 전형적인 설정의 개략적 흐름을 보여준다. "App"는 제1 폴리뉴클레오티드의 5'-말단에서 5'-아데닐화를 나타낸다.
도 2a 내지 도 2c는 선택된 RICh-PET 라이브러리의 통계, 및 시퀀싱 및 맵핑 데이터를 나타낸다. 도 2a는 단일 PET (기타 PET 서열과 중복되지 않음) 및 PET 클러스터의 비율을 나타낸다. PET 클러스터 데이터를 이용하여, 대략 700 RNA 좌위 및 약 5000 DNA 좌위를 확인하였다. 도 2b는 RICh-PET 데이터에 의하여 확인된 RNA 및 DNA 좌위에서의 RNA-Seq 세기를 보여준다. 도 2c는 ncRNA 상호작용을 정의한 대부분의 RICh-PET 데이터는 트랜스-작용적(trans-acting)이고 염색체 간(inter-chromosomal)에 대한 것임을 보여 준다.
도 3은 상기 대상 방법의 재현성 및 감도를 입증한다. 도면은 인공 및 생물학적 복제물에서 확인된 RNA 상호작용 부위의 비교를 보여주는 대표적인 분산 그래프를 나타낸다. 공지의 lncRNAs MALAT1(PET 카운트 174) 및 NEAT1(PET 18)를 RICh-PET 데이터(미도시)에서 반복적으로 검출하였다. 또한, RNAPII ChIA-PET 데이터는, 이러한 두 IncRNA도 공동조절을 위하여 가능한 동일한 RNAPII 전사 복합물 내에서 공간적으로 연결됨을 보여 준다. 또한, RNA-Seq 및 RNA-PET 데이터를 이용하여 HeLa S3(데이터 미도시)에서 ncRNA 유전자의 발현 레벨을 평가하였다. 두 데이터는, MALAT1는 고도로 발현되고, NEAT1는 중간 레벨로 발현되며, HOTAIR는 매우 낮은 레벨로 발현된다는 것을 보여 주었다. HOTAIR 위치에서의 RICh-PET 맵핑은 이 부분(데이터 미도시)에서 빈약한 RICh-PET 데이터를 보여 준다.
도 4a 내지 4b는 NEAT1 및 MALAT1 RICh-PET 데이터를 입증하기 위한 데이터를 보여 준다. 도 4a는 두 NEAT1 및 MALAT1가 HeLa S3 세포에서 발현되고, RICh-PET 데이터에서 풍부하게 검출된다는 것을 보여 준다. 두 RNA 및 DNA 태그들은 동일한 위치에서 단거리에서 맵핑되기에, NEAT1는 시스-작용적(cis-acting)에서만 한정적이다. DNA 태그들은 동일한 염색체 또는 상이한 염색체에서 장거리로 맵핑되기에, MALAT1는 대부분 트랜스-작용적이다(inset). 도 4b는 인간 A549 및 HeLa S3에서 RNA-FISH 실험을 보여준다. NEAT1 프로브는 적은 형광 스폿(HeLa S3 세포에서 핵 당 1~2)을 생성하는 반면에서, MALAT1 프로브는 훨씬 많은 형광 스폿(HeLa S3 세포에서 핵 당 13)을 생성하였다. 카운트는 실험당 프로브당 100개의 핵을 기반으로 한다.
도 5a 및 도 5b는 RICh-PET 데이터를 특성화한 것이다. 도 5a는 게놈에서 RNA 태그 클러스터 위치의 카테고리의 파이 차트를 보여 주는 것으로, 대부분의 RNA 태그들은 추정 ncRNA 영역에서 발견되는데, 3%만이 단백질을 코딩하는 엑손과 중첩한다. 많은 공지된 ncRNA를 검출하고, 많은 새로운 ncRNA를 확인하였다. 도 5b는 게놈에서 DNA 태그 클러스터 위치의 카테고리의 파이 차트를 보여 주는 것으로, 대부분의 DNA 태그 클러스터들은, 대부분 프로모터 또는 인트론에서, 단백질 코딩 영역에 맵핑하였다.
도 6a 및 도 6b는 MALAT1 상호작용에 의한 다중-표적 및 다중-기능을 보여준다. 도 6a는 59 게놈 좌위와 상호작용하는 MALAT1의 연결성 맵이다. 도 6b는 프로모터 영역에서 MALAT1를 갖는 유전자가, 인트론 영역에서 MALAT1 상호작용을 갖는 유전자보다, 더 높은 RNA-seq 리드(reads)를 가지고 있다는 것을 보여주는 박스 그래프를 나타낸다. RNAPII ChIP-Seq 세기의 집합 그래프(미도시)에서, 프로모터 영역에서 MALAT1 존재를 갖는 유전자가 인트론 영역에서 MALAT1 상호작용을 갖는 유전자보다 더 높은 RNA-seq 리드를 가지고 있다.
도 7은 몇 개의 타겟 유전자를 위한 전사 활성체 또는 공동-활성체로서 작용하는 CCAT1 및 이의 IncRNA 전사체의 개괄적 도면을 보여준다.
도 8a는 서열번호 9에 해당하는, CCAT1 게놈성 및 cDNA 서열의 인간 염색체 8번 상에서의 위치를 보여준다. 도 8b는 서열번호 1내지 8에 해당하는, 8개의 추가적인 CCAT1 게놈성 및 cDNA 서열(각각 CCAT1_JAX_1 내지 _8)의 인간 염색체 8번 상에서의 위치를 보여준다. 채워진 박스는 엑손 서열을 나타내는 반면에, 엑손 서열을 연결하는 선은 인트론 서열을 나타낸다.
도 9a는 100만 리드당 kb당 리드(reads per kb per million reads, RPKM)에서, RNA-Seq 데이터에 의하여 측정된 XIST (여성 세포에서 X 염색체를 특이적으로 타겟팅함)의 카운트를 보여준다.
도 9b는 XIST 결합으로 커버링된 각 염색체의 비율을 보여준다.

발명의 상세한 설명

1. 개관

본원에 기재된 발명은, ncRNA가 핵 공간에서 후생적 조절 역할을 한다면, 염색질 상태 및 타겟 유전자 활성을 조절하기 위하여 기능이 일어나는, 염색체 내의 소정 위치에서 염색질과 직접적으로 또는 간접적으로 상호작용해야 할 것이라는 사실에 부분적으로 기초한다. 따라서, 본원에 기재된 발명은 RNA-DNA 결찰을 통하여 ncRNA-염색질 상호작용을 전반적으로 맵핑한 후, 쌍 말단-태그 시퀀싱을 하는 새로운 접근법(RICh-PET)을 제공한다.

간략히, 본원에 기재된 조성물은 다음 세 가지 주요한 부분을 포함하는 방법에 이용될 수 있다: 1) 살아있는 세포(예컨대, 생체외로 배양된 세포 또는 조직 샘플에서 얻은 1차 세포)에서 RNA, DNA, 및 단백질 사이의 (바람직하게는 모든) 분자 상호작용을 캡쳐링하기 위한 염색질 가교; 2) 테더링된 상호작용하는 RNA와 염색질 DNA 단편의 결찰(예, RNA 링커 및 DNA 링커 쌍과 같이, 특이적으로 설계된 링커를 통하여, 또는 RNA 3'-말단에서부터 5'-아데닐화 ssDNA 또는 5'-아데닐화 돌출부를 통하여); 및 3) ncRNA 전사 부위 및 게놈에서 그것들의 염색질 타겟 부위를 국소화하기 위하여 RNA-DNA 결찰 생성물 또는 그로부터 유래된 태그 서열(예, PET 폴리뉴클레오티드)의 시퀀싱 및 맵핑 분석.

따라서, 본 발명의 일 태양은 게놈의 비-코딩 RNA (ncRNA)를 위한 게놈 내에서 기능적 상호작용 좌위를 확인하는 방법으로서, 상기 방법이 (1) 가교된 게놈 DNA 단편 및 가교된 ncRNA (또는 이의 단편)을 포함하는 염색질 단편을 제공하는 단계; (2) 근접 결찰의 조건 하에서, 가교된 게놈 DNA 단편의 말단을 가교된 ncRNA의 말단에 결찰하는 단계; (3) 시퀀싱 분석을 위하여, 쌍-말단 태그(PET) 폴리뉴클레오티드를 단리하는 단계로서, 상기 PET 폴리뉴클레오티드는 비-코딩 RNA (ncRNA)의 서열태그 및 게놈 DNA의 서열 태그를 포함하는 단계; 및 (4) 상기 게놈 DNA의 서열 태그 및 상기 ncRNA의 서열태그를 참조 게놈에 맵핑하여, 상기 참조 게놈의 상기 비-코딩 RNA (ncRNA)를 위한 참조 게놈 내에서 기능적 상호작용 좌위를 확인하는 단계를 포함하는 방법을 제공한다.

이러한 RNA-DNA 결찰 접근법은 모든 ncRNA-염색질 상호작용에 대한 전반적인 연구에 적용될 뿐만 아니라, 특이적인 염색체 위치에서의 RNA-단백질 상호작용을 연구하는 데에 적용될 수 있다. 따라서, 염색체 면역침전(chromosomal immunoprecipitation, ChIP)-기반 RICh-PET 방법은 RNA-단백질-염색질 상호작용 정보의 추가적인 특이성을 제공할 수 있었다.

본 발명의 시약 및 방법은 연구, 개발, 약물 타겟 규명(drug target identification), 약물 스크리닝, 진단, 치료/효능 모니터링, 예측 등등의 넓은 범위에서 잠재적 용도를 가진다. 예를 들면, 본 발명의 시약 및 방법을 사용하여, 많은 확립된 세포주, 줄기 세포, iPS 세포, 및 암과 건강한 조직 대조군에서 유래되는 세포와 같은 일차 조직으로부터의 세포에서 ncRNA-염색질 상호작용체를 광법위하게 특성화할 수 있으며; 게놈의 생산을 조절하는 데 있어서, 거대한 복합체 세계의 RNA 기능을 규명하는 능력을 크게 증가시킬 수 있다. RNA-염색질 상호작용체의 특성화를 성공적으로 이루어냄으로써, 건강한 조건 그리고 질병있는 조건에서 게놈이 어떻게 기능하는지를 이해하는데 도움을 주는 또 다른 차원의 게놈 정보를 추가하도록 하는, 대부분의 ncRNA 종의 광범위한 염색질 어드레스를 제공한다.

본 발명의 몇 개의 특정 구현예가 하기에 더 자세히 기재되어 있다.

a) RNA 링커 및 DNA 링커 쌍

제1 특정 구현예에서, 본 발명의 상기 방법을 RNA 링커 및 DNA 링커 쌍을 이용하여 실시하여 동일한 염색질 단편에서 가교된 RNA 및 염색체 DNA를 결찰할 수 있다.

따라서, 본 발명의 일 태양은, (1) RNA 링커로서, (i) 제1 폴리뉴클레오티드, 및 (ii) 제2 폴리뉴클레오티드를 포함하며, 상기 제1 및 제2 폴리뉴클레오티드는, 제1 결찰 호환성 말단의 측면에 위치하는 제1 이중 가닥 영역 및 제1 폴리뉴클레오티드의 3'-말단에서의 3'-돌출부를 형성하되, 상기 3'-돌출부는 랜덤-서열 프라이머를 포함하는 RNA 링커; 및 (2) DNA 링커로서, (iii) 제3 폴리뉴클레오티드, 및 (iv) 제4 폴리뉴클레오티드를 포함하며, 상기 제3 및 제4 폴리뉴클레오티드는, 평활 말단(blunt end) 및 제2 결찰 호환성 말단의 측면에 위치하는 제 2 이중 가닥 영역을 포함하는 DNA 링커를 포함하되, 상기 제1 및 제2 결찰 호환성 말단은 서로 결찰하거나 서로 결찰하는데 적합한 키트를 제공한다.

소정 구현예에서, 제1 결찰 호환성 말단은 제2 폴리뉴클레오티드의 제 3'-말단에서 3'-돌출부이고, 제 2 결찰 호환성 말단은 제3 폴리뉴클레오티드의 제 3'-말단에서 3'-돌출부이며, 두 3'-돌출부는 결찰을 위하여 서로 어닐링한다.

소정 구현예에서, 제1 결찰 호환성 말단은 제1 폴리뉴클레오티드의 제 5'-말단에서 5'-돌출부이고, 제 2 결찰 호환성 말단은 제4 폴리뉴클레오티드의 제 5'-말단에서 5'-돌출부이며, 두 5'-돌출부는 결찰을 위하여 서로 어닐링한다.

소정 구현예에서, 제1 및/또는 제2 결찰 호환성 말단은 결찰에 적응적일 수 있다. 예를 들면, 필수 3' 또는 5' 결찰용 돌출부를 가지는 대신에, 제1 및/또는 제2 결찰 호환성 말단은, RE에 의하여 절단되어 결찰에 필요한 필수 3' 또는 5' 돌출부를 생성할 수 있는 제한 효소(RE)의 부위를 포함할 수 있다. 그러나, 제한 효소에 의한 절단 전에, 결찰 호환성 말단은 말단이 평활화하거나(예, 자기-결찰을 방지하기 위한 탈인산화된 평활 말단), 기타 결찰 호환성 말단과 자기-결찰 또는 결찰을 막는 비-호환성 돌출부를 가질 수 있다.

소정 구현예에서, 호환성 결찰 말단의 두 5'- 또는 3'-돌출부는 자기-어닐링하지 않으며 서로 어닐링하지 않는다. 이는, 예를 들면, 적어도 링커가 사용될 수 있는 조건 하에 있을 경우, 돌출부 서열들은 자기-어닐링하거나 서로 어닐링하도록 돌출부의 서열을 설계함으로써, 달성할 수 있다.

이러한 설계는, 예를 들면, 하향단계가 PCR 증폭을 포함하는, 소정 구현예에서 유리할 수 있다. 흔히 관찰되는 형태의 비-특이적 증폭 산물은 "프라이머 다이머(primer dimer)"로 불리는 증폭 반응의 템플릿-독립적 가공물(template-independent artifact)이며, 이것은, 길이가 일반적으로 두 개의 프라이머 길이의 합에 가까운 이중-가닥 단편이며, 하나의 프라이머가 다른 프라이머 너머로 연장되는 경우에 나타난다. 그 결과의 연장 산물은 바람직하지 않은 템플릿을 형성하는데, 이것은 그 짧은 길이로 인하여 효율적으로 증폭된다.

제1, 제2, 제3, 및 제4 폴리뉴클레오티드 각각은, 합성된 폴리뉴클레오티드와 같은, 별도의 용기 내에서, 냉동건조 형태나 동결건조 형태로 또는 물이나 적합한 버퍼 용액 내에서, 제공될 수 있다. 대안적으로, 제1 및 제2 폴리뉴클레오티드는 동일한 용기에서, 예를 들면, 1:1 몰 비율로, 조합되어, 예비-어닐링된 RNA 링커로서 이용될 수 있다. 유사하게, 제3 및 제4 폴리뉴클레오티드는 동일한 용기(동결건조 또는 용액 내에서)에서, 예를 들면, 1:1 몰 비율로, 조합되어, 예비-어닐링된 DNA 링커로서 이용될 수 있다.

제2, 제3, 및 제4 폴리뉴클레오티드는 본질적으로 동종이거나 순수한(예, 동일한 용기 내의 개별 폴리뉴클레오티드 분자들은 동일함) 반면에, 제3'-돌출부 영역의 제1 폴리뉴크레오티드의 제3'-말단은 랜덤-서열 프라이머(예, 동일한 용기 내의 개별 제1 폴리뉴클레오티드 분자는, 각각이 3'-돌출부 영역 내에서 상이한 랜덤 서열 프라이머를 가질 수 있다는 것을 제외하고는, 동일함)를 포함한다. 따라서, 제1 폴리뉴클레오티드는, 개별 폴리뉴클레오티드의 랜덤-서열 프라이머 영역에서만 상이한 폴리뉴클레티드의 혼합물인 점에서, 독특(unique)할 수 있다.

그러나, 관련 구현예에서, 정의된 3'-말단 서열을 갖는 특이적 ncRNA가 관심의 대상이라면, 정의된 3'-말단 서열을 갖는 특이적 ncRNA으로부터 특이적으로 제1 가닥 cDNA 합성을 개시하기 위하여, 본 발명의 제1 폴리뉴클레오티드는 동일한 매칭 서열을 랜덤-서열 프라이머 영역에서 동종적으로 함유할 수 있다.

랜덤-서열 프라이머는, 일반적으로, 비-코딩 RNA의 3'-말단으로부터 제1 가닥 cDNA 합성을 지시할 수 있기 위한 충분한 길이(예, 헥사머)를 가진다. 헥사머 랜덤 서열을 이용할 수 있는 경우에도, 4, 5, 7, 8, 9, 10, 11, 및 12개의 랜덤 서열 프라이머와 같은 다른 길이도 이용할 수 있다.

소정 구현예에서, 랜덤-서열 프라이머에서 가장 많은 3'-말단은 디옥시티미딘(T) 또는 우리딘(U), 또는 mRNA의 폴리 A 테일에서 아데닌(A)을 갖는 염기 쌍일 수 있는 기타 뉴클레오티드 유사체도 아니다. 그러한 설계는 mRNA의 폴리 A 테일로부터의 역전사를 회피하도록 도울 수 있다.

제2 및 제3 폴리뉴클레오티드의 3'-말단(제1 및 제2 결찰 호환성 말단)에서의 5'- 또는 3'-돌출부를 서로 어닐링하도록 상보적으로 설계한다. 제2 및 제3 폴리뉴클레오티드의 돌출부 영역의 길이는 동일할 수 있으나, 동일할 필요는 없다. 소정 구현예에서, 두 폴리뉴클레오티드의 돌출부 영역에서 약 2, 3, 4, 5, 6, 7, 8개 또는 그 이상의 뉴클레오티드는 상보적이며 염기 쌍(왓손-크릭 또는 워블 염기 쌍)을 형성할 수 있다.

소정 구현예에서, RNA 링커 상의 제1 이중 가닥 영역의 길이는 약 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 50, 60개 또는 그 이상의 염기 쌍이다.

소정 구현예에서, DNA 링커 상의 제2 이중 가닥 영역의 길이는 약 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 50, 60개 또는 그 이상의 염기 쌍이다.

소정 구현예에서, 결찰된 RNA-DNA 링커에서, 제1 및 제2 이중 가닥 영역의 총 길이는, 약 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80개 또는 그 이상의 염기 쌍이다.

소정 구현예에서, 제1 이중 가닥 영역은, II형 제한 효소(RE)와 같은, 제1 제한 효소의 제1 인식 부위를 포함할 수 있다. RE 인식 부위는, RE가 그 부위를 절단할 때, RE 부위의 밖, 즉 랜덤-서열 프라이머에 대한 3'측을 절단할 수 있도록, 전략적으로 위치할 수 있다. 이는 RNA 링커에 연결된 RNA 태그를 생성할 수 있게 한다. 예를 들면, MmeI 인식 부위는, 제1 이중 가닥 영역의 일 말단에, 즉 제1 이중 가닥 영역의 다른 말단에서 떨어진 말단에 위치할 수 있다(RNA 링커 및 DNA 링커가 이들 각각의 3'-돌출부 영역을 통하여 연결하는 경우). MmeI가 절단하는 경우, 2-bp 돌출부를 갖는 18-bp 단편을 포함하는 RNA 태그가, 연결된 ncRNA에서 유래된 cDNA에서 생성하도록, MmeI 부위는 방향성을 가지도록 설계된다. 그러나, RE 부위의 배치는 제1 이중 가닥 영역의 말단에 있을 필요가 없다. 더 많은 내부 배치로 인하여, 대응적으로 더 짧은 RNA 태그 서열이 생성된다.

소정 구현예에서, 상기 (제1(II형) 제한 효소의) 제1 인식 부위의 마지막 뉴클레오티드는 랜덤-서열 프라이머에 대하여 5'측에 있는 마지막 염기-쌍 뉴클레오티드이다.

동일하게, 소정 구현예에서, 제2 이중 가닥 영역은, 제2 RE 인식 부위에 대하여 3'측 부분과 제3 폴리뉴클레오티드에 대하여 5'측 부분을 절단할 수 있는, II형 제한 효소(RE)와 같은, 제2 제한 효소에 대한 제2 인식 부위를 포함할 수 있다. RE 인식 부위의 배향은, 연결된 게놈 DNA의 말단 서열에 기초하여 DNA 태그를 생성하는 방식으로, 배열된다. 소정 구현예에서, RE 부위의 배치는 제2 이중 가닥 영역의 말단에 있을 필요가 없다. 더 많은 내부 배치로 인하여, 대응적으로 더 짧은 RNA 태그 서열이 생성된다.

소정 구현예에서, (제2(II형) 제한 효소의) 제2 인식 부위의 마지막 뉴클레오티드는 평활 말단에서 염기-쌍 뉴클레오티드이다.

소정 구현예에서, 제1 및 제2 (II형) 제한 효소들은 동일하다. 다른 구현예에서, 제1 및 제2 (II형) 제한 효소들은 상이하다.

I형 또는 III형 RE와 같은, 상대적으로 긴 태그 서열을 생성하는 RE에서, 제1 및 제2 RE 인식 서열의 배향은 역전되어, RNA 링커 내의 RE 부위가 DNA 태그의 생성을 지시하도록 하는데 반하여, DNA 링커 내의 RE 부위는 RNA 태그의 생성을 지시할 수 있도록 한다.

두 개의 인식 부위(IIB형 RE와 같은)를 인식하는 RE에서, RE 부위의 하나는 RNA 링커 내에 있고, 다른 하나는 DNA 링커에 있을 수 있어서, RNA 및 DNA 링커가 설계대로 정확하게 결찰되어 전체 RE 인식 부위를 재구성하는 경우, RE는 절단만 한다.

본 발명에 따라 이용될 수 있는 적합한 제한 효소가 하기에 상세히 기재되어 있다. 소정 구현예에서, 제1 또는 제2 제한 효소의 절단 부위는 인식 부위의 마지막 뉴클레오티드에 대하여 3'측 부분에는 적어도 약 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30개 또는 그 이상의 뉴클레오티드이다.

소정 구현예에서, RNA 링커, DNA 링커, 또는 둘 다는 RNA 태그 또는 DNA 태그를 생성하기 위한 제한 효소 인식 부위를 가지지 않는다.

소정 구현예에서, 제1, 제2, 제3 및 제4 폴리뉴클레오티드 중 하나 이상은 DNA이거나(예, 모두 DNA), DNA 및 RNA 모두를 포함한다. 다른 구현예에서, 그것들 중 임의의 하나는 RNA일 수 있다.

소정 구현예에서, 제1, 제2, 제3 및 제4 폴리뉴클레오티드 중 하나 이상은 변형 뉴클레오티드를 포함할 수 있다. 변형 뉴클레오티드는 5'-말단에, 3'-말단에, 및/또는 내부 위치에 있을 수 있다.

소정 구현예에서, 변형 뉴클레오티드는, 비오티닐화 dT(디옥시-티미딘)과 같은, 비오티닐화 뉴클레오티드이다. 비오티닐화 뉴클레오티드의 존재는, 예를 들면, 아비딘 또는 스트렙타비딘과 같은, 비오틴 결합 파트너에 결합된 수지, 아가로스, 나노입자, 금속 또는 자성 비드를 이용함으로써, 그러한 비오티닐화 뉴클레오티드를 하나 이상 포함하는 폴리뉴클레오티드의 친화성 정제를 허용한다. 이어서, 그러한 비드를 자석으로 분리할 수 있다. 비오티닐화 뉴클레오티드는 RNA 링커, DNA 링커, 또는 둘 다에 존재할 수 있다. 또한, 이 기술은, 단일 분자 실시간 시퀀싱(Pacific Bio); 이온 반도체 (Ion Torrent sequencing); 피로시퀀싱(454); 합성에 의한 시퀀싱(Illumina); 결찰에 의한 시퀀싱(SOLiD sequencing); 폴로니(polony) 시퀀싱; 대규모 병렬 시그네쳐 시퀀싱 (massively parallel signature sequencing, MPSS); DNA 나노볼 시퀀싱; 단일 분자 시퀀싱 또는 컬러 비드 또는 레이저- 또는 FACS-기반 분류용 기타 항체를 이용하는, Luminex-타입 시스템과 함께 사용하는 것 같은, 고속 처리 차세대 시퀀싱과 조합할 수 있다.

소정 구현예에서, 변형 뉴클레오티드는, ncRNA의 3'-말단을 갖는 랜덤 프라이머 사이에서 혼성화의 안정성 및/또는 특이성을 강화하는 것 같은, 랜덤 서열 프라이머의 능력을 강화하여, 역전사를 통하여 제1 가닥 cDNA를 합성한다.

소정 구현예에서, 랜덤 프라이밍 서열은, 자연적으로 발생하는 DNA 및 RNA에서 발견되는 종래의 2'-디옥시-D-리보스 또는 D-리보스 이외에, 당을 포함하는 적어도 하나의 뉴클레오티드를 포함할 수 있는데, 예를 들면, 곁기(side group)의 첨가 또는 치환에 의하여 당이 변환된 뉴클레오티드, 또는 당이 자연적으로 발생하는 DNA, RNA, 또는 둘 다에서 발견되는 종래의 2'-디옥시-D-리보스 또는 D-리보스의 입체이성질체인 뉴크레오티드를 포함할 수 있다. 미국 특허 번호 제 6,794,142호 참조(본원에 참조로서 병합됨). 그러한 변형 뉴클레오티드는 랜덤 프라이밍 서열의 3'-말단에 또는 근처에 있을 수 있다. 한 구현예에서, 변형 랜덤 프라이머 서열은, 3개의 3' 말단 뉴클레오티드 중 적어도 하나가 2'-O-메틸-뉴클레오티드, 2'-아미노-뉴클레오티드, 및 2'-플루오로-뉴클레오티드로 구성되는 군에서 선택되는 변형 뉴클레오티드인, 올리고뉴클레오티드로 본질적으로 구성된다. 한 구현예에서, 변형 랜덤 프라이머 서열은, 3개의 3' 말단 뉴클레오티드 중 적어도 하나가 2'-O-메틸-리보뉴클레오티드, 2'-디옥시-2'-아미노-뉴클레오티드, 및 2'-디옥시-2'-플루오로-뉴클레오티드로 구성되는 군에서 선택되는 변형 뉴클레오티드인, 올리고뉴클레오티드로 본질적으로 구성된다. 이러한 변형은 2' OH에 일부가 첨가하거나 2'-OH를 대체 부분으로 치환하는 것을 나타낸다.

소정 구현예에서, 랜덤 프라이밍 서열은 하나 이상의 LNA 또는 PNA를 포함한다. 헤어핀(hairpins)과 같은, RNA에서 흔하지 않은 열역학적으로 안정한 구조적 단편의 존재는, 프라이머 연장을 실행하는 것을 거의 불가능하게 할 수 있다. DNA 프라이머를 LNA-변형 프라이머로 치환하면, 이러한 한계를 극복할 수 있다 (Fratczak 등, Biochemistry, 48(3):514-6, 2009; Uppuladinne 등, Biomol . Struct. Dyn ., 31(6):539-60, 2013 참조).

뉴클레아제 분해에 저항성이 있는 뉴클레오티드간 연결을 만드는, 티오포스페이트(또는 포스포로티오에이트, 일반 화학식 PS_4- _xO_x ³ ^- (x = 0, 1, 2, 또는 3)을 갖는 화합물 및 양이온의 일원) 변형과 같은, 다른 변형 뉴클레오티드, 모르폴리노 올리고뉴클레오티드, 2' F-ANA, 2'-O-알킬, 등도 링커에 결합하여 링커의 안정성과 뉴클레아제 저항 능력을 강화시킬 수 있다. Verma & Eckstein, "Modified oligonucleotides: synthesis and strategy for users,"Annu . Rev. Biochem ., 67:99-134, 1998 (본원에 참조로서 병합됨)을 참조.

소정 구현예에서, RNA 링커 및/또는 DNA 링커는, RNA 링커를 DNA 링커로부터 구별하거나 RAN/DNA 링커를 다른 RNA/DNA 링커로부터 구별하는(예, 두 셋트 이상의 RNA 링커가 함께 사용되는 경우) 독특한 서열(예, "바 코드")을 포함할 수 있다. 예를 들면, 제1 및/또는 제2 이중 가닥 영역은 RNA 링커를 DNA 링커로부터 구별하는 독특한 서열을 포함할 수 있다. 그러한 바 코드는, 2-, 3-, 4-, 5-, 6-, 7-, 8-, 9-, 10-뉴클레오티드 서열 (또는 그 이상)과 같은, 간단히 소형의 독특한 서열일 수 있다. 소정 구현예에서, RNA 링커 및 DNA 링커의 서열 차이는 RNA 링커를 DNA 링커로부터 구별하는데 충분할 수 있다. 소정 구현예에서, RNA 링커만이 또는 DNA 링커만이 독특한 서열/바 코드를 가진다. 소정 구현예에서, 두 RNA 링커와 DNA 링커가 각각의 독특한 서열/바 코드를 가진다.

소정 구현예에서, 제1 폴리뉴클레오티드는 탈인산화된다. 소정 구현예에서, 제2 폴리뉴클레오티드는 탈인산화된다. 소정 구현예에서, 제3 폴리뉴클레오티드는 탈인산화된다. 소정 구현예에서, 제4 폴리뉴클레오티드는 탈인산화된다. 탈인산화는, 각각이 동일한 염색질 단편 내 염색체 DNA 단편에 결찰될 수 있는 두 DNA 링커의 평활 단말을 통한 자가-결찰과 같은, 폴리뉴클레오티드 또는 DNA/RNA 링커의 자가-결찰을 회피하는 것을 도모할 수 있다. 또한, 링커 또는 링커의 결찰가능한 말단이 탈인산화된다면, 링커들은 결찰하여 링커의 다이머 또는 콘카테머(concatemer)를 형성할 것 같지는 않으리라 예상된다. 또한, DNA 링커가 염색체 DNA 분자의 인산화된 말단에 결찰하지만, 염색체 DNA 분자의 말단이 인산화될 때까지는 DNA 링커는 염색체 DNA 분자의 말단에 결찰연결될 수 없을 것이라 생각된다.

대안적인 구현예에서, 제1 및 제2 폴리뉴클레오티드는 혼성하거나; 한 말단에, 제1 폴리뉴클레오티드의 랜덤 프라이밍 서열을 포함하는 3'-돌출부를 가지며, 다른 말단에, 제한 효소를 위한 인식 부위를 포함하는 제1 결찰 호환성 부위를 가지는, RNA 링커를 형성할 수 있다. 유사하게, 제3 및 제4 폴리뉴클레오티드는 혼성하거나; 한 말단에, 염색체 단편의 자유단에 결찰하기 위한 평활 말단을 가지며, 다른 말단에, 동일한 제한 효소를 위한 인식 부위 또는 호환적인 결찰가능한 말단을 생성하는 호환성 제한 효소을 위한 인식 부위를 포함하는 제2 결찰 호환성 말단을 가지는, DNA 링커를 형성할 수 있다. 따라서, 제한 효소 및/또는 이의 호환성 RE에 의한 소화는 DNA 및 RNA 링커를 결찰하는데 사용될 수 있는 돌출부(3' 또는 5' 돌출부일 수 있음)을 생산한다.

이 구현예에서, 제한 효소 소화 전에, DNA 및 RNA 링커의 말단은 결찰가능성이 없으며(예를 들면, RNA 링커는 5' 돌출부를 가지며 DNA 링커는 3' 돌출부의 평활 말단을 가질 수 있거나 그 반대일 수 있음), 그러한 말단은 추가로 탈인산화될 수 있다. RE 소화 후에, DNA 및 RNA 링커 말단에서 결찰가능한 말단이 적절한 인산화와 함께 생성된다. 이어서, DNA 및 RNA 링커의 결찰가능한 말단은 결찰될 수 있다. 제한 후 결찰가능한 말단은 평활 말단이 되거나 5' 또는 3' 돌출부를 갖는 접착 말단을 가질 수 있다. 특히, 절제하는 제한 효소는, 의도하지 않은 위치에서 핵산 물질을 절단할 가능성을 감소 및/또는 매우 짧은 단편을 생산하기 위하여 드물게 이용될 수 있다.

본 폴리뉴클레오티드는 포스포트리에스테르 방법(Narang 등, 1979, Meth . Enzymol., 68:90-99); 포스포디에스테르 방법(Brown 등, 1979, Meth . Enzymol ., 68:109-151); 디에틸포스포르아미디테 방법(Beaucage 등, 1981, Tetrahedron Lett., 22:1859-1862); 및 고형 지지 방법(U.S. Pat. No. 4,458,066)과 같은, 방법(각각은 참조로서 본원에 병합됨)에 의한 직접 화학 합성을 포함하는, 임의의 적합한 방법에 의하여, 제조할 수 있다. 올리고뉴클레오티드 및 변형 뉴클레오티드의 접합체의 합성 방법에 대한 개요는 Goodchild, 1990, Bioconjugate Chemistry, 1(3):165-187 (본원에 참조로서 병합됨)에 제시되어 있다.

또한, 본 발명의 방법을 실행하기 위한 하나 이상의 추가적인 시약이 본 발명의 키트에 포함될 수 있다.

소정 구현예에서, 상기 키트는, 포름알데히드(예, 1% 포름알데히드)와 같은, 단백질 및 폴리뉴클레오티드를 가교 결합하는 시약을 추가로 포함한다.

소정 구현예에서, 상기 키트는 염색질 성분(예, 히스톤 또는 관심의 특이적 ncRNA)에 특이적으로 또는 선택적으로 결합하는 친화성 시약을 추가로 포함한다. 예를 들면, 친화성 시약은 항체(단일클론 항체와 같은) 또는 임의의 기능적 항원-결합 단편 또는 이의 유도체 중 하나 일 수 있다. 또한, 친화성 시약은 염색질 성분과 혼성화하거나/결합할 수 있는 폴리뉴클레오티드(안티센스 폴리뉴클레오티드)일 수 있다. 안티센스 폴리뉴클레오티드는 안티센스 폴리뉴클레오티드와 이의 상보적인 타겟 서열 사이에 형성되는 혼성화 복합체를 연속하여 캡쳐링하는데 용이하도록 표지할 수 있다. 예를 들면, 라벨은 아비딘 또는 스트렙타비딘이 코팅된 비드에 의하여 캡쳐링될 수 있는 비오틴 라벨(예를 들면, 비오티닐화 U 또는 T)일 수 있다. 또한, 안티센스 폴리뉴클레오티드는, 컬럼에 충진되거나, 상보적 타겟 서열의 친화성 캡쳐링을 위한 배치 혼합물에서 이용될 수 있는, 미세비드 또는 나노입자의 표면과 같은, 고형 지지체에 고정될 수 있다.

소정 구현예에서, 상기 키트는, 손상된 또는 비호환성 5'- 및/또는 3'-돌출 말단을 포함하는 DNA를 5'-인산화, 평활-말단을 갖는 DNA로 전환하는, 말단-보수 혼합물을 추가로 포함한다. 그러한 시약은, Epicentre의 End-It™ DNA End-Repair Kit와 같이, 상업적으로 용이하게 구입할 수 있다.

소정 구현예에서, 상기 키트는 DNA 리가아제(New England Biolabs (NEB)와 같은, 다양한 상업적인 원료로부터의 T4 DNA 리가아제)를 추가로 포함한다.

소정 구현예에서, 상기 키트는, 단백질 및 폴리뉴클레오티드(예, New England Biolabs (NEB)와 같은, 다양한 상업적인 원료로부터의 프로테나아제 K)의 가교를 가역하는 시약을 추가로 포함한다.

소정 구현예에서, 상기 키트는, 제1 및/또는 제2 제한 효소(들), 및 선택적으로는 RE 소화에 필요한 적합한 버퍼 또는 보조 효소를 추가로 포함한다.

소정 구현예에서, 상기 키트는 평활-말단된 이중 가닥 DNA의 PCR 증폭을 위한 한 쌍의 연접성 어댑터를 추가로 포함한다. 어댑터는 연쇄화에 유용한 제한 효소 부위를 포함할 수 있고, PCR 증폭에 적합한 PCR 프라이머 서열을 포함할 수 있다.

소정 구현예에서, 상기 키트는, PCR 증폭을 위한 Taq DNA 폴리머라제, 또는 기타 형태의 증폭(예, 순환 원형 증폭(rolling circle amplification))에 필요한 기타 DNA 폴리머라제를 추가로 포함한다.

소정 구현예에서, 상기 키트는, 제1 가닥 cDNA 합성용 역전사 효소를 추가로 포함한다.

본 발명의 다른 태양은, 제1 및 제2 결찰 호환성 말단을 통하여 연결된 제1 및 제2 이중 가닥 영역을 포함하는 중앙 영역을 포함하는 쌍-말단 태그(paired-end tag, PET) 폴리뉴클레오티드를 제공하며, 상기 중앙 영역은 (1) 제1 이중 가닥 영역의 근접한 부위에, 비-코딩 RNA(ncRNA)의 서열 태그; 및 (2) 제2 이중 가닥 영역의 근접한 부위에, 게놈 DNA의 서열 태그의 측면에 배치되어 있다.

그러한 PET 폴리뉴클레오티드는 RNA 태그 및 DNA 태그 둘 다를 포함하는데, 이들 각각은 ncRNA 및 게놈 DNA (쌍-말단 태그)의 말단 서열에서 유래한다. 또한, 쌍-말단 태그는, ncRNA 및 게놈 DNA 단편이 염색체 단편에서 서로 가까이에 있는 관찰된 이벤트 또는 사건을 나타낸다.

소정 구현예에서, 비-코딩 RNA(ncRNA)의 서열 태그는 제1 제한 효소에 의한 소화에서 얻어지는 자유단을 가진다.

제한 효소는 상기에서 기재된 것, 예를 들면, 인식 부위 밖에서 소화할 수 있는, II형 RE (IIS형, IIB형, IIG형, 등), I형 RE, 또는 III형 RE와 같은 것들 중 임의의 하나일 수 있다. 대안적으로, 자유단은, ncRNA에 해당하는 cDNA 상에 자연적으로 존재하는 RE 부위에 의하여 생성할 수 있다. 바람직하게, RE는 중앙 영역의 서열에 기초하여 선택함으로써, DNA 링커 및 RNA 링커를 연결하는 구조를 분해하기 위하여 RE가 중앙 영역 내부에서 절단하지 않도록 한다.

소정 구현예에서, ncRNA의 RNA 서열 태그 또는 게놈 DNA의 DNA 서열 태그는, 초음파에 의한 전단(shearing), 수리전단(hydroshearing), 피하 주사기 바늘을 통한 반복 끌기(drawing)와 같은 물리적 전단에 의하여 자유단을 가진다.

소정 구현예에서, ncRNA의 RNA 서열 태그 또는 게놈 DNA의 DNA 서열 태그는 미구균 뉴클레아제(micrococcal nuclease, NEB Catalog M0247S), DNase I (NEB Catalog M0303S), 이중 가닥 DNA의 한쪽 단으로부터 점진적으로 소화하는 엑소뉴클레아제, 또는 ncRNA의 가교된 게놈 DNA 또는 cDNA의 평균 길이를 줄이기 위한 엔도- 및 엑소-뉴클레아제(예, 엑소뉴클레아제 III 및 녹두 뉴클레아제)의 조합과 같은, 비-특이적 엔도뉴클레아제의 제한된 소화에서 얻어지는 자유단을 가진다. 효소 또는 기질 농도, 소화의 온도 및/또는 pH, 보조인자의 이용가능성, 또는 이들의 조합을 제한함으로써, 소화의 연장을 조절할 수 있다. 적합한 소화 조건은, 정의된 길이의 표준 기질 및 소화 전 및 후의 검사 소화 산물(CE의 전기영동(모세혈관 전기영동 등에 의함)을 이용하여 미리 테스트할 수 있다.

RNA 또는 DNA 서열 태그의 길이는, ncRNA가 전사되거나 게놈 DNA가 위치하는 게놈 영역을 독특하게 정의하는데 충분해야 한다. 예를 들면, 비-코딩 RNA(ncRNA)의 RNA 서열 태그 및/또는 DNA 서열 태그는 고등의 진핵생물의 상대적으로 복잡한 게놈에서는 약 10-100 염기쌍 길이(또는 15-50 bp, 20-40 bp, 20-30 bp, 20-25 bp)이나, 박테리아나 하등 원핵생물의 상대적으로 간단한 게놈에서는 더 짧을 수 있다(예, 6-10 bp, 8-10 bp, 8-12 bp).

관련 태양에서, 본 발명은 상기 대상 PET 폴리뉴클레오티드의 둘 이상의 멤버를 포함하는 쌍-말단 태그(paired-end tag, PET) 라이브러리로서, 상기 PET 라이브러리의 각 멤버는 동일한 상기 중앙 영역, 및 상기 비-코딩 RNA(ncRNA)의 상이한 RNA 서열, 상기 게놈 DNA의 상이한 DNA 서열 태그, 또는 둘 다를 포함하는 쌍-말단 태그 라이브러리를 제공한다.

또 다른 관련 태양에서, 본 발명을 상기 대상 PET 폴리뉴클레오티드를 포함하는 벡터 또는 재조합 벡터를 제공한다.

소정 구현예에서, 상기 벡터는 복수의 연결 대상 PET 폴리뉴클레오티드를 포함한다.

본 발명의 태양은, 게놈의 비-코딩 RNA (ncRNA)를 위한 게놈 내에서 기능적 상호작용 좌위를 확인하는 방법으로서, (1) 가교된 게놈 DNA 단편 및 가교된 ncRNA를 포함하는 염색질 단편을 제공하는 단계; (2) 본 발명의 RNA 링커 및 DNA 링커를 이용하여, 근접 결찰의 조건 하에서, 가교된 게놈 DNA 단편의 말단을 가교된 ncRNA의 cDNA의 말단에 결찰하는 단계로서, 상기 가교된 게놈 DNA 단편의 말단이 상기 DNA 링커에 결찰되고, 상기 가교된 상기 ncRNA의 상기 cDNA의 말단은 상기 RNA 링커를 포함하는 단계: (3) 시퀀싱 분석을 위하여, 본 발명의 PET 폴리뉴클레오티드를 단리하는 단계; 및 (4) 상기 각 PET 폴리뉴클레오티드 내의 상기 게놈 DNA의 서열 태그 및 상기 ncRNA의 상기 서열태그를 참조 게놈에 맵핑하여, 상기 참조 게놈의 상기 비-코딩 RNA (ncRNA)를 위한 참조 게놈 내에서 기능적 상호작용 좌위를 확인하는 단계를 포함하는 방법을 제공한다.

소정 구현예에서, 본 발명의 방법을, 조직 배양 세포 또는 갓 절개된 조직에서 단리한 세포와 같은, 살아있는 세포를 이용하여, 실시할 수 있다. 소정 구현예에서, 살아있는 세포에서 ncRNA 및 게놈 DNA는 포름알데히드- 및/또는 에틸렌 글리콜 비스[숙시닐미딜숙시네이트](ethylene glycol bis[succinimidylsuccinate], EGS)-매개 가교를 통하여 가교된다. 또한, 단백질-DNA, 단백질-RNA, 및/또는 단백질-단백질(예, 아미드기 및/또는 티올기와 반응하는데 적합한 둘 이상의 반응성 화학기를 가지는 것들)을 가교하는데 적합한 기타 유사한 이관능 가교 시약이 이용될 수 있다. EGS를 사용하면, 더 길거나 짧은 스페이서(예, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20개 원자 스페이서)가 또한 사용될 수 있음에도 불구하고, 두 NHS-에스테르 사이의 스페이서 영역은 12개 원자 스페이서 일 수 있다.

포름알데히드 또는 EGS(일반적으로 1-2 mM 또는 1.5mM)가 사용되면, EGS를 처음 첨가한 다음, 포름알데히드(약1%)를 첨가한다. 반응은 글리신으로 정지시킬 수 있다. 대안적으로, 약 1% 포름알데히드 또는 약 1% 글루타르알데히드를 사용할 수 있다.

다른 구현예에서, 핵산을 UV 가교를 통하여 염색질에 가교한다. 예를 들면, 조직 배양 세포를 254nm에서 약 150mJ/cm²로 UV-가교할 수 있다 (Stratalinker^® UV 가교기와 같은, UV 가교기를 이용).

예를 들면, 약 1 - 2 x 10⁸ 살아있는 조직 배양 세포 또는 단리 세포를 먼저 수거하고, 40분 동안 흔들면서 EGS로 가교한 다음, 실온에서 포름알데히드(최종 농도 약 1%, Sigma)로 10분동안 가교한다.

프로테이나아제 저해제 및/또는 RN아제 저해제를 첨가하여 비특이적 프로테이나제 또는 RN아제 소화를 방지한다.

이어서, 세포를 적합한 용해 버퍼(예, 50 mM HEPES, 1 mM EDTA, 0.15 M NaCl, 1% SDS, 1% Triton X-100, 0.1% 소듐 디옥시콜레이트, 모두 Ambion에서 얻음)에서 용해한다.

가교 단계가 완료되면, 다양한 방법을 이용하여 가교된 게놈 DNA 및 ncRNA를 포함하는 염색질 단편을 생산할 수 있다.

예를 들면, 소정 구현예에서, 초음파처리, 수리전단(hydroshearing), 피하 주사기 바늘을 통한 반복 끌기(drawing)와 같은 물리적 전단에 의하여 염색질 단편을 생성한다. 의사(spurious), 랜덤, 또는 약한 ncRNA-염색질-DNA 상호작용을 "회피"하면서, 염색질 섬유를 RNA, DNA, 및 단백질 성분을 갖는 테더링된 복합체로 분쇄하는데, 초음파 처리가 유리할 수 있다.

대안적으로, 소정 구현예에서, 적합한 길이의 RNA 및 DNA 태그를 생산하기 위하여, 조절된 조건 하에서 제한 효소 소화, 또는 부분적 또는 제한된 엔도- 및/또는 엑소-뉴클레아제 소화에 의하여 염색질 단편을 생성할 수 있다.

가교된 게놈 DNA 단편 및 가교된 ncRNA를 포함하는 염색질 단편을 생성하기 위하여, 염색질을 초음파로 용해할 수 있다(예, 20% 듀티 파우어 출력으로 작동되는, Branson 450 초음파 세포 분쇄기를 30초 동안 5 내지 8번 이용하거나; 또는 35% 파우어 출력으로 작동되는, 탐지 초음파 발생 장치를 1.5분 동안, 20초 온 / 30초 오프 사이클로 이용함).

초음파 처리를 위하여 기타 상업적으로 입수가능한 기구를 이용할 수 있다. 예를 들면, Covaris사의 S220 Focused-ultrasonicator는 DNA, RNA, 및 염색질 전단을 위한 Adaptive Focused Acoustics™ (AFA) 기술을 이용한다. 제조자에 따르면, 이의 소프트웨어는, 특이적 단편 길이에 대한 DNA 전단과 같은, 표준 방법을 위한 다양한 미리 조정된 프로토콜을 포함한다. 대안적으로, 벤치탑(bentchtop) 초음파처리 장치인 Bioruptor^® UCD-200 (Life Technologies사)도 초음파처리 전단을 위하여 이용할 수 있다. 상기 장치는 수조 아래에 설치되는 고출력 초음파 발생 수단으로 구성되며, 20 kHz 진동수(탐지 초음파발생장치에 유사함)에서 작동하여, ChIP, MeDIP과 같은, 표준화된 프로토콜에 적합한 자동화된 초음파처리 단계를 제공한다.

전단되면, 염색질을 희석하여(예, 10배) SDS 농도(예, 약 0.1-0.5%까지)를 낮춘다. 이어서, 추출액을 원심분리(예, 4℃에서 10분 동안, 14,000 rpm)에 의하여 맑게 한다. 이러한 추출액을 사용 전까지 80℃에서 저장할 수 있다.

면역침전을 바란다면, 약 2 ㎍의 단일클론 항체(염색질 성분에 특이적임)를 단백질 G 세파로스(Pharmacia)에 결합할 수 있다. 이어서, 항체 코팅 비드를 4℃에서 16시간 동안 염색질 추출액으로 배양한다. 이어서, 비드를 세정한다(예, Sigma Chemical사에서의 다음 시약과 함께: 세정 버퍼 1 (50 mM HEPES, 1 mM EDTA, 0.15 M NaCl, 0.1% SDS, 1% Triton X-100, 0.1% 소듐 디옥시콜레이트); 2 배 세정 버퍼 2 (50 mM HEPES, 1 mM EDTA, 0.5 M NaCl, 0.1% SDS, 1% Triton X-100, 0.1% 소듐 디옥시콜레이트); 1 배 세정 버퍼 3 (20 mM Tris.HCl pH 8.0, 1 mM EDTA, 0.25 M LiCl, 0.5% NP40, 0.5% 소듐 디옥시콜레이트); 1 배 세정 버퍼 4 (20 mM Tris.HCl pH 8.0, 1 mM EDTA). 이어서, 단백질-DNA 복합체를 용출 버퍼(예, 50 mM Tris. HCl pH 8.0, 1 mM EDTA, 1% SDS)로 비드로부터 65℃에서 20분 동안 용출한다. 이어서, 용출액을 PBS(Ambion)에서 투석하여 SDS를 제거한다(예, 4℃에서 3시간 동안).

선택적으로는, 염색질 단편도 비오티닐화할 수 있으며(예를 들면, EZlink Iodoacetyl-PEG2-Biotin (IPB) (Thermo Scientific, cat. 21334)을 이용함), 스트렙타비딘 비드-결합 염색질 단편으로서 단리할 수 있다. 예를 들면, 스트렙타비딘(Dynabeads^® MyOne™ Streptavidin C1/T1)이 있는 Dynabeads^®을 이용하여 비오티닐화 염색질 단편을 농축할 수 있다.

또한, 코팅막과 같은 실리카를 갖는 비드를 이용하여 염색질 단편 상의 가교된 핵산을 농축할 수 있다.

전단 또는 RE 소화 후에, 염색질 단편은 손상된 말단 또는, 그렇지 않으면, DNA 링커로 결찰에 부적절한 말단을 가질 수 있다. 따라서, 말단-쌍은, 제조자의 제안에 따라, 예를 들면, Epicentre로부터 End-It kit 또는 T4 폴리머라제(Promega, R0191)를 이용하여 실시할 수 있다.

제1 가닥 cDNA 합성을 역전사효소 및, Superscript III First Strand Synthesis System (Life Technologies, cat. 18080051)과 같은, RNA 링커(또는 하기 제2 구현예에서 변형 RNA 링커)를 이용하여 실시할 수 있다.

이어서, 평활 말단에서 5' 인산화를 갖는 수복된 염색질 DNA를 DNA 링커를 이용한 결찰에 이용할 수 있다. DNA 결찰을 위한 적정 버퍼 및 기타 반응 조건이 주어진다면, 이것은 RNA 링커를 이용한 역전사용의 동일한 용기에서 실시할 수 있다. T4 DNA 리가아제와 같은, DNA 리가아제는 이 반응을 위하여 이용될 수 있다. 이어서, 필요하면, 탈인산화된 DNA 링커를 인산화할 수 있다(예, T4 폴리뉴클레오티드 키나아제에 의함).

소정 구현예에서, 제1 가닥 cDNA 합성을 RNA 링커를 이용하여 실시한다(DNA 링커 결찰 전 또는 후에, 또는 이와 동시에).

소정 구현예에서, 가교된 ncRNA의 cDNA는 RNA 링커의 랜덤-서열 프라이머로부터 역전사된 제1 가닥 cDNA, 및 ncRNA 템플릿을 포함한다. RNA 링커의 존재로 인하여, 이러한 제1 가닥 cDNA 및 ncRNA 템프릿 혼성 분자는, 염색체 DNA 단편의 자유단에 이미 결찰된 DNA 링커에 결찰될 수 있다.

RNA 링커 및 DNA 링커가 적절히 타겟 핵산의 각 말단에 결찰되었다면, 근접 결찰을 실시하여 동일한 염색질 단편 상에서 DNA 링커 및 RNA 링커를 연결할 수 있다. 근접 결찰은 보통 희석된 환경에서 실시하여, 서로의 근접성으로 인하여, 동일한 염색질 단편 상의 RNA 및 DNA 링커는 상이한 염색질 단편 상의 RNA 및 DNA 링커에 비교하여 훨씬 더 많이 결찰될 수 있다.

소정 구현예에서, 근접 결찰은 링커 결찰 단계에 있어서, 약 2, 3, 4, 5, 6, 7, 8, 9, 10, 12, 13, 14, 15, 16, 70, 18, 19, 20-배 이상의 희석으로 실시할 수 있다.

일부 구현예에서, 근접 결찰은, 약 1 × 10⁸ 인간 세포에서 유래된 동량의 캡쳐링된 염색질 단편에서 약 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 mL 이상의 총 결찰 부피에서 실시할 수 있다. 따라서 결찰 부피는 세포(예, 기원 종 또는 게놈 크기)의 유형에 기초하여 조정할 수 있다.

DNA 및 RNA 링커의 결찰을 최대화하기 위하여, 필요하면, 근접 결찰 조건을 변경하거나 조정할 수 있다. 임의의 결찰 조건은, 이에 제한되는 것은 아니지만, 결찰 반응 시간 및/또는 시약 농도를 증가시키거나 감소시키는 것을 포함하여, 변경하거나 조정할 수 있다. 즉, 결찰 반응을 조정하거나 변경하여, 동일한 염색질 단편에 가교된 별개의 핵산 분자의 분자간 결찰을 최대화한다. 특히, 핵산 분자의 희석 조건 하에서 결찰을 실시하여, 상이한 핵산 분자의 말단의 결찰을 최대화하고 원형 멀티머의 형성을 감소시킨다.

소정 구현예에서, 상기 방법은 상이한 염색질 단편에 가교된 게놈 DNA와 ncRNA 사이에 원하지 않거나 오류의 양성 결찰의 정도 또는 빈도를 평가하는 것을 포함한다. 이상적인 근접 결찰 조건에서, 동일한 염색질 단편에 가교된 게놈 DNA와 ncRNA만이 결찰되어야 한다.

예를 들면, 한 세트의 DNA 및 RNA 링커(예, 링커세트 A)를 한 반응 용기에서 각각 게놈 DNA 및 RNA 말단에 결찰하는데 사용할 수 있다. 한편, 제 2 세트의 DNA 및 RNA 링커(예, 링커세트 B)를 제 2 반응 용기에서 각각 게놈 DNA 및 RNA 말단에 결찰하는데 사용할 수 있다. 이어서, 두 반응 용기의 내용물을 근접 결찰을 위하여 모은다. 링커 세트 A의 RNA 링커를 두 링커 세트의 DNA 링커에 결찰될 수 있으면(그리고 링커 세트 A의 DNA 링커를 두 링커 세트의 RNA 링커에 결찰될 수 있으면), A 세트와 B 세트의 링커들 사이의 결찰이 없거나 거의 없으면 근접 결찰 조건은 최적이다. 반대로, A 세트와 B 세트의 링커들 사이에 유의한 결찰이 있으면, 근접 결찰 조건은 최적이 아니다.

소정 구현예에서, A 링커 세트와 B 링커 세트에서 RNA 및 DNA 링커의 비를 더 조정할 수 있다(예, 1:1일 필요는 없음). 예를 들면, B 링커 세트에 비하여, A 링커 세트에서의 RNA 및 DNA 링커의 비는 2:1, 3:1, 4:1, 5:1, 6:1, 7:1, 8:1, 9:1, 10:1일 수 있거나, 그 반대도 그렇다.

소정 구현예에서, 본 발명의 제1, 제2, 제3, 및/또는 제4 폴리뉴클레오티드를 탈인산화하고, DNA 링커 또는 RNA 링커는 자가-결찰하지 않는다.

제2 가닥 cDNA 합성은, 예컨대, Superscript Double-stranded cDNA Synthesis Kit(Life Technologies, cat. 1197-020)를 이용하여, RNA 링커-DNA 링커 결찰 이전 또는 이후에 완료할 수 있다. 소정 구현예에서, 근접 결찰 이후 (3) 단계 이전에, 제 2 가닥 cDNA 합성을 실시한다.

소정 구현예에서, 제 2 가닥 cDNA 합성 후에, T4 DNA 폴리머라제와 같은, DNA 폴리머라제를 첨가할 수 있다.

다음, 염색질 단편의 가교된 핵산 및 단백질 성분은 프로테이나제 K를 이용하여 역가교된다. 일반적인 반응 조건에서, 예를 들면, 15㎕의 20 mg/ml 프로테이나제 K (Ambion) 및 선택적으로는 0.3% SDS (Ambion)가 있는 경우 65℃에서 밤새 배양하여 샘플을 20㎕ 분량으로 역가교한다. 다음날, 약 1㎕의 10 mg/ml RN아제 A (Qiagen)를 첨가하여 RNA를 분해한 다음(예, 37℃ 45분 동안), DNA의 페놀 추출 및 에탄올 침전을 실시한다.

선택적으로, 적어도 하나의 연결되고 역가교된 핵산 분자의 정제 또는 농축을 적어도 두 성분을 포함하는 결합 시스템을 이용하여 실시할 수 있는데, 여기서 적어도 하나의 성분은 링커에 결합되며(예, RNA 또는 DNA 링커에 병합된 뉴클레오티드의 비오티닐화), 적어도 제2 성분은 제1 성분에 결합한다. 상기 성분은, 제한적이지는 않지만, 스트렙타빈-비오틴, 아비딘-비오틴, 단백질-항체 및/또는 자석/자성 물질을 포함한다.

특히, 비오티닐화 링커-결찰 핵산 물질을, 스트렙타비딘-접합 자성 Dynabeads^TM (Life Technologies, cat.11206D-10ML)과 같은, 스트렙타비딘 비드를 이용하여, 정제할 수 있다. 비오티닐화 링커를 함유하는 핵산 물질만이 스트렙타비딘 비드 상에 고정될 수 있다. 사용된 링커에 다른 성분이 결합된다면, 이 성분에 적합한 핵산 분자를 정제하는 기타 시스템을 이용할 수 있다.

대안적으로, 스트렙타비딘 컬럼을 대신 이용하여 비오티닐화 비드를 캡쳐링할 수 있다. 또 다른 대안적으로, 유동 기반 탐지 기구(flow-based detection instrument, 예, Luminex^® 100™, Luminex^® 200™ 또는 Bio-Rad^®Bio-Plex^® 타입 분석기) 상에서, FACS 등에 의해 비드를 분류하거나 수집할 수 있도록, 상기 비드를 색 코팅하거나 형광 코팅할 수 있다.

그 결과의 용출된 DNA를 이용하여, 예를 들면, RE 효소 소화를 통하여 DNA 및 RNA 태그 쌍을 가지는 PET 폴리뉴클레오티드를 생산할 수 있다. 선택적으로는, 용출된 PET 폴리뉴클레오티드를, 시퀀싱하기 전에, PCR에 의하여 추가로 증폭할 수 있다. PCR 증폭을 실행하기 전에, PCR 어댑터를 PET 폴리뉴클레오티드(예를 들면, T4 DNA 리가제)의 양 말단에 결찰시킬 수 있다. 평활 말단이 된, 비-원형 핵산만을 어댑터에 결찰할 수 있다. 자가-결찰된 핵산 분자 및 원형 멀티머는 어댑터에 결찰될 수 없다.

또한, PCR 어댑터는 PCR 산물 정제를 위한 변형 뉴클레오티드를 포함할 수 있다. 유사하게, 이 목적을 위하여, 스트렙타비딘-비오틴, 아비딘-비오틴, 단백질-항체 및/또는 자석/자성 물질을 이용할 수 있다.

454 다중 시퀀싱 기계(454 life sciences)를 이용하는 454 시퀀싱과 같은, 다양한 차세대 시퀀싱을 위한 프로토콜에 따라, PET 폴리뉴클레오티드(증폭이 있거나 없음)를 직접 시퀀싱할 수 있다. 그 기술은 Margulies 등 (2005) 및 US특허출원번호 제20030068629호에 교시되어 있다(둘 다 참조로서 본원에 병합됨). 기타 고속처리 또는 차세대 시퀀싱(next-generation sequencing, NGS) 방법을 이용하여 PET 폴리뉴클레오티드의 서열을 결정할 수 있다.

많은 상업적으로 허용하는 기구, 소프트웨어, 또는 서비스를 이용하여, 수득한 RNA/DNA 태그 서열을 이들의 각 게놈 위치에 맵핑할 수 있다.

일단 PET 폴리뉴클레오티드의 RNA 및 DNA 태그가 시퀀싱되고 참조 게놈에 맵핑된다면, 각 연결된 RNA 태그 및 DNA 태그는 추정상의 ncRNA-염색질 상호작용을 나타낸다. 그러한 관찰된 상호작용들은, 참조 게놈의 비-코딩 RNA(ncRNA)를 위한 참조 게놈 내에서 기능적 상호작용 좌위를 구성한다.

소정 구현예에서, 상기 방법은, 게놈 DNA의 중첩 서열 태그 및 ncRNA의 중첩 서열 태그를 갖는 둘 이상의 PET 폴리뉴클레오티드의 클러스터를 확인하는 것을 추가로 포함한다.

PET 클러스터는, 더 신뢰적인 ncRNA-염색질 상호작용의 반복 탐색을 반영하는, 고 신뢰성 데이터로 여겨진다. 반대로, 기타 PET 서열을 갖는 두 RNA 태그 및 DNA 태그 상에 중첩이 없는 싱글톤(singleton) PET는 약한 연결 신호를 나타낼 수 있으며, 랜덤 배경 노이즈와는 구별될 수 없다.

소정 구현예에서, 상기 방법은 rRNA의 서열 태그를 포함하는 PET 폴리뉴클레오티드를 배제하는 것을 포함한다. 일부 rRNA-염색질-gDNA(게놈 DNA) 상호작용이 진정 생물학적 의미를 가질 수 있을지라도, 대량(일부 데이터 세트의 약 1/4)의 rRNA-염색질-DNA 상호작용의 존재가 또 다른 덜 풍부한 상호작용을 모호하게 할 수 있다. 따라서, 추가 데이터 분석 전 그러한 디지털 차감은 덜 빈번한 ncRNA-염색질 상호작용을 분석하기 위하여 바람직할 수 있다.

소정 구현예에서, 상기 방법은, 근접 결찰 단계 전에 염색질 단편 서브세트를 단리하거나 농축하는 것을 추가로 포함한다. 예를 들면, 염색질 단편 서브세트의 단백질 성분에 특이적인 항체를 이용한 면역침전에 의하여, 또는 염색질 단편 서브세트의 핵산 성분에 특이적인 (표지된) 폴리뉴클레오티드를 이용한 혼성화에 의하여, 염색질 단편 서브세트를 단리하거나 농축할 수 있다. 이는 공지된 염색질 성분 및 ncRNA 사이의 특이적 상호작용을 확인하는데 유용할 수 있다.

소정 구현예에서, 단백질 성분은, 히스톤, 전사 인자(예컨대, 일반 전사인자 RNAP II, RNAP, RNAP III), 염색질(예컨대, EZH2, 및 곤충, 포유류, 식물로부터의 다른 것)을 개조하는 폴리콤-그룹(polycomb-group, PCG) 계 단백질; 재조합 관여 인자(예컨대, PRDM9 등); 염색질 격리자(isolator) 또는 염색질 웨이버(waver)(예컨대, CTCF); 메틸-CpG-결합 단백질(예컨대, MeCP2); 또는 RNA 결합 단백질이다.

상기 방법의 변형에서, 가교 전에, 특이적으로 표지된 ncRNA(예컨대, 비오티닐화)를 세포에 첨가할 수 있다. 아비딘 또는 스트렙타비딘으로 코팅된 자성 비드를 이용하여, 그러한 표지된 ncRNA를 단리하거나 농축할 수 있다.

상기 방법의 또 다른 변형에서, 하나 이상의 특이적 관심 ncRNA에 대한 상보적 서열을 이용하여, 염색질 단편에 가교된 그러한 특이적 ncRNA(어레이 또는 컬럼을 이용)을 단리하거나 농축할 수 있다. 일단 단리되거나 농축되면, 그러한 염색질 단편에 상기 방법의 잔류 단계를 진행하여, 특이적 ncRNA와 상호작용하는 게놈 DNA의 영역을 확인할 수 있다.

소정 구현예에서, 상기 방법은, 예를 들면, DNA/RNA FISH 및 면역형광 분석에 의하여 하나 이상의 관찰된 ncRNA-염색질 상호작용을 확인하는 것을 추가로 포함한다. 예를 들면, 특이적 ncRNA가 특정 게놈 좌위에 연결되면, ncRNA를 이용하여 DNA/RNA FISH 및 면역형광 분석을 실시하여 관찰을 확인할 수 있다(예컨대, 도 4B 참조).

b) 변형 RNA 링커

다른/제2 특정 구현예에서, 변형 RNA 링커(및 DNA 링커 없음)을 이용하여, 본 발명의 상기 방법을 실시하여 동일한 염색질 단편에서 가교된 RNA 및 염색체 DNA를 결찰할 수 있다.

따라서, 본 발명의 다른 태양은 (i) 제1 폴리뉴클레오티드 및 (ii) 제2 폴리뉴클레오티드를 포함하는 변형 RNA 링커를 제공하며, 여기서, 상기 제1 및 제2 폴리뉴클레오티드는, 게놈 DNA 결찰 호환성 말단의 측면에 위치하는 이중 가닥 영역 및 제1 폴리뉴클레오티드의 3'-말단의 3'-돌출부를 형성하며, 상기 3'-돌출부는 랜덤-서열 프라이머를 포함한다.

본 발명의 이러한 태양에 따르면, 제1 폴리뉴클레오티드의 3'-말단의 3'-돌출부는 서브섹션 a)(RNA 및 DNA 링커 쌍)에 기재된 구현예에서의 RNA 링커와 유사한 기능을 가지는 반면에, 게놈 DNA 결찰 호환성 말단을 이용하여 동일한 염색질 단편에 가교된 평활 말단된 게놈 DNA에 결찰할 수 있다.

소정 구현예에서, 가교된 게놈 DNA 단편의 평활 말단에 직접 결찰하기 위하여, 결찰 호환성 말단은 평활화될 수 있다.

다른 구현예에서, 결찰 호환성 말단은, RE에 의하여 절단될 수 있는 제한 효소 부위를 포함하여, 가교된 게놈 DNA 단편의 평활 말단에 결찰하기 위하여 요구되는 필수 평활 말단을 생산할 수 있다. 그러나, 제한 효소에 의한 절단 전에, 결찰 호환성 말단은 말단이 평활화되거나(예, 자기-결찰을 방지하기 위한 탈인산화된 평활 말단), 자기-결찰 또는 결찰을 막는 비-호환성 돌출부를 가질 수 있다.

소정 구현예에서, 변형 RNA 링커는, 이의 3'-돌출부 또는 이의 결찰 호환성 말단을 통하여, 자기-결찰하지 않는다.

합성된 폴리뉴클레오티드와 같은, 제1 및 제2 폴리뉴클레오티드는, 별도의 용기 내에서, 냉동건조 형태나 동결건조 형태로 또는 물이나 적합한 버퍼 용액 내에서, 제공될 수 있다. 대안적으로, 제1 및 제2 폴리뉴클레오티드는 동일한 용기에서(동결건조 또는 용액 내), 예를 들면, 1:1 몰 비율로, 조합되어, 예비-어닐링되어 변형된 RNA 링커로서 이용될 수 있다.

제2 폴리뉴클레오티드는 본질적으로 동종적이거나 순수하며(예, 동일한 용기 내의 개별 폴리뉴클레오티드 분자는 동일함), 반면에 3'-돌출부 영역의 제1 폴리뉴클레오티드의 3'-말단은 랜덤-서열 프라이머를 포함한다.

관련 구현예에서, 특히, 정의된 3'-말단 서열을 갖는 특이적 ncRNA로부터 제1 가닥 cDNA 합성을 개시하기 위하여, 제1 폴리뉴클레오티드는 랜덤-서열 프라이머 영역에서 동일한 매칭 서열을 함유할 수 있다.

소정 구현예에서, 상기 이중 가닥 영역은, II형 제한 효소(RE)와 같은, 제1 제한 효소의 제1 인식 부위를 포함할 수 있다. RE 절단시, 랜덤-서열 프라이머에 대한 3', RE 부위의 밖에서 절단하도록, RE 인식 부위를 전략적으로 배치할 수 있다. 이는 RNA 링커에 연결된 RNA 태그를 생성하게 할 수 있다. 예를 들면, 랜덤-서열 프라이머를 포함하는 3' 돌출부에 근접한, 이중 가닥 영역의 말단에 MmeI 인식 부위를 위치할 수 있다. MmeI가 절단하는 경우, 2-bp 돌출부를 갖는 18-bp 분절을 포함하는 RNA 태그를, 연결된 ncRNA에서 유래된 cDNA에서 생성하도록, 상기 MmeI 부위는 방향성을 가지도록 설계된다. 그러나, RE 부위의 배치는 제1 이중 가닥 영역의 말단에 있을 필요가 없다. 더 많은 내부 배치는 해당하는 더 짧은 RNA 태그 서열을 생성한다.

소정 구현예에서, 상기 이중 가닥 영역은, 결찰 호환성 말단에서 또는 근처에서, II형 제한 효소(RE)와 같은, 제2 제한 효소의 제2 인식 부위를 포함할 수 있다. RE는 제2 RE 인식 부위에 대하여 3'측 부분 및 제1 폴리뉴클레오티드(예, 결찰된 게놈 DNA)에 대하여 5'측 부분을 절단한다. RE 인식 부위의 배향은, 연결된 게놈 DNA의 말단 서열에 기초하여 DNA 태그를 생성하는 방식으로, 배열된다. 소정 구현예에서, RE 부위의 배치는 이중 가닥 영역의 말단에 있을 필요가 없다. 더 많은 내부 배치는 대응적으로 더 짧은 RNA 태그 서열을 생성한다.

소정 구현예에서, (제2(II형) 제한 효소의) 제2 인식 부위의 마지막 뉴클레오티드는 결찰 호환성/평활 말단에서의 염기-쌍 뉴클레오티드이다.

소정 구현예에서, 변형 RNA 링커는 RNA 태그 또는 DNA 태그를 생성하는 제한 효소 인식 부위를 가지지 않는다.

소정 구현예에서, 변형 RNA 링커는, 변형 RNA 링커를 다른 변형 RNA 링커(들)과 구별하는 독특한 서열(예, "바 코드")를 포함할 수 있다.

소정 구현예에서, 제1 및/또는 제2 폴리뉴클레오티드는 탈인산화된다.

본 발명의 다른 태양은, (변형 RNA 링커의) 이중 가닥 영역을 포함하는 중앙 영역을 포함하는 쌍-말단 태그(paired-end tag, PET) 폴리뉴클레오티드를 제공하며, 상기 중앙 영역은 (1) 랜덤-서열 프라이머에 근접한 부위에, 비-코딩 RNA(ncRNA)의 서열 태그; 및 (2) 결찰 호환성 말단에 근접한 부위에, 게놈 DNA의 서열 태그의 측면에 위치한다.

관련 태양에서, 본 발명은 대상 PET 폴리뉴클레오티드의 둘 이상의 멤버를 포함하는 쌍-말단 태그(paired-end tag, PET) 폴리뉴클레오티드 라이브러리를 제공하는데, 상기 PET 라이브러리 각 멤버는 동일한 중앙 영역, 및 비-코딩 RNA(ncRNA)의 상이한 RNA 서열 태그, 게놈 DNA의 상이한 DNA 서열 태그, 또는 둘 다를 포함한다.

또 다른 관련 태양에서, 본 발명은 상기 PET 폴리뉴클레오티드를 포함하는 벡터 또는 재조합 벡터를 제공한다.

본 발명의 다른 태양은, 게놈의 비-코딩 RNA(ncRNA)를 위한 게놈 내에서 기능적 상호작용 좌위를 확인하는 방법으로서, 상기 방법은 (1) 가교된 게놈 DNA 단편 및 가교된 ncRNA를 포함하는 염색질 단편을 제공하는 단계; (2) RNA 링커 및 DNA 링커를 이용하여, 근접 결찰의 조건 하에서, 가교된 게놈 DNA 단편의 말단을 가교된 ncRNA의 cDNA의 말단에 결찰하는 단계로서, 상기 가교된 게놈 DNA 단편의 말단이 상기 변형 RNA 링커의 결찰 호환성 말단에 결찰되고, 상기 가교된 ncRNA의 상기 cDNA의 말단은 상기 변형 RNA 링커를 포함하는 단계: (3) 시퀀싱 분석을 위하여, 본 발명의 PET 폴리뉴클레오티드를 단리하는 단계; 및 (4) 상기 각 PET 폴리뉴클레오티드 내의 상기 게놈 DNA의 서열 태그 및 상기 ncRNA의 상기 서열태그를 참조 게놈에 맵핑하여, 상기 참조 게놈의 상기 비-코딩 RNA (ncRNA)를 위한 참조 게놈 내에서 기능적 상호작용 좌위를 확인하는 단계를 포함하는 방법을 제공한다.

소정 구현예에서, 가교된 ncRNA의 cDNA는, 변형 RNA 링커의 랜덤-서열 프라이머로부터 역전사된 제1 가닥 cDNA, 및 ncRNA 템플릿을 포함한다. 변형 RNA 링커의 존재로 인하여, 이러한 제1 가닥 cDNA 및 ncRNA 템플릿 혼성 분자는, 염색체 DNA 단편의 자유단에 결찰될 수 있다.

소정 구현예에서, 변형 RNA 링커 상의 이중 가닥 영역의 길이는 약 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 50, 60개 또는 그 이상의 염기 쌍이다.

서브섹션 a)(RNA 및 DNA 링커 쌍)에 기재된 제1 특정 구현예에 기재된 기타 구현예는 일반적으로 적용가능하며, 본 원에 병합된다(반복하지 않음).

c) 직접 RNA-DNA 결찰

다른/제3 특정 구현예에서, 후에 상보적 폴리뉴클레오티드로 혼성화되는 ssDNA, 또는 ncRNA의 3'-OH기에 대한 직접 결찰을 위한 효소의 기질로서 작용할 수 있는 5' 아데닐화 돌출부를 갖는 dsDNA와 같은, ncRNA의 3'-OH기를 5' 아데닐화 단일-가닥 DNA(5' App-ssDNA)에 직접적으로 결찰하는, 소정 효소(예컨대, 절단된 RNA 리가아제 2 또는 RNL2)를 이용하여, 본 발명의 방법을 실시할 수 있다.

따라서, 본 발명은 또한 동일한 염색질 단편에서 가교된 ncRNA의 3'-말단 및 가교된 게놈 DNA 단편의 자유단을 결찰하는 대안적 방법을 제공한다. 본 발명의 이러한 태양에 따르면, 5' 예비-아데닐화 (5' App ssDNA)를 갖는 단일 가닥 DNA 올리고뉴클레오티드를 제공한다. 이어서, RNA-DNA 리가아제(예컨대, 열고정 5' AppDNA/RNA 리가아제, NEB Catalog M0319S 또는 M0319L)를 이용하여 ncRNA의 3'-OH기를 5' App ssDNA에 직접 연결할 수 있다.

제조에 따르면, 열고정 5' App DNA/RNA 리가아제는 Methanobacterium thermoautotrophicum으로부터의 RNA 리가아제의 효소적 리신의 점 돌연변이이다(Zhelkovsky and McReynolds, BMC Mol . Biol., 13:24, 2012). 이러한 효소는 ATP에 의존적이나, RNA나 단일 가닥 DNA(ssDNA)의 3'-OH 말단으로의 결찰을 위한 5' pre-아데닐화 링커를 필요로 한다. 또한, 상기 효소는 2'-O-메틸화 3' 말단을 갖는 RNA를 5'-아데닐화 링커에 결찰하는 데에 활성이 있다(Zhelkovsky and McReynolds, supra). 돌연변이 리가아제는 RNA 또는 ssDNA의 5'-포스페이트을 아데닐화할 수 없으며, 이는 바람직하지 않은 결찰 산물(콘케이트머 및 원형)의 형성을 감소시킨다. 65℃에서 기능하는 리가아제의 성능은 RNA 결찰 반응에서 RNA 2차 구조의 제한을 추가적으로 감소시킬 수 있다.

본 발명의 이 구현예에서의 다른 적합한 리가아제는, Bioo Scientific (Austin, TX)의 AIR^TM RNA Ligase 2 (RNL2)와 같은, RNA 리가아제 2이며, 이는 어댑터의 아데닐화 5' 말단을 RNA의 3' 말단에 특이적으로 결찰한다. 유사하게, 상기 효소는 결찰을 위한 ATP을 요하지 않으나, 랜덤 RNA 분자들 사이의 결찰량을 극적으로 감소시키는 아데닐화 기질을 요한다. 리가아제는 T4 RNA 리가아제 2의 절단 버전이다. 전장 RNA 리가아제 2와는 다르게, AIR^TM 리가아제는, 아데닐화 기질 없이, RNA 또는 DNA의 인산화 5'-말단을 결찰하지 않는다.

대안적으로, T4 RNA 리가아제 1(NEB Cat. No. M0204S 또는 M0204L)를 사용하여 ncRNA 3'-OH을 5' 포스포릴-종단 ssDNA에 결찰할 수 있다.

일단 ncRNA의 3'-말단이 ssDNA에 결찰되면, 상보적 ssDNA가 ssDNA에 어닐링되어 결찰되어 제2 가닥 cDNA 합성을 개시 및/또는 동일한 염색질 단편에서 가교된 게놈 DNA 단편의 자유단을 갖는 결찰에 적합한 평활 말단을 형성할 수 있다.

대안적인 구현예에서, 돌출된 아데닐화 5' 말단이 ncRNA의 3'-OH에 직접 결찰되기 전에, 한 말단에서 평활 말단 (또는 결찰 호환성 말단) 및 다른 말단에서 (상기 다양한 RNA 리가아제용 단일 가닥 기질로 기능할 수 있는) 5' 아데닐화 돌출부를 갖는 dsDNA 링커는 우선 가교된 게놈 DNA 단편의 자유단에 결찰될 수 있다.

동일하게, 결찰된 RNA 링커-DNA 링커 또는 변형 RNA 링커를 위하여 상기에 기재된 모든 구현예 또는 변형예는 5' App ssDNA 및 이의 상보적 서열 사이에 형성된 이중 가닥 영역에 일반적으로 적용할 수 있다.

예를 들면, 소정 구현예에서, 5' App ssDNA 및 이의 상보적 서열 사이에 형성된 이중 가닥 영역은, RNA 및 DNA 태그 서열의 생성을 용이하게 하는 하나 이상의 RE 인식 부위를 포함할 수 있다. 두 MmeI 부위는 이중 가닥 영역의 양단에 위치하고 이중 가닥 영역 밖에서 절단을 지시하여, 이중 가닥 영역을 옆에 배치된 18-20 bp RNA 및 DNA 태그를 생성할 수 있다. 대안적으로, 한 RE 부위를 이용하여 RNA 태그(또는 DNA 태그)를 생성할 수 있으며, DNA 태그(또는 RNA 태그)는 물리 전단 또는 제한된 비-특이적 효소 소화(상기 참조)에 의하여 생성할 수 있다.

따라서, 본 발명의 다른 태양은 (i) 제1 폴리뉴클레오티드 및 (ii) 제2 폴리뉴클레오티드를 포함하는 직접 RNA 링커를 제공하며, 여기서, 상기 제1 및 제2 폴리뉴클레오티드는, 게놈 DNA 결찰 호환성 말단의 측면에 위치하는 이중 가닥 영역 및 제1 폴리뉴클레오티드의 5'-말단의 5'-돌출부를 형성한다.

5'-돌출부는 선택적으로 5' 아데닐화되거나, 5' DNA 아데닐화 키트 (Cat. No. E2610S 또는 E2610L) 내의 Mth RNA 리가아제와 같은, 적합한 효소에 의하여 아데닐화될 수 있다. ssDNA로서 제1 폴리뉴클레오티드와는 대조적으로, RNA 결찰을 5'-돌출부를 가지도록 실시한다면(제2 폴리뉴클레오티드와 어닐링되기 전에), 상기 5'-돌출부는 직접 RNA 결찰을 위한 효소용 기질로서 이용될 수 있도록 충분한 길이(예, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15개 염기 또는 그 이상)를 가져야 한다.

다른 구현예에서, 결찰 호환성 말단은, RE에 의하여 절단될 수 있는 제한 효소 부위를 포함하여, 가교된 게놈 DNA 단편의 평활 말단에 결찰하기 위하여 요구되는 필수 평활 말단을 생산할 수 있다. 그러나, 제한 효소에 의한 절단 전에, 결찰 호환성 말단은 평활 말단이거나(예, 자기-결찰을 방지하기 위한 탈인산화된 평활 말단), 자기-결찰 또는 결찰을 막는 비-호환성 돌출부를 가질 수 있다.

소정 구현예에서, 직접 RNA 링커는 자가-결찰하지 않는다. 예를 들면, 제1 폴리뉴클레오티드의 3' 말단은 디디옥시뉴클레오티드 또는 기타 변형 뉴클레오티드에 의하여 블로킹되어 제1 폴리뉴클레오티드의 자가-결찰(자가-순환)을 방지할 수 있다. RNA-DNA 결찰의 완료 시에, 제1 폴리뉴클레오티드의 블로킹된 3' 말단은 결찰 호환성 말단의 일부가 되며, RE 소화를 통하여 절단되어 게놈 DNA 결찰을 위한 평활 말단을 생성할 수 있다.

소정 구현예에서, 상기 이중 가닥 영역은, II형 제한 효소(RE)와 같은, 제1 제한 효소의 제1 인식 부위를 포함할 수 있다. RE 절단시, RE 부위의 밖에서, 즉 제1 폴리뉴클레오티드의 5' 아데닐화 말단에 대하여 5'측 부분을 절단하도록, RE 인식 부위를 전략적으로 배치할 수 있다. 이는 직접 RNA 링커에 연결된 RNA 태그를 생성할 수 있다. 예를 들면, 제1 폴리뉴클레오티드의 5'-돌출부의 5'-말단에 근접한, 이중 가닥 영역의 말단에, MmeI 인식 부위가 위치할 수 있다. MmeI 절단시, 2-bp 돌출부를 갖는 18-bp 단편을 포함하는 RNA 태그가, 연결된 ncRNA에서 유래된 cDNA에서 생성하도록, MmeI 부위는 방향성을 가지도록 설계된다. 그러나, RE 부위의 배치는 제1 폴리뉴클레오티드의 말단에서 필요로 하지 않는다. 더 많은 내부 배치는 해당하는 더 짧은 RNA 태그 서열을 생성한다. RE 부위가 제1 폴리뉴클레오티드의 5'-말단에서 위치할 수 있기 때문에, 제1 폴리뉴클레오티드가 ssDNA 기질로서 이용되면 (이의 5'-돌출부에 반대되는 것이 기질로서 이용됨), 더 긴 RNA 태그 서열이 생성할 수 있다.

따라서, 소정 구현예에서, 제1 인식 부위(제1(II형) 제한 효소)의 마지막 뉴클레오티드는 제1 폴리뉴클레오티드의 5'-말단이다.

소정 구현예에서, 상기 이중 가닥 영역은, 결찰 호환성 말단에서 또는 근처에서, II형 제한 효소(RE)와 같은, 제2 제한 효소의 제2 인식 부위를 포함할 수 있다. 상기 RE는 제2 RE 인식 부위에 대하여 3'측 부분 및 제1 폴리뉴클레오티드(예, 결찰된 게놈 DNA)에 대하여 3'측 부분을 절단한다. RE 인식 부위의 배향은, 연결된 게놈 DNA의 말단 서열에 기초하여 DNA 태그를 생성하는 방식으로, 배열된다. 소정 구현예에서, RE 부위의 배치는 이중 가닥 영역의 말단에 있을 필요가 없다. 더 많은 내부 배치는 대응하여 더 짧은 RNA 태그 서열을 생성한다.

소정 구현예에서, 직접 RNA 링커는 RNA 태그 또는 DNA 태그를 생성하는 제한 효소 인식 부위를 가지지 않는다.

소정 구현예에서, 직접 RNA 링커는, 직접 RNA 링커를 다른 직접 RNA 링커(들)과 구별하는 독특한 서열(예, "바 코드")를 포함할 수 있다.

소정 구현예에서, 제2 폴리뉴클레오티드는 탈인산화된다.

본 발명의 이 태양에 따라 생성되는 PET 폴리뉴클레오티드는 5' App ssDNA와 이의 상보적 서열(즉, 제2 폴리뉴클레오티드) 사이에 형성되는 이중 가닥 영역에 대응하는 중앙 영역을 포함할 수 있다. 더 긴 서열을 이용하여 임의의 원하는 RE 인식 부위, 바 코드 서열, 또는 변형 뉴클레오티드(예, 친화성 정제를 위한 비오티닐화 뉴클레오티드)를 포함한다 하더라도, 이 영역을 위한 특이적 서열 요건은 없으며, 상기 영역의 길이는 변화가능하다(예, 약간의 bp정도로 짧은, RNA-DNA 리가아제의 기질 요건을 지지하도록 충분히 긴, 및 역전사를 위한 길이).

따라서, 본 발명의 다른 태양은, (1) 제1 폴리뉴클레오티드의 5'-말단(5' 아데닐화 또는 5' 아데닐화되는데 적합한)에 근접한 부위에서, 비-코딩 RNA(ncRNA)의 서열 태그; 및 (2) 결찰 호환성 말단에 근접한 부위에서, 게놈 DNA의 서열 태그의 측면에 위치한 (직접 RNA 링커의) 이중 가닥 영역을 포함하는 중앙 영역을 포함하는 쌍-말단 태그(paired-end tag, PET) 폴리뉴클레오티드를 제공한다.

관련 태양에서, 본 발명은 대상 PET 폴리뉴클레오티드의 둘 이상의 멤버를 포함하는 쌍-말단 태그(paired-end tag, PET) 폴리뉴클레오티드 라이브러리를 제공하는데, 상기 PET 라이브러리 각 멤버는 동일한 중앙 영역, 및 비-코딩 RNA(ncRNA)의 RNA의 상이한 RNA 서열 태그, 게놈 DNA의 상이한 DNA 서열 태그, 또는 둘 다를 포함한다.

본 발명의 또 다른 태양은 게놈의 비-코딩 RNA(ncRNA)를 위한 게놈 내에서 기능적 상호작용 좌위를 확인하는 방법을 제공하는데, 상기 방법은 다음을 포함한다: (1) 가교된 게놈 DNA 단편 및 가교된 ncRNA를 포함하는 염색질 단편을 제공하는 단계; (2) 상기 ncRNA의 3'-OH를 5' 예비-아데닐화된 ssDNA에 결찰하는 단계; (3) 상기 ssDNA의 보체를 제공하여, 상기 ssDNA와 상기 보체 사이에 이중 가닥 영역을 형성하는 단계; (4) 필요하면, 상기 이중 가닥 영역의 말단에 평활 말단을 제조하는 단계; (5) 근접 결찰 조건 하에서, 상기 평활 말단을 상기 가교된 게놈 DNA 단편에 결찰하는 단계; (6) 서열 분석을 위하여 PET 폴리뉴클레오티드를 단리하는 단계로서, 상기 PET 폴리뉴클레오티드는 상기 가교된 게놈 DNA 단편의 DNA 태그 및 상기 ncRNA의 RNA 태그의 측면에 위치하는 상기 이중 영역을 포함하는 단계; (7) 상기 DNA 태그 및 상기 RNA 태그를 참조 게놈에 맵핑하여 상기 참조 게놈의 비-코딩 RNA(ncRNA)를 위한 참조 게놈 내에서 기능적 상호작용 좌위를 확인하는 단계.

본 발명의 대안적 태양은 게놈의 비-코딩 RNA(ncRNA)를 위한 게놈 내에서 기능적 상호작용 좌위를 확인하는 방법을 제공하는데, 상기 방법은 다음을 포함한다: (1) 가교된 게놈 DNA 단편 및 가교된 ncRNA를 포함하는 염색질 단편을 제공하는 단계; (2) 상기 ncRNA의 3’-OH를 이중 가닥 영역을 갖는 ssDNA의 5’ 예비-아데닐화된 돌출부에 결찰하는 단계; (4) 필요하면, 상기 이중 가닥 영역의 말단에서 상기 5' 예비-아데닐화된 돌출부로 평활 말단을 제조하는 단계; (5) 근접 결찰 조건 하에서, 상기 평활 말단을 상기 가교된 게놈 DNA 단편의 말단에 결찰하는 단계; (6) 서열 분석을 위하여 PET 폴리뉴클레오티드를 단리하는 단계로서, 상기 PET 폴리뉴클레오티드는 상기 가교된 게놈 DNA 단편의 DNA 태그 및 상기 ncRNA의 RNA 태그에 인접한 상기 이중 영역을 포함하는 단계; (7) 상기 DNA 태그 및 상기 RNA 태그를 참조 게놈에 맵핑하여 상기 참조 게놈의 비-코딩 RNA(ncRNA)를 위한 참조 게놈 내에서 기능적 상호작용 좌위를 확인하는 단계.

소정 구현예에서, ssDNA(즉, 제2 폴리뉴클레오티드)의 보체는 ssDNA와 동일한 길이를 가진다. 소정 구현예에서, 상기 보체는 ssDNA보다 길거나 짧으며, 돌출된 3' 또는 5' 말단을 갖는 이중 가닥 영역을 형성한다. 후자에 있어서, 돌출부는 평활 말단에 적합한 결찰을 생성하는 효소에 의하여, 또는 평활 말단을 생성하는 제한 효소에 의하여 말단으로부터 절단되는 것에 의하여, 채워질 수 있다. RE 부위는 ssDNA의 서열 내로 조작될 수 있다.

소정 구현예에서, 직접 RNA 링커의 제1 폴리뉴클레오티드의 길이는 약 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 50, 60개 또는 그 이상의 염기 쌍이다.

서브섹션 a)(RNA 및 DNA 링커 쌍) 및 서브섹션 b)(변형 RNA 링커)에 기재된 제1 및 제2 상세한 구현예에서 각각 기재된 기타 구현예는 일반적으로 적용가능하며, 본원에 병합된다(반복하지 않음).

기재된 바와 같은 본 발명의 일반적인 태양에서, 하기 섹션은 추가 설명과 본 발명의 상세한 구현예와 관련된 구체적인 양 및 파라미터를 제공한다. 본 발명은, 그러한 상세한 설명 없이 또는 최소한의 변형으로, 본 발명의 일반적인 범위에서 벗어남이 없이, 예측가능하다는 것이 당업자에게 명백할 것이다.

2. 정의

"비-코딩 RNA(ncRNA)"는 단백질로 번역되지 않는 RNA 분자를 포함한다. 빈번하지는 않지만, 이는 비-단백질-코딩 RNA(non-protein-coding RNA, npcRNA), 비-메신저 RNA(non-messenger RNA, nmRNA), 및 기능적 RNA(functional RNA, fRNA)로 지칭된다. 통상 코딩 단백질 이외의 기능을 갖는 기능적 RNA이나, 일부는 비-기능성이거나 공지된 기능이 없을 수 있다. 때때로, 용어 짧은 RNA(small RNA, sRNA)는 짧은 박테리아 ncRNA에 종종 이용된다. 비-코딩 RNA가 전사되는 DNA 서열은 종종 RNA 유전자로 불리운다.

비-코딩 RNA 유전자는 고도로 풍부한 및 기능적으로 중요한 RNA, 예를 들면, 전송 RNA(tRNA)와 리보솜 RNA(rRNA) 뿐만 아니라, snoRNAs(scRNA 포함; RNA의 뉴클레오티드 변형용), snRNA(스플라이스 및 다른 기능용), gRNA(가이드 RNA; mRNA 뉴클레오티드 변형용), RNase P(tRNA 성숙), RN아제 MRP(rRNA 성숙용, 및/또는 DNA 복제용), Y RNA(RNA 프로세싱용, 및/또는 DNA 복제용), 텔로머라아제 RNA(텔로머 합성용), 스플라이싱된 리더 RNA, SmY RNA(mRNA 트랜스-스플라이싱용), 안티센스 RNA, 시스-자연적 안티센스 전사, 미세RNA(유전자 조절용), siRNA(트랜스-액팅 siRNA 포함; 유전자 조절용), exRNAs, 및 piRNA(반복 관련 siRNA 포함; 트랜스포존 방어용, 및 다른 기능이 있을 수 있음)과 같은 RNA, 7SK RNA(음성적으로 조절하는 CDK9/cyclin T 복합체용), 및 Xist와 HOTAIR와 같은 예를 포함하는 긴 ncRNA를 포함한다. 인간 게놈 내에서 인코딩되는 ncRNA의 수는 알려져 있지 않으나, 최근 전사 및 생물정보 연구는 수 천의 ncRNA가 존재한다고 제시하였다. 많은 새롭게 확인되는 ncRNA의 기능이 입증되었기 때문에 많은 것이 비-기능적일 수 있다.

소정 구현예에서, 본 발명의 ncRNA는 상기 언급된 종들의 임의의 하나 이상을 포함하지 않는다. 예를 들면, 소정 구현예에서, 본 발명의 ncRNA는 rRNA를 포함하지 않는다. 소정 구현예에서, 본 발명의 ncRNA는 tRNA를 포함하지 않는다. 소정 구현예에서, 본 발명의 ncRNA는 tRNA를 포함하지 않는다.

"제한 효소(restriction enzyme, RE) 및 "제한 엔도뉴클레아제"는 본원에서 상호교환적으로 사용되어, 이중-가닥 DNA를 절단하는 효소를 포함한다. 상기 효소는 일반적으로 "제한 부위" 또는 "RE 인식 부위"로 알려진 특이적인 인식 뉴클레오티드 서열에서, 그 안에서, 또는 그 근처에서(예, 약 수 개의 염기에서 약 수 천의 염기까지) 두 개의 절개부를 만들며, 염기를 손상시키지 않고 각 이중 나선의 포스페이트 뼈대를 통과한다.

제한 효소는 보통 세가지 유형으로 분류되는데, 구조면에서, 인식부위에서 DNA 기질을 절단하는지 여부, 또는 인식 및 절단 분위가 서로 격리되어 있는지 여부가 각각 다르다. 그 동안 3000개 이상의 제한 효소가 상세히 연구되었고, 그 중 600 개 이상이 상업적으로 입수 가능하며, 그 중 많은 제한 효소가 분자 생물학에서 DNA 변형 및 조작에 통상 이용하였다.

I형 제한 효소는, 인식 부위로부터, 랜덤 거리(적어도 1000 bp)에 떨어져 있으면서 상이한 부위에서, 절단한다. I형 제한 효소 인식 부위는 비대칭적이고, 약 6-8개의 뉴클레오티드의 비-특이적 스페이서에 의하여 격리된 두개의 특이적 부분-하나는 3-4개의 뉴클레오티드를 함유하고 다른 하나는 4-5개의 뉴클레오티드를 함유함-으로 구성된다. 이러한 효소는 다중 기능적이며, 타겟 DNA의 메틸화 상태에 따라 제한과 변형 활성을 할 수 있다. 전 활성을 위하여, 보조 인자인 S-아데노실 메티오닌(adenosyl methionine, AdoMet), 가수분해된 아데노신 트리포스페이트(hydrolyzed adenosine triphosphate, ATP), 및 마그네슘 이온(Mg² ⁺)이 요구된다.

II형 제한 효소는, 통상 비분리적이고, 회문성이 있고(palindromic), 4-8개 뉴클레오티드 길이를 갖는 인식 부위를 갖는 호모다이머이다. 이들 효소는 동일한 부위에서 DNA를 인식하고 절단하며, 활성을 위하여 ATP 또는 AdoMet를 이용하지 않는다-통상 보조인자로서 Mg² ⁺ 만을 요한다. 최근, 새로운 서브패밀리 명명법(글자 접미사를 이용하여 정의됨)을 개발하여 이 대형 패밀리를 II형 효소의 전형적인 특성으로부터의 이탈을 기반으로 하는 서브카테고리로 분리하였다. 예를 들면, IIB형 제한 효소(예, BcgI 및 BplI)는 AdoMet 및 Mg² ⁺ 보조인자를 필요로 하는 멀티머이며, 인식의 양 측 DNA를 절단하여 인식 부위를 절단해낸다. IIE형 제한 엔도뉴클레아제(예, Nael)는 DNA를 절단하고 이어서, 두 벌의 인식 서열을 갖는 상호작용을 한다. 한 인식 부위는 절단을 위한 타겟으로서 작용하는데, 다른 하나는 효소 절단의 효율을 가속하거나 향상시키는 알로스테릭(allosteric) 효과로서 작용한다. IIE형 효소와 유사한, IIF형 제한 엔도뉴클레아제(예, NgoMIV)는 두 벌의 인식 서열과 상호작용하나, 동시에 상기 서열들을 절단한다. IIG형 제한 엔도뉴클레아제(Eco57I)는, 기존의 II형 제한 효소와 같이, 단일 서브유닛을 가지나, 보조인자 AdoMet가 활성화하도록 요한다. DpnI와 같은, IIM형 제한 엔도뉴클레아제는 메틸화 DNA를 인식하고 절단할 수 있다. IIS형 제한 엔도뉴클레아제(예, FokI)는 비-회문식(palindromic) 비대칭 인식 부위에서 정의된 거리에 있는 DNA를 절단한다. 즉, IIS형 효소는 한 측으로부터 인식 서열 밖에서 절단한다. 모든 IIS형 제한 효소뿐만 아니라 MmeI는 변수와 길이를 만들어낸다. Dunn 등(2002)은, MmeI이 거의 1:1의 비율로 떨어진 18/20 또는 19/21 염기를 절단한다는 것을 보여주었다. 따라서, 18/20가 MmeI 절단 부위를 나타내기 위하여 이용되고, 19/21도 고려된다. IIT형 제한 효소(예, Bpu10I 및 BslI)는 두개의 상이한 서브유닛으로 구성되어 있다. 일부는 회문성 서열을 인식하는 반면에, 다른 것은 비대칭 인식 분위를 가진다.

III형 제한 효소(예, EcoP15)는 역으로 배향되는, 두 개의 별도의 비-회문성 서열을 인식한다. 상기 효소는 인식 부위 뒤의 약 20-30개 염기 쌍의 DNA를 절단한다. 이들 효소는 하나 이상의 서브 유닛을 함유하며, DNA 메틸화 및 제한에서의 역할을 위하여 AdoMet 및 ATP 보조요소를 필요로 한다. III형 효소는 짧은 5-6 bp 긴 비대칭 DNA 서열을 인식하며, 하류로 25-27 bp 절단하여, 짧은 단일-가닥 5' 돌출부를 남긴다. 이들 효소는, 일어날 제한을 위하여 두 개의 역으로 배향된 비메틸화된 인식 부위의 존재를 필요로 한다.

제한 효소 절단 산물은 5' 또는 3' 돌출부를 갖는 평활-말단 또는 접착 말단을 가지며, 접착 말단 단편은 원래 절단되었어야 할 단편뿐만 아니라 호환성 점성 또는 접착 말단을 갖는 다른 단편에 결찰될 수 있다.

본원에서 이용되는 "뉴클레오티드"는 뉴클레오시드의 포스포릭 에스테르-핵산(DNA 또는 RNA)의 기본 구조적 단위를 포함한다. 두 개 이상의 뉴클레오티드(예, 2-30, 5-25, 및 10-15 개 뉴클레오티드)의 짧은 가닥은 때때로 "올리고뉴클레오티드"로 지칭되는 반면에, 긴 가닥은 폴리뉴클레오티드로 지칭되는데, 두 용어 사이에는 확정적인 길이 한정이 없다. 용어 뉴클레오티드는 용어 "핵산"과 상호교환적으로 사용될 수 있다. 폴리뉴클레오티드는 단일-가닥이거나, 각 가닥이 5' 말단 및 3' 말단을 가지는 이중-가닥일 수 있다. 핵산의 스트레치의 말단 영역은 각각 5' 말단 및 3' 말단으로 지칭될 수 있다. 폴리뉴클레오티드 내의 뉴클레오티드는 천연 뉴클레오티드(DNA를 위한 디옥시리보뉴클레오티드 A, T, C, 또는 G, 및 RNA를 위한 리보뉴클레오티드 A, U, C, G)이거나, 예컨대 화학 합성에 의하여 폴리뉴클레오티드에 병합될 수 있는 변형 뉴클레오티드를 포함할 수 있다. 그러한 변형 뉴클레오티드는 천연 뉴클레오티드에서 없거나 부족한 추가의 바람직한 성질을 부여할 수 있으며, 변형 뉴클레오티드를 포함하는 폴리뉴클레오티드는 본 발명의 조성물 및 방법에 이용될 수 있다.

용어 "프라이머" 또는 "프라이밍 서열"은, 핵산 가닥에 상보적인 프라이머 연장 산물의 합성이 유도되는 조건, 즉, 적합한 온도에서 적절한 버퍼 내의 4가지 상이한 뉴클레오시드 트리포스페이트 및 연장용 제제(예, DNA 폴리머라아제 또는 역전사 효소)가 존재할 때, DNA 합성의 개시점으로 작용할 수 있는 올리고뉴클레오티드를 지칭한다. 프라이머는 단일-가닥 DNA일 수 있다. 프라이머의 의도하는 용도에 따라 프라이머의 적합한 길이는, 15-35개의 뉴클레오티드와 같은, 10-50개의 뉴클레오티드의 범위에 있다. 짧은 프라이머 분자는, 템플릿을 갖는 충분히 안정한 혼성 복합물을 형성하기 위하여, 일반적으로 낮은 온도를 필요로 한다. 프라이머는 템플릿 핵산의 정확한 서열을 반영할 필요는 없으나, 템플릿과 혼성화하도록 충분히 상보적이어야 한다. 주어진 타겟 서열의 증폭을 위한 적합한 프라이머의 설계는 당업계에 잘 알려져 있으며, 예를 들면, 본원에 언급된 문헌에 기재되어 있다.

"프로브(probe)"는 CCAT1 ncRNA 서열 또는 이의 cDNA와 같은, 타겟 서열의 cDNA 또는 mRNA의 적어도 일부의 존재 여부를 탐지하는데 이용되는 핵산 분자 또는 이에 상보적인 서열을 일반적으로 지칭한다. 상기 탐지는, 프로브와 분석된 타겟 서열 사이의 혼성화 복합체를 동정함으로써 실시할 수 있다. 상기 프로브는 고형 지지체 또는 탐지가능한 라벨에 부착될 수 있다. 프로브는 일반적으로 단일 가닥일 것이다. 프로브는 일반적으로 10-200개의 뉴클레오티드를 포함한다. 프로브의 특정 성질은 특정 용도에 따라 다를 것이며, 결정할 당업자의 능숙함에 따라 결정된다. 일반적으로, 프로브는 높은 엄격한 혼성화 조건 하에서, 타겟 cDNA 또는 RNA의 적어도 일부를 혼성화할 것이다.

"어댑터"는 결찰된 올리고뉴클레오티드 분자를 지칭하며, 핵산 분자의 말단에 결찰된다. 증폭(PCR 프라이머 서열을 갖는 PCR 어댑터), 시퀀싱(시퀀싱 프라이머 서열을 가짐), 및/또는 핵산 단편을 벡터(RE 인식 부위와 같은, 적합한 클로닝 서열을 가짐) 내로 삽입하기 위하여, 어댑터를 이용할 수 있다.

"콘카테머(concatemer)"는, 선택적으로는 링커 또는 스페이서에 의하여 분리된, 말단에 연결되는 적어도 두 개의 뉴클레오티드 모노머 서열로 일반적으로 구성된다. 모노머는 서열이 동일하거나 동일하지 않을 수 있으나, 유사한 구조적 요소(본 발명의 RNA 및 RNA 링커와 같은)를 가질 수 있다. 모노머도 동일하거나 상이한 배향을 가질 수 있다(예, 콘카테머 내의 모노머는 헤드-투-헤드(head-to-head), 헤드-투-테일(head-to-tail), 또는 이들의 혼합으로 연결될 수 있음). 본 발명의 콘카테머는, 본 발명의 발명에 따라 제조되는 적어도 두 개의 올리고뉴클레오티드(예, PET 폴리뉴클레오티드)를 포함한다.

"라이브러리(library)"는, 하나 이상의 정의하는 특성을 공유하는 라이브러리의 각 멤버를 갖는, 핵산 서열, 올리고뉴클레오티드, 또는 폴리뉴클레오티드와 같은 집합체를 포함한다. 예를 들면, 본 발명의 PET 폴리뉴클레오티드의 라이브러리는 본 발명의 둘 이상(예, 수만, 수십만, 수백만, 수천만, 등등)의 PET 폴리뉴클레오티드를 포함하는데, 각 PET 폴리뉴클레오티드는 유사하거나 동일한 구조를 공유하거나 상이한 DNA 및/또는 RNA 태그 서열을 가진다.

"벡터" 또는 "재조합 벡터"는, 한 세포에서 다른 세포(예, 클로닝된 유전 정보 또는 크로닝된 DNA) 내에 함유된 유전 물질을 전달하거나 증폭할 수 있는 박테리오파지, 플라스미드, 또는 기타 제제를 지칭하는 기술분야에서 인정되는 용어이다. 그러한 벡터는, 구체적 성질 및 특성에 따라, 리포펙션(lipofection), 인산 칼슘 침전, 레트로바이러스 전달, 전기영동, 및 생물 변형과 같은, 형질전환 또는 변형, 및 당업계에서 이용가능한 기타 분자생물학 기술에 의하여, 상이한 숙주 세포로 도입될 수 있다.

적합한 벡터는 바이러스 벡터, 또는 동종 유전자 서열의 삽입 또는 병합에 의햐여 조작되는 당업계에 공지된 기타 비히클을 포함할 수 있다. 그러한 벡터는 적합한 숙주 증폭을 위한 복제 원점, 클로닝된 서열의 효율적 전사를 용이하게 할 수 있는 프로모터 서열, 및 클로닝된 서열의 직접 증폭을 위한 인접 PCR 프라이머를 함유할 수 있다. 또한, 상기 벡터는 형질전환 세포의 표현형 선택을 허용하는 특정 유전자를 포함할 수 있다. 본 발명의 이용에 적합한 벡터는, 예를 들면, pBlueScript (Stratagene, La Jolla, Calif.); pBC, pZErO-1 (Invitrogen, Carlsbad, CA), 및 pGEM3z (Promega, Madison, WI) 또는 이의 변형 벡터뿐만 아니라 당업계에 알려진 것들과 유사한 벡터를 포함한다. 예를 들면, 본원에 참조로서 병합된 미국 특허 번호 제 4,766,072호에 공지된 pGEM 벡터를 참조.

"염색질"은 염기성 염료로 쉽게 착색되고 세포 분열 동안에 응축하여 염색체를 형성하는 세포핵 내의 핵산, 및 단백질, 주로 히스톤의 복합체를 설명하기 위해 사용된다. 염색질은 핵산-단백질 복합체의 한 예이다.

본원에 사용된 "태그"는 참조 게놈 내의 서열의 기원을 독특하게 확인할 수 있는 핵산이 서열의 확인가능한 서열을 포함한다. 상기 태그는 참조 게놈에서, 태그를 하나 또는 몇 개의 위치(예컨대, 높은 서열 동일성을 갖는 하나의 유전자 또는 관련된 유전자의 복사본)에 독특하게 또는 명료하게 맵핑하는 데 충분한 크기(보통은 18-29bp, 그러나 서열 조성물 및 참조 게놈 크기 및 복잡성에 따라 더 짧아질 수 있음)를 가질 수 있다. 본 발명의 DNA 태그는 게놈 DNA 서열에서 기원한다. 상기 태그는, 예를 들면, 본 발명의 DNA 링커 및 RNA 링커(또는 본 발명의 변형 RNA 링커 또는 본 발명의 직접 RNA 링커)를 통하여, ncRNA 또는 ncRNA의 cDNA에 연결될 수 있다. 본 발명의 RNA 태그는 ncRNA, 또는 ncRNA로부터 역전사되는 cDNA에서 기원된다. 상기 RNA 태그는, 예를 들면, 본 발명의 DNA 링커 및 RNA 링커 (또는 본 발명의 변형 RNA 링커 또는 본 발명의 직접 RNA 링커)를 통하여, 게놈 DNA에 연결될 수 있다.

본 발명의 RNA 또는 DNA 태그는 임의의 크기를 가질 수 있으나, 그것이 유래되는 부모 서열의 크기에 대하여 의미가 있으며 유익할 필요가 있다. 소정 구현예에서, DNA 또는 RNA 태그의 크기는 게놈 복잡성에 의하여 결정된다. 박테리아 게놈에서, 약 8bp 내지 약 16bp의 태그가 충분하며, 반면에 인간 게놈과 같은 복잡한 게놈의 경우에는 16-20bp 태그를 고려할 수 있다.

"링커"는, 통상적으로는, 두 개의 폴리뉴클레오티드 함께 연결하는 것과 같은, 특정 목적을 위하여 설계된 핵산의 인공 서열이다. 본 발명의 "RNA 링커"는 본 발명의 DNA 링커에, 그리고 가교된 비-코딩 RNA와 같은 RNA의 자유 3'-말단으로부터 합성된 cDNA에 연결되도록 설계된다. 본 발명의 "DNA 링커"는 본 발명의 RNA 링커에, 그리고 염색질 단편에 가교된 염색체 DNA와 같은, DNA의 자유 말단에 연결되도록 설계된다. 본 발명의 "변형 RNA 링커"는 일 말단(예, 평활 말단 또는 평활 말단을 생성할 수 있는 결찰 호환성 말단)에서 게놈 DNA 단편에, 그리고, 다른 말단에서, 가교된 비-코딩 RNA와 같은, RNA의 자유 3'-말단으로부터 합성된 cDNA에 연결되도록 설계된다. 본 발명의 "직접 RNA 링커"는 예비-아데닐화 5'-말단을 통하여 ncRNA의 3'-OH에 직접 연결되도록, 그리고 다른 말단(예, 평활 말단 또는 평활 말단을 생성할 수 있는 결찰 호환성 말단)에서 게놈 DNA 단편에 연결되도록 설계된다.

"시퀀싱"은 생체고분자, 이 경우에는 핵산의 구성성분의 순서를 결정하기 위하여 사용되는 다양한 방법을 지칭한다. 본 발명에 이용될 수 있는 적합한 시퀀싱 기술은 전통적인 사슬 종결 Sanger 방법뿐만 아니라, 대량 병렬 시그네쳐 시퀀싱(또는 MPSS, Lynx Therapeutics/Solexa/Illumina에 의해), 폴로니 시퀀싱(Life Technologies), 피로시퀀싱(pyrosequencing) 또는 "454 시퀀싱"(454 Life Sciences / Roche Diagnostics), 결찰에 의한 시퀀싱(Applied Biosystems/Life Technologies에 의한 SOLiD 시퀀싱), 합성에 의한 시퀀싱(Solexa/Illumina), DNA 나노볼 시퀀싱, heliscope 시퀀싱(Helicos Biosciences), 이온 반도체 또는 이온 토렌트 시퀀싱(Ion Torrent Systems사/Life Technologies), 및 단일 분자 실시간(single-molecule real-time, SMRT) 시퀀싱(Pacific Bio)과 같은, 수 많은 상업적 원천으로부터 이용할 수 있는, 소위 차세대 (고속처리) 시퀀싱을 포함한다. 수 많은 기타 고속처리 시퀀싱 방법은 여전히 개발되거나 완벽하며, 이것들은 나노기공 DNA 시퀀싱, 혼성화에 의한 시퀀싱, 질량 분석을 이용한 시퀀싱, 미세유동 Sanger 시퀀싱, 투과 전자 현미경 DNA 시퀀싱, RNAP 시퀀싱, 및 체외 바이러스 고속처리 시퀀싱 등등을 포함하는, 본 발명의 PET 폴리뉴클레오티드를 시퀀싱하는데 이용될 수 있다.

소정 구현예에서, 시퀀싱 방법은 대상 PET 폴리뉴클레오티드의 양단으로부터 태그를 시퀀싱하여, 쌍 말단 태그 정보를 제공할 수 있다. 소정 구현예에서, 시퀀싱 방법은, 대상 PET 폴리뉴클레오티드의 콘카테머와 같은, 다양한 길이의 긴 DNA 단편 상에서 리드(read)를 수행할 수 있다.

"참조 게놈"은 관심의 유기체의 게놈, 또는 ncRNA 및 게놈 DNA가 유래하는 게놈을 지칭한다. 본 발명의 방법 및 조성물은, 수많은 고세균 또는 세균, 원생 생물, 균류 (예, S. cerevisae 또는 S. pombe), 식물, 동물 게놈을 포함하여, 완전한 또는 본질적으로 완전한 서열을 이용가능한 임의의 참조 게놈에 적용한다. 예를 들면, 지금 인간, 마우스, 및 많은 기타 포유류 및 비포유류 종의 게놈 서열은 공공 도메인에 쉽게 이용할 수 있다. 예를 들면, Venter 등, "The Sequence of the Human Genome,"Science , 291(5507):1304-1351, 2001을 참조. 기타 비-제한적 참조 게놈은, 수많은 비-인간 영장류, 포유류, 설치류(래트, 마우스, 햄스터, 토끼 등), 가축 동물(소, 돼지, 말, 양, 염소), 조류(닭), 파충류, 양서류(Xenopus), 물고기(제브라 피쉬(다니오 레리오(Danio rerio), 복어), 곤충(Drosophila, 모기), 선충, 기생동물, 곰팡이(예, S. cerevisae 또는 S. pombe과 같은, 효모), 다양한 식물, 바이러스(예컨대, 숙주 게놈에 병합되는 것들), 등등을 위한 것들을 포함한다.

잠금 핵산(locked nucleic acid, LNA)은, LNA의 리보오스 부위를 2' 산소와 4' 탄소를 연결하는 여분의 브리지로 변형하는 변형 RNA 뉴클레오티드이다. 상기 브리지는 3'-엔도 배위에서 리보오스를 "잠근다". LNA 뉴클레오티드는, 원하면 언제나, 뉴클레오티드에서 DNA 또는 RNA 잔기와 혼합할 수 있다. 그러한 올리고머는 화학적으로 합성되며, 상업적으로 이용가능하다. 잠긴 리보오스 배위는 염기 적층 및 골격 예비-조직화를 강화시킨다. 이것은 올리고뉴클레오티드의 혼성화 성질(녹는점)을 상당히 증가시킨다.

펩티드 핵산(peptide nucleic acid, PNA)은 DNA 또는 RNA에 유사한 인공적으로 합성된 폴리머이다. PNA 올리고머는 상보적 DNA에 결합하는데 있어서 더 큰 특이성을 나타내며, PNA/DNA 염기 미스매칭은 DNA/DNA 듀플렉스 내의 유사한 미스매치보다 더 불안정하게 한다. 또한, 이러한 결합력 및 특이성은 PNA/RNA 듀플렉스에 적용한다.

본 발명의 "쌍-말단 태그(paired-end tag, PET) 폴리뉴클레오티드"는, 한 말단에서 또는 근처에서, ncRNA으로부터 유래하는 RNA 태그, 및 다른 말단에서 또는 근처에서, 게놈 DNA으로부터 유래하는 DNA 태그를 포함하는 폴리뉴클레오티드이며, 상기 ncRNA 및 상기 게놈 DNA는 바람직하게는 동일한 염색질 단편에 가교된다. 그러한 의미에서, PET 폴리뉴클레오티드의 두 말단에서의 RNA 및 DNA는 쌍을 이루고, 가교시 ncRNA와 게놈 DNA 사이의 물리적 근접을 반영한다.

"근접 결찰 조건"는, 동일한 염색질 단편에 가교된 게놈 DNA 및 ncRNA와 같이, 근접에서 결찰가능한 폴리뉴클레오티드 말단이 우선적으로 결찰되는 폴리뉴클레오티드 결찰 반응을 위한 조건을 지칭한다. 한편, 상이한 염색질 단편에 가교된 게놈 DNA 및 ncRNA와 같이, 근접이 아닌 것에서 결찰가능성 폴리뉴클레오티드 말단은 결찰되지 않거나 본질적으로 결찰되지 않는다. 서로간의 물리적 근접성으로 인하여, 상이한 염색질 단편 상의 결찰가능한 말단 사이의 결찰보다 동일한 염색질 단편 상의 결찰가능성 말단이 더 결찰되도록, 그러한 결찰 조건은 큰 부피 결찰을 포함한다.

"맵핑(mapping, 게놈에 대한 서열 태그)"은 게놈 내 서열의 게놈 위치의 확인을 포함한다.

"이작용성 가교체/시약" 또는 "가교제/시약"은 둘 이상의 반응기를 가지는 제제를 변형하는 것을 포함하는데, 각각은 한 부분(moiety, 예컨대 DNA, RNA, 또는 단백질)과 반응하여, 두 부분이 개별 분자를 나타내는 경우 두 분자를 가교시킬 수 있다. 그러한 이작용성 가교체는 당업계에서 잘 알려져 있다(예를 들면, Isalm and Dent in Bioconjugation , Chapter 5, pp. 218-363, Groves Dictionaries Inc., New York, 1999을 참조). 예를 들면, 포름알데히드 또는 글루타르알데히드, 또는 알데히드 반응기를 갖는 기타 유사한 시약은, 메틸렌(-CH₂-) 연결기를 통하여, 단백질의 1차 아미노기를 단백질 또는 DNA의 기타 근처의 질소 원자와 가교할 수 있다. 티오에테르 결합을 통하여 연결을 가능하게 하는 기타 이작용성 가교제는 N-숙시니미딜-4-(N-말레이미도메틸)-사이클로헥산-1-카르복실레이트(SMCC)를 포함하여 말레이비도기, 또는 N-숙시니미딜-4-(요오드아세틸)-아미노벤조에이트(SIAB)와 함께 유도하여 요오드아세틸기를 유도한다. 폴리펩티드에 말레이미드기 또는 할로아세틸기를 도입하는 기타 이작용성 가교제는 당 업계에 잘 알려져 있으며(미국 특허출원번호 제2008/0050310호 및 제2005/0169933호, Pierce Biotechnology사(P.O. Box 117, Rockland, IL 61105, USA)에서 접근할 수 있음), 비스-말레이미도폴리에틸렌글리콜(BMPEO), BM(PEO)₂, BM(PEO)₃, N-(β-말레이미도프로필옥시)숙신이미드 에스테르(BMPS) γ-말레이미도부틸산 N-숙신이미딜 에스테르(GMBS), ε-말레이미도카프로산 N-하이드록시숙신이미드 에스테르(EMCS), 5-말레이미도발레르산 NHS, HBVS, SMCC의 "장쇄" 유사체(LC-SMCC)인 N-숙신이미딜-4-(N-말레이미도메틸)-사이클로헥산-1-카르복시-(6-아미도카프로에이트), m-말레이미도벤조일-N-하이드록시숙신이 미드 에스테르(MBS), 4-(4-N-말레이미도페닐)-부틸산 하이드라지드 또는 HCl 염 (MPBH), N-숙신이미딜 3-(브로모아세트아미도)프로피오네이트(SBAP), N-숙신이미딜 요오드아세테이트(SIA), κ-말레이미도운데칸산 N-숙신이미딜 에스테르(KMUA), N-숙신이미딜 4-(p-말레이미도페닐)-부티레이트(SMPB), 숙신이미딜-6-(β-말레이미도프로피온아미도)헥사노에이트(SMPH), 숙신이미딜-(4-비닐설포닐)벤조에이트(SVSB), 디티오비스-말레이티도에탄(DTME), 1,4-비스-말레이미도부탄(BMB), 1,4-비스말레이미딜-2,3-디하이드록시부탄(BMDB), 비스-말레이미도헥산(BMH), 비스-말레이미도에탄(BMOE), 설포숙신이미딜 4-(N-말레이미도-메틸)사이클로헥산-1-카르복실레이트(술포-SMCC), 설포숙신이미딜(4-요오드-아세틸)아미노벤조에이트(설포-SIAB), m-말레이미도벤조일-N-하이드록시설포숙신이미드 에스테르(설포-MBS), N-(γ-말레이미도부트릴옥시)설포숙신이미드 에스테르(설포-GMBS), N-(ε-말레이미도카프로일옥시)설포숙신이미도 에스테르(설포-EMCS), N-(κ-말레이미도운데카노일옥시)설포숙신이미드 에스테르(설포-KMUS), 및 설포숙신이미딜 4-(p-말레이미도페닐)부티레이트(설포-SMPB)를 포함하나, 이에 제한되지 않는다.

가교에 사용될 수 있는 헤테로이작용성 가교제는 아민-반응성 N-하이드록시숙신이미드기(N-hydroxysuccinimide group, NHS group), 및/또는 카르보닐-반응성 하이드라진기를 함유할 수 있다. 그러한 상업적으로 이용할 수 있는 헤테로이작용성 가교제의 예는 숙신이미딜 6-하이드라지노니코틴아미드 아세톤 하이드라존(SANH), 숙신이미딜 4-하이드라지도테레프탈레이트 하이드로클로라이드(SHTH), 및 숙신이미딜 하이드라지늄 니코티네이트 하이드로클로라이드(SHNH)를 포함한다. 또한, 산-표지 연결기를 지니는 접합체는 본 발명의 하이드라진을 지니는 벤조디아제핀 유도체를 이용하여 제조할 수 있다. 사용될 수 있는 이작용성 가교제의 예는 숙신이미딜-p-포르밀 벤조에이트(SFP) 및 숙신이미딜-p-포르밀페녹시아세테이트(SFPA)를 포함한다.

이황화 결합에 의하여 가교를 가능하게 하는 기타 이작용성 가교제는 당업계에 알려져 있으며, N-숙신이미딜-3-(2-피리딜디티오)프로피오네이트(SPDP), N-숙신이미딜-4-(2-피리딜디티오)펜타노에이트(SPP), N-숙신이미딜-4-(2-피리딜디티오)부타노에이트(SPDB), N-숙신이미딜-4-(2-피리딜디티오)-2-설포 부타노에이트(설포-SPDB)를 포함하여 디티오피리딜기를 도입한다. 이황화기를 도입하는데 이용될 수 있는 기타 이작용성 가교제는 당업계에 알려져 있으며, 미국 특허 번호 제 6,913,748호, 제 6,716,821호, 및 미국 특허 공개번호 제2009/0274713호 및 제 2010/0129314호에 개시되어 있으며, 이것들은 본원에 참조로서 병합되어 있다. 대안적으로, 티올기를 도입한 2-이미노티올란, 호모시스테인 티올아세톤, 또는 S-아세틸숙신 안하이드리드와 같은 가교제도 이용될 수 있다.

상기 이작용성 가교제 둘 이상이 함께 이용되어 염색질 단편에서 DNA, RNA, 및 단백질을 가교할 수 있다.

3. 제한 효소

본 발명의 DNA 및/또는 RNA 링커가 제한 효소 인식 부위를 포함하는 것을 요구되지 않는다. 소정 구현예에서, 본 발명의 DNA 및/또는 RNA 링커가 제한 효소 인식 부위를 포함하지 않는 것이 바람직하지 않을 수 있다. 그러나, 소정 구현예에서, 본 발명의 DNA 및/또는 RNA 링커는, II형 RE 인식 부위(예, IIS형 RE 부위)와 같은, 적어도 하나의 RE 인식 부위를 포함할 수 있다.

RE 절단의 결과가, 10-20 bp와 같은, 원하는 길이의 DNA 또는 RNA를 만들어낸다면, 일반적으로, 당업계에서 알려진 임의의 RE 및 이의 인식 부위가 이용될 수 있다. 핵산 분자 내의 적어도 하나의 인식 부위를 인식하고 본 발명에 이용될 수 있는 그러한 제한 효소는, 특히 본원에 제공된 가이드와 예시적 실시예에 있어서, 당업자에게는 명백하다. 예를 들어, Current Protocols in Molecular Biology, Vol. 2, 1995, Ed. Ausubel, 등, Greene Publish. Assoc. & Wiley Interscience, Unit 3.1.15; 및 최신식의 New England Biolabs Catalog 또는 2005 및 그 이후의 웹사이트 정보를 참조.

가능한 제한 효소 인식 부위의 비-제한적인 리스트 및 이를 인식하는 대응하는 제한 효소가 아래에 보고되어 있다.

예로서, MmeI와 같은 IISRE형을 이용하여 결찰된 RNA-DNA 링커에 근접하는 고정된 길이의 DNA 또는 RNA 태그를 생성할 수 있다. 특히, MmeI 인식 부위는 RNA 또는 DNA 링커의 이중 가닥 영역의 말단에 위치할 수 있어서, Mmel 절단시, RNA 또는 DNA 서열에서 유래하는 17-21 bp 태그 서열은 결찰된 RNA 링커 및 DNA 링커에 연결된다. RNA 및 DNA 링커 각각에 하나의 Mmel 부위가 나타나면, 두 개의 생성된 태그-하나는 DNA 태그이고 다른 하나는 RNA 태그-가 지금 결찰된 RNA 링커 및 DNA 링커에 인접한다. 두 개의 태그는 평활화함에 의하여 추가적으로 처리되어, PCR 증폭, 농축, 또는 시퀀싱과 같은, 추가적인 하향 작업을 실시할 수 있도록 한다.

본 발명에 이용될 수 있는 일부 비-제한적 II형 제한 효소의 예는 다음을 포함한다: AarI, AceIII, AloI, BaeI, Bbr7I, BbvI, BbvII, BccI, Bce83I, BceAI, BcefI, BcgI, BciVI, BfiI, BinI, BplI, BsaXI, BscAI, BseMII, BseRI, BsgI, BsmI, BsmAI, BsmFI, Bsp24I, BspCNI, BspMI, BsrI, BsrDI, BstF5I, BtgZI, BtsI, CjeI, CjePI, EciI, Eco31I, Eco57I, Eco57MI, Esp3I, FalI, FauI, FokI, GsuI, HaeIV, HgaI, Hin4I, HphI, HpyAV, Ksp632I, MboII, MlyI, MmeI, MnlI, PleI, PpiI, PsrI, RleAI, SapI, SfaNI, SspD5I, Sth132I, StsI, TaqII, TspDTI, TspGWI, TspRI 및 Tth111II (Rebase Enzymes 웹사이트의 리스트 참조: rebase dot neb dot com slash cgi-bin slash outsidelist; Szybalski, W., 1985, Gene, 40:169도 참조). 바람직한 길이(예, 10-25 bp 부터 수백의 bp)의 태그 서열을 생성할 수 있는 유사한 성질을 가지는, 당업계에서 알려진 기타 적합한 RE 효소 또는 후에 발견되는 것들을 이용하여 본 발명을 실시할 수 있다.

소정 구현예에서, 제한 효소는 IIS형 효소이다. 소정 구현예에서, 상기 RE는 약 10-25 bp 또는 15-20 bp의 DNA 또는 RNA 태그 서열을 생산하다. 소정 구현예에서, 상기 RE는 MmeI 또는 GsuI이다.

여러 계열의 II형 제한 효소의 인식 부위 및 절단 부위의 기타 예들은 다음을 포함한다(인식 부위 및 절단 부위가 괄호 내에 있음): BbvI (GCAGC 8/12), HgaI (GACGC 5/10), BsmFI (GGGAC 10/14) SfaNI (GCATC 5/9), 및 Bsp I (ACCTGC 4/8).

인공적 제한 엔도뉴클레아제도 이용될 수 있다. 이러한 엔도뉴클레아제는 단백질 조작에 의하여 제조할 수 있다. 예를 들면, 엔도뉴클레아제 Fokl은, DNA 기질의 양 가닥 상에 인식 부위에서 떨어진 하나의 뉴클레오티드를 절단하기 위하여, 삽입에 의하여 조작된다. Li and Chandrasegaran, Proc . Nat. Acad . Sciences USA, 90:2764-8, 1993을 참조. 그러한 기술을 적용하여, 바람직한 인식 서열 및 인식 부위에서 절단 부위까지의 바람직한 거리를 갖는 제한 엔도뉴클레아제를 제조할 수 있다.

따라서, 소정 구현예에서, 본 발명의 조성물 및 방법에 유용할 수 있는 RE 효소는, 인식 부위 밖의 IIS형 절단 단편을 생성할 수 있는 것과 같은, 인공적인 제한 엔도뉴클레아제을 포함한다. 그러나, 다른 소정 구현예에서, 본 발명의 조성물 및 방법에 유용할 수 있는 RE 효소는, 인공적인 제한 엔도뉴클레아제를 배제한다.

소정 구현예에서, IIB형 제한 효소 인식 부위는 설계된 DNA 및/또는 RNA 링커에 병합될 수 있다. IIB형 제한 효소(예, BcgI 및 BplI)는 AdoMet 및 Mg² ⁺ 보조인자 둘 다를 필요로 하는 멀티머이며, 인식의 양 측 DNA를 절단하여 인식 부위를 절단해낸다. 따라서 IIB RE 부위는 연결된 RNA 및 DNA 링커(예, RE 부위의 일부가 RNA 링커 상에 있고 RE 부위의 나머지 부분이 DNA 링커 상에 있어서, 결찰된 DNA 및 RNA 링커는 완전한 IIB형 RE 부위를 재구성함)를, 또는 RNA 링커 또는 DNA 링커 내에서 완전하게, 스패닝(span)하거나 스트래들링(straddle)하도록 조작될 수 있다. IIB형 RE의 소화 시에, 두 RNA 및 DNA 태그를 생성할 수 있다.

소정 구현예에서, IIG RE(예컨대, Acul) 인식 부위는 IIS RE 부위 대신에 이용할 수 있다. 그러한 IIG형 RE는 연속 서열을 인식하고, 한 측에서만 절단한다(Acul).

모든 적절한 II형 RE 인식 부위, 예컨대, 한 측 또는 양 측에서 인식 서열 밖에서 절단하는 II형 RE는, 다양한 소스에서 얻을 수 있다. 예를 들면, Restriction Endonucleases (Nucleic Acids and Molecular Biology)를 참조, A. Pingoud, Springer 편집; 2004판(2004년 12월 1일), 본원에 참조로서 병합됨. 또한, New England Biolabs' 2010 catalog 및 후속 업데이트를 참조(본원에 참조로서 병합됨).

소정 구현예에서, I형 제한 효소도 RNA 또는 DNA 태그, 특히 DNA 태그를 생성하는데 이용될 수 있다. 예를 들면, I형 RE 인식 부위는 DNA 링커에 포함되어, 연결된 염색체 DNA 내의 무작위 거리에서 RE가 절단하도록 한다.

소정 구현예에서, III형 RE 인식 부위(예, EcoP15I 부위)가 RNA 및/또는 DNA 링커에 이용될 수 있다. III형 RE 효소는 인식 부위 밖에서 절단하며, 절단을 성취하기 위하여는, 동일한 DNA 분자 내에서 반대의 배향으로 있는 그러한 두 서열을 필요로 한다. 각 절단을 위한 상기 두 개의 필요한 인식 부위는 DNA 링커 내에 완전히, 또는 RNA 링커 내에 완전히, 또는 두 링커 내에 함유될 수 있다(따라서, 정확하게 연결된 RNA-DNA 링커만이 RE 인식 부위를 재생성함).

III형 제한 효소 및 III형 효소의 예는, 예를 들면 Matsumura 등, SuperSAGE, Proc . Natl . Acad . Sci ., USA 100(26):15718-23 (Dec. 2003; Moencke-Buchner 등, J. Biotechnol ., 114: 99-106, 2004; Mucke 등, J. Mol . Biol ,. 312: 687-698, 2001; Rao 등, J. Mol . Biol.,209: 599-606, 1989; Hadi 등, J. Mol . Biol ,. 134: 655-666, 1979에 기재되어 있으며, 이것들 모두는 참조로서 본원에 병합되어 있다. 또한, III형 제한 효소는 New England Biolabs(NEB)에서 구입할 수 있다. 특히, 본 발명의 구현예를 실시하기 위한 예시적인 III형 RE는 III형 효소 EcoP15I이다. EcoP15I의 인식 부위는 CAGCAG (25/27)이다.

상기 제한 부위에서 임의의 것은 DNA 또는 RNA 링커에서 함께 이용될 수 있다. 예를 들면, RNA 링커는 IIS형 RE 부위를 포함할 수 있으며, 대응하는 DNA 링커는 RE 부위, IIG형 부위, 또는 III형 RE 부위 등이 없을 수 있다.

4. 콘카테머 및 라이브러리 (Concatemers and Libraries)

소정 구현예에서, 본 발명의 단리된 PET 폴리뉴클레오티드는 다른 PTE 폴리뉴클레오티드와 연결되거나 연접되어(concatenated) PET 폴리뉴클레오티드의 콘카테머를 형성한다. 임의의 수의 PET 폴리뉴클레오티드는, 시퀀싱의 목적을 위하여 또는 적합한 플라스미드 또는 벡터에 클로닝하기 위하여, 함께 연결될 수 있다.

따라서, 다른 태양에서, 본 발명은, 적어도 DNA 태그 및 적어도 하나의 RNA 태그를 포함하는 PET 폴리뉴클레오티드를 적어도 두 개 포함하는 PET 폴리뉴클레오티드의 콘카테머를 제공하며, 여기서 상기 DNA 태그는 염색체 또는 게놈 DNA로부터 얻고 상기 RNA 태그는 ncRNA의 cDNA로부터 얻어지며, 상기 DNA 및 상기 ncRNA의 cDNA는, 본 발명의 RNA/DNA 링커 및 방법을 이용하여, 가교된 핵산-분자 복합체로부터 얻어진다.

따라서, PET 폴리뉴클레오티드의 콘카테머의 각 PET 폴리뉴클레오티드는 RNA 태그-RNA 링커-DNA 링커-DNA 태그(또는 그 역 배향)의 일반적인 구조를 가질 수 있다.

상기 콘카테머는 많은 기술이 인정되는 방법 중 임의의 하나에 의하여 형성될 수 있다. 특히, 길이 조절 연쇄화 방법(Ruan 등, 미국 특허 출원 공개 번호 제 2008/0124707 A1호, 본원에 참조로서 병합됨)이 이용될 수 있다. 다른 실시예에서, 필요하면, 상기 단리된 PET 폴리뉴클레오티드의 두 양단이 제한 효소(II형)에 의하여 소화될 수 있는 하나 이상의 어댑터 올리고뉴크레오티드 연결하기 전에, 상기 두 양단을 연마할 수 있다. 소화 산물은, 개별 PET 폴리뉴클레오티드의 연접화(concatemerization)를 용이하게 할 수 있는 호환성 부착 말단을 가질 수 있다. RE 부위가 PET 폴리뉴클레오티드의 말단에 연결되는 모든 어댑터에서 있어서 동일하다면, 모든 부착 말단은 결찰 및 연접화를 위하여 호환적이며, 개별 PET 폴리뉴클레오티드는 헤드-투-테일(head-to-tail) 방식 또는 헤드-투-헤드(head-to-head) 방식으로 독립적으로 함께 연결될 수 있다. 상기 어댑터가 상이하다면, 예를 들어, 제1 RE 부위를 갖는 제1 어댑터는 RNA 태그에 연결될 수 있고, 제2 (상이한) RE 부위를 갖는 제2 어댑터는 DNA 태그에 연결될 수 있다. 연접화 시에, 모든 PET 폴리뉴클레오티드는 헤드-투-헤드(head-to-head) 방식으로 연결될 수 있다.

따라서, PET 폴리뉴클레오티드의 콘카테머의 각 PET 폴리뉴클레오티드가 하나(말단 PET 폴리뉴클레오티드에서) 또는 두 개(내부 PET 폴리뉴클레오티드에서) 다른 PET 폴리뉴클레오티드에 헤드-투-테일(head-to-tail) 방식 또는 헤드-투-헤드(head-to-head) 방식으로 독립적으로 연결될 수 있다. 소정 구현예에서, 콘카테머를 갖는 모든 PET 폴리뉴클레오티드는 헤드-투-헤드(head-to-head) 방식으로 연결될 수 있다.

PET 폴리뉴클레오티드의 DNA 및/또는 RNA 링커는, IIS형 제한 효소(예, MmeI 또는 GsuI)에 있어서의 RE 인식 부위와 같은, 적어도 하나의 제한 효소 인식 부위를 포함할 수 있다.

PET 폴리뉴클레오티드의 콘카테머는 벡터 또는 세포에 삽입되거나 클로닝될 수 있는데, 상기 세포는 박테리아 세포일 수 있다. PET 폴리뉴클레오티드의 상기 클로닝된 콘카테머는 바람직하게는 개별적으로 단리된 RE에 의하여 소화될 수 있다.

PET 폴리뉴클레오티드의 길이에 따라 연접화될 수 있는 본 발명의 PET 폴리뉴클레오티드의 수는 과도한 실험 없이 당업자에 의하여 용이하게 결정할 수 있다. 콘카테머의 형성 후에, 다중 태그는 시퀀신을 위한 벡터에 클로닝되거나, 상기 콘타테머는, 클로닝없이, 본원에 기재된 소위 차세대 고속처리 시퀀싱 방법, 또는 단일 분자 시퀀싱 방법을 포함하여, 당업계에서 알려진 방법 중 임의의 하나와 같은, 당업자에게 알려진 방법에 의하여, 직접 시퀀싱될 수 있다. 따라서, PET 폴리뉴클레오티드의 연접화는, 단일 벡터 또는 클론 내에서 다중 PET 폴리뉴클레오티드를 시퀀싱함으로써 연속 방식으로 핵산 분자를 효율적으로 분석할 수 있다.

관련 태양에서, 본 발명은, 적어도 DNA 태그 및 적어도 하나의 RNA 태그를 포함하는 PET 폴리뉴클레오티드를 적어도 두 개 포함하는 PET 폴리뉴클레오티드의 라이브러리를 제공하며, 여기서 상기 DNA 태그는 염색체 또는 게놈 DNA로부터 얻고 상기 RNA 태그는 ncRNA의 cDNA로부터 얻어지며; 상기 ncRNA의 DNA 및 cDNA는, 본 발명의 RNA/DNA 링커 및 방법을 이용하여, 가교된 핵산-분자 복합체로부터 얻어진다.

소정 구현예에서, 상기 라이브러리는 1000만개까지의 PET 폴리뉴클레오티드, 또는 100만, 10만, 1만, 1000, 100, 또는 10개까지의 PET 폴리뉴클레오티드까지 포함할 수 있다.

소정 구현예에서, 상기 라이브러리는, PCR 증폭과 같은, 임의의 증폭을 통하여 이루어질 수 있다.

소정 구현예에서, 상기 라이브러리 내에서 적어도 두 개의 멤버가, 클로닝된 유전 물질의 PCR 증폭, 순환 원형 증폭, 생물학 증폭과 같은 증폭, 또는 기타 공지된 증폭 방법으로부터 유래하도록, 상기 라이브러리를 증폭한다. PET 폴리뉴클레오티드의 말단에 연결된 PCR 어댑터의 정보에 기반하여, 혹은 클로닝된 PET 폴리뉴클레오티드 또는 이의 콘카테머에 인접한 클로닝 벡터 상의 프라이머 서열에 기반하여, PCR 프라이머 및 프로브 서열을 제조할 수 있다.

이어서, 인접한 RE 인식 부위(어댑터 내부)를 인식하는 효소를 갖도록 PET 폴리뉴클레오티드를 함유하는 PCR 또는 기타 증폭 산물을 단리하여 증폭된 라이브러리를 일으킬 수 있으며, 이는 많은 하류 분석 중 하나에 이용될 수 있다.

소정 구현예에서, PET 폴리뉴클레오티드 콘카테머는, 증폭 전 또는 후에, 겔 전기영동 및 겔 제거를 포함한, 임의의 표준 방법에 의하여, 적합한 크기에서 선택될 수 있다. 적절한 크기를 선택함에 있어서 주요 고려사항은, 상기 크기는 프라이머 다이머 및 비-어닐링된 어댑터의 상기 크기 및 하기의 소정의 긴 선형 멀티머의 크기이어야 한다는 것이다. 특히, 대략 100-1000 bp 또는 200-500 bp의 크기를 갖는 콘카테머가 선택될 수 있다. 따라서, 크기 선택과 관련하여, 크기가 상기 크기 범위에 있을 것이므로, 긴 선형 멀티머는 제거될 수 있다는 장점이 있다. 유사하게는, 너무 짧은 단편, 비-어닐링된 어댑터 및 프라이머 다이머도 제거될 수 있다.

5. 염색질 면역침전(Chromatin Immunoprecipitation , ChIP )

소정 구현예에서, 본 발명의 방법을 이용하여 구체적인 ncRNA-염색질/단백질-DNA 상호작용을 확인할 수 있다. 예를 들면, 소정 구현예에서, 특정 염색질 성분 또는 단백질과 관련이 있는 임의의 ncRNA-DNA-염색질 상호작용을 결정하는 것에 관심이 있을 수 있다. 본 발명의 방법은 Chlp을 이용하여 관심의 단백질을 면역침전하는 것을 추가로 포함할 수 있다.

ChIP를 이용하여 농축하며, 그럼으로써 히스톤 및 핵산 단백질 복합체에서 핵산에 결합하는 기타 단백질과 같은, 구체적인 단백질과 연관된 유전 영역을 확인할 수 있다(Taverner 등, Genome Biol., 2004, 5(3):210에서 검토됨). 목적은 상호작용의 부위에서 단백질을 DNA와 가교하는 것이다.

이 목적은, 포름알데히드, 파라포름알데히드, 글루타르알데히드, 아세톤, 메탄올, 또는 기타 이작용성 가교제(또는 이의 혼합물)을 배양 중의 살아있는 세포에 직접 첨가함으로써, 신속하고 효율적으로 달성할 수 있다. 이어서, 이러한 고정 세포의 조 추출액을 제조하고, 염색질을 본 발명의 방법에 따라 단편화한다. 예를 들면, 바람직한 평균 크기(예, 보통 약 1kb)를 달성하기 위하여, 단편화는, 물리적 전단(예, 초음파처리에 의한 전단, 수리전단, 피하 주사기 바늘을 통한 반복 끌기(drawing)), 또는 효소적 소화(예컨대, 제한 효소 소화, 또는 제한된 타이밍, 효소 농도, 온도, pH, 등을 갖는 엔도뉴클레아제에 의한 소화)에 의하여, 이룰 수 있다. 이어서, 가교되고 전단된 염색질 단편을, 관심의 구체적인 단백질에 대항하여 발생한 항체와의 면역침전 반응에서 이용할 수 있다. 각 면역침전에서 농축된 가교된 ncRNA 및 DNA 단편을, 근접 결찰을 통하여 본 발명의 DNA 및 RNA 링커를 이용하여, 연속하여 연결한 다음, 단백질 성분(예, 열 및/또는 프로테아제 K 소화를 통하여)으로부터 끊거나 역교차되고, 정제되어 본 발명의 방법에 의하여 확인할 수 있다.

ChIP을 이용하는 잇점은, 이 접근법이 염색질 및 기타 비-히스톤 단백질의 신속한 가교에 의하여, 그들의 천연 상태에서 존재하는 상호작용과 같은, 살아있는 세포에서 ncRNA 또는 유전 조절 네트워크를 "냉동"시켜서, 이론적으로, 예컨대, 이종기원 발현에 의하여 부과된 잠재적인 인공물이 없는, 시간의 임의의 지점에서 구체적인 ncRNA 또는 유전자 조절 시스템의 "진짜" 상을 나타낼 수 있다.

6. 응용

본 발명의 방법 및 조성물은 치우치지 않은 전반적인 수준으로 또는 관심의 특이적 ncRNA 또는 특이적 염색질 성분의 수준으로, ncRNA와 게놈 좌위 사이의 상호작용을 확인하게 할 수 있다. 본 방법을 이용하여 얻은 정보는 다양한 연구 및 개발에 이용될 수 있다.

예를 들면, 본 발명은, 본 발명의 방법 및 조성물을 이용하여, 특이적 ncRNA와 이의 게놈 타겟 서열 사이의 상호작용을 판단하는 것을 포함하는, 이전에 비공지된 또는 불완전하게 이해된 기능을 갖는, 특이적 ncRNA의 염색질 타겟을 확인하는 방법을 제공한다. 상기 확인된 게놈 타겟 서열은 ncRNA가 그의 생물학적 기능을 행하는 후보 타겟을 나타낸다.

관련된 태양에서, 본 발명은, 본 발명의 방법 및 조성물을 이용하여, 특이적 유전자 또는 게놈 영역과 상기 게놈의 ncRNA 사이의 상호작용을 판단하는 것을 포함하는, 종양 억제자 유전자 또는 종양 유전자를 포함하는 유전자 또는 게놈 영역과 같은, 특이적 유전자 또는 게놈 영역과 상호작용하는 ncRNA를 확인하는 방법을 제공한다. 확인된 ncRNA는 유전자 기능의 후보 조절자(예, 억제자, 인핸서, 또는 보조-활성자)를 나타낸다.

소정 구현예에서, 상기 방법은, 둘 이상의 샘플 중에서, 상기ncRNA와 상기 유전자/게놈 영역 사이의 상호작용의 존재/부존재 또는 정도를 비교하는 것을 추가로 포함한다. 그러한 비교는 두 샘플 사이의 상기 상호작용의 생물학적 중요성 및 임의의 관찰된 차이를 추가로 판독하는 것을 도모할 수 있다.

예를 들면, 샘플 중 하나는 건강한 대조군 샘플이며, 다른 샘플은 질환 샘플, 예를 들어, 동물 모델(예, 마우스 또는 래트 모델)로부터의 질환 샘플; 특정 처리 전 및 후의 질환 샘플; 상이한 단계의 치료에서의 질환 샘플; 특정 치료에 반응한 환자, 치료에 저항성이 환자, 또는 치료 후 재발한 환자로부터의 질환 샘플일 수 있다.

소정 구체예에서, 샘플 중 하나는 줄기 세포 또는 상기 환자에게서 유래되는 유도 만능 줄기(iPS) 세포이고, 선택적으로, 나머지 다른 샘플은 그러한 줄기 세포 또는 iPS 세포로부터 분화된 세포주일 수 있다. 여기서, 구체적인 ncRNA-염색질 상호작용은 발달 또는 분화 프로그램의 개시와 관련이 있을 수 있다.

소정 구현예에서, 상기 샘플은, 인간, 비-인간 영장류/포유류, 가축 동물(소, 말, 돼지, 양, 염소, 닭, 낙타, 당나귀, 고양이, 개), 포유 동물 모델 생물(마우스, 래트, 햄스터, 기니피그, 토끼, 또는 기타 설치류), 양서류(예, 제노푸스(Xenopus)), 어류(예, 제브라 피쉬), 곤충(초파리), 선충(예, C. elegans), 식물, 조류, 곰팡이 (효모, 예를 들면, S. cerevisae 또는 S. pombe )으로부터 유래할 수 있다. 상기 샘플은 확립된 세포주의 조직 배양물, 배양된 1차 세포, 조직 생검물질(갓 절개되거나 냉동됨) 등 일 수 있다.

실시예 9에 보인 바와 같이, 본 발명의 방법은 ncRNA - CCAT1(Colon Cancer Associated Transcript 1)-이 본 좌위에서 매우 복잡한 전사 아형을 갖는 것으로 확인하였다. RICh-PET 데이터는 CCAT1의 잠재적 기능과 하부 메커니즘의 중요한 이해를 제공한다. 구체적으로, CCAT1 좌위 자체는, CCAT1 좌위가 자궁암 세포주 HeLa 세포에서 고도로 전사되는 중요한 인핸서 성질을 가지며, RICh-PET 데이터는, 이 좌위로부터의 전사된 산물이 다른 인핸서 및 프로모터 영역을 타겟팅한다는 것을 보여준다. 예를 들면, CCAT1 ncRNA 전사체(각각 ≥ 3개의 RNA 태그)에 의하여 타겟팅된 122개의 좌위에 있어서, 88개의 좌위는, RNAPII 상호작용을 갖는 6개의 인핸서 좌위를 포함하는, 인핸서 영역이다. 또 다른 34개의 좌위는 프로모터 영역이다. 이는, 평균적으로 CCAT1 타겟 유전자는 무작위로 선택된 유전자 군보다 더 고도로 발현된다는 의견과 일치한다. 따라서, lncRNA CCAT1는 전자 보조-인자로서 작용하여, 종양 유전자 c- myc을 포함하는, 유전자 네트워크를 활성화시킬 수 있다.

따라서, 본 발명의 다른 태양은, CCAT1-코딩된 lncRNA의 길항제를 투여하는 것을 포함하는, CCAT1을 발현하는 암을 치료하는 방법을 제공한다.

관련 태양에서, 본 발명은, 유전자 산물을 CCAT1-코딩된 lncRNA의 길항제에 접촉시키는 것을 포함하는, CCAT1 (예, 전사된 lncRNA)의 유전자 산물에 의하여 매개된 전사 활성화 또는 보조-활성화를 파괴시키는 방법을 제공한다. 소정 구현예에서, 상기 전사 활성화 또는 보조-활성화는 암세포에서 일어난다. 소정 구현예에서, 전사 활성화 또는 보조-활성화는 c-myc, FAN84B, 및/또는 SNX14를 위한 것이다. 소정 구현예에서, CCAT1 게놈 좌위를 타겟 유전자 좌위의 물리적으로 근접한 곳에 위치시키는 것에 의하여 전사 활성화 또는 보조-활성화가 영향을 받는다.

소정 구현예에서, 상기 암은 결장암(예, 결장 선암), 직장암, 자궁 경부암, 폐암, 위암, 간암, 및 이들의 전이이다. 소정 구현예에서, 암은, 매칭하는 또는 대조군 샘플에 비교하여, 2-, 3-, 5-, 10-, 15-, 20-, 30-, 40-, 50-, 60-, 70-, 80-, 90-, 100-, 120-, 150-, 175-, 200-, 250-, 300-, 500-, 또는 1000-배 더 높은 레벨로, CCAT1 전사체를 발현한다.

소정 구현예에서, 길항제는, 예를 들면, 혈청 안정성, 약물학, 또는 약물동력학 성질 등을 개선하기 위하여, 변형 뉴클레오티드를 선택적으로 포함할 수 있는 안티센스 폴리뉴클레오티드이다. 이 변형 뉴클레오티드는 PNA, LNA, 2'-O-알킬 또는 기타 2' 변형, 및/또는 당-포스페이트 골격 상의 변형을 포함할 수 있다.

소정 구현예에서, 길항제는 상기 인코딩된 CCAT1 lncRNA을 타겟팅한 siRNA 또는 miRNA 구조체이다.

또한, 본 발명은 CCAT1 lncRNA의 길항제(안티센스, siRNA, miRNA, 또는 이들을 코딩/발현하는 벡터)를 제공한다.

다른 태양에서, 본 발명은, 본 발명의 방법에 의하여 정의된 약물 효능과 특정 관찰 ncRNA-염색질 상호작용(예, 내성환자가 아닌 순응 환자에서 확인된 상호작용) 사이의 통계적으로 유의한 연관성 또는 관련성을 설정하는 단계, 상기 통계적으로 유의한 연관성 또는 관련성에 따라 다수의 후보 약물의 효과를 판단하는 단계, 상기 통계적으로 유의한 연관성 또는 관련성을 촉진하는 후보 약물을 확인하는 단계를 포함하는, 약물 스크리닝 방법을 제공한다.

소정 구현예에서, 내성 환자의 샘플을 이용하여 상기 후보 약물의 효과를 시험한다. 이는, 내성 환자에서 통계적으로 유의한 연관성을 회복하는 후보 약물을 확인할 수 있게 한다.

다른 태양에서, 본 발명은, (1) 본 발명의 방법을 이용하여, 약물의 효능과 특이적 ncRNA-게놈 DNA (유전자) 상호작용(예, 치료에 반응하는 환자에서 효능이 관찰될 때마다, 특이적 ncRNA-게놈 DNA (유전자) 상호작용이 관찰되며; 치료에 반응하지 않는 환자에서 효능이 관찰되지 않을 때마다, 특이적 ncRNA-게놈 DNA (유전자) 상호작용이 관찰되지 않음) 사이의 통계적으로 유의한 관련성을 (상기 관찰된 ncRNA-게놈 DNA 상호작용 중에서) 확인하는 단계; (2) 상기 관여된 ncRNA 및/또는 상기 DNA (유전자)의 발현 수준을 결정하는 단계를 포함하는데, 약물 효능이 ncRNA 발현 증가 및 DNA (유전자) 발현 저해와 관련되는 경우, 상기 DNA (유전자)를 질환을 치료하기 위한 잠재적 타겟 유전자로 확인하는, 질환 치료를 위한 타겟 유전자를 확인하는 방법을 제공한다.

또한, 본 발명의 방법이 그러한 ncRNA를 확인하기 위한 치우치지 않은 접근법이므로, 상기 본 발명의 조성물 및 방법을 이용하여 특정 게놈 내에서 아직 알려지지 않은 ncRNA을 확인할 수 있다. PET 폴리뉴클레오티드 클러스터가, 임의의 단백질을 인코딩하지 않는 게놈의 한 영역에서 RNA 태그 클러스터를 연속하여 확인하고, 이러한 RNA 태그를 해당 DNA 태그에 의하여 나타내는 (먼, 예컨대, 염색체간) 좌위에 연속하여 연결한다면, RNA 태그가 ncRNA를 드러낼 가능성이 크다.

본 발명의 스크리닝 방법에 의하여 확인된 후보 치료제 또는 타겟 유전자는, 질환 또는 상태에 관련 있는 공지된 실험 모델을 이용하여, 생체외 및/또는 생체내로 입증할 수 있다. 예를 들면, 특이적 ncRNA가 종양 유전자의 발현을 촉진하는 것(또는 종양 억제 유전자의 발현을 저해하는 것)으로 확인되어, 후보 약물 타겟이 된다면, siRNA, miRNA, 안티센스, 등과 같은 ncRNA의 길항제를 이용하는 잠재적인 치료를 생체외 및/또는 생체내에서 입증할 수 있으며, 확립된 암 모델, 예를 들면, 치료해야 할 암의 마우스 모델과 같은, 모델 동물에서 후자를 실시할 수 있다.

상기 마우스는, 많은 상이한 접근가능한 균주를 갖는, 약물 발견 및 개발을 위한 잘 확립된 모델이다. 예를 들면, 암 연구용 많은 유용한 모델이 Mouse Models of Human Cancers Consortium에서 발견할 수 있으며, 이는 몇 개의 데이터베이스, 예컨대, Emice (emice dot nci dot nih dot gov), Cancer Models Database (cancermodels dot nci dot nih dot gov) 및 Cancer Images Database (cancerimages dot nci dot nih dot gov), 또는 The Jackson Laboratory (see jaxmice dot jax dot org slash list slash rax3 dot html)에 의해 배포된 암 연구 모델과 같은 기타 자원을 개발하였다. 1차 암 생검 또는 세포주를 이용하는, 추가 이종 이식 모델은 암 조사에 유용하다.

예를 들면, 후보 ncRNA에 대한 잠재적 길항제의 효능을 입증할 수 있는 폐암모델을 개발하기 위하여, CB17-SCID 베이지색 마우스(Taconic, cat. no. CBSCBG) 또는 NOD/SCID (The Jackson Laboratory cat. 001303), 또는 NSG (The Jackson Laboratory cat. 5557)로 알려진 NOD SCID Gamma 마우스와 같은 6-8 주령 암컷 면역결핍 마우스의 인간 폐 암종 A549 세포(ATCC® CCL-185)가 있는 좌측 폐에 피하 또는 흉강을 통해 (정위(orthotopic); 10⁴/sup cells/25 ㎕) 주입하였다. 종양을 지닌 마우스에 중화 항-CXCL12 또는 면역이전 혈청(preimmune serum)을 복강내 주입하거나, 치료를 받지 않는다. 대안적으로 종양을 지닌 마우스에 플라티놀(시스플라틴) 또는 아비트렉세이트(메토트렉세이트) 또는 팍시탁셀, 또는 기타 화합물로 치료할 수 있다. 종양은 치료할 및 치료하지 않을 다양한 시점에서 단리한다. 비코딩 RNA는 이전에 기재된 방법에 따라 확인한다.

7. CCAT1 전사체 , 길항제, 및 이의 용도

다른 태양에서, 본 발명은 본 발명의 방법으로 확인된 다양한 CCAT1 전사체, 이의 cDNA 서열(두 가닥), 길항제(예, 안티센스 서열, 이러한 CCAT1 ncRNA 전사체의 기능을 길항하는 siRNA 또는 miRNA 구조체)를 제공한다.

CCAT1 ncRNA의 상이한 아형을 나타내는 여덟개의 확인된 cDNA 서열이 서열번호 1-8로 하기에 제공되어 있다.

>CCAT1_JAX_1 전사체 서열; 게놈 위치: chr8:128128655-128241571 가닥:-

>CCAT1_JAX_2 전사체 서열; 게놈 위치: chr8:128128655-128232653 가닥:-

>CCAT1_JAX_3 전사체 서열; 게놈 위치: chr8:128152989-128231094 가닥:-

>CCAT1_JAX_4 전사체 서열; 게놈 위치: chr8:128160497-128232653 가닥:-

>CCAT1_JAX_5 전사체 서열; 게놈 위치: chr8:128172634-128231094 가닥:-

>_CCAT1_JAX_6 전사체 서열; 게놈 위치: chr8:128197810-128240377 가닥:-

>CCAT1_JAX_7 전사체 서열; 게놈 위치: chr8:128186443-128240377 가닥:-

>CCAT1_JAX_8 전사체 서열; 게놈 위치: chr8:128218833-128240377 가닥=-

서열번호 1 내지 8 각각에서, 각 CCAT1 ncRNA 전사체 아형과 동일한 서열(RNA의 U가 cDNA의 T로 치환된 것은 제외)을 가지는 cDNA 서열 "-" 가닥이 3' 말단에서 5' 말단까지 보인다. 또한, 각 cDNA "-" 가닥의 첫번째 및 마지막 뉴클레오티드는 게놈 서열 상에서 해당 뉴클레오티드에 맵핑되므로, 또한 보인다(예, 서열번호 1에서, 5' 말단에서의 첫번째 cDNA 뉴클레오티드 C는 인간 게놈의 8번 염색체 상의 뉴클레오티드 128128655에 대응하며, 5' 말단에서의 마지막 cDNA 뉴클레오티드 T는 인간 게놈의 8번 염색체 상에서 뉴클레오티드 128241571에 대응함).

또한, 다음 표는, 인간 염색체 8번 상의 뉴클레오티드 위치로 표현되는 각 CCAT1 전사체의 각 엑손(exon)을 위한 시작 및 말단 뉴클레오티드 위치, 각 엑손의 길이, 및 대응 게놈 서열 크기를 포함하여, 8개의 전사체, CCAT1_JAX_1 내지 CCAT1_JAX_8 (각각 서열번호 1-8)의 추가 정보를 열거한다.

이름	특징	시작	끝	게놈 크기	전사체 길이
CCAT1_JAX_1	전사체	128128655	128241571	112917	29299
CCAT1_JAX_1	엑손 1	128128655	128129210	556	556
CCAT1_JAX_1	엑손 2	128152988	128153109	122	122
CCAT1_JAX_1	엑손 3	128153590	128153816	227	227
CCAT1_JAX_1	엑손 4	128155104	128155178	75	75
CCAT1_JAX_1	엑손 5	128156007	128156437	431	431
CCAT1_JAX_1	엑손 6	128160496	128161163	668	668
CCAT1_JAX_1	엑손 7	128161860	128161917	58	58
CCAT1_JAX_1	엑손 8	128172633	128174329	1697	1697
CCAT1_JAX_1	엑손 9	128176683	128176771	89	89
CCAT1_JAX_1	엑손 10	128181151	128181362	212	212
CCAT1_JAX_1	엑손 11	128186434	128186609	176	176
CCAT1_JAX_1	엑손 12	128197071	128198015	945	945
CCAT1_JAX_1	엑손 13	128200029	128200129	101	101
CCAT1_JAX_1	엑손 14	128200289	128215467	15179	15179
CCAT1_JAX_1	엑손 15	128218832	128218920	89	89
CCAT1_JAX_1	엑손 16	128218922	128221962	3041	3041
CCAT1_JAX_1	엑손 17	128231054	128231498	445	445
CCAT1_JAX_1	엑손 18	128231499	128231806	308	308
CCAT1_JAX_1	엑손 19	128231808	128232653	846	846
CCAT1_JAX_1	엑손 20	128234035	128235911	1877	1877
CCAT1_JAX_1	엑손 21	128236644	128236720	77	77
CCAT1_JAX_1	엑손 22	128236779	128236929	151	151
CCAT1_JAX_1	엑손 23	128239643	128241571	1929	1929
CCAT1_JAX_2	전사체	128128655	128232653	103999	25265
CCAT1_JAX_2	엑손 1	128128655	128129210	556	556
CCAT1_JAX_2	엑손 2	128152988	128153109	122	122
CCAT1_JAX_2	엑손 3	128153590	128153816	227	227
CCAT1_JAX_2	엑손 4	128155104	128155178	75	75
CCAT1_JAX_2	엑손 5	128156007	128156437	431	431
CCAT1_JAX_2	엑손 6	128160496	128161163	668	668
CCAT1_JAX_2	엑손 7	128161860	128161917	58	58
CCAT1_JAX_2	엑손 8	128172633	128174329	1697	1697
CCAT1_JAX_2	엑손 9	128176683	128176771	89	89
CCAT1_JAX_2	엑손 10	128181151	128181362	212	212
CCAT1_JAX_2	엑손 11	128186434	128186609	176	176
CCAT1_JAX_2	엑손 12	128197071	128198015	945	945
CCAT1_JAX_2	엑손 13	128200029	128200129	101	101
CCAT1_JAX_2	엑손 14	128200289	128215467	15179	15179
CCAT1_JAX_2	엑손 15	128218832	128218920	89	89
CCAT1_JAX_2	엑손 16	128218922	128221962	3041	3041
CCAT1_JAX_2	엑손 17	128231054	128231498	445	445
CCAT1_JAX_2	엑손 18	128231499	128231806	308	308
CCAT1_JAX_2	엑손 19	128231808	128232653	846	846
CCAT1_JAX_3	전사체	128152989	128231094	78106	465
CCAT1_JAX_3	엑손 1	128152989	128153109	121	121
CCAT1_JAX_3	엑손 2	128153719	128153816	98	98
CCAT1_JAX_3	엑손 3	128155105	128155178	74	74
CCAT1_JAX_3	엑손 4	128156008	128156139	132	132
CCAT1_JAX_3	엑손 5	128231055	128231094	40	40
CCAT1_JAX_4	전사체	128160497	128232653	72157	8066
CCAT1_JAX_4	엑손 1	128160497	128161163	667	667
CCAT1_JAX_4	엑손 2	128161861	128161917	57	57
CCAT1_JAX_4	엑손 3	128209720	128215465	5746	5746
CCAT1_JAX_4	엑손 4	128231055	128231498	444	444
CCAT1_JAX_4	엑손 5	128231500	128231806	307	307
CCAT1_JAX_4	엑손 6	128231809	128232653	845	845
CCAT1_JAX_5	전사체	128172634	128231094	58461	1824
CCAT1_JAX_5	엑손 1	128172634	128174329	1696	1696
CCAT1_JAX_5	엑손 2	128176684	128176771	88	88
CCAT1_JAX_5	엑손 3	128231055	128231094	40	40
CCAT1_JAX_6	전사체	128197810	128240377	42568	11053
CCAT1_JAX_6	엑손 1	128197810	128198015	206	206
CCAT1_JAX_6	엑손 2	128200030	128200129	100	100
CCAT1_JAX_6	엑손 3	128200290	128209809	9520	9520
CCAT1_JAX_6	엑손 4	128215408	128215465	58	58
CCAT1_JAX_6	엑손 5	128231055	128231098	44	44
CCAT1_JAX_6	엑손 6	128231100	128231211	112	112
CCAT1_JAX_6	엑손 7	128235783	128235911	129	129
CCAT1_JAX_6	엑손 8	128236780	128236929	150	150
CCAT1_JAX_6	엑손 9	128239644	128240377	734	734
CCAT1_JAX_7	전사체	128186443	128240377	53935	1216
CCAT1_JAX_7	엑손 1	128186443	128186609	167	167
CCAT1_JAX_7	엑손 2	128231055	128231098	44	44
CCAT1_JAX_7	엑손 3	128231100	128231212	113	113
CCAT1_JAX_7	엑손 4	128235784	128235911	128	128
CCAT1_JAX_7	엑손 5	128236780	128236929	150	150
CCAT1_JAX_7	엑손 6	128239764	128240377	614	614
CCAT1_JAX_8	전사체	128218833	128240377	21545	4103
CCAT1_JAX_8	엑손 1	128218833	128218920	88	88
CCAT1_JAX_8	엑손 2	128218923	128221962	3040	3040
CCAT1_JAX_8	엑손 3	128231055	128231098	44	44
CCAT1_JAX_8	엑손 4	128231100	128231211	112	112
CCAT1_JAX_8	엑손 5	128235783	128235911	129	129
CCAT1_JAX_8	엑손 6	128236645	128236720	76	76
CCAT1_JAX_8	엑손 7	128239764	128240377	614	614

이러한 CCAT1 전사체는 NCBI 참조 서열: XR_133500.3에서 하기에 기술된 CCAT1 전사체와 상이하다.

따라서, 한 태양에서, 본 발명은 서열번호 1 내지 8번으로 구성되는 군에서 선택되는 서열에 의하여 나타내는, CCAT1 ncRNA 전사체의 cDNA 서열을 제공한다.

관련 태양에서, 본 발명은, CCAT1 ncRNA의 기능을 길항하는, CCAT1 ncRNA의 길항제 서열을 제공한다.

소정 구체예에서, 상기 길한하는 서열은 서열번호 9에 대응하는 CCAT1 ncRNA의 기능을 길항하지 않는다.

소정 구체예에서, 상기 길항제 서열은 서열번호 1 내지 8에서 보여지는 "-" 가닥 cDNA 서열 중 임의의 하나에 대한 안티센스 서열이다.

소정 구체예에서, 상기 안티센스 서열은, 생리학적 조건(예, 세포의 핵에서), 또는 Spring Harbor Laboratory Press에서 출판한, Molecular Cloning: A Laboratory Manual by Sambrook and Russell, Third Edition, 2001(본원에 참조로서 병합)에 기재된 것과 같은, 매우 엄격한 혼성화 조건 하에서, 서열번호 1 내지 8(서열번호 9는 아님)에서 보여지는 "-" 가닥 cDNA 서열 중 임의의 하나에 대한 안티센스 서열이다. 그러한 높은 엄격한 혼성화 조건은 대략 45℃에서 6×소듐 클로라이드/소듐 시트레이트(SSC), 이어서 50℃, 55℃, 약 60℃, 또는 약 65℃ 이상에서 0.2×SSC 및 0.1% SDS로 1회 이상의 세정을 하는 것을 포함할 수 있다.

소정 구현예에서, 상기 안티센스 서열은, 안티센스가 cDNA 서열과 혼성화하는 적어도 한 영역에서, 서열번호 1 내지 8에 보인 "-" 가닥 cDNA 서열 중 임의의 하나와 적어도 약 40%, 50%, 60%, 70%, 80%, 85%, 90%, 95%, 97%, 99%, 또는 그 이상 동일하다. 소정 구현예에서, 상기 안티센스 서열은 서열번호 9에 단지 약 50%, 40%, 30%, 20% 동일하다.

소정 구현예에서, 상기 안티센스 서열은 약 10, 12, 14, 16, 20, 22, 24, 26, 28, 30 또는 그 이상의 뉴클레오티드 길이를 가진다.

소정 구현예에서, 상기 길항제 서열은 서열번호 1 내지 8(서열번호 9는 아님)에 보인 "-" 가닥 cDNA 서열에 의하여 나타낸 CCAT1 ncRNA 아형 중 임의의 하나 이상의 파괴를 타겟으로 하는 siRNA 또는 miRNA 서열이다.

소정 구현예에서, 상기 길항제 서열은, siRNA 또는 miRNA에 처리될 수 있는 RNase III(예, Dicer)를 위한 siRNA/miRNA, 또는 dsRNA 기질을 인코딩하는 벡터이다.

소정 구현예에서, siRNA 또는 miRNA는 CCAT1 ncRNA 아형의 파괴를 타겟으로 하는 약 20 내지 25개의 뉴클레오티드의 가이드 서열을 포함한다.

관련 태양에서, 본 발명은, 생물 샘플에서 서열번호 1 내지 8 중 임의의 하나 또는 이의 단편의 발현 수준을 측정하되, 상기 생물 샘플에서 서열번호 1 내지 8 중 임의의 하나 또는 이의 단편의 발현은 암 또는 전암 병변을 나타내는 단계를 포함하는, 암 또는 전암 병변을 진단하는 방법을 제공한다. 소정 구현예에서, 상기 단편은 서열번호 9의 단편이 아니다.

소정 구현예에서, 상기 방법은, 생물 샘플에서 측정되는 발현 수준을 표준과 비교하되, 상기 생물 샘플에서 서열번호 1 내지 8 중 임의의 하나 또는 이의 단편의 높은 수준의 발현은 암 또는 전암 병변을 나타내는 단계를 추가로 포함한다. 소정 구현예에서, 상기 단편은 서열번호 9의 단편이 아니다.

소정 구현예에서, 상기 방법은 (a) 대상체에서 얻은 생물 샘플로부터 핵산을 단리하는 단계, (b) 혼성화 복합체의 형성을 허용하는 조건에서, 핵산을 갖는 서열번호 1 내지 8 중 임의의 하나를 인식할 수 있는 프로브를 혼성화하는 단계, (c) 혼성화 복합체 형성을 표준과 비교하는 단계를 포함하되, 상기 생물 샘플에서 더 높은 수준의 혼성화 복합체는 암 또는 전암 병변을 나타낸다. 소정 구현예에서, 상기 프로브는 서열번호 9에 혼성화하지 않는다.

소정 구현예에서, 상기 방법은, (a) 대상체에서 얻은 생물 샘플로부터 핵산을 단리하는 단계, (b) 상기 단리된 핵산에서 서열번호 1 내지 8 중 임의의 하나를 증폭하는 단계, (c) 상기 증폭된 CCAT1 산물을 시각화하는 단계, (d) 상기 CCAT1 증폭 산물의 양을 표준과 비교하는 단계를 포함하되, 더 높은 수준의 CCAT-1 증폭 산물의 존재는 암 또는 전암 병변을 나타낸다. 소정 구현예에서, 상기 단편은 서열번호 9의 단편이 아니다.

소정 구현예에서, 서열번호 1 내지 8 중 하나 이상에 특이적인 프로브를 이용하여 PCR(예, 실시간 정량적 PCR)에 의하여 상기 증폭을 실시한다.

소정 구현예에서, 암이 없는 대상체에서 CCAT-1의 발현 수준을 측정함으로써, 상기 표준을 결정한다. 관련 구현예에서, 동일한 대상체의 비-암성 조직에서 CCAT-1의 발현 수준을 측정함으로써, 상기 표준을 결정한다.

소정 구현예에서, 상기 암은 결장암(예: 결장 선암), 직장암, 자궁 경부암, 폐암, 위암, 간암, 및 이들의 전이로 구성되는 군에서 선택된다.

소정 구현예에서, 전암 병변은 선종폴립(adenomatous polyp)이다.

소정 구현예에서, 상기 생물 샘플은 조직, 혈액, 타액, 소변, 대변, 및 골수 샘플로 구성되는 군에서 선택된다.

본 발명의 관련 태양은, 프로브 또는 프라이머로서 유용한, 서열번호 1 내지 8 중 임의의 하나의 적어도 8개의 연속 뉴클레오티드 또는 이의 보체를 포함하는 올리고뉴클레오티드를 제공한다. 소정 구현예에서, 상기 올리고뉴클레오티드는 서열번호 9에 혼성화하지 않는다.

본 발명의 관련 태양은, (a) 상기 생물 샘플에서 핵산을 단리하는 단계, (b) 혼성 복합체를 형성하는 조건에서, 본 발명의 CCAT1 올리고뉴클레오티드 프로브를 핵산과 혼성화하는 단계, (c) 혼성 복합체 형성을 표준과 비교하는 단계를 포함하되, 상기 생물 샘플에서 더 높은 수준의 혼성 복합체는 샘플에서 CCA1-1 발현을 나타내는, 생물 샘플에서 CCAT-1의 발현을 검출하는 방법을 제공한다.

본 발명의 다른 관련 태양은, cDNA 또는 이의 단편을 포함하며, 상기 cDNA는 서열번호 1 내지 8로 구성되는 군에서 선택되는 벡터를 제공한다. 소정 구현예에서, 상기 cDNA 단편은 서열번호 9에 혼성화하지 않는다.

본 발명의 다른 관련 태양은 상기 대상 벡터를 포함하는 숙주 세포를 제공한다.

본 발명의 다른 관련 태양은, (a) 지시자 분자(indicator molecule)에 결합된 본 발명의 CCAT1 프로브를 대상체에 투여하는 단계, (b) 영상화 장치에 의하여 상기 프로브에 결합된 상기 지지자 분자(예, 방사성 동위원소, 형광 염료, 시인성 염색, 또는 나노입자)을 검출하는 단계를 포함하는, 암 또는 전암 병변을 영상화하는 방법을 제공한다.

본 발명의 추가 관련 태양은, 상기 CCAT1 ncRNA을 CCAT1(예, 안티센스, miRNA, 또는 siRNA)의 대상 길항제 서열과 접촉하는 단계를 포함하는, 서열번호 1 내지 8 중 하나 이상에 의해 나타내는 CCAT1 ncRNA 전사체의 기능을 길항하는 방법을 제공한다.

소정 구현예에서, 상기 방법은 생체외에서 실시하며, 상기 CCAT1 ncRNA 전사체는 조직 배양 샘플에서의 세포에 존재한다.

소정 구현예에서, CCAT1(예, 안티센스, miRNA, 또는 siRNA)의 상기 대상 길항제 서열을 이를 필요로 하는 대상체에 투여하는 단계를 포함하는 상기 방법을 생체내에서 실시한다.

본 발명의 또 다른 관련 태양은, CCAT1(예, 안티센스, miRNA, 또는 siRNA)의 대상 길항제 서열 및 약학적으로 허용가능한 부형제 및/또는 담체를 포함하는 약학 조성물을 제공한다.

본 발명의 한 태양 하에서 기재된 구현예들을 포함하는, 본 출원에 기재된 임의의 구현예는 본 발명의 다른 태양의 기타 구현예들과 조합할 수 있는 것으로 이해해야 한다.

본원에 구체적으로 교시되지 않은 기술들은, Molecular Cloning: A Laboratory Manual by Sambrook and Russell, Third Edition, 2001, Cold Spring Harbor Laboratory Press 출판; Oligonucleotide Synthesis (M. J. Gait, ed., 1984); Nucleic Acid Hybridization (B. D. Hames and S. J. Higgins. eds., 1984); PCR Technology - principles and applications for DNA amplification, 1989, (ed. H. A. Erlich) Stockton Press, New York; PCR Protocols: A Guide to Methods and Applications, 1990, (ed. M. A. Innis 등) Academic Press, San Diego; and PCR Strategies, 1995, (ed. M. A. Innis 등) Academic Press, San Diego(이 모두는 참조로서 본원에 병합됨)과 같은, 표준 분자 생물학 참고 문헌에서 찾을 수 있음을 당업자는 알 수 있을 것이다.

실시예

상기 일반적으로 기재된 본 발명은, 모든 면에서 설명만을 위한 것이며 제한하고자 하는 것이 아닌 하기 실시예를 참조하여 쉽게 이해될 것이다.

실시예 1: 일반적인 RICh-PET 방법

RNA-DNA 결찰에 이은 쌍-말단 태그 시퀀싱(RNA-DNA ligation followed by paired-end-tag sequencing, RICH-PET)을 이용하여, 출원인은 하기에 기재된 예시적 방법을 개발하여, 치우치지 않은 게놈-확장 방식으로 ncRNA(비코딩 RNA)과 염색질 상호작용을 연구하였다.

이 방법의 중요한 컨셉은 대분분의 ncRNA 조절 기능, 특히, 긴 ncRNA(lncRNA)에 의해 채택된 기능들이 RNA-단백질, RNA-DNA, 및/또는 RNA-RNA 상호작용 중 임의의 조합에 통하여 특정 염색질 좌위에서 직접 또는 간접 접촉을 할 것이라는 사실에 기초한다. 그러므로, 전반적인 충격뿐만 아니라 개별적인 및/또는 전반적인 ncRNA로 매개된 특정 기능들을 이해하기 위하여, 전체 게놈에서 염색질의 위치의 ncRNA 접촉 어드레스의 전반적으로 수집한다면, 게놈 요소의 큰 구조적 뼈대 및 상세한 내용을 제공할 것이다.

가교를 통하여, RNA-염색질 상호작용을 캡쳐링할 수 있다. 특이성를 갖는 높은 처리량 분석을 위한 RNA 분자 및 DNA 단편의 인위적 연결성 관계를 확립하기 위하여, 초음파처리로 염색질을 단편화한 후, 각 염색질 복합체에서 단백질 결합에 의하여 함께 테더링된 ncDNA 및 DNA 단편을 대상 RNA 및 DNA 링커를 이용하여 RNA-DNA 결찰을 수행한다.

본 발명의 RNA 링커는 임의의 테더링된 RNA 분자의 3'-말단을 어닐링하기 위한, 그리고 RNA 템플릿을 첫번째 가닥 cDNA 분자로 전환하기 위한 역전사를 위한 프라이머로서, 랜덤 올리고뉴클레오티드 서열, 예컨대, 랜덤 헥소뉴클레오티드를 포함한다. 한편, 본 발명의 DNA 링커는 평활 말단된 염색질 DNA 단편에 결찰된다. RNA 링커 및 DNA 링커 각각은 자기 자신이 아닌 서로에 대하여 상보적인 접착 말단을 가진다. 따라서, 일단 링커가 의도하는 타겟에 부착되면, RNA 및 DNA 단편은 결찰을 통하여 공유결합으로 연결될 수 있다. 이어서, 혼성 결찰 산물에 대하여 쌍-말단 태그(PET) 라이브러리를 구축하고 후속하여 고처리량 시퀀싱을 분석한다. 이 방법의 대략적 도안이 도 1a에 도시되어 있다.

대안적으로, 변형 RNA 링커를 이용하여 RNA-DNA 결찰 단계를 실시할 수 있다. 이 방법의 대략적 도안이 도 1b에 도시되어 있다.

덧붙여, RNA 3'-말단을 5' 아데닐화 ssDNA 또는 5' 아데닐화 돌출부를 직접 연결할 수 있는 소정 효소(예, 절단된 RNL2)의 장점을 이용함으로써, 직접 RNA 링커를 이용하여 RNA-DNA 결찰 단계를 수행할 수 있다. 후자 방법의 개략적인 도안이 도 1c에 도시되어 있다.

상기 태그 서열을 RNA 또는 DNA인 그의 원래 성질로부터 더 구별하기 위하여, 특정 뉴클레오티드 바 코드를 RNA 및/또는 DNA 링커 서열 설계에 병합한 다음, RICh-PET 라이브러리 데이터 세트에서 쌍으로 이루어진 RNA-태그 및 DNA-태그의 정확한 콜링(calling)을 허용할 수 있다. 이어서, 처리된 RNA-태그 및 DNA-태그 서열을 참조 게놈(예, 인간 유래 서열을 위한 참조 인간 서열)에 맵핑하여 ncRNA 및 이의 염색질 타겟 좌위(도시하지 않음)를 확인한다.

설명을 위하여 소정의 실험 상세사항이 하기에 제공된다.

I. 세포 배양 및 가교

5% 소태아혈청(Fetal Bovine Serum, FBS (Life Technologies, cat. 10082147))을 함유한 Ham's F-12 Nutrient Mix(Life Technologies, cat. 11765-054)에서 HeLa S3 세포를 성장시켰다. 가교된 세포의 각 배치(batch)를 위하여, EGS(spacer Arm: 16.1A; Thermo Scientific, cat. 21565) 및 포름알데히드(spacer Arm: 2.0A; Merck - Calbiochem, cat. 344198-250ML)를 이용하여 단백질-DNA, 단백질-RNA, 및 단백질-단백질의 이중-가교를 처리하는데, 이는 포름알데히드만을 사용하는 것보다 양호한 연결성을 제공할 수 있다.

245mm 사각 플레이트(Corning, cat. 431110) 내 약 1 × 10⁸ 세포를, 미리 데워진 DPBS(Life Technologies, cat. 14190250) 중 45 ml의 1.5 mM EGS와 가교하고, 40분 동안 75 rpm으로 먼저 진탕하고, 1% 포름알데히트(Merck - Calbiochem, cat. 344198-250ML)를 첨가하고, 20분 동안 계속해서 진탕한 다음, 10분 동안 0.125 M 글리신(Promega, cat. H5071)으로 반응을 정지시킨 후, 빙-냉 DPBS로 두 번 세정하였다. 이어서, 프로테이나아제 저해제(Roche, cat. 11873580001) 및 RN아제 저해제(예, SUPERase ㆍ In™ RNase Inhibitor, Life Technologies, cat. AM2696)를 함유한 3-5 mL의 빙-냉 DPBS를 첨가한 다음, 세포를 긁어서 15ml-Falcon 튜브(Life Technologies,cat. AM1250)으로 이송하였다. 이러한 공정을 필요한 만큼 반복하여 세포를 수거하였다. 세포를 4℃에서 5분 동안 2000rpm으로 회전시킨 다음, 세포 펠렛을 -80℃에서 저장한 후 사용하였다.

II. 세포 용해 및 염색질 비오티닐화

이전에 기재된 바와 같이(Goh 등, J. Vis . Exp ., (62), e3770, doi:10.3791/3770, 2012; 및 Fullwood 등, Nature,462:58-64, 2009, 둘 다 참조로서 본원에 병합됨), 세포 용해를 실시하였다. 간략히, 핵 펠렛을 빙-냉 세정 버퍼(50 mM Tris-HCl pH=8.0, 150mM Nacl, 1mM EDTA, 1% TritonX-100, 0.1%SDS)로 두 번 세정하고, 1mL 동일 버퍼에 현탁하였다. 염색질을, 예를 들어, 초음파처리에 의하여 약 500bp의 평균 크기를 갖는 단편으로 전단하였다. 이어서, SDS를 전단 염색질에 최종 농도가 약 0.5%가 되도록 첨가한 다음, 상기 혼합물을 15분 동안 37℃에서 배양한 후, EZlink 요오드아세틸-PEG2-비오틴(IPB, Thermo Scientific, cat. 21334)와 혼합한 후, 이전에 기재된 바와 같이(Kalhor 등, Nat. Biotechnol.,30:90-98, 2012, 본원에 참조로서 병합됨), 60분 동안 실온에서 회전시켰다. 이어서, 스트렙타비딘 비드-결합 염색질에 대하여 RICh-PET 라이브러리를 구축하였다.

III. RICh -PET 라이브러리 구축

스트렙타비딘 비드-결합 염색질에 존재하는 DNA 단편을 T4 폴리머라아제(Promega, R0191)를 이용하여 말단-수복한 다음, Superscript III First Strand Synthesis System (Life Technologies, cat. 18080051)을 이용하여 제1-가닥 cDNA 합성을 실시하였다.

간략히, 측면 Mmel 부위(IDT)를 함유하는 1㎍의 비오티닐화 RNA 링커 a (튜브 1) 및 RNA 링커 b (튜브 2)를 어닐링 혼합물(5㎕ 10mM dNTPs, 40㎕ DEPC-처리수)을 함유한 두 개의 튜브에 각각 첨가하고, 65℃에서 5분동안 배양하고, 약 1분 동안 얼음 위에 놓은 다음, cDNA 합성 혼합물(10㎕ 10×역전사(RT) 버퍼, 20㎕ 25 mM MgCl₂, 10㎕ 0.1M DTT, 5㎕ RNaseOUT, 5㎕ Super Script III RT)과 혼합하여, 25℃에서 10분 동안 이어서 50℃에서 30분 동안 배양하였다.

16℃에서 5㎕ 의 T4 DNA 리가아제를 이용하는 결찰 혼합물(140㎕ 5×PET 함유 T4 DNA 리가아제 버퍼, 3.5㎕의 RN아제 저해제, 546.5 ㎕의 뉴클레아제 프리 워터)에서, 1㎍의 DNA 링커 A(튜브 1) 및 DN 링커 B(튜브 2) 각각을 이용하여 결찰을 밤새 실시하였다. 이어서, 링커가 첨가된 DNA 단편을, PNK 마스터 혼합물 (70 ㎕의 10×T4 DNA 리가아제 버퍼, 3.5㎕의 RN아제 저해제, 612.5㎕의 뉴클레아제 프리 워터) 중 14 ㎕의 T4 폴리뉴클레오티드(NEB)로 인산화한 다음, 반응 버퍼(1000㎕ 10×T4 DNA 리가아제 버퍼, 50㎕의 RN아제, 8916㎕의 뉴클레아제 프리 워터) 중 34㎕의 T4 DNA 리가아제로 두 개의 튜브로 16℃에서 밤새 근접 결찰을 실시하였다.

링커가 있는 염색질 DNA에, Superscript 이중-가닥 cDNA 합성 키트(Life Technologies, cat. 1197-020)로 제2-가닥 cDNA 합성을 실시하였다. 구체적으로, 염색질 단편을 제2-가닥 cDNA 혼합물(111㎕의 DEPC-처리수, 30㎕ 5× 제2-가닥 반응 버퍼, 3㎕의 10mM dNTP 믹스, 1㎕의 E. coli DNA 리가아제, 4㎕의 E. coli DNA 폴리머라아제 I, 1㎕의 E. coli RN아제 H)과 혼합한 다음, 16℃에서 2시간 동안 배양하였다. 상기 반응 후, 2㎕의 T4 DNA 폴리머라아제를 첨가하여 16℃에서 5분 동안 계속하여 배양하였다.

이어서, 0.3% SDS (Ambion) 및 프로테이나아제 K (Ambion)로 65℃에서 밤새 배양함으로써, DNA/RNA/단백질 복합체 내 가교를 가역하였다. cDNA-DNA 단편을 페놀/클로로포름 이소프로판올 침전에 의하여 정제하였다. 이어서, 적합한 버퍼(5㎕ 10× NEBuffer 4, 5㎕ Half linker non-Biotinylated to quench excess MmeI, 5㎕ 10× SAM) 중 1㎕의 MmeI (NEB)에 의하여 37℃에서 2시간 동안 정제된 cDNA-DNA를 소화하여 cDNA 태그-RNA 링커-DNA 링커 -DNA 태그 구조(쌍 말단 태그, PET)를 방출하였다.

이어서, 상기 비오틸닐화 PET를 50㎕의 2× B&W 버퍼(10 mM Tris-HCl pH7.5, 1mM EDTA, 1 M NaCl) 중 스트렙타비딘-결합 자성 다이나비드(Dynabeads, Life Technologies, cat. 11206D-10ML) 상에 고정하고, 실온에서 45분 동안 흔들었다. 이어서, 각 PET 구조의 말단을 어댑터 결찰 버퍼(4㎕ 어댑터 A, 4㎕ 어댑터 B, 5㎕ 10× T4 DNA 리가아제 버퍼, 36 ㎕ 뉴클레아제 프리 워터) 중 1 ㎕ T4 DNA 리가아제(Thermo Scientific, cat. EL0013)에, 16℃에서 밤새 혼합하면서, 결찰하였다. 이어서, 비드를 1× B&W 버퍼(5mM Tris-HCl pH7.5, 0.5mM EDTA, 1 M NaCl)로 세 번 세정하였다.

Intelli-Mixer(F8, 30rpm, U=50, u=60; ELMI Ltd., Riga, Latvia) 상에서 회전하면서, 실온에서 2시간 동안 배양했던, 반응 혼합물(38.5 ㎕ 뉴클레아제 프리 워터, 10× NEBuffer 2, 2.5㎕ 10mM dNTPs) 중 4㎕ E. coli DNA 폴리머라아제 I로 Nick 번역을 실시하였다. 이어 16회의 PCR를 실시하여 PET를 증폭하였다. Illumina HiSeq2000 (2 × 36 bp reads) 상에서 RICh-PET 라이브러리를 시퀀싱하였다.

모든 단계는 프로테아제 저해제 및 RN아제-저해제로 버퍼 중에 실시하여 단백질 및 RNA 분해를 방지하거나 최소화하였다.

본원에 사용된 다양한 폴리뉴클레오티드 또는 프라이머가 하기에 열거되어 있다.

폴리뉴클레오티드	이름	서열
DNA 링커 A2	Rb-top-6	5'-Phos-GTTGGACTTGTACGATAGCTCTC-3'
	Rb-bot-6	5'-OH-GCTA/iBIOdT/CGTACAAGTCCAACNNNNNV-3'
DNA 링커 B2	DB-top-6	5'-OH-GCGATATCACTGTTCCAAC-3'
	DB-bot-6	5'-OH-GTTGGAACAGTGATATCGCGAGA-3'
근접 Mmel 시퀀싱을 위한 비오틴이 없는 링커	상부	5'-GGCCGCGATATCGGATCCAAC -3'
	하부	5'- GTTGGATCCGATATCGC -3'
어댑터 A	상부	5'-CCATCTCATCCCTGCGTGTCCCATCTGTTCCCTCCCTGTCTCAGNN-3'
	하부	5'-CTGAGACAGGGAGGGAACAGATGGGACACGCAGGGATGAGATGG-3'
어댑터 B	상부	5'-CTGAGACACGCAACAGGGGATAGGCAAGGCACACAGGGGATAGG-3'
	하부	5'-CCTATCCCCTGTGTGCCTTGCCTATCCCCTGTTGCGTGTCTCAGNN-3'
PCR 프라이머 1		5'-AATGATACGGCGACCACCGAGATCTACACCCTATCCCCTGTGTGCCTTG-3'
PCR 프라이머 2		5'-CAAGCAGAAGACGGCATACGAGATCGGTCCATCTCATCCCTGCGTGTC-3'
시퀀싱 프라이머 1		5'-GTGCCTTGCCTATCCCCTGTTGCGTGTCTCAG-3'
시퀀싱 프라이머 2		5'-TGCGTGTCCCATCTGTTCCCTCCCTGTCTCAG-3'

실시예 2: RICh-PET 라이브러리 통계

HeLa S3 세포에서 인공 및 생물학적 복제물을 이용하여 세 개의 RICh-PET 라이브러리 데이터세트를 생성하였다.

HeLa S3 RICh-PET 데이터 맵핑 결과.

라이브러리	복제물	리드	독특한 PET	클러스터 (≥PET2)
CHH2430	1 (Tec)	52,254,130	2,367,898	5,371
JCHH2430	2 (Tec)	211,837,204	2,920,369	9,089
JCHH2431	3 (Bio)	83,143,999	2,049,942	3,128

RICh-PET 데이터는 단일 PET(즉, 기타 PET 서열을 갖는 두 RNA-태그 및 DNA-태그 상 중첩이 없음)로서 또는 PET 클러스터 (즉, 기타 PET 서열과 중첩하는 쌍으로 된 RNA-태그 및 DNA-태그 서열)로 분류된다. PET 클러스터는 더 신뢰성있는 것으로 또는 더 신뢰성 있는 ncRNA-염색질 상호작용의 반복적 검출을 반영하는 고신뢰 데이터로서 여겨지는 반면에, 단일 PET는 약한 결합 신호를 나타낼 수 있으나 랜덤 배경 노이즈와 구별될 수 있다. 클러스터링 기준을 이용하여, 대략 5000개의 염색질 좌위에 연결되는 대략 700개의 추정상의 RNA 좌위를 확인하였다(도 2A).

빠른 입증을 위하여, 이러한 RNA 및 DNA 좌위를 위한 RNA-서열 신호를 체크하였고, RNA 좌위는 DNA 좌위보다 유의하게 더 높은 RNA 카운트를 가지고 있음을 알아냈는데, 이는 RICh-PET 데이터가 예상되는 바와 같음을 시사한다(도 2b).

획득한 RNA-DNA 연결성 데이터의 약 1/5 (약 22%)는 본래 시스-작용적인 것(즉, RNA으로부터 DNA로의 맵핑, <100kb)으로 여겨질 수 있는 반면에, RNA-DNA 연결성 데이터의 대부분은 트랜스-작용적이다(도 2c).

일 관심은, 전사가 아직 진행 중인 경우, 염색질 RNA-DNA 결찰 접근이 발생기의 mRNA 대부분을 포착할 수 있을 것이라는 것이었다. 놀랍게도, 대부분의 발생기 RNA 전사체는 RNA 폴리머라아제 복합체의 중심에 숨겨진 3'-말단을 가지고 있는 것으로 나타나며, 그럼으로써 ncRNA 분자의 추정상 자유 3'-말단을 이용하는 것에 부분적으로 기초하여, 본 발명의 방법은 발생기 mRNA를 간섭을 크게 회피한다.

구체적으로, 맵핑한 쌍 RICh-PET 데이터는 쌍 RNA 및 DNA 태그 간 거리를 나타내며, 그럼으로써 시스 또는 트랜스의 상호작용의 가능한 모드를 제시한다. 맵핑 결과는 소규모 세트의 데이터만은 시스-작용적이고 다수는 트랜스-작용적이며 염색체간이었음을 보여 주는데, 이는 RICh-PET 프로토콜 내 발생기 전사체를 포착할 가능성이 낮다는 것을 나타낸다.

RNA 태그 클러스터의 추가 부가 분석(하기 참조)은, 3%만의 RNA 태그를 mRNA 엑손에 맵핑한 반면에 다수는 ncRNA에 맵핑하였다는 것을 보여 주었다.

다른 관심은, 일부 세포에서는 세포 내의 풍부한 rRNA이었는데, 이는 RNA 관련 분석을 위한 일반적인 이슈로서, rRNA가 총 RNA의 80%만큼 높을 수 있기 때문이다.

rRNA를 다루기 위한 한 전략은, 특정 분석의 시작 전에 사용된, mRNA용 폴리 A+ 선택 접근 및 rRNA용 차감 소모(subtractive depletion)와 같은, 회피 방법을 포함한다. RICh-PET 라이브러리의 하나에서 rRNA 서열의 레벨이 풍부하다는 것을 평가하였으며, rRNA 서열은 총 RNA 태그의 약 26%를 구성한다는 것을 발견하였다. 반대로, DNA 태그가 rRNA 서열에 거의 대응하지 않는다((0.23%). 따라서, rRNA로 인한 데이터 노이즈를 감소시키기 위한 추가 분석 전에, 디지털 결핍 소모 접근을 이용하여 모든 rRNA 서열을 제거할 수 있다.

RICh-PET	총	Non-rRNA	rRNA
RNA Tag	2308959	1699014 (73.58%)	609945 (26.42%)
DNA Tag	2308959	2303550 (99.77%)	5409 (0.23%)

실시예 3: RICh-PET 방법의 재현성 및 감도

RICh-PET 데이터의 재현성을 평가하기 위하여, 두 개의 인공 복제물(평행 라이브러리 구축과 시퀀싱 분석을 위한 두 개의 분취(aliquots)로 쪼개지는 동일한 세포 제제) 및 두 개의 생물학적 복제물(약간의 변형을 있는 거의 동일한 과정을 이용하여 라이브러리 구축에 이용을 상이한 시점에서 수집된 상이한 세포 제제)를 행하였다. 그 결과의 복제 결과는 진실한 재현성(genuine reproducibility)을 보여주었다(도 3). 예를 들면, 암과 연관된 것으로 알려진, 두 개의 잘 연구된 lncRNAs NEAT1 및 MALAT1를 모든 세 라이브러리에서 재현성있게 검출하였다(데이터 미도시).

두 개의 lncRNA 유전자는 RNA 폴리머라아제 II(RNAPII 또는 RNA Pol2)에 의해 매개된 광범위한 염색질 상호작용 루프 구조에서 공간적으로 구조화되는 것으로 밝혀졌으며, 이는 그들의 발현이, 기계의 일반적인 전사체 복합체 하에, 공통-조절될 것임을 나타내는 것으로 주목할 만하다.

본원에서 획득된 RICh-PET 데이터에서, 두 MALAT1 및 NEAT1가 HeLa S3 세포에서 고도로 발현되었으며, 세개의 모든 RICh-PET 데이터 세트에서 풍부하게 검출되었다. 구체적으로, 세포에서 NEAT1는 MALAT1에 비하여 상대적으로 덜 발현되어, NEAT1에 대한 RICH-PET 데이터는 MALAT1에 대한 것보다 적었다(데이터 미도시). 대조군으로서, HOTAIR는 HeLa S3 세포에서 낮은 수준으로 발현되는 다른 공지된 lncRNA이며, 획득된 RICh-PET 데이터에서 검출되지 않았다(데이터 미도시).

따라서, RICh-PET 데이터에서 ncRNA 검출은 ncRNA 발현 수준과 잘 관련이 있는 것으로 나타났다.

실시예 4: RICh-PET 데이터 확인

획득된 RICh-PET 맵핑 데이터에 기반할 때, 이러한 두 ncRNA는 동일한 전사 공장에서 공통-전사되어도, 그들의 상호작용 성질이 매우 상이하다는 것은 흥미롭다. 구체적으로, NEAT1 RNA는, 시스에서, 그것이 전사되는 것에만 제한적으로 결합하는 반면에, MALAT1는, 트랜스에서, 대부분 게놈에서 많은 좌위와 상호작용한다 (도 4a).

이 견해를 입증하기 위하여, NEAT1 및 MALAT1 RNA를 형광 프로브로 이용하여 RNA-FISH 실험을 행하여서 HeLa 핵을 검사하였다(도 4b). 예상된 바와 같이, NEAT1 프로브는 핵 당 1 개 또는 2개의 스폿만을 생산해내는 반면에, MALAT1 프로브는 모든 핵 공간을 스폿팅을 하여, RICh-PET 데이터에서 관찰되었던 것과 일치하였다. A549 세포에서 NEAT1 및 MALAT1에 대한 유사한 RNA-FISH 결과도 얻었다. 이러한 입증은, RICh-PET 데이터가 진정한 시스 및 트랜스 상호작용을 검출하고 구별하는데 있어서 정성적이며 정확하다는 것을 제시한다.

실시예 5: RICh-PET 데이터 특성화

인간 게놈의 Genecode V14 어노테이션(annotation)에 기반하여, RNA 및 DNA 태그 클러스터의 특성을 확인하였다. RNA 태그 클러스터 3%만이 단백질-코딩 엑손과 중첩되며, 대부분의 RNA 태그 플러스터를 비-코딩 영역을 맵핑하였으며, 그것들 중 대부분은 이전에 공지된 ncRNA이다(172, 24%). 나머지는 단백질-코딩 인트론 영역, 안티센스, 및 인터-유전 영역에 위치한 잠재적으로 신규한 ncRNA이다(도 5a).

RICh-PET 데이터에서 확인된 모든 추정상 ncRNA는 RNA-Seq 데이터 지지체를 가지고 있으며, 이는 그것들이 HeLa 세포에서 활성적으로 전사되는 것을 나타낸다. 반대로, RICh-PET 데이터의 DNA 태그 클러스터는 대부분 단백질-코딩 유전자에 맵핑하였으며, 중요한 부분은 유전자 프로모터에 맵핑하였다(도 5b).

RNA 및 DNA 태그 클러스 주변의 염색질 활성 마크 세트를 추가 분석하였다. RNA 태그 클러스터의 중심은 개방 염색질 상태의 RNA Pol2 및 DHS의 신호에 의하여 정의된 전사 활성의 피크를 벗어났으며, 그러한 "오프-센터(off-center)" 성질은 가닥 특이적이다(데이터 미도시). 이러한 가닥-특이적 "오프-센터" 성질은 RNA의 3'-말단을 포착하는 것으로 설계되어 있으므로, RICh-PET 방법과 일치하다. 그러므로, RNA 태그 클러스터는 전사 시작 부위 하류에 있는 것으로 예측된다. 대조적으로, 염색질 활성 신호는 DNA 태그 클러스터(데이터 미도시)의 중심 주위에서 대칭적으로 피크를 이루며, 이는 초음파처리에 의한 염색사의 랜덤 전단을 반영한다.

실시예 6: MALAT1는 많은 게놈 특성과 상호작용하며, 유전자 활성화 및 유전자 억제 둘 다를 기능할 수 있다

MALAT1에 연결된 모든 RICh-PET 데이터(싱글톤 PET를 포함)를 이용하여, 출원인은, MALAT1가 게놈에서 큰 구역과 상호작용하는 성능을 가지고 있다는 것을 보여주는, 염색체-전범위 및 게놈-전범위 MALAT1 상호작용 프로파일을 생성하였다. 50개 이상의 고-신뢰성 상호작용(태그 카운트≥2인 PET 클러스터) 부위에서, 약 반은 프로모터에 위치하며, 1/4는 공지된 유전자의 인트론 영역에 위치한다. 동일한 세포에서 유래된 RNA-Seq 및 RNA Pol2 ChIP-seq 데이터는, 프로모터에 MALAT1가 있는 유전자가 인트론 영역에서 상호작용하는 MALAT1를 갖는 것들보다 유의하게 더 높은 전사 활성을 가진다는 것을 보여 주었다(도 6B; 데이터 미도시). MALAT1가 SRSF2를 포함하는 많은 수의 스플라이싱 요소와의 상호작용을 통하여 스플라이싱 기능을 조정하는 것과 관련이 있음이 보고되었다.

또한, 출원인은 MALAT1 RNA가 이의 프로모터와 상호작용하는 것에 의하여 SRSF2의 발현을 조정하는 것과 직접적으로 관련이 있을 수 있다는 것을 밝혔다(데이터 미도시). 이러한 견해는 MALAT1는 유전자 활성화 및 억제를 조정하는 데 있어서 다중 기능 역할을 할 수 있다는 것을 보여준다.

실시예 7: X-염색체 이상의 XIST의 기능

가장 잘 특성이 확인된 lncRNA는 XIST인데, 이것은 X 염색체의 한 카피에서 전사되고 X 염색체의 다른 카피에서 동일한 부위에 결합하며(시스-작용적), 더 연장하여 비활성화를 위한 전체 염색체를 코팅한다(미도시). 실제로 RICh-PET 맵핑 데이터는, XIST의 RNA 태그와 쌍으로 된 DNA 태그가 X 염색체에서 더 풍부한 반면에서, 배경 노이즈는 게놈 전체에 걸쳐 분산되어 있으며, 이는 XIST가, 예측된 바와 같이, X 염색체에 특이적으로 결합된다는 것을 보여준다.

흥미롭게는, 하나의 비-X 염색체에서 어느 정도의 XIST-결합 농축의 수준이 있으며, 다른 비-X 염색체에서 다소 결핍되어 있음을 나타낸다. 이 견해를 추가로 입증하기 위하여 더 많은 데이터 및 추가 분석을 얻고 있다.

실시예 8: ncRNA에 의한 복합체 상호작용 네트워크

여기에서 제시된 RICh-PET 데이터는 ncRNA 상호작용 네트원크의 복합체 시스템으로의 제1 글림프스(glimpse)를 제시하였다. 하나의 ncRNA가 게놈(MALAT1)에서 다중 타겟을 가질 수 있다는 고전적 견해에 더하여, 하나의 좌위가 ncRNA에 의하여 상호작용하는 것으로 밝혀지고 있으며 그로부터 상호작용하는 ncRNA도 다른 좌위와 상호작용한다는 점에 있어서, 많은 추상적 ncRNA 좌위가 "인-앤-아웃(in-and-out)" RICh-PET 데이터를 가진다는 것이 밝혀졌다.

여러 의미에서, 이러한 ncRNA 상호작용 네트워크는, 많은 TFT는 전사 조정을 위한 다른 유전자 각각에 결합하는 전사 요소(transcription factor, TF) 결합 네트워크와 유사하다. 더 많은 데이터는 ncRNA가 어떻게 작용하는지, 그리고 ncRNA 상호작용 네트워크가 어떻게 게놈 시스템에 영향을 주는지를 추가로 설명하는데 도움이 될 것이다.

실시예 9: CCAT1에 의해 인코?壅? lncRNA는 전사 보조-활성자이다

RICh-PET 방법을 이용하여 전반적인 ncRNA-게놈 DNA 상호작용을 확인하였다. 확인된 상호작용 중에서, 하나의 ncRNA - 대장암 관련 전사 1 -는 특히 관심의 대상이었다.

대장암 관련 전사 1(colon cancer associated transcript 1, CCAT1)은 2628개 뉴크레오티드 길이를 가진, Representational Difference Analysis(RDA), cDNA 클로닝, 및 cDNA 말단 급성 증폭(rapid amplification of cDNA ends, RACE)을 이용하여 최근에 발견된, 비코딩-RNA이다(Nissan 등, "Colon cancer associated transcript-1: A novel RNA expressed in malignant and pre-malignant human tissues," Int . J. Cancer,13:1598-1606, 2012). 대장암(colon cancer, CC)에서 과발현되나 정상 조직에서는 그렇지 않아서 잠재적인 질병 관련 바이오 마커로 만드는 것으로 최근 밝혀졌다(Nissan 등, Int . J. Cancer, 130(7):1598-606, 2012; Alaiyan 등, BMC Cancer,13:196, 2013).

RICh-PET 데이터에 기반한 상세한 분석은 이 좌위에서 새로운 복합체 모델의 아형 전사체를 나타냈다(데이터 미도시). 또한, CCAT1는 자궁 경부암 세포주 HeLa 세포에서 고도로 전사된다.

또한, RICh-PET 데이터는, CCAT1 lncRNA 전사체가 15번, 16번, 20번, X, 및 Y 염색체를 제외한 모든 인간 염색체를 포함하여, 게놈에서 많은 기타 좌위를 타겟으로 한다는 것을 보여 주었다(데이터 미도시).

적어도 2개의 CCAT1 태그를 포함하는 CCAT1 염색질 타겟 중에서, 많은 것들은 인핸서 또는 프로모터에서 가장 강한 lncRNA-게놈 DNA 관련성을 보여 준다(데이터 미도시). 예를 들면, 적어도 3개의 CCAT1 RNA 태그와 관련이 있는 122개의 CCAT1 게놈 타겟 좌위에서, RNAPII 상호작용을 갖는 인핸서 좌위 중 6개를 포함하여 88개의 타겟 좌위는 인핸서 영역에 있다. CCAT1의 다른 34개의 게놈 타겟 좌위는 프로모터에 있다.

이러한 CCAT1 타겟 유전자는 랜덤하게 선택된 대조군 유전자 모음에 비하여 여러배 높은 평균 발현 수준을 가지는데, 이는 CCAT1 lncRNA이 타겟 유전자 발현을 증진하는 것임을 시사한다.

이러한 CCAT1 타겟 유전자 중 하나는 c-myc이며, 이는 약 80%의 유방암, 70%의 대장암, 90%의 부인과 암, 50%의 간세포 암종, 비정상적인 myc 발현을 지니는 다양한 혈액 종양(버킷 림프종)을 포함하여, 다양한 인간 암에서 과발현된 종양 유전자이다. CCAT1 lncRNA가, CCAT1 좌위 자체뿐만 아니라 myc 좌위에 결합하여, CCAT1와 myc 좌위를 물리적으로 접근하게 되고, CCAT1 좌위 내의 인핸서가 myc 전사를 자극하게 함으로써, 기능한다는 것을 추가 데이터가 시사한다. 추가하여, CCAT1 전사된 lncRNA가 단백질 요소에 결합하고 전사 보조-활성자로서 작용하여, myc뿐만 아니라 FAM84B 및 SNX14와 같은, 기타 CCAT1 타겟 유전자의 전사를 직접 향상시킬 수 있다.

실시예 10: 인간 B-임파세포 GM12878 및 Drosophila S2 세포 내에서의 추가 적용

상기에서 기재된 본질적으로 동일한 RICh-PET 방법을 이용하여, RICh-PET의 일반적 응용가능성을 추가로 지지하기 위하여, 인간 B-임파세포 GM12878 및 Drosophila S2 세포에서 추가 데이터를 얻었다.

구체적으로, ncRNA 유전자 XIST가 이 세포주에서 고도로 발현되기 때문에, RICh-PET 분석을 위하여 인간 GM12878 세포를 이용한 반면에, RICh-PET 분석에서 사용된 이전 HeLa 세포는 낮은 XIST 발현 수준을 가지며, HCT116는 수컷에서 유래하여, XIST 발현이 없다. 따라서, XIST를 RICh-PET 분석의 성능을 평가하기 위한 모델로서 이용하여 염색질과의 ncRNA 상호작용을 검출하는 경우, GM12878는 RICh-PET 분석에서 좋은 세포 형태이다.

이전에 기재된 바와 같이, XIST는 구체적으로 또는 우선적으로 X 염색체에 결합한다. 백만개의 리드당 kb당 리드(reads per kb per million reads, RPKM)의 방식으로, RNA-Seq 데이터에 의하여 측정된 XIST의 카운트를 보여주는 도 9a 및 XIST 결합에 의하여 덮여진 각 염색체의 비율을 보여주는 도 9b를 참조한다. GM12878 세포에서, 염색체 대부분은 총 염색체 공간의 10-20%로 XIST로만 덮혀 있는 반면에, X 염색체는 XIST에 의하여 거의 90%로 덮여 있다. 이러한 범위는 다른 비-특이적 염색체에 비하여 타겟으로 하는 염색체에 대한 XIST의 특이성이 거의 6배(5.9배)인 것을 나타낸다. 대조적으로, HeLa 세포에서, 상기 범위는 다른 비-특이적 염색체에 비하여 타겟으로 하는 염색체에 대한 XIST의 특이성이 거의 3.4배인 것을 나타내며, 예상한 바와 같이, X 염색체 농축은 발견되지 않았다.

유사하게는, Drosophila S2 세포에서, ncRNA 유전자 rox2 - 인간의 XIST에 등가-는 X 염색체에 결합하는 rox2의 유사한 농축을 보여 주었다: 다른 염색체에 대하여 5배 (데이터 미도시). 구체적으로, 전체 Drosophila 게놈에서의 rox2 결합 데이터를 얻었다. rox2-연결 DNA 태그의 80% 이상이 성염색체에 결합하고, 이는 X 염색체에 대한 5 배 농축을 나타낸다. CHART-seq에 의하여, 그리고 RICh-PET 방법에 의하여 X 염색체 상에 맵핑하는 roX2 간에 논리적으로 강한 연관치(0.6)가 관찰되며, 이는 RICh-PET 방법의 적합성을 증명한다.

RICh-PET 데이터의 대부분의 RNA 태그는 비코딩 영역에 맵핑한 반면에, 약 26%만이 코딩 영역에 있으며, 이는 상기 방법이 ncRNA를 위한 농축을 가진다는 것을 나타낸다(데이터 미도시). RICh-PET 데이터의 RNA 태그와 Drosophila S2 세포로부터의 RNA-seq 데이터의 비교는 공지된 ncRNA를 위한 유의적 농축을 보여 주었다(데이터 미도시).

종합하면, 상기 실시예에 제시된 데이터는 상기 방법(예, RICh-PET 방법)이 설계된 대로 작동한다는 것을 입증한다. RICh-PET 데이터 내의 대부분의 RNA 태그는 코딩 영역에 맵핑되고, 그것들 중 일부는, MALAT1 및 NEAT1와 같은, 공지된 lncRNA에 맵핑되었다. 이는 이 방법이 예측된 대로 실시하였음을 강하게 나타낸다. 더욱 중요하게는, RNA-DNA 연결성 맵핑 데이터를 통하여, 출원인은 잠재적 ncRNA-염색질 상호작용 좌위 게놈 전체를 확인할 수 있다. 지금까지 행해진 몇 개의 예비 평가는, RICh-PET가 확인한 ncRNA 상호작용이 진실된 것임을 시사한다.

SEQUENCE LISTING <110> THE JACKSON LABORATORY <120> COMPOSITIONS FOR RNA-CHROMATIN INTERACTION ANALYSIS AND USES THEREOF <130> 122854-00320 <140> PCT/US2014/054185 <141> 2014-09-05 <150> 61/873,928 <151> 2013-09-05 <160> 23 <170> PatentIn version 3.5 <210> 1 <211> 29299 <212> DNA <213> Homo sapiens <400> 1 cactcttggg tagaacgact ctaacagcga ccgtctaaat gaaggtcaca ctaacaacgt 60 tcttaaacag attgtcttac ttactagttg gaactcgtct tctctaatac tttttgaatt 120 atcgtaacat cgttacaccg acaattactt tatgtcaacc gacgagggcg acaaaccgtg 180 gttggttgga ctgtgacagt tgtagtgtta tgctataaat aagggttaat aaaatgccgt 240 tgttgacttt atgttacaca ataattagta taaataatat tcatagttaa actctttaaa 300 gactgtacgg tcttctattt atccaaataa tacttttcgt caagacgaac cacgtacgac 360 cgacgacgac acattattta tcggagacac ccctttcaaa aaattttctt tatttcgttt 420 ttttatcgtg acttttgtct ttccttcgta gttttgagaa gtttatggac gacacaggta 480 accagttcgt gtaagtcctg tagcgtacgg aaatcttgag gtcgtccaag gttgtcgatc 540 atcctgtaag atctgaggaa aatcgggaca gacaccgaag tcttattaaa ggttgcgttg 600 gtaggtttaa aactgggtgt cgcacaatgt aaaccgtaac gccactgagt caaggagtag 660 aaatcacatg aggaagtatt aaatctaatt gaacacactt cgtgacttag gttatatacc 720 acagaaatcc aggttggagt ccagagggat gtacaacagt ctttttctgt aaactcgtaa 780 aattctcact ttagttttca cgtgatggtt ccaaagattg tcgggtcaag acaggaccga 840 aaagaaggac gttgacaaaa gtcgaaccca ctcagtgaaa agagagacct ggaggtaaaa 900 gagtggggtg tagtgtcagg tcactcccga agagaggtag gattttgaaa gggggacctt 960 gagttcagag agatacaacg ggacgtttta atcgaagtca gggtatatga accgggctaa 1020 tgggtgtctt tcatgtcgtt cgtagtagta ggtgtatccc agaggtttta accgaaagga 1080 ccttggtaag tgttccggta aagtcagttt cgggaccctt ttattggtca aggaggttga 1140 cacagagtaa cattttcttt tgtctaataa taacttgaat acattcgttg gtataacggt 1200 atttaattct tataagtgtt tatcaaatgt ttaagatgtc tttagtccgt ctctctcttt 1260 acacgaagtt taagataact gttctcatgt gagatgagtt aacgatttcc aacatttgtc 1320 gagttttctt tttcacaaga ggtctgagac tttttgtttt gtttttctta gtcgttacaa 1380 agtttcttgg tttttttttt tttttttttt ttagatttat acatatgtgt gtgtctgtgt 1440 ttctaggtta tcgtaaatgg agttttgaaa tcgatacttt atcgttatct ttgagtggtc 1500 aaatgtttgt ccaagtgtac cgatttgata aaaacggggt tatgtattag tttacttccg 1560 acacttggtt ttaaacccca tctcgtcaag agtaccgtca aacgaaaaat ttccggtatg 1620 gaagggtcta cggtttctcg tgatccaggt ctatcgtggt gtctttttgt agtagatatt 1680 ggatgattag tccgggttgg gacgaatctt gtcgtcgcat cctcagactg atgtacctta 1740 aagtagaacg gaagagtaag ttgtcgtttg aggtctaggg tttcttatga ccccggtccg 1800 gttcacgtca ccgattgtgg acgttagagt cgtgaaactc tccgactaca ccctcctggt 1860 gaactcaggt tctcaatctc tggtcggacc cgttgtacta cccttgaata gagaggtttt 1920 taattttttt ttttttcgat ccgtactacc gtacatggaa atgaggatcg atgaaccctc 1980 cgactcgacc ctcctaggga actcgggtcg tcaaggtccg atgtcactcg gtactactgt 2040 gataacgtga ggtcggaccc gttgtcgcat tctaggacag gagaccggtt ttttcccaga 2100 ccgtggacga atcctcccga aggttttgaa aaagtcgttt ctatcactca ccgttttgga 2160 tcgtacttcg ggtctcatac accgagacgc aatcataaag agtgtcgggt gacattactg 2220 acagtccaac gaaaattcta atactttcag gatataactt aacagtaagc ttaactctgg 2280 aacttcagac ttctgcctta atgaaccctt cttcgtagtg tcatagaatc ttctcacagg 2340 gaggtacttc gtctaaaccc cagagtaagg caaagacatg aatgtcatta cctggtacaa 2400 tccgttcagt aaattgtgta aacctggggt cgaaggttta gatatgttac cttccatatt 2460 aacctctctc atatttcgga aatcacgggt gaaatgaact ctctaaaagt ctcgtcagtt 2520 actctgaaat ctttattttc acttgaattt tgtatttcac gaaatatttg gggtcgtaac 2580 ggacttcggg actctaacga actaccgggt aacgcatata agtgtccgtg acggggttga 2640 ccgggaatga tgttgagatc tttactgtcc gtaagtaaga aggttaggtg tctactccgt 2700 tgatgcttca caataaaaat tggggagtaa aaaattcctc tttttgactc gaactcgtgt 2760 aattttttac accgggtctc agttatacca tatacaactg gaaccttaag ctcttttcag 2820 aagacagtgt tctcgtcttc ggtgtttgag tttatgaaaa tcccaataca atggttaaca 2880 ccttgtgtac acgtacttta ctcgactcat tctacggttt actggaccat aacctctccg 2940 ttatccctca ccaccccgga catcgtttga tctctctcgt accgagtcaa ttttctctca 3000 ccgtcgttga gttgaggtcg gttaacaacg gtatgttata attcgggtcc ctaaagtctt 3060 gaagatcgat ctttttatct ccgatctata catataagga caagttttaa cggagttaat 3120 cttctataat cgttcattaa gtttacgtta tgtgaaaaca taatagtgat atgaccaggt 3180 ggattattcc cctgtcaaac gaaggacgag agtgtttcac aaagtctgat tcaatactgg 3240 tgaattcata cgtttctgtt ttgtcacata gtcattacgt cactaacact cgtacatgaa 3300 gtctttgttt actagaccca agtttaggac cacaactgta attcatcaaa ttattggagc 3360 ccgttcagtg aactgaagag atatggagtc aaagggatag acattttacc ttcattattc 3420 tcatgaatga ggaaagtcac caacactgat agtttactta actgtatcca ttttgttaat 3480 cttgtcaagg actgtgtgcc attctcagta catttatagt tacgaatact ttcgagagta 3540 gggtcctatt cgtagaggat cttttgtaga agcaggtaca tggtctaatt agtataaata 3600 agacgtcaac tataaatacg gtgtacaaga aagacccatc tcttcggact tcaataagac 3660 aaataggact ggaacctttt ctgtttcgtc gagtacaggg gtccctagat ttttaaagtg 3720 acccttacta gtgggtcaca gaggttttgg agtcggtcgt aaagagataa gtgtcgacgt 3780 gacttctcga aggaaggacc gaacacagag gttttcccct atgctaccgt tccagacaaa 3840 taatgagagt ccgactacac cggcccctct acaccttaac acatcttacc ttacgctacc 3900 ttatacttta ccacacctta tgtacacttg aagtacggac gaagagtcca aagaaggtga 3960 aggggaaata caccctgttc tatcgacttc acccgacctc aacccaaaag aggaggaggt 4020 aaaccttccg acctcgaacg acctcaactc ataaagaaaa ggagtccagt caatccaaga 4080 ctattttggg atcacccaat ccgagaccaa tctgtcgaag gggactcccg tctggggtga 4140 gactcgtcgt tacggatctt tactaccaag aagtttaggt tcactattgg gtatcattga 4200 ttgagtaatc gaatcaagac ggcatttcag tcttgtttcg ttcctctttg tcttggagac 4260 gtcacttacc tccttaaaga ctcccagtga actttcgtct ttgagttctc ggggtaaagg 4320 ttaaaggatg ataacatgaa ctttatacct aaagtgtata aaccccatta gtgaagtagt 4380 catttcaacc ggaagcattc aatttttgtg agtttaaaat ctttgagtta caagacaccc 4440 aatgtttact gacgggtggt acgacacccc gtactgtggg aaaacattaa agactttatg 4500 cttcatgata aaaaagaaat tacgtaagag agaaaaatca aagaggtagg acactataca 4560 gacaggtttt cctgaagggt ttttggtgac ataccgtctt ttccaaaagt tttacgtact 4620 ctcttaatat cgtttctctt tattgagtgt gatttcaaaa attttataga ggcctgatac 4680 cgatccttga taatgatacc gattgttcac attaaagtcg taaaaccctc cggttccgtc 4740 cgtctaggga attcagatcc tcaaactctg gtcgaacccg ttacaccact ttggggggag 4800 acgtttttta tgttttatta atcgccccac accaccacgt gtggacacca gggtcgatga 4860 gtacctccga ttcctccctc ctagtgaact cgggccctcc gtctccaacg tcactcgatt 4920 ctaatacggt gacgtggggt cggaccctct gtctaagaca gagttttttt ttttttttta 4980 gagacctgat atttgagagt acttagatcg taataaacct agtctttata taagtatcct 5040 atctgacact actgtttatt tagtttaaac cctacggagt tgtgttcttt ataaaaatac 5100 atagtaatac attgtcaggt ccctccgact tttatctcac atacaacgtc cattctttaa 5160 aacgagacgt cagtaagtcc ttaacttcga ctatcactaa gacggtagaa cttgtacacc 5220 gtagcgacag acagacctcc cacggtagtg tcagtcgaaa cctgtcgtgg aacttacgat 5280 agtcccttcg atctcacaag aggacaagaa acgacaggaa cggtcacaga agaggacttg 5340 agtgtagtct tcgtacggtc attcgtccac catggtcgtc ccaagattgg gtccgtgagg 5400 ttaagattcc agttgaaaca atcacaatag attttttctt ttcgttatta tttaataggt 5460 gttcttttaa aatgttgagt tcaaaaagta tgagaaattt ttccgtaaaa aagtgtacat 5520 gagagtacaa gatactaatc tggattagta acagtgaagt gccgatctct ttgattctgg 5580 tcttctcgaa ggtctagaac tgatcgtggt gagttactca ccctactggt cttgggacat 5640 gactagtacg tttgaagtgg tgtattgtcg aacactataa ctcactcaac aaagtggata 5700 tgctggggag atttggttaa ataattagat cttttaccct tattatcgtt aaagatacat 5760 tattcaacaa cctcgtgttc tatttcaata tacatatttt gtaaatcgtg tcaaggacca 5820 cgtattgtcc agacatcatt tataaacaac attaatcgtc gttttagtag agggagtaat 5880 gacgtcaact aaaaggaaat aataaccttt ctttaaagag ttgactcaaa gtcaacttat 5940 gtcataatct aataaggaat tgactcaaag tcgtaaaatt tacatatgag ggatgagttt 6000 tgatggatga tttagtgcgg acattaaggt cgtgagaccg tccggttccg cccacctagt 6060 actccagtcc tctagttctg gtaggaccga ttgtgctact ttggggtaga gatgattttt 6120 tacgtttttt taatcggtcc gcaccaccga ccgtggacat cagggtcgat gaaccctccg 6180 actccgtcct cttaccacac ttgggccctc cgtctcgaac gtcacccggc tctagcacgg 6240 tgacgtggtg tcggacccgc tgtctcactc tgaggcagag tttttgtttg tttttttgtg 6300 tttttagatg gatgattttt cttcaagaag ttacgaatct gaaactcgtt tctttttcag 6360 acgagattgt ccttcgacca ctatatcttt ccatttcaaa gtgaagtgtc cgtgaaacta 6420 aagggaagct ccacctatga cttactaaac acacacgcgt gtaaaaagat acgtaataag 6480 ttttaatttt aaggaatctc ctttggtgac tttcggttag taaatgtttt gaaattttta 6540 ctgtagaact tctcaagaaa ccacgagtaa gtagtttgaa tcgttactaa attgacatta 6600 agaaataagt ctaagtagag ggtgttttat ttttacggta tttcgaaatg tcatgacata 6660 ggattactta tctctttgat ttctttttca ttctactcgt tcactctcct tttgggcttt 6720 tactcggaca ggaccgtaca aagatttttc tttctttgtt tgtttgttcg tcggggagga 6780 gagtcgagaa ccctttcttt ataacttaga actgttatag acgtgaagta tcaactaagt 6840 atcgtactgg atagagtttg ttaaattcta agtttacttc aaacgttaat tagaaagcta 6900 tagtgaaacg ttttgtaaga gtattggaat aggtcgggaa aatgtttagt taggacactc 6960 cacttgtagt gacacaaggg taaaatgtct ctttccgtga ctcggtgtct ctccaatata 7020 tgagtactag ttattcgacc attctgattc ttggtcctta ctatgacaga aggaagaggt 7080 ttataggaca agaaataata ctcatggatt tgtcataatt tttaattaat gtcgagttgt 7140 tatcattcat ttacaggagt acactttagg tggcaaattt tgaattccaa tagataaata 7200 gtttatttaa tttaggatga gtgaattgtt ataagtaact cgagtaagac atttgttggt 7260 aatccggtcc ccgtctatac tttatactcc gagttagaca ctagtgtctc tactttatat 7320 gttaaatctc tctctttcta ttcgtactac tgtttattta ttacatactt ttaatcggta 7380 atagaatccg gttgaaaaag attcgacatt cgacagacgg atgaagacgg tccacaatca 7440 ttaacaaaat ttttcacccc cttcttctca tgaagtacca cccttctata agtaactcct 7500 gtattcgtag aaggagaatc tttaattgtt acgtgtcacc ggataacgtt caaaactttc 7560 gggacgtttg ttattttcgg actaatcaaa aataacttag tcatagagga tttgtgaaaa 7620 agtactttgt tccaatgagt gtttagaaca gctccttgat tacaggatcc tttcaccaaa 7680 agttcgaact cgtacatgta ttcatagtaa cctttccaac gtttttatgt ttacacaccc 7740 gaggtgaggt ctttaagact aacttcacca gagtagacag tagactcttg aacgtaaaaa 7800 cagtctaagg atcgactaga ctacaaagtc ctgactcttg aattaaactc atcatagaga 7860 tgtcttgtca aaaattttac aagaggacct catcctacta atatgaattg tttttacatt 7920 atgtgagtcc actacctgtg ggaatcatag gactaaccta gtgatgtgta atatatgtac 7980 attgtgtaaa agagttcatg gggtatttaa acgtgtttat ttatttattt attttaatat 8040 gaaaagagtt tattttttta ttttatttac aaggagaact taccatctta gaaacaaaaa 8100 aacactatta gtatttatgt atatttataa gagtagtaat gtacgtacat caatggaagg 8160 aaatgtacta cgtggtcttt cttatgggtg agattcttcc tttcttactt ctcttcttcc 8220 gtaacaaatt ttctggataa taatcttatt cagtttaaga tacagatggt aataattcga 8280 caaactgaaa ctcgtcccta accttccgta aaatttaact ccacctctat acgtgtttcg 8340 gtgcaccctt tacagtacac agggacgtat ttctcttgtt cgataaaacg aaccaacctc 8400 tactcctctg tctccgacat gtattcttac acaagttaaa tttcgttgtt ttatatagct 8460 ggtttgatga aactcgttag ttcccctata taaccgagtg tagtgacttt atatatgacc 8520 gtgtcgtcta aaggtcaatc cagactagac gatcgagaca ggggaggtct tatgtccgag 8580 gtccgtccgt ccttccttct cctgtagtca agagaaccac agatcgtgcg acggacataa 8640 ttccatccag gagttattta agtacaacat cctttactta cgtacaagag tttctacgcc 8700 aatgaaagtc atagtgacga aaggagtacc aaaggtgaag ttataatcag attgaacgga 8760 atccctgggt tctaccgacg ataagtgaag ttaatcgatt tgtgaagaga aaagtaccga 8820 cactctctga tcgatggaga aggtatttac ttaaaagaga agaaagaccc gtgttatcag 8880 agataaaggg tcggagaaaa tgttaatcca cataggtacg ttgagtcaag atcggttacc 8940 gcacactcat catcactata ggtggtgaac gtctggatgt gtatttccga gggtctgtgt 9000 agaagacacg agaaatgacc ttgtgaacga actaaggtta tttatgtcgt tggaatcgtc 9060 gatgtataac gtcaaccgtc tcgaaagtac aaagtcgaag aagtataaaa aatcaaaaca 9120 acagtgacaa ccaaaaaaaa aattaactaa gtcctctact ggattatttt ttaacttctt 9180 tttatttcgt aaaacaagac ctaaagagta atccttgtac tccaaatgag ataacgttga 9240 ccgaatcaag tatactagta ggggactcca ctcccttttt ctacgcactt aactaattcg 9300 gttccagtgt accagcttta catcttaacc caaaactcca gtcaaaggga tttagtgggt 9360 ctataggttc acctttagtc cgaggtaact gttttccctt gtcaagaatc tttacgttga 9420 tgtttacagg ttagggtcaa ccgttcaagc ttcgttcctt cccgaaaggt aatttcttac 9480 acctacgatg gaccacccgt tgacctccgg tgaccgtata taaaaaaaac cccccccaaa 9540 gtatttgata accaaaaaaa ttaataataa tatgaaattc aaaatcccat gtacacgtgt 9600 tacacgtcca atcaatgtat acatatgcac acggtacgac cacacgacgt gggtaattga 9660 gtagtaaatc gtaatccata tagaggatta cgatagggag gggggagggg ggtggggtgt 9720 tgtcaggggt ctcacactac aaggggaagg acacaggtac acaaaagtaa caagtcaagg 9780 gtggatactc actcttgtac gccacaaacc aaaaacagga acgctatcaa atgactctta 9840 ctactaaagg ttaaagtagg tacagggatg tttcctgtac ttgagtagta aaaaataccg 9900 acgtatcata aggtaccaca tatacacggt gtaagagaat taggtcagat agtaacaacc 9960 tgtaaaccga accaaggttc agaaacgata acacttatca cggtgttatt tgtatgcata 10020 cgtacacaga aatatcgtcg tactaaatat caggaaaccc atatatgggt cattacccta 10080 ccgacccagt ttaccataaa gatcaagatc tagggactcc ttagcggtgt gactgaaggt 10140 gttaccaact tgatcaaatg tcagggtgat tgtcacattt tcacaaggat aaagaggtgt 10200 aggagagctc gtggacaaca aaggactgaa aaattactaa cggtaagatt gaccacactc 10260 taccatagag taacaccaaa actaaacgta aagagactac cggtcactac tactcgtaaa 10320 aaagtacaca aaaaaccgac gtatttacag aagaaaactc ttcacagaca agtacaggaa 10380 acgggtgaaa aactacccca acaaacaaaa aaagaacatt taaacaaact caagtaacat 10440 ctaagaccta taatcgggaa acagtctact catccaacac ttttaaaaga gggtaaaaca 10500 tccaacggac aagtgagact accatcaaag aaaacgacac gtcttcgaga agtcaaatta 10560 atctagggga aacagttaaa acagaaaaca acggtaacga aaaccacaaa atctgtactt 10620 caggaacggg tacggataca ggacttacca ttacggatcc aaaagaagat cccaaaaata 10680 ccaaaatcca gattgtaaat tcagaaatta ggtagaactt aattaaaaac atattccaca 10740 ttccttccct aggtcaaagt cgaaagaggt ataccgatcg gtcaaaaggg tcgtggtaaa 10800 taatttatcc cttaggaaag gggtaacgaa caaaaagagt ccaaacagtt tctagtctct 10860 caacatctat acaccgcaat aaagactccc gagacaagac aaggtaacta gatatagaga 10920 caaaaccatg gtcatggtac gacaaaccca atgacatcgg aacatcatat caaacttcag 10980 tccatcacac tacggaggtc gaaacaagaa aaccgaatcc taactgaacc actacgcccg 11040 agaaaaaacc acggtatact tgaaatttcg tcaaaaaagg ttaagacact tctttcagta 11100 accatcgaac tacccctacc gtaacttaga tatttaatgg aacccgtcat accggtaaaa 11160 gtgctataac taagaaggat gggtactcgt accttacaag aaggtaaaca aacataggag 11220 aaaataaagt aactcgtcac caaacatcaa gaggaacttc tcaaggaagt acagggaaca 11280 ttcaacctaa ggatccataa aataagagaa acttcgttaa cacttaccct caagtgagta 11340 ctaaaccgag agacaaacag acaacaacca catattctta cgaagactaa aaacatgtaa 11400 ctaaaaatat aggactctga aacgacttca acgaatagtc gaattcctct aaaacccgac 11460 tctgttaccc caaaagatct atatgtacag tagacgtttg tccctgttaa actaaaggag 11520 aaaaggatta acttatggga aataaaggaa gaggacggat taacgggacc ggtcttgaag 11580 gttgtggtac aacttatcct caccactctc tcccgtaggg acagaacacg gtcaaaagtt 11640 tcccttacga aggtcaaaaa cgggtaagtc atactataac cgacacccaa aaagtatcta 11700 ttgagaataa taaaactcta tgcagggtag ttatgaatta aataactctc aaaaaccgta 11760 cttctcaaca acttaaaaca gtttccggaa aagacgtaga taactctatt agtacaccaa 11820 aaacagaaac caagacaaat atacgaccta atgtaaataa ctaaacgaat ataacttggt 11880 cggaacgtag ggtccctact tcgggtgaac tagtaccacc tattcgaaaa actacacgac 11940 gacctaaacc aaactggtga ccgtataaaa ttcgtaccct cattgtgaca gtccaaaaaa 12000 tttaatgttt tacgaaatcg tatctctttt aatatttctt gttatattca ttgtctatac 12060 gtgagtgata ggacgaatta gtttacagtg tgaaacggtt cgaactaagt ttaaaaaatt 12120 tcgtttcttt gtaatgtcta taccgacgtt gtaggataca cggggtggcg actatgtatg 12180 gagagaaggg ttcccattgg tgaaagactg aaactatgaa tagtaagggt ccgtactaat 12240 ttacgataac gacttaaacg tatatatgta tttattatat atgtcaacaa acgtacaaga 12300 ttttgaaacg taatttatta tagtttatta atttttaaaa gtgtttaacg taaaaattga 12360 gtcagaaaat attctaacgg ttattactat agagaagtct agtaagtaaa actgataata 12420 taataaaaag taacatactg atacggtacc gagtgaatag gtaagacaat aactatttgt 12480 aaacacaaca aaggtgttaa aacgataatt ttattaccgt aacacttgta agaacacaca 12540 tatagtgaca catgtgtacg atctcaaaga gattacataa taccacatat aacgacccgg 12600 tttccgatac attcagaagt tgaagggatc tacagtatgg ttgagtatgt atatactggt 12660 cacactcgta agagtcacga gatgtaacag gtctaagatg tacttcgtga ccaccggata 12720 accagtccaa ctgactataa tcttccaata acggtttcag atacactctc tctgactccc 12780 agactttatg gatctacatt ccctatattt cactctctcc tttcttcaat tgtataaatc 12840 ctcgttttag gtgtactgaa acactaacta atacctcttt tattcctctt cttcccttgt 12900 ccttctgaga gttcagaggt ctaacttgtg ttctccttcg aatacacggc actctgacta 12960 ctgtttaagg aaaacttgta tcacggaaac tcccgaacca tcattttttc tttcgtgata 13020 ggtagtccgt aaacctataa atccagacct tctgactttt ctctagtttt gtcttttatg 13080 tttaatatct tagtagctct acccatttta gtcttctcaa cctagttctt ttcatggatc 13140 ttagtcatct cttcactcaa ttcttttata gagacccttt gtaattataa atttccatat 13200 attttccttc tcttctgaca cctcttctgt ctctgacttc ttcctctgtt ttacacagta 13260 tgacatcatc ggtctcctta tctcgaagtt tcttactcac cagttggtgt aatttgtgtc 13320 gatcttttgg ttcttccatt tctttacttt taatttgtaa ttgtatgtta cttcaataac 13380 tcaggtacaa ttttaccaaa gttaccttat cgtagttacc tttattaacg ttaatcattt 13440 tcttaaaatc tttttctttt ttaattatgt cgattgaaag agtttaattt aaaaaacttt 13500 tattttgtca ctctacctta agctcacgtt ctacaaacaa cttttagttg tgtgtacttt 13560 cctttctctc acttggattt ttttaaccga ggtctcagat aattacattt ctgatacaat 13620 ataacagaga gatagaaatc cctttgtata tgggttaagt agaacacagt ggtcttagtc 13680 taagtagttt gggtaagacc tggtgagact agtgatcaaa gtgggagtgt cagtatcatt 13740 tctttgattt cgttttctga tgttctcgtt tcctgtcttt ccctttacaa taaaagaggg 13800 gagtggaaac gggagaaact aaaagaggta acaacgattt tccttgtgaa tcttttgata 13860 ctttctttga agacggacat ttacgtcgag gtactaatac ttaagactta ggaacattgt 13920 cttcttggtt atcctgacta ggtactgaag ataatcatct ctgacccttc catccactga 13980 aatcgagtgg ttcggactag tgtcgtttta tcttttacta gtgtcacagg ggaaaaatag 14040 gaccccattg ttacttgtaa gtcaccctcg gttgatgaca taatttcagg acccacgtcg 14100 aggaccgtgt actgtaccgg gtgttccatc atcaagactc atgggaacgg atagtcacca 14160 cgaccccgct cttccctccc gtcggacgag tgatccctct cgtccttact ccgatccttc 14220 atgtccctgg accgtttcta cagaggacaa actctctctg aagtcaatta caagtcagtt 14280 gaaggacacc acgattcttc actttcaact tgaactgata gttccttgtc tccgtccaac 14340 aatcgacccg gggaccctcc ttcagttgtt cgaggtggtg tagactgttg tggatgacga 14400 acgtcgggaa gggggtccag tccgtcgacg tgtggagtac gaaggttgac tcccccttac 14460 ttacccatgg ttctcatcca ctcagatgaa gaaagggtcc ccactcatcg cccacttctt 14520 tagtcgtaca tcacctgtaa atgtacacgg cctatggagt atatacgtca caccatagta 14580 ataggagtga cacgtctact tctgtgactc cgagtccctg aacaagttct gtgtgtagac 14640 cagttatccc tcggtcctaa gttttagtgc agtcagatca tgagttcagg agacaagaaa 14700 ggtgctgatg taatctacat agggatctat cagatccaca ttgtcgtact cagagggtac 14760 tttccttcac ccccgagaac cttgtatgga gaaatccttc ggaaggtagt aacacgacgg 14820 aaggaggaga cacgtcggag tcgtgagtga caactcggga agagatcctc aaacgttaga 14880 tgcccctcac tacccgtgta ttcctttatt aaagttacat cataccgttt acgactcgat 14940 ctatttacgc gcttactgat acttcttgtc tcctaacccc agtggattga gttgtactct 15000 gagtaccttc agaggactcc tctttggaga ctcaggatct ctcactctta accggtcttt 15060 ttaattcttc cccgtccctt aaggtctctc ttcattgtcc atttgttttc gtttctccgt 15120 attctatcag acctcagacc agtttaatgt tagtcaacct tcatcatctc ttattttatg 15180 tttcacctct ctcccctctt catttcgact tatctatttg tcccagtcga atgtctccca 15240 ggatacgtcc gatttaaggt ctacgacgat atttttatgt cctttctttt gagtacttta 15300 taaaattcta aaaacacctt ataaaattct cgaaaacact tgtagagtac ttcgtgagga 15360 cacaaacctc cgtcgtgacc gtcgtttagt ttgtattatt ttccagacat gtagtttgta 15420 actgtgtaaa taagttgttc gtgtataact cgtggatgat acaccgtcct tgagagaagt 15480 agtcgttcat aaaaccgtga tttattttgt gtcttgtgtg gcgggagaaa ctttactgtt 15540 atttctttta ttcacttaat atataataga gtcgtctata acgtaccata tacctttcgt 15600 atagtccctt cccccacatt tcacagtact ctccttaatg ttataattat cctacaattc 15660 tgtcgaggat gacttcggta caaatttgtc tgtgaacctc ctctcctccc tcaaccgatt 15720 caactataaa ccccattccg taaggtcctt ccccctagtc ggtcaagttt cgggaccccc 15780 cacccccgac acgaaccgta taaactcctc accattcctc cggtcacacc gaccttgtct 15840 tactagtttc tttttccacc atcatttact ccagtctatt tgtcattctc tgttccctaa 15900 aaatccagta gatcttaaat ctaaaaaagg actctcccgt ctcctcggtg ctctttcgag 15960 actctactcc tactctacta gattaagtcc aaaattgacc tatcaagtct cgttctcacc 16020 cccgtccctt ggtcactcct ctgacaccgt tattagtgct tttcaccacg tcgccgaacc 16080 tggtccctca atcgtcacct tcgtctctct tcactgttgt gagacgtata ccctttccca 16140 cccgtcctct cttgtcacgg gttctactag gtcataaaac cggactcttc gacccctttt 16200 tctttgttgt tgttgttgta gtcaccttcc ccaaagtccc tcaggtccac aagaccaacg 16260 tcgaaacaaa acggaatttt tataaactca tgcattgatc attaccctaa cgacccaact 16320 taccattaag gcaaaaatca ggaaactctt taacggtgtc acgaaaggaa tcgtttgatt 16380 ccgtccttgt cttttggttt acggtgtaca agagtgaaca ttcaccctcg atttactatt 16440 cttgagtact tgtgtatctc cccttgttct ctatgactcc ggatggactc ccacctccaa 16500 ccctcctccc tctcctagtc ctttttattg attactcgtg atccgaatta tggacccact 16560 actttcatag acatattgtt tcaggacact gcactcaaag ggatccattg tttgaacgtg 16620 tacacgggga cttgaatttt attttgatat atgtatatat atgtataatc tttcttaata 16680 tgaaaactca aaattatcgt gtaaaagaca ttctaaaacg ttaaatttga agtgatataa 16740 aatatatttg ttaattctca actcaactgg aactataatg tataatgtct ataaaataat 16800 tgtagataat taaaaattaa taaactaaaa aagttttaaa gtttattata tggataaaaa 16860 gtctaaagtc cgtccggtaa cttttcgagg atcaagatta atgacaagga cattacgaaa 16920 tacttatatt gtcaggccgg aaaggagaat ctcaaacgtc agattccatc tctttatatt 16980 attttctttt acgtacttaa aaattgatta taccacaccc aagatttcga gtctatttaa 17040 taaagcaaat caagagtgtt gttgggagac tacgtccgtg ataataaagg gggtaaaatt 17100 attactcctt tgacttcgtg tctctcgaac caactgaacg ggttataatg gtgtgagaca 17160 caccgattcg accctaaact tggttctttt gagagaaggg tatccagcaa ctttttaata 17220 ctttccaatt cggtggagag acgaacacaa cggataaagg tggtacactc aggttacaca 17280 ccactgtctc ttcccatcta caaaccgtag acacttaaga cacctaacac acagtactaa 17340 gaaataaaga caggagacat aggacttaac ggtgatggga ctcgtccact attctcattt 17400 taaggtaatg taaccagaac tcccctaccc gtttgtgaaa cctgagagaa ctataagatc 17460 aataatttat aacgagtcgc attcaatctg ttacttactc tgaacaacta caaaagtaaa 17520 gttaaacaga atattactag acacgagttg tacattttgg ttatctacat tgtggaaacc 17580 ttataaagac tcatttgtac cccgtggttg agtttctcgt tctccatttt tacggatcac 17640 acctagtttt agatgagata ctgtccctta gagtacccga gacttcctaa gaccagtgta 17700 tccctcattt atcgtctgag agttaagtct cagtctacac tcaagtgtgc gttacaaaac 17760 cctgaagtag gacagaaaag ggacgagacc ctcagtattc ttaattcaag attaggatta 17820 agacaacaat agatggactc actgtgatta atctatatat tgaagagact ccgagctgta 17880 aatgtagatg tttatttctt ccgatcttat gatttcggag aagataaaga aggttaataa 17940 ctaacatagc cgagaatgag atatttacca aagaagataa aatcccttta attaataaaa 18000 caagaatacc acaacgacct ggacaacgaa aagtaacgac attaatgaag agaaacaact 18060 tctggaaacg gtctgcttta cactacccac atattccgag accgtaaaac gggtccagac 18120 atcgtgtatc ttaaggtgat tacccagacg acccgtagac tctggtgtct cggtaaacag 18180 tattgtactg ttaaggtcaa cccgtcccta tttacaatcg aaattgctaa aacctggtct 18240 caaacagatc tctctctcgt ctcatgtttc ggttttcgta gtagaaatct cgattcgtcc 18300 gtactcaagt ttagggttgg gtcggtgaat gatctataca tcggtgtcgg tggcggttca 18360 gagttaaatt tacagtgaaa gagtttgtcc ggaggatccc agagggtgca accgaatcag 18420 gtcttatgac caaataggaa tgccatattt taaataaggt agtaatacgt ggtcataaat 18480 tatttacgac tccttacacc ttgtttataa acaatttatt tttcactgaa ttaggaagag 18540 acagagtcag gagtgaagtc acttcacccg ttttcccatc ttgttcaaag gacacgtttt 18600 tcttagtcca gtttcacggg atctttatcg tttgtgacag tgttgggatc tatcgtacta 18660 atgttagact ttatttgatc aagtttttcg tttagagtct gagttcaccc cgaaaaagat 18720 caaatcttga acctcaatct tcttctttct tcccccgatt tcacacgacg cacagatcta 18780 cacggtccgt gacatgcatt atcttacagt gtgtaaatta taaacagatt ttcacacttt 18840 cacacttaaa ggtattctcc ctgtgtccaa gaaccatttt ggttccaaac gagattgaaa 18900 agtgtgtgaa accgtctgcc aaaacggaaa aagaggattc aaccttgaaa actccggtaa 18960 tgacggtcct cccttttcaa tcactacgaa tagatacaag tcttgatctt ttaccgggga 19020 agaccagggg tcaaaccggg gtaacaataa gtgtacgacg gatatttttc tgttttggag 19080 gtcttccacc ttttctactt atacgtctta cgatgtgtat ctatgagtac atccactcta 19140 ccgcttgtgt cgtctaaatc cagatggtta ttctatgatg gggtaaaccc tactgtgtgg 19200 aaggaatctt cactgtcacc gtcttgtatc tgtttccctg attaattttc atacacccaa 19260 gacgtctaac gtagacctca ttctcaggtc actagattta acatccggtt ccggagaacg 19320 aacgattgta ggagacagac ggagtcaaaa gaatggacgt tttacctagt gacttgtagt 19380 gtaaagagaa ataattaaat aagtaagtga cttcttcgtt cgacagtttt tcgttgacga 19440 tgtatacagt tctttctacg gtctacgatt ttattttatg tttttaaact aatgatgttt 19500 aacgatggta gctcctcagt atcagattac tttctctttt tgtactctca cttattactt 19560 cagtcgtttt tcaagttttc tttttattta ttttccgtat ctataatttt tacttcttca 19620 ttttgataga ataagtcttt cctatactaa tacatgcctc ttttagggtt tcttagatgt 19680 tgtagtctga gtagtcactt agatcgttct agtgacctat gtcaaatata tatttacaat 19740 agttattaac ataaagacac ggactgttgt tttttaactt ctgttgaaaa ttttgttgtt 19800 acaaatatta ctgtggcttt ttatagttta atcttcaagt acatttaaca tcaaaggttc 19860 tcgagggcga cctttaacct tcggtaacaa ctttatttaa tttcttctaa attcgtttac 19920 ctctctgaat ggtaccaata ccaagctttc tgagatgtaa cgattctacg ttaaatgagg 19980 ttttaacaga tgtctaagtt atgttaaagt caatttcaaa gactttgaaa gtaaacaaca 20040 acaacaaaaa ccttatctgt tcgactaaga cttcaaatat atgtttacgt ttcctgcatt 20100 ttgtcgattt cttttaaacg tcttctttct ttgattttct taatgtgaca gtctaaagct 20160 ctggatgatg tttcgatgct aataattgtg tcacgtataa ccatgttctt atccgtttat 20220 ctgatttctt tgtcttctgt ctcaggtctt tgacttgatg tgtatgtgct agtagactaa 20280 ataatgtttc cacggttccg ttaactcatc cttctcttgc tacaagatgc atttaccgtt 20340 ataactcata gacataccat tttttattta gaaccgatat acagtatatt atacctgttt 20400 aattaatgtt tacatcatat gtggtttaca ctttccattt tgttttattg tacaattttt 20460 ttcatatcat agaatggaac cctatcgtct ataaagaatt tgtcctgtgt tcttcacttt 20520 tccgttcggt gtcggagtga aaacagaagg agtacggaag agaagatcac accgagtcac 20580 gaatcacgtc ctctttggtc attgggactt aacgtcgaga aggaagagtg atgtacttaa 20640 gttaaaggag tagacagttt actcatatgg ttaagtatag agctttcgac aacgacactc 20700 ttagtctatt cgtattggag tgtcgaatac agataatctt gtcgtgaacc gtgtaccatt 20760 tgtgaggttt cataaacaat ttacttactt atctaatttt ccaccgtaca aaacatgatt 20820 tgacaagtta ctatcacatt ttggtaaacc agtattacgc ctttcccttc attccgcctt 20880 aaggaaatta gacacaaaat gcgtccaagg tttcctcgca ccacctctct tcctacgtct 20940 atcagaccca ctctcgatct ccgacctcag tcgtccttcc tgactccggc aaccacgaac 21000 ccctcactcc cgaggaaaga cgagacagga tccgattcaa ggggtgggta aggaagaact 21060 ctagatggag tttgtgttta gggagttaac tggtgtcccc cgcggggaag atacttaaac 21120 cgcgactatc gacactagac gggtcgtgtc accccttttg tgttttaaat gtctagtccg 21180 tacaggcccg agtctaagga tgaggtcgtg gaccaccggt tccctggggt tgacaattta 21240 tccgtaccac tacggacgaa aggttcggac aaccctttct ctctcccctc gcccctcctt 21300 accctctctc tctctctgac tcgttcgtac ggttctgaat tatatgaata taaatataat 21360 tttctttatt tatagtctac taatgttaaa ccaacttgat tctatgtgtc atcttatacc 21420 ttgattatag gttatagtgt ttcataagat cgctcggaag gatgtctttc ttaacaccca 21480 ccgacccctc atccgtaatc gatgatacac tcacgtctct tatgagtcgg aagaaggtct 21540 accactcgat ttcaagtttc tagttcagtg catgtgtgga agaaagagta gggtccagga 21600 tcagacgaac ttaagtttac cggtaggtgt ggaacggact ttatgaacgt tattaattct 21660 atgccgaaag acggacgaac cccaaaccag gtgttaaggg aattctccgg agtaaagtta 21720 atcctgagtg tgtagggaag ttgtcattaa aacacagtcc gaaccaatcg ttgagttccg 21780 agttcgtatt taccctgtct taagaaaagg aaaactttga gtggttatat cactaacatc 21840 gttgatcgat gtaacaaaaa caaaaaaaaa agggggagtt aagattcgtg atacgtttcc 21900 gaaatttcgt caccagggtt cggaaaaacc gtggtccctg gtcaaaacac cttctgttaa 21960 aacacttttc tgttttacac cttctggcac ctgaccctac caaaccccta ctaagttcgt 22020 gtaatgtaaa caacacgtga cacaaagata ataataatgt aacataatat attactttat 22080 taatatgttg agtggtatta catcttagtc accttcggga ctcgaacaaa ggacgttgat 22140 ctgtgagggt agatccccac taccctctgc cactgtccag taatccgtaa tctaagagta 22200 ttcctcgcgt gttggatcta gggagcgtac acgtcaagta ctgtcccaaa cacgacgata 22260 ctcttaaatt acggtgacga ctagactgtc ctccacctcg agtccgtcat tccactcgtt 22320 acccctcgtc gacatttatt gcgactagag tgagtgggtg acgagtggag gacgacacac 22380 cgggtcaagg attgtccggt gttttaccat ggacagacac aggggtccca acccctggtg 22440 acggaatttc cggaagtaga gtaagtcaaa agtagtttta agacacacca tccatgagag 22500 taatctgggt aaaataccca ttccttgact ccattttaac caatatattg aacggatttt 22560 attcagttca gagactactc tcccggtcct aagttcaagt tcgtcagact gaggttttag 22620 agtttcgtga agacaccatc ctttctcttt acttacctta ccgtatctca gtagatttac 22680 tgacgtcatc cttccctcgt aaagggcaca cgtcacaata aaaaaggccc gaaactttct 22740 atttatcctc gtacgtcaat tttttctctc ctcttccgta agatccgtct ttccggtcac 22800 gaatgtgtct tagagtctta acattgtcaa ggataatgtg ggaccgtctc actacggttc 22860 cgacaataac agttcgtggg aggacggagg gtcaccccaa ctcttcccca cttccctgtg 22920 accgtcttca cttcgaccct tcaaacgtga acgatcaacc ctgaacgtat cggtagaaga 22980 gttacggttt ctcctggagt cagagacaca cgcgaaacaa aaaacaacaa caacaacaac 23040 aactaaacac cgggtccgat ctcacgccac cacactagag acgagtgacg ttggaggtag 23100 agggtccaag ttccctaaga ggacggaggt ctgagggttc atcgaaccta atgtccgcgg 23160 gcggtggtgt ggacctatta aaaatatgaa aatcatcccc acctcaaagt ggcacaaccg 23220 gtccgaccag acacacacga aacctaaact ctgtgagact actaaatctc aacttttacc 23280 ctcatctaac ccactaagag atcaatagta caaatcagtt tagtctaggc acgtaagttt 23340 tagtattccg ttcaaaagga cacaccgagt cattgtagga atttctttat caagactaca 23400 ggtaggccac aaaaaagtct ttctcgcagt cccaactgtc atcgacacta cgaggtctac 23460 ctcgacgcct attgtcgtat attcaaagtc ccgtcaccaa ctccccgaca ccctcccacc 23520 cctcccttct acctactgaa aagagttggt agacataaac taaccttata acacactgaa 23580 cactttatct taatttctat actagaagaa taccagaaga gtgtcaaaag ttccctaaaa 23640 tcctcttttg cgaatcggta tgtctcgggt tggaccattc accgtcccga ccggtccagt 23700 cacgttgaag tttcagctac aacagtcact tacgaggtct acctaacgtc tcttctggtt 23760 tcaagtacag agccgtggaa agggttacat gtcccgaata acaaccctgt ctcatcacgg 23820 accggatctt caatttgtaa gtaggtcgat cgataattcc gaacttacgg aagtttcttg 23880 tcgtacctaa aaagacactt agcactcgca aaagcgttac gaattgtgcc gtcgaccatt 23940 actactaacg aggacaaagg gaaacttaaa gcacaagcaa atgaattgtc ccgtaacgat 24000 tagatcttct tccctcaccc acttcttagg gtaaacattt ctcctatcgt ccaattactt 24060 ttcttcgtct ccatacgcat ccactatcac aaagatgttc cgagccaagt taaccatact 24120 aaatttccgt tcggaaccga ccgaccagta ttattcccgg tgtattacct cccctaaatg 24180 caccgttaat ggtaccagga acgatcaccc tatgttacaa aatcccgagg gacctatgaa 24240 ttctaattac agacttagtc atcacaataa caacgttcta gaatcacact accctcggta 24300 cactccgtgc ttaaaaatag ggaatagtct tacattttat agagtatcag acgttcttgt 24360 ggtcactgat accggacttc aacgggattc tgtcaaattt gtaggacaac taacaaaaca 24420 aaaaaaaagg aaaaggaacc gttggtctta cgtacttact cagatcgcaa tgaaaacaag 24480 taggtccatt atactaactt tacccttaat atgtacaagt tagtaaatct cttcttcctg 24540 atttttagta tctggatatc gtttaattta ctaatatctc ttagatggta catttactga 24600 cgttaattcc tgaagaagta catggggccc ggtctaagtg tcgtagaccc tgtttgagag 24660 gtaccaaaaa gggagccaca taaataattc ttactactag gacttgaagt tcctctgaac 24720 cccttaaaaa cctaaggacg gtccatacat ggaccggttc taattaaacc acttagtctt 24780 caagggtcct tggtatagta ctcatgattc tcttgtttaa ctaaatagat catcatacaa 24840 agaggttgaa tctatagaca cgtttttttc acgtcgcctg taccacgtgt aaggttcttc 24900 aagaggaggt tccttcacca gttttataca ttacgaataa ataataggta aaactctggg 24960 tttaataggt cagtcaccct agttatggaa tgaggagaag gggtcttcgg agtgtttatt 25020 tcagaattgt ggtagagttg tttttattct atccctggat ctgtacctct tataccgaca 25080 gagtacctaa gattcgttag tccatctcat aactctttac aataactttg tccttcaagg 25140 acgatttcca caaccaccct aaccctacgg tcacgtctca ctgtgtcata aacctgttct 25200 tgtgtattgt gctttcacag acttaggaca agaacagata ttaccgtaga acggtaattt 25260 aggaaccgtg cacggacatt agggtcgaag acccctccga cttcgtcctc ttaacgaact 25320 ttggccctcc acctccaacg tcactcggcc ctagtgtggt gacgtgaggt cggacccact 25380 gtctcactct gagggagagt tttttttttt tttttttttt tttttttttt tctttttcct 25440 ttttcttttt tttcgttggt actctgctcg ttcttcgatt caaatgttta tttacactag 25500 gtgtgaagag ttgtagtcct gtccaggaag tacgaatcta aggtccagag aagaacgctt 25560 acccttgtca gtagtgaata ggttactacg taaattctcg tggttcaaaa tttttctctg 25620 tttacagctt ttctttacgg taaatagtag tttgtggtaa taatttgtga tcgaacaacc 25680 gtatagacat tcagaccaac agtaaaacga tccacctctc ccgtcttaaa acctttcata 25740 gatccggtgt gggtacaaag tcttatcatt catgttttcg gtgttacata actagtgaat 25800 ctgagtagta tacaaacagg aaaataaaat ttatggggtt cctacctcca gaaagatcgg 25860 attaaaaggt cgattctttt agttcctatt ttttaaaaga acacaacaat gaaataggaa 25920 tcatgggggg acccttcatc catattaatc ggagtagaat ctctactctt ttgactccga 25980 gtctctcctg acaggacatt ggtctttctc ctacacaatc ctagacttgg gtagactgct 26040 ttccgatacg agaattaatc attgtaaagg gacggaacgt tcctgtgtac atccagtgtc 26100 ctatgggtcc cttccattta cgagacagga aaagagtggt catgatgttg aatcattgtc 26160 ggagaccggg ttttactctg acctgtaact gaaattacct accttcatgt gtaaggattg 26220 tacctaagta agtcttcgtg ggtctaaagt gttctccttt actactccgt aaaaagactc 26280 cacaacttta acacgggaaa cagtcagtgt ttggttggtt tttttttttt tttccgaaac 26340 ttttaaggag tttccatttt ccatcggaaa gaagagagta tcaagactat atcagggttt 26400 tcctttgttt tcgaacgtat taagatcggg gtcactaaga agaaaggaag aataattgat 26460 gtttagaagt ggtgtaaaaa agaatgatta atcagtgtac gaattcgagg actcagtgcc 26520 tcaacagatg accaatatcg aacaagatcg agaaggtggg agtttacctt gaacgttcct 26580 taatccggga gacttctagc gtgtaagttc agtacttttg ttcggttgtt actttagtta 26640 gtgacggctc ttcccacctg ttcgtgttcg taattctggg tgatgacaac tcagtcccgg 26700 aagtctatac gacggttacc cttcttctct ctttttaata caaataagta aatatttata 26760 cacgtaagaa cggaggtttc cagggttaaa gtgtgaccag gtcaacccaa gagaaaggaa 26820 acgacgtaag tcctcgtgtc aacataaagt agatgacgaa ctcttacgtc acctcgaaca 26880 gcggtcgtca ctacctcggt ttgtatttcg gttaatggaa agggatccac cgattacctc 26940 cgaggttctt cggtctcaaa cgggtgtcgg tataccaggc tctcttatct ggtacgtaaa 27000 gacctccgaa atggactgaa agcggttttc gtacgtgtct tgcaccttga accggaggac 27060 ttttccgcac agaagtcgaa tccaataagg aaagagctac gagtggtact acagtccgag 27120 gatcatcctc tcggtaatta ttggacggat agagtggtaa tctgacacat gaagatcttc 27180 cgtctttaga aaaagattac taaagaataa agggtcttgg gaagccactg aaccgtaaac 27240 tacccgttag aaccggtagg atttcgtaag gtacggtagt ctatatggga cgtaacggta 27300 ctcgaaatag taaccgaaaa tcttgtagta ggagggtgaa acttatttac cagatcgtct 27360 gttatgtcag ggaacacggt ccgttgtaag acctacgaaa tacatgtaat cgagtaactt 27420 agtaaagtta agttagtaag ttgcgtcccc aaacttagaa tcgacaaact ccagtaacag 27480 gtacgtgagt ggatattgta acaagacaga gaaagacgtt tacattctat ttttataatg 27540 gaagtaagat cttttgtggg gaaacatctt atccaaatat ggaagtccgt acacctgaaa 27600 ggttaggttt gaggtcctca tctgtctatg ggtggtcctg atccgttacg tccttttaga 27660 gtccgaagtc gatcctgaca aagtatgtta aaggacgtac cggtccttgt tcccacttcc 27720 gtacgtgaga cactcgtcgg gtaaacacct gtcacccagt accctgactt ccttggtaca 27780 atgtgtacgg actcaaaaga aaggttcgag tctttggtat agcttgtggg gagggaaccc 27840 ctcttcactc actcgtccac ctctctgcta tcattacaat cataccacct tgaagaaggg 27900 gtatctacct ttgtgactcc cgattcttct tcccggagag gaggttgtac acaatagatc 27960 gttccgacca agataaattc ttactatata tcagatcaca ttatcttatg ttatacggat 28020 cgagatttta atacaacctt tttttagttg taatgctaca cgatataagt cagttactca 28080 tttataaaga cacggacggt gtacgagtcg taatattaat ctcggtggca ctttttatga 28140 ataggcacta ggaaatacga cagtttcgga tttaaggggt gaattggttc ttaggaccta 28200 ttaagggttt tttgtttaaa taataaacaa agataccaac acacaaacag tttttaactt 28260 cgtaattatc tttattcttg ttaaatctga tattttcggt atccgaatat ttttacgatc 28320 gtagtcgtgt aaggttttga cggacggggt agggaactac catacacact aacgacagtg 28380 ttttgatcgt caatcttaga aaacattgac tcctatattt ggtttaaatc tttatacaga 28440 aatgatttcc cacctttgaa tctttgactt cacctaaatg gtgttacttg atcttgattt 28500 acatggttgt gtccgagttt tgtgagattc tattaaaaag tttaaataaa ttttaattct 28560 tttcttttga cccattgtaa cttagtgttt gtcaactttt gtgaccccaa tgtatcataa 28620 ttgtatatta atgtactagt aaacactatt tgtcttttaa atttttttct ttttcctctt 28680 tttttatttt ttatttcttt ttgttttttg tttttttatc ttttacttta ctcttttttt 28740 aactagttac cgtttagtga cctctattta gtaacacatg tctaaaggga taactttttt 28800 tattgttatt aatttgtggt cgattcggaa gaaagaagaa aactaaaaac actttttagc 28860 gttattctac atagagatct agcacacgaa cggtcttaga aacgacaaag aatccacttt 28920 ctagtaacta ttcttagacc gtacctcttg tcagttcctt cgtaacgtcg agttatgttt 28980 tgccaccggt cccttctagg tgacttaatc ctcagtcgtc agtaataaga tgatggacga 29040 ttagaagata ctcgaagcag ttcagtaaat tcgaaccatg ggcagtcaaa ggagtagact 29100 tttgactctt ttcaacaaag tttaacagat tcaggtaagg tcgaactagt atgatcgtag 29160 aatacacgtc gaagaatttc aggtcgagtg tggagacagt tgagggacat attatactga 29220 aggttttttt gtggacacca aaccaatatg tatatatacc tgtatatata caatatgtat 29280 atataaccaa tatggatat 29299 <210> 2 <211> 25265 <212> DNA <213> Homo sapiens <400> 2 cactcttggg tagaacgact ctaacagcga ccgtctaaat gaaggtcaca ctaacaacgt 60 tcttaaacag attgtcttac ttactagttg gaactcgtct tctctaatac tttttgaatt 120 atcgtaacat cgttacaccg acaattactt tatgtcaacc gacgagggcg acaaaccgtg 180 gttggttgga ctgtgacagt tgtagtgtta tgctataaat aagggttaat aaaatgccgt 240 tgttgacttt atgttacaca ataattagta taaataatat tcatagttaa actctttaaa 300 gactgtacgg tcttctattt atccaaataa tacttttcgt caagacgaac cacgtacgac 360 cgacgacgac acattattta tcggagacac ccctttcaaa aaattttctt tatttcgttt 420 ttttatcgtg acttttgtct ttccttcgta gttttgagaa gtttatggac gacacaggta 480 accagttcgt gtaagtcctg tagcgtacgg aaatcttgag gtcgtccaag gttgtcgatc 540 atcctgtaag atctgaggaa aatcgggaca gacaccgaag tcttattaaa ggttgcgttg 600 gtaggtttaa aactgggtgt cgcacaatgt aaaccgtaac gccactgagt caaggagtag 660 aaatcacatg aggaagtatt aaatctaatt gaacacactt cgtgacttag gttatatacc 720 acagaaatcc aggttggagt ccagagggat gtacaacagt ctttttctgt aaactcgtaa 780 aattctcact ttagttttca cgtgatggtt ccaaagattg tcgggtcaag acaggaccga 840 aaagaaggac gttgacaaaa gtcgaaccca ctcagtgaaa agagagacct ggaggtaaaa 900 gagtggggtg tagtgtcagg tcactcccga agagaggtag gattttgaaa gggggacctt 960 gagttcagag agatacaacg ggacgtttta atcgaagtca gggtatatga accgggctaa 1020 tgggtgtctt tcatgtcgtt cgtagtagta ggtgtatccc agaggtttta accgaaagga 1080 ccttggtaag tgttccggta aagtcagttt cgggaccctt ttattggtca aggaggttga 1140 cacagagtaa cattttcttt tgtctaataa taacttgaat acattcgttg gtataacggt 1200 atttaattct tataagtgtt tatcaaatgt ttaagatgtc tttagtccgt ctctctcttt 1260 acacgaagtt taagataact gttctcatgt gagatgagtt aacgatttcc aacatttgtc 1320 gagttttctt tttcacaaga ggtctgagac tttttgtttt gtttttctta gtcgttacaa 1380 agtttcttgg tttttttttt tttttttttt ttagatttat acatatgtgt gtgtctgtgt 1440 ttctaggtta tcgtaaatgg agttttgaaa tcgatacttt atcgttatct ttgagtggtc 1500 aaatgtttgt ccaagtgtac cgatttgata aaaacggggt tatgtattag tttacttccg 1560 acacttggtt ttaaacccca tctcgtcaag agtaccgtca aacgaaaaat ttccggtatg 1620 gaagggtcta cggtttctcg tgatccaggt ctatcgtggt gtctttttgt agtagatatt 1680 ggatgattag tccgggttgg gacgaatctt gtcgtcgcat cctcagactg atgtacctta 1740 aagtagaacg gaagagtaag ttgtcgtttg aggtctaggg tttcttatga ccccggtccg 1800 gttcacgtca ccgattgtgg acgttagagt cgtgaaactc tccgactaca ccctcctggt 1860 gaactcaggt tctcaatctc tggtcggacc cgttgtacta cccttgaata gagaggtttt 1920 taattttttt ttttttcgat ccgtactacc gtacatggaa atgaggatcg atgaaccctc 1980 cgactcgacc ctcctaggga actcgggtcg tcaaggtccg atgtcactcg gtactactgt 2040 gataacgtga ggtcggaccc gttgtcgcat tctaggacag gagaccggtt ttttcccaga 2100 ccgtggacga atcctcccga aggttttgaa aaagtcgttt ctatcactca ccgttttgga 2160 tcgtacttcg ggtctcatac accgagacgc aatcataaag agtgtcgggt gacattactg 2220 acagtccaac gaaaattcta atactttcag gatataactt aacagtaagc ttaactctgg 2280 aacttcagac ttctgcctta atgaaccctt cttcgtagtg tcatagaatc ttctcacagg 2340 gaggtacttc gtctaaaccc cagagtaagg caaagacatg aatgtcatta cctggtacaa 2400 tccgttcagt aaattgtgta aacctggggt cgaaggttta gatatgttac cttccatatt 2460 aacctctctc atatttcgga aatcacgggt gaaatgaact ctctaaaagt ctcgtcagtt 2520 actctgaaat ctttattttc acttgaattt tgtatttcac gaaatatttg gggtcgtaac 2580 ggacttcggg actctaacga actaccgggt aacgcatata agtgtccgtg acggggttga 2640 ccgggaatga tgttgagatc tttactgtcc gtaagtaaga aggttaggtg tctactccgt 2700 tgatgcttca caataaaaat tggggagtaa aaaattcctc tttttgactc gaactcgtgt 2760 aattttttac accgggtctc agttatacca tatacaactg gaaccttaag ctcttttcag 2820 aagacagtgt tctcgtcttc ggtgtttgag tttatgaaaa tcccaataca atggttaaca 2880 ccttgtgtac acgtacttta ctcgactcat tctacggttt actggaccat aacctctccg 2940 ttatccctca ccaccccgga catcgtttga tctctctcgt accgagtcaa ttttctctca 3000 ccgtcgttga gttgaggtcg gttaacaacg gtatgttata attcgggtcc ctaaagtctt 3060 gaagatcgat ctttttatct ccgatctata catataagga caagttttaa cggagttaat 3120 cttctataat cgttcattaa gtttacgtta tgtgaaaaca taatagtgat atgaccaggt 3180 ggattattcc cctgtcaaac gaaggacgag agtgtttcac aaagtctgat tcaatactgg 3240 tgaattcata cgtttctgtt ttgtcacata gtcattacgt cactaacact cgtacatgaa 3300 gtctttgttt actagaccca agtttaggac cacaactgta attcatcaaa ttattggagc 3360 ccgttcagtg aactgaagag atatggagtc aaagggatag acattttacc ttcattattc 3420 tcatgaatga ggaaagtcac caacactgat agtttactta actgtatcca ttttgttaat 3480 cttgtcaagg actgtgtgcc attctcagta catttatagt tacgaatact ttcgagagta 3540 gggtcctatt cgtagaggat cttttgtaga agcaggtaca tggtctaatt agtataaata 3600 agacgtcaac tataaatacg gtgtacaaga aagacccatc tcttcggact tcaataagac 3660 aaataggact ggaacctttt ctgtttcgtc gagtacaggg gtccctagat ttttaaagtg 3720 acccttacta gtgggtcaca gaggttttgg agtcggtcgt aaagagataa gtgtcgacgt 3780 gacttctcga aggaaggacc gaacacagag gttttcccct atgctaccgt tccagacaaa 3840 taatgagagt ccgactacac cggcccctct acaccttaac acatcttacc ttacgctacc 3900 ttatacttta ccacacctta tgtacacttg aagtacggac gaagagtcca aagaaggtga 3960 aggggaaata caccctgttc tatcgacttc acccgacctc aacccaaaag aggaggaggt 4020 aaaccttccg acctcgaacg acctcaactc ataaagaaaa ggagtccagt caatccaaga 4080 ctattttggg atcacccaat ccgagaccaa tctgtcgaag gggactcccg tctggggtga 4140 gactcgtcgt tacggatctt tactaccaag aagtttaggt tcactattgg gtatcattga 4200 ttgagtaatc gaatcaagac ggcatttcag tcttgtttcg ttcctctttg tcttggagac 4260 gtcacttacc tccttaaaga ctcccagtga actttcgtct ttgagttctc ggggtaaagg 4320 ttaaaggatg ataacatgaa ctttatacct aaagtgtata aaccccatta gtgaagtagt 4380 catttcaacc ggaagcattc aatttttgtg agtttaaaat ctttgagtta caagacaccc 4440 aatgtttact gacgggtggt acgacacccc gtactgtggg aaaacattaa agactttatg 4500 cttcatgata aaaaagaaat tacgtaagag agaaaaatca aagaggtagg acactataca 4560 gacaggtttt cctgaagggt ttttggtgac ataccgtctt ttccaaaagt tttacgtact 4620 ctcttaatat cgtttctctt tattgagtgt gatttcaaaa attttataga ggcctgatac 4680 cgatccttga taatgatacc gattgttcac attaaagtcg taaaaccctc cggttccgtc 4740 cgtctaggga attcagatcc tcaaactctg gtcgaacccg ttacaccact ttggggggag 4800 acgtttttta tgttttatta atcgccccac accaccacgt gtggacacca gggtcgatga 4860 gtacctccga ttcctccctc ctagtgaact cgggccctcc gtctccaacg tcactcgatt 4920 ctaatacggt gacgtggggt cggaccctct gtctaagaca gagttttttt ttttttttta 4980 gagacctgat atttgagagt acttagatcg taataaacct agtctttata taagtatcct 5040 atctgacact actgtttatt tagtttaaac cctacggagt tgtgttcttt ataaaaatac 5100 atagtaatac attgtcaggt ccctccgact tttatctcac atacaacgtc cattctttaa 5160 aacgagacgt cagtaagtcc ttaacttcga ctatcactaa gacggtagaa cttgtacacc 5220 gtagcgacag acagacctcc cacggtagtg tcagtcgaaa cctgtcgtgg aacttacgat 5280 agtcccttcg atctcacaag aggacaagaa acgacaggaa cggtcacaga agaggacttg 5340 agtgtagtct tcgtacggtc attcgtccac catggtcgtc ccaagattgg gtccgtgagg 5400 ttaagattcc agttgaaaca atcacaatag attttttctt ttcgttatta tttaataggt 5460 gttcttttaa aatgttgagt tcaaaaagta tgagaaattt ttccgtaaaa aagtgtacat 5520 gagagtacaa gatactaatc tggattagta acagtgaagt gccgatctct ttgattctgg 5580 tcttctcgaa ggtctagaac tgatcgtggt gagttactca ccctactggt cttgggacat 5640 gactagtacg tttgaagtgg tgtattgtcg aacactataa ctcactcaac aaagtggata 5700 tgctggggag atttggttaa ataattagat cttttaccct tattatcgtt aaagatacat 5760 tattcaacaa cctcgtgttc tatttcaata tacatatttt gtaaatcgtg tcaaggacca 5820 cgtattgtcc agacatcatt tataaacaac attaatcgtc gttttagtag agggagtaat 5880 gacgtcaact aaaaggaaat aataaccttt ctttaaagag ttgactcaaa gtcaacttat 5940 gtcataatct aataaggaat tgactcaaag tcgtaaaatt tacatatgag ggatgagttt 6000 tgatggatga tttagtgcgg acattaaggt cgtgagaccg tccggttccg cccacctagt 6060 actccagtcc tctagttctg gtaggaccga ttgtgctact ttggggtaga gatgattttt 6120 tacgtttttt taatcggtcc gcaccaccga ccgtggacat cagggtcgat gaaccctccg 6180 actccgtcct cttaccacac ttgggccctc cgtctcgaac gtcacccggc tctagcacgg 6240 tgacgtggtg tcggacccgc tgtctcactc tgaggcagag tttttgtttg tttttttgtg 6300 tttttagatg gatgattttt cttcaagaag ttacgaatct gaaactcgtt tctttttcag 6360 acgagattgt ccttcgacca ctatatcttt ccatttcaaa gtgaagtgtc cgtgaaacta 6420 aagggaagct ccacctatga cttactaaac acacacgcgt gtaaaaagat acgtaataag 6480 ttttaatttt aaggaatctc ctttggtgac tttcggttag taaatgtttt gaaattttta 6540 ctgtagaact tctcaagaaa ccacgagtaa gtagtttgaa tcgttactaa attgacatta 6600 agaaataagt ctaagtagag ggtgttttat ttttacggta tttcgaaatg tcatgacata 6660 ggattactta tctctttgat ttctttttca ttctactcgt tcactctcct tttgggcttt 6720 tactcggaca ggaccgtaca aagatttttc tttctttgtt tgtttgttcg tcggggagga 6780 gagtcgagaa ccctttcttt ataacttaga actgttatag acgtgaagta tcaactaagt 6840 atcgtactgg atagagtttg ttaaattcta agtttacttc aaacgttaat tagaaagcta 6900 tagtgaaacg ttttgtaaga gtattggaat aggtcgggaa aatgtttagt taggacactc 6960 cacttgtagt gacacaaggg taaaatgtct ctttccgtga ctcggtgtct ctccaatata 7020 tgagtactag ttattcgacc attctgattc ttggtcctta ctatgacaga aggaagaggt 7080 ttataggaca agaaataata ctcatggatt tgtcataatt tttaattaat gtcgagttgt 7140 tatcattcat ttacaggagt acactttagg tggcaaattt tgaattccaa tagataaata 7200 gtttatttaa tttaggatga gtgaattgtt ataagtaact cgagtaagac atttgttggt 7260 aatccggtcc ccgtctatac tttatactcc gagttagaca ctagtgtctc tactttatat 7320 gttaaatctc tctctttcta ttcgtactac tgtttattta ttacatactt ttaatcggta 7380 atagaatccg gttgaaaaag attcgacatt cgacagacgg atgaagacgg tccacaatca 7440 ttaacaaaat ttttcacccc cttcttctca tgaagtacca cccttctata agtaactcct 7500 gtattcgtag aaggagaatc tttaattgtt acgtgtcacc ggataacgtt caaaactttc 7560 gggacgtttg ttattttcgg actaatcaaa aataacttag tcatagagga tttgtgaaaa 7620 agtactttgt tccaatgagt gtttagaaca gctccttgat tacaggatcc tttcaccaaa 7680 agttcgaact cgtacatgta ttcatagtaa cctttccaac gtttttatgt ttacacaccc 7740 gaggtgaggt ctttaagact aacttcacca gagtagacag tagactcttg aacgtaaaaa 7800 cagtctaagg atcgactaga ctacaaagtc ctgactcttg aattaaactc atcatagaga 7860 tgtcttgtca aaaattttac aagaggacct catcctacta atatgaattg tttttacatt 7920 atgtgagtcc actacctgtg ggaatcatag gactaaccta gtgatgtgta atatatgtac 7980 attgtgtaaa agagttcatg gggtatttaa acgtgtttat ttatttattt attttaatat 8040 gaaaagagtt tattttttta ttttatttac aaggagaact taccatctta gaaacaaaaa 8100 aacactatta gtatttatgt atatttataa gagtagtaat gtacgtacat caatggaagg 8160 aaatgtacta cgtggtcttt cttatgggtg agattcttcc tttcttactt ctcttcttcc 8220 gtaacaaatt ttctggataa taatcttatt cagtttaaga tacagatggt aataattcga 8280 caaactgaaa ctcgtcccta accttccgta aaatttaact ccacctctat acgtgtttcg 8340 gtgcaccctt tacagtacac agggacgtat ttctcttgtt cgataaaacg aaccaacctc 8400 tactcctctg tctccgacat gtattcttac acaagttaaa tttcgttgtt ttatatagct 8460 ggtttgatga aactcgttag ttcccctata taaccgagtg tagtgacttt atatatgacc 8520 gtgtcgtcta aaggtcaatc cagactagac gatcgagaca ggggaggtct tatgtccgag 8580 gtccgtccgt ccttccttct cctgtagtca agagaaccac agatcgtgcg acggacataa 8640 ttccatccag gagttattta agtacaacat cctttactta cgtacaagag tttctacgcc 8700 aatgaaagtc atagtgacga aaggagtacc aaaggtgaag ttataatcag attgaacgga 8760 atccctgggt tctaccgacg ataagtgaag ttaatcgatt tgtgaagaga aaagtaccga 8820 cactctctga tcgatggaga aggtatttac ttaaaagaga agaaagaccc gtgttatcag 8880 agataaaggg tcggagaaaa tgttaatcca cataggtacg ttgagtcaag atcggttacc 8940 gcacactcat catcactata ggtggtgaac gtctggatgt gtatttccga gggtctgtgt 9000 agaagacacg agaaatgacc ttgtgaacga actaaggtta tttatgtcgt tggaatcgtc 9060 gatgtataac gtcaaccgtc tcgaaagtac aaagtcgaag aagtataaaa aatcaaaaca 9120 acagtgacaa ccaaaaaaaa aattaactaa gtcctctact ggattatttt ttaacttctt 9180 tttatttcgt aaaacaagac ctaaagagta atccttgtac tccaaatgag ataacgttga 9240 ccgaatcaag tatactagta ggggactcca ctcccttttt ctacgcactt aactaattcg 9300 gttccagtgt accagcttta catcttaacc caaaactcca gtcaaaggga tttagtgggt 9360 ctataggttc acctttagtc cgaggtaact gttttccctt gtcaagaatc tttacgttga 9420 tgtttacagg ttagggtcaa ccgttcaagc ttcgttcctt cccgaaaggt aatttcttac 9480 acctacgatg gaccacccgt tgacctccgg tgaccgtata taaaaaaaac cccccccaaa 9540 gtatttgata accaaaaaaa ttaataataa tatgaaattc aaaatcccat gtacacgtgt 9600 tacacgtcca atcaatgtat acatatgcac acggtacgac cacacgacgt gggtaattga 9660 gtagtaaatc gtaatccata tagaggatta cgatagggag gggggagggg ggtggggtgt 9720 tgtcaggggt ctcacactac aaggggaagg acacaggtac acaaaagtaa caagtcaagg 9780 gtggatactc actcttgtac gccacaaacc aaaaacagga acgctatcaa atgactctta 9840 ctactaaagg ttaaagtagg tacagggatg tttcctgtac ttgagtagta aaaaataccg 9900 acgtatcata aggtaccaca tatacacggt gtaagagaat taggtcagat agtaacaacc 9960 tgtaaaccga accaaggttc agaaacgata acacttatca cggtgttatt tgtatgcata 10020 cgtacacaga aatatcgtcg tactaaatat caggaaaccc atatatgggt cattacccta 10080 ccgacccagt ttaccataaa gatcaagatc tagggactcc ttagcggtgt gactgaaggt 10140 gttaccaact tgatcaaatg tcagggtgat tgtcacattt tcacaaggat aaagaggtgt 10200 aggagagctc gtggacaaca aaggactgaa aaattactaa cggtaagatt gaccacactc 10260 taccatagag taacaccaaa actaaacgta aagagactac cggtcactac tactcgtaaa 10320 aaagtacaca aaaaaccgac gtatttacag aagaaaactc ttcacagaca agtacaggaa 10380 acgggtgaaa aactacccca acaaacaaaa aaagaacatt taaacaaact caagtaacat 10440 ctaagaccta taatcgggaa acagtctact catccaacac ttttaaaaga gggtaaaaca 10500 tccaacggac aagtgagact accatcaaag aaaacgacac gtcttcgaga agtcaaatta 10560 atctagggga aacagttaaa acagaaaaca acggtaacga aaaccacaaa atctgtactt 10620 caggaacggg tacggataca ggacttacca ttacggatcc aaaagaagat cccaaaaata 10680 ccaaaatcca gattgtaaat tcagaaatta ggtagaactt aattaaaaac atattccaca 10740 ttccttccct aggtcaaagt cgaaagaggt ataccgatcg gtcaaaaggg tcgtggtaaa 10800 taatttatcc cttaggaaag gggtaacgaa caaaaagagt ccaaacagtt tctagtctct 10860 caacatctat acaccgcaat aaagactccc gagacaagac aaggtaacta gatatagaga 10920 caaaaccatg gtcatggtac gacaaaccca atgacatcgg aacatcatat caaacttcag 10980 tccatcacac tacggaggtc gaaacaagaa aaccgaatcc taactgaacc actacgcccg 11040 agaaaaaacc acggtatact tgaaatttcg tcaaaaaagg ttaagacact tctttcagta 11100 accatcgaac tacccctacc gtaacttaga tatttaatgg aacccgtcat accggtaaaa 11160 gtgctataac taagaaggat gggtactcgt accttacaag aaggtaaaca aacataggag 11220 aaaataaagt aactcgtcac caaacatcaa gaggaacttc tcaaggaagt acagggaaca 11280 ttcaacctaa ggatccataa aataagagaa acttcgttaa cacttaccct caagtgagta 11340 ctaaaccgag agacaaacag acaacaacca catattctta cgaagactaa aaacatgtaa 11400 ctaaaaatat aggactctga aacgacttca acgaatagtc gaattcctct aaaacccgac 11460 tctgttaccc caaaagatct atatgtacag tagacgtttg tccctgttaa actaaaggag 11520 aaaaggatta acttatggga aataaaggaa gaggacggat taacgggacc ggtcttgaag 11580 gttgtggtac aacttatcct caccactctc tcccgtaggg acagaacacg gtcaaaagtt 11640 tcccttacga aggtcaaaaa cgggtaagtc atactataac cgacacccaa aaagtatcta 11700 ttgagaataa taaaactcta tgcagggtag ttatgaatta aataactctc aaaaaccgta 11760 cttctcaaca acttaaaaca gtttccggaa aagacgtaga taactctatt agtacaccaa 11820 aaacagaaac caagacaaat atacgaccta atgtaaataa ctaaacgaat ataacttggt 11880 cggaacgtag ggtccctact tcgggtgaac tagtaccacc tattcgaaaa actacacgac 11940 gacctaaacc aaactggtga ccgtataaaa ttcgtaccct cattgtgaca gtccaaaaaa 12000 tttaatgttt tacgaaatcg tatctctttt aatatttctt gttatattca ttgtctatac 12060 gtgagtgata ggacgaatta gtttacagtg tgaaacggtt cgaactaagt ttaaaaaatt 12120 tcgtttcttt gtaatgtcta taccgacgtt gtaggataca cggggtggcg actatgtatg 12180 gagagaaggg ttcccattgg tgaaagactg aaactatgaa tagtaagggt ccgtactaat 12240 ttacgataac gacttaaacg tatatatgta tttattatat atgtcaacaa acgtacaaga 12300 ttttgaaacg taatttatta tagtttatta atttttaaaa gtgtttaacg taaaaattga 12360 gtcagaaaat attctaacgg ttattactat agagaagtct agtaagtaaa actgataata 12420 taataaaaag taacatactg atacggtacc gagtgaatag gtaagacaat aactatttgt 12480 aaacacaaca aaggtgttaa aacgataatt ttattaccgt aacacttgta agaacacaca 12540 tatagtgaca catgtgtacg atctcaaaga gattacataa taccacatat aacgacccgg 12600 tttccgatac attcagaagt tgaagggatc tacagtatgg ttgagtatgt atatactggt 12660 cacactcgta agagtcacga gatgtaacag gtctaagatg tacttcgtga ccaccggata 12720 accagtccaa ctgactataa tcttccaata acggtttcag atacactctc tctgactccc 12780 agactttatg gatctacatt ccctatattt cactctctcc tttcttcaat tgtataaatc 12840 ctcgttttag gtgtactgaa acactaacta atacctcttt tattcctctt cttcccttgt 12900 ccttctgaga gttcagaggt ctaacttgtg ttctccttcg aatacacggc actctgacta 12960 ctgtttaagg aaaacttgta tcacggaaac tcccgaacca tcattttttc tttcgtgata 13020 ggtagtccgt aaacctataa atccagacct tctgactttt ctctagtttt gtcttttatg 13080 tttaatatct tagtagctct acccatttta gtcttctcaa cctagttctt ttcatggatc 13140 ttagtcatct cttcactcaa ttcttttata gagacccttt gtaattataa atttccatat 13200 attttccttc tcttctgaca cctcttctgt ctctgacttc ttcctctgtt ttacacagta 13260 tgacatcatc ggtctcctta tctcgaagtt tcttactcac cagttggtgt aatttgtgtc 13320 gatcttttgg ttcttccatt tctttacttt taatttgtaa ttgtatgtta cttcaataac 13380 tcaggtacaa ttttaccaaa gttaccttat cgtagttacc tttattaacg ttaatcattt 13440 tcttaaaatc tttttctttt ttaattatgt cgattgaaag agtttaattt aaaaaacttt 13500 tattttgtca ctctacctta agctcacgtt ctacaaacaa cttttagttg tgtgtacttt 13560 cctttctctc acttggattt ttttaaccga ggtctcagat aattacattt ctgatacaat 13620 ataacagaga gatagaaatc cctttgtata tgggttaagt agaacacagt ggtcttagtc 13680 taagtagttt gggtaagacc tggtgagact agtgatcaaa gtgggagtgt cagtatcatt 13740 tctttgattt cgttttctga tgttctcgtt tcctgtcttt ccctttacaa taaaagaggg 13800 gagtggaaac gggagaaact aaaagaggta acaacgattt tccttgtgaa tcttttgata 13860 ctttctttga agacggacat ttacgtcgag gtactaatac ttaagactta ggaacattgt 13920 cttcttggtt atcctgacta ggtactgaag ataatcatct ctgacccttc catccactga 13980 aatcgagtgg ttcggactag tgtcgtttta tcttttacta gtgtcacagg ggaaaaatag 14040 gaccccattg ttacttgtaa gtcaccctcg gttgatgaca taatttcagg acccacgtcg 14100 aggaccgtgt actgtaccgg gtgttccatc atcaagactc atgggaacgg atagtcacca 14160 cgaccccgct cttccctccc gtcggacgag tgatccctct cgtccttact ccgatccttc 14220 atgtccctgg accgtttcta cagaggacaa actctctctg aagtcaatta caagtcagtt 14280 gaaggacacc acgattcttc actttcaact tgaactgata gttccttgtc tccgtccaac 14340 aatcgacccg gggaccctcc ttcagttgtt cgaggtggtg tagactgttg tggatgacga 14400 acgtcgggaa gggggtccag tccgtcgacg tgtggagtac gaaggttgac tcccccttac 14460 ttacccatgg ttctcatcca ctcagatgaa gaaagggtcc ccactcatcg cccacttctt 14520 tagtcgtaca tcacctgtaa atgtacacgg cctatggagt atatacgtca caccatagta 14580 ataggagtga cacgtctact tctgtgactc cgagtccctg aacaagttct gtgtgtagac 14640 cagttatccc tcggtcctaa gttttagtgc agtcagatca tgagttcagg agacaagaaa 14700 ggtgctgatg taatctacat agggatctat cagatccaca ttgtcgtact cagagggtac 14760 tttccttcac ccccgagaac cttgtatgga gaaatccttc ggaaggtagt aacacgacgg 14820 aaggaggaga cacgtcggag tcgtgagtga caactcggga agagatcctc aaacgttaga 14880 tgcccctcac tacccgtgta ttcctttatt aaagttacat cataccgttt acgactcgat 14940 ctatttacgc gcttactgat acttcttgtc tcctaacccc agtggattga gttgtactct 15000 gagtaccttc agaggactcc tctttggaga ctcaggatct ctcactctta accggtcttt 15060 ttaattcttc cccgtccctt aaggtctctc ttcattgtcc atttgttttc gtttctccgt 15120 attctatcag acctcagacc agtttaatgt tagtcaacct tcatcatctc ttattttatg 15180 tttcacctct ctcccctctt catttcgact tatctatttg tcccagtcga atgtctccca 15240 ggatacgtcc gatttaaggt ctacgacgat atttttatgt cctttctttt gagtacttta 15300 taaaattcta aaaacacctt ataaaattct cgaaaacact tgtagagtac ttcgtgagga 15360 cacaaacctc cgtcgtgacc gtcgtttagt ttgtattatt ttccagacat gtagtttgta 15420 actgtgtaaa taagttgttc gtgtataact cgtggatgat acaccgtcct tgagagaagt 15480 agtcgttcat aaaaccgtga tttattttgt gtcttgtgtg gcgggagaaa ctttactgtt 15540 atttctttta ttcacttaat atataataga gtcgtctata acgtaccata tacctttcgt 15600 atagtccctt cccccacatt tcacagtact ctccttaatg ttataattat cctacaattc 15660 tgtcgaggat gacttcggta caaatttgtc tgtgaacctc ctctcctccc tcaaccgatt 15720 caactataaa ccccattccg taaggtcctt ccccctagtc ggtcaagttt cgggaccccc 15780 cacccccgac acgaaccgta taaactcctc accattcctc cggtcacacc gaccttgtct 15840 tactagtttc tttttccacc atcatttact ccagtctatt tgtcattctc tgttccctaa 15900 aaatccagta gatcttaaat ctaaaaaagg actctcccgt ctcctcggtg ctctttcgag 15960 actctactcc tactctacta gattaagtcc aaaattgacc tatcaagtct cgttctcacc 16020 cccgtccctt ggtcactcct ctgacaccgt tattagtgct tttcaccacg tcgccgaacc 16080 tggtccctca atcgtcacct tcgtctctct tcactgttgt gagacgtata ccctttccca 16140 cccgtcctct cttgtcacgg gttctactag gtcataaaac cggactcttc gacccctttt 16200 tctttgttgt tgttgttgta gtcaccttcc ccaaagtccc tcaggtccac aagaccaacg 16260 tcgaaacaaa acggaatttt tataaactca tgcattgatc attaccctaa cgacccaact 16320 taccattaag gcaaaaatca ggaaactctt taacggtgtc acgaaaggaa tcgtttgatt 16380 ccgtccttgt cttttggttt acggtgtaca agagtgaaca ttcaccctcg atttactatt 16440 cttgagtact tgtgtatctc cccttgttct ctatgactcc ggatggactc ccacctccaa 16500 ccctcctccc tctcctagtc ctttttattg attactcgtg atccgaatta tggacccact 16560 actttcatag acatattgtt tcaggacact gcactcaaag ggatccattg tttgaacgtg 16620 tacacgggga cttgaatttt attttgatat atgtatatat atgtataatc tttcttaata 16680 tgaaaactca aaattatcgt gtaaaagaca ttctaaaacg ttaaatttga agtgatataa 16740 aatatatttg ttaattctca actcaactgg aactataatg tataatgtct ataaaataat 16800 tgtagataat taaaaattaa taaactaaaa aagttttaaa gtttattata tggataaaaa 16860 gtctaaagtc cgtccggtaa cttttcgagg atcaagatta atgacaagga cattacgaaa 16920 tacttatatt gtcaggccgg aaaggagaat ctcaaacgtc agattccatc tctttatatt 16980 attttctttt acgtacttaa aaattgatta taccacaccc aagatttcga gtctatttaa 17040 taaagcaaat caagagtgtt gttgggagac tacgtccgtg ataataaagg gggtaaaatt 17100 attactcctt tgacttcgtg tctctcgaac caactgaacg ggttataatg gtgtgagaca 17160 caccgattcg accctaaact tggttctttt gagagaaggg tatccagcaa ctttttaata 17220 ctttccaatt cggtggagag acgaacacaa cggataaagg tggtacactc aggttacaca 17280 ccactgtctc ttcccatcta caaaccgtag acacttaaga cacctaacac acagtactaa 17340 gaaataaaga caggagacat aggacttaac ggtgatggga ctcgtccact attctcattt 17400 taaggtaatg taaccagaac tcccctaccc gtttgtgaaa cctgagagaa ctataagatc 17460 aataatttat aacgagtcgc attcaatctg ttacttactc tgaacaacta caaaagtaaa 17520 gttaaacaga atattactag acacgagttg tacattttgg ttatctacat tgtggaaacc 17580 ttataaagac tcatttgtac cccgtggttg agtttctcgt tctccatttt tacggatcac 17640 acctagtttt agatgagata ctgtccctta gagtacccga gacttcctaa gaccagtgta 17700 tccctcattt atcgtctgag agttaagtct cagtctacac tcaagtgtgc gttacaaaac 17760 cctgaagtag gacagaaaag ggacgagacc ctcagtattc ttaattcaag attaggatta 17820 agacaacaat agatggactc actgtgatta atctatatat tgaagagact ccgagctgta 17880 aatgtagatg tttatttctt ccgatcttat gatttcggag aagataaaga aggttaataa 17940 ctaacatagc cgagaatgag atatttacca aagaagataa aatcccttta attaataaaa 18000 caagaatacc acaacgacct ggacaacgaa aagtaacgac attaatgaag agaaacaact 18060 tctggaaacg gtctgcttta cactacccac atattccgag accgtaaaac gggtccagac 18120 atcgtgtatc ttaaggtgat tacccagacg acccgtagac tctggtgtct cggtaaacag 18180 tattgtactg ttaaggtcaa cccgtcccta tttacaatcg aaattgctaa aacctggtct 18240 caaacagatc tctctctcgt ctcatgtttc ggttttcgta gtagaaatct cgattcgtcc 18300 gtactcaagt ttagggttgg gtcggtgaat gatctataca tcggtgtcgg tggcggttca 18360 gagttaaatt tacagtgaaa gagtttgtcc ggaggatccc agagggtgca accgaatcag 18420 gtcttatgac caaataggaa tgccatattt taaataaggt agtaatacgt ggtcataaat 18480 tatttacgac tccttacacc ttgtttataa acaatttatt tttcactgaa ttaggaagag 18540 acagagtcag gagtgaagtc acttcacccg ttttcccatc ttgttcaaag gacacgtttt 18600 tcttagtcca gtttcacggg atctttatcg tttgtgacag tgttgggatc tatcgtacta 18660 atgttagact ttatttgatc aagtttttcg tttagagtct gagttcaccc cgaaaaagat 18720 caaatcttga acctcaatct tcttctttct tcccccgatt tcacacgacg cacagatcta 18780 cacggtccgt gacatgcatt atcttacagt gtgtaaatta taaacagatt ttcacacttt 18840 cacacttaaa ggtattctcc ctgtgtccaa gaaccatttt ggttccaaac gagattgaaa 18900 agtgtgtgaa accgtctgcc aaaacggaaa aagaggattc aaccttgaaa actccggtaa 18960 tgacggtcct cccttttcaa tcactacgaa tagatacaag tcttgatctt ttaccgggga 19020 agaccagggg tcaaaccggg gtaacaataa gtgtacgacg gatatttttc tgttttggag 19080 gtcttccacc ttttctactt atacgtctta cgatgtgtat ctatgagtac atccactcta 19140 ccgcttgtgt cgtctaaatc cagatggtta ttctatgatg gggtaaaccc tactgtgtgg 19200 aaggaatctt cactgtcacc gtcttgtatc tgtttccctg attaattttc atacacccaa 19260 gacgtctaac gtagacctca ttctcaggtc actagattta acatccggtt ccggagaacg 19320 aacgattgta ggagacagac ggagtcaaaa gaatggacgt tttacctagt gacttgtagt 19380 gtaaagagaa ataattaaat aagtaagtga cttcttcgtt cgacagtttt tcgttgacga 19440 tgtatacagt tctttctacg gtctacgatt ttattttatg tttttaaact aatgatgttt 19500 aacgatggta gctcctcagt atcagattac tttctctttt tgtactctca cttattactt 19560 cagtcgtttt tcaagttttc tttttattta ttttccgtat ctataatttt tacttcttca 19620 ttttgataga ataagtcttt cctatactaa tacatgcctc ttttagggtt tcttagatgt 19680 tgtagtctga gtagtcactt agatcgttct agtgacctat gtcaaatata tatttacaat 19740 agttattaac ataaagacac ggactgttgt tttttaactt ctgttgaaaa ttttgttgtt 19800 acaaatatta ctgtggcttt ttatagttta atcttcaagt acatttaaca tcaaaggttc 19860 tcgagggcga cctttaacct tcggtaacaa ctttatttaa tttcttctaa attcgtttac 19920 ctctctgaat ggtaccaata ccaagctttc tgagatgtaa cgattctacg ttaaatgagg 19980 ttttaacaga tgtctaagtt atgttaaagt caatttcaaa gactttgaaa gtaaacaaca 20040 acaacaaaaa ccttatctgt tcgactaaga cttcaaatat atgtttacgt ttcctgcatt 20100 ttgtcgattt cttttaaacg tcttctttct ttgattttct taatgtgaca gtctaaagct 20160 ctggatgatg tttcgatgct aataattgtg tcacgtataa ccatgttctt atccgtttat 20220 ctgatttctt tgtcttctgt ctcaggtctt tgacttgatg tgtatgtgct agtagactaa 20280 ataatgtttc cacggttccg ttaactcatc cttctcttgc tacaagatgc atttaccgtt 20340 ataactcata gacataccat tttttattta gaaccgatat acagtatatt atacctgttt 20400 aattaatgtt tacatcatat gtggtttaca ctttccattt tgttttattg tacaattttt 20460 ttcatatcat agaatggaac cctatcgtct ataaagaatt tgtcctgtgt tcttcacttt 20520 tccgttcggt gtcggagtga aaacagaagg agtacggaag agaagatcac accgagtcac 20580 gaatcacgtc ctctttggtc attgggactt aacgtcgaga aggaagagtg atgtacttaa 20640 gttaaaggag tagacagttt actcatatgg ttaagtatag agctttcgac aacgacactc 20700 ttagtctatt cgtattggag tgtcgaatac agataatctt gtcgtgaacc gtgtaccatt 20760 tgtgaggttt cataaacaat ttacttactt atctaatttt ccaccgtaca aaacatgatt 20820 tgacaagtta ctatcacatt ttggtaaacc agtattacgc ctttcccttc attccgcctt 20880 aaggaaatta gacacaaaat gcgtccaagg tttcctcgca ccacctctct tcctacgtct 20940 atcagaccca ctctcgatct ccgacctcag tcgtccttcc tgactccggc aaccacgaac 21000 ccctcactcc cgaggaaaga cgagacagga tccgattcaa ggggtgggta aggaagaact 21060 ctagatggag tttgtgttta gggagttaac tggtgtcccc cgcggggaag atacttaaac 21120 cgcgactatc gacactagac gggtcgtgtc accccttttg tgttttaaat gtctagtccg 21180 tacaggcccg agtctaagga tgaggtcgtg gaccaccggt tccctggggt tgacaattta 21240 tccgtaccac tacggacgaa aggttcggac aaccctttct ctctcccctc gcccctcctt 21300 accctctctc tctctctgac tcgttcgtac ggttctgaat tatatgaata taaatataat 21360 tttctttatt tatagtctac taatgttaaa ccaacttgat tctatgtgtc atcttatacc 21420 ttgattatag gttatagtgt ttcataagat cgctcggaag gatgtctttc ttaacaccca 21480 ccgacccctc atccgtaatc gatgatacac tcacgtctct tatgagtcgg aagaaggtct 21540 accactcgat ttcaagtttc tagttcagtg catgtgtgga agaaagagta gggtccagga 21600 tcagacgaac ttaagtttac cggtaggtgt ggaacggact ttatgaacgt tattaattct 21660 atgccgaaag acggacgaac cccaaaccag gtgttaaggg aattctccgg agtaaagtta 21720 atcctgagtg tgtagggaag ttgtcattaa aacacagtcc gaaccaatcg ttgagttccg 21780 agttcgtatt taccctgtct taagaaaagg aaaactttga gtggttatat cactaacatc 21840 gttgatcgat gtaacaaaaa caaaaaaaaa agggggagtt aagattcgtg atacgtttcc 21900 gaaatttcgt caccagggtt cggaaaaacc gtggtccctg gtcaaaacac cttctgttaa 21960 aacacttttc tgttttacac cttctggcac ctgaccctac caaaccccta ctaagttcgt 22020 gtaatgtaaa caacacgtga cacaaagata ataataatgt aacataatat attactttat 22080 taatatgttg agtggtatta catcttagtc accttcggga ctcgaacaaa ggacgttgat 22140 ctgtgagggt agatccccac taccctctgc cactgtccag taatccgtaa tctaagagta 22200 ttcctcgcgt gttggatcta gggagcgtac acgtcaagta ctgtcccaaa cacgacgata 22260 ctcttaaatt acggtgacga ctagactgtc ctccacctcg agtccgtcat tccactcgtt 22320 acccctcgtc gacatttatt gcgactagag tgagtgggtg acgagtggag gacgacacac 22380 cgggtcaagg attgtccggt gttttaccat ggacagacac aggggtccca acccctggtg 22440 acggaatttc cggaagtaga gtaagtcaaa agtagtttta agacacacca tccatgagag 22500 taatctgggt aaaataccca ttccttgact ccattttaac caatatattg aacggatttt 22560 attcagttca gagactactc tcccggtcct aagttcaagt tcgtcagact gaggttttag 22620 agtttcgtga agacaccatc ctttctcttt acttacctta ccgtatctca gtagatttac 22680 tgacgtcatc cttccctcgt aaagggcaca cgtcacaata aaaaaggccc gaaactttct 22740 atttatcctc gtacgtcaat tttttctctc ctcttccgta agatccgtct ttccggtcac 22800 gaatgtgtct tagagtctta acattgtcaa ggataatgtg ggaccgtctc actacggttc 22860 cgacaataac agttcgtggg aggacggagg gtcaccccaa ctcttcccca cttccctgtg 22920 accgtcttca cttcgaccct tcaaacgtga acgatcaacc ctgaacgtat cggtagaaga 22980 gttacggttt ctcctggagt cagagacaca cgcgaaacaa aaaacaacaa caacaacaac 23040 aactaaacac cgggtccgat ctcacgccac cacactagag acgagtgacg ttggaggtag 23100 agggtccaag ttccctaaga ggacggaggt ctgagggttc atcgaaccta atgtccgcgg 23160 gcggtggtgt ggacctatta aaaatatgaa aatcatcccc acctcaaagt ggcacaaccg 23220 gtccgaccag acacacacga aacctaaact ctgtgagact actaaatctc aacttttacc 23280 ctcatctaac ccactaagag atcaatagta caaatcagtt tagtctaggc acgtaagttt 23340 tagtattccg ttcaaaagga cacaccgagt cattgtagga atttctttat caagactaca 23400 ggtaggccac aaaaaagtct ttctcgcagt cccaactgtc atcgacacta cgaggtctac 23460 ctcgacgcct attgtcgtat attcaaagtc ccgtcaccaa ctccccgaca ccctcccacc 23520 cctcccttct acctactgaa aagagttggt agacataaac taaccttata acacactgaa 23580 cactttatct taatttctat actagaagaa taccagaaga gtgtcaaaag ttccctaaaa 23640 tcctcttttg cgaatcggta tgtctcgggt tggaccattc accgtcccga ccggtccagt 23700 cacgttgaag tttcagctac aacagtcact tacgaggtct acctaacgtc tcttctggtt 23760 tcaagtacag agccgtggaa agggttacat gtcccgaata acaaccctgt ctcatcacgg 23820 accggatctt caatttgtaa gtaggtcgat cgataattcc gaacttacgg aagtttcttg 23880 tcgtacctaa aaagacactt agcactcgca aaagcgttac gaattgtgcc gtcgaccatt 23940 actactaacg aggacaaagg gaaacttaaa gcacaagcaa atgaattgtc ccgtaacgat 24000 tagatcttct tccctcaccc acttcttagg gtaaacattt ctcctatcgt ccaattactt 24060 ttcttcgtct ccatacgcat ccactatcac aaagatgttc cgagccaagt taaccatact 24120 aaatttccgt tcggaaccga ccgaccagta ttattcccgg tgtattacct cccctaaatg 24180 caccgttaat ggtaccagga acgatcaccc tatgttacaa aatcccgagg gacctatgaa 24240 ttctaattac agacttagtc atcacaataa caacgttcta gaatcacact accctcggta 24300 cactccgtgc ttaaaaatag ggaatagtct tacattttat agagtatcag acgttcttgt 24360 ggtcactgat accggacttc aacgggattc tgtcaaattt gtaggacaac taacaaaaca 24420 aaaaaaaagg aaaaggaacc gttggtctta cgtacttact cagatcgcaa tgaaaacaag 24480 taggtccatt atactaactt tacccttaat atgtacaagt tagtaaatct cttcttcctg 24540 atttttagta tctggatatc gtttaattta ctaatatctc ttagatggta catttactga 24600 cgttaattcc tgaagaagta catggggccc ggtctaagtg tcgtagaccc tgtttgagag 24660 gtaccaaaaa gggagccaca taaataattc ttactactag gacttgaagt tcctctgaac 24720 cccttaaaaa cctaaggacg gtccatacat ggaccggttc taattaaacc acttagtctt 24780 caagggtcct tggtatagta ctcatgattc tcttgtttaa ctaaatagat catcatacaa 24840 agaggttgaa tctatagaca cgtttttttc acgtcgcctg taccacgtgt aaggttcttc 24900 aagaggaggt tccttcacca gttttataca ttacgaataa ataataggta aaactctggg 24960 tttaataggt cagtcaccct agttatggaa tgaggagaag gggtcttcgg agtgtttatt 25020 tcagaattgt ggtagagttg tttttattct atccctggat ctgtacctct tataccgaca 25080 gagtacctaa gattcgttag tccatctcat aactctttac aataactttg tccttcaagg 25140 acgatttcca caaccaccct aaccctacgg tcacgtctca ctgtgtcata aacctgttct 25200 tgtgtattgt gctttcacag acttaggaca agaacagata ttaccgtaga acggtaattt 25260 aggaa 25265 <210> 3 <211> 465 <212> DNA <213> Homo sapiens <400> 3 gaaaatcggg acagacaccg aagtcttatt aaaggttgcg ttggtaggtt taaaactggg 60 tgtcgcacaa tgtaaaccgt aacgccactg agtcaaggag tagaaatcac atgaggaagt 120 agttccaaag attgtcgggt caagacagga ccgaaaagaa ggacgttgac aaaagtcgaa 180 cccactcagt gaaaagagag acctggaggt aaaagagtgg gtgtagtgtc aggtcactcc 240 cgaagagagg taggattttg aaagggggac cttgagttca gagagataca acggacgttt 300 taatcgaagt cagggtatat gaaccgggct aatgggtgtc tttcatgtcg ttcgtagtag 360 taggtgtatc ccagaggttt taaccgaaag gaccttggta agtgttccgg taaagtcagt 420 ttcggggttg gaccattcac cgtcccgacc ggtccagtca cgttg 465 <210> 4 <211> 8066 <212> DNA <213> Homo sapiens <400> 4 agatttatac atatgtgtgt gtctgtgttt ctaggttatc gtaaatggag ttttgaaatc 60 gatactttat cgttatcttt gagtggtcaa atgtttgtcc aagtgtaccg atttgataaa 120 aacggggtta tgtattagtt tacttccgac acttggtttt aaaccccatc tcgtcaagag 180 taccgtcaaa cgaaaaattt ccggtatgga agggtctacg gtttctcgtg atccaggtct 240 atcgtggtgt ctttttgtag tagatattgg atgattagtc cgggttggga cgaatcttgt 300 cgtcgcatcc tcagactgat gtaccttaaa gtagaacgga agagtaagtt gtcgtttgag 360 gtctagggtt tcttatgacc ccggtccggt tcacgtcacc gattgtggac gttagagtcg 420 tgaaactctc cgactacacc ctcctggtga actcaggttc tcaatctctg gtcggacccg 480 ttgtactacc cttgaataga gaggttttta attttttttt ttttcgatcc gtactaccgt 540 acatggaaat gaggatcgat gaaccctccg actcgaccct cctagggaac tcgggtcgtc 600 aaggtccgat gtcactcggt actactgtga taacgtgagg tcggacccgt tgtcgcattc 660 taggacagag accggttttt tcccagaccg tggacgaatc ctcccgaagg ttttgaaaaa 720 gtcggagaaa tccttcggaa ggtagtaaca cgacggaagg aggagacacg tcggagtcgt 780 gagtgacaac tcgggaagag atcctcaaac gttagatgcc cctcactacc cgtgtattcc 840 tttattaaag ttacatcata ccgtttacga ctcgatctat ttacgcgctt actgatactt 900 cttgtctcct aaccccagtg gattgagttg tactctgagt accttcagag gactcctctt 960 tggagactca ggatctctca ctcttaaccg gtctttttaa ttcttccccg tcccttaagg 1020 tctctcttca ttgtccattt gttttcgttt ctccgtattc tatcagacct cagaccagtt 1080 taatgttagt caaccttcat catctcttat tttatgtttc acctctctcc cctcttcatt 1140 tcgacttatc tatttgtccc agtcgaatgt ctcccaggat acgtccgatt taaggtctac 1200 gacgatattt ttatgtcctt tcttttgagt actttataaa attctaaaaa caccttataa 1260 aattctcgaa aacacttgta gagtacttcg tgaggacaca aacctccgtc gtgaccgtcg 1320 tttagtttgt attattttcc agacatgtag tttgtaactg tgtaaataag ttgttcgtgt 1380 ataactcgtg gatgatacac cgtccttgag agaagtagtc gttcataaaa ccgtgattta 1440 ttttgtgtct tgtgtggcgg gagaaacttt actgttattt cttttattca cttaatatat 1500 aatagagtcg tctataacgt accatatacc tttcgtatag tcccttcccc cacatttcac 1560 agtactctcc ttaatgttat aattatccta caattctgtc gaggatgact tcggtacaaa 1620 tttgtctgtg aacctcctct cctccctcaa ccgattcaac tataaacccc attccgtaag 1680 gtccttcccc ctagtcggtc aagtttcggg accccccacc cccgacacga accgtataaa 1740 ctcctcacca ttcctccggt cacaccgacc ttgtcttact agtttctttt tccaccatca 1800 tttactccag tctatttgtc attctctgtt ccctaaaaat ccagtagatc ttaaatctaa 1860 aaaaggactc tcccgtctcc tcggtgctct ttcgagactc tactcctact ctactagatt 1920 aagtccaaaa ttgacctatc aagtctcgtt ctcacccccg tcccttggtc actcctctga 1980 caccgttatt agtgcttttc accacgtcgc cgaacctggt ccctcaatcg tcaccttcgt 2040 ctctcttcac tgttgtgaga cgtataccct ttcccacccg tcctctcttg tcacgggttc 2100 tactaggtca taaaaccgga ctcttcgacc cctttttctt tgttgttgtt gttgtagtca 2160 ccttccccaa agtccctcag gtccacaaga ccaacgtcga aacaaaacgg aatttttata 2220 aactcatgca ttgatcatta ccctaacgac ccaacttacc attaaggcaa aaatcaggaa 2280 actctttaac ggtgtcacga aaggaatcgt ttgattccgt ccttgtcttt tggtttacgg 2340 tgtacaagag tgaacattca ccctcgattt actattcttg agtacttgtg tatctcccct 2400 tgttctctat gactccggat ggactcccac ctccaaccct cctccctctc ctagtccttt 2460 ttattgatta ctcgtgatcc gaattatgga cccactactt tcatagacat attgtttcag 2520 gacactgcac tcaaagggat ccattgtttg aacgtgtaca cggggacttg aattttattt 2580 tgatatatgt atatatatgt ataatctttc ttaatatgaa aactcaaaat tatcgtgtaa 2640 aagacattct aaaacgttaa atttgaagtg atataaaata tatttgttaa ttctcaactc 2700 aactggaact ataatgtata atgtctataa aataattgta gataattaaa aattaataaa 2760 ctaaaaaagt tttaaagttt attatatgga taaaaagtct aaagtccgtc cggtaacttt 2820 tcgaggatca agattaatga caaggacatt acgaaatact tatattgtca ggccggaaag 2880 gagaatctca aacgtcagat tccatctctt tatattattt tcttttacgt acttaaaaat 2940 tgattatacc acacccaaga tttcgagtct atttaataaa gcaaatcaag agtgttgttg 3000 ggagactacg tccgtgataa taaagggggt aaaattatta ctcctttgac ttcgtgtctc 3060 tcgaaccaac tgaacgggtt ataatggtgt gagacacacc gattcgaccc taaacttggt 3120 tcttttgaga gaagggtatc cagcaacttt ttaatacttt ccaattcggt ggagagacga 3180 acacaacgga taaaggtggt acactcaggt tacacaccac tgtctcttcc catctacaaa 3240 ccgtagacac ttaagacacc taacacacag tactaagaaa taaagacagg agacatagga 3300 cttaacggtg atgggactcg tccactattc tcattttaag gtaatgtaac cagaactccc 3360 ctacccgttt gtgaaacctg agagaactat aagatcaata atttataacg agtcgcattc 3420 aatctgttac ttactctgaa caactacaaa agtaaagtta aacagaatat tactagacac 3480 gagttgtaca ttttggttat ctacattgtg gaaaccttat aaagactcat ttgtaccccg 3540 tggttgagtt tctcgttctc catttttacg gatcacacct agttttagat gagatactgt 3600 cccttagagt acccgagact tcctaagacc agtgtatccc tcatttatcg tctgagagtt 3660 aagtctcagt ctacactcaa gtgtgcgtta caaaaccctg aagtaggaca gaaaagggac 3720 gagaccctca gtattcttaa ttcaagatta ggattaagac aacaatagat ggactcactg 3780 tgattaatct atatattgaa gagactccga gctgtaaatg tagatgttta tttcttccga 3840 tcttatgatt tcggagaaga taaagaaggt taataactaa catagccgag aatgagatat 3900 ttaccaaaga agataaaatc cctttaatta ataaaacaag aataccacaa cgacctggac 3960 aacgaaaagt aacgacatta atgaagagaa acaacttctg gaaacggtct gctttacact 4020 acccacatat tccgagaccg taaaacgggt ccagacatcg tgtatcttaa ggtgattacc 4080 cagacgaccc gtagactctg gtgtctcggt aaacagtatt gtactgttaa ggtcaacccg 4140 tccctattta caatcgaaat tgctaaaacc tggtctcaaa cagatctctc tctcgtctca 4200 tgtttcggtt ttcgtagtag aaatctcgat tcgtccgtac tcaagtttag ggttgggtcg 4260 gtgaatgatc tatacatcgg tgtcggtggc ggttcagagt taaatttaca gtgaaagagt 4320 ttgtccggag gatcccagag ggtgcaaccg aatcaggtct tatgaccaaa taggaatgcc 4380 atattttaaa taaggtagta atacgtggtc ataaattatt tacgactcct tacaccttgt 4440 ttataaacaa tttatttttc actgaattag gaagagacag agtcaggagt gaagtcactt 4500 cacccgtttt cccatcttgt tcaaaggaca cgtttttctt agtccagttt cacgggatct 4560 ttatcgtttg tgacagtgtt gggatctatc gtactaatgt tagactttat ttgatcaagt 4620 ttttcgttta gagtctgagt tcaccccgaa aaagatcaaa tcttgaacct caatcttctt 4680 ctttcttccc ccgatttcac acgacgcaca gatctacacg gtccgtgaca tgcattatct 4740 tacagtgtgt aaattataaa cagattttca cactttcaca cttaaaggta ttctccctgt 4800 gtccaagaac cattttggtt ccaaacgaga ttgaaaagtg tgtgaaaccg tctgccaaaa 4860 cggaaaaaga ggattcaacc ttgaaaactc cggtaatgac ggtcctccct tttcaatcac 4920 tacgaataga tacaagtctt gatcttttac cggggaagac caggggtcaa accggggtaa 4980 caataagtgt acgacggata tttttctgtt ttggaggtct tccacctttt ctacttatac 5040 gtcttacgat gtgtatctat gagtacatcc actctaccgc ttgtgtcgtc taaatccaga 5100 tggttattct atgatggggt aaaccctact gtgtggaagg aatcttcact gtcaccgtct 5160 tgtatctgtt tccctgatta attttcatac acccaagacg tctaacgtag acctcattct 5220 caggtcacta gatttaacat ccggttccgg agaacgaacg attgtaggag acagacggag 5280 tcaaaagaat ggacgtttta cctagtgact tgtagtgtaa agagaaataa ttaaataagt 5340 aagtgacttc ttcgttcgac agtttttcgt tgacgatgta tacagttctt tctacggtct 5400 acgattttat tttatgtttt taaactaatg atgtttaacg atggtagctc ctcagtatca 5460 gattactttc tctttttgta ctctcactta ttacttcagt cgtttttcaa gttttctttt 5520 tatttatttt ccgtatctat aatttttact tcttcatttt gatagaataa gtctttccta 5580 tactaataca tgcctctttt agggtttctt agatgttgta gtctgagtag tcacttagat 5640 cgttctagtg acctatgtca aatatatatt tacaatagtt attaacataa agacacggac 5700 tgttgttttt taacttctgt tgaaaatttt gttgttacaa atattactgt ggctttttat 5760 agtttaatct tcaagtacat ttaacatcaa aggttctcga gggcgacctt taaccttcgg 5820 taacaacttt atttaatttc ttctaaattc gtttacctct ctgaatggta ccaataccaa 5880 gctttctgag atgtaacgat tctacgttaa atgaggtttt aacagatgtc taagttatgt 5940 taaagtcaat ttcaaagact ttgaaagtaa acaacaacaa caaaaacctt atctgttcga 6000 ctaagacttc aaatatatgt ttacgtttcc tgcattttgt cgatttcttt taaacgtctt 6060 ctttctttga ttttcttaat gtgacagtct aaagctctgg atgatgtttc gatgctaata 6120 attgtgtcac gtataaccat gttcttatcc gtttatctga tttctttgtc ttctgtctca 6180 ggtctttgac ttgatgtgta tgtgctagta gactaaataa tgtttccacg gttccgttaa 6240 ctcatccttc tcttgctaca agatgcattt accgttataa ctcatagaca taccattttt 6300 tatttagaac cgatatacag tatattatac ctgtttaatt aatgtttaca tcatatgtgg 6360 tttacacttt ccattttgtt ttattgtaca atttttttca tatcatagaa tggaacccta 6420 tcgtctataa agaatttgtc ctgtgttctt cacttttccg ttcggtgtcg ggttggacca 6480 ttcaccgtcc cgaccggtcc agtcacgttg aagtttcagc tacaacagtc acttacgagg 6540 tctacctaac gtctcttctg gtttcaagta cagagccgtg gaaagggtta catgtcccga 6600 ataacaaccc tgtctcatca cggaccggat cttcaatttg taagtaggtc gatcgataat 6660 tccgaactta cggaagtttc ttgtcgtacc taaaaagaca cttagcactc gcaaaagcgt 6720 tacgaattgt gccgtcgacc attactacta acgaggacaa agggaaactt aaagcacaag 6780 caaatgaatt gtcccgtaac gattagatct tcttccctca cccacttctt agggtaaaca 6840 tttctcctat cgtccaatta cttttcttcg tctccatacg catccactat cacaaagatg 6900 ttccgagcca agttaccata ctaaatttcc gttcggaacc gaccgaccag tattattccc 6960 ggtgtattac ctcccctaaa tgcaccgtta atggtaccag gaacgatcac cctatgttac 7020 aaaatcccga gggacctatg aattctaatt acagacttag tcatcacaat aacaacgttc 7080 tagaatcaca ctaccctcgg tacactccgt gcttaaaaat agggaatagt cttacatttt 7140 atagagtatc agacgttctt gtggtcactg ataccggact tcaacgggat tctgtcaaat 7200 ttgtaggaca actaacaaaa caaaaaaaag gaaaaggaac cgttggtctt acgtacttac 7260 tcagatcgca atgaaaacaa gtaggtccat tatactaact ttacccttaa tatgtacaag 7320 ttagtaaatc tcttcttcct gatttttagt atctggatat cgtttaattt actaatatct 7380 cttagatggt acatttactg acgttaattc ctgaagaagt acatggggcc cggtctaagt 7440 gtcgtagacc ctgtttgaga ggtaccaaaa agggagccac ataaataatt cttactacta 7500 ggacttgaag ttcctctgaa ccccttaaaa acctaaggac ggtccataca tggaccggtt 7560 ctaattaaac cacttagtct tcaagggtcc ttggtatagt actcatgatt ctcttgttta 7620 actaaataga tcatcataca aagaggttga atctatagac acgttttttt cacgtcgcct 7680 gtaccacgtg taaggttctt caagaggagg ttccttcacc agttttatac attacgaata 7740 aataataggt aaaactctgg gtttaatagg tcagtcaccc tagttatgga atgaggagaa 7800 ggggtcttcg gagtgtttat ttcagaattg tggtagagtt gtttttattc tatccctgga 7860 tctgtacctc ttataccgac agagtaccta agattcgtta gtccatctca taactcttta 7920 caataacttt gtccttcaag gacgatttcc acaaccaccc taaccctacg gtcacgtctc 7980 actgtgtcat aaacctgttc ttgtgtattg tgctttcaca gacttaggac aagaacagat 8040 attaccgtag aacggtaatt taggaa 8066 <210> 5 <211> 1824 <212> DNA <213> Homo sapiens <400> 5 ttctatcact caccgttttg gatcgtactt cgggtctcat acaccgagac gcaatcataa 60 agagtgtcgg gtgacattac tgacagtcca acgaaaattc taatactttc aggatataac 120 ttaacagtaa gcttaactct ggaacttcag acttctgcct taatgaaccc ttcttcgtag 180 tgtcatagaa tcttctcaca gggaggtact tcgtctaaac cccagagtaa ggcaaagaca 240 tgaatgtcat tacctggtac aatccgttca gtaaattgtg taaacctggg gtcgaaggtt 300 tagatatgtt accttccata ttaacctctc tcatatttcg gaaatcacgg gtgaaatgaa 360 ctctctaaaa gtctcgtcag ttactctgaa atctttattt tcacttgaat tttgtatttc 420 acgaaatatt tggggtcgta acggacttcg ggactctaac gaactaccgg gtaacgcata 480 taagtgtccg tgacggggtt gaccgggaat gatgttgaga tctttactgt ccgtaagtaa 540 gaaggttagg tgtctactcc gttgatgctt cacaataaaa attggggagt aaaaaattcc 600 tctttttgac tcgaactcgt gtaatttttt acaccgggtc tcagttatac catatacaac 660 tggaacctta agctcttttc agaagacagt gttctcgtct tcggtgtttg agtttatgaa 720 aatcccaata caatggttaa caccttgtgt acacgtactt tactcgactc attctacggt 780 ttactggacc ataacctctc cgttatccct caccaccccg gacatcgttt gatctctctc 840 gtaccgagtc aattttctct caccgtcgtt gagttgaggt cggttaacaa cggtatgtta 900 taattcgggt ccctaaagtc ttgaagatcg atctttttat ctccgatcta tacatataag 960 gacaagtttt aacggagtta atcttctata atcgttcatt aagtttacgt tatgtgaaaa 1020 cataatagtg atatgaccag gtggattatt cccctgtcaa acgaaggacg agagtgtttc 1080 acaaagtctg attcaatact ggtgaattca tacgtttctg ttttgtcaca tagtcattac 1140 gtcactaaca ctcgtacatg aagtctttgt ttactagacc caagtttagg accacaactg 1200 taattcatca aattattgga gcccgttcag tgaactgaag agatatggag tcaaagggat 1260 agacatttta ccttcattat tctcatgaat gaggaaagtc accaacactg atagtttact 1320 taactgtatc cattttgtta atcttgtcaa ggactgtgtg ccattctcag tacatttata 1380 gttacgaata ctttcgagag tagggtccta ttcgtagagg atcttttgta gaagcaggta 1440 catggtctaa ttagtataaa taagacgtca actataaata cggtgtacaa gaaagaccca 1500 tctcttcgga cttcaataag acaaatagga ctggaacctt ttctgtttcg tcgagtacag 1560 gggtccctag atttttaaag tgacccttac tagtgggtca cagaggtttt ggagtcggtc 1620 gtaaagagat aagtgtcgac gtgacttctc gaaggaagga ccgaacacag aggttttccc 1680 ctatgctacc gttccaacaa ataatgagag tccgactaca ccggcccctc tacaccttaa 1740 cacatcttac cttacgctac cttatacttt accacacctt atgtggttgg accattcacc 1800 gtcccgaccg gtccagtcac gttg 1824 <210> 6 <211> 11053 <212> DNA <213> Homo sapiens <400> 6 actgtttatt tagtttaaac cctacggagt tgtgttcttt ataaaaatac atagtaatac 60 attgtcaggt ccctccgact tttatctcac atacaacgtc cattctttaa aacgagacgt 120 cagtaagtcc ttaacttcga ctatcactaa gacggtagaa cttgtacacc gtagcgacag 180 acagacctcc cacggtagtg tcagtcaaac ctgtcgtgga acttacgata gtcccttcga 240 tctcacaaga ggacaagaaa cgacaggaac ggtcacagaa gaggacttga gtgtagtctt 300 cgtacgtcat tcgtccacca tggtcgtccc aagattgggt ccgtgaggtt aagattccag 360 ttgaaacaat cacaatagat tttttctttt cgttattatt taataggtgt tcttttaaaa 420 tgttgagttc aaaaagtatg agaaattttt ccgtaaaaaa gtgtacatga gagtacaaga 480 tactaatctg gattagtaac agtgaagtgc cgatctcttt gattctggtc ttctcgaagg 540 tctagaactg atcgtggtga gttactcacc ctactggtct tgggacatga ctagtacgtt 600 tgaagtggtg tattgtcgaa cactataact cactcaacaa agtggatatg ctggggagat 660 ttggttaaat aattagatct tttaccctta ttatcgttaa agatacatta ttcaacaacc 720 tcgtgttcta tttcaatata catattttgt aaatcgtgtc aaggaccacg tattgtccag 780 acatcattta taaacaacat taatcgtcgt tttagtagag ggagtaatga cgtcaactaa 840 aaggaaataa taacctttct ttaaagagtt gactcaaagt caacttatgt cataatctaa 900 taaggaattg actcaaagtc gtaaaattta catatgaggg atgagttttg atggatgatt 960 tagtgcggac attaaggtcg tgagaccgtc cggttccgcc cacctagtac tccagtcctc 1020 tagttctggt aggaccgatt gtgctacttt ggggtagaga tgatttttta cgttttttta 1080 atcggtccgc accaccgacc gtggacatca gggtcgatga accctccgac tccgtcctct 1140 taccacactt gggccctccg tctcgaacgt cacccggctc tagcacggtg acgtggtgtc 1200 ggacccgctg tctcactctg aggcagagtt tttgtttgtt tttttgtgtt tttagatgga 1260 tgatttttct tcaagaagtt acgaatctga aactcgtttc tttttcagac gagattgtcc 1320 ttcgaccact atatctttcc atttcaaagt gaagtgtccg tgaaactaaa gggaagctcc 1380 acctatgact tactaaacac acacgcgtgt aaaaagatac gtaataagtt ttaattttaa 1440 ggaatctcct ttggtgactt tcggttagta aatgttttga aatttttact gtagaacttc 1500 tcaagaaacc acgagtaagt agtttgaatc gttactaaat tgacattaag aaataagtct 1560 aagtagaggg tgttttattt ttacggtatt tcgaaatgtc atgacatagg attacttatc 1620 tctttgattt ctttttcatt ctactcgttc actctccttt tgggctttta ctcggacagg 1680 accgtacaaa gatttttctt tctttgtttg tttgttcgtc ggggaggaga gtcgagaacc 1740 ctttctttat aacttagaac tgttatagac gtgaagtatc aactaagtat cgtactggat 1800 agagtttgtt aaattctaag tttacttcaa acgttaatta gaaagctata gtgaaacgtt 1860 ttgtaagagt attggaatag gtcgggaaaa tgtttagtta ggacactcca cttgtagtga 1920 cacaagggta aaatgtctct ttccgtgact cggtgtctct ccaatatatg agtactagtt 1980 attcgaccat tctgattctt ggtccttact atgacagaag gaagaggttt ataggacaag 2040 aaataatact catggatttg tcataatttt taattaatgt cgagttgtta tcattcattt 2100 acaggagtac actttaggtg gcaaattttg aattccaata gataaatagt ttatttaatt 2160 taggatgagt gaattgttat aagtaactcg agtaagacat ttgttggtaa tccggtcccc 2220 gtctatactt tatactccga gttagacact agtgtctcta ctttatatgt taaatctctc 2280 tctttctatt cgtactactg tttatttatt acatactttt aatcggtaat agaatccggt 2340 tgaaaaagat tcgacattcg acagacggat gaagacggtc cacaatcatt aacaaaattt 2400 ttcaccccct tcttctcatg aagtaccacc cttctataag taactcctgt attcgtagaa 2460 ggagaatctt taattgttac gtgtcaccgg ataacgttca aaactttcgg gacgtttgtt 2520 attttcggac taatcaaaaa taacttagtc atagaggatt tgtgaaaaag tactttgttc 2580 caatgagtgt ttagaacagc tccttgatta caggatcctt tcaccaaaag ttcgaactcg 2640 tacatgtatt catagtaacc tttccaacgt ttttatgttt acacacccga ggtgaggtct 2700 ttaagactaa cttcaccaga gtagacagta gactcttgaa cgtaaaaaca gtctaaggat 2760 cgactagact acaaagtcct gactcttgaa ttaaactcat catagagatg tcttgtcaaa 2820 aattttacaa gaggacctca tcctactaat atgaattgtt tttacattat gtgagtccac 2880 tacctgtggg aatcatagga ctaacctagt gatgtgtaat atatgtacat tgtgtaaaag 2940 agttcatggg gtatttaaac gtgtttattt atttatttat tttaatatga aaagagttta 3000 tttttttatt ttatttacaa ggagaactta ccatcttaga aacaaaaaaa cactattagt 3060 atttatgtat atttataaga gtagtaatgt acgtacatca atggaaggaa atgtactacg 3120 tggtctttct tatgggtgag attcttcctt tcttacttct cttcttccgt aacaaatttt 3180 ctggataata atcttattca gtttaagata cagatggtaa taattcgaca aactgaaact 3240 cgtccctaac cttccgtaaa atttaactcc acctctatac gtgtttcggt gcacccttta 3300 cagtacacag ggacgtattt ctcttgttcg ataaaacgaa ccaacctcta ctcctctgtc 3360 tccgacatgt attcttacac aagttaaatt tcgttgtttt atatagctgg tttgatgaaa 3420 ctcgttagtt cccctatata accgagtgta gtgactttat atatgaccgt gtcgtctaaa 3480 ggtcaatcca gactagacga tcgagacagg ggaggtctta tgtccgaggt ccgtccgtcc 3540 ttccttctcc tgtagtcaag agaaccacag atcgtgcgac ggacataatt ccatccagga 3600 gttatttaag tacaacatcc tttacttacg tacaagagtt tctacgccaa tgaaagtcat 3660 agtgacgaaa ggagtaccaa aggtgaagtt ataatcagat tgaacggaat ccctgggttc 3720 taccgacgat aagtgaagtt aatcgatttg tgaagagaaa agtaccgaca ctctctgatc 3780 gatggagaag gtatttactt aaaagagaag aaagacccgt gttatcagag ataaagggtc 3840 ggagaaaatg ttaatccaca taggtacgtt gagtcaagat cggttaccgc acactcatca 3900 tcactatagg tggtgaacgt ctggatgtgt atttccgagg gtctgtgtag aagacacgag 3960 aaatgacctt gtgaacgaac taaggttatt tatgtcgttg gaatcgtcga tgtataacgt 4020 caaccgtctc gaaagtacaa agtcgaagaa gtataaaaaa tcaaaacaac agtgacaacc 4080 aaaaaaaaaa ttaactaagt cctctactgg attatttttt aacttctttt tatttcgtaa 4140 aacaagacct aaagagtaat ccttgtactc caaatgagat aacgttgacc gaatcaagta 4200 tactagtagg ggactccact ccctttttct acgcacttaa ctaattcggt tccagtgtac 4260 cagctttaca tcttaaccca aaactccagt caaagggatt tagtgggtct ataggttcac 4320 ctttagtccg aggtaactgt tttcccttgt caagaatctt tacgttgatg tttacaggtt 4380 agggtcaacc gttcaagctt cgttccttcc cgaaaggtaa tttcttacac ctacgatgga 4440 ccacccgttg acctccggtg accgtatata aaaaaaaccc cccccaaagt atttgataac 4500 caaaaaaatt aataataata tgaaattcaa aatcccatgt acacgtgtta cacgtccaat 4560 caatgtatac atatgcacac ggtacgacca cacgacgtgg gtaattgagt agtaaatcgt 4620 aatccatata gaggattacg atagggaggg gggagggggg tggggtgttg tcaggggtct 4680 cacactacaa ggggaaggac acaggtacac aaaagtaaca agtcaagggt ggatactcac 4740 tcttgtacgc cacaaaccaa aaacaggaac gctatcaaat gactcttact actaaaggtt 4800 aaagtaggta cagggatgtt tcctgtactt gagtagtaaa aaataccgac gtatcataag 4860 gtaccacata tacacggtgt aagagaatta ggtcagatag taacaacctg taaaccgaac 4920 caaggttcag aaacgataac acttatcacg gtgttatttg tatgcatacg tacacagaaa 4980 tatcgtcgta ctaaatatca ggaaacccat atatgggtca ttaccctacc gacccagttt 5040 accataaaga tcaagatcta gggactcctt agcggtgtga ctgaaggtgt taccaacttg 5100 atcaaatgtc agggtgattg tcacattttc acaaggataa agaggtgtag gagagctcgt 5160 ggacaacaaa ggactgaaaa attactaacg gtaagattga ccacactcta ccatagagta 5220 acaccaaaac taaacgtaaa gagactaccg gtcactacta ctcgtaaaaa agtacacaaa 5280 aaaccgacgt atttacagaa gaaaactctt cacagacaag tacaggaaac gggtgaaaaa 5340 ctaccccaac aaacaaaaaa agaacattta aacaaactca agtaacatct aagacctata 5400 atcgggaaac agtctactca tccaacactt ttaaaagagg gtaaaacatc caacggacaa 5460 gtgagactac catcaaagaa aacgacacgt cttcgagaag tcaaattaat ctaggggaaa 5520 cagttaaaac agaaaacaac ggtaacgaaa accacaaaat ctgtacttca ggaacgggta 5580 cggatacagg acttaccatt acggatccaa aagaagatcc caaaaatacc aaaatccaga 5640 ttgtaaattc agaaattagg tagaacttaa ttaaaaacat attccacatt ccttccctag 5700 gtcaaagtcg aaagaggtat accgatcggt caaaagggtc gtggtaaata atttatccct 5760 taggaaaggg gtaacgaaca aaaagagtcc aaacagtttc tagtctctca acatctatac 5820 accgcaataa agactcccga gacaagacaa ggtaactaga tatagagaca aaaccatggt 5880 catggtacga caaacccaat gacatcggaa catcatatca aacttcagtc catcacacta 5940 cggaggtcga aacaagaaaa ccgaatccta actgaaccac tacgcccgag aaaaaaccac 6000 ggtatacttg aaatttcgtc aaaaaaggtt aagacacttc tttcagtaac catcgaacta 6060 cccctaccgt aacttagata tttaatggaa cccgtcatac cggtaaaagt gctataacta 6120 agaaggatgg gtactcgtac cttacaagaa ggtaaacaaa cataggagaa aataaagtaa 6180 ctcgtcacca aacatcaaga ggaacttctc aaggaagtac agggaacatt caacctaagg 6240 atccataaaa taagagaaac ttcgttaaca cttaccctca agtgagtact aaaccgagag 6300 acaaacagac aacaaccaca tattcttacg aagactaaaa acatgtaact aaaaatatag 6360 gactctgaaa cgacttcaac gaatagtcga attcctctaa aacccgactc tgttacccca 6420 aaagatctat atgtacagta gacgtttgtc cctgttaaac taaaggagaa aaggattaac 6480 ttatgggaaa taaaggaaga ggacggatta acgggaccgg tcttgaaggt tgtggtacaa 6540 cttatcctca ccactctctc ccgtagggac agaacacggt caaaagtttc ccttacgaag 6600 gtcaaaaacg ggtaagtcat actataaccg acacccaaaa agtatctatt gagaataata 6660 aaactctatg cagggtagtt atgaattaaa taactctcaa aaaccgtact tctcaacaac 6720 ttaaaacagt ttccggaaaa gacgtagata actctattag tacaccaaaa acagaaacca 6780 agacaaatat acgacctaat gtaaataact aaacgaatat aacttggtcg gaacgtaggg 6840 tccctacttc gggtgaacta gtaccaccta ttcgaaaaac tacacgacga cctaaaccaa 6900 actggtgacc gtataaaatt cgtaccctca ttgtgacagt ccaaaaaatt taatgtttta 6960 cgaaatcgta tctcttttaa tatttcttgt tatattcatt gtctatacgt gagtgatagg 7020 acgaattagt ttacagtgtg aaacggttcg aactaagttt aaaaaatttc gtttctttgt 7080 aatgtctata ccgacgttgt aggatacacg gggtggcgac tatgtatgga gagaagggtt 7140 cccattggtg aaagactgaa actatgaata gtaagggtcc gtactaattt acgataacga 7200 cttaaacgta tatatgtatt tattatatat gtcaacaaac gtacaagatt ttgaaacgta 7260 atttattata gtttattaat ttttaaaagt gtttaacgta aaaattgagt cagaaaatat 7320 tctaacggtt attactatag agaagtctag taagtaaaac tgataatata ataaaaagta 7380 acatactgat acggtaccga gtgaataggt aagacaataa ctatttgtaa acacaacaaa 7440 ggtgttaaaa cgataatttt attaccgtaa cacttgtaag aacacacata tagtgacaca 7500 tgtgtacgat ctcaaagaga ttacataata ccacatataa cgacccggtt tccgatacat 7560 tcagaagttg aagggatcta cagtatggtt gagtatgtat atactggtca cactcgtaag 7620 agtcacgaga tgtaacaggt ctaagatgta cttcgtgacc accggataac cagtccaact 7680 gactataatc ttccaataac ggtttcagat acactctctc tgactcccag actttatgga 7740 tctacattcc ctatatttca ctctctcctt tcttcaattg tataaatcct cgttttaggt 7800 gtactgaaac actaactaat acctctttta ttcctcttct tcccttgtcc ttctgagagt 7860 tcagaggtct aacttgtgtt ctccttcgaa tacacggcac tctgactact gtttaaggaa 7920 aacttgtatc acggaaactc ccgaaccatc attttttctt tcgtgatagg tagtccgtaa 7980 acctataaat ccagaccttc tgacttttct ctagttttgt cttttatgtt taatatctta 8040 gtagctctac ccattttagt cttctcaacc tagttctttt catggatctt agtcatctct 8100 tcactcaatt cttttataga gaccctttgt aattataaat ttccatatat tttccttctc 8160 ttctgacacc tcttctgtct ctgacttctt cctctgtttt acacagtatg acatcatcgg 8220 tctccttatc tcgaagtttc ttactcacca gttggtgtaa tttgtgtcga tcttttggtt 8280 cttccatttc tttactttta atttgtaatt gtatgttact tcaataactc aggtacaatt 8340 ttaccaaagt taccttatcg tagttacctt tattaacgtt aatcattttc ttaaaatctt 8400 tttctttttt aattatgtcg attgaaagag tttaatttaa aaaactttta ttttgtcact 8460 ctaccttaag ctcacgttct acaaacaact tttagttgtg tgtactttcc tttctctcac 8520 ttggattttt ttaaccgagg tctcagataa ttacatttct gatacaatat aacagagaga 8580 tagaaatccc tttgtatatg ggttaagtag aacacagtgg tcttagtcta agtagtttgg 8640 gtaagacctg gtgagactag tgatcaaagt gggagtgtca gtatcatttc tttgatttcg 8700 ttttctgatg ttctcgtttc ctgtctttcc ctttacaata aaagagggga gtggaaacgg 8760 gagaaactaa aagaggtaac aacgattttc cttgtgaatc ttttgatact ttctttgaag 8820 acggacattt acgtcgaggt actaatactt aagacttagg aacattgtct tcttggttat 8880 cctgactagg tactgaagat aatcatctct gacccttcca tccactgaaa tcgagtggtt 8940 cggactagtg tcgttttatc ttttactagt gtcacagggg aaaaatagga ccccattgtt 9000 acttgtaagt caccctcggt tgatgacata atttcaggac ccacgtcgag gaccgtgtac 9060 tgtaccgggt gttccatcat caagactcat gggaacggat agtcaccacg accccgctct 9120 tccctcccgt cggacgagtg atccctctcg tccttactcc gatccttcat gtccctggac 9180 cgtttctaca gaggacaaac tctctctgaa gtcaattaca agtcagttga aggacaccac 9240 gattcttcac tttcaacttg aactgatagt tccttgtctc cgtccaacaa tcgacccggg 9300 gaccctcctt cagttgttcg aggtggtgta gactgttgtg gatgacgaac gtcgggaagg 9360 gggtccagtc cgtcgacgtg tggagtacga aggttgactc ccccttactt acccatggtt 9420 ctcatccact cagatgaaga aagggtcccc actcatcgcc cacttcttta gtcgtacatc 9480 acctgtaaat gtacacggcc tatggagtat atacgtcaca ccatagtaat aggagtgaca 9540 cgtctacttc tgtgactccg agtccctgaa caagttctgt gtgtagacca gttatccctc 9600 ggtcctaagt tttagtgcag tcagatcatg agttcaggag acaagaaagg tgctgatgta 9660 atctacatag ggatctatca gatccacatt gtcgtactca gagggtactt tccttcaccc 9720 ccgagaacct tgtatggaga aatccttcgg aaggtagtaa cacgacggaa ggaggagaca 9780 cgtcggagtc gtgagtgaca actcgggaag agatcctcaa acgttagaac cctatcgtct 9840 ataaagaatt tgtcctgtgt tcttcacttt tccgttcggt gtcgggttgg accattcacc 9900 gtcccgaccg gtccagtcac gttgaagttc agctacaaca gtcacttacg aggtctacct 9960 aacgtctctt ctggtttcaa gtacagagcc gtggaaaggg ttacatgtcc cgaataacaa 10020 ccctgtctca tcacggaccg gactgaaagc ggttttcgta cgtgtcttgc accttgaacc 10080 ggaggacttt tccgcacaga agtcgaatcc aataaggaaa gagctacgag tggtactaca 10140 gtccgaggat catcctctcg gtaattattg aagccactga accgtaaact acccgttaga 10200 accggtagga tttcgtaagg tacggtagtc tatatgggac gtaacggtac tcgaaatagt 10260 aaccgaaaat cttgtagtag gagggtgaaa cttatttacc agatcgtctg ttatgtcagg 10320 aacacggtcc gttgtaagac ctacgaaata catgtaatcg agtaacttag taaagttaag 10380 ttagtaagtt gcgtccccaa acttagaatc gacaaactcc agtaacaggt acgtgagtgg 10440 atattgtaac aagacagaga aagacgttta cattctattt ttataatgga agtaagatct 10500 tttgtgggga aacatcttat ccaaatatgg aagtccgtac acctgaaagg ttaggtttga 10560 ggtcctcatc tgtctatggg tggtcctgat ccgttacgtc cttttagagt ccgaagtcga 10620 tcctgacaaa gtatgttaaa ggacgtaccg gtccttgttc ccacttccgt acgtgagaca 10680 ctcgtcgggt aaacacctgt cacccagtac cctgacttcc ttggtacaat gtgtacggac 10740 tcaaaagaaa ggttcgagtc tttggtatag cttgtgggga gggaacccct cttcactcac 10800 tcgtccacct ctctgctatc attacaatca taccaccttg aagaaggggt atctaccttt 10860 gtgactcccg attcttcttc ccggagagga ggttgtacac aatagatcgt tccgaccaag 10920 ataaattctt actatatatc agatcacatt atcttatgtt atacggatcg agattttaat 10980 acaacctttt tttagttgta atgctacacg atataagtca gttactcatt tataaagaca 11040 cggacggtgt acg 11053 <210> 7 <211> 1166 <212> DNA <213> Homo sapiens <400> 7 cgtcgttacg gatctttact accaagaagt ttaggttcac tattgggtat cattgattga 60 gtaatcgaat caagacggca tttcagtctt gtttcgttcc tctttgtctt ggagacgtca 120 cttacctcct taaagactcc cagtgaactt tcgtctttga gttctcgggt tggaccattc 180 accgtcccga ccggtccagt cacgttgaag ttcagctaca acagtcactt acgaggtcta 240 cctaacgtct cttctggttt caagtacaga gccgtggaaa gggttacatg tcccgaataa 300 caaccctgtc tcatcacgga ccggactgaa agcggttttc gtacgtgtct tgcaccttga 360 accggaggac ttttccgcac agaagtcgaa tccaataagg aaagagctac gagtggtact 420 acagtccgag gatcatcctc tcggtaatta ttgaagccac tgaaccgtaa actacccgtt 480 agaaccggta ggatttcgta aggtacggta gtctatatgg gacgtaacgg tactcgaaat 540 agtaaccgaa aatcttgtag taggagggtg aaacttattt accagatcgt ctgttatgtc 600 aggatattgt aacaagacag agaaagacgt ttacattcta tttttataat ggaagtaaga 660 tcttttgtgg ggaaacatct tatccaaata tggaagtccg tacacctgaa aggttaggtt 720 tgaggtcctc atctgtctat gggtggtcct gatccgttac gtccttttag agtccgaagt 780 cgatcctgac aaagtatgtt aaaggacgta ccggtccttg ttcccacttc cgtacgtgag 840 acactcgtcg ggtaaacacc tgtcacccag taccctgact tccttggtac aatgtgtacg 900 gactcaaaag aaaggttcga gtctttggta tagcttgtgg ggagggaacc cctcttcact 960 cactcgtcca cctctctgct atcattacaa tcataccacc ttgaagaagg ggtatctacc 1020 tttgtgactc ccgattcttc ttcccggaga ggaggttgta cacaatagat cgttccgacc 1080 aagataaatt cttactatat atcagatcac attatcttat gttatacgga tcgagatttt 1140 aatacaacct ttttttagtt gtaatg 1166 <210> 8 <211> 4103 <212> DNA <213> Homo sapiens <400> 8 tgaaaacaga aggagtacgg aagagaagat cacaccgagt cacgaatcac gtcctctttg 60 gtcattggga cttaacgtcg agaaggaaag tgatgtactt aagttaaagg agtagacagt 120 ttactcatat ggttaagtat agagctttcg acaacgacac tcttagtcta ttcgtattgg 180 agtgtcgaat acagataatc ttgtcgtgaa ccgtgtacca tttgtgaggt ttcataaaca 240 atttacttac ttatctaatt ttccaccgta caaaacatga tttgacaagt tactatcaca 300 ttttggtaaa ccagtattac gcctttccct tcattccgcc ttaaggaaat tagacacaaa 360 atgcgtccaa ggtttcctcg caccacctct cttcctacgt ctatcagacc cactctcgat 420 ctccgacctc agtcgtcctt cctgactccg gcaaccacga acccctcact cccgaggaaa 480 gacgagacag gatccgattc aaggggtggg taaggaagaa ctctagatgg agtttgtgtt 540 tagggagtta actggtgtcc cccgcgggga agatacttaa accgcgacta tcgacactag 600 acgggtcgtg tcaccccttt tgtgttttaa atgtctagtc cgtacaggcc cgagtctaag 660 gatgaggtcg tggaccaccg gttccctggg gttgacaatt tatccgtacc actacggacg 720 aaaggttcgg acaacccttt ctctctcccc tcgcccctcc ttaccctctc tctctctctg 780 actcgttcgt acggttctga attatatgaa tataaatata attttcttta tttatagtct 840 actaatgtta aaccaacttg attctatgtg tcatcttata ccttgattat aggttatagt 900 gtttcataag atcgctcgga aggatgtctt tcttaacacc caccgacccc tcatccgtaa 960 tcgatgatac actcacgtct cttatgagtc ggaagaaggt ctaccactcg atttcaagtt 1020 tctagttcag tgcatgtgtg gaagaaagag tagggtccag gatcagacga acttaagttt 1080 accggtaggt gtggaacgga ctttatgaac gttattaatt ctatgccgaa agacggacga 1140 accccaaacc aggtgttaag ggaattctcc ggagtaaagt taatcctgag tgtgtaggga 1200 agttgtcatt aaaacacagt ccgaaccaat cgttgagttc cgagttcgta tttaccctgt 1260 cttaagaaaa ggaaaacttt gagtggttat atcactaaca tcgttgatcg atgtaacaaa 1320 aacaaaaaaa aaagggggag ttaagattcg tgatacgttt ccgaaatttc gtcaccaggg 1380 ttcggaaaaa ccgtggtccc tggtcaaaac accttctgtt aaaacacttt tctgttttac 1440 accttctggc acctgaccct accaaacccc tactaagttc gtgtaatgta aacaacacgt 1500 gacacaaaga taataataat gtaacataat atattacttt attaatatgt tgagtggtat 1560 tacatcttag tcaccttcgg gactcgaaca aaggacgttg atctgtgagg gtagatcccc 1620 actaccctct gccactgtcc agtaatccgt aatctaagag tattcctcgc gtgttggatc 1680 tagggagcgt acacgtcaag tactgtccca aacacgacga tactcttaaa ttacggtgac 1740 gactagactg tcctccacct cgagtccgtc attccactcg ttacccctcg tcgacattta 1800 ttgcgactag agtgagtggg tgacgagtgg aggacgacac accgggtcaa ggattgtccg 1860 gtgttttacc atggacagac acaggggtcc caacccctgg tgacggaatt tccggaagta 1920 gagtaagtca aaagtagttt taagacacac catccatgag agtaatctgg gtaaaatacc 1980 cattccttga ctccatttta accaatatat tgaacggatt ttattcagtt cagagactac 2040 tctcccggtc ctaagttcaa gttcgtcaga ctgaggtttt agagtttcgt gaagacacca 2100 tcctttctct ttacttacct taccgtatct cagtagattt actgacgtca tccttccctc 2160 gtaaagggca cacgtcacaa taaaaaaggc ccgaaacttt ctatttatcc tcgtacgtca 2220 attttttctc tcctcttccg taagatccgt ctttccggtc acgaatgtgt cttagagtct 2280 taacattgtc aaggataatg tgggaccgtc tcactacggt tccgacaata acagttcgtg 2340 ggaggacgga gggtcacccc aactcttccc cacttccctg tgaccgtctt cacttcgacc 2400 cttcaaacgt gaacgatcaa ccctgaacgt atcggtagaa gagttacggt ttctcctgga 2460 gtcagagaca cacgcgaaac aaaaaacaac aacaacaaca acaactaaac accgggtccg 2520 atctcacgcc accacactag agacgagtga cgttggaggt agagggtcca agttccctaa 2580 gaggacggag gtctgagggt tcatcgaacc taatgtccgc gggcggtggt gtggacctat 2640 taaaaatatg aaaatcatcc ccacctcaaa gtggcacaac cggtccgacc agacacacac 2700 gaaacctaaa ctctgtgaga ctactaaatc tcaactttta ccctcatcta acccactaag 2760 agatcaatag tacaaatcag tttagtctag gcacgtaagt tttagtattc cgttcaaaag 2820 gacacaccga gtcattgtag gaatttcttt atcaagacta caggtaggcc acaaaaaagt 2880 ctttctcgca gtcccaactg tcatcgacac tacgaggtct acctcgacgc ctattgtcgt 2940 atattcaaag tcccgtcacc aactccccga caccctccca cccctccctt ctacctactg 3000 aaaagagttg gtagacataa actaacctta taacacactg aacactttat cttaatttct 3060 atactagaag aataccagaa gagtgtcaaa agttccctaa aatcctcttt tgcgaatcgg 3120 tatgtctcgg ttggaccatt caccgtcccg accggtccag tcacgttgaa gttcagctac 3180 aacagtcact tacgaggtct acctaacgtc tcttctggtt tcaagtacag agccgtggaa 3240 agggttacat gtcccgaata acaaccctgt ctcatcacgg accggactga aagcggtttt 3300 cgtacgtgtc ttgcaccttg aaccggagga cttttccgca cagaagtcga atccaataag 3360 gaaagagcta cgagtggtac tacagtccga ggatcatcct ctcggtaatt attgacggat 3420 agagtggtaa tctgacacat gaagatcttc cgtctttaga aaaagattac taaagaataa 3480 agggtcttgg atattgtaac aagacagaga aagacgttta cattctattt ttataatgga 3540 agtaagatct tttgtgggga aacatcttat ccaaatatgg aagtccgtac acctgaaagg 3600 ttaggtttga ggtcctcatc tgtctatggg tggtcctgat ccgttacgtc cttttagagt 3660 ccgaagtcga tcctgacaaa gtatgttaaa ggacgtaccg gtccttgttc ccacttccgt 3720 acgtgagaca ctcgtcgggt aaacacctgt cacccagtac cctgacttcc ttggtacaat 3780 gtgtacggac tcaaaagaaa ggttcgagtc tttggtatag cttgtgggga gggaacccct 3840 cttcactcac tcgtccacct ctctgctatc attacaatca taccaccttg aagaaggggt 3900 atctaccttt gtgactcccg attcttcttc ccggagagga ggttgtacac aatagatcgt 3960 tccgaccaag ataaattctt actatatatc agatcacatt atcttatgtt atacggatcg 4020 agattttaat acaacctttt tttagttgta atgctacacg atataagtca gttactcatt 4080 tataaagaca cggacggtgt acg 4103 <210> 9 <211> 2612 <212> DNA <213> Homo sapiens <400> 9 tcatcattac cagctgccgt gttaagcatt gcgaaaacgc tcacgattca cagaaaaatc 60 catgctgttc tttgaaggca ttcaagcctt aatagctagc tggatgaatg tttaacttct 120 aggccaggca ctactctgtc ccaacaataa gccctgtaca ttgggaaagg tgccgagaca 180 tgaactttgg tcttctctgc aatccatctg gagcattcac tgacaacatc gactttgaag 240 ttgcactgac ctggccagcc ctgccactta ccaggttggc tctgtatggc taagcgtttt 300 ctcctaaaat cccttgaaaa ctgtgagaag accataagaa gatcatatct ttaattctat 360 ttcacaagtc acacaatatt ccaatcaaat acagatggtt gagaaaagtc atccatcttc 420 cctccccacc ctcccacagc ccctcaacca ctgccctgaa acttatatgc tgttatccgc 480 agctccatct ggagcatcac agctactgtc aaccctgacg ctctttctga aaaaacaccg 540 gatggacatc agaactattt ctttaaggat gttactgagc cacacaggaa aacttgcctt 600 atgattttga atgcacggat ctgatttgac taaacatgat aactagagga tcacccaatc 660 tactcccatt ttcaactcta aatcatcaga gtgtctcaaa tccaaagcac acacagacca 720 gcctggccaa cgcggtgaaa ctccacccct actaaaagta taaaaattat ccaggtgtgg 780 tggcgggcgc ctgtaatcca agctacttgg gagtctgagg caggagaatc ccttgaacct 840 gggagatgga ggttgcagtg agcagagatc acaccaccgc actctagcct gggccacaaa 900 tcaacaacaa caacaacaac aaaaaacaaa gcgcacacag agactgaggt cctctttggc 960 attgagaaga tggctatgca agtcccaact agcaagtgca aacttcccag cttcacttct 1020 gccagtgtcc cttcacccct tctcaacccc actgggaggc aggagggtgc ttgacaataa 1080 cagccttggc atcactctgc cagggtgtaa taggaactgt tacaattctg agattctgtg 1140 taagcactgg cctttctgcc tagaatgcct tctcctctct tttttaactg catgctccta 1200 tttatctttc aaagcccgga aaaaataaca ctgcacacgg gaaatgctcc cttcctactg 1260 cagtcattta gatgactcta tgccattcca ttcatttctc tttcctacca cagaagtgct 1320 ttgagatttt ggagtcagac tgcttgaact tgaatcctgg ccctctcatc agagacttga 1380 cttattttag gcaagttata taaccaattt tacctcagtt ccttacccat aaaatgggtc 1440 taatgagagt acctaccaca cagaattttg atgaaaactg aatgagatga aggcctttaa 1500 ggcagtggtc cccaaccctg gggacacaga caggtaccat tttgtggcct gttaggaact 1560 gggccacaca gcaggaggtg agcagtgggt gagtgagatc agcgttattt acagctgctc 1620 cccattgctc accttactgc ctgagctcca cctcctgtca gatcagcagt ggcattaaat 1680 tctcatagca gcacaaaccc tgtcatgaac tgcacatgcg agggatctag gttgtgcgct 1740 ccttatgaga atctaatgcc taatgacctg tcaccgtctc ccatcacccc tagatgggag 1800 tgtctagttg caggaaacaa gctcagggct tccactgatt ctacattatg gtgagttgta 1860 taattatttc attatataat acaatgtaat aataatagaa acacagtgca caacaaatgt 1920 aatgtgcttg aatcatcccc aaaccatccc agtccacggt cttccacatt ttgtcttttc 1980 acaaaattgt cttccacaaa actggtccct ggtgccaaaa aggcttggga ccactgcttt 2040 aaagcctttg catagtgctt agaattgagg gggaaaaaaa aaacaaaaac aatgtagcta 2100 gttgctacaa tcactatatt ggtgagtttc aaaaggaaaa gaattctgtc ccatttatgc 2160 ttgagccttg agttgctaac caagcctgac acaaaattac tgttgaaggg atgtgtgagt 2220 cctaattgaa atgaggcctc ttaagggaat tgtggaccaa accccaagca ggcagaaagc 2280 cgtatcttaa ttattgcaag tatttcaggc aaggtgtgga tggccatttg aattcaagca 2340 gactaggacc tgggatgaga aagaaggtgt gtacgtgact tgatctttga actttagctc 2400 accatctgga agaaggctga gtattctctg cactcacata gtagctaatg cctactcccc 2460 agccacccac aattctttct gtaggaaggc tcgctagaat actttgtgat attggatatt 2520 agttccatat tctactgtgt atcttagttc aaccaaattg taatcatctg atatttattt 2580 cttttaatat aaatataagt atattaagtc tt 2612 <210> 10 <211> 23 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <220> <221> misc_feature <222> (1)..(1) <223> /note="5'-Phos" <400> 10 gttggacttg tacgatagct ctc 23 <210> 11 <211> 25 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <220> <221> misc_feature <222> (1)..(1) <223> /note="5'-OH" <220> <221> modified_base <222> (5)..(5) <223> iBIOdT <220> <221> modified_base <222> (20)..(24) <223> a, c, t, g, unknown or other <400> 11 gctancgtac aagtccaacn nnnnv 25 <210> 12 <211> 19 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <220> <221> misc_feature <222> (1)..(1) <223> /note="5'-OH" <400> 12 gcgatatcac tgttccaac 19 <210> 13 <211> 23 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <220> <221> misc_feature <222> (1)..(1) <223> /note="5'-OH" <400> 13 gttggaacag tgatatcgcg aga 23 <210> 14 <211> 21 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 14 ggccgcgata tcggatccaa c 21 <210> 15 <211> 17 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 15 gttggatccg atatcgc 17 <210> 16 <211> 46 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <220> <221> modified_base <222> (45)..(46) <223> a, c, t, g, unknown or other <400> 16 ccatctcatc cctgcgtgtc ccatctgttc cctccctgtc tcagnn 46 <210> 17 <211> 44 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 17 ctgagacagg gagggaacag atgggacacg cagggatgag atgg 44 <210> 18 <211> 44 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <400> 18 ctgagacacg caacagggga taggcaaggc acacagggga tagg 44 <210> 19 <211> 46 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic oligonucleotide" <220> <221> modified_base <222> (45)..(46) <223> a, c, t, g, unknown or other <400> 19 cctatcccct gtgtgccttg cctatcccct gttgcgtgtc tcagnn 46 <210> 20 <211> 49 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <400> 20 aatgatacgg cgaccaccga gatctacacc ctatcccctg tgtgccttg 49 <210> 21 <211> 48 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <400> 21 caagcagaag acggcatacg agatcggtcc atctcatccc tgcgtgtc 48 <210> 22 <211> 32 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <400> 22 gtgccttgcc tatcccctgt tgcgtgtctc ag 32 <210> 23 <211> 32 <212> DNA <213> Artificial Sequence <220> <221> source <223> /note="Description of Artificial Sequence: Synthetic primer" <400> 23 tgcgtgtccc atctgttccc tccctgtctc ag 32

Claims

(1) RNA 링커로서,
(i) 제1 폴리뉴클레오티드, 및
(ii) 제2 폴리뉴클레오티드
를 포함하며, 상기 제1 및 제2 폴리뉴클레오티드는, 제1 결찰 호환성 말단의 측면에 위치하는 제1 이중 가닥 영역, 및 제1 폴리뉴클레오티드의 3'-말단에서의 3'-돌출부를 형성하되, 상기 3'-돌출부는 랜덤-서열 프라이머를 포함하는 RNA 링커; 및
(2) DNA 링커로서,
(iii) 제3 폴리뉴클레오티드, 및
(iv) 제4 폴리뉴클레오티드
를 포함하며, 상기 제3 및 제4 폴리뉴클레오티드는, 평활 말단(blunt end) 및 제2 결찰 호환성 말단의 측면에 위치하는 제 2 이중 가닥 영역을 형성하는 DNA 링커
를 포함하되, 상기 제1 및 제2 결찰 호환성 말단은 형태와 서열이 상보적이며 서로 결찰하거나 서로 결찰하는데 적합한 키트.
제1항에 있어서, 상기 제1 결찰 호환성 말단은 제2 폴리뉴클레오티드의 제 3'-말단에서의 3'-돌출부이고, 상기 제 2 결찰 호환성 말단은 제3 폴리뉴클레오티드의 제 3'-말단에서의 3'-돌출부이며, 결찰을 위하여 상기 두 3'-돌출부를 서로 어닐링하는 키트.
제1항에 있어서, 상기 제1 이중 가닥 영역은 상기 랜덤-서열 프라이머의 3'측에 있는 부분을 절단하는 제1 제한 효소(restriction enzyme, RE)를 위한 제1 인식 부위를 포함하는 키트.
제1항에 있어서, 상기 제2 이중 가닥 영역은 상기 제3 폴리뉴클레오티드의 5'측에 있는 부분을 절단하는 제2 제한 효소(RE)를 위한 제2 인식 부위를 포함하는 키트.
제1항에 있어서, 상기 제1, 제2, 제3, 및 제4 폴리뉴클레오티드 중 하나 이상이 DNA인 키트.
제1항에 있어서, 상기 제1, 제2, 제3, 및 제4 폴리뉴클레오티드 중 하나 이상은 변형 뉴클레오티드를 포함하는 키트.
제6항에 있어서, 상기 변형 뉴클레오티드는 비오티닐화 T (티미딘)인 키트.
제1항에 있어서, 상기 제1 폴리뉴클레오티드는, 랜덤-서열 프라이머 영역에서만 서로 상이한 복수의 폴리뉴클레오티드를 포함하는 키트.
제1항에 있어서, 상기 제1 폴리뉴클레오티드는 동일한 랜덤-서열 프라이머를 갖는 동질 군집(homogeneous population)의 폴리뉴클레오티드를 포함하는 키트.
제1항에 있어서, 상기 랜덤-서열 프라이머는 4, 5, 6, 7, 8개 또는 그 이상의 뉴클레오티드를 포함하는 키트.
제1항에 있어서, 상기 제1 이중 가닥 영역은 상기 RNA 링커와 상기 DNA 링커를 구별하는 독특한(unique) 서열을 포함하는 키트.
제1항에 있어서, 상기 제2 이중 가닥 영역은 상기 RNA 링커와 상기 DNA 링커를 구별하는 독특한 서열을 포함하는 키트.
제3항에 있어서, 상기 제1 인식 부위의 마지막 뉴클레오티드는 상기 랜덤-서열 프라이머에 대하여 5' 측에 있는 마지막 염기-쌍 뉴클레오티드인 키트.
제4항에 있어서, 상기 제2 인식 부위의 마지막 뉴클레오티드는 상기 평활 말단에서의 염기-쌍 뉴클레오티드인 키트.
제3항 및 제4항 중 어느 한 항에 있어서, 상기 제1 및 제2 제한 효소는 동일한 키트.
제3항 및 제4항 중 어느 한 항에 있어서, 상기 제1 또는 제2 제한 효소는 AarI, AceIII, AloI, BaeI, Bbr7I, BbvI, BbvII, BccI, Bce83I, BceAI, BcefI, BcgI, BciVI, BfiI, BinI, BplI, BsaXI, BscAI, BseMII, BseRI, BsgI, BsmI, BsmAI, BsmFI, Bsp24I, BspCNI, BspMI, BsrI, BsrDI, BstF5I, BtgZI, BtsI, CjeI, CjePI, EciI, Eco31I, Eco57I, Eco57MI, EcoP15I, Esp3I, FalI, FauI, FokI, GsuI, HaeIV, HgaI, Hin4I, HphI, HpyAV, Ksp632I, MboII, MlyI, MmeI, MnlI, PleI, PpiI, PsrI, RleAI, SapI, SfaNI, SspD5I, Sth132I, StsI, TaqII, TspDTI, TspGWI, TspRI 또는 Tth111II으로부터 독립적으로 선택되는 키트.
제3항 및 제4항 중 어느 한 항에 있어서, 상기 제1 또는 제2 제한 효소의 상기 절단 부위는 상기 인식 부위의 마지막 뉴클레오티드의 3'측에 있는 적어도 10, 12, 14, 16, 18, 20개, 또는 그 이상의 뉴클레오티드인 키트.
제1항에 있어서, 상기 제1 및 제4 폴리뉴클레오티드는 탈인산화된 키트.
제1항에 있어서, 단백질 및 폴리뉴클레오티드를 가교하는 시약을 추가로 포함하는 키트.
제19항에 있어서, 상기 시약은 포름알데히드를 포함하는 키트.
제1항에 있어서, 염색질의 성분에 특이적으로 또는 선택적으로 결합하는 친화성 시약을 추가로 포함하는 키트.
제1항에 있어서, 손상된 또는 비호환성 5'- 및/또는 3'-돌출 말단을 함유한 DNA를 5'-인산화, 평활-말단 DNA로 전환하는, 말단-보수 혼합물을 추가로 포함하는 키트.
제1항에 있어서, DNA 리가아제를 추가로 포함하는 키트.
제1항에 있어서, 단백질과 폴리뉴클레오티드의 가교를 가역하는 시약을 추가로 포함하는 키트.
제3항 및 제4항 중 어느 한 항에 있어서, 제1 및/또는 제2 제한 효소를 추가로 포함하는 키트.
제1항에 있어서, 평활-말단된(blunt-ended) 이중 가닥 DNA의 PCR 증폭을 위한 한 쌍의 연접성(concatenating) 어댑터를 추가로 포함하는 키트.
제 1항에 있어서, Taq DNA 폴리머라아제를 추가로 포함하는 키트.
제 1항에 있어서, 역전사 효소를 추가로 포함하는 키트.
제1항의 제1 및 제2 이중 가닥 영역을 포함하는 중앙 영역을 포함하는 쌍-말단 태그(paired-end tag, PET) 폴리뉴클레오티드로서, 상기 중앙 영역은,
(1) 상기 제1 이중 가닥 영역의 근접 부위에서, 비-코딩 RNA (ncRNA)의 서열 태그; 및
(2) 상기 제2 이중 가닥 영역의 근접 부위에서, 게놈 DNA의 서열 태그
의 측면에 배치되는 쌍-말단 태크 폴리뉴클레오티드.
제29항에 있어서, 상기 비-코딩 RNA(ncRNA)의 서열 태그는 제1 제한 효소에 의한 소화에 의하여 얻어지는 자유단을 가지는 PET 폴리뉴클레오티드.
제29항에 있어서, 상기 비-코딩 RNA(ncRNA)의 서열 태그는 ncRNA가 전사되는 게놈 영역을 독특하게 확인하는 PET 폴리뉴클레오티드.
제29항에 있어서, 상기 비-코딩 RNA(ncRNA)의 서열 태그는 8-30개의 염기쌍 길이를 가지는 PET 폴리뉴클레오티드.
제29항에 있어서, 상기 게놈 DNA의 서열 태그는 제2 제한 효소에 의한 소화에 의하여 얻어지는 자유단을 가지는 PET 폴리뉴클레오티드.
제29항에 있어서, 상기 게놈 DNA의 서열 태그는 게놈 DNA가 위치하는 게놈 영역을 독특하게 확인하는 PET 폴리뉴클레오티드
제29항에 있어서, 상기 게놈 DNA의 상기 서열 태그는 8-30개의 염기쌍 길이를 가지는 PET 폴리뉴클레오티드.
제29항의 PET 폴리뉴클레오티드의 둘 이상의 멤버를 포함하는 쌍-말단 태그(paired-end tage, PET) 라이브러리로서, 상기 PET 라이브러리의 각 멤버는 동일한 상기 중앙 영역, 및 제29항의 비-코딩 RNA(ncRNA)의 상이한 상기 서열 또는 제29항의 게놈 DNA의 상이한 상기 서열 태그 또는 둘 다를 포함하는 쌍-말단 태그 라이브러리.
제29항의 PET 폴리뉴클레오티드를 포함하는 벡터.
제37항에 있어서, 제29항의 연접된(concatenated) PET 폴리뉴클레오티드를 복수개 포함하는 벡터.
제29항의 PET 폴리뉴클레오티드를 2개 이상을 포함하는 콘카테머(Concatemer).
게놈의 비-코딩 RNA (ncRNA)를 위한 게놈 내에서 기능적 상호작용 좌위를 확인하는 방법으로서, 상기 방법은,
(1) 가교된 게놈 DNA 단편 및 가교된 ncRNA를 포함하는 염색질 단편을 제공하는 단계;
(2) 제1항의 RNA 링커 및 DNA 링커를 이용하여, 근접 결찰의 조건 하에서, 가교된 게놈 DNA 단편의 말단을 가교된 ncRNA의 cDNA의 말단에 결찰하는 단계로서, 상기 가교된 게놈 DNA 단편의 상기 말단이 상기 DNA 링커에 결찰되고, 상기 가교된 ncRNA의 상기 cDNA의 상기 말단은 상기 RNA 링커를 포함하는 단계:
(3) 시퀀싱 분석을 위하여, 제29항의 PET 폴리뉴클레오티드를 단리하는 단계; 및
(4) 상기 각 PET 폴리뉴클레오티드 내의 상기 게놈 DNA의 서열 태그 및 상기 ncRNA의 상기 서열태그를 참조 게놈에 맵핑하여, 상기 참조 게놈의 상기 비-코딩 RNA (ncRNA)를 위한 참조 게놈 내에서 기능적 상호작용 좌위를 확인하는 단계를 포함하는 방법.
제40항에 있어서, 상기 ncRNA 및 상기 게놈 DNA는 포름알데히드-매개 가교를 통하여 살아있는 세포에서 가교하는 방법.
제40항에 있어서, 염색질 단편은 초음파 처리에 의하여 생성하는 방법.
제40항에 있어서, 상기 가교된 ncRNA의 상기 cDNA는 상기 RNA 링커의 랜덤-서열 프라이머로부터 역전사된 제1 가닥 cDNA, 및 ncRNA 템플릿을 포함하는 방법.
제40항에 있어서, 근접 결찰 이후 (3) 단계 이전에, 제 2 가닥 cDNA 합성을 실시하는 방법.
제40항에 있어서, (2) 단계 이전에, 가교된 게놈 DNA 단편의 말단을 5'-인산화되고, 평활-말단된 DNA로 수복하는 단계를 추가로 포함하는 방법.
제40항에 있어서, 상기 DNA 링커의 상기 제3 폴리뉴클레오티드는 탈인산화되고, 상기 DNA 링커는 자가-결찰하지 않는 방법.
제40항에 있어서, 게놈 DNA의 중첩 서열 태그 및 ncRNA의 중첩 서열 태그를 갖는 둘 이상의 PET 폴리뉴클레오티드의 클러스터를 확인하는 단계를 추가로 포함하는 방법.
제47항에 있어서, rRNA의 서열 태그를 포함하는 PET 폴리뉴클레오티드를 배제하는 단계를 추가로 포함하는 방법.
제40항에 있어서, (2) 단계 이전에, 염색질 단편 서브세트를 단리하거나 농축하는 단계를 추가로 포함하는 방법.
제49항에 있어서, 상기 염색질 단편 서브세트의 단백질 성분에 특이적인 항체를 이용하여, 상기 염색질 단편 서브세트를 면역침전에 의하여 단리하거나 농축하는 방법.
제50항에 있어서, 상기 단백질 성분은 히스톤, 전사 인자, 폴리콤-그룹(polycomb-group, PcG) 패밀리 단백질; 재조합 관여 인자; 염색질 격리자(insulator) 또는 염색질 웨이버(waver); 메틸-CpG-결합 단백질; 또는 RNA 결합 단백질인 방법.
제21항에 있어서,
상기 친화성 시약은 항체 또는 단일클론 항체인 키트.
제52항에 있어서,
상기 염색질의 성분은 히스톤인 키트.
제23항에 있어어,
상기 DNA 리가아제는 T4 리가아제인 키트.
제24항에 있어서,
상기 시약은 프로테이나아제 K인 키트.