KR102310441B1 - Rna-염색질 상호작용 분석용 조성물 및 이의 용도 - Google Patents
Rna-염색질 상호작용 분석용 조성물 및 이의 용도 Download PDFInfo
- Publication number
- KR102310441B1 KR102310441B1 KR1020167008685A KR20167008685A KR102310441B1 KR 102310441 B1 KR102310441 B1 KR 102310441B1 KR 1020167008685 A KR1020167008685 A KR 1020167008685A KR 20167008685 A KR20167008685 A KR 20167008685A KR 102310441 B1 KR102310441 B1 KR 102310441B1
- Authority
- KR
- South Korea
- Prior art keywords
- dna
- rna
- polynucleotide
- ncrna
- linker
- Prior art date
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C07—ORGANIC CHEMISTRY
- C07K—PEPTIDES
- C07K1/00—General methods for the preparation of peptides, i.e. processes for the organic chemical preparation of peptides or proteins of any length
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6809—Methods for determination or identification of nucleic acids involving differential detection
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6806—Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2523/00—Reactions characterised by treatment of reaction samples
- C12Q2523/10—Characterised by chemical treatment
- C12Q2523/101—Crosslinking agents, e.g. psoralen
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2525/00—Reactions involving modified oligonucleotides, nucleic acids, or nucleotides
- C12Q2525/10—Modifications characterised by
- C12Q2525/207—Modifications characterised by siRNA, miRNA
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2565/00—Nucleic acid analysis characterised by mode or means of detection
- C12Q2565/10—Detection mode being characterised by the assay principle
- C12Q2565/113—Detection mode being characterised by the assay principle based on agglutination/precipitation
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q2565/00—Nucleic acid analysis characterised by mode or means of detection
- C12Q2565/10—Detection mode being characterised by the assay principle
- C12Q2565/133—Detection mode being characterised by the assay principle conformational analysis
Abstract
본 원에 기재된 본 발명은 시약(예, 키프) 조성물, 및 치우치지 않은 게놈-전반 전략을 실시하여 모든 ncRNA를 위한 기능적 타겟을 확인하는방법을 제공한다.
Description
관련 출원 참조
본 출원은 2013년 9월 5일자로 출원된 미국 가출원 번호 제 61/873,928호에 대한 우선권과 이익을 주장하며, 이의 전체 내용은 참조로서 본원에 병합된다.
발명의 배경
비-코딩 RNA (noncoding RNA, ncRNA)는 게놈에서 전사된다고 널리 믿어지고 있으며, 다수의 ncRNA가 확인되었다. 그러나, 어울리지 않게, 그것들의 기능적 역할에 대해서는 아직까지 잘 알려져 있지 않다. 알려진 ncRNA 기능의 대부분은 섭동실험으로 추론되는데, 이것은 ncRNA가 상호작용하는 특정 타겟에 대한 설명이 부족하다. CLIP/RIP-Seq 및 ChiRP-Seq과 같은 기술은 일부 ncRNA이 상호작용하는 단백질 요인과 염색질 위치에 대한 엄청난 통찰력을 제공하고 있다. 그러나, 현재의 방법은 ncRNA 또는 상호작용하는 타겟을 한번에 검사하는 데에 한계가 있다. 따라서, 모든 ncRNA에 대한 기능적 타겟을 확인하기 위하여 치우치지 않은 게놈-전체 전략을 갖는 것이 바람직하다.
본 발명은 RNA-염색질 상호작용 분석용 조성물 및 이의 용도를 제공하고자 한다.
발명의 요약
본 발명의 일 태양은, (1) RNA 링커로서, (i) 제1 폴리뉴클레오티드, 및 (ii) 제2 폴리뉴클레오티드를 포함하며, 상기 제1 및 제2 폴리뉴클레오티드는, 제1 결찰 호환성 말단의 측면에 위치하는 제1 이중 가닥 영역, 및 제1 폴리뉴클레오티드의 3'-말단에서의 3'-돌출부를 형성하되, 상기 3'-돌출부는 랜덤-서열 프라이머를 포함하는 RNA 링커; 및 (2) DNA 링커로서, (iii) 제3 폴리뉴클레오티드, 및 (iv) 제4 폴리뉴클레오티드를 포함하며, 상기 제3 및 제4 폴리뉴클레오티드는, 평활 말단(blunt end) 및 제2 결찰 호환성 말단의 측면에 위치하는 제 2 이중 가닥 영역을 형성하는 DNA 링커를 포함하되, 상기 제1 및 제2 결찰 호환성 말단은 서로 결찰하거나 서로 결찰하는데 적합한 키트를 제공한다.
소정 구현예에서, 상기 제1 결찰 호환성 말단은 제2 폴리뉴클레오티드의 제 3'-말단에서의 3'-돌출부이고, 상기 제 2 결찰 호환성 말단은 제3 폴리뉴클레오티드의 제 3'-말단에서의 3'-돌출부이며, 결찰을 위하여 상기 두 3'-돌출부를 서로 어닐링한다.
소정 구현예에서, 상기 제1 이중 가닥 영역은 상기 랜덤-서열 프라이머의 3'측에 있는 부분을 절단하는 제1 제한 효소(restriction enzyme, RE)를 위한 제1 인식 부위를 포함한다.
소정 구현예에서, 상기 제2 이중 가닥 영역은 상기 제3 폴리뉴클레오티드의 5'측에 있는 부분을 절단하는 제2 제한 효소(RE)를 위한 제2 인식 부위를 포함한다.
소정 구현예에서, 상기 제1, 제2, 제3, 및 제4 폴리뉴클레오티드 중 하나 이상이 DNA이다.
소정 구현예에서, 상기 제1, 제2, 제3, 및 제4 폴리뉴클레오티드 중 하나 이상은 변형 뉴클레오티드이다.
소정 구현예에서, 상기 변형 뉴클레오티드는 비오티닐화 T (티미딘)이다.
소정 구현예에서, 상기 제1 폴리뉴클레오티드는, 랜덤-서열 프라이머 영역에서만 서로 상이한 복수의 폴리뉴클레오티드를 포함한다.
소정 구현예에서, 상기 제1 폴리뉴클레오티드는 동일한 랜덤-서열 프라이머를 갖는 동질 군집(homogeneous population)의 폴리뉴클레오티드를 포함한다.
소정 구현예에서, 상기 랜덤-서열 프라이머는 4, 5, 6, 7, 8개 또는 그 이상의 뉴클레오티드를 포함한다.
소정 구현예에서, 상기 제1 이중 가닥 영역은 상기 RNA 링커와 상기 DNA 링커를 구별하는 독특한 서열을 포함한다.
소정 구현예에서, 상기 제2 이중 가닥 영역은 상기 RNA 링커와 상기 DNA 링커를 구별하는 독특한 서열을 포함한다.
소정 구현예에서, 상기 제1 인식 부위의 마지막 뉴클레오티드는 상기 랜덤-서열 프라이머에 대하여 5' 측에 있는 마지막 염기-쌍 뉴클레오티드이다.
소정 구현예에서, 상기 제2 인식 부위의 마지막 뉴클레오티드는 상기 평활 말단에서의 염기-쌍 뉴클레오티드이다.
소정 구현예에서, 상기 제1 및 제2 제한 효소는 동일하다.
소정 구현예에서, 상기 제1 또는 제2 제한 효소는 AarI, AceIII, AloI, BaeI, Bbr7I, BbvI, BbvII, BccI, Bce83I, BceAI, BcefI, BcgI, BciVI, BfiI, BinI, BplI, BsaXI, BscAI, BseMII, BseRI, BsgI, BsmI, BsmAI, BsmFI, Bsp24I, BspCNI, BspMI, BsrI, BsrDI, BstF5I, BtgZI, BtsI, CjeI, CjePI, EciI, Eco31I, Eco57I, Eco57MI, EcoP15I, Esp3I, FalI, FauI, FokI, GsuI, HaeIV, HgaI, Hin4I, HphI, HpyAV, Ksp632I, MboII, MlyI, MmeI, MnlI, PleI, PpiI, PsrI, RleAI, SapI, SfaNI, SspD5I, Sth132I, StsI, TaqII, TspDTI, TspGWI, TspRI 또는 Tth111II으로부터 독립적으로 선택된다.
소정 구현예에서, 상기 제1 또는 제2 제한 효소의 상기 절단 부위는 상기 인식 부위의 마지막 뉴클레오티드의 3'측에 있는 적어도 약 10, 12, 14, 16, 18, 20개, 또는 그 이상의 뉴클레오티드이다.
소정 구현예에서, 상기 제1 및 제4 폴리뉴클레오티드는 탈인산화된다.
소정 구현예에서, 단백질 및 폴리뉴클레오티드를 가교하는 시약을 추가로 포함한다.
소정 구현예에서, 상기 시약은 포름알데히드를 포함한다.
소정 구현예에서, 염색질의 성분(예, 히스톤)에 특이적으로 또는 선택적으로 결합하는 친화성 시약(예, 항체 또는 단일클론 항체)을 추가로 포함한다.
소정 구현예에서, 손상된 또는 비호환성 5'- 및/또는 3'-돌출 말단을 함유한 DNA를 5'-인산화, 평활-말단 DNA로 전환하는, 말단-보수 혼합물을 추가로 포함한다.
소정 구현예에서, DNA 리가아제(예, T4 리가아제)를 추가로 포함한다.
소정 구현예에서, 단백질과 폴리뉴클레오티드(예, 프로테이나아제 K)의 가교를 가역하는 시약을 추가로 포함한다.
소정 구현예에서, 제1 및/또는 제2 제한 효소를 추가로 포함한다.
소정 구현예에서, 평활-말단된(blunt-ended) 이중 가닥 DNA의 PCR 증폭을 위한 한 쌍의 연접성(concatenating) 어댑터를 추가로 포함한다.
소정 구현예에서, Taq DNA 폴리머라아제를 추가로 포함한다.
소정 구현예에서, 역전사 효소를 추가로 포함한다.
본 발명의 다른 태양은, 대상(subject) RNA 및 DNA 링커의 제1 및 제2 이중 가닥 영역을 포함하는 중앙 영역을 포함하는 쌍-말단 태그(paired-end tag, PET) 폴리뉴클레오티드로서, 상기 중앙 영역은, (1) 상기 제1 이중 가닥 영역의 근접 부위에서, 비-코딩 RNA (ncRNA)의 서열 태그; 및 (2) 상기 제2 이중 가닥 영역의 근접 부위에서, 게놈 DNA의 서열 태그의 측면에 배치되는 쌍-말단 태크 폴리뉴클레오티드를 제공한다.
소정 구현예에서, 상기 비-코딩 RNA(ncRNA)의 서열 태그는 상기 제1 제한 효소에 의한 소화에 의하여 얻어지는 자유단을 가진다.
소정 구현예에서, 상기 비-코딩 RNA(ncRNA)의 서열 태그는 ncRNA가 전사되는 게놈 영역을 독특하게 확인한다.
소정 구현예에서, 상기 비-코딩 RNA(ncRNA)의 서열 태그는 약 8-30개의 염기쌍 길이를 가진다.
소정 구현예에서, 상기 게놈 DNA의 서열 태그는 상기 제2 제한 효소에 의한 소화에 의하여 얻어지는 자유단을 가진다.
소정 구현예에서, 상기 게놈 DNA의 서열 태그는 게놈 DNA가 위치하는 게놈 영역을 독특하게 확인한다.
소정 구현예에서, 상기 게놈 DNA의 상기 서열 태그는 약 8-30개의 염기쌍 길이를 가진다.
본 발명의 다른 태양은, 대상 PET 폴리뉴클레오티드의 둘 이상의 멤버를 포함하는 쌍-말단 태그(paired-end tag, PET) 라이브러리로서, 상기 PET 라이브러리의 각 멤버는 동일한 상기 중앙 영역, 및 비-코딩 RNA(ncRNA)의 상이한 상기 서열 또는 상기 게놈 DNA의 상이한 상기 서열 태그 또는 둘 다를 포함하는 쌍-말단 태그 라이브러리를 제공한다.
소정 구현예에서, 상기 대상 PET 폴리뉴클레오티드를 포함하는 벡터를 제공한다.
소정 구현예에서, 연접된 대상 PET 폴리뉴클레오티드를 복수개 포함한다.
소정 구현예에서, 상기 대상 PET 폴리뉴클레오티드를 2개 이상을 포함하는 콘카테머(concatemer)를 제공한다.
본 발명의 다른 태양은, 게놈의 비-코딩 RNA (ncRNA)를 위한 게놈 내에서 기능적 상호작용 좌위를 확인하는 방법으로서, 상기 방법은, (1) 가교된 게놈 DNA 단편 및 가교된 ncRNA를 포함하는 염색질 단편을 제공하는 단계; (2) 제1항의 RNA 링커 및 DNA 링커를 이용하여, 근접 결찰의 조건 하에서, 가교된 게놈 DNA 단편의 말단을 가교된 ncRNA의 cDNA의 말단에 결찰하는 단계로서, 상기 가교된 게놈 DNA 단편의 상기 말단이 상기 DNA 링커에 결찰되고, 상기 가교된 ncRNA의 상기 cDNA의 상기 말단은 상기 RNA 링커를 포함하는 단계: (3) 시퀀싱 분석을 위하여, 제29항의 PET 폴리뉴클레오티드를 단리하는 단계; 및 (4) 상기 각 PET 폴리뉴클레오티드 내의 상기 게놈 DNA의 서열 태그 및 상기 ncRNA의 상기 서열태그를 참조 게놈에 맵핑하여, 상기 참조 게놈의 상기 비-코딩 RNA (ncRNA)를 위한 참조 게놈 내에서 기능적 상호작용 좌위를 확인하는 단계를 포함하는 방법을 제공한다.
소정 구현예에서, 상기 ncRNA 및 상기 게놈 DNA는 포름알데히드-매개 가교를 통하여 살아있는 세포에서 가교한다.
소정 구현예에서, 염색질 단편은 초음파 처리에 의하여 생성한다.
소정 구현예에서, 상기 가교된 ncRNA의 상기 cDNA는 상기 RNA 링커의 랜덤-서열 프라이머로부터 역전사된 제1 가닥 cDNA, 및 ncRNA 템플릿을 포함한다.
소정 구현예에서, 근접 결찰 이후 (3) 단계 이전에, 제 2 가닥 cDNA 합성을 실시한다.
소정 구현예에서, 상기 방법은 (2) 단계 이전에, 가교된 게놈 DNA 단편의 말단을 5'-인산화되고, 평활-말단된 DNA로 수복하는 단계를 추가로 포함한다.
소정 구현예에서, 상기 DNA 링커의 상기 제3 폴리뉴클레오티드는 탈인산화되고, 상기 DNA 링커는 자가-결찰하지 않는다.
소정 구현예에서, 상기 방법은 게놈 DNA의 중첩 서열 태그 및 ncRNA의 중첩 서열 태그를 갖는 둘 이상의 PET 폴리뉴클레오티드의 클러스터를 확인하는 단계를 추가로 포함한다.
소정 구현예에서, 상기 방법은 rRNA의 서열 태그를 포함하는 PET 폴리뉴클레오티드를 배제하는 단계를 추가로 포함한다.
소정 구현예에서, 상기 방법은 (2) 단계 이전에, 염색질 단편 서브세트를 단리하거나 농축하는 단계를 추가로 포함한다.
소정 구현예에서, 상기 염색질 단편 서브세트의 단백질 성분에 특이적인 항체를 이용하여, 상기 염색질 단편 서브세트를 면역침전에 의하여 단리하거나 농축한다.
소정 구현예에서, 상기 단백질 성분은 히스톤, 전사 인자, 폴리콤-그룹(polycomb-group, PcG) 패밀리 단백질; 재조합 관여 인자; 염색질 인슐레이터(insulator) 또는 염색질 웨이버(waver); 메틸-CpG-결합 단백질; 또는 RNA 결합 단백질이다.
제한되지 않는, 임의의 기술, 시약, 실험 조건, 제한 부위, 효소, 벡터, 프라이머 등을 포함하여, 본 발명의 일 구현예(예를 들어, 실시예에만 기재된 구현예)를 실시하려는 목적을 위하여 기재된 어떠한 서술도, 본 발명의 일 (그러나 다른) 태양에서 상세히 기재된 구현예들을 포함하여, 본 발명의 다른 구현예와 조합하여 사용될 수 있음을 알아야 한다. 발명의 본 구현예에 대한 다른 구현예에서 기재된 기술 및 물질을 어떻게 채용할 것인지는 당업자에게 명백할 것이다.
본 발명에 따르면 RNA-염색질 상호작용 분석용 조성물 및 이의 용도가 제공된다.
도 1a는 RNA 링커 및 DNA 링커 쌍을 이용한 RICh-PET 방법의 전형적인 설정의 개략적 흐름을 보여준다. 염색질과 ncRNA의 상호작용을 가교에 의하여 캡쳐링하고, 초음파처리하여 염색질 섬유를 RNA, DNA, 및 단백질 성분을 갖는 테더링 복합물(tethering complexes)로 분해한다. 이어서, 각 염색질 단편 복합물의 테더링된 RNA 및 DNA를, 방향성 및 특이성을 위한 독특한 서열 바코드도 가질 수 있는, 특이적으로 설계된 RNA 링커 및 DNA 링커에 의하여 매개된 결찰 반응(ligation reaction) 세트에 의하여 연결한다. 각 염색질 복합물에서, RNA의 3'-말단을 RNA의 무작위 헥사머 돌출 부분으로 어닐하고 cDNA 합성을 위한 역전사를 실시한다. 한편, DNA 링커를 테더링된 DNA 단편의 평활 말단에 결찰에 의하여 첨가한다. 과량의 링커 올리고를 세척한 후, 부착된 RNA 및 DNA 링커를 서로 결찰시켜, 테더링된 RNA 및 DNA 분자를 연결한다. 역 교차 후, 하이브리드 결찰 생성물을, 전단(shearing) 또는 한정(restriction) 소화에 의하여, 추가 증폭, 시퀀싱, 및 맵핑 분석을 위하여, 원하는 크기로 단편화하여, RNA가 전사되는 위치 및 게놈에서 그것이 상호작용하는 위치를 확인한다.
도 1b는 변경된 RNA 링커를 이용한 RICh-PET 방법의 전형적인 설정의 개략적 흐름을 보여준다.
도 1c는 직접 RNA 링커를 이용한 RICh-PET 방법의 전형적인 설정의 개략적 흐름을 보여준다. "App"는 제1 폴리뉴클레오티드의 5'-말단에서 5'-아데닐화를 나타낸다.
도 2a 내지 도 2c는 선택된 RICh-PET 라이브러리의 통계, 및 시퀀싱 및 맵핑 데이터를 나타낸다. 도 2a는 단일 PET (기타 PET 서열과 중복되지 않음) 및 PET 클러스터의 비율을 나타낸다. PET 클러스터 데이터를 이용하여, 대략 700 RNA 좌위 및 약 5000 DNA 좌위를 확인하였다. 도 2b는 RICh-PET 데이터에 의하여 확인된 RNA 및 DNA 좌위에서의 RNA-Seq 세기를 보여준다. 도 2c는 ncRNA 상호작용을 정의한 대부분의 RICh-PET 데이터는 트랜스-작용적(trans-acting)이고 염색체 간(inter-chromosomal)에 대한 것임을 보여 준다.
도 3은 상기 대상 방법의 재현성 및 감도를 입증한다. 도면은 인공 및 생물학적 복제물에서 확인된 RNA 상호작용 부위의 비교를 보여주는 대표적인 분산 그래프를 나타낸다. 공지의 lncRNAs MALAT1(PET 카운트 174) 및 NEAT1(PET 18)를 RICh-PET 데이터(미도시)에서 반복적으로 검출하였다. 또한, RNAPII ChIA-PET 데이터는, 이러한 두 IncRNA도 공동조절을 위하여 가능한 동일한 RNAPII 전사 복합물 내에서 공간적으로 연결됨을 보여 준다. 또한, RNA-Seq 및 RNA-PET 데이터를 이용하여 HeLa S3(데이터 미도시)에서 ncRNA 유전자의 발현 레벨을 평가하였다. 두 데이터는, MALAT1는 고도로 발현되고, NEAT1는 중간 레벨로 발현되며, HOTAIR는 매우 낮은 레벨로 발현된다는 것을 보여 주었다. HOTAIR 위치에서의 RICh-PET 맵핑은 이 부분(데이터 미도시)에서 빈약한 RICh-PET 데이터를 보여 준다.
도 4a 내지 4b는 NEAT1 및 MALAT1 RICh-PET 데이터를 입증하기 위한 데이터를 보여 준다. 도 4a는 두 NEAT1 및 MALAT1가 HeLa S3 세포에서 발현되고, RICh-PET 데이터에서 풍부하게 검출된다는 것을 보여 준다. 두 RNA 및 DNA 태그들은 동일한 위치에서 단거리에서 맵핑되기에, NEAT1는 시스-작용적(cis-acting)에서만 한정적이다. DNA 태그들은 동일한 염색체 또는 상이한 염색체에서 장거리로 맵핑되기에, MALAT1는 대부분 트랜스-작용적이다(inset). 도 4b는 인간 A549 및 HeLa S3에서 RNA-FISH 실험을 보여준다. NEAT1 프로브는 적은 형광 스폿(HeLa S3 세포에서 핵 당 1~2)을 생성하는 반면에서, MALAT1 프로브는 훨씬 많은 형광 스폿(HeLa S3 세포에서 핵 당 13)을 생성하였다. 카운트는 실험당 프로브당 100개의 핵을 기반으로 한다.
도 5a 및 도 5b는 RICh-PET 데이터를 특성화한 것이다. 도 5a는 게놈에서 RNA 태그 클러스터 위치의 카테고리의 파이 차트를 보여 주는 것으로, 대부분의 RNA 태그들은 추정 ncRNA 영역에서 발견되는데, 3%만이 단백질을 코딩하는 엑손과 중첩한다. 많은 공지된 ncRNA를 검출하고, 많은 새로운 ncRNA를 확인하였다. 도 5b는 게놈에서 DNA 태그 클러스터 위치의 카테고리의 파이 차트를 보여 주는 것으로, 대부분의 DNA 태그 클러스터들은, 대부분 프로모터 또는 인트론에서, 단백질 코딩 영역에 맵핑하였다.
도 6a 및 도 6b는 MALAT1 상호작용에 의한 다중-표적 및 다중-기능을 보여준다. 도 6a는 59 게놈 좌위와 상호작용하는 MALAT1의 연결성 맵이다. 도 6b는 프로모터 영역에서 MALAT1를 갖는 유전자가, 인트론 영역에서 MALAT1 상호작용을 갖는 유전자보다, 더 높은 RNA-seq 리드(reads)를 가지고 있다는 것을 보여주는 박스 그래프를 나타낸다. RNAPII ChIP-Seq 세기의 집합 그래프(미도시)에서, 프로모터 영역에서 MALAT1 존재를 갖는 유전자가 인트론 영역에서 MALAT1 상호작용을 갖는 유전자보다 더 높은 RNA-seq 리드를 가지고 있다.
도 7은 몇 개의 타겟 유전자를 위한 전사 활성체 또는 공동-활성체로서 작용하는 CCAT1 및 이의 IncRNA 전사체의 개괄적 도면을 보여준다.
도 8a는 서열번호 9에 해당하는, CCAT1 게놈성 및 cDNA 서열의 인간 염색체 8번 상에서의 위치를 보여준다. 도 8b는 서열번호 1내지 8에 해당하는, 8개의 추가적인 CCAT1 게놈성 및 cDNA 서열(각각 CCAT1_JAX_1 내지 _8)의 인간 염색체 8번 상에서의 위치를 보여준다. 채워진 박스는 엑손 서열을 나타내는 반면에, 엑손 서열을 연결하는 선은 인트론 서열을 나타낸다.
도 9a는 100만 리드당 kb당 리드(reads per kb per million reads, RPKM)에서, RNA-Seq 데이터에 의하여 측정된 XIST (여성 세포에서 X 염색체를 특이적으로 타겟팅함)의 카운트를 보여준다.
도 9b는 XIST 결합으로 커버링된 각 염색체의 비율을 보여준다.
도 1b는 변경된 RNA 링커를 이용한 RICh-PET 방법의 전형적인 설정의 개략적 흐름을 보여준다.
도 1c는 직접 RNA 링커를 이용한 RICh-PET 방법의 전형적인 설정의 개략적 흐름을 보여준다. "App"는 제1 폴리뉴클레오티드의 5'-말단에서 5'-아데닐화를 나타낸다.
도 2a 내지 도 2c는 선택된 RICh-PET 라이브러리의 통계, 및 시퀀싱 및 맵핑 데이터를 나타낸다. 도 2a는 단일 PET (기타 PET 서열과 중복되지 않음) 및 PET 클러스터의 비율을 나타낸다. PET 클러스터 데이터를 이용하여, 대략 700 RNA 좌위 및 약 5000 DNA 좌위를 확인하였다. 도 2b는 RICh-PET 데이터에 의하여 확인된 RNA 및 DNA 좌위에서의 RNA-Seq 세기를 보여준다. 도 2c는 ncRNA 상호작용을 정의한 대부분의 RICh-PET 데이터는 트랜스-작용적(trans-acting)이고 염색체 간(inter-chromosomal)에 대한 것임을 보여 준다.
도 3은 상기 대상 방법의 재현성 및 감도를 입증한다. 도면은 인공 및 생물학적 복제물에서 확인된 RNA 상호작용 부위의 비교를 보여주는 대표적인 분산 그래프를 나타낸다. 공지의 lncRNAs MALAT1(PET 카운트 174) 및 NEAT1(PET 18)를 RICh-PET 데이터(미도시)에서 반복적으로 검출하였다. 또한, RNAPII ChIA-PET 데이터는, 이러한 두 IncRNA도 공동조절을 위하여 가능한 동일한 RNAPII 전사 복합물 내에서 공간적으로 연결됨을 보여 준다. 또한, RNA-Seq 및 RNA-PET 데이터를 이용하여 HeLa S3(데이터 미도시)에서 ncRNA 유전자의 발현 레벨을 평가하였다. 두 데이터는, MALAT1는 고도로 발현되고, NEAT1는 중간 레벨로 발현되며, HOTAIR는 매우 낮은 레벨로 발현된다는 것을 보여 주었다. HOTAIR 위치에서의 RICh-PET 맵핑은 이 부분(데이터 미도시)에서 빈약한 RICh-PET 데이터를 보여 준다.
도 4a 내지 4b는 NEAT1 및 MALAT1 RICh-PET 데이터를 입증하기 위한 데이터를 보여 준다. 도 4a는 두 NEAT1 및 MALAT1가 HeLa S3 세포에서 발현되고, RICh-PET 데이터에서 풍부하게 검출된다는 것을 보여 준다. 두 RNA 및 DNA 태그들은 동일한 위치에서 단거리에서 맵핑되기에, NEAT1는 시스-작용적(cis-acting)에서만 한정적이다. DNA 태그들은 동일한 염색체 또는 상이한 염색체에서 장거리로 맵핑되기에, MALAT1는 대부분 트랜스-작용적이다(inset). 도 4b는 인간 A549 및 HeLa S3에서 RNA-FISH 실험을 보여준다. NEAT1 프로브는 적은 형광 스폿(HeLa S3 세포에서 핵 당 1~2)을 생성하는 반면에서, MALAT1 프로브는 훨씬 많은 형광 스폿(HeLa S3 세포에서 핵 당 13)을 생성하였다. 카운트는 실험당 프로브당 100개의 핵을 기반으로 한다.
도 5a 및 도 5b는 RICh-PET 데이터를 특성화한 것이다. 도 5a는 게놈에서 RNA 태그 클러스터 위치의 카테고리의 파이 차트를 보여 주는 것으로, 대부분의 RNA 태그들은 추정 ncRNA 영역에서 발견되는데, 3%만이 단백질을 코딩하는 엑손과 중첩한다. 많은 공지된 ncRNA를 검출하고, 많은 새로운 ncRNA를 확인하였다. 도 5b는 게놈에서 DNA 태그 클러스터 위치의 카테고리의 파이 차트를 보여 주는 것으로, 대부분의 DNA 태그 클러스터들은, 대부분 프로모터 또는 인트론에서, 단백질 코딩 영역에 맵핑하였다.
도 6a 및 도 6b는 MALAT1 상호작용에 의한 다중-표적 및 다중-기능을 보여준다. 도 6a는 59 게놈 좌위와 상호작용하는 MALAT1의 연결성 맵이다. 도 6b는 프로모터 영역에서 MALAT1를 갖는 유전자가, 인트론 영역에서 MALAT1 상호작용을 갖는 유전자보다, 더 높은 RNA-seq 리드(reads)를 가지고 있다는 것을 보여주는 박스 그래프를 나타낸다. RNAPII ChIP-Seq 세기의 집합 그래프(미도시)에서, 프로모터 영역에서 MALAT1 존재를 갖는 유전자가 인트론 영역에서 MALAT1 상호작용을 갖는 유전자보다 더 높은 RNA-seq 리드를 가지고 있다.
도 7은 몇 개의 타겟 유전자를 위한 전사 활성체 또는 공동-활성체로서 작용하는 CCAT1 및 이의 IncRNA 전사체의 개괄적 도면을 보여준다.
도 8a는 서열번호 9에 해당하는, CCAT1 게놈성 및 cDNA 서열의 인간 염색체 8번 상에서의 위치를 보여준다. 도 8b는 서열번호 1내지 8에 해당하는, 8개의 추가적인 CCAT1 게놈성 및 cDNA 서열(각각 CCAT1_JAX_1 내지 _8)의 인간 염색체 8번 상에서의 위치를 보여준다. 채워진 박스는 엑손 서열을 나타내는 반면에, 엑손 서열을 연결하는 선은 인트론 서열을 나타낸다.
도 9a는 100만 리드당 kb당 리드(reads per kb per million reads, RPKM)에서, RNA-Seq 데이터에 의하여 측정된 XIST (여성 세포에서 X 염색체를 특이적으로 타겟팅함)의 카운트를 보여준다.
도 9b는 XIST 결합으로 커버링된 각 염색체의 비율을 보여준다.
발명의 상세한 설명
1.
개관
본원에 기재된 발명은, ncRNA가 핵 공간에서 후생적 조절 역할을 한다면, 염색질 상태 및 타겟 유전자 활성을 조절하기 위하여 기능이 일어나는, 염색체 내의 소정 위치에서 염색질과 직접적으로 또는 간접적으로 상호작용해야 할 것이라는 사실에 부분적으로 기초한다. 따라서, 본원에 기재된 발명은 RNA-DNA 결찰을 통하여 ncRNA-염색질 상호작용을 전반적으로 맵핑한 후, 쌍 말단-태그 시퀀싱을 하는 새로운 접근법(RICh-PET)을 제공한다.
간략히, 본원에 기재된 조성물은 다음 세 가지 주요한 부분을 포함하는 방법에 이용될 수 있다: 1) 살아있는 세포(예컨대, 생체외로 배양된 세포 또는 조직 샘플에서 얻은 1차 세포)에서 RNA, DNA, 및 단백질 사이의 (바람직하게는 모든) 분자 상호작용을 캡쳐링하기 위한 염색질 가교; 2) 테더링된 상호작용하는 RNA와 염색질 DNA 단편의 결찰(예, RNA 링커 및 DNA 링커 쌍과 같이, 특이적으로 설계된 링커를 통하여, 또는 RNA 3'-말단에서부터 5'-아데닐화 ssDNA 또는 5'-아데닐화 돌출부를 통하여); 및 3) ncRNA 전사 부위 및 게놈에서 그것들의 염색질 타겟 부위를 국소화하기 위하여 RNA-DNA 결찰 생성물 또는 그로부터 유래된 태그 서열(예, PET 폴리뉴클레오티드)의 시퀀싱 및 맵핑 분석.
따라서, 본 발명의 일 태양은 게놈의 비-코딩 RNA (ncRNA)를 위한 게놈 내에서 기능적 상호작용 좌위를 확인하는 방법으로서, 상기 방법이 (1) 가교된 게놈 DNA 단편 및 가교된 ncRNA (또는 이의 단편)을 포함하는 염색질 단편을 제공하는 단계; (2) 근접 결찰의 조건 하에서, 가교된 게놈 DNA 단편의 말단을 가교된 ncRNA의 말단에 결찰하는 단계; (3) 시퀀싱 분석을 위하여, 쌍-말단 태그(PET) 폴리뉴클레오티드를 단리하는 단계로서, 상기 PET 폴리뉴클레오티드는 비-코딩 RNA (ncRNA)의 서열태그 및 게놈 DNA의 서열 태그를 포함하는 단계; 및 (4) 상기 게놈 DNA의 서열 태그 및 상기 ncRNA의 서열태그를 참조 게놈에 맵핑하여, 상기 참조 게놈의 상기 비-코딩 RNA (ncRNA)를 위한 참조 게놈 내에서 기능적 상호작용 좌위를 확인하는 단계를 포함하는 방법을 제공한다.
이러한 RNA-DNA 결찰 접근법은 모든 ncRNA-염색질 상호작용에 대한 전반적인 연구에 적용될 뿐만 아니라, 특이적인 염색체 위치에서의 RNA-단백질 상호작용을 연구하는 데에 적용될 수 있다. 따라서, 염색체 면역침전(chromosomal immunoprecipitation, ChIP)-기반 RICh-PET 방법은 RNA-단백질-염색질 상호작용 정보의 추가적인 특이성을 제공할 수 있었다.
본 발명의 시약 및 방법은 연구, 개발, 약물 타겟 규명(drug target identification), 약물 스크리닝, 진단, 치료/효능 모니터링, 예측 등등의 넓은 범위에서 잠재적 용도를 가진다. 예를 들면, 본 발명의 시약 및 방법을 사용하여, 많은 확립된 세포주, 줄기 세포, iPS 세포, 및 암과 건강한 조직 대조군에서 유래되는 세포와 같은 일차 조직으로부터의 세포에서 ncRNA-염색질 상호작용체를 광법위하게 특성화할 수 있으며; 게놈의 생산을 조절하는 데 있어서, 거대한 복합체 세계의 RNA 기능을 규명하는 능력을 크게 증가시킬 수 있다. RNA-염색질 상호작용체의 특성화를 성공적으로 이루어냄으로써, 건강한 조건 그리고 질병있는 조건에서 게놈이 어떻게 기능하는지를 이해하는데 도움을 주는 또 다른 차원의 게놈 정보를 추가하도록 하는, 대부분의 ncRNA 종의 광범위한 염색질 어드레스를 제공한다.
본 발명의 몇 개의 특정 구현예가 하기에 더 자세히 기재되어 있다.
a) RNA 링커 및 DNA 링커 쌍
제1 특정 구현예에서, 본 발명의 상기 방법을 RNA 링커 및 DNA 링커 쌍을 이용하여 실시하여 동일한 염색질 단편에서 가교된 RNA 및 염색체 DNA를 결찰할 수 있다.
따라서, 본 발명의 일 태양은, (1) RNA 링커로서, (i) 제1 폴리뉴클레오티드, 및 (ii) 제2 폴리뉴클레오티드를 포함하며, 상기 제1 및 제2 폴리뉴클레오티드는, 제1 결찰 호환성 말단의 측면에 위치하는 제1 이중 가닥 영역 및 제1 폴리뉴클레오티드의 3'-말단에서의 3'-돌출부를 형성하되, 상기 3'-돌출부는 랜덤-서열 프라이머를 포함하는 RNA 링커; 및 (2) DNA 링커로서, (iii) 제3 폴리뉴클레오티드, 및 (iv) 제4 폴리뉴클레오티드를 포함하며, 상기 제3 및 제4 폴리뉴클레오티드는, 평활 말단(blunt end) 및 제2 결찰 호환성 말단의 측면에 위치하는 제 2 이중 가닥 영역을 포함하는 DNA 링커를 포함하되, 상기 제1 및 제2 결찰 호환성 말단은 서로 결찰하거나 서로 결찰하는데 적합한 키트를 제공한다.
소정 구현예에서, 제1 결찰 호환성 말단은 제2 폴리뉴클레오티드의 제 3'-말단에서 3'-돌출부이고, 제 2 결찰 호환성 말단은 제3 폴리뉴클레오티드의 제 3'-말단에서 3'-돌출부이며, 두 3'-돌출부는 결찰을 위하여 서로 어닐링한다.
소정 구현예에서, 제1 결찰 호환성 말단은 제1 폴리뉴클레오티드의 제 5'-말단에서 5'-돌출부이고, 제 2 결찰 호환성 말단은 제4 폴리뉴클레오티드의 제 5'-말단에서 5'-돌출부이며, 두 5'-돌출부는 결찰을 위하여 서로 어닐링한다.
소정 구현예에서, 제1 및/또는 제2 결찰 호환성 말단은 결찰에 적응적일 수 있다. 예를 들면, 필수 3' 또는 5' 결찰용 돌출부를 가지는 대신에, 제1 및/또는 제2 결찰 호환성 말단은, RE에 의하여 절단되어 결찰에 필요한 필수 3' 또는 5' 돌출부를 생성할 수 있는 제한 효소(RE)의 부위를 포함할 수 있다. 그러나, 제한 효소에 의한 절단 전에, 결찰 호환성 말단은 말단이 평활화하거나(예, 자기-결찰을 방지하기 위한 탈인산화된 평활 말단), 기타 결찰 호환성 말단과 자기-결찰 또는 결찰을 막는 비-호환성 돌출부를 가질 수 있다.
소정 구현예에서, 호환성 결찰 말단의 두 5'- 또는 3'-돌출부는 자기-어닐링하지 않으며 서로 어닐링하지 않는다. 이는, 예를 들면, 적어도 링커가 사용될 수 있는 조건 하에 있을 경우, 돌출부 서열들은 자기-어닐링하거나 서로 어닐링하도록 돌출부의 서열을 설계함으로써, 달성할 수 있다.
이러한 설계는, 예를 들면, 하향단계가 PCR 증폭을 포함하는, 소정 구현예에서 유리할 수 있다. 흔히 관찰되는 형태의 비-특이적 증폭 산물은 "프라이머 다이머(primer dimer)"로 불리는 증폭 반응의 템플릿-독립적 가공물(template-independent artifact)이며, 이것은, 길이가 일반적으로 두 개의 프라이머 길이의 합에 가까운 이중-가닥 단편이며, 하나의 프라이머가 다른 프라이머 너머로 연장되는 경우에 나타난다. 그 결과의 연장 산물은 바람직하지 않은 템플릿을 형성하는데, 이것은 그 짧은 길이로 인하여 효율적으로 증폭된다.
제1, 제2, 제3, 및 제4 폴리뉴클레오티드 각각은, 합성된 폴리뉴클레오티드와 같은, 별도의 용기 내에서, 냉동건조 형태나 동결건조 형태로 또는 물이나 적합한 버퍼 용액 내에서, 제공될 수 있다. 대안적으로, 제1 및 제2 폴리뉴클레오티드는 동일한 용기에서, 예를 들면, 1:1 몰 비율로, 조합되어, 예비-어닐링된 RNA 링커로서 이용될 수 있다. 유사하게, 제3 및 제4 폴리뉴클레오티드는 동일한 용기(동결건조 또는 용액 내에서)에서, 예를 들면, 1:1 몰 비율로, 조합되어, 예비-어닐링된 DNA 링커로서 이용될 수 있다.
제2, 제3, 및 제4 폴리뉴클레오티드는 본질적으로 동종이거나 순수한(예, 동일한 용기 내의 개별 폴리뉴클레오티드 분자들은 동일함) 반면에, 제3'-돌출부 영역의 제1 폴리뉴크레오티드의 제3'-말단은 랜덤-서열 프라이머(예, 동일한 용기 내의 개별 제1 폴리뉴클레오티드 분자는, 각각이 3'-돌출부 영역 내에서 상이한 랜덤 서열 프라이머를 가질 수 있다는 것을 제외하고는, 동일함)를 포함한다. 따라서, 제1 폴리뉴클레오티드는, 개별 폴리뉴클레오티드의 랜덤-서열 프라이머 영역에서만 상이한 폴리뉴클레티드의 혼합물인 점에서, 독특(unique)할 수 있다.
그러나, 관련 구현예에서, 정의된 3'-말단 서열을 갖는 특이적 ncRNA가 관심의 대상이라면, 정의된 3'-말단 서열을 갖는 특이적 ncRNA으로부터 특이적으로 제1 가닥 cDNA 합성을 개시하기 위하여, 본 발명의 제1 폴리뉴클레오티드는 동일한 매칭 서열을 랜덤-서열 프라이머 영역에서 동종적으로 함유할 수 있다.
랜덤-서열 프라이머는, 일반적으로, 비-코딩 RNA의 3'-말단으로부터 제1 가닥 cDNA 합성을 지시할 수 있기 위한 충분한 길이(예, 헥사머)를 가진다. 헥사머 랜덤 서열을 이용할 수 있는 경우에도, 4, 5, 7, 8, 9, 10, 11, 및 12개의 랜덤 서열 프라이머와 같은 다른 길이도 이용할 수 있다.
소정 구현예에서, 랜덤-서열 프라이머에서 가장 많은 3'-말단은 디옥시티미딘(T) 또는 우리딘(U), 또는 mRNA의 폴리 A 테일에서 아데닌(A)을 갖는 염기 쌍일 수 있는 기타 뉴클레오티드 유사체도 아니다. 그러한 설계는 mRNA의 폴리 A 테일로부터의 역전사를 회피하도록 도울 수 있다.
제2 및 제3 폴리뉴클레오티드의 3'-말단(제1 및 제2 결찰 호환성 말단)에서의 5'- 또는 3'-돌출부를 서로 어닐링하도록 상보적으로 설계한다. 제2 및 제3 폴리뉴클레오티드의 돌출부 영역의 길이는 동일할 수 있으나, 동일할 필요는 없다. 소정 구현예에서, 두 폴리뉴클레오티드의 돌출부 영역에서 약 2, 3, 4, 5, 6, 7, 8개 또는 그 이상의 뉴클레오티드는 상보적이며 염기 쌍(왓손-크릭 또는 워블 염기 쌍)을 형성할 수 있다.
소정 구현예에서, RNA 링커 상의 제1 이중 가닥 영역의 길이는 약 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 50, 60개 또는 그 이상의 염기 쌍이다.
소정 구현예에서, DNA 링커 상의 제2 이중 가닥 영역의 길이는 약 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 50, 60개 또는 그 이상의 염기 쌍이다.
소정 구현예에서, 결찰된 RNA-DNA 링커에서, 제1 및 제2 이중 가닥 영역의 총 길이는, 약 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80개 또는 그 이상의 염기 쌍이다.
소정 구현예에서, 제1 이중 가닥 영역은, II형 제한 효소(RE)와 같은, 제1 제한 효소의 제1 인식 부위를 포함할 수 있다. RE 인식 부위는, RE가 그 부위를 절단할 때, RE 부위의 밖, 즉 랜덤-서열 프라이머에 대한 3'측을 절단할 수 있도록, 전략적으로 위치할 수 있다. 이는 RNA 링커에 연결된 RNA 태그를 생성할 수 있게 한다. 예를 들면, MmeI 인식 부위는, 제1 이중 가닥 영역의 일 말단에, 즉 제1 이중 가닥 영역의 다른 말단에서 떨어진 말단에 위치할 수 있다(RNA 링커 및 DNA 링커가 이들 각각의 3'-돌출부 영역을 통하여 연결하는 경우). MmeI가 절단하는 경우, 2-bp 돌출부를 갖는 18-bp 단편을 포함하는 RNA 태그가, 연결된 ncRNA에서 유래된 cDNA에서 생성하도록, MmeI 부위는 방향성을 가지도록 설계된다. 그러나, RE 부위의 배치는 제1 이중 가닥 영역의 말단에 있을 필요가 없다. 더 많은 내부 배치로 인하여, 대응적으로 더 짧은 RNA 태그 서열이 생성된다.
소정 구현예에서, 상기 (제1(II형) 제한 효소의) 제1 인식 부위의 마지막 뉴클레오티드는 랜덤-서열 프라이머에 대하여 5'측에 있는 마지막 염기-쌍 뉴클레오티드이다.
동일하게, 소정 구현예에서, 제2 이중 가닥 영역은, 제2 RE 인식 부위에 대하여 3'측 부분과 제3 폴리뉴클레오티드에 대하여 5'측 부분을 절단할 수 있는, II형 제한 효소(RE)와 같은, 제2 제한 효소에 대한 제2 인식 부위를 포함할 수 있다. RE 인식 부위의 배향은, 연결된 게놈 DNA의 말단 서열에 기초하여 DNA 태그를 생성하는 방식으로, 배열된다. 소정 구현예에서, RE 부위의 배치는 제2 이중 가닥 영역의 말단에 있을 필요가 없다. 더 많은 내부 배치로 인하여, 대응적으로 더 짧은 RNA 태그 서열이 생성된다.
소정 구현예에서, (제2(II형) 제한 효소의) 제2 인식 부위의 마지막 뉴클레오티드는 평활 말단에서 염기-쌍 뉴클레오티드이다.
소정 구현예에서, 제1 및 제2 (II형) 제한 효소들은 동일하다. 다른 구현예에서, 제1 및 제2 (II형) 제한 효소들은 상이하다.
I형 또는 III형 RE와 같은, 상대적으로 긴 태그 서열을 생성하는 RE에서, 제1 및 제2 RE 인식 서열의 배향은 역전되어, RNA 링커 내의 RE 부위가 DNA 태그의 생성을 지시하도록 하는데 반하여, DNA 링커 내의 RE 부위는 RNA 태그의 생성을 지시할 수 있도록 한다.
두 개의 인식 부위(IIB형 RE와 같은)를 인식하는 RE에서, RE 부위의 하나는 RNA 링커 내에 있고, 다른 하나는 DNA 링커에 있을 수 있어서, RNA 및 DNA 링커가 설계대로 정확하게 결찰되어 전체 RE 인식 부위를 재구성하는 경우, RE는 절단만 한다.
본 발명에 따라 이용될 수 있는 적합한 제한 효소가 하기에 상세히 기재되어 있다. 소정 구현예에서, 제1 또는 제2 제한 효소의 절단 부위는 인식 부위의 마지막 뉴클레오티드에 대하여 3'측 부분에는 적어도 약 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30개 또는 그 이상의 뉴클레오티드이다.
소정 구현예에서, RNA 링커, DNA 링커, 또는 둘 다는 RNA 태그 또는 DNA 태그를 생성하기 위한 제한 효소 인식 부위를 가지지 않는다.
소정 구현예에서, 제1, 제2, 제3 및 제4 폴리뉴클레오티드 중 하나 이상은 DNA이거나(예, 모두 DNA), DNA 및 RNA 모두를 포함한다. 다른 구현예에서, 그것들 중 임의의 하나는 RNA일 수 있다.
소정 구현예에서, 제1, 제2, 제3 및 제4 폴리뉴클레오티드 중 하나 이상은 변형 뉴클레오티드를 포함할 수 있다. 변형 뉴클레오티드는 5'-말단에, 3'-말단에, 및/또는 내부 위치에 있을 수 있다.
소정 구현예에서, 변형 뉴클레오티드는, 비오티닐화 dT(디옥시-티미딘)과 같은, 비오티닐화 뉴클레오티드이다. 비오티닐화 뉴클레오티드의 존재는, 예를 들면, 아비딘 또는 스트렙타비딘과 같은, 비오틴 결합 파트너에 결합된 수지, 아가로스, 나노입자, 금속 또는 자성 비드를 이용함으로써, 그러한 비오티닐화 뉴클레오티드를 하나 이상 포함하는 폴리뉴클레오티드의 친화성 정제를 허용한다. 이어서, 그러한 비드를 자석으로 분리할 수 있다. 비오티닐화 뉴클레오티드는 RNA 링커, DNA 링커, 또는 둘 다에 존재할 수 있다. 또한, 이 기술은, 단일 분자 실시간 시퀀싱(Pacific Bio); 이온 반도체 (Ion Torrent sequencing); 피로시퀀싱(454); 합성에 의한 시퀀싱(Illumina); 결찰에 의한 시퀀싱(SOLiD sequencing); 폴로니(polony) 시퀀싱; 대규모 병렬 시그네쳐 시퀀싱 (massively parallel signature sequencing, MPSS); DNA 나노볼 시퀀싱; 단일 분자 시퀀싱 또는 컬러 비드 또는 레이저- 또는 FACS-기반 분류용 기타 항체를 이용하는, Luminex-타입 시스템과 함께 사용하는 것 같은, 고속 처리 차세대 시퀀싱과 조합할 수 있다.
소정 구현예에서, 변형 뉴클레오티드는, ncRNA의 3'-말단을 갖는 랜덤 프라이머 사이에서 혼성화의 안정성 및/또는 특이성을 강화하는 것 같은, 랜덤 서열 프라이머의 능력을 강화하여, 역전사를 통하여 제1 가닥 cDNA를 합성한다.
소정 구현예에서, 랜덤 프라이밍 서열은, 자연적으로 발생하는 DNA 및 RNA에서 발견되는 종래의 2'-디옥시-D-리보스 또는 D-리보스 이외에, 당을 포함하는 적어도 하나의 뉴클레오티드를 포함할 수 있는데, 예를 들면, 곁기(side group)의 첨가 또는 치환에 의하여 당이 변환된 뉴클레오티드, 또는 당이 자연적으로 발생하는 DNA, RNA, 또는 둘 다에서 발견되는 종래의 2'-디옥시-D-리보스 또는 D-리보스의 입체이성질체인 뉴크레오티드를 포함할 수 있다. 미국 특허 번호 제 6,794,142호 참조(본원에 참조로서 병합됨). 그러한 변형 뉴클레오티드는 랜덤 프라이밍 서열의 3'-말단에 또는 근처에 있을 수 있다. 한 구현예에서, 변형 랜덤 프라이머 서열은, 3개의 3' 말단 뉴클레오티드 중 적어도 하나가 2'-O-메틸-뉴클레오티드, 2'-아미노-뉴클레오티드, 및 2'-플루오로-뉴클레오티드로 구성되는 군에서 선택되는 변형 뉴클레오티드인, 올리고뉴클레오티드로 본질적으로 구성된다. 한 구현예에서, 변형 랜덤 프라이머 서열은, 3개의 3' 말단 뉴클레오티드 중 적어도 하나가 2'-O-메틸-리보뉴클레오티드, 2'-디옥시-2'-아미노-뉴클레오티드, 및 2'-디옥시-2'-플루오로-뉴클레오티드로 구성되는 군에서 선택되는 변형 뉴클레오티드인, 올리고뉴클레오티드로 본질적으로 구성된다. 이러한 변형은 2' OH에 일부가 첨가하거나 2'-OH를 대체 부분으로 치환하는 것을 나타낸다.
소정 구현예에서, 랜덤 프라이밍 서열은 하나 이상의 LNA 또는 PNA를 포함한다. 헤어핀(hairpins)과 같은, RNA에서 흔하지 않은 열역학적으로 안정한 구조적 단편의 존재는, 프라이머 연장을 실행하는 것을 거의 불가능하게 할 수 있다. DNA 프라이머를 LNA-변형 프라이머로 치환하면, 이러한 한계를 극복할 수 있다 (Fratczak 등, Biochemistry, 48(3):514-6, 2009; Uppuladinne 등, Biomol . Struct. Dyn ., 31(6):539-60, 2013 참조).
뉴클레아제 분해에 저항성이 있는 뉴클레오티드간 연결을 만드는, 티오포스페이트(또는 포스포로티오에이트, 일반 화학식 PS4- xOx 3 - (x = 0, 1, 2, 또는 3)을 갖는 화합물 및 양이온의 일원) 변형과 같은, 다른 변형 뉴클레오티드, 모르폴리노 올리고뉴클레오티드, 2' F-ANA, 2'-O-알킬, 등도 링커에 결합하여 링커의 안정성과 뉴클레아제 저항 능력을 강화시킬 수 있다. Verma & Eckstein, "Modified oligonucleotides: synthesis and strategy for users,"Annu . Rev. Biochem ., 67:99-134, 1998 (본원에 참조로서 병합됨)을 참조.
소정 구현예에서, RNA 링커 및/또는 DNA 링커는, RNA 링커를 DNA 링커로부터 구별하거나 RAN/DNA 링커를 다른 RNA/DNA 링커로부터 구별하는(예, 두 셋트 이상의 RNA 링커가 함께 사용되는 경우) 독특한 서열(예, "바 코드")을 포함할 수 있다. 예를 들면, 제1 및/또는 제2 이중 가닥 영역은 RNA 링커를 DNA 링커로부터 구별하는 독특한 서열을 포함할 수 있다. 그러한 바 코드는, 2-, 3-, 4-, 5-, 6-, 7-, 8-, 9-, 10-뉴클레오티드 서열 (또는 그 이상)과 같은, 간단히 소형의 독특한 서열일 수 있다. 소정 구현예에서, RNA 링커 및 DNA 링커의 서열 차이는 RNA 링커를 DNA 링커로부터 구별하는데 충분할 수 있다. 소정 구현예에서, RNA 링커만이 또는 DNA 링커만이 독특한 서열/바 코드를 가진다. 소정 구현예에서, 두 RNA 링커와 DNA 링커가 각각의 독특한 서열/바 코드를 가진다.
소정 구현예에서, 제1 폴리뉴클레오티드는 탈인산화된다. 소정 구현예에서, 제2 폴리뉴클레오티드는 탈인산화된다. 소정 구현예에서, 제3 폴리뉴클레오티드는 탈인산화된다. 소정 구현예에서, 제4 폴리뉴클레오티드는 탈인산화된다. 탈인산화는, 각각이 동일한 염색질 단편 내 염색체 DNA 단편에 결찰될 수 있는 두 DNA 링커의 평활 단말을 통한 자가-결찰과 같은, 폴리뉴클레오티드 또는 DNA/RNA 링커의 자가-결찰을 회피하는 것을 도모할 수 있다. 또한, 링커 또는 링커의 결찰가능한 말단이 탈인산화된다면, 링커들은 결찰하여 링커의 다이머 또는 콘카테머(concatemer)를 형성할 것 같지는 않으리라 예상된다. 또한, DNA 링커가 염색체 DNA 분자의 인산화된 말단에 결찰하지만, 염색체 DNA 분자의 말단이 인산화될 때까지는 DNA 링커는 염색체 DNA 분자의 말단에 결찰연결될 수 없을 것이라 생각된다.
대안적인 구현예에서, 제1 및 제2 폴리뉴클레오티드는 혼성하거나; 한 말단에, 제1 폴리뉴클레오티드의 랜덤 프라이밍 서열을 포함하는 3'-돌출부를 가지며, 다른 말단에, 제한 효소를 위한 인식 부위를 포함하는 제1 결찰 호환성 부위를 가지는, RNA 링커를 형성할 수 있다. 유사하게, 제3 및 제4 폴리뉴클레오티드는 혼성하거나; 한 말단에, 염색체 단편의 자유단에 결찰하기 위한 평활 말단을 가지며, 다른 말단에, 동일한 제한 효소를 위한 인식 부위 또는 호환적인 결찰가능한 말단을 생성하는 호환성 제한 효소을 위한 인식 부위를 포함하는 제2 결찰 호환성 말단을 가지는, DNA 링커를 형성할 수 있다. 따라서, 제한 효소 및/또는 이의 호환성 RE에 의한 소화는 DNA 및 RNA 링커를 결찰하는데 사용될 수 있는 돌출부(3' 또는 5' 돌출부일 수 있음)을 생산한다.
이 구현예에서, 제한 효소 소화 전에, DNA 및 RNA 링커의 말단은 결찰가능성이 없으며(예를 들면, RNA 링커는 5' 돌출부를 가지며 DNA 링커는 3' 돌출부의 평활 말단을 가질 수 있거나 그 반대일 수 있음), 그러한 말단은 추가로 탈인산화될 수 있다. RE 소화 후에, DNA 및 RNA 링커 말단에서 결찰가능한 말단이 적절한 인산화와 함께 생성된다. 이어서, DNA 및 RNA 링커의 결찰가능한 말단은 결찰될 수 있다. 제한 후 결찰가능한 말단은 평활 말단이 되거나 5' 또는 3' 돌출부를 갖는 접착 말단을 가질 수 있다. 특히, 절제하는 제한 효소는, 의도하지 않은 위치에서 핵산 물질을 절단할 가능성을 감소 및/또는 매우 짧은 단편을 생산하기 위하여 드물게 이용될 수 있다.
본 폴리뉴클레오티드는 포스포트리에스테르 방법(Narang 등, 1979, Meth . Enzymol., 68:90-99); 포스포디에스테르 방법(Brown 등, 1979, Meth . Enzymol ., 68:109-151); 디에틸포스포르아미디테 방법(Beaucage 등, 1981, Tetrahedron Lett., 22:1859-1862); 및 고형 지지 방법(U.S. Pat. No. 4,458,066)과 같은, 방법(각각은 참조로서 본원에 병합됨)에 의한 직접 화학 합성을 포함하는, 임의의 적합한 방법에 의하여, 제조할 수 있다. 올리고뉴클레오티드 및 변형 뉴클레오티드의 접합체의 합성 방법에 대한 개요는 Goodchild, 1990, Bioconjugate Chemistry, 1(3):165-187 (본원에 참조로서 병합됨)에 제시되어 있다.
또한, 본 발명의 방법을 실행하기 위한 하나 이상의 추가적인 시약이 본 발명의 키트에 포함될 수 있다.
소정 구현예에서, 상기 키트는, 포름알데히드(예, 1% 포름알데히드)와 같은, 단백질 및 폴리뉴클레오티드를 가교 결합하는 시약을 추가로 포함한다.
소정 구현예에서, 상기 키트는 염색질 성분(예, 히스톤 또는 관심의 특이적 ncRNA)에 특이적으로 또는 선택적으로 결합하는 친화성 시약을 추가로 포함한다. 예를 들면, 친화성 시약은 항체(단일클론 항체와 같은) 또는 임의의 기능적 항원-결합 단편 또는 이의 유도체 중 하나 일 수 있다. 또한, 친화성 시약은 염색질 성분과 혼성화하거나/결합할 수 있는 폴리뉴클레오티드(안티센스 폴리뉴클레오티드)일 수 있다. 안티센스 폴리뉴클레오티드는 안티센스 폴리뉴클레오티드와 이의 상보적인 타겟 서열 사이에 형성되는 혼성화 복합체를 연속하여 캡쳐링하는데 용이하도록 표지할 수 있다. 예를 들면, 라벨은 아비딘 또는 스트렙타비딘이 코팅된 비드에 의하여 캡쳐링될 수 있는 비오틴 라벨(예를 들면, 비오티닐화 U 또는 T)일 수 있다. 또한, 안티센스 폴리뉴클레오티드는, 컬럼에 충진되거나, 상보적 타겟 서열의 친화성 캡쳐링을 위한 배치 혼합물에서 이용될 수 있는, 미세비드 또는 나노입자의 표면과 같은, 고형 지지체에 고정될 수 있다.
소정 구현예에서, 상기 키트는, 손상된 또는 비호환성 5'- 및/또는 3'-돌출 말단을 포함하는 DNA를 5'-인산화, 평활-말단을 갖는 DNA로 전환하는, 말단-보수 혼합물을 추가로 포함한다. 그러한 시약은, Epicentre의 End-It™ DNA End-Repair Kit와 같이, 상업적으로 용이하게 구입할 수 있다.
소정 구현예에서, 상기 키트는 DNA 리가아제(New England Biolabs (NEB)와 같은, 다양한 상업적인 원료로부터의 T4 DNA 리가아제)를 추가로 포함한다.
소정 구현예에서, 상기 키트는, 단백질 및 폴리뉴클레오티드(예, New England Biolabs (NEB)와 같은, 다양한 상업적인 원료로부터의 프로테나아제 K)의 가교를 가역하는 시약을 추가로 포함한다.
소정 구현예에서, 상기 키트는, 제1 및/또는 제2 제한 효소(들), 및 선택적으로는 RE 소화에 필요한 적합한 버퍼 또는 보조 효소를 추가로 포함한다.
소정 구현예에서, 상기 키트는 평활-말단된 이중 가닥 DNA의 PCR 증폭을 위한 한 쌍의 연접성 어댑터를 추가로 포함한다. 어댑터는 연쇄화에 유용한 제한 효소 부위를 포함할 수 있고, PCR 증폭에 적합한 PCR 프라이머 서열을 포함할 수 있다.
소정 구현예에서, 상기 키트는, PCR 증폭을 위한 Taq DNA 폴리머라제, 또는 기타 형태의 증폭(예, 순환 원형 증폭(rolling circle amplification))에 필요한 기타 DNA 폴리머라제를 추가로 포함한다.
소정 구현예에서, 상기 키트는, 제1 가닥 cDNA 합성용 역전사 효소를 추가로 포함한다.
본 발명의 다른 태양은, 제1 및 제2 결찰 호환성 말단을 통하여 연결된 제1 및 제2 이중 가닥 영역을 포함하는 중앙 영역을 포함하는 쌍-말단 태그(paired-end tag, PET) 폴리뉴클레오티드를 제공하며, 상기 중앙 영역은 (1) 제1 이중 가닥 영역의 근접한 부위에, 비-코딩 RNA(ncRNA)의 서열 태그; 및 (2) 제2 이중 가닥 영역의 근접한 부위에, 게놈 DNA의 서열 태그의 측면에 배치되어 있다.
그러한 PET 폴리뉴클레오티드는 RNA 태그 및 DNA 태그 둘 다를 포함하는데, 이들 각각은 ncRNA 및 게놈 DNA (쌍-말단 태그)의 말단 서열에서 유래한다. 또한, 쌍-말단 태그는, ncRNA 및 게놈 DNA 단편이 염색체 단편에서 서로 가까이에 있는 관찰된 이벤트 또는 사건을 나타낸다.
소정 구현예에서, 비-코딩 RNA(ncRNA)의 서열 태그는 제1 제한 효소에 의한 소화에서 얻어지는 자유단을 가진다.
제한 효소는 상기에서 기재된 것, 예를 들면, 인식 부위 밖에서 소화할 수 있는, II형 RE (IIS형, IIB형, IIG형, 등), I형 RE, 또는 III형 RE와 같은 것들 중 임의의 하나일 수 있다. 대안적으로, 자유단은, ncRNA에 해당하는 cDNA 상에 자연적으로 존재하는 RE 부위에 의하여 생성할 수 있다. 바람직하게, RE는 중앙 영역의 서열에 기초하여 선택함으로써, DNA 링커 및 RNA 링커를 연결하는 구조를 분해하기 위하여 RE가 중앙 영역 내부에서 절단하지 않도록 한다.
소정 구현예에서, ncRNA의 RNA 서열 태그 또는 게놈 DNA의 DNA 서열 태그는, 초음파에 의한 전단(shearing), 수리전단(hydroshearing), 피하 주사기 바늘을 통한 반복 끌기(drawing)와 같은 물리적 전단에 의하여 자유단을 가진다.
소정 구현예에서, ncRNA의 RNA 서열 태그 또는 게놈 DNA의 DNA 서열 태그는 미구균 뉴클레아제(micrococcal nuclease, NEB Catalog M0247S), DNase I (NEB Catalog M0303S), 이중 가닥 DNA의 한쪽 단으로부터 점진적으로 소화하는 엑소뉴클레아제, 또는 ncRNA의 가교된 게놈 DNA 또는 cDNA의 평균 길이를 줄이기 위한 엔도- 및 엑소-뉴클레아제(예, 엑소뉴클레아제 III 및 녹두 뉴클레아제)의 조합과 같은, 비-특이적 엔도뉴클레아제의 제한된 소화에서 얻어지는 자유단을 가진다. 효소 또는 기질 농도, 소화의 온도 및/또는 pH, 보조인자의 이용가능성, 또는 이들의 조합을 제한함으로써, 소화의 연장을 조절할 수 있다. 적합한 소화 조건은, 정의된 길이의 표준 기질 및 소화 전 및 후의 검사 소화 산물(CE의 전기영동(모세혈관 전기영동 등에 의함)을 이용하여 미리 테스트할 수 있다.
RNA 또는 DNA 서열 태그의 길이는, ncRNA가 전사되거나 게놈 DNA가 위치하는 게놈 영역을 독특하게 정의하는데 충분해야 한다. 예를 들면, 비-코딩 RNA(ncRNA)의 RNA 서열 태그 및/또는 DNA 서열 태그는 고등의 진핵생물의 상대적으로 복잡한 게놈에서는 약 10-100 염기쌍 길이(또는 15-50 bp, 20-40 bp, 20-30 bp, 20-25 bp)이나, 박테리아나 하등 원핵생물의 상대적으로 간단한 게놈에서는 더 짧을 수 있다(예, 6-10 bp, 8-10 bp, 8-12 bp).
관련 태양에서, 본 발명은 상기 대상 PET 폴리뉴클레오티드의 둘 이상의 멤버를 포함하는 쌍-말단 태그(paired-end tag, PET) 라이브러리로서, 상기 PET 라이브러리의 각 멤버는 동일한 상기 중앙 영역, 및 상기 비-코딩 RNA(ncRNA)의 상이한 RNA 서열, 상기 게놈 DNA의 상이한 DNA 서열 태그, 또는 둘 다를 포함하는 쌍-말단 태그 라이브러리를 제공한다.
또 다른 관련 태양에서, 본 발명을 상기 대상 PET 폴리뉴클레오티드를 포함하는 벡터 또는 재조합 벡터를 제공한다.
소정 구현예에서, 상기 벡터는 복수의 연결 대상 PET 폴리뉴클레오티드를 포함한다.
본 발명의 태양은, 게놈의 비-코딩 RNA (ncRNA)를 위한 게놈 내에서 기능적 상호작용 좌위를 확인하는 방법으로서, (1) 가교된 게놈 DNA 단편 및 가교된 ncRNA를 포함하는 염색질 단편을 제공하는 단계; (2) 본 발명의 RNA 링커 및 DNA 링커를 이용하여, 근접 결찰의 조건 하에서, 가교된 게놈 DNA 단편의 말단을 가교된 ncRNA의 cDNA의 말단에 결찰하는 단계로서, 상기 가교된 게놈 DNA 단편의 말단이 상기 DNA 링커에 결찰되고, 상기 가교된 상기 ncRNA의 상기 cDNA의 말단은 상기 RNA 링커를 포함하는 단계: (3) 시퀀싱 분석을 위하여, 본 발명의 PET 폴리뉴클레오티드를 단리하는 단계; 및 (4) 상기 각 PET 폴리뉴클레오티드 내의 상기 게놈 DNA의 서열 태그 및 상기 ncRNA의 상기 서열태그를 참조 게놈에 맵핑하여, 상기 참조 게놈의 상기 비-코딩 RNA (ncRNA)를 위한 참조 게놈 내에서 기능적 상호작용 좌위를 확인하는 단계를 포함하는 방법을 제공한다.
소정 구현예에서, 본 발명의 방법을, 조직 배양 세포 또는 갓 절개된 조직에서 단리한 세포와 같은, 살아있는 세포를 이용하여, 실시할 수 있다. 소정 구현예에서, 살아있는 세포에서 ncRNA 및 게놈 DNA는 포름알데히드- 및/또는 에틸렌 글리콜 비스[숙시닐미딜숙시네이트](ethylene glycol bis[succinimidylsuccinate], EGS)-매개 가교를 통하여 가교된다. 또한, 단백질-DNA, 단백질-RNA, 및/또는 단백질-단백질(예, 아미드기 및/또는 티올기와 반응하는데 적합한 둘 이상의 반응성 화학기를 가지는 것들)을 가교하는데 적합한 기타 유사한 이관능 가교 시약이 이용될 수 있다. EGS를 사용하면, 더 길거나 짧은 스페이서(예, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20개 원자 스페이서)가 또한 사용될 수 있음에도 불구하고, 두 NHS-에스테르 사이의 스페이서 영역은 12개 원자 스페이서 일 수 있다.
포름알데히드 또는 EGS(일반적으로 1-2 mM 또는 1.5mM)가 사용되면, EGS를 처음 첨가한 다음, 포름알데히드(약1%)를 첨가한다. 반응은 글리신으로 정지시킬 수 있다. 대안적으로, 약 1% 포름알데히드 또는 약 1% 글루타르알데히드를 사용할 수 있다.
다른 구현예에서, 핵산을 UV 가교를 통하여 염색질에 가교한다. 예를 들면, 조직 배양 세포를 254nm에서 약 150mJ/cm2로 UV-가교할 수 있다 (Stratalinker® UV 가교기와 같은, UV 가교기를 이용).
예를 들면, 약 1 - 2 x 108 살아있는 조직 배양 세포 또는 단리 세포를 먼저 수거하고, 40분 동안 흔들면서 EGS로 가교한 다음, 실온에서 포름알데히드(최종 농도 약 1%, Sigma)로 10분동안 가교한다.
프로테이나아제 저해제 및/또는 RN아제 저해제를 첨가하여 비특이적 프로테이나제 또는 RN아제 소화를 방지한다.
이어서, 세포를 적합한 용해 버퍼(예, 50 mM HEPES, 1 mM EDTA, 0.15 M NaCl, 1% SDS, 1% Triton X-100, 0.1% 소듐 디옥시콜레이트, 모두 Ambion에서 얻음)에서 용해한다.
가교 단계가 완료되면, 다양한 방법을 이용하여 가교된 게놈 DNA 및 ncRNA를 포함하는 염색질 단편을 생산할 수 있다.
예를 들면, 소정 구현예에서, 초음파처리, 수리전단(hydroshearing), 피하 주사기 바늘을 통한 반복 끌기(drawing)와 같은 물리적 전단에 의하여 염색질 단편을 생성한다. 의사(spurious), 랜덤, 또는 약한 ncRNA-염색질-DNA 상호작용을 "회피"하면서, 염색질 섬유를 RNA, DNA, 및 단백질 성분을 갖는 테더링된 복합체로 분쇄하는데, 초음파 처리가 유리할 수 있다.
대안적으로, 소정 구현예에서, 적합한 길이의 RNA 및 DNA 태그를 생산하기 위하여, 조절된 조건 하에서 제한 효소 소화, 또는 부분적 또는 제한된 엔도- 및/또는 엑소-뉴클레아제 소화에 의하여 염색질 단편을 생성할 수 있다.
가교된 게놈 DNA 단편 및 가교된 ncRNA를 포함하는 염색질 단편을 생성하기 위하여, 염색질을 초음파로 용해할 수 있다(예, 20% 듀티 파우어 출력으로 작동되는, Branson 450 초음파 세포 분쇄기를 30초 동안 5 내지 8번 이용하거나; 또는 35% 파우어 출력으로 작동되는, 탐지 초음파 발생 장치를 1.5분 동안, 20초 온 / 30초 오프 사이클로 이용함).
초음파 처리를 위하여 기타 상업적으로 입수가능한 기구를 이용할 수 있다. 예를 들면, Covaris사의 S220 Focused-ultrasonicator는 DNA, RNA, 및 염색질 전단을 위한 Adaptive Focused Acoustics™ (AFA) 기술을 이용한다. 제조자에 따르면, 이의 소프트웨어는, 특이적 단편 길이에 대한 DNA 전단과 같은, 표준 방법을 위한 다양한 미리 조정된 프로토콜을 포함한다. 대안적으로, 벤치탑(bentchtop) 초음파처리 장치인 Bioruptor® UCD-200 (Life Technologies사)도 초음파처리 전단을 위하여 이용할 수 있다. 상기 장치는 수조 아래에 설치되는 고출력 초음파 발생 수단으로 구성되며, 20 kHz 진동수(탐지 초음파발생장치에 유사함)에서 작동하여, ChIP, MeDIP과 같은, 표준화된 프로토콜에 적합한 자동화된 초음파처리 단계를 제공한다.
전단되면, 염색질을 희석하여(예, 10배) SDS 농도(예, 약 0.1-0.5%까지)를 낮춘다. 이어서, 추출액을 원심분리(예, 4℃에서 10분 동안, 14,000 rpm)에 의하여 맑게 한다. 이러한 추출액을 사용 전까지 80℃에서 저장할 수 있다.
면역침전을 바란다면, 약 2 ㎍의 단일클론 항체(염색질 성분에 특이적임)를 단백질 G 세파로스(Pharmacia)에 결합할 수 있다. 이어서, 항체 코팅 비드를 4℃에서 16시간 동안 염색질 추출액으로 배양한다. 이어서, 비드를 세정한다(예, Sigma Chemical사에서의 다음 시약과 함께: 세정 버퍼 1 (50 mM HEPES, 1 mM EDTA, 0.15 M NaCl, 0.1% SDS, 1% Triton X-100, 0.1% 소듐 디옥시콜레이트); 2 배 세정 버퍼 2 (50 mM HEPES, 1 mM EDTA, 0.5 M NaCl, 0.1% SDS, 1% Triton X-100, 0.1% 소듐 디옥시콜레이트); 1 배 세정 버퍼 3 (20 mM Tris.HCl pH 8.0, 1 mM EDTA, 0.25 M LiCl, 0.5% NP40, 0.5% 소듐 디옥시콜레이트); 1 배 세정 버퍼 4 (20 mM Tris.HCl pH 8.0, 1 mM EDTA). 이어서, 단백질-DNA 복합체를 용출 버퍼(예, 50 mM Tris. HCl pH 8.0, 1 mM EDTA, 1% SDS)로 비드로부터 65℃에서 20분 동안 용출한다. 이어서, 용출액을 PBS(Ambion)에서 투석하여 SDS를 제거한다(예, 4℃에서 3시간 동안).
선택적으로는, 염색질 단편도 비오티닐화할 수 있으며(예를 들면, EZlink Iodoacetyl-PEG2-Biotin (IPB) (Thermo Scientific, cat. 21334)을 이용함), 스트렙타비딘 비드-결합 염색질 단편으로서 단리할 수 있다. 예를 들면, 스트렙타비딘(Dynabeads® MyOne™ Streptavidin C1/T1)이 있는 Dynabeads®을 이용하여 비오티닐화 염색질 단편을 농축할 수 있다.
또한, 코팅막과 같은 실리카를 갖는 비드를 이용하여 염색질 단편 상의 가교된 핵산을 농축할 수 있다.
전단 또는 RE 소화 후에, 염색질 단편은 손상된 말단 또는, 그렇지 않으면, DNA 링커로 결찰에 부적절한 말단을 가질 수 있다. 따라서, 말단-쌍은, 제조자의 제안에 따라, 예를 들면, Epicentre로부터 End-It kit 또는 T4 폴리머라제(Promega, R0191)를 이용하여 실시할 수 있다.
제1 가닥 cDNA 합성을 역전사효소 및, Superscript III First Strand Synthesis System (Life Technologies, cat. 18080051)과 같은, RNA 링커(또는 하기 제2 구현예에서 변형 RNA 링커)를 이용하여 실시할 수 있다.
이어서, 평활 말단에서 5' 인산화를 갖는 수복된 염색질 DNA를 DNA 링커를 이용한 결찰에 이용할 수 있다. DNA 결찰을 위한 적정 버퍼 및 기타 반응 조건이 주어진다면, 이것은 RNA 링커를 이용한 역전사용의 동일한 용기에서 실시할 수 있다. T4 DNA 리가아제와 같은, DNA 리가아제는 이 반응을 위하여 이용될 수 있다. 이어서, 필요하면, 탈인산화된 DNA 링커를 인산화할 수 있다(예, T4 폴리뉴클레오티드 키나아제에 의함).
소정 구현예에서, 제1 가닥 cDNA 합성을 RNA 링커를 이용하여 실시한다(DNA 링커 결찰 전 또는 후에, 또는 이와 동시에).
소정 구현예에서, 가교된 ncRNA의 cDNA는 RNA 링커의 랜덤-서열 프라이머로부터 역전사된 제1 가닥 cDNA, 및 ncRNA 템플릿을 포함한다. RNA 링커의 존재로 인하여, 이러한 제1 가닥 cDNA 및 ncRNA 템프릿 혼성 분자는, 염색체 DNA 단편의 자유단에 이미 결찰된 DNA 링커에 결찰될 수 있다.
RNA 링커 및 DNA 링커가 적절히 타겟 핵산의 각 말단에 결찰되었다면, 근접 결찰을 실시하여 동일한 염색질 단편 상에서 DNA 링커 및 RNA 링커를 연결할 수 있다. 근접 결찰은 보통 희석된 환경에서 실시하여, 서로의 근접성으로 인하여, 동일한 염색질 단편 상의 RNA 및 DNA 링커는 상이한 염색질 단편 상의 RNA 및 DNA 링커에 비교하여 훨씬 더 많이 결찰될 수 있다.
소정 구현예에서, 근접 결찰은 링커 결찰 단계에 있어서, 약 2, 3, 4, 5, 6, 7, 8, 9, 10, 12, 13, 14, 15, 16, 70, 18, 19, 20-배 이상의 희석으로 실시할 수 있다.
일부 구현예에서, 근접 결찰은, 약 1 × 108 인간 세포에서 유래된 동량의 캡쳐링된 염색질 단편에서 약 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20 mL 이상의 총 결찰 부피에서 실시할 수 있다. 따라서 결찰 부피는 세포(예, 기원 종 또는 게놈 크기)의 유형에 기초하여 조정할 수 있다.
DNA 및 RNA 링커의 결찰을 최대화하기 위하여, 필요하면, 근접 결찰 조건을 변경하거나 조정할 수 있다. 임의의 결찰 조건은, 이에 제한되는 것은 아니지만, 결찰 반응 시간 및/또는 시약 농도를 증가시키거나 감소시키는 것을 포함하여, 변경하거나 조정할 수 있다. 즉, 결찰 반응을 조정하거나 변경하여, 동일한 염색질 단편에 가교된 별개의 핵산 분자의 분자간 결찰을 최대화한다. 특히, 핵산 분자의 희석 조건 하에서 결찰을 실시하여, 상이한 핵산 분자의 말단의 결찰을 최대화하고 원형 멀티머의 형성을 감소시킨다.
소정 구현예에서, 상기 방법은 상이한 염색질 단편에 가교된 게놈 DNA와 ncRNA 사이에 원하지 않거나 오류의 양성 결찰의 정도 또는 빈도를 평가하는 것을 포함한다. 이상적인 근접 결찰 조건에서, 동일한 염색질 단편에 가교된 게놈 DNA와 ncRNA만이 결찰되어야 한다.
예를 들면, 한 세트의 DNA 및 RNA 링커(예, 링커세트 A)를 한 반응 용기에서 각각 게놈 DNA 및 RNA 말단에 결찰하는데 사용할 수 있다. 한편, 제 2 세트의 DNA 및 RNA 링커(예, 링커세트 B)를 제 2 반응 용기에서 각각 게놈 DNA 및 RNA 말단에 결찰하는데 사용할 수 있다. 이어서, 두 반응 용기의 내용물을 근접 결찰을 위하여 모은다. 링커 세트 A의 RNA 링커를 두 링커 세트의 DNA 링커에 결찰될 수 있으면(그리고 링커 세트 A의 DNA 링커를 두 링커 세트의 RNA 링커에 결찰될 수 있으면), A 세트와 B 세트의 링커들 사이의 결찰이 없거나 거의 없으면 근접 결찰 조건은 최적이다. 반대로, A 세트와 B 세트의 링커들 사이에 유의한 결찰이 있으면, 근접 결찰 조건은 최적이 아니다.
소정 구현예에서, A 링커 세트와 B 링커 세트에서 RNA 및 DNA 링커의 비를 더 조정할 수 있다(예, 1:1일 필요는 없음). 예를 들면, B 링커 세트에 비하여, A 링커 세트에서의 RNA 및 DNA 링커의 비는 2:1, 3:1, 4:1, 5:1, 6:1, 7:1, 8:1, 9:1, 10:1일 수 있거나, 그 반대도 그렇다.
소정 구현예에서, 본 발명의 제1, 제2, 제3, 및/또는 제4 폴리뉴클레오티드를 탈인산화하고, DNA 링커 또는 RNA 링커는 자가-결찰하지 않는다.
제2 가닥 cDNA 합성은, 예컨대, Superscript Double-stranded cDNA Synthesis Kit(Life Technologies, cat. 1197-020)를 이용하여, RNA 링커-DNA 링커 결찰 이전 또는 이후에 완료할 수 있다. 소정 구현예에서, 근접 결찰 이후 (3) 단계 이전에, 제 2 가닥 cDNA 합성을 실시한다.
소정 구현예에서, 제 2 가닥 cDNA 합성 후에, T4 DNA 폴리머라제와 같은, DNA 폴리머라제를 첨가할 수 있다.
다음, 염색질 단편의 가교된 핵산 및 단백질 성분은 프로테이나제 K를 이용하여 역가교된다. 일반적인 반응 조건에서, 예를 들면, 15㎕의 20 mg/ml 프로테이나제 K (Ambion) 및 선택적으로는 0.3% SDS (Ambion)가 있는 경우 65℃에서 밤새 배양하여 샘플을 20㎕ 분량으로 역가교한다. 다음날, 약 1㎕의 10 mg/ml RN아제 A (Qiagen)를 첨가하여 RNA를 분해한 다음(예, 37℃ 45분 동안), DNA의 페놀 추출 및 에탄올 침전을 실시한다.
선택적으로, 적어도 하나의 연결되고 역가교된 핵산 분자의 정제 또는 농축을 적어도 두 성분을 포함하는 결합 시스템을 이용하여 실시할 수 있는데, 여기서 적어도 하나의 성분은 링커에 결합되며(예, RNA 또는 DNA 링커에 병합된 뉴클레오티드의 비오티닐화), 적어도 제2 성분은 제1 성분에 결합한다. 상기 성분은, 제한적이지는 않지만, 스트렙타빈-비오틴, 아비딘-비오틴, 단백질-항체 및/또는 자석/자성 물질을 포함한다.
특히, 비오티닐화 링커-결찰 핵산 물질을, 스트렙타비딘-접합 자성 DynabeadsTM (Life Technologies, cat.11206D-10ML)과 같은, 스트렙타비딘 비드를 이용하여, 정제할 수 있다. 비오티닐화 링커를 함유하는 핵산 물질만이 스트렙타비딘 비드 상에 고정될 수 있다. 사용된 링커에 다른 성분이 결합된다면, 이 성분에 적합한 핵산 분자를 정제하는 기타 시스템을 이용할 수 있다.
대안적으로, 스트렙타비딘 컬럼을 대신 이용하여 비오티닐화 비드를 캡쳐링할 수 있다. 또 다른 대안적으로, 유동 기반 탐지 기구(flow-based detection instrument, 예, Luminex® 100™, Luminex® 200™ 또는 Bio-Rad®Bio-Plex® 타입 분석기) 상에서, FACS 등에 의해 비드를 분류하거나 수집할 수 있도록, 상기 비드를 색 코팅하거나 형광 코팅할 수 있다.
그 결과의 용출된 DNA를 이용하여, 예를 들면, RE 효소 소화를 통하여 DNA 및 RNA 태그 쌍을 가지는 PET 폴리뉴클레오티드를 생산할 수 있다. 선택적으로는, 용출된 PET 폴리뉴클레오티드를, 시퀀싱하기 전에, PCR에 의하여 추가로 증폭할 수 있다. PCR 증폭을 실행하기 전에, PCR 어댑터를 PET 폴리뉴클레오티드(예를 들면, T4 DNA 리가제)의 양 말단에 결찰시킬 수 있다. 평활 말단이 된, 비-원형 핵산만을 어댑터에 결찰할 수 있다. 자가-결찰된 핵산 분자 및 원형 멀티머는 어댑터에 결찰될 수 없다.
또한, PCR 어댑터는 PCR 산물 정제를 위한 변형 뉴클레오티드를 포함할 수 있다. 유사하게, 이 목적을 위하여, 스트렙타비딘-비오틴, 아비딘-비오틴, 단백질-항체 및/또는 자석/자성 물질을 이용할 수 있다.
454 다중 시퀀싱 기계(454 life sciences)를 이용하는 454 시퀀싱과 같은, 다양한 차세대 시퀀싱을 위한 프로토콜에 따라, PET 폴리뉴클레오티드(증폭이 있거나 없음)를 직접 시퀀싱할 수 있다. 그 기술은 Margulies 등 (2005) 및 US특허출원번호 제20030068629호에 교시되어 있다(둘 다 참조로서 본원에 병합됨). 기타 고속처리 또는 차세대 시퀀싱(next-generation sequencing, NGS) 방법을 이용하여 PET 폴리뉴클레오티드의 서열을 결정할 수 있다.
많은 상업적으로 허용하는 기구, 소프트웨어, 또는 서비스를 이용하여, 수득한 RNA/DNA 태그 서열을 이들의 각 게놈 위치에 맵핑할 수 있다.
일단 PET 폴리뉴클레오티드의 RNA 및 DNA 태그가 시퀀싱되고 참조 게놈에 맵핑된다면, 각 연결된 RNA 태그 및 DNA 태그는 추정상의 ncRNA-염색질 상호작용을 나타낸다. 그러한 관찰된 상호작용들은, 참조 게놈의 비-코딩 RNA(ncRNA)를 위한 참조 게놈 내에서 기능적 상호작용 좌위를 구성한다.
소정 구현예에서, 상기 방법은, 게놈 DNA의 중첩 서열 태그 및 ncRNA의 중첩 서열 태그를 갖는 둘 이상의 PET 폴리뉴클레오티드의 클러스터를 확인하는 것을 추가로 포함한다.
PET 클러스터는, 더 신뢰적인 ncRNA-염색질 상호작용의 반복 탐색을 반영하는, 고 신뢰성 데이터로 여겨진다. 반대로, 기타 PET 서열을 갖는 두 RNA 태그 및 DNA 태그 상에 중첩이 없는 싱글톤(singleton) PET는 약한 연결 신호를 나타낼 수 있으며, 랜덤 배경 노이즈와는 구별될 수 없다.
소정 구현예에서, 상기 방법은 rRNA의 서열 태그를 포함하는 PET 폴리뉴클레오티드를 배제하는 것을 포함한다. 일부 rRNA-염색질-gDNA(게놈 DNA) 상호작용이 진정 생물학적 의미를 가질 수 있을지라도, 대량(일부 데이터 세트의 약 1/4)의 rRNA-염색질-DNA 상호작용의 존재가 또 다른 덜 풍부한 상호작용을 모호하게 할 수 있다. 따라서, 추가 데이터 분석 전 그러한 디지털 차감은 덜 빈번한 ncRNA-염색질 상호작용을 분석하기 위하여 바람직할 수 있다.
소정 구현예에서, 상기 방법은, 근접 결찰 단계 전에 염색질 단편 서브세트를 단리하거나 농축하는 것을 추가로 포함한다. 예를 들면, 염색질 단편 서브세트의 단백질 성분에 특이적인 항체를 이용한 면역침전에 의하여, 또는 염색질 단편 서브세트의 핵산 성분에 특이적인 (표지된) 폴리뉴클레오티드를 이용한 혼성화에 의하여, 염색질 단편 서브세트를 단리하거나 농축할 수 있다. 이는 공지된 염색질 성분 및 ncRNA 사이의 특이적 상호작용을 확인하는데 유용할 수 있다.
소정 구현예에서, 단백질 성분은, 히스톤, 전사 인자(예컨대, 일반 전사인자 RNAP II, RNAP, RNAP III), 염색질(예컨대, EZH2, 및 곤충, 포유류, 식물로부터의 다른 것)을 개조하는 폴리콤-그룹(polycomb-group, PCG) 계 단백질; 재조합 관여 인자(예컨대, PRDM9 등); 염색질 격리자(isolator) 또는 염색질 웨이버(waver)(예컨대, CTCF); 메틸-CpG-결합 단백질(예컨대, MeCP2); 또는 RNA 결합 단백질이다.
상기 방법의 변형에서, 가교 전에, 특이적으로 표지된 ncRNA(예컨대, 비오티닐화)를 세포에 첨가할 수 있다. 아비딘 또는 스트렙타비딘으로 코팅된 자성 비드를 이용하여, 그러한 표지된 ncRNA를 단리하거나 농축할 수 있다.
상기 방법의 또 다른 변형에서, 하나 이상의 특이적 관심 ncRNA에 대한 상보적 서열을 이용하여, 염색질 단편에 가교된 그러한 특이적 ncRNA(어레이 또는 컬럼을 이용)을 단리하거나 농축할 수 있다. 일단 단리되거나 농축되면, 그러한 염색질 단편에 상기 방법의 잔류 단계를 진행하여, 특이적 ncRNA와 상호작용하는 게놈 DNA의 영역을 확인할 수 있다.
소정 구현예에서, 상기 방법은, 예를 들면, DNA/RNA FISH 및 면역형광 분석에 의하여 하나 이상의 관찰된 ncRNA-염색질 상호작용을 확인하는 것을 추가로 포함한다. 예를 들면, 특이적 ncRNA가 특정 게놈 좌위에 연결되면, ncRNA를 이용하여 DNA/RNA FISH 및 면역형광 분석을 실시하여 관찰을 확인할 수 있다(예컨대, 도 4B 참조).
b) 변형 RNA 링커
다른/제2 특정 구현예에서, 변형 RNA 링커(및 DNA 링커 없음)을 이용하여, 본 발명의 상기 방법을 실시하여 동일한 염색질 단편에서 가교된 RNA 및 염색체 DNA를 결찰할 수 있다.
따라서, 본 발명의 다른 태양은 (i) 제1 폴리뉴클레오티드 및 (ii) 제2 폴리뉴클레오티드를 포함하는 변형 RNA 링커를 제공하며, 여기서, 상기 제1 및 제2 폴리뉴클레오티드는, 게놈 DNA 결찰 호환성 말단의 측면에 위치하는 이중 가닥 영역 및 제1 폴리뉴클레오티드의 3'-말단의 3'-돌출부를 형성하며, 상기 3'-돌출부는 랜덤-서열 프라이머를 포함한다.
본 발명의 이러한 태양에 따르면, 제1 폴리뉴클레오티드의 3'-말단의 3'-돌출부는 서브섹션 a)(RNA 및 DNA 링커 쌍)에 기재된 구현예에서의 RNA 링커와 유사한 기능을 가지는 반면에, 게놈 DNA 결찰 호환성 말단을 이용하여 동일한 염색질 단편에 가교된 평활 말단된 게놈 DNA에 결찰할 수 있다.
소정 구현예에서, 가교된 게놈 DNA 단편의 평활 말단에 직접 결찰하기 위하여, 결찰 호환성 말단은 평활화될 수 있다.
다른 구현예에서, 결찰 호환성 말단은, RE에 의하여 절단될 수 있는 제한 효소 부위를 포함하여, 가교된 게놈 DNA 단편의 평활 말단에 결찰하기 위하여 요구되는 필수 평활 말단을 생산할 수 있다. 그러나, 제한 효소에 의한 절단 전에, 결찰 호환성 말단은 말단이 평활화되거나(예, 자기-결찰을 방지하기 위한 탈인산화된 평활 말단), 자기-결찰 또는 결찰을 막는 비-호환성 돌출부를 가질 수 있다.
소정 구현예에서, 변형 RNA 링커는, 이의 3'-돌출부 또는 이의 결찰 호환성 말단을 통하여, 자기-결찰하지 않는다.
합성된 폴리뉴클레오티드와 같은, 제1 및 제2 폴리뉴클레오티드는, 별도의 용기 내에서, 냉동건조 형태나 동결건조 형태로 또는 물이나 적합한 버퍼 용액 내에서, 제공될 수 있다. 대안적으로, 제1 및 제2 폴리뉴클레오티드는 동일한 용기에서(동결건조 또는 용액 내), 예를 들면, 1:1 몰 비율로, 조합되어, 예비-어닐링되어 변형된 RNA 링커로서 이용될 수 있다.
제2 폴리뉴클레오티드는 본질적으로 동종적이거나 순수하며(예, 동일한 용기 내의 개별 폴리뉴클레오티드 분자는 동일함), 반면에 3'-돌출부 영역의 제1 폴리뉴클레오티드의 3'-말단은 랜덤-서열 프라이머를 포함한다.
관련 구현예에서, 특히, 정의된 3'-말단 서열을 갖는 특이적 ncRNA로부터 제1 가닥 cDNA 합성을 개시하기 위하여, 제1 폴리뉴클레오티드는 랜덤-서열 프라이머 영역에서 동일한 매칭 서열을 함유할 수 있다.
소정 구현예에서, 상기 이중 가닥 영역은, II형 제한 효소(RE)와 같은, 제1 제한 효소의 제1 인식 부위를 포함할 수 있다. RE 절단시, 랜덤-서열 프라이머에 대한 3', RE 부위의 밖에서 절단하도록, RE 인식 부위를 전략적으로 배치할 수 있다. 이는 RNA 링커에 연결된 RNA 태그를 생성하게 할 수 있다. 예를 들면, 랜덤-서열 프라이머를 포함하는 3' 돌출부에 근접한, 이중 가닥 영역의 말단에 MmeI 인식 부위를 위치할 수 있다. MmeI가 절단하는 경우, 2-bp 돌출부를 갖는 18-bp 분절을 포함하는 RNA 태그를, 연결된 ncRNA에서 유래된 cDNA에서 생성하도록, 상기 MmeI 부위는 방향성을 가지도록 설계된다. 그러나, RE 부위의 배치는 제1 이중 가닥 영역의 말단에 있을 필요가 없다. 더 많은 내부 배치는 해당하는 더 짧은 RNA 태그 서열을 생성한다.
소정 구현예에서, 상기 (제1(II형) 제한 효소의) 제1 인식 부위의 마지막 뉴클레오티드는 랜덤-서열 프라이머에 대하여 5'측에 있는 마지막 염기-쌍 뉴클레오티드이다.
소정 구현예에서, 상기 이중 가닥 영역은, 결찰 호환성 말단에서 또는 근처에서, II형 제한 효소(RE)와 같은, 제2 제한 효소의 제2 인식 부위를 포함할 수 있다. RE는 제2 RE 인식 부위에 대하여 3'측 부분 및 제1 폴리뉴클레오티드(예, 결찰된 게놈 DNA)에 대하여 5'측 부분을 절단한다. RE 인식 부위의 배향은, 연결된 게놈 DNA의 말단 서열에 기초하여 DNA 태그를 생성하는 방식으로, 배열된다. 소정 구현예에서, RE 부위의 배치는 이중 가닥 영역의 말단에 있을 필요가 없다. 더 많은 내부 배치는 대응적으로 더 짧은 RNA 태그 서열을 생성한다.
소정 구현예에서, (제2(II형) 제한 효소의) 제2 인식 부위의 마지막 뉴클레오티드는 결찰 호환성/평활 말단에서의 염기-쌍 뉴클레오티드이다.
소정 구현예에서, 변형 RNA 링커는 RNA 태그 또는 DNA 태그를 생성하는 제한 효소 인식 부위를 가지지 않는다.
소정 구현예에서, 변형 RNA 링커는, 변형 RNA 링커를 다른 변형 RNA 링커(들)과 구별하는 독특한 서열(예, "바 코드")를 포함할 수 있다.
소정 구현예에서, 제1 및/또는 제2 폴리뉴클레오티드는 탈인산화된다.
본 발명의 다른 태양은, (변형 RNA 링커의) 이중 가닥 영역을 포함하는 중앙 영역을 포함하는 쌍-말단 태그(paired-end tag, PET) 폴리뉴클레오티드를 제공하며, 상기 중앙 영역은 (1) 랜덤-서열 프라이머에 근접한 부위에, 비-코딩 RNA(ncRNA)의 서열 태그; 및 (2) 결찰 호환성 말단에 근접한 부위에, 게놈 DNA의 서열 태그의 측면에 위치한다.
관련 태양에서, 본 발명은 대상 PET 폴리뉴클레오티드의 둘 이상의 멤버를 포함하는 쌍-말단 태그(paired-end tag, PET) 폴리뉴클레오티드 라이브러리를 제공하는데, 상기 PET 라이브러리 각 멤버는 동일한 중앙 영역, 및 비-코딩 RNA(ncRNA)의 상이한 RNA 서열 태그, 게놈 DNA의 상이한 DNA 서열 태그, 또는 둘 다를 포함한다.
또 다른 관련 태양에서, 본 발명은 상기 PET 폴리뉴클레오티드를 포함하는 벡터 또는 재조합 벡터를 제공한다.
본 발명의 다른 태양은, 게놈의 비-코딩 RNA(ncRNA)를 위한 게놈 내에서 기능적 상호작용 좌위를 확인하는 방법으로서, 상기 방법은 (1) 가교된 게놈 DNA 단편 및 가교된 ncRNA를 포함하는 염색질 단편을 제공하는 단계; (2) RNA 링커 및 DNA 링커를 이용하여, 근접 결찰의 조건 하에서, 가교된 게놈 DNA 단편의 말단을 가교된 ncRNA의 cDNA의 말단에 결찰하는 단계로서, 상기 가교된 게놈 DNA 단편의 말단이 상기 변형 RNA 링커의 결찰 호환성 말단에 결찰되고, 상기 가교된 ncRNA의 상기 cDNA의 말단은 상기 변형 RNA 링커를 포함하는 단계: (3) 시퀀싱 분석을 위하여, 본 발명의 PET 폴리뉴클레오티드를 단리하는 단계; 및 (4) 상기 각 PET 폴리뉴클레오티드 내의 상기 게놈 DNA의 서열 태그 및 상기 ncRNA의 상기 서열태그를 참조 게놈에 맵핑하여, 상기 참조 게놈의 상기 비-코딩 RNA (ncRNA)를 위한 참조 게놈 내에서 기능적 상호작용 좌위를 확인하는 단계를 포함하는 방법을 제공한다.
소정 구현예에서, 가교된 ncRNA의 cDNA는, 변형 RNA 링커의 랜덤-서열 프라이머로부터 역전사된 제1 가닥 cDNA, 및 ncRNA 템플릿을 포함한다. 변형 RNA 링커의 존재로 인하여, 이러한 제1 가닥 cDNA 및 ncRNA 템플릿 혼성 분자는, 염색체 DNA 단편의 자유단에 결찰될 수 있다.
소정 구현예에서, 변형 RNA 링커 상의 이중 가닥 영역의 길이는 약 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 50, 60개 또는 그 이상의 염기 쌍이다.
서브섹션 a)(RNA 및 DNA 링커 쌍)에 기재된 제1 특정 구현예에 기재된 기타 구현예는 일반적으로 적용가능하며, 본 원에 병합된다(반복하지 않음).
c) 직접 RNA-DNA 결찰
다른/제3 특정 구현예에서, 후에 상보적 폴리뉴클레오티드로 혼성화되는 ssDNA, 또는 ncRNA의 3'-OH기에 대한 직접 결찰을 위한 효소의 기질로서 작용할 수 있는 5' 아데닐화 돌출부를 갖는 dsDNA와 같은, ncRNA의 3'-OH기를 5' 아데닐화 단일-가닥 DNA(5' App-ssDNA)에 직접적으로 결찰하는, 소정 효소(예컨대, 절단된 RNA 리가아제 2 또는 RNL2)를 이용하여, 본 발명의 방법을 실시할 수 있다.
따라서, 본 발명은 또한 동일한 염색질 단편에서 가교된 ncRNA의 3'-말단 및 가교된 게놈 DNA 단편의 자유단을 결찰하는 대안적 방법을 제공한다. 본 발명의 이러한 태양에 따르면, 5' 예비-아데닐화 (5' App ssDNA)를 갖는 단일 가닥 DNA 올리고뉴클레오티드를 제공한다. 이어서, RNA-DNA 리가아제(예컨대, 열고정 5' AppDNA/RNA 리가아제, NEB Catalog M0319S 또는 M0319L)를 이용하여 ncRNA의 3'-OH기를 5' App ssDNA에 직접 연결할 수 있다.
제조에 따르면, 열고정 5' App DNA/RNA 리가아제는 Methanobacterium thermoautotrophicum으로부터의 RNA 리가아제의 효소적 리신의 점 돌연변이이다(Zhelkovsky and McReynolds, BMC Mol . Biol., 13:24, 2012). 이러한 효소는 ATP에 의존적이나, RNA나 단일 가닥 DNA(ssDNA)의 3'-OH 말단으로의 결찰을 위한 5' pre-아데닐화 링커를 필요로 한다. 또한, 상기 효소는 2'-O-메틸화 3' 말단을 갖는 RNA를 5'-아데닐화 링커에 결찰하는 데에 활성이 있다(Zhelkovsky and McReynolds, supra). 돌연변이 리가아제는 RNA 또는 ssDNA의 5'-포스페이트을 아데닐화할 수 없으며, 이는 바람직하지 않은 결찰 산물(콘케이트머 및 원형)의 형성을 감소시킨다. 65℃에서 기능하는 리가아제의 성능은 RNA 결찰 반응에서 RNA 2차 구조의 제한을 추가적으로 감소시킬 수 있다.
본 발명의 이 구현예에서의 다른 적합한 리가아제는, Bioo Scientific (Austin, TX)의 AIRTM RNA Ligase 2 (RNL2)와 같은, RNA 리가아제 2이며, 이는 어댑터의 아데닐화 5' 말단을 RNA의 3' 말단에 특이적으로 결찰한다. 유사하게, 상기 효소는 결찰을 위한 ATP을 요하지 않으나, 랜덤 RNA 분자들 사이의 결찰량을 극적으로 감소시키는 아데닐화 기질을 요한다. 리가아제는 T4 RNA 리가아제 2의 절단 버전이다. 전장 RNA 리가아제 2와는 다르게, AIRTM 리가아제는, 아데닐화 기질 없이, RNA 또는 DNA의 인산화 5'-말단을 결찰하지 않는다.
대안적으로, T4 RNA 리가아제 1(NEB Cat. No. M0204S 또는 M0204L)를 사용하여 ncRNA 3'-OH을 5' 포스포릴-종단 ssDNA에 결찰할 수 있다.
일단 ncRNA의 3'-말단이 ssDNA에 결찰되면, 상보적 ssDNA가 ssDNA에 어닐링되어 결찰되어 제2 가닥 cDNA 합성을 개시 및/또는 동일한 염색질 단편에서 가교된 게놈 DNA 단편의 자유단을 갖는 결찰에 적합한 평활 말단을 형성할 수 있다.
대안적인 구현예에서, 돌출된 아데닐화 5' 말단이 ncRNA의 3'-OH에 직접 결찰되기 전에, 한 말단에서 평활 말단 (또는 결찰 호환성 말단) 및 다른 말단에서 (상기 다양한 RNA 리가아제용 단일 가닥 기질로 기능할 수 있는) 5' 아데닐화 돌출부를 갖는 dsDNA 링커는 우선 가교된 게놈 DNA 단편의 자유단에 결찰될 수 있다.
동일하게, 결찰된 RNA 링커-DNA 링커 또는 변형 RNA 링커를 위하여 상기에 기재된 모든 구현예 또는 변형예는 5' App ssDNA 및 이의 상보적 서열 사이에 형성된 이중 가닥 영역에 일반적으로 적용할 수 있다.
예를 들면, 소정 구현예에서, 5' App ssDNA 및 이의 상보적 서열 사이에 형성된 이중 가닥 영역은, RNA 및 DNA 태그 서열의 생성을 용이하게 하는 하나 이상의 RE 인식 부위를 포함할 수 있다. 두 MmeI 부위는 이중 가닥 영역의 양단에 위치하고 이중 가닥 영역 밖에서 절단을 지시하여, 이중 가닥 영역을 옆에 배치된 18-20 bp RNA 및 DNA 태그를 생성할 수 있다. 대안적으로, 한 RE 부위를 이용하여 RNA 태그(또는 DNA 태그)를 생성할 수 있으며, DNA 태그(또는 RNA 태그)는 물리 전단 또는 제한된 비-특이적 효소 소화(상기 참조)에 의하여 생성할 수 있다.
따라서, 본 발명의 다른 태양은 (i) 제1 폴리뉴클레오티드 및 (ii) 제2 폴리뉴클레오티드를 포함하는 직접 RNA 링커를 제공하며, 여기서, 상기 제1 및 제2 폴리뉴클레오티드는, 게놈 DNA 결찰 호환성 말단의 측면에 위치하는 이중 가닥 영역 및 제1 폴리뉴클레오티드의 5'-말단의 5'-돌출부를 형성한다.
5'-돌출부는 선택적으로 5' 아데닐화되거나, 5' DNA 아데닐화 키트 (Cat. No. E2610S 또는 E2610L) 내의 Mth RNA 리가아제와 같은, 적합한 효소에 의하여 아데닐화될 수 있다. ssDNA로서 제1 폴리뉴클레오티드와는 대조적으로, RNA 결찰을 5'-돌출부를 가지도록 실시한다면(제2 폴리뉴클레오티드와 어닐링되기 전에), 상기 5'-돌출부는 직접 RNA 결찰을 위한 효소용 기질로서 이용될 수 있도록 충분한 길이(예, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15개 염기 또는 그 이상)를 가져야 한다.
소정 구현예에서, 가교된 게놈 DNA 단편의 평활 말단에 직접 결찰하기 위하여, 결찰 호환성 말단은 평활화될 수 있다.
다른 구현예에서, 결찰 호환성 말단은, RE에 의하여 절단될 수 있는 제한 효소 부위를 포함하여, 가교된 게놈 DNA 단편의 평활 말단에 결찰하기 위하여 요구되는 필수 평활 말단을 생산할 수 있다. 그러나, 제한 효소에 의한 절단 전에, 결찰 호환성 말단은 평활 말단이거나(예, 자기-결찰을 방지하기 위한 탈인산화된 평활 말단), 자기-결찰 또는 결찰을 막는 비-호환성 돌출부를 가질 수 있다.
소정 구현예에서, 직접 RNA 링커는 자가-결찰하지 않는다. 예를 들면, 제1 폴리뉴클레오티드의 3' 말단은 디디옥시뉴클레오티드 또는 기타 변형 뉴클레오티드에 의하여 블로킹되어 제1 폴리뉴클레오티드의 자가-결찰(자가-순환)을 방지할 수 있다. RNA-DNA 결찰의 완료 시에, 제1 폴리뉴클레오티드의 블로킹된 3' 말단은 결찰 호환성 말단의 일부가 되며, RE 소화를 통하여 절단되어 게놈 DNA 결찰을 위한 평활 말단을 생성할 수 있다.
소정 구현예에서, 상기 이중 가닥 영역은, II형 제한 효소(RE)와 같은, 제1 제한 효소의 제1 인식 부위를 포함할 수 있다. RE 절단시, RE 부위의 밖에서, 즉 제1 폴리뉴클레오티드의 5' 아데닐화 말단에 대하여 5'측 부분을 절단하도록, RE 인식 부위를 전략적으로 배치할 수 있다. 이는 직접 RNA 링커에 연결된 RNA 태그를 생성할 수 있다. 예를 들면, 제1 폴리뉴클레오티드의 5'-돌출부의 5'-말단에 근접한, 이중 가닥 영역의 말단에, MmeI 인식 부위가 위치할 수 있다. MmeI 절단시, 2-bp 돌출부를 갖는 18-bp 단편을 포함하는 RNA 태그가, 연결된 ncRNA에서 유래된 cDNA에서 생성하도록, MmeI 부위는 방향성을 가지도록 설계된다. 그러나, RE 부위의 배치는 제1 폴리뉴클레오티드의 말단에서 필요로 하지 않는다. 더 많은 내부 배치는 해당하는 더 짧은 RNA 태그 서열을 생성한다. RE 부위가 제1 폴리뉴클레오티드의 5'-말단에서 위치할 수 있기 때문에, 제1 폴리뉴클레오티드가 ssDNA 기질로서 이용되면 (이의 5'-돌출부에 반대되는 것이 기질로서 이용됨), 더 긴 RNA 태그 서열이 생성할 수 있다.
따라서, 소정 구현예에서, 제1 인식 부위(제1(II형) 제한 효소)의 마지막 뉴클레오티드는 제1 폴리뉴클레오티드의 5'-말단이다.
소정 구현예에서, 상기 이중 가닥 영역은, 결찰 호환성 말단에서 또는 근처에서, II형 제한 효소(RE)와 같은, 제2 제한 효소의 제2 인식 부위를 포함할 수 있다. 상기 RE는 제2 RE 인식 부위에 대하여 3'측 부분 및 제1 폴리뉴클레오티드(예, 결찰된 게놈 DNA)에 대하여 3'측 부분을 절단한다. RE 인식 부위의 배향은, 연결된 게놈 DNA의 말단 서열에 기초하여 DNA 태그를 생성하는 방식으로, 배열된다. 소정 구현예에서, RE 부위의 배치는 이중 가닥 영역의 말단에 있을 필요가 없다. 더 많은 내부 배치는 대응하여 더 짧은 RNA 태그 서열을 생성한다.
소정 구현예에서, (제2(II형) 제한 효소의) 제2 인식 부위의 마지막 뉴클레오티드는 결찰 호환성/평활 말단에서의 염기-쌍 뉴클레오티드이다.
소정 구현예에서, 직접 RNA 링커는 RNA 태그 또는 DNA 태그를 생성하는 제한 효소 인식 부위를 가지지 않는다.
소정 구현예에서, 직접 RNA 링커는, 직접 RNA 링커를 다른 직접 RNA 링커(들)과 구별하는 독특한 서열(예, "바 코드")를 포함할 수 있다.
소정 구현예에서, 제2 폴리뉴클레오티드는 탈인산화된다.
본 발명의 이 태양에 따라 생성되는 PET 폴리뉴클레오티드는 5' App ssDNA와 이의 상보적 서열(즉, 제2 폴리뉴클레오티드) 사이에 형성되는 이중 가닥 영역에 대응하는 중앙 영역을 포함할 수 있다. 더 긴 서열을 이용하여 임의의 원하는 RE 인식 부위, 바 코드 서열, 또는 변형 뉴클레오티드(예, 친화성 정제를 위한 비오티닐화 뉴클레오티드)를 포함한다 하더라도, 이 영역을 위한 특이적 서열 요건은 없으며, 상기 영역의 길이는 변화가능하다(예, 약간의 bp정도로 짧은, RNA-DNA 리가아제의 기질 요건을 지지하도록 충분히 긴, 및 역전사를 위한 길이).
따라서, 본 발명의 다른 태양은, (1) 제1 폴리뉴클레오티드의 5'-말단(5' 아데닐화 또는 5' 아데닐화되는데 적합한)에 근접한 부위에서, 비-코딩 RNA(ncRNA)의 서열 태그; 및 (2) 결찰 호환성 말단에 근접한 부위에서, 게놈 DNA의 서열 태그의 측면에 위치한 (직접 RNA 링커의) 이중 가닥 영역을 포함하는 중앙 영역을 포함하는 쌍-말단 태그(paired-end tag, PET) 폴리뉴클레오티드를 제공한다.
관련 태양에서, 본 발명은 대상 PET 폴리뉴클레오티드의 둘 이상의 멤버를 포함하는 쌍-말단 태그(paired-end tag, PET) 폴리뉴클레오티드 라이브러리를 제공하는데, 상기 PET 라이브러리 각 멤버는 동일한 중앙 영역, 및 비-코딩 RNA(ncRNA)의 RNA의 상이한 RNA 서열 태그, 게놈 DNA의 상이한 DNA 서열 태그, 또는 둘 다를 포함한다.
또 다른 관련 태양에서, 본 발명은 상기 PET 폴리뉴클레오티드를 포함하는 벡터 또는 재조합 벡터를 제공한다.
본 발명의 또 다른 태양은 게놈의 비-코딩 RNA(ncRNA)를 위한 게놈 내에서 기능적 상호작용 좌위를 확인하는 방법을 제공하는데, 상기 방법은 다음을 포함한다: (1) 가교된 게놈 DNA 단편 및 가교된 ncRNA를 포함하는 염색질 단편을 제공하는 단계; (2) 상기 ncRNA의 3'-OH를 5' 예비-아데닐화된 ssDNA에 결찰하는 단계; (3) 상기 ssDNA의 보체를 제공하여, 상기 ssDNA와 상기 보체 사이에 이중 가닥 영역을 형성하는 단계; (4) 필요하면, 상기 이중 가닥 영역의 말단에 평활 말단을 제조하는 단계; (5) 근접 결찰 조건 하에서, 상기 평활 말단을 상기 가교된 게놈 DNA 단편에 결찰하는 단계; (6) 서열 분석을 위하여 PET 폴리뉴클레오티드를 단리하는 단계로서, 상기 PET 폴리뉴클레오티드는 상기 가교된 게놈 DNA 단편의 DNA 태그 및 상기 ncRNA의 RNA 태그의 측면에 위치하는 상기 이중 영역을 포함하는 단계; (7) 상기 DNA 태그 및 상기 RNA 태그를 참조 게놈에 맵핑하여 상기 참조 게놈의 비-코딩 RNA(ncRNA)를 위한 참조 게놈 내에서 기능적 상호작용 좌위를 확인하는 단계.
본 발명의 대안적 태양은 게놈의 비-코딩 RNA(ncRNA)를 위한 게놈 내에서 기능적 상호작용 좌위를 확인하는 방법을 제공하는데, 상기 방법은 다음을 포함한다: (1) 가교된 게놈 DNA 단편 및 가교된 ncRNA를 포함하는 염색질 단편을 제공하는 단계; (2) 상기 ncRNA의 3’-OH를 이중 가닥 영역을 갖는 ssDNA의 5’ 예비-아데닐화된 돌출부에 결찰하는 단계; (4) 필요하면, 상기 이중 가닥 영역의 말단에서 상기 5' 예비-아데닐화된 돌출부로 평활 말단을 제조하는 단계; (5) 근접 결찰 조건 하에서, 상기 평활 말단을 상기 가교된 게놈 DNA 단편의 말단에 결찰하는 단계; (6) 서열 분석을 위하여 PET 폴리뉴클레오티드를 단리하는 단계로서, 상기 PET 폴리뉴클레오티드는 상기 가교된 게놈 DNA 단편의 DNA 태그 및 상기 ncRNA의 RNA 태그에 인접한 상기 이중 영역을 포함하는 단계; (7) 상기 DNA 태그 및 상기 RNA 태그를 참조 게놈에 맵핑하여 상기 참조 게놈의 비-코딩 RNA(ncRNA)를 위한 참조 게놈 내에서 기능적 상호작용 좌위를 확인하는 단계.
소정 구현예에서, ssDNA(즉, 제2 폴리뉴클레오티드)의 보체는 ssDNA와 동일한 길이를 가진다. 소정 구현예에서, 상기 보체는 ssDNA보다 길거나 짧으며, 돌출된 3' 또는 5' 말단을 갖는 이중 가닥 영역을 형성한다. 후자에 있어서, 돌출부는 평활 말단에 적합한 결찰을 생성하는 효소에 의하여, 또는 평활 말단을 생성하는 제한 효소에 의하여 말단으로부터 절단되는 것에 의하여, 채워질 수 있다. RE 부위는 ssDNA의 서열 내로 조작될 수 있다.
소정 구현예에서, 직접 RNA 링커의 제1 폴리뉴클레오티드의 길이는 약 6, 7, 8, 9, 10, 15, 20, 25, 30, 35, 40, 50, 60개 또는 그 이상의 염기 쌍이다.
서브섹션 a)(RNA 및 DNA 링커 쌍) 및 서브섹션 b)(변형 RNA 링커)에 기재된 제1 및 제2 상세한 구현예에서 각각 기재된 기타 구현예는 일반적으로 적용가능하며, 본원에 병합된다(반복하지 않음).
기재된 바와 같은 본 발명의 일반적인 태양에서, 하기 섹션은 추가 설명과 본 발명의 상세한 구현예와 관련된 구체적인 양 및 파라미터를 제공한다. 본 발명은, 그러한 상세한 설명 없이 또는 최소한의 변형으로, 본 발명의 일반적인 범위에서 벗어남이 없이, 예측가능하다는 것이 당업자에게 명백할 것이다.
2.
정의
"비-코딩 RNA(ncRNA)"는 단백질로 번역되지 않는 RNA 분자를 포함한다. 빈번하지는 않지만, 이는 비-단백질-코딩 RNA(non-protein-coding RNA, npcRNA), 비-메신저 RNA(non-messenger RNA, nmRNA), 및 기능적 RNA(functional RNA, fRNA)로 지칭된다. 통상 코딩 단백질 이외의 기능을 갖는 기능적 RNA이나, 일부는 비-기능성이거나 공지된 기능이 없을 수 있다. 때때로, 용어 짧은 RNA(small RNA, sRNA)는 짧은 박테리아 ncRNA에 종종 이용된다. 비-코딩 RNA가 전사되는 DNA 서열은 종종 RNA 유전자로 불리운다.
비-코딩 RNA 유전자는 고도로 풍부한 및 기능적으로 중요한 RNA, 예를 들면, 전송 RNA(tRNA)와 리보솜 RNA(rRNA) 뿐만 아니라, snoRNAs(scRNA 포함; RNA의 뉴클레오티드 변형용), snRNA(스플라이스 및 다른 기능용), gRNA(가이드 RNA; mRNA 뉴클레오티드 변형용), RNase P(tRNA 성숙), RN아제 MRP(rRNA 성숙용, 및/또는 DNA 복제용), Y RNA(RNA 프로세싱용, 및/또는 DNA 복제용), 텔로머라아제 RNA(텔로머 합성용), 스플라이싱된 리더 RNA, SmY RNA(mRNA 트랜스-스플라이싱용), 안티센스 RNA, 시스-자연적 안티센스 전사, 미세RNA(유전자 조절용), siRNA(트랜스-액팅 siRNA 포함; 유전자 조절용), exRNAs, 및 piRNA(반복 관련 siRNA 포함; 트랜스포존 방어용, 및 다른 기능이 있을 수 있음)과 같은 RNA, 7SK RNA(음성적으로 조절하는 CDK9/cyclin T 복합체용), 및 Xist와 HOTAIR와 같은 예를 포함하는 긴 ncRNA를 포함한다. 인간 게놈 내에서 인코딩되는 ncRNA의 수는 알려져 있지 않으나, 최근 전사 및 생물정보 연구는 수 천의 ncRNA가 존재한다고 제시하였다. 많은 새롭게 확인되는 ncRNA의 기능이 입증되었기 때문에 많은 것이 비-기능적일 수 있다.
소정 구현예에서, 본 발명의 ncRNA는 상기 언급된 종들의 임의의 하나 이상을 포함하지 않는다. 예를 들면, 소정 구현예에서, 본 발명의 ncRNA는 rRNA를 포함하지 않는다. 소정 구현예에서, 본 발명의 ncRNA는 tRNA를 포함하지 않는다. 소정 구현예에서, 본 발명의 ncRNA는 tRNA를 포함하지 않는다.
"제한 효소(restriction enzyme, RE) 및 "제한 엔도뉴클레아제"는 본원에서 상호교환적으로 사용되어, 이중-가닥 DNA를 절단하는 효소를 포함한다. 상기 효소는 일반적으로 "제한 부위" 또는 "RE 인식 부위"로 알려진 특이적인 인식 뉴클레오티드 서열에서, 그 안에서, 또는 그 근처에서(예, 약 수 개의 염기에서 약 수 천의 염기까지) 두 개의 절개부를 만들며, 염기를 손상시키지 않고 각 이중 나선의 포스페이트 뼈대를 통과한다.
제한 효소는 보통 세가지 유형으로 분류되는데, 구조면에서, 인식부위에서 DNA 기질을 절단하는지 여부, 또는 인식 및 절단 분위가 서로 격리되어 있는지 여부가 각각 다르다. 그 동안 3000개 이상의 제한 효소가 상세히 연구되었고, 그 중 600 개 이상이 상업적으로 입수 가능하며, 그 중 많은 제한 효소가 분자 생물학에서 DNA 변형 및 조작에 통상 이용하였다.
I형 제한 효소는, 인식 부위로부터, 랜덤 거리(적어도 1000 bp)에 떨어져 있으면서 상이한 부위에서, 절단한다. I형 제한 효소 인식 부위는 비대칭적이고, 약 6-8개의 뉴클레오티드의 비-특이적 스페이서에 의하여 격리된 두개의 특이적 부분-하나는 3-4개의 뉴클레오티드를 함유하고 다른 하나는 4-5개의 뉴클레오티드를 함유함-으로 구성된다. 이러한 효소는 다중 기능적이며, 타겟 DNA의 메틸화 상태에 따라 제한과 변형 활성을 할 수 있다. 전 활성을 위하여, 보조 인자인 S-아데노실 메티오닌(adenosyl methionine, AdoMet), 가수분해된 아데노신 트리포스페이트(hydrolyzed adenosine triphosphate, ATP), 및 마그네슘 이온(Mg2 +)이 요구된다.
II형 제한 효소는, 통상 비분리적이고, 회문성이 있고(palindromic), 4-8개 뉴클레오티드 길이를 갖는 인식 부위를 갖는 호모다이머이다. 이들 효소는 동일한 부위에서 DNA를 인식하고 절단하며, 활성을 위하여 ATP 또는 AdoMet를 이용하지 않는다-통상 보조인자로서 Mg2 + 만을 요한다. 최근, 새로운 서브패밀리 명명법(글자 접미사를 이용하여 정의됨)을 개발하여 이 대형 패밀리를 II형 효소의 전형적인 특성으로부터의 이탈을 기반으로 하는 서브카테고리로 분리하였다. 예를 들면, IIB형 제한 효소(예, BcgI 및 BplI)는 AdoMet 및 Mg2 + 보조인자를 필요로 하는 멀티머이며, 인식의 양 측 DNA를 절단하여 인식 부위를 절단해낸다. IIE형 제한 엔도뉴클레아제(예, Nael)는 DNA를 절단하고 이어서, 두 벌의 인식 서열을 갖는 상호작용을 한다. 한 인식 부위는 절단을 위한 타겟으로서 작용하는데, 다른 하나는 효소 절단의 효율을 가속하거나 향상시키는 알로스테릭(allosteric) 효과로서 작용한다. IIE형 효소와 유사한, IIF형 제한 엔도뉴클레아제(예, NgoMIV)는 두 벌의 인식 서열과 상호작용하나, 동시에 상기 서열들을 절단한다. IIG형 제한 엔도뉴클레아제(Eco57I)는, 기존의 II형 제한 효소와 같이, 단일 서브유닛을 가지나, 보조인자 AdoMet가 활성화하도록 요한다. DpnI와 같은, IIM형 제한 엔도뉴클레아제는 메틸화 DNA를 인식하고 절단할 수 있다. IIS형 제한 엔도뉴클레아제(예, FokI)는 비-회문식(palindromic) 비대칭 인식 부위에서 정의된 거리에 있는 DNA를 절단한다. 즉, IIS형 효소는 한 측으로부터 인식 서열 밖에서 절단한다. 모든 IIS형 제한 효소뿐만 아니라 MmeI는 변수와 길이를 만들어낸다. Dunn 등(2002)은, MmeI이 거의 1:1의 비율로 떨어진 18/20 또는 19/21 염기를 절단한다는 것을 보여주었다. 따라서, 18/20가 MmeI 절단 부위를 나타내기 위하여 이용되고, 19/21도 고려된다. IIT형 제한 효소(예, Bpu10I 및 BslI)는 두개의 상이한 서브유닛으로 구성되어 있다. 일부는 회문성 서열을 인식하는 반면에, 다른 것은 비대칭 인식 분위를 가진다.
III형 제한 효소(예, EcoP15)는 역으로 배향되는, 두 개의 별도의 비-회문성 서열을 인식한다. 상기 효소는 인식 부위 뒤의 약 20-30개 염기 쌍의 DNA를 절단한다. 이들 효소는 하나 이상의 서브 유닛을 함유하며, DNA 메틸화 및 제한에서의 역할을 위하여 AdoMet 및 ATP 보조요소를 필요로 한다. III형 효소는 짧은 5-6 bp 긴 비대칭 DNA 서열을 인식하며, 하류로 25-27 bp 절단하여, 짧은 단일-가닥 5' 돌출부를 남긴다. 이들 효소는, 일어날 제한을 위하여 두 개의 역으로 배향된 비메틸화된 인식 부위의 존재를 필요로 한다.
제한 효소 절단 산물은 5' 또는 3' 돌출부를 갖는 평활-말단 또는 접착 말단을 가지며, 접착 말단 단편은 원래 절단되었어야 할 단편뿐만 아니라 호환성 점성 또는 접착 말단을 갖는 다른 단편에 결찰될 수 있다.
본원에서 이용되는 "뉴클레오티드"는 뉴클레오시드의 포스포릭 에스테르-핵산(DNA 또는 RNA)의 기본 구조적 단위를 포함한다. 두 개 이상의 뉴클레오티드(예, 2-30, 5-25, 및 10-15 개 뉴클레오티드)의 짧은 가닥은 때때로 "올리고뉴클레오티드"로 지칭되는 반면에, 긴 가닥은 폴리뉴클레오티드로 지칭되는데, 두 용어 사이에는 확정적인 길이 한정이 없다. 용어 뉴클레오티드는 용어 "핵산"과 상호교환적으로 사용될 수 있다. 폴리뉴클레오티드는 단일-가닥이거나, 각 가닥이 5' 말단 및 3' 말단을 가지는 이중-가닥일 수 있다. 핵산의 스트레치의 말단 영역은 각각 5' 말단 및 3' 말단으로 지칭될 수 있다. 폴리뉴클레오티드 내의 뉴클레오티드는 천연 뉴클레오티드(DNA를 위한 디옥시리보뉴클레오티드 A, T, C, 또는 G, 및 RNA를 위한 리보뉴클레오티드 A, U, C, G)이거나, 예컨대 화학 합성에 의하여 폴리뉴클레오티드에 병합될 수 있는 변형 뉴클레오티드를 포함할 수 있다. 그러한 변형 뉴클레오티드는 천연 뉴클레오티드에서 없거나 부족한 추가의 바람직한 성질을 부여할 수 있으며, 변형 뉴클레오티드를 포함하는 폴리뉴클레오티드는 본 발명의 조성물 및 방법에 이용될 수 있다.
용어 "프라이머" 또는 "프라이밍 서열"은, 핵산 가닥에 상보적인 프라이머 연장 산물의 합성이 유도되는 조건, 즉, 적합한 온도에서 적절한 버퍼 내의 4가지 상이한 뉴클레오시드 트리포스페이트 및 연장용 제제(예, DNA 폴리머라아제 또는 역전사 효소)가 존재할 때, DNA 합성의 개시점으로 작용할 수 있는 올리고뉴클레오티드를 지칭한다. 프라이머는 단일-가닥 DNA일 수 있다. 프라이머의 의도하는 용도에 따라 프라이머의 적합한 길이는, 15-35개의 뉴클레오티드와 같은, 10-50개의 뉴클레오티드의 범위에 있다. 짧은 프라이머 분자는, 템플릿을 갖는 충분히 안정한 혼성 복합물을 형성하기 위하여, 일반적으로 낮은 온도를 필요로 한다. 프라이머는 템플릿 핵산의 정확한 서열을 반영할 필요는 없으나, 템플릿과 혼성화하도록 충분히 상보적이어야 한다. 주어진 타겟 서열의 증폭을 위한 적합한 프라이머의 설계는 당업계에 잘 알려져 있으며, 예를 들면, 본원에 언급된 문헌에 기재되어 있다.
"프로브(probe)"는 CCAT1 ncRNA 서열 또는 이의 cDNA와 같은, 타겟 서열의 cDNA 또는 mRNA의 적어도 일부의 존재 여부를 탐지하는데 이용되는 핵산 분자 또는 이에 상보적인 서열을 일반적으로 지칭한다. 상기 탐지는, 프로브와 분석된 타겟 서열 사이의 혼성화 복합체를 동정함으로써 실시할 수 있다. 상기 프로브는 고형 지지체 또는 탐지가능한 라벨에 부착될 수 있다. 프로브는 일반적으로 단일 가닥일 것이다. 프로브는 일반적으로 10-200개의 뉴클레오티드를 포함한다. 프로브의 특정 성질은 특정 용도에 따라 다를 것이며, 결정할 당업자의 능숙함에 따라 결정된다. 일반적으로, 프로브는 높은 엄격한 혼성화 조건 하에서, 타겟 cDNA 또는 RNA의 적어도 일부를 혼성화할 것이다.
"어댑터"는 결찰된 올리고뉴클레오티드 분자를 지칭하며, 핵산 분자의 말단에 결찰된다. 증폭(PCR 프라이머 서열을 갖는 PCR 어댑터), 시퀀싱(시퀀싱 프라이머 서열을 가짐), 및/또는 핵산 단편을 벡터(RE 인식 부위와 같은, 적합한 클로닝 서열을 가짐) 내로 삽입하기 위하여, 어댑터를 이용할 수 있다.
"콘카테머(concatemer)"는, 선택적으로는 링커 또는 스페이서에 의하여 분리된, 말단에 연결되는 적어도 두 개의 뉴클레오티드 모노머 서열로 일반적으로 구성된다. 모노머는 서열이 동일하거나 동일하지 않을 수 있으나, 유사한 구조적 요소(본 발명의 RNA 및 RNA 링커와 같은)를 가질 수 있다. 모노머도 동일하거나 상이한 배향을 가질 수 있다(예, 콘카테머 내의 모노머는 헤드-투-헤드(head-to-head), 헤드-투-테일(head-to-tail), 또는 이들의 혼합으로 연결될 수 있음). 본 발명의 콘카테머는, 본 발명의 발명에 따라 제조되는 적어도 두 개의 올리고뉴클레오티드(예, PET 폴리뉴클레오티드)를 포함한다.
"라이브러리(library)"는, 하나 이상의 정의하는 특성을 공유하는 라이브러리의 각 멤버를 갖는, 핵산 서열, 올리고뉴클레오티드, 또는 폴리뉴클레오티드와 같은 집합체를 포함한다. 예를 들면, 본 발명의 PET 폴리뉴클레오티드의 라이브러리는 본 발명의 둘 이상(예, 수만, 수십만, 수백만, 수천만, 등등)의 PET 폴리뉴클레오티드를 포함하는데, 각 PET 폴리뉴클레오티드는 유사하거나 동일한 구조를 공유하거나 상이한 DNA 및/또는 RNA 태그 서열을 가진다.
"벡터" 또는 "재조합 벡터"는, 한 세포에서 다른 세포(예, 클로닝된 유전 정보 또는 크로닝된 DNA) 내에 함유된 유전 물질을 전달하거나 증폭할 수 있는 박테리오파지, 플라스미드, 또는 기타 제제를 지칭하는 기술분야에서 인정되는 용어이다. 그러한 벡터는, 구체적 성질 및 특성에 따라, 리포펙션(lipofection), 인산 칼슘 침전, 레트로바이러스 전달, 전기영동, 및 생물 변형과 같은, 형질전환 또는 변형, 및 당업계에서 이용가능한 기타 분자생물학 기술에 의하여, 상이한 숙주 세포로 도입될 수 있다.
적합한 벡터는 바이러스 벡터, 또는 동종 유전자 서열의 삽입 또는 병합에 의햐여 조작되는 당업계에 공지된 기타 비히클을 포함할 수 있다. 그러한 벡터는 적합한 숙주 증폭을 위한 복제 원점, 클로닝된 서열의 효율적 전사를 용이하게 할 수 있는 프로모터 서열, 및 클로닝된 서열의 직접 증폭을 위한 인접 PCR 프라이머를 함유할 수 있다. 또한, 상기 벡터는 형질전환 세포의 표현형 선택을 허용하는 특정 유전자를 포함할 수 있다. 본 발명의 이용에 적합한 벡터는, 예를 들면, pBlueScript (Stratagene, La Jolla, Calif.); pBC, pZErO-1 (Invitrogen, Carlsbad, CA), 및 pGEM3z (Promega, Madison, WI) 또는 이의 변형 벡터뿐만 아니라 당업계에 알려진 것들과 유사한 벡터를 포함한다. 예를 들면, 본원에 참조로서 병합된 미국 특허 번호 제 4,766,072호에 공지된 pGEM 벡터를 참조.
"염색질"은 염기성 염료로 쉽게 착색되고 세포 분열 동안에 응축하여 염색체를 형성하는 세포핵 내의 핵산, 및 단백질, 주로 히스톤의 복합체를 설명하기 위해 사용된다. 염색질은 핵산-단백질 복합체의 한 예이다.
본원에 사용된 "태그"는 참조 게놈 내의 서열의 기원을 독특하게 확인할 수 있는 핵산이 서열의 확인가능한 서열을 포함한다. 상기 태그는 참조 게놈에서, 태그를 하나 또는 몇 개의 위치(예컨대, 높은 서열 동일성을 갖는 하나의 유전자 또는 관련된 유전자의 복사본)에 독특하게 또는 명료하게 맵핑하는 데 충분한 크기(보통은 18-29bp, 그러나 서열 조성물 및 참조 게놈 크기 및 복잡성에 따라 더 짧아질 수 있음)를 가질 수 있다. 본 발명의 DNA 태그는 게놈 DNA 서열에서 기원한다. 상기 태그는, 예를 들면, 본 발명의 DNA 링커 및 RNA 링커(또는 본 발명의 변형 RNA 링커 또는 본 발명의 직접 RNA 링커)를 통하여, ncRNA 또는 ncRNA의 cDNA에 연결될 수 있다. 본 발명의 RNA 태그는 ncRNA, 또는 ncRNA로부터 역전사되는 cDNA에서 기원된다. 상기 RNA 태그는, 예를 들면, 본 발명의 DNA 링커 및 RNA 링커 (또는 본 발명의 변형 RNA 링커 또는 본 발명의 직접 RNA 링커)를 통하여, 게놈 DNA에 연결될 수 있다.
본 발명의 RNA 또는 DNA 태그는 임의의 크기를 가질 수 있으나, 그것이 유래되는 부모 서열의 크기에 대하여 의미가 있으며 유익할 필요가 있다. 소정 구현예에서, DNA 또는 RNA 태그의 크기는 게놈 복잡성에 의하여 결정된다. 박테리아 게놈에서, 약 8bp 내지 약 16bp의 태그가 충분하며, 반면에 인간 게놈과 같은 복잡한 게놈의 경우에는 16-20bp 태그를 고려할 수 있다.
"링커"는, 통상적으로는, 두 개의 폴리뉴클레오티드 함께 연결하는 것과 같은, 특정 목적을 위하여 설계된 핵산의 인공 서열이다. 본 발명의 "RNA 링커"는 본 발명의 DNA 링커에, 그리고 가교된 비-코딩 RNA와 같은 RNA의 자유 3'-말단으로부터 합성된 cDNA에 연결되도록 설계된다. 본 발명의 "DNA 링커"는 본 발명의 RNA 링커에, 그리고 염색질 단편에 가교된 염색체 DNA와 같은, DNA의 자유 말단에 연결되도록 설계된다. 본 발명의 "변형 RNA 링커"는 일 말단(예, 평활 말단 또는 평활 말단을 생성할 수 있는 결찰 호환성 말단)에서 게놈 DNA 단편에, 그리고, 다른 말단에서, 가교된 비-코딩 RNA와 같은, RNA의 자유 3'-말단으로부터 합성된 cDNA에 연결되도록 설계된다. 본 발명의 "직접 RNA 링커"는 예비-아데닐화 5'-말단을 통하여 ncRNA의 3'-OH에 직접 연결되도록, 그리고 다른 말단(예, 평활 말단 또는 평활 말단을 생성할 수 있는 결찰 호환성 말단)에서 게놈 DNA 단편에 연결되도록 설계된다.
"시퀀싱"은 생체고분자, 이 경우에는 핵산의 구성성분의 순서를 결정하기 위하여 사용되는 다양한 방법을 지칭한다. 본 발명에 이용될 수 있는 적합한 시퀀싱 기술은 전통적인 사슬 종결 Sanger 방법뿐만 아니라, 대량 병렬 시그네쳐 시퀀싱(또는 MPSS, Lynx Therapeutics/Solexa/Illumina에 의해), 폴로니 시퀀싱(Life Technologies), 피로시퀀싱(pyrosequencing) 또는 "454 시퀀싱"(454 Life Sciences / Roche Diagnostics), 결찰에 의한 시퀀싱(Applied Biosystems/Life Technologies에 의한 SOLiD 시퀀싱), 합성에 의한 시퀀싱(Solexa/Illumina), DNA 나노볼 시퀀싱, heliscope 시퀀싱(Helicos Biosciences), 이온 반도체 또는 이온 토렌트 시퀀싱(Ion Torrent Systems사/Life Technologies), 및 단일 분자 실시간(single-molecule real-time, SMRT) 시퀀싱(Pacific Bio)과 같은, 수 많은 상업적 원천으로부터 이용할 수 있는, 소위 차세대 (고속처리) 시퀀싱을 포함한다. 수 많은 기타 고속처리 시퀀싱 방법은 여전히 개발되거나 완벽하며, 이것들은 나노기공 DNA 시퀀싱, 혼성화에 의한 시퀀싱, 질량 분석을 이용한 시퀀싱, 미세유동 Sanger 시퀀싱, 투과 전자 현미경 DNA 시퀀싱, RNAP 시퀀싱, 및 체외 바이러스 고속처리 시퀀싱 등등을 포함하는, 본 발명의 PET 폴리뉴클레오티드를 시퀀싱하는데 이용될 수 있다.
소정 구현예에서, 시퀀싱 방법은 대상 PET 폴리뉴클레오티드의 양단으로부터 태그를 시퀀싱하여, 쌍 말단 태그 정보를 제공할 수 있다. 소정 구현예에서, 시퀀싱 방법은, 대상 PET 폴리뉴클레오티드의 콘카테머와 같은, 다양한 길이의 긴 DNA 단편 상에서 리드(read)를 수행할 수 있다.
"참조 게놈"은 관심의 유기체의 게놈, 또는 ncRNA 및 게놈 DNA가 유래하는 게놈을 지칭한다. 본 발명의 방법 및 조성물은, 수많은 고세균 또는 세균, 원생 생물, 균류 (예, S. cerevisae 또는 S. pombe), 식물, 동물 게놈을 포함하여, 완전한 또는 본질적으로 완전한 서열을 이용가능한 임의의 참조 게놈에 적용한다. 예를 들면, 지금 인간, 마우스, 및 많은 기타 포유류 및 비포유류 종의 게놈 서열은 공공 도메인에 쉽게 이용할 수 있다. 예를 들면, Venter 등, "The Sequence of the Human Genome,"Science , 291(5507):1304-1351, 2001을 참조. 기타 비-제한적 참조 게놈은, 수많은 비-인간 영장류, 포유류, 설치류(래트, 마우스, 햄스터, 토끼 등), 가축 동물(소, 돼지, 말, 양, 염소), 조류(닭), 파충류, 양서류(Xenopus), 물고기(제브라 피쉬(다니오 레리오(Danio rerio), 복어), 곤충(Drosophila, 모기), 선충, 기생동물, 곰팡이(예, S. cerevisae 또는 S. pombe과 같은, 효모), 다양한 식물, 바이러스(예컨대, 숙주 게놈에 병합되는 것들), 등등을 위한 것들을 포함한다.
잠금 핵산(locked nucleic acid, LNA)은, LNA의 리보오스 부위를 2' 산소와 4' 탄소를 연결하는 여분의 브리지로 변형하는 변형 RNA 뉴클레오티드이다. 상기 브리지는 3'-엔도 배위에서 리보오스를 "잠근다". LNA 뉴클레오티드는, 원하면 언제나, 뉴클레오티드에서 DNA 또는 RNA 잔기와 혼합할 수 있다. 그러한 올리고머는 화학적으로 합성되며, 상업적으로 이용가능하다. 잠긴 리보오스 배위는 염기 적층 및 골격 예비-조직화를 강화시킨다. 이것은 올리고뉴클레오티드의 혼성화 성질(녹는점)을 상당히 증가시킨다.
펩티드 핵산(peptide nucleic acid, PNA)은 DNA 또는 RNA에 유사한 인공적으로 합성된 폴리머이다. PNA 올리고머는 상보적 DNA에 결합하는데 있어서 더 큰 특이성을 나타내며, PNA/DNA 염기 미스매칭은 DNA/DNA 듀플렉스 내의 유사한 미스매치보다 더 불안정하게 한다. 또한, 이러한 결합력 및 특이성은 PNA/RNA 듀플렉스에 적용한다.
본 발명의 "쌍-말단 태그(paired-end tag, PET) 폴리뉴클레오티드"는, 한 말단에서 또는 근처에서, ncRNA으로부터 유래하는 RNA 태그, 및 다른 말단에서 또는 근처에서, 게놈 DNA으로부터 유래하는 DNA 태그를 포함하는 폴리뉴클레오티드이며, 상기 ncRNA 및 상기 게놈 DNA는 바람직하게는 동일한 염색질 단편에 가교된다. 그러한 의미에서, PET 폴리뉴클레오티드의 두 말단에서의 RNA 및 DNA는 쌍을 이루고, 가교시 ncRNA와 게놈 DNA 사이의 물리적 근접을 반영한다.
"근접 결찰 조건"는, 동일한 염색질 단편에 가교된 게놈 DNA 및 ncRNA와 같이, 근접에서 결찰가능한 폴리뉴클레오티드 말단이 우선적으로 결찰되는 폴리뉴클레오티드 결찰 반응을 위한 조건을 지칭한다. 한편, 상이한 염색질 단편에 가교된 게놈 DNA 및 ncRNA와 같이, 근접이 아닌 것에서 결찰가능성 폴리뉴클레오티드 말단은 결찰되지 않거나 본질적으로 결찰되지 않는다. 서로간의 물리적 근접성으로 인하여, 상이한 염색질 단편 상의 결찰가능한 말단 사이의 결찰보다 동일한 염색질 단편 상의 결찰가능성 말단이 더 결찰되도록, 그러한 결찰 조건은 큰 부피 결찰을 포함한다.
"맵핑(mapping, 게놈에 대한 서열 태그)"은 게놈 내 서열의 게놈 위치의 확인을 포함한다.
"이작용성 가교체/시약" 또는 "가교제/시약"은 둘 이상의 반응기를 가지는 제제를 변형하는 것을 포함하는데, 각각은 한 부분(moiety, 예컨대 DNA, RNA, 또는 단백질)과 반응하여, 두 부분이 개별 분자를 나타내는 경우 두 분자를 가교시킬 수 있다. 그러한 이작용성 가교체는 당업계에서 잘 알려져 있다(예를 들면, Isalm and Dent in Bioconjugation , Chapter 5, pp. 218-363, Groves Dictionaries Inc., New York, 1999을 참조). 예를 들면, 포름알데히드 또는 글루타르알데히드, 또는 알데히드 반응기를 갖는 기타 유사한 시약은, 메틸렌(-CH2-) 연결기를 통하여, 단백질의 1차 아미노기를 단백질 또는 DNA의 기타 근처의 질소 원자와 가교할 수 있다. 티오에테르 결합을 통하여 연결을 가능하게 하는 기타 이작용성 가교제는 N-숙시니미딜-4-(N-말레이미도메틸)-사이클로헥산-1-카르복실레이트(SMCC)를 포함하여 말레이비도기, 또는 N-숙시니미딜-4-(요오드아세틸)-아미노벤조에이트(SIAB)와 함께 유도하여 요오드아세틸기를 유도한다. 폴리펩티드에 말레이미드기 또는 할로아세틸기를 도입하는 기타 이작용성 가교제는 당 업계에 잘 알려져 있으며(미국 특허출원번호 제2008/0050310호 및 제2005/0169933호, Pierce Biotechnology사(P.O. Box 117, Rockland, IL 61105, USA)에서 접근할 수 있음), 비스-말레이미도폴리에틸렌글리콜(BMPEO), BM(PEO)2, BM(PEO)3, N-(β-말레이미도프로필옥시)숙신이미드 에스테르(BMPS) γ-말레이미도부틸산 N-숙신이미딜 에스테르(GMBS), ε-말레이미도카프로산 N-하이드록시숙신이미드 에스테르(EMCS), 5-말레이미도발레르산 NHS, HBVS, SMCC의 "장쇄" 유사체(LC-SMCC)인 N-숙신이미딜-4-(N-말레이미도메틸)-사이클로헥산-1-카르복시-(6-아미도카프로에이트), m-말레이미도벤조일-N-하이드록시숙신이 미드 에스테르(MBS), 4-(4-N-말레이미도페닐)-부틸산 하이드라지드 또는 HCl 염 (MPBH), N-숙신이미딜 3-(브로모아세트아미도)프로피오네이트(SBAP), N-숙신이미딜 요오드아세테이트(SIA), κ-말레이미도운데칸산 N-숙신이미딜 에스테르(KMUA), N-숙신이미딜 4-(p-말레이미도페닐)-부티레이트(SMPB), 숙신이미딜-6-(β-말레이미도프로피온아미도)헥사노에이트(SMPH), 숙신이미딜-(4-비닐설포닐)벤조에이트(SVSB), 디티오비스-말레이티도에탄(DTME), 1,4-비스-말레이미도부탄(BMB), 1,4-비스말레이미딜-2,3-디하이드록시부탄(BMDB), 비스-말레이미도헥산(BMH), 비스-말레이미도에탄(BMOE), 설포숙신이미딜 4-(N-말레이미도-메틸)사이클로헥산-1-카르복실레이트(술포-SMCC), 설포숙신이미딜(4-요오드-아세틸)아미노벤조에이트(설포-SIAB), m-말레이미도벤조일-N-하이드록시설포숙신이미드 에스테르(설포-MBS), N-(γ-말레이미도부트릴옥시)설포숙신이미드 에스테르(설포-GMBS), N-(ε-말레이미도카프로일옥시)설포숙신이미도 에스테르(설포-EMCS), N-(κ-말레이미도운데카노일옥시)설포숙신이미드 에스테르(설포-KMUS), 및 설포숙신이미딜 4-(p-말레이미도페닐)부티레이트(설포-SMPB)를 포함하나, 이에 제한되지 않는다.
가교에 사용될 수 있는 헤테로이작용성 가교제는 아민-반응성 N-하이드록시숙신이미드기(N-hydroxysuccinimide group, NHS group), 및/또는 카르보닐-반응성 하이드라진기를 함유할 수 있다. 그러한 상업적으로 이용할 수 있는 헤테로이작용성 가교제의 예는 숙신이미딜 6-하이드라지노니코틴아미드 아세톤 하이드라존(SANH), 숙신이미딜 4-하이드라지도테레프탈레이트 하이드로클로라이드(SHTH), 및 숙신이미딜 하이드라지늄 니코티네이트 하이드로클로라이드(SHNH)를 포함한다. 또한, 산-표지 연결기를 지니는 접합체는 본 발명의 하이드라진을 지니는 벤조디아제핀 유도체를 이용하여 제조할 수 있다. 사용될 수 있는 이작용성 가교제의 예는 숙신이미딜-p-포르밀 벤조에이트(SFP) 및 숙신이미딜-p-포르밀페녹시아세테이트(SFPA)를 포함한다.
이황화 결합에 의하여 가교를 가능하게 하는 기타 이작용성 가교제는 당업계에 알려져 있으며, N-숙신이미딜-3-(2-피리딜디티오)프로피오네이트(SPDP), N-숙신이미딜-4-(2-피리딜디티오)펜타노에이트(SPP), N-숙신이미딜-4-(2-피리딜디티오)부타노에이트(SPDB), N-숙신이미딜-4-(2-피리딜디티오)-2-설포 부타노에이트(설포-SPDB)를 포함하여 디티오피리딜기를 도입한다. 이황화기를 도입하는데 이용될 수 있는 기타 이작용성 가교제는 당업계에 알려져 있으며, 미국 특허 번호 제 6,913,748호, 제 6,716,821호, 및 미국 특허 공개번호 제2009/0274713호 및 제 2010/0129314호에 개시되어 있으며, 이것들은 본원에 참조로서 병합되어 있다. 대안적으로, 티올기를 도입한 2-이미노티올란, 호모시스테인 티올아세톤, 또는 S-아세틸숙신 안하이드리드와 같은 가교제도 이용될 수 있다.
상기 이작용성 가교제 둘 이상이 함께 이용되어 염색질 단편에서 DNA, RNA, 및 단백질을 가교할 수 있다.
3. 제한 효소
본 발명의 DNA 및/또는 RNA 링커가 제한 효소 인식 부위를 포함하는 것을 요구되지 않는다. 소정 구현예에서, 본 발명의 DNA 및/또는 RNA 링커가 제한 효소 인식 부위를 포함하지 않는 것이 바람직하지 않을 수 있다. 그러나, 소정 구현예에서, 본 발명의 DNA 및/또는 RNA 링커는, II형 RE 인식 부위(예, IIS형 RE 부위)와 같은, 적어도 하나의 RE 인식 부위를 포함할 수 있다.
RE 절단의 결과가, 10-20 bp와 같은, 원하는 길이의 DNA 또는 RNA를 만들어낸다면, 일반적으로, 당업계에서 알려진 임의의 RE 및 이의 인식 부위가 이용될 수 있다. 핵산 분자 내의 적어도 하나의 인식 부위를 인식하고 본 발명에 이용될 수 있는 그러한 제한 효소는, 특히 본원에 제공된 가이드와 예시적 실시예에 있어서, 당업자에게는 명백하다. 예를 들어, Current Protocols in Molecular Biology, Vol. 2, 1995, Ed. Ausubel, 등, Greene Publish. Assoc. & Wiley Interscience, Unit 3.1.15; 및 최신식의 New England Biolabs Catalog 또는 2005 및 그 이후의 웹사이트 정보를 참조.
가능한 제한 효소 인식 부위의 비-제한적인 리스트 및 이를 인식하는 대응하는 제한 효소가 아래에 보고되어 있다.
예로서, MmeI와 같은 IISRE형을 이용하여 결찰된 RNA-DNA 링커에 근접하는 고정된 길이의 DNA 또는 RNA 태그를 생성할 수 있다. 특히, MmeI 인식 부위는 RNA 또는 DNA 링커의 이중 가닥 영역의 말단에 위치할 수 있어서, Mmel 절단시, RNA 또는 DNA 서열에서 유래하는 17-21 bp 태그 서열은 결찰된 RNA 링커 및 DNA 링커에 연결된다. RNA 및 DNA 링커 각각에 하나의 Mmel 부위가 나타나면, 두 개의 생성된 태그-하나는 DNA 태그이고 다른 하나는 RNA 태그-가 지금 결찰된 RNA 링커 및 DNA 링커에 인접한다. 두 개의 태그는 평활화함에 의하여 추가적으로 처리되어, PCR 증폭, 농축, 또는 시퀀싱과 같은, 추가적인 하향 작업을 실시할 수 있도록 한다.
본 발명에 이용될 수 있는 일부 비-제한적 II형 제한 효소의 예는 다음을 포함한다: AarI, AceIII, AloI, BaeI, Bbr7I, BbvI, BbvII, BccI, Bce83I, BceAI, BcefI, BcgI, BciVI, BfiI, BinI, BplI, BsaXI, BscAI, BseMII, BseRI, BsgI, BsmI, BsmAI, BsmFI, Bsp24I, BspCNI, BspMI, BsrI, BsrDI, BstF5I, BtgZI, BtsI, CjeI, CjePI, EciI, Eco31I, Eco57I, Eco57MI, Esp3I, FalI, FauI, FokI, GsuI, HaeIV, HgaI, Hin4I, HphI, HpyAV, Ksp632I, MboII, MlyI, MmeI, MnlI, PleI, PpiI, PsrI, RleAI, SapI, SfaNI, SspD5I, Sth132I, StsI, TaqII, TspDTI, TspGWI, TspRI 및 Tth111II (Rebase Enzymes 웹사이트의 리스트 참조: rebase dot neb dot com slash cgi-bin slash outsidelist; Szybalski, W., 1985, Gene, 40:169도 참조). 바람직한 길이(예, 10-25 bp 부터 수백의 bp)의 태그 서열을 생성할 수 있는 유사한 성질을 가지는, 당업계에서 알려진 기타 적합한 RE 효소 또는 후에 발견되는 것들을 이용하여 본 발명을 실시할 수 있다.
소정 구현예에서, 제한 효소는 IIS형 효소이다. 소정 구현예에서, 상기 RE는 약 10-25 bp 또는 15-20 bp의 DNA 또는 RNA 태그 서열을 생산하다. 소정 구현예에서, 상기 RE는 MmeI 또는 GsuI이다.
여러 계열의 II형 제한 효소의 인식 부위 및 절단 부위의 기타 예들은 다음을 포함한다(인식 부위 및 절단 부위가 괄호 내에 있음): BbvI (GCAGC 8/12), HgaI (GACGC 5/10), BsmFI (GGGAC 10/14) SfaNI (GCATC 5/9), 및 Bsp I (ACCTGC 4/8).
인공적 제한 엔도뉴클레아제도 이용될 수 있다. 이러한 엔도뉴클레아제는 단백질 조작에 의하여 제조할 수 있다. 예를 들면, 엔도뉴클레아제 Fokl은, DNA 기질의 양 가닥 상에 인식 부위에서 떨어진 하나의 뉴클레오티드를 절단하기 위하여, 삽입에 의하여 조작된다. Li and Chandrasegaran, Proc . Nat. Acad . Sciences USA, 90:2764-8, 1993을 참조. 그러한 기술을 적용하여, 바람직한 인식 서열 및 인식 부위에서 절단 부위까지의 바람직한 거리를 갖는 제한 엔도뉴클레아제를 제조할 수 있다.
따라서, 소정 구현예에서, 본 발명의 조성물 및 방법에 유용할 수 있는 RE 효소는, 인식 부위 밖의 IIS형 절단 단편을 생성할 수 있는 것과 같은, 인공적인 제한 엔도뉴클레아제을 포함한다. 그러나, 다른 소정 구현예에서, 본 발명의 조성물 및 방법에 유용할 수 있는 RE 효소는, 인공적인 제한 엔도뉴클레아제를 배제한다.
소정 구현예에서, IIB형 제한 효소 인식 부위는 설계된 DNA 및/또는 RNA 링커에 병합될 수 있다. IIB형 제한 효소(예, BcgI 및 BplI)는 AdoMet 및 Mg2 + 보조인자 둘 다를 필요로 하는 멀티머이며, 인식의 양 측 DNA를 절단하여 인식 부위를 절단해낸다. 따라서 IIB RE 부위는 연결된 RNA 및 DNA 링커(예, RE 부위의 일부가 RNA 링커 상에 있고 RE 부위의 나머지 부분이 DNA 링커 상에 있어서, 결찰된 DNA 및 RNA 링커는 완전한 IIB형 RE 부위를 재구성함)를, 또는 RNA 링커 또는 DNA 링커 내에서 완전하게, 스패닝(span)하거나 스트래들링(straddle)하도록 조작될 수 있다. IIB형 RE의 소화 시에, 두 RNA 및 DNA 태그를 생성할 수 있다.
소정 구현예에서, IIG RE(예컨대, Acul) 인식 부위는 IIS RE 부위 대신에 이용할 수 있다. 그러한 IIG형 RE는 연속 서열을 인식하고, 한 측에서만 절단한다(Acul).
모든 적절한 II형 RE 인식 부위, 예컨대, 한 측 또는 양 측에서 인식 서열 밖에서 절단하는 II형 RE는, 다양한 소스에서 얻을 수 있다. 예를 들면, Restriction Endonucleases (Nucleic Acids and Molecular Biology)를 참조, A. Pingoud, Springer 편집; 2004판(2004년 12월 1일), 본원에 참조로서 병합됨. 또한, New England Biolabs' 2010 catalog 및 후속 업데이트를 참조(본원에 참조로서 병합됨).
소정 구현예에서, I형 제한 효소도 RNA 또는 DNA 태그, 특히 DNA 태그를 생성하는데 이용될 수 있다. 예를 들면, I형 RE 인식 부위는 DNA 링커에 포함되어, 연결된 염색체 DNA 내의 무작위 거리에서 RE가 절단하도록 한다.
소정 구현예에서, III형 RE 인식 부위(예, EcoP15I 부위)가 RNA 및/또는 DNA 링커에 이용될 수 있다. III형 RE 효소는 인식 부위 밖에서 절단하며, 절단을 성취하기 위하여는, 동일한 DNA 분자 내에서 반대의 배향으로 있는 그러한 두 서열을 필요로 한다. 각 절단을 위한 상기 두 개의 필요한 인식 부위는 DNA 링커 내에 완전히, 또는 RNA 링커 내에 완전히, 또는 두 링커 내에 함유될 수 있다(따라서, 정확하게 연결된 RNA-DNA 링커만이 RE 인식 부위를 재생성함).
III형 제한 효소 및 III형 효소의 예는, 예를 들면 Matsumura 등, SuperSAGE, Proc . Natl . Acad . Sci ., USA 100(26):15718-23 (Dec. 2003; Moencke-Buchner 등, J. Biotechnol ., 114: 99-106, 2004; Mucke 등, J. Mol . Biol ,. 312: 687-698, 2001; Rao 등, J. Mol . Biol.,209: 599-606, 1989; Hadi 등, J. Mol . Biol ,. 134: 655-666, 1979에 기재되어 있으며, 이것들 모두는 참조로서 본원에 병합되어 있다. 또한, III형 제한 효소는 New England Biolabs(NEB)에서 구입할 수 있다. 특히, 본 발명의 구현예를 실시하기 위한 예시적인 III형 RE는 III형 효소 EcoP15I이다. EcoP15I의 인식 부위는 CAGCAG (25/27)이다.
상기 제한 부위에서 임의의 것은 DNA 또는 RNA 링커에서 함께 이용될 수 있다. 예를 들면, RNA 링커는 IIS형 RE 부위를 포함할 수 있으며, 대응하는 DNA 링커는 RE 부위, IIG형 부위, 또는 III형 RE 부위 등이 없을 수 있다.
4. 콘카테머 및 라이브러리 (Concatemers and Libraries)
소정 구현예에서, 본 발명의 단리된 PET 폴리뉴클레오티드는 다른 PTE 폴리뉴클레오티드와 연결되거나 연접되어(concatenated) PET 폴리뉴클레오티드의 콘카테머를 형성한다. 임의의 수의 PET 폴리뉴클레오티드는, 시퀀싱의 목적을 위하여 또는 적합한 플라스미드 또는 벡터에 클로닝하기 위하여, 함께 연결될 수 있다.
따라서, 다른 태양에서, 본 발명은, 적어도 DNA 태그 및 적어도 하나의 RNA 태그를 포함하는 PET 폴리뉴클레오티드를 적어도 두 개 포함하는 PET 폴리뉴클레오티드의 콘카테머를 제공하며, 여기서 상기 DNA 태그는 염색체 또는 게놈 DNA로부터 얻고 상기 RNA 태그는 ncRNA의 cDNA로부터 얻어지며, 상기 DNA 및 상기 ncRNA의 cDNA는, 본 발명의 RNA/DNA 링커 및 방법을 이용하여, 가교된 핵산-분자 복합체로부터 얻어진다.
따라서, PET 폴리뉴클레오티드의 콘카테머의 각 PET 폴리뉴클레오티드는 RNA 태그-RNA 링커-DNA 링커-DNA 태그(또는 그 역 배향)의 일반적인 구조를 가질 수 있다.
상기 콘카테머는 많은 기술이 인정되는 방법 중 임의의 하나에 의하여 형성될 수 있다. 특히, 길이 조절 연쇄화 방법(Ruan 등, 미국 특허 출원 공개 번호 제 2008/0124707 A1호, 본원에 참조로서 병합됨)이 이용될 수 있다. 다른 실시예에서, 필요하면, 상기 단리된 PET 폴리뉴클레오티드의 두 양단이 제한 효소(II형)에 의하여 소화될 수 있는 하나 이상의 어댑터 올리고뉴크레오티드 연결하기 전에, 상기 두 양단을 연마할 수 있다. 소화 산물은, 개별 PET 폴리뉴클레오티드의 연접화(concatemerization)를 용이하게 할 수 있는 호환성 부착 말단을 가질 수 있다. RE 부위가 PET 폴리뉴클레오티드의 말단에 연결되는 모든 어댑터에서 있어서 동일하다면, 모든 부착 말단은 결찰 및 연접화를 위하여 호환적이며, 개별 PET 폴리뉴클레오티드는 헤드-투-테일(head-to-tail) 방식 또는 헤드-투-헤드(head-to-head) 방식으로 독립적으로 함께 연결될 수 있다. 상기 어댑터가 상이하다면, 예를 들어, 제1 RE 부위를 갖는 제1 어댑터는 RNA 태그에 연결될 수 있고, 제2 (상이한) RE 부위를 갖는 제2 어댑터는 DNA 태그에 연결될 수 있다. 연접화 시에, 모든 PET 폴리뉴클레오티드는 헤드-투-헤드(head-to-head) 방식으로 연결될 수 있다.
따라서, PET 폴리뉴클레오티드의 콘카테머의 각 PET 폴리뉴클레오티드가 하나(말단 PET 폴리뉴클레오티드에서) 또는 두 개(내부 PET 폴리뉴클레오티드에서) 다른 PET 폴리뉴클레오티드에 헤드-투-테일(head-to-tail) 방식 또는 헤드-투-헤드(head-to-head) 방식으로 독립적으로 연결될 수 있다. 소정 구현예에서, 콘카테머를 갖는 모든 PET 폴리뉴클레오티드는 헤드-투-헤드(head-to-head) 방식으로 연결될 수 있다.
PET 폴리뉴클레오티드의 DNA 및/또는 RNA 링커는, IIS형 제한 효소(예, MmeI 또는 GsuI)에 있어서의 RE 인식 부위와 같은, 적어도 하나의 제한 효소 인식 부위를 포함할 수 있다.
PET 폴리뉴클레오티드의 콘카테머는 벡터 또는 세포에 삽입되거나 클로닝될 수 있는데, 상기 세포는 박테리아 세포일 수 있다. PET 폴리뉴클레오티드의 상기 클로닝된 콘카테머는 바람직하게는 개별적으로 단리된 RE에 의하여 소화될 수 있다.
PET 폴리뉴클레오티드의 길이에 따라 연접화될 수 있는 본 발명의 PET 폴리뉴클레오티드의 수는 과도한 실험 없이 당업자에 의하여 용이하게 결정할 수 있다. 콘카테머의 형성 후에, 다중 태그는 시퀀신을 위한 벡터에 클로닝되거나, 상기 콘타테머는, 클로닝없이, 본원에 기재된 소위 차세대 고속처리 시퀀싱 방법, 또는 단일 분자 시퀀싱 방법을 포함하여, 당업계에서 알려진 방법 중 임의의 하나와 같은, 당업자에게 알려진 방법에 의하여, 직접 시퀀싱될 수 있다. 따라서, PET 폴리뉴클레오티드의 연접화는, 단일 벡터 또는 클론 내에서 다중 PET 폴리뉴클레오티드를 시퀀싱함으로써 연속 방식으로 핵산 분자를 효율적으로 분석할 수 있다.
관련 태양에서, 본 발명은, 적어도 DNA 태그 및 적어도 하나의 RNA 태그를 포함하는 PET 폴리뉴클레오티드를 적어도 두 개 포함하는 PET 폴리뉴클레오티드의 라이브러리를 제공하며, 여기서 상기 DNA 태그는 염색체 또는 게놈 DNA로부터 얻고 상기 RNA 태그는 ncRNA의 cDNA로부터 얻어지며; 상기 ncRNA의 DNA 및 cDNA는, 본 발명의 RNA/DNA 링커 및 방법을 이용하여, 가교된 핵산-분자 복합체로부터 얻어진다.
소정 구현예에서, 상기 라이브러리는 1000만개까지의 PET 폴리뉴클레오티드, 또는 100만, 10만, 1만, 1000, 100, 또는 10개까지의 PET 폴리뉴클레오티드까지 포함할 수 있다.
소정 구현예에서, 상기 라이브러리는, PCR 증폭과 같은, 임의의 증폭을 통하여 이루어질 수 있다.
소정 구현예에서, 상기 라이브러리 내에서 적어도 두 개의 멤버가, 클로닝된 유전 물질의 PCR 증폭, 순환 원형 증폭, 생물학 증폭과 같은 증폭, 또는 기타 공지된 증폭 방법으로부터 유래하도록, 상기 라이브러리를 증폭한다. PET 폴리뉴클레오티드의 말단에 연결된 PCR 어댑터의 정보에 기반하여, 혹은 클로닝된 PET 폴리뉴클레오티드 또는 이의 콘카테머에 인접한 클로닝 벡터 상의 프라이머 서열에 기반하여, PCR 프라이머 및 프로브 서열을 제조할 수 있다.
이어서, 인접한 RE 인식 부위(어댑터 내부)를 인식하는 효소를 갖도록 PET 폴리뉴클레오티드를 함유하는 PCR 또는 기타 증폭 산물을 단리하여 증폭된 라이브러리를 일으킬 수 있으며, 이는 많은 하류 분석 중 하나에 이용될 수 있다.
소정 구현예에서, PET 폴리뉴클레오티드 콘카테머는, 증폭 전 또는 후에, 겔 전기영동 및 겔 제거를 포함한, 임의의 표준 방법에 의하여, 적합한 크기에서 선택될 수 있다. 적절한 크기를 선택함에 있어서 주요 고려사항은, 상기 크기는 프라이머 다이머 및 비-어닐링된 어댑터의 상기 크기 및 하기의 소정의 긴 선형 멀티머의 크기이어야 한다는 것이다. 특히, 대략 100-1000 bp 또는 200-500 bp의 크기를 갖는 콘카테머가 선택될 수 있다. 따라서, 크기 선택과 관련하여, 크기가 상기 크기 범위에 있을 것이므로, 긴 선형 멀티머는 제거될 수 있다는 장점이 있다. 유사하게는, 너무 짧은 단편, 비-어닐링된 어댑터 및 프라이머 다이머도 제거될 수 있다.
5.
염색질 면역침전(Chromatin
Immunoprecipitation
,
ChIP
)
소정 구현예에서, 본 발명의 방법을 이용하여 구체적인 ncRNA-염색질/단백질-DNA 상호작용을 확인할 수 있다. 예를 들면, 소정 구현예에서, 특정 염색질 성분 또는 단백질과 관련이 있는 임의의 ncRNA-DNA-염색질 상호작용을 결정하는 것에 관심이 있을 수 있다. 본 발명의 방법은 Chlp을 이용하여 관심의 단백질을 면역침전하는 것을 추가로 포함할 수 있다.
ChIP를 이용하여 농축하며, 그럼으로써 히스톤 및 핵산 단백질 복합체에서 핵산에 결합하는 기타 단백질과 같은, 구체적인 단백질과 연관된 유전 영역을 확인할 수 있다(Taverner 등, Genome Biol., 2004, 5(3):210에서 검토됨). 목적은 상호작용의 부위에서 단백질을 DNA와 가교하는 것이다.
이 목적은, 포름알데히드, 파라포름알데히드, 글루타르알데히드, 아세톤, 메탄올, 또는 기타 이작용성 가교제(또는 이의 혼합물)을 배양 중의 살아있는 세포에 직접 첨가함으로써, 신속하고 효율적으로 달성할 수 있다. 이어서, 이러한 고정 세포의 조 추출액을 제조하고, 염색질을 본 발명의 방법에 따라 단편화한다. 예를 들면, 바람직한 평균 크기(예, 보통 약 1kb)를 달성하기 위하여, 단편화는, 물리적 전단(예, 초음파처리에 의한 전단, 수리전단, 피하 주사기 바늘을 통한 반복 끌기(drawing)), 또는 효소적 소화(예컨대, 제한 효소 소화, 또는 제한된 타이밍, 효소 농도, 온도, pH, 등을 갖는 엔도뉴클레아제에 의한 소화)에 의하여, 이룰 수 있다. 이어서, 가교되고 전단된 염색질 단편을, 관심의 구체적인 단백질에 대항하여 발생한 항체와의 면역침전 반응에서 이용할 수 있다. 각 면역침전에서 농축된 가교된 ncRNA 및 DNA 단편을, 근접 결찰을 통하여 본 발명의 DNA 및 RNA 링커를 이용하여, 연속하여 연결한 다음, 단백질 성분(예, 열 및/또는 프로테아제 K 소화를 통하여)으로부터 끊거나 역교차되고, 정제되어 본 발명의 방법에 의하여 확인할 수 있다.
ChIP을 이용하는 잇점은, 이 접근법이 염색질 및 기타 비-히스톤 단백질의 신속한 가교에 의하여, 그들의 천연 상태에서 존재하는 상호작용과 같은, 살아있는 세포에서 ncRNA 또는 유전 조절 네트워크를 "냉동"시켜서, 이론적으로, 예컨대, 이종기원 발현에 의하여 부과된 잠재적인 인공물이 없는, 시간의 임의의 지점에서 구체적인 ncRNA 또는 유전자 조절 시스템의 "진짜" 상을 나타낼 수 있다.
6.
응용
본 발명의 방법 및 조성물은 치우치지 않은 전반적인 수준으로 또는 관심의 특이적 ncRNA 또는 특이적 염색질 성분의 수준으로, ncRNA와 게놈 좌위 사이의 상호작용을 확인하게 할 수 있다. 본 방법을 이용하여 얻은 정보는 다양한 연구 및 개발에 이용될 수 있다.
예를 들면, 본 발명은, 본 발명의 방법 및 조성물을 이용하여, 특이적 ncRNA와 이의 게놈 타겟 서열 사이의 상호작용을 판단하는 것을 포함하는, 이전에 비공지된 또는 불완전하게 이해된 기능을 갖는, 특이적 ncRNA의 염색질 타겟을 확인하는 방법을 제공한다. 상기 확인된 게놈 타겟 서열은 ncRNA가 그의 생물학적 기능을 행하는 후보 타겟을 나타낸다.
관련된 태양에서, 본 발명은, 본 발명의 방법 및 조성물을 이용하여, 특이적 유전자 또는 게놈 영역과 상기 게놈의 ncRNA 사이의 상호작용을 판단하는 것을 포함하는, 종양 억제자 유전자 또는 종양 유전자를 포함하는 유전자 또는 게놈 영역과 같은, 특이적 유전자 또는 게놈 영역과 상호작용하는 ncRNA를 확인하는 방법을 제공한다. 확인된 ncRNA는 유전자 기능의 후보 조절자(예, 억제자, 인핸서, 또는 보조-활성자)를 나타낸다.
소정 구현예에서, 상기 방법은, 둘 이상의 샘플 중에서, 상기ncRNA와 상기 유전자/게놈 영역 사이의 상호작용의 존재/부존재 또는 정도를 비교하는 것을 추가로 포함한다. 그러한 비교는 두 샘플 사이의 상기 상호작용의 생물학적 중요성 및 임의의 관찰된 차이를 추가로 판독하는 것을 도모할 수 있다.
예를 들면, 샘플 중 하나는 건강한 대조군 샘플이며, 다른 샘플은 질환 샘플, 예를 들어, 동물 모델(예, 마우스 또는 래트 모델)로부터의 질환 샘플; 특정 처리 전 및 후의 질환 샘플; 상이한 단계의 치료에서의 질환 샘플; 특정 치료에 반응한 환자, 치료에 저항성이 환자, 또는 치료 후 재발한 환자로부터의 질환 샘플일 수 있다.
소정 구체예에서, 샘플 중 하나는 줄기 세포 또는 상기 환자에게서 유래되는 유도 만능 줄기(iPS) 세포이고, 선택적으로, 나머지 다른 샘플은 그러한 줄기 세포 또는 iPS 세포로부터 분화된 세포주일 수 있다. 여기서, 구체적인 ncRNA-염색질 상호작용은 발달 또는 분화 프로그램의 개시와 관련이 있을 수 있다.
소정 구현예에서, 상기 샘플은, 인간, 비-인간 영장류/포유류, 가축 동물(소, 말, 돼지, 양, 염소, 닭, 낙타, 당나귀, 고양이, 개), 포유 동물 모델 생물(마우스, 래트, 햄스터, 기니피그, 토끼, 또는 기타 설치류), 양서류(예, 제노푸스(Xenopus)), 어류(예, 제브라 피쉬), 곤충(초파리), 선충(예, C. elegans), 식물, 조류, 곰팡이 (효모, 예를 들면, S. cerevisae 또는 S. pombe )으로부터 유래할 수 있다. 상기 샘플은 확립된 세포주의 조직 배양물, 배양된 1차 세포, 조직 생검물질(갓 절개되거나 냉동됨) 등 일 수 있다.
실시예 9에 보인 바와 같이, 본 발명의 방법은 ncRNA - CCAT1(Colon Cancer Associated Transcript 1)-이 본 좌위에서 매우 복잡한 전사 아형을 갖는 것으로 확인하였다. RICh-PET 데이터는 CCAT1의 잠재적 기능과 하부 메커니즘의 중요한 이해를 제공한다. 구체적으로, CCAT1 좌위 자체는, CCAT1 좌위가 자궁암 세포주 HeLa 세포에서 고도로 전사되는 중요한 인핸서 성질을 가지며, RICh-PET 데이터는, 이 좌위로부터의 전사된 산물이 다른 인핸서 및 프로모터 영역을 타겟팅한다는 것을 보여준다. 예를 들면, CCAT1 ncRNA 전사체(각각 ≥ 3개의 RNA 태그)에 의하여 타겟팅된 122개의 좌위에 있어서, 88개의 좌위는, RNAPII 상호작용을 갖는 6개의 인핸서 좌위를 포함하는, 인핸서 영역이다. 또 다른 34개의 좌위는 프로모터 영역이다. 이는, 평균적으로 CCAT1 타겟 유전자는 무작위로 선택된 유전자 군보다 더 고도로 발현된다는 의견과 일치한다. 따라서, lncRNA CCAT1는 전자 보조-인자로서 작용하여, 종양 유전자 c- myc을 포함하는, 유전자 네트워크를 활성화시킬 수 있다.
따라서, 본 발명의 다른 태양은, CCAT1-코딩된 lncRNA의 길항제를 투여하는 것을 포함하는, CCAT1을 발현하는 암을 치료하는 방법을 제공한다.
관련 태양에서, 본 발명은, 유전자 산물을 CCAT1-코딩된 lncRNA의 길항제에 접촉시키는 것을 포함하는, CCAT1 (예, 전사된 lncRNA)의 유전자 산물에 의하여 매개된 전사 활성화 또는 보조-활성화를 파괴시키는 방법을 제공한다. 소정 구현예에서, 상기 전사 활성화 또는 보조-활성화는 암세포에서 일어난다. 소정 구현예에서, 전사 활성화 또는 보조-활성화는 c-myc, FAN84B, 및/또는 SNX14를 위한 것이다. 소정 구현예에서, CCAT1 게놈 좌위를 타겟 유전자 좌위의 물리적으로 근접한 곳에 위치시키는 것에 의하여 전사 활성화 또는 보조-활성화가 영향을 받는다.
소정 구현예에서, 상기 암은 결장암(예, 결장 선암), 직장암, 자궁 경부암, 폐암, 위암, 간암, 및 이들의 전이이다. 소정 구현예에서, 암은, 매칭하는 또는 대조군 샘플에 비교하여, 2-, 3-, 5-, 10-, 15-, 20-, 30-, 40-, 50-, 60-, 70-, 80-, 90-, 100-, 120-, 150-, 175-, 200-, 250-, 300-, 500-, 또는 1000-배 더 높은 레벨로, CCAT1 전사체를 발현한다.
소정 구현예에서, 길항제는, 예를 들면, 혈청 안정성, 약물학, 또는 약물동력학 성질 등을 개선하기 위하여, 변형 뉴클레오티드를 선택적으로 포함할 수 있는 안티센스 폴리뉴클레오티드이다. 이 변형 뉴클레오티드는 PNA, LNA, 2'-O-알킬 또는 기타 2' 변형, 및/또는 당-포스페이트 골격 상의 변형을 포함할 수 있다.
소정 구현예에서, 길항제는 상기 인코딩된 CCAT1 lncRNA을 타겟팅한 siRNA 또는 miRNA 구조체이다.
또한, 본 발명은 CCAT1 lncRNA의 길항제(안티센스, siRNA, miRNA, 또는 이들을 코딩/발현하는 벡터)를 제공한다.
다른 태양에서, 본 발명은, 본 발명의 방법에 의하여 정의된 약물 효능과 특정 관찰 ncRNA-염색질 상호작용(예, 내성환자가 아닌 순응 환자에서 확인된 상호작용) 사이의 통계적으로 유의한 연관성 또는 관련성을 설정하는 단계, 상기 통계적으로 유의한 연관성 또는 관련성에 따라 다수의 후보 약물의 효과를 판단하는 단계, 상기 통계적으로 유의한 연관성 또는 관련성을 촉진하는 후보 약물을 확인하는 단계를 포함하는, 약물 스크리닝 방법을 제공한다.
소정 구현예에서, 내성 환자의 샘플을 이용하여 상기 후보 약물의 효과를 시험한다. 이는, 내성 환자에서 통계적으로 유의한 연관성을 회복하는 후보 약물을 확인할 수 있게 한다.
다른 태양에서, 본 발명은, (1) 본 발명의 방법을 이용하여, 약물의 효능과 특이적 ncRNA-게놈 DNA (유전자) 상호작용(예, 치료에 반응하는 환자에서 효능이 관찰될 때마다, 특이적 ncRNA-게놈 DNA (유전자) 상호작용이 관찰되며; 치료에 반응하지 않는 환자에서 효능이 관찰되지 않을 때마다, 특이적 ncRNA-게놈 DNA (유전자) 상호작용이 관찰되지 않음) 사이의 통계적으로 유의한 관련성을 (상기 관찰된 ncRNA-게놈 DNA 상호작용 중에서) 확인하는 단계; (2) 상기 관여된 ncRNA 및/또는 상기 DNA (유전자)의 발현 수준을 결정하는 단계를 포함하는데, 약물 효능이 ncRNA 발현 증가 및 DNA (유전자) 발현 저해와 관련되는 경우, 상기 DNA (유전자)를 질환을 치료하기 위한 잠재적 타겟 유전자로 확인하는, 질환 치료를 위한 타겟 유전자를 확인하는 방법을 제공한다.
또한, 본 발명의 방법이 그러한 ncRNA를 확인하기 위한 치우치지 않은 접근법이므로, 상기 본 발명의 조성물 및 방법을 이용하여 특정 게놈 내에서 아직 알려지지 않은 ncRNA을 확인할 수 있다. PET 폴리뉴클레오티드 클러스터가, 임의의 단백질을 인코딩하지 않는 게놈의 한 영역에서 RNA 태그 클러스터를 연속하여 확인하고, 이러한 RNA 태그를 해당 DNA 태그에 의하여 나타내는 (먼, 예컨대, 염색체간) 좌위에 연속하여 연결한다면, RNA 태그가 ncRNA를 드러낼 가능성이 크다.
본 발명의 스크리닝 방법에 의하여 확인된 후보 치료제 또는 타겟 유전자는, 질환 또는 상태에 관련 있는 공지된 실험 모델을 이용하여, 생체외 및/또는 생체내로 입증할 수 있다. 예를 들면, 특이적 ncRNA가 종양 유전자의 발현을 촉진하는 것(또는 종양 억제 유전자의 발현을 저해하는 것)으로 확인되어, 후보 약물 타겟이 된다면, siRNA, miRNA, 안티센스, 등과 같은 ncRNA의 길항제를 이용하는 잠재적인 치료를 생체외 및/또는 생체내에서 입증할 수 있으며, 확립된 암 모델, 예를 들면, 치료해야 할 암의 마우스 모델과 같은, 모델 동물에서 후자를 실시할 수 있다.
상기 마우스는, 많은 상이한 접근가능한 균주를 갖는, 약물 발견 및 개발을 위한 잘 확립된 모델이다. 예를 들면, 암 연구용 많은 유용한 모델이 Mouse Models of Human Cancers Consortium에서 발견할 수 있으며, 이는 몇 개의 데이터베이스, 예컨대, Emice (emice dot nci dot nih dot gov), Cancer Models Database (cancermodels dot nci dot nih dot gov) 및 Cancer Images Database (cancerimages dot nci dot nih dot gov), 또는 The Jackson Laboratory (see jaxmice dot jax dot org slash list slash rax3 dot html)에 의해 배포된 암 연구 모델과 같은 기타 자원을 개발하였다. 1차 암 생검 또는 세포주를 이용하는, 추가 이종 이식 모델은 암 조사에 유용하다.
예를 들면, 후보 ncRNA에 대한 잠재적 길항제의 효능을 입증할 수 있는 폐암모델을 개발하기 위하여, CB17-SCID 베이지색 마우스(Taconic, cat. no. CBSCBG) 또는 NOD/SCID (The Jackson Laboratory cat. 001303), 또는 NSG (The Jackson Laboratory cat. 5557)로 알려진 NOD SCID Gamma 마우스와 같은 6-8 주령 암컷 면역결핍 마우스의 인간 폐 암종 A549 세포(ATCC® CCL-185)가 있는 좌측 폐에 피하 또는 흉강을 통해 (정위(orthotopic); 104/sup cells/25 ㎕) 주입하였다. 종양을 지닌 마우스에 중화 항-CXCL12 또는 면역이전 혈청(preimmune serum)을 복강내 주입하거나, 치료를 받지 않는다. 대안적으로 종양을 지닌 마우스에 플라티놀(시스플라틴) 또는 아비트렉세이트(메토트렉세이트) 또는 팍시탁셀, 또는 기타 화합물로 치료할 수 있다. 종양은 치료할 및 치료하지 않을 다양한 시점에서 단리한다. 비코딩 RNA는 이전에 기재된 방법에 따라 확인한다.
7.
CCAT1
전사체
, 길항제, 및 이의 용도
다른 태양에서, 본 발명은 본 발명의 방법으로 확인된 다양한 CCAT1 전사체, 이의 cDNA 서열(두 가닥), 길항제(예, 안티센스 서열, 이러한 CCAT1 ncRNA 전사체의 기능을 길항하는 siRNA 또는 miRNA 구조체)를 제공한다.
CCAT1 ncRNA의 상이한 아형을 나타내는 여덟개의 확인된 cDNA 서열이 서열번호 1-8로 하기에 제공되어 있다.
>CCAT1_JAX_1 전사체 서열; 게놈 위치: chr8:128128655-128241571 가닥:-
>CCAT1_JAX_2 전사체 서열; 게놈 위치: chr8:128128655-128232653 가닥:-
>CCAT1_JAX_3 전사체 서열; 게놈 위치: chr8:128152989-128231094 가닥:-
>CCAT1_JAX_4 전사체 서열; 게놈 위치: chr8:128160497-128232653 가닥:-
>CCAT1_JAX_5 전사체 서열; 게놈 위치: chr8:128172634-128231094 가닥:-
>_CCAT1_JAX_6 전사체 서열; 게놈 위치: chr8:128197810-128240377 가닥:-
>CCAT1_JAX_7 전사체 서열; 게놈 위치: chr8:128186443-128240377 가닥:-
>CCAT1_JAX_8 전사체 서열; 게놈 위치: chr8:128218833-128240377 가닥=-
서열번호 1 내지 8 각각에서, 각 CCAT1 ncRNA 전사체 아형과 동일한 서열(RNA의 U가 cDNA의 T로 치환된 것은 제외)을 가지는 cDNA 서열 "-" 가닥이 3' 말단에서 5' 말단까지 보인다. 또한, 각 cDNA "-" 가닥의 첫번째 및 마지막 뉴클레오티드는 게놈 서열 상에서 해당 뉴클레오티드에 맵핑되므로, 또한 보인다(예, 서열번호 1에서, 5' 말단에서의 첫번째 cDNA 뉴클레오티드 C는 인간 게놈의 8번 염색체 상의 뉴클레오티드 128128655에 대응하며, 5' 말단에서의 마지막 cDNA 뉴클레오티드 T는 인간 게놈의 8번 염색체 상에서 뉴클레오티드 128241571에 대응함).
또한, 다음 표는, 인간 염색체 8번 상의 뉴클레오티드 위치로 표현되는 각 CCAT1 전사체의 각 엑손(exon)을 위한 시작 및 말단 뉴클레오티드 위치, 각 엑손의 길이, 및 대응 게놈 서열 크기를 포함하여, 8개의 전사체, CCAT1_JAX_1 내지 CCAT1_JAX_8 (각각 서열번호 1-8)의 추가 정보를 열거한다.
이름 | 특징 | 시작 | 끝 | 게놈 크기 | 전사체 길이 |
CCAT1_JAX_1 | 전사체 | 128128655 | 128241571 | 112917 | 29299 |
CCAT1_JAX_1 | 엑손 1 | 128128655 | 128129210 | 556 | 556 |
CCAT1_JAX_1 | 엑손 2 | 128152988 | 128153109 | 122 | 122 |
CCAT1_JAX_1 | 엑손 3 | 128153590 | 128153816 | 227 | 227 |
CCAT1_JAX_1 | 엑손 4 | 128155104 | 128155178 | 75 | 75 |
CCAT1_JAX_1 | 엑손 5 | 128156007 | 128156437 | 431 | 431 |
CCAT1_JAX_1 | 엑손 6 | 128160496 | 128161163 | 668 | 668 |
CCAT1_JAX_1 | 엑손 7 | 128161860 | 128161917 | 58 | 58 |
CCAT1_JAX_1 | 엑손 8 | 128172633 | 128174329 | 1697 | 1697 |
CCAT1_JAX_1 | 엑손 9 | 128176683 | 128176771 | 89 | 89 |
CCAT1_JAX_1 | 엑손 10 | 128181151 | 128181362 | 212 | 212 |
CCAT1_JAX_1 | 엑손 11 | 128186434 | 128186609 | 176 | 176 |
CCAT1_JAX_1 | 엑손 12 | 128197071 | 128198015 | 945 | 945 |
CCAT1_JAX_1 | 엑손 13 | 128200029 | 128200129 | 101 | 101 |
CCAT1_JAX_1 | 엑손 14 | 128200289 | 128215467 | 15179 | 15179 |
CCAT1_JAX_1 | 엑손 15 | 128218832 | 128218920 | 89 | 89 |
CCAT1_JAX_1 | 엑손 16 | 128218922 | 128221962 | 3041 | 3041 |
CCAT1_JAX_1 | 엑손 17 | 128231054 | 128231498 | 445 | 445 |
CCAT1_JAX_1 | 엑손 18 | 128231499 | 128231806 | 308 | 308 |
CCAT1_JAX_1 | 엑손 19 | 128231808 | 128232653 | 846 | 846 |
CCAT1_JAX_1 | 엑손 20 | 128234035 | 128235911 | 1877 | 1877 |
CCAT1_JAX_1 | 엑손 21 | 128236644 | 128236720 | 77 | 77 |
CCAT1_JAX_1 | 엑손 22 | 128236779 | 128236929 | 151 | 151 |
CCAT1_JAX_1 | 엑손 23 | 128239643 | 128241571 | 1929 | 1929 |
CCAT1_JAX_2 | 전사체 | 128128655 | 128232653 | 103999 | 25265 |
CCAT1_JAX_2 | 엑손 1 | 128128655 | 128129210 | 556 | 556 |
CCAT1_JAX_2 | 엑손 2 | 128152988 | 128153109 | 122 | 122 |
CCAT1_JAX_2 | 엑손 3 | 128153590 | 128153816 | 227 | 227 |
CCAT1_JAX_2 | 엑손 4 | 128155104 | 128155178 | 75 | 75 |
CCAT1_JAX_2 | 엑손 5 | 128156007 | 128156437 | 431 | 431 |
CCAT1_JAX_2 | 엑손 6 | 128160496 | 128161163 | 668 | 668 |
CCAT1_JAX_2 | 엑손 7 | 128161860 | 128161917 | 58 | 58 |
CCAT1_JAX_2 | 엑손 8 | 128172633 | 128174329 | 1697 | 1697 |
CCAT1_JAX_2 | 엑손 9 | 128176683 | 128176771 | 89 | 89 |
CCAT1_JAX_2 | 엑손 10 | 128181151 | 128181362 | 212 | 212 |
CCAT1_JAX_2 | 엑손 11 | 128186434 | 128186609 | 176 | 176 |
CCAT1_JAX_2 | 엑손 12 | 128197071 | 128198015 | 945 | 945 |
CCAT1_JAX_2 | 엑손 13 | 128200029 | 128200129 | 101 | 101 |
CCAT1_JAX_2 | 엑손 14 | 128200289 | 128215467 | 15179 | 15179 |
CCAT1_JAX_2 | 엑손 15 | 128218832 | 128218920 | 89 | 89 |
CCAT1_JAX_2 | 엑손 16 | 128218922 | 128221962 | 3041 | 3041 |
CCAT1_JAX_2 | 엑손 17 | 128231054 | 128231498 | 445 | 445 |
CCAT1_JAX_2 | 엑손 18 | 128231499 | 128231806 | 308 | 308 |
CCAT1_JAX_2 | 엑손 19 | 128231808 | 128232653 | 846 | 846 |
CCAT1_JAX_3 | 전사체 | 128152989 | 128231094 | 78106 | 465 |
CCAT1_JAX_3 | 엑손 1 | 128152989 | 128153109 | 121 | 121 |
CCAT1_JAX_3 | 엑손 2 | 128153719 | 128153816 | 98 | 98 |
CCAT1_JAX_3 | 엑손 3 | 128155105 | 128155178 | 74 | 74 |
CCAT1_JAX_3 | 엑손 4 | 128156008 | 128156139 | 132 | 132 |
CCAT1_JAX_3 | 엑손 5 | 128231055 | 128231094 | 40 | 40 |
CCAT1_JAX_4 | 전사체 | 128160497 | 128232653 | 72157 | 8066 |
CCAT1_JAX_4 | 엑손 1 | 128160497 | 128161163 | 667 | 667 |
CCAT1_JAX_4 | 엑손 2 | 128161861 | 128161917 | 57 | 57 |
CCAT1_JAX_4 | 엑손 3 | 128209720 | 128215465 | 5746 | 5746 |
CCAT1_JAX_4 | 엑손 4 | 128231055 | 128231498 | 444 | 444 |
CCAT1_JAX_4 | 엑손 5 | 128231500 | 128231806 | 307 | 307 |
CCAT1_JAX_4 | 엑손 6 | 128231809 | 128232653 | 845 | 845 |
CCAT1_JAX_5 | 전사체 | 128172634 | 128231094 | 58461 | 1824 |
CCAT1_JAX_5 | 엑손 1 | 128172634 | 128174329 | 1696 | 1696 |
CCAT1_JAX_5 | 엑손 2 | 128176684 | 128176771 | 88 | 88 |
CCAT1_JAX_5 | 엑손 3 | 128231055 | 128231094 | 40 | 40 |
CCAT1_JAX_6 | 전사체 | 128197810 | 128240377 | 42568 | 11053 |
CCAT1_JAX_6 | 엑손 1 | 128197810 | 128198015 | 206 | 206 |
CCAT1_JAX_6 | 엑손 2 | 128200030 | 128200129 | 100 | 100 |
CCAT1_JAX_6 | 엑손 3 | 128200290 | 128209809 | 9520 | 9520 |
CCAT1_JAX_6 | 엑손 4 | 128215408 | 128215465 | 58 | 58 |
CCAT1_JAX_6 | 엑손 5 | 128231055 | 128231098 | 44 | 44 |
CCAT1_JAX_6 | 엑손 6 | 128231100 | 128231211 | 112 | 112 |
CCAT1_JAX_6 | 엑손 7 | 128235783 | 128235911 | 129 | 129 |
CCAT1_JAX_6 | 엑손 8 | 128236780 | 128236929 | 150 | 150 |
CCAT1_JAX_6 | 엑손 9 | 128239644 | 128240377 | 734 | 734 |
CCAT1_JAX_7 | 전사체 | 128186443 | 128240377 | 53935 | 1216 |
CCAT1_JAX_7 | 엑손 1 | 128186443 | 128186609 | 167 | 167 |
CCAT1_JAX_7 | 엑손 2 | 128231055 | 128231098 | 44 | 44 |
CCAT1_JAX_7 | 엑손 3 | 128231100 | 128231212 | 113 | 113 |
CCAT1_JAX_7 | 엑손 4 | 128235784 | 128235911 | 128 | 128 |
CCAT1_JAX_7 | 엑손 5 | 128236780 | 128236929 | 150 | 150 |
CCAT1_JAX_7 | 엑손 6 | 128239764 | 128240377 | 614 | 614 |
CCAT1_JAX_8 | 전사체 | 128218833 | 128240377 | 21545 | 4103 |
CCAT1_JAX_8 | 엑손 1 | 128218833 | 128218920 | 88 | 88 |
CCAT1_JAX_8 | 엑손 2 | 128218923 | 128221962 | 3040 | 3040 |
CCAT1_JAX_8 | 엑손 3 | 128231055 | 128231098 | 44 | 44 |
CCAT1_JAX_8 | 엑손 4 | 128231100 | 128231211 | 112 | 112 |
CCAT1_JAX_8 | 엑손 5 | 128235783 | 128235911 | 129 | 129 |
CCAT1_JAX_8 | 엑손 6 | 128236645 | 128236720 | 76 | 76 |
CCAT1_JAX_8 | 엑손 7 | 128239764 | 128240377 | 614 | 614 |
이러한 CCAT1 전사체는 NCBI 참조 서열: XR_133500.3에서 하기에 기술된 CCAT1 전사체와 상이하다.
따라서, 한 태양에서, 본 발명은 서열번호 1 내지 8번으로 구성되는 군에서 선택되는 서열에 의하여 나타내는, CCAT1 ncRNA 전사체의 cDNA 서열을 제공한다.
관련 태양에서, 본 발명은, CCAT1 ncRNA의 기능을 길항하는, CCAT1 ncRNA의 길항제 서열을 제공한다.
소정 구체예에서, 상기 길한하는 서열은 서열번호 9에 대응하는 CCAT1 ncRNA의 기능을 길항하지 않는다.
소정 구체예에서, 상기 길항제 서열은 서열번호 1 내지 8에서 보여지는 "-" 가닥 cDNA 서열 중 임의의 하나에 대한 안티센스 서열이다.
소정 구체예에서, 상기 안티센스 서열은, 생리학적 조건(예, 세포의 핵에서), 또는 Spring Harbor Laboratory Press에서 출판한, Molecular Cloning: A Laboratory Manual by Sambrook and Russell, Third Edition, 2001(본원에 참조로서 병합)에 기재된 것과 같은, 매우 엄격한 혼성화 조건 하에서, 서열번호 1 내지 8(서열번호 9는 아님)에서 보여지는 "-" 가닥 cDNA 서열 중 임의의 하나에 대한 안티센스 서열이다. 그러한 높은 엄격한 혼성화 조건은 대략 45℃에서 6×소듐 클로라이드/소듐 시트레이트(SSC), 이어서 50℃, 55℃, 약 60℃, 또는 약 65℃ 이상에서 0.2×SSC 및 0.1% SDS로 1회 이상의 세정을 하는 것을 포함할 수 있다.
소정 구현예에서, 상기 안티센스 서열은, 안티센스가 cDNA 서열과 혼성화하는 적어도 한 영역에서, 서열번호 1 내지 8에 보인 "-" 가닥 cDNA 서열 중 임의의 하나와 적어도 약 40%, 50%, 60%, 70%, 80%, 85%, 90%, 95%, 97%, 99%, 또는 그 이상 동일하다. 소정 구현예에서, 상기 안티센스 서열은 서열번호 9에 단지 약 50%, 40%, 30%, 20% 동일하다.
소정 구현예에서, 상기 안티센스 서열은 약 10, 12, 14, 16, 20, 22, 24, 26, 28, 30 또는 그 이상의 뉴클레오티드 길이를 가진다.
소정 구현예에서, 상기 길항제 서열은 서열번호 1 내지 8(서열번호 9는 아님)에 보인 "-" 가닥 cDNA 서열에 의하여 나타낸 CCAT1 ncRNA 아형 중 임의의 하나 이상의 파괴를 타겟으로 하는 siRNA 또는 miRNA 서열이다.
소정 구현예에서, 상기 길항제 서열은, siRNA 또는 miRNA에 처리될 수 있는 RNase III(예, Dicer)를 위한 siRNA/miRNA, 또는 dsRNA 기질을 인코딩하는 벡터이다.
소정 구현예에서, siRNA 또는 miRNA는 CCAT1 ncRNA 아형의 파괴를 타겟으로 하는 약 20 내지 25개의 뉴클레오티드의 가이드 서열을 포함한다.
관련 태양에서, 본 발명은, 생물 샘플에서 서열번호 1 내지 8 중 임의의 하나 또는 이의 단편의 발현 수준을 측정하되, 상기 생물 샘플에서 서열번호 1 내지 8 중 임의의 하나 또는 이의 단편의 발현은 암 또는 전암 병변을 나타내는 단계를 포함하는, 암 또는 전암 병변을 진단하는 방법을 제공한다. 소정 구현예에서, 상기 단편은 서열번호 9의 단편이 아니다.
소정 구현예에서, 상기 방법은, 생물 샘플에서 측정되는 발현 수준을 표준과 비교하되, 상기 생물 샘플에서 서열번호 1 내지 8 중 임의의 하나 또는 이의 단편의 높은 수준의 발현은 암 또는 전암 병변을 나타내는 단계를 추가로 포함한다. 소정 구현예에서, 상기 단편은 서열번호 9의 단편이 아니다.
소정 구현예에서, 상기 방법은 (a) 대상체에서 얻은 생물 샘플로부터 핵산을 단리하는 단계, (b) 혼성화 복합체의 형성을 허용하는 조건에서, 핵산을 갖는 서열번호 1 내지 8 중 임의의 하나를 인식할 수 있는 프로브를 혼성화하는 단계, (c) 혼성화 복합체 형성을 표준과 비교하는 단계를 포함하되, 상기 생물 샘플에서 더 높은 수준의 혼성화 복합체는 암 또는 전암 병변을 나타낸다. 소정 구현예에서, 상기 프로브는 서열번호 9에 혼성화하지 않는다.
소정 구현예에서, 상기 방법은, (a) 대상체에서 얻은 생물 샘플로부터 핵산을 단리하는 단계, (b) 상기 단리된 핵산에서 서열번호 1 내지 8 중 임의의 하나를 증폭하는 단계, (c) 상기 증폭된 CCAT1 산물을 시각화하는 단계, (d) 상기 CCAT1 증폭 산물의 양을 표준과 비교하는 단계를 포함하되, 더 높은 수준의 CCAT-1 증폭 산물의 존재는 암 또는 전암 병변을 나타낸다. 소정 구현예에서, 상기 단편은 서열번호 9의 단편이 아니다.
소정 구현예에서, 서열번호 1 내지 8 중 하나 이상에 특이적인 프로브를 이용하여 PCR(예, 실시간 정량적 PCR)에 의하여 상기 증폭을 실시한다.
소정 구현예에서, 암이 없는 대상체에서 CCAT-1의 발현 수준을 측정함으로써, 상기 표준을 결정한다. 관련 구현예에서, 동일한 대상체의 비-암성 조직에서 CCAT-1의 발현 수준을 측정함으로써, 상기 표준을 결정한다.
소정 구현예에서, 상기 암은 결장암(예: 결장 선암), 직장암, 자궁 경부암, 폐암, 위암, 간암, 및 이들의 전이로 구성되는 군에서 선택된다.
소정 구현예에서, 전암 병변은 선종폴립(adenomatous polyp)이다.
소정 구현예에서, 상기 생물 샘플은 조직, 혈액, 타액, 소변, 대변, 및 골수 샘플로 구성되는 군에서 선택된다.
본 발명의 관련 태양은, 프로브 또는 프라이머로서 유용한, 서열번호 1 내지 8 중 임의의 하나의 적어도 8개의 연속 뉴클레오티드 또는 이의 보체를 포함하는 올리고뉴클레오티드를 제공한다. 소정 구현예에서, 상기 올리고뉴클레오티드는 서열번호 9에 혼성화하지 않는다.
본 발명의 관련 태양은, (a) 상기 생물 샘플에서 핵산을 단리하는 단계, (b) 혼성 복합체를 형성하는 조건에서, 본 발명의 CCAT1 올리고뉴클레오티드 프로브를 핵산과 혼성화하는 단계, (c) 혼성 복합체 형성을 표준과 비교하는 단계를 포함하되, 상기 생물 샘플에서 더 높은 수준의 혼성 복합체는 샘플에서 CCA1-1 발현을 나타내는, 생물 샘플에서 CCAT-1의 발현을 검출하는 방법을 제공한다.
본 발명의 다른 관련 태양은, cDNA 또는 이의 단편을 포함하며, 상기 cDNA는 서열번호 1 내지 8로 구성되는 군에서 선택되는 벡터를 제공한다. 소정 구현예에서, 상기 cDNA 단편은 서열번호 9에 혼성화하지 않는다.
본 발명의 다른 관련 태양은 상기 대상 벡터를 포함하는 숙주 세포를 제공한다.
본 발명의 다른 관련 태양은, (a) 지시자 분자(indicator molecule)에 결합된 본 발명의 CCAT1 프로브를 대상체에 투여하는 단계, (b) 영상화 장치에 의하여 상기 프로브에 결합된 상기 지지자 분자(예, 방사성 동위원소, 형광 염료, 시인성 염색, 또는 나노입자)을 검출하는 단계를 포함하는, 암 또는 전암 병변을 영상화하는 방법을 제공한다.
본 발명의 추가 관련 태양은, 상기 CCAT1 ncRNA을 CCAT1(예, 안티센스, miRNA, 또는 siRNA)의 대상 길항제 서열과 접촉하는 단계를 포함하는, 서열번호 1 내지 8 중 하나 이상에 의해 나타내는 CCAT1 ncRNA 전사체의 기능을 길항하는 방법을 제공한다.
소정 구현예에서, 상기 방법은 생체외에서 실시하며, 상기 CCAT1 ncRNA 전사체는 조직 배양 샘플에서의 세포에 존재한다.
소정 구현예에서, CCAT1(예, 안티센스, miRNA, 또는 siRNA)의 상기 대상 길항제 서열을 이를 필요로 하는 대상체에 투여하는 단계를 포함하는 상기 방법을 생체내에서 실시한다.
본 발명의 또 다른 관련 태양은, CCAT1(예, 안티센스, miRNA, 또는 siRNA)의 대상 길항제 서열 및 약학적으로 허용가능한 부형제 및/또는 담체를 포함하는 약학 조성물을 제공한다.
본 발명의 한 태양 하에서 기재된 구현예들을 포함하는, 본 출원에 기재된 임의의 구현예는 본 발명의 다른 태양의 기타 구현예들과 조합할 수 있는 것으로 이해해야 한다.
본원에 구체적으로 교시되지 않은 기술들은, Molecular Cloning: A Laboratory Manual by Sambrook and Russell, Third Edition, 2001, Cold Spring Harbor Laboratory Press 출판; Oligonucleotide Synthesis (M. J. Gait, ed., 1984); Nucleic Acid Hybridization (B. D. Hames and S. J. Higgins. eds., 1984); PCR Technology - principles and applications for DNA amplification, 1989, (ed. H. A. Erlich) Stockton Press, New York; PCR Protocols: A Guide to Methods and Applications, 1990, (ed. M. A. Innis 등) Academic Press, San Diego; and PCR Strategies, 1995, (ed. M. A. Innis 등) Academic Press, San Diego(이 모두는 참조로서 본원에 병합됨)과 같은, 표준 분자 생물학 참고 문헌에서 찾을 수 있음을 당업자는 알 수 있을 것이다.
실시예
상기 일반적으로 기재된 본 발명은, 모든 면에서 설명만을 위한 것이며 제한하고자 하는 것이 아닌 하기 실시예를 참조하여 쉽게 이해될 것이다.
실시예 1: 일반적인 RICh-PET 방법
RNA-DNA 결찰에 이은 쌍-말단 태그 시퀀싱(RNA-DNA ligation followed by paired-end-tag sequencing, RICH-PET)을 이용하여, 출원인은 하기에 기재된 예시적 방법을 개발하여, 치우치지 않은 게놈-확장 방식으로 ncRNA(비코딩 RNA)과 염색질 상호작용을 연구하였다.
이 방법의 중요한 컨셉은 대분분의 ncRNA 조절 기능, 특히, 긴 ncRNA(lncRNA)에 의해 채택된 기능들이 RNA-단백질, RNA-DNA, 및/또는 RNA-RNA 상호작용 중 임의의 조합에 통하여 특정 염색질 좌위에서 직접 또는 간접 접촉을 할 것이라는 사실에 기초한다. 그러므로, 전반적인 충격뿐만 아니라 개별적인 및/또는 전반적인 ncRNA로 매개된 특정 기능들을 이해하기 위하여, 전체 게놈에서 염색질의 위치의 ncRNA 접촉 어드레스의 전반적으로 수집한다면, 게놈 요소의 큰 구조적 뼈대 및 상세한 내용을 제공할 것이다.
가교를 통하여, RNA-염색질 상호작용을 캡쳐링할 수 있다. 특이성를 갖는 높은 처리량 분석을 위한 RNA 분자 및 DNA 단편의 인위적 연결성 관계를 확립하기 위하여, 초음파처리로 염색질을 단편화한 후, 각 염색질 복합체에서 단백질 결합에 의하여 함께 테더링된 ncDNA 및 DNA 단편을 대상 RNA 및 DNA 링커를 이용하여 RNA-DNA 결찰을 수행한다.
본 발명의 RNA 링커는 임의의 테더링된 RNA 분자의 3'-말단을 어닐링하기 위한, 그리고 RNA 템플릿을 첫번째 가닥 cDNA 분자로 전환하기 위한 역전사를 위한 프라이머로서, 랜덤 올리고뉴클레오티드 서열, 예컨대, 랜덤 헥소뉴클레오티드를 포함한다. 한편, 본 발명의 DNA 링커는 평활 말단된 염색질 DNA 단편에 결찰된다. RNA 링커 및 DNA 링커 각각은 자기 자신이 아닌 서로에 대하여 상보적인 접착 말단을 가진다. 따라서, 일단 링커가 의도하는 타겟에 부착되면, RNA 및 DNA 단편은 결찰을 통하여 공유결합으로 연결될 수 있다. 이어서, 혼성 결찰 산물에 대하여 쌍-말단 태그(PET) 라이브러리를 구축하고 후속하여 고처리량 시퀀싱을 분석한다. 이 방법의 대략적 도안이 도 1a에 도시되어 있다.
대안적으로, 변형 RNA 링커를 이용하여 RNA-DNA 결찰 단계를 실시할 수 있다. 이 방법의 대략적 도안이 도 1b에 도시되어 있다.
덧붙여, RNA 3'-말단을 5' 아데닐화 ssDNA 또는 5' 아데닐화 돌출부를 직접 연결할 수 있는 소정 효소(예, 절단된 RNL2)의 장점을 이용함으로써, 직접 RNA 링커를 이용하여 RNA-DNA 결찰 단계를 수행할 수 있다. 후자 방법의 개략적인 도안이 도 1c에 도시되어 있다.
상기 태그 서열을 RNA 또는 DNA인 그의 원래 성질로부터 더 구별하기 위하여, 특정 뉴클레오티드 바 코드를 RNA 및/또는 DNA 링커 서열 설계에 병합한 다음, RICh-PET 라이브러리 데이터 세트에서 쌍으로 이루어진 RNA-태그 및 DNA-태그의 정확한 콜링(calling)을 허용할 수 있다. 이어서, 처리된 RNA-태그 및 DNA-태그 서열을 참조 게놈(예, 인간 유래 서열을 위한 참조 인간 서열)에 맵핑하여 ncRNA 및 이의 염색질 타겟 좌위(도시하지 않음)를 확인한다.
설명을 위하여 소정의 실험 상세사항이 하기에 제공된다.
I. 세포 배양 및 가교
5% 소태아혈청(Fetal Bovine Serum, FBS (Life Technologies, cat. 10082147))을 함유한 Ham's F-12 Nutrient Mix(Life Technologies, cat. 11765-054)에서 HeLa S3 세포를 성장시켰다. 가교된 세포의 각 배치(batch)를 위하여, EGS(spacer Arm: 16.1A; Thermo Scientific, cat. 21565) 및 포름알데히드(spacer Arm: 2.0A; Merck - Calbiochem, cat. 344198-250ML)를 이용하여 단백질-DNA, 단백질-RNA, 및 단백질-단백질의 이중-가교를 처리하는데, 이는 포름알데히드만을 사용하는 것보다 양호한 연결성을 제공할 수 있다.
245mm 사각 플레이트(Corning, cat. 431110) 내 약 1 × 108 세포를, 미리 데워진 DPBS(Life Technologies, cat. 14190250) 중 45 ml의 1.5 mM EGS와 가교하고, 40분 동안 75 rpm으로 먼저 진탕하고, 1% 포름알데히트(Merck - Calbiochem, cat. 344198-250ML)를 첨가하고, 20분 동안 계속해서 진탕한 다음, 10분 동안 0.125 M 글리신(Promega, cat. H5071)으로 반응을 정지시킨 후, 빙-냉 DPBS로 두 번 세정하였다. 이어서, 프로테이나아제 저해제(Roche, cat. 11873580001) 및 RN아제 저해제(예, SUPERase ㆍ In™ RNase Inhibitor, Life Technologies, cat. AM2696)를 함유한 3-5 mL의 빙-냉 DPBS를 첨가한 다음, 세포를 긁어서 15ml-Falcon 튜브(Life Technologies,cat. AM1250)으로 이송하였다. 이러한 공정을 필요한 만큼 반복하여 세포를 수거하였다. 세포를 4℃에서 5분 동안 2000rpm으로 회전시킨 다음, 세포 펠렛을 -80℃에서 저장한 후 사용하였다.
II. 세포 용해 및 염색질
비오티닐화
이전에 기재된 바와 같이(Goh 등, J. Vis . Exp ., (62), e3770, doi:10.3791/3770, 2012; 및 Fullwood 등, Nature,462:58-64, 2009, 둘 다 참조로서 본원에 병합됨), 세포 용해를 실시하였다. 간략히, 핵 펠렛을 빙-냉 세정 버퍼(50 mM Tris-HCl pH=8.0, 150mM Nacl, 1mM EDTA, 1% TritonX-100, 0.1%SDS)로 두 번 세정하고, 1mL 동일 버퍼에 현탁하였다. 염색질을, 예를 들어, 초음파처리에 의하여 약 500bp의 평균 크기를 갖는 단편으로 전단하였다. 이어서, SDS를 전단 염색질에 최종 농도가 약 0.5%가 되도록 첨가한 다음, 상기 혼합물을 15분 동안 37℃에서 배양한 후, EZlink 요오드아세틸-PEG2-비오틴(IPB, Thermo Scientific, cat. 21334)와 혼합한 후, 이전에 기재된 바와 같이(Kalhor 등, Nat. Biotechnol.,30:90-98, 2012, 본원에 참조로서 병합됨), 60분 동안 실온에서 회전시켰다. 이어서, 스트렙타비딘 비드-결합 염색질에 대하여 RICh-PET 라이브러리를 구축하였다.
III.
RICh
-PET 라이브러리 구축
스트렙타비딘 비드-결합 염색질에 존재하는 DNA 단편을 T4 폴리머라아제(Promega, R0191)를 이용하여 말단-수복한 다음, Superscript III First Strand Synthesis System (Life Technologies, cat. 18080051)을 이용하여 제1-가닥 cDNA 합성을 실시하였다.
간략히, 측면 Mmel 부위(IDT)를 함유하는 1㎍의 비오티닐화 RNA 링커 a (튜브 1) 및 RNA 링커 b (튜브 2)를 어닐링 혼합물(5㎕ 10mM dNTPs, 40㎕ DEPC-처리수)을 함유한 두 개의 튜브에 각각 첨가하고, 65℃에서 5분동안 배양하고, 약 1분 동안 얼음 위에 놓은 다음, cDNA 합성 혼합물(10㎕ 10×역전사(RT) 버퍼, 20㎕ 25 mM MgCl2, 10㎕ 0.1M DTT, 5㎕ RNaseOUT, 5㎕ Super Script III RT)과 혼합하여, 25℃에서 10분 동안 이어서 50℃에서 30분 동안 배양하였다.
16℃에서 5㎕ 의 T4 DNA 리가아제를 이용하는 결찰 혼합물(140㎕ 5×PET 함유 T4 DNA 리가아제 버퍼, 3.5㎕의 RN아제 저해제, 546.5 ㎕의 뉴클레아제 프리 워터)에서, 1㎍의 DNA 링커 A(튜브 1) 및 DN 링커 B(튜브 2) 각각을 이용하여 결찰을 밤새 실시하였다. 이어서, 링커가 첨가된 DNA 단편을, PNK 마스터 혼합물 (70 ㎕의 10×T4 DNA 리가아제 버퍼, 3.5㎕의 RN아제 저해제, 612.5㎕의 뉴클레아제 프리 워터) 중 14 ㎕의 T4 폴리뉴클레오티드(NEB)로 인산화한 다음, 반응 버퍼(1000㎕ 10×T4 DNA 리가아제 버퍼, 50㎕의 RN아제, 8916㎕의 뉴클레아제 프리 워터) 중 34㎕의 T4 DNA 리가아제로 두 개의 튜브로 16℃에서 밤새 근접 결찰을 실시하였다.
링커가 있는 염색질 DNA에, Superscript 이중-가닥 cDNA 합성 키트(Life Technologies, cat. 1197-020)로 제2-가닥 cDNA 합성을 실시하였다. 구체적으로, 염색질 단편을 제2-가닥 cDNA 혼합물(111㎕의 DEPC-처리수, 30㎕ 5× 제2-가닥 반응 버퍼, 3㎕의 10mM dNTP 믹스, 1㎕의 E. coli DNA 리가아제, 4㎕의 E. coli DNA 폴리머라아제 I, 1㎕의 E. coli RN아제 H)과 혼합한 다음, 16℃에서 2시간 동안 배양하였다. 상기 반응 후, 2㎕의 T4 DNA 폴리머라아제를 첨가하여 16℃에서 5분 동안 계속하여 배양하였다.
이어서, 0.3% SDS (Ambion) 및 프로테이나아제 K (Ambion)로 65℃에서 밤새 배양함으로써, DNA/RNA/단백질 복합체 내 가교를 가역하였다. cDNA-DNA 단편을 페놀/클로로포름 이소프로판올 침전에 의하여 정제하였다. 이어서, 적합한 버퍼(5㎕ 10× NEBuffer 4, 5㎕ Half linker non-Biotinylated to quench excess MmeI, 5㎕ 10× SAM) 중 1㎕의 MmeI (NEB)에 의하여 37℃에서 2시간 동안 정제된 cDNA-DNA를 소화하여 cDNA 태그-RNA 링커-DNA 링커 -DNA 태그 구조(쌍 말단 태그, PET)를 방출하였다.
이어서, 상기 비오틸닐화 PET를 50㎕의 2× B&W 버퍼(10 mM Tris-HCl pH7.5, 1mM EDTA, 1 M NaCl) 중 스트렙타비딘-결합 자성 다이나비드(Dynabeads, Life Technologies, cat. 11206D-10ML) 상에 고정하고, 실온에서 45분 동안 흔들었다. 이어서, 각 PET 구조의 말단을 어댑터 결찰 버퍼(4㎕ 어댑터 A, 4㎕ 어댑터 B, 5㎕ 10× T4 DNA 리가아제 버퍼, 36 ㎕ 뉴클레아제 프리 워터) 중 1 ㎕ T4 DNA 리가아제(Thermo Scientific, cat. EL0013)에, 16℃에서 밤새 혼합하면서, 결찰하였다. 이어서, 비드를 1× B&W 버퍼(5mM Tris-HCl pH7.5, 0.5mM EDTA, 1 M NaCl)로 세 번 세정하였다.
Intelli-Mixer(F8, 30rpm, U=50, u=60; ELMI Ltd., Riga, Latvia) 상에서 회전하면서, 실온에서 2시간 동안 배양했던, 반응 혼합물(38.5 ㎕ 뉴클레아제 프리 워터, 10× NEBuffer 2, 2.5㎕ 10mM dNTPs) 중 4㎕ E. coli DNA 폴리머라아제 I로 Nick 번역을 실시하였다. 이어 16회의 PCR를 실시하여 PET를 증폭하였다. Illumina HiSeq2000 (2 × 36 bp reads) 상에서 RICh-PET 라이브러리를 시퀀싱하였다.
모든 단계는 프로테아제 저해제 및 RN아제-저해제로 버퍼 중에 실시하여 단백질 및 RNA 분해를 방지하거나 최소화하였다.
본원에 사용된 다양한 폴리뉴클레오티드 또는 프라이머가 하기에 열거되어 있다.
폴리뉴클레오티드 | 이름 | 서열 |
DNA 링커 A2 | Rb-top-6 | 5'-Phos-GTTGGACTTGTACGATAGCTCTC-3' |
Rb-bot-6 | 5'-OH-GCTA/iBIOdT/CGTACAAGTCCAACNNNNNV-3' | |
DNA 링커 B2 | DB-top-6 | 5'-OH-GCGATATCACTGTTCCAAC-3' |
DB-bot-6 | 5'-OH-GTTGGAACAGTGATATCGCGAGA-3' | |
근접 Mmel 시퀀싱을 위한 비오틴이 없는 링커 | 상부 | 5'-GGCCGCGATATCGGATCCAAC -3' |
하부 | 5'- GTTGGATCCGATATCGC -3' | |
어댑터 A | 상부 | 5'-CCATCTCATCCCTGCGTGTCCCATCTGTTCCCTCCCTGTCTCAGNN-3' |
하부 | 5'-CTGAGACAGGGAGGGAACAGATGGGACACGCAGGGATGAGATGG-3' | |
어댑터 B | 상부 | 5'-CTGAGACACGCAACAGGGGATAGGCAAGGCACACAGGGGATAGG-3' |
하부 | 5'-CCTATCCCCTGTGTGCCTTGCCTATCCCCTGTTGCGTGTCTCAGNN-3' | |
PCR 프라이머 1 | 5'-AATGATACGGCGACCACCGAGATCTACACCCTATCCCCTGTGTGCCTTG-3' | |
PCR 프라이머 2 | 5'-CAAGCAGAAGACGGCATACGAGATCGGTCCATCTCATCCCTGCGTGTC-3' | |
시퀀싱 프라이머 1 | 5'-GTGCCTTGCCTATCCCCTGTTGCGTGTCTCAG-3' | |
시퀀싱 프라이머 2 | 5'-TGCGTGTCCCATCTGTTCCCTCCCTGTCTCAG-3' |
실시예 2: RICh-PET 라이브러리 통계
HeLa S3 세포에서 인공 및 생물학적 복제물을 이용하여 세 개의 RICh-PET 라이브러리 데이터세트를 생성하였다.
HeLa S3 RICh-PET 데이터 맵핑 결과.
라이브러리 | 복제물 | 리드 | 독특한 PET | 클러스터 (≥PET2) |
CHH2430 | 1 (Tec) | 52,254,130 | 2,367,898 | 5,371 |
JCHH2430 | 2 (Tec) | 211,837,204 | 2,920,369 | 9,089 |
JCHH2431 | 3 (Bio) | 83,143,999 | 2,049,942 | 3,128 |
RICh-PET 데이터는 단일 PET(즉, 기타 PET 서열을 갖는 두 RNA-태그 및 DNA-태그 상 중첩이 없음)로서 또는 PET 클러스터 (즉, 기타 PET 서열과 중첩하는 쌍으로 된 RNA-태그 및 DNA-태그 서열)로 분류된다. PET 클러스터는 더 신뢰성있는 것으로 또는 더 신뢰성 있는 ncRNA-염색질 상호작용의 반복적 검출을 반영하는 고신뢰 데이터로서 여겨지는 반면에, 단일 PET는 약한 결합 신호를 나타낼 수 있으나 랜덤 배경 노이즈와 구별될 수 있다. 클러스터링 기준을 이용하여, 대략 5000개의 염색질 좌위에 연결되는 대략 700개의 추정상의 RNA 좌위를 확인하였다(도 2A).
빠른 입증을 위하여, 이러한 RNA 및 DNA 좌위를 위한 RNA-서열 신호를 체크하였고, RNA 좌위는 DNA 좌위보다 유의하게 더 높은 RNA 카운트를 가지고 있음을 알아냈는데, 이는 RICh-PET 데이터가 예상되는 바와 같음을 시사한다(도 2b).
획득한 RNA-DNA 연결성 데이터의 약 1/5 (약 22%)는 본래 시스-작용적인 것(즉, RNA으로부터 DNA로의 맵핑, <100kb)으로 여겨질 수 있는 반면에, RNA-DNA 연결성 데이터의 대부분은 트랜스-작용적이다(도 2c).
일 관심은, 전사가 아직 진행 중인 경우, 염색질 RNA-DNA 결찰 접근이 발생기의 mRNA 대부분을 포착할 수 있을 것이라는 것이었다. 놀랍게도, 대부분의 발생기 RNA 전사체는 RNA 폴리머라아제 복합체의 중심에 숨겨진 3'-말단을 가지고 있는 것으로 나타나며, 그럼으로써 ncRNA 분자의 추정상 자유 3'-말단을 이용하는 것에 부분적으로 기초하여, 본 발명의 방법은 발생기 mRNA를 간섭을 크게 회피한다.
구체적으로, 맵핑한 쌍 RICh-PET 데이터는 쌍 RNA 및 DNA 태그 간 거리를 나타내며, 그럼으로써 시스 또는 트랜스의 상호작용의 가능한 모드를 제시한다. 맵핑 결과는 소규모 세트의 데이터만은 시스-작용적이고 다수는 트랜스-작용적이며 염색체간이었음을 보여 주는데, 이는 RICh-PET 프로토콜 내 발생기 전사체를 포착할 가능성이 낮다는 것을 나타낸다.
RNA 태그 클러스터의 추가 부가 분석(하기 참조)은, 3%만의 RNA 태그를 mRNA 엑손에 맵핑한 반면에 다수는 ncRNA에 맵핑하였다는 것을 보여 주었다.
다른 관심은, 일부 세포에서는 세포 내의 풍부한 rRNA이었는데, 이는 RNA 관련 분석을 위한 일반적인 이슈로서, rRNA가 총 RNA의 80%만큼 높을 수 있기 때문이다.
rRNA를 다루기 위한 한 전략은, 특정 분석의 시작 전에 사용된, mRNA용 폴리 A+ 선택 접근 및 rRNA용 차감 소모(subtractive depletion)와 같은, 회피 방법을 포함한다. RICh-PET 라이브러리의 하나에서 rRNA 서열의 레벨이 풍부하다는 것을 평가하였으며, rRNA 서열은 총 RNA 태그의 약 26%를 구성한다는 것을 발견하였다. 반대로, DNA 태그가 rRNA 서열에 거의 대응하지 않는다((0.23%). 따라서, rRNA로 인한 데이터 노이즈를 감소시키기 위한 추가 분석 전에, 디지털 결핍 소모 접근을 이용하여 모든 rRNA 서열을 제거할 수 있다.
RICh-PET | 총 | Non-rRNA | rRNA |
RNA Tag | 2308959 | 1699014 (73.58%) | 609945 (26.42%) |
DNA Tag | 2308959 | 2303550 (99.77%) | 5409 (0.23%) |
실시예 3: RICh-PET 방법의 재현성 및 감도
RICh-PET 데이터의 재현성을 평가하기 위하여, 두 개의 인공 복제물(평행 라이브러리 구축과 시퀀싱 분석을 위한 두 개의 분취(aliquots)로 쪼개지는 동일한 세포 제제) 및 두 개의 생물학적 복제물(약간의 변형을 있는 거의 동일한 과정을 이용하여 라이브러리 구축에 이용을 상이한 시점에서 수집된 상이한 세포 제제)를 행하였다. 그 결과의 복제 결과는 진실한 재현성(genuine reproducibility)을 보여주었다(도 3). 예를 들면, 암과 연관된 것으로 알려진, 두 개의 잘 연구된 lncRNAs NEAT1 및 MALAT1를 모든 세 라이브러리에서 재현성있게 검출하였다(데이터 미도시).
두 개의 lncRNA 유전자는 RNA 폴리머라아제 II(RNAPII 또는 RNA Pol2)에 의해 매개된 광범위한 염색질 상호작용 루프 구조에서 공간적으로 구조화되는 것으로 밝혀졌으며, 이는 그들의 발현이, 기계의 일반적인 전사체 복합체 하에, 공통-조절될 것임을 나타내는 것으로 주목할 만하다.
본원에서 획득된 RICh-PET 데이터에서, 두 MALAT1 및 NEAT1가 HeLa S3 세포에서 고도로 발현되었으며, 세개의 모든 RICh-PET 데이터 세트에서 풍부하게 검출되었다. 구체적으로, 세포에서 NEAT1는 MALAT1에 비하여 상대적으로 덜 발현되어, NEAT1에 대한 RICH-PET 데이터는 MALAT1에 대한 것보다 적었다(데이터 미도시). 대조군으로서, HOTAIR는 HeLa S3 세포에서 낮은 수준으로 발현되는 다른 공지된 lncRNA이며, 획득된 RICh-PET 데이터에서 검출되지 않았다(데이터 미도시).
따라서, RICh-PET 데이터에서 ncRNA 검출은 ncRNA 발현 수준과 잘 관련이 있는 것으로 나타났다.
실시예 4: RICh-PET 데이터 확인
획득된 RICh-PET 맵핑 데이터에 기반할 때, 이러한 두 ncRNA는 동일한 전사 공장에서 공통-전사되어도, 그들의 상호작용 성질이 매우 상이하다는 것은 흥미롭다. 구체적으로, NEAT1 RNA는, 시스에서, 그것이 전사되는 것에만 제한적으로 결합하는 반면에, MALAT1는, 트랜스에서, 대부분 게놈에서 많은 좌위와 상호작용한다 (도 4a).
이 견해를 입증하기 위하여, NEAT1 및 MALAT1 RNA를 형광 프로브로 이용하여 RNA-FISH 실험을 행하여서 HeLa 핵을 검사하였다(도 4b). 예상된 바와 같이, NEAT1 프로브는 핵 당 1 개 또는 2개의 스폿만을 생산해내는 반면에, MALAT1 프로브는 모든 핵 공간을 스폿팅을 하여, RICh-PET 데이터에서 관찰되었던 것과 일치하였다. A549 세포에서 NEAT1 및 MALAT1에 대한 유사한 RNA-FISH 결과도 얻었다. 이러한 입증은, RICh-PET 데이터가 진정한 시스 및 트랜스 상호작용을 검출하고 구별하는데 있어서 정성적이며 정확하다는 것을 제시한다.
실시예 5: RICh-PET 데이터 특성화
인간 게놈의 Genecode V14 어노테이션(annotation)에 기반하여, RNA 및 DNA 태그 클러스터의 특성을 확인하였다. RNA 태그 클러스터 3%만이 단백질-코딩 엑손과 중첩되며, 대부분의 RNA 태그 플러스터를 비-코딩 영역을 맵핑하였으며, 그것들 중 대부분은 이전에 공지된 ncRNA이다(172, 24%). 나머지는 단백질-코딩 인트론 영역, 안티센스, 및 인터-유전 영역에 위치한 잠재적으로 신규한 ncRNA이다(도 5a).
RICh-PET 데이터에서 확인된 모든 추정상 ncRNA는 RNA-Seq 데이터 지지체를 가지고 있으며, 이는 그것들이 HeLa 세포에서 활성적으로 전사되는 것을 나타낸다. 반대로, RICh-PET 데이터의 DNA 태그 클러스터는 대부분 단백질-코딩 유전자에 맵핑하였으며, 중요한 부분은 유전자 프로모터에 맵핑하였다(도 5b).
RNA 및 DNA 태그 클러스 주변의 염색질 활성 마크 세트를 추가 분석하였다. RNA 태그 클러스터의 중심은 개방 염색질 상태의 RNA Pol2 및 DHS의 신호에 의하여 정의된 전사 활성의 피크를 벗어났으며, 그러한 "오프-센터(off-center)" 성질은 가닥 특이적이다(데이터 미도시). 이러한 가닥-특이적 "오프-센터" 성질은 RNA의 3'-말단을 포착하는 것으로 설계되어 있으므로, RICh-PET 방법과 일치하다. 그러므로, RNA 태그 클러스터는 전사 시작 부위 하류에 있는 것으로 예측된다. 대조적으로, 염색질 활성 신호는 DNA 태그 클러스터(데이터 미도시)의 중심 주위에서 대칭적으로 피크를 이루며, 이는 초음파처리에 의한 염색사의 랜덤 전단을 반영한다.
실시예 6: MALAT1는 많은 게놈 특성과 상호작용하며, 유전자 활성화 및 유전자 억제 둘 다를 기능할 수 있다
MALAT1에 연결된 모든 RICh-PET 데이터(싱글톤 PET를 포함)를 이용하여, 출원인은, MALAT1가 게놈에서 큰 구역과 상호작용하는 성능을 가지고 있다는 것을 보여주는, 염색체-전범위 및 게놈-전범위 MALAT1 상호작용 프로파일을 생성하였다. 50개 이상의 고-신뢰성 상호작용(태그 카운트≥2인 PET 클러스터) 부위에서, 약 반은 프로모터에 위치하며, 1/4는 공지된 유전자의 인트론 영역에 위치한다. 동일한 세포에서 유래된 RNA-Seq 및 RNA Pol2 ChIP-seq 데이터는, 프로모터에 MALAT1가 있는 유전자가 인트론 영역에서 상호작용하는 MALAT1를 갖는 것들보다 유의하게 더 높은 전사 활성을 가진다는 것을 보여 주었다(도 6B; 데이터 미도시). MALAT1가 SRSF2를 포함하는 많은 수의 스플라이싱 요소와의 상호작용을 통하여 스플라이싱 기능을 조정하는 것과 관련이 있음이 보고되었다.
또한, 출원인은 MALAT1 RNA가 이의 프로모터와 상호작용하는 것에 의하여 SRSF2의 발현을 조정하는 것과 직접적으로 관련이 있을 수 있다는 것을 밝혔다(데이터 미도시). 이러한 견해는 MALAT1는 유전자 활성화 및 억제를 조정하는 데 있어서 다중 기능 역할을 할 수 있다는 것을 보여준다.
실시예 7: X-염색체 이상의 XIST의 기능
가장 잘 특성이 확인된 lncRNA는 XIST인데, 이것은 X 염색체의 한 카피에서 전사되고 X 염색체의 다른 카피에서 동일한 부위에 결합하며(시스-작용적), 더 연장하여 비활성화를 위한 전체 염색체를 코팅한다(미도시). 실제로 RICh-PET 맵핑 데이터는, XIST의 RNA 태그와 쌍으로 된 DNA 태그가 X 염색체에서 더 풍부한 반면에서, 배경 노이즈는 게놈 전체에 걸쳐 분산되어 있으며, 이는 XIST가, 예측된 바와 같이, X 염색체에 특이적으로 결합된다는 것을 보여준다.
흥미롭게는, 하나의 비-X 염색체에서 어느 정도의 XIST-결합 농축의 수준이 있으며, 다른 비-X 염색체에서 다소 결핍되어 있음을 나타낸다. 이 견해를 추가로 입증하기 위하여 더 많은 데이터 및 추가 분석을 얻고 있다.
실시예 8: ncRNA에 의한 복합체 상호작용 네트워크
여기에서 제시된 RICh-PET 데이터는 ncRNA 상호작용 네트원크의 복합체 시스템으로의 제1 글림프스(glimpse)를 제시하였다. 하나의 ncRNA가 게놈(MALAT1)에서 다중 타겟을 가질 수 있다는 고전적 견해에 더하여, 하나의 좌위가 ncRNA에 의하여 상호작용하는 것으로 밝혀지고 있으며 그로부터 상호작용하는 ncRNA도 다른 좌위와 상호작용한다는 점에 있어서, 많은 추상적 ncRNA 좌위가 "인-앤-아웃(in-and-out)" RICh-PET 데이터를 가진다는 것이 밝혀졌다.
여러 의미에서, 이러한 ncRNA 상호작용 네트워크는, 많은 TFT는 전사 조정을 위한 다른 유전자 각각에 결합하는 전사 요소(transcription factor, TF) 결합 네트워크와 유사하다. 더 많은 데이터는 ncRNA가 어떻게 작용하는지, 그리고 ncRNA 상호작용 네트워크가 어떻게 게놈 시스템에 영향을 주는지를 추가로 설명하는데 도움이 될 것이다.
실시예 9: CCAT1에 의해 인코?壅? lncRNA는 전사 보조-활성자이다
RICh-PET 방법을 이용하여 전반적인 ncRNA-게놈 DNA 상호작용을 확인하였다. 확인된 상호작용 중에서, 하나의 ncRNA - 대장암 관련 전사 1 -는 특히 관심의 대상이었다.
대장암 관련 전사 1(colon cancer associated transcript 1, CCAT1)은 2628개 뉴크레오티드 길이를 가진, Representational Difference Analysis(RDA), cDNA 클로닝, 및 cDNA 말단 급성 증폭(rapid amplification of cDNA ends, RACE)을 이용하여 최근에 발견된, 비코딩-RNA이다(Nissan 등, "Colon cancer associated transcript-1: A novel RNA expressed in malignant and pre-malignant human tissues," Int . J. Cancer,13:1598-1606, 2012). 대장암(colon cancer, CC)에서 과발현되나 정상 조직에서는 그렇지 않아서 잠재적인 질병 관련 바이오 마커로 만드는 것으로 최근 밝혀졌다(Nissan 등, Int . J. Cancer, 130(7):1598-606, 2012; Alaiyan 등, BMC Cancer,13:196, 2013).
RICh-PET 데이터에 기반한 상세한 분석은 이 좌위에서 새로운 복합체 모델의 아형 전사체를 나타냈다(데이터 미도시). 또한, CCAT1는 자궁 경부암 세포주 HeLa 세포에서 고도로 전사된다.
또한, RICh-PET 데이터는, CCAT1 lncRNA 전사체가 15번, 16번, 20번, X, 및 Y 염색체를 제외한 모든 인간 염색체를 포함하여, 게놈에서 많은 기타 좌위를 타겟으로 한다는 것을 보여 주었다(데이터 미도시).
적어도 2개의 CCAT1 태그를 포함하는 CCAT1 염색질 타겟 중에서, 많은 것들은 인핸서 또는 프로모터에서 가장 강한 lncRNA-게놈 DNA 관련성을 보여 준다(데이터 미도시). 예를 들면, 적어도 3개의 CCAT1 RNA 태그와 관련이 있는 122개의 CCAT1 게놈 타겟 좌위에서, RNAPII 상호작용을 갖는 인핸서 좌위 중 6개를 포함하여 88개의 타겟 좌위는 인핸서 영역에 있다. CCAT1의 다른 34개의 게놈 타겟 좌위는 프로모터에 있다.
이러한 CCAT1 타겟 유전자는 랜덤하게 선택된 대조군 유전자 모음에 비하여 여러배 높은 평균 발현 수준을 가지는데, 이는 CCAT1 lncRNA이 타겟 유전자 발현을 증진하는 것임을 시사한다.
이러한 CCAT1 타겟 유전자 중 하나는 c-myc이며, 이는 약 80%의 유방암, 70%의 대장암, 90%의 부인과 암, 50%의 간세포 암종, 비정상적인 myc 발현을 지니는 다양한 혈액 종양(버킷 림프종)을 포함하여, 다양한 인간 암에서 과발현된 종양 유전자이다. CCAT1 lncRNA가, CCAT1 좌위 자체뿐만 아니라 myc 좌위에 결합하여, CCAT1와 myc 좌위를 물리적으로 접근하게 되고, CCAT1 좌위 내의 인핸서가 myc 전사를 자극하게 함으로써, 기능한다는 것을 추가 데이터가 시사한다. 추가하여, CCAT1 전사된 lncRNA가 단백질 요소에 결합하고 전사 보조-활성자로서 작용하여, myc뿐만 아니라 FAM84B 및 SNX14와 같은, 기타 CCAT1 타겟 유전자의 전사를 직접 향상시킬 수 있다.
실시예 10: 인간 B-임파세포 GM12878 및 Drosophila S2 세포 내에서의 추가 적용
상기에서 기재된 본질적으로 동일한 RICh-PET 방법을 이용하여, RICh-PET의 일반적 응용가능성을 추가로 지지하기 위하여, 인간 B-임파세포 GM12878 및 Drosophila S2 세포에서 추가 데이터를 얻었다.
구체적으로, ncRNA 유전자 XIST가 이 세포주에서 고도로 발현되기 때문에, RICh-PET 분석을 위하여 인간 GM12878 세포를 이용한 반면에, RICh-PET 분석에서 사용된 이전 HeLa 세포는 낮은 XIST 발현 수준을 가지며, HCT116는 수컷에서 유래하여, XIST 발현이 없다. 따라서, XIST를 RICh-PET 분석의 성능을 평가하기 위한 모델로서 이용하여 염색질과의 ncRNA 상호작용을 검출하는 경우, GM12878는 RICh-PET 분석에서 좋은 세포 형태이다.
이전에 기재된 바와 같이, XIST는 구체적으로 또는 우선적으로 X 염색체에 결합한다. 백만개의 리드당 kb당 리드(reads per kb per million reads, RPKM)의 방식으로, RNA-Seq 데이터에 의하여 측정된 XIST의 카운트를 보여주는 도 9a 및 XIST 결합에 의하여 덮여진 각 염색체의 비율을 보여주는 도 9b를 참조한다. GM12878 세포에서, 염색체 대부분은 총 염색체 공간의 10-20%로 XIST로만 덮혀 있는 반면에, X 염색체는 XIST에 의하여 거의 90%로 덮여 있다. 이러한 범위는 다른 비-특이적 염색체에 비하여 타겟으로 하는 염색체에 대한 XIST의 특이성이 거의 6배(5.9배)인 것을 나타낸다. 대조적으로, HeLa 세포에서, 상기 범위는 다른 비-특이적 염색체에 비하여 타겟으로 하는 염색체에 대한 XIST의 특이성이 거의 3.4배인 것을 나타내며, 예상한 바와 같이, X 염색체 농축은 발견되지 않았다.
유사하게는, Drosophila S2 세포에서, ncRNA 유전자 rox2 - 인간의 XIST에 등가-는 X 염색체에 결합하는 rox2의 유사한 농축을 보여 주었다: 다른 염색체에 대하여 5배 (데이터 미도시). 구체적으로, 전체 Drosophila 게놈에서의 rox2 결합 데이터를 얻었다. rox2-연결 DNA 태그의 80% 이상이 성염색체에 결합하고, 이는 X 염색체에 대한 5 배 농축을 나타낸다. CHART-seq에 의하여, 그리고 RICh-PET 방법에 의하여 X 염색체 상에 맵핑하는 roX2 간에 논리적으로 강한 연관치(0.6)가 관찰되며, 이는 RICh-PET 방법의 적합성을 증명한다.
RICh-PET 데이터의 대부분의 RNA 태그는 비코딩 영역에 맵핑한 반면에, 약 26%만이 코딩 영역에 있으며, 이는 상기 방법이 ncRNA를 위한 농축을 가진다는 것을 나타낸다(데이터 미도시). RICh-PET 데이터의 RNA 태그와 Drosophila S2 세포로부터의 RNA-seq 데이터의 비교는 공지된 ncRNA를 위한 유의적 농축을 보여 주었다(데이터 미도시).
종합하면, 상기 실시예에 제시된 데이터는 상기 방법(예, RICh-PET 방법)이 설계된 대로 작동한다는 것을 입증한다. RICh-PET 데이터 내의 대부분의 RNA 태그는 코딩 영역에 맵핑되고, 그것들 중 일부는, MALAT1 및 NEAT1와 같은, 공지된 lncRNA에 맵핑되었다. 이는 이 방법이 예측된 대로 실시하였음을 강하게 나타낸다. 더욱 중요하게는, RNA-DNA 연결성 맵핑 데이터를 통하여, 출원인은 잠재적 ncRNA-염색질 상호작용 좌위 게놈 전체를 확인할 수 있다. 지금까지 행해진 몇 개의 예비 평가는, RICh-PET가 확인한 ncRNA 상호작용이 진실된 것임을 시사한다.
SEQUENCE LISTING
<110> THE JACKSON LABORATORY
<120> COMPOSITIONS FOR RNA-CHROMATIN INTERACTION ANALYSIS AND USES THEREOF
<130> 122854-00320
<140> PCT/US2014/054185
<141> 2014-09-05
<150> 61/873,928
<151> 2013-09-05
<160> 23
<170> PatentIn version 3.5
<210> 1
<211> 29299
<212> DNA
<213> Homo sapiens
<400> 1
cactcttggg tagaacgact ctaacagcga ccgtctaaat gaaggtcaca ctaacaacgt 60
tcttaaacag attgtcttac ttactagttg gaactcgtct tctctaatac tttttgaatt 120
atcgtaacat cgttacaccg acaattactt tatgtcaacc gacgagggcg acaaaccgtg 180
gttggttgga ctgtgacagt tgtagtgtta tgctataaat aagggttaat aaaatgccgt 240
tgttgacttt atgttacaca ataattagta taaataatat tcatagttaa actctttaaa 300
gactgtacgg tcttctattt atccaaataa tacttttcgt caagacgaac cacgtacgac 360
cgacgacgac acattattta tcggagacac ccctttcaaa aaattttctt tatttcgttt 420
ttttatcgtg acttttgtct ttccttcgta gttttgagaa gtttatggac gacacaggta 480
accagttcgt gtaagtcctg tagcgtacgg aaatcttgag gtcgtccaag gttgtcgatc 540
atcctgtaag atctgaggaa aatcgggaca gacaccgaag tcttattaaa ggttgcgttg 600
gtaggtttaa aactgggtgt cgcacaatgt aaaccgtaac gccactgagt caaggagtag 660
aaatcacatg aggaagtatt aaatctaatt gaacacactt cgtgacttag gttatatacc 720
acagaaatcc aggttggagt ccagagggat gtacaacagt ctttttctgt aaactcgtaa 780
aattctcact ttagttttca cgtgatggtt ccaaagattg tcgggtcaag acaggaccga 840
aaagaaggac gttgacaaaa gtcgaaccca ctcagtgaaa agagagacct ggaggtaaaa 900
gagtggggtg tagtgtcagg tcactcccga agagaggtag gattttgaaa gggggacctt 960
gagttcagag agatacaacg ggacgtttta atcgaagtca gggtatatga accgggctaa 1020
tgggtgtctt tcatgtcgtt cgtagtagta ggtgtatccc agaggtttta accgaaagga 1080
ccttggtaag tgttccggta aagtcagttt cgggaccctt ttattggtca aggaggttga 1140
cacagagtaa cattttcttt tgtctaataa taacttgaat acattcgttg gtataacggt 1200
atttaattct tataagtgtt tatcaaatgt ttaagatgtc tttagtccgt ctctctcttt 1260
acacgaagtt taagataact gttctcatgt gagatgagtt aacgatttcc aacatttgtc 1320
gagttttctt tttcacaaga ggtctgagac tttttgtttt gtttttctta gtcgttacaa 1380
agtttcttgg tttttttttt tttttttttt ttagatttat acatatgtgt gtgtctgtgt 1440
ttctaggtta tcgtaaatgg agttttgaaa tcgatacttt atcgttatct ttgagtggtc 1500
aaatgtttgt ccaagtgtac cgatttgata aaaacggggt tatgtattag tttacttccg 1560
acacttggtt ttaaacccca tctcgtcaag agtaccgtca aacgaaaaat ttccggtatg 1620
gaagggtcta cggtttctcg tgatccaggt ctatcgtggt gtctttttgt agtagatatt 1680
ggatgattag tccgggttgg gacgaatctt gtcgtcgcat cctcagactg atgtacctta 1740
aagtagaacg gaagagtaag ttgtcgtttg aggtctaggg tttcttatga ccccggtccg 1800
gttcacgtca ccgattgtgg acgttagagt cgtgaaactc tccgactaca ccctcctggt 1860
gaactcaggt tctcaatctc tggtcggacc cgttgtacta cccttgaata gagaggtttt 1920
taattttttt ttttttcgat ccgtactacc gtacatggaa atgaggatcg atgaaccctc 1980
cgactcgacc ctcctaggga actcgggtcg tcaaggtccg atgtcactcg gtactactgt 2040
gataacgtga ggtcggaccc gttgtcgcat tctaggacag gagaccggtt ttttcccaga 2100
ccgtggacga atcctcccga aggttttgaa aaagtcgttt ctatcactca ccgttttgga 2160
tcgtacttcg ggtctcatac accgagacgc aatcataaag agtgtcgggt gacattactg 2220
acagtccaac gaaaattcta atactttcag gatataactt aacagtaagc ttaactctgg 2280
aacttcagac ttctgcctta atgaaccctt cttcgtagtg tcatagaatc ttctcacagg 2340
gaggtacttc gtctaaaccc cagagtaagg caaagacatg aatgtcatta cctggtacaa 2400
tccgttcagt aaattgtgta aacctggggt cgaaggttta gatatgttac cttccatatt 2460
aacctctctc atatttcgga aatcacgggt gaaatgaact ctctaaaagt ctcgtcagtt 2520
actctgaaat ctttattttc acttgaattt tgtatttcac gaaatatttg gggtcgtaac 2580
ggacttcggg actctaacga actaccgggt aacgcatata agtgtccgtg acggggttga 2640
ccgggaatga tgttgagatc tttactgtcc gtaagtaaga aggttaggtg tctactccgt 2700
tgatgcttca caataaaaat tggggagtaa aaaattcctc tttttgactc gaactcgtgt 2760
aattttttac accgggtctc agttatacca tatacaactg gaaccttaag ctcttttcag 2820
aagacagtgt tctcgtcttc ggtgtttgag tttatgaaaa tcccaataca atggttaaca 2880
ccttgtgtac acgtacttta ctcgactcat tctacggttt actggaccat aacctctccg 2940
ttatccctca ccaccccgga catcgtttga tctctctcgt accgagtcaa ttttctctca 3000
ccgtcgttga gttgaggtcg gttaacaacg gtatgttata attcgggtcc ctaaagtctt 3060
gaagatcgat ctttttatct ccgatctata catataagga caagttttaa cggagttaat 3120
cttctataat cgttcattaa gtttacgtta tgtgaaaaca taatagtgat atgaccaggt 3180
ggattattcc cctgtcaaac gaaggacgag agtgtttcac aaagtctgat tcaatactgg 3240
tgaattcata cgtttctgtt ttgtcacata gtcattacgt cactaacact cgtacatgaa 3300
gtctttgttt actagaccca agtttaggac cacaactgta attcatcaaa ttattggagc 3360
ccgttcagtg aactgaagag atatggagtc aaagggatag acattttacc ttcattattc 3420
tcatgaatga ggaaagtcac caacactgat agtttactta actgtatcca ttttgttaat 3480
cttgtcaagg actgtgtgcc attctcagta catttatagt tacgaatact ttcgagagta 3540
gggtcctatt cgtagaggat cttttgtaga agcaggtaca tggtctaatt agtataaata 3600
agacgtcaac tataaatacg gtgtacaaga aagacccatc tcttcggact tcaataagac 3660
aaataggact ggaacctttt ctgtttcgtc gagtacaggg gtccctagat ttttaaagtg 3720
acccttacta gtgggtcaca gaggttttgg agtcggtcgt aaagagataa gtgtcgacgt 3780
gacttctcga aggaaggacc gaacacagag gttttcccct atgctaccgt tccagacaaa 3840
taatgagagt ccgactacac cggcccctct acaccttaac acatcttacc ttacgctacc 3900
ttatacttta ccacacctta tgtacacttg aagtacggac gaagagtcca aagaaggtga 3960
aggggaaata caccctgttc tatcgacttc acccgacctc aacccaaaag aggaggaggt 4020
aaaccttccg acctcgaacg acctcaactc ataaagaaaa ggagtccagt caatccaaga 4080
ctattttggg atcacccaat ccgagaccaa tctgtcgaag gggactcccg tctggggtga 4140
gactcgtcgt tacggatctt tactaccaag aagtttaggt tcactattgg gtatcattga 4200
ttgagtaatc gaatcaagac ggcatttcag tcttgtttcg ttcctctttg tcttggagac 4260
gtcacttacc tccttaaaga ctcccagtga actttcgtct ttgagttctc ggggtaaagg 4320
ttaaaggatg ataacatgaa ctttatacct aaagtgtata aaccccatta gtgaagtagt 4380
catttcaacc ggaagcattc aatttttgtg agtttaaaat ctttgagtta caagacaccc 4440
aatgtttact gacgggtggt acgacacccc gtactgtggg aaaacattaa agactttatg 4500
cttcatgata aaaaagaaat tacgtaagag agaaaaatca aagaggtagg acactataca 4560
gacaggtttt cctgaagggt ttttggtgac ataccgtctt ttccaaaagt tttacgtact 4620
ctcttaatat cgtttctctt tattgagtgt gatttcaaaa attttataga ggcctgatac 4680
cgatccttga taatgatacc gattgttcac attaaagtcg taaaaccctc cggttccgtc 4740
cgtctaggga attcagatcc tcaaactctg gtcgaacccg ttacaccact ttggggggag 4800
acgtttttta tgttttatta atcgccccac accaccacgt gtggacacca gggtcgatga 4860
gtacctccga ttcctccctc ctagtgaact cgggccctcc gtctccaacg tcactcgatt 4920
ctaatacggt gacgtggggt cggaccctct gtctaagaca gagttttttt ttttttttta 4980
gagacctgat atttgagagt acttagatcg taataaacct agtctttata taagtatcct 5040
atctgacact actgtttatt tagtttaaac cctacggagt tgtgttcttt ataaaaatac 5100
atagtaatac attgtcaggt ccctccgact tttatctcac atacaacgtc cattctttaa 5160
aacgagacgt cagtaagtcc ttaacttcga ctatcactaa gacggtagaa cttgtacacc 5220
gtagcgacag acagacctcc cacggtagtg tcagtcgaaa cctgtcgtgg aacttacgat 5280
agtcccttcg atctcacaag aggacaagaa acgacaggaa cggtcacaga agaggacttg 5340
agtgtagtct tcgtacggtc attcgtccac catggtcgtc ccaagattgg gtccgtgagg 5400
ttaagattcc agttgaaaca atcacaatag attttttctt ttcgttatta tttaataggt 5460
gttcttttaa aatgttgagt tcaaaaagta tgagaaattt ttccgtaaaa aagtgtacat 5520
gagagtacaa gatactaatc tggattagta acagtgaagt gccgatctct ttgattctgg 5580
tcttctcgaa ggtctagaac tgatcgtggt gagttactca ccctactggt cttgggacat 5640
gactagtacg tttgaagtgg tgtattgtcg aacactataa ctcactcaac aaagtggata 5700
tgctggggag atttggttaa ataattagat cttttaccct tattatcgtt aaagatacat 5760
tattcaacaa cctcgtgttc tatttcaata tacatatttt gtaaatcgtg tcaaggacca 5820
cgtattgtcc agacatcatt tataaacaac attaatcgtc gttttagtag agggagtaat 5880
gacgtcaact aaaaggaaat aataaccttt ctttaaagag ttgactcaaa gtcaacttat 5940
gtcataatct aataaggaat tgactcaaag tcgtaaaatt tacatatgag ggatgagttt 6000
tgatggatga tttagtgcgg acattaaggt cgtgagaccg tccggttccg cccacctagt 6060
actccagtcc tctagttctg gtaggaccga ttgtgctact ttggggtaga gatgattttt 6120
tacgtttttt taatcggtcc gcaccaccga ccgtggacat cagggtcgat gaaccctccg 6180
actccgtcct cttaccacac ttgggccctc cgtctcgaac gtcacccggc tctagcacgg 6240
tgacgtggtg tcggacccgc tgtctcactc tgaggcagag tttttgtttg tttttttgtg 6300
tttttagatg gatgattttt cttcaagaag ttacgaatct gaaactcgtt tctttttcag 6360
acgagattgt ccttcgacca ctatatcttt ccatttcaaa gtgaagtgtc cgtgaaacta 6420
aagggaagct ccacctatga cttactaaac acacacgcgt gtaaaaagat acgtaataag 6480
ttttaatttt aaggaatctc ctttggtgac tttcggttag taaatgtttt gaaattttta 6540
ctgtagaact tctcaagaaa ccacgagtaa gtagtttgaa tcgttactaa attgacatta 6600
agaaataagt ctaagtagag ggtgttttat ttttacggta tttcgaaatg tcatgacata 6660
ggattactta tctctttgat ttctttttca ttctactcgt tcactctcct tttgggcttt 6720
tactcggaca ggaccgtaca aagatttttc tttctttgtt tgtttgttcg tcggggagga 6780
gagtcgagaa ccctttcttt ataacttaga actgttatag acgtgaagta tcaactaagt 6840
atcgtactgg atagagtttg ttaaattcta agtttacttc aaacgttaat tagaaagcta 6900
tagtgaaacg ttttgtaaga gtattggaat aggtcgggaa aatgtttagt taggacactc 6960
cacttgtagt gacacaaggg taaaatgtct ctttccgtga ctcggtgtct ctccaatata 7020
tgagtactag ttattcgacc attctgattc ttggtcctta ctatgacaga aggaagaggt 7080
ttataggaca agaaataata ctcatggatt tgtcataatt tttaattaat gtcgagttgt 7140
tatcattcat ttacaggagt acactttagg tggcaaattt tgaattccaa tagataaata 7200
gtttatttaa tttaggatga gtgaattgtt ataagtaact cgagtaagac atttgttggt 7260
aatccggtcc ccgtctatac tttatactcc gagttagaca ctagtgtctc tactttatat 7320
gttaaatctc tctctttcta ttcgtactac tgtttattta ttacatactt ttaatcggta 7380
atagaatccg gttgaaaaag attcgacatt cgacagacgg atgaagacgg tccacaatca 7440
ttaacaaaat ttttcacccc cttcttctca tgaagtacca cccttctata agtaactcct 7500
gtattcgtag aaggagaatc tttaattgtt acgtgtcacc ggataacgtt caaaactttc 7560
gggacgtttg ttattttcgg actaatcaaa aataacttag tcatagagga tttgtgaaaa 7620
agtactttgt tccaatgagt gtttagaaca gctccttgat tacaggatcc tttcaccaaa 7680
agttcgaact cgtacatgta ttcatagtaa cctttccaac gtttttatgt ttacacaccc 7740
gaggtgaggt ctttaagact aacttcacca gagtagacag tagactcttg aacgtaaaaa 7800
cagtctaagg atcgactaga ctacaaagtc ctgactcttg aattaaactc atcatagaga 7860
tgtcttgtca aaaattttac aagaggacct catcctacta atatgaattg tttttacatt 7920
atgtgagtcc actacctgtg ggaatcatag gactaaccta gtgatgtgta atatatgtac 7980
attgtgtaaa agagttcatg gggtatttaa acgtgtttat ttatttattt attttaatat 8040
gaaaagagtt tattttttta ttttatttac aaggagaact taccatctta gaaacaaaaa 8100
aacactatta gtatttatgt atatttataa gagtagtaat gtacgtacat caatggaagg 8160
aaatgtacta cgtggtcttt cttatgggtg agattcttcc tttcttactt ctcttcttcc 8220
gtaacaaatt ttctggataa taatcttatt cagtttaaga tacagatggt aataattcga 8280
caaactgaaa ctcgtcccta accttccgta aaatttaact ccacctctat acgtgtttcg 8340
gtgcaccctt tacagtacac agggacgtat ttctcttgtt cgataaaacg aaccaacctc 8400
tactcctctg tctccgacat gtattcttac acaagttaaa tttcgttgtt ttatatagct 8460
ggtttgatga aactcgttag ttcccctata taaccgagtg tagtgacttt atatatgacc 8520
gtgtcgtcta aaggtcaatc cagactagac gatcgagaca ggggaggtct tatgtccgag 8580
gtccgtccgt ccttccttct cctgtagtca agagaaccac agatcgtgcg acggacataa 8640
ttccatccag gagttattta agtacaacat cctttactta cgtacaagag tttctacgcc 8700
aatgaaagtc atagtgacga aaggagtacc aaaggtgaag ttataatcag attgaacgga 8760
atccctgggt tctaccgacg ataagtgaag ttaatcgatt tgtgaagaga aaagtaccga 8820
cactctctga tcgatggaga aggtatttac ttaaaagaga agaaagaccc gtgttatcag 8880
agataaaggg tcggagaaaa tgttaatcca cataggtacg ttgagtcaag atcggttacc 8940
gcacactcat catcactata ggtggtgaac gtctggatgt gtatttccga gggtctgtgt 9000
agaagacacg agaaatgacc ttgtgaacga actaaggtta tttatgtcgt tggaatcgtc 9060
gatgtataac gtcaaccgtc tcgaaagtac aaagtcgaag aagtataaaa aatcaaaaca 9120
acagtgacaa ccaaaaaaaa aattaactaa gtcctctact ggattatttt ttaacttctt 9180
tttatttcgt aaaacaagac ctaaagagta atccttgtac tccaaatgag ataacgttga 9240
ccgaatcaag tatactagta ggggactcca ctcccttttt ctacgcactt aactaattcg 9300
gttccagtgt accagcttta catcttaacc caaaactcca gtcaaaggga tttagtgggt 9360
ctataggttc acctttagtc cgaggtaact gttttccctt gtcaagaatc tttacgttga 9420
tgtttacagg ttagggtcaa ccgttcaagc ttcgttcctt cccgaaaggt aatttcttac 9480
acctacgatg gaccacccgt tgacctccgg tgaccgtata taaaaaaaac cccccccaaa 9540
gtatttgata accaaaaaaa ttaataataa tatgaaattc aaaatcccat gtacacgtgt 9600
tacacgtcca atcaatgtat acatatgcac acggtacgac cacacgacgt gggtaattga 9660
gtagtaaatc gtaatccata tagaggatta cgatagggag gggggagggg ggtggggtgt 9720
tgtcaggggt ctcacactac aaggggaagg acacaggtac acaaaagtaa caagtcaagg 9780
gtggatactc actcttgtac gccacaaacc aaaaacagga acgctatcaa atgactctta 9840
ctactaaagg ttaaagtagg tacagggatg tttcctgtac ttgagtagta aaaaataccg 9900
acgtatcata aggtaccaca tatacacggt gtaagagaat taggtcagat agtaacaacc 9960
tgtaaaccga accaaggttc agaaacgata acacttatca cggtgttatt tgtatgcata 10020
cgtacacaga aatatcgtcg tactaaatat caggaaaccc atatatgggt cattacccta 10080
ccgacccagt ttaccataaa gatcaagatc tagggactcc ttagcggtgt gactgaaggt 10140
gttaccaact tgatcaaatg tcagggtgat tgtcacattt tcacaaggat aaagaggtgt 10200
aggagagctc gtggacaaca aaggactgaa aaattactaa cggtaagatt gaccacactc 10260
taccatagag taacaccaaa actaaacgta aagagactac cggtcactac tactcgtaaa 10320
aaagtacaca aaaaaccgac gtatttacag aagaaaactc ttcacagaca agtacaggaa 10380
acgggtgaaa aactacccca acaaacaaaa aaagaacatt taaacaaact caagtaacat 10440
ctaagaccta taatcgggaa acagtctact catccaacac ttttaaaaga gggtaaaaca 10500
tccaacggac aagtgagact accatcaaag aaaacgacac gtcttcgaga agtcaaatta 10560
atctagggga aacagttaaa acagaaaaca acggtaacga aaaccacaaa atctgtactt 10620
caggaacggg tacggataca ggacttacca ttacggatcc aaaagaagat cccaaaaata 10680
ccaaaatcca gattgtaaat tcagaaatta ggtagaactt aattaaaaac atattccaca 10740
ttccttccct aggtcaaagt cgaaagaggt ataccgatcg gtcaaaaggg tcgtggtaaa 10800
taatttatcc cttaggaaag gggtaacgaa caaaaagagt ccaaacagtt tctagtctct 10860
caacatctat acaccgcaat aaagactccc gagacaagac aaggtaacta gatatagaga 10920
caaaaccatg gtcatggtac gacaaaccca atgacatcgg aacatcatat caaacttcag 10980
tccatcacac tacggaggtc gaaacaagaa aaccgaatcc taactgaacc actacgcccg 11040
agaaaaaacc acggtatact tgaaatttcg tcaaaaaagg ttaagacact tctttcagta 11100
accatcgaac tacccctacc gtaacttaga tatttaatgg aacccgtcat accggtaaaa 11160
gtgctataac taagaaggat gggtactcgt accttacaag aaggtaaaca aacataggag 11220
aaaataaagt aactcgtcac caaacatcaa gaggaacttc tcaaggaagt acagggaaca 11280
ttcaacctaa ggatccataa aataagagaa acttcgttaa cacttaccct caagtgagta 11340
ctaaaccgag agacaaacag acaacaacca catattctta cgaagactaa aaacatgtaa 11400
ctaaaaatat aggactctga aacgacttca acgaatagtc gaattcctct aaaacccgac 11460
tctgttaccc caaaagatct atatgtacag tagacgtttg tccctgttaa actaaaggag 11520
aaaaggatta acttatggga aataaaggaa gaggacggat taacgggacc ggtcttgaag 11580
gttgtggtac aacttatcct caccactctc tcccgtaggg acagaacacg gtcaaaagtt 11640
tcccttacga aggtcaaaaa cgggtaagtc atactataac cgacacccaa aaagtatcta 11700
ttgagaataa taaaactcta tgcagggtag ttatgaatta aataactctc aaaaaccgta 11760
cttctcaaca acttaaaaca gtttccggaa aagacgtaga taactctatt agtacaccaa 11820
aaacagaaac caagacaaat atacgaccta atgtaaataa ctaaacgaat ataacttggt 11880
cggaacgtag ggtccctact tcgggtgaac tagtaccacc tattcgaaaa actacacgac 11940
gacctaaacc aaactggtga ccgtataaaa ttcgtaccct cattgtgaca gtccaaaaaa 12000
tttaatgttt tacgaaatcg tatctctttt aatatttctt gttatattca ttgtctatac 12060
gtgagtgata ggacgaatta gtttacagtg tgaaacggtt cgaactaagt ttaaaaaatt 12120
tcgtttcttt gtaatgtcta taccgacgtt gtaggataca cggggtggcg actatgtatg 12180
gagagaaggg ttcccattgg tgaaagactg aaactatgaa tagtaagggt ccgtactaat 12240
ttacgataac gacttaaacg tatatatgta tttattatat atgtcaacaa acgtacaaga 12300
ttttgaaacg taatttatta tagtttatta atttttaaaa gtgtttaacg taaaaattga 12360
gtcagaaaat attctaacgg ttattactat agagaagtct agtaagtaaa actgataata 12420
taataaaaag taacatactg atacggtacc gagtgaatag gtaagacaat aactatttgt 12480
aaacacaaca aaggtgttaa aacgataatt ttattaccgt aacacttgta agaacacaca 12540
tatagtgaca catgtgtacg atctcaaaga gattacataa taccacatat aacgacccgg 12600
tttccgatac attcagaagt tgaagggatc tacagtatgg ttgagtatgt atatactggt 12660
cacactcgta agagtcacga gatgtaacag gtctaagatg tacttcgtga ccaccggata 12720
accagtccaa ctgactataa tcttccaata acggtttcag atacactctc tctgactccc 12780
agactttatg gatctacatt ccctatattt cactctctcc tttcttcaat tgtataaatc 12840
ctcgttttag gtgtactgaa acactaacta atacctcttt tattcctctt cttcccttgt 12900
ccttctgaga gttcagaggt ctaacttgtg ttctccttcg aatacacggc actctgacta 12960
ctgtttaagg aaaacttgta tcacggaaac tcccgaacca tcattttttc tttcgtgata 13020
ggtagtccgt aaacctataa atccagacct tctgactttt ctctagtttt gtcttttatg 13080
tttaatatct tagtagctct acccatttta gtcttctcaa cctagttctt ttcatggatc 13140
ttagtcatct cttcactcaa ttcttttata gagacccttt gtaattataa atttccatat 13200
attttccttc tcttctgaca cctcttctgt ctctgacttc ttcctctgtt ttacacagta 13260
tgacatcatc ggtctcctta tctcgaagtt tcttactcac cagttggtgt aatttgtgtc 13320
gatcttttgg ttcttccatt tctttacttt taatttgtaa ttgtatgtta cttcaataac 13380
tcaggtacaa ttttaccaaa gttaccttat cgtagttacc tttattaacg ttaatcattt 13440
tcttaaaatc tttttctttt ttaattatgt cgattgaaag agtttaattt aaaaaacttt 13500
tattttgtca ctctacctta agctcacgtt ctacaaacaa cttttagttg tgtgtacttt 13560
cctttctctc acttggattt ttttaaccga ggtctcagat aattacattt ctgatacaat 13620
ataacagaga gatagaaatc cctttgtata tgggttaagt agaacacagt ggtcttagtc 13680
taagtagttt gggtaagacc tggtgagact agtgatcaaa gtgggagtgt cagtatcatt 13740
tctttgattt cgttttctga tgttctcgtt tcctgtcttt ccctttacaa taaaagaggg 13800
gagtggaaac gggagaaact aaaagaggta acaacgattt tccttgtgaa tcttttgata 13860
ctttctttga agacggacat ttacgtcgag gtactaatac ttaagactta ggaacattgt 13920
cttcttggtt atcctgacta ggtactgaag ataatcatct ctgacccttc catccactga 13980
aatcgagtgg ttcggactag tgtcgtttta tcttttacta gtgtcacagg ggaaaaatag 14040
gaccccattg ttacttgtaa gtcaccctcg gttgatgaca taatttcagg acccacgtcg 14100
aggaccgtgt actgtaccgg gtgttccatc atcaagactc atgggaacgg atagtcacca 14160
cgaccccgct cttccctccc gtcggacgag tgatccctct cgtccttact ccgatccttc 14220
atgtccctgg accgtttcta cagaggacaa actctctctg aagtcaatta caagtcagtt 14280
gaaggacacc acgattcttc actttcaact tgaactgata gttccttgtc tccgtccaac 14340
aatcgacccg gggaccctcc ttcagttgtt cgaggtggtg tagactgttg tggatgacga 14400
acgtcgggaa gggggtccag tccgtcgacg tgtggagtac gaaggttgac tcccccttac 14460
ttacccatgg ttctcatcca ctcagatgaa gaaagggtcc ccactcatcg cccacttctt 14520
tagtcgtaca tcacctgtaa atgtacacgg cctatggagt atatacgtca caccatagta 14580
ataggagtga cacgtctact tctgtgactc cgagtccctg aacaagttct gtgtgtagac 14640
cagttatccc tcggtcctaa gttttagtgc agtcagatca tgagttcagg agacaagaaa 14700
ggtgctgatg taatctacat agggatctat cagatccaca ttgtcgtact cagagggtac 14760
tttccttcac ccccgagaac cttgtatgga gaaatccttc ggaaggtagt aacacgacgg 14820
aaggaggaga cacgtcggag tcgtgagtga caactcggga agagatcctc aaacgttaga 14880
tgcccctcac tacccgtgta ttcctttatt aaagttacat cataccgttt acgactcgat 14940
ctatttacgc gcttactgat acttcttgtc tcctaacccc agtggattga gttgtactct 15000
gagtaccttc agaggactcc tctttggaga ctcaggatct ctcactctta accggtcttt 15060
ttaattcttc cccgtccctt aaggtctctc ttcattgtcc atttgttttc gtttctccgt 15120
attctatcag acctcagacc agtttaatgt tagtcaacct tcatcatctc ttattttatg 15180
tttcacctct ctcccctctt catttcgact tatctatttg tcccagtcga atgtctccca 15240
ggatacgtcc gatttaaggt ctacgacgat atttttatgt cctttctttt gagtacttta 15300
taaaattcta aaaacacctt ataaaattct cgaaaacact tgtagagtac ttcgtgagga 15360
cacaaacctc cgtcgtgacc gtcgtttagt ttgtattatt ttccagacat gtagtttgta 15420
actgtgtaaa taagttgttc gtgtataact cgtggatgat acaccgtcct tgagagaagt 15480
agtcgttcat aaaaccgtga tttattttgt gtcttgtgtg gcgggagaaa ctttactgtt 15540
atttctttta ttcacttaat atataataga gtcgtctata acgtaccata tacctttcgt 15600
atagtccctt cccccacatt tcacagtact ctccttaatg ttataattat cctacaattc 15660
tgtcgaggat gacttcggta caaatttgtc tgtgaacctc ctctcctccc tcaaccgatt 15720
caactataaa ccccattccg taaggtcctt ccccctagtc ggtcaagttt cgggaccccc 15780
cacccccgac acgaaccgta taaactcctc accattcctc cggtcacacc gaccttgtct 15840
tactagtttc tttttccacc atcatttact ccagtctatt tgtcattctc tgttccctaa 15900
aaatccagta gatcttaaat ctaaaaaagg actctcccgt ctcctcggtg ctctttcgag 15960
actctactcc tactctacta gattaagtcc aaaattgacc tatcaagtct cgttctcacc 16020
cccgtccctt ggtcactcct ctgacaccgt tattagtgct tttcaccacg tcgccgaacc 16080
tggtccctca atcgtcacct tcgtctctct tcactgttgt gagacgtata ccctttccca 16140
cccgtcctct cttgtcacgg gttctactag gtcataaaac cggactcttc gacccctttt 16200
tctttgttgt tgttgttgta gtcaccttcc ccaaagtccc tcaggtccac aagaccaacg 16260
tcgaaacaaa acggaatttt tataaactca tgcattgatc attaccctaa cgacccaact 16320
taccattaag gcaaaaatca ggaaactctt taacggtgtc acgaaaggaa tcgtttgatt 16380
ccgtccttgt cttttggttt acggtgtaca agagtgaaca ttcaccctcg atttactatt 16440
cttgagtact tgtgtatctc cccttgttct ctatgactcc ggatggactc ccacctccaa 16500
ccctcctccc tctcctagtc ctttttattg attactcgtg atccgaatta tggacccact 16560
actttcatag acatattgtt tcaggacact gcactcaaag ggatccattg tttgaacgtg 16620
tacacgggga cttgaatttt attttgatat atgtatatat atgtataatc tttcttaata 16680
tgaaaactca aaattatcgt gtaaaagaca ttctaaaacg ttaaatttga agtgatataa 16740
aatatatttg ttaattctca actcaactgg aactataatg tataatgtct ataaaataat 16800
tgtagataat taaaaattaa taaactaaaa aagttttaaa gtttattata tggataaaaa 16860
gtctaaagtc cgtccggtaa cttttcgagg atcaagatta atgacaagga cattacgaaa 16920
tacttatatt gtcaggccgg aaaggagaat ctcaaacgtc agattccatc tctttatatt 16980
attttctttt acgtacttaa aaattgatta taccacaccc aagatttcga gtctatttaa 17040
taaagcaaat caagagtgtt gttgggagac tacgtccgtg ataataaagg gggtaaaatt 17100
attactcctt tgacttcgtg tctctcgaac caactgaacg ggttataatg gtgtgagaca 17160
caccgattcg accctaaact tggttctttt gagagaaggg tatccagcaa ctttttaata 17220
ctttccaatt cggtggagag acgaacacaa cggataaagg tggtacactc aggttacaca 17280
ccactgtctc ttcccatcta caaaccgtag acacttaaga cacctaacac acagtactaa 17340
gaaataaaga caggagacat aggacttaac ggtgatggga ctcgtccact attctcattt 17400
taaggtaatg taaccagaac tcccctaccc gtttgtgaaa cctgagagaa ctataagatc 17460
aataatttat aacgagtcgc attcaatctg ttacttactc tgaacaacta caaaagtaaa 17520
gttaaacaga atattactag acacgagttg tacattttgg ttatctacat tgtggaaacc 17580
ttataaagac tcatttgtac cccgtggttg agtttctcgt tctccatttt tacggatcac 17640
acctagtttt agatgagata ctgtccctta gagtacccga gacttcctaa gaccagtgta 17700
tccctcattt atcgtctgag agttaagtct cagtctacac tcaagtgtgc gttacaaaac 17760
cctgaagtag gacagaaaag ggacgagacc ctcagtattc ttaattcaag attaggatta 17820
agacaacaat agatggactc actgtgatta atctatatat tgaagagact ccgagctgta 17880
aatgtagatg tttatttctt ccgatcttat gatttcggag aagataaaga aggttaataa 17940
ctaacatagc cgagaatgag atatttacca aagaagataa aatcccttta attaataaaa 18000
caagaatacc acaacgacct ggacaacgaa aagtaacgac attaatgaag agaaacaact 18060
tctggaaacg gtctgcttta cactacccac atattccgag accgtaaaac gggtccagac 18120
atcgtgtatc ttaaggtgat tacccagacg acccgtagac tctggtgtct cggtaaacag 18180
tattgtactg ttaaggtcaa cccgtcccta tttacaatcg aaattgctaa aacctggtct 18240
caaacagatc tctctctcgt ctcatgtttc ggttttcgta gtagaaatct cgattcgtcc 18300
gtactcaagt ttagggttgg gtcggtgaat gatctataca tcggtgtcgg tggcggttca 18360
gagttaaatt tacagtgaaa gagtttgtcc ggaggatccc agagggtgca accgaatcag 18420
gtcttatgac caaataggaa tgccatattt taaataaggt agtaatacgt ggtcataaat 18480
tatttacgac tccttacacc ttgtttataa acaatttatt tttcactgaa ttaggaagag 18540
acagagtcag gagtgaagtc acttcacccg ttttcccatc ttgttcaaag gacacgtttt 18600
tcttagtcca gtttcacggg atctttatcg tttgtgacag tgttgggatc tatcgtacta 18660
atgttagact ttatttgatc aagtttttcg tttagagtct gagttcaccc cgaaaaagat 18720
caaatcttga acctcaatct tcttctttct tcccccgatt tcacacgacg cacagatcta 18780
cacggtccgt gacatgcatt atcttacagt gtgtaaatta taaacagatt ttcacacttt 18840
cacacttaaa ggtattctcc ctgtgtccaa gaaccatttt ggttccaaac gagattgaaa 18900
agtgtgtgaa accgtctgcc aaaacggaaa aagaggattc aaccttgaaa actccggtaa 18960
tgacggtcct cccttttcaa tcactacgaa tagatacaag tcttgatctt ttaccgggga 19020
agaccagggg tcaaaccggg gtaacaataa gtgtacgacg gatatttttc tgttttggag 19080
gtcttccacc ttttctactt atacgtctta cgatgtgtat ctatgagtac atccactcta 19140
ccgcttgtgt cgtctaaatc cagatggtta ttctatgatg gggtaaaccc tactgtgtgg 19200
aaggaatctt cactgtcacc gtcttgtatc tgtttccctg attaattttc atacacccaa 19260
gacgtctaac gtagacctca ttctcaggtc actagattta acatccggtt ccggagaacg 19320
aacgattgta ggagacagac ggagtcaaaa gaatggacgt tttacctagt gacttgtagt 19380
gtaaagagaa ataattaaat aagtaagtga cttcttcgtt cgacagtttt tcgttgacga 19440
tgtatacagt tctttctacg gtctacgatt ttattttatg tttttaaact aatgatgttt 19500
aacgatggta gctcctcagt atcagattac tttctctttt tgtactctca cttattactt 19560
cagtcgtttt tcaagttttc tttttattta ttttccgtat ctataatttt tacttcttca 19620
ttttgataga ataagtcttt cctatactaa tacatgcctc ttttagggtt tcttagatgt 19680
tgtagtctga gtagtcactt agatcgttct agtgacctat gtcaaatata tatttacaat 19740
agttattaac ataaagacac ggactgttgt tttttaactt ctgttgaaaa ttttgttgtt 19800
acaaatatta ctgtggcttt ttatagttta atcttcaagt acatttaaca tcaaaggttc 19860
tcgagggcga cctttaacct tcggtaacaa ctttatttaa tttcttctaa attcgtttac 19920
ctctctgaat ggtaccaata ccaagctttc tgagatgtaa cgattctacg ttaaatgagg 19980
ttttaacaga tgtctaagtt atgttaaagt caatttcaaa gactttgaaa gtaaacaaca 20040
acaacaaaaa ccttatctgt tcgactaaga cttcaaatat atgtttacgt ttcctgcatt 20100
ttgtcgattt cttttaaacg tcttctttct ttgattttct taatgtgaca gtctaaagct 20160
ctggatgatg tttcgatgct aataattgtg tcacgtataa ccatgttctt atccgtttat 20220
ctgatttctt tgtcttctgt ctcaggtctt tgacttgatg tgtatgtgct agtagactaa 20280
ataatgtttc cacggttccg ttaactcatc cttctcttgc tacaagatgc atttaccgtt 20340
ataactcata gacataccat tttttattta gaaccgatat acagtatatt atacctgttt 20400
aattaatgtt tacatcatat gtggtttaca ctttccattt tgttttattg tacaattttt 20460
ttcatatcat agaatggaac cctatcgtct ataaagaatt tgtcctgtgt tcttcacttt 20520
tccgttcggt gtcggagtga aaacagaagg agtacggaag agaagatcac accgagtcac 20580
gaatcacgtc ctctttggtc attgggactt aacgtcgaga aggaagagtg atgtacttaa 20640
gttaaaggag tagacagttt actcatatgg ttaagtatag agctttcgac aacgacactc 20700
ttagtctatt cgtattggag tgtcgaatac agataatctt gtcgtgaacc gtgtaccatt 20760
tgtgaggttt cataaacaat ttacttactt atctaatttt ccaccgtaca aaacatgatt 20820
tgacaagtta ctatcacatt ttggtaaacc agtattacgc ctttcccttc attccgcctt 20880
aaggaaatta gacacaaaat gcgtccaagg tttcctcgca ccacctctct tcctacgtct 20940
atcagaccca ctctcgatct ccgacctcag tcgtccttcc tgactccggc aaccacgaac 21000
ccctcactcc cgaggaaaga cgagacagga tccgattcaa ggggtgggta aggaagaact 21060
ctagatggag tttgtgttta gggagttaac tggtgtcccc cgcggggaag atacttaaac 21120
cgcgactatc gacactagac gggtcgtgtc accccttttg tgttttaaat gtctagtccg 21180
tacaggcccg agtctaagga tgaggtcgtg gaccaccggt tccctggggt tgacaattta 21240
tccgtaccac tacggacgaa aggttcggac aaccctttct ctctcccctc gcccctcctt 21300
accctctctc tctctctgac tcgttcgtac ggttctgaat tatatgaata taaatataat 21360
tttctttatt tatagtctac taatgttaaa ccaacttgat tctatgtgtc atcttatacc 21420
ttgattatag gttatagtgt ttcataagat cgctcggaag gatgtctttc ttaacaccca 21480
ccgacccctc atccgtaatc gatgatacac tcacgtctct tatgagtcgg aagaaggtct 21540
accactcgat ttcaagtttc tagttcagtg catgtgtgga agaaagagta gggtccagga 21600
tcagacgaac ttaagtttac cggtaggtgt ggaacggact ttatgaacgt tattaattct 21660
atgccgaaag acggacgaac cccaaaccag gtgttaaggg aattctccgg agtaaagtta 21720
atcctgagtg tgtagggaag ttgtcattaa aacacagtcc gaaccaatcg ttgagttccg 21780
agttcgtatt taccctgtct taagaaaagg aaaactttga gtggttatat cactaacatc 21840
gttgatcgat gtaacaaaaa caaaaaaaaa agggggagtt aagattcgtg atacgtttcc 21900
gaaatttcgt caccagggtt cggaaaaacc gtggtccctg gtcaaaacac cttctgttaa 21960
aacacttttc tgttttacac cttctggcac ctgaccctac caaaccccta ctaagttcgt 22020
gtaatgtaaa caacacgtga cacaaagata ataataatgt aacataatat attactttat 22080
taatatgttg agtggtatta catcttagtc accttcggga ctcgaacaaa ggacgttgat 22140
ctgtgagggt agatccccac taccctctgc cactgtccag taatccgtaa tctaagagta 22200
ttcctcgcgt gttggatcta gggagcgtac acgtcaagta ctgtcccaaa cacgacgata 22260
ctcttaaatt acggtgacga ctagactgtc ctccacctcg agtccgtcat tccactcgtt 22320
acccctcgtc gacatttatt gcgactagag tgagtgggtg acgagtggag gacgacacac 22380
cgggtcaagg attgtccggt gttttaccat ggacagacac aggggtccca acccctggtg 22440
acggaatttc cggaagtaga gtaagtcaaa agtagtttta agacacacca tccatgagag 22500
taatctgggt aaaataccca ttccttgact ccattttaac caatatattg aacggatttt 22560
attcagttca gagactactc tcccggtcct aagttcaagt tcgtcagact gaggttttag 22620
agtttcgtga agacaccatc ctttctcttt acttacctta ccgtatctca gtagatttac 22680
tgacgtcatc cttccctcgt aaagggcaca cgtcacaata aaaaaggccc gaaactttct 22740
atttatcctc gtacgtcaat tttttctctc ctcttccgta agatccgtct ttccggtcac 22800
gaatgtgtct tagagtctta acattgtcaa ggataatgtg ggaccgtctc actacggttc 22860
cgacaataac agttcgtggg aggacggagg gtcaccccaa ctcttcccca cttccctgtg 22920
accgtcttca cttcgaccct tcaaacgtga acgatcaacc ctgaacgtat cggtagaaga 22980
gttacggttt ctcctggagt cagagacaca cgcgaaacaa aaaacaacaa caacaacaac 23040
aactaaacac cgggtccgat ctcacgccac cacactagag acgagtgacg ttggaggtag 23100
agggtccaag ttccctaaga ggacggaggt ctgagggttc atcgaaccta atgtccgcgg 23160
gcggtggtgt ggacctatta aaaatatgaa aatcatcccc acctcaaagt ggcacaaccg 23220
gtccgaccag acacacacga aacctaaact ctgtgagact actaaatctc aacttttacc 23280
ctcatctaac ccactaagag atcaatagta caaatcagtt tagtctaggc acgtaagttt 23340
tagtattccg ttcaaaagga cacaccgagt cattgtagga atttctttat caagactaca 23400
ggtaggccac aaaaaagtct ttctcgcagt cccaactgtc atcgacacta cgaggtctac 23460
ctcgacgcct attgtcgtat attcaaagtc ccgtcaccaa ctccccgaca ccctcccacc 23520
cctcccttct acctactgaa aagagttggt agacataaac taaccttata acacactgaa 23580
cactttatct taatttctat actagaagaa taccagaaga gtgtcaaaag ttccctaaaa 23640
tcctcttttg cgaatcggta tgtctcgggt tggaccattc accgtcccga ccggtccagt 23700
cacgttgaag tttcagctac aacagtcact tacgaggtct acctaacgtc tcttctggtt 23760
tcaagtacag agccgtggaa agggttacat gtcccgaata acaaccctgt ctcatcacgg 23820
accggatctt caatttgtaa gtaggtcgat cgataattcc gaacttacgg aagtttcttg 23880
tcgtacctaa aaagacactt agcactcgca aaagcgttac gaattgtgcc gtcgaccatt 23940
actactaacg aggacaaagg gaaacttaaa gcacaagcaa atgaattgtc ccgtaacgat 24000
tagatcttct tccctcaccc acttcttagg gtaaacattt ctcctatcgt ccaattactt 24060
ttcttcgtct ccatacgcat ccactatcac aaagatgttc cgagccaagt taaccatact 24120
aaatttccgt tcggaaccga ccgaccagta ttattcccgg tgtattacct cccctaaatg 24180
caccgttaat ggtaccagga acgatcaccc tatgttacaa aatcccgagg gacctatgaa 24240
ttctaattac agacttagtc atcacaataa caacgttcta gaatcacact accctcggta 24300
cactccgtgc ttaaaaatag ggaatagtct tacattttat agagtatcag acgttcttgt 24360
ggtcactgat accggacttc aacgggattc tgtcaaattt gtaggacaac taacaaaaca 24420
aaaaaaaagg aaaaggaacc gttggtctta cgtacttact cagatcgcaa tgaaaacaag 24480
taggtccatt atactaactt tacccttaat atgtacaagt tagtaaatct cttcttcctg 24540
atttttagta tctggatatc gtttaattta ctaatatctc ttagatggta catttactga 24600
cgttaattcc tgaagaagta catggggccc ggtctaagtg tcgtagaccc tgtttgagag 24660
gtaccaaaaa gggagccaca taaataattc ttactactag gacttgaagt tcctctgaac 24720
cccttaaaaa cctaaggacg gtccatacat ggaccggttc taattaaacc acttagtctt 24780
caagggtcct tggtatagta ctcatgattc tcttgtttaa ctaaatagat catcatacaa 24840
agaggttgaa tctatagaca cgtttttttc acgtcgcctg taccacgtgt aaggttcttc 24900
aagaggaggt tccttcacca gttttataca ttacgaataa ataataggta aaactctggg 24960
tttaataggt cagtcaccct agttatggaa tgaggagaag gggtcttcgg agtgtttatt 25020
tcagaattgt ggtagagttg tttttattct atccctggat ctgtacctct tataccgaca 25080
gagtacctaa gattcgttag tccatctcat aactctttac aataactttg tccttcaagg 25140
acgatttcca caaccaccct aaccctacgg tcacgtctca ctgtgtcata aacctgttct 25200
tgtgtattgt gctttcacag acttaggaca agaacagata ttaccgtaga acggtaattt 25260
aggaaccgtg cacggacatt agggtcgaag acccctccga cttcgtcctc ttaacgaact 25320
ttggccctcc acctccaacg tcactcggcc ctagtgtggt gacgtgaggt cggacccact 25380
gtctcactct gagggagagt tttttttttt tttttttttt tttttttttt tctttttcct 25440
ttttcttttt tttcgttggt actctgctcg ttcttcgatt caaatgttta tttacactag 25500
gtgtgaagag ttgtagtcct gtccaggaag tacgaatcta aggtccagag aagaacgctt 25560
acccttgtca gtagtgaata ggttactacg taaattctcg tggttcaaaa tttttctctg 25620
tttacagctt ttctttacgg taaatagtag tttgtggtaa taatttgtga tcgaacaacc 25680
gtatagacat tcagaccaac agtaaaacga tccacctctc ccgtcttaaa acctttcata 25740
gatccggtgt gggtacaaag tcttatcatt catgttttcg gtgttacata actagtgaat 25800
ctgagtagta tacaaacagg aaaataaaat ttatggggtt cctacctcca gaaagatcgg 25860
attaaaaggt cgattctttt agttcctatt ttttaaaaga acacaacaat gaaataggaa 25920
tcatgggggg acccttcatc catattaatc ggagtagaat ctctactctt ttgactccga 25980
gtctctcctg acaggacatt ggtctttctc ctacacaatc ctagacttgg gtagactgct 26040
ttccgatacg agaattaatc attgtaaagg gacggaacgt tcctgtgtac atccagtgtc 26100
ctatgggtcc cttccattta cgagacagga aaagagtggt catgatgttg aatcattgtc 26160
ggagaccggg ttttactctg acctgtaact gaaattacct accttcatgt gtaaggattg 26220
tacctaagta agtcttcgtg ggtctaaagt gttctccttt actactccgt aaaaagactc 26280
cacaacttta acacgggaaa cagtcagtgt ttggttggtt tttttttttt tttccgaaac 26340
ttttaaggag tttccatttt ccatcggaaa gaagagagta tcaagactat atcagggttt 26400
tcctttgttt tcgaacgtat taagatcggg gtcactaaga agaaaggaag aataattgat 26460
gtttagaagt ggtgtaaaaa agaatgatta atcagtgtac gaattcgagg actcagtgcc 26520
tcaacagatg accaatatcg aacaagatcg agaaggtggg agtttacctt gaacgttcct 26580
taatccggga gacttctagc gtgtaagttc agtacttttg ttcggttgtt actttagtta 26640
gtgacggctc ttcccacctg ttcgtgttcg taattctggg tgatgacaac tcagtcccgg 26700
aagtctatac gacggttacc cttcttctct ctttttaata caaataagta aatatttata 26760
cacgtaagaa cggaggtttc cagggttaaa gtgtgaccag gtcaacccaa gagaaaggaa 26820
acgacgtaag tcctcgtgtc aacataaagt agatgacgaa ctcttacgtc acctcgaaca 26880
gcggtcgtca ctacctcggt ttgtatttcg gttaatggaa agggatccac cgattacctc 26940
cgaggttctt cggtctcaaa cgggtgtcgg tataccaggc tctcttatct ggtacgtaaa 27000
gacctccgaa atggactgaa agcggttttc gtacgtgtct tgcaccttga accggaggac 27060
ttttccgcac agaagtcgaa tccaataagg aaagagctac gagtggtact acagtccgag 27120
gatcatcctc tcggtaatta ttggacggat agagtggtaa tctgacacat gaagatcttc 27180
cgtctttaga aaaagattac taaagaataa agggtcttgg gaagccactg aaccgtaaac 27240
tacccgttag aaccggtagg atttcgtaag gtacggtagt ctatatggga cgtaacggta 27300
ctcgaaatag taaccgaaaa tcttgtagta ggagggtgaa acttatttac cagatcgtct 27360
gttatgtcag ggaacacggt ccgttgtaag acctacgaaa tacatgtaat cgagtaactt 27420
agtaaagtta agttagtaag ttgcgtcccc aaacttagaa tcgacaaact ccagtaacag 27480
gtacgtgagt ggatattgta acaagacaga gaaagacgtt tacattctat ttttataatg 27540
gaagtaagat cttttgtggg gaaacatctt atccaaatat ggaagtccgt acacctgaaa 27600
ggttaggttt gaggtcctca tctgtctatg ggtggtcctg atccgttacg tccttttaga 27660
gtccgaagtc gatcctgaca aagtatgtta aaggacgtac cggtccttgt tcccacttcc 27720
gtacgtgaga cactcgtcgg gtaaacacct gtcacccagt accctgactt ccttggtaca 27780
atgtgtacgg actcaaaaga aaggttcgag tctttggtat agcttgtggg gagggaaccc 27840
ctcttcactc actcgtccac ctctctgcta tcattacaat cataccacct tgaagaaggg 27900
gtatctacct ttgtgactcc cgattcttct tcccggagag gaggttgtac acaatagatc 27960
gttccgacca agataaattc ttactatata tcagatcaca ttatcttatg ttatacggat 28020
cgagatttta atacaacctt tttttagttg taatgctaca cgatataagt cagttactca 28080
tttataaaga cacggacggt gtacgagtcg taatattaat ctcggtggca ctttttatga 28140
ataggcacta ggaaatacga cagtttcgga tttaaggggt gaattggttc ttaggaccta 28200
ttaagggttt tttgtttaaa taataaacaa agataccaac acacaaacag tttttaactt 28260
cgtaattatc tttattcttg ttaaatctga tattttcggt atccgaatat ttttacgatc 28320
gtagtcgtgt aaggttttga cggacggggt agggaactac catacacact aacgacagtg 28380
ttttgatcgt caatcttaga aaacattgac tcctatattt ggtttaaatc tttatacaga 28440
aatgatttcc cacctttgaa tctttgactt cacctaaatg gtgttacttg atcttgattt 28500
acatggttgt gtccgagttt tgtgagattc tattaaaaag tttaaataaa ttttaattct 28560
tttcttttga cccattgtaa cttagtgttt gtcaactttt gtgaccccaa tgtatcataa 28620
ttgtatatta atgtactagt aaacactatt tgtcttttaa atttttttct ttttcctctt 28680
tttttatttt ttatttcttt ttgttttttg tttttttatc ttttacttta ctcttttttt 28740
aactagttac cgtttagtga cctctattta gtaacacatg tctaaaggga taactttttt 28800
tattgttatt aatttgtggt cgattcggaa gaaagaagaa aactaaaaac actttttagc 28860
gttattctac atagagatct agcacacgaa cggtcttaga aacgacaaag aatccacttt 28920
ctagtaacta ttcttagacc gtacctcttg tcagttcctt cgtaacgtcg agttatgttt 28980
tgccaccggt cccttctagg tgacttaatc ctcagtcgtc agtaataaga tgatggacga 29040
ttagaagata ctcgaagcag ttcagtaaat tcgaaccatg ggcagtcaaa ggagtagact 29100
tttgactctt ttcaacaaag tttaacagat tcaggtaagg tcgaactagt atgatcgtag 29160
aatacacgtc gaagaatttc aggtcgagtg tggagacagt tgagggacat attatactga 29220
aggttttttt gtggacacca aaccaatatg tatatatacc tgtatatata caatatgtat 29280
atataaccaa tatggatat 29299
<210> 2
<211> 25265
<212> DNA
<213> Homo sapiens
<400> 2
cactcttggg tagaacgact ctaacagcga ccgtctaaat gaaggtcaca ctaacaacgt 60
tcttaaacag attgtcttac ttactagttg gaactcgtct tctctaatac tttttgaatt 120
atcgtaacat cgttacaccg acaattactt tatgtcaacc gacgagggcg acaaaccgtg 180
gttggttgga ctgtgacagt tgtagtgtta tgctataaat aagggttaat aaaatgccgt 240
tgttgacttt atgttacaca ataattagta taaataatat tcatagttaa actctttaaa 300
gactgtacgg tcttctattt atccaaataa tacttttcgt caagacgaac cacgtacgac 360
cgacgacgac acattattta tcggagacac ccctttcaaa aaattttctt tatttcgttt 420
ttttatcgtg acttttgtct ttccttcgta gttttgagaa gtttatggac gacacaggta 480
accagttcgt gtaagtcctg tagcgtacgg aaatcttgag gtcgtccaag gttgtcgatc 540
atcctgtaag atctgaggaa aatcgggaca gacaccgaag tcttattaaa ggttgcgttg 600
gtaggtttaa aactgggtgt cgcacaatgt aaaccgtaac gccactgagt caaggagtag 660
aaatcacatg aggaagtatt aaatctaatt gaacacactt cgtgacttag gttatatacc 720
acagaaatcc aggttggagt ccagagggat gtacaacagt ctttttctgt aaactcgtaa 780
aattctcact ttagttttca cgtgatggtt ccaaagattg tcgggtcaag acaggaccga 840
aaagaaggac gttgacaaaa gtcgaaccca ctcagtgaaa agagagacct ggaggtaaaa 900
gagtggggtg tagtgtcagg tcactcccga agagaggtag gattttgaaa gggggacctt 960
gagttcagag agatacaacg ggacgtttta atcgaagtca gggtatatga accgggctaa 1020
tgggtgtctt tcatgtcgtt cgtagtagta ggtgtatccc agaggtttta accgaaagga 1080
ccttggtaag tgttccggta aagtcagttt cgggaccctt ttattggtca aggaggttga 1140
cacagagtaa cattttcttt tgtctaataa taacttgaat acattcgttg gtataacggt 1200
atttaattct tataagtgtt tatcaaatgt ttaagatgtc tttagtccgt ctctctcttt 1260
acacgaagtt taagataact gttctcatgt gagatgagtt aacgatttcc aacatttgtc 1320
gagttttctt tttcacaaga ggtctgagac tttttgtttt gtttttctta gtcgttacaa 1380
agtttcttgg tttttttttt tttttttttt ttagatttat acatatgtgt gtgtctgtgt 1440
ttctaggtta tcgtaaatgg agttttgaaa tcgatacttt atcgttatct ttgagtggtc 1500
aaatgtttgt ccaagtgtac cgatttgata aaaacggggt tatgtattag tttacttccg 1560
acacttggtt ttaaacccca tctcgtcaag agtaccgtca aacgaaaaat ttccggtatg 1620
gaagggtcta cggtttctcg tgatccaggt ctatcgtggt gtctttttgt agtagatatt 1680
ggatgattag tccgggttgg gacgaatctt gtcgtcgcat cctcagactg atgtacctta 1740
aagtagaacg gaagagtaag ttgtcgtttg aggtctaggg tttcttatga ccccggtccg 1800
gttcacgtca ccgattgtgg acgttagagt cgtgaaactc tccgactaca ccctcctggt 1860
gaactcaggt tctcaatctc tggtcggacc cgttgtacta cccttgaata gagaggtttt 1920
taattttttt ttttttcgat ccgtactacc gtacatggaa atgaggatcg atgaaccctc 1980
cgactcgacc ctcctaggga actcgggtcg tcaaggtccg atgtcactcg gtactactgt 2040
gataacgtga ggtcggaccc gttgtcgcat tctaggacag gagaccggtt ttttcccaga 2100
ccgtggacga atcctcccga aggttttgaa aaagtcgttt ctatcactca ccgttttgga 2160
tcgtacttcg ggtctcatac accgagacgc aatcataaag agtgtcgggt gacattactg 2220
acagtccaac gaaaattcta atactttcag gatataactt aacagtaagc ttaactctgg 2280
aacttcagac ttctgcctta atgaaccctt cttcgtagtg tcatagaatc ttctcacagg 2340
gaggtacttc gtctaaaccc cagagtaagg caaagacatg aatgtcatta cctggtacaa 2400
tccgttcagt aaattgtgta aacctggggt cgaaggttta gatatgttac cttccatatt 2460
aacctctctc atatttcgga aatcacgggt gaaatgaact ctctaaaagt ctcgtcagtt 2520
actctgaaat ctttattttc acttgaattt tgtatttcac gaaatatttg gggtcgtaac 2580
ggacttcggg actctaacga actaccgggt aacgcatata agtgtccgtg acggggttga 2640
ccgggaatga tgttgagatc tttactgtcc gtaagtaaga aggttaggtg tctactccgt 2700
tgatgcttca caataaaaat tggggagtaa aaaattcctc tttttgactc gaactcgtgt 2760
aattttttac accgggtctc agttatacca tatacaactg gaaccttaag ctcttttcag 2820
aagacagtgt tctcgtcttc ggtgtttgag tttatgaaaa tcccaataca atggttaaca 2880
ccttgtgtac acgtacttta ctcgactcat tctacggttt actggaccat aacctctccg 2940
ttatccctca ccaccccgga catcgtttga tctctctcgt accgagtcaa ttttctctca 3000
ccgtcgttga gttgaggtcg gttaacaacg gtatgttata attcgggtcc ctaaagtctt 3060
gaagatcgat ctttttatct ccgatctata catataagga caagttttaa cggagttaat 3120
cttctataat cgttcattaa gtttacgtta tgtgaaaaca taatagtgat atgaccaggt 3180
ggattattcc cctgtcaaac gaaggacgag agtgtttcac aaagtctgat tcaatactgg 3240
tgaattcata cgtttctgtt ttgtcacata gtcattacgt cactaacact cgtacatgaa 3300
gtctttgttt actagaccca agtttaggac cacaactgta attcatcaaa ttattggagc 3360
ccgttcagtg aactgaagag atatggagtc aaagggatag acattttacc ttcattattc 3420
tcatgaatga ggaaagtcac caacactgat agtttactta actgtatcca ttttgttaat 3480
cttgtcaagg actgtgtgcc attctcagta catttatagt tacgaatact ttcgagagta 3540
gggtcctatt cgtagaggat cttttgtaga agcaggtaca tggtctaatt agtataaata 3600
agacgtcaac tataaatacg gtgtacaaga aagacccatc tcttcggact tcaataagac 3660
aaataggact ggaacctttt ctgtttcgtc gagtacaggg gtccctagat ttttaaagtg 3720
acccttacta gtgggtcaca gaggttttgg agtcggtcgt aaagagataa gtgtcgacgt 3780
gacttctcga aggaaggacc gaacacagag gttttcccct atgctaccgt tccagacaaa 3840
taatgagagt ccgactacac cggcccctct acaccttaac acatcttacc ttacgctacc 3900
ttatacttta ccacacctta tgtacacttg aagtacggac gaagagtcca aagaaggtga 3960
aggggaaata caccctgttc tatcgacttc acccgacctc aacccaaaag aggaggaggt 4020
aaaccttccg acctcgaacg acctcaactc ataaagaaaa ggagtccagt caatccaaga 4080
ctattttggg atcacccaat ccgagaccaa tctgtcgaag gggactcccg tctggggtga 4140
gactcgtcgt tacggatctt tactaccaag aagtttaggt tcactattgg gtatcattga 4200
ttgagtaatc gaatcaagac ggcatttcag tcttgtttcg ttcctctttg tcttggagac 4260
gtcacttacc tccttaaaga ctcccagtga actttcgtct ttgagttctc ggggtaaagg 4320
ttaaaggatg ataacatgaa ctttatacct aaagtgtata aaccccatta gtgaagtagt 4380
catttcaacc ggaagcattc aatttttgtg agtttaaaat ctttgagtta caagacaccc 4440
aatgtttact gacgggtggt acgacacccc gtactgtggg aaaacattaa agactttatg 4500
cttcatgata aaaaagaaat tacgtaagag agaaaaatca aagaggtagg acactataca 4560
gacaggtttt cctgaagggt ttttggtgac ataccgtctt ttccaaaagt tttacgtact 4620
ctcttaatat cgtttctctt tattgagtgt gatttcaaaa attttataga ggcctgatac 4680
cgatccttga taatgatacc gattgttcac attaaagtcg taaaaccctc cggttccgtc 4740
cgtctaggga attcagatcc tcaaactctg gtcgaacccg ttacaccact ttggggggag 4800
acgtttttta tgttttatta atcgccccac accaccacgt gtggacacca gggtcgatga 4860
gtacctccga ttcctccctc ctagtgaact cgggccctcc gtctccaacg tcactcgatt 4920
ctaatacggt gacgtggggt cggaccctct gtctaagaca gagttttttt ttttttttta 4980
gagacctgat atttgagagt acttagatcg taataaacct agtctttata taagtatcct 5040
atctgacact actgtttatt tagtttaaac cctacggagt tgtgttcttt ataaaaatac 5100
atagtaatac attgtcaggt ccctccgact tttatctcac atacaacgtc cattctttaa 5160
aacgagacgt cagtaagtcc ttaacttcga ctatcactaa gacggtagaa cttgtacacc 5220
gtagcgacag acagacctcc cacggtagtg tcagtcgaaa cctgtcgtgg aacttacgat 5280
agtcccttcg atctcacaag aggacaagaa acgacaggaa cggtcacaga agaggacttg 5340
agtgtagtct tcgtacggtc attcgtccac catggtcgtc ccaagattgg gtccgtgagg 5400
ttaagattcc agttgaaaca atcacaatag attttttctt ttcgttatta tttaataggt 5460
gttcttttaa aatgttgagt tcaaaaagta tgagaaattt ttccgtaaaa aagtgtacat 5520
gagagtacaa gatactaatc tggattagta acagtgaagt gccgatctct ttgattctgg 5580
tcttctcgaa ggtctagaac tgatcgtggt gagttactca ccctactggt cttgggacat 5640
gactagtacg tttgaagtgg tgtattgtcg aacactataa ctcactcaac aaagtggata 5700
tgctggggag atttggttaa ataattagat cttttaccct tattatcgtt aaagatacat 5760
tattcaacaa cctcgtgttc tatttcaata tacatatttt gtaaatcgtg tcaaggacca 5820
cgtattgtcc agacatcatt tataaacaac attaatcgtc gttttagtag agggagtaat 5880
gacgtcaact aaaaggaaat aataaccttt ctttaaagag ttgactcaaa gtcaacttat 5940
gtcataatct aataaggaat tgactcaaag tcgtaaaatt tacatatgag ggatgagttt 6000
tgatggatga tttagtgcgg acattaaggt cgtgagaccg tccggttccg cccacctagt 6060
actccagtcc tctagttctg gtaggaccga ttgtgctact ttggggtaga gatgattttt 6120
tacgtttttt taatcggtcc gcaccaccga ccgtggacat cagggtcgat gaaccctccg 6180
actccgtcct cttaccacac ttgggccctc cgtctcgaac gtcacccggc tctagcacgg 6240
tgacgtggtg tcggacccgc tgtctcactc tgaggcagag tttttgtttg tttttttgtg 6300
tttttagatg gatgattttt cttcaagaag ttacgaatct gaaactcgtt tctttttcag 6360
acgagattgt ccttcgacca ctatatcttt ccatttcaaa gtgaagtgtc cgtgaaacta 6420
aagggaagct ccacctatga cttactaaac acacacgcgt gtaaaaagat acgtaataag 6480
ttttaatttt aaggaatctc ctttggtgac tttcggttag taaatgtttt gaaattttta 6540
ctgtagaact tctcaagaaa ccacgagtaa gtagtttgaa tcgttactaa attgacatta 6600
agaaataagt ctaagtagag ggtgttttat ttttacggta tttcgaaatg tcatgacata 6660
ggattactta tctctttgat ttctttttca ttctactcgt tcactctcct tttgggcttt 6720
tactcggaca ggaccgtaca aagatttttc tttctttgtt tgtttgttcg tcggggagga 6780
gagtcgagaa ccctttcttt ataacttaga actgttatag acgtgaagta tcaactaagt 6840
atcgtactgg atagagtttg ttaaattcta agtttacttc aaacgttaat tagaaagcta 6900
tagtgaaacg ttttgtaaga gtattggaat aggtcgggaa aatgtttagt taggacactc 6960
cacttgtagt gacacaaggg taaaatgtct ctttccgtga ctcggtgtct ctccaatata 7020
tgagtactag ttattcgacc attctgattc ttggtcctta ctatgacaga aggaagaggt 7080
ttataggaca agaaataata ctcatggatt tgtcataatt tttaattaat gtcgagttgt 7140
tatcattcat ttacaggagt acactttagg tggcaaattt tgaattccaa tagataaata 7200
gtttatttaa tttaggatga gtgaattgtt ataagtaact cgagtaagac atttgttggt 7260
aatccggtcc ccgtctatac tttatactcc gagttagaca ctagtgtctc tactttatat 7320
gttaaatctc tctctttcta ttcgtactac tgtttattta ttacatactt ttaatcggta 7380
atagaatccg gttgaaaaag attcgacatt cgacagacgg atgaagacgg tccacaatca 7440
ttaacaaaat ttttcacccc cttcttctca tgaagtacca cccttctata agtaactcct 7500
gtattcgtag aaggagaatc tttaattgtt acgtgtcacc ggataacgtt caaaactttc 7560
gggacgtttg ttattttcgg actaatcaaa aataacttag tcatagagga tttgtgaaaa 7620
agtactttgt tccaatgagt gtttagaaca gctccttgat tacaggatcc tttcaccaaa 7680
agttcgaact cgtacatgta ttcatagtaa cctttccaac gtttttatgt ttacacaccc 7740
gaggtgaggt ctttaagact aacttcacca gagtagacag tagactcttg aacgtaaaaa 7800
cagtctaagg atcgactaga ctacaaagtc ctgactcttg aattaaactc atcatagaga 7860
tgtcttgtca aaaattttac aagaggacct catcctacta atatgaattg tttttacatt 7920
atgtgagtcc actacctgtg ggaatcatag gactaaccta gtgatgtgta atatatgtac 7980
attgtgtaaa agagttcatg gggtatttaa acgtgtttat ttatttattt attttaatat 8040
gaaaagagtt tattttttta ttttatttac aaggagaact taccatctta gaaacaaaaa 8100
aacactatta gtatttatgt atatttataa gagtagtaat gtacgtacat caatggaagg 8160
aaatgtacta cgtggtcttt cttatgggtg agattcttcc tttcttactt ctcttcttcc 8220
gtaacaaatt ttctggataa taatcttatt cagtttaaga tacagatggt aataattcga 8280
caaactgaaa ctcgtcccta accttccgta aaatttaact ccacctctat acgtgtttcg 8340
gtgcaccctt tacagtacac agggacgtat ttctcttgtt cgataaaacg aaccaacctc 8400
tactcctctg tctccgacat gtattcttac acaagttaaa tttcgttgtt ttatatagct 8460
ggtttgatga aactcgttag ttcccctata taaccgagtg tagtgacttt atatatgacc 8520
gtgtcgtcta aaggtcaatc cagactagac gatcgagaca ggggaggtct tatgtccgag 8580
gtccgtccgt ccttccttct cctgtagtca agagaaccac agatcgtgcg acggacataa 8640
ttccatccag gagttattta agtacaacat cctttactta cgtacaagag tttctacgcc 8700
aatgaaagtc atagtgacga aaggagtacc aaaggtgaag ttataatcag attgaacgga 8760
atccctgggt tctaccgacg ataagtgaag ttaatcgatt tgtgaagaga aaagtaccga 8820
cactctctga tcgatggaga aggtatttac ttaaaagaga agaaagaccc gtgttatcag 8880
agataaaggg tcggagaaaa tgttaatcca cataggtacg ttgagtcaag atcggttacc 8940
gcacactcat catcactata ggtggtgaac gtctggatgt gtatttccga gggtctgtgt 9000
agaagacacg agaaatgacc ttgtgaacga actaaggtta tttatgtcgt tggaatcgtc 9060
gatgtataac gtcaaccgtc tcgaaagtac aaagtcgaag aagtataaaa aatcaaaaca 9120
acagtgacaa ccaaaaaaaa aattaactaa gtcctctact ggattatttt ttaacttctt 9180
tttatttcgt aaaacaagac ctaaagagta atccttgtac tccaaatgag ataacgttga 9240
ccgaatcaag tatactagta ggggactcca ctcccttttt ctacgcactt aactaattcg 9300
gttccagtgt accagcttta catcttaacc caaaactcca gtcaaaggga tttagtgggt 9360
ctataggttc acctttagtc cgaggtaact gttttccctt gtcaagaatc tttacgttga 9420
tgtttacagg ttagggtcaa ccgttcaagc ttcgttcctt cccgaaaggt aatttcttac 9480
acctacgatg gaccacccgt tgacctccgg tgaccgtata taaaaaaaac cccccccaaa 9540
gtatttgata accaaaaaaa ttaataataa tatgaaattc aaaatcccat gtacacgtgt 9600
tacacgtcca atcaatgtat acatatgcac acggtacgac cacacgacgt gggtaattga 9660
gtagtaaatc gtaatccata tagaggatta cgatagggag gggggagggg ggtggggtgt 9720
tgtcaggggt ctcacactac aaggggaagg acacaggtac acaaaagtaa caagtcaagg 9780
gtggatactc actcttgtac gccacaaacc aaaaacagga acgctatcaa atgactctta 9840
ctactaaagg ttaaagtagg tacagggatg tttcctgtac ttgagtagta aaaaataccg 9900
acgtatcata aggtaccaca tatacacggt gtaagagaat taggtcagat agtaacaacc 9960
tgtaaaccga accaaggttc agaaacgata acacttatca cggtgttatt tgtatgcata 10020
cgtacacaga aatatcgtcg tactaaatat caggaaaccc atatatgggt cattacccta 10080
ccgacccagt ttaccataaa gatcaagatc tagggactcc ttagcggtgt gactgaaggt 10140
gttaccaact tgatcaaatg tcagggtgat tgtcacattt tcacaaggat aaagaggtgt 10200
aggagagctc gtggacaaca aaggactgaa aaattactaa cggtaagatt gaccacactc 10260
taccatagag taacaccaaa actaaacgta aagagactac cggtcactac tactcgtaaa 10320
aaagtacaca aaaaaccgac gtatttacag aagaaaactc ttcacagaca agtacaggaa 10380
acgggtgaaa aactacccca acaaacaaaa aaagaacatt taaacaaact caagtaacat 10440
ctaagaccta taatcgggaa acagtctact catccaacac ttttaaaaga gggtaaaaca 10500
tccaacggac aagtgagact accatcaaag aaaacgacac gtcttcgaga agtcaaatta 10560
atctagggga aacagttaaa acagaaaaca acggtaacga aaaccacaaa atctgtactt 10620
caggaacggg tacggataca ggacttacca ttacggatcc aaaagaagat cccaaaaata 10680
ccaaaatcca gattgtaaat tcagaaatta ggtagaactt aattaaaaac atattccaca 10740
ttccttccct aggtcaaagt cgaaagaggt ataccgatcg gtcaaaaggg tcgtggtaaa 10800
taatttatcc cttaggaaag gggtaacgaa caaaaagagt ccaaacagtt tctagtctct 10860
caacatctat acaccgcaat aaagactccc gagacaagac aaggtaacta gatatagaga 10920
caaaaccatg gtcatggtac gacaaaccca atgacatcgg aacatcatat caaacttcag 10980
tccatcacac tacggaggtc gaaacaagaa aaccgaatcc taactgaacc actacgcccg 11040
agaaaaaacc acggtatact tgaaatttcg tcaaaaaagg ttaagacact tctttcagta 11100
accatcgaac tacccctacc gtaacttaga tatttaatgg aacccgtcat accggtaaaa 11160
gtgctataac taagaaggat gggtactcgt accttacaag aaggtaaaca aacataggag 11220
aaaataaagt aactcgtcac caaacatcaa gaggaacttc tcaaggaagt acagggaaca 11280
ttcaacctaa ggatccataa aataagagaa acttcgttaa cacttaccct caagtgagta 11340
ctaaaccgag agacaaacag acaacaacca catattctta cgaagactaa aaacatgtaa 11400
ctaaaaatat aggactctga aacgacttca acgaatagtc gaattcctct aaaacccgac 11460
tctgttaccc caaaagatct atatgtacag tagacgtttg tccctgttaa actaaaggag 11520
aaaaggatta acttatggga aataaaggaa gaggacggat taacgggacc ggtcttgaag 11580
gttgtggtac aacttatcct caccactctc tcccgtaggg acagaacacg gtcaaaagtt 11640
tcccttacga aggtcaaaaa cgggtaagtc atactataac cgacacccaa aaagtatcta 11700
ttgagaataa taaaactcta tgcagggtag ttatgaatta aataactctc aaaaaccgta 11760
cttctcaaca acttaaaaca gtttccggaa aagacgtaga taactctatt agtacaccaa 11820
aaacagaaac caagacaaat atacgaccta atgtaaataa ctaaacgaat ataacttggt 11880
cggaacgtag ggtccctact tcgggtgaac tagtaccacc tattcgaaaa actacacgac 11940
gacctaaacc aaactggtga ccgtataaaa ttcgtaccct cattgtgaca gtccaaaaaa 12000
tttaatgttt tacgaaatcg tatctctttt aatatttctt gttatattca ttgtctatac 12060
gtgagtgata ggacgaatta gtttacagtg tgaaacggtt cgaactaagt ttaaaaaatt 12120
tcgtttcttt gtaatgtcta taccgacgtt gtaggataca cggggtggcg actatgtatg 12180
gagagaaggg ttcccattgg tgaaagactg aaactatgaa tagtaagggt ccgtactaat 12240
ttacgataac gacttaaacg tatatatgta tttattatat atgtcaacaa acgtacaaga 12300
ttttgaaacg taatttatta tagtttatta atttttaaaa gtgtttaacg taaaaattga 12360
gtcagaaaat attctaacgg ttattactat agagaagtct agtaagtaaa actgataata 12420
taataaaaag taacatactg atacggtacc gagtgaatag gtaagacaat aactatttgt 12480
aaacacaaca aaggtgttaa aacgataatt ttattaccgt aacacttgta agaacacaca 12540
tatagtgaca catgtgtacg atctcaaaga gattacataa taccacatat aacgacccgg 12600
tttccgatac attcagaagt tgaagggatc tacagtatgg ttgagtatgt atatactggt 12660
cacactcgta agagtcacga gatgtaacag gtctaagatg tacttcgtga ccaccggata 12720
accagtccaa ctgactataa tcttccaata acggtttcag atacactctc tctgactccc 12780
agactttatg gatctacatt ccctatattt cactctctcc tttcttcaat tgtataaatc 12840
ctcgttttag gtgtactgaa acactaacta atacctcttt tattcctctt cttcccttgt 12900
ccttctgaga gttcagaggt ctaacttgtg ttctccttcg aatacacggc actctgacta 12960
ctgtttaagg aaaacttgta tcacggaaac tcccgaacca tcattttttc tttcgtgata 13020
ggtagtccgt aaacctataa atccagacct tctgactttt ctctagtttt gtcttttatg 13080
tttaatatct tagtagctct acccatttta gtcttctcaa cctagttctt ttcatggatc 13140
ttagtcatct cttcactcaa ttcttttata gagacccttt gtaattataa atttccatat 13200
attttccttc tcttctgaca cctcttctgt ctctgacttc ttcctctgtt ttacacagta 13260
tgacatcatc ggtctcctta tctcgaagtt tcttactcac cagttggtgt aatttgtgtc 13320
gatcttttgg ttcttccatt tctttacttt taatttgtaa ttgtatgtta cttcaataac 13380
tcaggtacaa ttttaccaaa gttaccttat cgtagttacc tttattaacg ttaatcattt 13440
tcttaaaatc tttttctttt ttaattatgt cgattgaaag agtttaattt aaaaaacttt 13500
tattttgtca ctctacctta agctcacgtt ctacaaacaa cttttagttg tgtgtacttt 13560
cctttctctc acttggattt ttttaaccga ggtctcagat aattacattt ctgatacaat 13620
ataacagaga gatagaaatc cctttgtata tgggttaagt agaacacagt ggtcttagtc 13680
taagtagttt gggtaagacc tggtgagact agtgatcaaa gtgggagtgt cagtatcatt 13740
tctttgattt cgttttctga tgttctcgtt tcctgtcttt ccctttacaa taaaagaggg 13800
gagtggaaac gggagaaact aaaagaggta acaacgattt tccttgtgaa tcttttgata 13860
ctttctttga agacggacat ttacgtcgag gtactaatac ttaagactta ggaacattgt 13920
cttcttggtt atcctgacta ggtactgaag ataatcatct ctgacccttc catccactga 13980
aatcgagtgg ttcggactag tgtcgtttta tcttttacta gtgtcacagg ggaaaaatag 14040
gaccccattg ttacttgtaa gtcaccctcg gttgatgaca taatttcagg acccacgtcg 14100
aggaccgtgt actgtaccgg gtgttccatc atcaagactc atgggaacgg atagtcacca 14160
cgaccccgct cttccctccc gtcggacgag tgatccctct cgtccttact ccgatccttc 14220
atgtccctgg accgtttcta cagaggacaa actctctctg aagtcaatta caagtcagtt 14280
gaaggacacc acgattcttc actttcaact tgaactgata gttccttgtc tccgtccaac 14340
aatcgacccg gggaccctcc ttcagttgtt cgaggtggtg tagactgttg tggatgacga 14400
acgtcgggaa gggggtccag tccgtcgacg tgtggagtac gaaggttgac tcccccttac 14460
ttacccatgg ttctcatcca ctcagatgaa gaaagggtcc ccactcatcg cccacttctt 14520
tagtcgtaca tcacctgtaa atgtacacgg cctatggagt atatacgtca caccatagta 14580
ataggagtga cacgtctact tctgtgactc cgagtccctg aacaagttct gtgtgtagac 14640
cagttatccc tcggtcctaa gttttagtgc agtcagatca tgagttcagg agacaagaaa 14700
ggtgctgatg taatctacat agggatctat cagatccaca ttgtcgtact cagagggtac 14760
tttccttcac ccccgagaac cttgtatgga gaaatccttc ggaaggtagt aacacgacgg 14820
aaggaggaga cacgtcggag tcgtgagtga caactcggga agagatcctc aaacgttaga 14880
tgcccctcac tacccgtgta ttcctttatt aaagttacat cataccgttt acgactcgat 14940
ctatttacgc gcttactgat acttcttgtc tcctaacccc agtggattga gttgtactct 15000
gagtaccttc agaggactcc tctttggaga ctcaggatct ctcactctta accggtcttt 15060
ttaattcttc cccgtccctt aaggtctctc ttcattgtcc atttgttttc gtttctccgt 15120
attctatcag acctcagacc agtttaatgt tagtcaacct tcatcatctc ttattttatg 15180
tttcacctct ctcccctctt catttcgact tatctatttg tcccagtcga atgtctccca 15240
ggatacgtcc gatttaaggt ctacgacgat atttttatgt cctttctttt gagtacttta 15300
taaaattcta aaaacacctt ataaaattct cgaaaacact tgtagagtac ttcgtgagga 15360
cacaaacctc cgtcgtgacc gtcgtttagt ttgtattatt ttccagacat gtagtttgta 15420
actgtgtaaa taagttgttc gtgtataact cgtggatgat acaccgtcct tgagagaagt 15480
agtcgttcat aaaaccgtga tttattttgt gtcttgtgtg gcgggagaaa ctttactgtt 15540
atttctttta ttcacttaat atataataga gtcgtctata acgtaccata tacctttcgt 15600
atagtccctt cccccacatt tcacagtact ctccttaatg ttataattat cctacaattc 15660
tgtcgaggat gacttcggta caaatttgtc tgtgaacctc ctctcctccc tcaaccgatt 15720
caactataaa ccccattccg taaggtcctt ccccctagtc ggtcaagttt cgggaccccc 15780
cacccccgac acgaaccgta taaactcctc accattcctc cggtcacacc gaccttgtct 15840
tactagtttc tttttccacc atcatttact ccagtctatt tgtcattctc tgttccctaa 15900
aaatccagta gatcttaaat ctaaaaaagg actctcccgt ctcctcggtg ctctttcgag 15960
actctactcc tactctacta gattaagtcc aaaattgacc tatcaagtct cgttctcacc 16020
cccgtccctt ggtcactcct ctgacaccgt tattagtgct tttcaccacg tcgccgaacc 16080
tggtccctca atcgtcacct tcgtctctct tcactgttgt gagacgtata ccctttccca 16140
cccgtcctct cttgtcacgg gttctactag gtcataaaac cggactcttc gacccctttt 16200
tctttgttgt tgttgttgta gtcaccttcc ccaaagtccc tcaggtccac aagaccaacg 16260
tcgaaacaaa acggaatttt tataaactca tgcattgatc attaccctaa cgacccaact 16320
taccattaag gcaaaaatca ggaaactctt taacggtgtc acgaaaggaa tcgtttgatt 16380
ccgtccttgt cttttggttt acggtgtaca agagtgaaca ttcaccctcg atttactatt 16440
cttgagtact tgtgtatctc cccttgttct ctatgactcc ggatggactc ccacctccaa 16500
ccctcctccc tctcctagtc ctttttattg attactcgtg atccgaatta tggacccact 16560
actttcatag acatattgtt tcaggacact gcactcaaag ggatccattg tttgaacgtg 16620
tacacgggga cttgaatttt attttgatat atgtatatat atgtataatc tttcttaata 16680
tgaaaactca aaattatcgt gtaaaagaca ttctaaaacg ttaaatttga agtgatataa 16740
aatatatttg ttaattctca actcaactgg aactataatg tataatgtct ataaaataat 16800
tgtagataat taaaaattaa taaactaaaa aagttttaaa gtttattata tggataaaaa 16860
gtctaaagtc cgtccggtaa cttttcgagg atcaagatta atgacaagga cattacgaaa 16920
tacttatatt gtcaggccgg aaaggagaat ctcaaacgtc agattccatc tctttatatt 16980
attttctttt acgtacttaa aaattgatta taccacaccc aagatttcga gtctatttaa 17040
taaagcaaat caagagtgtt gttgggagac tacgtccgtg ataataaagg gggtaaaatt 17100
attactcctt tgacttcgtg tctctcgaac caactgaacg ggttataatg gtgtgagaca 17160
caccgattcg accctaaact tggttctttt gagagaaggg tatccagcaa ctttttaata 17220
ctttccaatt cggtggagag acgaacacaa cggataaagg tggtacactc aggttacaca 17280
ccactgtctc ttcccatcta caaaccgtag acacttaaga cacctaacac acagtactaa 17340
gaaataaaga caggagacat aggacttaac ggtgatggga ctcgtccact attctcattt 17400
taaggtaatg taaccagaac tcccctaccc gtttgtgaaa cctgagagaa ctataagatc 17460
aataatttat aacgagtcgc attcaatctg ttacttactc tgaacaacta caaaagtaaa 17520
gttaaacaga atattactag acacgagttg tacattttgg ttatctacat tgtggaaacc 17580
ttataaagac tcatttgtac cccgtggttg agtttctcgt tctccatttt tacggatcac 17640
acctagtttt agatgagata ctgtccctta gagtacccga gacttcctaa gaccagtgta 17700
tccctcattt atcgtctgag agttaagtct cagtctacac tcaagtgtgc gttacaaaac 17760
cctgaagtag gacagaaaag ggacgagacc ctcagtattc ttaattcaag attaggatta 17820
agacaacaat agatggactc actgtgatta atctatatat tgaagagact ccgagctgta 17880
aatgtagatg tttatttctt ccgatcttat gatttcggag aagataaaga aggttaataa 17940
ctaacatagc cgagaatgag atatttacca aagaagataa aatcccttta attaataaaa 18000
caagaatacc acaacgacct ggacaacgaa aagtaacgac attaatgaag agaaacaact 18060
tctggaaacg gtctgcttta cactacccac atattccgag accgtaaaac gggtccagac 18120
atcgtgtatc ttaaggtgat tacccagacg acccgtagac tctggtgtct cggtaaacag 18180
tattgtactg ttaaggtcaa cccgtcccta tttacaatcg aaattgctaa aacctggtct 18240
caaacagatc tctctctcgt ctcatgtttc ggttttcgta gtagaaatct cgattcgtcc 18300
gtactcaagt ttagggttgg gtcggtgaat gatctataca tcggtgtcgg tggcggttca 18360
gagttaaatt tacagtgaaa gagtttgtcc ggaggatccc agagggtgca accgaatcag 18420
gtcttatgac caaataggaa tgccatattt taaataaggt agtaatacgt ggtcataaat 18480
tatttacgac tccttacacc ttgtttataa acaatttatt tttcactgaa ttaggaagag 18540
acagagtcag gagtgaagtc acttcacccg ttttcccatc ttgttcaaag gacacgtttt 18600
tcttagtcca gtttcacggg atctttatcg tttgtgacag tgttgggatc tatcgtacta 18660
atgttagact ttatttgatc aagtttttcg tttagagtct gagttcaccc cgaaaaagat 18720
caaatcttga acctcaatct tcttctttct tcccccgatt tcacacgacg cacagatcta 18780
cacggtccgt gacatgcatt atcttacagt gtgtaaatta taaacagatt ttcacacttt 18840
cacacttaaa ggtattctcc ctgtgtccaa gaaccatttt ggttccaaac gagattgaaa 18900
agtgtgtgaa accgtctgcc aaaacggaaa aagaggattc aaccttgaaa actccggtaa 18960
tgacggtcct cccttttcaa tcactacgaa tagatacaag tcttgatctt ttaccgggga 19020
agaccagggg tcaaaccggg gtaacaataa gtgtacgacg gatatttttc tgttttggag 19080
gtcttccacc ttttctactt atacgtctta cgatgtgtat ctatgagtac atccactcta 19140
ccgcttgtgt cgtctaaatc cagatggtta ttctatgatg gggtaaaccc tactgtgtgg 19200
aaggaatctt cactgtcacc gtcttgtatc tgtttccctg attaattttc atacacccaa 19260
gacgtctaac gtagacctca ttctcaggtc actagattta acatccggtt ccggagaacg 19320
aacgattgta ggagacagac ggagtcaaaa gaatggacgt tttacctagt gacttgtagt 19380
gtaaagagaa ataattaaat aagtaagtga cttcttcgtt cgacagtttt tcgttgacga 19440
tgtatacagt tctttctacg gtctacgatt ttattttatg tttttaaact aatgatgttt 19500
aacgatggta gctcctcagt atcagattac tttctctttt tgtactctca cttattactt 19560
cagtcgtttt tcaagttttc tttttattta ttttccgtat ctataatttt tacttcttca 19620
ttttgataga ataagtcttt cctatactaa tacatgcctc ttttagggtt tcttagatgt 19680
tgtagtctga gtagtcactt agatcgttct agtgacctat gtcaaatata tatttacaat 19740
agttattaac ataaagacac ggactgttgt tttttaactt ctgttgaaaa ttttgttgtt 19800
acaaatatta ctgtggcttt ttatagttta atcttcaagt acatttaaca tcaaaggttc 19860
tcgagggcga cctttaacct tcggtaacaa ctttatttaa tttcttctaa attcgtttac 19920
ctctctgaat ggtaccaata ccaagctttc tgagatgtaa cgattctacg ttaaatgagg 19980
ttttaacaga tgtctaagtt atgttaaagt caatttcaaa gactttgaaa gtaaacaaca 20040
acaacaaaaa ccttatctgt tcgactaaga cttcaaatat atgtttacgt ttcctgcatt 20100
ttgtcgattt cttttaaacg tcttctttct ttgattttct taatgtgaca gtctaaagct 20160
ctggatgatg tttcgatgct aataattgtg tcacgtataa ccatgttctt atccgtttat 20220
ctgatttctt tgtcttctgt ctcaggtctt tgacttgatg tgtatgtgct agtagactaa 20280
ataatgtttc cacggttccg ttaactcatc cttctcttgc tacaagatgc atttaccgtt 20340
ataactcata gacataccat tttttattta gaaccgatat acagtatatt atacctgttt 20400
aattaatgtt tacatcatat gtggtttaca ctttccattt tgttttattg tacaattttt 20460
ttcatatcat agaatggaac cctatcgtct ataaagaatt tgtcctgtgt tcttcacttt 20520
tccgttcggt gtcggagtga aaacagaagg agtacggaag agaagatcac accgagtcac 20580
gaatcacgtc ctctttggtc attgggactt aacgtcgaga aggaagagtg atgtacttaa 20640
gttaaaggag tagacagttt actcatatgg ttaagtatag agctttcgac aacgacactc 20700
ttagtctatt cgtattggag tgtcgaatac agataatctt gtcgtgaacc gtgtaccatt 20760
tgtgaggttt cataaacaat ttacttactt atctaatttt ccaccgtaca aaacatgatt 20820
tgacaagtta ctatcacatt ttggtaaacc agtattacgc ctttcccttc attccgcctt 20880
aaggaaatta gacacaaaat gcgtccaagg tttcctcgca ccacctctct tcctacgtct 20940
atcagaccca ctctcgatct ccgacctcag tcgtccttcc tgactccggc aaccacgaac 21000
ccctcactcc cgaggaaaga cgagacagga tccgattcaa ggggtgggta aggaagaact 21060
ctagatggag tttgtgttta gggagttaac tggtgtcccc cgcggggaag atacttaaac 21120
cgcgactatc gacactagac gggtcgtgtc accccttttg tgttttaaat gtctagtccg 21180
tacaggcccg agtctaagga tgaggtcgtg gaccaccggt tccctggggt tgacaattta 21240
tccgtaccac tacggacgaa aggttcggac aaccctttct ctctcccctc gcccctcctt 21300
accctctctc tctctctgac tcgttcgtac ggttctgaat tatatgaata taaatataat 21360
tttctttatt tatagtctac taatgttaaa ccaacttgat tctatgtgtc atcttatacc 21420
ttgattatag gttatagtgt ttcataagat cgctcggaag gatgtctttc ttaacaccca 21480
ccgacccctc atccgtaatc gatgatacac tcacgtctct tatgagtcgg aagaaggtct 21540
accactcgat ttcaagtttc tagttcagtg catgtgtgga agaaagagta gggtccagga 21600
tcagacgaac ttaagtttac cggtaggtgt ggaacggact ttatgaacgt tattaattct 21660
atgccgaaag acggacgaac cccaaaccag gtgttaaggg aattctccgg agtaaagtta 21720
atcctgagtg tgtagggaag ttgtcattaa aacacagtcc gaaccaatcg ttgagttccg 21780
agttcgtatt taccctgtct taagaaaagg aaaactttga gtggttatat cactaacatc 21840
gttgatcgat gtaacaaaaa caaaaaaaaa agggggagtt aagattcgtg atacgtttcc 21900
gaaatttcgt caccagggtt cggaaaaacc gtggtccctg gtcaaaacac cttctgttaa 21960
aacacttttc tgttttacac cttctggcac ctgaccctac caaaccccta ctaagttcgt 22020
gtaatgtaaa caacacgtga cacaaagata ataataatgt aacataatat attactttat 22080
taatatgttg agtggtatta catcttagtc accttcggga ctcgaacaaa ggacgttgat 22140
ctgtgagggt agatccccac taccctctgc cactgtccag taatccgtaa tctaagagta 22200
ttcctcgcgt gttggatcta gggagcgtac acgtcaagta ctgtcccaaa cacgacgata 22260
ctcttaaatt acggtgacga ctagactgtc ctccacctcg agtccgtcat tccactcgtt 22320
acccctcgtc gacatttatt gcgactagag tgagtgggtg acgagtggag gacgacacac 22380
cgggtcaagg attgtccggt gttttaccat ggacagacac aggggtccca acccctggtg 22440
acggaatttc cggaagtaga gtaagtcaaa agtagtttta agacacacca tccatgagag 22500
taatctgggt aaaataccca ttccttgact ccattttaac caatatattg aacggatttt 22560
attcagttca gagactactc tcccggtcct aagttcaagt tcgtcagact gaggttttag 22620
agtttcgtga agacaccatc ctttctcttt acttacctta ccgtatctca gtagatttac 22680
tgacgtcatc cttccctcgt aaagggcaca cgtcacaata aaaaaggccc gaaactttct 22740
atttatcctc gtacgtcaat tttttctctc ctcttccgta agatccgtct ttccggtcac 22800
gaatgtgtct tagagtctta acattgtcaa ggataatgtg ggaccgtctc actacggttc 22860
cgacaataac agttcgtggg aggacggagg gtcaccccaa ctcttcccca cttccctgtg 22920
accgtcttca cttcgaccct tcaaacgtga acgatcaacc ctgaacgtat cggtagaaga 22980
gttacggttt ctcctggagt cagagacaca cgcgaaacaa aaaacaacaa caacaacaac 23040
aactaaacac cgggtccgat ctcacgccac cacactagag acgagtgacg ttggaggtag 23100
agggtccaag ttccctaaga ggacggaggt ctgagggttc atcgaaccta atgtccgcgg 23160
gcggtggtgt ggacctatta aaaatatgaa aatcatcccc acctcaaagt ggcacaaccg 23220
gtccgaccag acacacacga aacctaaact ctgtgagact actaaatctc aacttttacc 23280
ctcatctaac ccactaagag atcaatagta caaatcagtt tagtctaggc acgtaagttt 23340
tagtattccg ttcaaaagga cacaccgagt cattgtagga atttctttat caagactaca 23400
ggtaggccac aaaaaagtct ttctcgcagt cccaactgtc atcgacacta cgaggtctac 23460
ctcgacgcct attgtcgtat attcaaagtc ccgtcaccaa ctccccgaca ccctcccacc 23520
cctcccttct acctactgaa aagagttggt agacataaac taaccttata acacactgaa 23580
cactttatct taatttctat actagaagaa taccagaaga gtgtcaaaag ttccctaaaa 23640
tcctcttttg cgaatcggta tgtctcgggt tggaccattc accgtcccga ccggtccagt 23700
cacgttgaag tttcagctac aacagtcact tacgaggtct acctaacgtc tcttctggtt 23760
tcaagtacag agccgtggaa agggttacat gtcccgaata acaaccctgt ctcatcacgg 23820
accggatctt caatttgtaa gtaggtcgat cgataattcc gaacttacgg aagtttcttg 23880
tcgtacctaa aaagacactt agcactcgca aaagcgttac gaattgtgcc gtcgaccatt 23940
actactaacg aggacaaagg gaaacttaaa gcacaagcaa atgaattgtc ccgtaacgat 24000
tagatcttct tccctcaccc acttcttagg gtaaacattt ctcctatcgt ccaattactt 24060
ttcttcgtct ccatacgcat ccactatcac aaagatgttc cgagccaagt taaccatact 24120
aaatttccgt tcggaaccga ccgaccagta ttattcccgg tgtattacct cccctaaatg 24180
caccgttaat ggtaccagga acgatcaccc tatgttacaa aatcccgagg gacctatgaa 24240
ttctaattac agacttagtc atcacaataa caacgttcta gaatcacact accctcggta 24300
cactccgtgc ttaaaaatag ggaatagtct tacattttat agagtatcag acgttcttgt 24360
ggtcactgat accggacttc aacgggattc tgtcaaattt gtaggacaac taacaaaaca 24420
aaaaaaaagg aaaaggaacc gttggtctta cgtacttact cagatcgcaa tgaaaacaag 24480
taggtccatt atactaactt tacccttaat atgtacaagt tagtaaatct cttcttcctg 24540
atttttagta tctggatatc gtttaattta ctaatatctc ttagatggta catttactga 24600
cgttaattcc tgaagaagta catggggccc ggtctaagtg tcgtagaccc tgtttgagag 24660
gtaccaaaaa gggagccaca taaataattc ttactactag gacttgaagt tcctctgaac 24720
cccttaaaaa cctaaggacg gtccatacat ggaccggttc taattaaacc acttagtctt 24780
caagggtcct tggtatagta ctcatgattc tcttgtttaa ctaaatagat catcatacaa 24840
agaggttgaa tctatagaca cgtttttttc acgtcgcctg taccacgtgt aaggttcttc 24900
aagaggaggt tccttcacca gttttataca ttacgaataa ataataggta aaactctggg 24960
tttaataggt cagtcaccct agttatggaa tgaggagaag gggtcttcgg agtgtttatt 25020
tcagaattgt ggtagagttg tttttattct atccctggat ctgtacctct tataccgaca 25080
gagtacctaa gattcgttag tccatctcat aactctttac aataactttg tccttcaagg 25140
acgatttcca caaccaccct aaccctacgg tcacgtctca ctgtgtcata aacctgttct 25200
tgtgtattgt gctttcacag acttaggaca agaacagata ttaccgtaga acggtaattt 25260
aggaa 25265
<210> 3
<211> 465
<212> DNA
<213> Homo sapiens
<400> 3
gaaaatcggg acagacaccg aagtcttatt aaaggttgcg ttggtaggtt taaaactggg 60
tgtcgcacaa tgtaaaccgt aacgccactg agtcaaggag tagaaatcac atgaggaagt 120
agttccaaag attgtcgggt caagacagga ccgaaaagaa ggacgttgac aaaagtcgaa 180
cccactcagt gaaaagagag acctggaggt aaaagagtgg gtgtagtgtc aggtcactcc 240
cgaagagagg taggattttg aaagggggac cttgagttca gagagataca acggacgttt 300
taatcgaagt cagggtatat gaaccgggct aatgggtgtc tttcatgtcg ttcgtagtag 360
taggtgtatc ccagaggttt taaccgaaag gaccttggta agtgttccgg taaagtcagt 420
ttcggggttg gaccattcac cgtcccgacc ggtccagtca cgttg 465
<210> 4
<211> 8066
<212> DNA
<213> Homo sapiens
<400> 4
agatttatac atatgtgtgt gtctgtgttt ctaggttatc gtaaatggag ttttgaaatc 60
gatactttat cgttatcttt gagtggtcaa atgtttgtcc aagtgtaccg atttgataaa 120
aacggggtta tgtattagtt tacttccgac acttggtttt aaaccccatc tcgtcaagag 180
taccgtcaaa cgaaaaattt ccggtatgga agggtctacg gtttctcgtg atccaggtct 240
atcgtggtgt ctttttgtag tagatattgg atgattagtc cgggttggga cgaatcttgt 300
cgtcgcatcc tcagactgat gtaccttaaa gtagaacgga agagtaagtt gtcgtttgag 360
gtctagggtt tcttatgacc ccggtccggt tcacgtcacc gattgtggac gttagagtcg 420
tgaaactctc cgactacacc ctcctggtga actcaggttc tcaatctctg gtcggacccg 480
ttgtactacc cttgaataga gaggttttta attttttttt ttttcgatcc gtactaccgt 540
acatggaaat gaggatcgat gaaccctccg actcgaccct cctagggaac tcgggtcgtc 600
aaggtccgat gtcactcggt actactgtga taacgtgagg tcggacccgt tgtcgcattc 660
taggacagag accggttttt tcccagaccg tggacgaatc ctcccgaagg ttttgaaaaa 720
gtcggagaaa tccttcggaa ggtagtaaca cgacggaagg aggagacacg tcggagtcgt 780
gagtgacaac tcgggaagag atcctcaaac gttagatgcc cctcactacc cgtgtattcc 840
tttattaaag ttacatcata ccgtttacga ctcgatctat ttacgcgctt actgatactt 900
cttgtctcct aaccccagtg gattgagttg tactctgagt accttcagag gactcctctt 960
tggagactca ggatctctca ctcttaaccg gtctttttaa ttcttccccg tcccttaagg 1020
tctctcttca ttgtccattt gttttcgttt ctccgtattc tatcagacct cagaccagtt 1080
taatgttagt caaccttcat catctcttat tttatgtttc acctctctcc cctcttcatt 1140
tcgacttatc tatttgtccc agtcgaatgt ctcccaggat acgtccgatt taaggtctac 1200
gacgatattt ttatgtcctt tcttttgagt actttataaa attctaaaaa caccttataa 1260
aattctcgaa aacacttgta gagtacttcg tgaggacaca aacctccgtc gtgaccgtcg 1320
tttagtttgt attattttcc agacatgtag tttgtaactg tgtaaataag ttgttcgtgt 1380
ataactcgtg gatgatacac cgtccttgag agaagtagtc gttcataaaa ccgtgattta 1440
ttttgtgtct tgtgtggcgg gagaaacttt actgttattt cttttattca cttaatatat 1500
aatagagtcg tctataacgt accatatacc tttcgtatag tcccttcccc cacatttcac 1560
agtactctcc ttaatgttat aattatccta caattctgtc gaggatgact tcggtacaaa 1620
tttgtctgtg aacctcctct cctccctcaa ccgattcaac tataaacccc attccgtaag 1680
gtccttcccc ctagtcggtc aagtttcggg accccccacc cccgacacga accgtataaa 1740
ctcctcacca ttcctccggt cacaccgacc ttgtcttact agtttctttt tccaccatca 1800
tttactccag tctatttgtc attctctgtt ccctaaaaat ccagtagatc ttaaatctaa 1860
aaaaggactc tcccgtctcc tcggtgctct ttcgagactc tactcctact ctactagatt 1920
aagtccaaaa ttgacctatc aagtctcgtt ctcacccccg tcccttggtc actcctctga 1980
caccgttatt agtgcttttc accacgtcgc cgaacctggt ccctcaatcg tcaccttcgt 2040
ctctcttcac tgttgtgaga cgtataccct ttcccacccg tcctctcttg tcacgggttc 2100
tactaggtca taaaaccgga ctcttcgacc cctttttctt tgttgttgtt gttgtagtca 2160
ccttccccaa agtccctcag gtccacaaga ccaacgtcga aacaaaacgg aatttttata 2220
aactcatgca ttgatcatta ccctaacgac ccaacttacc attaaggcaa aaatcaggaa 2280
actctttaac ggtgtcacga aaggaatcgt ttgattccgt ccttgtcttt tggtttacgg 2340
tgtacaagag tgaacattca ccctcgattt actattcttg agtacttgtg tatctcccct 2400
tgttctctat gactccggat ggactcccac ctccaaccct cctccctctc ctagtccttt 2460
ttattgatta ctcgtgatcc gaattatgga cccactactt tcatagacat attgtttcag 2520
gacactgcac tcaaagggat ccattgtttg aacgtgtaca cggggacttg aattttattt 2580
tgatatatgt atatatatgt ataatctttc ttaatatgaa aactcaaaat tatcgtgtaa 2640
aagacattct aaaacgttaa atttgaagtg atataaaata tatttgttaa ttctcaactc 2700
aactggaact ataatgtata atgtctataa aataattgta gataattaaa aattaataaa 2760
ctaaaaaagt tttaaagttt attatatgga taaaaagtct aaagtccgtc cggtaacttt 2820
tcgaggatca agattaatga caaggacatt acgaaatact tatattgtca ggccggaaag 2880
gagaatctca aacgtcagat tccatctctt tatattattt tcttttacgt acttaaaaat 2940
tgattatacc acacccaaga tttcgagtct atttaataaa gcaaatcaag agtgttgttg 3000
ggagactacg tccgtgataa taaagggggt aaaattatta ctcctttgac ttcgtgtctc 3060
tcgaaccaac tgaacgggtt ataatggtgt gagacacacc gattcgaccc taaacttggt 3120
tcttttgaga gaagggtatc cagcaacttt ttaatacttt ccaattcggt ggagagacga 3180
acacaacgga taaaggtggt acactcaggt tacacaccac tgtctcttcc catctacaaa 3240
ccgtagacac ttaagacacc taacacacag tactaagaaa taaagacagg agacatagga 3300
cttaacggtg atgggactcg tccactattc tcattttaag gtaatgtaac cagaactccc 3360
ctacccgttt gtgaaacctg agagaactat aagatcaata atttataacg agtcgcattc 3420
aatctgttac ttactctgaa caactacaaa agtaaagtta aacagaatat tactagacac 3480
gagttgtaca ttttggttat ctacattgtg gaaaccttat aaagactcat ttgtaccccg 3540
tggttgagtt tctcgttctc catttttacg gatcacacct agttttagat gagatactgt 3600
cccttagagt acccgagact tcctaagacc agtgtatccc tcatttatcg tctgagagtt 3660
aagtctcagt ctacactcaa gtgtgcgtta caaaaccctg aagtaggaca gaaaagggac 3720
gagaccctca gtattcttaa ttcaagatta ggattaagac aacaatagat ggactcactg 3780
tgattaatct atatattgaa gagactccga gctgtaaatg tagatgttta tttcttccga 3840
tcttatgatt tcggagaaga taaagaaggt taataactaa catagccgag aatgagatat 3900
ttaccaaaga agataaaatc cctttaatta ataaaacaag aataccacaa cgacctggac 3960
aacgaaaagt aacgacatta atgaagagaa acaacttctg gaaacggtct gctttacact 4020
acccacatat tccgagaccg taaaacgggt ccagacatcg tgtatcttaa ggtgattacc 4080
cagacgaccc gtagactctg gtgtctcggt aaacagtatt gtactgttaa ggtcaacccg 4140
tccctattta caatcgaaat tgctaaaacc tggtctcaaa cagatctctc tctcgtctca 4200
tgtttcggtt ttcgtagtag aaatctcgat tcgtccgtac tcaagtttag ggttgggtcg 4260
gtgaatgatc tatacatcgg tgtcggtggc ggttcagagt taaatttaca gtgaaagagt 4320
ttgtccggag gatcccagag ggtgcaaccg aatcaggtct tatgaccaaa taggaatgcc 4380
atattttaaa taaggtagta atacgtggtc ataaattatt tacgactcct tacaccttgt 4440
ttataaacaa tttatttttc actgaattag gaagagacag agtcaggagt gaagtcactt 4500
cacccgtttt cccatcttgt tcaaaggaca cgtttttctt agtccagttt cacgggatct 4560
ttatcgtttg tgacagtgtt gggatctatc gtactaatgt tagactttat ttgatcaagt 4620
ttttcgttta gagtctgagt tcaccccgaa aaagatcaaa tcttgaacct caatcttctt 4680
ctttcttccc ccgatttcac acgacgcaca gatctacacg gtccgtgaca tgcattatct 4740
tacagtgtgt aaattataaa cagattttca cactttcaca cttaaaggta ttctccctgt 4800
gtccaagaac cattttggtt ccaaacgaga ttgaaaagtg tgtgaaaccg tctgccaaaa 4860
cggaaaaaga ggattcaacc ttgaaaactc cggtaatgac ggtcctccct tttcaatcac 4920
tacgaataga tacaagtctt gatcttttac cggggaagac caggggtcaa accggggtaa 4980
caataagtgt acgacggata tttttctgtt ttggaggtct tccacctttt ctacttatac 5040
gtcttacgat gtgtatctat gagtacatcc actctaccgc ttgtgtcgtc taaatccaga 5100
tggttattct atgatggggt aaaccctact gtgtggaagg aatcttcact gtcaccgtct 5160
tgtatctgtt tccctgatta attttcatac acccaagacg tctaacgtag acctcattct 5220
caggtcacta gatttaacat ccggttccgg agaacgaacg attgtaggag acagacggag 5280
tcaaaagaat ggacgtttta cctagtgact tgtagtgtaa agagaaataa ttaaataagt 5340
aagtgacttc ttcgttcgac agtttttcgt tgacgatgta tacagttctt tctacggtct 5400
acgattttat tttatgtttt taaactaatg atgtttaacg atggtagctc ctcagtatca 5460
gattactttc tctttttgta ctctcactta ttacttcagt cgtttttcaa gttttctttt 5520
tatttatttt ccgtatctat aatttttact tcttcatttt gatagaataa gtctttccta 5580
tactaataca tgcctctttt agggtttctt agatgttgta gtctgagtag tcacttagat 5640
cgttctagtg acctatgtca aatatatatt tacaatagtt attaacataa agacacggac 5700
tgttgttttt taacttctgt tgaaaatttt gttgttacaa atattactgt ggctttttat 5760
agtttaatct tcaagtacat ttaacatcaa aggttctcga gggcgacctt taaccttcgg 5820
taacaacttt atttaatttc ttctaaattc gtttacctct ctgaatggta ccaataccaa 5880
gctttctgag atgtaacgat tctacgttaa atgaggtttt aacagatgtc taagttatgt 5940
taaagtcaat ttcaaagact ttgaaagtaa acaacaacaa caaaaacctt atctgttcga 6000
ctaagacttc aaatatatgt ttacgtttcc tgcattttgt cgatttcttt taaacgtctt 6060
ctttctttga ttttcttaat gtgacagtct aaagctctgg atgatgtttc gatgctaata 6120
attgtgtcac gtataaccat gttcttatcc gtttatctga tttctttgtc ttctgtctca 6180
ggtctttgac ttgatgtgta tgtgctagta gactaaataa tgtttccacg gttccgttaa 6240
ctcatccttc tcttgctaca agatgcattt accgttataa ctcatagaca taccattttt 6300
tatttagaac cgatatacag tatattatac ctgtttaatt aatgtttaca tcatatgtgg 6360
tttacacttt ccattttgtt ttattgtaca atttttttca tatcatagaa tggaacccta 6420
tcgtctataa agaatttgtc ctgtgttctt cacttttccg ttcggtgtcg ggttggacca 6480
ttcaccgtcc cgaccggtcc agtcacgttg aagtttcagc tacaacagtc acttacgagg 6540
tctacctaac gtctcttctg gtttcaagta cagagccgtg gaaagggtta catgtcccga 6600
ataacaaccc tgtctcatca cggaccggat cttcaatttg taagtaggtc gatcgataat 6660
tccgaactta cggaagtttc ttgtcgtacc taaaaagaca cttagcactc gcaaaagcgt 6720
tacgaattgt gccgtcgacc attactacta acgaggacaa agggaaactt aaagcacaag 6780
caaatgaatt gtcccgtaac gattagatct tcttccctca cccacttctt agggtaaaca 6840
tttctcctat cgtccaatta cttttcttcg tctccatacg catccactat cacaaagatg 6900
ttccgagcca agttaccata ctaaatttcc gttcggaacc gaccgaccag tattattccc 6960
ggtgtattac ctcccctaaa tgcaccgtta atggtaccag gaacgatcac cctatgttac 7020
aaaatcccga gggacctatg aattctaatt acagacttag tcatcacaat aacaacgttc 7080
tagaatcaca ctaccctcgg tacactccgt gcttaaaaat agggaatagt cttacatttt 7140
atagagtatc agacgttctt gtggtcactg ataccggact tcaacgggat tctgtcaaat 7200
ttgtaggaca actaacaaaa caaaaaaaag gaaaaggaac cgttggtctt acgtacttac 7260
tcagatcgca atgaaaacaa gtaggtccat tatactaact ttacccttaa tatgtacaag 7320
ttagtaaatc tcttcttcct gatttttagt atctggatat cgtttaattt actaatatct 7380
cttagatggt acatttactg acgttaattc ctgaagaagt acatggggcc cggtctaagt 7440
gtcgtagacc ctgtttgaga ggtaccaaaa agggagccac ataaataatt cttactacta 7500
ggacttgaag ttcctctgaa ccccttaaaa acctaaggac ggtccataca tggaccggtt 7560
ctaattaaac cacttagtct tcaagggtcc ttggtatagt actcatgatt ctcttgttta 7620
actaaataga tcatcataca aagaggttga atctatagac acgttttttt cacgtcgcct 7680
gtaccacgtg taaggttctt caagaggagg ttccttcacc agttttatac attacgaata 7740
aataataggt aaaactctgg gtttaatagg tcagtcaccc tagttatgga atgaggagaa 7800
ggggtcttcg gagtgtttat ttcagaattg tggtagagtt gtttttattc tatccctgga 7860
tctgtacctc ttataccgac agagtaccta agattcgtta gtccatctca taactcttta 7920
caataacttt gtccttcaag gacgatttcc acaaccaccc taaccctacg gtcacgtctc 7980
actgtgtcat aaacctgttc ttgtgtattg tgctttcaca gacttaggac aagaacagat 8040
attaccgtag aacggtaatt taggaa 8066
<210> 5
<211> 1824
<212> DNA
<213> Homo sapiens
<400> 5
ttctatcact caccgttttg gatcgtactt cgggtctcat acaccgagac gcaatcataa 60
agagtgtcgg gtgacattac tgacagtcca acgaaaattc taatactttc aggatataac 120
ttaacagtaa gcttaactct ggaacttcag acttctgcct taatgaaccc ttcttcgtag 180
tgtcatagaa tcttctcaca gggaggtact tcgtctaaac cccagagtaa ggcaaagaca 240
tgaatgtcat tacctggtac aatccgttca gtaaattgtg taaacctggg gtcgaaggtt 300
tagatatgtt accttccata ttaacctctc tcatatttcg gaaatcacgg gtgaaatgaa 360
ctctctaaaa gtctcgtcag ttactctgaa atctttattt tcacttgaat tttgtatttc 420
acgaaatatt tggggtcgta acggacttcg ggactctaac gaactaccgg gtaacgcata 480
taagtgtccg tgacggggtt gaccgggaat gatgttgaga tctttactgt ccgtaagtaa 540
gaaggttagg tgtctactcc gttgatgctt cacaataaaa attggggagt aaaaaattcc 600
tctttttgac tcgaactcgt gtaatttttt acaccgggtc tcagttatac catatacaac 660
tggaacctta agctcttttc agaagacagt gttctcgtct tcggtgtttg agtttatgaa 720
aatcccaata caatggttaa caccttgtgt acacgtactt tactcgactc attctacggt 780
ttactggacc ataacctctc cgttatccct caccaccccg gacatcgttt gatctctctc 840
gtaccgagtc aattttctct caccgtcgtt gagttgaggt cggttaacaa cggtatgtta 900
taattcgggt ccctaaagtc ttgaagatcg atctttttat ctccgatcta tacatataag 960
gacaagtttt aacggagtta atcttctata atcgttcatt aagtttacgt tatgtgaaaa 1020
cataatagtg atatgaccag gtggattatt cccctgtcaa acgaaggacg agagtgtttc 1080
acaaagtctg attcaatact ggtgaattca tacgtttctg ttttgtcaca tagtcattac 1140
gtcactaaca ctcgtacatg aagtctttgt ttactagacc caagtttagg accacaactg 1200
taattcatca aattattgga gcccgttcag tgaactgaag agatatggag tcaaagggat 1260
agacatttta ccttcattat tctcatgaat gaggaaagtc accaacactg atagtttact 1320
taactgtatc cattttgtta atcttgtcaa ggactgtgtg ccattctcag tacatttata 1380
gttacgaata ctttcgagag tagggtccta ttcgtagagg atcttttgta gaagcaggta 1440
catggtctaa ttagtataaa taagacgtca actataaata cggtgtacaa gaaagaccca 1500
tctcttcgga cttcaataag acaaatagga ctggaacctt ttctgtttcg tcgagtacag 1560
gggtccctag atttttaaag tgacccttac tagtgggtca cagaggtttt ggagtcggtc 1620
gtaaagagat aagtgtcgac gtgacttctc gaaggaagga ccgaacacag aggttttccc 1680
ctatgctacc gttccaacaa ataatgagag tccgactaca ccggcccctc tacaccttaa 1740
cacatcttac cttacgctac cttatacttt accacacctt atgtggttgg accattcacc 1800
gtcccgaccg gtccagtcac gttg 1824
<210> 6
<211> 11053
<212> DNA
<213> Homo sapiens
<400> 6
actgtttatt tagtttaaac cctacggagt tgtgttcttt ataaaaatac atagtaatac 60
attgtcaggt ccctccgact tttatctcac atacaacgtc cattctttaa aacgagacgt 120
cagtaagtcc ttaacttcga ctatcactaa gacggtagaa cttgtacacc gtagcgacag 180
acagacctcc cacggtagtg tcagtcaaac ctgtcgtgga acttacgata gtcccttcga 240
tctcacaaga ggacaagaaa cgacaggaac ggtcacagaa gaggacttga gtgtagtctt 300
cgtacgtcat tcgtccacca tggtcgtccc aagattgggt ccgtgaggtt aagattccag 360
ttgaaacaat cacaatagat tttttctttt cgttattatt taataggtgt tcttttaaaa 420
tgttgagttc aaaaagtatg agaaattttt ccgtaaaaaa gtgtacatga gagtacaaga 480
tactaatctg gattagtaac agtgaagtgc cgatctcttt gattctggtc ttctcgaagg 540
tctagaactg atcgtggtga gttactcacc ctactggtct tgggacatga ctagtacgtt 600
tgaagtggtg tattgtcgaa cactataact cactcaacaa agtggatatg ctggggagat 660
ttggttaaat aattagatct tttaccctta ttatcgttaa agatacatta ttcaacaacc 720
tcgtgttcta tttcaatata catattttgt aaatcgtgtc aaggaccacg tattgtccag 780
acatcattta taaacaacat taatcgtcgt tttagtagag ggagtaatga cgtcaactaa 840
aaggaaataa taacctttct ttaaagagtt gactcaaagt caacttatgt cataatctaa 900
taaggaattg actcaaagtc gtaaaattta catatgaggg atgagttttg atggatgatt 960
tagtgcggac attaaggtcg tgagaccgtc cggttccgcc cacctagtac tccagtcctc 1020
tagttctggt aggaccgatt gtgctacttt ggggtagaga tgatttttta cgttttttta 1080
atcggtccgc accaccgacc gtggacatca gggtcgatga accctccgac tccgtcctct 1140
taccacactt gggccctccg tctcgaacgt cacccggctc tagcacggtg acgtggtgtc 1200
ggacccgctg tctcactctg aggcagagtt tttgtttgtt tttttgtgtt tttagatgga 1260
tgatttttct tcaagaagtt acgaatctga aactcgtttc tttttcagac gagattgtcc 1320
ttcgaccact atatctttcc atttcaaagt gaagtgtccg tgaaactaaa gggaagctcc 1380
acctatgact tactaaacac acacgcgtgt aaaaagatac gtaataagtt ttaattttaa 1440
ggaatctcct ttggtgactt tcggttagta aatgttttga aatttttact gtagaacttc 1500
tcaagaaacc acgagtaagt agtttgaatc gttactaaat tgacattaag aaataagtct 1560
aagtagaggg tgttttattt ttacggtatt tcgaaatgtc atgacatagg attacttatc 1620
tctttgattt ctttttcatt ctactcgttc actctccttt tgggctttta ctcggacagg 1680
accgtacaaa gatttttctt tctttgtttg tttgttcgtc ggggaggaga gtcgagaacc 1740
ctttctttat aacttagaac tgttatagac gtgaagtatc aactaagtat cgtactggat 1800
agagtttgtt aaattctaag tttacttcaa acgttaatta gaaagctata gtgaaacgtt 1860
ttgtaagagt attggaatag gtcgggaaaa tgtttagtta ggacactcca cttgtagtga 1920
cacaagggta aaatgtctct ttccgtgact cggtgtctct ccaatatatg agtactagtt 1980
attcgaccat tctgattctt ggtccttact atgacagaag gaagaggttt ataggacaag 2040
aaataatact catggatttg tcataatttt taattaatgt cgagttgtta tcattcattt 2100
acaggagtac actttaggtg gcaaattttg aattccaata gataaatagt ttatttaatt 2160
taggatgagt gaattgttat aagtaactcg agtaagacat ttgttggtaa tccggtcccc 2220
gtctatactt tatactccga gttagacact agtgtctcta ctttatatgt taaatctctc 2280
tctttctatt cgtactactg tttatttatt acatactttt aatcggtaat agaatccggt 2340
tgaaaaagat tcgacattcg acagacggat gaagacggtc cacaatcatt aacaaaattt 2400
ttcaccccct tcttctcatg aagtaccacc cttctataag taactcctgt attcgtagaa 2460
ggagaatctt taattgttac gtgtcaccgg ataacgttca aaactttcgg gacgtttgtt 2520
attttcggac taatcaaaaa taacttagtc atagaggatt tgtgaaaaag tactttgttc 2580
caatgagtgt ttagaacagc tccttgatta caggatcctt tcaccaaaag ttcgaactcg 2640
tacatgtatt catagtaacc tttccaacgt ttttatgttt acacacccga ggtgaggtct 2700
ttaagactaa cttcaccaga gtagacagta gactcttgaa cgtaaaaaca gtctaaggat 2760
cgactagact acaaagtcct gactcttgaa ttaaactcat catagagatg tcttgtcaaa 2820
aattttacaa gaggacctca tcctactaat atgaattgtt tttacattat gtgagtccac 2880
tacctgtggg aatcatagga ctaacctagt gatgtgtaat atatgtacat tgtgtaaaag 2940
agttcatggg gtatttaaac gtgtttattt atttatttat tttaatatga aaagagttta 3000
tttttttatt ttatttacaa ggagaactta ccatcttaga aacaaaaaaa cactattagt 3060
atttatgtat atttataaga gtagtaatgt acgtacatca atggaaggaa atgtactacg 3120
tggtctttct tatgggtgag attcttcctt tcttacttct cttcttccgt aacaaatttt 3180
ctggataata atcttattca gtttaagata cagatggtaa taattcgaca aactgaaact 3240
cgtccctaac cttccgtaaa atttaactcc acctctatac gtgtttcggt gcacccttta 3300
cagtacacag ggacgtattt ctcttgttcg ataaaacgaa ccaacctcta ctcctctgtc 3360
tccgacatgt attcttacac aagttaaatt tcgttgtttt atatagctgg tttgatgaaa 3420
ctcgttagtt cccctatata accgagtgta gtgactttat atatgaccgt gtcgtctaaa 3480
ggtcaatcca gactagacga tcgagacagg ggaggtctta tgtccgaggt ccgtccgtcc 3540
ttccttctcc tgtagtcaag agaaccacag atcgtgcgac ggacataatt ccatccagga 3600
gttatttaag tacaacatcc tttacttacg tacaagagtt tctacgccaa tgaaagtcat 3660
agtgacgaaa ggagtaccaa aggtgaagtt ataatcagat tgaacggaat ccctgggttc 3720
taccgacgat aagtgaagtt aatcgatttg tgaagagaaa agtaccgaca ctctctgatc 3780
gatggagaag gtatttactt aaaagagaag aaagacccgt gttatcagag ataaagggtc 3840
ggagaaaatg ttaatccaca taggtacgtt gagtcaagat cggttaccgc acactcatca 3900
tcactatagg tggtgaacgt ctggatgtgt atttccgagg gtctgtgtag aagacacgag 3960
aaatgacctt gtgaacgaac taaggttatt tatgtcgttg gaatcgtcga tgtataacgt 4020
caaccgtctc gaaagtacaa agtcgaagaa gtataaaaaa tcaaaacaac agtgacaacc 4080
aaaaaaaaaa ttaactaagt cctctactgg attatttttt aacttctttt tatttcgtaa 4140
aacaagacct aaagagtaat ccttgtactc caaatgagat aacgttgacc gaatcaagta 4200
tactagtagg ggactccact ccctttttct acgcacttaa ctaattcggt tccagtgtac 4260
cagctttaca tcttaaccca aaactccagt caaagggatt tagtgggtct ataggttcac 4320
ctttagtccg aggtaactgt tttcccttgt caagaatctt tacgttgatg tttacaggtt 4380
agggtcaacc gttcaagctt cgttccttcc cgaaaggtaa tttcttacac ctacgatgga 4440
ccacccgttg acctccggtg accgtatata aaaaaaaccc cccccaaagt atttgataac 4500
caaaaaaatt aataataata tgaaattcaa aatcccatgt acacgtgtta cacgtccaat 4560
caatgtatac atatgcacac ggtacgacca cacgacgtgg gtaattgagt agtaaatcgt 4620
aatccatata gaggattacg atagggaggg gggagggggg tggggtgttg tcaggggtct 4680
cacactacaa ggggaaggac acaggtacac aaaagtaaca agtcaagggt ggatactcac 4740
tcttgtacgc cacaaaccaa aaacaggaac gctatcaaat gactcttact actaaaggtt 4800
aaagtaggta cagggatgtt tcctgtactt gagtagtaaa aaataccgac gtatcataag 4860
gtaccacata tacacggtgt aagagaatta ggtcagatag taacaacctg taaaccgaac 4920
caaggttcag aaacgataac acttatcacg gtgttatttg tatgcatacg tacacagaaa 4980
tatcgtcgta ctaaatatca ggaaacccat atatgggtca ttaccctacc gacccagttt 5040
accataaaga tcaagatcta gggactcctt agcggtgtga ctgaaggtgt taccaacttg 5100
atcaaatgtc agggtgattg tcacattttc acaaggataa agaggtgtag gagagctcgt 5160
ggacaacaaa ggactgaaaa attactaacg gtaagattga ccacactcta ccatagagta 5220
acaccaaaac taaacgtaaa gagactaccg gtcactacta ctcgtaaaaa agtacacaaa 5280
aaaccgacgt atttacagaa gaaaactctt cacagacaag tacaggaaac gggtgaaaaa 5340
ctaccccaac aaacaaaaaa agaacattta aacaaactca agtaacatct aagacctata 5400
atcgggaaac agtctactca tccaacactt ttaaaagagg gtaaaacatc caacggacaa 5460
gtgagactac catcaaagaa aacgacacgt cttcgagaag tcaaattaat ctaggggaaa 5520
cagttaaaac agaaaacaac ggtaacgaaa accacaaaat ctgtacttca ggaacgggta 5580
cggatacagg acttaccatt acggatccaa aagaagatcc caaaaatacc aaaatccaga 5640
ttgtaaattc agaaattagg tagaacttaa ttaaaaacat attccacatt ccttccctag 5700
gtcaaagtcg aaagaggtat accgatcggt caaaagggtc gtggtaaata atttatccct 5760
taggaaaggg gtaacgaaca aaaagagtcc aaacagtttc tagtctctca acatctatac 5820
accgcaataa agactcccga gacaagacaa ggtaactaga tatagagaca aaaccatggt 5880
catggtacga caaacccaat gacatcggaa catcatatca aacttcagtc catcacacta 5940
cggaggtcga aacaagaaaa ccgaatccta actgaaccac tacgcccgag aaaaaaccac 6000
ggtatacttg aaatttcgtc aaaaaaggtt aagacacttc tttcagtaac catcgaacta 6060
cccctaccgt aacttagata tttaatggaa cccgtcatac cggtaaaagt gctataacta 6120
agaaggatgg gtactcgtac cttacaagaa ggtaaacaaa cataggagaa aataaagtaa 6180
ctcgtcacca aacatcaaga ggaacttctc aaggaagtac agggaacatt caacctaagg 6240
atccataaaa taagagaaac ttcgttaaca cttaccctca agtgagtact aaaccgagag 6300
acaaacagac aacaaccaca tattcttacg aagactaaaa acatgtaact aaaaatatag 6360
gactctgaaa cgacttcaac gaatagtcga attcctctaa aacccgactc tgttacccca 6420
aaagatctat atgtacagta gacgtttgtc cctgttaaac taaaggagaa aaggattaac 6480
ttatgggaaa taaaggaaga ggacggatta acgggaccgg tcttgaaggt tgtggtacaa 6540
cttatcctca ccactctctc ccgtagggac agaacacggt caaaagtttc ccttacgaag 6600
gtcaaaaacg ggtaagtcat actataaccg acacccaaaa agtatctatt gagaataata 6660
aaactctatg cagggtagtt atgaattaaa taactctcaa aaaccgtact tctcaacaac 6720
ttaaaacagt ttccggaaaa gacgtagata actctattag tacaccaaaa acagaaacca 6780
agacaaatat acgacctaat gtaaataact aaacgaatat aacttggtcg gaacgtaggg 6840
tccctacttc gggtgaacta gtaccaccta ttcgaaaaac tacacgacga cctaaaccaa 6900
actggtgacc gtataaaatt cgtaccctca ttgtgacagt ccaaaaaatt taatgtttta 6960
cgaaatcgta tctcttttaa tatttcttgt tatattcatt gtctatacgt gagtgatagg 7020
acgaattagt ttacagtgtg aaacggttcg aactaagttt aaaaaatttc gtttctttgt 7080
aatgtctata ccgacgttgt aggatacacg gggtggcgac tatgtatgga gagaagggtt 7140
cccattggtg aaagactgaa actatgaata gtaagggtcc gtactaattt acgataacga 7200
cttaaacgta tatatgtatt tattatatat gtcaacaaac gtacaagatt ttgaaacgta 7260
atttattata gtttattaat ttttaaaagt gtttaacgta aaaattgagt cagaaaatat 7320
tctaacggtt attactatag agaagtctag taagtaaaac tgataatata ataaaaagta 7380
acatactgat acggtaccga gtgaataggt aagacaataa ctatttgtaa acacaacaaa 7440
ggtgttaaaa cgataatttt attaccgtaa cacttgtaag aacacacata tagtgacaca 7500
tgtgtacgat ctcaaagaga ttacataata ccacatataa cgacccggtt tccgatacat 7560
tcagaagttg aagggatcta cagtatggtt gagtatgtat atactggtca cactcgtaag 7620
agtcacgaga tgtaacaggt ctaagatgta cttcgtgacc accggataac cagtccaact 7680
gactataatc ttccaataac ggtttcagat acactctctc tgactcccag actttatgga 7740
tctacattcc ctatatttca ctctctcctt tcttcaattg tataaatcct cgttttaggt 7800
gtactgaaac actaactaat acctctttta ttcctcttct tcccttgtcc ttctgagagt 7860
tcagaggtct aacttgtgtt ctccttcgaa tacacggcac tctgactact gtttaaggaa 7920
aacttgtatc acggaaactc ccgaaccatc attttttctt tcgtgatagg tagtccgtaa 7980
acctataaat ccagaccttc tgacttttct ctagttttgt cttttatgtt taatatctta 8040
gtagctctac ccattttagt cttctcaacc tagttctttt catggatctt agtcatctct 8100
tcactcaatt cttttataga gaccctttgt aattataaat ttccatatat tttccttctc 8160
ttctgacacc tcttctgtct ctgacttctt cctctgtttt acacagtatg acatcatcgg 8220
tctccttatc tcgaagtttc ttactcacca gttggtgtaa tttgtgtcga tcttttggtt 8280
cttccatttc tttactttta atttgtaatt gtatgttact tcaataactc aggtacaatt 8340
ttaccaaagt taccttatcg tagttacctt tattaacgtt aatcattttc ttaaaatctt 8400
tttctttttt aattatgtcg attgaaagag tttaatttaa aaaactttta ttttgtcact 8460
ctaccttaag ctcacgttct acaaacaact tttagttgtg tgtactttcc tttctctcac 8520
ttggattttt ttaaccgagg tctcagataa ttacatttct gatacaatat aacagagaga 8580
tagaaatccc tttgtatatg ggttaagtag aacacagtgg tcttagtcta agtagtttgg 8640
gtaagacctg gtgagactag tgatcaaagt gggagtgtca gtatcatttc tttgatttcg 8700
ttttctgatg ttctcgtttc ctgtctttcc ctttacaata aaagagggga gtggaaacgg 8760
gagaaactaa aagaggtaac aacgattttc cttgtgaatc ttttgatact ttctttgaag 8820
acggacattt acgtcgaggt actaatactt aagacttagg aacattgtct tcttggttat 8880
cctgactagg tactgaagat aatcatctct gacccttcca tccactgaaa tcgagtggtt 8940
cggactagtg tcgttttatc ttttactagt gtcacagggg aaaaatagga ccccattgtt 9000
acttgtaagt caccctcggt tgatgacata atttcaggac ccacgtcgag gaccgtgtac 9060
tgtaccgggt gttccatcat caagactcat gggaacggat agtcaccacg accccgctct 9120
tccctcccgt cggacgagtg atccctctcg tccttactcc gatccttcat gtccctggac 9180
cgtttctaca gaggacaaac tctctctgaa gtcaattaca agtcagttga aggacaccac 9240
gattcttcac tttcaacttg aactgatagt tccttgtctc cgtccaacaa tcgacccggg 9300
gaccctcctt cagttgttcg aggtggtgta gactgttgtg gatgacgaac gtcgggaagg 9360
gggtccagtc cgtcgacgtg tggagtacga aggttgactc ccccttactt acccatggtt 9420
ctcatccact cagatgaaga aagggtcccc actcatcgcc cacttcttta gtcgtacatc 9480
acctgtaaat gtacacggcc tatggagtat atacgtcaca ccatagtaat aggagtgaca 9540
cgtctacttc tgtgactccg agtccctgaa caagttctgt gtgtagacca gttatccctc 9600
ggtcctaagt tttagtgcag tcagatcatg agttcaggag acaagaaagg tgctgatgta 9660
atctacatag ggatctatca gatccacatt gtcgtactca gagggtactt tccttcaccc 9720
ccgagaacct tgtatggaga aatccttcgg aaggtagtaa cacgacggaa ggaggagaca 9780
cgtcggagtc gtgagtgaca actcgggaag agatcctcaa acgttagaac cctatcgtct 9840
ataaagaatt tgtcctgtgt tcttcacttt tccgttcggt gtcgggttgg accattcacc 9900
gtcccgaccg gtccagtcac gttgaagttc agctacaaca gtcacttacg aggtctacct 9960
aacgtctctt ctggtttcaa gtacagagcc gtggaaaggg ttacatgtcc cgaataacaa 10020
ccctgtctca tcacggaccg gactgaaagc ggttttcgta cgtgtcttgc accttgaacc 10080
ggaggacttt tccgcacaga agtcgaatcc aataaggaaa gagctacgag tggtactaca 10140
gtccgaggat catcctctcg gtaattattg aagccactga accgtaaact acccgttaga 10200
accggtagga tttcgtaagg tacggtagtc tatatgggac gtaacggtac tcgaaatagt 10260
aaccgaaaat cttgtagtag gagggtgaaa cttatttacc agatcgtctg ttatgtcagg 10320
aacacggtcc gttgtaagac ctacgaaata catgtaatcg agtaacttag taaagttaag 10380
ttagtaagtt gcgtccccaa acttagaatc gacaaactcc agtaacaggt acgtgagtgg 10440
atattgtaac aagacagaga aagacgttta cattctattt ttataatgga agtaagatct 10500
tttgtgggga aacatcttat ccaaatatgg aagtccgtac acctgaaagg ttaggtttga 10560
ggtcctcatc tgtctatggg tggtcctgat ccgttacgtc cttttagagt ccgaagtcga 10620
tcctgacaaa gtatgttaaa ggacgtaccg gtccttgttc ccacttccgt acgtgagaca 10680
ctcgtcgggt aaacacctgt cacccagtac cctgacttcc ttggtacaat gtgtacggac 10740
tcaaaagaaa ggttcgagtc tttggtatag cttgtgggga gggaacccct cttcactcac 10800
tcgtccacct ctctgctatc attacaatca taccaccttg aagaaggggt atctaccttt 10860
gtgactcccg attcttcttc ccggagagga ggttgtacac aatagatcgt tccgaccaag 10920
ataaattctt actatatatc agatcacatt atcttatgtt atacggatcg agattttaat 10980
acaacctttt tttagttgta atgctacacg atataagtca gttactcatt tataaagaca 11040
cggacggtgt acg 11053
<210> 7
<211> 1166
<212> DNA
<213> Homo sapiens
<400> 7
cgtcgttacg gatctttact accaagaagt ttaggttcac tattgggtat cattgattga 60
gtaatcgaat caagacggca tttcagtctt gtttcgttcc tctttgtctt ggagacgtca 120
cttacctcct taaagactcc cagtgaactt tcgtctttga gttctcgggt tggaccattc 180
accgtcccga ccggtccagt cacgttgaag ttcagctaca acagtcactt acgaggtcta 240
cctaacgtct cttctggttt caagtacaga gccgtggaaa gggttacatg tcccgaataa 300
caaccctgtc tcatcacgga ccggactgaa agcggttttc gtacgtgtct tgcaccttga 360
accggaggac ttttccgcac agaagtcgaa tccaataagg aaagagctac gagtggtact 420
acagtccgag gatcatcctc tcggtaatta ttgaagccac tgaaccgtaa actacccgtt 480
agaaccggta ggatttcgta aggtacggta gtctatatgg gacgtaacgg tactcgaaat 540
agtaaccgaa aatcttgtag taggagggtg aaacttattt accagatcgt ctgttatgtc 600
aggatattgt aacaagacag agaaagacgt ttacattcta tttttataat ggaagtaaga 660
tcttttgtgg ggaaacatct tatccaaata tggaagtccg tacacctgaa aggttaggtt 720
tgaggtcctc atctgtctat gggtggtcct gatccgttac gtccttttag agtccgaagt 780
cgatcctgac aaagtatgtt aaaggacgta ccggtccttg ttcccacttc cgtacgtgag 840
acactcgtcg ggtaaacacc tgtcacccag taccctgact tccttggtac aatgtgtacg 900
gactcaaaag aaaggttcga gtctttggta tagcttgtgg ggagggaacc cctcttcact 960
cactcgtcca cctctctgct atcattacaa tcataccacc ttgaagaagg ggtatctacc 1020
tttgtgactc ccgattcttc ttcccggaga ggaggttgta cacaatagat cgttccgacc 1080
aagataaatt cttactatat atcagatcac attatcttat gttatacgga tcgagatttt 1140
aatacaacct ttttttagtt gtaatg 1166
<210> 8
<211> 4103
<212> DNA
<213> Homo sapiens
<400> 8
tgaaaacaga aggagtacgg aagagaagat cacaccgagt cacgaatcac gtcctctttg 60
gtcattggga cttaacgtcg agaaggaaag tgatgtactt aagttaaagg agtagacagt 120
ttactcatat ggttaagtat agagctttcg acaacgacac tcttagtcta ttcgtattgg 180
agtgtcgaat acagataatc ttgtcgtgaa ccgtgtacca tttgtgaggt ttcataaaca 240
atttacttac ttatctaatt ttccaccgta caaaacatga tttgacaagt tactatcaca 300
ttttggtaaa ccagtattac gcctttccct tcattccgcc ttaaggaaat tagacacaaa 360
atgcgtccaa ggtttcctcg caccacctct cttcctacgt ctatcagacc cactctcgat 420
ctccgacctc agtcgtcctt cctgactccg gcaaccacga acccctcact cccgaggaaa 480
gacgagacag gatccgattc aaggggtggg taaggaagaa ctctagatgg agtttgtgtt 540
tagggagtta actggtgtcc cccgcgggga agatacttaa accgcgacta tcgacactag 600
acgggtcgtg tcaccccttt tgtgttttaa atgtctagtc cgtacaggcc cgagtctaag 660
gatgaggtcg tggaccaccg gttccctggg gttgacaatt tatccgtacc actacggacg 720
aaaggttcgg acaacccttt ctctctcccc tcgcccctcc ttaccctctc tctctctctg 780
actcgttcgt acggttctga attatatgaa tataaatata attttcttta tttatagtct 840
actaatgtta aaccaacttg attctatgtg tcatcttata ccttgattat aggttatagt 900
gtttcataag atcgctcgga aggatgtctt tcttaacacc caccgacccc tcatccgtaa 960
tcgatgatac actcacgtct cttatgagtc ggaagaaggt ctaccactcg atttcaagtt 1020
tctagttcag tgcatgtgtg gaagaaagag tagggtccag gatcagacga acttaagttt 1080
accggtaggt gtggaacgga ctttatgaac gttattaatt ctatgccgaa agacggacga 1140
accccaaacc aggtgttaag ggaattctcc ggagtaaagt taatcctgag tgtgtaggga 1200
agttgtcatt aaaacacagt ccgaaccaat cgttgagttc cgagttcgta tttaccctgt 1260
cttaagaaaa ggaaaacttt gagtggttat atcactaaca tcgttgatcg atgtaacaaa 1320
aacaaaaaaa aaagggggag ttaagattcg tgatacgttt ccgaaatttc gtcaccaggg 1380
ttcggaaaaa ccgtggtccc tggtcaaaac accttctgtt aaaacacttt tctgttttac 1440
accttctggc acctgaccct accaaacccc tactaagttc gtgtaatgta aacaacacgt 1500
gacacaaaga taataataat gtaacataat atattacttt attaatatgt tgagtggtat 1560
tacatcttag tcaccttcgg gactcgaaca aaggacgttg atctgtgagg gtagatcccc 1620
actaccctct gccactgtcc agtaatccgt aatctaagag tattcctcgc gtgttggatc 1680
tagggagcgt acacgtcaag tactgtccca aacacgacga tactcttaaa ttacggtgac 1740
gactagactg tcctccacct cgagtccgtc attccactcg ttacccctcg tcgacattta 1800
ttgcgactag agtgagtggg tgacgagtgg aggacgacac accgggtcaa ggattgtccg 1860
gtgttttacc atggacagac acaggggtcc caacccctgg tgacggaatt tccggaagta 1920
gagtaagtca aaagtagttt taagacacac catccatgag agtaatctgg gtaaaatacc 1980
cattccttga ctccatttta accaatatat tgaacggatt ttattcagtt cagagactac 2040
tctcccggtc ctaagttcaa gttcgtcaga ctgaggtttt agagtttcgt gaagacacca 2100
tcctttctct ttacttacct taccgtatct cagtagattt actgacgtca tccttccctc 2160
gtaaagggca cacgtcacaa taaaaaaggc ccgaaacttt ctatttatcc tcgtacgtca 2220
attttttctc tcctcttccg taagatccgt ctttccggtc acgaatgtgt cttagagtct 2280
taacattgtc aaggataatg tgggaccgtc tcactacggt tccgacaata acagttcgtg 2340
ggaggacgga gggtcacccc aactcttccc cacttccctg tgaccgtctt cacttcgacc 2400
cttcaaacgt gaacgatcaa ccctgaacgt atcggtagaa gagttacggt ttctcctgga 2460
gtcagagaca cacgcgaaac aaaaaacaac aacaacaaca acaactaaac accgggtccg 2520
atctcacgcc accacactag agacgagtga cgttggaggt agagggtcca agttccctaa 2580
gaggacggag gtctgagggt tcatcgaacc taatgtccgc gggcggtggt gtggacctat 2640
taaaaatatg aaaatcatcc ccacctcaaa gtggcacaac cggtccgacc agacacacac 2700
gaaacctaaa ctctgtgaga ctactaaatc tcaactttta ccctcatcta acccactaag 2760
agatcaatag tacaaatcag tttagtctag gcacgtaagt tttagtattc cgttcaaaag 2820
gacacaccga gtcattgtag gaatttcttt atcaagacta caggtaggcc acaaaaaagt 2880
ctttctcgca gtcccaactg tcatcgacac tacgaggtct acctcgacgc ctattgtcgt 2940
atattcaaag tcccgtcacc aactccccga caccctccca cccctccctt ctacctactg 3000
aaaagagttg gtagacataa actaacctta taacacactg aacactttat cttaatttct 3060
atactagaag aataccagaa gagtgtcaaa agttccctaa aatcctcttt tgcgaatcgg 3120
tatgtctcgg ttggaccatt caccgtcccg accggtccag tcacgttgaa gttcagctac 3180
aacagtcact tacgaggtct acctaacgtc tcttctggtt tcaagtacag agccgtggaa 3240
agggttacat gtcccgaata acaaccctgt ctcatcacgg accggactga aagcggtttt 3300
cgtacgtgtc ttgcaccttg aaccggagga cttttccgca cagaagtcga atccaataag 3360
gaaagagcta cgagtggtac tacagtccga ggatcatcct ctcggtaatt attgacggat 3420
agagtggtaa tctgacacat gaagatcttc cgtctttaga aaaagattac taaagaataa 3480
agggtcttgg atattgtaac aagacagaga aagacgttta cattctattt ttataatgga 3540
agtaagatct tttgtgggga aacatcttat ccaaatatgg aagtccgtac acctgaaagg 3600
ttaggtttga ggtcctcatc tgtctatggg tggtcctgat ccgttacgtc cttttagagt 3660
ccgaagtcga tcctgacaaa gtatgttaaa ggacgtaccg gtccttgttc ccacttccgt 3720
acgtgagaca ctcgtcgggt aaacacctgt cacccagtac cctgacttcc ttggtacaat 3780
gtgtacggac tcaaaagaaa ggttcgagtc tttggtatag cttgtgggga gggaacccct 3840
cttcactcac tcgtccacct ctctgctatc attacaatca taccaccttg aagaaggggt 3900
atctaccttt gtgactcccg attcttcttc ccggagagga ggttgtacac aatagatcgt 3960
tccgaccaag ataaattctt actatatatc agatcacatt atcttatgtt atacggatcg 4020
agattttaat acaacctttt tttagttgta atgctacacg atataagtca gttactcatt 4080
tataaagaca cggacggtgt acg 4103
<210> 9
<211> 2612
<212> DNA
<213> Homo sapiens
<400> 9
tcatcattac cagctgccgt gttaagcatt gcgaaaacgc tcacgattca cagaaaaatc 60
catgctgttc tttgaaggca ttcaagcctt aatagctagc tggatgaatg tttaacttct 120
aggccaggca ctactctgtc ccaacaataa gccctgtaca ttgggaaagg tgccgagaca 180
tgaactttgg tcttctctgc aatccatctg gagcattcac tgacaacatc gactttgaag 240
ttgcactgac ctggccagcc ctgccactta ccaggttggc tctgtatggc taagcgtttt 300
ctcctaaaat cccttgaaaa ctgtgagaag accataagaa gatcatatct ttaattctat 360
ttcacaagtc acacaatatt ccaatcaaat acagatggtt gagaaaagtc atccatcttc 420
cctccccacc ctcccacagc ccctcaacca ctgccctgaa acttatatgc tgttatccgc 480
agctccatct ggagcatcac agctactgtc aaccctgacg ctctttctga aaaaacaccg 540
gatggacatc agaactattt ctttaaggat gttactgagc cacacaggaa aacttgcctt 600
atgattttga atgcacggat ctgatttgac taaacatgat aactagagga tcacccaatc 660
tactcccatt ttcaactcta aatcatcaga gtgtctcaaa tccaaagcac acacagacca 720
gcctggccaa cgcggtgaaa ctccacccct actaaaagta taaaaattat ccaggtgtgg 780
tggcgggcgc ctgtaatcca agctacttgg gagtctgagg caggagaatc ccttgaacct 840
gggagatgga ggttgcagtg agcagagatc acaccaccgc actctagcct gggccacaaa 900
tcaacaacaa caacaacaac aaaaaacaaa gcgcacacag agactgaggt cctctttggc 960
attgagaaga tggctatgca agtcccaact agcaagtgca aacttcccag cttcacttct 1020
gccagtgtcc cttcacccct tctcaacccc actgggaggc aggagggtgc ttgacaataa 1080
cagccttggc atcactctgc cagggtgtaa taggaactgt tacaattctg agattctgtg 1140
taagcactgg cctttctgcc tagaatgcct tctcctctct tttttaactg catgctccta 1200
tttatctttc aaagcccgga aaaaataaca ctgcacacgg gaaatgctcc cttcctactg 1260
cagtcattta gatgactcta tgccattcca ttcatttctc tttcctacca cagaagtgct 1320
ttgagatttt ggagtcagac tgcttgaact tgaatcctgg ccctctcatc agagacttga 1380
cttattttag gcaagttata taaccaattt tacctcagtt ccttacccat aaaatgggtc 1440
taatgagagt acctaccaca cagaattttg atgaaaactg aatgagatga aggcctttaa 1500
ggcagtggtc cccaaccctg gggacacaga caggtaccat tttgtggcct gttaggaact 1560
gggccacaca gcaggaggtg agcagtgggt gagtgagatc agcgttattt acagctgctc 1620
cccattgctc accttactgc ctgagctcca cctcctgtca gatcagcagt ggcattaaat 1680
tctcatagca gcacaaaccc tgtcatgaac tgcacatgcg agggatctag gttgtgcgct 1740
ccttatgaga atctaatgcc taatgacctg tcaccgtctc ccatcacccc tagatgggag 1800
tgtctagttg caggaaacaa gctcagggct tccactgatt ctacattatg gtgagttgta 1860
taattatttc attatataat acaatgtaat aataatagaa acacagtgca caacaaatgt 1920
aatgtgcttg aatcatcccc aaaccatccc agtccacggt cttccacatt ttgtcttttc 1980
acaaaattgt cttccacaaa actggtccct ggtgccaaaa aggcttggga ccactgcttt 2040
aaagcctttg catagtgctt agaattgagg gggaaaaaaa aaacaaaaac aatgtagcta 2100
gttgctacaa tcactatatt ggtgagtttc aaaaggaaaa gaattctgtc ccatttatgc 2160
ttgagccttg agttgctaac caagcctgac acaaaattac tgttgaaggg atgtgtgagt 2220
cctaattgaa atgaggcctc ttaagggaat tgtggaccaa accccaagca ggcagaaagc 2280
cgtatcttaa ttattgcaag tatttcaggc aaggtgtgga tggccatttg aattcaagca 2340
gactaggacc tgggatgaga aagaaggtgt gtacgtgact tgatctttga actttagctc 2400
accatctgga agaaggctga gtattctctg cactcacata gtagctaatg cctactcccc 2460
agccacccac aattctttct gtaggaaggc tcgctagaat actttgtgat attggatatt 2520
agttccatat tctactgtgt atcttagttc aaccaaattg taatcatctg atatttattt 2580
cttttaatat aaatataagt atattaagtc tt 2612
<210> 10
<211> 23
<212> DNA
<213> Artificial Sequence
<220>
<221> source
<223> /note="Description of Artificial Sequence: Synthetic
oligonucleotide"
<220>
<221> misc_feature
<222> (1)..(1)
<223> /note="5'-Phos"
<400> 10
gttggacttg tacgatagct ctc 23
<210> 11
<211> 25
<212> DNA
<213> Artificial Sequence
<220>
<221> source
<223> /note="Description of Artificial Sequence: Synthetic
oligonucleotide"
<220>
<221> misc_feature
<222> (1)..(1)
<223> /note="5'-OH"
<220>
<221> modified_base
<222> (5)..(5)
<223> iBIOdT
<220>
<221> modified_base
<222> (20)..(24)
<223> a, c, t, g, unknown or other
<400> 11
gctancgtac aagtccaacn nnnnv 25
<210> 12
<211> 19
<212> DNA
<213> Artificial Sequence
<220>
<221> source
<223> /note="Description of Artificial Sequence: Synthetic
oligonucleotide"
<220>
<221> misc_feature
<222> (1)..(1)
<223> /note="5'-OH"
<400> 12
gcgatatcac tgttccaac 19
<210> 13
<211> 23
<212> DNA
<213> Artificial Sequence
<220>
<221> source
<223> /note="Description of Artificial Sequence: Synthetic
oligonucleotide"
<220>
<221> misc_feature
<222> (1)..(1)
<223> /note="5'-OH"
<400> 13
gttggaacag tgatatcgcg aga 23
<210> 14
<211> 21
<212> DNA
<213> Artificial Sequence
<220>
<221> source
<223> /note="Description of Artificial Sequence: Synthetic
oligonucleotide"
<400> 14
ggccgcgata tcggatccaa c 21
<210> 15
<211> 17
<212> DNA
<213> Artificial Sequence
<220>
<221> source
<223> /note="Description of Artificial Sequence: Synthetic
oligonucleotide"
<400> 15
gttggatccg atatcgc 17
<210> 16
<211> 46
<212> DNA
<213> Artificial Sequence
<220>
<221> source
<223> /note="Description of Artificial Sequence: Synthetic
oligonucleotide"
<220>
<221> modified_base
<222> (45)..(46)
<223> a, c, t, g, unknown or other
<400> 16
ccatctcatc cctgcgtgtc ccatctgttc cctccctgtc tcagnn 46
<210> 17
<211> 44
<212> DNA
<213> Artificial Sequence
<220>
<221> source
<223> /note="Description of Artificial Sequence: Synthetic
oligonucleotide"
<400> 17
ctgagacagg gagggaacag atgggacacg cagggatgag atgg 44
<210> 18
<211> 44
<212> DNA
<213> Artificial Sequence
<220>
<221> source
<223> /note="Description of Artificial Sequence: Synthetic
oligonucleotide"
<400> 18
ctgagacacg caacagggga taggcaaggc acacagggga tagg 44
<210> 19
<211> 46
<212> DNA
<213> Artificial Sequence
<220>
<221> source
<223> /note="Description of Artificial Sequence: Synthetic
oligonucleotide"
<220>
<221> modified_base
<222> (45)..(46)
<223> a, c, t, g, unknown or other
<400> 19
cctatcccct gtgtgccttg cctatcccct gttgcgtgtc tcagnn 46
<210> 20
<211> 49
<212> DNA
<213> Artificial Sequence
<220>
<221> source
<223> /note="Description of Artificial Sequence: Synthetic
primer"
<400> 20
aatgatacgg cgaccaccga gatctacacc ctatcccctg tgtgccttg 49
<210> 21
<211> 48
<212> DNA
<213> Artificial Sequence
<220>
<221> source
<223> /note="Description of Artificial Sequence: Synthetic
primer"
<400> 21
caagcagaag acggcatacg agatcggtcc atctcatccc tgcgtgtc 48
<210> 22
<211> 32
<212> DNA
<213> Artificial Sequence
<220>
<221> source
<223> /note="Description of Artificial Sequence: Synthetic
primer"
<400> 22
gtgccttgcc tatcccctgt tgcgtgtctc ag 32
<210> 23
<211> 32
<212> DNA
<213> Artificial Sequence
<220>
<221> source
<223> /note="Description of Artificial Sequence: Synthetic
primer"
<400> 23
tgcgtgtccc atctgttccc tccctgtctc ag 32
Claims (55)
- (1) RNA 링커로서,
(i) 제1 폴리뉴클레오티드, 및
(ii) 제2 폴리뉴클레오티드
를 포함하며, 상기 제1 및 제2 폴리뉴클레오티드는, 제1 결찰 호환성 말단의 측면에 위치하는 제1 이중 가닥 영역, 및 제1 폴리뉴클레오티드의 3'-말단에서의 3'-돌출부를 형성하되, 상기 3'-돌출부는 랜덤-서열 프라이머를 포함하는 RNA 링커; 및
(2) DNA 링커로서,
(iii) 제3 폴리뉴클레오티드, 및
(iv) 제4 폴리뉴클레오티드
를 포함하며, 상기 제3 및 제4 폴리뉴클레오티드는, 평활 말단(blunt end) 및 제2 결찰 호환성 말단의 측면에 위치하는 제 2 이중 가닥 영역을 형성하는 DNA 링커
를 포함하되, 상기 제1 및 제2 결찰 호환성 말단은 형태와 서열이 상보적이며 서로 결찰하거나 서로 결찰하는데 적합한 키트. - 제1항에 있어서, 상기 제1 결찰 호환성 말단은 제2 폴리뉴클레오티드의 제 3'-말단에서의 3'-돌출부이고, 상기 제 2 결찰 호환성 말단은 제3 폴리뉴클레오티드의 제 3'-말단에서의 3'-돌출부이며, 결찰을 위하여 상기 두 3'-돌출부를 서로 어닐링하는 키트.
- 제1항에 있어서, 상기 제1 이중 가닥 영역은 상기 랜덤-서열 프라이머의 3'측에 있는 부분을 절단하는 제1 제한 효소(restriction enzyme, RE)를 위한 제1 인식 부위를 포함하는 키트.
- 제1항에 있어서, 상기 제2 이중 가닥 영역은 상기 제3 폴리뉴클레오티드의 5'측에 있는 부분을 절단하는 제2 제한 효소(RE)를 위한 제2 인식 부위를 포함하는 키트.
- 제1항에 있어서, 상기 제1, 제2, 제3, 및 제4 폴리뉴클레오티드 중 하나 이상이 DNA인 키트.
- 제1항에 있어서, 상기 제1, 제2, 제3, 및 제4 폴리뉴클레오티드 중 하나 이상은 변형 뉴클레오티드를 포함하는 키트.
- 제6항에 있어서, 상기 변형 뉴클레오티드는 비오티닐화 T (티미딘)인 키트.
- 제1항에 있어서, 상기 제1 폴리뉴클레오티드는, 랜덤-서열 프라이머 영역에서만 서로 상이한 복수의 폴리뉴클레오티드를 포함하는 키트.
- 제1항에 있어서, 상기 제1 폴리뉴클레오티드는 동일한 랜덤-서열 프라이머를 갖는 동질 군집(homogeneous population)의 폴리뉴클레오티드를 포함하는 키트.
- 제1항에 있어서, 상기 랜덤-서열 프라이머는 4, 5, 6, 7, 8개 또는 그 이상의 뉴클레오티드를 포함하는 키트.
- 제1항에 있어서, 상기 제1 이중 가닥 영역은 상기 RNA 링커와 상기 DNA 링커를 구별하는 독특한(unique) 서열을 포함하는 키트.
- 제1항에 있어서, 상기 제2 이중 가닥 영역은 상기 RNA 링커와 상기 DNA 링커를 구별하는 독특한 서열을 포함하는 키트.
- 제3항에 있어서, 상기 제1 인식 부위의 마지막 뉴클레오티드는 상기 랜덤-서열 프라이머에 대하여 5' 측에 있는 마지막 염기-쌍 뉴클레오티드인 키트.
- 제4항에 있어서, 상기 제2 인식 부위의 마지막 뉴클레오티드는 상기 평활 말단에서의 염기-쌍 뉴클레오티드인 키트.
- 제3항 및 제4항 중 어느 한 항에 있어서, 상기 제1 및 제2 제한 효소는 동일한 키트.
- 제3항 및 제4항 중 어느 한 항에 있어서, 상기 제1 또는 제2 제한 효소는 AarI, AceIII, AloI, BaeI, Bbr7I, BbvI, BbvII, BccI, Bce83I, BceAI, BcefI, BcgI, BciVI, BfiI, BinI, BplI, BsaXI, BscAI, BseMII, BseRI, BsgI, BsmI, BsmAI, BsmFI, Bsp24I, BspCNI, BspMI, BsrI, BsrDI, BstF5I, BtgZI, BtsI, CjeI, CjePI, EciI, Eco31I, Eco57I, Eco57MI, EcoP15I, Esp3I, FalI, FauI, FokI, GsuI, HaeIV, HgaI, Hin4I, HphI, HpyAV, Ksp632I, MboII, MlyI, MmeI, MnlI, PleI, PpiI, PsrI, RleAI, SapI, SfaNI, SspD5I, Sth132I, StsI, TaqII, TspDTI, TspGWI, TspRI 또는 Tth111II으로부터 독립적으로 선택되는 키트.
- 제3항 및 제4항 중 어느 한 항에 있어서, 상기 제1 또는 제2 제한 효소의 상기 절단 부위는 상기 인식 부위의 마지막 뉴클레오티드의 3'측에 있는 적어도 10, 12, 14, 16, 18, 20개, 또는 그 이상의 뉴클레오티드인 키트.
- 제1항에 있어서, 상기 제1 및 제4 폴리뉴클레오티드는 탈인산화된 키트.
- 제1항에 있어서, 단백질 및 폴리뉴클레오티드를 가교하는 시약을 추가로 포함하는 키트.
- 제19항에 있어서, 상기 시약은 포름알데히드를 포함하는 키트.
- 제1항에 있어서, 염색질의 성분에 특이적으로 또는 선택적으로 결합하는 친화성 시약을 추가로 포함하는 키트.
- 제1항에 있어서, 손상된 또는 비호환성 5'- 및/또는 3'-돌출 말단을 함유한 DNA를 5'-인산화, 평활-말단 DNA로 전환하는, 말단-보수 혼합물을 추가로 포함하는 키트.
- 제1항에 있어서, DNA 리가아제를 추가로 포함하는 키트.
- 제1항에 있어서, 단백질과 폴리뉴클레오티드의 가교를 가역하는 시약을 추가로 포함하는 키트.
- 제3항 및 제4항 중 어느 한 항에 있어서, 제1 및/또는 제2 제한 효소를 추가로 포함하는 키트.
- 제1항에 있어서, 평활-말단된(blunt-ended) 이중 가닥 DNA의 PCR 증폭을 위한 한 쌍의 연접성(concatenating) 어댑터를 추가로 포함하는 키트.
- 제 1항에 있어서, Taq DNA 폴리머라아제를 추가로 포함하는 키트.
- 제 1항에 있어서, 역전사 효소를 추가로 포함하는 키트.
- 제1항의 제1 및 제2 이중 가닥 영역을 포함하는 중앙 영역을 포함하는 쌍-말단 태그(paired-end tag, PET) 폴리뉴클레오티드로서, 상기 중앙 영역은,
(1) 상기 제1 이중 가닥 영역의 근접 부위에서, 비-코딩 RNA (ncRNA)의 서열 태그; 및
(2) 상기 제2 이중 가닥 영역의 근접 부위에서, 게놈 DNA의 서열 태그
의 측면에 배치되는 쌍-말단 태크 폴리뉴클레오티드. - 제29항에 있어서, 상기 비-코딩 RNA(ncRNA)의 서열 태그는 제1 제한 효소에 의한 소화에 의하여 얻어지는 자유단을 가지는 PET 폴리뉴클레오티드.
- 제29항에 있어서, 상기 비-코딩 RNA(ncRNA)의 서열 태그는 ncRNA가 전사되는 게놈 영역을 독특하게 확인하는 PET 폴리뉴클레오티드.
- 제29항에 있어서, 상기 비-코딩 RNA(ncRNA)의 서열 태그는 8-30개의 염기쌍 길이를 가지는 PET 폴리뉴클레오티드.
- 제29항에 있어서, 상기 게놈 DNA의 서열 태그는 제2 제한 효소에 의한 소화에 의하여 얻어지는 자유단을 가지는 PET 폴리뉴클레오티드.
- 제29항에 있어서, 상기 게놈 DNA의 서열 태그는 게놈 DNA가 위치하는 게놈 영역을 독특하게 확인하는 PET 폴리뉴클레오티드
- 제29항에 있어서, 상기 게놈 DNA의 상기 서열 태그는 8-30개의 염기쌍 길이를 가지는 PET 폴리뉴클레오티드.
- 제29항의 PET 폴리뉴클레오티드의 둘 이상의 멤버를 포함하는 쌍-말단 태그(paired-end tage, PET) 라이브러리로서, 상기 PET 라이브러리의 각 멤버는 동일한 상기 중앙 영역, 및 제29항의 비-코딩 RNA(ncRNA)의 상이한 상기 서열 또는 제29항의 게놈 DNA의 상이한 상기 서열 태그 또는 둘 다를 포함하는 쌍-말단 태그 라이브러리.
- 제29항의 PET 폴리뉴클레오티드를 포함하는 벡터.
- 제37항에 있어서, 제29항의 연접된(concatenated) PET 폴리뉴클레오티드를 복수개 포함하는 벡터.
- 제29항의 PET 폴리뉴클레오티드를 2개 이상을 포함하는 콘카테머(Concatemer).
- 게놈의 비-코딩 RNA (ncRNA)를 위한 게놈 내에서 기능적 상호작용 좌위를 확인하는 방법으로서, 상기 방법은,
(1) 가교된 게놈 DNA 단편 및 가교된 ncRNA를 포함하는 염색질 단편을 제공하는 단계;
(2) 제1항의 RNA 링커 및 DNA 링커를 이용하여, 근접 결찰의 조건 하에서, 가교된 게놈 DNA 단편의 말단을 가교된 ncRNA의 cDNA의 말단에 결찰하는 단계로서, 상기 가교된 게놈 DNA 단편의 상기 말단이 상기 DNA 링커에 결찰되고, 상기 가교된 ncRNA의 상기 cDNA의 상기 말단은 상기 RNA 링커를 포함하는 단계:
(3) 시퀀싱 분석을 위하여, 제29항의 PET 폴리뉴클레오티드를 단리하는 단계; 및
(4) 상기 각 PET 폴리뉴클레오티드 내의 상기 게놈 DNA의 서열 태그 및 상기 ncRNA의 상기 서열태그를 참조 게놈에 맵핑하여, 상기 참조 게놈의 상기 비-코딩 RNA (ncRNA)를 위한 참조 게놈 내에서 기능적 상호작용 좌위를 확인하는 단계를 포함하는 방법. - 제40항에 있어서, 상기 ncRNA 및 상기 게놈 DNA는 포름알데히드-매개 가교를 통하여 살아있는 세포에서 가교하는 방법.
- 제40항에 있어서, 염색질 단편은 초음파 처리에 의하여 생성하는 방법.
- 제40항에 있어서, 상기 가교된 ncRNA의 상기 cDNA는 상기 RNA 링커의 랜덤-서열 프라이머로부터 역전사된 제1 가닥 cDNA, 및 ncRNA 템플릿을 포함하는 방법.
- 제40항에 있어서, 근접 결찰 이후 (3) 단계 이전에, 제 2 가닥 cDNA 합성을 실시하는 방법.
- 제40항에 있어서, (2) 단계 이전에, 가교된 게놈 DNA 단편의 말단을 5'-인산화되고, 평활-말단된 DNA로 수복하는 단계를 추가로 포함하는 방법.
- 제40항에 있어서, 상기 DNA 링커의 상기 제3 폴리뉴클레오티드는 탈인산화되고, 상기 DNA 링커는 자가-결찰하지 않는 방법.
- 제40항에 있어서, 게놈 DNA의 중첩 서열 태그 및 ncRNA의 중첩 서열 태그를 갖는 둘 이상의 PET 폴리뉴클레오티드의 클러스터를 확인하는 단계를 추가로 포함하는 방법.
- 제47항에 있어서, rRNA의 서열 태그를 포함하는 PET 폴리뉴클레오티드를 배제하는 단계를 추가로 포함하는 방법.
- 제40항에 있어서, (2) 단계 이전에, 염색질 단편 서브세트를 단리하거나 농축하는 단계를 추가로 포함하는 방법.
- 제49항에 있어서, 상기 염색질 단편 서브세트의 단백질 성분에 특이적인 항체를 이용하여, 상기 염색질 단편 서브세트를 면역침전에 의하여 단리하거나 농축하는 방법.
- 제50항에 있어서, 상기 단백질 성분은 히스톤, 전사 인자, 폴리콤-그룹(polycomb-group, PcG) 패밀리 단백질; 재조합 관여 인자; 염색질 격리자(insulator) 또는 염색질 웨이버(waver); 메틸-CpG-결합 단백질; 또는 RNA 결합 단백질인 방법.
- 제21항에 있어서,
상기 친화성 시약은 항체 또는 단일클론 항체인 키트. - 제52항에 있어서,
상기 염색질의 성분은 히스톤인 키트. - 제23항에 있어어,
상기 DNA 리가아제는 T4 리가아제인 키트. - 제24항에 있어서,
상기 시약은 프로테이나아제 K인 키트.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361873928P | 2013-09-05 | 2013-09-05 | |
US61/873,928 | 2013-09-05 | ||
PCT/US2014/054185 WO2015035108A1 (en) | 2013-09-05 | 2014-09-05 | Compositions for rna-chromatin interaction analysis and uses thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20160048992A KR20160048992A (ko) | 2016-05-04 |
KR102310441B1 true KR102310441B1 (ko) | 2021-10-07 |
Family
ID=51541390
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020167008685A KR102310441B1 (ko) | 2013-09-05 | 2014-09-05 | Rna-염색질 상호작용 분석용 조성물 및 이의 용도 |
Country Status (11)
Country | Link |
---|---|
US (2) | US9938565B2 (ko) |
EP (3) | EP3041952B1 (ko) |
JP (2) | JP6684216B2 (ko) |
KR (1) | KR102310441B1 (ko) |
CN (2) | CN111979229A (ko) |
AU (1) | AU2014315104B2 (ko) |
CA (1) | CA2936089A1 (ko) |
HK (2) | HK1252807A1 (ko) |
IL (2) | IL244191B (ko) |
SG (4) | SG10201913351XA (ko) |
WO (1) | WO2015035108A1 (ko) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6684216B2 (ja) * | 2013-09-05 | 2020-04-22 | ザ ジャクソン ラボラトリーThe Jackson Laboratory | Rna−クロマチン相互作用分析のための組成物およびその使用 |
KR20170099739A (ko) * | 2016-02-23 | 2017-09-01 | 노을 주식회사 | 접촉식 염색 보조 패치, 그 제조 방법 및 이를 이용하는 염색 방법 |
WO2017189844A1 (en) * | 2016-04-27 | 2017-11-02 | Bio-Rad Laboratories, Inc. | miRNA TRANSCRIPTOME METHODS AND COMPOSITIONS |
CN106047861A (zh) * | 2016-06-07 | 2016-10-26 | 苏州贝斯派生物科技有限公司 | 一种快速修复损伤dna的试剂、及其制备方法与应用 |
CN109641933B (zh) * | 2016-09-02 | 2023-09-29 | 路德维格癌症研究有限公司 | 染色质相互作用的全基因组鉴定 |
EP3507382B1 (en) * | 2016-09-02 | 2021-06-23 | New England Biolabs, Inc. | Analysis of chromatin using a nicking enzyme |
CN107130021B (zh) * | 2017-05-04 | 2020-06-05 | 中昱医学检验(广州)有限公司 | Ccat1长链非编码rna及其小分子抑制剂在肝细胞癌治疗方面的应用 |
EP3638811A1 (en) * | 2017-06-16 | 2020-04-22 | The Jackson Laboratory | Single nucleus and single molecule chromatin interaction assays |
CN107488713A (zh) * | 2017-08-11 | 2017-12-19 | 华中科技大学同济医学院附属同济医院 | 一种生物素化的染色质免疫共沉淀方法及试剂盒 |
CN110551794B (zh) * | 2018-06-04 | 2023-05-30 | 完整基因有限公司 | 对rna分子进行处理的方法及试剂盒和复合体 |
WO2020014586A1 (en) * | 2018-07-12 | 2020-01-16 | Board Of Regents, The University Of Texas System | Molecular neighborhood detection by oligonucleotides |
US20220270244A1 (en) * | 2019-07-19 | 2022-08-25 | The Jackson Laboratory | Convolutional neural networks for classification of cancer histological images |
US20220403371A1 (en) * | 2019-11-15 | 2022-12-22 | Phase Genomics, Inc. | Chromosome conformation capture from tissue samples |
CN113322254B (zh) * | 2021-01-06 | 2022-05-20 | 南京诺唯赞生物科技股份有限公司 | 多靶点蛋白质-dna相互作用的研究方法和工具 |
CN114438183A (zh) * | 2022-02-25 | 2022-05-06 | 南方科技大学 | Rna介导的染色质构象捕获方法 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4458066A (en) | 1980-02-29 | 1984-07-03 | University Patents, Inc. | Process for preparing polynucleotides |
US4766072A (en) | 1985-07-17 | 1988-08-23 | Promega Corporation | Vectors for in vitro production of RNA copies of either strand of a cloned DNA sequence |
US5565340A (en) * | 1995-01-27 | 1996-10-15 | Clontech Laboratories, Inc. | Method for suppressing DNA fragment amplification during PCR |
US7244559B2 (en) | 1999-09-16 | 2007-07-17 | 454 Life Sciences Corporation | Method of sequencing a nucleic acid |
ES2254306T3 (es) | 2000-10-25 | 2006-06-16 | F. Hoffmann-La Roche Ag | Amplificacion usando cebadores modificados. |
US6716821B2 (en) | 2001-12-21 | 2004-04-06 | Immunogen Inc. | Cytotoxic agents bearing a reactive polyethylene glycol moiety, cytotoxic conjugates comprising polyethylene glycol linking groups, and methods of making and using the same |
EP1542723B1 (en) | 2002-08-16 | 2011-02-23 | ImmunoGen, Inc. | Cross-linkers with high reactivity and solubility and their use in the preparation of conjugates for targeted delivery of small molecule drugs |
US8088387B2 (en) | 2003-10-10 | 2012-01-03 | Immunogen Inc. | Method of targeting specific cell populations using cell-binding agent maytansinoid conjugates linked via a non-cleavable linker, said conjugates, and methods of making said conjugates |
US8071296B2 (en) * | 2006-03-13 | 2011-12-06 | Agency For Science, Technology And Research | Nucleic acid interaction analysis |
AR060978A1 (es) | 2006-05-30 | 2008-07-23 | Genentech Inc | Anticuerpos e inmunoconjugados y sus usos |
US20080124707A1 (en) | 2006-06-09 | 2008-05-29 | Agency For Science, Technology And Research | Nucleic acid concatenation |
SG189817A1 (en) | 2008-04-30 | 2013-05-31 | Immunogen Inc | Potent conjugates and hydrophilic linkers |
US8236319B2 (en) | 2008-04-30 | 2012-08-07 | Immunogen, Inc. | Cross-linkers and their uses |
WO2012150317A1 (en) * | 2011-05-05 | 2012-11-08 | Institut National De La Sante Et De La Recherche Medicale (Inserm) | Linear dna amplification |
JP6684216B2 (ja) * | 2013-09-05 | 2020-04-22 | ザ ジャクソン ラボラトリーThe Jackson Laboratory | Rna−クロマチン相互作用分析のための組成物およびその使用 |
-
2014
- 2014-09-05 JP JP2016540399A patent/JP6684216B2/ja active Active
- 2014-09-05 SG SG10201913351XA patent/SG10201913351XA/en unknown
- 2014-09-05 AU AU2014315104A patent/AU2014315104B2/en not_active Ceased
- 2014-09-05 CN CN202010832190.9A patent/CN111979229A/zh active Pending
- 2014-09-05 CA CA2936089A patent/CA2936089A1/en not_active Abandoned
- 2014-09-05 EP EP14766362.9A patent/EP3041952B1/en active Active
- 2014-09-05 SG SG11201600645SA patent/SG11201600645SA/en unknown
- 2014-09-05 KR KR1020167008685A patent/KR102310441B1/ko active IP Right Grant
- 2014-09-05 CN CN201480049110.5A patent/CN105899672B/zh active Active
- 2014-09-05 SG SG10201913362PA patent/SG10201913362PA/en unknown
- 2014-09-05 WO PCT/US2014/054185 patent/WO2015035108A1/en active Application Filing
- 2014-09-05 EP EP17199223.3A patent/EP3296408A1/en not_active Withdrawn
- 2014-09-05 SG SG10201801779XA patent/SG10201801779XA/en unknown
- 2014-09-05 EP EP17199231.6A patent/EP3299476B1/en active Active
-
2016
- 2016-02-18 IL IL244191A patent/IL244191B/en active IP Right Grant
- 2016-03-03 US US15/059,605 patent/US9938565B2/en active Active
-
2018
- 2018-03-23 US US15/934,465 patent/US11466307B2/en active Active
- 2018-09-20 HK HK18112110.0A patent/HK1252807A1/zh unknown
- 2018-09-20 HK HK18112108.4A patent/HK1252806A1/zh unknown
-
2019
- 2019-11-05 JP JP2019200451A patent/JP2020036598A/ja active Pending
-
2020
- 2020-01-21 IL IL272171A patent/IL272171B/en active IP Right Grant
Non-Patent Citations (1)
Title |
---|
Jingyao Zhang 등. Methods. Vol. 58, No. 3, 페이지 289-299(2012.08.25.) |
Also Published As
Publication number | Publication date |
---|---|
JP6684216B2 (ja) | 2020-04-22 |
US11466307B2 (en) | 2022-10-11 |
SG11201600645SA (en) | 2016-03-30 |
JP2020036598A (ja) | 2020-03-12 |
IL272171B (en) | 2020-10-29 |
IL244191A0 (en) | 2016-04-21 |
EP3041952B1 (en) | 2017-12-20 |
CA2936089A1 (en) | 2015-03-12 |
AU2014315104A1 (en) | 2016-02-18 |
EP3041952A1 (en) | 2016-07-13 |
HK1252806A1 (zh) | 2019-06-06 |
US20160177380A1 (en) | 2016-06-23 |
US20180312908A1 (en) | 2018-11-01 |
SG10201801779XA (en) | 2018-04-27 |
CN105899672A (zh) | 2016-08-24 |
HK1252807A1 (zh) | 2019-06-06 |
IL272171A (en) | 2020-03-31 |
SG10201913351XA (en) | 2020-03-30 |
EP3296408A1 (en) | 2018-03-21 |
US9938565B2 (en) | 2018-04-10 |
JP2016532454A (ja) | 2016-10-20 |
AU2014315104B2 (en) | 2020-11-05 |
WO2015035108A1 (en) | 2015-03-12 |
IL244191B (en) | 2020-02-27 |
CN105899672B (zh) | 2020-09-11 |
SG10201913362PA (en) | 2020-03-30 |
EP3299476B1 (en) | 2023-07-19 |
KR20160048992A (ko) | 2016-05-04 |
EP3299476A1 (en) | 2018-03-28 |
CN111979229A (zh) | 2020-11-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102310441B1 (ko) | Rna-염색질 상호작용 분석용 조성물 및 이의 용도 | |
McMahon et al. | TRIBE: hijacking an RNA-editing enzyme to identify cell-specific targets of RNA-binding proteins | |
US20220042090A1 (en) | PROGRAMMABLE RNA-TEMPLATED SEQUENCING BY LIGATION (rSBL) | |
EP3192877B1 (en) | Vesicular adaptor and uses thereof in nucleic acid library construction and sequencing | |
KR102643955B1 (ko) | 근접 보존 전위 | |
KR102458022B1 (ko) | 혼합물 중 핵산의 서열분석 방법 및 그와 관련된 조성물 | |
EP3377625A1 (en) | Method for controlled dna fragmentation | |
JP2007289152A (ja) | 核酸相互作用分析 | |
CN107109698B (zh) | Rna stitch测序:用于直接映射细胞中rna:rna相互作用的测定 | |
JP2010514452A (ja) | ヘテロ二重鎖による濃縮 | |
JP2021503947A (ja) | 二本鎖dnaを増幅するための方法およびキット | |
AU2001279704B2 (en) | Method for identification, separation and quantitative measurement of nucleic acid fragments | |
EP3615683B1 (en) | Methods for linking polynucleotides | |
US20190078083A1 (en) | Method for controlled dna fragmentation | |
CN113614228A (zh) | 使用poly(a)聚合酶对rna的尺寸选择 | |
WO2023193781A1 (en) | Dnazyme and use thereof | |
Smith | Genetic and Epigenetic Identity of Centromeres | |
WO2023137292A1 (en) | Methods and compositions for transcriptome analysis | |
Nguyen | Development of high-throughput technologies to map RNA structures and interactions |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E90F | Notification of reason for final refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |