KR20230062818A - 진핵 dna 복제 기원, 및 이를 함유하는 벡터 - Google Patents

진핵 dna 복제 기원, 및 이를 함유하는 벡터 Download PDF

Info

Publication number
KR20230062818A
KR20230062818A KR1020237006533A KR20237006533A KR20230062818A KR 20230062818 A KR20230062818 A KR 20230062818A KR 1020237006533 A KR1020237006533 A KR 1020237006533A KR 20237006533 A KR20237006533 A KR 20237006533A KR 20230062818 A KR20230062818 A KR 20230062818A
Authority
KR
South Korea
Prior art keywords
origin
replication
seq
origins
window
Prior art date
Application number
KR1020237006533A
Other languages
English (en)
Inventor
마르셀 메칼리
일뎀 에이커만
나데쥬 가보릿
Original Assignee
상뜨르 나쇼날 드 라 러쉐르쉬 샹띠피끄
유니베르시테 드 몽펠리에
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 상뜨르 나쇼날 드 라 러쉐르쉬 샹띠피끄, 유니베르시테 드 몽펠리에 filed Critical 상뜨르 나쇼날 드 라 러쉐르쉬 샹띠피끄
Publication of KR20230062818A publication Critical patent/KR20230062818A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1093General methods of preparing gene libraries, not provided for in other subgroups
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/85Vectors or expression systems specially adapted for eukaryotic hosts for animal cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2820/00Vectors comprising a special origin of replication system
    • C12N2820/80Vectors comprising a special origin of replication system from vertebrates
    • C12N2820/85Vectors comprising a special origin of replication system from vertebrates mammalian

Landscapes

  • Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Plant Pathology (AREA)
  • Biophysics (AREA)
  • Microbiology (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)

Abstract

본 발명은 포유류 게놈 DNA 복제 기원(replication origin)을 단리하는 방법에 관한 것이며,
- 게놈 DNA 분자를 단리하는 단계;
- DNA 분자 내에서 500 bp 창(window)을 식별하는 단계;
- 500 pb 내지 최대 6000 pb의 크기를 갖는 단편을 게놈 DNA 분자로부터 단리하는 단계;
- 진핵 세포의 DNA 내에 함유될 때, 초기 DNA를 생성하고 DNA 복제를 개시할 수 있는 DNA 복제 기원을 선택하는 단계; 및
- 상기 기원을 단리하는 단계를 포함한다.

Description

진핵 DNA 복제 기원, 및 이를 함유하는 벡터
본 발명은 진핵 DNA 복제 기원 및 이를 함유하는 벡터에 관한 것이다.
각각의 세포 분열 동안, 인간 세포는 S-기 시간 제약 내에서 대략 2 미터의 DNA를 복제할 것이다. 이를 달성하기 위해, DNA 복제는 DNA 복제 기원이라고 하고 게놈에 걸쳐 확산되어 있는 수천 개의 영역으로부터 개시한다. 게놈에서 DNA 복제 개시 부위(IS)의 위치화(기원 사양)는 후생동물에서는 잘 이해되지 않는다. 원핵생물 및 바이러스에서, 통상 단일의 서열-특이적 기원이 존재하는 한편, 진핵생물인 사카로마이세스 세레비지애(Saccharomyces cerevisiae)에서는 DNA 복제는 효소 기원 인식 복합체(ORC: origin recognition complex)에 의해 결합된 AT-풍부 공통(consensus) 서열로부터 개시한다. 대조적으로, 초파리 및 마우스 세포에서, IS의 대략 300 bp 업스트림인 G-풍부 DNA 서열 요소(기원 G-풍부 반복 요소, OGRE)의 존재는 60% 초과의 기원에서 보고되었다. CA/GT-풍부 모티프 및 폴리-A/T 트랙은 또한 마우스 세포의 IS에서 검출되어 왔다. OGRE 요소는 CpG 섬(CpGi: CpG island) 및 잠재적인 G-쿼드플렉스(G4) 요소를 뉴클레오솜-무함유 영역에 함유할 수 있다. 그러나, 게놈 내의 모든 추정(putative) G4 요소 중 일부만이 근처의 기원을 수용하고, CpGi는 기원 중 일부에만 존재한다. 이는 다른 특질이 복제 기원 선택 또는 활성화에 기여함을 나타낸다.
따라서, 복제 기원이 작동하는 방법, 및 이를 식별하는 방법을 더 잘 이해하는 것이 필요하다.
일부 정보는 마우스에서 포유류 복제 기원에 관하여 알려져 있다.
예를 들어, 국제 출원 제WO2011023827호는 복제 기원 핵심(core)의 서열, 특히 OGRE 서열을 개시한다. 그러나, 이 문헌은 완전히 기능적인 복제 기원 또는 인간 게놈 내 기원의 서열을 개시하지 못하고 있다.
따라서, 본 발명의 하나의 목표는 이 결점을 일소하는 것이다.
본 발명의 또 다른 목표는 적절한 맥락에서 자가-복제할 수 있는 기능적 DNA 서열을 식별하고 단리하는 방법을 제공하는 것이다.
본 발명의 추가 목표는 염색체가 복제됨에 따라 숙주 포유류 세포에서 복제할 수 있는 DNA 벡터를 제공하는 것인데, 이들 벡터가 기능적 포유류 복제 기원을 함유하기 때문이다.
그러므로, 본 발명은 포유류 게놈 DNA 복제 기원을 단리하는 방법에 관한 것이며,
a- 포유류의 체세포로부터 게놈 DNA 분자를 단리하는 단계;
b- 게놈 DNA 분자를 상기 게놈 DNA 분자를 따라 100 pb마다 500 bp 창(window)으로 분리하는 단계;
c- 하기가 가능하도록 제1 500 bp 창을 식별하는 단계로서:
O 제1 500 bp 창이 적어도 172개의 G 뉴클레오타이드를 가짐,
O 제1 500 bp 창이 105개 이하의 A 또는 T 뉴클레오타이드를 가짐,
O 창의 3'-말단(end)에서 제1 500 bp 창에 바로 인접한 제2 500 bp 창이 125개 초과 내지 172개 미만의 G 함량을 갖고,
여기서, 제1 500 bp 창과 제2 500 bp 창 사이의 G 함량의 변동은 8% 내지 40% 범위임,
O 제8 500 bp 창에 그 자체가 인접한, 제7 500 bp 창에 그 자체가 인접한, 제6 500 bp 창에 그 자체가 인접한, 제2 500 bp 창에 그 자체가 인접한, 제1 500 bp 창에 그 자체가 인접한, 제5 500 bp 창에 그 자체가 인접한, 제4 500 bp 창에 인접한 제3 500 bp 창에 의해 이루어진 8개의 연속 500 bp-창으로 구성된 큰 창 내의 G 함량이 960 초과임;
d- 추정 포유류 게놈 DNA 복제 기원에 상응하는 500 bp 내지 최대 6000 bp의 크기를 갖는 단편을 게놈 DNA 분자로부터 단리하는 단계로서, 상기 추정 포유류 게놈 DNA 복제 기원은 이의 5' 말단에서 제1 500 bp 창으로 구성되는, 단계;
e- 진핵 세포의 DNA 내에 함유될 때, 초기 DNA를 생성하고 DNA 복제를 개시할 수 있는 단편을 상기 추정 포유류 게놈 DNA 복제 기원으로부터 선택하는 단계; 및
f- 상기 단편을 단리하는 단계로서, 상기 단편은 포유류 게놈 DNA 복제 기원인, 단계를 포함한다.
본 발명은 핵심 DNA 복제 기원이 상기 언급된 기재된 방법을 구현함으로써 식별되고 단리될 수 있다는, 발명자들에 의해 이루어진 관찰에 기초한다.
이러한 방법은 완전히 활성이고 모든 포유류 게놈에 존재하는 포유류 복제 기원을 식별하는 것을 가능하게 한다.
본 발명에 따른 방법은 2개 단계로 시행된다: 핵심 기원 서열을 식별하는 단계, 및 실험 데이터와 매치하는 서열을 선택하는 단계.
단계 a).
단계 A에서, 포유류 세포의 게놈 DNA는 당업계에 잘 알려진 하나의 방법, 예컨대 페놀/클로로포름 방법에 의해 추출되고, 시퀀싱되고, 생물정보학적으로 조립된다.
그렇지 않다면, 데이터베이스에 공개된 바와 같은 게놈의 서열은 단계 a를 실시하기 위해 사용될 수 있다. 예를 들어, 마우스 및 인간 게놈과 다른 것들에 대해, 게놈의 완전한 서열은 캘리포니아 산타 크루즈 대학교(UCSC: University of California, Santa Cruz) 게놈 브라우저에서 입수 가능하다(https://genome.ucsc.edu에서 입수 가능함):
당업자는 해당 목적을 위해 DNA 추출을 적응할 수 있을 것이다.
단계 b) 및 단계 c)
이들 2개 단계는 식별 단계에 상응한다.
단계 b)는 포유류 세포에 함유된 DNA 분자의 서열을 수득한 후에 실시된다. 해당 목적을 위해, 임의의 시퀀싱 기법은 DNA 분자의 완전한 서열, 즉, 포유류 세포에 함유된 각각의 게놈의 DNA의 완전한 서열을 수득하기 위해 사용될 수 있다. 이에 뒤이어 게놈의 전체(full) 서열을 수득하기 위해 DNA 서열의 조립이 존재할 것이다.
서열을 수득한 후에, 서열은 분자를 따라 100 bp마다 500 bp 창으로 분리된다(슬라이딩 창 방법으로도 알려져 있음). 이는 왓슨 및 크릭 가닥 둘 다에 대해 수행된다.
예를 들어, 1000 bp 분자에서, 6개의 500 pb 창이 수득될 수 있다: 위치 1로부터 위치 500까지, 위치 100으로부터 위치 600까지, 위치 200으로부터 위치 700까지, 위치 300으로부터 위치 800까지, 위치 400으로부터 위치 900까지, 그리고 위치 500로부터 위치 1000까지. 따라서 전체 인간 게놈에서, 많은 500 bp가 생성될 수 있다.
이 단계는 컴퓨터 프로그램, 예를 들어, 베드툴 스위트(bedtools suite)에 의해 쉽게 실시될 수 있다.
단계 c는 형식적으로 관심 서열의 선택 단계이다. 발명자들은 포유류 내의 복제 기원이 하기 기준을 만족시키는 500 bp 영역을 함유함을 식별한다:
- 관심의 500 bp 창은 적어도 172개의 G 뉴클레오타이드, 및 105개 이하의 A 또는 T 뉴클레오타이드를 가짐,
- 결정된 500 bp 창을 고려할 때, 결정된 창의 500 pb의 3'-말단에서 시작하는 바로 인접한 500 bp 창은 125 초과 내지 172 미만의 G 함량을 가지며; 결정된 500 bp 창과 이의 인접한 창 사이의 G 함량의 변동은 8% 내지 40% 범위임. 본원에서 이는, 500 bp 창이 172 bp를 함유한다면, 인접 영역의 G 함량은 125 내지 158로 다양함(사실상 105 내지 158이지만, G 함량이 125 초과여야 하기 때문에, 범위는 125 내지 158임)을 의미하고;
- 제8 500 bp 창에 그 자체가 인접한, 제7 500 bp 창에 그 자체가 인접한, 제6 500 bp 창에 그 자체가 인접한, 제2 500 bp 창에 그 자체가 인접한, 제1 500 bp 창에 그 자체가 인접한, 제5 500 bp 창에 그 자체가 인접한, 제4 500 bp 창에 인접한 제3 500 bp 창에 의해 이루어진 8개의 연속 500 bp-창으로 구성된 큰 창 내에서, 8개의 연속 창을 따른 평균 G 함량은 960 초과이다.
예에서 언급된 바와 같이, 발명자들은 포유류 내의 복제 기원은 이들이 엄격한 의미에서 공통 서열을 공유하지 않더라도, 전사의 개시 부위의 5'에 500 pb G-풍부 영역이 존재하고 개시 부위의 3'에서 그 영역은 G-풍부 영역이 아닌 것을 특징으로 함을 식별하였다. 이는 분명하게는 도 72, 좌측 패널에 도시되어 있다.
본원에서 다시, 이 단계는 컴퓨터 프로그램에 의해 실시될 수 있다.
식별한 후에, 포유류 세포의 게놈, 위의 기준을 만족시키는 모든 500 bp 창을 따라, 단계 d)가 실시된다.
단계 d)
단계 d)에서, 관심 500 bp 창이 식별되었을 때, 500 pb 내지 6000 bp의 크기를 갖는 게놈의 단편이 선택된다. 이들 단편은 복제 기원을 함유할 수 있는 DNA의 분자에 상응한다. 이들은 "추정 복제 기원"이라고 한다.
"500 pb 내지 6000 bp"란, 본 발명에서 500 bp, 510 bp, 520 bp, 530 bp, 540 bp, 550 bp, 560 bp, 570 bp, 580 bp, 590 bp, 600 bp, 610 bp, 620 bp, 630 bp, 640 bp, 650 bp, 660 bp, 670 bp, 680 bp, 690 bp, 700 bp, 710 bp, 720 bp, 730 bp, 740 bp, 750 bp, 760 bp, 770 bp, 780 bp, 790 bp, 800 bp, 810 bp, 820 bp, 830 bp, 840 bp, 850 bp, 860 bp, 870 bp, 880 bp, 890 bp, 900 bp, 910 bp, 920 bp, 930 bp, 940 bp, 950 bp, 960 bp, 970 bp, 980 bp, 990 bp, 1000 bp, 1010 bp, 1020 bp, 1030 bp, 1040 bp, 1050 bp, 1060 bp, 1070 bp, 1080 bp, 1090 bp, 1100 bp, 1110 bp, 1120 bp, 1130 bp, 1140 bp, 1150 bp, 1160 bp, 1170 bp, 1180 bp, 1190 bp, 1200 bp, 1210 bp, 1220 bp, 1230 bp, 1240 bp, 1250 bp, 1260 bp, 1270 bp, 1280 bp, 1290 bp, 1300 bp, 1310 bp, 1320 bp, 1330 bp, 1340 bp, 1350 bp, 1360 bp, 1370 bp, 1380 bp, 1390 bp, 1400 bp, 1410 bp, 1420 bp, 1430 bp, 1440 bp, 1450 bp, 1460 bp, 1470 bp, 1480 bp, 1490 bp, 1500 bp, 1510 bp, 1520 bp, 1530 bp, 1540 bp, 1550 bp, 1560 bp, 1570 bp, 1580 bp, 1590 bp, 1600 bp, 1610 bp, 1620 bp, 1630 bp, 1640 bp, 1650 bp, 1660 bp, 1670 bp, 1680 bp, 1690 bp, 1700 bp, 1710 bp, 1720 bp, 1730 bp, 1740 bp, 1750 bp, 1760 bp, 1770 bp, 1780 bp, 1790 bp, 1800 bp, 1810 bp, 1820 bp, 1830 bp, 1840 bp, 1850 bp, 1860 bp, 1870 bp, 1880 bp, 1890 bp, 1900 bp, 1910 bp, 1920 bp, 1930 bp, 1940 bp, 1950 bp, 1960 bp, 1970 bp, 1980 bp, 1990 bp, 2000 bp, 2010 bp, 2020 bp, 2030 bp, 2040 bp, 2050 bp, 2060 bp, 2070 bp, 2080 bp, 2090 bp, 2100 bp, 2110 bp, 2120 bp, 2130 bp, 2140 bp, 2150 bp, 2160 bp, 2170 bp, 2180 bp, 2190 bp, 2200 bp, 2210 bp, 2220 bp, 2230 bp, 2240 bp, 2250 bp, 2260 bp, 2270 bp, 2280 bp, 2290 bp, 2300 bp, 2310 bp, 2320 bp, 2330 bp, 2340 bp, 2350 bp, 2360 bp, 2370 bp, 2380 bp, 2390 bp, 2400 bp, 2410 bp, 2420 bp, 2430 bp, 2440 bp, 2450 bp, 2460 bp, 2470 bp, 2480 bp, 2490 bp, 2500 bp, 2510 bp, 2520 bp, 2530 bp, 2540 bp, 2550 bp, 2560 bp, 2570 bp, 2580 bp, 2590 bp, 2600 bp, 2610 bp, 2620 bp, 2630 bp, 2640 bp, 2650 bp, 2660 bp, 2670 bp, 2680 bp, 2690 bp, 2700 bp, 2710 bp, 2720 bp, 2730 bp, 2740 bp, 2750 bp, 2760 bp, 2770 bp, 2780 bp, 2790 bp, 2800 bp, 2810 bp, 2820 bp, 2830 bp, 2840 bp, 2850 bp, 2860 bp, 2870 bp, 2880 bp, 2890 bp, 2900 bp, 2910 bp, 2920 bp, 2930 bp, 2940 bp, 2950 bp, 2960 bp, 2970 bp, 2980 bp, 2990 bp, 3000 bp, 3010 bp, 3020 bp, 3030 bp, 3040 bp, 3050 bp, 3060 bp, 3070 bp, 3080 bp, 3090 bp, 3100 bp, 3110 bp, 3120 bp, 3130 bp, 3140 bp, 3150 bp, 3160 bp, 3170 bp, 3180 bp, 3190 bp, 3200 bp, 3210 bp, 3220 bp, 3230 bp, 3240 bp, 3250 bp, 3260 bp, 3270 bp, 3280 bp, 3290 bp, 3300 bp, 3310 bp, 3320 bp, 3330 bp, 3340 bp, 3350 bp, 3360 bp, 3370 bp, 3380 bp, 3390 bp, 3400 bp, 3410 bp, 3420 bp, 3430 bp, 3440 bp, 3450 bp, 3460 bp, 3470 bp, 3480 bp, 3490 bp, 3500 bp, 3510 bp, 3520 bp, 3530 bp, 3540 bp, 3550 bp, 3560 bp, 3570 bp, 3580 bp, 3590 bp, 3600 bp, 3610 bp, 3620 bp, 3630 bp, 3640 bp, 3650 bp, 3660 bp, 3670 bp, 3680 bp, 3690 bp, 3700 bp, 3710 bp, 3720 bp, 3730 bp, 3740 bp, 3750 bp, 3760 bp, 3770 bp, 3780 bp, 3790 bp, 3800 bp, 3810 bp, 3820 bp, 3830 bp, 3840 bp, 3850 bp, 3860 bp, 3870 bp, 3880 bp, 3890 bp, 3900 bp, 3910 bp, 3920 bp, 3930 bp, 3940 bp, 3950 bp, 3960 bp, 3970 bp, 3980 bp, 3990 bp, 4000 bp, 4010 bp, 4020 bp, 4030 bp, 4040 bp, 4050 bp, 4060 bp, 4070 bp, 4080 bp, 4090 bp, 4100 bp, 4110 bp, 4120 bp, 4130 bp, 4140 bp, 4150 bp, 4160 bp, 4170 bp, 4180 bp, 4190 bp, 4200 bp, 4210 bp, 4220 bp, 4230 bp, 4240 bp, 4250 bp, 4260 bp, 4270 bp, 4280 bp, 4290 bp, 4300 bp, 4310 bp, 4320 bp, 4330 bp, 4340 bp, 4350 bp, 4360 bp, 4370 bp, 4380 bp, 4390 bp, 4400 bp, 4410 bp, 4420 bp, 4430 bp, 4440 bp, 4450 bp, 4460 bp, 4470 bp, 4480 bp, 4490 bp, 4500 bp, 4510 bp, 4520 bp, 4530 bp, 4540 bp, 4550 bp, 4560 bp, 4570 bp, 4580 bp, 4590 bp, 4600 bp, 4610 bp, 4620 bp, 4630 bp, 4640 bp, 4650 bp, 4660 bp, 4670 bp, 4680 bp, 4690 bp, 4700 bp, 4710 bp, 4720 bp, 4730 bp, 4740 bp, 4750 bp, 4760 bp, 4770 bp, 4780 bp, 4790 bp, 4800 bp, 4810 bp, 4820 bp, 4830 bp, 4840 bp, 4850 bp, 4860 bp, 4870 bp, 4880 bp, 4890 bp, 4900 bp, 4910 bp, 4920 bp, 4930 bp, 4940 bp, 4950 bp, 4960 bp, 4970 bp, 4980 bp, 4990 bp, 5000 bp, 5010 bp, 5020 bp, 5030 bp, 5040 bp, 5050 bp, 5060 bp, 5070 bp, 5080 bp, 5090 bp, 5100 bp, 5110 bp, 5120 bp, 5130 bp, 5140 bp, 5150 bp, 5160 bp, 5170 bp, 5180 bp, 5190 bp, 5200 bp, 5210 bp, 5220 bp, 5230 bp, 5240 bp, 5250 bp, 5260 bp, 5270 bp, 5280 bp, 5290 bp, 5300 bp, 5310 bp, 5320 bp, 5330 bp, 5340 bp, 5350 bp, 5360 bp, 5370 bp, 5380 bp, 5390 bp, 5400 bp, 5410 bp, 5420 bp, 5430 bp, 5440 bp, 5450 bp, 5460 bp, 5470 bp, 5480 bp, 5490 bp, 5500 bp, 5510 bp, 5520 bp, 5530 bp, 5540 bp, 5550 bp, 5560 bp, 5570 bp, 5580 bp, 5590 bp, 5600 bp, 5610 bp, 5620 bp, 5630 bp, 5640 bp, 5650 bp, 5660 bp, 5670 bp, 5680 bp, 5690 bp, 5700 bp, 5710 bp, 5720 bp, 5730 bp, 5740 bp, 5750 bp, 5760 bp, 5770 bp, 5780 bp, 5790 bp, 5800 bp, 5810 bp, 5820 bp, 5830 bp, 5840 bp, 5850 bp, 5860 bp, 5870 bp, 5880 bp, 5890 bp, 5900 bp, 5910 bp, 5920 bp, 5930 bp, 5940 bp, 5950 bp, 5960 bp, 5970 bp, 5980 bp, 5990 bp 또는 6000 bp의 크기를 갖는 분자를 의미한다.
단계 e)
단계 d)에서 선택된 분자로부터, 초기 DNA를 생성하고 DNA 복제를 개시하는 분자만 보유된다. 이러한 목적을 위해, 초기 DNA(즉, 기원 루프가 열릴 때 합성되는 저분자)를 생성하는 게놈의 영역은 아래 상술된 실험 절차를 통해 식별된다:
초기 DNA의 식별은 당업계에 잘 알려져 있고, 이는 아래 예에 기재된 바와 같이 SNS-seq 프로토콜을 사용함으로써 실시될 수 있다(초기 가닥 단리(SNS-seq) 참조).
단계 d에서 단리된 단편이 실험적으로 식별된 초기 DNA와 (적어도 1 bp) 중첩되고 있다면, 상기 단편은 본 발명에 따른 복제 기원을 함유하거나 이에 상응한다.
따라서, 위에서 언급된 모든 기준을 공유하는 단편은 포유류 세포의 참되고(true) 정확한 복제 기원이며, 이들 단편이 포유류 세포의 게놈에 삽입된다면, 또는 이들이 DNA 복제를 개시하는 데 필요한 모든 단백질의 존재 하에 놓인다면, 복제는 이들 단편으로부터 발생할 것이다.
단계 f)
이 단계는 예를 들어 클로닝 목적을 위해 또는 추가 연구를 위해 관심 단편을 단리하는 단계이다.
본 발명에서, 포유류는 특히 설치류 및 인간, 더 바람직하게는 마우스 및 인간을 지칭한다.
본 발명에 따르면, 단계 d) 및 단계 e)는 도치될 수 있다. 따라서, 방법은 하기 단계를 포함한다:
a- 포유류의 체세포로부터 게놈 DNA 분자를 단리하는 단계;
b- 게놈 DNA 분자를 상기 게놈 DNA 분자를 따라 100 pb마다 500 bp 창으로 분리하는 단계;
c- 하기가 가능하도록 제1 500 bp 창을 식별하는 단계로서:
O 제1 500 bp 창이 적어도 172개의 G 뉴클레오타이드를 가짐,
O 제1 500 bp 창이 105개 이하의 A 또는 T 뉴클레오타이드를 가짐,
O 창의 3'-말단에서 제1 500 bp 창에 바로 인접한 제2 500 bp 창이 125개 초과 내지 172개 미만의 G 함량을 갖고,
여기서, 제1 500 bp 창과 제2 500 bp 창 사이의 G 함량의 변동은 8% 내지 40% 범위임,
O 제8 500 bp 창에 그 자체가 인접한, 제7 500 bp 창에 그 자체가 인접한, 제6 500 bp 창에 그 자체가 인접한, 제2 500 bp 창에 그 자체가 인접한, 제1 500 bp 창에 그 자체가 인접한, 제5 500 bp 창에 그 자체가 인접한, 제4 500 bp 창에 인접한 제3 500 bp 창에 의해 이루어진 8개의 연속 500 bp-창으로 구성된 큰 창 내의 G 함량이 960 초과임;
d- 초기 DNA를 생성하고 DNA 복제를 개시할 수 있는 DNA 분자를 포유류의 체세포의 전체 게놈에서 식별하는 단계로서, 상기 분자는 500 bp 내지 최대 6000 bp 범위의 크기를 갖고 추정 포유류 게놈 DNA 복제 기원인, 단계;
e- 5' 말단에서 제1 500 bp 창으로 구성되고 포유류 게놈 DNA 복제 기원인 DNA 분자를 상기 추정 포유류 게놈 DNA 복제 기원으로부터 선택하는 단계; 및
f- 포유류 게놈 DNA 복제 기원을 단리하는 단계를 포함한다.
유리하게는, 본 발명은 상기 추정 포유류 게놈 DNA 복제 기원이 500 bp 내지 4000 bp로 다양한 크기를 갖는, 위에서 언급된 방법에 관한 것이다.
"500 pb 내지 4000 bp"란, 본 발명에서 550 bp, 560 bp, 570 bp, 580 bp, 590 bp, 600 bp, 610 bp, 620 bp, 630 bp, 640 bp, 650 bp, 660 bp, 670 bp, 680 bp, 690 bp, 700 bp, 710 bp, 720 bp, 730 bp, 740 bp, 750 bp, 760 bp, 770 bp, 780 bp, 790 bp, 800 bp, 810 bp, 820 bp, 830 bp, 840 bp, 850 bp, 860 bp, 870 bp, 880 bp, 890 bp, 900 bp, 910 bp, 920 bp, 930 bp, 940 bp, 950 bp, 960 bp, 970 bp, 980 bp, 990 bp, 1000 bp, 1010 bp, 1020 bp, 1030 bp, 1040 bp, 1050 bp, 1060 bp, 1070 bp, 1080 bp, 1090 bp, 1100 bp, 1110 bp, 1120 bp, 1130 bp, 1140 bp, 1150 bp, 1160 bp, 1170 bp, 1180 bp, 1190 bp, 1200 bp, 1210 bp, 1220 bp, 1230 bp, 1240 bp, 1250 bp, 1260 bp, 1270 bp, 1280 bp, 1290 bp, 1300 bp, 1310 bp, 1320 bp, 1330 bp, 1340 bp, 1350 bp, 1360 bp, 1370 bp, 1380 bp, 1390 bp, 1400 bp, 1410 bp, 1420 bp, 1430 bp, 1440 bp, 1450 bp, 1460 bp, 1470 bp, 1480 bp, 1490 bp, 1500 bp, 1510 bp, 1520 bp, 1530 bp, 1540 bp, 1550 bp, 1560 bp, 1570 bp, 1580 bp, 1590 bp, 1600 bp, 1610 bp, 1620 bp, 1630 bp, 1640 bp, 1650 bp, 1660 bp, 1670 bp, 1680 bp, 1690 bp, 1700 bp, 1710 bp, 1720 bp, 1730 bp, 1740 bp, 1750 bp, 1760 bp, 1770 bp, 1780 bp, 1790 bp, 1800 bp, 1810 bp, 1820 bp, 1830 bp, 1840 bp, 1850 bp, 1860 bp, 1870 bp, 1880 bp, 1890 bp, 1900 bp, 1910 bp, 1920 bp, 1930 bp, 1940 bp, 1950 bp, 1960 bp, 1970 bp, 1980 bp, 1990 bp, 2000 bp, 2010 bp, 2020 bp, 2030 bp, 2040 bp, 2050 bp, 2060 bp, 2070 bp, 2080 bp, 2090 bp, 2100 bp, 2110 bp, 2120 bp, 2130 bp, 2140 bp, 2150 bp, 2160 bp, 2170 bp, 2180 bp, 2190 bp, 2200 bp, 2210 bp, 2220 bp, 2230 bp, 2240 bp, 2250 bp, 2260 bp, 2270 bp, 2280 bp, 2290 bp, 2300 bp, 2310 bp, 2320 bp, 2330 bp, 2340 bp, 2350 bp, 2360 bp, 2370 bp, 2380 bp, 2390 bp, 2400 bp, 2410 bp, 2420 bp, 2430 bp, 2440 bp, 2450 bp, 2460 bp, 2470 bp, 2480 bp, 2490 bp, 2500 bp, 2510 bp, 2520 bp, 2530 bp, 2540 bp, 2550 bp, 2560 bp, 2570 bp, 2580 bp, 2590 bp, 2600 bp, 2610 bp, 2620 bp, 2630 bp, 2640 bp, 2650 bp, 2660 bp, 2670 bp, 2680 bp, 2690 bp, 2700 bp, 2710 bp, 2720 bp, 2730 bp, 2740 bp, 2750 bp, 2760 bp, 2770 bp, 2780 bp, 2790 bp, 2800 bp, 2810 bp, 2820 bp, 2830 bp, 2840 bp, 2850 bp, 2860 bp, 2870 bp, 2880 bp, 2890 bp, 2900 bp, 2910 bp, 2920 bp, 2930 bp, 2940 bp, 2950 bp, 2960 bp, 2970 bp, 2980 bp, 2990 bp, 3000 bp, 3010 bp, 3020 bp, 3030 bp, 3040 bp, 3050 bp, 3060 bp, 3070 bp, 3080 bp, 3090 bp, 3100 bp, 3110 bp, 3120 bp, 3130 bp, 3140 bp, 3150 bp, 3160 bp, 3170 bp, 3180 bp, 3190 bp, 3200 bp, 3210 bp, 3220 bp, 3230 bp, 3240 bp, 3250 bp, 3260 bp, 3270 bp, 3280 bp, 3290 bp, 3300 bp, 3310 bp, 3320 bp, 3330 bp, 3340 bp, 3350 bp, 3360 bp, 3370 bp, 3380 bp, 3390 bp, 3400 bp, 3410 bp, 3420 bp, 3430 bp, 3440 bp, 3450 bp, 3460 bp, 3470 bp, 3480 bp, 3490 bp, 3500 bp, 3510 bp, 3520 bp, 3530 bp, 3540 bp, 3550 bp, 3560 bp, 3570 bp, 3580 bp, 3590 bp, 3600 bp, 3610 bp, 3620 bp, 3630 bp, 3640 bp, 3650 bp, 3660 bp, 3670 bp, 3680 bp, 3690 bp, 3700 bp, 3710 bp, 3720 bp, 3730 bp, 3740 bp, 3750 bp, 3760 bp, 3770 bp, 3780 bp, 3790 bp, 3800 bp, 3810 bp, 3820 bp, 3830 bp, 3840 bp, 3850 bp, 3860 bp, 3870 bp, 3880 bp, 3890 bp, 3900 bp, 3910 bp, 3920 bp, 3930 bp, 3940 bp, 3950 bp, 3960 bp, 3970 bp, 3980 bp, 3990 bp, 4000 bp의 크기를 갖는 분자를 의미한다.
유리하게는, 본 발명은 단편의 500 bp 창이 ORC1 또는 ORC2 복제 개시 인자와 상호작용하는, 위에서 언급된 방법에 관한 것이다.
진핵 DNA 복제의 개시에서 제1 단계는 복제 기원에서 게놈 전반에 걸쳐 분포된 특정 부위에서 6-하위단위 기원 인식 복합체(ORC)의 조립이다.
ORC 단백질과 특이적으로 상호작용하는 DNA 서열이 알려져 있지 않은 반면, DNA 분자가 ORC 단백질, 특히 ORC1 또는 ORC2, 또는 둘 다와 상호작용하는지를, 당업계에 잘 알려진 많은 기법, 예컨대 염색질 IP(ChIP 실험 또는 ChIP-seq) 또는 DNA 풋프린팅, 전기영동 이동성 변화 검정(Electrophoretic Mobility Shift Assay) 등에 의해 결정하는 것이 가능하다.
더 유리하게는, 본 발명은 500 pb 창에 바로 인접한 서열이 하기를 함유하는, 위에서 언급된 방법에 관한 것이다:
- 다수의 탠덤(tandemly) G4 구조로서, 상기 탠덤 G4 구조는 최대 12배로 존재하는, 다수의 탠덤 G4 구조, 또는
- G-풍부 반복 요소, 또는 OGRE, 또는
- 둘 다.
유리하게는, 본 발명에 따른 복제 기원은 최대 12회 탠덤하게 반복되는 G4 구조를 함유할 수 있다.
G-쿼드플렉스 2차 구조(G4)는 핵산에서 구아닌이 풍부한 서열에 의해 형성된다. 이들 구조는 나선 형상이고, 1개, 2개 또는 4개의 가닥을 형성할 수 있는 구아닌 4분체(tetrad)를 함유한다. 단분자(unimolecular) 형태는 종종, 텔로미어 영역으로 더 잘 알려져 있는 염색체의 말단 근처에서, 그리고 다수의 유전자의 전사 조절 영역에서 천연적으로 발생한다. 4개의 구아닌 염기는 후그스틴 수소 결합(Hoogsteen hydrogen bonding)을 통해 회합되어, 구아닌 4분체(G-4분체 또는 G-쿼테트(quartet))라고 하는 정사각형 평면 구조를 형성할 수 있고, 2개 이상의 구아닌 4분체(구아닌의 연속적인 진행인 G-트랙으로부터)는 서로의 상단(top) 상에 적층되어 G-쿼드플렉스를 형성할 수 있다.
G-쿼드플렉스를 형성하기 위한 위치 및 결합은 무작위가 아니며, 매우 이례적인 기능적 목적의 역할을 하고, 복제 기원에 근접하게 위치한다.
본 발명에 따른 복제 기원은 국제 출원 WO2011023827호에 정의된 바와 같이 G-풍부 반복 요소, 또는 OGRE를 대안적으로 또는 추가로 함유할 수 있다.
더 유리하게는, 본 발명은 단편이 716 pb(평균 크기) 핵심 개시 기원 서열을 함유하고, 상기 핵심 개시 기원 서열은 초기 DNA 단편 서열에 상보적인, 위에서 언급된 방법에 관한 것이다.
약 716 pb(평균 크기에 상응함) 핵심 개시 기원 서열의 이러한 서열은, DNA 중합효소가 이중 가닥 나선을 개방한 후 제1 RNA-프라이밍된 초기 가닥을 합성하는 영역이다.
더 유리하게는, 본 발명은 단편이 또한 폴리콤 단백질(polycomb protein) 또는 예컨대 히스톤 아세틸화 마크에 의해 구동되는 개방형 염색질, 또는 둘 다에 대한 결합 부위를 함유하는, 위에서 언급된 방법에 관한 것이다.
DNA 메틸화, 히스톤 변형, 및 염색질 배치는 유전자 발현의 조절에서 매우 중요하다. 히스톤 아세틸화 마크는 H3 및 H4 아세틸화를 포함할 수 있다. 이들 후생적 기전 중에서, 폴리콤(Pc) 단백질은 상이한 기전을 통해 유전자 침묵화에서 역할을 한다. 이들 단백질은 복합체에서 작용하고, 다양한 세포 경로를 조절하는 많은 수의 유전자의 히스톤 메틸화 프로파일을 지배한다. 이들은 또한 복제 기원 부위와 회합된다.
예를 들어, 히스톤 3 K27 아세틸화는 인핸서 기능과 보편적으로 회합된 히스톤 마크이고 활성 인핸서를 마크한다.
본 발명은 또한 위에서 정의된 바와 같은 방법에 의해 수득되기 쉽거나 직접 수득되는 포유류 게놈 DNA 복제 기원에 관한 것이다.
유리하게는, 본 발명은 위에서 정의된 바와 같은 포유류 게놈 DNA 복제 기원에 관한 것이며, 상기 포유류 게놈 DNA 복제 기원은 SEQ ID NO: 1과 SEQ ID NO: 3 내지 SEQ ID NO: 43,177 및 SEQ ID NO: 43,220 내지 SEQ ID NO: 43,288로 표시된 바와 같은 서열 중 하나를 포함한다.
모든 이들 서열은 포유류의 DNA 핵심 기원에 상응한다. 이들 서열은 신규하다. 위에서 언급된 서열로 표시된 바와 같은 DNA 분자는 이의 천연 맥락으로부터 단리되고 정제된다.
본 발명에서 "SEQ ID NO: 1 내지 SEQ ID NO: 43,177 및 SEQ ID NO: 43,220 내지 SEQ ID NO: 43,288"은 모든 43246개의 서열이 특히 첨부된 서열 목록에 개시되어 있음을 의미하는 것으로 이해된다.
유리하게는, 본 발명은 위에서 정의된 바와 같은 포유류 게놈 DNA 복제 기원에 관한 것이며, 상기 포유류 게놈 DNA 복제 기원은 SEQ ID NO: 1 내지 SEQ ID NO: 43,177 및 SEQ ID NO: 43,220 내지 SEQ ID NO: 43,288로 표시된 바와 같은 서열 중 하나로 구성된다.
"SEQ ID NO: 1 내지 SEQ ID NO: 43177 및 SEQ ID NO: 43,220 내지 SEQ ID NO: 43,288"이란, 본 발명에서 본 상세한 설명에 부록된 서열 목록에 개시된 바와 같은 SEQ ID NO:1 내지 SEQ ID NO:43177 및 SEQ ID NO: 43,220 내지 SEQ ID NO: 43,288에서의 모든 서열을 의미한다.
이들 서열은 포유류 DNA 분자의 핵심 기원, 즉, DNA 복제의 개시가 가능한 서열에 상응한다. 복제 기원이 없는 [가상적] 포유류 세포의 게놈에 삽입될 때, 이들 서열은 새로운 게놈 복제 기원, 즉, 이중 가닥의 개방, 상보적 DNA의 신생합성(neosynthesis)을 촉진할 수 있다 ... 이들은 또한 플라스미드에 삽입될 때 자율 DNA 복제를 촉진할 수 있다.
본 발명은 또한, 벡터에 관한 것이며:
- 위에서 정의된 바와 같은 포유류 게놈 DNA 복제 기원,
- 진핵 세포에 특이적인 화합물에 대한 내성 또는 민감성을 가능하게 하는 단백질을 코딩하는 적어도 하나의 서열, 및
- 관심 유전자를 삽입시키고 이의 발현을 가능하게 하는 포유류 게놈 DNA 복제 기원에 독립적인 영역을 포함한다.
본 발명에 따른 벡터는 여러 가지 숙주 포유류 세포에서 복제할 수 있는 적어도 하나의 포유류 복제 기원을 함유한다. 이러한 복제는 위에서 정의된 바와 같은 핵심 기원의 존재로 인한 것이다.
이러한 벡터는 또한, 유전자, 특히 예를 들어 치료 목적을 위한 관심 유전자가 삽입될 수 있는 복제 기원에 독립적인 영역을 함유한다. 포유류 게놈 DNA 복제 기원에 독립적인 영역은 특히, 관심 핵산 서열, 예컨대 관심 유전자 또는 후생적 변형을 가능하게 하는 서열의 삽입을 가능하게 하는 클로닝 부위이다. 유리하게는, 클로닝 부위(들)는 적어도 하나의 제한 부위, 즉, 벡터가 특정 효소에 의해 선택적으로 절단될 수 있는 부위를 포함한다. 이러한 부위는 당업자에게 알려져 있다. 제한 부위는 고유의 제한 부위, 즉, 관심 핵산 서열 또는 벡터에서 어디에서나 발견되지 않는 제한 부위일 수 있다. 벡터의 클로닝 부위는 광범위하게 다양한 핵산 서열의 삽입을 허용하기 위해 복수의 고유한 제한 부위를 포함할 수 있다. 제한 부위의 예시적인 예는 하기를 포함하지만 이로 제한되지 않는다: Hindlll 부위, BamHI 부위, Asp718l 부위, Kpn I 부위, Bst I 부위, EcoRI 부위, EcoRV 부위, Pstl 부위, Eco32l 부위, Xhol 부위, Sfr274l 부위, Xbal 부위, FauNDI 부위, Ndel 부위, 및 Pmel 부위.
다시 말해, 본 발명은 포유류 복제 기원을 함유하는 게놈 DNA 단편이 클로닝 부위에서 벡터 내로 클로닝된 벡터를 포괄하지 않는다.
벡터는 또한, 유전자의 전사 및 상응하는 단백질의 발현을 가능하게 하는 적절한 수단의 제어 하에 놓인 유전자를 함유하며, 상기 유전자는 진핵 세포를 특이적으로 표적화하는 약물에 내성 또는 민감성을 부여하는 단백질을 코딩한다. 이는 마커 유전자에 상응한다.
벡터는 또한 가능하게는, 복제 기원에 근접하거나 이를 통해 전사를 촉진할 수 있는 유도적 전사 프로모터를 함유할 수 있다.
약물에 내성을 부여하는 마커 유전자는 당업계에 잘 알려져 있고 예를 들어 하기일 수 있다: 제오마이신 내성 유전자, 네오마이신 내성 유전자, 블레오마이신 내성 유전자, 퓨로마이신 내성 유전자… 민감성을 부여하는 유전자는 전형적으로 수혜자 세포에 결여된 효소, 예컨대 HPRT, 티미딘 키나제, 디하이드로폴레이트 리덕타제 및 APRT를 인코딩하는 것이다. 보다 최근, XGPT, 메탈로티오네인 및 메토트렉세이트-내성 DHFR과 같은 다른 유전자가 이용되어 왔는데, 이들이 수혜자에게 새로운 특징을 부여하기 때문이다. 이러한 목록은 제한적이지 않고, 당업자는 자신이 실시할 실험에 따라 적절한 선택 마커 유전자(특정 클론을 단리하기 위한 내성 유전자, 형질주입된/형질전환된 세포를 사멸화시키기 위한 민감성 유전자)를 쉽게 사용할 것이다.
유리하게는, 위에서 언급된 벡터는 SEQ ID NO: 43,389로 표시된 바와 같은 벡터이며, 여기에 SEQ ID NO: 1 내지 SEQ ID NO: 43,177 및 SEQ ID NO: 43,220 내지 SEQ ID NO: 43,288로 표시된 바와 같은 서열 중 하나가 삽입된다.
유리하게는, 본 발명은 위에서 정의된 바와 같은 벡터에 관한 것이며, 상기 벡터는
- 원핵 복제 기원; 또는
- 항생제에 대한 내성을 가능하게 하는 단백질을 코딩하는 서열을 추가로 포함하는, 벡터,
또는 둘 다를 추가로 포함한다.
유리하게는, 위에서 정의된 바와 같은 벡터는 또한, 원핵 복제 기원을 함유할 수 있어서, 박테리아 세포에서 DNA 복제를 가능하게 한다. 항생제, 예컨대 암피실린, 카나마이신 등에 대한 내성을 가능하게 하는 단백질을 코딩하는 유전자를 사용함으로써 박테리아 형질전환된 세포의 선택을 위한 유전자를 갖는 것이 또한 적절하다.
하나의 유리한 구현예에서, 위에서 정의된 벡터는 이것이 하기를 포함하는 것이다:
- SEQ ID NO:1 내지 SEQ ID NO: 43177 및 SEQ ID NO: 43,220 내지 SEQ ID NO: 43,288로 표시된 바와 같은 서열 중 하나를 포함하거나 이로 구성된 포유류 게놈 DNA 복제 기원 중 하나,
- 진핵 세포에 특이적인 화합물에 대한 내성 또는 민감성을 가능하게 하는 단백질을 코딩하는 적어도 하나의 서열,
- 가능하게는, 복제 기원에 근접하거나 이를 통해 전사를 촉진할 수 있는 유도적 전사 프로모터, 및
- 관심 유전자를 삽입시키고 이의 발현을 가능하게 하는 포유류 게놈 DNA 복제 기원에 독립적인 영역.
본 발명은 또한, SEQ ID NO: 43,290 내지 SEQ ID NO: 43,358로 표시된 바와 같은 서열 산 서열을 포함하거나 이로 구성된 벡터에 관한 것이다.
본 발명은 또한 위에서 정의된 바와 같은 벡터를 포함하는 포유류 세포에 관한 것이다.
본 발명에 따른 포유류 세포는 위에서 정의된 바와 같은 벡터, 즉, 포유류 복제 기원을 함유하는 벡터를 함유한다. 이 벡터는 포유류 숙주 세포의 게놈 내로 삽입되는 것이 필요하지 않은데, 왜냐하면 이러한 벡터가 자율적으로 복제할 게놈 DNA 복제 기원과 유사한 복제 기원을 함유하기 때문이다.
따라서, 이러한 벡터는 게놈 DNA가 복제됨에 따라 복제될 것이다.
본 발명은 또한, 위에서 정의된 바와 같은 세포를 포함하는 포유류, 특히 비-인간 포유류에 관한 것이다.
위의 동물은 바람직하게는 비-인간 동물, 예컨대 마우스, 래트, 원숭이, 개, 고양이 등은 위에서 정의된 바와 같은 적어도 하나의 포유류 세포를 함유한다.
유리하게는, 상기 동물의 하나 이상의 기관은 위에서 언급된 세포에 의해 콜로니화될 수 있으며, 즉, 기관의 세포 중 일부 또는 모두는 위에서 정의된 바와 같은 벡터를 함유한다.
본 발명은 또한, 시험관내에서 또는 생체외에서, 포유류 세포에서 관심 유전자를 발현시키기 위한 위에서 정의된 바와 같은 벡터의 용도에 관한 것이며, 상기 관심 유전자의 서열은 포유류 게놈 DNA 복제 기원에 독립적인 영역에서 벡터에 삽입된다.
이러한 특정 용도에서, 관심 유전자는 프로모터의 제어 하에 놓이며, 이는 이의 발현, 및 상응하는 단백질의 발현을 가능하게 한다.
"포유류 게놈 DNA 복제 기원에 독립적인 영역"이란, 본 발명에서 관심 유전자가 기원의 서열 내에서 클로닝되지 않거나 동일한 다중 클로닝 부위에서 클로닝되지 않음을 의미한다. 따라서, 위에서 기재된 벡터에서, 추가의 다중클로닝 부위가 관심 유전자의 클로닝의 목적을 위해 벡터에 삽입되는 것이 유리할 수 있을 것이다.
위의 벡터는 동일하거나 상이한 2개 이상의 포유류 게놈 DNA 복제 기원을 함유할 수 있다. 포유류 게놈 DNA 복제 기원의 사본의 수를 증가시키는 것은 실시예에 예시된 바와 같이 포유류 세포에서 벡터의 복제 특성을 증가시킬 것이다.
본 발명은 또한, 위에서 정의된 바와 같은 방법의 단계 b- 내지 c-를 실행하기 위한 명령을 포함하는 적절한 지지체 상에서 구현은 컴퓨터 프로그램 제품에 관한 것이다.
본 발명은 위에서 언급된 방법을 구현하도록 설계되고/되거나 프로그램이 컴퓨터 상에서 실행될 때 상기 방법을 실행하기 위한 프로그램 코드의 일부/수단/명령을 포함하는 소프트웨어 또는 컴퓨터 프로그램 제품에 관한 것이다. 유리하게는, 상기 프로그램은 컴퓨터에 의해 판독될 수 있는 데이터-기록 지지체 상에 제공된다. 이러한 지지체는 CD-ROM과 같은 휴대용 기록 지지체에 제한되지 않을 뿐만 아니라, 컴퓨터의 내부 메모리를 포함하는 장치(예를 들어 RAM 및/또는 ROM), 또는 하드 디스크 또는 USB 스틱과 같은 외부 메모리, 또는 근접부 또는 원위부 서버를 갖는 장치에 관한 것이다.
컴퓨터 프로그램은 위에서 기재된 방법의 단계 b 및 단계 c를 실시하기 위해 적응된다.
본 발명은 하기 도면 및 하기 실시예의 측면에서 더 잘 이해될 것이다.
[도 1] 도 1은 실험적 작업 흐름을 도시한다. SNS-seq는 3개의 형질전환되지 않은 세포 유형(hESC H9, 환자 유래 조혈 세포(HC), 및 환자 유래 인간 유선 상피 세포(HMEC), 및 3개의 불멸화된 세포 유형 상에서 수행되었다(총 n=19). 불멸화된 세포는 HMEC 세포에서 TP53 mRNA 수준(ImM-1, p53KD)의 감소 또는 종양 유전자 RAS(ImM-2, +RAS) 또는 WNT(ImM-3, +WNT)의 추가 발현을 통해 수득되었다.
[도 2] 도 2: SNS-seq에 의해 포착된 인간 복제 기원(MYC 기원)의 UCSC 게놈 브라우저 스냅샷이다. 대표적인 SNS-seq 판독-프로파일, ORC2-결합(빨간색) 영역과 MCM7-결합(파란색) 영역 및 GENCODE 유전자(v25)의 공개된 위치가 도시된다. 본 연구에서 정의된 기원의 위치는 상단에 제시된다; 빨간색: 고-활성 기원(핵심 기원), 연한 분홍색: 저-활성 기원(추계적 기원).
[도 3] 도 3은 각각의 변위치(quantile)(x-축은 Q1 내지 Q10 기원을 나타냄)당 평균 기원 활성(모든 시료에 걸친 정규화된 SNS-seq 카운트, Log2)을 보여주는 박스플롯을 도시한다. 박스플롯 내의 선(line)은 중앙값을 나타내는 반면, 박스의 경계는 제1 사분위수 및 제3 사분위수를 정의한다. 위스커(whisker)의 하단 및 상단은 각각의 박스플롯에 대한 최소수 및 최대수를 각각 나타낸다.
[도 4] 도 4: Q1 및 Q2 기원은 형질전환되지 않은 세포 유형에서 압도적인 다수의 개시 사건을 수용한다. 파이 차트는 표시된 형질전환되지 않은 세포 유형에서 Q1, Q2 또는 Q3 내지 Q10 기원으로부터 기원하는 DNA 복제 개시 사건(정규화된 SNS-seq 카운트)의 백분율을 나타낸다.
[도 5] 도 5는 핵심 기원(좌측 패널)과 추계적 기원(우측 패널)에 대한 가장 가까운 기원(x-축, Kb)까지의 거리 분포를 보여주는 밀도 플롯을 도시한다. 기원과 동일한 크기와 수의 가장 가까운 무작위배정된 게놈 영역까지의 핵심/추계적 기원 사이의 거리 분포를 도시하는 제어 밀도 플롯은 회색으로 표시되어 있다. 빈도 플롯 둘 다는 무작위 분포와 유의하게 상이하였다(p ≤2.2E-16, 빈도에 대한 관찰값 및 예상값이 있는 R의 카이-제곱 적합도 검정(Chi-square Goodness-of-Fit test)).
[도 6] 도 6은 세포 유형 사이의 기원 활성의 피어슨 상관 계수(Pearson's correlation coefficient)(r)를 도시한다.
[도 7] 도 7은 형질전환되지 않은 세포 유형에 의해 공유되는 핵심 기원 및 추계적 기원의 분획을 보여주는 오일러 다이어그램(Euler diagram)을 도시한다.
[도 8] 도 8은 막대 플롯이 또 다른 SNS-seq 연구(검은색)에 의해 기원 영역으로 식별된 핵심 기원의 백분율, 및 대조군 영역(흰색, 점선)과의 예상된 중첩량을 도시한다. 이 도면에서 대조군 영역은 인간 게놈의 무작위배정된 좌표에 위치한 핵심 기원과 동일한 크기의 영역이다. P-값은 카이-제곱 적합도 검정에 의해 수득된다.
[도 9] 도 9는 이 연구에 의해 식별된 기원과 중첩되는 INI-seq(검은색)에 의해 식별된 영역의 백분율을 나타내는 막대 플롯을 도시한다. 점선 막대는 대조군 영역과의 예상된 중첩량을 나타낸다. P-값은 카이-제곱 적합도 검정에 의해 수득된다.
[도 10] 도 10은 OK-seq 영역에 대해 도 9에서와 동일하다.
[도 11] 도 11은 예비-RC(pre-RC) 구성요소 ORC2(± 2 Kb 이내; 빨간색) 및 MCM7(직접 중첩, 파란색)과 중첩되는 핵심 기원의 백분율을 도시한다. 점선 막대는 대조군 영역과의 예상된 중첩량을 나타낸다. P-값은 카이-제곱 적합도 검정에 의해 수득된다.
[도 12] 도 12는 클러스터에서 발견되는 핵심 기원에 대해 도 11에서와 동일한 도면이다.
[도 13] 도 13은 2 Kb 내에서 DNA 복제 개시를 수용하는 ORC1-결합된 부위(약 13,000) 및 ORC2-결합된 부위(약 55,000)의 백분율을 보여주는 막대 플롯을 도시한다. 점선 막대는 대조군 영역과의 중첩을 나타낸다. P-값은 카이-제곱 적합도 검정에 의해 수득된다.
[도 14] 도 14는 단일 세포 유형에서의 기원 활성의 개략적인 요약이다.
[도 15] 도 15는 상이한 세포 유형에서의 기원 활성의 개략적인 요약이다.
[도 16] 도 16은 마우스와 상동성을 갖는 모든, hESC, hESC-특이적, 및 Q1 인간 기원의 백분율을 보여주는 막대 플롯을 도시한다(연한 초록색). 마우스에서 상동성 영역을 갖는 인간 게놈 내 영역이 또한 나타나 있다(연한 초록색). 마우스에서도 기원인 영역은 진한 초록색이다. 우측에는, 상응하는 셔플링된 게놈 영역의 백분율을 보여주는 막대 플롯이 있다.
[도 17]17은 인간 DNA 복제 개시 부위, 유사한-크기의 대조군 영역(점선), Refseq 엑손, 프로모터(TSS 영역의 500 bp 업스트림으로 정의됨) 및 인트론에 대해 플롯화된 누적 Phastcon20way 점수를 도시한다.
[도 18] 도 18은 G4Hunter에 의해 정의된 G4(인실리코(in silico)) 또는 미스매치(시험관내 G4)와 중첩되는 각각의 변위치에서 기원의 백분율을 보여주는 그래프를 도시한다. 점선(CTL)은 대조군 영역과의 중첩을 나타낸다.
[도 19] 도 19는 인간 DNA 복제 기원을 플랭킹하는 영역 및 대조군 게놈 영역의 염기 함량을 도시한다. 빈도 플롯은 기원 정상(summit)에 모여있다. 염기 빈도는 각각의 염기의 비율(0 내지 1)을 나타낸다. 인간 게놈은 게놈 평균으로서 제시된 바와 같이 30% A,T 및 20% G, C로 이루어진다. 기원은 최고 G-함량 업스트림으로 배향된다.
[도 20] 도 20은 개시 부위 정상(점선)과 가장 가까운 ORC1(빨간색), ORC2(진한 빨간색) 및 MCM7(파란색) 결합 영역의 중심/정상 사이에 측정된 거리의 빈도를 나타내는 밀도 플롯을 도시한다. 기원은 최고 G-함량 업스트림으로 배향된다.
[도 21] 도 21은 추계적 기원에 대해서를 제외하고는 도 20과 동일한 도면이다.
[도 22] 도 22는 핵심 기원의 개략도이다. 수직선은 IS 정상을 나타낸다. 가장 가까운 ORC1, ORC2 및 MCM7 피크 중심, 뿐만 아니라 핵심 IS 정상으로부터의 이들의 평균 거리가 제시된다. ORC1, ORC2 및 MCM7 결합 부위의 평균 크기는 좌측에 나타나 있다.
[도 23] 도 23은 게놈-스캐닝(GS) 알고리즘에 기초하여 예측될 수 있는 기원의 백분율을 보여주는 막대 플롯을 도시한다. 점선 막대는 대조군 영역과의 예상된 중첩량을 나타낸다. 파이 차트는 위양성 결과(회색)의 백분율을 보여준다. P-값은 중첩에 대한 관찰값 및 예상값을 사용하여 카이-제곱 적합도 검정에 의해 수득된다.
[도 24] 도 24는 도 23에서와 같이 GS 알고리즘에 의해 예측 가능한 각각의 변위치에서 기원의 백분율을 도시한다.
[도 25] 도 25는 도 23에서와 같이 GS 알고리즘에 의해 예측된 무스 무스쿨루스(Mus musculus) 기원의 백분율을 도시한다.
[도 26] 도 26은 GS 알고리즘과 2개의 상이한 머신 러닝 알고리즘(탐욕적 특징 선택(greedy feature)과 함께 단일 벡터 머신(SVM) 및 로지스틱 회귀(LR))의 조합을 사용하여 예측될 수 있는 핵심 기원의 백분율을 나타내는 막대 플롯을 도시한다. P-값은 중첩에 대한 관찰값 및 예상값을 사용하여 카이-제곱 적합도 검정에 의해 수득된다.
[도 27] 도 27은 기원인 것으로 예측된 영역의 특성을 보여주는 개요(schema)이다. 개시 부위에 대해 바로 업스트림(0.5 Kb) 및 원위부 업스트림(2 Kb) 영역 내 G-풍부도(richness)는 예측 파라미터이다.
[도 28] 도 28은 GENCODE 유전자(빨간색)의 프로모터 영역(± 2 Kb의 TSS)과 중첩되는 각각의 변위치에서의 DNA 복제 기원의 백분율을 나타내는 플롯을 도시한다. 기원과 동일한 크기와 수의 무작위로 셔플링된 게놈 영역인 대조군 영역(더 옅은 색상)과의 중첩이 또한 제시된다. P-값은 중첩에 대한 관찰값 및 예상값을 사용하여 카이-제곱 적합도 검정에 의해 수득된다.
[도 29] 도 29: 유전자간 영역과의 중첩에 대해 도 28에서와 같다(GENCODE 유전자의 >2 Kb 업스트림, TSS는 배제됨).
[도 30] 도 30: 유전자 본체(body)와의 중첩에 대해 도 28에서와 같다(배제된 TSS의 2 Kb 다운스트림의 유전자 영역).
[도 31] 도 31은 TSS의 +/- 2 Kb 내에 DNA 복제 기원을 수용하는 CpG-함유 유전자 프로모터의 백분율을 나타내는 막대 플롯을 도시한다. 조혈 세포에서 상이한 전사 활성 수준을 갖는 프로모터가 제시된다(침묵(silent) = 0, 낮음 = 0 내지 15, 중간 = 15 내지 60, 높음 = >60 RPKM). 이 도면에서, 프로모터는 CpG 섬이 TSS(Gencode v25)의 +/- 2 Kb 내에 존재한다면 CpG-함유(CpG(+))인 것으로 여겨진다.
[도 32] 도 32는 조혈 세포에서 상이한 전사 산출 수준(침묵 = 0, 낮음 = 0 내지 15, 중간 = 15 내지 60, 높음 = >60 RPKM)을 갖는 유전자의 TSS의 2 Kb 내에 위치한 기원의 평균수를 보여주는 막대 플롯을 도시한다.
[도 33] 도 33은 조혈 세포에서 (d)에서와 같이 상이한 전사 산출 수준을 갖는 유전자의 TSS의 2 Kb 내에 위치한 기원의 평균수를 보여주는 막대 플롯을 도시한다. p-값은 R에서 윌콕슨 검정(Wilcoxon test)을 사용하여 수득되었다.
[도 34] 도 34는 조혈 전구체에서 CpGi(+) 프로모터의 전사 산출(y-축; RPKMs, Log2)과 조혈 전구체에서 이들 유전자의 TSS의 ±2 Kb 내에 위치한 핵심 기원의 활성(x-축; 정규화된 SNS-seq 카운트, Log2)의 상관관계를 보여주는 도트 플롯을 도시한다. 상위 및 하위 5% 이상치(outlier)는 제거되었다. 상관관계에 대한 피어슨 상관관계 계수(r) 및 p-값은 상단에 나타나 있고, 추세선은 제시되어 있다.
[도 35] 도 35: 도 31에서와 같이 CpGi(-) 프로모터 영역에 대한 것이다.
[도 36] 도 36: 도 32에서와 같이 CpGi(-) 프로모터 영역에 대한 것이다.
[도 37] 도 37: 도 33에서와 같이 CpGi(-) 프로모터 영역에 대한 것이다.
[도 38] 도 38: 도 34에서와 같이 CpGi(-) 프로모터 영역에 대한 것이다.
[도 39] 도 39는 발견의 개략적인 요약을 나타낸다. CpGi(+) 프로모터(검은색)는 DNA 복제 기원을 이의 전사 상태와 상관없이 수용하는 경향이 있는 한편, CpGi(-) 프로모터(회색)는 이것이 전사적으로 활성일 때 기원을 수용하는 경향이 있다.
[도 40] 도 40은 형질전환되지 않은(흰색) 및 불멸화된(회색) 세포주에서 식별된 공유된 핵심 기원 및 추계적 기원의 백분율을 보여주는 오일러 다이어그램을 도시한다.
[도 41] 도 41: 불멸화된 세포에서 추계적 기원이 크게 증가된다. 막대 플롯은 각각의 세포 유형에서 식별된 핵심 기원 및 추계적 기원의 백분율을 보여준다.
[도 42] 도 42는 불멸화된 세포 및 형질전환되지 않은 세포에서 식별된 기원(Q1 내지 Q10)의 백분율을 보여주는 선 플롯(Line plot)을 도시한다.
[도 43] 도 43은 프로모터 영역(TSS의 +/- 2 kb 이내)과 중첩되는 각각의 변위치(형질전환되지 않은 Q1 내지 Q10, 파란색, 불멸화된 Q1 내지 Q10, 분홍색)에서의 기원의 백분율을 도시한다. 예상된 기회 중첩(chance overlap)은 점선(더 옅은 색상)으로 제시된다. P-값은 카이-제곱 적합도 검정에 의해 수득된다. 파란색으로 표시된 P-값은 형질전환되지 않은 세포에서의 중첩의 통계학적 분석을 나타내는 한편, 분홍색은 불멸화된 세포를 나타낸다.
[도 44] 도 44: GENCODE(v25) 유전자의 유전자 본체(TSS + 2 kb 영역을 배제함)와의 중첩에 대해서는 도 43에서와 같다.
[도 45] 도 45: hESC 및 K265 세포에서 이질 염색질-회합 H3K9me3 히스톤 마크에 대해 농화된 영역(hESC, 좌측 패널)과의 중첩 및 HMM에 의해 이질 염색질로서 정의된 영역과의 중첩(우측 패널)에 대해 도 43에서와 같다.
[도 46] 도 46은 위상적 회합 도메인(TAD: topologically associating domain)에 걸친 핵심 기원(빨간색) 밀도를 보여주는 플롯을 도시한다. 모든 TAD에 걸친 빈(bin)(100개 빈)당 평균 기원 밀도가 플롯화되었다(y-축, 기원 / Mb). 핵심 기원 밀도는 TAD 경계에서 더 높아, "웃는 모양의" 추세선을 생성한다. p-값은 R에서 비모수 윌콕슨 검정(non-parametric Wilcoxon test)을 사용하여 수득되었다.
[도 47] 도 47: 추계적 기원에 대해 도 46에서와 동일하다.
[도 48] 도 48은 TAD 경계 및 TAD 중심에서 핵심 기원과 추계적 기원 둘 다로부터 나오는 19개 시료에 걸친 정규화된 평균 SNS-seq 신호의 합계(y-축, 총 개시)를 보여주는 막대 플롯을 도시한다. SNS-seq 신호의 총량은 TAD 경계에서 1.53배 더 높다.
[도 49] 도 49는 도 46에서와 같이 TAD에 걸쳐 HMEC(파란색) 및 ImM-1 세포(주황색)에서 활성인 핵심 기원의 밀도를 도시한다.
[도 50] 도 50: HMEC 및 ImM-1 세포에서 활성인 추계적 기원에 대해서를 제외하고는 도 49에서와 동일하다.
[도 51] 도 51: HMEC(부모(parental)) 및 불멸화된 ImM-1 세포 유형에 대해 도 48에서와 같다.
[도 52] 도 52는 적절한 대조군과 함께 실험적 SNS-seq 절차의 요약을 도시한다.
[도 53] 도 53은 6개의 상이한 세포주에서 모든 식별된 인간 기원의 기원 활성 히트맵을 도시한다. 기원은 정규화된 SNS-seq 판독물의 수에 기초하여 이들 기원의 평균 활성에 따라 분류되었다. 그 후에, 인간 기원은 32,074개 기원/각각 포함한 10개의 동일-크기의 변위치(Q1 내지 Q10)로 나뉘어졌다.
[도 54] 도 54: 맵핑성은 상이한 변위치에 걸쳐 기원에 대해 유사하다. 완전히 맵핑 가능한 영역(UCSC-Umap, 1의 맵핑 가능성 점수)과 중첩되는 기원 중 적어도 50%를 갖는 각각의 변위치에서의 기원의 백분율이다.
[도 55] 도 55: 맵핑된 기원 영역 외부의 넓고 확산적인 개시는 실질적이지 않다. 인간 게놈의 초기 및 후기 복제 도메인에서 총 확산적 개시의 분석은, 단지 2개의 세포 유형만 기원 영역 외부에 일부 개시 신호를 가짐을 드러낸다. hESC 세포에서. 모든 DNA 복제 개시 중 9.6%는 식별된 기원 영역 외부의 초기(후기가 아님) 복제 도메인으로부터 비롯된다. Im ImM-1 세포 유형, 모든 개시 중 14.7%는 기원 영역 외부에서 후기-복제(초기 복제가 아님) 도메인으로부터 비롯된다.
[도 56] 도 56: 대부분의 핵심 기원은 게놈에서 클러스터링된다. 파이 차트는 (i) 클러스터링되어 발견된(즉, 서로로부터 7 kb 미만), (ii) 느슨하게 클러스터링되어 발견된(서로로부터 7 kb 초과이지만 15 kb 미만), 및 (iii) 단리되어 발견된(가장 가까운 핵심 기원까지 15 kb 초과임) 핵심 기원의 백분율을 보여준다. 우측 패널은 정의된 상이한 클러스터의 개략도를 도시한다.
[도 57] 도 57: 마우스 게놈에서 유사한 수의 영역은 또한 다량의 DNA 복제 개시 사건을 수용한다. 파이 차트는 가장 활성인 64,148개의 기원(인간 세포에서와 동일한 수) 및 나머지 더 낮은 활성의 기원을 포함하는 정규화된 SNS-seq 태그의 백분율을 보여준다.
[도 58] 도 58은 3개의 불멸화된 세포주에 의해 공유되는 기원의 분획을 보여주는 오일러 다이어그램을 도시한다.
[도 59] 도 59는 이전의 SNS-seq 연구에서 검출된 기원과 중첩되는 각각의 변위치에서 기원의 백분율을 보여주는 블랙 도트를 도시한다. 회색점은 본 발명자들의 기원과 동일한 크기와 수의 무작위로 셔플링된 대조군 게놈 영역의 예상된 기회 중첩을 나타낸다. P-값은 중첩에 대한 관찰값 및 예상값을 사용하여 카이-제곱 적합도 검정에 의해 수득된다.
[도 60] 도 60: INI-seq에 의해 식별된 영역에 대해 도 59에서와 같다. 빨간색 점은 INI-seq에 의해 식별된 초기-발화(early-firing) 기원의 백분율을 도시하고, 이는 가장 초기의 발화 기원을 식별하는 시험관내 방법이다.
[도 61] 도 61: OK-seq 영역에 대해 도 59에서와 같다.
[도 62] 도 62: 조밀하게 클러스터링된 핵심 기원은 대안적인 기원 맵핑 방법인 OK-seq에 의해 식별될 가능성이 더 높다. 막대 그래프는 OK-seq에 의해 식별된 DNA 복제 개시 구역과 중첩되는 조밀하게 클러스터링된 핵심 기원(검은색)의 백분율을 보여준다. 점선 막대는 OK-seq 영역과 동일한 크기와 수의 무작위로 셔플링된 대조군 게놈 영역의 예상된 기회 중첩을 나타낸다. P-값은 중첩에 대한 관찰값 및 예상값을 사용하여 카이-제곱 적합도 검정에 의해 수득된다.
[도 63] 도 63: 핵심 기원은 예비-RC 구성요소 ORC1 및 ORC2 결합 부위와 중첩된다. 그래프는 ± 2 kb 내에서 ORC1 또는 ORC2(빨간색) 또는 ORC2(파란색)에 의해 결합된 영역과 중첩되는 각각의 변위치에서 기원의 백분율을 보여준다. 더 연한 점은 본 발명자들의 기원과 동일한 크기와 수의 무작위로 셔플링된 대조군 게놈 영역의 예상된 기회 중첩을 나타낸다.
[도 64] 도 64: 더 큰 게놈 영역을 차지하는 ORC2 결합 부위는 DNA 복제 기원과 회합될 가능성이 더 높다. 파이 차트는 핵심 또는 추계적 기원(± 2 Kb 이내)과 교차하는 게놈 내 ORC2-결합 부위의 백분율을 나타낸다. 좌측 패널은 1 Kb보다 더 긴 ORC2-결합 영역을 나타내고, 우측 패널은 2 Kb보다 더 긴 ORC2-결합 영역을 나타낸다. p-값은 관찰된 중첩값 및 예상된 중첩값과 함께 R에서 카이-제곱 적합도 검정을 사용하여 수득되었다.
[도 65] 도 65: ORC1-결합된 영역에 대해 도 64에서와 동일하다.
[도 66] 도 66: 핵심 기원(Q1 및 Q2)은 개시 부위의 업스트림에 보존된 서열을 갖는다. 그래프는 각각의 측면 상에서 플랭킹 영역과 함께 기원 정상에 집중된 인간 기원(Q1 내지 Q10)의 평균화된 Phastcon20scores를 나타낸다. 기원은 G-풍부 영역을 업스트림에 갖도록 배향된다.
[도 67] 도 67: +/- 2 Kb 내에서 TSS와 회합되거나 회합되지 않은 기원에 대해 도 66에 도시된 바와 같다.
[도 68] 도 68은 G4 구조를 정의하는 데 사용되는 2개의 방법(미스매치 채점 또는 G4Hunter) 중 임의의 하나에 의해 정의된 바와 같이 추정 G4 구조(검은색)와 중첩되는 핵심 기원 및 추계적 기원의 백분율을 나타내는 막대 플롯을 도시한다. 점선은, 본 발명자들의 기원 영역과 동일한 크기와 수의 게놈의 정규화된 영역인 대조군 영역과의 예상된 중첩을 나타낸다. P-값은 중첩에 대한 관찰값 및 예상값을 사용하여 카이-제곱 적합도 검정을 나타낸다. (*) 추계적 기원 Q3 내지 Q7은 G4 영역(최대 p=0.0002)과 유의하게 중첩되는 한편 Q8 내지 Q10은 그렇지 않음을 주목한다.
[도 69] 도 69: 배향된 핵심 기원 정상의 400 bp 업스트림을 망라하는 영역에 대한 모티프 농화 분석(HOMER를 사용함)이다. 이 도면의 분석은 무작위배정된 게놈 영역에 걸친 농화를 나타낸다.
[도 70] 도 70: 좌측 패널은 핵심 기원과 동일한 C 및 G 빈도를 함유하는 무작위배정된 게놈 영역에 걸친 모티프 농화를 나타낸다. 우측 패널은 디뉴클레오타이드 "CG"와 동일한 빈도를 함유하는 무작위배정된 게놈 영역에 걸친 모티프 농화를 나타낸다.
[도 71] 도 71은 DNA 하이퍼-모티프에 기초한 기원을 예측하는 데 사용되는 알고리즘의 개략적인 다이어그램이다.
[도 72] 도 72는 마우스 DNA 복제(핵심 및 추계적) 기원을 플랭킹하는 영역 및 대조군 게놈 영역의 염기 함량이다. 빈도 플롯은 기원 정상(판독 누적에서 피크의 최고점)에 모여있다. 염기 빈도는 100 bp의 슬라이딩 창에서 각각의 염기의 비율을 0 내지 1의 척도로 나타낸다. 기원은 최고 G-함량을 갖는 측면을 업스트림에 갖도록 배향된다(세부사항에 대해서는 방법 참조).
[도 73] 도 73: 3개의 상이한 머신 러닝 알고리즘 방법에 대한 위양성률(회색)이다. LR은 탐욕적 특징 선택을 통한 로지스틱 회귀를 나타내며, SVM은 단변량 특징 선택 및 단일 벡터 머신을 나타내고, uLR은 단변량 특징 선택을 통한 로지스틱 회귀를 나타낸다.
[도 74] 도 74: 상이한 머신 러닝 방법은 동일한 핵심 기원을 실제로 예측한다. 오일러 다이어그램(크기에 맞게 도시됨)은 각각의 머신 러닝 방법에 의해 예측된 핵심 기원의 중첩을 보여준다.
[도 75] 도 75: 각각의 머신 러닝 알고리즘에 사용된 22개의 특징 각각의 중요도이다. 상단 패널은 LR 알고리즘에 의한 각각의 특질에 할당된 중량을 나타낸다. 하단 패널은 SVM 알고리즘에 의한 각각의 특질에 할당된 중량을 나타낸다. 각각의 특질의 상세한 설명(x-축)은 표 2에서 찾을 수 있다. Y-축은 각각의 알고리즘에 의해 각각의 변량에 할당된 중요도를 나타내는 임의 단위이다.
[도 76] 도 76은 TSS의 +/- 2 Kb 내에 DNA 복제 기원을 수용하는 모든 Gencode(v25) 유전자 프로모터의 백분율을 나타내는 막대 플롯을 도시한다. 조혈 세포에서 상이한 전사 활성 수준을 갖는 프로모터가 제시된다(침묵 = 0, 낮음 = 0 내지 15, 중간 = 15 내지 60, 높음 = >60 RPKM).
[도 77] 도 77은 조혈 세포에서 상이한 전사 산출 수준(침묵 = 0, 낮음 = 0 내지 15, 중간 = 15 내지 60, 높음 = >60 RPKM)을 갖는 유전자의 프로모터 영역(TSS의 +/-2 Kb) 내에 위치한 기원의 평균수를 보여주는 막대 플롯을 도시한다.
[도 78] 도 78은 조혈 세포에서 (d)에서와 같이 상이한 전사 산출 수준을 갖는 유전자의 프로모터 영역(TSS의 +/-2 Kb) 내에 위치한 기원의 평균수를 보여주는 막대 플롯을 도시한다. p-값은 R에서 윌콕슨 검정을 사용하여 수득되었다. 박스플롯 내의 선은 중앙값을 나타내는 반면, 박스의 경계는 제1 사분위수 및 제3 사분위수를 정의한다. 위스커의 하단 및 상단은 각각의 박스플롯에 대한 최소수 및 최대수를 각각 나타낸다.
[도 79] 도 79는 조혈 세포(HC) 분화 프로토콜의 개략적인 요약이다. HC(CD34+)는 3명의 독립적인 인간 제대혈 공여자로부터 단리되고, 3개의 독립적인 배양물에서 6일 내지 7일 동안 확장되었다. 그 후에, 에리트로포이에틴(+EPO)은 배양 배지(제0일)에 6일 동안 첨가되고, 세포는 SNS-seq 및 RNA-seq 분석을 위해 제0일, 제3일 및 제6일에 수합되었다.
[도 80] 도 80: 적혈구 분화(제6일) 후 증가된 활성을 갖는 기원은 적혈구 분화와 관련된 유전자를 수용하는 게놈 영역에 있다. EPO 첨가(제0일 대 제6일) 시 유의하게 상향조절된 기원의 게놈 좌표는 GREAT로 분석되었다. GREAT 분석은 EPO 처리(제0일 대 제6일) 시 유의하게 상향조절된 기원의 게놈 좌표 상에서 수행되었다. 기원 영역은 GREAT의 단일-유전자(SG) 규칙을 사용하여 유전자와 회합되었다. 단지 하나의 범주는 이항 p-값(Binomial p-value) p<0.05에서 통계학적으로 유의한 것으로 나타났으며, 이는 여기서 플롯화되었다.
[도 81] 도 81: 침묵 유전자는 이의 프로모터 영역 근처에 CpG 섬(CpGi)을 함유하는 가능성이 더 낮다. 막대 플롯은 TSS 영역(± 2 Kb) 내에 CpGi를 함유하거나(CpG(+), 검은색) 함유하지 않는(CpG(-), 흰색) 조혈 세포(도 76에서와 같이 정의됨)에서 상이한 전사 활성 수준을 갖는 GENCODE(v25) 유전자의 분획을 나타낸다.
[도 82] 도 82는 상이한 전사 산출(침묵 = 0, 낮음 = 0 내지 15, 중간 = 15 내지 60, 높음 = >60 RPKM)을 갖는 유전자의 프로모터 영역(TSS의 +/- 2 Kb) 내에 위치한 기원의 평균 활성을 보여주는 박스플롯을 도시한다. G-풍부 TSS는 ± 2 Kb 내에 DNA의 G-풍부(500 bp당 >37%) 스트레치를 함유하는 TSS로서 정의되었고; 이 도면에서 유의성에 대한 p-값은 R에서 윌콕슨 검정을 사용하여 수득된다. 박스플롯 내의 선은 중앙값을 나타내는 반면, 박스의 경계는 제1 사분위수 및 제3 사분위수를 정의한다. 위스커의 하단 및 상단은 각각의 박스플롯에 대한 최소수 및 최대수를 각각 나타낸다.
[도 83] 도 83은 본 발명에 사용된 세포 유형에서 Q1, Q2(핵심 기원) 또는 Q3 내지 Q10(추계적 기원)으로부터 기원하는 기지의 기원에서 DNA 복제 개시 사건(정규화된 SNS-seq 카운트에 의해 평가된 바와 같음)의 백분율을 나타내는 파이 차트를 도시한다.
[도 84] 도 84: 기원 G-풍부 서열-특이성은 불멸화 시 상실된다. 불멸화된 세포에서, 부모 세포주(HMEC)와 비교하여 하향조절되는 기원(검은색 막대)은 CpGi(좌측 패널) 또는 G4(우측 패널) 요소와 중첩되는 경향이 있다. 대조적으로, 불멸화 시 상향조절되는 기원(흰색 막대)은 CpGi 또는 G4 요소와의 예상된 중첩보다 더 작다. 참조로서, 점선은 제시된 CpGi(좌측 패널) 또는 G4(우측 패널)과 중첩되는 모든 기원의 백분율을 도시한다.
[도 85] 도 85: 불멸화 시 상향조절되거나 하향조절되는 핵심 기원에 대해서를 제외하고는, 도 84에서와 동일하다. 참조로서, 점선은 제시된 CpGi(좌측 패널) 또는 G4(우측 패널)과 중첩되는 핵심 기원의 백분율을 도시한다.
[도 86] 도 86: 마우스 배아 줄기세포6의 위상적 회합 도메인(TAD)에 걸친 마우스 핵심 기원(좌측 패널) 및 추계적 기원(우측 패널) 밀도이다. TAD 도메인(파란색) 또는 동일-크기의 대조군 영역(회색)을 따른 기원 밀도는 하기와 같이 계산되었다. TAD는 100개의 동일한 빈(슬라이스)으로 나눠지고, 각각의 빈에서의 기원 밀도는 Mb당 기원의 수로서 계산되었다. p-값은 R에서 비모수 윌콕슨 검정을 사용하여 계산되었다.
[도 87] 도 87: hESC H9(좌측 패널), HC(중간 패널) 또는 HMEC(우측 패널)에서 활성인 TAD에 걸친 핵심 기원 밀도(hESC H1에서 결정됨)이다. TAD에 따른 기원 밀도는 도 86에서와 같이 계산되었다.
[도 88] 도 88: 핵심 기원은 추정 조절 요소와 일치한다. 플롯은 추정 조절 기능(ReMap에 의해 정의된 바와 같음, >10 피크)을 갖는 인간 게놈 영역과의 기원(Q1 내지 Q10)의 중첩을 도시한다.
[도 89] 도 89: DpnI 시험의 원리이다.
[도 90] 도 90: 복제 기원에 대한 수용체 벡터로서의 pEPi-Del 벡터이다. 원래 벡터는 pEPi 벡터이다. pEPi-Del 수혜자 벡터는 SV40 복제 기원을 결실시킴으로써 pEPi로부터 서브클로닝되었다.
[도 91] 도 91: pEPi-Del 수용체 벡터는 SV40 복제 기원을 결실시킴으로써 pEPi로부터 서브클로닝되었다. 293T(T 항원을 발현함) 및 293(T 항원 없음) 세포는 pEPi(SV40 기원) 또는 pEPi-Del(기원이 결여됨)로 형질주입되었다. DpnI 검정의 종료 시(도 89), 카나마이신이 보충된 한천 상에서 성장할 수 있는 콜로니의 수가 추정된다. 부분 사진이 제시되어 있다.
[도 92] 도 92: 293T(좌측) 또는 293(우측)에서 수행된 실험에서 콜로니의 수를 도시하는 히스토그램이다.
[도 93] 도 93: DpnI 분해의 특이성을 체크하기 위한 대조군이다. Dam (-) 또는 Dam (+) 박테리아에서 제조된 DpnI-분해 플라스미드로 형질전환된 박테리아의 결과의 표시이다.
[도 94] 도 94: DpnI 분해 특이성 대조군과 비교하여 각각의 조건에 대한 복제된 플라스미드의 백분율을 도시하는 히스토그램이다.
[도 95] 도 95: 관심 기원의 클로닝 전략의 진화이다.
[도 96] 도 96: 형질주입된 세포의 항생제 선택을 가능하게 하는 유전자에 의한 eGFP 리포터 유전자의 대체 및 S/MAR 서열의 감소이다.
[도 97] 도 97: MAR5에 의한 S/MAR 서열의 감소는 2일(좌측) 및 5일(우측) 후 양호한 형질주입 효율을 유지시키는 것을 가능하게 한다.
[도 98] 도 98: MAR5에 의한 S/MAR 서열의 감소는 벡터의 복제 잠재성을 보존시킨다.
[도 99] 도 99: 퓨로마이신 내성 유전자에 의한 eGFP 리포터 유전자의 치환이다.
[도 100] 도 100: 퓨로마이신 내성 유전자에 의한 eGFP 리포터 유전자의 치환은 최대 적어도 13일까지 복제의 평가를 가능하게 한다.
[도 101] 도 101: pPuroDel-MAR5-MCS 리포터 벡터 내로 삽입될 복제 기원을 함유하는 서열의 특성이다.
[도 102] 도 102: pPuroDel-MAR5-MCS 및 pPuroDel-MAR5-λORI-MCS이다.
[도 103] 도 103: vectORI 라이브러리(5개 플라스미드의 풀(pool)당)에 함유된 플라스미드의 복제 능력을 평가하기 위한, 비-복제된 플라스미드의 DpnI 분해에 기초한 신속한 복제 검정의 적용이다.
[도 104] 도 104: 풀 A 내지 F에 대한, 플라스미드(형질주입 후 6일째)의 복제 능력의 결과를 도시하는 그래프이다.
[도 105] 도 105: 분해되지 않거나 NotI/SacI 또는 BamHI/SacI로 분해된, 단리된 클론의 아가로스 겔 상에서의 이동 프로파일이다.
[도 106] 도 106: 분해되지 않거나 2개의 효소로 분해된, 클론 15_2의 아가로스 겔 상에서의 이동 프로파일이다.
[도 107] 도 107: 이중(DBL) 플라스미드 또는 단일 플라스미드의 아가로스 겔 상에서의 이동 프로파일이다.
[도 108] 도 108: 단일 플라스미드 및 이중 플라스미드의 개략도이다.
[도 109] 도 109: 이중 플라스미드와 단일 플라스미드 사이의 복제율을 도시하는 히스토그램이다.
실시예
실시예 1 ― 인간 기원의 특징화
DNA 복제는 복제 기원이라고 하는 다수의 게놈 위치로부터 개시한다. 후생동물에서, 기원 사양에 관여하는 DNA 서열 요소는 파악하기 어렵다. 본 발명자들은 만능(pluripotent), 1차, 분화적, 및 불멸화된 인간 세포를 검사하였고, 핵심 기원이라고 하는 부류의 기원이 상이한 세포 유형에 의해 공유되고 임의의 세포 집단에서 모든 DNA 복제 개시 사건 중 약 80%를 수용함을 실증한다. 본 발명자들은 인간 게놈과 마우스 게놈 둘 다에서 대부분의 핵심 기원과 일치하는 공유된 G-풍부 DNA 서열 시그너처를 검출한다. 전사 및 G-풍부 요소는 복제 기원 활성과 독립적으로 관련이 있을 수 있다. 컴퓨터 알고리즘은 핵심 기원이 공통 모티프가 아니라 DNA 서열 패턴에만 기초하여 예측될 수 있음을 보여준다. 발명자들의 결과는 기여 확률(attributed stochasticity)에도 불구하고, 핵심 기원이 게놈 영역의 제한된 풀로부터 선택됨을 실증한다. 발암성 유전자 발현을 통한 불멸화는 정상 세포 분화가 아니지만 이질 염색질로부터의 증가된 추계적 발화 및 TAD 경계에서 저하된 기원 밀도를 초래한다.
방법
세포 및 조직 배양
H9 hESC 세포(WA-09; Wicell)를 ES Cell International(ESI, Singapore)로부터 수득하고, 기재된 바와 같이60 제조업체의 설명에 따라 유지시켰다. 간략하게는, 미분화된 hESC를 미토마이신 C-처리(10 g/ml, Sigma) 마우스 배아 섬유아세포(4-6 x 104 세포/cm2의 세포 밀도로 사용됨) 상에서 그리고 80% 넉아웃 DMEM, 20% 넉아웃 혈청 대체물, 1% 비필수 아미노산, 1 mM L-글루타민, 0.1 mM β-머캅토에탄올에 의해 이루어진 배지에서 성장시켰다. 계대배양 시, 8 ng/ml 인간 bFGF(Millipore 또는 Eurobio)를 배지에 첨가하였다. 말초 혈액 단핵 세포(조혈 세포, HC로 지칭됨)를 Montpellier의 Clinique Saint Roch로부터의 3명의 독립적인 인간 공여자의 제대혈로부터 Ficoll 밀도 구배 방법을 사용하여 단리하였다. 그 후에, HC를 항-CD34 항체와 커플링된 자기 비드에 의해 정제하여, 0.5 내지 1 x 106 CD34+ 세포를 초래하고, 배양물에 평판배양하고, Stem Span 배지(IMDM + 인슐린, 트랜스페린, BSA, 5% FCS + IL-3 + IL6 + SCF)를 보충하면서 생체외에서 6일 내지 7일 동안 확장시켰다. 적혈구생성 계통으로의 세포 분화를 에리트로포이에틴(EPO, 3 단위/mL)의 첨가에 의해 유도하였다. EPO 첨가 후 상이한 시점(제0일, 제3일 및 제6일)에서, 50 x 106 세포의 분취물을 수집하고, 분자생물학 실험(검증을 위한 SNS-Seq, RNA-seq, RT-qPCRs)을 위해 펠렛화시키는 한편, 나머지 세포를 배양물에 놔두었다. 적혈구생성 분화를 검증하기 위해, 조혈/적혈구 마커 CD36, CD11b, GlyA, CD71, CD49d, CD34, CD98, IL3R, CD13(Beckman Coulter)에 대한 항체를 사용한 유세포측정법 분석에 의해 세포의 표현형을 분석하였다. EPO 인큐베이션 시 적혈구 계열로의 분화를 또한, 계통 마커에 특이적인 프라이머를 사용하여 제0일, 제3일 및 제6일에 세포로부터의 RNA의 RT-qPCR 분석에 의해 확인하였다.
HMEC 세포를 단리하고, ImM1-3 세포를 이전에 기재된 바와 같이 생성하였다(https://www.biorxiv.org/content/early/2018/06/11/344465에서 입수 가능함). 간략하게는, TP53(ImM-1)에 대한 안정하게 형질주입된 shRNA를 사용하여 HMEC 세포를 초기에 불멸화시켰다. 그 후에, 인간 RAS(ImM-2) 또는 WNT(ImM-3)를 과발현시키기 위해 플라스미드의 안정한 형질주입에 의해 ImM-1 하위클론을 생성하였다.
마우스 ESC를 이전에 기재된 바와 같이 배양하고, SNS-seq를 mESC(n=4) 및 신경 전구 세포(n=4) 상에서 실시하였다2. 총 248,682개의 기원을 식별하고, 인간에서와 같이 10개의 동일한 크기의 변위치로 나누었다.
윤리적 승인
hESC 및 조혈 세포를 수반하는 실험을 포함한 모든 실험은 프랑스 생명윤리법 및 "Agence Francaise de biomedicine"에 의해 확립된 지침을 준수한다. CD34+ 세포를 어머니의 서면 동의 후 익명화된 만삭아의 분만 후 수득된 제대혈로부터 단리하였다. 이러한 익명화된 시료의 사용은 인간 연구 대상자 보호국(Office of Human Research Protections)에 의해 발행된 지침에 따라 University Hospital of Montpellier Institutional Review Board에 의한 윤리적 검토로부터 면제되는 것으로 결정되었다.
초기 가닥 단리(SNS-seq) 및 분석
이 방법은 복제 기원을 맵핑하는 가장 정확한 절차이지만, SNS-seq 및 생물정보학 분석 방법론의 차이는 종종 없거나 부적합한 대조군을 사용하여 기원 식별의 위양성률(FPR)에 영향을 미쳐 후생동물 기원에 기인한 다양한 특성을 초래하였다. 본원에서, 발명자들은 본 발명자들의 SNS-seq 프로토콜 및 분석 파이프라인을 제공하고 있다. 간략하게는, 세포를 DNAzol로 용해시킨 다음, 초기 가닥을 수크로스 구배 크기 분획화에 기초하여 게놈 DNA로부터 분리하였다. 0.5 내지 2 kb에 상응하는 분획을 풀링하고, 5' 말단 인산화를 위해 T4 폴리뉴클레오타이드 키나제(NEB)와 함께 인큐베이션하고, 140 단위의 λ-엑소뉴클레아제(λexn)와 함께 밤새 인큐베이션에 의해 분해시켰다. 100 단위의 λexn을 이용한 두 번째 밤새 분해를 수행하였다. λexn은 RNA-프라이밍된 초기 가닥22이 아니라 오염성의 절단된 게놈 DNA를 분해한다. 실험 배경 대조군으로서, 각각의 세포 유형에 대한 고분자량의 게놈 DNA를 초기 가닥과 동일한 크기로 가열-단편화하고, RNase A/XRN-1과 함께 인큐베이션하여 임의의 오염성 초기 가닥에서 RNA 프라이머를 제거한 다음, 시료와 동일한 양의 λexn으로 처리하였다.
본 발명자들은 SNS-Seq를 위한 본 발명자들 및 대부분의 실험실의 조건이 람다 엑소뉴클레아제 분해의 가능한 편향을 주장하는 보고서와 엄격히 상이함을 강조해야 한다. 첫째, 고전적인 SNS-Seq 프로토콜에서, 복제 기원에서 초기 RNA-프라이밍된 것을, DNA를 용융시키고, 뒤이어 수크로스 구배 원심분리에 의해 대량의 부모 DNA로부터 초기 가닥을 분리함으로써 정제한다. 단지 그 후에, 정제된 초기 가닥을 철저한 람다 엑소뉴클레아제 분해(DNA μg당 2,000 u 초과)로 분해한다. 이는 부분적으로 단일 가닥화된 전체 DNA를 분획화하는 BND 셀룰로스를 사용함으로써 대량의 DNA가 단순히 복제 중간체에서 농화되는 Foulk et al.62의 경우가 아니다. 그 후에, 람다 엑소뉴클레아제를 사용하여, 효소 대 DNA 비율이 발명자들의 실험실이 이용하는 비율보다 1000배 내지 3000배 더 작게 한다. 발명자들은 또한, 발명자들의 모든 대조군 시료(유사분열 DNA로부터의 초기 가닥, 또는 G0 DNA, 또는 고분자량 DNA는 매우 낮은 농화값을 제공함)를 반복해서 보고하였다.
각각의 시료에서 기원 농화의 품질을 우선, 기지의 인간 복제 기원에 대한 프라이머를 사용하여 qPCR에 의해 시험하였다. 다양한 기원에 대한 기원 활성을 검출하는 데 사용되는 프라이머를 표 4에 제공한다. 단일 가닥의 초기 가닥을 우선, CyScrib GFX 정제 키트(Illustra, 279606-02)를 사용하여 정제한 다음, DNA 중합효소 I(클레노브 단편(Klenow fragment)) 및 ArrayCGH 키트(Bioprime, 45-0048)를 사용하여 무작위 프라이밍에 의해 이중 가닥 DNA로 전환시켰다. cDNA 라이브러리를 TrueSeq Chip 라이브러리 제조 키트(Illumina)를 사용하여 제조하였다. 병행하여, 열-변성된 게놈 DNA 입력 대조군을 또한 동일한 방식으로 정제하고, 무작위-프라이밍하고, 라이브러리를 제조하였다. 모든 시료를 Montpellier GenomiX(MGX) 시설에서 Illumina HiSeq 2500 장치를 사용하여 시퀀싱하였다. Illumina로부터의 bcl2fastq 버전 2.17을 사용하여, fastq 파일을 생성하였다. 각각의 SNS-seq 복제물로부터의 Illumina 판독물(50 bp, 단일-말단)을 트리밍(trim)하고, Bowtie2(v2.2.6)를 사용하여 hg38에 정렬시켰다. 2개의 피크 호출 프로그램을 사용하여 피크를 호출하였다: MACS264(v2.2.1) 및 SICER65(hg38 및 mm10을 함유하도록 변형된 v1.1). 피크를 처음에 MACS2(디폴트 파라미터 + --bw 500 -p 1e-5 -s 60 -m 10 30 --gsize 2.7e9)를 사용하여 호출하고, 뒤이어 SICER[파라미터: 중복 임계값 = 1, 창 크기(bp) = 200, 단편 크기 = 150 유효 게놈 분획 = 0.85, 간격 크기(bp) = 600, FDR = 1e-3]에 의해 피크 호출하였다. 각각의 시료로부터 SICER 피크와 교차하는 MACS2 피크를 베드툴 인터섹트(bedtools intersect)를 사용하여 병합하여, 모든 인간 DNA 개시 부위(IS)의 포괄적인 목록을 생성하였다(표 1). ENCODE 프로젝트(hg38, ENCSR636HFF)에 의해 정의된 블랙리스트 영역을 최종 인간 DNA 복제 기원 목록으로부터 차감하였다. 마우스 SNS-seq 시료를 인간 SNS-seq로 처리하고, 또한 25,168개의 영역을 함유하는 각각의 변위치를 갖는 변위치(mQ1 내지 mQ10)로 나누었다. 주성분 분석 및 시료 거리는 단일 공여자로부터 수득된 세포 유형(즉, HMEC)에 대해, 다른 세포 유형보다 복제물 사이에서 기원의 중첩이 더 강함을 시사한다. 공여자-유래 세포 유형(조혈 세포)에 대해, 발명자들은 SNS-seq 시료가 처리 상태(즉, EPO를 이용한 처리)보다는 동일한 공여자 내에서 더 유사함을 관찰하였다. 이는 RNA-seq 데이터와 대조적이며, 여기서 시료는 이의 기원(공여자)이 아니라 이의 처리(EPO)에 따라 클러스터링된다.
SNS-seq 최적화 및 품질 제어
SNS-seq 데이터를 수득하고 분석하기 위해 상이한 실험적 및 생물정보학 방법론을 사용해 왔다. SNS-seq는 게놈 DNA를 특이적으로 분해하는 λexn 능력에 의존하는 한편, 새로 합성된, RNA-프라이밍된 초기 DNA를 무손상으로 놔둔다. 발명자들의 분석은 배경 또는 실험적 게놈 DNA 배경의 부재 하에 19개의 인간 SNS-seq 시료를 사용하여 기원 위치를 정의하기 위한 피크 호출이 시료당 대략 200,000개 내지 150,000개의 피크(피크의 평균 수)를 각각 식별하였음을 시사한다. 이 숫자는 적절한 실험 배경(RNAse 및 λexn로 처리된 가열-단편화된 게놈 DNA)이 사용될 때 약 절반으로 감소되며, 이는 적절한 배경의 사용이 피크-호출에서 위양성을 감소시키는 데 중요함을 시사한다. 발명자들이 배경 신호(RNAse+λexn)의 성질을 검사하였을 때, 발명자들은 무작위배정된 게놈 영역과 비교하여 G-풍부 영역(G4, G-풍부, CG-풍부)에 대해 단지 최소의 편향(250 bp당 약 2개의 판독물과 비교하여 250 bp마다 약 5개의 판독물)을 관찰하였으며, 이는 피크 호출 또는 다운스트림 분석을 벗어나기에(skew) 불충분한 값이다. 이는 발명자들의 실험 조건(특히 발명자들의 λexn 분해 조건) 하에, 추정 G4, G-풍부 및 GC-풍부 서열이 무작위배정된 DNA 서열만큼 대체로 효율적으로 분해되고, 분해에 내성인 영역에 의해 생성된 배경은 적합한 실험 배경 시료를 사용함으로써 설명될 수 있음을 확인시켜 준다.
기원의 정상 및 배향
기원의 정상은 맞춤형 스크립트가 있는 모든 시료의 bam 파일을 사용하여 25 bp 슬라이딩 창으로부터 50 bp의 빈에서 SNS-seq 판독물의 가장 높은 수를 계산함으로써 정의되었다(코드 가용성 참조). 최고수의 판독물을 갖는 빈의 중간점은 IS의 정상인 것으로 여겨졌다.
기원을, G-풍부 플랭킹 영역이 IS 정상의 업스트림(좌측)으로 배향되도록 IS 정상을 플랭킹하는 영역의 G-함량에 기초하여 플러스 또는 마이너스 가닥을 할당하였다. 이를 위해, 발명자들은 각각의 IS의 500 bp 내에서 G 염기의 수를 계산하고, 각각의 기원에 (+) 또는 (-) 가닥을 할당하여 G 염기 수가 가장 많은 500 bp가 IS의 업스트림으로 배향되도록 보장하였다.
DNA 복제 기원의 정량화, 분류, 및 차별적인 활성
이 프로젝트의 생물정보학은 버밍엄 대학교(CastLes 및 BlueBear)의 고성능 컴퓨팅 클러스터에 의해 지원을 받았다. DNA 복제 기원에서 SNS-seq 신호의 정량화를 모든 인간/마우스 기원 좌표를 사용하여 R-패키지 DiffBind(v3.9, dba.sCore: TMM_minus_background)를 사용함으로써 수행하였다. TMM_minus 명령은 TMM 기초 알고리즘을 사용하여 모든 19개 시료를 정규화하기 전에 신호에서 배경 신호를 차감하였다. 매뉴스크립트의 "정규화된 SNS-seq 신호"는 배경 및 TMM 정규화를 차감한 후 수득된 이들 값을 지칭한다. TMM 정규화 후, 각각의 기원에 대한 19개 시료에 걸쳐 평균 정규화된 SNS-seq 카운트를 계산하고, 기원들을 이 값에 기초하여 순위를 매겼다. 그 후에, 각각의 기원을, 평균 활성에 기초한 순위 목록에서 기원 위치를 나타내는 변위치(Q1 내지 Q10)에 할당하였다. 예를 들어, 활성의 상위 10번째 백분위수에 있는 모든 기원을 Q1에 할당하고, 10번째 백분위수와 20번째 백분위수 사이에 있는 모든 기원을 Q2에 할당하였다. 핵심 기원은 모든 Q1 및 Q2 기원인 한편, 추계적 기원은 모든 다른 변위치(Q3 내지 Q10)에 있었다. 슈퍼 기원은 >50의 정규화된 SNS-seq 카운트를 갖는 것으로 정의되었다. 슈퍼 기원은 본 분석에서는 포함하지 않았으나, 이들은 MYC, LaminB2 기원과 같이 게놈에서 초유비쿼터스한(ultra-ubiquitous) 기원에 관심 있는 독자들을 위해 표 1에 나열되어 있다.
각각의 세포 유형에서 핵심 기원에 속하는 SNS-seq 신호의 백분율을 결정하기 위해, 전체 정규화(배경-차감 및 정규화) SNS-seq 신호와 Q1, Q2 및 추계적 기원(Q3 내지 Q10)에 속하는 분획을 계산하였다.
차등 기원 활성을 R 라이브러리 Diffbind(v3.9, TMM_minus) 및 DeSeq2 연속으로(코드에 대한 코드 가용성 참조)를 사용하여 계산하였다.
초기 및 후기 복제 도메인으로부터의 총 개시
초기 및 후기 복제 도메인을 H9 및 CD34+ 조혈 전구체에 보편적인 초기 및 후기 복제 도메인에 기초하여 정의하였다(표 3). 기원 좌표(+/- 2 kb)를 도메인으로부터 제거하였다(가렸음). 그 후에, SNS-seq 신호를 시료와 배경 시료 둘 다에서 이들 도메인에서 정량화하고, RPKM에 의해 정규화하였다. 그 후에, 신호를 하기로서 계산하였다: 초기 복제 도메인에 걸친 시료 내 총 SNS-seq 신호 마이너스(-) 초기 복제 도메인에 걸친 배경 내 총 SNS-seq 신호. 동일한 것을 후기 복제 도메인에 대해 수행하였다. 각각의 세포 유형에 대해 평균 3개의 복제물을 계산하였다. 대부분의 세포 유형에 대해, 비-기원 복제 도메인으로부터의 신호는 배경을 초과하지 않았다(즉, 음성이었음).
발명자들이 초기 또는 후기(각각) 복제 도메인으로부터의 개시 신호가 배경을 초과함을 발견한 hESC 및 IMM-1에 대해, 발명자들은 비-기원 영역 및 기원 영역으로부터 개시 백분율을 계산하고 이를 도 55에 제시하였다.
핵심 기원의 클러스터링
핵심 기원의 클러스터링을, 가장 가까운 핵심 기원까지 7 kb의 최대 거리와 함께 베드툴 스위트(v.2.25, 명령어:베드툴 클러스터)를 사용하여 수행하였다. 베드툴은 범주 클러스터링을 수행하지 않음을 주목한다. 도 62는 클러스터링에 대한 다이어그램을 도시한다. 이는 70%의 핵심 기원이, 또 다른 핵심 기원으로부터 7 kb의 최대 거리에 있는 적어도 2개 이상의 핵심 기원을 갖는 클러스터에서 발견되었음을 의미한다. 최대 15%의 핵심 기원을 이루는 단리된 핵심 기원은 또 다른 핵심 기원으로부터 15 kb 초과 떨어져서 발견된다. 발명자들은 또한 "느슨하게 클러스터링된" 핵심 기원을 정의하였으며, 이는 가장 가까운 핵심 기원까지 7 kb 초과이지만 15 kb 미만이었다.
OK-seq 데이터와의 비교: 긴밀하게 클러스터링된 핵심 기원을 정의하기 위해, 발명자들은 6개 이상의 핵심 기원을 함유한 것에 대해 핵심 기원 클러스터를 스크리닝하였다. 이는 13,519개의 핵심 기원을 함유한 27,287 bp의 평균 크기를 갖는 1039개의 클러스터를 생성하였다. OK-seq가 X-염색체 및 Y-염색체를 맵핑하지 않았으므로, 발명자들은 또한 이러한 비교를 위해 이들 염색체로 맵핑하는 클러스터를 제거하였다. 조밀한 핵심 기원 클러스터의 크기는 OK-seq에 의해 정의된 평균 개시 구역과 대등하며, 이는 약 34 kb 크기이다.
IS와 예비-RC 보체 사이의 거리
피크 좌표를 관련 공급원(ORC124, ORC225 및 MCM726)으로부터 다운로드하고, 인간 게놈의 hg38 버전으로 맵핑하였다. ORC2 피크의 경우, 본 발명자들은 피크 정상을 제공받았고, ORC1과 MCM7 피크의 경우 피크 중심을 피크 정상으로서 계산하였다. ORC1 및 ORC2와의 중첩에 대해, 피크는 +/- 2 kb 연장되었다. 예비-RC 구성요소와 IS 정상 사이의 거리 밀도를 맵핑하기 위해, 발명자들은 IS의 10 kb의 거리 내에서 모든 예비-RC 구성요소에 대해 IS 정상과 ORC2 정상 또는 ORC1/MCM7 피크 중심 사이의 거리를 계산하였다. 그 후에, 발명자들은 이들 거리의 밀도를 R에서 플롯화하였다. 대조군으로서, 이 절차를 예비-RC 구성요소에 대한 무작위배정된 게놈 좌표로 반복하였고, 이는 IS의 업스트림 또는 다운스트림에서 임의의 농화를 보여주지 않았다.
데이터 분석 및 플롯화
히트맵, 박스플롯, 및 다른 플롯을 R에서 ggplot2(v3.1.0) 및 pheatmap(v1.0.12)을 사용하여 생성하였다. R에서 수득된 데이터를 사용하여 파이 차트를 엑셀(v16.16.23)로 생성하였다. 피어슨의 상관관계 매트릭스와 스피어만의 상관관계 매트릭스는 둘 다 (명령어 cor())를 사용하여 R에서 계산하였다. 주성분 분석(PCA) 및 오일러 다이어그램을 R에서 생성하였다(커맨드 pca, 라이브러리 오일러). 게놈 좌표(변위치, 대체 기원 맵핑 방법, 히스톤/예비-RC 결합 부위)(최소 중첩이 1 bp인 intersectBed) 사이의 비교, 뿐만 아니라 무작위배정된 게놈 좌표의 생성을 베드툴 스위트(가능한 경우 bedtools shuffle -chrom, -noOverlapping)를 사용하여 계산하였다. ORC1 및 ORC2 결합 부위와 기원 사이의 중첩의 계산을 위해, 2 kb의 최대 거리를 양성 중첩으로서 간주하였다. SNS-seq 판독 밀도 플롯 및 히트맵을 딥툴(deeptool)(plotProfile, plotHeatmap)을 사용하여 생성하였다. 필요할 때, UCSC LiftOver(UCSC Toolkit)를 사용하여 상이한 게놈 조립체의 게놈 좌표를 전환시켰다. 외부 공급원으로부터 다운로드된 게놈 영역의 전체 목록을 표 3에서 찾을 수 있다.
ReMap 및 추정 인핸서
기원을 ReMap atlas55 상으로 맵핑하였다(http://remap.cisreg.eu). ReMap은 Public 및 Encode 데이터세트로부터의 전사 조절자 ChIP-seq 실험의 병합 분석으로부터 비롯된다. ReMap 카탈로그는 485개의 전사 인자, 전사 공동활성자 및 염색질-리모델링 인자로부터 8,000만개의 피크를 포함한다. 중첩은 베드툴(v.2.25)로 평가하였으며, 이는 최소 10개의 ChIP-seq 피크 중첩을 갖는 영역만 카운팅하였다.
RNA-Seq 및 분석
기원 위치(SNS-Seq)가 전사 프로그램(RNA-seq)으로 적응되는지의 여부를 결정하기 위해 RNA-seq 프로파일링을 모든 HC 시료 상에서 수행하였다. 이를 수행하기 위해, ≥ 2 μg RNA를 TRIzol 시약(Sigma-Aldrich)을 사용하여 200,000개 세포의 분취물로부터 추출하고 정제하고, 뒤이어 RNEasy MiniKit(Qiagen 74104)를 사용하여 RNA 정제하였다. RNA 품질 및 양을 단편 분석기(Advanced Analytical)를 사용하여 분석하였다. cDNA 라이브러리를 TrueSeq Chip 라이브러리 제조 키트(Illumina)를 사용하여 Montpellier GenomiX 시설에 의해 제조하였다. 품질 관리(FastQC v0.11.5를 사용함) 후, TopHat 소프트웨어(버전 2.1.1)를 판독물을 맵핑하기 위해 Bowtie2(버전 2.2.8)를 통한 스플라이스 연접 맵핑(splice junction mapping)에 사용하였다. HTSeq-카운트(버전 0.6.1p1)를 사용하여 유전자 상에서의 판독물 카운트를 수행하였다. 유전자 주석을 GENCODE, 릴리스 25(GRCh38.p7, 2016년 9월 23일)로부터 다운로드하였다. 데이터를 edgeR(버전 3.8.6)에서 구현된 상대 로그 표현에 의해 정규화하고, 일반화된 선형 모델을 사용하는 DeSeq2(R 3.2의 버전 1.18.0)(결과를 edgeR 버전 3.8.6에서 확인하였음)를 사용하여 차등 유전자를 식별하기 위한 쌍별 비교 통계 분석을 수행하였다.
G-풍부 영역(G4, CpGi, G-풍부)의 정의
2개 방법을 사용하여, (i) K+ 및 피리도스타틴(PDS) 처리28(시험관내 G4)에 의해 유도된 미스매치의 식별 (ii) G4Hunter29(인 실리코 G4)에 의한 예측에 기초하여 인간 게놈에서 G4 요소를 정의하였다. 2개 데이터 세트 모두 hg19에서 생성되었으므로, 발명자들은 중첩을 검사하기 위해 발명자들의 기원 좌표를 hg19로 전환시켰다.
크기가 >300 bp인 CpG 섬을 UCSC(hg38)로부터 다운로드하였다. G-풍부 영역은 bedtools 명령어 bedtools makewindows, nuc 및 count를 사용하여 100 bp(hg38)의 슬라이딩 창에서 500 bp 창 내에서 G 밀도 >37%를 갖는 것으로 정의되었다. G-풍부 영역 목록을 도 79에서 분석에 사용하였다.
게놈 영역에서 염기 조성의 분석 및 모티프 발견
기본 조성을 HOMER66을 사용하여 분석하였으며, 100 bp를 창 크기로 취하고 IS 정상을 피크 중심으로 취하였다. 밀도 데이터를 Microsoft Excel로 시각화하였다.
HOMER(v4.11.1)를 사용하여, 핵심 기원 정상과 400 bp 업스트림 영역(배향된 기원에서, 이는 G-풍부 영역에 상응함) 사이에서의 모티프 농화에 대해 검색하였다. 발명자들은 하기 파라미터를 사용하였다; perl findMotifsGenome.pl hg38 -size given -len 4,6,8,10,12 -mask -norevopp [none, -noweight 또는 ―CpG].
진화 보존 분석
Refseq 엑손, 인트론 및 프로모터 영역(전사 시작 부위의 -500 내지 0 bp 업스트림으로서 정의됨) 및 Phastcon 점수(Phastcon20way)를 UCSC 표 브라우저(마지막 업데이트 12/2017)로부터 다운로드하였다. 각각의 영역 세트의 평균 누적 파스트콘 점수(phastcon score)를 R 및 베드툴 스위트(베드툴 커버리지)를 사용하여 계산하였다. LiftOver(UCSC toolkit) 또는 BLAST를 사용하여 인간 기원 좌표를 마우스 좌표로 전환시켰다. 매우 유사한 결과를 BLAST 및 LiftOver로 수득하였고, 발명자들은 LiftOver로부터의 결과를 제시하였다.
인간 및 마우스 게놈에서 DNA 복제 기원의 예측
인간 및 마우스 게놈을 베드툴(메이크윈도우) 스위트(인간 게놈에 대해 약 3,000만개의 창)를 사용하여 100 bp의 슬라이드 창 크기와 함께 쌍별 500 bp 창(왓슨 가닥 및 크릭 가닥 별개로)으로 나누었다. 그 후에, 각각의 쌍을 이룬 창에서 각각의 뉴클레오타이드(A,C,G,T)의 수를 계산하였다(bedtools nuc). 쌍별(연속) 500 bp 창은, 제1 창에서 최소 28% G 및 연속 제2 창에서 최소 25% G를 갖는 DNA 서열 패턴(하이퍼-모티프) - 및 제1 창과 제2 창 사이에서 최대 A/T 함량은 0.21이라는 것과 함께 G 함량이 8% 내지 40%만큼 하락하는 요건을 적합화시키는 것으로 평가되었다. 이는 발명자들이 1,041,594개의 창 쌍을 식별하게 하였다. 그 후에, 보유된 창 쌍을 베드툴 병합을 사용하여 병합시켜, 비-중첩 추정 기원 영역(평균 크기가 1.7 kb인 228,442개의 영역)을 식별하였다.
인간 및 마우스 게놈에서 DNA 복제 기원의 예측
게놈 스캔 알고리즘
인간 및 마우스 게놈을 베드툴(메이크윈도우) 스위트(인간 게놈에 대해 약 3,000만개의 창, hg38)를 사용하여 100 bp의 슬라이드 창 크기와 함께 쌍별 500 bp 창(왓슨 가닥 및 크릭 가닥 별개로)으로 나누었다. 그 후에, 각각의 쌍을 이룬 창에서 각각의 뉴클레오타이드(A,C,G,T)의 수를 계산하였다(bedtools nuc). 쌍별(연속) 500 bp 창은, 제1 창에서 최소 28% G 및 연속 제2 창에서 최소 25% G를 갖는 DNA 서열 패턴(하이퍼-모티프) - 및 제1 창과 제2 창 사이에서 최대 A/T 함량은 0.21이라는 것과 함께 G 함량이 8% 내지 40%만큼 하락하는 요건을 적합화시키는 것으로 평가되었다. 동일한 알고리즘을 동일한 30 M 창 쌍에서 역보체 가닥(즉, 크릭 가닥, 제2 창에서 28% C, 제2 창에서 최소 25% C)에 대해 진행시켜, 검사된 창 쌍의 수를 6,000만개가 되게 하였다.
이는 발명자들이 1,041,594개의 창 쌍을 식별하게 하였다. 그 후에, 보유된 창 쌍을 "베드툴 병합"을 사용하여 병합시켜, 비-중첩 추정 기원 영역(평균 크기가 1.7 kb인 228,442개의 영역)을 식별하였다. 이러한 영역의 세트를 사용하여, 도 23 및 도 24에서 기원의 예측성을 정의하였다. 마우스 게놈에 대해, 동일한 알고리즘을 정확히 동일한 파라미터로 진행시켰으며, 이는 (mm10으로부터의 27 x 2백만개의 가능한 쌍 중에서) 689,285개의 창 쌍을 보유한다. 유사하게는, 이들 영역을 병합시켜(베드툴 병합) 230,052개의 비-중첩 영역을 생성하고, 베드툴(베드툴 인터섹트 -wa -u)을 사용하여 마우스 기원과 교차시켜 도 25를 생성하였다.
머신 러닝 및 하이퍼-모티프 분석
본 발명자들의 알고리즘에 대한 예측 변수는 비-중첩 좌표와 기원의 교차에 의해 정의된 "기원" 부류에 대한 멤버십이다(특히 핵심 기원에서 예측력을 최대화함).
500 bp 창의 3,000만개의 쌍을 2개의 동일한 크기의 데이터세트로 무작위로 분할하였다. 데이터세트 중 하나를 모델 개발의 종료 시 최종 검증을 위해 비축하였다(시험 세트). 다른 세트를 예측 모델의 훈련 및 내부 검증에 사용하였다. 다음으로, 훈련 세트를 10개의 비-교차 하위세트로 무작위로 분할하고, 10배 내부 교차-검증을 수행하였다(즉, 이들 하위세트 중 9개를 내부 훈련에 사용하고 나머지 1개를 모델의 내부 검증에 사용하였으며, 이를 10회 반복하였고, 매번 상이한 검증 하위세트를 이용하였음). 초기에, Genome Scan 알고리즘을 이들 10개의 내부 훈련 데이트세트 중 각각의 하나에서 진행시켰다. GS 알고리즘에 의해 생성된 1,041,594개의 영역의 세트 상에서(창 쌍, 위를 참조), 발명자들은 도메인 지식을 사용하여 22개 파라미터/예측인자의 세트를 작제하였다(표 2 참조). 그 후에, 머신 러닝 절차를 게놈 스캔의 산출물에 적용하여, 이로써 계층학적 분류인자를 작제하였다. 이 절차를 2개의 상이한 머신 러닝 알고리즘 (i) 탐욕적 증분 특징을 갖는 로지스틱 회귀 및 (ii) 올가미 정규화를 갖는 지지 벡터 머신(support vector machines with lasso regularisation)에 대해 100회 반복하였다. 탐욕적 특징 선택을 통계적 R-package CARRoT(Predicting Categorical and Continuous Outcomes Using One in Ten Rule, R CRAN package, 2018, Alina Bazarova and Marko Raseta, v1.0)의 변형된 버전에 의해 수행하였다. 소프트웨어를, 베드툴에 의해 교차하지 않는 게놈 영역으로 출력의 병합을 허용한 다음 이들 주어진 영역의 모델의 예측력을 평가하는 방식으로 변형시켰다. 지지 벡터 머신 예측을 R-패키지 sparseSVM67 및 위에 기재된 추가 스크립팅을 사용하여 수행하였다.
발명자들은 0.5*[TP/(TP+FN) + TN/(TN+FP)]로 정의된 균형(평균 등급) 정확도를 최대화하는 것을 목표로 하는 모델을 선택하였고, 여기서 TP, TN, FP, FN은 진양성, 진음성, 위양성, 위음성을 나타낸다. 기원의 합성적으로 작제된 음성 사례가 없기 때문에, 이들 양을 500 bp 창 쌍의 진양성, 진음성, 위양성 및 위음성 히트에 상응하는 영역의 전체 길이의 측면에서 계산하였다. 발명자들은 예측력의 향상이 10^-3보다 낮을 때까지 계속해서 탐욕적 특징 선택에 특징을 추가하였다. SVM으로 작업할 때 발명자들은 위에 정의된 바와 같이 가장 높은 교차-검증된 예측력을 유발한 페널티 파라미터를 선택하였다. 절차의 종료 시, 발명자들은 주어진 10배 교차-검증 파티션에 대해 가장 높은 예측력을 나타낸 각각의 방법에 대해 100개의 예측 모델을 수득하였다. 로지스틱 회귀의 경우, 최상의 모델은 하기 특징으로 이루어진 예측인자의 가장 높은 빈도로 출현하였다: 업_C_분획, 업_G_분획, 다운_T_분획, G_함량_2kb, rampG, AAA, GG, TTT(표 2). 일단 훈련이 완료되면, 10배 교차-검증에 기초하여 선택된 모델을 500 bp 창의 1,500만개 쌍의 전체 기원 훈련 세트로 적합화하였다. 그 후에, 생성된 훈련된 모델을 최종 홀드-아웃 시험 세트에서 시험하였다(아주 처음에는 훈련 모델로부터 단리되었고 모델 작제 단계 전반에 걸쳐 건드려지지 않았음). 각각의 알고리즘은 중복되지 않은 창 쌍을 보고하였음을 주목한다(즉, 창 쌍이 게놈 스캔 알고리즘에 의해 순방향과 역방향 스캔 절차 둘 다로 보유된다면, 이러한 창 쌍은 머신 러닝 알고리즘에 의해 한 번 양성으로 보고됨).
전체 게놈 예측을 생성하기 위해, 훈련된 모델을 GS로부터의 전체 영역 세트에서 진행시켜, LR에 대해 333,986개의 창 쌍 및 각각의 알고리즘에 의해 양성으로 불리는 SVM에 대해 279,195개의 창 쌍을 초래하였다. 이들 창 쌍을 베드툴(베드툴 병합)을 사용하여 병합하여, 67,297개(LR) 및 57,339개(SVM) 영역의 비중첩 창을 생성하였다. 발명자들이 게놈을 스캔하기 위해 사용한 슬라이딩 창 패턴으로 인해, 각각의 창은 9개의 다른 창을 중첩하므로, 동일한 게놈 영역이 여러 번 보고됨을 주목한다. 발명자들은 베드툴 병합을 사용하여 반복 영역을 병합함으로써 이들 영역을 제거하고, 따라서 게놈의 비중첩 영역을 수득하였다. 이들 비중첩 영역을 사용하여 최종적으로 예측된 영역(즉, 핵심 기원의 경우 도 26) 또는 전체 위양성률(기원을 교차하지 않는 영역, 도 73, 평균 단편 길이로 정규화됨)을 생성하였다.
TAD 도메인에 걸친 기원 밀도 및 총 개시 신호의 계산
TAD 도메인에 걸친 기원 밀도를 계산하기 위해, 각각의 TAD를 100개의 빈으로 나누었다(베드툴 메이크윈도우 -n 100). 각각의 TAD 내 빈 크기가 TAD 크기의 분획이기 때문에, TAD의 각각의 빈 내의 기원의 수를 빈 크기로 정규화하였다. TAD에 걸친 기원 밀도가 상이한 세포 유형에서 유의하게 상이한지의 여부를 결정하기 위해, 각각의 빈에 대해 TAD에 걸친 기원 밀도를 각각의 TAD 중간에 있는 20개의 빈(빈 번호 40 내지 60)으로 정규화하였다. 이들 값은 TAD에 걸친 전체 기원 밀도보다는 TAD 중간과 경계 사이에서의 차등 기원 밀도를 나타낸다.
발명자들은 TAD 경계 또는 TAD 중심에 속하는 기원 영역으로부터 정규화된(배경 차감된) 신호의 합계를 계산하였다(표 3, 48 및 도 51에서의 데이터세트). 이전과 같이, TAD 도메인을 100개의 빈으로 나누고, 20개의 빈(1 내지 10, 91 내지 100)을 경계로서 정의한 한편, 20개의 빈(41 내지 60)을 중심으로 간주하였다.
통계학적 유의성
상이한 통계학적 검정을 도면 범례에 나타낸 바와 같이 데이터 성질에 따라 사용하였다. 구체적으로, R 명령어 "wilcoxon.test", "t.test", 및 "chisq.test"을 사용하여 통계학적 유의성을 측정하였다. p=1E-307 및 p = 2E-16은 R의 메모리에 저장된 최저값을 나타낸다(버전에 따라). 카이.제곱 검정은 본질적으로 단측 검정인 한편, 윌콕슨은 비모수 분포를 추정한다.
데이터 가용성
외부 공급원으로부터 다운로드된 데이터를 표 3에서 찾을 수 있다. SNS-seq/RNA-seq에 대한 원시 판독 파일 및 처리된 파일은 액세스 코드 GSE128477로 NCBI Gene Expression Omnibus(GEO)에서 찾을 수 있다.
코드 가용성
SNS-seq 데이터를 분석하는 데 사용되는 스크립트 및 다른 생물정보학 파이프라인은 https://github.com/iakerman/SNS-seq에서 찾을 수 있다.
결과
인간 게놈에서 DNA 복제 기원의 풍경(landscape)
최적화된 SNS-seq 프로토콜(방법 및 도 52 참조)을 사용하여, 발명자들은 3개의 형질전환되지 않은(인간 배아 줄기세포, hESC; 제대혈 CD34(+) 조혈 세포, HC; 1차 인간 유선 상피 세포, HMEC) 및 HMEC 주로부터 유래된 3개의 불멸화된 세포 유형(ImM-1, ImM-2, ImM-3)을 나타내는 19개의 인간 세포 시료로부터 DNA 복제 IS를 식별하였다(도 1). 조사된 세포 시료의 높은 수로 인해, 총 320,748개의 IS를 식별하였고, 이들 중 압도적 다수는 불멸화된 세포 유형에 속하는 낮은 활성 IS였다(표 1a, 하기 섹션 참조). IS 레퍼토리는 이전에 식별된 인간 LaminB2, MYC, MCM4 및 HSP70 기원을 포함하였다(도 2표 1b).
원 데이터가 분명하게는 복제 기원 활성에서의 변동을 나타내었기 때문에, 발명자들은 평균 활성(즉, 평균 정규화된 SNS-seq 신호)에 기초하여 10개의 변위치에서 기원을 분류하였다: 기원의 상위 10%(최고 평균 활성)를 함유한 변위치 1(Q1)로부터 하위 10%(최저 평균 활성)를 포함한 변위치 10(Q10)까지(도 3, 도 53). 각각의 변위치에서의 기원은 유사한 맵핑성을 나타내었으며, 이는 인간 게놈에 매칭되는 SNS-seq 판독물의 능력의 측정치이다. 따라서, 상이한 변위치에 속하는 기원에서 SNS-seq 신호에서의 변동은 이들을 맵핑하는 발명자들의 능력에서의 기술적 차이로 인한 것이 아니었다(도 54)
놀랍게도, 발명자들의 분류는 70% 내지 85%의 기원 SNS-seq 신호가 분석된 모든 세포 유형에서 Q1 및 Q2 기원으로부터 기원하였음을 보여주었다(도 4, 표 1a). 이에 더하여, 발명자들은 게놈에 걸친 SNS-seq 신호의 대부분의 모든 농화가 발명자들의 연구에서 기원으로서 정의된 영역으로부터 비롯됨을 관찰하고, 이는 기원 영역 외부에서의 넓고 확산적인 개시가 실질적이지 않음을 시사한다(도 55, 방법 참조). SNS-seq 신호가 세포 집단에서 발생하는 DNA 복제 개시 사건의 양을 나타내므로, 발명자들은 Q1 및 Q2 기원이 대부분의 개시 사건을 수용한다고 결론을 내렸고, "핵심 기원"이라고 하는 이들 64,148개의 영역을 세포 유형과 상관없이 복제 개시 핫스팟으로서 강조한다.
본원에서 "추계적 기원"이라고 하는 나머지 80%의 IS(Q3 내지 Q10, 256,600개의 영역)는 19개의 시료에 걸쳐 낮은 평균 활성을 가졌고, 각각의 세포 유형에서 총 SNS-seq 신호 중 단지 약 15% 내지 30%만 수용하였다(도 4, 표 1a).
대부분의 핵심 기원은 함께 클러스터링되었는데, 가장 가까운 기원까지의 거리가 추계적 기원 또는 무작위 분포와 비교하여 핵심 기원에 대해 더 짧았다(도 5, 도 53 및 도 56). 이는 이전에 관찰된 커뮤니티 효과와 일관되었으며, 이로써 클러스터링된 기원은 단리된 기원보다 더 높은 활성을 갖는다4,10,22(도 56). 뚜렷하게는, 무스 무스쿨루스에서 유사한 수의 핵심 기원은 SNS-seq에 의해 검출 가능한 모든 개시 사건 중 69%를 수용하며, 이는 핵심 기원이 인간 게놈에 특이적이지 않은 특징임을 시사한다(도 57).
핵심 기원의 위치는 일관된다
기원 활성은 상이한 세포 유형에서 고도로 상관관계가 있었으며(도 6, 모든 비교에 대해 평균 피어슨 r = 0.69, p-값 < 2E-16), 이는 주어진 기원이 상이한 세포 유형에서 유사한 수준의 개시를 가짐을 시사한다. 상이한 세포 유형에 의해 공유된 약 77%의 기원은 핵심 기원이었다(표 1a). 대조적으로, 추계적 기원은 덜 공유되었다(도 7, 도 58). 핵심 기원이 상이한 세포 유형에서 더 고유하게 활성이라는 발명자들의 발견을 뒷받침하면서, 72%의 핵심 기원은 상이한 세포 유형을 사용한 독립적인 SNS-seq 연구에 의해 식별되었다(도 8, 도 59). 더욱이, 상이한 세포주에서 상이한 기원 맵핑 방법(INI-seq)에 의해 식별된 영역 중 49%는 발명자들의 기원과 중첩되었으며, 이들 중 대부분은 핵심 기원이었다(도 9). 초기 발화 핵심 기원은 이러한 초기-발화 기원을 맵핑하는 INI-seq에 의해 식별될 가능성이 더 높았다(도 60). 이에 더하여, OK-seq에 의해 식별된 대부분의 모든(87%) 영역은 이 연구에서 식별된 기원과 중첩되었다(도 10). 그러나, 이 방법이 5000 내지 10,000개의 영역만 맵핑하고, 평균 크기는 34 kb이므로; 이러한 중첩은 통계학적으로 유의하지 않았다. 그렇지만, 핵심 기원 및 밀착 클러스터에서 발견된 핵심 기원(방법 참조)은 OK-seq에 의해 식별된 것과 크기가 유사한 개시 구역을 닮아 있으며, OK-seq에 의해 식별된 영역과 유사하게 중첩되었다(49.7%, 도 61 및 도 62).
핵심 기원은 또한 예비-복제 복합체(pre-RC) 구성요소 ORC1, ORC2 및 MCM7에 의해 결합되는 것으로 이전에 제시된 영역과 일치하였다. 구체적으로, 28% 및 39%의 핵심 기원은 ORC2 또는 MCM7 결합 영역과 중첩되었다(도 11, 도 63). 클러스터링된 핵심 기원(개시 구역)은 예비-RC 구성요소-결합 영역과 더 자주 중첩되었다(ORC2와 40% 및 MCM7과 60%, 도 12). 모든 핵심 기원 중 단지 약 절반만 임의의 하나의 세포 유형에서 활성인 것을 고려하여, 중첩의 양은 대부분의 활성 핵심 기원이 예비-RC 구성요소 ORC2 및 MCM7과 회합됨을 시사한다. 역으로, 57%의 ORC1-결합 영역 및 55%의 ORC2-결합 영역은 SNS-seq에 의해 식별된 하나의 기원과 적어도 중첩되었다(도 13). 더 넓은 ORC1-결합 또는 ORC2-결합 영역은 에스. 폼베(S. pombe)에서 시사된 바와 같은 다수의 ORC1/2 결합 사건을 갖는 영역을 나타낼 것이며, 기원, 대부분 핵심 기원을 수용하는 가능성이 더 높았다(도 64 및 도 65).
요약하자면, 발명자들의 분석은 상이한 세포 유형에서 진실된(bona fide) IS를 나타내는 핵심 기원을 식별하였고, 이는 또한 대안적인 기원 맵핑 방법에 의해 식별된다. 평균적으로, 핵심 기원은 단일 세포 유형에서 식별된 모든 기원 중 약 40%를 나타내며, 이는 평균 약 30,000개의 영역을 나타낸다(도 14 및 도 15). 핵심 기원은 SNS-seq 데이터로 이전에 관찰된 "항시적/보편적 기원"과 상이함을 주목할 만하다. 발명자들의 분석은 이들 연구 중에서 가장 높은 수의 시료를 갖고, 발명자들의 데이터에 기초하여 발명자들은 모든 시료에서 활성인 기원을 드물게 관찰한다.
인간 게놈 및 마우스 게놈은 G-풍부 서열 시그너처를 공유한다
발명자들은 다음으로, DNA 복제 개시 부위가 마우스 및 인간 게놈에 걸쳐 상동성 영역에 놓이는지의 벼루를 조사하였다. 발명자들은 인간 기원 중 단지 작은 분획(8%)만 마우스 게놈에서 상동성 영역을 갖고 단지 2%만 또한 마우스 세포에서 기원으로서 식별됨을 발견한다(도 16, 좌측 패널). 발명자들은 무작위배정된 게놈 영역(7% 보존됨, 0.8% 중첩 마우스 기원, 도 16, 우측 패널)에 대해 대등한 수준의 상동성을 발견하고, 이는 대부분의 DNA 복제 개시 부위가 마우스 및 인간 게놈에서 상동성 영역에 위치하지 않음을 시사한다. 따라서, 발명자들은 20개의 포유류 종에 걸쳐 프로모터 및 엑손 영역과 비교하여 기원 DNA 서열의 낮은 수준의 서열 보존을 관찰하였으며, 이는 이들 서열이 진화 동안 상이한 계통에서 독립적으로 나타났다는 생각을 보강하였다(도 17). 흥미롭게도, 기원(기원 정상의 +/-5 Kb)을 플랭킹하는 영역의 Phascon20way 점수는 핵심 기원에 대해 IS 영역의 0.5 내지 3 Kb 업스트림에서 중간 정도로 보존된 영역을 나타내고, 이는 대체로 조절 요소/엑손 서열에 기인한다(도 66 및 도 67).
서열 상동성이 결여됨에도 불구하고, 게놈의 기능적 영역은 종 사이에서 공유되는 서열 요소를 함유할 수 있다. 그러므로, 발명자들은 다음으로 상이한 종의 복제 기원에 걸쳐 공유될 서열 요소를 검사하였다. 기원과 일치하는 DNA 서열 요소를 식별하기 위해, 발명자들은 IS와 G-풍부 추정 G4 구조 사이의 관계를 검사하였고, 이는 하나 이상의 구아닌 4분체를 함유하는 나선형 DNA 배치이다. 83%의 핵심 기원 및 34%의 추계적 기원은 2개의 상이한 방법에 의해 정의된 적어도 하나의 추정 G4 요소를 함유하였다(도 18, 도 68). 다수의 추정 G4 요소는 인간 및 마우스 게놈에서 예측되었으나, 이전에 주목된 바와 같이, 이들 중 단지 일부만 기원을 수용한다. 그러므로, 추정 G4 요소의 존재는 그 자체로는 기원 위치의 강한 예측인자가 아니지만, 대부분의 핵심 기원은 실제로 G4 요소를 함유한다.
마우스에서의 이전의 발견과 유사하게, IS의 업스트림의 수많은 G-풍부 모티프는 명백하였고(도 69), 심지어 제어 영역의 C/G 및 CpG 함량 정규화 후에도 기원 서열에서 농화되었다(도 70). 배향된 IS 정상의 ± 1.5 Kb 내에서 인간 기원의 염기 조성의 분석은 IS 중심의 최대 1.5 Kb 업스트림에 비대칭적인 농화와 함께 G-풍부 서열에서 농화되었다(도 19).
발명자들은 추가로, 복제 기원이 이 연구에서 게놈 상의 예비-RC 인자의 배치에 비해 위치를 결정하는 방법을 질문하였다. 발명자들이 IS에 비해 예비-RC 구성요소 ORC1, ORC2 및 MCM7의 위치를 정렬시켰을 때, 발명자들은 이들이 핵심 기원과 추계적 기원 둘 다에서 G-풍부 영역 근처에서 IS의 업스트림에 우선적으로 위치되었음을 발견하였다(도 20 및 도 21). 이에 더하여, IS와 이들 예비-RC 인자 사이의 거리는 예비-RC 인자 결합 부위의 위치화를 측정하는 독립적인 생화학적 방법을 설명하였고, 따라서 핵심 IS(피크 정상)와 ORC1, ORC2 및 MCM7 결합 부위(피크 중심) 사이의 거리 중앙값은 각각 512 bp, 446 bp 및 302 bp였다. 이는 IS로부터 300 bp에서 ORC 하위단위의 다운스트림에 MCM 복합체의 피크를 위치시켰다(도 22). 실제로, MCM 복합체는 적어도 68 bp에 놓이고, 이웃 뉴클레오솜에 결합하여, 보호된 DNA의 크기를 최대 210 bp까지 증가시킨다. 이에 더하여, MCM 헬리카제는 DNA 중합효소가 풀린(unwound) DNA에 결합하는 것을 가능하게 하기 위해 최소 길이에 걸쳐 DNA를 풀어야 한다. 발명자들은 SNS-seq에 의해 결정된 IS와 ChIP-seq에 의해 결정된 예비-RC 결합 부위를 연관짓는 이러한 결과가 SNS-seq 방법이 DNA 복제의 개시 부위를 정확하게 맵핑한다는 분명한 독립적인 실증이라고 여긴다. 더욱이, 발명자들의 결과는 예비-RC 구성요소와 IS의 상대적인 생체내 위치화가 생화학적 방법에 의해 결정된 것과 유사함을 보여준다.
기원 위치화는 DNA 서열에 기초하여 예측될 수 있다
강한 기원이 G-풍부 프로파일(추정 서열 시그너처)을 나타내므로, 발명자들은 DNA 복제 기원이 DNA 서열 단독으로부터 예측될 수 있는지의 여부를 질문하였다. 전통적인 모티프 검색 알고리즘은 전형적으로 전사 인자에 의해 결합된 DNA의 짧지만 고도로 유사한 스트레치의 농화를 검출하도록 설계된다. 핵심 기원 크기(평균 716 bp)를 고려하여, 발명자들은 이들이 전통적인 전사 인자 결합 부위보다 전형적으로 더 긴 구별적 DNA 서열 패턴인 하이퍼-모티프에 의해 명시될 수 있다고 가정하였다. 이를 수행하기 위해, 발명자들은 핵심 기원 및 이의 플랭킹 서열의 비대칭적인 염기 조성을 모델링하고, 유사한 DNA 서열 패턴에 대한 인간 게놈을 스캔하였다(도 71, 방법 참조). 게놈 스캐닝(GS) 알고리즘은 83%의 핵심 기원 및 33%의 추계적 기원을 위치시킨 228,442개의 비중첩 영역을 66%의 FPR로 식별하였다(도 23). GS 알고리즘의 예측 능력은 평균 기원 활성과 병행하여 저하되었으며, 이는 더 높은 활성을 갖는 기원(핵심)이 구별 가능한 G-풍부 서열 요소를 함유하는 가능성이 더 높음을 시사한다(도 24). 발명자들의 GS 알고리즘은 또한 마우스 게놈에서 76%의 핵심 기원 및 54%의 모든 기원을 예측하였고(도 25), 이는 핵심 기원에서 유사한 G-풍부 서열 시그너처를 나타낸다(도 72). 기원 서열에서 비대칭적인 염기 조성은 이전에 관찰되었다. 그러나 흥미롭게도, 추계적 또는 이전에 공개된 기원이 아니라 핵심 기원의 모델링만 GS 알고리즘으로 높은 예측력을 유발하였다(방법 참조). 결론적으로, 이들 2개의 포유류 종에서 DNA 복제 기원의 진화적 서열 보존의 결여에도 불구하고(도 16 및 도 17), 발명자들의 데이터는 대부분의 인간 및 마우스 핵심 DNA 복제 기원 위치가 동일한 G-풍부 DNA 하이퍼-모티프에 기초한 DNA 서열을 단독으로 사용하여 예측될 수 있음을 시사하며, 이는 보존된 기전(들)이 이들 척추동물 종에서 기원 선택을 지배함을 시사한다.
예측력을 향상시키고 FPR을 감소시키기 위해, 발명자들은 예측된 영역 주변에서 DNA 서열을 모델링하고, 2개의 상이한 머신-러닝(ML) 알고리즘(방법 참조)을 사용하여 발명자들의 예측에서 진짜 기원을 더 잘 구별하였다. DNA 서열의 모델링은 디뉴클레오타이드, 트리뉴클레오타이드 및 멀티뉴클레오타이드(CC, CG, GG, CGCG 등)의 밀도, 예측간 거리, 및 4 kb 영역에 걸쳐 DNA의 염기 조성 변동(A, T, G, 및 C)과 같은 정보를 사용하는 것을 포함하였다(방법 참조). 뚜렷하게는, ML 알고리즘(탐욕적 특징 선택과 함께 로지스틱 회귀, LR)과 커플링된 GS 알고리즘은 67,297개의 비-중첩영역을 식별하고 67%의 핵심 기원을 총 FPR 27.8%로 예측하였다(도 26, 도 73). 다시 말해, 큰 비율(67%)의 핵심 기원은 구별 가능한 DNA 서열 패턴을 함유하고, 이들 패턴이 게놈에 존재할 때, 이들은 적어도 하나의 세포 유형에서 시간의 기원 72.2%와 관련이 있다. 중요하게는, 발명자들이 완전히 독립적인 ML 접근법(SVM)을 이용하였을 때, 이는 대단히 중첩 예측(도 26, 도 74)을 23.4%의 FPR로 초래하였다(도 73). 그러므로, GS 알고리즘과 ML 알고리즘의 커플링은 인간 게놈만큼 큰 게놈에서 기원 위치의 예측을 가능하게 하였다.
SVM 접근법과 LR 접근법은 둘 다 예측을 위해 중요한 파라미터로서 업스트림 G 밀도를 식별하였다(도 27, 도 75). 이는 기원 G-풍부 반복 요소(OGRE) 또는 탠덤하게 배열된 다수의(최대 6개 내지 12개의) G4 구조, 뿐만 아니라 인간, 마우스 및 닭 기원에서 발견되는 매우-짧은 C/G-풍부 뉴클레오타이드 모티프의 존재에 따른 것이다.
세포 분화는 기원 위치화 및 활성을 변경시킨다
발명자들은 인간 게놈에서, 핵심 기원이 프로모터 영역 근처에 우선적으로 놓이고 유전자간 영역으로부터 결실되었음을 관찰하였다(도 28, 도 29 및 도 30). 이는, 전사가 다양한 정도의 상관관계와 함께 DNA 복제 기원 사양에 대한 예측 인자임을 시사한 수많은 연구와 일치한다. 발명자들의 데이터는 또한, 조혈 세포에서 더 높은 전사 활성을 갖는 유전자가 이의 프로모터 영역에서 기원을 수용하는 가능성이 더 높았음을 시사한다(도 76). 프로모터 영역 내의 기원의 수와 활성은 둘 다 프로모터 전사 산출에 따라 증가하였다(도 77 및 도 78). RNA 합성 활성 그 자체, 또는 전사 복합체 조립에 의해 유도된 개방형 염색질은 예비-RC 형성을 선호할 것이다. 그러나, 프로모터와 유전자간 영역에서의 핵심 기원의 위치 사이의 상관관계(도 28 및 도 29)는 유전자 본체(도 30)에 대해 관찰되지 않는다. 이러한 발견은 프로모터 영역에서의 기원의 우선적인 위치화에서 RNA 합성 그 자체보다는 프로모터의 염색질 환경의 영향을 시사한다.
발명자들은 다음으로 적혈구생성을 겪는 조혈 세포를 사용하여, 기원 사양에 미치는 전사 풍경을 변화시키는 영향을 검사하였다. CD34(+) 조혈 세포를 인간 제대혈로부터 단리하고, 에리트로포이에틴(EPO)을 사용하여 적혈구생성 계통으로 분화시켰다(도 79). 유전자 종양학 분석(GREAT)은 적혈구 분화 시 증가된 기원 활성을 갖는 유전자의 단일 농화된 세트를 보여주었고(도 80), 이는 DNA 복제 기원이 전사적 및 후생적 변화를 겪는 유전자 도메인에 모집됨을 시사한다.
G-풍부 및 전사는 기원 활성에 영향을 미친다
HC에서, 89%의 고도로 발현된 유전자는 이의 프로모터에서 CpGi(G-풍부 영역)을 수용한 반면, 단지 48%의 침묵 유전자 프로모터만 CpGi를 수용하였다(도 81). 따라서, 발명자들은 CpGi(또는 G-풍부 스트레치) 및 높은 전사 활성의 수반되는 존재가 조혈 세포에서 높은 기원 활성에 필요한지의 여부를 질문하였다. 발명자들은 CpGi(+) 프로모터 근처에서 기원 수, 클러스터링 또는 활성에 미치는 전사의 상당한 영향을 관찰하지 않았다(도 31, 도 32 및 도 33). 이에 더하여, CpGi(+) TSS로부터의 DNA 복제 개시 활성은 전사 활성과 상관관계가 있지 않았다(피어슨 r <0.01, 도 34).
대조적으로, 전사 수준이 증가될 때 CpGi(-) 프로모터에 위치한 기원의 분명한 증가가 존재한다(도 35). 더욱이, 클러스터링된 기원의 수는 전사 활성과 비례하여 증가하였고, 총 기원 활성은 전사 활성이 증가함에 따라 더 높았다(피어슨 상관계수 r = 0.25 - 도 36, 도 37, 도 38). 발명자들은 CpGi 대신에 DNA의 G-풍부 스트레치를 함유한 유전자 프로모터에 대해 유사한 추세를 관찰하였다(도 82).
불멸화는 증가된 기원 위치화 추계학을 초래한다
비정상적인 DNA 복제가 많은 암세포의 특질이므로, 발명자들은 다음으로, 기원 레퍼토리가, 비제어된 세포 증식을 유발하는 암 발증에서의 주된 단계인 세포 불멸화 후 분포되었는지의 여부를 질문하였다. 이러한 목표를 위해, 발명자들은 부모 인간 유선 상피 세포(HMEC) 세포주의 종양 유전자의 오발현(mis-expression)에 의해 수득되는 3개의 이전에 기재된 불멸화된 세포주를 사용하였다: (i) p53 수준이 적어도 50%만큼 감소된 ImM-1(ΔTP53), (ii) 종양 유전자 RAS가 과발현되는 ImM-2, 및 (iii) WNT가 과발현되는 ImM-3. 발명자들은 형질전환되지 않은 세포 유형(hESC, HC 및 HMEC)보다 불멸화된 세포 유형에서 더 많은 기원을 식별하였다(평균적으로 100,000개의 기원 대 70,000개의 기원). 이는 hESC 및 HC가 동일하거나 더 높은 수준에서 증식되었으므로 이들 세포에서 더 높은 증식율로 인한 것이 아닐 수 있었다(방법 참조). 그렇지만, 형질전환되지 않은 세포 유형 및 불멸화된 세포 유형은 보편적인 핵심 기원 레퍼토리를 공유하였고(도 40), 대량의 개시 사건(약 80%)은 핵심 기원으로부터 기원하였다(도 83). 불멸화된 세포에서 더 높은 수의 기원은 분명하게는 추계적 기원의 증가에 의해 야기되었다(도 41). 핵심(Q1 및 Q2) 기원은 형질전환되지 않은 세포 유형과 불멸화된 세포 유형 사이에 공유된 한편, 최저 활성을 갖는 변위치(Q8 내지 Q10)는 주로 불멸화된 세포 유형에 의해 기여되었다(도 42). 형질전환되지 않은 세포 유형 및 불멸화된 세포 유형으로부터의 기원을 해체하여 연구하기 위해, 발명자들은 이전에 기재된 바와 같이 각각의 범주의 기원을 변위치로 별개로 재분류하였다. 유전자와 관련하여 핵심 기원의 게놈 위치화는 형질전환되지 않은 세포주 및 불멸화된 세포주에서 대등하였다(도 43 및 도 44). 그러나, 불멸화된 세포로부터의 추계적 기원은 프로모터 영역 근처에서 덜 농화되었으나(도 44), 이질 염색질 영역에서 농화되었다(K9me3으로 표시됨)(도 45). 따라서, 불멸화는 형질전환되지 않은 세포에서 이질 염색질인 것과 관련된 낮은 활성 기원을 유도한다.
불멸화는 또한 차별적으로 상향조절된 기원 또는 하향조절된 기원을 초래한다. 놀랍게도, 대부분의 하향조절된 기원은 G-풍부 요소, 예컨대 CpGi/G4를 함유하는 반면, 상향조절된 기원은 G-부족인 경향이 있다(도 84 및 도 85). 따라서, 기원의 사양에서의 변화가 발생하며, 바람직하게는 핵심 기원과 추계적 기원 둘 다에 대해 G-풍부 DNA로부터 G-부족 DNA로 이동한다.
발명자들은 다음으로, 자가-상호작용하여 3-차원(3D) 구조를 형성하는 게놈의 큰 영역인 위상적 회합 도메인(TAD)에 걸쳐 핵심 기원 및 추계적 기원의 특정 분포가 존재하였는지의 여부를 질문하였다. TAD 경계는 TAD 내부에서 염색질 루프를 한정하는 상응하는 염색질 도메인의 절연(insulation)에 관여하고, TSS 및 절연 인자 CTCF에서 농화된다. 인간 핵심 기원(도 46)과 추계적 기원(도 47)은 둘 다 TAD 경계에서 유의하게 농화되었다(즉, "웃는 모양" 추세선). SNS-seq에 의해 측정된 DNA 복제 개시의 총량은 또한, TAD 중심보다 TAD 경계에서 1.5배 더 높았다(도 48). 발명자들은 마우스 핵심 기원 및 추계적 기원에 대해 유사한 결과를 수득하였다(도 86). 발명자들은 복제 기원 밀도 패턴이 개별 염색질 도메인에서 게놈의 구조적 조직화를 모방한다고 결론내린다. 이러한 분포는 분명하게는 부모 HMEC 세포주와 비교하여 불멸화된 ImM-1(TP53KD) 세포에서 분포되었고, TAD 경계에서 기원 밀도에서의 이러한 변동은 통계학적으로 유의하였다(도 49 및 도 50). TAD 경계 및 TAD 중심에서의 복제 개시의 총량은 또한, 부모 HMEC와 비교하여 ImM-1 세포에서 뚜렷하게 상이하였다(도 51). hES 세포, 또는 다른 형질전환되지 않은 세포 유형은 TAD 경계에서 변경된 핵심 기원 밀도를 나타내지 않았으며, 이는 이러한 특성은 불멸화에 특이적이고 높은 증식율을 반영하지 않는다(도 87).
종합하자면, 이들 데이터는 CpGi/G-풍부 스트레치 또는 전사의 존재가 기원 활성을 모집하기에 충분함을 시사한다. 고도로 활성인 프로모터에서, CpGi 또는 G-풍부 요소는 복제 기원 활성과 상관관계가 있지 않다. 대조적으로, 비활성 프로모터에서 CpGi/G-풍부 모티프는 분명하게는 복제 기원 활성과 상관관계가 있다(도 39에 요약됨). 이러한 결과는 또한, 대부분의 복제 기원에서 G-풍부 요소의 존재와 일치한다.
고찰
DNA 복제 기원 사양은 IS 맵핑 게놈-와이드를 가능하게 한 차세대 시퀀싱 기술에서의 진전에도 불구하고 잘 이해되지 않은 채로 있다. 이 연구에서, 발명자들은 복제 기원을 맵핑하기 위해 최고의 분해능을 갖는 SNS-seq 방법을 사용하였으며, 여기서 신호는 병행하여 생성된 적합한 실험 대조군과 상관관계가 있었다(방법 참조). 발명자들은 심지어 불멸화 후에도 유지되는 다수의 세포 유형에서 핵심 기원이라고 하는 IS의 하위세트의 사양에서 뚜렷한 일관성을 발견하였다. 임의의 주어진 세포 유형에서 약 30,000개의 영역을 나타내는 핵심 기원은 모든 연구된 세포 유형에서 대량의 DNA 복제 개시 사건(70% 내지 85%)을 수용하였다. 발명자들은 대부분의 핵심 기원이 단지 서열 인식에만 기초한 컴퓨터 알고리즘에 의해 예측될 수 있었음을 발견하였고, 따라서 복제 기원은 상이한 세포 유형에서 포유류 게놈에서 정확한 영역 세트에서 우선적으로 활성화됨을 명백히 결론내렸다.
발명자들의 연구는 또한, 기저 DNA 서열이 인간 및 마우스 게놈에서 기원 위치화의 주요한 예측인자임을 보여준다. 핵심 기원에서 보편적으로 발견되는 G-풍부 서열 패턴은 기원 배치 게놈-와이드를 예측하였다. 인간 게놈에 존재할 때, 이들 패턴 중 72%는 적어도 하나의 세포 유형에서 DNA 복제 개시와 관련이 있었다. IS의 업스트림에서 G-풍부 반복 DNA 서열(OGRE)의 스트레치는 더 낮은 G 및 C 함량을 갖는 영역에 커플링된 ORC1, ORC2 및 MCM2-7 결합 영역에 상응한다(도 19, 도 20, 도 21 및 도 22). 핵심 기원은 또한 종종 클러스터링되며, 이는 이들이 몇몇 잠재적인 예비-RC 결합 부위를 갖는 게놈의 영역을 나타냄을 시사한다. 이러한 조직화는 몇몇 예비-RC를 수용하고 MCM 로딩 및 기원 활성화의 효율을 증가시킬 수 있는 더 넓은 예비-RC 결합 플랫폼을 이룰 것이다. 대조적으로, 대부분의 추계적 기원은 G-풍부 영역의 더 짧은 스트레치를 함유하며, 이는 가능하게는 단일 추정 예비-RC 결합 부위를 나타낸다(도 19). SNS-seq에 의해 제시된 개시 부위의 위치는 독립적으로 결정된 예비-RC 인자의 위치와 완벽하게 일치하고, 이는 개시 부위의 업스트림에서 발견되며 예상된 바와 같은 G-풍부 영역과 일치한다(도 22). 중요하게는, 이러한 발견은 후생동물 복제 기원과 G-풍부 영역의 연관성에 대한 독립적인 확인이다.
G-풍부 영역이 DNA 복제의 개시에 어떻게 관여할 수 있는가? G-풍부 SNS-seq 피크에 대한 하나의 공식적인 가능성은 람다 엑소뉴클레아제의 사용을 수반하는 실험 프로토콜일 수 있을 것이며, 여기서 G-풍부 서열은 분해에 내성일 수 있을 것이다(PMID: 25695952). 그러나, 전술한 연구를 배제하지만 발명자들의 연구를 포함한 대부분의 연구에 사용된 SNS-seq에 대한 시험 조건은 엄격하다(방법 참조). 더욱이, 병행하여 처리된 대조군 SNS-seq 시료(+RNase)는 G-풍부 DNA에서 단지 약간 농화된다. 이에 더하여, 복제 기원의 G-풍부 성질은 또한, 빈(empty) 람다 엑소뉴클레아제를 이용하지 않는 초기 가닥 정제 방법을 사용하여 확인되었다. 마지막으로, DNA 복제의 개시에 관여하는 일부 인자는 DNA 복제 기원(본 연구)과 함께 공동-위치화하고 G4에 결합할 수 있다(아래 참조).
제2의 가능성은 DNA 복제 기원의 온/오프 단계와 연관이 있을 수 있다. 복제 개시 부위에서 DNA의 개방은 2개의 시간적으로 연이은 단계를 필요로 한다. 우선, 예비-RC는 G1에서 ORC, Cdc6, Cdt1의 결합을 통해 형성되며, 이는 MCM 헬리카제의 모집을 허용한다. 모든 잠재적인 기원은 이 단계에서 예비-설정되는 것으로 허용되지만, 후생동물 기원이 ORC에 의해 인식되는 방법은 아직 알려져 있지 않다. MCM 헬리카제의 활성화는 G1-S 이행(transition)에서 발생하지만, 단지 20% 내지 30%의 예비-RC만 S 기에서 활성화된다. G4의 근본적인 특징은 접힌 형태 및 접히지 않은 형태를 포함한 몇몇 구조를 형성하는 이의 능력이다. 이들 2개의 형태는 복제 기원의 오프 단계(예비-RC) 또는 온 단계(개시)를 조절할 것이며; G4 구조를 형성할 수 있는 외인성 G4 서열은 제노푸스(Xenopus) 알 추출물의 형성을 저해하지 않지만, 복제 기원의 발화와 경쟁한다. 이러한 결과는 접힌 형태의 G4가 DNA 합성의 개시에 참여하지만 예비-RC 단백질에 의한 기원 인식에 필요하지 않음을 시사할 수 있다. 일치하자면, MTBP, RecqL 및 Rif1인 기원 발화에 관여하는 3개 인자는 모두 G4에 결합한다.
제3의 가능성은, G4가 복제 기원에서 개시하는 복제 분기점의 일시적인 휴지(pause)로서 역할을 함을 시사할 수 있는 복제 기원에서의 NS 프로파일에 의해 안내된다. 몇몇 이전의 연구는 개시 부위에 대해 5'에서 G-풍부 영역의 농화를 보고하였고, G4에서 복제분기점의 일시적인 휴지를 시사하였다. 이 가설은 기원이 활성화될 때 G-풍부/G4 구조가 접힌 다음, 전사 휴지와 유사한 현상인 진행중인 복제 분기점의 일시적인 휴지를 부과하는 기전을 통해 풀린다는 것을 시사한다.
기저 DNA 서열이 주어진 종에서 기원 배치를 예측한다는 발견은 자연스럽게 염색질 및 전사 환경이 또한 DNA 복제의 개시에 어느 정도의 규모로 관여하는지에 대한 질문을 유발한다. 기원 위치화는 이전에 개발 염색질 및 활성 염색질과 관련된 다양한 히스톤 마크와 상관관계가 있어 왔다. 핵심 기원은 종종 활성화 히스톤 마크 및 개방 염색질과 관련이 있는 게놈의 전사 및 조절 요소(예를 들어, 프로모터 및 인핸서)와 일치한다(도 28, 도 88). 발명자들이 식별한 DNA 서열 패턴이 통상 개방 또는 허용적인(permissive) 염색질의 일부라는 것이라고 여겨질 만하다. 그러나, 핵심 기원은 또한 비-유전자 영역(19.4%) 또는 침묵 유전자에 존재한다. 이에 더하여, 전사의 영향 및 G-풍부 요소의 존재는 커플링되지 않을 수 있다. 침묵 유전자의 프로모터 영역에서, 또는 비-코딩 영역에서 G-풍부 요소/CpGi의 존재는 복제 기원 활성을 수용하기에 충분하다. 주목할 만하게는, 폴리콤 군 단백질은 CpGi(+) 프로모터와 회합되고, G4 DNA에 결합할 수 있다. 발명자들은 이전에 이들 단백질의 존재가 기원 위치화의 강한 지표임을 보여주었고, 이는 침묵 CpGi(+) 유전자 프로모터 또는 억제된 염색질이 기원을 수용할 수 있는 기전을 지지한다. 흥미롭게도, 최근의 보고는 또한 폴리콤-매개 유전자 억제의 조절에서 G4 요소에 대한 역할을 지지한다.
결론적으로, DNA 서열 정보가 에스. 세레비지애(S. Cerevisiae) 기원에 존재하는 공통 ARS 요소 서열로서 엄격하게 정의되는 것은 아니라도, 이의 예측값은 서열 특이성이 후생동물 세포에서 복제 기원의 보존된 특질임을 보여준다. 발명자들은 또한, 서열 정보와 더불어 선택된 후생적 마크의 조합이 후생동물 복제 기원의 예측을 향상시킬 것임을 인지한다.
대부분의 SNS 신호를 나타내는 핵심 기원 외에도, 발명자들의 분석은 또한 G-풍부 요소와 불량하게 일치하는 수천 개의 추계적 기원을 식별하였다. 흥미롭게도, 불멸화는 이들 저-활성 기원의 수를 특히 이질 염색질 영역 내에서 크게 증가시켰다. 이는 TAD 경계 및 중심에서 DNA 복제 개시 사건의 균등화(equalisation)에 의해 수반되었다(도 51).
복제 기원이 TAD 경계에서 농화된다는 발견은 염색질 루프의 형성 또는 이의 결과에서 DNA 복제 기원에 대한 역할을 반영할 것이다. 이와 같이, 기원의 밀도는 복제 도메인의 절연에서 역할을 할 수 있을 것이다. 이는 또한, 기원 밀도/기원 활성이 복제 시기와 고도로 상관관계가 있다는 이전의 발견을 연상시킨다. 이에 더하여, 복제 시기 경계는 TAD 경계와 상관관계가 있다. 그러므로, 변경된 DNA 개시 밀도, 비정상적인 복제 시기 및 변경된 염색체 구조 조직화는 불멸화를 겪는 세포 유형에 연관되어 있을 것이다. 이전의 연구는 종양 유전자 MYCCCNE1의 오발현을 종양-유래 세포주에서 조기 S-기 진입 시 유전자내 기원의 형성과 연관시켰다. 본원에서, 발명자들은 복제 기원의 수와 분포 둘 다 세포 형질전환에서 중요한 단계인 불멸화 동안 동요됨을 보여준다. 따라서, 기원 배치에서의 증가된 추계성 및 TAD 상에서 DNA 복제 개시 밀도 프로파일의 동요는 암세포와 관련된 새로운 랜드마크일 수 있을 것이다.
Figure pct00001
Figure pct00002
Figure pct00003
Figure pct00004
Figure pct00005
Figure pct00006
Figure pct00007
Figure pct00008
실시예 2 ― 자율 복제를 갖는 비-바이러스성 진핵 벡터
I. 주요 목적
발명자들의 목적은 높은 복제 능력을 갖는 인간 복제 기원을 함유하는 서열을 정의된 플라스미드 내로 도입함으로써 비-바이러스성, 자가-복제성 진핵 치료 벡터를 개발하는 것이었다. 관심 복제 기원을 함유하는 서열은 실험실에서 확립된 인간 게놈의 복제 기원의 레퍼토리의 철저한 분석을 이전에 결정하였다.
II. 결과
목적 1: 벡터의 최소 크기 및 특징을 정의한다.
이 프로젝트의 제1 목적은 본 발명자들의 복제 기원의 삽입, 뿐만 아니라 신속한 벡터 복제 검출 시험을 위한 기본 수용체 벡터를 정의하는 것이었다.
1. DpnI 복제 시험
이 검정은 메틸화된 DNA 분해 효소인 DpnI에 의한 분해에 대한 플라스미드의 내성에 기초한다. (도 89). 플라스미드를 이. 콜라이 Dam+ 박테리아에서 제조한다. 따라서, 사용된 원래의 플라스미드는 메틸화되고, 제한 효소 DpnI에 의한 분해에 민감하다. 대조적으로, DNA는 인간 세포에서 복제 시 이의 메틸화를 상실하고, 따라서 DpnI에 대한 이의 민감성을 상실한다. 그 후에, 형질주입된 플라스미드의 복제 상태는 DpnI 분해에 대한 이의 민감성을 시험함으로써 식별될 수 있다. 박테리아 내로의 형질주입 후, 콜로니의 형성은 복제된 플라스미드의 존재를 나타낸다(도 89).
2. 기본 벡터: pEPi-Del(peGFP-S/MAR)
제1 단계로서, 발명자들은 비-병합적 벡터인 pEPi 벡터를 시험하였고, 이 벡터의 발현은 형광에 의해 모니터링될 수 있고 이는 핵 기질 상에 부착 부위를 가져 이것이 세포핵에 더 잘 보유되게 하는 이점을 갖는다. 발명자들은 이전에 이것이 (Ori SV40): pEPI-Del를 함유한 SV40 바이러스의 복제 기원을 제거함으로써 이를 적응시켰다(도 90). 이들 2개의 벡터는 발명자들이 이중 세포 시스템인, 큰 T 항원을 발현하고 SV40 기원의 복제를(대조군으로서) 가능하게 하는 HEK293T 세포 및 이 항원을 발현하지 않고 SV40 바이러스 기원의 복제를 가능하게 하지 않는 HEK293 세포에서 에피솜 복제의 신속한 시험 방법을 개발하는 것을 가능하게 하였다(도 90 내지 도 94).
발명자들의 예비 결과 후, 이들은 전략을 재적응시켰다(도 95). 첫째, 발명자들은 양성으로 형질주입된 인간 세포의 항생제 내성(퓨로마이신)을 가능하게 하는 유전자로 리포터 유전자(eGFP)로 변형시켰다. 이들은 또한 S/MAR 부위의 크기를 저하시켰다. 한편, 발명자들은 다수의 서열을 신속하게 스크리닝할 수 있는 것을 선택하였다. 삽입될 원래의 서열을 합성하고, Genscript 사의 보조를 사용하여 새로운 수용체 벡터 내로 클로닝하였다.
3. 기본 벡터: pPuro-Del-MAR5
발명자들의 새로운 벡터 설계의 관련성을 검증하기 위해, 이들은 우선 S/MAR 서열을 더 짧은 MAR5 서열로 대체하는 영향(도 96), 뿐만 아니라 eGFP 발현을 가능하게 하는 것 대신에 퓨로마이신 내성 유전자를 사용하는 영향을 체크하였다(도 99). eGFP의 발현을 유세포측정법에 의해 모니터링하였다(도 97). 이는 MAR5 서열을 갖는 벡터(pMAR5)가 전체 S/MAR 서열을 갖는 벡터, 뿐만 아니라 핵 기질 결합 서열을 갖지 않는 벡터(peGFP-C1)보다 5배 내지 6배 더 잘 형질주입함을 보여준다. 복제 검정(도 98)은 S/MAR을 갖는 벡터(pEPi)보다 더 높은 그리고 pEGFP-C1 벡터보다 더 높은 pMAR5 플라스미드의 복제율을 보여준다. 이들 결과는 감소된 S/MAR 서열 크기의 값을 실증한다. 더욱이, 퓨로마이신 내성을 부여하는 유전자로의 eGFP 서열의 대체는 이전의 작제물을 이용한 5일과 비교하여 세포 형질주입 후 최대 적어도 13일에서 Dpn1 복제 검정의 사용을 가능하게 한다(도 100). 마지막으로 보유되고 클로닝된 수용체 벡터: pPuroDel-MAR5_MCS는 도 102에 제시되어 있다.
목적 2: 자율 복제 능력의 정성적 및 정량적 분석(WP 2.1).
1. 시험될 기원 은행의 선택 및 합성
발명자들은 인간 복제 기원을 함유하는 67개의 서열 및 2개의 대조군 서열을 선택하였다(Genscript 사에 의해 합성됨). 이들 서열을 본 발명에 따른 방법의 측면, 즉, 발명자들에 의해 식별된 복제 기원의 완전한 레퍼토리에서 선택하였다. 인간 게놈 복제 기원의 게놈-와이드 및 높은-분해능 레퍼토리는 상이한 인간 세포 유형으로부터 수득된 24개의 3벌 시료의 분석에 의해 식별되었다: 만능 배아 줄기세포, 1차 CD34 세포, 조혈 분화 CD34 세포, 상피 세포, 및 종양 유전자 불멸화된 상피 세포. 이 분석은 80%의 복제 개시 신호를 담당하고 분석된 대부분의 세포 유형에 보편적인 "핵심 기원"(Core Oris)라고 한 특정 부류의 기원을 보여주었다. 발명자들은 CORE 기원을 대표하는 상이한 특징을 제시하는 일련의 기원을 선택하였다. 이들 기준은 예를 들어 기원 인식에 관여하는 ORC 복합체 단백질의 결합 부위의 존재, G 쿼드플렉스(G4)를 형성할 수 있는 부위의 빈도, 전사 개시 부위(TSS)의 존재, 히스톤 3(예를 들어 H3K4Me3)의 번역-후 변형의 존재, Rloop의 존재, 다른 기법(IniSeq, EdUseq)에 의한 이들 기원의 위치의 공동-검증, 복제 개시를 담당하는 헬리카제의 활성화에 관여하는 트레슬린-MTBP(Treslin-MTBP) 복합체의 결합 부위의 존재이고, 기원 프로파일의 4개 예가 제시된다(도 101).
서열을 다중 클로닝 부위(MCS)에 함유된 EcorV 부위에서 pPuro-Del-MAR5-MCS 내로 클로닝하였다(도 102). 라이브러리(즉, 기원을 함유함)의 수용 시, 벡터를 적격 박테리아 내로 형질전환시키고, 하위클로닝한 다음, 제조하였다. 이들의 전체 크기 및 구조를 제한 효소 분해, 뒤이어 아가로스 겔 이동에 의해 검증하였다. "단순" 벡터의 예상된 프로파일에 더하여, 발명자들은 이들의 연구(라이브러리의 약 ¼)를 계속하기 위해 단순화해야 했던 이량체성 플라스미드(또는 단순 플라스미드와 이량체성 플라스미드의 혼합물)를 식별하였다.
2. 벡터 라이브러리에의 Dpn1 검정의 적용
라이브러리로부터의 벡터의 자율 복제 능력을 평가하기 위해, 발명자들은 DpnI 분해에 기초한 본 발명자들의 신속한 복제 검정을 5개 플라스미드 벡터의 풀로 형질주입된 293T 또는 293 세포에 적용하였다(도 103 표 6). 검정의 종료 시, 콜로니를 카운팅하고, 플라스미드의 복제 능력의 결과(형질주입 후 6일째)를 제시하였다(도 104). DpnI 분해로부터 카나마이신-내성 콜로니에 함유된 플라스미드를 제조하고, 시퀀싱하였다. 일단 식별되면, 자율적으로 복제할 수 있는 벡터를 신속 복제 검정에 개별적으로 다시 제출하였다. 형질주입 후 6일째에, 복제는 분명하게 검출된다. 그러나, 이의 속도는 바이러스 복제 단백질(T 항원)을 인코딩하는 293T 세포에서 SV40 복제 기원을 함유하는 벡터와 비교하여 낮다. 그러나, SV40은 세포 주기를 조절해제하는 능력을 갖고, 바이러스 DNA가 동일한 세포 주기 내에서 재복제되는 것을 가능하게 한다. 이는 세포 복제 기원에 대해서는 전적으로 불가능하고, 이의 주요 조절은 각각의 기원이 1회만 사용되고 동일한 세포 주기 동안 1회만 사용될 수 있다는 것이다. 실제로, 재복제는 유전자 증폭 현상을 유발하여, 게놈 불안정성을 초래한다. 발명자들은 연속적인 세포 분열 동안 복제되는 벡터의 수를 더 정확히 추정하기 위해 qPCR 또는 ddPCR에 의한 정량화, 뿐만 아니라 이후(형질주입 후 12일 내지 13일)에서의 평가를 수행하였다. 이들 데이터는, 복제 기원이 진핵 세포에 이를 포함하는 벡터의 자가-복제를 가능하게 함을 실증한다.
Figure pct00009
3. 이량체성 벡터의 복제의 특수 사례
벡터 라이브러리의 하위클로닝 동안, 발명자들은 대칭적인 이량체성 벡터의 존재를 강조하였고(도 108), 이는 예상된 것보다 2배 더 높은 플라스미드의 슈퍼코일 형태의 밴드 프로파일을 보여주는 한편, 이중 분해 프로파일은 단일 플라스미드에 대해 예상된 것이다(도 105, 예를 들어 16.2). 다른 사례에서, 발명자들은 단일 형태와 이중 형태를 둘 다 함유하는 플라스미드 조제물을 관찰하였다(14.1의 사례, 도 105). 단일 벡터의 단일 부위를 절단하는 제한 효소를 이용한 이들 벡터의 부분 분해(예, 15.2, 도 106도 107)는 이량체성 플라스미드의 이중 크기를 확인시켜 준다. 흥미롭게도, 발명자들은 이량체성 플라스미드가 이의 단순 형태보다 더 양호한 복제 능력을 가짐을 관찰하였다(도 109)(특히 벡터 10.3에 대해). 이러한 관찰은 필요할 때, 다수의 기원을 함유하는 벡터의 생성에 동기를 부여한다.
4. 벡터의 서열
- 빈 벡터(인간 기원 없음) pPuroDel-MAR5_MCS : SEQ ID NO: SEQ ID No: 43289.
하기 벡터는 본 발명에 정의된 바와 같은 복제 기원을 함유한다:
>1_1_pPuroDel-MAR5_MCS: SEQ ID NO: 43290
>1_2_pPuroDel-MAR5_MCS: SEQ ID NO: 43291
>1_3_pPuroDel-MAR5_MCS: SEQ ID NO: 43292
>1_4_pPuroDel-MAR5_MCS: SEQ ID NO: 43293
>10_1_pPuroDel-MAR5_MCS: SEQ ID NO: 43294
>10_2_pPuroDel-MAR5_MCS: SEQ ID NO: 43295
>10_3_pPuroDel-MAR5_MCS: SEQ ID NO: 43296
>10_4_pPuroDel-MAR5_MCS: SEQ ID NO: 43297
>11_1_pPuroDel-MAR5_MCS: SEQ ID NO: 43298
>11_2_pPuroDel-MAR5_MCS: SEQ ID NO: 43299
>12_1_pPuroDel-MAR5_MCS: SEQ ID NO: 43300
>12_2_pPuroDel-MAR5_MCS: SEQ ID NO: 43301
>12_3_pPuroDel-MAR5_MCS: SEQ ID NO: 43302
>13_1_pPuroDel-MAR5_MCS: SEQ ID NO: 43303
>14_1_pPuroDel-MAR5_MCS: SEQ ID NO: 43304
>14_2_pPuroDel-MAR5_MCS: SEQ ID NO: 43305
>15_1_pPuroDel-MAR5_MCS: SEQ ID NO: 43306
>15_2_pPuroDel-MAR5_MCS: SEQ ID NO: 43307
>15_3_pPuroDel-MAR5_MCS: SEQ ID NO: 43308
>15_4_pPuroDel-MAR5_MCS: SEQ ID NO: 43309
>16_1_pPuroDel-MAR5_MCS: SEQ ID NO: 43310
>16_2_pPuroDel-MAR5_MCS: SEQ ID NO: 43311
>17_1_pPuroDel-MAR5_MCS: SEQ ID NO: 43312
>17_2_pPuroDel-MAR5_MCS: SEQ ID NO: 43313
>17_3_pPuroDel-MAR5_MCS: SEQ ID NO: 43314
>18_1_pPuroDel-MAR5_MCS: SEQ ID NO: 43315
>19_1_pPuroDel-MAR5_MCS: SEQ ID NO: 43316
>20_1_pPuroDel-MAR5_MCS: SEQ ID NO: 43317
>21_1_pPuroDel-MAR5_MCS: SEQ ID NO: 43318
>5_1_pPuroDel-MAR5_MCS: SEQ ID NO: 43319
>6_1_pPuroDel-MAR5_MCS: SEQ ID NO: 43320
>6_2_pPuroDel-MAR5_MCS: SEQ ID NO: 43321
>6_3_pPuroDel-MAR5_MCS: SEQ ID NO: 43322
>7_2_pPuroDel-MAR5_MCS: SEQ ID NO: 43323
>9_1_pPuroDel-MAR5_MCS: SEQ ID NO: 43324
>9_2_pPuroDel-MAR5_MCS: SEQ ID NO: 43325
>9_3_pPuroDel-MAR5_MCS: SEQ ID NO: 43326
>1_5_pPuroDel-MAR5_MCS: SEQ ID NO: 43327
>11_3_pPuroDel-MAR5_MCS: SEQ ID NO: 43328
>11_4_pPuroDel-MAR5_MCS: SEQ ID NO: 43329
>14_3_pPuroDel-MAR5_MCS: SEQ ID NO: 43330
>16_3_pPuroDel-MAR5_MCS: SEQ ID NO: 43331
>17_4_pPuroDel-MAR5_MCS: SEQ ID NO: 43332
>17_5_pPuroDel-MAR5_MCS: SEQ ID NO: 43333
>17_6_pPuroDel-MAR5_MCS: SEQ ID NO: 43334
>19_2_pPuroDel-MAR5_MCS: SEQ ID NO: 43335
>19_3_pPuroDel-MAR5_MCS: SEQ ID NO: 43336
>19_4_pPuroDel-MAR5_MCS: SEQ ID NO: 43337
>19_5_pPuroDel-MAR5_MCS: SEQ ID NO: 43338
>19_6_pPuroDel-MAR5_MCS: SEQ ID NO: 43339
>19_7_pPuroDel-MAR5_MCS: SEQ ID NO: 43340
>19_8_pPuroDel-MAR5_MCS: SEQ ID NO: 43341
>19_9_pPuroDel-MAR5_MCS: SEQ ID NO: 43342
>2_1_pPuroDel-MAR5_MCS: SEQ ID NO: 43343
>2_2_pPuroDel-MAR5_MCS: SEQ ID NO: 43344
>20_2_pPuroDel-MAR5_MCS: SEQ ID NO: 43345
>22_1_pPuroDel-MAR5_MCS: SEQ ID NO: 43346
>3_1_pPuroDel-MAR5_MCS: SEQ ID NO: 43347
>3_2_pPuroDel-MAR5_MCS: SEQ ID NO: 43348
>3_3_pPuroDel-MAR5_MCS: SEQ ID NO: 43349
>3_4_pPuroDel-MAR5_MCS: SEQ ID NO: 43350
>6_4_pPuroDel-MAR5_MCS: SEQ ID NO: 43351
>6_5_pPuroDel-MAR5_MCS: SEQ ID NO: 43352
>6_6_pPuroDel-MAR5_MCS: SEQ ID NO: 43353
>6_7_pPuroDel-MAR5_MCS: SEQ ID NO: 43354
>8_1_pPuroDel-MAR5_MCS: SEQ ID NO: 43355
>8_2_pPuroDel-MAR5_MCS: SEQ ID NO: 43356
>8_3_pPuroDel-MAR5_MCS: SEQ ID NO: 43357
>8_4_Myc_pPuroDel-MAR5_MCS: SEQ ID NO: 43358

Claims (15)

  1. 포유류 게놈 DNA 복제 기원(replication origin)을 단리하는 방법으로서,
    a- 포유류의 체세포로부터 게놈 DNA 분자를 단리하는 단계;
    b- 게놈 DNA 분자를 상기 게놈 DNA 분자를 따라 100 pb마다 500 bp 창(window)으로 분리하는 단계;
    c- 하기가 가능하도록 제1 500 bp 창을 식별하는 단계로서:
    -- 제1 500 bp 창이 적어도 172개의 G 뉴클레오타이드를 가짐,
    -- 제1 500 bp 창이 적어도 105개의 A 또는 T 뉴클레오타이드를 가짐,
    -- 창의 3'-말단(end)에서 제1 500 bp 창에 바로 인접한 제2 500 bp 창이 125개 초과 내지 172개 미만의 G 함량을 갖고,
    여기서, 제1 500 bp 창과 제2 500 bp 창 사이의 G 함량의 변동은 8% 내지 40% 범위임,
    -- 제8 500 bp 창에 그 자체가 인접한, 제7 500 bp 창에 그 자체가 인접한, 제6 500 bp 창에 그 자체가 인접한, 제2 500 bp 창에 그 자체가 인접한, 제1 500 bp 창에 그 자체가 인접한, 제5 500 bp 창에 그 자체가 인접한, 제4 500 bp 창에 인접한 제3 500 bp 창에 의해 이루어진 8개의 연속 500 bp-창으로 구성된 큰 창 내의 G 함량이 960 초과임;
    - 추정(putative) 포유류 게놈 DNA 복제 기원에 상응하는 500 pb 내지 최대 6000 pb의 크기를 갖는 단편을 게놈 DNA 분자로부터 단리하는 단계로서, 상기 추정 포유류 게놈 DNA 복제 기원은 이의 5' 말단에서 제1 500 bp 창으로 구성되는, 단계;
    - 진핵 세포의 DNA 내에 함유될 때, 초기(nascent) DNA를 생성하고 DNA 복제를 개시할 수 있는 단편을 상기 추정 포유류 게놈 DNA 복제 기원으로부터 선택하는 단계; 및
    - 상기 단편을 단리하는 단계로서, 상기 단편은 포유류 게놈 DNA 복제 기원인, 단계를 포함하는, 포유류 게놈 DNA 복제 기원을 단리하는 방법.
  2. 제1항에 있어서, 상기 추정 포유류 게놈 DNA 복제 기원은 500 bp 내지 4000 bp로 다양한 크기를 갖는, 포유류 게놈 DNA 복제 기원을 단리하는 방법.
  3. 제1항 또는 제2항에 있어서, 단편의 제1 500 bp 창은 ORC1 또는 ORC2 복제 개시 인자와 상호작용하는, 포유류 게놈 DNA 복제 기원을 단리하는 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 제1 500 pb 창에 바로 인접한 서열은
    - 다수의 탠덤(tandemly) G4 구조로서, 상기 탠덤 G4 구조는 최대 12배로 존재하는, 다수의 탠덤 G4 구조, 또는
    - G-풍부 반복 요소, 또는 OGRE, 또는
    - 둘 다 함유하는, 포유류 게놈 DNA 복제 기원을 단리하는 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 단편은 716 pb 핵심 개시 기원 서열(core initiation origin sequence)을 함유하고, 상기 핵심 개시 기원 서열은 초기 DNA 단편 서열에 상보적인, 포유류 게놈 DNA 복제 기원을 단리하는 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 단편은 폴리콤 단백질 결합 부위(polycomb protein binding site) 또는 히스톤 아세틸화 마크, 또는 둘 다를 함유하는, 포유류 게놈 DNA 복제 기원을 단리하는 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 정의된 바와 같은 방법에 의해 수득되기 쉬운 단리되고 정제된 포유류 게놈 DNA 복제 기원으로서, 상기 포유류 게놈 DNA 복제 기원은 SEQ ID NO: 1과 SEQ ID NO: 3 내지 SEQ ID NO: 43,177 및 SEQ ID NO: 43,220 내지 SEQ ID NO: 43,288로 표시된 바와 같은 서열 중 하나를 포함하는, 단리되고 정제된 포유류 게놈 DNA 복제 기원.
  8. 제1항 내지 제6항 중 어느 한 항에 정의된 바와 같은 방법에 의해 수득되기 쉬운 단리되고 정제된 포유류 게놈 DNA 복제 기원으로서, 상기 포유류 게놈 DNA 복제 기원은 SEQ ID NO: 1 내지 SEQ ID NO: 43,177 및 SEQ ID NO: 43,220 내지 SEQ ID NO: 43,288로 표시된 바와 같은 서열 중 하나로 구성된, 단리되고 정제된 포유류 게놈 DNA 복제 기원.
  9. 벡터로서,
    - 제7항 또는 제8항에 정의된 바와 같은 포유류 게놈 DNA 복제 기원,
    - 진핵 세포를 사멸화시키는 화합물에 대한 내성을 가능하게 하는 단백질을 코딩하는 적어도 하나의 서열, 및
    - 관심 유전자를 삽입시키고 이의 발현을 가능하게 하는 포유류 게놈 DNA 복제 기원에 독립적인 영역을 포함하는, 벡터.
  10. 제9항에 있어서,
    - 원핵 복제 기원,
    - 항생제에 대한 내성을 가능하게 하는 단백질을 코딩하는 서열을 추가로 포함하는, 벡터.
  11. 제9항 또는 제10항에 있어서, SEQ ID NO: 43,290 내지 SEQ ID NO: 43,358로 표시된 바와 같은 서열 산 서열을 포함하거나 이로 구성된, 벡터.
  12. 제9항 내지 제11항 중 어느 한 항에 정의된 바와 같은 벡터를 포함하는 포유류 세포.
  13. 제12항에 따른 세포를 포함하는 비(非)-인간 포유류.
  14. 시험관내에서 또는 생체외에서, 포유류 세포에서 관심 유전자를 발현시키기 위한 제9항 내지 제11항 중 어느 한 항에 정의된 바와 같은 벡터의 용도로서, 상기 관심 유전자의 서열은 포유류 게놈 DNA 복제 기원에 독립적인 영역에서 벡터에 삽입되는, 용도.
  15. 제1항의 방법의 단계 b- 내지 c-를 실행하기 위한 명령을 포함하는 적절한 지지체 상에서 구현되는 컴퓨터 프로그램 제품.
KR1020237006533A 2020-09-07 2021-09-06 진핵 dna 복제 기원, 및 이를 함유하는 벡터 KR20230062818A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20305987 2020-09-07
EP20305987.8 2020-09-07
PCT/EP2021/074523 WO2022049295A1 (en) 2020-09-07 2021-09-06 Eukaryotic dna replication origins, and vector containing the same

Publications (1)

Publication Number Publication Date
KR20230062818A true KR20230062818A (ko) 2023-05-09

Family

ID=72561738

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237006533A KR20230062818A (ko) 2020-09-07 2021-09-06 진핵 dna 복제 기원, 및 이를 함유하는 벡터

Country Status (6)

Country Link
US (1) US20240093182A1 (ko)
EP (1) EP4211237A1 (ko)
JP (1) JP2023540553A (ko)
KR (1) KR20230062818A (ko)
CA (1) CA3188076A1 (ko)
WO (1) WO2022049295A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024112937A2 (en) * 2022-11-23 2024-05-30 Pretzel Therapeutics, Inc. Compositions and methods for treatment of cancer and metabolic disease

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5894060A (en) * 1996-06-28 1999-04-13 Boulikas; Teni Cloning method for trapping human origins of replication
AU734189B2 (en) * 1996-12-16 2001-06-07 Mcgill University Human and mammalian DNA replication origin consensus sequences
US20190093147A1 (en) * 2009-08-31 2019-03-28 Centre National De La Recherche Scientifique (Cnrs) Purification process of nascent dna
WO2011023827A1 (en) 2009-08-31 2011-03-03 Centre National De La Recherche Scientifique Purification process of nascent dna
EP2813578A1 (en) * 2013-06-14 2014-12-17 Prestizia Methods for detecting an infectious agent, in particular HIV1, using long noncoding RNA

Also Published As

Publication number Publication date
JP2023540553A (ja) 2023-09-25
CA3188076A1 (en) 2022-03-10
US20240093182A1 (en) 2024-03-21
WO2022049295A1 (en) 2022-03-10
EP4211237A1 (en) 2023-07-19

Similar Documents

Publication Publication Date Title
Sutandy et al. In vitro iCLIP-based modeling uncovers how the splicing factor U2AF2 relies on regulation by cofactors
Cai et al. A genome-wide long noncoding RNA CRISPRi screen identifies PRANCR as a novel regulator of epidermal homeostasis
De Dieuleveult et al. Genome-wide nucleosome specificity and function of chromatin remodellers in ES cells
Akerman et al. A predictable conserved DNA base composition signature defines human core DNA replication origins
Samuel et al. Otx2 ChIP-seq reveals unique and redundant functions in the mature mouse retina
Battaglia et al. Long-range phasing of dynamic, tissue-specific and allele-specific regulatory elements
Ivanov et al. Evolutionarily conserved inhibitory uORFs sensitize Hox mRNA translation to start codon selection stringency
Han et al. Transposable element profiles reveal cell line identity and loss of heterozygosity in Drosophila cell culture
Sun et al. MSL2 ensures biallelic gene expression in mammals
KR20230062818A (ko) 진핵 dna 복제 기원, 및 이를 함유하는 벡터
Pizzollo et al. Differentially active and conserved neural enhancers define two forms of adaptive noncoding evolution in humans
Marti-Marimon et al. Major reorganization of chromosome conformation during muscle development in pig
Gökbuget et al. MLL3/MLL4 enzymatic activity shapes DNA replication timing
Arensbergen et al. Systematic identification of human SNPs affecting regulatory element activity
Rahman et al. From compartments to gene loops: Functions of the 3D genome in the human brain
Georgiades et al. Active regulatory elements recruit cohesin to establish cell-specific chromatin domains.
Kwon et al. Validation of skeletal muscle cis-regulatory module predictions reveals nucleotide composition bias in functional enhancers
Choi et al. Massively parallel reporter assays combined with cell-type specific eQTL informed multiple melanoma loci and identified a pleiotropic function of HIV-1 restriction gene, MX2, in melanoma promotion
Kim et al. Single cell CRISPR base editor engineering and transcriptional characterization of cancer mutations
Jia et al. Single cell RNA-seq and ATAC-seq indicate critical roles of Isl1 and Nkx2-5 for cardiac progenitor cell transition states and lineage settlement
Gong et al. Nanopore sequencing reveals high-resolution structural variation in the Cancer genome
Powell et al. Schizophrenia Risk Mapping and Functional Engineering of the 3D Genome in Three Neuronal Subtypes
Yu et al. Comprehensive identification of fetal cis-regulatory elements in the human genome by single-cell multi-omics analysis
Zibetti et al. Lhx2 regulates temporal changes in chromatin accessibility and transcription factor binding in retinal progenitor cells
Jaksik et al. Detection and characterization of replication origins defined by DNA polymerase epsilon

Legal Events

Date Code Title Description
A201 Request for examination