KR102628801B1 - 세포내 유전자 변형 및 증가된 상동 재조합을 위한 보호 dna 주형 및 이용 방법 - Google Patents
세포내 유전자 변형 및 증가된 상동 재조합을 위한 보호 dna 주형 및 이용 방법 Download PDFInfo
- Publication number
- KR102628801B1 KR102628801B1 KR1020187012640A KR20187012640A KR102628801B1 KR 102628801 B1 KR102628801 B1 KR 102628801B1 KR 1020187012640 A KR1020187012640 A KR 1020187012640A KR 20187012640 A KR20187012640 A KR 20187012640A KR 102628801 B1 KR102628801 B1 KR 102628801B1
- Authority
- KR
- South Korea
- Prior art keywords
- polynucleotide
- dna
- sequence
- cells
- template
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 178
- 230000001681 protective effect Effects 0.000 title claims abstract description 81
- 230000001965 increasing effect Effects 0.000 title claims description 19
- 238000002744 homologous recombination Methods 0.000 title description 69
- 230000006801 homologous recombination Effects 0.000 title description 69
- 230000003834 intracellular effect Effects 0.000 title description 7
- 238000012239 gene modification Methods 0.000 title description 5
- 230000005017 genetic modification Effects 0.000 title description 3
- 235000013617 genetically modified food Nutrition 0.000 title description 3
- 102000040430 polynucleotide Human genes 0.000 claims abstract description 335
- 108091033319 polynucleotide Proteins 0.000 claims abstract description 335
- 239000002157 polynucleotide Substances 0.000 claims abstract description 335
- 125000003729 nucleotide group Chemical group 0.000 claims abstract description 160
- 239000002773 nucleotide Substances 0.000 claims abstract description 146
- 230000004048 modification Effects 0.000 claims abstract description 126
- 238000012986 modification Methods 0.000 claims abstract description 125
- 108010042407 Endonucleases Proteins 0.000 claims abstract description 122
- 230000010354 integration Effects 0.000 claims abstract description 37
- 102000004533 Endonucleases Human genes 0.000 claims abstract description 20
- 230000034431 double-strand break repair via homologous recombination Effects 0.000 claims abstract description 16
- 240000004808 Saccharomyces cerevisiae Species 0.000 claims description 89
- 230000005782 double-strand break Effects 0.000 claims description 75
- 230000006780 non-homologous end joining Effects 0.000 claims description 66
- 238000012217 deletion Methods 0.000 claims description 39
- 230000037430 deletion Effects 0.000 claims description 37
- 230000000813 microbial effect Effects 0.000 claims description 35
- 238000003780 insertion Methods 0.000 claims description 25
- 230000037431 insertion Effects 0.000 claims description 25
- 241000235013 Yarrowia Species 0.000 claims description 22
- 230000005783 single-strand break Effects 0.000 claims description 20
- 238000006467 substitution reaction Methods 0.000 claims description 17
- RYYWUUFWQRZTIU-UHFFFAOYSA-K thiophosphate Chemical group [O-]P([O-])([O-])=S RYYWUUFWQRZTIU-UHFFFAOYSA-K 0.000 claims description 15
- 241000222120 Candida <Saccharomycetales> Species 0.000 claims description 10
- 230000002829 reductive effect Effects 0.000 claims description 10
- 241000223252 Rhodotorula Species 0.000 claims description 7
- 241000223230 Trichosporon Species 0.000 claims description 6
- 241001527609 Cryptococcus Species 0.000 claims description 5
- 241000235070 Saccharomyces Species 0.000 claims description 5
- 241000235346 Schizosaccharomyces Species 0.000 claims description 5
- 241000235649 Kluyveromyces Species 0.000 claims description 4
- 241000235648 Pichia Species 0.000 claims description 4
- 241001480014 Trigonopsis Species 0.000 claims description 4
- 241000235017 Zygosaccharomyces Species 0.000 claims description 4
- 241000263298 Paphia <bivalve> Species 0.000 claims description 3
- 108091028043 Nucleic acid sequence Proteins 0.000 abstract description 70
- 239000000203 mixture Substances 0.000 abstract description 22
- 210000004027 cell Anatomy 0.000 description 371
- 108020004414 DNA Proteins 0.000 description 282
- 108090000623 proteins and genes Proteins 0.000 description 192
- 241000196324 Embryophyta Species 0.000 description 120
- 108091033409 CRISPR Proteins 0.000 description 116
- 102100031780 Endonuclease Human genes 0.000 description 99
- 102000004169 proteins and genes Human genes 0.000 description 91
- 235000018102 proteins Nutrition 0.000 description 87
- 235000014680 Saccharomyces cerevisiae Nutrition 0.000 description 84
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 81
- 108020005004 Guide RNA Proteins 0.000 description 67
- 230000000694 effects Effects 0.000 description 62
- 230000014509 gene expression Effects 0.000 description 61
- 150000007523 nucleic acids Chemical class 0.000 description 59
- 230000008685 targeting Effects 0.000 description 51
- 239000012634 fragment Substances 0.000 description 43
- 241000235015 Yarrowia lipolytica Species 0.000 description 39
- 102000039446 nucleic acids Human genes 0.000 description 38
- 108020004707 nucleic acids Proteins 0.000 description 38
- 230000009466 transformation Effects 0.000 description 38
- 101150008604 CAN1 gene Proteins 0.000 description 35
- 108090000765 processed proteins & peptides Proteins 0.000 description 35
- 102000004196 processed proteins & peptides Human genes 0.000 description 33
- 108020004999 messenger RNA Proteins 0.000 description 32
- 239000013612 plasmid Substances 0.000 description 31
- 229920001184 polypeptide Polymers 0.000 description 31
- 241000894007 species Species 0.000 description 31
- 108091092562 ribozyme Proteins 0.000 description 30
- 108090000994 Catalytic RNA Proteins 0.000 description 29
- 102000053642 Catalytic RNA Human genes 0.000 description 29
- 101150050575 URA3 gene Proteins 0.000 description 28
- 108091079001 CRISPR RNA Proteins 0.000 description 27
- 101100246753 Halobacterium salinarum (strain ATCC 700922 / JCM 11081 / NRC-1) pyrF gene Proteins 0.000 description 26
- 230000008439 repair process Effects 0.000 description 26
- UCSJYZPVAKXKNQ-HZYVHMACSA-N streptomycin Chemical compound CN[C@H]1[C@H](O)[C@@H](O)[C@H](CO)O[C@H]1O[C@@H]1[C@](C=O)(O)[C@H](C)O[C@H]1O[C@@H]1[C@@H](NC(N)=N)[C@H](O)[C@@H](NC(N)=N)[C@H](O)[C@H]1O UCSJYZPVAKXKNQ-HZYVHMACSA-N 0.000 description 26
- 239000013615 primer Substances 0.000 description 25
- FSBIGDSBMBYOPN-VKHMYHEASA-N L-canavanine Chemical compound OC(=O)[C@@H](N)CCONC(N)=N FSBIGDSBMBYOPN-VKHMYHEASA-N 0.000 description 24
- 239000003550 marker Substances 0.000 description 22
- 230000001404 mediated effect Effects 0.000 description 22
- 239000000047 product Substances 0.000 description 22
- 210000001519 tissue Anatomy 0.000 description 21
- 238000011144 upstream manufacturing Methods 0.000 description 21
- 102000053602 DNA Human genes 0.000 description 20
- 108700026244 Open Reading Frames Proteins 0.000 description 20
- 210000000349 chromosome Anatomy 0.000 description 20
- 230000000295 complement effect Effects 0.000 description 20
- 241000894006 Bacteria Species 0.000 description 19
- 241000193996 Streptococcus pyogenes Species 0.000 description 19
- 101710163270 Nuclease Proteins 0.000 description 18
- 108091026890 Coding region Proteins 0.000 description 17
- 230000001105 regulatory effect Effects 0.000 description 17
- 102000004190 Enzymes Human genes 0.000 description 16
- 108090000790 Enzymes Proteins 0.000 description 16
- FSBIGDSBMBYOPN-UHFFFAOYSA-N O-guanidino-DL-homoserine Natural products OC(=O)C(N)CCON=C(N)N FSBIGDSBMBYOPN-UHFFFAOYSA-N 0.000 description 16
- 240000008042 Zea mays Species 0.000 description 16
- 230000035772 mutation Effects 0.000 description 16
- 230000037361 pathway Effects 0.000 description 16
- 230000002441 reversible effect Effects 0.000 description 16
- 108700028369 Alleles Proteins 0.000 description 15
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 15
- 125000003275 alpha amino acid group Chemical group 0.000 description 15
- 235000001014 amino acid Nutrition 0.000 description 15
- 230000027455 binding Effects 0.000 description 15
- 238000006243 chemical reaction Methods 0.000 description 15
- 230000001939 inductive effect Effects 0.000 description 15
- 241000233866 Fungi Species 0.000 description 14
- 108090001102 Hammerhead ribozyme Proteins 0.000 description 14
- 238000003776 cleavage reaction Methods 0.000 description 14
- 238000010367 cloning Methods 0.000 description 14
- 230000007017 scission Effects 0.000 description 14
- 238000004458 analytical method Methods 0.000 description 13
- 230000002068 genetic effect Effects 0.000 description 13
- 229960005322 streptomycin Drugs 0.000 description 13
- 238000013518 transcription Methods 0.000 description 13
- 230000035897 transcription Effects 0.000 description 13
- 150000001413 amino acids Chemical class 0.000 description 12
- 238000003556 assay Methods 0.000 description 12
- 238000009396 hybridization Methods 0.000 description 12
- 239000000523 sample Substances 0.000 description 12
- 238000013519 translation Methods 0.000 description 12
- 108020004511 Recombinant DNA Proteins 0.000 description 11
- 235000016383 Zea mays subsp huehuetenangensis Nutrition 0.000 description 11
- 235000009973 maize Nutrition 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 230000009261 transgenic effect Effects 0.000 description 11
- 108020004705 Codon Proteins 0.000 description 10
- 108010008532 Deoxyribonuclease I Proteins 0.000 description 10
- 102000007260 Deoxyribonuclease I Human genes 0.000 description 10
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 10
- HCHKCACWOHOZIP-UHFFFAOYSA-N Zinc Chemical compound [Zn] HCHKCACWOHOZIP-UHFFFAOYSA-N 0.000 description 10
- 238000010362 genome editing Methods 0.000 description 10
- 230000001568 sexual effect Effects 0.000 description 10
- 238000012546 transfer Methods 0.000 description 10
- 229910052725 zinc Inorganic materials 0.000 description 10
- 239000011701 zinc Substances 0.000 description 10
- 230000033616 DNA repair Effects 0.000 description 9
- 235000010469 Glycine max Nutrition 0.000 description 9
- 244000068988 Glycine max Species 0.000 description 9
- 241000282414 Homo sapiens Species 0.000 description 9
- 241001465754 Metazoa Species 0.000 description 9
- 241000194017 Streptococcus Species 0.000 description 9
- 230000000692 anti-sense effect Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 101150098466 rpsL gene Proteins 0.000 description 9
- 238000011426 transformation method Methods 0.000 description 9
- 230000001052 transient effect Effects 0.000 description 9
- 239000013598 vector Substances 0.000 description 9
- 210000005253 yeast cell Anatomy 0.000 description 9
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 8
- ZHNUHDYFZUAESO-UHFFFAOYSA-N Formamide Chemical compound NC=O ZHNUHDYFZUAESO-UHFFFAOYSA-N 0.000 description 8
- 241000238631 Hexapoda Species 0.000 description 8
- 240000007594 Oryza sativa Species 0.000 description 8
- 235000007164 Oryza sativa Nutrition 0.000 description 8
- 101100010928 Saccharolobus solfataricus (strain ATCC 35092 / DSM 1617 / JCM 11322 / P2) tuf gene Proteins 0.000 description 8
- 244000062793 Sorghum vulgare Species 0.000 description 8
- 101150001810 TEAD1 gene Proteins 0.000 description 8
- 101150074253 TEF1 gene Proteins 0.000 description 8
- 102100029898 Transcriptional enhancer factor TEF-1 Human genes 0.000 description 8
- 108700019146 Transgenes Proteins 0.000 description 8
- AVKUERGKIZMTKX-NJBDSQKTSA-N ampicillin Chemical compound C1([C@@H](N)C(=O)N[C@H]2[C@H]3SC([C@@H](N3C2=O)C(O)=O)(C)C)=CC=CC=C1 AVKUERGKIZMTKX-NJBDSQKTSA-N 0.000 description 8
- 229960000723 ampicillin Drugs 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 8
- 238000000338 in vitro Methods 0.000 description 8
- 239000000411 inducer Substances 0.000 description 8
- 244000005700 microbiome Species 0.000 description 8
- 244000052769 pathogen Species 0.000 description 8
- 108091008146 restriction endonucleases Proteins 0.000 description 8
- 238000010561 standard procedure Methods 0.000 description 8
- 241000589158 Agrobacterium Species 0.000 description 7
- 241000203069 Archaea Species 0.000 description 7
- 241000588724 Escherichia coli Species 0.000 description 7
- 241000251131 Sphyrna Species 0.000 description 7
- 241000607479 Yersinia pestis Species 0.000 description 7
- KOSRFJWDECSPRO-UHFFFAOYSA-N alpha-L-glutamyl-L-glutamic acid Natural products OC(=O)CCC(N)C(=O)NC(CCC(O)=O)C(O)=O KOSRFJWDECSPRO-UHFFFAOYSA-N 0.000 description 7
- 229910052799 carbon Inorganic materials 0.000 description 7
- 210000002919 epithelial cell Anatomy 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 7
- 230000002363 herbicidal effect Effects 0.000 description 7
- 239000004009 herbicide Substances 0.000 description 7
- 108010034529 leucyl-lysine Proteins 0.000 description 7
- 239000002609 medium Substances 0.000 description 7
- 238000010369 molecular cloning Methods 0.000 description 7
- 210000004940 nucleus Anatomy 0.000 description 7
- 210000000056 organ Anatomy 0.000 description 7
- 230000006798 recombination Effects 0.000 description 7
- 238000005215 recombination Methods 0.000 description 7
- 235000009566 rice Nutrition 0.000 description 7
- 239000000126 substance Substances 0.000 description 7
- 239000000758 substrate Substances 0.000 description 7
- YQYJSBFKSSDGFO-UHFFFAOYSA-N Epihygromycin Natural products OC1C(O)C(C(=O)C)OC1OC(C(=C1)O)=CC=C1C=C(C)C(=O)NC1C(O)C(O)C2OCOC2C1O YQYJSBFKSSDGFO-UHFFFAOYSA-N 0.000 description 6
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 6
- KDXKERNSBIXSRK-UHFFFAOYSA-N Lysine Natural products NCCCCC(N)C(O)=O KDXKERNSBIXSRK-UHFFFAOYSA-N 0.000 description 6
- 108091034117 Oligonucleotide Proteins 0.000 description 6
- 239000000872 buffer Substances 0.000 description 6
- 239000003795 chemical substances by application Substances 0.000 description 6
- 239000003184 complementary RNA Substances 0.000 description 6
- 210000002257 embryonic structure Anatomy 0.000 description 6
- 210000003527 eukaryotic cell Anatomy 0.000 description 6
- 230000004927 fusion Effects 0.000 description 6
- 108010055341 glutamyl-glutamic acid Proteins 0.000 description 6
- 210000004962 mammalian cell Anatomy 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 6
- 235000020777 polyunsaturated fatty acids Nutrition 0.000 description 6
- 210000001236 prokaryotic cell Anatomy 0.000 description 6
- 125000006850 spacer group Chemical group 0.000 description 6
- 238000001890 transfection Methods 0.000 description 6
- 230000003612 virological effect Effects 0.000 description 6
- 108700010070 Codon Usage Proteins 0.000 description 5
- 208000037262 Hepatitis delta Diseases 0.000 description 5
- 241000724709 Hepatitis delta virus Species 0.000 description 5
- 108091080980 Hepatitis delta virus ribozyme Proteins 0.000 description 5
- 241000829100 Macaca mulatta polyomavirus 1 Species 0.000 description 5
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 5
- 244000061176 Nicotiana tabacum Species 0.000 description 5
- 235000011684 Sorghum saccharatum Nutrition 0.000 description 5
- 229920002472 Starch Polymers 0.000 description 5
- 241000194025 Streptococcus oralis Species 0.000 description 5
- 241000194020 Streptococcus thermophilus Species 0.000 description 5
- 241000700605 Viruses Species 0.000 description 5
- 108010017070 Zinc Finger Nucleases Proteins 0.000 description 5
- 108010092854 aspartyllysine Proteins 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 5
- 230000002759 chromosomal effect Effects 0.000 description 5
- -1 delta -12 desaturase Proteins 0.000 description 5
- 238000004520 electroporation Methods 0.000 description 5
- 208000029570 hepatitis D virus infection Diseases 0.000 description 5
- 238000000520 microinjection Methods 0.000 description 5
- 239000003921 oil Substances 0.000 description 5
- 210000003463 organelle Anatomy 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 210000001938 protoplast Anatomy 0.000 description 5
- 230000003362 replicative effect Effects 0.000 description 5
- 239000011780 sodium chloride Substances 0.000 description 5
- 235000019698 starch Nutrition 0.000 description 5
- 239000008107 starch Substances 0.000 description 5
- 239000007222 ypd medium Substances 0.000 description 5
- 108020005544 Antisense RNA Proteins 0.000 description 4
- 108020004638 Circular DNA Proteins 0.000 description 4
- 241000195493 Cryptophyta Species 0.000 description 4
- 230000004568 DNA-binding Effects 0.000 description 4
- AHCYMLUZIRLXAA-SHYZEUOFSA-N Deoxyuridine 5'-triphosphate Chemical compound O1[C@H](COP(O)(=O)OP(O)(=O)OP(O)(O)=O)[C@@H](O)C[C@@H]1N1C(=O)NC(=O)C=C1 AHCYMLUZIRLXAA-SHYZEUOFSA-N 0.000 description 4
- 241000206602 Eukaryota Species 0.000 description 4
- 108060002716 Exonuclease Proteins 0.000 description 4
- 108700007698 Genetic Terminator Regions Proteins 0.000 description 4
- 108010043121 Green Fluorescent Proteins Proteins 0.000 description 4
- 102000004144 Green Fluorescent Proteins Human genes 0.000 description 4
- 241000282412 Homo Species 0.000 description 4
- 206010020649 Hyperkeratosis Diseases 0.000 description 4
- 108091092195 Intron Proteins 0.000 description 4
- 241001138401 Kluyveromyces lactis Species 0.000 description 4
- 241000124008 Mammalia Species 0.000 description 4
- 108020005196 Mitochondrial DNA Proteins 0.000 description 4
- 241000699670 Mus sp. Species 0.000 description 4
- 229910019142 PO4 Inorganic materials 0.000 description 4
- 239000002202 Polyethylene glycol Substances 0.000 description 4
- 241000589516 Pseudomonas Species 0.000 description 4
- 241000198071 Saccharomyces cariocanus Species 0.000 description 4
- 241001123227 Saccharomyces pastorianus Species 0.000 description 4
- DBMJMQXJHONAFJ-UHFFFAOYSA-M Sodium laurylsulphate Chemical compound [Na+].CCCCCCCCCCCCOS([O-])(=O)=O DBMJMQXJHONAFJ-UHFFFAOYSA-M 0.000 description 4
- 241000589886 Treponema Species 0.000 description 4
- 241000223259 Trichoderma Species 0.000 description 4
- 239000007983 Tris buffer Substances 0.000 description 4
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 4
- 108020005202 Viral DNA Proteins 0.000 description 4
- 108020000999 Viral RNA Proteins 0.000 description 4
- 241000605941 Wolinella Species 0.000 description 4
- 235000005824 Zea mays ssp. parviglumis Nutrition 0.000 description 4
- JLCPHMBAVCMARE-UHFFFAOYSA-N [3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[3-[[3-[[3-[[3-[[3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-[[5-(2-amino-6-oxo-1H-purin-9-yl)-3-hydroxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxyoxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(5-methyl-2,4-dioxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(6-aminopurin-9-yl)oxolan-2-yl]methoxy-hydroxyphosphoryl]oxy-5-(4-amino-2-oxopyrimidin-1-yl)oxolan-2-yl]methyl [5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-yl] hydrogen phosphate Polymers Cc1cn(C2CC(OP(O)(=O)OCC3OC(CC3OP(O)(=O)OCC3OC(CC3O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c3nc(N)[nH]c4=O)C(COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3COP(O)(=O)OC3CC(OC3CO)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3ccc(N)nc3=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cc(C)c(=O)[nH]c3=O)n3cc(C)c(=O)[nH]c3=O)n3ccc(N)nc3=O)n3cc(C)c(=O)[nH]c3=O)n3cnc4c3nc(N)[nH]c4=O)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)n3cnc4c(N)ncnc34)O2)c(=O)[nH]c1=O JLCPHMBAVCMARE-UHFFFAOYSA-N 0.000 description 4
- OIRDTQYFTABQOQ-KQYNXXCUSA-N adenosine Chemical compound C1=NC=2C(N)=NC=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O OIRDTQYFTABQOQ-KQYNXXCUSA-N 0.000 description 4
- 230000004075 alteration Effects 0.000 description 4
- 229960002685 biotin Drugs 0.000 description 4
- 235000020958 biotin Nutrition 0.000 description 4
- 239000011616 biotin Substances 0.000 description 4
- 238000009395 breeding Methods 0.000 description 4
- 230000001413 cellular effect Effects 0.000 description 4
- 235000013339 cereals Nutrition 0.000 description 4
- 230000008859 change Effects 0.000 description 4
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 description 4
- 235000005822 corn Nutrition 0.000 description 4
- 108010082025 cyan fluorescent protein Proteins 0.000 description 4
- 235000014113 dietary fatty acids Nutrition 0.000 description 4
- 230000029087 digestion Effects 0.000 description 4
- 150000004662 dithiols Chemical class 0.000 description 4
- 150000002148 esters Chemical class 0.000 description 4
- 241001233957 eudicotyledons Species 0.000 description 4
- 102000013165 exonuclease Human genes 0.000 description 4
- 229930195729 fatty acid Natural products 0.000 description 4
- 239000000194 fatty acid Substances 0.000 description 4
- 150000004665 fatty acids Chemical class 0.000 description 4
- 230000002538 fungal effect Effects 0.000 description 4
- 108010050848 glycylleucine Proteins 0.000 description 4
- 239000005090 green fluorescent protein Substances 0.000 description 4
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 4
- 125000005980 hexynyl group Chemical group 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 235000021317 phosphate Nutrition 0.000 description 4
- 230000008488 polyadenylation Effects 0.000 description 4
- 229920001223 polyethylene glycol Polymers 0.000 description 4
- 238000012552 review Methods 0.000 description 4
- YGSDEFSMJLZEOE-UHFFFAOYSA-N salicylic acid Chemical compound OC(=O)C1=CC=CC=C1O YGSDEFSMJLZEOE-UHFFFAOYSA-N 0.000 description 4
- 150000003839 salts Chemical class 0.000 description 4
- LENZDBCJOHFCAS-UHFFFAOYSA-N tris Chemical compound OCC(N)(CO)CO LENZDBCJOHFCAS-UHFFFAOYSA-N 0.000 description 4
- 238000005406 washing Methods 0.000 description 4
- 108091005957 yellow fluorescent proteins Proteins 0.000 description 4
- 102000040650 (ribonucleotides)n+m Human genes 0.000 description 3
- 241000589155 Agrobacterium tumefaciens Species 0.000 description 3
- 241000219194 Arabidopsis Species 0.000 description 3
- 244000105624 Arachis hypogaea Species 0.000 description 3
- 244000075850 Avena orientalis Species 0.000 description 3
- 241000193830 Bacillus <bacterium> Species 0.000 description 3
- 101100434663 Bacillus subtilis (strain 168) fbaA gene Proteins 0.000 description 3
- 241000606125 Bacteroides Species 0.000 description 3
- 241001474374 Blennius Species 0.000 description 3
- 102000012410 DNA Ligases Human genes 0.000 description 3
- 108010061982 DNA Ligases Proteins 0.000 description 3
- 230000008265 DNA repair mechanism Effects 0.000 description 3
- 241000255581 Drosophila <fruit fly, genus> Species 0.000 description 3
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 3
- 101150095274 FBA1 gene Proteins 0.000 description 3
- 241000223218 Fusarium Species 0.000 description 3
- JBCLFWXMTIKCCB-UHFFFAOYSA-N H-Gly-Phe-OH Natural products NCC(=O)NC(C(O)=O)CC1=CC=CC=C1 JBCLFWXMTIKCCB-UHFFFAOYSA-N 0.000 description 3
- 241000606790 Haemophilus Species 0.000 description 3
- 244000020551 Helianthus annuus Species 0.000 description 3
- 235000003222 Helianthus annuus Nutrition 0.000 description 3
- 244000285963 Kluyveromyces fragilis Species 0.000 description 3
- 241000235058 Komagataella pastoris Species 0.000 description 3
- 241000186660 Lactobacillus Species 0.000 description 3
- IRMLZWSRWSGTOP-CIUDSAMLSA-N Leu-Ser-Ala Chemical compound CC(C)C[C@H](N)C(=O)N[C@@H](CO)C(=O)N[C@@H](C)C(O)=O IRMLZWSRWSGTOP-CIUDSAMLSA-N 0.000 description 3
- 241000186781 Listeria Species 0.000 description 3
- DRRXXZBXDMLGFC-IHRRRGAJSA-N Lys-Val-Leu Chemical compound CC(C)C[C@@H](C(O)=O)NC(=O)[C@H](C(C)C)NC(=O)[C@@H](N)CCCCN DRRXXZBXDMLGFC-IHRRRGAJSA-N 0.000 description 3
- 239000004472 Lysine Substances 0.000 description 3
- 240000004658 Medicago sativa Species 0.000 description 3
- 241000203353 Methanococcus Species 0.000 description 3
- 241000699666 Mus <mouse, genus> Species 0.000 description 3
- 241000588653 Neisseria Species 0.000 description 3
- 241000244206 Nematoda Species 0.000 description 3
- 108010077850 Nuclear Localization Signals Proteins 0.000 description 3
- 108091005461 Nucleic proteins Proteins 0.000 description 3
- 241000320412 Ogataea angusta Species 0.000 description 3
- 241001520808 Panicum virgatum Species 0.000 description 3
- 241000606860 Pasteurella Species 0.000 description 3
- 241000605894 Porphyromonas Species 0.000 description 3
- 241000605861 Prevotella Species 0.000 description 3
- 241000223254 Rhodotorula mucilaginosa Species 0.000 description 3
- 241000221523 Rhodotorula toruloides Species 0.000 description 3
- 241000235060 Scheffersomyces stipitis Species 0.000 description 3
- 241000235347 Schizosaccharomyces pombe Species 0.000 description 3
- 235000007238 Secale cereale Nutrition 0.000 description 3
- 244000082988 Secale cereale Species 0.000 description 3
- 108091027967 Small hairpin RNA Proteins 0.000 description 3
- 235000002595 Solanum tuberosum Nutrition 0.000 description 3
- 244000061456 Solanum tuberosum Species 0.000 description 3
- 241000194019 Streptococcus mutans Species 0.000 description 3
- 244000098338 Triticum aestivum Species 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 3
- 230000037006 agalactosis Effects 0.000 description 3
- 238000000137 annealing Methods 0.000 description 3
- 108010062796 arginyllysine Proteins 0.000 description 3
- 230000001580 bacterial effect Effects 0.000 description 3
- 230000003115 biocidal effect Effects 0.000 description 3
- 230000004071 biological effect Effects 0.000 description 3
- 230000006696 biosynthetic metabolic pathway Effects 0.000 description 3
- 230000001488 breeding effect Effects 0.000 description 3
- 238000005520 cutting process Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 210000002950 fibroblast Anatomy 0.000 description 3
- 238000003209 gene knockout Methods 0.000 description 3
- 230000030279 gene silencing Effects 0.000 description 3
- 238000012226 gene silencing method Methods 0.000 description 3
- 238000010353 genetic engineering Methods 0.000 description 3
- 102000054766 genetic haplotypes Human genes 0.000 description 3
- 108010025306 histidylleucine Proteins 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000001727 in vivo Methods 0.000 description 3
- 238000010348 incorporation Methods 0.000 description 3
- 229940039696 lactobacillus Drugs 0.000 description 3
- 108010057821 leucylproline Proteins 0.000 description 3
- 150000002632 lipids Chemical class 0.000 description 3
- XIXADJRWDQXREU-UHFFFAOYSA-M lithium acetate Chemical compound [Li+].CC([O-])=O XIXADJRWDQXREU-UHFFFAOYSA-M 0.000 description 3
- 108010054155 lysyllysine Proteins 0.000 description 3
- 230000013011 mating Effects 0.000 description 3
- 230000037353 metabolic pathway Effects 0.000 description 3
- 235000019713 millet Nutrition 0.000 description 3
- IJGRMHOSHXDMSA-UHFFFAOYSA-N nitrogen Substances N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 3
- 239000002245 particle Substances 0.000 description 3
- 239000010452 phosphate Substances 0.000 description 3
- 125000002467 phosphate group Chemical group [H]OP(=O)(O[H])O[*] 0.000 description 3
- 150000004713 phosphodiesters Chemical class 0.000 description 3
- 229920000642 polymer Polymers 0.000 description 3
- 239000002243 precursor Substances 0.000 description 3
- 238000003753 real-time PCR Methods 0.000 description 3
- 230000001850 reproductive effect Effects 0.000 description 3
- 230000035882 stress Effects 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 108091006106 transcriptional activators Proteins 0.000 description 3
- 238000010361 transduction Methods 0.000 description 3
- 230000026683 transduction Effects 0.000 description 3
- 108010073969 valyllysine Proteins 0.000 description 3
- JKMHFZQWWAIEOD-UHFFFAOYSA-N 2-[4-(2-hydroxyethyl)piperazin-1-yl]ethanesulfonic acid Chemical compound OCC[NH+]1CCN(CCS([O-])(=O)=O)CC1 JKMHFZQWWAIEOD-UHFFFAOYSA-N 0.000 description 2
- ZBMRKNMTMPPMMK-UHFFFAOYSA-N 2-amino-4-[hydroxy(methyl)phosphoryl]butanoic acid;azane Chemical compound [NH4+].CP(O)(=O)CCC(N)C([O-])=O ZBMRKNMTMPPMMK-UHFFFAOYSA-N 0.000 description 2
- UHPMCKVQTMMPCG-UHFFFAOYSA-N 5,8-dihydroxy-2-methoxy-6-methyl-7-(2-oxopropyl)naphthalene-1,4-dione Chemical compound CC1=C(CC(C)=O)C(O)=C2C(=O)C(OC)=CC(=O)C2=C1O UHPMCKVQTMMPCG-UHFFFAOYSA-N 0.000 description 2
- SEHFUALWMUWDKS-UHFFFAOYSA-N 5-fluoroorotic acid Chemical compound OC(=O)C=1NC(=O)NC(=O)C=1F SEHFUALWMUWDKS-UHFFFAOYSA-N 0.000 description 2
- KDCGOANMDULRCW-UHFFFAOYSA-N 7H-purine Chemical compound N1=CNC2=NC=NC2=C1 KDCGOANMDULRCW-UHFFFAOYSA-N 0.000 description 2
- 241000604451 Acidaminococcus Species 0.000 description 2
- 241000589291 Acinetobacter Species 0.000 description 2
- 102100034544 Acyl-CoA 6-desaturase Human genes 0.000 description 2
- 229920001817 Agar Polymers 0.000 description 2
- MDNAVFBZPROEHO-UHFFFAOYSA-N Ala-Lys-Val Natural products CC(C)C(C(O)=O)NC(=O)C(NC(=O)C(C)N)CCCCN MDNAVFBZPROEHO-UHFFFAOYSA-N 0.000 description 2
- 244000291564 Allium cepa Species 0.000 description 2
- 235000002732 Allium cepa var. cepa Nutrition 0.000 description 2
- 241000224489 Amoeba Species 0.000 description 2
- 244000099147 Ananas comosus Species 0.000 description 2
- 235000007119 Ananas comosus Nutrition 0.000 description 2
- 241000219195 Arabidopsis thaliana Species 0.000 description 2
- 235000010777 Arachis hypogaea Nutrition 0.000 description 2
- 241000205046 Archaeoglobus Species 0.000 description 2
- VNFWDYWTSHFRRG-SRVKXCTJSA-N Arg-Gln-Leu Chemical compound [H]N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(C)C)C(O)=O VNFWDYWTSHFRRG-SRVKXCTJSA-N 0.000 description 2
- OTZMRMHZCMZOJZ-SRVKXCTJSA-N Arg-Leu-Glu Chemical compound [H]N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCC(O)=O)C(O)=O OTZMRMHZCMZOJZ-SRVKXCTJSA-N 0.000 description 2
- FSNVAJOPUDVQAR-AVGNSLFASA-N Arg-Lys-Arg Chemical compound NC(=N)NCCC[C@H](N)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CCCNC(N)=N)C(O)=O FSNVAJOPUDVQAR-AVGNSLFASA-N 0.000 description 2
- 239000004475 Arginine Substances 0.000 description 2
- 240000002900 Arthrospira platensis Species 0.000 description 2
- BDMIFVIWCNLDCT-CIUDSAMLSA-N Asn-Arg-Glu Chemical compound [H]N[C@@H](CC(N)=O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCC(O)=O)C(O)=O BDMIFVIWCNLDCT-CIUDSAMLSA-N 0.000 description 2
- OPEPUCYIGFEGSW-WDSKDSINSA-N Asn-Gly-Glu Chemical compound [H]N[C@@H](CC(N)=O)C(=O)NCC(=O)N[C@@H](CCC(O)=O)C(O)=O OPEPUCYIGFEGSW-WDSKDSINSA-N 0.000 description 2
- NJSNXIOKBHPFMB-GMOBBJLQSA-N Asn-Pro-Ile Chemical compound CC[C@H](C)[C@@H](C(=O)O)NC(=O)[C@@H]1CCCN1C(=O)[C@H](CC(=O)N)N NJSNXIOKBHPFMB-GMOBBJLQSA-N 0.000 description 2
- UJGRZQYSNYTCAX-SRVKXCTJSA-N Asp-Leu-Leu Chemical compound CC(C)C[C@@H](C(O)=O)NC(=O)[C@H](CC(C)C)NC(=O)[C@@H](N)CC(O)=O UJGRZQYSNYTCAX-SRVKXCTJSA-N 0.000 description 2
- LTCKTLYKRMCFOC-KKUMJFAQSA-N Asp-Phe-Leu Chemical compound [H]N[C@@H](CC(O)=O)C(=O)N[C@@H](CC1=CC=CC=C1)C(=O)N[C@@H](CC(C)C)C(O)=O LTCKTLYKRMCFOC-KKUMJFAQSA-N 0.000 description 2
- 241000228212 Aspergillus Species 0.000 description 2
- 241000351920 Aspergillus nidulans Species 0.000 description 2
- 235000007319 Avena orientalis Nutrition 0.000 description 2
- 241000606660 Bartonella Species 0.000 description 2
- 102100026189 Beta-galactosidase Human genes 0.000 description 2
- 235000014698 Brassica juncea var multisecta Nutrition 0.000 description 2
- 235000006008 Brassica napus var napus Nutrition 0.000 description 2
- 235000006618 Brassica rapa subsp oleifera Nutrition 0.000 description 2
- 241001301148 Brassica rapa subsp. oleifera Species 0.000 description 2
- 235000004977 Brassica sinapistrum Nutrition 0.000 description 2
- 241000193417 Brevibacillus laterosporus Species 0.000 description 2
- 238000010453 CRISPR/Cas method Methods 0.000 description 2
- 241000589876 Campylobacter Species 0.000 description 2
- 244000206911 Candida holmii Species 0.000 description 2
- 241000222178 Candida tropicalis Species 0.000 description 2
- 240000001817 Cereus hexagonus Species 0.000 description 2
- 108010035563 Chloramphenicol O-acetyltransferase Proteins 0.000 description 2
- 241000195628 Chlorophyta Species 0.000 description 2
- 108091060290 Chromatid Proteins 0.000 description 2
- 241000611330 Chryseobacterium Species 0.000 description 2
- 241000193403 Clostridium Species 0.000 description 2
- 108020004394 Complementary RNA Proteins 0.000 description 2
- 241000186216 Corynebacterium Species 0.000 description 2
- 229920000742 Cotton Polymers 0.000 description 2
- 241000199913 Crypthecodinium Species 0.000 description 2
- 241000223233 Cutaneotrichosporon cutaneum Species 0.000 description 2
- 241000235646 Cyberlindnera jadinii Species 0.000 description 2
- 102000004594 DNA Polymerase I Human genes 0.000 description 2
- 108010017826 DNA Polymerase I Proteins 0.000 description 2
- 230000005778 DNA damage Effects 0.000 description 2
- 231100000277 DNA damage Toxicity 0.000 description 2
- 239000003155 DNA primer Substances 0.000 description 2
- 230000004543 DNA replication Effects 0.000 description 2
- 230000007018 DNA scission Effects 0.000 description 2
- 241000199914 Dinophyceae Species 0.000 description 2
- 244000078127 Eleusine coracana Species 0.000 description 2
- 241000588722 Escherichia Species 0.000 description 2
- 241000195620 Euglena Species 0.000 description 2
- 241000195623 Euglenida Species 0.000 description 2
- 108010087894 Fatty acid desaturases Proteins 0.000 description 2
- 241000589565 Flavobacterium Species 0.000 description 2
- 241000589601 Francisella Species 0.000 description 2
- 241000223195 Fusarium graminearum Species 0.000 description 2
- 241000223197 Fusarium lateritium Species 0.000 description 2
- 241000223221 Fusarium oxysporum Species 0.000 description 2
- 241000221779 Fusarium sambucinum Species 0.000 description 2
- 241000605909 Fusobacterium Species 0.000 description 2
- MWMJCGBSIORNCD-AVGNSLFASA-N Glu-Leu-Leu Chemical compound [H]N[C@@H](CCC(O)=O)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC(C)C)C(O)=O MWMJCGBSIORNCD-AVGNSLFASA-N 0.000 description 2
- NTBOEZICHOSJEE-YUMQZZPRSA-N Gly-Lys-Ser Chemical compound [H]NCC(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CO)C(O)=O NTBOEZICHOSJEE-YUMQZZPRSA-N 0.000 description 2
- 241000219146 Gossypium Species 0.000 description 2
- NYHBQMYGNKIUIF-UUOKFMHZSA-N Guanosine Chemical compound C1=NC=2C(=O)NC(N)=NC=2N1[C@@H]1O[C@H](CO)[C@@H](O)[C@H]1O NYHBQMYGNKIUIF-UUOKFMHZSA-N 0.000 description 2
- 239000007995 HEPES buffer Substances 0.000 description 2
- 101710154606 Hemagglutinin Proteins 0.000 description 2
- 108010068250 Herpes Simplex Virus Protein Vmw65 Proteins 0.000 description 2
- 108010033040 Histones Proteins 0.000 description 2
- 101000615488 Homo sapiens Methyl-CpG-binding domain protein 2 Proteins 0.000 description 2
- 235000007340 Hordeum vulgare Nutrition 0.000 description 2
- 240000005979 Hordeum vulgare Species 0.000 description 2
- 108010001336 Horseradish Peroxidase Proteins 0.000 description 2
- BCISUQVFDGYZBO-QSFUFRPTSA-N Ile-Val-Asp Chemical compound CC[C@H](C)[C@H](N)C(=O)N[C@@H](C(C)C)C(=O)N[C@H](C(O)=O)CC(O)=O BCISUQVFDGYZBO-QSFUFRPTSA-N 0.000 description 2
- 102100034343 Integrase Human genes 0.000 description 2
- 108010025815 Kanamycin Kinase Proteins 0.000 description 2
- 241001159781 Kazachstania spencerorum Species 0.000 description 2
- 241000039979 Kazachstania turicensis Species 0.000 description 2
- 241000588748 Klebsiella Species 0.000 description 2
- FADYJNXDPBKVCA-UHFFFAOYSA-N L-Phenylalanyl-L-lysin Natural products NCCCCC(C(O)=O)NC(=O)C(N)CC1=CC=CC=C1 FADYJNXDPBKVCA-UHFFFAOYSA-N 0.000 description 2
- 241000235087 Lachancea kluyveri Species 0.000 description 2
- 241000589248 Legionella Species 0.000 description 2
- 208000007764 Legionnaires' Disease Diseases 0.000 description 2
- 241000880493 Leptailurus serval Species 0.000 description 2
- 241001453171 Leptotrichia Species 0.000 description 2
- WUFYAPWIHCUMLL-CIUDSAMLSA-N Leu-Asn-Ala Chemical compound [H]N[C@@H](CC(C)C)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](C)C(O)=O WUFYAPWIHCUMLL-CIUDSAMLSA-N 0.000 description 2
- DBSLVQBXKVKDKJ-BJDJZHNGSA-N Leu-Ile-Ala Chemical compound [H]N[C@@H](CC(C)C)C(=O)N[C@@H]([C@@H](C)CC)C(=O)N[C@@H](C)C(O)=O DBSLVQBXKVKDKJ-BJDJZHNGSA-N 0.000 description 2
- YRRCOJOXAJNSAX-IHRRRGAJSA-N Leu-Pro-Lys Chemical compound CC(C)C[C@@H](C(=O)N1CCC[C@H]1C(=O)N[C@@H](CCCCN)C(=O)O)N YRRCOJOXAJNSAX-IHRRRGAJSA-N 0.000 description 2
- 241000192132 Leuconostoc Species 0.000 description 2
- 102000003960 Ligases Human genes 0.000 description 2
- 108090000364 Ligases Proteins 0.000 description 2
- 241000234280 Liliaceae Species 0.000 description 2
- 241000209510 Liliopsida Species 0.000 description 2
- 108010037138 Linoleoyl-CoA Desaturase Proteins 0.000 description 2
- 241001149698 Lipomyces Species 0.000 description 2
- HQVDJTYKCMIWJP-YUMQZZPRSA-N Lys-Asn-Gly Chemical compound [H]N[C@@H](CCCCN)C(=O)N[C@@H](CC(N)=O)C(=O)NCC(O)=O HQVDJTYKCMIWJP-YUMQZZPRSA-N 0.000 description 2
- FACUGMGEFUEBTI-SRVKXCTJSA-N Lys-Asn-Leu Chemical compound CC(C)C[C@@H](C(O)=O)NC(=O)[C@H](CC(N)=O)NC(=O)[C@@H](N)CCCCN FACUGMGEFUEBTI-SRVKXCTJSA-N 0.000 description 2
- WVJNGSFKBKOKRV-AJNGGQMLSA-N Lys-Leu-Ile Chemical compound [H]N[C@@H](CCCCN)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H]([C@@H](C)CC)C(O)=O WVJNGSFKBKOKRV-AJNGGQMLSA-N 0.000 description 2
- LJADEBULDNKJNK-IHRRRGAJSA-N Lys-Leu-Val Chemical compound CC(C)C[C@H](NC(=O)[C@@H](N)CCCCN)C(=O)N[C@@H](C(C)C)C(O)=O LJADEBULDNKJNK-IHRRRGAJSA-N 0.000 description 2
- JMNRXRPBHFGXQX-GUBZILKMSA-N Lys-Ser-Glu Chemical compound NCCCC[C@H](N)C(=O)N[C@@H](CO)C(=O)N[C@H](C(O)=O)CCC(O)=O JMNRXRPBHFGXQX-GUBZILKMSA-N 0.000 description 2
- 101710175625 Maltose/maltodextrin-binding periplasmic protein Proteins 0.000 description 2
- 235000017587 Medicago sativa ssp. sativa Nutrition 0.000 description 2
- RRIHXWPHQSXHAQ-XUXIUFHCSA-N Met-Ile-Lys Chemical compound CSCC[C@H](N)C(=O)N[C@@H]([C@@H](C)CC)C(=O)N[C@@H](CCCCN)C(O)=O RRIHXWPHQSXHAQ-XUXIUFHCSA-N 0.000 description 2
- 102100021299 Methyl-CpG-binding domain protein 2 Human genes 0.000 description 2
- 108060004795 Methyltransferase Proteins 0.000 description 2
- 102000016397 Methyltransferase Human genes 0.000 description 2
- 241000186359 Mycobacterium Species 0.000 description 2
- 241000204031 Mycoplasma Species 0.000 description 2
- YBAFDPFAUTYYRW-UHFFFAOYSA-N N-L-alpha-glutamyl-L-leucine Natural products CC(C)CC(C(O)=O)NC(=O)C(N)CCC(O)=O YBAFDPFAUTYYRW-UHFFFAOYSA-N 0.000 description 2
- 108010047562 NGR peptide Proteins 0.000 description 2
- 241001123224 Naumovozyma dairenensis Species 0.000 description 2
- 241000588650 Neisseria meningitidis Species 0.000 description 2
- 241000187654 Nocardia Species 0.000 description 2
- 241000233654 Oomycetes Species 0.000 description 2
- 101710093908 Outer capsid protein VP4 Proteins 0.000 description 2
- 101710135467 Outer capsid protein sigma-1 Proteins 0.000 description 2
- 241000206754 Palmaria palmata Species 0.000 description 2
- 235000007199 Panicum miliaceum Nutrition 0.000 description 2
- 241001494479 Pecora Species 0.000 description 2
- 244000038248 Pennisetum spicatum Species 0.000 description 2
- 235000007195 Pennisetum typhoides Nutrition 0.000 description 2
- 241000199919 Phaeophyceae Species 0.000 description 2
- WEMYTDDMDBLPMI-DKIMLUQUSA-N Phe-Ile-Lys Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H](CCCCN)C(=O)O)NC(=O)[C@H](CC1=CC=CC=C1)N WEMYTDDMDBLPMI-DKIMLUQUSA-N 0.000 description 2
- IPFXYNKCXYGSSV-KKUMJFAQSA-N Phe-Ser-Lys Chemical compound C1=CC=C(C=C1)C[C@@H](C(=O)N[C@@H](CO)C(=O)N[C@@H](CCCCN)C(=O)O)N IPFXYNKCXYGSSV-KKUMJFAQSA-N 0.000 description 2
- 241000607568 Photobacterium Species 0.000 description 2
- 241000209504 Poaceae Species 0.000 description 2
- 229920000331 Polyhydroxybutyrate Polymers 0.000 description 2
- 101710176177 Protein A56 Proteins 0.000 description 2
- 241001506023 Pseudomicrostroma phylloplanum Species 0.000 description 2
- 241001123559 Puccinia hordei Species 0.000 description 2
- JUJWROOIHBZHMG-UHFFFAOYSA-N Pyridine Chemical compound C1=CC=NC=C1 JUJWROOIHBZHMG-UHFFFAOYSA-N 0.000 description 2
- 108010008281 Recombinant Fusion Proteins Proteins 0.000 description 2
- 102000007056 Recombinant Fusion Proteins Human genes 0.000 description 2
- 102000018120 Recombinases Human genes 0.000 description 2
- 108010091086 Recombinases Proteins 0.000 description 2
- 241000206572 Rhodophyta Species 0.000 description 2
- 108091028664 Ribonucleotide Proteins 0.000 description 2
- 241001453443 Rothia <bacteria> Species 0.000 description 2
- 241000877401 Saccharomyces ellipsoideus Species 0.000 description 2
- 241001407717 Saccharomyces norbensis Species 0.000 description 2
- 241000582914 Saccharomyces uvarum Species 0.000 description 2
- 241000235343 Saccharomycetales Species 0.000 description 2
- 241000607142 Salmonella Species 0.000 description 2
- MIJWOJAXARLEHA-WDSKDSINSA-N Ser-Gly-Glu Chemical compound OC[C@H](N)C(=O)NCC(=O)N[C@H](C(O)=O)CCC(O)=O MIJWOJAXARLEHA-WDSKDSINSA-N 0.000 description 2
- 240000005498 Setaria italica Species 0.000 description 2
- 235000007226 Setaria italica Nutrition 0.000 description 2
- 241000700584 Simplexvirus Species 0.000 description 2
- 108010052160 Site-specific recombinase Proteins 0.000 description 2
- VMHLLURERBWHNL-UHFFFAOYSA-M Sodium acetate Chemical compound [Na+].CC([O-])=O VMHLLURERBWHNL-UHFFFAOYSA-M 0.000 description 2
- 240000003768 Solanum lycopersicum Species 0.000 description 2
- 238000002105 Southern blotting Methods 0.000 description 2
- 241001085826 Sporotrichum Species 0.000 description 2
- 241000191940 Staphylococcus Species 0.000 description 2
- 102000016553 Stearoyl-CoA Desaturase Human genes 0.000 description 2
- 241001466451 Stramenopiles Species 0.000 description 2
- 241000194008 Streptococcus anginosus Species 0.000 description 2
- 241000193991 Streptococcus parasanguinis Species 0.000 description 2
- 241000187747 Streptomyces Species 0.000 description 2
- 241000205101 Sulfolobus Species 0.000 description 2
- 238000010459 TALEN Methods 0.000 description 2
- 102100036407 Thioredoxin Human genes 0.000 description 2
- IQFYYKKMVGJFEH-XLPZGREQSA-N Thymidine Chemical compound O=C1NC(=O)C(C)=CN1[C@@H]1O[C@H](CO)[C@@H](O)C1 IQFYYKKMVGJFEH-XLPZGREQSA-N 0.000 description 2
- 108010043645 Transcription Activator-Like Effector Nucleases Proteins 0.000 description 2
- 235000021307 Triticum Nutrition 0.000 description 2
- GULIUBBXCYPDJU-CQDKDKBSSA-N Tyr-Leu-Ala Chemical compound [O-]C(=O)[C@H](C)NC(=O)[C@H](CC(C)C)NC(=O)[C@@H]([NH3+])CC1=CC=C(O)C=C1 GULIUBBXCYPDJU-CQDKDKBSSA-N 0.000 description 2
- DRTQHJPVMGBUCF-XVFCMESISA-N Uridine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=O)C=C1 DRTQHJPVMGBUCF-XVFCMESISA-N 0.000 description 2
- 108700010756 Viral Polyproteins Proteins 0.000 description 2
- 241000589634 Xanthomonas Species 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 239000008272 agar Substances 0.000 description 2
- 230000009418 agronomic effect Effects 0.000 description 2
- 125000000539 amino acid group Chemical group 0.000 description 2
- ODKSFYDXXFIFQN-UHFFFAOYSA-N arginine Natural products OC(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-N 0.000 description 2
- 235000009697 arginine Nutrition 0.000 description 2
- 210000001106 artificial yeast chromosome Anatomy 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 108010005774 beta-Galactosidase Proteins 0.000 description 2
- 244000022203 blackseeded proso millet Species 0.000 description 2
- 108091005948 blue fluorescent proteins Proteins 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 2
- 238000004113 cell culture Methods 0.000 description 2
- 239000006285 cell suspension Substances 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 235000012000 cholesterol Nutrition 0.000 description 2
- 210000004756 chromatid Anatomy 0.000 description 2
- 239000013611 chromosomal DNA Substances 0.000 description 2
- 239000002299 complementary DNA Substances 0.000 description 2
- 150000001875 compounds Chemical class 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 108091036078 conserved sequence Proteins 0.000 description 2
- 238000001816 cooling Methods 0.000 description 2
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 108010022240 delta-8 fatty acid desaturase Proteins 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000006471 dimerization reaction Methods 0.000 description 2
- FSXRLASFHBWESK-UHFFFAOYSA-N dipeptide phenylalanyl-tyrosine Natural products C=1C=C(O)C=CC=1CC(C(O)=O)NC(=O)C(N)CC1=CC=CC=C1 FSXRLASFHBWESK-UHFFFAOYSA-N 0.000 description 2
- VHJLVAABSRFDPM-QWWZWVQMSA-N dithiothreitol Chemical compound SC[C@@H](O)[C@H](O)CS VHJLVAABSRFDPM-QWWZWVQMSA-N 0.000 description 2
- 230000003828 downregulation Effects 0.000 description 2
- 230000002616 endonucleolytic effect Effects 0.000 description 2
- 239000003623 enhancer Substances 0.000 description 2
- 230000001973 epigenetic effect Effects 0.000 description 2
- 238000011049 filling Methods 0.000 description 2
- 108020001507 fusion proteins Proteins 0.000 description 2
- 102000037865 fusion proteins Human genes 0.000 description 2
- 108010063718 gamma-glutamylaspartic acid Proteins 0.000 description 2
- 238000003198 gene knock in Methods 0.000 description 2
- 238000010363 gene targeting Methods 0.000 description 2
- RQFCJASXJCIDSX-UUOKFMHZSA-N guanosine 5'-monophosphate Chemical compound C1=2NC(N)=NC(=O)C=2N=CN1[C@@H]1O[C@H](COP(O)(O)=O)[C@@H](O)[C@H]1O RQFCJASXJCIDSX-UUOKFMHZSA-N 0.000 description 2
- 235000013928 guanylic acid Nutrition 0.000 description 2
- 239000000185 hemagglutinin Substances 0.000 description 2
- HNDVDQJCIGZPNO-UHFFFAOYSA-N histidine Natural products OC(=O)C(N)CC1=CN=CN1 HNDVDQJCIGZPNO-UHFFFAOYSA-N 0.000 description 2
- 108010018006 histidylserine Proteins 0.000 description 2
- 125000002887 hydroxy group Chemical group [H]O* 0.000 description 2
- 108010002685 hygromycin-B kinase Proteins 0.000 description 2
- 230000001976 improved effect Effects 0.000 description 2
- 238000005304 joining Methods 0.000 description 2
- 229960000318 kanamycin Drugs 0.000 description 2
- 229930027917 kanamycin Natural products 0.000 description 2
- SBUJHOSQTJFQJX-NOAMYHISSA-N kanamycin Chemical compound O[C@@H]1[C@@H](O)[C@H](O)[C@@H](CN)O[C@@H]1O[C@H]1[C@H](O)[C@@H](O[C@@H]2[C@@H]([C@@H](N)[C@H](O)[C@@H](CO)O2)O)[C@H](N)C[C@@H]1N SBUJHOSQTJFQJX-NOAMYHISSA-N 0.000 description 2
- 229930182823 kanamycin A Natural products 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 239000007788 liquid Substances 0.000 description 2
- 108010064235 lysylglycine Proteins 0.000 description 2
- 108010017391 lysylvaline Proteins 0.000 description 2
- 230000035800 maturation Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 108091070501 miRNA Proteins 0.000 description 2
- 239000002679 microRNA Substances 0.000 description 2
- 229910052757 nitrogen Inorganic materials 0.000 description 2
- 230000001293 nucleolytic effect Effects 0.000 description 2
- 230000005257 nucleotidylation Effects 0.000 description 2
- 230000002018 overexpression Effects 0.000 description 2
- FJKROLUGYXJWQN-UHFFFAOYSA-N papa-hydroxy-benzoic acid Natural products OC(=O)C1=CC=C(O)C=C1 FJKROLUGYXJWQN-UHFFFAOYSA-N 0.000 description 2
- 235000020232 peanut Nutrition 0.000 description 2
- NBIIXXVUZAFLBC-UHFFFAOYSA-K phosphate Chemical compound [O-]P([O-])([O-])=O NBIIXXVUZAFLBC-UHFFFAOYSA-K 0.000 description 2
- 244000000003 plant pathogen Species 0.000 description 2
- 210000002706 plastid Anatomy 0.000 description 2
- 230000010152 pollination Effects 0.000 description 2
- 239000005015 poly(hydroxybutyrate) Substances 0.000 description 2
- 108020001580 protein domains Proteins 0.000 description 2
- 230000008707 rearrangement Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 108010054624 red fluorescent protein Proteins 0.000 description 2
- 230000008263 repair mechanism Effects 0.000 description 2
- 230000010076 replication Effects 0.000 description 2
- 230000002207 retinal effect Effects 0.000 description 2
- 238000003757 reverse transcription PCR Methods 0.000 description 2
- 239000002336 ribonucleotide Substances 0.000 description 2
- 125000002652 ribonucleotide group Chemical group 0.000 description 2
- 229920002477 rna polymer Polymers 0.000 description 2
- 229960004889 salicylic acid Drugs 0.000 description 2
- 230000007226 seed germination Effects 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 239000001632 sodium acetate Substances 0.000 description 2
- 235000017281 sodium acetate Nutrition 0.000 description 2
- 229910001415 sodium ion Inorganic materials 0.000 description 2
- 210000001082 somatic cell Anatomy 0.000 description 2
- 230000009870 specific binding Effects 0.000 description 2
- 238000004114 suspension culture Methods 0.000 description 2
- 108060008226 thioredoxin Proteins 0.000 description 2
- 230000000699 topical effect Effects 0.000 description 2
- 231100000331 toxic Toxicity 0.000 description 2
- 230000002588 toxic effect Effects 0.000 description 2
- 230000005030 transcription termination Effects 0.000 description 2
- 230000002103 transcriptional effect Effects 0.000 description 2
- 230000001131 transforming effect Effects 0.000 description 2
- 229940035893 uracil Drugs 0.000 description 2
- WRIDQFICGBMAFQ-UHFFFAOYSA-N (E)-8-Octadecenoic acid Natural products CCCCCCCCCC=CCCCCCCC(O)=O WRIDQFICGBMAFQ-UHFFFAOYSA-N 0.000 description 1
- WKKCYLSCLQVWFD-UHFFFAOYSA-N 1,2-dihydropyrimidin-4-amine Chemical compound N=C1NCNC=C1 WKKCYLSCLQVWFD-UHFFFAOYSA-N 0.000 description 1
- VUDQSRFCCHQIIU-UHFFFAOYSA-N 1-(3,5-dichloro-2,6-dihydroxy-4-methoxyphenyl)hexan-1-one Chemical compound CCCCCC(=O)C1=C(O)C(Cl)=C(OC)C(Cl)=C1O VUDQSRFCCHQIIU-UHFFFAOYSA-N 0.000 description 1
- YKBGVTZYEHREMT-KVQBGUIXSA-N 2'-deoxyguanosine Chemical compound C1=NC=2C(=O)NC(N)=NC=2N1[C@H]1C[C@H](O)[C@@H](CO)O1 YKBGVTZYEHREMT-KVQBGUIXSA-N 0.000 description 1
- NHBKXEKEPDILRR-UHFFFAOYSA-N 2,3-bis(butanoylsulfanyl)propyl butanoate Chemical compound CCCC(=O)OCC(SC(=O)CCC)CSC(=O)CCC NHBKXEKEPDILRR-UHFFFAOYSA-N 0.000 description 1
- OVSKIKFHRZPJSS-UHFFFAOYSA-N 2,4-D Chemical compound OC(=O)COC1=CC=C(Cl)C=C1Cl OVSKIKFHRZPJSS-UHFFFAOYSA-N 0.000 description 1
- 239000005631 2,4-Dichlorophenoxyacetic acid Substances 0.000 description 1
- 229940087195 2,4-dichlorophenoxyacetate Drugs 0.000 description 1
- QKNYBSVHEMOAJP-UHFFFAOYSA-N 2-amino-2-(hydroxymethyl)propane-1,3-diol;hydron;chloride Chemical compound Cl.OCC(N)(CO)CO QKNYBSVHEMOAJP-UHFFFAOYSA-N 0.000 description 1
- JLIDBLDQVAYHNE-LXGGSRJLSA-N 2-cis-abscisic acid Chemical compound OC(=O)/C=C(/C)\C=C\C1(O)C(C)=CC(=O)CC1(C)C JLIDBLDQVAYHNE-LXGGSRJLSA-N 0.000 description 1
- LQJBNNIYVWPHFW-UHFFFAOYSA-N 20:1omega9c fatty acid Natural products CCCCCCCCCCC=CCCCCCCCC(O)=O LQJBNNIYVWPHFW-UHFFFAOYSA-N 0.000 description 1
- 108020005345 3' Untranslated Regions Proteins 0.000 description 1
- UPMXNNIRAGDFEH-UHFFFAOYSA-N 3,5-dibromo-4-hydroxybenzonitrile Chemical compound OC1=C(Br)C=C(C#N)C=C1Br UPMXNNIRAGDFEH-UHFFFAOYSA-N 0.000 description 1
- CAAMSDWKXXPUJR-UHFFFAOYSA-N 3,5-dihydro-4H-imidazol-4-one Chemical compound O=C1CNC=N1 CAAMSDWKXXPUJR-UHFFFAOYSA-N 0.000 description 1
- UBLAMKHIFZBBSS-UHFFFAOYSA-N 3-Methylbutyl pentanoate Chemical compound CCCCC(=O)OCCC(C)C UBLAMKHIFZBBSS-UHFFFAOYSA-N 0.000 description 1
- 102100026105 3-ketoacyl-CoA thiolase, mitochondrial Human genes 0.000 description 1
- 101710171225 30S ribosomal protein S18 Proteins 0.000 description 1
- FWMNVWWHGCHHJJ-SKKKGAJSSA-N 4-amino-1-[(2r)-6-amino-2-[[(2r)-2-[[(2r)-2-[[(2r)-2-amino-3-phenylpropanoyl]amino]-3-phenylpropanoyl]amino]-4-methylpentanoyl]amino]hexanoyl]piperidine-4-carboxylic acid Chemical compound C([C@H](C(=O)N[C@H](CC(C)C)C(=O)N[C@H](CCCCN)C(=O)N1CCC(N)(CC1)C(O)=O)NC(=O)[C@H](N)CC=1C=CC=CC=1)C1=CC=CC=C1 FWMNVWWHGCHHJJ-SKKKGAJSSA-N 0.000 description 1
- 108020003589 5' Untranslated Regions Proteins 0.000 description 1
- LODRRYMGPWQCTR-UHFFFAOYSA-N 5-fluoro-2,4-dioxo-1h-pyrimidine-6-carboxylic acid;hydrate Chemical compound O.OC(=O)C=1NC(=O)NC(=O)C=1F LODRRYMGPWQCTR-UHFFFAOYSA-N 0.000 description 1
- QSBYPNXLFMSGKH-UHFFFAOYSA-N 9-Heptadecensaeure Natural products CCCCCCCC=CCCCCCCCC(O)=O QSBYPNXLFMSGKH-UHFFFAOYSA-N 0.000 description 1
- MSSXOMSJDRHRMC-UHFFFAOYSA-N 9H-purine-2,6-diamine Chemical compound NC1=NC(N)=C2NC=NC2=N1 MSSXOMSJDRHRMC-UHFFFAOYSA-N 0.000 description 1
- 108010000700 Acetolactate synthase Proteins 0.000 description 1
- 108010003902 Acetyl-CoA C-acyltransferase Proteins 0.000 description 1
- 241000590020 Achromobacter Species 0.000 description 1
- 241000580482 Acidobacteria Species 0.000 description 1
- 241001019659 Acremonium <Plectosphaerellaceae> Species 0.000 description 1
- 241000606750 Actinobacillus Species 0.000 description 1
- 241000187362 Actinomadura Species 0.000 description 1
- 241000186046 Actinomyces Species 0.000 description 1
- 241000251468 Actinopterygii Species 0.000 description 1
- 102000007469 Actins Human genes 0.000 description 1
- 108010085238 Actins Proteins 0.000 description 1
- 102100034542 Acyl-CoA (8-3)-desaturase Human genes 0.000 description 1
- 241000193798 Aerococcus Species 0.000 description 1
- 241000607534 Aeromonas Species 0.000 description 1
- 241000567147 Aeropyrum Species 0.000 description 1
- 241000190801 Afipia Species 0.000 description 1
- FJVAQLJNTSUQPY-CIUDSAMLSA-N Ala-Ala-Lys Chemical compound C[C@H](N)C(=O)N[C@@H](C)C(=O)N[C@H](C(O)=O)CCCCN FJVAQLJNTSUQPY-CIUDSAMLSA-N 0.000 description 1
- LWUWMHIOBPTZBA-DCAQKATOSA-N Ala-Arg-Lys Chemical compound NC(=N)NCCC[C@H](NC(=O)[C@@H](N)C)C(=O)N[C@@H](CCCCN)C(O)=O LWUWMHIOBPTZBA-DCAQKATOSA-N 0.000 description 1
- XEXJJJRVTFGWIC-FXQIFTODSA-N Ala-Asn-Arg Chemical compound C[C@@H](C(=O)N[C@@H](CC(=O)N)C(=O)N[C@@H](CCCN=C(N)N)C(=O)O)N XEXJJJRVTFGWIC-FXQIFTODSA-N 0.000 description 1
- NXSFUECZFORGOG-CIUDSAMLSA-N Ala-Asn-Leu Chemical compound [H]N[C@@H](C)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CC(C)C)C(O)=O NXSFUECZFORGOG-CIUDSAMLSA-N 0.000 description 1
- FVSOUJZKYWEFOB-KBIXCLLPSA-N Ala-Gln-Ile Chemical compound CC[C@H](C)[C@@H](C(O)=O)NC(=O)[C@H](CCC(N)=O)NC(=O)[C@H](C)N FVSOUJZKYWEFOB-KBIXCLLPSA-N 0.000 description 1
- MVBWLRJESQOQTM-ACZMJKKPSA-N Ala-Gln-Ser Chemical compound [H]N[C@@H](C)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CO)C(O)=O MVBWLRJESQOQTM-ACZMJKKPSA-N 0.000 description 1
- YIGLXQRFQVWFEY-NRPADANISA-N Ala-Gln-Val Chemical compound [H]N[C@@H](C)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](C(C)C)C(O)=O YIGLXQRFQVWFEY-NRPADANISA-N 0.000 description 1
- NWVVKQZOVSTDBQ-CIUDSAMLSA-N Ala-Glu-Arg Chemical compound [H]N[C@@H](C)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CCCNC(N)=N)C(O)=O NWVVKQZOVSTDBQ-CIUDSAMLSA-N 0.000 description 1
- NJPMYXWVWQWCSR-ACZMJKKPSA-N Ala-Glu-Asn Chemical compound C[C@H](N)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CC(N)=O)C(O)=O NJPMYXWVWQWCSR-ACZMJKKPSA-N 0.000 description 1
- ZBLQIYPCUWZSRZ-QEJZJMRPSA-N Ala-Phe-Leu Chemical compound CC(C)C[C@@H](C(O)=O)NC(=O)[C@@H](NC(=O)[C@H](C)N)CC1=CC=CC=C1 ZBLQIYPCUWZSRZ-QEJZJMRPSA-N 0.000 description 1
- HOVPGJUNRLMIOZ-CIUDSAMLSA-N Ala-Ser-Leu Chemical compound CC(C)C[C@@H](C(O)=O)NC(=O)[C@H](CO)NC(=O)[C@H](C)N HOVPGJUNRLMIOZ-CIUDSAMLSA-N 0.000 description 1
- VRTOMXFZHGWHIJ-KZVJFYERSA-N Ala-Thr-Arg Chemical compound [H]N[C@@H](C)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CCCNC(N)=N)C(O)=O VRTOMXFZHGWHIJ-KZVJFYERSA-N 0.000 description 1
- IOFVWPYSRSCWHI-JXUBOQSCSA-N Ala-Thr-Leu Chemical compound CC(C)C[C@@H](C(O)=O)NC(=O)[C@H]([C@@H](C)O)NC(=O)[C@H](C)N IOFVWPYSRSCWHI-JXUBOQSCSA-N 0.000 description 1
- IETUUAHKCHOQHP-KZVJFYERSA-N Ala-Thr-Val Chemical compound CC(C)[C@H](NC(=O)[C@@H](NC(=O)[C@H](C)N)[C@@H](C)O)C(O)=O IETUUAHKCHOQHP-KZVJFYERSA-N 0.000 description 1
- QRIYOHQJRDHFKF-UWJYBYFXSA-N Ala-Tyr-Ser Chemical compound OC[C@@H](C(O)=O)NC(=O)[C@@H](NC(=O)[C@@H](N)C)CC1=CC=C(O)C=C1 QRIYOHQJRDHFKF-UWJYBYFXSA-N 0.000 description 1
- 241000588986 Alcaligenes Species 0.000 description 1
- 244000300657 Alchornea rugosa Species 0.000 description 1
- KHOITXIGCFIULA-UHFFFAOYSA-N Alophen Chemical compound C1=CC(OC(=O)C)=CC=C1C(C=1N=CC=CC=1)C1=CC=C(OC(C)=O)C=C1 KHOITXIGCFIULA-UHFFFAOYSA-N 0.000 description 1
- 240000007304 Amorphophallus muelleri Species 0.000 description 1
- 241000196169 Ankistrodesmus Species 0.000 description 1
- 241000269350 Anura Species 0.000 description 1
- 241000192660 Aphanizomenon Species 0.000 description 1
- 241001109946 Aquimarina Species 0.000 description 1
- 101100194010 Arabidopsis thaliana RD29A gene Proteins 0.000 description 1
- 235000017060 Arachis glabrata Nutrition 0.000 description 1
- 235000018262 Arachis monticola Nutrition 0.000 description 1
- 241001135699 Arcanobacterium Species 0.000 description 1
- 241000205042 Archaeoglobus fulgidus Species 0.000 description 1
- 241001135163 Arcobacter Species 0.000 description 1
- 241000607305 Arctica Species 0.000 description 1
- MUXONAMCEUBVGA-DCAQKATOSA-N Arg-Arg-Gln Chemical compound NC(N)=NCCC[C@H](N)C(=O)N[C@@H](CCCN=C(N)N)C(=O)N[C@@H](CCC(N)=O)C(O)=O MUXONAMCEUBVGA-DCAQKATOSA-N 0.000 description 1
- HJVGMOYJDDXLMI-AVGNSLFASA-N Arg-Arg-Lys Chemical compound NCCCC[C@@H](C(O)=O)NC(=O)[C@H](CCCNC(N)=N)NC(=O)[C@@H](N)CCCNC(N)=N HJVGMOYJDDXLMI-AVGNSLFASA-N 0.000 description 1
- IIABBYGHLYWVOS-FXQIFTODSA-N Arg-Asn-Ser Chemical compound [H]N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CO)C(O)=O IIABBYGHLYWVOS-FXQIFTODSA-N 0.000 description 1
- RRGPUNYIPJXJBU-GUBZILKMSA-N Arg-Asp-Met Chemical compound [H]N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](CCSC)C(O)=O RRGPUNYIPJXJBU-GUBZILKMSA-N 0.000 description 1
- TTXYKSADPSNOIF-IHRRRGAJSA-N Arg-Asp-Phe Chemical compound [H]N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](CC1=CC=CC=C1)C(O)=O TTXYKSADPSNOIF-IHRRRGAJSA-N 0.000 description 1
- JCAISGGAOQXEHJ-ZPFDUUQYSA-N Arg-Gln-Ile Chemical compound CC[C@H](C)[C@@H](C(=O)O)NC(=O)[C@H](CCC(=O)N)NC(=O)[C@H](CCCN=C(N)N)N JCAISGGAOQXEHJ-ZPFDUUQYSA-N 0.000 description 1
- QAODJPUKWNNNRP-DCAQKATOSA-N Arg-Glu-Arg Chemical compound NC(N)=NCCC[C@H](N)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CCCN=C(N)N)C(O)=O QAODJPUKWNNNRP-DCAQKATOSA-N 0.000 description 1
- RKRSYHCNPFGMTA-CIUDSAMLSA-N Arg-Glu-Asn Chemical compound [H]N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CC(N)=O)C(O)=O RKRSYHCNPFGMTA-CIUDSAMLSA-N 0.000 description 1
- MZRBYBIQTIKERR-GUBZILKMSA-N Arg-Glu-Gln Chemical compound [H]N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CCC(N)=O)C(O)=O MZRBYBIQTIKERR-GUBZILKMSA-N 0.000 description 1
- GOWZVQXTHUCNSQ-NHCYSSNCSA-N Arg-Glu-Val Chemical compound [H]N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](C(C)C)C(O)=O GOWZVQXTHUCNSQ-NHCYSSNCSA-N 0.000 description 1
- RKQRHMKFNBYOTN-IHRRRGAJSA-N Arg-His-Lys Chemical compound C1=C(NC=N1)C[C@@H](C(=O)N[C@@H](CCCCN)C(=O)O)NC(=O)[C@H](CCCN=C(N)N)N RKQRHMKFNBYOTN-IHRRRGAJSA-N 0.000 description 1
- DNUKXVMPARLPFN-XUXIUFHCSA-N Arg-Leu-Ile Chemical compound [H]N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H]([C@@H](C)CC)C(O)=O DNUKXVMPARLPFN-XUXIUFHCSA-N 0.000 description 1
- COXMUHNBYCVVRG-DCAQKATOSA-N Arg-Leu-Ser Chemical compound [H]N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CO)C(O)=O COXMUHNBYCVVRG-DCAQKATOSA-N 0.000 description 1
- MJINRRBEMOLJAK-DCAQKATOSA-N Arg-Lys-Asp Chemical compound OC(=O)C[C@@H](C(O)=O)NC(=O)[C@H](CCCCN)NC(=O)[C@@H](N)CCCN=C(N)N MJINRRBEMOLJAK-DCAQKATOSA-N 0.000 description 1
- GRRXPUAICOGISM-RWMBFGLXSA-N Arg-Lys-Pro Chemical compound C1C[C@@H](N(C1)C(=O)[C@H](CCCCN)NC(=O)[C@H](CCCN=C(N)N)N)C(=O)O GRRXPUAICOGISM-RWMBFGLXSA-N 0.000 description 1
- PAPSMOYMQDWIOR-AVGNSLFASA-N Arg-Lys-Val Chemical compound [H]N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](C(C)C)C(O)=O PAPSMOYMQDWIOR-AVGNSLFASA-N 0.000 description 1
- PYZPXCZNQSEHDT-GUBZILKMSA-N Arg-Met-Asn Chemical compound CSCC[C@@H](C(=O)N[C@@H](CC(=O)N)C(=O)O)NC(=O)[C@H](CCCN=C(N)N)N PYZPXCZNQSEHDT-GUBZILKMSA-N 0.000 description 1
- KSUALAGYYLQSHJ-RCWTZXSCSA-N Arg-Met-Thr Chemical compound [H]N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCSC)C(=O)N[C@@H]([C@@H](C)O)C(O)=O KSUALAGYYLQSHJ-RCWTZXSCSA-N 0.000 description 1
- CZUHPNLXLWMYMG-UBHSHLNASA-N Arg-Phe-Ala Chemical compound NC(N)=NCCC[C@H](N)C(=O)N[C@H](C(=O)N[C@@H](C)C(O)=O)CC1=CC=CC=C1 CZUHPNLXLWMYMG-UBHSHLNASA-N 0.000 description 1
- YTMKMRSYXHBGER-IHRRRGAJSA-N Arg-Phe-Asn Chemical compound C1=CC=C(C=C1)C[C@@H](C(=O)N[C@@H](CC(=O)N)C(=O)O)NC(=O)[C@H](CCCN=C(N)N)N YTMKMRSYXHBGER-IHRRRGAJSA-N 0.000 description 1
- NGYHSXDNNOFHNE-AVGNSLFASA-N Arg-Pro-Leu Chemical compound [H]N[C@@H](CCCNC(N)=N)C(=O)N1CCC[C@H]1C(=O)N[C@@H](CC(C)C)C(O)=O NGYHSXDNNOFHNE-AVGNSLFASA-N 0.000 description 1
- FRBAHXABMQXSJQ-FXQIFTODSA-N Arg-Ser-Ser Chemical compound [H]N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CO)C(=O)N[C@@H](CO)C(O)=O FRBAHXABMQXSJQ-FXQIFTODSA-N 0.000 description 1
- AOJYORNRFWWEIV-IHRRRGAJSA-N Arg-Tyr-Asp Chemical compound NC(N)=NCCC[C@H](N)C(=O)N[C@H](C(=O)N[C@@H](CC(O)=O)C(O)=O)CC1=CC=C(O)C=C1 AOJYORNRFWWEIV-IHRRRGAJSA-N 0.000 description 1
- IZSMEUDYADKZTJ-KJEVXHAQSA-N Arg-Tyr-Thr Chemical compound [H]N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC1=CC=C(O)C=C1)C(=O)N[C@@H]([C@@H](C)O)C(O)=O IZSMEUDYADKZTJ-KJEVXHAQSA-N 0.000 description 1
- FMYQECOAIFGQGU-CYDGBPFRSA-N Arg-Val-Ile Chemical compound [H]N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](C(C)C)C(=O)N[C@@H]([C@@H](C)CC)C(O)=O FMYQECOAIFGQGU-CYDGBPFRSA-N 0.000 description 1
- 241000216674 Armillaria tabescens Species 0.000 description 1
- 241001495180 Arthrospira Species 0.000 description 1
- 235000016425 Arthrospira platensis Nutrition 0.000 description 1
- 241001523626 Arxula Species 0.000 description 1
- 241000235349 Ascomycota Species 0.000 description 1
- 241000512259 Ascophyllum nodosum Species 0.000 description 1
- XWGJDUSDTRPQRK-ZLUOBGJFSA-N Asn-Ala-Ser Chemical compound OC[C@@H](C(O)=O)NC(=O)[C@H](C)NC(=O)[C@@H](N)CC(N)=O XWGJDUSDTRPQRK-ZLUOBGJFSA-N 0.000 description 1
- MEFGKQUUYZOLHM-GMOBBJLQSA-N Asn-Arg-Ile Chemical compound [H]N[C@@H](CC(N)=O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H]([C@@H](C)CC)C(O)=O MEFGKQUUYZOLHM-GMOBBJLQSA-N 0.000 description 1
- WPOLSNAQGVHROR-GUBZILKMSA-N Asn-Gln-Leu Chemical compound CC(C)C[C@@H](C(=O)O)NC(=O)[C@H](CCC(=O)N)NC(=O)[C@H](CC(=O)N)N WPOLSNAQGVHROR-GUBZILKMSA-N 0.000 description 1
- HCAUEJAQCXVQQM-ACZMJKKPSA-N Asn-Glu-Asp Chemical compound [H]N[C@@H](CC(N)=O)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CC(O)=O)C(O)=O HCAUEJAQCXVQQM-ACZMJKKPSA-N 0.000 description 1
- BZMWJLLUAKSIMH-FXQIFTODSA-N Asn-Glu-Glu Chemical compound [H]N[C@@H](CC(N)=O)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CCC(O)=O)C(O)=O BZMWJLLUAKSIMH-FXQIFTODSA-N 0.000 description 1
- FTCGGKNCJZOPNB-WHFBIAKZSA-N Asn-Gly-Ser Chemical compound NC(=O)C[C@H](N)C(=O)NCC(=O)N[C@@H](CO)C(O)=O FTCGGKNCJZOPNB-WHFBIAKZSA-N 0.000 description 1
- SPCONPVIDFMDJI-QSFUFRPTSA-N Asn-Ile-Val Chemical compound [H]N[C@@H](CC(N)=O)C(=O)N[C@@H]([C@@H](C)CC)C(=O)N[C@@H](C(C)C)C(O)=O SPCONPVIDFMDJI-QSFUFRPTSA-N 0.000 description 1
- DJIMLSXHXKWADV-CIUDSAMLSA-N Asn-Leu-Ser Chemical compound OC[C@@H](C(O)=O)NC(=O)[C@H](CC(C)C)NC(=O)[C@@H](N)CC(N)=O DJIMLSXHXKWADV-CIUDSAMLSA-N 0.000 description 1
- LSJQOMAZIKQMTJ-SRVKXCTJSA-N Asn-Phe-Asp Chemical compound [H]N[C@@H](CC(N)=O)C(=O)N[C@@H](CC1=CC=CC=C1)C(=O)N[C@@H](CC(O)=O)C(O)=O LSJQOMAZIKQMTJ-SRVKXCTJSA-N 0.000 description 1
- RAUPFUCUDBQYHE-AVGNSLFASA-N Asn-Phe-Glu Chemical compound [H]N[C@@H](CC(N)=O)C(=O)N[C@@H](CC1=CC=CC=C1)C(=O)N[C@@H](CCC(O)=O)C(O)=O RAUPFUCUDBQYHE-AVGNSLFASA-N 0.000 description 1
- HZZIFFOVHLWGCS-KKUMJFAQSA-N Asn-Phe-Leu Chemical compound [H]N[C@@H](CC(N)=O)C(=O)N[C@@H](CC1=CC=CC=C1)C(=O)N[C@@H](CC(C)C)C(O)=O HZZIFFOVHLWGCS-KKUMJFAQSA-N 0.000 description 1
- YUUIAUXBNOHFRJ-IHRRRGAJSA-N Asn-Phe-Met Chemical compound [H]N[C@@H](CC(N)=O)C(=O)N[C@@H](CC1=CC=CC=C1)C(=O)N[C@@H](CCSC)C(O)=O YUUIAUXBNOHFRJ-IHRRRGAJSA-N 0.000 description 1
- KTDWFWNZLLFEFU-KKUMJFAQSA-N Asn-Tyr-His Chemical compound C1=CC(=CC=C1C[C@@H](C(=O)N[C@@H](CC2=CN=CN2)C(=O)O)NC(=O)[C@H](CC(=O)N)N)O KTDWFWNZLLFEFU-KKUMJFAQSA-N 0.000 description 1
- CGYKCTPUGXFPMG-IHPCNDPISA-N Asn-Tyr-Trp Chemical compound [H]N[C@@H](CC(N)=O)C(=O)N[C@@H](CC1=CC=C(O)C=C1)C(=O)N[C@@H](CC1=CNC2=C1C=CC=C2)C(O)=O CGYKCTPUGXFPMG-IHPCNDPISA-N 0.000 description 1
- XBQSLMACWDXWLJ-GHCJXIJMSA-N Asp-Ala-Ile Chemical compound [H]N[C@@H](CC(O)=O)C(=O)N[C@@H](C)C(=O)N[C@@H]([C@@H](C)CC)C(O)=O XBQSLMACWDXWLJ-GHCJXIJMSA-N 0.000 description 1
- BLQBMRNMBAYREH-UWJYBYFXSA-N Asp-Ala-Tyr Chemical compound N[C@@H](CC(O)=O)C(=O)N[C@@H](C)C(=O)N[C@@H](CC1=CC=C(C=C1)O)C(=O)O BLQBMRNMBAYREH-UWJYBYFXSA-N 0.000 description 1
- WSOKZUVWBXVJHX-CIUDSAMLSA-N Asp-Arg-Glu Chemical compound [H]N[C@@H](CC(O)=O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CCC(O)=O)C(O)=O WSOKZUVWBXVJHX-CIUDSAMLSA-N 0.000 description 1
- MFMJRYHVLLEMQM-DCAQKATOSA-N Asp-Arg-His Chemical compound C1=C(NC=N1)C[C@@H](C(=O)O)NC(=O)[C@H](CCCN=C(N)N)NC(=O)[C@H](CC(=O)O)N MFMJRYHVLLEMQM-DCAQKATOSA-N 0.000 description 1
- UGKZHCBLMLSANF-CIUDSAMLSA-N Asp-Asn-Leu Chemical compound [H]N[C@@H](CC(O)=O)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CC(C)C)C(O)=O UGKZHCBLMLSANF-CIUDSAMLSA-N 0.000 description 1
- KNMRXHIAVXHCLW-ZLUOBGJFSA-N Asp-Asn-Ser Chemical compound C([C@@H](C(=O)N[C@@H](CC(=O)N)C(=O)N[C@@H](CO)C(=O)O)N)C(=O)O KNMRXHIAVXHCLW-ZLUOBGJFSA-N 0.000 description 1
- RDRMWJBLOSRRAW-BYULHYEWSA-N Asp-Asn-Val Chemical compound [H]N[C@@H](CC(O)=O)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](C(C)C)C(O)=O RDRMWJBLOSRRAW-BYULHYEWSA-N 0.000 description 1
- SBHUBSDEZQFJHJ-CIUDSAMLSA-N Asp-Asp-Leu Chemical compound CC(C)C[C@@H](C(O)=O)NC(=O)[C@H](CC(O)=O)NC(=O)[C@@H](N)CC(O)=O SBHUBSDEZQFJHJ-CIUDSAMLSA-N 0.000 description 1
- CELPEWWLSXMVPH-CIUDSAMLSA-N Asp-Asp-Lys Chemical compound NCCCC[C@@H](C(O)=O)NC(=O)[C@H](CC(O)=O)NC(=O)[C@@H](N)CC(O)=O CELPEWWLSXMVPH-CIUDSAMLSA-N 0.000 description 1
- QXHVOUSPVAWEMX-ZLUOBGJFSA-N Asp-Asp-Ser Chemical compound OC(=O)C[C@H](N)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](CO)C(O)=O QXHVOUSPVAWEMX-ZLUOBGJFSA-N 0.000 description 1
- DXQOQMCLWWADMU-ACZMJKKPSA-N Asp-Gln-Ser Chemical compound OC(=O)C[C@H](N)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CO)C(O)=O DXQOQMCLWWADMU-ACZMJKKPSA-N 0.000 description 1
- VILLWIDTHYPSLC-PEFMBERDSA-N Asp-Glu-Ile Chemical compound [H]N[C@@H](CC(O)=O)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H]([C@@H](C)CC)C(O)=O VILLWIDTHYPSLC-PEFMBERDSA-N 0.000 description 1
- RRKCPMGSRIDLNC-AVGNSLFASA-N Asp-Glu-Tyr Chemical compound [H]N[C@@H](CC(O)=O)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CC1=CC=C(O)C=C1)C(O)=O RRKCPMGSRIDLNC-AVGNSLFASA-N 0.000 description 1
- TVIZQBFURPLQDV-DJFWLOJKSA-N Asp-His-Ile Chemical compound CC[C@H](C)[C@@H](C(=O)O)NC(=O)[C@H](CC1=CN=CN1)NC(=O)[C@H](CC(=O)O)N TVIZQBFURPLQDV-DJFWLOJKSA-N 0.000 description 1
- CYCKJEFVFNRWEZ-UGYAYLCHSA-N Asp-Ile-Asn Chemical compound [H]N[C@@H](CC(O)=O)C(=O)N[C@@H]([C@@H](C)CC)C(=O)N[C@@H](CC(N)=O)C(O)=O CYCKJEFVFNRWEZ-UGYAYLCHSA-N 0.000 description 1
- SEMWSADZTMJELF-BYULHYEWSA-N Asp-Ile-Gly Chemical compound [H]N[C@@H](CC(O)=O)C(=O)N[C@@H]([C@@H](C)CC)C(=O)NCC(O)=O SEMWSADZTMJELF-BYULHYEWSA-N 0.000 description 1
- KYQNAIMCTRZLNP-QSFUFRPTSA-N Asp-Ile-Val Chemical compound [H]N[C@@H](CC(O)=O)C(=O)N[C@@H]([C@@H](C)CC)C(=O)N[C@@H](C(C)C)C(O)=O KYQNAIMCTRZLNP-QSFUFRPTSA-N 0.000 description 1
- JNNVNVRBYUJYGS-CIUDSAMLSA-N Asp-Leu-Ala Chemical compound [H]N[C@@H](CC(O)=O)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](C)C(O)=O JNNVNVRBYUJYGS-CIUDSAMLSA-N 0.000 description 1
- CLUMZOKVGUWUFD-CIUDSAMLSA-N Asp-Leu-Asn Chemical compound OC(=O)C[C@H](N)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC(N)=O)C(O)=O CLUMZOKVGUWUFD-CIUDSAMLSA-N 0.000 description 1
- XWSIYTYNLKCLJB-CIUDSAMLSA-N Asp-Lys-Asn Chemical compound [H]N[C@@H](CC(O)=O)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CC(N)=O)C(O)=O XWSIYTYNLKCLJB-CIUDSAMLSA-N 0.000 description 1
- LBOVBQONZJRWPV-YUMQZZPRSA-N Asp-Lys-Gly Chemical compound [H]N[C@@H](CC(O)=O)C(=O)N[C@@H](CCCCN)C(=O)NCC(O)=O LBOVBQONZJRWPV-YUMQZZPRSA-N 0.000 description 1
- GKWFMNNNYZHJHV-SRVKXCTJSA-N Asp-Lys-Leu Chemical compound CC(C)C[C@@H](C(O)=O)NC(=O)[C@H](CCCCN)NC(=O)[C@@H](N)CC(O)=O GKWFMNNNYZHJHV-SRVKXCTJSA-N 0.000 description 1
- MYLZFUMPZCPJCJ-NHCYSSNCSA-N Asp-Lys-Val Chemical compound [H]N[C@@H](CC(O)=O)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](C(C)C)C(O)=O MYLZFUMPZCPJCJ-NHCYSSNCSA-N 0.000 description 1
- JDDYEZGPYBBPBN-JRQIVUDYSA-N Asp-Thr-Tyr Chemical compound [H]N[C@@H](CC(O)=O)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CC1=CC=C(O)C=C1)C(O)=O JDDYEZGPYBBPBN-JRQIVUDYSA-N 0.000 description 1
- BJDHEININLSZOT-KKUMJFAQSA-N Asp-Tyr-Lys Chemical compound [H]N[C@@H](CC(O)=O)C(=O)N[C@@H](CC1=CC=C(O)C=C1)C(=O)N[C@@H](CCCCN)C(O)=O BJDHEININLSZOT-KKUMJFAQSA-N 0.000 description 1
- SQIARYGNVQWOSB-BZSNNMDCSA-N Asp-Tyr-Phe Chemical compound [H]N[C@@H](CC(O)=O)C(=O)N[C@@H](CC1=CC=C(O)C=C1)C(=O)N[C@@H](CC1=CC=CC=C1)C(O)=O SQIARYGNVQWOSB-BZSNNMDCSA-N 0.000 description 1
- WAEDSQFVZJUHLI-BYULHYEWSA-N Asp-Val-Asp Chemical compound [H]N[C@@H](CC(O)=O)C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CC(O)=O)C(O)=O WAEDSQFVZJUHLI-BYULHYEWSA-N 0.000 description 1
- 241000228197 Aspergillus flavus Species 0.000 description 1
- 241001225321 Aspergillus fumigatus Species 0.000 description 1
- 241001149711 Aspergillus lentulus Species 0.000 description 1
- 241000228245 Aspergillus niger Species 0.000 description 1
- 240000006439 Aspergillus oryzae Species 0.000 description 1
- 241000195622 Astasia Species 0.000 description 1
- 241000193818 Atopobium Species 0.000 description 1
- 241001555066 Aulosira terrestre Species 0.000 description 1
- 241000223651 Aureobasidium Species 0.000 description 1
- 241000223678 Aureobasidium pullulans Species 0.000 description 1
- 241000195645 Auxenochlorella protothecoides Species 0.000 description 1
- 235000005781 Avena Nutrition 0.000 description 1
- 241000271566 Aves Species 0.000 description 1
- 241000206761 Bacillariophyta Species 0.000 description 1
- 235000014469 Bacillus subtilis Nutrition 0.000 description 1
- 241000193388 Bacillus thuringiensis Species 0.000 description 1
- 241001567982 Bacteroides graminisolvens Species 0.000 description 1
- 241000222024 Ballistosporomyces sasicola Species 0.000 description 1
- 241000973022 Ballistosporomyces taupoensis Species 0.000 description 1
- 241000235113 Ballistosporomyces xanthus Species 0.000 description 1
- 241000172290 Bannoa bischofiae Species 0.000 description 1
- 241000162147 Bannoa syzygii Species 0.000 description 1
- 241000221198 Basidiomycota Species 0.000 description 1
- KHBQMWCZKVMBLN-UHFFFAOYSA-N Benzenesulfonamide Chemical compound NS(=O)(=O)C1=CC=CC=C1 KHBQMWCZKVMBLN-UHFFFAOYSA-N 0.000 description 1
- 241000186000 Bifidobacterium Species 0.000 description 1
- 241001486853 Bifidobacterium thermophilum DSM 20210 Species 0.000 description 1
- 241001495171 Bilophila Species 0.000 description 1
- 241000680806 Blastobotrys adeninivorans Species 0.000 description 1
- 241000588807 Bordetella Species 0.000 description 1
- 241000589968 Borrelia Species 0.000 description 1
- 241000589969 Borreliella burgdorferi Species 0.000 description 1
- 241000283690 Bos taurus Species 0.000 description 1
- 241001536324 Botryococcus Species 0.000 description 1
- 241001536303 Botryococcus braunii Species 0.000 description 1
- 240000002791 Brassica napus Species 0.000 description 1
- 235000011293 Brassica napus Nutrition 0.000 description 1
- 239000005489 Bromoxynil Substances 0.000 description 1
- 241000589562 Brucella Species 0.000 description 1
- 241001514710 Buckleyzyma armeniaca Species 0.000 description 1
- 239000002126 C01EB10 - Adenosine Substances 0.000 description 1
- 241000899379 Calonectria indusiata Species 0.000 description 1
- 244000197813 Camelina sativa Species 0.000 description 1
- 241000222122 Candida albicans Species 0.000 description 1
- 241000847665 Candida chauliodis Species 0.000 description 1
- 241000847666 Candida corydali Species 0.000 description 1
- 241000144583 Candida dubliniensis Species 0.000 description 1
- 241000736294 Candida ergatensis Species 0.000 description 1
- 241000192414 Candida insectamans Species 0.000 description 1
- 241000192312 Candida lyxosophila Species 0.000 description 1
- 241000222128 Candida maltosa Species 0.000 description 1
- 241000222173 Candida parapsilosis Species 0.000 description 1
- 241001530515 Candida sake Species 0.000 description 1
- 241000420434 Candida sinolaborantium Species 0.000 description 1
- 241000509448 Candida sojae Species 0.000 description 1
- 241000835288 Candida subhashii Species 0.000 description 1
- 241000646536 Candida temnochilae Species 0.000 description 1
- 241000222157 Candida viswanathii Species 0.000 description 1
- 241000512863 Candidatus Korarchaeota Species 0.000 description 1
- 244000025254 Cannabis sativa Species 0.000 description 1
- 241000190890 Capnocytophaga Species 0.000 description 1
- 241000283707 Capra Species 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 241000207206 Cardiobacterium Species 0.000 description 1
- 241000541656 Carex marina Species 0.000 description 1
- 235000003255 Carthamus tinctorius Nutrition 0.000 description 1
- 244000020518 Carthamus tinctorius Species 0.000 description 1
- 241000269333 Caudata Species 0.000 description 1
- 241000700199 Cavia porcellus Species 0.000 description 1
- 102000020313 Cell-Penetrating Peptides Human genes 0.000 description 1
- 108010051109 Cell-Penetrating Peptides Proteins 0.000 description 1
- 240000008365 Celosia argentea Species 0.000 description 1
- 241000282693 Cercopithecidae Species 0.000 description 1
- 241001004165 Cheilanthes skinneri Species 0.000 description 1
- 108010022172 Chitinases Proteins 0.000 description 1
- 102000012286 Chitinases Human genes 0.000 description 1
- 241001185363 Chlamydiae Species 0.000 description 1
- 241000195649 Chlorella <Chlorellales> Species 0.000 description 1
- 241000704942 Chlorella antarctica Species 0.000 description 1
- 241000191366 Chlorobium Species 0.000 description 1
- 108020004998 Chloroplast DNA Proteins 0.000 description 1
- 241000206576 Chondrus Species 0.000 description 1
- 241000206575 Chondrus crispus Species 0.000 description 1
- 241000588881 Chromobacterium Species 0.000 description 1
- 241001183155 Chromobacterium aquaticum Species 0.000 description 1
- 206010061764 Chromosomal deletion Diseases 0.000 description 1
- 241001426140 Chryseobacterium tenax Species 0.000 description 1
- 241000275708 Chryseobacterium tenax DSM 16811 Species 0.000 description 1
- 241000123346 Chrysosporium Species 0.000 description 1
- 241000760356 Chytridiomycetes Species 0.000 description 1
- 241000223782 Ciliophora Species 0.000 description 1
- 240000005721 Cirsium palustre Species 0.000 description 1
- 240000004439 Cistus albidus Species 0.000 description 1
- 241000588923 Citrobacter Species 0.000 description 1
- 241001508813 Clavispora lusitaniae Species 0.000 description 1
- 241000193155 Clostridium botulinum Species 0.000 description 1
- 241000193468 Clostridium perfringens Species 0.000 description 1
- 101100007328 Cocos nucifera COS-1 gene Proteins 0.000 description 1
- 241000353159 Colacogloea cycloclastica Species 0.000 description 1
- 241000314699 Colacogloea diffluens Species 0.000 description 1
- 241000033329 Colacogloea foliorum Species 0.000 description 1
- 241000033331 Colacogloea philyla Species 0.000 description 1
- 241000353115 Colacogloea retinophila Species 0.000 description 1
- 241000353149 Colacogloea terpenoidalis Species 0.000 description 1
- 241000248395 Colpidium Species 0.000 description 1
- 241000248332 Colpoda Species 0.000 description 1
- 244000117378 Colubrina texensis Species 0.000 description 1
- 241000589519 Comamonas Species 0.000 description 1
- 108020004635 Complementary DNA Proteins 0.000 description 1
- 206010010947 Coordination abnormal Diseases 0.000 description 1
- 241001464948 Coprococcus Species 0.000 description 1
- 241001657523 Coriobacteriaceae Species 0.000 description 1
- 241000186227 Corynebacterium diphtheriae Species 0.000 description 1
- 241001445332 Coxiella <snail> Species 0.000 description 1
- 241001137853 Crenarchaeota Species 0.000 description 1
- 241000699800 Cricetinae Species 0.000 description 1
- 241000201702 Croceitalea bacterium Species 0.000 description 1
- MIKUYHXYGGJMLM-GIMIYPNGSA-N Crotonoside Natural products C1=NC2=C(N)NC(=O)N=C2N1[C@H]1O[C@@H](CO)[C@H](O)[C@@H]1O MIKUYHXYGGJMLM-GIMIYPNGSA-N 0.000 description 1
- 241000199912 Crypthecodinium cohnii Species 0.000 description 1
- 241001522864 Cryptococcus gattii VGI Species 0.000 description 1
- 241000221204 Cryptococcus neoformans Species 0.000 description 1
- 241001514702 Curvibasidium cygneicollum Species 0.000 description 1
- 241000371648 Curvularia intermedia Species 0.000 description 1
- 241000580885 Cutaneotrichosporon curvatus Species 0.000 description 1
- 241000192700 Cyanobacteria Species 0.000 description 1
- 241001147476 Cyclotella Species 0.000 description 1
- 244000081727 Cyperus tenuis Species 0.000 description 1
- 241001374998 Cystobasidium benthicum Species 0.000 description 1
- 241001374997 Cystobasidium calyptogenae Species 0.000 description 1
- 241001506001 Cystobasidium laryngis Species 0.000 description 1
- 241001374992 Cystobasidium lysinophilum Species 0.000 description 1
- 241001457477 Cystobasidium pinicola Species 0.000 description 1
- 241001514655 Cystobasidium slooffiae Species 0.000 description 1
- 102100039221 Cytoplasmic polyadenylation element-binding protein 3 Human genes 0.000 description 1
- FBPFZTCFMRRESA-FSIIMWSLSA-N D-Glucitol Natural products OC[C@H](O)[C@H](O)[C@@H](O)[C@H](O)CO FBPFZTCFMRRESA-FSIIMWSLSA-N 0.000 description 1
- NYHBQMYGNKIUIF-UHFFFAOYSA-N D-guanosine Natural products C1=2NC(N)=NC(=O)C=2N=CN1C1OC(CO)C(O)C1O NYHBQMYGNKIUIF-UHFFFAOYSA-N 0.000 description 1
- 238000007399 DNA isolation Methods 0.000 description 1
- 238000012270 DNA recombination Methods 0.000 description 1
- 102100022286 DNA repair-scaffolding protein Human genes 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 102000052510 DNA-Binding Proteins Human genes 0.000 description 1
- 108700020911 DNA-Binding Proteins Proteins 0.000 description 1
- 108090000626 DNA-directed RNA polymerases Proteins 0.000 description 1
- 102000004163 DNA-directed RNA polymerases Human genes 0.000 description 1
- 244000057399 Dalea candida Species 0.000 description 1
- 108010073542 Delta-5 Fatty Acid Desaturase Proteins 0.000 description 1
- 241001533413 Deltavirus Species 0.000 description 1
- 241000605716 Desulfovibrio Species 0.000 description 1
- 235000009355 Dianthus caryophyllus Nutrition 0.000 description 1
- 240000006497 Dianthus caryophyllus Species 0.000 description 1
- 241000224495 Dictyostelium Species 0.000 description 1
- 208000035240 Disease Resistance Diseases 0.000 description 1
- 241000698776 Duma Species 0.000 description 1
- 241000195634 Dunaliella Species 0.000 description 1
- 241000195632 Dunaliella tertiolecta Species 0.000 description 1
- 241000607473 Edwardsiella <enterobacteria> Species 0.000 description 1
- 241000605314 Ehrlichia Species 0.000 description 1
- 241000588877 Eikenella Species 0.000 description 1
- 235000007349 Eleusine coracana Nutrition 0.000 description 1
- 235000013499 Eleusine coracana subsp coracana Nutrition 0.000 description 1
- 241000588914 Enterobacter Species 0.000 description 1
- 241000194033 Enterococcus Species 0.000 description 1
- 241001480508 Entomophthora Species 0.000 description 1
- 241000283073 Equus caballus Species 0.000 description 1
- 241000588698 Erwinia Species 0.000 description 1
- 241000186811 Erysipelothrix Species 0.000 description 1
- 241000002525 Eryx muelleri Species 0.000 description 1
- 241000495778 Escherichia faecalis Species 0.000 description 1
- 241000362749 Ettlia oleoabundans Species 0.000 description 1
- 241000186394 Eubacterium Species 0.000 description 1
- 241000221079 Euphorbia <genus> Species 0.000 description 1
- 241000248488 Euplotes Species 0.000 description 1
- 241001137858 Euryarchaeota Species 0.000 description 1
- 241000131486 Ewingella Species 0.000 description 1
- 241001506046 Farysia acheniorum Species 0.000 description 1
- 241000095423 Farysia taiwaniana Species 0.000 description 1
- 108010058732 Fatty Acid Elongases Proteins 0.000 description 1
- 102000036181 Fatty Acid Elongases Human genes 0.000 description 1
- 102000009114 Fatty acid desaturases Human genes 0.000 description 1
- 241000282326 Felis catus Species 0.000 description 1
- 241000222012 Fellozyma inositophila Species 0.000 description 1
- 241001280345 Ferroplasma Species 0.000 description 1
- 241000221420 Filobasidium uniguttulatum Species 0.000 description 1
- 241001617393 Finegoldia Species 0.000 description 1
- 241000192125 Firmicutes Species 0.000 description 1
- 241000721361 Flavobacterium soli Species 0.000 description 1
- 241000220223 Fragaria Species 0.000 description 1
- 240000003362 Fragaria moschata Species 0.000 description 1
- 241000589599 Francisella tularensis subsp. novicida Species 0.000 description 1
- 241000122692 Fusarium avenaceum Species 0.000 description 1
- 241000879295 Fusarium equiseti Species 0.000 description 1
- 241000221778 Fusarium fujikuroi Species 0.000 description 1
- 241000690372 Fusarium proliferatum Species 0.000 description 1
- 241000427940 Fusarium solani Species 0.000 description 1
- 241000577837 Fusarium stilboides Species 0.000 description 1
- 241000879141 Fusarium tricinctum Species 0.000 description 1
- 241000567178 Fusarium venenatum Species 0.000 description 1
- 241000233732 Fusarium verticillioides Species 0.000 description 1
- 101150106478 GPS1 gene Proteins 0.000 description 1
- 241001149475 Gaeumannomyces graminis Species 0.000 description 1
- 241000207202 Gardnerella Species 0.000 description 1
- 241000193789 Gemella Species 0.000 description 1
- 208000034951 Genetic Translocation Diseases 0.000 description 1
- 229940123611 Genome editing Drugs 0.000 description 1
- 241001135750 Geobacter Species 0.000 description 1
- 208000010412 Glaucoma Diseases 0.000 description 1
- PHZYLYASFWHLHJ-FXQIFTODSA-N Gln-Asn-Glu Chemical compound [H]N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CCC(O)=O)C(O)=O PHZYLYASFWHLHJ-FXQIFTODSA-N 0.000 description 1
- ZPDVKYLJTOFQJV-WDSKDSINSA-N Gln-Asn-Gly Chemical compound [H]N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(N)=O)C(=O)NCC(O)=O ZPDVKYLJTOFQJV-WDSKDSINSA-N 0.000 description 1
- XEYMBRRKIFYQMF-GUBZILKMSA-N Gln-Asp-Leu Chemical compound [H]N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](CC(C)C)C(O)=O XEYMBRRKIFYQMF-GUBZILKMSA-N 0.000 description 1
- KVXVVDFOZNYYKZ-DCAQKATOSA-N Gln-Gln-Leu Chemical compound [H]N[C@@H](CCC(N)=O)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(C)C)C(O)=O KVXVVDFOZNYYKZ-DCAQKATOSA-N 0.000 description 1
- SNLOOPZHAQDMJG-CIUDSAMLSA-N Gln-Glu-Glu Chemical compound NC(=O)CC[C@H](N)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CCC(O)=O)C(O)=O SNLOOPZHAQDMJG-CIUDSAMLSA-N 0.000 description 1
- KDXKFBSNIJYNNR-YVNDNENWSA-N Gln-Glu-Ile Chemical compound [H]N[C@@H](CCC(N)=O)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H]([C@@H](C)CC)C(O)=O KDXKFBSNIJYNNR-YVNDNENWSA-N 0.000 description 1
- PNENQZWRFMUZOM-DCAQKATOSA-N Gln-Glu-Leu Chemical compound [H]N[C@@H](CCC(N)=O)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CC(C)C)C(O)=O PNENQZWRFMUZOM-DCAQKATOSA-N 0.000 description 1
- GIVHPCWYVWUUSG-HVTMNAMFSA-N Gln-Ile-His Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H](CC1=CN=CN1)C(=O)O)NC(=O)[C@H](CCC(=O)N)N GIVHPCWYVWUUSG-HVTMNAMFSA-N 0.000 description 1
- FTIJVMLAGRAYMJ-MNXVOIDGSA-N Gln-Ile-Leu Chemical compound CC(C)C[C@@H](C(O)=O)NC(=O)[C@H]([C@@H](C)CC)NC(=O)[C@@H](N)CCC(N)=O FTIJVMLAGRAYMJ-MNXVOIDGSA-N 0.000 description 1
- PSERKXGRRADTKA-MNXVOIDGSA-N Gln-Leu-Ile Chemical compound [H]N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H]([C@@H](C)CC)C(O)=O PSERKXGRRADTKA-MNXVOIDGSA-N 0.000 description 1
- IULKWYSYZSURJK-AVGNSLFASA-N Gln-Leu-Lys Chemical compound NC(=O)CC[C@H](N)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCCCN)C(O)=O IULKWYSYZSURJK-AVGNSLFASA-N 0.000 description 1
- SHAUZYVSXAMYAZ-JYJNAYRXSA-N Gln-Leu-Phe Chemical compound CC(C)C[C@@H](C(=O)N[C@@H](CC1=CC=CC=C1)C(=O)O)NC(=O)[C@H](CCC(=O)N)N SHAUZYVSXAMYAZ-JYJNAYRXSA-N 0.000 description 1
- ZBKUIQNCRIYVGH-SDDRHHMPSA-N Gln-Leu-Pro Chemical compound CC(C)C[C@@H](C(=O)N1CCC[C@@H]1C(=O)O)NC(=O)[C@H](CCC(=O)N)N ZBKUIQNCRIYVGH-SDDRHHMPSA-N 0.000 description 1
- WTJIWXMJESRHMM-XDTLVQLUSA-N Gln-Tyr-Ala Chemical compound [H]N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC1=CC=C(O)C=C1)C(=O)N[C@@H](C)C(O)=O WTJIWXMJESRHMM-XDTLVQLUSA-N 0.000 description 1
- JJKKWYQVHRUSDG-GUBZILKMSA-N Glu-Ala-Lys Chemical compound [H]N[C@@H](CCC(O)=O)C(=O)N[C@@H](C)C(=O)N[C@@H](CCCCN)C(O)=O JJKKWYQVHRUSDG-GUBZILKMSA-N 0.000 description 1
- KKCUFHUTMKQQCF-SRVKXCTJSA-N Glu-Arg-Leu Chemical compound [H]N[C@@H](CCC(O)=O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC(C)C)C(O)=O KKCUFHUTMKQQCF-SRVKXCTJSA-N 0.000 description 1
- YKLNMGJYMNPBCP-ACZMJKKPSA-N Glu-Asn-Asp Chemical compound C(CC(=O)O)[C@@H](C(=O)N[C@@H](CC(=O)N)C(=O)N[C@@H](CC(=O)O)C(=O)O)N YKLNMGJYMNPBCP-ACZMJKKPSA-N 0.000 description 1
- CKRUHITYRFNUKW-WDSKDSINSA-N Glu-Asn-Gly Chemical compound [H]N[C@@H](CCC(O)=O)C(=O)N[C@@H](CC(N)=O)C(=O)NCC(O)=O CKRUHITYRFNUKW-WDSKDSINSA-N 0.000 description 1
- RDPOETHPAQEGDP-ACZMJKKPSA-N Glu-Asp-Ala Chemical compound [H]N[C@@H](CCC(O)=O)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](C)C(O)=O RDPOETHPAQEGDP-ACZMJKKPSA-N 0.000 description 1
- HJIFPJUEOGZWRI-GUBZILKMSA-N Glu-Asp-Lys Chemical compound C(CCN)C[C@@H](C(=O)O)NC(=O)[C@H](CC(=O)O)NC(=O)[C@H](CCC(=O)O)N HJIFPJUEOGZWRI-GUBZILKMSA-N 0.000 description 1
- PAQUJCSYVIBPLC-AVGNSLFASA-N Glu-Asp-Phe Chemical compound OC(=O)CC[C@H](N)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@H](C(O)=O)CC1=CC=CC=C1 PAQUJCSYVIBPLC-AVGNSLFASA-N 0.000 description 1
- ZXQPJYWZSFGWJB-AVGNSLFASA-N Glu-Cys-Phe Chemical compound C1=CC=C(C=C1)C[C@@H](C(=O)O)NC(=O)[C@H](CS)NC(=O)[C@H](CCC(=O)O)N ZXQPJYWZSFGWJB-AVGNSLFASA-N 0.000 description 1
- LVCHEMOPBORRLB-DCAQKATOSA-N Glu-Gln-Lys Chemical compound NCCCC[C@H](NC(=O)[C@H](CCC(N)=O)NC(=O)[C@@H](N)CCC(O)=O)C(O)=O LVCHEMOPBORRLB-DCAQKATOSA-N 0.000 description 1
- SJPMNHCEWPTRBR-BQBZGAKWSA-N Glu-Glu-Gly Chemical compound OC(=O)CC[C@H](N)C(=O)N[C@@H](CCC(O)=O)C(=O)NCC(O)=O SJPMNHCEWPTRBR-BQBZGAKWSA-N 0.000 description 1
- VOORMNJKNBGYGK-YUMQZZPRSA-N Glu-Gly-Met Chemical compound CSCC[C@@H](C(=O)O)NC(=O)CNC(=O)[C@H](CCC(=O)O)N VOORMNJKNBGYGK-YUMQZZPRSA-N 0.000 description 1
- XOFYVODYSNKPDK-AVGNSLFASA-N Glu-His-His Chemical compound C1=C(NC=N1)C[C@@H](C(=O)N[C@@H](CC2=CN=CN2)C(=O)O)NC(=O)[C@H](CCC(=O)O)N XOFYVODYSNKPDK-AVGNSLFASA-N 0.000 description 1
- CXRWMMRLEMVSEH-PEFMBERDSA-N Glu-Ile-Asn Chemical compound [H]N[C@@H](CCC(O)=O)C(=O)N[C@@H]([C@@H](C)CC)C(=O)N[C@@H](CC(N)=O)C(O)=O CXRWMMRLEMVSEH-PEFMBERDSA-N 0.000 description 1
- WTMZXOPHTIVFCP-QEWYBTABSA-N Glu-Ile-Phe Chemical compound OC(=O)CC[C@H](N)C(=O)N[C@@H]([C@@H](C)CC)C(=O)N[C@H](C(O)=O)CC1=CC=CC=C1 WTMZXOPHTIVFCP-QEWYBTABSA-N 0.000 description 1
- ZSWGJYOZWBHROQ-RWRJDSDZSA-N Glu-Ile-Thr Chemical compound [H]N[C@@H](CCC(O)=O)C(=O)N[C@@H]([C@@H](C)CC)C(=O)N[C@@H]([C@@H](C)O)C(O)=O ZSWGJYOZWBHROQ-RWRJDSDZSA-N 0.000 description 1
- HVYWQYLBVXMXSV-GUBZILKMSA-N Glu-Leu-Ala Chemical compound [H]N[C@@H](CCC(O)=O)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](C)C(O)=O HVYWQYLBVXMXSV-GUBZILKMSA-N 0.000 description 1
- DNPCBMNFQVTHMA-DCAQKATOSA-N Glu-Leu-Gln Chemical compound [H]N[C@@H](CCC(O)=O)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCC(N)=O)C(O)=O DNPCBMNFQVTHMA-DCAQKATOSA-N 0.000 description 1
- NJCALAAIGREHDR-WDCWCFNPSA-N Glu-Leu-Thr Chemical compound [H]N[C@@H](CCC(O)=O)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H]([C@@H](C)O)C(O)=O NJCALAAIGREHDR-WDCWCFNPSA-N 0.000 description 1
- ILWHFUZZCFYSKT-AVGNSLFASA-N Glu-Lys-Leu Chemical compound [H]N[C@@H](CCC(O)=O)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CC(C)C)C(O)=O ILWHFUZZCFYSKT-AVGNSLFASA-N 0.000 description 1
- ZGEJRLJEAMPEDV-SRVKXCTJSA-N Glu-Lys-Met Chemical compound CSCC[C@@H](C(=O)O)NC(=O)[C@H](CCCCN)NC(=O)[C@H](CCC(=O)O)N ZGEJRLJEAMPEDV-SRVKXCTJSA-N 0.000 description 1
- ZQYZDDXTNQXUJH-CIUDSAMLSA-N Glu-Met-Ala Chemical compound C[C@@H](C(=O)O)NC(=O)[C@H](CCSC)NC(=O)[C@H](CCC(=O)O)N ZQYZDDXTNQXUJH-CIUDSAMLSA-N 0.000 description 1
- SYAYROHMAIHWFB-KBIXCLLPSA-N Glu-Ser-Ile Chemical compound [H]N[C@@H](CCC(O)=O)C(=O)N[C@@H](CO)C(=O)N[C@@H]([C@@H](C)CC)C(O)=O SYAYROHMAIHWFB-KBIXCLLPSA-N 0.000 description 1
- BXSZPACYCMNKLS-AVGNSLFASA-N Glu-Ser-Phe Chemical compound [H]N[C@@H](CCC(O)=O)C(=O)N[C@@H](CO)C(=O)N[C@@H](CC1=CC=CC=C1)C(O)=O BXSZPACYCMNKLS-AVGNSLFASA-N 0.000 description 1
- TWYSSILQABLLME-HJGDQZAQSA-N Glu-Thr-Arg Chemical compound [H]N[C@@H](CCC(O)=O)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CCCNC(N)=N)C(O)=O TWYSSILQABLLME-HJGDQZAQSA-N 0.000 description 1
- RGJKYNUINKGPJN-RWRJDSDZSA-N Glu-Thr-Ile Chemical compound CC[C@H](C)[C@@H](C(=O)O)NC(=O)[C@H]([C@@H](C)O)NC(=O)[C@H](CCC(=O)O)N RGJKYNUINKGPJN-RWRJDSDZSA-N 0.000 description 1
- KIEICAOUSNYOLM-NRPADANISA-N Glu-Val-Ala Chemical compound [H]N[C@@H](CCC(O)=O)C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](C)C(O)=O KIEICAOUSNYOLM-NRPADANISA-N 0.000 description 1
- YQPFCZVKMUVZIN-AUTRQRHGSA-N Glu-Val-Gln Chemical compound [H]N[C@@H](CCC(O)=O)C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CCC(N)=O)C(O)=O YQPFCZVKMUVZIN-AUTRQRHGSA-N 0.000 description 1
- ZYRXTRTUCAVNBQ-GVXVVHGQSA-N Glu-Val-Lys Chemical compound CC(C)[C@@H](C(=O)N[C@@H](CCCCN)C(=O)O)NC(=O)[C@H](CCC(=O)O)N ZYRXTRTUCAVNBQ-GVXVVHGQSA-N 0.000 description 1
- SOYWRINXUSUWEQ-DLOVCJGASA-N Glu-Val-Val Chemical compound CC(C)[C@@H](C(O)=O)NC(=O)[C@H](C(C)C)NC(=O)[C@@H](N)CCC(O)=O SOYWRINXUSUWEQ-DLOVCJGASA-N 0.000 description 1
- 102000053187 Glucuronidase Human genes 0.000 description 1
- 108010060309 Glucuronidase Proteins 0.000 description 1
- VSVZIEVNUYDAFR-YUMQZZPRSA-N Gly-Ala-Leu Chemical compound CC(C)C[C@@H](C(O)=O)NC(=O)[C@H](C)NC(=O)CN VSVZIEVNUYDAFR-YUMQZZPRSA-N 0.000 description 1
- LJPIRKICOISLKN-WHFBIAKZSA-N Gly-Ala-Ser Chemical compound NCC(=O)N[C@@H](C)C(=O)N[C@@H](CO)C(O)=O LJPIRKICOISLKN-WHFBIAKZSA-N 0.000 description 1
- OVSKVOOUFAKODB-UWVGGRQHSA-N Gly-Arg-Leu Chemical compound CC(C)C[C@@H](C(O)=O)NC(=O)[C@@H](NC(=O)CN)CCCN=C(N)N OVSKVOOUFAKODB-UWVGGRQHSA-N 0.000 description 1
- XCLCVBYNGXEVDU-WHFBIAKZSA-N Gly-Asn-Ser Chemical compound NCC(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CO)C(O)=O XCLCVBYNGXEVDU-WHFBIAKZSA-N 0.000 description 1
- FMNHBTKMRFVGRO-FOHZUACHSA-N Gly-Asn-Thr Chemical compound C[C@@H](O)[C@@H](C(O)=O)NC(=O)[C@H](CC(N)=O)NC(=O)CN FMNHBTKMRFVGRO-FOHZUACHSA-N 0.000 description 1
- LCNXZQROPKFGQK-WHFBIAKZSA-N Gly-Asp-Ser Chemical compound NCC(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](CO)C(O)=O LCNXZQROPKFGQK-WHFBIAKZSA-N 0.000 description 1
- YYPFZVIXAVDHIK-IUCAKERBSA-N Gly-Glu-Leu Chemical compound CC(C)C[C@@H](C(O)=O)NC(=O)[C@H](CCC(O)=O)NC(=O)CN YYPFZVIXAVDHIK-IUCAKERBSA-N 0.000 description 1
- ZQIMMEYPEXIYBB-IUCAKERBSA-N Gly-Glu-Lys Chemical compound NCCCC[C@@H](C(O)=O)NC(=O)[C@H](CCC(O)=O)NC(=O)CN ZQIMMEYPEXIYBB-IUCAKERBSA-N 0.000 description 1
- CCQOOWAONKGYKQ-BYPYZUCNSA-N Gly-Gly-Ala Chemical compound OC(=O)[C@H](C)NC(=O)CNC(=O)CN CCQOOWAONKGYKQ-BYPYZUCNSA-N 0.000 description 1
- UFPXDFOYHVEIPI-BYPYZUCNSA-N Gly-Gly-Asp Chemical compound NCC(=O)NCC(=O)N[C@H](C(O)=O)CC(O)=O UFPXDFOYHVEIPI-BYPYZUCNSA-N 0.000 description 1
- XPJBQTCXPJNIFE-ZETCQYMHSA-N Gly-Gly-Leu Chemical compound CC(C)C[C@@H](C(O)=O)NC(=O)CNC(=O)CN XPJBQTCXPJNIFE-ZETCQYMHSA-N 0.000 description 1
- SXJHOPPTOJACOA-QXEWZRGKSA-N Gly-Ile-Arg Chemical compound NCC(=O)N[C@@H]([C@@H](C)CC)C(=O)N[C@H](C(O)=O)CCCN=C(N)N SXJHOPPTOJACOA-QXEWZRGKSA-N 0.000 description 1
- SCWYHUQOOFRVHP-MBLNEYKQSA-N Gly-Ile-Thr Chemical compound NCC(=O)N[C@@H]([C@@H](C)CC)C(=O)N[C@@H]([C@@H](C)O)C(O)=O SCWYHUQOOFRVHP-MBLNEYKQSA-N 0.000 description 1
- LHYJCVCQPWRMKZ-WEDXCCLWSA-N Gly-Leu-Thr Chemical compound [H]NCC(=O)N[C@@H](CC(C)C)C(=O)N[C@@H]([C@@H](C)O)C(O)=O LHYJCVCQPWRMKZ-WEDXCCLWSA-N 0.000 description 1
- AFWYPMDMDYCKMD-KBPBESRZSA-N Gly-Leu-Tyr Chemical compound NCC(=O)N[C@@H](CC(C)C)C(=O)N[C@H](C(O)=O)CC1=CC=C(O)C=C1 AFWYPMDMDYCKMD-KBPBESRZSA-N 0.000 description 1
- VBOBNHSVQKKTOT-YUMQZZPRSA-N Gly-Lys-Ala Chemical compound [H]NCC(=O)N[C@@H](CCCCN)C(=O)N[C@@H](C)C(O)=O VBOBNHSVQKKTOT-YUMQZZPRSA-N 0.000 description 1
- FXGRXIATVXUAHO-WEDXCCLWSA-N Gly-Lys-Thr Chemical compound C[C@@H](O)[C@@H](C(O)=O)NC(=O)[C@@H](NC(=O)CN)CCCCN FXGRXIATVXUAHO-WEDXCCLWSA-N 0.000 description 1
- GAFKBWKVXNERFA-QWRGUYRKSA-N Gly-Phe-Asp Chemical compound OC(=O)C[C@@H](C(O)=O)NC(=O)[C@@H](NC(=O)CN)CC1=CC=CC=C1 GAFKBWKVXNERFA-QWRGUYRKSA-N 0.000 description 1
- DBUNZBWUWCIELX-JHEQGTHGSA-N Gly-Thr-Glu Chemical compound [H]NCC(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CCC(O)=O)C(O)=O DBUNZBWUWCIELX-JHEQGTHGSA-N 0.000 description 1
- RCHFYMASWAZQQZ-ZANVPECISA-N Gly-Trp-Ala Chemical compound C1=CC=C2C(C[C@@H](C(=O)N[C@@H](C)C(O)=O)NC(=O)CN)=CNC2=C1 RCHFYMASWAZQQZ-ZANVPECISA-N 0.000 description 1
- PNUFMLXHOLFRLD-KBPBESRZSA-N Gly-Tyr-Lys Chemical compound NCCCC[C@@H](C(O)=O)NC(=O)[C@@H](NC(=O)CN)CC1=CC=C(O)C=C1 PNUFMLXHOLFRLD-KBPBESRZSA-N 0.000 description 1
- DNVDEMWIYLVIQU-RCOVLWMOSA-N Gly-Val-Asp Chemical compound NCC(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CC(O)=O)C(O)=O DNVDEMWIYLVIQU-RCOVLWMOSA-N 0.000 description 1
- 241000203749 Gordonia bronchialis Species 0.000 description 1
- 235000014751 Gossypium arboreum Nutrition 0.000 description 1
- 240000001814 Gossypium arboreum Species 0.000 description 1
- 241000206581 Gracilaria Species 0.000 description 1
- 108091027874 Group I catalytic intron Proteins 0.000 description 1
- 241000190714 Gymnosporangium clavipes Species 0.000 description 1
- 102000029812 HNH nuclease Human genes 0.000 description 1
- 108060003760 HNH nuclease Proteins 0.000 description 1
- 241000168525 Haematococcus Species 0.000 description 1
- 241000606768 Haemophilus influenzae Species 0.000 description 1
- 241001059853 Haemophilus pittmaniae Species 0.000 description 1
- 241000819598 Haemophilus sputorum Species 0.000 description 1
- 241000588731 Hafnia Species 0.000 description 1
- 241000205065 Haloarcula Species 0.000 description 1
- 241000205062 Halobacterium Species 0.000 description 1
- 241000204933 Haloferax volcanii Species 0.000 description 1
- 241001514657 Hamamotoa lignophila Species 0.000 description 1
- 241000222025 Hamamotoa singularis Species 0.000 description 1
- 241001105006 Hantzschia Species 0.000 description 1
- 241000580812 Hasegawazyma lactosa Species 0.000 description 1
- 102000002812 Heat-Shock Proteins Human genes 0.000 description 1
- 108010004889 Heat-Shock Proteins Proteins 0.000 description 1
- 241000589989 Helicobacter Species 0.000 description 1
- 101001023784 Heteractis crispa GFP-like non-fluorescent chromoprotein Proteins 0.000 description 1
- IPIVXQQRZXEUGW-UWJYBYFXSA-N His-Ala-His Chemical compound C([C@H](N)C(=O)N[C@@H](C)C(=O)N[C@@H](CC=1NC=NC=1)C(O)=O)C1=CN=CN1 IPIVXQQRZXEUGW-UWJYBYFXSA-N 0.000 description 1
- XINDHUAGVGCNSF-QSFUFRPTSA-N His-Ala-Ile Chemical compound [H]N[C@@H](CC1=CNC=N1)C(=O)N[C@@H](C)C(=O)N[C@@H]([C@@H](C)CC)C(O)=O XINDHUAGVGCNSF-QSFUFRPTSA-N 0.000 description 1
- SVHKVHBPTOMLTO-DCAQKATOSA-N His-Arg-Asp Chemical compound [H]N[C@@H](CC1=CNC=N1)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CC(O)=O)C(O)=O SVHKVHBPTOMLTO-DCAQKATOSA-N 0.000 description 1
- MVADCDSCFTXCBT-CIUDSAMLSA-N His-Asp-Asp Chemical compound [H]N[C@@H](CC1=CNC=N1)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](CC(O)=O)C(O)=O MVADCDSCFTXCBT-CIUDSAMLSA-N 0.000 description 1
- MAJYPBAJPNUFPV-BQBZGAKWSA-N His-Cys Chemical compound SC[C@@H](C(O)=O)NC(=O)[C@@H](N)CC1=CN=CN1 MAJYPBAJPNUFPV-BQBZGAKWSA-N 0.000 description 1
- IMCHNUANCIGUKS-SRVKXCTJSA-N His-Glu-Arg Chemical compound [H]N[C@@H](CC1=CNC=N1)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CCCNC(N)=N)C(O)=O IMCHNUANCIGUKS-SRVKXCTJSA-N 0.000 description 1
- XMENRVZYPBKBIL-AVGNSLFASA-N His-Glu-His Chemical compound N[C@@H](Cc1cnc[nH]1)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](Cc1cnc[nH]1)C(O)=O XMENRVZYPBKBIL-AVGNSLFASA-N 0.000 description 1
- JCOSMKPAOYDKRO-AVGNSLFASA-N His-Glu-Lys Chemical compound C1=C(NC=N1)C[C@@H](C(=O)N[C@@H](CCC(=O)O)C(=O)N[C@@H](CCCCN)C(=O)O)N JCOSMKPAOYDKRO-AVGNSLFASA-N 0.000 description 1
- ZSKJIISDJXJQPV-BZSNNMDCSA-N His-Leu-Phe Chemical compound C([C@H](N)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC=1C=CC=CC=1)C(O)=O)C1=CN=CN1 ZSKJIISDJXJQPV-BZSNNMDCSA-N 0.000 description 1
- SVVULKPWDBIPCO-BZSNNMDCSA-N His-Phe-Leu Chemical compound [H]N[C@@H](CC1=CNC=N1)C(=O)N[C@@H](CC1=CC=CC=C1)C(=O)N[C@@H](CC(C)C)C(O)=O SVVULKPWDBIPCO-BZSNNMDCSA-N 0.000 description 1
- WCHONUZTYDQMBY-PYJNHQTQSA-N His-Pro-Ile Chemical compound [H]N[C@@H](CC1=CNC=N1)C(=O)N1CCC[C@H]1C(=O)N[C@@H]([C@@H](C)CC)C(O)=O WCHONUZTYDQMBY-PYJNHQTQSA-N 0.000 description 1
- DAKSMIWQZPHRIB-BZSNNMDCSA-N His-Tyr-Leu Chemical compound [H]N[C@@H](CC1=CNC=N1)C(=O)N[C@@H](CC1=CC=C(O)C=C1)C(=O)N[C@@H](CC(C)C)C(O)=O DAKSMIWQZPHRIB-BZSNNMDCSA-N 0.000 description 1
- 102000006947 Histones Human genes 0.000 description 1
- 101000745755 Homo sapiens Cytoplasmic polyadenylation element-binding protein 3 Proteins 0.000 description 1
- 101000825159 Homo sapiens DNA repair-scaffolding protein Proteins 0.000 description 1
- 241000209219 Hordeum Species 0.000 description 1
- 241000223198 Humicola Species 0.000 description 1
- 241000457972 Hylophila Species 0.000 description 1
- XQFRJNBWHJMXHO-RRKCRQDMSA-N IDUR Chemical compound C1[C@H](O)[C@@H](CO)O[C@H]1N1C(=O)NC(=O)C(I)=C1 XQFRJNBWHJMXHO-RRKCRQDMSA-N 0.000 description 1
- LQSBBHNVAVNZSX-GHCJXIJMSA-N Ile-Ala-Asn Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H](C)C(=O)N[C@@H](CC(=O)N)C(=O)O)N LQSBBHNVAVNZSX-GHCJXIJMSA-N 0.000 description 1
- YOTNPRLPIPHQSB-XUXIUFHCSA-N Ile-Arg-Lys Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H](CCCN=C(N)N)C(=O)N[C@@H](CCCCN)C(=O)O)N YOTNPRLPIPHQSB-XUXIUFHCSA-N 0.000 description 1
- NBJAAWYRLGCJOF-UGYAYLCHSA-N Ile-Asp-Asn Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H](CC(=O)O)C(=O)N[C@@H](CC(=O)N)C(=O)O)N NBJAAWYRLGCJOF-UGYAYLCHSA-N 0.000 description 1
- RGSOCXHDOPQREB-ZPFDUUQYSA-N Ile-Asp-Leu Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H](CC(=O)O)C(=O)N[C@@H](CC(C)C)C(=O)O)N RGSOCXHDOPQREB-ZPFDUUQYSA-N 0.000 description 1
- KUHFPGIVBOCRMV-MNXVOIDGSA-N Ile-Gln-Leu Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H](CCC(=O)N)C(=O)N[C@@H](CC(C)C)C(=O)O)N KUHFPGIVBOCRMV-MNXVOIDGSA-N 0.000 description 1
- LKACSKJPTFSBHR-MNXVOIDGSA-N Ile-Gln-Lys Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H](CCC(=O)N)C(=O)N[C@@H](CCCCN)C(=O)O)N LKACSKJPTFSBHR-MNXVOIDGSA-N 0.000 description 1
- LGMUPVWZEYYUMU-YVNDNENWSA-N Ile-Glu-Gln Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H](CCC(=O)O)C(=O)N[C@@H](CCC(=O)N)C(=O)O)N LGMUPVWZEYYUMU-YVNDNENWSA-N 0.000 description 1
- MTFVYKQRLXYAQN-LAEOZQHASA-N Ile-Glu-Gly Chemical compound [H]N[C@@H]([C@@H](C)CC)C(=O)N[C@@H](CCC(O)=O)C(=O)NCC(O)=O MTFVYKQRLXYAQN-LAEOZQHASA-N 0.000 description 1
- PNDMHTTXXPUQJH-RWRJDSDZSA-N Ile-Glu-Thr Chemical compound N[C@@H]([C@@H](C)CC)C(=O)N[C@@H](CCC(=O)O)C(=O)N[C@@H]([C@H](O)C)C(=O)O PNDMHTTXXPUQJH-RWRJDSDZSA-N 0.000 description 1
- KFVUBLZRFSVDGO-BYULHYEWSA-N Ile-Gly-Asp Chemical compound CC[C@H](C)[C@H](N)C(=O)NCC(=O)N[C@H](C(O)=O)CC(O)=O KFVUBLZRFSVDGO-BYULHYEWSA-N 0.000 description 1
- NYEYYMLUABXDMC-NHCYSSNCSA-N Ile-Gly-Leu Chemical compound CC[C@H](C)[C@@H](C(=O)NCC(=O)N[C@@H](CC(C)C)C(=O)O)N NYEYYMLUABXDMC-NHCYSSNCSA-N 0.000 description 1
- HYLIOBDWPQNLKI-HVTMNAMFSA-N Ile-His-Gln Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H](CC1=CN=CN1)C(=O)N[C@@H](CCC(=O)N)C(=O)O)N HYLIOBDWPQNLKI-HVTMNAMFSA-N 0.000 description 1
- HUWYGQOISIJNMK-SIGLWIIPSA-N Ile-Ile-His Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H]([C@@H](C)CC)C(=O)N[C@@H](CC1=CN=CN1)C(=O)O)N HUWYGQOISIJNMK-SIGLWIIPSA-N 0.000 description 1
- CSQNHSGHAPRGPQ-YTFOTSKYSA-N Ile-Ile-Lys Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H]([C@@H](C)CC)C(=O)N[C@@H](CCCCN)C(=O)O)N CSQNHSGHAPRGPQ-YTFOTSKYSA-N 0.000 description 1
- PKGGWLOLRLOPGK-XUXIUFHCSA-N Ile-Leu-Arg Chemical compound CC[C@H](C)[C@H](N)C(=O)N[C@@H](CC(C)C)C(=O)N[C@H](C(O)=O)CCCN=C(N)N PKGGWLOLRLOPGK-XUXIUFHCSA-N 0.000 description 1
- OUUCIIJSBIBCHB-ZPFDUUQYSA-N Ile-Leu-Asp Chemical compound CC[C@H](C)[C@H](N)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC(O)=O)C(O)=O OUUCIIJSBIBCHB-ZPFDUUQYSA-N 0.000 description 1
- YGDWPQCLFJNMOL-MNXVOIDGSA-N Ile-Leu-Gln Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCC(=O)N)C(=O)O)N YGDWPQCLFJNMOL-MNXVOIDGSA-N 0.000 description 1
- HUORUFRRJHELPD-MNXVOIDGSA-N Ile-Leu-Glu Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCC(=O)O)C(=O)O)N HUORUFRRJHELPD-MNXVOIDGSA-N 0.000 description 1
- ADDYYRVQQZFIMW-MNXVOIDGSA-N Ile-Lys-Glu Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CCC(=O)O)C(=O)O)N ADDYYRVQQZFIMW-MNXVOIDGSA-N 0.000 description 1
- GVNNAHIRSDRIII-AJNGGQMLSA-N Ile-Lys-Lys Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CCCCN)C(=O)O)N GVNNAHIRSDRIII-AJNGGQMLSA-N 0.000 description 1
- GLYJPWIRLBAIJH-UHFFFAOYSA-N Ile-Lys-Pro Natural products CCC(C)C(N)C(=O)NC(CCCCN)C(=O)N1CCCC1C(O)=O GLYJPWIRLBAIJH-UHFFFAOYSA-N 0.000 description 1
- RVNOXPZHMUWCLW-GMOBBJLQSA-N Ile-Met-Asn Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CC(=O)N)C(=O)O)N RVNOXPZHMUWCLW-GMOBBJLQSA-N 0.000 description 1
- RCMNUBZKIIJCOI-ZPFDUUQYSA-N Ile-Met-Glu Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CCC(=O)O)C(=O)O)N RCMNUBZKIIJCOI-ZPFDUUQYSA-N 0.000 description 1
- CIDLJWVDMNDKPT-FIRPJDEBSA-N Ile-Phe-Phe Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H](CC1=CC=CC=C1)C(=O)N[C@@H](CC2=CC=CC=C2)C(=O)O)N CIDLJWVDMNDKPT-FIRPJDEBSA-N 0.000 description 1
- BJECXJHLUJXPJQ-PYJNHQTQSA-N Ile-Pro-His Chemical compound CC[C@H](C)[C@@H](C(=O)N1CCC[C@H]1C(=O)N[C@@H](CC2=CN=CN2)C(=O)O)N BJECXJHLUJXPJQ-PYJNHQTQSA-N 0.000 description 1
- ZNOBVZFCHNHKHA-KBIXCLLPSA-N Ile-Ser-Glu Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H](CO)C(=O)N[C@@H](CCC(=O)O)C(=O)O)N ZNOBVZFCHNHKHA-KBIXCLLPSA-N 0.000 description 1
- ZLFNNVATRMCAKN-ZKWXMUAHSA-N Ile-Ser-Gly Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H](CO)C(=O)NCC(=O)O)N ZLFNNVATRMCAKN-ZKWXMUAHSA-N 0.000 description 1
- JSLIXOUMAOUGBN-JUKXBJQTSA-N Ile-Tyr-His Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H](CC1=CC=C(C=C1)O)C(=O)N[C@@H](CC2=CN=CN2)C(=O)O)N JSLIXOUMAOUGBN-JUKXBJQTSA-N 0.000 description 1
- DLEBSGAVWRPTIX-PEDHHIEDSA-N Ile-Val-Ile Chemical compound CC[C@H](C)[C@H](N)C(=O)N[C@@H](C(C)C)C(=O)N[C@H](C(O)=O)[C@@H](C)CC DLEBSGAVWRPTIX-PEDHHIEDSA-N 0.000 description 1
- SWNRZNLXMXRCJC-VKOGCVSHSA-N Ile-Val-Trp Chemical compound C1=CC=C2C(C[C@H](NC(=O)[C@H](C(C)C)NC(=O)[C@@H](N)[C@@H](C)CC)C(O)=O)=CNC2=C1 SWNRZNLXMXRCJC-VKOGCVSHSA-N 0.000 description 1
- 229930010555 Inosine Natural products 0.000 description 1
- UGQMRVRMYYASKQ-KQYNXXCUSA-N Inosine Chemical compound O[C@@H]1[C@H](O)[C@@H](CO)O[C@H]1N1C2=NC=NC(O)=C2N=C1 UGQMRVRMYYASKQ-KQYNXXCUSA-N 0.000 description 1
- 108010065920 Insulin Lispro Proteins 0.000 description 1
- 108010061833 Integrases Proteins 0.000 description 1
- 241000028833 Kazachstania africana Species 0.000 description 1
- 241000512931 Kazachstania humilis Species 0.000 description 1
- 241001123232 Kazachstania unispora Species 0.000 description 1
- 241000965982 Kazachstania zonata Species 0.000 description 1
- 241000588752 Kluyvera Species 0.000 description 1
- ODKSFYDXXFIFQN-BYPYZUCNSA-N L-arginine Chemical compound OC(=O)[C@@H](N)CCCN=C(N)N ODKSFYDXXFIFQN-BYPYZUCNSA-N 0.000 description 1
- 229930064664 L-arginine Natural products 0.000 description 1
- 235000014852 L-arginine Nutrition 0.000 description 1
- ODKSFYDXXFIFQN-BYPYZUCNSA-P L-argininium(2+) Chemical compound NC(=[NH2+])NCCC[C@H]([NH3+])C(O)=O ODKSFYDXXFIFQN-BYPYZUCNSA-P 0.000 description 1
- HNDVDQJCIGZPNO-YFKPBYRVSA-N L-histidine Chemical compound OC(=O)[C@@H](N)CC1=CN=CN1 HNDVDQJCIGZPNO-YFKPBYRVSA-N 0.000 description 1
- ROHFNLRQFUQHCH-YFKPBYRVSA-N L-leucine Chemical compound CC(C)C[C@H](N)C(O)=O ROHFNLRQFUQHCH-YFKPBYRVSA-N 0.000 description 1
- LHSGPCFBGJHPCY-UHFFFAOYSA-N L-leucine-L-tyrosine Natural products CC(C)CC(N)C(=O)NC(C(O)=O)CC1=CC=C(O)C=C1 LHSGPCFBGJHPCY-UHFFFAOYSA-N 0.000 description 1
- SENJXOPIZNYLHU-UHFFFAOYSA-N L-leucyl-L-arginine Natural products CC(C)CC(N)C(=O)NC(C(O)=O)CCCN=C(N)N SENJXOPIZNYLHU-UHFFFAOYSA-N 0.000 description 1
- KDXKERNSBIXSRK-YFKPBYRVSA-N L-lysine Chemical compound NCCCC[C@H](N)C(O)=O KDXKERNSBIXSRK-YFKPBYRVSA-N 0.000 description 1
- QIVBCDIJIAJPQS-VIFPVBQESA-N L-tryptophane Chemical compound C1=CC=C2C(C[C@H](N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-VIFPVBQESA-N 0.000 description 1
- 241001149681 Lachancea cidri Species 0.000 description 1
- 241000235031 Lachancea fermentati Species 0.000 description 1
- 241000481961 Lachancea thermotolerans Species 0.000 description 1
- 241000235651 Lachancea waltii Species 0.000 description 1
- 240000001046 Lactobacillus acidophilus Species 0.000 description 1
- 241001104444 Lactobacillus nodensis DSM 19682 = JCM 14932 = NBRC 107160 Species 0.000 description 1
- 240000006024 Lactobacillus plantarum Species 0.000 description 1
- 241001660429 Lactobacillus reuteri mlc3 Species 0.000 description 1
- 241001602246 Lactobacillus rossiae DSM 15814 Species 0.000 description 1
- 241000194036 Lactococcus Species 0.000 description 1
- 241000222722 Leishmania <genus> Species 0.000 description 1
- 241000270322 Lepidosauria Species 0.000 description 1
- 241000589902 Leptospira Species 0.000 description 1
- LJHGALIOHLRRQN-DCAQKATOSA-N Leu-Ala-Arg Chemical compound CC(C)C[C@H](N)C(=O)N[C@@H](C)C(=O)N[C@H](C(O)=O)CCCN=C(N)N LJHGALIOHLRRQN-DCAQKATOSA-N 0.000 description 1
- ZRLUISBDKUWAIZ-CIUDSAMLSA-N Leu-Ala-Asp Chemical compound CC(C)C[C@H](N)C(=O)N[C@@H](C)C(=O)N[C@H](C(O)=O)CC(O)=O ZRLUISBDKUWAIZ-CIUDSAMLSA-N 0.000 description 1
- MJOZZTKJZQFKDK-GUBZILKMSA-N Leu-Ala-Gln Chemical compound CC(C)C[C@H](N)C(=O)N[C@@H](C)C(=O)N[C@H](C(O)=O)CCC(N)=O MJOZZTKJZQFKDK-GUBZILKMSA-N 0.000 description 1
- WNGVUZWBXZKQES-YUMQZZPRSA-N Leu-Ala-Gly Chemical compound CC(C)C[C@H](N)C(=O)N[C@@H](C)C(=O)NCC(O)=O WNGVUZWBXZKQES-YUMQZZPRSA-N 0.000 description 1
- PBCHMHROGNUXMK-DLOVCJGASA-N Leu-Ala-His Chemical compound CC(C)C[C@H](N)C(=O)N[C@@H](C)C(=O)N[C@H](C(O)=O)CC1=CN=CN1 PBCHMHROGNUXMK-DLOVCJGASA-N 0.000 description 1
- YOZCKMXHBYKOMQ-IHRRRGAJSA-N Leu-Arg-Lys Chemical compound CC(C)C[C@@H](C(=O)N[C@@H](CCCN=C(N)N)C(=O)N[C@@H](CCCCN)C(=O)O)N YOZCKMXHBYKOMQ-IHRRRGAJSA-N 0.000 description 1
- WGNOPSQMIQERPK-UHFFFAOYSA-N Leu-Asn-Pro Natural products CC(C)CC(N)C(=O)NC(CC(=O)N)C(=O)N1CCCC1C(=O)O WGNOPSQMIQERPK-UHFFFAOYSA-N 0.000 description 1
- PVMPDMIKUVNOBD-CIUDSAMLSA-N Leu-Asp-Ser Chemical compound CC(C)C[C@H](N)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](CO)C(O)=O PVMPDMIKUVNOBD-CIUDSAMLSA-N 0.000 description 1
- OXRLYTYUXAQTHP-YUMQZZPRSA-N Leu-Gly-Ala Chemical compound [H]N[C@@H](CC(C)C)C(=O)NCC(=O)N[C@@H](C)C(O)=O OXRLYTYUXAQTHP-YUMQZZPRSA-N 0.000 description 1
- VGPCJSXPPOQPBK-YUMQZZPRSA-N Leu-Gly-Ser Chemical compound CC(C)C[C@H](N)C(=O)NCC(=O)N[C@@H](CO)C(O)=O VGPCJSXPPOQPBK-YUMQZZPRSA-N 0.000 description 1
- USLNHQZCDQJBOV-ZPFDUUQYSA-N Leu-Ile-Asn Chemical compound [H]N[C@@H](CC(C)C)C(=O)N[C@@H]([C@@H](C)CC)C(=O)N[C@@H](CC(N)=O)C(O)=O USLNHQZCDQJBOV-ZPFDUUQYSA-N 0.000 description 1
- HNDWYLYAYNBWMP-AJNGGQMLSA-N Leu-Ile-Lys Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H](CCCCN)C(=O)O)NC(=O)[C@H](CC(C)C)N HNDWYLYAYNBWMP-AJNGGQMLSA-N 0.000 description 1
- RXGLHDWAZQECBI-SRVKXCTJSA-N Leu-Leu-Ser Chemical compound CC(C)C[C@H](N)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CO)C(O)=O RXGLHDWAZQECBI-SRVKXCTJSA-N 0.000 description 1
- RZXLZBIUTDQHJQ-SRVKXCTJSA-N Leu-Lys-Asp Chemical compound [H]N[C@@H](CC(C)C)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CC(O)=O)C(O)=O RZXLZBIUTDQHJQ-SRVKXCTJSA-N 0.000 description 1
- HVHRPWQEQHIQJF-AVGNSLFASA-N Leu-Lys-Glu Chemical compound [H]N[C@@H](CC(C)C)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CCC(O)=O)C(O)=O HVHRPWQEQHIQJF-AVGNSLFASA-N 0.000 description 1
- ZAVCJRJOQKIOJW-KKUMJFAQSA-N Leu-Phe-Asp Chemical compound CC(C)C[C@H](N)C(=O)N[C@H](C(=O)N[C@@H](CC(O)=O)C(O)=O)CC1=CC=CC=C1 ZAVCJRJOQKIOJW-KKUMJFAQSA-N 0.000 description 1
- AIRUUHAOKGVJAD-JYJNAYRXSA-N Leu-Phe-Glu Chemical compound [H]N[C@@H](CC(C)C)C(=O)N[C@@H](CC1=CC=CC=C1)C(=O)N[C@@H](CCC(O)=O)C(O)=O AIRUUHAOKGVJAD-JYJNAYRXSA-N 0.000 description 1
- INCJJHQRZGQLFC-KBPBESRZSA-N Leu-Phe-Gly Chemical compound [H]N[C@@H](CC(C)C)C(=O)N[C@@H](CC1=CC=CC=C1)C(=O)NCC(O)=O INCJJHQRZGQLFC-KBPBESRZSA-N 0.000 description 1
- DRWMRVFCKKXHCH-BZSNNMDCSA-N Leu-Phe-Leu Chemical compound CC(C)C[C@H]([NH3+])C(=O)N[C@H](C(=O)N[C@@H](CC(C)C)C([O-])=O)CC1=CC=CC=C1 DRWMRVFCKKXHCH-BZSNNMDCSA-N 0.000 description 1
- PJWOOBTYQNNRBF-BZSNNMDCSA-N Leu-Phe-Lys Chemical compound CC(C)C[C@@H](C(=O)N[C@@H](CC1=CC=CC=C1)C(=O)N[C@@H](CCCCN)C(=O)O)N PJWOOBTYQNNRBF-BZSNNMDCSA-N 0.000 description 1
- YWKNKRAKOCLOLH-OEAJRASXSA-N Leu-Phe-Thr Chemical compound CC(C)C[C@H](N)C(=O)N[C@H](C(=O)N[C@@H]([C@@H](C)O)C(O)=O)CC1=CC=CC=C1 YWKNKRAKOCLOLH-OEAJRASXSA-N 0.000 description 1
- CHJKEDSZNSONPS-DCAQKATOSA-N Leu-Pro-Ser Chemical compound [H]N[C@@H](CC(C)C)C(=O)N1CCC[C@H]1C(=O)N[C@@H](CO)C(O)=O CHJKEDSZNSONPS-DCAQKATOSA-N 0.000 description 1
- IZPVWNSAVUQBGP-CIUDSAMLSA-N Leu-Ser-Asp Chemical compound [H]N[C@@H](CC(C)C)C(=O)N[C@@H](CO)C(=O)N[C@@H](CC(O)=O)C(O)=O IZPVWNSAVUQBGP-CIUDSAMLSA-N 0.000 description 1
- XOWMDXHFSBCAKQ-SRVKXCTJSA-N Leu-Ser-Leu Chemical compound CC(C)C[C@H](N)C(=O)N[C@@H](CO)C(=O)N[C@H](C(O)=O)CC(C)C XOWMDXHFSBCAKQ-SRVKXCTJSA-N 0.000 description 1
- AMSSKPUHBUQBOQ-SRVKXCTJSA-N Leu-Ser-Lys Chemical compound CC(C)C[C@@H](C(=O)N[C@@H](CO)C(=O)N[C@@H](CCCCN)C(=O)O)N AMSSKPUHBUQBOQ-SRVKXCTJSA-N 0.000 description 1
- GOFJOGXGMPHOGL-DCAQKATOSA-N Leu-Ser-Met Chemical compound CSCC[C@@H](C(O)=O)NC(=O)[C@H](CO)NC(=O)[C@@H](N)CC(C)C GOFJOGXGMPHOGL-DCAQKATOSA-N 0.000 description 1
- AEDWWMMHUGYIFD-HJGDQZAQSA-N Leu-Thr-Asn Chemical compound [H]N[C@@H](CC(C)C)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CC(N)=O)C(O)=O AEDWWMMHUGYIFD-HJGDQZAQSA-N 0.000 description 1
- QWWPYKKLXWOITQ-VOAKCMCISA-N Leu-Thr-Leu Chemical compound CC(C)C[C@H](N)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@H](C(O)=O)CC(C)C QWWPYKKLXWOITQ-VOAKCMCISA-N 0.000 description 1
- DAYQSYGBCUKVKT-VOAKCMCISA-N Leu-Thr-Lys Chemical compound CC(C)C[C@H](N)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CCCCN)C(O)=O DAYQSYGBCUKVKT-VOAKCMCISA-N 0.000 description 1
- VJGQRELPQWNURN-JYJNAYRXSA-N Leu-Tyr-Glu Chemical compound [H]N[C@@H](CC(C)C)C(=O)N[C@@H](CC1=CC=C(O)C=C1)C(=O)N[C@@H](CCC(O)=O)C(O)=O VJGQRELPQWNURN-JYJNAYRXSA-N 0.000 description 1
- YIRIDPUGZKHMHT-ACRUOGEOSA-N Leu-Tyr-Tyr Chemical compound [H]N[C@@H](CC(C)C)C(=O)N[C@@H](CC1=CC=C(O)C=C1)C(=O)N[C@@H](CC1=CC=C(O)C=C1)C(O)=O YIRIDPUGZKHMHT-ACRUOGEOSA-N 0.000 description 1
- FBNPMTNBFFAMMH-AVGNSLFASA-N Leu-Val-Arg Chemical compound CC(C)C[C@H](N)C(=O)N[C@@H](C(C)C)C(=O)N[C@H](C(O)=O)CCCN=C(N)N FBNPMTNBFFAMMH-AVGNSLFASA-N 0.000 description 1
- FBNPMTNBFFAMMH-UHFFFAOYSA-N Leu-Val-Arg Natural products CC(C)CC(N)C(=O)NC(C(C)C)C(=O)NC(C(O)=O)CCCN=C(N)N FBNPMTNBFFAMMH-UHFFFAOYSA-N 0.000 description 1
- AIMGJYMCTAABEN-GVXVVHGQSA-N Leu-Val-Glu Chemical compound [H]N[C@@H](CC(C)C)C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CCC(O)=O)C(O)=O AIMGJYMCTAABEN-GVXVVHGQSA-N 0.000 description 1
- YQFZRHYZLARWDY-IHRRRGAJSA-N Leu-Val-Lys Chemical compound CC(C)C[C@H](N)C(=O)N[C@@H](C(C)C)C(=O)N[C@H](C(O)=O)CCCCN YQFZRHYZLARWDY-IHRRRGAJSA-N 0.000 description 1
- ROHFNLRQFUQHCH-UHFFFAOYSA-N Leucine Natural products CC(C)CC(N)C(O)=O ROHFNLRQFUQHCH-UHFFFAOYSA-N 0.000 description 1
- 241000192130 Leuconostoc mesenteroides Species 0.000 description 1
- 241000007096 Leucosporidium fragarium Species 0.000 description 1
- 241000186805 Listeria innocua Species 0.000 description 1
- 241000186779 Listeria monocytogenes Species 0.000 description 1
- 241001024517 Loktanella vestfoldensis Species 0.000 description 1
- 108060001084 Luciferase Proteins 0.000 description 1
- 239000005089 Luciferase Substances 0.000 description 1
- 235000007688 Lycopersicon esculentum Nutrition 0.000 description 1
- 208000016604 Lyme disease Diseases 0.000 description 1
- MPGHETGWWWUHPY-CIUDSAMLSA-N Lys-Ala-Asp Chemical compound OC(=O)C[C@@H](C(O)=O)NC(=O)[C@H](C)NC(=O)[C@@H](N)CCCCN MPGHETGWWWUHPY-CIUDSAMLSA-N 0.000 description 1
- XFIHDSBIPWEYJJ-YUMQZZPRSA-N Lys-Ala-Gly Chemical compound OC(=O)CNC(=O)[C@H](C)NC(=O)[C@@H](N)CCCCN XFIHDSBIPWEYJJ-YUMQZZPRSA-N 0.000 description 1
- NFLFJGGKOHYZJF-BJDJZHNGSA-N Lys-Ala-Ile Chemical compound CC[C@H](C)[C@@H](C(O)=O)NC(=O)[C@H](C)NC(=O)[C@@H](N)CCCCN NFLFJGGKOHYZJF-BJDJZHNGSA-N 0.000 description 1
- IXHKPDJKKCUKHS-GARJFASQSA-N Lys-Ala-Pro Chemical compound C[C@@H](C(=O)N1CCC[C@@H]1C(=O)O)NC(=O)[C@H](CCCCN)N IXHKPDJKKCUKHS-GARJFASQSA-N 0.000 description 1
- SWWCDAGDQHTKIE-RHYQMDGZSA-N Lys-Arg-Thr Chemical compound [H]N[C@@H](CCCCN)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H]([C@@H](C)O)C(O)=O SWWCDAGDQHTKIE-RHYQMDGZSA-N 0.000 description 1
- DGWXCIORNLWGGG-CIUDSAMLSA-N Lys-Asn-Ser Chemical compound [H]N[C@@H](CCCCN)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CO)C(O)=O DGWXCIORNLWGGG-CIUDSAMLSA-N 0.000 description 1
- IWWMPCPLFXFBAF-SRVKXCTJSA-N Lys-Asp-Leu Chemical compound [H]N[C@@H](CCCCN)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](CC(C)C)C(O)=O IWWMPCPLFXFBAF-SRVKXCTJSA-N 0.000 description 1
- LMVOVCYVZBBWQB-SRVKXCTJSA-N Lys-Asp-Lys Chemical compound NCCCC[C@H](N)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@H](C(O)=O)CCCCN LMVOVCYVZBBWQB-SRVKXCTJSA-N 0.000 description 1
- PHHYNOUOUWYQRO-XIRDDKMYSA-N Lys-Asp-Trp Chemical compound C1=CC=C2C(=C1)C(=CN2)C[C@@H](C(=O)O)NC(=O)[C@H](CC(=O)O)NC(=O)[C@H](CCCCN)N PHHYNOUOUWYQRO-XIRDDKMYSA-N 0.000 description 1
- WTZUSCUIVPVCRH-SRVKXCTJSA-N Lys-Gln-Arg Chemical compound NCCCC[C@H](N)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@H](C(O)=O)CCCN=C(N)N WTZUSCUIVPVCRH-SRVKXCTJSA-N 0.000 description 1
- NNCDAORZCMPZPX-GUBZILKMSA-N Lys-Gln-Ser Chemical compound C(CCN)C[C@@H](C(=O)N[C@@H](CCC(=O)N)C(=O)N[C@@H](CO)C(=O)O)N NNCDAORZCMPZPX-GUBZILKMSA-N 0.000 description 1
- LLSUNJYOSCOOEB-GUBZILKMSA-N Lys-Glu-Asp Chemical compound NCCCC[C@H](N)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CC(O)=O)C(O)=O LLSUNJYOSCOOEB-GUBZILKMSA-N 0.000 description 1
- KZOHPCYVORJBLG-AVGNSLFASA-N Lys-Glu-His Chemical compound C1=C(NC=N1)C[C@@H](C(=O)O)NC(=O)[C@H](CCC(=O)O)NC(=O)[C@H](CCCCN)N KZOHPCYVORJBLG-AVGNSLFASA-N 0.000 description 1
- QZONCCHVHCOBSK-YUMQZZPRSA-N Lys-Gly-Asn Chemical compound [H]N[C@@H](CCCCN)C(=O)NCC(=O)N[C@@H](CC(N)=O)C(O)=O QZONCCHVHCOBSK-YUMQZZPRSA-N 0.000 description 1
- XNKDCYABMBBEKN-IUCAKERBSA-N Lys-Gly-Gln Chemical compound NCCCC[C@H](N)C(=O)NCC(=O)N[C@H](C(O)=O)CCC(N)=O XNKDCYABMBBEKN-IUCAKERBSA-N 0.000 description 1
- FHIAJWBDZVHLAH-YUMQZZPRSA-N Lys-Gly-Ser Chemical compound NCCCC[C@H](N)C(=O)NCC(=O)N[C@@H](CO)C(O)=O FHIAJWBDZVHLAH-YUMQZZPRSA-N 0.000 description 1
- SPCHLZUWJTYZFC-IHRRRGAJSA-N Lys-His-Val Chemical compound [H]N[C@@H](CCCCN)C(=O)N[C@@H](CC1=CNC=N1)C(=O)N[C@@H](C(C)C)C(O)=O SPCHLZUWJTYZFC-IHRRRGAJSA-N 0.000 description 1
- QBEPTBMRQALPEV-MNXVOIDGSA-N Lys-Ile-Glu Chemical compound OC(=O)CC[C@@H](C(O)=O)NC(=O)[C@H]([C@@H](C)CC)NC(=O)[C@@H](N)CCCCN QBEPTBMRQALPEV-MNXVOIDGSA-N 0.000 description 1
- JYXBNQOKPRQNQS-YTFOTSKYSA-N Lys-Ile-Ile Chemical compound [H]N[C@@H](CCCCN)C(=O)N[C@@H]([C@@H](C)CC)C(=O)N[C@@H]([C@@H](C)CC)C(O)=O JYXBNQOKPRQNQS-YTFOTSKYSA-N 0.000 description 1
- ZXFRGTAIIZHNHG-AJNGGQMLSA-N Lys-Ile-Leu Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H](CC(C)C)C(=O)O)NC(=O)[C@H](CCCCN)N ZXFRGTAIIZHNHG-AJNGGQMLSA-N 0.000 description 1
- ONPDTSFZAIWMDI-AVGNSLFASA-N Lys-Leu-Gln Chemical compound [H]N[C@@H](CCCCN)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCC(N)=O)C(O)=O ONPDTSFZAIWMDI-AVGNSLFASA-N 0.000 description 1
- SKRGVGLIRUGANF-AVGNSLFASA-N Lys-Leu-Glu Chemical compound [H]N[C@@H](CCCCN)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCC(O)=O)C(O)=O SKRGVGLIRUGANF-AVGNSLFASA-N 0.000 description 1
- XIZQPFCRXLUNMK-BZSNNMDCSA-N Lys-Leu-Phe Chemical compound CC(C)C[C@@H](C(=O)N[C@@H](CC1=CC=CC=C1)C(=O)O)NC(=O)[C@H](CCCCN)N XIZQPFCRXLUNMK-BZSNNMDCSA-N 0.000 description 1
- VUTWYNQUSJWBHO-BZSNNMDCSA-N Lys-Leu-Tyr Chemical compound [H]N[C@@H](CCCCN)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CC1=CC=C(O)C=C1)C(O)=O VUTWYNQUSJWBHO-BZSNNMDCSA-N 0.000 description 1
- XOQMURBBIXRRCR-SRVKXCTJSA-N Lys-Lys-Ala Chemical compound OC(=O)[C@H](C)NC(=O)[C@H](CCCCN)NC(=O)[C@@H](N)CCCCN XOQMURBBIXRRCR-SRVKXCTJSA-N 0.000 description 1
- GAHJXEMYXKLZRQ-AJNGGQMLSA-N Lys-Lys-Ile Chemical compound [H]N[C@@H](CCCCN)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H]([C@@H](C)CC)C(O)=O GAHJXEMYXKLZRQ-AJNGGQMLSA-N 0.000 description 1
- HVAUKHLDSDDROB-KKUMJFAQSA-N Lys-Lys-Leu Chemical compound [H]N[C@@H](CCCCN)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CC(C)C)C(O)=O HVAUKHLDSDDROB-KKUMJFAQSA-N 0.000 description 1
- KJIXWRWPOCKYLD-IHRRRGAJSA-N Lys-Lys-Met Chemical compound CSCC[C@@H](C(=O)O)NC(=O)[C@H](CCCCN)NC(=O)[C@H](CCCCN)N KJIXWRWPOCKYLD-IHRRRGAJSA-N 0.000 description 1
- PLDJDCJLRCYPJB-VOAKCMCISA-N Lys-Lys-Thr Chemical compound [H]N[C@@H](CCCCN)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H]([C@@H](C)O)C(O)=O PLDJDCJLRCYPJB-VOAKCMCISA-N 0.000 description 1
- BXPHMHQHYHILBB-BZSNNMDCSA-N Lys-Lys-Tyr Chemical compound [H]N[C@@H](CCCCN)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CC1=CC=C(O)C=C1)C(O)=O BXPHMHQHYHILBB-BZSNNMDCSA-N 0.000 description 1
- QBHGXFQJFPWJIH-XUXIUFHCSA-N Lys-Pro-Ile Chemical compound CC[C@H](C)[C@@H](C(O)=O)NC(=O)[C@@H]1CCCN1C(=O)[C@@H](N)CCCCN QBHGXFQJFPWJIH-XUXIUFHCSA-N 0.000 description 1
- WQDKIVRHTQYJSN-DCAQKATOSA-N Lys-Ser-Arg Chemical compound C(CCN)C[C@@H](C(=O)N[C@@H](CO)C(=O)N[C@@H](CCCN=C(N)N)C(=O)O)N WQDKIVRHTQYJSN-DCAQKATOSA-N 0.000 description 1
- GHKXHCMRAUYLBS-CIUDSAMLSA-N Lys-Ser-Asn Chemical compound [H]N[C@@H](CCCCN)C(=O)N[C@@H](CO)C(=O)N[C@@H](CC(N)=O)C(O)=O GHKXHCMRAUYLBS-CIUDSAMLSA-N 0.000 description 1
- YFQSSOAGMZGXFT-MEYUZBJRSA-N Lys-Thr-Tyr Chemical compound [H]N[C@@H](CCCCN)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CC1=CC=C(O)C=C1)C(O)=O YFQSSOAGMZGXFT-MEYUZBJRSA-N 0.000 description 1
- IEIHKHYMBIYQTH-YESZJQIVSA-N Lys-Tyr-Pro Chemical compound C1C[C@@H](N(C1)C(=O)[C@H](CC2=CC=C(C=C2)O)NC(=O)[C@H](CCCCN)N)C(=O)O IEIHKHYMBIYQTH-YESZJQIVSA-N 0.000 description 1
- SQRLLZAQNOQCEG-KKUMJFAQSA-N Lys-Tyr-Ser Chemical compound NCCCC[C@H](N)C(=O)N[C@H](C(=O)N[C@@H](CO)C(O)=O)CC1=CC=C(O)C=C1 SQRLLZAQNOQCEG-KKUMJFAQSA-N 0.000 description 1
- VVURYEVJJTXWNE-ULQDDVLXSA-N Lys-Tyr-Val Chemical compound [H]N[C@@H](CCCCN)C(=O)N[C@@H](CC1=CC=C(O)C=C1)C(=O)N[C@@H](C(C)C)C(O)=O VVURYEVJJTXWNE-ULQDDVLXSA-N 0.000 description 1
- RPWQJSBMXJSCPD-XUXIUFHCSA-N Lys-Val-Ile Chemical compound CC[C@H](C)[C@H](NC(=O)[C@@H](NC(=O)[C@@H](N)CCCCN)C(C)C)C(O)=O RPWQJSBMXJSCPD-XUXIUFHCSA-N 0.000 description 1
- NYTDJEZBAAFLLG-IHRRRGAJSA-N Lys-Val-Lys Chemical compound NCCCC[C@H](N)C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CCCCN)C(O)=O NYTDJEZBAAFLLG-IHRRRGAJSA-N 0.000 description 1
- OZVXDDFYCQOPFD-XQQFMLRXSA-N Lys-Val-Pro Chemical compound CC(C)[C@@H](C(=O)N1CCC[C@@H]1C(=O)O)NC(=O)[C@H](CCCCN)N OZVXDDFYCQOPFD-XQQFMLRXSA-N 0.000 description 1
- RIPJMCFGQHGHNP-RHYQMDGZSA-N Lys-Val-Thr Chemical compound C[C@H]([C@@H](C(=O)O)NC(=O)[C@H](C(C)C)NC(=O)[C@H](CCCCN)N)O RIPJMCFGQHGHNP-RHYQMDGZSA-N 0.000 description 1
- 101710097496 Lysophospholipid acyltransferase Proteins 0.000 description 1
- 102100038805 Lysophospholipid acyltransferase 2 Human genes 0.000 description 1
- 101710163746 Lysophospholipid acyltransferase 2 Proteins 0.000 description 1
- 101710163717 Lysophospholipid acyltransferase 5 Proteins 0.000 description 1
- 241000282553 Macaca Species 0.000 description 1
- 241000218922 Magnoliophyta Species 0.000 description 1
- 101000763602 Manilkara zapota Thaumatin-like protein 1 Proteins 0.000 description 1
- 101000763586 Manilkara zapota Thaumatin-like protein 1a Proteins 0.000 description 1
- 241001565331 Margarodes Species 0.000 description 1
- 108091027974 Mature messenger RNA Proteins 0.000 description 1
- 102100025169 Max-binding protein MNT Human genes 0.000 description 1
- 240000009036 Medeola virginiana Species 0.000 description 1
- 235000010624 Medicago sativa Nutrition 0.000 description 1
- 241000604449 Megasphaera Species 0.000 description 1
- 244000307657 Melica smithii Species 0.000 description 1
- 108010052285 Membrane Proteins Proteins 0.000 description 1
- 102000018697 Membrane Proteins Human genes 0.000 description 1
- 241000619533 Mesonia Species 0.000 description 1
- QAHFGYLFLVGBNW-DCAQKATOSA-N Met-Ala-Lys Chemical compound CSCC[C@H](N)C(=O)N[C@@H](C)C(=O)N[C@H](C(O)=O)CCCCN QAHFGYLFLVGBNW-DCAQKATOSA-N 0.000 description 1
- WGBMNLCRYKSWAR-DCAQKATOSA-N Met-Asp-Lys Chemical compound CSCC[C@H](N)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@H](C(O)=O)CCCCN WGBMNLCRYKSWAR-DCAQKATOSA-N 0.000 description 1
- FZUNSVYYPYJYAP-NAKRPEOUSA-N Met-Ile-Ala Chemical compound [H]N[C@@H](CCSC)C(=O)N[C@@H]([C@@H](C)CC)C(=O)N[C@@H](C)C(O)=O FZUNSVYYPYJYAP-NAKRPEOUSA-N 0.000 description 1
- QGRJTULYDZUBAY-ZPFDUUQYSA-N Met-Ile-Glu Chemical compound [H]N[C@@H](CCSC)C(=O)N[C@@H]([C@@H](C)CC)C(=O)N[C@@H](CCC(O)=O)C(O)=O QGRJTULYDZUBAY-ZPFDUUQYSA-N 0.000 description 1
- AFFKUNVPPLQUGA-DCAQKATOSA-N Met-Leu-Ala Chemical compound [H]N[C@@H](CCSC)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](C)C(O)=O AFFKUNVPPLQUGA-DCAQKATOSA-N 0.000 description 1
- BEZJTLKUMFMITF-AVGNSLFASA-N Met-Lys-Arg Chemical compound CSCC[C@H](N)C(=O)N[C@@H](CCCCN)C(=O)N[C@H](C(O)=O)CCCNC(N)=N BEZJTLKUMFMITF-AVGNSLFASA-N 0.000 description 1
- KSIPKXNIQOWMIC-RCWTZXSCSA-N Met-Thr-Arg Chemical compound CSCC[C@H](N)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@H](C(O)=O)CCCNC(N)=N KSIPKXNIQOWMIC-RCWTZXSCSA-N 0.000 description 1
- 241000134732 Metallosphaera Species 0.000 description 1
- 241000157876 Metallosphaera sedula Species 0.000 description 1
- 241000202987 Methanobrevibacter Species 0.000 description 1
- 241001486996 Methanocaldococcus Species 0.000 description 1
- 241000203407 Methanocaldococcus jannaschii Species 0.000 description 1
- 241001529871 Methanococcus maripaludis Species 0.000 description 1
- 241000204675 Methanopyrus Species 0.000 description 1
- 241000205276 Methanosarcina Species 0.000 description 1
- 241000204677 Methanosphaera Species 0.000 description 1
- 241000204676 Methanosphaera stadtmanae Species 0.000 description 1
- 241001302035 Methanothermobacter Species 0.000 description 1
- 241001302042 Methanothermobacter thermautotrophicus Species 0.000 description 1
- 241000203382 Methanothermococcus thermolithotrophicus Species 0.000 description 1
- 241000589345 Methylococcus Species 0.000 description 1
- 241000645872 Methylococcus mobilis Species 0.000 description 1
- 241000937897 Meyerozyma caribbica Species 0.000 description 1
- 241000235048 Meyerozyma guilliermondii Species 0.000 description 1
- 241000192041 Micrococcus Species 0.000 description 1
- 241000643940 Microsporomyces magnisporus Species 0.000 description 1
- 241001506030 Microstroma bacarum Species 0.000 description 1
- 241000203736 Mobiluncus Species 0.000 description 1
- 241000237852 Mollusca Species 0.000 description 1
- 241000588621 Moraxella Species 0.000 description 1
- 241000588771 Morganella <proteobacterium> Species 0.000 description 1
- 241000235575 Mortierella Species 0.000 description 1
- 241000907999 Mortierella alpina Species 0.000 description 1
- 241000133368 Mortierella marburgensis Species 0.000 description 1
- 241000235395 Mucor Species 0.000 description 1
- 241000306281 Mucor ambiguus Species 0.000 description 1
- 108010085220 Multiprotein Complexes Proteins 0.000 description 1
- 102000007474 Multiprotein Complexes Human genes 0.000 description 1
- 241000234295 Musa Species 0.000 description 1
- 101000966653 Musa acuminata Glucan endo-1,3-beta-glucosidase Proteins 0.000 description 1
- 240000005561 Musa balbisiana Species 0.000 description 1
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 1
- 241000226677 Myceliophthora Species 0.000 description 1
- 241000186362 Mycobacterium leprae Species 0.000 description 1
- 241001138504 Mycoplasma bovis Species 0.000 description 1
- 241000204048 Mycoplasma hominis Species 0.000 description 1
- WUGMRIBZSVSJNP-UHFFFAOYSA-N N-L-alanyl-L-tryptophan Natural products C1=CC=C2C(CC(NC(=O)C(N)C)C(O)=O)=CNC2=C1 WUGMRIBZSVSJNP-UHFFFAOYSA-N 0.000 description 1
- SITLTJHOQZFJGG-UHFFFAOYSA-N N-L-alpha-glutamyl-L-valine Natural products CC(C)C(C(O)=O)NC(=O)C(N)CCC(O)=O SITLTJHOQZFJGG-UHFFFAOYSA-N 0.000 description 1
- PESQCPHRXOFIPX-UHFFFAOYSA-N N-L-methionyl-L-tyrosine Natural products CSCCC(N)C(=O)NC(C(O)=O)CC1=CC=C(O)C=C1 PESQCPHRXOFIPX-UHFFFAOYSA-N 0.000 description 1
- XMBSYZWANAQXEV-UHFFFAOYSA-N N-alpha-L-glutamyl-L-phenylalanine Natural products OC(=O)CCC(N)C(=O)NC(C(O)=O)CC1=CC=CC=C1 XMBSYZWANAQXEV-UHFFFAOYSA-N 0.000 description 1
- 241000320465 Naganishia adeliensis Species 0.000 description 1
- 241000320467 Naganishia albidosimilis Species 0.000 description 1
- 241000033317 Naganishia antarctica Species 0.000 description 1
- 241000320469 Naganishia bhutanensis Species 0.000 description 1
- 241000196305 Nannochloris Species 0.000 description 1
- 241000224474 Nannochloropsis Species 0.000 description 1
- 241001437658 Nanoarchaeota Species 0.000 description 1
- 241001602876 Nata Species 0.000 description 1
- 241001123225 Naumovozyma castellii Species 0.000 description 1
- 241000588652 Neisseria gonorrhoeae Species 0.000 description 1
- 241000195644 Neochloris Species 0.000 description 1
- JAUOIFJMECXRGI-UHFFFAOYSA-N Neoclaritin Chemical compound C=1C(Cl)=CC=C2C=1CCC1=CC=CN=C1C2=C1CCNCC1 JAUOIFJMECXRGI-UHFFFAOYSA-N 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 241000221960 Neurospora Species 0.000 description 1
- 241000221961 Neurospora crassa Species 0.000 description 1
- 241000633396 Nidirana lini Species 0.000 description 1
- 241000605122 Nitrosomonas Species 0.000 description 1
- 241000402149 Nitrosopumilus Species 0.000 description 1
- 241000402148 Nitrosopumilus maritimus Species 0.000 description 1
- 241000180701 Nitzschia <flatworm> Species 0.000 description 1
- 108020004711 Nucleic Acid Probes Proteins 0.000 description 1
- 241001253116 Oberwinklerozyma straminea Species 0.000 description 1
- 241001514650 Oberwinklerozyma yarrowii Species 0.000 description 1
- 241001452677 Ogataea methanolica Species 0.000 description 1
- 239000005642 Oleic acid Substances 0.000 description 1
- ZQPPMHVWECSIRJ-UHFFFAOYSA-N Oleic acid Natural products CCCCCCCCC=CCCCCCCCC(O)=O ZQPPMHVWECSIRJ-UHFFFAOYSA-N 0.000 description 1
- 241000293010 Oligella Species 0.000 description 1
- 241000169855 Olivibacter Species 0.000 description 1
- 241000170398 Olivibacter sitiensis Species 0.000 description 1
- 241000927544 Olsenella Species 0.000 description 1
- 241000990071 Olsenella profusa Species 0.000 description 1
- 241000238814 Orthoptera Species 0.000 description 1
- 241000283973 Oryctolagus cuniculus Species 0.000 description 1
- 238000012408 PCR amplification Methods 0.000 description 1
- 241000235652 Pachysolen Species 0.000 description 1
- 241000235647 Pachysolen tannophilus Species 0.000 description 1
- 241000206755 Palmaria Species 0.000 description 1
- 241000222051 Papiliotrema laurentii Species 0.000 description 1
- 241000223785 Paramecium Species 0.000 description 1
- 240000000968 Parkia biglobosa Species 0.000 description 1
- 241000606601 Pasteurella bettyae Species 0.000 description 1
- 241000446292 Pediococcus pentosaceus SL4 Species 0.000 description 1
- 241000228143 Penicillium Species 0.000 description 1
- 241000985541 Penicillium bilaiae Species 0.000 description 1
- 244000271379 Penicillium camembertii Species 0.000 description 1
- 241000228150 Penicillium chrysogenum Species 0.000 description 1
- 241001123663 Penicillium expansum Species 0.000 description 1
- 240000000064 Penicillium roqueforti Species 0.000 description 1
- 241000864266 Penicillium verrucosum Species 0.000 description 1
- 241000864371 Penicillium viridicatum Species 0.000 description 1
- 241000206591 Peptococcus Species 0.000 description 1
- 241001112692 Peptostreptococcaceae Species 0.000 description 1
- 241000191992 Peptostreptococcus Species 0.000 description 1
- 241000009328 Perro Species 0.000 description 1
- 241000206731 Phaeodactylum Species 0.000 description 1
- 241000206744 Phaeodactylum tricornutum Species 0.000 description 1
- 241001542817 Phaffia Species 0.000 description 1
- 241000081271 Phaffia rhodozyma Species 0.000 description 1
- CGOMLCQJEMWMCE-STQMWFEESA-N Phe-Arg-Gly Chemical compound NC(N)=NCCC[C@@H](C(=O)NCC(O)=O)NC(=O)[C@@H](N)CC1=CC=CC=C1 CGOMLCQJEMWMCE-STQMWFEESA-N 0.000 description 1
- WMGVYPPIMZPWPN-SRVKXCTJSA-N Phe-Asp-Asn Chemical compound C1=CC=C(C=C1)C[C@@H](C(=O)N[C@@H](CC(=O)O)C(=O)N[C@@H](CC(=O)N)C(=O)O)N WMGVYPPIMZPWPN-SRVKXCTJSA-N 0.000 description 1
- SWZKMTDPQXLQRD-XVSYOHENSA-N Phe-Asp-Thr Chemical compound [H]N[C@@H](CC1=CC=CC=C1)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H]([C@@H](C)O)C(O)=O SWZKMTDPQXLQRD-XVSYOHENSA-N 0.000 description 1
- GDBOREPXIRKSEQ-FHWLQOOXSA-N Phe-Gln-Phe Chemical compound [H]N[C@@H](CC1=CC=CC=C1)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC1=CC=CC=C1)C(O)=O GDBOREPXIRKSEQ-FHWLQOOXSA-N 0.000 description 1
- KYYMILWEGJYPQZ-IHRRRGAJSA-N Phe-Glu-Glu Chemical compound OC(=O)CC[C@@H](C(O)=O)NC(=O)[C@H](CCC(O)=O)NC(=O)[C@@H](N)CC1=CC=CC=C1 KYYMILWEGJYPQZ-IHRRRGAJSA-N 0.000 description 1
- KJJROSNFBRWPHS-JYJNAYRXSA-N Phe-Glu-Leu Chemical compound [H]N[C@@H](CC1=CC=CC=C1)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CC(C)C)C(O)=O KJJROSNFBRWPHS-JYJNAYRXSA-N 0.000 description 1
- PSKRILMFHNIUAO-JYJNAYRXSA-N Phe-Glu-Lys Chemical compound C1=CC=C(C=C1)C[C@@H](C(=O)N[C@@H](CCC(=O)O)C(=O)N[C@@H](CCCCN)C(=O)O)N PSKRILMFHNIUAO-JYJNAYRXSA-N 0.000 description 1
- WPTYDQPGBMDUBI-QWRGUYRKSA-N Phe-Gly-Asn Chemical compound N[C@@H](Cc1ccccc1)C(=O)NCC(=O)N[C@@H](CC(N)=O)C(O)=O WPTYDQPGBMDUBI-QWRGUYRKSA-N 0.000 description 1
- KRYSMKKRRRWOCZ-QEWYBTABSA-N Phe-Ile-Glu Chemical compound [H]N[C@@H](CC1=CC=CC=C1)C(=O)N[C@@H]([C@@H](C)CC)C(=O)N[C@@H](CCC(O)=O)C(O)=O KRYSMKKRRRWOCZ-QEWYBTABSA-N 0.000 description 1
- LRBSWBVUCLLRLU-BZSNNMDCSA-N Phe-Leu-Lys Chemical compound CC(C)C[C@H](NC(=O)[C@@H](N)Cc1ccccc1)C(=O)N[C@@H](CCCCN)C(O)=O LRBSWBVUCLLRLU-BZSNNMDCSA-N 0.000 description 1
- BSHMIVKDJQGLNT-ACRUOGEOSA-N Phe-Lys-Tyr Chemical compound C([C@H](N)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CC=1C=CC(O)=CC=1)C(O)=O)C1=CC=CC=C1 BSHMIVKDJQGLNT-ACRUOGEOSA-N 0.000 description 1
- TXJJXEXCZBHDNA-ACRUOGEOSA-N Phe-Phe-His Chemical compound C1=CC=C(C=C1)C[C@@H](C(=O)N[C@@H](CC2=CC=CC=C2)C(=O)N[C@@H](CC3=CN=CN3)C(=O)O)N TXJJXEXCZBHDNA-ACRUOGEOSA-N 0.000 description 1
- RBRNEFJTEHPDSL-ACRUOGEOSA-N Phe-Phe-Lys Chemical compound C([C@@H](C(=O)N[C@@H](CCCCN)C(O)=O)NC(=O)[C@@H](N)CC=1C=CC=CC=1)C1=CC=CC=C1 RBRNEFJTEHPDSL-ACRUOGEOSA-N 0.000 description 1
- DBNGDEAQXGFGRA-ACRUOGEOSA-N Phe-Tyr-Lys Chemical compound C1=CC=C(C=C1)C[C@@H](C(=O)N[C@@H](CC2=CC=C(C=C2)O)C(=O)N[C@@H](CCCCN)C(=O)O)N DBNGDEAQXGFGRA-ACRUOGEOSA-N 0.000 description 1
- 241001039412 Phenoliferia glacialis Species 0.000 description 1
- 241001039409 Phenoliferia psychrophenolica Species 0.000 description 1
- 241001039406 Phenoliferia psychrophila Species 0.000 description 1
- 102000045595 Phosphoprotein Phosphatases Human genes 0.000 description 1
- 108700019535 Phosphoprotein Phosphatases Proteins 0.000 description 1
- 102000004160 Phosphoric Monoester Hydrolases Human genes 0.000 description 1
- 108090000608 Phosphoric Monoester Hydrolases Proteins 0.000 description 1
- 108091000080 Phosphotransferase Proteins 0.000 description 1
- 241001440127 Phyllodes Species 0.000 description 1
- 241000973031 Phyllozyma coprosmicola Species 0.000 description 1
- 241000576877 Phyllozyma corallina Species 0.000 description 1
- 241000973033 Phyllozyma dimmennae Species 0.000 description 1
- 241000576876 Phyllozyma producta Species 0.000 description 1
- 241000222026 Phyllozyma subbrunnea Species 0.000 description 1
- 241000224485 Physarum Species 0.000 description 1
- 241000235645 Pichia kudriavzevii Species 0.000 description 1
- 241000204826 Picrophilus Species 0.000 description 1
- 241000235379 Piromyces Species 0.000 description 1
- 241000193804 Planococcus <bacterium> Species 0.000 description 1
- 241000018149 Platyophrya Species 0.000 description 1
- 241000722208 Pleurochrysis Species 0.000 description 1
- 244000298647 Poinciana pulcherrima Species 0.000 description 1
- 208000020584 Polyploidy Diseases 0.000 description 1
- 241000206609 Porphyra Species 0.000 description 1
- 241000206618 Porphyridium Species 0.000 description 1
- 241000134844 Porphyromonas catoniae Species 0.000 description 1
- DZZCICYRSZASNF-FXQIFTODSA-N Pro-Ala-Ala Chemical compound OC(=O)[C@H](C)NC(=O)[C@H](C)NC(=O)[C@@H]1CCCN1 DZZCICYRSZASNF-FXQIFTODSA-N 0.000 description 1
- OBVCYFIHIIYIQF-CIUDSAMLSA-N Pro-Asn-Glu Chemical compound [H]N1CCC[C@H]1C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CCC(O)=O)C(O)=O OBVCYFIHIIYIQF-CIUDSAMLSA-N 0.000 description 1
- VOHFZDSRPZLXLH-IHRRRGAJSA-N Pro-Asn-Phe Chemical compound [H]N1CCC[C@H]1C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CC1=CC=CC=C1)C(O)=O VOHFZDSRPZLXLH-IHRRRGAJSA-N 0.000 description 1
- UAYHMOIGIQZLFR-NHCYSSNCSA-N Pro-Gln-Val Chemical compound [H]N1CCC[C@H]1C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](C(C)C)C(O)=O UAYHMOIGIQZLFR-NHCYSSNCSA-N 0.000 description 1
- KIPIKSXPPLABPN-CIUDSAMLSA-N Pro-Glu-Asn Chemical compound NC(=O)C[C@@H](C(O)=O)NC(=O)[C@H](CCC(O)=O)NC(=O)[C@@H]1CCCN1 KIPIKSXPPLABPN-CIUDSAMLSA-N 0.000 description 1
- MGDFPGCFVJFITQ-CIUDSAMLSA-N Pro-Glu-Asp Chemical compound [H]N1CCC[C@H]1C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CC(O)=O)C(O)=O MGDFPGCFVJFITQ-CIUDSAMLSA-N 0.000 description 1
- VOZIBWWZSBIXQN-SRVKXCTJSA-N Pro-Glu-Lys Chemical compound NCCCC[C@H](NC(=O)[C@H](CCC(O)=O)NC(=O)[C@@H]1CCCN1)C(O)=O VOZIBWWZSBIXQN-SRVKXCTJSA-N 0.000 description 1
- VZKBJNBZMZHKRC-XUXIUFHCSA-N Pro-Ile-Leu Chemical compound [H]N1CCC[C@H]1C(=O)N[C@@H]([C@@H](C)CC)C(=O)N[C@@H](CC(C)C)C(O)=O VZKBJNBZMZHKRC-XUXIUFHCSA-N 0.000 description 1
- CDGABSWLRMECHC-IHRRRGAJSA-N Pro-Lys-His Chemical compound C1C[C@H](NC1)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CC2=CN=CN2)C(=O)O CDGABSWLRMECHC-IHRRRGAJSA-N 0.000 description 1
- FNGOXVQBBCMFKV-CIUDSAMLSA-N Pro-Ser-Glu Chemical compound [H]N1CCC[C@H]1C(=O)N[C@@H](CO)C(=O)N[C@@H](CCC(O)=O)C(O)=O FNGOXVQBBCMFKV-CIUDSAMLSA-N 0.000 description 1
- QDDJNKWPTJHROJ-UFYCRDLUSA-N Pro-Tyr-Tyr Chemical compound C([C@@H](C(=O)O)NC(=O)[C@H](CC=1C=CC(O)=CC=1)NC(=O)[C@H]1NCCC1)C1=CC=C(O)C=C1 QDDJNKWPTJHROJ-UFYCRDLUSA-N 0.000 description 1
- 241000186429 Propionibacterium Species 0.000 description 1
- 102000001253 Protein Kinase Human genes 0.000 description 1
- 241000588769 Proteus <enterobacteria> Species 0.000 description 1
- 241000588768 Providencia Species 0.000 description 1
- 241001491893 Pseudocohnilembus Species 0.000 description 1
- 241001514713 Pseudohyphozyma bogoriensis Species 0.000 description 1
- 241001514696 Pseudohyphozyma buffonii Species 0.000 description 1
- 241001514653 Pseudohyphozyma pustula Species 0.000 description 1
- 241001256940 Psychroflexus torquis ATCC 700755 Species 0.000 description 1
- 241000205226 Pyrobaculum Species 0.000 description 1
- 241000205160 Pyrococcus Species 0.000 description 1
- 241000233639 Pythium Species 0.000 description 1
- 108010003201 RGH 0205 Proteins 0.000 description 1
- 108091034057 RNA (poly(A)) Proteins 0.000 description 1
- 102000009572 RNA Polymerase II Human genes 0.000 description 1
- 108010009460 RNA Polymerase II Proteins 0.000 description 1
- 102000014450 RNA Polymerase III Human genes 0.000 description 1
- 108010078067 RNA Polymerase III Proteins 0.000 description 1
- 108020005067 RNA Splice Sites Proteins 0.000 description 1
- 230000007022 RNA scission Effects 0.000 description 1
- 230000004570 RNA-binding Effects 0.000 description 1
- 108010092799 RNA-directed DNA polymerase Proteins 0.000 description 1
- 238000011529 RT qPCR Methods 0.000 description 1
- 241001049678 Radula acuta Species 0.000 description 1
- 241000462528 Radula plicata Species 0.000 description 1
- 241001016827 Ramalina polymorpha Species 0.000 description 1
- 241000173888 Ramaria gelatinosa Species 0.000 description 1
- 241000176414 Ramaria rubella Species 0.000 description 1
- 244000286177 Raphanus raphanistrum Species 0.000 description 1
- 241000700159 Rattus Species 0.000 description 1
- 101000912235 Rebecca salina Acyl-lipid (7-3)-desaturase Proteins 0.000 description 1
- 108091081062 Repeated sequence (DNA) Proteins 0.000 description 1
- 244000156455 Rhamnus crocea Species 0.000 description 1
- 241000744964 Rhithrogena sartorii Species 0.000 description 1
- 240000008102 Rhizophora mucronata Species 0.000 description 1
- 240000005384 Rhizopus oryzae Species 0.000 description 1
- 241000316848 Rhodococcus <scale insect> Species 0.000 description 1
- 241001443678 Rhodotorula alborubescens Species 0.000 description 1
- 241000007095 Rhodotorula araucariae Species 0.000 description 1
- 241000281513 Rhodotorula evergladensis Species 0.000 description 1
- 241000223253 Rhodotorula glutinis Species 0.000 description 1
- 241000353112 Rhodotorula pacifica Species 0.000 description 1
- 241000353127 Rhodotorula sinensis Species 0.000 description 1
- 241000353152 Rhodotorula subericola Species 0.000 description 1
- 241001164049 Rhodotorula taiwanensis Species 0.000 description 1
- 241000300426 Rhombochlamys rosulata Species 0.000 description 1
- 240000003152 Rhus chinensis Species 0.000 description 1
- 241000487114 Rhynchospora nitens Species 0.000 description 1
- 108010000605 Ribosomal Proteins Proteins 0.000 description 1
- 102000002278 Ribosomal Proteins Human genes 0.000 description 1
- 108020004422 Riboswitch Proteins 0.000 description 1
- 241000606701 Rickettsia Species 0.000 description 1
- 241000283984 Rodentia Species 0.000 description 1
- 241001031156 Rohdea yunnanensis Species 0.000 description 1
- 244000052585 Rosa centifolia Species 0.000 description 1
- 239000006146 Roswell Park Memorial Institute medium Substances 0.000 description 1
- 241001149591 Roumegueriella rufula Species 0.000 description 1
- 241000507457 Ruellia simplex Species 0.000 description 1
- 241000698291 Rugosa Species 0.000 description 1
- 241000999170 Ruinenia clavata Species 0.000 description 1
- 241000973032 Ruinenia dracophylli Species 0.000 description 1
- 241000192031 Ruminococcus Species 0.000 description 1
- 241000316155 Russula americana Species 0.000 description 1
- 241000335939 Russula corallina Species 0.000 description 1
- 241000947571 Russula incarnata Species 0.000 description 1
- 241000864405 Russula rosacea Species 0.000 description 1
- 241001236830 Russula rutila Species 0.000 description 1
- 241000760167 Russula sanguinea Species 0.000 description 1
- 241000235072 Saccharomyces bayanus Species 0.000 description 1
- 241000877399 Saccharomyces chevalieri Species 0.000 description 1
- 241001063879 Saccharomyces eubayanus Species 0.000 description 1
- 241001123228 Saccharomyces paradoxus Species 0.000 description 1
- 241000209051 Saccharum Species 0.000 description 1
- 240000000111 Saccharum officinarum Species 0.000 description 1
- 235000007201 Saccharum officinarum Nutrition 0.000 description 1
- 241000281514 Sakaguchia cladiensis Species 0.000 description 1
- 241000353161 Sakaguchia meli Species 0.000 description 1
- 241001354013 Salmonella enterica subsp. enterica serovar Enteritidis Species 0.000 description 1
- 241000293871 Salmonella enterica subsp. enterica serovar Typhi Species 0.000 description 1
- 241000293869 Salmonella enterica subsp. enterica serovar Typhimurium Species 0.000 description 1
- 240000004860 Salvia occidentalis Species 0.000 description 1
- 241001514659 Sampaiozyma ingeniosa Species 0.000 description 1
- 241001514648 Sampaiozyma vanillica Species 0.000 description 1
- 241000195474 Sargassum Species 0.000 description 1
- 108020005543 Satellite RNA Proteins 0.000 description 1
- 241000195663 Scenedesmus Species 0.000 description 1
- 241000192263 Scheffersomyces shehatae Species 0.000 description 1
- 241000242678 Schistosoma Species 0.000 description 1
- 241000222480 Schizophyllum Species 0.000 description 1
- 241000025833 Schizosaccharomyces cryophilus Species 0.000 description 1
- 241000235350 Schizosaccharomyces octosporus Species 0.000 description 1
- 241000311088 Schwanniomyces Species 0.000 description 1
- 241001123231 Schwanniomyces capriottii Species 0.000 description 1
- 241001136647 Schwanniomyces etchellsii Species 0.000 description 1
- 241000235005 Schwanniomyces occidentalis var. occidentalis Species 0.000 description 1
- 241001123649 Schwanniomyces polymorphus Species 0.000 description 1
- 241001123654 Schwanniomyces pseudopolymorphus Species 0.000 description 1
- 241001123651 Schwanniomyces vanrijiae Species 0.000 description 1
- 241001123645 Schwanniomyces yamadae Species 0.000 description 1
- 241000223255 Scytalidium Species 0.000 description 1
- 241001479507 Senecio odorus Species 0.000 description 1
- BTKUIVBNGBFTTP-WHFBIAKZSA-N Ser-Ala-Gly Chemical compound [H]N[C@@H](CO)C(=O)N[C@@H](C)C(=O)NCC(O)=O BTKUIVBNGBFTTP-WHFBIAKZSA-N 0.000 description 1
- GXXTUIUYTWGPMV-FXQIFTODSA-N Ser-Arg-Ala Chemical compound [H]N[C@@H](CO)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](C)C(O)=O GXXTUIUYTWGPMV-FXQIFTODSA-N 0.000 description 1
- QFBNNYNWKYKVJO-DCAQKATOSA-N Ser-Arg-Lys Chemical compound NCCCC[C@@H](C(O)=O)NC(=O)[C@@H](NC(=O)[C@@H](N)CO)CCCN=C(N)N QFBNNYNWKYKVJO-DCAQKATOSA-N 0.000 description 1
- ZXLUWXWISXIFIX-ACZMJKKPSA-N Ser-Asn-Glu Chemical compound [H]N[C@@H](CO)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CCC(O)=O)C(O)=O ZXLUWXWISXIFIX-ACZMJKKPSA-N 0.000 description 1
- BNFVPSRLHHPQKS-WHFBIAKZSA-N Ser-Asp-Gly Chemical compound [H]N[C@@H](CO)C(=O)N[C@@H](CC(O)=O)C(=O)NCC(O)=O BNFVPSRLHHPQKS-WHFBIAKZSA-N 0.000 description 1
- OLIJLNWFEQEFDM-SRVKXCTJSA-N Ser-Asp-Phe Chemical compound OC[C@H](N)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@H](C(O)=O)CC1=CC=CC=C1 OLIJLNWFEQEFDM-SRVKXCTJSA-N 0.000 description 1
- OJPHFSOMBZKQKQ-GUBZILKMSA-N Ser-Gln-Leu Chemical compound CC(C)C[C@@H](C(O)=O)NC(=O)[C@H](CCC(N)=O)NC(=O)[C@@H](N)CO OJPHFSOMBZKQKQ-GUBZILKMSA-N 0.000 description 1
- LALNXSXEYFUUDD-GUBZILKMSA-N Ser-Glu-Leu Chemical compound [H]N[C@@H](CO)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CC(C)C)C(O)=O LALNXSXEYFUUDD-GUBZILKMSA-N 0.000 description 1
- DSGYZICNAMEJOC-AVGNSLFASA-N Ser-Glu-Phe Chemical compound [H]N[C@@H](CO)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CC1=CC=CC=C1)C(O)=O DSGYZICNAMEJOC-AVGNSLFASA-N 0.000 description 1
- SNVIOQXAHVORQM-WDSKDSINSA-N Ser-Gly-Gln Chemical compound [H]N[C@@H](CO)C(=O)NCC(=O)N[C@@H](CCC(N)=O)C(O)=O SNVIOQXAHVORQM-WDSKDSINSA-N 0.000 description 1
- WEQAYODCJHZSJZ-KKUMJFAQSA-N Ser-His-Tyr Chemical compound C([C@H](NC(=O)[C@H](CO)N)C(=O)N[C@@H](CC=1C=CC(O)=CC=1)C(O)=O)C1=CN=CN1 WEQAYODCJHZSJZ-KKUMJFAQSA-N 0.000 description 1
- JIPVNVNKXJLFJF-BJDJZHNGSA-N Ser-Ile-Lys Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H](CCCCN)C(=O)O)NC(=O)[C@H](CO)N JIPVNVNKXJLFJF-BJDJZHNGSA-N 0.000 description 1
- ZOPISOXXPQNOCO-SVSWQMSJSA-N Ser-Ile-Thr Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H]([C@@H](C)O)C(=O)O)NC(=O)[C@H](CO)N ZOPISOXXPQNOCO-SVSWQMSJSA-N 0.000 description 1
- MUJQWSAWLLRJCE-KATARQTJSA-N Ser-Leu-Thr Chemical compound [H]N[C@@H](CO)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H]([C@@H](C)O)C(O)=O MUJQWSAWLLRJCE-KATARQTJSA-N 0.000 description 1
- CRJZZXMAADSBBQ-SRVKXCTJSA-N Ser-Lys-Lys Chemical compound NCCCC[C@@H](C(O)=O)NC(=O)[C@H](CCCCN)NC(=O)[C@@H](N)CO CRJZZXMAADSBBQ-SRVKXCTJSA-N 0.000 description 1
- UPLYXVPQLJVWMM-KKUMJFAQSA-N Ser-Phe-Leu Chemical compound [H]N[C@@H](CO)C(=O)N[C@@H](CC1=CC=CC=C1)C(=O)N[C@@H](CC(C)C)C(O)=O UPLYXVPQLJVWMM-KKUMJFAQSA-N 0.000 description 1
- ADJDNJCSPNFFPI-FXQIFTODSA-N Ser-Pro-Ala Chemical compound OC(=O)[C@H](C)NC(=O)[C@@H]1CCCN1C(=O)[C@@H](N)CO ADJDNJCSPNFFPI-FXQIFTODSA-N 0.000 description 1
- FLONGDPORFIVQW-XGEHTFHBSA-N Ser-Pro-Thr Chemical compound C[C@@H](O)[C@@H](C(O)=O)NC(=O)[C@@H]1CCCN1C(=O)[C@@H](N)CO FLONGDPORFIVQW-XGEHTFHBSA-N 0.000 description 1
- WUXCHQZLUHBSDJ-LKXGYXEUSA-N Ser-Thr-Asp Chemical compound OC[C@H](N)C(=O)N[C@@H]([C@H](O)C)C(=O)N[C@@H](CC(O)=O)C(O)=O WUXCHQZLUHBSDJ-LKXGYXEUSA-N 0.000 description 1
- BEBVVQPDSHHWQL-NRPADANISA-N Ser-Val-Glu Chemical compound [H]N[C@@H](CO)C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CCC(O)=O)C(O)=O BEBVVQPDSHHWQL-NRPADANISA-N 0.000 description 1
- LGIMRDKGABDMBN-DCAQKATOSA-N Ser-Val-Lys Chemical compound CC(C)[C@@H](C(=O)N[C@@H](CCCCN)C(=O)O)NC(=O)[C@H](CO)N LGIMRDKGABDMBN-DCAQKATOSA-N 0.000 description 1
- 241000607720 Serratia Species 0.000 description 1
- 235000008515 Setaria glauca Nutrition 0.000 description 1
- 240000000961 Setaria parviflora Species 0.000 description 1
- 241000863430 Shewanella Species 0.000 description 1
- 241000607768 Shigella Species 0.000 description 1
- 241000607764 Shigella dysenteriae Species 0.000 description 1
- 101000877236 Siganus canaliculatus Acyl-CoA Delta-4 desaturase Proteins 0.000 description 1
- 108020004682 Single-Stranded DNA Proteins 0.000 description 1
- 241001514693 Slooffia cresolica Species 0.000 description 1
- 241001514652 Slooffia pilati Species 0.000 description 1
- 241000222027 Slooffia tsugae Species 0.000 description 1
- 235000002560 Solanum lycopersicum Nutrition 0.000 description 1
- 101000611441 Solanum lycopersicum Pathogenesis-related leaf protein 6 Proteins 0.000 description 1
- 241000033318 Solicoccozyma aeria Species 0.000 description 1
- 241001491954 Solicoccozyma phenolicus Species 0.000 description 1
- 241000123447 Solicoccozyma terreus Species 0.000 description 1
- 241000308515 Sphingomonas sanxanigenens DSM 19645 = NX02 Species 0.000 description 1
- 241001220764 Sphingomonas yunnanensis Species 0.000 description 1
- 241000605008 Spirillum Species 0.000 description 1
- 241000589970 Spirochaetales Species 0.000 description 1
- 241000202917 Spiroplasma Species 0.000 description 1
- 241000202907 Spiroplasma apis Species 0.000 description 1
- 241001606419 Spiroplasma syrphidicola Species 0.000 description 1
- 241000228391 Sporidiobolus pararoseus Species 0.000 description 1
- 241000222068 Sporobolomyces <Sporidiobolaceae> Species 0.000 description 1
- 241000335698 Sporobolomyces bannaensis Species 0.000 description 1
- 241000999173 Sporobolomyces beijingensis Species 0.000 description 1
- 241001074964 Sporobolomyces japonicus Species 0.000 description 1
- 241000228390 Sporobolomyces johnsonii Species 0.000 description 1
- 241000297588 Sporobolomyces koalae Species 0.000 description 1
- 241001609196 Sporobolomyces patagonicus Species 0.000 description 1
- 241001660858 Sporocytophaga myxococcoides Species 0.000 description 1
- 241000191963 Staphylococcus epidermidis Species 0.000 description 1
- 241000793759 Starmerella bacillaris Species 0.000 description 1
- 241001148696 Stichococcus Species 0.000 description 1
- 241001478878 Streptobacillus Species 0.000 description 1
- 241000193985 Streptococcus agalactiae Species 0.000 description 1
- 241001291896 Streptococcus constellatus Species 0.000 description 1
- 244000057717 Streptococcus lactis Species 0.000 description 1
- 241000194045 Streptococcus macacae Species 0.000 description 1
- 241000193998 Streptococcus pneumoniae Species 0.000 description 1
- 241001400864 Streptococcus pseudoporcinus Species 0.000 description 1
- 241000320123 Streptococcus pyogenes M1 GAS Species 0.000 description 1
- 241000194024 Streptococcus salivarius Species 0.000 description 1
- 244000144916 Streptopus roseus Species 0.000 description 1
- 229930006000 Sucrose Natural products 0.000 description 1
- CZMRCDWAGMRECN-UGDNZRGBSA-N Sucrose Chemical compound O[C@H]1[C@H](O)[C@@H](CO)O[C@@]1(CO)O[C@@H]1[C@H](O)[C@@H](O)[C@H](O)[C@@H](CO)O1 CZMRCDWAGMRECN-UGDNZRGBSA-N 0.000 description 1
- QAOWNCQODCNURD-UHFFFAOYSA-L Sulfate Chemical compound [O-]S([O-])(=O)=O QAOWNCQODCNURD-UHFFFAOYSA-L 0.000 description 1
- 241000205098 Sulfolobus acidocaldarius Species 0.000 description 1
- 241000205091 Sulfolobus solfataricus Species 0.000 description 1
- 229940100389 Sulfonylurea Drugs 0.000 description 1
- NINIDFKCEFEMDL-UHFFFAOYSA-N Sulfur Chemical compound [S] NINIDFKCEFEMDL-UHFFFAOYSA-N 0.000 description 1
- 241001037500 Sulfurospirillum sp. Species 0.000 description 1
- 241000282898 Sus scrofa Species 0.000 description 1
- 241000973030 Symmetrospora coprosmae Species 0.000 description 1
- 241001514658 Symmetrospora marina Species 0.000 description 1
- 241000999178 Symmetrospora symmetrica Species 0.000 description 1
- 241001136494 Talaromyces funiculosus Species 0.000 description 1
- 241001523006 Talaromyces marneffei Species 0.000 description 1
- 240000001449 Tephrosia candida Species 0.000 description 1
- 239000004098 Tetracycline Substances 0.000 description 1
- 241000223892 Tetrahymena Species 0.000 description 1
- 241000248384 Tetrahymena thermophila Species 0.000 description 1
- 241000196321 Tetraselmis Species 0.000 description 1
- 241001491691 Thalassiosira Species 0.000 description 1
- 241001491687 Thalassiosira pseudonana Species 0.000 description 1
- 241000170370 Thaumarchaeota Species 0.000 description 1
- 241000186339 Thermoanaerobacter Species 0.000 description 1
- 241000205188 Thermococcus Species 0.000 description 1
- 241000992452 Thermococcus alcaliphilus Species 0.000 description 1
- 241000205184 Thermococcus celer Species 0.000 description 1
- 241000531186 Thermococcus chitonophagus Species 0.000 description 1
- 241001127161 Thermococcus gammatolerans Species 0.000 description 1
- 241000204074 Thermococcus hydrothermalis Species 0.000 description 1
- 241001235254 Thermococcus kodakarensis Species 0.000 description 1
- 241000205180 Thermococcus litoralis Species 0.000 description 1
- 241000522612 Thermococcus peptonophilus Species 0.000 description 1
- 241000245949 Thermococcus profundus Species 0.000 description 1
- 241000246521 Thermococcus stetteri Species 0.000 description 1
- 241000204667 Thermoplasma Species 0.000 description 1
- 241001313536 Thermothelomyces thermophila Species 0.000 description 1
- 241000204652 Thermotoga Species 0.000 description 1
- 241000589596 Thermus Species 0.000 description 1
- 241001494489 Thielavia Species 0.000 description 1
- FQPQPTHMHZKGFM-XQXXSGGOSA-N Thr-Ala-Glu Chemical compound [H]N[C@@H]([C@@H](C)O)C(=O)N[C@@H](C)C(=O)N[C@@H](CCC(O)=O)C(O)=O FQPQPTHMHZKGFM-XQXXSGGOSA-N 0.000 description 1
- ZUXQFMVPAYGPFJ-JXUBOQSCSA-N Thr-Ala-Lys Chemical compound C[C@@H](O)[C@H](N)C(=O)N[C@@H](C)C(=O)N[C@H](C(O)=O)CCCCN ZUXQFMVPAYGPFJ-JXUBOQSCSA-N 0.000 description 1
- CEXFELBFVHLYDZ-XGEHTFHBSA-N Thr-Arg-Ser Chemical compound [H]N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CCCNC(N)=N)C(=O)N[C@@H](CO)C(O)=O CEXFELBFVHLYDZ-XGEHTFHBSA-N 0.000 description 1
- IRKWVRSEQFTGGV-VEVYYDQMSA-N Thr-Asn-Arg Chemical compound [H]N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CCCNC(N)=N)C(O)=O IRKWVRSEQFTGGV-VEVYYDQMSA-N 0.000 description 1
- OJRNZRROAIAHDL-LKXGYXEUSA-N Thr-Asn-Ser Chemical compound [H]N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CC(N)=O)C(=O)N[C@@H](CO)C(O)=O OJRNZRROAIAHDL-LKXGYXEUSA-N 0.000 description 1
- QILPDQCTQZDHFM-HJGDQZAQSA-N Thr-Gln-Arg Chemical compound [H]N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CCCNC(N)=N)C(O)=O QILPDQCTQZDHFM-HJGDQZAQSA-N 0.000 description 1
- RKDFEMGVMMYYNG-WDCWCFNPSA-N Thr-Gln-Leu Chemical compound [H]N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CCC(N)=O)C(=O)N[C@@H](CC(C)C)C(O)=O RKDFEMGVMMYYNG-WDCWCFNPSA-N 0.000 description 1
- JMGJDTNUMAZNLX-RWRJDSDZSA-N Thr-Glu-Ile Chemical compound [H]N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H]([C@@H](C)CC)C(O)=O JMGJDTNUMAZNLX-RWRJDSDZSA-N 0.000 description 1
- AQAMPXBRJJWPNI-JHEQGTHGSA-N Thr-Gly-Glu Chemical compound [H]N[C@@H]([C@@H](C)O)C(=O)NCC(=O)N[C@@H](CCC(O)=O)C(O)=O AQAMPXBRJJWPNI-JHEQGTHGSA-N 0.000 description 1
- XPNSAQMEAVSQRD-FBCQKBJTSA-N Thr-Gly-Gly Chemical compound C[C@@H](O)[C@H](N)C(=O)NCC(=O)NCC(O)=O XPNSAQMEAVSQRD-FBCQKBJTSA-N 0.000 description 1
- YSXYEJWDHBCTDJ-DVJZZOLTSA-N Thr-Gly-Trp Chemical compound C[C@H]([C@@H](C(=O)NCC(=O)N[C@@H](CC1=CNC2=CC=CC=C21)C(=O)O)N)O YSXYEJWDHBCTDJ-DVJZZOLTSA-N 0.000 description 1
- CRZNCABIJLRFKZ-IUKAMOBKSA-N Thr-Ile-Asp Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H](CC(=O)O)C(=O)O)NC(=O)[C@H]([C@@H](C)O)N CRZNCABIJLRFKZ-IUKAMOBKSA-N 0.000 description 1
- BVOVIGCHYNFJBZ-JXUBOQSCSA-N Thr-Leu-Ala Chemical compound [H]N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](C)C(O)=O BVOVIGCHYNFJBZ-JXUBOQSCSA-N 0.000 description 1
- MEJHFIOYJHTWMK-VOAKCMCISA-N Thr-Leu-Leu Chemical compound CC(C)C[C@@H](C(O)=O)NC(=O)[C@H](CC(C)C)NC(=O)[C@@H](N)[C@@H](C)O MEJHFIOYJHTWMK-VOAKCMCISA-N 0.000 description 1
- MECLEFZMPPOEAC-VOAKCMCISA-N Thr-Leu-Lys Chemical compound C[C@H]([C@@H](C(=O)N[C@@H](CC(C)C)C(=O)N[C@@H](CCCCN)C(=O)O)N)O MECLEFZMPPOEAC-VOAKCMCISA-N 0.000 description 1
- SCSVNSNWUTYSFO-WDCWCFNPSA-N Thr-Lys-Glu Chemical compound C[C@@H](O)[C@H](N)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CCC(O)=O)C(O)=O SCSVNSNWUTYSFO-WDCWCFNPSA-N 0.000 description 1
- KKPOGALELPLJTL-MEYUZBJRSA-N Thr-Lys-Tyr Chemical compound C[C@@H](O)[C@H](N)C(=O)N[C@@H](CCCCN)C(=O)N[C@H](C(O)=O)CC1=CC=C(O)C=C1 KKPOGALELPLJTL-MEYUZBJRSA-N 0.000 description 1
- WRQLCVIALDUQEQ-UNQGMJICSA-N Thr-Phe-Arg Chemical compound [H]N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CC1=CC=CC=C1)C(=O)N[C@@H](CCCNC(N)=N)C(O)=O WRQLCVIALDUQEQ-UNQGMJICSA-N 0.000 description 1
- WYLAVUAWOUVUCA-XVSYOHENSA-N Thr-Phe-Asp Chemical compound [H]N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CC1=CC=CC=C1)C(=O)N[C@@H](CC(O)=O)C(O)=O WYLAVUAWOUVUCA-XVSYOHENSA-N 0.000 description 1
- IWAVRIPRTCJAQO-HSHDSVGOSA-N Thr-Pro-Trp Chemical compound [H]N[C@@H]([C@@H](C)O)C(=O)N1CCC[C@H]1C(=O)N[C@@H](CC1=CNC2=C1C=CC=C2)C(O)=O IWAVRIPRTCJAQO-HSHDSVGOSA-N 0.000 description 1
- MFMGPEKYBXFIRF-SUSMZKCASA-N Thr-Thr-Gln Chemical compound [H]N[C@@H]([C@@H](C)O)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CCC(N)=O)C(O)=O MFMGPEKYBXFIRF-SUSMZKCASA-N 0.000 description 1
- ABCLYRRGTZNIFU-BWAGICSOSA-N Thr-Tyr-His Chemical compound C[C@H]([C@@H](C(=O)N[C@@H](CC1=CC=C(C=C1)O)C(=O)N[C@@H](CC2=CN=CN2)C(=O)O)N)O ABCLYRRGTZNIFU-BWAGICSOSA-N 0.000 description 1
- PWONLXBUSVIZPH-RHYQMDGZSA-N Thr-Val-Lys Chemical compound C[C@H]([C@@H](C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CCCCN)C(=O)O)N)O PWONLXBUSVIZPH-RHYQMDGZSA-N 0.000 description 1
- 240000003428 Tinospora crispa Species 0.000 description 1
- 241001149964 Tolypocladium Species 0.000 description 1
- 241000190631 Tolypocladium capitatum Species 0.000 description 1
- 241000684582 Torulaspora microellipsoides Species 0.000 description 1
- 108010073062 Transcription Activator-Like Effectors Proteins 0.000 description 1
- 108091023040 Transcription factor Proteins 0.000 description 1
- 102000040945 Transcription factor Human genes 0.000 description 1
- 108700029229 Transcriptional Regulatory Elements Proteins 0.000 description 1
- 108020004566 Transfer RNA Proteins 0.000 description 1
- 241000589892 Treponema denticola Species 0.000 description 1
- 241000520890 Treponema socranskii Species 0.000 description 1
- 241000723082 Trichoderma aggressivum Species 0.000 description 1
- 241001624831 Trichoderma amazonicum Species 0.000 description 1
- 241001460073 Trichoderma asperellum Species 0.000 description 1
- 241000894120 Trichoderma atroviride Species 0.000 description 1
- 241001417064 Trichoderma austrokoningii Species 0.000 description 1
- 241001036274 Trichoderma brevicompactum Species 0.000 description 1
- 241001133182 Trichoderma caribbaeum Species 0.000 description 1
- 241001437540 Trichoderma catoptron Species 0.000 description 1
- 241000306482 Trichoderma ceramicum Species 0.000 description 1
- 241001165312 Trichoderma cerinum Species 0.000 description 1
- 241001404128 Trichoderma chlorosporum Species 0.000 description 1
- 241001404358 Trichoderma chromospermum Species 0.000 description 1
- 241001141325 Trichoderma cinnamomeum Species 0.000 description 1
- 241000894122 Trichoderma crassum Species 0.000 description 1
- 241001141317 Trichoderma cremeum Species 0.000 description 1
- 241001141265 Trichoderma dingleyae Species 0.000 description 1
- 241001133178 Trichoderma dorotheae Species 0.000 description 1
- 241001165311 Trichoderma effusum Species 0.000 description 1
- 241001554872 Trichoderma estonicum Species 0.000 description 1
- 241000894106 Trichoderma fertile Species 0.000 description 1
- 241000306487 Trichoderma gelatinosum Species 0.000 description 1
- 241000920467 Trichoderma ghanense Species 0.000 description 1
- 241000227728 Trichoderma hamatum Species 0.000 description 1
- 241001165305 Trichoderma helicum Species 0.000 description 1
- 241000102162 Trichoderma intricatum Species 0.000 description 1
- 241000718288 Trichoderma konilangbra Species 0.000 description 1
- 241000378866 Trichoderma koningii Species 0.000 description 1
- 241000400362 Trichoderma koningiopsis Species 0.000 description 1
- 241000223262 Trichoderma longibrachiatum Species 0.000 description 1
- 241001668329 Trichoderma longipile Species 0.000 description 1
- 241000894109 Trichoderma minutisporum Species 0.000 description 1
- 241000894107 Trichoderma oblongisporum Species 0.000 description 1
- 241001377517 Trichoderma ovalisporum Species 0.000 description 1
- 241000407156 Trichoderma piluliferum Species 0.000 description 1
- 241000298522 Trichoderma pleuroti Species 0.000 description 1
- 241000346878 Trichoderma pleuroticola Species 0.000 description 1
- 241000123975 Trichoderma polysporum Species 0.000 description 1
- 241001404129 Trichoderma pseudocandidum Species 0.000 description 1
- 241001304120 Trichoderma pseudokoningii Species 0.000 description 1
- 241000894108 Trichoderma pubescens Species 0.000 description 1
- 241000499912 Trichoderma reesei Species 0.000 description 1
- 241001417067 Trichoderma rogersonii Species 0.000 description 1
- 241001165307 Trichoderma rossicum Species 0.000 description 1
- 241000223263 Trichoderma saturnisporum Species 0.000 description 1
- 241000633461 Trichoderma sinense Species 0.000 description 1
- 241001437539 Trichoderma sinuosum Species 0.000 description 1
- 241000894110 Trichoderma spirale Species 0.000 description 1
- 241000447593 Trichoderma stramineum Species 0.000 description 1
- 241000894096 Trichoderma strigosum Species 0.000 description 1
- 241000385222 Trichoderma stromaticum Species 0.000 description 1
- 241001141319 Trichoderma surrotundum Species 0.000 description 1
- 241001417065 Trichoderma taiwanense Species 0.000 description 1
- 241001141321 Trichoderma thailandicum Species 0.000 description 1
- 241000186631 Trichoderma theobromicola Species 0.000 description 1
- 241001165304 Trichoderma velutinum Species 0.000 description 1
- 241001149558 Trichoderma virens Species 0.000 description 1
- 241000223261 Trichoderma viride Species 0.000 description 1
- 241000944294 Trichoderma viridescens Species 0.000 description 1
- 241001634942 Trichosporon inkin Species 0.000 description 1
- QIVBCDIJIAJPQS-UHFFFAOYSA-N Tryptophan Natural products C1=CC=C2C(CC(N)C(O)=O)=CNC2=C1 QIVBCDIJIAJPQS-UHFFFAOYSA-N 0.000 description 1
- 241000918129 Typhula variabilis Species 0.000 description 1
- DLZKEQQWXODGGZ-KWQFWETISA-N Tyr-Ala-Gly Chemical compound OC(=O)CNC(=O)[C@H](C)NC(=O)[C@@H](N)CC1=CC=C(O)C=C1 DLZKEQQWXODGGZ-KWQFWETISA-N 0.000 description 1
- AYPAIRCDLARHLM-KKUMJFAQSA-N Tyr-Asn-Lys Chemical compound C1=CC(=CC=C1C[C@@H](C(=O)N[C@@H](CC(=O)N)C(=O)N[C@@H](CCCCN)C(=O)O)N)O AYPAIRCDLARHLM-KKUMJFAQSA-N 0.000 description 1
- UABYBEBXFFNCIR-YDHLFZDLSA-N Tyr-Asp-Val Chemical compound [H]N[C@@H](CC1=CC=C(O)C=C1)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](C(C)C)C(O)=O UABYBEBXFFNCIR-YDHLFZDLSA-N 0.000 description 1
- KIJLSRYAUGGZIN-CFMVVWHZSA-N Tyr-Ile-Asp Chemical compound [H]N[C@@H](CC1=CC=C(O)C=C1)C(=O)N[C@@H]([C@@H](C)CC)C(=O)N[C@@H](CC(O)=O)C(O)=O KIJLSRYAUGGZIN-CFMVVWHZSA-N 0.000 description 1
- NKUGCYDFQKFVOJ-JYJNAYRXSA-N Tyr-Leu-Gln Chemical compound NC(=O)CC[C@@H](C(O)=O)NC(=O)[C@H](CC(C)C)NC(=O)[C@@H](N)CC1=CC=C(O)C=C1 NKUGCYDFQKFVOJ-JYJNAYRXSA-N 0.000 description 1
- JLKVWTICWVWGSK-JYJNAYRXSA-N Tyr-Lys-Glu Chemical compound OC(=O)CC[C@@H](C(O)=O)NC(=O)[C@H](CCCCN)NC(=O)[C@@H](N)CC1=CC=C(O)C=C1 JLKVWTICWVWGSK-JYJNAYRXSA-N 0.000 description 1
- PMHLLBKTDHQMCY-ULQDDVLXSA-N Tyr-Lys-Val Chemical compound [H]N[C@@H](CC1=CC=C(O)C=C1)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](C(C)C)C(O)=O PMHLLBKTDHQMCY-ULQDDVLXSA-N 0.000 description 1
- JXGUUJMPCRXMSO-HJOGWXRNSA-N Tyr-Phe-Phe Chemical compound C([C@H](N)C(=O)N[C@@H](CC=1C=CC=CC=1)C(=O)N[C@@H](CC=1C=CC=CC=1)C(O)=O)C1=CC=C(O)C=C1 JXGUUJMPCRXMSO-HJOGWXRNSA-N 0.000 description 1
- VBFVQTPETKJCQW-RPTUDFQQSA-N Tyr-Phe-Thr Chemical compound [H]N[C@@H](CC1=CC=C(O)C=C1)C(=O)N[C@@H](CC1=CC=CC=C1)C(=O)N[C@@H]([C@@H](C)O)C(O)=O VBFVQTPETKJCQW-RPTUDFQQSA-N 0.000 description 1
- RCMWNNJFKNDKQR-UFYCRDLUSA-N Tyr-Pro-Phe Chemical compound C([C@H](N)C(=O)N1[C@@H](CCC1)C(=O)N[C@@H](CC=1C=CC=CC=1)C(O)=O)C1=CC=C(O)C=C1 RCMWNNJFKNDKQR-UFYCRDLUSA-N 0.000 description 1
- XGZBEGGGAUQBMB-KJEVXHAQSA-N Tyr-Pro-Thr Chemical compound C[C@H]([C@@H](C(=O)O)NC(=O)[C@@H]1CCCN1C(=O)[C@H](CC2=CC=C(C=C2)O)N)O XGZBEGGGAUQBMB-KJEVXHAQSA-N 0.000 description 1
- SOAUMCDLIUGXJJ-SRVKXCTJSA-N Tyr-Ser-Asn Chemical compound [H]N[C@@H](CC1=CC=C(O)C=C1)C(=O)N[C@@H](CO)C(=O)N[C@@H](CC(N)=O)C(O)=O SOAUMCDLIUGXJJ-SRVKXCTJSA-N 0.000 description 1
- MQGGXGKQSVEQHR-KKUMJFAQSA-N Tyr-Ser-Leu Chemical compound CC(C)C[C@@H](C(O)=O)NC(=O)[C@H](CO)NC(=O)[C@@H](N)CC1=CC=C(O)C=C1 MQGGXGKQSVEQHR-KKUMJFAQSA-N 0.000 description 1
- WQOHKVRQDLNDIL-YJRXYDGGSA-N Tyr-Thr-Ser Chemical compound [H]N[C@@H](CC1=CC=C(O)C=C1)C(=O)N[C@@H]([C@@H](C)O)C(=O)N[C@@H](CO)C(O)=O WQOHKVRQDLNDIL-YJRXYDGGSA-N 0.000 description 1
- SQUMHUZLJDUROQ-YDHLFZDLSA-N Tyr-Val-Asp Chemical compound [H]N[C@@H](CC1=CC=C(O)C=C1)C(=O)N[C@@H](C(C)C)C(=O)N[C@@H](CC(O)=O)C(O)=O SQUMHUZLJDUROQ-YDHLFZDLSA-N 0.000 description 1
- ABSXSJZNRAQDDI-KJEVXHAQSA-N Tyr-Val-Thr Chemical compound [H]N[C@@H](CC1=CC=C(O)C=C1)C(=O)N[C@@H](C(C)C)C(=O)N[C@@H]([C@@H](C)O)C(O)=O ABSXSJZNRAQDDI-KJEVXHAQSA-N 0.000 description 1
- 108090000848 Ubiquitin Proteins 0.000 description 1
- 102000044159 Ubiquitin Human genes 0.000 description 1
- 102000006275 Ubiquitin-Protein Ligases Human genes 0.000 description 1
- 108010083111 Ubiquitin-Protein Ligases Proteins 0.000 description 1
- 241001514701 Udeniozyma ferulica Species 0.000 description 1
- 241000202898 Ureaplasma Species 0.000 description 1
- 241000221566 Ustilago Species 0.000 description 1
- 241000514371 Ustilago avenae Species 0.000 description 1
- 244000046332 Ustilago esculenta Species 0.000 description 1
- 244000301083 Ustilago maydis Species 0.000 description 1
- 241000007070 Ustilago nuda Species 0.000 description 1
- RUCNAYOMFXRIKJ-DCAQKATOSA-N Val-Ala-Lys Chemical compound CC(C)[C@H](N)C(=O)N[C@@H](C)C(=O)N[C@H](C(O)=O)CCCCN RUCNAYOMFXRIKJ-DCAQKATOSA-N 0.000 description 1
- PAPWZOJOLKZEFR-AVGNSLFASA-N Val-Arg-Lys Chemical compound CC(C)[C@@H](C(=O)N[C@@H](CCCN=C(N)N)C(=O)N[C@@H](CCCCN)C(=O)O)N PAPWZOJOLKZEFR-AVGNSLFASA-N 0.000 description 1
- PVPAOIGJYHVWBT-KKHAAJSZSA-N Val-Asn-Thr Chemical compound C[C@H]([C@@H](C(=O)O)NC(=O)[C@H](CC(=O)N)NC(=O)[C@H](C(C)C)N)O PVPAOIGJYHVWBT-KKHAAJSZSA-N 0.000 description 1
- HZYOWMGWKKRMBZ-BYULHYEWSA-N Val-Asp-Asp Chemical compound CC(C)[C@@H](C(=O)N[C@@H](CC(=O)O)C(=O)N[C@@H](CC(=O)O)C(=O)O)N HZYOWMGWKKRMBZ-BYULHYEWSA-N 0.000 description 1
- VLOYGOZDPGYWFO-LAEOZQHASA-N Val-Asp-Glu Chemical compound CC(C)[C@H](N)C(=O)N[C@@H](CC(O)=O)C(=O)N[C@@H](CCC(O)=O)C(O)=O VLOYGOZDPGYWFO-LAEOZQHASA-N 0.000 description 1
- BMGOFDMKDVVGJG-NHCYSSNCSA-N Val-Asp-Lys Chemical compound CC(C)[C@@H](C(=O)N[C@@H](CC(=O)O)C(=O)N[C@@H](CCCCN)C(=O)O)N BMGOFDMKDVVGJG-NHCYSSNCSA-N 0.000 description 1
- NYTKXWLZSNRILS-IFFSRLJSSA-N Val-Gln-Thr Chemical compound C[C@H]([C@@H](C(=O)O)NC(=O)[C@H](CCC(=O)N)NC(=O)[C@H](C(C)C)N)O NYTKXWLZSNRILS-IFFSRLJSSA-N 0.000 description 1
- CVIXTAITYJQMPE-LAEOZQHASA-N Val-Glu-Asn Chemical compound CC(C)[C@H](N)C(=O)N[C@@H](CCC(O)=O)C(=O)N[C@@H](CC(N)=O)C(O)=O CVIXTAITYJQMPE-LAEOZQHASA-N 0.000 description 1
- GBESYURLQOYWLU-LAEOZQHASA-N Val-Glu-Asp Chemical compound CC(C)[C@@H](C(=O)N[C@@H](CCC(=O)O)C(=O)N[C@@H](CC(=O)O)C(=O)O)N GBESYURLQOYWLU-LAEOZQHASA-N 0.000 description 1
- VLDMQVZZWDOKQF-AUTRQRHGSA-N Val-Glu-Gln Chemical compound CC(C)[C@@H](C(=O)N[C@@H](CCC(=O)O)C(=O)N[C@@H](CCC(=O)N)C(=O)O)N VLDMQVZZWDOKQF-AUTRQRHGSA-N 0.000 description 1
- ZXAGTABZUOMUDO-GVXVVHGQSA-N Val-Glu-Lys Chemical compound CC(C)[C@@H](C(=O)N[C@@H](CCC(=O)O)C(=O)N[C@@H](CCCCN)C(=O)O)N ZXAGTABZUOMUDO-GVXVVHGQSA-N 0.000 description 1
- XWYUBUYQMOUFRQ-IFFSRLJSSA-N Val-Glu-Thr Chemical compound C[C@H]([C@@H](C(=O)O)NC(=O)[C@H](CCC(=O)O)NC(=O)[C@H](C(C)C)N)O XWYUBUYQMOUFRQ-IFFSRLJSSA-N 0.000 description 1
- YTPLVNUZZOBFFC-SCZZXKLOSA-N Val-Gly-Pro Chemical compound CC(C)[C@H](N)C(=O)NCC(=O)N1CCC[C@@H]1C(O)=O YTPLVNUZZOBFFC-SCZZXKLOSA-N 0.000 description 1
- KZKMBGXCNLPYKD-YEPSODPASA-N Val-Gly-Thr Chemical compound CC(C)[C@H](N)C(=O)NCC(=O)N[C@@H]([C@@H](C)O)C(O)=O KZKMBGXCNLPYKD-YEPSODPASA-N 0.000 description 1
- APQIVBCUIUDSMB-OSUNSFLBSA-N Val-Ile-Thr Chemical compound CC[C@H](C)[C@@H](C(=O)N[C@@H]([C@@H](C)O)C(=O)O)NC(=O)[C@H](C(C)C)N APQIVBCUIUDSMB-OSUNSFLBSA-N 0.000 description 1
- AGXGCFSECFQMKB-NHCYSSNCSA-N Val-Leu-Asp Chemical compound CC(C)C[C@@H](C(=O)N[C@@H](CC(=O)O)C(=O)O)NC(=O)[C@H](C(C)C)N AGXGCFSECFQMKB-NHCYSSNCSA-N 0.000 description 1
- WBAJDGWKRIHOAC-GVXVVHGQSA-N Val-Lys-Gln Chemical compound [H]N[C@@H](C(C)C)C(=O)N[C@@H](CCCCN)C(=O)N[C@@H](CCC(N)=O)C(O)=O WBAJDGWKRIHOAC-GVXVVHGQSA-N 0.000 description 1
- ZRSZTKTVPNSUNA-IHRRRGAJSA-N Val-Lys-Leu Chemical compound CC(C)C[C@H](NC(=O)[C@H](CCCCN)NC(=O)[C@@H](N)C(C)C)C(O)=O ZRSZTKTVPNSUNA-IHRRRGAJSA-N 0.000 description 1
- JVGHIFMSFBZDHH-WPRPVWTQSA-N Val-Met-Gly Chemical compound CC(C)[C@@H](C(=O)N[C@@H](CCSC)C(=O)NCC(=O)O)N JVGHIFMSFBZDHH-WPRPVWTQSA-N 0.000 description 1
- UEPLNXPLHJUYPT-AVGNSLFASA-N Val-Met-Lys Chemical compound CC(C)[C@H](N)C(=O)N[C@@H](CCSC)C(=O)N[C@@H](CCCCN)C(O)=O UEPLNXPLHJUYPT-AVGNSLFASA-N 0.000 description 1
- GQMNEJMFMCJJTD-NHCYSSNCSA-N Val-Pro-Gln Chemical compound CC(C)[C@H](N)C(=O)N1CCC[C@H]1C(=O)N[C@@H](CCC(N)=O)C(O)=O GQMNEJMFMCJJTD-NHCYSSNCSA-N 0.000 description 1
- MIAZWUMFUURQNP-YDHLFZDLSA-N Val-Tyr-Asn Chemical compound CC(C)[C@@H](C(=O)N[C@@H](CC1=CC=C(C=C1)O)C(=O)N[C@@H](CC(=O)N)C(=O)O)N MIAZWUMFUURQNP-YDHLFZDLSA-N 0.000 description 1
- VTIAEOKFUJJBTC-YDHLFZDLSA-N Val-Tyr-Asp Chemical compound CC(C)[C@@H](C(=O)N[C@@H](CC1=CC=C(C=C1)O)C(=O)N[C@@H](CC(=O)O)C(=O)O)N VTIAEOKFUJJBTC-YDHLFZDLSA-N 0.000 description 1
- GUIYPEKUEMQBIK-JSGCOSHPSA-N Val-Tyr-Gly Chemical compound CC(C)[C@H](N)C(=O)N[C@@H](Cc1ccc(O)cc1)C(=O)NCC(O)=O GUIYPEKUEMQBIK-JSGCOSHPSA-N 0.000 description 1
- 241001489220 Vanderwaltozyma polyspora Species 0.000 description 1
- 241001148134 Veillonella Species 0.000 description 1
- 241000607598 Vibrio Species 0.000 description 1
- 241000607626 Vibrio cholerae Species 0.000 description 1
- 208000036142 Viral infection Diseases 0.000 description 1
- 241000726445 Viroids Species 0.000 description 1
- 241001581537 Vishniacozyma peneaus Species 0.000 description 1
- 241000868220 Vorticella Species 0.000 description 1
- 241000190866 Weeksella Species 0.000 description 1
- 206010052428 Wound Diseases 0.000 description 1
- 208000027418 Wounds and injury Diseases 0.000 description 1
- 241000589636 Xanthomonas campestris Species 0.000 description 1
- 241000607734 Yersinia <bacteria> Species 0.000 description 1
- 241000883738 Yunzhangia auriculariae Species 0.000 description 1
- 241001514656 Yunzhangia sonckii Species 0.000 description 1
- 235000007244 Zea mays Nutrition 0.000 description 1
- 241000235029 Zygosaccharomyces bailii Species 0.000 description 1
- 241000235034 Zygosaccharomyces bisporus Species 0.000 description 1
- 241000400042 Zygosaccharomyces kombuchaensis Species 0.000 description 1
- 241001655839 Zygosaccharomyces lentus Species 0.000 description 1
- 241000144010 Zygosaccharomyces mellis Species 0.000 description 1
- 241000235033 Zygosaccharomyces rouxii Species 0.000 description 1
- 241000229116 Zygotorulaspora florentina Species 0.000 description 1
- 241000144024 Zygotorulaspora mrakii Species 0.000 description 1
- RZZBUMCFKOLHEH-KVQBGUIXSA-N [(2r,3s,5r)-5-(2,6-diaminopurin-9-yl)-3-hydroxyoxolan-2-yl]methyl dihydrogen phosphate Chemical compound C12=NC(N)=NC(N)=C2N=CN1[C@H]1C[C@H](O)[C@@H](COP(O)(O)=O)O1 RZZBUMCFKOLHEH-KVQBGUIXSA-N 0.000 description 1
- 241000420436 [Candida] amphicis Species 0.000 description 1
- 241000192429 [Candida] atlantica Species 0.000 description 1
- 241000192457 [Candida] atmosphaerica Species 0.000 description 1
- 241000847664 [Candida] blattae Species 0.000 description 1
- 241000224452 [Candida] bromeliacearum Species 0.000 description 1
- 241000142807 [Candida] carpophila Species 0.000 description 1
- 241000420432 [Candida] cerambycidarum Species 0.000 description 1
- 241000847667 [Candida] dosseyi Species 0.000 description 1
- 241000203998 [Candida] fructus Species 0.000 description 1
- 241000222126 [Candida] glabrata Species 0.000 description 1
- 241000191353 [Candida] haemulonis Species 0.000 description 1
- 241000192319 [Candida] insectorum Species 0.000 description 1
- 241001132170 [Candida] keroseneae Species 0.000 description 1
- 241000192327 [Candida] membranifaciens Species 0.000 description 1
- 241000202227 [Candida] mogii Species 0.000 description 1
- 241000192351 [Candida] oleophila Species 0.000 description 1
- 241000203996 [Candida] oregonensis Species 0.000 description 1
- 241001672692 [Candida] tolerans Species 0.000 description 1
- 241000201773 [Candida] tsuchiyae Species 0.000 description 1
- 241000238733 [Candida] ubatubensis Species 0.000 description 1
- 241001490296 [Cryptococcus] consortionis Species 0.000 description 1
- 241001035463 [Rhodotorula] chungnamensis Species 0.000 description 1
- 241000197143 [Rhodotorula] futronensis Species 0.000 description 1
- 241000197159 [Rhodotorula] nothofagi Species 0.000 description 1
- 230000036579 abiotic stress Effects 0.000 description 1
- 108010081404 acein-2 Proteins 0.000 description 1
- 108010065064 acetaldehyde dehydrogenase (acylating) Proteins 0.000 description 1
- 108020002494 acetyltransferase Proteins 0.000 description 1
- 102000005421 acetyltransferase Human genes 0.000 description 1
- 239000002253 acid Substances 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 239000012190 activator Substances 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 210000002534 adenoid Anatomy 0.000 description 1
- 229960005305 adenosine Drugs 0.000 description 1
- 230000006154 adenylylation Effects 0.000 description 1
- 108010008685 alanyl-glutamyl-aspartic acid Proteins 0.000 description 1
- 108010024078 alanyl-glycyl-serine Proteins 0.000 description 1
- 108010086434 alanyl-seryl-glycine Proteins 0.000 description 1
- 108010044940 alanylglutamine Proteins 0.000 description 1
- 108010087924 alanylproline Proteins 0.000 description 1
- 229940126575 aminoglycoside Drugs 0.000 description 1
- 239000003242 anti bacterial agent Substances 0.000 description 1
- 230000000844 anti-bacterial effect Effects 0.000 description 1
- 230000000843 anti-fungal effect Effects 0.000 description 1
- 230000000840 anti-viral effect Effects 0.000 description 1
- 229940088710 antibiotic agent Drugs 0.000 description 1
- 229940121375 antifungal agent Drugs 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 108010008355 arginyl-glutamine Proteins 0.000 description 1
- 108010001271 arginyl-glutamyl-arginine Proteins 0.000 description 1
- 108010059459 arginyl-threonyl-phenylalanine Proteins 0.000 description 1
- 108010084758 arginyl-tyrosyl-aspartic acid Proteins 0.000 description 1
- 108010069205 aspartyl-phenylalanine Proteins 0.000 description 1
- 108010093581 aspartyl-proline Proteins 0.000 description 1
- 108010038633 aspartylglutamate Proteins 0.000 description 1
- 108010047857 aspartylglycine Proteins 0.000 description 1
- 108010068265 aspartyltyrosine Proteins 0.000 description 1
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 1
- 244000052616 bacterial pathogen Species 0.000 description 1
- 230000010310 bacterial transformation Effects 0.000 description 1
- DRTQHJPVMGBUCF-PSQAKQOGSA-N beta-L-uridine Natural products O[C@H]1[C@@H](O)[C@H](CO)O[C@@H]1N1C(=O)NC(=O)C=C1 DRTQHJPVMGBUCF-PSQAKQOGSA-N 0.000 description 1
- 238000004166 bioassay Methods 0.000 description 1
- 238000010256 biochemical assay Methods 0.000 description 1
- 229920000704 biodegradable plastic Polymers 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000004790 biotic stress Effects 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000001185 bone marrow Anatomy 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 210000000424 bronchial epithelial cell Anatomy 0.000 description 1
- 239000008366 buffered solution Substances 0.000 description 1
- 210000004899 c-terminal region Anatomy 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 235000021256 carbohydrate metabolism Nutrition 0.000 description 1
- 150000001720 carbohydrates Chemical class 0.000 description 1
- 101150038500 cas9 gene Proteins 0.000 description 1
- 238000006555 catalytic reaction Methods 0.000 description 1
- 230000034303 cell budding Effects 0.000 description 1
- 230000030570 cellular localization Effects 0.000 description 1
- 230000007248 cellular mechanism Effects 0.000 description 1
- 230000033077 cellular process Effects 0.000 description 1
- 239000007795 chemical reaction product Substances 0.000 description 1
- 210000004978 chinese hamster ovary cell Anatomy 0.000 description 1
- 230000019113 chromatin silencing Effects 0.000 description 1
- 210000001728 clone cell Anatomy 0.000 description 1
- 210000001072 colon Anatomy 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000012258 culturing Methods 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 229940104302 cytosine Drugs 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 108010011713 delta-15 desaturase Proteins 0.000 description 1
- 230000006114 demyristoylation Effects 0.000 description 1
- 238000004925 denaturation Methods 0.000 description 1
- 230000036425 denaturation Effects 0.000 description 1
- 239000005547 deoxyribonucleotide Substances 0.000 description 1
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000368 destabilizing effect Effects 0.000 description 1
- 230000029180 desumoylation Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000009504 deubiquitination Effects 0.000 description 1
- 230000012361 double-strand break repair Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 239000001921 dulse Substances 0.000 description 1
- 230000002900 effect on cell Effects 0.000 description 1
- 239000012636 effector Substances 0.000 description 1
- 210000001671 embryonic stem cell Anatomy 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 210000003238 esophagus Anatomy 0.000 description 1
- 239000003797 essential amino acid Substances 0.000 description 1
- 235000020776 essential amino acid Nutrition 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000001747 exhibiting effect Effects 0.000 description 1
- 239000013613 expression plasmid Substances 0.000 description 1
- 239000010685 fatty oil Substances 0.000 description 1
- 230000035558 fertility Effects 0.000 description 1
- 210000003495 flagella Anatomy 0.000 description 1
- 239000007850 fluorescent dye Substances 0.000 description 1
- 238000001215 fluorescent labelling Methods 0.000 description 1
- 108010021843 fluorescent protein 583 Proteins 0.000 description 1
- 108091006047 fluorescent proteins Proteins 0.000 description 1
- 102000034287 fluorescent proteins Human genes 0.000 description 1
- 231100000221 frame shift mutation induction Toxicity 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000009368 gene silencing by RNA Effects 0.000 description 1
- 230000035784 germination Effects 0.000 description 1
- 210000004907 gland Anatomy 0.000 description 1
- 101150117187 glmS gene Proteins 0.000 description 1
- XHMJOUIAFHJHBW-VFUOTHLCSA-N glucosamine 6-phosphate Chemical compound N[C@H]1[C@H](O)O[C@H](COP(O)(O)=O)[C@H](O)[C@@H]1O XHMJOUIAFHJHBW-VFUOTHLCSA-N 0.000 description 1
- 108010079547 glutamylmethionine Proteins 0.000 description 1
- HPAIKDPJURGQLN-UHFFFAOYSA-N glycyl-L-histidyl-L-phenylalanine Natural products C=1C=CC=CC=1CC(C(O)=O)NC(=O)C(NC(=O)CN)CC1=CN=CN1 HPAIKDPJURGQLN-UHFFFAOYSA-N 0.000 description 1
- XBGGUPMXALFZOT-UHFFFAOYSA-N glycyl-L-tyrosine hemihydrate Natural products NCC(=O)NC(C(O)=O)CC1=CC=C(O)C=C1 XBGGUPMXALFZOT-UHFFFAOYSA-N 0.000 description 1
- 108010000434 glycyl-alanyl-leucine Proteins 0.000 description 1
- 108010026364 glycyl-glycyl-leucine Proteins 0.000 description 1
- 108010066198 glycyl-leucyl-phenylalanine Proteins 0.000 description 1
- 108010050475 glycyl-leucyl-tyrosine Proteins 0.000 description 1
- 108010089804 glycyl-threonine Proteins 0.000 description 1
- 108010048994 glycyl-tyrosyl-alanine Proteins 0.000 description 1
- 108010081551 glycylphenylalanine Proteins 0.000 description 1
- 108010087823 glycyltyrosine Proteins 0.000 description 1
- 108010037850 glycylvaline Proteins 0.000 description 1
- 229940029575 guanosine Drugs 0.000 description 1
- 108010064833 guanylyltransferase Proteins 0.000 description 1
- CJNBYAVZURUTKZ-UHFFFAOYSA-N hafnium(IV) oxide Inorganic materials O=[Hf]=O CJNBYAVZURUTKZ-UHFFFAOYSA-N 0.000 description 1
- 108090001052 hairpin ribozyme Proteins 0.000 description 1
- IIRDTKBZINWQAW-UHFFFAOYSA-N hexaethylene glycol Chemical group OCCOCCOCCOCCOCCOCCO IIRDTKBZINWQAW-UHFFFAOYSA-N 0.000 description 1
- 108010028295 histidylhistidine Proteins 0.000 description 1
- 108010085325 histidylproline Proteins 0.000 description 1
- 230000007062 hydrolysis Effects 0.000 description 1
- 238000006460 hydrolysis reaction Methods 0.000 description 1
- 230000002209 hydrophobic effect Effects 0.000 description 1
- 230000007124 immune defense Effects 0.000 description 1
- 238000003119 immunoblot Methods 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000036512 infertility Effects 0.000 description 1
- 206010022000 influenza Diseases 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 150000002484 inorganic compounds Chemical class 0.000 description 1
- 229960003786 inosine Drugs 0.000 description 1
- 230000000749 insecticidal effect Effects 0.000 description 1
- 230000017730 intein-mediated protein splicing Effects 0.000 description 1
- 210000000936 intestine Anatomy 0.000 description 1
- 108010027338 isoleucylcysteine Proteins 0.000 description 1
- QXJSBBXBKPUZAA-UHFFFAOYSA-N isooleic acid Natural products CCCCCCCC=CCCCCCCCCC(O)=O QXJSBBXBKPUZAA-UHFFFAOYSA-N 0.000 description 1
- ZNJFBWYDHIGLCU-HWKXXFMVSA-N jasmonic acid Chemical compound CC\C=C/C[C@@H]1[C@@H](CC(O)=O)CCC1=O ZNJFBWYDHIGLCU-HWKXXFMVSA-N 0.000 description 1
- 230000009916 joint effect Effects 0.000 description 1
- 210000002510 keratinocyte Anatomy 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 210000003292 kidney cell Anatomy 0.000 description 1
- 238000011005 laboratory method Methods 0.000 description 1
- 108010044311 leucyl-glycyl-glycine Proteins 0.000 description 1
- 108010030617 leucyl-phenylalanyl-valine Proteins 0.000 description 1
- 108010000761 leucylarginine Proteins 0.000 description 1
- 108010012058 leucyltyrosine Proteins 0.000 description 1
- KXGCNMMJRFDFNR-WDRJZQOASA-N linaclotide Chemical compound C([C@H](NC(=O)[C@@H]1CSSC[C@H]2C(=O)N[C@H]3CSSC[C@H](N)C(=O)N[C@H](C(N[C@@H](CCC(O)=O)C(=O)N[C@@H](CC=4C=CC(O)=CC=4)C(=O)N2)=O)CSSC[C@H](NC(=O)[C@H](C)NC(=O)[C@@H]2CCCN2C(=O)[C@H](CC(N)=O)NC3=O)C(=O)N[C@H](C(NCC(=O)N1)=O)[C@H](O)C)C(O)=O)C1=CC=C(O)C=C1 KXGCNMMJRFDFNR-WDRJZQOASA-N 0.000 description 1
- 229960000812 linaclotide Drugs 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 210000004072 lung Anatomy 0.000 description 1
- 210000002751 lymph Anatomy 0.000 description 1
- 210000003563 lymphoid tissue Anatomy 0.000 description 1
- 108010003700 lysyl aspartic acid Proteins 0.000 description 1
- 108010044348 lysyl-glutamyl-aspartic acid Proteins 0.000 description 1
- 108010045397 lysyl-tyrosyl-lysine Proteins 0.000 description 1
- 108010009298 lysylglutamic acid Proteins 0.000 description 1
- 108010038320 lysylphenylalanine Proteins 0.000 description 1
- 239000012528 membrane Substances 0.000 description 1
- 230000002503 metabolic effect Effects 0.000 description 1
- 238000012269 metabolic engineering Methods 0.000 description 1
- 229910021645 metal ion Inorganic materials 0.000 description 1
- MYWUZJCMWCOHBA-VIFPVBQESA-N methamphetamine Chemical compound CN[C@@H](C)CC1=CC=CC=C1 MYWUZJCMWCOHBA-VIFPVBQESA-N 0.000 description 1
- 230000011987 methylation Effects 0.000 description 1
- 238000007069 methylation reaction Methods 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 210000003470 mitochondria Anatomy 0.000 description 1
- 238000001823 molecular biology technique Methods 0.000 description 1
- 210000000663 muscle cell Anatomy 0.000 description 1
- 238000002703 mutagenesis Methods 0.000 description 1
- 231100000350 mutagenesis Toxicity 0.000 description 1
- 230000007498 myristoylation Effects 0.000 description 1
- 239000002539 nanocarrier Substances 0.000 description 1
- 230000001069 nematicidal effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 125000000018 nitroso group Chemical group N(=O)* 0.000 description 1
- 230000030147 nuclear export Effects 0.000 description 1
- 239000002853 nucleic acid probe Substances 0.000 description 1
- 230000030648 nucleus localization Effects 0.000 description 1
- 235000021049 nutrient content Nutrition 0.000 description 1
- 235000021062 nutrient metabolism Nutrition 0.000 description 1
- 230000035764 nutrition Effects 0.000 description 1
- 235000016709 nutrition Nutrition 0.000 description 1
- 230000009438 off-target cleavage Effects 0.000 description 1
- 235000019198 oils Nutrition 0.000 description 1
- ZQPPMHVWECSIRJ-KTKRTIGZSA-N oleic acid Chemical compound CCCCCCCC\C=C/CCCCCCCC(O)=O ZQPPMHVWECSIRJ-KTKRTIGZSA-N 0.000 description 1
- 210000000287 oocyte Anatomy 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 150000002894 organic compounds Chemical class 0.000 description 1
- 230000008723 osmotic stress Effects 0.000 description 1
- 229910052760 oxygen Inorganic materials 0.000 description 1
- 239000001301 oxygen Substances 0.000 description 1
- 210000002741 palatine tonsil Anatomy 0.000 description 1
- 230000003071 parasitic effect Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 230000035699 permeability Effects 0.000 description 1
- 238000012247 phenotypical assay Methods 0.000 description 1
- 108010064486 phenylalanyl-leucyl-valine Proteins 0.000 description 1
- 108010051242 phenylalanylserine Proteins 0.000 description 1
- 150000003013 phosphoric acid derivatives Chemical group 0.000 description 1
- 102000020233 phosphotransferase Human genes 0.000 description 1
- 108010025488 pinealon Proteins 0.000 description 1
- 238000003976 plant breeding Methods 0.000 description 1
- 239000003375 plant hormone Substances 0.000 description 1
- 239000013600 plasmid vector Substances 0.000 description 1
- 238000003752 polymerase chain reaction Methods 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 230000029279 positive regulation of transcription, DNA-dependent Effects 0.000 description 1
- 230000001124 posttranscriptional effect Effects 0.000 description 1
- 235000012015 potatoes Nutrition 0.000 description 1
- 230000019525 primary metabolic process Effects 0.000 description 1
- 108010031719 prolyl-serine Proteins 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 230000004952 protein activity Effects 0.000 description 1
- 108060006633 protein kinase Proteins 0.000 description 1
- 230000026447 protein localization Effects 0.000 description 1
- 230000009145 protein modification Effects 0.000 description 1
- 230000012743 protein tagging Effects 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- UMJSCPRVCHMLSP-UHFFFAOYSA-N pyridine Natural products COC1=CC=CN=C1 UMJSCPRVCHMLSP-UHFFFAOYSA-N 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000022532 regulation of transcription, DNA-dependent Effects 0.000 description 1
- 230000009711 regulatory function Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007363 ring formation reaction Methods 0.000 description 1
- 229920006395 saturated elastomer Polymers 0.000 description 1
- 238000013341 scale-up Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000007423 screening assay Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000028327 secretion Effects 0.000 description 1
- 230000008117 seed development Effects 0.000 description 1
- 238000005204 segregation Methods 0.000 description 1
- 230000010153 self-pollination Effects 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 108010069117 seryl-lysyl-aspartic acid Proteins 0.000 description 1
- 230000003007 single stranded DNA break Effects 0.000 description 1
- 238000002741 site-directed mutagenesis Methods 0.000 description 1
- 210000003491 skin Anatomy 0.000 description 1
- 150000003384 small molecules Chemical class 0.000 description 1
- 239000001509 sodium citrate Substances 0.000 description 1
- 239000000600 sorbitol Substances 0.000 description 1
- UNFWWIHTNXNPBV-WXKVUWSESA-N spectinomycin Chemical compound O([C@@H]1[C@@H](NC)[C@@H](O)[C@H]([C@@H]([C@H]1O1)O)NC)[C@]2(O)[C@H]1O[C@H](C)CC2=O UNFWWIHTNXNPBV-WXKVUWSESA-N 0.000 description 1
- 229960000268 spectinomycin Drugs 0.000 description 1
- 210000000278 spinal cord Anatomy 0.000 description 1
- 229940082787 spirulina Drugs 0.000 description 1
- 210000000952 spleen Anatomy 0.000 description 1
- 210000000130 stem cell Anatomy 0.000 description 1
- 150000003431 steroids Chemical class 0.000 description 1
- 230000004936 stimulating effect Effects 0.000 description 1
- 210000002784 stomach Anatomy 0.000 description 1
- 239000005720 sucrose Substances 0.000 description 1
- YROXIXLRRCOBKF-UHFFFAOYSA-N sulfonylurea Chemical class OC(=N)N=S(=O)=O YROXIXLRRCOBKF-UHFFFAOYSA-N 0.000 description 1
- 229910052717 sulfur Inorganic materials 0.000 description 1
- 239000011593 sulfur Substances 0.000 description 1
- 230000010741 sumoylation Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 108700029760 synthetic LTSP Proteins 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 229960002180 tetracycline Drugs 0.000 description 1
- 229930101283 tetracycline Natural products 0.000 description 1
- 235000019364 tetracycline Nutrition 0.000 description 1
- 150000003522 tetracyclines Chemical class 0.000 description 1
- 229940094937 thioredoxin Drugs 0.000 description 1
- 108010031491 threonyl-lysyl-glutamic acid Proteins 0.000 description 1
- 231100000167 toxic agent Toxicity 0.000 description 1
- 230000005026 transcription initiation Effects 0.000 description 1
- 238000012033 transcriptional gene silencing Methods 0.000 description 1
- 108091008023 transcriptional regulators Proteins 0.000 description 1
- 230000037426 transcriptional repression Effects 0.000 description 1
- 108091006107 transcriptional repressors Proteins 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000005945 translocation Effects 0.000 description 1
- 230000032258 transport Effects 0.000 description 1
- 239000001226 triphosphate Substances 0.000 description 1
- 235000011178 triphosphate Nutrition 0.000 description 1
- UNXRWKVEANCORM-UHFFFAOYSA-N triphosphoric acid Chemical compound OP(O)(=O)OP(O)(=O)OP(O)(O)=O UNXRWKVEANCORM-UHFFFAOYSA-N 0.000 description 1
- HRXKRNGNAMMEHJ-UHFFFAOYSA-K trisodium citrate Chemical compound [Na+].[Na+].[Na+].[O-]C(=O)CC(O)(CC([O-])=O)C([O-])=O HRXKRNGNAMMEHJ-UHFFFAOYSA-K 0.000 description 1
- 229940038773 trisodium citrate Drugs 0.000 description 1
- 108010038745 tryptophylglycine Proteins 0.000 description 1
- 201000008827 tuberculosis Diseases 0.000 description 1
- 108010012567 tyrosyl-glycyl-glycyl-phenylalanyl Proteins 0.000 description 1
- 108010051110 tyrosyl-lysine Proteins 0.000 description 1
- DRTQHJPVMGBUCF-UHFFFAOYSA-N uracil arabinoside Natural products OC1C(O)C(CO)OC1N1C(=O)NC(=O)C=C1 DRTQHJPVMGBUCF-UHFFFAOYSA-N 0.000 description 1
- 229940045145 uridine Drugs 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000002792 vascular Effects 0.000 description 1
- 235000013311 vegetables Nutrition 0.000 description 1
- 210000003501 vero cell Anatomy 0.000 description 1
- 230000035899 viability Effects 0.000 description 1
- 230000009385 viral infection Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/87—Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
- C12N15/90—Stable introduction of foreign DNA into chromosome
- C12N15/902—Stable introduction of foreign DNA into chromosome using homologous recombination
- C12N15/905—Stable introduction of foreign DNA into chromosome using homologous recombination in yeast
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/102—Mutagenizing nucleic acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
- C12N15/111—General methods applicable to biologically active non-coding nucleic acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
- C12N15/113—Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/63—Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
- C12N15/79—Vectors or expression systems specially adapted for eukaryotic hosts
- C12N15/80—Vectors or expression systems specially adapted for eukaryotic hosts for fungi
- C12N15/81—Vectors or expression systems specially adapted for eukaryotic hosts for fungi for yeasts
- C12N15/815—Vectors or expression systems specially adapted for eukaryotic hosts for fungi for yeasts for yeasts other than Saccharomyces
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/87—Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
- C12N15/90—Stable introduction of foreign DNA into chromosome
- C12N15/902—Stable introduction of foreign DNA into chromosome using homologous recombination
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N9/00—Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
- C12N9/14—Hydrolases (3)
- C12N9/16—Hydrolases (3) acting on ester bonds (3.1)
- C12N9/22—Ribonucleases RNAses, DNAses
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2310/00—Structure or type of the nucleic acid
- C12N2310/10—Type of nucleic acid
- C12N2310/12—Type of nucleic acid catalytic nucleic acids, e.g. ribozymes
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2310/00—Structure or type of the nucleic acid
- C12N2310/10—Type of nucleic acid
- C12N2310/20—Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2800/00—Nucleic acids vectors
- C12N2800/22—Vectors comprising a coding region that has been codon optimised for expression in a respective host
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2800/00—Nucleic acids vectors
- C12N2800/80—Vectors containing sites for inducing double-stranded breaks, e.g. meganuclease restriction sites
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Genetics & Genomics (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Biomedical Technology (AREA)
- Zoology (AREA)
- Organic Chemistry (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Wood Science & Technology (AREA)
- Biotechnology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biochemistry (AREA)
- Microbiology (AREA)
- General Health & Medical Sciences (AREA)
- Plant Pathology (AREA)
- Physics & Mathematics (AREA)
- Biophysics (AREA)
- Mycology (AREA)
- Medicinal Chemistry (AREA)
- Crystallography & Structural Chemistry (AREA)
- Micro-Organisms Or Cultivation Processes Thereof (AREA)
Abstract
세포 게놈에서 뉴클레오티드 서열의 변형을 위한 조성물 및 방법이 제공된다. 이 방법 및 조성물은 뉴클레오티드 서열을 변형하고/하거나 상동 유도 복구 빈도를 증가시키기 위해 가이드 폴리뉴클레오티드, 보호 폴리뉴클레오티드 변형 주형 및 Cas 엔도뉴클레아제를 이용한다. 이 방법은 또한 임의의 변형 주형의 부위를 벗어난 통합 빈도를 감소시키기 위해 이용될 수 있다. 본 발명은 또한 그 게놈에 변형 표적 부위를 포함하는 세포의 선택 방법 및 그 게놈의 표적 부위에 삽입된 관심 폴리뉴클레오티드를 포함하는 세포의 선택 방법을 기술한다.
Description
본 발명은 분자 생물학 분야, 특히 세포 게놈을 변경하는 방법에 관한 것이다. 구체적으로, 본 발명은 세포 및 생물에서 유전자 변형을 위한 가이드 폴리뉴클레오티드/Cas 복합체와 조합되는 보호 DNA 주형의 용도에 대한 것이다.
전자적으로 제출된 서열 목록에 대한 참조
본 서열 목록의 공식 사본은 2016년 10월 7일 작성되고 크기가 188킬로바이트이며 본 명세서와 동시에 제출된, 파일명 CL6641WOPCT2_SEQLISTING.txt의 ASCII 형식의 서열 목록으로서 EFS-웹을 통해 전자적으로 제출되었다. 이러한 ASCII 형식의 서류에 포함된 서열 목록은 본 명세서의 일부이며, 그 전체가 본원에 참조로 포함된다.
관련 출원에 대한 상호 참조
본 출원은 2015년 10월 12일에 출원된 미국 가출원 62/240,140호의 이익을 주장한다.
재조합 DNA 기술은 DNA 서열 및 게놈 서열의 표적화된 위치에서 DNA 서열을 변형(편집), 삽입 및/또는 결실할 수 있게 하였다. 부위 특이적 재조합 시스템을 이용한 부위 특이적 통합 기술뿐만 아니라 다른 방식의 재조합 기술이 유전자 발현을 억제할 뿐만 아니라 다양한 생물에서 관심 폴리뉴클레오티드의 표적화된 변형을 생성하는 데 이용되어 왔다. 유전자 발현의 억제는, 예를 들어, 유전자의 "녹아웃"을 유발하는 유전자의 DNA 서열을 중단시키거나 결실시켜 달성될 수 있다(Austin et al., Nat. Genetics 36:921-924). 유전자 녹아웃은 대부분 박테리아에서 포유동물까지의 다양한 생물 전반에 걸쳐 적용할 수 있는 기술인 상동 재조합(HR)을 통해 수행되어 왔다. 유전적 "녹인"을 유발하는 DNA 서열의 게놈내 삽입도 HR에 의해 수행될 수 있다. 게놈-편집 기술, 예컨대 디자이너 징크 핑거 뉴클레아제(ZFN), 전사 활성화제-유사 이펙터 뉴클레아제(TALEN), 귀소 메가뉴클레아제, 또는 유도 Cas9 시스템을 표적화된 게놈 교란을 생성하기 위해 이용할 수 있다.
HR에 의한 유전자 변형은 강력한 도구이지만, 복잡하고, 노동-집약적인 과정일 수 있으며, 일반적으로 비용 효과적인 방식으로 스케일-업하기 어렵다. HR이 효율적이지 못한 생물에서는 이러한 어려움이 악화된다. 이러한 낮은 효율은 일반적으로 실시자로 하여금 원하는 HR 사건이 일어난 세포의 동정을 돕는 선택 가능한 표현형 또는 외인성 마커에 의존하게 만든다.
상동 재조합의 강도를 증가시키며 저렴하고, 설정이 용이하고, 스케일 조정이 가능하고, 생물 게놈 내의 여러 위치를 쉽게 표적화할 수 있는 새로운 게놈 조작 기술에 대한 필요성이 여전히 존재한다.
세포 게놈에서 뉴클레오티드 서열의 변형을 위한 조성물 및 방법이 제공된다. 이 방법 및 조성물은 뉴클레오티드 서열을 변형하고/하거나 상동 유도 복구 빈도를 증가시키기 위해 가이드 폴리뉴클레오티드, 보호 폴리뉴클레오티드 변형 주형 및 Cas 엔도뉴클레아제를 이용한다. 이 방법은 또한 임의의 변형 주형의 부위를 벗어난 통합 빈도를 감소시키기 위해 이용될 수 있다. 본 발명은 또한 그 게놈에 변형 표적 부위를 포함하는 세포의 선택 방법 및 그 게놈의 표적 부위에 삽입된 관심 폴리뉴클레오티드를 포함하는 세포의 선택 방법을 기술한다.
본 발명의 하나의 구현예에서, 이 방법은 그 게놈에 변형 뉴클레오티드 서열을 포함하는 세포의 선택 방법을 포함하며, 방법은 a) 세포에 가이드 폴리뉴클레오티드, 적어도 하나의 보호 폴리뉴클레오티드 변형 주형 및 Cas 엔도뉴클레아제를 제공하는 단계로서, 상기 Cas 엔도뉴클레아제 및 가이드 폴리뉴클레오티드는 상기 세포의 게놈 내 표적 부위에서 단일 또는 이중 가닥 절단을 도입할 수 있는 복합체를 형성할 수 있고, 상기 보호 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는 단계; 및 b) 상기 변형 뉴클레오티드 서열을 포함하는 단계 (a)로부터의 세포를 선택하는 단계를 포함한다. 보호 폴리뉴클레오티드 변형 주형은 그 5' 말단, 3' 말단, 또는 5' 및 3' 말단 둘 다에 적어도 하나의 보호 분자를 포함하는 선형 폴리뉴클레오티드일 수도 있고, 또는 원형 분자일 수도 있다. 보호 분자는 알칸 스페이서, 형광단, NHS 에스테르, 디곡시젠, 콜레스테릴-TEG, C6, C12, 헥시닐, 옥스타디이닐 dUTP, 바이오틴, 디티올, 역위 디데옥시-T 변형 또는 이의 임의의 한 조합으로 이루어진 군으로부터 선택될 수 있다. 보호 폴리뉴클레오티드 변형 주형은 적어도 한 가닥의 5'-말단에 적어도 하나의 포스포로티오에이트 결합을 포함하는 이중 가닥 선형 분자일 수 있다. 보호 폴리뉴클레오티드 변형 주형은 각 가닥의 5'-말단에 3탄소 알칼리성 스페이서를 포함하는 이중 가닥 선형 분자일 수 있다. 보호 폴리뉴클레오티드 주형의 적어도 하나의 뉴클레오티드 변형은 (i) 적어도 하나의 뉴클레오티드의 치환, (ii) 적어도 하나의 뉴클레오티드의 결실, (iii) 적어도 하나의 뉴클레오티드의 삽입, 및 (iv) (i) 내지 (iii)의 임의의 조합으로 이루어진 군으로부터 선택될 수 있다.
본 발명의 하나의 구현예에서, 이 방법은 상기 세포에서 상동 유도 복구(Homologous Directed Repair, HDR) 및 비-상동 말단 연결(Non-Homologous End Joining, NHEJ)의 빈도를 결정하는 단계를 추가로 포함한다.
본 발명의 하나의 구현예에서, 이 방법은 상기 세포에서 보호 폴리뉴클레오티드 변형 주형의 부위를 벗어난 통합 빈도를 결정하는 단계를 추가로 포함한다. 상기 세포에서 보호 폴리뉴클레오티드 변형 주형의 부위를 벗어난 통합 빈도는 비보호(대조군) 폴리뉴클레오티드 변형 주형을 사용한 것을 제외하고 상기 방법과 모두 동일한 성분 및 단계를 갖는 대조 방법에서 유도되는 부위를 벗어난 통합 빈도에 비해 감소될 수 있다.
본 발명의 하나의 구현예에서, 이 방법은 그 게놈의 표적 부위에 삽입된 관심 폴리뉴클레오티드를 포함하는 세포를 선택하는 방법을 포함하며, 이 방법은 a) 세포에 가이드 폴리뉴클레오티드, 보호 폴리뉴클레오티드 공여 DNA 및 Cas 엔도뉴클레아제를 제공하는 단계로서, 상기 Cas 엔도뉴클레아제 및 가이드 폴리뉴클레오티드는 상기 세포의 게놈 내 표적 부위에서 단일 또는 이중 가닥 절단을 도입할 수 있는 복합체를 형성할 수 있고, 상기 보호 폴리뉴클레오티드 공여 DNA는 상기 세포의 게놈 내로 삽입될 관심 폴리뉴클레오티드를 포함하는 단계; 및 b) 그 게놈의 표적 부위에 삽입된 관심 폴리뉴클레오티드를 포함하는 단계 (a)로부터의 세포를 선택하는 단계를 포함한다.
또한, 본원에 기술된 방법에 의해 생성된, 표적 부위가 변경되거나 관심 폴리뉴클레오티드가 변경된 핵산 작제물, 효모, 진균, 미생물, 식물, 식물 세포, 외식편, 종자 및 곡물이 제공된다. 본 발명의 방법 및 조성물의 추가적인 구현예가 본원에 제시된다.
도면의 간단한 설명 및 서열 목록
본 발명은 본 출원의 일부를 구성하는 첨부 도면 및 서열 목록 및 다음의 상세한 설명으로부터 더욱 완전하게 이해될 수 있다. 본원에 첨부된 서열 기술 및 서열 목록은 37 C.F.R. §§1.821-1.825에 명시된 바와 같이 특허 출원에서 뉴클레오티드 및 아미노산 서열 공개를 규율하는 규칙을 따른다. 서열 기술은 본원에 참조로 포함되는 37 C.F.R. §§ 1.821-1.825에 정의된 바와 같은 아미노산에 대한 3글자 코드를 포함한다.
도면
도 1은 고처리량 gRNA 클로닝 카세트의 구조를 도시한다(예를 들어, pRF291의 SEQ ID NO: 12를 포함하지만, 이에 한정되지는 않음. 카세트는 프로모터(검은색으로 채워 나타냄), 5' 리보자임을 암호화하는 DNA(회색으로 채워 나타냄), 2개의 제한 부위가 플랭킹한 역 선택 카세트(수평선으로 채워 나타냄), CER 도메인을 암호화하는 DNA(CER로 나타냄) 및 전사 종결자(점으로 채움)로 구성된다. 정확한 돌출부 말단(VT, 수직선으로 채워 나타냄)을 갖는 가변 표적화 도메인을 포함하는 DNA 듀플렉스가 제한 효소 및 DNA 리가아제의 존재 하에 카세트를 포함하는 플라스미드와 혼합되는 경우, 역 선택 카세트(수평선으로 채움)는 VT 도메인(수직선)에 의해 치환될 수 있다. 역 선택 카세트의 부재에 대해 선택하여 이러한 사건이 시험관내 선택될 수 있다. 생성물은 기능적 gRNA 발현 카세트이다.
도 2는 SEQ ID NO:19 및 SEQ ID NO:20)을 포함하는 고처리량 플라스미드 pRF291과 함께 사용하기 위한 가변 표적화 도메인 듀플렉스(SEQ ID NO:19 및 SEQ ID NO:20)를 도시한다.
도 3a~3d는 상이한 폴리뉴클레오티드 변형 주형을 도시한다. 도 3a는 상동성 암 1(검은색으로 채움) 및 상동성 암 2(사선으로 채움)가 플랭킹한 CAN1 오픈 리딩 프레임(수직선으로 채움)을 갖는 야생형(WT) CAN1 유전자좌를 도시한다. 도 3b는 2개의 상동성 암(암 1, 검은색으로 채움 및 암 2, 사선으로 채움)으로 구성된 비보호(비변형) 폴리뉴클레오티드 변형 주형을 도시한다. 도 3c는 DNA(점으로 채움)에 원하는 변형(보호)을 포함하는 5' 및 3' 말단을 갖는 2개의 상동성 암(암 1, 검은색으로 채움 및 암 2, 사선으로 채움)으로 구성된 보호 폴리뉴클레오티드 변형 주형을 도시한다. 도 3d는 원형 분자로 제조된, 2개의 상동성 암(암 1, 검은색으로 채움 및 암 2, 사선으로 채움)으로 구성된 보호 폴리뉴클레오티드 변형 주형을 도시한다.
도 4: pRF437로 처리된 세포로부터 URA3 유전자좌의 예시적 PCR은 WT URA3 유전자좌에 대해 예상 크기에 밴드를 갖는 삽입-결실 돌연변이를 포함하는 콜로니 및 더 작은 예상 밴드를 포함하는 HDR에 의한 URA3 ORF 결실을 포함하는 콜로니를 나타냄.
본 발명은 본 출원의 일부를 구성하는 첨부 도면 및 서열 목록 및 다음의 상세한 설명으로부터 더욱 완전하게 이해될 수 있다. 본원에 첨부된 서열 기술 및 서열 목록은 37 C.F.R. §§1.821-1.825에 명시된 바와 같이 특허 출원에서 뉴클레오티드 및 아미노산 서열 공개를 규율하는 규칙을 따른다. 서열 기술은 본원에 참조로 포함되는 37 C.F.R. §§ 1.821-1.825에 정의된 바와 같은 아미노산에 대한 3글자 코드를 포함한다.
도면
도 1은 고처리량 gRNA 클로닝 카세트의 구조를 도시한다(예를 들어, pRF291의 SEQ ID NO: 12를 포함하지만, 이에 한정되지는 않음. 카세트는 프로모터(검은색으로 채워 나타냄), 5' 리보자임을 암호화하는 DNA(회색으로 채워 나타냄), 2개의 제한 부위가 플랭킹한 역 선택 카세트(수평선으로 채워 나타냄), CER 도메인을 암호화하는 DNA(CER로 나타냄) 및 전사 종결자(점으로 채움)로 구성된다. 정확한 돌출부 말단(VT, 수직선으로 채워 나타냄)을 갖는 가변 표적화 도메인을 포함하는 DNA 듀플렉스가 제한 효소 및 DNA 리가아제의 존재 하에 카세트를 포함하는 플라스미드와 혼합되는 경우, 역 선택 카세트(수평선으로 채움)는 VT 도메인(수직선)에 의해 치환될 수 있다. 역 선택 카세트의 부재에 대해 선택하여 이러한 사건이 시험관내 선택될 수 있다. 생성물은 기능적 gRNA 발현 카세트이다.
도 2는 SEQ ID NO:19 및 SEQ ID NO:20)을 포함하는 고처리량 플라스미드 pRF291과 함께 사용하기 위한 가변 표적화 도메인 듀플렉스(SEQ ID NO:19 및 SEQ ID NO:20)를 도시한다.
도 3a~3d는 상이한 폴리뉴클레오티드 변형 주형을 도시한다. 도 3a는 상동성 암 1(검은색으로 채움) 및 상동성 암 2(사선으로 채움)가 플랭킹한 CAN1 오픈 리딩 프레임(수직선으로 채움)을 갖는 야생형(WT) CAN1 유전자좌를 도시한다. 도 3b는 2개의 상동성 암(암 1, 검은색으로 채움 및 암 2, 사선으로 채움)으로 구성된 비보호(비변형) 폴리뉴클레오티드 변형 주형을 도시한다. 도 3c는 DNA(점으로 채움)에 원하는 변형(보호)을 포함하는 5' 및 3' 말단을 갖는 2개의 상동성 암(암 1, 검은색으로 채움 및 암 2, 사선으로 채움)으로 구성된 보호 폴리뉴클레오티드 변형 주형을 도시한다. 도 3d는 원형 분자로 제조된, 2개의 상동성 암(암 1, 검은색으로 채움 및 암 2, 사선으로 채움)으로 구성된 보호 폴리뉴클레오티드 변형 주형을 도시한다.
도 4: pRF437로 처리된 세포로부터 URA3 유전자좌의 예시적 PCR은 WT URA3 유전자좌에 대해 예상 크기에 밴드를 갖는 삽입-결실 돌연변이를 포함하는 콜로니 및 더 작은 예상 밴드를 포함하는 HDR에 의한 URA3 ORF 결실을 포함하는 콜로니를 나타냄.
서열
설명 | 핵산 SEQ ID NO. |
단백질 SEQ ID NO. |
Cas9 엔도뉴클레아제, 스트렙토코커스 피오제네스(Streptococcus pyogenes) | 1 | |
야로위아(Yarrowia) 코돈 최적화 Cas9 | 2 | |
SV40 핵 국재화 신호 | 3 | |
FBA1 프로모터 | 4 | |
야로위아 최적화 발현 카세트 | 5 | |
pZufCas9 | 6 | |
AarI-제거 1 프라이머 | 7 | |
AarI-제거 2 프라이머 | 8 | |
pRF109 | 9 | |
Aar1-Cas9 ORF(Aar1-Cas9CG 유전자) | 10 | |
pRF141 | 11 | |
고처리량 클로닝 카세트 | 12 | |
yl52 프로모터 | 13 | |
HDV 리보자임을 암호화하는 DNA | 14 | |
rpsL 역 선택 마커 | 15 | |
Cas9 CER 도메인을 암호화하는 DNA | 16 | |
SUP4 종결자 | 17 | |
pRF291 | 18 | |
Can1-1F | 19 | |
Can1-1R | 20 | |
Can1-1 VT 도메인을 암호화하는 DNA | 21 | |
Can1-1 표적 부위 | 22 | |
CAN1 유전자, 야로위아 리폴리티카(Yarrowia lipolytica) | 23 | |
pRF303 | 24 | |
can1 상류 상동성 암 | 25 | |
Can1 상류 전방 | 26 | |
Can1 상류 후방 | 27 | |
Can1 하류 상동성 암 | 28 | |
Can1 하류 상동성 암 전방 프라이머 | 29 | |
Can1 하류 상동성 암 후방 프라이머 | 30 | |
Can1 폴리뉴클레오티드 변형 주형(편집 주형) 클로닝 단편 | 31 | |
pUC18 | 32 | |
pRF80 | 33 | |
Can1 폴리뉴클레오티드 변형 주형 | 34 | |
SEQ ID NO:35에 기재된 처음 5' 염기(A) 상류에 /5SpC3/을 갖는 C3S 전방(/5SpC3/AGCTTGCTACGTTAGGAGAA) | 35 | |
SEQ ID NO:36에 기재된 처음 5' 염기(T) 상류에 /5SpC3/을 갖는 C3S 후방(/5SpC3/TATGAGCTTATCCTGTATCG) | 36 | |
처음 5개 5' 뉴클레오티드가 변형된 PT 전방 프라이머(A*G*C*T*T*GCTACGTTAGGAGAA) | 37 | |
처음 5개 5' 뉴클레오티드가 변형된 PT 후방(T*A*T*G*A*GCTTATCCTGTATCG) | 38 | |
CAN1 유전자좌(콜로니 PCR) | 39 | |
비변형 전방 프라이머 | 40 | |
비변형 후방 프라이머 | 41 | |
Can1 유전자좌 전방 | 42 | |
Can1 유전자좌 후방 | 43 | |
Can1 유전자좌 WT | 44 | |
Can1 유전자좌 결실 | 45 | |
사본수 분석 단편 | 46 | |
Can1 사본수 F | 47 | |
Can1 사본수 R | 48 | |
Can1 사본수 프로브(6FAM-CTTTTCGCCCCCACTGCAGCC-TAMRA) | 49 | |
TEF1 유전자좌 | 50 | |
TEF1 전방 | 51 | |
TEF1 후방 | 52 | |
TEF1 프로브(6FAM-TGCTGGTGGTGTTGGTGAGTT-TAMRA) | 53 | |
pRF434 | 54 | |
히그로마이신 저항성 카세트 | 55 | |
URA3 유전자좌, 야로위아 리폴리티카 | 56 | |
ura3-1 표적 부위, 야로위아 리폴리티카 | 57 | |
ura3-1F | 58 | |
ura3-1R | 59 | |
Ura3-1 VT 도메인을 암호화하는 DNA | 60 | |
pRF421 | 61 | |
URA3 상류 서열 | 62 | |
URA3 하류 서열 | 63 | |
URA3 결실 폴리뉴클레오티드 편집 주형 | 64 | |
pRF263 | 65 | |
HY007 | 66 | |
올리고 297 | 67 | |
EcoRI 플랭킹 URA3 결실 주형 | 68 | |
pRF437 | 69 | |
올리고 308 | 70 | |
올리고 309 | 71 | |
URA3 유전자좌 결실 PCR 생성물 | 72 |
세포 게놈에서 뉴클레오티드 서열의 변형을 위한 조성물 및 방법이 제공된다. 이 방법 및 조성물은 뉴클레오티드 서열을 변형하고/하거나 상동 유도 복구 빈도를 증가시키기 위해 가이드 폴리뉴클레오티드, 보호 폴리뉴클레오티드 변형 주형 및 Cas 엔도뉴클레아제를 이용한다. 이 방법은 또한 임의의 변형 주형이 부위를 벗어나 통합된 경우 그 빈도를 감소시키기 위해 이용될 수 있다.
비-상동 말단 연결(NHEJ)이 상동 유도 복구(HDR), 그리고 결과적으로 표적화된 DNA 절단의 복구에 기초하는 유전 편집에 비해 우세한 비 통상적인 효모, 식물, 동물을 포함하지만 이에 한정되지 않는 여러 세포 유형은 폴리뉴클레오티드 변형 주형에 기초하는 정확한 유전자 편집 외에도 높은 백그라운드 NHEJ 돌연변이를 가질 것이다. 정확한 편집(뉴클레오티드 변형) 및/또는 보호 변형 주형의 부위를 벗어난 통합 감소를 유도하는 HDR 빈도를 증가시키기 위해 보호 폴리뉴클레오티드 변형 주형을 사용하는 방법 및 조성물이 본원에 기술된다.
모든 인용된 특허 및 비 특허 문헌의 개시 내용은 그 전체가 참조로 본원에 포함된다.
본원의 용어 "세포"는 임의의 유형의 세포, 예컨대, 원핵 세포 또는 진핵 세포를 지칭한다. 진핵 세포는 핵 및 기타 막으로 둘러싸인 구조물(세포 기관)이 있지만, 원핵 세포는 핵이 없다. 특정 구현예에서의 세포는 포유류 세포 또는 비 포유류 세포일 수 있다. 비 포유류 세포는 진핵 또는 원핵일 수 있다. 예를 들어, 본원의 비 포유류 세포는 미생물 세포 또는 비 포유류의 다세포 생물, 예컨대, 식물, 곤충, 선충, 조류 종, 양서류, 파충류, 또는 어류의 세포를 지칭할 수 있다. 본원의 미생물 세포는 예를 들어, 진균 세포(예컨대, 효모 세포), 원핵 세포, 원생 세포(예컨대, 조류 세포), 유글레나 세포, 스트라메노필(stramenopile) 세포, 또는 난균 세포를 지칭할 수 있다. 본원의 원핵 세포는 예를 들어, 박테리아 세포 또는 고세균 세포를 지칭할 수 있다.
본원의 용어 "효모"는 주로 단세포 형태로 존재하는 진균 종을 지칭한다. 효모는 대안적으로 "효모 세포"로 지칭될 수 있다. 본원에서 효모는 예를 들어, 통상적인 효모 또는 비 통상적인 효모로 특징지어질 수 있다.
본원의 용어 "통상적인 효모"("모델 효모")는 일반적으로 사카로마이세스(Saccharomyces) 또는 스키조사카로마이세스(Schizosaccharomyces) 효모 종을 지칭한다. 특정 구현예에서 통상적인 효모는 비 상동 말단 연결(NHEJ)에 의해 매개되는 복구 프로세스보다 상동 재조합(HR) DNA 복구 프로세스를 선호하는 효모이다.
본원에서 용어 "비 통상적인 효모"는 "통상적인"("모델") 효모, 예컨대 사카로마이세스(예를 들어, 출아 효모, 빵 효모, 및/또는 맥주 효모로도 알려져 있는 S. 세레비시아(S. cerevisiae)) 또는 스키조사카로마이세스(예를 들어, 분열 효모로도 알려져 있는 S. 폼베(S. pombe)) 종이 아닌 임의의 효모를 지칭한다. 본원의 특정 양태에서 비 통상적인 효모는 무성으로(무성생식형) 또는 유성으로(유성생식형) 생식하는 것일 수 있다. 본원의 비 통상적인 효모는 일반적으로 단일세포 형태로 존재하지만, 이들 효모의 특정 유형은 선택적으로, 가성균사(일렬로 연결된 발아 세포)를 형성할 수 있다. 또 다른 양태에서, 비 통상적인 효모는 일배체 또는 이배체일 수 있고/있거나, 이들 배수성 형태 중 어느 하나로 존재하는 능력을 가질 수 있다. 비-통상적인 효모는 본원에 참조로 포함되는 Non-Conventional Yeasts in Genetics, Biochemistry and Biotechnology: Practical Protocols(K. Wolf, K.D. Breunig, G. Barth, Eds., Springer-Verlag, Berlin, Germany, 2003) 및 Spencer 등(Appl. Microbiol. Biotechnol. 58:147-156)에 기술되어 있다. 특정 구현예에서 비 통상적인 효모는 추가적으로(또는 대안적으로) HR에 의해 매개되는 복구 프로세스보다 NHEJ DNA 복구 프로세스를 선호하는 효모일 수 있다. 이러한 계통 - HR보다 NHEJ 선호 - 에 따른 비 통상적인 효모의 정의는 본원에 참조로 포함되는 Chen 등(PLoS ONE 8:e57952)에 의해 추가로 개시되어 있다. 본원에서 바람직한 비 통상적인 효모는 야로위아 속의 것들(예를 들어, 야로위아 리폴리티카)이다.
CRISPR 유전자좌(클러스터링된 규칙적으로 산재된 짧은 회문구조 반복, Clustered Regularly Interspaced Short Palindromic Repeats)(SPIDR - 스페이서 산재된 직접 반복 - 로도 알려져 있음)는 DNA 유전자좌 패밀리를 구성한다. CRISPR 유전자좌는 부분적으로 회문구조인, 짧고 고도로 보존된 DNA 반복(일반적으로 24 내지 40 bp, 1 내지 140회 반복됨 - CRISPR-반복으로도 지칭됨)으로 이루어진다. 반복 서열(보통 종에 대해 특이적임)은 일정한 길이의 가변 서열(CRISPR 유전자좌에 따라 일반적으로 20 내지 58 bp에 의해 산재되어 있다(WO2007/025097, 2007년 3월 1일 공개됨). 박테리아 및 고세균은 외래 핵산의 분해를 유도하기 위해 짧은 RNA를 이용하는 클러스터링된 규칙적으로 산재된 짧은 회문구조 반복(CRISPR)/CRISPR-결합(Cas) 시스템으로 명명된 적응 면역 방어를 진화시켰다((Horvath and Barrangou, Science 327:167-170; Karginov and Hannon, Mol. Cell 37:7-19). WO2007/025097, 2007년 3월 1일 공개됨). 박테리아로부터의 II형 CRISPR/Cas 시스템은 crRNA(CRISPR RNA) 및 tracrRNA(트랜스-활성화 CRISPR RNA)를 이용하여 Cas 엔도뉴클레아제를 그 DNA 표적으로 유도한다. crRNA는 이중 가닥 DNA 표적의 한 가닥에 상보적인 영역 및 Cas 엔도뉴클레아제가 DNA 표적을 절단하도록 유도하는 RNA 듀플렉스를 형성하는 tracrRNA(트랜스-활성화 CRISPR RNA)와 염기쌍을 이루는 영역을 포함한다.
Cas 유전자는 일반적으로 플랭킹 CRISPR 유전자좌에 커플링되거나 결합되거나 가까이 있거나, 또는 그 부근에 있는 유전자를 포함한다. 용어 "Cas 유전자", "CRISPR-결합(Cas) 유전자"는 본원에서 상호 교환적으로 사용된다. Cas 단백질 패밀리의 종합적인 검토는 Haft et al. (2005) Computational Biology, PLoS Comput Biol 1(6): e60. doi:10.1371/journal.pcbi.0010060에 기술되어 있다. 여기에 기술된 바와 같이, 이전에 공지된 4개의 유전자 패밀리 이외에 41개의 CRISPR-결합(Cas) 유전자 패밀리가 기술되어 있다. CRISPR 시스템은 상이한 반복 패턴, 유전자 세트, 및 종 범위를 갖는, 상이한 클래스에 속하는 것으로 나타난다. 주어진 CRISPR 유전자좌에서 Cas 유전자의 수는 종 간에 변할 수 있다.
본원에서 용어 Cas 엔도뉴클레아제는 Cas(CRISPR-결합) 유전자에 의해 암호화되는 단백질을 지칭한다. Cas 엔도뉴클레아제는, 적합한 폴리뉴클레오티드 성분과의 복합체인 경우, 특정 DNA 표적 서열의 전부 또는 일부를 인식하고 거기에 결합하고, 선택적으로 닉킹 또는 절단할 수 있다.
본원에 사용된 용어 "가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체", "가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템", "가이드 폴리뉴클레오티드/Cas 복합체", "가이드 폴리뉴클레오티드/Cas 시스템", "유도 Cas 시스템"은 본원에서 상호 교환적으로 사용되고, 복합체를 형성할 수 있는 적어도 하나의 가이드 폴리뉴클레오티드 및 적어도 하나의 Cas 엔도뉴클레아제를 지칭하며, 상기 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 Cas 엔도뉴클레아제를 DNA 표적 부위로 유도하여 Cas 엔도뉴클레아제가 DNA 표적 부위를 인식하고 거기에 결합하고, 선택적으로 닉킹 또는 절단(단일 또는 이중 가닥 절단을 도입)할 수 있게 할 수 있다. 본원의 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 4개의 알려진 CRISPR 시스템(Horvath and Barrangou, Science 327:167-170), 예컨대, I형, II형 또는 III형 CRISPR 시스템 중 어느 하나의 적합한 폴리뉴클레오티드 성분(들) 및 Cas 단백질(들)을 포함할 수 있다. Cas 엔도뉴클레아제는 표적 서열에서 DNA 듀플렉스를 풀고, Cas 단백질과의 복합체인 폴리뉴클레오티드(예컨대, 이에 한정되는 것은 아니지만, crRNA 또는 가이드 RNA)에 의한 표적 서열의 인식에 의해 매개되는 바와 같이, 적어도 하나의 DNA 가닥을 선택적으로 절단한다. 일반적으로 Cas 엔도뉴클레아제에 의한 이러한 표적 서열의 인식 및 절단은 정확한 프로토스페이서-인접 모티프(PAM)가 DNA 표적 서열의 3' 말단에 위치하거나 인접한 경우 발생한다. 대안적으로, 본원에서 Cas 단백질은 DNA 절단 또는 닉킹 활성이 없을 수 있지만, 적합한 RNA 성분과 복합체를 형성한 경우 여전히 DNA 표적 서열에 특이적으로 결합할 수 있다(둘 다 그 전체가 본원에 참조로 포함되는, 2015년 3월 19일 공개된 미국 특허 출원 US 2015-0082478 A1 및 2015년 2월 26일 공개된 US 2015-0059010 A1을 또한 참조.)
가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 DNA 표적 서열의 한 가닥 또는 두 가닥을 절단할 수 있다. DNA 표적 서열의 두 가닥을 절단할 수 있는 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 일반적으로 이의 엔도뉴클레아제 도메인 모두를 기능적 상태(functional state)로 가지는 Cas 단백질을 포함한다(예를 들어, 야생형 엔도뉴클레아제 도메인 또는 각각의 엔도뉴클레아제 도메인에서 일부 또는 모든 활성을 보유하는 이들의 변이체). 따라서, 야생형 Cas 단백질(예를 들어, 본원에 개시된 Cas9 단백질) 또는 Cas 단백질의 각각의 엔도뉴클레아제 도메인에서 일부 또는 모든 활성을 보유하는 이의 변이체는 DNA 표적 서열의 두 가닥을 절단할 수 있는 Cas 엔도뉴클레아제의 적절한 예이다. 기능적 RuvC 및 HNH 뉴클레아제 도메인을 포함하는 Cas9 단백질은 DNA 표적 서열의 두 가닥을 절단할 수 있는 Cas 단백질의 예이다. DNA 표적 서열의 한 가닥을 절단할 수 있는 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 본원에서 닉카아제 활성(예를 들어, 부분 절단 능력)을 갖는 것으로 특징지어질 수 있다. Cas 닉카아제는 일반적으로, Cas가 DNA 표적 서열 중 한 가닥만 절단하도록 하는(즉, 닉을 형성하도록 하는) 하나의 기능적 엔도뉴클레아제 도메인을 포함한다. 예를 들어, Cas9 닉카아제는 (i) 돌연변이 기능장애 RuvC 도메인 및 (ii) 기능적 HNH 도메인(예를 들어, 야생형 HNH 도메인)을 포함할 수 있다. 다른 예로서, Cas9 닉카아제는 (i) 기능적 RuvC 도메인(예를 들어, 야생형 RuvC 도메인) 및 (ii) 돌연변이 기능장애 HNH 도메인을 포함할 수 있다. 본원에 사용하기에 적합한 Cas9 닉카아제의 비제한적인 예는 본원에 참조로 포함되는 Gasiunas 등(Proc. Natl. Acad. Sci. U.S.A. 109:E2579-E2586), Jinek 등(Science 337:816-821), Sapranauskas 등(Nucleic Acids Res. 39:9275-9282) 및 U.S. 특허 출원 공개 2014/0189896호에 의해 개시되어 있다.
DNA 표적화의 특이성을 증가시키기 위해 한 쌍의 Cas9 닉카아제가 사용될 수 있다. 일반적으로, 이는, 상이한 가이드 서열을 갖는 RNA 성분들과 결합되어 있기 때문에, 원하는 표적화를 위한 영역에서 반대 가닥 상의 가까운 DNA 서열을 표적화하고 닉을 형성하는 2개의 Cas9 닉카아제를 제공함으로써 수행될 수 있다. 각각의 DNA 가닥의 이러한 가까운 절단은 이중 가닥 절단(즉, 단일-가닥 돌출부를 갖는 DSB)을 생성하고, 이는 이어서 비상동 말단 연결, NHEJ(삽입-결실 형성을 유도함) 또는 상동 재조합, HR을 위한 기질로서 인식된다. 이러한 구현예에서 각각의 닉은, 예를 들어, 서로 적어도 약 5, 10, 15, 20, 30, 40, 50, 60, 70, 80, 90 또는 100(또는 5와 100 사이의 임의의 정수)개의 염기만큼 이격될 수 있다. 본원의 하나 또는 두 개의 Cas9 닉카아제 단백질이 Cas9 닉카아제 쌍에서 사용될 수 있다. 예를 들어, 돌연변이 RuvC 도메인을 갖지만 기능적 HNH 도메인을 갖는 Cas9 닉카아제(즉, Cas9 HNH+/RuvC-)(예를 들어, 스트렙토코커스 피오제네스 Cas9 HNH+/RuvC-)가 사용될 수 있다. 각각의 Cas9 닉카아제(예를 들어, Cas9 HNH+/RuvC-)는 각각의 닉카아제를 각각의 특정 DNA 부위로 표적화하는 가이드 RNA 서열을 갖는 본원의 적합한 RNA 성분들을 사용하여, 서로 가까운(100개 이하의 염기쌍만큼 이격된) 특정 DNA 부위로 유도될 것이다.
Cas 단백질은 하나 이상의 이종 단백질 도메인(예를 들어, Cas 단백질 외에도 1개, 2개, 3개 이상의 도메인)을 포함하는 융합 단백질의 일부일 수 있다. 이러한 융합 단백질은 임의의 추가적인 단백질 서열, 및 선택적으로 임의의 두 도메인 사이, 예컨대, Cas와 제1 이종 도메인 사이의 링커 서열을 포함할 수 있다. 본원의 Cas 단백질에 융합될 수 있는 단백질 도메인의 예는 에피토프 태그(예를 들어, 히스티딘 [His], V5, FLAG, 인플루엔자 혈구응집소 [HA], myc, VSV-G, 티오레독신 [Trx]), 리포터(예를 들어, 글루타티온-5-트랜스퍼라아제 [GST], 홀스래디쉬 퍼옥시다아제 [HRP], 클로람페니콜 아세틸트랜스퍼라아제 [CAT], 베타-갈락토시다아제, 베타-글루쿠로니다아제 [GUS], 루시퍼라아제, 녹색 형광 단백질 [GFP], HcRed, DsRed, 청록색 형광 단백질 [CFP], 황색 형광 단백질 [YFP], 청색 형광 단백질 [BFP]) 및 메틸라아제 활성, 탈메틸라아제 활성, 전사 활성화 활성(예를 들어, VP16 또는 VP64), 전사 억제 활성, 전사 방출 인자 활성, 히스톤 변형 활성, RNA 절단 활성 및 핵산 결합 활성 중 하나 이상을 갖는 도메인을 포함하지만 이에 한정되는 것은 아니다. Cas 단백질은 DNA 분자 또는 다른 분자에 결합하는 단백질, 예컨대, 말토스 결합 단백질(MBP), S-태그, Lex A DNA 결합 도메인(DBD), GAL4A DNA 결합 도메인 및 단순 헤르페스 바이러스(HSV) VP16과 융합될 수도 있다.
본원에서 Cas 단백질은 다음 속 중 임의의 것으로부터 유래될 수 있다: 애로피룸(Aeropyrum), 피로바쿨룸(Pyrobaculum), 술폴로부스(Sulfolobus), 아캐오글로부스(Archaeoglobus), 할로아르쿨라(Haloarcula), 메타노박테리움(Methanobacteriumn), 메타노코커스(Methanococcus), 메타노사르시나(Methanosarcina), 메타노피러스(Methanopyrus), 피로코커스(Pyrococcus), 피크로필러스(Picrophilus), 써니오플라스니아(Thernioplasnia), 코리네박테리움(Corynebacterium), 마이코박테리움(Mycobacterium), 스트렙토마이세스(Streptomyces), 아퀴프릭스(Aquifrx), 포르프브로모나스(Porphvromonas), 클로로비움(Chlorobium), 써머스(Thermus), 바실러스(Bacillus), 리스테리아(Listeria), 스타필로코커스(Staphylococcus), 클로스트리디움(Clostridium), 써모안애로박터(Thermoanaerobacter), 마이코플라스마(Mycoplasma), 푸소박테리움(Fusobacterium), 아자쿠스(Azarcus), 크로모박테리움(Chromobacterium), 네이세리아(Neisseria), 니트로소모나스(Nitrosomonas), 디설포비브리오(Desulfovibrio), 지오박터(Geobacter), 미로코커스(Myrococcus), 캄필로박터(Campylobacter), 볼리넬라(Wolinella), 아시네토박터(Acinetobacter), 에르위니아(Erwinia), 에스케리챠(Escherichia), 레지오넬라(Legionella), 메틸로코커스(Methylococcus), 파스퇴렐라(Pasteurella), 포토박테리움(Photobacterium), 살모넬라(Salmonella), 잔토모나스(Xanthomonas), 예시니아(Yersinia), 스트렙토코커스(Streptococcus), 트레포네마(Treponema), 프란시셀라(Francisella) 또는 써모토가(Thermotoga). 대안적으로, 본원의 Cas 단백질은, 예를 들어, 본원에 참조로 포함되는 미국 특허 출원 공개 2010/0093617호에 개시된 바와 같이, SEQ ID NO: 462 내지 465, 467 내지 472, 474 내지 477, 479 내지 487, 489 내지 492, 494 내지 497, 499 내지 503, 505 내지 508, 510 내지 516 또는 517 내지 521 중 임의의 것에 의해 암호화될 수 있다.
특정 구현예에서 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체는 DNA 표적 부위 서열에 결합할 수 있지만, 표적 부위 서열에서 임의의 가닥을 절단하지 않는다. 이러한 복합체는 모든 뉴클레아제 도메인이 돌연변이 기능장애인 Cas 단백질을 포함할 수 있다. 예를 들어, DNA 표적 부위 서열에 결합할 수 있지만, 표적 부위 서열에서 임의의 가닥을 절단하지 않는 본원의 Cas9 단백질은 돌연변이 기능장애 RuvC 도메인 및 돌연변이 기능장애 HNH 도메인을 모두 포함할 수 있다. 표적 DNA 서열에 결합하지만 절단하지 않는 본원의 Cas 단백질은 유전자 발현을 조절하는 데 사용될 수 있으며, 예를 들어, 이 경우 Cas 단백질은 전사 인자(또는 이의 일부)(예를 들어, 억제 인자 또는 활성 인자, 예컨대, 본원에 개시된 것들 중 임의의 것)와 융합될 수 있다.
Cas 엔도뉴클레아제 유전자는 2007년 3월 1일에 공개되고 본원에 참조로 포함되는 WO2007/025097의 SEQ ID NO: 462, 474, 489, 494, 499, 505, 및 518에 기재된 Cas9 유전자와 같은 II형 Cas9 엔도뉴클레아제를 암호화하는 유전자일 수 있지만, 이에 한정되는 것은 아니다. Cas 엔도뉴클레아제 유전자는 Cas 코돈 영역 상류의 SV40 핵 표적화 신호 및 Cas 코돈 영역 하류의 2부분 VirD2 핵 국재화 신호에 작동 가능하게 연결될 수 있다(Tinland et al. (1992) Proc. Natl. Acad. Sci. USA 89:7442-6). 본원의 "Cas9"(이전에는 Cas5, Csn1 또는 Csx12로 지칭됨)는 DNA 표적 서열의 전부 또는 일부를 특이적으로 인식하고 절단하기 위해, cr뉴클레오티드 및 tracr뉴클레오티드와, 또는 단일 가이드 폴리뉴클레오티드와 복합체를 형성하는 II형 CRISPR 시스템의 Cas 엔도뉴클레아제를 지칭한다. Cas9 단백질은 RuvC 뉴클레아제 도메인 및 HNH(H-N-H) 뉴클레아제 도메인을 포함하며, 이들 각각은 표적 서열에서 단일 DNA 가닥을 절단할 수 있다(두 도메인의 공동 작용은 DNA 이중 가닥 절단을 유도하는 반면, 하나의 도메인의 활성은 닉을 유도함). 일반적으로, RuvC 도메인은 서브도메인 I, II 및 III을 포함하며, 여기서 도메인 I은 Cas9의 N 말단 근처에 위치하고, 서브도메인 II 및 III은 HNH 도메인에 플랭킹한 단백질의 중간에 위치한다(Hsu et al, Cell 157:1262-1278). ). II형 CRISPR 시스템은 적어도 하나의 폴리뉴클레오티드 성분과의 복합체로 Cas9 엔도뉴클레아제를 활용하는 DNA 절단 시스템을 포함한다. 예를 들어, Cas9는 CRISPR RNA(crRNA) 및 트랜스-활성화 CRISPR RNA(tracrRNA)와의 복합체일 수 있다. 다른 예에서, Cas9는 단일 가이드 RNA와의 복합체일 수 있다.
본원에 기술된 Cas9 단백질뿐만 아니라 본원의 기타 특정 Cas 단백질의 아미노산 서열은 예를 들어, 스트렙토코커스(예를 들어, S. 피오제네스(pyogenes), S. 뉴모니아(pneumoniae), S. 써모필러스(thermophilus), S. 아갈락티아(agalactiae), S. 파라상귀니스(parasanguinis), S. 오랄리스(oralis), S. 살리바리우스(salivarius), S. 마카카(macacae), S. 디스갈락티아(dysgalactiae), S. 안지노서스(anginosus), S. 콘스텔라투스(constellatus), S. 슈도포르시누스(pseudoporcinus), S. 뮤탄스(mutans)), 리스테리아(예를 들어, L. 인노쿠아(innocua)), 스피로플라스마(Spiroplasma)(예를 들어, S. 아피스(apis), S. 시르피디콜라(syrphidicola)), 펩토스트렙토코카세아(Peptostreptococcaceae), 아토포비움(Atopobium), 포르피로모나스(Porphyromonas)(예를 들어, P. 카토니아(catoniae)), 프레보텔라(Prevotella)(예를 들어, P. 인테르메디아(intermedia)), 베일로넬라(Veillonella), 트레포네마(Treponema)(예를 들어, T. 소크란스키이(socranskii), T. 덴티콜라(denticola)), 카프노사이토파가(Capnocytophaga), 피네골디아(Finegoldia)(예를 들어, F. 마그나(magna)), 코리오박테리아세아(Coriobacteriaceae)(예를 들어, C. 박테리움(bacterium)), 올스넬라(Olsenella)(예를 들어, O. 프로푸사(profusa)), 헤모필루스(Haemophilus)(예를 들어, H. 스푸토룸(sputorum), H. 피트마니아(pittmaniae)), 파스퇴렐라(Pasteurella)(예를 들어, P. 베티아(bettyae)), 올리비박터(Olivibacter)(예를 들어, O. 시티엔시스(sitiensis)), 에필리토니모나스(Epilithonimonas)(예를 들어, E. 테낙스(tenax)), 메소니아(Mesonia)(예를 들어, M. 모빌리스(mobilis)), 락토바실러스(Lactobacillus), 예를 들어, L. 플란타룸(plantarum)), 바실러스(예를 들어, B. 세레우스(cereus)), 아퀴마리나(Aquimarina)(예를 들어, A. 무엘레리(muelleri)), 크리세오박테리움(Chryseobacterium)(예를 들어, C. 팔루스트레(palustre)), 박테로이데스(Bacteroides)(예를 들어, B. 그라미니솔벤스(graminisolvens)), 네이세리아(예를 들어, N. 메닝기티디스(meningitidis)), 프란시셀라(Francisella)(예를 들어, F. 노비시다(novicida)) 또는 플라보박테리움(Flavobacterium)(예를 들어, F. 프리기다리움(frigidarium), F. 솔리(soli)) 종으로부터 유래될 수 있다. 본원의 특정 양태에서 S. 피오제네스 Cas9가 바람직하다. 다른 예로서, Cas9 단백질은 본원에 참조로 포함되는, Chylinski 등(RNA Biology 10:726-737)에 개시된 임의의 Cas9 단백질일 수 있다.
따라서, 본원의 Cas9 단백질의 서열은, 예를 들어, 참조로 포함되는 진뱅크(GenBank) 등록번호 G3ECR1(S. 써모필러스), WP_026709422, WP_027202655, WP_027318179, WP_027347504, WP_027376815, WP_027414302, WP_027821588, WP_027886314, WP_027963583, WP_028123848, WP_028298935, Q03JI6(S. 써모필러스), EGP66723, EGS38969, EGV05092, EHI65578(S. 슈도포르시누스), EIC75614(S. 오랄리스), EID22027(S. 콘스텔라투스), EIJ69711, EJP22331(S. 오랄리스), EJP26004(S. 안지노서스), EJP30321, EPZ44001(S. 피오제네스), EPZ46028(S. 피오제네스), EQL78043(S. 피오제네스), EQL78548(S. 피오제네스), ERL10511, ERL12345, ERL19088(S. 피오제네스), ESA57807(S. 피오제네스), ESA59254(S. 피오제네스), ESU85303(S. 피오제네스), ETS96804, UC75522, EGR87316(S. 디스갈락티아), EGS33732, EGV01468(S. 오랄리스), EHJ52063(S. 마카카), EID26207(S. 오랄리스), EID33364, EIG27013(S. 파라상귀니스), EJF37476, EJO19166(스트렙토코커스 종 BS35b), EJU16049, EJU32481, YP_006298249, ERF61304, ERK04546, ETJ95568(S. 아갈락티아), TS89875, ETS90967(스트렙토코커스 종 SR4), ETS92439, EUB27844(스트렙토코커스 종 BS21), AFJ08616, EUC82735(스트렙토코커스 종 CM6), EWC92088, EWC94390, EJP25691, YP_008027038, YP_008868573, AGM26527, AHK22391, AHB36273, Q927P4, G3ECR1 또는 Q99ZW2(S. 피오제네스)에 개시된 Cas9 아미노산 서열 중 임의의 것을 포함할 수 있다. 이들 Cas9 단백질 서열 중 임의의 것의 변이체가 사용될 수 있지만, 본원의 RNA 성분과 결합할 경우 DNA에 대한 특이적 결합 활성 및 선택적으로 엔도뉴클레오리틱(endonucleolytic) 활성을 가져야 한다. 이러한 변이체는 기준 Cas9의 아미노산 서열과 적어도 약 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99% 동일한 아미노산 서열을 포함할 수 있다.
대안적으로, 본원의 Cas9 단백질은, 예를 들어, (본원에 참조로 포함된) 미국 출원 공개 2010/0093617호에 개시된 바와 같은 SEQ ID NO: 462(S. 써모필러스), 474(S. 써모필러스), 489(S. 아갈락티아), 494(S. 아갈락티아), 499(S. 뮤탄스), 505(S. 피오제네스) 또는 518(S. 피오제네스) 중 임의의 것에 의해 암호화될 수 있다. 또한, 대안적으로, Cas9 단백질은, 예를 들어, 전술한 아미노산 서열 중 임의의 것과 적어도 약 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99% 동일한 아미노산 서열을 포함할 수 있다. 이러한 변이체 Cas9 단백질은 본원의 RNA 성분과 결합할 경우 DNA에 대한 특이적 결합 활성, 및 선택적으로 절단 또는 닉킹 활성을 가져야 한다.
본원에 사용된 Cas 단백질(예를 들어, Cas9)의 기원은 RNA 성분(들)이 유래된 것과 동일한 종으로부터 유래될 수 있거나, 상이한 종으로부터 유래될 수 있다. 예를 들어, 스트렙토코커스 종(예를 들어, S. 피오제네스 또는 S. 써모필러스)으로부터 유래된 Cas9 단백질을 포함하는 RGEN은 동일한 스트렙토코커스 종으로부터 유래된 서열(예를 들어, crRNA 반복 서열, tracrRNA 서열)을 갖는 적어도 하나의 RNA 성분과 복합체를 형성할 수 있다. 대안적으로, 본원에 사용된 Cas 단백질(예를 들어, Cas9)의 기원은 RNA 성분(들)이 유래된 종과 상이한 종으로부터 유래될 수 있다(Cas 단백질 및 RNA 성분(들)은 서로 이종일 수 있다); 이러한 이종 Cas/RNA 성분 RGEN은 DNA 표적화 활성을 가져야 한다.
특정 표적 DNA 서열에 대한 본원의 Cas 단백질의 결합 활성 및/또는 엔도뉴클레오리틱 활성을 결정하는 것은 본원에 참조로 개시된 미국 특허 8697359호에 개시된 바와 같은, 당해 분야에 공지된 임의의 적합한 분석법에 의해 평가될 수 있다. 예를 들어, 비 통상적인 효모에서 Cas 단백질과 적합한 RNA 성분을 발현한 후, 삽입-결실의 존재에 대해 예측되는 DNA 표적 부위를 조사함으로써 결정이 이루어질 수 있다(이러한 특별한 분석법에서 Cas 단백질은 완전한 엔도뉴클레오리틱 활성[이중 가닥 절단 활성]을 가질 것이다). 예측되는 표적 부위에서 삽입-결실의 존재를 조사하는 것은, 예를 들어, DNA 시퀀싱 방법을 통해 또는 표적 서열의 기능 상실을 분석하여 삽입-결실의 형성을 추정함으로써 수행될 수 있다. 또 다른 예에서, Cas 단백질 활성은, 표적 부위 내, 표적 부위의 또는 그 부근의 서열에 상동인 서열을 포함하는 공여 DNA를 제공한 비 통상적인 효모에서 Cas 단백질과 적합한 RNA 성분을 발현시킴으로써 결정될 수 있다. (공여 서열과 표적 서열 사이의 성공적인 HR에 의해 예측되는 바와 같은) 표적 부위에서의 공여 DNA 서열의 존재는 표적화가 일어났음을 나타낼 것이다.
본원의 Cas 단백질, 예컨대, Cas9는 일반적으로 이종 핵 국재화 서열(NLS)을 또한 포함한다. 본원의 이종 NLS 아미노산 서열은, 예를 들어, 본원의 효모 세포의 핵에서 검출 가능한 양으로 Cas 단백질의 축적을 유도하기에 충분한 강도일 수 있다. NLS는 염기성의, 양으로 하전된 잔기(예를 들어, 라이신 및/또는 아르기닌)의 하나(1부분(monopartite)) 이상(예를 들어, 2부분(bipartite))의 짧은 서열(예를 들어, 2 내지 20개의 잔기)을 포함할 수 있으며, Cas 아미노산 서열 중 어디에도 위치할 수 있지만 단백질 표면 상에 노출되어야 한다. NLS는, 예를 들어, 본원의 Cas 단백질의 N 말단 또는 C 말단에 작동 가능하게 연결될 수 있다. 둘 이상의 NLS 서열이 Cas 단백질에 연결될 수 있는데, 예를 들어, Cas 단백질의 N 말단과 C 말단 모두에 연결될 수 있다. 본원에서 적합한 NLS 서열의 비제한적인 예는 둘 다 본원에 참조로 포함되는 미국 특허 6660830호 및 7309576호(예를 들어, 그 안의 표 1)에 개시된 것들을 포함한다.
Cas 엔도뉴클레아제는 Cas9 폴리펩티드의 변형된 형태를 포함할 수 있다. Cas9 폴리펩티드의 변형된 형태는 Cas9 단백질의 자연 발생적인 뉴클레아제 활성을 감소시키는 아미노산 변화(예를 들어, 결실, 삽입, 또는 치환)를 포함할 수 있다. 예를 들어, 일부 경우, Cas9 단백질의 변형된 형태는 해당 야생형 Cas9 폴리펩티드의 뉴클레아제 활성의 50% 미만, 40% 미만, 30% 미만, 20% 미만, 10% 미만, 5% 미만, 또는 1% 미만을 갖는다(2014년 3월 6일 공개된 미국 특허 출원 US20140068797 A1). 일부 경우, Cas9 폴리펩티드의 변형된 형태는 실질적인 뉴클레아제 활성을 갖지 않으며, 촉매적으로 "불활성화된 Cas9" 또는 "비활성화된 cas9(dCas9)"로 지칭된다. 촉매적으로 불활성화된 Cas9 변이체는 HNH 및 RuvC 뉴클레아제 도메인에 돌연변이를 포함하는 Cas9 변이체를 포함한다. 이러한 촉매적으로 불활성화된 Cas9 변이체는 sgRNA와 상호작용할 수 있고 생체내에서 표적 부위에 결합할 수 있지만, 표적 DNA의 어느 가닥도 절단할 수 없다.
촉매적으로 불활성인 Cas9는 이종 서열에 융합될 수 있다(2014년 3월 6일 공개된 미국 특허 출원 US20140068797 A1). 적합한 융합 상대는 표적 DNA 상에 또는 표적 DNA와 결합된 폴리펩티드(예를 들어, 히스톤 또는 다른 DNA-결합 단백질) 상에 직접 작용하여 전사를 간접적으로 증가시키는 활성을 제공하는 폴리펩티드를 포함하나, 이에 한정되는 것은 아니다. 추가적인 적합한 융합 상대는 메틸트랜스퍼라아제 활성, 탈메틸라아제 활성, 아세틸트랜스퍼라아제 활성, 탈아세틸라아제 활성, 키나아제 활성, 포스파타아제 활성, 유비퀴틴 리가아제 활성, 탈유비퀴틴화 활성, 아데닐화 활성, 탈아데닐화 활성, SUMO화 활성, 탈SUMO화 활성, 리보실화 활성, 탈리보실화 활성, 미리스토일화 활성, 또는 탈미리스토일화 활성을 제공하는 폴리펩티드를 포함하나, 이에 한정되는 것은 아니다. 또한 적합한 융합 상대는 표적 핵산의 증가된 전사를 직접적으로 제공하는 폴리펩티드(예를 들어, 전사 활성 인자 또는 이의 단편, 전사 활성 인자를 모집하는 단백질 또는 이의 단편, 작은 분자/약물 반응성 전사 조절자 등)를 포함하나, 이에 한정되는 것은 아니다. 촉매적으로 불활성인 Cas9는 또한 이중 가닥 절단을 생성하기 위해 FokI 뉴클레아제에 융합될 수 있다(Guilinger et al. Nature biotechnology, volume 32, number 6, June 2014).
임의의 유도 엔도뉴클레아제가 본원에 개시된 방법에서 사용될 수 있다. 이러한 엔도뉴클레아제는 Cas9 및 Cpf1 엔도뉴클레아제를 포함하나, 이에 한정되지 않는다. 특정 PAM 서열(예를 들어 - 2014년 3월 12일 출원된 미국 특허 출원 14/772711 및 Zetsche B et al. 2015. Cell 163, 1013 참조)을 인식하고 특정 위치에서 표적 DNA를 절단할 수 있는 여러 엔도뉴클레아제가 현재까지 기술되어 왔다. 유도 Cas 시스템을 활용하는 본원에 기술된 방법 및 구현예를 기초로, 이제는 임의의 유도 엔도뉴클레아제 시스템을 활용할 수 있도록 이들 방법을 조정할 수 있음은 이해된다.
용어 Cas 엔도뉴클레아제의 "기능적 단편", "기능적으로 동등한 단편" 및 "기능적 동등 단편"은 본원에서 상호 교환적으로 사용되며, 표적 부위를 인식하고 거기에 결합하고, 선택적으로 닉킹 또는 절단(단일 또는 이중 가닥 절단을 도입)하는 능력이 유지되는 본 발명의 Cas 엔도뉴클레아제 서열의 일부 또는 하위서열을 지칭한다.
용어 Cas 엔도뉴클레아제의 "기능적 변이체", "기능적으로 동등한 변이체" 및 "기능적 동등 변이체"는 본원에서 상호 교환적으로 사용되며, 표적 부위를 인식하고 거기에 결합하고, 선택적으로 닉킹 또는 절단(단일 또는 이중 가닥 절단을 도입)하는 능력이 유지되는 본 발명의 Cas 엔도뉴클레아제의 변이체를 지칭한다. 단편 및 변이체는 부위 특이적 돌연변이유발 및 합성 제조와 같은 방법을 통해 얻을 수 있다.
Cas 엔도뉴클레아제 유전자는 N(12-30)NGG 형태의 임의의 게놈 서열을 인식할 수 있는 야로위아 코돈 최적화 스트렙토코커스 피오제네스 Cas9 유전자를 포함하며, 원칙적으로 표적화되거나 브레비바실러스 라테로스포루스(Brevibacillus laterosporus), 락토바실러스 류테리(Lactobacillus reuteri) Mlc3, 락토바실러스 로시애(Lactobacillus rossiae) DSM 15814, 페디오코커스 펜토사세우스(Pediococcus pentosaceus) SL4, 락토바실러스 노덴시스(Lactobacillus nodensis) JCM 14932, 설푸로스피릴룸 종(Sulfurospirillum sp.) SCADC, 비피도박테리움 써모필룸(Bifidobacterium thermophilum) DSM 20210, 록타넬라 베스트폴덴시스(Loktanella vestfoldensis), 스핑고모나스 상샤니게넨스(Sphingomonas sanxanigenens) NX02, 에필리토니모나스 테낙스(Epilithonimonas tenax) DSM 16811, 스포로사이토파가 믹소코코이데스(Sporocytophaga myxococcoides) 및 사이크로플렉수스 토퀴스(Psychroflexus torquis) ATCC 700755로 이루어지는 군으로부터 선택된 생물에서 유래되는 Cas9 엔도뉴클레아제일 수 있고, 상기 Cas9 엔도뉴클레아제는 DNA 표적 서열의 전부 또는 일부를 인식하고, 거기에 결합하고, 선택적으로 닉킹 또는 절단할 수 있는 가이드 RNA/Cas 엔도뉴클레아제 복합체를 형성할 수 있다(US 특허 가출원 BB2475
Cas 엔도뉴클레아제는 당해 분야에 알려진 임의의 방법, 예를 들어 일시적 도입 방법, 형질감염 및/또는 국소 적용 또는 간접적으로 재조합 작제물을 통해 세포에 제공될 수 있지만, 이에 한정되는 것은 아니다.
엔도뉴클레아제는 폴리뉴클레오티드 사슬 내 포스포디에스테르 결합을 절단하는 효소로서, 염기를 손상시키지 않고 특정 부위에서 DNA를 절단하는 제한 엔도뉴클레아제를 포함한다. 제한 엔도뉴클레아제는 I형, II형, III형, 및 IV형 엔도뉴클레아제를 포함하고, 이들은 하위유형을 더 포함한다. I형 및 III형 시스템에서는, 메틸라아제 활성과 제한 활성 모두 단일 복합체에 포함된다. 엔도뉴클레아제는 귀소 엔도뉴클레아제(HEase)로도 알려진 메가뉴클레아제도 포함하는데, 이는 제한 엔도뉴클레아제처럼 특정 인식 부위에서 결합하고 이를 절단하지만, 메가뉴클레아제에 대한 인식 부위는 약 18 bp 이상으로 일반적으로 더 길다(2012년 3월 22일 출원된 특허 출원 WO-PCT PCT/US12/30061). 메가뉴클레아제는 보존된 서열 모티프에 기초하여 4개의 계열로 분류되었는데, 그 계열은 LAGLIDADG, GIY-YIG, H-N-H, 및 His-Cys 박스 계열이다. 이들 모티프는 금속 이온의 배위 및 포스포디에스테르 결합의 가수분해에 참여한다. HEase는 긴 인식 부위, 및 이의 DNA 기질에서 일부 서열 다형성을 관용하는 것으로 유명하다. 메가뉴클레아제에 대한 명명 규칙은 다른 제한 엔도뉴클레아제에 대한 규칙과 유사하다. 메가뉴클레아제는 또한, 독립형 ORF, 인트론, 및 인테인에 의해 각각 암호화되는 효소에 대한 접두사 F-, I-, 또는 PI-로 특징지어진다. 재조합 프로세스에서 하나의 단계는 인식 부위 또는 그 근처에서의 폴리뉴클레오티드 절단을 포함한다. 이 절단 활성은 이중 가닥 절단을 생성하는 데 이용될 수 있다. 부위 특이적 재조합효소 및 그 인식 부위에 대한 검토를 위해서는 Sauer (1994) Curr Op Biotechnol 5:521-7; 및 Sadowski (1993) FASEB 7:760-7을 참조한다. 일부 예에서, 재조합효소는 인테그라아제 또는 레솔바아제 계열에 속한다.
TAL 이펙터 뉴클레아제는 비 통상적인 효모 또는 다른 생물의 게놈의 특정 표적 서열에서 이중 가닥 절단을 생성하기 위해 사용될 수 있는 새로운 클래스의 서열-특이적 뉴클레아제이다(Miller et al. (2011) Nature Biotechnology 29:143-148). 징크 핑거 뉴클레아제(ZFN)는 징크 핑거 DNA 결합 도메인 및 이중 가닥 절단 유도제 도메인으로 구성된 조작된 이중 가닥 절단 유도제이다. 인식 부위 특이성은 징크 핑거 도메인에 의해 부여되며, 이는 일반적으로 2, 3, 또는 4개의 징크 핑거를 포함하고, 예를 들어, C2H2 구조를 갖지만, 다른 징크 핑거 구조는 알려져 있고 조작되었다. 징크 핑거 도메인은 선택된 폴리뉴클레오티드 인식 서열에 특이적으로 결합하는 폴리펩티드를 설계하는 데 쉽게 이용될 수 있다. ZFN은 비특이적 엔도뉴클레아제 도메인, 예를 들어, FokI와 같은 II형 엔도뉴클레아제로부터의 뉴클레아제 도메인에 연결된 조작된 DNA-결합 징크 핑거 도메인을 포함한다. 전사 활성 인자 도메인, 전사 억제 인자 도메인, 및 메틸라아제를 포함하여, 추가 기능이 징크 핑거 결합 도메인에 융합될 수 있다. 일부 예에서, 절단 활성을 위해 뉴클레아제 도메인의 이합체화가 요구된다. 각각의 징크 핑거는 표적 DNA에서 3개의 연속 염기쌍을 인식한다. 예를 들어, 뉴클레아제의 이합체화 요건 하에, 3-핑거 도메인은 9개 연속 뉴클레오티드의 서열을 인식하고, 18-뉴클레오티드 인식 서열을 결합시키는 데 두 세트의 징크 핑거 트리플렛이 사용된다.
본원에 사용된 용어 "가이드 폴리뉴클레오티드"는 Cas 엔도뉴클레아제와 복합체를 형성할 수 있고, Cas 엔도뉴클레아제가 DNA 표적 부위를 인식하고 거기에 결합하고, 선택적으로 절단할 수 있게 하는 폴리뉴클레오티드 서열에 관한 것이다. 가이드 폴리뉴클레오티드는 단일 분자 또는 이중 분자일 수 있다. 가이드 폴리뉴클레오티드 서열은 RNA 서열, DNA 서열, 또는 이의 조합(RNA-DNA 조합 서열)일 수 있다. 선택적으로, 가이드 폴리뉴클레오티드는 적어도 하나의 뉴클레오티드, 포스포디에스테르 결합 또는 연결 변형, 예컨대, 고정 핵산(LNA), 5-메틸 dC, 2,6-디아미노퓨린, 2'-플루오로 A, 2'-플루오로 U, 2'-O-메틸 RNA, 포스포로티오에이트 결합, 콜레스테롤 분자에 대한 연결, 폴리에틸렌 글리콜 분자에 대한 연결, 스페이서 18(헥사에틸렌 글리콜 사슬) 분자에 대한 연결, 또는 고리화를 초래하는 5'에서 3'으로의 공유 연결을 포함할 수 있으나, 이에 한정되는 것은 아니다. 단독으로 리보핵산을 포함하는 가이드 폴리뉴클레오티드는 "가이드 RNA" 또는 "gRNA"라고도 지칭된다(둘 다 그 전체가 본원에 참조로 포함되는, 2015년 3월 19일 공개된 미국 특허 출원 US 2015-0082478 A1 및 2015년 2월 26일 공개된 US 2015-0059010 A1을 또한 참조).
가이드 폴리뉴클레오티드는 cr뉴클레오티드 서열 및 tracr뉴클레오티드 서열을 포함하는 이중 분자(듀플렉스 가이드 폴리뉴클레오티드라고도 함)일 수 있다. cr뉴클레오티드는 표적 DNA의 뉴클레오티드 서열에 혼성화될 수 있는 제1 뉴클레오티드 서열 도메인(가변 표적화 도메인 또는 VT 도메인이라고 함) 및 Cas 엔도뉴클레아제 인식(CER) 도메인의 일부인 제2 뉴클레오티드 서열(tracr 메이트 서열이라고도 함)을 포함한다. tracr 메이트 서열은 상보성 영역을 따라 tracr뉴클레오티드에 혼성화될 수 있고, 함께 Cas 엔도뉴클레아제 인식 도메인 또는 CER 도메인을 형성할 수 있다. CER 도메인은 Cas 엔도뉴클레아제 폴리펩티드와 상호작용할 수 있다. 듀플렉스 가이드 폴리뉴클레오티드의 cr뉴클레오티드 및 tracr뉴클레오티드는 RNA, DNA, 및/또는 RNA-DNA-조합 서열일 수 있다. 일부 구현예에서, 듀플렉스 가이드 폴리뉴클레오티드의 cr뉴클레오티드 분자는 "crDNA"(연속된 DNA 뉴클레오티드들로 구성되는 경우) 또는 "crRNA"(연속된 RNA 뉴클레오티드들로 구성되는 경우) 또는 "crDNA-RNA"(DNA와 RNA 뉴클레오티드의 조합으로 구성되는 경우)로 지칭된다. cr뉴클레오티드는 박테리아 및 고세균에서 자연적으로 발생하는 cRNA의 단편을 포함할 수 있다. 박테리아 및 고세균에서 자연적으로 발생하고 본원에 개시된 cr뉴클레오티드에 존재할 수 있는 cRNA의 단편의 크기는 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20개 이상의 뉴클레오티드 범위를 가질 수 있지만, 이들 범위에 제한되는 것은 아니다. 일부 구현예에서, tracr뉴클레오티드는 "tracrRNA"(연속된 RNA 뉴클레오티드들로 구성되는 경우) 또는 "tracrDNA"(연속된 DNA 뉴클레오티드들로 구성되는 경우) 또는 "tracrDNA-RNA"(DNA와 RNA 뉴클레오티드의 조합으로 구성되는 경우로 지칭된다. 하나의 구현예에서, RNA/Cas9 엔도뉴클레아제 복합체를 유도하는 RNA는 듀플렉스 crRNA-tracrRNA를 포함하는 듀플렉스 RNA이다.
tracrRNA(트랜스-활성화 CRISPR RNA)는 5'에서 3' 방향으로 (i) CRISPR II형 crRNA의 반복 영역과 어닐링하는 서열 및 (ii) 스템 루프 수용부를 포함한다(Deltcheva et al., Nature 471:602-607). 듀플렉스 가이드 폴리뉴클레오티드는 Cas 엔도뉴클레아제와 복합체를 형성할 수 있으며, 상기 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체(가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템이라고도 함)는 Cas 엔도뉴클레아제를 게놈 표적 부위로 유도하여 Cas 엔도뉴클레아제가 표적 부위를 인식하고 거기에 결합하고, 선택적으로 닉킹 또는 절단(단일 또는 이중 가닥 절단을 도입)할 수 있게 할 수 있다(둘 다 그 전체가 본원에 참조로 포함되는, 2015년 3월 19일 공개된 미국 특허 출원 US 2015-0082478 A1 및 2015년 2월 26일 공개된 US 2015-0059010 A1을 또한 참조.)
가이드 폴리뉴클레오티드는 tracr뉴클레오티드 서열에 연결된 cr뉴클레오티드 서열을 포함하는 단일 분자(단일 가이드 폴리뉴클레오티드라고도 함)일 수도 있다. 단일 가이드 폴리뉴클레오티드는 표적 DNA의 뉴클레오티드 서열에 혼성화될 수 있는 제1 뉴클레오티드 서열 도메인(가변 표적화 도메인 또는 VT 도메인이라고 함) 및 Cas 엔도뉴클레아제 폴리펩티드와 상호작용하는 Cas 엔도뉴클레아제 인식 도메인(CER 도메인)을 포함한다. "도메인"은 RNA, DNA, 및/또는 RNA-DNA-조합 서열일 수 있는 뉴클레오티드들이 연속되어 있는 것을 의미한다. 단일 가이드 폴리뉴클레오티드의 VT 도메인 및/또는 CER 도메인은 RNA 서열, DNA 서열, 또는 RNA-DNA-조합 서열을 포함할 수 있다. cr뉴클레오티드 및 tracr뉴클레오티드로부터의 서열들로 구성되는 단일 가이드 폴리뉴클레오티드는 "단일 가이드 RNA"(연속된 RNA 뉴클레오티드들로 구성되는 경우) 또는 "단일 가이드 DNA"(연속된 DNA 뉴클레오티드들로 구성되는 경우) 또는 "단일 가이드 RNA-DNA"(RNA와 DNA 뉴클레오티드의 조합으로 구성되는 경우)로 지칭될 수 있다. 단일 가이드 폴리뉴클레오티드는 Cas 엔도뉴클레아제와 복합체를 형성할 수 있으며, 상기 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체(가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템이라고도 함)는 Cas 엔도뉴클레아제를 게놈 표적 부위로 유도하여 Cas 엔도뉴클레아제가 표적 부위를 인식하고 거기에 결합하고, 선택적으로 닉킹 또는 절단(단일 또는 이중 가닥 절단을 도입)할 수 있게 할 수 있다(둘 다 그 전체가 본원에 참조로 포함되는, 2015년 3월 19일 공개된 미국 특허 출원 US 2015-0082478 A1 및 2015년 2월 26일 공개된 US 2015-0059010 A1을 또한 참조.)
용어 "가변 표적화 도메인" 또는 "VT 도메인"은 본원에서 상호 교환적으로 사용되며, 이중 가닥 DNA 표적 부위의 한 가닥(뉴클레오티드 서열)에 혼성화될 수 있는(상보적인) 뉴클레오티드 서열을 포함한다. 제1 뉴클레오티드 서열 도메인(VT 도메인)과 표적 서열 사이의 상보성 백분율은 적어도 50%, 51%, 52%, 53%, 54%, 55%, 56%, 57%, 58%, 59%, 60%, 61%, 62%, 63%, 63%, 65%, 66%, 67%, 68%, 69%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%일 수 있다. 가변 표적화 도메인은 적어도 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개 또는 30개 뉴클레오티드의 길이일 수 있다. 일부 구현예에서, 이러한 가변 표적화 도메인은 연속된 12개 내지 30개의 뉴클레오티드를 포함한다. 가변 표적화 도메인은 DNA 서열, RNA 서열, 변형된 DNA 서열, 변형된 RNA 서열, 또는 이들의 임의의 조합으로 구성될 수 있다.
용어 (가이드 폴리뉴클레오티드의) "Cas 엔도뉴클레아제 인식 도메인" 또는 "CER 도메인"은 본원에서 상호 교환적으로 사용되며, Cas 엔도뉴클레아제 폴리펩티드와 상호작용하는 뉴클레오티드 서열을 포함한다. CER 도메인은 tracr뉴클레오티드 메이트 서열 다음에 tracr뉴클레오티드 서열을 포함한다. CER 도메인은 DNA 서열, RNA 서열, 변형된 DNA 서열, 변형된 RNA 서열(예를 들어, 그 전체가 본원에 참조로 포함되는, 2015년 2월 26일 공개된 US 2015-0059010 A1 참조), 또는 이의 임의의 조합으로 구성될 수 있다.
단일 가이드 폴리뉴클레오티드의 cr뉴클레오티드 및 tracr뉴클레오티드를 연결하는 뉴클레오티드 서열은 RNA 서열, DNA 서열, 또는 RNA-DNA 조합 서열을 포함할 수 있다. 하나의 구현예에서, 단일 가이드 폴리뉴클레오티드의 cr뉴클레오티드 및 tracr뉴클레오티드를 연결하는 뉴클레오티드 서열은 적어도 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99 또는 100개 뉴클레오티드의 길이일 수 있다. 다른 구현예에서, 단일 가이드 폴리뉴클레오티드의 cr뉴클레오티드 및 tracr뉴클레오티드를 연결하는 뉴클레오티드 서열은 테트라루프 서열, 예컨대, GAAA 테트라루프 서열을 포함할 수 있지만, 이에 한정되는 것은 아니다.
가이드 폴리뉴클레오티드, VT 도메인 및/또는 CER 도메인의 뉴클레오티드 서열 변형은 5' 캡, 3' 폴리아데닐화 테일, 리보스위치 서열, 안정성 제어 서열, dsRNA 듀플렉스를 형성하는 서열, 가이드 폴리뉴클레오티드를 세포내 위치에 표적화하는 변형 또는 서열, 추적을 제공하는 변형 또는 서열, 단백질을 위한 결합 부위를 제공하는 변형 또는 서열, 고정 핵산(LNA), 5-메틸 dC 뉴클레오티드, 2,6-디아미노퓨린 뉴클레오티드, 2'-플루오로 A 뉴클레오티드, 2'-플루오로 U 뉴클레오티드; 2'-O-메틸 RNA 뉴클레오티드, 포스포로티오에이트 결합, 콜레스테롤 분자에 대한 연결, 폴리에틸렌 글리콜 분자에 대한 연결, 스페이서 18 분자에 대한 연결, 5'에서 3'으로의 공유 연결, 또는 이들의 임의의 조합으로 이루어진 군으로부터 선택될 수 있지만, 이에 한정되는 것은 아니다. 이러한 변형은 적어도 하나의 추가적인 유익한 특징을 초래할 수 있고, 여기서 추가적인 유익한 특징은 변형 또는 조절된 안정성, 세포내 표적화, 추적, 형광 표지, 단백질 또는 단백질 복합체에 대한 결합 부위, 상보적인 표적 서열에 대한 변형된 결합 친화도, 세포 분해에 대한 변형된 저항성, 및 증가된 세포 투과성의 군으로부터 선택된다.
용어 가이드 RNA, crRNA 또는 tracrRNA의 "기능적 단편", "기능적으로 동등한 단편" 및 "기능적 동등 단편"은 본원에서 상호 교환적으로 사용되며, 각각 가이드 RNA, crRNA 또는 tracrRNA로서 기능하는 능력이 유지되는 본 발명의 가이드 RNA, crRNA 또는 tracrRNA 각각의 일부 또는 하위서열을 지칭한다.
용어 가이드 RNA, crRNA 또는 tracrRNA(각각)의 "기능적 변이체", "기능적으로 동등한 변이체" 및 "기능적 동등 변이체"는 본원에서 상호 교환적으로 사용되며, 각각 가이드 RNA, crRNA 또는 tracrRNA로서 기능하는 능력이 유지되는 본 발명의 가이드 RNA, crRNA 또는 tracrRNA 각각의 변이체를 지칭한다.
용어 "단일 가이드 RNA" 및 "sgRNA"는 본원에서 상호 교환적으로 사용되며, tracrRNA(트랜스-활성화 CRISPR RNA)에 융합된, (tracrRNA에 혼성화하는 tracr 메이트 서열에 연결된) 가변 표적화 도메인을 포함하는 crRNA(CRISPR RNA)인, 2개의 RNA 분자의 합성 융합에 관한 것이다. 단일 가이드 RNA는 II형 Cas 엔도뉴클레아제와 복합체를 형성할 수 있는 II형 CRISPR/Cas 시스템의 crRNA 또는 crRNA 단편 및 tracrRNA 또는 tracrRNA 단편을 포함할 수 있고, 상기 가이드 RNA/Cas 엔도뉴클레아제 복합체는 Cas 엔도뉴클레아제를 DNA 표적 부위로 유도하여 Cas 엔도뉴클레아제가 DNA 표적 부위를 인식하고 거기에 결합하고, 선택적으로 닉킹 또는 절단(단일 또는 이중 가닥 절단을 도입)할 수 있게 할 수 있다.
용어 "가이드 RNA/Cas 엔도뉴클레아제 복합체", "가이드 RNA/Cas 엔도뉴클레아제 시스템", "가이드 RNA/Cas 복합체", "가이드 RNA/Cas 시스템", "gRNA/Cas 복합체", "gRNA/Cas 시스템", "RNA-유도 엔도뉴클레아제", "RGEN"은 본원에서 상호 교환적으로 사용되고, 복합체를 형성할 수 있는 적어도 하나의 RNA 성분 및 적어도 하나의 Cas 엔도뉴클레아제를 지칭하며, 상기 가이드 RNA/Cas 엔도뉴클레아제 복합체는 Cas 엔도뉴클레아제를 DNA 표적 부위로 유도하여 Cas 엔도뉴클레아제가 DNA 표적 부위를 인식하고 거기에 결합하고, 선택적으로 닉킹 또는 절단(단일 또는 이중 가닥 절단을 도입)할 수 있게 할 수 있다. RGEN의 RNA 성분은 DNA 표적 서열의 가닥에 상보적인 리보뉴클레오티드 서열을 포함한다. 상기 상보적인 RNA 서열은 또한 본원에서 "가변 표적화 도메인" 서열로 지칭된다. 본원의 가이드 RNA/Cas 엔도뉴클레아제 복합체는 4개의 알려진 CRISPR 시스템(Horvath and Barrangou, Science 327:167-170), 예컨대, I형, II형 또는 III형 CRISPR 시스템 중 어느 하나의 적합한 RNA 성분(들) 및 Cas 단백질(들)을 포함할 수 있다. 가이드 RNA/Cas 엔도뉴클레아제 복합체는 II형 Cas9 엔도뉴클레아제 및 적어도 하나의 RNA 성분(예컨대, crRNA 및 tracrRNA, 또는 gRNA)을 포함할 수 있다(둘 다 그 전체가 본원에 참조로 포함되는, 2015년 3월 19일 공개된 미국 특허 출원 US 2015-0082478 A1 및 2015년 2월 26일 공개된 US 2015-0059010 A1을 또한 참조.)
가이드 폴리뉴클레오티드는 당해 분야에 알려진 임의의 방법, 예컨대, 이에 한정되는 것은 아니지만, 유전자총, 아그로박테리움 형질전환 또는 국소 처리법을 이용하여 단일 가닥 폴리뉴클레오티드 또는 이중 가닥 폴리뉴클레오티드로서 세포에 일시적으로 도입될 수 있다. 가이드 폴리뉴클레오티드는 세포에서 가이드 RNA를 전사시킬 수 있는 특정 프로모터에 작동 가능하게 연결된, 가이드 폴리뉴클레오티드를 암호화하는 이종 핵산 단편을 포함하는 재조합 DNA 분자를 (이에 한정되는 것은 아니지만, 유전자총 또는 아그로박테리움 형질전환과 같은 방법을 통해) 도입함으로써 상기 세포에 간접적으로 도입될 수도 있다. 특정 프로모터는 정확히 정의된, 비변형 5'- 및 3'-말단을 갖는 RNA의 전사를 허용하는 RNA 폴리머라제 III 프로모터일 수 있지만, 이에 한정되는 것은 아니다(DiCarlo et al., Nucleic Acids Res. 41: 4336-4343; Ma et al., Mol. Ther. Nucleic Acids 3:e161).
용어 "표적 부위", "표적 서열", "표적 부위 서열", "표적 DNA", "표적 유전자좌", "게놈 표적 부위", "게놈 표적 서열", "게놈 표적 유전자좌" 및 "프로토스페이서"는 본원에서 상호 교환적으로 사용되며, 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 복합체가 인식하고 거기에 결합하고 선택적으로 닉킹 또는 절단할 수 있는 폴리뉴클레오티드 서열, 예컨대, 이에 한정되는 것은 아니지만, 세포 게놈 내 염색체, 에피솜, 또는 임의의 다른 DNA 분자(염색체 DNA, 엽록체 DNA, 미토콘드리아 DNA, 플라스미드 DNA를 포함) 상의 뉴클레오티드 서열을 지칭한다. 표적 부위는 세포 게놈 내의 내인성 부위일 수 있거나, 또는 대안적으로, 표적 부위가 세포에 이종이어서 세포의 게놈에서 자연 발생하지 않을 수 있거나, 또는 자연에서 일어나는 경우에 비해 이종 게놈 위치에서 표적 부위가 발견될 수 있다. 본원에 사용된 용어 "내인성 표적 서열" 및 "고유 표적 서열"은 본원에서 상호 교환적으로 사용되어 세포의 게놈에 내인성이거나 고유한 표적 서열로서, 세포 게놈 내 표적 서열의 내인성 또는 고유 위치에 있는 표적 서열을 지칭한다. 세포는 인간, 비인간, 동물, 박테리아, 고세균, 진균, 곤충, 효모, 비 통상적인 효모, 식물 세포, 식물, 종자뿐만 아니라 본원에 기술된 방법에 의해 생성된 미생물을 포함하나, 이에 한정되는 것은 아니다. "인공 표적 부위" 또는 "인공 표적 서열"은 본원에서 상호 교환적으로 사용되며, 세포 게놈에 도입된 표적 서열을 지칭한다. 이러한 인공 표적 서열은 세포 게놈 내의 내인성 또는 고유 표적 서열과 동일한 서열일 수 있지만, 세포 게놈에서 상이한 위치(즉, 비내인성 또는 비고유한 위치)에 위치할 수 있다.
"변경된 표적 부위", "변경된 표적 서열", "변형된 표적 부위", "변형된 표적 서열"은 본원에서 상호 교환적으로 사용되며, 변경되지 않은 표적 서열에 비해 적어도 하나의 변경을 포함하는 본원에 개시된 바와 같은 표적 서열을 지칭한다. 이러한 "변경"은, 예를 들어, (i) 적어도 하나의 뉴클레오티드의 치환, (ii) 적어도 하나의 뉴클레오티드의 결실, (iii) 적어도 하나의 뉴클레오티드의 삽입, 또는 (iv) (i) 내지 (iii)의 임의의 조합을 포함한다.
표적 DNA 서열(표적 부위)의 길이는 변할 수 있으며, 예를 들어, 길이가 적어도 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30개 이상 뉴클레오티드인 표적 부위를 포함한다. 표적 부위는 회문구조(palindromic)일 수도 있다, 즉, 한 가닥 상에 있는 서열은 상보적 가닥에서 반대 방향으로 동일하게 해독된다. 닉/절단 부위는 표적 서열 내에 존재할 수 있거나, 닉/절단 부위는 표적 서열 외부에 존재할 수 있다. 다른 변형예에서, 절단은 서로 바로 마주 보는 뉴클레오티드 위치에서 발생하여 블런트 엔드 컷을 생성할 수 있거나, 또는 다른 경우, 절개가 틀어져 5' 돌출부 또는 3' 돌출부일 수 있는, "접착성 말단"(sticky ends)이라고도 불리는, 단일 가닥 돌출부를 생성할 수 있다. 게놈 표적 부위의 활성 변이체가 사용될 수도 있다. 이러한 활성 변이체는 주어진 표적 부위와 적어도 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 이상의 서열 동일성을 포함할 수 있고, 활성 변이체는 생물학적 활성을 보유함으로써 Cas 엔도뉴클레아제에 의해 인식되고 절단될 수 있다. 엔도뉴클레아제에 의한 표적 부위의 단일 또는 이중 가닥 절단을 측정하기 위한 분석법은 당해 분야에 공지되어 있으며, 일반적으로 인식 부위를 포함하는 DNA 기질 상에서 작용제의 전체 활성 및 특이성을 측정한다.
본원에서 "에피솜"은 효모 세포의 염색체와 별도로 효모 세포에 자율적으로 존재할 수 있는 (복제할 수 있고 딸 세포로 전달할 수 있는) DNA 분자를 지칭한다. 에피솜 DNA는 효모 세포에 고유하거나 이종일 수 있다. 본원에서 고유 에피솜의 예는 미토콘드리아 DNA(mtDNA)를 포함한다. 본원에서 이종 에피솜의 예는 플라스미드 및 효모 인공 염색체(YAC)를 포함한다.
본원의 "프로토스페이서 인접 모티프"(PAM)는 본원에 기술된 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템에 의해 인식(표적화)되는 표적 서열(프로토스페이서)에 인접한 짧은 뉴클레오티드 서열을 지칭한다. 표적 DNA 서열 다음에 PAM 서열이 없는 경우 Cas 엔도뉴클레아제는 표적 DNA 서열을 성공적으로 인식하지 않을 수 있다. 본원의 PAM의 서열과 길이는 사용되는 Cas 단백질 또는 Cas 단백질 복합체에 따라 다를 수 있다. PAM 서열은 임의의 길이일 수 있지만, 일반적으로 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 또는 20개 뉴클레오티드의 길이이다.
용어 "5'-캡"과 "7-메틸구아닐레이트(m7G) 캡"은 본원에서 상호 교환적으로 사용된다. 7-메틸구아닐레이트 잔기는 진핵생물에서 메신저 RNA(mRNA)의 5' 말단에 위치한다. RNA 폴리머라제 II(Pol II)가 진핵생물에서 mRNA를 전사한다. 메신저 RNA 캡핑은 일반적으로 다음과 같이 일어난다: mRNA 전사물의 가장 말단 5' 포스페이트기가 RNA 말단 포스파타아제에 의해 제거되어, 2개의 말단 포스페이트를 남긴다. 구아노신 모노포스페이트(GMP)가 구아닐릴 트랜스퍼라아제에 의해 전사물의 말단 포스페이트에 부가되어, 전사물 말단에 5′-5′ 트리포스페이트-연결 구아닌을 남긴다. 마지막으로, 이 말단 구아닌의 7-질소가 메틸 트랜스퍼라아제에 의해 메틸화된다.
본원에 사용된 용어 “5’-캡을 갖지 않는”은, 예를 들어, 5’-캡 대신 5'-하이드록실기를 갖는 RNA를 지칭한다. 이러한 RNA는, 예를 들어 “캡핑되지 않은 RNA”로 지칭될 수 있다. 5'-캡핑된 RNA가 핵 외수송의 대상이기 때문에 캡핑되지 않은 RNA는 전사 후 핵에 더 잘 축적될 수 있다. 본원에서 하나 이상의 RNA 성분은 캡핑되지 않는다.
용어 "리보자임" 및 "리보핵산 효소"는 본원에서 상호 교환적으로 사용된다. 리보자임은 특정 부위에서 RNA를 절단할 수 있는 이차, 삼차, 및/또는 사차 구조(들)를 형성하는 하나 이상의 RNA 서열을 지칭한다. 본원의 리보자임은, 예를 들어, 망치머리(HH) 리보자임, 델타 간염 바이러스(HDV) 리보자임, 그룹 I 인트론 리보자임, RnaseP 리보자임, 또는 헤어핀 리보자임일 수 있다. 리보자임은 리보자임 서열에 대해 시스-부위에서 RNA를 절단할 수 있는(즉, 자가-촉매, 또는 자가-절단) "자가-절단 리보자임"을 포함한다. 리보자임 뉴클레오리틱 활성의 일반적 성질이 기술되었다(예를 들어, Lilley, Biochem. Soc. Trans. 39:641-646). 본원에서 "망치머리 리보자임"(HHR)은 3염기쌍 스템으로 이루어진 소형 촉매 RNA 모티프 및 촉매에 관여되는 고도로 보존된, 비-상보적인 뉴클레오티드 코어를 포함할 수 있다. 본원에 참조로 포함되는 Pley 등(Nature 372:68-74) 및 Hammann 등(RNA 18:871-885)은 망치머리 리보자임 구조 및 활성을 개시한다. 본원의 리보자임의 기타 비제한적인 예는 VS(Varkud satellite) 리보자임, 글루코사민-6-포스페이트 활성화 리보자임(glmS) 및 CPEB3 리보자임을 포함한다. Lilley(Biochem. Soc. Trans. 39:641-646)는 리보자임 구조 및 활성에 관한 정보를 개시한다. 본원에 사용하기에 적합한 리보자임의 예는 본원에 참조로 포함되는 EP0707638 및 미국 특허 6063566호, 5580967호, 5616459호, 및 5688670호에 개시된 리보자임을 포함한다.
본원에서 망치머리 리보자임은, 예를 들어 Scott 등(Cell 81:991-1002, 본원에 참조로 포함됨)에 의해 개시된 바와 같은 "최소 망치머리" 서열을 포함할 수 있다. 망치머리 리보자임은, 예를 들어 본원에 참조로 포함되는 Hammann 등(RNA 18:871-885)에 개시된 바와 같은 I형, II형 또는 III형 망치머리 리보자임일 수 있다. 망치머리 리보자임을 암호화하는 DNA를 동정하기 위한 여러 수단은 Hammann 등에 개시되어 있고, 이에 따라 본원에서 활용될 수 있다. 본원에서 망치머리 리보자임은, 예를 들어 바이러스, 바이로이드, 식물 바이러스 위성 RNA, 원핵생물(예를 들어, 고세균, 시아노박테리아, 애시도박테리아), 또는 진핵생물, 예컨대 식물(예를 들어, 아라비돕시스 탈리아나(Arabidopsis thaliana), 카네이션), 원생생물(예를 들어, 아메바, 유글레노이드), 진균(예를 들어, 아스퍼질러스(Aspergillus), Y. 리폴리티카), 양서류(예를 들어, 소형 도롱뇽, 개구리), 주혈 흡충, 곤충(예를 들어, 귀뚜라미), 연체동물, 포유류(예를 들어, 마우스, 인간), 또는 선충으로부터 유래될 수 있다.
본원에서 망치머리 리보자임은 일반적으로 각각 보존된 서열의 짧은 링커에 의해 구분되는 나선 I, II 및 III으로 지칭되는, 3염기쌍 나선을 포함한다. 3개 유형의 망치머리 리보자임(I~III)은 일반적으로 리보자임의 5' 및 3' 말단이 포함되는 나선에 기초한다. 예를 들어, 망치머리 리보자임 서열의 5’ 및 3’ 말단이 스템 I에 기여하는 경우, 이는 I형 망치머리 리보자임으로 지칭될 수 있다. 3개의 가능한 위상학적 유형 중, I형은 원핵생물, 진핵생물 및 RNA 식물 병원체의 게놈에서 확인될 수 있는 반면, II형 망치머리 리보자임은 원핵생물에서만 기술되었고, III형 망치머리 리보자임은 식물, 식물 병원체 및 원핵생물에서 주로 확인된다. 특정 구현예에서 망치머리 리보자임은 I형 망치머리 리보자임이다.
망치머리 리보자임을 암호화하는 서열은 적어도 약 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140 또는 150개(또는 40 내지 150개 사이의 임의의 정수) 뉴클레오티드, 40~100개 뉴클레오티드, 또는 40~60개 뉴클레오티드를 포함할 수 있다.
본 발명의 하나의 구현예에서, 이 방법은 비 통상적인 효모의 염색체 또는 에피솜에서 표적 부위 서열에 RNA-유도 엔도뉴클레아제(RGEN)를 표적화하는 방법을 포함하며, 상기 방법은 Cas 엔도뉴클레아제를 암호화하는 DNA 서열을 포함하는 제1 재조합 DNA 작제물, 보호 폴리뉴클레오티드 변형 주형, 및 RNA 성분 상류에 리보자임을 암호화하는 DNA 서열을 포함하는 적어도 제2 재조합 DNA 작제물을 상기 효모에 제공하는 단계를 포함하고, 제2 재조합 DNA 작제물로부터 전사된 RNA는 리보자임을 자가-촉매적으로 제거하여 상기 RNA 성분을 산출하고, RNA 성분 및 Cas9 엔도뉴클레아제는 표적 부위 서열의 전부 또는 일부에 결합할 수 있는 RGEN을 형성할 수 있다.
특정 구현예에서, 리보자임 가이드 RNA 카세트를 포함하는 DNA 폴리뉴클레오티드는 가이드 RNA 성분 서열 하류에 적합한 전사 종결 서열을 포함할 수 있다. 본원에서 유용한 전사 종결 서열의 예는 본원에 참조로 포함되는 미국 특허 출원 공개 2014/0186906호에 개시되어 있다. 예를 들어, S. 세레비시아 Sup4 유전자 전사 종결자 서열이 사용될 수 있다. 이러한 구현예는 일반적으로 리보자임-RNA 성분 카세트로부터 하류에 위치하는 리보자임 서열을 포함하지 않는다. 또한, 이러한 구현예는 일반적으로, 종결자 서열의 선택에 따라, RNA 성분 서열의 말단 다음에, 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개, 16개, 17개, 18개, 19개, 20개, 21개, 22개, 23개, 24개, 25개, 26개, 27개, 28개, 29개, 30개 이상의 잔기를 포함한다. 이러한 추가적인 잔기는 종결자 서열의 선택에 따라, 예를 들어 전부 U 잔기이거나, 적어도 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 또는 99% U 잔기일 수 있다. 대안적으로, 리보자임 서열(예를 들어, 망치머리 또는 HDV 리보자임)은 RNA 성분 서열의(예를 들어, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개 이상 뉴클레오티드의) 3'일 수 있다; 이러한 구현예에서 RNA 성분 서열에는 상류 및 하류 리보자임이 플랭킹한다. 따라서, 3' 리보자임 서열은 그것이 RNA 성분 서열로부터 그 자신을 절단하도록 위치할 수 있고, 이러한 절단은 전사물이 RNA 성분 서열의 말단에서 정확하게, 또는 예를 들어, RNA 성분 서열의 말단 다음에 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개, 11개, 12개, 13개, 14개, 15개 이상의 잔기가 있도록 전사물을 종료시킬 것이다.
용어 "표적화", "유전자 표적화" 및 "DNA 표적화"는 본원에서 상호 교환적으로 사용된다. 본원의 DNA 표적화는 세포의 염색체 또는 플라스미드에서와 같은 특정 DNA 서열에서의 녹아웃, 편집, 또는 녹인의 특이적 도입일 수 있다. 일반적으로, DNA 표적화는 본원에서 적합한 폴리뉴클레오티드 성분과 결합된 Cas 단백질을 사용하여 세포의 특정 DNA 서열에서 하나 또는 두 가닥을 절단함으로써 수행될 수 있다. 이러한 DNA 절단은, 이중 가닥 절단(DSB)의 경우 표적 부위에서 변형을 초래할 수 있는 NHEJ 또는 HDR 프로세스를 유도할 수 있다.
용어 "녹아웃", "유전자 녹아웃" 및 "유전적 녹아웃"은 본원에서 상호 교환적으로 사용된다. 녹아웃은 Cas 단백질로 표적화함으로써 부분적으로 또는 완전히 작동하지 않게 된 세포의 DNA 서열을 나타내며; 녹아웃 이전의 이러한 DNA 서열은, 예를 들어, 아미노산 서열을 암호화할 수 있었거나 조절 기능(예를 들어, 프로모터)을 가졌을 수 있다. 녹아웃은 삽입-결실(NHEJ를 통한 표적 DNA 서열에서의 뉴클레오티드 염기의 삽입 또는 결실)에 의해, 또는 표적화 부위 또는 그 근처에서 서열의 기능을 감소시키거나 완전히 파괴하는 서열의 특이적 제거에 의해 생성될 수 있다. 삽입-결실은, 예를 들어, 1개, 2개, 3개, 4개, 5개, 6개, 7개, 8개, 9개, 10개 이상의 염기일 수 있다. 특정 구현예에서 삽입-결실은 더욱 커서, 적어도 약 20, 30, 40, 50, 60, 70, 80, 90, 또는 100개 염기일 수 있다. 삽입-결실이 유전자의 오픈 리딩 프레임(ORF) 내에 도입되는 경우, 때때로 삽입-결실은 프레임이동 돌연변이를 생성하여 ORF에 의해 암호화되는 단백질의 야생형 발현을 방해한다.
가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템은 공동으로 전달된 폴리뉴클레오티드 변형 주형과 함께 사용되어 관심 게놈 뉴클레오티드 서열의 편집(변형)을 가능하게 한다(둘 다 그 전체가 본원에 참조로 포함되는, 2015년 3월 19일 공개된 미국 특허 출원 US 2015-0082478 A1 및 2015년 2월 26일 공개된 WO2015/026886 A1을 또한 참조.)
"변형된 뉴클레오티드" 또는 "편집된 뉴클레오티드"는 비변형 뉴클레오티드 서열에 비해 적어도 하나의 변경을 포함하는 관심 뉴클레오티드 서열을 지칭한다. 이러한 "변경"은, 예를 들어, (i) 적어도 하나의 뉴클레오티드의 치환, (ii) 적어도 하나의 뉴클레오티드의 결실, (iii) 적어도 하나의 뉴클레오티드의 삽입, 또는 (iv) (i) 내지 (iii)의 임의의 조합을 포함한다.
용어 "폴리뉴클레오티드 변형 주형"은 편집될 뉴클레오티드 서열에 비해 적어도 하나의 뉴클레오티드 변형을 포함하는 폴리뉴클레오티드를 포함한다. 뉴클레오티드 변형은 적어도 하나의 뉴클레오티드 치환(적어도 하나의 뉴클레오티드의 대체), 하나의 뉴클레오티드 부가(적어도 하나의 뉴클레오티드의 삽입), 적어도 하나의 뉴클레오티드의 결실, 또는 이의 임의의 조합일 수 있다. 선택적으로, 폴리뉴클레오티드 변형 주형은 적어도 하나의 뉴클레오티드 변형에 플랭킹한 상동 뉴클레오티드 서열을 더 포함할 수 있고, 플랭킹한 상동 뉴클레오티드 서열은 편집될 원하는 뉴클레오티드 서열에 충분한 상동성을 제공한다. 그 5' 또는 3' 말단에 보호를 포함하지 않는 폴리뉴클레오티드 변형 주형은 "비보호 폴리뉴클레오티드 변형 주형"으로 지칭된다.
용어 "보호 폴리뉴클레오티드 변형 주형" 또는 "보호 폴리뉴클레오티드 편집 주형"은 본원에서 상호 교환적으로 사용되며, 적어도 하나의 말단(그 5' 말단, 또는 그 3' 말단, 또는 그 5' 및 3' 말단 둘 다)에서 적어도 하나의 변형(보호 또는 보호 분자로 지칭됨)을 갖는 폴리뉴클레오티드 변형 주형 분자를 포함한다. 5' 또는 3'-말단에서의 보호는 증가된 HDR, 감소된 NHEJ, 또는 감소된 부위를 벗어난 통합, 또는 이의 임의의 하나의 조합에 의해 입증되는 바와 같이, 주형을 더욱 안정하게(보호되게) 만드는 폴리뉴클레오티드 변형 주형에 대한 임의의 변형을 포함한다. 보호 분자(변형)는 세포내 엑소뉴클레아제로부터 주형을 보호하여 주형 안정성을 변경하고/하거나 비-상동 말단-연결(NHEJ)을 위한 기질로 작용하는 주형의 능력을 변경할 수 있다. 하나의 대안으로서, 보호 폴리뉴클레오티드 변형 주형은 비보호 폴리뉴클레오티드 공여에 비해 상동 유도 복구 단백질과 더 잘 상호작용할 수도 있고 또는 비-상동 말단-연결 단백질과 더 불량하게 상호작용할 수도 있다. 보호 폴리뉴클레오티드는 단일 가닥 또는 이중 가닥 선형 또는 원형 분자일 수 있다. 선형 DNA 분자의 전형적인 5' 포스페이트기 및 3' 하이드록실기가 원형 분자에서의 다음 5' 또는 3' 염기에 대한 포스포디에스테르 결합으로 치환되므로, 원형 주형도 보호(변형) 말단을 포함한다.
일부 세포에서, 폴리뉴클레오티드 변형 주형은 DNA 손상의 다른 자연 위치 내로 혼입될 수 있다(예를 들어 NHEJ를 통해). NHEJ를 통한 DNA 단편의 혼입은 DNA 말단의 5' 포스페이트 및 3' 하이드록실기가 연결되는 최종 DNA 결찰 단계를 갖는다. 보호 폴리뉴클레오티드 변형 주형에서, 적합한 5' 포스페이트기를 이용할 수 없을 수도 있고 또는 변형에 의해 차단되어 주형의 부위를 벗어난 통합을 방지할 수도 있다.
본원에 사용된 용어 "증가된"은 증가된 양 또는 활성이 비교되는 양 또는 활성의 적어도 약 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11%, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 21%, 22%, 23%, 24%, 25%, 26%, 27%, 28%, 29%, 30%, 31%, 32%, 33%, 34%, 35%, 36%, 37%, 38%, 39%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 100%, 200%, 또는 250% 초과인 양 또는 활성을 지칭할 수 있다. 용어 "증가된", "상승된", "증진된", "보다 많은" 및 "개선된"은 본원에서 상호 교환적으로 사용된다. 용어 "증가된"은 단백질을 암호화하는 폴리뉴클레오티드의 발현을 특징지우는 데 사용될 수 있는데, 예를 들어, "증가된 발현"은 또한 "과발현"을 의미할 수 있다.
보호 폴리뉴클레오티드 변형 주형의 비제한적인 예로는 원형 DNA 폴리뉴클레오티드 변형 주형(이용할 수 있는 이중 가닥 말단 없음), 각 가닥의 5' 말단 상에 3탄소 알칸 스페이서로 이루어진 적어도 하나의 보호 분자를 포함하는 선형 이중 가닥 DNA 폴리뉴클레오티드 변형 주형, 및 각 가닥 상에서 포스포로티오에이트 결합으로 치환된 적어도 1, 2, 3, 4, 또는 5개의 가장 5' 포스포디에스테르 결합으로 이루어진 적어도 하나의 보호 분자를 포함하는 선형 폴리뉴클레오티드 변형 주형을 들 수 있다. 보호 폴리뉴클레오티드 변형 주형의 다른 비제한적 예는 보호 분자, 예컨대 알칸 스페이서, 형광단, NHS 에스테르, 디곡시젠, 콜레스테릴-TEG, C6, C12, 헥시닐, 옥스타디이닐 dUTP, 바이오틴, 디티올, 역위 디데옥시-T 변형 또는 이의 임의의 한 조합을 포함하는 주형을 포함하지만, 이에 한정되는 것은 아니다.
하나의 구현예에서, 본 발명은 그 게놈에 변형 뉴클레오티드 서열을 포함하는 세포를 선택하는 방법을 기술하며, 이 방법은
a) 세포에 가이드 폴리뉴클레오티드, 보호 폴리뉴클레오티드 변형 주형 및 Cas 엔도뉴클레아제를 제공하는 단계로서, 상기 Cas 엔도뉴클레아제 및 가이드 폴리뉴클레오티드는 상기 세포의 게놈 내 표적 부위에서 단일 또는 이중 가닥 절단을 도입할 수 있는 복합체를 형성할 수 있고, 상기 보호 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는 단계; 및 b) 상기 변형 뉴클레오티드 서열을 포함하는 단계 (a)로부터의 세포를 선택하는 단계를 포함한다. 이 방법은 상기 세포에서 상동 유도 복구(HDR) 및 비-상동 말단 연결(NHEJ)의 빈도를 결정하는 단계를 추가로 포함할 수 있다.
본원에 기술된 방법을 이용하여, HDR의 빈도는 비보호(대조군) 폴리뉴클레오티드 변형 주형을 사용한 것을 제외하고 본원에 기술된 방법과 모두 동일한 성분 및 단계를 갖는 대조 방법에서 유도되는 HDR 빈도에 비해 적어도 약 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11%, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 21%, 22%, 23%, 24%, 25%, 26%, 27%, 28%, 29%, 30%, 31%, 32%, 33%, 34%, 35%, 36%, 37%, 38%, 39%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 100%, 200%, 또는 250%만큼 증가될 수 있다.
본원에 기술된 방법을 이용하여, NHEJ의 빈도는 비보호(대조군) 폴리뉴클레오티드 변형 주형을 사용한 것을 제외하고 본원에 기술된 방법과 모두 동일한 성분 및 단계를 갖는 대조 방법에서 유도되는 NHEJ 빈도에 비해 적어도 약 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11%, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 21%, 22%, 23%, 24%, 25%, 26%, 27%, 28%, 29%, 30%, 31%, 32%, 33%, 34%, 35%, 36%, 37%, 38%, 39%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%만큼 감소될 수 있다.
하나의 구현예에서, 본 발명은 세포 게놈 내 뉴클레오티드 서열을 편집하는 방법을 기술하며, 이 방법은 가이드 폴리뉴클레오티드, 보호 폴리뉴클레오티드 변형 주형, 및 적어도 하나의 Cas 엔도뉴클레아제를 세포에 제공하는 단계로서, Cas 엔도뉴클레아제는 상기 세포의 게놈 내 표적 서열에서 단일 또는 이중 가닥 절단을 도입할 수 있고, 상기 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는 단계를 포함한다. 편집될 뉴클레오티드는 Cas 엔도뉴클레아제에 의해 인식되고 절단되는 표적 부위 내에 또는 외부에 위치할 수 있다. 하나의 구현예에서, 적어도 하나의 뉴클레오티드 변형은 Cas 엔도뉴클레아제에 의해 인식되고 절단되는 표적 부위에서의 변형이 아니다. 다른 구현예에서, 편집될 적어도 하나의 뉴클레오티드와 게놈 표적 부위 사이에는 적어도 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 30, 40, 50, 100, 200, 300, 400, 500, 600, 700, 900 또는 1000개의 뉴클레오티드가 존재한다.
세포는 인간, 비인간, 동물, 박테리아, 고세균, 진균, 미생물, 곤충, 효모, 및 식물 세포, 식물, 종자뿐만 아니라 본원에 기술된 방법에 의해 생성된 미생물을 포함하나, 이에 한정되는 것은 아니다. 본원의 효모의 예로 통상적인 효모와 비 통상적인 효모를 포함한다. 특정 구현예에서 통상적인 효모는 비 상동 말단 연결(NHEJ)에 의해 매개되는 복구 프로세스보다 상동 재조합(HR) DNA 복구 프로세스를 선호하는 효모이다. 본원에서 통상적인 효모의 예는 사카로마이세스 속의 종들(예를 들어, 출아 효모, 빵 효모, 및/또는 맥주 효모로도 알려져 있는 S. 세레비시아; S. 바야누스(S. bayanus); S. 보울라디이(S. boulardii); S. 불데리(S. bulderi); S. 카리오카누스(S. cariocanus); S. 카리오쿠스(S. cariocus); S. 케발리에리(S. chevalieri); S. 다이레넨시스(S. dairenensis); S. 엘립소이데우스(S. ellipsoideus); S. 유바야누스(S. eubayanus); S. 엑시구우스(S. exiguus); S. 플로렌티누스(S. florentinus); S. 클루이베리(S. kluyveri); S. 마르티니애(S. martiniae); S. 모나센시스(S. monacensis); S. 노르벤시스(S. norbensis); S. 파라독수스(S. paradoxus); S. 파스토리아누스(S. pastorianus); S. 스펜세로룸(S. spencerorum); S. 투리센시스(S. turicensis); S. 유니스포루스(S. unisporus); S. 우바룸(S. uvarum); S. 조나투스(S. zonatus)) 및 스키조사카로마이세스 속의 종들(예를 들어, 분열 효모로도 알려져 있는 S. 폼베(S. pombe); S. 크리오필루스(S. cryophilus); S. 자포니쿠스(S. japonicus); S. 옥토스포루스(S. octosporus))를 포함한다. 식물 세포는 옥수수, 벼, 수수, 호밀, 보리, 밀, 밀렛, 귀리, 사탕수수, 잔디, 또는 스위치그래스, 대두, 카놀라, 알팔파, 해바라기, 목화, 담배, 땅콩, 감자, 담배, 아라비돕시스, 및 잇꽃 세포로 이루어지는 군으로부터 선택된 세포를 포함한다.
본원의 비 통상적인 효모는 사카로마이세스(예컨대, S. 세레비시아) 또는 스키조사카로마이세스(예컨대, S. 폼베) 종과 같은 통상적인 효모가 아니다. 특정 구현예에서 비 통상적인 효모는 HR에 의해 매개되는 복구 프로세스보다 NHEJ DNA 복구 프로세스를 선호하는 효모일 수 있다. 통상적인 효모, 예컨대 S. 세레비시아 및 S. 폼베는 일반적으로 짧은 플랭킹 상동성 암(30~50 bp)을 갖는 공여 DNA와 보통 70%를 초과하는 효율로 특이적 통합을 나타내는 반면, 비 통상적인 효모, 예컨대 피키아 파스토리스(Pichia pastoris), 피키아 스티피티스(Pichia stipitis), 한세눌라 폴리모르파(Hansenula polymorpha), 야로위아 리폴리티카 및 클루이베로마이세스 락티스(Kluyveromyces lactis)는 보통 유사한 구조의 공여 DNA와 1% 미만의 효율로 특이적 통합을 나타낸다(Chen et al., PLoS ONE 8:e57952). 따라서, HR 프로세스에 대한 선호도는, 예를 들어, 효모를 적합한 공여 DNA로 형질전환시키고, 공여 DNA에 의해 표적화될 것으로 예측되는 게놈 부위와 특이적으로 재조합되는 정도를 결정함으로써 측정할 수 있다. 예를 들어, 이러한 분석법으로, 효모 게놈에서 높은 정도의 공여 DNA의 무작위적 통합이 산출되는 경우, NHEJ에 대한 선호도(또는 HR에 대한 낮은 선호도)가 명백할 것이다. 효모에서 DNA의 특이적(HR-매개) 및/또는 무작위적(NHEJ-매개) 통합 비율을 결정하기 위한 분석법은 당해 분야에 공지되어 있다(예를 들어, Ferreira and Cooper, Genes Dev. 18:2249-2254; Corrigan et al., PLoS ONE 8:e69628; Weaver et al., Proc. Natl. Acad. Sci. U.S.A. 78:6354-6358; Keeney and Boeke, Genetics 136:849-856).
이의 낮은 수준의 HR 활성을 고려하면, 본원의 비 통상적인 효모는 (i) 예를 들어, 약 1%, 2%, 3%, 4%, 5%, 6%, 7% 또는 8% 미만의 30 내지 50 bp의 플랭킹 상동성 암을 갖는 적합한 공여 DNA에 의한 특이적인 표적화 비율을 나타내고/내거나 (ii) 예를 들어, 약 65%, 66%, 67%, 68%, 69%, 70%, 71%, 72%, 73%, 74% 또는 75%를 초과하는 전술한 공여 DNA의 무작위적 통합 비율을 나타낼 수 있다. 적합한 공여 DNA의 (i) 특이적 표적화 및/또는 (ii) 무작위적 통합의 이러한 비율은 본원에 개시된 바와 같이 RGEN이 제공되기 전에 존재하는 그대로의 비 통상적인 효모를 특징지울 수 있다. 특정 구현예에서, 비 통상적인 효모에 RGEN을 제공하는 목적은 특정 부위에서 효모를 HR 쪽으로 편향시키기 위한 부위 특이적 DNA 단일 가닥 절단(SSB) 또는 이중 가닥 절단(DSB)을 생성하는 것이다. 따라서, 비 통상적인 효모에서 적합한 RGEN을 제공하는 것은 일반적으로 이러한 효모가 특정 공여 DNA와 증가된 HR 비율을 나타낼 수 있게 해야 한다. 이러한 증가된 비율은 적합한 대조군(예를 들어, 동일한 공여 DNA로 형질전환되었지만, 적합한 RGEN이 없는 동일한 비 통상적인 효모)에서의 HR 비율보다 적어도 약 2배, 3배, 4배, 5배, 6배, 7배, 8배, 9배 또는 10배 더 높을 수 있다.
본원에 기술된 방법 및 조성물은 뉴클레오티드 서열을 변형하고/하거나 상동 유도 복구 빈도를 증가시키기 위해 가이드 폴리뉴클레오티드, 보호 폴리뉴클레오티드 변형 주형 및 Cas 엔도뉴클레아제를 이용한다. 보호 폴리뉴클레오티드 주형은 적어도 하나의 이종 유전자 발현 카세트에 의해 구분되는 2개의 상동성 암을 포함할 수 있다. 이 방법은 또한 임의의 변형 주형이 부위를 벗어나 통합된 경우 그 빈도를 감소시키기 위해 이용될 수 있다.
하나의 구현예에서, 본 발명은 그 게놈에 변형 뉴클레오티드 서열을 포함하는 미생물 세포를 선택하는 방법을 기술하며, 이 방법은 a) 세포에 가이드 폴리뉴클레오티드, 적어도 하나의 보호 폴리뉴클레오티드 변형 주형 및 Cas 엔도뉴클레아제를 제공하는 단계로서, 상기 Cas 엔도뉴클레아제 및 가이드 폴리뉴클레오티드는 상기 세포의 게놈 내 표적 부위에서 단일 또는 이중 가닥 절단을 도입할 수 있는 복합체를 형성할 수 있고, 상기 보호 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는 단계; b) 상기 변형 뉴클레오티드 서열을 포함하는 단계 (a)로부터의 세포를 선택하는 단계, 및 c) 상기 세포에서 보호 폴리뉴클레오티드 변형 주형의 부위를 벗어난 통합 빈도를 추가로 결정하는 단계를 포함한다.
상기 세포에서 보호 폴리뉴클레오티드 변형 주형의 부위를 벗어난 통합 빈도는 비보호(대조군) 폴리뉴클레오티드 변형 주형을 사용한 것을 제외하고 본원에 기술된 방법과 모두 동일한 성분을 갖는 대조 방법에서 유도되는 부위를 벗어난 통합 빈도에 비해 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11%, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 21%, 22%, 23%, 24%, 25%, 26%, 27%, 28%, 29%, 30%, 31%, 32%, 33%, 34%, 35%, 36%, 37%, 38%, 39%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95% 또는 100%만큼 감소될 수 있다.
용어 "녹인", "유전자 녹인", "유전적 삽입" 및 "유전적 녹인"은 본원에서 상호 교환적으로 사용된다. 녹인은(적절한 공여 DNA 폴리뉴클레오티드도 사용되는 경우, HR에 의해) Cas 단백질로 표적화함으로써 세포의 특정 DNA 서열에서 DNA 서열을 치환하거나 삽입하는 것을 나타낸다. 녹인의 예는 유전자의 코딩 영역에 이종 아미노산 코딩 서열의 특이적 삽입, 또는 유전자좌에 전사 조절 요소의 특이적 삽입을 들 수 있다.
Cas 엔도뉴클레아제에 대한 표적 부위에 삽입되는 관심 폴리뉴클레오티드를 갖는 세포 또는 생물을 얻기 위해 다양한 방법 및 조성물을 이용할 수 있다. 이러한 방법은 상동 재조합을 이용하여 표적 부위에서 관심 폴리뉴클레오티드의 통합을 제공할 수 있다. 제공되는 하나의 방법에서, 관심 폴리뉴클레오티드는 공여 DNA 작제물로 생물 세포에 제공된다. 본원에 사용된 "공여 DNA" 또는 "공여 폴리뉴클레오티드"는 Cas 엔도뉴클레아제의 표적 부위에 삽입될 관심 폴리뉴클레오티드를 포함하는 DNA 작제물이다. 공여 DNA 작제물은 관심 폴리뉴클레오티드에 플랭킹한 제1 상동 영역 및 제2 상동 영역을 더 포함할 수 있다. 공여 DNA의 제1 상동 영역 및 제2 상동 영역은 세포 또는 생물 게놈의 표적 부위에 존재하거나 거기에 플랭킹한 제1 게놈 영역 및 제2 게놈 영역에 대해 각각 상동성을 공유한다. "상동성"이란 유사한 DNA 서열을 의미한다. 예를 들어, 공여 DNA에서 발견되는 "게놈 영역에 대한 상동 영역"은 세포 또는 생물 게놈의 주어진 "게놈 영역"과 유사한 서열을 갖는 DNA 영역이다. 상동 영역은 절단된 표적 부위에서 상동 재조합을 촉진시키기에 충분한 임의의 길이일 수 있다. 예를 들어, 상동 영역이 해당 게놈 영역과 상동 재조합을 겪기에 충분한 상동성을 갖도록, 상동 영역은 적어도 5~10, 5~15, 5~20, 5~25, 5~30, 5~35, 5~40, 5~45, 5~50, 5~55, 5~60, 5~65, 5~70, 5~75, 5~80, 5~85, 5~90, 5~95, 5~100, 5~200, 5~300, 5~400, 5~500, 5~600, 5~700, 5~800, 5~900, 5~1000, 5~1100, 5~1200, 5~1300, 5~1400, 5~1500, 5~1600, 5~1700, 5~1800, 5~1900, 5~2000, 5~2100, 5~2200, 5~2300, 5~2400, 5~2500, 5~2600, 5~2700, 5~2800, 5~2900, 5~3000, 5~3100개 이상 염기의 길이를 포함할 수 있다. "충분한 상동성"은 2개의 폴리뉴클레오티드 서열이 상동 재조합 반응을 위한 기질로서 작용하기에 충분한 구조적 유사성을 갖는다는 것을 나타낸다. 구조적 유사성은 각 폴리뉴클레오티드 단편의 전체 길이뿐만 아니라 폴리뉴클레오티드의 서열 유사성을 포함한다. 서열 유사성은 서열의 전체 길이에 걸쳐 서열 동일성 백분율 및/또는 100% 서열 동일성을 갖는 인접 뉴클레오티드와 같은 국소화된 유사성을 포함하는 보존된 영역 및 서열 길이의 일부분에 걸쳐 서열 동일성 백분율에 의해 기술될 수 있다.
표적 및 공여 폴리뉴클레오티드가 공유하는 상동성 또는 서열 동일성의 양은 변할 수 있으며, 약 1~20 bp, 20~50 bp, 50~100 bp, 75~150 bp, 100~250 bp, 150~300 bp, 200~400 bp, 250~500 bp, 300~600 bp, 350~750 bp, 400~800 bp, 450~900 bp, 500~1000 bp, 600~1250 bp, 700~1500 bp, 800~1750 bp, 900~2000 bp, 1~2.5 kb, 1.5~3 kb, 2~4 kb, 2.5~5 kb, 3~6 kb, 3.5~7 kb, 4~8 kb, 5~10 kb, 또는 표적 부위의 전체 길이까지를 포함하는 범위의 단위 적분 값을 갖는 총 길이 및/또는 영역을 포함한다. 이 범위에는 범위 내의 모든 정수가 포함되고, 예를 들어, 1~20 bp 범위는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19 및 20 bp를 포함한다. 상동성의 양은 2개의 폴리뉴클레오티드의 전체 정렬 길이에 걸친 서열 동일성 백분율에 의해 기술될 수도 있는데, 이는 약 적어도 50%, 55%, 60%, 65%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%의 서열 동일성 백분율을 포함한다. 충분한 상동성은 폴리뉴클레오티드 길이, 전체 서열 동일성 백분율, 및 선택적으로, 연속된 뉴클레오티드의 보존 영역 또는 국소 서열 동일성 백분율의 임의의 조합을 포함하며, 예를 들어, 충분한 상동성은 표적 유전자좌의 영역과 적어도 80% 서열 동일성을 갖는 75~150 bp의 영역으로서 기술될 수 있다. 충분한 상동성은 또한 높은 엄격 조건 하에 특이적으로 혼성화할 것으로 예측되는 두 폴리뉴클레오티드의 능력으로 기술될 수 있다. 예를 들어, Sambrook et al., (1989) Molecular Cloning: A Laboratory Manual, (Cold Spring Harbor Laboratory Press, NY); Current Protocols in Molecular Biology, Ausubel et al., Eds (1994) Current Protocols, (Greene Publishing Associates, Inc. and John Wiley & Sons, Inc.); 및, Tijssen (1993) Laboratory Techniques in Biochemistry and Molecular Biology--Hybridization with Nucleic Acid Probes, (Elsevier, New York)를 참조한다.
공여 DNA 폴리뉴클레오티드는 표적 부위의 서열과 이종인 서열에 의해 분리된 2개의 상동성 서열을 가질 수 있다. 이러한 공여 폴리뉴클레오티드의 이들 2개의 상동성 서열은 이종 서열에 플랭킹한 "상동성 암(arm)"으로 지칭될 수 있다. 2개의 상동성 암을 갖는 공여 폴리뉴클레오티드와 표적 부위 사이의 HR은 일반적으로 표적 부위의 서열을 공여 폴리뉴클레오티드의 이종 서열로 치환한다(공여 폴리뉴클레오티드의 상동성 암에 상동성인 DNA 서열들 사이에 위치한 표적 부위 서열은 공여 폴리뉴클레오티드의 이종 서열에 의해 치환된다). 2개의 상동성 암을 갖는 공여 폴리뉴클레오티드에서, 이러한 암은 1개 이상의 뉴클레오티드에 의해 구분될 수 있다(즉, 공여 폴리뉴클레오티드의 이종 서열은 길이가 적어도 1개의 뉴클레오티드일 수 있다). 본원에서 비 통상적인 효모에서 수행될 수 있는 다양한 HR 절차는, 예를 들어, 본원에 참조로 포함되는 DNA Recombination: Methods and Protocols: 1st Edition (H. Tsubouchi, Ed., Springer-Verlag, New York, 2011)에 개시되어 있다.
본원에 사용된 "게놈 영역"은 표적 부위의 어느 한면에 존재하거나 대안적으로 표적 부위의 일부도 포함하는 세포 게놈 내 염색체의 분절이다. 게놈 영역이 해당 상동 영역과 상동 재조합을 겪기에 충분한 상동성을 갖도록, 게놈 영역은 적어도 5~10, 5~15, 5~20, 5~25, 5~30, 5~35, 5~40, 5~45, 5~50, 5~55, 5~60, 5~65, 5~70, 5~75, 5~80, 5~85, 5~90, 5~95, 5~100, 5~200, 5~300, 5~400, 5~500, 5~600, 5~700, 5~800, 5~900, 5~1000, 5~1100, 5~1200, 5~1300, 5~1400, 5~1500, 5~1600, 5~1700, 5~1800, 5~1900, 5~2000, 5~2100, 5~2200, 5~2300, 5~2400, 5~2500, 5~2600, 5~2700, 5~2800, 5~2900, 5~3000, 5~3100개 이상의 염기를 포함할 수 있다.
관심 폴리뉴클레오티드 및/또는 형질은, 둘 다 본원에 참조로 포함되는 2013년 10월 3일 공개된 US-2013-0263324-A1 및 2013년 1월 24일 공개된 PCT/US13/22891에 기재된 바와 같이, 복합 형질 유전자좌에 함께 쌓일 수 있다. 본원에 기술된 가이드 폴리뉴클레오티드/Cas9 엔도뉴클레아제 시스템은 이중 가닥 절단을 생성하는 데 효율적인 시스템을 제공하고, 복합 형질 유전자좌에 형질이 쌓이도록 할 수 있다.
가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템은 ((본원에 참조로 포함되는, 2014년 8월 20일에 출원된 미국 특허 출원 14/463,687호에 기술된 바와 같이 세포에 하나 이상의 가이드 폴리뉴클레오티드, 하나 이상의 Cas 엔도뉴클레아제, 및 선택적으로 하나 이상의 공여 DNA를 제공하여 하나 이상의 표적 부위 내로 하나 이상의 관심 폴리뉴클레오티드 또는 하나 이상의 관심 형질을 도입하기 위해 사용될 수 있다.
주어진 게놈 영역과 공여 DNA에서 발견되는 해당 상동 영역 사이의 구조적 유사성은 상동 재조합이 일어날 수 있게 하는 임의의 서열 동일성 정도일 수 있다. 예를 들어, 공여 DNA의 "상동 영역"과 생물 게놈의 "게놈 영역"이 공유하는 상동성 또는 서열 동일성의 양은 서열이 상동 재조합을 겪도록 적어도 50%, 55%, 60%, 65%, 70%, 75%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100%의 서열 동일성을 가질 수 있다.
공여 DNA 상의 상동 영역은 표적 부위에 플랭킹한 임의의 서열과 상동성을 가질 수 있다. 일부 구현예에서 상동 영역들은 표적 부위 바로 옆의 게놈 서열과 상당한 서열 상동성을 공유하지만, 상동 영역은 표적 부위에 추가로 5' 또는 3'일 수 있는 영역에 충분한 상동성을 갖도록 설계될 수 있는 것으로 인식된다. 또 다른 구현예에서, 상동 영역은 하류 게놈 영역과 함께 표적 부위의 단편과 상동성을 가질 수도 있다. 하나의 구현예에서, 제1 상동 영역은 표적 부위의 제1 단편을 추가로 포함하고, 제2 상동 영역은 표적 부위의 제2 단편을 포함하며, 제1 단편 및 제 2 단편은 상이하다.
본원에 사용된 "상동 재조합"은 상동 부위에서 2개의 DNA 분자 간의 DNA 단편의 교체를 포함한다. 상동 재조합의 빈도는 여러 인자에 영향을 받는다. 서로 다른 생물은 상동 재조합의 양 및 상동 재조합과 비상동 재조합의 상대 비율이 다르다. 일반적으로, 상동 영역의 길이는 상동 재조합 사건의 빈도에 영향을 미친다: 상동 영역이 길수록 빈도는 더 커진다. 상동 재조합을 관찰하는 데 필요한 상동 영역의 길이도 종에 따라 다르다. 많은 경우에, 적어도 5 kb의 상동성이 이용되었지만, 상동 재조합은 25~50 bp만큼의 적은 상동성으로 관찰되었다. 또한, 예를 들어 Singer et al., (1982) Cell 31:25-33; Shen and Huang, (1986) Genetics 112:441-57; Watt et al., (1985) Proc. Natl. Acad. Sci. USA 82:4768-72, Sugawara and Haber, (1992) Mol Cell Biol 12:563-75, Rubnitz and Subramani, (1984) Mol Cell Biol 4:2253-8; Ayares et al., (1986) Proc. Natl. Acad. Sci. USA 83:5199-203; Liskay et al., (1987) Genetics 115:161-7을 참조한다.
상동성-유도 복구(homology-directed repair, HDR)는 이중 가닥 및 단일 가닥 DNA 절단을 복구하는 세포의 메커니즘이다. 상동성-유도 복구는 상동 재조합(HR) 및 단일-가닥 어닐링(SSA)을 포함한다(Lieber. 2010 Annu. Rev. Biochem . 79:181-211). 가장 일반적인 형태의 HDR은 상동 재조합(HR)이라고 하며, 공여 DNA와 수용 DNA 간의 가장 긴 서열 상동성 요건을 갖는다. 다른 형태의 HDR은 단일 가닥 어닐링(SSA) 및 절단 유도 복제를 포함하며, 이들은 HR에 비해 더 짧은 서열 상동성을 필요로 한다. 닉(단일-가닥 절단)에서의 상동-유도 복구는 이중-가닥 절단에서의 HDR과 다른 메커니즘을 통해 일어날 수 있다(Davis and Maizels. PNAS (0027-8424), 111 (10), p. E924-E932.
예를 들어, 상동 재조합(HR)을 통한 세포 게놈의 변경은 유전자 조작을 위한 강력한 도구이다. 식물에서의 상동 재조합에 대한 파라미터는 도입된 절단된 선택 가능한 마커 유전자를 구조하여 주로 조사되었다. 이 실험들에서, 상동 DNA 단편은 일반적으로 0.3 kb 내지 2 kb였다. 관찰된 상동 재조합 빈도는 10-4 내지 10-5 정도였다. 예를 들어, Halfter et al., (1992) Mol Gen Genet 231:186-93; Offringa et al., (1990) EMBO J 9:3077-84; Offringa et al., (1993) Proc. Natl. Acad. Sci. USA 90:7346-50; Paszkowski et al., (1988) EMBO J 7:4021-6; Hourda and Paszkowski, (1994) Mol Gen Genet 243:106-11; 및 Risseeuw et al., (1995) Plant J 7:109-19를 참조한다.
상동 재조합은 곤충에서 입증되었다. 초파리에서, Dray와 Gloor는 합리적인 효율로 DNA의 큰 비상동성 분절을 표적으로 복사하는 데 3 kb만큼의 적은 총 주형:표적 상동성이면 충분하다는 것을 발견하였다(Dray and Gloor, (1997) Genetics 147:689-99). 초파리의 표적 FRT에서 FLP 매개 DNA 통합을 이용하여, Golic 등은 공여체와 표적이 4.1 kb의 상동성을 공유했을 때 통합이 1.1 kb의 상동성에 비해 약 10배 더 효율적이었음을 보였다(Golic et al., (1997) Nucleic Acids Res 25:3665). 초파리로부터의 데이터는 2~4 kb의 상동성이 효율적 표적화를 위해 충분함을 나타내지만, 약 30 bp 내지 약 100 bp 정도의 훨씬 더 작은 상동성이면 충분할 수 있다는 일부 증거가 존재한다(Nassif and Engels, (1993) Proc. Natl. Acad. Sci. USA 90:1262-6; Keeler and Gloor, (1997) Mol Cell Biol 17:627-34).
상동 재조합은 다른 생물에서도 이루어졌다. 예를 들어, 기생 원생동물 리슈마니아에서의 상동 재조합에 적어도 150~200 bp의 상동성이 필요했다(Papadopoulou and Dumas, (1997) Nucleic Acids Res 25:4278-86). 사상균 아스퍼질러스 니둘란스에서, 50 bp만큼의 적은 플랭킹 상동성으로 유전자 치환이 이루어졌다(Chaveroche et al., (2000) Nucleic Acids Res 28:e97). 표적 유전자 치환은 섬모 테트라하이메나 써모필라에서도 입증되었다(Gaertig et al., (1994) Nucleic Acids Res 22:5391-8). 포유류에서, 상동 재조합은 배양물에서 자라고, 형질전환되고, 선택되어 마우스 배아에 도입될 수 있는 다능성 배아 줄기 세포주(ES)를 사용한 마우스에서 가장 성공적이었다. 삽입된 유전자이식 ES 세포를 지닌 배아는 유전적 자손으로 자란다. 선택된 유전자를 보유하는 동형접합 마우스가 형제 교배에 의해 얻어질 수 있다. 이 프로세스의 개요는 Watson et al., (1992) Recombinant DNA, 2nd Ed., (Scientific American Books distributed by WH Freeman & Co.); Capecchi, (1989) Trends Genet 5:70-6; 및 Bronson, (1994) J Biol Chem 269:27155-8에 제공되어 있다. 마우스 이외의 포유류에서 상동 재조합은 난모세포에 이식되거나 배아로 자랄 수 있는 줄기 세포가 부족하여 제한적이었다. 그러나, McCreath 등(Nature 405:1066-9 (2000))은 1차 배아 섬유아세포에서의 형질 전환 및 선택에 의해 양에서 성공적인 상동 재조합을 보고하였다.
오류가 발생하기 쉬운 DNA 복구 메커니즘은 이중 가닥 절단 부위에서 돌연변이를 일으킬 수 있다. 비상동 말단 연결(NHEJ) 경로는 절단 말단을 합치는 가장 일반적인 복구 메커니즘이다(Bleuyard et al., (2006) DNA Repair 5:1-12). 염색체의 구조적 완전성은 복구에 의해 일반적으로 보존되지만, 결실, 삽입, 또는 다른 재배열이 일어날 수 있다. 하나의 이중 가닥 절단의 두 말단이 NHEJ의 가장 우세한 기질이지만(Kirik et al., (2000) EMBO J 19:5562-6), 두 개의 상이한 이중 가닥 절단이 발생하는 경우, 상이한 절단의 자유 말단이 결찰되어 염색체 결실(Siebert and Puchta, (2002) Plant Cell 14:1121-31), 또는 상이한 염색체 간 염색체 전위(Pacher et al., (2007) Genetics 175:21-9)를 초래할 수 있다.
에피솜 DNA 분자가 이중 가닥 절단에 결찰, 예컨대, 염색체 이중 가닥 절단으로 T-DNA가 통합될 수도 있다(Chilton and Que, (2003) Plant Physiol 133:956-65; Salomon and Puchta, (1998) EMBO J 17:6086-95). 예를 들어, 이중 가닥 절단의 성숙과 관련된 엑소뉴클레아제 활성에 의해 이중 가닥 절단 주위의 서열이 일단 변경되면, 비분열 체세포에서의 상동 염색체, 또는 DNA 복제 후 자매 염색분체와 같은 상동 서열이 이용 가능한 경우 유전자 전환 경로는 원래의 구조를 복원할 수 있다(Molinier et al., (2004) Plant Cell 16:342-52). 이소성 및/또는 후성적 DNA 서열이 상동 재조합을 위한 DNA 복구 주형으로서 작용할 수도 있다(Puchta, (1999) Genetics 152:1173-81).
이중 가닥 절단이 DNA에 유도되면, 세포의 DNA 복구 메커니즘이 활성화되어 절단을 복구한다. 오류가 발생하기 쉬운 DNA 복구 메커니즘은 이중 가닥 절단 부위에서 돌연변이를 일으킬 수 있다. 절단된 말단을 하나로 합치는 가장 일반적인 복구 메커니즘은 비상동 말단 연결(NHEJ) 경로이다(Bleuyard et al., (2006) DNA Repair 5:1-12). 염색체의 구조적 완전성은 일반적으로 복구에 의해 보존되지만, 결실, 삽입 또는 다른 재배열이 가능하다(Siebert and Puchta, (2002) Plant Cell 14:1121-31, Pacher et al., (2007) Genetics 175:21-9).
대안적으로, 이중 가닥 절단은 상동 DNA 서열들 간의 상동 재조합에 의해 복구될 수 있다. 예를 들어, 이중 가닥 절단의 성숙과 관련된 엑소뉴클레아제 활성에 의해 이중 가닥 절단 주위의 서열이 일단 변경되면, 비분열 체세포에서의 상동 염색체, 또는 DNA 복제 후 자매 염색분체와 같은 상동 서열이 이용 가능한 경우 유전자 전환 경로는 원래의 구조를 복원할 수 있다(Molinier et al., (2004) Plant Cell 16:342-52). 이소성 및/또는 후성적 DNA 서열이 상동 재조합을 위한 DNA 복구 주형으로서 작용할 수도 있다(Puchta, (1999) Genetics 152:1173-81).
DNA 이중 가닥 절단은 상동 재조합 경로를 활발하게 하는 효과적인 인자일 것으로 보인다(Puchta et al., (1995) Plant Mol Biol 28:281-92; Tzfira and White, (2005) Trends Biotechnol 23:567-9; Puchta, (2005) J Exp Bot 56:1-14). DNA 절단제를 사용하여, 식물의 인공 작제 상동 DNA 반복 서열들 사이에서 상동 재조합의 2배 내지 9배 증가가 관찰되었다(Puchta et al., (1995) Plant Mol Biol 28:281-92). 옥수수 원형질체에서, 선형 DNA 분자를 이용한 실험을 통해 플라스미드들 간의 향상된 상동 재조합이 입증되었다(Lyznik et al., (1991) Mol Gen Genet 230:209-18).
공여 DNA는 당해 분야에 알려진 임의의 수단에 의해 도입될 수 있다. 공여 DNA는, 예를 들어, 아그로박테리움 매개 형질전환 또는 바이올리스틱 유전자총을 포함하여, 당해 분야에 알려진 임의의 형질전환 방법에 의해 제공될 수 있다. 공여 DNA는 세포에 일시적으로 존재할 수 있거나, 바이러스성 레플리콘을 통해 도입될 수 있다.
가이드 RNA/Cas 엔도뉴클레아제 시스템에 대한 추가 용도는 기술되어 있고(본원에 참조로 포함되는 2015년 3월 19일 공개된 미국 특허 출원 US 2015-0082478 A1, 2015년 2월 26일 공개된 WO2015/026886 A1, 2015년 2월 26일 공개된 US 2015-0059010 A1, 2014년 7월 7일 출원된 미국 출원 62/023246, 및 2014년 8월 13일 출원된 미국 출원 62/036,652 참조), 관심 뉴클레오티드 서열(예컨대, 조절 요소)의 변형 또는 치환, 관심 폴리뉴클레오티드의 삽입, 유전자 녹아웃, 유전자 녹인, 스플라이싱 부위의 변형 및/또는 대안적 스플라이싱 부위의 도입, 관심 단백질, 아미노산 및/또는 단백질 융합체를 암호화하는 뉴클레오티드 서열의 변형, 및 관심 유전자 내 역위 반복 서열 발현에 의한 유전자 침묵화를 포함하나, 이에 한정되는 것은 아니다.
본 발명의 하나의 구현예에서, 이 방법은 그 게놈에 변형 뉴클레오티드 서열을 포함하는 세포를 선택하는 방법을 포함하며, 이 방법은 a) 세포에 가이드 폴리뉴클레오티드, 보호 폴리뉴클레오티드 변형 주형 및 Cas 엔도뉴클레아제를 제공하는 단계로서, 상기 Cas 엔도뉴클레아제 및 가이드 폴리뉴클레오티드는 상기 세포의 게놈 내 표적 부위에서 단일 또는 이중 가닥 절단을 도입할 수 있는 복합체를 형성할 수 있고, 상기 보호 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는 단계; 및 b) 상기 변형 뉴클레오티드 서열을 포함하는 단계 (a)로부터의 세포를 선택하는 단계를 포함한다. 보호 폴리뉴클레오티드 변형 주형은 그 5' 말단, 3' 말단, 또는 5' 및 3' 말단 둘 다에 적어도 하나의 보호 분자를 포함하는 선형 폴리뉴클레오티드일 수도 있고, 또는 원형 분자일 수도 있다. 보호 분자는 알칸 스페이서, 형광단, NHS 에스테르, 디곡시젠, 콜레스테릴-TEG, C6, C12, 헥시닐, 옥스타디이닐 dUTP, 바이오틴, 디티올, 역위 디데옥시-T 변형 또는 이의 임의의 한 조합으로 이루어진 군으로부터 선택될 수 있다. 보호 폴리뉴클레오티드 변형 주형은 적어도 한 가닥의 5'-말단에 적어도 하나의 포스포로티오에이트 결합을 포함하는 이중 가닥 선형 분자일 수 있다. 보호 폴리뉴클레오티드 변형 주형은 각 가닥의 5'-말단에 3탄소 알칼리성 스페이서를 포함하는 이중 가닥 선형 분자일 수 있다. 보호 폴리뉴클레오티드 주형의 적어도 하나의 뉴클레오티드 변형은 (i) 적어도 하나의 뉴클레오티드의 치환, (ii) 적어도 하나의 뉴클레오티드의 결실, (iii) 적어도 하나의 뉴클레오티드의 삽입, 및 (iv) (i) 내지 (iii)의 임의의 조합으로 이루어진 군으로부터 선택될 수 있다.
본원에 기술된 방법 및 조성물은 가이드 폴리뉴클레오티드, 보호 폴리뉴클레오티드 변형 주형 및 Cas 엔도뉴클레아제를 이용하며, 게놈 조작(예컨대 관심 폴리뉴클레오티드의 도입, 유전자 편집 또는 대사 경로의 일부인 유전자의 변형을 위해 사용될 수 있다.
본원에 기술된 방법은 대사 경로 조작(대사 조작)을 위해 및/또는 유전적으로 조작된 재조합 미생물 세포를 생성하기 위해 사용될 수 있다. 특정 구현예에서 재조합 미생물 세포는 본원에 기술된 방법을 사용해서 대사 조작을 위해 유전자를 결실시켜 유전적으로 조작된 것일 수 있다. 특정 구현예에서 재조합 미생물 세포는 증가된 양의 총 지질 및/또는 지방산, 예컨대 PUFA를 생성하기 위해 유전적으로 조작된 것일 수 있다. 예를 들어, 지방산 또는 PUFA 생합성 경로, 또는 이의 일부는 특정 경로 효소, 예컨대 지방산 탈포화효소 및 연장효소의 코딩 서열을 삽입하여 생물에 도입될 수 있다. 다음 효소 중 하나 또는 그 조합은 내부에 PUFA 생합성 경로를 제공하기 위해 유성 효모 세포에 유전적으로 도입될 수 있다: 델타-4 탈포화효소, 델타-5 탈포화효소, 델타-6 탈포화효소, 델타-12 탈포화효소, 델타-15 탈포화효소, 델타-17 탈포화효소, 델타-9 탈포화효소, 델타-8 탈포화효소, 델타-9 연장효소, C14/16 연장효소, C16/18 연장효소, C18/20 연장효소, C20/22 연장효소. 하나 이상의 이들 효소는 이종 공급원으로부터 유래될 수 있다. 예시적인 PUFA 생합성 경로는 델타-9 연장효소 및 델타-8 탈포화효소(예를 들어, 본원에 참조로 포함되는 미국 특허 출원 공개 2011-0055973호 참조), 또는 델타-6 탈포화효소 및 델타-6 연장효소를 둘 다 포함할 수 있다. 대안적으로, 재조합 미생물 세포는 지방산 생합성을 조절하는 탈포화효소 또는 연장효소를 암호화하는 것 이외의 유전자를 도입하거나 결실시켜 총 지질 및/또는 PUFA 수준을 증가시키도록 변형될 수 있다.
특정 구현예에서 재조합 미생물 세포는 건조 세포 중량의 중량%로 측정되는 적어도 28% EPA를 포함하는 오일을 생성하고 Sou2 소르비톨 활용 단백질을 암호화하는 내인성 폴리뉴클레오티드 서열, 및 막-결합 O-아실트랜스퍼라아제 모티프에 적어도 하나의 아미노산 돌연변이를 포함하는 활성 LPCAT 효소를 암호화하는 적어도 하나의 폴리뉴클레오티드 서열의 하향-조절을 포함하는 야로위아 세포일 수 있다(본원에 참조로 포함되는, 2013년 12월 18일에 출원된 PCT/US2013/07895).
재조합 미생물 세포는 효모, 곰팡이, 진균, 난균, 박테리아, 조류, 스트라메노파일(stramenopile), 또는 원생생물(예를 들어, 유글레노이드)의 세포일 수 있다. 특정 구현예에서, 재조합 미생물 세포는 유성 미생물 세포, 예컨대 유성 효모 세포이다. 유성 효모의 예는 야로위아, 칸디다, 로도토룰라, 로도스포리디움(Rhodosporidium), 크립토코커스(Cryptococcus), 트리코스포론(Trichosporon) 및 리포마이세스(Lipomyces) 속의 종들을 포함한다. 유성 효모의 보다 구체적인 예는, 예를 들어 로도스포리디움 토룰로이데스(Rhodosporidium toruloides), 리포마이세스 스타케이이(Lipomyces starkeyii), L. 피로페루스(L. lipoferus), 칸디다 레브카우피(Candida revkaufi), C. 풀케리마(C. pulcherrima), C. 트로피칼리스, C. 유틸리스, 트리코스포론 풀란스(Trichosporon pullans), T. 쿠타네움, 로도토룰라 글루티누스(Rhodotorula glutinus) 및 R. 그라미니스를 포함한다. 특정 구현예에서 진균 세포의 예는 푸사리움 속(예를 들어, 푸사리움 라테리티움(Fusarium lateritium)), 모르티에렐라(Mortierella) 속(예를 들어, 모르티에렐라 알피나(Mortierella alpina)) 및 뮤코 속(예를 들어, 뮤코 룩시 및 뮤코 시르시넬로이데스)의 종들을 포함한다. 본 발명의 다른 구현예에서 미생물 세포는 엔토모프토라(Entomophthora), 피티움(Pythium) 및 포르피리디움(Porphyridium) 속의 세포일 수 있다.
관심 폴리뉴클레오티드는 본원에 더 기술되어 있으며, 상업 시장 및 작물 개발에 관여하는 자들의 이익을 반영하는 폴리뉴클레오티드를 포함한다. 관심 작물 및 시장은 변화하며, 개발 도상국이 세계 시장을 개방함에 따라 새로운 작물과 기술 또한 등장할 것이다. 또한, 수확량과 잡종 강세와 같은 작물학적 형질 및 특성에 대한 이해가 높아짐에 따라 유전자 조작을 위한 유전자의 선택은 그에 따라 변할 것이다.
또한, 표적 부위에 통합된 관심 폴리뉴클레오티드를 그 게놈에 포함하는 적어도 하나의 세포를 동정하는 방법이 제공된다. 선별 가능한 마커 표현형을 사용하지 않고 표적 부위 또는 그 근처에서 게놈 내 삽입을 갖는 세포를 동정하기 위해 다양한 방법을 이용할 수 있다. 이러한 방법은 PCR 방법, 시퀀싱 방법, 뉴클레아제 소화, 서던 블롯, 및 이들의 임의의 조합을 포함하지만 이에 한정되지 않으며, 표적 서열을 직접 분석하여 표적 서열에서 임의의 변화를 검출하는 것으로 볼 수 있다. 예를 들어, 본원에 기술된 방법에 필요한 정도로 본원에 참조로 포함되는 미국 특허 출원 12/147,834를 참조한다.
관심 폴리뉴클레오티드/폴리펩티드는 미생물 대사 경로 유전자, 제초제 저항성 코딩 서열, 살충 코딩 서열, 살선충 코딩 서열, 항균 코딩 서열, 항진균 코딩 서열, 항바이러스 코딩 서열, 무생물적 및 생물적 스트레스 관용성 코딩 서열, 또는 수확량, 곡물 품질, 양분 함량, 전분 품질 및 양, 질소 고정 및/또는 활용, 지방산, 및 기름 함량 및/또는 조성과 같은 식물 형질을 변형하는 서열을 포함하나, 이에 한정되는 것은 아니다. 관심 유전자의 일반적인 범주는, 예를 들어, 징크 핑거와 같은 정보 관련 유전자, 키나아제와 같은 전달 관련 유전자, 및 열충격 단백질과 같은 하우스키핑 관련 유전자를 포함한다. 보다 구체적인 이식유전자의 범주는, 예를 들어, 작물학적 특성, 곤충 저항성, 질병 저항성, 제초제 저항성, 번식성 또는 불임성, 곡물 특성 및 상업적 제품에 대한 중요한 형질을 암호화하는 유전자를 포함한다. 관심 유전자는 일반적으로, 기름, 전분, 탄수화물 또는 양분 대사 관련 유전자뿐만 아니라 본원에 기술된 다른 형질, 예컨대, 이에 한정되는 것은 아니지만, 제초제 저항성과 조합하여 쌓이거나 사용될 수 있는 커널 크기, 수크로오스 로딩 등에 영향을 미치는 유전자를 포함한다.
기름, 전분, 및 단백질 함량과 같은 작물학적으로 중요한 형질은 전통적인 육종 방법을 사용하는 것 외에도 유전적으로 변경될 수 있다. 변형은 올레산, 포화 및 불포화 기름 함량 증가, 라이신과 황 수준 증가, 필수 아미노산 제공, 및 전분의 변형도 포함한다. 호르도티오닌 단백질 변형은 본원에 참조로 포함되는 미국 특허 5,703,049호, 5,885,801호, 5,885,802호, 및 5,990,389호에 기술되어 있다.
또한, 관심 폴리뉴클레오티드는 표적화된 관심 유전자 서열에 대한 메신저 RNA(mRNA)의 적어도 일부에 상보적인 안티센스 서열을 포함할 수도 있는 것으로 인식된다. 안티센스 뉴클레오티드는 해당 mRNA와 혼성화되도록 구성된다. 안티센스 서열의 변형은 서열이 해당 mRNA와 혼성화되고 그 발현을 방해하는 한 이루어질 수 있다. 이러한 방식으로, 해당 안티센스 서열과 70%, 80%, 또는 85%의 서열 동일성을 갖는 안티센스 구성이 사용될 수 있다. 또한, 안티센스 뉴클레오티드의 일부는 표적 유전자의 발현을 방해하는 데 사용될 수 있다. 일반적으로, 적어도 50개 뉴클레오티드, 100개 뉴클레오티드, 200개 뉴클레오티드 이상의 서열이 사용될 수 있다.
또한, 관심 폴리뉴클레오티드는 관심 생물의 내인성 유전자 발현을 억제하기 위해 센스 방향으로 사용될 수도 있다. 폴리뉴클레오티드를 센스 방향으로 사용하여 미생물 및 식물의 유전자 발현을 억제하는 방법은 당해 분야에 알려져 있다. 본원에 참조로 포함되는 미국 특허 5,283,184호 및 5,034,323호를 참조한다.
관심 폴리뉴클레오티드는 표현형 마커일 수도 있다. "표현형 마커"는 시각적 마커 및 그것이 양성의 선별 가능한 마커든 음성의 선택 가능한 마커든 선택 가능한 마커를 포함하는, 선별이 가능하거나 선택 가능한 마커이다. 임의의 표현형 마커가 사용될 수 있다. 구체적으로, 선택 가능하거나 선별 가능한 마커는 종종 특정한 조건 하에서, 그것을 포함하는 분자 또는 세포를 동정할 수 있게 하거나, 그것에 있어서 또는 그것에 대해 선택할 수 있게 하는 DNA 분절을 포함한다. 이들 마커는 활성, 예컨대, RNA, 펩티드, 또는 단백질의 생성(그러나 이에 한정되는 것은 아님)을 암호화할 수 있거나, RNA, 펩티드, 단백질, 무기 및 유기 화합물 또는 조성물 등에 대한 결합 부위를 제공할 수 있다.
선택 가능한 마커의 예는 제한 효소 부위를 포함하는 DNA 분절; 항생제, 예컨대, 스펙티노마이신, 암피실린, 카나마이신, 테트라사이클린, 바스타(Basta), 네오마이신 포스포트랜스퍼라아제 II(NEO) 및 히그로마이신 포스포트랜스퍼라아제(HPT))를 포함하는 독성 화합물에 대해 저항성을 제공하는 생성물을 암호화하는 DNA 분절; 수용 세포에 없는 생성물을 암호화하는 DNA 분절(예컨대, tRNA 유전자, 영양요구성 마커); 용이하게 동정될 수 있는 생성물을 암호화하는 DNA 분절(예를 들어, 표현형 마커, 예컨대, β-갈락토시다아제, GUS; 형광 단백질, 예컨대, 녹색 형광 단백질(GFP), 청록색 형광 단백질(CFP), 황색 형광 단백질(YFP), 적색 형광 단백질(RFP) 및 세포 표면 단백질); PCR을 위한 새로운 프라이머 부위의 생성(예컨대, 이전에는 나란히 놓여있지 않았던 두 DNA 서열의 병치), 제한 엔도뉴클레아제 또는 기타 DNA 변형 효소, 화학물질 등에 의해 영향 받지 않거나 영향 받는 DNA 서열의 포함; 및 동정을 가능하게 하는 특이적인 변형(예컨대, 메틸화)에 필요한 DNA 서열의 포함을 포함하지만, 이에 한정되는 것은 아니다.
추가적인 선택 가능한 마커는 제초제 화합물, 예컨대, 글루포시네이트 암모늄, 브로목시닐, 이미다졸리논 및 2,4-디클로로페녹시아세테이트(2,4-D)에 대해 저항성을 부여하는 유전자를 포함한다. 예를 들어, Yarranton, (1992) Curr Opin Biotech 3:506-11; Christopherson et al., (1992) Proc. Natl. Acad. Sci. USA 89:6314-8; Yao et al., (1992) Cell 71:63-72; Reznikoff, (1992) Mol Microbiol 6:2419-22; Hu et al., (1987) Cell 48:555-66; Brown et al., (1987) Cell 49:603-12; Figge et al., (1988) Cell 52:713-22; Deuschle et al., (1989) Proc. Natl. Acad. Sci. USA 86:5400-4; Fuerst et al., (1989) Proc. Natl. Acad. Sci. USA 86:2549-53; Deuschle et al., (1990) Science 248:480-3; Gossen, (1993) Ph.D. Thesis, University of Heidelberg; Reines et al., (1993) Proc. Natl. Acad. Sci. USA 90:1917-21; Labow et al., (1990) Mol Cell Biol 10:3343-56; Zambretti et al., (1992) Proc. Natl. Acad. Sci. USA 89:3952-6; Baim et al., (1991) Proc. Natl. Acad. Sci. USA 88:5072-6; Wyborski et al., (1991) Nucleic Acids Res 19:4647-53; Hillen and Wissman, (1989) Topics Mol Struc Biol 10:143-62; Degenkolb et al., (1991) Antimicrob Agents Chemother 35:1591-5; Kleinschnidt et al., (1988) Biochemistry 27:1094-104; Bonin, (1993) Ph.D. Thesis, University of Heidelberg; Gossen et al., (1992) Proc. Natl. Acad. Sci. USA 89:5547-51; Oliva et al., (1992) Antimicrob Agents Chemother 36:913-9; Hlavka et al., (1985) Handbook of Experimental Pharmacology, Vol. 78 (Springer-Verlag, Berlin); Gill et al., (1988) Nature 334:721-4를 참조한다. 상업적 형질은, 예를 들어, 에탄올 생산을 위한 전분을 증가시키거나 단백질의 발현을 제공할 수 있는 유전자 또는 유전자들 상에 암호화될 수도 있다. 형질전환된 미생물 또는 식물의 다른 중요한 상업적 용도는 미국 특허 5,602,321호에 기술된 바와 같은 폴리머 및 바이오플라스틱의 생산이다. β-케토티올라아제, PHB아제(폴리하이드록시부티레이트 합성효소), 및 아세틸-CoA 환원효소(Schubert et al. (1988) J. Bacteriol. 170:5837-5847 참조)와 같은 유전자는 폴리하이드록시알카노에이트(PHA)의 발현을 촉진한다.
본원에 사용하기 위한 선택 방법으로는 카나마이신, 히그로마이신 및 아미노 글리코시드 G418에 대한 저항성뿐만 아니라, 우라실, 류신, 라이신, 트립토판 또는 히스티딘이 없는 배지에서 자라는 능력을 들 수 있다. 대안적 구현예에서, 5-플루오로오로트산(5-플루오로우라실-6-카복실산 모노하이드레이트 [5-FOA])이 효모 Ura 돌연변이(미국 특허 출원 공개 2009-0093543호)의 선택을 위해 사용되거나, 설포닐 요소 제초제 저항성을 부여하는 고유 아세토하이드록시산 합성효소(또는 아토세락테이트 합성효소; E.C. 4.1.3.18)(국제 출원 공개 WO 2006/052870호)가 형질전환체의 선택을 위해 이용된다. 부위-특이적 재조합효소 시스템을 사용하여, 다회의 순차적 형질전환에서 이의 사용을 위해 한 쌍의 바람직한 선택 마커를 "재생하는" 독특한 방법이 또한 미국 특허 출원 공개 2009-0093543호에 교시되어 있다.
전사, RNA 안정성, 번역, 단백질 안정성 및 단백질 위치, 산소 제한 및 숙주 세포로부터 분비의 양태를 제어하는 본 발명의 구현예에서는 여러 상이한 유전 요소를 조작하는 것이 바람직할 수 있다. 보다 구체적으로, 유전자 발현은 다음을 변경하여 제어될 수 있다: 관련 프로모터 및 종결자 서열의 성질; 클로닝된 유전자의 사본 수; 유전자가 플라스미드-기반인지 숙주 세포의 게놈 내로 통합되는지 여부; 합성 외래 단백질의 최종 세포 위치; 숙주 생물에서의 번역 효율; 숙주 세포내에서 클로닝된 유전자 단백질의 내재적 안정성; 및 그 빈도가 숙주 세포의 바람직한 코돈 사용 빈도에 접근하도록 하는, 클로닝된 유전자 내에서의 코돈 사용.
미생물 숙주 세포에서 이종 유전자의 발현을 유도하는 데 유용한 프로모터는 다수이며, 당업자에게 공지되어 있다. 발현은 유도된 또는 항시성 방식으로 달성될 수 있다. 유도된 발현은 관심 유전자에 작동 가능하게 연결된 조절 가능한 프로모터의 활성을 유도하여 달성될 수 있는 반면, 항시성 발현은 관심 유전자에 작동 가능하게 연결된 항시성 프로모터의 사용에 의해 달성될 수 있다. 유전자 발현을 유도할 수 있는 실질적으로 모든 프로모터(즉, 고유, 합성, 또는 키메라)가 적합하지만, 숙주 종으로부터의 전사 및 번역 조절 영역이 특히 유용할 수 있다.
일반적으로, 종결자는 프로모터가 수득되는 유전자의 3' 영역으로부터 또는 상이한 유전자로부터 유래될 수 있다. 다수의 종결자가 공지되어 있고, 이들이 유래되는 것과 동일한 및 상이한 속과 종에서 이용되는 경우 모두, 다양한 숙주에서 만족스럽게 기능한다. 종결자는 보통 임의의 특정 특성으로 인해서라기 보다는 편리함의 이유로 더 선택된다. 바람직하게는, 종결자는 효모 유전자로부터 유래된다. 당업자가 종결자를 설계하고 합성하기 위해 이용 가능한 정보를 활용할 수 있으므로, 종결자는 합성일 수도 있다. 종결자는 불필요할 수도 있지만, 바람직하다.
야로위아 속의 재조합 미생물 숙주 세포에서 사용하기 위해 바람직한 프로모터 및 종결자는 모두 본원에 참조로 포함되는 미국 특허 출원 공개 2009-0093543호, 2010-0068789호, 2011-0059496호, 2012-0252079호, 2012-0252093호, 2013-0089910호 및 2013-0089911호에 교시된 것들이지만, 이에 한정되는 것은 아니다.
이식유전자, 재조합 DNA 분자, 관심 DNA 서열, 및 관심 폴리뉴클레오티드는 유전자 침묵화를 위한 하나 이상의 DNA 서열을 포함할 수 있다. 세포 및 생물에서 DNA 서열의 발현을 포함하는 유전자 침묵화 방법은 당해 분야에 알려져 있으며, 공동억제, 안티센스 억제, 이중 가닥 RNA(dsRNA) 간섭, 헤어핀 RNA(hpRNA) 간섭, 인트론 함유 헤어핀 RNA(ihpRNA) 간섭, 전사 유전자 침묵화, 및 마이크로 RNA(miRNA) 간섭을 포함하나, 이에 한정되는 것은 아니다.
본원에 사용된 "핵산"은 폴리뉴클레오티드를 의미하고 데옥시리보뉴클레오티드 또는 리보뉴클레오티드 염기의 단일 가닥 폴리머 또는 이중 가닥 폴리머를 포함한다. 핵산은 단편 및 변형된 뉴클레오티드를 포함할 수도 있다.
용어 "폴리뉴클레오티드", "핵산 서열", "뉴클레오티드 서열" 및 "핵산 단편"은 단일 또는 이중 가닥인 RNA 및/또는 DNA의 폴리머를 나타내기 위해 상호 교환적으로 사용되며, 선택적으로 합성, 비천연 또는 변경된 뉴클레오티드 염기를 포함한다. (보통 이의 5'-모노포스페이트 형태로 발견되는) 뉴클레오티드는 다음과 같이 단일 문자 표시에 의해 지칭된다: 아데노신 또는 데옥시아데노신에 대해서(각각 RNA 또는 DNA에 있어서) “A”, 시토신 또는 데옥시시토신에 대해서 “C”, 구아노신 또는 데옥시구아노신에 대해서 "G", 유리딘에 대해서 “U”, 데옥시티미딘에 대해서 “T”, 퓨린(A 또는 G)에 대해서 “R”, 피리미딘(C 또는 T)에 대해서 “Y”, G 또는 T에 대해서 “K”, A 또는 C 또는 T에 대해서 “H”, 이노신에 대해서 “I”, 및 임의의 뉴클레오티드에 대해서 “N”(예를 들어, DNA 서열을 지칭하는 경우 N은 A, C, T, 또는 G일 수 있고; RNA 서열을 지칭하는 경우 N은 A, C, U, 또는 G일 수 있다). 본원에 개시된 임의의 RNA 서열(예를 들어, crRNA, tracrRNA, gRNA)은 적합한 DNA 서열에 의해 암호화될 수 있다.
"오픈 리딩 프레임"은 ORF로 약칭된다.
용어 "기능적으로 동등한 하위단편" 및 "기능적 동등 하위 단편"은 본원에서 상호 교환적으로 사용된다. 이들 용어는 단편 또는 하위단편이 활성 효소를 암호화하는지 여부에 관계없이 유전자 발현을 변경하거나 특정 표현형을 생성하는 능력이 유지되는 단리된 핵산 단편의 일부 또는 하위서열을 지칭한다. 예를 들어, 단편 또는 하위단편은 미생물 또는 식물에서 원하는 표현형을 생성하기 위한 유전자 설계에 사용될 수 있다. 유전자는 활성 효소를 암호화하는지에 관계없이 그 핵산 단편 또는 하위단편을 프로모터 서열에 대해 센스 방향 또는 안티센스 방향으로 연결함으로써 억제에 사용하도록 설계될 수 있다.
용어 "보존 도메인" 또는 "모티프"는 진화론적 관련 단백질의 정렬된 서열을 따라 특정 위치에 보존된 아미노산 세트를 의미한다. 다른 위치의 아미노산은 상동 단백질 간에 다양할 수 있는 반면, 특정 위치에 고도로 보존된 아미노산은 단백질의 구조, 안정성, 또는 활성에 필수적인 아미노산을 나타낸다. 이들은 단백질 상동체 군의 정렬된 서열에서 높은 보존 정도에 의해 동정되기 때문에, 새로 결정된 서열을 가진 단백질이 이전에 동정된 단백질 군에 속하는지를 결정하기 위한 식별자, 또는 "특징부"로서 사용될 수 있다.
폴리뉴클레오티드 및 폴리펩티드 서열, 이들의 변이체, 및 이 서열들의 구조적 관계는 본원에서 상호 교환적으로 사용되는 "상동성", "상동", "실질적으로 동일한", "실질적으로 유사한" 및 "실질적으로 대응하는"이란 용어에 의해 기술될 수 있다. 이들은 하나 이상의 아미노산 또는 뉴클레오티드 염기에서의 변화가 분자의 기능, 예컨대, 유전자 발현을 매개하거나 특정 표현형을 생성하는 능력에 영향을 미치지 않는 폴리펩티드 또는 핵산 단편을 지칭한다. 이들 용어는 또한, 초기의 비변형 단편에 비해 얻어진 핵산 단편의 기능적 특성을 실질적으로 변경하지 않는 핵산 단편의 변형(들)을 지칭한다. 이들 변형은 핵산 단편에서의 하나 이상의 뉴클레오티드의 결실, 치환, 및/또는 삽입을 포함한다.
포함되는 실질적으로 유사한 핵산 서열은 (적당히 엄격한 조건, 예컨대, 0.5X SSC, 0.1% SDS, 60℃에서) 본원에 예시된 서열과 혼성화하는 능력, 또는 본원에 개시된 뉴클레오티드 서열의 임의의 일부에 혼성화하는 능력에 의해 정의될 수 있고, 본원에 개시된 임의의 핵산 서열과 기능적으로 동등하다. 엄격 조건은 원연(distantly-related) 생물로부터의 상동 서열과 같은 적당히 유사한 단편을 매우 유사한 단편, 예컨대, 근연(closely-related) 생물로부터 기능적 효소를 복제하는 유전자로 선별하도록 조정될 수 있다. 혼성화 후 세척은 엄격 조건을 결정한다.
용어 "선택적으로 혼성화한다"는 엄격한 혼성화 조건 하에서, 비표적 핵산 서열에의 혼성화보다 검출 가능하게 더 큰 정도(예를 들어, 백그라운드에 비해 적어도 2배)의 핵산 서열의 특정 핵산 표적 서열에의 혼성화 및 비표적 핵산의 실질적 배제에 대한 언급을 포함한다. 선택적으로 혼성화하는 서열은 일반적으로 서로 약 적어도 80% 서열 동일성, 또는 90% 서열 동일성을 가지며, 100% 서열 동일성(즉, 완전히 상보적)까지를 포함한다.
용어 "엄격한 조건" 또는 "엄격한 혼성화 조건"은 시험관내 혼성화 분석에서 프로브가 그 표적 서열에 선택적으로 혼성화될 조건에 대한 언급을 포함한다. 엄격한 조건은 서열에 의존적이며 상황에 따라 다를 것이다. 혼성화 및/또는 세척 조건의 엄격성을 제어함으로써, 프로브에 100% 상보적인 표적 서열을 동정할 수 있다(상동성 프로빙). 대안적으로, 엄격 조건은 서열에서 일부 불일치를 허용하여 더 낮은 정도의 유사도가 검출되도록 조정될 수 있다(이종 프로빙). 일반적으로 프로브는 약 1000개 뉴클레오티드 미만의 길이, 선택적으로 500개 뉴클레오티드 미만의 길이이다.
일반적으로, 엄격한 조건은 pH 7.0 내지 8.3에서 그리고 짧은 프로브(예컨대, 10 내지 50개 뉴클레오티드)의 경우 적어도 약 30℃에서, 긴 프로브(예컨대, 50개 뉴클레오티드 초과)의 경우 적어도 약 60℃에서 염 농도가 약 1.5 M Na 이온 미만, 일반적으로는 약 0.01 내지 1.0 M Na 이온 농도(또는 다른 염(들))인 조건일 것이다. 엄격한 조건은 포름아미드와 같은 불안정화제의 첨가로 달성될 수도 있다. 예시적인 저 엄격 조건은 37℃에서 30 내지 35% 포름아미드, 1 M NaCl, 1% SDS(나트륨 도데실 설페이트) 완충 용액으로의 혼성화, 및 50 내지 55℃에서 1X 내지 2X SSC(20X SSC = 3.0 M NaCl/0.3 M 삼나트륨 시트레이트)로의 세척을 포함한다. 예시적인 적당한 엄격 조건은 37℃에서 40 내지 45% 포름아미드, 1 M NaCl, 1% SDS 중 혼성화, 및 55 내지 60℃에서 0.5X 내지 1X SSC 중 세척을 포함한다. 예시적인 고 엄격 조건은 37℃에서 50% 포름아미드, 1 M NaCl, 1% SDS 중 혼성화, 및 60 내지 65℃에서 0.1X SSC 중 세척을 포함한다.
핵산 또는 폴리펩티드 서열의 맥락에서 "서열 동일성" 또는 "동일성"은, 특정 비교 윈도우에 걸쳐 최대 일치를 위해 정렬될 때, 동일한 두 서열 내의 핵산 염기 또는 아미노산 잔기를 지칭한다.
용어 "서열 동일성 백분율"은 비교 윈도우에서 최적으로 정렬된 2개의 서열을 비교하여 결정된 값을 지칭하며, 이때, 비교 윈도우 내의 폴리뉴클레오티드 또는 폴리펩티드 서열의 일부는 2개의 서열의 최적 정렬을 위해 (삽입 또는 결실을 포함하지 않는) 기준 서열과 비교하여 부가 또는 결실(즉, 갭)을 포함할 수 있다. 백분율은, 두 서열에서 동일한 핵산 염기 또는 아미노산 잔기가 나타나는 위치의 개수를 결정하여 일치하는 위치의 개수를 산출하고, 일치하는 위치의 개수를 비교 윈도우 내의 위치의 총 개수로 나누고, 그 결과에 100을 곱하여 서열 동일성의 백분율을 산출함으로써 계산한다. 서열 동일성 백분율의 유용한 예는 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90% 또는 95%, 또는 50% 내지 100%의 임의의 정수 백분율을 포함하지만 이에 한정되는 것은 아니다. 이들 동일성은 본원에 기술된 프로그램 중 임의의 것을 사용하여 결정될 수 있다.
서열 정렬 및 동일성 또는 유사성 백분율 계산은 LASERGENE 생물정보학 컴퓨팅 세트(DNASTAR Inc., Madison, WI)의 MegAlignTM 프로그램을 포함하지만 이에 한정되지 않는, 상동 서열을 검출하도록 설계된 다양한 비교 방법을 사용하여 결정될 수 있다. 본 출원의 맥락 내에서, 서열 분석 소프트웨어가 분석에 사용되는 경우, 달리 명시되지 않는 한, 분석 결과는 언급된 프로그램의 "디폴트 값"에 기초할 것이라는 것을 이해할 것이다. 본원에 사용된 "디폴트 값"은 최초로 초기화 될 때, 원래 소프트웨어와 함께 로딩되는 임의의 값 또는 파라미터 세트를 의미할 것이다.
"Clustal V 정렬 방법"은 Clustal V(Higgins and Sharp, (1989) CABIOS 5:151-153; Higgins et al., (1992) Comput Appl Biosci 8:189-191에 기술)로 명명되고 LASERGENE 생물정보학 컴퓨팅 세트(DNASTAR Inc., Madison, WI)의 MegAlignTM 프로그램에서 발견되는 정렬 방법에 해당한다. 다중 정렬의 경우, 디폴트 값은 GAP PENALTY=10 및 GAP LENGTH PENALTY=10에 해당한다. Clustal 방법을 사용하는 단백질 서열의 동일성 백분율의 계산 및 쌍 정렬을 위한 디폴트 파라미터는 KTUPLE=1, GAP PENALTY=3, WINDOW=5 및 DIAGONALS SAVED=5이다. 핵산의 경우, 이들 파라미터는 KTUPLE=2, GAP PENALTY=5, WINDOW=4 및 DIAGONALS SAVED=4이다. Clustal V 프로그램을 사용하여 서열을 정렬한 후에는, 동일한 프로그램에서 "서열 거리"표를 보고 "동일성 백분율"을 얻을 수 있다.
"Clustal W 정렬 방법"은 Clustal W(Higgins and Sharp, (1989) CABIOS 5:151-153, Higgins et al., (1992) Comput Appl Biosci 8:189-191에 기술)로 명명되고 LASERGENE 생물정보학 컴퓨팅 세트(DNASTAR Inc., Madison, WI)의 MegAlignTM v6.1 프로그램에서 발견되는 정렬 방법에 해당한다. 다중 정렬을 위한 디폴트 파라미터(GAP PENALTY=10, GAP LENGTH PENALTY=0.2, 지연 발산 서열(%)=30, DNA 전이 가중치=0.5, 단백질 가중치 매트릭스=Gonnet 시리즈, DNA 가중치 매트릭스=IUB). Clustal W 프로그램을 사용하여 서열을 정렬한 후에는, 동일한 프로그램에서 "서열 거리"표를 보고 "동일성 백분율"을 얻을 수 있다.
달리 명시되지 않는 한, 본원에 제공된 서열 동일성/유사성 값은 하기 파라미터를 사용하여, GAP 버전 10(GCG, Accelrys, San Diego, CA)을 사용하여 얻은 값을 지칭한다: 뉴클레오티드 서열에 대한 동일성% 및 유사성%는 갭 생성 페널티 가중치 50 및 갭 길이 연장 페널티 가중치 3, 및 nwsgapdna.cmp 점수 매트릭스를 사용; 아미노산 서열에 대한 동일성% 및 유사성%는 GAP 생성 페널티 가중치 8 및 갭 길이 연장 페널티 2, 및 BLOSUM62 점수 매트릭스를 사용(Henikoff and Henikoff, (1989) Proc. Natl. Acad. Sci. USA 89:10915). GAP는 Needleman and Wunsch, (1970) J Mol Biol 48:443-53의 알고리즘을 사용하여 일치의 수를 최대화하고 갭의 수를 최소화하는 두 개의 전체 서열의 정렬을 찾는다. GAP는 가능한 모든 정렬 및 갭 위치를 고려하고, 일치 염기 단위로 갭 생성 페널티 및 갭 연장 페널티를 사용하여 가장 많은 수의 일치 염기와 가장 적은 갭을 갖는 정렬을 생성한다.
"BLAST"는 미국 국립생물공학정보센터(NCBI)에서 제공하는, 생물학적 서열 간의 유사성 영역을 찾는 데 사용되는 검색 알고리즘이다. 이 프로그램은 뉴클레오티드 또는 단백질 서열을 서열 데이터베이스와 비교하고 일치의 통계적 유의성을 계산하여 유사성이 무작위로 발생한 것으로 예측되지 않도록 쿼리 서열과 충분한 유사성을 갖는 서열을 동정한다. BLAST는 동정된 서열 및 이들의 쿼리 서열에 대한 로컬 정렬을 보고한다.
여러 수준의 서열 동일성은 다른 종 유래 또는 천연 또는 합성적으로 변형된 폴리펩티드를 동정하는 데 유용하고, 이러한 폴리펩티드는 동일하거나 유사한 기능 또는 활성을 갖는다는 것은 당업자가 잘 이해한다. 동일성 백분율의 유용한 예는 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90% 또는 95%, 또는 50% 내지 100%의 임의의 정수 백분율을 포함하지만 이에 한정되는 것은 아니다. 실제로, 50% 내지 100%, 예컨대, 51%, 52%, 53%, 54%, 55%, 56%, 57%, 58%, 59%, 60%, 61%, 62%, 63%, 64%, 65%, 66%, 67%, 68%, 69%, 70%, 71%, 72%, 73%, 74%, 75%, 76%, 77%, 78%, 79%, 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% 또는 99%의 임의의 정수의 아미노산 동일성은 본 발명을 설명하는 데 유용할 수 있다.
"유전자"는 코딩 서열 앞의 조절 서열(5' 비코딩 서열) 및 뒤의 조절 서열(3' 비코딩 서열)을 포함하는 특정 단백질과 같은, 그러나 이에 한정되지 않는 기능적 분자를 발현하는 핵산 단편을 포함한다. "고유 유전자"는 자신의 조절 서열과 함께 자연에서 발견되는 유전자를 지칭한다.
"돌연변이된 유전자"는 인간 개입을 통해 변경된 유전자이다. 이러한 "돌연변이된 유전자"는 적어도 하나의 뉴클레오티드 부가, 결실, 또는 치환에 의해 상응하는 비 돌연변이된 유전자의 서열과 상이한 서열을 갖는다. 본 발명의 특정 구현예에서, 돌연변이된 유전자는 본원에 개시된 바와 같은 가이드 폴리뉴클레오티드/Cas 엔도뉴클레아제 시스템을 이용하여 만들어진 변경을 포함한다. 돌연변이된 세포는 돌연변이된 유전자를 포함하는 세포이다.
본원에 사용된 "표적 돌연변이"는, 본원에 개시되거나 당해 분야에 공지된 바와 같이, 표적 서열의 DNA에서 이중 가닥 절단을 유도할 수 있는 이중 가닥 절단 유도제를 포함하는 방법을 사용하여 고유 유전자 내에서 표적 서열을 변경함으로써 만들어진 고유 유전자의 돌연변이이다.
가이드 RNA/Cas 엔도뉴클레아제 유도 표적 돌연변이는 Cas 엔도뉴클레아제에 의해 인식되고 절단되는 게놈 표적 부위 내에 또는 외부에 위치하는 뉴클레오티드 서열에서 발생할 수 있다.
세포에 적용시 용어 "게놈"은 핵 내에서 발견되는 염색체 DNA뿐만 아니라 세포의 세포내 성분(예컨대, 미토콘드리아, 또는 색소체) 내에서 발견되는 세포소기관 DNA를 포함한다.
"코돈 변형 유전자" 또는 "코돈 선호 유전자" 또는 "코돈 최적화 유전자"는 숙주 세포의 선호되는 코돈 사용의 빈도를 모방하도록 설계된 코돈 사용의 빈도를 갖는 유전자이다.
"대립 유전자"는 염색체 상의 주어진 유전자좌를 차지하는 유전자의 몇 가지 대안적 형태 중 하나이다. 염색체 상의 주어진 유전자좌에 존재하는 모든 대립 유전자가 동일한 경우, 그 생물은 그 유전자좌에서 동형접합적이다. 염색체 상의 주어진 유전자좌에 존재하는 대립 유전자가 상이한 경우, 그 생물은 그 유전자좌에서 이형접합적이다.
"코딩 서열"은 특정 아미노산 서열을 코딩하는 폴리뉴클레오티드 서열을 지칭한다. "조절 서열"은 코딩 서열의 상류에(5' 비코딩 서열), 내에, 또는 하류(3' 비코딩 서열)에 위치하여 관련 코딩 서열의 전사, RNA 가공 또는 안정성, 또는 번역에 영향을 주는 뉴클레오티드 서열을 지칭한다. 조절 서열은 프로모터, 번역 리더 서열, 5' 미번역 서열, 3' 미번역 서열, 인트론, 폴리아데닐화 표적 서열, RNA 가공 부위, 이펙터 결합 부위, 및 스템-루프 구조를 포함할 수 있지만, 이에 한정되는 것은 아니다.
프로모터는 RNA 중합효소 및 기타 전사 개시 단백질의 인식 및 결합에 관여하는 DNA의 영역이다. 프로모터 서열은 근위 상류 요소 및 더 원위의 상류 요소로 이루어지고, 후자의 요소는 종종 인핸서(enhancer)로 지칭된다. "인핸서"는 프로모터 활성을 자극할 수 있는 DNA 서열이고, 프로모터 고유의 요소 또는 프로모터의 수준 또는 조직 특이성을 향상시키기 위해 삽입된 이종 요소일 수 있다. 프로모터는 고유 유전자로부터 그 전체가 유래될 수 있거나, 자연에서 발견되는 상이한 프로모터들로부터 유래된 상이한 요소들로 구성될 수 있고/있거나, 합성 DNA 분절을 포함할 수 있다. 상이한 프로모터가 상이한 조직 또는 세포 유형으로, 또는 발달의 상이한 단계에서 또는 상이한 환경 조건에 반응하여 유전자의 발현을 유도할 수 있음은 당업자가 이해한다. 또한, 대부분의 경우, 조절 서열의 정확한 경계가 완전히 정의되지 않았기 때문에, 일부 변이체의 DNA 단편이 동일한 프로모터 활성을 가질 수 있는 것으로 인식된다. 대부분의 시점에 대부분의 세포 유형에서 유전자가 발현되게 하는 프로모터는 일반적으로 "항시성 프로모터"로 지칭된다.
본원에 사용된 "강력한 프로모터"는 단위 시간당 상대적으로 많은 수의 생산 개시를 이끌 수 있는 프로모터를 지칭하고/하거나, 세포내 유전자의 평균 전사 수준보다 더 높은 수준의 유전자 전사를 유도하는 프로모터이다.
식물 프로모터는 식물 세포에서 전사를 개시할 수 있는 프로모터이며, 식물 프로모터에 대한 검토는 Potenza et al., (2004) In Vitro Cell Dev Biol 40:1-22를 참조한다. 항시성 프로모터는, 예를 들어, Rsyn7 프로모터의 코어 프로모터 및 WO99/43838 및 미국 특허 6,072,050호에 개시된 기타 항시성 프로모터; 코어 CaMV 35S 프로모터(Odell et al., (1985) Nature 313:810-2); 벼 액틴(McElroy et al., (1990) Plant Cell 2:163-71); 유비퀴틴(Christensen et al., (1989) Plant Mol Biol 12:619-32; Christensen et al., (1992) Plant Mol Biol 18:675-89); pEMU(Last et al., (1991) Theor Appl Genet 81:581-8); MAS(Velten et al., (1984) EMBO J 3:2723-30); ALS 프로모터(미국 특허 5,659,026호) 등을 포함한다. 기타 항시성 프로모터는, 예를 들어, 미국 특허 5,608,149호; 5,608,144호; 5,604,121호; 5,569,597호; 5,466,785호; 5,399,680호; 5,268,463호; 5,608,142호 및 6,177,611호에 기술되어 있다. 일부 예에서는 유도성 프로모터가 사용될 수 있다. 병원균에 의한 감염 후에 유도되는 병원균 유도성 프로모터는 PR 단백질, SAR 단백질, 베타-1,3-글루카나아제, 키티나아제 등의 발현을 조절하는 것들을 포함하나, 이에 한정되는 것은 아니다.
화학적으로 조절되는 프로모터는 외인성 화학적 조절자의 적용을 통해 식물에서 유전자의 발현을 조절하는 데 사용될 수 있다. 이러한 프로모터는 화학물질의 적용이 유전자 발현을 유도하는 화학물질 유도성 프로모터, 또는 화학물질의 적용이 유전자 발현을 억제하는 화학물질 억제성 프로모터일 수 있다. 화학물질 유도성 프로모터는 벤젠 설폰아미드 제초제 약해경감제에 의해 활성화되는 옥수수 In2-2 프로모터(De Veylder et al., (1997) Plant Cell Physiol 38:568-77), 잡초 발아 전에 사용하는 제초제로서 사용되는 소수성 친전자성 화합물에 의해 활성화되는 옥수수 GST 프로모터(GST-II-27, WO93/01294) 및 살리실산에 의해 활성화되는 담배 PR-1a 프로모터(Ono et al., (2004) Biosci Biotechnol Biochem 68:803-7)를 포함하나, 이에 한정되는 것은 아니다. 다른 화학적으로 조절되는 프로모터는 스테로이드-반응성 프로모터(예를 들어, 글루코코르티코이드-유도성 프로모터(Schena et al., (1991) Proc. Natl. Acad. Sci. USA 88:10421-5; McNellis et al., (1998) Plant J 14:247-257 참조); 테트라사이클린-유도성 및 테트라사이클린-억제성 프로모터(Gatz et al., (1991) Mol Gen Genet 227:229-37; 미국 특허 5,814,618호 및 5,789,156호)를 포함한다.
조직 선호 프로모터는 특정 식물 조직 내에서 발현 증진을 목표로 하는 데 활용될 수 있다. 조직 선호 프로모터는, 예를 들어 Kawamata et al., (1997) Plant Cell Physiol 38:792-803; 및 Guevara-Garcia et al., (1993) Plant J 4:495-505를 포함한다. 종자 선호 프로모터는 종자 발달 중에 활성을 나타내는 종자 특이적 프로모터뿐만 아니라, 종자 발아 중에 활성을 나타내는 종자 발아 프로모터를 포함한다. Thompson et al., (1989) BioEssays 10:108을 참조한다.
용어 "유도성 프로모터"는, 예를 들어, 화학적 화합물(화학물질 유도제)에 의해 내인성 또는 외인성 자극의 존재에 반응하여, 또는 환경, 호르몬, 화학물질, 및/또는 발달 신호에 반응하여 코딩 서열 또는 기능적 RNA를 선택적으로 발현시키는 프로모터를 지칭한다. 유도성 또는 조절 프로모터는, 예를 들어, 빛, 열, 스트레스, 홍수 또는 가뭄, 염 스트레스, 삼투압 스트레스, 식물 호르몬, 상처, 또는 화학물질, 예컨대, 에탄올, 아브시스산(ABA), 자스모네이트, 살리실산, 또는 약해경감제에 의해 유도되거나 조절되는 프로모터를 포함한다. 스트레스 유도성인 하나의 예는 RD29A 프로모터이다(Kasuga et al. (1999) Nature Biotechnol. 17:287-91식물 세포에 유용한 여러 유형의 새로운 프로모터가 지속적으로 발견되고 있고; 많은 예들을 The Biochemistry of Plants, Vol. 115, Stumpf and Conn, eds (New York, NY: Academic Press), pp. 1-82에 있는 Okamuro and Goldberg(1989)에 의한 편집에서 찾을 수 있다.
"번역 리더 서열"은 유전자의 프로모터 서열과 코딩 서열 사이에 위치한 폴리뉴클레오티드 서열을 지칭한다. 번역 리더 서열은 번역 시작 서열의 상류 mRNA에 존재한다. 번역 리더 서열은 mRNA에 대한 1차 전사물의 가공, mRNA 안정성 또는 번역 효율에 영향을 미칠 수 있다. 번역 리더 서열의 예는 기술되어 있다(예를 들어, Turner and Foster, (1995) Mol Biotechnol 3:225-236).
"3' 비코딩 서열", "전사 종결자" 또는 "종결 서열"은 코딩 서열의 하류에 위치한 DNA 서열을 지칭하며, 폴리아데닐화 인식 서열, 및 mRNA 가공 또는 유전자 발현에 영향을 미칠 수 있는 조절 신호를 암호화하는 다른 서열을 포함한다. 폴리아데닐화 신호는 일반적으로, mRNA 전구체 3' 말단에의 폴리아데닐산 영역 부가에 영향을 주는 것을 특징으로 한다. 다른 3' 비코딩 서열의 사용은 Ingelbrecht et al., (1989) Plant Cell 1:671-680에 예시되어 있다.
"RNA 전사물"은 DNA 서열의 RNA 중합효소-촉매 전사로부터 만들어지는 생성물을 지칭한다. RNA 전사물이 DNA 서열의 완전한 상보적 사본인 경우, 이를 1차 전사물 또는 프리-mRNA라고 한다. RNA 전사물이 1차 전사물 프리 mRNAt의 전사후 가공으로부터 유래된 RNA 서열인 경우, 이를 성숙 RNA 또는 mRNA라고 한다. "메신저 RNA" 또는 "mRNA"는, 인트론이 없고 세포에 의해 단백질로 번역될 수 있는 RNA를 지칭한다. "cDNA"는 효소 역전사효소를 사용하는 mRNA 주형에 상보적이고 그로부터 합성되는 DNA를 지칭한다. cDNA는 단일 가닥이거나 DNA 폴리머라제 I의 Klenow 단편을 사용하여 이중 가닥으로 변환될 수 있다. "센스" RNA는 mRNA를 포함하는 RNA 전사물을 지칭하며 세포내 또는 시험관내 단백질로 번역될 수 있다. "안티센스 RNA"는, 표적 1차 전사물 또는 mRNA의 전부 또는 일부에 상보적이고 표적 유전자의 발현을 차단하는 RNA 전사물을 지칭한다(예를 들어, 미국 특허 5,107,065호 참조). 안티센스 RNA의 상보성은 특정 유전자 전사물의 임의의 부분, 즉 5' 비코딩 서열, 3' 비코딩 서열, 인트론 또는 코딩 서열과 함께 있을 수 있다. "기능적 RNA"는 번역되지 않을 수 있지만 세포 프로세스에 영향을 미치는 안티센스 RNA, 리보자임 RNA 또는 기타 RNA를 지칭한다. 용어 "상보체" 및 "역 상보체"는 mRNA 전사물에 대하여 본원에서 상호 교환적으로 사용되며, 메시지의 안티센스 RNA를 정의하기 위한 것이다.
용어 "대조 세포" 및 "적합한 대조 세포"는 본원에서 상호 교환적으로 사용되며, 특정 변형(예를 들어, 폴리뉴클레오티드의 과발현, 폴리뉴클레오티드의 하향 조절)이 이루어진 세포(즉, "실험 세포")와 관련하여 언급될 수 있다. 대조 세포는 실험 세포의 특정 변형을 가지지 않거나 발현하지 않는 임의의 세포일 수 있다. 따라서, 대조 세포는 형질전환되지 않은 야생형 세포일 수 있거나, 유전적으로 변형될 수 있지만 유전적 형질전환을 발현하지 않는다. 예를 들어, 대조 세포는 실험 세포의 직접적인 부모일 수 있으며, 직접적인 부모 세포는 실험 세포에 있는 특정 변형을 가지지 않는다. 대안적으로, 대조 세포는 하나 이상의 세대에 의해 제거되는 실험 세포의 부모일 수 있다. 또한, 대안적으로, 대조 세포는 실험 세포의 형제 세포일 수 있으며, 형제 세포는 실험 세포에 존재하는 특정 변형을 포함하지 않는다.
용어 "작동 가능하게 연결된"은 하나의 기능이 다른 하나에 의해 조절되도록 된 단일 핵산 단편 상에서의 핵산 서열들의 결합을 나타낸다. 예를 들어, 프로모터는, 코딩 서열의 발현을 조절할 수 있는 경우(즉, 코딩 서열이 프로모터의 전사 조절 하에 있을 때), 코딩 서열과 작동 가능하게 연결된다. 코딩 서열은 센스 또는 안티센스 방향으로 조절 서열에 작동 가능하게 연결될 수 있다. 다른 예에서, 상보적 RNA 영역은 표적 mRNA의 5', 또는 표적 mRNA의 3', 또는 표적 mRNA 내에, 직접 또는 간접적으로, 작동 가능하게 연결될 수 있거나, 제1 상보적 영역은 5'이고 그 보체는 표적 mRNA의 3'이다.
본원에 사용된 표준 재조합 DNA 및 분자 클로닝 기술은 당해 분야에 잘 알려져 있고 Sambrook et al., Molecular Cloning: A Laboratory Manual; Cold Spring Harbor Laboratory: Cold Spring Harbor, NY (1989)에 보다 자세히 기술되어 있다. 형질전환 방법은 당업자에게 잘 알려져 있고 아래에 기술된다.
"PCR" 또는 "중합효소 연쇄 반응"(polymerase chain reaction)은 특정 DNA 분절의 합성을 위한 기술이며, 일련의 반복적인 변성, 어닐링 및 확장 사이클로 이루어진다. 일반적으로, 이중 가닥 DNA는 열 변성되고, 표적 분절의 3' 경계에 상보적인 두 개의 프라이머는 저온에서 DNA에 어닐링된 후 중간 온도에서 확장된다. 이러한 3개의 연속 단계의 한 세트를 "사이클"이라고 한다.
용어 "재조합"은, 예를 들어, 유전자 조작 기술에 의해 단리된 핵산 분절의 조작, 또는 화학적 합성에 의한, 그렇지 않았다면 분리된 2개의 서열 분절의 인공 조합을 지칭한다.
용어 "플라스미드", "벡터" 및 "카세트"는 세포의 중심 물질대사의 일부가 아닌 유전자를 종종 운반하는, 일반적으로 이중 가닥 DNA 형태의 염색체외 요소를 지칭한다. 이러한 요소는 임의의 공급원으로부터 유래된 단일 또는 이중 가닥 DNA 또는 RNA의, 선형 또는 원형 형태의, 자율적 복제 서열, 게놈 통합 서열, 파지 또는 뉴클레오티드 서열일 수 있고, 다수의 뉴클레오티드 서열은 세포에 관심 폴리뉴클레오티드를 도입할 수 있는 고유의 구조로 연결되거나 재조합되어 있다. "형질전환 카세트"는 유전자를 포함하면서 유전자 이외에 특정 숙주 세포의 형질전환을 촉진하는 요소를 갖는 특정 벡터를 지칭한다. "발현 카세트"는 유전자를 포함하면서 유전자 이외에 숙주에서 그 유전자의 발현을 가능하게 하는 요소를 갖는 특정 벡터를 지칭한다.
본원에 사용된 용어 "형질전환"은 숙주 생물 내로의 핵산 분자의 전달을 지칭한다. 핵산 분자는 자율적으로 복제하는 플라스미드일 수도 있고, 또는 숙주 생물의 게놈 내로 통합될 수도 있다. 용어 "재조합 DNA 분자", "재조합 작제물", "발현 작제물", "작제물", "작제물", 및 "재조합 DNA 작제물"은 본원에서 상호 교환적으로 사용된다. 재조합 작제물은 핵산 단편, 예를 들어, 자연계에서 모두가 함께 발견되지는 않는 조절 서열 및 코딩 서열의 인공 조합을 포함한다. 예를 들어, 작제물은 상이한 공급원으로부터 유래된 조절 서열과 코딩 서열, 또는 동일한 공급원으로부터 유래되었지만 자연계에서 발견되는 것과는 다른 방식으로 배열된 조절 서열과 코딩 서열을 포함할 수 있다. 이러한 작제물은 자체적으로 사용되거나 벡터와 함께 사용될 수 있다. 벡터가 사용되는 경우, 벡터의 선택은 당업자에게 잘 알려진 바와 같이 숙주 세포를 형질전환시키는 데 사용될 방법에 의존한다. 예를 들어, 플라스미드 벡터가 사용될 수 있다. 당업자는 숙주 세포를 성공적으로 형질전환시키고 선택하고 증식시키기 위해 벡터에 존재해야 하는 유전 요소를 잘 알고 있다. 당업자는 또한, 서로 다른 독립적인 형질전환 사건이 상이한 발현 수준 및 패턴을 초래할 수 있으므로(Jones et al., (1985) EMBO J 4:2411-2418; De Almeida et al., (1989) Mol Gen Genetics 218:78-86), 원하는 발현 수준 및 패턴을 나타내는 계통을 얻기 위해 일반적으로 여러 사건이 선별된다는 것을 인식할 것이다. 이러한 선별은 표준 분자 생물학적, 생화학적 분석법, 및 DNA의 서던 분석, mRNA 발현의 노던 분석, PCR, 실시간 정량 PCR(qPCR), 역전사 PCR(RT-PCR), 단백질 발현의 면역블로팅 분석, 효소 또는 활성 분석, 및/또는 표현형 분석을 비롯한 기타 분석법에 의해 달성될 수 있다.
본원에 사용된 용어 "발현"은 전구체 또는 성숙 형태의 기능적 최종 생성물(예컨대, mRNA, 가이드 RNA 또는 단백질)의 생성을 지칭한다.
용어 "제공"은 핵산(예를 들어, 발현 작제물) 또는 펩티드, 폴리펩티드 또는 단백질을 세포에 제공하는 것을 포함한다. 제공은 핵산이 세포의 게놈에 혼입될 수 있는 진핵 또는 원핵 세포내로의 핵산 또는 폴리펩티드의 혼입에 대한 언급을 포함하며, 핵산 또는 단백질을 세포에 일시적으로 공급하는 것에 대한 언급을 포함한다. 제공은 안정적 또는 일시적 형질전환 방법, 형질감염, 형질도입, 미세주입, 전기천공, 바이러스 방법, 아그로박테리움-매개 형질전환, 탄도 입자 가속화뿐만 아니라 유성 교배에 대한 언급을 포함한다. 따라서, 핵산 단편(예를 들어, 재조합 DNA 작제물/발현 작제물, 가이드 RNA, 가이드 DNA, 주형 DNA, 공여 DNA)을 세포에 삽입하는 맥락에서의 "제공"은 "형질감염" 또는 "형질전환" 또는 "형질도입"을 포함하며, 핵산 단편이 세포의 게놈(예를 들어, 염색체, 플라스미드, 색소체, 또는 미토콘드리아 DNA)에 혼입되거나, 자율 레플리콘으로 변환되거나, 또는 일시적으로 발현될 수 있는(예를 들어, 형질감염된 mRNA) 진핵 또는 원핵 세포내로의 핵산 단편의 혼입에 대한 언급을 포함한다.
안정적 형질전환 방법, 일시적 형질전환 방법, 바이러스 매개 방법, 유성 교배 및 유성 육종을 포함하는, 조성물(예컨대 뉴클레오티드 서열, 펩티드 또는 폴리펩티드)을 생물에 접촉, 제공, 및/또는 도입하는 다양한 방법이 알려져 있다. 안정적 형질전환은 도입된 폴리뉴클레오티드가 생물의 게놈에 통합되고 그의 자손에 의해 유전될 수 있음을 나타낸다. 일시적 형질전환은 도입된 조성물이 생물에서 단지 일시적으로 발현되거나 존재함을 나타낸다.
세포 또는 생물에 폴리뉴클레오티드 및 폴리펩티드를 접촉, 제공, 도입하는 프로토콜은 알려져 있으며, 미세주입(Crossway et al., (1986) Biotechniques 4:320-34 및 미국 특허 6,300,543호), 분열조직(meristem) 형질전환(미국 특허 5,736,369호), 전기천공(Riggs et al., (1986) Proc. Natl. Acad. Sci. USA 83:5602-6, 아그로박테리움 매개 형질전환(미국 특허 5,563,055호 및 5,981,840호), 직접적 유전자 전달(Paszkowski et al., (1984) EMBO J 3:2717-22), 및 탄도 입자 가속화(미국 특허 4,945,050호; 5,879,918호; 5,886,244호; 5,932,782호; Tomes et al., (1995) "Direct DNA Transfer into Intact Plant Cells via Microprojectile Bombardment" in Plant Cell, Tissue, and Organ Culture: Fundamental Methods, ed. Gamborg & Phillips (Springer-Verlag, Berlin); McCabe et al., (1988) Biotechnology 6:923-6; Weissinger et al., (1988) Ann Rev Genet 22:421-77; Sanford et al., (1987) Particulate Science and Technology 5:27-37(양파); Christou et al., (1988) Plant Physiol 87:671-4(대두); Finer and McMullen, (1991) In Vitro Cell Dev Biol 27P:175-82(대두); Singh et al., (1998) Theor Appl Genet 96:319-24(대두); Datta et al., (1990) Biotechnology 8:736-40(벼); Klein et al., (1988) Proc. Natl. Acad. Sci. USA 85:4305-9(옥수수); Klein et al., (1988) Biotechnology 6:559-63(옥수수); 미국 특허 5,240,855호; 5,322,783호 및 5,324,646호; Klein et al., (1988) Plant Physiol 91:440-4(옥수수); Fromm et al., (1990) Biotechnology 8:833-9(옥수수); Hooykaas-Van Slogteren et al., (1984) Nature 311:763-4; 미국 특허 5,736,369호(곡물); Bytebier et al., (1987) Proc. Natl. Acad. Sci. USA 84:5345-9(릴리아세애(Liliaceae); De Wet et al., (1985) in The Experimental Manipulation of Ovule Tissues, ed. Chapman et al., (Longman, New York), pp. 197-209(꽃가루); Kaeppler et al., (1990) Plant Cell Rep 9:415-8) and Kaeppler et al., (1992) Theor Appl Genet 84:560-6(휘스커(whisker) 매개 형질전환); D'Halluin et al., (1992) Plant Cell 4:1495-505(전기천공); Li et al., (1993) Plant Cell Rep 12:250-5; Christou and Ford (1995) Annals Botany 75:407-13(벼) 및 Osjoda et al., (1996) Nat Biotechnol 14:745-50(아그로박테리움 투메파시엔스 매개 옥수수), 화학적 형질전환(리튬 아세테이트 형질전환[Methods in Enzymology, 194:186-187 (1991))을 포함한다. 하나의 예로서, 미국 특허 4,880,741호 및 5,071,764호, 그리고 Chen 등(1997, Appl. Microbiol. Biotechnol. 48:232-235)은 DNA의 선형화 단편에 기초하여, Y. 리폴리티카에 대한 통합 기술을 기술한다.
대안적으로, 폴리뉴클레오티드는 세포 또는 생물을 바이러스 또는 바이러스 핵산과 접촉시켜 세포 또는 생물에 도입될 수 있다. 일반적으로, 이러한 방법은 바이러스성 DNA 또는 RNA 분자 내에 폴리뉴클레오티드를 혼입시키는 것을 포함한다. 일부 예에서, 관심 폴리펩티드는 처음에 바이러스성 폴리단백질의 일부로서 합성될 수 있고, 후에 생체내 또는 시험관내에서 단백분해에 의해 처리되어 원하는 재조합 단백질을 생성한다. 바이러스성 DNA 또는 RNA 분자를 포함하는 폴리뉴클레오티드를 식물에 도입하고 거기에서 암호화된 단백질을 발현시키는 방법은 공지되어 있으며, 예를 들어, 미국 특허 5,889,191호, 5,889,190호, 5,866,785호, 5,589,367호 및 5,316,931호를 참조한다. 일시적 형질전환 방법은 이중 가닥 절단 유도제와 같은 폴리펩티드를 생물에 직접 도입하는 것, 생물에 DNA 및/또는 RNA 폴리뉴클레오티드와 같은 폴리뉴클레오티드를 도입하는 것, 및 이중 가닥 절단 유도제를 암호화하는 mRNA와 같은 RNA 전사물을 도입하는 것을 포함하나, 이에 한정되는 것은 아니다. 이러한 방법은, 예를 들어, 미세주입 또는 유전자총을 포함한다. 예를 들어, Crossway et al., (1986) Mol Gen Genet 202:179-85; Nomura et al., (1986) Plant Sci 44:53-8; Hepler et al., (1994) Proc. Natl. Acad. Sci. USA 91:2176-80; 및, Hush et al., (1994) J Cell Sci 107:775-84를 참조한다.
핵산 및 단백질은 유도 Cas 시스템의 임의의 또는 모든 성분(단백질 및/또는 핵산), 예컨대 세포-침투 펩티드, 나노담체의 흡수를 촉진하기 위한 분자를 사용하는 방법을 포함하지만 이에 한정되지 않는, 당해 분야에 알려진 임의의 방법에 의해 세포에 제공될 수 있다. 또한 본원에 참조로 포함되는 US20110035836 Nanocarier based plant transfection and transduction, 및 EP 2821486 A1, Method of introducing nucleic acid into plant cells를 참조한다.
가이드 RNA/Cas 엔도뉴클레아제 복합체의 세포로의 제공은 직접적으로 또는 재조합 작제물을 통해 세포에 상기 복합체의 개별 성분을 제공하는 단계를 포함하며, 전체 복합체를 세포에 제공하는 단계를 또한 포함한다.
"성숙" 단백질은 번역 후 가공된 폴리펩티드(즉, 1차 번역 생성물에 존재하는 임의의 프리펩티드 또는 프로펩티드가 제거된 것)를 지칭한다. "전구체" 단백질은 mRNA 번역의 1차 생성물(즉, 프리펩티드 및 프로펩티드가 여전히 존재하는 것)을 지칭한다. 프리펩티드 및 프로펩티드는 세포내 국재화 신호일 수 있지만, 이에 한정되는 것은 아니다.
"안정적 형질전환"은 핵 및 세포소기관 게놈을 비롯한 숙주 생물의 게놈 내로 핵산 단편이 전달되어 유전적으로 안정한 유전(inheritance)을 야기하는 것을 지칭한다. 한편, "일시적 형질전환"은 숙주 생물의 핵 또는 기타 DNA 함유 세포소기관 내에 핵산 단편이 전달되어 통합 또는 안정적 유전 없이 유전자 발현을 야기하는 것을 지칭한다. 형질전환된 핵산 단편을 포함하는 숙주 생물은 "유전자이식" 생물로 지칭된다.
용어 "식물"은 전체 식물, 식물 기관, 식물 조직, 종자, 식물 세포, 그 종자 및 자손을 지칭한다. 식물 세포는 종자로부터의 세포, 현탁액 배양물, 배아, 분열부, 캘러스 조직, 잎, 뿌리, 어린 싹, 배우체, 포자체, 꽃가루 및 미포자를 포함하지만 이에 한정되는 것은 아니다. 식물 부분은 뿌리, 줄기, 어린 싹, 잎, 꽃가루, 종자, 종양 조직 및 다양한 형태의 세포 및 배양물(예컨대, 단일 세포, 원형질체, 배아 및 캘러스 조직)을 포함하지만 이에 한정되지 않는 분화 및 미분화 조직을 포함한다. 식물 조직은 식물에, 또는 식물 기관, 조직, 또는 세포 배양물에 있을 수 있다. 용어 "식물 기관"은 형태학적으로 및 기능적으로 구별되는 식물의 부분을 구성하는 식물 조직 또는 조직들의 집합을 지칭한다. 용어 "게놈"은 생물의 각각의 세포 또는 바이러스 또는 세포소기관에 존재하는 유전 물질(유전자 및 비코딩 서열)의 전체 상보체; 및/또는 한쪽 모체로부터(일배체) 단위로서 유전된 완전한 염색체 세트를 지칭한다. "자손"은 식물의 임의의 후속 세대를 포함한다.
유전자이식 식물은, 예를 들어, 형질전환 단계에 의해 도입된 이종 폴리뉴클레오티드를 그 게놈 내에 포함하는 식물을 포함한다. 이종 폴리뉴클레오티드는 폴리뉴클레오티드가 후속 세대로 전달되도록 게놈에 안정적으로 통합될 수 있다. 이종 폴리뉴클레오티드는 단독으로 또는 재조합 DNA 작제물의 일부로서 게놈에 통합될 수 있다. 유전자이식 식물은 그 게놈 내에 하나보다 많은 이종 폴리뉴클레오티드를 포함할 수도 있다. 각각의 이종 폴리뉴클레오티드는 유전자이식 식물에 상이한 형질을 부여할 수 있다. 이종 폴리뉴클레오티드는 외래종으로부터 유래하는 서열을 포함할 수 있고, 또는 동일 종으로부터 유래하는 경우, 그 고유의 형태로부터 실질적으로 변형될 수 있다. 유전자이식체는 초기에 그렇게 변경된 유전자이식체뿐만 아니라 초기의 유전자이식체로부터 유성 교배 또는 무성 번식에 의해 생성된 것들을 비롯하여, 이종 핵산의 존재에 의해 유전형이 변경된 임의의 세포, 세포주, 캘러스, 조직, 식물 부분 또는 식물을 포함할 수 있다. 종래의 식물 육종법, 외래 폴리뉴클레오티드의 삽입을 초래하지 않는 본원에 기술된 게놈 편집 절차, 또는 자연적으로 발생하는 사건, 예컨대, 무작위 타가 수정, 비재조합 바이러스 감염, 비재조합 박테리아 형질전환, 비재조합 전위, 또는 자연 돌연변이에 의한 (염색체 또는 염색체외) 게놈의 변경은 유전자이식체로 간주되지 않는다.
번식성 식물은 생활성 웅성 및 자성 배우체를 생성하는 식물이며, 자가 수정한다. 이러한 자가 수정 식물은 임의의 기타 배우체 식물 및 그 안에 포함된 유전 물질의 기여 없이 자손 식물을 생성할 수 있다. 웅성 번식불능 식물은 생활성이거나 그렇지 않으면 번식할 수 있는 웅성 배우체를 생성하지 않는 식물을 포함한다. 자성 번식불능 식물은 생활성이거나 그렇지 않으면 번식할 수 있는 자성 배우체를 생성하지 않는 식물을 포함한다. 웅성 번식불능 및 자성 번식불능 식물은 각각 자성 번식성 및 웅성 번식성일 수 있는 것으로 인식된다. 또한, 웅성 번식성(이지만, 자성 불임성) 식물은 자성 번식성 식물과 교배될 때 생활성 자손을 생성할 수 있고, 자성 번식성(이지만, 웅성 불임성) 식물은 웅성 번식성 식물과 교배될 때 생활성 자손을 생성할 수 있는 것으로 인식된다.
통상적인 효모, 예컨대 사카로마이세스 세레비시아 및 스키조사카로마이세스 폼베는 일반적으로 짧은 플랭킹 상동성 암(30~50 bp)을 갖는 공여 DNA와 보통 70%를 초과하는 효율로 특이적 통합을 나타내는 반면, 비 통상적인 효모, 예컨대 피키아 파스토리스, 한세눌라 폴리모르파, 야로위아 리폴리티카, 피키아 스티피티스 및 클루이베로마이세스 락티스는 보통 유사한 구조의 공여 DNA와 1% 미만의 효율로 특이적 통합을 나타낸다(Chen et al., PLoS ONE 8:e57952). 따라서, HR 프로세스에 대한 선호도는, 예를 들어, 효모를 적합한 공여 DNA로 형질전환시키고, 공여 DNA에 의해 표적화될 것으로 예측되는 게놈 부위와 특이적으로 재조합되는 정도를 결정함으로써 측정할 수 있다. 예를 들어, 이러한 분석법 결과, 효모 게놈에서 높은 정도의 공여 DNA의 무작위적 통합이 산출되는 경우, NHEJ에 대한 선호도(또는 HR에 대한 낮은 선호도)가 명백할 것이다. 효모에서 DNA의 특이적(HR-매개) 및/또는 무작위적(NHEJ-매개) 통합 비율을 결정하기 위한 분석법은 당해 분야에 공지되어 있다(예를 들어, Ferreira and Cooper, Genes Dev. 18:2249-2254; Corrigan et al., PLoS ONE 8:e69628; Weaver et al., Proc. Natl. Acad. Sci. U.S.A. 78:6354-6358; Keeney and Boeke, Genetics 136:849-856).
낮은 수준의 HR 활성을 고려하면, 본원의 비 통상적인 효모는 (i) 예를 들어, 약 1%, 2%, 3%, 4%, 5%, 6%, 7% 또는 8% 미만인 30 내지 50 bp의 플랭킹 상동성 암을 갖는 적합한 공여 DNA 또는 적합한 주형에 의한 특이적인 표적화 비율을 나타내고/내거나 (ii) 예를 들어, 약 65%, 66%, 67%, 68%, 69%, 70%, 71%, 72%, 73%, 74% 또는 75%를 초과하는 전술한 공여 DNA의 무작위적 통합 비율을 나타낼 수 있다. 적합한 주형 또는 공여 DNA의 (i) 특이적 표적화 및/또는 (ii) 무작위적 통합의 이러한 비율은 본원에 개시된 바와 같이 유도 Cas 시스템이 제공되기 전에 존재하는 그대로의 비 통상적인 효모를 특징지울 수 있다.
본원의 비 통상적인 효모의 비제한적인 예는 다음 속의 효모를 포함한다: 야로위아, 피키아, 쉬반니오마이세스(Schwanniomyces), 클루이베로마이세스, 아르술라(Arxula), 트리코스포론, 칸디다, 유스틸라고(Ustilago), 토룰롭시스(Torulopsis), 자이고사카로마이세스(Zygosaccharomyces), 트리고놉시스(Trigonopsis), 크립토코커스, 로도토룰라, 파피아(Phaffia), 스포로볼로마이세스(Sporobolomyces), 및 파키솔렌(Pachysolen). 야로위아 종의 적합한 예는 Y. 리폴리티카이다. 피키아 종의 적합한 예는 P. 파스토리스, P. 메타놀리카(methanolica), P. 스티피티스, P. 아노말라(anomala) 및 P. 앙구스타(angusta)를 포함한다. 쉬반니오마이세스 종의 적합한 예는 S. 카스텔리이(castellii), S. 알루비우스(alluvius), S. 호미니스(hominis), S. 옥시덴탈리스(occidentalis), S. 카프리오티이(capriottii), S. 에트첼시이(etchellsii), S. 폴리모르푸스(polymorphus), S. 슈도폴리모르푸스(pseudopolymorphus), S. 반리자(vanrijiae) 및 S. 야마다(yamadae)를 포함한다. 클루이베로마이세스 종의 적합한 예는 K. 락티스, K. 마르시아누스(marxianus), K. 프라길리스(fragilis), K. 드로소필라룸(drosophilarum), K. 써모톨레란스(thermotolerans), K. 파세올로스포루스(phaseolosporus), K. 바누데니이(vanudenii), K. 왈티이(waltii), K. 아프리카누스(africanus) 및 K. 폴리스포루스(polysporus)를 포함한다. 아르술라 종의 적합한 예는 A. 아데니니보란스(adeninivorans) 및 A. 테레스트레(terrestre)를 포함한다. 트리코스포론 종의 적합한 예는 T. 쿠타네움(cutaneum), T. 카피타툼(capitatum), T. 인킨(inkin) 및 T. 비메리(beemeri)를 포함한다. 칸디다 종의 적합한 예는 C. 알비칸스(albicans), C. 아스칼라피다룸(ascalaphidarum), C. 암피시아(amphixiae), C. 안타르티카(antarctica), C. 아르젠티아(argentea), C. 아틀란티카(atlantica), C. 아트모스패리카(atmosphaerica), C. 블랏타(blattae), C. 브로멜리아세아룸(bromeliacearum), C. 카르포필라(carpophila), C. 카르바잘리스(carvajalis), C. 세람비시다룸(cerambycidarum), C. 차울리오데스(chauliodes), C. 코리달리(corydali), C. 도스세이(dosseyi), C. 듀블리니엔시스(dubliniensis), C. 얼가텐시스(ergatensis), C. 프룩투스(fructus), C. 글라브라타(glabrata), C. 퍼멘타티(fermentati), C. 귈리어몬디이(guilliermondii), C. 해뮬로니이(haemulonii), C. 인섹타멘스(insectamens), C. 인섹토룸(insectorum), C. 인터메디아(intermedia), C. 제프레시이(jeffresii), C. 케피르(kefyr), C. 케로세네아(keroseneae), C. 크루세이(krusei), C. 루시타니아(lusitaniae), C. 릭소소필라(lyxosophila), C. 말토사(maltosa), C. 마리나(marina), C. 멤브라니파시엔스(membranifaciens), C. 밀러리(milleri), C. 모기이(mogii), C. 올레오필라(oleophila), C. 오레고넨시스(oregonensis), C. 파라프실로시스(parapsilosis), C. 퀴어시트루사(quercitrusa), C. 루고사(rugosa), C. 사케(sake), C. 쉐하테아(shehatea), C. 템노칠라(temnochilae), C. 테누이스(tenuis), C. 테아(theae), C. 톨러란스(tolerans), C. 트로피칼리스(tropicalis), C. 츠시이아(tsuchiyae), C. 시놀라보란티움(sinolaborantium), C. 소자(sojae), C. 수브하쉬이(subhashii), C. 비스와나치이(viswanathii), C. 유틸리스(utilis), C. 우바투벤시스(ubatubensis) 및 C. 젬플리니나(zemplinina)를 포함한다. 유스틸라고 종의 적합한 예는 U. 아베나(avenae), U. 에스쿨렌타(esculenta), U. 호르데이(hordei), U. 마이디스(maydis), U. 누다(nuda) 및 U. 트리티치(tritici)를 포함한다. 토룰롭시스 종의 적합한 예는 T. 게오차레스(geochares), T. 아지마(azyma), T. 글라브라타(glabrata) 및 T. 칸디다를 포함한다. 자이고사카로마이세스 종의 적합한 예는 Z. 바일리이(bailii), Z. 비스포루스(bisporus), Z. 시드리(cidri), Z. 퍼멘타티(fermentati), Z. 플로렌티누스(florentinus), Z. 콤부차엔시스(kombuchaensis), Z. 렌투스(lentus), Z. 멜리스(mellis), Z. 미크로엘립소이데스(microellipsoides), Z. 엠라키이(mrakii), Z. 슈도룩시이(pseudorouxii) 및 Z. 룩시이(rouxii)를 포함한다. 트리고놉시스 종의 적합한 예는 T. 바리아빌리스(variabilis)를 포함한다. 크립토코커스 종의 적합한 예는 C. 라우렌티이(laurentii), C. 알비두스(albidus), C. 네오포르만스(neoformans), C. 가티이(gattii), C. 유니구툴라투스(uniguttulatus), C. 아델리엔시스(adeliensis), C. 아에리우스(aerius), C. 알비도시밀리스(albidosimilis), C. 안타르크티쿠스(antarcticus), C. 아쿠아티쿠스(aquaticus), C. 아테르(ater), C. 부타넨시스(bhutanensis), C. 콘소르티오니스(consortionis), C. 쿠르바투스(curvatus), C. 페놀리쿠스(phenolicus), C. 스킨네리(skinneri), C. 테레우스(terreus) 및 C. 비쉬니아치(vishniacci)를 포함한다. 로도토룰라 종의 적합한 예는 R. 아체니오룸(acheniorum), R. 툴라(tula), R. 아쿠타(acuta), R. 아메리카나(americana), R. 아라우카리아(araucariae), R. 아르티카(arctica), R. 아르메니아카(armeniaca), R. 아우란티아카(aurantiaca), R. 아우리쿨라리아(auriculariae), R. 바카룸(bacarum), R. 벤티카(benthica), R. 비오우르게이(biourgei), R. 보고리엔시스(bogoriensis), R. 브론치알리스(bronchialis), R. 부포니이(buffonii), R. 칼립토게나(calyptogenae), R. 충나멘시스(chungnamensis), R. 클라디엔시스(cladiensis), R. 코랄리나(corallina), R. 크레솔리카(cresolica), R. 크로세아(crocea), R. 사이클로클라스티카(cycloclastica), R. 다이레넨시스(dairenensis), R. 디플루덴스(diffluens), R. 에베르글라디엔시스(evergladiensis), R. 페룰리카(ferulica), R. 폴리오룸(foliorum), R. 프라가리아(fragaria), R. 푸지사넨시스(fujisanensis), R. 푸트로넨시스(futronensis), R. 겔라티노사(gelatinosa), R. 글라시알리스(glacialis), R. 글루티니스(glutinis), R. 그라실리스(gracilis), R. 그라미니스(graminis), R. 그린베르그시이(grinbergsii), R. 히말라옌시스(himalayensis), R. 힌눌레아(hinnulea), R. 히스톨리티카(histolytica), R. 힐로필리아(hylophila), R. 인카르나타(incarnata), R. 인게니오사(ingeniosa), R. 자바니카(javanica), R. 코이쉬카웬시스(koishikawensis), R. 락토사(lactosa), R. 라멜리브라치아(lamellibrachiae), R. 라린기스(laryngis), R. 리그노필라(lignophila), R. 리니(lini), R. 론기스시마(longissima), R. 루드위기이(ludwigii), R. 리시노필라(lysinophila), R. 마리나(marina), R. 마르티니아에-프라간티스(martyniae-fragantis), R. 마트리텐시스(matritensis), R. 멜리(meli), R. 미누타(minuta), R. 무실라기노사(mucilaginosa), R. 니텐스(nitens), R. 노쏘파기(nothofagi), R. 오리자(oryzae), R. 파시피카(pacifica), R. 팔리다(pallida), R. 페네아우스(peneaus), R. 필릴라(philyla), R. 필로플라나(phylloplana), R. 필라티이(pilatii), R. 필리마나(pilimanae), R. 피니콜라(pinicola), R. 플리카타(plicata), R. 폴리모르파(polymorpha), R. 사이크로페놀리카(psychrophenolica), R. 사이크로필라(psychrophila), R. 푸스툴라(pustula), R. 레티노필라(retinophila), R. 로사세아(rosacea), R. 로술라타(rosulata), R. 루베파시엔스(rubefaciens), R. 루벨라(rubella), R. 루베센스(rubescens), R. 루브라(rubra), R. 루브로루고사(rubrorugosa), R. 루풀라(rufula), R. 루틸라(rutila), R. 산귀네아(sanguinea), R. 산니에이(sanniei), R. 사르토리이(sartoryi), R. 실베스트리스(silvestris), R. 심플렉스(simplex), R. 시넨시스(sinensis), R. 슬루피아(slooffiae), R. 손키이(sonckii), R. 스트라미네아(straminea), R. 수베리콜라(subericola), R. 수가니이(suganii), R. 타이와넨시스(taiwanensis), R. 타이와니아나(taiwaniana), R. 테르페노이달리스(terpenoidalis), R. 테레아(terrea), R. 텍센시스(texensis), R. 토쿄엔시스(tokyoensis), R. 울자마(ulzamae), R. 바닐리카(vanillica), R. 부일레미니이(vuilleminii), R. 야로위이, R. 윤나넨시스(yunnanensis) 및 R. 졸티이(zsoltii)를 포함한다. 파피아 종의 적합한 예는 P. 로도지마(rhodozyma)를 포함한다. 스포로볼로마이세스 종의 적합한 예는 S. 알보루베센스(alborubescens), S. 반나엔시스(bannaensis), S. 베이징엔시스(beijingensis), S. 비스초피아(bischofiae), S. 클라바투스(clavatus), S. 코프로스마(coprosmae), S. 코프로스미콜라(coprosmicola), S. 코랄리누스(corallinus), S. 딤메나(dimmenae), S. 드라코필리(dracophylli), S. 에론가투스(elongatus), S. 그라실리스(gracilis), S. 이노시토필루스(inositophilus), S. 존소니이(johnsonii), S. 코알라(koalae), S. 마그니스포루스(magnisporus), S. 노보제알란디쿠스(novozealandicus), S. 오도루스(odorus), S. 파타고니쿠스(patagonicus), S. 프로덕투스(productus), S. 로세우스(roseus), S. 사시콜라(sasicola), S. 쉬바타누스(shibatanus), S. 신굴라리스(singularis), S. 수브룬네우스(subbrunneus), S. 심메트리쿠스(symmetricus), S. 시지기이(syzygii), S. 타우포엔시스(taupoensis), S. 츄가(tsugae), S. 잔투스(xanthus) 및 S. 윤나넨시스를 포함한다. 파키솔렌 종의 적합한 예는 P. 탄노필루스(P. tannophilus)를 포함한다.
야로위아 리폴리티카(Y. 리폴리티카)의 예는 아메리칸 타입 컬쳐 컬렉션(ATCC, Manassas, VA)에서 이용 가능한 다음 단리물을 포함한다: 균주 표시 ATCC #20362, #8862, #8661, #8662, #9773, #15586, #16617, #16618, #18942, #18943, #18944, #18945, #20114, #20177, #20182, #20225, #20226, #20228, #20327, #20255, #20287, #20297, #20315, #20320, #20324, #20336, #20341, #20346, #20348, #20363, #20364, #20372, #20373, #20383, #20390, #20400, #20460, #20461, #20462, #20496, #20510, #20628, #20688, #20774, #20775, #20776, #20777, #20778, #20779, #20780, #20781, #20794, #20795, #20875, #20241, #20422, #20423, #32338, #32339, #32340, #32341, #34342, #32343, #32935, #34017, #34018, #34088, #34922, #34922, #38295, #42281, #44601, #46025, #46026, #46027, #46028, #46067, #46068, #46069, #46070, #46330, #46482, #46483, #46484, #46436, #60594, #62385, #64042, #74234, #76598, #76861, #76862, #76982, #90716, #90811, #90812, #90813, #90814, #90903, #90904, #90905, #96028, #201241, #201242, #201243, #201244, #201245, #201246, #201247, #201249, 및/또는 #201847.
Y. 리폴리티카뿐만 아니라 본원에서 임의의 다른 비 통상적인 효모는 유성(예를 들어, 그 건조 세포 중량의 적어도 25%를 오일로 생성한다)이고/이거나 하나 이상의 다중불포화 지방산(예를 들어, 오메가-6 또는 오메가-3)을 생성할 수 있다. 이러한 유성체는 효모가 그 야생형 형태에 비해 증가된 양의 지질을 생성하도록 유전적으로 조작된 결과일 수 있다. 유성 Y. 리폴리티카 균주의 예는 본원에 참조로 포함되는 미국 특허 출원 공개 2009/0093543호, 2010/0317072호, 2012/0052537호 및 2014/0186906호에 개시되어 있다.
비 통상적인 효모에 대해 본원에 개시된 구현예는 진균과 같은 다른 미생물에도 적용될 수 있다. 특정 구현예에서 진균은 HR에 의해 매개되는 복구 프로세스보다 NHEJ DNA 복구 프로세스를 선호하는 진균일 수 있다. 본원의 진균은 담자균(Basidiomycetes), 접합균(Zygomycetes), 호상균(Chytridiomycetes) 또는 자낭균(Ascomycetes) 진균일 수 있다. 본원의 사상균류의 예는 트리코데르마, 크리소스포리움(Chrysosporium), 티엘라비아(Thielavia), 뉴로스포라(Neurospora)(예를 들어, N. 크라사(crassa), N. 시토필라(sitophila)), 크리포넥트리아(Cryphonectria)(예를 들어, C. 파라시티카(parasitica)), 아우레오바시디움(Aureobasidium)(예를 들어, A. 풀루란스(pullulans)), 필리바시디움(Filibasidium), 피로마이세스(Piromyces), 크리플로코커스(Cryplococcus), 아크레모니움(Acremonium), 톨리포클라디움(Tolypocladium), 시탈리디움(Scytalidium), 스키조필룸(Schizophyllum), 스포로트리쿰(Sporotrichum), 페니실리움(Penicillium)(예를 들어, P. 빌라이아(bilaiae), P. 카멤베르티(camemberti), P. 칸디둠(candidum), P. 크리소게눔(chrysogenum), P. 엑스펜숨(expansum), P. 퍼니쿨로섬(funiculosum), P. 글라우컴(glaucum), P. 마네페이(marneffei), P. 로커포르티(roqueforti), P. 베르루코숨(verrucosum), P. 비리디카툼(viridicatum)), 지베렐라(Gibberella)(예를 들어, G. 아쿠미나타(acuminata), G. 아베나세아(avenacea), G. 바카타(baccata), G. 키르키나타(circinata), G. 시아노게나(cyanogena), G. 푸지쿠로이(fujikuroi), G. 인트리칸스(intricans), G. 풀리카리스(pulicaris), G. 스틸보이데스(stilboides), G. 트리킨크타(tricincta), G. 제아(zeae)), 미셀리오프토라(Myceliophthora), 뮤코(Mucor)(예를 들어, M. 룩시, M. 시르시넬로이데스), 아스퍼질러스(예를 들어, A. 니거(niger), A. 오리자(oryzae), A. 니둘란스(nidulans), A. 플라버스(flavus), A. 렌툴루스(lentulus), A. 테레우스, A. 클라바투스, A. 푸미가투스(fumigatus)), 푸사리움(예를 들어, F. 그라미네아룸(graminearum), F. 옥시스포룸(oxysporum), F. 부비게눔(bubigenum), F. 솔라니, F. 옥시스포룸, F. 베르티실리오이데스(verticillioides), F. 프로리페라툼(proliferatum), F. 베네나툼(venenatum)) 및 후미콜라(Humicola) 속의 것들 및 이들의 무성 생식형과 유성 생식형을 포함한다. 본원의 진균의 속 및 종은 원하는 경우 Barnett and Hunter(Illustrated Genera of Imperfect Fungi, 3rd Edition, Burgess Publishing Company, 1972)에 개시된 바와 같은 형태에 의해 정의될 수 있다. 진균은 선택적으로 해충/병원체, 예컨대 동물(예를 들어, 인간)의 해충/병원체로 특징지어질 수 있다.
본원의 특정 양태에서 트리코데르마 종은 T. 아그레시범(aggressivum), T. 아마조니쿰(amazonicum), T. 아스페렐룸(asperellum), T. 아트로비리데(atroviride), T. 아우레오비리데(aureoviride), T. 아우스트로코닌기이(austrokoningii), T. 브레비콤팩툼(brevicompactum), T. 칸디둠, T. 카리배움(caribbaeum), T. 카톱트론(catoptron), T. 크레메움(cremeum), T. 세라미쿰(ceramicum), T. 세리넘(cerinum), T. 클로로스포룸(chlorosporum), T. 크로모스페르뭄(chromospermum), T. 신나모메움(cinnamomeum), T. 시트리노비리데(citrinoviride), T. 크라숨(crassum), T. 크레메움(cremeum), T. 딩글레예아(dingleyeae), T. 도로테아(dorotheae), T. 에푸숨(effusum), T. 에리나세움(erinaceum), T. 에스토니쿰(estonicum), T. 페르틸레(fertile), T. 겔라티노수스(gelatinosus), T. 가넨세(ghanense), T. 하마툼(hamatum), T. 하르지아눔(harzianum), T. 헬리쿰(helicum), T. 인트리카툼(intricatum), T. 코니랑브라(konilangbra), T. 코닌기이(koningii), T. 코닌지옵시스(koningiopsis), T. 론지브라치아툼(longibrachiatum), T. 론지필레(longipile), T. 미누티스포룸(minutisporum), T. 오블론지스포룸(oblongisporum), T. 오발리스포룸(ovalisporum), T. 페테르세니이(petersenii), T. 필로스타히디스(phyllostahydis), T. 필루리페룸(piluliferum), T. 플레우로티콜라(pleuroticola), T. 플레우로툼(pleurotum), T. 폴리스포룸(polysporum), T. 슈도코닌기이(pseudokoningii), T. 푸베센스(pubescens), T. 레세이(reesei), T. 로게르소니(rogersonii), T. 로시쿰(rossicum), T. 사투르니스포룸(saturnisporum), T. 시넨시스(sinensis), T. 시누오숨(sinuosum), T. 스피랄레(spirale), T. 스트라미네움(stramineum), T. 스트리고숨(strigosum), T. 스트로마티쿰(stromaticum), T. 수로툰둠(surrotundum), T. 타이와넨세(taiwanense), T. 타일랜디쿰(thailandicum), T. 텔레포리콜룸(thelephoricolum), T. 테오브로미콜라(theobromicola), T. 토멘토숨(tomentosum), T. 벨루티눔(velutinum), T. 비렌스(virens), T. 비리데(viride) 및 T. 비리데센스(viridescens)를 포함한다. 본원에서 트리코데르마 종은, 예를 들어 본원에 참조로 포함되는 Trichoderma: Biology and Applications (P.K. Mukherjee et al., Eds., CABI, Oxfordshire, UK, 2013)에 기술된 바와 같이 배양되고/되거나 조작될 수 있다.
특정 구현예에서, 미생물 세포는 조류 세포이다. 예를 들어, 조류 세포는 다음 중 임의의 것으로부터 유래될 수 있다: 클로로피타(Chlorophyta, 녹조류), 로도피타(Rhodophyta, 홍조류), 패오피세아(Phaeophyceae, 갈조류), 바실라리오피캐아(Bacillariophycaeae, 규조류) 및 디노플라겔라타(Dinoflagellata, 와편모충류(디노플라겔레이트(dinoflagellates, 와편모조류)). 다른 양태에서, 조류 세포는 미세조류(예를 들어, 식물성 플랑크톤, 미소식물 또는 플랑크톤 조류) 또는 거대조류(켈프, 해초)일 수 있다. 추가적인 예로, 본원의 조류 세포는 포르피라(Porphyra)(김), 팔마리아(Palmaria) 종, 예컨대 P. 팔마타(palmata)(덜스(dulse)), 아르트로스피라(Arthrospira) 종, 예컨대 A. 플라텐시스(platensis)(스피룰리나(spirulina)), 클로렐라(Chlorella)(예를 들어, C. 프로토테코이데스(protothecoides)), 콘드루스(Chondrus) 종, 예컨대 C. 크리스푸스(crispus)(아이리쉬 모스(Irish moss)), 아파니조메논(Aphanizomenon), 사르가쑴(Sargassum), 코차유요(Cochayuyo), 보트리오코커스(Botryococcus)(예를 들어, B. 브라우니이(braunii)), 두날리엘라(Dunaliella)(예를 들어, D. 테르티올렉타(tertiolecta)), 그라실라리아(Gracilaria), 플레우로크리시스(Pleurochrysis)(예를 들어, P. 카르테라(carterae)), 안키스트로데스무스(Ankistrodesmus), 시클로텔라(Cyclotella), 한츠슈이아(Hantzschia), 난노클로리스(Nannochloris), 난노클로롭시스(Nannochloropsis), 니츠키아(Nitzschia), 패오닥틸룸(Phaeodactylum)(예를 들어, P. 트리코누툼(tricornutum)), 세네데스무스(Scenedesmus), 스티코코커스(Stichococcus), 테트라셀미스(Tetraselmis)(예를 들어, T. 수에시카(suecica)), 탈라시오시라(Thalassiosira)(예를 들어, T. 슈도나나(pseudonana)), 크립테코디니움(Crypthecodinium)(예를 들어, C. 코흐니이(cohnii)), 네오클로리스(Neochloris)(예를 들어, N. 올레오아분단스(oleoabundans)) 또는 치오키트리움(Schiochytrium)일 수 있다. 본원에서 조류 종은, 예를 들어 본원에 참조로 포함되는 Thompson(Algal Cell Culture. Encyclopedia of Life Support System (EOLSS), Biotechnology Vol 1, eolss.net/sample-chapters 인터넷 사이트에서 이용할 수 있음)에 기술된 바와 같이 배양되고/되거나 조작될 수 있다.
본원의 원생생물 세포는 예를 들어, 섬모충강(예컨대, 테트라히메나(Tetrahymena), 파라메시움(Paramecium), 콜피디움(Colpidium), 콜포다(Colpoda), 글라우코마(Glaucoma), 플라티오프르야(Platyophrya), 보르티셀라(Vorticella), 포토마쿠스(Potomacus), 슈도코닐렘부스(Pseudocohnilembus), 유플로테스(Euplotes), 엔겔마니엘라(Engelmaniella) 및 스틸로니키아(Stylonichia) 속), 편모충아문(편모류), 식물성 편모충강(예컨대, 유글레나(Euglena), 아스타시아(Astasia), 해마토코커스(Haematococcus) 및 크립테코디니움(Crypthecodinium) 속), 동물성 편모충강, 근족충상강, 엽상근족충강(예컨대, 아메바(Amoeba) 속) 및 진동균충강(예컨대, 딕티오스텔리움(Dictyostelium) 및 피사룸(Physarum) 속)으로부터 선택될 수 있다. 본원의 특정 원생생물 종은, 예를 들어 본원에 참조로 포함되는 ATCC® Protistology Culture Guide: tips and techniques for propagating protozoa and algae(2013, 아메리칸 타입 컬쳐 컬렉션 인터넷 사이트에서 이용 가능함)에 기술된 바와 같이 배양되고/되거나 조작될 수 있다. 특정 구현예에서 원생생물은 선택적으로 식물 또는 동물(예컨대, 인간)의 해충/병원균으로 특징지어질 수 있다.
특정 구현예에서 박테리아 세포는 구균, 간균, 스피로헤타(spirochetes), 스페로플라스트(spheroplasts), 원형질체 등의 형태일 수 있다. 박테리아의 다른 예는 그람 음성 및 그람 양성 박테리아를 포함하지만, 이에 한정되는 것은 아니다. 박테리아의 또 다른 예는 살모넬라(예컨대, S. 티피(typhi), S. 엔테리티디스(enteritidis)), 시겔라(예컨대, S. 디스엔테리아(dysenteriae)), 에스케리챠(예컨대, 대장균), 엔테로박터(Enterobacter), 세라티아(Serratia), 프로테우스(Proteus), 예시니아, 시트로박터(Citrobacter), 에드워드시엘라(Edwardsiella), 프로비덴시아(Providencia), 클레브시엘라(Klebsiella), 하프니아(Hafnia), 에윈겔라(Ewingella), 클루이베라(Kluyvera), 모르가넬라(Morganella), 플라노코커스(Planococcus), 스토마토코커스(Stomatococcus), 미크로코커스(Micrococcus), 스타필로코커스(예컨대, S. 아우레우스(aureus), S. 에피데르미디스(epidermidis)), 비브리오(예컨대, V. 콜레라(cholerae)), 애로모나스(Aeromonas), 플레스시오모나스(Plessiomonas), 해모필루스(Haemophilus)(예컨대, H. 인플루엔자), 악티노바실러스(Actinobacillus), 파스퇴렐라(Pasteurella), 마이코플라스마(Mycoplasma)(예컨대, M. 뉴모니아(pneumonia)), 우레아플라스마(Ureaplasma), 리케챠(Rickettsia), 콕시엘라(Coxiella), 로칼리매아(Rochalimaea), 에를리키아(Ehrlichia), 스트렙토코커스(Streptococcus)(예컨대, S. 피오제네스, S. 뮤탄스, S. 뉴모니아), 엔테로코커스(Enterococcus)(예컨대, E. 패칼리스(faecalis)), 애로코커스(Aerococcus), 게멜라(Gemella), 락토코커스(Lactococcus)(예컨대, L. 락티스(lactis)), 류코노스톡(Leuconostoc)(예컨대, L. 메센테로이데스(mesenteroides)), 페디코커스(Pedicoccus), 바실러스(예컨대, B. 세레우스(cereus), B. 서브틸리스(subtilis), B. 튜린기엔시스(thuringiensis)), 코리네박테리움(Corynebacterium)(예컨대, C. 디프테리아(diphtheriae)), 아르카노박테리움(Arcanobacterium), 악티노마이세스(Actinomyces), 로도코커스(Rhodococcus), 리스테리아(Listeria)(예컨대, L. 모노시토게네스(monocytogenes)), 에리시페로트릭스(Erysipelothrix), 가드네렐라(Gardnerella), 네이세리아(Neisseria)(예컨대, N. 메닌기티디스(meningitidis), N. 고노레아(gonorrhoeae)), 캄필로박터(Campylobacter), 아르코박터(Arcobacter), 울리넬라(Wolinella), 헬리코박터(Helicobacter)(예컨대, H. 파일로리(pylori)), 아크로모박터(Achromobacter), 아시네토박터(Acinetobacter), 아그로박테리움(Agrobacterium)(예컨대, A. 투메파시엔스(tumefaciens)), 알카리게네스(Alcaligenes), 크리세오모나스(Chryseomonas), 코마모나스(Comamonas), 에이케넬라(Eikenella), 플라비모나스(Flavimonas), 플라보박테리움(Flavobacterium), 모락셀라(Moraxella), 올리겔라(Oligella), 슈도모나스(Pseudomonas)(예컨대, P. 애루기노사(aeruginosa)), 세와넬라(Shewanella), 위크셀라(Weeksella), 산토모나스(Xanthomonas), 보르데텔라(Bordetella), 프란시에셀라(Franciesella), 브루셀라(Brucella), 레지오넬라(Legionella), 아피피아(Afipia), 바르토넬라(Bartonella), 카림마토박테리움(Calymmatobacterium), 카르디오박테리움(Cardiobacterium), 스트렙토바실러스(Streptobacillus), 스피릴룸(Spirillum), 펩토스트렙토코커스(Peptostreptococcus), 펩토코커스(Peptococcus), 사르시니아(Sarcinia), 코프로코커스(Coprococcus), 루미노코커스(Ruminococcus), 프로피오니박테리움(Propionibacterium), 모빌룬커스(Mobiluncus), 비피도박테리움(Bifidobacterium), 유박테리움(Eubacterium), 락토바실러스(Lactobacillus)(예컨대, L. 락티스(lactis), L. 애시도필루스(acidophilus)), 로티아(Rothia), 클로스트리듐(Clostridium)(예컨대, C. 보툴리눔(botulinum), C. 퍼프린겐스(perfringens)), 박테로이데스(Bacteroides), 포르피로모나스(Porphyromonas), 프레보텔라(Prevotella), 푸소박테리움(Fusobacterium), 빌로필라(Bilophila), 렙토트리키아(Leptotrichia), 울리넬라(Wolinella), 애시드아미노코커스(Acidaminococcus), 메가스패라(Megasphaera), 베일로넬라(Veilonella), 노르카르디아(Norcardia), 악티노마두라(Actinomadura), 노르카디옵시스(Norcardiopsis), 스트렙토마이세스(Streptomyces), 마이크로폴리스포라스(Micropolysporas), 써모악티노마이세테스(Thermoactinomycetes), 마이코박테리움(Mycobacterium)(예컨대, M. 투베르쿨로시스(tuberculosis), M. 보비스(bovis), M. 레프라(leprae)), 트레포네마(Treponema), 보렐리아(Borrelia)(예컨대, B. 부르그도르페리(burgdorferi)), 렙토스피라(Leptospira) 및 클라미디아(Chlamydiae) 속의 것들을 포함하지만, 이에 한정되는 것은 아니다. 특정 구현예에서 박테리아는 선택적으로 식물 또는 동물(예컨대, 인간)의 해충/병원균으로서 특징지어질 수 있다. 특정 구현예에서 박테리아는 (예컨대, 기타 박테리아를 함유하거나 효모 및/또는 기타 박테리아를 함유하는) 혼합 미생물 집단 내에 포함될 수 있다.
특정 구현예에서 고세균 세포는 임의의 고세균 문, 예컨대, 유리고세균(Euryarchaeota), 크렌고세균(Crenarchaeota), 나노고세균(Nanoarchaeota), 코르고세균(Korarchaeota), 아이그고세균(Aigarchaeota), 또는 타움고세균(Thaumarchaeota)으로부터 유래될 수 있다. 본원의 고세균 세포는 예를 들어, 호극성일 수 있다(예컨대, 대부분의 생명체에 유해한 물리적으로 또는 지구화학적으로 극도의 조건에서 성장 및/또는 번식할 수 있다). 호극성 고세균의 일부 예는 호온성(예컨대, 45~122℃의 온도에서 성장할 수 있음), 과호열성(예컨대, 80~122℃의 온도에서 성장할 수 있음), 호산성(예컨대, 3 이하의 pH 수준에서 성장할 수 있음), 호알칼리성(예컨대, 9 이상의 pH 수준에서 성장할 수 있음), 및/또는 호염성(예컨대, 고염 농도[예를 들어, 20~30% NaCl]에서 성장할 수 있음)인 것들을 포함한다. 고세균 종의 예는 할로박테리움(Halobacterium)(예컨대, H. 볼카니이(volcanii)), 설폴로부스(Sulfolobus)(예컨대, S. 설파타리쿠스(solfataricus), S. 애시도칼다리우스(acidocaldarius)), 써모코커스(Thermococcus)(예컨대, T. 알칼리필루스(alcaliphilus), T. 셀레르(celer), T. 키토노파구스(chitonophagus), T. 감마톨레란스(gammatolerans), T. 하이드로써말리스(hydrothermalis), T. 코다카렌시스(kodakarensis), T. 리토랄리스(litoralis), T. 펩토노필루스(peptonophilus), T. 프로푼두스(profundus), T. 스테테리(stetteri)), 메타노칼도코커스(Methanocaldococcus)(예컨대, M. 써모리토트로피쿠스(thermolithotrophicus), M. 잔나스키이(jannaschii)), 메타노코커스(Methanococcus)(예컨대, M. 마리팔루디스(maripaludis)), 메타노써모박터(Methanothermobacter)(예컨대, M. 마르부르겐시스(marburgensis), M. 썸오토트로피쿠스(thermautotrophicus)), 아캐오글로부스(Archaeoglobus)(예컨대, A. 풀기두스(fulgidus)), 니트로소푸밀루스(Nitrosopumilus)(예컨대, N. 마리티무스(maritimus)), 메탈로스패라(Metallosphaera)(예컨대, M. 세둘라(sedula)), 페로플라스마(Ferroplasma), 써모플라스마(Thermoplasma), 메타노브레비박터(Methanobrevibacter)(예컨대, M. 스미시이(smithii)), 및 메타노스패라(Methanosphaera)(예컨대, M. 스타츠마나(stadtmanae)) 속의 것들을 포함한다.
특정 구현예에서, 포유류 세포는 인간, 비 인간 영장류(예컨대, 원숭이, 유인원), 설치류(예컨대, 마우스, 랫트, 햄스터, 기니 피그), 토끼, 개, 고양이, 소, 돼지, 말, 염소, 또는 양 세포일 수 있다. 본원의 포유류 세포의 기타 예는 1차 상피 세포(예컨대, 각질 세포, 자궁 경부 상피 세포, 기관지 상피 세포, 기관 상피 세포, 신장 상피 세포, 망막 상피 세포); 확립된 세포주(예컨대, 293 배아 신장 세포, HeLa 자궁 경부 상피 세포, PER-C6 망막 세포, MDBK 세포, CRFK 세포, MDCK 세포, CHO 세포, BeWo 세포, Chang 세포, Detroit 562 세포, Hep-2 세포, KB 세포, LS 180 세포, LS 174T 세포, NCI-H-548 세포, RPMI 2650 세포, SW-13 세포, T24 세포, WI-28 VA13 세포, 2RA 세포, WISH 세포, BS-C-I 세포, LLC-MK2 세포, 클론(Clone) M-3 세포, RAG 세포, TCMK-1 세포, LLC-PK1 세포, PK-15 세포, GH1 세포, GH3 세포, L2 세포, LLC-RC 256 세포, MH1C1 세포, XC 세포, MDOK 세포, VSW 세포, TH-I 세포, B1 세포); 임의의 조직 또는 기관(예컨대, 피부, 심장; 간; 신장; 결장; 장; 식도; 위; 신경 조직, 예컨대, 뇌 또는 척수; 폐; 혈관 조직; 림프양 조직, 예컨대, 림프샘, 아데노이드, 편도, 골수, 또는 혈액; 비장)으로부터의 임의의 상피 세포, 중간엽 세포(예컨대, 섬유아세포), 신경 세포, 또는 근육 세포; 및 섬유아세포 또는 섬유아세포 유사 세포주(예컨대, TRG-2 세포, IMR-33 세포, Don 세포, GHK-21 세포, 시트룰린혈증 세포, Dempsey 세포, Detroit 551 세포, Detroit 510 세포, Detroit 525 세포, Detroit 529 세포, Detroit 532 세포, Detroit 539 세포, Detroit 548 세포, Detroit 573 세포, HEL 299 세포, IMR-90 세포, MRC-5 세포, WI-38 세포, WI-26 세포, MiCl1 세포, CV-1 세포, COS-1 세포, COS-3 세포, COS-7 세포, Vero 세포, DBS-FrhL-2 세포, BALB/3T3 세포, F9 세포, SV-T2 세포, M-MSV-BALB/3T3 세포, K-BALB 세포, BLO-11 세포, NOR-10 세포, C3H/IOTI/2 세포, HSDM1C3 세포, KLN205 세포, McCoy 세포, 마우스 L 세포, SCC-PSA1, Swiss/3T3 세포, Indian muntjac 세포, SIRC 세포, Jensen 세포)를 포함한다. 포유류 세포주를 배양하고 조작하는 방법은 당해 분야에 공지되어 있다.
특정 구현예에서, 세포는 동물 또는 식물의 임의의 병원균 및/또는 해충일 수 있다. 이러한 병원균/해충의 예는 다양한 유형의 박테리아, 진균, 효모, 원생생물, 선충 및 곤충을 포함한다. 당업자라면 위에 개시된 이러한 병원균/해충의 예를 인식할 것이다.
"센티모건"(cM) 또는 "지도 단위"는 두 개의 연결된 유전자, 마커, 표적 부위, 유전자좌, 또는 이들의 임의의 쌍 간의 거리이고, 감수분열 생성물의 1%는 재조합체이다. 따라서, 센티모건은 두 개의 연결된 유전자, 마커, 표적 부위, 유전자좌, 또는 이들의 임의의 쌍 간의 1% 평균 재조합 빈도와 동일한 거리에 해당한다.
본원에 기술된 가이드 RNA/Cas 시스템은 뉴클레아제의 표적을 벗어난 절단이 표적 세포에 독성을 나타낼 수 있는 환경에서 게놈 조작, 특히 미생물 및 식물 게놈 조작에 특히 유용하다. 본원에 기술된 가이드 RNA/Cas 시스템의 하나의 구현예에서, 발현 최적화 Cas9 유전자는 표적 게놈, 예를 들어, 야로위아의 게놈 내로 안정적으로 통합된다. Cas9 유전자의 발현은 프로모터, 예를 들어 야로위아 프로모터의 제어 하에 있다. 가이드 RNA 또는 crRNA의 부재시, Cas9 단백질은 DNA를 자를 수 없으므로 세포에서 그 존재는 거의 또는 전혀 영향을 미치지 않을 것이다. 따라서, 본원에 기술된 가이드 RNA/Cas 시스템의 주요 장점은 세포 생활성에 거의 또는 전혀 영향을 미치지 않고 Cas9 단백질을 효율적으로 발현시킬 수 있는 세포주 또는 생물을 생성하고 유지하는 능력이다.
가이드 RNA/Cas 시스템 매개 유전자 표적화는 관심 유전자를 도입하기 위해 이중 가닥 절단 유도제를 사용하는 대신, 본원에 개시된 것과 같은 가이드 RNA/Cas 시스템을 사용하는 WO2013/0198888(2013년 8월 1일 공개)에 개시된 것과 유사한 방식으로 이식유전자 삽입을 유도하는 방법 및/또는 여러 이식유전자를 포함하는 복잡한 유전자이식 형질 유전자좌를 생성하는 방법에 사용될 수 있다. 복잡한 유전자이식 형질 유전자좌는 서로 유전적으로 연결된 여러 이식유전자를 갖는 게놈 유전자좌를 포함한다. 서로로부터 0.1, 0.2, 0.3, 0.4, 0.5, 1.0, 2, 또는 심지어 5센티모건(cM) 내에 독립적 이식유전자를 삽입함으로써, 이식유전자들은 단일 유전자좌로서 증식될 수 있다(예를 들어, 미국 특허 출원 13/427,138) 또는 PCT 출원 PCT/US2012/030061 참조.
관심 표현형 또는 형질과 상관관계가 있는 염색체 간격은 동정될 수 있다. 염색체 간격을 동정하기 위해 당해 분야에 잘 알려진 다양한 방법을 이용할 수 있다. 이러한 염색체 간격의 경계는 관심 형질을 제어하는 유전자에 연결될 마커를 포함하도록 정해진다. 다시 말해, 염색체 간격은 그 간격 내에 있는 임의의 마커(간격의 경계를 정의하는 말단 마커를 포함)가 노던 잎마름병 저항성을 위한 마커로서 사용될 수 있도록 정해진다. 하나의 구현예에서, 염색체 간격은 적어도 하나의 QTL을 포함하고, 또한 실제로 하나보다 많은 QTL을 포함할 수 있다. 하나의 마커는 하나보다 많은 QTL에 대한 연관을 나타낼 수 있으므로, 동일한 간격에서 여러 QTL의 가까운 근접성은 특정 마커와 특정 QTL의 상관관계를 모호하게 할 수 있다. 반대로, 예를 들어, 근접한 두 개의 마커가 원하는 표현형 형질과 공동 분리를 보이는 경우, 이들 각각의 마커가 동일한 QTL을 동정하는지 두 개의 다른 QTL을 동정하는지 때로는 불분명하다. 용어 "양적 형질 유전자좌" 또는 "QTL"은 적어도 하나의 유전적 배경, 예를 들어, 적어도 하나의 육종 개체군에서 양적 표현형 형질의 차별적 발현과 관련된 DNA의 영역을 지칭한다. QTL의 영역은 문제의 형질에 영향을 미치는 유전자 또는 유전자들을 포함하거나 이들에 가까이 연관된다. "QTL의 대립 유전자"는 일배체형과 같은 연속된 게놈 영역 또는 연관 그룹 내에 여러 유전자 또는 기타 유전 인자를 포함할 수 있다. QTL의 대립 유전자는 특정 윈도우 내의 일배체형을 나타낼 수 있으며, 상기 윈도우는 하나 이상의 다형성 마커의 세트로 정의되고 추적될 수 있는 연속된 게놈 영역이다. 일배체형은 특정 윈도우 내 각각의 마커에서 대립 유전자의 고유의 지문에 의해 정의될 수 있다.
선별 가능한 마커 표현형을 사용하지 않고 표적 부위 또는 그 근처에서 변경된 게놈을 갖는 세포를 동정하기 위해 다양한 방법을 이용할 수 있다. 이러한 방법은 PCR 방법, 시퀀싱 방법, 뉴클레아제 소화, 서던 블롯, 및 이들의 임의의 조합을 포함하지만 이에 한정되지 않으며, 표적 서열을 직접 분석하여 표적 서열에서 임의의 변화를 검출하는 것으로 볼 수 있다.
단백질은 아미노산 치환, 결실, 절단, 및 삽입을 비롯한 다양한 방식으로 변경될 수 있다. 이러한 조작 방법은 일반적으로 알려져 있다. 예를 들어, 단백질(들)의 아미노산 서열 변이체는 DNA의 돌연변이에 의해 제조될 수 있다. 돌연변이유발 및 뉴클레오티드 서열 변경 방법은, 예를 들어 Kunkel, (1985) Proc. Natl. Acad. Sci. USA 82:488-92; Kunkel et al., (1987) Meth Enzymol 154:367-82; 미국 특허 4,873,192호; Walker and Gaastra, eds. (1983) Techniques in Molecular Biology (MacMillan Publishing Company, New York) 및 여기에 인용된 참고문헌을 포함한다. 단백질의 생물학적 활성에 영향을 미치지 않을 것 같은 아미노산 치환에 관한 지침은, 예를 들어, Dayhoff et al., (1978) Atlas of Protein Sequence and Structure (Natl Biomed Res Found, Washington, D.C.)의 모델에서 발견된다. 하나의 아미노산을 유사한 성질을 갖는 다른 아미노산과 교환하는 것과 같은 보존적 치환이 바람직할 수 있다. 보존적 결실, 삽입 및 아미노산 치환은 단백질의 특성에 근본적인 변화를 일으킬 것으로 예상되지 않으며, 임의의 치환, 결실, 삽입, 또는 이들의 조합의 효과는 통상적인 선별 분석법에 의해 평가될 수 있다. 이중 가닥 절단 유도 활성에 대한 분석법은 알려져 있고, 일반적으로 표적 부위를 포함하는 DNA 기질 상에서 작용제의 전체 활성 및 특이성을 측정한다.
예를 들어, 형질전환, 유성 교배, 및 세포내 폴리펩티드, DNA, 또는 mRNA의 도입을 비롯하여, 뉴클레오티드 서열 및 폴리펩티드를 생물에 도입하기 위한 다양한 방법이 알려져 있다.
조성물을 다양한 생물에 접촉, 제공 및/또는 도입하는 방법은 공지되어 있고, 안정적 형질전환 방법, 일시적 형질전환 방법, 바이러스 매개 방법, 및 유성 육종을 포함하나, 이에 한정되는 것은 아니다. 안정적 형질전환은 도입된 폴리뉴클레오티드가 생물의 게놈에 통합되고 그의 자손에 의해 유전될 수 있음을 나타낸다. 일시적 형질전환은 도입된 조성물이 생물에서 단지 일시적으로 발현되거나 존재함을 나타낸다.
폴리뉴클레오티드 및 폴리펩티드를 식물에 도입하기 위한 프로토콜은 형질전환을 위해 표적화된 식물 또는 식물 세포의 유형, 예컨대 외떡잎 식물 또는 쌍떡잎 식물에 따라 달라질 수 있다. 폴리뉴클레오티드 및 폴리펩티드를 식물 세포에 도입하고 이어서 식물 게놈 내에 삽입하는 데 적합한 방법은 미세주입(Crossway et al., (1986) Biotechniques 4:320-34 및 미국 특허 6,300,543호), 분열조직 형질전환(미국 특허 5,736,369호), 전기천공(Riggs et al., (1986) Proc. Natl. Acad. Sci. USA 83:5602-6, 아그로박테리움 매개 형질전환(미국 특허 5,563,055호 및 5,981,840호), 직접적 유전자 전달(Paszkowski et al., (1984) EMBO J 3:2717-22), 및 탄도 입자 가속화(미국 특허 4,945,050호; 5,879,918호; 5,886,244호; 5,932,782호; Tomes et al., (1995) "Direct DNA Transfer into Intact Plant Cells via Microprojectile Bombardment" in Plant Cell, Tissue, and Organ Culture: Fundamental Methods, ed. Gamborg & Phillips (Springer-Verlag, Berlin); McCabe et al., (1988) Biotechnology 6:923-6; Weissinger et al., (1988) Ann Rev Genet 22:421-77; Sanford et al., (1987) Particulate Science and Technology 5:27-37(양파); Christou et al., (1988) Plant Physiol 87:671-4(대두); Finer and McMullen, (1991) In Vitro Cell Dev Biol 27P:175-82(대두); Singh et al., (1998) Theor Appl Genet 96:319-24(대두); Datta et al., (1990) Biotechnology 8:736-40(벼); Klein et al., (1988) Proc. Natl. Acad. Sci. USA 85:4305-9(옥수수); Klein et al., (1988) Biotechnology 6:559-63(옥수수); 미국 특허 5,240,855호; 5,322,783호 및 5,324,646호; Klein et al., (1988) Plant Physiol 91:440-4(옥수수); Fromm et al., (1990) Biotechnology 8:833-9(옥수수); Hooykaas-Van Slogteren et al., (1984) Nature 311:763-4; 미국 특허 5,736,369호(곡물); Bytebier et al., (1987) Proc. Natl. Acad. Sci. USA 84:5345-9(릴리아세아(Liliaceae)); De Wet et al., (1985) in The Experimental Manipulation of Ovule Tissues, ed. Chapman et al., (Longman, New York), pp. 197-209(꽃가루); Kaeppler et al., (1990) Plant Cell Rep 9:415-8) 및 Kaeppler et al., (1992) Theor Appl Genet 84:560-6(휘스커(whisker) 매개 형질전환); D'Halluin et al., (1992) Plant Cell 4:1495-505(전기천공); Li et al., (1993) Plant Cell Rep 12:250-5; Christou and Ford (1995) Annals Botany 75:407-13(벼) 및 Osjoda et al., (1996) Nat Biotechnol 14:745-50(아그로박테리움 투메파시엔스 매개 옥수수)을 포함한다.
대안적으로, 폴리뉴클레오티드는 식물을 바이러스 또는 바이러스성 핵산과 접촉시켜 식물에 도입될 수 있다. 일반적으로, 이러한 방법은 바이러스성 DNA 또는 RNA 분자 내에 폴리뉴클레오티드를 혼입시키는 것을 포함한다. 일부 예에서, 관심 폴리펩티드는 처음에 바이러스 폴리단백질의 일부로서 합성될 수 있고, 후에 생체내 또는 시험관내에서 단백분해에 의해 처리되어 원하는 재조합 단백질을 생성한다. 바이러스성 DNA 또는 RNA 분자를 포함하는 폴리뉴클레오티드를 식물에 도입하고 거기에서 암호화된 단백질을 발현시키는 방법은 공지되어 있으며, 예를 들어, 미국 특허 5,889,191호, 5,889,190호, 5,866,785호, 5,589,367호 및 5,316,931호를 참조한다. 일시적 형질전환 방법은 이중 가닥 절단 유도제와 같은 폴리펩티드를 생물에 직접 도입하는 것, 생물에 DNA 및/또는 RNA 폴리뉴클레오티드와 같은 폴리뉴클레오티드를 도입하는 것, 및 이중 가닥 절단 유도제를 암호화하는 mRNA와 같은 RNA 전사물을 도입하는 것을 포함하나, 이에 한정되는 것은 아니다. 이러한 방법은, 예를 들어, 미세주입 또는 유전자총을 포함한다. 예를 들어, Crossway et al., (1986) Mol Gen Genet 202:179-85; Nomura et al., (1986) Plant Sci 44:53-8; Hepler et al., (1994) Proc. Natl. Acad. Sci. USA 91:2176-80; 및, Hush et al., (1994) J Cell Sci 107:775-84를 참조한다.
용어 "쌍떡잎 식물"(dicot)은 "디코틸레도네아(dicotyledoneae)"로도 알려진 속씨 식물의 하위강을 지칭하며, 전체 식물, 식물 기관(예컨대, 잎, 줄기, 뿌리 등), 종자, 식물 세포, 및 그 자손에 대한 언급을 포함한다. 식물 세포는, 본원에 사용된 바와 같이, 종자, 현탁 배양물, 배아, 분열부, 캘러스 조직, 잎, 뿌리, 어린 싹, 배우체, 포자체, 꽃가루 및 미포자를 포함하지만 이에 한정되는 것은 아니다.
본 명세서의 맥락에서 용어 "교배"(crossed, cross, 또는 crossing)는 자손(즉, 세포, 종자, 또는 식물)을 생성하기 위한 수분을 통한 생식세포의 융합을 의미한다. 이 용어는 유성 교배(다른 식물에 의한 식물의 수분) 및 자가생식(자기 수분, 즉, 꽃가루 및 밑씨(또는 소포자 및 대포자)가 동일 식물 또는 유전적으로 동일한 식물로부터 유래된 경우)을 모두 포함한다.
용어 "이입"(introgression)은 유전자좌의 원하는 대립 유전자가 하나의 유전적 배경으로부터 다른 유전적 배경으로 전달되는 것을 지칭한다. 예를 들어, 특정 유전자좌에서의 원하는 대립 유전자의 이입은, 적어도 하나의 모체 식물이 그 게놈 내에 원하는 대립 유전자를 갖는 두 모체 식물 간의 유성 교배를 통해 적어도 하나의 자손 식물에 전달될 수 있다. 대안적으로, 예를 들어, 대립 유전자의 전달은, 예를 들어, 적어도 하나의 공여 원형질체가 그 게놈 내에 원하는 대립 유전자를 갖는 융합된 원형질체에서, 두 공여 게놈 간의 재조합에 의해 일어날 수 있다. 원하는 대립 유전자는, 예를 들어, 이식유전자, 변형된(돌연변이되거나 편집된) 고유의 대립 유전자, 또는 마커 또는 QTL의 선택된 대립 유전자일 수 있다.
표준 DNA 단리, 정제, 분자 클로닝, 벡터 작제, 및 검증/특성규명 방법은 잘 확립되어 있으며, 예를 들어 Sambrook et al., (1989) Molecular Cloning: A Laboratory Manual, (Cold Spring Harbor Laboratory Press, NY)를 참조한다. 벡터 및 작제물은 관심 폴리뉴클레오티드와 선택적으로 링커, 어댑터, 조절 또는 분석을 비롯한 다른 성분을 포함하는 선형 폴리뉴클레오티드 및 원형 플라스미드를 포함한다. 일부 예에서, 인식 부위 및/또는 표적 부위는 인트론, 코딩 서열, 5' UTR, 3' UTR, 및/또는 조절 영역 내에 포함될 수 있다.
외떡잎 식물 및 쌍떡잎 식물을 비롯한 임의의 식물이 사용될 수 있다. 사용될 수 있는 외떡잎 식물의 예는 옥수수(제아 메이스(Zea mays)), 벼(오리자 사티바(Oryza sativa)), 호밀(세칼레 세레알레(Secale cereale)), 수수(소르검 비칼라(Sorghum bicolor), 소르검 불가레(Sorghum vulgare)), 밀렛(예컨대, 펄 밀렛(페니세툼 글라쿰(Pennisetum glaucum)), 프로소 밀렛(파니쿰 밀리아세움(Panicum miliaceum)), 조(세타리아 이탈리카(Setaria italica)), 손가락조(엘류신 코라카나(Eleusine coracana)), 밀(트리티쿰 아에스티붐(Triticum aestivum)), 사탕수수(사카룸(Saccharum) 종), 귀리(아베나(Avena)), 보리(호르데움(Hordeum)), 스위치그래스(파니쿰 비르가툼(Panicum virgatum)), 파인애플(아나나스 코모수스(Ananas comosus)), 바나나(무사(Musa) 종), 야자, 관상용 식물, 잔디, 및 기타 풀을 포함하나, 이에 한정되는 것은 아니다. 사용될 수 있는 쌍떡잎 식물의 예는 대두(글리신 맥스(Glycine max)), 카놀라(브라시카 나푸스(Brassica napus) 및 B. 캠페스트리스(campestris)), 알팔파(메디카고 사티바(Medicago sativa)), 담배(니코티아나 타바쿰(Nicotiana tabacum)), 아라비돕시스(아라비돕시스 탈리아나(Arabidopsis thaliana)), 해바라기(헬리안투스 안누스(Helianthus annuus)), 목화(고시피움 아르보레움(Gossypium arboreum)), 땅콩(아라키스 하이포개아(Arachis hypogaea)), 토마토(솔라눔 리코페르시쿰(Solanum lycopersicum)) 및 감자(솔라눔 투베로숨(Solanum tuberosum)) 등을 포함하나, 이에 한정되는 것은 아니다.
약어의 의미는 다음과 같다: "sec"는 초, "min"은 분, "h"는 시간, "d"는 일, "㎕"는 마이크로리터, "mL"은 밀리리터, "L"은 리터, "μM"은 마이크로몰 농도, "mM"은 밀리몰 농도, "M"은 몰 농도, "mmol"은 밀리몰, "㎛ole"은 마이크로몰, "g"는 그램, "㎍"는 마이크로그램, "ng"는 나노그램, "U"는 단위, "bp"는 염기쌍, "kb"는 킬로염기를 의미한다.
본원에 개시된 조성물 및 방법의 비제한적인 예는 다음과 같다:
1. 그 게놈에 변형 뉴클레오티드 서열을 포함하는 세포를 선택하는 방법으로서, a) 세포에 가이드 폴리뉴클레오티드, 적어도 하나의 보호 폴리뉴클레오티드 변형 주형 및 Cas 엔도뉴클레아제를 제공하는 단계로서, 상기 Cas 엔도뉴클레아제 및 가이드 폴리뉴클레오티드는 상기 세포의 게놈 내 표적 부위에서 단일 또는 이중 가닥 절단을 도입할 수 있는 복합체를 형성할 수 있고, 상기 보호 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는 단계; 및 b) 상기 변형 뉴클레오티드 서열을 포함하는 단계 (a)로부터의 세포를 선택하는 단계를 포함하는 방법.
2. 구현예 1에 있어서, 보호 폴리뉴클레오티드 변형 주형이 그 5'-말단, 3'-말단, 또는 5' 및 3'-말단 둘 다에 적어도 하나의 보호 분자를 포함하는 선형 폴리뉴클레오티드인 방법.
3. 구현예 2에 있어서, 보호 분자가 알칸 스페이서, 형광단, NHS 에스테르, 디곡시젠, 콜레스테릴-TEG, C6, C12, 헥시닐, 옥스타디이닐 dUTP, 바이오틴, 디티올, 역위 디데옥시-T 변형 또는 이의 임의의 한 조합으로 이루어진 군으로부터 선택되는 방법.
4. 구현예 1에 있어서, 보호 폴리뉴클레오티드 변형 주형이 원형 폴리뉴클레오티드인 방법.
5. 구현예 1에 있어서, 상기 보호 폴리뉴클레오티드 변형 주형이 적어도 한 가닥의 5'-말단에 적어도 하나의 포스포로티오에이트 결합을 포함하는 단일 가닥 또는 이중 가닥 선형 분자인 방법.
6. 구현예 1에 있어서, 상기 보호 폴리뉴클레오티드 변형 주형이 각 가닥의 5'-말단에 3탄소 알칼리성 스페이서를 포함하는 단일 가닥 또는 이중 가닥 선형 분자인 방법.
7. 구현예 1 내지 6 중 어느 하나에 있어서, 보호 폴리뉴클레오티드 주형의 적어도 하나의 뉴클레오티드 변형이 (i) 적어도 하나의 뉴클레오티드의 치환, (ii) 적어도 하나의 뉴클레오티드의 결실, (iii) 적어도 하나의 뉴클레오티드의 삽입, 및 (iv) (i) 내지 (iii)의 임의의 조합으로 이루어진 군으로부터 선택되는 방법.
8. 구현예 1에 있어서, 상기 세포에서 상동 유도 복구(HDR) 및 비-상동 말단 연결(NHEJ)의 빈도를 결정하는 단계를 추가로 포함하는 방법.
9. 구현예 8에 있어서, HDR의 빈도가 비보호(대조군) 폴리뉴클레오티드 변형 주형을 사용한 것을 제외하고 구현예 1의 방법과 모두 동일한 성분 및 단계를 갖는 대조 방법에서 유도되는 HDR 빈도에 비해 적어도 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11%, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 21%, 22%, 23%, 24%, 25%, 26%, 27%, 28%, 29%, 30%, 31%, 32%, 33%, 34%, 35%, 36%, 37%, 38%, 39%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%, 100%, 200%, 또는 250%만큼 증가되는 방법.
10. 구현예 8에 있어서, NHEJ의 빈도가 비보호(대조군) 폴리뉴클레오티드 변형 주형을 사용한 것을 제외하고 구현예 1의 방법과 모두 동일한 성분 및 단계를 갖는 대조 방법에서 유도되는 NHEJ 빈도에 비해 적어도 1%, 2%, 3%, 4%, 5%, 6%, 7%, 8%, 9%, 10%, 11%, 12%, 13%, 14%, 15%, 16%, 17%, 18%, 19%, 20%, 21%, 22%, 23%, 24%, 25%, 26%, 27%, 28%, 29%, 30%, 31%, 32%, 33%, 34%, 35%, 36%, 37%, 38%, 39%, 40%, 45%, 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95%만큼 감소되는 방법.
11. 구현예 1에 있어서, 상기 세포에서 보호 폴리뉴클레오티드 변형 주형의 부위를 벗어난 통합 빈도를 추가로 결정하는 방법.
12. 구현예 11에 있어서, 상기 세포에서 보호 폴리뉴클레오티드 변형 주형의 부위를 벗어난 통합 빈도가 비보호(대조군) 폴리뉴클레오티드 변형 주형을 사용한 것을 제외하고 구현예 1의 방법과 모두 동일한 성분 및 단계를 갖는 대조 방법에서 유도되는 부위를 벗어난 통합 빈도에 비해 감소되는 방법.
13. 그 게놈의 표적 부위에 삽입된 관심 폴리뉴클레오티드를 포함하는 세포를 선택하는 방법으로서, a) 세포에 가이드 폴리뉴클레오티드, 적어도 하나의 보호 폴리뉴클레오티드 공여 DNA 및 Cas 엔도뉴클레아제를 제공하는 단계로서, 상기 Cas 엔도뉴클레아제 및 가이드 폴리뉴클레오티드는 상기 세포의 게놈 내 표적 부위에서 단일 또는 이중 가닥 절단을 도입할 수 있는 복합체를 형성할 수 있고, 상기 보호 폴리뉴클레오티드 공여 DNA는 상기 세포의 게놈 내로 삽입될 관심 폴리뉴클레오티드를 포함하는 단계; 및 b) 그 게놈의 표적 부위에 삽입된 관심 폴리뉴클레오티드를 포함하는 단계 (a)로부터의 세포를 선택하는 단계를 포함하는 방법.
14. 그 게놈의 표적 부위에 삽입된 관심 폴리뉴클레오티드를 포함하는 미생물 세포를 선택하는 방법으로서, a) 세포에 가이드 폴리뉴클레오티드, 적어도 하나의 보호 폴리뉴클레오티드 공여 DNA 및 Cas 엔도뉴클레아제를 제공하는 단계로서, 상기 Cas 엔도뉴클레아제 및 가이드 폴리뉴클레오티드는 상기 세포의 게놈 내 표적 부위에서 단일 또는 이중 가닥 절단을 도입할 수 있는 복합체를 형성할 수 있고, 상기 보호 폴리뉴클레오티드 공여 DNA는 상기 세포의 게놈 내로 삽입될 관심 폴리뉴클레오티드를 포함하는 단계; 및 b) 그 게놈의 표적 부위에 삽입된 관심 폴리뉴클레오티드를 포함하는 단계 (a)로부터의 미생물 세포를 선택하는 단계를 포함하는 방법.
15. 구현예 1 및 13에 있어서, 세포가 인간, 비인간, 동물, 박테리아, 고세균, 진균, 곤충, 효모, 비 통상적인 효모, 식물 및 미생물 세포로 이루어지는 군으로부터 선택되는 방법.
16. 구현예 15에 있어서, 미생물 세포가 효모 세포 또는 비 통상적인 효모로부터의 세포인 방법.
17. 구현예 16에 있어서, 상기 효모가 야로위아, 피키아, 쉬반니오마이세스, 클루이베로마이세스, 아르술라, 트리코스포론, 칸디다, 유스틸라고, 토룰롭시스, 자이고사카로마이세스, 트리고놉시스, 크립토코커스, 로도토룰라, 파피아, 스포로볼로마이세스, 및 파키솔렌으로 이루어지는 군으로부터 선택된 속의 구성원인 비 통상적인 효모.
18. 구현예 13에 있어서, (b)의 세포로부터 식물을 생성하는 단계를 추가로 포함하는 방법.
실시예
다음 실시예들에서, 달리 언급되지 않는 한, 부(parts) 및 백분율은 중량 기준이고 도(degree)는 섭씨이다. 이 실시예들은 본 발명의 구현예들을 나타내지만, 예시로서만 제공되는 것임을 이해해야 한다. 상기 논의 및 이들 실시예로부터, 당업자는 다양한 용도 및 조건에 맞도록 본 발명을 다양하게 변화 및 변형시킬 수 있다. 이러한 변형도 첨부된 청구범위의 범위 내에 속하는 것으로 의도된다.
실시예 1
Can1을 표적화하는 Cas9 HDV-gRNA 발현 플라스미드.
본 실시예는 델타 간염 바이러스(HDV) 리보자임이 5' 말단에 플랭킹한 단일 가이드 RNA(sgRNA)의 용도에 대해 논의한다. HDV 리보자임은 그 자신 서열의 5'을 절단하여 임의의 앞 RNA 서열을 제거하지만, gRNA의 5' 말단에 융합된 HDV 서열은 남긴다.
야로위아에서 sgRNA/Cas 엔도뉴클레아제 시스템을 평가하기 위해, 스트렙토코커스 피오제네스 M1 GAS로부터의 Cas9 유전자(SF370(SEQ ID NO: 1)를 당해 분야에 공지된 표준 기법에 따라 야로위아 코돈 최적화하였다(SEQ ID NO: 2). Cas9 단백질을 세포의 핵으로 국재화하기 위해, 시미안 바이러스 40(SV40) 1부분(PKKKRKV, SEQ ID NO: 3) 핵 국재화 신호를 Cas9 단백질의 카복시 말단에 혼입하였다. 야로위아 코돈 최적화 Cas9 유전자를 표준 분자 생물학 기술에 의해 야로위아 항시성 프로모터, FBA1(SEQ ID NO: 4)에 융합하였다. FBA1 프로모터 및 야로위아 최적화 Cas9-NLS 융합을 포함하는 야로위아 코돈 최적화 Cas9 발현 카세트의 하나의 예를 SEQ ID NO: 5에 나타낸다. Cas9 발현 카세트를 플라스미드 pZuf 내에 클로닝하여 pZufCas9(SEQ ID NO 6)를 생성하였다.
pZuf-Cas9CS(SEQ ID NO: 6)에 존재하는 야로위아 코돈 최적화 Cas9 유전자(SEQ ID NO: 2)에 존재하는 내인성 AarI 부위를 제거하기 위해 Agilent QuickChange 및 다음 프라이머: AarI-제거-1(AGAAGTATCCTACCATCTACcatctccGAAAGAAACTCGTCGATTCC, SEQ ID NO: 7) 및 AarI-제거-2(GGAATCGACGAGTTTCTTTCggagatgGTAGATGGTAGGATACTTCT, SEQ ID NO: 8)를 사용하여 플라스미드 pZuf-Cas9CS(SEQ ID NO: 6)를 돌연변이화하여 pRF109(SEQ ID NO: 9)를 생성하였다. 변형 Aar1-Cas9CS 유전자(SEQ ID NO: 10)를 pRF109(SEQ ID NO: 9)로부터의 NcoI/NotI 단편으로서 pZufCas9CS(SEQU ID NO: 6)의 NcoI/NotI 부위 내로 클로닝하여 기존 Cas9 유전자(SEQ ID NO: 2)를 Aar1-Cas9 유전자(SEQ ID NO: 10)로 치환하고 pRF141(SEQ ID NO: 11)을 생성하였다.
고처리량 가변 표적화 도메인(VT) 클로닝 카세트(도 1, SEQ ID NO: 12)는 yl52 프로모터(SEQ ID NO: 13), HDV 리보자임을 암호화하는 DNA 서열(SEQ ID NO: 14), 대장균 역 선택 카세트 rpsL(SEQ ID NO: 15), Cas9 CER 도메인을 암호화하는 DNA(SEQ ID NO: 16) 및 S. 세레비시아 SUP4 종결자(SEQ ID NO: 17)로 구성된다. 고처리량 클로닝 카세트(SEQ ID NO: 12)의 말단에는 PacI 및 ClaI 제한 효소 인식 부위가 플랭킹한다. 고처리량 클로닝 카세트(SEQ ID NO: 12)를 pRF141(SEQ ID NO: 11)의 PacI/ClaI 부위 내로 클로닝하여 pRF291(SEQ ID NO 14)을 생성하였다. rpsL 역 선택 카세트(SEQ ID NO: 15)는 그 고유 프로모터 및 종결자와 함께 대장균 rpsL 유전자의 WT 사본을 포함한다. rpsL은 S12 리보솜 단백질 서브유닛을 암호화한다(Escherichia coli and Salmonella typhimurium: Cellular and Molecular Biology, 1987 American Society of Microbiology). S12 서브유닛에서의 일부 돌연변이는 rpsL 유전자의 야생형 사본이 존재하는 경우 균주 표현형이 스트렙토마이신에 민감하도록(Lederberg, J. (1951). "Streptomycin resistance; a genetically recessive mutation." J Bacteriol 61(5): 549-550.) 열성 방식으로(Lederberg, J. (1951). "Streptomycin resistance; a genetically recessive mutation." J Bacteriol 61(5): 549-550.) 항생제 스트렙토마이신에 대한 저항성을 유도한다(Ozaki, M., et al. (1969). "Identification and functional characterization of the protein controlled by the streptomycin-resistant locus in E. coli." Nature 222(5191): 333-339). 일반 클로닝 균주, 예컨대 Top10(Life technologies)은 세포가 스트렙토마이신에 저항성이도록 이의 염색체 상에 rpsL의 돌연변이된 사본을 갖는다.
가변 표적화 도메인의 pRF291 내로의 클로닝은 어닐링되는 경우, 이들이 원하는 가변 표적화 도메인뿐만 아니라 고처리량 클로닝 카세트에 존재하는 2개의 AarI 부위 내로의 클로닝을 위한 정확한 돌출부를 포함하는 2개의 부분 상보적인 올리고뉴클레오티드를 필요로 한다. 야로위아 리폴리티카의 CAN1 유전자(SEQ ID NO: 23)에서 Can1-1 표적 부위(SEQ ID NO: 22)를 표적화하는 가변 표적화 도메인 Can1-1을 암호화하는 DNA(SEQ ID NO: 21)를 포함하는 두 올리고뉴클레오티드, Can1-1F(AATGGGACtcaaacgattacccaccctcGTTT, SEQ ID NO: 19) 및 Can1-1R(TCTAAAACgagggtgggtaatcgtttgaGTCC, SEQ ID NO: 20)을 듀플렉스 완충액(30 mM HEPES pH 7.5, 100 mM 나트륨 아세테이트) 중 100 μM로 재현탁하였다. Can1-1F(SEQ ID NO: 19) 및 Can1-1R(SEQ ID NO: 20)을 단일 튜브에서 각각 50 μM의 최종 농도로 혼합하고, 5분 동안 95℃로 가열하고 0.1℃/분으로 25℃까지 냉각하여 두 올리고뉴클레오티드를 어닐링하여 소형 듀플렉스 DNA 분자(도 2)를 형성하였다. 20 ㎕ 최종 부피에 50 ng의 pRF291, Can1-1F(SEQ ID NO: 19) 및 Can1-1R(SEQ ID NO: 20)로 구성되는 2.5 μM의 소형 듀플렉스 DNA, 1x T4 리가아제 완충액(50 mM Tris-HCl, 10 mM MgCl2, 1 mM ATP, 10 mM DTT pH 7.5), 0.5 μM AarI 올리고뉴클레오티드, 2단위 AarI, 40단위 T4 DNA 리가아제를 포함하는 단일 튜브 소화/결찰 반응물을 생성하였다. 듀플렉스화 Can1-1F 및 Can1-1R 듀플렉스가 없는 제2 대조군 반응물도 어셈블리하였다. 반응물을 30분 동안 37℃에서 인큐베이션하였다. 10 ㎕의 각 반응물을 이전에 기술된 바와 같이(Green, M. R. & Sambrook, J. Molecular Cloning: A Laboratory Manual. Fourth Edition edn, (Cold Spring Harbor Laboratory Press, 2012)) Top10 대장균 세포내로 형질전환하였다. Can1-1F(SEQ ID NO: 19) 및 Can1-1R(SEQ ID NO: 20) 듀플렉스가 AarI 제한 부위가 플랭킹한 rpsL 역 선택 마커를 치환한 pRF291의 존재를 선택하기 위해(도 1), 세포를 100 ㎍/ml 암피실린 및 50 ㎍/ml 스트렙토마이신을 포함하는 1.5%(w/v) Bacto 한천으로 고화된 용원 액체배지 상에 접종하였다. 고처리량 클로닝 카세트를 포함하는 pRF291의 존재는 표현형이 항생제 암피실린에 대해 저항성이지만 플라스미드 상의 역 선택 카세트의 존재로 인해 항생제 스트렙토마이신에 민감한 콜로니를 산출하였다. 그러나 AarI 효소를 통해 역 선택 카세트가 제거되고 듀플렉스 DNA를 포함하는 Can1-1 가변 표적화 도메인이 그 부위 내에 결찰된 경우(AarI에 대한 인식 서열을 제거함), 플라스미드로 형질전환된 세포는 암피실린 저항성, 스트렙토마이신 저항성 표현형을 가졌다(도 1). 역 선택 카세트를 치환하는 Can1-1 가변 표적화 도메인을 포함하는 pRF291은 SUP4 종결자(SEQ ID NO: 17)에 융합된, CER 도메인을 암호화하는 DNA(SEQ ID NO: 16)에 융합된, Can1-1 가변 표적화 도메인을 암호화하는 DNA(SEQ ID NO: 21)에 융합된, HDV 리보자임을 암호화하는 DNA(SEQ ID NO: 14)에 융합된, yl52 프로모터(SEQ ID NO: 13)를 포함하는 재조합 Can1-1 gRNA 발현 카세트(SEQ ID NO: 19)를 산출하였다. 상기 작제물을 포함하는 플라스미드, pRF303(SEQ ID NO: 24)을 사용하여 야로위아 리폴리티카의 CAN1 유전자(SEQ ID NO: 23)를 Cas9로 표적화하였다.
실시예 2
보호 폴리뉴클레오티드 변형 주형의 생성.
Cas9/gRNA 생성 DNA 이중 가닥 절단(DSB)의 복구 동안, 이중 가닥 DNA 절단(DSB)의 복구를 위한 비-상동 말단 연결 경로를 사용하는 데 대한 대부분의 진핵 세포 유형의 선호는 일반적으로 큰 백그라운드 NHEJ 유래 돌연변이(삽입-결실)를 산출하며, 소수의 콜로니만 절단을 복구하기 위해 상동-유도 재조합(HDR) 단백질을 사용한다. 이는 DSB에서 주형화된 변화를 일으키기 위해 주형을 사용하고 편집하는 전형적인 유전자 편집 실험에서, Cas9/gRNA 생성 DSB가 HDR을 사용해서 복구된 사건을 찾기 위해 여러 사건을 선별해야 함을 의미한다. 보호 폴리뉴클레오티드 편집 주형의 사용은 Cas9/gRNA 생성 DSB의 HDR 복구 빈도를 증가시키는 방법을 제공하여 원하는 편집을 포함하는 사건을 찾기 위해 선별해야 하는 사건의 수를 감소시킨다. 본 실시예는 "보호 폴리뉴클레오티드 변형 주형"으로 지칭되는, 분해되기 더 어렵게 만드는 변형 말단을 갖는 3가지 상이한 유형의 폴리뉴클레오티드 변형 주형 분자의 생성을 기술한다. 이러한 보호 폴리뉴클레오티드 변형 주형은 잠재적으로 세포내 엑소뉴클레아제 활성으로부터 주형을 보호하여 주형 안정성을 변경하고/하거나 비-상동 말단-연결(NHEJ)을 위한 기질로 작용하는 주형의 능력을 변경할 수 있다. 원하는 유전자 편집 사건이 두 상이한 상동성 암 사이 영역의 결실인 경우(도 3a) 편집 주형은 개재 서열 없이 연결된 2개의 상동성 암을 포함할 것이다(도 3b). 3가지 유형의 보호 폴리뉴클레오티드 변형 주형은 1) 이용 가능한 이중 가닥 말단을 갖지 않는 원형 DNA 주형(도 3d) 각 가닥의 5' 말단에서 3탄소 알칸 스페이서로 변형된 선형 이중 가닥 DNA 주형(도 3c), 및 3) 각 가닥에서 5개의 가장 5' 포스포디에스테르 결합이 포스포로티오에이트 결합으로 치환된 선형 이중 가닥 DNA 주형(도 3c)이다.
비보호(비변형) 폴리뉴클레오티드 변형 주형을 2개의 PCR 생성물을 제조하여 생성하였고, 하나는 표준 기법을 사용하여 야로위아 리폴리티카 ATCC20362 게놈 DNA로부터 증폭된 CAN1 오픈 리딩 프레임의 2 bp 5'으로 말단 형성되는 620 bp(SEQ ID NO: 25)이다(사용한 프라이머, GGGAAGCTTGCTACGTTAGGAGAAGACGC(전방, SEQ ID NO: 26) 및 GGAGAGAGCGTCGGGAGTGGTCGGATGGATGGAGACG(후방, SEQ ID NO:27)). 후방 프라이머는 CAN1 오픈 리딩 프레임의 3' 37 bp 서열에 상보적인 17개 뉴클레오티드를 부가하며, 전방 프라이머는 5’ HinDIII 인식 부위를 부가한다. 제2 PCR 생성물은 CAN1 오픈 리딩 프레임의 3' 37개 염기쌍에서 시작하는 637 bp로 이루어진다(SEQ ID NO: 28). 상기 PCR 생성물은 야로위아 리폴리티카 ATCC20362 게놈 DNA로부터 표준 기법을 사용하여 증폭하였다(사용한 프라이머, CGTCTCCATCCATCCGACCACTCCCGACGCTCTCTCC(전방, SEQ ID NO: 29) 및 CCATACATCCTTCCACCACTGC(후방, SEQ ID NO: 30)). 전방 프라이머는 CAN1 오픈 리딩 프레임의 5' 2 bp로 말단 형성되는 영역에 상보적인 20개 뉴클레오티드를 부가한다. 상류(SEQ ID NO: 25) 및 하류 PCR 생성물(SEQ ID NO:28)은 모두 Zymo clean and concentrate 컬럼을 사용하여 정제하였다. 10 ng의 각각의 PCR 생성물을 새로운 PCR 반응물과 혼합하였다. 상류 생성물의 3’ 37개 뉴클레오티드는 하류 생성물의 5’ 37개 뉴클레오티드와 동일하다. 상류 및 하류 단편을 서로 프라이밍하기 위해 사용하여 상류 및 하류 서열 둘 다를 포함하는 중복 말단으로부터의 합성에 의해 비보호 폴리뉴클레오티드 변형 주형(SEQ ID NO: 31)을 나타내는 단일 생성물을 생성하였다(Horton et al (2013) Biotechniques 54(3):129-133)(도 3b). 비보호(대조군) 폴리뉴클레오티드 변형 주형 전체를 HinDIII로 소화하고 표준 기법을 사용해서 pUC18(SEQ ID NO: 32)의 HinDIII 부위 내로 클로닝하여 플라스미드 pRF80(SEQ ID NO: 33)을 생성하였다. 플라스미드 pRF80은 상동 유도 복구(HDR)를 위한 주형으로 사용되는 경우 전체 CAN1 오픈 리딩 프레임의 결실을 일으킬 1210 bp DNA 단편(SEQ ID NO: 34)을 포함하는 이중 가닥 원형 보호 폴리뉴클레오티드 변형 주형을 나타낸다(도 3d).
선형 보호 폴리뉴클레오티드 변형 주형을 pRF80(SEQ ID NO: 33) 상의 클로닝된 주형으로부터 생성하였다. pRF80에 포함된 주형을 표준 기법 및 화학적으로 합성된 변형 올리고뉴클레오티드를 프라이머로 사용하여(IDT) PCR 증폭하였다. 알칸 스페이서로 변형된 5' 말단을 갖는 선형 보호 폴리뉴클레오티드 변형 주형을 생성하기 위해, pRF80으로부터의 주형을 증폭하여(사용한 프라이머: /5SpC3/AGCTTGCTACGTTAGGAGAA, 전방(SEQ ID NO: 35) 및 /5SpC3/TATGAGCTTATCCTGTATCG, 후방(SEQ ID NO:36)) 각 가닥의 5' 말단에 5' 알칸 스페이서를 갖는 CAN1 ORF 결실 주형을 포함하는 1215 bp PCR(SEQ ID NO: 34)을 생성하였다. PCR 주형으로 pRF80(SEQ ID NO: 33)을 사용하여 본질적으로 동일한 방식으로 제2 선형 보호 폴리뉴클레오티드 변형 주형을 생성하였다. 5개의 가장 5' 포스포디에스테르 결합이 포스포로티오에이트 결합(*)으로 치환된 선형 주형을 화학적으로 합성된 프라이머(ID)로 증폭하였다(사용한 프라이머; A*G*C*T*T*GCTACGTTAGGAGAA, 전방(SEQ ID NO: 37) 및 T*A*T*G*A*GCTTATCCTGTATCG, 후방(SEQ ID NO: 38)). 얻어진 생성물은 각 가닥의 가장 5' 말단에 5개의 포스포로티오에이트 결합을 포함하는 1215 bp CAN1 결실 보호 폴리뉴클레오티드 변형 주형(SEQ ID NO: 31)이다. 비변형(비보호, 대조군) 주형을 pRF80으로부터 변형을 포함하지 않는 화학적으로 합성된 올리고뉴클레오티드 프라이머 및 표준 기법을 사용하여 증폭하여(사용한 프라이머, AGCTTGCTACGTTAGGAGAA, 전방(SEQ ID NO: 40) 및 TATGAGCTTATCCTGTATCG, 후방(SEQ ID NO: 41)) 비보호 1215 bp 선형 CAN1 결실 폴리뉴클레오티드 변형 주형(편집 주형)(SEQ ID NO: 31)을 산출하였다. 선형 주형의 PCR 반응물을 Zymo clean and concentrate 25 컬럼을 사용하여 정제하고 25 ㎕의 10 mM Tris 1 mM EDTA pH 8.0 중 용출하였다.
실시예 3
Cas9/gRNA 표적화와 조합되는 보호 폴리뉴클레오티드 변형 주형을 사용한 정확한 유전자 편집
본 실시예에서는 야로위아 리폴리티카 세포를 보호 및 비보호(비변형) 폴리뉴클레오티드 변형 주형의 존재 및 부재 하에 표적화 플라스미드로 형절전환하여 HDR 및 NHEJ 빈도에 대한 보호 주형(비보호(대조군) 주형 대신)의 사용 효과를 결정하였다. HDR 빈도 증가 및 동시적인 NHEJ 빈도 감소는 전형적인 Cas9/gRNA 유전자 편집 실험에 존재하는 NHEJ-유래 백그라운드를 크게 감소시킬 것이다. 세포를 카나바닌(Canavanine) 저항성에 대해 표현형을 스코어 분석하여 전체 표적화 효율(NHEJ 빈도 + HDR 빈도를 대표함)을 결정하였다. CAN1 유전자좌(SEQ ID NO: 39)의 콜로니 PCR을 수행하여 HDR 및 NHEJ에 의한 Cas9/gRNA 생성 이중 가닥 절단의 복구 빈도를 결정하였다.
야로위아 리폴리티카 ATCC20362의 우라실 영양요구 균주를 30℃에서 YPD 배지 플레이트(Teknova) 상에서 24시간 동안 성장시켰다. 1루프의 세포를 형질전환 완충액(평균 분자량 3550의 35% 폴리에틸렌 글리콜, 100 mM 리튬 아세테이트, 100 mM 디티오트레이톨, 10 mM Tris, 1 mM EDTA pH 6.0) 중 재현탁하였다. 100 ㎕의 세포 현탁액을 폴리뉴클레오티드 변형 주형 없이, 또는 1 ㎍ 비보호 선형 폴리뉴클레오티드 변형 주형(SEQ ID NO: 31), 1 ㎍ C3S 보호 선형 폴리뉴클레오티드 변형 주형(SEQ ID NO: 31의 5' 말단에 3탄소 알칼리성 스페이서를 포함하는 주형), 1 ㎍ PT 보호 선형 폴리뉴클레오티드 변형 주형(SEQ ID NO: 31의 처음 5개 5' 뉴클레오티드에 포스포로티오에이트 결합을 포함하는 주형) 또는 5 ㎍의 원형 보호 폴리뉴클레오티드 변형 주형, pRF80(SEQ ID NO 33)과 함께, 100 ng의 pRF291(SEQ ID NO:18)(Cas9 발현, gRNA 비함유) 또는 pRF303(SEQ ID NO: 24)(Cas9 발현, Can1-1 gRNA 발현)과 혼합하였다. 형질전환 혼합물을 800 RPM에서 1시간 동안 39℃에서 인큐베이션하였다. 형질전환 혼합물을 우라실이 없는 완전 최소 배지 플레이트(Teknova) 상에 접종하여 플라스미드 DNA로 형질전환된 세포를 선택하였다. 플레이트를 48시간 동안 30℃에서 인큐베이션하였다. 각각의 형질전환으로부터 24개 콜로니를 단일 콜로니에 대해 우라실이 없는 완전 최소 배지(Teknova) 상에서 스트리킹하여 정제하였다. 각각의 스트리킹 정제 콜로니로부터 4개의 단일 콜로니(각각의 형질전환으로부터 96개)를 60 ㎍/ml L-카나바닌을 포함하는 아르기닌이 없는 완전 최소 배지에 패치 처리하였다. L-카나바닌은 세포로의 아르기닌 및 L-카나바닌 내수송체(importer)인 기능적 CAN1 유전자를 갖는 세포에 대해 독성이다. CAN1 유전자에서 기능 상실 대립 유전자를 포함하는 세포는 배지 중 L-카나바닌의 존재에 대해 저항성인 표현형일 것이며, L-카나바닌을 포함하는 플레이트 상에 콜로니를 형성할 것이다. CAN1 유전자의 야생형 사본을 포함하는 세포는 L-카나바닌을 포함하는 배지 상에서 성장할 수 없을 것이다. L-카나바닌의 작용 방식은 잘 알려져 있다(Rosenthal G.A., The Biological effects and mode of action of L-Canavanine, a structural analog of L-arginine, The quarterly review of biology, volume 52, 1977, 155-178). 형질전환 처리에 의한 카나바닌 저항성의 빈도를 표 2에 제공한다.
플라스미드 | 폴리뉴클레오티드 변형 주형 | 카나바닌 저항성 빈도 ± 표준 편차1 |
pRF291 | 없음 | 0±0 |
pRF291 | 비보호 선형(대조군) | 0±0 |
pRF291 | C3S 선형 보호 | 0.005±0.008 |
pRF291 | PT 선형 보호 | 0±0 |
pRF291 | pRF80 원형 보호 | 0±0 |
pRF303 | 없음 | 0.80±0.10 |
pRF303 | 비보호 선형(대조군) | 0.72±0.11 |
pRF303 | C3S 선형 보호 | 0.78±0.18 |
pRF303 | PT 선형 보호 | 0.68±0.13 |
pRF303 | pRF80 원형 보호 | 0.74±0.13 |
1결과는 각 경우 적어도 2회의 독립적 반복에 대한 평균 및 표준 편차를 나타낸다. 각 실험은 총 80개 콜로니를 반복 선별하였다.
Cas9 발현 카세트를 운반하지만 CAN1 유전자를 표적화하는 기능적 gRNA가 없는 pRF(SEQ ID NO: 18)로 형질전환된 세포는 C3S 폴리뉴클레오티드 변형 주형으로 단일 실험에서 카나바닌 저항성 콜로니를 보인 1회 경우를 제외하고 카나바닌 저항성 세포를 생성하지 않았다(표 2). 비보호 또는 보호 폴리뉴클레오티드 변형 주형의 존재 또는 부재 하에 pRF303(SEQ ID NO: 24)으로 형질전환된 세포는 유사한 빈도의 카나바닌 저항성 콜로니를 제공하여(표 2) 형질전환 혼합물 중 폴리뉴클레오티드 변형 주형의 존재가 표적화된 이중 가닥 절단을 유도하는 Cas9/gRNA의 능력을 변경하지 않음을 제시하였다.
비보호(대조군) 또는 보호 폴리뉴클레오티드 변형 보호 변형 주형의 존재 하에 Can1-1 표적 부위에서 Cas9/gRNA에 의해 생성된 표적화된 이중 가닥 절단에 있어서 동종 유도 복구(HDR) 및 NHEJ의 빈도를 결정하기 위해, CAN1 유전자좌(SEQ ID NO: 44)의 야로위아 콜로니 PCR을 표준 기술을 사용하여 수행하였다(사용한 프라이머, GGAAGGCACATATGGCAAGG, 전방(SEQ ID N0: 42) 및 GTAAGAGTGGTTTGCTCCAGG, 후방(SEQ ID NO: 43)). CAN1 유전자좌가 변형되지 않았거나 NHEJ에 의해 생성된 작은 삽입-결실을 포함한 경우, 콜로니 PCR 결과는 2125 bp의 겉보기 크기에서 WT CAN1 유전자좌(SEQ ID NO: 44)와 유사한 크기의 밴드를 제공할 것이다. Cas9/gRNA 생성 이중 가닥 절단이 비보호 또는 보호 변형 주형을 사용하여 복구된 경우, PCR은 더 작은 CAN1 유전자좌 생성물 392 bp를 생성하여 전체 오픈 리딩 프레임의 결실을 나타낼 것이다(SEQ ID NO: 45). 콜로니 PCR을 주형의 존재 또는 부재 하에 pRF303으로 형질전환된 세포로부터의 모든 카나바닌 저항성 콜로니 상에서 수행하고, Cas9/gRNA 생성 이중 가닥 절단이 폴리뉴클레오티드 변형 주형을 이용해서 HDR 또는 NHEJ를 통해 복구된 세포 분율을 결정하였다(표 3).
폴리뉴클레오티드 변형 주형 | HDR 빈도 ± 표준 편차2 | NHEJ 빈도 ± 표준 편차2 | 보호 대 비보호 주형에서 HDR의 비 |
없음 | 0.00±0.00 | 1.00±0.00 | - |
비보호 선형 | 0.09±0.02 | 0.91±0.06 | - |
C3S 보호 선형 | 0.08±0.03 | 0.92±0.06 | 1.0 |
PT 보호 선형 | 0.19±0.05 | 0.81±0.12 | 2.1 |
pRF80 보호 원형 | 0.13±0.04 | 0.88±0.06 | 1.4 |
2결과는 각 경우 적어도 2회의 독립적 반복에 대한 평균 및 평균의 표준 오차를 나타낸다. 각 실험은 총 80개 콜로니를 반복 선별하였다.
비보호 폴리뉴클레오티드 변형 주형 또는 C3S 보호 선형 주형으로 처리된 세포는 HDR에 의한 Cas9/gRNA 생성 DSB의 유사한 복구 빈도를 가졌다(표 3). PT 선형 보호 변형 폴리뉴클레오티드 주형 또는 pRF80 원형 보호 변형 폴리뉴클레오티드 변형 주형으로 처리된 세포는 비보호(대조군) 선형 폴리뉴클레오티드 변형 주형보다 각각 2.1배 및 1.4배 더 높은 Cas9/gRNA 생성 DSB의 HDR 빈도를 가졌다. Cas9/gRNA 생성 이중 가닥 절단의 복구에서, 5' 포스포로티오에이트 변형을 포함하는 선형 보호 주형 또는 원형, 비-복제 보호 주형은 HDR을 통해 복구된 절단의 분율에서 비보호 선형 폴리뉴클레오티드 변형 주형 빈도의 200% 및 140%의 실질적 증가를 제공한다. NHEJ는 야로위아 리폴리티카를 포함하는 대부분의 진핵 세포에서 우세한 DNA DSB 복구 경로이다. 보호 DNA 변형 주형의 사용은 Cas9/gRNA 생성 DSB의 HDR 복구 빈도를 2배만큼 높게 증가시켜, 더 적은 수의 사건을 선별하여 DSB의 정확한, 주형 복구를 찾을 수 있게 만든다.
폴리뉴클레오티드 변형 주형을 사용하는 Cas9/gRNA 생성 이중 가닥 절단 복구의 추가적인 복잡성은 주형이 다른 DNA 손상 영역에서 NHEJ 경로에 의해 통합되어 부위를 벗어난 통합을 생성할 수 있다는 가능성에 있다. 이러한 부위를 벗어난 통합이 폴리뉴클레오티드 변형 주형으로 처리된 세포에서 일어나는 빈도를 결정하기 위해, 상대 사본수 분석을 수행하여 폴리뉴클레오티드 변형 주형의 62 bp 단편(SEQ ID NO: 46) 탐색을 수행하였다. 상대 사본수 분석을 pRF303(SEQ ID NO: 24) 및 선형 대조군 폴리뉴클레오티드 변형 폴리뉴클레오티드(SEQ ID NO: 34), 선형 보호 폴리뉴클레오티드 변형 주형, PT(SEQ ID NO: 34), 및 원형 보호 폴리뉴클레오티드 변형 주형, pRF80(SEQ ID NO: 33)으로 처리된 세포로부터의 콜로니 상에서 수행하였다. 폴리뉴클레오티드 변형 주형이 CAN1 유전자좌(SEQ ID NO: 39)에서 Cas9/gRNA 이중 가닥 절단의 HDR 동안만 혼입되는 경우, 세포는 사본수 분석 단편(SEQ ID NO: 46)의 단일 사본만을 운반할 것이다. 그러나 세포가 NHEJ 경로의 활성으로 인해 게놈 내 다른 곳에 폴리뉴클레오티드 변형 주형의 추가 사본을 혼입하는 경우, 단편의 추가 사본이 존재할 것이며 세포는 더 높은 상대 사본수를 돌려줄 것이다. 간략하게, 게놈 DNA를 표준 기술을 사용해서 Can1-1 Cas9/gRNA 표적화 이중 가닥 절단의 HDR에 대해 양성으로 스코어링된 콜로니로부터 단리하였다. 각 콜로니로부터 1 ㎕의 게놈 DNA를 CAN1 유전자좌(SEQ ID NO: 46),(사용한 프라이머, AGCGCCAAACCCAAAGC, 전방(SEQ ID NO: 47), CTTGCCATATGTGCCTTCCA, 후방(SEQ ID NO: 48), 및 6FAM-CTTTTCGCCCCCACTGCAGCC-TAMRA, 프로브(SEQ ID NO: 49)) 또는 대조군으로서 TEF1 유전자좌(SEQ ID NO: 50)(사용한 프라이머, CGACTGTGCCATCCTCATCA, 전방(SEQ ID NO: 51), TGACCGTCCTTGGAGATACCA, 후방(SEQ ID NO: 52) 및 6FAM-TGCTGGTGGTGTTGGTGAGTT-TAMRA, 프로브(SEQ ID NO: 53))에 대한 3개의 복제 qPCR 반응물에 첨가하였다. 다음 사이클링 조건: 95℃에서 10분, 이어서 95℃에서 15초, 60℃에서 1분으로 40사이클을 사용해서 life technologies Quant Studio 7 기기 상에서 TaqMAN 유니버설 PCR 마스터 믹스(ABI life technologies) 중에 반응을 수행하였다. 프로브로부터의 6FAM 형광을 40사이클 PCR 전반에 걸쳐 모니터링하고 Ct값을 수집하였다. ΔΔCt 방법(User Bulletin #2 ABI PRISM 7700 Sequence Detection System (Updated 2001))에 의해 상대 유전자 사본수를 결정하였다. 간략하게, TEF1 Ct값을 사용하여 게놈 DNA 샘플 간 세포 사본수 차이에 대한 데이터를 정상화하였다. 야생형 균주로부터의 게놈 DNA를 CAN1 사본수 단편(SEQ ID NO: 46)에 대한 상대 정량을 위한 기준으로 사용하였다. Quant studio 7의 소프트웨어로 야생형 균주 대비 각 샘플에 대한 상대 유전자 사본수 및 해당 오차를 계산하였다. 콜로니를 2 미만의 상대 사본을 갖는 것들과 2 이상의 상대 사본을 갖는 것들의 2개 bin으로 분리하였다. 첫 번째 bin은 폴리뉴클레오티드 변형 주형이 Can1-1 표적 부위(SEQ ID NO: 22)에서 Cas9/gRNA 생성 이중 가닥 절단의 HDR 복구를 위해서만 사용되었으며 NHEJ에 의해 게놈내 다른 곳에 통합되지 않았음을 나타낸다. 두 번째 bin은 폴리뉴클레오티드 변형 주형이 Can1-1 표적 부위(SEQ ID NO: 22)에서 Cas9/gRNA 생성 이중 가닥 절단을 복구하기 위해 사용되었으며 NHEJ 메커니즘을 통해 게놈내 다른 곳에 적어도 1회 통합되었음을 나타낸다. 사본수 분석 결과를 표 4에 나타낸다.
편집 주형 | CAN1의 단일 사본을 갖는 세포 분율(%) | CAN1의 2개 초과 사본을 갖는 세포 분율(%) |
비보호 선형 | 63 | 37 |
PT 보호 선형 | 60 | 40 |
pRF80 보호 원형 | 100 | 0 |
야로위아 리폴리티카의 CAN1 유전자좌에 존재할뿐만 아니라 모든 폴리뉴클레오티드 변형 주형(보호 및 비보호)에 존재하는 qPCR 표적을 사용해서 사본수 분석을 수행하였다. 폴리뉴클레오티드 변형 주형을 세포내 CAN1 유전자좌의 HDR을 위해 사용한 경우, 표적의 사본수는 1을 유지할 것이다. 폴리뉴클레오티드 편집 주형이 야로위아 게놈 내 다른 곳에도 삽입된 경우, 사본 수는 CAN1 유전자좌에 존재하는 사본 및 게놈 내 다른 곳에 NHEJ에 의해 삽입된 폴리뉴클레오티드 편집 주형의 사본을 나타내는 적어도 2일 것이다.
비보호 선형 폴리뉴클레오티드 변형 주형 및 PT 주형은 둘 다 CAN1 폴리뉴클레오티드 변형 주형의 단일 사본을 갖는 대략 60%의 콜로니를 산출하여 폴리뉴클레오티드 변형 주형이 Cas9/gRNA 생성 DSB의 HDR을 위해 사용되었으나 게놈 내 통합되지 않았음을 나타낸다 표 4). 원형 보호 폴리뉴클레오티드 변형 주형, pRF80은 CAN1 유전자좌의 단일 사본만을 갖는 100% 콜로니를 실증하여, 원형 주형이 Can1-1에서 Cas9/gRNA 생성 절단의 HDR만을 위해 사용되었고 염색체의 다른 곳에 통합되지 않았음을 나타내었다.
보호 폴리뉴클레오티드 변형 주형은 놀라운 방식으로 비보호 폴리뉴클레오티드 변형 주형에 비해 더 우수한 결과를 제공하였다. 각 가닥에서 5개의 5' 포스포디에스테르 결합이 포스포로티오에이트 결합으로 치환된 선형 보호 주형은 염색체의 다른 곳에서 선형 주형의 통합에 변화를 유도하지 않으면서 비보호 주형에 비해 HDR을 통해 복구된 Cas9/gRNA 생성 DSB를 갖는 콜로니를 2배를 초과하여 더 많이 제공한다. 선형 대신 원형인 보호 폴리뉴클레오티드 변형 주형은 Can1-1에서 Cas9/gRNA 생성 이중 가닥 절단의 HDR 빈도에 40% 개선을 제공하였고(표 3) 폴리뉴클레오티드 변형 주형의 부위를 벗어난 통합 없이 콜로니 수에 60% 개선을 제공하였다(표 4).
실시예 4
Cas9/sgRNA 플라스미드에 포함된 보호 폴리뉴클레오티드 변형 주형을 사용하는 정확한 게놈 편집
본 실시예에서, 야로위아 리폴리티카의 URA3 유전자를 Cas9 발현 카세트 및 sgRNA 발현 카세트를 포함하는 원형 DNA 분자의 일부인 보호 폴리뉴클레오티드 편집 주형을 사용하는 정확한 게놈 편집에 대해 표적화한다.
PacI 및 PmeI 제한 부위 사이에서 pRF291(SEQ ID NO: 18)에 존재하는 URA3 선택 가능한 마커를 히그로마이신 저항성 발현 카세트(SEQ ID NO: 55)로 치환하여 플라스미드 pRF434(SEQ ID NO: 54)를 작제하였다. 이 플라스미드는 pRF291과 동일한 방식으로 가변 표적화 도메인의 고처리량 클로닝을 허용한다(도 1). 야로위아 리폴리티카 내에서 URA3 유전자좌(SEQ ID NO: 56)는 표적 부위 Ura3-1(SEQ ID NO: 57)이 존재한다. Ura3-1 표적 부위(SEQ ID NO: 57)에 해당하는 가변 표적화 도메인을 암호화하는 DNA를 포함하는 2개의 올리고 Ura3-1F(SEQ ID NO: 58) 및 URA3-1R(SEQ ID NO: 59)을 듀플렉스 완충액(30 mM HEPES pH 7.5, 100 mM 나트륨 아세테이트) 중 100 μM로 재현탁하였다. Ura3-1F(SEQ ID NO: 58) 및 Ura3-1R(SEQ ID NO: 59)을 단일 튜브에서 각각 50 μM의 최종 농도로 혼합하고, 5분 동안 95℃로 가열하고 0.1℃/분으로 25℃까지 냉각하여 두 뉴클레오티드를 어닐링하여 소형 듀플렉스 DNA 분자를 형성하였다. 20 ㎕의 최종 부피에 50 ng의 pRF434, Ura3-1F(SEQ ID NO: 58) 및 Ura3-1R(SEQ ID NO: 59)로 구성되는 2.5 μM의 소형 듀플렉스 DNA, 1x T4 리가아제 완충액(50 mM Tris-HCl, 10 mM MgCl2, 1 mM ATP, 10 mM DTT pH 7.5), 0.5 μM AarI 올리고뉴클레오티드, 2단위 AarI, 40단위 T4 DNA 리가아제를 포함하는 단일 튜브 소화/결찰 반응물을 생성하였다. 대조군 반응물에는 Ura3-1F(SEQ ID NO: 58) 및 URA3-1R(SEQ ID NO: 59)의 소형 DNA 듀플렉스가 없었다. 반응물을 1시간 동안 37℃에서 인큐베이션한 뒤 이전에 기술된 바와 같이(Green, M. R. & Sambrook, J. Molecular Cloning: A Laboratory Manual. Fourth Edition edn, (Cold Spring Harbor Laboratory Press, 2012)) Top10 대장균 세포내로 형질전환하였다. Ura3-1F(SEQ ID NO: 58) 및 Ura3-1R(SEQ ID NO: 59) 듀플렉스가 AarI 제한 부위가 플랭킹한 rpsL 역 선택 마커를 치환한 pRF434의 존재를 선택하기 위해(도 1), 세포를 100 ㎍/ml 암피실린 및 50 ㎍/ml 스트렙토마이신을 포함하는 1.5%(w/v) Bacto 한천으로 고화된 용원 액체배지 상에 접종하였다. 고처리량 클로닝 카세트를 포함하는 pRF434(SEQ ID NO: 54)의 존재는 암피실린에 저항성이지만 역 선택 카세트로 인해 스트렙토마이신에는 민감성인 표현형의 콜로니를 산출하였고 스트렙토마이신의 존재 하에서는 콜로니를 형성하지 않는다. 그러나, 역 선택 카세트를 AarI 효소를 통해 제거하고 Ura3-1 듀플렉스 DNA를 그 부위 내로 결찰한 경우(AarI 인식 부위를 제거함) 형질전환된 세포는 암피실린 저항성, 스트렙토마이신 저항성 표현형을 가지며 암피실린 및 스트렙토마이신의 존재 하에 콜로니를 형성한다. AarI 부위에 Ura3-1 가변 표적화 도메인을 암호화하는 DNA를 포함하는 pRF434(SEQ ID NO: 54)는 SUP4 종결자(SEQ ID NO 17)에 융합된, CER 도메인을 암호화하는 DNA(SEQ ID NO: 16)에 융합된, Ura3-1 VT 도메인을 암호화하는 DNA(SEQ ID NO: 60)에 융합된, HDV 리보자임을 암호화하는 DNA(SEQ ID NO: 14)에 융합된, yl52 프로모터(SEQ ID NO: 13)를 포함하는 재조합 HDV-sgRNA 발현 카세트를 생성한다. 상기 작제물을 포함하는 플라스미드, pRF421(SEQ ID NO: 61)을 사용하여 야로위아 리폴리티카의 URA3 유전자좌(SEQ ID NO: 56)를 표적화하였다.
URA3 유전자좌(SEQ ID NO: 56)를 표적화하는 보호 폴리뉴클레오티드 편집 주형을 작제하기 위해, URA3 오픈 리딩 프레임의 378 bp 상류(SEQ ID NO: 62)를 URA3 정지 코돈 및 정지 코돈을 암호화하는 DNA의 255 bp 하류(SEQ ID NO: 63)와 융합하였다. 이 DNA는 URA3 오픈 리딩 프레임을 결실시켜 정지 코돈만을 남길 수 있는 폴리뉴클레오티드 변형 주형을 나타낸다. 폴리뉴클레오티드 편집 주형을 5’ EcoRI 및 3’ HinDIII 제한 부위를 포함하여 화학적으로 합성하였다(IDT)(SEQ ID NO: 64). 작제물을 pUC18(SEQ ID NO: 32)의 EcoRI/HinDIII 부위 내로 클로닝하여 플라스미드 pRF263(SEQ ID NO: 65)을 생성하였다. 폴리뉴클레오티드 편집 주형을 프라이머 HY007(SEQ ID NO: 66) 및 올리고 297(SEQ ID NO: 67)을 사용하여 pRF263으로부터 증폭해서 5' 및 3' EcoRI 부위가 플랭킹한 URA3 결실 폴리뉴클레오티드 변형 주형(SEQ ID NO: 68)을 생성하였다. EcoRI 플랭킹 URA3 결실 폴리뉴클레오티드 편집 주형을 pRF421(SEQ ID NO: 61)의 EcoRI 부위 내로 클로닝하여 pRF437(SEQ ID NO: 69)을 생성하였다.
기본영양 야로위아 리폴리티카 ATCC20362 세포를 30℃에서 YPD 배지 플레이트(Teknova) 상에 24시간 동안 성장시켰다. 1루프의 세포를 형질전환 완충액(평균 분자량 3550의 35% 폴리에틸렌 글리콜, 100 mM 리튬 아세테이트, 100 mM 디티오트레이톨, 10 mM Tris, 1 mM EDTA pH 6.0) 중 재현탁하였다. 100 ㎕의 세포 현탁액을 100 ng의 pRF421(SEQ ID NO: 61), pRF434(SEQ ID NO: 54), 또는 pRF437(SEQ ID NO: 69)과 혼합하거나, DNA와 혼합하지 않았다. 세포를 1시간 동안 39℃ 800 RPM에서 열 충격 처리하였다. 1 ml의 YPD 배지(Teknova)를 각각의 형질전환에 첨가하였다. 세포를 4시간 동안 30℃ 220 RPM에서 성장시켜 히그로마이신 저항성 카세트의 발현을 허용하였다. 세포를 250 mg/L의 히그로마이신 설페이트(calbiochem)를 포함하는 YPD 배지 상에 접종하였다. 콜로니가 30℃에서 형성하도록 두었다. 각각의 형질전환으로부터 48개 콜로니(콜로니가 0개였던 DNA를 포함하지 않은 경우를 제외하고)를 YPD 배지 플레이트(Teknova) 및 450 mg/L 5-플루오로오로트산(5FOA)을 포함하는 CM 플레이트에 패치 처리하였다. 5FOA는 기능적 URA3 유전자를 갖는 세포에 대해 선택한다. 패치로부터, pRF434(SEQ ID NO: 54), pRF421(SEQ ID NO: 61), 및 pRF437(SEQ ID NO 69)에 의한 URA3 불활성화 효율을 스코어링할 수 있었다(표 5).
플라스미드 | VT 도메인 | 보호 변형 주형 | 5FOA 저항성 ± 범위1 |
pRF434 | 없음 | 없음 | 0.00±0.00 |
pRF421 | Ura3-1 | 없음 | 0.86±0.03 |
pRF437 | Ura3-1 | 플라스미드 내에서 원형 | 0.84±0.11 |
1결과는 각 경우 2회의 독립적 반복에 대한 평균 및 범위를 나타낸다. 각각의 복제물은 적어도 48개 콜로니를 선별하였다.
Cas9/sgRNA 플라스미드의 맥락 내에 보호 폴리뉴클레오티드 변형 주형의 존재는 Ura3-1 가변 표적화 도메인을 포함하는 sgRNA를 사용하는 URA3 유전자좌에서의 표적화 빈도에 영향을 미치지 않았다(표 5). 5FOA 저항성 빈도는 전체 표적화 빈도를 나타내며 NHEJ 경로 및 HDR 경로에 의한 Cas9/gRNA DSB의 복구에 의해 생성되는 돌연변이체를 포함한다. HDR 경로 및 NHEJ 경로에 의한 Cas9/sgRNA 생성 DSB의 복구 빈도를 결정하기 위해, 5FOA 저항성 콜로니에서 URA3 유전자좌의 PCR 증폭을 올리고뉴클레오티드 프라이머 308(SEQ ID NO: 70) 및 309(SEQ ID NO: 71)를 사용하여 수행하였다. 일반적으로 NHEJ 경로에 의해 복구된 Cas9/sgRNA 절단은 소수 뉴클레오티드의 결실 또는 삽입을 유발하여 소규모 삽입-결실을 생성하며 전체 유전자좌가 증폭되는 경우 생성물은 WT(SEQ ID NO: 56) 크기(1714 bp)로 나타난다. Cas9/sgRNA 생성 DSB가 보호 폴리뉴클레오티드 편집 주형으로 HDR을 통해 복구된 경우, 증폭된 URA3 유전자좌는 URA3 오픈 리딩 프레임의 결실로 인해 크기가 감소된다(859 bp)(SEQ ID NO: 72). pRF437(SEQ ID NO:69)로 형질전환된 세포로부터 5FOA 저항성 콜로니의 PCR의 하나의 예를 도 4에 나타낸다.
5FOA 저항성 콜로니 중 HDR의 전체 빈도를 표 6에 나타낸다.
플라스미드 | VT 도메인 | 보호 변형 주형 | HDR 빈도 ± 범위1 |
pRF434 | 없음 | 없음 | ND |
pRF421 | Ura3-1 | 없음 | ND |
pRF437 | Ura3-1 | 플라스미드 내에서 원형 | 0.84±0.19 |
1값은 2회의 독립적 복제물로부터의 평균 및 범위를 나타낸다. 각각의 복제물은 적어도 48개 콜로니를 선별하였다.
복제 원형 DNA 내에 폴리뉴클레오티드 편집 주형을 배치함으로써, 말단이 보호되고 세포에서 변형 주형이 지속되어 HDR 경로를 통한 Cas9/sgRNA 생성 DSB의 복구를 갖는 80% 초과 콜로니를, 이에 따라 NHEJ에 의한 Cas9/sgRNA 생성 절단을 복구한 15% 콜로니를 산출하였다.
SEQUENCE LISTING
<110> E. I. du Pont de Nemours and Company
Frisch, Ryan L.
<120> PROTECTED DNA TEMPLATES FOR GENE MODIFICATION AND INCREASED
HOMOLOGOUS RECOMBINATION IN CELLS AND METHODS OF USE
<130> CL6441-WO-PCT
<150> US 62/240,140
<151> 2015-10-12
<160> 72
<170> PatentIn version 3.5
<210> 1
<211> 1372
<212> PRT
<213> Streptococcus pyogenes
<400> 1
Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe
20 25 30
Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser
85 90 95
Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys
100 105 110
His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr
115 120 125
His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp
130 135 140
Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His
145 150 155 160
Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro
165 170 175
Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr
180 185 190
Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala
195 200 205
Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn
210 215 220
Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn
225 230 235 240
Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe
245 250 255
Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp
260 265 270
Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp
275 280 285
Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp
290 295 300
Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser
305 310 315 320
Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys
325 330 335
Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe
340 345 350
Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser
355 360 365
Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp
370 375 380
Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg
385 390 395 400
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
405 410 415
Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe
420 425 430
Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile
435 440 445
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp
450 455 460
Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu
465 470 475 480
Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr
485 490 495
Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser
500 505 510
Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
515 520 525
Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln
530 535 540
Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr
545 550 555 560
Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp
565 570 575
Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly
580 585 590
Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp
595 600 605
Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr
610 615 620
Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala
625 630 635 640
His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr
645 650 655
Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
660 665 670
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe
675 680 685
Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe
690 695 700
Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu
705 710 715 720
His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly
725 730 735
Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly
740 745 750
Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln
755 760 765
Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile
770 775 780
Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro
785 790 795 800
Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu
805 810 815
Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg
820 825 830
Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys
835 840 845
Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg
850 855 860
Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys
865 870 875 880
Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys
885 890 895
Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp
900 905 910
Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr
915 920 925
Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp
930 935 940
Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser
945 950 955 960
Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg
965 970 975
Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val
980 985 990
Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe
995 1000 1005
Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala
1010 1015 1020
Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe
1025 1030 1035
Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala
1040 1045 1050
Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu
1055 1060 1065
Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val
1070 1075 1080
Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr
1085 1090 1095
Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys
1100 1105 1110
Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro
1115 1120 1125
Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val
1130 1135 1140
Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys
1145 1150 1155
Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser
1160 1165 1170
Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys
1175 1180 1185
Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu
1190 1195 1200
Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly
1205 1210 1215
Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val
1220 1225 1230
Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser
1235 1240 1245
Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys
1250 1255 1260
His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys
1265 1270 1275
Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala
1280 1285 1290
Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn
1295 1300 1305
Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala
1310 1315 1320
Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser
1325 1330 1335
Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr
1340 1345 1350
Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1355 1360 1365
Ser Arg Ala Asp
1370
<210> 2
<211> 4140
<212> DNA
<213> Artificial sequence
<220>
<223> Yarrowia codon optimized Cas9
<400> 2
atggacaaga aatactccat cggcctggac attggaacca actctgtcgg ctgggctgtc 60
atcaccgacg agtacaaggt gccctccaag aaattcaagg tcctcggaaa caccgatcga 120
cactccatca agaaaaacct cattggtgcc ctgttgttcg attctggcga gactgccgaa 180
gctaccagac tcaagcgaac tgctcggcga cgttacaccc gacggaagaa ccgaatctgc 240
tacctgcagg agatcttttc caacgagatg gccaaggtgg acgattcgtt ctttcatcga 300
ctggaggaat ccttcctcgt cgaggaagac aagaaacacg agcgtcatcc catctttggc 360
aacattgtgg acgaggttgc ttaccacgag aagtatccta ccatctacca tctccgaaag 420
aaactcgtcg attccaccga caaggcggat ctcagactta tctacctcgc tctggcacac 480
atgatcaagt ttcgaggtca tttcctcatc gagggcgatc tcaatcccga caacagcgat 540
gtggacaagc tgttcattca gctcgttcag acctacaacc agctgttcga ggaaaacccc 600
atcaatgcct ccggagtcga tgcaaaggcc atcttgtctg ctcgactctc gaagagcaga 660
cgactggaga acctcattgc ccaacttcct ggcgagaaaa agaacggact gtttggcaac 720
ctcattgccc tttctcttgg tctcacaccc aacttcaagt ccaacttcga tctggcggag 780
gacgccaagc tccagctgtc caaggacacc tacgacgatg acctcgacaa cctgcttgca 840
cagattggcg atcagtacgc cgacctgttt ctcgctgcca agaacctttc ggatgctatt 900
ctcttgtctg acattctgcg agtcaacacc gagatcacaa aggctcccct ttctgcctcc 960
atgatcaagc gatacgacga gcaccatcag gatctcacac tgctcaaggc tcttgtccga 1020
cagcaactgc ccgagaagta caaggagatc tttttcgatc agtcgaagaa cggctacgct 1080
ggatacatcg acggcggagc ctctcaggaa gagttctaca agttcatcaa gccaattctc 1140
gagaagatgg acggaaccga ggaactgctt gtcaagctca atcgagagga tctgcttcgg 1200
aagcaacgaa ccttcgacaa cggcagcatt cctcatcaga tccacctcgg tgagctgcac 1260
gccattcttc gacgtcagga agacttctac ccctttctca aggacaaccg agagaagatc 1320
gagaagattc ttacctttcg aatcccctac tatgttggtc ctcttgccag aggaaactct 1380
cgatttgctt ggatgactcg aaagtccgag gaaaccatca ctccctggaa cttcgaggaa 1440
gtcgtggaca agggtgcctc tgcacagtcc ttcatcgagc gaatgaccaa cttcgacaag 1500
aatctgccca acgagaaggt tcttcccaag cattcgctgc tctacgagta ctttacagtc 1560
tacaacgaac tcaccaaagt caagtacgtt accgagggaa tgcgaaagcc tgccttcttg 1620
tctggcgaac agaagaaagc cattgtcgat ctcctgttca agaccaaccg aaaggtcact 1680
gttaagcagc tcaaggagga ctacttcaag aaaatcgagt gtttcgacag cgtcgagatt 1740
tccggagttg aggaccgatt caacgcctct ttgggcacct atcacgatct gctcaagatt 1800
atcaaggaca aggattttct cgacaacgag gaaaacgagg acattctgga ggacatcgtg 1860
ctcactctta ccctgttcga agatcgggag atgatcgagg aacgactcaa gacatacgct 1920
cacctgttcg acgacaaggt catgaaacaa ctcaagcgac gtagatacac cggctgggga 1980
agactttcgc gaaagctcat caacggcatc agagacaagc agtccggaaa gaccattctg 2040
gactttctca agtccgatgg ctttgccaac cgaaacttca tgcagctcat tcacgacgat 2100
tctcttacct tcaaggagga catccagaag gcacaagtgt ccggtcaggg cgacagcttg 2160
cacgaacata ttgccaacct ggctggttcg ccagccatca agaaaggcat tctccagact 2220
gtcaaggttg tcgacgagct ggtgaaggtc atgggacgtc acaagcccga gaacattgtg 2280
atcgagatgg ccagagagaa ccagacaact caaaagggtc agaaaaactc gcgagagcgg 2340
atgaagcgaa tcgaggaagg catcaaggag ctgggatccc agattctcaa ggagcatccc 2400
gtcgagaaca ctcaactgca gaacgagaag ctgtatctct actatctgca gaatggtcga 2460
gacatgtacg tggatcagga actggacatc aatcgtctca gcgactacga tgtggaccac 2520
attgtccctc aatcctttct caaggacgat tctatcgaca acaaggtcct tacacgatcc 2580
gacaagaaca gaggcaagtc ggacaacgtt cccagcgaag aggtggtcaa aaagatgaag 2640
aactactggc gacagctgct caacgccaag ctcattaccc agcgaaagtt cgacaatctt 2700
accaaggccg agcgaggcgg tctgtccgag ctcgacaagg ctggcttcat caagcgtcaa 2760
ctcgtcgaga ccagacagat cacaaagcac gtcgcacaga ttctcgattc tcggatgaac 2820
accaagtacg acgagaacga caagctcatc cgagaggtca aggtgattac tctcaagtcc 2880
aaactggtct ccgatttccg aaaggacttt cagttctaca aggtgcgaga gatcaacaat 2940
taccaccatg cccacgatgc ttacctcaac gccgtcgttg gcactgcgct catcaagaaa 3000
taccccaagc tcgaaagcga gttcgtttac ggcgattaca aggtctacga cgttcgaaag 3060
atgattgcca agtccgaaca ggagattggc aaggctactg ccaagtactt cttttactcc 3120
aacatcatga actttttcaa gaccgagatc accttggcca acggagagat tcgaaagaga 3180
ccacttatcg agaccaacgg cgaaactgga gagatcgtgt gggacaaggg tcgagacttt 3240
gcaaccgtgc gaaaggttct gtcgatgcct caggtcaaca tcgtcaagaa aaccgaggtt 3300
cagactggcg gattctccaa ggagtcgatt ctgcccaagc gaaactccga caagctcatc 3360
gctcgaaaga aagactggga tcccaagaaa tacggtggct tcgattctcc taccgtcgcc 3420
tattccgtgc ttgtcgttgc gaaggtcgag aagggcaagt ccaaaaagct caagtccgtc 3480
aaggagctgc tcggaattac catcatggag cgatcgagct tcgagaagaa tcccatcgac 3540
ttcttggaag ccaagggtta caaggaggtc aagaaagacc tcattatcaa gctgcccaag 3600
tactctctgt tcgaactgga gaacggtcga aagcgtatgc tcgcctccgc tggcgagctg 3660
cagaagggaa acgagcttgc cttgccttcg aagtacgtca actttctcta tctggcttct 3720
cactacgaga agctcaaggg ttctcccgag gacaacgaac agaagcaact cttcgttgag 3780
cagcacaaac attacctcga cgagattatc gagcagattt ccgagttttc gaagcgagtc 3840
atcctggctg atgccaactt ggacaaggtg ctctctgcct acaacaagca tcgggacaaa 3900
cccattcgag aacaggcgga gaacatcatt cacctgttta ctcttaccaa cctgggtgct 3960
cctgcagctt tcaagtactt cgataccact atcgaccgaa agcggtacac atccaccaag 4020
gaggttctcg atgccaccct gattcaccag tccatcactg gcctgtacga gacccgaatc 4080
gacctgtctc agcttggtgg cgactccaga gccgatccca agaaaaagcg aaaggtctaa 4140
<210> 3
<211> 7
<212> PRT
<213> SV40
<400> 3
Pro Lys Lys Lys Arg Lys Val
1 5
<210> 4
<211> 543
<212> DNA
<213> YArrowia lipolytica
<400> 4
tcgacgttta aaccatcatc taagggcctc aaaactacct cggaactgct gcgctgatct 60
ggacaccaca gaggttccga gcactttagg ttgcaccaaa tgtcccacca ggtgcaggca 120
gaaaacgctg gaacagcgtg tacagtttgt cttaacaaaa agtgagggcg ctgaggtcga 180
gcagggtggt gtgacttgtt atagccttta gagctgcgaa agcgcgtatg gatttggctc 240
atcaggccag attgagggtc tgtggacaca tgtcatgtta gtgtacttca atcgccccct 300
ggatatagcc ccgacaatag gccgtggcct catttttttg ccttccgcac atttccattg 360
ctcggtaccc acaccttgct tctcctgcac ttgccaacct taatactggt ttacattgac 420
caacatctta caagcggggg gcttgtctag ggtatatata aacagtggct ctcccaatcg 480
gttgccagtc tcttttttcc tttctttccc cacagattcg aaatctaaac tacacatcac 540
acc 543
<210> 5
<211> 4683
<212> DNA
<213> Artificial sequence
<220>
<223> Yarrowia optimized expression cassette
<400> 5
tcgacgttta aaccatcatc taagggcctc aaaactacct cggaactgct gcgctgatct 60
ggacaccaca gaggttccga gcactttagg ttgcaccaaa tgtcccacca ggtgcaggca 120
gaaaacgctg gaacagcgtg tacagtttgt cttaacaaaa agtgagggcg ctgaggtcga 180
gcagggtggt gtgacttgtt atagccttta gagctgcgaa agcgcgtatg gatttggctc 240
atcaggccag attgagggtc tgtggacaca tgtcatgtta gtgtacttca atcgccccct 300
ggatatagcc ccgacaatag gccgtggcct catttttttg ccttccgcac atttccattg 360
ctcggtaccc acaccttgct tctcctgcac ttgccaacct taatactggt ttacattgac 420
caacatctta caagcggggg gcttgtctag ggtatatata aacagtggct ctcccaatcg 480
gttgccagtc tcttttttcc tttctttccc cacagattcg aaatctaaac tacacatcac 540
accatggaca agaaatactc catcggcctg gacattggaa ccaactctgt cggctgggct 600
gtcatcaccg acgagtacaa ggtgccctcc aagaaattca aggtcctcgg aaacaccgat 660
cgacactcca tcaagaaaaa cctcattggt gccctgttgt tcgattctgg cgagactgcc 720
gaagctacca gactcaagcg aactgctcgg cgacgttaca cccgacggaa gaaccgaatc 780
tgctacctgc aggagatctt ttccaacgag atggccaagg tggacgattc gttctttcat 840
cgactggagg aatccttcct cgtcgaggaa gacaagaaac acgagcgtca tcccatcttt 900
ggcaacattg tggacgaggt tgcttaccac gagaagtatc ctaccatcta ccacctgcga 960
aagaaactcg tcgattccac cgacaaggcg gatctcagac ttatctacct cgctctggca 1020
cacatgatca agtttcgagg tcatttcctc atcgagggcg atctcaatcc cgacaacagc 1080
gatgtggaca agctgttcat tcagctcgtt cagacctaca accagctgtt cgaggaaaac 1140
cccatcaatg cctccggagt cgatgcaaag gccatcttgt ctgctcgact ctcgaagagc 1200
agacgactgg agaacctcat tgcccaactt cctggcgaga aaaagaacgg actgtttggc 1260
aacctcattg ccctttctct tggtctcaca cccaacttca agtccaactt cgatctggcg 1320
gaggacgcca agctccagct gtccaaggac acctacgacg atgacctcga caacctgctt 1380
gcacagattg gcgatcagta cgccgacctg tttctcgctg ccaagaacct ttcggatgct 1440
attctcttgt ctgacattct gcgagtcaac accgagatca caaaggctcc cctttctgcc 1500
tccatgatca agcgatacga cgagcaccat caggatctca cactgctcaa ggctcttgtc 1560
cgacagcaac tgcccgagaa gtacaaggag atctttttcg atcagtcgaa gaacggctac 1620
gctggataca tcgacggcgg agcctctcag gaagagttct acaagttcat caagccaatt 1680
ctcgagaaga tggacggaac cgaggaactg cttgtcaagc tcaatcgaga ggatctgctt 1740
cggaagcaac gaaccttcga caacggcagc attcctcatc agatccacct cggtgagctg 1800
cacgccattc ttcgacgtca ggaagacttc tacccctttc tcaaggacaa ccgagagaag 1860
atcgagaaga ttcttacctt tcgaatcccc tactatgttg gtcctcttgc cagaggaaac 1920
tctcgatttg cttggatgac tcgaaagtcc gaggaaacca tcactccctg gaacttcgag 1980
gaagtcgtgg acaagggtgc ctctgcacag tccttcatcg agcgaatgac caacttcgac 2040
aagaatctgc ccaacgagaa ggttcttccc aagcattcgc tgctctacga gtactttaca 2100
gtctacaacg aactcaccaa agtcaagtac gttaccgagg gaatgcgaaa gcctgccttc 2160
ttgtctggcg aacagaagaa agccattgtc gatctcctgt tcaagaccaa ccgaaaggtc 2220
actgttaagc agctcaagga ggactacttc aagaaaatcg agtgtttcga cagcgtcgag 2280
atttccggag ttgaggaccg attcaacgcc tctttgggca cctatcacga tctgctcaag 2340
attatcaagg acaaggattt tctcgacaac gaggaaaacg aggacattct ggaggacatc 2400
gtgctcactc ttaccctgtt cgaagatcgg gagatgatcg aggaacgact caagacatac 2460
gctcacctgt tcgacgacaa ggtcatgaaa caactcaagc gacgtagata caccggctgg 2520
ggaagacttt cgcgaaagct catcaacggc atcagagaca agcagtccgg aaagaccatt 2580
ctggactttc tcaagtccga tggctttgcc aaccgaaact tcatgcagct cattcacgac 2640
gattctctta ccttcaagga ggacatccag aaggcacaag tgtccggtca gggcgacagc 2700
ttgcacgaac atattgccaa cctggctggt tcgccagcca tcaagaaagg cattctccag 2760
actgtcaagg ttgtcgacga gctggtgaag gtcatgggac gtcacaagcc cgagaacatt 2820
gtgatcgaga tggccagaga gaaccagaca actcaaaagg gtcagaaaaa ctcgcgagag 2880
cggatgaagc gaatcgagga aggcatcaag gagctgggat cccagattct caaggagcat 2940
cccgtcgaga acactcaact gcagaacgag aagctgtatc tctactatct gcagaatggt 3000
cgagacatgt acgtggatca ggaactggac atcaatcgtc tcagcgacta cgatgtggac 3060
cacattgtcc ctcaatcctt tctcaaggac gattctatcg acaacaaggt ccttacacga 3120
tccgacaaga acagaggcaa gtcggacaac gttcccagcg aagaggtggt caaaaagatg 3180
aagaactact ggcgacagct gctcaacgcc aagctcatta cccagcgaaa gttcgacaat 3240
cttaccaagg ccgagcgagg cggtctgtcc gagctcgaca aggctggctt catcaagcgt 3300
caactcgtcg agaccagaca gatcacaaag cacgtcgcac agattctcga ttctcggatg 3360
aacaccaagt acgacgagaa cgacaagctc atccgagagg tcaaggtgat tactctcaag 3420
tccaaactgg tctccgattt ccgaaaggac tttcagttct acaaggtgcg agagatcaac 3480
aattaccacc atgcccacga tgcttacctc aacgccgtcg ttggcactgc gctcatcaag 3540
aaatacccca agctcgaaag cgagttcgtt tacggcgatt acaaggtcta cgacgttcga 3600
aagatgattg ccaagtccga acaggagatt ggcaaggcta ctgccaagta cttcttttac 3660
tccaacatca tgaacttttt caagaccgag atcaccttgg ccaacggaga gattcgaaag 3720
agaccactta tcgagaccaa cggcgaaact ggagagatcg tgtgggacaa gggtcgagac 3780
tttgcaaccg tgcgaaaggt tctgtcgatg cctcaggtca acatcgtcaa gaaaaccgag 3840
gttcagactg gcggattctc caaggagtcg attctgccca agcgaaactc cgacaagctc 3900
atcgctcgaa agaaagactg ggatcccaag aaatacggtg gcttcgattc tcctaccgtc 3960
gcctattccg tgcttgtcgt tgcgaaggtc gagaagggca agtccaaaaa gctcaagtcc 4020
gtcaaggagc tgctcggaat taccatcatg gagcgatcga gcttcgagaa gaatcccatc 4080
gacttcttgg aagccaaggg ttacaaggag gtcaagaaag acctcattat caagctgccc 4140
aagtactctc tgttcgaact ggagaacggt cgaaagcgta tgctcgcctc cgctggcgag 4200
ctgcagaagg gaaacgagct tgccttgcct tcgaagtacg tcaactttct ctatctggct 4260
tctcactacg agaagctcaa gggttctccc gaggacaacg aacagaagca actcttcgtt 4320
gagcagcaca aacattacct cgacgagatt atcgagcaga tttccgagtt ttcgaagcga 4380
gtcatcctgg ctgatgccaa cttggacaag gtgctctctg cctacaacaa gcatcgggac 4440
aaacccattc gagaacaggc ggagaacatc attcacctgt ttactcttac caacctgggt 4500
gctcctgcag ctttcaagta cttcgatacc actatcgacc gaaagcggta cacatccacc 4560
aaggaggttc tcgatgccac cctgattcac cagtccatca ctggcctgta cgagacccga 4620
atcgacctgt ctcagcttgg tggcgactcc agagccgatc ccaagaaaaa gcgaaaggtc 4680
taa 4683
<210> 6
<211> 10706
<212> DNA
<213> Artificial sequence
<220>
<223> pZufCas9
<400> 6
catggacaag aaatactcca tcggcctgga cattggaacc aactctgtcg gctgggctgt 60
catcaccgac gagtacaagg tgccctccaa gaaattcaag gtcctcggaa acaccgatcg 120
acactccatc aagaaaaacc tcattggtgc cctgttgttc gattctggcg agactgccga 180
agctaccaga ctcaagcgaa ctgctcggcg acgttacacc cgacggaaga accgaatctg 240
ctacctgcag gagatctttt ccaacgagat ggccaaggtg gacgattcgt tctttcatcg 300
actggaggaa tccttcctcg tcgaggaaga caagaaacac gagcgtcatc ccatctttgg 360
caacattgtg gacgaggttg cttaccacga gaagtatcct accatctacc acctgcgaaa 420
gaaactcgtc gattccaccg acaaggcgga tctcagactt atctacctcg ctctggcaca 480
catgatcaag tttcgaggtc atttcctcat cgagggcgat ctcaatcccg acaacagcga 540
tgtggacaag ctgttcattc agctcgttca gacctacaac cagctgttcg aggaaaaccc 600
catcaatgcc tccggagtcg atgcaaaggc catcttgtct gctcgactct cgaagagcag 660
acgactggag aacctcattg cccaacttcc tggcgagaaa aagaacggac tgtttggcaa 720
cctcattgcc ctttctcttg gtctcacacc caacttcaag tccaacttcg atctggcgga 780
ggacgccaag ctccagctgt ccaaggacac ctacgacgat gacctcgaca acctgcttgc 840
acagattggc gatcagtacg ccgacctgtt tctcgctgcc aagaaccttt cggatgctat 900
tctcttgtct gacattctgc gagtcaacac cgagatcaca aaggctcccc tttctgcctc 960
catgatcaag cgatacgacg agcaccatca ggatctcaca ctgctcaagg ctcttgtccg 1020
acagcaactg cccgagaagt acaaggagat ctttttcgat cagtcgaaga acggctacgc 1080
tggatacatc gacggcggag cctctcagga agagttctac aagttcatca agccaattct 1140
cgagaagatg gacggaaccg aggaactgct tgtcaagctc aatcgagagg atctgcttcg 1200
gaagcaacga accttcgaca acggcagcat tcctcatcag atccacctcg gtgagctgca 1260
cgccattctt cgacgtcagg aagacttcta cccctttctc aaggacaacc gagagaagat 1320
cgagaagatt cttacctttc gaatccccta ctatgttggt cctcttgcca gaggaaactc 1380
tcgatttgct tggatgactc gaaagtccga ggaaaccatc actccctgga acttcgagga 1440
agtcgtggac aagggtgcct ctgcacagtc cttcatcgag cgaatgacca acttcgacaa 1500
gaatctgccc aacgagaagg ttcttcccaa gcattcgctg ctctacgagt actttacagt 1560
ctacaacgaa ctcaccaaag tcaagtacgt taccgaggga atgcgaaagc ctgccttctt 1620
gtctggcgaa cagaagaaag ccattgtcga tctcctgttc aagaccaacc gaaaggtcac 1680
tgttaagcag ctcaaggagg actacttcaa gaaaatcgag tgtttcgaca gcgtcgagat 1740
ttccggagtt gaggaccgat tcaacgcctc tttgggcacc tatcacgatc tgctcaagat 1800
tatcaaggac aaggattttc tcgacaacga ggaaaacgag gacattctgg aggacatcgt 1860
gctcactctt accctgttcg aagatcggga gatgatcgag gaacgactca agacatacgc 1920
tcacctgttc gacgacaagg tcatgaaaca actcaagcga cgtagataca ccggctgggg 1980
aagactttcg cgaaagctca tcaacggcat cagagacaag cagtccggaa agaccattct 2040
ggactttctc aagtccgatg gctttgccaa ccgaaacttc atgcagctca ttcacgacga 2100
ttctcttacc ttcaaggagg acatccagaa ggcacaagtg tccggtcagg gcgacagctt 2160
gcacgaacat attgccaacc tggctggttc gccagccatc aagaaaggca ttctccagac 2220
tgtcaaggtt gtcgacgagc tggtgaaggt catgggacgt cacaagcccg agaacattgt 2280
gatcgagatg gccagagaga accagacaac tcaaaagggt cagaaaaact cgcgagagcg 2340
gatgaagcga atcgaggaag gcatcaagga gctgggatcc cagattctca aggagcatcc 2400
cgtcgagaac actcaactgc agaacgagaa gctgtatctc tactatctgc agaatggtcg 2460
agacatgtac gtggatcagg aactggacat caatcgtctc agcgactacg atgtggacca 2520
cattgtccct caatcctttc tcaaggacga ttctatcgac aacaaggtcc ttacacgatc 2580
cgacaagaac agaggcaagt cggacaacgt tcccagcgaa gaggtggtca aaaagatgaa 2640
gaactactgg cgacagctgc tcaacgccaa gctcattacc cagcgaaagt tcgacaatct 2700
taccaaggcc gagcgaggcg gtctgtccga gctcgacaag gctggcttca tcaagcgtca 2760
actcgtcgag accagacaga tcacaaagca cgtcgcacag attctcgatt ctcggatgaa 2820
caccaagtac gacgagaacg acaagctcat ccgagaggtc aaggtgatta ctctcaagtc 2880
caaactggtc tccgatttcc gaaaggactt tcagttctac aaggtgcgag agatcaacaa 2940
ttaccaccat gcccacgatg cttacctcaa cgccgtcgtt ggcactgcgc tcatcaagaa 3000
ataccccaag ctcgaaagcg agttcgttta cggcgattac aaggtctacg acgttcgaaa 3060
gatgattgcc aagtccgaac aggagattgg caaggctact gccaagtact tcttttactc 3120
caacatcatg aactttttca agaccgagat caccttggcc aacggagaga ttcgaaagag 3180
accacttatc gagaccaacg gcgaaactgg agagatcgtg tgggacaagg gtcgagactt 3240
tgcaaccgtg cgaaaggttc tgtcgatgcc tcaggtcaac atcgtcaaga aaaccgaggt 3300
tcagactggc ggattctcca aggagtcgat tctgcccaag cgaaactccg acaagctcat 3360
cgctcgaaag aaagactggg atcccaagaa atacggtggc ttcgattctc ctaccgtcgc 3420
ctattccgtg cttgtcgttg cgaaggtcga gaagggcaag tccaaaaagc tcaagtccgt 3480
caaggagctg ctcggaatta ccatcatgga gcgatcgagc ttcgagaaga atcccatcga 3540
cttcttggaa gccaagggtt acaaggaggt caagaaagac ctcattatca agctgcccaa 3600
gtactctctg ttcgaactgg agaacggtcg aaagcgtatg ctcgcctccg ctggcgagct 3660
gcagaaggga aacgagcttg ccttgccttc gaagtacgtc aactttctct atctggcttc 3720
tcactacgag aagctcaagg gttctcccga ggacaacgaa cagaagcaac tcttcgttga 3780
gcagcacaaa cattacctcg acgagattat cgagcagatt tccgagtttt cgaagcgagt 3840
catcctggct gatgccaact tggacaaggt gctctctgcc tacaacaagc atcgggacaa 3900
acccattcga gaacaggcgg agaacatcat tcacctgttt actcttacca acctgggtgc 3960
tcctgcagct ttcaagtact tcgataccac tatcgaccga aagcggtaca catccaccaa 4020
ggaggttctc gatgccaccc tgattcacca gtccatcact ggcctgtacg agacccgaat 4080
cgacctgtct cagcttggtg gcgactccag agccgatccc aagaaaaagc gaaaggtcta 4140
agcggccgca agtgtggatg gggaagtgag tgcccggttc tgtgtgcaca attggcaatc 4200
caagatggat ggattcaaca cagggatata gcgagctacg tggtggtgcg aggatatagc 4260
aacggatatt tatgtttgac acttgagaat gtacgataca agcactgtcc aagtacaata 4320
ctaaacatac tgtacatact catactcgta cccgggcaac ggtttcactt gagtgcagtg 4380
gctagtgctc ttactcgtac agtgtgcaat actgcgtatc atagtctttg atgtatatcg 4440
tattcattca tgttagttgc gtacgagccg gaagcataaa gtgtaaagcc tggggtgcct 4500
aatgagtgag ctaactcaca ttaattgcgt tgcgctcact gcccgctttc cagtcgggaa 4560
acctgtcgtg ccagctgcat taatgaatcg gccaacgcgc ggggagaggc ggtttgcgta 4620
ttgggcgctc ttccgcttcc tcgctcactg actcgctgcg ctcggtcgtt cggctgcggc 4680
gagcggtatc agctcactca aaggcggtaa tacggttatc cacagaatca ggggataacg 4740
caggaaagaa catgtgagca aaaggccagc aaaaggccag gaaccgtaaa aaggccgcgt 4800
tgctggcgtt tttccatagg ctccgccccc ctgacgagca tcacaaaaat cgacgctcaa 4860
gtcagaggtg gcgaaacccg acaggactat aaagatacca ggcgtttccc cctggaagct 4920
ccctcgtgcg ctctcctgtt ccgaccctgc cgcttaccgg atacctgtcc gcctttctcc 4980
cttcgggaag cgtggcgctt tctcatagct cacgctgtag gtatctcagt tcggtgtagg 5040
tcgttcgctc caagctgggc tgtgtgcacg aaccccccgt tcagcccgac cgctgcgcct 5100
tatccggtaa ctatcgtctt gagtccaacc cggtaagaca cgacttatcg ccactggcag 5160
cagccactgg taacaggatt agcagagcga ggtatgtagg cggtgctaca gagttcttga 5220
agtggtggcc taactacggc tacactagaa ggacagtatt tggtatctgc gctctgctga 5280
agccagttac cttcggaaaa agagttggta gctcttgatc cggcaaacaa accaccgctg 5340
gtagcggtgg tttttttgtt tgcaagcagc agattacgcg cagaaaaaaa ggatctcaag 5400
aagatccttt gatcttttct acggggtctg acgctcagtg gaacgaaaac tcacgttaag 5460
ggattttggt catgagatta tcaaaaagga tcttcaccta gatcctttta aattaaaaat 5520
gaagttttaa atcaatctaa agtatatatg agtaaacttg gtctgacagt taccaatgct 5580
taatcagtga ggcacctatc tcagcgatct gtctatttcg ttcatccata gttgcctgac 5640
tccccgtcgt gtagataact acgatacggg agggcttacc atctggcccc agtgctgcaa 5700
tgataccgcg agacccacgc tcaccggctc cagatttatc agcaataaac cagccagccg 5760
gaagggccga gcgcagaagt ggtcctgcaa ctttatccgc ctccatccag tctattaatt 5820
gttgccggga agctagagta agtagttcgc cagttaatag tttgcgcaac gttgttgcca 5880
ttgctacagg catcgtggtg tcacgctcgt cgtttggtat ggcttcattc agctccggtt 5940
cccaacgatc aaggcgagtt acatgatccc ccatgttgtg caaaaaagcg gttagctcct 6000
tcggtcctcc gatcgttgtc agaagtaagt tggccgcagt gttatcactc atggttatgg 6060
cagcactgca taattctctt actgtcatgc catccgtaag atgcttttct gtgactggtg 6120
agtactcaac caagtcattc tgagaatagt gtatgcggcg accgagttgc tcttgcccgg 6180
cgtcaatacg ggataatacc gcgccacata gcagaacttt aaaagtgctc atcattggaa 6240
aacgttcttc ggggcgaaaa ctctcaagga tcttaccgct gttgagatcc agttcgatgt 6300
aacccactcg tgcacccaac tgatcttcag catcttttac tttcaccagc gtttctgggt 6360
gagcaaaaac aggaaggcaa aatgccgcaa aaaagggaat aagggcgaca cggaaatgtt 6420
gaatactcat actcttcctt tttcaatatt attgaagcat ttatcagggt tattgtctca 6480
tgagcggata catatttgaa tgtatttaga aaaataaaca aataggggtt ccgcgcacat 6540
ttccccgaaa agtgccacct gacgcgccct gtagcggcgc attaagcgcg gcgggtgtgg 6600
tggttacgcg cagcgtgacc gctacacttg ccagcgccct agcgcccgct cctttcgctt 6660
tcttcccttc ctttctcgcc acgttcgccg gctttccccg tcaagctcta aatcgggggc 6720
tccctttagg gttccgattt agtgctttac ggcacctcga ccccaaaaaa cttgattagg 6780
gtgatggttc acgtagtggg ccatcgccct gatagacggt ttttcgccct ttgacgttgg 6840
agtccacgtt ctttaatagt ggactcttgt tccaaactgg aacaacactc aaccctatct 6900
cggtctattc ttttgattta taagggattt tgccgatttc ggcctattgg ttaaaaaatg 6960
agctgattta acaaaaattt aacgcgaatt ttaacaaaat attaacgctt acaatttcca 7020
ttcgccattc aggctgcgca actgttggga agggcgatcg gtgcgggcct cttcgctatt 7080
acgccagctg gcgaaagggg gatgtgctgc aaggcgatta agttgggtaa cgccagggtt 7140
ttcccagtca cgacgttgta aaacgacggc cagtgaattg taatacgact cactataggg 7200
cgaattgggt accgggcccc ccctcgaggt cgatggtgtc gataagcttg atatcgaatt 7260
catgtcacac aaaccgatct tcgcctcaag gaaacctaat tctacatccg agagactgcc 7320
gagatccagt ctacactgat taattttcgg gccaataatt taaaaaaatc gtgttatata 7380
atattatatg tattatatat atacatcatg atgatactga cagtcatgtc ccattgctaa 7440
atagacagac tccatctgcc gcctccaact gatgttctca atatttaagg ggtcatctcg 7500
cattgtttaa taataaacag actccatcta ccgcctccaa atgatgttct caaaatatat 7560
tgtatgaact tatttttatt acttagtatt attagacaac ttacttgctt tatgaaaaac 7620
acttcctatt taggaaacaa tttataatgg cagttcgttc atttaacaat ttatgtagaa 7680
taaatgttat aaatgcgtat gggaaatctt aaatatggat agcataaatg atatctgcat 7740
tgcctaattc gaaatcaaca gcaacgaaaa aaatcccttg tacaacataa atagtcatcg 7800
agaaatatca actatcaaag aacagctatt cacacgttac tattgagatt attattggac 7860
gagaatcaca cactcaactg tctttctctc ttctagaaat acaggtacaa gtatgtacta 7920
ttctcattgt tcatacttct agtcatttca tcccacatat tccttggatt tctctccaat 7980
gaatgacatt ctatcttgca aattcaacaa ttataataag atataccaaa gtagcggtat 8040
agtggcaatc aaaaagcttc tctggtgtgc ttctcgtatt tatttttatt ctaatgatcc 8100
attaaaggta tatatttatt tcttgttata taatcctttt gtttattaca tgggctggat 8160
acataaaggt attttgattt aattttttgc ttaaattcaa tcccccctcg ttcagtgtca 8220
actgtaatgg taggaaatta ccatactttt gaagaagcaa aaaaaatgaa agaaaaaaaa 8280
aatcgtattt ccaggttaga cgttccgcag aatctagaat gcggtatgcg gtacattgtt 8340
cttcgaacgt aaaagttgcg ctccctgaga tattgtacat ttttgctttt acaagtacaa 8400
gtacatcgta caactatgta ctactgttga tgcatccaca acagtttgtt ttgttttttt 8460
ttgttttttt tttttctaat gattcattac cgctatgtat acctacttgt acttgtagta 8520
agccgggtta ttggcgttca attaatcata gacttatgaa tctgcacggt gtgcgctgcg 8580
agttactttt agcttatgca tgctacttgg gtgtaatatt gggatctgtt cggaaatcaa 8640
cggatgctca atcgatttcg acagtaatta attaagtcat acacaagtca gctttcttcg 8700
agcctcatat aagtataagt agttcaacgt attagcactg tacccagcat ctccgtatcg 8760
agaaacacaa caacatgccc cattggacag atcatgcgga tacacaggtt gtgcagtatc 8820
atacatactc gatcagacag gtcgtctgac catcatacaa gctgaacaag cgctccatac 8880
ttgcacgctc tctatataca cagttaaatt acatatccat agtctaacct ctaacagtta 8940
atcttctggt aagcctccca gccagccttc tggtatcgct tggcctcctc aataggatct 9000
cggttctggc cgtacagacc tcggccgaca attatgatat ccgttccggt agacatgaca 9060
tcctcaacag ttcggtactg ctgtccgaga gcgtctccct tgtcgtcaag acccaccccg 9120
ggggtcagaa taagccagtc ctcagagtcg cccttaggtc ggttctgggc aatgaagcca 9180
accacaaact cggggtcgga tcgggcaagc tcaatggtct gcttggagta ctcgccagtg 9240
gccagagagc ccttgcaaga cagctcggcc agcatgagca gacctctggc cagcttctcg 9300
ttgggagagg ggactaggaa ctccttgtac tgggagttct cgtagtcaga gacgtcctcc 9360
ttcttctgtt cagagacagt ttcctcggca ccagctcgca ggccagcaat gattccggtt 9420
ccgggtacac cgtgggcgtt ggtgatatcg gaccactcgg cgattcggtg acaccggtac 9480
tggtgcttga cagtgttgcc aatatctgcg aactttctgt cctcgaacag gaagaaaccg 9540
tgcttaagag caagttcctt gagggggagc acagtgccgg cgtaggtgaa gtcgtcaatg 9600
atgtcgatat gggttttgat catgcacaca taaggtccga ccttatcggc aagctcaatg 9660
agctccttgg tggtggtaac atccagagaa gcacacaggt tggttttctt ggctgccacg 9720
agcttgagca ctcgagcggc aaaggcggac ttgtggacgt tagctcgagc ttcgtaggag 9780
ggcattttgg tggtgaagag gagactgaaa taaatttagt ctgcagaact ttttatcgga 9840
accttatctg gggcagtgaa gtatatgtta tggtaatagt tacgagttag ttgaacttat 9900
agatagactg gactatacgg ctatcggtcc aaattagaaa gaacgtcaat ggctctctgg 9960
gcgtcgcctt tgccgacaaa aatgtgatca tgatgaaagc cagcaatgac gttgcagctg 10020
atattgttgt cggccaaccg cgccgaaaac gcagctgtca gacccacagc ctccaacgaa 10080
gaatgtatcg tcaaagtgat ccaagcacac tcatagttgg agtcgtactc caaaggcggc 10140
aatgacgagt cagacagata ctcgtcgacg tttaaaccat catctaaggg cctcaaaact 10200
acctcggaac tgctgcgctg atctggacac cacagaggtt ccgagcactt taggttgcac 10260
caaatgtccc accaggtgca ggcagaaaac gctggaacag cgtgtacagt ttgtcttaac 10320
aaaaagtgag ggcgctgagg tcgagcaggg tggtgtgact tgttatagcc tttagagctg 10380
cgaaagcgcg tatggatttg gctcatcagg ccagattgag ggtctgtgga cacatgtcat 10440
gttagtgtac ttcaatcgcc ccctggatat agccccgaca ataggccgtg gcctcatttt 10500
tttgccttcc gcacatttcc attgctcggt acccacacct tgcttctcct gcacttgcca 10560
accttaatac tggtttacat tgaccaacat cttacaagcg gggggcttgt ctagggtata 10620
tataaacagt ggctctccca atcggttgcc agtctctttt ttcctttctt tccccacaga 10680
ttcgaaatct aaactacaca tcacac 10706
<210> 7
<211> 47
<212> DNA
<213> Artificial sequence
<220>
<223> AarI-removal 1
<400> 7
agaagtatcc taccatctac catctccgaa agaaactcgt cgattcc 47
<210> 8
<211> 47
<212> DNA
<213> Artificial sequence
<220>
<223> AarI-removal 2
<400> 8
ggaatcgacg agtttctttc ggagatggta gatggtagga tacttct 47
<210> 9
<211> 10706
<212> DNA
<213> Artificial sequence
<220>
<223> pRF109
<400> 9
catggacaag aaatactcca tcggcctgga cattggaacc aactctgtcg gctgggctgt 60
catcaccgac gagtacaagg tgccctccaa gaaattcaag gtcctcggaa acaccgatcg 120
acactccatc aagaaaaacc tcattggtgc cctgttgttc gattctggcg agactgccga 180
agctaccaga ctcaagcgaa ctgctcggcg acgttacacc cgacggaaga accgaatctg 240
ctacctgcag gagatctttt ccaacgagat ggccaaggtg gacgattcgt tctttcatcg 300
actggaggaa tccttcctcg tcgaggaaga caagaaacac gagcgtcatc ccatctttgg 360
caacattgtg gacgaggttg cttaccacga gaagtatcct accatctacc atctccgaaa 420
gaaactcgtc gattccaccg acaaggcgga tctcagactt atctacctcg ctctggcaca 480
catgatcaag tttcgaggtc atttcctcat cgagggcgat ctcaatcccg acaacagcga 540
tgtggacaag ctgttcattc agctcgttca gacctacaac cagctgttcg aggaaaaccc 600
catcaatgcc tccggagtcg atgcaaaggc catcttgtct gctcgactct cgaagagcag 660
acgactggag aacctcattg cccaacttcc tggcgagaaa aagaacggac tgtttggcaa 720
cctcattgcc ctttctcttg gtctcacacc caacttcaag tccaacttcg atctggcgga 780
ggacgccaag ctccagctgt ccaaggacac ctacgacgat gacctcgaca acctgcttgc 840
acagattggc gatcagtacg ccgacctgtt tctcgctgcc aagaaccttt cggatgctat 900
tctcttgtct gacattctgc gagtcaacac cgagatcaca aaggctcccc tttctgcctc 960
catgatcaag cgatacgacg agcaccatca ggatctcaca ctgctcaagg ctcttgtccg 1020
acagcaactg cccgagaagt acaaggagat ctttttcgat cagtcgaaga acggctacgc 1080
tggatacatc gacggcggag cctctcagga agagttctac aagttcatca agccaattct 1140
cgagaagatg gacggaaccg aggaactgct tgtcaagctc aatcgagagg atctgcttcg 1200
gaagcaacga accttcgaca acggcagcat tcctcatcag atccacctcg gtgagctgca 1260
cgccattctt cgacgtcagg aagacttcta cccctttctc aaggacaacc gagagaagat 1320
cgagaagatt cttacctttc gaatccccta ctatgttggt cctcttgcca gaggaaactc 1380
tcgatttgct tggatgactc gaaagtccga ggaaaccatc actccctgga acttcgagga 1440
agtcgtggac aagggtgcct ctgcacagtc cttcatcgag cgaatgacca acttcgacaa 1500
gaatctgccc aacgagaagg ttcttcccaa gcattcgctg ctctacgagt actttacagt 1560
ctacaacgaa ctcaccaaag tcaagtacgt taccgaggga atgcgaaagc ctgccttctt 1620
gtctggcgaa cagaagaaag ccattgtcga tctcctgttc aagaccaacc gaaaggtcac 1680
tgttaagcag ctcaaggagg actacttcaa gaaaatcgag tgtttcgaca gcgtcgagat 1740
ttccggagtt gaggaccgat tcaacgcctc tttgggcacc tatcacgatc tgctcaagat 1800
tatcaaggac aaggattttc tcgacaacga ggaaaacgag gacattctgg aggacatcgt 1860
gctcactctt accctgttcg aagatcggga gatgatcgag gaacgactca agacatacgc 1920
tcacctgttc gacgacaagg tcatgaaaca actcaagcga cgtagataca ccggctgggg 1980
aagactttcg cgaaagctca tcaacggcat cagagacaag cagtccggaa agaccattct 2040
ggactttctc aagtccgatg gctttgccaa ccgaaacttc atgcagctca ttcacgacga 2100
ttctcttacc ttcaaggagg acatccagaa ggcacaagtg tccggtcagg gcgacagctt 2160
gcacgaacat attgccaacc tggctggttc gccagccatc aagaaaggca ttctccagac 2220
tgtcaaggtt gtcgacgagc tggtgaaggt catgggacgt cacaagcccg agaacattgt 2280
gatcgagatg gccagagaga accagacaac tcaaaagggt cagaaaaact cgcgagagcg 2340
gatgaagcga atcgaggaag gcatcaagga gctgggatcc cagattctca aggagcatcc 2400
cgtcgagaac actcaactgc agaacgagaa gctgtatctc tactatctgc agaatggtcg 2460
agacatgtac gtggatcagg aactggacat caatcgtctc agcgactacg atgtggacca 2520
cattgtccct caatcctttc tcaaggacga ttctatcgac aacaaggtcc ttacacgatc 2580
cgacaagaac agaggcaagt cggacaacgt tcccagcgaa gaggtggtca aaaagatgaa 2640
gaactactgg cgacagctgc tcaacgccaa gctcattacc cagcgaaagt tcgacaatct 2700
taccaaggcc gagcgaggcg gtctgtccga gctcgacaag gctggcttca tcaagcgtca 2760
actcgtcgag accagacaga tcacaaagca cgtcgcacag attctcgatt ctcggatgaa 2820
caccaagtac gacgagaacg acaagctcat ccgagaggtc aaggtgatta ctctcaagtc 2880
caaactggtc tccgatttcc gaaaggactt tcagttctac aaggtgcgag agatcaacaa 2940
ttaccaccat gcccacgatg cttacctcaa cgccgtcgtt ggcactgcgc tcatcaagaa 3000
ataccccaag ctcgaaagcg agttcgttta cggcgattac aaggtctacg acgttcgaaa 3060
gatgattgcc aagtccgaac aggagattgg caaggctact gccaagtact tcttttactc 3120
caacatcatg aactttttca agaccgagat caccttggcc aacggagaga ttcgaaagag 3180
accacttatc gagaccaacg gcgaaactgg agagatcgtg tgggacaagg gtcgagactt 3240
tgcaaccgtg cgaaaggttc tgtcgatgcc tcaggtcaac atcgtcaaga aaaccgaggt 3300
tcagactggc ggattctcca aggagtcgat tctgcccaag cgaaactccg acaagctcat 3360
cgctcgaaag aaagactggg atcccaagaa atacggtggc ttcgattctc ctaccgtcgc 3420
ctattccgtg cttgtcgttg cgaaggtcga gaagggcaag tccaaaaagc tcaagtccgt 3480
caaggagctg ctcggaatta ccatcatgga gcgatcgagc ttcgagaaga atcccatcga 3540
cttcttggaa gccaagggtt acaaggaggt caagaaagac ctcattatca agctgcccaa 3600
gtactctctg ttcgaactgg agaacggtcg aaagcgtatg ctcgcctccg ctggcgagct 3660
gcagaaggga aacgagcttg ccttgccttc gaagtacgtc aactttctct atctggcttc 3720
tcactacgag aagctcaagg gttctcccga ggacaacgaa cagaagcaac tcttcgttga 3780
gcagcacaaa cattacctcg acgagattat cgagcagatt tccgagtttt cgaagcgagt 3840
catcctggct gatgccaact tggacaaggt gctctctgcc tacaacaagc atcgggacaa 3900
acccattcga gaacaggcgg agaacatcat tcacctgttt actcttacca acctgggtgc 3960
tcctgcagct ttcaagtact tcgataccac tatcgaccga aagcggtaca catccaccaa 4020
ggaggttctc gatgccaccc tgattcacca gtccatcact ggcctgtacg agacccgaat 4080
cgacctgtct cagcttggtg gcgactccag agccgatccc aagaaaaagc gaaaggtcta 4140
agcggccgca agtgtggatg gggaagtgag tgcccggttc tgtgtgcaca attggcaatc 4200
caagatggat ggattcaaca cagggatata gcgagctacg tggtggtgcg aggatatagc 4260
aacggatatt tatgtttgac acttgagaat gtacgataca agcactgtcc aagtacaata 4320
ctaaacatac tgtacatact catactcgta cccgggcaac ggtttcactt gagtgcagtg 4380
gctagtgctc ttactcgtac agtgtgcaat actgcgtatc atagtctttg atgtatatcg 4440
tattcattca tgttagttgc gtacgagccg gaagcataaa gtgtaaagcc tggggtgcct 4500
aatgagtgag ctaactcaca ttaattgcgt tgcgctcact gcccgctttc cagtcgggaa 4560
acctgtcgtg ccagctgcat taatgaatcg gccaacgcgc ggggagaggc ggtttgcgta 4620
ttgggcgctc ttccgcttcc tcgctcactg actcgctgcg ctcggtcgtt cggctgcggc 4680
gagcggtatc agctcactca aaggcggtaa tacggttatc cacagaatca ggggataacg 4740
caggaaagaa catgtgagca aaaggccagc aaaaggccag gaaccgtaaa aaggccgcgt 4800
tgctggcgtt tttccatagg ctccgccccc ctgacgagca tcacaaaaat cgacgctcaa 4860
gtcagaggtg gcgaaacccg acaggactat aaagatacca ggcgtttccc cctggaagct 4920
ccctcgtgcg ctctcctgtt ccgaccctgc cgcttaccgg atacctgtcc gcctttctcc 4980
cttcgggaag cgtggcgctt tctcatagct cacgctgtag gtatctcagt tcggtgtagg 5040
tcgttcgctc caagctgggc tgtgtgcacg aaccccccgt tcagcccgac cgctgcgcct 5100
tatccggtaa ctatcgtctt gagtccaacc cggtaagaca cgacttatcg ccactggcag 5160
cagccactgg taacaggatt agcagagcga ggtatgtagg cggtgctaca gagttcttga 5220
agtggtggcc taactacggc tacactagaa ggacagtatt tggtatctgc gctctgctga 5280
agccagttac cttcggaaaa agagttggta gctcttgatc cggcaaacaa accaccgctg 5340
gtagcggtgg tttttttgtt tgcaagcagc agattacgcg cagaaaaaaa ggatctcaag 5400
aagatccttt gatcttttct acggggtctg acgctcagtg gaacgaaaac tcacgttaag 5460
ggattttggt catgagatta tcaaaaagga tcttcaccta gatcctttta aattaaaaat 5520
gaagttttaa atcaatctaa agtatatatg agtaaacttg gtctgacagt taccaatgct 5580
taatcagtga ggcacctatc tcagcgatct gtctatttcg ttcatccata gttgcctgac 5640
tccccgtcgt gtagataact acgatacggg agggcttacc atctggcccc agtgctgcaa 5700
tgataccgcg agacccacgc tcaccggctc cagatttatc agcaataaac cagccagccg 5760
gaagggccga gcgcagaagt ggtcctgcaa ctttatccgc ctccatccag tctattaatt 5820
gttgccggga agctagagta agtagttcgc cagttaatag tttgcgcaac gttgttgcca 5880
ttgctacagg catcgtggtg tcacgctcgt cgtttggtat ggcttcattc agctccggtt 5940
cccaacgatc aaggcgagtt acatgatccc ccatgttgtg caaaaaagcg gttagctcct 6000
tcggtcctcc gatcgttgtc agaagtaagt tggccgcagt gttatcactc atggttatgg 6060
cagcactgca taattctctt actgtcatgc catccgtaag atgcttttct gtgactggtg 6120
agtactcaac caagtcattc tgagaatagt gtatgcggcg accgagttgc tcttgcccgg 6180
cgtcaatacg ggataatacc gcgccacata gcagaacttt aaaagtgctc atcattggaa 6240
aacgttcttc ggggcgaaaa ctctcaagga tcttaccgct gttgagatcc agttcgatgt 6300
aacccactcg tgcacccaac tgatcttcag catcttttac tttcaccagc gtttctgggt 6360
gagcaaaaac aggaaggcaa aatgccgcaa aaaagggaat aagggcgaca cggaaatgtt 6420
gaatactcat actcttcctt tttcaatatt attgaagcat ttatcagggt tattgtctca 6480
tgagcggata catatttgaa tgtatttaga aaaataaaca aataggggtt ccgcgcacat 6540
ttccccgaaa agtgccacct gacgcgccct gtagcggcgc attaagcgcg gcgggtgtgg 6600
tggttacgcg cagcgtgacc gctacacttg ccagcgccct agcgcccgct cctttcgctt 6660
tcttcccttc ctttctcgcc acgttcgccg gctttccccg tcaagctcta aatcgggggc 6720
tccctttagg gttccgattt agtgctttac ggcacctcga ccccaaaaaa cttgattagg 6780
gtgatggttc acgtagtggg ccatcgccct gatagacggt ttttcgccct ttgacgttgg 6840
agtccacgtt ctttaatagt ggactcttgt tccaaactgg aacaacactc aaccctatct 6900
cggtctattc ttttgattta taagggattt tgccgatttc ggcctattgg ttaaaaaatg 6960
agctgattta acaaaaattt aacgcgaatt ttaacaaaat attaacgctt acaatttcca 7020
ttcgccattc aggctgcgca actgttggga agggcgatcg gtgcgggcct cttcgctatt 7080
acgccagctg gcgaaagggg gatgtgctgc aaggcgatta agttgggtaa cgccagggtt 7140
ttcccagtca cgacgttgta aaacgacggc cagtgaattg taatacgact cactataggg 7200
cgaattgggt accgggcccc ccctcgaggt cgatggtgtc gataagcttg atatcgaatt 7260
catgtcacac aaaccgatct tcgcctcaag gaaacctaat tctacatccg agagactgcc 7320
gagatccagt ctacactgat taattttcgg gccaataatt taaaaaaatc gtgttatata 7380
atattatatg tattatatat atacatcatg atgatactga cagtcatgtc ccattgctaa 7440
atagacagac tccatctgcc gcctccaact gatgttctca atatttaagg ggtcatctcg 7500
cattgtttaa taataaacag actccatcta ccgcctccaa atgatgttct caaaatatat 7560
tgtatgaact tatttttatt acttagtatt attagacaac ttacttgctt tatgaaaaac 7620
acttcctatt taggaaacaa tttataatgg cagttcgttc atttaacaat ttatgtagaa 7680
taaatgttat aaatgcgtat gggaaatctt aaatatggat agcataaatg atatctgcat 7740
tgcctaattc gaaatcaaca gcaacgaaaa aaatcccttg tacaacataa atagtcatcg 7800
agaaatatca actatcaaag aacagctatt cacacgttac tattgagatt attattggac 7860
gagaatcaca cactcaactg tctttctctc ttctagaaat acaggtacaa gtatgtacta 7920
ttctcattgt tcatacttct agtcatttca tcccacatat tccttggatt tctctccaat 7980
gaatgacatt ctatcttgca aattcaacaa ttataataag atataccaaa gtagcggtat 8040
agtggcaatc aaaaagcttc tctggtgtgc ttctcgtatt tatttttatt ctaatgatcc 8100
attaaaggta tatatttatt tcttgttata taatcctttt gtttattaca tgggctggat 8160
acataaaggt attttgattt aattttttgc ttaaattcaa tcccccctcg ttcagtgtca 8220
actgtaatgg taggaaatta ccatactttt gaagaagcaa aaaaaatgaa agaaaaaaaa 8280
aatcgtattt ccaggttaga cgttccgcag aatctagaat gcggtatgcg gtacattgtt 8340
cttcgaacgt aaaagttgcg ctccctgaga tattgtacat ttttgctttt acaagtacaa 8400
gtacatcgta caactatgta ctactgttga tgcatccaca acagtttgtt ttgttttttt 8460
ttgttttttt tttttctaat gattcattac cgctatgtat acctacttgt acttgtagta 8520
agccgggtta ttggcgttca attaatcata gacttatgaa tctgcacggt gtgcgctgcg 8580
agttactttt agcttatgca tgctacttgg gtgtaatatt gggatctgtt cggaaatcaa 8640
cggatgctca atcgatttcg acagtaatta attaagtcat acacaagtca gctttcttcg 8700
agcctcatat aagtataagt agttcaacgt attagcactg tacccagcat ctccgtatcg 8760
agaaacacaa caacatgccc cattggacag atcatgcgga tacacaggtt gtgcagtatc 8820
atacatactc gatcagacag gtcgtctgac catcatacaa gctgaacaag cgctccatac 8880
ttgcacgctc tctatataca cagttaaatt acatatccat agtctaacct ctaacagtta 8940
atcttctggt aagcctccca gccagccttc tggtatcgct tggcctcctc aataggatct 9000
cggttctggc cgtacagacc tcggccgaca attatgatat ccgttccggt agacatgaca 9060
tcctcaacag ttcggtactg ctgtccgaga gcgtctccct tgtcgtcaag acccaccccg 9120
ggggtcagaa taagccagtc ctcagagtcg cccttaggtc ggttctgggc aatgaagcca 9180
accacaaact cggggtcgga tcgggcaagc tcaatggtct gcttggagta ctcgccagtg 9240
gccagagagc ccttgcaaga cagctcggcc agcatgagca gacctctggc cagcttctcg 9300
ttgggagagg ggactaggaa ctccttgtac tgggagttct cgtagtcaga gacgtcctcc 9360
ttcttctgtt cagagacagt ttcctcggca ccagctcgca ggccagcaat gattccggtt 9420
ccgggtacac cgtgggcgtt ggtgatatcg gaccactcgg cgattcggtg acaccggtac 9480
tggtgcttga cagtgttgcc aatatctgcg aactttctgt cctcgaacag gaagaaaccg 9540
tgcttaagag caagttcctt gagggggagc acagtgccgg cgtaggtgaa gtcgtcaatg 9600
atgtcgatat gggttttgat catgcacaca taaggtccga ccttatcggc aagctcaatg 9660
agctccttgg tggtggtaac atccagagaa gcacacaggt tggttttctt ggctgccacg 9720
agcttgagca ctcgagcggc aaaggcggac ttgtggacgt tagctcgagc ttcgtaggag 9780
ggcattttgg tggtgaagag gagactgaaa taaatttagt ctgcagaact ttttatcgga 9840
accttatctg gggcagtgaa gtatatgtta tggtaatagt tacgagttag ttgaacttat 9900
agatagactg gactatacgg ctatcggtcc aaattagaaa gaacgtcaat ggctctctgg 9960
gcgtcgcctt tgccgacaaa aatgtgatca tgatgaaagc cagcaatgac gttgcagctg 10020
atattgttgt cggccaaccg cgccgaaaac gcagctgtca gacccacagc ctccaacgaa 10080
gaatgtatcg tcaaagtgat ccaagcacac tcatagttgg agtcgtactc caaaggcggc 10140
aatgacgagt cagacagata ctcgtcgacg tttaaaccat catctaaggg cctcaaaact 10200
acctcggaac tgctgcgctg atctggacac cacagaggtt ccgagcactt taggttgcac 10260
caaatgtccc accaggtgca ggcagaaaac gctggaacag cgtgtacagt ttgtcttaac 10320
aaaaagtgag ggcgctgagg tcgagcaggg tggtgtgact tgttatagcc tttagagctg 10380
cgaaagcgcg tatggatttg gctcatcagg ccagattgag ggtctgtgga cacatgtcat 10440
gttagtgtac ttcaatcgcc ccctggatat agccccgaca ataggccgtg gcctcatttt 10500
tttgccttcc gcacatttcc attgctcggt acccacacct tgcttctcct gcacttgcca 10560
accttaatac tggtttacat tgaccaacat cttacaagcg gggggcttgt ctagggtata 10620
tataaacagt ggctctccca atcggttgcc agtctctttt ttcctttctt tccccacaga 10680
ttcgaaatct aaactacaca tcacac 10706
<210> 10
<211> 4140
<212> DNA
<213> Artificial sequence
<220>
<223> Aar1- Cas9 ORF
<400> 10
atggacaaga aatactccat cggcctggac attggaacca actctgtcgg ctgggctgtc 60
atcaccgacg agtacaaggt gccctccaag aaattcaagg tcctcggaaa caccgatcga 120
cactccatca agaaaaacct cattggtgcc ctgttgttcg attctggcga gactgccgaa 180
gctaccagac tcaagcgaac tgctcggcga cgttacaccc gacggaagaa ccgaatctgc 240
tacctgcagg agatcttttc caacgagatg gccaaggtgg acgattcgtt ctttcatcga 300
ctggaggaat ccttcctcgt cgaggaagac aagaaacacg agcgtcatcc catctttggc 360
aacattgtgg acgaggttgc ttaccacgag aagtatccta ccatctacca tctccgaaag 420
aaactcgtcg attccaccga caaggcggat ctcagactta tctacctcgc tctggcacac 480
atgatcaagt ttcgaggtca tttcctcatc gagggcgatc tcaatcccga caacagcgat 540
gtggacaagc tgttcattca gctcgttcag acctacaacc agctgttcga ggaaaacccc 600
atcaatgcct ccggagtcga tgcaaaggcc atcttgtctg ctcgactctc gaagagcaga 660
cgactggaga acctcattgc ccaacttcct ggcgagaaaa agaacggact gtttggcaac 720
ctcattgccc tttctcttgg tctcacaccc aacttcaagt ccaacttcga tctggcggag 780
gacgccaagc tccagctgtc caaggacacc tacgacgatg acctcgacaa cctgcttgca 840
cagattggcg atcagtacgc cgacctgttt ctcgctgcca agaacctttc ggatgctatt 900
ctcttgtctg acattctgcg agtcaacacc gagatcacaa aggctcccct ttctgcctcc 960
atgatcaagc gatacgacga gcaccatcag gatctcacac tgctcaaggc tcttgtccga 1020
cagcaactgc ccgagaagta caaggagatc tttttcgatc agtcgaagaa cggctacgct 1080
ggatacatcg acggcggagc ctctcaggaa gagttctaca agttcatcaa gccaattctc 1140
gagaagatgg acggaaccga ggaactgctt gtcaagctca atcgagagga tctgcttcgg 1200
aagcaacgaa ccttcgacaa cggcagcatt cctcatcaga tccacctcgg tgagctgcac 1260
gccattcttc gacgtcagga agacttctac ccctttctca aggacaaccg agagaagatc 1320
gagaagattc ttacctttcg aatcccctac tatgttggtc ctcttgccag aggaaactct 1380
cgatttgctt ggatgactcg aaagtccgag gaaaccatca ctccctggaa cttcgaggaa 1440
gtcgtggaca agggtgcctc tgcacagtcc ttcatcgagc gaatgaccaa cttcgacaag 1500
aatctgccca acgagaaggt tcttcccaag cattcgctgc tctacgagta ctttacagtc 1560
tacaacgaac tcaccaaagt caagtacgtt accgagggaa tgcgaaagcc tgccttcttg 1620
tctggcgaac agaagaaagc cattgtcgat ctcctgttca agaccaaccg aaaggtcact 1680
gttaagcagc tcaaggagga ctacttcaag aaaatcgagt gtttcgacag cgtcgagatt 1740
tccggagttg aggaccgatt caacgcctct ttgggcacct atcacgatct gctcaagatt 1800
atcaaggaca aggattttct cgacaacgag gaaaacgagg acattctgga ggacatcgtg 1860
ctcactctta ccctgttcga agatcgggag atgatcgagg aacgactcaa gacatacgct 1920
cacctgttcg acgacaaggt catgaaacaa ctcaagcgac gtagatacac cggctgggga 1980
agactttcgc gaaagctcat caacggcatc agagacaagc agtccggaaa gaccattctg 2040
gactttctca agtccgatgg ctttgccaac cgaaacttca tgcagctcat tcacgacgat 2100
tctcttacct tcaaggagga catccagaag gcacaagtgt ccggtcaggg cgacagcttg 2160
cacgaacata ttgccaacct ggctggttcg ccagccatca agaaaggcat tctccagact 2220
gtcaaggttg tcgacgagct ggtgaaggtc atgggacgtc acaagcccga gaacattgtg 2280
atcgagatgg ccagagagaa ccagacaact caaaagggtc agaaaaactc gcgagagcgg 2340
atgaagcgaa tcgaggaagg catcaaggag ctgggatccc agattctcaa ggagcatccc 2400
gtcgagaaca ctcaactgca gaacgagaag ctgtatctct actatctgca gaatggtcga 2460
gacatgtacg tggatcagga actggacatc aatcgtctca gcgactacga tgtggaccac 2520
attgtccctc aatcctttct caaggacgat tctatcgaca acaaggtcct tacacgatcc 2580
gacaagaaca gaggcaagtc ggacaacgtt cccagcgaag aggtggtcaa aaagatgaag 2640
aactactggc gacagctgct caacgccaag ctcattaccc agcgaaagtt cgacaatctt 2700
accaaggccg agcgaggcgg tctgtccgag ctcgacaagg ctggcttcat caagcgtcaa 2760
ctcgtcgaga ccagacagat cacaaagcac gtcgcacaga ttctcgattc tcggatgaac 2820
accaagtacg acgagaacga caagctcatc cgagaggtca aggtgattac tctcaagtcc 2880
aaactggtct ccgatttccg aaaggacttt cagttctaca aggtgcgaga gatcaacaat 2940
taccaccatg cccacgatgc ttacctcaac gccgtcgttg gcactgcgct catcaagaaa 3000
taccccaagc tcgaaagcga gttcgtttac ggcgattaca aggtctacga cgttcgaaag 3060
atgattgcca agtccgaaca ggagattggc aaggctactg ccaagtactt cttttactcc 3120
aacatcatga actttttcaa gaccgagatc accttggcca acggagagat tcgaaagaga 3180
ccacttatcg agaccaacgg cgaaactgga gagatcgtgt gggacaaggg tcgagacttt 3240
gcaaccgtgc gaaaggttct gtcgatgcct caggtcaaca tcgtcaagaa aaccgaggtt 3300
cagactggcg gattctccaa ggagtcgatt ctgcccaagc gaaactccga caagctcatc 3360
gctcgaaaga aagactggga tcccaagaaa tacggtggct tcgattctcc taccgtcgcc 3420
tattccgtgc ttgtcgttgc gaaggtcgag aagggcaagt ccaaaaagct caagtccgtc 3480
aaggagctgc tcggaattac catcatggag cgatcgagct tcgagaagaa tcccatcgac 3540
ttcttggaag ccaagggtta caaggaggtc aagaaagacc tcattatcaa gctgcccaag 3600
tactctctgt tcgaactgga gaacggtcga aagcgtatgc tcgcctccgc tggcgagctg 3660
cagaagggaa acgagcttgc cttgccttcg aagtacgtca actttctcta tctggcttct 3720
cactacgaga agctcaaggg ttctcccgag gacaacgaac agaagcaact cttcgttgag 3780
cagcacaaac attacctcga cgagattatc gagcagattt ccgagttttc gaagcgagtc 3840
atcctggctg atgccaactt ggacaaggtg ctctctgcct acaacaagca tcgggacaaa 3900
cccattcgag aacaggcgga gaacatcatt cacctgttta ctcttaccaa cctgggtgct 3960
cctgcagctt tcaagtactt cgataccact atcgaccgaa agcggtacac atccaccaag 4020
gaggttctcg atgccaccct gattcaccag tccatcactg gcctgtacga gacccgaatc 4080
gacctgtctc agcttggtgg cgactccaga gccgatccca agaaaaagcg aaaggtctaa 4140
<210> 11
<211> 10706
<212> DNA
<213> Artificial sequence
<220>
<223> pRF141
<400> 11
catggacaag aaatactcca tcggcctgga cattggaacc aactctgtcg gctgggctgt 60
catcaccgac gagtacaagg tgccctccaa gaaattcaag gtcctcggaa acaccgatcg 120
acactccatc aagaaaaacc tcattggtgc cctgttgttc gattctggcg agactgccga 180
agctaccaga ctcaagcgaa ctgctcggcg acgttacacc cgacggaaga accgaatctg 240
ctacctgcag gagatctttt ccaacgagat ggccaaggtg gacgattcgt tctttcatcg 300
actggaggaa tccttcctcg tcgaggaaga caagaaacac gagcgtcatc ccatctttgg 360
caacattgtg gacgaggttg cttaccacga gaagtatcct accatctacc atctccgaaa 420
gaaactcgtc gattccaccg acaaggcgga tctcagactt atctacctcg ctctggcaca 480
catgatcaag tttcgaggtc atttcctcat cgagggcgat ctcaatcccg acaacagcga 540
tgtggacaag ctgttcattc agctcgttca gacctacaac cagctgttcg aggaaaaccc 600
catcaatgcc tccggagtcg atgcaaaggc catcttgtct gctcgactct cgaagagcag 660
acgactggag aacctcattg cccaacttcc tggcgagaaa aagaacggac tgtttggcaa 720
cctcattgcc ctttctcttg gtctcacacc caacttcaag tccaacttcg atctggcgga 780
ggacgccaag ctccagctgt ccaaggacac ctacgacgat gacctcgaca acctgcttgc 840
acagattggc gatcagtacg ccgacctgtt tctcgctgcc aagaaccttt cggatgctat 900
tctcttgtct gacattctgc gagtcaacac cgagatcaca aaggctcccc tttctgcctc 960
catgatcaag cgatacgacg agcaccatca ggatctcaca ctgctcaagg ctcttgtccg 1020
acagcaactg cccgagaagt acaaggagat ctttttcgat cagtcgaaga acggctacgc 1080
tggatacatc gacggcggag cctctcagga agagttctac aagttcatca agccaattct 1140
cgagaagatg gacggaaccg aggaactgct tgtcaagctc aatcgagagg atctgcttcg 1200
gaagcaacga accttcgaca acggcagcat tcctcatcag atccacctcg gtgagctgca 1260
cgccattctt cgacgtcagg aagacttcta cccctttctc aaggacaacc gagagaagat 1320
cgagaagatt cttacctttc gaatccccta ctatgttggt cctcttgcca gaggaaactc 1380
tcgatttgct tggatgactc gaaagtccga ggaaaccatc actccctgga acttcgagga 1440
agtcgtggac aagggtgcct ctgcacagtc cttcatcgag cgaatgacca acttcgacaa 1500
gaatctgccc aacgagaagg ttcttcccaa gcattcgctg ctctacgagt actttacagt 1560
ctacaacgaa ctcaccaaag tcaagtacgt taccgaggga atgcgaaagc ctgccttctt 1620
gtctggcgaa cagaagaaag ccattgtcga tctcctgttc aagaccaacc gaaaggtcac 1680
tgttaagcag ctcaaggagg actacttcaa gaaaatcgag tgtttcgaca gcgtcgagat 1740
ttccggagtt gaggaccgat tcaacgcctc tttgggcacc tatcacgatc tgctcaagat 1800
tatcaaggac aaggattttc tcgacaacga ggaaaacgag gacattctgg aggacatcgt 1860
gctcactctt accctgttcg aagatcggga gatgatcgag gaacgactca agacatacgc 1920
tcacctgttc gacgacaagg tcatgaaaca actcaagcga cgtagataca ccggctgggg 1980
aagactttcg cgaaagctca tcaacggcat cagagacaag cagtccggaa agaccattct 2040
ggactttctc aagtccgatg gctttgccaa ccgaaacttc atgcagctca ttcacgacga 2100
ttctcttacc ttcaaggagg acatccagaa ggcacaagtg tccggtcagg gcgacagctt 2160
gcacgaacat attgccaacc tggctggttc gccagccatc aagaaaggca ttctccagac 2220
tgtcaaggtt gtcgacgagc tggtgaaggt catgggacgt cacaagcccg agaacattgt 2280
gatcgagatg gccagagaga accagacaac tcaaaagggt cagaaaaact cgcgagagcg 2340
gatgaagcga atcgaggaag gcatcaagga gctgggatcc cagattctca aggagcatcc 2400
cgtcgagaac actcaactgc agaacgagaa gctgtatctc tactatctgc agaatggtcg 2460
agacatgtac gtggatcagg aactggacat caatcgtctc agcgactacg atgtggacca 2520
cattgtccct caatcctttc tcaaggacga ttctatcgac aacaaggtcc ttacacgatc 2580
cgacaagaac agaggcaagt cggacaacgt tcccagcgaa gaggtggtca aaaagatgaa 2640
gaactactgg cgacagctgc tcaacgccaa gctcattacc cagcgaaagt tcgacaatct 2700
taccaaggcc gagcgaggcg gtctgtccga gctcgacaag gctggcttca tcaagcgtca 2760
actcgtcgag accagacaga tcacaaagca cgtcgcacag attctcgatt ctcggatgaa 2820
caccaagtac gacgagaacg acaagctcat ccgagaggtc aaggtgatta ctctcaagtc 2880
caaactggtc tccgatttcc gaaaggactt tcagttctac aaggtgcgag agatcaacaa 2940
ttaccaccat gcccacgatg cttacctcaa cgccgtcgtt ggcactgcgc tcatcaagaa 3000
ataccccaag ctcgaaagcg agttcgttta cggcgattac aaggtctacg acgttcgaaa 3060
gatgattgcc aagtccgaac aggagattgg caaggctact gccaagtact tcttttactc 3120
caacatcatg aactttttca agaccgagat caccttggcc aacggagaga ttcgaaagag 3180
accacttatc gagaccaacg gcgaaactgg agagatcgtg tgggacaagg gtcgagactt 3240
tgcaaccgtg cgaaaggttc tgtcgatgcc tcaggtcaac atcgtcaaga aaaccgaggt 3300
tcagactggc ggattctcca aggagtcgat tctgcccaag cgaaactccg acaagctcat 3360
cgctcgaaag aaagactggg atcccaagaa atacggtggc ttcgattctc ctaccgtcgc 3420
ctattccgtg cttgtcgttg cgaaggtcga gaagggcaag tccaaaaagc tcaagtccgt 3480
caaggagctg ctcggaatta ccatcatgga gcgatcgagc ttcgagaaga atcccatcga 3540
cttcttggaa gccaagggtt acaaggaggt caagaaagac ctcattatca agctgcccaa 3600
gtactctctg ttcgaactgg agaacggtcg aaagcgtatg ctcgcctccg ctggcgagct 3660
gcagaaggga aacgagcttg ccttgccttc gaagtacgtc aactttctct atctggcttc 3720
tcactacgag aagctcaagg gttctcccga ggacaacgaa cagaagcaac tcttcgttga 3780
gcagcacaaa cattacctcg acgagattat cgagcagatt tccgagtttt cgaagcgagt 3840
catcctggct gatgccaact tggacaaggt gctctctgcc tacaacaagc atcgggacaa 3900
acccattcga gaacaggcgg agaacatcat tcacctgttt actcttacca acctgggtgc 3960
tcctgcagct ttcaagtact tcgataccac tatcgaccga aagcggtaca catccaccaa 4020
ggaggttctc gatgccaccc tgattcacca gtccatcact ggcctgtacg agacccgaat 4080
cgacctgtct cagcttggtg gcgactccag agccgatccc aagaaaaagc gaaaggtcta 4140
agcggccgca agtgtggatg gggaagtgag tgcccggttc tgtgtgcaca attggcaatc 4200
caagatggat ggattcaaca cagggatata gcgagctacg tggtggtgcg aggatatagc 4260
aacggatatt tatgtttgac acttgagaat gtacgataca agcactgtcc aagtacaata 4320
ctaaacatac tgtacatact catactcgta cccgggcaac ggtttcactt gagtgcagtg 4380
gctagtgctc ttactcgtac agtgtgcaat actgcgtatc atagtctttg atgtatatcg 4440
tattcattca tgttagttgc gtacgagccg gaagcataaa gtgtaaagcc tggggtgcct 4500
aatgagtgag ctaactcaca ttaattgcgt tgcgctcact gcccgctttc cagtcgggaa 4560
acctgtcgtg ccagctgcat taatgaatcg gccaacgcgc ggggagaggc ggtttgcgta 4620
ttgggcgctc ttccgcttcc tcgctcactg actcgctgcg ctcggtcgtt cggctgcggc 4680
gagcggtatc agctcactca aaggcggtaa tacggttatc cacagaatca ggggataacg 4740
caggaaagaa catgtgagca aaaggccagc aaaaggccag gaaccgtaaa aaggccgcgt 4800
tgctggcgtt tttccatagg ctccgccccc ctgacgagca tcacaaaaat cgacgctcaa 4860
gtcagaggtg gcgaaacccg acaggactat aaagatacca ggcgtttccc cctggaagct 4920
ccctcgtgcg ctctcctgtt ccgaccctgc cgcttaccgg atacctgtcc gcctttctcc 4980
cttcgggaag cgtggcgctt tctcatagct cacgctgtag gtatctcagt tcggtgtagg 5040
tcgttcgctc caagctgggc tgtgtgcacg aaccccccgt tcagcccgac cgctgcgcct 5100
tatccggtaa ctatcgtctt gagtccaacc cggtaagaca cgacttatcg ccactggcag 5160
cagccactgg taacaggatt agcagagcga ggtatgtagg cggtgctaca gagttcttga 5220
agtggtggcc taactacggc tacactagaa ggacagtatt tggtatctgc gctctgctga 5280
agccagttac cttcggaaaa agagttggta gctcttgatc cggcaaacaa accaccgctg 5340
gtagcggtgg tttttttgtt tgcaagcagc agattacgcg cagaaaaaaa ggatctcaag 5400
aagatccttt gatcttttct acggggtctg acgctcagtg gaacgaaaac tcacgttaag 5460
ggattttggt catgagatta tcaaaaagga tcttcaccta gatcctttta aattaaaaat 5520
gaagttttaa atcaatctaa agtatatatg agtaaacttg gtctgacagt taccaatgct 5580
taatcagtga ggcacctatc tcagcgatct gtctatttcg ttcatccata gttgcctgac 5640
tccccgtcgt gtagataact acgatacggg agggcttacc atctggcccc agtgctgcaa 5700
tgataccgcg agacccacgc tcaccggctc cagatttatc agcaataaac cagccagccg 5760
gaagggccga gcgcagaagt ggtcctgcaa ctttatccgc ctccatccag tctattaatt 5820
gttgccggga agctagagta agtagttcgc cagttaatag tttgcgcaac gttgttgcca 5880
ttgctacagg catcgtggtg tcacgctcgt cgtttggtat ggcttcattc agctccggtt 5940
cccaacgatc aaggcgagtt acatgatccc ccatgttgtg caaaaaagcg gttagctcct 6000
tcggtcctcc gatcgttgtc agaagtaagt tggccgcagt gttatcactc atggttatgg 6060
cagcactgca taattctctt actgtcatgc catccgtaag atgcttttct gtgactggtg 6120
agtactcaac caagtcattc tgagaatagt gtatgcggcg accgagttgc tcttgcccgg 6180
cgtcaatacg ggataatacc gcgccacata gcagaacttt aaaagtgctc atcattggaa 6240
aacgttcttc ggggcgaaaa ctctcaagga tcttaccgct gttgagatcc agttcgatgt 6300
aacccactcg tgcacccaac tgatcttcag catcttttac tttcaccagc gtttctgggt 6360
gagcaaaaac aggaaggcaa aatgccgcaa aaaagggaat aagggcgaca cggaaatgtt 6420
gaatactcat actcttcctt tttcaatatt attgaagcat ttatcagggt tattgtctca 6480
tgagcggata catatttgaa tgtatttaga aaaataaaca aataggggtt ccgcgcacat 6540
ttccccgaaa agtgccacct gacgcgccct gtagcggcgc attaagcgcg gcgggtgtgg 6600
tggttacgcg cagcgtgacc gctacacttg ccagcgccct agcgcccgct cctttcgctt 6660
tcttcccttc ctttctcgcc acgttcgccg gctttccccg tcaagctcta aatcgggggc 6720
tccctttagg gttccgattt agtgctttac ggcacctcga ccccaaaaaa cttgattagg 6780
gtgatggttc acgtagtggg ccatcgccct gatagacggt ttttcgccct ttgacgttgg 6840
agtccacgtt ctttaatagt ggactcttgt tccaaactgg aacaacactc aaccctatct 6900
cggtctattc ttttgattta taagggattt tgccgatttc ggcctattgg ttaaaaaatg 6960
agctgattta acaaaaattt aacgcgaatt ttaacaaaat attaacgctt acaatttcca 7020
ttcgccattc aggctgcgca actgttggga agggcgatcg gtgcgggcct cttcgctatt 7080
acgccagctg gcgaaagggg gatgtgctgc aaggcgatta agttgggtaa cgccagggtt 7140
ttcccagtca cgacgttgta aaacgacggc cagtgaattg taatacgact cactataggg 7200
cgaattgggt accgggcccc ccctcgaggt cgatggtgtc gataagcttg atatcgaatt 7260
catgtcacac aaaccgatct tcgcctcaag gaaacctaat tctacatccg agagactgcc 7320
gagatccagt ctacactgat taattttcgg gccaataatt taaaaaaatc gtgttatata 7380
atattatatg tattatatat atacatcatg atgatactga cagtcatgtc ccattgctaa 7440
atagacagac tccatctgcc gcctccaact gatgttctca atatttaagg ggtcatctcg 7500
cattgtttaa taataaacag actccatcta ccgcctccaa atgatgttct caaaatatat 7560
tgtatgaact tatttttatt acttagtatt attagacaac ttacttgctt tatgaaaaac 7620
acttcctatt taggaaacaa tttataatgg cagttcgttc atttaacaat ttatgtagaa 7680
taaatgttat aaatgcgtat gggaaatctt aaatatggat agcataaatg atatctgcat 7740
tgcctaattc gaaatcaaca gcaacgaaaa aaatcccttg tacaacataa atagtcatcg 7800
agaaatatca actatcaaag aacagctatt cacacgttac tattgagatt attattggac 7860
gagaatcaca cactcaactg tctttctctc ttctagaaat acaggtacaa gtatgtacta 7920
ttctcattgt tcatacttct agtcatttca tcccacatat tccttggatt tctctccaat 7980
gaatgacatt ctatcttgca aattcaacaa ttataataag atataccaaa gtagcggtat 8040
agtggcaatc aaaaagcttc tctggtgtgc ttctcgtatt tatttttatt ctaatgatcc 8100
attaaaggta tatatttatt tcttgttata taatcctttt gtttattaca tgggctggat 8160
acataaaggt attttgattt aattttttgc ttaaattcaa tcccccctcg ttcagtgtca 8220
actgtaatgg taggaaatta ccatactttt gaagaagcaa aaaaaatgaa agaaaaaaaa 8280
aatcgtattt ccaggttaga cgttccgcag aatctagaat gcggtatgcg gtacattgtt 8340
cttcgaacgt aaaagttgcg ctccctgaga tattgtacat ttttgctttt acaagtacaa 8400
gtacatcgta caactatgta ctactgttga tgcatccaca acagtttgtt ttgttttttt 8460
ttgttttttt tttttctaat gattcattac cgctatgtat acctacttgt acttgtagta 8520
agccgggtta ttggcgttca attaatcata gacttatgaa tctgcacggt gtgcgctgcg 8580
agttactttt agcttatgca tgctacttgg gtgtaatatt gggatctgtt cggaaatcaa 8640
cggatgctca atcgatttcg acagtaatta attaagtcat acacaagtca gctttcttcg 8700
agcctcatat aagtataagt agttcaacgt attagcactg tacccagcat ctccgtatcg 8760
agaaacacaa caacatgccc cattggacag atcatgcgga tacacaggtt gtgcagtatc 8820
atacatactc gatcagacag gtcgtctgac catcatacaa gctgaacaag cgctccatac 8880
ttgcacgctc tctatataca cagttaaatt acatatccat agtctaacct ctaacagtta 8940
atcttctggt aagcctccca gccagccttc tggtatcgct tggcctcctc aataggatct 9000
cggttctggc cgtacagacc tcggccgaca attatgatat ccgttccggt agacatgaca 9060
tcctcaacag ttcggtactg ctgtccgaga gcgtctccct tgtcgtcaag acccaccccg 9120
ggggtcagaa taagccagtc ctcagagtcg cccttaggtc ggttctgggc aatgaagcca 9180
accacaaact cggggtcgga tcgggcaagc tcaatggtct gcttggagta ctcgccagtg 9240
gccagagagc ccttgcaaga cagctcggcc agcatgagca gacctctggc cagcttctcg 9300
ttgggagagg ggactaggaa ctccttgtac tgggagttct cgtagtcaga gacgtcctcc 9360
ttcttctgtt cagagacagt ttcctcggca ccagctcgca ggccagcaat gattccggtt 9420
ccgggtacac cgtgggcgtt ggtgatatcg gaccactcgg cgattcggtg acaccggtac 9480
tggtgcttga cagtgttgcc aatatctgcg aactttctgt cctcgaacag gaagaaaccg 9540
tgcttaagag caagttcctt gagggggagc acagtgccgg cgtaggtgaa gtcgtcaatg 9600
atgtcgatat gggttttgat catgcacaca taaggtccga ccttatcggc aagctcaatg 9660
agctccttgg tggtggtaac atccagagaa gcacacaggt tggttttctt ggctgccacg 9720
agcttgagca ctcgagcggc aaaggcggac ttgtggacgt tagctcgagc ttcgtaggag 9780
ggcattttgg tggtgaagag gagactgaaa taaatttagt ctgcagaact ttttatcgga 9840
accttatctg gggcagtgaa gtatatgtta tggtaatagt tacgagttag ttgaacttat 9900
agatagactg gactatacgg ctatcggtcc aaattagaaa gaacgtcaat ggctctctgg 9960
gcgtcgcctt tgccgacaaa aatgtgatca tgatgaaagc cagcaatgac gttgcagctg 10020
atattgttgt cggccaaccg cgccgaaaac gcagctgtca gacccacagc ctccaacgaa 10080
gaatgtatcg tcaaagtgat ccaagcacac tcatagttgg agtcgtactc caaaggcggc 10140
aatgacgagt cagacagata ctcgtcgacg tttaaaccat catctaaggg cctcaaaact 10200
acctcggaac tgctgcgctg atctggacac cacagaggtt ccgagcactt taggttgcac 10260
caaatgtccc accaggtgca ggcagaaaac gctggaacag cgtgtacagt ttgtcttaac 10320
aaaaagtgag ggcgctgagg tcgagcaggg tggtgtgact tgttatagcc tttagagctg 10380
cgaaagcgcg tatggatttg gctcatcagg ccagattgag ggtctgtgga cacatgtcat 10440
gttagtgtac ttcaatcgcc ccctggatat agccccgaca ataggccgtg gcctcatttt 10500
tttgccttcc gcacatttcc attgctcggt acccacacct tgcttctcct gcacttgcca 10560
accttaatac tggtttacat tgaccaacat cttacaagcg gggggcttgt ctagggtata 10620
tataaacagt ggctctccca atcggttgcc agtctctttt ttcctttctt tccccacaga 10680
ttcgaaatct aaactacaca tcacac 10706
<210> 12
<211> 1048
<212> DNA
<213> Artificial sequence
<220>
<223> high-throughput cloning cassette
<400> 12
gcgcacgtta attaaatttt ttttgatttt cttttttgac cccgtcttca attacacttc 60
ccaactggga acacccctct ttatcgaccc attttaggta atttacccta gcccattgtc 120
tccataagga atattaccct aacccacagt ccagggtgcc caggtccttc tttggccaaa 180
ttttaacttc ggtcctatgg cacagcggta gcgcgtgaga ttgcaaatct taaggtcccg 240
agttcgaatc tcggtgggac ctagttattt ttgatagata atttcgtgat gattagaaac 300
ttaacgcaaa ataatggccg gcatggtccc agcctcctcg ctggcgccgg ctgggcaaca 360
tgcttcggca tggcgaatgg gacgcaggtg atggcgggat cgttgtatat ttcttgacac 420
cttttcggca tcgccctaaa ttcggcgtcc tcatattgtg tgaggacgtt ttattacgtg 480
tttacgaagc aaaagctaaa accaggagct atttaatggc aacagttaac cagctggtac 540
gcaaaccacg tgctcgcaaa gttgcgaaaa gcaacgtgcc tgcgctggaa gcatgcccgc 600
aaaaacgtgg cgtatgtact cgtgtatata ctaccactcc taaaaaaccg aactccgcgc 660
tgcgtaaagt atgccgtgtt cgtctgacta acggtttcga agtgacttcc tacatcggtg 720
gtgaaggtca caacctgcag gagcactccg tgatcctgat ccgtggcggt cgtgttaaag 780
acctcccggg tgttcgttac cacaccgtac gtggtgcgct tgactgctcc ggcgttaaag 840
accgtaagca ggctcgttcc aagtatggcg tgaagcgtcc taaggcttag gttaataaca 900
ggcctgctgg taatcgcagg cctttttatt tttacacctg cgttttagag ctagaaatag 960
caagttaaaa taaggctagt ccgttatcaa cttgaaaaag tggcaccgag tcggtgcttt 1020
tttttttgtt ttttatcgat gcgcgcac 1048
<210> 13
<211> 300
<212> DNA
<213> Yarrowia lipolytica
<400> 13
attttttttg attttctttt ttgaccccgt cttcaattac acttcccaac tgggaacacc 60
cctctttatc gacccatttt aggtaattta ccctagccca ttgtctccat aaggaatatt 120
accctaaccc acagtccagg gtgcccaggt ccttctttgg ccaaatttta acttcggtcc 180
tatggcacag cggtagcgcg tgagattgca aatcttaagg tcccgagttc gaatctcggt 240
gggacctagt tatttttgat agataatttc gtgatgatta gaaacttaac gcaaaataat 300
<210> 14
<211> 68
<212> DNA
<213> Herpes Delta virus
<400> 14
ggccggcatg gtcccagcct cctcgctggc gccggctggg caacatgctt cggcatggcg 60
aatgggac 68
<210> 15
<211> 544
<212> DNA
<213> Escherischia coli
<400> 15
atggcgggat cgttgtatat ttcttgacac cttttcggca tcgccctaaa ttcggcgtcc 60
tcatattgtg tgaggacgtt ttattacgtg tttacgaagc aaaagctaaa accaggagct 120
atttaatggc aacagttaac cagctggtac gcaaaccacg tgctcgcaaa gttgcgaaaa 180
gcaacgtgcc tgcgctggaa gcatgcccgc aaaaacgtgg cgtatgtact cgtgtatata 240
ctaccactcc taaaaaaccg aactccgcgc tgcgtaaagt atgccgtgtt cgtctgacta 300
acggtttcga agtgacttcc tacatcggtg gtgaaggtca caacctgcag gagcactccg 360
tgatcctgat ccgtggcggt cgtgttaaag acctcccggg tgttcgttac cacaccgtac 420
gtggtgcgct tgactgctcc ggcgttaaag accgtaagca ggctcgttcc aagtatggcg 480
tgaagcgtcc taaggcttag gttaataaca ggcctgctgg taatcgcagg cctttttatt 540
ttta 544
<210> 16
<211> 80
<212> DNA
<213> Artificial sequence
<220>
<223> DNA encoding Cas9 CER domain
<400> 16
gttttagagc tagaaatagc aagttaaaat aaggctagtc cgttatcaac ttgaaaaagt 60
ggcaccgagt cggtgctttt 80
<210> 17
<211> 14
<212> DNA
<213> Saccharomyces cerevisiae
<400> 17
tttttttgtt tttt 14
<210> 18
<211> 11714
<212> DNA
<213> Artificial sequence
<220>
<223> pRF291
<400> 18
cgataaaaaa caaaaaaaaa agcaccgact cggtgccact ttttcaagtt gataacggac 60
tagccttatt ttaacttgct atttctagct ctaaaacgca ggtgtaaaaa taaaaaggcc 120
tgcgattacc agcaggcctg ttattaacct aagccttagg acgcttcacg ccatacttgg 180
aacgagcctg cttacggtct ttaacgccgg agcagtcaag cgcaccacgt acggtgtggt 240
aacgaacacc cgggaggtct ttaacacgac cgccacggat caggatcacg gagtgctcct 300
gcaggttgtg accttcacca ccgatgtagg aagtcacttc gaaaccgtta gtcagacgaa 360
cacggcatac tttacgcagc gcggagttcg gttttttagg agtggtagta tatacacgag 420
tacatacgcc acgtttttgc gggcatgctt ccagcgcagg cacgttgctt ttcgcaactt 480
tgcgagcacg tggtttgcgt accagctggt taactgttgc cattaaatag ctcctggttt 540
tagcttttgc ttcgtaaaca cgtaataaaa cgtcctcaca caatatgagg acgccgaatt 600
tagggcgatg ccgaaaaggt gtcaagaaat atacaacgat cccgccatca cctgcgtccc 660
attcgccatg ccgaagcatg ttgcccagcc ggcgccagcg aggaggctgg gaccatgccg 720
gccattattt tgcgttaagt ttctaatcat cacgaaatta tctatcaaaa ataactaggt 780
cccaccgaga ttcgaactcg ggaccttaag atttgcaatc tcacgcgcta ccgctgtgcc 840
ataggaccga agttaaaatt tggccaaaga aggacctggg caccctggac tgtgggttag 900
ggtaatattc cttatggaga caatgggcta gggtaaatta cctaaaatgg gtcgataaag 960
aggggtgttc ccagttggga agtgtaattg aagacggggt caaaaaagaa aatcaaaaaa 1020
aatttaatta agtcatacac aagtcagctt tcttcgagcc tcatataagt ataagtagtt 1080
caacgtatta gcactgtacc cagcatctcc gtatcgagaa acacaacaac atgccccatt 1140
ggacagatca tgcggataca caggttgtgc agtatcatac atactcgatc agacaggtcg 1200
tctgaccatc atacaagctg aacaagcgct ccatacttgc acgctctcta tatacacagt 1260
taaattacat atccatagtc taacctctaa cagttaatct tctggtaagc ctcccagcca 1320
gccttctggt atcgcttggc ctcctcaata ggatctcggt tctggccgta cagacctcgg 1380
ccgacaatta tgatatccgt tccggtagac atgacatcct caacagttcg gtactgctgt 1440
ccgagagcgt ctcccttgtc gtcaagaccc accccggggg tcagaataag ccagtcctca 1500
gagtcgccct taggtcggtt ctgggcaatg aagccaacca caaactcggg gtcggatcgg 1560
gcaagctcaa tggtctgctt ggagtactcg ccagtggcca gagagccctt gcaagacagc 1620
tcggccagca tgagcagacc tctggccagc ttctcgttgg gagaggggac taggaactcc 1680
ttgtactggg agttctcgta gtcagagacg tcctccttct tctgttcaga gacagtttcc 1740
tcggcaccag ctcgcaggcc agcaatgatt ccggttccgg gtacaccgtg ggcgttggtg 1800
atatcggacc actcggcgat tcggtgacac cggtactggt gcttgacagt gttgccaata 1860
tctgcgaact ttctgtcctc gaacaggaag aaaccgtgct taagagcaag ttccttgagg 1920
gggagcacag tgccggcgta ggtgaagtcg tcaatgatgt cgatatgggt tttgatcatg 1980
cacacataag gtccgacctt atcggcaagc tcaatgagct ccttggtggt ggtaacatcc 2040
agagaagcac acaggttggt tttcttggct gccacgagct tgagcactcg agcggcaaag 2100
gcggacttgt ggacgttagc tcgagcttcg taggagggca ttttggtggt gaagaggaga 2160
ctgaaataaa tttagtctgc agaacttttt atcggaacct tatctggggc agtgaagtat 2220
atgttatggt aatagttacg agttagttga acttatagat agactggact atacggctat 2280
cggtccaaat tagaaagaac gtcaatggct ctctgggcgt cgcctttgcc gacaaaaatg 2340
tgatcatgat gaaagccagc aatgacgttg cagctgatat tgttgtcggc caaccgcgcc 2400
gaaaacgcag ctgtcagacc cacagcctcc aacgaagaat gtatcgtcaa agtgatccaa 2460
gcacactcat agttggagtc gtactccaaa ggcggcaatg acgagtcaga cagatactcg 2520
tcgacgttta aaccatcatc taagggcctc aaaactacct cggaactgct gcgctgatct 2580
ggacaccaca gaggttccga gcactttagg ttgcaccaaa tgtcccacca ggtgcaggca 2640
gaaaacgctg gaacagcgtg tacagtttgt cttaacaaaa agtgagggcg ctgaggtcga 2700
gcagggtggt gtgacttgtt atagccttta gagctgcgaa agcgcgtatg gatttggctc 2760
atcaggccag attgagggtc tgtggacaca tgtcatgtta gtgtacttca atcgccccct 2820
ggatatagcc ccgacaatag gccgtggcct catttttttg ccttccgcac atttccattg 2880
ctcggtaccc acaccttgct tctcctgcac ttgccaacct taatactggt ttacattgac 2940
caacatctta caagcggggg gcttgtctag ggtatatata aacagtggct ctcccaatcg 3000
gttgccagtc tcttttttcc tttctttccc cacagattcg aaatctaaac tacacatcac 3060
accatggaca agaaatactc catcggcctg gacattggaa ccaactctgt cggctgggct 3120
gtcatcaccg acgagtacaa ggtgccctcc aagaaattca aggtcctcgg aaacaccgat 3180
cgacactcca tcaagaaaaa cctcattggt gccctgttgt tcgattctgg cgagactgcc 3240
gaagctacca gactcaagcg aactgctcgg cgacgttaca cccgacggaa gaaccgaatc 3300
tgctacctgc aggagatctt ttccaacgag atggccaagg tggacgattc gttctttcat 3360
cgactggagg aatccttcct cgtcgaggaa gacaagaaac acgagcgtca tcccatcttt 3420
ggcaacattg tggacgaggt tgcttaccac gagaagtatc ctaccatcta ccatctccga 3480
aagaaactcg tcgattccac cgacaaggcg gatctcagac ttatctacct cgctctggca 3540
cacatgatca agtttcgagg tcatttcctc atcgagggcg atctcaatcc cgacaacagc 3600
gatgtggaca agctgttcat tcagctcgtt cagacctaca accagctgtt cgaggaaaac 3660
cccatcaatg cctccggagt cgatgcaaag gccatcttgt ctgctcgact ctcgaagagc 3720
agacgactgg agaacctcat tgcccaactt cctggcgaga aaaagaacgg actgtttggc 3780
aacctcattg ccctttctct tggtctcaca cccaacttca agtccaactt cgatctggcg 3840
gaggacgcca agctccagct gtccaaggac acctacgacg atgacctcga caacctgctt 3900
gcacagattg gcgatcagta cgccgacctg tttctcgctg ccaagaacct ttcggatgct 3960
attctcttgt ctgacattct gcgagtcaac accgagatca caaaggctcc cctttctgcc 4020
tccatgatca agcgatacga cgagcaccat caggatctca cactgctcaa ggctcttgtc 4080
cgacagcaac tgcccgagaa gtacaaggag atctttttcg atcagtcgaa gaacggctac 4140
gctggataca tcgacggcgg agcctctcag gaagagttct acaagttcat caagccaatt 4200
ctcgagaaga tggacggaac cgaggaactg cttgtcaagc tcaatcgaga ggatctgctt 4260
cggaagcaac gaaccttcga caacggcagc attcctcatc agatccacct cggtgagctg 4320
cacgccattc ttcgacgtca ggaagacttc tacccctttc tcaaggacaa ccgagagaag 4380
atcgagaaga ttcttacctt tcgaatcccc tactatgttg gtcctcttgc cagaggaaac 4440
tctcgatttg cttggatgac tcgaaagtcc gaggaaacca tcactccctg gaacttcgag 4500
gaagtcgtgg acaagggtgc ctctgcacag tccttcatcg agcgaatgac caacttcgac 4560
aagaatctgc ccaacgagaa ggttcttccc aagcattcgc tgctctacga gtactttaca 4620
gtctacaacg aactcaccaa agtcaagtac gttaccgagg gaatgcgaaa gcctgccttc 4680
ttgtctggcg aacagaagaa agccattgtc gatctcctgt tcaagaccaa ccgaaaggtc 4740
actgttaagc agctcaagga ggactacttc aagaaaatcg agtgtttcga cagcgtcgag 4800
atttccggag ttgaggaccg attcaacgcc tctttgggca cctatcacga tctgctcaag 4860
attatcaagg acaaggattt tctcgacaac gaggaaaacg aggacattct ggaggacatc 4920
gtgctcactc ttaccctgtt cgaagatcgg gagatgatcg aggaacgact caagacatac 4980
gctcacctgt tcgacgacaa ggtcatgaaa caactcaagc gacgtagata caccggctgg 5040
ggaagacttt cgcgaaagct catcaacggc atcagagaca agcagtccgg aaagaccatt 5100
ctggactttc tcaagtccga tggctttgcc aaccgaaact tcatgcagct cattcacgac 5160
gattctctta ccttcaagga ggacatccag aaggcacaag tgtccggtca gggcgacagc 5220
ttgcacgaac atattgccaa cctggctggt tcgccagcca tcaagaaagg cattctccag 5280
actgtcaagg ttgtcgacga gctggtgaag gtcatgggac gtcacaagcc cgagaacatt 5340
gtgatcgaga tggccagaga gaaccagaca actcaaaagg gtcagaaaaa ctcgcgagag 5400
cggatgaagc gaatcgagga aggcatcaag gagctgggat cccagattct caaggagcat 5460
cccgtcgaga acactcaact gcagaacgag aagctgtatc tctactatct gcagaatggt 5520
cgagacatgt acgtggatca ggaactggac atcaatcgtc tcagcgacta cgatgtggac 5580
cacattgtcc ctcaatcctt tctcaaggac gattctatcg acaacaaggt ccttacacga 5640
tccgacaaga acagaggcaa gtcggacaac gttcccagcg aagaggtggt caaaaagatg 5700
aagaactact ggcgacagct gctcaacgcc aagctcatta cccagcgaaa gttcgacaat 5760
cttaccaagg ccgagcgagg cggtctgtcc gagctcgaca aggctggctt catcaagcgt 5820
caactcgtcg agaccagaca gatcacaaag cacgtcgcac agattctcga ttctcggatg 5880
aacaccaagt acgacgagaa cgacaagctc atccgagagg tcaaggtgat tactctcaag 5940
tccaaactgg tctccgattt ccgaaaggac tttcagttct acaaggtgcg agagatcaac 6000
aattaccacc atgcccacga tgcttacctc aacgccgtcg ttggcactgc gctcatcaag 6060
aaatacccca agctcgaaag cgagttcgtt tacggcgatt acaaggtcta cgacgttcga 6120
aagatgattg ccaagtccga acaggagatt ggcaaggcta ctgccaagta cttcttttac 6180
tccaacatca tgaacttttt caagaccgag atcaccttgg ccaacggaga gattcgaaag 6240
agaccactta tcgagaccaa cggcgaaact ggagagatcg tgtgggacaa gggtcgagac 6300
tttgcaaccg tgcgaaaggt tctgtcgatg cctcaggtca acatcgtcaa gaaaaccgag 6360
gttcagactg gcggattctc caaggagtcg attctgccca agcgaaactc cgacaagctc 6420
atcgctcgaa agaaagactg ggatcccaag aaatacggtg gcttcgattc tcctaccgtc 6480
gcctattccg tgcttgtcgt tgcgaaggtc gagaagggca agtccaaaaa gctcaagtcc 6540
gtcaaggagc tgctcggaat taccatcatg gagcgatcga gcttcgagaa gaatcccatc 6600
gacttcttgg aagccaaggg ttacaaggag gtcaagaaag acctcattat caagctgccc 6660
aagtactctc tgttcgaact ggagaacggt cgaaagcgta tgctcgcctc cgctggcgag 6720
ctgcagaagg gaaacgagct tgccttgcct tcgaagtacg tcaactttct ctatctggct 6780
tctcactacg agaagctcaa gggttctccc gaggacaacg aacagaagca actcttcgtt 6840
gagcagcaca aacattacct cgacgagatt atcgagcaga tttccgagtt ttcgaagcga 6900
gtcatcctgg ctgatgccaa cttggacaag gtgctctctg cctacaacaa gcatcgggac 6960
aaacccattc gagaacaggc ggagaacatc attcacctgt ttactcttac caacctgggt 7020
gctcctgcag ctttcaagta cttcgatacc actatcgacc gaaagcggta cacatccacc 7080
aaggaggttc tcgatgccac cctgattcac cagtccatca ctggcctgta cgagacccga 7140
atcgacctgt ctcagcttgg tggcgactcc agagccgatc ccaagaaaaa gcgaaaggtc 7200
taagcggccg caagtgtgga tggggaagtg agtgcccggt tctgtgtgca caattggcaa 7260
tccaagatgg atggattcaa cacagggata tagcgagcta cgtggtggtg cgaggatata 7320
gcaacggata tttatgtttg acacttgaga atgtacgata caagcactgt ccaagtacaa 7380
tactaaacat actgtacata ctcatactcg tacccgggca acggtttcac ttgagtgcag 7440
tggctagtgc tcttactcgt acagtgtgca atactgcgta tcatagtctt tgatgtatat 7500
cgtattcatt catgttagtt gcgtacgagc cggaagcata aagtgtaaag cctggggtgc 7560
ctaatgagtg agctaactca cattaattgc gttgcgctca ctgcccgctt tccagtcggg 7620
aaacctgtcg tgccagctgc attaatgaat cggccaacgc gcggggagag gcggtttgcg 7680
tattgggcgc tcttccgctt cctcgctcac tgactcgctg cgctcggtcg ttcggctgcg 7740
gcgagcggta tcagctcact caaaggcggt aatacggtta tccacagaat caggggataa 7800
cgcaggaaag aacatgtgag caaaaggcca gcaaaaggcc aggaaccgta aaaaggccgc 7860
gttgctggcg tttttccata ggctccgccc ccctgacgag catcacaaaa atcgacgctc 7920
aagtcagagg tggcgaaacc cgacaggact ataaagatac caggcgtttc cccctggaag 7980
ctccctcgtg cgctctcctg ttccgaccct gccgcttacc ggatacctgt ccgcctttct 8040
cccttcggga agcgtggcgc tttctcatag ctcacgctgt aggtatctca gttcggtgta 8100
ggtcgttcgc tccaagctgg gctgtgtgca cgaacccccc gttcagcccg accgctgcgc 8160
cttatccggt aactatcgtc ttgagtccaa cccggtaaga cacgacttat cgccactggc 8220
agcagccact ggtaacagga ttagcagagc gaggtatgta ggcggtgcta cagagttctt 8280
gaagtggtgg cctaactacg gctacactag aaggacagta tttggtatct gcgctctgct 8340
gaagccagtt accttcggaa aaagagttgg tagctcttga tccggcaaac aaaccaccgc 8400
tggtagcggt ggtttttttg tttgcaagca gcagattacg cgcagaaaaa aaggatctca 8460
agaagatcct ttgatctttt ctacggggtc tgacgctcag tggaacgaaa actcacgtta 8520
agggattttg gtcatgagat tatcaaaaag gatcttcacc tagatccttt taaattaaaa 8580
atgaagtttt aaatcaatct aaagtatata tgagtaaact tggtctgaca gttaccaatg 8640
cttaatcagt gaggcaccta tctcagcgat ctgtctattt cgttcatcca tagttgcctg 8700
actccccgtc gtgtagataa ctacgatacg ggagggctta ccatctggcc ccagtgctgc 8760
aatgataccg cgagacccac gctcaccggc tccagattta tcagcaataa accagccagc 8820
cggaagggcc gagcgcagaa gtggtcctgc aactttatcc gcctccatcc agtctattaa 8880
ttgttgccgg gaagctagag taagtagttc gccagttaat agtttgcgca acgttgttgc 8940
cattgctaca ggcatcgtgg tgtcacgctc gtcgtttggt atggcttcat tcagctccgg 9000
ttcccaacga tcaaggcgag ttacatgatc ccccatgttg tgcaaaaaag cggttagctc 9060
cttcggtcct ccgatcgttg tcagaagtaa gttggccgca gtgttatcac tcatggttat 9120
ggcagcactg cataattctc ttactgtcat gccatccgta agatgctttt ctgtgactgg 9180
tgagtactca accaagtcat tctgagaata gtgtatgcgg cgaccgagtt gctcttgccc 9240
ggcgtcaata cgggataata ccgcgccaca tagcagaact ttaaaagtgc tcatcattgg 9300
aaaacgttct tcggggcgaa aactctcaag gatcttaccg ctgttgagat ccagttcgat 9360
gtaacccact cgtgcaccca actgatcttc agcatctttt actttcacca gcgtttctgg 9420
gtgagcaaaa acaggaaggc aaaatgccgc aaaaaaggga ataagggcga cacggaaatg 9480
ttgaatactc atactcttcc tttttcaata ttattgaagc atttatcagg gttattgtct 9540
catgagcgga tacatatttg aatgtattta gaaaaataaa caaatagggg ttccgcgcac 9600
atttccccga aaagtgccac ctgacgcgcc ctgtagcggc gcattaagcg cggcgggtgt 9660
ggtggttacg cgcagcgtga ccgctacact tgccagcgcc ctagcgcccg ctcctttcgc 9720
tttcttccct tcctttctcg ccacgttcgc cggctttccc cgtcaagctc taaatcgggg 9780
gctcccttta gggttccgat ttagtgcttt acggcacctc gaccccaaaa aacttgatta 9840
gggtgatggt tcacgtagtg ggccatcgcc ctgatagacg gtttttcgcc ctttgacgtt 9900
ggagtccacg ttctttaata gtggactctt gttccaaact ggaacaacac tcaaccctat 9960
ctcggtctat tcttttgatt tataagggat tttgccgatt tcggcctatt ggttaaaaaa 10020
tgagctgatt taacaaaaat ttaacgcgaa ttttaacaaa atattaacgc ttacaatttc 10080
cattcgccat tcaggctgcg caactgttgg gaagggcgat cggtgcgggc ctcttcgcta 10140
ttacgccagc tggcgaaagg gggatgtgct gcaaggcgat taagttgggt aacgccaggg 10200
ttttcccagt cacgacgttg taaaacgacg gccagtgaat tgtaatacga ctcactatag 10260
ggcgaattgg gtaccgggcc ccccctcgag gtcgatggtg tcgataagct tgatatcgaa 10320
ttcatgtcac acaaaccgat cttcgcctca aggaaaccta attctacatc cgagagactg 10380
ccgagatcca gtctacactg attaattttc gggccaataa tttaaaaaaa tcgtgttata 10440
taatattata tgtattatat atatacatca tgatgatact gacagtcatg tcccattgct 10500
aaatagacag actccatctg ccgcctccaa ctgatgttct caatatttaa ggggtcatct 10560
cgcattgttt aataataaac agactccatc taccgcctcc aaatgatgtt ctcaaaatat 10620
attgtatgaa cttattttta ttacttagta ttattagaca acttacttgc tttatgaaaa 10680
acacttccta tttaggaaac aatttataat ggcagttcgt tcatttaaca atttatgtag 10740
aataaatgtt ataaatgcgt atgggaaatc ttaaatatgg atagcataaa tgatatctgc 10800
attgcctaat tcgaaatcaa cagcaacgaa aaaaatccct tgtacaacat aaatagtcat 10860
cgagaaatat caactatcaa agaacagcta ttcacacgtt actattgaga ttattattgg 10920
acgagaatca cacactcaac tgtctttctc tcttctagaa atacaggtac aagtatgtac 10980
tattctcatt gttcatactt ctagtcattt catcccacat attccttgga tttctctcca 11040
atgaatgaca ttctatcttg caaattcaac aattataata agatatacca aagtagcggt 11100
atagtggcaa tcaaaaagct tctctggtgt gcttctcgta tttattttta ttctaatgat 11160
ccattaaagg tatatattta tttcttgtta tataatcctt ttgtttatta catgggctgg 11220
atacataaag gtattttgat ttaatttttt gcttaaattc aatcccccct cgttcagtgt 11280
caactgtaat ggtaggaaat taccatactt ttgaagaagc aaaaaaaatg aaagaaaaaa 11340
aaaatcgtat ttccaggtta gacgttccgc agaatctaga atgcggtatg cggtacattg 11400
ttcttcgaac gtaaaagttg cgctccctga gatattgtac atttttgctt ttacaagtac 11460
aagtacatcg tacaactatg tactactgtt gatgcatcca caacagtttg ttttgttttt 11520
ttttgttttt tttttttcta atgattcatt accgctatgt atacctactt gtacttgtag 11580
taagccgggt tattggcgtt caattaatca tagacttatg aatctgcacg gtgtgcgctg 11640
cgagttactt ttagcttatg catgctactt gggtgtaata ttgggatctg ttcggaaatc 11700
aacggatgct caat 11714
<210> 19
<211> 32
<212> DNA
<213> Artificial sequence
<220>
<223> Can1-1F
<400> 19
aatgggactc aaacgattac ccaccctcgt tt 32
<210> 20
<211> 32
<212> DNA
<213> Artificial sequence
<220>
<223> Can1-1R
<400> 20
tctaaaacga gggtgggtaa tcgtttgagt cc 32
<210> 21
<211> 20
<212> DNA
<213> Artificial sequence
<220>
<223> DNA encoding Can1-1 VT domain
<400> 21
tcaaacgatt acccaccctc 20
<210> 22
<211> 23
<212> DNA
<213> Yarrowia lipolytica
<400> 22
tcaaacgatt acccaccctc cgg 23
<210> 23
<211> 1719
<212> DNA
<213> Yarrowia lipolytica
<400> 23
atggaaaaga cattttcaaa cgattaccca ccctccggga ctgaggccca catccacatc 60
aaccacacgg cccactcgga tgactcagag gaggtgccct cgcacaagga aaattacaac 120
accagtggcc acgacctgga ggagtccgac ccggataacc atgtcggtga gaccctcgag 180
gtcaagcgag gtctcaagat gcgacacatc tccatgatct cgcttggagg aaccattggt 240
accggtctct tcattggtac cggaggagct ctccagcagg ccggtccctg tggcgccctc 300
gtcgcctacg tgttcatggc caccattgtc tactctgttg ccgagtctct tggagaactg 360
gctacgtaca ttcccatcac cggctccttt gccgtcttta ctacccgata tctgtcacag 420
tcgtttggtg cctccatggg ctggctatac tggttctcgt gggcgatcac cttcgccatc 480
gagctcaaca ccattggtcc cgtgattgag tactggactg acgccgttcc tactgctgcc 540
tggattgcca tcttcttcgt catcctcact accatcaact tcttccccgt gggcttctat 600
ggcgaagtcg agttctgggt ggcctccgtg aaggtcattg ccatcattgg atggctcatc 660
tacgcgctct gcatgacgtg tggagcaggt gtaacaggtc ctgtgggatt cagatactgg 720
aaccaccccg gacccatggg agacggaatc tggaccgacg gcgtgcccat tgtgcgaaac 780
gcgcccggtc gacgattcat gggatggctc aattcgctcg ttaacgccgc cttcacctac 840
cagggctgtg agctggtcgg agtcactgcc ggtgaggccc agaaccccag aaagtccgtc 900
cctcgagcca tcaaccgagt ctttgctcga atttgcatct tctacattgg ctctatcttc 960
ttcatgggca tgctcgtgcc ctttaacgac cccaagctga ccgatgactc ctccgtcatc 1020
gcctcctctc cttttgttat tgccattatc aactctggca ccaaggtgct ccctcacatt 1080
ttcaacgccg tcattctcat caccctgatt tcggcaggaa actccaacgt ctacattggc 1140
tcgcgagtgg tctacgccct ggctgactcc ggaaccgcac caaagttctt caagcgaacc 1200
accaagaagg gagtgccgta cgtggcagtc tgcttcacct cggcgtttgg tctgctggcc 1260
ttcatgtctg tgtccgagtc gtcgtccact gtcttcgact ggttcatcaa catctccgct 1320
gtggccggcc tcatctgttg ggccttcatc tctgcctccc acatccgatt catgcaagtg 1380
cttaagcaca gagggatctc cagagatacg ctgcccttca aggcacgatg gcagccattc 1440
tactcatggt acgcgctcgt ctccatcatc ttcatcactc tcatccaggg cttcacgtcc 1500
ttctggcact ttaccgccgc caagttcatg actgcataca tctccgtcat tgtctgggtc 1560
ggtttgtaca ttatcttcca gtgtctgttc cgatgcaagt tccttatccc tattgaggat 1620
gtggacattg acaccggccg acgagagatt gacgacgatg tgtgggagga gaagatcccc 1680
acaaagtggt acgagaagtt ttggaatatt attgcataa 1719
<210> 24
<211> 11176
<212> DNA
<213> Artificial Sequence
<220>
<223> pRF303
<400> 24
tctaaaacga gggtgggtaa tcgtttgagt cccattcgcc atgccgaagc atgttgccca 60
gccggcgcca gcgaggaggc tgggaccatg ccggccatta ttttgcgtta agtttctaat 120
catcacgaaa ttatctatca aaaataacta ggtcccaccg agattcgaac tcgggacctt 180
aagatttgca atctcacgcg ctaccgctgt gccataggac cgaagttaaa atttggccaa 240
agaaggacct gggcaccctg gactgtgggt tagggtaata ttccttatgg agacaatggg 300
ctagggtaaa ttacctaaaa tgggtcgata aagaggggtg ttcccagttg ggaagtgtaa 360
ttgaagacgg ggtcaaaaaa gaaaatcaaa aaaaatttaa ttaagtcata cacaagtcag 420
ctttcttcga gcctcatata agtataagta gttcaacgta ttagcactgt acccagcatc 480
tccgtatcga gaaacacaac aacatgcccc attggacaga tcatgcggat acacaggttg 540
tgcagtatca tacatactcg atcagacagg tcgtctgacc atcatacaag ctgaacaagc 600
gctccatact tgcacgctct ctatatacac agttaaatta catatccata gtctaacctc 660
taacagttaa tcttctggta agcctcccag ccagccttct ggtatcgctt ggcctcctca 720
ataggatctc ggttctggcc gtacagacct cggccgacaa ttatgatatc cgttccggta 780
gacatgacat cctcaacagt tcggtactgc tgtccgagag cgtctccctt gtcgtcaaga 840
cccaccccgg gggtcagaat aagccagtcc tcagagtcgc ccttaggtcg gttctgggca 900
atgaagccaa ccacaaactc ggggtcggat cgggcaagct caatggtctg cttggagtac 960
tcgccagtgg ccagagagcc cttgcaagac agctcggcca gcatgagcag acctctggcc 1020
agcttctcgt tgggagaggg gactaggaac tccttgtact gggagttctc gtagtcagag 1080
acgtcctcct tcttctgttc agagacagtt tcctcggcac cagctcgcag gccagcaatg 1140
attccggttc cgggtacacc gtgggcgttg gtgatatcgg accactcggc gattcggtga 1200
caccggtact ggtgcttgac agtgttgcca atatctgcga actttctgtc ctcgaacagg 1260
aagaaaccgt gcttaagagc aagttccttg agggggagca cagtgccggc gtaggtgaag 1320
tcgtcaatga tgtcgatatg ggttttgatc atgcacacat aaggtccgac cttatcggca 1380
agctcaatga gctccttggt ggtggtaaca tccagagaag cacacaggtt ggttttcttg 1440
gctgccacga gcttgagcac tcgagcggca aaggcggact tgtggacgtt agctcgagct 1500
tcgtaggagg gcattttggt ggtgaagagg agactgaaat aaatttagtc tgcagaactt 1560
tttatcggaa ccttatctgg ggcagtgaag tatatgttat ggtaatagtt acgagttagt 1620
tgaacttata gatagactgg actatacggc tatcggtcca aattagaaag aacgtcaatg 1680
gctctctggg cgtcgccttt gccgacaaaa atgtgatcat gatgaaagcc agcaatgacg 1740
ttgcagctga tattgttgtc ggccaaccgc gccgaaaacg cagctgtcag acccacagcc 1800
tccaacgaag aatgtatcgt caaagtgatc caagcacact catagttgga gtcgtactcc 1860
aaaggcggca atgacgagtc agacagatac tcgtcgacgt ttaaaccatc atctaagggc 1920
ctcaaaacta cctcggaact gctgcgctga tctggacacc acagaggttc cgagcacttt 1980
aggttgcacc aaatgtccca ccaggtgcag gcagaaaacg ctggaacagc gtgtacagtt 2040
tgtcttaaca aaaagtgagg gcgctgaggt cgagcagggt ggtgtgactt gttatagcct 2100
ttagagctgc gaaagcgcgt atggatttgg ctcatcaggc cagattgagg gtctgtggac 2160
acatgtcatg ttagtgtact tcaatcgccc cctggatata gccccgacaa taggccgtgg 2220
cctcattttt ttgccttccg cacatttcca ttgctcggta cccacacctt gcttctcctg 2280
cacttgccaa ccttaatact ggtttacatt gaccaacatc ttacaagcgg ggggcttgtc 2340
tagggtatat ataaacagtg gctctcccaa tcggttgcca gtctcttttt tcctttcttt 2400
ccccacagat tcgaaatcta aactacacat cacaccatgg acaagaaata ctccatcggc 2460
ctggacattg gaaccaactc tgtcggctgg gctgtcatca ccgacgagta caaggtgccc 2520
tccaagaaat tcaaggtcct cggaaacacc gatcgacact ccatcaagaa aaacctcatt 2580
ggtgccctgt tgttcgattc tggcgagact gccgaagcta ccagactcaa gcgaactgct 2640
cggcgacgtt acacccgacg gaagaaccga atctgctacc tgcaggagat cttttccaac 2700
gagatggcca aggtggacga ttcgttcttt catcgactgg aggaatcctt cctcgtcgag 2760
gaagacaaga aacacgagcg tcatcccatc tttggcaaca ttgtggacga ggttgcttac 2820
cacgagaagt atcctaccat ctaccatctc cgaaagaaac tcgtcgattc caccgacaag 2880
gcggatctca gacttatcta cctcgctctg gcacacatga tcaagtttcg aggtcatttc 2940
ctcatcgagg gcgatctcaa tcccgacaac agcgatgtgg acaagctgtt cattcagctc 3000
gttcagacct acaaccagct gttcgaggaa aaccccatca atgcctccgg agtcgatgca 3060
aaggccatct tgtctgctcg actctcgaag agcagacgac tggagaacct cattgcccaa 3120
cttcctggcg agaaaaagaa cggactgttt ggcaacctca ttgccctttc tcttggtctc 3180
acacccaact tcaagtccaa cttcgatctg gcggaggacg ccaagctcca gctgtccaag 3240
gacacctacg acgatgacct cgacaacctg cttgcacaga ttggcgatca gtacgccgac 3300
ctgtttctcg ctgccaagaa cctttcggat gctattctct tgtctgacat tctgcgagtc 3360
aacaccgaga tcacaaaggc tcccctttct gcctccatga tcaagcgata cgacgagcac 3420
catcaggatc tcacactgct caaggctctt gtccgacagc aactgcccga gaagtacaag 3480
gagatctttt tcgatcagtc gaagaacggc tacgctggat acatcgacgg cggagcctct 3540
caggaagagt tctacaagtt catcaagcca attctcgaga agatggacgg aaccgaggaa 3600
ctgcttgtca agctcaatcg agaggatctg cttcggaagc aacgaacctt cgacaacggc 3660
agcattcctc atcagatcca cctcggtgag ctgcacgcca ttcttcgacg tcaggaagac 3720
ttctacccct ttctcaagga caaccgagag aagatcgaga agattcttac ctttcgaatc 3780
ccctactatg ttggtcctct tgccagagga aactctcgat ttgcttggat gactcgaaag 3840
tccgaggaaa ccatcactcc ctggaacttc gaggaagtcg tggacaaggg tgcctctgca 3900
cagtccttca tcgagcgaat gaccaacttc gacaagaatc tgcccaacga gaaggttctt 3960
cccaagcatt cgctgctcta cgagtacttt acagtctaca acgaactcac caaagtcaag 4020
tacgttaccg agggaatgcg aaagcctgcc ttcttgtctg gcgaacagaa gaaagccatt 4080
gtcgatctcc tgttcaagac caaccgaaag gtcactgtta agcagctcaa ggaggactac 4140
ttcaagaaaa tcgagtgttt cgacagcgtc gagatttccg gagttgagga ccgattcaac 4200
gcctctttgg gcacctatca cgatctgctc aagattatca aggacaagga ttttctcgac 4260
aacgaggaaa acgaggacat tctggaggac atcgtgctca ctcttaccct gttcgaagat 4320
cgggagatga tcgaggaacg actcaagaca tacgctcacc tgttcgacga caaggtcatg 4380
aaacaactca agcgacgtag atacaccggc tggggaagac tttcgcgaaa gctcatcaac 4440
ggcatcagag acaagcagtc cggaaagacc attctggact ttctcaagtc cgatggcttt 4500
gccaaccgaa acttcatgca gctcattcac gacgattctc ttaccttcaa ggaggacatc 4560
cagaaggcac aagtgtccgg tcagggcgac agcttgcacg aacatattgc caacctggct 4620
ggttcgccag ccatcaagaa aggcattctc cagactgtca aggttgtcga cgagctggtg 4680
aaggtcatgg gacgtcacaa gcccgagaac attgtgatcg agatggccag agagaaccag 4740
acaactcaaa agggtcagaa aaactcgcga gagcggatga agcgaatcga ggaaggcatc 4800
aaggagctgg gatcccagat tctcaaggag catcccgtcg agaacactca actgcagaac 4860
gagaagctgt atctctacta tctgcagaat ggtcgagaca tgtacgtgga tcaggaactg 4920
gacatcaatc gtctcagcga ctacgatgtg gaccacattg tccctcaatc ctttctcaag 4980
gacgattcta tcgacaacaa ggtccttaca cgatccgaca agaacagagg caagtcggac 5040
aacgttccca gcgaagaggt ggtcaaaaag atgaagaact actggcgaca gctgctcaac 5100
gccaagctca ttacccagcg aaagttcgac aatcttacca aggccgagcg aggcggtctg 5160
tccgagctcg acaaggctgg cttcatcaag cgtcaactcg tcgagaccag acagatcaca 5220
aagcacgtcg cacagattct cgattctcgg atgaacacca agtacgacga gaacgacaag 5280
ctcatccgag aggtcaaggt gattactctc aagtccaaac tggtctccga tttccgaaag 5340
gactttcagt tctacaaggt gcgagagatc aacaattacc accatgccca cgatgcttac 5400
ctcaacgccg tcgttggcac tgcgctcatc aagaaatacc ccaagctcga aagcgagttc 5460
gtttacggcg attacaaggt ctacgacgtt cgaaagatga ttgccaagtc cgaacaggag 5520
attggcaagg ctactgccaa gtacttcttt tactccaaca tcatgaactt tttcaagacc 5580
gagatcacct tggccaacgg agagattcga aagagaccac ttatcgagac caacggcgaa 5640
actggagaga tcgtgtggga caagggtcga gactttgcaa ccgtgcgaaa ggttctgtcg 5700
atgcctcagg tcaacatcgt caagaaaacc gaggttcaga ctggcggatt ctccaaggag 5760
tcgattctgc ccaagcgaaa ctccgacaag ctcatcgctc gaaagaaaga ctgggatccc 5820
aagaaatacg gtggcttcga ttctcctacc gtcgcctatt ccgtgcttgt cgttgcgaag 5880
gtcgagaagg gcaagtccaa aaagctcaag tccgtcaagg agctgctcgg aattaccatc 5940
atggagcgat cgagcttcga gaagaatccc atcgacttct tggaagccaa gggttacaag 6000
gaggtcaaga aagacctcat tatcaagctg cccaagtact ctctgttcga actggagaac 6060
ggtcgaaagc gtatgctcgc ctccgctggc gagctgcaga agggaaacga gcttgccttg 6120
ccttcgaagt acgtcaactt tctctatctg gcttctcact acgagaagct caagggttct 6180
cccgaggaca acgaacagaa gcaactcttc gttgagcagc acaaacatta cctcgacgag 6240
attatcgagc agatttccga gttttcgaag cgagtcatcc tggctgatgc caacttggac 6300
aaggtgctct ctgcctacaa caagcatcgg gacaaaccca ttcgagaaca ggcggagaac 6360
atcattcacc tgtttactct taccaacctg ggtgctcctg cagctttcaa gtacttcgat 6420
accactatcg accgaaagcg gtacacatcc accaaggagg ttctcgatgc caccctgatt 6480
caccagtcca tcactggcct gtacgagacc cgaatcgacc tgtctcagct tggtggcgac 6540
tccagagccg atcccaagaa aaagcgaaag gtctaagcgg ccgcaagtgt ggatggggaa 6600
gtgagtgccc ggttctgtgt gcacaattgg caatccaaga tggatggatt caacacaggg 6660
atatagcgag ctacgtggtg gtgcgaggat atagcaacgg atatttatgt ttgacacttg 6720
agaatgtacg atacaagcac tgtccaagta caatactaaa catactgtac atactcatac 6780
tcgtacccgg gcaacggttt cacttgagtg cagtggctag tgctcttact cgtacagtgt 6840
gcaatactgc gtatcatagt ctttgatgta tatcgtattc attcatgtta gttgcgtacg 6900
agccggaagc ataaagtgta aagcctgggg tgcctaatga gtgagctaac tcacattaat 6960
tgcgttgcgc tcactgcccg ctttccagtc gggaaacctg tcgtgccagc tgcattaatg 7020
aatcggccaa cgcgcgggga gaggcggttt gcgtattggg cgctcttccg cttcctcgct 7080
cactgactcg ctgcgctcgg tcgttcggct gcggcgagcg gtatcagctc actcaaaggc 7140
ggtaatacgg ttatccacag aatcagggga taacgcagga aagaacatgt gagcaaaagg 7200
ccagcaaaag gccaggaacc gtaaaaaggc cgcgttgctg gcgtttttcc ataggctccg 7260
cccccctgac gagcatcaca aaaatcgacg ctcaagtcag aggtggcgaa acccgacagg 7320
actataaaga taccaggcgt ttccccctgg aagctccctc gtgcgctctc ctgttccgac 7380
cctgccgctt accggatacc tgtccgcctt tctcccttcg ggaagcgtgg cgctttctca 7440
tagctcacgc tgtaggtatc tcagttcggt gtaggtcgtt cgctccaagc tgggctgtgt 7500
gcacgaaccc cccgttcagc ccgaccgctg cgccttatcc ggtaactatc gtcttgagtc 7560
caacccggta agacacgact tatcgccact ggcagcagcc actggtaaca ggattagcag 7620
agcgaggtat gtaggcggtg ctacagagtt cttgaagtgg tggcctaact acggctacac 7680
tagaaggaca gtatttggta tctgcgctct gctgaagcca gttaccttcg gaaaaagagt 7740
tggtagctct tgatccggca aacaaaccac cgctggtagc ggtggttttt ttgtttgcaa 7800
gcagcagatt acgcgcagaa aaaaaggatc tcaagaagat cctttgatct tttctacggg 7860
gtctgacgct cagtggaacg aaaactcacg ttaagggatt ttggtcatga gattatcaaa 7920
aaggatcttc acctagatcc ttttaaatta aaaatgaagt tttaaatcaa tctaaagtat 7980
atatgagtaa acttggtctg acagttacca atgcttaatc agtgaggcac ctatctcagc 8040
gatctgtcta tttcgttcat ccatagttgc ctgactcccc gtcgtgtaga taactacgat 8100
acgggagggc ttaccatctg gccccagtgc tgcaatgata ccgcgagacc cacgctcacc 8160
ggctccagat ttatcagcaa taaaccagcc agccggaagg gccgagcgca gaagtggtcc 8220
tgcaacttta tccgcctcca tccagtctat taattgttgc cgggaagcta gagtaagtag 8280
ttcgccagtt aatagtttgc gcaacgttgt tgccattgct acaggcatcg tggtgtcacg 8340
ctcgtcgttt ggtatggctt cattcagctc cggttcccaa cgatcaaggc gagttacatg 8400
atcccccatg ttgtgcaaaa aagcggttag ctccttcggt cctccgatcg ttgtcagaag 8460
taagttggcc gcagtgttat cactcatggt tatggcagca ctgcataatt ctcttactgt 8520
catgccatcc gtaagatgct tttctgtgac tggtgagtac tcaaccaagt cattctgaga 8580
atagtgtatg cggcgaccga gttgctcttg cccggcgtca atacgggata ataccgcgcc 8640
acatagcaga actttaaaag tgctcatcat tggaaaacgt tcttcggggc gaaaactctc 8700
aaggatctta ccgctgttga gatccagttc gatgtaaccc actcgtgcac ccaactgatc 8760
ttcagcatct tttactttca ccagcgtttc tgggtgagca aaaacaggaa ggcaaaatgc 8820
cgcaaaaaag ggaataaggg cgacacggaa atgttgaata ctcatactct tcctttttca 8880
atattattga agcatttatc agggttattg tctcatgagc ggatacatat ttgaatgtat 8940
ttagaaaaat aaacaaatag gggttccgcg cacatttccc cgaaaagtgc cacctgacgc 9000
gccctgtagc ggcgcattaa gcgcggcggg tgtggtggtt acgcgcagcg tgaccgctac 9060
acttgccagc gccctagcgc ccgctccttt cgctttcttc ccttcctttc tcgccacgtt 9120
cgccggcttt ccccgtcaag ctctaaatcg ggggctccct ttagggttcc gatttagtgc 9180
tttacggcac ctcgacccca aaaaacttga ttagggtgat ggttcacgta gtgggccatc 9240
gccctgatag acggtttttc gccctttgac gttggagtcc acgttcttta atagtggact 9300
cttgttccaa actggaacaa cactcaaccc tatctcggtc tattcttttg atttataagg 9360
gattttgccg atttcggcct attggttaaa aaatgagctg atttaacaaa aatttaacgc 9420
gaattttaac aaaatattaa cgcttacaat ttccattcgc cattcaggct gcgcaactgt 9480
tgggaagggc gatcggtgcg ggcctcttcg ctattacgcc agctggcgaa agggggatgt 9540
gctgcaaggc gattaagttg ggtaacgcca gggttttccc agtcacgacg ttgtaaaacg 9600
acggccagtg aattgtaata cgactcacta tagggcgaat tgggtaccgg gccccccctc 9660
gaggtcgatg gtgtcgataa gcttgatatc gaattcatgt cacacaaacc gatcttcgcc 9720
tcaaggaaac ctaattctac atccgagaga ctgccgagat ccagtctaca ctgattaatt 9780
ttcgggccaa taatttaaaa aaatcgtgtt atataatatt atatgtatta tatatataca 9840
tcatgatgat actgacagtc atgtcccatt gctaaataga cagactccat ctgccgcctc 9900
caactgatgt tctcaatatt taaggggtca tctcgcattg tttaataata aacagactcc 9960
atctaccgcc tccaaatgat gttctcaaaa tatattgtat gaacttattt ttattactta 10020
gtattattag acaacttact tgctttatga aaaacacttc ctatttagga aacaatttat 10080
aatggcagtt cgttcattta acaatttatg tagaataaat gttataaatg cgtatgggaa 10140
atcttaaata tggatagcat aaatgatatc tgcattgcct aattcgaaat caacagcaac 10200
gaaaaaaatc ccttgtacaa cataaatagt catcgagaaa tatcaactat caaagaacag 10260
ctattcacac gttactattg agattattat tggacgagaa tcacacactc aactgtcttt 10320
ctctcttcta gaaatacagg tacaagtatg tactattctc attgttcata cttctagtca 10380
tttcatccca catattcctt ggatttctct ccaatgaatg acattctatc ttgcaaattc 10440
aacaattata ataagatata ccaaagtagc ggtatagtgg caatcaaaaa gcttctctgg 10500
tgtgcttctc gtatttattt ttattctaat gatccattaa aggtatatat ttatttcttg 10560
ttatataatc cttttgttta ttacatgggc tggatacata aaggtatttt gatttaattt 10620
tttgcttaaa ttcaatcccc cctcgttcag tgtcaactgt aatggtagga aattaccata 10680
cttttgaaga agcaaaaaaa atgaaagaaa aaaaaaatcg tatttccagg ttagacgttc 10740
cgcagaatct agaatgcggt atgcggtaca ttgttcttcg aacgtaaaag ttgcgctccc 10800
tgagatattg tacatttttg cttttacaag tacaagtaca tcgtacaact atgtactact 10860
gttgatgcat ccacaacagt ttgttttgtt tttttttgtt tttttttttt ctaatgattc 10920
attaccgcta tgtataccta cttgtacttg tagtaagccg ggttattggc gttcaattaa 10980
tcatagactt atgaatctgc acggtgtgcg ctgcgagtta cttttagctt atgcatgcta 11040
cttgggtgta atattgggat ctgttcggaa atcaacggat gctcaatcga taaaaaacaa 11100
aaaaaaaagc accgactcgg tgccactttt tcaagttgat aacggactag ccttatttta 11160
acttgctatt tctagc 11176
<210> 25
<211> 655
<212> DNA
<213> Artificial sequence
<220>
<223> can1 upstream homology arm
<400> 25
gggaagcctt gctacgttag gagaagacgc acggcgatga tacgggtacc cctcatgaca 60
tcaatatccg ctgcccctct tgccagcaag gcgtcagcag gtgctttttt cgctattttc 120
accagaccac agcctttttc cttgtgtctc atcttggatt ccttcaaagg caactcaccg 180
cacctccgag tcgtgtgaac aatgtaataa taggctattg acttttttcc cacctgttta 240
gcgccaaacc caaagcgctt ttcgccccca ctgcagcccg atggaaggca catatggcaa 300
gggaaaagtc ttcaggtaat acatgcctgc tgcaactata tgtactctga ctcattccct 360
cagacgtggg tcatagacag ctgttttaaa ccgggcaaat caatctctgt cgcacaggta 420
tttctgccct tcaaaaccag gttgccacat cagattccat caaagttttt cagactaact 480
tcaatcttaa acggcatctc acaacaagcg aattggacgg aaaaaaagcg tctatcatta 540
ccggcaccta tccacactaa gacagtacta aaggacgacg ctccccacga aacgacgttt 600
cgaccttaac gaccctgccg tctccatcca tccgaccact cccgacgctc tctcc 655
<210> 26
<211> 29
<212> DNA
<213> Artificial sequence
<220>
<223> Can1 upstream forward
<400> 26
gggaagcttg ctacgttagg agaagacgc 29
<210> 27
<211> 37
<212> DNA
<213> Artificial sequence
<220>
<223> Can1 upstream reverse
<400> 27
ggagagagcg tcgggagtgg tcggatggat ggagacg 37
<210> 28
<211> 658
<212> DNA
<213> Artificial sequence
<220>
<223> Can1 downstream homology arm
<400> 28
cgtctccatc catccgacca ctcccgacgc tctctcctgg agcaaaccac tcttaccaag 60
catatagcat atataataac gtattgaatt tattaactga ttgaattgag agtaaagcca 120
gtagcgttgt acggctgtag ctttttagaa aagtggcaga tgagcgatgg tggatatgaa 180
agtaccttta cggcatgtag cgacacaaga tcgcttccaa gaactcgaca ttcaagccca 240
gctcgtacaa gaaaatgaac tagccaatca tatgaactag cacattgaag tcaccgcatc 300
atctctgttg gaaacgacgc gcatgtactc gtgcgtagta aatccgtatc tgtacactcg 360
aaagattaca gtatgtagta gtagcatgac taacgatgta acgtccaaat aacgctctgt 420
gcctactcct gtagatgcat tagaccacct gctaacgtct acacgttatg tccgttagct 480
ccaagattgc acttttccct caaagactct gctgggttac gtcatggtct ctttcgggtc 540
tctggtccgt tctctgcccg cccatatccg cccaggctgc tacgatacag gataagctca 600
taagcttaga ttatttttcc ggaatgacat cacgatgcag tggtggaagg atgtatgg 658
<210> 29
<211> 37
<212> DNA
<213> Artificial sequence
<220>
<223> Can1 downstream homology arm forward primer
<400> 29
cgtctccatc catccgacca ctcccgacgc tctctcc 37
<210> 30
<211> 22
<212> DNA
<213> Yarrowia lipolytica
<400> 30
ccatacatcc ttccaccact gc 22
<210> 31
<211> 1276
<212> DNA
<213> Artificial sequence
<220>
<223> Can1 editing template clonign fragment
<400> 31
gggaagcctt gctacgttag gagaagacgc acggcgatga tacgggtacc cctcatgaca 60
tcaatatccg ctgcccctct tgccagcaag gcgtcagcag gtgctttttt cgctattttc 120
accagaccac agcctttttc cttgtgtctc atcttggatt ccttcaaagg caactcaccg 180
cacctccgag tcgtgtgaac aatgtaataa taggctattg acttttttcc cacctgttta 240
gcgccaaacc caaagcgctt ttcgccccca ctgcagcccg atggaaggca catatggcaa 300
gggaaaagtc ttcaggtaat acatgcctgc tgcaactata tgtactctga ctcattccct 360
cagacgtggg tcatagacag ctgttttaaa ccgggcaaat caatctctgt cgcacaggta 420
tttctgccct tcaaaaccag gttgccacat cagattccat caaagttttt cagactaact 480
tcaatcttaa acggcatctc acaacaagcg aattggacgg aaaaaaagcg tctatcatta 540
ccggcaccta tccacactaa gacagtacta aaggacgacg ctccccacga aacgacgttt 600
cgaccttaac gaccctgccg tctccatcca tccgaccact cccgacgctc tctcctggag 660
caaaccactc ttaccaagca tatagcatat ataataacgt attgaattta ttaactgatt 720
gaattgagag taaagccagt agcgttgtac ggctgtagct ttttagaaaa gtggcagatg 780
agcgatggtg gatatgaaag tacctttacg gcatgtagcg acacaagatc gcttccaaga 840
actcgacatt caagcccagc tcgtacaaga aaatgaacta gccaatcata tgaactagca 900
cattgaagtc accgcatcat ctctgttgga aacgacgcgc atgtactcgt gcgtagtaaa 960
tccgtatctg tacactcgaa agattacagt atgtagtagt agcatgacta acgatgtaac 1020
gtccaaataa cgctctgtgc ctactcctgt agatgcatta gaccacctgc taacgtctac 1080
acgttatgtc cgttagctcc aagattgcac ttttccctca aagactctgc tgggttacgt 1140
catggtctct ttcgggtctc tggtccgttc tctgcccgcc catatccgcc caggctgcta 1200
cgatacagga taagctcata agcttagatt atttttccgg aatgacatca cgatgcagtg 1260
gtggaaggat gtatgg 1276
<210> 32
<211> 2686
<212> DNA
<213> Artificial sequence
<220>
<223> pUC18
<400> 32
tcgcgcgttt cggtgatgac ggtgaaaacc tctgacacat gcagctcccg gagacggtca 60
cagcttgtct gtaagcggat gccgggagca gacaagcccg tcagggcgcg tcagcgggtg 120
ttggcgggtg tcggggctgg cttaactatg cggcatcaga gcagattgta ctgagagtgc 180
accatatgcg gtgtgaaata ccgcacagat gcgtaaggag aaaataccgc atcaggcgcc 240
attcgccatt caggctgcgc aactgttggg aagggcgatc ggtgcgggcc tcttcgctat 300
tacgccagct ggcgaaaggg ggatgtgctg caaggcgatt aagttgggta acgccagggt 360
tttcccagtc acgacgttgt aaaacgacgg ccagtgccaa gcttgcatgc ctgcaggtcg 420
actctagagg atccccgggt accgagctcg aattcgtaat catggtcata gctgtttcct 480
gtgtgaaatt gttatccgct cacaattcca cacaacatac gagccggaag cataaagtgt 540
aaagcctggg gtgcctaatg agtgagctaa ctcacattaa ttgcgttgcg ctcactgccc 600
gctttccagt cgggaaacct gtcgtgccag ctgcattaat gaatcggcca acgcgcgggg 660
agaggcggtt tgcgtattgg gcgctcttcc gcttcctcgc tcactgactc gctgcgctcg 720
gtcgttcggc tgcggcgagc ggtatcagct cactcaaagg cggtaatacg gttatccaca 780
gaatcagggg ataacgcagg aaagaacatg tgagcaaaag gccagcaaaa ggccaggaac 840
cgtaaaaagg ccgcgttgct ggcgtttttc cataggctcc gcccccctga cgagcatcac 900
aaaaatcgac gctcaagtca gaggtggcga aacccgacag gactataaag ataccaggcg 960
tttccccctg gaagctccct cgtgcgctct cctgttccga ccctgccgct taccggatac 1020
ctgtccgcct ttctcccttc gggaagcgtg gcgctttctc atagctcacg ctgtaggtat 1080
ctcagttcgg tgtaggtcgt tcgctccaag ctgggctgtg tgcacgaacc ccccgttcag 1140
cccgaccgct gcgccttatc cggtaactat cgtcttgagt ccaacccggt aagacacgac 1200
ttatcgccac tggcagcagc cactggtaac aggattagca gagcgaggta tgtaggcggt 1260
gctacagagt tcttgaagtg gtggcctaac tacggctaca ctagaaggac agtatttggt 1320
atctgcgctc tgctgaagcc agttaccttc ggaaaaagag ttggtagctc ttgatccggc 1380
aaacaaacca ccgctggtag cggtggtttt tttgtttgca agcagcagat tacgcgcaga 1440
aaaaaaggat ctcaagaaga tcctttgatc ttttctacgg ggtctgacgc tcagtggaac 1500
gaaaactcac gttaagggat tttggtcatg agattatcaa aaaggatctt cacctagatc 1560
cttttaaatt aaaaatgaag ttttaaatca atctaaagta tatatgagta aacttggtct 1620
gacagttacc aatgcttaat cagtgaggca cctatctcag cgatctgtct atttcgttca 1680
tccatagttg cctgactccc cgtcgtgtag ataactacga tacgggaggg cttaccatct 1740
ggccccagtg ctgcaatgat accgcgagac ccacgctcac cggctccaga tttatcagca 1800
ataaaccagc cagccggaag ggccgagcgc agaagtggtc ctgcaacttt atccgcctcc 1860
atccagtcta ttaattgttg ccgggaagct agagtaagta gttcgccagt taatagtttg 1920
cgcaacgttg ttgccattgc tacaggcatc gtggtgtcac gctcgtcgtt tggtatggct 1980
tcattcagct ccggttccca acgatcaagg cgagttacat gatcccccat gttgtgcaaa 2040
aaagcggtta gctccttcgg tcctccgatc gttgtcagaa gtaagttggc cgcagtgtta 2100
tcactcatgg ttatggcagc actgcataat tctcttactg tcatgccatc cgtaagatgc 2160
ttttctgtga ctggtgagta ctcaaccaag tcattctgag aatagtgtat gcggcgaccg 2220
agttgctctt gcccggcgtc aatacgggat aataccgcgc cacatagcag aactttaaaa 2280
gtgctcatca ttggaaaacg ttcttcgggg cgaaaactct caaggatctt accgctgttg 2340
agatccagtt cgatgtaacc cactcgtgca cccaactgat cttcagcatc ttttactttc 2400
accagcgttt ctgggtgagc aaaaacagga aggcaaaatg ccgcaaaaaa gggaataagg 2460
gcgacacgga aatgttgaat actcatactc ttcctttttc aatattattg aagcatttat 2520
cagggttatt gtctcatgag cggatacata tttgaatgta tttagaaaaa taaacaaata 2580
ggggttccgc gcacatttcc ccgaaaagtg ccacctgacg tctaagaaac cattattatc 2640
atgacattaa cctataaaaa taggcgtatc acgaggccct ttcgtc 2686
<210> 33
<211> 3901
<212> DNA
<213> Artificial sequence
<220>
<223> pRF80
<400> 33
agcttgctac gttaggagaa gacgcacggc gatgatacgg gtacccctca tgacatcaat 60
atccgctgcc cctcttgcca gcaaggcgtc agcaggtgct tttttcgcta ttttcaccag 120
accacagcct ttttccttgt gtctcatctt ggattccttc aaaggcaact caccgcacct 180
ccgagtcgtg tgaacaatgt aataataggc tattgacttt tttcccacct gtttagcgcc 240
aaacccaaag cgcttttcgc ccccactgca gcccgatgga aggcacatat ggcaagggaa 300
aagtcttcag gtaatacatg cctgctgcaa ctatatgtac tctgactcat tccctcagac 360
gtgggtcata gacagctgtt ttaaaccggg caaatcaatc tctgtcgcac aggtatttct 420
gcccttcaaa accaggttgc cacatcagat tccatcaaag tttttcagac taacttcaat 480
cttaaacggc atctcacaac aagcgaattg gacggaaaaa aagcgtctat cattaccggc 540
acctatccac actaagacag tactaaagga cgacgctccc cacgaaacga cgtttcgacc 600
ttaacgaccc tgccgtctcc atccatccga ccactcccga cgctctctcc tggagcaaac 660
cactcttacc aagcatatag catatataat aacgtattga atttattaac tgattgaatt 720
gagagtaaag ccagtagcgt tgtacggctg tagcttttta gaaaagtggc agatgagcga 780
tggtggatat gaaagtacct ttacggcatg tagcgacaca agatcgcttc caagaactcg 840
acattcaagc ccagctcgta caagaaaatg aactagccaa tcatatgaac tagcacattg 900
aagtcaccgc atcatctctg ttggaaacga cgcgcatgta ctcgtgcgta gtaaatccgt 960
atctgtacac tcgaaagatt acagtatgta gtagtagcat gactaacgat gtaacgtcca 1020
aataacgctc tgtgcctact cctgtagatg cattagacca cctgctaacg tctacacgtt 1080
atgtccgtta gctccaagat tgcacttttc cctcaaagac tctgctgggt tacgtcatgg 1140
tctctttcgg gtctctggtc cgttctctgc ccgcccatat ccgcccaggc tgctacgata 1200
caggataagc tcataagctt gcatgcctgc aggtcgactc tagaggatcc ccgggtaccg 1260
agctcgaatt cgtaatcatg gtcatagctg tttcctgtgt gaaattgtta tccgctcaca 1320
attccacaca acatacgagc cggaagcata aagtgtaaag cctggggtgc ctaatgagtg 1380
agctaactca cattaattgc gttgcgctca ctgcccgctt tccagtcggg aaacctgtcg 1440
tgccagctgc attaatgaat cggccaacgc gcggggagag gcggtttgcg tattgggcgc 1500
tcttccgctt cctcgctcac tgactcgctg cgctcggtcg ttcggctgcg gcgagcggta 1560
tcagctcact caaaggcggt aatacggtta tccacagaat caggggataa cgcaggaaag 1620
aacatgtgag caaaaggcca gcaaaaggcc aggaaccgta aaaaggccgc gttgctggcg 1680
tttttccata ggctccgccc ccctgacgag catcacaaaa atcgacgctc aagtcagagg 1740
tggcgaaacc cgacaggact ataaagatac caggcgtttc cccctggaag ctccctcgtg 1800
cgctctcctg ttccgaccct gccgcttacc ggatacctgt ccgcctttct cccttcggga 1860
agcgtggcgc tttctcatag ctcacgctgt aggtatctca gttcggtgta ggtcgttcgc 1920
tccaagctgg gctgtgtgca cgaacccccc gttcagcccg accgctgcgc cttatccggt 1980
aactatcgtc ttgagtccaa cccggtaaga cacgacttat cgccactggc agcagccact 2040
ggtaacagga ttagcagagc gaggtatgta ggcggtgcta cagagttctt gaagtggtgg 2100
cctaactacg gctacactag aaggacagta tttggtatct gcgctctgct gaagccagtt 2160
accttcggaa aaagagttgg tagctcttga tccggcaaac aaaccaccgc tggtagcggt 2220
ggtttttttg tttgcaagca gcagattacg cgcagaaaaa aaggatctca agaagatcct 2280
ttgatctttt ctacggggtc tgacgctcag tggaacgaaa actcacgtta agggattttg 2340
gtcatgagat tatcaaaaag gatcttcacc tagatccttt taaattaaaa atgaagtttt 2400
aaatcaatct aaagtatata tgagtaaact tggtctgaca gttaccaatg cttaatcagt 2460
gaggcaccta tctcagcgat ctgtctattt cgttcatcca tagttgcctg actccccgtc 2520
gtgtagataa ctacgatacg ggagggctta ccatctggcc ccagtgctgc aatgataccg 2580
cgagacccac gctcaccggc tccagattta tcagcaataa accagccagc cggaagggcc 2640
gagcgcagaa gtggtcctgc aactttatcc gcctccatcc agtctattaa ttgttgccgg 2700
gaagctagag taagtagttc gccagttaat agtttgcgca acgttgttgc cattgctaca 2760
ggcatcgtgg tgtcacgctc gtcgtttggt atggcttcat tcagctccgg ttcccaacga 2820
tcaaggcgag ttacatgatc ccccatgttg tgcaaaaaag cggttagctc cttcggtcct 2880
ccgatcgttg tcagaagtaa gttggccgca gtgttatcac tcatggttat ggcagcactg 2940
cataattctc ttactgtcat gccatccgta agatgctttt ctgtgactgg tgagtactca 3000
accaagtcat tctgagaata gtgtatgcgg cgaccgagtt gctcttgccc ggcgtcaata 3060
cgggataata ccgcgccaca tagcagaact ttaaaagtgc tcatcattgg aaaacgttct 3120
tcggggcgaa aactctcaag gatcttaccg ctgttgagat ccagttcgat gtaacccact 3180
cgtgcaccca actgatcttc agcatctttt actttcacca gcgtttctgg gtgagcaaaa 3240
acaggaaggc aaaatgccgc aaaaaaggga ataagggcga cacggaaatg ttgaatactc 3300
atactcttcc tttttcaata ttattgaagc atttatcagg gttattgtct catgagcgga 3360
tacatatttg aatgtattta gaaaaataaa caaatagggg ttccgcgcac atttccccga 3420
aaagtgccac ctgacgtcta agaaaccatt attatcatga cattaaccta taaaaatagg 3480
cgtatcacga ggccctttcg tctcgcgcgt ttcggtgatg acggtgaaaa cctctgacac 3540
atgcagctcc cggagacggt cacagcttgt ctgtaagcgg atgccgggag cagacaagcc 3600
cgtcagggcg cgtcagcggg tgttggcggg tgtcggggct ggcttaacta tgcggcatca 3660
gagcagattg tactgagagt gcaccatatg cggtgtgaaa taccgcacag atgcgtaagg 3720
agaaaatacc gcatcaggcg ccattcgcca ttcaggctgc gcaactgttg ggaagggcga 3780
tcggtgcggg cctcttcgct attacgccag ctggcgaaag ggggatgtgc tgcaaggcga 3840
ttaagttggg taacgccagg gttttcccag tcacgacgtt gtaaaacgac ggccagtgcc 3900
a 3901
<210> 34
<211> 1210
<212> DNA
<213> Artificial sequence
<220>
<223> Can1 polynucleotide modification (editing) template
<400> 34
gctacgttag gagaagacgc acggcgatga tacgggtacc cctcatgaca tcaatatccg 60
ctgcccctct tgccagcaag gcgtcagcag gtgctttttt cgctattttc accagaccac 120
agcctttttc cttgtgtctc atcttggatt ccttcaaagg caactcaccg cacctccgag 180
tcgtgtgaac aatgtaataa taggctattg acttttttcc cacctgttta gcgccaaacc 240
caaagcgctt ttcgccccca ctgcagcccg atggaaggca catatggcaa gggaaaagtc 300
ttcaggtaat acatgcctgc tgcaactata tgtactctga ctcattccct cagacgtggg 360
tcatagacag ctgttttaaa ccgggcaaat caatctctgt cgcacaggta tttctgccct 420
tcaaaaccag gttgccacat cagattccat caaagttttt cagactaact tcaatcttaa 480
acggcatctc acaacaagcg aattggacgg aaaaaaagcg tctatcatta ccggcaccta 540
tccacactaa gacagtacta aaggacgacg ctccccacga aacgacgttt cgaccttaac 600
gaccctgccg tctccatcca tccgaccact cccgacgctc tctcctggag caaaccactc 660
ttaccaagca tatagcatat ataataacgt attgaattta ttaactgatt gaattgagag 720
taaagccagt agcgttgtac ggctgtagct ttttagaaaa gtggcagatg agcgatggtg 780
gatatgaaag tacctttacg gcatgtagcg acacaagatc gcttccaaga actcgacatt 840
caagcccagc tcgtacaaga aaatgaacta gccaatcata tgaactagca cattgaagtc 900
accgcatcat ctctgttgga aacgacgcgc atgtactcgt gcgtagtaaa tccgtatctg 960
tacactcgaa agattacagt atgtagtagt agcatgacta acgatgtaac gtccaaataa 1020
cgctctgtgc ctactcctgt agatgcatta gaccacctgc taacgtctac acgttatgtc 1080
cgttagctcc aagattgcac ttttccctca aagactctgc tgggttacgt catggtctct 1140
ttcgggtctc tggtccgttc tctgcccgcc catatccgcc caggctgcta cgatacagga 1200
taagctcata 1210
<210> 35
<211> 20
<212> DNA
<213> Artificial sequence
<220>
<223> C3S forward
<400> 35
agcttgctac gttaggagaa 20
<210> 36
<211> 20
<212> DNA
<213> Artificial seqeunce
<220>
<223> C3S reverse
<400> 36
tatgagctta tcctgtatcg 20
<210> 37
<211> 20
<212> DNA
<213> Artificial sequence
<220>
<223> PT forward
<400> 37
agcttgctac gttaggagaa 20
<210> 38
<211> 20
<212> DNA
<213> Artificial sequence
<220>
<223> PT reverse
<400> 38
tatgagctta tcctgtatcg 20
<210> 39
<211> 2125
<212> DNA
<213> Artificial sequence
<220>
<223> CAN1 locus
<400> 39
ggaaggcaca tatggcaagg gaaaagtctt caggtaatac atgcctgctg caactatatg 60
tactctgact cattccctca gacgtgggtc atagacagct gttttaaacc gggcaaatca 120
atctctgtcg cacaggtatt tctgcccttc aaaaccaggt tgccacatca gattccatca 180
aagtttttca gactaacttc aatcttaaac ggcatctcac aacaagcgaa ttggacggaa 240
aaaaagcgtc tatcattacc ggcacctatc cacactaaga cagtactaaa ggacgacgct 300
ccccacgaaa cgacgtttcg accttaacga ccctgccgtc tccatccatc cgaccacaat 360
ggaaaagaca ttttcaaacg attacccacc ctccgggact gaggcccaca tccacatcaa 420
ccacacggcc cactcggatg actcagagga ggtgccctcg cacaaggaaa attacaacac 480
cagtggccac gacctggagg agtccgaccc ggataaccat gtcggtgaga ccctcgaggt 540
caagcgaggt ctcaagatgc gacacatctc catgatctcg cttggaggaa ccattggtac 600
cggtctcttc attggtaccg gaggagctct ccagcaggcc ggtccctgtg gcgccctcgt 660
cgcctacgtg ttcatggcca ccattgtcta ctctgttgcc gagtctcttg gagaactggc 720
tacgtacatt cccatcaccg gctcctttgc cgtctttact acccgatatc tgtcacagtc 780
gtttggtgcc tccatgggct ggctatactg gttctcgtgg gcgatcacct tcgccatcga 840
gctcaacacc attggtcccg tgattgagta ctggactgac gccgttccta ctgctgcctg 900
gattgccatc ttcttcgtca tcctcactac catcaacttc ttccccgtgg gcttctatgg 960
cgaagtcgag ttctgggtgg cctccgtgaa ggtcattgcc atcattggat ggctcatcta 1020
cgcgctctgc atgacgtgtg gagcaggtgt aacaggtcct gtgggattca gatactggaa 1080
ccaccccgga cccatgggag acggaatctg gaccgacggc gtgcccattg tgcgaaacgc 1140
gcccggtcga cgattcatgg gatggctcaa ttcgctcgtt aacgccgcct tcacctacca 1200
gggctgtgag ctggtcggag tcactgccgg tgaggcccag aaccccagaa agtccgtccc 1260
tcgagccatc aaccgagtct ttgctcgaat ttgcatcttc tacattggct ctatcttctt 1320
catgggcatg ctcgtgccct ttaacgaccc caagctgacc gatgactcct ccgtcatcgc 1380
ctcctctcct tttgttattg ccattatcaa ctctggcacc aaggtgctcc ctcacatttt 1440
caacgccgtc attctcatca ccctgatttc ggcaggaaac tccaacgtct acattggctc 1500
gcgagtggtc tacgccctgg ctgactccgg aaccgcacca aagttcttca agcgaaccac 1560
caagaaggga gtgccgtacg tggcagtctg cttcacctcg gcgtttggtc tgctggcctt 1620
catgtctgtg tccgagtcgt cgtccactgt cttcgactgg ttcatcaaca tctccgctgt 1680
ggccggcctc atctgttggg ccttcatctc tgcctcccac atccgattca tgcaagtgct 1740
taagcacaga gggatctcca gagatacgct gcccttcaag gcacgatggc agccattcta 1800
ctcatggtac gcgctcgtct ccatcatctt catcactctc atccagggct tcacgtcctt 1860
ctggcacttt accgccgcca agttcatgac tgcatacatc tccgtcattg tctgggtcgg 1920
tttgtacatt atcttccagt gtctgttccg atgcaagttc cttatcccta ttgaggatgt 1980
ggacattgac accggccgac gagagattga cgacgatgtg tgggaggaga agatccccac 2040
aaagtggtac gagaagtttt ggaatattat tgcataagaa gatcggggat tcccgacgct 2100
ctctcctgga gcaaaccact cttac 2125
<210> 40
<211> 20
<212> DNA
<213> Artificial sequence
<220>
<223> unmodified forward
<400> 40
agcttgctac gttaggagaa 20
<210> 41
<211> 20
<212> DNA
<213> Artificial sequence
<220>
<223> unmodified reverse
<400> 41
tatgagctta tcctgtatcg 20
<210> 42
<211> 20
<212> DNA
<213> Yarrowia lipolytica
<400> 42
ggaaggcaca tatggcaagg 20
<210> 43
<211> 21
<212> DNA
<213> Yarrowia lipolytica
<400> 43
gtaagagtgg tttgctccag g 21
<210> 44
<211> 2125
<212> DNA
<213> Yarrowia lipolytica
<400> 44
ggaaggcaca tatggcaagg gaaaagtctt caggtaatac atgcctgctg caactatatg 60
tactctgact cattccctca gacgtgggtc atagacagct gttttaaacc gggcaaatca 120
atctctgtcg cacaggtatt tctgcccttc aaaaccaggt tgccacatca gattccatca 180
aagtttttca gactaacttc aatcttaaac ggcatctcac aacaagcgaa ttggacggaa 240
aaaaagcgtc tatcattacc ggcacctatc cacactaaga cagtactaaa ggacgacgct 300
ccccacgaaa cgacgtttcg accttaacga ccctgccgtc tccatccatc cgaccacaat 360
ggaaaagaca ttttcaaacg attacccacc ctccgggact gaggcccaca tccacatcaa 420
ccacacggcc cactcggatg actcagagga ggtgccctcg cacaaggaaa attacaacac 480
cagtggccac gacctggagg agtccgaccc ggataaccat gtcggtgaga ccctcgaggt 540
caagcgaggt ctcaagatgc gacacatctc catgatctcg cttggaggaa ccattggtac 600
cggtctcttc attggtaccg gaggagctct ccagcaggcc ggtccctgtg gcgccctcgt 660
cgcctacgtg ttcatggcca ccattgtcta ctctgttgcc gagtctcttg gagaactggc 720
tacgtacatt cccatcaccg gctcctttgc cgtctttact acccgatatc tgtcacagtc 780
gtttggtgcc tccatgggct ggctatactg gttctcgtgg gcgatcacct tcgccatcga 840
gctcaacacc attggtcccg tgattgagta ctggactgac gccgttccta ctgctgcctg 900
gattgccatc ttcttcgtca tcctcactac catcaacttc ttccccgtgg gcttctatgg 960
cgaagtcgag ttctgggtgg cctccgtgaa ggtcattgcc atcattggat ggctcatcta 1020
cgcgctctgc atgacgtgtg gagcaggtgt aacaggtcct gtgggattca gatactggaa 1080
ccaccccgga cccatgggag acggaatctg gaccgacggc gtgcccattg tgcgaaacgc 1140
gcccggtcga cgattcatgg gatggctcaa ttcgctcgtt aacgccgcct tcacctacca 1200
gggctgtgag ctggtcggag tcactgccgg tgaggcccag aaccccagaa agtccgtccc 1260
tcgagccatc aaccgagtct ttgctcgaat ttgcatcttc tacattggct ctatcttctt 1320
catgggcatg ctcgtgccct ttaacgaccc caagctgacc gatgactcct ccgtcatcgc 1380
ctcctctcct tttgttattg ccattatcaa ctctggcacc aaggtgctcc ctcacatttt 1440
caacgccgtc attctcatca ccctgatttc ggcaggaaac tccaacgtct acattggctc 1500
gcgagtggtc tacgccctgg ctgactccgg aaccgcacca aagttcttca agcgaaccac 1560
caagaaggga gtgccgtacg tggcagtctg cttcacctcg gcgtttggtc tgctggcctt 1620
catgtctgtg tccgagtcgt cgtccactgt cttcgactgg ttcatcaaca tctccgctgt 1680
ggccggcctc atctgttggg ccttcatctc tgcctcccac atccgattca tgcaagtgct 1740
taagcacaga gggatctcca gagatacgct gcccttcaag gcacgatggc agccattcta 1800
ctcatggtac gcgctcgtct ccatcatctt catcactctc atccagggct tcacgtcctt 1860
ctggcacttt accgccgcca agttcatgac tgcatacatc tccgtcattg tctgggtcgg 1920
tttgtacatt atcttccagt gtctgttccg atgcaagttc cttatcccta ttgaggatgt 1980
ggacattgac accggccgac gagagattga cgacgatgtg tgggaggaga agatccccac 2040
aaagtggtac gagaagtttt ggaatattat tgcataagaa gatcggggat tcccgacgct 2100
ctctcctgga gcaaaccact cttac 2125
<210> 45
<211> 392
<212> DNA
<213> Artificial sequence
<220>
<223> Can1 locus deletion
<400> 45
ggaaggcaca tatggcaagg gaaaagtctt caggtaatac atgcctgctg caactatatg 60
tactctgact cattccctca gacgtgggtc atagacagct gttttaaacc gggcaaatca 120
atctctgtcg cacaggtatt tctgcccttc aaaaccaggt tgccacatca gattccatca 180
aagtttttca gactaacttc aatcttaaac ggcatctcac aacaagcgaa ttggacggaa 240
aaaaagcgtc tatcattacc ggcacctatc cacactaaga cagtactaaa ggacgacgct 300
ccccacgaaa cgacgtttcg accttaacga ccctgccgtc tccatccatc cgaccactcc 360
cgacgctctc tcctggagca aaccactctt ac 392
<210> 46
<211> 62
<212> DNA
<213> Yarrowia lipolytica
<220>
<221> misc_feature
<222> (1)..(62)
<223> Copy number analysis fragment
<400> 46
agcgccaaac ccaaagcgct tttcgccccc actgcagccc gatggaaggc acatatggca 60
ag 62
<210> 47
<211> 17
<212> DNA
<213> Artificial sequence
<220>
<223> Can1 copy number F
<400> 47
agcgccaaac ccaaagc 17
<210> 48
<211> 20
<212> DNA
<213> Artificial Seqeunce
<220>
<223> Can1 copy number R
<400> 48
cttgccatat gtgccttcca 20
<210> 49
<211> 21
<212> DNA
<213> Artificial sequence
<220>
<223> Can1 copy number probe
<400> 49
cttttcgccc ccactgcagc c 21
<210> 50
<211> 69
<212> DNA
<213> Yarrowia lipolytica
<400> 50
tgaccgtcct tggagatacc agcctcgaac tcaccaacac caccagcaat gatgaggatg 60
gcacagtcg 69
<210> 51
<211> 20
<212> DNA
<213> Artificial sequence
<220>
<223> TEF1 forward
<400> 51
cgactgtgcc atcctcatca 20
<210> 52
<211> 21
<212> DNA
<213> Artificial sequence
<220>
<223> TEF1 reverse
<400> 52
tgaccgtcct tggagatacc a 21
<210> 53
<211> 21
<212> DNA
<213> Yarrowia lipolytica
<400> 53
tgctggtggt gttggtgagt t 21
<210> 54
<211> 12167
<212> DNA
<213> Artificial sequence
<220>
<223> pRF434
<400> 54
cgataaaaaa caaaaaaaaa agcaccgact cggtgccact ttttcaagtt gataacggac 60
tagccttatt ttaacttgct atttctagct ctaaaacgca ggtgtaaaaa taaaaaggcc 120
tgcgattacc agcaggcctg ttattaacct aagccttagg acgcttcacg ccatacttgg 180
aacgagcctg cttacggtct ttaacgccgg agcagtcaag cgcaccacgt acggtgtggt 240
aacgaacacc cgggaggtct ttaacacgac cgccacggat caggatcacg gagtgctcct 300
gcaggttgtg accttcacca ccgatgtagg aagtcacttc gaaaccgtta gtcagacgaa 360
cacggcatac tttacgcagc gcggagttcg gttttttagg agtggtagta tatacacgag 420
tacatacgcc acgtttttgc gggcatgctt ccagcgcagg cacgttgctt ttcgcaactt 480
tgcgagcacg tggtttgcgt accagctggt taactgttgc cattaaatag ctcctggttt 540
tagcttttgc ttcgtaaaca cgtaataaaa cgtcctcaca caatatgagg acgccgaatt 600
tagggcgatg ccgaaaaggt gtcaagaaat atacaacgat cccgccatca cctgcgtccc 660
attcgccatg ccgaagcatg ttgcccagcc ggcgccagcg aggaggctgg gaccatgccg 720
gccattattt tgcgttaagt ttctaatcat cacgaaatta tctatcaaaa ataactaggt 780
cccaccgaga ttcgaactcg ggaccttaag atttgcaatc tcacgcgcta ccgctgtgcc 840
ataggaccga agttaaaatt tggccaaaga aggacctggg caccctggac tgtgggttag 900
ggtaatattc cttatggaga caatgggcta gggtaaatta cctaaaatgg gtcgataaag 960
aggggtgttc ccagttggga agtgtaattg aagacggggt caaaaaagaa aatcaaaaaa 1020
aatttaatta agactatgat aacttcgtat aatgtatgct atacgaacgg tagcacactg 1080
tacgagtaag agcactagcc actgcactca agtgaaaccg ttgcccgggt acgagtatga 1140
gtatgtacag tatgtttagt attgtacttg gacagtgctt gtatcgtaca ttctcaagtg 1200
tcaaacataa atatccgttg ctatatcctc gcaccaccac gtagctcgct atatccctgt 1260
gttgaatcca tccatcttgg attgccaatt gtgcacacag aaccgggcac tcacttcccc 1320
atccacactt gcggccgcta ttcctttgcc ctcggacgag tgctggggcg tcggtttcca 1380
ctatcggcga gtacttctac acagccatcg gtccagacgg ccgcgcttct gcgggcgatt 1440
tgtgtacgcc cgacagtccc ggctccggat cggacgattg cgtcgcatcg accctgcgcc 1500
caagctgcat catcgaaatt gccgtcaacc aagctctgat agagttggtc aagaccaatg 1560
cggagcatat acgcccggag ccgcggcgat cctgcaagct ccggatgcct ccgctcgaag 1620
tagcgcgtct gctgctccat acaagccaac cacggcctcc agaagaagat gttggcgacc 1680
tcgtattggg aatccccgaa catcgcctcg ctccagtcaa tgaccgctgt tatgcggcca 1740
ttgtccgtca ggacattgtt ggagccgaaa tccgcgtgca cgaggtgccg gacttcgggg 1800
cagtcctcgg cccaaagcat cagctcatcg agagcctgcg cgacggacgc actgacggtg 1860
tcgtccatca cagtttgcca gtgatacaca tggggatcag caatcgcgca tatgaaatca 1920
cgccatgtag tgtattgacc gattccttgc ggtccgaatg ggccgaaccc gctcgtctgg 1980
ctaagatcgg ccgcagcgat cgcatccata gcctccgcga ccggctgcag aacagcgggc 2040
agttcggttt caggcaggtc ttgcaacgtg acaccctgtg cacggcggga gatgcaatag 2100
gtcaggctct cgctgaactc cccaatgtca agcacttccg gaatcgggag cgcggccgat 2160
gcaaagtgcc gataaacata acgatctttg tagaaaccat cggcgcagct atttacccgc 2220
aggacatatc cacgccctcc tacatcgaag ctgaaagcac gagattcttc gccctccgag 2280
agctgcatca ggtcggagac gctgtcgaac ttttcgatca gaaacttctc gacagacgtc 2340
gcggtgagtt caggcttttt ggccatggtt gatgtgtgtt taattcaaga atgaatatag 2400
agaagagaag aagaaaaaag attcaattga gccggcgatg cagaccctta tataaatgtt 2460
gccttggaca gacggagcaa gcccgcccaa acctacgttc ggtataatat gttaagcttt 2520
ttaacacaaa ggtttggctt ggggtaacct gatgtggtgc aaaagaccgg gcgttggcga 2580
gccattgcgc gggcgaatgg ggccgtgact cgtctcaaat tcgagggcgt gcctcaattc 2640
gtgcccccgt ggctttttcc cgccgtttcc gccccgtttg caccactgca gccgcttctt 2700
tggttcggac accttgctgc gagctaggtg ccttgtgcta cttaaaaagt ggcctcccaa 2760
caccaacatg acatgagtgc gtgggccaag acacgttggc ggggtcgcag tcggctcaat 2820
ggcccggaaa aaacgctgct ggagctggtt cggacgcagt ccgccgcggc gtatggatat 2880
ccgcaaggtt ccatagcgcc attgccctcc gtcggcgtct atcccgcaac ctaccgttcg 2940
tataatgtat gctatacgaa gttatgagcg ggcttaaggt ttaaaccatc atctaagggc 3000
ctcaaaacta cctcggaact gctgcgctga tctggacacc acagaggttc cgagcacttt 3060
aggttgcacc aaatgtccca ccaggtgcag gcagaaaacg ctggaacagc gtgtacagtt 3120
tgtcttaaca aaaagtgagg gcgctgaggt cgagcagggt ggtgtgactt gttatagcct 3180
ttagagctgc gaaagcgcgt atggatttgg ctcatcaggc cagattgagg gtctgtggac 3240
acatgtcatg ttagtgtact tcaatcgccc cctggatata gccccgacaa taggccgtgg 3300
cctcattttt ttgccttccg cacatttcca ttgctcggta cccacacctt gcttctcctg 3360
cacttgccaa ccttaatact ggtttacatt gaccaacatc ttacaagcgg ggggcttgtc 3420
tagggtatat ataaacagtg gctctcccaa tcggttgcca gtctcttttt tcctttcttt 3480
ccccacagat tcgaaatcta aactacacat cacaccatgg acaagaaata ctccatcggc 3540
ctggacattg gaaccaactc tgtcggctgg gctgtcatca ccgacgagta caaggtgccc 3600
tccaagaaat tcaaggtcct cggaaacacc gatcgacact ccatcaagaa aaacctcatt 3660
ggtgccctgt tgttcgattc tggcgagact gccgaagcta ccagactcaa gcgaactgct 3720
cggcgacgtt acacccgacg gaagaaccga atctgctacc tgcaggagat cttttccaac 3780
gagatggcca aggtggacga ttcgttcttt catcgactgg aggaatcctt cctcgtcgag 3840
gaagacaaga aacacgagcg tcatcccatc tttggcaaca ttgtggacga ggttgcttac 3900
cacgagaagt atcctaccat ctaccatctc cgaaagaaac tcgtcgattc caccgacaag 3960
gcggatctca gacttatcta cctcgctctg gcacacatga tcaagtttcg aggtcatttc 4020
ctcatcgagg gcgatctcaa tcccgacaac agcgatgtgg acaagctgtt cattcagctc 4080
gttcagacct acaaccagct gttcgaggaa aaccccatca atgcctccgg agtcgatgca 4140
aaggccatct tgtctgctcg actctcgaag agcagacgac tggagaacct cattgcccaa 4200
cttcctggcg agaaaaagaa cggactgttt ggcaacctca ttgccctttc tcttggtctc 4260
acacccaact tcaagtccaa cttcgatctg gcggaggacg ccaagctcca gctgtccaag 4320
gacacctacg acgatgacct cgacaacctg cttgcacaga ttggcgatca gtacgccgac 4380
ctgtttctcg ctgccaagaa cctttcggat gctattctct tgtctgacat tctgcgagtc 4440
aacaccgaga tcacaaaggc tcccctttct gcctccatga tcaagcgata cgacgagcac 4500
catcaggatc tcacactgct caaggctctt gtccgacagc aactgcccga gaagtacaag 4560
gagatctttt tcgatcagtc gaagaacggc tacgctggat acatcgacgg cggagcctct 4620
caggaagagt tctacaagtt catcaagcca attctcgaga agatggacgg aaccgaggaa 4680
ctgcttgtca agctcaatcg agaggatctg cttcggaagc aacgaacctt cgacaacggc 4740
agcattcctc atcagatcca cctcggtgag ctgcacgcca ttcttcgacg tcaggaagac 4800
ttctacccct ttctcaagga caaccgagag aagatcgaga agattcttac ctttcgaatc 4860
ccctactatg ttggtcctct tgccagagga aactctcgat ttgcttggat gactcgaaag 4920
tccgaggaaa ccatcactcc ctggaacttc gaggaagtcg tggacaaggg tgcctctgca 4980
cagtccttca tcgagcgaat gaccaacttc gacaagaatc tgcccaacga gaaggttctt 5040
cccaagcatt cgctgctcta cgagtacttt acagtctaca acgaactcac caaagtcaag 5100
tacgttaccg agggaatgcg aaagcctgcc ttcttgtctg gcgaacagaa gaaagccatt 5160
gtcgatctcc tgttcaagac caaccgaaag gtcactgtta agcagctcaa ggaggactac 5220
ttcaagaaaa tcgagtgttt cgacagcgtc gagatttccg gagttgagga ccgattcaac 5280
gcctctttgg gcacctatca cgatctgctc aagattatca aggacaagga ttttctcgac 5340
aacgaggaaa acgaggacat tctggaggac atcgtgctca ctcttaccct gttcgaagat 5400
cgggagatga tcgaggaacg actcaagaca tacgctcacc tgttcgacga caaggtcatg 5460
aaacaactca agcgacgtag atacaccggc tggggaagac tttcgcgaaa gctcatcaac 5520
ggcatcagag acaagcagtc cggaaagacc attctggact ttctcaagtc cgatggcttt 5580
gccaaccgaa acttcatgca gctcattcac gacgattctc ttaccttcaa ggaggacatc 5640
cagaaggcac aagtgtccgg tcagggcgac agcttgcacg aacatattgc caacctggct 5700
ggttcgccag ccatcaagaa aggcattctc cagactgtca aggttgtcga cgagctggtg 5760
aaggtcatgg gacgtcacaa gcccgagaac attgtgatcg agatggccag agagaaccag 5820
acaactcaaa agggtcagaa aaactcgcga gagcggatga agcgaatcga ggaaggcatc 5880
aaggagctgg gatcccagat tctcaaggag catcccgtcg agaacactca actgcagaac 5940
gagaagctgt atctctacta tctgcagaat ggtcgagaca tgtacgtgga tcaggaactg 6000
gacatcaatc gtctcagcga ctacgatgtg gaccacattg tccctcaatc ctttctcaag 6060
gacgattcta tcgacaacaa ggtccttaca cgatccgaca agaacagagg caagtcggac 6120
aacgttccca gcgaagaggt ggtcaaaaag atgaagaact actggcgaca gctgctcaac 6180
gccaagctca ttacccagcg aaagttcgac aatcttacca aggccgagcg aggcggtctg 6240
tccgagctcg acaaggctgg cttcatcaag cgtcaactcg tcgagaccag acagatcaca 6300
aagcacgtcg cacagattct cgattctcgg atgaacacca agtacgacga gaacgacaag 6360
ctcatccgag aggtcaaggt gattactctc aagtccaaac tggtctccga tttccgaaag 6420
gactttcagt tctacaaggt gcgagagatc aacaattacc accatgccca cgatgcttac 6480
ctcaacgccg tcgttggcac tgcgctcatc aagaaatacc ccaagctcga aagcgagttc 6540
gtttacggcg attacaaggt ctacgacgtt cgaaagatga ttgccaagtc cgaacaggag 6600
attggcaagg ctactgccaa gtacttcttt tactccaaca tcatgaactt tttcaagacc 6660
gagatcacct tggccaacgg agagattcga aagagaccac ttatcgagac caacggcgaa 6720
actggagaga tcgtgtggga caagggtcga gactttgcaa ccgtgcgaaa ggttctgtcg 6780
atgcctcagg tcaacatcgt caagaaaacc gaggttcaga ctggcggatt ctccaaggag 6840
tcgattctgc ccaagcgaaa ctccgacaag ctcatcgctc gaaagaaaga ctgggatccc 6900
aagaaatacg gtggcttcga ttctcctacc gtcgcctatt ccgtgcttgt cgttgcgaag 6960
gtcgagaagg gcaagtccaa aaagctcaag tccgtcaagg agctgctcgg aattaccatc 7020
atggagcgat cgagcttcga gaagaatccc atcgacttct tggaagccaa gggttacaag 7080
gaggtcaaga aagacctcat tatcaagctg cccaagtact ctctgttcga actggagaac 7140
ggtcgaaagc gtatgctcgc ctccgctggc gagctgcaga agggaaacga gcttgccttg 7200
ccttcgaagt acgtcaactt tctctatctg gcttctcact acgagaagct caagggttct 7260
cccgaggaca acgaacagaa gcaactcttc gttgagcagc acaaacatta cctcgacgag 7320
attatcgagc agatttccga gttttcgaag cgagtcatcc tggctgatgc caacttggac 7380
aaggtgctct ctgcctacaa caagcatcgg gacaaaccca ttcgagaaca ggcggagaac 7440
atcattcacc tgtttactct taccaacctg ggtgctcctg cagctttcaa gtacttcgat 7500
accactatcg accgaaagcg gtacacatcc accaaggagg ttctcgatgc caccctgatt 7560
caccagtcca tcactggcct gtacgagacc cgaatcgacc tgtctcagct tggtggcgac 7620
tccagagccg atcccaagaa aaagcgaaag gtctaagcgg ccgcaagtgt ggatggggaa 7680
gtgagtgccc ggttctgtgt gcacaattgg caatccaaga tggatggatt caacacaggg 7740
atatagcgag ctacgtggtg gtgcgaggat atagcaacgg atatttatgt ttgacacttg 7800
agaatgtacg atacaagcac tgtccaagta caatactaaa catactgtac atactcatac 7860
tcgtacccgg gcaacggttt cacttgagtg cagtggctag tgctcttact cgtacagtgt 7920
gcaatactgc gtatcatagt ctttgatgta tatcgtattc attcatgtta gttgcgtacg 7980
agccggaagc ataaagtgta aagcctgggg tgcctaatga gtgagctaac tcacattaat 8040
tgcgttgcgc tcactgcccg ctttccagtc gggaaacctg tcgtgccagc tgcattaatg 8100
aatcggccaa cgcgcgggga gaggcggttt gcgtattggg cgctcttccg cttcctcgct 8160
cactgactcg ctgcgctcgg tcgttcggct gcggcgagcg gtatcagctc actcaaaggc 8220
ggtaatacgg ttatccacag aatcagggga taacgcagga aagaacatgt gagcaaaagg 8280
ccagcaaaag gccaggaacc gtaaaaaggc cgcgttgctg gcgtttttcc ataggctccg 8340
cccccctgac gagcatcaca aaaatcgacg ctcaagtcag aggtggcgaa acccgacagg 8400
actataaaga taccaggcgt ttccccctgg aagctccctc gtgcgctctc ctgttccgac 8460
cctgccgctt accggatacc tgtccgcctt tctcccttcg ggaagcgtgg cgctttctca 8520
tagctcacgc tgtaggtatc tcagttcggt gtaggtcgtt cgctccaagc tgggctgtgt 8580
gcacgaaccc cccgttcagc ccgaccgctg cgccttatcc ggtaactatc gtcttgagtc 8640
caacccggta agacacgact tatcgccact ggcagcagcc actggtaaca ggattagcag 8700
agcgaggtat gtaggcggtg ctacagagtt cttgaagtgg tggcctaact acggctacac 8760
tagaaggaca gtatttggta tctgcgctct gctgaagcca gttaccttcg gaaaaagagt 8820
tggtagctct tgatccggca aacaaaccac cgctggtagc ggtggttttt ttgtttgcaa 8880
gcagcagatt acgcgcagaa aaaaaggatc tcaagaagat cctttgatct tttctacggg 8940
gtctgacgct cagtggaacg aaaactcacg ttaagggatt ttggtcatga gattatcaaa 9000
aaggatcttc acctagatcc ttttaaatta aaaatgaagt tttaaatcaa tctaaagtat 9060
atatgagtaa acttggtctg acagttacca atgcttaatc agtgaggcac ctatctcagc 9120
gatctgtcta tttcgttcat ccatagttgc ctgactcccc gtcgtgtaga taactacgat 9180
acgggagggc ttaccatctg gccccagtgc tgcaatgata ccgcgagacc cacgctcacc 9240
ggctccagat ttatcagcaa taaaccagcc agccggaagg gccgagcgca gaagtggtcc 9300
tgcaacttta tccgcctcca tccagtctat taattgttgc cgggaagcta gagtaagtag 9360
ttcgccagtt aatagtttgc gcaacgttgt tgccattgct acaggcatcg tggtgtcacg 9420
ctcgtcgttt ggtatggctt cattcagctc cggttcccaa cgatcaaggc gagttacatg 9480
atcccccatg ttgtgcaaaa aagcggttag ctccttcggt cctccgatcg ttgtcagaag 9540
taagttggcc gcagtgttat cactcatggt tatggcagca ctgcataatt ctcttactgt 9600
catgccatcc gtaagatgct tttctgtgac tggtgagtac tcaaccaagt cattctgaga 9660
atagtgtatg cggcgaccga gttgctcttg cccggcgtca atacgggata ataccgcgcc 9720
acatagcaga actttaaaag tgctcatcat tggaaaacgt tcttcggggc gaaaactctc 9780
aaggatctta ccgctgttga gatccagttc gatgtaaccc actcgtgcac ccaactgatc 9840
ttcagcatct tttactttca ccagcgtttc tgggtgagca aaaacaggaa ggcaaaatgc 9900
cgcaaaaaag ggaataaggg cgacacggaa atgttgaata ctcatactct tcctttttca 9960
atattattga agcatttatc agggttattg tctcatgagc ggatacatat ttgaatgtat 10020
ttagaaaaat aaacaaatag gggttccgcg cacatttccc cgaaaagtgc cacctgacgc 10080
gccctgtagc ggcgcattaa gcgcggcggg tgtggtggtt acgcgcagcg tgaccgctac 10140
acttgccagc gccctagcgc ccgctccttt cgctttcttc ccttcctttc tcgccacgtt 10200
cgccggcttt ccccgtcaag ctctaaatcg ggggctccct ttagggttcc gatttagtgc 10260
tttacggcac ctcgacccca aaaaacttga ttagggtgat ggttcacgta gtgggccatc 10320
gccctgatag acggtttttc gccctttgac gttggagtcc acgttcttta atagtggact 10380
cttgttccaa actggaacaa cactcaaccc tatctcggtc tattcttttg atttataagg 10440
gattttgccg atttcggcct attggttaaa aaatgagctg atttaacaaa aatttaacgc 10500
gaattttaac aaaatattaa cgcttacaat ttccattcgc cattcaggct gcgcaactgt 10560
tgggaagggc gatcggtgcg ggcctcttcg ctattacgcc agctggcgaa agggggatgt 10620
gctgcaaggc gattaagttg ggtaacgcca gggttttccc agtcacgacg ttgtaaaacg 10680
acggccagtg aattgtaata cgactcacta tagggcgaat tgggtaccgg gccccccctc 10740
gaggtcgatg gtgtcgataa gcttgatatc gaattcatgt cacacaaacc gatcttcgcc 10800
tcaaggaaac ctaattctac atccgagaga ctgccgagat ccagtctaca ctgattaatt 10860
ttcgggccaa taatttaaaa aaatcgtgtt atataatatt atatgtatta tatatataca 10920
tcatgatgat actgacagtc atgtcccatt gctaaataga cagactccat ctgccgcctc 10980
caactgatgt tctcaatatt taaggggtca tctcgcattg tttaataata aacagactcc 11040
atctaccgcc tccaaatgat gttctcaaaa tatattgtat gaacttattt ttattactta 11100
gtattattag acaacttact tgctttatga aaaacacttc ctatttagga aacaatttat 11160
aatggcagtt cgttcattta acaatttatg tagaataaat gttataaatg cgtatgggaa 11220
atcttaaata tggatagcat aaatgatatc tgcattgcct aattcgaaat caacagcaac 11280
gaaaaaaatc ccttgtacaa cataaatagt catcgagaaa tatcaactat caaagaacag 11340
ctattcacac gttactattg agattattat tggacgagaa tcacacactc aactgtcttt 11400
ctctcttcta gaaatacagg tacaagtatg tactattctc attgttcata cttctagtca 11460
tttcatccca catattcctt ggatttctct ccaatgaatg acattctatc ttgcaaattc 11520
aacaattata ataagatata ccaaagtagc ggtatagtgg caatcaaaaa gcttctctgg 11580
tgtgcttctc gtatttattt ttattctaat gatccattaa aggtatatat ttatttcttg 11640
ttatataatc cttttgttta ttacatgggc tggatacata aaggtatttt gatttaattt 11700
tttgcttaaa ttcaatcccc cctcgttcag tgtcaactgt aatggtagga aattaccata 11760
cttttgaaga agcaaaaaaa atgaaagaaa aaaaaaatcg tatttccagg ttagacgttc 11820
cgcagaatct agaatgcggt atgcggtaca ttgttcttcg aacgtaaaag ttgcgctccc 11880
tgagatattg tacatttttg cttttacaag tacaagtaca tcgtacaact atgtactact 11940
gttgatgcat ccacaacagt ttgttttgtt tttttttgtt tttttttttt ctaatgattc 12000
attaccgcta tgtataccta cttgtacttg tagtaagccg ggttattggc gttcaattaa 12060
tcatagactt atgaatctgc acggtgtgcg ctgcgagtta cttttagctt atgcatgcta 12120
cttgggtgta atattgggat ctgttcggaa atcaacggat gctcaat 12167
<210> 55
<211> 1963
<212> DNA
<213> Artificial sequence
<220>
<223> Hygromycin resistance cassette
<400> 55
gtttaaacct taagcccgct cataacttcg tatagcatac attatacgaa cggtaggttg 60
cgggatagac gccgacggag ggcaatggcg ctatggaacc ttgcggatat ccatacgccg 120
cggcggactg cgtccgaacc agctccagca gcgttttttc cgggccattg agccgactgc 180
gaccccgcca acgtgtcttg gcccacgcac tcatgtcatg ttggtgttgg gaggccactt 240
tttaagtagc acaaggcacc tagctcgcag caaggtgtcc gaaccaaaga agcggctgca 300
gtggtgcaaa cggggcggaa acggcgggaa aaagccacgg gggcacgaat tgaggcacgc 360
cctcgaattt gagacgagtc acggccccat tcgcccgcgc aatggctcgc caacgcccgg 420
tcttttgcac cacatcaggt taccccaagc caaacctttg tgttaaaaag cttaacatat 480
tataccgaac gtaggtttgg gcgggcttgc tccgtctgtc caaggcaaca tttatataag 540
ggtctgcatc gccggctcaa ttgaatcttt tttcttcttc tcttctctat attcattctt 600
gaattaaaca cacatcaacc atggccaaaa agcctgaact caccgcgacg tctgtcgaga 660
agtttctgat cgaaaagttc gacagcgtct ccgacctgat gcagctctcg gagggcgaag 720
aatctcgtgc tttcagcttc gatgtaggag ggcgtggata tgtcctgcgg gtaaatagct 780
gcgccgatgg tttctacaaa gatcgttatg tttatcggca ctttgcatcg gccgcgctcc 840
cgattccgga agtgcttgac attggggagt tcagcgagag cctgacctat tgcatctccc 900
gccgtgcaca gggtgtcacg ttgcaagacc tgcctgaaac cgaactgccc gctgttctgc 960
agccggtcgc ggaggctatg gatgcgatcg ctgcggccga tcttagccag acgagcgggt 1020
tcggcccatt cggaccgcaa ggaatcggtc aatacactac atggcgtgat ttcatatgcg 1080
cgattgctga tccccatgtg tatcactggc aaactgtgat ggacgacacc gtcagtgcgt 1140
ccgtcgcgca ggctctcgat gagctgatgc tttgggccga ggactgcccc gaagtccggc 1200
acctcgtgca cgcggatttc ggctccaaca atgtcctgac ggacaatggc cgcataacag 1260
cggtcattga ctggagcgag gcgatgttcg gggattccca atacgaggtc gccaacatct 1320
tcttctggag gccgtggttg gcttgtatgg agcagcagac gcgctacttc gagcggaggc 1380
atccggagct tgcaggatcg ccgcggctcc gggcgtatat gctccgcatt ggtcttgacc 1440
aactctatca gagcttggtt gacggcaatt tcgatgatgc agcttgggcg cagggtcgat 1500
gcgacgcaat cgtccgatcc ggagccggga ctgtcgggcg tacacaaatc gcccgcagaa 1560
gcgcggccgt ctggaccgat ggctgtgtag aagtactcgc cgatagtgga aaccgacgcc 1620
ccagcactcg tccgagggca aaggaatagc ggccgcaagt gtggatgggg aagtgagtgc 1680
ccggttctgt gtgcacaatt ggcaatccaa gatggatgga ttcaacacag ggatatagcg 1740
agctacgtgg tggtgcgagg atatagcaac ggatatttat gtttgacact tgagaatgta 1800
cgatacaagc actgtccaag tacaatacta aacatactgt acatactcat actcgtaccc 1860
gggcaacggt ttcacttgag tgcagtggct agtgctctta ctcgtacagt gtgctaccgt 1920
tcgtatagca tacattatac gaagttatca tagtcttaat taa 1963
<210> 56
<211> 1714
<212> DNA
<213> Yarrowia lipolytica
<400> 56
catgacatgt gtccacagac cctcaatctg gcctgatgag ccaaatccat acgcgctttc 60
gcagctctaa aggctataac aagtcacacc accctgctcg acctcagcgc cctcactttt 120
tgttaagaca aactgtacac gctgttccag cgttttctgc ctgcacctgg tgggacattt 180
ggtgcaacct aaagtgctcg gaacctctgt ggtgtccaga tcagcgcagc agttccgagg 240
tagttttgag gcccttagat gatggtttaa acgtcgacga gtatctgtct gactcgtcat 300
tgccgccttt ggagtacgac tccaactatg agtgtgcttg gatcactttg acgatacatt 360
cttcgttgga ggctgtgggt ctgacagctg cgttttcggc gcggttggcc gacaacaata 420
tcagctgcaa cgtcattgct ggctttcatc atgatcacat ttttgtcggc aaaggcgacg 480
cccagagagc cattgacgtt ctttctaatt tggaccgata gccgtatagt ccagtctatc 540
tataagttca actaactcgt aactattacc ataacatata cttcactgcc ccagataagg 600
ttccgataaa aagttctgca gactaaattt atttcagtct cctcttcacc accaaaatgc 660
cctcctacga agctcgagct aacgtccaca agtccgcctt tgccgctcga gtgctcaagc 720
tcgtggcagc caagaaaacc aacctgtgtg cttctctgga tgttaccacc accaaggagc 780
tcattgagct tgccgataag gtcggacctt atgtgtgcat gatcaaaacc catatcgaca 840
tcattgacga cttcacctac gccggcactg tgctccccct caaggaactt gctcttaagc 900
acggtttctt cctgttcgag gacagaaagt tcgcagatat tggcaacact gtcaagcacc 960
agtaccggtg tcaccgaatc gccgagtggt ccgatatcac caacgcccac ggtgtacccg 1020
gaaccggaat cattgctggc ctgcgagctg gtgccgagga aactgtctct gaacagaaga 1080
aggaggacgt ctctgactac gagaactccc agtacaagga gttcctagtc ccctctccca 1140
acgagaagct ggccagaggt ctgctcatgc tggccgagct gtcttgcaag ggctctctgg 1200
ccactggcga gtactccaag cagaccattg agcttgcccg atccgacccc gagtttgtgg 1260
ttggcttcat tgcccagaac cgacctaagg gcgactctga ggactggctt attctgaccc 1320
ccggggtggg tcttgacgac aagggagacg ctctcggaca gcagtaccga actgttgagg 1380
atgtcatgtc taccggaacg gatatcataa ttgtcggccg aggtctgtac ggccagaacc 1440
gagatcctat tgaggaggcc aagcgatacc agaaggctgg ctgggaggct taccagaaga 1500
ttaactgtta gaggttagac tatggatatg taatttaact gtgtatatag agagcgtgca 1560
agtatggagc gcttgttcag cttgtatgat ggtcagacga cctgtctgat cgagtatgta 1620
tgatactgca caacctgtgt atccgcatga tctgtccaat ggggcatgtt gttgtgtttc 1680
tcgatacgga gatgctgggt acagtgctaa tacg 1714
<210> 57
<211> 23
<212> DNA
<213> Yarrowia lipolytica
<220>
<221> misc_feature
<222> (1)..(23)
<223> ura3-1 target site
<400> 57
cgctcgagtg ctcaagctcg tgg 23
<210> 58
<211> 34
<212> DNA
<213> Artificial sequence
<220>
<223> ura3-1F
<400> 58
aatgggacgc cgctcgagtg ctcaagctcg gttt 34
<210> 59
<211> 34
<212> DNA
<213> Artificial sequence
<220>
<223> ura3-1R
<400> 59
tctaaaaccg agcttgagca ctcgagcggc gtcc 34
<210> 60
<211> 20
<212> DNA
<213> Artificial sequence
<220>
<223> DNA encoding Ura3-1 VT domain
<400> 60
cgctcgagtg ctcaagctcg 20
<210> 61
<211> 11631
<212> DNA
<213> Artificial sequence
<220>
<223> pRF421
<400> 61
taagactatg ataacttcgt ataatgtatg ctatacgaac ggtagcacac tgtacgagta 60
agagcactag ccactgcact caagtgaaac cgttgcccgg gtacgagtat gagtatgtac 120
agtatgttta gtattgtact tggacagtgc ttgtatcgta cattctcaag tgtcaaacat 180
aaatatccgt tgctatatcc tcgcaccacc acgtagctcg ctatatccct gtgttgaatc 240
catccatctt ggattgccaa ttgtgcacac agaaccgggc actcacttcc ccatccacac 300
ttgcggccgc tattcctttg ccctcggacg agtgctgggg cgtcggtttc cactatcggc 360
gagtacttct acacagccat cggtccagac ggccgcgctt ctgcgggcga tttgtgtacg 420
cccgacagtc ccggctccgg atcggacgat tgcgtcgcat cgaccctgcg cccaagctgc 480
atcatcgaaa ttgccgtcaa ccaagctctg atagagttgg tcaagaccaa tgcggagcat 540
atacgcccgg agccgcggcg atcctgcaag ctccggatgc ctccgctcga agtagcgcgt 600
ctgctgctcc atacaagcca accacggcct ccagaagaag atgttggcga cctcgtattg 660
ggaatccccg aacatcgcct cgctccagtc aatgaccgct gttatgcggc cattgtccgt 720
caggacattg ttggagccga aatccgcgtg cacgaggtgc cggacttcgg ggcagtcctc 780
ggcccaaagc atcagctcat cgagagcctg cgcgacggac gcactgacgg tgtcgtccat 840
cacagtttgc cagtgataca catggggatc agcaatcgcg catatgaaat cacgccatgt 900
agtgtattga ccgattcctt gcggtccgaa tgggccgaac ccgctcgtct ggctaagatc 960
ggccgcagcg atcgcatcca tagcctccgc gaccggctgc agaacagcgg gcagttcggt 1020
ttcaggcagg tcttgcaacg tgacaccctg tgcacggcgg gagatgcaat aggtcaggct 1080
ctcgctgaac tccccaatgt caagcacttc cggaatcggg agcgcggccg atgcaaagtg 1140
ccgataaaca taacgatctt tgtagaaacc atcggcgcag ctatttaccc gcaggacata 1200
tccacgccct cctacatcga agctgaaagc acgagattct tcgccctccg agagctgcat 1260
caggtcggag acgctgtcga acttttcgat cagaaacttc tcgacagacg tcgcggtgag 1320
ttcaggcttt ttggccatgg ttgatgtgtg tttaattcaa gaatgaatat agagaagaga 1380
agaagaaaaa agattcaatt gagccggcga tgcagaccct tatataaatg ttgccttgga 1440
cagacggagc aagcccgccc aaacctacgt tcggtataat atgttaagct ttttaacaca 1500
aaggtttggc ttggggtaac ctgatgtggt gcaaaagacc gggcgttggc gagccattgc 1560
gcgggcgaat ggggccgtga ctcgtctcaa attcgagggc gtgcctcaat tcgtgccccc 1620
gtggcttttt cccgccgttt ccgccccgtt tgcaccactg cagccgcttc tttggttcgg 1680
acaccttgct gcgagctagg tgccttgtgc tacttaaaaa gtggcctccc aacaccaaca 1740
tgacatgagt gcgtgggcca agacacgttg gcggggtcgc agtcggctca atggcccgga 1800
aaaaacgctg ctggagctgg ttcggacgca gtccgccgcg gcgtatggat atccgcaagg 1860
ttccatagcg ccattgccct ccgtcggcgt ctatcccgca acctaccgtt cgtataatgt 1920
atgctatacg aagttatgag cgggcttaag gtttaaacca tcatctaagg gcctcaaaac 1980
tacctcggaa ctgctgcgct gatctggaca ccacagaggt tccgagcact ttaggttgca 2040
ccaaatgtcc caccaggtgc aggcagaaaa cgctggaaca gcgtgtacag tttgtcttaa 2100
caaaaagtga gggcgctgag gtcgagcagg gtggtgtgac ttgttatagc ctttagagct 2160
gcgaaagcgc gtatggattt ggctcatcag gccagattga gggtctgtgg acacatgtca 2220
tgttagtgta cttcaatcgc cccctggata tagccccgac aataggccgt ggcctcattt 2280
ttttgccttc cgcacatttc cattgctcgg tacccacacc ttgcttctcc tgcacttgcc 2340
aaccttaata ctggtttaca ttgaccaaca tcttacaagc ggggggcttg tctagggtat 2400
atataaacag tggctctccc aatcggttgc cagtctcttt tttcctttct ttccccacag 2460
attcgaaatc taaactacac atcacaccat ggacaagaaa tactccatcg gcctggacat 2520
tggaaccaac tctgtcggct gggctgtcat caccgacgag tacaaggtgc cctccaagaa 2580
attcaaggtc ctcggaaaca ccgatcgaca ctccatcaag aaaaacctca ttggtgccct 2640
gttgttcgat tctggcgaga ctgccgaagc taccagactc aagcgaactg ctcggcgacg 2700
ttacacccga cggaagaacc gaatctgcta cctgcaggag atcttttcca acgagatggc 2760
caaggtggac gattcgttct ttcatcgact ggaggaatcc ttcctcgtcg aggaagacaa 2820
gaaacacgag cgtcatccca tctttggcaa cattgtggac gaggttgctt accacgagaa 2880
gtatcctacc atctaccatc tccgaaagaa actcgtcgat tccaccgaca aggcggatct 2940
cagacttatc tacctcgctc tggcacacat gatcaagttt cgaggtcatt tcctcatcga 3000
gggcgatctc aatcccgaca acagcgatgt ggacaagctg ttcattcagc tcgttcagac 3060
ctacaaccag ctgttcgagg aaaaccccat caatgcctcc ggagtcgatg caaaggccat 3120
cttgtctgct cgactctcga agagcagacg actggagaac ctcattgccc aacttcctgg 3180
cgagaaaaag aacggactgt ttggcaacct cattgccctt tctcttggtc tcacacccaa 3240
cttcaagtcc aacttcgatc tggcggagga cgccaagctc cagctgtcca aggacaccta 3300
cgacgatgac ctcgacaacc tgcttgcaca gattggcgat cagtacgccg acctgtttct 3360
cgctgccaag aacctttcgg atgctattct cttgtctgac attctgcgag tcaacaccga 3420
gatcacaaag gctccccttt ctgcctccat gatcaagcga tacgacgagc accatcagga 3480
tctcacactg ctcaaggctc ttgtccgaca gcaactgccc gagaagtaca aggagatctt 3540
tttcgatcag tcgaagaacg gctacgctgg atacatcgac ggcggagcct ctcaggaaga 3600
gttctacaag ttcatcaagc caattctcga gaagatggac ggaaccgagg aactgcttgt 3660
caagctcaat cgagaggatc tgcttcggaa gcaacgaacc ttcgacaacg gcagcattcc 3720
tcatcagatc cacctcggtg agctgcacgc cattcttcga cgtcaggaag acttctaccc 3780
ctttctcaag gacaaccgag agaagatcga gaagattctt acctttcgaa tcccctacta 3840
tgttggtcct cttgccagag gaaactctcg atttgcttgg atgactcgaa agtccgagga 3900
aaccatcact ccctggaact tcgaggaagt cgtggacaag ggtgcctctg cacagtcctt 3960
catcgagcga atgaccaact tcgacaagaa tctgcccaac gagaaggttc ttcccaagca 4020
ttcgctgctc tacgagtact ttacagtcta caacgaactc accaaagtca agtacgttac 4080
cgagggaatg cgaaagcctg ccttcttgtc tggcgaacag aagaaagcca ttgtcgatct 4140
cctgttcaag accaaccgaa aggtcactgt taagcagctc aaggaggact acttcaagaa 4200
aatcgagtgt ttcgacagcg tcgagatttc cggagttgag gaccgattca acgcctcttt 4260
gggcacctat cacgatctgc tcaagattat caaggacaag gattttctcg acaacgagga 4320
aaacgaggac attctggagg acatcgtgct cactcttacc ctgttcgaag atcgggagat 4380
gatcgaggaa cgactcaaga catacgctca cctgttcgac gacaaggtca tgaaacaact 4440
caagcgacgt agatacaccg gctggggaag actttcgcga aagctcatca acggcatcag 4500
agacaagcag tccggaaaga ccattctgga ctttctcaag tccgatggct ttgccaaccg 4560
aaacttcatg cagctcattc acgacgattc tcttaccttc aaggaggaca tccagaaggc 4620
acaagtgtcc ggtcagggcg acagcttgca cgaacatatt gccaacctgg ctggttcgcc 4680
agccatcaag aaaggcattc tccagactgt caaggttgtc gacgagctgg tgaaggtcat 4740
gggacgtcac aagcccgaga acattgtgat cgagatggcc agagagaacc agacaactca 4800
aaagggtcag aaaaactcgc gagagcggat gaagcgaatc gaggaaggca tcaaggagct 4860
gggatcccag attctcaagg agcatcccgt cgagaacact caactgcaga acgagaagct 4920
gtatctctac tatctgcaga atggtcgaga catgtacgtg gatcaggaac tggacatcaa 4980
tcgtctcagc gactacgatg tggaccacat tgtccctcaa tcctttctca aggacgattc 5040
tatcgacaac aaggtcctta cacgatccga caagaacaga ggcaagtcgg acaacgttcc 5100
cagcgaagag gtggtcaaaa agatgaagaa ctactggcga cagctgctca acgccaagct 5160
cattacccag cgaaagttcg acaatcttac caaggccgag cgaggcggtc tgtccgagct 5220
cgacaaggct ggcttcatca agcgtcaact cgtcgagacc agacagatca caaagcacgt 5280
cgcacagatt ctcgattctc ggatgaacac caagtacgac gagaacgaca agctcatccg 5340
agaggtcaag gtgattactc tcaagtccaa actggtctcc gatttccgaa aggactttca 5400
gttctacaag gtgcgagaga tcaacaatta ccaccatgcc cacgatgctt acctcaacgc 5460
cgtcgttggc actgcgctca tcaagaaata ccccaagctc gaaagcgagt tcgtttacgg 5520
cgattacaag gtctacgacg ttcgaaagat gattgccaag tccgaacagg agattggcaa 5580
ggctactgcc aagtacttct tttactccaa catcatgaac tttttcaaga ccgagatcac 5640
cttggccaac ggagagattc gaaagagacc acttatcgag accaacggcg aaactggaga 5700
gatcgtgtgg gacaagggtc gagactttgc aaccgtgcga aaggttctgt cgatgcctca 5760
ggtcaacatc gtcaagaaaa ccgaggttca gactggcgga ttctccaagg agtcgattct 5820
gcccaagcga aactccgaca agctcatcgc tcgaaagaaa gactgggatc ccaagaaata 5880
cggtggcttc gattctccta ccgtcgccta ttccgtgctt gtcgttgcga aggtcgagaa 5940
gggcaagtcc aaaaagctca agtccgtcaa ggagctgctc ggaattacca tcatggagcg 6000
atcgagcttc gagaagaatc ccatcgactt cttggaagcc aagggttaca aggaggtcaa 6060
gaaagacctc attatcaagc tgcccaagta ctctctgttc gaactggaga acggtcgaaa 6120
gcgtatgctc gcctccgctg gcgagctgca gaagggaaac gagcttgcct tgccttcgaa 6180
gtacgtcaac tttctctatc tggcttctca ctacgagaag ctcaagggtt ctcccgagga 6240
caacgaacag aagcaactct tcgttgagca gcacaaacat tacctcgacg agattatcga 6300
gcagatttcc gagttttcga agcgagtcat cctggctgat gccaacttgg acaaggtgct 6360
ctctgcctac aacaagcatc gggacaaacc cattcgagaa caggcggaga acatcattca 6420
cctgtttact cttaccaacc tgggtgctcc tgcagctttc aagtacttcg ataccactat 6480
cgaccgaaag cggtacacat ccaccaagga ggttctcgat gccaccctga ttcaccagtc 6540
catcactggc ctgtacgaga cccgaatcga cctgtctcag cttggtggcg actccagagc 6600
cgatcccaag aaaaagcgaa aggtctaagc ggccgcaagt gtggatgggg aagtgagtgc 6660
ccggttctgt gtgcacaatt ggcaatccaa gatggatgga ttcaacacag ggatatagcg 6720
agctacgtgg tggtgcgagg atatagcaac ggatatttat gtttgacact tgagaatgta 6780
cgatacaagc actgtccaag tacaatacta aacatactgt acatactcat actcgtaccc 6840
gggcaacggt ttcacttgag tgcagtggct agtgctctta ctcgtacagt gtgcaatact 6900
gcgtatcata gtctttgatg tatatcgtat tcattcatgt tagttgcgta cgagccggaa 6960
gcataaagtg taaagcctgg ggtgcctaat gagtgagcta actcacatta attgcgttgc 7020
gctcactgcc cgctttccag tcgggaaacc tgtcgtgcca gctgcattaa tgaatcggcc 7080
aacgcgcggg gagaggcggt ttgcgtattg ggcgctcttc cgcttcctcg ctcactgact 7140
cgctgcgctc ggtcgttcgg ctgcggcgag cggtatcagc tcactcaaag gcggtaatac 7200
ggttatccac agaatcaggg gataacgcag gaaagaacat gtgagcaaaa ggccagcaaa 7260
aggccaggaa ccgtaaaaag gccgcgttgc tggcgttttt ccataggctc cgcccccctg 7320
acgagcatca caaaaatcga cgctcaagtc agaggtggcg aaacccgaca ggactataaa 7380
gataccaggc gtttccccct ggaagctccc tcgtgcgctc tcctgttccg accctgccgc 7440
ttaccggata cctgtccgcc tttctccctt cgggaagcgt ggcgctttct catagctcac 7500
gctgtaggta tctcagttcg gtgtaggtcg ttcgctccaa gctgggctgt gtgcacgaac 7560
cccccgttca gcccgaccgc tgcgccttat ccggtaacta tcgtcttgag tccaacccgg 7620
taagacacga cttatcgcca ctggcagcag ccactggtaa caggattagc agagcgaggt 7680
atgtaggcgg tgctacagag ttcttgaagt ggtggcctaa ctacggctac actagaagga 7740
cagtatttgg tatctgcgct ctgctgaagc cagttacctt cggaaaaaga gttggtagct 7800
cttgatccgg caaacaaacc accgctggta gcggtggttt ttttgtttgc aagcagcaga 7860
ttacgcgcag aaaaaaagga tctcaagaag atcctttgat cttttctacg gggtctgacg 7920
ctcagtggaa cgaaaactca cgttaaggga ttttggtcat gagattatca aaaaggatct 7980
tcacctagat ccttttaaat taaaaatgaa gttttaaatc aatctaaagt atatatgagt 8040
aaacttggtc tgacagttac caatgcttaa tcagtgaggc acctatctca gcgatctgtc 8100
tatttcgttc atccatagtt gcctgactcc ccgtcgtgta gataactacg atacgggagg 8160
gcttaccatc tggccccagt gctgcaatga taccgcgaga cccacgctca ccggctccag 8220
atttatcagc aataaaccag ccagccggaa gggccgagcg cagaagtggt cctgcaactt 8280
tatccgcctc catccagtct attaattgtt gccgggaagc tagagtaagt agttcgccag 8340
ttaatagttt gcgcaacgtt gttgccattg ctacaggcat cgtggtgtca cgctcgtcgt 8400
ttggtatggc ttcattcagc tccggttccc aacgatcaag gcgagttaca tgatccccca 8460
tgttgtgcaa aaaagcggtt agctccttcg gtcctccgat cgttgtcaga agtaagttgg 8520
ccgcagtgtt atcactcatg gttatggcag cactgcataa ttctcttact gtcatgccat 8580
ccgtaagatg cttttctgtg actggtgagt actcaaccaa gtcattctga gaatagtgta 8640
tgcggcgacc gagttgctct tgcccggcgt caatacggga taataccgcg ccacatagca 8700
gaactttaaa agtgctcatc attggaaaac gttcttcggg gcgaaaactc tcaaggatct 8760
taccgctgtt gagatccagt tcgatgtaac ccactcgtgc acccaactga tcttcagcat 8820
cttttacttt caccagcgtt tctgggtgag caaaaacagg aaggcaaaat gccgcaaaaa 8880
agggaataag ggcgacacgg aaatgttgaa tactcatact cttccttttt caatattatt 8940
gaagcattta tcagggttat tgtctcatga gcggatacat atttgaatgt atttagaaaa 9000
ataaacaaat aggggttccg cgcacatttc cccgaaaagt gccacctgac gcgccctgta 9060
gcggcgcatt aagcgcggcg ggtgtggtgg ttacgcgcag cgtgaccgct acacttgcca 9120
gcgccctagc gcccgctcct ttcgctttct tcccttcctt tctcgccacg ttcgccggct 9180
ttccccgtca agctctaaat cgggggctcc ctttagggtt ccgatttagt gctttacggc 9240
acctcgaccc caaaaaactt gattagggtg atggttcacg tagtgggcca tcgccctgat 9300
agacggtttt tcgccctttg acgttggagt ccacgttctt taatagtgga ctcttgttcc 9360
aaactggaac aacactcaac cctatctcgg tctattcttt tgatttataa gggattttgc 9420
cgatttcggc ctattggtta aaaaatgagc tgatttaaca aaaatttaac gcgaatttta 9480
acaaaatatt aacgcttaca atttccattc gccattcagg ctgcgcaact gttgggaagg 9540
gcgatcggtg cgggcctctt cgctattacg ccagctggcg aaagggggat gtgctgcaag 9600
gcgattaagt tgggtaacgc cagggttttc ccagtcacga cgttgtaaaa cgacggccag 9660
tgaattgtaa tacgactcac tatagggcga attgggtacc gggccccccc tcgaggtcga 9720
tggtgtcgat aagcttgata tcgaattcat gtcacacaaa ccgatcttcg cctcaaggaa 9780
acctaattct acatccgaga gactgccgag atccagtcta cactgattaa ttttcgggcc 9840
aataatttaa aaaaatcgtg ttatataata ttatatgtat tatatatata catcatgatg 9900
atactgacag tcatgtccca ttgctaaata gacagactcc atctgccgcc tccaactgat 9960
gttctcaata tttaaggggt catctcgcat tgtttaataa taaacagact ccatctaccg 10020
cctccaaatg atgttctcaa aatatattgt atgaacttat ttttattact tagtattatt 10080
agacaactta cttgctttat gaaaaacact tcctatttag gaaacaattt ataatggcag 10140
ttcgttcatt taacaattta tgtagaataa atgttataaa tgcgtatggg aaatcttaaa 10200
tatggatagc ataaatgata tctgcattgc ctaattcgaa atcaacagca acgaaaaaaa 10260
tcccttgtac aacataaata gtcatcgaga aatatcaact atcaaagaac agctattcac 10320
acgttactat tgagattatt attggacgag aatcacacac tcaactgtct ttctctcttc 10380
tagaaataca ggtacaagta tgtactattc tcattgttca tacttctagt catttcatcc 10440
cacatattcc ttggatttct ctccaatgaa tgacattcta tcttgcaaat tcaacaatta 10500
taataagata taccaaagta gcggtatagt ggcaatcaaa aagcttctct ggtgtgcttc 10560
tcgtatttat ttttattcta atgatccatt aaaggtatat atttatttct tgttatataa 10620
tccttttgtt tattacatgg gctggataca taaaggtatt ttgatttaat tttttgctta 10680
aattcaatcc cccctcgttc agtgtcaact gtaatggtag gaaattacca tacttttgaa 10740
gaagcaaaaa aaatgaaaga aaaaaaaaat cgtatttcca ggttagacgt tccgcagaat 10800
ctagaatgcg gtatgcggta cattgttctt cgaacgtaaa agttgcgctc cctgagatat 10860
tgtacatttt tgcttttaca agtacaagta catcgtacaa ctatgtacta ctgttgatgc 10920
atccacaaca gtttgttttg tttttttttg tttttttttt ttctaatgat tcattaccgc 10980
tatgtatacc tacttgtact tgtagtaagc cgggttattg gcgttcaatt aatcatagac 11040
ttatgaatct gcacggtgtg cgctgcgagt tacttttagc ttatgcatgc tacttgggtg 11100
taatattggg atctgttcgg aaatcaacgg atgctcaatc gataaaaaac aaaaaaaaaa 11160
gcaccgactc ggtgccactt tttcaagttg ataacggact agccttattt taacttgcta 11220
tttctagctc taaaaccgag cttgagcact cgagcggcgt cccattcgcc atgccgaagc 11280
atgttgccca gccggcgcca gcgaggaggc tgggaccatg ccggccatta ttttgcgtta 11340
agtttctaat catcacgaaa ttatctatca aaaataacta ggtcccaccg agattcgaac 11400
tcgggacctt aagatttgca atctcacgcg ctaccgctgt gccataggac cgaagttaaa 11460
atttggccaa agaaggacct gggcaccctg gactgtgggt tagggtaata ttccttatgg 11520
agacaatggg ctagggtaaa ttacctaaaa tgggtcgata aagaggggtg ttcccagttg 11580
ggaagtgtaa ttgaagacgg ggtcaaaaaa gaaaatcaaa aaaaatttaa t 11631
<210> 62
<211> 378
<212> DNA
<213> Yarrowia lipolytica
<400> 62
gagtatctgt ctgactcgtc attgccgcct ttggagtacg actccaacta tgagtgtgct 60
tggatcactt tgacgataca ttcttcgttg gaggctgtgg gtctgacagc tgcgttttcg 120
gcgcggttgg ccgacaacaa tatcagctgc aacgtcattg ctggctttca tcatgatcac 180
atttttgtcg gcaaaggcga cgcccagaga gccattgacg ttctttctaa tttggaccga 240
tagccgtata gtccagtcta tctataagtt caactaactc gtaactatta ccataacata 300
tacttcactg ccccagataa ggttccgata aaaagttctg cagactaaat ttatttcagt 360
ctcctcttca ccaccaaa 378
<210> 63
<211> 258
<212> DNA
<213> Yarrowia lipolytica
<400> 63
tagaggttag actatggata tgtaatttaa ctgtgtatat agagagcgtg caagtatgga 60
gcgcttgttc agcttgtatg atggtcagac gacctgtctg atcgagtatg tatgatactg 120
cacaacctgt gtatccgcat gatctgtcca atggggcatg ttgttgtgtt tctcgatacg 180
gagatgctgg gtacagtgct aatacgttga actacttata cttatatgag gctcgaagaa 240
agctgacttg tgtatgac 258
<210> 64
<211> 648
<212> DNA
<213> Artificial sequence
<220>
<223> URA3 deletion polynucleotide editing template
<400> 64
gaattcgagt atctgtctga ctcgtcattg ccgcctttgg agtacgactc caactatgag 60
tgtgcttgga tcactttgac gatacattct tcgttggagg ctgtgggtct gacagctgcg 120
ttttcggcgc ggttggccga caacaatatc agctgcaacg tcattgctgg ctttcatcat 180
gatcacattt ttgtcggcaa aggcgacgcc cagagagcca ttgacgttct ttctaatttg 240
gaccgatagc cgtatagtcc agtctatcta taagttcaac taactcgtaa ctattaccat 300
aacatatact tcactgcccc agataaggtt ccgataaaaa gttctgcaga ctaaatttat 360
ttcagtctcc tcttcaccac caaatagagg ttagactatg gatatgtaat ttaactgtgt 420
atatagagag cgtgcaagta tggagcgctt gttcagcttg tatgatggtc agacgacctg 480
tctgatcgag tatgtatgat actgcacaac ctgtgtatcc gcatgatctg tccaatgggg 540
catgttgttg tgtttctcga tacggagatg ctgggtacag tgctaatacg ttgaactact 600
tatacttata tgaggctcga agaaagctga cttgtgtatg acaagctt 648
<210> 65
<211> 3277
<212> DNA
<213> Artificial sequence
<220>
<223> pRF263
<400> 65
agcttgtcat acacaagtca gctttcttcg agcctcatat aagtataagt agttcaacgt 60
attagcactg tacccagcat ctccgtatcg agaaacacaa caacatgccc cattggacag 120
atcatgcgga tacacaggtt gtgcagtatc atacatactc gatcagacag gtcgtctgac 180
catcatacaa gctgaacaag cgctccatac ttgcacgctc tctatataca cagttaaatt 240
acatatccat agtctaacct ctatttggtg gtgaagagga gactgaaata aatttagtct 300
gcagaacttt ttatcggaac cttatctggg gcagtgaagt atatgttatg gtaatagtta 360
cgagttagtt gaacttatag atagactgga ctatacggct atcggtccaa attagaaaga 420
acgtcaatgg ctctctgggc gtcgcctttg ccgacaaaaa tgtgatcatg atgaaagcca 480
gcaatgacgt tgcagctgat attgttgtcg gccaaccgcg ccgaaaacgc agctgtcaga 540
cccacagcct ccaacgaaga atgtatcgtc aaagtgatcc aagcacactc atagttggag 600
tcgtactcca aaggcggcaa tgacgagtca gacagatact cgaattcgta atcatggtca 660
tagctgtttc ctgtgtgaaa ttgttatccg ctcacaattc cacacaacat acgagccgga 720
agcataaagt gtaaagcctg gggtgcctaa tgagtgagct aactcacatt aattgcgttg 780
cgctcactgc ccgctttcca gtcgggaaac ctgtcgtgcc agctgcatta atgaatcggc 840
caacgcgcgg ggagaggcgg tttgcgtatt gggcgctctt ccgcttcctc gctcactgac 900
tcgctgcgct cggtcgttcg gctgcggcga gcggtatcag ctcactcaaa ggcggtaata 960
cggttatcca cagaatcagg ggataacgca ggaaagaaca tgtgagcaaa aggccagcaa 1020
aaggccagga accgtaaaaa ggccgcgttg ctggcgtttt tccataggct ccgcccccct 1080
gacgagcatc acaaaaatcg acgctcaagt cagaggtggc gaaacccgac aggactataa 1140
agataccagg cgtttccccc tggaagctcc ctcgtgcgct ctcctgttcc gaccctgccg 1200
cttaccggat acctgtccgc ctttctccct tcgggaagcg tggcgctttc tcatagctca 1260
cgctgtaggt atctcagttc ggtgtaggtc gttcgctcca agctgggctg tgtgcacgaa 1320
ccccccgttc agcccgaccg ctgcgcctta tccggtaact atcgtcttga gtccaacccg 1380
gtaagacacg acttatcgcc actggcagca gccactggta acaggattag cagagcgagg 1440
tatgtaggcg gtgctacaga gttcttgaag tggtggccta actacggcta cactagaagg 1500
acagtatttg gtatctgcgc tctgctgaag ccagttacct tcggaaaaag agttggtagc 1560
tcttgatccg gcaaacaaac caccgctggt agcggtggtt tttttgtttg caagcagcag 1620
attacgcgca gaaaaaaagg atctcaagaa gatcctttga tcttttctac ggggtctgac 1680
gctcagtgga acgaaaactc acgttaaggg attttggtca tgagattatc aaaaaggatc 1740
ttcacctaga tccttttaaa ttaaaaatga agttttaaat caatctaaag tatatatgag 1800
taaacttggt ctgacagtta ccaatgctta atcagtgagg cacctatctc agcgatctgt 1860
ctatttcgtt catccatagt tgcctgactc cccgtcgtgt agataactac gatacgggag 1920
ggcttaccat ctggccccag tgctgcaatg ataccgcgag acccacgctc accggctcca 1980
gatttatcag caataaacca gccagccgga agggccgagc gcagaagtgg tcctgcaact 2040
ttatccgcct ccatccagtc tattaattgt tgccgggaag ctagagtaag tagttcgcca 2100
gttaatagtt tgcgcaacgt tgttgccatt gctacaggca tcgtggtgtc acgctcgtcg 2160
tttggtatgg cttcattcag ctccggttcc caacgatcaa ggcgagttac atgatccccc 2220
atgttgtgca aaaaagcggt tagctccttc ggtcctccga tcgttgtcag aagtaagttg 2280
gccgcagtgt tatcactcat ggttatggca gcactgcata attctcttac tgtcatgcca 2340
tccgtaagat gcttttctgt gactggtgag tactcaacca agtcattctg agaatagtgt 2400
atgcggcgac cgagttgctc ttgcccggcg tcaatacggg ataataccgc gccacatagc 2460
agaactttaa aagtgctcat cattggaaaa cgttcttcgg ggcgaaaact ctcaaggatc 2520
ttaccgctgt tgagatccag ttcgatgtaa cccactcgtg cacccaactg atcttcagca 2580
tcttttactt tcaccagcgt ttctgggtga gcaaaaacag gaaggcaaaa tgccgcaaaa 2640
aagggaataa gggcgacacg gaaatgttga atactcatac tcttcctttt tcaatattat 2700
tgaagcattt atcagggtta ttgtctcatg agcggataca tatttgaatg tatttagaaa 2760
aataaacaaa taggggttcc gcgcacattt ccccgaaaag tgccacctga cgtctaagaa 2820
accattatta tcatgacatt aacctataaa aataggcgta tcacgaggcc ctttcgtctc 2880
gcgcgtttcg gtgatgacgg tgaaaacctc tgacacatgc agctcccgga gacggtcaca 2940
gcttgtctgt aagcggatgc cgggagcaga caagcccgtc agggcgcgtc agcgggtgtt 3000
ggcgggtgtc ggggctggct taactatgcg gcatcagagc agattgtact gagagtgcac 3060
catatgcggt gtgaaatacc gcacagatgc gtaaggagaa aataccgcat caggcgccat 3120
tcgccattca ggctgcgcaa ctgttgggaa gggcgatcgg tgcgggcctc ttcgctatta 3180
cgccagctgg cgaaaggggg atgtgctgca aggcgattaa gttgggtaac gccagggttt 3240
tcccagtcac gacgttgtaa aacgacggcc agtgcca 3277
<210> 66
<211> 26
<212> DNA
<213> Artificial sequence
<220>
<223> HY007
<400> 66
cgggcagtga gcgcaacgca attaat 26
<210> 67
<211> 29
<212> DNA
<213> Artificial sequence
<220>
<223> oligo 297
<400> 67
ggggaattct gcaaggcgat taagttggg 29
<210> 68
<211> 873
<212> DNA
<213> Artificial sequence
<220>
<223> EcoRI flanked URA3 deletion template
<400> 68
cgggcagtga gcgcaacgca attaatgtga gttagctcac tcattaggca ccccaggctt 60
tacactttat gcttccggct cgtatgttgt gtggaattgt gagcggataa caatttcaca 120
caggaaacag ctatgaccat gattacgaat tcgagtatct gtctgactcg tcattgccgc 180
ctttggagta cgactccaac tatgagtgtg cttggatcac tttgacgata cattcttcgt 240
tggaggctgt gggtctgaca gctgcgtttt cggcgcggtt ggccgacaac aatatcagct 300
gcaacgtcat tgctggcttt catcatgatc acatttttgt cggcaaaggc gacgcccaga 360
gagccattga cgttctttct aatttggacc gatagccgta tagtccagtc tatctataag 420
ttcaactaac tcgtaactat taccataaca tatacttcac tgccccagat aaggttccga 480
taaaaagttc tgcagactaa atttatttca gtctcctctt caccaccaaa tagaggttag 540
actatggata tgtaatttaa ctgtgtatat agagagcgtg caagtatgga gcgcttgttc 600
agcttgtatg atggtcagac gacctgtctg atcgagtatg tatgatactg cacaacctgt 660
gtatccgcat gatctgtcca atggggcatg ttgttgtgtt tctcgatacg gagatgctgg 720
gtacagtgct aatacgttga actacttata cttatatgag gctcgaagaa agctgacttg 780
tgtatgacaa gcttggcact ggccgtcgtt ttacaacgtc gtgactggga aaaccctggc 840
gttacccaac ttaatcgcct tgcagaattc ccc 873
<210> 69
<211> 12349
<212> DNA
<213> Artificial sequence
<220>
<223> pRF437
<400> 69
aattctgcaa ggcgattaag ttgggtaacg ccagggtttt cccagtcacg acgttgtaaa 60
acgacggcca gtgccaagct tgtcatacac aagtcagctt tcttcgagcc tcatataagt 120
ataagtagtt caacgtatta gcactgtacc cagcatctcc gtatcgagaa acacaacaac 180
atgccccatt ggacagatca tgcggataca caggttgtgc agtatcatac atactcgatc 240
agacaggtcg tctgaccatc atacaagctg aacaagcgct ccatacttgc acgctctcta 300
tatacacagt taaattacat atccatagtc taacctctat ttggtggtga agaggagact 360
gaaataaatt tagtctgcag aactttttat cggaacctta tctggggcag tgaagtatat 420
gttatggtaa tagttacgag ttagttgaac ttatagatag actggactat acggctatcg 480
gtccaaatta gaaagaacgt caatggctct ctgggcgtcg cctttgccga caaaaatgtg 540
atcatgatga aagccagcaa tgacgttgca gctgatattg ttgtcggcca accgcgccga 600
aaacgcagct gtcagaccca cagcctccaa cgaagaatgt atcgtcaaag tgatccaagc 660
acactcatag ttggagtcgt actccaaagg cggcaatgac gagtcagaca gatactcgaa 720
ttcatgtcac acaaaccgat cttcgcctca aggaaaccta attctacatc cgagagactg 780
ccgagatcca gtctacactg attaattttc gggccaataa tttaaaaaaa tcgtgttata 840
taatattata tgtattatat atatacatca tgatgatact gacagtcatg tcccattgct 900
aaatagacag actccatctg ccgcctccaa ctgatgttct caatatttaa ggggtcatct 960
cgcattgttt aataataaac agactccatc taccgcctcc aaatgatgtt ctcaaaatat 1020
attgtatgaa cttattttta ttacttagta ttattagaca acttacttgc tttatgaaaa 1080
acacttccta tttaggaaac aatttataat ggcagttcgt tcatttaaca atttatgtag 1140
aataaatgtt ataaatgcgt atgggaaatc ttaaatatgg atagcataaa tgatatctgc 1200
attgcctaat tcgaaatcaa cagcaacgaa aaaaatccct tgtacaacat aaatagtcat 1260
cgagaaatat caactatcaa agaacagcta ttcacacgtt actattgaga ttattattgg 1320
acgagaatca cacactcaac tgtctttctc tcttctagaa atacaggtac aagtatgtac 1380
tattctcatt gttcatactt ctagtcattt catcccacat attccttgga tttctctcca 1440
atgaatgaca ttctatcttg caaattcaac aattataata agatatacca aagtagcggt 1500
atagtggcaa tcaaaaagct tctctggtgt gcttctcgta tttattttta ttctaatgat 1560
ccattaaagg tatatattta tttcttgtta tataatcctt ttgtttatta catgggctgg 1620
atacataaag gtattttgat ttaatttttt gcttaaattc aatcccccct cgttcagtgt 1680
caactgtaat ggtaggaaat taccatactt ttgaagaagc aaaaaaaatg aaagaaaaaa 1740
aaaatcgtat ttccaggtta gacgttccgc agaatctaga atgcggtatg cggtacattg 1800
ttcttcgaac gtaaaagttg cgctccctga gatattgtac atttttgctt ttacaagtac 1860
aagtacatcg tacaactatg tactactgtt gatgcatcca caacagtttg ttttgttttt 1920
ttttgttttt tttttttcta atgattcatt accgctatgt atacctactt gtacttgtag 1980
taagccgggt tattggcgtt caattaatca tagacttatg aatctgcacg gtgtgcgctg 2040
cgagttactt ttagcttatg catgctactt gggtgtaata ttgggatctg ttcggaaatc 2100
aacggatgct caatcgataa aaaacaaaaa aaaaagcacc gactcggtgc cactttttca 2160
agttgataac ggactagcct tattttaact tgctatttct agctctaaaa ccgagcttga 2220
gcactcgagc ggcgtcccat tcgccatgcc gaagcatgtt gcccagccgg cgccagcgag 2280
gaggctggga ccatgccggc cattattttg cgttaagttt ctaatcatca cgaaattatc 2340
tatcaaaaat aactaggtcc caccgagatt cgaactcggg accttaagat ttgcaatctc 2400
acgcgctacc gctgtgccat aggaccgaag ttaaaatttg gccaaagaag gacctgggca 2460
ccctggactg tgggttaggg taatattcct tatggagaca atgggctagg gtaaattacc 2520
taaaatgggt cgataaagag gggtgttccc agttgggaag tgtaattgaa gacggggtca 2580
aaaaagaaaa tcaaaaaaaa tttaattaag actatgataa cttcgtataa tgtatgctat 2640
acgaacggta gcacactgta cgagtaagag cactagccac tgcactcaag tgaaaccgtt 2700
gcccgggtac gagtatgagt atgtacagta tgtttagtat tgtacttgga cagtgcttgt 2760
atcgtacatt ctcaagtgtc aaacataaat atccgttgct atatcctcgc accaccacgt 2820
agctcgctat atccctgtgt tgaatccatc catcttggat tgccaattgt gcacacagaa 2880
ccgggcactc acttccccat ccacacttgc ggccgctatt cctttgccct cggacgagtg 2940
ctggggcgtc ggtttccact atcggcgagt acttctacac agccatcggt ccagacggcc 3000
gcgcttctgc gggcgatttg tgtacgcccg acagtcccgg ctccggatcg gacgattgcg 3060
tcgcatcgac cctgcgccca agctgcatca tcgaaattgc cgtcaaccaa gctctgatag 3120
agttggtcaa gaccaatgcg gagcatatac gcccggagcc gcggcgatcc tgcaagctcc 3180
ggatgcctcc gctcgaagta gcgcgtctgc tgctccatac aagccaacca cggcctccag 3240
aagaagatgt tggcgacctc gtattgggaa tccccgaaca tcgcctcgct ccagtcaatg 3300
accgctgtta tgcggccatt gtccgtcagg acattgttgg agccgaaatc cgcgtgcacg 3360
aggtgccgga cttcggggca gtcctcggcc caaagcatca gctcatcgag agcctgcgcg 3420
acggacgcac tgacggtgtc gtccatcaca gtttgccagt gatacacatg gggatcagca 3480
atcgcgcata tgaaatcacg ccatgtagtg tattgaccga ttccttgcgg tccgaatggg 3540
ccgaacccgc tcgtctggct aagatcggcc gcagcgatcg catccatagc ctccgcgacc 3600
ggctgcagaa cagcgggcag ttcggtttca ggcaggtctt gcaacgtgac accctgtgca 3660
cggcgggaga tgcaataggt caggctctcg ctgaactccc caatgtcaag cacttccgga 3720
atcgggagcg cggccgatgc aaagtgccga taaacataac gatctttgta gaaaccatcg 3780
gcgcagctat ttacccgcag gacatatcca cgccctccta catcgaagct gaaagcacga 3840
gattcttcgc cctccgagag ctgcatcagg tcggagacgc tgtcgaactt ttcgatcaga 3900
aacttctcga cagacgtcgc ggtgagttca ggctttttgg ccatggttga tgtgtgttta 3960
attcaagaat gaatatagag aagagaagaa gaaaaaagat tcaattgagc cggcgatgca 4020
gacccttata taaatgttgc cttggacaga cggagcaagc ccgcccaaac ctacgttcgg 4080
tataatatgt taagcttttt aacacaaagg tttggcttgg ggtaacctga tgtggtgcaa 4140
aagaccgggc gttggcgagc cattgcgcgg gcgaatgggg ccgtgactcg tctcaaattc 4200
gagggcgtgc ctcaattcgt gcccccgtgg ctttttcccg ccgtttccgc cccgtttgca 4260
ccactgcagc cgcttctttg gttcggacac cttgctgcga gctaggtgcc ttgtgctact 4320
taaaaagtgg cctcccaaca ccaacatgac atgagtgcgt gggccaagac acgttggcgg 4380
ggtcgcagtc ggctcaatgg cccggaaaaa acgctgctgg agctggttcg gacgcagtcc 4440
gccgcggcgt atggatatcc gcaaggttcc atagcgccat tgccctccgt cggcgtctat 4500
cccgcaacct accgttcgta taatgtatgc tatacgaagt tatgagcggg cttaaggttt 4560
aaaccatcat ctaagggcct caaaactacc tcggaactgc tgcgctgatc tggacaccac 4620
agaggttccg agcactttag gttgcaccaa atgtcccacc aggtgcaggc agaaaacgct 4680
ggaacagcgt gtacagtttg tcttaacaaa aagtgagggc gctgaggtcg agcagggtgg 4740
tgtgacttgt tatagccttt agagctgcga aagcgcgtat ggatttggct catcaggcca 4800
gattgagggt ctgtggacac atgtcatgtt agtgtacttc aatcgccccc tggatatagc 4860
cccgacaata ggccgtggcc tcattttttt gccttccgca catttccatt gctcggtacc 4920
cacaccttgc ttctcctgca cttgccaacc ttaatactgg tttacattga ccaacatctt 4980
acaagcgggg ggcttgtcta gggtatatat aaacagtggc tctcccaatc ggttgccagt 5040
ctcttttttc ctttctttcc ccacagattc gaaatctaaa ctacacatca caccatggac 5100
aagaaatact ccatcggcct ggacattgga accaactctg tcggctgggc tgtcatcacc 5160
gacgagtaca aggtgccctc caagaaattc aaggtcctcg gaaacaccga tcgacactcc 5220
atcaagaaaa acctcattgg tgccctgttg ttcgattctg gcgagactgc cgaagctacc 5280
agactcaagc gaactgctcg gcgacgttac acccgacgga agaaccgaat ctgctacctg 5340
caggagatct tttccaacga gatggccaag gtggacgatt cgttctttca tcgactggag 5400
gaatccttcc tcgtcgagga agacaagaaa cacgagcgtc atcccatctt tggcaacatt 5460
gtggacgagg ttgcttacca cgagaagtat cctaccatct accatctccg aaagaaactc 5520
gtcgattcca ccgacaaggc ggatctcaga cttatctacc tcgctctggc acacatgatc 5580
aagtttcgag gtcatttcct catcgagggc gatctcaatc ccgacaacag cgatgtggac 5640
aagctgttca ttcagctcgt tcagacctac aaccagctgt tcgaggaaaa ccccatcaat 5700
gcctccggag tcgatgcaaa ggccatcttg tctgctcgac tctcgaagag cagacgactg 5760
gagaacctca ttgcccaact tcctggcgag aaaaagaacg gactgtttgg caacctcatt 5820
gccctttctc ttggtctcac acccaacttc aagtccaact tcgatctggc ggaggacgcc 5880
aagctccagc tgtccaagga cacctacgac gatgacctcg acaacctgct tgcacagatt 5940
ggcgatcagt acgccgacct gtttctcgct gccaagaacc tttcggatgc tattctcttg 6000
tctgacattc tgcgagtcaa caccgagatc acaaaggctc ccctttctgc ctccatgatc 6060
aagcgatacg acgagcacca tcaggatctc acactgctca aggctcttgt ccgacagcaa 6120
ctgcccgaga agtacaagga gatctttttc gatcagtcga agaacggcta cgctggatac 6180
atcgacggcg gagcctctca ggaagagttc tacaagttca tcaagccaat tctcgagaag 6240
atggacggaa ccgaggaact gcttgtcaag ctcaatcgag aggatctgct tcggaagcaa 6300
cgaaccttcg acaacggcag cattcctcat cagatccacc tcggtgagct gcacgccatt 6360
cttcgacgtc aggaagactt ctaccccttt ctcaaggaca accgagagaa gatcgagaag 6420
attcttacct ttcgaatccc ctactatgtt ggtcctcttg ccagaggaaa ctctcgattt 6480
gcttggatga ctcgaaagtc cgaggaaacc atcactccct ggaacttcga ggaagtcgtg 6540
gacaagggtg cctctgcaca gtccttcatc gagcgaatga ccaacttcga caagaatctg 6600
cccaacgaga aggttcttcc caagcattcg ctgctctacg agtactttac agtctacaac 6660
gaactcacca aagtcaagta cgttaccgag ggaatgcgaa agcctgcctt cttgtctggc 6720
gaacagaaga aagccattgt cgatctcctg ttcaagacca accgaaaggt cactgttaag 6780
cagctcaagg aggactactt caagaaaatc gagtgtttcg acagcgtcga gatttccgga 6840
gttgaggacc gattcaacgc ctctttgggc acctatcacg atctgctcaa gattatcaag 6900
gacaaggatt ttctcgacaa cgaggaaaac gaggacattc tggaggacat cgtgctcact 6960
cttaccctgt tcgaagatcg ggagatgatc gaggaacgac tcaagacata cgctcacctg 7020
ttcgacgaca aggtcatgaa acaactcaag cgacgtagat acaccggctg gggaagactt 7080
tcgcgaaagc tcatcaacgg catcagagac aagcagtccg gaaagaccat tctggacttt 7140
ctcaagtccg atggctttgc caaccgaaac ttcatgcagc tcattcacga cgattctctt 7200
accttcaagg aggacatcca gaaggcacaa gtgtccggtc agggcgacag cttgcacgaa 7260
catattgcca acctggctgg ttcgccagcc atcaagaaag gcattctcca gactgtcaag 7320
gttgtcgacg agctggtgaa ggtcatggga cgtcacaagc ccgagaacat tgtgatcgag 7380
atggccagag agaaccagac aactcaaaag ggtcagaaaa actcgcgaga gcggatgaag 7440
cgaatcgagg aaggcatcaa ggagctggga tcccagattc tcaaggagca tcccgtcgag 7500
aacactcaac tgcagaacga gaagctgtat ctctactatc tgcagaatgg tcgagacatg 7560
tacgtggatc aggaactgga catcaatcgt ctcagcgact acgatgtgga ccacattgtc 7620
cctcaatcct ttctcaagga cgattctatc gacaacaagg tccttacacg atccgacaag 7680
aacagaggca agtcggacaa cgttcccagc gaagaggtgg tcaaaaagat gaagaactac 7740
tggcgacagc tgctcaacgc caagctcatt acccagcgaa agttcgacaa tcttaccaag 7800
gccgagcgag gcggtctgtc cgagctcgac aaggctggct tcatcaagcg tcaactcgtc 7860
gagaccagac agatcacaaa gcacgtcgca cagattctcg attctcggat gaacaccaag 7920
tacgacgaga acgacaagct catccgagag gtcaaggtga ttactctcaa gtccaaactg 7980
gtctccgatt tccgaaagga ctttcagttc tacaaggtgc gagagatcaa caattaccac 8040
catgcccacg atgcttacct caacgccgtc gttggcactg cgctcatcaa gaaatacccc 8100
aagctcgaaa gcgagttcgt ttacggcgat tacaaggtct acgacgttcg aaagatgatt 8160
gccaagtccg aacaggagat tggcaaggct actgccaagt acttctttta ctccaacatc 8220
atgaactttt tcaagaccga gatcaccttg gccaacggag agattcgaaa gagaccactt 8280
atcgagacca acggcgaaac tggagagatc gtgtgggaca agggtcgaga ctttgcaacc 8340
gtgcgaaagg ttctgtcgat gcctcaggtc aacatcgtca agaaaaccga ggttcagact 8400
ggcggattct ccaaggagtc gattctgccc aagcgaaact ccgacaagct catcgctcga 8460
aagaaagact gggatcccaa gaaatacggt ggcttcgatt ctcctaccgt cgcctattcc 8520
gtgcttgtcg ttgcgaaggt cgagaagggc aagtccaaaa agctcaagtc cgtcaaggag 8580
ctgctcggaa ttaccatcat ggagcgatcg agcttcgaga agaatcccat cgacttcttg 8640
gaagccaagg gttacaagga ggtcaagaaa gacctcatta tcaagctgcc caagtactct 8700
ctgttcgaac tggagaacgg tcgaaagcgt atgctcgcct ccgctggcga gctgcagaag 8760
ggaaacgagc ttgccttgcc ttcgaagtac gtcaactttc tctatctggc ttctcactac 8820
gagaagctca agggttctcc cgaggacaac gaacagaagc aactcttcgt tgagcagcac 8880
aaacattacc tcgacgagat tatcgagcag atttccgagt tttcgaagcg agtcatcctg 8940
gctgatgcca acttggacaa ggtgctctct gcctacaaca agcatcggga caaacccatt 9000
cgagaacagg cggagaacat cattcacctg tttactctta ccaacctggg tgctcctgca 9060
gctttcaagt acttcgatac cactatcgac cgaaagcggt acacatccac caaggaggtt 9120
ctcgatgcca ccctgattca ccagtccatc actggcctgt acgagacccg aatcgacctg 9180
tctcagcttg gtggcgactc cagagccgat cccaagaaaa agcgaaaggt ctaagcggcc 9240
gcaagtgtgg atggggaagt gagtgcccgg ttctgtgtgc acaattggca atccaagatg 9300
gatggattca acacagggat atagcgagct acgtggtggt gcgaggatat agcaacggat 9360
atttatgttt gacacttgag aatgtacgat acaagcactg tccaagtaca atactaaaca 9420
tactgtacat actcatactc gtacccgggc aacggtttca cttgagtgca gtggctagtg 9480
ctcttactcg tacagtgtgc aatactgcgt atcatagtct ttgatgtata tcgtattcat 9540
tcatgttagt tgcgtacgag ccggaagcat aaagtgtaaa gcctggggtg cctaatgagt 9600
gagctaactc acattaattg cgttgcgctc actgcccgct ttccagtcgg gaaacctgtc 9660
gtgccagctg cattaatgaa tcggccaacg cgcggggaga ggcggtttgc gtattgggcg 9720
ctcttccgct tcctcgctca ctgactcgct gcgctcggtc gttcggctgc ggcgagcggt 9780
atcagctcac tcaaaggcgg taatacggtt atccacagaa tcaggggata acgcaggaaa 9840
gaacatgtga gcaaaaggcc agcaaaaggc caggaaccgt aaaaaggccg cgttgctggc 9900
gtttttccat aggctccgcc cccctgacga gcatcacaaa aatcgacgct caagtcagag 9960
gtggcgaaac ccgacaggac tataaagata ccaggcgttt ccccctggaa gctccctcgt 10020
gcgctctcct gttccgaccc tgccgcttac cggatacctg tccgcctttc tcccttcggg 10080
aagcgtggcg ctttctcata gctcacgctg taggtatctc agttcggtgt aggtcgttcg 10140
ctccaagctg ggctgtgtgc acgaaccccc cgttcagccc gaccgctgcg ccttatccgg 10200
taactatcgt cttgagtcca acccggtaag acacgactta tcgccactgg cagcagccac 10260
tggtaacagg attagcagag cgaggtatgt aggcggtgct acagagttct tgaagtggtg 10320
gcctaactac ggctacacta gaaggacagt atttggtatc tgcgctctgc tgaagccagt 10380
taccttcgga aaaagagttg gtagctcttg atccggcaaa caaaccaccg ctggtagcgg 10440
tggttttttt gtttgcaagc agcagattac gcgcagaaaa aaaggatctc aagaagatcc 10500
tttgatcttt tctacggggt ctgacgctca gtggaacgaa aactcacgtt aagggatttt 10560
ggtcatgaga ttatcaaaaa ggatcttcac ctagatcctt ttaaattaaa aatgaagttt 10620
taaatcaatc taaagtatat atgagtaaac ttggtctgac agttaccaat gcttaatcag 10680
tgaggcacct atctcagcga tctgtctatt tcgttcatcc atagttgcct gactccccgt 10740
cgtgtagata actacgatac gggagggctt accatctggc cccagtgctg caatgatacc 10800
gcgagaccca cgctcaccgg ctccagattt atcagcaata aaccagccag ccggaagggc 10860
cgagcgcaga agtggtcctg caactttatc cgcctccatc cagtctatta attgttgccg 10920
ggaagctaga gtaagtagtt cgccagttaa tagtttgcgc aacgttgttg ccattgctac 10980
aggcatcgtg gtgtcacgct cgtcgtttgg tatggcttca ttcagctccg gttcccaacg 11040
atcaaggcga gttacatgat cccccatgtt gtgcaaaaaa gcggttagct ccttcggtcc 11100
tccgatcgtt gtcagaagta agttggccgc agtgttatca ctcatggtta tggcagcact 11160
gcataattct cttactgtca tgccatccgt aagatgcttt tctgtgactg gtgagtactc 11220
aaccaagtca ttctgagaat agtgtatgcg gcgaccgagt tgctcttgcc cggcgtcaat 11280
acgggataat accgcgccac atagcagaac tttaaaagtg ctcatcattg gaaaacgttc 11340
ttcggggcga aaactctcaa ggatcttacc gctgttgaga tccagttcga tgtaacccac 11400
tcgtgcaccc aactgatctt cagcatcttt tactttcacc agcgtttctg ggtgagcaaa 11460
aacaggaagg caaaatgccg caaaaaaggg aataagggcg acacggaaat gttgaatact 11520
catactcttc ctttttcaat attattgaag catttatcag ggttattgtc tcatgagcgg 11580
atacatattt gaatgtattt agaaaaataa acaaataggg gttccgcgca catttccccg 11640
aaaagtgcca cctgacgcgc cctgtagcgg cgcattaagc gcggcgggtg tggtggttac 11700
gcgcagcgtg accgctacac ttgccagcgc cctagcgccc gctcctttcg ctttcttccc 11760
ttcctttctc gccacgttcg ccggctttcc ccgtcaagct ctaaatcggg ggctcccttt 11820
agggttccga tttagtgctt tacggcacct cgaccccaaa aaacttgatt agggtgatgg 11880
ttcacgtagt gggccatcgc cctgatagac ggtttttcgc cctttgacgt tggagtccac 11940
gttctttaat agtggactct tgttccaaac tggaacaaca ctcaacccta tctcggtcta 12000
ttcttttgat ttataaggga ttttgccgat ttcggcctat tggttaaaaa atgagctgat 12060
ttaacaaaaa tttaacgcga attttaacaa aatattaacg cttacaattt ccattcgcca 12120
ttcaggctgc gcaactgttg ggaagggcga tcggtgcggg cctcttcgct attacgccag 12180
ctggcgaaag ggggatgtgc tgcaaggcga ttaagttggg taacgccagg gttttcccag 12240
tcacgacgtt gtaaaacgac ggccagtgaa ttgtaatacg actcactata gggcgaattg 12300
ggtaccgggc cccccctcga ggtcgatggt gtcgataagc ttgatatcg 12349
<210> 70
<211> 20
<212> DNA
<213> Artificial sequence
<220>
<223> oligo 308
<400> 70
cgtattagca ctgtacccag 20
<210> 71
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> oligo 309
<400> 71
catgacatgt gtccacagac 20
<210> 72
<211> 859
<212> DNA
<213> Artificial sequence
<220>
<223> URA3 locus deletion PCR product
<400> 72
catgacatgt gtccacagac cctcaatctg gcctgatgag ccaaatccat acgcgctttc 60
gcagctctaa aggctataac aagtcacacc accctgctcg acctcagcgc cctcactttt 120
tgttaagaca aactgtacac gctgttccag cgttttctgc ctgcacctgg tgggacattt 180
ggtgcaacct aaagtgctcg gaacctctgt ggtgtccaga tcagcgcagc agttccgagg 240
tagttttgag gcccttagat gatggtttaa acgtcgacga gtatctgtct gactcgtcat 300
tgccgccttt ggagtacgac tccaactatg agtgtgcttg gatcactttg acgatacatt 360
cttcgttgga ggctgtgggt ctgacagctg cgttttcggc gcggttggcc gacaacaata 420
tcagctgcaa cgtcattgct ggctttcatc atgatcacat ttttgtcggc aaaggcgacg 480
cccagagagc cattgacgtt ctttctaatt tggaccgata gccgtatagt ccagtctatc 540
tataagttca actaactcgt aactattacc ataacatata cttcactgcc ccagataagg 600
ttccgataaa aagttctgca gactaaattt atttcagtct cctcttcacc accaaaaggt 660
tagactatgg atatgtaatt taactgtgta tatagagagc gtgcaagtat ggagcgcttg 720
ttcagcttgt atgatggtca gacgacctgt ctgatcgagt atgtatgata ctgcacaacc 780
tgtgtatccg catgatctgt ccaatggggc atgttgttgt gtttctcgat acggagatgc 840
tgggtacagt gctaatacg 859
Claims (16)
- 그 게놈에 변형 뉴클레오티드 서열을 포함하는 미생물 세포를 선택하는 방법으로서, a) 미생물 세포에 가이드 폴리뉴클레오티드, 적어도 하나의 보호 폴리뉴클레오티드 변형 주형 및 Cas 엔도뉴클레아제를 제공하는 단계로서, 상기 Cas 엔도뉴클레아제 및 가이드 폴리뉴클레오티드는 상기 미생물 세포의 게놈 내 표적 부위에서 단일 또는 이중 가닥 절단을 도입할 수 있는 복합체를 형성할 수 있고, 상기 보호 폴리뉴클레오티드 변형 주형은 상기 뉴클레오티드 서열의 적어도 하나의 뉴클레오티드 변형을 포함하는 단계; 및 b) 상기 변형 뉴클레오티드 서열을 포함하는 단계 (a)로부터의 미생물 세포를 선택하는 단계를 포함하고,
보호 폴리뉴클레오티드 변형 주형은 적어도 한 가닥의 5'-말단에 적어도 하나의 포스포로티오에이트 결합을 포함하는 이중 가닥 선형 분자, 또는 그 5'-말단에 적어도 하나의 포스포로티오에이트 결합을 포함하는 단일 가닥 선형 분자인 방법. - 제1항에 있어서, 보호 폴리뉴클레오티드 주형의 적어도 하나의 뉴클레오티드 변형이 (i) 적어도 하나의 뉴클레오티드의 치환, (ii) 적어도 하나의 뉴클레오티드의 결실, (iii) 적어도 하나의 뉴클레오티드의 삽입, 및 (iv) (i) 내지 (iii)의 임의의 조합으로 이루어진 군으로부터 선택되는 방법.
- 제1항 또는 제2항에 있어서, 상기 미생물 세포에서 상동 유도 복구(HDR) 및/또는 비-상동 말단 연결(NHEJ)의 빈도를 추가로 결정하는 방법.
- 제3항에 있어서, HDR 빈도가 비보호(대조군) 폴리뉴클레오티드 변형 주형을 사용한 것을 제외하고 제1항의 방법과 모두 동일한 성분 및 단계를 갖는 대조 방법에서 유도되는 HDR 빈도에 비해 증가되는 방법.
- 제3항에 있어서, NHEJ 빈도가 비보호(대조군) 폴리뉴클레오티드 변형 주형을 사용한 것을 제외하고 제1항의 방법과 모두 동일한 성분 및 단계를 갖는 대조 방법에서 유도되는 NHEJ 빈도에 비해 감소되는 방법.
- 제1항 또는 제2항에 있어서, 상기 미생물 세포에서 보호 폴리뉴클레오티드 변형 주형의 부위를 벗어난 통합 빈도를 추가로 결정하는 방법.
- 제6항에 있어서, 상기 미생물 세포에서 보호 폴리뉴클레오티드 변형 주형의 부위를 벗어난 통합 빈도가 비보호(대조군) 폴리뉴클레오티드 변형 주형을 사용한 것을 제외하고 제1항의 방법과 모두 동일한 성분 및 단계를 갖는 대조 방법에서 유도되는 부위를 벗어난 통합 빈도에 비해 감소되는 방법.
- 그 게놈의 표적 부위에 삽입된 관심 폴리뉴클레오티드를 포함하는 미생물 세포를 선택하는 방법으로서, a) 미생물 세포에 가이드 폴리뉴클레오티드, 적어도 하나의 보호 폴리뉴클레오티드 공여 DNA 및 Cas 엔도뉴클레아제를 제공하는 단계로서, 상기 Cas 엔도뉴클레아제 및 가이드 폴리뉴클레오티드는 상기 미생물 세포의 게놈 내 표적 부위에서 단일 또는 이중 가닥 절단을 도입할 수 있는 복합체를 형성할 수 있고, 상기 보호 폴리뉴클레오티드 공여 DNA는 상기 미생물 세포의 게놈 내로 삽입될 관심 폴리뉴클레오티드를 포함하는 단계; 및 b) 그 게놈의 표적 부위에 삽입된 관심 폴리뉴클레오티드를 포함하는 단계 (a)로부터의 미생물 세포를 선택하는 단계를 포함하고,
보호 폴리뉴클레오티드 공여 DNA는 적어도 한 가닥의 5'-말단에 적어도 하나의 포스포로티오에이트 결합을 포함하는 이중 가닥 선형 분자, 또는 그 5'-말단에 적어도 하나의 포스포로티오에이트 결합을 포함하는 단일 가닥 선형 분자인 방법. - 제1항, 제2항, 또는 제8항에 있어서, 미생물 세포가 비 통상적인 효모이며,
비 통상적인 효모는 사카로마이세스(Saccharomyces) 또는 스키조사카로마이세스(Schizosaccharomyces) 효모 종이 아닌 효모인 방법. - 제9항에 있어서, 상기 효모가 야로위아, 피키아, 쉬반니오마이세스, 클루이베로마이세스, 아르술라, 트리코스포론, 칸디다, 유스틸라고, 토룰롭시스, 자이고사카로마이세스, 트리고놉시스, 크립토코커스, 로도토룰라, 파피아, 스포로볼로마이세스, 및 파키솔렌으로 이루어지는 군으로부터 선택된 속의 구성원인 비통상적인 효모인 방법.
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562240140P | 2015-10-12 | 2015-10-12 | |
US62/240,140 | 2015-10-12 | ||
PCT/US2016/056404 WO2017066175A1 (en) | 2015-10-12 | 2016-10-11 | Protected dna templates for gene modification and increased homologous recombination in cells and methods of use |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20180056772A KR20180056772A (ko) | 2018-05-29 |
KR102628801B1 true KR102628801B1 (ko) | 2024-01-25 |
Family
ID=57233846
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020187012640A KR102628801B1 (ko) | 2015-10-12 | 2016-10-11 | 세포내 유전자 변형 및 증가된 상동 재조합을 위한 보호 dna 주형 및 이용 방법 |
Country Status (9)
Country | Link |
---|---|
US (1) | US20180273979A1 (ko) |
EP (2) | EP4144844A1 (ko) |
JP (1) | JP7011590B2 (ko) |
KR (1) | KR102628801B1 (ko) |
AU (1) | AU2016338785B2 (ko) |
BR (1) | BR112018007351A2 (ko) |
CA (1) | CA2999050A1 (ko) |
DK (1) | DK3362560T3 (ko) |
WO (1) | WO2017066175A1 (ko) |
Families Citing this family (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3613852A3 (en) | 2011-07-22 | 2020-04-22 | President and Fellows of Harvard College | Evaluation and improvement of nuclease cleavage specificity |
US9163284B2 (en) | 2013-08-09 | 2015-10-20 | President And Fellows Of Harvard College | Methods for identifying a target site of a Cas9 nuclease |
US9359599B2 (en) | 2013-08-22 | 2016-06-07 | President And Fellows Of Harvard College | Engineered transcription activator-like effector (TALE) domains and uses thereof |
US9737604B2 (en) | 2013-09-06 | 2017-08-22 | President And Fellows Of Harvard College | Use of cationic lipids to deliver CAS9 |
US9340800B2 (en) | 2013-09-06 | 2016-05-17 | President And Fellows Of Harvard College | Extended DNA-sensing GRNAS |
US9388430B2 (en) | 2013-09-06 | 2016-07-12 | President And Fellows Of Harvard College | Cas9-recombinase fusion proteins and uses thereof |
US20150166984A1 (en) | 2013-12-12 | 2015-06-18 | President And Fellows Of Harvard College | Methods for correcting alpha-antitrypsin point mutations |
WO2016022363A2 (en) | 2014-07-30 | 2016-02-11 | President And Fellows Of Harvard College | Cas9 proteins including ligand-dependent inteins |
IL258821B (en) | 2015-10-23 | 2022-07-01 | Harvard College | Nucleobase editors and their uses |
SG11201900907YA (en) | 2016-08-03 | 2019-02-27 | Harvard College | Adenosine nucleobase editors and uses thereof |
US11661590B2 (en) | 2016-08-09 | 2023-05-30 | President And Fellows Of Harvard College | Programmable CAS9-recombinase fusion proteins and uses thereof |
US11352647B2 (en) | 2016-08-17 | 2022-06-07 | The Broad Institute, Inc. | Crispr enzymes and systems |
US11542509B2 (en) | 2016-08-24 | 2023-01-03 | President And Fellows Of Harvard College | Incorporation of unnatural amino acids into proteins using base editing |
GB2573062A (en) | 2016-10-14 | 2019-10-23 | Harvard College | AAV delivery of nucleobase editors |
BR112019012825A2 (pt) * | 2016-12-22 | 2019-11-26 | Intellia Therapeutics Inc | composições e métodos para tratar deficiência de alfa-1 antitripsina |
WO2018119359A1 (en) | 2016-12-23 | 2018-06-28 | President And Fellows Of Harvard College | Editing of ccr5 receptor gene to protect against hiv infection |
EP3592853A1 (en) | 2017-03-09 | 2020-01-15 | President and Fellows of Harvard College | Suppression of pain by gene editing |
WO2018165629A1 (en) | 2017-03-10 | 2018-09-13 | President And Fellows Of Harvard College | Cytosine to guanine base editor |
CA3057192A1 (en) | 2017-03-23 | 2018-09-27 | President And Fellows Of Harvard College | Nucleobase editors comprising nucleic acid programmable dna binding proteins |
US11591601B2 (en) | 2017-05-05 | 2023-02-28 | The Broad Institute, Inc. | Methods for identification and modification of lncRNA associated with target genotypes and phenotypes |
US11560566B2 (en) | 2017-05-12 | 2023-01-24 | President And Fellows Of Harvard College | Aptazyme-embedded guide RNAs for use with CRISPR-Cas9 in genome editing and transcriptional activation |
JP2020534795A (ja) | 2017-07-28 | 2020-12-03 | プレジデント アンド フェローズ オブ ハーバード カレッジ | ファージによって支援される連続的進化(pace)を用いて塩基編集因子を進化させるための方法および組成物 |
US11319532B2 (en) | 2017-08-30 | 2022-05-03 | President And Fellows Of Harvard College | High efficiency base editors comprising Gam |
US11795443B2 (en) | 2017-10-16 | 2023-10-24 | The Broad Institute, Inc. | Uses of adenosine base editors |
CN111836825A (zh) * | 2018-01-11 | 2020-10-27 | 科沃施种子欧洲股份两合公司 | 优化的植物crispr/cpf1系统 |
KR102002443B1 (ko) | 2018-01-22 | 2019-07-23 | 경상대학교산학협력단 | 식물체에서 상동재조합 기반의 유전자 편집 효율을 증가시키는 방법 |
KR20200119239A (ko) | 2018-02-08 | 2020-10-19 | 지머젠 인코포레이티드 | 코리네박테리움에서 crispr을 사용하는 게놈 편집 |
WO2020191153A2 (en) | 2019-03-19 | 2020-09-24 | The Broad Institute, Inc. | Methods and compositions for editing nucleotide sequences |
WO2020236967A1 (en) | 2019-05-20 | 2020-11-26 | The Broad Institute, Inc. | Random crispr-cas deletion mutant |
US20220298501A1 (en) | 2019-08-30 | 2022-09-22 | The Broad Institute, Inc. | Crispr-associated mu transposase systems |
KR20230019843A (ko) | 2020-05-08 | 2023-02-09 | 더 브로드 인스티튜트, 인코퍼레이티드 | 표적 이중 가닥 뉴클레오티드 서열의 두 가닥의 동시 편집을 위한 방법 및 조성물 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040146977A1 (en) | 1999-01-15 | 2004-07-29 | Biopolo S.C.A.R.L. | Production of heterologous proteins from Zygosaccharomyces bailii |
US20150082478A1 (en) | 2013-08-22 | 2015-03-19 | E I Du Pont De Nemours And Company | Plant genome modification using guide rna/cas endonuclease systems and methods of use |
Family Cites Families (75)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4880741A (en) | 1983-10-06 | 1989-11-14 | Pfizer Inc. | Process for transformation of Yarrowia lipolytica |
US5071764A (en) | 1983-10-06 | 1991-12-10 | Pfizer Inc. | Process for integrative transformation of yarrowia lipolytica |
US4945050A (en) | 1984-11-13 | 1990-07-31 | Cornell Research Foundation, Inc. | Method for transporting substances into living cells and tissues and apparatus therefor |
US5569597A (en) | 1985-05-13 | 1996-10-29 | Ciba Geigy Corp. | Methods of inserting viral DNA into plant material |
US5107065A (en) | 1986-03-28 | 1992-04-21 | Calgene, Inc. | Anti-sense regulation of gene expression in plant cells |
US5268463A (en) | 1986-11-11 | 1993-12-07 | Jefferson Richard A | Plant promoter α-glucuronidase gene construct |
US5608142A (en) | 1986-12-03 | 1997-03-04 | Agracetus, Inc. | Insecticidal cotton plants |
US4873192A (en) | 1987-02-17 | 1989-10-10 | The United States Of America As Represented By The Department Of Health And Human Services | Process for site specific mutagenesis without phenotypic selection |
US5316931A (en) | 1988-02-26 | 1994-05-31 | Biosource Genetics Corp. | Plant viral vectors having heterologous subgenomic promoters for systemic expression of foreign genes |
US5990387A (en) | 1988-06-10 | 1999-11-23 | Pioneer Hi-Bred International, Inc. | Stable transformation of plant cells |
US5034323A (en) | 1989-03-30 | 1991-07-23 | Dna Plant Technology Corporation | Genetic engineering of novel plant phenotypes |
US5231020A (en) | 1989-03-30 | 1993-07-27 | Dna Plant Technology Corporation | Genetic engineering of novel plant phenotypes |
US5240855A (en) | 1989-05-12 | 1993-08-31 | Pioneer Hi-Bred International, Inc. | Particle gun |
US5879918A (en) | 1989-05-12 | 1999-03-09 | Pioneer Hi-Bred International, Inc. | Pretreatment of microprojectiles prior to using in a particle gun |
US5322783A (en) | 1989-10-17 | 1994-06-21 | Pioneer Hi-Bred International, Inc. | Soybean transformation by microparticle bombardment |
ES2187497T3 (es) | 1990-04-12 | 2003-06-16 | Syngenta Participations Ag | Promotores preferentemente en tejidos. |
US5498830A (en) | 1990-06-18 | 1996-03-12 | Monsanto Company | Decreased oil content in plant seeds |
CA2087519C (en) | 1990-07-16 | 2002-10-22 | Fred Russell Kramer | Selection of ribozymes that efficiently cleave target rna |
US5932782A (en) | 1990-11-14 | 1999-08-03 | Pioneer Hi-Bred International, Inc. | Plant transformation method using agrobacterium species adhered to microprojectiles |
US5399680A (en) | 1991-05-22 | 1995-03-21 | The Salk Institute For Biological Studies | Rice chitinase promoter |
GB9114259D0 (en) | 1991-07-02 | 1991-08-21 | Ici Plc | Plant derived enzyme and dna sequences |
JPH06510187A (ja) | 1991-08-27 | 1994-11-17 | ノバルティス アクチエンゲゼルシャフト | 同翅類昆虫に対する殺虫性質を有したタンパク質及び植物保護におけるそれらの用法 |
US5324646A (en) | 1992-01-06 | 1994-06-28 | Pioneer Hi-Bred International, Inc. | Methods of regeneration of Medicago sativa and expressing foreign DNA in same |
WO1994002620A2 (en) | 1992-07-27 | 1994-02-03 | Pioneer Hi-Bred International, Inc. | An improved method of agrobacterium-mediated transformation of cultured soybean cells |
AU5676394A (en) | 1992-11-20 | 1994-06-22 | Agracetus, Inc. | Transgenic cotton plants producing heterologous bioplastic |
WO1994013791A1 (en) | 1992-12-04 | 1994-06-23 | Innovir Laboratories, Inc. | Regulatable nucleic acid therapeutic and methods of use thereof |
IL108241A (en) | 1992-12-30 | 2000-08-13 | Biosource Genetics Corp | Plant expression system comprising a defective tobamovirus replicon integrated into the plant chromosome and a helper virus |
DE69428290T2 (de) | 1993-01-13 | 2002-04-18 | Pioneer Hi Bred Int | Derivate von alpha-hordothionin mit höherem behalt an lysin |
US5814618A (en) | 1993-06-14 | 1998-09-29 | Basf Aktiengesellschaft | Methods for regulating gene expression |
US5789156A (en) | 1993-06-14 | 1998-08-04 | Basf Ag | Tetracycline-regulated transcriptional inhibitors |
JP3693691B2 (ja) | 1993-12-30 | 2005-09-07 | 株式会社リコー | 画像処理装置 |
US5580967A (en) | 1994-05-13 | 1996-12-03 | The Scripps Research Institute | Optimized catalytic DNA-cleaving ribozymes |
US6063566A (en) | 1994-05-13 | 2000-05-16 | The Scripps Research Institute | Catalytic RNA molecules |
US5736369A (en) | 1994-07-29 | 1998-04-07 | Pioneer Hi-Bred International, Inc. | Method for producing transgenic cereal plants |
US5608144A (en) | 1994-08-12 | 1997-03-04 | Dna Plant Technology Corp. | Plant group 2 promoters and uses thereof |
US5688670A (en) | 1994-09-01 | 1997-11-18 | The General Hospital Corporation | Self-modifying RNA molecules and methods of making |
US5659026A (en) | 1995-03-24 | 1997-08-19 | Pioneer Hi-Bred International | ALS3 promoter |
JP3302257B2 (ja) | 1995-03-31 | 2002-07-15 | ヒューレット・パッカード・カンパニー | テープ・ドライブ装置 |
EP0832235A1 (en) | 1995-06-02 | 1998-04-01 | Pioneer Hi-Bred International, Inc. | HIGH METHIONINE DERIVATIVES OF alfa-HORDOTHIONIN |
EP0828835A1 (en) | 1995-06-02 | 1998-03-18 | Pioneer Hi-Bred International, Inc. | HIGH THREONINE DERIVATIVES OF $g(a)-HORDOTHIONIN |
US5703049A (en) | 1996-02-29 | 1997-12-30 | Pioneer Hi-Bred Int'l, Inc. | High methionine derivatives of α-hordothionin for pathogen-control |
CA2251691A1 (en) | 1996-03-26 | 1997-10-02 | Razvan T. Radulescu | Peptides with antiproliferative properties |
US6072050A (en) | 1996-06-11 | 2000-06-06 | Pioneer Hi-Bred International, Inc. | Synthetic promoters |
AU3495297A (en) | 1996-07-08 | 1998-02-02 | Pioneer Hi-Bred International, Inc. | Transformation of zygote, egg or sperm cells and recovery of transformed plants from isolated embryo sacs |
US5981840A (en) | 1997-01-24 | 1999-11-09 | Pioneer Hi-Bred International, Inc. | Methods for agrobacterium-mediated transformation |
ES2273127T3 (es) | 1998-02-26 | 2007-05-01 | Pioneer Hi-Bred International, Inc. | Promotor alfa-tubulin 3-18 del maiz. |
DE10119005A1 (de) * | 2001-04-18 | 2002-10-24 | Roche Diagnostics Gmbh | Verfahren zur Proteinexpression ausgehend von stabilisierter linearer kurzer DNA in zellfreien in vitro-Transkription/Translations-Systemen mit Exonuklease-haltigen Lysaten oder in einem zellulären System enthaltend Exonukleasen |
EP2339347A1 (en) | 2002-04-12 | 2011-06-29 | O'Dowd, Brian, F. | Method of identifying transmembrane protein-interacting compounds |
KR100528293B1 (ko) | 2002-11-15 | 2005-11-15 | 삼성전자주식회사 | 전자렌지 및 그 청소제어방법 |
US20110059496A1 (en) | 2003-06-25 | 2011-03-10 | E. I. Du Pont De Nemours And Company | Glyceraldehyde-3-phosphate dehydrogenase and phosphoglycerate mutase promoters for gene expression in oleaginous yeast |
US20060094102A1 (en) | 2004-11-04 | 2006-05-04 | Zhixiong Xue | Ammonium transporter promoter for gene expression in oleaginous yeast |
US7550286B2 (en) | 2004-11-04 | 2009-06-23 | E. I. Du Pont De Nemours And Company | Docosahexaenoic acid producing strains of Yarrowia lipolytica |
DK2341149T3 (en) | 2005-08-26 | 2017-02-27 | Dupont Nutrition Biosci Aps | Use of CRISPR-associated genes (Cas) |
AU2007322223B2 (en) | 2006-10-23 | 2012-12-13 | Corteva Agriscience Llc | Delta-8 desaturases and their use in making polyunsaturated fatty acids |
BRPI0814244B1 (pt) | 2007-06-07 | 2018-10-09 | Agriculture And Agri Food Canada | método para obtenção de uma planta geneticamente engenheirada |
US20090117253A1 (en) | 2007-10-03 | 2009-05-07 | E. I. Du Pont De Nemours And Company | Peroxisome biogenesis factor protein (pex) disruptions for altering polyunsaturated fatty acids and total lipid content in oleaginous eukaryotic organisms |
AU2009238629C1 (en) | 2008-04-14 | 2015-04-30 | Sangamo Therapeutics, Inc. | Linear donor constructs for targeted integration |
US8524485B2 (en) | 2009-06-16 | 2013-09-03 | E I Du Pont De Nemours And Company | Long chain omega-3 and omega-6 polyunsaturated fatty acid biosynthesis by expression of acyl-CoA lysophospholipid acyltransferases |
CN103249834B (zh) | 2010-08-26 | 2016-10-26 | 纳幕尔杜邦公司 | 生产高水平二十碳五烯酸的重组微生物宿主细胞 |
CN103842511A (zh) | 2011-03-23 | 2014-06-04 | 先锋国际良种公司 | 产生复合转基因性状基因座的方法 |
US8969049B2 (en) | 2011-03-31 | 2015-03-03 | E I Du Pont De Nemours And Company | Yarrowia diacylglycerol acyltransferase promoter regions for gene expression in yeast |
US8906650B2 (en) | 2011-04-01 | 2014-12-09 | E I Du Pont De Nemours And Company | Yarrowia esterase/lipase promoter regions for gene expression in yeast |
WO2012138613A1 (en) | 2011-04-05 | 2012-10-11 | E. I. Du Pont De Nemours And Company | Yarrowia n-alkane-hydroxylating cytochrome p450 promoter regions for gene expression in yeast |
EP2702148A1 (en) | 2011-04-07 | 2014-03-05 | E.I. Du Pont De Nemours And Company | Yarrowia peroxisomal 2,4-dienoyl-coa reductase promoter regions for gene expression in yeast |
US8991013B2 (en) | 2011-06-02 | 2015-03-31 | Happy Captain Pty Ltd. | Extendable handle |
CN103858123A (zh) | 2011-08-01 | 2014-06-11 | 标记公司 | 从分层的观点协调分布式数据库 |
CA2855765C (en) | 2011-08-10 | 2016-09-27 | Dl Manufacturing | Loading dock sealing apparatus and method |
KR101323332B1 (ko) | 2012-01-06 | 2013-10-29 | 삼성메디슨 주식회사 | 동기화 이미지 구현 장치 및 방법 |
AR089793A1 (es) | 2012-01-27 | 2014-09-17 | Du Pont | Metodos y composiciones para generar locus de rasgos transgenicos complejos |
US10723806B2 (en) | 2012-02-27 | 2020-07-28 | Riken | Method of introducing nucleic acid into plant cells |
PE20150336A1 (es) | 2012-05-25 | 2015-03-25 | Univ California | Metodos y composiciones para la modificacion de adn objetivo dirigida por arn y para la modulacion de la transcripcion dirigida por arn |
US8697359B1 (en) | 2012-12-12 | 2014-04-15 | The Broad Institute, Inc. | CRISPR-Cas systems and methods for altering expression of gene products |
EP3252160B1 (en) | 2012-12-12 | 2020-10-28 | The Broad Institute, Inc. | Crispr-cas component systems, methods and compositions for sequence manipulation |
EP2935601B1 (en) | 2012-12-21 | 2018-03-21 | E. I. du Pont de Nemours and Company | Recombinant microbial cells that produce at least 28% eicosapentaenoic acid as dry cell weight |
WO2016094867A1 (en) * | 2014-12-12 | 2016-06-16 | The Broad Institute Inc. | Protected guide rnas (pgrnas) |
-
2016
- 2016-10-11 DK DK16791150.2T patent/DK3362560T3/da active
- 2016-10-11 CA CA2999050A patent/CA2999050A1/en active Granted
- 2016-10-11 AU AU2016338785A patent/AU2016338785B2/en active Active
- 2016-10-11 US US15/761,899 patent/US20180273979A1/en not_active Abandoned
- 2016-10-11 JP JP2018538537A patent/JP7011590B2/ja active Active
- 2016-10-11 KR KR1020187012640A patent/KR102628801B1/ko active IP Right Grant
- 2016-10-11 EP EP22189338.1A patent/EP4144844A1/en active Pending
- 2016-10-11 BR BR112018007351A patent/BR112018007351A2/pt unknown
- 2016-10-11 EP EP16791150.2A patent/EP3362560B1/en active Active
- 2016-10-11 WO PCT/US2016/056404 patent/WO2017066175A1/en active Application Filing
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20040146977A1 (en) | 1999-01-15 | 2004-07-29 | Biopolo S.C.A.R.L. | Production of heterologous proteins from Zygosaccharomyces bailii |
US20150082478A1 (en) | 2013-08-22 | 2015-03-19 | E I Du Pont De Nemours And Company | Plant genome modification using guide rna/cas endonuclease systems and methods of use |
Non-Patent Citations (2)
Title |
---|
Development. Vol.141, 4827-4830(2014)* |
Nature Biotechnology. Vol.33, No.9, 985-989(2015.6.29) |
Also Published As
Publication number | Publication date |
---|---|
AU2016338785B2 (en) | 2022-07-14 |
EP4144844A1 (en) | 2023-03-08 |
EP3362560A1 (en) | 2018-08-22 |
US20180273979A1 (en) | 2018-09-27 |
CA2999050A1 (en) | 2017-04-20 |
KR20180056772A (ko) | 2018-05-29 |
JP2018530352A (ja) | 2018-10-18 |
WO2017066175A1 (en) | 2017-04-20 |
JP7011590B2 (ja) | 2022-02-10 |
BR112018007351A2 (pt) | 2018-10-23 |
EP3362560B1 (en) | 2022-08-10 |
AU2016338785A1 (en) | 2018-04-12 |
DK3362560T3 (da) | 2022-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102628801B1 (ko) | 세포내 유전자 변형 및 증가된 상동 재조합을 위한 보호 dna 주형 및 이용 방법 | |
KR102381610B1 (ko) | Rna-유도 엔도뉴클레아제를 사용한 통상적이지 않은 효모에서의 유전자 표적화 | |
AU2019203955B2 (en) | Multipartite signaling proteins and uses thereof | |
KR102319845B1 (ko) | 조류 숙주 세포에 대한 crispr-cas 시스템 | |
AU2016203445B2 (en) | Integration of a polynucleotide encoding a polypeptide that catalyzes pyruvate to acetolactate conversion | |
DK2324119T3 (en) | Mutant DELTA5 Desaturases AND USE THEREOF FOR THE PRODUCTION OF polyunsaturated fatty acids | |
CN101437953B (zh) | 用于改变含油生物的多不饱和脂肪酸和油含量的二酰基甘油酰基转移酶 | |
DK2087105T3 (da) | Delta 17-desaturase og anvendelse heraf ved fremstilling af flerumættede fedtsyrer | |
KR20180086430A (ko) | 중합효소 ii(pol-ii) 기반의 가이드 rna 발현을 위한 방법 및 조성물 | |
CN112204147A (zh) | 基于Cpf1的植物转录调控系统 | |
KR20140099224A (ko) | 케토-아이소발레레이트 데카르복실라제 효소 및 이의 이용 방법 | |
KR20180043297A (ko) | 조작된 내수송/외수송을 가진 미생물 숙주에서 모유 올리고당류의 생산 | |
DK2443248T3 (en) | IMPROVEMENT OF LONG-CHAIN POLYUM Saturated OMEGA-3 AND OMEGA-6 FATTY ACID BIOS SYNTHESIS BY EXPRESSION OF ACYL-CoA LYSOPHOSPHOLIPID ACYL TRANSFERASES | |
KR20130032897A (ko) | 알코올 발효 시의 알코올 에스테르의 생성 및 원위치에서의 생성물 제거 | |
CN109843909B (zh) | 利用替代的葡萄糖转运蛋白产生鼠李糖脂的细胞和方法 | |
KR20130138760A (ko) | 고농도의 에이코사펜타엔산 생성을 위한 재조합 미생물 숙주 세포 | |
CN109996874A (zh) | 10-甲基硬脂酸的异源性产生 | |
CN111836825A (zh) | 优化的植物crispr/cpf1系统 | |
CA3109035A1 (en) | Microorganisms engineered to use unconventional sources of nitrogen | |
KR20220007155A (ko) | 코로나바이러스 스파이크 단백질의 변형된 s1 서브유닛 | |
CN112088215A (zh) | Crispr瞬时表达构建体(ctec) | |
CN115927299A (zh) | 增加双链rna产生的方法和组合物 | |
DK2935601T3 (en) | RECOMBINANT MICROBELL CELLS PRODUCING AT LEAST 28% EICOSAPENTAIC ACID AS DRY WEIGHT | |
DK2861727T3 (en) | MUTERED ACYL-COA: LYSOPHOSPHATIDYLCHOLINE ACYL TRANSFERASES | |
CN101883843A (zh) | 破坏过氧化物酶体生物合成因子蛋白(pex)以改变含油真核生物中多不饱和脂肪酸和总脂质含量 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right |