KR101539470B1 - 키메라 pufa 폴리케타이드 신테이즈 시스템 및 이의 용도 - Google Patents
키메라 pufa 폴리케타이드 신테이즈 시스템 및 이의 용도 Download PDFInfo
- Publication number
- KR101539470B1 KR101539470B1 KR1020097026099A KR20097026099A KR101539470B1 KR 101539470 B1 KR101539470 B1 KR 101539470B1 KR 1020097026099 A KR1020097026099 A KR 1020097026099A KR 20097026099 A KR20097026099 A KR 20097026099A KR 101539470 B1 KR101539470 B1 KR 101539470B1
- Authority
- KR
- South Korea
- Prior art keywords
- seq
- pufa pks
- pks system
- domain
- pufa
- Prior art date
Links
- 108010030975 Polyketide Synthases Proteins 0.000 title claims abstract description 503
- 235000020777 polyunsaturated fatty acids Nutrition 0.000 claims abstract description 816
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 337
- 150000007523 nucleic acids Chemical class 0.000 claims abstract description 281
- 102000004169 proteins and genes Human genes 0.000 claims abstract description 232
- 241000233671 Schizochytrium Species 0.000 claims abstract description 213
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 151
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 151
- 238000000034 method Methods 0.000 claims abstract description 84
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 151
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 115
- 238000004519 manufacturing process Methods 0.000 claims description 107
- 108020004705 Codon Proteins 0.000 claims description 66
- 244000005700 microbiome Species 0.000 claims description 61
- 108700010070 Codon Usage Proteins 0.000 claims description 28
- 108020001507 fusion proteins Proteins 0.000 claims description 19
- 102000037865 fusion proteins Human genes 0.000 claims description 19
- 230000001965 increasing effect Effects 0.000 claims description 19
- 235000020660 omega-3 fatty acid Nutrition 0.000 claims description 17
- 241000277331 Salmonidae Species 0.000 claims description 14
- 235000020665 omega-6 fatty acid Nutrition 0.000 claims description 9
- 241001467333 Thraustochytriaceae Species 0.000 claims description 4
- 102000014914 Carrier Proteins Human genes 0.000 claims description 2
- 108010078791 Carrier Proteins Proteins 0.000 claims description 2
- 241000233675 Thraustochytrium Species 0.000 claims description 2
- 108091033319 polynucleotide Proteins 0.000 claims description 2
- 102000040430 polynucleotide Human genes 0.000 claims description 2
- 239000002157 polynucleotide Substances 0.000 claims description 2
- 101710130262 Probable Vpr-like protein Proteins 0.000 claims 4
- 230000009261 transgenic effect Effects 0.000 abstract description 36
- 230000037361 pathway Effects 0.000 abstract description 28
- 108090000364 Ligases Proteins 0.000 abstract description 14
- 102000003960 Ligases Human genes 0.000 abstract description 14
- 229930001119 polyketide Natural products 0.000 abstract description 5
- 108091005461 Nucleic proteins Proteins 0.000 abstract 1
- 241000196324 Embryophyta Species 0.000 description 232
- 235000018102 proteins Nutrition 0.000 description 219
- 239000002773 nucleotide Substances 0.000 description 141
- 125000003729 nucleotide group Chemical group 0.000 description 140
- 150000004665 fatty acids Chemical class 0.000 description 117
- 239000013612 plasmid Substances 0.000 description 117
- 239000000194 fatty acid Substances 0.000 description 111
- 235000014113 dietary fatty acids Nutrition 0.000 description 110
- 229930195729 fatty acid Natural products 0.000 description 110
- 239000000047 product Substances 0.000 description 106
- 101150084291 ORFC gene Proteins 0.000 description 89
- 210000004027 cell Anatomy 0.000 description 87
- 206010057190 Respiratory tract infections Diseases 0.000 description 86
- MBMBGCFOFBJSGT-KUBAVDMBSA-N all-cis-docosa-4,7,10,13,16,19-hexaenoic acid Chemical compound CC\C=C/C\C=C/C\C=C/C\C=C/C\C=C/C\C=C/CCC(O)=O MBMBGCFOFBJSGT-KUBAVDMBSA-N 0.000 description 85
- 101100444336 Claviceps purpurea (strain 20.1) easH gene Proteins 0.000 description 82
- 101100409508 Escherichia coli prrC gene Proteins 0.000 description 82
- 101100222028 Salmonella enteritidis csgC gene Proteins 0.000 description 82
- 235000020669 docosahexaenoic acid Nutrition 0.000 description 81
- 101710146995 Acyl carrier protein Proteins 0.000 description 62
- 108091026890 Coding region Proteins 0.000 description 62
- 102000004190 Enzymes Human genes 0.000 description 58
- 108090000790 Enzymes Proteins 0.000 description 58
- 235000001014 amino acid Nutrition 0.000 description 58
- 229940024606 amino acid Drugs 0.000 description 53
- 230000014509 gene expression Effects 0.000 description 53
- 108020004414 DNA Proteins 0.000 description 52
- 241000588724 Escherichia coli Species 0.000 description 52
- 150000001413 amino acids Chemical class 0.000 description 52
- 239000012634 fragment Substances 0.000 description 52
- 238000006243 chemical reaction Methods 0.000 description 44
- 230000000694 effects Effects 0.000 description 44
- 108700016155 Acyl transferases Proteins 0.000 description 43
- 102000057234 Acyl transferases Human genes 0.000 description 42
- 239000013598 vector Substances 0.000 description 42
- 238000012239 gene modification Methods 0.000 description 41
- 239000003921 oil Substances 0.000 description 41
- 235000019198 oils Nutrition 0.000 description 41
- 230000005017 genetic modification Effects 0.000 description 39
- 235000013617 genetically modified food Nutrition 0.000 description 39
- YUFFSWGQGVEMMI-JLNKQSITSA-N (7Z,10Z,13Z,16Z,19Z)-docosapentaenoic acid Chemical compound CC\C=C/C\C=C/C\C=C/C\C=C/C\C=C/CCCCCC(O)=O YUFFSWGQGVEMMI-JLNKQSITSA-N 0.000 description 38
- 239000000543 intermediate Substances 0.000 description 38
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 37
- 230000015572 biosynthetic process Effects 0.000 description 36
- 229910052799 carbon Inorganic materials 0.000 description 35
- 101000935487 Agrobacterium fabrum (strain C58 / ATCC 33970) 3-oxopimeloyl-[acyl-carrier-protein] synthase Proteins 0.000 description 33
- 230000000975 bioactive effect Effects 0.000 description 33
- 230000004048 modification Effects 0.000 description 33
- 238000012986 modification Methods 0.000 description 33
- 238000003752 polymerase chain reaction Methods 0.000 description 30
- 238000003786 synthesis reaction Methods 0.000 description 30
- 240000004808 Saccharomyces cerevisiae Species 0.000 description 28
- 235000014680 Saccharomyces cerevisiae Nutrition 0.000 description 28
- 241000894007 species Species 0.000 description 28
- 230000006870 function Effects 0.000 description 27
- 150000001875 compounds Chemical class 0.000 description 25
- FWMNVWWHGCHHJJ-SKKKGAJSSA-N 4-amino-1-[(2r)-6-amino-2-[[(2r)-2-[[(2r)-2-[[(2r)-2-amino-3-phenylpropanoyl]amino]-3-phenylpropanoyl]amino]-4-methylpentanoyl]amino]hexanoyl]piperidine-4-carboxylic acid Chemical compound C([C@H](C(=O)N[C@H](CC(C)C)C(=O)N[C@H](CCCCN)C(=O)N1CCC(N)(CC1)C(O)=O)NC(=O)[C@H](N)CC=1C=CC=CC=1)C1=CC=CC=C1 FWMNVWWHGCHHJJ-SKKKGAJSSA-N 0.000 description 24
- VZCCETWTMQHEPK-QNEBEIHSSA-N gamma-linolenic acid Chemical compound CCCCC\C=C/C\C=C/C\C=C/CCCCC(O)=O VZCCETWTMQHEPK-QNEBEIHSSA-N 0.000 description 24
- 238000010276 construction Methods 0.000 description 23
- 230000004071 biological effect Effects 0.000 description 22
- 239000006227 byproduct Substances 0.000 description 22
- 125000004432 carbon atom Chemical group C* 0.000 description 22
- 238000011144 upstream manufacturing Methods 0.000 description 22
- 235000020664 gamma-linolenic acid Nutrition 0.000 description 21
- 239000002609 medium Substances 0.000 description 20
- 108700026244 Open Reading Frames Proteins 0.000 description 19
- 238000009396 hybridization Methods 0.000 description 19
- 241000894006 Bacteria Species 0.000 description 18
- LTYOQGRJFJAKNA-KKIMTKSISA-N Malonyl CoA Natural products S(C(=O)CC(=O)O)CCNC(=O)CCNC(=O)[C@@H](O)C(CO[P@](=O)(O[P@](=O)(OC[C@H]1[C@@H](OP(=O)(O)O)[C@@H](O)[C@@H](n2c3ncnc(N)c3nc2)O1)O)O)(C)C LTYOQGRJFJAKNA-KKIMTKSISA-N 0.000 description 18
- 235000020978 long-chain polyunsaturated fatty acids Nutrition 0.000 description 18
- LTYOQGRJFJAKNA-DVVLENMVSA-N malonyl-CoA Chemical compound O[C@@H]1[C@H](OP(O)(O)=O)[C@@H](COP(O)(=O)OP(O)(=O)OCC(C)(C)[C@@H](O)C(=O)NCCC(=O)NCCSC(=O)CC(O)=O)O[C@H]1N1C2=NC=NC(N)=C2N=C1 LTYOQGRJFJAKNA-DVVLENMVSA-N 0.000 description 18
- 239000011203 carbon fibre reinforced carbon Substances 0.000 description 17
- 230000009466 transformation Effects 0.000 description 17
- 125000002252 acyl group Chemical group 0.000 description 16
- 102000004316 Oxidoreductases Human genes 0.000 description 15
- 108090000854 Oxidoreductases Proteins 0.000 description 15
- 231100000350 mutagenesis Toxicity 0.000 description 15
- 239000013600 plasmid vector Substances 0.000 description 15
- YZXBAPSDXZZRGB-DOFZRALJSA-N arachidonic acid Chemical compound CCCCC\C=C/C\C=C/C\C=C/C\C=C/CCCC(O)=O YZXBAPSDXZZRGB-DOFZRALJSA-N 0.000 description 14
- 230000001580 bacterial effect Effects 0.000 description 14
- HOBAELRKJCKHQD-QNEBEIHSSA-N dihomo-γ-linolenic acid Chemical compound CCCCC\C=C/C\C=C/C\C=C/CCCCCCC(O)=O HOBAELRKJCKHQD-QNEBEIHSSA-N 0.000 description 13
- 239000000203 mixture Substances 0.000 description 13
- 238000002703 mutagenesis Methods 0.000 description 13
- 108090000765 processed proteins & peptides Proteins 0.000 description 13
- 230000001105 regulatory effect Effects 0.000 description 13
- HOBAELRKJCKHQD-UHFFFAOYSA-N (8Z,11Z,14Z)-8,11,14-eicosatrienoic acid Natural products CCCCCC=CCC=CCC=CCCCCCCC(O)=O HOBAELRKJCKHQD-UHFFFAOYSA-N 0.000 description 12
- YZCKVEUIGOORGS-NJFSPNSNSA-N Tritium Chemical compound [3H] YZCKVEUIGOORGS-NJFSPNSNSA-N 0.000 description 12
- 210000000349 chromosome Anatomy 0.000 description 12
- 229920001184 polypeptide Polymers 0.000 description 12
- 102000004196 processed proteins & peptides Human genes 0.000 description 12
- 238000012546 transfer Methods 0.000 description 12
- 229910052722 tritium Inorganic materials 0.000 description 12
- 125000000539 amino acid group Chemical group 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 11
- 150000004683 dihydrates Chemical class 0.000 description 11
- 230000012010 growth Effects 0.000 description 11
- 108091008146 restriction endonucleases Proteins 0.000 description 11
- 239000000758 substrate Substances 0.000 description 11
- AVKOENOBFIYBSA-WMPRHZDHSA-N (4Z,7Z,10Z,13Z,16Z)-docosa-4,7,10,13,16-pentaenoic acid Chemical compound CCCCC\C=C/C\C=C/C\C=C/C\C=C/C\C=C/CCC(O)=O AVKOENOBFIYBSA-WMPRHZDHSA-N 0.000 description 10
- 241000206602 Eukaryota Species 0.000 description 10
- 239000013604 expression vector Substances 0.000 description 10
- 235000019387 fatty acid methyl ester Nutrition 0.000 description 10
- 239000000499 gel Substances 0.000 description 10
- 108700037654 Acyl carrier protein (ACP) Proteins 0.000 description 9
- 102000048456 Acyl carrier protein (ACP) Human genes 0.000 description 9
- 101100536194 Escherichia coli prrB gene Proteins 0.000 description 9
- 101100275987 Halothiobacillus neapolitanus (strain ATCC 23641 / c2) csoS4B gene Proteins 0.000 description 9
- 101100406376 Streptomyces antibioticus orfB gene Proteins 0.000 description 9
- 238000010367 cloning Methods 0.000 description 9
- 238000012217 deletion Methods 0.000 description 9
- 230000037430 deletion Effects 0.000 description 9
- 230000029087 digestion Effects 0.000 description 9
- 239000003814 drug Substances 0.000 description 9
- 101150089204 easF gene Proteins 0.000 description 9
- 239000012467 final product Substances 0.000 description 9
- VZCCETWTMQHEPK-UHFFFAOYSA-N gamma-Linolensaeure Natural products CCCCCC=CCC=CCC=CCCCCC(O)=O VZCCETWTMQHEPK-UHFFFAOYSA-N 0.000 description 9
- 150000002632 lipids Chemical class 0.000 description 9
- 230000035772 mutation Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000022532 regulation of transcription, DNA-dependent Effects 0.000 description 9
- 238000001890 transfection Methods 0.000 description 9
- 241001465754 Metazoa Species 0.000 description 8
- 230000008859 change Effects 0.000 description 8
- 230000000295 complement effect Effects 0.000 description 8
- 238000000605 extraction Methods 0.000 description 8
- 150000002185 fatty acyl-CoAs Chemical class 0.000 description 8
- 238000000855 fermentation Methods 0.000 description 8
- 230000004151 fermentation Effects 0.000 description 8
- 150000003904 phospholipids Chemical class 0.000 description 8
- 238000000746 purification Methods 0.000 description 8
- DCXXMTOCNZCJGO-UHFFFAOYSA-N tristearoylglycerol Chemical compound CCCCCCCCCCCCCCCCCC(=O)OCC(OC(=O)CCCCCCCCCCCCCCCCC)COC(=O)CCCCCCCCCCCCCCCCC DCXXMTOCNZCJGO-UHFFFAOYSA-N 0.000 description 8
- 108091081024 Start codon Proteins 0.000 description 7
- 239000002253 acid Substances 0.000 description 7
- 239000011543 agarose gel Substances 0.000 description 7
- HQPCSDADVLFHHO-LTKCOYKYSA-N all-cis-8,11,14,17-icosatetraenoic acid Chemical compound CC\C=C/C\C=C/C\C=C/C\C=C/CCCCCCC(O)=O HQPCSDADVLFHHO-LTKCOYKYSA-N 0.000 description 7
- 239000003242 anti bacterial agent Substances 0.000 description 7
- 229940088710 antibiotic agent Drugs 0.000 description 7
- 235000021342 arachidonic acid Nutrition 0.000 description 7
- 229940114079 arachidonic acid Drugs 0.000 description 7
- 229940079593 drug Drugs 0.000 description 7
- 239000013613 expression plasmid Substances 0.000 description 7
- 235000021588 free fatty acids Nutrition 0.000 description 7
- 230000002068 genetic effect Effects 0.000 description 7
- 238000010353 genetic engineering Methods 0.000 description 7
- 239000001963 growth medium Substances 0.000 description 7
- 230000001976 improved effect Effects 0.000 description 7
- 230000000813 microbial effect Effects 0.000 description 7
- 238000005457 optimization Methods 0.000 description 7
- CWCMIVBLVUHDHK-ZSNHEYEWSA-N phleomycin D1 Chemical compound N([C@H](C(=O)N[C@H](C)[C@@H](O)[C@H](C)C(=O)N[C@@H]([C@H](O)C)C(=O)NCCC=1SC[C@@H](N=1)C=1SC=C(N=1)C(=O)NCCCCNC(N)=N)[C@@H](O[C@H]1[C@H]([C@@H](O)[C@H](O)[C@H](CO)O1)O[C@@H]1[C@H]([C@@H](OC(N)=O)[C@H](O)[C@@H](CO)O1)O)C=1N=CNC=1)C(=O)C1=NC([C@H](CC(N)=O)NC[C@H](N)C(N)=O)=NC(N)=C1C CWCMIVBLVUHDHK-ZSNHEYEWSA-N 0.000 description 7
- 230000002441 reversible effect Effects 0.000 description 7
- 238000012216 screening Methods 0.000 description 7
- 239000011734 sodium Substances 0.000 description 7
- 238000011282 treatment Methods 0.000 description 7
- 235000015112 vegetable and seed oil Nutrition 0.000 description 7
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 6
- 108010019608 3-Oxoacyl-(Acyl-Carrier-Protein) Synthase Proteins 0.000 description 6
- 102100037149 3-oxoacyl-[acyl-carrier-protein] synthase, mitochondrial Human genes 0.000 description 6
- IAZDPXIOMUYVGZ-UHFFFAOYSA-N Dimethylsulphoxide Chemical compound CS(C)=O IAZDPXIOMUYVGZ-UHFFFAOYSA-N 0.000 description 6
- ZHNUHDYFZUAESO-UHFFFAOYSA-N Formamide Chemical compound NC=O ZHNUHDYFZUAESO-UHFFFAOYSA-N 0.000 description 6
- 241000233866 Fungi Species 0.000 description 6
- 230000003321 amplification Effects 0.000 description 6
- 238000003776 cleavage reaction Methods 0.000 description 6
- 238000002474 experimental method Methods 0.000 description 6
- 229960002733 gamolenic acid Drugs 0.000 description 6
- 239000013067 intermediate product Substances 0.000 description 6
- 238000003199 nucleic acid amplification method Methods 0.000 description 6
- 108010001814 phosphopantetheinyl transferase Proteins 0.000 description 6
- 238000006722 reduction reaction Methods 0.000 description 6
- 230000002829 reductive effect Effects 0.000 description 6
- 230000007017 scission Effects 0.000 description 6
- 238000006467 substitution reaction Methods 0.000 description 6
- 210000001519 tissue Anatomy 0.000 description 6
- 241000251468 Actinopterygii Species 0.000 description 5
- 229920000936 Agarose Polymers 0.000 description 5
- 235000021298 Dihomo-γ-linolenic acid Nutrition 0.000 description 5
- 102100026384 L-aminoadipate-semialdehyde dehydrogenase-phosphopantetheinyl transferase Human genes 0.000 description 5
- 108091034117 Oligonucleotide Proteins 0.000 description 5
- ZNXZGRMVNNHPCA-UHFFFAOYSA-N Pantetheine Natural products OCC(C)(C)C(O)C(=O)NCCC(=O)NCCS ZNXZGRMVNNHPCA-UHFFFAOYSA-N 0.000 description 5
- 108010084455 Zeocin Proteins 0.000 description 5
- 238000000246 agarose gel electrophoresis Methods 0.000 description 5
- DTOSIQBPPRVQHS-PDBXOOCHSA-N alpha-linolenic acid Chemical compound CC\C=C/C\C=C/C\C=C/CCCCCCCC(O)=O DTOSIQBPPRVQHS-PDBXOOCHSA-N 0.000 description 5
- 230000001419 dependent effect Effects 0.000 description 5
- 238000011161 development Methods 0.000 description 5
- 230000018109 developmental process Effects 0.000 description 5
- 238000001727 in vivo Methods 0.000 description 5
- 235000013336 milk Nutrition 0.000 description 5
- 239000008267 milk Substances 0.000 description 5
- 210000004080 milk Anatomy 0.000 description 5
- 230000006798 recombination Effects 0.000 description 5
- 238000005215 recombination Methods 0.000 description 5
- 239000000523 sample Substances 0.000 description 5
- 125000003607 serino group Chemical group [H]N([H])[C@]([H])(C(=O)[*])C(O[H])([H])[H] 0.000 description 5
- -1 sterol esters Chemical class 0.000 description 5
- 230000014616 translation Effects 0.000 description 5
- 235000021122 unsaturated fatty acids Nutrition 0.000 description 5
- 150000004670 unsaturated fatty acids Chemical class 0.000 description 5
- DVGKRPYUFRZAQW-UHFFFAOYSA-N 3 prime Natural products CC(=O)NC1OC(CC(O)C1C(O)C(O)CO)(OC2C(O)C(CO)OC(OC3C(O)C(O)C(O)OC3CO)C2O)C(=O)O DVGKRPYUFRZAQW-UHFFFAOYSA-N 0.000 description 4
- 241000589158 Agrobacterium Species 0.000 description 4
- 241000219198 Brassica Species 0.000 description 4
- 235000004977 Brassica sinapistrum Nutrition 0.000 description 4
- 102000053602 DNA Human genes 0.000 description 4
- 102000016928 DNA-directed DNA polymerase Human genes 0.000 description 4
- 108010014303 DNA-directed DNA polymerase Proteins 0.000 description 4
- 235000010469 Glycine max Nutrition 0.000 description 4
- 101100275984 Halothiobacillus neapolitanus (strain ATCC 23641 / c2) csoS4A gene Proteins 0.000 description 4
- 239000006137 Luria-Bertani broth Substances 0.000 description 4
- 241000235070 Saccharomyces Species 0.000 description 4
- 241000193998 Streptococcus pneumoniae Species 0.000 description 4
- 108700005078 Synthetic Genes Proteins 0.000 description 4
- 101100169253 Walleye dermal sarcoma virus orfA gene Proteins 0.000 description 4
- 238000009825 accumulation Methods 0.000 description 4
- 235000020661 alpha-linolenic acid Nutrition 0.000 description 4
- 210000004102 animal cell Anatomy 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 239000000872 buffer Substances 0.000 description 4
- 239000007795 chemical reaction product Substances 0.000 description 4
- 230000001276 controlling effect Effects 0.000 description 4
- 238000004925 denaturation Methods 0.000 description 4
- 230000036425 denaturation Effects 0.000 description 4
- 101150017627 easG gene Proteins 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 235000013350 formula milk Nutrition 0.000 description 4
- 238000004817 gas chromatography Methods 0.000 description 4
- 238000000338 in vitro Methods 0.000 description 4
- 230000001939 inductive effect Effects 0.000 description 4
- 229960004488 linolenic acid Drugs 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 235000016709 nutrition Nutrition 0.000 description 4
- 230000036961 partial effect Effects 0.000 description 4
- 239000002245 particle Substances 0.000 description 4
- WTJKGGKOPKCXLL-RRHRGVEJSA-N phosphatidylcholine Chemical compound CCCCCCCCCCCCCCCC(=O)OC[C@H](COP([O-])(=O)OCC[N+](C)(C)C)OC(=O)CCCCCCCC=CCCCCCCCC WTJKGGKOPKCXLL-RRHRGVEJSA-N 0.000 description 4
- 150000003881 polyketide derivatives Chemical class 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010188 recombinant method Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000003252 repetitive effect Effects 0.000 description 4
- 150000003839 salts Chemical class 0.000 description 4
- 235000004400 serine Nutrition 0.000 description 4
- 229940031000 streptococcus pneumoniae Drugs 0.000 description 4
- 150000007970 thio esters Chemical class 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 229920001817 Agar Polymers 0.000 description 3
- 235000003255 Carthamus tinctorius Nutrition 0.000 description 3
- 244000020518 Carthamus tinctorius Species 0.000 description 3
- 241000195493 Cryptophyta Species 0.000 description 3
- 238000001712 DNA sequencing Methods 0.000 description 3
- 235000021294 Docosapentaenoic acid Nutrition 0.000 description 3
- 101710198510 Enoyl-[acyl-carrier-protein] reductase [NADH] Proteins 0.000 description 3
- 108010039731 Fatty Acid Synthases Proteins 0.000 description 3
- 102000015303 Fatty Acid Synthases Human genes 0.000 description 3
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 3
- 244000068988 Glycine max Species 0.000 description 3
- 244000020551 Helianthus annuus Species 0.000 description 3
- 235000003222 Helianthus annuus Nutrition 0.000 description 3
- FFEARJCKVFRZRR-BYPYZUCNSA-N L-methionine Chemical compound CSCC[C@H](N)C(O)=O FFEARJCKVFRZRR-BYPYZUCNSA-N 0.000 description 3
- 241001491672 Labyrinthulaceae Species 0.000 description 3
- 241001491666 Labyrinthulomycetes Species 0.000 description 3
- 101001110310 Lentilactobacillus kefiri NADP-dependent (R)-specific alcohol dehydrogenase Proteins 0.000 description 3
- 235000004431 Linum usitatissimum Nutrition 0.000 description 3
- 240000006240 Linum usitatissimum Species 0.000 description 3
- 241001491708 Macrocystis Species 0.000 description 3
- OKKJLVBELUTLKV-UHFFFAOYSA-N Methanol Chemical compound OC OKKJLVBELUTLKV-UHFFFAOYSA-N 0.000 description 3
- 244000061176 Nicotiana tabacum Species 0.000 description 3
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 3
- 241000080590 Niso Species 0.000 description 3
- 208000001132 Osteoporosis Diseases 0.000 description 3
- 108020004511 Recombinant DNA Proteins 0.000 description 3
- MTCFGRXMJLQNBG-UHFFFAOYSA-N Serine Natural products OCC(N)C(O)=O MTCFGRXMJLQNBG-UHFFFAOYSA-N 0.000 description 3
- HEMHJVSKTPXQMS-UHFFFAOYSA-M Sodium hydroxide Chemical compound [OH-].[Na+] HEMHJVSKTPXQMS-UHFFFAOYSA-M 0.000 description 3
- 241000592344 Spermatophyta Species 0.000 description 3
- JZRWCGZRTZMZEH-UHFFFAOYSA-N Thiamine Natural products CC1=C(CCO)SC=[N+]1CC1=CN=C(C)N=C1N JZRWCGZRTZMZEH-UHFFFAOYSA-N 0.000 description 3
- 102000004357 Transferases Human genes 0.000 description 3
- 108090000992 Transferases Proteins 0.000 description 3
- 240000008042 Zea mays Species 0.000 description 3
- QTBSBXVTEAMEQO-HQMMCQRPSA-N acetic acid Chemical compound C[14C](O)=O QTBSBXVTEAMEQO-HQMMCQRPSA-N 0.000 description 3
- 230000009471 action Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 238000001994 activation Methods 0.000 description 3
- 239000008272 agar Substances 0.000 description 3
- JAZBEHYOTPTENJ-JLNKQSITSA-N all-cis-5,8,11,14,17-icosapentaenoic acid Chemical compound CC\C=C/C\C=C/C\C=C/C\C=C/C\C=C/CCCC(O)=O JAZBEHYOTPTENJ-JLNKQSITSA-N 0.000 description 3
- 238000000137 annealing Methods 0.000 description 3
- QVGXLLKOCUKJST-UHFFFAOYSA-N atomic oxygen Chemical compound [O] QVGXLLKOCUKJST-UHFFFAOYSA-N 0.000 description 3
- 235000013361 beverage Nutrition 0.000 description 3
- 230000001851 biosynthetic effect Effects 0.000 description 3
- 230000000903 blocking effect Effects 0.000 description 3
- 238000005119 centrifugation Methods 0.000 description 3
- KRKNYBCHXYNGOX-UHFFFAOYSA-N citric acid Chemical compound OC(=O)CC(O)(C(O)=O)CC(O)=O KRKNYBCHXYNGOX-UHFFFAOYSA-N 0.000 description 3
- 239000013599 cloning vector Substances 0.000 description 3
- FDJOLVPMNUYSCM-UVKKECPRSA-L cobalt(3+);[(2r,3s,4r,5s)-5-(5,6-dimethylbenzimidazol-1-yl)-4-hydroxy-2-(hydroxymethyl)oxolan-3-yl] [(2r)-1-[3-[(2r,3r,4z,7s,9z,12s,13s,14z,17s,18s,19r)-2,13,18-tris(2-amino-2-oxoethyl)-7,12,17-tris(3-amino-3-oxopropyl)-3,5,8,8,13,15,18,19-octamethyl-2,7, Chemical compound [Co+3].N#[C-].C1([C@H](CC(N)=O)[C@@]2(C)CCC(=O)NC[C@@H](C)OP([O-])(=O)O[C@H]3[C@H]([C@H](O[C@@H]3CO)N3C4=CC(C)=C(C)C=C4N=C3)O)[N-]\C2=C(C)/C([C@H](C\2(C)C)CCC(N)=O)=N/C/2=C\C([C@H]([C@@]/2(CC(N)=O)C)CCC(N)=O)=N\C\2=C(C)/C2=N[C@]1(C)[C@@](C)(CC(N)=O)[C@@H]2CCC(N)=O FDJOLVPMNUYSCM-UVKKECPRSA-L 0.000 description 3
- 239000013078 crystal Substances 0.000 description 3
- 230000001351 cycling effect Effects 0.000 description 3
- 235000018417 cysteine Nutrition 0.000 description 3
- XUJNEKJLAYXESH-UHFFFAOYSA-N cysteine Natural products SCC(N)C(O)=O XUJNEKJLAYXESH-UHFFFAOYSA-N 0.000 description 3
- 125000000151 cysteine group Chemical group N[C@@H](CS)C(=O)* 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 235000015872 dietary supplement Nutrition 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 208000035475 disorder Diseases 0.000 description 3
- 229940090949 docosahexaenoic acid Drugs 0.000 description 3
- 235000020673 eicosapentaenoic acid Nutrition 0.000 description 3
- JAZBEHYOTPTENJ-UHFFFAOYSA-N eicosapentaenoic acid Natural products CCC=CCC=CCC=CCC=CCC=CCCCC(O)=O JAZBEHYOTPTENJ-UHFFFAOYSA-N 0.000 description 3
- 229960005135 eicosapentaenoic acid Drugs 0.000 description 3
- 150000002148 esters Chemical class 0.000 description 3
- 230000004136 fatty acid synthesis Effects 0.000 description 3
- 125000001924 fatty-acyl group Chemical group 0.000 description 3
- 238000009472 formulation Methods 0.000 description 3
- 229940098330 gamma linoleic acid Drugs 0.000 description 3
- 239000008103 glucose Substances 0.000 description 3
- PEDCQBHIVMGVHV-UHFFFAOYSA-N glycerol group Chemical group OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 3
- 125000004435 hydrogen atom Chemical group [H]* 0.000 description 3
- 230000002779 inactivation Effects 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 238000006317 isomerization reaction Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- KQQKGWQCNNTQJW-UHFFFAOYSA-N linolenic acid Natural products CC=CCCC=CCC=CCCCCCCCC(O)=O KQQKGWQCNNTQJW-UHFFFAOYSA-N 0.000 description 3
- 239000012528 membrane Substances 0.000 description 3
- 108020004999 messenger RNA Proteins 0.000 description 3
- 229930182817 methionine Natural products 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 238000010369 molecular cloning Methods 0.000 description 3
- VLKZOEOYAKHREP-UHFFFAOYSA-N n-Hexane Chemical compound CCCCCC VLKZOEOYAKHREP-UHFFFAOYSA-N 0.000 description 3
- 229930014626 natural product Natural products 0.000 description 3
- ZQPPMHVWECSIRJ-KTKRTIGZSA-N oleic acid Chemical compound CCCCCCCC\C=C/CCCCCCCC(O)=O ZQPPMHVWECSIRJ-KTKRTIGZSA-N 0.000 description 3
- 229910052760 oxygen Inorganic materials 0.000 description 3
- 239000001301 oxygen Substances 0.000 description 3
- ZNXZGRMVNNHPCA-VIFPVBQESA-N pantetheine Chemical compound OCC(C)(C)[C@@H](O)C(=O)NCCC(=O)NCCS ZNXZGRMVNNHPCA-VIFPVBQESA-N 0.000 description 3
- 239000008194 pharmaceutical composition Substances 0.000 description 3
- 210000001938 protoplast Anatomy 0.000 description 3
- 239000000376 reactant Substances 0.000 description 3
- 239000011535 reaction buffer Substances 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 239000002689 soil Substances 0.000 description 3
- 230000002194 synthesizing effect Effects 0.000 description 3
- KYMBYSLLVAOCFI-UHFFFAOYSA-N thiamine Chemical compound CC1=C(CCO)SCN1CC1=CN=C(C)N=C1N KYMBYSLLVAOCFI-UHFFFAOYSA-N 0.000 description 3
- 235000019157 thiamine Nutrition 0.000 description 3
- 229960003495 thiamine Drugs 0.000 description 3
- 239000011721 thiamine Substances 0.000 description 3
- 230000003827 upregulation Effects 0.000 description 3
- 239000008158 vegetable oil Substances 0.000 description 3
- 238000005406 washing Methods 0.000 description 3
- YBJHBAHKTGYVGT-ZKWXMUAHSA-N (+)-Biotin Chemical compound N1C(=O)N[C@@H]2[C@H](CCCCC(=O)O)SC[C@@H]21 YBJHBAHKTGYVGT-ZKWXMUAHSA-N 0.000 description 2
- WRIDQFICGBMAFQ-UHFFFAOYSA-N (E)-8-Octadecenoic acid Natural products CCCCCCCCCC=CCCCCCCC(O)=O WRIDQFICGBMAFQ-UHFFFAOYSA-N 0.000 description 2
- SXGZJKUKBWWHRA-UHFFFAOYSA-N 2-(N-morpholiniumyl)ethanesulfonate Chemical compound [O-]S(=O)(=O)CC[NH+]1CCOCC1 SXGZJKUKBWWHRA-UHFFFAOYSA-N 0.000 description 2
- LQJBNNIYVWPHFW-UHFFFAOYSA-N 20:1omega9c fatty acid Natural products CCCCCCCCCCC=CCCCCCCCC(O)=O LQJBNNIYVWPHFW-UHFFFAOYSA-N 0.000 description 2
- QSBYPNXLFMSGKH-UHFFFAOYSA-N 9-Heptadecensaeure Natural products CCCCCCCC=CCCCCCCCC(O)=O QSBYPNXLFMSGKH-UHFFFAOYSA-N 0.000 description 2
- 102100022734 Acyl carrier protein, mitochondrial Human genes 0.000 description 2
- 241000589155 Agrobacterium tumefaciens Species 0.000 description 2
- RLMISHABBKUNFO-WHFBIAKZSA-N Ala-Ala-Gly Chemical compound C[C@H](N)C(=O)N[C@@H](C)C(=O)NCC(O)=O RLMISHABBKUNFO-WHFBIAKZSA-N 0.000 description 2
- 244000105624 Arachis hypogaea Species 0.000 description 2
- 239000004475 Arginine Substances 0.000 description 2
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 2
- 241000193830 Bacillus <bacterium> Species 0.000 description 2
- 244000063299 Bacillus subtilis Species 0.000 description 2
- 235000014469 Bacillus subtilis Nutrition 0.000 description 2
- 235000011331 Brassica Nutrition 0.000 description 2
- 235000014698 Brassica juncea var multisecta Nutrition 0.000 description 2
- 240000002791 Brassica napus Species 0.000 description 2
- 235000006008 Brassica napus var napus Nutrition 0.000 description 2
- 235000006618 Brassica rapa subsp oleifera Nutrition 0.000 description 2
- 241001301148 Brassica rapa subsp. oleifera Species 0.000 description 2
- 241000222120 Candida <Saccharomycetales> Species 0.000 description 2
- 241000238366 Cephalopoda Species 0.000 description 2
- RGJOEKWQDUBAIZ-IBOSZNHHSA-N CoASH Chemical compound O[C@@H]1[C@H](OP(O)(O)=O)[C@@H](COP(O)(=O)OP(O)(=O)OCC(C)(C)[C@@H](O)C(=O)NCCC(=O)NCCS)O[C@H]1N1C2=NC=NC(N)=C2N=C1 RGJOEKWQDUBAIZ-IBOSZNHHSA-N 0.000 description 2
- 240000001980 Cucurbita pepo Species 0.000 description 2
- 235000009852 Cucurbita pepo Nutrition 0.000 description 2
- JDMUPRLRUUMCTL-VIFPVBQESA-N D-pantetheine 4'-phosphate Chemical compound OP(=O)(O)OCC(C)(C)[C@@H](O)C(=O)NCCC(=O)NCCS JDMUPRLRUUMCTL-VIFPVBQESA-N 0.000 description 2
- 241001462977 Elina Species 0.000 description 2
- 241000219146 Gossypium Species 0.000 description 2
- 101000678845 Homo sapiens Acyl carrier protein, mitochondrial Proteins 0.000 description 2
- 101000611240 Homo sapiens Low molecular weight phosphotyrosine protein phosphatase Proteins 0.000 description 2
- 101000620894 Homo sapiens Lysophosphatidic acid phosphatase type 6 Proteins 0.000 description 2
- 101000620880 Homo sapiens Tartrate-resistant acid phosphatase type 5 Proteins 0.000 description 2
- 101001122914 Homo sapiens Testicular acid phosphatase Proteins 0.000 description 2
- 240000005979 Hordeum vulgare Species 0.000 description 2
- 235000007340 Hordeum vulgare Nutrition 0.000 description 2
- 102000004867 Hydro-Lyases Human genes 0.000 description 2
- 108090001042 Hydro-Lyases Proteins 0.000 description 2
- 108091029795 Intergenic region Proteins 0.000 description 2
- KFZMGEQAYNKOFK-UHFFFAOYSA-N Isopropanol Chemical compound CC(C)O KFZMGEQAYNKOFK-UHFFFAOYSA-N 0.000 description 2
- 241001467308 Labyrinthuloides Species 0.000 description 2
- 241000186660 Lactobacillus Species 0.000 description 2
- OYHQOLUKZRVURQ-HZJYTTRNSA-N Linoleic acid Chemical compound CCCCC\C=C/C\C=C/CCCCCCCC(O)=O OYHQOLUKZRVURQ-HZJYTTRNSA-N 0.000 description 2
- 102100022916 Lysophosphatidic acid phosphatase type 6 Human genes 0.000 description 2
- 101100070532 Nostoc sp. (strain PCC 7120 / SAG 25.82 / UTEX 2576) hetI gene Proteins 0.000 description 2
- 239000005642 Oleic acid Substances 0.000 description 2
- ZQPPMHVWECSIRJ-UHFFFAOYSA-N Oleic acid Natural products CCCCCCCCC=CCCCCCCCC(O)=O ZQPPMHVWECSIRJ-UHFFFAOYSA-N 0.000 description 2
- 240000007594 Oryza sativa Species 0.000 description 2
- 235000007164 Oryza sativa Nutrition 0.000 description 2
- 241000235346 Schizosaccharomyces Species 0.000 description 2
- 108091081021 Sense strand Proteins 0.000 description 2
- 241000333170 Shewanella japonica Species 0.000 description 2
- 102000009105 Short Chain Dehydrogenase-Reductases Human genes 0.000 description 2
- 108010048287 Short Chain Dehydrogenase-Reductases Proteins 0.000 description 2
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N Silicium dioxide Chemical compound O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 2
- 244000044822 Simmondsia californica Species 0.000 description 2
- 235000004433 Simmondsia californica Nutrition 0.000 description 2
- FAPWRFPIFSIZLT-UHFFFAOYSA-M Sodium chloride Chemical compound [Na+].[Cl-] FAPWRFPIFSIZLT-UHFFFAOYSA-M 0.000 description 2
- 229930182558 Sterol Natural products 0.000 description 2
- 102100022919 Tartrate-resistant acid phosphatase type 5 Human genes 0.000 description 2
- 102100028526 Testicular acid phosphatase Human genes 0.000 description 2
- MUMGGOZAMZWBJJ-DYKIIFRCSA-N Testostosterone Chemical compound O=C1CC[C@]2(C)[C@H]3CC[C@](C)([C@H](CC4)O)[C@@H]4[C@@H]3CCC2=C1 MUMGGOZAMZWBJJ-DYKIIFRCSA-N 0.000 description 2
- 108700019146 Transgenes Proteins 0.000 description 2
- 235000016383 Zea mays subsp huehuetenangensis Nutrition 0.000 description 2
- 235000002017 Zea mays subsp mays Nutrition 0.000 description 2
- ZSLZBFCDCINBPY-ZSJPKINUSA-N acetyl-CoA Chemical compound O[C@@H]1[C@H](OP(O)(O)=O)[C@@H](COP(O)(=O)OP(O)(=O)OCC(C)(C)[C@@H](O)C(=O)NCCC(=O)NCCSC(=O)C)O[C@H]1N1C2=NC=NC(N)=C2N=C1 ZSLZBFCDCINBPY-ZSJPKINUSA-N 0.000 description 2
- JIWBIWFOSCKQMA-LTKCOYKYSA-N all-cis-octadeca-6,9,12,15-tetraenoic acid Chemical compound CC\C=C/C\C=C/C\C=C/C\C=C/CCCCC(O)=O JIWBIWFOSCKQMA-LTKCOYKYSA-N 0.000 description 2
- 235000020244 animal milk Nutrition 0.000 description 2
- 230000003110 anti-inflammatory effect Effects 0.000 description 2
- 229940125681 anticonvulsant agent Drugs 0.000 description 2
- 239000001961 anticonvulsive agent Substances 0.000 description 2
- 239000000935 antidepressant agent Substances 0.000 description 2
- 229940005513 antidepressants Drugs 0.000 description 2
- ODKSFYDXXFIFQN-UHFFFAOYSA-N arginine Natural products OC(=O)C(N)CCCNC(N)=N ODKSFYDXXFIFQN-UHFFFAOYSA-N 0.000 description 2
- 230000001651 autotrophic effect Effects 0.000 description 2
- 230000003115 biocidal effect Effects 0.000 description 2
- FAPWYRCQGJNNSJ-UBKPKTQASA-L calcium D-pantothenic acid Chemical compound [Ca+2].OCC(C)(C)[C@@H](O)C(=O)NCCC([O-])=O.OCC(C)(C)[C@@H](O)C(=O)NCCC([O-])=O FAPWYRCQGJNNSJ-UBKPKTQASA-L 0.000 description 2
- 229960002079 calcium pantothenate Drugs 0.000 description 2
- 125000001721 carboxyacetyl group Chemical group 0.000 description 2
- 238000004113 cell culture Methods 0.000 description 2
- 230000032823 cell division Effects 0.000 description 2
- 235000010675 chips/crisps Nutrition 0.000 description 2
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- RGJOEKWQDUBAIZ-UHFFFAOYSA-N coenzime A Natural products OC1C(OP(O)(O)=O)C(COP(O)(=O)OP(O)(=O)OCC(C)(C)C(O)C(=O)NCCC(=O)NCCS)OC1N1C2=NC=NC(N)=C2N=C1 RGJOEKWQDUBAIZ-UHFFFAOYSA-N 0.000 description 2
- 239000005516 coenzyme A Substances 0.000 description 2
- 229940093530 coenzyme a Drugs 0.000 description 2
- 239000002131 composite material Substances 0.000 description 2
- 238000009833 condensation Methods 0.000 description 2
- 230000005494 condensation Effects 0.000 description 2
- 235000009508 confectionery Nutrition 0.000 description 2
- 238000011109 contamination Methods 0.000 description 2
- 244000038559 crop plants Species 0.000 description 2
- 238000012258 culturing Methods 0.000 description 2
- 210000000805 cytoplasm Anatomy 0.000 description 2
- 235000013365 dairy product Nutrition 0.000 description 2
- 230000003412 degenerative effect Effects 0.000 description 2
- 238000006297 dehydration reaction Methods 0.000 description 2
- KDTSHFARGAKYJN-UHFFFAOYSA-N dephosphocoenzyme A Natural products OC1C(O)C(COP(O)(=O)OP(O)(=O)OCC(C)(C)C(O)C(=O)NCCC(=O)NCCS)OC1N1C2=NC=NC(N)=C2N=C1 KDTSHFARGAKYJN-UHFFFAOYSA-N 0.000 description 2
- 238000001212 derivatisation Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- PXEDJBXQKAGXNJ-QTNFYWBSSA-L disodium L-glutamate Chemical compound [Na+].[Na+].[O-]C(=O)[C@@H](N)CCC([O-])=O PXEDJBXQKAGXNJ-QTNFYWBSSA-L 0.000 description 2
- 230000003828 downregulation Effects 0.000 description 2
- 235000013399 edible fruits Nutrition 0.000 description 2
- 238000004520 electroporation Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 239000012149 elution buffer Substances 0.000 description 2
- 210000002472 endoplasmic reticulum Anatomy 0.000 description 2
- 239000003623 enhancer Substances 0.000 description 2
- 230000002255 enzymatic effect Effects 0.000 description 2
- 238000006911 enzymatic reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 210000003495 flagella Anatomy 0.000 description 2
- 235000013305 food Nutrition 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000003209 gene knockout Methods 0.000 description 2
- 235000003869 genetically modified organism Nutrition 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- QXJSBBXBKPUZAA-UHFFFAOYSA-N isooleic acid Natural products CCCCCCCC=CCCCCCCCCC(O)=O QXJSBBXBKPUZAA-UHFFFAOYSA-N 0.000 description 2
- 229940039696 lactobacillus Drugs 0.000 description 2
- 235000020778 linoleic acid Nutrition 0.000 description 2
- OYHQOLUKZRVURQ-IXWMQOLASA-N linoleic acid Natural products CCCCC\C=C/C\C=C\CCCCCCCC(O)=O OYHQOLUKZRVURQ-IXWMQOLASA-N 0.000 description 2
- 238000009630 liquid culture Methods 0.000 description 2
- 208000019423 liver disease Diseases 0.000 description 2
- 238000011068 loading method Methods 0.000 description 2
- 150000004668 long chain fatty acids Chemical class 0.000 description 2
- 210000003712 lysosome Anatomy 0.000 description 2
- 230000001868 lysosomic effect Effects 0.000 description 2
- 235000009973 maize Nutrition 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000001404 mediated effect Effects 0.000 description 2
- 238000002844 melting Methods 0.000 description 2
- 230000008018 melting Effects 0.000 description 2
- 210000003470 mitochondria Anatomy 0.000 description 2
- 230000011278 mitosis Effects 0.000 description 2
- 235000013923 monosodium glutamate Nutrition 0.000 description 2
- 235000021281 monounsaturated fatty acids Nutrition 0.000 description 2
- 208000015122 neurodegenerative disease Diseases 0.000 description 2
- 210000000633 nuclear envelope Anatomy 0.000 description 2
- 235000015097 nutrients Nutrition 0.000 description 2
- 230000035764 nutrition Effects 0.000 description 2
- 235000014571 nuts Nutrition 0.000 description 2
- 235000021313 oleic acid Nutrition 0.000 description 2
- 230000002018 overexpression Effects 0.000 description 2
- 238000012261 overproduction Methods 0.000 description 2
- 239000008188 pellet Substances 0.000 description 2
- 239000000546 pharmaceutical excipient Substances 0.000 description 2
- 230000037452 priming Effects 0.000 description 2
- 210000003705 ribosome Anatomy 0.000 description 2
- 229920006395 saturated elastomer Polymers 0.000 description 2
- 150000004671 saturated fatty acids Chemical class 0.000 description 2
- 230000028327 secretion Effects 0.000 description 2
- 238000002864 sequence alignment Methods 0.000 description 2
- 238000012163 sequencing technique Methods 0.000 description 2
- 238000002741 site-directed mutagenesis Methods 0.000 description 2
- 229940073490 sodium glutamate Drugs 0.000 description 2
- 235000014347 soups Nutrition 0.000 description 2
- 125000006850 spacer group Chemical group 0.000 description 2
- 235000003702 sterols Nutrition 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000009469 supplementation Effects 0.000 description 2
- 230000008685 targeting Effects 0.000 description 2
- 229910021654 trace metal Inorganic materials 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 235000013343 vitamin Nutrition 0.000 description 2
- 239000011782 vitamin Substances 0.000 description 2
- 229940088594 vitamin Drugs 0.000 description 2
- 229930003231 vitamin Natural products 0.000 description 2
- 150000003722 vitamin derivatives Chemical class 0.000 description 2
- UNSRRHDPHVZAHH-YOILPLPUSA-N (5Z,8Z,11Z)-icosatrienoic acid Chemical compound CCCCCCCC\C=C/C\C=C/C\C=C/CCCC(O)=O UNSRRHDPHVZAHH-YOILPLPUSA-N 0.000 description 1
- TWSWSIQAPQLDBP-CGRWFSSPSA-N (7e,10e,13e,16e)-docosa-7,10,13,16-tetraenoic acid Chemical compound CCCCC\C=C\C\C=C\C\C=C\C\C=C\CCCCCC(O)=O TWSWSIQAPQLDBP-CGRWFSSPSA-N 0.000 description 1
- OYHQOLUKZRVURQ-NTGFUMLPSA-N (9Z,12Z)-9,10,12,13-tetratritiooctadeca-9,12-dienoic acid Chemical compound C(CCCCCCC\C(=C(/C\C(=C(/CCCCC)\[3H])\[3H])\[3H])\[3H])(=O)O OYHQOLUKZRVURQ-NTGFUMLPSA-N 0.000 description 1
- ASJSAQIRZKANQN-CRCLSJGQSA-N 2-deoxy-D-ribose Chemical compound OC[C@@H](O)[C@@H](O)CC=O ASJSAQIRZKANQN-CRCLSJGQSA-N 0.000 description 1
- FGLBSLMDCBOPQK-UHFFFAOYSA-N 2-nitropropane Chemical compound CC(C)[N+]([O-])=O FGLBSLMDCBOPQK-UHFFFAOYSA-N 0.000 description 1
- HVCOBJNICQPDBP-UHFFFAOYSA-N 3-[3-[3,5-dihydroxy-6-methyl-4-(3,4,5-trihydroxy-6-methyloxan-2-yl)oxyoxan-2-yl]oxydecanoyloxy]decanoic acid;hydrate Chemical compound O.OC1C(OC(CC(=O)OC(CCCCCCC)CC(O)=O)CCCCCCC)OC(C)C(O)C1OC1C(O)C(O)C(O)C(C)O1 HVCOBJNICQPDBP-UHFFFAOYSA-N 0.000 description 1
- 102000000157 3-oxoacyl-(acyl-carrier-protein) reductase Human genes 0.000 description 1
- 108010055468 3-oxoacyl-(acyl-carrier-protein) reductase Proteins 0.000 description 1
- UNSRRHDPHVZAHH-UHFFFAOYSA-N 6beta,11alpha-Dihydroxy-3alpha,5alpha-cyclopregnan-20-on Natural products CCCCCCCCC=CCC=CCC=CCCCC(O)=O UNSRRHDPHVZAHH-UHFFFAOYSA-N 0.000 description 1
- 210000002925 A-like Anatomy 0.000 description 1
- QTBSBXVTEAMEQO-UHFFFAOYSA-M Acetate Chemical compound CC([O-])=O QTBSBXVTEAMEQO-UHFFFAOYSA-M 0.000 description 1
- QTBSBXVTEAMEQO-UHFFFAOYSA-N Acetic acid Chemical group CC(O)=O QTBSBXVTEAMEQO-UHFFFAOYSA-N 0.000 description 1
- 102100036426 Acid phosphatase type 7 Human genes 0.000 description 1
- 241000589156 Agrobacterium rhizogenes Species 0.000 description 1
- 101000774529 Alkalihalobacillus pseudofirmus (strain ATCC BAA-2126 / JCM 17055 / OF4) Uncharacterized protein BpOF4_21049 Proteins 0.000 description 1
- 241000192542 Anabaena Species 0.000 description 1
- 241000003610 Aplanochytrium Species 0.000 description 1
- 241001489705 Aquarius Species 0.000 description 1
- 241000219195 Arabidopsis thaliana Species 0.000 description 1
- 241000209524 Araceae Species 0.000 description 1
- 235000010777 Arachis hypogaea Nutrition 0.000 description 1
- 241000203069 Archaea Species 0.000 description 1
- 229930091051 Arenine Natural products 0.000 description 1
- DCXYFEDJOCDNAF-UHFFFAOYSA-N Asparagine Natural products OC(=O)C(N)CC(N)=O DCXYFEDJOCDNAF-UHFFFAOYSA-N 0.000 description 1
- 241000228212 Aspergillus Species 0.000 description 1
- 101100242276 Aspergillus oryzae (strain ATCC 42149 / RIB 40) oryC gene Proteins 0.000 description 1
- 208000023275 Autoimmune disease Diseases 0.000 description 1
- 101000780391 Bacillus licheniformis Uncharacterized protein in ansA 5'region Proteins 0.000 description 1
- 101000818144 Bacillus subtilis (strain 168) Uncharacterized oxidoreductase YusZ Proteins 0.000 description 1
- 239000002028 Biomass Substances 0.000 description 1
- 241000283690 Bos taurus Species 0.000 description 1
- 235000006463 Brassica alba Nutrition 0.000 description 1
- 235000003351 Brassica cretica Nutrition 0.000 description 1
- 244000140786 Brassica hirta Species 0.000 description 1
- 235000011292 Brassica rapa Nutrition 0.000 description 1
- 240000008100 Brassica rapa Species 0.000 description 1
- 235000003343 Brassica rupestris Nutrition 0.000 description 1
- 206010006895 Cachexia Diseases 0.000 description 1
- 241000283707 Capra Species 0.000 description 1
- 239000004215 Carbon black (E152) Substances 0.000 description 1
- 235000005940 Centaurea cyanus Nutrition 0.000 description 1
- 240000004385 Centaurea cyanus Species 0.000 description 1
- 241000282994 Cervidae Species 0.000 description 1
- DQFBYFPFKXHELB-UHFFFAOYSA-N Chalcone Natural products C=1C=CC=CC=1C(=O)C=CC1=CC=CC=C1 DQFBYFPFKXHELB-UHFFFAOYSA-N 0.000 description 1
- 101000790711 Chlamydomonas reinhardtii Uncharacterized membrane protein ycf78 Proteins 0.000 description 1
- 241001655287 Chlamydomyxa Species 0.000 description 1
- 102000003813 Cis-trans-isomerases Human genes 0.000 description 1
- 108090000175 Cis-trans-isomerases Proteins 0.000 description 1
- 235000008733 Citrus aurantifolia Nutrition 0.000 description 1
- 235000013162 Cocos nucifera Nutrition 0.000 description 1
- 244000060011 Cocos nucifera Species 0.000 description 1
- 241001633026 Coenocystis Species 0.000 description 1
- 101800004637 Communis Proteins 0.000 description 1
- 235000002787 Coriandrum sativum Nutrition 0.000 description 1
- 244000018436 Coriandrum sativum Species 0.000 description 1
- 229920000742 Cotton Polymers 0.000 description 1
- 235000009854 Cucurbita moschata Nutrition 0.000 description 1
- 101000827225 Dichelobacter nodosus Uncharacterized protein in lpsA 5'region Proteins 0.000 description 1
- 108010028143 Dioxygenases Proteins 0.000 description 1
- 102000016680 Dioxygenases Human genes 0.000 description 1
- 241000989765 Diplophrys Species 0.000 description 1
- 235000021292 Docosatetraenoic acid Nutrition 0.000 description 1
- KCXVZYZYPLLWCC-UHFFFAOYSA-N EDTA Chemical compound OC(=O)CN(CC(O)=O)CCN(CC(O)=O)CC(O)=O KCXVZYZYPLLWCC-UHFFFAOYSA-N 0.000 description 1
- 235000001942 Elaeis Nutrition 0.000 description 1
- 241000512897 Elaeis Species 0.000 description 1
- 101000599641 Escherichia coli (strain K12) Insertion element IS150 protein InsJ Proteins 0.000 description 1
- 101000819098 Escherichia coli Insertion element IS1397 uncharacterized 20.1 kDa protein Proteins 0.000 description 1
- 101000763543 Escherichia coli Uncharacterized endonuclease Proteins 0.000 description 1
- 101000758678 Escherichia phage P1 Uncharacterized 36.0 kDa protein in doc-Gp10 intergenic region Proteins 0.000 description 1
- 208000018522 Gastrointestinal disease Diseases 0.000 description 1
- 229930186217 Glycolipid Natural products 0.000 description 1
- 241000238631 Hexapoda Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 101000928881 Homo sapiens Acid phosphatase type 7 Proteins 0.000 description 1
- 241000003482 Japonochytrium Species 0.000 description 1
- 101150111320 KS gene Proteins 0.000 description 1
- 239000005909 Kieselgur Substances 0.000 description 1
- 241000235649 Kluyveromyces Species 0.000 description 1
- QNAYBMKLOCPYGJ-REOHCLBHSA-N L-alanine Chemical compound C[C@H](N)C(O)=O QNAYBMKLOCPYGJ-REOHCLBHSA-N 0.000 description 1
- ODKSFYDXXFIFQN-BYPYZUCNSA-P L-argininium(2+) Chemical compound NC(=[NH2+])NCCC[C@H]([NH3+])C(O)=O ODKSFYDXXFIFQN-BYPYZUCNSA-P 0.000 description 1
- DCXYFEDJOCDNAF-REOHCLBHSA-N L-asparagine Chemical compound OC(=O)[C@@H](N)CC(N)=O DCXYFEDJOCDNAF-REOHCLBHSA-N 0.000 description 1
- OUYCCCASQSFEME-QMMMGPOBSA-N L-tyrosine Chemical compound OC(=O)[C@@H](N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-QMMMGPOBSA-N 0.000 description 1
- 101000828374 Lactobacillus johnsonii Insertion element IS1223 uncharacterized 20.7 kDa protein Proteins 0.000 description 1
- 244000207740 Lemna minor Species 0.000 description 1
- 235000006439 Lemna minor Nutrition 0.000 description 1
- 101000750781 Listeria monocytogenes serovar 1/2a (strain ATCC BAA-679 / EGD-e) Uncharacterized oxidoreductase Lmo0432 Proteins 0.000 description 1
- 208000019693 Lung disease Diseases 0.000 description 1
- 239000007987 MES buffer Substances 0.000 description 1
- OFOBLEOULBTSOW-UHFFFAOYSA-L Malonate Chemical compound [O-]C(=O)CC([O-])=O OFOBLEOULBTSOW-UHFFFAOYSA-L 0.000 description 1
- 241000396389 Montana montana Species 0.000 description 1
- 241000294598 Moritella marina Species 0.000 description 1
- 101001111653 Mus musculus Retinol dehydrogenase 11 Proteins 0.000 description 1
- 101000861628 Mycoplasma capricolum subsp. capricolum (strain California kid / ATCC 27343 / NCTC 10154) Uncharacterized lipoprotein MCAP_0231 Proteins 0.000 description 1
- 101000707209 Mycoplasma mycoides subsp. mycoides SC Insertion element IS1296 uncharacterized 21.4 kDa protein Proteins 0.000 description 1
- VZUNGTLZRAYYDE-UHFFFAOYSA-N N-methyl-N'-nitro-N-nitrosoguanidine Chemical compound O=NN(C)C(=N)N[N+]([O-])=O VZUNGTLZRAYYDE-UHFFFAOYSA-N 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 241000221960 Neurospora Species 0.000 description 1
- 238000000636 Northern blotting Methods 0.000 description 1
- 241000192656 Nostoc Species 0.000 description 1
- 241000795633 Olea <sea slug> Species 0.000 description 1
- 240000007817 Olea europaea Species 0.000 description 1
- 238000010222 PCR analysis Methods 0.000 description 1
- 229910019142 PO4 Inorganic materials 0.000 description 1
- 235000019482 Palm oil Nutrition 0.000 description 1
- 241001494479 Pecora Species 0.000 description 1
- 241000228143 Penicillium Species 0.000 description 1
- 108090000608 Phosphoric Monoester Hydrolases Proteins 0.000 description 1
- 102000004160 Phosphoric Monoester Hydrolases Human genes 0.000 description 1
- 108091000080 Phosphotransferase Proteins 0.000 description 1
- 235000014676 Phragmites communis Nutrition 0.000 description 1
- 239000004372 Polyvinyl alcohol Substances 0.000 description 1
- 235000001855 Portulaca oleracea Nutrition 0.000 description 1
- ONIBWKKTOPOVIA-UHFFFAOYSA-N Proline Natural products OC(=O)C1CCCN1 ONIBWKKTOPOVIA-UHFFFAOYSA-N 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 101000824284 Rattus norvegicus Acyl-[acyl-carrier-protein] hydrolase Proteins 0.000 description 1
- 108091007187 Reductases Proteins 0.000 description 1
- 101000770286 Rhizobium meliloti Uncharacterized protein ORF8 in nfe locus Proteins 0.000 description 1
- 101000791677 Rhizobium meliloti Uncharacterized protein in ackA 5'region Proteins 0.000 description 1
- 235000003534 Saccharomyces carlsbergensis Nutrition 0.000 description 1
- 241001123227 Saccharomyces pastorianus Species 0.000 description 1
- 241000598397 Schizochytrium sp. Species 0.000 description 1
- 102100029437 Serine/threonine-protein kinase A-Raf Human genes 0.000 description 1
- 241000863430 Shewanella Species 0.000 description 1
- 241000947863 Shewanella olleyana Species 0.000 description 1
- 241000864178 Sorodiplophrys Species 0.000 description 1
- 238000002105 Southern blotting Methods 0.000 description 1
- 241001466451 Stramenopiles Species 0.000 description 1
- 241000193996 Streptococcus pyogenes Species 0.000 description 1
- 101000691656 Streptomyces venezuelae Narbonolide/10-deoxymethynolide synthase PikA1, modules 1 and 2 Proteins 0.000 description 1
- 101000691655 Streptomyces venezuelae Narbonolide/10-deoxymethynolide synthase PikA2, modules 3 and 4 Proteins 0.000 description 1
- 101000691658 Streptomyces venezuelae Narbonolide/10-deoxymethynolide synthase PikA3, module 5 Proteins 0.000 description 1
- 101001125873 Streptomyces venezuelae Narbonolide/10-deoxymethynolide synthase PikA4, module 6 Proteins 0.000 description 1
- 241000282887 Suidae Species 0.000 description 1
- 101710137500 T7 RNA polymerase Proteins 0.000 description 1
- 101000759701 Thermus thermophilus Uncharacterized protein in scsB 5'region Proteins 0.000 description 1
- 102000005488 Thioesterase Human genes 0.000 description 1
- 229910052776 Thorium Inorganic materials 0.000 description 1
- 241000144181 Thraustochytrium aureum Species 0.000 description 1
- 235000011941 Tilia x europaea Nutrition 0.000 description 1
- 235000021307 Triticum Nutrition 0.000 description 1
- 244000098338 Triticum aestivum Species 0.000 description 1
- 101000623306 Trypanosoma brucei brucei Uncharacterized 1.9 kDa protein in aldolase locus Proteins 0.000 description 1
- 241001491678 Ulkenia Species 0.000 description 1
- 108091023045 Untranslated Region Proteins 0.000 description 1
- KZSNJWFQEVHDMF-UHFFFAOYSA-N Valine Natural products CC(C)C(N)C(O)=O KZSNJWFQEVHDMF-UHFFFAOYSA-N 0.000 description 1
- 235000007244 Zea mays Nutrition 0.000 description 1
- 101000679337 Zea mays Putative AC transposase Proteins 0.000 description 1
- KNGQILZSJUUYIK-VIFPVBQESA-N [(2R)-4-hydroxy-3,3-dimethyl-1-oxo-1-[[3-oxo-3-(2-sulfanylethylamino)propyl]amino]butan-2-yl] dihydrogen phosphate Chemical group OCC(C)(C)[C@@H](OP(O)(O)=O)C(=O)NCCC(=O)NCCS KNGQILZSJUUYIK-VIFPVBQESA-N 0.000 description 1
- 230000021736 acetylation Effects 0.000 description 1
- 238000006640 acetylation reaction Methods 0.000 description 1
- JUGOREOARAHOCO-UHFFFAOYSA-M acetylcholine chloride Chemical compound [Cl-].CC(=O)OCC[N+](C)(C)C JUGOREOARAHOCO-UHFFFAOYSA-M 0.000 description 1
- 230000002378 acidificating effect Effects 0.000 description 1
- 150000007513 acids Chemical class 0.000 description 1
- 230000003213 activating effect Effects 0.000 description 1
- 239000013543 active substance Substances 0.000 description 1
- 208000038016 acute inflammation Diseases 0.000 description 1
- 230000006022 acute inflammation Effects 0.000 description 1
- 108700021044 acyl-ACP thioesterase Proteins 0.000 description 1
- 102000045404 acyltransferase activity proteins Human genes 0.000 description 1
- 108700014220 acyltransferase activity proteins Proteins 0.000 description 1
- TWSWSIQAPQLDBP-UHFFFAOYSA-N adrenic acid Natural products CCCCCC=CCC=CCC=CCC=CCCCCCC(O)=O TWSWSIQAPQLDBP-UHFFFAOYSA-N 0.000 description 1
- 239000000556 agonist Substances 0.000 description 1
- 235000004279 alanine Nutrition 0.000 description 1
- 150000001298 alcohols Chemical class 0.000 description 1
- AHANXAKGNAKFSK-PDBXOOCHSA-N all-cis-icosa-11,14,17-trienoic acid Chemical compound CC\C=C/C\C=C/C\C=C/CCCCCCCCCC(O)=O AHANXAKGNAKFSK-PDBXOOCHSA-N 0.000 description 1
- 230000009435 amidation Effects 0.000 description 1
- 238000007112 amidation reaction Methods 0.000 description 1
- 238000003277 amino acid sequence analysis Methods 0.000 description 1
- 229960000723 ampicillin Drugs 0.000 description 1
- AVKUERGKIZMTKX-NJBDSQKTSA-N ampicillin Chemical compound C1([C@@H](N)C(=O)N[C@H]2[C@H]3SC([C@@H](N3C2=O)C(O)=O)(C)C)=CC=CC=C1 AVKUERGKIZMTKX-NJBDSQKTSA-N 0.000 description 1
- 230000003466 anti-cipated effect Effects 0.000 description 1
- 239000002246 antineoplastic agent Substances 0.000 description 1
- 239000012736 aqueous medium Substances 0.000 description 1
- 229960001230 asparagine Drugs 0.000 description 1
- 235000009582 asparagine Nutrition 0.000 description 1
- 229940009098 aspartate Drugs 0.000 description 1
- CKLJMWTZIZZHCS-REOHCLBHSA-L aspartate group Chemical group N[C@@H](CC(=O)[O-])C(=O)[O-] CKLJMWTZIZZHCS-REOHCLBHSA-L 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 235000015173 baked goods and baking mixes Nutrition 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- WHGYBXFWUBPSRW-FOUAGVGXSA-N beta-cyclodextrin Chemical class OC[C@H]([C@H]([C@@H]([C@H]1O)O)O[C@H]2O[C@@H]([C@@H](O[C@H]3O[C@H](CO)[C@H]([C@@H]([C@H]3O)O)O[C@H]3O[C@H](CO)[C@H]([C@@H]([C@H]3O)O)O[C@H]3O[C@H](CO)[C@H]([C@@H]([C@H]3O)O)O[C@H]3O[C@H](CO)[C@H]([C@@H]([C@H]3O)O)O3)[C@H](O)[C@H]2O)CO)O[C@@H]1O[C@H]1[C@H](O)[C@@H](O)[C@@H]3O[C@@H]1CO WHGYBXFWUBPSRW-FOUAGVGXSA-N 0.000 description 1
- 230000008827 biological function Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 229960000074 biopharmaceutical Drugs 0.000 description 1
- 229960002685 biotin Drugs 0.000 description 1
- 235000020958 biotin Nutrition 0.000 description 1
- 239000011616 biotin Substances 0.000 description 1
- QKSKPIVNLNLAAV-UHFFFAOYSA-N bis(2-chloroethyl) sulfide Chemical compound ClCCSCCCl QKSKPIVNLNLAAV-UHFFFAOYSA-N 0.000 description 1
- 239000008280 blood Substances 0.000 description 1
- 210000004369 blood Anatomy 0.000 description 1
- 210000001124 body fluid Anatomy 0.000 description 1
- 239000010839 body fluid Substances 0.000 description 1
- 235000020113 brazil nut Nutrition 0.000 description 1
- 235000008429 bread Nutrition 0.000 description 1
- 235000015496 breakfast cereal Nutrition 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 229940041514 candida albicans extract Drugs 0.000 description 1
- 150000001720 carbohydrates Chemical class 0.000 description 1
- 230000000747 cardiac effect Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000024245 cell differentiation Effects 0.000 description 1
- 210000000170 cell membrane Anatomy 0.000 description 1
- 230000010307 cell transformation Effects 0.000 description 1
- 210000002421 cell wall Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 235000005513 chalcones Nutrition 0.000 description 1
- 230000000973 chemotherapeutic effect Effects 0.000 description 1
- 235000015218 chewing gum Nutrition 0.000 description 1
- 229940112822 chewing gum Drugs 0.000 description 1
- 210000003763 chloroplast Anatomy 0.000 description 1
- 235000019219 chocolate Nutrition 0.000 description 1
- 235000012000 cholesterol Nutrition 0.000 description 1
- 238000004587 chromatography analysis Methods 0.000 description 1
- 230000002759 chromosomal effect Effects 0.000 description 1
- 208000037976 chronic inflammation Diseases 0.000 description 1
- 230000006020 chronic inflammation Effects 0.000 description 1
- 230000004186 co-expression Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000006482 condensation reaction Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 239000002537 cosmetic Substances 0.000 description 1
- 239000006071 cream Substances 0.000 description 1
- 238000002425 crystallisation Methods 0.000 description 1
- 230000008025 crystallization Effects 0.000 description 1
- 238000012136 culture method Methods 0.000 description 1
- 229940127089 cytotoxic agent Drugs 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000018044 dehydration Effects 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 238000011033 desalting Methods 0.000 description 1
- 238000000502 dialysis Methods 0.000 description 1
- 238000010790 dilution Methods 0.000 description 1
- 239000012895 dilution Substances 0.000 description 1
- 206010013023 diphtheria Diseases 0.000 description 1
- 238000004821 distillation Methods 0.000 description 1
- IQLUYYHUNSSHIY-HZUMYPAESA-N eicosatetraenoic acid Chemical compound CCCCCCCCCCC\C=C\C=C\C=C\C=C\C(O)=O IQLUYYHUNSSHIY-HZUMYPAESA-N 0.000 description 1
- PRHHYVQTPBEDFE-UHFFFAOYSA-N eicosatrienoic acid Natural products CCCCCC=CCC=CCCCCC=CCCCC(O)=O PRHHYVQTPBEDFE-UHFFFAOYSA-N 0.000 description 1
- 210000002257 embryonic structure Anatomy 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 125000004050 enoyl group Chemical group 0.000 description 1
- 230000009088 enzymatic function Effects 0.000 description 1
- UKFXDFUAPNAMPJ-UHFFFAOYSA-N ethylmalonic acid Chemical compound CCC(C(O)=O)C(O)=O UKFXDFUAPNAMPJ-UHFFFAOYSA-N 0.000 description 1
- 150000002190 fatty acyls Chemical group 0.000 description 1
- 229940013317 fish oils Drugs 0.000 description 1
- 235000013332 fish product Nutrition 0.000 description 1
- 239000000796 flavoring agent Substances 0.000 description 1
- 235000019634 flavors Nutrition 0.000 description 1
- 235000004426 flaxseed Nutrition 0.000 description 1
- 239000005417 food ingredient Substances 0.000 description 1
- 230000037406 food intake Effects 0.000 description 1
- 235000019867 fractionated palm kernal oil Nutrition 0.000 description 1
- 235000013376 functional food Nutrition 0.000 description 1
- 230000002538 fungal effect Effects 0.000 description 1
- 238000001030 gas--liquid chromatography Methods 0.000 description 1
- 235000011852 gelatine desserts Nutrition 0.000 description 1
- 238000001476 gene delivery Methods 0.000 description 1
- 230000008571 general function Effects 0.000 description 1
- 125000000404 glutamine group Chemical group N[C@@H](CCC(N)=O)C(=O)* 0.000 description 1
- 230000036252 glycation Effects 0.000 description 1
- 230000013595 glycosylation Effects 0.000 description 1
- 238000006206 glycosylation reaction Methods 0.000 description 1
- 229930004094 glycosylphosphatidylinositol Natural products 0.000 description 1
- 235000013882 gravy Nutrition 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 229910001385 heavy metal Inorganic materials 0.000 description 1
- 229940037467 helicobacter pylori Drugs 0.000 description 1
- 125000000623 heterocyclic group Chemical group 0.000 description 1
- 210000001990 heterocyst Anatomy 0.000 description 1
- 239000000833 heterodimer Substances 0.000 description 1
- HNDVDQJCIGZPNO-UHFFFAOYSA-N histidine Natural products OC(=O)C(N)CC1=CN=CN1 HNDVDQJCIGZPNO-UHFFFAOYSA-N 0.000 description 1
- 125000000487 histidyl group Chemical group [H]N([H])C(C(=O)O*)C([H])([H])C1=C([H])N([H])C([H])=N1 0.000 description 1
- 238000002744 homologous recombination Methods 0.000 description 1
- 230000006801 homologous recombination Effects 0.000 description 1
- 235000020256 human milk Nutrition 0.000 description 1
- 210000004251 human milk Anatomy 0.000 description 1
- 229930195733 hydrocarbon Natural products 0.000 description 1
- 150000002430 hydrocarbons Chemical class 0.000 description 1
- 230000033444 hydroxylation Effects 0.000 description 1
- 238000005805 hydroxylation reaction Methods 0.000 description 1
- 238000000099 in vitro assay Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 239000000411 inducer Substances 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 239000004615 ingredient Substances 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 229910052500 inorganic mineral Inorganic materials 0.000 description 1
- 238000005342 ion exchange Methods 0.000 description 1
- 238000002955 isolation Methods 0.000 description 1
- BPHPUYQFMNQIOC-NXRLNHOXSA-N isopropyl beta-D-thiogalactopyranoside Chemical compound CC(C)S[C@@H]1O[C@H](CO)[C@H](O)[C@H](O)[C@H]1O BPHPUYQFMNQIOC-NXRLNHOXSA-N 0.000 description 1
- 235000008960 ketchup Nutrition 0.000 description 1
- 210000003734 kidney Anatomy 0.000 description 1
- 239000004571 lime Substances 0.000 description 1
- 238000001638 lipofection Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 210000004185 liver Anatomy 0.000 description 1
- 208000002780 macular degeneration Diseases 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 235000010746 mayonnaise Nutrition 0.000 description 1
- 239000008268 mayonnaise Substances 0.000 description 1
- 229910052751 metal Inorganic materials 0.000 description 1
- 239000002184 metal Substances 0.000 description 1
- 150000002739 metals Chemical class 0.000 description 1
- ZIYVHBGGAOATLY-UHFFFAOYSA-N methylmalonic acid Chemical group OC(=O)C(C)C(O)=O ZIYVHBGGAOATLY-UHFFFAOYSA-N 0.000 description 1
- 238000000520 microinjection Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 239000011707 mineral Substances 0.000 description 1
- 108091005573 modified proteins Proteins 0.000 description 1
- 102000035118 modified proteins Human genes 0.000 description 1
- 238000003541 multi-stage reaction Methods 0.000 description 1
- 108091005763 multidomain proteins Proteins 0.000 description 1
- 235000010460 mustard Nutrition 0.000 description 1
- 230000000869 mutational effect Effects 0.000 description 1
- 230000007498 myristoylation Effects 0.000 description 1
- 210000001577 neostriatum Anatomy 0.000 description 1
- 230000004770 neurodegeneration Effects 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 108020003068 nitronate monooxygenase Proteins 0.000 description 1
- 210000004940 nucleus Anatomy 0.000 description 1
- 235000021048 nutrient requirements Nutrition 0.000 description 1
- 229940033080 omega-6 fatty acid Drugs 0.000 description 1
- 210000003463 organelle Anatomy 0.000 description 1
- 201000008482 osteoarthritis Diseases 0.000 description 1
- 239000002540 palm oil Substances 0.000 description 1
- 239000013618 particulate matter Substances 0.000 description 1
- 235000015927 pasta Nutrition 0.000 description 1
- 230000001717 pathogenic effect Effects 0.000 description 1
- 235000020232 peanut Nutrition 0.000 description 1
- YIYBQIKDCADOSF-UHFFFAOYSA-N pent-2-enoic acid Chemical compound CCC=CC(O)=O YIYBQIKDCADOSF-UHFFFAOYSA-N 0.000 description 1
- 238000010647 peptide synthesis reaction Methods 0.000 description 1
- 239000010451 perlite Substances 0.000 description 1
- 235000019362 perlite Nutrition 0.000 description 1
- 210000002824 peroxisome Anatomy 0.000 description 1
- 239000010452 phosphate Substances 0.000 description 1
- NBIIXXVUZAFLBC-UHFFFAOYSA-K phosphate Chemical compound [O-]P([O-])([O-])=O NBIIXXVUZAFLBC-UHFFFAOYSA-K 0.000 description 1
- 230000026731 phosphorylation Effects 0.000 description 1
- 238000006366 phosphorylation reaction Methods 0.000 description 1
- 102000020233 phosphotransferase Human genes 0.000 description 1
- 230000008635 plant growth Effects 0.000 description 1
- 239000010773 plant oil Substances 0.000 description 1
- 229930001118 polyketide hybrid Natural products 0.000 description 1
- 125000003308 polyketide hybrid group Chemical group 0.000 description 1
- 108010055896 polyornithine Proteins 0.000 description 1
- 229920002451 polyvinyl alcohol Polymers 0.000 description 1
- 235000013613 poultry product Nutrition 0.000 description 1
- 239000000843 powder Substances 0.000 description 1
- 201000011461 pre-eclampsia Diseases 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 239000002243 precursor Substances 0.000 description 1
- 230000013823 prenylation Effects 0.000 description 1
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 description 1
- 235000014059 processed cheese Nutrition 0.000 description 1
- 235000020991 processed meat Nutrition 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- XTUSEBKMEQERQV-UHFFFAOYSA-N propan-2-ol;hydrate Chemical compound O.CC(C)O XTUSEBKMEQERQV-UHFFFAOYSA-N 0.000 description 1
- 230000004952 protein activity Effects 0.000 description 1
- 238000001243 protein synthesis Methods 0.000 description 1
- 235000011962 puddings Nutrition 0.000 description 1
- 239000012264 purified product Substances 0.000 description 1
- 230000002285 radioactive effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000001172 regenerating effect Effects 0.000 description 1
- 230000008929 regeneration Effects 0.000 description 1
- 238000011069 regeneration method Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 238000002271 resection Methods 0.000 description 1
- 208000037803 restenosis Diseases 0.000 description 1
- 238000001223 reverse osmosis Methods 0.000 description 1
- 235000009566 rice Nutrition 0.000 description 1
- 239000011435 rock Substances 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 235000003441 saturated fatty acids Nutrition 0.000 description 1
- 238000009738 saturating Methods 0.000 description 1
- 235000015067 sauces Nutrition 0.000 description 1
- 201000000980 schizophrenia Diseases 0.000 description 1
- 230000000698 schizophrenic effect Effects 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 230000037432 silent mutation Effects 0.000 description 1
- 229910052708 sodium Inorganic materials 0.000 description 1
- 239000011780 sodium chloride Substances 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000000392 somatic effect Effects 0.000 description 1
- 238000001179 sorption measurement Methods 0.000 description 1
- 235000013599 spices Nutrition 0.000 description 1
- 235000020354 squash Nutrition 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 150000003432 sterols Chemical class 0.000 description 1
- 239000011550 stock solution Substances 0.000 description 1
- 239000006228 supernatant Substances 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 230000008093 supporting effect Effects 0.000 description 1
- 230000002195 synergetic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 229960003604 testosterone Drugs 0.000 description 1
- 108020002982 thioesterase Proteins 0.000 description 1
- 230000006032 tissue transformation Effects 0.000 description 1
- 231100000331 toxic Toxicity 0.000 description 1
- 230000002588 toxic effect Effects 0.000 description 1
- 230000005026 transcription initiation Effects 0.000 description 1
- 230000002103 transcriptional effect Effects 0.000 description 1
- 238000006276 transfer reaction Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
- 125000003203 triacylglycerol group Chemical group 0.000 description 1
- 239000013638 trimer Substances 0.000 description 1
- OUYCCCASQSFEME-UHFFFAOYSA-N tyrosine Natural products OC(=O)C(N)CC1=CC=C(O)C=C1 OUYCCCASQSFEME-UHFFFAOYSA-N 0.000 description 1
- 238000002525 ultrasonication Methods 0.000 description 1
- 241000556533 uncultured marine bacterium Species 0.000 description 1
- 235000014388 unprocessed cheese Nutrition 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 239000004474 valine Substances 0.000 description 1
- 125000002987 valine group Chemical group [H]N([H])C([H])(C(*)=O)C([H])(C([H])([H])[H])C([H])([H])[H] 0.000 description 1
- 239000010455 vermiculite Substances 0.000 description 1
- 229910052902 vermiculite Inorganic materials 0.000 description 1
- 235000019354 vermiculite Nutrition 0.000 description 1
- 108700026220 vif Genes Proteins 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
- 239000001993 wax Substances 0.000 description 1
- 150000003735 xanthophylls Chemical class 0.000 description 1
- 235000008210 xanthophylls Nutrition 0.000 description 1
- 239000012138 yeast extract Substances 0.000 description 1
- 235000013618 yogurt Nutrition 0.000 description 1
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12P—FERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
- C12P7/00—Preparation of oxygen-containing organic compounds
- C12P7/64—Fats; Fatty oils; Ester-type waxes; Higher fatty acids, i.e. having at least seven carbon atoms in an unbroken chain bound to a carboxyl group; Oxidised oils or fats
- C12P7/6409—Fatty acids
- C12P7/6427—Polyunsaturated fatty acids [PUFA], i.e. having two or more double bonds in their backbone
- C12P7/6434—Docosahexenoic acids [DHA]
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61P—SPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
- A61P1/00—Drugs for disorders of the alimentary tract or the digestive system
- A61P1/04—Drugs for disorders of the alimentary tract or the digestive system for ulcers, gastritis or reflux esophagitis, e.g. antacids, inhibitors of acid secretion, mucosal protectants
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61P—SPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
- A61P1/00—Drugs for disorders of the alimentary tract or the digestive system
- A61P1/16—Drugs for disorders of the alimentary tract or the digestive system for liver or gallbladder disorders, e.g. hepatoprotective agents, cholagogues, litholytics
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61P—SPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
- A61P11/00—Drugs for disorders of the respiratory system
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61P—SPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
- A61P15/00—Drugs for genital or sexual disorders; Contraceptives
- A61P15/06—Antiabortive agents; Labour repressants
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61P—SPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
- A61P19/00—Drugs for skeletal disorders
- A61P19/02—Drugs for skeletal disorders for joint disorders, e.g. arthritis, arthrosis
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61P—SPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
- A61P19/00—Drugs for skeletal disorders
- A61P19/08—Drugs for skeletal disorders for bone diseases, e.g. rachitism, Paget's disease
- A61P19/10—Drugs for skeletal disorders for bone diseases, e.g. rachitism, Paget's disease for osteoporosis
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61P—SPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
- A61P25/00—Drugs for disorders of the nervous system
- A61P25/08—Antiepileptics; Anticonvulsants
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61P—SPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
- A61P25/00—Drugs for disorders of the nervous system
- A61P25/24—Antidepressants
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61P—SPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
- A61P25/00—Drugs for disorders of the nervous system
- A61P25/28—Drugs for disorders of the nervous system for treating neurodegenerative disorders of the central nervous system, e.g. nootropic agents, cognition enhancers, drugs for treating Alzheimer's disease or other forms of dementia
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61P—SPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
- A61P29/00—Non-central analgesic, antipyretic or antiinflammatory agents, e.g. antirheumatic agents; Non-steroidal antiinflammatory drugs [NSAID]
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61P—SPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
- A61P3/00—Drugs for disorders of the metabolism
- A61P3/06—Antihyperlipidemics
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61P—SPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
- A61P31/00—Antiinfectives, i.e. antibiotics, antiseptics, chemotherapeutics
- A61P31/04—Antibacterial agents
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61P—SPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
- A61P35/00—Antineoplastic agents
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61P—SPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
- A61P37/00—Drugs for immunological or allergic disorders
- A61P37/02—Immunomodulators
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61P—SPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
- A61P43/00—Drugs for specific purposes, not provided for in groups A61P1/00-A61P41/00
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61P—SPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
- A61P9/00—Drugs for disorders of the cardiovascular system
- A61P9/10—Drugs for disorders of the cardiovascular system for treating ischaemic or atherosclerotic diseases, e.g. antianginal drugs, coronary vasodilators, drugs for myocardial infarction, retinopathy, cerebrovascula insufficiency, renal arteriosclerosis
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
- C12N15/52—Genes encoding for enzymes or proenzymes
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/63—Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
- C12N15/79—Vectors or expression systems specially adapted for eukaryotic hosts
- C12N15/82—Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
- C12N15/8241—Phenotypically and genetically modified plants via recombinant DNA technology
- C12N15/8242—Phenotypically and genetically modified plants via recombinant DNA technology with non-agronomic quality (output) traits, e.g. for industrial processing; Value added, non-agronomic traits
- C12N15/8243—Phenotypically and genetically modified plants via recombinant DNA technology with non-agronomic quality (output) traits, e.g. for industrial processing; Value added, non-agronomic traits involving biosynthetic or metabolic pathways, i.e. metabolic engineering, e.g. nicotine, caffeine
- C12N15/8247—Phenotypically and genetically modified plants via recombinant DNA technology with non-agronomic quality (output) traits, e.g. for industrial processing; Value added, non-agronomic traits involving biosynthetic or metabolic pathways, i.e. metabolic engineering, e.g. nicotine, caffeine involving modified lipid metabolism, e.g. seed oil composition
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/63—Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
- C12N15/79—Vectors or expression systems specially adapted for eukaryotic hosts
- C12N15/82—Vectors or expression systems specially adapted for eukaryotic hosts for plant cells, e.g. plant artificial chromosomes (PACs)
- C12N15/8241—Phenotypically and genetically modified plants via recombinant DNA technology
- C12N15/8261—Phenotypically and genetically modified plants via recombinant DNA technology with agronomic (input) traits, e.g. crop yield
- C12N15/8271—Phenotypically and genetically modified plants via recombinant DNA technology with agronomic (input) traits, e.g. crop yield for stress resistance, e.g. heavy metal resistance
- C12N15/8273—Phenotypically and genetically modified plants via recombinant DNA technology with agronomic (input) traits, e.g. crop yield for stress resistance, e.g. heavy metal resistance for drought, cold, salt resistance
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N9/00—Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
- C12N9/93—Ligases (6)
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12P—FERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
- C12P1/00—Preparation of compounds or compositions, not provided for in groups C12P3/00 - C12P39/00, by using microorganisms or enzymes
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12P—FERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
- C12P7/00—Preparation of oxygen-containing organic compounds
- C12P7/62—Carboxylic acid esters
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12P—FERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
- C12P7/00—Preparation of oxygen-containing organic compounds
- C12P7/62—Carboxylic acid esters
- C12P7/625—Polyesters of hydroxy carboxylic acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12P—FERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
- C12P7/00—Preparation of oxygen-containing organic compounds
- C12P7/64—Fats; Fatty oils; Ester-type waxes; Higher fatty acids, i.e. having at least seven carbon atoms in an unbroken chain bound to a carboxyl group; Oxidised oils or fats
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12P—FERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
- C12P7/00—Preparation of oxygen-containing organic compounds
- C12P7/64—Fats; Fatty oils; Ester-type waxes; Higher fatty acids, i.e. having at least seven carbon atoms in an unbroken chain bound to a carboxyl group; Oxidised oils or fats
- C12P7/6409—Fatty acids
- C12P7/6427—Polyunsaturated fatty acids [PUFA], i.e. having two or more double bonds in their backbone
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12P—FERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
- C12P7/00—Preparation of oxygen-containing organic compounds
- C12P7/64—Fats; Fatty oils; Ester-type waxes; Higher fatty acids, i.e. having at least seven carbon atoms in an unbroken chain bound to a carboxyl group; Oxidised oils or fats
- C12P7/6436—Fatty acid esters
- C12P7/6445—Glycerides
- C12P7/6472—Glycerides containing polyunsaturated fatty acid [PUFA] residues, i.e. having two or more double bonds in their backbone
Landscapes
- Health & Medical Sciences (AREA)
- Chemical & Material Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Organic Chemistry (AREA)
- Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Wood Science & Technology (AREA)
- Zoology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- General Engineering & Computer Science (AREA)
- General Chemical & Material Sciences (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Microbiology (AREA)
- Biochemistry (AREA)
- Biomedical Technology (AREA)
- Medicinal Chemistry (AREA)
- Molecular Biology (AREA)
- Animal Behavior & Ethology (AREA)
- Public Health (AREA)
- Veterinary Medicine (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Pharmacology & Pharmacy (AREA)
- Oil, Petroleum & Natural Gas (AREA)
- Biophysics (AREA)
- Physics & Mathematics (AREA)
- Plant Pathology (AREA)
- Cell Biology (AREA)
- Neurology (AREA)
- Physical Education & Sports Medicine (AREA)
- Rheumatology (AREA)
- Neurosurgery (AREA)
- Immunology (AREA)
- Orthopedic Medicine & Surgery (AREA)
- Pain & Pain Management (AREA)
- Nutrition Science (AREA)
- Psychiatry (AREA)
- Vascular Medicine (AREA)
- Gynecology & Obstetrics (AREA)
Abstract
스키조키트리움 및 트라우스토키트리움으로부터 유래된 다중불포화 지방산 (PUFA) 폴리케타이드 신테이즈 (PKS) 단백질 및 시스템을 포함하는, 키메라 PUFA PKS 단백질 및 키메라 PUFA PKS 시스템이 개시된다. 이러한 키메라 PUFA PKS 단백질 및 시스템을 코딩하는 핵산 및 단백질, 이러한 키메라 PUFA PKS 단백질 및 시스템을 포함하는 유전자 변형 생물, 및 이러한 키메라 PUFA PKS 단백질 및 시스템의 제조 및 사용 방법이 개시된다.
다중불포화 지방산 (PUFA), 폴리케타이드 신테이즈 (PKS), PUFA PKS 경로, 스키조키트리움, 트라우스토키트리움, 키메라 PUFA PKS
Description
관련 출원
각각의 하기의 특허 출원이 전체적으로 거명에 의해 본원에 포함된다. 미국 특허 출원 번호 11/689,438 (2007년 3월 21일 출원); 미국 특허 출원 번호 10/965,017 (2004년 10월 13일 출원, 현재 미국 특허 번호 7,217,856); 미국 특허 출원 번호 10/810,352 (2004년 3월 26일 출원, 현재 미국 특허 번호 7,211,418); 미국 가출원 일련 번호 60/457,979 (2003년 3월 26일 출원); 미국 특허 출원 일련 번호 10/124,800 (2002년 4월 16일 출원); 미국 가출원 일련 번호 60/284,066 (2001년 4월 16일 출원); 미국 가출원 일련 번호 60/298,796 (2001년 6월 15일 출원); 미국 가출원 일련 번호 60/323,269 (2001년 9월 18일 출원); 미국 출원 일련 번호 09/231,899 (1999년 1월 14일 출원, 현재 미국 특허 번호 6,566,583); 미국 출원 번호 11/668,333 (2007년 1월 29일 출원); 미국 특허 출원 번호 11/452,096 (2006년 6월 12일 출원); 미국 가출원 번호 60/784,616 (2006년 3월 21일 출원); 미국 가출원 번호 60/689,167 (2005년 6월 10일 출원); 미국 특허 출원 번호 11/452,138 (2006년 6월 12일 출원); 미국 가출원 번호 60/784,616 (2006년 3월 21일 출원); 미국 가출원 번호 60/689,167 (2005년 6월 10일 출원); 미국 출원 일련 번호 09/090,793 (1998년 6월 4일 출원, 현재 미국 특허 번호 6,140,486).
본 발명은 키메라 다중불포화 지방산 (PUFA) 폴리케타이드 신테이즈(synthase) (PKS) 시스템, 특히 스키조키트리움(Schizochytrium) 및 트라우스토키트리움(Thraustochytrium)으로부터의 키메라 PUFA PKS 시스템에 관한 것이다. 더욱 특히, 본 발명은 이러한 PUFA PKS 시스템을 코딩하는 핵산, 이러한 PUFA PKS 시스템, 이러한 PUFA PKS 시스템을 포함하는 유전자 변형 생물, 및 본원에 개시된 이러한 PUFA PKS 시스템의 제조 및 사용 방법에 관한 것이다.
폴리케타이드 신테이즈 (PKS) 시스템은 지방산 신테이즈 (FAS) 시스템에 관련되지만, 전형적으로 지방산에 대한 유사성을 거의 나타내지 않는 특수화된 생성물을 생산하도록 종종 고도로 변형되는 효소 복합체로서 당업계에 일반적으로 공지되어 있다. 그러나, 아세틸-CoA 및 말로닐-CoA로부터 다중불포화 지방산 (PUFA)을 합성할 수 있는 PKS-유사 시스템 (본원에서 상호교환가능하게 PUFA PKS 시스템, PUFA 신테이즈 시스템, 또는 PUFA 생산용 PKS 시스템으로 또한 지칭됨)이 해양 박테리아 및 특정 진핵 생물에 존재하는 것으로 나타났다. 쉐와넬라(Shewanella) 및 또다른 해양 박테리아인 비브리오 마리누스(Vibrio marinus)에서의 PUFA 합성을 위한 PUFA PKS 경로가 미국 특허 번호 6,140,486에 상세하게 기술되어 있다. 진핵생물 트라우스토키트리드(Thraustochytrid)인 스키조키트리움에서의 PUFA 합성을 위한 PUFA PKS 경로가 미국 특허 번호 6,566,583에 상세하게 기술되어 있다. 진핵생물 예컨대 트라우스토키트리알레스(Thraustochytriales)의 구성원에서의 PUFA 합성 을 위한 PUFA PKS 경로가, 스키조키트리움에서의 PUFA PKS 시스템의 추가적인 기술 및 트라우스토키트리움에서의 PUFA PKS 시스템의 확인 (이러한 시스템들의 사용에 관한 상세사항 포함)을 포함하여, 미국 특허 출원 공개 번호 20020194641 (2002년 12월 19일 공개), 및 미국 특허 출원 공개 번호 20070089199 (2007년 4월 19일 공개)에 기술되어 있다. 미국 특허 출원 공개 번호 20040235127 (2004년 11월 25일 공개)에는 트라우스토키트리움에서의 PUFA PKS 시스템의 상세한 구조적 설명, 및 이러한 시스템을 사용하는 에이코사펜타엔산 (C20:5, ω-3) (EPA) 및 기타 PUFA의 생산에 관한 추가적인 상세사항이 개시되어 있다. 미국 특허 출원 공개 번호 20050100995 (2005년 5월 12일 공개)에는 쉐와넬라 올레야나(Shewanella olleyana) 및 쉐와넬라 자포니카(Shewanella japonica)에서의 PUFA PKS 시스템의 구조적 및 기능적 설명, 및 이러한 시스템의 용도가 개시되어 있다. 이러한 출원들에는 PUFA PKS 경로를 이루는 유전자들로의 미생물 및 식물이 포함되는 생물의 유전자 변형, 및 이러한 생물에 의한 PUFA의 생산이 또한 개시되어 있다. 또한, PCT 특허 공개 번호 WO 05/097982에는 울케니아(Ulkenia)에서의 PUFA PKS 시스템이 기술되어 있고, 미국 특허 출원 공개 번호 20050014231에는 트라우스토키트리움 아우레움(Thraustochytrium aureum)으로부터의 PUFA PKS 유전자 및 단백질이 기술되어 있다. 상기에서 확인된 출원들 각각은 전체적으로 거명에 의해 본원에 포함된다.
연구원들은 제I형 (모듈형(modular) 또는 반복형(iterative)), 제II형 및 제III형으로 전형적으로 지칭되는 3가지 기본 유형 중 하나에 속하는 것으로 전통적으로 문헌에 기술된 폴리케타이드 신테이즈 (PKS) 시스템을 활용하려고 시도하였 다. 명확하게 하기 위해, 제I형 모듈형 PKS 시스템은 기존에 간단히 "모듈형" PKS 시스템으로 또한 지칭되었고, 제I형 반복형 PKS 시스템은 기존에 간단히 "제I형" PKS 시스템으로 또한 지칭되었음을 유념한다. 제II형 시스템은 분리가능한 단백질들을 특징으로 하고, 이들 각각은 별개의 효소 반응을 수행한다. 효소들이 협력하여 작용하여 최종 생성물이 생산되고, 전형적으로 시스템의 각각의 개별적인 효소는 최종 생성물의 생산에 여러번 참여한다. 이러한 유형의 시스템은 식물 및 박테리아에서 발견되는 지방산 신테이즈 (FAS) 시스템과 유사한 방식으로 작동한다. 제I형 반복형 PKS 시스템은 효소들이 반복형 방식으로 사용되어 최종 생성물이 생산된다는 점에서 제II형 시스템과 유사하다. 제I형 반복형은 효소 활성들이, 분리가능한 단백질들과 관련되는 대신에, 더 큰 단백질의 도메인으로서 발생한다는 점에서 제II형과 상이하다. 이러한 시스템은 동물 및 진균에서 발견되는 제I형 FAS 시스템과 유사하다.
제II형 시스템과 달리, 제I형 모듈형 PKS 시스템에서는, 각각의 효소 도메인이 최종 생성물의 생산에서 한번만 사용된다. 이러한 도메인들이 매우 큰 단백질 내에서 발견되고, 각각의 반응의 생성물이 PKS 단백질 내의 또다른 도메인으로 전달된다. 추가적으로, 상기 기술된 PKS 시스템에서, 탄소-탄소 이중 결합이 최종 생성물 내로 혼입되는 경우, 이는 일반적으로 트랜스(trans) 배열이다.
제III형 시스템은 더욱 최근에 발견되었고, 식물 칼콘(chalcone) 신테이즈 패밀리의 축합 효소에 속한다. 제III형 PKS는 제I형 및 제II형 PKS 시스템과 다르고, 유리 아실-CoA 기질이 반복형 축합 반응에서 사용되어 헤테로고리형 최종 생성 물이 일반적으로 생산된다.
다중불포화 지방산 (PUFA)은 영양, 제약, 산업 및 기타 목적에 유용한 것으로 간주된다. 천연 공급원 및 화학적 합성으로부터의 현재의 PUFA 공급은 상업적인 요구에 충분하지 않다. 현재의 주요 PUFA 공급원은 해양 어류이지만, 어류 스톡(stock)이 감소하고 있고, 이는 지속가능한 자원이 아닐 수 있다. 추가적으로, 중금속 및 독성 유기 분자 양쪽으로부터의 오염이 해양 어류로부터 유래된 오일과의 심각한 문제이다. 오일 종자 작물로부터 유래된 식물성 오일은 비교적 저렴하고, 어류 오일과 관련된 오염 문제가 없다. 그러나, 상업적으로 개발된 식물 오일에서 발견되는 PUFA는 전형적으로 리놀레산 (18개의 탄소와 델타 9 및 12 위치에서의 2개의 이중 결합 - 18:2 델타 9,12) 및 리놀렌산 (18:3 델타 9,12,15)에 한정된다. 통상적인 PUFA 합성 경로 (즉, "표준" 경로 또는 "전통" 경로)에서, 중쇄(中鎖) 길이의 포화 지방산 (지방산 신테이즈 (FAS) 시스템의 생성물)이 일련의 신장 및 탈포화 반응에 의해 변형된다. 신장 반응의 기질은 지방 아실-CoA (신장될 지방산 사슬) 및 말로닐-CoA (각각의 신장 반응 동안 부가되는 2개의 탄소의 공급원)이다. 일롱게이즈(elongase) 반응의 생성물은 선형 사슬 내에 2개의 추가적인 탄소가 있는 지방 아실-CoA이다. 디세츄레이즈(desaturase)는 산소-의존적 반응에서 2개의 수소를 추출함으로써 기존의 지방산 사슬 내에 시스(cis) 이중 결합을 생성시킨다. 디새츄레이즈의 기질은 인지질 (예를 들어 포스파티딜콜린)의 글리세롤 골격으로 에스테르화되는 지방산 또는 아실-CoA (일부 동물의 경우)이다.
따라서, 다수의 별도의 디새츄레이즈 및 일롱게이즈 효소들이 더욱 불포화되 고 더 긴 사슬의 PUFA를 생산하기 위한 리놀레산 및 리놀렌산으로부터의 지방산 합성에 필요하기 때문에, PUFA 예컨대 EPA 및 도코사헥사엔산 (DHA)의 발현을 위해 식물 숙주 세포를 조작하는 것은 합성을 달성하기 위해 여러 별도의 효소들의 발현을 요구할 수 있다. 추가적으로, 사용가능한 양의 이러한 PUFA의 생산을 위해, 추가적인 조작 노력이 요구될 수 있다. 따라서, PUFA를 천연적으로 생산하는 종으로부터 PUFA 생합성에 수반되는 유전자 물질을 수득하고 (예를 들어, PUFA PKS 시스템으로부터), 단리된 물질을 상업적인 양의 PUFA의 생산을 허용하도록 조작될 수 있는 이종성 시스템에서 단독으로 또는 조합하여 발현시키는 것이 흥미롭다.
내인성으로 생산된 지방산의 변형에 의해 오일-종자 작물 식물에서 PUFA를 생산하기 위한 많은 노력이 있었다. 이러한 식물들을 지방산 일롱게이즈 및 디새츄레이즈에 대한 다양한 개별적인 유전자로 유전자 변형시킴으로써 측정가능한 수준의 PUFA 예컨대 EPA를 함유하지만 사슬이 더 짧고 덜 불포화된 혼합된 PUFA를 현저한 수준으로 또한 함유하는 잎 또는 종자가 생산되었다 ([Qi et al., Nature Biotech. 22:739 (2004)]; PCT 공개 번호 WO 04/071467; [Abbadi et al., Plant Cell 16:1 (2004)); [Napier and Sayanova, Proceedings of the Nutrition Society (2005), 64:387-393]; [Robert et al., Functional Plant Biology (2005) 32:473-479]; 또는 미국 특허 출원 공개 2004/0172682).
PUFA의 미생물 및 식물 생산에서의 개선은 고도로 요망되는 상업적 목표이다. 따라서, 특히 상업적으로 유용한 생물 예컨대 미생물 및 오일-종자 식물에서, 원하는 PUFA가 강화된 다량의 지질 (예를 들어, 트리아실글리세롤 (TAG) 및 인지질 (PL))을 효율적으로, 그리고 효과적으로 생산하는 방법이 당업계에서 여전히 요구된다.
발명의 개요
본 발명의 한 실시양태는 제1 PUFA PKS 시스템과 비교하여 상이한 비율의 오메가-3 대 오메가-6 PUFA를 생산하는 키메라 PUFA PKS 시스템이 생산되도록, 제1 PUFA PKS 시스템으로부터의 FabA-유사 β-히드록시아실-ACP 디하이드레이즈(dehydrase) (DH) 도메인이 상이한 제2 PUFA PKS 시스템으로부터의 DH 도메인으로 교체된 키메라 PUFA PKS 시스템에 관한 것이다. 한 양상에서, 제1 PUFA PKS 시스템으로부터의 DH 도메인을 포함하는 단백질이 제2 PUFA PKS 시스템으로부터의 DH 도메인을 포함하는 상동성 단백질로 교체된다. 한 양상에서, 제1 또는 제2 PUFA PKS 시스템으로부터의 DH 도메인은 스키조키트리움 또는 트라우스토키트리움으로부터의 DH2 도메인에 상응한다. 한 양상에서, 제1 PUFA PKS 시스템은 스키조키트리움 PUFA PKS 시스템이고, 제2 PUFA PKS 시스템은 트라우스토키트리움 PUFA PKS 시스템이다. 한 양상에서, 제1 PUFA PKS 시스템은 스키조키트리움 PUFA PKS 시스템이고, 스키조키트리움 PUFA PKS 시스템으로부터의 OrfC가 상이한 트라우스토키트리드로부터의 OrfC로 교체된다.
이러한 실시양태의 한 양상에서, 제1 PUFA PKS 시스템은 스키조키트리움 PUFA PKS 시스템이고, 스키조키트리움 PUFA PKS 시스템으로부터의 OrfC가 트라우스토키트리움 23B로부터의 OrfC로 교체된다. 한 양상에서, 이러한 트라우스토키트리움 23B로부터의 OrfC는 스키조키트리움 코돈 사용빈도에 대해 최적화된 핵산 서열 에 의해 코딩된다. 예시적인 핵산 서열은 서열 70을 포함한다. 추가적인 양상에서, 스키조키트리움 PUFA PKS 시스템으로부터의 OrfA가 트라우스토키트리움 23B로부터의 OrfA로 교체된다. 한 양상에서, 이러한 트라우스토키트리움 23B로부터의 OrfA는 스키조키트리움 코돈 사용빈도에 대해 최적화된 핵산 서열에 의해 코딩된다. 예시적인 핵산 서열은 서열 71을 포함한다. 또다른 추가적인 양상에서, 스키조키트리움 PUFA PKS 시스템으로부터의 OrfB가 트라우스토키트리움 23B로부터의 OrfB로 교체된다. 한 양상에서, 이러한 트라우스토키트리움 23B로부터의 OrfB는 스키조키트리움 코돈 사용빈도에 대해 최적화된 핵산 서열에 의해 코딩된다. 예시적인 핵산 서열은 서열 72를 포함한다. OrfA, OrfB 및 OrfC의 또다른 조합이 본 명세서를 기초로 당업자에게 명백할 것이다.
이러한 실시양태의 또다른 양상에서, 제1 PUFA PKS 시스템은 스키조키트리움 PUFA PKS 시스템이고, 스키조키트리움 PUFA PKS 시스템으로부터의 OrfC의 DH2 도메인이 트라우스토키트리움 23B로부터의 DH2 도메인으로 교체된다. 한 양상에서, 트라우스토키트리움 23B로부터의 DH2 도메인을 포함하는 예시적인 핵산 서열은 서열 73을 포함한다. 한 양상에서, 트라우스토키트리움 23B로부터의 DH2 도메인은 스키조키트리움 코돈 사용빈도에 대해 최적화된 핵산 서열에 의해 코딩된다. 트라우스토키트리움 23B로부터의 DH2 도메인을 포함하는 이러한 핵산 서열이 서열 75를 포함하는 핵산 서열에 의해 예시된다.
이러한 실시양태의 또다른 양상에서, 키메라 PUFA PKS 시스템은 서열 74에 대해 95% 이상 동일한 아미노산 서열을 포함하는 단백질을 포함한다. 한 양상에 서, 키메라 PUFA PKS 시스템은 서열 74의 아미노산 서열을 포함하는 단백질을 포함한다. 한 양상에서, 키메라 PUFA PKS 시스템은 서열 2, 서열 4 및 서열 74를 포함한다. 또다른 양상에서, 키메라 PUFA PKS 시스템은 서열 39, 서열 4 및 서열 62를 포함한다. 또다른 양상에서, 키메라 PUFA PKS 시스템은 서열 39, 서열 4 및 서열 74를 포함한다. 또다른 양상에서, 키메라 PUFA PKS 시스템은 서열 1, 서열 3 및 서열 70을 포함하는 핵산 분자에 의해 코딩된다. 또다른 양상에서, 키메라 PUFA PKS 시스템은 서열 1, 서열 3 및 서열 73을 포함하는 핵산 분자에 의해 코딩된다. 또다른 양상에서, 키메라 PUFA PKS 시스템은 서열 1, 서열 3 및 서열 75를 포함하는 핵산 분자에 의해 코딩된다. 또다른 양상에서, 키메라 PUFA PKS 시스템은 서열 71, 서열 3 및 서열 70을 포함하는 핵산 분자에 의해 코딩된다.
본 발명의 또다른 실시양태는 임의의 상기 기술된 키메라 PUFA PKS 시스템을 생물에서 발현시키는 것을 포함하는, 제1 PUFA PKS 시스템에 의해 생산되는 다중불포화 지방산 (PUFA)의 오메가-3 대 오메가-6 비율을 변경시키는 방법에 관한 것이다. 한 양상에서, 키메라 PUFA PKS 시스템은 미생물에 의해 발현된다. 한 양상에서, 미생물은 스키조키트리움이다. 또다른 양상에서, 미생물은 효모이다. 한 양상에서, 키메라 PUFA PKS 시스템은 식물에 의해 발현된다.
본 발명의 또다른 실시양태는 임의의 상기 기술된 키메라 PUFA PKS 시스템을 포함하는, 유전자 변형된 미생물 또는 식물 또는 식물의 일부분에 관한 것이다.
본 발명의 또다른 실시양태는 PUFA의 생산을 증가시키고 제1 PUFA PKS 시스템에 의해 생산되는 다중불포화 지방산 (PUFA)의 오메가-3 대 오메가-6 비율을 변 경시키는 방법에 관한 것이다. 이 방법은 제1 PUFA PKS 시스템과 비교하여 상이한 비율의 오메가-3 대 오메가-6 PUFA를 생산하는 키메라 PUFA PKS 시스템이 생산되도록 제1 PUFA PKS 시스템으로부터의 FabA-유사 β-히드록시아실-ACP 디하이드레이즈 (DH) 도메인이 상이한 제2 PUFA PKS 시스템으로부터의 DH 도메인으로 교체된 키메라 PUFA PKS 시스템을 생물에서 발현시키는 것을 포함한다. 제2 PUFA PKS 시스템으로부터의 DH 도메인은 제1 PUFA PKS 시스템이 유래되는 생물의 코돈 사용빈도에 대해 최적화된다.
본 발명의 또다른 실시양태는 서열 74에 대해 95% 이상 동일한 키메라 OrfC 단백질을 코딩하는 단리된 핵산 분자에 관한 것이다. 한 양상에서, 단리된 핵산 분자는 서열 73에 대해 95% 이상 동일한 핵산 서열을 포함한다. 한 양상에서, 핵산 서열은 핵산 분자가 발현될 생물의 코돈 사용빈도에 대해 최적화된다. 예를 들어, 핵산 서열이 키메라 단백질의 일부분이 유래된 생물의 코돈 사용빈도에 대해 최적화될 수 있다. 한 실시양태에서, 핵산 서열은 서열 75에 대해 95% 이상 동일하다.
본 발명의 또다른 실시양태는 임의의 상기 기술된 핵산 분자를 포함하는 재조합 핵산 분자에 관한 것이다.
본 발명의 또다른 실시양태는 임의의 상기 기술된 핵산 분자로 형질감염된 재조합 숙주 세포에 관한 것이다. 한 양상에서, 세포는 미생물이다. 한 양상에서, 미생물은 스키조키트리움이다. 한 양상에서, 미생물은 박테리아이다. 한 양상에서, 미생물은 효모이다. 한 양상에서, 세포는 식물 세포이다.
본 발명의 또다른 실시양태는 임의의 상기 기술된 재조합 숙주 세포를 포함하는, 유전자 변형된 식물 또는 이의 일부분에 관한 것이다.
본 발명의 또다른 실시양태는 (a) 1개 이상의 에노일-ACP 리덕테이즈(reductase) (ER) 도메인; (b) 4개 이상의 ACP 도메인; (c) 2개 이상의 β-케토아실-ACP 신테이즈 (KS) 도메인; (d) 1개 이상의 아실트랜스퍼레이즈(acyltransferase) (AT) 도메인; (e) 1개 이상의 β-케토아실-ACP 리덕테이즈 (KR) 도메인; (f) 2개 이상의 FabA-유사 β-히드록시아실-ACP 디하이드레이즈 (DH) 도메인; (g) 1개 이상의 사슬 길이 인자 (CLF) 도메인; 및 (h) 1개 이상의 말로닐-CoA:ACP 아실트랜스퍼레이즈 (MAT) 도메인을 포함하는 키메라 PUFA PKS 시스템에 관한 것이다. DH 도메인들 중 하나 이상은 제1 PUFA PKS 시스템으로부터의 것이고, 나머지 도메인 (a)-(h)는 상이한 제2 PUFA PKS 시스템으로부터의 것이다.
본 발명의 또다른 실시양태는 PUFA PKS 시스템을 발현하는 생물에 의한 PUFA 생산을 증가시키는 방법에 관한 것이다. 이 방법은 PUFA PKS 시스템 내의 하나 이상의 단백질을 코딩하는 핵산 분자를 생물 또는 관련된 생물의 최적화된 코돈 사용빈도에 대해 변형시키는 것을 포함한다. 한 양상에서, 생물은 이종성 재조합 PUFA PKS 시스템을 발현한다. 한 양상에서, 생물은 스키조키트리움이고, 내인성 PUFA PKS 시스템 내의 하나 이상의 단백질을 코딩하는 핵산 분자는 스키조키트리움 코돈 사용빈도에 대해 최적화된다.
도 1은 스키조키트리움 PUFA PKS 시스템의 도메인 구조의 그래프식 설명이 다.
도 2a는 트라우스토키트리움 23B로부터의 OrfC를 코딩하는, 스키조키트리움 코돈에 대해 최적화된 합성 핵산 서열을 함유하는 플라스미드 (pThOrfC synPS)의 구축의 단계 1, 뿐만 아니라 프로세스에 의해 생산되는 중간체 플라스미드를 나타내는 개략도이다.
도 2b는 트라우스토키트리움 23B로부터의 OrfC를 코딩하는, 스키조키트리움 코돈에 대해 최적화된 합성 핵산 서열을 함유하는 플라스미드 (pThOrfC synPS)의 구축의 단계 2, 뿐만 아니라 프로세스에 의해 생산되는 중간체 플라스미드를 나타내는 개략도이다.
도 3a는 트라우스토키트리움 23B로부터의 천연 DH2 도메인을 포함하는 스키조키트리움 OrfC를 코딩하는 플라스미드 (pDS49)의 구축의 단계 1-6, 뿐만 아니라 프로세스에 의해 생산되는 중간체 플라스미드를 나타내는 개략도이다.
도 3b는 트라우스토키트리움 23B로부터의 천연 DH2 도메인을 포함하는 스키조키트리움 OrfC를 코딩하는 플라스미드 (pDS49)의 구축의 단계 7, 뿐만 아니라 프로세스에 의해 생산되는 중간체 플라스미드를 나타내는 개략도이다.
도 3c는 트라우스토키트리움 23B로부터의 천연 DH2 도메인을 포함하는 스키조키트리움 OrfC를 코딩하는 플라스미드 (pDS49)의 구축의 단계 8-9, 뿐만 아니라 프로세스에 의해 생산되는 중간체 플라스미드를 나타내는 개략도이다.
도 4a는 트라우스토키트리움 23B로부터의 스키조키트리움 코돈에 대해 최적화된 합성 DH2 도메인을 포함하는 스키조키트리움 OrfC를 코딩하는 플라스미드 (pDD24)의 구축에서의 제1 단계로서의 플라스미드 DD21의 구축, 뿐만 아니라 프로세스에 의해 생산되는 중간체 플라스미드를 나타내는 개략도이다.
도 4b는 트라우스토키트리움 23B로부터의 스키조키트리움 코돈에 대해 최적화된 합성 DH2 도메인을 포함하는 스키조키트리움 OrfC를 코딩하는 플라스미드 (pDD24)의 구축에서의 제2 단계로서의 플라스미드 DD22의 구축, 뿐만 아니라 프로세스에 의해 생산되는 중간체 플라스미드를 나타내는 개략도이다.
도 4c는 트라우스토키트리움 23B로부터의 스키조키트리움 코돈에 대해 최적화된 합성 DH2 도메인을 포함하는 스키조키트리움 OrfC를 코딩하는 플라스미드 (pDD24)의 구축에서의 최종 단계로서의 플라스미드 DD24의 구축, 뿐만 아니라 프로세스에 의해 생산되는 중간체 플라스미드를 나타내는 개략도이다.
도 5는 대조군 효모 및 스키조키트리움 OrfsA, OrfsB, OrfC 및 Het I을 발현하는 효모의 FAME 프로파일이다.
도 6은 표적 PUFA의 생산을 도해하기 위해 확대된, 도 5로부터의 효모의 FAME 프로파일이다.
일반적으로 본 발명은 트라우스토키트리드 (예를 들어, 스키조키트리움 및 트라우스토키트리움), 라비린툴리드(labyrinthulid), 해양 박테리아, 및 기타 다중불포화 지방산 (PUFA) 폴리케타이드 신테이즈 (PKS)-함유 생물로부터의 PUFA PKS 시스템이 포함되는 PUFA PKS 시스템 (PUFA 신테이즈 시스템으로 또한 공지됨), 및 이로부터 생산된 키메라 PUFA PKS 단백질 및 시스템에 관한 것이다. 본 발명은 이러한 PUFA PKS 시스템을 포함하는 유전자 변형 생물, 및 생체활성 분자가 포함되는 관심 생성물의 생산을 위한 이러한 시스템의 제조 및 사용 방법에 관한 것이다. 한 바람직한 실시양태에서, 본 발명은 본 발명의 PUFA PKS 시스템을 발현하도록 유전자 변형된 미생물 또는 오일-종자 식물 또는 식물의 일부분에서 PUFA를 생산하는 방법에 관한 것이다. 미생물 또는 식물에 의해 생산된 오일은 PUFA PKS 시스템에 의해 생산된 하나 이상의 PUFA를 함유하고, 식물의 경우에는, FAS 시스템의 생성물의 변형에 의해 생산된 지방산 생성물인, 사슬이 더 짧고 덜 불포화된 PUFA가 실질적으로 혼합되어 있지 않다. 본 발명은 PUFA PKS 시스템에 의해 생산된 PUFA의 양 및 PUFA의 비율, 및 본 발명의 한 양상의 경우에는 오메가-3 대 오메가-6 PUFA의 비율 또는 하나의 PUFA 대 또다른 PUFA(들)의 비율 (예를 들어, DHA 대 EPA의 비율)을 변형시키는 방법을 구체적으로 포함하고, 이는 본원에 상세하게 예시 및 기술된 바와 같이 임의의 PUFA PKS 구축물 및/또는 유전자 변형 생물의 생성 및 사용에 적용될 수 있다.
첫번째로, 본 발명가들은 한가지를 초과하는 PUFA가 생산되는 경우 PUFA PKS 시스템에 의해 생산되는 PUFA들의 비율을 변형시키는데 필요충분한 PUFA PKS 시스템의 도메인을 본원에서 기술하고, 이러한 발견을 사용하는 신규 키메라 구축물, 신규 키메라 PUFA PKS 시스템, 신규 생물, 및 변형된 양의 PUFA들을 생산하는 신규 방법을 제공한다. 두번째로, 본 발명가들은 생물에 의한 PUFA 생산을 증가시키기 위해 이종성 숙주 (또는 내인성 숙주)에서 PUFA PKS 발현을 최적화하기 위한 방법, 변형, 및 다양한 키메라 PUFA PKS 시스템 및 구축물을 본원에서 기술한다. 본 발명은 생물에서 PUFA 생산을 강화시키고 지시하기 위해 이러한 2가지 발견을 단독으로 또는 함께 사용하는 것의 상세한 설명을 포함한다.
더욱 특히, 본 발명의 특정 실시양태들과 관련하여, 본 발명가들 및 동료들의 기존의 연구 (미국 특허 출원 공개 번호 20050100995의 실시예 8 참조)는 트라우스토키트리움 23B orfC 코딩 영역 (본원에서 서열 62로 표시됨)이 게놈 내의 orfC 유전자좌 내의 스키조키트리움 orfC 코딩 영역을 기능적으로 교체할 수 있음을 실연하였다. 이는 먼저 항생제 저항성 카셋트를 함유하는 스키조키트리움 orfC 코딩 영역을 이의 자리에서 완전히 결실 (ΔorfC::ZEO로 표시됨)시켜, DHA 및 Zeocin™에 대한 저항성이 성장에 필수적으로 필요한 균주 (B32-Z1로 표시됨)를 초래함으로써 결정되었다. 그후, Th.23B orfC 코딩 영역이 정확히 스키조키트리움 orfC 상류와 하류 비-코딩 영역 사이에 클로닝된 플라스미드를 구축하였다. 스키조키트리움 ΔorfC::ZEO 균주의 이러한 Th.23B orfC 구축물로의 형질전환으로 결실의 상보성, 및 자가영양성 (비-DHA-요구성)인 Zeocin-감수성 형질전환체가 초래되었다. 이러한 형질전환체들이 Th.23B orfC 코딩 영역이 스키조키트리움으로부터의 것을 정확하게 치환하도록 하는 orfC 유전자좌에서의 이중 교차 재조합 이벤트, 즉 유전자 교체로부터 유래되었음이 결정되었다. 이러한 형질전환체들의 지방산 함량의 분석은 DHA/DPA 비율이 약 2.3 (야생형 스키조키트리움 ATCC20888)에서 약 8.3 (대략적으로 Th.23B의 비율)으로 변화되었음을 나타냈다. 이러한 결과는 orfC 유전자 (스키조키트리움 및 트라우스토키트리움에서 DH1, DH2 및 ER의 3개의 도메인 함유)가 PUFA 생성물의 n-3/n-6 (오메가-3/오메가-6) 비율을 결정하는데 있어서 주요한 역할을 한다는 것을 가리켰다. 그러나, Th.23B orfC-함유 균주에서의 전체 PUFA 생산은, 상당하기는 하지만, 야생형 스키조키트리움 숙주 (약 60%)보다 더 낮았다.
이러한 2개의 orfC 코딩 영역의 검사는 Th.23B 유전자가 스키조키트리움과 트라우스토키트리움 간의 코돈 사용빈도의 명백하게 상이한 차이로 인해 스키조키트리움에서 불량하게 발현되는 것으로 본 발명가들이 간주하도록 하였다. 현재 본 발명가들은 코돈 사용빈도가 스키조키트리움 패턴에 대해 최적화된 "합성" Th.23B orfC 코딩 영역 (즉, 합성에 의해 생산된 코딩 영역)을 사용함으로써, 비-합성 Th.23B orfC에서 나타난 증가된 n-3/n-6 비율이 유지되면서 DHA 생산이 강화되었음을 발견하였다 (실시예 1 및 4 참조).
본 발명가들은 스키조키트리움 및 트라우스토키트리움에 대한 OrfC 단백질 내의 확인가능한 도메인들인 디하이드라테이즈(dehydratase) 1 (DH1), 디하이드라테이즈 2 (DH2), 및 에노일 리덕테이즈 (ER)의 존재를 또한 기존에 기술하였고 (예를 들어, 미국 특허 출원 공개 번호 20020194641 (상기); 미국 특허 출원 공개 번호 20040235127 (상기) 참조), OrfC 내의 이러한 도메인들 중 하나 이상이 PUFA PKS 시스템에 의해 생산되는 지방산의 유형 및/또는 비율을 제어하는데 수반되는 것으로 여겨졌음을 교시하였다. 여기에서, 본 발명가들은 스키조키트리움, 대장균, 및 효모 시스템에서, DH2 도메인 단독이 오메가-3 대 오메가-6 (n-3/n-6) 지방산 비율에 대한 PUFA PKS 시스템의 효과의 대부분 또는 전체를 담당한다는 것을 실연하였다. 특히, 본 발명가들은 다양한 트라우스토키트리움 23B OrfC 도메인이 스키조키트리움 OrfC 내의 상응하는 도메인을 교체하는데 사용된 실험들을 최초로 수행하였다 (데이터는 제시되지 않음). 본 발명가들은 스키조키트리움 OrfC-ER 도메인을 트라우스토키트리움으로부터의 도메인으로 교체하는 것이 DHA/DPA 비율을 야생형 스키조키트리움 (역사상 대략 2.3)과 비교하여 현저하게 변화시키지 않았음을 발견하였다. 그러나, 스키조키트리움 DH 도메인 양쪽 모두를 트라우스토키트리움으로부터의 상응하는 도메인으로 교체하는 것은 DHA/DPA 비율을 야생형 트라우스토키트리움 23B의 비율 (역사상 대략 8.3-10)을 향해 현저하게 증가시켰고, 스키조키트리움 DH2 도메인만을 트라우스토키트리움 23B로부터의 도메인으로 교체하는 것이 동일한 결과를 효과적으로 달성하는데 충분하였다. 실시예 2, 3, 4, 5, 및 6은 PUFA PKS 시스템에서의 오메가-3 대 오메가-6 (n-3/n-6) 지방산 비율에 대한 DH2 도메인의 효과를 실연하는 다양한 실험 결과를 제공한다.
본 발명가들은 숙주 생물에 의한 PUFA의 생산을 증가시키기 위한 다양한 키메라 PUFA PKS 시스템의 용도를 또한 기술하고, 어떤 키메라 PUFA PKS 조합 (예를 들어, 스키조키트리움 및 트라우스토키트리움으로부터의 Orf들의 특정 조합으로 구성된 키메라 PUFA PKS 시스템)에 천연 생물 또는 다른 키메라 PUFA PKS 시스템에 비해 현저하게 더 높은 PUFA 생산, 한 예의 경우에는 DHA 생산이 있었음을 뜻밖에 발견하였다. 예를 들어, 본 발명가들은 트라우스토키트리움 23B로부터의 OrfA 및 OrfC 및 스키조키트리움으로부터의 OrfB로 구성된 키메라 PUFA PKS 시스템이, 스키조키트리움 숙주 생물에서 발현되는 경우, 천연 스키조키트리움보다 또는 이러한 2가지 생물로부터 유래된 다른 키메라 PUFA PKS 시스템보다 현저하게 더 많은 지방산, 특히 현저하게 더 많은 DHA를 생산한다는 것을 실연한다 (실시예 8). 따라서, 본 발명은 일부 야생형 (비-키메라) PUFA 신테이즈와 비교하여 PUFA 생산이 증가되었고 n-3/n-6 비율이 개선된 여러 상이한 PUFA PKS 시스템의 생산에 대한 실질적인 안내를 제공한다.
본원에서 사용된 PUFA PKS 시스템 (PUFA 신테이즈 시스템, PUFA 신테이즈, 또는 PUFA 생산을 위한 PKS-유사 시스템으로 또한 지칭될 수 있음)에는 일반적으로 하기의 식별 특색들이 있다: (1) PUFA, 특히, 장쇄 PUFA를 시스템의 천연 생성물로서 생산함; 및 (2) 지방산 사슬의 반복형 프로세싱, 뿐만 아니라 선택된 사이클에서의 트랜스-시스 이성화(isomerization) 및 에노일 환원 반응이 포함되는 비-반복형 프로세싱 양쪽 모두를 수행하는 복합체로 조립된 여러 다기능성 단백질을 포함함. 추가적으로, PUFA 신테이즈 효소 내에 존재하는 ACP 도메인은 보조인자 (4-포스포판테테인)의 부착에 의한 활성화를 필요로 한다. 이러한 보조인자의 부착은 포스포판테테이닐 트랜스퍼레이즈 (PPTase)에 의해 수행된다. 숙주 생물의 내인성 PPTase가 PUFA 신테이즈 ACP 도메인을 활성화시킬 수 없으면, 이러한 기능을 수행할 수 있는 PPTase를 제공하는 것이 필요하다. PUFA 신테이즈 ACP 도메인을 활성화시키기 위한 예시적이고 적절한 PPTase로서 노스톡(Nostoc) 종의 HetI 효소가 본 발명가들에 의해 확인되었다. PUFA PKS 시스템 또는 PUFA 신테이즈에 관한 언급은 생물에서 PUFA를 생산하기 위해 복합체로 작용하는 유전자들 및 이들의 코딩 생성물 모두를 총괄적으로 지칭한다. 따라서, PUFA PKS 시스템은 천연 생성물이 PUFA인 PKS 시스템을 구체적으로 지칭한다.
더욱 구체적으로, 본원에서 언급된 PUFA PKS 시스템은 다중불포화 지방산 (PUFA), 특히 장쇄 PUFA를 생성물로서 생산한다. 예를 들어, 내인성으로 (천연적으로) PUFA PKS 시스템을 함유하는 생물은 이러한 시스템을 사용하여 PUFA를 제조한다. 본 발명에 따르면, PUFA는 탄소 사슬 길이가 탄소 16개 이상, 더욱 바람직하게는 탄소 18개 이상, 더욱 바람직하게는 탄소 20개 이상, 더욱 바람직하게는 탄소 22개 이상이고, 3개 이상의 이중 결합, 바람직하게는 4개 이상, 더욱 바람직하게는 5개 이상, 더욱 더 바람직하게는 6개 이상의 이중 결합이 있으며, 이때 모든 이중 결합은 시스 배열인 지방산이다. 본원에서 장쇄 다중불포화 지방산 (LCPUFA)에 대한 언급은 탄소 사슬 길이가 18 이상, 바람직하게는 탄소 사슬 길이가 20 이상이고 3개 이상의 이중 결합을 함유하는 지방산을 더욱 특히 지칭한다. 오메가-6 시리즈의 LCPUFA에는 감마-리놀렌산 (C18:3), 디-호모-감마-리놀렌산 (C20:3n-6), 아라키돈산 (C20:4n-6), 아드렌산 (도코사테트라엔산 또는 DTA로 또한 칭해짐) (C22:4n-6), 및 도코사펜타엔산 (C22:5n-6)이 포함된다. 오메가-3 시리즈의 LCPUFA에는 알파-리놀렌산 (C18:3), 에이코사트리엔산 (C20:3n-3), 에이코사테트라엔산 (C20:4n-3), 에이코사펜타엔산 (C20:5n-3), 도코사펜타엔산 (C22:5n-3), 및 도코사헥사엔산 (C22:6n-3)이 포함된다. LCPUFA에는 C28:8(n-3)이 포함되지만 이에 한정되지 않는, 탄소가 22개를 초과하고 이중 결합이 4개를 초과하는 지방산이 또한 포함된다.
두번째로, 본 발명에 따른 PUFA PKS 시스템은 지방산 사슬의 반복형 프로세싱, 뿐만 아니라 선택된 사이클에서의 트랜스-시스 이성화 및 에노일 환원 반응이 포함되는 비-반복형 프로세싱 양쪽 모두를 수행하는 복합체로 조립된 여러 다기능성 단백질을 포함한다 (그리고, 단일 기능 단백질들, 특히 해양 박테리아로부터의 PUFA PKS 시스템을 위한 것을 포함할 수 있다). 이러한 단백질들은 본원에서 코어(core) PUFA PKS 효소 복합체 또는 코어 PUFA PKS 시스템으로 또한 지칭될 수 있다. 이러한 단백질들 내에 함유된 도메인 및 모티프(motif)들의 일반적인 기능은 개별적으로 당업계에 공지되어 있고, 해양 박테리아 및 진핵 생물로부터의 다양한 PUFA PKS 시스템과 관련하여 상세하게 기술되어 있다 (예를 들어, 미국 특허 번호 6,140,486; 미국 특허 번호 6,566,583; [Metz et al., Science 293:290-293 (2001)]; 미국 특허 출원 공개 번호 20020194641; 미국 특허 출원 공개 번호 20040235127; 미국 특허 출원 공개 번호 20050100995, 및 PCT 공개 번호 WO 2006/135866 참조). 상기 언급된 바와 같이, 도메인들은 단일 단백질로서 발견될 수 있거나 (즉, 도메인과 단백질이 동의어임), 또는 단일 단백질 내의 2개 이상 (다중) 도메인의 하나로서 발견될 수 있다.
해양 박테리아 내의 PUFA PKS 시스템의 발견 (미국 특허 번호 6,140,486 참조) 이전에, PKS 시스템은 반복형 및 선택형 효소 반응의 이러한 조합을 보유하는 것으로 공지되지 않았고, 시스 배열의 탄소-탄소 이중 결합을 생산할 수 있는 것으로 생각되지 않았다. 그러나, 본 발명에 의해 기술된 PUFA PKS 시스템에는 시스 이중 결합을 도입하는 능력 및 사이클 내의 반응 순서를 바꾸는 능력이 있다.
본 발명가들은 PUFA PKS 시스템의 이러한 특색을 사용하여 기존에 기술된 (제I형 반복형 또는 모듈형, 제II형, 또는 제III형) PKS 시스템에 의해 생산될 수 없는 다양한 생활성 분자를 생산하는 것을 제안한다. 이러한 생활성 분자는 다중불포화 지방산 (PUFA), 항생제 또는 기타 생활성 화합물을 포함하지만 이에 한정되지 않고, 이들 중 다수는 하기에 논의될 것이다. 예를 들어, 본원에 기술된 PUFA PKS 유전자 구조의 지식을 사용하여, 다수의 방법 중 임의의 방법이 새로운 생성물이 생산되도록 PUFA PKS 유전자를 변경시키거나, 또는 이러한 유전자들의 일부를 또다른 합성 시스템 (또다른 PKS 시스템 포함)과 조합하는데 사용될 수 있다. 반복형 및 선택형 반응 양쪽 모두를 수행하는 이러한 특정 유형의 시스템의 고유의 능력은 이러한 시스템이 유사한 방법이 다른 유형의 PKS 시스템에 적용되는 경우에는 발견되지 않을 생성물을 산출할 수 있게 할 것이다.
바람직하게는, 본 발명의 PUFA PKS 시스템은 적어도 하기의 생물학적으로 활성인 도메인들 (전형적으로 3개 이상의 단백질 내에 함유됨)을 포함한다: (a) 1개 이상의 에노일-ACP 리덕테이즈 (ER) 도메인; (b) 다중 아실 캐리어(carrier) 단백질 (ACP) 도메인(들) (예를 들어, 적어도 1개 내지 4개, 바람직하게는 5개 이상의 ACP 도메인, 및 일부 실시양태에서는 6개, 7개, 8개, 9개, 10개까지의, 또는 10개를 초과하는 ACP 도메인); (c) 2개 이상의 β-케토아실-ACP 신테이즈 (KS) 도메인; (d) 1개 이상의 아실트랜스퍼레이즈 (AT) 도메인; (e) 1개 이상의 β-케토아실-ACP 리덕테이즈 (KR) 도메인; (f) 2개 이상의 FabA-유사 β-히드록시아실-ACP 디하이드레이즈 (DH) 도메인; (g) 1개 이상의 사슬 길이 인자 (CLF) 도메인; (h) 1개 이상의 말로닐-CoA:ACP 아실트랜스퍼레이즈 (MAT) 도메인. 한 실시양태에서, 본 발명에 따른 PUFA PKS 시스템은 디하이드라테이즈 (DH) 보존 활성 부위 모티프를 함유하는 하나 이상의 영역을 또한 포함한다.
한 실시양태에서, 스키조키트리움 PUFA PKS 시스템은 적어도 하기의 생물학적으로 활성인 도메인들을 포함한다: (a) 2개의 에노일-ACP 리덕테이즈 (ER) 도메인; (b) 4개 또는 5개 내지 10개 이상 사이의 아실 캐리어 단백질 (ACP) 도메인, 및 한 양상에서는 9개의 ACP 도메인; (c) 2개의 β-케토아실-ACP 신테이즈 (KS) 도메인; (d) 1개의 아실트랜스퍼레이즈 (AT) 도메인; (e) 1개의 β-케토아실-ACP 리덕테이즈 (KR) 도메인; (f) 2개의 FabA-유사 β-히드록시아실-ACP 디하이드레이즈 (DH) 도메인; (g) 1개의 사슬 길이 인자 (CLF) 도메인; 및 (h) 1개의 말로닐-CoA:ACP 아실트랜스퍼레이즈 (MAT) 도메인. 한 실시양태에서, 본 발명에 따른 스키조키트리움 PUFA PKS 시스템은 FabA-유사 DH 도메인의 일부가 아닌 디하이드라테이즈 (DH) 보존 활성 부위 모티프를 함유하는 하나 이상의 영역 또는 도메인을 또한 포함한다. 일반적으로 이러한 도메인들의 구조적 및 기능적 특징은 개별적으로 당업계에 공지되어 있고, 본 발명의 PUFA PKS 시스템과 관련하여 하기에 상세하게 기술될 것이다.
또다른 실시양태에서, 트라우스토키트리움 PUFA PKS 시스템은 적어도 하기의 생물학적으로 활성인 도메인들을 포함한다: (a) 2개의 에노일-ACP 리덕테이즈 (ER) 도메인; (b) 4개 또는 5개 내지 10개 이상 사이의 아실 캐리어 단백질 (ACP) 도메인, 및 한 양상에서는 8개의 ACP 도메인; (c) 2개의 β-케토아실-ACP 신테이즈 (KS) 도메인; (d) 1개의 아실트랜스퍼레이즈 (AT) 도메인; (e) 1개의 β-케토아실-ACP 리덕테이즈 (KR) 도메인; (f) 2개의 FabA-유사 β-히드록시아실-ACP 디하이드레이즈 (DH) 도메인; (g) 1개의 사슬 길이 인자 (CLF) 도메인; 및 (h) 1개의 말로닐-CoA:ACP 아실트랜스퍼레이즈 (MAT) 도메인. 한 실시양태에서, 본 발명에 따른 트라우스토키트리움 PUFA PKS 시스템은 FabA-유사 DH 도메인의 일부가 아닌 디하이드라테이즈 (DH) 보존 활성 부위 모티프를 함유하는 하나 이상의 영역 또는 도메인을 또한 포함한다. 일반적으로 이러한 도메인들의 구조적 및 기능적 특징은 개별적으로 당업계에 공지되어 있고, 본 발명의 PUFA PKS 시스템과 관련하여 하기에 상세하게 기술될 것이다.
PUFA PKS 시스템은 하나 이상의 부속 단백질을 추가적으로 포함할 수 있고, 상기 단백질은 상기 기술된 바와 같은 코어 PUFA PKS 시스템의 일부로 간주되지 않지만 (즉, PUFA 신테이즈 효소 복합체 자체의 일부분이 아님), 특히 특정 숙주 생물 (예를 들어, 식물)에서, 본 발명의 코어 PUFA 신테이즈 효소 복합체를 사용하는 PUFA 생산에, 또는 적어도 효율적인 PUFA 생산에 필요할 수 있거나 필요한 단백질로서 본원에서 정의된다. 예를 들어, PUFA를 생산하기 위해, PUFA PKS 시스템은 4'-포스포판테테이닐 모이어티(moiety)를 보조효소 A에서 아실 캐리어 단백질 (ACP) 도메인(들)로 전달하는 부속 단백질과 함께 일해야 한다. 따라서, PUFA PKS 시스템이 하나 이상의 4'-포스포판테테이닐 트랜스퍼레이즈 (PPTase) 도메인을 포함하는 것으로 간주될 수 있거나, 또는 이러한 도메인이 PUFA PKS 시스템에 대한 부속 도메인 또는 단백질인 것으로 간주될 수 있다. 본 발명에 따른 PUFA PKS 시스템을 발현하도록 생물 (예를 들어, 미생물 또는 식물)을 유전자 변형시키는 경우, 일부 숙주 생물은 PUFA를 생산하기 위해 PUFA PKS와 함께 일할 필요가 있는 부속 단백질 (예를 들어, PPTase)을 내인성으로 발현할 수 있다. 그러나, 일부 생물은, 생물이 상동성 부속 단백질을 내인성으로 생산하는 경우에도, 생물에 의한 PUFA의 생산을 가능하게 하고/하거나 강화하기 위해 하나 이상의 본원에 기술된 부속 단백질을 코딩하는 핵산 분자로 형질전환될 수 있다 (즉, 일부 이종 부속 단백질이 숙주 세포의 내인성 부속 단백질보다 형질전환된 PUFA 신테이즈 단백질과 더욱 효과적으로 또는 효율적으로 작용할 수 있다). 본 발명 및 기존의 출원은 부속 PPTase를 포함하는 본 발명의 PUFA PKS 시스템으로 유전자 변형된 박테리아 및 효모의 예를 제공한다. 부속 PPTase를 포함하는 PUFA PKS 시스템으로 유전자 변형된 식물이 기술되어 있다 (예를 들어, 미국 특허 출원 공개 번호 20070089199 참조). PPTase의 구조적 및 기능적 특징들이 하기에 더욱 상세하게 기술될 것이다.
진핵 생물에서의 장쇄 PUFA (LCPUFA)의 합성을 위한 "표준" 또는 "전통" 경로는 중쇄-길이의 포화 또는 단일-불포화 지방산 (예를 들어, 상기 기술된 FAS 시스템의 생성물)의 변형을 수반한다. 이러한 변형은 신장 단계 및 탈포화 단계로 구성된다. 신장 반응의 기질은 지방 아실-CoA (신장될 지방산 사슬) 및 말로닐-CoA (각각의 신장 반응 동안 부가되는 2개의 탄소의 공급원)이다. 일롱게이즈 반응의 생성물은 선형 사슬 내에 2개의 추가적인 탄소가 있는 지방 아실-CoA이다. 일반적으로 유리 지방산 (FFA)은 이러한 반응 사이클에서 발생하지 않는다. 디새츄레이즈는 산소-의존적 반응에서 2개의 수소를 추출함으로써 기존의 지방산 사슬 내에 시스 이중 결합을 생성시킨다. 디새츄레이즈의 기질은 PL (예를 들어, 포스파티딜콜린)의 글리세롤 골격으로 에스테르화되는 지방산 또는 아실-CoA (일부 동물의 경우)이다. 또다시, FFA는 이러한 반응 메커니즘에서 발생하지 않는다. 따라서, FFA가 "표준" 또는 "전통" LCPUFA 합성 경로에서 발생하는 유일한 시기는 일부 FAS 시스템으로부터 지방산이 방출되는 동안이다. 상기 논의된 바와 같이, 이는 전형적으로 탄소수 16 또는 18의 지방산이고, 일반적으로 포화 또는 단일불포화 지방산이며, 더 긴 사슬의 PUFA 예컨대 EPA 또는 DHA가 아니다. 장쇄 PUFA 생산을 위한 이러한 계획의 한가지 결과는 경로의 중간체가 종종 축적되어, 시스템에 의해 생산된 신규 지방산의 대부분을 종종 나타낸다는 것이다.
따라서, 본 발명에 따르면, PUFA의 생산을 위한 "표준" 또는 "전통" 경로에 대한 언급은 중쇄 길이의 포화 지방산 (예를 들어, 지방산 신테이즈 (FAS) 시스템의 생성물)이 일련의 신장 및 탈포화 반응에 의해 변형되는 지방산 합성 경로를 지칭한다. 신장 반응의 기질은 지방 아실-CoA (신장될 지방산 사슬) 및 말로닐-CoA (각각의 신장 반응 동안 부가되는 2개의 탄소의 공급원)이다. 일롱게이즈 반응의 생성물은 선형 사슬 내에 2개의 추가적인 탄소가 있는 지방 아실-CoA이다. 디새츄레이즈는 산소-의존적 반응에서 2개의 수소를 추출함으로써 기존의 지방산 사슬 내에 시스 이중 결합을 생성시킨다. 이러한 경로 및 이러한 경로에서 수반되는 유전자는 문헌에 주지되어 있다.
본원에서 사용된 용어 "지질"에는 인지질 (PL); 유리 지방산; 지방산의 에스테르; 트리아실글리세롤 (TAG); 디아실글리세리드; 모노아실글리세리드; 포스파티드; 왁스 (알콜과 지방산의 에스테르); 스테롤 및 스테롤 에스테르; 카로카로티노이드; 크산토필 (예를 들어, 옥시카로티노이드); 탄화수소; 및 당업자에게 공지된 기타 지질이 포함된다. 용어 "다중불포화 지방산" 및 "PUFA"은 유리 지방산 형태뿐만 아니라, 다른 형태, 예컨대 TAG 형태 및 PL 형태를 또한 포함한다.
생물/숙주에 의한 PUFA PKS 단백질, 도메인 또는 시스템의 발현과 관련하여 "이종" 생물 또는 "이종" 숙주에 대한 언급은, 비록 PUFA PKS 시스템이 숙주 생물에 의해 천연적으로 발현되는 단백질, 도메인 또는 일부분을 포함할 수 있지만, PUFA PKS 시스템의 하나 이상의 단백질, 도메인 또는 일부분이 생물에 의해 천연적으로 (내인성으로) 발현되는 단백질, 도메인 또는 일부분이 아니라는 것을 의미한다 (예를 들어, 숙주 생물로부터 유래된 서열 및 상이한 생물 또는 상이한 단백질로부터 유래된 서열을 함유하는 본원에 기술된 바와 같은 키메라 단백질).
다양한 키메라 단백질을 코딩하는 특정한 예시적인 핵산 분자 (구축물)들이 본원에 기술된다 (실시예 참조). 본 발명에 따르면, "키메라 단백질"은 2개 이상의 완전한 또는 부분적인 유전자 또는 핵산 서열을 함께 스플라이싱(splicing) 또는 연결 (결찰)시킴으로써 생산된 핵산 서열에 의해 코딩되는 조작된 단백질이다. "키메라 PUFA PKS 시스템"은 2개 이상의 상이한 PKS 시스템으로부터의 단백질 및/또는 도메인 (키메라 단백질 및/또는 도메인 포함)을 함유하는 PUFA PKS 시스템이다. 예를 들어, 스키조키트리움 PUFA PKS OrfA 및 OrfB 및 트라우스토키트리움 PUFA PKS OrfC로 구성된 키메라 PUFA PKS 시스템이 실시예에서 기술된다. 스키조키트리움 PUFA PKS OrfA, OrfB, 및 DH2 도메인을 제외한 모든 OrfC로 구성되고, 상기 DH2 도메인은 트라우스토키트리움 PUFA PKS로부터의 PUFA PKS DH2 도메인인 키메라 PUFA PKS 시스템이 또한 실시예에서 기술된다. 따라서 이러한 후자의 키메라 PUFA PKS 시스템은 키메라 단백질 (키메라 OrfC 단백질)을 포함한다. 스키조키트리움 코돈 사용빈도에 대해 최적화된 트라우스토키트리움 핵산 서열을 사용하는 동일한 키메라가 또한 기술되어, PUFA PKS 시스템에 의해 생산된 생성물을 변경시키는데 사용될 수 있는 유전자 조작의 조합을 실연한다 (실시예 참조). 다양한 또다른 키메라 PUFA PKS 시스템들이 또한 실시예에 기술된다.
본원에서 사용된 "코돈 최적화" 또는 이의 파생 구절은 소정의 단백질을 코딩하는 핵산 서열을 변형 (변경, 변화, 돌연변이)시켜, 서열 내의 하나 이상의 코돈을 핵산 서열을 포함하는 핵산 분자가 발현될 특정 생물의 핵산 서열에서 가장 빈번하게 사용되는 코돈으로 교체하는 프로세스를 지칭한다. 당업자는 코돈 편향, 및 코돈 최적화의 일반적인 개념을 이해한다. 더욱 특히, 소정의 코돈이 유전자 코드에서 나타나는 정도는 생물들 사이에서 현저하게 다를 수 있다 (예를 들어, 하나의 속 내의 종들 사이 포함). 생물이 더 작은 비율의 시간 동안 또는 동일한 아미노산에 대한 또다른 코돈보다 덜 사용하는 임의의 코돈은 단백질 발현에 문제를 야기할 수 있다. 따라서, 사용될 핵산 서열의 코돈 빈도가 숙주 발현 시스템/생물의 것과 매칭되는 경우 (예를 들어, 아미노산 서열을 변형시키지 않으면서, 희귀하거나 드물거나 또는 덜 빈번하게 사용되는 코돈을 숙주 시스템의 천연 코돈 편향을 더욱 밀접하게 반영하는 코돈으로 교체함으로써), 단백질 발현이 극적으로 개선될 수 있다.
본 발명가들은 핵산 서열의 코돈 사용빈도를 스키조키트리움의 것에 대해 최적화하는 방법을 본원에서 기술하지만, 이는 본 발명에서의 코돈 최적화의 용도의 단지 하나의 예이다. 본 발명에 따르면, 소정의 단백질 (예를 들어, PUFA PKS 단백질)을 코딩하는 핵산 분자의 뉴클레오티드 서열이 핵산 분자가 발현될 숙주 세포 또는 생물의 최적의 (최적화된) 코돈 사용빈도를 위해 변형 (예를 들어, 합성, 돌연변이, 재조합 기술 등에 의해)될 수 있거나, 또는 상이한 생물의 최적화된 코돈 사용빈도를 위해 변형될 수 있다 (예를 들어, 식물에서의 발현을 위한 트라우스토키트리움 PUFA PKS 단백질을 코딩하는 핵산 분자가 스키조키트리움 코돈 사용빈도에 대해 최적화될 수 있다). 실시예의 표 1은 스키조키트리움에 대한 최적화된 코돈 사용빈도를 나타낸다 .
또한, 본 발명가들은 소정의 단백질을 코딩하는 핵산 분자의 핵산 서열을 핵산 서열이 유래, 습득 또는 수득된 동일한 숙주에 대해 이러한 숙주 (또는 또다른 숙주)에서의 발현을 위해 최적화하는 것을 본원에서 제안한다. 이러한 후자의 본 발명의 실시양태는, 예를 들어, 한 생물로부터의 단백질 (예를 들어, 스키조키트리움으로부터의 PUFA PKS 단백질)을 코딩하는 핵산 분자가 동일한 생물 (이러한 경우는 스키조키트리움)이 선호하는 코돈 사용빈도를 강화 (코돈 사용빈도를 최적화)하기 위해 변형 (예를 들어, 핵산 서열의 재합성 및 특정 뉴클레오티드의 교체에 의해)되는 일종의 "유도형(directed)" 또는 "가속화(accelerated)" 발달을 나타낸다. 그후, 이러한 핵산 분자가 스키조키트리움에서 (재조합 핵산 분자로서), 또는 또다른 숙주 세포 또는 생물에서 (예를 들어, 식물에서) 발현될 수 있다. 이러한 실시양태에서, 생물로부터의 소정의 핵산 서열이 이러한 생물에 대해 결정될 수 있는 최적의 코돈 (코돈 편향)을 사용하지 않을 수 있음이 제안된다. 따라서, 이러한 생물에서의 단백질 발현을 개선시키기 위해 핵산 서열을 재합성할 수 있다.
본 발명에서 유용한 PUFA PKS 시스템 및 이의 단백질 또는 도메인에는 박테리아 및 비-박테리아 양쪽 모두의 PUFA PKS 시스템이 포함된다. 비-박테리아 PUFA PKS 시스템은 박테리아가 아닌 생물, 예컨대 진핵생물 또는 원시박테리아(archaebacterium)로부터의 또는 이로부터 유래된 PUFA PKS 시스템이다. 진핵생물은 세포의 분화 정도를 기초로 원핵생물과 구별되고, 진핵생물이 원핵생물보다 더 분화된다. 일반적으로, 원핵생물은 핵막을 보유하지 않고, 세포 분열 동안 유사분열을 나타내지 않으며, 염색체가 1개만 있고, 세포질 내에 70S 리보솜을 함유하고, 미토콘드리아, 소포체, 엽록체, 리소좀 또는 골치체를 보유하지 않으며, 편모 (존재하는 경우, 단일 원섬유(fibril)을 함유함)가 있을 수 있다. 반면에, 진핵생물은 핵막이 있고, 세포 분열 동안 유사분열을 나타내며, 다수의 염색체가 있고, 세포질 내에 80S 리보솜을 함유하고, 미토콘드리아, 소포체, 엽록체 (조류의 경우), 리소좀 및 골지체를 보유하며, 편모 (존재하는 경우, 다수의 원섬유를 함유함)가 있을 수 있다. 일반적으로, 박테리아는 원핵생물인 한편, 조류, 진균, 원생생물, 원생동물 및 고등 식물은 진핵생물이다. 본 발명에 따르면, 비-박테리아 PUFA PKS 기능성 도메인과 박테리아 PUFA PKS 기능성 도메인, 뿐만 아니라 또다른 PKS 시스템 (제I형 반복형 또는 모듈형, 제II형, 또는 제III형) 또는 FAS 시스템으로부터의 PKS 기능성 도메인 또는 단백질이 혼입된 유전자 변형 생물이 생산될 수 있다.
본 발명에 따르면, 3-케토 아실-ACP 신테이즈 (KS) 생물학적 활성 (기능)이 있는 도메인 또는 단백질은 FAS (및 PKS) 신장 반응 사이클의 초기 단계를 수행하는 효소로 특성화된다. 용어 "β-케토아실-ACP 신테이즈"는 용어 "3-케토 아실-ACP 신테이즈", "β-케토 아실-ACP 신테이즈", 및 "케토-아실 ACP 신테이즈", 및 유사한 파생어와 상호교환가능하게 사용될 수 있다. 신장용으로 예정된 아실 기가 티오에스테르 결합에 의해 효소의 활성 부위의 시스테인 잔기에 연결된다. 다단계 반응에서, 아실-효소에 말로닐-ACP와의 축합이 진행되어 -케토 아실-ACP, CO2 및 유리 효소가 형성된다. KS는 신장 사이클에서 중요한 역할을 하고, 다수의 시스템에서 반응 사이클의 다른 효소보다 더 큰 기질 특이성을 보유하는 것으로 나타났다. 예를 들어, 대장균에는 3개의 상이한 KS 효소가 있고, 각각은 생물의 생리학에서 자신의 특별한 역할이 있다 ([Magnuson et al., Microbiol. Rev. 57, 522 (1993)]). 본원에 기술된 트라우스토키트리드 및 해양 박테리아에서 기술된 PUFA-PKS 시스템의 2개의 KS 도메인은 PUFA 생합성 반응 순서에서 별개의 역할이 있을 수 있다. 효소의 한 클래스로서, KS가 잘 특성화되어 있다. 다수의 확인된 KS 유전자의 서열이 공지되어 있고, 활성 부위 모티프가 확인되어 있으며, 여러 결정 구조가 결정되어 있다. 단백질 (또는 단백질의 도메인)이 공지된 KS 서열에 대한 상동성에 의해 KS 패밀리의 효소에 속하는 것으로 쉽게 확인될 수 있다.
본 발명에 따르면, 말로닐-CoA:ACP 아실트랜스퍼레이즈 (MAT) 생물학적 활성 (기능)이 있는 도메인 또는 단백질은 말로닐 모이어티를 말로닐-CoA에서 ACP로 전달하는 것으로 특성화된다. 용어 "말로닐-CoA:ACP 아실트랜스퍼레이즈"는 "말로닐 아실트랜스퍼레이즈" 및 유사한 파생어와 상호교환가능하게 사용될 수 있다. 활성 부위 모티프 (GxSxG)에 더하여, 이러한 효소는 주요 위치 내의 R 및 Q 아미노산의 연장된 모티프를 보유하고, 상기 모티프에 의해 효소가 MAT 효소로 확인된다 (예를 들어, 하기 기술되는 AT 도메인과 대조적). 일부 PKS 시스템에서 (그러나 PUFA PKS 도메인은 아님), MAT 도메인은 메틸- 또는 에틸-말로네이트를 (상응하는 CoA 에스테르로부터) ACP 기 상에 우선적으로 로딩(loading)함으로써, 가지를 선형 탄소 사슬 내로 도입할 것이다. MAT 도메인은 공지된 MAT 서열에 대한 상동성 및 연장된 모티프 구조에 의해 인식될 수 있다.
본 발명에 따르면, 아실 캐리어 단백질 (ACP) 생물학적 활성 (기능)이 있는 도메인 또는 단백질은 단백질의 공유결합된 보조인자에 대한 티오에스테르 결합을 통해 성장 중인 지방 아실 사슬에 대한 캐리어로서 기능하는 소형 폴리펩티드 (전형적으로, 아미노산 80개 내지 100개 길이)로 특성화된다. 이는 분리된 유닛(unit)들로서 또는 더 큰 단백질 내의 도메인으로서 발생한다. ACP의 고도로 보존된 세린 잔기에 CoA의 포스포판테테이닐 모이어티가 전달됨으로써 ACP가 비활성 애포(apo)-형태에서 기능성 홀로(holo)-형태로 전환된다. 아실 기는 포스포판테테이닐 모이어티의 유리 말단에서 티오에스테르 결합에 의해 ACP에 부착된다. 방사성 판테테인으로의 표지 및 공지된 ACP에 대한 서열 상동성에 의해 ACP가 확인될 수 있다. 상기 언급된 모티프 (LGIDS*)의 변동의 존재 또한 ACP의 서명이다.
본 발명에 따르면, 3-케토아실-ACP 리덕테이즈 (KR) 생물학적 활성 (기능)으로 또한 지칭되는 케토리덕테이즈 활성이 있는 도메인 또는 단백질은 3-케토 아실 형태의 ACP의 피리딘-뉴클레오티드-의존적 환원을 촉매하는 것으로 특성화된다. 이는 디노보(de novo) 지방산 생합성 신장 사이클에서의 첫번째 환원성 단계이고, 폴리케타이드 생합성에서 종종 수행되는 반응이다. 용어 "β-케토아실-ACP 리덕테이즈"는 용어 "케토리덕테이즈", "3-케토아실-ACP 리덕테이즈", "케토-아실 ACP 리덕테이즈" 및 이러한 용어의 유사한 파생어와 상호교환가능하게 사용될 수 있다. FAS의 또다른 리덕테이즈인 에노일 ACP 리덕테이즈 (ER)의 한 패밀리 (그러나, PUFA PKS 시스템 내에 존재하는 ER 패밀리는 아님), 및 단쇄 알콜 디하이드로게네이즈(dehydrogenase) 패밀리와 상당한 서열 유사성이 관찰된다. 상기에서 지시된 PUFA PKS 영역의 Pfam 분석은 코어 영역에서의 단쇄 알콜 디하이드로게네이즈 패밀리에 대한 상동성을 나타낸다. 동일한 영역의 Blast 분석은 공지된 KR 효소에 대한 코어 구역에서의 매치, 뿐만 아니라 또다른 특성화된 PUFA PKS 시스템으로부터의 도메인에 대한 상동성이 있는 연장된 영역을 나타낸다.
본 발명에 따르면, 하기의 이론적 설명을 기초로 도메인 또는 단백질이 사슬 길이 인자 (CLF)로 지칭된다. CLF는 제II형 (해리된 효소들) PKS 시스템의 특징으로 본래 기술되었으며, 최종 생성물의 신장 사이클의 횟수를 결정하고 따라서 이의 사슬 길이를 결정하는데 역할을 하는 것으로 가정되었다. CLF 아미노산 서열은 KS 도메인에 대한 상동성을 나타내지만 (그리고, KS 단백질과 이종이량체를 형성하는 것으로 생각됨), 활성 부위 시스테인이 없다. PKS 시스템에서의 CLF의 역할은 논쟁의 여지가 있었다. 새로운 증거 ([C. Bisang et al., Nature 401, 502 (1999)])는 PKS 시스템의 프라이밍(priming) (신장될 최초 아실 기를 제공함)에서의 역할을 시사한다. 이러한 역할에서, CLF 도메인은 말로네이트를 탈카르복실화시켜 (말로닐-ACP로서), KS 활성 부위로 전달될 수 있는 아세테이트 기를 형성하는 것으로 생각된다. 따라서, 이러한 아세테이트가 최초의 신장 (축합) 반응이 진행될 수 있는 '프라이밍' 분자로 작용한다. 제II형 CLF의 상동체가 일부 모듈형 PKS 시스템에서 '로딩' 도메인으로 확인되었다. CLF의 서열 특색이 있는 도메인이 모든 현재 확인된 PUFA PKS 시스템에서 발견되고, 각각의 경우에 멀티도메인 단백질의 일부로서 확인된다.
"아실트랜스퍼레이즈" 또는 "AT"는 다수의 별개의 아실 전달 반응들을 수행할 수 있는 효소의 일반적인 클래스를 지칭한다. 용어 "아실트랜스퍼레이즈"는 용어 "아실 트랜스퍼레이즈"와 상호교환가능하게 사용될 수 있다. 본원에 기술된 PUFA PKS 시스템에서 확인된 AT 도메인들은 서로, 그리고 현재 시험된 다른 PUFA PKS 시스템 모두에 존재하는 도메인에 대해 양호한 상동성을 나타내고, 특이적 기능이 확인된 일부 아실트랜스퍼레이즈 (예를 들어, 말로닐-CoA:ACP 아실트랜스퍼레이즈, MAT)에 대해서 매우 약한 상동성을 나타낸다. MAT에 대한 약한 상동성에도 불구하고, 이러한 AT 도메인은 이러한 효소의 연장된 모티프 구조 특성 (상기의 MAT 도메인 설명 참조)을 보유하지 않기 때문에 MAT로 기능하는 것으로 여겨지지 않는다. 본 개시내용의 목적을 위해, PUFA PKS 시스템에서의 AT 도메인의 가능한 기능은 하기의 것들을 포함하지만 이에 한정되지 않는다: ORFA ACP 도메인(들)로부터 물로의 지방 아실 기의 전달 (즉, 티오에스테레이즈(thioesterase) - 유리 지방산으로서 지방 아실 기를 방출함), 어셉터(acceptor) 예컨대 CoA로의 지방 아실 기의 전달, 다양한 ACP 도메인들 간의 아실 기의 전달, 또는 친지성 어셉터 분자 (예를 들어, 라이소포스파드산)으로의 지방 아실 기의 전달.
본 발명에 따르면, 이러한 도메인에는 에노일 리덕테이즈 (ER)의 생물학적 활성이 있다. ER 효소는 지방 아실-ACP 내의 트랜스-이중 결합 (DH 활성에 의해 도입됨)을 환원시켜, 이러한 탄소들을 완전하게 포화시킨다. PUFA-PKS 내의 ER 도메인은 ER 효소의 새롭게 특성화된 패밀리에 대해 상동성을 나타낸다 ([Heath et al., Nature 406, 145 (2000)]). Heath 및 Rock은 스트렙토코쿠스 뉴모니아에(Streptococcus pneumoniae)로부터 관심 유전자를 클로닝하고, 이러한 유전자로부터 발현된 단백질을 정제하고, 시험관내 분석법에서 이러한 단백질에 ER 활성이 있음을 나타냄으로써 ER 효소의 이러한 새로운 클래스를 확인하였다. 현재 시험된 모든 PUFA PKS 시스템은 스트렙토코쿠스 뉴모니아에 ER 단백질에 대한 상동성을 나타내는 스키조키트리움 ER 도메인에 대한 서열 상동성이 매우 높은 하나 이상의 도메인을 함유한다.
본 발명에 따르면, 디하이드레이즈 또는 디하이드라테이즈 (DH) 활성이 있는 단백질 또는 도메인은 탈수 반응을 촉매한다. 본원에서 일반적으로 사용된, DH 활성에 대한 언급은 FabA-유사 β-히드록시아실-ACP 디하이드레이즈 (DH) 생물학적 활성을 전형적으로 지칭한다. FabA-유사 β-히드록시아실-ACP 디하이드레이즈 (DH) 생물학적 활성은 β-케토아실-ACP로부터 HOH를 제거하고, 초기에 탄소 사슬 내에 트랜스 이중 결합을 생성시킨다. 용어 "FabA-유사 β-히드록시아실-ACP 디하이드레이즈"는 용어 "FabA-유사 β-히드록시 아실-ACP 디하이드레이즈", "β-히드록시아실-ACP 디하이드레이즈", "디하이드레이즈" 및 유사한 파생어와 상호교환가능하게 사용될 수 있다. PUFA PKS 시스템의 DH 도메인은 (다른 PKS 시스템의 DH 도메인보다는) FAS 시스템과 관련된 박테리아 DH 효소에 대해 상동성을 나타낸다. 박테리아 DH의 하위집합인 FabA-유사 DH는 시스-트랜스 아이소머레이즈(isomerase) 활성을 보유한다 ([Heath et al., J. Biol. Chem., 271, 27795 (1996)]). FabA-유사 DH 단백질에 대한 상동성은 본원에 기술된 DH 도메인들 중 하나 또는 모두가 PUFA PKS 생성물 내에 시스 이중 결합을 삽입하는 것을 담당한다는 것을 시사한다.
본 발명에서 유용한 PUFA PKS 단백질에는 비-FabA-유사 DH 활성 또는 비-FabA-유사 β-히드록시아실-ACP 디하이드레이즈 (DH) 생물학적 활성으로 본원에서 일반적으로 지칭되는, FabA-유사 (예를 들어, 상기 기술된 시스-트랜스 활성이 FabA-유사 활성과 관련됨)로 특성화되지 않는 디하이드라테이즈 활성이 또한 있을 수 있다. 더욱 구체적으로, 보존된 활성 부위 모티프 (아미노산 약 13개 길이: L*xxHxxxGxxxxP; *모티프에서, L은 또한 I일 수 있음)가 PKS 시스템 내의 디하이드라테이즈 도메인에서 발견된다 ([Donadio S, Katz L. Gene. 1992 Feb 1;111(1):51-60). 이러한 보존된 모티프 (본원에서 디하이드라테이즈 (DH) 보존 활성 부위 모티프 또는 DH 모티프로 또한 지칭됨)은 현재까지 기술된 모든 공지된 PUFA-PKS 서열의 유사한 영역 및 본원에 기술된 PUFA PKS 서열에서 발견되지만, 이러한 모티프는 최근에야 검출된 것으로 여겨진다. 이러한 보존된 모티프는 PUFA-PKS 서열 내의 높은 상동성의 특성화되지 않는 영역 내에 있다. PUFA-PKS를 통한 PUFA의 제안된 생합성은 비-FabA 유사 탈수를 필요로 하고, 이러한 모티프가 상기 반응과 관련될 수 있다.
예시의 목적으로, 특정 PUFA PKS 시스템의 구조가 하기에 상세하게 기술된다. 그러나, 본 발명이 이러한 PUFA PKS 시스템의 사용에 한정되지 않는다는 것을 이해하여야 한다. 예를 들어, 박테리아 PUFA PKS 시스템의 상세한 설명을 미국 특허 번호 6,140,486 및 미국 특허 출원 공개 번호 20050100995에서 확인할 수 있고, 기타 PUFA PKS 유전자 또는 시스템에 대한 설명을 PCT 특허 공개 번호 WO 05/097982 및 미국 특허 출원 공개 번호 20050014231에서 확인할 수 있다.
스키조키트리움 PUFA PKS 시스템
스키조키트리움은 DHA 및 도코사펜타엔산 (DPA; 22:5 ω-6)이 풍부한, 예를 들어, DHA + DPA 건조 중량이 30%인 다량의 트리아실글리세롤을 축적하는 트라우스토키트리드 해양 미생물이다 ([Barclay et al., J. Appl. Phycol. 6, 123 (1994)]). 신장/탈포화 경로에 의해 20- 및 22-탄소 PUFA를 합성하는 진핵생물에서, 18-, 20- 및 22-탄소 중간체의 풀(pool)은 비교적 커서, [14C]-아세테이트를 사용하는 시험관내 표지 실험은 예측되는 중간체에 대한 명백한 전구체-생성물 동역학을 드러낸다 ([Gellerman et al., Biochim. Biophys. Acta 573:23 (1979)]). 또한, 이러한 생물에 외인성으로 제공된 방사능표지된 중간체가 최종 PUFA 생성물로 전환된다. 본 발명가들은 [1-14C]-아세테이트가 스키조키트리움 세포에 의해 신속하게 섭취되고 지방산 내로 혼입되었지만, 가장 짧은 표지 시간 (1분)에서, DHA는 지방산에서 회수된 표지 31%를 함유하였고, 이러한 백분율은 10-15분의 [14C]-아세테이트 혼입 및 이어지는 24시간의 배양 성장 동안 본질적으로 변하지 않고 유지되었음을 나타냈다 (미국 특허 출원 공개 번호 20020194641 (상기) 참조). 유사하게, DPA는 실험 전반에 걸쳐 표지의 10%를 나타냈다. 16- 또는 18-탄소 지방산과 22-탄소 다중불포화 지방산 간의 전구체-생성물 관계에 대한 증거가 없다. 이러한 결과는 중간체들의 매우 작은 (가능하게는, 효소에 결합된) 풀을 수반하는 [14C]-아세테이트로부터의 DHA의 신속한 합성과 일치한다.
도 1은 스키조키트리움 PUFA PKS 시스템으로부터의 3개의 오픈 리딩 프레임(open reading frame)의 그래프식 설명이고, 이러한 PUFA PKS 시스템의 도메인 구조를 포함한다. 코어 스키조키트리움 PUFA PKS 시스템을 형성하는 3개의 오픈 리딩 프레임이 있다. 각각의 오픈 리딩 프레임의 도메인 구조는 하기와 같다.
스키조키트리움 오픈 리딩 프레임 A (OrfA):
OrfA에 대한 완전한 뉴클레오티드 서열이 본원에서 서열 1로 표시된다. OrfA는 뉴클레오티드 8730개의 서열 (정지 코돈 불포함)이고, 이는 본원에서 서열 2로 표시되는 아미노산 2910개의 서열을 코딩한다. OrfA 내에는 12개의 도메인이 있다: (a) 1개의 β-케토 아실-ACP 신테이즈 (KS) 도메인; (b) 1개의 말로닐-CoA:ACP 아실트랜스퍼레이즈 (MAT) 도메인; (c) 9개의 아실 캐리어 단백질 (ACP) 도메인; 및 (d) 1개의 케토리덕테이즈 (KR) 도메인. 스키조키트리움 종 ATCC 20888과 스키조키트리움 종, 균주 N230D로 표시되는 ATCC 20888의 딸 균주 양쪽 모두로부터의 OrfA를 코딩하는 게놈 DNA 클론 (플라스미드)이 단리되어 서열분석되었다. N230D는 지방산 함량에서의 변동에 대해 스크리닝된, 화학적으로 돌연변이 (NTG; 1-메틸-3-니트로-1-니트로소구아니딘)된 스키조키트리움 ATCC 20888의 1,000개를 초과하는 무작위로 선택된 생존물 중 하나이다. 이러한 특정 균주는 개선된 DHA 생산성의 가치가 있었다.
스키조키트리움 종 ATCC 20888으로부터 단리된, 본원에서 JK1126으로 기술되는 게놈 클론은, 본 발명가들이 아는 한, 서열 1의 위치 1에서 8730까지 스패닝(spanning)되는 뉴클레오티드 서열을 포함하고, 상응하는 서열 2의 아미노산 서열을 코딩한다. 게놈 클론 pJK1126 (pJK1126 OrfA 게놈 클론으로 표시됨; 스키조키트리움 ATCC 20888으로부터의 "OrfA" 유전자를 함유하는 대장균 플라스미드 벡터 형태)이 아메리칸 타입 컬쳐 컬렉션 (ATCC: American Type Culture Collection) (10801 University Boulevard, Manassas, Va. 20110-2209 USA)에 2006년 6월 8일 기탁되었고, ATCC 접속 번호 PTA-7648을 배정받았다. pJK1126 OrfA 게놈 클론의 뉴클레오티드 서열, 및 이러한 플라스미드에 의해 코딩되는 아미노산 서열이 본 발명에 포함된다.
스키조키트리움 종 N230D로부터 단리된, pJK306 OrfA 게놈 클론 및 pJK320 OrfA 게놈 클론으로 본원에서 기술되는 2개의 게놈 클론은, 본 발명가들이 아는 한, 서열 1의 뉴클레오티드 서열을 함께 포함하고 (중첩 클론), 서열 2의 아미노산 서열을 코딩한다. 게놈 클론 pJK306 (pJK306 OrfA 게놈 클론으로 표시됨; 스키조키트리움 종 N230D로부터의 OrfA 유전자의 5' 부분을 함유하는 대장균 플라스미드 형태 (pJK320과 2.2kB 중첩됨))이 아메리칸 타입 컬쳐 컬렉션 (ATCC) (10801 University Boulevard, Manassas, Va. 20110-2209 USA)에 2006년 6월 8일 기탁되었고, ATCC 접속 번호 PTA-7641을 배정받았다. pJK306 OrfA 게놈 클론의 뉴클레오티드 서열, 및 이러한 플라스미드에 의해 코딩되는 아미노산 서열이 본 발명에 포함된다. 게놈 클론 pJK320 (pJK320 OrfA 게놈 클론으로 표시됨; 스키조키트리움 종 N230D로부터의 OrfA 유전자의 3' 부분을 함유하는 대장균 플라스미드 형태 (pJK306과 2.2kB 중첩됨))이 아메리칸 타입 컬쳐 컬렉션 (ATCC) (10801 University Boulevard, Manassas, Va. 20110-2209 USA)에 2006년 6월 8일 기탁되었고, ATCC 접속 번호 PTA-7644를 배정받았다. pJK320 OrfA 게놈 클론의 뉴클레오티드 서열, 및 이러한 플라스미드에 의해 코딩되는 아미노산 서열이 본 발명에 포함된다.
OrfA 내의 제1 도메인은 본원에서 ORFA-KS로 또한 지칭되는 KS 도메인이고, ORFA-KS 도메인을 코딩하는 서열을 함유하는 뉴클레오티드 서열이 본원에서 서열 7 (서열 1의 위치 1-1500)로 표시된다. ORFA-KS 도메인을 함유하는 아미노산 서열이 본원에서 서열 8 (서열 2의 위치 1-500)로 표시된다. ORFA-KS 도메인이 활성 부위 모티프 DXAC* (*아실 결합 부위 C215)를 함유한다는 것을 유념한다. 또한, 스키조키트리움 KS 영역의 말단의 특징적인 모티프인 GFGG가 서열 2, 및 따라서 서열 8 내의 이러한 도메인에 존재한다.
OrfA 내의 제2 도메인은 본원에서 ORFA-MAT로 또한 지칭되는 MAT 도메인이고, ORFA-MAT 도메인을 코딩하는 서열을 함유하는 뉴클레오티드 서열이 본원에서 서열 9 (서열 1의 위치 1723-3000)로 표시된다. ORFA-MAT 도메인을 함유하는 아미노산 서열이 본원에서 서열 10 (서열 2의 위치 575-1000)으로 표시된다. MAT 도메인은 위치 93의 아스파르테이트 및 위치 94의 히스티딘 (각각 서열 2의 위치 667 및 668에 상응함)을 포함한다. ORFA-MAT 도메인이 본원에서 서열 11로 표시되는 활성 부위 모티프 GHS*XG (*아실 결합 부위 S706)를 함유한다는 것을 유념한다.
OrfA의 도메인 3-11은 본원에서 ORFA-ACP (서열 내의 제1 도메인은 ORFA-ACP1, 제2 도메인은 ORFA-ACP2, 제3 도메인은 ORFA-ACP3 등)로 또한 지칭되는 9개의 직렬(tandem) ACP 도메인이다. 제1 ACP 도메인인 ORFA-ACP1은 서열 1 (OrfA)의 대략적인 위치 3343에서 대략적인 위치 3600까지 스패닝된 뉴클레오티드 서열 내에 함유된다. ORFA-ACP1 도메인을 코딩하는 서열을 함유하는 뉴클레오티드 서열이 본원에서 서열 12 (서열 1의 위치 3343-3600)로 표시된다. 제1 ACP 도메인을 함유하는 아미노산 서열은 서열 2의 대략적인 위치 1115에서 대략적인 위치 1200까지 스패닝된다. ORFA-ACP1 도메인을 함유하는 아미노산 서열이 본원에서 서열 13 (서열 2의 위치 1115-1200)으로 표시된다. ORFA-ACP1 도메인이 본원에서 서열 14로 표시되는 활성 부위 모티프 LGIDS* (*판테테인 결합 모티프 S1157)를 함유한다는 것을 유념한다.
9개의 ACP 도메인 모두의 뉴클레오티드 및 아미노산 서열은 고도로 보존되고, 따라서, 각각의 도메인에 대한 서열은 본원에서 개별적인 서열 식별물로 표시되지 않는다. 그러나, 본원에 개시된 정보를 기초로, 당업자는 다른 나머지 8개의 ACP 도메인 각각을 함유하는 서열을 쉽게 결정할 수 있다. 모두 9개의 ACP 도메인은 함께 서열 1의 대략적인 위치 3283에서 대략적인 위치 6288까지의 OrfA의 영역에 스패닝되고, 이는 서열 2의 약 1095에서 약 2096까지의 아미노산 위치에 상응한다. 9개의 도메인 모두를 함유하는 전체 ACP 영역에 대한 뉴클레오티드 서열이 본원에서 서열 16으로 표시된다. 서열 16으로 표시되는 영역은 개별적인 ACP 도메인들 간의 링커 절편을 포함한다. 9개의 도메인에 대한 반복 간격은 대략적으로 서열 16의 뉴클레오티드 330개마다이다 (인접한 활성 부위 세린들 간에 측정된 아미노산의 실제 개수는 아미노산 104개 내지 116개의 범위이다). 9개의 ACP 도메인 각각이 판테테인 결합 모티프 LGIDS* (서열 14로 표시됨) [식중, S*는 판테테인 결합 부위 세린 (S)이다]를 함유한다. 판테테인 결합 부위 세린 (S)은 각각의 ACP 도메인 서열의 중심 근처에 위치한다. ACP 도메인 영역의 각각의 말단 및 각각의 ACP 도메인 사이에는 프롤린(P) 및 알라닌 (A)이 고도로 풍부한 영역이 있고, 이는 링커 영역인 것으로 여겨진다. 예를 들어, ACP 도메인 1과 2 사이에 본원에서 서열 15로 표시되는 APAPVKAAAPAAPVASAPAPA 서열이 있다. 서열 2의 아미노산 서열을 참조로, 9개의 ACP 도메인 각각에 대한 활성 부위 세린 잔기 (즉, 판테테인 결합 부위)의 위치는 하기와 같다: ACP1 = S1157; ACP2 = S1266; ACP3 = S1377; ACP4 = S1488; ACP5 = S1604; ACP6 = S1715; ACP7 = S1819; ACP8 = S1930; 및 ACP9 = S2034. ACP 도메인의 평균 크기가 링커를 제외하고 아미노산 약 85개이고, 링커를 포함하면 아미노산 약 110개이며, 활성 부위 세린이 대략적으로 도메인의 중심에 있음을 가정하면, 당업자는 OrfA 내의 9개의 ACP 도메인 각각의 위치를 쉽게 결정할 수 있다.
OrfA 내의 도메인 12는 본원에서 ORFA-KR로 또한 지칭되는 KR 도메인이고, ORFA-KR 도메인을 코딩하는 서열을 함유하는 뉴클레오티드 서열이 본원에서 서열 17 (서열 1의 위치 6598-8730)로 표시된다. ORFA-KR 도메인을 함유하는 아미노산 서열이 본원에서 서열 18 (서열 2의 위치 2200-2910)로 표시된다. KR 도메인 내에 단쇄 알데히드-디하이드로게네이즈 (KR은 이러한 패밀리의 구성원임)에 대한 상동성이 있는 코어 영역이 존재한다. 이러한 코어 영역은 서열 1의 대략적인 위치 7198에서 대략적인 위치 7500까지 스패닝되고, 이는 서열 2의 아미노산 위치 2400-2500에 상응한다.
스키조키트리움 오픈 리딩 프레임 B (OrfB):
OrfB에 대한 완전한 뉴클레오티드 서열이 본원에서 서열 3으로 표시된다. OrfB는 뉴클레오티드 6177개의 서열 (정지 코돈 불포함)이고, 이는 본원에서 서열 4로 표시되는 아미노산 2059개의 서열을 코딩한다. OrfB 내에서는 4개의 도메인이 있다: (a) 1개의 -케토 아실-ACP 신테이즈 (KS) 도메인; (b) 1개의 사슬 길이 인자 (CLF) 도메인; (c) 1개의 아실 트랜스퍼레이즈 (AT) 도메인; 및 (d) 1개의 에노일 ACP-리덕테이즈 (ER) 도메인.
스키조키트리움 종 ATCC 20888과 스키조키트리움 종, 균주 N230D로 표시되는 ATCC 20888의 딸 균주 양쪽 모두로부터의 OrfB를 코딩하는 게놈 DNA 클론 (플라스미드)이 단리되어 서열분석되었다.
스키조키트리움 종 ATCC 20888으로부터 단리된, 본원에서 pJK1129로 기술되는 게놈 클론은, 본 발명가들이 아는 한, 서열 3의 뉴클레오티드 서열을 포함하고, 서열 4의 아미노산 서열을 코딩한다. 게놈 클론 pJK1129 (pJK1129 OrfB 게놈 클론으로 표시됨; 스키조키트리움 ATCC 20888으로부터의 "OrfB" 유전자를 함유하는 대장균 플라스미드 벡터 형태)이 아메리칸 타입 컬쳐 컬렉션 (ATCC) (10801 University Boulevard, Manassas, Va. 20110-2209 USA)에 2006년 6월 8일 기탁되었고, ATCC 접속 번호 PTA-7649를 배정받았다. pJK1126 OrfB 게놈 클론의 뉴클레오티드 서열, 및 이러한 플라스미드에 의해 코딩되는 아미노산 서열이 본 발명에 포함된다.
스키조키트리움 종 N230D로부터 단리된, 본원에서 pJK324 OrfB 게놈 클론으로 기술되는 게놈 클론은, 본 발명가들이 아는 한, 서열 3의 뉴클레오티드 서열을 포함하고, 서열 4의 아미노산 서열을 코딩한다. 게놈 클론 pJK324 (pJK324 OrfB 게놈 클론으로 표시됨; 스키조키트리움 N230D로부터의 OrfB 유전자 서열을 함유하는 대장균 플라스미드 형태)이 아메리칸 타입 컬쳐 컬렉션 (ATCC) (10801 University Boulevard, Manassas, Va. 20110-2209 USA)에 2006년 6월 8일 기탁되었고, ATCC 접속 번호 PTA-7643을 배정받았다. pJK324 OrfB 게놈 클론의 뉴클레오티드 서열, 및 이러한 플라스미드에 의해 코딩되는 아미노산 서열이 본 발명에 포함된다.
OrfB 내의 제1 도메인은 본원에서 ORFB-KS로 또한 지칭되는 KS 도메인이고, ORFB-KS 도메인을 코딩하는 서열을 함유하는 뉴클레오티드 서열이 본원에서 서열 19 (서열 3의 위치 1-1350)로 표시된다. ORFB-KS 도메인을 함유하는 아미노산 서열이 본원에서 서열 20 (서열 4의 위치 1-450)으로 표시된다. 이러한 KS 도메인은 서열 20의 위치 371 (또한 서열 4의 위치 371)에 발린을 포함한다. ORFB-KS 도메인이 활성 부위 모티프 DXAC* (*아실 결합 부위 C196)를 함유한다는 것을 유념한다. 또한, 이러한 KS 영역의 말단의 특징적인 모티프인 GFGG가 서열 4, 및 따라서 서열 20 내의 이러한 도메인에 존재한다.
OrfB 내의 제2 도메인은 본원에서 ORFB-CLF로 또한 지칭되는 CLF 도메인이고, ORFB-CLF 도메인을 코딩하는 서열을 함유하는 뉴클레오티드 서열이 본원에서 서열 21 (서열 3의 위치 1378-2700)로 표시된다. ORFB-CLF 도메인을 함유하는 아미노산 서열이 본원에서 서열 22 (서열 4의 위치 460-900)로 표시된다. ORFB-CLF 도메인이 아실-결합 시스테인이 없는 KS 활성 부위 모티프를 함유한다는 것을 유념한다.
OrfB 내의 제3 도메인은 본원에서 ORFB-AT로 또한 지칭되는 AT 도메인이고, ORFB-AT 도메인을 코딩하는 서열을 함유하는 뉴클레오티드 서열이 본원에서 서열 23 (서열 3의 위치 2701-4200)로 표시된다. ORFB-AT 도메인을 함유하는 아미노산 서열이 본원에서 서열 24 (서열 4의 위치 901-1400)로 표시된다. ORFB-AT 도메인이 아실트랜스퍼레이즈 (AT) 단백질의 특성인 GxS*xG (*아실 결합 부위 S1140)의 활성 부위 모티프를 함유한다는 것을 유념한다.
OrfB 내의 제4 도메인은 본원에서 ORFB-ER로 또한 지칭되는 ER 도메인이고, ORFB-ER 도메인을 코딩하는 서열을 함유하는 뉴클레오티드 서열이 본원에서 서열 25 (서열 3의 위치 4648-6177)로 표시된다. ORFB-ER 도메인을 함유하는 아미노산 서열이 본원에서 서열 26 (서열 4의 위치 1550-2059)로 표시된다.
스키조키트리움 오픈 리딩 프레임 C (OrfC):
OrfC에 대한 완전한 뉴클레오티드 서열이 본원에서 서열 5로 표시된다. OrfC는 뉴클레오티드 4506개의 서열 (정지 코돈 불포함)이고, 이는 본원에서 서열 6으로 표시되는 아미노산 1502개의 서열을 코딩한다. OrfC 내에서는 3개의 도메인이 있다: (a) 2개의 FabA-유사 -히드록시 아실-ACP 디하이드레이즈 (DH) 도메인; 및 (b) 1개의 에노일 ACP-리덕테이즈 (ER) 도메인.
스키조키트리움 종 ATCC 20888과 스키조키트리움 종, 균주 N230D로 표시되는 ATCC 20888의 딸 균주 양쪽 모두로부터의 OrfC를 코딩하는 게놈 DNA 클론 (플라스미드)이 단리되어 서열분석되었다.
스키조키트리움 종 ATCC 20888으로부터 단리된, 본원에서 pJK1131로 기술되는 게놈 클론은, 본 발명가들이 아는 한, 서열 5의 뉴클레오티드 서열을 포함하고, 서열 6의 아미노산 서열을 코딩한다. 게놈 클론 pJK1131 (pJK1131 OrfC 게놈 클론으로 표시됨; 스키조키트리움 ATCC 20888으로부터의 "OrfC" 유전자를 함유하는 대장균 플라스미드 벡터 형태)이 아메리칸 타입 컬쳐 컬렉션 (ATCC) (10801 University Boulevard, Manassas, Va. 20110-2209 USA)에 2006년 6월 8일 기탁되었고, ATCC 접속 번호 PTA-7650을 배정받았다. pJK1131 OrfC 게놈 클론의 뉴클레오티드 서열, 및 이러한 플라스미드에 의해 코딩되는 아미노산 서열이 본 발명에 포함된다.
스키조키트리움 종 N230D로부터 단리된, 본원에서 pBR002 OrfC 게놈 클론으로 기술되는 게놈 클론은, 본 발명가들이 아는 한, 서열 5의 뉴클레오티드 서열을 포함하고, 서열 6의 아미노산 서열을 코딩한다. 게놈 클론 pBR002 (pBR002 OrfC 게놈 클론으로 표시됨; 스키조키트리움 N230D로부터의 OrfC 유전자를 함유하는 대장균 플라스미드 벡터 형태)이 아메리칸 타입 컬쳐 컬렉션 (ATCC) (10801 University Boulevard, Manassas, Va. 20110-2209 USA)에 2006년 6월 8일 기탁되었고, ATCC 접속 번호 PTA-7642를 배정받았다. pBR002 OrfC 게놈 클론의 뉴클레오티드 서열, 및 이러한 플라스미드에 의해 코딩되는 아미노산 서열이 본 발명에 포함된다.
OrfC 내의 제1 도메인은 본원에서 ORFC-DH1으로 또한 지칭되는 DH 도메인이다. 이는 OrfC 내의 2개의 DH 도메인 중 하나이고, 따라서 DH1으로 지정된다. ORFC-DH1 도메인을 코딩하는 서열을 함유하는 뉴클레오티드 서열이 본원에서 서열 27 (서열 5의 위치 1-1350)로 표시된다. ORFC-DH1 도메인을 함유하는 아미노산 서열이 본원에서 서열 28 (서열 6의 위치 1-450)로 표시된다.
OrfC 내의 제2 도메인은 본원에서 ORFC-DH2로 또한 지칭되는 DH 도메인이다. 이는 OrfC 내의 2개의 DH 도메인 중 두번째이고, 따라서 DH2로 지정된다. ORFC-DH2 도메인을 코딩하는 서열을 함유하는 뉴클레오티드 서열이 본원에서 서열 29 (서열 5의 위치 1351-2847)로 표시된다. ORFC-DH2 도메인을 함유하는 아미노산 서열이 본원에서 서열 30 (서열 6의 위치 451-949)로 표시된다. 이러한 DH 도메인은 서열 30의 위치 426-440에 아미노산 H-G-I-A-N-P-T-F-V-H-A-P-G-K-I (서열 6의 위치 876-890)를 포함한다.
OrfC 내의 제3 도메인은 본원에서 ORFC-ER로 또한 지칭되는 ER 도메인이고, ORFC-ER 도메인을 코딩하는 서열을 함유하는 뉴클레오티드 서열이 본원에서 서열 31 (서열 5의 위치 2995-4506)로 표시된다. ORFC-ER 도메인을 함유하는 아미노산 서열이 본원에서 서열 32 (서열 6의 위치 999-1502)로 표시된다.
트라우스토키트리움 PUFA PKS 시스템
코어 트라우스토키트리움 23B PUFA PKS 시스템을 형성하는 3개의 오픈 리딩 프레임이 있다. Th. 23B OrfA에는 8개의 인접한 ACP 도메인이 있는 반면, 스키조키트리움 OrfA에는 9개의 인접한 ACP 도메인이 있다는 것을 제외하고는 도메인 구성이 스키조키트리움의 구성과 동일하다. 각각의 오픈 리딩 프레임의 도메인 구조는 하기와 같다.
트라우스토키트리움 23B 오픈 리딩 프레임 A (OrfA):
Th. 23B OrfA에 대한 완전한 뉴클레오티드 서열이 본원에서 서열 38로 표시된다. Th. 23B OrfA는 뉴클레오티드 8433개의 서열 (정지 코돈 불포함)이고, 이는 본원에서 서열 39로 표시되는 아미노산 2811개의 서열을 코딩한다. 서열 38은 Th. 23B OrfA 내의 하기의 도메인들을 코딩한다: (a) 1개의 β-케토아실-ACP 신테이즈 (KS) 도메인; (b) 1개의 말로닐-CoA:ACP 아실트랜스퍼레이즈 (MAT) 도메인; (c) 8개의 아실 캐리어 단백질 (ACP) 도메인; 및 (d) 1개의 β-케토아실-ACP 리덕테이즈 (KR) 도메인.
트라우스토키트리움 23B로부터 단리된, Th23BOrfA_pBR812.1 및 Th23BOrfA_pBR811 (OrfA 게놈 클론)으로 본원에서 기술되는 2개의 게놈 클론은, 본 발명가들이 아는 한, 서열 38의 뉴클레오티드 서열을 함께 포함하고 (중첩 클론), 서열 39의 아미노산 서열을 코딩한다. 게놈 클론 Th23BOrfA_pBR812.1 (Th23BOrfA_pBR812.1 게놈 클론으로 표시됨; 트라우스토키트리움 23B로부터의 OrfA 유전자 서열을 함유하는 대장균 플라스미드 벡터 형태)가 아메리칸 타입 컬쳐 컬렉션 (ATCC) (10801 University Boulevard, Manassas, Va. 20110-2209 USA)에 2007년 3월 1일 기탁되었고, ATCC 접속 번호 PTA-8232를 배정받았다. OrfA 게놈 클론인 Th23BOrfA_pBR812.1의 뉴클레오티드 서열, 및 이러한 플라스미드에 의해 코딩되는 아미노산 서열이 본 발명에 포함된다. 게놈 클론 Th23BOrfA_pBR811 (Th23BOrfA_pBR811 게놈 클론으로 표시됨, 트라우스토키트리움 23B로부터의 OrfA 유전자 서열을 함유하는 대장균 플라스미드 벡터 형태)가 아메리칸 타입 컬쳐 컬렉션 (ATCC) (10801 University Boulevard, Manassas, Va. 20110-2209 USA)에 2007년 3월 1일 기탁되었고, ATCC 접속 번호 PTA-8231을 배정받았다. OrfA 게놈 클론인 Th23BOrfA_pBR811의 뉴클레오티드 서열, 및 이러한 플라스미드에 의해 코딩되는 아미노산 서열이 본 발명에 포함된다.
Th. 23B OrfA 내의 제1 도메인은 본원에서 Th. 23B OrfA-KS로 또한 지칭되는 KS 도메인이고, 이는 본원에서 서열 40으로 표시되는, 서열 38의 대략적인 위치 1에서 대략적인 위치 1500까지 스패닝되는 뉴클레오티드 서열 내에 함유된다. Th. 23B KS 도메인을 함유하는 아미노산 서열은 본원에서 서열 41로 표시되는, 서열 39의 대략적인 위치 1에서 대략적인 위치 500까지 스패닝되는 서열 39의 영역이다. 서열 39의 이러한 영역에는 서열 39의 위치 1에서 대략적인 위치 450 (또한 서열 41의 위치 1 내지 약 450)에 스패닝되는 FabB (β-케토아실-ACP 신테이즈)에 대한 Pfam 매치가 있다. Th. 23B OrfA-KS 도메인이 활성 부위 모티프 DXAC* (*아실 결합 부위 C207)를 함유한다는 것을 유념한다. 또한, Th. 23B KS 영역의 말단의 특징적인 모티프인 GFGG가 서열 39의 위치 453-456 (또한 서열 41의 위치 453-456) 내에 존재한다.
Th. 23B OrfA 내의 제2 도메인은 본원에서 Th. 23B OrfA-MAT로 또한 지칭되는 MAT 도메인이고, 이는 본원에서 서열 42로 표시되는, 서열 38의 대략적인 위치 1503와 대략적인 위치 3000 사이에 스패닝되는 뉴클레오티드 서열 내에 함유된다. Th. 23B MAT 도메인을 함유하는 아미노산 서열은 본원에서 서열 43으로 표시되는, 대략적인 위치 501에서 대략적인 위치 1000까지 스패닝되는 서열 39의 영역이다. 서열 39의 이러한 영역에는 서열 39의 대략적인 위치 580 내지 대략적인 위치 900 (또한 서열 43의 위치 80-400)에 스패닝되는 FabD (말로닐-CoA:ACP 아실트랜스퍼레이즈)에 대한 Pfam 매치가 있다. Th. 23B OrfA-MAT 도메인이 서열 39의 위치 695-699로 표시되는 활성 부위 모티프 GHS*XG (*아실 결합 부위 S697)를 함유한다는 것을 유념한다.
Th. 23B OrfA의 도메인 3-10은 본원에서 Th. 23B OrfA-ACP (서열 내의 제1 도메인은 OrfA-ACP1, 제2 도메인은 OrfA-ACP2, 제3 도메인은 OrfA-ACP3 등)로 또한 지칭되는 8개의 직렬 ACP 도메인이다. 제1 Th. 23B ACP 도메인인 Th. 23B OrfA-ACP1은 본원에서 서열 44로 표시되는, 서열 38 (OrfA)의 대략적인 위치 3205에서 대략적인 위치 3555까지 스패닝된 뉴클레오티드 서열 내에 함유된다. 제1 Th. 23B ACP 도메인을 함유하는 아미노산 서열은 본원에서 서열 45로 표시되는, 서열 39의 대략적인 위치 1069에서 대략적인 위치 1185까지 스패닝되는 서열 39의 영역이다.
Th. 23B OrfA 내의 8개의 ACP 도메인은 서로 인접하고, 포스포판테테인 결합 부위 모티프인 LGXDS* (서열 46으로 표시됨) [식중, S*는 포스포판테테인 부착 부위이다]의 존재에 의해 확인될 수 있다. 서열 39를 참조로, 8개의 S* 부위 각각의 아미노산 위치는 1128 (ACP1), 1244 (ACP2), 1360 (ACP3), 1476 (ACP4), 1592 (ACP5), 1708 (ACP6), 1824 (ACP7) 및 1940 (ACP8)이다. 8개의 Th. 23B ACP 도메인 모두의 뉴클레오티드 및 아미노산 서열은 고도로 보존되고, 따라서, 각각의 도메인에 대한 서열은 본원에서 개별적인 서열 식별물로 표시되지 않는다. 그러나, 본원에 개시된 정보를 기초로, 당업자는 서열 38 및 39에서 다른 7개의 ACP 도메인 각각을 함유하는 서열을 쉽게 결정할 수 있다.
모두 8개의 Th. 23B ACP 도메인은 함께 서열 38의 대략적인 위치 3205에서 대략적인 위치 5994까지의 Th. 23B OrfA의 영역에 스패닝되고, 이는 서열 39의 약 1069에서 약 1998까지의 아미노산 위치에 상응한다. 8개의 도메인 모두를 함유하는 전체 ACP 영역에 대한 뉴클레오티드 서열이 본원에서 서열 47로 표시된다. 서열 47은 본원에서 서열 48로 표시되는 아미노산 서열을 코딩한다. 서열 48은 개별적인 ACP 도메인들 간의 링커 절편을 포함한다. 8개의 도메인에 대한 반복 간격은 대략적으로 서열 48의 뉴클레오티드 116개마다이고, 각각의 도메인은 활성 부위 모티프에 중심이 있는 약 116개의 아미노산을 구성되는 것으로 간주될 수 있다 (상기 기술됨).
Th. 23B OrfA 내의 마지막 도메인은 본원에서 Th. 23B OrfA-KR로 또한 지칭되는 KR 도메인이고, 본원에서 서열 49로 표시되는, 서열 38의 대략적인 위치 6001에서 대략적인 위치 8433 사이에 스패닝되는 뉴클레오티드 서열 내에 함유된다. Th. 23B KR 도메인을 함유하는 아미노산 서열은 본원에서 서열 50으로 표시되는, 서열 39의 대략적인 위치 2001에서 대략적인 위치 2811까지 스패닝되는 서열 39의 영역이다. 서열 39의 이러한 영역에는 서열 39의 대략적인 위치 2300 내지 약 2550 (또한 서열 50의 위치 300-550)에 스패닝되는 FabG (β-케토아실-ACP 리덕테이즈)에 대한 Pfam 매치가 있다.
트라우스토키트리움 23B 오픈 리딩 프레임 B (OrfB):
Th. 23B OrfB에 대한 완전한 뉴클레오티드 서열이 본원에서 뉴클레오티드 5805개의 서열 (정지 코돈 불포함)인 서열 51로 표시되고, 이는 본원에서 서열 52로 표시되는 아미노산 1935개의 서열을 코딩한다. 서열 51은 Th. 23B OrfB 내의 하기의 도메인들을 코딩한다: (a) 1개의 β-케토아실-ACP 신테이즈 (KS) 도메인; (b) 1개의 사슬 길이 인자 (CLF) 도메인; (c) 1개의 아실트랜스퍼레이즈 (AT) 도메인; 및 (d) 1개의 에노일-ACP 리덕테이즈 (ER) 도메인.
트라우스토키트리움 23B로부터 단리된, Th23BOrfB_pBR800 (OrfB 게놈 클론)으로 본원에서 기술되는 게놈 클론은, 본 발명가들이 아는 한, 서열 51의 뉴클레오티드 서열을 포함하고, 서열 52의 아미노산 서열을 코딩한다. 게놈 클론 Th23BOrfB_pBR800 (Th23BOrfB_pBR800 게놈 클론으로 표시됨; 트라우스토키트리움 23B로부터의 OrfB 유전자 서열을 함유하는 대장균 플라스미드 벡터 형태)가 아메리칸 타입 컬쳐 컬렉션 (ATCC) (10801 University Boulevard, Manassas, Va. 20110-2209 USA)에 2007년 3월 1일 기탁되었고, ATCC 접속 번호 PTA-8227을 배정받았다. OrfB 게놈 클론인 Th23BOrfB_pBR800의 뉴클레오티드 서열, 및 이러한 플라스미드에 의해 코딩되는 아미노산 서열이 본 발명에 포함된다.
Th. 23B OrfB 내의 제1 도메인은 본원에서 Th. 23B OrfB-KS로 또한 지칭되는 KS 도메인이고, 이는 본원에서 서열 53으로 표시되는, 서열 51 (Th. 23B OrfB)의 대략적인 위치 1과 대략적인 위치 1500 사이에 스패닝되는 뉴클레오티드 서열 내에 함유된다. Th. 23B KS 도메인을 함유하는 아미노산 서열은 본원에서 서열 54로 표시되는, 서열 52의 대략적인 위치 1에서 대략적인 위치 500까지 스패닝되는 서열 52의 영역이다. 서열 52의 이러한 영역에는 위치 1에서 대략적인 위치 450 (또한 서열 54의 위치 1-450)에 스패닝되는 FabB (β-케토아실-ACP 신테이즈)에 대한 Pfam 매치가 있다. Th. 23B OrfB-KS 도메인이 활성 부위 모티프 DXAC* [식중, C*는 아실 기 부착 부위이고, C*는 서열 52의 위치 201에 있다]를 함유한다는 것을 유념한다. 또한, KS 영역의 말단의 특징적인 모티프인 GFGG가 서열 52의 위치 434-437 내에 존재한다.
Th. 23B OrfB 내의 제2 도메인은 본원에서 Th. 23B OrfB-CLF로 또한 지칭되는 CLF 도메인이고, 이는 본원에서 서열 55로 표시되는, 서열 51 (Th. 23B OrfB)의 대략적인 위치 1501과 대략적인 위치 3000 사이에 스패닝되는 뉴클레오티드 서열 내에 함유된다. CLF 도메인을 함유하는 아미노산 서열은 본원에서 서열 56으로 표시되는, 서열 52의 대략적인 위치 501에서 대략적인 위치 1000까지 스패닝되는 서열 52의 영역이다. 서열 52의 이러한 영역에는 대략적인 위치 550 내지 대략적인 위치 910 (서열 56의 위치 50-410)에 스패닝되는 FabB (β-케토아실-ACP 신테이즈)에 대한 Pfam 매치가 있다. CLF에 KS 단백질에 대한 상동성이 있지만, CLF에는 KS 단백질 내의 아실 기가 부착되는 활성 부위 시스테인이 없다.
Th. 23B OrfB 내의 제3 도메인은 본원에서 Th. 23B OrfB-AT로 또한 지칭되는 AT 도메인이고, 이는 본원에서 서열 57로 표시되는, 서열 51 (Th. 23B OrfB)의 대략적인 위치 3001과 대략적인 위치 4500 사이에 스패닝되는 뉴클레오티드 서열 내에 함유된다. Th. 23B AT 도메인을 함유하는 아미노산 서열은 본원에서 서열 58으로 표시되는, 서열 52의 대략적인 위치 1001에서 대략적인 위치 1500까지 스패닝되는 서열 52의 영역이다. 서열 52의 이러한 영역에는 대략적인 위치 1100 내지 대략적인 위치 1375 (서열 58의 위치 100-375)에 스패닝되는 FabD (말로닐-CoA:ACP 아실트랜스퍼레이즈)에 대한 Pfam 매치가 있다. PUFA 신테이즈의 이러한 AT 도메인에 MAT 단백질에 대한 상동성이 있지만, AT 도메인에는 MAT의 연장된 모티프 (주요 아르기닌 및 글루타민 잔기)가 없고, AT 도메인은 말로닐-CoA 전달에 수반되는 것으로 생각되지 않는다. 아실트랜스퍼레이즈의 GXS*XG 모티프가 존재하고, 이때 S*는 아실 부착 부위이고, 서열 52와 관련하여 위치 1123에 위치한다.
Th. 23B OrfB 내의 제4 도메인은 본원에서 Th. 23B OrfB-ER로 또한 지칭되는 ER 도메인이고, 이는 본원에서 서열 59로 표시되는, 서열 51 (OrfB)의 대략적인 위치 4501과 대략적인 위치 5805 사이에 스패닝되는 뉴클레오티드 서열 내에 함유된다. Th. 23B ER 도메인을 함유하는 아미노산 서열은 본원에서 서열 60으로 표시되는, 서열 52의 대략적인 위치 1501에서 대략적인 위치 1935까지 스패닝되는 서열 52의 영역이다. 서열 52의 이러한 영역에는 대략적인 위치 1501 내지 대략적인 위치 1810 (서열 60의 위치 1-310)에 스패닝되는 2-니트로프로판 디옥시게네이즈(dioxygenase)와 관련된 디옥시게네이즈 패밀리에 대한 Pfam 매치가 있다. 스트렙토코쿠스 뉴모니아에로부터의 새롭게 특성화된 ER 효소에 대한 상동성으로 인해 이러한 도메인이 ER로 기능한다는 것이 추가로 예측될 수 있다.
트라우스토키트리움 23B 오픈 리딩 프레임 C (OrfC):
Th. 23B OrfC에 대한 완전한 뉴클레오티드 서열이 본원에서 뉴클레오티드 4410개의 서열 (정지 코돈 불포함)인 서열 61로 표시되고, 이는 본원에서 서열 62로 표시되는 아미노산 1470개의 서열을 코딩한다. 서열 61은 Th. 23B OrfC 내의 하기의 도메인들을 코딩한다: (a) 양쪽 모두 FabA 단백질 (트랜스-1-데케노일-ACP의 합성 및 이러한 생성물의 시스-3-데케노일-ACP로의 가역적인 이성화를 촉매하는 효소)에 대한 상동성이 있는, 2개의 FabA-유사 β-히드록시아실-ACP 디하이드레이즈 (DH) 도메인; 및 (b) 스키조키트리움 OrfB의 ER 도메인에 대한 상동성이 높은 1개의 에노일-ACP 리덕테이즈 (ER) 도메인.
트라우스토키트리움 23B로부터 단리된, Th23BOrfC_pBR709A (OrfC 게놈 클론)로 본원에서 기술되는 게놈 클론은, 본 발명가들이 아는 한, 서열 61의 뉴클레오티드 서열을 포함하고, 서열 62의 아미노산 서열을 코딩한다. 게놈 클론 Th23BOrfC_pBR709A (Th23BOrfC_pBR709A 게놈 클론으로 표시됨; 트라우스토키트리움 23B로부터의 OrfC 유전자 서열을 함유하는 대장균 플라스미드 벡터 형태)가 아메리칸 타입 컬쳐 컬렉션 (ATCC) (10801 University Boulevard, Manassas, Va. 20110-2209 USA)에 2007년 3월 1일 기탁되었고, ATCC 접속 번호 PTA-8228을 배정받았다. OrfC 게놈 클론인 Th23BOrfC_pBR709A의 뉴클레오티드 서열, 및 이러한 플라스미드에 의해 코딩되는 아미노산 서열이 본 발명에 포함된다.
Th. 23B OrfC 내의 제1 도메인은 본원에서 Th. 23B OrfC-DH1으로 또한 지칭되는 DH 도메인이고, 이는 본원에서 서열 63으로 표시되는, 서열 61 (OrfC)의 대략적인 위치 1과 대략적인 위치 1500 사이에 스패닝되는 뉴클레오티드 서열 내에 함유된다. Th. 23B DH1 도메인을 함유하는 아미노산 서열은 본원에서 서열 64로 표시되는, 서열 62의 대략적인 위치 1에서 대략적인 위치 500까지 스패닝되는 서열 62의 영역이다. 서열 62의 이러한 영역에는 대략적인 위치 275에서 대략적인 위치 400 (서열 64의 위치 275-400)에 스패닝되는 FabA (상기 언급된 바와 같음)에 대한 Pfam 매치가 있다.
Th. 23B OrfC 내의 제2 도메인은 본원에서 Th. 23B OrfC-DH2로 또한 지칭되는 DH 도메인이고, 이는 본원에서 서열 65로 표시되는, 서열 61 (OrfC)의 대략적인 위치 1501 내지 대략적인 3000 사이에 스패닝되는 뉴클레오티드 서열 내에 함유된다. Th. 23B DH2 도메인을 함유하는 아미노산 서열은 본원에서 서열 66으로 표시되는, 서열 62의 대략적인 위치 501에서 대략적인 위치 1000까지 스패닝되는 서열 62의 영역이다. 서열 62의 이러한 영역에는 대략적인 위치 800에서 대략적인 위치 925 (서열 66의 위치 300-425)에 스패닝되는 FabA (상기 언급된 바와 같음)에 대한 Pfam 매치가 있다.
Th. 23B OrfC 내의 제3 도메인은 본원에서 Th. 23B OrfC-ER로 또한 지칭되는 ER 도메인이고, 이는 본원에서 서열 67로 표시되는, 서열 61 (OrfC)의 대략적인 위치 3001 내지 대략적인 위치 4410 사이에 스패닝되는 뉴클레오티드 서열 내에 함유된다. Th. 23B ER 도메인을 함유하는 아미노산 서열은 본원에서 서열 68로 표시되는, 서열 62의 대략적인 위치 1001에서 대략적인 위치 1470까지 스패닝되는 서열 62의 영역이다. 서열 62의 이러한 영역에는 대략적인 위치 1025 내지 대략적인 위치 1320 (서열 68의 위치 25-320)에 스패닝되는 2-니트로프로판 디옥시게네이즈와 관련된 디옥시게네이즈 (상기 언급된 바와 같음)에 대한 Pfam 매치가 있다. 스트렙토코쿠스 뉴모니아에로부터의 새롭게 특성화된 ER 효소에 대한 상동성으로 인해 이러한 도메인이 ER로 기능한다는 것이 추가로 예측될 수 있다.
코돈-최적화 합성 구축물
본 발명은 주로 이종 생물 (이종 숙주)에 대해 코돈 사용빈도가 최적화된, 본원에서 기술된 핵산 서열 중 임의의 것의 재합성 버젼을 또한 포함하고, 이때 코딩되는 아미노산 서열은 천연, 야생형 또는 공급원 아미노산 서열에 관하여 변화되지 않는다. 본 발명가들은 최적의 코돈 사용빈도에 대해 핵산 서열을 재합성하는 것이 PUFA PKS 시스템으로부터의 핵산 분자로 형질전환된 이종 숙주에서의 PUFA 생산을 개선하기 위한 효과적인 방식이라는 것을 발견하였다. PUFA PKS 시스템 내의 모든 핵산 분자의 재합성이 이종 숙주에서의 최적의 발현 및 PUFA 생산을 위해 반드시 필요하지는 않다. 실제로, 본 발명가들은 단지 약간의 핵산 분자의 재합성이 PUFA 생산을 개선하는데 충분하다는 것을 발견하였다. 예를 들어, 스키조키트리움 OrfA 및 OrfB의 재합성이 효모에서의 PUFA 신테이즈 발현 및 PUFA 생산을 개선한 한편, 천연 스키조키트리움 OrfC 및 천연 노스톡 HetI PPTase의 사용이 충분하였다. 또한, 한 이종 숙주에서의 사용을 위한 구축물의 코돈 최적화가 상이한 이종 숙주에서의 PUFA 생산을 개선하는데 또한 유용할 수 있다 (예를 들어, 스키조키트리움에서 사용하기 위한 트라우스토키트리움으로부터의 OrfC-코딩 서열의 코돈 사용빈도의 최적화가 또다른 이종 숙주 생물, 예컨대 식물에서 PUFA 생산을 증진시키는데 또한 효과적일 수 있다).
또한, 코돈-최적화 합성 구축물의 사용이 하나의 PUFA PKS 시스템 (예를 들어, 제1 생물로부터의 것)으로부터의 도메인 또는 단백질이 제2 PUFA PKS 시스템 (예를 들어, 제2 생물로부터의 것) 내로 도입되는 키메라 PUFA PKS 구축물 및/또는 키메라 PUFA PKS 시스템의 생산에 유용할 수 있다. 이러한 시스템에서, PUFA 프로파일이 조작될 수 있을 뿐만 아니라 (예를 들어, 키메라 구축물 및/또는 키메라 PUFA PKS 시스템의 사용에 의해), 코돈-최적화 합성 키메라 구축물의 사용에 의해 PUFA 생산이 또한 개선될 수 있다. 실제로, 2가지 개념 (키메라 및 코돈 최적화)의 조합은 PUFA 프로파일 및/또는 PUFA 생산과 관련하여 상승작용적인 결과를 일으킬 수 있다. 숙주에 대해 코돈-최적화된 일부 서열 및 숙주에 대해 코돈-최적화되지 않은 일부 서열을 함유하는 키메라 시스템이 본 발명에 포함된다.
특정 코돈-최적화 서열이 예로서 하기에 기술된다. 또다른 코돈-최적화 서열들이 이러한 기술에 따라 당업자에게 명백할 것이다.
sOrfA
sOrfA로 표시되는 서열 35는 효모에서의 최적화된 코돈 사용빈도를 위해 재합성된 스키조키트리움로부터의 OrfA를 코딩하는 핵산 서열 (서열 1)을 나타낸다. 서열 1 및 서열 35은 각각 서열 2를 코딩한다.
sOrfB
sOrfB로 표시되는 서열 36은 효모에서의 최적화된 코돈 사용빈도를 위해 재합성된 스키조키트리움로부터의 OrfB를 코딩하는 핵산 서열 (서열 3)을 나타낸다. 서열 3 및 서열 36은 각각 서열 4를 코딩한다.
OrfB*
OrfB* (pJK962)로 표시되는 서열 37은 식물 세포에서의 사용을 위해 서열 3 (서열 4를 코딩하는 뉴클레오티드 서열)의 일부분 내에서 재합성되고, OrfB* (pJK780)로 또한 지칭되는, 대장균에서의 최적화된 코돈 사용빈도를 위해 최초로 개발된 매우 유사한 서열 (하기에 기술됨)로부터 유래된, 스키조키트리움으로부터의 OrfB (서열 4)를 코딩하는 핵산 서열을 나타낸다. 양쪽 모두 (대장균용 및 식물용)의 형태의 OrfB*는 재합성된 BspHI (서열 3의 뉴클레오티드 4415) 내지 SacII 단편 (서열 3 내의 유일한 부위)를 제외하고는 서열 3과 동일하다. 양쪽 버젼 (대장균 및 식물) 모두에 orfB의 원래의 게놈 서열 (서열 3)과 비교하여 유전자의 시작부 근처에 2개의 또다른 코돈 변형이 있다. 첫번째로, 4번째 코돈인 아르기닌 (R)이 게놈 서열의 CGG로부터 orfB*의 CGC로 변화되었다. 두번째로, 5번째 코돈인 아스파라긴 (N)이 게놈 서열의 AAT로부터 orfB*의 AAC로 변화되었다. 서열 37이 생성되도록 이러한 유전자를 식물 벡터 내로 클로닝하는 것을 용이하게 하기 위해, PstI 부위 (CTGCAG)가 유전자의 시작부로부터 염기 20개만큼 떨어진 대장균 orfB* 서열 내로 또한 조작되었다. 이러한 변화는 코딩되는 단백질의 아미노산 서열을 변경하지 않았다. 서열 37 및 서열 3 양쪽 모두 (뿐만 아니라, 하기에 서열 69로 기술된, 대장균으로부터의 OrfB*)는 서열 4를 코딩한다.
OrfB* (pJK780)로 표시되는 서열 69는 대장균에서의 사용을 위해 서열 3 (서열 4를 코딩하는 뉴클레오티드 서열)의 일부분 내에서 재합성된 스키조키트리움으로부터의 OrfB (서열 4)를 코딩하는 핵산 서열을 나타낸다. 양쪽 형태 (대장균용 및 식물용)의 OrfB* 구축물의 서열이 상기 기술되었다. 서열 69 및 서열 3은 서열 4를 코딩한다.
OrfB*_pJK780으로 본원에 기술된 플라스미드는, 본 발명가들이 아는 한, 서열 69의 뉴클레오티드 서열을 포함하고, 서열 4의 아미노산 서열을 코딩한다. 플라스미드 OrfB*_pJK780 (OrfB*_pJK780 클론으로 표시됨; 대장균 플라스미드 벡터 형태)가 아메리칸 타입 컬쳐 컬렉션 (ATCC) (10801 University Boulevard, Manassas, Va. 20110-2209 USA)에 2007년 3월 1일 기탁되었고, ATCC 접속 번호 PTA-8225를 배정받았다. OrfB*_pJK780의 뉴클레오티드 서열, 및 이러한 플라스미드에 의해 코딩되는 아미노산 서열이 본 발명에 포함된다.
pThOrfC-synPS
서열 70은 스키조키트리움에서의 최적화된 코돈 사용빈도를 위해 재합성된 트라우스토키트리움 23B OrfC를 코딩하는 핵산 서열 (서열 61; 서열 62를 코딩함)을 나타낸다. 서열 70의 위치 2000-6412는 트라우스토키트리움 23B OrfC 단백질에 대한 코딩 영역 (정지 코돈 포함)을 나타낸다. 서열 70의 위치 1-1999 및 6413-8394는 상류 및 하류 스키조키트리움 OrfC 서열 (비-코딩 영역)을 각각 나타낸다. pThOrfC-synPS로 표시되는, 서열 70을 함유하는 플라스미드의 구축이 실시예 1에 상세하게 기술된다. 서열 70 및 서열 61은 각각 서열 62를 코딩한다. pThOrfC-synPS는 스키조키트리움 orfC의 코딩 영역 (CDS) (서열 5)을 상기 논의된 바와 같이 재합성된 트라우스토키트리움 23B orfC에 대한 코딩 영역 (서열 70)으로 정확하게 교체하기 위해 디자인된다. 이러한 구축물로 형질전환된 생물의 생산 및 용도가 하기 및 실시예에서 상세하게 기술된다.
상기에서 pThOrfC-synPS로 기술된 플라스미드는, 본 발명가들이 아는 한, 서열 70의 뉴클레오티드 서열을 포함하고, 상응하는 서열 62의 아미노산 서열을 코딩한다. 플라스미드 pThOrfC-synPS (pThOrfC-synPS로 표시됨; 스키조키트리움 또는 기타 이종 숙주에서의 발현을 위해 최적화된 "완벽한 스티치(stitch)"의 합성 트라우스토키트리움 23B PUFA PKS OrfC 코돈을 함유하는 대장균 플라스미드 벡터 형태)가 아메리칸 타입 컬쳐 컬렉션 (ATCC) (10801 University Boulevard, Manassas, Va. 20110-2209 USA)에 2007년 3월 1일 기탁되었고, ATCC 접속 번호 PTA-8229를 배정받았다. pThOrfC-synPS의 뉴클레오티드 서열, 및 이러한 플라스미드에 의해 코딩되는 아미노산 서열이 본 발명에 포함된다.
pDD26
서열 71은 스키조키트리움에서의 최적화된 코돈 사용빈도를 위해 재합성된 트라우스토키트리움 23B OrfA를 코딩하는 핵산 서열 (서열 38; 서열 39를 코딩함)을 나타낸다. 서열 71의 위치 2044-10479는 트라우스토키트리움 23B OrfA 단백질에 대한 코딩 영역 (정지 코돈 포함)을 나타낸다. 서열 71의 위치 1-2043 및 10480-12495는 상류 및 하류 스키조키트리움 OrfA 서열 (비-코딩 영역)을 각각 나타낸다. pDD26으로 표시되는, 서열 71을 함유하는 플라스미드의 구축이 실시예 8에 상세하게 기술된다. 서열 71 및 서열 38은 각각 서열 39를 코딩한다. pDD26은 스키조키트리움 orfA의 코딩 영역 (CDS) (서열 1)을 상기 논의된 바와 같이 재합성된 트라우스토키트리움 23B OrfA에 대한 코딩 영역 (서열 71)로 정확하게 교체하기 위해 디자인된다. 이러한 구축물로 형질전환된 생물의 생산 및 용도가 하기 및 실시예에서 상세하게 기술된다.
상기에서 pDD26으로 기술된 플라스미드는, 본 발명가들이 아는 한, 서열 71의 뉴클레오티드 서열을 포함하고, 상응하는 서열 39의 아미노산 서열을 코딩한다. 플라스미드 pDD26 (pDD26으로 표시됨; 대장균 플라스미드 벡터 형태)가 아메리칸 타입 컬쳐 컬렉션 (ATCC) (10801 University Boulevard, Manassas, Va. 20110-2209 USA)에 2007년 5월 8일 기탁되었고, ATCC 접속 번호 PTA-8411을 배정받았다. pDD26의 뉴클레오티드 서열, 및 이러한 플라스미드에 의해 코딩되는 아미노산 서열이 본 발명에 포함된다.
pDD32
서열 72는 스키조키트리움에서의 최적화된 코돈 사용빈도를 위해 재합성된 트라우스토키트리움 23B OrfB를 코딩하는 핵산 서열 (서열 51; 서열 52를 코딩함)을 나타낸다. 서열 72의 위치 1452-7259는 트라우스토키트리움 23B OrfB 단백질에 대한 코딩 영역 (정지 코돈 포함)을 나타낸다. 서열 72의 위치 1-1451 및 7260-8647은 상류 및 하류 스키조키트리움 OrfB 서열 (비-코딩 영역)을 각각 나타낸다. pDD32으로 표시되는, 서열 72를 함유하는 플라스미드의 구축이 실시예 8에 상세하게 기술된다. 서열 72 및 서열 51은 각각 서열 52를 코딩한다. pDD32는 스키조키트리움 orfB의 코딩 영역 (CDS) (서열 3)을 상기 논의된 바와 같이 재합성된 트라우스토키트리움 23B orfB에 대한 코딩 영역 (서열 72)로 정확하게 교체하기 위해 디자인된다. 이러한 구축물로 형질전환된 생물의 생산 및 용도가 하기 및 실시예에서 상세하게 기술된다.
상기에서 pDD32로 기술된 플라스미드는, 본 발명가들이 아는 한, 서열 72의 뉴클레오티드 서열을 포함하고, 상응하는 서열 52의 아미노산 서열을 코딩한다. 플라스미드 pDD32 (pDD32로 표시됨; 대장균 플라스미드 벡터 형태)가 아메리칸 타입 컬쳐 컬렉션 (ATCC) (10801 University Boulevard, Manassas, Va. 20110-2209 USA)에 2007년 5월 8일 기탁되었고, ATCC 접속 번호 PTA-8412를 배정받았다. pDD32의 뉴클레오티드 서열, 및 이러한 플라스미드에 의해 코딩되는 아미노산 서열이 본 발명에 포함된다.
키메라 PUFA PKS 구축물
본 발명은 키메라 PUFA PKS 단백질을 생산하기 위해 2가지 이상의 상이한 PUFA PKS 핵산 서열, 예컨대 본원에 기술된 것들의 일부분을 사용하는 키메라 구축물을 또한 포함한다. 본 발명가들은 상이한 생물들로부터의 PUFA PKS 단백질의 도메인들 또는 일부분들을 "혼합하고 매칭(matching)"시킴 (즉, 2가지 이상의 상이한 생물로부터의 도메인 또는 폴리펩티드로 구성된 키메라 PUFA PKS 단백질을 생성시킴)으로써, 이러한 키메라 단백질을 함유하는 PUFA PKS 시스템을 발현하는 생물에 의해 생산된 PUFA의 프로파일이 천연 (천연 발생) PUFA PKS 시스템과 비교하여 변형될 수 있다는 것을 본원에서 여러 상이한 예에서 실연하였다. 예를 들어, 본 발명가들은 생성된 키메라 OrfC 단백질이 스키조키트리움으로부터의 DH1 및 ER 도메인 및 트라우스토키트리움으로부터의 DH2 도메인을 함유하도록, 트라우스토키트리움 PUFA PKS 시스템으로부터의 DH2 도메인을 스키조키트리움 단백질의 OrfC 단백질에서 사용하는 것을 본원에서 기술한다. 한 구축물에서는 코돈-최적화 (스키조키트리움에 대한 최적화) 트라우스토키트리움 DH2 도메인, 또다른 구축물에서는 천연 트라우스토키트리움 DH2 도메인을 사용하는 것에 의해 키메라 구축물이 추가로 변형되고, 이는 본원에 기술된 다양한 변형의 유연성 및 효과를 실연한다.
특정 키메라 구축물이 예로서 하기에 기술된다. 또다른 키메라 구축물들이 이러한 기술에 따라 당업자에게 명백할 것이다.
pDS49
서열 73은 DH2 도메인 (서열 30)이 트라우스토키트리움 23B OrfC (서열 62)로부터의 DH2 도메인 (서열 66을 포함하는 서열)로 교체된 스키조키트리움 OrfC 단백질 (서열 6)을 포함하는 키메라 단백질을 코딩하는 핵산 서열을 나타낸다. 이러한 키메라 구축물에서, 트라우스토키트리움으로부터의 DH2-코딩 서열은 천연 (코돈-최적화되지 않은) 서열이다. pDS49로 표시되는, 서열 73을 함유하는 플라스미드의 구축이 실시예 2에 상세하게 기술된다. pDS49에서 서열 73에 플랭킹(flanking)되는 스키조키트리움 OrfC 상류 및 하류 비-코딩 서열은 서열 70과 관련하여 상기 기술된 것들과 동일하다 (서열 73에서 표시되지 않음). 서열 73은 서열 74의 아미노산 서열을 코딩한다. 서열 74에 대해 언급하자면, 이러한 키메라 OrfC 폴리펩티드는 아미노산 잔기 1493개의 길이이다. 서열 74의 아미노산 516-1041으로 정의되는 DH2 영역은 Th.23B OrfC 단백질의 DH2 영역의 아미노산 서열, 즉 서열 62의 아미노산 491-1016으로 구성되고, 이는 서열 66 모두 및 서열 62로부터의 일부 플랭킹 아미노산 서열을 포함한다. 키메라 OrfC 아미노산 서열의 나머지와 관련하여, 서열 74의 잔기 1-515 및 1042-1493는 각각 서열 6의 스키조키트리움 OrfC 잔기 1-515 및 1051-1502와 동일하다. 이러한 구축물로 형질전환된 생물의 생산 및 용도가 하기 및 실시예에서 상세하게 기술된다.
상기에서 pDS49로 기술된 플라스미드는, 본 발명가들이 아는 한, 서열 73의 뉴클레오티드 서열을 포함하고, 상응하는 서열 74의 아미노산 서열을 코딩한다. 플라스미드 pDS49 (pDS49로 표시됨; 대장균 플라스미드 벡터 형태)가 아메리칸 타입 컬쳐 컬렉션 (ATCC) (10801 University Boulevard, Manassas, Va. 20110-2209 USA)에 2007년 3월 1일 기탁되었고, ATCC 접속 번호 PTA-8230을 배정받았다. pDS49의 뉴클레오티드 서열, 및 이러한 플라스미드에 의해 코딩되는 아미노산 서열이 본 발명에 포함된다.
pDD24
서열 75는 DH2 도메인 (서열 30)이 트라우스토키트리움 23B OrfC (서열 62)로부터의 DH2 도메인 (서열 66을 포함하는 서열)로 교체된 스키조키트리움 OrfC 단백질 (서열 6)을 포함하는 키메라 단백질을 코딩하는 또다른 핵산 서열을 나타낸다. 이러한 키메라 구축물에서, 트라우스토키트리움으로부터의 DH2-코딩 서열은 스키조키트리움에서의 사용을 위해 코돈-최적화된 서열이다. pDD24로 표시되는, 서열 75를 함유하는 플라스미드의 구축이 실시예 3에 상세하게 기술된다. pDD24에서 서열 75에 플랭킹되는 스키조키트리움 OrfC 상류 및 하류 비-코딩 서열은 서열 70과 관련하여 상기 기술된 것들과 동일하다 (서열 75에서 표시되지 않음). 서열 75는 서열 74의 아미노산 서열을 코딩한다. 서열 74는 서열 73 (서열 74를 또한 코딩함)과 관련하여 상기에서 상세하게 기술되었다. 그러나, 이러한 구축물에서, 상기 논의된 바와 같이, 서열 74의 아미노산 516-1041을 코딩하는 뉴클레오티드 서열은 플라스미드 pThOrfC-synPS 내에 함유되고 스키조키트리움에서의 유전자 발현을 위해 선호되는 코돈을 사용하는 트라우스토키트리움.23B의 OrfC에 대한 "합성 유전자 서열"로부터 유래되었다 (실시예 1 및 서열 70 참조). 이러한 구축물로 형질전환된 생물의 생산 및 용도가 하기 및 실시예에서 상세하게 기술된다.
상기에서 pDD24로 기술된 플라스미드는, 본 발명가들이 아는 한, 서열 75의 뉴클레오티드 서열을 포함하고, 상응하는 서열 74의 아미노산 서열을 코딩한다. 플라스미드 pDD24 (pDD24로 표시됨; 대장균 플라스미드 벡터 형태)가 아메리칸 타입 컬쳐 컬렉션 (ATCC) (10801 University Boulevard, Manassas, Va. 20110-2209 USA)에 2007년 3월 1일 기탁되었고, ATCC 접속 번호 PTA-8226을 배정받았다. pDD24의 뉴클레오티드 서열, 및 이러한 플라스미드에 의해 코딩되는 아미노산 서열이 본 발명에 포함된다.
키메라 PUFA PKS 시스템
상기 기술된 코돈-최적화 및 키메라 구축물의 용도에 더하여, 본 발명은 키메라 PUFA PKS 시스템의 생산 및 용도를 포함한다. 키메라 PUFA PKS 시스템은 키메라 PUFA PKS 단백질이 PUFA PKS 시스템에서 생성 및 사용되는 상기 기술된 키메라 구축물의 사용을 포함하지만, 이러한 시스템은 생성된 PUFA PKS 시스템이 2가지 이상의 상이한 PUFA PKS 시스템으로부터의 단백질들을 포함하도록 하나 이상의 PUFA PKS 시스템(들)로부터의 하나 이상의 전체 단백질 또는 단백질들이 또다른 PUFA PKS 시스템으로부터의 상응하는 전체 단백질 또는 단백질들로 교환되거나 이에 부가된 PUFA PKS 시스템을 또한 포함한다. 이러한 시스템은 상기 기술된 바와 같은 키메라 단백질 (예를 들어, 키메라 단백질, 및 모든 단백질의 치환)의 사용을 또한 포함할 수 있다. 예를 들어, pTh23B_synPS (스키조키트리움 코돈 사용빈도에 대해 최적화된 트라우스토키트리움 23B OrfC-코딩 서열 포함)으로 상기 기술된 구축물이 스키조키트리움 PUFA PKS 시스템 내로 치환되어, 천연 스키조키트리움 OrfC-코딩 서열을 완벽하게 교체함으로써, 키메라 PUFA PKS 시스템이 생성될 수 있다. 또다른 예로서, 천연 트라우스토키트리움 23B OrfC-코딩 서열 (코돈-최적화되지 않음)이 스키조키트리움 PUFA PKS 시스템 내로 치환되어, 천연 스키조키트리움 OrfC-코딩 서열을 완벽하게 교체함으로써, 또다른 키메라 PUFA PKS 시스템이 생성될 수 있다. 또다른 예로서, 천연 트라우스토키트리움 23B OrfA- 및 OrfC-코딩 서열 (코돈-최적화되거나 최적화되지 않음)이 스키조키트리움 PUFA PKS 시스템 내로 치환되어, 각각 천연 스키조키트리움 OrfA- 및 OrfC-코딩 서열을 완벽하게 교체함으로써, 또다른 키메라 PUFA PKS 시스템이 생성될 수 있다. 이러한 키메라 PUFA PKS 시스템 및 또다른 키메라 PUFA PKS 시스템이 하기 실시예에서 기술된다. (1) 스키조키트리움 (S) OrfA, SOrfB, 및 트라우스토키트리움 (Th) OrfC; (2) SOrfA, ThOrfB, 및 SOrfC; (3) ThOrfA, SOrfB, 및 SOrfC; (4) SOrfA, ThOrfB, 및 ThOrfC; (5) ThOrfA, SOrfB, 및 ThOrfC; (6) ThOrfA, ThOrfB, 및 SOrfC; 및 (7) ThOrfA, ThOrfB, 및 ThOrfC로 구성된 키메라 PUFA PKS 시스템을 발현하는 스키조키트리움 숙주들이 실시예에 포함된다.
본원에서 제공된 논의 및 예시적인 실험들을 기초로, 이제는 숙주 코돈 사용빈도를 위한 PUFA PKS 핵산 분자의 선택된 재합성, 및/또는 다양한 숙주 생물 (PUFA의 생산을 위한 PUFA PKS 시스템이 내인성으로 없는 숙주 생물 포함)에서의 키메라 PUFA PKS 구축물 및/또는 키메라 PUFA PKS 시스템의 사용에 의해 PUFA 생산을 개선 및/또는 변형하는 것이 가능하다.
포스포판테테이닐 트랜스퍼레이즈 (PPTase)
본 발명에 따르면, 이종 숙주에서의 PUFA의 생산 및/또는 축적 또는 내인성 숙주에서의 PUFA의 개선된 생산 및/또는 축적을 위한 PUFA PKS 시스템은 다양한 부속 단백질을 사용할 수 있고, 상기 단백질은 상기 기술된 바와 같은 코어 PUFA PKS 시스템의 일부로 간주되지 않지만 (즉, PUFA 신테이즈 효소 복합체 자체의 일부가 아님), 본 발명의 코어 PUFA 신테이즈 효소 복합체를 사용하는 PUFA 생산에 또는 적어도 효율적인 PUFA 생산에 필요할 수 있거나 필요한 단백질로 본원에서 정의된다.
PUFA를 생산하기 위해, PUFA PKS 시스템은 4'-포스포판테테이닐 모이어티를 보조효소 A에서 아실 캐리어 단백질 (ACP) 도메인(들)로 전달하는 부속 단백질과 함께 일해야 한다. 따라서, PUFA PKS 시스템이 하나 이상의 4'-포스포판테테이닐 트랜스퍼레이즈 (PPTase) 도메인을 포함하는 것으로 간주될 수 있거나, 또는 이러한 도메인이 PUFA PKS 시스템에 대한 부속 도메인 또는 단백질인 것으로 간주될 수 있다. PPTase의 구조적 및 기능적 특성들이, 예를 들어, 미국 특허 출원 공개 번호 20020194641; 미국 특허 출원 공개 번호 20040235127; 및 미국 특허 출원 공개 번호 20050100995에 상세하게 기술되어 있다.
본 발명에 따르면, 4'-포스포판테테이닐 트랜스퍼레이즈 (PPTase) 생물학적 활성 (기능)이 있는 도메인 또는 단백질은 4'-포스포판테테이닐 모이어티를 보조효소 A에서 아실 캐리어 단백질 (ACP)로 전달하는 효소로 특성화된다. ACP의 불변성 세린 잔기로의 이러한 전달은 불활성 애포-형태를 홀로-형태로 활성화시킨다. 폴리케타이드 및 지방산 합성 양쪽 모두에서, 포스포판테테인 기는 성장 중인 아실 사슬과 티오에스테르를 형성한다. PPTase는 지방산 합성, 폴리케타이드 합성, 및 비-리보솜성 펩티드 합성에서 잘 특성화된 효소 패밀리이다. 다수의 PPTase의 서열이 공지되어 있고, 결정 구조가 결정되었을 뿐만 아니라 (예를 들어, [Reuter K, Mofid MR, Marahiel MA, Ficner R. "Crystal structure of the surfactin synthetase-activating enzyme sfp: a prototype of the 4'-phosphopantetheinyl transferase superfamily" EMBO J. 1999 Dec 1;18(23):6823-31]), 활성에 중요한 아미노산 잔기의 돌연변이 분석이 수행되었다 ([Mofid MR, Finking R, Essen LO, Marahiel MA. "Structure-based mutational analysis of the 4'-phosphopantetheinyl transferases Sfp from Bacillus subtilis: carrier protein recognition and reaction mechanism" Biochemistry. 2004 Apr 13;43(14):4128-36]). PPTase 내의 이러한 불변성 및 고도로 보존된 아미노산은 상기 기술된 쉐와넬라 균주 양쪽 모두로부터의 pfaE ORF 내에 함유된다.
본원에 기술된 OrfA ACP 도메인을 기질로 인식하는 것으로 기존에 실연된 한 이종성 PPTase는 노스톡 종 PCC 7120 (기존에는 아나바에나(Anabaena) 종 PCC 7120으로 칭해짐)의 Het I 단백질이다. Het I은 이러한 생물의 이질세포(heterocyst)에 존재하는 글리코-지질 층의 성분인 장쇄 히드록시-지방산의 합성을 담당하는 것으로 공지된 노스톡의 유전자들의 클러스터 내에 존재한다 ([Black and Wolk, 1994, J. Bacteriol 176, 2282-2292]; [Campbell et al., 1997, Arch. Microbiol 167, 251-258]). Het I은 이러한 클러스터 내에 존재하는 단백질인 HgI E의 ACP 도메인을 활성화시킬 것이다. HgI E의 2개의 ACP 도메인은 스키조키트리움 OrfA에서 발견되는 ACP 도메인에 대한 고도의 서열 상동성이 있다. 서열 34는 노스톡 Het I 단백질의 아미노산 서열을 나타내고, 스키조키트리움 및 트라우스토키트리움으로부터의 PUFA PKS 시스템이 포함되는 본원에 기술된 PUFA PKS 시스템과 함께 사용될 수 있는 기능성 PPTase이다. 서열 34는 서열 33에 의해 코딩된다. Het I의 내인성 시작 코돈은 확인되지 않았다 (추정 단백질 내에 존재하는 메티오닌이 없다). 오픈 리딩 프레임의 5' 말단 근처에 여러 잠재적인 별법적인 시작 코돈 (예를 들어, TTG 및 ATT)이 있다. 서열 내에 메티오닌 코돈 (ATG)이 존재하지 않는다. 그러나, PCR을 사용하여 가장 5' 쪽의 잠재적인 별법적인 시작 코돈 (TTG)을 메티오닌 코돈 (ATG, NdeI 제한 효소 인식 부위의 일부)으로 교체하고, 코딩 서열의 3' 말단에 XhoI 부위를 도입하여 Het I 발현 구축물의 구축이 완료되었고, 코딩된 PPTase (서열 34)는 기능성인 것으로 나타났다.
본원에 기술된 OrfA ACP 도메인을 기질로 인식하는 것으로 기존에 실연된 또다른 이종성 PPTase는 바실루스 서브틸리스(Bacillus subtilis)로부터 유래된 sfp이다. sfp는 잘 특성화되어 있고, 광범위한 기질을 인식하는 능력으로 인해 널리 사용된다. 공개된 서열 정보 ([Nakana, et al., 1992, Molecular and General Genetics 232: 313-321])를 기초로, 코딩 영역을 정해진 상류 및 하류 플랭킹 DNA 서열과 함께 pACYC-184 클로닝 벡터 내로 클로닝함으로써 sfp에 대해 발현 벡터가 기존에 생산되었다. 대장균에서 스키조키트리움 OrfA, OrfB*, 및 OrfC와 함께 공동-발현되어, 적절한 조건 하에 이러한 세포 내의 DHA의 축적을 초래한 능력에 의해 실연되는 바와 같이, 이러한 구축물은 기능성 PPTase를 코딩한다 (미국 특허 출원 공개 번호 20040235127 참조).
본 발명에 따른 시스템을 발현하도록 생물 (예를 들어, 미생물 또는 식물)을 유전자 변형시키는 경우, 일부 숙주 생물은 PUFA를 생산하기 위해 PUFA PKS와 함께 일할 필요가 있는 부속 단백질 (예를 들어, PPTase)을 내인성으로 발현할 수 있다. 그러나, 일부 생물은, 생물이 상동성 부속 단백질을 내인성으로 생산하는 경우에도, 생물에 의한 PUFA의 생산을 가능하게 하고/하거나 강화하기 위해 하나 이상의 본원에 기술된 부속 단백질을 코딩하는 핵산 분자로 형질전환될 수 있다 (즉, 일부 이종 부속 단백질이 숙주 세포의 내인성 부속 단백질보다 형질전환된 PUFA 신테이즈 단백질과 더욱 효과적으로 또는 효율적으로 작용할 수 있다). 한 실시양태에서, 이러한 부속 단백질에는 부속 PPTase가 포함된다.
본 발명의 한 실시양태는 PUFA PKS 시스템으로부터의 핵산 서열을 포함하는 단리된 핵산 분자, 이의 상동체, 이의 단편, 및/또는 임의의 이러한 핵산 서열에 상보적인 핵산 서열에 관한 것이다. 한 양상에서, 본 발명은 (a) 서열 2, 서열 4, 서열 6, 서열 39, 서열 52, 서열 62, 및 이의 생물학적으로 활성인 단편으로 구성된 군으로부터 선택된 아미노산 서열을 코딩하는 핵산 서열; (b) 서열 8, 서열 10, 서열 13, 서열 18, 서열 20, 서열 22, 서열 24, 서열 26, 서열 28, 서열 30, 서열 32, 서열 41, 서열 43, 서열 45, 서열 48, 서열 50, 서열 54, 서열 56, 서열 58, 서열 60, 서열 64, 서열 66, 서열 68, 및 이의 생물학적으로 활성인 단편으로 구성된 군으로부터 선택된 아미노산 서열을 코딩하는 핵산 서열; (c) (a)의 아미노산 서열들 중 임의의 것의 500개 이상의 연속적인 아미노산과 약 60% 이상 동일한 아미노산 서열을 코딩하고, 이때 아미노산 서열에 다중불포화 지방산 (PUFA) 폴리케타이드 신테이즈 (PKS) 시스템의 적어도 1개, 2개, 3개 또는 그 이상의 도메인의 생물학적 활성이 있는 핵산 서열; (d) (b)의 아미노산 서열들 중 임의의 것과 약 60% 이상 동일한 아미노산 서열을 코딩하고, 이때 상기 아미노산 서열에 다중불포화 지방산 (PUFA) 폴리케타이드 신테이즈 (PKS) 시스템의 적어도 1개의 도메인의 생물학적 활성이 있는 핵산 서열; 또는 (e) (a), (b), (c), 또는 (d)의 핵산 서열에 완전히 상보적인 핵산 서열로 구성된 군으로부터 선택된 핵산 서열을 포함하는 단리된 핵산 분자에 관한 것이다. 추가적인 실시양태에서, 여러 PUFA PKS 도메인에 대해 상기 기술된 활성 부위 도메인 또는 기타 기능성 모티프를 코딩하는 서열을 포함하는 핵산 서열이 본 발명에 포함된다.
본 발명의 특히 바람직한 실시양태는 본원에 기술된 바와 같은 PUFA PKS 시스템에서 유용한 키메라 단백질을 코딩하는 단리된 핵산 분자를 포함한다. 본 발명은 독특한 품질이 있는 신규 PUFA PKS 시스템을 생성시키기 위해 한 PUFA PKS 시스템으로부터의 또는 이로부터 유래된 임의의 도메인 또는 단백질을 또다른 PUFA PKS 시스템으로부터의 또는 이로부터 유래된 도메인에서 및/또는 또다른 PUFA PKS 시스템으로부터의 또는 이로부터 유래된 단백질과 함께 사용하는 것을 포함한다.
예를 들어, 본 발명의 한 실시양태는 PUFA PKS 시스템으로부터의 DH2 도메인을 상이한 생물 또는 생물들로부터의 단백질/도메인으로 구성된 PUFA PKS 시스템을 변형시키기 위해 사용하는 것에 관한 것이고, 이때 DH2 도메인의 도입 (예를 들어, 한 실시양태에서, 숙주 내의 내인성 DH2 도메인 또는 유사한 도메인의 치환에 의한 도입)은 시스템에 의해 생산되는 PUFA들의 비율, 특히 시스템에 의해 생산되는 오메가-3 대 오메가-6 PUFA의 비율을 변형시킨다. 이러한 실시양태가 하기에 상세하게 기술된다.
일부 바람직한 핵산 분자에는 서열 74의 아미노산 서열 및 이의 생물학적으로 활성인 단편을 코딩하는 핵산 서열, 다중불포화 지방산 (PUFA) 폴리케타이드 신테이즈 (PKS) 시스템의 적어도 1개, 2개, 3개 또는 그 이상의 도메인의 생물학적 활성이 있는, 서열 74에 대해 약 60% 이상 동일한 아미노산을 코딩하는 핵산 서열, 또는 상기 핵산 서열들에 대해 완전히 상보적인 핵산 서열이 포함된다. 한 실시양태에서, 핵산 분자는 서열 73 및 서열 75로부터 선택된 핵산 서열을 포함한다. 한 실시양태에서, 핵산 분자는 pDS49 및 pDD24의 군으로부터 선택된 플라스미드에 의해 코딩되는 아미노산 서열을 코딩하는 핵산 서열을 포함한다. 한 실시양태에서, 핵산 분자는 키메라 OrfC 단백질을 코딩하는 pDS49 및 pDD24의 군으로부터 선택된 플라스미드의 핵산 서열을 포함한다.
또다른 바람직한 실시양태는 한 PUFA PKS 시스템으로부터의 PUFA PKS 단백질 또는 도메인 또는 이의 상동체를 코딩하는 핵산 서열을 포함하고, 이때 상이한 생물, 예컨대 핵산 서열이 발현될 숙주의 코돈 사용빈도에 대해 상기 핵산 서열이 최적화된 핵산 분자를 포함한다. 이러한 핵산 서열의 예가 본원에서 기술되고, 서열 70, 서열 71, 및 서열 72, 뿐만 아니라 서열 75로 표시되는 핵산 서열을 포함하지만, 이에 한정되지는 않는다. 임의의 PUFA PKS 단백질 또는 도메인, 특히 본원에 기술된 아미노산 서열들 중 임의의 것을 코딩하는 코돈 최적화 핵산 서열이 본 발명에 포함된다. 한 실시양태에서, 이러한 핵산 분자는 pThOrfC-synPS, pDD26, pDD32, 또는 pDD24의 군으로부터 선택된 플라스미드에 의해 코딩되는 아미노산 서열을 코딩하는 핵산 서열을 포함한다. 한 실시양태에서, 핵산 분자는 PUFA PKS 시스템에서 유용한 단백질 또는 키메라 단백질을 코딩하는 pThOrfC-synPS, pDD26, pDD32, 또는 pDD24로부터 선택된 플라스미드의 핵산 서열을 포함한다.
본 발명에 따르면, PUFA PKS 시스템의 하나 이상의 도메인의 생물학적 활성이 있는 아미노산 서열은 스키조키트리움 및 트라우스토키트리움 PUFA PKS 시스템에 의해 예시되고 미국 특허 번호 6,140,486, 미국 특허 번호 6,566,583, 미국 특허 출원 공개 번호 20020194641, 미국 특허 출원 공개 번호 20070089199, 미국 특허 출원 공개 번호 20040235127, 미국 특허 출원 공개 번호 20050100995, PCT 특허 공개 번호 WO 05/097982, 또는 미국 특허 출원 공개 번호 20050014231 (상기)에 기술된 PUFA PKS 시스템 중 임의의 것에서의 단백질 및 도메인 중 임의의 것의 기술된 생물학적 활성에 의해 추가적으로 예시되는 바와 같은, 본원에 상세하게 기술된 PUFA PKS 시스템의 하나 이상의 도메인의 생물학적 활성이 있는 아미노산 서열이다.
따라서, 본 발명의 단리된 핵산 분자는 생물학적 활성이 있는 임의의 PUFA PKS 오픈 리딩 프레임, PUFA PKS 도메인, 이의 생물학적으로 활성인 단편, 또는 천연 발생 PUFA PKS 오픈 리딩 프레임 또는 도메인의 임의의 상동체의 번역 생성물을 코딩할 수 있다. 소정의 단백질 또는 도메인의 상동체는 적어도 1개 또는 수개의, 그러나 1개 또는 수개에 한정되지 않는 아미노산이 결실 (예를 들어, 펩티드 또는 단편과 같은 단백질의 말단절단(truncated) 버젼), 삽입, 역전, 치환 및/또는 유도체화 (예를 들어, 당화, 인산화, 아세틸화, 미리스토일화, 프레닐화, 팔미테이트화, 아미드화 및/또는 글리코실포스파티딜 이노시톨의 부가에 의한 유도체화)되었다는 점에서 천연 발생 기준 아미노산 서열 (즉, 기준 단백질 또는 도메인의 서열)과 아미노산 서열이 상이한 단백질 또는 폴리펩티드이다. PUFA PKS 단백질 또는 도메인의 바람직한 상동체가 하기에 상세하게 기술된다. 상동체는 합성에 의해 생산된 상동체, 소정의 단백질 또는 도메인의 천연 발생 대립유전자 변이체, 또는 기준 서열이 유래된 생물 이외의 생물로부터의 상동성 서열을 포함할 수 있다는 것을 유념한다.
일반적으로, 단백질 또는 도메인의 생물학적 활성 또는 생물학적 작용은 생체 내에서 (즉, 단백질의 천연의 생리학적 환경에서) 또는 시험관 내에서 (즉, 실험실 조건 하에서) 측정 또는 관찰되는 바와 같이, 천연 발생 형태의 단백질 또는 도메인에 기인하는 단백질 또는 도메인이 나타내거나 수행하는 임의의 기능(들)을 지칭한다. PUFA PKS 시스템 및 PUFA PKS 시스템을 구성하는 개별적인 단백질/도메인의 생물학적 활성이 본원의 다른 곳에서 상세하게 기술된다. 단백질 또는 도메인의 변형, 예컨대 상동체 또는 모방체 (하기 논의됨)에서의 변형으로 천연 발생 단백질 또는 도메인과 생물학적 활성이 동일한 단백질 또는 도메인, 또는 천연 발생 단백질 또는 도메인과 비교하여 생물학적 활성이 감소 또는 증가된 단백질 또는 도메인이 초래될 수 있다. 단백질 또는 도메인의 발현에서의 감소 또는 활성에서의 감소를 초래하는 변형은 단백질 또는 도메인의 불활성화 (완전 또는 부분적), 하향-조절, 또는 감소된 작용으로 지칭될 수 있다. 유사하게, 단백질 또는 도메인의 발현에서의 증가 또는 활성에서의 증가를 초래하는 변형은 단백질 또는 도메인의 증폭, 과잉생산, 활성화, 강화, 상향-조절 또는 증가된 작용으로 지칭될 수 있다. PUFA PKS 시스템의 기능성 도메인은 생물학적 기능을 수행할 수 있는 (즉, 생물학적 활성이 있는) 도메인이다 (즉, 도메인은 단백질의 일부분일 수 있다).
본 발명에 따르면, 단리된 핵산 분자는 천연에서 핵산 분자가 발견되는 게놈 또는 염색체인 천연 환경으로부터 제거된 (즉, 인간의 조작이 적용된) 핵산 분자이다. 따라서, "단리된"은 핵산 분자가 정제된 정도를 반드시 반영하여야 하지는 않지만, 분자가 천연에서 핵산 분자가 발견되는 전체 게놈 또는 전체 염색체를 포함하지 않는다는 것을 가리킨다. 단리된 핵산 분자는 유전자를 포함할 수 있다. 유전자를 포함하는 단리된 핵산 분자는 이러한 유전자를 포함하는 염색체의 단편이 아니고, 그보다는, 유전자와 관련된 코딩 영역 및 조절 영역은 포함하지만, 동일한 염색체 상에서 천연적으로 발견되는 추가적인 유전자는 전형적으로 포함하지 않는다 (일부 핵산 분자는 반드시 PUFA PKS 유전자 또는 시스템의 일부이지는 않은 가까운/연결된 유전자들을 포함할 수 있음). 단리된 핵산 분자는 천연에서는 일반적으로 특정 핵산 서열에 플랭킹되지 않는 추가적인 핵산 (즉, 이종 서열)이 플랭킹 (즉, 서열의 5' 및/또는 3' 말단에 플랭킹)된 특정 핵산 서열을 또한 포함할 수 있다. 단리된 핵산 분자는 DNA, RNA (예를 들어, mRNA), 또는 DNA 또는 RNA의 유도체 (예를 들어, cDNA)를 포함할 수 있다. "핵산 분자"라는 구절은 물리적인 핵산 분자를 주로 지칭하고, "핵산 서열"이라는 구절은 핵산 분자 상의 뉴클레오티드의 서열을 주로 지칭하지만, 이러한 2개의 구절은, 특히 단백질 또는 단백질의 도메인을 코딩할 수 있는 핵산 분자 또는 핵산 서열과 관련하여, 상호교환가능하게 사용될 수 있다.
바람직하게는, 재조합 DNA 기술 (예를 들어, 중합효소 연쇄 반응 (PCR) 증폭, 클로닝) 또는 화학적 합성을 사용하여 본 발명의 단리된 핵산 분자가 생산된다. 단리된 핵산 분자는 천연 대립유전자 변이체 및 본원에 기술된 바와 같은 PUFA PKS 시스템 생물학적 활성에 대한 원하는 효과를 변형이 제공하도록 하는 방식으로 뉴클레오티드가 삽입, 결실. 치환 및/또는 역전된 변형된 핵산 분자가 포함되지만 이에 한정되지 않는, 천연 핵산 분자 및 이의 상동체를 포함한다. 단백질 상동체 (예를 들어, 핵산 상동체에 의해 코딩되는 단백질)는 상기에 상세하게 논의되어 있다.
당업자에게 공지된 다수의 방법을 사용하여 핵산 분자 상동체를 생산할 수 있다 (예를 들어, [Sambrook et al., Molecular Cloning: A Laboratory Manual, Cold Spring Harbor Labs Press, 1989] 참조). 예를 들어, 전통적인 돌연변이유발 기술 및 재조합 DNA 기술, 예컨대 부위-지정 돌연변이유발, 돌연변이를 유도하기 위한 핵산 분자의 화학적 처리, 핵산 단편의 제한 효소 절단, 핵산 단편의 결찰, 핵산 서열의 선택된 영역의 PCR 증폭 및/또는 돌연변이유발, 올리고뉴클레오티드 혼합물의 합성 및 핵산 분자들의 혼합물을 "건설"하기 위한 혼합물 군들의 결찰, 및 이들의 조합을 포함하지만 이에 한정되지 않는 다양한 기술을 사용하여 핵산 분자를 변형시킬 수 있다. 핵산에 의해 코딩되는 단백질의 기능에 대한 스크리닝에 의해 및/또는 야생형 유전자와의 혼성화에 의해 핵산 분자 상동체를 변형된 핵산들의 혼합물로부터 선별할 수 있다.
본 발명의 핵산 분자의 최소 크기는 본 발명에서 유용한 핵산 분자의 상보적인 서열과 안정적인 하이브리드 (예를 들어, 중도, 고도 또는 초고도 엄격성 조건 하에)를 형성할 수 있는 프로브 또는 올리고뉴클레오티드 프라이머를 형성하는데 충분한 크기, 또는 본 발명에 따른 PUFA PKS 시스템의 하나 이상의 도메인의 생물학적 활성이 있는 아미노산 서열을 코딩하는데 충분한 크기이다. 따라서, 이러한 단백질을 코딩하는 핵산 분자의 크기는 핵산 조성 및 핵산 분자와 상보적인 서열 간의 백분율 상동성 또는 동일성 백분율, 뿐만 아니라 혼성화 조건 그 자체 (예를 들어, 온도, 염 농도, 및 포름아미드 농도)에 좌우될 수 있다. 전형적으로, 올리고뉴클레오티드 프라이머 또는 프로브로서 사용되는 핵산 분자의 최소 크기는 핵산 분자에 GC가 풍부한 경우에는 적어도 약 12개 내지 약 15개의 뉴클레오티드의 길이이고, 핵산 분자에 AT가 풍부한 경우에는 적어도 약 15개 내지 약 18개의 뉴클레오티드의 길이이다. 핵산 분자가 PUFA PKS 시스템의 도메인의 생물학적으로 활성인 단편, PUFA PKS 시스템의 전체 도메인, PUFA PKS 시스템의 오픈 리딩 프레임 (Orf) 내의 여러 도메인, PUFA PKS 시스템의 전체 Orf, 또는 PUFA PKS 시스템의 1개를 초과하는 Orf를 코딩하는데 충분한 서열을 포함할 수 있다는 점에서, 실용적인 제한을 제외하고는 본 발명의 핵산 분자의 최대 크기는 제한되지 않는다.
본 발명의 한 실시양태에서, 단리된 핵산 분자는 서열 2, 서열 4, 서열 6, 서열 8, 서열 10, 서열 13, 서열 18, 서열 20, 서열 22, 서열 24, 서열 26, 서열 28, 서열 30, 서열 32, 서열 34, 서열 39, 서열 41, 서열 43, 서열 45, 서열 48, 서열 50, 서열 52, 서열 54, 서열 56, 서열 58, 서열 60, 서열 62, 서열 64, 서열 66, 서열 68, 또는 서열 74, 또는 이의 생물학적으로 활성인 단편으로 구성된 군으로부터 선택된 아미노산 서열을 코딩하는 핵산 서열을 포함하거나, 이러한 핵산 서열로 본질적으로 구성되거나, 또는 이러한 서열로 구성된다. 한 양상에서, 핵산 서열은 서열 1, 서열 3, 서열 5, 서열 7, 서열 9, 서열 12, 서열 17, 서열 19, 서열 21, 서열 23, 서열 25, 서열 27, 서열 29, 서열 31, 서열 33, 서열 34, 서열 36, 서열 37, 서열 38, 서열 40, 서열 42, 서열 44, 서열 47, 서열 49, 서열 51, 서열 53, 서열 55, 서열 57, 서열 59, 서열 61, 서열 63, 서열 65, 서열 67, 서열 69, 서열 70, 서열 71, 서열 72, 서열 73, 또는 서열 75로부터 선택된다.
본 발명의 한 실시양태에서, 임의의 상기 기술된 PUFA PKS 아미노산 서열, 뿐만 아니라 이러한 서열의 상동체가 소정의 아미노산 서열의 C- 및/또는 N-말단 끝부분 각각에 플랭킹된 1개 이상, 약 20개 이하의 추가적인 이종 아미노산과 함께 생산될 수 있다. 생성된 단백질 또는 폴리펩티드는 소정의 아미노산 서열로 "본질적으로 구성"되는 것으로 지칭될 수 있다. 본 발명에 따르면, 이종 아미노산은 천연적으로 소정의 아미노산 서열에 플랭킹되는 것으로 발견되지 않는 (즉, 생체 내에서 사실상 발견되지 않는) 아미노산의 서열, 또는 소정의 아미노산 서열이 유래된 생물에 대한 표준 코돈 사용빈도를 사용하여 천연 발생 서열 내의 뉴클레오티드가 번역된다면, 소정의 아미노산 서열을 코딩하는 천연 발생 핵산 서열이 유전자 내에서 발생하는 경우에 이에 플랭킹되는 뉴클레오티드에 의해 코딩되지 않을 아미노산의 서열이다. 유사하게, "본질적으로 구성되는"이라는 구절은, 본원에서의 핵산 서열을 언급하면서 사용되는 경우, 소정의 아미노산 서열을 코딩하는 핵산 서열의 5' 및/또는 3' 말단 각각에서 적어도 약 1개, 많게는 약 60개까지의 추가적인 이종 뉴클레오티드가 플랭킹될 수 있는 소정의 아미노산 서열을 코딩하는 핵산 서열을 지칭한다. 천연적으로는 이종 뉴클레오티드는 소정의 아미노산 서열을 코딩하는 핵산 서열이 천연 유전자 내에서 발생하는 경우에 이에 플랭킹되는 것으로 발견되지 않는다 (즉, 생체 내에서 사실상 발견되지 않는다).
본 발명은 PUFA PKS 시스템의 하나 이상의 도메인의 생물학적 활성이 있는 아미노산 서열을 코딩하는 핵산 서열을 포함하는 단리된 핵산 분자를 또한 포함한다. 한 양상에서, 이러한 핵산 서열은 상기 기술된 PUFA PKS 단백질 또는 도메인 중 임의의 것의 상동체를 코딩하고, 이때 상동체에는 본원에서 이전에 기술된 바와 같은 PUFA PKS 시스템의 1개 이상 (또는 2개, 3개, 4개 이상)의 도메인의 생물학적 활성이 있다.
본 발명의 한 양상에서, 본 발명에 포함되는 PUFA PKS 단백질 또는 도메인의 상동체는 서열 2, 서열 4, 서열 6, 서열 39, 서열 52, 서열 62 또는 서열 74로부터 선택된 아미노산 서열의 500개 이상의 연속적인 아미노산에 대해 약 60% 이상 동일한 아미노산 서열을 포함하고, 이때 상기 아미노산 서열에는 PUFA PKS 시스템의 하나 이상의 도메인의 생물학적 활성이 있다. 추가적인 양상에서, 상동체의 아미노산 서열은 서열 2, 서열 4, 서열 6, 서열 39, 서열 52, 서열 62, 또는 서열 74 중 임의의 것의 약 600개 이상의 연속적인 아미노산, 더욱 바람직하게는 약 700개 이상의 연속적인 아미노산, 더욱 바람직하게는 약 800개 이상의 연속적인 아미노산, 더욱 바람직하게는 약 900개 이상의 연속적인 아미노산, 더욱 바람직하게는 약 1000개 이상의 연속적인 아미노산, 더욱 바람직하게는 약 1100개 이상의 연속적인 아미노산, 더욱 바람직하게는 약 1200개 이상의 연속적인 아미노산, 더욱 바람직하게는 약 1300개 이상의 연속적인 아미노산, 더욱 바람직하게는 약 1400개 이상의 연속적인 아미노산, 더욱 바람직하게는 약 1500개 이상의 연속적인 아미노산, 또는 서열 6, 서열 62, 또는 서열 74의 전장에 대해 약 60% 이상 동일하다. 추가적인 양상에서, 상동체의 아미노산 서열은 서열 2, 서열 4, 서열 39, 또는 서열 52 중 임의의 것의 약 1600개 이상의 연속적인 아미노산, 더욱 바람직하게는 약 1700개 이상의 연속적인 아미노산, 더욱 바람직하게는 약 1800개 이상의 연속적인 아미노산, 더욱 바람직하게는 약 1900개 이상의 연속적인 아미노산, 더욱 바람직하게는 약 2000개 이상의 연속적인 아미노산, 또는 서열 4 또는 서열 52의 전장에 대해 약 60% 이상 동일하다. 추가적인 양상에서, 상동체의 아미노산 서열은 약 2100개 이상의 연속적인 아미노산, 더욱 바람직하게는 약 2200개 이상의 연속적인 아미노산, 더욱 바람직하게는 약 2300개 이상의 연속적인 아미노산, 더욱 바람직하게는 약 2400개 이상의 연속적인 아미노산, 더욱 바람직하게는 약 2500개 이상의 연속적인 아미노산, 더욱 바람직하게는 약 2600개 이상의 연속적인 아미노산, 더욱 바람직하게는 약 2700개 이상의 연속적인 아미노산, 더욱 바람직하게는 약 2800개 이상의 연속적인 아미노산, 더욱 더 바람직하게는 서열 2 또는 서열 39의 전장에 대해 약 60% 이상 동일하다.
또다른 양상에서, 본 발명에 포함되는 PUFA PKS 단백질 또는 도메인의 상동체는 상기 단락에서 기술된 연속적인 아미노산 길이 중 임의의 것에 걸쳐 상기 기술된 아미노산 서열들 중 임의의 것에 대해 약 65% 이상, 더욱 바람직하게는 약 70% 이상, 더욱 바람직하게는 약 75% 이상, 더욱 바람직하게는 약 80% 이상, 더욱 바람직하게는 약 85% 이상, 더욱 바람직하게는 약 90% 이상, 더욱 바람직하게는 약 95% 이상, 더욱 바람직하게는 약 96% 이상, 더욱 바람직하게는 약 97% 이상, 더욱 바람직하게는 약 98% 이상, 더욱 바람직하게는 약 99% 이상 동일한 아미노산 서열을 포함하고, 이때 상기 아미노산 서열에는 PUFA PKS 시스템의 하나 이상의 도메인의 생물학적 활성이 있다.
본 발명의 한 양상에서, 본 발명에 포함되는 PUFA PKS 단백질 또는 도메인의 상동체는 서열 8, 서열 10, 서열 13, 서열 18, 서열 20, 서열 22, 서열 24, 서열 26, 서열 28, 서열 30, 서열 32, 서열 34, 서열 41, 서열 43, 서열 45, 서열 48, 서열 50, 서열 54, 서열 56, 서열 58, 서열 60, 서열 64, 서열 66, 서열 68, 또는 이러한 아미노산 서열들 중 임의의 것의 조합을 포함하는 아미노산 서열들로부터 선택된 아미노산 서열에 대해 약 60% 이상 동일한 아미노산 서열을 포함하고, 이때 상기 아미노산 서열에는 PUFA PKS 시스템 또는 이의 부속 단백질의 하나 이상의 도메인의 생물학적 활성이 있다. 추가적인 양상에서, 상동체의 아미노산 서열은 상기 기술된 아미노산 서열들 중 임의의 것에 대해 약 65% 이상, 더욱 바람직하게는 약 70% 이상, 더욱 바람직하게는 약 75% 이상, 더욱 바람직하게는 약 80% 이상, 더욱 바람직하게는 약 85% 이상, 더욱 바람직하게는 약 90% 이상, 더욱 바람직하게는 약 95% 이상, 더욱 바람직하게는 약 96% 이상, 더욱 바람직하게는 약 97% 이상, 더욱 바람직하게는 약 98% 이상, 더욱 바람직하게는 약 99% 이상 동일하고, 이때 상기 아미노산 서열에는 PUFA PKS 시스템 또는 이의 부속 단백질의 하나 이상의 도메인의 생물학적 활성이 있다.
본 발명에 따르면, 본원에 기술된 핵산 또는 아미노산 서열과 관련하여 용어 "인접한" 또는 "연속적인"은 중단되지 않은 서열에서 연결되는 것을 의미한다. 예를 들어, 제1 서열이 제2 서열의 30개의 인접한 (또는 연속적인) 아미노산을 포함한다는 것은 제1 서열이 제2 서열 내의 아미노산 잔기 30개의 중단되지 않은 서열과 100% 동일한 아미노산 잔기 30개의 중단되지 않은 서열을 포함한다는 것을 의미한다. 유사하게, 제1 서열에 제2 서열과의 "100% 동일성"이 있다는 것은 제1 서열이 뉴클레오티드 또는 아미노산들 사이에 갭(gap)이 없으면서 제2 서열과 정확하게 매칭된다는 것을 의미한다.
달리 명시되지 않는 경우, 본원에서 사용된, 동일성 백분율 (%)에 대한 언급은 (1) 모두 6개의 오픈 리딩 프레임에서 아미노산 검색을 위한 blastp, 핵산 검색을 위한 blastn, 및 핵산 검색 및 번역된 아미노산의 검색을 위한 blastX (모두 표준 디폴트 파라메터)를 사용하는 BLAST 2.0 Basic BLAST 상동성 검색으로, 이때 질의 서열이 디폴트에 의해 복잡성이 낮은 영역에 대해 필터링되는 검색 (전체적으로 거명에 의해 본원에 포함된 [Altschul, S.F., Madden, T.L., Schaaffer, A.A., Zhang, J., Zhang, Z., Miller, W. & Lipman, D.J. (1997) "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs." Nucleic Acids Res. 25:3389-3402]에 기술됨); (2) BLAST 2 정렬 (하기에 기술된 파라메터 사용); (3) 및/또는 표준 디폴트 파라메터로의 PSI-BLAST (Position-Specific Iterated BLAST)를 사용하여 수행된 상동성의 평가를 지칭한다. BLAST 2.0 Basic BLAST와 BLAST 2 간의 표준 파라메터에서의 약간의 차이로 인해, 2개의 특정 서열이 BLAST 2 프로그램을 사용하여 유의한 상동성이 있는 것으로 인식될 수 있는 반면, 서열들 중 하나를 질의 서열로 사용하여 BLAST 2.0 Basic BLAST에서 수행된 검색에서는 최상의 매치에서 제2 서열이 확인되지 않을 수 있다는 것을 유념한다. 또한, PSI-BLAST는 사용하기 쉬운 자동화 버젼의 "프로파일" 검색을 제공하고, 이는 서열 상동체를 찾기 위한 감도높은 방식이다. 이 프로그램은 먼저 갭(gapped) BLAST 데이터베이스 검색을 수행한다. PSI-BLAST 프로그램은 위치-특이적 스코어 매트릭스를 구축하도록 복귀된 임의의 유의한 정렬로부터의 정보를 사용하고, 상기 매트릭스는 다음 회차의 데이터베이스 검색을 위해 질의 서열을 교체한다. 따라서, 이러한 프로그램들 중 임의의 하나를 사용함으로써 동일성 백분율이 결정될 수 있는 것으로 이해된다.
전체적으로 거명에 의해 본원에 포함된 [Tatusova and Madden, (1999), "Blast 2 sequences - a new tool for comparing protein and nucleotide sequences", FEMS Microbiol Lett. 174:247-250]에 기술된 바와 같은 BLAST 2 서열을 사용하여 2개의 특정 서열을 서로 정렬할 수 있다. 2개의 서열 간의 Gapped BLAST 검색 (BLAST 2.0)을 수행하기 위해 BLAST 2.0 알고리즘을 사용하여 blastp 또는 blastn에서 BLAST 2 서열 정렬을 수행하여, 생성된 정렬에 갭 (결실 및 삽입)을 도입한다. 본원에서의 명확성을 위해, 하기와 같은 표준 디폴트 파라메터를 사용하여 BLAST 2 서열 정렬을 수행한다.
blastn의 경우, 0 BLOSUM62 매트릭스를 사용한다:
blastp의 경우, 0 BLOSUM62 매트릭스를 사용한다:
본 발명의 또다른 실시양태에서, 본 발명의 PUFA PKS 시스템의 하나 이상의 도메인의 생물학적 활성이 있는 아미노산 서열은 천연 발생 PUFA PKS 단백질 또는 폴리펩티드와 충분히 유사하여, 이러한 아미노산 서열을 코딩하는 핵산 서열이 중도, 고도 또는 초고도 엄격성 조건 (하기 기술됨) 하에 천연 발생 PUFA PKS 단백질 또는 폴리펩티드를 코딩하는 핵산 분자 (즉, 천연 발생 PUFA PKS 단백질 또는 폴리펩티드를 코딩하는 핵산 가닥의 상보체)에 (즉, 이러한 분자와) 혼성화할 수 있는 아미노산 서열을 포함한다. 바람직하게는, 본 발명의 PUFA PKS 시스템의 하나 이상의 도메인의 생물학적 활성이 있는 아미노산 서열은 본원에 기술된 아미노산 서열들 중 임의의 것에 의해 표시되는 아미노산 서열을 포함하는 단백질을 코딩하는 핵산 서열의 상보체에 중도, 고도 또는 초고도 엄격성 조건 하에 혼성화하는 핵산 서열에 의해 코딩된다.
본 발명의 또다른 실시양태에서, 본 발명의 뉴클레오티드 서열은 스키조키트리움으로부터의 뉴클레오티드 서열로부터 단리된 (이로부터 수득가능한) 뉴클레오티드 서열이거나, 스키조키트리움으로부터의 뉴클레오티드 서열과 동일하거나, 또는 스키조키트리움으로부터의 뉴클레오티드 서열의 상동체이고, 이때 스키조키트리움으로부터의 뉴클레오티드 서열 (스키조키트리움으로부터의 DNA 분자의 어느 한쪽 가닥 포함)은 중도, 고도 또는 초고도 엄격성 조건 하에 서열 2, 서열 4, 서열 6, 서열 8, 서열 10, 서열 13, 서열 18, 서열 20, 서열 22, 서열 24, 서열 26, 서열 28, 서열 30, 또는 서열 32 중 임의의 것으로 표시되는 아미노산 서열을 코딩하는 뉴클레오티드 서열에 혼성화한다. 한 실시양태에서, 스키조키트리움은 스키조키트리움 ATCC 20888이다. 또다른 실시양태에서, 스키조키트리움은 돌연변이된 균주 (예를 들어, N230D)를 포함하는 스키조키트리움 20888의 딸 균주이다. 한 실시양태에서, 핵산 서열은 중도, 고도 또는 초고도 엄격성 조건 하에 서열 1, 서열 3, 서열 5, 서열 7, 서열 9, 서열 12, 서열 17, 서열 19, 서열 21, 서열 23, 서열 25, 서열 27, 서열 29, 또는 서열 31로부터 선택된 뉴클레오티드 서열에 혼성화한다.
본 발명의 또다른 실시양태에서, 본 발명의 뉴클레오티드 서열은 트라우스토키트리움으로부터의 뉴클레오티드 서열로부터 단리된 (이로부터 수득가능한) 뉴클레오티드 서열이거나, 트라우스토키트리움으로부터의 뉴클레오티드 서열과 동일하거나, 또는 트라우스토키트리움으로부터의 뉴클레오티드 서열의 상동체이고, 이때 트라우스토키트리움으로부터의 뉴클레오티드 서열 (트라우스토키트리움으로부터의 DNA 분자의 어느 한쪽 가닥 포함)은 중도, 고도 또는 초고도 엄격성 조건 하에 서열 39, 서열 41, 서열 43, 서열 45, 서열 48, 서열 50, 서열 52, 서열 54, 서열 56, 서열 58, 서열 60, 서열 62, 서열 64, 서열 66, 서열 68 중 임의의 것으로 표시되는 아미노산 서열을 코딩하는 뉴클레오티드 서열에 혼성화한다. 한 실시양태에서, 트라우스토키트리움은 트라우스토키트리움 23B (ATCC 20892)이다. 한 실시양태에서, 핵산 서열은 중도, 고도 또는 초고도 엄격성 조건 하에 서열 38, 서열 40, 서열 42, 서열 44, 서열 47, 서열 49, 서열 51, 서열 53, 서열 55, 서열 57, 서열 59, 서열 61, 서열 63, 서열 65, 또는 서열 67로부터 선택된 뉴클레오티드 서열에 혼성화한다.
또다른 실시양태에서, 본 발명의 뉴클레오티드 서열은 진핵생물 (예를 들어, 트라우스토키트리드 또는 라비린툴리드) 또는 해양 생물로부터의 뉴클레오티드 서열로부터 단리된 (이로부터 수득가능한) 뉴클레오티드 서열이거나, 진핵생물 (예를 들어, 트라우스토키트리드 또는 라비린툴리드) 또는 해양 생물로부터의 뉴클레오티드 서열과 동일하거나, 또는 진핵생물 (예를 들어, 트라우스토키트리드 또는 라비린툴리드) 또는 해양 생물로부터의 뉴클레오티드 서열의 상동체이고, 이때 뉴클레오티드 서열은 중도, 고도 또는 초고도 엄격성 조건 하에 본원에서 표시된 아미노산 서열들 중 임의의 것을 코딩하는 뉴클레오티드 서열에 혼성화한다.
또다른 실시양태에서, 본 발명의 뉴클레오티드 서열은 본원에 기술된 부속 단백질을 코딩하는 임의의 뉴클레오티드 서열로부터 단리된 (이로부터 수득가능한) 뉴클레오티드 서열이거나, 본원에 기술된 부속 단백질을 코딩하는 임의의 뉴클레오티드 서열과 동일하거나, 또는 본원에 기술된 부속 단백질을 코딩하는 임의의 뉴클레오티드 서열의 상동체이고 (DNA 분자의 어느 한쪽 가닥 포함), 이때, 한 실시양태에서, 뉴클레오티드 서열은 중도, 고도 또는 초고도 엄격성 조건 하에 서열 34로 표시되는 아미노산 서열을 코딩하는 뉴클레오티드 서열에 혼성화한다. 한 실시양태에서, 핵산 서열은 중도, 고도 또는 초고도 엄격성 조건 하에 서열 33으로 표시되는 뉴클레오티드 서열에 혼성화한다.
또다른 실시양태에서, 본 발명의 뉴클레오티드 서열은 본원에 기술된 임의의 코돈-최적화 또는 키메라 뉴클레오티드 서열로부터 단리된 (이로부터 수득가능한) 뉴클레오티드 서열이거나, 본원에 기술된 임의의 코돈-최적화 또는 키메라 뉴클레오티드 서열과 동일하거나, 또는 본원에 기술된 임의의 코돈-최적화 또는 키메라 뉴클레오티드 서열의 상동체이고 (DNA 분자의 어느 한쪽 가닥 포함), 이때, 한 실시양태에서, 뉴클레오티드 서열은 중도, 고도 또는 초고도 엄격성 조건 하에 서열 74로 표시되는 아미노산 서열을 코딩하는 뉴클레오티드 서열에 혼성화한다. 한 실시양태에서, 핵산 서열은 중도, 고도 또는 초고도 엄격성 조건 하에 서열 35, 서열 36, 서열 37, 서열 69, 서열 70, 서열 71, 서열 72, 서열 73, 또는 서열 75로부터 선택된 뉴클레오티드 서열에 혼성화한다.
상보성 서열을 추론하는 방법이 당업자에게 공지되어 있다. 아미노산 서열분석 및 핵산 서열분석 기술에 전적으로 오차가 없지 않기 때문에, 본원에서 제시된 서열은 본 발명의 PUFA PKS 도메인 및 단백질, 또는 이러한 아미노산 서열을 코딩하는 뉴클레오티드 서열의 식별할 수 있는(apparent) 서열을 최대한으로 나타낸다는 것을 유념하여야 한다.
본원에서 사용된 혼성화 조건은 핵산 분자를 사용하여 유사한 핵산 분자를 확인하는 표준 혼성화 조건을 지칭한다. 이러한 표준 조건이, 예를 들어, [Sambrook et al., Molecular Cloning: A Laboratory Manual, Cold Spring Harbor Labs Press, 1989]에 개시되어 있다. [Sambrook et al., 동일 문헌]은 전체적으로 거명에 의해 본원에 포함된다 (특히, pp. 9.31-9.62 참조). 또한, 뉴클레오티드들의 다양한 정도의 미스매치를 허용하는 혼성화를 달성하기 위해 적합한 혼성화 및 세정 조건을 계산하기 위한 식이, 예를 들어, [Meinkoth et al., 1984, Anal. Biochem. 138, 267-284]에 개시되어 있고; [Meinkoth et al., 동일 문헌]은 전체적으로 거명에 의해 본원에 포함된다.
더욱 특히, 본원에서 지칭되는 중도 엄격성 혼성화 및 세정 조건은 혼성화 반응에서 프로브로 사용될 핵산 분자와의 핵산 서열 동일성이 약 70% 이상인 핵산 분자가 단리되도록 하는 조건 (즉, 뉴클레오티드들의 약 30% 이하의 미스매치를 허용하는 조건)을 지칭한다. 본원에서 지칭되는 고도 엄격성 혼성화 및 세정 조건은 혼성화 반응에서 프로브로 사용될 핵산 분자와의 핵산 서열 동일성이 약 80% 이상인 핵산 분자가 단리되도록 하는 조건 (즉, 뉴클레오티드들의 약 20% 이하의 미스매치를 허용하는 조건)을 지칭한다. 본원에서 지칭되는 초고도 엄격성 혼성화 및 세정 조건은 혼성화 반응에서 프로브로 사용될 핵산 분자와의 핵산 서열 동일성이 약 90% 이상인 핵산 분자가 단리되도록 하는 조건 (즉, 뉴클레오티드들의 약 10% 이하의 미스매치를 허용하는 조건)을 지칭한다. 상기에서 논의된 바와 같이, 당업자는 [Meinkoth et al., 동일 문헌]의 식을 사용하여 이러한 특정 수준의 뉴클레오티드 미스매치를 달성하기 위한 적합한 혼성화 및 세정 조건을 계산할 수 있다. 이러한 조건은 DNA:RNA 또는 DNA:DNA 하이브리드가 형성되는지 여부에 따라 변할 것이다. DNA:DNA 하이브리드에 대한 계산된 용융 온도는 DNA:RNA 하이브리드에 대해 10℃ 더 낮다. 특정 실시양태에서, DNA:DNA 하이브리드에 대한 엄격한 혼성화 조건은, 적합한 세정 조건과 함께, 6× SSC (0.9 M Na+)의 이온 강도, 약 20℃ 내지 약 35℃ 사이 (낮은 엄격성), 더욱 바람직하게는 약 28℃ 내지 약 40℃ 사이 (더욱 엄격함), 더욱 더 바람직하게는 약 35℃ 내지 약 45℃ 사이 (더욱 더 엄격함)의 온도에서의 혼성화를 포함한다. 특정 실시양태에서, DNA:RNA 하이브리드에 대한 엄격한 혼성화 조건은, 유사하게 엄격한 세정 조건과 함께, 6× SSC (0.9 M Na+)의 이온 강도, 약 30℃ 내지 약 45℃ 사이, 더욱 바람직하게는 약 38℃ 내지 약 50℃ 사이, 더욱 더 바람직하게는 약 45℃ 내지 약 55℃ 사이의 온도에서의 혼성화를 포함한다. 이러한 값들은 약 100개의 뉴클레오티드보다 큰 분자, 0% 포름아미드 및 약 40%의 G + C 함량에 대한 용융 온도의 계산을 기초로 한다. 별법적으로, [Sambrook et al., 상기 문헌, 9.31-9.62면]에 기재된 바와 같이 경험적으로 Tm을 계산할 수 있다. 일반적으로, 세정 조건은 가능한 한 엄격하여야 하고, 선택된 혼성화 조건에 적합하여야 한다. 예를 들어, 혼성화 조건은 특정 하이브리드의 계산된 Tm보다 대략 20-25℃ 낮은 온도 및 염 조건들의 조합을 포함할 수 있고, 전형적으로 세정 조건은 특정 하이브리드의 계산된 Tm보다 대략 12-20℃ 낮은 온도 및 염 조건들의 조합을 포함한다. DNA:DNA 하이브리드와 사용하기에 적절한 혼성화 조건의 한 예는 6× SSC (50% 포름아미드), 약 42℃에서 2-24시간 혼성화시킨 후, 실온, 약 2× SSC에서의 1회 이상의 세정에 이은 더 높은 온도 및 더 낮은 이온 강도에서 추가적인 세정 (예를 들어, 약 37℃, 약 0.1×-0.5× SSC에서의 1회 이상의 세정에 이은 약 68℃, 약 0.1×-0.5× SSC에서의 1회 이상의 세정)을 포함하는 세정 단계가 이어지는 것을 포함한다.
본 발명의 또다른 실시양태는 pJK1126 (ATCC 접속 번호 PTA-7648), pJK1129 (ATCC 접속 번호 PTA-7649), pJK1131 (ATCC 접속 번호 PTA-7650), pJK306 (ATCC 접속 번호 PTA-7641), pJK320 (ATCC 접속 번호 PTA-7644), pJK324 (ATCC 접속 번호 PTA-7643), pBR002 (ATCC 접속 번호 PTA-7642), Th23BOrfA_pBR812.1 (ATCC 접속 번호 PTA-8232), Th23BOrfA_pBR811 (ATCC 접속 번호 PTA-8231), Th23BOrfB_pBR800 (ATCC 접속 번호 PTA-8227) 또는 Th23BOrfC_pBR709A (ATCC 접속 번호 PTA-8228)로부터 선택된 플라스미드의 핵산 서열과 동일하거나 이의 상동체 (상기 정의된 바와 같음)인 핵산 서열을 포함하거나, 이러한 핵산 서열로 본질적으로 구성되거나, 또는 이러한 핵산 서열로 구성되는 핵산 분자를 포함한다.
또다른 실시양태에서, 본 발명은 pThOrfC-synPS (ATCC 접속 번호 PTA-8229), pDS49 (ATCC 접속 번호 PTA-8230), pDD24 (ATCC 접속 번호 PTA-8226), pDD26 (ATCC 접속 번호 PTA-8411), pDD32 (ATCC 접속 번호 PTA-8412), 또는 OrfB*_pJK780 (ATCC 접속 번호 PTA-8225)으로부터 선택된 플라스미드의 핵산 서열과 동일하거나 이의 상동체 (상기 정의된 바와 같음)인 핵산 서열을 포함하거나, 이러한 핵산 서열로 본질적으로 구성되거나, 또는 이러한 핵산 서열로 구성되는 핵산 분자를 포함한다.
본 발명의 또다른 실시양태는 pJK1126 (ATCC 접속 번호 PTA-7648), pJK1129 (ATCC 접속 번호 PTA-7649), pJK1131 (ATCC 접속 번호 PTA-7650), pJK306 (ATCC 접속 번호 PTA-7641), pJK320 (ATCC 접속 번호 PTA-7644), pJK324 (ATCC 접속 번호 PTA-7643), pBR002 (ATCC 접속 번호 PTA-7642), Th23BOrfA_pBR812.1 (ATCC 접속 번호 PTA-8232) Th23BOrfA_pBR811 (ATCC 접속 번호 PTA-8231), Th23BOrfB_pBR800 (ATCC 접속 번호 PTA-8227) 또는 Th23BOrfC_pBR709A (ATCC 접속 번호 PTA-8228)로부터 선택된 플라스미드에 의해 코딩되는 아미노산 서열과 동일하거나 이의 상동체 (상기 정의된 바와 같음)인 아미노산 서열을 코딩하는 핵산 서열을 포함하거나, 이러한 핵산 서열로 본질적으로 구성되거나, 또는 이러한 핵산 서열로 구성되는 핵산 분자를 포함한다.
또다른 실시양태에서, 본 발명은 pThOrfC-synPS (ATCC 접속 번호 PTA-8229), pDS49 (ATCC 접속 번호 PTA-8230), pDD24 (ATCC 접속 번호 PTA-8226), pDD26 (ATCC 접속 번호 PTA-8411), pDD32 (ATCC 접속 번호 PTA-8412), 또는 OrfB*_pJK780 (ATCC 접속 번호 PTA-8225)으로부터 선택된 플라스미드에 의해 코딩되는 아미노산 서열과 동일하거나 이의 상동체 (상기 정의된 바와 같음)인 아미노산 서열을 코딩하는 핵산 서열을 포함하거나, 이러한 핵산 서열로 본질적으로 구성되거나, 또는 이러한 핵산 서열로 구성되는 핵산 분자를 포함한다.
본 발명의 또다른 실시양태는 본원에 기술된 바와 같은 PUFA PKS 시스템의 하나 이상의 도메인 또는 단백질의 생물학적 활성이 있는 아미노산 서열을 코딩하는 핵산 서열을 포함하는 핵산 분자 및 재조합 벡터를 포함하는 재조합 핵산 분자를 포함한다. 이러한 핵산 서열 및 도메인 또는 단백질은 상기에 상세하게 기술되어 있다. 본 발명에 따르면, 재조합 벡터는 선택된 핵산 서열의 조작 및 이러한 핵산 서열의 숙주 세포 내로의 도입을 위한 도구로서 사용되는 조작된 (즉, 인공적으로 생산된) 핵산 분자이다. 따라서, 재조합 벡터는, 예컨대 선택된 핵산 서열을 숙주 세포 내로 발현시키고/시키거나 전달하여 재조합 세포를 형성시키는 것에 의한, 선택된 핵산 서열의 클로닝, 서열분석 및/또는 기타 조작에서 사용하기에 적절하다. 이러한 벡터는 전형적으로 이종 핵산 서열, 즉 천연적으로는 클로닝 또는 전달될 핵산 서열에 인접하여 발견되지 않는 핵산 서열을 함유하지만, 천연적으로 본 발명의 핵산 분자에 인접하여 발견되거나 본 발명의 핵산 분자의 발현에 유용한 조절 핵산 서열 (예를 들어, 프로모터, 번역되지 않는 영역)을 벡터가 또한 함유할 수 있다 (하기에 상세하게 논의됨). 벡터는 RNA 또는 DNA, 원핵생물성 또는 진핵생물성일 수 있고, 전형적으로는 플라스미드이다. 벡터는 염색체외 요소 (예를 들어, 플라스미드)로서 유지될 수 있거나, 또는 재조합 생물 (예를 들어, 미생물 또는 식물)의 염색체 내로 통합될 수 있다. 전체 벡터가 숙주 세포 내에서 제자리에서 유지될 수 있거나, 또는 특정 조건 하에서 본 발명의 핵산 분자를 남기면서 플라스미드 DNA가 결실될 수 있다. 통합된 핵산 분자는 염색체 프로모터의 제어, 천연 또는 플라스미드 프로모터의 제어, 또는 여러 프로모터들의 제어의 조합 하에 놓일 수 있다. 핵산 분자의 단일 또는 다중 복사본이 염색체 내로 통합될 수 있다. 본 발명의 재조합 벡터는 하나 이상의 선별가능한 마커를 함유할 수 있다.
한 실시양태에서, 본 발명의 재조합 핵산 분자에서 사용되는 재조합 벡터는 발현 벡터이다. 본원에서 사용된 "발현 벡터"라는 구절은 코딩 생성물 (예를 들어, 관심 단백질)의 생산에 적절한 벡터를 지칭하도록 하용된다. 이러한 실시양태에서, 생산될 생성물 (예를 들어, PUFA PKS 도메인)을 코딩하는 핵산 서열이 재조합 벡터 내로 삽입되어, 재조합 핵산 분자가 생산된다. 생산될 단백질을 코딩하는 핵산 서열은 재조합 숙주 세포 내에서 핵산 서열의 전사 및 번역을 가능하게 하는 벡터 내의 조절 서열에 핵산 서열을 작동가능하게 연결시키는 방식으로 벡터 내로 삽입된다.
또다른 실시양태에서, 본 발명의 재조합 핵산 분자에서 사용되는 재조합 벡터는 표적화 벡터이다. 본원에서 사용된 "표적화 벡터"라는 구절은 숙주 세포 또는 미생물 내의 내인성 유전자를 결실 또는 불활성화시키기 위해 사용되는 (즉, 표적화된 유전자 파괴 또는 녹아웃(knock-out) 기술용으로 사용되는) 특정 핵산 분자를 재조합 숙주 세포 내로 전달하기 위해 사용되는 벡터를 지칭하도록 사용된다. 이러한 벡터는 당업계에서 "녹아웃" 벡터로 또한 공지될 수 있다. 이러한 실시양태의 한 양상에서, 벡터의 일부분, 더욱 전형적으로는 벡터 내로 삽입된 핵산 분자 (즉, 삽입물)는 핵산 서열이 숙주 세포 내의 표적 유전자 (즉, 결실 또는 불활성화되도록 표적화되는 유전자)의 핵산 서열과 상동성이다. 벡터 삽입물의 핵산 서열은 표적 유전자 및 삽입물에 상동 재조합이 진행됨으로써 내인성 표적 유전자가 결실, 불활성화 또는 약화 (즉, 내인성 표적 유전자의 적어도 일부분이 돌연변이 또는 결실되는 것에 의해)되도록 벡터 삽입물의 핵산 서열이 표적 유전자에 결합하도록 디자인된다.
전형적으로, 재조합 핵산 분자는 하나 이상의 전사 제어 서열에 작동가능하게 연결된 하나 이상의 본 발명의 핵산 분자를 포함한다. 본원에서 사용된 "재조합 분자" 또는 "재조합 핵산 분자"는 전사 제어 서열에 작동가능하게 연결된 핵산 분자 또는 핵산 서열을 주로 지칭하지만, "핵산 분자"라는 구절과 상호교환가능하게 사용될 수 있는데, 이때 이러한 핵산 분자는 본원에 논의된 바와 같은 재조합 분자이다. 본 발명에 따르면, "작동가능하게 연결된"이라는 구절은 숙주 세포 내로 형질감염 (즉, 형질전환, 형질도입, 형질감염, 접합 또는 안내)되었을 때 핵산 분자가 발현될 수 있도록 하는 방식으로 핵산 분자를 전사 제어 서열에 연결시키는 것을 지칭한다. 전사 제어 서열은 전사의 개시, 신장, 또는 종결을 제어하는 서열이다. 특히 중요한 전사 제어 서열은 전사 개시를 제어하는 서열, 예컨대 프로모터, 인핸서(enhancer), 오퍼레이터(operator) 및 리프레서(repressor) 서열이다. 적절한 전사 제어 서열에는 재조합 핵산 분자가 내부로 도입될 숙주 세포 또는 생물에서 기능할 수 있는 임의의 전사 제어 서열이 포함된다.
본 발명의 재조합 핵산 분자는 추가적인 조절 서열, 예컨대 번역 조절 서열, 복제 기원, 및 재조합 세포와 상용성인 기타 조절 서열을 또한 함유할 수 있다. 한 실시양태에서, 본 발명의 재조합 분자 (숙주 세포 염색체 내로 통합된 것 포함)는 발현된 단백질이 단백질을 생산하는 세포로부터 분비될 수 있도록 하는 분비 신호 (즉, 신호 절편 핵산 서열)을 또한 함유한다. 적절한 신호 절편에는 발현될 단백질과 천연적으로 회합되는 신호 절편, 또는 본 발명에 따른 단백질의 분비를 지시할 수 있는 임의의 이종성 신호 절편이 포함된다. 또다른 실시양태에서, 본 발명의 재조합 분자는 발현된 단백질이 숙주 세포의 막으로 전달되어 막 내로 삽입되도록 할 수 있는 리더(leader) 서열을 포함한다. 적절한 리더 서열에는 단백질과 천연적으로 회합되는 리더 서열, 또는 세포의 막으로의 단백질의 전달 및 삽입을 지시할 수 있는 임의의 이종성 리더 서열이 포함된다.
본 발명가들은 스키조키트리움 및 트라우스토키트리움 PUFA PKS OrfA 및 OrfB가 게놈 내에서 가깝게 연관된다는 것을 발견하였고, Orf들 사이의 영역을 서열분석하였다. 스키조키트리움에서, Orf들은 반대 방향으로 배향되고, 4244개의 염기쌍이 시작 (ATG) 코돈들을 분리한다 (즉, 하기와 같이 배열된다: 3'0rfA5'-4244 bp-5'OrfB3'). 4244 bp의 유전자간 영역의 검사에서 어떠한 명백한 Orf도 밝혀지지 않았다 (BlastX 검색에서 유의한 매치가 발견되지 않았다). Orf A 및 B 양쪽 모두, 적어도 오일 생산 시기 동안, 스키조키트리움에서 고도로 발현되고, 이는 활성 프로모터 요소가 이러한 유전자간 영역 내에 끼워져있음을 암시한다. 이러한 유전자 요소는 트랜스제닉(transgenic) 용도를 위한 2방향성 프로모터 서열로서의 유용성이 있는 것으로 여겨진다. 예를 들어, 바람직한 실시양태에서, 이러한 영역을 클로닝하고, 각각의 말단에 임의의 관심 유전자를 놓고, 구축물을 스키조키트리움 (또는 프로모터가 기능하는 것으로 나타날 수 있는 일부 다른 숙주) 내로 도입할 수 있다. 조절 요소가, 적합한 조건 하에, 2개의 도입된 유전자의 조화로운 높은 수준의 발현을 제공할 것으로 예측된다. 스키조키트리움 PUFA PKS 조절 요소 (예를 들어, 프로모터)를 함유하는 조절 영역에 대한 완전한 뉴클레오티드 서열이 본원에서 서열 76으로 표시된다.
유사한 방식으로, OrfC가 오일 생산 시기 동안 스키조키트리움에서 고도로 발현되고, 조절 요소들이 이의 시작 코돈의 상류의 영역 내에 있는 것으로 예상된다. OrfC의 상류의 게놈 DNA 영역이 클로닝 및 서열분석되었고, 본원에서 서열 77로 표시된다. 이러한 서열은 OrfC 시작 코돈 바로 상류의 3886 nt를 함유한다. 이러한 영역의 검사에서 어떠한 명백한 Orf도 밝혀지지 않았다 (즉, BlastX 검색에서 유의한 매치가 발견되지 않았다). 이러한 영역 내에 함유된 조절 요소들이, 적합한 조건 하에, 이들 뒤에 놓인 유전자의 높은 수준의 발현을 제공할 것으로 여겨진다. 추가적으로, 적합한 조건 하에, 발현 수준은 A-B 유전자간 영역 (서열 76)의 제어 하에 있는 유전자와 조화될 수 있다.
따라서, 한 실시양태에서, 본원에 개시된 바와 같은, 본 발명에서 유용한 재조합 핵산 분자는 서열 76 및/또는 서열 77 내에 함유된 PUFA PKS 조절 영역을 포함할 수 있다. 이러한 조절 영역은 서열 76 및/또는 서열 77의 적어도 기본적인 PUFA PKS 전사 활성 (적어도 기본적인 프로모터 활성)이 있는 임의의 일부분 (단편)을 포함할 수 있다.
본 발명의 하나 이상의 재조합 분자는 본 발명의 코딩 생성물 (예를 들어, PUFA PKS 도메인, 단백질, 또는 시스템)을 생산하는데 사용될 수 있다. 한 실시양태에서, 본원에 기술된 바와 같은 핵산 분자를 단백질을 생산하는데 효과적인 조건 하에 발현시킴으로써 코딩 생성물이 생산된다. 코딩된 단백질을 생산하는 바람직한 방법은 숙주 세포를 하나 이상의 재조합 분자로 형질감염시켜 재조합 세포를 형성시키는 것에 의한 것이다. 형질감염시킬 적절한 숙주 세포는 형질전감염될 수 있는 임의의 박테리아, 진균 (예를 들어, 효모), 곤충, 식물 또는 동물 세포를 포함하지만, 이에 한정되지 않는다. 숙주 세포는 형질감염되지 않은 세포, 또는 하나 이상의 다른 재조합 핵산 분자로 이미 형질감염된 세포일 수 있다.
본 발명에 따르면, 용어 "형질감염"은 외인성 핵산 분자 (즉, 재조합 핵산 분자)가 세포 내로 도입될 수 있는 임의의 방법을 지칭하도록 사용된다. 용어 "형질전환"은 이러한 용어가 미생물 세포, 예컨대 조류, 박테리아 및 효모 내로의 핵산 분자의 도입을 지칭하도록 사용되는 경우 용어 "형질감염"과 상호교환가능하게 사용될 수 있다. 미생물 시스템에서, 용어 "형질전환"은 미생물에 의한 외인성 핵산의 취득으로 인한 유전되는 변화를 기술하도록 사용되고, 본질적으로 용어 "형질감염"과 동의어이다. 그러나, 동물 세포에서, 형질전환에는 제2의 의미가 있고, 이는 예를 들어 세포가 암성이 된 후 배양 중인 세포의 성장 성질에서의 변화를 지칭할 수 있다. 따라서, 혼동을 방지하기 위해, 용어 "형질감염"은 바람직하게는 동물 세포 내로의 외인성 핵산의 도입과 관련하여 사용되고, 상기 용어들이 세포 내로의 외인성 핵산의 도입에 관련되는 한, 용어 "형질감염"은 동물 세포, 식물 세포의 형질감염 및 미생물 세포의 형질전환을 일반적으로 포함하도록 본원에서 사용될 것이다. 따라서, 형질감염 기술은 형질전환, 입자 포격, 전기천공, 미세주입, 리포펙션(lipofection), 흡착, 감염 및 원형질체 융합을 포함하지만, 이에 한정되지 않는다.
재조합 DNA 기술의 사용이 숙주 세포 내의 핵산 분자의 복사본의 수, 핵산 분자들이 전사되는 효율, 생성된 전사물이 번역되는 효율, 및 번역후 변형의 효율을 예를 들어 조작함으로써 형질감염된 핵산분자의 발현의 제어를 개선할 수 있다는 것을 당업자는 이해할 것이다. 추가적으로, 프로모터 서열을 유전자 조작하여, 천연 프로모터와 비교하여 발현 수준을 개선할 수 있다. 핵산 분자의 발현을 제어하는데 유용한 재조합 기술에는 하나 이상의 숙주 세포 염색체 내로의 핵산 분자의 통합, 벡터 안정성 서열을 플라스미드에 부가하는 것, 전사 제어 신호 (예를 들어, 프로모터, 오퍼레이터, 인핸서)의 치환 또는 변형, 번역 제어 신호 (예를 들어, 리보솜 결합 부위, 샤인-달가노(Shine-Dalgarno) 서열)의 치환 또는 변형, 숙주 세포의 코돈 사용빈도에 상응하도록 핵산 분자를 변형시키는 것, 및 전사물을 불안정화시키는 서열의 결실이 포함되지만, 이에 한정되지는 않는다.
재조합 핵산 분자 및 숙주 세포의 형질감염과 관련된 상기의 일반적인 논의는 PUFA PKS로부터의 하나 이상의 도메인의 생물학적 활성이 있는 임의의 아미노산 서열을 코딩하는 것, 기타 PKS 시스템으로부터의 아미노산 서열을 코딩하는 것, 및 기타 단백질 또는 도메인을 코딩하는 것을 포함하는, 임의의 본원에 논의된 재조합 핵산 분자에 적용되도록 의도된다.
본 발명은 구조, 도메인 구성 및/또는 기능 면에서 본원에 기술된 바와 같은 PUFA PKS 시스템 (및 이의 단백질 또는 도메인) 중 임의의 것과 상동성인, 본원에 구체적으로 기술된 것들 이외의 미생물로부터의 PUFA PKS 시스템 (및 이의 단백질 또는 도메인)에 또한 관련된다. 또한, 본 발명은 본 발명에 따른 PUFA PKS 시스템 을 위한 다양한 용도 (예를 들어, 유전자 변형 생물, 및 생체활성 분자의 생산 방법)에서 이러한 미생물 및 이러한 미생물로부터의 PUFA PKS 시스템 또는 이의 성분 (예를 들어, DH2 도메인)을 사용하는 것에 관련된다. PUFA PKS 시스템을 포함하는 미생물의 확인을 위한 스크리닝 프로세스가 미국 특허 출원 공개 번호 20020194641 (상기)에 상세하게 기술되어 있다. 본원에 기술된 PUFA PKS 단백질 및 도메인의 구조 및 기능, 및 이를 코딩하는 뉴클레오티드 서열에 관한 지식은 이러한 단백질 또는 폴리뉴클레오티드의 상동체의 확인, 확증 및/또는 단리를 위한 유용한 도구이다.
본 발명에 따르면, 용어 "트라우스토키트리드"는 트라우스토키트리아세아에 과를 포함하는 트라우스토키트리알레스 목의 임의의 구성원을 지칭하고, 용어 "라비린툴리드"는 라비린툴라세아에(Labyrinthulaceae) 과를 포함하는 라비린툴라레스(Labyrinthulales) 목의 임의의 구성원을 지칭한다. 라비린툴라세아에 과의 구성원은 한때 트라우스토키트리알레스 목의 구성원인 것으로 간주되었지만, 이러한 생물의 분류학의 더욱 최근의 개정에서, 이러한 과는 이제 라비린툴라레스 목의 구성원인 것으로 간주되고, 라비린툴라레스와 트라우스토키트리알레스 양쪽 모두는 라비린툴로마이코타(Labyrinthulomycota) 문의 구성원인 것으로 간주된다. 트라우스토키트리드 및 라비린툴리드의 분류학은 발전으로 인해 빈번하게 개정되었다. 그러나, 현재 일반적으로 분류학 이론가들은 이러한 미생물 군 양쪽 모두를 조류 또는 조류-유사 원생생물과 함께 스트라메노파일(Stramenopile) 계통 내에 놓는다. 트라우스토키트리드 및 라비린툴리드의 현재의 분류학적 배치는 다음과 같이 요약될 수 있다:
계: 스트라메노필라(Stramenopila) (크로미스타(Chromista))
문: 라비린툴로마이코타
강: 라비린툴로마이세테스(Labyrinthulomycetes)
목: 라비린툴라레스
과: 라비린툴라세아에
목: 트라우스토키트리알레스
과: 트라우스토키트리아세아에
그러나, 잔존하는 분류학적 불확실성으로 인해, 본 발명의 목적을 위해 본 발명에서 트라우스토키트리드로서 기술된 균주들이 하기 생물들을 포함하는 것으로 간주하는 것이 최상일 것이다: 목: 트라우스토키트리알레스; 과: 트라우스토키트리아세아에; 속: 트라우스토키트리움 (종: 아루디멘탈레(arudimentale), 아우레움(aureum), 벤티콜라(benthicola), 글로보섬(globosum), 키네이(kinnei), 모티붐(motivum), 멀티루디멘탈레(multirudimentale), 파키데르뭄(pachydermum), 프롤리페룸(proliferum), 로세움(roseum), 스트리아툼(striatum)), 울케니아 (종: 아모에보이데아(amoeboidea), 케르구엘렌시스(kerguelensis), 미누타(minuta), 프로푼다(profunda), 라디아타(radiata), 사일렌스(sailens), 사르카리아나(sarkariana), 쉬조키트롭스(schizochytrops), 비수르겐시스(visurgensis), 요르켄시스(yorkensis)), 스키조키트리움 (종: 아그레가툼(aggregatum), 림나세움(limnaceum), 만그로베이(mangrovei), 미누툼(minutum), 옥토스포룸(octosporum)), 자포노키트리움(Japonochytrium) (종: 마리눔(marinum)), 아플라노키트리움(Aplanochytrium) (종: 할리오티디스(haliotidis), 케르구엘렌시스(kerguelensis), 프로푼다(profunda), 스토키노이(stocchinoi)), 알토르니아(Althornia) (종: 크로우키이(crouchii)), 또는 엘리나(Elina) (종: 마리살바(marisalba), 시노리피카(sinorifica)). 울케니아 속의 최초의 기술은 논문 심사를 거친 저널에서 공개되지 않았고, 따라서 이러한 속 및 이러한 속 내에 배치된 종의 타당성에 관하여 약간의 의문의 여지가 남아 있다는 것을 유념하여야 한다. 본 발명의 목적을 위해, 울케니아 내에 기술된 종은 트라우스토키트리움 속의 구성원인 것으로 간주될 것이다.
본 발명에서 라비린툴리드로서 기술된 균주는 하기 생물들을 포함한다: 목: 라비린툴라레스, 과: 라비린툴라세아에, 속: 라비린툴라 (종: 알게리엔시스(algeriensis), 코에노사이스티스(coenocystis), 카토니이(chattonii), 마크로시스티스(macrocystis), 마크로시스티스 아틀란티카(macrocystis atlantica), 마크로시스티스 마크로시스티스(macrocystis macrocystis), 마리나(marina), 미누타(minuta), 로스코펜시스(roscoffensis), 발카노비이(valkanovii), 비텔리나(vitellina), 비텔리나 파시피카(vitellina pacifica), 비텔리나 비텔리나(vitellina vitellina), 조프피이(zopfii)), 라비린툴로이데스(Labyrinthuloides) (종: 할리오티디스(haliotidis), 요르켄시스(yorkensis)), 라비린토믹사(Labyrinthomyxa) (종: 마리나(marina)), 디플로프리스(Diplophrys) (종: 아르케리(archeri)), 파이르호소루스(Pyrrhosorus) (종: 마리누스(marinus)), 소로디플로프리스(Sorodiplophrys) (종: 스테르코레아(stercorea)) 또는 클라마이도믹사(Chlamydomyxa) (종: 라비린툴로이데스(labyrinthuloides), 몬타나(montana)) (그러나, 현재 파이르호소루스, 소로디플로프리스 또는 클라마이도믹사의 정확한 분류학적 배치는 합의되지 않음).
본 발명의 PUFA PKS 시스템을 사용하여 현저하게 높은 수율의 다양한 생체활성 분자들을 생산하기 위해, 생물, 바람직하게는 미생물 또는 식물 또는 식물의 일부분 (예를 들어, 식물 세포)을 유전자 변형시켜 PUFA PKS 시스템의 활성에 영향을 미칠 수 있다. 한 양상에서, 이러한 생물이 PUFA PKS 시스템을 내인성으로 함유하여 발현할 수 있고, 유전자 변형은 내인성 PUFA PKS 시스템의 기능성 도메인들 중 하나 이상의 유전자 변형일 수 있으며, 이에 의해 변형은 PUFA PKS 시스템의 활성에 대한 일부 효과가 있다. 또다른 양상에서, 이러한 생물이 PUFA PKS 시스템을 내인성으로 함유하여 발현할 수 있고, 유전자 변형은 하나 이상의 외인성 핵산 서열 (예를 들어, 재조합 핵산 분자)의 도입일 수 있으며, 이때 외인성 핵산 서열은 동일한 PKS 시스템 또는 제2의 PKS 시스템으로부터의 하나 이상의 생물학적으로 활성인 도메인 또는 단백질 및/또는 상기 PKS 시스템의 활성에 영향을 미치는 단백질 (예를 들어, 하기 논의되는 포스포판테테이닐 트랜스퍼레이즈 (PPTase))을 코딩한다. 또다른 양상에서는, 생물이 반드시 PUFA PKS 시스템을 내인성으로 (천연적으로) 포함하지는 않지만, PUFA PKS 시스템의 하나 이상의 도메인의 생물학적 활성이 있는 아미노산 서열을 코딩하는 하나 이상의 재조합 핵산 분자가 도입되도록 유전자 변형된다. 이러한 양상에서, 생물 내에 PUFA PKS 활성을 도입하거나 이를 증가시킴으로써 PUFA PKS 활성이 영향을 받는다. 이러한 양상들 각각과 관련된 다양한 실시양태들이 하기에 더욱 상세하게 논의될 것이다.
따라서, 본 발명에 따르면, 한 실시양태는 다중불포화 지방산 (PUFA) 폴리케타이드 신테이즈 (PKS) 시스템의 하나 이상의 생물학적으로 활성인 도메인을 포함하는 PKS 시스템을 발현하는 유전자 변형 미생물에 관한 것이다. PUFA PKS 시스템의 하나 이상의 도메인은 본원에 기술된 핵산 서열에 의해 코딩된다. 유전자 변형은 생물 내의 PKS 시스템의 활성에 영향을 미친다. 유전자 변형 미생물은 상기에서 확인된 핵산 서열들 중 임의의 하나 이상, 및/또는 상기에 상세하게 기술된 바와 같은 PUFA PKS ORF 또는 도메인 중 임의의 것의 또다른 상동체들 중 임의의 것을 포함할 수 있다.
본원에서 사용된 유전자 변형 미생물은 유전자 변형 박테리아, 원생생물, 미세조류, 진균, 또는 기타 미생물, 특히 본원에 기술된 트라우스토키트리알레스 목의 속들 중 임의의 것 (예를 들어, 트라우스토키트리드)을 포함할 수 있다. 이러한 유전자 변형 미생물에는 원하는 결과 (즉, 증가된 또는 변형된 PUFA PKS 활성 및/또는 PUFA PKS 시스템 또는 이의 성분을 사용한 원하는 생성물의 생산)가 달성되도록 정상 (즉, 야생형 또는 천연 발생) 형태로부터 변형 (즉, 돌연변이 또는 변화)된 게놈이 있다. 전통적인 계통 개발 및/또는 분자 유전학 기술을 사용하여 미생물의 유전자 변형을 달성할 수 있다. 이러한 기술은 당업계에 공지되어 있고, 예를 들어, [Sambrook et al., 1989, Molecular Cloning: A Laboratory Manual, Cold Spring Harbor Labs Press]에, 미생물에 대해 일반적으로 개시되어 있다. 참고문헌 [Sambrook et al., 동일문헌]은 전체적으로 거명에 의해 본원에 포함된다. 유전자 변형 미생물은 변형이 미생물 내에서 원하는 효과를 제공하도록 하는 방식으로 핵산 분자가 삽입, 결실 또는 변형 (즉, 돌연변이; 예를 들어, 뉴클레오티드의 삽입, 결실, 치환 및/또는 역전에 의한 돌연변이)된 미생물을 포함한다.
본 발명에 따라 변형될 바람직한 미생물 숙주 세포는 임의의 박테리아, 원생생물, 미세조류, 진균, 또는 원생동물을 포함하지만, 이에 한정되지 않는다. 한 양상에서, 유전자 변형시키기에 바람직한 미생물에는 트라우스토키트리알레스 목의 임의의 미생물 또는 라비린툴라레스 목의 임의의 미생물이 포함되지만, 이에 한정되지는 않는다. 본 발명에서 사용하기에 특히 바람직한 숙주 세포에는 트라우스토키트리움, 울케니아, 스키조키트리움, 자포노키트리움, 아플라노키트리움, 알토르니아, 엘리나, 라비린툴라, 라비린툴로이데스, 라비린토믹사, 디플로프리스, 파이르호소루스, 소로디플로프리스 또는 클라마이도믹사를 포함하지만 이에 한정되지 않는 속으로부터의 미생물이 포함될 수 있다. 유전자 변형을 위한 적절한 숙주 미생물의 또다른 예로는 사카로마이세스 세레비지아에(Saccharomyces cerevisiae), 사카로마이세스 카를스베르겐시스(Saccharomyces carlsbergensis), 또는 기타 효모 예컨대 칸디다(Candida), 클루이베로마이세스(Kluyveromyces)가 포함되는 효모, 또는 기타 진균, 예를 들어, 필라멘트형 진균 예컨대 아스페르길루스(Aspergillus), 네우로스포라(Neurospora), 페니실리움(Penicillium) 등이 포함되지만, 이에 한정되지 않는다. 박테리아 세포 또한 숙주로 사용될 수 있다. 여기에는 대장균이 포함되고, 이는 발효 공정에서 유용할 수 있다. 별법적으로, 락토바실루스(Lactobacillus) 종 또는 바실루스(Bacillus) 종과 같은 숙주가 숙주로 사용될 수 있다.
본 발명의 또다른 실시양태는 식물이 PUFA를 생산하도록, 적어도 코어 PUFA PKS 효소 복합체를 포함하고, 일부 실시양태에서는 하나 이상의 PUFA PKS 부속 단백질 (예를 들어, PPTase)을 포함하는 유전자 변형 식물 또는 식물의 일부분 (예를 들어, 식물이 본원에 기술된 PUFA PKS 시스템을 발현하도록 유전자 변형된 경우)에 관한 것이다. 바람직하게는, 식물은 오일 종자 식물이고, 이때 오일 종자 또는 오일 종자 내의 오일이 PUFA PKS 시스템에 의해 생산된 PUFA를 함유한다. 이러한 오일은 PUFA PKS 시스템의 생성물인 하나 이상의 표적 또는 주요 PUFA를 검출가능한 양으로 함유한다. 식물은 PUFA PKS 시스템을 내인성으로 함유하는 것으로 공지되어 있지 않고, 따라서, 본 발명의 PUFA PKS 시스템은 독특한 지방산 생산 능력이 있는 식물을 생산하는 기회를 나타낸다. EPA, DHA, DPA (n-3 및/또는 n-6), ARA, GLA, SDA 등이 포함되는 하나 이상의 PUFA를 동일한 식물 내에서 생산하도록 식물을 유전자 조작하는 것은 본 발명의 특히 바람직한 실시양태이다. 본 발명은 다양한 비율 및 형태의 다수의 "디자이너 오일" 중 임의의 하나를 생성시키는 능력을 제공한다.
식물의 유전자 조작을 위한 방법이 당업계에 주지되어 있다. 예를 들어, 생물학적 및 물리적 형질전환 프로토콜을 포함하는 식물 형질전환을 위한 수많은 방법들이 개발되어 있다. 예를 들어, [Miki et al., "Procedures for Introducing Foreign DNA into Plants", Methods in Plant Molecular Biology and Biotechnology, Glick, B.R. and Thompson, J.E. Eds. (CRC Press, Inc., Boca Raton, 1993) pp. 67-88] 참조. 또한, 식물 세포 또는 조직 형질전환 및 식물의 재생을 위한 벡터 및 시험관내 배양 방법이 이용가능하다. 예를 들어, [Gruber et al., "Vectors for Plant Transformation", Methods in Plant Molecular Biology and Biotechnology, Glick, B. R. and Thompson, J.E. Eds. (CRC Press, Inc., Boca Raton, 1993) pp. 89-119] 참조.
발현 벡터를 식물 내로 도입하기 위해 가장 널리 사용되는 방법은 아그로박테리움(Agrobacterium)의 천연 형질전환 시스템을 기초로 한다. 예를 들어, [Horsch et al., Science 227:1229 (1985)] 참조. 아그로박테리움 투메파시엔스(A. tumefaciens) 및 아그로박테리움 리조게네스(A. rhizogenes)는 식물 세포를 유전적으로 형질전환시키는 식물 병원체성 토양 박테리아이다. 아그로박테리움 투메파시엔스 및 아그로박테리움 리조게네스의 Ti 및 Ri 플라스미드는 각각 식물의 유전적 형질전환을 담당하는 유전자들을 보유한다. 예를 들어, [Kado, C.I, Crit. Rev. Plant. Sci. 10:1 (1991)] 참조. 아그로박테리움 벡터 시스템 및 아그로박테리움-매개 유전자 전달을 위한 방법의 설명이 [Gruber et al., 상기 문헌], [Miki et al., 상기 문헌], [Moloney et al., Plant Cell Reports 8:238 (1989)], 및 미국 특허 번호 4,940,838 및 5,464,763이 포함되는 다수의 참조문헌에서 제공된다.
또다른 일반적으로 이용가능한 식물 형질전환 방법은 DNA가 미세발사체(microprojectile)의 표면 상에서 운반되는 미세발사체-매개 형질전환이다. 식물 세포벽 및 세포막을 통과하는데 충분한 속도로 미세발사체를 가속시키는 생체탄도(biolistic) 장치로 발현 벡터가 식물 조직 내로 도입된다. [Sanford et al., Part. Sci. Technol. 5:27 (1987)], [Sanford, J.C., Trends Biotech. 6:299 (1988)], [Sanford, J.C., Physiol. Plant 79:206 (1990)], [Klein et al., Biotechnology 10:268 (1992)].
DNA를 식물에 물리적으로 전달하기 위한 또다른 방법은 표적 세포의 초음파처리이다. [Zhang et al., Bio/Technology 9:996 (1991)]. 별법적으로, 리포솜 또는 스페로플라스트 융합이 발현 벡터를 식물 내로 도입하는데 사용되었다. [Deshayes et al., EMBO J., 4:2731 (1985)], [Christou et al., Proc Natl. Acad. Sci. USA 84:3962 (1987)]. CaCl2 침전, 폴리비닐 알콜 또는 폴리-L-오르니틴을 사용하여 원형질체 내로 DNA을 직접 섭취시키는 것이 또한 보고되었다. [Hain et al., Mol. Gen. Genet. 199:161 (1985)] 및 [Draper et al., Plant Cell Physiol. 23:451 (1982)]. 원형질체 및 전체 세포 및 조직의 전기천공이 또한 기술되었다. [Donn et al., In Abstracts of VIIth International Congress on Plant Cell and Tissue Culture IAPTC, A2-38, p. 53 (1990)]; [D'Halluin et al., Plant Cell 4:1495-1505 (1992)] 및 [Spencer et al., Plant Mol. Biol. 24:51-61 (1994)].
유전자 구축물을 식물 세포 내로 도입한 후, 식물 세포가 성장되고, 새싹(shoot) 및 뿌리와 같은 분화 조직이 출현하면, 성숙한 식물이 생성된다. 전형적으로, 다수의 식물이 생성된다. 식물을 재생시키기 위한 방법은 당업자에게 일반적으로 공지되어 있을 것이며, 예를 들어, [Plant Cell and Tissue Culture, 1994, Vasil and Thorpe Eds. Kluwer Academic Publishers] 및 [Plant Cell Culture Protocols (Methods in Molecular Biology 111, 1999 Hall Eds Humana Press)]에서 확인할 수 있다.
본원에서 사용된 유전자 변형 식물에는 고등 식물, 특히 임의의 소비성 식물 또는 본 발명의 원하는 생체활성 분자를 생산하는데 유용한 식물이 포함되는 임의의 유전자 변형 식물이 포함될 수 있다. 본원에서 사용된 "식물의 일부분"에는 종자 (미성숙형 또는 성숙형), 오일, 화분, 배아, 꽃, 과실, 새싹, 잎, 뿌리, 줄기, 외식편 등이 포함되지만 이에 한정되지 않는 식물의 임의의 부분이 포함된다. 유전자 변형 식물에는 원하는 결과 (예를 들어, PUFA PKS 활성 및 PUFA의 생산)이 달성되도록 천연 (즉, 야생형 또는 천연 발생) 형태로부터 변형 (즉, 돌연변이 또는 변화)된 게놈이 있다. 전통적인 계통 개발 및/또는 분자 유전학 기술을 사용하여 식물의 유전자 변형을 달성할 수 있다. 원하는 아미노산 서열을 코딩하는 재조합 핵산 분자가 식물의 게놈 내로 혼입된 트랜스제닉 식물을 생산하기 위한 방법이 당업계에 주지되어 있다. 바람직하게는, 본 발명에 따라 유전자 변형시키기 위한 바람직한 식물은 인간을 포함하는 동물에 의한 소비에 적절한 식물이다.
본 발명에 따라 유전자 변형시키기 위한 바람직한 식물 (즉, 식물 숙주 세포)에는 쌍자엽 및 단자엽 식물 양쪽 모두가 포함되는 임의의 고등 식물, 특히 소비성 식물 (작물 식물 및 특별하게는 오일용으로 사용되는 식물 포함)이 포함되지만, 이에 한정되지 않는다. 이러한 식물에는, 예를 들어, 카놀라, 대두, 평지씨, 아마인, 옥수수, 잇꽃, 해바라기 및 담배가 포함될 수 있지만 이에 한정되지 않는다. 따라서, 임의의 식물 종 또는 식물 세포를 선택할 수 있다. 본원에서 사용되는 특정 세포, 및 이로부터 성장 또는 유래되는 식물에는 카놀라 (브라시카 라파(Brassica rapa L.); 대두 (글리신 막스(Glycine max)); 평지씨 (브라시카(Brassica) 종); 아마인/아마 (리눔 우시타티시뭄(Linum usitatissimum)); 옥수수 (제아 메이스(Zea mays)); 잇꽃 (카르타무스 틴크토리우스(Carthamus tinctorius)); 해바라기 (헬리안투스 아누스(Helianthus annuus)); 담배 (니코티아나 타바쿰(Nicotiana tabacum)); 아라비돕시스 탈리아나(Arabidopsis thaliana), 브라질 견과 (베톨레티아 엑셀사(Betholettia excelsa)); 아주까리 종자 (리시누스 콤무니스(Riccinus communis)); 코코넛 (코쿠스 누시페라(Cocus nucifera)); 고수풀 (코리안드룸 사티붐(Coriandrum sativum)); 목화 (고시피움(Gossypium) 종); 땅콩 (아라키스 히포가에아(Arachis hypogaea)); 호호바 (시몬드시아 키넨시스(Simmondsia chinensis)); 머스타드 (브라시카(Brassica) 종 및 시나피스 알바(Sinapis alba)); 야자유 (엘라에이스 구이네이스(Elaeis guineeis)); 올리브 (올레아 에우르파에아(Olea eurpaea)); 벼 (오리자 사티바(Oryza sativa)); 스쿼시 (쿠쿠르비타 막시마(Cucurbita maxima)); 보리 (호르데움 불가레(Hordeum vulgare)); 밀 (트라에티쿰 아에스티붐(Traeticum aestivum)); 및 개구리밥 (렘나세아에(Lemnaceae) 종)으로부터 수득가능한 세포가 포함되지만, 이에 한정되지 않는다. 이와 함께 식물 종 내의 유전자 배경이 변할 수 있음을 유념하여야 한다.
또다른 바람직한 식물에는 약제, 풍미제, 영양보조제, 기능성 식품 성분 또는 화장용 활성 작용제로서 사용되는 화합물을 생산하는 것으로 공지된 식물, 또는 이러한 화합물/작용제를 생산하도록 유전자 조작된 식물이 포함된다.
추가적인 실시양태에서, 식물 세포 배양물이 본 발명에 따라 사용될 수 있다. 이러한 실시양태에서, 식물 세포는 분화된 식물로 성장되지 않고, 통상적인 농업 실무를 사용하여 경작되지 않으며, 대신 액체 배지에서 성장 및 유지된다.
본 발명에 따르면, 유전자 변형 미생물 또는 식물에는 재조합 기술을 사용하여 변형된 미생물 또는 식물이 포함된다. 본원에서 사용된, 유전자 발현, 유전자의 기능 또는 유전자 생성물 (즉, 유전자에 의해 코딩되는 단백질)의 기능에서의 감소를 초래하는 유전자 변형은 유전자의 불활성화 (완전 또는 부분적), 결실, 중단, 차단 또는 하향-조절로 지칭될 수 있다. 예를 들어, 유전자에 의해 코딩되는 단백질의 기능에서의 감소를 초래하는 유전자에서의 유전자 변형은 유전자의 완전한 결실 (즉, 유전자가 존재하지 않고, 따라서 단백질이 존재하지 않음), 단백질의 불완전한 번역 또는 번역되지 않음을 초래하는 유전자에서의 돌연변이 (예를 들어, 단백질이 발현되지 않음), 또는 단백질의 천연 기능을 감소시키거나 폐지하는 유전자에서의 돌연변이 (예를 들어, 효소 활성 또는 작용이 감소되었거나 없는 단백질이 발현됨)의 결과일 수 있다. 유전자 발현 또는 기능에서의 증가를 초래하는 유전자 변형은 유전자의 증폭, 과잉생산, 과발현, 활성화, 강화, 부가, 또는 상향조절로 지칭될 수 있다.
바람직하게는, 본 발명에 따른 미생물 또는 식물의 유전자 변형은, PKS 시스템이 내인성이고 유전자 변형되었는지, 재조합 핵산 분자의 생물 내로의 도입으로 내인성인지, 또는 완전히 재조합 기술에 의해 제공되는지 여부와 상관없이, 식물에 의해 발현되는 PKS 시스템의 활성에 영향을 미친다. 본 발명에 따르면, "PKS 시스템의 활성에 영향을 미침"은 유전자 변형의 부재 시와 비교하여 생물에 의해 발현되는 PKS 시스템에서의 임의의 검출가능하거나 측정가능한 변화 또는 변형을 야기하는 임의의 유전자 변형을 포함한다. PKS 시스템에서의 검출가능한 변화 또는 변형에는 생물 내로 PKS 시스템 활성을 도입하여, 이제는 생물에 측정가능한/검출가능한 PKS 시스템 활성이 있도록 하는 것 (즉, 생물이 유전자 변형 전에는 PKS 시스템을 함유하지 않았음), 생물에 의해 내인성으로 발현되는 PKS 시스템 이외의 상이한 PKS 시스템으로부터의 기능성 도메인을 생물 내로 도입하여, PKS 시스템 활성을 변형시키는 것 (예를 들어, 하나의 PUFA PKS 시스템으로부터의 DH2 도메인이 상이한 생물의 PUFA PKS 시스템 내로 도입됨), PKS 시스템에 의해 생산되는 생체활성 분자의 양에서의 변화 (예를 들어, 시스템이 유전자 변형의 부재 시와 비교하여 더 많은 (증가된 양) 또는 더 적은 (감소된 양) 소정의 생성물을 생산함), PKS 시스템에 의해 생산되는 생체활성 분자의 유형에서의 변화 (예를 들어, 시스템이 새롭거나 상이한 생성물, 또는 시스템에 의해 천연적으로 생산되는 생성물의 변이체를 생산함), 및/또는 PKS 시스템에 의해 생산되는 다중 생체활성 분자들의 비율에서의 변화 (예를 들어, 시스템이 상이한 비율의 하나의 PUFA 대 또다른 PUFA를 생산하거나, 유전자 변형의 부재 시와 비교하여 완전히 상이한 지질 프로파일을 생산하거나, 또는 각종 PUFA를 천연 형상과 비교하여 트리아실글리세롤 내의 상이한 위치에 배치시킴)이 포함될 수 있지만, 이에 한정되지 않는다. 이러한 유전자 변형에는 임의 유형의 유전자 변형이 포함되고, 재조합 기술 및 전통적인 돌연변이유발에 의해 이루어진 변형이 특히 포함된다.
PUFA PKS 시스템 내의 기능성 도메인 또는 단백질의 활성을 증가시키는 것에 관한 언급은 도메인 또는 단백질 시스템의 증가된 기능성을 초래하는 도메인 또는 단백질을 함유하는 (또는 도메인 또는 단백질이 도입될) 생물에서의 임의의 유전자 변형을 지칭하고, 도메인 또는 단백질의 더 높은 활성 (예를 들어, 특이적 활성 또는 생체내 효소 활성), 도메인 또는 단백질 시스템의 감소된 억제 또는 분해, 및 도메인 또는 단백질의 과발현을 포함할 수 있다는 것을 유념하여야 한다. 예를 들어, 유전자 복사본 수가 증가될 수 있거나, 천연 프로모터보다 더 높은 수준의 발현을 제공하는 프로모터의 사용에 의해 발현 수준이 증가될 수 있거나, 또는 유전자 조작 또는 전통적인 돌연변이유발에 의해 유전자가 변경되어, 유전자에 의해 코딩되는 도메인 또는 단백질의 활성이 증가될 수 있다.
유사하게, PUFA PKS 시스템 내의 기능성 도메인 또는 단백질의 활성을 감소시키는 것에 관한 언급은 도메인 또는 단백질 시스템의 감소된 기능성을 초래하는 도메인 또는 단백질을 함유하는 (또는 도메인 또는 단백질이 도입될) 생물에서의 임의의 유전자 변형을 지칭하고, 도메인 또는 단백질의 감소된 활성, 도메인 또는 단백질의 발현의 감소 또는 제거를 포함한다. 예를 들어, 도메인 또는 단백질의 생산을 차단하거나 감소시킴으로써, 도메인 또는 단백질을 코딩하는 유전자 또는 이의 일부분을 "녹아웃"시킴으로써, 도메인 또는 단백질 활성을 감소시킴으로써, 또는 도메인 또는 단백질의 활성을 억제함으로써 본 발명의 도메인 또는 단백질의 작용이 감소될 수 있다. 도메인 또는 단백질의 생산을 차단하거나 감소시키는 것은 도메인 또는 단백질을 코딩하는 유전자를 성장 배지 내에 유도 화합물이 존재하는 것을 필요로 하는 프로모터의 제어 하에 놓는 것을 포함할 수 있다. 유도인자가 배지로부터 고갈되도록 하는 조건을 확립함으로써, 도메인 또는 단백질을 코딩하는 유전자의 발현 (및 이에 따른 단백질 합성의 발현)이 중지될 수 있다. 도메인 또는 단백질의 활성을 차단하거나 감소시키는 것은 거명에 의해 본원에 포함된 미국 특허 번호 4,743,546에 기술된 것과 유사한 절단 기술 접근법을 사용하는 것을 또한 포함할 수 있다. 이러한 접근법을 사용하기 위해, 관심 단백질을 코딩하는 유전자가 특이적 유전자 서열들 사이에 클로닝되고, 이들은 게놈으로부터의 유전자의 특이적이고 제어된 절단을 허용한다. 예를 들어, 미국 특허 번호 4,743,546에서와 같이, 배양물의 배양 온도에서의 변화에 의해, 또는 일부 또다른 물리 또는 영양 신호에 의해 절단이 자극될 수 있다.
본 발명의 한 실시양태에서, 유전자 변형은 내인성으로 (천연적으로) 발현되는 PUFA PKS 시스템의 단백질 또는 도메인을 코딩하는 핵산 서열이 변형됨으로써, 이러한 시스템을 천연적으로 함유하는 미생물이, 예를 들어, 전통적인 돌연변이유발 및 선별 기술 및/또는 분자 유전학 기술 (유전자 공학 기술 포함)에 의해 유전자 변형되는 것을 포함한다. 유전자 공학 기술은, 예를 들어, 표적화 재조합 벡터를 사용하여 내인성 유전자의 일부분을 결실시키거나 내인성 유전자의 일부분을 이종 서열로 교체하는 것을 포함할 수 있다. 숙주 게놈 내로 도입될 수 있는 이종 서열의 예에는 또다른 PKS 시스템, 예컨대 상이한 PUFA PKS 시스템 (박테리아 또는 비-박테리아), 제I형 PKS 시스템 (반복형 또는 모듈형), 제II형 PKS 시스템, 또는 제III형 PKS 시스템으로부터의 하나 이상의 기능성 도메인을 코딩하는 서열이 포함된다. 숙주의 게놈 내로 도입하기 위한 또다른 이종 서열에는 코어 PKS 시스템의 도메인은 아니지만 내인성 PKS 시스템의 활성에 영향을 미칠 단백질 또는 기능성 도메인을 코딩하는 서열이 포함된다. 예를 들어, 숙주 게놈 내로 포스포판테테이닐 트랜스퍼레이즈 (하기 논의됨)를 코딩하는 핵산 분자를 도입할 수 있다. 내인성 PUFA PKS 시스템에 이루어질 수 있는 특정 변형들이 하기에 상세하게 논의된다.
본 발명의 이러한 실시양태의 또다른 양상에서, 유전자 변형에는 (1) 동종 또는 이종 숙주 세포 또는 생물 내로 PUFA PKS 시스템의 하나 이상의 도메인의 생물학적 활성이 있는 아미노산 서열을 코딩하는 재조합 핵산 분자를 도입하는 것; 및/또는 (2) 숙주 세포 또는 생물 내로 PUFA PKS 시스템의 활성에 영향을 미치는 단백질 또는 기능성 도메인을 코딩하는 재조합 핵산 분자를 도입하는 것이 포함된다. 숙주에는 (1) PUFA 생산을 위한 어떠한 PKS 시스템도 발현하지 않고, PUFA PKS 시스템의 모든 기능성 도메인이 숙주 세포 내로 도입되는 숙주 세포 또는 생물; (2) PUFA 생산을 위한 PKS 시스템 (내인성 또는 재조합)을 발현하고, 하나 이상의 추가적인 PUFA PKS 도메인 또는 단백질이 세포 또는 생물 내로 도입되는 숙주 세포가 포함된다. 바꿔 말하면, 본 발명은 하나 이상의 본원에 기술된 PUFA PKS 도메인 또는 단백질을 포함하거나, 본원에 기술된 바와 같은 재합성 및/또는 키메라 PUFA PKS 도메인 또는 단백질을 생산하도록 변형된, 임의의 유전자 변형 세포 또는 생물 (예를 들어, 미생물 또는 식물)을 포함하도록 의도된다.
따라서, 본원에서 제공된 지침, 뿐만 아니라 본원에 기술되고 본 발명 이전에 공지되어 있는 PUFA PKS 시스템의 설명을 사용하여, 유전자 혼합 (또는 핵산 분자들의 혼합), 예를 들어, 본원에 상세하게 기술된 바와 같은 키메라 단백질 및/또는 키메라 PUFA PKS 시스템의 생산에 의한 혼합을 PUFA PKS 시스템을 발현하는 생물에 의한 PUFA 생성물의 범위, 이들의 비율, 및 이들의 생산 수준을 확장시키는데 사용할 수 있다. 예를 들어, 생산되는 PUFA들의 양을 개선시키고, 하나의 PUFA 대 또다른 PUFA의 비율 (오메가-3 대 오메가-6 PUFA의 비율 포함)을 변화시키고, EPA, DPA (n-3 또는 n-6), DHA, ARA, GLA, SDA 등을 포함하도록 PUFA PKS 생성물의 범위를 확장시킬 뿐만 아니라, 항생제, 기타 제약 화합물 및 기타 원하는 생성물이 포함되는 광범위한 생체활성 분자를 생산하기 위해 본원에서 제공된 기술을 사용할 수 있다. 이러한 개선을 수득하기 위한 방법에는 다양한 생물로부터의 유전자들을 혼합하는 것뿐만 아니라, 본원에 개시된 PUFA PKS 유전자 및 핵산 분자를 유전자 변형시키는 다양한 방법이 또한 포함된다. 본원에 기술된 바와 같은 PUFA PKS 시스템의 유전학적 기초 및 도메인 구조에 대한 지식은 신규 유전자 변형 생물을 디자인하기 위한 기초를 제공한다. 예를 들어, PUFA PKS 시스템의 다양한 가능한 조작이 유전자 변형 및 생체활성 분자 생산과 관련하여 미국 특허 출원 공개 번호 20020194641, 미국 특허 출원 공개 번호 20040235127 및 미국 특허 출원 공개 번호 20050100995 (상기)에 논의되어 있다. 그러나, 본 발명은 숙주 생물에 의한 PUFA 생산 수준의 조작 및 숙주 생물에 의해 생산되는 PUFA들의 비율의 조작과 관련하여 신규 실시양태들을 제공한다.
따라서, 본 발명에 따른 PUFA PKS 시스템의 하나 이상의 기능성 도메인의 생물학적 활성이 있는 아미노산 서열을 코딩하는 생물 내의 하나 이상의 핵산 서열을 유전자 변형시키고/시키거나 이러한 아미노산 서열을 코딩하는 핵산 서열을 포함하는 하나 이상의 재조합 핵산 분자를 발현시킴으로써 미생물 또는 식물 세포를 유전자 변형시키는 방법이 본 발명에 포함된다. 이러한 서열, 생물을 유전자 변형시키는 방법 및 특정 변형의 다양한 실시양태들이 상기에 상세하게 기술되어 있다. 전형적으로, 이 방법은 특정 생체활성 분자 또는 분자들을 생산하는 특정 유전자 변형 생물을 생산하기 위해 사용된다.
본 발명의 한 실시양태에서, 돌연변이유발 프로그램을 선별성 스크리링 프로세스와 조합하여 관심 생체활성 분자를 수득할 수 있음이 구현된다. 이는 광범위한 생체활성 화합물을 검색하는 방법들을 포함할 것이다. 이러한 검색은 시스 이중 결합이 있는 분자들의 생산에 한정되지 않을 것이다. 돌연변이유발 방법에는 화학적 돌연변이유발, 유전자 셔플링(shuffling), 특정 효소 도메인을 코딩하는 유전자의 영역 스위칭, 또는 이러한 유전자들의 특정 영역에 제한된 돌연변이유발, 뿐만 아니라 기타 방법이 포함될 수 있지만, 이에 한정되지 않는다.
예를 들어, 고처리량 돌연변이유발 방법이 원하는 생체활성 분자의 생산에 영향을 미치거나 이를 최적화하기 위해 사용될 수 있다. 일단 효과적인 모델 시스템이 개발되면, 이러한 유전자들을 고처리량 방식으로 변형시킬 수 있다. 이러한 기술의 활용은 2가지 수준에서 구현될 수 있다. 첫번째로, 관심 생성물 (예를 들어, ARA)의 생산을 위한 충분하게 선별성인 스크린이 고안될 수 있다면, 이를 이러한 생성물을 생산하도록 시스템을 변경시키려 시도하는데 사용할 수 있다 (예를 들어, 상기 논의된 것들과 같은 다른 전략들 대신 또는 이와 협력하여). 추가적으로, 상기 개요된 전략으로 관심 생성물을 생산하는 유전자들의 셋트가 초래되었다면, 고처리량 기술을 사용하여 시스템을 최적화할 수 있다. 예를 들어, 도입된 도메인이 비교적 낮은 온도에서만 기능하였다면, 이러한 제한의 제거를 허용하도록 선별 방법이 고안될 수 있다.
천연 (내인성, 자연적) PUFA PKS 시스템 내로 도입할 수 있는 다수의 유전적 변경 (무작위 또는 지향성)으로 효소 기능의 불활성화가 초래될 것으로 이해된다. 본 발명의 바람직한 실시양태는 생성물을 생산하는 PUFA PKS 시스템의 능력을 차단하지 않는 변형만을 선별하기 위한 시스템을 포함한다. 예를 들어, 대장균의 FabB-균주는 불포화 지방산을 합성할 수 없고, 성장하기 위해 이의 정상적인 불포화 지방산을 대신할 수 있는 지방산을 배지에 보충하는 것을 요구한다 ([Metz et al., 2001, 상기 문헌] 참조). 그러나, 균주가 기능성 PUFA PKS 시스템 (즉, 대장균 숙주에서 PUFA 생성물을 생산하는 것 - [Metz et al., 2001, 상기 문헌], 도 2a 참조)으로 형질전환되면 이러한 요구 (배지의 보충에 대한 요구)가 제거될 수 있다. 형질전환된 FabB-균주는 이제 보충 없는 성장을 위해 기능성 PUFA-PKS 시스템 (불포화 지방산 생산용)을 요구한다. 이러한 예의 주요 요소는 광범위한 불포화 지방산 (심지어 불포화 지방산 치환물, 예컨대 분지쇄 지방산)의 생산이 충분할 것이라는 것이다. 따라서, 본 발명의 또다른 바람직한 실시양태에서, 본원에 개시된 PUFA PKS 유전자들 중 하나 이상에서 다수의 돌연변이를 생성시킨 후, 적합하게 변형된 FabB-균주를 형질전환시키고 (예를 들어, ER 도메인을 함유하는 발현 구축물 내에 돌연변이를 생성시키고, 다른 필수 도메인이 별도의 플라스미드 상에 있거나 염색체 내로 통합된 FabB-계통을 형질전환시킴), 배지의 보충 없이 성장하는 형질전환체 (즉, FabB-결점을 보완할 수 있는 분자를 생산하는 능력을 여전히 보유하는 것)만을 선별할 수 있다. 활성 PKS 시스템의 이러한 선별성 하위셋트에서 생산되는 특정 화합물을 찾기 위한 추가적인 스크린이 개발될 수 있다 (예를 들어, 지방산에 대한 GC의 사용). 관심 생체활성 분자를 위한 다수의 유사한 선별 스크린을 구상할 수 있다.
본 발명의 한 실시양태에서, 유전자 변형 생물에 야생형 생물과 비교하여 내인성 PKS 시스템에 의해 생산되는 하나 이상의 생성물을 변화시키는 변형이 있다. 이러한 변형 생물을 생산하기 위해 사용되는 신규 구축물, 뿐만 아니라 이러한 구축물을 사용하여 생산되는 단백질 및 생물, 및 이러한 변형과 관련되는 방법이 모두 본 발명에 포함된다.
한 바람직한 실시양태에서, 유전자 변형 생물은 스키조키트리움 또는 트라우스토키트리움의 DH2 도메인에 상응하는 β-히드록시 아실-ACP 디하이드레이즈 (DH) 도메인 내에 유전자 변형을 포함하는 PUFA PKS 시스템을 발현하고, 이때 상기 변형은 변형의 부재 시와 비교하여 PUFA PKS 시스템에 의해 생산되는 장쇄 지방산들의 비율, 특히 오메가-3 대 오메가-6 장쇄 지방산의 비율을 변경시킨다. 이러한 실시양태의 한 양상에서, 변형은 도메인 모두 또는 일부의 결실, 도메인 모두 또는 일부의 상이한 생물 (예를 들어, 천연적으로는 상이한 비율 및/또는 양의 PUFA들을 생산하는 상이한 생물)로부터의 상동성 도메인 또는 이의 일부로의 치환, 및 도메인의 돌연변이로 구성된 군으로부터 선택된다.
더욱 구체적으로, 본원에 설명된 바와 같이, 스키조키트리움 및 트라우스토키트리움 PUFA PKS 구조 (도메인 구성)와 다른 PUFA PKS 시스템 구조의 비교는, 예를 들어, 도메인 순서를 변경시킬 뿐만 아니라, 새로운 도메인을 혼입시켜 신규 최종 생성물을 생성시키거나 최종 생성물의 비율을 변경시키는 자연의 능력을 설명하였다. 또한, 실시예에 기술된 바와 같이, 이제 실험실에서 유전자를 조작하여 새로운 생성물을 생성시킬 수 있다. 본 발명가들은 이러한 능력을 이용하고, 이를 사용하여 신규 PUFA 프로파일 및 생산량이 있는 신규 생물을 생성시키는 능력을 실연하였다. 최종 생성물에 영향을 미치기 위한 지향성 또는 무작위 방식의 PUFA PKS 시스템의 조작이 본원에 기술된다. 예를 들어, 바람직한 실시양태에서, 제1 PUFA PKS 시스템의 DH (FabA-유사) 도메인 또는 이의 생물학적으로 활성인 부분, 특히 본원에 기술된 DH2 도메인으로 상이한 제2 PUFA PKS 시스템 내의 상동성 DH 도메인 또는 이의 생물학적으로 활성인 부분을 치환하는 것이 제2 PUFA PKS 시스템에 의해 생산되는 PUFA들의 비율을 변경시키는데, 특히 제2 PUFA PKS 시스템에 생산되는 오메가-3 대 오메가-6 지방산의 비율을 조작하는데 사용된다. 제1 PUFA PKS 시스템으로부터의 이러한 DH2 도메인을 함유하는 전체 단백질 또는 임의의 이의 생물학적으로 활성인 부분 (예를 들어, 트라우스토키트리움 23B로부터의 OrfC)로 제2 PUFA PKS 시스템 내의 상동성 단백질 또는 이의 일부분을 치환함으로써 유사한 결과가 달성될 수 있다. 본원에 기술된 예들에서 스키조키트리움 및 트라우스토키트리움으로부터의 PUFA PKS 시스템이 이용되지만, DH2 단백질 또는 DH2-유사 도메인의 변형에 의한 PUFA의 생산을 위한 임의의 PKS 또는 PKS-유사 시스템의 유사한 조작이 본 발명에 포함된다. 이러한 변형은 단독으로 또는 PUFA PKS 시스템에 대한 또다른 변형과 함께 수행될 수 있다.
따라서, 본 발명의 한 실시양태는 키메라 PUFA PKS 시스템 및 이러한 키메라 PUFA PKS 시스템을 발현하는 생물을 포함한다. 한 양상에서, 키메라 PUFA PKS 시스템은 DH2 도메인 또는 이의 생물학적으로 활성인 부분에 상응하는 제1 PUFA PKS 시스템의 도메인 또는 단백질 (예를 들어, 본원에 기술된 스키조키트리움 또는 트라우스토키트리움으로부터의 것)이 제2의 상이한 PUFA PKS 시스템으로부터의 DH2 도메인 또는 단백질 또는 이의 생물학적으로 활성인 부분으로 변형 또는 치환된 제1 PUFA PKS 시스템을 포함한다. "상이한 PUFA PKS 시스템"은 상이한 계통, 종, 속 또는 생물로부터의 PUFA PKS 시스템, 또는 심지어는 천연 또는 야생형 PUFA PKS 시스템의 상동체를 의미한다. 이러한 키메라 단백질을 생산하는 목적은 PUFA PKS 시스템에 의해 생산되는 PUFA들의 비율, 특히 오메가-3 대 오메가-6 PUFA의 비율을 변경시키는 것이다. 따라서, 상이한 PUFA PKS 시스템의 선택은 제1 PUFA PKS 시스템에 비해 상이한 또는 원하는 비율의 PUFA를 생산하는 제2의 시스템의 선택을 기초로 하여야 한다.
본 발명의 한 양상에서, 이러한 키메라 PUFA PKS 시스템은 본원에 기술된 바와 같은 스키조키트리움 OrfA (서열 2) 및 OrfB (서열 4) 단백질, 및 본원에 기술된 바와 같은 트라우스토키트리움 OrfC (서열 62) 단백질을 포함한다. 이러한 키메라 PUFA PKS 시스템을 발현하는 식물 및 식물의 일부분에 더하여, 이러한 키메라 PUFA PKS 시스템을 발현하는 스키조키트리움, 대장균, 및 효모 생물이 실시예에 기술되어 있고 본 발명에 포함된다. 실시예에 예시된 또다른 실시양태에서, 스키조키트리움 및 트라우스토키트리움 OrfA, OrfB 및 OrfC의 모든 조합을 포함하는 키메라 PUFA PKS 시스템이 생산된다.
본 발명의 또다른 양상에서, 키메라 PUFA PKS 시스템은 본원에 기술된 바와 같은 스키조키트리움 OrfA (서열 2) 및 OrfB (서열 4) 단백질, 및 키메라 OrfC 단백질 (서열 73에 의해 코딩되는 서열 74로 본원에서 표시됨)을 포함한다. 키메라 OrfC 폴리펩티드는 아미노산 잔기 1493개의 길이이다. 서열 74의 아미노산 516-1041로 정의되는 DH2 영역은 Th.23B OrfC 단백질의 DH2 영역의 아미노산 서열, 즉 서열 62의 아미노산 491-1016으로 구성되고, 이는 서열 66 모두 및 서열 62로부터의 일부 플랭킹 아미노산 서열을 포함한다. 키메라 OrfC 아미노산 서열의 나머지와 관련하여, 서열 74의 잔기 1-515 및 1042-1493은 각각 서열 6의 스키조키트리움 OrfC 잔기 1-515 및 1051-1502와 동일하다.
본 발명의 또다른 실시양태에서, 키메라 PUFA PKS 시스템을 포함하는 PUFA PKS 시스템 또는 이의 일부분을 발현하도록 유전자 변형 세포 또는 생물이 변형되었고, 이때 숙주 세포 또는 생물의 바람직한 코돈 사용빈도를 이용하도록 PUFA PKS 시스템 또는 이의 일부분을 코딩하는 핵산 서열(들)이 전체적으로 또는 부분적으로 최적화된다. 이러한 실시양태가 하기에 예시되고, 이러한 변형을 제조함으로써 어떻게 생체활성 분자 (예를 들어, PUFA)의 생산이 증가될 수 있는지를 예증한다. 숙주 생물에서의 생체활성 분자의 생산을 개선하기 위해, 이러한 실시양태가 본원에 기술된 다른 유전자 변형 (예를 들어, 키메라 PUFA PKS 및 단백질 실시양태)와 함께 사용될 수 있다.
이러한 실시양태의 한 양상에서, 키메라 PUFA PKS 시스템은 본원에 기술된 바와 같은 스키조키트리움 OrfA (서열 2) 및 OrfB (서열 4) 단백질, 및 본원에 기술된 바와 같은 트라우스토키트리움 OrfC (서열 62) 단백질을 포함하고, 이때 서열 62를 코딩하는 핵산 서열이 숙주 코돈 사용빈도에 대해 최적화된다. 본원에서 서열 70으로 표시되는 트라우스토키트리움 OrfC (합성 또는 코돈-최적화 OrfC)를 코딩하는 이러한 핵산 서열과 함께 스키조키트리움에서의 발현에 대해 최적화된 이러한 분자의 예가 실시예에서 기술된다. 또다른 실시양태에서, 트라우스토키트리움 OrfA (서열 39) 및/또는 트라우스토키트리움 OrfB (서열 52)가 스키조키트리움에서의 발현을 위해 스키조키트리움 OrfA, OrfB 및/또는 OrfC 중 임의의 하나 이상과, 및/또는 트라우스토키트리움 OrfC와 조합될 수 있다. 또다시, 이러한 예에서, 트라우스토키트리움 OrfA 및/또는 트라우스토키트리움 OrfB를 코딩하는 핵산 분자가 숙주 코돈 사용빈도에 대해 최적화될 수 있다. 본원에서 서열 71로 표시되는 트라우스토키트리움 OrfA (합성 또는 코돈-최적화 OrfA)를 코딩하는 핵산 서열 및 본원에서 서열 72로 표시되는 트라우스토키트리움 OrfB (합성 또는 코돈-최적화 OrfB)를 코딩하는 핵산 서열과 함께 스키조키트리움에서의 발현에 대해 최적화된 이러한 분자의 예가 실시예에서 기술된다.
이러한 실시양태의 또다른 양상에서, 키메라 PUFA PKS 시스템은 본원에 기술된 바와 같은 스키조키트리움 OrfA (서열 2) 및 OrfB (서열 4) 단백질, 및 부분적으로 코돈-최적화된 키메라 OrfC 단백질 (본원에서 서열 75로 표시되는 핵산 서열에 의해 코딩됨)을 포함한다. 서열 75에 의해 코딩되는 단백질은 서열 74로 또한 표시되고, 이는 서열 73과 관련하여 상기에 기술되어 있다. 그러나, 이러한 경우에, 트라우스토키트리움으로부터 유래된, 서열 66 (DH2 도메인)을 코딩하는 핵산 서열의 일부분이 실시예에 기술된 바와 같이 스키조키트리움에서의 발현에 대해 최적화된다.
대장균, 효모 및 식물에서 사용하기 위한 기타 코돈-최적화 핵산 서열이 상기 및 하기의 실시예에서 기술된다.
또다른 실시양태에서, PUFA PKS 시스템에 의해 생산되는 지방산의 사슬 길이를 조절하는 단백질을 코딩하는 재조합 핵산 분자로 생물을 형질감염시킴으로써 유전자 변형 생물이 변형되었다. 예를 들어, PUFA PKS 시스템에 의해 생산되는 지방산의 사슬 길이를 조절하는 단백질은 C20 유닛 및/또는 C22 유닛의 합성을 지시하는 사슬 길이 인자일 수 있다.
또다른 실시양태에서, 유전자 변형 생물은 에노일-ACP 리덕테이즈 (ER) 도메인에서의 변형을 포함하는 PUFA PKS 시스템을 발현하고, 이때 상기 변형은 변형의 부재 시와 비교하여 상이한 화합물의 생산을 초래한다. 이러한 실시양태의 한 양상에서, 변형은 ER 도메인 모두 또는 일부의 결실, ER 도메인의 상이한 생물로부터의 ER 도메인으로의 치환 및 ER 도메인의 돌연변이로 구성된 군으로부터 선택된다.
본 발명의 한 실시양태에서, 유전자 변형 생물은 유전자 변형이 없는 천연 발생 생물과 상이한 다중불포화 지방산 (PUFA) 프로파일을 생산한다.
본 개시내용이 주어지면, 생체활성 분자를 생산하는데 유용한 다수의 또다른 유전자 변형이 당업자에게 명백할 것이고, 다양한 기타 변형이 본원에서 앞서 논의되어 있다. 원하는 생체활성 분자의 생산을 초래하는 본원에 기술된 바와 같은 PUFA PKS 시스템에 관련된 임의의 유전자 변형이 본 발명에서 구현된다.
상기 기술된 바와 같이, 본 발명의 한 실시양태에서, 유전자 변형 생물, 예컨대 유전자 변형 미생물 또는 식물은 원하는 생체활성 분자 (생성물)를 합성하는 능력이 강화되었거나 특정 생성물을 합성하는 능력 (예를 들어, PUFA를 합성하는 능력, 상이한 프로파일의 PUFA들을 합성하는 능력 또는 특정 항생제를 합성하는 능력)이 새롭게 도입된 생물을 포함한다. 본 발명에 따르면, 생성물을 "합성하는 능력 강화"는 이러한 미생물 또는 식물이 동일한 조건 하에 배양 또는 성장된 야생형 미생물 또는 식물과 비교하여 증가된 양의 생성물 (이전에는 없었던 경우에는 생성물의 임의의 생산 포함)을 생산하도록 하는, 생성물의 합성과 관련된 경로에서의 임의의 강화 또는 상향조절을 지칭한다. 이러한 유전자 변형 생물을 생산하는 방법은 상기에 상세하게 기술되어 있다. 한 바람직한 실시양태에서, 본 발명은 식물이 PUFA를 생산하도록, 적어도 코어 PUFA PKS 효소 복합체를 포함하고, 한 실시양태에서는 하나 이상의 PUFA PKS 부속 단백질 (예를 들어, PPTase)을 포함하는 유전자 변형 식물 또는 식물의 일부분 (예를 들어, 식물이 본원에 기술된 PUFA PKS 시스템 (키메라 PUFA PKS 시스템 포함)을 발현하도록 유전자 변형된 경우)에 관한 것이다. 바람직하게는, 식물은 오일 종자 식물이고, 이때 오일 종자 또는 오일 종자 내의 오일이 PUFA PKS 시스템에 의해 생산된 PUFA를 함유한다. 이러한 오일은 PUFA PKS 시스템의 생성물인 하나 이상의 표적 또는 주요 PUFA를 검출가능한 양으로 함유한다.
본 발명가들은 스키조키트리움으로부터의 PUFA PKS 시스템 및 PUFA PKS 부속 효소인 4'-포스포판테테이닐 트랜스퍼레이즈 (PPTase)를 코딩하는 유전자들을 발현하도록 유전자 변형된 식물에서의 PUFA의 생산을 실연하였다 (예를 들어, 미국 특허 출원 공개 번호 20070089199 (상기 문헌) 참조). 이러한 식물에 의해 생산된 오일은 PUFA PKS 유전자들이 유래된 스키조키트리움에 의해 생산되는 우세한 PUFA (주요 PUFA)인 DHA (도코사헥사엔산 (C22:6, n-3)) 및 DPA (도코사펜타엔산 (C22:5, n-6)) 양쪽 모두를 상당한 양으로 함유한다. 두드러지게, PUFA PKS 경로를 사용하여 PUFA를 생산하는 식물로부터의 오일은 상기 기술된 "표준" 경로에 의해 동일한 PUFA를 생산하도록 유전자 조작된 식물과 지방산 프로파일이 상이하다. 특히, PUFA PKS 경로에 의해 특정 PUFA를 생산하도록 유전자 조작된 식물로부터의 오일에는 표준 PUFA 합성 경로를 사용한 결과로 생산되는 오일 내에 축적되는 다양한 중간 생성물 및 부산물이 실질적으로 없다. 이러한 특성이 하기에 상세하게 논의된다.
더욱 특히, "표준" 경로 (상기 기술됨)에 의해 식물에서 장쇄 PUFA를 생산하기 위한 노력은 이러한 합성 경로에 의해 구술되는 동일한 기본적인 접근법을 취하였다. 이러한 노력들은 다양한 일롱게이즈 및 디새츄레이즈를 코딩하는 유전자들의 도입에 의한 식물의 내인성 지방산의 변형에 의존한다. 전형적으로 식물은 이의 색소체에서 제II형 지방산 신테이즈 (FAS)를 통해 탄소수 18의 지방산 (예를 들어, 올레산, 리놀레산, 리놀렌산)을 생산한다. 종종, 이러한 지방산이 ACP에 부착되는 동안 단일 이중 결합이 형성된 후, 아실-ACP 티오에스테레이즈의 작용에 의해 올레산 (18:1)이 ACP로부터 절단된다. 이러한 유리 지방산이 색소체로부터 이출되고, 아실-CoA로 전환된다. 18:1이 포스파티딜콜린 (PC)으로 에스테르화될 수 있고, 2개까지의 추가적인 시스 이중 결합이 부가될 수 있다. 새롭게 도입된 일롱게이즈는 아실-CoA 풀 내의 기질을 이용하여, 탄소 2개의 증분으로 탄소를 부가할 수 있다. 새롭게 도입된 디새츄레이즈는, 효소의 공급원에 따라, PC로 에스테르화된 지방산 또는 아실-CoA 풀 내의 것들을 이용할 수 있다. 그러나, 장쇄 PUFA 생산을 위한 이러한 계획의 한가지 결과는 경로 내의 중간체 또는 부산물이 축적된다는 것이고, 종종 이들이, 오히려 표적 장쇄 PUFA보다, 식물 오일 내의 신규 지방산의 대부분을 나타낸다.
예를 들어, 상기 기술된 바와 같은 표준 또는 전통 경로를 사용하면, 표적 PUFA 생성물 (즉, 표준 경로를 사용함으로써, 생산용으로 표적화하거나, 생산하려고 노력하거나, 생산하려고 시도하는 PUFA 생성물)이 예를 들어 DHA 또는 EPA인 경우 (예를 들어, FAS 시스템의 생성물로부터 DHA 또는 EPA를 생산할 일롱게이즈 및 디새츄레이즈를 사용하여 생산됨), 다양한 중간 생성물 및 부산물이 DHA 또는 EPA에 더하여 생산될 것이고, 이러한 중간체 또는 부산물이 경로에 의해 생산되는 생성물의 대부분을 빈번하게 나타내거나, 또는 적어도 생산 생물의 지질 내에 상당한 양으로 존재한다. 이러한 중간체 및 부산물은 표적 또는 주요 PUFA보다 탄소수가 적고/적거나 이중 결합이 적은 지방산을 포함하지만 이에 한정되지 않고, 표적 또는 주요 PUFA와 탄소수가 동일할 수 있지만 일반적이지 않은 위치에 이중 결합이 있을 수 있는, 일반적이지 않은 지방산 부산물을 포함할 수 있다. 예를 들어, 표준 경로를 사용하는 EPA의 생산에서 (예를 들어, 미국 특허 출원 공개 2004/0172682 참조), 경로의 표적 PUFA는 EPA이지만 (즉, EPA를 생산하도록 FAS 시스템의 생성물 상에 특이적으로 작용하는 일롱게이즈 및 디새츄레이즈의 사용으로 인해), 시스템에 의해 생산되는 오일은 하기를 포함하는 다양한 중간체 및 부산물을 포함한다: 감마-리놀렌산 (GLA; 18:3, n-6); 스테아리돈산 (STA 또는 SDA; 18:4, n-3); 디호모-감마-리놀렌산 (DGLA 또는 HGLA; 20:3, n-6), 아라키돈산 (ARA, C20:4, n-6); 에이코사트리엔산 (ETA; 20:3, n-9) 및 각종 기타 중간체 또는 부산물, 예컨대 20:0; 20:1 (Δ5); 20:1 (Δ11); 20:2 (Δ8,11); 20:2 (Δ11,14); 20:3 (Δ5,11,14); 20:3 (Δ11,14,17); 미드산(mead acid) (20:3; Δ5,8,11); 또는 20:4 (Δ5,1,14, 17). 시스템의 중간체는 유전자 변형의 표적이 아닌 장쇄 PUFA를 또한 포함한다 (예를 들어, DHA를 생산하기 위한 표준 경로 효소 시스템이 실제로는 DHA 이외의 중간 생성물로서 더 많은 EPA를 생산할 수 있다).
반면에, 본 발명의 PUFA PKS 신테이즈는 FAS 시스템의 지방산 생성물을 이용하지 않는다. 대신, 이는 FAS 및 일롱게이즈가 이용하는 동일한 소형 전구체 분자 (말로닐-CoA)로부터 최종 PUFA 생성물 (주요 PUFA 생성물)을 생산한다. 따라서, 합성 사이클 내의 중간체가 어떠한 현저한 양으로도 방출되지 않고, PUFA 생성물 (본원에서 주요 PUFA 생성물로 또한 지칭됨)이 지질의 인지질 (PL) 및 트리아실글리세롤 (TAG) 분획으로 효율적으로 전달된다. 실제로, PUFA PKS 시스템은 2개의 표적 또는 주요 PUFA 생성물을 생산할 수 있지만 (예를 들어, 스키조키트리움으로부터의 PUFA PKS 시스템은 주요 생성물로서 DHA 및 DPAn-6 양쪽 모두를 생산한다), DHA를 생산하기 위한 경로에서 DPA가 중간체가 아니다. 오히려, 각각은 동일한 PUFA PKS 시스템의 별도의 생성물이다. 따라서, 본 발명의 PUFA PKS 유전자들은 "표준" PUFA 경로에 의해 생산되는 오일을 오염시키는 중간체 및 부산물이 실질적으로 없는 (하기에 정의됨), PUFA, 특히 LCPUFA를 함유하는 오일을 이종 숙주, 예컨대 식물에서 생산하는 우수한 수단이다.
따라서, 본원에 기술된 바와 같은 식물의 유전자 조작을 통해, 다중불포화 지방산, 확대하자면 이러한 PUFA를 포함하는 이러한 식물로부터 수득되는 (예를 들어, 이러한 식물의 오일 종자로부터 수득되는) 오일을 생산하는 것이 본 발명의 목표이다. 본 발명에 의해 생산될 수 있는 PUFA의 예로는 DHA (도코사헥사엔산 (C22:6, n-3)), ARA (에이코사테트라엔산 또는 아라키돈산 (C20:4, n-6)), DPA (도코사펜타엔산 (C22:5, n-6 또는 n-3)), 및 EPA (에이코사펜타엔산 (C20:5, n-3))이 포함되지만, 이에 한정되지는 않는다. PUFA를 생산하는 본 발명의 폴리케타이드 신테이즈 시스템, 뿐만 아니라 이의 성분들의 사용을 통해 본 발명가들이 개발한 유전자 변형 식물에 의해 본 발명은 하나 이상의 원하는 (표적 또는 주요) PUFA가 풍부해진 상업적으로 가치가 있는 지질의 생산을 허용한다.
본 발명에 따르면, "주요 PUFA", "표적 PUFA", "의도되는 PUFA", 또는 "원하는 PUFA"에 대한 언급은 PUFA(들)를 생산하는데 사용되는 효소 경로의 의도된 또는 표적화된 생성물인 특정 PUFA 또는 PUFA들을 지칭한다. 예를 들어, FAS 시스템의 생성물을 변형시키기 위해 일롱게이즈 및 디새츄레이즈를 사용하는 경우, 함께 사용될 때 표적 또는 원하는 PUFA (예를 들어, DHA 또는 EPA)를 생산할 일롱게이즈와 디새츄레이즈의 특정 조합을 선택할 수 있다. 상기 논의된 바와 같이, 표준 경로에 의해 생산된 이러한 표적 또는 원하는 PUFA는 중간체 및 부산물 (실제로는 시스템에 의해 생산된 생성물의 대부분을 나타낼 수 있음)의 형성으로 인해 시스템에 의해 생산된 전체 지방산의 백분율로서의 PUFA의 양의 관점에서 실제로는 "주요" PUFA가 아닐 수 있다. 그러나, 이러한 경우에도, 시스템에서 사용된 일롱게이즈 또는 디새츄레이즈에 의해 생산되는 표적 또는 의도된 PUFA 생성물을 지칭하기 위해 "주요 PUFA"라는 용어를 사용할 수 있다.
본 발명에서 선호되는 바와 같은 PUFA PKS 시스템을 사용하는 경우, 특정 생물로부터의 PUFA PKS 시스템의 선택이 특수화된 표적 또는 주요 PUFA의 생산을 초래하도록, 특정 생물로부터 유래된 소정의 PUFA PKS 시스템이 특정 PUFA(들)를 생산할 것이다. 예를 들어, 스키조키트리움으로부터의 PUFA PKS 시스템의 사용은 표적 또는 주요 PUFA로서 DHA 및 DPAn-6의 생산을 초래할 것이다. 반면에, 다양한 쉐와넬라 종으로부터의 PUFA PKS 시스템의 사용은 표적 또는 주요 PUFA로서 EPA의 생산을 초래할 것이다. 주요 또는 표적 PUFA들의 비율이 특정 PUFA PKS 시스템의 선택 및 이러한 시스템이 자신이 발현되는 특정 조건에 어떻게 응답하는지에 따라 상이할 수 있다는 것을 유념한다. 예를 들어, 트라우스토키트리움 23B (ATCC 번호 20892)으로부터의 PUFA PKS 시스템의 사용 또한 표적 또는 주요 PUF로서 DHA 및 DPAn-6의 생산을 초래할 것이다; 그러나, 트라우스토키트리움 23B의 경우에, DHA 대 DPAn-6의 비율은 약 10:1인 반면 (그리고, 약 8:1 내지 약 40:1 범위일 수 있음), 스키조키트리움에서는 이러한 비율은 전형적으로 약 2.5:1이다. 따라서, 트라우스토키트리움 PUFA PKS 시스템 또는 단백질 또는 도메인의 사용은, 비록 표적 PUFA는 동일하지만, 스키조키트리움과 비교하여 생물에 의해 생산되는 PUFA들의 비율을 변경시킬 수 있다. 그러나, 상기에 상세하게 기술된 바와 같이, 키메라 단백질 및/또는 키메라 PUFA PKS 시스템 (상기 기술됨)을 생산하기 위해 다양한 단백질 및 도메인들을 또다른 PUFA PKS 시스템 또는 또다른 PKS 시스템 (PUFA 이외의 생체활성 분자를 생산함)으로부터의 단백질 및 도메인과 조합 ("혼합 및 매칭")할 수 있어, 상이한 PUFA 유형, 양 및/또는 한 PUFA 대 또다른 PUFA의 비율을 포함하는 상이한 PUFA 프로파일의 생성이 초래된다.
본 발명의 PUFA PKS 시스템을 사용하는 경우, 생물 예컨대 식물에 의해 생산된 오일에는 표적 또는 주요 PUFA 생성물이 아닌, 그리고 야생형 생물에서 내인성 FAS 시스템에 의해 천연적으로 생산되지 않는 중간체 또는 부산물이 실질적으로 없다 (예를 들어, 야생형 식물이 약간의 더 짧은 사슬 또는 중쇄 PUFA, 예컨대 탄소수 18의 PUFA를 FAS 시스템을 통해 생산하지만, PUFA PKS 시스템으로의 유전자 변형의 결과로 새로운 또는 추가적인 지방산이 식물에서 생산되지 않는다). 바꿔 말하면, 야생형 식물 (유전자 변형되지 않음) 또는 지시된 유전자 변형에 대한 수용체로 사용되는 어버이 식물로부터의 전체 지방산의 프로파일과 비교하여, 본 발명의 PUFA PKS 시스템 (또는 이의 성분)으로 유전자 변형된 식물에 의해 생산된 전체 지방산의 프로파일 내의 추가적인 지방산의 대부분은 PUFA PKS 시스템의 표적 또는 의도된 PUFA 생성물을 포함한다 (즉, 유전자 변형 식물에 의해 생산된 전체 지방산 내의 추가적인 지방산의 대부분은 표적 PUFA(들)이다).
본 발명에 따르면, PUFA를 생산하는 효소 시스템의 "중간 생성물" 또는 "부산물"에 대한 언급은 효소 시스템의 표적 또는 주요 PUFA(들)의 생산의 결과로서 효소 시스템에 의해 생산되지만, 주요 또는 표적 PUFA(들)이 아닌 임의의 생성물, 특히 지방산 생성물을 지칭한다. 한 실시양태에서, 중간체 및 부산물은 야생형 식물에 의해 또는 지시된 유전자 변형에 대한 수용체로서 사용되는 어버이 식물에 의해 천연적으로 생산되지만, 유전자 변형의 결과로서 야생형 식물에 의해 또는 지시된 유전자 변형에 대한 수용체로서 사용되는 어버이 식물에 의해 생산되는 수준에 비해 더 큰 수준으로 생산되기 때문에 중간체 또는 부산물로 분류되는 비-표적 지방산을 또한 포함할 수 있다. 상기 논의된 바와 같이, 중간체 및 부산물은 PUFA 합성을 위한 표준 경로에서 특히 상당하고, PUFA PKS 경로에서는 실질적으로 덜 상당하다. 한 효소 시스템의 주요 또는 표적 PUFA이 주요 또는 표적 생성물이 다른 PUFA인 다른 효소 시스템의 중간체일 수 있음을 유념하고, 이는 PUFA PKS 시스템에서는 중간체의 생산이 실질적으로 방지되기 때문에 PUFA 생산의 표준 경로의 생성물에 경우에 특히 그러하다. 예를 들어, EPA를 생산하기 위해 표준 경로를 사용하는 경우, GLA, DGLA 및 SDA와 같은 지방산이 상당한 양으로 중간 생성물로 생산된다 (예를 들어, 미국 특허 출원 공개 2004/0172682가 이러한 점을 예시한다). 유사하게, 그리고 또한 미국 특허 출원 공개 2004/0172682에 예시된 바와 같이, DHA를 생산하기 위해 표준 경로를 사용하는 경우, 상기 언급된 지방산들에 더하여, ETA 및 EPA (특히, 상기의 첫번째 예의 표적 PUFA)가 상당한 양으로 생산되고, 실제로는 표적 PUFA 자체보다 전체 지방산 생성물과 비교하여 상당히 더 큰 양으로 존재할 수 있다. 이러한 후자의 점 또한 미국 특허 출원 공개 2004/0172682에서 제시되고, 이때 표준 경로에 의해 DHA를 생산하도록 조작된 식물이 표적화된 DHA보다 전체 지방산의 백분율로서 더 많은 EPA를 생산하였다.
또한, PUFA를 합성하기 위한 시스템의 중간체 또는 부산물이 "실질적으로 없는" 것 또는 중간체 또는 부산물이 실질적인 양으로 존재하지 않는 것은 PUFA 생산을 위한 효소 시스템의 도입 또는 존재의 결과로 유전자 변형 식물 (및/또는 식물의 일부분 및/또는 종자 오일 분획)에서 생산된 임의의 중간체 또는 부산물 지방산 (비-표적 PUFA) (즉, 야생형 식물 또는 지시된 유전자 변형에 대한 수용체로서 사용되는 어버이 식물에 의해 생산되지 않는 것)이 식물에 의해 생산되는 전체 지방산의 약 10 중량% 미만, 더욱 바람직하게는 약 9% 미만, 더욱 바람직하게는 약 8% 미만, 더욱 바람직하게는 약 7% 미만, 더욱 바람직하게는 약 6% 미만, 더욱 바람직하게는 약 5% 미만, 더욱 바람직하게는 약 4% 미만, 더욱 바람직하게는 약 3% 미만, 더욱 바람직하게는 약 2% 미만, 더욱 바람직하게는 식물에 의해 생산되는 전체 지방산의 약 1 중량% 미만, 더욱 바람직하게는 식물에 의해 생산되는 전체 지방산의 약 0.5 중량% 미만인 양으로 존재한다는 것을 의미한다.
바람직한 실시양태에서, PUFA를 합성하기 위한 시스템의 중간체 또는 부산물이 "실질적으로 없는" 것 또는 중간체 또는 부산물이 실질적인 양으로 존재하지 않는 것은 PUFA 생산을 위한 효소 시스템의 결과로 유전자 변형 식물 (및/또는 식물의 일부분 및/또는 종자 오일 분획)에서 생산된 임의의 중간체 또는 부산물 지방산 (즉, 야생형 식물에 의해 또는 표적 PUFA의 생산을 위한 지시된 유전자 변형에 대한 수용체로서 사용되는 어버이 식물에 의해 생산되지 않는 것)이 식물에 의해 생산된 전체적인 추가적인 지방산 (추가적인 지방산은 야생형 식물에 의해 또는 표적 PUFA의 생산을 위한 지시된 유전자 변형에 대한 수용체로서 사용되는 어버이 식물에 의해 천연적으로 생산되지 않는 지방산들 또는 이러한 지방산들의 수준으로 정의됨)의 약 10 중량% 미만, 더욱 바람직하게는 약 9% 미만, 더욱 바람직하게는 약 8% 미만, 더욱 바람직하게는 약 7% 미만, 더욱 바람직하게는 약 6% 미만, 더욱 바람직하게는 약 5% 미만, 더욱 바람직하게는 약 4% 미만, 더욱 바람직하게는 약 3% 미만, 더욱 바람직하게는 약 2% 미만, 더욱 바람직하게는 식물에 의해 생산되는 전체적인 추가적인 지방산의 약 1% 미만인 양으로 존재한다는 것을 의미한다. 따라서, 표준 경로를 통해 PUFA를 생산하도록 유전자 변형된 식물의 지방산 프로파일과 달리, PUFA PKS 시스템으로의 유전자 변형으로부터 초래된 지방산 생성물의 대부분은 표적 또는 의도된 지방산 생성물일 것이다.
PUFA PKS 시스템의 표적 생성물이 본원에 기술된 본 발명의 PUFA PKS 시스템에 생산되는 DHA 또는 DPA (n-6 또는 n-3)와 같은 장쇄 PUFA인 경우, 이러한 PUFA PKS로 유전자 변형된 식물의 전체 지질 내에 실질적인 양으로 존재하지 않는 중간 생성물에는 감마-리놀렌산 (GLA; 18:3, n-6); 스테아리돈산 (STA 또는 SDA; 18:4, n-3); 디호모-감마-리놀렌산 (DGLA 또는 HGLA; 20:3, n-6), 아라키돈산 (ARA, C20:4, n-6); 에이코사트리엔산 (ETA; 20:3, n-9) 및 각종 기타 중간체 또는 부산물, 예컨대 20:0; 20:1 (Δ5); 20:1 (Δ11); 20:2 (Δ8,11); 20:2 (Δ11,14); 20:3 (Δ5,11,14); 20:3 (Δ11,14,17); 미드산 (20:3; Δ5,8,11); 또는 20:4 (Δ5,1,14,17)이 포함될 수 있지만, 이에 한정되지는 않는다. 또한, 표적 생성물이 특정 PUFA, 예컨대 DHA인 경우, 유전자 변형 식물의 전체 지질 내에 실질적인 양으로 존재하지 않는 중간 생성물 및 부산물에는 상이한 PUFA PKS 시스템의 천연 생성물인 기타 PUFA, 예컨대 이러한 예의 EPA가 포함되는 기타 PUFA가 또한 포함된다. 일부 시스템에서, PUFA PKS 시스템은 하나를 초과하는 PUFA, 예컨대 C22 및 C20 PUFA 양쪽 모두를 제조할 수 있고, PUFA의 이러한 조합이 표적 생성물을 나타낼 수 있는 한편, 또다른 PUFA들은 중간체 또는 부산물을 나타낼 수 있다. 원한다면, GLA, SDA 또는 DGLA를 포함할 수 있는 PUFA를 표적 PUFA로서 생산하기 위해 본 발명의 PUFA PKS 시스템이 또한 사용될 수 있다는 것을 유념한다 (본원에 기술된 PUFA PKS 시스템의 성분들을 사용하여 오일이 생산되는 경우의 실시양태 참조).
본원에 기술된 PUFA PKS 시스템의 유전학적 기초 및 도메인 구조의 지식을 사용하여, 본 발명가들은 이러한 PUFA PKS 시스템을 코딩하는 구축물을 디자인하여 생산하였고, PUFA PKS 시스템을 발현하는 트랜스제닉 식물을 성공적으로 생산하였다. 이러한 트랜스제닉 식물은 PUFA를 함유하는 오일을 생산하고, 상기 오일에는 표준 PUFA 경로에서 축적되는 중간 생성물이 실질적으로 없다 (미국 특허 출원 공개 번호 20070089199 (상기 문헌) 참조). 또한 본 발명가들은 트랜스제닉 식물의 생산에 앞서 개념 증명 실험으로서 이러한 구축물을 사용하여 대장균에서, 또한 또다른 진핵생물인 효모에서 PUFA를 생산하는 것을 실연하였다 (미국 특허 출원 공개 번호 20070089199 (상기 문헌)). 이러한 예는 DHA 및 DPAn-6을 표적 PUFA로 생산하는 PUFA PKS 시스템으로의 효모 및 식물 양쪽 모두의 형질전환으로 이러한 PUFA 양쪽 모두가 식물의 전체 지방산에서 주요 추가적인 지방산 (즉, 야생형 식물에서 생산되는 지방산을 차감함)으로서, 그리고 효모에서 생산된다는 것을 실연하고, 추가로, 야생형 식물의 지방산에 존재하지 않는 임의의 또다른 지방산은 실제로 검출가능하지 않다는 것을 실연한다. 유전자 변형 식물 및 이의 일부분 및 오일의 구체적인 특징들이 본원의 다른 곳에서 상세하게 기술된다.
따라서, 본 발명의 한 실시양태는 본 발명의 유전자 변형 미생물 또는 유전자 변형 식물 (상기에 상세하게 기술됨)을 성장시키거나 배양함으로써 원하는 생체활성 분자 (생성물 또는 화합물로 또한 지칭됨)를 생산하는 방법이다. 이러한 방법은 본원에 앞서 기술된 바와 같은 본 발명에 따른 유전자 변형이 있는 미생물 또는 식물을 각각 성장 또는 발효 배지에서 배양하거나 적절한 환경, 예컨대 토양에서 성장시키는 것을 포함한다. 바람직한 실시양태에서, 본 발명의 생체활성 분자를 생산하는 방법은 본원에 기술된 바와 같은 다중불포화 지방산 (PUFA) 폴리케타이드 신테이즈 (PKS) 시스템의 하나 이상의 생물학적으로 활성인 도메인을 포함하는 PKS 시스템을 발현하는 유전자 변형 생물을 생체활성 분자를 생산하는데 효과적인 조건 하에 배양하는 것을 포함한다.
본 발명의 원하는 생체활성 화합물의 생산 방법에서, 생체활성 화합물을 생산하는데 효과적인 조건 하에, 적절한 배지에서 유전자 변형 미생물이 배양 또는 성장된다. 적합한 또는 효과적인 배지는 본 발명의 유전자 변형 미생물이 배양되는 경우 원하는 생성물을 생산할 수 있는 임의의 배지를 지칭한다. 전형적으로 이러한 배지는 동화될 수 있는 탄소, 질소 및 포스페이트 공급원을 포함하는 수성 배지이다. 이러한 배지는 적합한 염, 미네랄, 금속 및 기타 영양소를 또한 포함할 수 있다. 본 발명의 미생물은 통상적인 발효 생물반응기에서 배양될 수 있다. 뱃치(batch), 페드(fed)-뱃치, 세포 리사이클 및 연속 발효를 포함하지만 이에 한정되지 않는 임의의 발효 공정에 의해 미생물이 배양될 수 있다. 본 발명에 따른 잠재적인 숙주 미생물에 대한 바람직한 성장 조건은 당업계에 주지되어 있다. 유전자 변형 미생물에 의해 생산된 원하는 생체활성 분자를 통상적인 분리 및 정제 기술을 사용하여 발효 배지로부터 회수할 수 있다. 예를 들어, 발효 배지를 여과 또는 원심분리하여, 미생물, 세포 잔해물 및 기타 입상 물질을 제거할 수 있고, 통상적인 방법, 예를 들어, 이온 교환, 크로마토그래피, 추출, 용매 추출, 막 분리, 전기투석, 역삼투, 증류, 화학적 유도체화 및 결정화에 의해 무세포 상등액으로부터 생성물을 회수할 수 있다. 별법적으로, 원하는 화합물을 생산하는 미생물, 또는 이의 추출물 및 다양한 분획을 생성물로부터 미생물 성분을 제거하지 않고 사용할 수 있다.
본 발명의 원하는 생체활성 화합물의 생산 방법에서, 유전자 변형 식물 또는 식물의 일부분 (식물 세포 포함)이, 적합한 대로, 성장 배지에서 배양되거나 토양과 같은 적절한 배지에서 성장된다. 적합한 또는 효과적인 성장 또는 배양 배지는 상기에 상세하게 논의되어 있다. 고등 식물을 위한 적절한 성장 배지는 토양, 모래, 뿌리 성장을 지지하는 임의의 기타 입상 배지 (예를 들어, 질석, 진주암 등) 또는 수경 배양을 포함하지만 이에 한정되지 않는 임의의 식물용 성장 배지, 뿐만 아니라 고등 식물의 성장을 최적화하는 적절한 빛, 물 및 영양 보충물을 포함한다. 본 발명의 유전자 변형 식물은 본 발명에 따라 유전자 변형된 PUFA PKS 시스템의 활성을 통해 상당한 양의 원하는 생성물을 생산하도록 조작된다. 식물로부터 화합물을 추출하는 정제 공정을 통해 화합물이 회수될 수 있다. 바람직한 실시양태에서, 식물을 수확함으로써 화합물이 회수된다. 특히 바람직한 실시양태에서, 식물 또는 식물의 일부분으로부터 (예를 들어, 오일 종자로부터) 오일을 회수함으로써 식물 또는 식물의 일부분으로부터 PUFA가 회수된다. 이러한 실시양태에서, 식물은 이의 천연 상태로 소비될 수 있거나, 또는 소비가능한 제품으로 추가로 가공될 수 있다.
본 발명에 따르면, 생체활성 분자에는 생물학적 활성이 있고, 본원에 기술된 바와 같은 비-박테리아 PUFA PKS 시스템의 하나 이상의 기능성 도메인의 생물학적 활성이 있는 하나 이상의 아미노산 서열을 포함하는 PKS 시스템에 의해 생산될 수 있는 임의의 분자 (화합물, 생성물 등)가 포함된다. 이러한 생체활성 분자는 다중불포화 지방산 (PUFA), 항-염증성 제형, 화학요법제, 활성 부형제, 골다공증 약물, 항우울제, 항경련제, 항-헬리코박터 파일로리(Heliobactor pylori) 약물, 신경변성 질환 치료용 약물, 퇴행성 간 질환 치료용 약물, 항생제, 및 콜레스테롤 저하 제형을 포함하지만, 이에 한정되지 않는다. 본 발명의 비-박테리아 PUFA PKS 시스템의 한 장점은 3번째 탄소마다 이중 결합을 포함하는 분자, 및 시스 배열의 탄소-탄소 이중 결합을 도입하는 이러한 시스템의 능력이다. 이러한 능력은 다양한 화합물을 생산하는데 이용될 수 있다.
미생물과 관련하여, 바람직하게는, 관심 생체활성 화합물은 미생물의 건조 중량의 약 0.05% 초과, 바람직하게는 약 0.1% 초과, 더욱 바람직하게는 약 0.25% 초과, 더욱 바람직하게는 약 0.5% 초과, 더욱 바람직하게는 약 0.75% 초과, 더욱 바람직하게는 약 1% 초과, 더욱 바람직하게는 약 2.5% 초과, 더욱 바람직하게는 약 5% 초과, 더욱 바람직하게는 약 10% 초과, 더욱 바람직하게는 약 15% 초과, 더욱 더 바람직하게는 약 20% 초과의 양으로 유전자 변형 미생물에 의해 생산된다. 지질 화합물에 대해, 바람직하게는, 이러한 화합물은 미생물의 건조 중량의 약 5%를 초과하는 양으로 생산된다. 더 적은 양으로 합성되는 화합물 또는 항생체와 같은 기타 생체활성 화합물이 당업자에게 공지된 양으로 생산될 수 있고, 이러한 화합물을 보유하는 균주들은 본원에 기술된 유형의 신규 PKS 시스템을 예상대로 함유하는 것으로 확인된다.
일부 실시양태에서, 특정 생체활성 분자 (화합물)은 세포 내에 축적되기보다는 미생물에 의해 분비된다. 따라서, 이러한 생체활성 분자는 일반적으로 배양 배지로부터 회수되고, 생산된 분자의 농도는 미생물 및 배양물의 크기에 따라 변할 것이며, 건조 세포 중량보다는 g/ℓ로 측정될 수 있다.
바람직하게는, 본 발명의 유전자 변형 생물 (예를 들어, 미생물 또는 식물)은 EPA (C20:5, n-3), DHA (C22:6, n-3), DPA (C22:5, n-6 또는 n-3), ARA (C20:4, n-6), GLA (C18:3, n-6), ALA (C18:3, n-3), 및/또는 SDA (C18:4, n-3)를 포함하지만 이에 한정되지 않는 하나 이상의 다중불포화 지방산, 더욱 바람직하게는, EPA (C20:5, n-3), DHA (C22:6, n-3), DPA (C22:5, n-6 또는 n-3), 또는 DTA (C22:4, n-6)를 포함하지만 이에 한정되지 않는 하나 이상의 장쇄 지방산 (LCPUFA)을 생산한다. 특히 바람직한 실시양태에서, 본 발명의 유전자 변형 생물은 EPA (C20:5, n-3), DHA (C22:6, n-3), 및/또는 DPA (C22:5, n-6 또는 n-3)을 포함하지만 이에 한정되지 않는 하나 이상의 다중불포화 지방산을 생산한다.
바람직하게는, 본 발명의 유전자 변형 생물은 하나 이상의 PUFA (표적 PUFA)를 생산하고, 이때 생물 (또는 PUFA가 축적되는 생물의 일부분, 예컨대 생물이 오일 종자 식물인 경우, 성숙된 종자 또는 이러한 종자로부터의 오일)에서의 전체 지방산 프로파일은 검출가능한 양의 이러한 PUFA 또는 PUFA들을 포함한다. 바람직하게는, PUFA는 탄소수 20 이상의 PUFA이고, 3개 이상의 이중 결합, 더욱 바람직하게는 4개 이상의 이중 결합, 더욱 더 바람직하게는 5개 이상의 이중 결합을 포함한다. 한 실시양태에서, PUFA는 천연적으로는 생물 (예를 들어, 유전자 변형의 부재 하의 야생형 생물, 또는 지시된 유전자 변형에 대한 수용체로서 사용되는 어버이 생물)에 의해 검출가능한 또는 상당한 양으로 생산되지 않는 PUFA이다.
바람직하게는, 생물 (또는 PUFA가 축적되는 생물의 일부분) 내의 전체 지방산 프로파일은 전체 지방산의 중량 기준으로 0.1% 이상의 표적 PUFA(들), 더욱 바람직하게는 약 0.2% 이상, 더욱 바람직하게는 약 0.3% 이상, 더욱 바람직하게는 약 0.4% 이상, 더욱 바람직하게는 약 0.5% 이상, 더욱 바람직하게는 약 1% 이상, 더욱 바람직하게는 약 2 % 이상, 더욱 바람직하게는 약 3% 이상, 더욱 바람직하게는 약 4% 이상, 더욱 바람직하게는 약 5% 이상, 더욱 바람직하게는 약 10% 이상, 더욱 바람직하게는 약 15% 이상, 더욱 바람직하게는 약 20% 이상, 더욱 바람직하게는 약 25% 이상, 더욱 바람직하게는 약 30% 이상, 더욱 바람직하게는 약 35% 이상, 더욱 바람직하게는 약 40% 이상, 더욱 바람직하게는 약 45% 이상, 더욱 바람직하게는 약 50% 이상, 더욱 바람직하게는 약 55% 이상, 더욱 바람직하게는 약 60% 이상, 더욱 바람직하게는 약 65% 이상, 더욱 바람직하게는 약 70% 이상, 더욱 바람직하게는 약 75% 이상, 더욱 바람직하게는 전체 지방산의 중량 기준으로 75% 초과의 하나 이상의 다중불포화 지방산 (표적 PUFA), 또는 0.1% 내지 75%, 또는 75% 초과 (100%까지 또는 약 100%)의 0.1% 증분으로의 임의의 백분율의 표적 PUFA(들)를 포함한다. 본원에서 일반적으로 사용되는, PUFA 생산량 백분율에 대한 언급은, 달리 언급되지 않는 한 (예를 들어, 일부 경우에는, 중량 백분율이 효소 복합체, 예컨대 PUFA PKS 시스템에 의해 생산된 전체 지방산에 대한 비율이다), 생물에 의해 생산되는 전체 지방산의 중량을 기준으로 한다. 한 실시양태에서, 식물에 의해 생산되는 전체 지방산은 지방산 메틸 에스테르 (FAME) 제제의 기체 크로마토그래피 (GC) 분석에 의해 결정되는 중량 백분율로 제시된다.
상기 기술된 바와 같이, 상기 기술된 식물 (및/또는 식물의 일부분 또는 종자 오일 분획)에 의해 생산되는 전체 지방산의 추가적인 특징은 식물에 의해 생산되는 이러한 전체 지방산이 표적 PUFA(들)를 생산하는 효소 복합체에 의해 생산되는 표적 PUFA(들) 이외의 임의의 지방산을 약 10 중량% 미만으로 포함한다 (또는 이러한 양보다 더 많이 함유하지 않는다)는 것이다. 바람직하게는, 표적 PUFA(들) 이외의, 표적 PUFA(들)를 생산하는 효소 복합체에 의해 생산되는 임의의 지방산 (예를 들어, 표적 PUFA(들)를 생산하는 효소 또는 효소 복합체로의 식물의 유전자 변형의 결과로서 생산됨)은 식물에 의해 생산되는 전체 지방산의 약 9% 미만, 더욱 바람직하게는 약 8% 미만, 더욱 바람직하게는 약 7% 미만, 더욱 바람직하게는 약 6% 미만, 더욱 바람직하게는 약 5% 미만, 더욱 바람직하게는 약 4% 미만, 더욱 바람직하게는 약 3% 미만, 더욱 바람직하게는 약 2% 미만, 더욱 바람직하게는 약 1 중량% 미만으로 존재한다.
또다른 실시양태에서, 표적 PUFA(들) 이외의, 표적 PUFA(들)를 생산하는 효소 복합체에 의해 생산되는 임의의 지방산은 식물에서 표적 PUFA(들)를 생산하는 효소 복합체에 의해 생산되는 전체 지방산 (즉, 이러한 측정은 표적 PUFA를 생산하는 효소 복합체에 의해 생산되는 전체 지방산에 대해 한정됨)의 약 10 중량% 미만, 더욱 바람직하게는 약 9% 미만, 더욱 바람직하게는 약 8% 미만, 더욱 바람직하게는 약 7% 미만, 더욱 바람직하게는 약 6% 미만, 더욱 바람직하게는 약 5% 미만, 더욱 바람직하게는 약 4% 미만, 더욱 바람직하게는 약 3% 미만, 더욱 바람직하게는 약 2% 미만, 더욱 바람직하게는 전체 지방산의 약 1 중량% 미만, 더욱 바람직하게는 식물에서 표적 PUFA(들)를 생산하는 효소 복합체에 의해 생산되는 전체 지방산의 약 0.5 중량% 미만으로 존재한다 (또는 이보다 더 많이 함유하지 않는다).
본 발명의 이러한 실시양태의 또다른 양상에서, 식물 (및/또는 식물의 일부분 또는 종자 오일 분획)에 의해 생산되는 전체 지방산은 야생형 식물 (유전자 변형되지 않음) 내에 또는 지시된 (최초의 또는 순차적) 유전자 변형에 대한 수용체로서 사용되는 어버이 식물 내에 존재하는 PUFA 또는 표적 PUFA(들) 이외의 탄소수가 18 이상인 PUFA를 식물에 의해 생산되는 전체 지방산의 중량 기준으로 10% 미만으로 함유한다 (또는 이보다 더 많이 함유하지 않는다). 추가적인 양상에서, 식물 (및/또는 식물의 일부분 또는 종자 오일 분획)에 의해 생산되는 전체 지방산은 야생형 식물 (유전자 변형되지 않음) 또는 지시된 유전자 변형에 대한 수용체로서 사용되는 어버이 식물 내에 존재하는 PUFA 또는 표적 PUFA(들) 이외의, 식물에 의해 생산되는 전체 지방산의 중량을 기준으로 9% 미만의 탄소수가 18 이상인 PUFA, 또는 8% 미만의 탄소수가 18 이상인 PUFA, 또는 7% 미만의 탄소수가 18 이상인 PUFA, 또는 6% 미만의 탄소수가 18 이상인 PUFA, 또는 5% 미만의 탄소수가 18 이상인 PUFA, 또는 4% 미만의 탄소수가 18 이상인 PUFA, 또는 3% 미만의 탄소수가 18 이상인 PUFA, 또는 2% 미만의 탄소수가 18 이상인 PUFA, 또는 1% 미만의 탄소수가 18 이상인 PUFA를 함유한다.
본 발명의 이러한 실시양태의 또다른 양상에서, 식물 (및/또는 식물의 일부분 또는 종자 오일 분획)에 의해 생산되는 전체 지방산은 야생형 식물 (유전자 변형되지 않음) 내에 또는 지시된 (최초의 또는 순차적) 유전자 변형에 대한 수용체로서 사용되는 어버이 식물 내에 존재하는 PUFA 또는 표적 PUFA(들) 이외의 탄소수가 20 이상인 PUFA를 식물에 의해 생산되는 전체 지방산의 중량 기준으로 10% 미만으로 함유한다 (또는 이보다 더 많이 함유하지 않는다). 추가적인 양상에서, 식물 (및/또는 식물의 일부분 또는 종자 오일 분획)에 의해 생산되는 전체 지방산은 야생형 식물 (유전자 변형되지 않음) 또는 지시된 유전자 변형에 대한 수용체로서 사용되는 어버이 식물 내에 존재하는 PUFA 또는 표적 PUFA(들) 이외의, 식물에 의해 생산되는 전체 지방산의 중량을 기준으로 9% 미만의 탄소수가 20 이상인 PUFA, 또는 8% 미만의 탄소수가 20 이상인 PUFA, 또는 7% 미만의 탄소수가 20 이상인 PUFA, 또는 6% 미만의 탄소수가 20 이상인 PUFA, 또는 5% 미만의 탄소수가 20 이상인 PUFA, 또는 4% 미만의 탄소수가 20 이상인 PUFA, 또는 3% 미만의 탄소수가 20 이상인 PUFA, 또는 2% 미만의 탄소수가 20 이상인 PUFA, 또는 1% 미만의 탄소수가 20 이상인 PUFA를 함유한다.
한 실시양태에서, 식물 (및/또는 식물의 일부분 또는 종자 오일 분획) 내의 전체 지방산은 감마-리놀렌산 (GLA; 18:3, n-6); 스테아리돈산 (STA 또는 SDA; 18:4, n-3); 디호모-감마-리놀렌산 (DGLA 또는 HGLA; 20:3, n-6), 아라키돈산 (ARA, C20:4, n-6); 에이코사트리엔산 (ETA; 20:3, n-9) 및 각종 기타 지방산, 예컨대 20:0; 20:1 (Δ5); 20:1 (Δ11); 20:2 (Δ8,11); 20:2 (Δ11,14); 20:3 (Δ5,11,14); 20:3 (Δ11, 14,17); 미드산 (20:3; Δ5,8,11); 또는 20:4 (Δ5,1,14,17) 중 임의의 하나 이상으로부터 선택된 지방산을 식물에 의해 생산되는 전체 지방산의 약 10 중량% 미만, 더욱 바람직하게는 약 9% 미만, 더욱 바람직하게는 약 8% 미만, 더욱 바람직하게는 약 7% 미만, 더욱 바람직하게는 약 6% 미만, 더욱 바람직하게는 약 5% 미만, 더욱 바람직하게는 약 4% 미만, 더욱 바람직하게는 약 3% 미만, 더욱 바람직하게는 약 2% 미만, 더욱 바람직하게는 약 1% 미만으로 함유한다.
또다른 실시양태에서, 식물에서 장쇄 PUFA를 생산하는 효소 시스템에 의해 생산되는 지방산은 감마-리놀렌산 (GLA; 18:3, n-6); 스테아리돈산 (STA 또는 SDA; 18:4, n-3); 디호모-감마-리놀렌산 (DGLA 또는 HGLA; 20:3, n-6), 아라키돈산 (ARA, C20:4, n-6); 에이코사트리엔산 (ETA; 20:3, n-9) 및 각종 기타 지방산, 예컨대 20:0; 20:1 (Δ5); 20:1 (Δ11); 20:2 (Δ8,11); 20:2 (Δ11,14); 20:3 (Δ5,11,14); 20:3 (Δ11,14,17); 미드산 (20:3; Δ5,8,11); 또는 20:4 (Δ5,1,14,17)로부터 선택된 지방산을 식물에 의해 생산되는 전체 지방산의 백분율로서 약 10 중량% 미만으로 함유하고, 더욱 바람직하게는 감마-리놀렌산 (GLA; 18:3, n-6); 스테아리돈산 (STA 또는 SDA; 18:4, n-3); 디호모-감마-리놀렌산 (DGLA 또는 HGLA; 20:3, n-6), 아라키돈산 (ARA, C20:4, n-6); 에이코사트리엔산 (ETA; 20:3, n-9) 및 각종 기타 지방산, 예컨대 20:0; 20:1 (Δ5); 20:1 (Δ11); 20:2 (Δ8,11); 20:2 (Δ11,14); 20:3 (Δ5, 11,14); 20:3 (Δ11,14,17); 미드산 (20:3; Δ5,8,11); 또는 20:4 (Δ5,1,14,17)으로부터 선택된 지방산을 약 9% 미만, 더욱 바람직하게는 약 8% 미만, 더욱 바람직하게는 약 7% 미만, 더욱 바람직하게는 약 6% 미만, 더욱 바람직하게는 약 5% 미만, 더욱 바람직하게는 약 4% 미만, 더욱 바람직하게는 약 3% 미만, 더욱 바람직하게는 약 2% 미만, 더욱 바람직하게는 약 1% 미만으로 함유한다.
또다른 실시양태에서, 식물에서 장쇄 PUFA를 생산하는 효소 시스템에 의해 생산되는 지방산은 감마-리놀렌산 (GLA; 18:3, n-6), 탄소수가 18이고 4개의 탄소-탄소 이중 결합이 있는 PUFA, 탄소수가 20이고 3개의 탄소-탄소 이중 결합이 있는 PUFA, 및 탄소수가 22이고 2개 또는 3개의 탄소-탄소 이중 결합이 있는 PUFA 모두를 식물에 의해 생산되는 전체 지방산의 백분율로서 약 10 중량% 미만으로 함유하고, 더욱 바람직하게는 감마-리놀렌산 (GLA; 18:3, n-6), 탄소수가 18이고 4개의 탄소-탄소 이중 결합이 있는 PUFA, 탄소수가 20이고 3개의 탄소-탄소 이중 결합이 있는 PUFA, 및 탄소수가 22이고 2개 또는 3개의 탄소-탄소 이중 결합이 있는 PUFA 모두를 약 9% 미만, 더욱 바람직하게는 약 8% 미만, 더욱 바람직하게는 약 7% 미만, 더욱 바람직하게는 약 6% 미만, 더욱 바람직하게는 약 5% 미만, 더욱 바람직하게는 약 4% 미만, 더욱 바람직하게는 약 3% 미만, 더욱 바람직하게는 약 2% 미만, 더욱 바람직하게는 약 1% 미만으로 함유한다.
또다른 실시양태에서, 식물에서 장쇄 PUFA를 생산하는 효소 시스템에 의해 생산되는 지방산은 감마-리놀렌산 (GLA; 18:3, n-6), 탄소수가 18이고 4개의 탄소-탄소 이중 결합이 있는 PUFA, 탄소수가 20이고 3개의 탄소-탄소 이중 결합이 있는 PUFA, 및 탄소수가 22이고 2개 또는 3개의 탄소-탄소 이중 결합이 있는 PUFA 각각을 식물에 의해 생산되는 전체 지방산의 백분율로서 약 10 중량% 미만으로 함유하고, 더욱 바람직하게는 감마-리놀렌산 (GLA; 18:3, n-6), 탄소수가 18이고 4개의 탄소-탄소 이중 결합이 있는 PUFA, 탄소수가 20이고 3개의 탄소-탄소 이중 결합이 있는 PUFA, 및 탄소수가 22이고 2개 또는 3개의 탄소-탄소 이중 결합이 있는 PUFA 각각을 약 9% 미만, 더욱 바람직하게는 약 8% 미만, 더욱 바람직하게는 약 7% 미만, 더욱 바람직하게는 약 6% 미만, 더욱 바람직하게는 약 5% 미만, 더욱 바람직하게는 약 4% 미만, 더욱 바람직하게는 약 3% 미만, 더욱 바람직하게는 약 2% 미만, 더욱 바람직하게는 약 1% 미만으로 함유한다.
또다른 실시양태에서, 식물에서 장쇄 PUFA를 생산하는 효소 시스템에 의해 생산되는 지방산은 감마-리놀렌산 (GLA; 18:3, n-6), 탄소수가 18이고 4개의 탄소-탄소 이중 결합이 있는 PUFA, 탄소수가 20이고 3개의 탄소-탄소 이중 결합이 있는 PUFA, 및 탄소수가 22이고 2개 또는 3개의 탄소-탄소 이중 결합이 있는 PUFA 중 임의의 하나 이상을 식물에 의해 생산되는 전체 지방산의 백분율로서 약 10 중량% 미만으로 함유하고, 더욱 바람직하게는 감마-리놀렌산 (GLA; 18:3, n-6), 탄소수가 18이고 4개의 탄소-탄소 이중 결합이 있는 PUFA, 탄소수가 20이고 3개의 탄소-탄소 이중 결합이 있는 PUFA, 및 탄소수가 22이고 2개 또는 3개의 탄소-탄소 이중 결합이 있는 PUFA 중 임의의 하나 이상을 약 9% 미만, 더욱 바람직하게는 약 8% 미만, 더욱 바람직하게는 약 7% 미만, 더욱 바람직하게는 약 6% 미만, 더욱 바람직하게는 약 5% 미만, 더욱 바람직하게는 약 4% 미만, 더욱 바람직하게는 약 3% 미만, 더욱 바람직하게는 약 2% 미만, 더욱 바람직하게는 약 1% 미만으로 함유한다.
본 발명의 이러한 실시양태의 한 양상에서, 식물은 2개 이상의 표적 PUFA를생산하고, 식물 또는 PUFA가 축적되는 식물의 일부분 (오일 종자로부터의 오일 포함)에서의 전체 지방산 프로파일은 검출가능한 양의 이러한 PUFA들을 포함한다. 이러한 실시양태에서, PUFA들은 바람직하게는 각각 탄소수 20 이상의 PUFA이고, 3개 이상의 이중 결합, 더욱 바람직하게는 4개 이상의 이중 결합, 더욱 더 바람직하게는 5개 이상의 이중 결합을 포함한다. 이러한 PUFA들은 가장 바람직하게는 DHA, DPAn-6 및 EPA로부터 선택된다. 한 양상에서, 식물은 DHA 및 DPAn-6를 생산하고, DHA 대 DPAn-6의 비율은 약 1:10 내지 약 10:1 이상이다 (이들 사이의 임의의 비율 포함). 한 실시양태에서, DHA 대 DPA의 비율은 약 1:1 내지 약 3:1이고, 또다른 실시양태에서는 약 2.5:1이다. 한 실시양태에서, 식물은 DHA 및 EPA를 생산한다.
본 발명은 상기 기술된 식물에 의해 생산된 임의의 종자, 뿐만 아니라 임의의 식물의 일부분, 식물에 의해 생산된 오일 또는 식물에 의해 생산된 종자를 추가로 포함한다. 본 발명은 본원에 기술된 식물, 식물의 일부분, 종자 또는 오일을 사용하여 생산된 임의의 제품을 또한 포함한다.
본 발명의 한 실시양태는 본원에 기술된 바와 같은 PUFA PKS 시스템의 하나 이상의 생물학적으로 활성인 도메인을 코딩하는 핵산 서열을 포함하는 하나 이상의 재조합 핵산 분자를 발현하는 재조합 숙주 세포에 의해 생산된 오일을 하나 이상의 지방산을 함유하는 최종생성물에 첨가하는 것을 포함하는, 하나 이상의 지방산을 함유하는 최종생성물을 변형시키는 방법에 관한 것이다..
바람직하게는, 최종생성물은 식품, 식이 보충물, 제약 제형, 인간화된 동물 밀크, 및 유아용 조제식으로 구성된 군으로부터 선택된다. 적절한 제약 제형에는 항염증성 제형, 화학요법제, 활성 부형제, 골다공증 약물, 항우울제, 항경련제, 항-헬리코박터 파일로리 약물, 신경변성 질환 치료용 약물, 퇴행성 간 질환 치료용 약물, 항생제, 및 콜레스테롤 저하 제형이 포함되지만, 이에 한정되지 않는다. 한 실시양태에서, 최종생성물은 만성 염증, 급성 염증, 위장관 장애, 암, 악액질, 심장 재협착, 신경변성 장애, 간의 퇴행성 장애, 혈액 지질 장애, 골다공증, 골관절염, 자가면역 질환, 자간전증, 조산, 연령-관련 황반변증, 폐 장애 및 과산화소체(peroxisome) 장애로 구성된 군으로부터 선택된 용태를 치료하는데 사용된다.
적절한 식품 제품에는 고급 베이커리 제품, 빵 및 롤(roll), 아침식사용 시리얼, 가공 및 비가공 치즈, 양념 (케첩, 마요네즈 등), 유제품 (밀크, 요거트), 푸딩 및 젤라틴 디저트, 탄산 음료, 차, 분말 음료 믹스, 가공된 어류 제품, 과일-기재 음료, 츄잉검, 경질 과자류, 냉동 유제품, 가공된 육류 제품, 견과 및 견과-기재 스프레드, 파스타, 가공된 가금류 제품, 그레이비 및 소스, 감자칩 및 기타 칩 또는 크리스프(crisp), 초콜렛 및 기타 과자류, 수프 및 수프 믹스, 대두-기재 제품 (밀크, 음료, 크림, 분말크림(whitener)), 식물성 오일-기재 스프레드, 및 식물-기재 음료가 포함되지만, 이에 한정되지 않는다.
본 발명의 또다른 실시양태는 인간화된 동물 밀크를 생산하는 방법에 관련된다. 이러한 방법은 본원에 기술된 바와 같은 PUFA PKS 시스템의 하나 이상의 생물학적으로 활성인 도메인을 코딩하는 핵산 서열을 포함하는 하나 이상의 재조합 핵산 분자로 밀크-생산 동물의 밀크-생산 세포를 유전자 변형시키는 것을 포함한다.
숙주 세포를 유전자 변형시키고, 유전자 변형된, 밀크를 생산하는 비-인간 동물을 생산하는 방법은 당업계에 공지되어 있다. 변형시킬 숙주 동물의 예로는 트랜스진 발현 집단의 신속한 확장을 위한 유전자 조작 및 클로닝을 받을 수 있는 소, 양, 돼지, 염소, 야크 등이 포함된다. 동물용으로, PKS-유사 트랜스진이 유전자 조절 영역의 변형을 통해 표적 소기관, 조직 및 체액에서의 발현을 위해 개조될 수 있다. 숙주 동물의 모유에서의 PUFA의 생산이 특히 흥미롭다.
본원에서 인용된 각각의 간행물 또는 참고문헌은 전체적으로 거명에 의해 본원에 포함된다.
하기의 예들은 예시의 목적으로 제공되고, 본 발명의 범주를 한정하도록 의도되지 않는다.
실시예 1
하기의 실시예는 스키조키트리움에서 사용하기 위한 합성 Th.23B OrfC 클로닝 벡터의 구축을 기술한다.
스키조키트리움 (예를 들어, ATCC 20888 또는 스키조키트리움 N230D)으로부터의 4개의 대형 유전자 (orfA, orfB, orfC, 및 FAS; 미국 특허 출원 공개 번호 20020194641, 미국 특허 출원 공개 번호 20070089199, 또는 미국 특허 출원 공개 번호 20050191679에 기술됨)에 대한 코돈 사용빈도 데이터가 조합되었다. 스키조키트리움 ATCC 20888이 높은 수준의 지방산을 생산한다면, 이러한 유전자들이 고도로 발현되는 것으로 예상된다. 약 3% 미만 (소정의 아미노산에 대한 것들 내에서)으로 나타나는 코돈을 제거하였고, 나머지 코돈들의 상대적인 사용빈도를 조정하였다. 표 1은 스키조키트리움 코돈 사용빈도, 조정된 사용빈도, 및 비-합성 Th.23B orfC에 대한 코돈 사용빈도를 나타낸다. DNA2.0 (Menlo Park, CA)를 사용하여 이러한 코돈 사용빈도 데이터를 분석하여, 트라우스토키트리움 23B orfC에 대한 코딩 영역을 디자인하고 합성하였다. 합성 유전자의 후속 조작을 용이하게 할 제한 효소 인식 부위를 코딩하도록 뉴클레오티드들을 코딩 영역의 양쪽 끝부분에 부가하였다. 특정 제한 효소 인식 서열을 제거하거나 부가하기 위해 (서열 62의 코딩된 아미노산을 변화시키지 않으면서) 소수의 코돈이 조정되었다 (한 예에 대해 하기 참조). 생성된 합성 서열이 플라스미드 벡터 내에 DNA2.0에 의해 개발되었고, 도 2b에서 "pThOrfC synth"로 제시된다. 표 1은 합성 코딩 영역의 코돈 사용빈도를 나타낸다.
상기 기술된 바와 같이, 본 발명가들 및 동료들에 의한 기존의 작업 (미국 특허 출원 공개 번호 20050100995의 실시예 8 참조)에서 (비-합성) Th.23B orfC 코딩 영역이 Th.23B 코딩 영역이 있는 "완벽한 스티치"가 생성되도록 스키조키트리움 orfC 상류와 하류의 비-코딩 영역들 사이에 클로닝된 플라스미드의 생성이 초래되었다. 이러한 프로세스에서의 중간체 플라스미드를 사용하여 합성 Th.23B orfC 코딩 영역을 클로닝할 수 있다 (도 2a 및 2b 참조). 이러한 중간체 구축물들 중 하나를 가장 쉽게 이용하기 위해, "완벽한 스티치" 접합점을 생성시키고 스키조키트리움 orfC 상류/하류 영역 내에 있고 후속 클로닝 반응을 위해 합성 Th.23B orfC 유전자 내로 디자인된 제한 부위를 이용하도록 본 발명가들에 의해 283bp 뉴클레오티드 서열이 디자인되고 DNA2.0에 의해 합성되었다. 이러한 짧은 DNA 서열은 "Th23B synth orfC INT"로 칭해지고, 플라스미드 "pThOrfC 스티치 INT" 내에 함유되었다.
283bp "Th23B synth orfC INT"는 5개의 절편으로 구성된다. 제1 절편은 SpeI 부위에서 스키조키트리움 orfC의 ATG 시작 코돈까지의 (그러나, 이러한 시작 코돈을 포함하지는 않는) 스키조키트리움 orfC 상류 (비-코딩) 영역의 최종 102 bp로 구성된다 (서열 77 참조). 제2 절편은 합성 Th.23B orfC 코딩 영역 (서열 61)의 최초의 9개의 bp로 구성되고, 시작 ATG를 함유하며, 이는 디자인된 SanDI 부위 (GGGTCCC)와 중첩된다. 이러한 절편들은 상류 "완벽한 스티치" 접합점을 생성시킨다. 제3 절편은 스페이서로 기능하는 6bp BamHI 제한 부위 (GGATCC)이다. 제4 절편은 디자인된 ClaI 부위에서 TAA 정지 코돈까지의 Th.23B orfC 코딩 영역 (서열 61)의 최종 45bp로 구성된다. 제5 절편은 "역" BsmI 부위에 대한 스키조키트리움 orfC (비-코딩) 하류 영역 (정지 코돈 불포함)의 최초의 121bp로 구성된다. "전방향" 배향의 "Th23B synth orfC INT" 단편의 마지막 6개의 뉴클레오티드는 5'>GCATTC>3'이다. 역 상보물 5'>GAATGC>3'은 BsmI에 대한 인식 서열이다. 제4 및 제5 절편이 하류 "완벽한 스티치" 접합점을 생성시킨다.
합성 Th.23B orfC 코딩 서열의 "완벽한 스티치" 버젼의 구축에 대한 상세사항이 하기에 제공된다 (도 2a 및 2b를 또한 참조).
단계 1 (도 2a). pThOrfC 스티치 INT로부터의 "Th23B synth orfC INT" 단편을 SpeI 및 BsmI 제한 효소로의 소화로 제거하고, 단편을 아가로스 젤 전기영동 (GeneClean Turbo 키트, QBioGene)에 의해 정제하였다. 유사하게, pBlueScriptII SK(+) 내로 클로닝된 BamHI 인식 부위 스페이서에 의해 분리된 각각 약 2000bp의 스키조키트리움 orfC 상류 및 하류 영역을 함유하는 pREZ22 (미국 특허 출원 공개 번호 20050100995 참조)로부터의 대형 SpeI/BsmI 벡터 단편을 수득하였다. 이러한 2개의 단편을 결찰시키고, 대장균 XL-1 Blue (Stratagene, La Jolla, CA) 내로 형질전환시켰다. 원하는 플라스미드인 "pREZ22 orfC INT"를 함유하는 클론들을 제한 소화 및 부분적인 DNA 서열분석에 의해 확인하였다. 이러한 플라스미드는 합성 orfC 코딩 영역의 5-프라임 및 3-프라임 영역에 각각 완벽하게 스티치된 스키조키트리움 orfC 상류 및 하류 영역을 함유하지만, 코딩 영역의 대부분이 없다.
단계 2 (도 2b). SanDI 및 ClaI 제한 효소로의 소화 및 원하는 DNA 단편의 정제 (상기와 같음)에 의해 합성 Th.23B orfC 코딩 영역의 대부분이 "pThOrfC synth"로부터 수득되었다. 이러한 단편을 pREZ22 orfC INT로부터의 유사하게 수득된 벡터 단편과 결찰시키고, 대장균 내로 클로닝하였다 (상기와 같음). 생성된 플라스미드 "pThOrfC-synPS"는 스키조키트리움 orfC 유전자의 상류 및 하류 영역에 완벽하게 스티치된 전장 합성 Th.23B orfC 코딩 영역을 함유한다. pThOrfC-synPS의 코딩 영역의 뉴클레오티드 서열이 본원에서 서열 70으로 표시된다. 서열 70은 서열 62를 코딩한다. pThOrfC-synPS는 본원에서 앞서 기술된 바와 같이 ATCC 접속 번호 PTA-8229로 기탁되었다.
실시예 2
하기의 실시예는 트라우스토키트리움 23B로부터의 DH2 도메인을 포함하는 스키조키트리움 OrfC를 코딩하는 구축물의 생성을 기술한다.
스키조키트리움 ATCC20888 OrfC의 DH2 영역 (서열 30)을 PCR-기반 중첩 확장 ("중첩 확장에 의한 스플라이싱(Splicing by Overlap Extension)" 또는 "SOEing" ([Horton, R.M., (1993) In Vitro Recombination and Mutagenesis of DNA. SOEing together tailor-made genes. Methods in molecular Biology Vol. 15: PCR Protocols: Current Methods and Applications Chapter 25 pp 251-266 (B.A. White, Ed.) Humana Press, Totawa, NJ]))과 제한 클로닝의 조합에 의해 특정 5-프라임 및 3 -프라임 교차 지점에서 트라우스토키트리움 23B ATCC 20892으로부터의 것 (서열 66)으로 교체하였다.
더욱 구체적으로, 이러한 실시예에서, 본 발명가들은 아미노산 잔기 1493개 길이의 하이브리드 (키메라) OrfC 폴리펩티드 (본원에서 서열 74로 표시되는 아미노산 서열)를 코딩하는 핵산 분자를 구축하였고, 이때 이러한 하이브리드의 아미노산 516-1041로 정의되는 DH2 영역은 Th.23B OrfC 단백질의 DH2 영역의 아미노산 서열, 즉 서열 66 모두를 포함하는 서열 62의 아미노산 491-1016 (본원에서 트라우스토키트리움 23B의 DH2 도메인으로 정의됨)으로 구성된다. 이러한 하이브리드 OrfC 아미노산 서열의 나머지 부분인 서열 74의 잔기 1-515 및 1042-1493은 각각 서열 6의 스키조키트리움 OrfC 잔기 1-515 및 1051-1502와 동일하다.
이러한 키메라 단백질을 코딩하는 플라스미드의 구축이 도 3a-3c에 도해된다.
단계 1 변형되지 않은 스키조키트리움 orfC 유전자를 주형으로 사용하여 DH2 영역 상류의 스키조키트리움 orfC 리딩 프레임 약 1.5Kb를 증폭시키기 위해 프라이머 prREZ197 (서열 78) 및 prREZ198 (서열 79)을 사용하였다:
prREZ197 CATATGGCGCTCCGTGTCAA
prREZ198 GCCAGGAAGCTTTGACATGGGGTGCCAGGACATCT
프라이머 prREZ197은 시작 ATG 코돈에 NdeI 부위 (밑줄)를 생성시켰다. 역방향 프라이머 prREZ198 (35량체)는 스키조키트리움 OrfC 서열에 대한 20bp의 상동성 (볼드체) 및 Th.23B OrfC 서열에 대한 15bp의 상동성에 의해 생성된 5-프라임 교차 지점을 함유하였다. PCR 조건: 50 ㎕ 반응, 1 ㎕ PfuUltra 중합효소 (Stratagene) 및 1× PfuUltra 완충제, 2% DMSO, 0.5 μM의 각각의 dNTP, 0.4 μM의 각각의 prRZ197 및 prRZ198, 10 ng의 주형 (클로닝된 스키조키트리움 orfC 코딩 영역), 94℃에서의 1분의 최초의 변성, 94℃에서의 1분 변성, 52℃에서의 1분 어닐링(annealing) 및 72℃에서의 90초 연장 20사이클, 및 최종 연장 10분. QIAquick® 젤 추출 키트 (Qiagen, Valencia, CA)를 사용한 아가로스 젤 전기영동 후에 PCR 생성물을 정제하였다.
단계 2 Th.23B orfC 유전자를 주형으로 사용하여 Th.23B DH2 영역 (약 1.5Kb)을 증폭시키기 위해 프라이머 prREZ199 (서열 80) 및 prREZ200 (서열 81)을 사용하였다.
prREZ199 TCCTGGCACCCCATGTCAAAGCTTCCTGGCAACCCTA
prREZ200 AGTATACAGAGGTGCTGACA
프라이머 prREZ199 (37량체)는 Th.23B orfC (DH2) 서열에 대한 22bp의 상동성 및 스키조키트리움 orfC 서열에 대한 15bp의 상동성 (볼드체)에 의해 생성된 5-프라임 교차 지점을 함유하였다. 이러한 후자의 15bp는 prREZ198, 및 따라서 단계 1의 PCR 생성물과의 중첩을 또한 제공하였다. 역방향 프라이머 prREZ200은 3-프라임 교차 지점 (밑줄)에서 Th.23B orfC 내에 천연 BstZ17I 부위를 혼입시켰다. 주형으로서의 10 ng의 클로닝된 Th.23B orfC 코딩 영역과 함께 프라이머 prREZ199 및 prREZ200를 사용한 것을 제외하고는 PCR 조건 및 단편 정제는 상기와 같았다.
단계 3. 중첩 연장을 사용하여, 스키조키트리움 orfC 코딩 영역의 5-프라임 끝부분과 Th.23B DH2 영역 간의 전장 융합물을 생성시켰다. 주형으로서의 단계 1 (prREZ197 × prREZ198) 및 단계 2 (prREZ199×prREZ200)의 생성물 및 외부 프라이머 prREZ197 및 prREZ200을 사용하여 PCR을 수행하였다. PCR 조건: 50 ㎕ 반응, 1 ㎕ PfuUltra 중합효소 (Stratagene) 및 1× PfuUltra 완충제, 2% DMSO, 0.5 μM의 각각의 dNTP, 0.4 μM의 각각의 prRZ197 및 prRZ200, 50 ng의 단계 1 및 2로부터의 각각의 PCR 생성물, 94℃에서의 1분의 최초의 변성, 94℃에서의 1분 변성, 52℃에서의 1분 어닐링 및 72℃에서의 3.5분 연장 20사이클, 및 최종 연장 10분. PCR 생성물을 단계 1에서와 같이 정제하였다.
단계 4 단계 3에서의 PCR 반응의 생성물을 pCR-BluntII-TOPO (Invitrogen) 내로 클로닝하고, TOP10 대장균 (Invitrogen) 내로 제조업자가 권장하는 조건을 사용하여 형질전환시켜, pREZ171을 생성시켰다. 삽입물 DNA의 서열은 디자인된 대로인 것으로 확증되었다.
단계 5 각각의 벡터 서열 내의 제한 부위를 사용하여, pREZ171 내의 클로닝된 DNA를 XbaI/SpeI 단편으로서 벡터 pBC KS(+) (Stratagene)으로 전달하여 pREZ175를 생성시켰다.
단계 6 플라스미드 pREZ175를 BstZ17I로 소화 (선형화)시킨 후, NdeI로 부분적으로 소화시켰다. 융합된 스키조키트리움 orfC 5-프라임 영역 및 Th.23B DH2 영역을 나타내는 약 6Kb 단편을 pREZ172 NdeI/BstZ17I 벡터 단편 내로 클로닝하여, pREZ177를 생성시켰다. 플라스미드 pREZ172는 시작 ATG 코돈에 NdeI 부위가 혼입되도록 대장균 발현 벡터 pColADuet-1 (Novagen) 내로 클로닝된 전체 스키조키트리움 orfC 코딩 영역을 함유한다. 이는 pREZ101로부터 유래되고 (실시예 5 참조), 3-프라임 교차 부위에 아미노산-중성 BstZ17I 부위를 삽입하기 위해 부위-지정 돌연변이유발 (Quik Change 키트, Stratagene)에 의해 변형되었다. 구체적으로, 아미노산 위치 1051의 TAC 타이로신 코돈이 TAT로 변형되었다.
단계 7 DNA 서열분석에 의해 pREZ177을 분석했을 때, BstZ17I 부위의 단일 염기쌍이 결실되었음이 발견되었다. 구체적으로, 예상된 <GTATAC> 대신 <GTAAC>였다. 이러한 오차를 수정하기 위해, pDS26으로부터의 올바른 BstZ17I 교차 지점을 함유하는 PciI 제한 단편을 사용하여, pREZ177 내의 결함이 있는 PciI 단편을 교체하였다. 플라스미드 pDS26은 또다른 목적을 위해 기존에 생성된 하이브리드 orfC 코딩 영역을 함유한다. 따라서, 생성된 플라스미드 pREZ179는 주로 스키조키트리움으로부터의 것이지만 DH2 영역은 Th.23B로부터의 것으로 정확하게 교체된 전체 orfC 코딩 영역 (본원에서 서열 74로 표시되는 아미노산 서열)을 함유한다. 플라스미드 pREZ179는 추가적으로 대장균에서의 하이브리드 유전자의 기능을 연구하기 위한 독특한 도구를 나타내고, 또다른 생물용 발현 벡터의 개발을 위한 출발점을 제공한다.
하기의 추가적인 단계들 (도 3c 참조)은 pREZ179로부터 스키조키트리움에서의 유전자 교체를 위한 벡터로의 하이브리드 유전자의 전달을 기술한다.
단계 8 (변형되지 않은) 스키조키트리움 orfC 코딩 영역 + 상류 및 하류 플랭킹 서열의 짧은 부분들을 pBR002 (orfC 게놈 영역의 클론)로부터 NheI/BspEI 단편으로서 단리하였다. 그후, 이러한 단편을 NheI/BspEI로 소화된 pREZ31 (미국 특허 출원 공개 번호 20050100995의 실시예 8에 기술된 pREZ33과 기능적으로 등가)의 벡터 부분 내로 클로닝하였다. 생성된 플라스미드 pDS48은 (변형되지 않은) 스키조키트리움 orfC 코딩 영역 + 동일한 상류 및 하류 서열 (orfC 유전자좌의 유전자 교체를 구동하기 위해 사용됨)을 함유한다.
단계 9 전체적인 교환된 Th.23B DH2 영역을 함유하는 하이브리드 orfC 리딩 프레임의 일부분을 pREZ179로부터 PstI/PflMI 단편으로서 단리하였다. 이러한 단편을 PstI/PflMI로 소화된 pDS48의 벡터 부분 내로 클로닝하여, pDS49가 산출되었다. 결과적으로, 플라스미드 pDS49는 pREZ33 ("완벽한 스티치" 유전자 교체로서의 전장 Th.23B orfC 코딩 영역; 미국 특허 출원 공개 번호 20050100995, 실시예 8 참조)와 동일한 정황 내의 하이브리드 orfC를 함유한다. pDS49의 코딩 영역의 뉴클레오티드 서열이 본원에서 서열 73으로 표시된다. 서열 73은 서열 74를 코딩한다. 플라스미드 pDS49는 본원에서 앞서 상세하게 기술된 바와 같이 ATCC 접속 번호 PTA-8230으로 기탁되었다.
실시예 3
하기의 실시예는 트라우스토키트리움 23B로부터의 DH2 도메인을 포함하는 스키조키트리움 OrfC를 코딩하는 구축물의 구축을 기술하고, 이때 DH2 도메인은 스키조키트리움 코돈 사용빈도에 대해 최적화되도록 재합성되었다.
이러한 실시예에서, 본 발명가들은 아미노산 잔기 1493개 길이의 하이브리드 OrfC 폴리펩티드 (서열 74)를 코딩하는 핵산 분자를 구축하였고, 이때 이러한 하이브리드의 아미노산 516-1041로 정의되는 DH2 영역은 Th.23B OrfC 단백질의 DH2 영역의 아미노산 서열, 즉 서열 66 모두를 포함하는 서열 62의 아미노산 491-1016 (본원에서 트라우스토키트리움 23B의 DH2 도메인으로 정의됨)으로 구성된다. 하이브리드 OrfC 아미노산 서열의 나머지 부분인 서열 74의 잔기 1-515 및 1042-1493은 각각 서열 6의 스키조키트리움 OrfC 잔기 1-515 및 1051-1502와 동일하다. 또한, 이러한 구축물에서, 아미노산 516-1041을 코딩하는 DNA 서열은 플라스미드 pThOrfC synth 및 pThOrfC synPS (실시예 1 및 서열 70 참조) 내에 함유되고 스키조키트리움에서의 유전자 발현에 선호되는 코돈을 사용하는 Th.23B의 OrfC에 대한 "합성 유전자 서열"로부터 유래되었다. 구축의 상세사항이 도 4a-4c에서 도해되고, 하기에 기술된다.
T23B OrfC 폴리펩티드의 DH2 영역을 코딩하는 DNA 서열을 올리고뉴클레오티드 프라이머 dhd59 (5> G CAC CCC ATG AGC AAG CTC CCC GGC AAC >3; 서열 82) 및 dhd60 (; 서열 83)을 사용하여 pThOrfC synth로부터 PCR에 의해 증폭시켰다 (반응 59/60). "전방향" 또는 센스(sense)-가닥 프라이머 dhd59는 Th.23B OrfC 단백질의 아미노산 잔기 491-501 (WHPMSKLPGNP; 서열 62의 위치 491-501)을 코딩하는 DNA 서열과 중첩된다. "역방향" 또는 안티센스(antisense)-가닥 프라이머 dhd60은 Th.23B OrfC 단백질의 아미노산 잔기 1008-1017 (TYNVSAPLYT; 서열 62의 위치 1008-1017)을 코딩하는 DNA 서열과 중첩된다. 프라이머 dhd60은 pThOrfC synth 서열과의 2개의 미스매치 (상기의 dhd60 서열에서 상자에 담긴 잔기로 표시됨)를 함유한다. 이러한 변화는 후속 클로닝 단계를 용이하게 하기 위해 상기 dhd60 서열에서 이중-밑줄 부분으로 표시되는 BstZ17I 제한 엔도뉴클리에이즈(endonuclease) 부위를 생성시켰고, 또한 하이브리드 단백질의 코딩 서열 내로 2개의 "침묵 돌연변이"를 도입하였다: CTT(L) → CTG(L) 및 TAC(Y) → TAT(Y). 이러한 증폭은 각각 0.5 μM의 dhd59 및 dhd60, 200 μM dNTP, 2 유닛의 PfuUltra™ 고-정확도 DNA 중합효소 (Stratagene, LaJolla, CA) 및 1 ng의 pThOrfC synth DNA를 함유하는 40 ㎕의 1× PfuUltra™ HF 반응 완충제 (Stratagene, LaJolla, CA)의 반응 부피로 수행되었다. 사이클링 파라메터는 하기와 같았다: 1× [94℃에서 1분], 28× [(94℃에서 1분), (60℃에서 0.5분), (72℃에서 1.5분)], 1× [72℃에서 8.5분], 및 4℃에서 유지. Perkin Elmer GeneAmp® PCR System 2400 써모사이클러(thermocycler) (Applied Biosystems, Foster City, CA)에서 반응을 수행하였다.
pREZ179에 의해 코딩되는 하이브리드 OrfC 단백질의 아미노산 잔기 331-522를 코딩하는 DNA 서열을 올리고뉴클레오티드 프라이머 dhd57 (5> C TGC AGC CAG ATG CTC AAG ATG TAC ATG >3; 서열 84) 및 dhd58 (5> G GAG CTT GCT CAT GGG GTG CCA GGA CAT CTC >3; 서열 85)를 사용하여 pREZ179로부터 PCR에 의해 증폭시켰다 (반응 57/58). "전방향" 또는 센스-가닥 프라이머 dhd57은 pREZ179에 의해 코딩되는 하이브리드 OrfC 단백질의 아미노산 잔기 330-339 (GCSQMLKMYM; 서열 74의 위치 330-339)를 코딩하는 DNA 서열과 중첩된다. "역방향" 또는 안티센스-가닥 프라이머 dhd58은 하이브리드 OrfC 단백질의 아미노산 잔기 513-523 (EMSWHPMSKLP; 서열 74의 위치 513-523)을 코딩하는 DNA 서열과 중첩된다. 전방향 프라이머 dhd57의 5' 끝부분은 pREZ179 내에 함유된 하이브리드 OrfC 코딩 서열 내에 존재하는 PstI 부위와 중첩된다. 이러한 증폭은 각각 0.5 μM의 dhd57 및 dhd58, 200 μM dNTP, 2 유닛의 PfuUltra™ 고-정확도 DNA 중합효소 (Stratagene, LaJolla, CA) 및 1 ng의 pREZ179 DNA를 함유하는 40 ㎕의 1× PfuUltra™ HF 반응 완충제 (Stratagene, LaJolla, CA)의 반응 부피로 수행되었다. 사이클링 파라메터는 하기와 같았다: 1× [94℃에서 1분], 28× [(94℃에서 1분), (60℃에서 0.5분), (72℃에서 1.5분)], 1× [72℃에서 8.5분], 및 4℃에서 유지. Perkin Elmer GeneAmp System 2400 써모사이클러에서 반응을 수행하였다.
4 ㎕의 각각의 57/58 및 59/60 반응물을 1.2% 아가로스 젤 상에 러닝(running)시켰다. 예상 생성물 크기와 일치하는 DNA 밴드가 각각의 경우에 관찰되었다: 57/58 생성물에 대한 578 bp 및 59/60 생성물에 대한 1578 bp. 이러한 밴드들을 젤로부터 절제하고, QIAquick® 젤 추출 키트 (QIAGEN, Inc. Valencia, CA)를 사용하여 판매자의 프로토콜에 따라 아가로스 슬라이스로부터 DNA를 회수하였다. PCR 생성물이 40 ㎕의 용출 완충제 내에 회수되었다.
역방향 프라이머 dhd58의 5'의 20개의 뉴클레오티드 (상기에서 밑줄그어짐)는 dhd59의 5'의 20개의 뉴클레오티드 (또한 상기에서 밑줄그어짐)의 역방향 상보물을 포함한다. 그 결과, 반응 57/58 생성물의 3' 끝부분과 반응 59/60 생성물의 5' 끝부분 간에 20 bp의 동일한 중첩이 있고, 이러한 중첩은 이러한 두 생성물의 PCR 기술 "중첩 확장에 의한 스플라이싱(Splicing by Overlap Extension)" 또는 "SOEing" ([Horton, R.M., (1993) In Vitro Recombination and Mutagenesis of DNA. SOEing together tailor-made genes. Methods in molecular Biology Vol. 15: PCR Protocols: Current Methods and Applications Chapter 25 pp 251-266 (B. A. White, Ed.) Humana Press, Totawa, NJ])에 의한 후속 PCR 스플라이싱을 허용한다. 그러면, 이러한 스플라이싱된 단편은 이의 끝부분 ((BstZ17I & PstI)에 또는 이의 끝부분 근처 (BsiW I)에 유용한 제한 부위를 함유한다.
PCR 스플라이싱 반응 (반응 57/60)을 하기와 같이 수행하였다. 40 ㎕ 반응 부피의 1× PfuUltra™ HF 반응 완충제는 0.5 μM의 프라이머 dhd57 및 dhd60 각각, 200 μM dNTP, 2 유닛의 PfuUltra™ 고-정확성 DNA 중합효소 (Stratagene, LaJolla, CA) 및 0.8 ㎕의 젤-정제된 PCR 생성물 57/58 및 59/60 각각의 50배 희석물. 어닐링 온도가 66-70℃ 사이에서 1℃ 증분으로 변화되는 일련의 PCR 스플라이싱 반응을 수행하였다. 기타 사이클링 파라메터는 일정하였다: 1× [98℃에서 1분], 33× [(98℃에서 1분), (66-70℃에서 1분), (72℃에서 2.5분)], 1× [72℃에서 7.5분], 및 6℃에서 유지. RoboCycler® 온도 사이클러 (Stratagene, LaJolla, CA)에서 반응을 수행하였다. 이러한 반응들의 분취량을 1% 아가로스 젤 상에 러닝시켰고, 모든 반응물이 예상 생성물 (2136 bp)과 크기가 일치하는 생성물을 함유하는 것으로 관찰되었지만, 또다른 밴드들이 또한 모든 어닐링 온도에서 관찰되었다. 따라서, 67, 68 및 69℃에서 어닐링된 3개의 반응물을 풀링(pooling)하고, 1% 아가로스 젤 상에 러닝시키고, 관심이 있는 약 2.1 kb 밴드를 절제하고, DNA 단편을 QIAquick® 젤 추출 키트 (QIAGEN, Inc. Valencia, CA)를 사용하여 판매자의 프로토콜에 따라 회수하였다. 용출된 DNA를 30 ㎕의 용출 완충제 내에 회수하고, Zero Blunt® TOPO® PCR 클로닝 키트 (Invitrogen Corp., Carlsbad, CA)를 사용하여 판매자의 프로토콜에 따라 PCR 단편 클로닝 벡터 pCR®-Blunt II TOPO® (Invitrogen Corp., Carlsbad, CA) 내로 클로닝하였다. TOPO 클로닝 반응의 생성물을 사용하여, One Shot® TOP10 화학적 수용성 대장균 (Invitrogen)을 판매자의 프로토콜에 따라 형질전환시켰다. 생성된 형질전환체 8개를 하룻밤 동안 성장시키고, 플라스미드 DNA를 제조하여, 제한 엔도뉴클리에이즈 소화 및 아가로스 젤 전기영동에 의해 분석하였다. 8개 중 7개가 클로닝된 2.1 kb PCR 생성물 57/60을 함유하는 것으로 발견되었다. 한 단리물의 클로닝된 PCR 57/60 생성물을 서열분석하였고, 이는 예상 서열과 정확하게 매칭되는 것으로 나타났다. DNA 서열분석은 Applied Biosystems의 자동화 3730 DNA 분석기를 Big Dye Terminator 화학 및 AmpliTaq-FS DNA 중합효소 (Applied Biosystems, Foster City, CA)와 함께 사용하여 서비스별 수가제(fee for service)로 <Biotechnology Resource Center of Cornell University (Ithaca, New York)>에 의해 수행되었다. 서열이 증명된 삽입물을 함유하는 플라스미드를 pDD21로 칭하였고, 하기 기술되는 추가적인 구축 단계들에서 사용하였다.
스키조키트리움 코돈 사용빈도에 대해 최적화된 Th.23B DH2 도메인을 코딩하는 DNA 절편을 pDD21로부터 절제하고, pREZ179 (실시예 2 참조) 내로 이러한 구축물 내에 존재하는 천연 Th.23B DH2 도메인 코딩 서열을 교체하도록 클로닝하였다. 생성된 플라스미드 pDD22는 하와 같이 구축되었다. 정제된 pDD21 DNA를 BsiWI 및 BstZ17I (New England BioLabs, Beverly MA)로 판매자의 프로토콜에 따라 소화시켰다. 이어서 반응물을 QIAquick® 스핀(Spin) 정제 절차 및 QIAquick® PCR 정제 키트 (QIAGEN Inc., Valencia, CA)를 판매자의 프로토콜에 따라 사용하는 처리에 적용하였다. 정제된 소화 생성물을 1% 아가로스 젤 상에 러닝시키고, 1940 bp의 BsiWI-BstZ17I 단편을 절제하고, QIAEX II 젤 추출 키트 (QIAGEN Inc., Valencia, CA)를 판매자의 프로토콜에 따라 사용하여 아가로스로부터 용출시켰다. 정제된 pREZ179 DNA를 또한 BsiWI 및 BstZ17I로 소화시키고, 이어서 판매자의 프로토콜에 따라 남극 포스파테이즈(Antarctic Phosphatase) (New England BioLabs, Beverly, MA)로 처리하였다. 포스파테이즈 처리된 소화 생성물을 상기 기술된 바와 같은 QUIquick® 절차를 사용하는 처리에 또한 적용하고, 0.7% 아가로스 젤 상에 러닝시켰다. 약 6.1 Kb의 BsiWI-BstZ17I 벡터 단편을 젤로부터 절제하고, 상기 기술된 QIAEX II 젤 추출 키트를 사용하여 아가로스로부터 용출시켰다. 이러한 2개의 단편을 T4 라이게이즈(ligase)를 사용하여 1× T4 라이게이즈 반응 완충제에서 결찰시켰다 (양쪽 모두 New England BioLabs (Beverly, MA)). 결찰 생성물을 사용하여, One Shot® TOP10 화학적 수용성 대장균 (Invitrogen)을 판매자의 프로토콜에 따라 형질전환시켰다. 생성된 형질전환체들 중 3개로부터의 플라스미드 DNA를 제한 엔도뉴클리에이즈 소화 및 아가로스 젤 전기영동에 의해 분석하였고, 3개 모두 예상 재조합체의 구조를 갖는 것으로 확인되었다. 1개의 플라스미드를 pDD22로 칭하였고, 추후의 구축에서 사용하였다.
스키조키트리움이 선호하는 코돈에 의해 코딩되는 Th.23B DH2 영역을 함유하는 하이브리드 OrfC를 코딩하는 DNA를 스키조키트리움 게놈 내로 도입하는 것을 용이하게 하기 위해, DH2 영역을 코딩하는 서열에 스패닝되는 PstI-PflMI DNA 절편을 pDD22로부터 절제하고, 스키조키트리움 내의 orfC 유전자 유전자좌의 서열에서의 유전자 교체를 위해 디자인된 벡터인 pDS48 (실시예 2 참조) 내로 클로닝하였다. 생성된 플라스미드 pDD24 (후속 유전자 교체에서 사용됨)는 하기와 같이 구축되었다. T23B DH2 도메인을 코딩하고 코돈 사용빈도가 최적화된 DNA 절편을 pDD22로부터 절제하고, pDS48 내로 이러한 구축물 내에 존재하는 천연 스키조키트리움 DH2 도메인 코딩 서열을 교체하도록 클로닝하였다. 정제된 pDD22 DNA를 PstI, PflMI 및 ClaI (New England BioLabs, Beverly MA)로 판매자의 프로토콜에 따라 소화시켰다. ClaI로의 소화는 PflMI-PflMI 단편을 절단하였고, 이러한 단편은 그렇지 않으면 관심이 있는 약 3.2 Kb의 PstI-PflMI 단편의 위치에 인접하게 이동하였을 것이다. 이어서 반응물을 QIAquick® 스핀 정제 절차 및 QIAquick® PCR 정제 키트 (QIAGEN Inc., Valencia, CA)를 판매자의 프로토콜에 따라 사용하는 처리에 적용하였다. 정제된 소화 생성물을 0.7% 아가로스 젤 상에 러닝시키고, 관심이 있는 약 3.2 Kb의 PstI-PflMI 단편을 절제하고, QIAEX II 젤 추출 키트 (QIAGEN Inc., Valencia, CA)를 판매자의 프로토콜에 따라 사용하여 아가로스로부터 용출시켰다. 정제된 pDS48 DNA를 유사하게 PflMI 및 PstI로 소화시키고, 상기 기술된 바와 같이 QIAquick® 처리에 적용하고, 0.7% 아가로스 젤 상에 러닝시켰다. 약 8.0 Kb의 PstI-PflMI 벡터 단편을 젤로부터 절제하고, 상기 기술된 바와 같이 QIAEX II 젤 추출 키트를 사용하여 아가로스로부터 용출시켰다. 이러한 2개의 단편을 T4 라이게이즈를 사용하여 1× T4 라이게이즈 반응 완충제에서 결찰시켰다 (양쪽 모두 New England BioLabs (Beverly, MA)). 결찰 생성물을 사용하여, One Shot® TOP10 화학적 수용성 대장균 (Invitrogen)을 판매자의 프로토콜에 따라 형질전환시켰다. 생성된 형질전환체들을 30℃에서 100 ㎍/㎖의 앰피실린을 함유하는 LB 배지의 액체 배양으로 하룻밤 동안 성장시켰다. 액체 배양물에서의 37℃에서의 이러한 형질전환체들의 증식은 일부 환경 하에서 플라스미드 불안정성을 초래하는 것으로 발견되었다. 생성된 형질전환체들 중 3개로부터의 플라스미드 DNA를 제한 엔도뉴클리에이즈 소화 및 아가로스 젤 전기영동에 의해 분석하였고, 3개 모두 예상 재조합체의 구조를 갖는 것으로 확인되었다. 1개의 플라스미드를 pDD24로 칭하였고, 추가적인 제한 엔도뉴클리에이즈 분석에 적용하였으며, 스키조키트리움에서의 유전자 교체 실험 (실시예 4 참조)에서 사용하였다. pDD24의 코딩 영역의 뉴클레오티드 서열은 본원에서 서열 75로 표시된다. 서열 75는 서열 74를 코딩한다. 플라스미드 pDD24는 본원에서 앞서 기술된 바와 같이 ATCC 접속 번호 PTA-8226으로 기탁되었다.
실시예 4
하기의 실시예는 스키조키트리움에서의 상기 실시예 1-3에서 기술된 다양한 Th. 23B orfC 구축물의 발현, 및 이러한 생물에 의해 생산된 PUFA의 분석을 기술한다.
스키조키트리움에서의 변이체 Th.23B orfC 유전자의 발현
스키조키트리움 orfC 코딩 영역이 정확하게 결실된 스키조키트리움인 스키조키트리움 균주 B32-Z1 (상기 및 미국 특허 출원 공개 번호 20050100995의 실시예 8 참조)을 기존에 기술된 기술 (미국 특허 출원 공개 번호 2003/0166207 참조)을 사용하여 입자 포격에 의해 플라스미드 pThOrfC-synPS (전장 합성 Th.23B orfC; 실시예 1 참조), pDS49 (비-합성 Th.23B DH2 영역; 실시예 2 참조), 및 pDD24 (합성 Th.23B DH2 영역; 실시예 3 참조)로 형질전환시켰다. 자가영양성 Zeocin™-감수성 형질전환체들이 수득되었다. 이러한 형질전환체들은 선별된 균주에 대한 PCR 및/또는 서던 블롯(Southern blot)에 의해 확증되는 바와 같이 이중 교차 유전자 교체 이벤트로부터 발생하였다.
간략하게, 입자 포격은 BioRad (Hercules, CA)의 Biolistic® PDS-1000/He 입자 전달 시스템을 사용하였다. 형질전환용 스키조키트리움 균주를 회전 플랫폼 (200 rpm) 상에서 M2B 배지 (적합한 경우 + DHA), 29-30℃에서 OD600 (BioPhotometer, Eppendorf) = 1 내지 2.5까지 성장시켰다. 세포를 원심분리 (3000 rpm, 5분)에 의해 회수하고, 무균성 7.5 g/ℓ Na2SO4에 OD600 = 30으로 재현탁시켰다. 150 ㎕ 부피의 현탁된 세포를 원형 패치 (직경 6cm)로 M2B 한천 (DHA 없음)을 함유하는 페트리 플레이트 상에 도말하였다. PUFA 영양요구체의 성장을 위해, 40% (w/v) 무작위 메틸화 β-시클로덱스트린 (CTD Inc, High Springs, FL.) 내의 25 mM DHA의 모액으로부터 0.25 mM로 DHA를 M2B에 보충하였다. DHA 영양요구성의 보완을 위한 포격을 수행하기 위해, DHA를 한천 배지로부터 제거하였다. 1100 psi 파열 디스크, 디스크 유지 캡(cap)과 마크로캐리어(macrocarrier) 커버 뚜껑 간의 0.25 인치의 갭, 및 중간 위치의 정지 스크린 지지체를 사용하여 층류 후드에서 포격을 수행하였다. 표적 선반은 L2 (6 cm) 위치에 있다. (예상되는 자가영양성) 콜로니가 발달될 때까지 (3-5일), 포격된 DHA 영양요구성 스키조키트리움 균주를 함유하는 페트리 플레이트를 29-30℃에서 인큐베이션하였다. 무작위로 선별된 콜로니들을 M2B 한천 플레이트에 스트리킹(streaking)하였다. 성장 후, 몇몇개의 잘 단리된 콜로니들을 Zeocin® (50 ㎍/㎖)이 있는 M2B 플레이트 또는 Zeocin®이 없는M2B 플레이트로 옮겼다. Zeocin-감수성 DHA 원시영양체 (유전자 교체 이벤트를 시사함)를 추후의 연구용으로 선별하였다.
지방산 분석을 위한 스키조키트리움의 성장
50 ㎖의 M50-20 배지를 함유하는 삼각 플라스크 (250 ㎖)에 지시된 균주의 냉동바이알(cryovial)의 내용물 (1 ㎖)을 접종하였다. 플라스크를 200 rpm의 회전 진탕기 상에서 72시간 동안 29-30℃에서 인큐베이션하였다. SSFM 배지를 함유하는 유사한 플라스크에 0.5 ㎖의 M50-20 배양물을 접종하고, 상기와 같이 5일 동안 인큐베이션하였다. 브로스(broth)를 동일한 부피의 70% 이소프로판올로 희석한 후 원심분리 (4000 g, 5분)에 의해 세포를 수확하였다. 생성된 세포 펠렛을 원래의 부피의 35% 이소프로판올 물에 현탁시키고, 다시 원심분리하였다. 세정된 세포 펠렛을 즉시 -70℃에서 냉동한 후, 동결건조시켰다. 산성 메탄올을 사용하여 지방산 메틸 에스테르 (FAME)를 제조하고, 이를 헥산 내로 추출하고, 기체-액체 크로마토그래피에 의해 분석함으로써, 건조된 생물량의 지방산 함량을 결정하였다.
M50-20 Medium
1 ℓ의 M50-20 배지 당 성분은 하기와 같다: 12.5 g NaCl, 2.5 g MgSO4·7H2O, 0.5 g KCl, 0.05 g CaCl2, 20.0 g 글루코스, 20.0 g 글루탐산나트륨, 0.4 g KH2PO4, 1.0 g 효모 추출물, 0.4 g NaHCO3, 5 ㎖ PII 미량 금속 (200× PII 미량 금속 용액은 리터 당 6.0 g Na2EDTA, 0.29 g FeCl3·6H2O, 6.84 g H3BO3, 0.86 g MnCl2·4H2O, 60 ㎎ ZnCl2, 26 ㎎ CoCl2·6H2O, 52 ㎎ NiSO4·6H2O, 2 ㎎ CuSO4·5H2O, 및 5 ㎎ NaMoO4·2H2O를 함유한다 (pH 8.0)), 1 ㎖ PII 비타민 믹스 (1000× PII 비타민 믹스는 리터 당 100 ㎎ 티아민, 0.5 ㎎ 비오틴, 및 0.5 ㎎ 비타민 B12를 함유한다), pH7.0.
SSFM 배지
1 ℓ의 SSFM 배지 당 성분은 하기와 같다: 13.62 g Na2SO4, 0.72 g K2SO4, 0.56 g KCl, 2.27 g MgSO4·7H2O, 0.19 g CaCl2, 0.0565 g KH2PO4, 0.57 g (NH4)2SO4, 0.13 g 글루탐산나트륨, 100 mM MES (4-모르폴린 에탄술폰산) pH 6.0, 50.0 g 글루코스, 0.16 ㎎ 비타민 B12, 9.75 ㎎ 티아민, 3.33 ㎎ 판토텐산칼슘, 10.3 ㎎ FeSO4·7H2O, 3.1 ㎎ MnCl2·4H2O, 1.93 ㎎ ZnSO4·7H2O, 0.04 ㎎ CoCl2·6H2O, 0.04 ㎎ NaMoO4·2H2O, 2.07 ㎎ CuSO4·5H2O, 2.07 ㎎ NiSO4·6H2O, 2.0 ㎎ 시트르산.
M2B 배지
M2B 배지의 성분은 하기와 같다 (리터 당): 글루코스 10 g, (NH4)2SO4 0.8 g, Na2SO4 5.0 g, MgSO4·7H2O 2.0 g, KH2PO4 0.5 g, KCl 0.5 g, CaCl2·2H2O 0.1 g, 비타민 B12 0.05 ㎎, 티아민·HCl 0.2 ㎎, 판토텐산칼슘 0.2 ㎎, FeSO4·7H2O 3.0 ㎎, MnCl2·4H2O 1.0 ㎎, ZnSO4·7H2O 0.8 ㎎, CoCl2·6H2O 0.02 ㎎, Na2MoO4·2H2O 0.01 ㎎, CuSO4·5H2O 0.6 ㎎, NiSO4·6H2O 0.8 ㎎, MES 완충제 0.1 M, pH 6.0 (NaOH로 조정됨).
재조합 스키조키트리움 균주의 PUFA 분석
표 2는 스키조키트리움 ATCC 20888 및 천연 orfC 코딩 영역이 트라우스토키트리움 23B의 orfC 코딩 영역 모두 또는 이의 일부분으로 교체된 유도체 균주 (실시예 1-3에 기술됨)의 전체 지방산, DHA, 및 DPAn-6 함량 (FAME (지방산 메틸 에스테르)로 표현됨)을 나타낸다. 전체 스키조키트리움 ATCC 20888 orfC 코딩 영역의 Th.23B로부터의 것으로의 교체 (균주 B34-1)는 더 높은 DHA/DPAn-6 비율 (Th.23B의 비율에 근접함)을 초래하였지만, 전체 PUFA 함량은 더 낮았다. 단백질 발현이 더 낮은 전체 PUFA 함량의 가능한 원인이라는 것이 강화된 DHA/DPAn-6 비율이 유지되면서 PUFA 생산이 야생형 수준에 비해 증가된 코돈-최적화 (합성) Th.23B orfC 코딩 영역의 사용 (예를 들어, 균주 B67-5; pThOrfC_syn-PS로 형질전환됨)에 의해 실연되었다. 스키조키트리움 DH2 영역만을 트라우스토키트리움의 것으로 치환하는 것이 유사한 패턴을 나타냈다. 코돈-최적화 Th.23B DH2 영역이 있는 균주 (B69-2; pDD24로 형질전환됨)에서 최적화되지 않은 DH2 영역이 있는 균주 (B105-1A1; pDS49로 형질전환됨)보다 더 높은 PUFA가 산출되었다. 그러나, 균주 B105-1A1 (최적화되지 않은 DH2 영역)에서의 DHA/DPA 비율이 두드러지게 높았다.
흥미롭게, 균주 B69-6에서 높은 수준의 DHA 및 비교적 높은 DHA/DPA 비율이 생산되었다. 이러한 균주는 균주 B69-2가 생산된, 플라스미드 pDD24로의 균주 B32-Z1의 동일한 형질전환으로부터 초래되었다. 그러나, 불일치의 정확한 성질은 알려지지 않았지만, 균주 B69-6에는 변형된 orfC 코딩 영역의 올바른 통합/유전자 교체가 없었다 (PCR 분석에 의해 결정했을 때).
이러한 데이터가 주어지면, 최대의 DHA 생산을 달성하기 위해 균주 B69-2를 사용하여, 또는 최고의 DHA/DPA 비율을 원하는 경우에는 균주 B69-6 또는 B105-1A1을 사용하여 생산-규모의 발효를 개발할 수 있다.
실시예
5
하기의 실시예는 다중-플라스미드 시스템에 의한 대장균에서의 DHA 및 DPA의 생산을 기술하고, PUFA PKS 시스템의 DH2 도메인이 시스템에 의한 지방산 생산의 비율을 제어한다는 것을 추가로 예증한다.
본 발명가들은 스키조키트리움으로부터의 OrfA, OrfB*, OrfC 및 노스톡으로부터의 HetI를 발현시키기 위한 T7 유도성 시스템의 사용에 의한 대장균에서의 DHA 및 DPA의 생산을 기존에 실연하였다 (미국 특허 출원 공개 번호 20050100995의 41면, 실시예 3). 이러한 기존의 예에서, OrfA, OrfB* 및 OrfC는 단일 플라스미드 상에 함유되었다. 유전자 조작에 대한 여지가 더 많은 시스템을 생성시키기 위해, 스키조키트리움으로부터의 개별적인 코딩 영역들을 다중 표적 유전자들의 공동 발현을 위해 디자인된, 양립가능한 발현 플라스미드들의 셋트 상에 클로닝하였다. 표적 유전자들의 발현은 이러한 듀엣(Duet) 시리즈의 플라스미드들 (Novagen) 상의 유도성 T7 프로모터에 의해 유사하게 구동된다. 스키조키트리움 orfA가 pBR115L1으로부터의 NdeI-XbaI 단편으로서 발현 벡터 pETDuet-1 내로 클로닝되어, pREZ91이 생성되었다 (pBR115L1은 미국 특허 출원 공개 번호 20050100995의 41면, 실시예 3에서 최종 발현 플라스미드의 생성에서 언급된다). 스키조키트리움 orfB*가 pJK780으로부터의 NdeI-XbaI 단편으로서 발현 벡터 pCDFDuet-1 내로 클로닝되어, pREZ96이 생성되었다 (pJK780은 미국 특허 출원 공개 번호 20050100995의 41면, 실시예 3에서 최종 발현 플라스미드의 생성에서 언급된다). 스키조키트리움 orfC가 pJK510으로부터의 NdeI-XbaI 단편으로서 pColADuet-1 내로 클로닝되어, pREZ101이 생성되었다 (pJK510은 미국 특허 출원 공개 번호 20050100995의 41면, 실시예 3에서 최종 발현 플라스미드의 생성에서 언급된다). 포스포판테테인 트랜스퍼레이즈 (PPTase)를 코딩하는 필수 부속 유전자 hetI는 기존에 기술된 pACYC 184-기반 플라스미드 pJK737 상에서 공급되었다 (미국 특허 출원 공개 번호 20050100995의 41면, 실시예 3). 플라스미드 pREZ91, pREZ96, pREZ101 및 pJK737 상에 각각 별도로 함유된 OrfA, OrfB*, OrfC 및 hetI를 유도성 T7 RNA 중합효소를 함유하는 대장균 균주 BLR (DE3) (Novagen) 내로 형질전환시켰다.
이러한 다중-플라스미드 균주를 사용하여 루리아 브로스 (LB: Luria Broth)에서 25℃ 및 30℃ (하기 표 3 참조)에서 성장된 대장균 세포에서 DHA 및 DPA의 생산을 검출하였다. 소정의 균주 내에 각각의 플라스미드를 유지하도록 항생제가 보충된 LB 브로스 내로 단일 콜로니를 접종하고, 원하는 온도 (25℃ 또는 30℃)에서 하룻밤 동안 성장시켰다. 그후, 이러한 배양물의 300 ㎕ 부피를 사용하여, 적합한 항생제가 있는 30 ㎖ LB의 주요 배양물에 접종하였다. 주요 배양물을 OD600 (BioPhotometer, Eppendorf)이 0.45 내지 0.55 사이일 때까지 지시된 온도에서 성장시켰고, 이러한 시점에 배양물을 IPTG로 1 mM의 최종 농도로 유도하였다. 그후, 배양물을 이러한 발현 조건 하에 24시간 동안 유지시키고 나서, 원심분리에 의해 세포를 수집하고, FAME 분석용으로 준비시켰다. 30℃에서 생산되는 PUFA의 전형적인 수준 (전체 FAME의 백분율)은 스키조키트리움 orfC를 보유하는 균주에 대해 10% DHA 및 6% DPA (16%의 전체 PUFA)였다. 1.7의 DHA/DPA 비율은 스키조키트리움에서 나타난 것과 비슷하였다 (하기 표 3 참조).
별도의 플라스미드들 상에 있는 대장균에서의 DHA 및 DPA 생산에 필요한 스키조키트리움 유전자들의 발현은 PUFA 생합성 유전자들을 더욱 쉽게 연구하고 조작하는 능력을 본 발명가들에게 제공하였다. 미국 특허 출원 공개 번호 2005/0100995의 실시예 8에 기술된 바와 같이, 스키조키트리움에서, orfC를 트라우스토키트리움 23B로부터의 상동성 유전자로 교체하는 것은 DHA 대 DPA 비율에서의 이동과 함께 PUFA 프로파일을 변경시켰다. 상기 기술된 대장균 다중-플라스미드 발현 시스템으로 유사한 실험이 수행되었고, 이때 스키조키트리움 orfC 발현 플라스미드 (pREZ101)가 유사한 트라우스토키트리움 23B orfC 발현 플라스미드 (pREZ142)로 교체되었다.
pREZ142를 생성시키기 위해, pREZ31로부터의 Th.23B orfC 코딩 영역을 NcoI/SalI 단편으로서 듀엣 벡터 pColADuet-1 내로 클로닝하였다. 플라스미드 pREZ31은 BamHI 제한 부위 (하기에서 밑줄그어짐)가 시작 ATG (하기에서 소문자로 표시됨)의 바로 상류에 조작된, "완벽한 스티치" 유전자 교체 벡터인 pREZ33 (상기 실시예 1 및 미국 특허 출원 공개 번호 2005/0100995의 실시예 8에 기술됨)의 변이체이다. 이러한 조작은 pREZ31 내에 시작 ATG를 함유하는 NcoI 제한 부위 (하기에서 이탤릭체로 표시됨)를 뜻밖에 생성시켰고, 이는 BamHI 부위의 마지막 2개의 염기 및 Th.23B orfC 코딩 영역의 처음 4개의 염기로 구성되었다: GGAT CC atsG (서열 86).
이러한 클로닝에서 사용된 SalI 제한 부위는 스키조키트리움 orfC 하류 영역에 대해 천연이고, TAA 정지 코돈의 약 250bp 하류이다. 스키조키트리움 orfC에 대한 Th.23B orfC 또는 대장균 발현 시스템에서의 이러한 교체로 DHA 대 DPA 비율이 1.5에서 6.8으로 이동하면서 PUFA 프로파일이 변경되었고, 25℃에서 균주가 성장 및 유도되었을 때 DHA + DPA의 전체적인 양이 10%에서 4%로 감소되었다 (하기 표 참조).
DHA 대 DPA의 비율의 제어를 담당하는 유전자의 영역 또는 도메인을 결정하기 위해, 하이브리드 orfC 코딩 영역들이 생성되었다. 발현 플라스미드 pREZ179 내의 하이브리드 orfC는 트라우스토키트리움 23B orfC로부터 유래된 중앙의 DH2 영역을 함유하고, 상류 및 하류에 스키조키트리움 orfC 서열이 플랭킹된다 (실시예 2 참조). pREZ179가 pREZ101 대신 상기 시스템에서 발현되는 경우, 6.5의 DHA 대 DPA 비율이 나타났고, 전체적인 PUFA 양은 25℃에서 발현 및 유도되었을 때 9%였다 (하기 표 참조). 대장균 모델 발현에서의 DHA 대 DPA 비율에서의 이러한 이동 및 수율의 유지는 orfC의 중앙 DH2 영역이 PUFA 생합성에서의 DHA 대 DPA 비율의 대부분 또는 모두를 제어한다는 것을 가리켰다. 그후, 이러한 구축물이 추가적인 플랭킹 DNA로 변형되고, 천연 orfC를 교체하도록 스키조키트리움 내로 형질전환되었을 때, DHA 대 DPA 비율에서의 유사한 이동이 나타났을 뿐만 아니라, 생산이 감소되지 않았다 (실시예 4 참조). 유사하게, 하이브리드 orfC가 효모 시스템에서 발현되었을 때, DHA 대 DPA 비율에서의 이동이 다시 나타났다 (실시예 6 참조).
다중 발현 플라스미드 시스템의 용도
PUFA 생합성에서 DHA 대 DPA 비율을 제어하는 것에서의 orfC, 특히 DH2 영역의 역할을 해명하기 위해 대장균 및 효모 다중-플라스미드 발현 모델 시스템이 사용된 상기 실시예들은 이러한 이종성 시스템들의 유용성을 실연한다. 대장균 및 효모에서 나타난 결과들은 DHA/DPA 비율에 대한 orfC 공급원의 상대적인 효과의 관점에서 스키조키트리움에서 나타난 것에 필적하였다. 유사한 방식으로, PUFA 사슬 길이, 지방산 포화 정도, 및 이중 결합의 위치 결정이 포함되는 PUFA 생합성의 또다른 양상들을 조사하고 조작하기 위해 대장균 및 효모에서의 다중-플라스미드 발현 모델 시스템이 본원에서 기술된다. 이러한 시스템들은 또다른 유형의 지방산 변형 예컨대 히드록실화 및 글리코실화에서 수반되는 유전자들의 용이한 발현을 또한 허용할 것이다. 유사한 방식으로, 단일 생물 (미국 특허 출원 공개 번호 2005/0100995의 실시예 2에 기술된 쉐와넬라 자포니카 클러스터에 대해 수행된 바와 같이), 또는 하나를 초과하는 생물로부터의 기타 PUFA 생합성 유전자가 연구를 용이하게 하기 위해 이러한 대장균 시스템 내로 클로닝될 수 있다.
실시예 6
하기의 실시예는 스키조키트리움의 PUFA 신테이즈 서브유닛 A, B 및 C 및 노스톡 hetI이 효모에서 발현되는 방법을 기술하고, PUFA PKS 시스템의 DH2 도메인이 시스템에 의한 지방산 생산의 비율을 제어한다는 것을 추가로 예증한다.
파트 A
예비 발현 실험은 스키조키트리움 OrfC 및 Het I이 천연 코딩 영역을 사용하여 효모에서 전장 단백질로서 생산될 수 있음을 가리켰다. 반면에, 스키조키트리움 OrfA 및 OrfB에 대한 천연 코딩 영역의 발현은 검출가능한 양의 예상 단백질의 생산을 초래하지 않았다. 문제는 mRNA의 번역과 관련되는 것으로 보였다. (노던 블롯이 정확한 크기의 mRNA의 존재를 나타냈다.) 따라서, 효모에서의 발현을 개선하기 위한 목적으로 이러한 2개의 코딩 영역의 합성 버젼을 제조하였다. 합성 유전자에 의해 코딩되는 단백질들의 아미노산 서열은 천연 유전자에 의해 코딩되는 것 (즉, 서열 2 및 서열 4)과 동일하다. orfA 및 orfB의 초기의 유전자 디자인 및 완전한 유전자 합성은 Blue Heron Biotechnology, Inc. (Bothell, WA)에 의해 수행되었다. 코돈 최적화는 사카로마이세스 세레비지아에의 코돈 선호도를 고려하였다. 합성 코딩 영역의 완전한 서열 (sOrfA 및 sOrfB로 칭해짐)이 서열 35 (sOrfA) 및 서열 36 (sOrfB)로 열거된다. 각각의 합성 코딩 영역에 하기와 같이 효모 형질전환 벡터에서의 클로닝을 용이하게 하기 위한 DNA가 첨부되었다:
상류 서열 (서열 87)
AAGCTTGTGCAGTCAAGTGCGCAAAACCATG
하류 서열 (서열 88)
TAACCCGGGTCTAGA.
시작 및 정지 코돈 위치에 밑줄이 그어지고, HindIII (상류) 및 XbaI (하류)에 대한 제한 효소 인식 부위가 볼드체로 표시된다.
사카로마이세스 세레비지아에 균주 InvSC1 (MATa his3-Δ1, leu2, trp1-289, ura3-52) (Invitrogen, Carlsbad, CA)이 이러한 실험에 사용되었다. 공급자의 권고사항대로 균주를 유지시키고 형질전환시켰다. 형질전환체들을 글루코스 고체 배지, 라피노스 브로스(broth) 및 갈락토스 유도 배지 상에서 제조업자의 설명서 (Invitrogen)에 따라 성장시켰다. 모든 효모 배지 성분은 Q-BIOgene (Carlsbad, CA)으로부터 구입하였다.
스키조키트리움 PUFA 신테이즈 유전자 및 hetI을 하기의 형질전환 벡터들 내로 클로닝하였다: pYES-Leu* (sOrfA; 서열 35), pYES3-Tryp (sOrfB; 서열 36), pYES2/CT (OrfC; 서열 5) 및 pYES-His* (hetI; 서열 33). 이러한 벡터들의 생성이 하기에 상세하게 기술된다. 일부 벡터 및 유전자는 특정한 클로닝 및 발현 요구사항에 맞도록 변형되었다 (하기에 상세하게 기술됨). 특정 실험에 따라, 적합한 서열 배지를 사용하였다. 각각의 경우에 GAL1 프로모터 뒤에 유전자들을 클로닝하였고, 세정된 세포를 Invitrogen이 제공한 지침에 따라 갈락토스를 함유하는 배지에 재현탁시킴으로써 발현을 유도하였다. 유도 배지로 옮긴 후에 세포를 30℃에서 성장시키고, 지시된 시간에 수확하였다 (원심분리에 의해). 세포 펠렛을 동결 건조시키고, 산성 메탄올을 사용하여 FAME을 제조하고, 헥산 내로 추출하고, GC에 의해 분석하였다.
sOrfA 발현 구축물: sOrfA를 하기와 같이 구축된 주문제작 벡터 pYES-Leu/CT 내로 클로닝하였다, pYES6/CT 벡터 (Invitrogen)를 블라스티시딘 저항성 유전자를 함유하는 이의 DNA 영역을 leu2 유전자를 함유하는 DNA 절편으로 교체함으로써 변형시켰다 (류신이 없는 배지 상에서의 선별을 위해). pYES6/CT를 BglII 및 NheI으로 소화시키고, 생성된 약 4913 bp 벡터 단편을 젤 정제함으로써 블라스티시딘 유전자를 제거하였다. leu2 유전자를 효모 벡터 pRS425 (ATCC 77106, GenBank # U03452)로부터 수득하였다. 프라이머 PO-Leu5' (서열 89) 및 PO-Leu3' (서열 90)을 pRS425를 주형으로 하여 PCR 반응에서 사용하여, leu2 유전자를 함유하는 약 1812 bp의 DNA 단편 (pRS425의 bp 664 내지 2475)을 생성시켰다.
PO-Leu5' GACTGCTAGCTTAAGCAAGGATTTTCTTAAC
PO-Leu3' GACTGGATCCTCCTGATGCGGTATTTTCTCC
클로닝을 용이하게 하기 위해 제한 효소 인식 부위가 프라이머 내로 혼입되었다 (5' NheI 및 3' BamHI; 밑줄). PCR 단편을 BamHI 및 NheI으로 소화시키고, pYES6/CT BglII/NheI 소화물로부터 수득된 4913 bp 벡터 단편에 결찰시켜, pYES6-Leu가 형성되었다. 이러한 벡터를 sOrfA의 삽입에 대비하여 HindIII 및 XbaI로 소화시켰다. sOrfA 및 적합한 플랭킹 DNA를 함유하는 Blue Heron으로부터의 플라스미드를 HindIII 및 XbaI로 소화시켰다. 완전한 sOrfA가 있는 8.8 kb 단편을 젤 정제하고, 준비된 pYES6-Leu 벡터와 결찰시켜, pBR882 (pYES6-Leu:sOrfA)가 형성되었다.
sOrfB 발현 구축물: 본 발명가들은 트립토판 선별 마커가 있는 pYES3 효모 발현 벡터 내로 sOrfB를 클로닝하기를 원했다. pYES3 벡터는 제2의 XbaI 제한 부위를 함유하기 때문에 (제2의 부위는 trp1 유전자 내에 있음), 이러한 제한 효소는 sOrfB DNA 단편의 도입에 편리하게 사용될 수 없었다. sOrfB의 하류에 XbaI 부위를 함유하는 영역을 독특한 NotI 부위 (pYES3 내의 유전자 삽입 클로닝 부위로서 또한 이용가능함)가 도입되도록 하기와 같이 변형시켰다. Blue Heron으로부터의 sOrfB 단편을 함유하는 플라스미드를 HindIII 및 XbaI로 소화시키고, 생성된 관심이 있는 6.2 kb 단편을 젤 정제하였다. 이러한 단편을 동일한 효소로 절단된 pYES2/CT (Invitrogen) 내로 결찰시켜, 플라스미드 pBR879가 산출되었다. 독특한 XbaI 부위에서 절단함으로써 이러한 플라스미드를 개방시켰다. 자가 상보적 올리고 링커 5'-CTAGGCGGCCGC-3' (서열 91)을 사용하여, 독특한 NotI 부위를 생성시켰다 (밑줄; 이는 XbaI 부위를 또한 제거한다). 이에 의해 플라스미드 pJK894가 산출되었다. 이러한 구축물을 HindIII 및 NotI으로 소화시키고, 생성된 관심이 있는 6.2 kb 단편을 젤 정제하였다. 이러한 단편을 동일한 효소로 절단된 pYES3/CT (Invitrogen) 내로 결찰시켜, 플라스미드 pJK908 (pYES3:sOrfB)가 산출되었다.
OrfC 발현 구축물: 천연 orf가 기존에 박테리아 발현 벡터 내로 클로닝되었고, 이러한 벡터가 효모 발현을 위한 유전자의 공급원으로 사용되었다. 박테리아 벡터는 pBluescript II KS (Stratagene)였고, 코딩 영역 + 플랭킹 DNA가 벡터의 EcoRI (5') 및 XbaI (3') 부위 내로 클로닝되었다. 삽입 DNA는 ATG 개시 코돈의 일부로서의 NdeI 제한 부위 및 XbaI 부위 바로 앞의 TAA 정지 코돈을 포함하였다. 박테리아 리보솜 결합 부위 서열이 EcoRI 부위와 개시 코돈을 함유하는 NdeI 부위 사이의 영역에 포함되었다. 효모 벡터에서의 클로닝 전에, 리보솜 결합 부위 DNA가 제거되었고, 효모 시스템에서의 발현에 적합한 DNA로 교체되었다. orfC가 있는 pBluescript 플라스미드를 EcoRI 및 NdeI로 소화시키고, 올리고뉴클레오티드 링커 FL5' (AATTCAA) 및 FL3' (TATTG)에 결찰시켰다. 생성된 플라스미드 (pKCFL로 칭해짐)를 HindIII (KS 폴리링커 내의 EcoRI 부위의 바로 상류) 및 XbaI로 소화시켜, 약 4526 bp의 단편을 유리시켰다. 이러한 단편을 HindIII/XbaI-소화 pYES2/CT에 결찰시켜, pYES2/ORFCwt (pYES2:OrfC)가 생성되었다.
HetI 구축물: PPTase를 코딩하는, 노스톡으로부터의 hetI 유전자를 하기와 같이 구축된 주문제작 벡터 pYES6-His/CT 내로 클로닝하였다. pYES6/CT 벡터 (Invitrogen)를 블라스티시딘 저항성 유전자를 함유하는 이의 DNA 영역을 his3 유전자를 함유하는 DNA 절편으로 교체함으로써 변형시켰다 (히스티딘이 없는 배지 상에서의 선별을 위해). pYES6/CT를 BglII 및 NheI으로 소화시키고, 생성된 약 4913 bp 벡터 단편을 젤 정제함으로써 블라스티시딘 유전자를 제거하였다. his3 유전자를 효모 벡터 pRS423 (ATCC 77104, GenBank # U03454)로부터 프라이머 PO-His5' (서열 92) 및 PO-His3 (서열 93)을 사용하여 증폭시켰다.
PO-His5' GACTACTAGTCTAAGAAACCATTATTATCAT
PO-His3' GACTGGATCCAGCTTTAAATAATCGGTGTCA
이에 의해 his3 유전자를 함유한, pRS423 플라스미드의 약 1251 bp의 영역이 생성되었다. 클로닝을 용이하게 하기 위해 제한 효소 인식 부위가 프라이머 내로 혼입되었다 (5' SpeI, 및 3' BamHI; 밑줄). PCR 단편을 SpeI 및 BamHI으로 소화시키고, pYES6/CT로부터 수득된 약 4913 bp의 벡터 단편에 결찰시켜, pYES6-His가 형성되었다. 이러한 벡터를 hetI 유전자의 삽입에 대비하여 BamHI 및 XbaI로 소화시켰다.
대장균에서의 PUFA 생산을 위해 기존에 hetI 유전자가 클로닝되어 스키조키트리움 PUFA 신테이즈 유전자와 함께 사용되었다 (미국 특허 출원 공개 번호 20040235127, 실시예 2). 상기 출원에 지시된 바와 같이, 오픈 리딩 프레임 내에 메티오닌 코돈이 존재하지 않지만, 여러 잠재적인 별법적인 시작 코돈들 (TTG 및 ATT)이 5' 말단 근처에 있다 ([Black and Wolk, 1994, JBC 176, 2282-2292]). PCR을 사용하여 노스톡 게놈 DNA로부터 Orf를 증폭시켰다. 가장 5' 쪽의 TTG 코돈의 첫번째 T가 A로 교체되어 메티오닌 코돈 (ATG)이 생성되도록 5' 프라이머가 디자인되었다. 3' 프라이머는 TGA 정지 코돈을 포함하였다. 증폭된 영역은 GenBank # L22883으로 기탁된 노스톡 뉴클레오티드 서열의 bp 3994에서 bp 3282까지 걸쳐졌다 (뉴클레오티드 3994는 ATG 코돈을 형성하도록 변경된 TTG 코돈의 두번째 T이다). 이러한 증폭된 hetI Orf를 대장균에서의 발현을 위한 플랭킹 조절 요소들과 함께 pACYC184 벡터 내에 클로닝하였다. hetI Orf의 이러한 클론을 주형 DNA로 사용하여, pYES6-His 내로의 클로닝에 대비하여 유전자를 증폭시켰다. 프라이머 HetI 5' (서열 94) 및 HetI 3' (서열 95)를 사용하여 hetI Orf를 함유하는 740 bp 단편을 생성시켰다.
HetI 5' GACTGGATCCGCCACCATGTTGCAGCATACTTGGCTACCAAAACCC
HetI 3' GACTTCTAGA TCAATAATGCCAGAATTTTGGCTGC
클로닝을 용이하게 하기 위해 제한 효소 인식 부위가 프라이머 내로 혼입되었다 (5' BamHI, 및 3' XbaI; 밑줄). ATG 메티오닌 시작 코돈 (5' 프라이머) 및 TGA 정지 코돈 (3' 프라이머에서 역 TCA 3문자로 표시됨)이 볼드체로 표시된다. PCR 생성물을 BamHI 및 XbaI로 소화시키고, 이전에 제조된 pYES6-His 벡터 내로 결찰시켜, pYES-His/Het/CT (pYES6-His:HetI)가 형성되었다.
효모에서의 PYES6-Leu:s0rfA, PYES3:s0rfB, PYES2:OrfC 및 pYES6-His:HetI의 발현의 결과
도 5는 스키조키트리움 PUFA 신테이즈 시스템 (sOrfA, sOrfB, OrfC 및 hetI)을 발현하는 효모 세포들로부터 유래된 FAME의 GC 프로파일과 대조군 세포 (sOrfA 유전자가 없음)로부터 수득된 것의 비교를 나타내고, 이러한 효모 균주들은 각각 본원에서 균주 BRY 4.5 및 BRY 3.3로 표시된다. 약 20시간의 유도 후 세포를 수집하였다. 2개의 신규 FAME 피크가 완전한 PUFA 신테이즈 시스템을 발현하는 균주의 프로파일에서 나타났음을 볼 수 있다. 이러한 2개의 피크는 인증된 표준물과의 용출 시간의 비교 및 이어지는 MS 분석에 의해 DPAn-6 및 DHA로 확인되었다. 스키조키트리움 PUFA 신테이즈의 본 발명가들의 특성화로부터 예상된 바와 같이, DHA 및 DPAn-6 이외에, 어떠한 다른 신규 피크도 프로파일에서 명백하지 않다. 도 6은 PUFA FAME을 함유하는, 도 5의 GC 크로마토그램의 영역을 나타낸다. 대조군 세포 및 PUFA 신테이즈를 발현하는 세포 양쪽 모두 DHA FAME 근처에서 용출되는 피크를 함유한다. 이는 C26:0 FAME으로 확인되었고 (질량 스펙트럼 분석에 의해), 스핑고지질로부터 유래되었을 것이다. 이는 DHA 피크에 인접하여 용출되지만, DHA의 정량을 방해하지 않도록 해상도가 충분하다. DPAn-6 피크는 FAME 프로파일에서 다른 내인성 효모 지질로부터 잘 분리된다. 균주 BRY 4.5의 이러한 특정한 예에서, 스키조키트리움 PUFA 신테이즈 시스템을 발현하는 세포에서 2.4% DHA 및 2.0% DPAn-6가 축적되었다 (전체 FAME의 백분율; 하기 표 4 참조). DHA와 DPAn-6의 합계는 세포 내의 측정된 지방산의 4.4%이다. 세포에서 관찰된 DHA 대 DPAn-6의 비율은 약 1.2:1이었다.
효모에서의 스키조키트리움 PUFA 신테이즈의 발현을 나타내는 상기에 제시된 결과들은 기존의 출원에서 제안된 경로들의 확증, 뿐만 아니라 효모에서, 그리고 또한 식물에서 예상될 수 있는 지방산 프로파일에 대한 변경의 관점에서의 예측을 제공한다.
파트 B
트라우스토키트리움 23B의 orfC 상동체로부터 유래된 DH2 영역을 함유하는 OrfC를 코딩하는 하이브리드 유전자와 조합된 효모에서의 스키조키트리움의 PUFA 신테이즈 OrfA, OrfB 및 노스톡 Het I의 발현.
효모에서의 하이브리드 스키조키트리움/Th.23B OrfC 유전자의 발현: 본 출원의 다른 섹션에 기술된 바와 같이, 본 발명가들은 PUFA 신테이즈의 n-3 대 n-6 PUFA 생성물의 비율의 주요 결정인자가 OrfC 단백질 내에, 더욱 구체적으로는 이러한 단백질의 DH2 영역 내에 있다는 것을 발견하였다. 스키조키트리움-유래 PUFA 신테이즈 유전자들과 조합된 Th.23B로부터 유래된 OrfC 상동체를 사용한 대장균 및 스키조키트리움 양쪽 모두에서의 유전자 교체 실험으로 이러한 혼합 시스템에 의해 생산되는 DHA 대 DPAn-6 비율의 변경이 초래되었다. 대장균에서는, PUFA 신테이즈의 생성물이, 아마도 숙주 생물의 지질 합성 효소가 효소의 주요 생성물의 축적에 대해 영향을 미치지 않으면서, 유리 지방산으로 축적된다. 스키조키트리움에서는, PUFA 생성물이 에스테르화 지질로 축적되지만, DHA 및 DPAn-6 양쪽 모두가 변형되지 않은 숙주의 지질 분획의 주요 성분이기 때문에 내인성 지질 합성 효소가 이들을 쉽게 조절할 수 있을 것이다. 효모에서의 혼합형 PUFA 신테이즈 시스템의 발현은 이종성 진핵생물 숙주 (예를 들어, 식물)에 대한 모델을 제공할 것이다.
예상 단백질이 검출될 수 없었기 때문에, 비-합성 또는 완전 합성 Th.23B orfC 유전자를 효모에서 발현시키려는 시도는 성공적이지 않았다. 반면에, 하이브리드 orfC 구축물의 발현 (하기에 기술됨)은 활성 단백질의 생산을 초래하였다.
pYES2 내의 하이브리드 스키조키트리움 / Th.23B OrfC: 천연 스키조키트리움 orfC를 함유하는 플라스미드인 pYES2:OrfC (상기 기술됨)을 BsiWI 및 PmlI로 소화시켜, DH2 영역을 코딩하는 DNA 섹션 및 일부 플랭킹 DNA를 제거하였다. 제거된 영역은 스키조키트리움 orfC 서열 (서열 5)의 약 1179 bp (BsiWI 부위)에서 약 3256 bp (PmlI 부위)까지였다. 생성된 8.4 kb 단편 (벡터, 뿐만 아니라 orfC의 5' 및 3' 부분 함유)을 젤 정제하였다. 하이브리드 스키조키트리움/Th.23B orfC를 함유하는 앞서 기술된 플라스미드 (실시예 2 참조) (pREZ179 = pColA DUET-Schizo. orfC-Th.23B DH2 하이브리드)를 BsiWI 및 PmlI로 소화시키고, Th.23B DH2 영역 및 플랭킹된 스키조키트리움 DNA를 함유하는 2 kb 단편을 젤 정제하였다. 2개의 정제된 단편을 함께 결찰시켜, pYES2: OrfC-23BDH2가 형성되었다.
유사한 전략을 사용하여 pYES2: OrfC-s23BDH2가 생성되었다. 이러한 경우에, 합성 Th.23B DH2 영역에 대한 공급원으로 사용된 플라스미드 (pDD22; 실시예 3 참조)는 스키조키트리움의 선호도에 더욱 가깝게 매칭되도록 코돈이 변형된 합성 코딩 영역으로부터 Th.23B DH2 도메인을 코딩하는 DNA가 유래된 하이브리드 orfC였다 (실시예 3 참조).
효모에서의 pYES6-Leu:sOrfA, pYES3:sOrfB, pYES6-His:HetI 및 PYES2:OrfC-23BDH2 또는 pYES2:OrfC-s23BDH2의 발현의 결과: 표 4는 스키조키트리움 서브유닛 A 및 B 및 노스톡 HetI와 함께 하이브리드 OrfC를 발현하는 효모에서 생산된 PUFA를 나타낸다. 상기 파트 A에서 관찰된 바와 같이, 이러한 효모 샘플에서만 검출된 신규 피크는 DHA 및 DPAn-6이었다. 성장 조건 및 샘플 제조는 상기 기술된 바와 같았다. 관련된 PUFA 데이터만이 제시된다 (면적%로 제공되는 FAME으로서). BRY 4.21로 표지된 샘플은 천연 Th.23B DH2 영역이 있는 하이브리드 orfC를 함유하는 한편, BRY 4.23으로 표지된 샘플은 합성 유전자로부터 유래된 Th.23B DH2 영역이 있는 하이브리드 orfC를 함유한다. 2개의 샘플 (a 및 b, 독립적인 단리물들로부터의 것)을 BRY 4.21 균주에 대해 테스트한 한편, BRY 4.23 균주는 1개의 단리물을 테스트하였다. 스키조키트리움 orfC를 발현하는 세포에 비해, 어느 한쪽 형태의 하이브리드 orfC를 발현하는 세포들은 DHA/DPAn-6 비율이 더 높았다 (천연 Th.23B DH2가 있는 것들은 평균 약 2.6, 합성 Th.23B DH2가 있는 샘플은 약 2.9의 값). 효모에서의 하이브리드 orfC 유전자의 발현은 천연 스키조키트리움 orfC 유전자를 발현하는 효모에 비해 DHA 대 DPAn-6 비율에서의 증가를 명백하게 초래하였다. Th.23B 세포 또는 하이브리드 orfC를 발현하는 스키조키트리움에서의 DHA/DPAn-6 비율이 더 높다 (약 8-10)는 사실은 다른 인자들이 DPAn-6에 비해 DHA의 축적을 향하는 편향에 기여하고 있다는 것을 가리킨다. 효모에서 비율이 증가하였다는 관찰은 이러한 구축물이 PUFA 신테이즈 시스템을 이종성 진핵생물 숙주 (예를 들어, 효모 또는 식물)에서 발현시키기 위한 유용한 모델이라는 것을 가리킨다.
실시예
7
하기의 실시예는 실시예 4에서 기술된 다양한 유전자 변형 스키조키트리움 균주를 사용하는 발효 규모 실험에서의 PUFA의 생산을 실연한다.
실험 1
2ℓ 발효기를 전형적인 발효 조건 하에 사용하여, 야생형 스키조키트리움 (ATCC 20888)의 2개의 배양물 및 트랜스제닉 스키조키트리움 (천연 스키조키트리움 orfC 코딩 영역 대신 코돈-최적화 (합성) Th.23B orfC 코딩 영역이 있는 B67-5; 실시예 4 참조)의 2개의 배양물을 배양하여, 지방산 프로파일을 비교하였다. 각각의 균주를 탄소, 질소, 인, 염, 미량 금속 및 비타민을 함유하는 배지에서 발효시켰다. 각각의 발효기에 전형적인 종자 배양물을 접종한 후, 80시간 동안 배양하고, 배양 동안 탄소 공급원 및 질소 공급원 양쪽 모두를 공급하였다. 질소 공급원은 성장 단계 동안만 공급 및 소비되는 한편, 탄소 공급원은 발효 전반에 걸쳐 공급 및 소비되었다. 80시간 후, 각각의 발효기로부터의 샘플을 원심분리하고, 동결건조시키고, 지방산 함량에 대해 기체 크로마토그래피에 의해 분석하였다.
전형적인 발효 조건:
온도: 28- 30 ℃
pH: 5.0 - 7.5
진탕: 100 - 300 cps
기류: 0.25 - 2.0 vvm
글루코스: 5 - 35 g/ℓ (농도)
접종물: 7.5% - 15%
결과가 하기 표 5에서 제시된다:
표 5에 나타난 바와 같이, 천연 스키조키트리움 코딩 영역 대신 합성 트라우스토키트리움 23B orfC 코딩 영역을 함유하는 균주 B67-5은 야생형 스키조키트리움 균주보다 더 많은 DHA를 생산하였고 DHA 대 DPAn-6 비율이 더 컸다.
실험 2
10ℓ 발효기를 전형적인 발효 조건 하에 사용하여, 야생형 스키조키트리움 (ATCC 20888)의 1개의 배양물 및 트랜스제닉 스키조키트리움 (천연 스키조키트리움 DH2 영역 대신 코돈-최적화되지 않은 (트라우스토키트리움 천연의) Th.23B DH2 영역을 함유하는 B105-1A1; 실시예 4 참조)의 1개의 배양물을 배양하여, 지방산 프로파일을 비교하였다. 각각의 균주를 탄소, 질소, 인, 염, 미량 금속 및 비타민을 함유하는 배지에서 발효시켰다. 각각의 발효기에 전형적인 종자 배양물을 접종한 후, 72시간 동안 배양하고, 배양 동안 탄소 공급원 및 질소 공급원 양쪽 모두를 공급하였다. 질소 공급원은 성장 단계 동안만 공급 및 소비되는 한편, 탄소 공급원은 발효 전반에 걸쳐 공급 및 소비되었다. 72시간 후, 각각의 발효기로부터의 샘플을 원심분리하고, 동결건조시키고, 지방산 함량에 대해 기체 크로마토그래피에 의해 분석하였다.
전형적인 발효 조건:
온도: 28 - 30 ℃
pH: 5.0 - 7.5
진탕: 100 - 300 cps
기류: 0.25 - 2.0 vvm
글루코스: 5 - 35 g/ℓ (농도)
접종물: 7.5% - 15%
결과가 하기 표 6에서 제시된다:
표 6은 스키조키트리움 DH2 영역 대신 트라우스토키트리움 23B DH2 영역을 함유하는 균주가 DHA/DPAn-6 비율이 더 높다는 것을 나타내어, 본원에 기술된 키메라 PUFA PKS 시스템의 사용에 의해 달성된 개선된 DHA 비율을 또다시 예증한다.
실시예 8
이러한 실시예는 스키조키트리움에서 발현되는 코돈-최적화 합성 Th.23B orfA, orf B, 및 orfC 코딩 영역의 모든 조합의 구축 및 평가를 기술한다.
스키조키트리움 orfC 코딩 영역의 Th.23B의 코돈-최적화된 합성 orfC 코딩 영역으로의 정확한 교체를 위한 방법의 상세한 설명이 상기에서 제공되었다 (실시예 1 및 4). 당업자는 이러한 기술이 대부분의 관심 유전자에 일반적으로 적용될 수 있음을 인지한다. 당업자는 이러한 유전자 디자인 및 교체가 이러한 방법들 또는 기타 방법들에 대한 전적인 변동에 의해 달성될 수 있다는 것을 추가로 인지한다. 예를 들어, 다중 유전자/코딩 영역들이 동시에 결실될 수 있고, 동시에 교체될 수 있다. 스키조키트리움에서, orfA 및 ofB 유전자는 유전자간 영역 (서열 76 포함)에 의해 분리되어 게놈에서 서로 인접하여 발견된다 ("연관"됨). (유전자간 영역과 함께) 이러한 2개의 코딩 영역이 orfC에 대해 기존에 기술된 것과 유사한 방법에 의해 동시에 결실될 수 있다 (미국 특허 출원 공개 번호 20050100995). 그후, 상기 실시예 1 및 4에 기술된 것과 유사한 방법을 사용하여, 코돈-최적화 합성 Th.23B orfA 및 orfB 코딩 영역 (전체적인 스키조키트리움 유전자간 영역 포함)의 스키조키트리움 orfA/orfB 유전자좌 내로의 "완벽한 스티치" 교체를 동시에 생성시킬 수 있다. B80-1 및 B80-20 (표 7)과 같은 균주가 이러한 방식으로 생성되었다.
또다른 예에서, "2-단계" 방법에 의해 코딩 영역 결실이 생성될 수 있고, 이때 처음에는, 표시된 결실 구조물 + 제2의 선별가능 마커를 보유하는 플라스미드가 단일 교차 이벤트에 의해 온전히 그대로 표적 유전자좌 내로 재조합된다. 그후, 제2의 선별가능 마커가 손실되고 결실 구조물이 원래의 유전자 구조 대신에 유지되도록 결실 구조물의 반대쪽 측면 상의 부위에서의 단일 교차 이벤트에 의해 구성(integrant) 구조물이 "리졸빙(resolving)"된다 ([Rothstein R., "Targeting, Disruption, Replacement, and Allele Rescue: Integrative DNA Transformation in Yeast", pp281-301, Methods in Enzvmology, vol. 194 (1991), Elsevier/Academic Press, Amsterdam]). 균주 B71-1 (표 7)에 대한 전구체가 이러한 방식으로 생성되었다.
여기에서 개요된 방법에 의해, 합성 (코돈-최적화) Th.23B orfA, orfB, 및 orfC 코딩 영역의 모든 조합이 동족 스키조키트리움 코딩 영역을 교체한 스키조키트리움 균주들의 셋트가 생성되었다. Th.23B 유전자를 함유하지 않는 셋트 구성원은 야생형 스키조키트리움 ATCC20888이고, 유일하게 (전장) 코돈-최적화 합성 Th.23B orfC 코딩 영역을 함유하는 셋트 구성원인 B67-5이 상기 실시예 4 및 표 1에서 기술되었다. 균주 8개의 이러한 셋트를 상기 실시예 4에 기술된 바와 같이 SSFM 배지에서의 성장 동안 지방산 생산에 대해 평가하였고, 데이터가 표 7에서 제공된다.
플라스미드 pDD26은 스키조키트리움 orfA 유전자의 상류 및 하류 영역에 완벽하게 스티치된 전장 합성 Th.23B orfA 코딩 영역을 함유한다. pDD26의 코딩 영역의 뉴클레오티드 서열이 본원에서 서열 71로 표시된다. 서열 71은 서열 39를 코딩한다. pDD26은 본원에서 앞서 기술된 바와 같이 ATCC 접속 번호 PTA-8411로 기탁되었다.
플라스미드 pDD32는 스키조키트리움 orfB 유전자의 상류 및 하류 영역에 완벽하게 스티치된 전장 합성 Th.23B orfB 코딩 영역을 함유한다. pDD32의 코딩 영역의 뉴클레오티드 서열이 본원에서 서열 72로 표시된다. 서열 72는 서열 52를 코딩한다. pDD32는 본원에서 앞서 기술된 바와 같이 ATCC 접속 번호 PTA-8412로 기탁되었다.
코돈-최적화 합성 Th.23B orf 코딩 영역 3개 모두의 단백질 생성물이 스키조키트리움에서 기능하였고, 공급원과 상관 없이 다른 PUFA 신테이즈 성분과 성공적으로 상호작용하였다. Th.23B OrfC 단백질 (균주 B67-5)은 실시예 4에서 앞서 실연된 결과인, 천연 Th.23B 균주에서의 값에 근접하는 값으로의 DHA/DPA 비율에서의 증가를 야기하였다. 이러한 현상이 Th.23B OrfC 단백질을 발현하는 모든 조합 (B67-5, B79-11, B79-1, 및 B80-20)에 대해 나타났다. 뜻밖에, 코돈-최적화 합성 Th.23B orfC + 코돈-최적화 합성 Th.23B orfA 코딩 영역의 조합 (균주 B79-1)이, 높은 DHA/DPA 비율을 유지하면서, 최고 수준의 DHA 생산에 이르렀다. 이러한 스키조키트리움 균주에서의 증가된 DHA 생산은 Th.23B OrfC에 의해 야기된 증가된 n-3/n-6 비율 및 Th.23B OrfA와 Th.23B OrfC의 상호작용에 의해 야기된 증가된 전체 PUFA 생산 양쪽 모두로 인한 것으로 보인다.
이러한 데이터는 상이한 생물들로부터의 PUFA 신테이즈 복합체의 성분들이 성공적으로 공동으로 기능할 수 있고, 공급원 생물의 특이적 특성을 새로운 숙주에 부여할 수 있다는 것을 실연한다. 또한, PUFA 신테이즈 성분들의 공급원 및 발현 수준의 조작이 표적 지방산들의 신규 프로파일, 더 높은 생산성 및 더 낮은 비용에 이를 수 있다.
본원에서 인용된 각각의 참조문헌은 전체적으로 거명에 의해 본원에 포함된다.
본 발명의 다양한 실시양태들이 상세하게 기술되었지만, 이러한 실시양태들의 변형 및 개조가 당업자에게 발생할 것이라는 것이 명백하다. 그러나, 이러한 변형 및 개조가 하기의 청구항에 기재된 바와 같은 본 발명의 범주 내에 속하는 것으로 확실하게 이해되어야 한다.
SEQUENCE LISTING
<110> Martek Biosciences Corporation
<120> CHIMERIC PUFA POLYKETIDE SYNTHASE SYSTEMS
<130> 2997-49-2-PCT
<150> 11/749,686
<151> 2007-05-16
<160> 95
<170> PatentIn version 3.4
<210> 1
<211> 8733
<212> DNA
<213> Schizochytrium sp.
<220>
<221> CDS
<222> (1)..(8733)
<400> 1
atg gcg gcc cgt ctg cag gag caa aag gga ggc gag atg gat acc cgc 48
Met Ala Ala Arg Leu Gln Glu Gln Lys Gly Gly Glu Met Asp Thr Arg
1 5 10 15
att gcc atc atc ggc atg tcg gcc atc ctc ccc tgc ggc acg acc gtg 96
Ile Ala Ile Ile Gly Met Ser Ala Ile Leu Pro Cys Gly Thr Thr Val
20 25 30
cgc gag tcg tgg gag acc atc cgc gcc ggc atc gac tgc ctg tcg gat 144
Arg Glu Ser Trp Glu Thr Ile Arg Ala Gly Ile Asp Cys Leu Ser Asp
35 40 45
ctc ccc gag gac cgc gtc gac gtg acg gcg tac ttt gac ccc gtc aag 192
Leu Pro Glu Asp Arg Val Asp Val Thr Ala Tyr Phe Asp Pro Val Lys
50 55 60
acc acc aag gac aag atc tac tgc aag cgc ggt ggc ttc att ccc gag 240
Thr Thr Lys Asp Lys Ile Tyr Cys Lys Arg Gly Gly Phe Ile Pro Glu
65 70 75 80
tac gac ttt gac gcc cgc gag ttc gga ctc aac atg ttc cag atg gag 288
Tyr Asp Phe Asp Ala Arg Glu Phe Gly Leu Asn Met Phe Gln Met Glu
85 90 95
gac tcg gac gca aac cag acc atc tcg ctt ctc aag gtc aag gag gcc 336
Asp Ser Asp Ala Asn Gln Thr Ile Ser Leu Leu Lys Val Lys Glu Ala
100 105 110
ctc cag gac gcc ggc atc gac gcc ctc ggc aag gaa aag aag aac atc 384
Leu Gln Asp Ala Gly Ile Asp Ala Leu Gly Lys Glu Lys Lys Asn Ile
115 120 125
ggc tgc gtg ctc ggc att ggc ggc ggc caa aag tcc agc cac gag ttc 432
Gly Cys Val Leu Gly Ile Gly Gly Gly Gln Lys Ser Ser His Glu Phe
130 135 140
tac tcg cgc ctt aat tat gtt gtc gtg gag aag gtc ctc cgc aag atg 480
Tyr Ser Arg Leu Asn Tyr Val Val Val Glu Lys Val Leu Arg Lys Met
145 150 155 160
ggc atg ccc gag gag gac gtc aag gtc gcc gtc gaa aag tac aag gcc 528
Gly Met Pro Glu Glu Asp Val Lys Val Ala Val Glu Lys Tyr Lys Ala
165 170 175
aac ttc ccc gag tgg cgc ctc gac tcc ttc cct ggc ttc ctc ggc aac 576
Asn Phe Pro Glu Trp Arg Leu Asp Ser Phe Pro Gly Phe Leu Gly Asn
180 185 190
gtc acc gcc ggt cgc tgc acc aac acc ttc aac ctc gac ggc atg aac 624
Val Thr Ala Gly Arg Cys Thr Asn Thr Phe Asn Leu Asp Gly Met Asn
195 200 205
tgc gtt gtc gac gcc gca tgc gcc tcg tcc ctc atc gcc gtc aag gtc 672
Cys Val Val Asp Ala Ala Cys Ala Ser Ser Leu Ile Ala Val Lys Val
210 215 220
gcc atc gac gag ctg ctc tac ggt gac tgc gac atg atg gtc acc ggt 720
Ala Ile Asp Glu Leu Leu Tyr Gly Asp Cys Asp Met Met Val Thr Gly
225 230 235 240
gcc acc tgc acg gat aac tcc atc ggc atg tac atg gcc ttc tcc aag 768
Ala Thr Cys Thr Asp Asn Ser Ile Gly Met Tyr Met Ala Phe Ser Lys
245 250 255
acc ccc gtg ttc tcc acg gac ccc agc gtg cgc gcc tac gac gaa aag 816
Thr Pro Val Phe Ser Thr Asp Pro Ser Val Arg Ala Tyr Asp Glu Lys
260 265 270
aca aag ggc atg ctc atc ggc gag ggc tcc gcc atg ctc gtc ctc aag 864
Thr Lys Gly Met Leu Ile Gly Glu Gly Ser Ala Met Leu Val Leu Lys
275 280 285
cgc tac gcc gac gcc gtc cgc gac ggc gat gag atc cac gct gtt att 912
Arg Tyr Ala Asp Ala Val Arg Asp Gly Asp Glu Ile His Ala Val Ile
290 295 300
cgc ggc tgc gcc tcc tcc agt gat ggc aag gcc gcc ggc atc tac acg 960
Arg Gly Cys Ala Ser Ser Ser Asp Gly Lys Ala Ala Gly Ile Tyr Thr
305 310 315 320
ccc acc att tcg ggc cag gag gag gcc ctc cgc cgc gcc tac aac cgc 1008
Pro Thr Ile Ser Gly Gln Glu Glu Ala Leu Arg Arg Ala Tyr Asn Arg
325 330 335
gcc tgt gtc gac ccg gcc acc gtc act ctc gtc gag ggt cac ggc acc 1056
Ala Cys Val Asp Pro Ala Thr Val Thr Leu Val Glu Gly His Gly Thr
340 345 350
ggt act ccc gtt ggc gac cgc atc gag ctc acc gcc ttg cgc aac ctc 1104
Gly Thr Pro Val Gly Asp Arg Ile Glu Leu Thr Ala Leu Arg Asn Leu
355 360 365
ttt gac aag gcc tac ggc gag ggc aac acc gaa aag gtc gct gtg ggc 1152
Phe Asp Lys Ala Tyr Gly Glu Gly Asn Thr Glu Lys Val Ala Val Gly
370 375 380
agc atc aag tcc agc atc ggc cat ctc aag gcc gtc gcc ggt ctc gcc 1200
Ser Ile Lys Ser Ser Ile Gly His Leu Lys Ala Val Ala Gly Leu Ala
385 390 395 400
ggt atg atc aag gtc atc atg gcg ctc aag cac aag act ctc ccg ggc 1248
Gly Met Ile Lys Val Ile Met Ala Leu Lys His Lys Thr Leu Pro Gly
405 410 415
acc atc aac gtc gac aac cca ccc aac ctc tac gac aac acg ccc atc 1296
Thr Ile Asn Val Asp Asn Pro Pro Asn Leu Tyr Asp Asn Thr Pro Ile
420 425 430
aac gag tcc tcg ctc tac att aac acc atg aac cgc ccc tgg ttc ccg 1344
Asn Glu Ser Ser Leu Tyr Ile Asn Thr Met Asn Arg Pro Trp Phe Pro
435 440 445
ccc cct ggt gtg ccc cgc cgc gcc ggc att tcg agc ttt ggc ttt ggt 1392
Pro Pro Gly Val Pro Arg Arg Ala Gly Ile Ser Ser Phe Gly Phe Gly
450 455 460
ggc gcc aac tac cac gcc gtc ctc gag gag gcc gag ccc gag cac acg 1440
Gly Ala Asn Tyr His Ala Val Leu Glu Glu Ala Glu Pro Glu His Thr
465 470 475 480
acc gcg tac cgc ctc aac aag cgc ccg cag ccc gtg ctc atg atg gcc 1488
Thr Ala Tyr Arg Leu Asn Lys Arg Pro Gln Pro Val Leu Met Met Ala
485 490 495
gcc acg ccc gcg gcc ctc cag tcg ctc tgc gag gcc cag ctc aag gag 1536
Ala Thr Pro Ala Ala Leu Gln Ser Leu Cys Glu Ala Gln Leu Lys Glu
500 505 510
ttc gag gcc gcc atc aag gag aac gag acc gtc aag aac acc gcc tac 1584
Phe Glu Ala Ala Ile Lys Glu Asn Glu Thr Val Lys Asn Thr Ala Tyr
515 520 525
atc aag tgc gtc aag ttc ggc gag cag ttc aaa ttc cct ggc tcc atc 1632
Ile Lys Cys Val Lys Phe Gly Glu Gln Phe Lys Phe Pro Gly Ser Ile
530 535 540
ccg gcc aca aac gcg cgc ctc ggc ttc ctc gtc aag gat gct gag gat 1680
Pro Ala Thr Asn Ala Arg Leu Gly Phe Leu Val Lys Asp Ala Glu Asp
545 550 555 560
gcc tgc tcc acc ctc cgt gcc atc tgc gcc caa ttc gcc aag gat gtc 1728
Ala Cys Ser Thr Leu Arg Ala Ile Cys Ala Gln Phe Ala Lys Asp Val
565 570 575
acc aag gag gcc tgg cgc ctc ccc cgc gag ggc gtc agc ttc cgc gcc 1776
Thr Lys Glu Ala Trp Arg Leu Pro Arg Glu Gly Val Ser Phe Arg Ala
580 585 590
aag ggc atc gcc acc aac ggc gct gtc gcc gcg ctc ttc tcc ggc cag 1824
Lys Gly Ile Ala Thr Asn Gly Ala Val Ala Ala Leu Phe Ser Gly Gln
595 600 605
ggc gcg cag tac acg cac atg ttt agc gag gtg gcc atg aac tgg ccc 1872
Gly Ala Gln Tyr Thr His Met Phe Ser Glu Val Ala Met Asn Trp Pro
610 615 620
cag ttc cgc cag agc att gcc gcc atg gac gcc gcc cag tcc aag gtc 1920
Gln Phe Arg Gln Ser Ile Ala Ala Met Asp Ala Ala Gln Ser Lys Val
625 630 635 640
gct gga agc gac aag gac ttt gag cgc gtc tcc cag gtc ctc tac ccg 1968
Ala Gly Ser Asp Lys Asp Phe Glu Arg Val Ser Gln Val Leu Tyr Pro
645 650 655
cgc aag ccg tac gag cgt gag ccc gag cag gac cac aag aag atc tcc 2016
Arg Lys Pro Tyr Glu Arg Glu Pro Glu Gln Asp His Lys Lys Ile Ser
660 665 670
ctc acc gcc tac tcg cag ccc tcg acc ctg gcc tgc gct ctc ggt gcc 2064
Leu Thr Ala Tyr Ser Gln Pro Ser Thr Leu Ala Cys Ala Leu Gly Ala
675 680 685
ttt gag atc ttc aag gag gcc ggc ttc acc ccg gac ttt gcc gcc ggc 2112
Phe Glu Ile Phe Lys Glu Ala Gly Phe Thr Pro Asp Phe Ala Ala Gly
690 695 700
cat tcg ctc ggt gag ttc gcc gcc ctc tac gcc gcg ggc tgc gtc gac 2160
His Ser Leu Gly Glu Phe Ala Ala Leu Tyr Ala Ala Gly Cys Val Asp
705 710 715 720
cgc gac gag ctc ttt gag ctt gtc tgc cgc cgc gcc cgc atc atg ggc 2208
Arg Asp Glu Leu Phe Glu Leu Val Cys Arg Arg Ala Arg Ile Met Gly
725 730 735
ggc aag gac gca ccg gcc acc ccc aag ggc tgc atg gcc gcc gtc att 2256
Gly Lys Asp Ala Pro Ala Thr Pro Lys Gly Cys Met Ala Ala Val Ile
740 745 750
ggc ccc aac gcc gag aac atc aag gtc cag gcc gcc aac gtc tgg ctc 2304
Gly Pro Asn Ala Glu Asn Ile Lys Val Gln Ala Ala Asn Val Trp Leu
755 760 765
ggc aac tcc aac tcg cct tcg cag acc gtc atc acc ggc tcc gtc gaa 2352
Gly Asn Ser Asn Ser Pro Ser Gln Thr Val Ile Thr Gly Ser Val Glu
770 775 780
ggt atc cag gcc gag agc gcc cgc ctc cag aag gag ggc ttc cgc gtc 2400
Gly Ile Gln Ala Glu Ser Ala Arg Leu Gln Lys Glu Gly Phe Arg Val
785 790 795 800
gtg cct ctt gcc tgc gag agc gcc ttc cac tcg ccc cag atg gag aac 2448
Val Pro Leu Ala Cys Glu Ser Ala Phe His Ser Pro Gln Met Glu Asn
805 810 815
gcc tcg tcg gcc ttc aag gac gtc atc tcc aag gtc tcc ttc cgc acc 2496
Ala Ser Ser Ala Phe Lys Asp Val Ile Ser Lys Val Ser Phe Arg Thr
820 825 830
ccc aag gcc gag acc aag ctc ttc agc aac gtc tct ggc gag acc tac 2544
Pro Lys Ala Glu Thr Lys Leu Phe Ser Asn Val Ser Gly Glu Thr Tyr
835 840 845
ccc acg gac gcc cgc gag atg ctt acg cag cac atg acc agc agc gtc 2592
Pro Thr Asp Ala Arg Glu Met Leu Thr Gln His Met Thr Ser Ser Val
850 855 860
aag ttc ctc acc cag gtc cgc aac atg cac cag gcc ggt gcg cgc atc 2640
Lys Phe Leu Thr Gln Val Arg Asn Met His Gln Ala Gly Ala Arg Ile
865 870 875 880
ttt gtc gag ttc gga ccc aag cag gtg ctc tcc aag ctt gtc tcc gag 2688
Phe Val Glu Phe Gly Pro Lys Gln Val Leu Ser Lys Leu Val Ser Glu
885 890 895
acc ctc aag gat gac ccc tcg gtt gtc acc gtc tct gtc aac ccg gcc 2736
Thr Leu Lys Asp Asp Pro Ser Val Val Thr Val Ser Val Asn Pro Ala
900 905 910
tcg ggc acg gat tcg gac atc cag ctc cgc gac gcg gcc gtc cag ctc 2784
Ser Gly Thr Asp Ser Asp Ile Gln Leu Arg Asp Ala Ala Val Gln Leu
915 920 925
gtt gtc gct ggc gtc aac ctt cag ggc ttt gac aag tgg gac gcc ccc 2832
Val Val Ala Gly Val Asn Leu Gln Gly Phe Asp Lys Trp Asp Ala Pro
930 935 940
gat gcc acc cgc atg cag gcc atc aag aag aag cgc act acc ctc cgc 2880
Asp Ala Thr Arg Met Gln Ala Ile Lys Lys Lys Arg Thr Thr Leu Arg
945 950 955 960
ctt tcg gcc gcc acc tac gtc tcg gac aag acc aag aag gtc cgc gac 2928
Leu Ser Ala Ala Thr Tyr Val Ser Asp Lys Thr Lys Lys Val Arg Asp
965 970 975
gcc gcc atg aac gat ggc cgc tgc gtc acc tac ctc aag ggc gcc gca 2976
Ala Ala Met Asn Asp Gly Arg Cys Val Thr Tyr Leu Lys Gly Ala Ala
980 985 990
ccg ctc atc aag gcc ccg gag ccc gtt gtc gac gag gcc gcc aag cgc 3024
Pro Leu Ile Lys Ala Pro Glu Pro Val Val Asp Glu Ala Ala Lys Arg
995 1000 1005
gag gcc gag cgt ctc cag aag gag ctt cag gat gcc cag cgc cag 3069
Glu Ala Glu Arg Leu Gln Lys Glu Leu Gln Asp Ala Gln Arg Gln
1010 1015 1020
ctc gac gac gcc aag cgc gcc gcc gcc gag gcc aac tcc aag ctc 3114
Leu Asp Asp Ala Lys Arg Ala Ala Ala Glu Ala Asn Ser Lys Leu
1025 1030 1035
gcc gct gcc aag gag gag gcc aag acc gcc gct gct tcg gcc aag 3159
Ala Ala Ala Lys Glu Glu Ala Lys Thr Ala Ala Ala Ser Ala Lys
1040 1045 1050
ccc gca gtt gac act gct gtt gtc gaa aag cat cgt gcc atc ctc 3204
Pro Ala Val Asp Thr Ala Val Val Glu Lys His Arg Ala Ile Leu
1055 1060 1065
aag tcc atg ctc gcg gag ctc gat ggc tac gga tcg gtc gac gct 3249
Lys Ser Met Leu Ala Glu Leu Asp Gly Tyr Gly Ser Val Asp Ala
1070 1075 1080
tct tcc ctc cag cag cag cag cag cag cag acg gcc ccc gcc ccg 3294
Ser Ser Leu Gln Gln Gln Gln Gln Gln Gln Thr Ala Pro Ala Pro
1085 1090 1095
gtc aag gct gct gcg cct gcc gcc ccc gtt gcc tcg gcc cct gcc 3339
Val Lys Ala Ala Ala Pro Ala Ala Pro Val Ala Ser Ala Pro Ala
1100 1105 1110
ccg gct gtc tcg aac gag ctt ctt gag aag gcc gag act gtc gtc 3384
Pro Ala Val Ser Asn Glu Leu Leu Glu Lys Ala Glu Thr Val Val
1115 1120 1125
atg gag gtc ctc gcc gcc aag acc ggc tac gag acc gac atg atc 3429
Met Glu Val Leu Ala Ala Lys Thr Gly Tyr Glu Thr Asp Met Ile
1130 1135 1140
gag gct gac atg gag ctc gag acc gag ctc ggc att gac tcc atc 3474
Glu Ala Asp Met Glu Leu Glu Thr Glu Leu Gly Ile Asp Ser Ile
1145 1150 1155
aag cgt gtc gag atc ctc tcc gag gtc cag gcc atg ctc aat gtc 3519
Lys Arg Val Glu Ile Leu Ser Glu Val Gln Ala Met Leu Asn Val
1160 1165 1170
gag gcc aag gat gtc gat gcc ctc agc cgc act cgc act gtt ggt 3564
Glu Ala Lys Asp Val Asp Ala Leu Ser Arg Thr Arg Thr Val Gly
1175 1180 1185
gag gtt gtc aac gcc atg aag gcc gag atc gct ggc agc tct gcc 3609
Glu Val Val Asn Ala Met Lys Ala Glu Ile Ala Gly Ser Ser Ala
1190 1195 1200
ccg gcg cct gct gcc gct gct ccg gct ccg gcc aag gct gcc cct 3654
Pro Ala Pro Ala Ala Ala Ala Pro Ala Pro Ala Lys Ala Ala Pro
1205 1210 1215
gcc gcc gct gcg cct gct gtc tcg aac gag ctt ctc gag aag gcc 3699
Ala Ala Ala Ala Pro Ala Val Ser Asn Glu Leu Leu Glu Lys Ala
1220 1225 1230
gag acc gtc gtc atg gag gtc ctc gcc gcc aag act ggc tac gag 3744
Glu Thr Val Val Met Glu Val Leu Ala Ala Lys Thr Gly Tyr Glu
1235 1240 1245
act gac atg atc gag tcc gac atg gag ctc gag act gag ctc ggc 3789
Thr Asp Met Ile Glu Ser Asp Met Glu Leu Glu Thr Glu Leu Gly
1250 1255 1260
att gac tcc atc aag cgt gtc gag atc ctc tcc gag gtt cag gcc 3834
Ile Asp Ser Ile Lys Arg Val Glu Ile Leu Ser Glu Val Gln Ala
1265 1270 1275
atg ctc aac gtc gag gcc aag gac gtc gac gct ctc agc cgc act 3879
Met Leu Asn Val Glu Ala Lys Asp Val Asp Ala Leu Ser Arg Thr
1280 1285 1290
cgc act gtg ggt gag gtc gtc aac gcc atg aag gct gag atc gct 3924
Arg Thr Val Gly Glu Val Val Asn Ala Met Lys Ala Glu Ile Ala
1295 1300 1305
ggt ggc tct gcc ccg gcg cct gcc gcc gct gcc cca ggt ccg gct 3969
Gly Gly Ser Ala Pro Ala Pro Ala Ala Ala Ala Pro Gly Pro Ala
1310 1315 1320
gct gcc gcc cct gcg cct gcc gcc gcc gcc cct gct gtc tcg aac 4014
Ala Ala Ala Pro Ala Pro Ala Ala Ala Ala Pro Ala Val Ser Asn
1325 1330 1335
gag ctt ctt gag aag gcc gag acc gtc gtc atg gag gtc ctc gcc 4059
Glu Leu Leu Glu Lys Ala Glu Thr Val Val Met Glu Val Leu Ala
1340 1345 1350
gcc aag act ggc tac gag act gac atg atc gag tcc gac atg gag 4104
Ala Lys Thr Gly Tyr Glu Thr Asp Met Ile Glu Ser Asp Met Glu
1355 1360 1365
ctc gag acc gag ctc ggc att gac tcc atc aag cgt gtc gag att 4149
Leu Glu Thr Glu Leu Gly Ile Asp Ser Ile Lys Arg Val Glu Ile
1370 1375 1380
ctc tcc gag gtc cag gcc atg ctc aac gtc gag gcc aag gac gtc 4194
Leu Ser Glu Val Gln Ala Met Leu Asn Val Glu Ala Lys Asp Val
1385 1390 1395
gac gct ctc agc cgc acc cgc act gtt ggc gag gtc gtc gat gcc 4239
Asp Ala Leu Ser Arg Thr Arg Thr Val Gly Glu Val Val Asp Ala
1400 1405 1410
atg aag gcc gag atc gct ggt ggc tct gcc ccg gcg cct gcc gcc 4284
Met Lys Ala Glu Ile Ala Gly Gly Ser Ala Pro Ala Pro Ala Ala
1415 1420 1425
gct gct cct gct ccg gct gct gcc gcc cct gcg cct gcc gcc cct 4329
Ala Ala Pro Ala Pro Ala Ala Ala Ala Pro Ala Pro Ala Ala Pro
1430 1435 1440
gcg cct gct gtc tcg agc gag ctt ctc gag aag gcc gag act gtc 4374
Ala Pro Ala Val Ser Ser Glu Leu Leu Glu Lys Ala Glu Thr Val
1445 1450 1455
gtc atg gag gtc ctc gcc gcc aag act ggc tac gag act gac atg 4419
Val Met Glu Val Leu Ala Ala Lys Thr Gly Tyr Glu Thr Asp Met
1460 1465 1470
atc gag tcc gac atg gag ctc gag acc gag ctc ggc att gac tcc 4464
Ile Glu Ser Asp Met Glu Leu Glu Thr Glu Leu Gly Ile Asp Ser
1475 1480 1485
atc aag cgt gtc gag att ctc tcc gag gtc cag gcc atg ctc aac 4509
Ile Lys Arg Val Glu Ile Leu Ser Glu Val Gln Ala Met Leu Asn
1490 1495 1500
gtc gag gcc aag gac gtc gac gct ctc agc cgc acc cgc act gtt 4554
Val Glu Ala Lys Asp Val Asp Ala Leu Ser Arg Thr Arg Thr Val
1505 1510 1515
ggc gag gtc gtc gat gcc atg aag gcc gag atc gct ggt ggc tct 4599
Gly Glu Val Val Asp Ala Met Lys Ala Glu Ile Ala Gly Gly Ser
1520 1525 1530
gcc ccg gcg cct gcc gcc gct gct cct gct ccg gct gct gcc gcc 4644
Ala Pro Ala Pro Ala Ala Ala Ala Pro Ala Pro Ala Ala Ala Ala
1535 1540 1545
cct gcg cct gcc gcc cct gcg cct gcc gcc cct gcg cct gct gtc 4689
Pro Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Pro Ala Val
1550 1555 1560
tcg agc gag ctt ctc gag aag gcc gag act gtc gtc atg gag gtc 4734
Ser Ser Glu Leu Leu Glu Lys Ala Glu Thr Val Val Met Glu Val
1565 1570 1575
ctc gcc gcc aag act ggc tac gag act gac atg att gag tcc gac 4779
Leu Ala Ala Lys Thr Gly Tyr Glu Thr Asp Met Ile Glu Ser Asp
1580 1585 1590
atg gag ctc gag acc gag ctc ggc att gac tcc atc aag cgt gtc 4824
Met Glu Leu Glu Thr Glu Leu Gly Ile Asp Ser Ile Lys Arg Val
1595 1600 1605
gag att ctc tcc gag gtt cag gcc atg ctc aac gtc gag gcc aag 4869
Glu Ile Leu Ser Glu Val Gln Ala Met Leu Asn Val Glu Ala Lys
1610 1615 1620
gac gtc gac gct ctc agc cgc act cgc act gtt ggt gag gtc gtc 4914
Asp Val Asp Ala Leu Ser Arg Thr Arg Thr Val Gly Glu Val Val
1625 1630 1635
gat gcc atg aag gct gag atc gct ggc agc tcc gcc tcg gcg cct 4959
Asp Ala Met Lys Ala Glu Ile Ala Gly Ser Ser Ala Ser Ala Pro
1640 1645 1650
gcc gcc gct gct cct gct ccg gct gct gcc gct cct gcg ccc gct 5004
Ala Ala Ala Ala Pro Ala Pro Ala Ala Ala Ala Pro Ala Pro Ala
1655 1660 1665
gcc gcc gcc cct gct gtc tcg aac gag ctt ctc gag aaa gcc gag 5049
Ala Ala Ala Pro Ala Val Ser Asn Glu Leu Leu Glu Lys Ala Glu
1670 1675 1680
act gtc gtc atg gag gtc ctc gcc gcc aag act ggc tac gag act 5094
Thr Val Val Met Glu Val Leu Ala Ala Lys Thr Gly Tyr Glu Thr
1685 1690 1695
gac atg atc gag tcc gac atg gag ctc gag act gag ctc ggc att 5139
Asp Met Ile Glu Ser Asp Met Glu Leu Glu Thr Glu Leu Gly Ile
1700 1705 1710
gac tcc atc aag cgt gtc gag atc ctc tcc gag gtt cag gcc atg 5184
Asp Ser Ile Lys Arg Val Glu Ile Leu Ser Glu Val Gln Ala Met
1715 1720 1725
ctc aac gtc gag gcc aag gac gtc gat gcc ctc agc cgc acc cgc 5229
Leu Asn Val Glu Ala Lys Asp Val Asp Ala Leu Ser Arg Thr Arg
1730 1735 1740
act gtt ggc gag gtt gtc gat gcc atg aag gcc gag atc gct ggt 5274
Thr Val Gly Glu Val Val Asp Ala Met Lys Ala Glu Ile Ala Gly
1745 1750 1755
ggc tct gcc ccg gcg cct gcc gcc gct gcc cct gct ccg gct gcc 5319
Gly Ser Ala Pro Ala Pro Ala Ala Ala Ala Pro Ala Pro Ala Ala
1760 1765 1770
gcc gcc cct gct gtc tcg aac gag ctt ctc gag aag gcc gag act 5364
Ala Ala Pro Ala Val Ser Asn Glu Leu Leu Glu Lys Ala Glu Thr
1775 1780 1785
gtc gtc atg gag gtc ctc gcc gcc aag act ggc tac gag acc gac 5409
Val Val Met Glu Val Leu Ala Ala Lys Thr Gly Tyr Glu Thr Asp
1790 1795 1800
atg atc gag tcc gac atg gag ctc gag acc gag ctc ggc att gac 5454
Met Ile Glu Ser Asp Met Glu Leu Glu Thr Glu Leu Gly Ile Asp
1805 1810 1815
tcc atc aag cgt gtc gag att ctc tcc gag gtt cag gcc atg ctc 5499
Ser Ile Lys Arg Val Glu Ile Leu Ser Glu Val Gln Ala Met Leu
1820 1825 1830
aac gtc gag gcc aag gac gtc gat gct ctc agc cgc act cgc act 5544
Asn Val Glu Ala Lys Asp Val Asp Ala Leu Ser Arg Thr Arg Thr
1835 1840 1845
gtt ggc gag gtc gtc gat gcc atg aag gct gag atc gcc ggc agc 5589
Val Gly Glu Val Val Asp Ala Met Lys Ala Glu Ile Ala Gly Ser
1850 1855 1860
tcc gcc ccg gcg cct gcc gcc gct gct cct gct ccg gct gct gcc 5634
Ser Ala Pro Ala Pro Ala Ala Ala Ala Pro Ala Pro Ala Ala Ala
1865 1870 1875
gct cct gcg ccc gct gcc gct gcc cct gct gtc tcg agc gag ctt 5679
Ala Pro Ala Pro Ala Ala Ala Ala Pro Ala Val Ser Ser Glu Leu
1880 1885 1890
ctc gag aag gcc gag acc gtc gtc atg gag gtc ctc gcc gcc aag 5724
Leu Glu Lys Ala Glu Thr Val Val Met Glu Val Leu Ala Ala Lys
1895 1900 1905
act ggc tac gag act gac atg att gag tcc gac atg gag ctc gag 5769
Thr Gly Tyr Glu Thr Asp Met Ile Glu Ser Asp Met Glu Leu Glu
1910 1915 1920
act gag ctc ggc att gac tcc atc aag cgt gtc gag atc ctc tcc 5814
Thr Glu Leu Gly Ile Asp Ser Ile Lys Arg Val Glu Ile Leu Ser
1925 1930 1935
gag gtt cag gcc atg ctc aac gtc gag gcc aag gac gtc gat gcc 5859
Glu Val Gln Ala Met Leu Asn Val Glu Ala Lys Asp Val Asp Ala
1940 1945 1950
ctc agc cgc acc cgc act gtt ggc gag gtt gtc gat gcc atg aag 5904
Leu Ser Arg Thr Arg Thr Val Gly Glu Val Val Asp Ala Met Lys
1955 1960 1965
gcc gag atc gct ggt ggc tct gcc ccg gcg cct gcc gcc gct gcc 5949
Ala Glu Ile Ala Gly Gly Ser Ala Pro Ala Pro Ala Ala Ala Ala
1970 1975 1980
cct gct ccg gct gcc gcc gcc cct gct gtc tcg aac gag ctt ctt 5994
Pro Ala Pro Ala Ala Ala Ala Pro Ala Val Ser Asn Glu Leu Leu
1985 1990 1995
gag aag gcc gag acc gtc gtc atg gag gtc ctc gcc gcc aag act 6039
Glu Lys Ala Glu Thr Val Val Met Glu Val Leu Ala Ala Lys Thr
2000 2005 2010
ggc tac gag acc gac atg atc gag tcc gac atg gag ctc gag acc 6084
Gly Tyr Glu Thr Asp Met Ile Glu Ser Asp Met Glu Leu Glu Thr
2015 2020 2025
gag ctc ggc att gac tcc atc aag cgt gtc gag att ctc tcc gag 6129
Glu Leu Gly Ile Asp Ser Ile Lys Arg Val Glu Ile Leu Ser Glu
2030 2035 2040
gtt cag gcc atg ctc aac gtc gag gcc aag gac gtc gac gct ctc 6174
Val Gln Ala Met Leu Asn Val Glu Ala Lys Asp Val Asp Ala Leu
2045 2050 2055
agc cgc act cgc act gtt ggc gag gtc gtc gat gcc atg aag gct 6219
Ser Arg Thr Arg Thr Val Gly Glu Val Val Asp Ala Met Lys Ala
2060 2065 2070
gag atc gct ggt ggc tct gcc ccg gcg cct gcc gcc gct gct cct 6264
Glu Ile Ala Gly Gly Ser Ala Pro Ala Pro Ala Ala Ala Ala Pro
2075 2080 2085
gcc tcg gct ggc gcc gcg cct gcg gtc aag att gac tcg gtc cac 6309
Ala Ser Ala Gly Ala Ala Pro Ala Val Lys Ile Asp Ser Val His
2090 2095 2100
ggc gct gac tgt gat gat ctt tcc ctg atg cac gcc aag gtg gtt 6354
Gly Ala Asp Cys Asp Asp Leu Ser Leu Met His Ala Lys Val Val
2105 2110 2115
gac atc cgc cgc ccg gac gag ctc atc ctg gag cgc ccc gag aac 6399
Asp Ile Arg Arg Pro Asp Glu Leu Ile Leu Glu Arg Pro Glu Asn
2120 2125 2130
cgc ccc gtt ctc gtt gtc gat gac ggc agc gag ctc acc ctc gcc 6444
Arg Pro Val Leu Val Val Asp Asp Gly Ser Glu Leu Thr Leu Ala
2135 2140 2145
ctg gtc cgc gtc ctc ggc gcc tgc gcc gtt gtc ctg acc ttt gag 6489
Leu Val Arg Val Leu Gly Ala Cys Ala Val Val Leu Thr Phe Glu
2150 2155 2160
ggt ctc cag ctc gct cag cgc gct ggt gcc gct gcc atc cgc cac 6534
Gly Leu Gln Leu Ala Gln Arg Ala Gly Ala Ala Ala Ile Arg His
2165 2170 2175
gtg ctc gcc aag gat ctt tcc gcg gag agc gcc gag aag gcc atc 6579
Val Leu Ala Lys Asp Leu Ser Ala Glu Ser Ala Glu Lys Ala Ile
2180 2185 2190
aag gag gcc gag cag cgc ttt ggc gct ctc ggc ggc ttc atc tcg 6624
Lys Glu Ala Glu Gln Arg Phe Gly Ala Leu Gly Gly Phe Ile Ser
2195 2200 2205
cag cag gcg gag cgc ttc gag ccc gcc gaa atc ctc ggc ttc acg 6669
Gln Gln Ala Glu Arg Phe Glu Pro Ala Glu Ile Leu Gly Phe Thr
2210 2215 2220
ctc atg tgc gcc aag ttc gcc aag gct tcc ctc tgc acg gct gtg 6714
Leu Met Cys Ala Lys Phe Ala Lys Ala Ser Leu Cys Thr Ala Val
2225 2230 2235
gct ggc ggc cgc ccg gcc ttt atc ggt gtg gcg cgc ctt gac ggc 6759
Ala Gly Gly Arg Pro Ala Phe Ile Gly Val Ala Arg Leu Asp Gly
2240 2245 2250
cgc ctc gga ttc act tcg cag ggc act tct gac gcg ctc aag cgt 6804
Arg Leu Gly Phe Thr Ser Gln Gly Thr Ser Asp Ala Leu Lys Arg
2255 2260 2265
gcc cag cgt ggt gcc atc ttt ggc ctc tgc aag acc atc ggc ctc 6849
Ala Gln Arg Gly Ala Ile Phe Gly Leu Cys Lys Thr Ile Gly Leu
2270 2275 2280
gag tgg tcc gag tct gac gtc ttt tcc cgc ggc gtg gac att gct 6894
Glu Trp Ser Glu Ser Asp Val Phe Ser Arg Gly Val Asp Ile Ala
2285 2290 2295
cag ggc atg cac ccc gag gat gcc gcc gtg gcg att gtg cgc gag 6939
Gln Gly Met His Pro Glu Asp Ala Ala Val Ala Ile Val Arg Glu
2300 2305 2310
atg gcg tgc gct gac att cgc att cgc gag gtc ggc att ggc gca 6984
Met Ala Cys Ala Asp Ile Arg Ile Arg Glu Val Gly Ile Gly Ala
2315 2320 2325
aac cag cag cgc tgc acg atc cgt gcc gcc aag ctc gag acc ggc 7029
Asn Gln Gln Arg Cys Thr Ile Arg Ala Ala Lys Leu Glu Thr Gly
2330 2335 2340
aac ccg cag cgc cag atc gcc aag gac gac gtg ctg ctc gtt tct 7074
Asn Pro Gln Arg Gln Ile Ala Lys Asp Asp Val Leu Leu Val Ser
2345 2350 2355
ggc ggc gct cgc ggc atc acg cct ctt tgc atc cgg gag atc acg 7119
Gly Gly Ala Arg Gly Ile Thr Pro Leu Cys Ile Arg Glu Ile Thr
2360 2365 2370
cgc cag atc gcg ggc ggc aag tac att ctg ctt ggc cgc agc aag 7164
Arg Gln Ile Ala Gly Gly Lys Tyr Ile Leu Leu Gly Arg Ser Lys
2375 2380 2385
gtc tct gcg agc gaa ccg gca tgg tgc gct ggc atc act gac gag 7209
Val Ser Ala Ser Glu Pro Ala Trp Cys Ala Gly Ile Thr Asp Glu
2390 2395 2400
aag gct gtg caa aag gct gct acc cag gag ctc aag cgc gcc ttt 7254
Lys Ala Val Gln Lys Ala Ala Thr Gln Glu Leu Lys Arg Ala Phe
2405 2410 2415
agc gct ggc gag ggc ccc aag ccc acg ccc cgc gct gtc act aag 7299
Ser Ala Gly Glu Gly Pro Lys Pro Thr Pro Arg Ala Val Thr Lys
2420 2425 2430
ctt gtg ggc tct gtt ctt ggc gct cgc gag gtg cgc agc tct att 7344
Leu Val Gly Ser Val Leu Gly Ala Arg Glu Val Arg Ser Ser Ile
2435 2440 2445
gct gcg att gaa gcg ctc ggc ggc aag gcc atc tac tcg tcg tgc 7389
Ala Ala Ile Glu Ala Leu Gly Gly Lys Ala Ile Tyr Ser Ser Cys
2450 2455 2460
gac gtg aac tct gcc gcc gac gtg gcc aag gcc gtg cgc gat gcc 7434
Asp Val Asn Ser Ala Ala Asp Val Ala Lys Ala Val Arg Asp Ala
2465 2470 2475
gag tcc cag ctc ggt gcc cgc gtc tcg ggc atc gtt cat gcc tcg 7479
Glu Ser Gln Leu Gly Ala Arg Val Ser Gly Ile Val His Ala Ser
2480 2485 2490
ggc gtg ctc cgc gac cgt ctc atc gag aag aag ctc ccc gac gag 7524
Gly Val Leu Arg Asp Arg Leu Ile Glu Lys Lys Leu Pro Asp Glu
2495 2500 2505
ttc gac gcc gtc ttt ggc acc aag gtc acc ggt ctc gag aac ctc 7569
Phe Asp Ala Val Phe Gly Thr Lys Val Thr Gly Leu Glu Asn Leu
2510 2515 2520
ctc gcc gcc gtc gac cgc gcc aac ctc aag cac atg gtc ctc ttc 7614
Leu Ala Ala Val Asp Arg Ala Asn Leu Lys His Met Val Leu Phe
2525 2530 2535
agc tcg ctc gcc ggc ttc cac ggc aac gtc ggc cag tct gac tac 7659
Ser Ser Leu Ala Gly Phe His Gly Asn Val Gly Gln Ser Asp Tyr
2540 2545 2550
gcc atg gcc aac gag gcc ctt aac aag atg ggc ctc gag ctc gcc 7704
Ala Met Ala Asn Glu Ala Leu Asn Lys Met Gly Leu Glu Leu Ala
2555 2560 2565
aag gac gtc tcg gtc aag tcg atc tgc ttc ggt ccc tgg gac ggt 7749
Lys Asp Val Ser Val Lys Ser Ile Cys Phe Gly Pro Trp Asp Gly
2570 2575 2580
ggc atg gtg acg ccg cag ctc aag aag cag ttc cag gag atg ggc 7794
Gly Met Val Thr Pro Gln Leu Lys Lys Gln Phe Gln Glu Met Gly
2585 2590 2595
gtg cag atc atc ccc cgc gag ggc ggc gct gat acc gtg gcg cgc 7839
Val Gln Ile Ile Pro Arg Glu Gly Gly Ala Asp Thr Val Ala Arg
2600 2605 2610
atc gtg ctc ggc tcc tcg ccg gct gag atc ctt gtc ggc aac tgg 7884
Ile Val Leu Gly Ser Ser Pro Ala Glu Ile Leu Val Gly Asn Trp
2615 2620 2625
cgc acc ccg tcc aag aag gtc ggc tcg gac acc atc acc ctg cac 7929
Arg Thr Pro Ser Lys Lys Val Gly Ser Asp Thr Ile Thr Leu His
2630 2635 2640
cgc aag att tcc gcc aag tcc aac ccc ttc ctc gag gac cac gtc 7974
Arg Lys Ile Ser Ala Lys Ser Asn Pro Phe Leu Glu Asp His Val
2645 2650 2655
atc cag ggc cgc cgc gtg ctg ccc atg acg ctg gcc att ggc tcg 8019
Ile Gln Gly Arg Arg Val Leu Pro Met Thr Leu Ala Ile Gly Ser
2660 2665 2670
ctc gcg gag acc tgc ctc ggc ctc ttc ccc ggc tac tcg ctc tgg 8064
Leu Ala Glu Thr Cys Leu Gly Leu Phe Pro Gly Tyr Ser Leu Trp
2675 2680 2685
gcc att gac gac gcc cag ctc ttc aag ggt gtc act gtc gac ggc 8109
Ala Ile Asp Asp Ala Gln Leu Phe Lys Gly Val Thr Val Asp Gly
2690 2695 2700
gac gtc aac tgc gag gtg acc ctc acc ccg tcg acg gcg ccc tcg 8154
Asp Val Asn Cys Glu Val Thr Leu Thr Pro Ser Thr Ala Pro Ser
2705 2710 2715
ggc cgc gtc aac gtc cag gcc acg ctc aag acc ttt tcc agc ggc 8199
Gly Arg Val Asn Val Gln Ala Thr Leu Lys Thr Phe Ser Ser Gly
2720 2725 2730
aag ctg gtc ccg gcc tac cgc gcc gtc atc gtg ctc tcc aac cag 8244
Lys Leu Val Pro Ala Tyr Arg Ala Val Ile Val Leu Ser Asn Gln
2735 2740 2745
ggc gcg ccc ccg gcc aac gcc acc atg cag ccg ccc tcg ctc gat 8289
Gly Ala Pro Pro Ala Asn Ala Thr Met Gln Pro Pro Ser Leu Asp
2750 2755 2760
gcc gat ccg gcg ctc cag ggc tcc gtc tac gac ggc aag acc ctc 8334
Ala Asp Pro Ala Leu Gln Gly Ser Val Tyr Asp Gly Lys Thr Leu
2765 2770 2775
ttc cac ggc ccg gcc ttc cgc ggc atc gat gac gtg ctc tcg tgc 8379
Phe His Gly Pro Ala Phe Arg Gly Ile Asp Asp Val Leu Ser Cys
2780 2785 2790
acc aag agc cag ctt gtg gcc aag tgc agc gct gtc ccc ggc tcc 8424
Thr Lys Ser Gln Leu Val Ala Lys Cys Ser Ala Val Pro Gly Ser
2795 2800 2805
gac gcc gct cgc ggc gag ttt gcc acg gac act gac gcc cat gac 8469
Asp Ala Ala Arg Gly Glu Phe Ala Thr Asp Thr Asp Ala His Asp
2810 2815 2820
ccc ttc gtg aac gac ctg gcc ttt cag gcc atg ctc gtc tgg gtg 8514
Pro Phe Val Asn Asp Leu Ala Phe Gln Ala Met Leu Val Trp Val
2825 2830 2835
cgc cgc acg ctc ggc cag gct gcg ctc ccc aac tcg atc cag cgc 8559
Arg Arg Thr Leu Gly Gln Ala Ala Leu Pro Asn Ser Ile Gln Arg
2840 2845 2850
atc gtc cag cac cgc ccg gtc ccg cag gac aag ccc ttc tac att 8604
Ile Val Gln His Arg Pro Val Pro Gln Asp Lys Pro Phe Tyr Ile
2855 2860 2865
acc ctc cgc tcc aac cag tcg ggc ggt cac tcc cag cac aag cac 8649
Thr Leu Arg Ser Asn Gln Ser Gly Gly His Ser Gln His Lys His
2870 2875 2880
gcc ctt cag ttc cac aac gag cag ggc gat ctc ttc att gat gtc 8694
Ala Leu Gln Phe His Asn Glu Gln Gly Asp Leu Phe Ile Asp Val
2885 2890 2895
cag gct tcg gtc atc gcc acg gac agc ctt gcc ttc taa 8733
Gln Ala Ser Val Ile Ala Thr Asp Ser Leu Ala Phe
2900 2905 2910
<210> 2
<211> 2910
<212> PRT
<213> Schizochytrium sp.
<400> 2
Met Ala Ala Arg Leu Gln Glu Gln Lys Gly Gly Glu Met Asp Thr Arg
1 5 10 15
Ile Ala Ile Ile Gly Met Ser Ala Ile Leu Pro Cys Gly Thr Thr Val
20 25 30
Arg Glu Ser Trp Glu Thr Ile Arg Ala Gly Ile Asp Cys Leu Ser Asp
35 40 45
Leu Pro Glu Asp Arg Val Asp Val Thr Ala Tyr Phe Asp Pro Val Lys
50 55 60
Thr Thr Lys Asp Lys Ile Tyr Cys Lys Arg Gly Gly Phe Ile Pro Glu
65 70 75 80
Tyr Asp Phe Asp Ala Arg Glu Phe Gly Leu Asn Met Phe Gln Met Glu
85 90 95
Asp Ser Asp Ala Asn Gln Thr Ile Ser Leu Leu Lys Val Lys Glu Ala
100 105 110
Leu Gln Asp Ala Gly Ile Asp Ala Leu Gly Lys Glu Lys Lys Asn Ile
115 120 125
Gly Cys Val Leu Gly Ile Gly Gly Gly Gln Lys Ser Ser His Glu Phe
130 135 140
Tyr Ser Arg Leu Asn Tyr Val Val Val Glu Lys Val Leu Arg Lys Met
145 150 155 160
Gly Met Pro Glu Glu Asp Val Lys Val Ala Val Glu Lys Tyr Lys Ala
165 170 175
Asn Phe Pro Glu Trp Arg Leu Asp Ser Phe Pro Gly Phe Leu Gly Asn
180 185 190
Val Thr Ala Gly Arg Cys Thr Asn Thr Phe Asn Leu Asp Gly Met Asn
195 200 205
Cys Val Val Asp Ala Ala Cys Ala Ser Ser Leu Ile Ala Val Lys Val
210 215 220
Ala Ile Asp Glu Leu Leu Tyr Gly Asp Cys Asp Met Met Val Thr Gly
225 230 235 240
Ala Thr Cys Thr Asp Asn Ser Ile Gly Met Tyr Met Ala Phe Ser Lys
245 250 255
Thr Pro Val Phe Ser Thr Asp Pro Ser Val Arg Ala Tyr Asp Glu Lys
260 265 270
Thr Lys Gly Met Leu Ile Gly Glu Gly Ser Ala Met Leu Val Leu Lys
275 280 285
Arg Tyr Ala Asp Ala Val Arg Asp Gly Asp Glu Ile His Ala Val Ile
290 295 300
Arg Gly Cys Ala Ser Ser Ser Asp Gly Lys Ala Ala Gly Ile Tyr Thr
305 310 315 320
Pro Thr Ile Ser Gly Gln Glu Glu Ala Leu Arg Arg Ala Tyr Asn Arg
325 330 335
Ala Cys Val Asp Pro Ala Thr Val Thr Leu Val Glu Gly His Gly Thr
340 345 350
Gly Thr Pro Val Gly Asp Arg Ile Glu Leu Thr Ala Leu Arg Asn Leu
355 360 365
Phe Asp Lys Ala Tyr Gly Glu Gly Asn Thr Glu Lys Val Ala Val Gly
370 375 380
Ser Ile Lys Ser Ser Ile Gly His Leu Lys Ala Val Ala Gly Leu Ala
385 390 395 400
Gly Met Ile Lys Val Ile Met Ala Leu Lys His Lys Thr Leu Pro Gly
405 410 415
Thr Ile Asn Val Asp Asn Pro Pro Asn Leu Tyr Asp Asn Thr Pro Ile
420 425 430
Asn Glu Ser Ser Leu Tyr Ile Asn Thr Met Asn Arg Pro Trp Phe Pro
435 440 445
Pro Pro Gly Val Pro Arg Arg Ala Gly Ile Ser Ser Phe Gly Phe Gly
450 455 460
Gly Ala Asn Tyr His Ala Val Leu Glu Glu Ala Glu Pro Glu His Thr
465 470 475 480
Thr Ala Tyr Arg Leu Asn Lys Arg Pro Gln Pro Val Leu Met Met Ala
485 490 495
Ala Thr Pro Ala Ala Leu Gln Ser Leu Cys Glu Ala Gln Leu Lys Glu
500 505 510
Phe Glu Ala Ala Ile Lys Glu Asn Glu Thr Val Lys Asn Thr Ala Tyr
515 520 525
Ile Lys Cys Val Lys Phe Gly Glu Gln Phe Lys Phe Pro Gly Ser Ile
530 535 540
Pro Ala Thr Asn Ala Arg Leu Gly Phe Leu Val Lys Asp Ala Glu Asp
545 550 555 560
Ala Cys Ser Thr Leu Arg Ala Ile Cys Ala Gln Phe Ala Lys Asp Val
565 570 575
Thr Lys Glu Ala Trp Arg Leu Pro Arg Glu Gly Val Ser Phe Arg Ala
580 585 590
Lys Gly Ile Ala Thr Asn Gly Ala Val Ala Ala Leu Phe Ser Gly Gln
595 600 605
Gly Ala Gln Tyr Thr His Met Phe Ser Glu Val Ala Met Asn Trp Pro
610 615 620
Gln Phe Arg Gln Ser Ile Ala Ala Met Asp Ala Ala Gln Ser Lys Val
625 630 635 640
Ala Gly Ser Asp Lys Asp Phe Glu Arg Val Ser Gln Val Leu Tyr Pro
645 650 655
Arg Lys Pro Tyr Glu Arg Glu Pro Glu Gln Asp His Lys Lys Ile Ser
660 665 670
Leu Thr Ala Tyr Ser Gln Pro Ser Thr Leu Ala Cys Ala Leu Gly Ala
675 680 685
Phe Glu Ile Phe Lys Glu Ala Gly Phe Thr Pro Asp Phe Ala Ala Gly
690 695 700
His Ser Leu Gly Glu Phe Ala Ala Leu Tyr Ala Ala Gly Cys Val Asp
705 710 715 720
Arg Asp Glu Leu Phe Glu Leu Val Cys Arg Arg Ala Arg Ile Met Gly
725 730 735
Gly Lys Asp Ala Pro Ala Thr Pro Lys Gly Cys Met Ala Ala Val Ile
740 745 750
Gly Pro Asn Ala Glu Asn Ile Lys Val Gln Ala Ala Asn Val Trp Leu
755 760 765
Gly Asn Ser Asn Ser Pro Ser Gln Thr Val Ile Thr Gly Ser Val Glu
770 775 780
Gly Ile Gln Ala Glu Ser Ala Arg Leu Gln Lys Glu Gly Phe Arg Val
785 790 795 800
Val Pro Leu Ala Cys Glu Ser Ala Phe His Ser Pro Gln Met Glu Asn
805 810 815
Ala Ser Ser Ala Phe Lys Asp Val Ile Ser Lys Val Ser Phe Arg Thr
820 825 830
Pro Lys Ala Glu Thr Lys Leu Phe Ser Asn Val Ser Gly Glu Thr Tyr
835 840 845
Pro Thr Asp Ala Arg Glu Met Leu Thr Gln His Met Thr Ser Ser Val
850 855 860
Lys Phe Leu Thr Gln Val Arg Asn Met His Gln Ala Gly Ala Arg Ile
865 870 875 880
Phe Val Glu Phe Gly Pro Lys Gln Val Leu Ser Lys Leu Val Ser Glu
885 890 895
Thr Leu Lys Asp Asp Pro Ser Val Val Thr Val Ser Val Asn Pro Ala
900 905 910
Ser Gly Thr Asp Ser Asp Ile Gln Leu Arg Asp Ala Ala Val Gln Leu
915 920 925
Val Val Ala Gly Val Asn Leu Gln Gly Phe Asp Lys Trp Asp Ala Pro
930 935 940
Asp Ala Thr Arg Met Gln Ala Ile Lys Lys Lys Arg Thr Thr Leu Arg
945 950 955 960
Leu Ser Ala Ala Thr Tyr Val Ser Asp Lys Thr Lys Lys Val Arg Asp
965 970 975
Ala Ala Met Asn Asp Gly Arg Cys Val Thr Tyr Leu Lys Gly Ala Ala
980 985 990
Pro Leu Ile Lys Ala Pro Glu Pro Val Val Asp Glu Ala Ala Lys Arg
995 1000 1005
Glu Ala Glu Arg Leu Gln Lys Glu Leu Gln Asp Ala Gln Arg Gln
1010 1015 1020
Leu Asp Asp Ala Lys Arg Ala Ala Ala Glu Ala Asn Ser Lys Leu
1025 1030 1035
Ala Ala Ala Lys Glu Glu Ala Lys Thr Ala Ala Ala Ser Ala Lys
1040 1045 1050
Pro Ala Val Asp Thr Ala Val Val Glu Lys His Arg Ala Ile Leu
1055 1060 1065
Lys Ser Met Leu Ala Glu Leu Asp Gly Tyr Gly Ser Val Asp Ala
1070 1075 1080
Ser Ser Leu Gln Gln Gln Gln Gln Gln Gln Thr Ala Pro Ala Pro
1085 1090 1095
Val Lys Ala Ala Ala Pro Ala Ala Pro Val Ala Ser Ala Pro Ala
1100 1105 1110
Pro Ala Val Ser Asn Glu Leu Leu Glu Lys Ala Glu Thr Val Val
1115 1120 1125
Met Glu Val Leu Ala Ala Lys Thr Gly Tyr Glu Thr Asp Met Ile
1130 1135 1140
Glu Ala Asp Met Glu Leu Glu Thr Glu Leu Gly Ile Asp Ser Ile
1145 1150 1155
Lys Arg Val Glu Ile Leu Ser Glu Val Gln Ala Met Leu Asn Val
1160 1165 1170
Glu Ala Lys Asp Val Asp Ala Leu Ser Arg Thr Arg Thr Val Gly
1175 1180 1185
Glu Val Val Asn Ala Met Lys Ala Glu Ile Ala Gly Ser Ser Ala
1190 1195 1200
Pro Ala Pro Ala Ala Ala Ala Pro Ala Pro Ala Lys Ala Ala Pro
1205 1210 1215
Ala Ala Ala Ala Pro Ala Val Ser Asn Glu Leu Leu Glu Lys Ala
1220 1225 1230
Glu Thr Val Val Met Glu Val Leu Ala Ala Lys Thr Gly Tyr Glu
1235 1240 1245
Thr Asp Met Ile Glu Ser Asp Met Glu Leu Glu Thr Glu Leu Gly
1250 1255 1260
Ile Asp Ser Ile Lys Arg Val Glu Ile Leu Ser Glu Val Gln Ala
1265 1270 1275
Met Leu Asn Val Glu Ala Lys Asp Val Asp Ala Leu Ser Arg Thr
1280 1285 1290
Arg Thr Val Gly Glu Val Val Asn Ala Met Lys Ala Glu Ile Ala
1295 1300 1305
Gly Gly Ser Ala Pro Ala Pro Ala Ala Ala Ala Pro Gly Pro Ala
1310 1315 1320
Ala Ala Ala Pro Ala Pro Ala Ala Ala Ala Pro Ala Val Ser Asn
1325 1330 1335
Glu Leu Leu Glu Lys Ala Glu Thr Val Val Met Glu Val Leu Ala
1340 1345 1350
Ala Lys Thr Gly Tyr Glu Thr Asp Met Ile Glu Ser Asp Met Glu
1355 1360 1365
Leu Glu Thr Glu Leu Gly Ile Asp Ser Ile Lys Arg Val Glu Ile
1370 1375 1380
Leu Ser Glu Val Gln Ala Met Leu Asn Val Glu Ala Lys Asp Val
1385 1390 1395
Asp Ala Leu Ser Arg Thr Arg Thr Val Gly Glu Val Val Asp Ala
1400 1405 1410
Met Lys Ala Glu Ile Ala Gly Gly Ser Ala Pro Ala Pro Ala Ala
1415 1420 1425
Ala Ala Pro Ala Pro Ala Ala Ala Ala Pro Ala Pro Ala Ala Pro
1430 1435 1440
Ala Pro Ala Val Ser Ser Glu Leu Leu Glu Lys Ala Glu Thr Val
1445 1450 1455
Val Met Glu Val Leu Ala Ala Lys Thr Gly Tyr Glu Thr Asp Met
1460 1465 1470
Ile Glu Ser Asp Met Glu Leu Glu Thr Glu Leu Gly Ile Asp Ser
1475 1480 1485
Ile Lys Arg Val Glu Ile Leu Ser Glu Val Gln Ala Met Leu Asn
1490 1495 1500
Val Glu Ala Lys Asp Val Asp Ala Leu Ser Arg Thr Arg Thr Val
1505 1510 1515
Gly Glu Val Val Asp Ala Met Lys Ala Glu Ile Ala Gly Gly Ser
1520 1525 1530
Ala Pro Ala Pro Ala Ala Ala Ala Pro Ala Pro Ala Ala Ala Ala
1535 1540 1545
Pro Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Pro Ala Val
1550 1555 1560
Ser Ser Glu Leu Leu Glu Lys Ala Glu Thr Val Val Met Glu Val
1565 1570 1575
Leu Ala Ala Lys Thr Gly Tyr Glu Thr Asp Met Ile Glu Ser Asp
1580 1585 1590
Met Glu Leu Glu Thr Glu Leu Gly Ile Asp Ser Ile Lys Arg Val
1595 1600 1605
Glu Ile Leu Ser Glu Val Gln Ala Met Leu Asn Val Glu Ala Lys
1610 1615 1620
Asp Val Asp Ala Leu Ser Arg Thr Arg Thr Val Gly Glu Val Val
1625 1630 1635
Asp Ala Met Lys Ala Glu Ile Ala Gly Ser Ser Ala Ser Ala Pro
1640 1645 1650
Ala Ala Ala Ala Pro Ala Pro Ala Ala Ala Ala Pro Ala Pro Ala
1655 1660 1665
Ala Ala Ala Pro Ala Val Ser Asn Glu Leu Leu Glu Lys Ala Glu
1670 1675 1680
Thr Val Val Met Glu Val Leu Ala Ala Lys Thr Gly Tyr Glu Thr
1685 1690 1695
Asp Met Ile Glu Ser Asp Met Glu Leu Glu Thr Glu Leu Gly Ile
1700 1705 1710
Asp Ser Ile Lys Arg Val Glu Ile Leu Ser Glu Val Gln Ala Met
1715 1720 1725
Leu Asn Val Glu Ala Lys Asp Val Asp Ala Leu Ser Arg Thr Arg
1730 1735 1740
Thr Val Gly Glu Val Val Asp Ala Met Lys Ala Glu Ile Ala Gly
1745 1750 1755
Gly Ser Ala Pro Ala Pro Ala Ala Ala Ala Pro Ala Pro Ala Ala
1760 1765 1770
Ala Ala Pro Ala Val Ser Asn Glu Leu Leu Glu Lys Ala Glu Thr
1775 1780 1785
Val Val Met Glu Val Leu Ala Ala Lys Thr Gly Tyr Glu Thr Asp
1790 1795 1800
Met Ile Glu Ser Asp Met Glu Leu Glu Thr Glu Leu Gly Ile Asp
1805 1810 1815
Ser Ile Lys Arg Val Glu Ile Leu Ser Glu Val Gln Ala Met Leu
1820 1825 1830
Asn Val Glu Ala Lys Asp Val Asp Ala Leu Ser Arg Thr Arg Thr
1835 1840 1845
Val Gly Glu Val Val Asp Ala Met Lys Ala Glu Ile Ala Gly Ser
1850 1855 1860
Ser Ala Pro Ala Pro Ala Ala Ala Ala Pro Ala Pro Ala Ala Ala
1865 1870 1875
Ala Pro Ala Pro Ala Ala Ala Ala Pro Ala Val Ser Ser Glu Leu
1880 1885 1890
Leu Glu Lys Ala Glu Thr Val Val Met Glu Val Leu Ala Ala Lys
1895 1900 1905
Thr Gly Tyr Glu Thr Asp Met Ile Glu Ser Asp Met Glu Leu Glu
1910 1915 1920
Thr Glu Leu Gly Ile Asp Ser Ile Lys Arg Val Glu Ile Leu Ser
1925 1930 1935
Glu Val Gln Ala Met Leu Asn Val Glu Ala Lys Asp Val Asp Ala
1940 1945 1950
Leu Ser Arg Thr Arg Thr Val Gly Glu Val Val Asp Ala Met Lys
1955 1960 1965
Ala Glu Ile Ala Gly Gly Ser Ala Pro Ala Pro Ala Ala Ala Ala
1970 1975 1980
Pro Ala Pro Ala Ala Ala Ala Pro Ala Val Ser Asn Glu Leu Leu
1985 1990 1995
Glu Lys Ala Glu Thr Val Val Met Glu Val Leu Ala Ala Lys Thr
2000 2005 2010
Gly Tyr Glu Thr Asp Met Ile Glu Ser Asp Met Glu Leu Glu Thr
2015 2020 2025
Glu Leu Gly Ile Asp Ser Ile Lys Arg Val Glu Ile Leu Ser Glu
2030 2035 2040
Val Gln Ala Met Leu Asn Val Glu Ala Lys Asp Val Asp Ala Leu
2045 2050 2055
Ser Arg Thr Arg Thr Val Gly Glu Val Val Asp Ala Met Lys Ala
2060 2065 2070
Glu Ile Ala Gly Gly Ser Ala Pro Ala Pro Ala Ala Ala Ala Pro
2075 2080 2085
Ala Ser Ala Gly Ala Ala Pro Ala Val Lys Ile Asp Ser Val His
2090 2095 2100
Gly Ala Asp Cys Asp Asp Leu Ser Leu Met His Ala Lys Val Val
2105 2110 2115
Asp Ile Arg Arg Pro Asp Glu Leu Ile Leu Glu Arg Pro Glu Asn
2120 2125 2130
Arg Pro Val Leu Val Val Asp Asp Gly Ser Glu Leu Thr Leu Ala
2135 2140 2145
Leu Val Arg Val Leu Gly Ala Cys Ala Val Val Leu Thr Phe Glu
2150 2155 2160
Gly Leu Gln Leu Ala Gln Arg Ala Gly Ala Ala Ala Ile Arg His
2165 2170 2175
Val Leu Ala Lys Asp Leu Ser Ala Glu Ser Ala Glu Lys Ala Ile
2180 2185 2190
Lys Glu Ala Glu Gln Arg Phe Gly Ala Leu Gly Gly Phe Ile Ser
2195 2200 2205
Gln Gln Ala Glu Arg Phe Glu Pro Ala Glu Ile Leu Gly Phe Thr
2210 2215 2220
Leu Met Cys Ala Lys Phe Ala Lys Ala Ser Leu Cys Thr Ala Val
2225 2230 2235
Ala Gly Gly Arg Pro Ala Phe Ile Gly Val Ala Arg Leu Asp Gly
2240 2245 2250
Arg Leu Gly Phe Thr Ser Gln Gly Thr Ser Asp Ala Leu Lys Arg
2255 2260 2265
Ala Gln Arg Gly Ala Ile Phe Gly Leu Cys Lys Thr Ile Gly Leu
2270 2275 2280
Glu Trp Ser Glu Ser Asp Val Phe Ser Arg Gly Val Asp Ile Ala
2285 2290 2295
Gln Gly Met His Pro Glu Asp Ala Ala Val Ala Ile Val Arg Glu
2300 2305 2310
Met Ala Cys Ala Asp Ile Arg Ile Arg Glu Val Gly Ile Gly Ala
2315 2320 2325
Asn Gln Gln Arg Cys Thr Ile Arg Ala Ala Lys Leu Glu Thr Gly
2330 2335 2340
Asn Pro Gln Arg Gln Ile Ala Lys Asp Asp Val Leu Leu Val Ser
2345 2350 2355
Gly Gly Ala Arg Gly Ile Thr Pro Leu Cys Ile Arg Glu Ile Thr
2360 2365 2370
Arg Gln Ile Ala Gly Gly Lys Tyr Ile Leu Leu Gly Arg Ser Lys
2375 2380 2385
Val Ser Ala Ser Glu Pro Ala Trp Cys Ala Gly Ile Thr Asp Glu
2390 2395 2400
Lys Ala Val Gln Lys Ala Ala Thr Gln Glu Leu Lys Arg Ala Phe
2405 2410 2415
Ser Ala Gly Glu Gly Pro Lys Pro Thr Pro Arg Ala Val Thr Lys
2420 2425 2430
Leu Val Gly Ser Val Leu Gly Ala Arg Glu Val Arg Ser Ser Ile
2435 2440 2445
Ala Ala Ile Glu Ala Leu Gly Gly Lys Ala Ile Tyr Ser Ser Cys
2450 2455 2460
Asp Val Asn Ser Ala Ala Asp Val Ala Lys Ala Val Arg Asp Ala
2465 2470 2475
Glu Ser Gln Leu Gly Ala Arg Val Ser Gly Ile Val His Ala Ser
2480 2485 2490
Gly Val Leu Arg Asp Arg Leu Ile Glu Lys Lys Leu Pro Asp Glu
2495 2500 2505
Phe Asp Ala Val Phe Gly Thr Lys Val Thr Gly Leu Glu Asn Leu
2510 2515 2520
Leu Ala Ala Val Asp Arg Ala Asn Leu Lys His Met Val Leu Phe
2525 2530 2535
Ser Ser Leu Ala Gly Phe His Gly Asn Val Gly Gln Ser Asp Tyr
2540 2545 2550
Ala Met Ala Asn Glu Ala Leu Asn Lys Met Gly Leu Glu Leu Ala
2555 2560 2565
Lys Asp Val Ser Val Lys Ser Ile Cys Phe Gly Pro Trp Asp Gly
2570 2575 2580
Gly Met Val Thr Pro Gln Leu Lys Lys Gln Phe Gln Glu Met Gly
2585 2590 2595
Val Gln Ile Ile Pro Arg Glu Gly Gly Ala Asp Thr Val Ala Arg
2600 2605 2610
Ile Val Leu Gly Ser Ser Pro Ala Glu Ile Leu Val Gly Asn Trp
2615 2620 2625
Arg Thr Pro Ser Lys Lys Val Gly Ser Asp Thr Ile Thr Leu His
2630 2635 2640
Arg Lys Ile Ser Ala Lys Ser Asn Pro Phe Leu Glu Asp His Val
2645 2650 2655
Ile Gln Gly Arg Arg Val Leu Pro Met Thr Leu Ala Ile Gly Ser
2660 2665 2670
Leu Ala Glu Thr Cys Leu Gly Leu Phe Pro Gly Tyr Ser Leu Trp
2675 2680 2685
Ala Ile Asp Asp Ala Gln Leu Phe Lys Gly Val Thr Val Asp Gly
2690 2695 2700
Asp Val Asn Cys Glu Val Thr Leu Thr Pro Ser Thr Ala Pro Ser
2705 2710 2715
Gly Arg Val Asn Val Gln Ala Thr Leu Lys Thr Phe Ser Ser Gly
2720 2725 2730
Lys Leu Val Pro Ala Tyr Arg Ala Val Ile Val Leu Ser Asn Gln
2735 2740 2745
Gly Ala Pro Pro Ala Asn Ala Thr Met Gln Pro Pro Ser Leu Asp
2750 2755 2760
Ala Asp Pro Ala Leu Gln Gly Ser Val Tyr Asp Gly Lys Thr Leu
2765 2770 2775
Phe His Gly Pro Ala Phe Arg Gly Ile Asp Asp Val Leu Ser Cys
2780 2785 2790
Thr Lys Ser Gln Leu Val Ala Lys Cys Ser Ala Val Pro Gly Ser
2795 2800 2805
Asp Ala Ala Arg Gly Glu Phe Ala Thr Asp Thr Asp Ala His Asp
2810 2815 2820
Pro Phe Val Asn Asp Leu Ala Phe Gln Ala Met Leu Val Trp Val
2825 2830 2835
Arg Arg Thr Leu Gly Gln Ala Ala Leu Pro Asn Ser Ile Gln Arg
2840 2845 2850
Ile Val Gln His Arg Pro Val Pro Gln Asp Lys Pro Phe Tyr Ile
2855 2860 2865
Thr Leu Arg Ser Asn Gln Ser Gly Gly His Ser Gln His Lys His
2870 2875 2880
Ala Leu Gln Phe His Asn Glu Gln Gly Asp Leu Phe Ile Asp Val
2885 2890 2895
Gln Ala Ser Val Ile Ala Thr Asp Ser Leu Ala Phe
2900 2905 2910
<210> 3
<211> 6180
<212> DNA
<213> Schizochytrium sp.
<220>
<221> CDS
<222> (1)..(6180)
<400> 3
atg gcc gct cgg aat gtg agc gcc gcg cat gag atg cac gat gaa aag 48
Met Ala Ala Arg Asn Val Ser Ala Ala His Glu Met His Asp Glu Lys
1 5 10 15
cgc atc gcc gtc gtc ggc atg gcc gtc cag tac gcc gga tgc aaa acc 96
Arg Ile Ala Val Val Gly Met Ala Val Gln Tyr Ala Gly Cys Lys Thr
20 25 30
aag gac gag ttc tgg gag gtg ctc atg aac ggc aag gtc gag tcc aag 144
Lys Asp Glu Phe Trp Glu Val Leu Met Asn Gly Lys Val Glu Ser Lys
35 40 45
gtg atc agc gac aaa cga ctc ggc tcc aac tac cgc gcc gag cac tac 192
Val Ile Ser Asp Lys Arg Leu Gly Ser Asn Tyr Arg Ala Glu His Tyr
50 55 60
aaa gca gag cgc agc aag tat gcc gac acc ttt tgc aac gaa acg tac 240
Lys Ala Glu Arg Ser Lys Tyr Ala Asp Thr Phe Cys Asn Glu Thr Tyr
65 70 75 80
ggc acc ctt gac gag aac gag atc gac aac gag cac gaa ctc ctc ctc 288
Gly Thr Leu Asp Glu Asn Glu Ile Asp Asn Glu His Glu Leu Leu Leu
85 90 95
aac ctc gcc aag cag gca ctc gca gag aca tcc gtc aaa gac tcg aca 336
Asn Leu Ala Lys Gln Ala Leu Ala Glu Thr Ser Val Lys Asp Ser Thr
100 105 110
cgc tgc ggc atc gtc agc ggc tgc ctc tcg ttc ccc atg gac aac ctc 384
Arg Cys Gly Ile Val Ser Gly Cys Leu Ser Phe Pro Met Asp Asn Leu
115 120 125
cag ggt gaa ctc ctc aac gtg tac caa aac cat gtc gag aaa aag ctc 432
Gln Gly Glu Leu Leu Asn Val Tyr Gln Asn His Val Glu Lys Lys Leu
130 135 140
ggg gcc cgc gtc ttc aag gac gcc tcc cat tgg tcc gaa cgc gag cag 480
Gly Ala Arg Val Phe Lys Asp Ala Ser His Trp Ser Glu Arg Glu Gln
145 150 155 160
tcc aac aaa ccc gag gcc ggt gac cgc cgc atc ttc atg gac ccg gcc 528
Ser Asn Lys Pro Glu Ala Gly Asp Arg Arg Ile Phe Met Asp Pro Ala
165 170 175
tcc ttc gtc gcc gaa gaa ctc aac ctc ggc gcc ctt cac tac tcc gtc 576
Ser Phe Val Ala Glu Glu Leu Asn Leu Gly Ala Leu His Tyr Ser Val
180 185 190
gac gca gca tgc gcc acg gcg ctc tac gtg ctc cgc ctc gcg cag gat 624
Asp Ala Ala Cys Ala Thr Ala Leu Tyr Val Leu Arg Leu Ala Gln Asp
195 200 205
cat ctc gtc tcc ggc gcc gcc gac gtc atg ctc tgc ggt gcc acc tgc 672
His Leu Val Ser Gly Ala Ala Asp Val Met Leu Cys Gly Ala Thr Cys
210 215 220
ctg ccg gag ccc ttt ttc atc ctt tcg ggc ttt tcc acc ttc cag gcc 720
Leu Pro Glu Pro Phe Phe Ile Leu Ser Gly Phe Ser Thr Phe Gln Ala
225 230 235 240
atg ccc gtc ggc acg ggc cag aac gtg tcc atg ccg ctg cac aag gac 768
Met Pro Val Gly Thr Gly Gln Asn Val Ser Met Pro Leu His Lys Asp
245 250 255
agc cag ggc ctc acc ccg ggt gag ggc ggc tcc atc atg gtc ctc aag 816
Ser Gln Gly Leu Thr Pro Gly Glu Gly Gly Ser Ile Met Val Leu Lys
260 265 270
cgt ctc gat gat gcc atc cgc gac ggc gac cac atc tac ggc acc ctt 864
Arg Leu Asp Asp Ala Ile Arg Asp Gly Asp His Ile Tyr Gly Thr Leu
275 280 285
ctc ggc gcc aat gtc agc aac tcc ggc aca ggt ctg ccc ctc aag ccc 912
Leu Gly Ala Asn Val Ser Asn Ser Gly Thr Gly Leu Pro Leu Lys Pro
290 295 300
ctt ctc ccc agc gag aaa aag tgc ctc atg gac acc tac acg cgc att 960
Leu Leu Pro Ser Glu Lys Lys Cys Leu Met Asp Thr Tyr Thr Arg Ile
305 310 315 320
aac gtg cac ccg cac aag att cag tac gtc gag tgc cac gcc acc ggc 1008
Asn Val His Pro His Lys Ile Gln Tyr Val Glu Cys His Ala Thr Gly
325 330 335
acg ccc cag ggt gat cgt gtg gaa atc gac gcc gtc aag gcc tgc ttt 1056
Thr Pro Gln Gly Asp Arg Val Glu Ile Asp Ala Val Lys Ala Cys Phe
340 345 350
gaa ggc aag gtc ccc cgt ttc ggt acc aca aag ggc aac ttt gga cac 1104
Glu Gly Lys Val Pro Arg Phe Gly Thr Thr Lys Gly Asn Phe Gly His
355 360 365
acc ctc gtc gca gcc ggc ttt gcc ggt atg tgc aag gtc ctc ctc tcc 1152
Thr Leu Val Ala Ala Gly Phe Ala Gly Met Cys Lys Val Leu Leu Ser
370 375 380
atg aag cat ggc atc atc ccg ccc acc ccg ggt atc gat gac gag acc 1200
Met Lys His Gly Ile Ile Pro Pro Thr Pro Gly Ile Asp Asp Glu Thr
385 390 395 400
aag atg gac cct ctc gtc gtc tcc ggt gag gcc atc cca tgg cca gag 1248
Lys Met Asp Pro Leu Val Val Ser Gly Glu Ala Ile Pro Trp Pro Glu
405 410 415
acc aac ggc gag ccc aag cgc gcc ggt ctc tcg gcc ttt ggc ttt ggt 1296
Thr Asn Gly Glu Pro Lys Arg Ala Gly Leu Ser Ala Phe Gly Phe Gly
420 425 430
ggc acc aac gcc cat gcc gtc ttt gag gag cat gac ccc tcc aac gcc 1344
Gly Thr Asn Ala His Ala Val Phe Glu Glu His Asp Pro Ser Asn Ala
435 440 445
gcc tgc acg ggc cac gac tcc att tct gcg ctc tcg gcc cgc tgc ggc 1392
Ala Cys Thr Gly His Asp Ser Ile Ser Ala Leu Ser Ala Arg Cys Gly
450 455 460
ggt gaa agc aac atg cgc atc gcc atc act ggt atg gac gcc acc ttt 1440
Gly Glu Ser Asn Met Arg Ile Ala Ile Thr Gly Met Asp Ala Thr Phe
465 470 475 480
ggc gct ctc aag gga ctc gac gcc ttc gag cgc gcc att tac acc ggc 1488
Gly Ala Leu Lys Gly Leu Asp Ala Phe Glu Arg Ala Ile Tyr Thr Gly
485 490 495
gct cac ggt gcc atc cca ctc cca gaa aag cgc tgg cgc ttt ctc ggc 1536
Ala His Gly Ala Ile Pro Leu Pro Glu Lys Arg Trp Arg Phe Leu Gly
500 505 510
aag gac aag gac ttt ctt gac ctc tgc ggc gtc aag gcc acc ccg cac 1584
Lys Asp Lys Asp Phe Leu Asp Leu Cys Gly Val Lys Ala Thr Pro His
515 520 525
ggc tgc tac att gaa gat gtt gag gtc gac ttc cag cgc ctc cgc acg 1632
Gly Cys Tyr Ile Glu Asp Val Glu Val Asp Phe Gln Arg Leu Arg Thr
530 535 540
ccc atg acc cct gaa gac atg ctc ctc cct cag cag ctt ctg gcc gtc 1680
Pro Met Thr Pro Glu Asp Met Leu Leu Pro Gln Gln Leu Leu Ala Val
545 550 555 560
acc acc att gac cgc gcc atc ctc gac tcg gga atg aaa aag ggt ggc 1728
Thr Thr Ile Asp Arg Ala Ile Leu Asp Ser Gly Met Lys Lys Gly Gly
565 570 575
aat gtc gcc gtc ttt gtc ggc ctc ggc acc gac ctc gag ctc tac cgt 1776
Asn Val Ala Val Phe Val Gly Leu Gly Thr Asp Leu Glu Leu Tyr Arg
580 585 590
cac cgt gct cgc gtc gct ctc aag gag cgc gtc cgc cct gaa gcc tcc 1824
His Arg Ala Arg Val Ala Leu Lys Glu Arg Val Arg Pro Glu Ala Ser
595 600 605
aag aag ctc aat gac atg atg cag tac att aac gac tgc ggc aca tcc 1872
Lys Lys Leu Asn Asp Met Met Gln Tyr Ile Asn Asp Cys Gly Thr Ser
610 615 620
aca tcg tac acc tcg tac att ggc aac ctc gtc gcc acg cgc gtc tcg 1920
Thr Ser Tyr Thr Ser Tyr Ile Gly Asn Leu Val Ala Thr Arg Val Ser
625 630 635 640
tcg cag tgg ggc ttc acg ggc ccc tcc ttt acg atc acc gag ggc aac 1968
Ser Gln Trp Gly Phe Thr Gly Pro Ser Phe Thr Ile Thr Glu Gly Asn
645 650 655
aac tcc gtc tac cgc tgc gcc gag ctc ggc aag tac ctc ctc gag acc 2016
Asn Ser Val Tyr Arg Cys Ala Glu Leu Gly Lys Tyr Leu Leu Glu Thr
660 665 670
ggc gag gtc gat ggc gtc gtc gtt gcg ggt gtc gat ctc tgc ggc agt 2064
Gly Glu Val Asp Gly Val Val Val Ala Gly Val Asp Leu Cys Gly Ser
675 680 685
gcc gaa aac ctt tac gtc aag tct cgc cgc ttc aag gtg tcc acc tcc 2112
Ala Glu Asn Leu Tyr Val Lys Ser Arg Arg Phe Lys Val Ser Thr Ser
690 695 700
gat acc ccg cgc gcc agc ttt gac gcc gcc gcc gat ggc tac ttt gtc 2160
Asp Thr Pro Arg Ala Ser Phe Asp Ala Ala Ala Asp Gly Tyr Phe Val
705 710 715 720
ggc gag ggc tgc ggt gcc ttt gtg ctc aag cgt gag act agc tgc acc 2208
Gly Glu Gly Cys Gly Ala Phe Val Leu Lys Arg Glu Thr Ser Cys Thr
725 730 735
aag gac gac cgt atc tac gct tgc atg gat gcc atc gtc cct ggc aac 2256
Lys Asp Asp Arg Ile Tyr Ala Cys Met Asp Ala Ile Val Pro Gly Asn
740 745 750
gtc cct agc gcc tgc ttg cgc gag gcc ctc gac cag gcg cgc gtc aag 2304
Val Pro Ser Ala Cys Leu Arg Glu Ala Leu Asp Gln Ala Arg Val Lys
755 760 765
ccg ggc gat atc gag atg ctc gag ctc agc gcc gac tcc gcc cgc cac 2352
Pro Gly Asp Ile Glu Met Leu Glu Leu Ser Ala Asp Ser Ala Arg His
770 775 780
ctc aag gac ccg tcc gtc ctg ccc aag gag ctc act gcc gag gag gaa 2400
Leu Lys Asp Pro Ser Val Leu Pro Lys Glu Leu Thr Ala Glu Glu Glu
785 790 795 800
atc ggc ggc ctt cag acg atc ctt cgt gac gat gac aag ctc ccg cgc 2448
Ile Gly Gly Leu Gln Thr Ile Leu Arg Asp Asp Asp Lys Leu Pro Arg
805 810 815
aac gtc gca acg ggc agt gtc aag gcc acc gtc ggt gac acc ggt tat 2496
Asn Val Ala Thr Gly Ser Val Lys Ala Thr Val Gly Asp Thr Gly Tyr
820 825 830
gcc tct ggt gct gcc agc ctc atc aag gct gcg ctt tgc atc tac aac 2544
Ala Ser Gly Ala Ala Ser Leu Ile Lys Ala Ala Leu Cys Ile Tyr Asn
835 840 845
cgc tac ctg ccc agc aac ggc gac gac tgg gat gaa ccc gcc cct gag 2592
Arg Tyr Leu Pro Ser Asn Gly Asp Asp Trp Asp Glu Pro Ala Pro Glu
850 855 860
gcg ccc tgg gac agc acc ctc ttt gcg tgc cag acc tcg cgc gct tgg 2640
Ala Pro Trp Asp Ser Thr Leu Phe Ala Cys Gln Thr Ser Arg Ala Trp
865 870 875 880
ctc aag aac cct ggc gag cgt cgc tat gcg gcc gtc tcg ggc gtc tcc 2688
Leu Lys Asn Pro Gly Glu Arg Arg Tyr Ala Ala Val Ser Gly Val Ser
885 890 895
gag acg cgc tcg tgc tat tcc gtg ctc ctc tcc gaa gcc gag ggc cac 2736
Glu Thr Arg Ser Cys Tyr Ser Val Leu Leu Ser Glu Ala Glu Gly His
900 905 910
tac gag cgc gag aac cgc atc tcg ctc gac gag gag gcg ccc aag ctc 2784
Tyr Glu Arg Glu Asn Arg Ile Ser Leu Asp Glu Glu Ala Pro Lys Leu
915 920 925
att gtg ctt cgc gcc gac tcc cac gag gag atc ctt ggt cgc ctc gac 2832
Ile Val Leu Arg Ala Asp Ser His Glu Glu Ile Leu Gly Arg Leu Asp
930 935 940
aag atc cgc gag cgc ttc ttg cag ccc acg ggc gcc gcc ccg cgc gag 2880
Lys Ile Arg Glu Arg Phe Leu Gln Pro Thr Gly Ala Ala Pro Arg Glu
945 950 955 960
tcc gag ctc aag gcg cag gcc cgc cgc atc ttc ctc gag ctc ctc ggc 2928
Ser Glu Leu Lys Ala Gln Ala Arg Arg Ile Phe Leu Glu Leu Leu Gly
965 970 975
gag acc ctt gcc cag gat gcc gct tct tca ggc tcg caa aag ccc ctc 2976
Glu Thr Leu Ala Gln Asp Ala Ala Ser Ser Gly Ser Gln Lys Pro Leu
980 985 990
gct ctc agc ctc gtc tcc acg ccc tcc aag ctc cag cgc gag gtc gag 3024
Ala Leu Ser Leu Val Ser Thr Pro Ser Lys Leu Gln Arg Glu Val Glu
995 1000 1005
ctc gcg gcc aag ggt atc ccg cgc tgc ctc aag atg cgc cgc gat 3069
Leu Ala Ala Lys Gly Ile Pro Arg Cys Leu Lys Met Arg Arg Asp
1010 1015 1020
tgg agc tcc cct gct ggc agc cgc tac gcg cct gag ccg ctc gcc 3114
Trp Ser Ser Pro Ala Gly Ser Arg Tyr Ala Pro Glu Pro Leu Ala
1025 1030 1035
agc gac cgc gtc gcc ttc atg tac ggc gaa ggt cgc agc cct tac 3159
Ser Asp Arg Val Ala Phe Met Tyr Gly Glu Gly Arg Ser Pro Tyr
1040 1045 1050
tac ggc atc acc caa gac att cac cgc att tgg ccc gaa ctc cac 3204
Tyr Gly Ile Thr Gln Asp Ile His Arg Ile Trp Pro Glu Leu His
1055 1060 1065
gag gtc atc aac gaa aag acg aac cgt ctc tgg gcc gaa ggc gac 3249
Glu Val Ile Asn Glu Lys Thr Asn Arg Leu Trp Ala Glu Gly Asp
1070 1075 1080
cgc tgg gtc atg ccg cgc gcc agc ttc aag tcg gag ctc gag agc 3294
Arg Trp Val Met Pro Arg Ala Ser Phe Lys Ser Glu Leu Glu Ser
1085 1090 1095
cag cag caa gag ttt gat cgc aac atg att gaa atg ttc cgt ctt 3339
Gln Gln Gln Glu Phe Asp Arg Asn Met Ile Glu Met Phe Arg Leu
1100 1105 1110
gga atc ctc acc tca att gcc ttc acc aat ctg gcg cgc gac gtt 3384
Gly Ile Leu Thr Ser Ile Ala Phe Thr Asn Leu Ala Arg Asp Val
1115 1120 1125
ctc aac atc acg ccc aag gcc gcc ttt ggc ctc agt ctt ggc gag 3429
Leu Asn Ile Thr Pro Lys Ala Ala Phe Gly Leu Ser Leu Gly Glu
1130 1135 1140
att tcc atg att ttt gcc ttt tcc aag aag aac ggt ctc atc tcc 3474
Ile Ser Met Ile Phe Ala Phe Ser Lys Lys Asn Gly Leu Ile Ser
1145 1150 1155
gac cag ctc acc aag gat ctt cgc gag tcc gac gtg tgg aac aag 3519
Asp Gln Leu Thr Lys Asp Leu Arg Glu Ser Asp Val Trp Asn Lys
1160 1165 1170
gct ctg gcc gtt gaa ttt aat gcg ctg cgc gag gcc tgg ggc att 3564
Ala Leu Ala Val Glu Phe Asn Ala Leu Arg Glu Ala Trp Gly Ile
1175 1180 1185
cca cag agt gtc ccc aag gac gag ttc tgg caa ggc tac att gtg 3609
Pro Gln Ser Val Pro Lys Asp Glu Phe Trp Gln Gly Tyr Ile Val
1190 1195 1200
cgc ggc acc aag cag gat atc gag gcg gcc atc gcc ccg gac agc 3654
Arg Gly Thr Lys Gln Asp Ile Glu Ala Ala Ile Ala Pro Asp Ser
1205 1210 1215
aag tac gtg cgc ctc acc atc atc aat gat gcc aac acc gcc ctc 3699
Lys Tyr Val Arg Leu Thr Ile Ile Asn Asp Ala Asn Thr Ala Leu
1220 1225 1230
att agc ggc aag ccc gac gcc tgc aag gct gcg atc gcg cgt ctc 3744
Ile Ser Gly Lys Pro Asp Ala Cys Lys Ala Ala Ile Ala Arg Leu
1235 1240 1245
ggt ggc aac att cct gcg ctt ccc gtg acc cag ggc atg tgc ggc 3789
Gly Gly Asn Ile Pro Ala Leu Pro Val Thr Gln Gly Met Cys Gly
1250 1255 1260
cac tgc ccc gag gtg gga cct tat acc aag gat atc gcc aag atc 3834
His Cys Pro Glu Val Gly Pro Tyr Thr Lys Asp Ile Ala Lys Ile
1265 1270 1275
cat gcc aac ctt gag ttc ccc gtt gtc gac ggc ctt gac ctc tgg 3879
His Ala Asn Leu Glu Phe Pro Val Val Asp Gly Leu Asp Leu Trp
1280 1285 1290
acc aca atc aac cag aag cgc ctc gtg cca cgc gcc acg ggc gcc 3924
Thr Thr Ile Asn Gln Lys Arg Leu Val Pro Arg Ala Thr Gly Ala
1295 1300 1305
aag gac gaa tgg gcc cct tct tcc ttt ggc gag tac gcc ggc cag 3969
Lys Asp Glu Trp Ala Pro Ser Ser Phe Gly Glu Tyr Ala Gly Gln
1310 1315 1320
ctc tac gag aag cag gct aac ttc ccc caa atc gtc gag acc att 4014
Leu Tyr Glu Lys Gln Ala Asn Phe Pro Gln Ile Val Glu Thr Ile
1325 1330 1335
tac aag caa aac tac gac gtc ttt gtc gag gtt ggg ccc aac aac 4059
Tyr Lys Gln Asn Tyr Asp Val Phe Val Glu Val Gly Pro Asn Asn
1340 1345 1350
cac cgt agc acc gca gtg cgc acc acg ctt ggt ccc cag cgc aac 4104
His Arg Ser Thr Ala Val Arg Thr Thr Leu Gly Pro Gln Arg Asn
1355 1360 1365
cac ctt gct ggc gcc atc gac aag cag aac gag gat gct tgg acg 4149
His Leu Ala Gly Ala Ile Asp Lys Gln Asn Glu Asp Ala Trp Thr
1370 1375 1380
acc atc gtc aag ctt gtg gct tcg ctc aag gcc cac ctt gtt cct 4194
Thr Ile Val Lys Leu Val Ala Ser Leu Lys Ala His Leu Val Pro
1385 1390 1395
ggc gtc acg atc tcg ccg ctg tac cac tcc aag ctt gtg gcg gag 4239
Gly Val Thr Ile Ser Pro Leu Tyr His Ser Lys Leu Val Ala Glu
1400 1405 1410
gct gag gct tgc tac gct gcg ctc tgc aag ggt gaa aag ccc aag 4284
Ala Glu Ala Cys Tyr Ala Ala Leu Cys Lys Gly Glu Lys Pro Lys
1415 1420 1425
aag aac aag ttt gtg cgc aag att cag ctc aac ggt cgc ttc aac 4329
Lys Asn Lys Phe Val Arg Lys Ile Gln Leu Asn Gly Arg Phe Asn
1430 1435 1440
agc aag gcg gac ccc atc tcc tcg gcc gat ctt gcc agc ttt ccg 4374
Ser Lys Ala Asp Pro Ile Ser Ser Ala Asp Leu Ala Ser Phe Pro
1445 1450 1455
cct gcg gac cct gcc att gaa gcc gcc atc tcg agc cgc atc atg 4419
Pro Ala Asp Pro Ala Ile Glu Ala Ala Ile Ser Ser Arg Ile Met
1460 1465 1470
aag cct gtc gct ccc aag ttc tac gcg cgt ctc aac att gac gag 4464
Lys Pro Val Ala Pro Lys Phe Tyr Ala Arg Leu Asn Ile Asp Glu
1475 1480 1485
cag gac gag acc cga gat ccg atc ctc aac aag gac aac gcg ccg 4509
Gln Asp Glu Thr Arg Asp Pro Ile Leu Asn Lys Asp Asn Ala Pro
1490 1495 1500
tct tct tct tct tct tct tct tct tct tct tct tct tct tct tct 4554
Ser Ser Ser Ser Ser Ser Ser Ser Ser Ser Ser Ser Ser Ser Ser
1505 1510 1515
ccg tcg cct gct cct tcg gcc ccc gtg caa aag aag gct gct ccc 4599
Pro Ser Pro Ala Pro Ser Ala Pro Val Gln Lys Lys Ala Ala Pro
1520 1525 1530
gcc gcg gag acc aag gct gtt gct tcg gct gac gca ctt cgc agt 4644
Ala Ala Glu Thr Lys Ala Val Ala Ser Ala Asp Ala Leu Arg Ser
1535 1540 1545
gcc ctg ctc gat ctc gac agt atg ctt gcg ctg agc tct gcc agt 4689
Ala Leu Leu Asp Leu Asp Ser Met Leu Ala Leu Ser Ser Ala Ser
1550 1555 1560
gcc tcc ggc aac ctt gtt gag act gcg cct agc gac gcc tcg gtc 4734
Ala Ser Gly Asn Leu Val Glu Thr Ala Pro Ser Asp Ala Ser Val
1565 1570 1575
att gtg ccg ccc tgc aac att gcg gat ctc ggc agc cgc gcc ttc 4779
Ile Val Pro Pro Cys Asn Ile Ala Asp Leu Gly Ser Arg Ala Phe
1580 1585 1590
atg aaa acg tac ggt gtt tcg gcg cct ctg tac acg ggc gcc atg 4824
Met Lys Thr Tyr Gly Val Ser Ala Pro Leu Tyr Thr Gly Ala Met
1595 1600 1605
gcc aag ggc att gcc tct gcg gac ctc gtc att gcc gcc ggc cgc 4869
Ala Lys Gly Ile Ala Ser Ala Asp Leu Val Ile Ala Ala Gly Arg
1610 1615 1620
cag ggc atc ctt gcg tcc ttt ggc gcc ggc gga ctt ccc atg cag 4914
Gln Gly Ile Leu Ala Ser Phe Gly Ala Gly Gly Leu Pro Met Gln
1625 1630 1635
gtt gtg cgt gag tcc atc gaa aag att cag gcc gcc ctg ccc aat 4959
Val Val Arg Glu Ser Ile Glu Lys Ile Gln Ala Ala Leu Pro Asn
1640 1645 1650
ggc ccg tac gct gtc aac ctt atc cat tct ccc ttt gac agc aac 5004
Gly Pro Tyr Ala Val Asn Leu Ile His Ser Pro Phe Asp Ser Asn
1655 1660 1665
ctc gaa aag ggc aat gtc gat ctc ttc ctc gag aag ggt gtc acc 5049
Leu Glu Lys Gly Asn Val Asp Leu Phe Leu Glu Lys Gly Val Thr
1670 1675 1680
ttt gtc gag gcc tcg gcc ttt atg acg ctc acc ccg cag gtc gtg 5094
Phe Val Glu Ala Ser Ala Phe Met Thr Leu Thr Pro Gln Val Val
1685 1690 1695
cgg tac cgc gcg gct ggc ctc acg cgc aac gcc gac ggc tcg gtc 5139
Arg Tyr Arg Ala Ala Gly Leu Thr Arg Asn Ala Asp Gly Ser Val
1700 1705 1710
aac atc cgc aac cgt atc att ggc aag gtc tcg cgc acc gag ctc 5184
Asn Ile Arg Asn Arg Ile Ile Gly Lys Val Ser Arg Thr Glu Leu
1715 1720 1725
gcc gag atg ttc atg cgt cct gcg ccc gag cac ctt ctt cag aag 5229
Ala Glu Met Phe Met Arg Pro Ala Pro Glu His Leu Leu Gln Lys
1730 1735 1740
ctc att gct tcc ggc gag atc aac cag gag cag gcc gag ctc gcc 5274
Leu Ile Ala Ser Gly Glu Ile Asn Gln Glu Gln Ala Glu Leu Ala
1745 1750 1755
cgc cgt gtt ccc gtc gct gac gac atc gcg gtc gaa gct gac tcg 5319
Arg Arg Val Pro Val Ala Asp Asp Ile Ala Val Glu Ala Asp Ser
1760 1765 1770
ggt ggc cac acc gac aac cgc ccc atc cac gtc att ctg ccc ctc 5364
Gly Gly His Thr Asp Asn Arg Pro Ile His Val Ile Leu Pro Leu
1775 1780 1785
atc atc aac ctt cgc gac cgc ctt cac cgc gag tgc ggc tac ccg 5409
Ile Ile Asn Leu Arg Asp Arg Leu His Arg Glu Cys Gly Tyr Pro
1790 1795 1800
gcc aac ctt cgc gtc cgt gtg ggc gcc ggc ggt ggc att ggg tgc 5454
Ala Asn Leu Arg Val Arg Val Gly Ala Gly Gly Gly Ile Gly Cys
1805 1810 1815
ccc cag gcg gcg ctg gcc acc ttc aac atg ggt gcc tcc ttt att 5499
Pro Gln Ala Ala Leu Ala Thr Phe Asn Met Gly Ala Ser Phe Ile
1820 1825 1830
gtc acc ggc acc gtg aac cag gtc gcc aag cag tcg ggc acg tgc 5544
Val Thr Gly Thr Val Asn Gln Val Ala Lys Gln Ser Gly Thr Cys
1835 1840 1845
gac aat gtg cgc aag cag ctc gcg aag gcc act tac tcg gac gta 5589
Asp Asn Val Arg Lys Gln Leu Ala Lys Ala Thr Tyr Ser Asp Val
1850 1855 1860
tgc atg gcc ccg gct gcc gac atg ttc gag gaa ggc gtc aag ctt 5634
Cys Met Ala Pro Ala Ala Asp Met Phe Glu Glu Gly Val Lys Leu
1865 1870 1875
cag gtc ctc aag aag gga acc atg ttt ccc tcg cgc gcc aac aag 5679
Gln Val Leu Lys Lys Gly Thr Met Phe Pro Ser Arg Ala Asn Lys
1880 1885 1890
ctc tac gag ctc ttt tgc aag tac gac tcg ttc gag tcc atg ccc 5724
Leu Tyr Glu Leu Phe Cys Lys Tyr Asp Ser Phe Glu Ser Met Pro
1895 1900 1905
ccc gca gag ctt gcg cgc gtc gag aag cgc atc ttc agc cgc gcg 5769
Pro Ala Glu Leu Ala Arg Val Glu Lys Arg Ile Phe Ser Arg Ala
1910 1915 1920
ctc gaa gag gtc tgg gac gag acc aaa aac ttt tac att aac cgt 5814
Leu Glu Glu Val Trp Asp Glu Thr Lys Asn Phe Tyr Ile Asn Arg
1925 1930 1935
ctt cac aac ccg gag aag atc cag cgc gcc gag cgc gac ccc aag 5859
Leu His Asn Pro Glu Lys Ile Gln Arg Ala Glu Arg Asp Pro Lys
1940 1945 1950
ctc aag atg tcg ctg tgc ttt cgc tgg tac ctg agc ctg gcg agc 5904
Leu Lys Met Ser Leu Cys Phe Arg Trp Tyr Leu Ser Leu Ala Ser
1955 1960 1965
cgc tgg gcc aac act gga gct tcc gat cgc gtc atg gac tac cag 5949
Arg Trp Ala Asn Thr Gly Ala Ser Asp Arg Val Met Asp Tyr Gln
1970 1975 1980
gtc tgg tgc ggt cct gcc att ggt tcc ttc aac gat ttc atc aag 5994
Val Trp Cys Gly Pro Ala Ile Gly Ser Phe Asn Asp Phe Ile Lys
1985 1990 1995
gga act tac ctt gat ccg gcc gtc gca aac gag tac ccg tgc gtc 6039
Gly Thr Tyr Leu Asp Pro Ala Val Ala Asn Glu Tyr Pro Cys Val
2000 2005 2010
gtt cag att aac aag cag atc ctt cgt gga gcg tgc ttc ttg cgc 6084
Val Gln Ile Asn Lys Gln Ile Leu Arg Gly Ala Cys Phe Leu Arg
2015 2020 2025
cgt ctc gaa att ctg cgc aac gca cgc ctt tcc gat ggc gct gcc 6129
Arg Leu Glu Ile Leu Arg Asn Ala Arg Leu Ser Asp Gly Ala Ala
2030 2035 2040
gct ctt gtg gcc agc atc gat gac aca tac gtc ccg gcc gag aag 6174
Ala Leu Val Ala Ser Ile Asp Asp Thr Tyr Val Pro Ala Glu Lys
2045 2050 2055
ctg taa 6180
Leu
<210> 4
<211> 2059
<212> PRT
<213> Schizochytrium sp.
<400> 4
Met Ala Ala Arg Asn Val Ser Ala Ala His Glu Met His Asp Glu Lys
1 5 10 15
Arg Ile Ala Val Val Gly Met Ala Val Gln Tyr Ala Gly Cys Lys Thr
20 25 30
Lys Asp Glu Phe Trp Glu Val Leu Met Asn Gly Lys Val Glu Ser Lys
35 40 45
Val Ile Ser Asp Lys Arg Leu Gly Ser Asn Tyr Arg Ala Glu His Tyr
50 55 60
Lys Ala Glu Arg Ser Lys Tyr Ala Asp Thr Phe Cys Asn Glu Thr Tyr
65 70 75 80
Gly Thr Leu Asp Glu Asn Glu Ile Asp Asn Glu His Glu Leu Leu Leu
85 90 95
Asn Leu Ala Lys Gln Ala Leu Ala Glu Thr Ser Val Lys Asp Ser Thr
100 105 110
Arg Cys Gly Ile Val Ser Gly Cys Leu Ser Phe Pro Met Asp Asn Leu
115 120 125
Gln Gly Glu Leu Leu Asn Val Tyr Gln Asn His Val Glu Lys Lys Leu
130 135 140
Gly Ala Arg Val Phe Lys Asp Ala Ser His Trp Ser Glu Arg Glu Gln
145 150 155 160
Ser Asn Lys Pro Glu Ala Gly Asp Arg Arg Ile Phe Met Asp Pro Ala
165 170 175
Ser Phe Val Ala Glu Glu Leu Asn Leu Gly Ala Leu His Tyr Ser Val
180 185 190
Asp Ala Ala Cys Ala Thr Ala Leu Tyr Val Leu Arg Leu Ala Gln Asp
195 200 205
His Leu Val Ser Gly Ala Ala Asp Val Met Leu Cys Gly Ala Thr Cys
210 215 220
Leu Pro Glu Pro Phe Phe Ile Leu Ser Gly Phe Ser Thr Phe Gln Ala
225 230 235 240
Met Pro Val Gly Thr Gly Gln Asn Val Ser Met Pro Leu His Lys Asp
245 250 255
Ser Gln Gly Leu Thr Pro Gly Glu Gly Gly Ser Ile Met Val Leu Lys
260 265 270
Arg Leu Asp Asp Ala Ile Arg Asp Gly Asp His Ile Tyr Gly Thr Leu
275 280 285
Leu Gly Ala Asn Val Ser Asn Ser Gly Thr Gly Leu Pro Leu Lys Pro
290 295 300
Leu Leu Pro Ser Glu Lys Lys Cys Leu Met Asp Thr Tyr Thr Arg Ile
305 310 315 320
Asn Val His Pro His Lys Ile Gln Tyr Val Glu Cys His Ala Thr Gly
325 330 335
Thr Pro Gln Gly Asp Arg Val Glu Ile Asp Ala Val Lys Ala Cys Phe
340 345 350
Glu Gly Lys Val Pro Arg Phe Gly Thr Thr Lys Gly Asn Phe Gly His
355 360 365
Thr Leu Val Ala Ala Gly Phe Ala Gly Met Cys Lys Val Leu Leu Ser
370 375 380
Met Lys His Gly Ile Ile Pro Pro Thr Pro Gly Ile Asp Asp Glu Thr
385 390 395 400
Lys Met Asp Pro Leu Val Val Ser Gly Glu Ala Ile Pro Trp Pro Glu
405 410 415
Thr Asn Gly Glu Pro Lys Arg Ala Gly Leu Ser Ala Phe Gly Phe Gly
420 425 430
Gly Thr Asn Ala His Ala Val Phe Glu Glu His Asp Pro Ser Asn Ala
435 440 445
Ala Cys Thr Gly His Asp Ser Ile Ser Ala Leu Ser Ala Arg Cys Gly
450 455 460
Gly Glu Ser Asn Met Arg Ile Ala Ile Thr Gly Met Asp Ala Thr Phe
465 470 475 480
Gly Ala Leu Lys Gly Leu Asp Ala Phe Glu Arg Ala Ile Tyr Thr Gly
485 490 495
Ala His Gly Ala Ile Pro Leu Pro Glu Lys Arg Trp Arg Phe Leu Gly
500 505 510
Lys Asp Lys Asp Phe Leu Asp Leu Cys Gly Val Lys Ala Thr Pro His
515 520 525
Gly Cys Tyr Ile Glu Asp Val Glu Val Asp Phe Gln Arg Leu Arg Thr
530 535 540
Pro Met Thr Pro Glu Asp Met Leu Leu Pro Gln Gln Leu Leu Ala Val
545 550 555 560
Thr Thr Ile Asp Arg Ala Ile Leu Asp Ser Gly Met Lys Lys Gly Gly
565 570 575
Asn Val Ala Val Phe Val Gly Leu Gly Thr Asp Leu Glu Leu Tyr Arg
580 585 590
His Arg Ala Arg Val Ala Leu Lys Glu Arg Val Arg Pro Glu Ala Ser
595 600 605
Lys Lys Leu Asn Asp Met Met Gln Tyr Ile Asn Asp Cys Gly Thr Ser
610 615 620
Thr Ser Tyr Thr Ser Tyr Ile Gly Asn Leu Val Ala Thr Arg Val Ser
625 630 635 640
Ser Gln Trp Gly Phe Thr Gly Pro Ser Phe Thr Ile Thr Glu Gly Asn
645 650 655
Asn Ser Val Tyr Arg Cys Ala Glu Leu Gly Lys Tyr Leu Leu Glu Thr
660 665 670
Gly Glu Val Asp Gly Val Val Val Ala Gly Val Asp Leu Cys Gly Ser
675 680 685
Ala Glu Asn Leu Tyr Val Lys Ser Arg Arg Phe Lys Val Ser Thr Ser
690 695 700
Asp Thr Pro Arg Ala Ser Phe Asp Ala Ala Ala Asp Gly Tyr Phe Val
705 710 715 720
Gly Glu Gly Cys Gly Ala Phe Val Leu Lys Arg Glu Thr Ser Cys Thr
725 730 735
Lys Asp Asp Arg Ile Tyr Ala Cys Met Asp Ala Ile Val Pro Gly Asn
740 745 750
Val Pro Ser Ala Cys Leu Arg Glu Ala Leu Asp Gln Ala Arg Val Lys
755 760 765
Pro Gly Asp Ile Glu Met Leu Glu Leu Ser Ala Asp Ser Ala Arg His
770 775 780
Leu Lys Asp Pro Ser Val Leu Pro Lys Glu Leu Thr Ala Glu Glu Glu
785 790 795 800
Ile Gly Gly Leu Gln Thr Ile Leu Arg Asp Asp Asp Lys Leu Pro Arg
805 810 815
Asn Val Ala Thr Gly Ser Val Lys Ala Thr Val Gly Asp Thr Gly Tyr
820 825 830
Ala Ser Gly Ala Ala Ser Leu Ile Lys Ala Ala Leu Cys Ile Tyr Asn
835 840 845
Arg Tyr Leu Pro Ser Asn Gly Asp Asp Trp Asp Glu Pro Ala Pro Glu
850 855 860
Ala Pro Trp Asp Ser Thr Leu Phe Ala Cys Gln Thr Ser Arg Ala Trp
865 870 875 880
Leu Lys Asn Pro Gly Glu Arg Arg Tyr Ala Ala Val Ser Gly Val Ser
885 890 895
Glu Thr Arg Ser Cys Tyr Ser Val Leu Leu Ser Glu Ala Glu Gly His
900 905 910
Tyr Glu Arg Glu Asn Arg Ile Ser Leu Asp Glu Glu Ala Pro Lys Leu
915 920 925
Ile Val Leu Arg Ala Asp Ser His Glu Glu Ile Leu Gly Arg Leu Asp
930 935 940
Lys Ile Arg Glu Arg Phe Leu Gln Pro Thr Gly Ala Ala Pro Arg Glu
945 950 955 960
Ser Glu Leu Lys Ala Gln Ala Arg Arg Ile Phe Leu Glu Leu Leu Gly
965 970 975
Glu Thr Leu Ala Gln Asp Ala Ala Ser Ser Gly Ser Gln Lys Pro Leu
980 985 990
Ala Leu Ser Leu Val Ser Thr Pro Ser Lys Leu Gln Arg Glu Val Glu
995 1000 1005
Leu Ala Ala Lys Gly Ile Pro Arg Cys Leu Lys Met Arg Arg Asp
1010 1015 1020
Trp Ser Ser Pro Ala Gly Ser Arg Tyr Ala Pro Glu Pro Leu Ala
1025 1030 1035
Ser Asp Arg Val Ala Phe Met Tyr Gly Glu Gly Arg Ser Pro Tyr
1040 1045 1050
Tyr Gly Ile Thr Gln Asp Ile His Arg Ile Trp Pro Glu Leu His
1055 1060 1065
Glu Val Ile Asn Glu Lys Thr Asn Arg Leu Trp Ala Glu Gly Asp
1070 1075 1080
Arg Trp Val Met Pro Arg Ala Ser Phe Lys Ser Glu Leu Glu Ser
1085 1090 1095
Gln Gln Gln Glu Phe Asp Arg Asn Met Ile Glu Met Phe Arg Leu
1100 1105 1110
Gly Ile Leu Thr Ser Ile Ala Phe Thr Asn Leu Ala Arg Asp Val
1115 1120 1125
Leu Asn Ile Thr Pro Lys Ala Ala Phe Gly Leu Ser Leu Gly Glu
1130 1135 1140
Ile Ser Met Ile Phe Ala Phe Ser Lys Lys Asn Gly Leu Ile Ser
1145 1150 1155
Asp Gln Leu Thr Lys Asp Leu Arg Glu Ser Asp Val Trp Asn Lys
1160 1165 1170
Ala Leu Ala Val Glu Phe Asn Ala Leu Arg Glu Ala Trp Gly Ile
1175 1180 1185
Pro Gln Ser Val Pro Lys Asp Glu Phe Trp Gln Gly Tyr Ile Val
1190 1195 1200
Arg Gly Thr Lys Gln Asp Ile Glu Ala Ala Ile Ala Pro Asp Ser
1205 1210 1215
Lys Tyr Val Arg Leu Thr Ile Ile Asn Asp Ala Asn Thr Ala Leu
1220 1225 1230
Ile Ser Gly Lys Pro Asp Ala Cys Lys Ala Ala Ile Ala Arg Leu
1235 1240 1245
Gly Gly Asn Ile Pro Ala Leu Pro Val Thr Gln Gly Met Cys Gly
1250 1255 1260
His Cys Pro Glu Val Gly Pro Tyr Thr Lys Asp Ile Ala Lys Ile
1265 1270 1275
His Ala Asn Leu Glu Phe Pro Val Val Asp Gly Leu Asp Leu Trp
1280 1285 1290
Thr Thr Ile Asn Gln Lys Arg Leu Val Pro Arg Ala Thr Gly Ala
1295 1300 1305
Lys Asp Glu Trp Ala Pro Ser Ser Phe Gly Glu Tyr Ala Gly Gln
1310 1315 1320
Leu Tyr Glu Lys Gln Ala Asn Phe Pro Gln Ile Val Glu Thr Ile
1325 1330 1335
Tyr Lys Gln Asn Tyr Asp Val Phe Val Glu Val Gly Pro Asn Asn
1340 1345 1350
His Arg Ser Thr Ala Val Arg Thr Thr Leu Gly Pro Gln Arg Asn
1355 1360 1365
His Leu Ala Gly Ala Ile Asp Lys Gln Asn Glu Asp Ala Trp Thr
1370 1375 1380
Thr Ile Val Lys Leu Val Ala Ser Leu Lys Ala His Leu Val Pro
1385 1390 1395
Gly Val Thr Ile Ser Pro Leu Tyr His Ser Lys Leu Val Ala Glu
1400 1405 1410
Ala Glu Ala Cys Tyr Ala Ala Leu Cys Lys Gly Glu Lys Pro Lys
1415 1420 1425
Lys Asn Lys Phe Val Arg Lys Ile Gln Leu Asn Gly Arg Phe Asn
1430 1435 1440
Ser Lys Ala Asp Pro Ile Ser Ser Ala Asp Leu Ala Ser Phe Pro
1445 1450 1455
Pro Ala Asp Pro Ala Ile Glu Ala Ala Ile Ser Ser Arg Ile Met
1460 1465 1470
Lys Pro Val Ala Pro Lys Phe Tyr Ala Arg Leu Asn Ile Asp Glu
1475 1480 1485
Gln Asp Glu Thr Arg Asp Pro Ile Leu Asn Lys Asp Asn Ala Pro
1490 1495 1500
Ser Ser Ser Ser Ser Ser Ser Ser Ser Ser Ser Ser Ser Ser Ser
1505 1510 1515
Pro Ser Pro Ala Pro Ser Ala Pro Val Gln Lys Lys Ala Ala Pro
1520 1525 1530
Ala Ala Glu Thr Lys Ala Val Ala Ser Ala Asp Ala Leu Arg Ser
1535 1540 1545
Ala Leu Leu Asp Leu Asp Ser Met Leu Ala Leu Ser Ser Ala Ser
1550 1555 1560
Ala Ser Gly Asn Leu Val Glu Thr Ala Pro Ser Asp Ala Ser Val
1565 1570 1575
Ile Val Pro Pro Cys Asn Ile Ala Asp Leu Gly Ser Arg Ala Phe
1580 1585 1590
Met Lys Thr Tyr Gly Val Ser Ala Pro Leu Tyr Thr Gly Ala Met
1595 1600 1605
Ala Lys Gly Ile Ala Ser Ala Asp Leu Val Ile Ala Ala Gly Arg
1610 1615 1620
Gln Gly Ile Leu Ala Ser Phe Gly Ala Gly Gly Leu Pro Met Gln
1625 1630 1635
Val Val Arg Glu Ser Ile Glu Lys Ile Gln Ala Ala Leu Pro Asn
1640 1645 1650
Gly Pro Tyr Ala Val Asn Leu Ile His Ser Pro Phe Asp Ser Asn
1655 1660 1665
Leu Glu Lys Gly Asn Val Asp Leu Phe Leu Glu Lys Gly Val Thr
1670 1675 1680
Phe Val Glu Ala Ser Ala Phe Met Thr Leu Thr Pro Gln Val Val
1685 1690 1695
Arg Tyr Arg Ala Ala Gly Leu Thr Arg Asn Ala Asp Gly Ser Val
1700 1705 1710
Asn Ile Arg Asn Arg Ile Ile Gly Lys Val Ser Arg Thr Glu Leu
1715 1720 1725
Ala Glu Met Phe Met Arg Pro Ala Pro Glu His Leu Leu Gln Lys
1730 1735 1740
Leu Ile Ala Ser Gly Glu Ile Asn Gln Glu Gln Ala Glu Leu Ala
1745 1750 1755
Arg Arg Val Pro Val Ala Asp Asp Ile Ala Val Glu Ala Asp Ser
1760 1765 1770
Gly Gly His Thr Asp Asn Arg Pro Ile His Val Ile Leu Pro Leu
1775 1780 1785
Ile Ile Asn Leu Arg Asp Arg Leu His Arg Glu Cys Gly Tyr Pro
1790 1795 1800
Ala Asn Leu Arg Val Arg Val Gly Ala Gly Gly Gly Ile Gly Cys
1805 1810 1815
Pro Gln Ala Ala Leu Ala Thr Phe Asn Met Gly Ala Ser Phe Ile
1820 1825 1830
Val Thr Gly Thr Val Asn Gln Val Ala Lys Gln Ser Gly Thr Cys
1835 1840 1845
Asp Asn Val Arg Lys Gln Leu Ala Lys Ala Thr Tyr Ser Asp Val
1850 1855 1860
Cys Met Ala Pro Ala Ala Asp Met Phe Glu Glu Gly Val Lys Leu
1865 1870 1875
Gln Val Leu Lys Lys Gly Thr Met Phe Pro Ser Arg Ala Asn Lys
1880 1885 1890
Leu Tyr Glu Leu Phe Cys Lys Tyr Asp Ser Phe Glu Ser Met Pro
1895 1900 1905
Pro Ala Glu Leu Ala Arg Val Glu Lys Arg Ile Phe Ser Arg Ala
1910 1915 1920
Leu Glu Glu Val Trp Asp Glu Thr Lys Asn Phe Tyr Ile Asn Arg
1925 1930 1935
Leu His Asn Pro Glu Lys Ile Gln Arg Ala Glu Arg Asp Pro Lys
1940 1945 1950
Leu Lys Met Ser Leu Cys Phe Arg Trp Tyr Leu Ser Leu Ala Ser
1955 1960 1965
Arg Trp Ala Asn Thr Gly Ala Ser Asp Arg Val Met Asp Tyr Gln
1970 1975 1980
Val Trp Cys Gly Pro Ala Ile Gly Ser Phe Asn Asp Phe Ile Lys
1985 1990 1995
Gly Thr Tyr Leu Asp Pro Ala Val Ala Asn Glu Tyr Pro Cys Val
2000 2005 2010
Val Gln Ile Asn Lys Gln Ile Leu Arg Gly Ala Cys Phe Leu Arg
2015 2020 2025
Arg Leu Glu Ile Leu Arg Asn Ala Arg Leu Ser Asp Gly Ala Ala
2030 2035 2040
Ala Leu Val Ala Ser Ile Asp Asp Thr Tyr Val Pro Ala Glu Lys
2045 2050 2055
Leu
<210> 5
<211> 4509
<212> DNA
<213> Schizochytrium sp.
<220>
<221> CDS
<222> (1)..(4509)
<400> 5
atg gcg ctc cgt gtc aag acg aac aag aag cca tgc tgg gag atg acc 48
Met Ala Leu Arg Val Lys Thr Asn Lys Lys Pro Cys Trp Glu Met Thr
1 5 10 15
aag gag gag ctg acc agc ggc aag acc gag gtg ttc aac tat gag gaa 96
Lys Glu Glu Leu Thr Ser Gly Lys Thr Glu Val Phe Asn Tyr Glu Glu
20 25 30
ctc ctc gag ttc gca gag ggc gac atc gcc aag gtc ttc gga ccc gag 144
Leu Leu Glu Phe Ala Glu Gly Asp Ile Ala Lys Val Phe Gly Pro Glu
35 40 45
ttc gcc gtc atc gac aag tac ccg cgc cgc gtg cgc ctg ccc gcc cgc 192
Phe Ala Val Ile Asp Lys Tyr Pro Arg Arg Val Arg Leu Pro Ala Arg
50 55 60
gag tac ctg ctc gtg acc cgc gtc acc ctc atg gac gcc gag gtc aac 240
Glu Tyr Leu Leu Val Thr Arg Val Thr Leu Met Asp Ala Glu Val Asn
65 70 75 80
aac tac cgc gtc ggc gcc cgc atg gtc acc gag tac gat ctc ccc gtc 288
Asn Tyr Arg Val Gly Ala Arg Met Val Thr Glu Tyr Asp Leu Pro Val
85 90 95
aac gga gag ctc tcc gag ggc gga gac tgc ccc tgg gcc gtc ctg gtc 336
Asn Gly Glu Leu Ser Glu Gly Gly Asp Cys Pro Trp Ala Val Leu Val
100 105 110
gag agt ggc cag tgc gat ctc atg ctc atc tcc tac atg ggc att gac 384
Glu Ser Gly Gln Cys Asp Leu Met Leu Ile Ser Tyr Met Gly Ile Asp
115 120 125
ttc cag aac cag ggc gac cgc gtc tac cgc ctg ctc aac acc acg ctc 432
Phe Gln Asn Gln Gly Asp Arg Val Tyr Arg Leu Leu Asn Thr Thr Leu
130 135 140
acc ttt tac ggc gtg gcc cac gag ggc gag acc ctc gag tac gac att 480
Thr Phe Tyr Gly Val Ala His Glu Gly Glu Thr Leu Glu Tyr Asp Ile
145 150 155 160
cgc gtc acc ggc ttc gcc aag cgt ctc gac ggc ggc atc tcc atg ttc 528
Arg Val Thr Gly Phe Ala Lys Arg Leu Asp Gly Gly Ile Ser Met Phe
165 170 175
ttc ttc gag tac gac tgc tac gtc aac ggc cgc ctc ctc atc gag atg 576
Phe Phe Glu Tyr Asp Cys Tyr Val Asn Gly Arg Leu Leu Ile Glu Met
180 185 190
cgc gat ggc tgc gcc ggc ttc ttc acc aac gag gag ctc gac gcc ggc 624
Arg Asp Gly Cys Ala Gly Phe Phe Thr Asn Glu Glu Leu Asp Ala Gly
195 200 205
aag ggc gtc gtc ttc acc cgc ggc gac ctc gcc gcc cgc gcc aag atc 672
Lys Gly Val Val Phe Thr Arg Gly Asp Leu Ala Ala Arg Ala Lys Ile
210 215 220
cca aag cag gac gtc tcc ccc tac gcc gtc gcc ccc tgc ctc cac aag 720
Pro Lys Gln Asp Val Ser Pro Tyr Ala Val Ala Pro Cys Leu His Lys
225 230 235 240
acc aag ctc aac gaa aag gag atg cag acc ctc gtc gac aag gac tgg 768
Thr Lys Leu Asn Glu Lys Glu Met Gln Thr Leu Val Asp Lys Asp Trp
245 250 255
gca tcc gtc ttt ggc tcc aag aac ggc atg ccg gaa atc aac tac aaa 816
Ala Ser Val Phe Gly Ser Lys Asn Gly Met Pro Glu Ile Asn Tyr Lys
260 265 270
ctc tgc gcg cgt aag atg ctc atg att gac cgc gtc acc agc att gac 864
Leu Cys Ala Arg Lys Met Leu Met Ile Asp Arg Val Thr Ser Ile Asp
275 280 285
cac aag ggc ggt gtc tac ggc ctc ggt cag ctc gtc ggt gaa aag atc 912
His Lys Gly Gly Val Tyr Gly Leu Gly Gln Leu Val Gly Glu Lys Ile
290 295 300
ctc gag cgc gac cac tgg tac ttt ccc tgc cac ttt gtc aag gat cag 960
Leu Glu Arg Asp His Trp Tyr Phe Pro Cys His Phe Val Lys Asp Gln
305 310 315 320
gtc atg gcc gga tcc ctc gtc tcc gac ggc tgc agc cag atg ctc aag 1008
Val Met Ala Gly Ser Leu Val Ser Asp Gly Cys Ser Gln Met Leu Lys
325 330 335
atg tac atg atc tgg ctc ggc ctc cac ctc acc acc gga ccc ttt gac 1056
Met Tyr Met Ile Trp Leu Gly Leu His Leu Thr Thr Gly Pro Phe Asp
340 345 350
ttc cgc ccg gtc aac ggc cac ccc aac aag gtc cgc tgc cgc ggc caa 1104
Phe Arg Pro Val Asn Gly His Pro Asn Lys Val Arg Cys Arg Gly Gln
355 360 365
atc tcc ccg cac aag ggc aag ctc gtc tac gtc atg gag atc aag gag 1152
Ile Ser Pro His Lys Gly Lys Leu Val Tyr Val Met Glu Ile Lys Glu
370 375 380
atg ggc ttc gac gag gac aac gac ccg tac gcc att gcc gac gtc aac 1200
Met Gly Phe Asp Glu Asp Asn Asp Pro Tyr Ala Ile Ala Asp Val Asn
385 390 395 400
atc att gat gtc gac ttc gaa aag ggc cag gac ttt agc ctc gac cgc 1248
Ile Ile Asp Val Asp Phe Glu Lys Gly Gln Asp Phe Ser Leu Asp Arg
405 410 415
atc agc gac tac ggc aag ggc gac ctc aac aag aag atc gtc gtc gac 1296
Ile Ser Asp Tyr Gly Lys Gly Asp Leu Asn Lys Lys Ile Val Val Asp
420 425 430
ttt aag ggc atc gct ctc aag atg cag aag cgc tcc acc aac aag aac 1344
Phe Lys Gly Ile Ala Leu Lys Met Gln Lys Arg Ser Thr Asn Lys Asn
435 440 445
ccc tcc aag gtt cag ccc gtc ttt gcc aac ggc gcc gcc act gtc ggc 1392
Pro Ser Lys Val Gln Pro Val Phe Ala Asn Gly Ala Ala Thr Val Gly
450 455 460
ccc gag gcc tcc aag gct tcc tcc ggc gcc agc gcc agc gcc agc gcc 1440
Pro Glu Ala Ser Lys Ala Ser Ser Gly Ala Ser Ala Ser Ala Ser Ala
465 470 475 480
gcc ccg gcc aag cct gcc ttc agc gcc gat gtt ctt gcg ccc aag ccc 1488
Ala Pro Ala Lys Pro Ala Phe Ser Ala Asp Val Leu Ala Pro Lys Pro
485 490 495
gtt gcc ctt ccc gag cac atc ctc aag ggc gac gcc ctc gcc ccc aag 1536
Val Ala Leu Pro Glu His Ile Leu Lys Gly Asp Ala Leu Ala Pro Lys
500 505 510
gag atg tcc tgg cac ccc atg gcc cgc atc ccg ggc aac ccg acg ccc 1584
Glu Met Ser Trp His Pro Met Ala Arg Ile Pro Gly Asn Pro Thr Pro
515 520 525
tct ttt gcg ccc tcg gcc tac aag ccg cgc aac atc gcc ttt acg ccc 1632
Ser Phe Ala Pro Ser Ala Tyr Lys Pro Arg Asn Ile Ala Phe Thr Pro
530 535 540
ttc ccc ggc aac ccc aac gat aac gac cac acc ccg ggc aag atg ccg 1680
Phe Pro Gly Asn Pro Asn Asp Asn Asp His Thr Pro Gly Lys Met Pro
545 550 555 560
ctc acc tgg ttc aac atg gcc gag ttc atg gcc ggc aag gtc agc atg 1728
Leu Thr Trp Phe Asn Met Ala Glu Phe Met Ala Gly Lys Val Ser Met
565 570 575
tgc ctc ggc ccc gag ttc gcc aag ttc gac gac tcg aac acc agc cgc 1776
Cys Leu Gly Pro Glu Phe Ala Lys Phe Asp Asp Ser Asn Thr Ser Arg
580 585 590
agc ccc gct tgg gac ctc gct ctc gtc acc cgc gcc gtg tct gtg tct 1824
Ser Pro Ala Trp Asp Leu Ala Leu Val Thr Arg Ala Val Ser Val Ser
595 600 605
gac ctc aag cac gtc aac tac cgc aac atc gac ctc gac ccc tcc aag 1872
Asp Leu Lys His Val Asn Tyr Arg Asn Ile Asp Leu Asp Pro Ser Lys
610 615 620
ggt acc atg gtc ggc gag ttc gac tgc ccc gcg gac gcc tgg ttc tac 1920
Gly Thr Met Val Gly Glu Phe Asp Cys Pro Ala Asp Ala Trp Phe Tyr
625 630 635 640
aag ggc gcc tgc aac gat gcc cac atg ccg tac tcg atc ctc atg gag 1968
Lys Gly Ala Cys Asn Asp Ala His Met Pro Tyr Ser Ile Leu Met Glu
645 650 655
atc gcc ctc cag acc tcg ggt gtg ctc acc tcg gtg ctc aag gcg ccc 2016
Ile Ala Leu Gln Thr Ser Gly Val Leu Thr Ser Val Leu Lys Ala Pro
660 665 670
ctg acc atg gag aag gac gac atc ctc ttc cgc aac ctc gac gcc aac 2064
Leu Thr Met Glu Lys Asp Asp Ile Leu Phe Arg Asn Leu Asp Ala Asn
675 680 685
gcc gag ttc gtg cgc gcc gac ctc gac tac cgc ggc aag act atc cgc 2112
Ala Glu Phe Val Arg Ala Asp Leu Asp Tyr Arg Gly Lys Thr Ile Arg
690 695 700
aac gtc acc aag tgc act ggc tac agc atg ctc ggc gag atg ggc gtc 2160
Asn Val Thr Lys Cys Thr Gly Tyr Ser Met Leu Gly Glu Met Gly Val
705 710 715 720
cac cgc ttc acc ttt gag ctc tac gtc gat gat gtg ctc ttt tac aag 2208
His Arg Phe Thr Phe Glu Leu Tyr Val Asp Asp Val Leu Phe Tyr Lys
725 730 735
ggc tcg acc tcg ttc ggc tgg ttc gtg ccc gag gtc ttt gcc gcc cag 2256
Gly Ser Thr Ser Phe Gly Trp Phe Val Pro Glu Val Phe Ala Ala Gln
740 745 750
gcc ggc ctc gac aac ggc cgc aag tcg gag ccc tgg ttc att gag aac 2304
Ala Gly Leu Asp Asn Gly Arg Lys Ser Glu Pro Trp Phe Ile Glu Asn
755 760 765
aag gtt ccg gcc tcg cag gtc tcc tcc ttt gac gtg cgc ccc aac ggc 2352
Lys Val Pro Ala Ser Gln Val Ser Ser Phe Asp Val Arg Pro Asn Gly
770 775 780
agc ggc cgc acc gcc atc ttc gcc aac gcc ccc agc ggc gcc cag ctc 2400
Ser Gly Arg Thr Ala Ile Phe Ala Asn Ala Pro Ser Gly Ala Gln Leu
785 790 795 800
aac cgc cgc acg gac cag ggc cag tac ctc gac gcc gtc gac att gtc 2448
Asn Arg Arg Thr Asp Gln Gly Gln Tyr Leu Asp Ala Val Asp Ile Val
805 810 815
tcc ggc agc ggc aag aag agc ctc ggc tac gcc cac ggt tcc aag acg 2496
Ser Gly Ser Gly Lys Lys Ser Leu Gly Tyr Ala His Gly Ser Lys Thr
820 825 830
gtc aac ccg aac gac tgg ttc ttc tcg tgc cac ttt tgg ttt gac tcg 2544
Val Asn Pro Asn Asp Trp Phe Phe Ser Cys His Phe Trp Phe Asp Ser
835 840 845
gtc atg ccc gga agt ctc ggt gtc gag tcc atg ttc cag ctc gtc gag 2592
Val Met Pro Gly Ser Leu Gly Val Glu Ser Met Phe Gln Leu Val Glu
850 855 860
gcc atc gcc gcc cac gag gat ctc gct ggc aag cac ggc att gcc aac 2640
Ala Ile Ala Ala His Glu Asp Leu Ala Gly Lys His Gly Ile Ala Asn
865 870 875 880
ccc acc ttt gtg cac gcc ccg ggc aag atc agc tgg aag tac cgc ggc 2688
Pro Thr Phe Val His Ala Pro Gly Lys Ile Ser Trp Lys Tyr Arg Gly
885 890 895
cag ctc acg ccc aag agc aag aag atg gac tcg gag gtc cac atc gtg 2736
Gln Leu Thr Pro Lys Ser Lys Lys Met Asp Ser Glu Val His Ile Val
900 905 910
tcc gtg gac gcc cac gac ggc gtt gtc gac ctc gtc gcc gac ggc ttc 2784
Ser Val Asp Ala His Asp Gly Val Val Asp Leu Val Ala Asp Gly Phe
915 920 925
ctc tgg gcc gac agc ctc cgc gtc tac tcg gtg agc aac att cgc gtg 2832
Leu Trp Ala Asp Ser Leu Arg Val Tyr Ser Val Ser Asn Ile Arg Val
930 935 940
cgc atc gcc tcc ggt gag gcc cct gcc gcc gcc tcc tcc gcc gcc tct 2880
Arg Ile Ala Ser Gly Glu Ala Pro Ala Ala Ala Ser Ser Ala Ala Ser
945 950 955 960
gtg ggc tcc tcg gct tcg tcc gtc gag cgc acg cgc tcg agc ccc gct 2928
Val Gly Ser Ser Ala Ser Ser Val Glu Arg Thr Arg Ser Ser Pro Ala
965 970 975
gtc gcc tcc ggc ccg gcc cag acc atc gac ctc aag cag ctc aag acc 2976
Val Ala Ser Gly Pro Ala Gln Thr Ile Asp Leu Lys Gln Leu Lys Thr
980 985 990
gag ctc ctc gag ctc gat gcc ccg ctc tac ctc tcg cag gac ccg acc 3024
Glu Leu Leu Glu Leu Asp Ala Pro Leu Tyr Leu Ser Gln Asp Pro Thr
995 1000 1005
agc ggc cag ctc aag aag cac acc gac gtg gcc tcc ggc cag gcc 3069
Ser Gly Gln Leu Lys Lys His Thr Asp Val Ala Ser Gly Gln Ala
1010 1015 1020
acc atc gtg cag ccc tgc acg ctc ggc gac ctc ggt gac cgc tcc 3114
Thr Ile Val Gln Pro Cys Thr Leu Gly Asp Leu Gly Asp Arg Ser
1025 1030 1035
ttc atg gag acc tac ggc gtc gtc gcc ccg ctg tac acg ggc gcc 3159
Phe Met Glu Thr Tyr Gly Val Val Ala Pro Leu Tyr Thr Gly Ala
1040 1045 1050
atg gcc aag ggc att gcc tcg gcg gac ctc gtc atc gcc gcc ggc 3204
Met Ala Lys Gly Ile Ala Ser Ala Asp Leu Val Ile Ala Ala Gly
1055 1060 1065
aag cgc aag atc ctc ggc tcc ttt ggc gcc ggc ggc ctc ccc atg 3249
Lys Arg Lys Ile Leu Gly Ser Phe Gly Ala Gly Gly Leu Pro Met
1070 1075 1080
cac cac gtg cgc gcc gcc ctc gag aag atc cag gcc gcc ctg cct 3294
His His Val Arg Ala Ala Leu Glu Lys Ile Gln Ala Ala Leu Pro
1085 1090 1095
cag ggc ccc tac gcc gtc aac ctc atc cac tcg cct ttt gac agc 3339
Gln Gly Pro Tyr Ala Val Asn Leu Ile His Ser Pro Phe Asp Ser
1100 1105 1110
aac ctc gag aag ggc aac gtc gat ctc ttc ctc gag aag ggc gtc 3384
Asn Leu Glu Lys Gly Asn Val Asp Leu Phe Leu Glu Lys Gly Val
1115 1120 1125
act gtg gtg gag gcc tcg gca ttc atg acc ctc acc ccg cag gtc 3429
Thr Val Val Glu Ala Ser Ala Phe Met Thr Leu Thr Pro Gln Val
1130 1135 1140
gtg cgc tac cgc gcc gcc ggc ctc tcg cgc aac gcc gac ggt tcg 3474
Val Arg Tyr Arg Ala Ala Gly Leu Ser Arg Asn Ala Asp Gly Ser
1145 1150 1155
gtc aac atc cgc aac cgc atc atc ggc aag gtc tcg cgc acc gag 3519
Val Asn Ile Arg Asn Arg Ile Ile Gly Lys Val Ser Arg Thr Glu
1160 1165 1170
ctc gcc gag atg ttc atc cgc ccg gcc ccg gag cac ctc ctc gag 3564
Leu Ala Glu Met Phe Ile Arg Pro Ala Pro Glu His Leu Leu Glu
1175 1180 1185
aag ctc atc gcc tcg ggc gag atc acc cag gag cag gcc gag ctc 3609
Lys Leu Ile Ala Ser Gly Glu Ile Thr Gln Glu Gln Ala Glu Leu
1190 1195 1200
gcg cgc cgc gtt ccc gtc gcc gac gat atc gct gtc gag gct gac 3654
Ala Arg Arg Val Pro Val Ala Asp Asp Ile Ala Val Glu Ala Asp
1205 1210 1215
tcg ggc ggc cac acc gac aac cgc ccc atc cac gtc atc ctc ccg 3699
Ser Gly Gly His Thr Asp Asn Arg Pro Ile His Val Ile Leu Pro
1220 1225 1230
ctc atc atc aac ctc cgc aac cgc ctg cac cgc gag tgc ggc tac 3744
Leu Ile Ile Asn Leu Arg Asn Arg Leu His Arg Glu Cys Gly Tyr
1235 1240 1245
ccc gcg cac ctc cgc gtc cgc gtt ggc gcc ggc ggt ggc gtc ggc 3789
Pro Ala His Leu Arg Val Arg Val Gly Ala Gly Gly Gly Val Gly
1250 1255 1260
tgc ccg cag gcc gcc gcc gcc gcg ctc acc atg ggc gcc gcc ttc 3834
Cys Pro Gln Ala Ala Ala Ala Ala Leu Thr Met Gly Ala Ala Phe
1265 1270 1275
atc gtc acc ggc act gtc aac cag gtc gcc aag cag tcc ggc acc 3879
Ile Val Thr Gly Thr Val Asn Gln Val Ala Lys Gln Ser Gly Thr
1280 1285 1290
tgc gac aac gtg cgc aag cag ctc tcg cag gcc acc tac tcg gat 3924
Cys Asp Asn Val Arg Lys Gln Leu Ser Gln Ala Thr Tyr Ser Asp
1295 1300 1305
atc tgc atg gcc ccg gcc gcc gac atg ttc gag gag ggc gtc aag 3969
Ile Cys Met Ala Pro Ala Ala Asp Met Phe Glu Glu Gly Val Lys
1310 1315 1320
ctc cag gtc ctc aag aag gga acc atg ttc ccc tcg cgc gcc aac 4014
Leu Gln Val Leu Lys Lys Gly Thr Met Phe Pro Ser Arg Ala Asn
1325 1330 1335
aag ctc tac gag ctc ttt tgc aag tac gac tcc ttc gac tcc atg 4059
Lys Leu Tyr Glu Leu Phe Cys Lys Tyr Asp Ser Phe Asp Ser Met
1340 1345 1350
cct cct gcc gag ctc gag cgc atc gag aag cgt atc ttc aag cgc 4104
Pro Pro Ala Glu Leu Glu Arg Ile Glu Lys Arg Ile Phe Lys Arg
1355 1360 1365
gca ctc cag gag gtc tgg gag gag acc aag gac ttt tac att aac 4149
Ala Leu Gln Glu Val Trp Glu Glu Thr Lys Asp Phe Tyr Ile Asn
1370 1375 1380
ggt ctc aag aac ccg gag aag atc cag cgc gcc gag cac gac ccc 4194
Gly Leu Lys Asn Pro Glu Lys Ile Gln Arg Ala Glu His Asp Pro
1385 1390 1395
aag ctc aag atg tcg ctc tgc ttc cgc tgg tac ctt ggt ctt gcc 4239
Lys Leu Lys Met Ser Leu Cys Phe Arg Trp Tyr Leu Gly Leu Ala
1400 1405 1410
agc cgc tgg gcc aac atg ggc gcc ccg gac cgc gtc atg gac tac 4284
Ser Arg Trp Ala Asn Met Gly Ala Pro Asp Arg Val Met Asp Tyr
1415 1420 1425
cag gtc tgg tgt ggc ccg gcc att ggc gcc ttc aac gac ttc atc 4329
Gln Val Trp Cys Gly Pro Ala Ile Gly Ala Phe Asn Asp Phe Ile
1430 1435 1440
aag ggc acc tac ctc gac ccc gct gtc tcc aac gag tac ccc tgt 4374
Lys Gly Thr Tyr Leu Asp Pro Ala Val Ser Asn Glu Tyr Pro Cys
1445 1450 1455
gtc gtc cag atc aac ctg caa atc ctc cgt ggt gcc tgc tac ctg 4419
Val Val Gln Ile Asn Leu Gln Ile Leu Arg Gly Ala Cys Tyr Leu
1460 1465 1470
cgc cgt ctc aac gcc ctg cgc aac gac ccg cgc att gac ctc gag 4464
Arg Arg Leu Asn Ala Leu Arg Asn Asp Pro Arg Ile Asp Leu Glu
1475 1480 1485
acc gag gat gct gcc ttt gtc tac gag ccc acc aac gcg ctc taa 4509
Thr Glu Asp Ala Ala Phe Val Tyr Glu Pro Thr Asn Ala Leu
1490 1495 1500
<210> 6
<211> 1502
<212> PRT
<213> Schizochytrium sp.
<400> 6
Met Ala Leu Arg Val Lys Thr Asn Lys Lys Pro Cys Trp Glu Met Thr
1 5 10 15
Lys Glu Glu Leu Thr Ser Gly Lys Thr Glu Val Phe Asn Tyr Glu Glu
20 25 30
Leu Leu Glu Phe Ala Glu Gly Asp Ile Ala Lys Val Phe Gly Pro Glu
35 40 45
Phe Ala Val Ile Asp Lys Tyr Pro Arg Arg Val Arg Leu Pro Ala Arg
50 55 60
Glu Tyr Leu Leu Val Thr Arg Val Thr Leu Met Asp Ala Glu Val Asn
65 70 75 80
Asn Tyr Arg Val Gly Ala Arg Met Val Thr Glu Tyr Asp Leu Pro Val
85 90 95
Asn Gly Glu Leu Ser Glu Gly Gly Asp Cys Pro Trp Ala Val Leu Val
100 105 110
Glu Ser Gly Gln Cys Asp Leu Met Leu Ile Ser Tyr Met Gly Ile Asp
115 120 125
Phe Gln Asn Gln Gly Asp Arg Val Tyr Arg Leu Leu Asn Thr Thr Leu
130 135 140
Thr Phe Tyr Gly Val Ala His Glu Gly Glu Thr Leu Glu Tyr Asp Ile
145 150 155 160
Arg Val Thr Gly Phe Ala Lys Arg Leu Asp Gly Gly Ile Ser Met Phe
165 170 175
Phe Phe Glu Tyr Asp Cys Tyr Val Asn Gly Arg Leu Leu Ile Glu Met
180 185 190
Arg Asp Gly Cys Ala Gly Phe Phe Thr Asn Glu Glu Leu Asp Ala Gly
195 200 205
Lys Gly Val Val Phe Thr Arg Gly Asp Leu Ala Ala Arg Ala Lys Ile
210 215 220
Pro Lys Gln Asp Val Ser Pro Tyr Ala Val Ala Pro Cys Leu His Lys
225 230 235 240
Thr Lys Leu Asn Glu Lys Glu Met Gln Thr Leu Val Asp Lys Asp Trp
245 250 255
Ala Ser Val Phe Gly Ser Lys Asn Gly Met Pro Glu Ile Asn Tyr Lys
260 265 270
Leu Cys Ala Arg Lys Met Leu Met Ile Asp Arg Val Thr Ser Ile Asp
275 280 285
His Lys Gly Gly Val Tyr Gly Leu Gly Gln Leu Val Gly Glu Lys Ile
290 295 300
Leu Glu Arg Asp His Trp Tyr Phe Pro Cys His Phe Val Lys Asp Gln
305 310 315 320
Val Met Ala Gly Ser Leu Val Ser Asp Gly Cys Ser Gln Met Leu Lys
325 330 335
Met Tyr Met Ile Trp Leu Gly Leu His Leu Thr Thr Gly Pro Phe Asp
340 345 350
Phe Arg Pro Val Asn Gly His Pro Asn Lys Val Arg Cys Arg Gly Gln
355 360 365
Ile Ser Pro His Lys Gly Lys Leu Val Tyr Val Met Glu Ile Lys Glu
370 375 380
Met Gly Phe Asp Glu Asp Asn Asp Pro Tyr Ala Ile Ala Asp Val Asn
385 390 395 400
Ile Ile Asp Val Asp Phe Glu Lys Gly Gln Asp Phe Ser Leu Asp Arg
405 410 415
Ile Ser Asp Tyr Gly Lys Gly Asp Leu Asn Lys Lys Ile Val Val Asp
420 425 430
Phe Lys Gly Ile Ala Leu Lys Met Gln Lys Arg Ser Thr Asn Lys Asn
435 440 445
Pro Ser Lys Val Gln Pro Val Phe Ala Asn Gly Ala Ala Thr Val Gly
450 455 460
Pro Glu Ala Ser Lys Ala Ser Ser Gly Ala Ser Ala Ser Ala Ser Ala
465 470 475 480
Ala Pro Ala Lys Pro Ala Phe Ser Ala Asp Val Leu Ala Pro Lys Pro
485 490 495
Val Ala Leu Pro Glu His Ile Leu Lys Gly Asp Ala Leu Ala Pro Lys
500 505 510
Glu Met Ser Trp His Pro Met Ala Arg Ile Pro Gly Asn Pro Thr Pro
515 520 525
Ser Phe Ala Pro Ser Ala Tyr Lys Pro Arg Asn Ile Ala Phe Thr Pro
530 535 540
Phe Pro Gly Asn Pro Asn Asp Asn Asp His Thr Pro Gly Lys Met Pro
545 550 555 560
Leu Thr Trp Phe Asn Met Ala Glu Phe Met Ala Gly Lys Val Ser Met
565 570 575
Cys Leu Gly Pro Glu Phe Ala Lys Phe Asp Asp Ser Asn Thr Ser Arg
580 585 590
Ser Pro Ala Trp Asp Leu Ala Leu Val Thr Arg Ala Val Ser Val Ser
595 600 605
Asp Leu Lys His Val Asn Tyr Arg Asn Ile Asp Leu Asp Pro Ser Lys
610 615 620
Gly Thr Met Val Gly Glu Phe Asp Cys Pro Ala Asp Ala Trp Phe Tyr
625 630 635 640
Lys Gly Ala Cys Asn Asp Ala His Met Pro Tyr Ser Ile Leu Met Glu
645 650 655
Ile Ala Leu Gln Thr Ser Gly Val Leu Thr Ser Val Leu Lys Ala Pro
660 665 670
Leu Thr Met Glu Lys Asp Asp Ile Leu Phe Arg Asn Leu Asp Ala Asn
675 680 685
Ala Glu Phe Val Arg Ala Asp Leu Asp Tyr Arg Gly Lys Thr Ile Arg
690 695 700
Asn Val Thr Lys Cys Thr Gly Tyr Ser Met Leu Gly Glu Met Gly Val
705 710 715 720
His Arg Phe Thr Phe Glu Leu Tyr Val Asp Asp Val Leu Phe Tyr Lys
725 730 735
Gly Ser Thr Ser Phe Gly Trp Phe Val Pro Glu Val Phe Ala Ala Gln
740 745 750
Ala Gly Leu Asp Asn Gly Arg Lys Ser Glu Pro Trp Phe Ile Glu Asn
755 760 765
Lys Val Pro Ala Ser Gln Val Ser Ser Phe Asp Val Arg Pro Asn Gly
770 775 780
Ser Gly Arg Thr Ala Ile Phe Ala Asn Ala Pro Ser Gly Ala Gln Leu
785 790 795 800
Asn Arg Arg Thr Asp Gln Gly Gln Tyr Leu Asp Ala Val Asp Ile Val
805 810 815
Ser Gly Ser Gly Lys Lys Ser Leu Gly Tyr Ala His Gly Ser Lys Thr
820 825 830
Val Asn Pro Asn Asp Trp Phe Phe Ser Cys His Phe Trp Phe Asp Ser
835 840 845
Val Met Pro Gly Ser Leu Gly Val Glu Ser Met Phe Gln Leu Val Glu
850 855 860
Ala Ile Ala Ala His Glu Asp Leu Ala Gly Lys His Gly Ile Ala Asn
865 870 875 880
Pro Thr Phe Val His Ala Pro Gly Lys Ile Ser Trp Lys Tyr Arg Gly
885 890 895
Gln Leu Thr Pro Lys Ser Lys Lys Met Asp Ser Glu Val His Ile Val
900 905 910
Ser Val Asp Ala His Asp Gly Val Val Asp Leu Val Ala Asp Gly Phe
915 920 925
Leu Trp Ala Asp Ser Leu Arg Val Tyr Ser Val Ser Asn Ile Arg Val
930 935 940
Arg Ile Ala Ser Gly Glu Ala Pro Ala Ala Ala Ser Ser Ala Ala Ser
945 950 955 960
Val Gly Ser Ser Ala Ser Ser Val Glu Arg Thr Arg Ser Ser Pro Ala
965 970 975
Val Ala Ser Gly Pro Ala Gln Thr Ile Asp Leu Lys Gln Leu Lys Thr
980 985 990
Glu Leu Leu Glu Leu Asp Ala Pro Leu Tyr Leu Ser Gln Asp Pro Thr
995 1000 1005
Ser Gly Gln Leu Lys Lys His Thr Asp Val Ala Ser Gly Gln Ala
1010 1015 1020
Thr Ile Val Gln Pro Cys Thr Leu Gly Asp Leu Gly Asp Arg Ser
1025 1030 1035
Phe Met Glu Thr Tyr Gly Val Val Ala Pro Leu Tyr Thr Gly Ala
1040 1045 1050
Met Ala Lys Gly Ile Ala Ser Ala Asp Leu Val Ile Ala Ala Gly
1055 1060 1065
Lys Arg Lys Ile Leu Gly Ser Phe Gly Ala Gly Gly Leu Pro Met
1070 1075 1080
His His Val Arg Ala Ala Leu Glu Lys Ile Gln Ala Ala Leu Pro
1085 1090 1095
Gln Gly Pro Tyr Ala Val Asn Leu Ile His Ser Pro Phe Asp Ser
1100 1105 1110
Asn Leu Glu Lys Gly Asn Val Asp Leu Phe Leu Glu Lys Gly Val
1115 1120 1125
Thr Val Val Glu Ala Ser Ala Phe Met Thr Leu Thr Pro Gln Val
1130 1135 1140
Val Arg Tyr Arg Ala Ala Gly Leu Ser Arg Asn Ala Asp Gly Ser
1145 1150 1155
Val Asn Ile Arg Asn Arg Ile Ile Gly Lys Val Ser Arg Thr Glu
1160 1165 1170
Leu Ala Glu Met Phe Ile Arg Pro Ala Pro Glu His Leu Leu Glu
1175 1180 1185
Lys Leu Ile Ala Ser Gly Glu Ile Thr Gln Glu Gln Ala Glu Leu
1190 1195 1200
Ala Arg Arg Val Pro Val Ala Asp Asp Ile Ala Val Glu Ala Asp
1205 1210 1215
Ser Gly Gly His Thr Asp Asn Arg Pro Ile His Val Ile Leu Pro
1220 1225 1230
Leu Ile Ile Asn Leu Arg Asn Arg Leu His Arg Glu Cys Gly Tyr
1235 1240 1245
Pro Ala His Leu Arg Val Arg Val Gly Ala Gly Gly Gly Val Gly
1250 1255 1260
Cys Pro Gln Ala Ala Ala Ala Ala Leu Thr Met Gly Ala Ala Phe
1265 1270 1275
Ile Val Thr Gly Thr Val Asn Gln Val Ala Lys Gln Ser Gly Thr
1280 1285 1290
Cys Asp Asn Val Arg Lys Gln Leu Ser Gln Ala Thr Tyr Ser Asp
1295 1300 1305
Ile Cys Met Ala Pro Ala Ala Asp Met Phe Glu Glu Gly Val Lys
1310 1315 1320
Leu Gln Val Leu Lys Lys Gly Thr Met Phe Pro Ser Arg Ala Asn
1325 1330 1335
Lys Leu Tyr Glu Leu Phe Cys Lys Tyr Asp Ser Phe Asp Ser Met
1340 1345 1350
Pro Pro Ala Glu Leu Glu Arg Ile Glu Lys Arg Ile Phe Lys Arg
1355 1360 1365
Ala Leu Gln Glu Val Trp Glu Glu Thr Lys Asp Phe Tyr Ile Asn
1370 1375 1380
Gly Leu Lys Asn Pro Glu Lys Ile Gln Arg Ala Glu His Asp Pro
1385 1390 1395
Lys Leu Lys Met Ser Leu Cys Phe Arg Trp Tyr Leu Gly Leu Ala
1400 1405 1410
Ser Arg Trp Ala Asn Met Gly Ala Pro Asp Arg Val Met Asp Tyr
1415 1420 1425
Gln Val Trp Cys Gly Pro Ala Ile Gly Ala Phe Asn Asp Phe Ile
1430 1435 1440
Lys Gly Thr Tyr Leu Asp Pro Ala Val Ser Asn Glu Tyr Pro Cys
1445 1450 1455
Val Val Gln Ile Asn Leu Gln Ile Leu Arg Gly Ala Cys Tyr Leu
1460 1465 1470
Arg Arg Leu Asn Ala Leu Arg Asn Asp Pro Arg Ile Asp Leu Glu
1475 1480 1485
Thr Glu Asp Ala Ala Phe Val Tyr Glu Pro Thr Asn Ala Leu
1490 1495 1500
<210> 7
<211> 1500
<212> DNA
<213> Schizochytrium sp.
<220>
<221> CDS
<222> (1)..(1500)
<400> 7
atg gcg gcc cgt ctg cag gag caa aag gga ggc gag atg gat acc cgc 48
Met Ala Ala Arg Leu Gln Glu Gln Lys Gly Gly Glu Met Asp Thr Arg
1 5 10 15
att gcc atc atc ggc atg tcg gcc atc ctc ccc tgc ggc acg acc gtg 96
Ile Ala Ile Ile Gly Met Ser Ala Ile Leu Pro Cys Gly Thr Thr Val
20 25 30
cgc gag tcg tgg gag acc atc cgc gcc ggc atc gac tgc ctg tcg gat 144
Arg Glu Ser Trp Glu Thr Ile Arg Ala Gly Ile Asp Cys Leu Ser Asp
35 40 45
ctc ccc gag gac cgc gtc gac gtg acg gcg tac ttt gac ccc gtc aag 192
Leu Pro Glu Asp Arg Val Asp Val Thr Ala Tyr Phe Asp Pro Val Lys
50 55 60
acc acc aag gac aag atc tac tgc aag cgc ggt ggc ttc att ccc gag 240
Thr Thr Lys Asp Lys Ile Tyr Cys Lys Arg Gly Gly Phe Ile Pro Glu
65 70 75 80
tac gac ttt gac gcc cgc gag ttc gga ctc aac atg ttc cag atg gag 288
Tyr Asp Phe Asp Ala Arg Glu Phe Gly Leu Asn Met Phe Gln Met Glu
85 90 95
gac tcg gac gca aac cag acc atc tcg ctt ctc aag gtc aag gag gcc 336
Asp Ser Asp Ala Asn Gln Thr Ile Ser Leu Leu Lys Val Lys Glu Ala
100 105 110
ctc cag gac gcc ggc atc gac gcc ctc ggc aag gaa aag aag aac atc 384
Leu Gln Asp Ala Gly Ile Asp Ala Leu Gly Lys Glu Lys Lys Asn Ile
115 120 125
ggc tgc gtg ctc ggc att ggc ggc ggc caa aag tcc agc cac gag ttc 432
Gly Cys Val Leu Gly Ile Gly Gly Gly Gln Lys Ser Ser His Glu Phe
130 135 140
tac tcg cgc ctt aat tat gtt gtc gtg gag aag gtc ctc cgc aag atg 480
Tyr Ser Arg Leu Asn Tyr Val Val Val Glu Lys Val Leu Arg Lys Met
145 150 155 160
ggc atg ccc gag gag gac gtc aag gtc gcc gtc gaa aag tac aag gcc 528
Gly Met Pro Glu Glu Asp Val Lys Val Ala Val Glu Lys Tyr Lys Ala
165 170 175
aac ttc ccc gag tgg cgc ctc gac tcc ttc cct ggc ttc ctc ggc aac 576
Asn Phe Pro Glu Trp Arg Leu Asp Ser Phe Pro Gly Phe Leu Gly Asn
180 185 190
gtc acc gcc ggt cgc tgc acc aac acc ttc aac ctc gac ggc atg aac 624
Val Thr Ala Gly Arg Cys Thr Asn Thr Phe Asn Leu Asp Gly Met Asn
195 200 205
tgc gtt gtc gac gcc gca tgc gcc tcg tcc ctc atc gcc gtc aag gtc 672
Cys Val Val Asp Ala Ala Cys Ala Ser Ser Leu Ile Ala Val Lys Val
210 215 220
gcc atc gac gag ctg ctc tac ggt gac tgc gac atg atg gtc acc ggt 720
Ala Ile Asp Glu Leu Leu Tyr Gly Asp Cys Asp Met Met Val Thr Gly
225 230 235 240
gcc acc tgc acg gat aac tcc atc ggc atg tac atg gcc ttc tcc aag 768
Ala Thr Cys Thr Asp Asn Ser Ile Gly Met Tyr Met Ala Phe Ser Lys
245 250 255
acc ccc gtg ttc tcc acg gac ccc agc gtg cgc gcc tac gac gaa aag 816
Thr Pro Val Phe Ser Thr Asp Pro Ser Val Arg Ala Tyr Asp Glu Lys
260 265 270
aca aag ggc atg ctc atc ggc gag ggc tcc gcc atg ctc gtc ctc aag 864
Thr Lys Gly Met Leu Ile Gly Glu Gly Ser Ala Met Leu Val Leu Lys
275 280 285
cgc tac gcc gac gcc gtc cgc gac ggc gat gag atc cac gct gtt att 912
Arg Tyr Ala Asp Ala Val Arg Asp Gly Asp Glu Ile His Ala Val Ile
290 295 300
cgc ggc tgc gcc tcc tcc agt gat ggc aag gcc gcc ggc atc tac acg 960
Arg Gly Cys Ala Ser Ser Ser Asp Gly Lys Ala Ala Gly Ile Tyr Thr
305 310 315 320
ccc acc att tcg ggc cag gag gag gcc ctc cgc cgc gcc tac aac cgc 1008
Pro Thr Ile Ser Gly Gln Glu Glu Ala Leu Arg Arg Ala Tyr Asn Arg
325 330 335
gcc tgt gtc gac ccg gcc acc gtc act ctc gtc gag ggt cac ggc acc 1056
Ala Cys Val Asp Pro Ala Thr Val Thr Leu Val Glu Gly His Gly Thr
340 345 350
ggt act ccc gtt ggc gac cgc atc gag ctc acc gcc ttg cgc aac ctc 1104
Gly Thr Pro Val Gly Asp Arg Ile Glu Leu Thr Ala Leu Arg Asn Leu
355 360 365
ttt gac aag gcc tac ggc gag ggc aac acc gaa aag gtc gct gtg ggc 1152
Phe Asp Lys Ala Tyr Gly Glu Gly Asn Thr Glu Lys Val Ala Val Gly
370 375 380
agc atc aag tcc agc atc ggc cat ctc aag gcc gtc gcc ggt ctc gcc 1200
Ser Ile Lys Ser Ser Ile Gly His Leu Lys Ala Val Ala Gly Leu Ala
385 390 395 400
ggt atg atc aag gtc atc atg gcg ctc aag cac aag act ctc ccg ggc 1248
Gly Met Ile Lys Val Ile Met Ala Leu Lys His Lys Thr Leu Pro Gly
405 410 415
acc atc aac gtc gac aac cca ccc aac ctc tac gac aac acg ccc atc 1296
Thr Ile Asn Val Asp Asn Pro Pro Asn Leu Tyr Asp Asn Thr Pro Ile
420 425 430
aac gag tcc tcg ctc tac att aac acc atg aac cgc ccc tgg ttc ccg 1344
Asn Glu Ser Ser Leu Tyr Ile Asn Thr Met Asn Arg Pro Trp Phe Pro
435 440 445
ccc cct ggt gtg ccc cgc cgc gcc ggc att tcg agc ttt ggc ttt ggt 1392
Pro Pro Gly Val Pro Arg Arg Ala Gly Ile Ser Ser Phe Gly Phe Gly
450 455 460
ggc gcc aac tac cac gcc gtc ctc gag gag gcc gag ccc gag cac acg 1440
Gly Ala Asn Tyr His Ala Val Leu Glu Glu Ala Glu Pro Glu His Thr
465 470 475 480
acc gcg tac cgc ctc aac aag cgc ccg cag ccc gtg ctc atg atg gcc 1488
Thr Ala Tyr Arg Leu Asn Lys Arg Pro Gln Pro Val Leu Met Met Ala
485 490 495
gcc acg ccc gcg 1500
Ala Thr Pro Ala
500
<210> 8
<211> 500
<212> PRT
<213> Schizochytrium sp.
<400> 8
Met Ala Ala Arg Leu Gln Glu Gln Lys Gly Gly Glu Met Asp Thr Arg
1 5 10 15
Ile Ala Ile Ile Gly Met Ser Ala Ile Leu Pro Cys Gly Thr Thr Val
20 25 30
Arg Glu Ser Trp Glu Thr Ile Arg Ala Gly Ile Asp Cys Leu Ser Asp
35 40 45
Leu Pro Glu Asp Arg Val Asp Val Thr Ala Tyr Phe Asp Pro Val Lys
50 55 60
Thr Thr Lys Asp Lys Ile Tyr Cys Lys Arg Gly Gly Phe Ile Pro Glu
65 70 75 80
Tyr Asp Phe Asp Ala Arg Glu Phe Gly Leu Asn Met Phe Gln Met Glu
85 90 95
Asp Ser Asp Ala Asn Gln Thr Ile Ser Leu Leu Lys Val Lys Glu Ala
100 105 110
Leu Gln Asp Ala Gly Ile Asp Ala Leu Gly Lys Glu Lys Lys Asn Ile
115 120 125
Gly Cys Val Leu Gly Ile Gly Gly Gly Gln Lys Ser Ser His Glu Phe
130 135 140
Tyr Ser Arg Leu Asn Tyr Val Val Val Glu Lys Val Leu Arg Lys Met
145 150 155 160
Gly Met Pro Glu Glu Asp Val Lys Val Ala Val Glu Lys Tyr Lys Ala
165 170 175
Asn Phe Pro Glu Trp Arg Leu Asp Ser Phe Pro Gly Phe Leu Gly Asn
180 185 190
Val Thr Ala Gly Arg Cys Thr Asn Thr Phe Asn Leu Asp Gly Met Asn
195 200 205
Cys Val Val Asp Ala Ala Cys Ala Ser Ser Leu Ile Ala Val Lys Val
210 215 220
Ala Ile Asp Glu Leu Leu Tyr Gly Asp Cys Asp Met Met Val Thr Gly
225 230 235 240
Ala Thr Cys Thr Asp Asn Ser Ile Gly Met Tyr Met Ala Phe Ser Lys
245 250 255
Thr Pro Val Phe Ser Thr Asp Pro Ser Val Arg Ala Tyr Asp Glu Lys
260 265 270
Thr Lys Gly Met Leu Ile Gly Glu Gly Ser Ala Met Leu Val Leu Lys
275 280 285
Arg Tyr Ala Asp Ala Val Arg Asp Gly Asp Glu Ile His Ala Val Ile
290 295 300
Arg Gly Cys Ala Ser Ser Ser Asp Gly Lys Ala Ala Gly Ile Tyr Thr
305 310 315 320
Pro Thr Ile Ser Gly Gln Glu Glu Ala Leu Arg Arg Ala Tyr Asn Arg
325 330 335
Ala Cys Val Asp Pro Ala Thr Val Thr Leu Val Glu Gly His Gly Thr
340 345 350
Gly Thr Pro Val Gly Asp Arg Ile Glu Leu Thr Ala Leu Arg Asn Leu
355 360 365
Phe Asp Lys Ala Tyr Gly Glu Gly Asn Thr Glu Lys Val Ala Val Gly
370 375 380
Ser Ile Lys Ser Ser Ile Gly His Leu Lys Ala Val Ala Gly Leu Ala
385 390 395 400
Gly Met Ile Lys Val Ile Met Ala Leu Lys His Lys Thr Leu Pro Gly
405 410 415
Thr Ile Asn Val Asp Asn Pro Pro Asn Leu Tyr Asp Asn Thr Pro Ile
420 425 430
Asn Glu Ser Ser Leu Tyr Ile Asn Thr Met Asn Arg Pro Trp Phe Pro
435 440 445
Pro Pro Gly Val Pro Arg Arg Ala Gly Ile Ser Ser Phe Gly Phe Gly
450 455 460
Gly Ala Asn Tyr His Ala Val Leu Glu Glu Ala Glu Pro Glu His Thr
465 470 475 480
Thr Ala Tyr Arg Leu Asn Lys Arg Pro Gln Pro Val Leu Met Met Ala
485 490 495
Ala Thr Pro Ala
500
<210> 9
<211> 1278
<212> DNA
<213> Schizochytrium sp.
<220>
<221> CDS
<222> (1)..(1278)
<400> 9
gat gtc acc aag gag gcc tgg cgc ctc ccc cgc gag ggc gtc agc ttc 48
Asp Val Thr Lys Glu Ala Trp Arg Leu Pro Arg Glu Gly Val Ser Phe
1 5 10 15
cgc gcc aag ggc atc gcc acc aac ggc gct gtc gcc gcg ctc ttc tcc 96
Arg Ala Lys Gly Ile Ala Thr Asn Gly Ala Val Ala Ala Leu Phe Ser
20 25 30
ggc cag ggc gcg cag tac acg cac atg ttt agc gag gtg gcc atg aac 144
Gly Gln Gly Ala Gln Tyr Thr His Met Phe Ser Glu Val Ala Met Asn
35 40 45
tgg ccc cag ttc cgc cag agc att gcc gcc atg gac gcc gcc cag tcc 192
Trp Pro Gln Phe Arg Gln Ser Ile Ala Ala Met Asp Ala Ala Gln Ser
50 55 60
aag gtc gct gga agc gac aag gac ttt gag cgc gtc tcc cag gtc ctc 240
Lys Val Ala Gly Ser Asp Lys Asp Phe Glu Arg Val Ser Gln Val Leu
65 70 75 80
tac ccg cgc aag ccg tac gag cgt gag ccc gag cag gac cac aag aag 288
Tyr Pro Arg Lys Pro Tyr Glu Arg Glu Pro Glu Gln Asp His Lys Lys
85 90 95
atc tcc ctc acc gcc tac tcg cag ccc tcg acc ctg gcc tgc gct ctc 336
Ile Ser Leu Thr Ala Tyr Ser Gln Pro Ser Thr Leu Ala Cys Ala Leu
100 105 110
ggt gcc ttt gag atc ttc aag gag gcc ggc ttc acc ccg gac ttt gcc 384
Gly Ala Phe Glu Ile Phe Lys Glu Ala Gly Phe Thr Pro Asp Phe Ala
115 120 125
gcc ggc cat tcg ctc ggt gag ttc gcc gcc ctc tac gcc gcg ggc tgc 432
Ala Gly His Ser Leu Gly Glu Phe Ala Ala Leu Tyr Ala Ala Gly Cys
130 135 140
gtc gac cgc gac gag ctc ttt gag ctt gtc tgc cgc cgc gcc cgc atc 480
Val Asp Arg Asp Glu Leu Phe Glu Leu Val Cys Arg Arg Ala Arg Ile
145 150 155 160
atg ggc ggc aag gac gca ccg gcc acc ccc aag ggc tgc atg gcc gcc 528
Met Gly Gly Lys Asp Ala Pro Ala Thr Pro Lys Gly Cys Met Ala Ala
165 170 175
gtc att ggc ccc aac gcc gag aac atc aag gtc cag gcc gcc aac gtc 576
Val Ile Gly Pro Asn Ala Glu Asn Ile Lys Val Gln Ala Ala Asn Val
180 185 190
tgg ctc ggc aac tcc aac tcg cct tcg cag acc gtc atc acc ggc tcc 624
Trp Leu Gly Asn Ser Asn Ser Pro Ser Gln Thr Val Ile Thr Gly Ser
195 200 205
gtc gaa ggt atc cag gcc gag agc gcc cgc ctc cag aag gag ggc ttc 672
Val Glu Gly Ile Gln Ala Glu Ser Ala Arg Leu Gln Lys Glu Gly Phe
210 215 220
cgc gtc gtg cct ctt gcc tgc gag agc gcc ttc cac tcg ccc cag atg 720
Arg Val Val Pro Leu Ala Cys Glu Ser Ala Phe His Ser Pro Gln Met
225 230 235 240
gag aac gcc tcg tcg gcc ttc aag gac gtc atc tcc aag gtc tcc ttc 768
Glu Asn Ala Ser Ser Ala Phe Lys Asp Val Ile Ser Lys Val Ser Phe
245 250 255
cgc acc ccc aag gcc gag acc aag ctc ttc agc aac gtc tct ggc gag 816
Arg Thr Pro Lys Ala Glu Thr Lys Leu Phe Ser Asn Val Ser Gly Glu
260 265 270
acc tac ccc acg gac gcc cgc gag atg ctt acg cag cac atg acc agc 864
Thr Tyr Pro Thr Asp Ala Arg Glu Met Leu Thr Gln His Met Thr Ser
275 280 285
agc gtc aag ttc ctc acc cag gtc cgc aac atg cac cag gcc ggt gcg 912
Ser Val Lys Phe Leu Thr Gln Val Arg Asn Met His Gln Ala Gly Ala
290 295 300
cgc atc ttt gtc gag ttc gga ccc aag cag gtg ctc tcc aag ctt gtc 960
Arg Ile Phe Val Glu Phe Gly Pro Lys Gln Val Leu Ser Lys Leu Val
305 310 315 320
tcc gag acc ctc aag gat gac ccc tcg gtt gtc acc gtc tct gtc aac 1008
Ser Glu Thr Leu Lys Asp Asp Pro Ser Val Val Thr Val Ser Val Asn
325 330 335
ccg gcc tcg ggc acg gat tcg gac atc cag ctc cgc gac gcg gcc gtc 1056
Pro Ala Ser Gly Thr Asp Ser Asp Ile Gln Leu Arg Asp Ala Ala Val
340 345 350
cag ctc gtt gtc gct ggc gtc aac ctt cag ggc ttt gac aag tgg gac 1104
Gln Leu Val Val Ala Gly Val Asn Leu Gln Gly Phe Asp Lys Trp Asp
355 360 365
gcc ccc gat gcc acc cgc atg cag gcc atc aag aag aag cgc act acc 1152
Ala Pro Asp Ala Thr Arg Met Gln Ala Ile Lys Lys Lys Arg Thr Thr
370 375 380
ctc cgc ctt tcg gcc gcc acc tac gtc tcg gac aag acc aag aag gtc 1200
Leu Arg Leu Ser Ala Ala Thr Tyr Val Ser Asp Lys Thr Lys Lys Val
385 390 395 400
cgc gac gcc gcc atg aac gat ggc cgc tgc gtc acc tac ctc aag ggc 1248
Arg Asp Ala Ala Met Asn Asp Gly Arg Cys Val Thr Tyr Leu Lys Gly
405 410 415
gcc gca ccg ctc atc aag gcc ccg gag ccc 1278
Ala Ala Pro Leu Ile Lys Ala Pro Glu Pro
420 425
<210> 10
<211> 426
<212> PRT
<213> Schizochytrium sp.
<400> 10
Asp Val Thr Lys Glu Ala Trp Arg Leu Pro Arg Glu Gly Val Ser Phe
1 5 10 15
Arg Ala Lys Gly Ile Ala Thr Asn Gly Ala Val Ala Ala Leu Phe Ser
20 25 30
Gly Gln Gly Ala Gln Tyr Thr His Met Phe Ser Glu Val Ala Met Asn
35 40 45
Trp Pro Gln Phe Arg Gln Ser Ile Ala Ala Met Asp Ala Ala Gln Ser
50 55 60
Lys Val Ala Gly Ser Asp Lys Asp Phe Glu Arg Val Ser Gln Val Leu
65 70 75 80
Tyr Pro Arg Lys Pro Tyr Glu Arg Glu Pro Glu Gln Asp His Lys Lys
85 90 95
Ile Ser Leu Thr Ala Tyr Ser Gln Pro Ser Thr Leu Ala Cys Ala Leu
100 105 110
Gly Ala Phe Glu Ile Phe Lys Glu Ala Gly Phe Thr Pro Asp Phe Ala
115 120 125
Ala Gly His Ser Leu Gly Glu Phe Ala Ala Leu Tyr Ala Ala Gly Cys
130 135 140
Val Asp Arg Asp Glu Leu Phe Glu Leu Val Cys Arg Arg Ala Arg Ile
145 150 155 160
Met Gly Gly Lys Asp Ala Pro Ala Thr Pro Lys Gly Cys Met Ala Ala
165 170 175
Val Ile Gly Pro Asn Ala Glu Asn Ile Lys Val Gln Ala Ala Asn Val
180 185 190
Trp Leu Gly Asn Ser Asn Ser Pro Ser Gln Thr Val Ile Thr Gly Ser
195 200 205
Val Glu Gly Ile Gln Ala Glu Ser Ala Arg Leu Gln Lys Glu Gly Phe
210 215 220
Arg Val Val Pro Leu Ala Cys Glu Ser Ala Phe His Ser Pro Gln Met
225 230 235 240
Glu Asn Ala Ser Ser Ala Phe Lys Asp Val Ile Ser Lys Val Ser Phe
245 250 255
Arg Thr Pro Lys Ala Glu Thr Lys Leu Phe Ser Asn Val Ser Gly Glu
260 265 270
Thr Tyr Pro Thr Asp Ala Arg Glu Met Leu Thr Gln His Met Thr Ser
275 280 285
Ser Val Lys Phe Leu Thr Gln Val Arg Asn Met His Gln Ala Gly Ala
290 295 300
Arg Ile Phe Val Glu Phe Gly Pro Lys Gln Val Leu Ser Lys Leu Val
305 310 315 320
Ser Glu Thr Leu Lys Asp Asp Pro Ser Val Val Thr Val Ser Val Asn
325 330 335
Pro Ala Ser Gly Thr Asp Ser Asp Ile Gln Leu Arg Asp Ala Ala Val
340 345 350
Gln Leu Val Val Ala Gly Val Asn Leu Gln Gly Phe Asp Lys Trp Asp
355 360 365
Ala Pro Asp Ala Thr Arg Met Gln Ala Ile Lys Lys Lys Arg Thr Thr
370 375 380
Leu Arg Leu Ser Ala Ala Thr Tyr Val Ser Asp Lys Thr Lys Lys Val
385 390 395 400
Arg Asp Ala Ala Met Asn Asp Gly Arg Cys Val Thr Tyr Leu Lys Gly
405 410 415
Ala Ala Pro Leu Ile Lys Ala Pro Glu Pro
420 425
<210> 11
<211> 5
<212> PRT
<213> Schizochytrium sp.
<220>
<221> MISC_FEATURE
<222> (4)..(4)
<223> X = any amino acid
<400> 11
Gly His Ser Xaa Gly
1 5
<210> 12
<211> 258
<212> DNA
<213> Schizochytrium sp.
<220>
<221> CDS
<222> (1)..(258)
<400> 12
gct gtc tcg aac gag ctt ctt gag aag gcc gag act gtc gtc atg gag 48
Ala Val Ser Asn Glu Leu Leu Glu Lys Ala Glu Thr Val Val Met Glu
1 5 10 15
gtc ctc gcc gcc aag acc ggc tac gag acc gac atg atc gag gct gac 96
Val Leu Ala Ala Lys Thr Gly Tyr Glu Thr Asp Met Ile Glu Ala Asp
20 25 30
atg gag ctc gag acc gag ctc ggc att gac tcc atc aag cgt gtc gag 144
Met Glu Leu Glu Thr Glu Leu Gly Ile Asp Ser Ile Lys Arg Val Glu
35 40 45
atc ctc tcc gag gtc cag gcc atg ctc aat gtc gag gcc aag gat gtc 192
Ile Leu Ser Glu Val Gln Ala Met Leu Asn Val Glu Ala Lys Asp Val
50 55 60
gat gcc ctc agc cgc act cgc act gtt ggt gag gtt gtc aac gcc atg 240
Asp Ala Leu Ser Arg Thr Arg Thr Val Gly Glu Val Val Asn Ala Met
65 70 75 80
aag gcc gag atc gct ggc 258
Lys Ala Glu Ile Ala Gly
85
<210> 13
<211> 86
<212> PRT
<213> Schizochytrium sp.
<400> 13
Ala Val Ser Asn Glu Leu Leu Glu Lys Ala Glu Thr Val Val Met Glu
1 5 10 15
Val Leu Ala Ala Lys Thr Gly Tyr Glu Thr Asp Met Ile Glu Ala Asp
20 25 30
Met Glu Leu Glu Thr Glu Leu Gly Ile Asp Ser Ile Lys Arg Val Glu
35 40 45
Ile Leu Ser Glu Val Gln Ala Met Leu Asn Val Glu Ala Lys Asp Val
50 55 60
Asp Ala Leu Ser Arg Thr Arg Thr Val Gly Glu Val Val Asn Ala Met
65 70 75 80
Lys Ala Glu Ile Ala Gly
85
<210> 14
<211> 5
<212> PRT
<213> Schizochytrium sp.
<400> 14
Leu Gly Ile Asp Ser
1 5
<210> 15
<211> 21
<212> PRT
<213> Schizochytrium sp.
<400> 15
Ala Pro Ala Pro Val Lys Ala Ala Ala Pro Ala Ala Pro Val Ala Ser
1 5 10 15
Ala Pro Ala Pro Ala
20
<210> 16
<211> 3006
<212> DNA
<213> Schizochytrium sp.
<400> 16
gcccccgccc cggtcaaggc tgctgcgcct gccgcccccg ttgcctcggc ccctgccccg 60
gctgtctcga acgagcttct tgagaaggcc gagactgtcg tcatggaggt cctcgccgcc 120
aagaccggct acgagaccga catgatcgag gctgacatgg agctcgagac cgagctcggc 180
attgactcca tcaagcgtgt cgagatcctc tccgaggtcc aggccatgct caatgtcgag 240
gccaaggatg tcgatgccct cagccgcact cgcactgttg gtgaggttgt caacgccatg 300
aaggccgaga tcgctggcag ctctgccccg gcgcctgctg ccgctgctcc ggctccggcc 360
aaggctgccc ctgccgccgc tgcgcctgct gtctcgaacg agcttctcga gaaggccgag 420
accgtcgtca tggaggtcct cgccgccaag actggctacg agactgacat gatcgagtcc 480
gacatggagc tcgagactga gctcggcatt gactccatca agcgtgtcga gatcctctcc 540
gaggttcagg ccatgctcaa cgtcgaggcc aaggacgtcg acgctctcag ccgcactcgc 600
actgtgggtg aggtcgtcaa cgccatgaag gctgagatcg ctggtggctc tgccccggcg 660
cctgccgccg ctgccccagg tccggctgct gccgcccctg cgcctgccgc cgccgcccct 720
gctgtctcga acgagcttct tgagaaggcc gagaccgtcg tcatggaggt cctcgccgcc 780
aagactggct acgagactga catgatcgag tccgacatgg agctcgagac cgagctcggc 840
attgactcca tcaagcgtgt cgagattctc tccgaggtcc aggccatgct caacgtcgag 900
gccaaggacg tcgacgctct cagccgcacc cgcactgttg gcgaggtcgt cgatgccatg 960
aaggccgaga tcgctggtgg ctctgccccg gcgcctgccg ccgctgctcc tgctccggct 1020
gctgccgccc ctgcgcctgc cgcccctgcg cctgctgtct cgagcgagct tctcgagaag 1080
gccgagactg tcgtcatgga ggtcctcgcc gccaagactg gctacgagac tgacatgatc 1140
gagtccgaca tggagctcga gaccgagctc ggcattgact ccatcaagcg tgtcgagatt 1200
ctctccgagg tccaggccat gctcaacgtc gaggccaagg acgtcgacgc tctcagccgc 1260
acccgcactg ttggcgaggt cgtcgatgcc atgaaggccg agatcgctgg tggctctgcc 1320
ccggcgcctg ccgccgctgc tcctgctccg gctgctgccg cccctgcgcc tgccgcccct 1380
gcgcctgccg cccctgcgcc tgctgtctcg agcgagcttc tcgagaaggc cgagactgtc 1440
gtcatggagg tcctcgccgc caagactggc tacgagactg acatgattga gtccgacatg 1500
gagctcgaga ccgagctcgg cattgactcc atcaagcgtg tcgagattct ctccgaggtt 1560
caggccatgc tcaacgtcga ggccaaggac gtcgacgctc tcagccgcac tcgcactgtt 1620
ggtgaggtcg tcgatgccat gaaggctgag atcgctggca gctccgcctc ggcgcctgcc 1680
gccgctgctc ctgctccggc tgctgccgct cctgcgcccg ctgccgccgc ccctgctgtc 1740
tcgaacgagc ttctcgagaa agccgagact gtcgtcatgg aggtcctcgc cgccaagact 1800
ggctacgaga ctgacatgat cgagtccgac atggagctcg agactgagct cggcattgac 1860
tccatcaagc gtgtcgagat cctctccgag gttcaggcca tgctcaacgt cgaggccaag 1920
gacgtcgatg ccctcagccg cacccgcact gttggcgagg ttgtcgatgc catgaaggcc 1980
gagatcgctg gtggctctgc cccggcgcct gccgccgctg cccctgctcc ggctgccgcc 2040
gcccctgctg tctcgaacga gcttctcgag aaggccgaga ctgtcgtcat ggaggtcctc 2100
gccgccaaga ctggctacga gaccgacatg atcgagtccg acatggagct cgagaccgag 2160
ctcggcattg actccatcaa gcgtgtcgag attctctccg aggttcaggc catgctcaac 2220
gtcgaggcca aggacgtcga tgctctcagc cgcactcgca ctgttggcga ggtcgtcgat 2280
gccatgaagg ctgagatcgc cggcagctcc gccccggcgc ctgccgccgc tgctcctgct 2340
ccggctgctg ccgctcctgc gcccgctgcc gctgcccctg ctgtctcgag cgagcttctc 2400
gagaaggccg agaccgtcgt catggaggtc ctcgccgcca agactggcta cgagactgac 2460
atgattgagt ccgacatgga gctcgagact gagctcggca ttgactccat caagcgtgtc 2520
gagatcctct ccgaggttca ggccatgctc aacgtcgagg ccaaggacgt cgatgccctc 2580
agccgcaccc gcactgttgg cgaggttgtc gatgccatga aggccgagat cgctggtggc 2640
tctgccccgg cgcctgccgc cgctgcccct gctccggctg ccgccgcccc tgctgtctcg 2700
aacgagcttc ttgagaaggc cgagaccgtc gtcatggagg tcctcgccgc caagactggc 2760
tacgagaccg acatgatcga gtccgacatg gagctcgaga ccgagctcgg cattgactcc 2820
atcaagcgtg tcgagattct ctccgaggtt caggccatgc tcaacgtcga ggccaaggac 2880
gtcgacgctc tcagccgcac tcgcactgtt ggcgaggtcg tcgatgccat gaaggctgag 2940
atcgctggtg gctctgcccc ggcgcctgcc gccgctgctc ctgcctcggc tggcgccgcg 3000
cctgcg 3006
<210> 17
<211> 2133
<212> DNA
<213> Schizochytrium sp.
<220>
<221> CDS
<222> (1)..(2133)
<400> 17
ttt ggc gct ctc ggc ggc ttc atc tcg cag cag gcg gag cgc ttc gag 48
Phe Gly Ala Leu Gly Gly Phe Ile Ser Gln Gln Ala Glu Arg Phe Glu
1 5 10 15
ccc gcc gaa atc ctc ggc ttc acg ctc atg tgc gcc aag ttc gcc aag 96
Pro Ala Glu Ile Leu Gly Phe Thr Leu Met Cys Ala Lys Phe Ala Lys
20 25 30
gct tcc ctc tgc acg gct gtg gct ggc ggc cgc ccg gcc ttt atc ggt 144
Ala Ser Leu Cys Thr Ala Val Ala Gly Gly Arg Pro Ala Phe Ile Gly
35 40 45
gtg gcg cgc ctt gac ggc cgc ctc gga ttc act tcg cag ggc act tct 192
Val Ala Arg Leu Asp Gly Arg Leu Gly Phe Thr Ser Gln Gly Thr Ser
50 55 60
gac gcg ctc aag cgt gcc cag cgt ggt gcc atc ttt ggc ctc tgc aag 240
Asp Ala Leu Lys Arg Ala Gln Arg Gly Ala Ile Phe Gly Leu Cys Lys
65 70 75 80
acc atc ggc ctc gag tgg tcc gag tct gac gtc ttt tcc cgc ggc gtg 288
Thr Ile Gly Leu Glu Trp Ser Glu Ser Asp Val Phe Ser Arg Gly Val
85 90 95
gac att gct cag ggc atg cac ccc gag gat gcc gcc gtg gcg att gtg 336
Asp Ile Ala Gln Gly Met His Pro Glu Asp Ala Ala Val Ala Ile Val
100 105 110
cgc gag atg gcg tgc gct gac att cgc att cgc gag gtc ggc att ggc 384
Arg Glu Met Ala Cys Ala Asp Ile Arg Ile Arg Glu Val Gly Ile Gly
115 120 125
gca aac cag cag cgc tgc acg atc cgt gcc gcc aag ctc gag acc ggc 432
Ala Asn Gln Gln Arg Cys Thr Ile Arg Ala Ala Lys Leu Glu Thr Gly
130 135 140
aac ccg cag cgc cag atc gcc aag gac gac gtg ctg ctc gtt tct ggc 480
Asn Pro Gln Arg Gln Ile Ala Lys Asp Asp Val Leu Leu Val Ser Gly
145 150 155 160
ggc gct cgc ggc atc acg cct ctt tgc atc cgg gag atc acg cgc cag 528
Gly Ala Arg Gly Ile Thr Pro Leu Cys Ile Arg Glu Ile Thr Arg Gln
165 170 175
atc gcg ggc ggc aag tac att ctg ctt ggc cgc agc aag gtc tct gcg 576
Ile Ala Gly Gly Lys Tyr Ile Leu Leu Gly Arg Ser Lys Val Ser Ala
180 185 190
agc gaa ccg gca tgg tgc gct ggc atc act gac gag aag gct gtg caa 624
Ser Glu Pro Ala Trp Cys Ala Gly Ile Thr Asp Glu Lys Ala Val Gln
195 200 205
aag gct gct acc cag gag ctc aag cgc gcc ttt agc gct ggc gag ggc 672
Lys Ala Ala Thr Gln Glu Leu Lys Arg Ala Phe Ser Ala Gly Glu Gly
210 215 220
ccc aag ccc acg ccc cgc gct gtc act aag ctt gtg ggc tct gtt ctt 720
Pro Lys Pro Thr Pro Arg Ala Val Thr Lys Leu Val Gly Ser Val Leu
225 230 235 240
ggc gct cgc gag gtg cgc agc tct att gct gcg att gaa gcg ctc ggc 768
Gly Ala Arg Glu Val Arg Ser Ser Ile Ala Ala Ile Glu Ala Leu Gly
245 250 255
ggc aag gcc atc tac tcg tcg tgc gac gtg aac tct gcc gcc gac gtg 816
Gly Lys Ala Ile Tyr Ser Ser Cys Asp Val Asn Ser Ala Ala Asp Val
260 265 270
gcc aag gcc gtg cgc gat gcc gag tcc cag ctc ggt gcc cgc gtc tcg 864
Ala Lys Ala Val Arg Asp Ala Glu Ser Gln Leu Gly Ala Arg Val Ser
275 280 285
ggc atc gtt cat gcc tcg ggc gtg ctc cgc gac cgt ctc atc gag aag 912
Gly Ile Val His Ala Ser Gly Val Leu Arg Asp Arg Leu Ile Glu Lys
290 295 300
aag ctc ccc gac gag ttc gac gcc gtc ttt ggc acc aag gtc acc ggt 960
Lys Leu Pro Asp Glu Phe Asp Ala Val Phe Gly Thr Lys Val Thr Gly
305 310 315 320
ctc gag aac ctc ctc gcc gcc gtc gac cgc gcc aac ctc aag cac atg 1008
Leu Glu Asn Leu Leu Ala Ala Val Asp Arg Ala Asn Leu Lys His Met
325 330 335
gtc ctc ttc agc tcg ctc gcc ggc ttc cac ggc aac gtc ggc cag tct 1056
Val Leu Phe Ser Ser Leu Ala Gly Phe His Gly Asn Val Gly Gln Ser
340 345 350
gac tac gcc atg gcc aac gag gcc ctt aac aag atg ggc ctc gag ctc 1104
Asp Tyr Ala Met Ala Asn Glu Ala Leu Asn Lys Met Gly Leu Glu Leu
355 360 365
gcc aag gac gtc tcg gtc aag tcg atc tgc ttc ggt ccc tgg gac ggt 1152
Ala Lys Asp Val Ser Val Lys Ser Ile Cys Phe Gly Pro Trp Asp Gly
370 375 380
ggc atg gtg acg ccg cag ctc aag aag cag ttc cag gag atg ggc gtg 1200
Gly Met Val Thr Pro Gln Leu Lys Lys Gln Phe Gln Glu Met Gly Val
385 390 395 400
cag atc atc ccc cgc gag ggc ggc gct gat acc gtg gcg cgc atc gtg 1248
Gln Ile Ile Pro Arg Glu Gly Gly Ala Asp Thr Val Ala Arg Ile Val
405 410 415
ctc ggc tcc tcg ccg gct gag atc ctt gtc ggc aac tgg cgc acc ccg 1296
Leu Gly Ser Ser Pro Ala Glu Ile Leu Val Gly Asn Trp Arg Thr Pro
420 425 430
tcc aag aag gtc ggc tcg gac acc atc acc ctg cac cgc aag att tcc 1344
Ser Lys Lys Val Gly Ser Asp Thr Ile Thr Leu His Arg Lys Ile Ser
435 440 445
gcc aag tcc aac ccc ttc ctc gag gac cac gtc atc cag ggc cgc cgc 1392
Ala Lys Ser Asn Pro Phe Leu Glu Asp His Val Ile Gln Gly Arg Arg
450 455 460
gtg ctg ccc atg acg ctg gcc att ggc tcg ctc gcg gag acc tgc ctc 1440
Val Leu Pro Met Thr Leu Ala Ile Gly Ser Leu Ala Glu Thr Cys Leu
465 470 475 480
ggc ctc ttc ccc ggc tac tcg ctc tgg gcc att gac gac gcc cag ctc 1488
Gly Leu Phe Pro Gly Tyr Ser Leu Trp Ala Ile Asp Asp Ala Gln Leu
485 490 495
ttc aag ggt gtc act gtc gac ggc gac gtc aac tgc gag gtg acc ctc 1536
Phe Lys Gly Val Thr Val Asp Gly Asp Val Asn Cys Glu Val Thr Leu
500 505 510
acc ccg tcg acg gcg ccc tcg ggc cgc gtc aac gtc cag gcc acg ctc 1584
Thr Pro Ser Thr Ala Pro Ser Gly Arg Val Asn Val Gln Ala Thr Leu
515 520 525
aag acc ttt tcc agc ggc aag ctg gtc ccg gcc tac cgc gcc gtc atc 1632
Lys Thr Phe Ser Ser Gly Lys Leu Val Pro Ala Tyr Arg Ala Val Ile
530 535 540
gtg ctc tcc aac cag ggc gcg ccc ccg gcc aac gcc acc atg cag ccg 1680
Val Leu Ser Asn Gln Gly Ala Pro Pro Ala Asn Ala Thr Met Gln Pro
545 550 555 560
ccc tcg ctc gat gcc gat ccg gcg ctc cag ggc tcc gtc tac gac ggc 1728
Pro Ser Leu Asp Ala Asp Pro Ala Leu Gln Gly Ser Val Tyr Asp Gly
565 570 575
aag acc ctc ttc cac ggc ccg gcc ttc cgc ggc atc gat gac gtg ctc 1776
Lys Thr Leu Phe His Gly Pro Ala Phe Arg Gly Ile Asp Asp Val Leu
580 585 590
tcg tgc acc aag agc cag ctt gtg gcc aag tgc agc gct gtc ccc ggc 1824
Ser Cys Thr Lys Ser Gln Leu Val Ala Lys Cys Ser Ala Val Pro Gly
595 600 605
tcc gac gcc gct cgc ggc gag ttt gcc acg gac act gac gcc cat gac 1872
Ser Asp Ala Ala Arg Gly Glu Phe Ala Thr Asp Thr Asp Ala His Asp
610 615 620
ccc ttc gtg aac gac ctg gcc ttt cag gcc atg ctc gtc tgg gtg cgc 1920
Pro Phe Val Asn Asp Leu Ala Phe Gln Ala Met Leu Val Trp Val Arg
625 630 635 640
cgc acg ctc ggc cag gct gcg ctc ccc aac tcg atc cag cgc atc gtc 1968
Arg Thr Leu Gly Gln Ala Ala Leu Pro Asn Ser Ile Gln Arg Ile Val
645 650 655
cag cac cgc ccg gtc ccg cag gac aag ccc ttc tac att acc ctc cgc 2016
Gln His Arg Pro Val Pro Gln Asp Lys Pro Phe Tyr Ile Thr Leu Arg
660 665 670
tcc aac cag tcg ggc ggt cac tcc cag cac aag cac gcc ctt cag ttc 2064
Ser Asn Gln Ser Gly Gly His Ser Gln His Lys His Ala Leu Gln Phe
675 680 685
cac aac gag cag ggc gat ctc ttc att gat gtc cag gct tcg gtc atc 2112
His Asn Glu Gln Gly Asp Leu Phe Ile Asp Val Gln Ala Ser Val Ile
690 695 700
gcc acg gac agc ctt gcc ttc 2133
Ala Thr Asp Ser Leu Ala Phe
705 710
<210> 18
<211> 711
<212> PRT
<213> Schizochytrium sp.
<400> 18
Phe Gly Ala Leu Gly Gly Phe Ile Ser Gln Gln Ala Glu Arg Phe Glu
1 5 10 15
Pro Ala Glu Ile Leu Gly Phe Thr Leu Met Cys Ala Lys Phe Ala Lys
20 25 30
Ala Ser Leu Cys Thr Ala Val Ala Gly Gly Arg Pro Ala Phe Ile Gly
35 40 45
Val Ala Arg Leu Asp Gly Arg Leu Gly Phe Thr Ser Gln Gly Thr Ser
50 55 60
Asp Ala Leu Lys Arg Ala Gln Arg Gly Ala Ile Phe Gly Leu Cys Lys
65 70 75 80
Thr Ile Gly Leu Glu Trp Ser Glu Ser Asp Val Phe Ser Arg Gly Val
85 90 95
Asp Ile Ala Gln Gly Met His Pro Glu Asp Ala Ala Val Ala Ile Val
100 105 110
Arg Glu Met Ala Cys Ala Asp Ile Arg Ile Arg Glu Val Gly Ile Gly
115 120 125
Ala Asn Gln Gln Arg Cys Thr Ile Arg Ala Ala Lys Leu Glu Thr Gly
130 135 140
Asn Pro Gln Arg Gln Ile Ala Lys Asp Asp Val Leu Leu Val Ser Gly
145 150 155 160
Gly Ala Arg Gly Ile Thr Pro Leu Cys Ile Arg Glu Ile Thr Arg Gln
165 170 175
Ile Ala Gly Gly Lys Tyr Ile Leu Leu Gly Arg Ser Lys Val Ser Ala
180 185 190
Ser Glu Pro Ala Trp Cys Ala Gly Ile Thr Asp Glu Lys Ala Val Gln
195 200 205
Lys Ala Ala Thr Gln Glu Leu Lys Arg Ala Phe Ser Ala Gly Glu Gly
210 215 220
Pro Lys Pro Thr Pro Arg Ala Val Thr Lys Leu Val Gly Ser Val Leu
225 230 235 240
Gly Ala Arg Glu Val Arg Ser Ser Ile Ala Ala Ile Glu Ala Leu Gly
245 250 255
Gly Lys Ala Ile Tyr Ser Ser Cys Asp Val Asn Ser Ala Ala Asp Val
260 265 270
Ala Lys Ala Val Arg Asp Ala Glu Ser Gln Leu Gly Ala Arg Val Ser
275 280 285
Gly Ile Val His Ala Ser Gly Val Leu Arg Asp Arg Leu Ile Glu Lys
290 295 300
Lys Leu Pro Asp Glu Phe Asp Ala Val Phe Gly Thr Lys Val Thr Gly
305 310 315 320
Leu Glu Asn Leu Leu Ala Ala Val Asp Arg Ala Asn Leu Lys His Met
325 330 335
Val Leu Phe Ser Ser Leu Ala Gly Phe His Gly Asn Val Gly Gln Ser
340 345 350
Asp Tyr Ala Met Ala Asn Glu Ala Leu Asn Lys Met Gly Leu Glu Leu
355 360 365
Ala Lys Asp Val Ser Val Lys Ser Ile Cys Phe Gly Pro Trp Asp Gly
370 375 380
Gly Met Val Thr Pro Gln Leu Lys Lys Gln Phe Gln Glu Met Gly Val
385 390 395 400
Gln Ile Ile Pro Arg Glu Gly Gly Ala Asp Thr Val Ala Arg Ile Val
405 410 415
Leu Gly Ser Ser Pro Ala Glu Ile Leu Val Gly Asn Trp Arg Thr Pro
420 425 430
Ser Lys Lys Val Gly Ser Asp Thr Ile Thr Leu His Arg Lys Ile Ser
435 440 445
Ala Lys Ser Asn Pro Phe Leu Glu Asp His Val Ile Gln Gly Arg Arg
450 455 460
Val Leu Pro Met Thr Leu Ala Ile Gly Ser Leu Ala Glu Thr Cys Leu
465 470 475 480
Gly Leu Phe Pro Gly Tyr Ser Leu Trp Ala Ile Asp Asp Ala Gln Leu
485 490 495
Phe Lys Gly Val Thr Val Asp Gly Asp Val Asn Cys Glu Val Thr Leu
500 505 510
Thr Pro Ser Thr Ala Pro Ser Gly Arg Val Asn Val Gln Ala Thr Leu
515 520 525
Lys Thr Phe Ser Ser Gly Lys Leu Val Pro Ala Tyr Arg Ala Val Ile
530 535 540
Val Leu Ser Asn Gln Gly Ala Pro Pro Ala Asn Ala Thr Met Gln Pro
545 550 555 560
Pro Ser Leu Asp Ala Asp Pro Ala Leu Gln Gly Ser Val Tyr Asp Gly
565 570 575
Lys Thr Leu Phe His Gly Pro Ala Phe Arg Gly Ile Asp Asp Val Leu
580 585 590
Ser Cys Thr Lys Ser Gln Leu Val Ala Lys Cys Ser Ala Val Pro Gly
595 600 605
Ser Asp Ala Ala Arg Gly Glu Phe Ala Thr Asp Thr Asp Ala His Asp
610 615 620
Pro Phe Val Asn Asp Leu Ala Phe Gln Ala Met Leu Val Trp Val Arg
625 630 635 640
Arg Thr Leu Gly Gln Ala Ala Leu Pro Asn Ser Ile Gln Arg Ile Val
645 650 655
Gln His Arg Pro Val Pro Gln Asp Lys Pro Phe Tyr Ile Thr Leu Arg
660 665 670
Ser Asn Gln Ser Gly Gly His Ser Gln His Lys His Ala Leu Gln Phe
675 680 685
His Asn Glu Gln Gly Asp Leu Phe Ile Asp Val Gln Ala Ser Val Ile
690 695 700
Ala Thr Asp Ser Leu Ala Phe
705 710
<210> 19
<211> 1350
<212> DNA
<213> Schizochytrium sp.
<220>
<221> CDS
<222> (1)..(1350)
<400> 19
atg gcc gct cgg aat gtg agc gcc gcg cat gag atg cac gat gaa aag 48
Met Ala Ala Arg Asn Val Ser Ala Ala His Glu Met His Asp Glu Lys
1 5 10 15
cgc atc gcc gtc gtc ggc atg gcc gtc cag tac gcc gga tgc aaa acc 96
Arg Ile Ala Val Val Gly Met Ala Val Gln Tyr Ala Gly Cys Lys Thr
20 25 30
aag gac gag ttc tgg gag gtg ctc atg aac ggc aag gtc gag tcc aag 144
Lys Asp Glu Phe Trp Glu Val Leu Met Asn Gly Lys Val Glu Ser Lys
35 40 45
gtg atc agc gac aaa cga ctc ggc tcc aac tac cgc gcc gag cac tac 192
Val Ile Ser Asp Lys Arg Leu Gly Ser Asn Tyr Arg Ala Glu His Tyr
50 55 60
aaa gca gag cgc agc aag tat gcc gac acc ttt tgc aac gaa acg tac 240
Lys Ala Glu Arg Ser Lys Tyr Ala Asp Thr Phe Cys Asn Glu Thr Tyr
65 70 75 80
ggc acc ctt gac gag aac gag atc gac aac gag cac gaa ctc ctc ctc 288
Gly Thr Leu Asp Glu Asn Glu Ile Asp Asn Glu His Glu Leu Leu Leu
85 90 95
aac ctc gcc aag cag gca ctc gca gag aca tcc gtc aaa gac tcg aca 336
Asn Leu Ala Lys Gln Ala Leu Ala Glu Thr Ser Val Lys Asp Ser Thr
100 105 110
cgc tgc ggc atc gtc agc ggc tgc ctc tcg ttc ccc atg gac aac ctc 384
Arg Cys Gly Ile Val Ser Gly Cys Leu Ser Phe Pro Met Asp Asn Leu
115 120 125
cag ggt gaa ctc ctc aac gtg tac caa aac cat gtc gag aaa aag ctc 432
Gln Gly Glu Leu Leu Asn Val Tyr Gln Asn His Val Glu Lys Lys Leu
130 135 140
ggg gcc cgc gtc ttc aag gac gcc tcc cat tgg tcc gaa cgc gag cag 480
Gly Ala Arg Val Phe Lys Asp Ala Ser His Trp Ser Glu Arg Glu Gln
145 150 155 160
tcc aac aaa ccc gag gcc ggt gac cgc cgc atc ttc atg gac ccg gcc 528
Ser Asn Lys Pro Glu Ala Gly Asp Arg Arg Ile Phe Met Asp Pro Ala
165 170 175
tcc ttc gtc gcc gaa gaa ctc aac ctc ggc gcc ctt cac tac tcc gtc 576
Ser Phe Val Ala Glu Glu Leu Asn Leu Gly Ala Leu His Tyr Ser Val
180 185 190
gac gca gca tgc gcc acg gcg ctc tac gtg ctc cgc ctc gcg cag gat 624
Asp Ala Ala Cys Ala Thr Ala Leu Tyr Val Leu Arg Leu Ala Gln Asp
195 200 205
cat ctc gtc tcc ggc gcc gcc gac gtc atg ctc tgc ggt gcc acc tgc 672
His Leu Val Ser Gly Ala Ala Asp Val Met Leu Cys Gly Ala Thr Cys
210 215 220
ctg ccg gag ccc ttt ttc atc ctt tcg ggc ttt tcc acc ttc cag gcc 720
Leu Pro Glu Pro Phe Phe Ile Leu Ser Gly Phe Ser Thr Phe Gln Ala
225 230 235 240
atg ccc gtc ggc acg ggc cag aac gtg tcc atg ccg ctg cac aag gac 768
Met Pro Val Gly Thr Gly Gln Asn Val Ser Met Pro Leu His Lys Asp
245 250 255
agc cag ggc ctc acc ccg ggt gag ggc ggc tcc atc atg gtc ctc aag 816
Ser Gln Gly Leu Thr Pro Gly Glu Gly Gly Ser Ile Met Val Leu Lys
260 265 270
cgt ctc gat gat gcc atc cgc gac ggc gac cac atc tac ggc acc ctt 864
Arg Leu Asp Asp Ala Ile Arg Asp Gly Asp His Ile Tyr Gly Thr Leu
275 280 285
ctc ggc gcc aat gtc agc aac tcc ggc aca ggt ctg ccc ctc aag ccc 912
Leu Gly Ala Asn Val Ser Asn Ser Gly Thr Gly Leu Pro Leu Lys Pro
290 295 300
ctt ctc ccc agc gag aaa aag tgc ctc atg gac acc tac acg cgc att 960
Leu Leu Pro Ser Glu Lys Lys Cys Leu Met Asp Thr Tyr Thr Arg Ile
305 310 315 320
aac gtg cac ccg cac aag att cag tac gtc gag tgc cac gcc acc ggc 1008
Asn Val His Pro His Lys Ile Gln Tyr Val Glu Cys His Ala Thr Gly
325 330 335
acg ccc cag ggt gat cgt gtg gaa atc gac gcc gtc aag gcc tgc ttt 1056
Thr Pro Gln Gly Asp Arg Val Glu Ile Asp Ala Val Lys Ala Cys Phe
340 345 350
gaa ggc aag gtc ccc cgt ttc ggt acc aca aag ggc aac ttt gga cac 1104
Glu Gly Lys Val Pro Arg Phe Gly Thr Thr Lys Gly Asn Phe Gly His
355 360 365
acc ctc gtc gca gcc ggc ttt gcc ggt atg tgc aag gtc ctc ctc tcc 1152
Thr Leu Val Ala Ala Gly Phe Ala Gly Met Cys Lys Val Leu Leu Ser
370 375 380
atg aag cat ggc atc atc ccg ccc acc ccg ggt atc gat gac gag acc 1200
Met Lys His Gly Ile Ile Pro Pro Thr Pro Gly Ile Asp Asp Glu Thr
385 390 395 400
aag atg gac cct ctc gtc gtc tcc ggt gag gcc atc cca tgg cca gag 1248
Lys Met Asp Pro Leu Val Val Ser Gly Glu Ala Ile Pro Trp Pro Glu
405 410 415
acc aac ggc gag ccc aag cgc gcc ggt ctc tcg gcc ttt ggc ttt ggt 1296
Thr Asn Gly Glu Pro Lys Arg Ala Gly Leu Ser Ala Phe Gly Phe Gly
420 425 430
ggc acc aac gcc cat gcc gtc ttt gag gag cat gac ccc tcc aac gcc 1344
Gly Thr Asn Ala His Ala Val Phe Glu Glu His Asp Pro Ser Asn Ala
435 440 445
gcc tgc 1350
Ala Cys
450
<210> 20
<211> 450
<212> PRT
<213> Schizochytrium sp.
<400> 20
Met Ala Ala Arg Asn Val Ser Ala Ala His Glu Met His Asp Glu Lys
1 5 10 15
Arg Ile Ala Val Val Gly Met Ala Val Gln Tyr Ala Gly Cys Lys Thr
20 25 30
Lys Asp Glu Phe Trp Glu Val Leu Met Asn Gly Lys Val Glu Ser Lys
35 40 45
Val Ile Ser Asp Lys Arg Leu Gly Ser Asn Tyr Arg Ala Glu His Tyr
50 55 60
Lys Ala Glu Arg Ser Lys Tyr Ala Asp Thr Phe Cys Asn Glu Thr Tyr
65 70 75 80
Gly Thr Leu Asp Glu Asn Glu Ile Asp Asn Glu His Glu Leu Leu Leu
85 90 95
Asn Leu Ala Lys Gln Ala Leu Ala Glu Thr Ser Val Lys Asp Ser Thr
100 105 110
Arg Cys Gly Ile Val Ser Gly Cys Leu Ser Phe Pro Met Asp Asn Leu
115 120 125
Gln Gly Glu Leu Leu Asn Val Tyr Gln Asn His Val Glu Lys Lys Leu
130 135 140
Gly Ala Arg Val Phe Lys Asp Ala Ser His Trp Ser Glu Arg Glu Gln
145 150 155 160
Ser Asn Lys Pro Glu Ala Gly Asp Arg Arg Ile Phe Met Asp Pro Ala
165 170 175
Ser Phe Val Ala Glu Glu Leu Asn Leu Gly Ala Leu His Tyr Ser Val
180 185 190
Asp Ala Ala Cys Ala Thr Ala Leu Tyr Val Leu Arg Leu Ala Gln Asp
195 200 205
His Leu Val Ser Gly Ala Ala Asp Val Met Leu Cys Gly Ala Thr Cys
210 215 220
Leu Pro Glu Pro Phe Phe Ile Leu Ser Gly Phe Ser Thr Phe Gln Ala
225 230 235 240
Met Pro Val Gly Thr Gly Gln Asn Val Ser Met Pro Leu His Lys Asp
245 250 255
Ser Gln Gly Leu Thr Pro Gly Glu Gly Gly Ser Ile Met Val Leu Lys
260 265 270
Arg Leu Asp Asp Ala Ile Arg Asp Gly Asp His Ile Tyr Gly Thr Leu
275 280 285
Leu Gly Ala Asn Val Ser Asn Ser Gly Thr Gly Leu Pro Leu Lys Pro
290 295 300
Leu Leu Pro Ser Glu Lys Lys Cys Leu Met Asp Thr Tyr Thr Arg Ile
305 310 315 320
Asn Val His Pro His Lys Ile Gln Tyr Val Glu Cys His Ala Thr Gly
325 330 335
Thr Pro Gln Gly Asp Arg Val Glu Ile Asp Ala Val Lys Ala Cys Phe
340 345 350
Glu Gly Lys Val Pro Arg Phe Gly Thr Thr Lys Gly Asn Phe Gly His
355 360 365
Thr Leu Val Ala Ala Gly Phe Ala Gly Met Cys Lys Val Leu Leu Ser
370 375 380
Met Lys His Gly Ile Ile Pro Pro Thr Pro Gly Ile Asp Asp Glu Thr
385 390 395 400
Lys Met Asp Pro Leu Val Val Ser Gly Glu Ala Ile Pro Trp Pro Glu
405 410 415
Thr Asn Gly Glu Pro Lys Arg Ala Gly Leu Ser Ala Phe Gly Phe Gly
420 425 430
Gly Thr Asn Ala His Ala Val Phe Glu Glu His Asp Pro Ser Asn Ala
435 440 445
Ala Cys
450
<210> 21
<211> 1323
<212> DNA
<213> Schizochytrium sp.
<220>
<221> CDS
<222> (1)..(1323)
<400> 21
tcg gcc cgc tgc ggc ggt gaa agc aac atg cgc atc gcc atc act ggt 48
Ser Ala Arg Cys Gly Gly Glu Ser Asn Met Arg Ile Ala Ile Thr Gly
1 5 10 15
atg gac gcc acc ttt ggc gct ctc aag gga ctc gac gcc ttc gag cgc 96
Met Asp Ala Thr Phe Gly Ala Leu Lys Gly Leu Asp Ala Phe Glu Arg
20 25 30
gcc att tac acc ggc gct cac ggt gcc atc cca ctc cca gaa aag cgc 144
Ala Ile Tyr Thr Gly Ala His Gly Ala Ile Pro Leu Pro Glu Lys Arg
35 40 45
tgg cgc ttt ctc ggc aag gac aag gac ttt ctt gac ctc tgc ggc gtc 192
Trp Arg Phe Leu Gly Lys Asp Lys Asp Phe Leu Asp Leu Cys Gly Val
50 55 60
aag gcc acc ccg cac ggc tgc tac att gaa gat gtt gag gtc gac ttc 240
Lys Ala Thr Pro His Gly Cys Tyr Ile Glu Asp Val Glu Val Asp Phe
65 70 75 80
cag cgc ctc cgc acg ccc atg acc cct gaa gac atg ctc ctc cct cag 288
Gln Arg Leu Arg Thr Pro Met Thr Pro Glu Asp Met Leu Leu Pro Gln
85 90 95
cag ctt ctg gcc gtc acc acc att gac cgc gcc atc ctc gac tcg gga 336
Gln Leu Leu Ala Val Thr Thr Ile Asp Arg Ala Ile Leu Asp Ser Gly
100 105 110
atg aaa aag ggt ggc aat gtc gcc gtc ttt gtc ggc ctc ggc acc gac 384
Met Lys Lys Gly Gly Asn Val Ala Val Phe Val Gly Leu Gly Thr Asp
115 120 125
ctc gag ctc tac cgt cac cgt gct cgc gtc gct ctc aag gag cgc gtc 432
Leu Glu Leu Tyr Arg His Arg Ala Arg Val Ala Leu Lys Glu Arg Val
130 135 140
cgc cct gaa gcc tcc aag aag ctc aat gac atg atg cag tac att aac 480
Arg Pro Glu Ala Ser Lys Lys Leu Asn Asp Met Met Gln Tyr Ile Asn
145 150 155 160
gac tgc ggc aca tcc aca tcg tac acc tcg tac att ggc aac ctc gtc 528
Asp Cys Gly Thr Ser Thr Ser Tyr Thr Ser Tyr Ile Gly Asn Leu Val
165 170 175
gcc acg cgc gtc tcg tcg cag tgg ggc ttc acg ggc ccc tcc ttt acg 576
Ala Thr Arg Val Ser Ser Gln Trp Gly Phe Thr Gly Pro Ser Phe Thr
180 185 190
atc acc gag ggc aac aac tcc gtc tac cgc tgc gcc gag ctc ggc aag 624
Ile Thr Glu Gly Asn Asn Ser Val Tyr Arg Cys Ala Glu Leu Gly Lys
195 200 205
tac ctc ctc gag acc ggc gag gtc gat ggc gtc gtc gtt gcg ggt gtc 672
Tyr Leu Leu Glu Thr Gly Glu Val Asp Gly Val Val Val Ala Gly Val
210 215 220
gat ctc tgc ggc agt gcc gaa aac ctt tac gtc aag tct cgc cgc ttc 720
Asp Leu Cys Gly Ser Ala Glu Asn Leu Tyr Val Lys Ser Arg Arg Phe
225 230 235 240
aag gtg tcc acc tcc gat acc ccg cgc gcc agc ttt gac gcc gcc gcc 768
Lys Val Ser Thr Ser Asp Thr Pro Arg Ala Ser Phe Asp Ala Ala Ala
245 250 255
gat ggc tac ttt gtc ggc gag ggc tgc ggt gcc ttt gtg ctc aag cgt 816
Asp Gly Tyr Phe Val Gly Glu Gly Cys Gly Ala Phe Val Leu Lys Arg
260 265 270
gag act agc tgc acc aag gac gac cgt atc tac gct tgc atg gat gcc 864
Glu Thr Ser Cys Thr Lys Asp Asp Arg Ile Tyr Ala Cys Met Asp Ala
275 280 285
atc gtc cct ggc aac gtc cct agc gcc tgc ttg cgc gag gcc ctc gac 912
Ile Val Pro Gly Asn Val Pro Ser Ala Cys Leu Arg Glu Ala Leu Asp
290 295 300
cag gcg cgc gtc aag ccg ggc gat atc gag atg ctc gag ctc agc gcc 960
Gln Ala Arg Val Lys Pro Gly Asp Ile Glu Met Leu Glu Leu Ser Ala
305 310 315 320
gac tcc gcc cgc cac ctc aag gac ccg tcc gtc ctg ccc aag gag ctc 1008
Asp Ser Ala Arg His Leu Lys Asp Pro Ser Val Leu Pro Lys Glu Leu
325 330 335
act gcc gag gag gaa atc ggc ggc ctt cag acg atc ctt cgt gac gat 1056
Thr Ala Glu Glu Glu Ile Gly Gly Leu Gln Thr Ile Leu Arg Asp Asp
340 345 350
gac aag ctc ccg cgc aac gtc gca acg ggc agt gtc aag gcc acc gtc 1104
Asp Lys Leu Pro Arg Asn Val Ala Thr Gly Ser Val Lys Ala Thr Val
355 360 365
ggt gac acc ggt tat gcc tct ggt gct gcc agc ctc atc aag gct gcg 1152
Gly Asp Thr Gly Tyr Ala Ser Gly Ala Ala Ser Leu Ile Lys Ala Ala
370 375 380
ctt tgc atc tac aac cgc tac ctg ccc agc aac ggc gac gac tgg gat 1200
Leu Cys Ile Tyr Asn Arg Tyr Leu Pro Ser Asn Gly Asp Asp Trp Asp
385 390 395 400
gaa ccc gcc cct gag gcg ccc tgg gac agc acc ctc ttt gcg tgc cag 1248
Glu Pro Ala Pro Glu Ala Pro Trp Asp Ser Thr Leu Phe Ala Cys Gln
405 410 415
acc tcg cgc gct tgg ctc aag aac cct ggc gag cgt cgc tat gcg gcc 1296
Thr Ser Arg Ala Trp Leu Lys Asn Pro Gly Glu Arg Arg Tyr Ala Ala
420 425 430
gtc tcg ggc gtc tcc gag acg cgc tcg 1323
Val Ser Gly Val Ser Glu Thr Arg Ser
435 440
<210> 22
<211> 441
<212> PRT
<213> Schizochytrium sp.
<400> 22
Ser Ala Arg Cys Gly Gly Glu Ser Asn Met Arg Ile Ala Ile Thr Gly
1 5 10 15
Met Asp Ala Thr Phe Gly Ala Leu Lys Gly Leu Asp Ala Phe Glu Arg
20 25 30
Ala Ile Tyr Thr Gly Ala His Gly Ala Ile Pro Leu Pro Glu Lys Arg
35 40 45
Trp Arg Phe Leu Gly Lys Asp Lys Asp Phe Leu Asp Leu Cys Gly Val
50 55 60
Lys Ala Thr Pro His Gly Cys Tyr Ile Glu Asp Val Glu Val Asp Phe
65 70 75 80
Gln Arg Leu Arg Thr Pro Met Thr Pro Glu Asp Met Leu Leu Pro Gln
85 90 95
Gln Leu Leu Ala Val Thr Thr Ile Asp Arg Ala Ile Leu Asp Ser Gly
100 105 110
Met Lys Lys Gly Gly Asn Val Ala Val Phe Val Gly Leu Gly Thr Asp
115 120 125
Leu Glu Leu Tyr Arg His Arg Ala Arg Val Ala Leu Lys Glu Arg Val
130 135 140
Arg Pro Glu Ala Ser Lys Lys Leu Asn Asp Met Met Gln Tyr Ile Asn
145 150 155 160
Asp Cys Gly Thr Ser Thr Ser Tyr Thr Ser Tyr Ile Gly Asn Leu Val
165 170 175
Ala Thr Arg Val Ser Ser Gln Trp Gly Phe Thr Gly Pro Ser Phe Thr
180 185 190
Ile Thr Glu Gly Asn Asn Ser Val Tyr Arg Cys Ala Glu Leu Gly Lys
195 200 205
Tyr Leu Leu Glu Thr Gly Glu Val Asp Gly Val Val Val Ala Gly Val
210 215 220
Asp Leu Cys Gly Ser Ala Glu Asn Leu Tyr Val Lys Ser Arg Arg Phe
225 230 235 240
Lys Val Ser Thr Ser Asp Thr Pro Arg Ala Ser Phe Asp Ala Ala Ala
245 250 255
Asp Gly Tyr Phe Val Gly Glu Gly Cys Gly Ala Phe Val Leu Lys Arg
260 265 270
Glu Thr Ser Cys Thr Lys Asp Asp Arg Ile Tyr Ala Cys Met Asp Ala
275 280 285
Ile Val Pro Gly Asn Val Pro Ser Ala Cys Leu Arg Glu Ala Leu Asp
290 295 300
Gln Ala Arg Val Lys Pro Gly Asp Ile Glu Met Leu Glu Leu Ser Ala
305 310 315 320
Asp Ser Ala Arg His Leu Lys Asp Pro Ser Val Leu Pro Lys Glu Leu
325 330 335
Thr Ala Glu Glu Glu Ile Gly Gly Leu Gln Thr Ile Leu Arg Asp Asp
340 345 350
Asp Lys Leu Pro Arg Asn Val Ala Thr Gly Ser Val Lys Ala Thr Val
355 360 365
Gly Asp Thr Gly Tyr Ala Ser Gly Ala Ala Ser Leu Ile Lys Ala Ala
370 375 380
Leu Cys Ile Tyr Asn Arg Tyr Leu Pro Ser Asn Gly Asp Asp Trp Asp
385 390 395 400
Glu Pro Ala Pro Glu Ala Pro Trp Asp Ser Thr Leu Phe Ala Cys Gln
405 410 415
Thr Ser Arg Ala Trp Leu Lys Asn Pro Gly Glu Arg Arg Tyr Ala Ala
420 425 430
Val Ser Gly Val Ser Glu Thr Arg Ser
435 440
<210> 23
<211> 1500
<212> DNA
<213> Schizochytrium sp.
<220>
<221> CDS
<222> (1)..(1500)
<400> 23
tgc tat tcc gtg ctc ctc tcc gaa gcc gag ggc cac tac gag cgc gag 48
Cys Tyr Ser Val Leu Leu Ser Glu Ala Glu Gly His Tyr Glu Arg Glu
1 5 10 15
aac cgc atc tcg ctc gac gag gag gcg ccc aag ctc att gtg ctt cgc 96
Asn Arg Ile Ser Leu Asp Glu Glu Ala Pro Lys Leu Ile Val Leu Arg
20 25 30
gcc gac tcc cac gag gag atc ctt ggt cgc ctc gac aag atc cgc gag 144
Ala Asp Ser His Glu Glu Ile Leu Gly Arg Leu Asp Lys Ile Arg Glu
35 40 45
cgc ttc ttg cag ccc acg ggc gcc gcc ccg cgc gag tcc gag ctc aag 192
Arg Phe Leu Gln Pro Thr Gly Ala Ala Pro Arg Glu Ser Glu Leu Lys
50 55 60
gcg cag gcc cgc cgc atc ttc ctc gag ctc ctc ggc gag acc ctt gcc 240
Ala Gln Ala Arg Arg Ile Phe Leu Glu Leu Leu Gly Glu Thr Leu Ala
65 70 75 80
cag gat gcc gct tct tca ggc tcg caa aag ccc ctc gct ctc agc ctc 288
Gln Asp Ala Ala Ser Ser Gly Ser Gln Lys Pro Leu Ala Leu Ser Leu
85 90 95
gtc tcc acg ccc tcc aag ctc cag cgc gag gtc gag ctc gcg gcc aag 336
Val Ser Thr Pro Ser Lys Leu Gln Arg Glu Val Glu Leu Ala Ala Lys
100 105 110
ggt atc ccg cgc tgc ctc aag atg cgc cgc gat tgg agc tcc cct gct 384
Gly Ile Pro Arg Cys Leu Lys Met Arg Arg Asp Trp Ser Ser Pro Ala
115 120 125
ggc agc cgc tac gcg cct gag ccg ctc gcc agc gac cgc gtc gcc ttc 432
Gly Ser Arg Tyr Ala Pro Glu Pro Leu Ala Ser Asp Arg Val Ala Phe
130 135 140
atg tac ggc gaa ggt cgc agc cct tac tac ggc atc acc caa gac att 480
Met Tyr Gly Glu Gly Arg Ser Pro Tyr Tyr Gly Ile Thr Gln Asp Ile
145 150 155 160
cac cgc att tgg ccc gaa ctc cac gag gtc atc aac gaa aag acg aac 528
His Arg Ile Trp Pro Glu Leu His Glu Val Ile Asn Glu Lys Thr Asn
165 170 175
cgt ctc tgg gcc gaa ggc gac cgc tgg gtc atg ccg cgc gcc agc ttc 576
Arg Leu Trp Ala Glu Gly Asp Arg Trp Val Met Pro Arg Ala Ser Phe
180 185 190
aag tcg gag ctc gag agc cag cag caa gag ttt gat cgc aac atg att 624
Lys Ser Glu Leu Glu Ser Gln Gln Gln Glu Phe Asp Arg Asn Met Ile
195 200 205
gaa atg ttc cgt ctt gga atc ctc acc tca att gcc ttc acc aat ctg 672
Glu Met Phe Arg Leu Gly Ile Leu Thr Ser Ile Ala Phe Thr Asn Leu
210 215 220
gcg cgc gac gtt ctc aac atc acg ccc aag gcc gcc ttt ggc ctc agt 720
Ala Arg Asp Val Leu Asn Ile Thr Pro Lys Ala Ala Phe Gly Leu Ser
225 230 235 240
ctt ggc gag att tcc atg att ttt gcc ttt tcc aag aag aac ggt ctc 768
Leu Gly Glu Ile Ser Met Ile Phe Ala Phe Ser Lys Lys Asn Gly Leu
245 250 255
atc tcc gac cag ctc acc aag gat ctt cgc gag tcc gac gtg tgg aac 816
Ile Ser Asp Gln Leu Thr Lys Asp Leu Arg Glu Ser Asp Val Trp Asn
260 265 270
aag gct ctg gcc gtt gaa ttt aat gcg ctg cgc gag gcc tgg ggc att 864
Lys Ala Leu Ala Val Glu Phe Asn Ala Leu Arg Glu Ala Trp Gly Ile
275 280 285
cca cag agt gtc ccc aag gac gag ttc tgg caa ggc tac att gtg cgc 912
Pro Gln Ser Val Pro Lys Asp Glu Phe Trp Gln Gly Tyr Ile Val Arg
290 295 300
ggc acc aag cag gat atc gag gcg gcc atc gcc ccg gac agc aag tac 960
Gly Thr Lys Gln Asp Ile Glu Ala Ala Ile Ala Pro Asp Ser Lys Tyr
305 310 315 320
gtg cgc ctc acc atc atc aat gat gcc aac acc gcc ctc att agc ggc 1008
Val Arg Leu Thr Ile Ile Asn Asp Ala Asn Thr Ala Leu Ile Ser Gly
325 330 335
aag ccc gac gcc tgc aag gct gcg atc gcg cgt ctc ggt ggc aac att 1056
Lys Pro Asp Ala Cys Lys Ala Ala Ile Ala Arg Leu Gly Gly Asn Ile
340 345 350
cct gcg ctt ccc gtg acc cag ggc atg tgc ggc cac tgc ccc gag gtg 1104
Pro Ala Leu Pro Val Thr Gln Gly Met Cys Gly His Cys Pro Glu Val
355 360 365
gga cct tat acc aag gat atc gcc aag atc cat gcc aac ctt gag ttc 1152
Gly Pro Tyr Thr Lys Asp Ile Ala Lys Ile His Ala Asn Leu Glu Phe
370 375 380
ccc gtt gtc gac ggc ctt gac ctc tgg acc aca atc aac cag aag cgc 1200
Pro Val Val Asp Gly Leu Asp Leu Trp Thr Thr Ile Asn Gln Lys Arg
385 390 395 400
ctc gtg cca cgc gcc acg ggc gcc aag gac gaa tgg gcc cct tct tcc 1248
Leu Val Pro Arg Ala Thr Gly Ala Lys Asp Glu Trp Ala Pro Ser Ser
405 410 415
ttt ggc gag tac gcc ggc cag ctc tac gag aag cag gct aac ttc ccc 1296
Phe Gly Glu Tyr Ala Gly Gln Leu Tyr Glu Lys Gln Ala Asn Phe Pro
420 425 430
caa atc gtc gag acc att tac aag caa aac tac gac gtc ttt gtc gag 1344
Gln Ile Val Glu Thr Ile Tyr Lys Gln Asn Tyr Asp Val Phe Val Glu
435 440 445
gtt ggg ccc aac aac cac cgt agc acc gca gtg cgc acc acg ctt ggt 1392
Val Gly Pro Asn Asn His Arg Ser Thr Ala Val Arg Thr Thr Leu Gly
450 455 460
ccc cag cgc aac cac ctt gct ggc gcc atc gac aag cag aac gag gat 1440
Pro Gln Arg Asn His Leu Ala Gly Ala Ile Asp Lys Gln Asn Glu Asp
465 470 475 480
gct tgg acg acc atc gtc aag ctt gtg gct tcg ctc aag gcc cac ctt 1488
Ala Trp Thr Thr Ile Val Lys Leu Val Ala Ser Leu Lys Ala His Leu
485 490 495
gtt cct ggc gtc 1500
Val Pro Gly Val
500
<210> 24
<211> 500
<212> PRT
<213> Schizochytrium sp.
<400> 24
Cys Tyr Ser Val Leu Leu Ser Glu Ala Glu Gly His Tyr Glu Arg Glu
1 5 10 15
Asn Arg Ile Ser Leu Asp Glu Glu Ala Pro Lys Leu Ile Val Leu Arg
20 25 30
Ala Asp Ser His Glu Glu Ile Leu Gly Arg Leu Asp Lys Ile Arg Glu
35 40 45
Arg Phe Leu Gln Pro Thr Gly Ala Ala Pro Arg Glu Ser Glu Leu Lys
50 55 60
Ala Gln Ala Arg Arg Ile Phe Leu Glu Leu Leu Gly Glu Thr Leu Ala
65 70 75 80
Gln Asp Ala Ala Ser Ser Gly Ser Gln Lys Pro Leu Ala Leu Ser Leu
85 90 95
Val Ser Thr Pro Ser Lys Leu Gln Arg Glu Val Glu Leu Ala Ala Lys
100 105 110
Gly Ile Pro Arg Cys Leu Lys Met Arg Arg Asp Trp Ser Ser Pro Ala
115 120 125
Gly Ser Arg Tyr Ala Pro Glu Pro Leu Ala Ser Asp Arg Val Ala Phe
130 135 140
Met Tyr Gly Glu Gly Arg Ser Pro Tyr Tyr Gly Ile Thr Gln Asp Ile
145 150 155 160
His Arg Ile Trp Pro Glu Leu His Glu Val Ile Asn Glu Lys Thr Asn
165 170 175
Arg Leu Trp Ala Glu Gly Asp Arg Trp Val Met Pro Arg Ala Ser Phe
180 185 190
Lys Ser Glu Leu Glu Ser Gln Gln Gln Glu Phe Asp Arg Asn Met Ile
195 200 205
Glu Met Phe Arg Leu Gly Ile Leu Thr Ser Ile Ala Phe Thr Asn Leu
210 215 220
Ala Arg Asp Val Leu Asn Ile Thr Pro Lys Ala Ala Phe Gly Leu Ser
225 230 235 240
Leu Gly Glu Ile Ser Met Ile Phe Ala Phe Ser Lys Lys Asn Gly Leu
245 250 255
Ile Ser Asp Gln Leu Thr Lys Asp Leu Arg Glu Ser Asp Val Trp Asn
260 265 270
Lys Ala Leu Ala Val Glu Phe Asn Ala Leu Arg Glu Ala Trp Gly Ile
275 280 285
Pro Gln Ser Val Pro Lys Asp Glu Phe Trp Gln Gly Tyr Ile Val Arg
290 295 300
Gly Thr Lys Gln Asp Ile Glu Ala Ala Ile Ala Pro Asp Ser Lys Tyr
305 310 315 320
Val Arg Leu Thr Ile Ile Asn Asp Ala Asn Thr Ala Leu Ile Ser Gly
325 330 335
Lys Pro Asp Ala Cys Lys Ala Ala Ile Ala Arg Leu Gly Gly Asn Ile
340 345 350
Pro Ala Leu Pro Val Thr Gln Gly Met Cys Gly His Cys Pro Glu Val
355 360 365
Gly Pro Tyr Thr Lys Asp Ile Ala Lys Ile His Ala Asn Leu Glu Phe
370 375 380
Pro Val Val Asp Gly Leu Asp Leu Trp Thr Thr Ile Asn Gln Lys Arg
385 390 395 400
Leu Val Pro Arg Ala Thr Gly Ala Lys Asp Glu Trp Ala Pro Ser Ser
405 410 415
Phe Gly Glu Tyr Ala Gly Gln Leu Tyr Glu Lys Gln Ala Asn Phe Pro
420 425 430
Gln Ile Val Glu Thr Ile Tyr Lys Gln Asn Tyr Asp Val Phe Val Glu
435 440 445
Val Gly Pro Asn Asn His Arg Ser Thr Ala Val Arg Thr Thr Leu Gly
450 455 460
Pro Gln Arg Asn His Leu Ala Gly Ala Ile Asp Lys Gln Asn Glu Asp
465 470 475 480
Ala Trp Thr Thr Ile Val Lys Leu Val Ala Ser Leu Lys Ala His Leu
485 490 495
Val Pro Gly Val
500
<210> 25
<211> 1530
<212> DNA
<213> Schizochytrium sp.
<220>
<221> CDS
<222> (1)..(1530)
<400> 25
ctg ctc gat ctc gac agt atg ctt gcg ctg agc tct gcc agt gcc tcc 48
Leu Leu Asp Leu Asp Ser Met Leu Ala Leu Ser Ser Ala Ser Ala Ser
1 5 10 15
ggc aac ctt gtt gag act gcg cct agc gac gcc tcg gtc att gtg ccg 96
Gly Asn Leu Val Glu Thr Ala Pro Ser Asp Ala Ser Val Ile Val Pro
20 25 30
ccc tgc aac att gcg gat ctc ggc agc cgc gcc ttc atg aaa acg tac 144
Pro Cys Asn Ile Ala Asp Leu Gly Ser Arg Ala Phe Met Lys Thr Tyr
35 40 45
ggt gtt tcg gcg cct ctg tac acg ggc gcc atg gcc aag ggc att gcc 192
Gly Val Ser Ala Pro Leu Tyr Thr Gly Ala Met Ala Lys Gly Ile Ala
50 55 60
tct gcg gac ctc gtc att gcc gcc ggc cgc cag ggc atc ctt gcg tcc 240
Ser Ala Asp Leu Val Ile Ala Ala Gly Arg Gln Gly Ile Leu Ala Ser
65 70 75 80
ttt ggc gcc ggc gga ctt ccc atg cag gtt gtg cgt gag tcc atc gaa 288
Phe Gly Ala Gly Gly Leu Pro Met Gln Val Val Arg Glu Ser Ile Glu
85 90 95
aag att cag gcc gcc ctg ccc aat ggc ccg tac gct gtc aac ctt atc 336
Lys Ile Gln Ala Ala Leu Pro Asn Gly Pro Tyr Ala Val Asn Leu Ile
100 105 110
cat tct ccc ttt gac agc aac ctc gaa aag ggc aat gtc gat ctc ttc 384
His Ser Pro Phe Asp Ser Asn Leu Glu Lys Gly Asn Val Asp Leu Phe
115 120 125
ctc gag aag ggt gtc acc ttt gtc gag gcc tcg gcc ttt atg acg ctc 432
Leu Glu Lys Gly Val Thr Phe Val Glu Ala Ser Ala Phe Met Thr Leu
130 135 140
acc ccg cag gtc gtg cgg tac cgc gcg gct ggc ctc acg cgc aac gcc 480
Thr Pro Gln Val Val Arg Tyr Arg Ala Ala Gly Leu Thr Arg Asn Ala
145 150 155 160
gac ggc tcg gtc aac atc cgc aac cgt atc att ggc aag gtc tcg cgc 528
Asp Gly Ser Val Asn Ile Arg Asn Arg Ile Ile Gly Lys Val Ser Arg
165 170 175
acc gag ctc gcc gag atg ttc atg cgt cct gcg ccc gag cac ctt ctt 576
Thr Glu Leu Ala Glu Met Phe Met Arg Pro Ala Pro Glu His Leu Leu
180 185 190
cag aag ctc att gct tcc ggc gag atc aac cag gag cag gcc gag ctc 624
Gln Lys Leu Ile Ala Ser Gly Glu Ile Asn Gln Glu Gln Ala Glu Leu
195 200 205
gcc cgc cgt gtt ccc gtc gct gac gac atc gcg gtc gaa gct gac tcg 672
Ala Arg Arg Val Pro Val Ala Asp Asp Ile Ala Val Glu Ala Asp Ser
210 215 220
ggt ggc cac acc gac aac cgc ccc atc cac gtc att ctg ccc ctc atc 720
Gly Gly His Thr Asp Asn Arg Pro Ile His Val Ile Leu Pro Leu Ile
225 230 235 240
atc aac ctt cgc gac cgc ctt cac cgc gag tgc ggc tac ccg gcc aac 768
Ile Asn Leu Arg Asp Arg Leu His Arg Glu Cys Gly Tyr Pro Ala Asn
245 250 255
ctt cgc gtc cgt gtg ggc gcc ggc ggt ggc att ggg tgc ccc cag gcg 816
Leu Arg Val Arg Val Gly Ala Gly Gly Gly Ile Gly Cys Pro Gln Ala
260 265 270
gcg ctg gcc acc ttc aac atg ggt gcc tcc ttt att gtc acc ggc acc 864
Ala Leu Ala Thr Phe Asn Met Gly Ala Ser Phe Ile Val Thr Gly Thr
275 280 285
gtg aac cag gtc gcc aag cag tcg ggc acg tgc gac aat gtg cgc aag 912
Val Asn Gln Val Ala Lys Gln Ser Gly Thr Cys Asp Asn Val Arg Lys
290 295 300
cag ctc gcg aag gcc act tac tcg gac gta tgc atg gcc ccg gct gcc 960
Gln Leu Ala Lys Ala Thr Tyr Ser Asp Val Cys Met Ala Pro Ala Ala
305 310 315 320
gac atg ttc gag gaa ggc gtc aag ctt cag gtc ctc aag aag gga acc 1008
Asp Met Phe Glu Glu Gly Val Lys Leu Gln Val Leu Lys Lys Gly Thr
325 330 335
atg ttt ccc tcg cgc gcc aac aag ctc tac gag ctc ttt tgc aag tac 1056
Met Phe Pro Ser Arg Ala Asn Lys Leu Tyr Glu Leu Phe Cys Lys Tyr
340 345 350
gac tcg ttc gag tcc atg ccc ccc gca gag ctt gcg cgc gtc gag aag 1104
Asp Ser Phe Glu Ser Met Pro Pro Ala Glu Leu Ala Arg Val Glu Lys
355 360 365
cgc atc ttc agc cgc gcg ctc gaa gag gtc tgg gac gag acc aaa aac 1152
Arg Ile Phe Ser Arg Ala Leu Glu Glu Val Trp Asp Glu Thr Lys Asn
370 375 380
ttt tac att aac cgt ctt cac aac ccg gag aag atc cag cgc gcc gag 1200
Phe Tyr Ile Asn Arg Leu His Asn Pro Glu Lys Ile Gln Arg Ala Glu
385 390 395 400
cgc gac ccc aag ctc aag atg tcg ctg tgc ttt cgc tgg tac ctg agc 1248
Arg Asp Pro Lys Leu Lys Met Ser Leu Cys Phe Arg Trp Tyr Leu Ser
405 410 415
ctg gcg agc cgc tgg gcc aac act gga gct tcc gat cgc gtc atg gac 1296
Leu Ala Ser Arg Trp Ala Asn Thr Gly Ala Ser Asp Arg Val Met Asp
420 425 430
tac cag gtc tgg tgc ggt cct gcc att ggt tcc ttc aac gat ttc atc 1344
Tyr Gln Val Trp Cys Gly Pro Ala Ile Gly Ser Phe Asn Asp Phe Ile
435 440 445
aag gga act tac ctt gat ccg gcc gtc gca aac gag tac ccg tgc gtc 1392
Lys Gly Thr Tyr Leu Asp Pro Ala Val Ala Asn Glu Tyr Pro Cys Val
450 455 460
gtt cag att aac aag cag atc ctt cgt gga gcg tgc ttc ttg cgc cgt 1440
Val Gln Ile Asn Lys Gln Ile Leu Arg Gly Ala Cys Phe Leu Arg Arg
465 470 475 480
ctc gaa att ctg cgc aac gca cgc ctt tcc gat ggc gct gcc gct ctt 1488
Leu Glu Ile Leu Arg Asn Ala Arg Leu Ser Asp Gly Ala Ala Ala Leu
485 490 495
gtg gcc agc atc gat gac aca tac gtc ccg gcc gag aag ctg 1530
Val Ala Ser Ile Asp Asp Thr Tyr Val Pro Ala Glu Lys Leu
500 505 510
<210> 26
<211> 510
<212> PRT
<213> Schizochytrium sp.
<400> 26
Leu Leu Asp Leu Asp Ser Met Leu Ala Leu Ser Ser Ala Ser Ala Ser
1 5 10 15
Gly Asn Leu Val Glu Thr Ala Pro Ser Asp Ala Ser Val Ile Val Pro
20 25 30
Pro Cys Asn Ile Ala Asp Leu Gly Ser Arg Ala Phe Met Lys Thr Tyr
35 40 45
Gly Val Ser Ala Pro Leu Tyr Thr Gly Ala Met Ala Lys Gly Ile Ala
50 55 60
Ser Ala Asp Leu Val Ile Ala Ala Gly Arg Gln Gly Ile Leu Ala Ser
65 70 75 80
Phe Gly Ala Gly Gly Leu Pro Met Gln Val Val Arg Glu Ser Ile Glu
85 90 95
Lys Ile Gln Ala Ala Leu Pro Asn Gly Pro Tyr Ala Val Asn Leu Ile
100 105 110
His Ser Pro Phe Asp Ser Asn Leu Glu Lys Gly Asn Val Asp Leu Phe
115 120 125
Leu Glu Lys Gly Val Thr Phe Val Glu Ala Ser Ala Phe Met Thr Leu
130 135 140
Thr Pro Gln Val Val Arg Tyr Arg Ala Ala Gly Leu Thr Arg Asn Ala
145 150 155 160
Asp Gly Ser Val Asn Ile Arg Asn Arg Ile Ile Gly Lys Val Ser Arg
165 170 175
Thr Glu Leu Ala Glu Met Phe Met Arg Pro Ala Pro Glu His Leu Leu
180 185 190
Gln Lys Leu Ile Ala Ser Gly Glu Ile Asn Gln Glu Gln Ala Glu Leu
195 200 205
Ala Arg Arg Val Pro Val Ala Asp Asp Ile Ala Val Glu Ala Asp Ser
210 215 220
Gly Gly His Thr Asp Asn Arg Pro Ile His Val Ile Leu Pro Leu Ile
225 230 235 240
Ile Asn Leu Arg Asp Arg Leu His Arg Glu Cys Gly Tyr Pro Ala Asn
245 250 255
Leu Arg Val Arg Val Gly Ala Gly Gly Gly Ile Gly Cys Pro Gln Ala
260 265 270
Ala Leu Ala Thr Phe Asn Met Gly Ala Ser Phe Ile Val Thr Gly Thr
275 280 285
Val Asn Gln Val Ala Lys Gln Ser Gly Thr Cys Asp Asn Val Arg Lys
290 295 300
Gln Leu Ala Lys Ala Thr Tyr Ser Asp Val Cys Met Ala Pro Ala Ala
305 310 315 320
Asp Met Phe Glu Glu Gly Val Lys Leu Gln Val Leu Lys Lys Gly Thr
325 330 335
Met Phe Pro Ser Arg Ala Asn Lys Leu Tyr Glu Leu Phe Cys Lys Tyr
340 345 350
Asp Ser Phe Glu Ser Met Pro Pro Ala Glu Leu Ala Arg Val Glu Lys
355 360 365
Arg Ile Phe Ser Arg Ala Leu Glu Glu Val Trp Asp Glu Thr Lys Asn
370 375 380
Phe Tyr Ile Asn Arg Leu His Asn Pro Glu Lys Ile Gln Arg Ala Glu
385 390 395 400
Arg Asp Pro Lys Leu Lys Met Ser Leu Cys Phe Arg Trp Tyr Leu Ser
405 410 415
Leu Ala Ser Arg Trp Ala Asn Thr Gly Ala Ser Asp Arg Val Met Asp
420 425 430
Tyr Gln Val Trp Cys Gly Pro Ala Ile Gly Ser Phe Asn Asp Phe Ile
435 440 445
Lys Gly Thr Tyr Leu Asp Pro Ala Val Ala Asn Glu Tyr Pro Cys Val
450 455 460
Val Gln Ile Asn Lys Gln Ile Leu Arg Gly Ala Cys Phe Leu Arg Arg
465 470 475 480
Leu Glu Ile Leu Arg Asn Ala Arg Leu Ser Asp Gly Ala Ala Ala Leu
485 490 495
Val Ala Ser Ile Asp Asp Thr Tyr Val Pro Ala Glu Lys Leu
500 505 510
<210> 27
<211> 1350
<212> DNA
<213> Schizochytrium sp.
<220>
<221> CDS
<222> (1)..(1350)
<400> 27
atg gcg ctc cgt gtc aag acg aac aag aag cca tgc tgg gag atg acc 48
Met Ala Leu Arg Val Lys Thr Asn Lys Lys Pro Cys Trp Glu Met Thr
1 5 10 15
aag gag gag ctg acc agc ggc aag acc gag gtg ttc aac tat gag gaa 96
Lys Glu Glu Leu Thr Ser Gly Lys Thr Glu Val Phe Asn Tyr Glu Glu
20 25 30
ctc ctc gag ttc gca gag ggc gac atc gcc aag gtc ttc gga ccc gag 144
Leu Leu Glu Phe Ala Glu Gly Asp Ile Ala Lys Val Phe Gly Pro Glu
35 40 45
ttc gcc gtc atc gac aag tac ccg cgc cgc gtg cgc ctg ccc gcc cgc 192
Phe Ala Val Ile Asp Lys Tyr Pro Arg Arg Val Arg Leu Pro Ala Arg
50 55 60
gag tac ctg ctc gtg acc cgc gtc acc ctc atg gac gcc gag gtc aac 240
Glu Tyr Leu Leu Val Thr Arg Val Thr Leu Met Asp Ala Glu Val Asn
65 70 75 80
aac tac cgc gtc ggc gcc cgc atg gtc acc gag tac gat ctc ccc gtc 288
Asn Tyr Arg Val Gly Ala Arg Met Val Thr Glu Tyr Asp Leu Pro Val
85 90 95
aac gga gag ctc tcc gag ggc gga gac tgc ccc tgg gcc gtc ctg gtc 336
Asn Gly Glu Leu Ser Glu Gly Gly Asp Cys Pro Trp Ala Val Leu Val
100 105 110
gag agt ggc cag tgc gat ctc atg ctc atc tcc tac atg ggc att gac 384
Glu Ser Gly Gln Cys Asp Leu Met Leu Ile Ser Tyr Met Gly Ile Asp
115 120 125
ttc cag aac cag ggc gac cgc gtc tac cgc ctg ctc aac acc acg ctc 432
Phe Gln Asn Gln Gly Asp Arg Val Tyr Arg Leu Leu Asn Thr Thr Leu
130 135 140
acc ttt tac ggc gtg gcc cac gag ggc gag acc ctc gag tac gac att 480
Thr Phe Tyr Gly Val Ala His Glu Gly Glu Thr Leu Glu Tyr Asp Ile
145 150 155 160
cgc gtc acc ggc ttc gcc aag cgt ctc gac ggc ggc atc tcc atg ttc 528
Arg Val Thr Gly Phe Ala Lys Arg Leu Asp Gly Gly Ile Ser Met Phe
165 170 175
ttc ttc gag tac gac tgc tac gtc aac ggc cgc ctc ctc atc gag atg 576
Phe Phe Glu Tyr Asp Cys Tyr Val Asn Gly Arg Leu Leu Ile Glu Met
180 185 190
cgc gat ggc tgc gcc ggc ttc ttc acc aac gag gag ctc gac gcc ggc 624
Arg Asp Gly Cys Ala Gly Phe Phe Thr Asn Glu Glu Leu Asp Ala Gly
195 200 205
aag ggc gtc gtc ttc acc cgc ggc gac ctc gcc gcc cgc gcc aag atc 672
Lys Gly Val Val Phe Thr Arg Gly Asp Leu Ala Ala Arg Ala Lys Ile
210 215 220
cca aag cag gac gtc tcc ccc tac gcc gtc gcc ccc tgc ctc cac aag 720
Pro Lys Gln Asp Val Ser Pro Tyr Ala Val Ala Pro Cys Leu His Lys
225 230 235 240
acc aag ctc aac gaa aag gag atg cag acc ctc gtc gac aag gac tgg 768
Thr Lys Leu Asn Glu Lys Glu Met Gln Thr Leu Val Asp Lys Asp Trp
245 250 255
gca tcc gtc ttt ggc tcc aag aac ggc atg ccg gaa atc aac tac aaa 816
Ala Ser Val Phe Gly Ser Lys Asn Gly Met Pro Glu Ile Asn Tyr Lys
260 265 270
ctc tgc gcg cgt aag atg ctc atg att gac cgc gtc acc agc att gac 864
Leu Cys Ala Arg Lys Met Leu Met Ile Asp Arg Val Thr Ser Ile Asp
275 280 285
cac aag ggc ggt gtc tac ggc ctc ggt cag ctc gtc ggt gaa aag atc 912
His Lys Gly Gly Val Tyr Gly Leu Gly Gln Leu Val Gly Glu Lys Ile
290 295 300
ctc gag cgc gac cac tgg tac ttt ccc tgc cac ttt gtc aag gat cag 960
Leu Glu Arg Asp His Trp Tyr Phe Pro Cys His Phe Val Lys Asp Gln
305 310 315 320
gtc atg gcc gga tcc ctc gtc tcc gac ggc tgc agc cag atg ctc aag 1008
Val Met Ala Gly Ser Leu Val Ser Asp Gly Cys Ser Gln Met Leu Lys
325 330 335
atg tac atg atc tgg ctc ggc ctc cac ctc acc acc gga ccc ttt gac 1056
Met Tyr Met Ile Trp Leu Gly Leu His Leu Thr Thr Gly Pro Phe Asp
340 345 350
ttc cgc ccg gtc aac ggc cac ccc aac aag gtc cgc tgc cgc ggc caa 1104
Phe Arg Pro Val Asn Gly His Pro Asn Lys Val Arg Cys Arg Gly Gln
355 360 365
atc tcc ccg cac aag ggc aag ctc gtc tac gtc atg gag atc aag gag 1152
Ile Ser Pro His Lys Gly Lys Leu Val Tyr Val Met Glu Ile Lys Glu
370 375 380
atg ggc ttc gac gag gac aac gac ccg tac gcc att gcc gac gtc aac 1200
Met Gly Phe Asp Glu Asp Asn Asp Pro Tyr Ala Ile Ala Asp Val Asn
385 390 395 400
atc att gat gtc gac ttc gaa aag ggc cag gac ttt agc ctc gac cgc 1248
Ile Ile Asp Val Asp Phe Glu Lys Gly Gln Asp Phe Ser Leu Asp Arg
405 410 415
atc agc gac tac ggc aag ggc gac ctc aac aag aag atc gtc gtc gac 1296
Ile Ser Asp Tyr Gly Lys Gly Asp Leu Asn Lys Lys Ile Val Val Asp
420 425 430
ttt aag ggc atc gct ctc aag atg cag aag cgc tcc acc aac aag aac 1344
Phe Lys Gly Ile Ala Leu Lys Met Gln Lys Arg Ser Thr Asn Lys Asn
435 440 445
ccc tcc 1350
Pro Ser
450
<210> 28
<211> 450
<212> PRT
<213> Schizochytrium sp.
<400> 28
Met Ala Leu Arg Val Lys Thr Asn Lys Lys Pro Cys Trp Glu Met Thr
1 5 10 15
Lys Glu Glu Leu Thr Ser Gly Lys Thr Glu Val Phe Asn Tyr Glu Glu
20 25 30
Leu Leu Glu Phe Ala Glu Gly Asp Ile Ala Lys Val Phe Gly Pro Glu
35 40 45
Phe Ala Val Ile Asp Lys Tyr Pro Arg Arg Val Arg Leu Pro Ala Arg
50 55 60
Glu Tyr Leu Leu Val Thr Arg Val Thr Leu Met Asp Ala Glu Val Asn
65 70 75 80
Asn Tyr Arg Val Gly Ala Arg Met Val Thr Glu Tyr Asp Leu Pro Val
85 90 95
Asn Gly Glu Leu Ser Glu Gly Gly Asp Cys Pro Trp Ala Val Leu Val
100 105 110
Glu Ser Gly Gln Cys Asp Leu Met Leu Ile Ser Tyr Met Gly Ile Asp
115 120 125
Phe Gln Asn Gln Gly Asp Arg Val Tyr Arg Leu Leu Asn Thr Thr Leu
130 135 140
Thr Phe Tyr Gly Val Ala His Glu Gly Glu Thr Leu Glu Tyr Asp Ile
145 150 155 160
Arg Val Thr Gly Phe Ala Lys Arg Leu Asp Gly Gly Ile Ser Met Phe
165 170 175
Phe Phe Glu Tyr Asp Cys Tyr Val Asn Gly Arg Leu Leu Ile Glu Met
180 185 190
Arg Asp Gly Cys Ala Gly Phe Phe Thr Asn Glu Glu Leu Asp Ala Gly
195 200 205
Lys Gly Val Val Phe Thr Arg Gly Asp Leu Ala Ala Arg Ala Lys Ile
210 215 220
Pro Lys Gln Asp Val Ser Pro Tyr Ala Val Ala Pro Cys Leu His Lys
225 230 235 240
Thr Lys Leu Asn Glu Lys Glu Met Gln Thr Leu Val Asp Lys Asp Trp
245 250 255
Ala Ser Val Phe Gly Ser Lys Asn Gly Met Pro Glu Ile Asn Tyr Lys
260 265 270
Leu Cys Ala Arg Lys Met Leu Met Ile Asp Arg Val Thr Ser Ile Asp
275 280 285
His Lys Gly Gly Val Tyr Gly Leu Gly Gln Leu Val Gly Glu Lys Ile
290 295 300
Leu Glu Arg Asp His Trp Tyr Phe Pro Cys His Phe Val Lys Asp Gln
305 310 315 320
Val Met Ala Gly Ser Leu Val Ser Asp Gly Cys Ser Gln Met Leu Lys
325 330 335
Met Tyr Met Ile Trp Leu Gly Leu His Leu Thr Thr Gly Pro Phe Asp
340 345 350
Phe Arg Pro Val Asn Gly His Pro Asn Lys Val Arg Cys Arg Gly Gln
355 360 365
Ile Ser Pro His Lys Gly Lys Leu Val Tyr Val Met Glu Ile Lys Glu
370 375 380
Met Gly Phe Asp Glu Asp Asn Asp Pro Tyr Ala Ile Ala Asp Val Asn
385 390 395 400
Ile Ile Asp Val Asp Phe Glu Lys Gly Gln Asp Phe Ser Leu Asp Arg
405 410 415
Ile Ser Asp Tyr Gly Lys Gly Asp Leu Asn Lys Lys Ile Val Val Asp
420 425 430
Phe Lys Gly Ile Ala Leu Lys Met Gln Lys Arg Ser Thr Asn Lys Asn
435 440 445
Pro Ser
450
<210> 29
<211> 1497
<212> DNA
<213> Schizochytrium sp.
<220>
<221> CDS
<222> (1)..(1497)
<400> 29
aag gtt cag ccc gtc ttt gcc aac ggc gcc gcc act gtc ggc ccc gag 48
Lys Val Gln Pro Val Phe Ala Asn Gly Ala Ala Thr Val Gly Pro Glu
1 5 10 15
gcc tcc aag gct tcc tcc ggc gcc agc gcc agc gcc agc gcc gcc ccg 96
Ala Ser Lys Ala Ser Ser Gly Ala Ser Ala Ser Ala Ser Ala Ala Pro
20 25 30
gcc aag cct gcc ttc agc gcc gat gtt ctt gcg ccc aag ccc gtt gcc 144
Ala Lys Pro Ala Phe Ser Ala Asp Val Leu Ala Pro Lys Pro Val Ala
35 40 45
ctt ccc gag cac atc ctc aag ggc gac gcc ctc gcc ccc aag gag atg 192
Leu Pro Glu His Ile Leu Lys Gly Asp Ala Leu Ala Pro Lys Glu Met
50 55 60
tcc tgg cac ccc atg gcc cgc atc ccg ggc aac ccg acg ccc tct ttt 240
Ser Trp His Pro Met Ala Arg Ile Pro Gly Asn Pro Thr Pro Ser Phe
65 70 75 80
gcg ccc tcg gcc tac aag ccg cgc aac atc gcc ttt acg ccc ttc ccc 288
Ala Pro Ser Ala Tyr Lys Pro Arg Asn Ile Ala Phe Thr Pro Phe Pro
85 90 95
ggc aac ccc aac gat aac gac cac acc ccg ggc aag atg ccg ctc acc 336
Gly Asn Pro Asn Asp Asn Asp His Thr Pro Gly Lys Met Pro Leu Thr
100 105 110
tgg ttc aac atg gcc gag ttc atg gcc ggc aag gtc agc atg tgc ctc 384
Trp Phe Asn Met Ala Glu Phe Met Ala Gly Lys Val Ser Met Cys Leu
115 120 125
ggc ccc gag ttc gcc aag ttc gac gac tcg aac acc agc cgc agc ccc 432
Gly Pro Glu Phe Ala Lys Phe Asp Asp Ser Asn Thr Ser Arg Ser Pro
130 135 140
gct tgg gac ctc gct ctc gtc acc cgc gcc gtg tct gtg tct gac ctc 480
Ala Trp Asp Leu Ala Leu Val Thr Arg Ala Val Ser Val Ser Asp Leu
145 150 155 160
aag cac gtc aac tac cgc aac atc gac ctc gac ccc tcc aag ggt acc 528
Lys His Val Asn Tyr Arg Asn Ile Asp Leu Asp Pro Ser Lys Gly Thr
165 170 175
atg gtc ggc gag ttc gac tgc ccc gcg gac gcc tgg ttc tac aag ggc 576
Met Val Gly Glu Phe Asp Cys Pro Ala Asp Ala Trp Phe Tyr Lys Gly
180 185 190
gcc tgc aac gat gcc cac atg ccg tac tcg atc ctc atg gag atc gcc 624
Ala Cys Asn Asp Ala His Met Pro Tyr Ser Ile Leu Met Glu Ile Ala
195 200 205
ctc cag acc tcg ggt gtg ctc acc tcg gtg ctc aag gcg ccc ctg acc 672
Leu Gln Thr Ser Gly Val Leu Thr Ser Val Leu Lys Ala Pro Leu Thr
210 215 220
atg gag aag gac gac atc ctc ttc cgc aac ctc gac gcc aac gcc gag 720
Met Glu Lys Asp Asp Ile Leu Phe Arg Asn Leu Asp Ala Asn Ala Glu
225 230 235 240
ttc gtg cgc gcc gac ctc gac tac cgc ggc aag act atc cgc aac gtc 768
Phe Val Arg Ala Asp Leu Asp Tyr Arg Gly Lys Thr Ile Arg Asn Val
245 250 255
acc aag tgc act ggc tac agc atg ctc ggc gag atg ggc gtc cac cgc 816
Thr Lys Cys Thr Gly Tyr Ser Met Leu Gly Glu Met Gly Val His Arg
260 265 270
ttc acc ttt gag ctc tac gtc gat gat gtg ctc ttt tac aag ggc tcg 864
Phe Thr Phe Glu Leu Tyr Val Asp Asp Val Leu Phe Tyr Lys Gly Ser
275 280 285
acc tcg ttc ggc tgg ttc gtg ccc gag gtc ttt gcc gcc cag gcc ggc 912
Thr Ser Phe Gly Trp Phe Val Pro Glu Val Phe Ala Ala Gln Ala Gly
290 295 300
ctc gac aac ggc cgc aag tcg gag ccc tgg ttc att gag aac aag gtt 960
Leu Asp Asn Gly Arg Lys Ser Glu Pro Trp Phe Ile Glu Asn Lys Val
305 310 315 320
ccg gcc tcg cag gtc tcc tcc ttt gac gtg cgc ccc aac ggc agc ggc 1008
Pro Ala Ser Gln Val Ser Ser Phe Asp Val Arg Pro Asn Gly Ser Gly
325 330 335
cgc acc gcc atc ttc gcc aac gcc ccc agc ggc gcc cag ctc aac cgc 1056
Arg Thr Ala Ile Phe Ala Asn Ala Pro Ser Gly Ala Gln Leu Asn Arg
340 345 350
cgc acg gac cag ggc cag tac ctc gac gcc gtc gac att gtc tcc ggc 1104
Arg Thr Asp Gln Gly Gln Tyr Leu Asp Ala Val Asp Ile Val Ser Gly
355 360 365
agc ggc aag aag agc ctc ggc tac gcc cac ggt tcc aag acg gtc aac 1152
Ser Gly Lys Lys Ser Leu Gly Tyr Ala His Gly Ser Lys Thr Val Asn
370 375 380
ccg aac gac tgg ttc ttc tcg tgc cac ttt tgg ttt gac tcg gtc atg 1200
Pro Asn Asp Trp Phe Phe Ser Cys His Phe Trp Phe Asp Ser Val Met
385 390 395 400
ccc gga agt ctc ggt gtc gag tcc atg ttc cag ctc gtc gag gcc atc 1248
Pro Gly Ser Leu Gly Val Glu Ser Met Phe Gln Leu Val Glu Ala Ile
405 410 415
gcc gcc cac gag gat ctc gct ggc aag cac ggc att gcc aac ccc acc 1296
Ala Ala His Glu Asp Leu Ala Gly Lys His Gly Ile Ala Asn Pro Thr
420 425 430
ttt gtg cac gcc ccg ggc aag atc agc tgg aag tac cgc ggc cag ctc 1344
Phe Val His Ala Pro Gly Lys Ile Ser Trp Lys Tyr Arg Gly Gln Leu
435 440 445
acg ccc aag agc aag aag atg gac tcg gag gtc cac atc gtg tcc gtg 1392
Thr Pro Lys Ser Lys Lys Met Asp Ser Glu Val His Ile Val Ser Val
450 455 460
gac gcc cac gac ggc gtt gtc gac ctc gtc gcc gac ggc ttc ctc tgg 1440
Asp Ala His Asp Gly Val Val Asp Leu Val Ala Asp Gly Phe Leu Trp
465 470 475 480
gcc gac agc ctc cgc gtc tac tcg gtg agc aac att cgc gtg cgc atc 1488
Ala Asp Ser Leu Arg Val Tyr Ser Val Ser Asn Ile Arg Val Arg Ile
485 490 495
gcc tcc ggt 1497
Ala Ser Gly
<210> 30
<211> 499
<212> PRT
<213> Schizochytrium sp.
<400> 30
Lys Val Gln Pro Val Phe Ala Asn Gly Ala Ala Thr Val Gly Pro Glu
1 5 10 15
Ala Ser Lys Ala Ser Ser Gly Ala Ser Ala Ser Ala Ser Ala Ala Pro
20 25 30
Ala Lys Pro Ala Phe Ser Ala Asp Val Leu Ala Pro Lys Pro Val Ala
35 40 45
Leu Pro Glu His Ile Leu Lys Gly Asp Ala Leu Ala Pro Lys Glu Met
50 55 60
Ser Trp His Pro Met Ala Arg Ile Pro Gly Asn Pro Thr Pro Ser Phe
65 70 75 80
Ala Pro Ser Ala Tyr Lys Pro Arg Asn Ile Ala Phe Thr Pro Phe Pro
85 90 95
Gly Asn Pro Asn Asp Asn Asp His Thr Pro Gly Lys Met Pro Leu Thr
100 105 110
Trp Phe Asn Met Ala Glu Phe Met Ala Gly Lys Val Ser Met Cys Leu
115 120 125
Gly Pro Glu Phe Ala Lys Phe Asp Asp Ser Asn Thr Ser Arg Ser Pro
130 135 140
Ala Trp Asp Leu Ala Leu Val Thr Arg Ala Val Ser Val Ser Asp Leu
145 150 155 160
Lys His Val Asn Tyr Arg Asn Ile Asp Leu Asp Pro Ser Lys Gly Thr
165 170 175
Met Val Gly Glu Phe Asp Cys Pro Ala Asp Ala Trp Phe Tyr Lys Gly
180 185 190
Ala Cys Asn Asp Ala His Met Pro Tyr Ser Ile Leu Met Glu Ile Ala
195 200 205
Leu Gln Thr Ser Gly Val Leu Thr Ser Val Leu Lys Ala Pro Leu Thr
210 215 220
Met Glu Lys Asp Asp Ile Leu Phe Arg Asn Leu Asp Ala Asn Ala Glu
225 230 235 240
Phe Val Arg Ala Asp Leu Asp Tyr Arg Gly Lys Thr Ile Arg Asn Val
245 250 255
Thr Lys Cys Thr Gly Tyr Ser Met Leu Gly Glu Met Gly Val His Arg
260 265 270
Phe Thr Phe Glu Leu Tyr Val Asp Asp Val Leu Phe Tyr Lys Gly Ser
275 280 285
Thr Ser Phe Gly Trp Phe Val Pro Glu Val Phe Ala Ala Gln Ala Gly
290 295 300
Leu Asp Asn Gly Arg Lys Ser Glu Pro Trp Phe Ile Glu Asn Lys Val
305 310 315 320
Pro Ala Ser Gln Val Ser Ser Phe Asp Val Arg Pro Asn Gly Ser Gly
325 330 335
Arg Thr Ala Ile Phe Ala Asn Ala Pro Ser Gly Ala Gln Leu Asn Arg
340 345 350
Arg Thr Asp Gln Gly Gln Tyr Leu Asp Ala Val Asp Ile Val Ser Gly
355 360 365
Ser Gly Lys Lys Ser Leu Gly Tyr Ala His Gly Ser Lys Thr Val Asn
370 375 380
Pro Asn Asp Trp Phe Phe Ser Cys His Phe Trp Phe Asp Ser Val Met
385 390 395 400
Pro Gly Ser Leu Gly Val Glu Ser Met Phe Gln Leu Val Glu Ala Ile
405 410 415
Ala Ala His Glu Asp Leu Ala Gly Lys His Gly Ile Ala Asn Pro Thr
420 425 430
Phe Val His Ala Pro Gly Lys Ile Ser Trp Lys Tyr Arg Gly Gln Leu
435 440 445
Thr Pro Lys Ser Lys Lys Met Asp Ser Glu Val His Ile Val Ser Val
450 455 460
Asp Ala His Asp Gly Val Val Asp Leu Val Ala Asp Gly Phe Leu Trp
465 470 475 480
Ala Asp Ser Leu Arg Val Tyr Ser Val Ser Asn Ile Arg Val Arg Ile
485 490 495
Ala Ser Gly
<210> 31
<211> 1512
<212> DNA
<213> Schizochytrium sp.
<220>
<221> CDS
<222> (1)..(1512)
<400> 31
gcc ccg ctc tac ctc tcg cag gac ccg acc agc ggc cag ctc aag aag 48
Ala Pro Leu Tyr Leu Ser Gln Asp Pro Thr Ser Gly Gln Leu Lys Lys
1 5 10 15
cac acc gac gtg gcc tcc ggc cag gcc acc atc gtg cag ccc tgc acg 96
His Thr Asp Val Ala Ser Gly Gln Ala Thr Ile Val Gln Pro Cys Thr
20 25 30
ctc ggc gac ctc ggt gac cgc tcc ttc atg gag acc tac ggc gtc gtc 144
Leu Gly Asp Leu Gly Asp Arg Ser Phe Met Glu Thr Tyr Gly Val Val
35 40 45
gcc ccg ctg tac acg ggc gcc atg gcc aag ggc att gcc tcg gcg gac 192
Ala Pro Leu Tyr Thr Gly Ala Met Ala Lys Gly Ile Ala Ser Ala Asp
50 55 60
ctc gtc atc gcc gcc ggc aag cgc aag atc ctc ggc tcc ttt ggc gcc 240
Leu Val Ile Ala Ala Gly Lys Arg Lys Ile Leu Gly Ser Phe Gly Ala
65 70 75 80
ggc ggc ctc ccc atg cac cac gtg cgc gcc gcc ctc gag aag atc cag 288
Gly Gly Leu Pro Met His His Val Arg Ala Ala Leu Glu Lys Ile Gln
85 90 95
gcc gcc ctg cct cag ggc ccc tac gcc gtc aac ctc atc cac tcg cct 336
Ala Ala Leu Pro Gln Gly Pro Tyr Ala Val Asn Leu Ile His Ser Pro
100 105 110
ttt gac agc aac ctc gag aag ggc aac gtc gat ctc ttc ctc gag aag 384
Phe Asp Ser Asn Leu Glu Lys Gly Asn Val Asp Leu Phe Leu Glu Lys
115 120 125
ggc gtc act gtg gtg gag gcc tcg gca ttc atg acc ctc acc ccg cag 432
Gly Val Thr Val Val Glu Ala Ser Ala Phe Met Thr Leu Thr Pro Gln
130 135 140
gtc gtg cgc tac cgc gcc gcc ggc ctc tcg cgc aac gcc gac ggt tcg 480
Val Val Arg Tyr Arg Ala Ala Gly Leu Ser Arg Asn Ala Asp Gly Ser
145 150 155 160
gtc aac atc cgc aac cgc atc atc ggc aag gtc tcg cgc acc gag ctc 528
Val Asn Ile Arg Asn Arg Ile Ile Gly Lys Val Ser Arg Thr Glu Leu
165 170 175
gcc gag atg ttc atc cgc ccg gcc ccg gag cac ctc ctc gag aag ctc 576
Ala Glu Met Phe Ile Arg Pro Ala Pro Glu His Leu Leu Glu Lys Leu
180 185 190
atc gcc tcg ggc gag atc acc cag gag cag gcc gag ctc gcg cgc cgc 624
Ile Ala Ser Gly Glu Ile Thr Gln Glu Gln Ala Glu Leu Ala Arg Arg
195 200 205
gtt ccc gtc gcc gac gat atc gct gtc gag gct gac tcg ggc ggc cac 672
Val Pro Val Ala Asp Asp Ile Ala Val Glu Ala Asp Ser Gly Gly His
210 215 220
acc gac aac cgc ccc atc cac gtc atc ctc ccg ctc atc atc aac ctc 720
Thr Asp Asn Arg Pro Ile His Val Ile Leu Pro Leu Ile Ile Asn Leu
225 230 235 240
cgc aac cgc ctg cac cgc gag tgc ggc tac ccc gcg cac ctc cgc gtc 768
Arg Asn Arg Leu His Arg Glu Cys Gly Tyr Pro Ala His Leu Arg Val
245 250 255
cgc gtt ggc gcc ggc ggt ggc gtc ggc tgc ccg cag gcc gcc gcc gcc 816
Arg Val Gly Ala Gly Gly Gly Val Gly Cys Pro Gln Ala Ala Ala Ala
260 265 270
gcg ctc acc atg ggc gcc gcc ttc atc gtc acc ggc act gtc aac cag 864
Ala Leu Thr Met Gly Ala Ala Phe Ile Val Thr Gly Thr Val Asn Gln
275 280 285
gtc gcc aag cag tcc ggc acc tgc gac aac gtg cgc aag cag ctc tcg 912
Val Ala Lys Gln Ser Gly Thr Cys Asp Asn Val Arg Lys Gln Leu Ser
290 295 300
cag gcc acc tac tcg gat atc tgc atg gcc ccg gcc gcc gac atg ttc 960
Gln Ala Thr Tyr Ser Asp Ile Cys Met Ala Pro Ala Ala Asp Met Phe
305 310 315 320
gag gag ggc gtc aag ctc cag gtc ctc aag aag gga acc atg ttc ccc 1008
Glu Glu Gly Val Lys Leu Gln Val Leu Lys Lys Gly Thr Met Phe Pro
325 330 335
tcg cgc gcc aac aag ctc tac gag ctc ttt tgc aag tac gac tcc ttc 1056
Ser Arg Ala Asn Lys Leu Tyr Glu Leu Phe Cys Lys Tyr Asp Ser Phe
340 345 350
gac tcc atg cct cct gcc gag ctc gag cgc atc gag aag cgt atc ttc 1104
Asp Ser Met Pro Pro Ala Glu Leu Glu Arg Ile Glu Lys Arg Ile Phe
355 360 365
aag cgc gca ctc cag gag gtc tgg gag gag acc aag gac ttt tac att 1152
Lys Arg Ala Leu Gln Glu Val Trp Glu Glu Thr Lys Asp Phe Tyr Ile
370 375 380
aac ggt ctc aag aac ccg gag aag atc cag cgc gcc gag cac gac ccc 1200
Asn Gly Leu Lys Asn Pro Glu Lys Ile Gln Arg Ala Glu His Asp Pro
385 390 395 400
aag ctc aag atg tcg ctc tgc ttc cgc tgg tac ctt ggt ctt gcc agc 1248
Lys Leu Lys Met Ser Leu Cys Phe Arg Trp Tyr Leu Gly Leu Ala Ser
405 410 415
cgc tgg gcc aac atg ggc gcc ccg gac cgc gtc atg gac tac cag gtc 1296
Arg Trp Ala Asn Met Gly Ala Pro Asp Arg Val Met Asp Tyr Gln Val
420 425 430
tgg tgt ggc ccg gcc att ggc gcc ttc aac gac ttc atc aag ggc acc 1344
Trp Cys Gly Pro Ala Ile Gly Ala Phe Asn Asp Phe Ile Lys Gly Thr
435 440 445
tac ctc gac ccc gct gtc tcc aac gag tac ccc tgt gtc gtc cag atc 1392
Tyr Leu Asp Pro Ala Val Ser Asn Glu Tyr Pro Cys Val Val Gln Ile
450 455 460
aac ctg caa atc ctc cgt ggt gcc tgc tac ctg cgc cgt ctc aac gcc 1440
Asn Leu Gln Ile Leu Arg Gly Ala Cys Tyr Leu Arg Arg Leu Asn Ala
465 470 475 480
ctg cgc aac gac ccg cgc att gac ctc gag acc gag gat gct gcc ttt 1488
Leu Arg Asn Asp Pro Arg Ile Asp Leu Glu Thr Glu Asp Ala Ala Phe
485 490 495
gtc tac gag ccc acc aac gcg ctc 1512
Val Tyr Glu Pro Thr Asn Ala Leu
500
<210> 32
<211> 504
<212> PRT
<213> Schizochytrium sp.
<400> 32
Ala Pro Leu Tyr Leu Ser Gln Asp Pro Thr Ser Gly Gln Leu Lys Lys
1 5 10 15
His Thr Asp Val Ala Ser Gly Gln Ala Thr Ile Val Gln Pro Cys Thr
20 25 30
Leu Gly Asp Leu Gly Asp Arg Ser Phe Met Glu Thr Tyr Gly Val Val
35 40 45
Ala Pro Leu Tyr Thr Gly Ala Met Ala Lys Gly Ile Ala Ser Ala Asp
50 55 60
Leu Val Ile Ala Ala Gly Lys Arg Lys Ile Leu Gly Ser Phe Gly Ala
65 70 75 80
Gly Gly Leu Pro Met His His Val Arg Ala Ala Leu Glu Lys Ile Gln
85 90 95
Ala Ala Leu Pro Gln Gly Pro Tyr Ala Val Asn Leu Ile His Ser Pro
100 105 110
Phe Asp Ser Asn Leu Glu Lys Gly Asn Val Asp Leu Phe Leu Glu Lys
115 120 125
Gly Val Thr Val Val Glu Ala Ser Ala Phe Met Thr Leu Thr Pro Gln
130 135 140
Val Val Arg Tyr Arg Ala Ala Gly Leu Ser Arg Asn Ala Asp Gly Ser
145 150 155 160
Val Asn Ile Arg Asn Arg Ile Ile Gly Lys Val Ser Arg Thr Glu Leu
165 170 175
Ala Glu Met Phe Ile Arg Pro Ala Pro Glu His Leu Leu Glu Lys Leu
180 185 190
Ile Ala Ser Gly Glu Ile Thr Gln Glu Gln Ala Glu Leu Ala Arg Arg
195 200 205
Val Pro Val Ala Asp Asp Ile Ala Val Glu Ala Asp Ser Gly Gly His
210 215 220
Thr Asp Asn Arg Pro Ile His Val Ile Leu Pro Leu Ile Ile Asn Leu
225 230 235 240
Arg Asn Arg Leu His Arg Glu Cys Gly Tyr Pro Ala His Leu Arg Val
245 250 255
Arg Val Gly Ala Gly Gly Gly Val Gly Cys Pro Gln Ala Ala Ala Ala
260 265 270
Ala Leu Thr Met Gly Ala Ala Phe Ile Val Thr Gly Thr Val Asn Gln
275 280 285
Val Ala Lys Gln Ser Gly Thr Cys Asp Asn Val Arg Lys Gln Leu Ser
290 295 300
Gln Ala Thr Tyr Ser Asp Ile Cys Met Ala Pro Ala Ala Asp Met Phe
305 310 315 320
Glu Glu Gly Val Lys Leu Gln Val Leu Lys Lys Gly Thr Met Phe Pro
325 330 335
Ser Arg Ala Asn Lys Leu Tyr Glu Leu Phe Cys Lys Tyr Asp Ser Phe
340 345 350
Asp Ser Met Pro Pro Ala Glu Leu Glu Arg Ile Glu Lys Arg Ile Phe
355 360 365
Lys Arg Ala Leu Gln Glu Val Trp Glu Glu Thr Lys Asp Phe Tyr Ile
370 375 380
Asn Gly Leu Lys Asn Pro Glu Lys Ile Gln Arg Ala Glu His Asp Pro
385 390 395 400
Lys Leu Lys Met Ser Leu Cys Phe Arg Trp Tyr Leu Gly Leu Ala Ser
405 410 415
Arg Trp Ala Asn Met Gly Ala Pro Asp Arg Val Met Asp Tyr Gln Val
420 425 430
Trp Cys Gly Pro Ala Ile Gly Ala Phe Asn Asp Phe Ile Lys Gly Thr
435 440 445
Tyr Leu Asp Pro Ala Val Ser Asn Glu Tyr Pro Cys Val Val Gln Ile
450 455 460
Asn Leu Gln Ile Leu Arg Gly Ala Cys Tyr Leu Arg Arg Leu Asn Ala
465 470 475 480
Leu Arg Asn Asp Pro Arg Ile Asp Leu Glu Thr Glu Asp Ala Ala Phe
485 490 495
Val Tyr Glu Pro Thr Asn Ala Leu
500
<210> 33
<211> 714
<212> DNA
<213> Nostoc sp.
<400> 33
atgttgcagc atacttggct accaaaaccc ccaaatttaa ccttattgtc agatgaagtt 60
catctctggc gcattcccct tgaccaacca gaatcacagc tacaggattt agccgctacc 120
ttatctagtg acgaattagc ccgtgcaaac agattttatt ttcccgaaca tcgccggcgt 180
tttactgctg gtcgtggtat tctccgcagt atcttggggg gctatttggg tgtggaacca 240
gggcaagtta aatttgatta tgaatcccgt ggtaaaccaa tattaggcga tcgctttgcc 300
gagagtggtt tattatttaa cttgtcacac tcccagaact tggccttgtg tgcagtcaat 360
tacacgcgcc aaatcggcat cgatttagaa tatctccgcc ccacatctga tttagaatcc 420
cttgccaaaa ggttcttttt accgcgagaa tatgaattat tgcgatcgct acccgatgag 480
caaaaacaaa aaattttctt tcgttactgg acttgtaaag aggcttatct taaagcaacg 540
ggtgacggca tcgctaaatt agaggaaatt gaaatagcac taactcccac agaaccagct 600
aagttacaga cagctccagc gtggagtctc ctagagctag tgccagatga taattgtgtt 660
gctgctgttg ccgtggcggg ttttggctgg cagccaaaat tctggcatta ttga 714
<210> 34
<211> 237
<212> PRT
<213> Nostoc sp.
<400> 34
Met Leu Gln His Thr Trp Leu Pro Lys Pro Pro Asn Leu Thr Leu Leu
1 5 10 15
Ser Asp Glu Val His Leu Trp Arg Ile Pro Leu Asp Gln Pro Glu Ser
20 25 30
Gln Leu Gln Asp Leu Ala Ala Thr Leu Ser Ser Asp Glu Leu Ala Arg
35 40 45
Ala Asn Arg Phe Tyr Phe Pro Glu His Arg Arg Arg Phe Thr Ala Gly
50 55 60
Arg Gly Ile Leu Arg Ser Ile Leu Gly Gly Tyr Leu Gly Val Glu Pro
65 70 75 80
Gly Gln Val Lys Phe Asp Tyr Glu Ser Arg Gly Lys Pro Ile Leu Gly
85 90 95
Asp Arg Phe Ala Glu Ser Gly Leu Leu Phe Asn Leu Ser His Ser Gln
100 105 110
Asn Leu Ala Leu Cys Ala Val Asn Tyr Thr Arg Gln Ile Gly Ile Asp
115 120 125
Leu Glu Tyr Leu Arg Pro Thr Ser Asp Leu Glu Ser Leu Ala Lys Arg
130 135 140
Phe Phe Leu Pro Arg Glu Tyr Glu Leu Leu Arg Ser Leu Pro Asp Glu
145 150 155 160
Gln Lys Gln Lys Ile Phe Phe Arg Tyr Trp Thr Cys Lys Glu Ala Tyr
165 170 175
Leu Lys Ala Thr Gly Asp Gly Ile Ala Lys Leu Glu Glu Ile Glu Ile
180 185 190
Ala Leu Thr Pro Thr Glu Pro Ala Lys Leu Gln Thr Ala Pro Ala Trp
195 200 205
Ser Leu Leu Glu Leu Val Pro Asp Asp Asn Cys Val Ala Ala Val Ala
210 215 220
Val Ala Gly Phe Gly Trp Gln Pro Lys Phe Trp His Tyr
225 230 235
<210> 35
<211> 8733
<212> DNA
<213> Artificial
<220>
<223> synthetic
<400> 35
atggctgcta ggttgcaaga acaaaaaggt ggtgagatgg atactagaat tgctatcatt 60
ggaatgtctg ctattttgcc atgtggtact actgttagag aatcttggga aactattaga 120
gctggtattg attgtttgtc tgatttgcct gaagatagag ttgatgttac tgcttacttt 180
gatccagtta aaactactaa agataaaatc tattgtaaga gaggtggttt cattccagaa 240
tatgattttg atgctagaga atttggtttg aatatgtttc agatggaaga ttctgatgct 300
aatcaaacta tttctttgtt gaaagttaaa gaagcattgc aagatgctgg catcgatgct 360
ttgggtaaag agaagaagaa tattggttgt gttttgggta ttggtggtgg tcaaaaatct 420
tctcatgaat tttactcaag attgaattat gttgttgttg agaaggtatt gagaaaaatg 480
ggtatgccag aagaagatgt taaagttgct gttgaaaaat acaaagctaa ttttccagag 540
tggagattgg attcttttcc aggtttcttg ggaaatgtta ctgcaggaag atgtactaat 600
acttttaatc ttgatggcat gaattgtgtt gttgatgctg cttgtgcttc ttctttgatt 660
gctgttaaag ttgctattga tgaattgttg tacggtgatt gtgatatgat ggttactggt 720
gctacttgta ctgataattc tattggaatg tacatggctt tttctaaaac tccagttttc 780
tctactgatc catctgttag agcttatgat gaaaaaacta aaggaatgtt gattggtgaa 840
ggttctgcta tgttggtttt gaaaagatat gctgatgctg ttagagatgg tgatgaaatt 900
catgctgtta ttagaggttg tgcttcttct tctgatggta aagctgctgg tatctatact 960
ccaactattt ctggtcaaga agaagcattg agaagagctt ataatagagc ttgtgttgat 1020
ccagctactg ttactttggt tgaaggtcat ggtactggta ctccagttgg tgatagaatt 1080
gaattgactg ctttgagaaa tttgtttgat aaagcatatg gtgaaggtaa tactgaaaaa 1140
gttgctgttg gttctattaa atcttctatt ggtcatttga aagctgttgc tggtttggct 1200
ggaatgatta aagttatcat ggctttgaaa cataaaactt tgccaggaac tattaatgtt 1260
gataatccac caaacttgta cgataatact ccaattaacg aatcttcttt gtacattaat 1320
actatgaata gaccttggtt tccaccacca ggtgttccaa gaagagctgg tatttcttct 1380
tttggttttg gtggtgctaa ttatcatgct gttttggaag aagctgaacc agaacatact 1440
actgcttata ggttgaacaa aagaccacaa ccagttttga tgatggctgc tactccagct 1500
gctttgcaat ctttgtgtga agctcaattg aaagaatttg aagctgctat taaagaaaac 1560
gaaactgtta aaaatactgc ttatattaaa tgtgttaaat ttggtgaaca attcaaattc 1620
cctggtagta ttccagctac taatgctagg ttgggtttct tggttaaaga tgctgaagat 1680
gcttgttcta ctttgagagc tatttgtgct caatttgcta aagatgttac taaagaagca 1740
tggagattgc caagagaagg tgtttctttt agagctaaag gtattgctac taatggtgct 1800
gttgctgctt tgttttctgg tcaaggtgct caatatactc atatgttttc tgaagttgct 1860
atgaattggc cacaattcag acaatctatt gctgctatgg atgctgctca atctaaagtt 1920
gctggttctg ataaagattt tgaaagagtt tctcaagttt tgtatccaag aaaaccatac 1980
gagagagaac cagagcaaga tcataagaag atttctttga ctgcttattc tcaaccatct 2040
actttggctt gtgctttggg tgcttttgaa atttttaaag aagctggttt tactccagat 2100
tttgctgctg gtcattcttt gggtgaattt gctgctttgt acgctgctgg ttgtgttgat 2160
agagatgaat tgtttgaatt ggtttgtaga agagctagaa ttatgggtgg taaagatgct 2220
ccagctactc caaaaggttg catggctgct gttattggtc caaatgctga aaatattaaa 2280
gttcaagctg ctaatgtttg gttaggaaat tctaattctc catctcaaac tgttattact 2340
ggttctgttg aaggtattca agctgaatct gctaggttgc aaaaagaagg ttttagagtt 2400
gttccattgg cttgtgaatc tgcttttcat tctccacaga tggaaaatgc ttcttctgct 2460
tttaaagatg ttatctctaa agtttctttt agaactccaa aagctgaaac taaattgttt 2520
tctaatgttt ctggtgaaac ttatccaact gatgctagag aaatgttgac tcaacatatg 2580
acttcttctg ttaaattttt gactcaagtt agaaatatgc atcaagctgg tgctagaatt 2640
tttgttgaat tcggtccaaa acaagttttg tctaaattgg tttctgaaac tttgaaagat 2700
gatccatctg ttgttactgt ttctgttaat ccagcttctg gtactgattc tgatattcaa 2760
ttgagagatg ctgctgttca attggttgtt gctggtgtta atttgcaagg ttttgataaa 2820
tgggatgctc cagatgctac tagaatgcaa gctattaaaa aaaaaagaac tactttgaga 2880
ttgtctgctg ctacttatgt ttctgataaa actaagaaag ttagagatgc tgctatgaat 2940
gatggtagat gtgttactta cttgaaaggt gctgctccat tgattaaagc tccagaacca 3000
gttgttgatg aagctgctaa aagagaagct gaaagattgc aaaaagaatt gcaagatgct 3060
caaagacaat tggatgatgc taaaagagct gctgctgaag ctaattctaa attggctgct 3120
gctaaagaag aagctaaaac tgctgctgct tctgctaaac cagctgttga tactgctgtt 3180
gttgaaaaac atagagctat tttgaaatct atgttggctg aattggatgg ttatggttct 3240
gttgatgctt cttctttgca acaacaacaa caacaacaaa ctgctccagc tccagttaaa 3300
gctgctgctc cagctgctcc agttgcttct gctccagcac ccgcagttag caacgaactc 3360
ttagaaaaag ccgagacagt agtgatggaa gttcttgcag ctaaaacggg gtacgaaaca 3420
gatatgattg aagcagatat ggaacttgaa actgaactgg gcattgattc gattaaacgc 3480
gtggaaattc tgtcagaagt gcaagctatg ttaaatgttg aagcgaaaga tgttgatgca 3540
ctgtcacgca cacgcaccgt gggcgaagta gtgaacgcca tgaaagcaga aattgcaggc 3600
tcctcagcac ccgcgccggc cgcagcagca ccagcccccg caaaagccgc ccccgcagcg 3660
gcggctccag ccgtttcaaa cgaattactc gaaaaagcag aaaccgtagt gatggaagtc 3720
cttgccgcca aaacgggtta tgagaccgat atgatcgaaa gcgatatgga attagaaacc 3780
gaattaggga ttgatagtat taaacgcgta gaaattctgt ccgaagtaca agctatgctg 3840
aatgtagaag caaaagatgt agatgcgtta agccgcacac gcactgttgg tgaagttgtg 3900
aatgctatga aagctgaaat tgcaggaggt tcagcaccgg ccccagcagc cgcagcccca 3960
ggtccagcag cagccgcacc ggcccccgcc gccgccgcac cggcagtatc aaacgagttg 4020
ttagagaaag cggaaaccgt tgtgatggaa gtacttgccg cgaagacagg ttacgagacc 4080
gatatgatcg aaagtgacat ggaattagaa accgaattgg gcattgatag cattaaacgc 4140
gtagaaattt tatccgaagt tcaagccatg ttaaatgttg aagccaaaga tgtggatgcg 4200
ttatcccgca cgcgtaccgt cggagaagta gtggacgcta tgaaagcaga gattgcagga 4260
ggaagtgcac cggctccagc agcagcagca cccgccccag cggcagcggc gccggcaccg 4320
gccgctccgg ccccagccgt tagttcagaa ctcctcgaaa aagcagaaac tgttgtcatg 4380
gaagtattag ctgcaaaaac aggttacgag acggatatga ttgaaagcga tatggaatta 4440
gaaaccgaat taggcattga ttcaattaaa cgtgttgaaa tcttaagtga agtccaagcc 4500
atgcttaatg ttgaagccaa agatgtagat gcattatctc gcacgcgtac agtgggtgaa 4560
gttgtcgatg cgatgaaagc agaaatcgcg ggaggatcag cgccagcccc ggcagcagca 4620
gcccccgcgc ccgccgcggc cgcacctgcg ccggccgccc cagcccctgc agcaccggcc 4680
ccagcagtgt cgtcggaatt actcgaaaaa gctgaaacgg tcgttatgga agtacttgct 4740
gcaaagacgg gctatgaaac ggatatgatt gaatcggata tggaattaga aacagaactt 4800
ggtattgact ctattaaacg cgtggaaatt ctgagcgaag tacaggcaat gttaaacgta 4860
gaagccaaag atgtagacgc tttgtcacgc acacggacgg taggagaagt tgtggatgcg 4920
atgaaagctg aaattgccgg ttcaagtgct agcgcccctg ctgccgccgc ccctgcccct 4980
gccgccgcag caccggcccc ggcagccgca gctccagcag ttagtaacga attactcgaa 5040
aaagcagaaa cggtggtcat ggaagtgtta gcagcaaaaa ctggatatga aacggacatg 5100
attgaaagcg atatggaatt agaaacagaa ctgggaattg atagtattaa acgtgttgag 5160
attttatctg aggttcaagc tatgctgaat gttgaagcga aagatgtaga cgcactgtct 5220
cggacccgca cagtaggtga agtggtggac gcgatgaaag cagaaatcgc aggtggaagt 5280
gctccggccc cggcggcagc cgcacccgcg cccgcggccg cagccccagc agttagcaac 5340
gaattactcg agaaagcaga aactgtagtg atggaagtgt tagccgcaaa aacgggttat 5400
gaaacggata tgattgaaag cgatatggaa ctggaaaccg aactgggcat tgattctatt 5460
aaacgtgtcg aaatcttatc ggaagtccaa gcaatgctga acgtagaggc aaaggatgtt 5520
gatgccctgt cacgtacccg taccgtaggt gaagttgtag atgccatgaa agctgaaatc 5580
gcaggcagta gcgccccggc accagccgcc gccgcccccg cgccggcagc cgccgcaccc 5640
gcgccagccg cagctgctcc agctgtatct agtgagctgc tcgaaaaagc agaaaccgtg 5700
gttatggaag tgctcgccgc taaaacagga tatgaaaccg atatgattga aagcgatatg 5760
gaattagaaa ccgaactggg tattgatagt attaagcgtg ttgaaatttt gtcagaagtt 5820
caagctatgt tgaatgtaga agccaaagat gtagacgctt taagtcggac gcgtactgtt 5880
ggagaagtcg tagacgccat gaaagcagag attgcaggcg gaagtgcacc ggccccggca 5940
gcagcagccc cagcaccagc ggccgccgct cctgcagtgt caaacgaact tctggaaaaa 6000
gctgaaaccg tcgtcatgga agtgctggct gcaaaaactg gatatgaaac agacatgatt 6060
gaatcagata tggaactcga aaccgaactg gggattgata gcattaaacg tgtggaaatt 6120
ttatcggagg tacaagcaat gttaaatgtg gaagcaaaag atgtggatgc actgagccgt 6180
actcgtactg ttggtgaggt cgtggatgcg atgaaagcag aaattgctgg agggagtgcg 6240
cctgccccgg ccgccgccgc acccgcgtct gccggtgctg cccccgctgt caaaattgat 6300
tctgttcatg gtgctgattg tgatgatttg tctttgatgc atgctaaagt tgttgatatt 6360
agaagaccag atgaattgat tttggaaaga ccagaaaata gaccagtttt ggttgttgat 6420
gatggttctg aattgacttt ggctttggtt agagttttgg gtgcttgtgc tgttgttttg 6480
acttttgaag gtttgcaatt ggctcaaaga gctggtgctg ctgctattag acatgttttg 6540
gctaaagatt tgtctgctga atctgctgaa aaagctatta aagaagctga acaaagattt 6600
ggtgctttgg gtggttttat ctctcaacaa gctgaaagat ttgaaccagc tgaaattttg 6660
ggttttactt tgatgtgtgc taaatttgct aaagcatctt tgtgcactgc tgttgctggt 6720
ggtagaccag ctttcattgg tgttgctagg ttggatggta ggttgggttt tacttctcaa 6780
ggaacttctg atgctttgaa aagagctcaa agaggtgcta tttttggttt gtgcaagact 6840
attggtttgg aatggtctga atctgatgtt ttctcaagag gtgttgatat tgctcaaggt 6900
atgcatccag aagatgctgc tgttgctatt gttagagaaa tggcttgtgc tgatattaga 6960
attagagaag ttggtattgg tgctaatcaa caaagatgta ctattagagc tgctaaattg 7020
gaaactggaa atccacaaag acaaattgct aaagatgatg ttttgttggt ttctggtggt 7080
gctagaggaa ttactccatt gtgcattaga gaaattacta gacaaattgc tggtggaaag 7140
tatattttgt tgggtaggtc taaagtttct gcttctgaac cagcttggtg tgctggtatt 7200
actgatgaaa aagctgttca aaaagctgct actcaagaat tgaaaagagc tttttctgct 7260
ggtgaaggtc caaaaccaac tccaagagct gttactaaat tggttggttc tgttttgggt 7320
gctagagaag ttaggtcttc tattgctgct attgaagcat tgggtggaaa agctatctat 7380
tcttcttgtg atgttaattc tgctgctgat gttgctaaag ctgttagaga tgctgaatct 7440
caattgggtg ctagagtttc tggtattgtt catgcttctg gtgttttgag agataggttg 7500
attgaaaaaa aattgccaga tgaatttgat gctgtttttg gtactaaagt tactggtttg 7560
gaaaatttgt tggctgctgt tgatagagct aatttgaaac atatggtttt gttttcttct 7620
ttggctggtt ttcatggtaa tgttggtcaa tctgattatg ctatggctaa cgaagcattg 7680
aacaaaatgg gtttggaatt ggctaaagat gtttctgtta aatctatttg ttttggtcct 7740
tgggatggtg gtatggttac tccacaattg aaaaaacaat ttcaagaaat gggtgttcaa 7800
attattccaa gagaaggtgg tgctgatact gttgctagaa ttgttttggg ttcttctcca 7860
gctgaaattt tggttggtaa ttggagaact ccatctaaaa aagttggttc tgatactatt 7920
actttgcaca gaaaaatttc tgctaaatct aatccatttt tggaagatca tgtcattcaa 7980
ggtagaagag ttttgccaat gactttggct attggttctt tggctgaaac ttgtttgggt 8040
ttgtttcctg gatattcttt gtgggctatt gatgatgctc aattgtttaa aggtgttact 8100
gttgatggtg atgttaattg tgaagttact ttgactccat ctactgctcc ttctggtaga 8160
gttaatgttc aagctacttt gaaaactttt tcttctggta aattggttcc agcttataga 8220
gctgttattg ttttgtctaa tcaaggtgct ccaccagcta atgctactat gcaaccacca 8280
tctttggatg ctgatccagc tttgcaaggt tctgtttatg atggaaagac tttgtttcat 8340
ggtccagctt ttagaggtat tgatgatgtt ttgtcttgta ctaaatctca attggttgct 8400
aaatgttctg ctgttccagg ttctgatgct gctagaggtg aatttgctac tgatactgat 8460
gctcatgatc catttgttaa tgatttggct tttcaagcta tgttggtttg ggttagaaga 8520
actttgggtc aagctgcttt gccaaattct attcaaagaa ttgttcaaca cagaccagtt 8580
ccacaagata aaccatttta tattactttg agatctaatc aatctggtgg tcattctcaa 8640
cataaacatg ctttgcaatt tcataacgaa caaggtgatt tgttcattga tgttcaagca 8700
tctgttattg ctactgattc tttggctttt taa 8733
<210> 36
<211> 6180
<212> DNA
<213> Artificial
<220>
<223> synthetic
<400> 36
atggctgcta gaaatgtttc tgctgctcat gaaatgcatg atgaaaaaag aattgctgtt 60
gttggtatgg ctgttcaata tgctggttgt aagactaaag atgaattttg ggaagttttg 120
atgaatggta aagttgaatc taaagttatc tctgataaaa gattgggttc taattaccga 180
gctgaacatt acaaggctga aagatccaaa tacgctgata ctttttgtaa cgaaacttat 240
ggtactttgg atgaaaacga aattgataac gaacatgaat tgttgttgaa tttggctaaa 300
caagcattgg ctgaaacttc tgttaaagat tctactagat gtggtattgt ttctggttgt 360
ttgtcttttc ctatggataa tttgcaaggt gaattgttga atgtctatca aaatcatgtt 420
gagaagaaat tgggtgctag agtttttaaa gatgcttctc attggtctga aagagaacaa 480
tctaacaaac cagaagctgg tgatagaaga attttcatgg acccagcttc ttttgttgct 540
gaagaattga atttgggtgc tttgcattat tctgttgatg ctgcttgtgc tactgcttta 600
tacgttttga gattggctca agatcatttg gtttctggtg ctgctgatgt tatgttgtgt 660
ggtgctactt gtttgccaga accattcttt atcttgtctg gtttttctac ttttcaagct 720
atgccagttg gtactggtca aaatgtttct atgccattgc ataaagattc tcaaggtttg 780
actccaggtg aaggtggttc tatcatggtt ttgaaaagat tggatgatgc tattagagat 840
ggtgatcata tctatggtac tttgttgggt gctaatgttt ctaattctgg cactggtttg 900
ccattgaaac cattgttgcc atctgaaaaa aaatgtttga tggatactta tactagaatt 960
aatgttcatc cacataaaat tcaatatgtt gaatgtcatg ctactggtac tccacaaggt 1020
gatagggttg aaattgatgc tgttaaagca tgttttgaag gaaaagttcc aagatttggt 1080
actactaaag gaaactttgg tcatactttg gttgctgctg gttttgctgg aatgtgcaaa 1140
gttttgttgt ctatgaaaca tggtatcatt ccaccaactc caggtattga tgatgaaact 1200
aagatggacc cattggttgt ttctggtgaa gctattcctt ggccagaaac taatggtgaa 1260
ccaaaaagag ctggtttgtc tgcttttggt tttggtggta ctaatgctca tgctgttttt 1320
gaagaacatg atccatctaa tgctgcttgt actggtcatg attctatttc tgctttgtct 1380
gctagatgtg gtggtgaatc taatatgaga attgctatta ctggtatgga tgctactttt 1440
ggtgctttga aaggtttgga tgcttttgaa agagccatct acactggtgc tcatggtgct 1500
attccattgc cagaaaagag atggagattt ttgggcaaag ataaagattt cttggatttg 1560
tgtggtgtta aagctactcc acatggttgt tatattgaag atgttgaagt tgattttcaa 1620
agattgagaa ctccaatgac tccagaagat atgttgttgc cacaacaatt gttggctgtt 1680
actactattg atagagctat tttggattct ggtatgaaaa aaggtggtaa tgttgctgtt 1740
tttgttggtt tgggtaccga tttggaattg tacagacata gagctagagt tgctttgaaa 1800
gaaagagtta gaccagaagc atctaaaaaa ttgaatgata tgatgcagta cattaatgat 1860
tgtggcacct ctacttctta tacttcttat attggtaatt tggttgctac tagagtttct 1920
tctcaatggg gttttactgg tccatctttt actattactg aagggaataa ctctgtttat 1980
agatgtgctg aattgggaaa gtatttgttg gaaactggtg aagttgatgg tgttgttgtt 2040
gctggtgttg atttgtgtgg ttctgctgaa aacttatacg ttaaatcaag aagattcaaa 2100
gtttctactt ctgatactcc aagagcttct tttgatgctg ctgctgatgg ttactttgtt 2160
ggtgaaggtt gtggtgcttt tgttttgaaa agagaaactt cttgtactaa agatgataga 2220
atctatgctt gcatggatgc tattgttcca ggtaatgttc catctgcttg tttgagagaa 2280
gcattggatc aagctagagt taaaccaggt gatattgaaa tgttggaatt gtctgctgat 2340
tctgctagac atttgaaaga tccatctgtt ttgccaaaag aattgactgc tgaagaagaa 2400
attggtggtt tgcaaactat tttgagagat gatgataaat tgccaagaaa tgttgctact 2460
ggttctgtta aagctactgt tggtgatact ggttatgctt ctggtgctgc ttctttgatt 2520
aaagctgctt tgtgcatcta taataggtat ttgccatcta atggtgatga ttgggatgaa 2580
ccagctccag aagctccttg ggattctact ttgtttgctt gtcaaacttc aagagcttgg 2640
ttgaaaaatc ctggagagag aagatatgct gctgtttctg gtgtttctga aactaggtct 2700
tgttattctg ttttgttgtc tgaagctgaa ggtcattatg aaagagaaaa tagaatttct 2760
ttggatgaag aagctccaaa attgattgtt ttgagagctg attctcatga agaaattttg 2820
ggtaggttgg ataaaattag agaaagattt ttgcaaccaa ctggtgctgc tccaagagaa 2880
tctgaattga aagctcaagc tagaagaatt ttcttggaat tgttgggtga aactttggct 2940
caagatgctg cttcttctgg ttctcaaaaa ccattggctt tgtctttggt ttctactcca 3000
tctaaattgc aaagagaagt tgaattggct gctaaaggta ttccaagatg tttgaaaatg 3060
agaagagatt ggtcttctcc agctggttca agatatgctc cagaaccatt ggcttctgat 3120
agagttgctt tcatgtacgg tgaaggaagg tctccatact atggaatcac tcaagatatt 3180
catagaattt ggccagaatt gcatgaagtt attaacgaaa aaactaatag gttgtgggct 3240
gaaggtgata gatgggttat gccaagagct tcttttaaat ctgaattgga atctcaacaa 3300
caagaatttg atagaaatat gattgaaatg tttaggttgg gtattttgac ttctattgct 3360
tttactaatt tggctagaga tgttttgaat attactccaa aagctgcttt tggtttgtct 3420
ttgggtgaaa tttctatgat ttttgctttt tctaaaaaaa atggtttgat ttctgatcaa 3480
ttgactaaag atttgagaga atctgatgtt tggaacaaag cattggctgt tgaattcaat 3540
gctttgagag aagcatgggg tattccacaa tctgttccaa aagatgaatt ttggcaaggt 3600
tatattgtta gaggtactaa acaagatatt gaagctgcta ttgctccaga ttccaaatac 3660
gttaggttga ctatcattaa tgatgctaat actgctttga tttctggtaa accagatgct 3720
tgtaaagctg ctattgctag gttgggtggt aatattccag ctttgccagt tactcaagga 3780
atgtgtggtc attgtccaga agttggtcca tatactaaag atattgctaa aattcatgct 3840
aatttggaat ttccagttgt tgatggtttg gatttgtgga ctactattaa tcaaaaaaga 3900
ttggttccaa gagctactgg tgctaaagat gaatgggctc catcttcttt tggtgaatat 3960
gctggtcaac tttacgaaaa acaagctaat tttccacaaa ttgttgaaac tatctacaaa 4020
caaaattatg atgtttttgt tgaggttggt ccaaacaacc ataggtctac tgctgttaga 4080
actactttgg gtccacaaag aaatcatttg gctggtgcta ttgataaaca aaacgaagat 4140
gcttggacta ctattgttaa attggttgct tctttgaaag ctcatttggt tccaggtgtt 4200
actatttctc cattgtatca ttctaaattg gttgctgaag ctgaagcatg ttatgctgct 4260
ctgtgcaaag gagaaaaacc taagaagaac aaatttgtta gaaaaattca attgaatggt 4320
aggttcaatt ctaaagctga tccaatttct tctgctgatt tggcttcttt tccaccagct 4380
gatccagcta ttgaagctgc tatttcttca agaattatga aaccagttgc tccaaaattt 4440
tatgctaggt tgaatattga tgaacaagac gaaacaagag atccaatttt gaacaaagat 4500
aatgctccat ctagttcatc tagttcctct tcatctagtt cttcatctag ttctccatct 4560
ccagctcctt ctgctccagt tcaaaaaaaa gctgctccag ctgctgaaac taaagctgtt 4620
gcttctgctg atgctttgag atctgctttg ttggatttgg attctatgtt ggctttgtct 4680
tctgcttctg cttctggtaa tttggttgaa actgctccat ctgatgcttc tgttattgtt 4740
ccaccatgta atattgctga tttgggttca agagctttta tgaaaactta tggtgtttct 4800
gctccattgt acactggtgc tatggctaaa ggtattgctt ctgctgattt ggttattgct 4860
gctggtagac aaggcatttt ggcttctttt ggtgctggtg gtttgccaat gcaagttgtt 4920
agagaatcta ttgaaaaaat tcaagctgct ttgccaaatg gtccatatgc tgttaatttg 4980
attcattctc catttgattc taatttggaa aaaggtaatg ttgatttgtt tttggaaaaa 5040
ggtgttactt ttgttgaagc atctgctttt atgactttga ctccacaagt tgttaggtac 5100
agagctgctg gtttgactag aaatgctgat ggttctgtta atattagaaa tagaattatc 5160
ggaaaggttt caagaactga attggctgaa atgtttatga gacctgcccc agaacacttg 5220
ttgcaaaaat tgattgcttc tggtgaaatt aatcaagaac aagctgaatt ggctagaaga 5280
gttccagttg ctgatgatat tgctgttgaa gctgattctg gtggtcatac tgataataga 5340
ccaattcatg ttatcttgcc attgattatt aatttgagag acagattgca tagagaatgt 5400
ggttatccag ctaatttgag agttagagtt ggtgctggtg gtggtattgg ttgtccacaa 5460
gctgctttgg ctacttttaa tatgggtgct tctttcattg ttactggcac tgttaatcaa 5520
gttgctaaac aatctggtac ttgtgataat gttagaaaac aattggctaa agctacttat 5580
tctgatgttt gcatggctcc agctgctgat atgtttgaag aaggtgttaa attgcaagtt 5640
ttgaagaaag ggacaatgtt tccatcaaga gctaataagt tatacgaatt gttttgcaag 5700
tatgattctt ttgaatctat gccaccagct gaattggcta gagttgaaaa aagaattttc 5760
tcaagagctt tggaagaagt ttgggatgaa actaaaaatt tttacattaa taggttgcac 5820
aatccagaaa aaattcaaag agctgaaaga gatccaaaat tgaaaatgtc tttgtgtttt 5880
agatggtatt tgtctttggc ttcaagatgg gctaatactg gtgcttctga tagagttatg 5940
gattatcaag tttggtgtgg tccagctatt ggttctttta atgatttcat taaaggcacc 6000
tacttggacc cagctgttgc taacgaatat ccatgcgttg ttcaaattaa caaacaaatt 6060
ttgagaggtg cttgtttcct cagaagattg gaaattttga gaaatgctag gttgtctgat 6120
ggtgctgctg ctttggttgc ttctattgat gatacttatg ttccagctga aaaattgtaa 6180
<210> 37
<211> 6180
<212> DNA
<213> Artificial
<220>
<223> synthetic
<400> 37
atggccgctc gcaacgtgtc tgcagcgcat gagatgcacg atgaaaagcg catcgccgtc 60
gtcggcatgg ccgtccagta cgccggatgc aaaaccaagg acgagttctg ggaggtgctc 120
atgaacggca aggtcgagtc caaggtgatc agcgacaaac gactcggctc caactaccgc 180
gccgagcact acaaagcaga gcgcagcaag tatgccgaca ccttttgcaa cgaaacgtac 240
ggcacccttg acgagaacga gatcgacaac gagcacgaac tcctcctcaa cctcgccaag 300
caggcactcg cagagacatc cgtcaaagac tcgacacgct gcggcatcgt cagcggctgc 360
ctctcgttcc ccatggacaa cctccagggt gaactcctca acgtgtacca aaaccatgtc 420
gagaaaaagc tcggggcccg cgtcttcaag gacgcctccc attggtccga acgcgagcag 480
tccaacaaac ccgaggccgg tgaccgccgc atcttcatgg acccggcctc cttcgtcgcc 540
gaagaactca acctcggcgc ccttcactac tccgtcgacg cagcatgcgc cacggcgctc 600
tacgtgctcc gcctcgcgca ggatcatctc gtctccggcg ccgccgacgt catgctctgc 660
ggtgccacct gcctgccgga gccctttttc atcctttcgg gcttttccac cttccaggcc 720
atgcccgtcg gcacgggcca gaacgtgtcc atgccgctgc acaaggacag ccagggcctc 780
accccgggtg agggcggctc catcatggtc ctcaagcgtc tcgatgatgc catccgcgac 840
ggcgaccaca tctacggcac ccttctcggc gccaatgtca gcaactccgg cacaggtctg 900
cccctcaagc cccttctccc cagcgagaaa aagtgcctca tggacaccta cacgcgcatt 960
aacgtgcacc cgcacaagat tcagtacgtc gagtgccacg ccaccggcac gccccagggt 1020
gatcgtgtgg aaatcgacgc cgtcaaggcc tgctttgaag gcaaggtccc ccgtttcggt 1080
accacaaagg gcaactttgg acacaccctc gtcgcagccg gctttgccgg tatgtgcaag 1140
gtcctcctct ccatgaagca tggcatcatc ccgcccaccc cgggtatcga tgacgagacc 1200
aagatggacc ctctcgtcgt ctccggtgag gccatcccat ggccagagac caacggcgag 1260
cccaagcgcg ccggtctctc ggcctttggc tttggtggca ccaacgccca tgccgtcttt 1320
gaggagcatg acccctccaa cgccgcctgc acgggccacg actccatttc tgcgctctcg 1380
gcccgctgcg gcggtgaaag caacatgcgc atcgccatca ctggtatgga cgccaccttt 1440
ggcgctctca agggactcga cgccttcgag cgcgccattt acaccggcgc tcacggtgcc 1500
atcccactcc cagaaaagcg ctggcgcttt ctcggcaagg acaaggactt tcttgacctc 1560
tgcggcgtca aggccacccc gcacggctgc tacattgaag atgttgaggt cgacttccag 1620
cgcctccgca cgcccatgac ccctgaagac atgctcctcc ctcagcagct tctggccgtc 1680
accaccattg accgcgccat cctcgactcg ggaatgaaaa agggtggcaa tgtcgccgtc 1740
tttgtcggcc tcggcaccga cctcgagctc taccgtcacc gtgctcgcgt cgctctcaag 1800
gagcgcgtcc gccctgaagc ctccaagaag ctcaatgaca tgatgcagta cattaacgac 1860
tgcggcacat ccacatcgta cacctcgtac attggcaacc tcgtcgccac gcgcgtctcg 1920
tcgcagtggg gcttcacggg cccctccttt acgatcaccg agggcaacaa ctccgtctac 1980
cgctgcgccg agctcggcaa gtacctcctc gagaccggcg aggtcgatgg cgtcgtcgtt 2040
gcgggtgtcg atctctgcgg cagtgccgaa aacctttacg tcaagtctcg ccgcttcaag 2100
gtgtccacct ccgatacccc gcgcgccagc tttgacgccg ccgccgatgg ctactttgtc 2160
ggcgagggct gcggtgcctt tgtgctcaag cgtgagacta gctgcaccaa ggacgaccgt 2220
atctacgctt gcatggatgc catcgtccct ggcaacgtcc ctagcgcctg cttgcgcgag 2280
gccctcgacc aggcgcgcgt caagccgggc gatatcgaga tgctcgagct cagcgccgac 2340
tccgcccgcc acctcaagga cccgtccgtc ctgcccaagg agctcactgc cgaggaggaa 2400
atcggcggcc ttcagacgat ccttcgtgac gatgacaagc tcccgcgcaa cgtcgcaacg 2460
ggcagtgtca aggccaccgt cggtgacacc ggttatgcct ctggtgctgc cagcctcatc 2520
aaggctgcgc tttgcatcta caaccgctac ctgcccagca acggcgacga ctgggatgaa 2580
cccgcccctg aggcgccctg ggacagcacc ctctttgcgt gccagacctc gcgcgcttgg 2640
ctcaagaacc ctggcgagcg tcgctatgcg gccgtctcgg gcgtctccga gacgcgctcg 2700
tgctattccg tgctcctctc cgaagccgag ggccactacg agcgcgagaa ccgcatctcg 2760
ctcgacgagg aggcgcccaa gctcattgtg cttcgcgccg actcccacga ggagatcctt 2820
ggtcgcctcg acaagatccg cgagcgcttc ttgcagccca cgggcgccgc cccgcgcgag 2880
tccgagctca aggcgcaggc ccgccgcatc ttcctcgagc tcctcggcga gacccttgcc 2940
caggatgccg cttcttcagg ctcgcaaaag cccctcgctc tcagcctcgt ctccacgccc 3000
tccaagctcc agcgcgaggt cgagctcgcg gccaagggta tcccgcgctg cctcaagatg 3060
cgccgcgatt ggagctcccc tgctggcagc cgctacgcgc ctgagccgct cgccagcgac 3120
cgcgtcgcct tcatgtacgg cgaaggtcgc agcccttact acggcatcac ccaagacatt 3180
caccgcattt ggcccgaact ccacgaggtc atcaacgaaa agacgaaccg tctctgggcc 3240
gaaggcgacc gctgggtcat gccgcgcgcc agcttcaagt cggagctcga gagccagcag 3300
caagagtttg atcgcaacat gattgaaatg ttccgtcttg gaatcctcac ctcaattgcc 3360
ttcaccaatc tggcgcgcga cgttctcaac atcacgccca aggccgcctt tggcctcagt 3420
cttggcgaga tttccatgat ttttgccttt tccaagaaga acggtctcat ctccgaccag 3480
ctcaccaagg atcttcgcga gtccgacgtg tggaacaagg ctctggccgt tgaatttaat 3540
gcgctgcgcg aggcctgggg cattccacag agtgtcccca aggacgagtt ctggcaaggc 3600
tacattgtgc gcggcaccaa gcaggatatc gaggcggcca tcgccccgga cagcaagtac 3660
gtgcgcctca ccatcatcaa tgatgccaac accgccctca ttagcggcaa gcccgacgcc 3720
tgcaaggctg cgatcgcgcg tctcggtggc aacattcctg cgcttcccgt gacccagggc 3780
atgtgcggcc actgccccga ggtgggacct tataccaagg atatcgccaa gatccatgcc 3840
aaccttgagt tccccgttgt cgacggcctt gacctctgga ccacaatcaa ccagaagcgc 3900
ctcgtgccac gcgccacggg cgccaaggac gaatgggccc cttcttcctt tggcgagtac 3960
gccggccagc tctacgagaa gcaggctaac ttcccccaaa tcgtcgagac catttacaag 4020
caaaactacg acgtctttgt cgaggttggg cccaacaacc accgtagcac cgcagtgcgc 4080
accacgcttg gtccccagcg caaccacctt gctggcgcca tcgacaagca gaacgaggat 4140
gcttggacga ccatcgtcaa gcttgtggct tcgctcaagg cccaccttgt tcctggcgtc 4200
acgatctcgc cgctgtacca ctccaagctt gtggcggagg ctgaggcttg ctacgctgcg 4260
ctctgcaagg gtgaaaagcc caagaagaac aagtttgtgc gcaagattca gctcaacggt 4320
cgcttcaaca gcaaggcgga ccccatctcc tcggccgatc ttgccagctt tccgcctgcg 4380
gaccctgcca ttgaagccgc catctcgagc cgcatcatga agccggttgc tccgaagttc 4440
tacgcgcgtc tcaacattga cgagcaggac gagacccgtg atccgatcct caacaaggac 4500
aacgcgccgt cttccagctc tagctcctct tccagctctt ccagctcttc cagcccgtcg 4560
ccagctccgt ccgccccagt gcaaaagaag gctgctccgg ccgcggagac caaggctgtt 4620
gcttcggctg acgcacttcg cagtgccctg ctcgatctcg acagtatgct tgcgctgagc 4680
tctgccagtg cctccggcaa ccttgttgag actgcgccta gcgacgcctc ggtcattgtg 4740
ccgccctgca acattgcgga tctcggcagc cgcgccttca tgaaaacgta cggtgtttcg 4800
gcgcctctgt acacgggcgc catggccaag ggcattgcct ctgcggacct cgtcattgcc 4860
gccggccgcc agggcatcct tgcgtccttt ggcgccggcg gacttcccat gcaggttgtg 4920
cgtgagtcca tcgaaaagat tcaggccgcc ctgcccaatg gcccgtacgc tgtcaacctt 4980
atccattctc cctttgacag caacctcgaa aagggcaatg tcgatctctt cctcgagaag 5040
ggtgtcacct ttgtcgaggc ctcggccttt atgacgctca ccccgcaggt cgtgcggtac 5100
cgcgcggctg gcctcacgcg caacgccgac ggctcggtca acatccgcaa ccgtatcatt 5160
ggcaaggtct cgcgcaccga gctcgccgag atgttcatgc gtcctgcgcc cgagcacctt 5220
cttcagaagc tcattgcttc cggcgagatc aaccaggagc aggccgagct cgcccgccgt 5280
gttcccgtcg ctgacgacat cgcggtcgaa gctgactcgg gtggccacac cgacaaccgc 5340
cccatccacg tcattctgcc cctcatcatc aaccttcgcg accgccttca ccgcgagtgc 5400
ggctacccgg ccaaccttcg cgtccgtgtg ggcgccggcg gtggcattgg gtgcccccag 5460
gcggcgctgg ccaccttcaa catgggtgcc tcctttattg tcaccggcac cgtgaaccag 5520
gtcgccaagc agtcgggcac gtgcgacaat gtgcgcaagc agctcgcgaa ggccacttac 5580
tcggacgtat gcatggcccc ggctgccgac atgttcgagg aaggcgtcaa gcttcaggtc 5640
ctcaagaagg gaaccatgtt tccctcgcgc gccaacaagc tctacgagct cttttgcaag 5700
tacgactcgt tcgagtccat gccccccgca gagcttgcgc gcgtcgagaa gcgcatcttc 5760
agccgcgcgc tcgaagaggt ctgggacgag accaaaaact tttacattaa ccgtcttcac 5820
aacccggaga agatccagcg cgccgagcgc gaccccaagc tcaagatgtc gctgtgcttt 5880
cgctggtacc tgagcctggc gagccgctgg gccaacactg gagcttccga tcgcgtcatg 5940
gactaccagg tctggtgcgg tcctgccatt ggttccttca acgatttcat caagggaact 6000
taccttgatc cggccgtcgc aaacgagtac ccgtgcgtcg ttcagattaa caagcagatc 6060
cttcgtggag cgtgcttctt gcgccgtctc gaaattctgc gcaacgcacg cctttccgat 6120
ggcgctgccg ctcttgtggc cagcatcgat gacacatacg tcccggccga gaagctgtaa 6180
<210> 38
<211> 8436
<212> DNA
<213> Thraustochytrium sp.
<220>
<221> CDS
<222> (1)..(8433)
<400> 38
atg aag gac atg gaa gat aga cgg gtc gct att gtg ggc atg tca gct 48
Met Lys Asp Met Glu Asp Arg Arg Val Ala Ile Val Gly Met Ser Ala
1 5 10 15
cac ttg cct tgt ggg aca gat gtg aag gaa tca tgg cag gct att cgc 96
His Leu Pro Cys Gly Thr Asp Val Lys Glu Ser Trp Gln Ala Ile Arg
20 25 30
gat gga atc gac tgt cta agt gac cta ccc gcg gat cgt ctc gac gtt 144
Asp Gly Ile Asp Cys Leu Ser Asp Leu Pro Ala Asp Arg Leu Asp Val
35 40 45
aca gct tac tac aat ccc aac aaa gcc acg aaa gac aag atc tac tgc 192
Thr Ala Tyr Tyr Asn Pro Asn Lys Ala Thr Lys Asp Lys Ile Tyr Cys
50 55 60
aaa cgg ggt ggc ttc atc ccg aac tat gac ttc gac ccc cgc gaa ttt 240
Lys Arg Gly Gly Phe Ile Pro Asn Tyr Asp Phe Asp Pro Arg Glu Phe
65 70 75 80
ggg ctc aac atg ttt caa atg gaa gac tct gat gcg aat cag aca ctt 288
Gly Leu Asn Met Phe Gln Met Glu Asp Ser Asp Ala Asn Gln Thr Leu
85 90 95
acc ttg ctc aaa gtc aaa caa gct ctc gaa gat gca agc ata gag cct 336
Thr Leu Leu Lys Val Lys Gln Ala Leu Glu Asp Ala Ser Ile Glu Pro
100 105 110
ttc acc aag gag aag aag aac att gga tgt gtt tta ggt att ggt ggg 384
Phe Thr Lys Glu Lys Lys Asn Ile Gly Cys Val Leu Gly Ile Gly Gly
115 120 125
ggc caa aag gcg agt cat gag ttc tac tct cgt ctc aac tac gtt gtc 432
Gly Gln Lys Ala Ser His Glu Phe Tyr Ser Arg Leu Asn Tyr Val Val
130 135 140
gtt gaa aag gta ctt cgg aaa atg ggt tta cca gat gct gat gtt gaa 480
Val Glu Lys Val Leu Arg Lys Met Gly Leu Pro Asp Ala Asp Val Glu
145 150 155 160
gaa gct gtg gag aaa tac aag gca aat ttt ccc gag tgg cgc cta gac 528
Glu Ala Val Glu Lys Tyr Lys Ala Asn Phe Pro Glu Trp Arg Leu Asp
165 170 175
tct ttc cct ggg ttt ctt ggg aat gta acg gct ggt cgg tgc agt aac 576
Ser Phe Pro Gly Phe Leu Gly Asn Val Thr Ala Gly Arg Cys Ser Asn
180 185 190
acc ttc aac atg gaa ggt atg aac tgc gtt gtg gat gct gca tgt gcc 624
Thr Phe Asn Met Glu Gly Met Asn Cys Val Val Asp Ala Ala Cys Ala
195 200 205
agt tct cta att gca atc aag gtt gca gtt gaa gag cta ctc ttt ggt 672
Ser Ser Leu Ile Ala Ile Lys Val Ala Val Glu Glu Leu Leu Phe Gly
210 215 220
gac tgt gac acc atg att gca ggt gcc acc tgc acg gac aat tca ctt 720
Asp Cys Asp Thr Met Ile Ala Gly Ala Thr Cys Thr Asp Asn Ser Leu
225 230 235 240
ggc atg tac atg gcc ttc tct aaa acg cca gtt ttt tct act gac cca 768
Gly Met Tyr Met Ala Phe Ser Lys Thr Pro Val Phe Ser Thr Asp Pro
245 250 255
agt gtc cgc gcg tat gat gag aaa aca aaa ggg atg cta att gga gaa 816
Ser Val Arg Ala Tyr Asp Glu Lys Thr Lys Gly Met Leu Ile Gly Glu
260 265 270
ggt tca gca atg ttc gtt ctt aaa cgc tat gcg gat gcc gta cgt gat 864
Gly Ser Ala Met Phe Val Leu Lys Arg Tyr Ala Asp Ala Val Arg Asp
275 280 285
ggc gac aca att cac gcg gtt ctg cgt tct tgc tct tcg tct agt gat 912
Gly Asp Thr Ile His Ala Val Leu Arg Ser Cys Ser Ser Ser Ser Asp
290 295 300
gga aaa gcg gca gga att tat act cct act ata tct gga caa gaa gaa 960
Gly Lys Ala Ala Gly Ile Tyr Thr Pro Thr Ile Ser Gly Gln Glu Glu
305 310 315 320
gct ttg cgt cga gcg tat gcc cgt gcg ggg gta tgt cca tct acg atc 1008
Ala Leu Arg Arg Ala Tyr Ala Arg Ala Gly Val Cys Pro Ser Thr Ile
325 330 335
ggg ctt gtt gag ggt cac ggg aca ggg acc cct gtt gga gat cgc att 1056
Gly Leu Val Glu Gly His Gly Thr Gly Thr Pro Val Gly Asp Arg Ile
340 345 350
gag tta aca gct ctg cgg aac ttg ttt gac aaa gct ttt ggt agc aag 1104
Glu Leu Thr Ala Leu Arg Asn Leu Phe Asp Lys Ala Phe Gly Ser Lys
355 360 365
aag gaa caa ata gca gtt ggc agc ata aag tct cag ata ggt cac ctg 1152
Lys Glu Gln Ile Ala Val Gly Ser Ile Lys Ser Gln Ile Gly His Leu
370 375 380
aaa tct gtt gcc ggc ttt gcc ggc ttg gtc aaa gct gtg ctt gcg ctt 1200
Lys Ser Val Ala Gly Phe Ala Gly Leu Val Lys Ala Val Leu Ala Leu
385 390 395 400
aaa cac aaa acg ctc cca ggt tcg att aat gtc gac cag cca cct ttg 1248
Lys His Lys Thr Leu Pro Gly Ser Ile Asn Val Asp Gln Pro Pro Leu
405 410 415
ttg tat gac ggt act caa att caa gac tct tct tta tat atc aac aag 1296
Leu Tyr Asp Gly Thr Gln Ile Gln Asp Ser Ser Leu Tyr Ile Asn Lys
420 425 430
aca aat aga cca tgg ttt acg caa aac aag ctt ccg cgt cgg gct ggt 1344
Thr Asn Arg Pro Trp Phe Thr Gln Asn Lys Leu Pro Arg Arg Ala Gly
435 440 445
gtc tca agt ttt gga ttt gga ggt gca aac tac cac gcg gtt ctg gaa 1392
Val Ser Ser Phe Gly Phe Gly Gly Ala Asn Tyr His Ala Val Leu Glu
450 455 460
gaa ttc gag ccc gag cat gaa aaa cca tac cgc ctc aat act gtt gga 1440
Glu Phe Glu Pro Glu His Glu Lys Pro Tyr Arg Leu Asn Thr Val Gly
465 470 475 480
cat cct gtc ctc ttg tac gct ccg tct gtg gaa gcc ctc aaa gta ctt 1488
His Pro Val Leu Leu Tyr Ala Pro Ser Val Glu Ala Leu Lys Val Leu
485 490 495
tgc aac gac cag ctt gcg gag ctc aca att gca ttg gaa gag gca aaa 1536
Cys Asn Asp Gln Leu Ala Glu Leu Thr Ile Ala Leu Glu Glu Ala Lys
500 505 510
aca cat aaa aat gtt gac aaa gtt tgt ggc tac aag ttt att gac gaa 1584
Thr His Lys Asn Val Asp Lys Val Cys Gly Tyr Lys Phe Ile Asp Glu
515 520 525
ttt cag ctc caa gga agc tgt cct cca gaa aat ccg aga gta gga ttt 1632
Phe Gln Leu Gln Gly Ser Cys Pro Pro Glu Asn Pro Arg Val Gly Phe
530 535 540
tta gca aca ctg cct act tca aat atc att gtc gcg ctt aag gca att 1680
Leu Ala Thr Leu Pro Thr Ser Asn Ile Ile Val Ala Leu Lys Ala Ile
545 550 555 560
ctc gcg cag ctt gat gca aaa cca gat gcg aag aaa tgg gat ttg cct 1728
Leu Ala Gln Leu Asp Ala Lys Pro Asp Ala Lys Lys Trp Asp Leu Pro
565 570 575
cat aaa aag gct ttt ggg gct acc ttc gca tcg tct tca gtg aaa ggc 1776
His Lys Lys Ala Phe Gly Ala Thr Phe Ala Ser Ser Ser Val Lys Gly
580 585 590
tct gtt gct gcg ctc ttc gca gga cag ggt acc cag tac tta aac atg 1824
Ser Val Ala Ala Leu Phe Ala Gly Gln Gly Thr Gln Tyr Leu Asn Met
595 600 605
ttc tct gat gtg gca atg aac tgg cca ccg ttc cgt gac agc att gtc 1872
Phe Ser Asp Val Ala Met Asn Trp Pro Pro Phe Arg Asp Ser Ile Val
610 615 620
gca atg gaa gaa gct caa act gag gta ttt gag ggc caa gtt gaa cca 1920
Ala Met Glu Glu Ala Gln Thr Glu Val Phe Glu Gly Gln Val Glu Pro
625 630 635 640
att agc aaa gtt ctg ttt cca cga gag cgc tat gca tcc gaa agt gaa 1968
Ile Ser Lys Val Leu Phe Pro Arg Glu Arg Tyr Ala Ser Glu Ser Glu
645 650 655
cag ggg aat gaa ctt ctt tgc tta aca gag tac tct cag cca act acg 2016
Gln Gly Asn Glu Leu Leu Cys Leu Thr Glu Tyr Ser Gln Pro Thr Thr
660 665 670
ata gca gcc gca gta ggg gcc ttc gat att ttc aaa gcg gct ggc ttt 2064
Ile Ala Ala Ala Val Gly Ala Phe Asp Ile Phe Lys Ala Ala Gly Phe
675 680 685
aag cca gac atg gtt gga ggg cat tca ctt ggc gaa ttt gct gct ttg 2112
Lys Pro Asp Met Val Gly Gly His Ser Leu Gly Glu Phe Ala Ala Leu
690 695 700
tac gcg gct ggg tcc att tcg cgt gac gac ctg tac aag ctt gtg tgc 2160
Tyr Ala Ala Gly Ser Ile Ser Arg Asp Asp Leu Tyr Lys Leu Val Cys
705 710 715 720
aaa cgg gca aag gca atg gcg aac gct agt gac gga gct atg gca gca 2208
Lys Arg Ala Lys Ala Met Ala Asn Ala Ser Asp Gly Ala Met Ala Ala
725 730 735
gtg att ggc cca gat gca cgt cta gtt acg cca caa aat agt gac gtt 2256
Val Ile Gly Pro Asp Ala Arg Leu Val Thr Pro Gln Asn Ser Asp Val
740 745 750
tat gtc gca aac ttc aac tcc gca act caa gta gtc atc agt ggc act 2304
Tyr Val Ala Asn Phe Asn Ser Ala Thr Gln Val Val Ile Ser Gly Thr
755 760 765
gtt caa ggt gtg aaa gaa gag tcg aaa ttg ctc att tca aag ggg ttc 2352
Val Gln Gly Val Lys Glu Glu Ser Lys Leu Leu Ile Ser Lys Gly Phe
770 775 780
cgc gta ctg cca ctt aaa tgc cag ggc gcc ttc cat tct cct ttg atg 2400
Arg Val Leu Pro Leu Lys Cys Gln Gly Ala Phe His Ser Pro Leu Met
785 790 795 800
ggg cct tct gag gat agt ttc aaa tca ctt gtg gag act tgt acc atc 2448
Gly Pro Ser Glu Asp Ser Phe Lys Ser Leu Val Glu Thr Cys Thr Ile
805 810 815
tcg ccg cca aaa aat gtg aaa ttc ttt tgc aat gtt agt ggc aag gaa 2496
Ser Pro Pro Lys Asn Val Lys Phe Phe Cys Asn Val Ser Gly Lys Glu
820 825 830
agc cca aac cca aaa cag acc ctc aag tca cac atg acg tct agc gtt 2544
Ser Pro Asn Pro Lys Gln Thr Leu Lys Ser His Met Thr Ser Ser Val
835 840 845
cag ttc gag gag cag att cgt aac atg tac gat gcc gga gca cgt gtt 2592
Gln Phe Glu Glu Gln Ile Arg Asn Met Tyr Asp Ala Gly Ala Arg Val
850 855 860
ttt ctg gag ttt gga ccc cgc caa gtc ctt gca aag ctt atc gcg gaa 2640
Phe Leu Glu Phe Gly Pro Arg Gln Val Leu Ala Lys Leu Ile Ala Glu
865 870 875 880
atg ttt ccc tcg tgt aca gct atc agc gtt aac ccc gcg agc agt ggt 2688
Met Phe Pro Ser Cys Thr Ala Ile Ser Val Asn Pro Ala Ser Ser Gly
885 890 895
gac agt gac gtg caa ctc cgc ctc gcc gcc gta aaa ttc gcg gtc tcg 2736
Asp Ser Asp Val Gln Leu Arg Leu Ala Ala Val Lys Phe Ala Val Ser
900 905 910
ggt gca gcc ctt agc acc ttt gat cca tgg gag tat cgc aag cca caa 2784
Gly Ala Ala Leu Ser Thr Phe Asp Pro Trp Glu Tyr Arg Lys Pro Gln
915 920 925
gat ctt ctt att cga aaa cca cga aaa act gcc ctt gtt cta tca gca 2832
Asp Leu Leu Ile Arg Lys Pro Arg Lys Thr Ala Leu Val Leu Ser Ala
930 935 940
gca aca tat gtt tcc cca aag act ctt gca gaa cgt aaa aag gct atg 2880
Ala Thr Tyr Val Ser Pro Lys Thr Leu Ala Glu Arg Lys Lys Ala Met
945 950 955 960
gaa gat atc aag cta gta tcc att aca cca aga gat agt atg gta tca 2928
Glu Asp Ile Lys Leu Val Ser Ile Thr Pro Arg Asp Ser Met Val Ser
965 970 975
att gga aaa atc gcg caa gaa gta cgg aca gct aaa cag cct tta gaa 2976
Ile Gly Lys Ile Ala Gln Glu Val Arg Thr Ala Lys Gln Pro Leu Glu
980 985 990
acc gaa att cga aga ctc aac aaa gaa tta gaa cat ctc aag aga gag 3024
Thr Glu Ile Arg Arg Leu Asn Lys Glu Leu Glu His Leu Lys Arg Glu
995 1000 1005
cta gca gca gcc aaa gcg agt gtc aag tct gca tca aaa agc tct 3069
Leu Ala Ala Ala Lys Ala Ser Val Lys Ser Ala Ser Lys Ser Ser
1010 1015 1020
aaa gag cga tct gtc cta tca aag cac cgc gct ttg ctt caa aac 3114
Lys Glu Arg Ser Val Leu Ser Lys His Arg Ala Leu Leu Gln Asn
1025 1030 1035
att ttg caa gac tac gat gat ctt cgt gtg gtg cca ttc gct gtt 3159
Ile Leu Gln Asp Tyr Asp Asp Leu Arg Val Val Pro Phe Ala Val
1040 1045 1050
cgt tct gtt gca gtg gac aac acc gcg ccg tat gct gac caa gtt 3204
Arg Ser Val Ala Val Asp Asn Thr Ala Pro Tyr Ala Asp Gln Val
1055 1060 1065
tcg acc cca gcg tca gag cgg tcg gct tca ccg ctt ttc gag aaa 3249
Ser Thr Pro Ala Ser Glu Arg Ser Ala Ser Pro Leu Phe Glu Lys
1070 1075 1080
cgc agt tcg gtt tcg tca gca cgc ctc gct gaa gct gaa gcc gcg 3294
Arg Ser Ser Val Ser Ser Ala Arg Leu Ala Glu Ala Glu Ala Ala
1085 1090 1095
gta ctg agc gtt ctc gca gac aag aca ggc tac gac agc tca atg 3339
Val Leu Ser Val Leu Ala Asp Lys Thr Gly Tyr Asp Ser Ser Met
1100 1105 1110
atc gag atg gac atg gac ctg gag agt gag ctt ggc gtt gat agc 3384
Ile Glu Met Asp Met Asp Leu Glu Ser Glu Leu Gly Val Asp Ser
1115 1120 1125
atc aaa cgc gtg gag atc atg agc gag gtt caa acg ctg ctc agc 3429
Ile Lys Arg Val Glu Ile Met Ser Glu Val Gln Thr Leu Leu Ser
1130 1135 1140
gtg gaa gtc tcc gac gtt gac gct ctg tca aga acc aag act gtt 3474
Val Glu Val Ser Asp Val Asp Ala Leu Ser Arg Thr Lys Thr Val
1145 1150 1155
ggc gac gtc atc gag gcg atg aag ctg gaa ctc ggt gga ccc caa 3519
Gly Asp Val Ile Glu Ala Met Lys Leu Glu Leu Gly Gly Pro Gln
1160 1165 1170
ggc cag act ttg acc gcg gaa tcg atc cgt cag cca ccg gtg tcc 3564
Gly Gln Thr Leu Thr Ala Glu Ser Ile Arg Gln Pro Pro Val Ser
1175 1180 1185
gag cct gct gta ccg acc tca tcg tca agc agt att gct aat gtt 3609
Glu Pro Ala Val Pro Thr Ser Ser Ser Ser Ser Ile Ala Asn Val
1190 1195 1200
tcg tca gca cgc ctc gct gaa gct gaa gct gcg gta ctg agc gtt 3654
Ser Ser Ala Arg Leu Ala Glu Ala Glu Ala Ala Val Leu Ser Val
1205 1210 1215
ctc gca gac aag aca ggc tac gac agc tca atg atc gag atg gac 3699
Leu Ala Asp Lys Thr Gly Tyr Asp Ser Ser Met Ile Glu Met Asp
1220 1225 1230
atg gac ctg gag agc gag ctt ggc gtt gat agc atc aaa cgc gtg 3744
Met Asp Leu Glu Ser Glu Leu Gly Val Asp Ser Ile Lys Arg Val
1235 1240 1245
gag atc atg agc gag gtt caa acg ctg ctc agc gtg gaa gtc tcc 3789
Glu Ile Met Ser Glu Val Gln Thr Leu Leu Ser Val Glu Val Ser
1250 1255 1260
gac gtt gac gct ctg tca aga act aag act gtt ggc gac gtc atc 3834
Asp Val Asp Ala Leu Ser Arg Thr Lys Thr Val Gly Asp Val Ile
1265 1270 1275
gag gcg atg aag ctg gaa ctc ggt gga ccc caa ggc cag act ttg 3879
Glu Ala Met Lys Leu Glu Leu Gly Gly Pro Gln Gly Gln Thr Leu
1280 1285 1290
acc gcg gaa tcg atc cgt cag cca ccg gtg tct gag cct gct gta 3924
Thr Ala Glu Ser Ile Arg Gln Pro Pro Val Ser Glu Pro Ala Val
1295 1300 1305
ccg acc tca tcg tca agc agt att gct aat gtt tcg tca gca cgc 3969
Pro Thr Ser Ser Ser Ser Ser Ile Ala Asn Val Ser Ser Ala Arg
1310 1315 1320
ctc gct gaa gct gaa gcg gcg gta ctg agc gtt ctc gca gac aag 4014
Leu Ala Glu Ala Glu Ala Ala Val Leu Ser Val Leu Ala Asp Lys
1325 1330 1335
aca ggc tac gac agc tca atg atc gag atg gac atg gac ctg gag 4059
Thr Gly Tyr Asp Ser Ser Met Ile Glu Met Asp Met Asp Leu Glu
1340 1345 1350
agc gag ctt ggc gtc gac agc atc aaa cgc gtg gag atc atg agc 4104
Ser Glu Leu Gly Val Asp Ser Ile Lys Arg Val Glu Ile Met Ser
1355 1360 1365
gag gtt caa acg ctg ctc agc gtg gaa gtc tcc gac gtt gac gct 4149
Glu Val Gln Thr Leu Leu Ser Val Glu Val Ser Asp Val Asp Ala
1370 1375 1380
ctg tca aga acc aag act gtt ggc gac gtc atc gag gcg atg aag 4194
Leu Ser Arg Thr Lys Thr Val Gly Asp Val Ile Glu Ala Met Lys
1385 1390 1395
ctg gaa ctc ggt gga ccc caa ggc cag act ttg acc gcg gaa tcg 4239
Leu Glu Leu Gly Gly Pro Gln Gly Gln Thr Leu Thr Ala Glu Ser
1400 1405 1410
atc cgt cag cca ccg gtg tcc gag cct gct gta ccg acc tca tcg 4284
Ile Arg Gln Pro Pro Val Ser Glu Pro Ala Val Pro Thr Ser Ser
1415 1420 1425
tca agc agt att gct aat gtt ttg tca gca cgc ctc gct gaa gct 4329
Ser Ser Ser Ile Ala Asn Val Leu Ser Ala Arg Leu Ala Glu Ala
1430 1435 1440
gaa gcc gcg gta ctg agc gtt ctc gca gac aag aca ggc tac gac 4374
Glu Ala Ala Val Leu Ser Val Leu Ala Asp Lys Thr Gly Tyr Asp
1445 1450 1455
agc tca atg atc gag atg gac atg gac ctg gag agc gag ctt ggc 4419
Ser Ser Met Ile Glu Met Asp Met Asp Leu Glu Ser Glu Leu Gly
1460 1465 1470
gtt gat agc atc aaa cgc gtg gag atc atg agc gag gtt caa acg 4464
Val Asp Ser Ile Lys Arg Val Glu Ile Met Ser Glu Val Gln Thr
1475 1480 1485
ttg ctc agc gtg gaa gtc tcc gac gtt gac gct ctg tca aga acc 4509
Leu Leu Ser Val Glu Val Ser Asp Val Asp Ala Leu Ser Arg Thr
1490 1495 1500
aag act gtt ggc gac gtc atc gag gcg atg aag ctg gaa ctc ggt 4554
Lys Thr Val Gly Asp Val Ile Glu Ala Met Lys Leu Glu Leu Gly
1505 1510 1515
gga ccc caa ggc cag act ttg acc gcg gaa tcg atc cgt cag cca 4599
Gly Pro Gln Gly Gln Thr Leu Thr Ala Glu Ser Ile Arg Gln Pro
1520 1525 1530
ccg gtg tct gag cct gct gta ccg acc tca tcg tca agc agt att 4644
Pro Val Ser Glu Pro Ala Val Pro Thr Ser Ser Ser Ser Ser Ile
1535 1540 1545
gct aat gtt tcg tca gca cgc ctc gct gaa gct gaa gcc gcg gta 4689
Ala Asn Val Ser Ser Ala Arg Leu Ala Glu Ala Glu Ala Ala Val
1550 1555 1560
ctg agc gtt ctc gca gac aag aca ggc tac gac agc tca atg atc 4734
Leu Ser Val Leu Ala Asp Lys Thr Gly Tyr Asp Ser Ser Met Ile
1565 1570 1575
gag atg gac atg gac ctg gag agt gag ctt ggc gtc gac agc atc 4779
Glu Met Asp Met Asp Leu Glu Ser Glu Leu Gly Val Asp Ser Ile
1580 1585 1590
aaa cgc gtg gag atc atg agc gag gtt caa acg ctg ctc agc gtg 4824
Lys Arg Val Glu Ile Met Ser Glu Val Gln Thr Leu Leu Ser Val
1595 1600 1605
gaa gtc tcc gac gtt gac gct ctg tca aga acc aag act gtt ggc 4869
Glu Val Ser Asp Val Asp Ala Leu Ser Arg Thr Lys Thr Val Gly
1610 1615 1620
gac gtc atc gag gcg atg aag ctg gaa ctc ggt gga ccc caa ggc 4914
Asp Val Ile Glu Ala Met Lys Leu Glu Leu Gly Gly Pro Gln Gly
1625 1630 1635
cag act ttg acc tct gaa ccg atc cat cag cca cca gtg tcc gag 4959
Gln Thr Leu Thr Ser Glu Pro Ile His Gln Pro Pro Val Ser Glu
1640 1645 1650
cct gct gta ccg acc tca tcg tca agc agt att gct aat gtt tct 5004
Pro Ala Val Pro Thr Ser Ser Ser Ser Ser Ile Ala Asn Val Ser
1655 1660 1665
tca gca cgc ctc gct gaa gct gaa gcc gcg gta ctg agc gtt ctc 5049
Ser Ala Arg Leu Ala Glu Ala Glu Ala Ala Val Leu Ser Val Leu
1670 1675 1680
gca gac aag aca ggc tac gac agc tca atg atc gag atg gac atg 5094
Ala Asp Lys Thr Gly Tyr Asp Ser Ser Met Ile Glu Met Asp Met
1685 1690 1695
gac ctg gag agc gag ctt ggc gtt gat agc atc aaa cgc gtg gaa 5139
Asp Leu Glu Ser Glu Leu Gly Val Asp Ser Ile Lys Arg Val Glu
1700 1705 1710
atc atg agc gag gtt caa acg ctg ctc agc gtg gaa gtc tcc gac 5184
Ile Met Ser Glu Val Gln Thr Leu Leu Ser Val Glu Val Ser Asp
1715 1720 1725
gtt gac gct ctg tca aga acc aag act gtt ggc gac gtc atc gag 5229
Val Asp Ala Leu Ser Arg Thr Lys Thr Val Gly Asp Val Ile Glu
1730 1735 1740
gcg atg aag atg gaa ctc ggt gga ccc caa ggc cag act ttg acc 5274
Ala Met Lys Met Glu Leu Gly Gly Pro Gln Gly Gln Thr Leu Thr
1745 1750 1755
gcg gaa tcg atc cgt cag cca ccg gtg tct gag cct gct gta ccg 5319
Ala Glu Ser Ile Arg Gln Pro Pro Val Ser Glu Pro Ala Val Pro
1760 1765 1770
acc tca tcg tca agc agt att gct aat gtt tcg tca gca cgc ctc 5364
Thr Ser Ser Ser Ser Ser Ile Ala Asn Val Ser Ser Ala Arg Leu
1775 1780 1785
gct gaa gct gaa gcg gcg gta ctg agc gtt ctc gca gac aag aca 5409
Ala Glu Ala Glu Ala Ala Val Leu Ser Val Leu Ala Asp Lys Thr
1790 1795 1800
ggc tac gac agc tca atg atc gag atg gac atg gac ctg gag agc 5454
Gly Tyr Asp Ser Ser Met Ile Glu Met Asp Met Asp Leu Glu Ser
1805 1810 1815
gag ctt ggc gtt gat agc atc aaa cgc gtg gag atc atg agc gag 5499
Glu Leu Gly Val Asp Ser Ile Lys Arg Val Glu Ile Met Ser Glu
1820 1825 1830
gtt caa gcg ctg ctc agc gtg gaa gtc tcc gac gtt gac gct ctg 5544
Val Gln Ala Leu Leu Ser Val Glu Val Ser Asp Val Asp Ala Leu
1835 1840 1845
tca aga acc aag act gtt ggc gac gtc atc gag gcg atg aag atg 5589
Ser Arg Thr Lys Thr Val Gly Asp Val Ile Glu Ala Met Lys Met
1850 1855 1860
gaa ctc ggt gga ccc caa ggc cag act ttg acc gca gaa tcg atc 5634
Glu Leu Gly Gly Pro Gln Gly Gln Thr Leu Thr Ala Glu Ser Ile
1865 1870 1875
cgt gag cca ccg gtg tct gag cct gct gta ccg acc tca tcg tca 5679
Arg Glu Pro Pro Val Ser Glu Pro Ala Val Pro Thr Ser Ser Ser
1880 1885 1890
agt agt atc gct aat gtt tct tca gct cgc ctc gct gaa gct gaa 5724
Ser Ser Ile Ala Asn Val Ser Ser Ala Arg Leu Ala Glu Ala Glu
1895 1900 1905
gcc gcg gta ctg agc gtt ctc gca gac aag aca ggc tac gac agc 5769
Ala Ala Val Leu Ser Val Leu Ala Asp Lys Thr Gly Tyr Asp Ser
1910 1915 1920
tca atg atc gag atg gac atg gac ctg gag agt gag ctt ggc gtc 5814
Ser Met Ile Glu Met Asp Met Asp Leu Glu Ser Glu Leu Gly Val
1925 1930 1935
gac agc atc aaa cgc gtg gag atc atg agc gag gtt caa acg ttg 5859
Asp Ser Ile Lys Arg Val Glu Ile Met Ser Glu Val Gln Thr Leu
1940 1945 1950
ctc agc gtg gaa gtc tcc gac gtt gac gct ctg tca aga acc aag 5904
Leu Ser Val Glu Val Ser Asp Val Asp Ala Leu Ser Arg Thr Lys
1955 1960 1965
act gtt ggc gac gtc atc gag gcg atg aag ctg gaa ctt ggg gaa 5949
Thr Val Gly Asp Val Ile Glu Ala Met Lys Leu Glu Leu Gly Glu
1970 1975 1980
tca tca agt att gag act ctc aat tgt acc gag gtt gag cac acg 5994
Ser Ser Ser Ile Glu Thr Leu Asn Cys Thr Glu Val Glu His Thr
1985 1990 1995
agc tac aaa agt gtc aag gct tca ggg tgt gag aat gta gat acc 6039
Ser Tyr Lys Ser Val Lys Ala Ser Gly Cys Glu Asn Val Asp Thr
2000 2005 2010
cgt ttc gct aag gtt gta caa atc tcg ctt cct agc aag ctg aaa 6084
Arg Phe Ala Lys Val Val Gln Ile Ser Leu Pro Ser Lys Leu Lys
2015 2020 2025
tcc act gtg tcg cac gat cga cct gta att gtt gta gat gat gga 6129
Ser Thr Val Ser His Asp Arg Pro Val Ile Val Val Asp Asp Gly
2030 2035 2040
acg ccc tta acc acg gag ctt tgt aaa att ctt ggg ggt aat att 6174
Thr Pro Leu Thr Thr Glu Leu Cys Lys Ile Leu Gly Gly Asn Ile
2045 2050 2055
gtg gtt ctc tct tat caa ggg aag ccc gct ggt cca cgg gga gtc 6219
Val Val Leu Ser Tyr Gln Gly Lys Pro Ala Gly Pro Arg Gly Val
2060 2065 2070
gag gtg cca gat ctt tcc gag gaa gcc cta att caa gct ctt gca 6264
Glu Val Pro Asp Leu Ser Glu Glu Ala Leu Ile Gln Ala Leu Ala
2075 2080 2085
ttg att cgg tct aca tat gga gtt cca att ggt ttt att tgt cag 6309
Leu Ile Arg Ser Thr Tyr Gly Val Pro Ile Gly Phe Ile Cys Gln
2090 2095 2100
caa gtg tct aat gtg agc acc aag gca cag ctt tgt tgg gca ctc 6354
Gln Val Ser Asn Val Ser Thr Lys Ala Gln Leu Cys Trp Ala Leu
2105 2110 2115
ctc gca gcg aag cat ctc aag aag gat ttg aat gct gtc tta ccc 6399
Leu Ala Ala Lys His Leu Lys Lys Asp Leu Asn Ala Val Leu Pro
2120 2125 2130
gat tca aga tcc ttc ttc gtc gga gtt gta cgc ttg aac ggg aaa 6444
Asp Ser Arg Ser Phe Phe Val Gly Val Val Arg Leu Asn Gly Lys
2135 2140 2145
ctt gga act ttc gaa aac atc agc gac ttc tct aaa ttt gat ttg 6489
Leu Gly Thr Phe Glu Asn Ile Ser Asp Phe Ser Lys Phe Asp Leu
2150 2155 2160
acg aaa gcc cta gat tac gga cag cgt ggt tct ctc tta ggc ctg 6534
Thr Lys Ala Leu Asp Tyr Gly Gln Arg Gly Ser Leu Leu Gly Leu
2165 2170 2175
tgc aag tca cta gac tta gaa tgg gaa cag gtg ttt tgc cgt gga 6579
Cys Lys Ser Leu Asp Leu Glu Trp Glu Gln Val Phe Cys Arg Gly
2180 2185 2190
ata gat ctt gcg tgt gat ctt atg cca ctc cag gcc gca agg ata 6624
Ile Asp Leu Ala Cys Asp Leu Met Pro Leu Gln Ala Ala Arg Ile
2195 2200 2205
ctc aga aat gag ctt cag tgt ccc aat atg cgc ctt cgc gag gtt 6669
Leu Arg Asn Glu Leu Gln Cys Pro Asn Met Arg Leu Arg Glu Val
2210 2215 2220
ggg tac gat att tct ggc gcc agg tac acc att tca acc gat gac 6714
Gly Tyr Asp Ile Ser Gly Ala Arg Tyr Thr Ile Ser Thr Asp Asp
2225 2230 2235
ctg cta tgt gga ccc tcg aag gct aaa gta gag gcc gca gac ttg 6759
Leu Leu Cys Gly Pro Ser Lys Ala Lys Val Glu Ala Ala Asp Leu
2240 2245 2250
ttt ctt gtg aca ggt ggc gca cga ggt att aca cct cat tgt gtt 6804
Phe Leu Val Thr Gly Gly Ala Arg Gly Ile Thr Pro His Cys Val
2255 2260 2265
cgt gag att gca agt cga tcc ccc gga acc aca ttt gtg ctg gtt 6849
Arg Glu Ile Ala Ser Arg Ser Pro Gly Thr Thr Phe Val Leu Val
2270 2275 2280
gga aga agc gaa atg tcc gac gag cct gac tgg gct gtt ggc cac 6894
Gly Arg Ser Glu Met Ser Asp Glu Pro Asp Trp Ala Val Gly His
2285 2290 2295
tac aat aaa gac ctg gac caa agc aca atg aaa cac ttg aaa gca 6939
Tyr Asn Lys Asp Leu Asp Gln Ser Thr Met Lys His Leu Lys Ala
2300 2305 2310
acg cat gct gct gga ggg gta aaa cct acg cct aaa gca cat cgt 6984
Thr His Ala Ala Gly Gly Val Lys Pro Thr Pro Lys Ala His Arg
2315 2320 2325
gca ctt gtg aac agg gtc act ggc tca cgg gag gta cga gaa tct 7029
Ala Leu Val Asn Arg Val Thr Gly Ser Arg Glu Val Arg Glu Ser
2330 2335 2340
ctt aga gca atc cag gag gca ggg gca aat gtc gaa tat atc gcc 7074
Leu Arg Ala Ile Gln Glu Ala Gly Ala Asn Val Glu Tyr Ile Ala
2345 2350 2355
tgt gat gtt tcg gat gaa aac aag gtc cgc caa ctt gtg caa aga 7119
Cys Asp Val Ser Asp Glu Asn Lys Val Arg Gln Leu Val Gln Arg
2360 2365 2370
gtg gag caa aag tat ggc tgt gaa ata act ggg att tgg cat gca 7164
Val Glu Gln Lys Tyr Gly Cys Glu Ile Thr Gly Ile Trp His Ala
2375 2380 2385
agc ggg gtt ctt cgt gac aaa ctt gtc gag caa aag act aca gac 7209
Ser Gly Val Leu Arg Asp Lys Leu Val Glu Gln Lys Thr Thr Asp
2390 2395 2400
gac ttt gag gca gtt ttt ggg acc aag gtg act ggc ctt gta aac 7254
Asp Phe Glu Ala Val Phe Gly Thr Lys Val Thr Gly Leu Val Asn
2405 2410 2415
atc gtg tca caa gtc aat atg tct aag cta cga cac ttc atc ctc 7299
Ile Val Ser Gln Val Asn Met Ser Lys Leu Arg His Phe Ile Leu
2420 2425 2430
ttc agt tct ttg gct gga ttt cat ggg aac aag ggc caa acg gat 7344
Phe Ser Ser Leu Ala Gly Phe His Gly Asn Lys Gly Gln Thr Asp
2435 2440 2445
tat gca att gct aat gaa gcc ttg aac aaa atc gcg cat act ctc 7389
Tyr Ala Ile Ala Asn Glu Ala Leu Asn Lys Ile Ala His Thr Leu
2450 2455 2460
tca gcg ttt ttg ccc aaa ctg aat gca aag gtg cta gac ttc ggt 7434
Ser Ala Phe Leu Pro Lys Leu Asn Ala Lys Val Leu Asp Phe Gly
2465 2470 2475
ccg tgg gta ggt tca gga atg gta acc gaa aca ctt gag aag cat 7479
Pro Trp Val Gly Ser Gly Met Val Thr Glu Thr Leu Glu Lys His
2480 2485 2490
ttt aaa gct atg ggg gtt cag act att cct ctc gag cca gga gca 7524
Phe Lys Ala Met Gly Val Gln Thr Ile Pro Leu Glu Pro Gly Ala
2495 2500 2505
cgg act gtt gcg caa atc att ttg gca agt tcg cca ccg caa tcg 7569
Arg Thr Val Ala Gln Ile Ile Leu Ala Ser Ser Pro Pro Gln Ser
2510 2515 2520
ctt ttg ggg aac tgg ggc ttt cca gcc acc aaa ccg cta caa cgc 7614
Leu Leu Gly Asn Trp Gly Phe Pro Ala Thr Lys Pro Leu Gln Arg
2525 2530 2535
tct aat gta gtc acg ggc aca ctc tct ccg gaa gag ata gaa ttc 7659
Ser Asn Val Val Thr Gly Thr Leu Ser Pro Glu Glu Ile Glu Phe
2540 2545 2550
atc gca gac cac aaa att caa ggc cgc aag gtg ctt ccc atg atg 7704
Ile Ala Asp His Lys Ile Gln Gly Arg Lys Val Leu Pro Met Met
2555 2560 2565
gct gca atc ggg ttc atg gcc tct att gcg gaa gga ctc tac ccg 7749
Ala Ala Ile Gly Phe Met Ala Ser Ile Ala Glu Gly Leu Tyr Pro
2570 2575 2580
ggg tac aat ctg caa ggc gtg gaa aat gct cag ctc ttt caa ggc 7794
Gly Tyr Asn Leu Gln Gly Val Glu Asn Ala Gln Leu Phe Gln Gly
2585 2590 2595
ttg act atc aac caa gag aca aaa ttt caa atc act ctc att gag 7839
Leu Thr Ile Asn Gln Glu Thr Lys Phe Gln Ile Thr Leu Ile Glu
2600 2605 2610
gag cac aac tct gag gaa aac ctg gat gtc ctg aca tcc ctt ggt 7884
Glu His Asn Ser Glu Glu Asn Leu Asp Val Leu Thr Ser Leu Gly
2615 2620 2625
gta atg ttg gaa agc ggg aag gtg ctt ccc gct tac cga tgt gtt 7929
Val Met Leu Glu Ser Gly Lys Val Leu Pro Ala Tyr Arg Cys Val
2630 2635 2640
gta tgc ttg aat aca acc cag cag cag ccc aag cta tct cca aaa 7974
Val Cys Leu Asn Thr Thr Gln Gln Gln Pro Lys Leu Ser Pro Lys
2645 2650 2655
att ctt aac ttg gaa gtt gac cct gca tgc gag gtt aac ccc tat 8019
Ile Leu Asn Leu Glu Val Asp Pro Ala Cys Glu Val Asn Pro Tyr
2660 2665 2670
gat gga aag tcg ttg ttc cac ggt ccg ctt ttg caa ttc gtt caa 8064
Asp Gly Lys Ser Leu Phe His Gly Pro Leu Leu Gln Phe Val Gln
2675 2680 2685
caa gtg ttg cac tca agt acc aaa ggc ctc gtt gcc aag tgc cgc 8109
Gln Val Leu His Ser Ser Thr Lys Gly Leu Val Ala Lys Cys Arg
2690 2695 2700
gcg ctt cca atc aaa gaa gcc atc cga ggg cca ttt atc aag caa 8154
Ala Leu Pro Ile Lys Glu Ala Ile Arg Gly Pro Phe Ile Lys Gln
2705 2710 2715
aca ctc cat gat cca att cta gac gac gtc att ttt cag cta atg 8199
Thr Leu His Asp Pro Ile Leu Asp Asp Val Ile Phe Gln Leu Met
2720 2725 2730
ctc gtg tgg tgt cgt aat gct cta gga agt gca tcg cta ccc aac 8244
Leu Val Trp Cys Arg Asn Ala Leu Gly Ser Ala Ser Leu Pro Asn
2735 2740 2745
aga att gaa aag atg tca tac ttt ggg aat gtc tca gaa ggt agc 8289
Arg Ile Glu Lys Met Ser Tyr Phe Gly Asn Val Ser Glu Gly Ser
2750 2755 2760
act ttc ttt gcc tca gtt aca cct gtg gga cca aga gta cca aag 8334
Thr Phe Phe Ala Ser Val Thr Pro Val Gly Pro Arg Val Pro Lys
2765 2770 2775
gat ccc gtg atc aaa atg cag ttt ctt ctc caa gat gaa tcc ggc 8379
Asp Pro Val Ile Lys Met Gln Phe Leu Leu Gln Asp Glu Ser Gly
2780 2785 2790
aac aca ttt tca tcg ggg gag ggc tcg gtt gtg ctt agt gac gaa 8424
Asn Thr Phe Ser Ser Gly Glu Gly Ser Val Val Leu Ser Asp Glu
2795 2800 2805
ctc gtc ttt tga 8436
Leu Val Phe
2810
<210> 39
<211> 2811
<212> PRT
<213> Thraustochytrium sp.
<400> 39
Met Lys Asp Met Glu Asp Arg Arg Val Ala Ile Val Gly Met Ser Ala
1 5 10 15
His Leu Pro Cys Gly Thr Asp Val Lys Glu Ser Trp Gln Ala Ile Arg
20 25 30
Asp Gly Ile Asp Cys Leu Ser Asp Leu Pro Ala Asp Arg Leu Asp Val
35 40 45
Thr Ala Tyr Tyr Asn Pro Asn Lys Ala Thr Lys Asp Lys Ile Tyr Cys
50 55 60
Lys Arg Gly Gly Phe Ile Pro Asn Tyr Asp Phe Asp Pro Arg Glu Phe
65 70 75 80
Gly Leu Asn Met Phe Gln Met Glu Asp Ser Asp Ala Asn Gln Thr Leu
85 90 95
Thr Leu Leu Lys Val Lys Gln Ala Leu Glu Asp Ala Ser Ile Glu Pro
100 105 110
Phe Thr Lys Glu Lys Lys Asn Ile Gly Cys Val Leu Gly Ile Gly Gly
115 120 125
Gly Gln Lys Ala Ser His Glu Phe Tyr Ser Arg Leu Asn Tyr Val Val
130 135 140
Val Glu Lys Val Leu Arg Lys Met Gly Leu Pro Asp Ala Asp Val Glu
145 150 155 160
Glu Ala Val Glu Lys Tyr Lys Ala Asn Phe Pro Glu Trp Arg Leu Asp
165 170 175
Ser Phe Pro Gly Phe Leu Gly Asn Val Thr Ala Gly Arg Cys Ser Asn
180 185 190
Thr Phe Asn Met Glu Gly Met Asn Cys Val Val Asp Ala Ala Cys Ala
195 200 205
Ser Ser Leu Ile Ala Ile Lys Val Ala Val Glu Glu Leu Leu Phe Gly
210 215 220
Asp Cys Asp Thr Met Ile Ala Gly Ala Thr Cys Thr Asp Asn Ser Leu
225 230 235 240
Gly Met Tyr Met Ala Phe Ser Lys Thr Pro Val Phe Ser Thr Asp Pro
245 250 255
Ser Val Arg Ala Tyr Asp Glu Lys Thr Lys Gly Met Leu Ile Gly Glu
260 265 270
Gly Ser Ala Met Phe Val Leu Lys Arg Tyr Ala Asp Ala Val Arg Asp
275 280 285
Gly Asp Thr Ile His Ala Val Leu Arg Ser Cys Ser Ser Ser Ser Asp
290 295 300
Gly Lys Ala Ala Gly Ile Tyr Thr Pro Thr Ile Ser Gly Gln Glu Glu
305 310 315 320
Ala Leu Arg Arg Ala Tyr Ala Arg Ala Gly Val Cys Pro Ser Thr Ile
325 330 335
Gly Leu Val Glu Gly His Gly Thr Gly Thr Pro Val Gly Asp Arg Ile
340 345 350
Glu Leu Thr Ala Leu Arg Asn Leu Phe Asp Lys Ala Phe Gly Ser Lys
355 360 365
Lys Glu Gln Ile Ala Val Gly Ser Ile Lys Ser Gln Ile Gly His Leu
370 375 380
Lys Ser Val Ala Gly Phe Ala Gly Leu Val Lys Ala Val Leu Ala Leu
385 390 395 400
Lys His Lys Thr Leu Pro Gly Ser Ile Asn Val Asp Gln Pro Pro Leu
405 410 415
Leu Tyr Asp Gly Thr Gln Ile Gln Asp Ser Ser Leu Tyr Ile Asn Lys
420 425 430
Thr Asn Arg Pro Trp Phe Thr Gln Asn Lys Leu Pro Arg Arg Ala Gly
435 440 445
Val Ser Ser Phe Gly Phe Gly Gly Ala Asn Tyr His Ala Val Leu Glu
450 455 460
Glu Phe Glu Pro Glu His Glu Lys Pro Tyr Arg Leu Asn Thr Val Gly
465 470 475 480
His Pro Val Leu Leu Tyr Ala Pro Ser Val Glu Ala Leu Lys Val Leu
485 490 495
Cys Asn Asp Gln Leu Ala Glu Leu Thr Ile Ala Leu Glu Glu Ala Lys
500 505 510
Thr His Lys Asn Val Asp Lys Val Cys Gly Tyr Lys Phe Ile Asp Glu
515 520 525
Phe Gln Leu Gln Gly Ser Cys Pro Pro Glu Asn Pro Arg Val Gly Phe
530 535 540
Leu Ala Thr Leu Pro Thr Ser Asn Ile Ile Val Ala Leu Lys Ala Ile
545 550 555 560
Leu Ala Gln Leu Asp Ala Lys Pro Asp Ala Lys Lys Trp Asp Leu Pro
565 570 575
His Lys Lys Ala Phe Gly Ala Thr Phe Ala Ser Ser Ser Val Lys Gly
580 585 590
Ser Val Ala Ala Leu Phe Ala Gly Gln Gly Thr Gln Tyr Leu Asn Met
595 600 605
Phe Ser Asp Val Ala Met Asn Trp Pro Pro Phe Arg Asp Ser Ile Val
610 615 620
Ala Met Glu Glu Ala Gln Thr Glu Val Phe Glu Gly Gln Val Glu Pro
625 630 635 640
Ile Ser Lys Val Leu Phe Pro Arg Glu Arg Tyr Ala Ser Glu Ser Glu
645 650 655
Gln Gly Asn Glu Leu Leu Cys Leu Thr Glu Tyr Ser Gln Pro Thr Thr
660 665 670
Ile Ala Ala Ala Val Gly Ala Phe Asp Ile Phe Lys Ala Ala Gly Phe
675 680 685
Lys Pro Asp Met Val Gly Gly His Ser Leu Gly Glu Phe Ala Ala Leu
690 695 700
Tyr Ala Ala Gly Ser Ile Ser Arg Asp Asp Leu Tyr Lys Leu Val Cys
705 710 715 720
Lys Arg Ala Lys Ala Met Ala Asn Ala Ser Asp Gly Ala Met Ala Ala
725 730 735
Val Ile Gly Pro Asp Ala Arg Leu Val Thr Pro Gln Asn Ser Asp Val
740 745 750
Tyr Val Ala Asn Phe Asn Ser Ala Thr Gln Val Val Ile Ser Gly Thr
755 760 765
Val Gln Gly Val Lys Glu Glu Ser Lys Leu Leu Ile Ser Lys Gly Phe
770 775 780
Arg Val Leu Pro Leu Lys Cys Gln Gly Ala Phe His Ser Pro Leu Met
785 790 795 800
Gly Pro Ser Glu Asp Ser Phe Lys Ser Leu Val Glu Thr Cys Thr Ile
805 810 815
Ser Pro Pro Lys Asn Val Lys Phe Phe Cys Asn Val Ser Gly Lys Glu
820 825 830
Ser Pro Asn Pro Lys Gln Thr Leu Lys Ser His Met Thr Ser Ser Val
835 840 845
Gln Phe Glu Glu Gln Ile Arg Asn Met Tyr Asp Ala Gly Ala Arg Val
850 855 860
Phe Leu Glu Phe Gly Pro Arg Gln Val Leu Ala Lys Leu Ile Ala Glu
865 870 875 880
Met Phe Pro Ser Cys Thr Ala Ile Ser Val Asn Pro Ala Ser Ser Gly
885 890 895
Asp Ser Asp Val Gln Leu Arg Leu Ala Ala Val Lys Phe Ala Val Ser
900 905 910
Gly Ala Ala Leu Ser Thr Phe Asp Pro Trp Glu Tyr Arg Lys Pro Gln
915 920 925
Asp Leu Leu Ile Arg Lys Pro Arg Lys Thr Ala Leu Val Leu Ser Ala
930 935 940
Ala Thr Tyr Val Ser Pro Lys Thr Leu Ala Glu Arg Lys Lys Ala Met
945 950 955 960
Glu Asp Ile Lys Leu Val Ser Ile Thr Pro Arg Asp Ser Met Val Ser
965 970 975
Ile Gly Lys Ile Ala Gln Glu Val Arg Thr Ala Lys Gln Pro Leu Glu
980 985 990
Thr Glu Ile Arg Arg Leu Asn Lys Glu Leu Glu His Leu Lys Arg Glu
995 1000 1005
Leu Ala Ala Ala Lys Ala Ser Val Lys Ser Ala Ser Lys Ser Ser
1010 1015 1020
Lys Glu Arg Ser Val Leu Ser Lys His Arg Ala Leu Leu Gln Asn
1025 1030 1035
Ile Leu Gln Asp Tyr Asp Asp Leu Arg Val Val Pro Phe Ala Val
1040 1045 1050
Arg Ser Val Ala Val Asp Asn Thr Ala Pro Tyr Ala Asp Gln Val
1055 1060 1065
Ser Thr Pro Ala Ser Glu Arg Ser Ala Ser Pro Leu Phe Glu Lys
1070 1075 1080
Arg Ser Ser Val Ser Ser Ala Arg Leu Ala Glu Ala Glu Ala Ala
1085 1090 1095
Val Leu Ser Val Leu Ala Asp Lys Thr Gly Tyr Asp Ser Ser Met
1100 1105 1110
Ile Glu Met Asp Met Asp Leu Glu Ser Glu Leu Gly Val Asp Ser
1115 1120 1125
Ile Lys Arg Val Glu Ile Met Ser Glu Val Gln Thr Leu Leu Ser
1130 1135 1140
Val Glu Val Ser Asp Val Asp Ala Leu Ser Arg Thr Lys Thr Val
1145 1150 1155
Gly Asp Val Ile Glu Ala Met Lys Leu Glu Leu Gly Gly Pro Gln
1160 1165 1170
Gly Gln Thr Leu Thr Ala Glu Ser Ile Arg Gln Pro Pro Val Ser
1175 1180 1185
Glu Pro Ala Val Pro Thr Ser Ser Ser Ser Ser Ile Ala Asn Val
1190 1195 1200
Ser Ser Ala Arg Leu Ala Glu Ala Glu Ala Ala Val Leu Ser Val
1205 1210 1215
Leu Ala Asp Lys Thr Gly Tyr Asp Ser Ser Met Ile Glu Met Asp
1220 1225 1230
Met Asp Leu Glu Ser Glu Leu Gly Val Asp Ser Ile Lys Arg Val
1235 1240 1245
Glu Ile Met Ser Glu Val Gln Thr Leu Leu Ser Val Glu Val Ser
1250 1255 1260
Asp Val Asp Ala Leu Ser Arg Thr Lys Thr Val Gly Asp Val Ile
1265 1270 1275
Glu Ala Met Lys Leu Glu Leu Gly Gly Pro Gln Gly Gln Thr Leu
1280 1285 1290
Thr Ala Glu Ser Ile Arg Gln Pro Pro Val Ser Glu Pro Ala Val
1295 1300 1305
Pro Thr Ser Ser Ser Ser Ser Ile Ala Asn Val Ser Ser Ala Arg
1310 1315 1320
Leu Ala Glu Ala Glu Ala Ala Val Leu Ser Val Leu Ala Asp Lys
1325 1330 1335
Thr Gly Tyr Asp Ser Ser Met Ile Glu Met Asp Met Asp Leu Glu
1340 1345 1350
Ser Glu Leu Gly Val Asp Ser Ile Lys Arg Val Glu Ile Met Ser
1355 1360 1365
Glu Val Gln Thr Leu Leu Ser Val Glu Val Ser Asp Val Asp Ala
1370 1375 1380
Leu Ser Arg Thr Lys Thr Val Gly Asp Val Ile Glu Ala Met Lys
1385 1390 1395
Leu Glu Leu Gly Gly Pro Gln Gly Gln Thr Leu Thr Ala Glu Ser
1400 1405 1410
Ile Arg Gln Pro Pro Val Ser Glu Pro Ala Val Pro Thr Ser Ser
1415 1420 1425
Ser Ser Ser Ile Ala Asn Val Leu Ser Ala Arg Leu Ala Glu Ala
1430 1435 1440
Glu Ala Ala Val Leu Ser Val Leu Ala Asp Lys Thr Gly Tyr Asp
1445 1450 1455
Ser Ser Met Ile Glu Met Asp Met Asp Leu Glu Ser Glu Leu Gly
1460 1465 1470
Val Asp Ser Ile Lys Arg Val Glu Ile Met Ser Glu Val Gln Thr
1475 1480 1485
Leu Leu Ser Val Glu Val Ser Asp Val Asp Ala Leu Ser Arg Thr
1490 1495 1500
Lys Thr Val Gly Asp Val Ile Glu Ala Met Lys Leu Glu Leu Gly
1505 1510 1515
Gly Pro Gln Gly Gln Thr Leu Thr Ala Glu Ser Ile Arg Gln Pro
1520 1525 1530
Pro Val Ser Glu Pro Ala Val Pro Thr Ser Ser Ser Ser Ser Ile
1535 1540 1545
Ala Asn Val Ser Ser Ala Arg Leu Ala Glu Ala Glu Ala Ala Val
1550 1555 1560
Leu Ser Val Leu Ala Asp Lys Thr Gly Tyr Asp Ser Ser Met Ile
1565 1570 1575
Glu Met Asp Met Asp Leu Glu Ser Glu Leu Gly Val Asp Ser Ile
1580 1585 1590
Lys Arg Val Glu Ile Met Ser Glu Val Gln Thr Leu Leu Ser Val
1595 1600 1605
Glu Val Ser Asp Val Asp Ala Leu Ser Arg Thr Lys Thr Val Gly
1610 1615 1620
Asp Val Ile Glu Ala Met Lys Leu Glu Leu Gly Gly Pro Gln Gly
1625 1630 1635
Gln Thr Leu Thr Ser Glu Pro Ile His Gln Pro Pro Val Ser Glu
1640 1645 1650
Pro Ala Val Pro Thr Ser Ser Ser Ser Ser Ile Ala Asn Val Ser
1655 1660 1665
Ser Ala Arg Leu Ala Glu Ala Glu Ala Ala Val Leu Ser Val Leu
1670 1675 1680
Ala Asp Lys Thr Gly Tyr Asp Ser Ser Met Ile Glu Met Asp Met
1685 1690 1695
Asp Leu Glu Ser Glu Leu Gly Val Asp Ser Ile Lys Arg Val Glu
1700 1705 1710
Ile Met Ser Glu Val Gln Thr Leu Leu Ser Val Glu Val Ser Asp
1715 1720 1725
Val Asp Ala Leu Ser Arg Thr Lys Thr Val Gly Asp Val Ile Glu
1730 1735 1740
Ala Met Lys Met Glu Leu Gly Gly Pro Gln Gly Gln Thr Leu Thr
1745 1750 1755
Ala Glu Ser Ile Arg Gln Pro Pro Val Ser Glu Pro Ala Val Pro
1760 1765 1770
Thr Ser Ser Ser Ser Ser Ile Ala Asn Val Ser Ser Ala Arg Leu
1775 1780 1785
Ala Glu Ala Glu Ala Ala Val Leu Ser Val Leu Ala Asp Lys Thr
1790 1795 1800
Gly Tyr Asp Ser Ser Met Ile Glu Met Asp Met Asp Leu Glu Ser
1805 1810 1815
Glu Leu Gly Val Asp Ser Ile Lys Arg Val Glu Ile Met Ser Glu
1820 1825 1830
Val Gln Ala Leu Leu Ser Val Glu Val Ser Asp Val Asp Ala Leu
1835 1840 1845
Ser Arg Thr Lys Thr Val Gly Asp Val Ile Glu Ala Met Lys Met
1850 1855 1860
Glu Leu Gly Gly Pro Gln Gly Gln Thr Leu Thr Ala Glu Ser Ile
1865 1870 1875
Arg Glu Pro Pro Val Ser Glu Pro Ala Val Pro Thr Ser Ser Ser
1880 1885 1890
Ser Ser Ile Ala Asn Val Ser Ser Ala Arg Leu Ala Glu Ala Glu
1895 1900 1905
Ala Ala Val Leu Ser Val Leu Ala Asp Lys Thr Gly Tyr Asp Ser
1910 1915 1920
Ser Met Ile Glu Met Asp Met Asp Leu Glu Ser Glu Leu Gly Val
1925 1930 1935
Asp Ser Ile Lys Arg Val Glu Ile Met Ser Glu Val Gln Thr Leu
1940 1945 1950
Leu Ser Val Glu Val Ser Asp Val Asp Ala Leu Ser Arg Thr Lys
1955 1960 1965
Thr Val Gly Asp Val Ile Glu Ala Met Lys Leu Glu Leu Gly Glu
1970 1975 1980
Ser Ser Ser Ile Glu Thr Leu Asn Cys Thr Glu Val Glu His Thr
1985 1990 1995
Ser Tyr Lys Ser Val Lys Ala Ser Gly Cys Glu Asn Val Asp Thr
2000 2005 2010
Arg Phe Ala Lys Val Val Gln Ile Ser Leu Pro Ser Lys Leu Lys
2015 2020 2025
Ser Thr Val Ser His Asp Arg Pro Val Ile Val Val Asp Asp Gly
2030 2035 2040
Thr Pro Leu Thr Thr Glu Leu Cys Lys Ile Leu Gly Gly Asn Ile
2045 2050 2055
Val Val Leu Ser Tyr Gln Gly Lys Pro Ala Gly Pro Arg Gly Val
2060 2065 2070
Glu Val Pro Asp Leu Ser Glu Glu Ala Leu Ile Gln Ala Leu Ala
2075 2080 2085
Leu Ile Arg Ser Thr Tyr Gly Val Pro Ile Gly Phe Ile Cys Gln
2090 2095 2100
Gln Val Ser Asn Val Ser Thr Lys Ala Gln Leu Cys Trp Ala Leu
2105 2110 2115
Leu Ala Ala Lys His Leu Lys Lys Asp Leu Asn Ala Val Leu Pro
2120 2125 2130
Asp Ser Arg Ser Phe Phe Val Gly Val Val Arg Leu Asn Gly Lys
2135 2140 2145
Leu Gly Thr Phe Glu Asn Ile Ser Asp Phe Ser Lys Phe Asp Leu
2150 2155 2160
Thr Lys Ala Leu Asp Tyr Gly Gln Arg Gly Ser Leu Leu Gly Leu
2165 2170 2175
Cys Lys Ser Leu Asp Leu Glu Trp Glu Gln Val Phe Cys Arg Gly
2180 2185 2190
Ile Asp Leu Ala Cys Asp Leu Met Pro Leu Gln Ala Ala Arg Ile
2195 2200 2205
Leu Arg Asn Glu Leu Gln Cys Pro Asn Met Arg Leu Arg Glu Val
2210 2215 2220
Gly Tyr Asp Ile Ser Gly Ala Arg Tyr Thr Ile Ser Thr Asp Asp
2225 2230 2235
Leu Leu Cys Gly Pro Ser Lys Ala Lys Val Glu Ala Ala Asp Leu
2240 2245 2250
Phe Leu Val Thr Gly Gly Ala Arg Gly Ile Thr Pro His Cys Val
2255 2260 2265
Arg Glu Ile Ala Ser Arg Ser Pro Gly Thr Thr Phe Val Leu Val
2270 2275 2280
Gly Arg Ser Glu Met Ser Asp Glu Pro Asp Trp Ala Val Gly His
2285 2290 2295
Tyr Asn Lys Asp Leu Asp Gln Ser Thr Met Lys His Leu Lys Ala
2300 2305 2310
Thr His Ala Ala Gly Gly Val Lys Pro Thr Pro Lys Ala His Arg
2315 2320 2325
Ala Leu Val Asn Arg Val Thr Gly Ser Arg Glu Val Arg Glu Ser
2330 2335 2340
Leu Arg Ala Ile Gln Glu Ala Gly Ala Asn Val Glu Tyr Ile Ala
2345 2350 2355
Cys Asp Val Ser Asp Glu Asn Lys Val Arg Gln Leu Val Gln Arg
2360 2365 2370
Val Glu Gln Lys Tyr Gly Cys Glu Ile Thr Gly Ile Trp His Ala
2375 2380 2385
Ser Gly Val Leu Arg Asp Lys Leu Val Glu Gln Lys Thr Thr Asp
2390 2395 2400
Asp Phe Glu Ala Val Phe Gly Thr Lys Val Thr Gly Leu Val Asn
2405 2410 2415
Ile Val Ser Gln Val Asn Met Ser Lys Leu Arg His Phe Ile Leu
2420 2425 2430
Phe Ser Ser Leu Ala Gly Phe His Gly Asn Lys Gly Gln Thr Asp
2435 2440 2445
Tyr Ala Ile Ala Asn Glu Ala Leu Asn Lys Ile Ala His Thr Leu
2450 2455 2460
Ser Ala Phe Leu Pro Lys Leu Asn Ala Lys Val Leu Asp Phe Gly
2465 2470 2475
Pro Trp Val Gly Ser Gly Met Val Thr Glu Thr Leu Glu Lys His
2480 2485 2490
Phe Lys Ala Met Gly Val Gln Thr Ile Pro Leu Glu Pro Gly Ala
2495 2500 2505
Arg Thr Val Ala Gln Ile Ile Leu Ala Ser Ser Pro Pro Gln Ser
2510 2515 2520
Leu Leu Gly Asn Trp Gly Phe Pro Ala Thr Lys Pro Leu Gln Arg
2525 2530 2535
Ser Asn Val Val Thr Gly Thr Leu Ser Pro Glu Glu Ile Glu Phe
2540 2545 2550
Ile Ala Asp His Lys Ile Gln Gly Arg Lys Val Leu Pro Met Met
2555 2560 2565
Ala Ala Ile Gly Phe Met Ala Ser Ile Ala Glu Gly Leu Tyr Pro
2570 2575 2580
Gly Tyr Asn Leu Gln Gly Val Glu Asn Ala Gln Leu Phe Gln Gly
2585 2590 2595
Leu Thr Ile Asn Gln Glu Thr Lys Phe Gln Ile Thr Leu Ile Glu
2600 2605 2610
Glu His Asn Ser Glu Glu Asn Leu Asp Val Leu Thr Ser Leu Gly
2615 2620 2625
Val Met Leu Glu Ser Gly Lys Val Leu Pro Ala Tyr Arg Cys Val
2630 2635 2640
Val Cys Leu Asn Thr Thr Gln Gln Gln Pro Lys Leu Ser Pro Lys
2645 2650 2655
Ile Leu Asn Leu Glu Val Asp Pro Ala Cys Glu Val Asn Pro Tyr
2660 2665 2670
Asp Gly Lys Ser Leu Phe His Gly Pro Leu Leu Gln Phe Val Gln
2675 2680 2685
Gln Val Leu His Ser Ser Thr Lys Gly Leu Val Ala Lys Cys Arg
2690 2695 2700
Ala Leu Pro Ile Lys Glu Ala Ile Arg Gly Pro Phe Ile Lys Gln
2705 2710 2715
Thr Leu His Asp Pro Ile Leu Asp Asp Val Ile Phe Gln Leu Met
2720 2725 2730
Leu Val Trp Cys Arg Asn Ala Leu Gly Ser Ala Ser Leu Pro Asn
2735 2740 2745
Arg Ile Glu Lys Met Ser Tyr Phe Gly Asn Val Ser Glu Gly Ser
2750 2755 2760
Thr Phe Phe Ala Ser Val Thr Pro Val Gly Pro Arg Val Pro Lys
2765 2770 2775
Asp Pro Val Ile Lys Met Gln Phe Leu Leu Gln Asp Glu Ser Gly
2780 2785 2790
Asn Thr Phe Ser Ser Gly Glu Gly Ser Val Val Leu Ser Asp Glu
2795 2800 2805
Leu Val Phe
2810
<210> 40
<211> 1500
<212> DNA
<213> Thraustochytrium sp.
<220>
<221> CDS
<222> (1)..(1500)
<400> 40
atg aag gac atg gaa gat aga cgg gtc gct att gtg ggc atg tca gct 48
Met Lys Asp Met Glu Asp Arg Arg Val Ala Ile Val Gly Met Ser Ala
1 5 10 15
cac ttg cct tgt ggg aca gat gtg aag gaa tca tgg cag gct att cgc 96
His Leu Pro Cys Gly Thr Asp Val Lys Glu Ser Trp Gln Ala Ile Arg
20 25 30
gat gga atc gac tgt cta agt gac cta ccc gcg gat cgt ctc gac gtt 144
Asp Gly Ile Asp Cys Leu Ser Asp Leu Pro Ala Asp Arg Leu Asp Val
35 40 45
aca gct tac tac aat ccc aac aaa gcc acg aaa gac aag atc tac tgc 192
Thr Ala Tyr Tyr Asn Pro Asn Lys Ala Thr Lys Asp Lys Ile Tyr Cys
50 55 60
aaa cgg ggt ggc ttc atc ccg aac tat gac ttc gac ccc cgc gaa ttt 240
Lys Arg Gly Gly Phe Ile Pro Asn Tyr Asp Phe Asp Pro Arg Glu Phe
65 70 75 80
ggg ctc aac atg ttt caa atg gaa gac tct gat gcg aat cag aca ctt 288
Gly Leu Asn Met Phe Gln Met Glu Asp Ser Asp Ala Asn Gln Thr Leu
85 90 95
acc ttg ctc aaa gtc aaa caa gct ctc gaa gat gca agc ata gag cct 336
Thr Leu Leu Lys Val Lys Gln Ala Leu Glu Asp Ala Ser Ile Glu Pro
100 105 110
ttc acc aag gag aag aag aac att gga tgt gtt tta ggt att ggt ggg 384
Phe Thr Lys Glu Lys Lys Asn Ile Gly Cys Val Leu Gly Ile Gly Gly
115 120 125
ggc caa aag gcg agt cat gag ttc tac tct cgt ctc aac tac gtt gtc 432
Gly Gln Lys Ala Ser His Glu Phe Tyr Ser Arg Leu Asn Tyr Val Val
130 135 140
gtt gaa aag gta ctt cgg aaa atg ggt tta cca gat gct gat gtt gaa 480
Val Glu Lys Val Leu Arg Lys Met Gly Leu Pro Asp Ala Asp Val Glu
145 150 155 160
gaa gct gtg gag aaa tac aag gca aat ttt ccc gag tgg cgc cta gac 528
Glu Ala Val Glu Lys Tyr Lys Ala Asn Phe Pro Glu Trp Arg Leu Asp
165 170 175
tct ttc cct ggg ttt ctt ggg aat gta acg gct ggt cgg tgc agt aac 576
Ser Phe Pro Gly Phe Leu Gly Asn Val Thr Ala Gly Arg Cys Ser Asn
180 185 190
acc ttc aac atg gaa ggt atg aac tgc gtt gtg gat gct gca tgt gcc 624
Thr Phe Asn Met Glu Gly Met Asn Cys Val Val Asp Ala Ala Cys Ala
195 200 205
agt tct cta att gca atc aag gtt gca gtt gaa gag cta ctc ttt ggt 672
Ser Ser Leu Ile Ala Ile Lys Val Ala Val Glu Glu Leu Leu Phe Gly
210 215 220
gac tgt gac acc atg att gca ggt gcc acc tgc acg gac aat tca ctt 720
Asp Cys Asp Thr Met Ile Ala Gly Ala Thr Cys Thr Asp Asn Ser Leu
225 230 235 240
ggc atg tac atg gcc ttc tct aaa acg cca gtt ttt tct act gac cca 768
Gly Met Tyr Met Ala Phe Ser Lys Thr Pro Val Phe Ser Thr Asp Pro
245 250 255
agt gtc cgc gcg tat gat gag aaa aca aaa ggg atg cta att gga gaa 816
Ser Val Arg Ala Tyr Asp Glu Lys Thr Lys Gly Met Leu Ile Gly Glu
260 265 270
ggt tca gca atg ttc gtt ctt aaa cgc tat gcg gat gcc gta cgt gat 864
Gly Ser Ala Met Phe Val Leu Lys Arg Tyr Ala Asp Ala Val Arg Asp
275 280 285
ggc gac aca att cac gcg gtt ctg cgt tct tgc tct tcg tct agt gat 912
Gly Asp Thr Ile His Ala Val Leu Arg Ser Cys Ser Ser Ser Ser Asp
290 295 300
gga aaa gcg gca gga att tat act cct act ata tct gga caa gaa gaa 960
Gly Lys Ala Ala Gly Ile Tyr Thr Pro Thr Ile Ser Gly Gln Glu Glu
305 310 315 320
gct ttg cgt cga gcg tat gcc cgt gcg ggg gta tgt cca tct acg atc 1008
Ala Leu Arg Arg Ala Tyr Ala Arg Ala Gly Val Cys Pro Ser Thr Ile
325 330 335
ggg ctt gtt gag ggt cac ggg aca ggg acc cct gtt gga gat cgc att 1056
Gly Leu Val Glu Gly His Gly Thr Gly Thr Pro Val Gly Asp Arg Ile
340 345 350
gag tta aca gct ctg cgg aac ttg ttt gac aaa gct ttt ggt agc aag 1104
Glu Leu Thr Ala Leu Arg Asn Leu Phe Asp Lys Ala Phe Gly Ser Lys
355 360 365
aag gaa caa ata gca gtt ggc agc ata aag tct cag ata ggt cac ctg 1152
Lys Glu Gln Ile Ala Val Gly Ser Ile Lys Ser Gln Ile Gly His Leu
370 375 380
aaa tct gtt gcc ggc ttt gcc ggc ttg gtc aaa gct gtg ctt gcg ctt 1200
Lys Ser Val Ala Gly Phe Ala Gly Leu Val Lys Ala Val Leu Ala Leu
385 390 395 400
aaa cac aaa acg ctc cca ggt tcg att aat gtc gac cag cca cct ttg 1248
Lys His Lys Thr Leu Pro Gly Ser Ile Asn Val Asp Gln Pro Pro Leu
405 410 415
ttg tat gac ggt act caa att caa gac tct tct tta tat atc aac aag 1296
Leu Tyr Asp Gly Thr Gln Ile Gln Asp Ser Ser Leu Tyr Ile Asn Lys
420 425 430
aca aat aga cca tgg ttt acg caa aac aag ctt ccg cgt cgg gct ggt 1344
Thr Asn Arg Pro Trp Phe Thr Gln Asn Lys Leu Pro Arg Arg Ala Gly
435 440 445
gtc tca agt ttt gga ttt gga ggt gca aac tac cac gcg gtt ctg gaa 1392
Val Ser Ser Phe Gly Phe Gly Gly Ala Asn Tyr His Ala Val Leu Glu
450 455 460
gaa ttc gag ccc gag cat gaa aaa cca tac cgc ctc aat act gtt gga 1440
Glu Phe Glu Pro Glu His Glu Lys Pro Tyr Arg Leu Asn Thr Val Gly
465 470 475 480
cat cct gtc ctc ttg tac gct ccg tct gtg gaa gcc ctc aaa gta ctt 1488
His Pro Val Leu Leu Tyr Ala Pro Ser Val Glu Ala Leu Lys Val Leu
485 490 495
tgc aac gac cag 1500
Cys Asn Asp Gln
500
<210> 41
<211> 500
<212> PRT
<213> Thraustochytrium sp.
<400> 41
Met Lys Asp Met Glu Asp Arg Arg Val Ala Ile Val Gly Met Ser Ala
1 5 10 15
His Leu Pro Cys Gly Thr Asp Val Lys Glu Ser Trp Gln Ala Ile Arg
20 25 30
Asp Gly Ile Asp Cys Leu Ser Asp Leu Pro Ala Asp Arg Leu Asp Val
35 40 45
Thr Ala Tyr Tyr Asn Pro Asn Lys Ala Thr Lys Asp Lys Ile Tyr Cys
50 55 60
Lys Arg Gly Gly Phe Ile Pro Asn Tyr Asp Phe Asp Pro Arg Glu Phe
65 70 75 80
Gly Leu Asn Met Phe Gln Met Glu Asp Ser Asp Ala Asn Gln Thr Leu
85 90 95
Thr Leu Leu Lys Val Lys Gln Ala Leu Glu Asp Ala Ser Ile Glu Pro
100 105 110
Phe Thr Lys Glu Lys Lys Asn Ile Gly Cys Val Leu Gly Ile Gly Gly
115 120 125
Gly Gln Lys Ala Ser His Glu Phe Tyr Ser Arg Leu Asn Tyr Val Val
130 135 140
Val Glu Lys Val Leu Arg Lys Met Gly Leu Pro Asp Ala Asp Val Glu
145 150 155 160
Glu Ala Val Glu Lys Tyr Lys Ala Asn Phe Pro Glu Trp Arg Leu Asp
165 170 175
Ser Phe Pro Gly Phe Leu Gly Asn Val Thr Ala Gly Arg Cys Ser Asn
180 185 190
Thr Phe Asn Met Glu Gly Met Asn Cys Val Val Asp Ala Ala Cys Ala
195 200 205
Ser Ser Leu Ile Ala Ile Lys Val Ala Val Glu Glu Leu Leu Phe Gly
210 215 220
Asp Cys Asp Thr Met Ile Ala Gly Ala Thr Cys Thr Asp Asn Ser Leu
225 230 235 240
Gly Met Tyr Met Ala Phe Ser Lys Thr Pro Val Phe Ser Thr Asp Pro
245 250 255
Ser Val Arg Ala Tyr Asp Glu Lys Thr Lys Gly Met Leu Ile Gly Glu
260 265 270
Gly Ser Ala Met Phe Val Leu Lys Arg Tyr Ala Asp Ala Val Arg Asp
275 280 285
Gly Asp Thr Ile His Ala Val Leu Arg Ser Cys Ser Ser Ser Ser Asp
290 295 300
Gly Lys Ala Ala Gly Ile Tyr Thr Pro Thr Ile Ser Gly Gln Glu Glu
305 310 315 320
Ala Leu Arg Arg Ala Tyr Ala Arg Ala Gly Val Cys Pro Ser Thr Ile
325 330 335
Gly Leu Val Glu Gly His Gly Thr Gly Thr Pro Val Gly Asp Arg Ile
340 345 350
Glu Leu Thr Ala Leu Arg Asn Leu Phe Asp Lys Ala Phe Gly Ser Lys
355 360 365
Lys Glu Gln Ile Ala Val Gly Ser Ile Lys Ser Gln Ile Gly His Leu
370 375 380
Lys Ser Val Ala Gly Phe Ala Gly Leu Val Lys Ala Val Leu Ala Leu
385 390 395 400
Lys His Lys Thr Leu Pro Gly Ser Ile Asn Val Asp Gln Pro Pro Leu
405 410 415
Leu Tyr Asp Gly Thr Gln Ile Gln Asp Ser Ser Leu Tyr Ile Asn Lys
420 425 430
Thr Asn Arg Pro Trp Phe Thr Gln Asn Lys Leu Pro Arg Arg Ala Gly
435 440 445
Val Ser Ser Phe Gly Phe Gly Gly Ala Asn Tyr His Ala Val Leu Glu
450 455 460
Glu Phe Glu Pro Glu His Glu Lys Pro Tyr Arg Leu Asn Thr Val Gly
465 470 475 480
His Pro Val Leu Leu Tyr Ala Pro Ser Val Glu Ala Leu Lys Val Leu
485 490 495
Cys Asn Asp Gln
500
<210> 42
<211> 1500
<212> DNA
<213> Thraustochytrium sp.
<220>
<221> CDS
<222> (1)..(1500)
<400> 42
ctt gcg gag ctc aca att gca ttg gaa gag gca aaa aca cat aaa aat 48
Leu Ala Glu Leu Thr Ile Ala Leu Glu Glu Ala Lys Thr His Lys Asn
1 5 10 15
gtt gac aaa gtt tgt ggc tac aag ttt att gac gaa ttt cag ctc caa 96
Val Asp Lys Val Cys Gly Tyr Lys Phe Ile Asp Glu Phe Gln Leu Gln
20 25 30
gga agc tgt cct cca gaa aat ccg aga gta gga ttt tta gca aca ctg 144
Gly Ser Cys Pro Pro Glu Asn Pro Arg Val Gly Phe Leu Ala Thr Leu
35 40 45
cct act tca aat atc att gtc gcg ctt aag gca att ctc gcg cag ctt 192
Pro Thr Ser Asn Ile Ile Val Ala Leu Lys Ala Ile Leu Ala Gln Leu
50 55 60
gat gca aaa cca gat gcg aag aaa tgg gat ttg cct cat aaa aag gct 240
Asp Ala Lys Pro Asp Ala Lys Lys Trp Asp Leu Pro His Lys Lys Ala
65 70 75 80
ttt ggg gct acc ttc gca tcg tct tca gtg aaa ggc tct gtt gct gcg 288
Phe Gly Ala Thr Phe Ala Ser Ser Ser Val Lys Gly Ser Val Ala Ala
85 90 95
ctc ttc gca gga cag ggt acc cag tac tta aac atg ttc tct gat gtg 336
Leu Phe Ala Gly Gln Gly Thr Gln Tyr Leu Asn Met Phe Ser Asp Val
100 105 110
gca atg aac tgg cca ccg ttc cgt gac agc att gtc gca atg gaa gaa 384
Ala Met Asn Trp Pro Pro Phe Arg Asp Ser Ile Val Ala Met Glu Glu
115 120 125
gct caa act gag gta ttt gag ggc caa gtt gaa cca att agc aaa gtt 432
Ala Gln Thr Glu Val Phe Glu Gly Gln Val Glu Pro Ile Ser Lys Val
130 135 140
ctg ttt cca cga gag cgc tat gca tcc gaa agt gaa cag ggg aat gaa 480
Leu Phe Pro Arg Glu Arg Tyr Ala Ser Glu Ser Glu Gln Gly Asn Glu
145 150 155 160
ctt ctt tgc tta aca gag tac tct cag cca act acg ata gca gcc gca 528
Leu Leu Cys Leu Thr Glu Tyr Ser Gln Pro Thr Thr Ile Ala Ala Ala
165 170 175
gta ggg gcc ttc gat att ttc aaa gcg gct ggc ttt aag cca gac atg 576
Val Gly Ala Phe Asp Ile Phe Lys Ala Ala Gly Phe Lys Pro Asp Met
180 185 190
gtt gga ggg cat tca ctt ggc gaa ttt gct gct ttg tac gcg gct ggg 624
Val Gly Gly His Ser Leu Gly Glu Phe Ala Ala Leu Tyr Ala Ala Gly
195 200 205
tcc att tcg cgt gac gac ctg tac aag ctt gtg tgc aaa cgg gca aag 672
Ser Ile Ser Arg Asp Asp Leu Tyr Lys Leu Val Cys Lys Arg Ala Lys
210 215 220
gca atg gcg aac gct agt gac gga gct atg gca gca gtg att ggc cca 720
Ala Met Ala Asn Ala Ser Asp Gly Ala Met Ala Ala Val Ile Gly Pro
225 230 235 240
gat gca cgt cta gtt acg cca caa aat agt gac gtt tat gtc gca aac 768
Asp Ala Arg Leu Val Thr Pro Gln Asn Ser Asp Val Tyr Val Ala Asn
245 250 255
ttc aac tcc gca act caa gta gtc atc agt ggc act gtt caa ggt gtg 816
Phe Asn Ser Ala Thr Gln Val Val Ile Ser Gly Thr Val Gln Gly Val
260 265 270
aaa gaa gag tcg aaa ttg ctc att tca aag ggg ttc cgc gta ctg cca 864
Lys Glu Glu Ser Lys Leu Leu Ile Ser Lys Gly Phe Arg Val Leu Pro
275 280 285
ctt aaa tgc cag ggc gcc ttc cat tct cct ttg atg ggg cct tct gag 912
Leu Lys Cys Gln Gly Ala Phe His Ser Pro Leu Met Gly Pro Ser Glu
290 295 300
gat agt ttc aaa tca ctt gtg gag act tgt acc atc tcg ccg cca aaa 960
Asp Ser Phe Lys Ser Leu Val Glu Thr Cys Thr Ile Ser Pro Pro Lys
305 310 315 320
aat gtg aaa ttc ttt tgc aat gtt agt ggc aag gaa agc cca aac cca 1008
Asn Val Lys Phe Phe Cys Asn Val Ser Gly Lys Glu Ser Pro Asn Pro
325 330 335
aaa cag acc ctc aag tca cac atg acg tct agc gtt cag ttc gag gag 1056
Lys Gln Thr Leu Lys Ser His Met Thr Ser Ser Val Gln Phe Glu Glu
340 345 350
cag att cgt aac atg tac gat gcc gga gca cgt gtt ttt ctg gag ttt 1104
Gln Ile Arg Asn Met Tyr Asp Ala Gly Ala Arg Val Phe Leu Glu Phe
355 360 365
gga ccc cgc caa gtc ctt gca aag ctt atc gcg gaa atg ttt ccc tcg 1152
Gly Pro Arg Gln Val Leu Ala Lys Leu Ile Ala Glu Met Phe Pro Ser
370 375 380
tgt aca gct atc agc gtt aac ccc gcg agc agt ggt gac agt gac gtg 1200
Cys Thr Ala Ile Ser Val Asn Pro Ala Ser Ser Gly Asp Ser Asp Val
385 390 395 400
caa ctc cgc ctc gcc gcc gta aaa ttc gcg gtc tcg ggt gca gcc ctt 1248
Gln Leu Arg Leu Ala Ala Val Lys Phe Ala Val Ser Gly Ala Ala Leu
405 410 415
agc acc ttt gat cca tgg gag tat cgc aag cca caa gat ctt ctt att 1296
Ser Thr Phe Asp Pro Trp Glu Tyr Arg Lys Pro Gln Asp Leu Leu Ile
420 425 430
cga aaa cca cga aaa act gcc ctt gtt cta tca gca gca aca tat gtt 1344
Arg Lys Pro Arg Lys Thr Ala Leu Val Leu Ser Ala Ala Thr Tyr Val
435 440 445
tcc cca aag act ctt gca gaa cgt aaa aag gct atg gaa gat atc aag 1392
Ser Pro Lys Thr Leu Ala Glu Arg Lys Lys Ala Met Glu Asp Ile Lys
450 455 460
cta gta tcc att aca cca aga gat agt atg gta tca att gga aaa atc 1440
Leu Val Ser Ile Thr Pro Arg Asp Ser Met Val Ser Ile Gly Lys Ile
465 470 475 480
gcg caa gaa gta cgg aca gct aaa cag cct tta gaa acc gaa att cga 1488
Ala Gln Glu Val Arg Thr Ala Lys Gln Pro Leu Glu Thr Glu Ile Arg
485 490 495
aga ctc aac aaa 1500
Arg Leu Asn Lys
500
<210> 43
<211> 500
<212> PRT
<213> Thraustochytrium sp.
<400> 43
Leu Ala Glu Leu Thr Ile Ala Leu Glu Glu Ala Lys Thr His Lys Asn
1 5 10 15
Val Asp Lys Val Cys Gly Tyr Lys Phe Ile Asp Glu Phe Gln Leu Gln
20 25 30
Gly Ser Cys Pro Pro Glu Asn Pro Arg Val Gly Phe Leu Ala Thr Leu
35 40 45
Pro Thr Ser Asn Ile Ile Val Ala Leu Lys Ala Ile Leu Ala Gln Leu
50 55 60
Asp Ala Lys Pro Asp Ala Lys Lys Trp Asp Leu Pro His Lys Lys Ala
65 70 75 80
Phe Gly Ala Thr Phe Ala Ser Ser Ser Val Lys Gly Ser Val Ala Ala
85 90 95
Leu Phe Ala Gly Gln Gly Thr Gln Tyr Leu Asn Met Phe Ser Asp Val
100 105 110
Ala Met Asn Trp Pro Pro Phe Arg Asp Ser Ile Val Ala Met Glu Glu
115 120 125
Ala Gln Thr Glu Val Phe Glu Gly Gln Val Glu Pro Ile Ser Lys Val
130 135 140
Leu Phe Pro Arg Glu Arg Tyr Ala Ser Glu Ser Glu Gln Gly Asn Glu
145 150 155 160
Leu Leu Cys Leu Thr Glu Tyr Ser Gln Pro Thr Thr Ile Ala Ala Ala
165 170 175
Val Gly Ala Phe Asp Ile Phe Lys Ala Ala Gly Phe Lys Pro Asp Met
180 185 190
Val Gly Gly His Ser Leu Gly Glu Phe Ala Ala Leu Tyr Ala Ala Gly
195 200 205
Ser Ile Ser Arg Asp Asp Leu Tyr Lys Leu Val Cys Lys Arg Ala Lys
210 215 220
Ala Met Ala Asn Ala Ser Asp Gly Ala Met Ala Ala Val Ile Gly Pro
225 230 235 240
Asp Ala Arg Leu Val Thr Pro Gln Asn Ser Asp Val Tyr Val Ala Asn
245 250 255
Phe Asn Ser Ala Thr Gln Val Val Ile Ser Gly Thr Val Gln Gly Val
260 265 270
Lys Glu Glu Ser Lys Leu Leu Ile Ser Lys Gly Phe Arg Val Leu Pro
275 280 285
Leu Lys Cys Gln Gly Ala Phe His Ser Pro Leu Met Gly Pro Ser Glu
290 295 300
Asp Ser Phe Lys Ser Leu Val Glu Thr Cys Thr Ile Ser Pro Pro Lys
305 310 315 320
Asn Val Lys Phe Phe Cys Asn Val Ser Gly Lys Glu Ser Pro Asn Pro
325 330 335
Lys Gln Thr Leu Lys Ser His Met Thr Ser Ser Val Gln Phe Glu Glu
340 345 350
Gln Ile Arg Asn Met Tyr Asp Ala Gly Ala Arg Val Phe Leu Glu Phe
355 360 365
Gly Pro Arg Gln Val Leu Ala Lys Leu Ile Ala Glu Met Phe Pro Ser
370 375 380
Cys Thr Ala Ile Ser Val Asn Pro Ala Ser Ser Gly Asp Ser Asp Val
385 390 395 400
Gln Leu Arg Leu Ala Ala Val Lys Phe Ala Val Ser Gly Ala Ala Leu
405 410 415
Ser Thr Phe Asp Pro Trp Glu Tyr Arg Lys Pro Gln Asp Leu Leu Ile
420 425 430
Arg Lys Pro Arg Lys Thr Ala Leu Val Leu Ser Ala Ala Thr Tyr Val
435 440 445
Ser Pro Lys Thr Leu Ala Glu Arg Lys Lys Ala Met Glu Asp Ile Lys
450 455 460
Leu Val Ser Ile Thr Pro Arg Asp Ser Met Val Ser Ile Gly Lys Ile
465 470 475 480
Ala Gln Glu Val Arg Thr Ala Lys Gln Pro Leu Glu Thr Glu Ile Arg
485 490 495
Arg Leu Asn Lys
500
<210> 44
<211> 351
<212> DNA
<213> Thraustochytrium sp.
<220>
<221> CDS
<222> (1)..(351)
<400> 44
tcg acc cca gcg tca gag cgg tcg gct tca ccg ctt ttc gag aaa cgc 48
Ser Thr Pro Ala Ser Glu Arg Ser Ala Ser Pro Leu Phe Glu Lys Arg
1 5 10 15
agt tcg gtt tcg tca gca cgc ctc gct gaa gct gaa gcc gcg gta ctg 96
Ser Ser Val Ser Ser Ala Arg Leu Ala Glu Ala Glu Ala Ala Val Leu
20 25 30
agc gtt ctc gca gac aag aca ggc tac gac agc tca atg atc gag atg 144
Ser Val Leu Ala Asp Lys Thr Gly Tyr Asp Ser Ser Met Ile Glu Met
35 40 45
gac atg gac ctg gag agt gag ctt ggc gtt gat agc atc aaa cgc gtg 192
Asp Met Asp Leu Glu Ser Glu Leu Gly Val Asp Ser Ile Lys Arg Val
50 55 60
gag atc atg agc gag gtt caa acg ctg ctc agc gtg gaa gtc tcc gac 240
Glu Ile Met Ser Glu Val Gln Thr Leu Leu Ser Val Glu Val Ser Asp
65 70 75 80
gtt gac gct ctg tca aga acc aag act gtt ggc gac gtc atc gag gcg 288
Val Asp Ala Leu Ser Arg Thr Lys Thr Val Gly Asp Val Ile Glu Ala
85 90 95
atg aag ctg gaa ctc ggt gga ccc caa ggc cag act ttg acc gcg gaa 336
Met Lys Leu Glu Leu Gly Gly Pro Gln Gly Gln Thr Leu Thr Ala Glu
100 105 110
tcg atc cgt cag cca 351
Ser Ile Arg Gln Pro
115
<210> 45
<211> 117
<212> PRT
<213> Thraustochytrium sp.
<400> 45
Ser Thr Pro Ala Ser Glu Arg Ser Ala Ser Pro Leu Phe Glu Lys Arg
1 5 10 15
Ser Ser Val Ser Ser Ala Arg Leu Ala Glu Ala Glu Ala Ala Val Leu
20 25 30
Ser Val Leu Ala Asp Lys Thr Gly Tyr Asp Ser Ser Met Ile Glu Met
35 40 45
Asp Met Asp Leu Glu Ser Glu Leu Gly Val Asp Ser Ile Lys Arg Val
50 55 60
Glu Ile Met Ser Glu Val Gln Thr Leu Leu Ser Val Glu Val Ser Asp
65 70 75 80
Val Asp Ala Leu Ser Arg Thr Lys Thr Val Gly Asp Val Ile Glu Ala
85 90 95
Met Lys Leu Glu Leu Gly Gly Pro Gln Gly Gln Thr Leu Thr Ala Glu
100 105 110
Ser Ile Arg Gln Pro
115
<210> 46
<211> 5
<212> PRT
<213> Thraustochytrium sp.
<220>
<221> MISC_FEATURE
<222> (1)..(5)
<223> Xaa = any amino acid
<400> 46
Leu Gly Xaa Asp Ser
1 5
<210> 47
<211> 2790
<212> DNA
<213> Thraustochytrium sp.
<220>
<221> CDS
<222> (1)..(2790)
<400> 47
tcg acc cca gcg tca gag cgg tcg gct tca ccg ctt ttc gag aaa cgc 48
Ser Thr Pro Ala Ser Glu Arg Ser Ala Ser Pro Leu Phe Glu Lys Arg
1 5 10 15
agt tcg gtt tcg tca gca cgc ctc gct gaa gct gaa gcc gcg gta ctg 96
Ser Ser Val Ser Ser Ala Arg Leu Ala Glu Ala Glu Ala Ala Val Leu
20 25 30
agc gtt ctc gca gac aag aca ggc tac gac agc tca atg atc gag atg 144
Ser Val Leu Ala Asp Lys Thr Gly Tyr Asp Ser Ser Met Ile Glu Met
35 40 45
gac atg gac ctg gag agt gag ctt ggc gtt gat agc atc aaa cgc gtg 192
Asp Met Asp Leu Glu Ser Glu Leu Gly Val Asp Ser Ile Lys Arg Val
50 55 60
gag atc atg agc gag gtt caa acg ctg ctc agc gtg gaa gtc tcc gac 240
Glu Ile Met Ser Glu Val Gln Thr Leu Leu Ser Val Glu Val Ser Asp
65 70 75 80
gtt gac gct ctg tca aga acc aag act gtt ggc gac gtc atc gag gcg 288
Val Asp Ala Leu Ser Arg Thr Lys Thr Val Gly Asp Val Ile Glu Ala
85 90 95
atg aag ctg gaa ctc ggt gga ccc caa ggc cag act ttg acc gcg gaa 336
Met Lys Leu Glu Leu Gly Gly Pro Gln Gly Gln Thr Leu Thr Ala Glu
100 105 110
tcg atc cgt cag cca ccg gtg tcc gag cct gct gta ccg acc tca tcg 384
Ser Ile Arg Gln Pro Pro Val Ser Glu Pro Ala Val Pro Thr Ser Ser
115 120 125
tca agc agt att gct aat gtt tcg tca gca cgc ctc gct gaa gct gaa 432
Ser Ser Ser Ile Ala Asn Val Ser Ser Ala Arg Leu Ala Glu Ala Glu
130 135 140
gct gcg gta ctg agc gtt ctc gca gac aag aca ggc tac gac agc tca 480
Ala Ala Val Leu Ser Val Leu Ala Asp Lys Thr Gly Tyr Asp Ser Ser
145 150 155 160
atg atc gag atg gac atg gac ctg gag agc gag ctt ggc gtt gat agc 528
Met Ile Glu Met Asp Met Asp Leu Glu Ser Glu Leu Gly Val Asp Ser
165 170 175
atc aaa cgc gtg gag atc atg agc gag gtt caa acg ctg ctc agc gtg 576
Ile Lys Arg Val Glu Ile Met Ser Glu Val Gln Thr Leu Leu Ser Val
180 185 190
gaa gtc tcc gac gtt gac gct ctg tca aga act aag act gtt ggc gac 624
Glu Val Ser Asp Val Asp Ala Leu Ser Arg Thr Lys Thr Val Gly Asp
195 200 205
gtc atc gag gcg atg aag ctg gaa ctc ggt gga ccc caa ggc cag act 672
Val Ile Glu Ala Met Lys Leu Glu Leu Gly Gly Pro Gln Gly Gln Thr
210 215 220
ttg acc gcg gaa tcg atc cgt cag cca ccg gtg tct gag cct gct gta 720
Leu Thr Ala Glu Ser Ile Arg Gln Pro Pro Val Ser Glu Pro Ala Val
225 230 235 240
ccg acc tca tcg tca agc agt att gct aat gtt tcg tca gca cgc ctc 768
Pro Thr Ser Ser Ser Ser Ser Ile Ala Asn Val Ser Ser Ala Arg Leu
245 250 255
gct gaa gct gaa gcg gcg gta ctg agc gtt ctc gca gac aag aca ggc 816
Ala Glu Ala Glu Ala Ala Val Leu Ser Val Leu Ala Asp Lys Thr Gly
260 265 270
tac gac agc tca atg atc gag atg gac atg gac ctg gag agc gag ctt 864
Tyr Asp Ser Ser Met Ile Glu Met Asp Met Asp Leu Glu Ser Glu Leu
275 280 285
ggc gtc gac agc atc aaa cgc gtg gag atc atg agc gag gtt caa acg 912
Gly Val Asp Ser Ile Lys Arg Val Glu Ile Met Ser Glu Val Gln Thr
290 295 300
ctg ctc agc gtg gaa gtc tcc gac gtt gac gct ctg tca aga acc aag 960
Leu Leu Ser Val Glu Val Ser Asp Val Asp Ala Leu Ser Arg Thr Lys
305 310 315 320
act gtt ggc gac gtc atc gag gcg atg aag ctg gaa ctc ggt gga ccc 1008
Thr Val Gly Asp Val Ile Glu Ala Met Lys Leu Glu Leu Gly Gly Pro
325 330 335
caa ggc cag act ttg acc gcg gaa tcg atc cgt cag cca ccg gtg tcc 1056
Gln Gly Gln Thr Leu Thr Ala Glu Ser Ile Arg Gln Pro Pro Val Ser
340 345 350
gag cct gct gta ccg acc tca tcg tca agc agt att gct aat gtt ttg 1104
Glu Pro Ala Val Pro Thr Ser Ser Ser Ser Ser Ile Ala Asn Val Leu
355 360 365
tca gca cgc ctc gct gaa gct gaa gcc gcg gta ctg agc gtt ctc gca 1152
Ser Ala Arg Leu Ala Glu Ala Glu Ala Ala Val Leu Ser Val Leu Ala
370 375 380
gac aag aca ggc tac gac agc tca atg atc gag atg gac atg gac ctg 1200
Asp Lys Thr Gly Tyr Asp Ser Ser Met Ile Glu Met Asp Met Asp Leu
385 390 395 400
gag agc gag ctt ggc gtt gat agc atc aaa cgc gtg gag atc atg agc 1248
Glu Ser Glu Leu Gly Val Asp Ser Ile Lys Arg Val Glu Ile Met Ser
405 410 415
gag gtt caa acg ttg ctc agc gtg gaa gtc tcc gac gtt gac gct ctg 1296
Glu Val Gln Thr Leu Leu Ser Val Glu Val Ser Asp Val Asp Ala Leu
420 425 430
tca aga acc aag act gtt ggc gac gtc atc gag gcg atg aag ctg gaa 1344
Ser Arg Thr Lys Thr Val Gly Asp Val Ile Glu Ala Met Lys Leu Glu
435 440 445
ctc ggt gga ccc caa ggc cag act ttg acc gcg gaa tcg atc cgt cag 1392
Leu Gly Gly Pro Gln Gly Gln Thr Leu Thr Ala Glu Ser Ile Arg Gln
450 455 460
cca ccg gtg tct gag cct gct gta ccg acc tca tcg tca agc agt att 1440
Pro Pro Val Ser Glu Pro Ala Val Pro Thr Ser Ser Ser Ser Ser Ile
465 470 475 480
gct aat gtt tcg tca gca cgc ctc gct gaa gct gaa gcc gcg gta ctg 1488
Ala Asn Val Ser Ser Ala Arg Leu Ala Glu Ala Glu Ala Ala Val Leu
485 490 495
agc gtt ctc gca gac aag aca ggc tac gac agc tca atg atc gag atg 1536
Ser Val Leu Ala Asp Lys Thr Gly Tyr Asp Ser Ser Met Ile Glu Met
500 505 510
gac atg gac ctg gag agt gag ctt ggc gtc gac agc atc aaa cgc gtg 1584
Asp Met Asp Leu Glu Ser Glu Leu Gly Val Asp Ser Ile Lys Arg Val
515 520 525
gag atc atg agc gag gtt caa acg ctg ctc agc gtg gaa gtc tcc gac 1632
Glu Ile Met Ser Glu Val Gln Thr Leu Leu Ser Val Glu Val Ser Asp
530 535 540
gtt gac gct ctg tca aga acc aag act gtt ggc gac gtc atc gag gcg 1680
Val Asp Ala Leu Ser Arg Thr Lys Thr Val Gly Asp Val Ile Glu Ala
545 550 555 560
atg aag ctg gaa ctc ggt gga ccc caa ggc cag act ttg acc tct gaa 1728
Met Lys Leu Glu Leu Gly Gly Pro Gln Gly Gln Thr Leu Thr Ser Glu
565 570 575
ccg atc cat cag cca cca gtg tcc gag cct gct gta ccg acc tca tcg 1776
Pro Ile His Gln Pro Pro Val Ser Glu Pro Ala Val Pro Thr Ser Ser
580 585 590
tca agc agt att gct aat gtt tct tca gca cgc ctc gct gaa gct gaa 1824
Ser Ser Ser Ile Ala Asn Val Ser Ser Ala Arg Leu Ala Glu Ala Glu
595 600 605
gcc gcg gta ctg agc gtt ctc gca gac aag aca ggc tac gac agc tca 1872
Ala Ala Val Leu Ser Val Leu Ala Asp Lys Thr Gly Tyr Asp Ser Ser
610 615 620
atg atc gag atg gac atg gac ctg gag agc gag ctt ggc gtt gat agc 1920
Met Ile Glu Met Asp Met Asp Leu Glu Ser Glu Leu Gly Val Asp Ser
625 630 635 640
atc aaa cgc gtg gaa atc atg agc gag gtt caa acg ctg ctc agc gtg 1968
Ile Lys Arg Val Glu Ile Met Ser Glu Val Gln Thr Leu Leu Ser Val
645 650 655
gaa gtc tcc gac gtt gac gct ctg tca aga acc aag act gtt ggc gac 2016
Glu Val Ser Asp Val Asp Ala Leu Ser Arg Thr Lys Thr Val Gly Asp
660 665 670
gtc atc gag gcg atg aag atg gaa ctc ggt gga ccc caa ggc cag act 2064
Val Ile Glu Ala Met Lys Met Glu Leu Gly Gly Pro Gln Gly Gln Thr
675 680 685
ttg acc gcg gaa tcg atc cgt cag cca ccg gtg tct gag cct gct gta 2112
Leu Thr Ala Glu Ser Ile Arg Gln Pro Pro Val Ser Glu Pro Ala Val
690 695 700
ccg acc tca tcg tca agc agt att gct aat gtt tcg tca gca cgc ctc 2160
Pro Thr Ser Ser Ser Ser Ser Ile Ala Asn Val Ser Ser Ala Arg Leu
705 710 715 720
gct gaa gct gaa gcg gcg gta ctg agc gtt ctc gca gac aag aca ggc 2208
Ala Glu Ala Glu Ala Ala Val Leu Ser Val Leu Ala Asp Lys Thr Gly
725 730 735
tac gac agc tca atg atc gag atg gac atg gac ctg gag agc gag ctt 2256
Tyr Asp Ser Ser Met Ile Glu Met Asp Met Asp Leu Glu Ser Glu Leu
740 745 750
ggc gtt gat agc atc aaa cgc gtg gag atc atg agc gag gtt caa gcg 2304
Gly Val Asp Ser Ile Lys Arg Val Glu Ile Met Ser Glu Val Gln Ala
755 760 765
ctg ctc agc gtg gaa gtc tcc gac gtt gac gct ctg tca aga acc aag 2352
Leu Leu Ser Val Glu Val Ser Asp Val Asp Ala Leu Ser Arg Thr Lys
770 775 780
act gtt ggc gac gtc atc gag gcg atg aag atg gaa ctc ggt gga ccc 2400
Thr Val Gly Asp Val Ile Glu Ala Met Lys Met Glu Leu Gly Gly Pro
785 790 795 800
caa ggc cag act ttg acc gca gaa tcg atc cgt gag cca ccg gtg tct 2448
Gln Gly Gln Thr Leu Thr Ala Glu Ser Ile Arg Glu Pro Pro Val Ser
805 810 815
gag cct gct gta ccg acc tca tcg tca agt agt atc gct aat gtt tct 2496
Glu Pro Ala Val Pro Thr Ser Ser Ser Ser Ser Ile Ala Asn Val Ser
820 825 830
tca gct cgc ctc gct gaa gct gaa gcc gcg gta ctg agc gtt ctc gca 2544
Ser Ala Arg Leu Ala Glu Ala Glu Ala Ala Val Leu Ser Val Leu Ala
835 840 845
gac aag aca ggc tac gac agc tca atg atc gag atg gac atg gac ctg 2592
Asp Lys Thr Gly Tyr Asp Ser Ser Met Ile Glu Met Asp Met Asp Leu
850 855 860
gag agt gag ctt ggc gtc gac agc atc aaa cgc gtg gag atc atg agc 2640
Glu Ser Glu Leu Gly Val Asp Ser Ile Lys Arg Val Glu Ile Met Ser
865 870 875 880
gag gtt caa acg ttg ctc agc gtg gaa gtc tcc gac gtt gac gct ctg 2688
Glu Val Gln Thr Leu Leu Ser Val Glu Val Ser Asp Val Asp Ala Leu
885 890 895
tca aga acc aag act gtt ggc gac gtc atc gag gcg atg aag ctg gaa 2736
Ser Arg Thr Lys Thr Val Gly Asp Val Ile Glu Ala Met Lys Leu Glu
900 905 910
ctt ggg gaa tca tca agt att gag act ctc aat tgt acc gag gtt gag 2784
Leu Gly Glu Ser Ser Ser Ile Glu Thr Leu Asn Cys Thr Glu Val Glu
915 920 925
cac acg 2790
His Thr
930
<210> 48
<211> 930
<212> PRT
<213> Thraustochytrium sp.
<400> 48
Ser Thr Pro Ala Ser Glu Arg Ser Ala Ser Pro Leu Phe Glu Lys Arg
1 5 10 15
Ser Ser Val Ser Ser Ala Arg Leu Ala Glu Ala Glu Ala Ala Val Leu
20 25 30
Ser Val Leu Ala Asp Lys Thr Gly Tyr Asp Ser Ser Met Ile Glu Met
35 40 45
Asp Met Asp Leu Glu Ser Glu Leu Gly Val Asp Ser Ile Lys Arg Val
50 55 60
Glu Ile Met Ser Glu Val Gln Thr Leu Leu Ser Val Glu Val Ser Asp
65 70 75 80
Val Asp Ala Leu Ser Arg Thr Lys Thr Val Gly Asp Val Ile Glu Ala
85 90 95
Met Lys Leu Glu Leu Gly Gly Pro Gln Gly Gln Thr Leu Thr Ala Glu
100 105 110
Ser Ile Arg Gln Pro Pro Val Ser Glu Pro Ala Val Pro Thr Ser Ser
115 120 125
Ser Ser Ser Ile Ala Asn Val Ser Ser Ala Arg Leu Ala Glu Ala Glu
130 135 140
Ala Ala Val Leu Ser Val Leu Ala Asp Lys Thr Gly Tyr Asp Ser Ser
145 150 155 160
Met Ile Glu Met Asp Met Asp Leu Glu Ser Glu Leu Gly Val Asp Ser
165 170 175
Ile Lys Arg Val Glu Ile Met Ser Glu Val Gln Thr Leu Leu Ser Val
180 185 190
Glu Val Ser Asp Val Asp Ala Leu Ser Arg Thr Lys Thr Val Gly Asp
195 200 205
Val Ile Glu Ala Met Lys Leu Glu Leu Gly Gly Pro Gln Gly Gln Thr
210 215 220
Leu Thr Ala Glu Ser Ile Arg Gln Pro Pro Val Ser Glu Pro Ala Val
225 230 235 240
Pro Thr Ser Ser Ser Ser Ser Ile Ala Asn Val Ser Ser Ala Arg Leu
245 250 255
Ala Glu Ala Glu Ala Ala Val Leu Ser Val Leu Ala Asp Lys Thr Gly
260 265 270
Tyr Asp Ser Ser Met Ile Glu Met Asp Met Asp Leu Glu Ser Glu Leu
275 280 285
Gly Val Asp Ser Ile Lys Arg Val Glu Ile Met Ser Glu Val Gln Thr
290 295 300
Leu Leu Ser Val Glu Val Ser Asp Val Asp Ala Leu Ser Arg Thr Lys
305 310 315 320
Thr Val Gly Asp Val Ile Glu Ala Met Lys Leu Glu Leu Gly Gly Pro
325 330 335
Gln Gly Gln Thr Leu Thr Ala Glu Ser Ile Arg Gln Pro Pro Val Ser
340 345 350
Glu Pro Ala Val Pro Thr Ser Ser Ser Ser Ser Ile Ala Asn Val Leu
355 360 365
Ser Ala Arg Leu Ala Glu Ala Glu Ala Ala Val Leu Ser Val Leu Ala
370 375 380
Asp Lys Thr Gly Tyr Asp Ser Ser Met Ile Glu Met Asp Met Asp Leu
385 390 395 400
Glu Ser Glu Leu Gly Val Asp Ser Ile Lys Arg Val Glu Ile Met Ser
405 410 415
Glu Val Gln Thr Leu Leu Ser Val Glu Val Ser Asp Val Asp Ala Leu
420 425 430
Ser Arg Thr Lys Thr Val Gly Asp Val Ile Glu Ala Met Lys Leu Glu
435 440 445
Leu Gly Gly Pro Gln Gly Gln Thr Leu Thr Ala Glu Ser Ile Arg Gln
450 455 460
Pro Pro Val Ser Glu Pro Ala Val Pro Thr Ser Ser Ser Ser Ser Ile
465 470 475 480
Ala Asn Val Ser Ser Ala Arg Leu Ala Glu Ala Glu Ala Ala Val Leu
485 490 495
Ser Val Leu Ala Asp Lys Thr Gly Tyr Asp Ser Ser Met Ile Glu Met
500 505 510
Asp Met Asp Leu Glu Ser Glu Leu Gly Val Asp Ser Ile Lys Arg Val
515 520 525
Glu Ile Met Ser Glu Val Gln Thr Leu Leu Ser Val Glu Val Ser Asp
530 535 540
Val Asp Ala Leu Ser Arg Thr Lys Thr Val Gly Asp Val Ile Glu Ala
545 550 555 560
Met Lys Leu Glu Leu Gly Gly Pro Gln Gly Gln Thr Leu Thr Ser Glu
565 570 575
Pro Ile His Gln Pro Pro Val Ser Glu Pro Ala Val Pro Thr Ser Ser
580 585 590
Ser Ser Ser Ile Ala Asn Val Ser Ser Ala Arg Leu Ala Glu Ala Glu
595 600 605
Ala Ala Val Leu Ser Val Leu Ala Asp Lys Thr Gly Tyr Asp Ser Ser
610 615 620
Met Ile Glu Met Asp Met Asp Leu Glu Ser Glu Leu Gly Val Asp Ser
625 630 635 640
Ile Lys Arg Val Glu Ile Met Ser Glu Val Gln Thr Leu Leu Ser Val
645 650 655
Glu Val Ser Asp Val Asp Ala Leu Ser Arg Thr Lys Thr Val Gly Asp
660 665 670
Val Ile Glu Ala Met Lys Met Glu Leu Gly Gly Pro Gln Gly Gln Thr
675 680 685
Leu Thr Ala Glu Ser Ile Arg Gln Pro Pro Val Ser Glu Pro Ala Val
690 695 700
Pro Thr Ser Ser Ser Ser Ser Ile Ala Asn Val Ser Ser Ala Arg Leu
705 710 715 720
Ala Glu Ala Glu Ala Ala Val Leu Ser Val Leu Ala Asp Lys Thr Gly
725 730 735
Tyr Asp Ser Ser Met Ile Glu Met Asp Met Asp Leu Glu Ser Glu Leu
740 745 750
Gly Val Asp Ser Ile Lys Arg Val Glu Ile Met Ser Glu Val Gln Ala
755 760 765
Leu Leu Ser Val Glu Val Ser Asp Val Asp Ala Leu Ser Arg Thr Lys
770 775 780
Thr Val Gly Asp Val Ile Glu Ala Met Lys Met Glu Leu Gly Gly Pro
785 790 795 800
Gln Gly Gln Thr Leu Thr Ala Glu Ser Ile Arg Glu Pro Pro Val Ser
805 810 815
Glu Pro Ala Val Pro Thr Ser Ser Ser Ser Ser Ile Ala Asn Val Ser
820 825 830
Ser Ala Arg Leu Ala Glu Ala Glu Ala Ala Val Leu Ser Val Leu Ala
835 840 845
Asp Lys Thr Gly Tyr Asp Ser Ser Met Ile Glu Met Asp Met Asp Leu
850 855 860
Glu Ser Glu Leu Gly Val Asp Ser Ile Lys Arg Val Glu Ile Met Ser
865 870 875 880
Glu Val Gln Thr Leu Leu Ser Val Glu Val Ser Asp Val Asp Ala Leu
885 890 895
Ser Arg Thr Lys Thr Val Gly Asp Val Ile Glu Ala Met Lys Leu Glu
900 905 910
Leu Gly Glu Ser Ser Ser Ile Glu Thr Leu Asn Cys Thr Glu Val Glu
915 920 925
His Thr
930
<210> 49
<211> 2433
<212> DNA
<213> Thraustochytrium sp.
<220>
<221> CDS
<222> (1)..(2433)
<400> 49
aaa agt gtc aag gct tca ggg tgt gag aat gta gat acc cgt ttc gct 48
Lys Ser Val Lys Ala Ser Gly Cys Glu Asn Val Asp Thr Arg Phe Ala
1 5 10 15
aag gtt gta caa atc tcg ctt cct agc aag ctg aaa tcc act gtg tcg 96
Lys Val Val Gln Ile Ser Leu Pro Ser Lys Leu Lys Ser Thr Val Ser
20 25 30
cac gat cga cct gta att gtt gta gat gat gga acg ccc tta acc acg 144
His Asp Arg Pro Val Ile Val Val Asp Asp Gly Thr Pro Leu Thr Thr
35 40 45
gag ctt tgt aaa att ctt ggg ggt aat att gtg gtt ctc tct tat caa 192
Glu Leu Cys Lys Ile Leu Gly Gly Asn Ile Val Val Leu Ser Tyr Gln
50 55 60
ggg aag ccc gct ggt cca cgg gga gtc gag gtg cca gat ctt tcc gag 240
Gly Lys Pro Ala Gly Pro Arg Gly Val Glu Val Pro Asp Leu Ser Glu
65 70 75 80
gaa gcc cta att caa gct ctt gca ttg att cgg tct aca tat gga gtt 288
Glu Ala Leu Ile Gln Ala Leu Ala Leu Ile Arg Ser Thr Tyr Gly Val
85 90 95
cca att ggt ttt att tgt cag caa gtg tct aat gtg agc acc aag gca 336
Pro Ile Gly Phe Ile Cys Gln Gln Val Ser Asn Val Ser Thr Lys Ala
100 105 110
cag ctt tgt tgg gca ctc ctc gca gcg aag cat ctc aag aag gat ttg 384
Gln Leu Cys Trp Ala Leu Leu Ala Ala Lys His Leu Lys Lys Asp Leu
115 120 125
aat gct gtc tta ccc gat tca aga tcc ttc ttc gtc gga gtt gta cgc 432
Asn Ala Val Leu Pro Asp Ser Arg Ser Phe Phe Val Gly Val Val Arg
130 135 140
ttg aac ggg aaa ctt gga act ttc gaa aac atc agc gac ttc tct aaa 480
Leu Asn Gly Lys Leu Gly Thr Phe Glu Asn Ile Ser Asp Phe Ser Lys
145 150 155 160
ttt gat ttg acg aaa gcc cta gat tac gga cag cgt ggt tct ctc tta 528
Phe Asp Leu Thr Lys Ala Leu Asp Tyr Gly Gln Arg Gly Ser Leu Leu
165 170 175
ggc ctg tgc aag tca cta gac tta gaa tgg gaa cag gtg ttt tgc cgt 576
Gly Leu Cys Lys Ser Leu Asp Leu Glu Trp Glu Gln Val Phe Cys Arg
180 185 190
gga ata gat ctt gcg tgt gat ctt atg cca ctc cag gcc gca agg ata 624
Gly Ile Asp Leu Ala Cys Asp Leu Met Pro Leu Gln Ala Ala Arg Ile
195 200 205
ctc aga aat gag ctt cag tgt ccc aat atg cgc ctt cgc gag gtt ggg 672
Leu Arg Asn Glu Leu Gln Cys Pro Asn Met Arg Leu Arg Glu Val Gly
210 215 220
tac gat att tct ggc gcc agg tac acc att tca acc gat gac ctg cta 720
Tyr Asp Ile Ser Gly Ala Arg Tyr Thr Ile Ser Thr Asp Asp Leu Leu
225 230 235 240
tgt gga ccc tcg aag gct aaa gta gag gcc gca gac ttg ttt ctt gtg 768
Cys Gly Pro Ser Lys Ala Lys Val Glu Ala Ala Asp Leu Phe Leu Val
245 250 255
aca ggt ggc gca cga ggt att aca cct cat tgt gtt cgt gag att gca 816
Thr Gly Gly Ala Arg Gly Ile Thr Pro His Cys Val Arg Glu Ile Ala
260 265 270
agt cga tcc ccc gga acc aca ttt gtg ctg gtt gga aga agc gaa atg 864
Ser Arg Ser Pro Gly Thr Thr Phe Val Leu Val Gly Arg Ser Glu Met
275 280 285
tcc gac gag cct gac tgg gct gtt ggc cac tac aat aaa gac ctg gac 912
Ser Asp Glu Pro Asp Trp Ala Val Gly His Tyr Asn Lys Asp Leu Asp
290 295 300
caa agc aca atg aaa cac ttg aaa gca acg cat gct gct gga ggg gta 960
Gln Ser Thr Met Lys His Leu Lys Ala Thr His Ala Ala Gly Gly Val
305 310 315 320
aaa cct acg cct aaa gca cat cgt gca ctt gtg aac agg gtc act ggc 1008
Lys Pro Thr Pro Lys Ala His Arg Ala Leu Val Asn Arg Val Thr Gly
325 330 335
tca cgg gag gta cga gaa tct ctt aga gca atc cag gag gca ggg gca 1056
Ser Arg Glu Val Arg Glu Ser Leu Arg Ala Ile Gln Glu Ala Gly Ala
340 345 350
aat gtc gaa tat atc gcc tgt gat gtt tcg gat gaa aac aag gtc cgc 1104
Asn Val Glu Tyr Ile Ala Cys Asp Val Ser Asp Glu Asn Lys Val Arg
355 360 365
caa ctt gtg caa aga gtg gag caa aag tat ggc tgt gaa ata act ggg 1152
Gln Leu Val Gln Arg Val Glu Gln Lys Tyr Gly Cys Glu Ile Thr Gly
370 375 380
att tgg cat gca agc ggg gtt ctt cgt gac aaa ctt gtc gag caa aag 1200
Ile Trp His Ala Ser Gly Val Leu Arg Asp Lys Leu Val Glu Gln Lys
385 390 395 400
act aca gac gac ttt gag gca gtt ttt ggg acc aag gtg act ggc ctt 1248
Thr Thr Asp Asp Phe Glu Ala Val Phe Gly Thr Lys Val Thr Gly Leu
405 410 415
gta aac atc gtg tca caa gtc aat atg tct aag cta cga cac ttc atc 1296
Val Asn Ile Val Ser Gln Val Asn Met Ser Lys Leu Arg His Phe Ile
420 425 430
ctc ttc agt tct ttg gct gga ttt cat ggg aac aag ggc caa acg gat 1344
Leu Phe Ser Ser Leu Ala Gly Phe His Gly Asn Lys Gly Gln Thr Asp
435 440 445
tat gca att gct aat gaa gcc ttg aac aaa atc gcg cat act ctc tca 1392
Tyr Ala Ile Ala Asn Glu Ala Leu Asn Lys Ile Ala His Thr Leu Ser
450 455 460
gcg ttt ttg ccc aaa ctg aat gca aag gtg cta gac ttc ggt ccg tgg 1440
Ala Phe Leu Pro Lys Leu Asn Ala Lys Val Leu Asp Phe Gly Pro Trp
465 470 475 480
gta ggt tca gga atg gta acc gaa aca ctt gag aag cat ttt aaa gct 1488
Val Gly Ser Gly Met Val Thr Glu Thr Leu Glu Lys His Phe Lys Ala
485 490 495
atg ggg gtt cag act att cct ctc gag cca gga gca cgg act gtt gcg 1536
Met Gly Val Gln Thr Ile Pro Leu Glu Pro Gly Ala Arg Thr Val Ala
500 505 510
caa atc att ttg gca agt tcg cca ccg caa tcg ctt ttg ggg aac tgg 1584
Gln Ile Ile Leu Ala Ser Ser Pro Pro Gln Ser Leu Leu Gly Asn Trp
515 520 525
ggc ttt cca gcc acc aaa ccg cta caa cgc tct aat gta gtc acg ggc 1632
Gly Phe Pro Ala Thr Lys Pro Leu Gln Arg Ser Asn Val Val Thr Gly
530 535 540
aca ctc tct ccg gaa gag ata gaa ttc atc gca gac cac aaa att caa 1680
Thr Leu Ser Pro Glu Glu Ile Glu Phe Ile Ala Asp His Lys Ile Gln
545 550 555 560
ggc cgc aag gtg ctt ccc atg atg gct gca atc ggg ttc atg gcc tct 1728
Gly Arg Lys Val Leu Pro Met Met Ala Ala Ile Gly Phe Met Ala Ser
565 570 575
att gcg gaa gga ctc tac ccg ggg tac aat ctg caa ggc gtg gaa aat 1776
Ile Ala Glu Gly Leu Tyr Pro Gly Tyr Asn Leu Gln Gly Val Glu Asn
580 585 590
gct cag ctc ttt caa ggc ttg act atc aac caa gag aca aaa ttt caa 1824
Ala Gln Leu Phe Gln Gly Leu Thr Ile Asn Gln Glu Thr Lys Phe Gln
595 600 605
atc act ctc att gag gag cac aac tct gag gaa aac ctg gat gtc ctg 1872
Ile Thr Leu Ile Glu Glu His Asn Ser Glu Glu Asn Leu Asp Val Leu
610 615 620
aca tcc ctt ggt gta atg ttg gaa agc ggg aag gtg ctt ccc gct tac 1920
Thr Ser Leu Gly Val Met Leu Glu Ser Gly Lys Val Leu Pro Ala Tyr
625 630 635 640
cga tgt gtt gta tgc ttg aat aca acc cag cag cag ccc aag cta tct 1968
Arg Cys Val Val Cys Leu Asn Thr Thr Gln Gln Gln Pro Lys Leu Ser
645 650 655
cca aaa att ctt aac ttg gaa gtt gac cct gca tgc gag gtt aac ccc 2016
Pro Lys Ile Leu Asn Leu Glu Val Asp Pro Ala Cys Glu Val Asn Pro
660 665 670
tat gat gga aag tcg ttg ttc cac ggt ccg ctt ttg caa ttc gtt caa 2064
Tyr Asp Gly Lys Ser Leu Phe His Gly Pro Leu Leu Gln Phe Val Gln
675 680 685
caa gtg ttg cac tca agt acc aaa ggc ctc gtt gcc aag tgc cgc gcg 2112
Gln Val Leu His Ser Ser Thr Lys Gly Leu Val Ala Lys Cys Arg Ala
690 695 700
ctt cca atc aaa gaa gcc atc cga ggg cca ttt atc aag caa aca ctc 2160
Leu Pro Ile Lys Glu Ala Ile Arg Gly Pro Phe Ile Lys Gln Thr Leu
705 710 715 720
cat gat cca att cta gac gac gtc att ttt cag cta atg ctc gtg tgg 2208
His Asp Pro Ile Leu Asp Asp Val Ile Phe Gln Leu Met Leu Val Trp
725 730 735
tgt cgt aat gct cta gga agt gca tcg cta ccc aac aga att gaa aag 2256
Cys Arg Asn Ala Leu Gly Ser Ala Ser Leu Pro Asn Arg Ile Glu Lys
740 745 750
atg tca tac ttt ggg aat gtc tca gaa ggt agc act ttc ttt gcc tca 2304
Met Ser Tyr Phe Gly Asn Val Ser Glu Gly Ser Thr Phe Phe Ala Ser
755 760 765
gtt aca cct gtg gga cca aga gta cca aag gat ccc gtg atc aaa atg 2352
Val Thr Pro Val Gly Pro Arg Val Pro Lys Asp Pro Val Ile Lys Met
770 775 780
cag ttt ctt ctc caa gat gaa tcc ggc aac aca ttt tca tcg ggg gag 2400
Gln Phe Leu Leu Gln Asp Glu Ser Gly Asn Thr Phe Ser Ser Gly Glu
785 790 795 800
ggc tcg gtt gtg ctt agt gac gaa ctc gtc ttt 2433
Gly Ser Val Val Leu Ser Asp Glu Leu Val Phe
805 810
<210> 50
<211> 811
<212> PRT
<213> Thraustochytrium sp.
<400> 50
Lys Ser Val Lys Ala Ser Gly Cys Glu Asn Val Asp Thr Arg Phe Ala
1 5 10 15
Lys Val Val Gln Ile Ser Leu Pro Ser Lys Leu Lys Ser Thr Val Ser
20 25 30
His Asp Arg Pro Val Ile Val Val Asp Asp Gly Thr Pro Leu Thr Thr
35 40 45
Glu Leu Cys Lys Ile Leu Gly Gly Asn Ile Val Val Leu Ser Tyr Gln
50 55 60
Gly Lys Pro Ala Gly Pro Arg Gly Val Glu Val Pro Asp Leu Ser Glu
65 70 75 80
Glu Ala Leu Ile Gln Ala Leu Ala Leu Ile Arg Ser Thr Tyr Gly Val
85 90 95
Pro Ile Gly Phe Ile Cys Gln Gln Val Ser Asn Val Ser Thr Lys Ala
100 105 110
Gln Leu Cys Trp Ala Leu Leu Ala Ala Lys His Leu Lys Lys Asp Leu
115 120 125
Asn Ala Val Leu Pro Asp Ser Arg Ser Phe Phe Val Gly Val Val Arg
130 135 140
Leu Asn Gly Lys Leu Gly Thr Phe Glu Asn Ile Ser Asp Phe Ser Lys
145 150 155 160
Phe Asp Leu Thr Lys Ala Leu Asp Tyr Gly Gln Arg Gly Ser Leu Leu
165 170 175
Gly Leu Cys Lys Ser Leu Asp Leu Glu Trp Glu Gln Val Phe Cys Arg
180 185 190
Gly Ile Asp Leu Ala Cys Asp Leu Met Pro Leu Gln Ala Ala Arg Ile
195 200 205
Leu Arg Asn Glu Leu Gln Cys Pro Asn Met Arg Leu Arg Glu Val Gly
210 215 220
Tyr Asp Ile Ser Gly Ala Arg Tyr Thr Ile Ser Thr Asp Asp Leu Leu
225 230 235 240
Cys Gly Pro Ser Lys Ala Lys Val Glu Ala Ala Asp Leu Phe Leu Val
245 250 255
Thr Gly Gly Ala Arg Gly Ile Thr Pro His Cys Val Arg Glu Ile Ala
260 265 270
Ser Arg Ser Pro Gly Thr Thr Phe Val Leu Val Gly Arg Ser Glu Met
275 280 285
Ser Asp Glu Pro Asp Trp Ala Val Gly His Tyr Asn Lys Asp Leu Asp
290 295 300
Gln Ser Thr Met Lys His Leu Lys Ala Thr His Ala Ala Gly Gly Val
305 310 315 320
Lys Pro Thr Pro Lys Ala His Arg Ala Leu Val Asn Arg Val Thr Gly
325 330 335
Ser Arg Glu Val Arg Glu Ser Leu Arg Ala Ile Gln Glu Ala Gly Ala
340 345 350
Asn Val Glu Tyr Ile Ala Cys Asp Val Ser Asp Glu Asn Lys Val Arg
355 360 365
Gln Leu Val Gln Arg Val Glu Gln Lys Tyr Gly Cys Glu Ile Thr Gly
370 375 380
Ile Trp His Ala Ser Gly Val Leu Arg Asp Lys Leu Val Glu Gln Lys
385 390 395 400
Thr Thr Asp Asp Phe Glu Ala Val Phe Gly Thr Lys Val Thr Gly Leu
405 410 415
Val Asn Ile Val Ser Gln Val Asn Met Ser Lys Leu Arg His Phe Ile
420 425 430
Leu Phe Ser Ser Leu Ala Gly Phe His Gly Asn Lys Gly Gln Thr Asp
435 440 445
Tyr Ala Ile Ala Asn Glu Ala Leu Asn Lys Ile Ala His Thr Leu Ser
450 455 460
Ala Phe Leu Pro Lys Leu Asn Ala Lys Val Leu Asp Phe Gly Pro Trp
465 470 475 480
Val Gly Ser Gly Met Val Thr Glu Thr Leu Glu Lys His Phe Lys Ala
485 490 495
Met Gly Val Gln Thr Ile Pro Leu Glu Pro Gly Ala Arg Thr Val Ala
500 505 510
Gln Ile Ile Leu Ala Ser Ser Pro Pro Gln Ser Leu Leu Gly Asn Trp
515 520 525
Gly Phe Pro Ala Thr Lys Pro Leu Gln Arg Ser Asn Val Val Thr Gly
530 535 540
Thr Leu Ser Pro Glu Glu Ile Glu Phe Ile Ala Asp His Lys Ile Gln
545 550 555 560
Gly Arg Lys Val Leu Pro Met Met Ala Ala Ile Gly Phe Met Ala Ser
565 570 575
Ile Ala Glu Gly Leu Tyr Pro Gly Tyr Asn Leu Gln Gly Val Glu Asn
580 585 590
Ala Gln Leu Phe Gln Gly Leu Thr Ile Asn Gln Glu Thr Lys Phe Gln
595 600 605
Ile Thr Leu Ile Glu Glu His Asn Ser Glu Glu Asn Leu Asp Val Leu
610 615 620
Thr Ser Leu Gly Val Met Leu Glu Ser Gly Lys Val Leu Pro Ala Tyr
625 630 635 640
Arg Cys Val Val Cys Leu Asn Thr Thr Gln Gln Gln Pro Lys Leu Ser
645 650 655
Pro Lys Ile Leu Asn Leu Glu Val Asp Pro Ala Cys Glu Val Asn Pro
660 665 670
Tyr Asp Gly Lys Ser Leu Phe His Gly Pro Leu Leu Gln Phe Val Gln
675 680 685
Gln Val Leu His Ser Ser Thr Lys Gly Leu Val Ala Lys Cys Arg Ala
690 695 700
Leu Pro Ile Lys Glu Ala Ile Arg Gly Pro Phe Ile Lys Gln Thr Leu
705 710 715 720
His Asp Pro Ile Leu Asp Asp Val Ile Phe Gln Leu Met Leu Val Trp
725 730 735
Cys Arg Asn Ala Leu Gly Ser Ala Ser Leu Pro Asn Arg Ile Glu Lys
740 745 750
Met Ser Tyr Phe Gly Asn Val Ser Glu Gly Ser Thr Phe Phe Ala Ser
755 760 765
Val Thr Pro Val Gly Pro Arg Val Pro Lys Asp Pro Val Ile Lys Met
770 775 780
Gln Phe Leu Leu Gln Asp Glu Ser Gly Asn Thr Phe Ser Ser Gly Glu
785 790 795 800
Gly Ser Val Val Leu Ser Asp Glu Leu Val Phe
805 810
<210> 51
<211> 5808
<212> DNA
<213> Thraustochytrium sp.
<220>
<221> CDS
<222> (1)..(5805)
<220>
<221> misc_feature
<222> (1)..(5808)
<223> n = a c t or g
<400> 51
atg caa ctt cct cca gcg cat tct gcc gat gag aat cgc atc gcg gtc 48
Met Gln Leu Pro Pro Ala His Ser Ala Asp Glu Asn Arg Ile Ala Val
1 5 10 15
gtg ggc atg gcc gtc aaa tat gcg ggc tgt gac aat aaa gaa gag ttt 96
Val Gly Met Ala Val Lys Tyr Ala Gly Cys Asp Asn Lys Glu Glu Phe
20 25 30
tgg aag act ttg atg aat ggt agt atc aat acc aag tcg att tcg gca 144
Trp Lys Thr Leu Met Asn Gly Ser Ile Asn Thr Lys Ser Ile Ser Ala
35 40 45
gca agg ttg ggc agc aat aag cgt gac gaa cac tat gtt cct gaa cga 192
Ala Arg Leu Gly Ser Asn Lys Arg Asp Glu His Tyr Val Pro Glu Arg
50 55 60
tcg aaa tat gca gat acg ttc tgt aac gaa agg tac ggt tgt atc cag 240
Ser Lys Tyr Ala Asp Thr Phe Cys Asn Glu Arg Tyr Gly Cys Ile Gln
65 70 75 80
caa ggt acg gat aat gag cat gac ctc ctc cta ggt ctt gct caa gaa 288
Gln Gly Thr Asp Asn Glu His Asp Leu Leu Leu Gly Leu Ala Gln Glu
85 90 95
gct ctc gct gac gct gcc ggg cgg atg gag aaa caa cct tcg gag gcg 336
Ala Leu Ala Asp Ala Ala Gly Arg Met Glu Lys Gln Pro Ser Glu Ala
100 105 110
ttc gat ctg gaa aat act ggc atc gtg agt ggg tgc tta tct ttt cca 384
Phe Asp Leu Glu Asn Thr Gly Ile Val Ser Gly Cys Leu Ser Phe Pro
115 120 125
atg gat aac ctg caa gga gag ttg ttg aac ttg tat caa agc cat gtg 432
Met Asp Asn Leu Gln Gly Glu Leu Leu Asn Leu Tyr Gln Ser His Val
130 135 140
gag aaa caa ctt cca cct agt gcc ttg gta gaa gcc gtg aag ctt tgg 480
Glu Lys Gln Leu Pro Pro Ser Ala Leu Val Glu Ala Val Lys Leu Trp
145 150 155 160
tct gag cga cag aaa tct acg aaa gca cat gca ggg gac aag cgc cgg 528
Ser Glu Arg Gln Lys Ser Thr Lys Ala His Ala Gly Asp Lys Arg Arg
165 170 175
ttc att gac cca gct tct ttt gta gct gat aaa ctg aac cta ggc cca 576
Phe Ile Asp Pro Ala Ser Phe Val Ala Asp Lys Leu Asn Leu Gly Pro
180 185 190
cta cat tat gcg atc gat gca gca tgc gct tct gca ttg tac gtg tta 624
Leu His Tyr Ala Ile Asp Ala Ala Cys Ala Ser Ala Leu Tyr Val Leu
195 200 205
aaa tta gct caa gac cac ctt gtt tca ggt gcc gtt gat atg atg tta 672
Lys Leu Ala Gln Asp His Leu Val Ser Gly Ala Val Asp Met Met Leu
210 215 220
tgt gga gcg acg tgc ttc cca gaa cca ttc ttc atc ttg tct ggg ttc 720
Cys Gly Ala Thr Cys Phe Pro Glu Pro Phe Phe Ile Leu Ser Gly Phe
225 230 235 240
tcg act ttt caa gcg atg cct gnt ggg gca gat gga gtc tca cta cct 768
Ser Thr Phe Gln Ala Met Pro Xaa Gly Ala Asp Gly Val Ser Leu Pro
245 250 255
ctc cat aaa acg agt gct ggg ctc act cca ggt gaa ggg ggg tcc att 816
Leu His Lys Thr Ser Ala Gly Leu Thr Pro Gly Glu Gly Gly Ser Ile
260 265 270
atg gtg ctc aag cga ctg aaa gac gct atc aga gat gga aat cac att 864
Met Val Leu Lys Arg Leu Lys Asp Ala Ile Arg Asp Gly Asn His Ile
275 280 285
tat ggt gtg ctc ctt gaa gca aat tta agt aac gca ggt tgt ggg ctt 912
Tyr Gly Val Leu Leu Glu Ala Asn Leu Ser Asn Ala Gly Cys Gly Leu
290 295 300
cca ctc agc ccg cac tta ccg agc gaa gaa tca tgt att cgt gat acc 960
Pro Leu Ser Pro His Leu Pro Ser Glu Glu Ser Cys Ile Arg Asp Thr
305 310 315 320
tac cgc cgt gct gga gtt gct gca gat caa agt att cag tat att gag 1008
Tyr Arg Arg Ala Gly Val Ala Ala Asp Gln Ser Ile Gln Tyr Ile Glu
325 330 335
tgc cac gct acg gga acc cct cga ggg gat gtc gtg gaa att gag gcg 1056
Cys His Ala Thr Gly Thr Pro Arg Gly Asp Val Val Glu Ile Glu Ala
340 345 350
gtt gaa aga gtt ttc aag aaa aac gtt cca cgc tta ggc tcg acg aaa 1104
Val Glu Arg Val Phe Lys Lys Asn Val Pro Arg Leu Gly Ser Thr Lys
355 360 365
gga aat ttt ggt cac tcg tta gtt gcg gct ggt ttc gca ggt atg gca 1152
Gly Asn Phe Gly His Ser Leu Val Ala Ala Gly Phe Ala Gly Met Ala
370 375 380
aag ctt ctt ctt gca atg gaa cat gga gtg att cct ccc aca cca ggt 1200
Lys Leu Leu Leu Ala Met Glu His Gly Val Ile Pro Pro Thr Pro Gly
385 390 395 400
ctt gat gct tcg aac cag gca agt gag cac gtt gtg aca aag gct atc 1248
Leu Asp Ala Ser Asn Gln Ala Ser Glu His Val Val Thr Lys Ala Ile
405 410 415
act tgg cct gag aca cat ggg gct cca aaa cga gct ggc ctt tca gca 1296
Thr Trp Pro Glu Thr His Gly Ala Pro Lys Arg Ala Gly Leu Ser Ala
420 425 430
ttt gga ttt ggt ggg act aat gcg cat gca ctc ttc gaa gag ttt aat 1344
Phe Gly Phe Gly Gly Thr Asn Ala His Ala Leu Phe Glu Glu Phe Asn
435 440 445
gcc gag ggc ata agt tat cgc cct gga aag cct cca gtc gaa tcg aat 1392
Ala Glu Gly Ile Ser Tyr Arg Pro Gly Lys Pro Pro Val Glu Ser Asn
450 455 460
acc cgt cct tcc gtc gta ata act ggg atg gac tgt acc ttt ggg agc 1440
Thr Arg Pro Ser Val Val Ile Thr Gly Met Asp Cys Thr Phe Gly Ser
465 470 475 480
ctt gaa ggg att gat gcg ttc gag act gcc ctg tac gag ggg cgt gac 1488
Leu Glu Gly Ile Asp Ala Phe Glu Thr Ala Leu Tyr Glu Gly Arg Asp
485 490 495
gca gct cgt gac tta ccc gcc aaa cgt tgg agg ttc cta ggt gag gac 1536
Ala Ala Arg Asp Leu Pro Ala Lys Arg Trp Arg Phe Leu Gly Glu Asp
500 505 510
ttg gag ttt ctc cga gcc atc agg ctc aag gaa aag cct agg ggt tgt 1584
Leu Glu Phe Leu Arg Ala Ile Arg Leu Lys Glu Lys Pro Arg Gly Cys
515 520 525
ttt gtg gag agt gtt gac gtt aac ttt aga cgg ctg aaa acg ccc ttg 1632
Phe Val Glu Ser Val Asp Val Asn Phe Arg Arg Leu Lys Thr Pro Leu
530 535 540
aca cca gaa gat atg ttg cgg ccc caa caa ctc ttg gcg gtt tct acg 1680
Thr Pro Glu Asp Met Leu Arg Pro Gln Gln Leu Leu Ala Val Ser Thr
545 550 555 560
atg gac cga gca att atc gat gca ggt cta aag aag ggc caa cat gta 1728
Met Asp Arg Ala Ile Ile Asp Ala Gly Leu Lys Lys Gly Gln His Val
565 570 575
gca gtt ctt gtt ggc cta gga act gac ctg gaa ctt tac cgt cat cga 1776
Ala Val Leu Val Gly Leu Gly Thr Asp Leu Glu Leu Tyr Arg His Arg
580 585 590
gca aga gtc gcg ctt aaa gag gtt ttg cac ccg agc tta aag tca gac 1824
Ala Arg Val Ala Leu Lys Glu Val Leu His Pro Ser Leu Lys Ser Asp
595 600 605
act gca att ctc cag aaa ata atg caa tat gtg aat gat gca gga act 1872
Thr Ala Ile Leu Gln Lys Ile Met Gln Tyr Val Asn Asp Ala Gly Thr
610 615 620
tcg act tca tac aca tct tac att gga aac ctc gtt gcc acg cgt att 1920
Ser Thr Ser Tyr Thr Ser Tyr Ile Gly Asn Leu Val Ala Thr Arg Ile
625 630 635 640
tcg tct cag tgg gga ttc aca ggg ccg tcc ttt act gtc aca gaa gga 1968
Ser Ser Gln Trp Gly Phe Thr Gly Pro Ser Phe Thr Val Thr Glu Gly
645 650 655
aat aat tcc gtg tac aga tgt gca caa cta gcc aaa gat atg ctt cag 2016
Asn Asn Ser Val Tyr Arg Cys Ala Gln Leu Ala Lys Asp Met Leu Gln
660 665 670
gtt aac cga gtt gat gct gtc gtc atc gca ggc gtt gat ctc aac gga 2064
Val Asn Arg Val Asp Ala Val Val Ile Ala Gly Val Asp Leu Asn Gly
675 680 685
agc gcc gaa agt ttt ttt gtc cga gca aat cgt caa aag ata tcc aag 2112
Ser Ala Glu Ser Phe Phe Val Arg Ala Asn Arg Gln Lys Ile Ser Lys
690 695 700
cta agt cat cca tgt gca agc ttc gac aga gat gca gat gga ttt ttc 2160
Leu Ser His Pro Cys Ala Ser Phe Asp Arg Asp Ala Asp Gly Phe Phe
705 710 715 720
gca ggt gag ggc tgt ggt gcc cta gtt ttc aag agg tta gaa gac tgt 2208
Ala Gly Glu Gly Cys Gly Ala Leu Val Phe Lys Arg Leu Glu Asp Cys
725 730 735
gct cct cag gaa aaa att tat gct agt ata gac tct atc gca ata gat 2256
Ala Pro Gln Glu Lys Ile Tyr Ala Ser Ile Asp Ser Ile Ala Ile Asp
740 745 750
aaa gag cct act agc tca gct gtg aaa gct gtc tac caa agt gat tcg 2304
Lys Glu Pro Thr Ser Ser Ala Val Lys Ala Val Tyr Gln Ser Asp Ser
755 760 765
agt ctc tcc gat att gag ctg tta gaa atc agt gga gac tcc aaa cgg 2352
Ser Leu Ser Asp Ile Glu Leu Leu Glu Ile Ser Gly Asp Ser Lys Arg
770 775 780
ttt gca gca ttc gaa ggc gct gtg gaa att caa tca agt gtg gaa gcc 2400
Phe Ala Ala Phe Glu Gly Ala Val Glu Ile Gln Ser Ser Val Glu Ala
785 790 795 800
cag cta aaa gga ctt tcc aaa gtc ctt gaa cct gca aaa ggc caa ggc 2448
Gln Leu Lys Gly Leu Ser Lys Val Leu Glu Pro Ala Lys Gly Gln Gly
805 810 815
gta gcg gtg gga agt act cga gca acc gtt ggg gat ata ggg tat gct 2496
Val Ala Val Gly Ser Thr Arg Ala Thr Val Gly Asp Ile Gly Tyr Ala
820 825 830
aca gga gcg gca agc ctg att aaa act gca ctc tgc tta tat aat cgc 2544
Thr Gly Ala Ala Ser Leu Ile Lys Thr Ala Leu Cys Leu Tyr Asn Arg
835 840 845
tac ctt ccg gca tta gca aac tgg agt ggc cca tgt gaa cag tcc gcc 2592
Tyr Leu Pro Ala Leu Ala Asn Trp Ser Gly Pro Cys Glu Gln Ser Ala
850 855 860
tgg ggc tca aac atg ttc gtt tgc cat gaa aca cgg ccg tgg atg aaa 2640
Trp Gly Ser Asn Met Phe Val Cys His Glu Thr Arg Pro Trp Met Lys
865 870 875 880
aac cag aat gaa aag aga tgt gcc ctc att tct gga aca gat cca tct 2688
Asn Gln Asn Glu Lys Arg Cys Ala Leu Ile Ser Gly Thr Asp Pro Ser
885 890 895
cat aca tgc ttt tcc ctc gta cta tcg gat act ggg tgt tat gaa gag 2736
His Thr Cys Phe Ser Leu Val Leu Ser Asp Thr Gly Cys Tyr Glu Glu
900 905 910
cac aat cga acg tgc ttt gat gtg caa gcg cca cag cta gtt ctg ata 2784
His Asn Arg Thr Cys Phe Asp Val Gln Ala Pro Gln Leu Val Leu Ile
915 920 925
cac gga ttc gat gga aaa act att gtg cgg cga ctt gaa gga tat ctc 2832
His Gly Phe Asp Gly Lys Thr Ile Val Arg Arg Leu Glu Gly Tyr Leu
930 935 940
ctt gaa ctt gtt gaa ggg cat gca agc cct tca gag tat ttc cac aaa 2880
Leu Glu Leu Val Glu Gly His Ala Ser Pro Ser Glu Tyr Phe His Lys
945 950 955 960
ctg att gga caa agt cta ctt gag aac tcg aaa gaa agt aaa ctc aca 2928
Leu Ile Gly Gln Ser Leu Leu Glu Asn Ser Lys Glu Ser Lys Leu Thr
965 970 975
ctt tcg ctt gtg tgc aat ccg aac cag ctc caa aag gag ctc atg ctt 2976
Leu Ser Leu Val Cys Asn Pro Asn Gln Leu Gln Lys Glu Leu Met Leu
980 985 990
gct atc aaa gga gta caa cga agc atg tta aca ggg aag gat tgg gtc 3024
Ala Ile Lys Gly Val Gln Arg Ser Met Leu Thr Gly Lys Asp Trp Val
995 1000 1005
agt cca tca gga agt tgt ttt gcc cca aat ccg tta tca agc gca 3069
Ser Pro Ser Gly Ser Cys Phe Ala Pro Asn Pro Leu Ser Ser Ala
1010 1015 1020
aaa gtg gca ttc atg tac gga gaa ggc cga agc ccg tac tgt ggt 3114
Lys Val Ala Phe Met Tyr Gly Glu Gly Arg Ser Pro Tyr Cys Gly
1025 1030 1035
gta ggc ttg ggt cta cat cgt ttg tgg ccc ggt ctc cat gaa aat 3159
Val Gly Leu Gly Leu His Arg Leu Trp Pro Gly Leu His Glu Asn
1040 1045 1050
gtg aac aat aag aca gtc gat tta tgg acg gaa gga gat ggt tgg 3204
Val Asn Asn Lys Thr Val Asp Leu Trp Thr Glu Gly Asp Gly Trp
1055 1060 1065
tta tat cct cga acg ttg aca cga gaa gag cat aca aaa gcc atc 3249
Leu Tyr Pro Arg Thr Leu Thr Arg Glu Glu His Thr Lys Ala Ile
1070 1075 1080
gaa tct ttc aac gca aat caa att gaa atg ttt cgc gct ggg att 3294
Glu Ser Phe Asn Ala Asn Gln Ile Glu Met Phe Arg Ala Gly Ile
1085 1090 1095
ttc atc tca atg tgt cag aca gac tat gtc atg aat gtt ctc ggt 3339
Phe Ile Ser Met Cys Gln Thr Asp Tyr Val Met Asn Val Leu Gly
1100 1105 1110
gtc cag cct aag gcc gga ttt ggg ctg agc ttg gga gaa att tca 3384
Val Gln Pro Lys Ala Gly Phe Gly Leu Ser Leu Gly Glu Ile Ser
1115 1120 1125
atg ctc ttt gcg atg tca aag gag aac tgc agg cag tca cag gaa 3429
Met Leu Phe Ala Met Ser Lys Glu Asn Cys Arg Gln Ser Gln Glu
1130 1135 1140
atg acc aat cgt ttg cgc ggt tct cca gtg tgg tct aac gag ctt 3474
Met Thr Asn Arg Leu Arg Gly Ser Pro Val Trp Ser Asn Glu Leu
1145 1150 1155
gct atc aac ttc aat gca att cgc aag tta tgg aaa atc ccc cga 3519
Ala Ile Asn Phe Asn Ala Ile Arg Lys Leu Trp Lys Ile Pro Arg
1160 1165 1170
gga gct ccc tta gaa tcc ttt tgg caa gga tac ttg gtt cac ggc 3564
Gly Ala Pro Leu Glu Ser Phe Trp Gln Gly Tyr Leu Val His Gly
1175 1180 1185
aca aga gaa gaa gta gag cat gct att ggt ctt tct gag cct tat 3609
Thr Arg Glu Glu Val Glu His Ala Ile Gly Leu Ser Glu Pro Tyr
1190 1195 1200
gta cgt ctg ctt att gtg aac gat tca agg agt gcc ttg att gct 3654
Val Arg Leu Leu Ile Val Asn Asp Ser Arg Ser Ala Leu Ile Ala
1205 1210 1215
gga aaa cca gac gcc tgt cag gca gta atc agt aga cta aac tcc 3699
Gly Lys Pro Asp Ala Cys Gln Ala Val Ile Ser Arg Leu Asn Ser
1220 1225 1230
aag ttc cct tct ctg ccg gta aag caa gga atg att ggt cat tgc 3744
Lys Phe Pro Ser Leu Pro Val Lys Gln Gly Met Ile Gly His Cys
1235 1240 1245
cca gaa gtt cgt gcg ttc atc aaa gat att ggg tac atc cat gaa 3789
Pro Glu Val Arg Ala Phe Ile Lys Asp Ile Gly Tyr Ile His Glu
1250 1255 1260
aca ctc cga att tcc aat gac tat tcg gat tgt cag ctt ttc tca 3834
Thr Leu Arg Ile Ser Asn Asp Tyr Ser Asp Cys Gln Leu Phe Ser
1265 1270 1275
gcg gta acc aag ggc gca ctt gac agc tcc aca atg gaa atc aaa 3879
Ala Val Thr Lys Gly Ala Leu Asp Ser Ser Thr Met Glu Ile Lys
1280 1285 1290
cac ttt gtg gga gag gtc tac tcc cgg atc gca gac ttt cct caa 3924
His Phe Val Gly Glu Val Tyr Ser Arg Ile Ala Asp Phe Pro Gln
1295 1300 1305
atc gtc aac acg gtg cat tcg gct ggt tat gac gta ttt ctt gag 3969
Ile Val Asn Thr Val His Ser Ala Gly Tyr Asp Val Phe Leu Glu
1310 1315 1320
ctt ggc tgt gat gct tct aga tct gca gca gtt caa aac att ctt 4014
Leu Gly Cys Asp Ala Ser Arg Ser Ala Ala Val Gln Asn Ile Leu
1325 1330 1335
ggt ggt caa gga aag ttc ttg tct aca gct att gac aaa aaa gga 4059
Gly Gly Gln Gly Lys Phe Leu Ser Thr Ala Ile Asp Lys Lys Gly
1340 1345 1350
cac tcc gcc tgg tca caa gta ctt cgg gct acc gca tca tta gct 4104
His Ser Ala Trp Ser Gln Val Leu Arg Ala Thr Ala Ser Leu Ala
1355 1360 1365
gca cat cga gta ccg gga atc tca att ttg gat ttg ttt cac cca 4149
Ala His Arg Val Pro Gly Ile Ser Ile Leu Asp Leu Phe His Pro
1370 1375 1380
aat ttc cga gaa atg tgc tgt aca atg gca acc aca cct aaa gtg 4194
Asn Phe Arg Glu Met Cys Cys Thr Met Ala Thr Thr Pro Lys Val
1385 1390 1395
gaa gat aag ttc ctg cgc acg att caa atc aat ggt cgg ttt gaa 4239
Glu Asp Lys Phe Leu Arg Thr Ile Gln Ile Asn Gly Arg Phe Glu
1400 1405 1410
aaa gaa atg att cac cta gaa gat aca aca tta agt tgc tta ccc 4284
Lys Glu Met Ile His Leu Glu Asp Thr Thr Leu Ser Cys Leu Pro
1415 1420 1425
gct cca agt gaa gca aat atc gca gct att caa tct cgg tca att 4329
Ala Pro Ser Glu Ala Asn Ile Ala Ala Ile Gln Ser Arg Ser Ile
1430 1435 1440
cga tct gct gcg gcg cgt tct gga caa tcc cat gat tgt gca tcc 4374
Arg Ser Ala Ala Ala Arg Ser Gly Gln Ser His Asp Cys Ala Ser
1445 1450 1455
cat agc cat gaa gaa aat aag gat tca tgc cct gaa aag ctg aag 4419
His Ser His Glu Glu Asn Lys Asp Ser Cys Pro Glu Lys Leu Lys
1460 1465 1470
ctt gat tct gtg tcc gtc gcc ata aat ttc gac aat gat gac cgc 4464
Leu Asp Ser Val Ser Val Ala Ile Asn Phe Asp Asn Asp Asp Arg
1475 1480 1485
att cag ctt ggg cac gcg ggt ttt cgg gag atg tac aat aca aga 4509
Ile Gln Leu Gly His Ala Gly Phe Arg Glu Met Tyr Asn Thr Arg
1490 1495 1500
tat agc ttg tac aca ggg gcg atg gca aag gga att gca tct gca 4554
Tyr Ser Leu Tyr Thr Gly Ala Met Ala Lys Gly Ile Ala Ser Ala
1505 1510 1515
gat ctt gtc att gcc gct ggg aaa gag ggc atc cta gct tcc tat 4599
Asp Leu Val Ile Ala Ala Gly Lys Glu Gly Ile Leu Ala Ser Tyr
1520 1525 1530
gga gct gga gga cta cct ctt gct act gtt cga aag gga ata gac 4644
Gly Ala Gly Gly Leu Pro Leu Ala Thr Val Arg Lys Gly Ile Asp
1535 1540 1545
aaa att caa caa gcc ttg cca agt ggc cca tat gct gta aat ctt 4689
Lys Ile Gln Gln Ala Leu Pro Ser Gly Pro Tyr Ala Val Asn Leu
1550 1555 1560
att cac tct ccc ttt gac ggc aac ttg gag cag gga aac gtc gat 4734
Ile His Ser Pro Phe Asp Gly Asn Leu Glu Gln Gly Asn Val Asp
1565 1570 1575
ttg ttc ttg gaa aag aac gtc cgc gtg gcg gaa tgt tcc gcg ttt 4779
Leu Phe Leu Glu Lys Asn Val Arg Val Ala Glu Cys Ser Ala Phe
1580 1585 1590
aca acg cta aca gtg cca gta gta cac tat cgt gct gca ggg ctt 4824
Thr Thr Leu Thr Val Pro Val Val His Tyr Arg Ala Ala Gly Leu
1595 1600 1605
gtt cgg cgc caa gat gga agc att ttg atc aag aac cga atc att 4869
Val Arg Arg Gln Asp Gly Ser Ile Leu Ile Lys Asn Arg Ile Ile
1610 1615 1620
gct aaa gta tct agg aca gaa ctc gct gag atg ttc ctt cgt ccg 4914
Ala Lys Val Ser Arg Thr Glu Leu Ala Glu Met Phe Leu Arg Pro
1625 1630 1635
gca cct caa atc atc ctc gaa aaa ctg gta gca gca gaa atc att 4959
Ala Pro Gln Ile Ile Leu Glu Lys Leu Val Ala Ala Glu Ile Ile
1640 1645 1650
tca tct gac caa gcg cgt atg gca gcc aaa gtt ccc atg gcg gac 5004
Ser Ser Asp Gln Ala Arg Met Ala Ala Lys Val Pro Met Ala Asp
1655 1660 1665
gac atc gca gtc gaa gcc gac tct ggt ggg cac acg gat aat cgg 5049
Asp Ile Ala Val Glu Ala Asp Ser Gly Gly His Thr Asp Asn Arg
1670 1675 1680
cct atg cac gtc att ttg ccc ctg ata att caa ctc cgc aat act 5094
Pro Met His Val Ile Leu Pro Leu Ile Ile Gln Leu Arg Asn Thr
1685 1690 1695
ata ctt gca gag tat ggc tgt gcc acg gct ttt cgt acc cgt ata 5139
Ile Leu Ala Glu Tyr Gly Cys Ala Thr Ala Phe Arg Thr Arg Ile
1700 1705 1710
ggc gct gga gga ggc att ggt tgt cct tca gcg gcc ctc gca gcc 5184
Gly Ala Gly Gly Gly Ile Gly Cys Pro Ser Ala Ala Leu Ala Ala
1715 1720 1725
ttt gat atg ggt gcg agt ttt gtc gtg act gga agc ata aat caa 5229
Phe Asp Met Gly Ala Ser Phe Val Val Thr Gly Ser Ile Asn Gln
1730 1735 1740
att tgc cgc gag gca ggg act tgc gat act gtt cgg gag cta ctt 5274
Ile Cys Arg Glu Ala Gly Thr Cys Asp Thr Val Arg Glu Leu Leu
1745 1750 1755
gcc aac tca agc tac tcg gac gtg acg atg gcg cca gca gca gac 5319
Ala Asn Ser Ser Tyr Ser Asp Val Thr Met Ala Pro Ala Ala Asp
1760 1765 1770
atg ttt gac caa ggt gtg aaa ctc caa gtc tta aaa cga gga acg 5364
Met Phe Asp Gln Gly Val Lys Leu Gln Val Leu Lys Arg Gly Thr
1775 1780 1785
atg ttt cca agc aga gca aat aaa ctc cgg aag ctc ttt gtg aac 5409
Met Phe Pro Ser Arg Ala Asn Lys Leu Arg Lys Leu Phe Val Asn
1790 1795 1800
tac gaa tct cta gaa aca ctc ccg tcg aaa gag ttg aaa tac ctg 5454
Tyr Glu Ser Leu Glu Thr Leu Pro Ser Lys Glu Leu Lys Tyr Leu
1805 1810 1815
gaa aac atc ata ttc aag caa gca gta gac cag gtg tgg gag gaa 5499
Glu Asn Ile Ile Phe Lys Gln Ala Val Asp Gln Val Trp Glu Glu
1820 1825 1830
aca aag cgc ttt tac tgt gaa aaa ctg aac aat cca gat aaa att 5544
Thr Lys Arg Phe Tyr Cys Glu Lys Leu Asn Asn Pro Asp Lys Ile
1835 1840 1845
gca agg gcc atg aaa gat cct aaa ttg aag atg tcg ctt tgc ttt 5589
Ala Arg Ala Met Lys Asp Pro Lys Leu Lys Met Ser Leu Cys Phe
1850 1855 1860
cgg tgg tat ctc tcc aag agc tct ggg tgg gcc aac gca gga att 5634
Arg Trp Tyr Leu Ser Lys Ser Ser Gly Trp Ala Asn Ala Gly Ile
1865 1870 1875
aaa tct cgt gca ctc gac tac cag atc tgg tgt ggc ccg gca atg 5679
Lys Ser Arg Ala Leu Asp Tyr Gln Ile Trp Cys Gly Pro Ala Met
1880 1885 1890
ggc tcg ttc aac aat ttc gcc agc ggc aca tcc ctc gat tgg aaa 5724
Gly Ser Phe Asn Asn Phe Ala Ser Gly Thr Ser Leu Asp Trp Lys
1895 1900 1905
gtg act ggg gtt ttc cct ggc gtt gcg gaa gta aac atg gcc att 5769
Val Thr Gly Val Phe Pro Gly Val Ala Glu Val Asn Met Ala Ile
1910 1915 1920
tta gat ggc gcg cga gaa cta gct gct aaa cga aat taa 5808
Leu Asp Gly Ala Arg Glu Leu Ala Ala Lys Arg Asn
1925 1930 1935
<210> 52
<211> 1935
<212> PRT
<213> Thraustochytrium sp.
<220>
<221> misc_feature
<222> (248)..(248)
<223> The 'Xaa' at location 248 stands for Asp, Gly, Ala, or Val.
<400> 52
Met Gln Leu Pro Pro Ala His Ser Ala Asp Glu Asn Arg Ile Ala Val
1 5 10 15
Val Gly Met Ala Val Lys Tyr Ala Gly Cys Asp Asn Lys Glu Glu Phe
20 25 30
Trp Lys Thr Leu Met Asn Gly Ser Ile Asn Thr Lys Ser Ile Ser Ala
35 40 45
Ala Arg Leu Gly Ser Asn Lys Arg Asp Glu His Tyr Val Pro Glu Arg
50 55 60
Ser Lys Tyr Ala Asp Thr Phe Cys Asn Glu Arg Tyr Gly Cys Ile Gln
65 70 75 80
Gln Gly Thr Asp Asn Glu His Asp Leu Leu Leu Gly Leu Ala Gln Glu
85 90 95
Ala Leu Ala Asp Ala Ala Gly Arg Met Glu Lys Gln Pro Ser Glu Ala
100 105 110
Phe Asp Leu Glu Asn Thr Gly Ile Val Ser Gly Cys Leu Ser Phe Pro
115 120 125
Met Asp Asn Leu Gln Gly Glu Leu Leu Asn Leu Tyr Gln Ser His Val
130 135 140
Glu Lys Gln Leu Pro Pro Ser Ala Leu Val Glu Ala Val Lys Leu Trp
145 150 155 160
Ser Glu Arg Gln Lys Ser Thr Lys Ala His Ala Gly Asp Lys Arg Arg
165 170 175
Phe Ile Asp Pro Ala Ser Phe Val Ala Asp Lys Leu Asn Leu Gly Pro
180 185 190
Leu His Tyr Ala Ile Asp Ala Ala Cys Ala Ser Ala Leu Tyr Val Leu
195 200 205
Lys Leu Ala Gln Asp His Leu Val Ser Gly Ala Val Asp Met Met Leu
210 215 220
Cys Gly Ala Thr Cys Phe Pro Glu Pro Phe Phe Ile Leu Ser Gly Phe
225 230 235 240
Ser Thr Phe Gln Ala Met Pro Xaa Gly Ala Asp Gly Val Ser Leu Pro
245 250 255
Leu His Lys Thr Ser Ala Gly Leu Thr Pro Gly Glu Gly Gly Ser Ile
260 265 270
Met Val Leu Lys Arg Leu Lys Asp Ala Ile Arg Asp Gly Asn His Ile
275 280 285
Tyr Gly Val Leu Leu Glu Ala Asn Leu Ser Asn Ala Gly Cys Gly Leu
290 295 300
Pro Leu Ser Pro His Leu Pro Ser Glu Glu Ser Cys Ile Arg Asp Thr
305 310 315 320
Tyr Arg Arg Ala Gly Val Ala Ala Asp Gln Ser Ile Gln Tyr Ile Glu
325 330 335
Cys His Ala Thr Gly Thr Pro Arg Gly Asp Val Val Glu Ile Glu Ala
340 345 350
Val Glu Arg Val Phe Lys Lys Asn Val Pro Arg Leu Gly Ser Thr Lys
355 360 365
Gly Asn Phe Gly His Ser Leu Val Ala Ala Gly Phe Ala Gly Met Ala
370 375 380
Lys Leu Leu Leu Ala Met Glu His Gly Val Ile Pro Pro Thr Pro Gly
385 390 395 400
Leu Asp Ala Ser Asn Gln Ala Ser Glu His Val Val Thr Lys Ala Ile
405 410 415
Thr Trp Pro Glu Thr His Gly Ala Pro Lys Arg Ala Gly Leu Ser Ala
420 425 430
Phe Gly Phe Gly Gly Thr Asn Ala His Ala Leu Phe Glu Glu Phe Asn
435 440 445
Ala Glu Gly Ile Ser Tyr Arg Pro Gly Lys Pro Pro Val Glu Ser Asn
450 455 460
Thr Arg Pro Ser Val Val Ile Thr Gly Met Asp Cys Thr Phe Gly Ser
465 470 475 480
Leu Glu Gly Ile Asp Ala Phe Glu Thr Ala Leu Tyr Glu Gly Arg Asp
485 490 495
Ala Ala Arg Asp Leu Pro Ala Lys Arg Trp Arg Phe Leu Gly Glu Asp
500 505 510
Leu Glu Phe Leu Arg Ala Ile Arg Leu Lys Glu Lys Pro Arg Gly Cys
515 520 525
Phe Val Glu Ser Val Asp Val Asn Phe Arg Arg Leu Lys Thr Pro Leu
530 535 540
Thr Pro Glu Asp Met Leu Arg Pro Gln Gln Leu Leu Ala Val Ser Thr
545 550 555 560
Met Asp Arg Ala Ile Ile Asp Ala Gly Leu Lys Lys Gly Gln His Val
565 570 575
Ala Val Leu Val Gly Leu Gly Thr Asp Leu Glu Leu Tyr Arg His Arg
580 585 590
Ala Arg Val Ala Leu Lys Glu Val Leu His Pro Ser Leu Lys Ser Asp
595 600 605
Thr Ala Ile Leu Gln Lys Ile Met Gln Tyr Val Asn Asp Ala Gly Thr
610 615 620
Ser Thr Ser Tyr Thr Ser Tyr Ile Gly Asn Leu Val Ala Thr Arg Ile
625 630 635 640
Ser Ser Gln Trp Gly Phe Thr Gly Pro Ser Phe Thr Val Thr Glu Gly
645 650 655
Asn Asn Ser Val Tyr Arg Cys Ala Gln Leu Ala Lys Asp Met Leu Gln
660 665 670
Val Asn Arg Val Asp Ala Val Val Ile Ala Gly Val Asp Leu Asn Gly
675 680 685
Ser Ala Glu Ser Phe Phe Val Arg Ala Asn Arg Gln Lys Ile Ser Lys
690 695 700
Leu Ser His Pro Cys Ala Ser Phe Asp Arg Asp Ala Asp Gly Phe Phe
705 710 715 720
Ala Gly Glu Gly Cys Gly Ala Leu Val Phe Lys Arg Leu Glu Asp Cys
725 730 735
Ala Pro Gln Glu Lys Ile Tyr Ala Ser Ile Asp Ser Ile Ala Ile Asp
740 745 750
Lys Glu Pro Thr Ser Ser Ala Val Lys Ala Val Tyr Gln Ser Asp Ser
755 760 765
Ser Leu Ser Asp Ile Glu Leu Leu Glu Ile Ser Gly Asp Ser Lys Arg
770 775 780
Phe Ala Ala Phe Glu Gly Ala Val Glu Ile Gln Ser Ser Val Glu Ala
785 790 795 800
Gln Leu Lys Gly Leu Ser Lys Val Leu Glu Pro Ala Lys Gly Gln Gly
805 810 815
Val Ala Val Gly Ser Thr Arg Ala Thr Val Gly Asp Ile Gly Tyr Ala
820 825 830
Thr Gly Ala Ala Ser Leu Ile Lys Thr Ala Leu Cys Leu Tyr Asn Arg
835 840 845
Tyr Leu Pro Ala Leu Ala Asn Trp Ser Gly Pro Cys Glu Gln Ser Ala
850 855 860
Trp Gly Ser Asn Met Phe Val Cys His Glu Thr Arg Pro Trp Met Lys
865 870 875 880
Asn Gln Asn Glu Lys Arg Cys Ala Leu Ile Ser Gly Thr Asp Pro Ser
885 890 895
His Thr Cys Phe Ser Leu Val Leu Ser Asp Thr Gly Cys Tyr Glu Glu
900 905 910
His Asn Arg Thr Cys Phe Asp Val Gln Ala Pro Gln Leu Val Leu Ile
915 920 925
His Gly Phe Asp Gly Lys Thr Ile Val Arg Arg Leu Glu Gly Tyr Leu
930 935 940
Leu Glu Leu Val Glu Gly His Ala Ser Pro Ser Glu Tyr Phe His Lys
945 950 955 960
Leu Ile Gly Gln Ser Leu Leu Glu Asn Ser Lys Glu Ser Lys Leu Thr
965 970 975
Leu Ser Leu Val Cys Asn Pro Asn Gln Leu Gln Lys Glu Leu Met Leu
980 985 990
Ala Ile Lys Gly Val Gln Arg Ser Met Leu Thr Gly Lys Asp Trp Val
995 1000 1005
Ser Pro Ser Gly Ser Cys Phe Ala Pro Asn Pro Leu Ser Ser Ala
1010 1015 1020
Lys Val Ala Phe Met Tyr Gly Glu Gly Arg Ser Pro Tyr Cys Gly
1025 1030 1035
Val Gly Leu Gly Leu His Arg Leu Trp Pro Gly Leu His Glu Asn
1040 1045 1050
Val Asn Asn Lys Thr Val Asp Leu Trp Thr Glu Gly Asp Gly Trp
1055 1060 1065
Leu Tyr Pro Arg Thr Leu Thr Arg Glu Glu His Thr Lys Ala Ile
1070 1075 1080
Glu Ser Phe Asn Ala Asn Gln Ile Glu Met Phe Arg Ala Gly Ile
1085 1090 1095
Phe Ile Ser Met Cys Gln Thr Asp Tyr Val Met Asn Val Leu Gly
1100 1105 1110
Val Gln Pro Lys Ala Gly Phe Gly Leu Ser Leu Gly Glu Ile Ser
1115 1120 1125
Met Leu Phe Ala Met Ser Lys Glu Asn Cys Arg Gln Ser Gln Glu
1130 1135 1140
Met Thr Asn Arg Leu Arg Gly Ser Pro Val Trp Ser Asn Glu Leu
1145 1150 1155
Ala Ile Asn Phe Asn Ala Ile Arg Lys Leu Trp Lys Ile Pro Arg
1160 1165 1170
Gly Ala Pro Leu Glu Ser Phe Trp Gln Gly Tyr Leu Val His Gly
1175 1180 1185
Thr Arg Glu Glu Val Glu His Ala Ile Gly Leu Ser Glu Pro Tyr
1190 1195 1200
Val Arg Leu Leu Ile Val Asn Asp Ser Arg Ser Ala Leu Ile Ala
1205 1210 1215
Gly Lys Pro Asp Ala Cys Gln Ala Val Ile Ser Arg Leu Asn Ser
1220 1225 1230
Lys Phe Pro Ser Leu Pro Val Lys Gln Gly Met Ile Gly His Cys
1235 1240 1245
Pro Glu Val Arg Ala Phe Ile Lys Asp Ile Gly Tyr Ile His Glu
1250 1255 1260
Thr Leu Arg Ile Ser Asn Asp Tyr Ser Asp Cys Gln Leu Phe Ser
1265 1270 1275
Ala Val Thr Lys Gly Ala Leu Asp Ser Ser Thr Met Glu Ile Lys
1280 1285 1290
His Phe Val Gly Glu Val Tyr Ser Arg Ile Ala Asp Phe Pro Gln
1295 1300 1305
Ile Val Asn Thr Val His Ser Ala Gly Tyr Asp Val Phe Leu Glu
1310 1315 1320
Leu Gly Cys Asp Ala Ser Arg Ser Ala Ala Val Gln Asn Ile Leu
1325 1330 1335
Gly Gly Gln Gly Lys Phe Leu Ser Thr Ala Ile Asp Lys Lys Gly
1340 1345 1350
His Ser Ala Trp Ser Gln Val Leu Arg Ala Thr Ala Ser Leu Ala
1355 1360 1365
Ala His Arg Val Pro Gly Ile Ser Ile Leu Asp Leu Phe His Pro
1370 1375 1380
Asn Phe Arg Glu Met Cys Cys Thr Met Ala Thr Thr Pro Lys Val
1385 1390 1395
Glu Asp Lys Phe Leu Arg Thr Ile Gln Ile Asn Gly Arg Phe Glu
1400 1405 1410
Lys Glu Met Ile His Leu Glu Asp Thr Thr Leu Ser Cys Leu Pro
1415 1420 1425
Ala Pro Ser Glu Ala Asn Ile Ala Ala Ile Gln Ser Arg Ser Ile
1430 1435 1440
Arg Ser Ala Ala Ala Arg Ser Gly Gln Ser His Asp Cys Ala Ser
1445 1450 1455
His Ser His Glu Glu Asn Lys Asp Ser Cys Pro Glu Lys Leu Lys
1460 1465 1470
Leu Asp Ser Val Ser Val Ala Ile Asn Phe Asp Asn Asp Asp Arg
1475 1480 1485
Ile Gln Leu Gly His Ala Gly Phe Arg Glu Met Tyr Asn Thr Arg
1490 1495 1500
Tyr Ser Leu Tyr Thr Gly Ala Met Ala Lys Gly Ile Ala Ser Ala
1505 1510 1515
Asp Leu Val Ile Ala Ala Gly Lys Glu Gly Ile Leu Ala Ser Tyr
1520 1525 1530
Gly Ala Gly Gly Leu Pro Leu Ala Thr Val Arg Lys Gly Ile Asp
1535 1540 1545
Lys Ile Gln Gln Ala Leu Pro Ser Gly Pro Tyr Ala Val Asn Leu
1550 1555 1560
Ile His Ser Pro Phe Asp Gly Asn Leu Glu Gln Gly Asn Val Asp
1565 1570 1575
Leu Phe Leu Glu Lys Asn Val Arg Val Ala Glu Cys Ser Ala Phe
1580 1585 1590
Thr Thr Leu Thr Val Pro Val Val His Tyr Arg Ala Ala Gly Leu
1595 1600 1605
Val Arg Arg Gln Asp Gly Ser Ile Leu Ile Lys Asn Arg Ile Ile
1610 1615 1620
Ala Lys Val Ser Arg Thr Glu Leu Ala Glu Met Phe Leu Arg Pro
1625 1630 1635
Ala Pro Gln Ile Ile Leu Glu Lys Leu Val Ala Ala Glu Ile Ile
1640 1645 1650
Ser Ser Asp Gln Ala Arg Met Ala Ala Lys Val Pro Met Ala Asp
1655 1660 1665
Asp Ile Ala Val Glu Ala Asp Ser Gly Gly His Thr Asp Asn Arg
1670 1675 1680
Pro Met His Val Ile Leu Pro Leu Ile Ile Gln Leu Arg Asn Thr
1685 1690 1695
Ile Leu Ala Glu Tyr Gly Cys Ala Thr Ala Phe Arg Thr Arg Ile
1700 1705 1710
Gly Ala Gly Gly Gly Ile Gly Cys Pro Ser Ala Ala Leu Ala Ala
1715 1720 1725
Phe Asp Met Gly Ala Ser Phe Val Val Thr Gly Ser Ile Asn Gln
1730 1735 1740
Ile Cys Arg Glu Ala Gly Thr Cys Asp Thr Val Arg Glu Leu Leu
1745 1750 1755
Ala Asn Ser Ser Tyr Ser Asp Val Thr Met Ala Pro Ala Ala Asp
1760 1765 1770
Met Phe Asp Gln Gly Val Lys Leu Gln Val Leu Lys Arg Gly Thr
1775 1780 1785
Met Phe Pro Ser Arg Ala Asn Lys Leu Arg Lys Leu Phe Val Asn
1790 1795 1800
Tyr Glu Ser Leu Glu Thr Leu Pro Ser Lys Glu Leu Lys Tyr Leu
1805 1810 1815
Glu Asn Ile Ile Phe Lys Gln Ala Val Asp Gln Val Trp Glu Glu
1820 1825 1830
Thr Lys Arg Phe Tyr Cys Glu Lys Leu Asn Asn Pro Asp Lys Ile
1835 1840 1845
Ala Arg Ala Met Lys Asp Pro Lys Leu Lys Met Ser Leu Cys Phe
1850 1855 1860
Arg Trp Tyr Leu Ser Lys Ser Ser Gly Trp Ala Asn Ala Gly Ile
1865 1870 1875
Lys Ser Arg Ala Leu Asp Tyr Gln Ile Trp Cys Gly Pro Ala Met
1880 1885 1890
Gly Ser Phe Asn Asn Phe Ala Ser Gly Thr Ser Leu Asp Trp Lys
1895 1900 1905
Val Thr Gly Val Phe Pro Gly Val Ala Glu Val Asn Met Ala Ile
1910 1915 1920
Leu Asp Gly Ala Arg Glu Leu Ala Ala Lys Arg Asn
1925 1930 1935
<210> 53
<211> 1500
<212> DNA
<213> Thraustochytrium sp.
<220>
<221> CDS
<222> (1)..(1500)
<220>
<221> misc_feature
<222> (1)..(1500)
<223> n = a c t or g
<400> 53
atg caa ctt cct cca gcg cat tct gcc gat gag aat cgc atc gcg gtc 48
Met Gln Leu Pro Pro Ala His Ser Ala Asp Glu Asn Arg Ile Ala Val
1 5 10 15
gtg ggc atg gcc gtc aaa tat gcg ggc tgt gac aat aaa gaa gag ttt 96
Val Gly Met Ala Val Lys Tyr Ala Gly Cys Asp Asn Lys Glu Glu Phe
20 25 30
tgg aag act ttg atg aat ggt agt atc aat acc aag tcg att tcg gca 144
Trp Lys Thr Leu Met Asn Gly Ser Ile Asn Thr Lys Ser Ile Ser Ala
35 40 45
gca agg ttg ggc agc aat aag cgt gac gaa cac tat gtt cct gaa cga 192
Ala Arg Leu Gly Ser Asn Lys Arg Asp Glu His Tyr Val Pro Glu Arg
50 55 60
tcg aaa tat gca gat acg ttc tgt aac gaa agg tac ggt tgt atc cag 240
Ser Lys Tyr Ala Asp Thr Phe Cys Asn Glu Arg Tyr Gly Cys Ile Gln
65 70 75 80
caa ggt acg gat aat gag cat gac ctc ctc cta ggt ctt gct caa gaa 288
Gln Gly Thr Asp Asn Glu His Asp Leu Leu Leu Gly Leu Ala Gln Glu
85 90 95
gct ctc gct gac gct gcc ggg cgg atg gag aaa caa cct tcg gag gcg 336
Ala Leu Ala Asp Ala Ala Gly Arg Met Glu Lys Gln Pro Ser Glu Ala
100 105 110
ttc gat ctg gaa aat act ggc atc gtg agt ggg tgc tta tct ttt cca 384
Phe Asp Leu Glu Asn Thr Gly Ile Val Ser Gly Cys Leu Ser Phe Pro
115 120 125
atg gat aac ctg caa gga gag ttg ttg aac ttg tat caa agc cat gtg 432
Met Asp Asn Leu Gln Gly Glu Leu Leu Asn Leu Tyr Gln Ser His Val
130 135 140
gag aaa caa ctt cca cct agt gcc ttg gta gaa gcc gtg aag ctt tgg 480
Glu Lys Gln Leu Pro Pro Ser Ala Leu Val Glu Ala Val Lys Leu Trp
145 150 155 160
tct gag cga cag aaa tct acg aaa gca cat gca ggg gac aag cgc cgg 528
Ser Glu Arg Gln Lys Ser Thr Lys Ala His Ala Gly Asp Lys Arg Arg
165 170 175
ttc att gac cca gct tct ttt gta gct gat aaa ctg aac cta ggc cca 576
Phe Ile Asp Pro Ala Ser Phe Val Ala Asp Lys Leu Asn Leu Gly Pro
180 185 190
cta cat tat gcg atc gat gca gca tgc gct tct gca ttg tac gtg tta 624
Leu His Tyr Ala Ile Asp Ala Ala Cys Ala Ser Ala Leu Tyr Val Leu
195 200 205
aaa tta gct caa gac cac ctt gtt tca ggt gcc gtt gat atg atg tta 672
Lys Leu Ala Gln Asp His Leu Val Ser Gly Ala Val Asp Met Met Leu
210 215 220
tgt gga gcg acg tgc ttc cca gaa cca ttc ttc atc ttg tct ggg ttc 720
Cys Gly Ala Thr Cys Phe Pro Glu Pro Phe Phe Ile Leu Ser Gly Phe
225 230 235 240
tcg act ttt caa gcg atg cct gnt ggg gca gat gga gtc tca cta cct 768
Ser Thr Phe Gln Ala Met Pro Xaa Gly Ala Asp Gly Val Ser Leu Pro
245 250 255
ctc cat aaa acg agt gct ggg ctc act cca ggt gaa ggg ggg tcc att 816
Leu His Lys Thr Ser Ala Gly Leu Thr Pro Gly Glu Gly Gly Ser Ile
260 265 270
atg gtg ctc aag cga ctg aaa gac gct atc aga gat gga aat cac att 864
Met Val Leu Lys Arg Leu Lys Asp Ala Ile Arg Asp Gly Asn His Ile
275 280 285
tat ggt gtg ctc ctt gaa gca aat tta agt aac gca ggt tgt ggg ctt 912
Tyr Gly Val Leu Leu Glu Ala Asn Leu Ser Asn Ala Gly Cys Gly Leu
290 295 300
cca ctc agc ccg cac tta ccg agc gaa gaa tca tgt att cgt gat acc 960
Pro Leu Ser Pro His Leu Pro Ser Glu Glu Ser Cys Ile Arg Asp Thr
305 310 315 320
tac cgc cgt gct gga gtt gct gca gat caa agt att cag tat att gag 1008
Tyr Arg Arg Ala Gly Val Ala Ala Asp Gln Ser Ile Gln Tyr Ile Glu
325 330 335
tgc cac gct acg gga acc cct cga ggg gat gtc gtg gaa att gag gcg 1056
Cys His Ala Thr Gly Thr Pro Arg Gly Asp Val Val Glu Ile Glu Ala
340 345 350
gtt gaa aga gtt ttc aag aaa aac gtt cca cgc tta ggc tcg acg aaa 1104
Val Glu Arg Val Phe Lys Lys Asn Val Pro Arg Leu Gly Ser Thr Lys
355 360 365
gga aat ttt ggt cac tcg tta gtt gcg gct ggt ttc gca ggt atg gca 1152
Gly Asn Phe Gly His Ser Leu Val Ala Ala Gly Phe Ala Gly Met Ala
370 375 380
aag ctt ctt ctt gca atg gaa cat gga gtg att cct ccc aca cca ggt 1200
Lys Leu Leu Leu Ala Met Glu His Gly Val Ile Pro Pro Thr Pro Gly
385 390 395 400
ctt gat gct tcg aac cag gca agt gag cac gtt gtg aca aag gct atc 1248
Leu Asp Ala Ser Asn Gln Ala Ser Glu His Val Val Thr Lys Ala Ile
405 410 415
act tgg cct gag aca cat ggg gct cca aaa cga gct ggc ctt tca gca 1296
Thr Trp Pro Glu Thr His Gly Ala Pro Lys Arg Ala Gly Leu Ser Ala
420 425 430
ttt gga ttt ggt ggg act aat gcg cat gca ctc ttc gaa gag ttt aat 1344
Phe Gly Phe Gly Gly Thr Asn Ala His Ala Leu Phe Glu Glu Phe Asn
435 440 445
gcc gag ggc ata agt tat cgc cct gga aag cct cca gtc gaa tcg aat 1392
Ala Glu Gly Ile Ser Tyr Arg Pro Gly Lys Pro Pro Val Glu Ser Asn
450 455 460
acc cgt cct tcc gtc gta ata act ggg atg gac tgt acc ttt ggg agc 1440
Thr Arg Pro Ser Val Val Ile Thr Gly Met Asp Cys Thr Phe Gly Ser
465 470 475 480
ctt gaa ggg att gat gcg ttc gag act gcc ctg tac gag ggg cgt gac 1488
Leu Glu Gly Ile Asp Ala Phe Glu Thr Ala Leu Tyr Glu Gly Arg Asp
485 490 495
gca gct cgt gac 1500
Ala Ala Arg Asp
500
<210> 54
<211> 500
<212> PRT
<213> Thraustochytrium sp.
<220>
<221> misc_feature
<222> (248)..(248)
<223> The 'Xaa' at location 248 stands for Asp, Gly, Ala, or Val.
<400> 54
Met Gln Leu Pro Pro Ala His Ser Ala Asp Glu Asn Arg Ile Ala Val
1 5 10 15
Val Gly Met Ala Val Lys Tyr Ala Gly Cys Asp Asn Lys Glu Glu Phe
20 25 30
Trp Lys Thr Leu Met Asn Gly Ser Ile Asn Thr Lys Ser Ile Ser Ala
35 40 45
Ala Arg Leu Gly Ser Asn Lys Arg Asp Glu His Tyr Val Pro Glu Arg
50 55 60
Ser Lys Tyr Ala Asp Thr Phe Cys Asn Glu Arg Tyr Gly Cys Ile Gln
65 70 75 80
Gln Gly Thr Asp Asn Glu His Asp Leu Leu Leu Gly Leu Ala Gln Glu
85 90 95
Ala Leu Ala Asp Ala Ala Gly Arg Met Glu Lys Gln Pro Ser Glu Ala
100 105 110
Phe Asp Leu Glu Asn Thr Gly Ile Val Ser Gly Cys Leu Ser Phe Pro
115 120 125
Met Asp Asn Leu Gln Gly Glu Leu Leu Asn Leu Tyr Gln Ser His Val
130 135 140
Glu Lys Gln Leu Pro Pro Ser Ala Leu Val Glu Ala Val Lys Leu Trp
145 150 155 160
Ser Glu Arg Gln Lys Ser Thr Lys Ala His Ala Gly Asp Lys Arg Arg
165 170 175
Phe Ile Asp Pro Ala Ser Phe Val Ala Asp Lys Leu Asn Leu Gly Pro
180 185 190
Leu His Tyr Ala Ile Asp Ala Ala Cys Ala Ser Ala Leu Tyr Val Leu
195 200 205
Lys Leu Ala Gln Asp His Leu Val Ser Gly Ala Val Asp Met Met Leu
210 215 220
Cys Gly Ala Thr Cys Phe Pro Glu Pro Phe Phe Ile Leu Ser Gly Phe
225 230 235 240
Ser Thr Phe Gln Ala Met Pro Xaa Gly Ala Asp Gly Val Ser Leu Pro
245 250 255
Leu His Lys Thr Ser Ala Gly Leu Thr Pro Gly Glu Gly Gly Ser Ile
260 265 270
Met Val Leu Lys Arg Leu Lys Asp Ala Ile Arg Asp Gly Asn His Ile
275 280 285
Tyr Gly Val Leu Leu Glu Ala Asn Leu Ser Asn Ala Gly Cys Gly Leu
290 295 300
Pro Leu Ser Pro His Leu Pro Ser Glu Glu Ser Cys Ile Arg Asp Thr
305 310 315 320
Tyr Arg Arg Ala Gly Val Ala Ala Asp Gln Ser Ile Gln Tyr Ile Glu
325 330 335
Cys His Ala Thr Gly Thr Pro Arg Gly Asp Val Val Glu Ile Glu Ala
340 345 350
Val Glu Arg Val Phe Lys Lys Asn Val Pro Arg Leu Gly Ser Thr Lys
355 360 365
Gly Asn Phe Gly His Ser Leu Val Ala Ala Gly Phe Ala Gly Met Ala
370 375 380
Lys Leu Leu Leu Ala Met Glu His Gly Val Ile Pro Pro Thr Pro Gly
385 390 395 400
Leu Asp Ala Ser Asn Gln Ala Ser Glu His Val Val Thr Lys Ala Ile
405 410 415
Thr Trp Pro Glu Thr His Gly Ala Pro Lys Arg Ala Gly Leu Ser Ala
420 425 430
Phe Gly Phe Gly Gly Thr Asn Ala His Ala Leu Phe Glu Glu Phe Asn
435 440 445
Ala Glu Gly Ile Ser Tyr Arg Pro Gly Lys Pro Pro Val Glu Ser Asn
450 455 460
Thr Arg Pro Ser Val Val Ile Thr Gly Met Asp Cys Thr Phe Gly Ser
465 470 475 480
Leu Glu Gly Ile Asp Ala Phe Glu Thr Ala Leu Tyr Glu Gly Arg Asp
485 490 495
Ala Ala Arg Asp
500
<210> 55
<211> 1500
<212> DNA
<213> Thraustochytrium sp.
<220>
<221> CDS
<222> (1)..(1500)
<400> 55
tta ccc gcc aaa cgt tgg agg ttc cta ggt gag gac ttg gag ttt ctc 48
Leu Pro Ala Lys Arg Trp Arg Phe Leu Gly Glu Asp Leu Glu Phe Leu
1 5 10 15
cga gcc atc agg ctc aag gaa aag cct agg ggt tgt ttt gtg gag agt 96
Arg Ala Ile Arg Leu Lys Glu Lys Pro Arg Gly Cys Phe Val Glu Ser
20 25 30
gtt gac gtt aac ttt aga cgg ctg aaa acg ccc ttg aca cca gaa gat 144
Val Asp Val Asn Phe Arg Arg Leu Lys Thr Pro Leu Thr Pro Glu Asp
35 40 45
atg ttg cgg ccc caa caa ctc ttg gcg gtt tct acg atg gac cga gca 192
Met Leu Arg Pro Gln Gln Leu Leu Ala Val Ser Thr Met Asp Arg Ala
50 55 60
att atc gat gca ggt cta aag aag ggc caa cat gta gca gtt ctt gtt 240
Ile Ile Asp Ala Gly Leu Lys Lys Gly Gln His Val Ala Val Leu Val
65 70 75 80
ggc cta gga act gac ctg gaa ctt tac cgt cat cga gca aga gtc gcg 288
Gly Leu Gly Thr Asp Leu Glu Leu Tyr Arg His Arg Ala Arg Val Ala
85 90 95
ctt aaa gag gtt ttg cac ccg agc tta aag tca gac act gca att ctc 336
Leu Lys Glu Val Leu His Pro Ser Leu Lys Ser Asp Thr Ala Ile Leu
100 105 110
cag aaa ata atg caa tat gtg aat gat gca gga act tcg act tca tac 384
Gln Lys Ile Met Gln Tyr Val Asn Asp Ala Gly Thr Ser Thr Ser Tyr
115 120 125
aca tct tac att gga aac ctc gtt gcc acg cgt att tcg tct cag tgg 432
Thr Ser Tyr Ile Gly Asn Leu Val Ala Thr Arg Ile Ser Ser Gln Trp
130 135 140
gga ttc aca ggg ccg tcc ttt act gtc aca gaa gga aat aat tcc gtg 480
Gly Phe Thr Gly Pro Ser Phe Thr Val Thr Glu Gly Asn Asn Ser Val
145 150 155 160
tac aga tgt gca caa cta gcc aaa gat atg ctt cag gtt aac cga gtt 528
Tyr Arg Cys Ala Gln Leu Ala Lys Asp Met Leu Gln Val Asn Arg Val
165 170 175
gat gct gtc gtc atc gca ggc gtt gat ctc aac gga agc gcc gaa agt 576
Asp Ala Val Val Ile Ala Gly Val Asp Leu Asn Gly Ser Ala Glu Ser
180 185 190
ttt ttt gtc cga gca aat cgt caa aag ata tcc aag cta agt cat cca 624
Phe Phe Val Arg Ala Asn Arg Gln Lys Ile Ser Lys Leu Ser His Pro
195 200 205
tgt gca agc ttc gac aga gat gca gat gga ttt ttc gca ggt gag ggc 672
Cys Ala Ser Phe Asp Arg Asp Ala Asp Gly Phe Phe Ala Gly Glu Gly
210 215 220
tgt ggt gcc cta gtt ttc aag agg tta gaa gac tgt gct cct cag gaa 720
Cys Gly Ala Leu Val Phe Lys Arg Leu Glu Asp Cys Ala Pro Gln Glu
225 230 235 240
aaa att tat gct agt ata gac tct atc gca ata gat aaa gag cct act 768
Lys Ile Tyr Ala Ser Ile Asp Ser Ile Ala Ile Asp Lys Glu Pro Thr
245 250 255
agc tca gct gtg aaa gct gtc tac caa agt gat tcg agt ctc tcc gat 816
Ser Ser Ala Val Lys Ala Val Tyr Gln Ser Asp Ser Ser Leu Ser Asp
260 265 270
att gag ctg tta gaa atc agt gga gac tcc aaa cgg ttt gca gca ttc 864
Ile Glu Leu Leu Glu Ile Ser Gly Asp Ser Lys Arg Phe Ala Ala Phe
275 280 285
gaa ggc gct gtg gaa att caa tca agt gtg gaa gcc cag cta aaa gga 912
Glu Gly Ala Val Glu Ile Gln Ser Ser Val Glu Ala Gln Leu Lys Gly
290 295 300
ctt tcc aaa gtc ctt gaa cct gca aaa ggc caa ggc gta gcg gtg gga 960
Leu Ser Lys Val Leu Glu Pro Ala Lys Gly Gln Gly Val Ala Val Gly
305 310 315 320
agt act cga gca acc gtt ggg gat ata ggg tat gct aca gga gcg gca 1008
Ser Thr Arg Ala Thr Val Gly Asp Ile Gly Tyr Ala Thr Gly Ala Ala
325 330 335
agc ctg att aaa act gca ctc tgc tta tat aat cgc tac ctt ccg gca 1056
Ser Leu Ile Lys Thr Ala Leu Cys Leu Tyr Asn Arg Tyr Leu Pro Ala
340 345 350
tta gca aac tgg agt ggc cca tgt gaa cag tcc gcc tgg ggc tca aac 1104
Leu Ala Asn Trp Ser Gly Pro Cys Glu Gln Ser Ala Trp Gly Ser Asn
355 360 365
atg ttc gtt tgc cat gaa aca cgg ccg tgg atg aaa aac cag aat gaa 1152
Met Phe Val Cys His Glu Thr Arg Pro Trp Met Lys Asn Gln Asn Glu
370 375 380
aag aga tgt gcc ctc att tct gga aca gat cca tct cat aca tgc ttt 1200
Lys Arg Cys Ala Leu Ile Ser Gly Thr Asp Pro Ser His Thr Cys Phe
385 390 395 400
tcc ctc gta cta tcg gat act ggg tgt tat gaa gag cac aat cga acg 1248
Ser Leu Val Leu Ser Asp Thr Gly Cys Tyr Glu Glu His Asn Arg Thr
405 410 415
tgc ttt gat gtg caa gcg cca cag cta gtt ctg ata cac gga ttc gat 1296
Cys Phe Asp Val Gln Ala Pro Gln Leu Val Leu Ile His Gly Phe Asp
420 425 430
gga aaa act att gtg cgg cga ctt gaa gga tat ctc ctt gaa ctt gtt 1344
Gly Lys Thr Ile Val Arg Arg Leu Glu Gly Tyr Leu Leu Glu Leu Val
435 440 445
gaa ggg cat gca agc cct tca gag tat ttc cac aaa ctg att gga caa 1392
Glu Gly His Ala Ser Pro Ser Glu Tyr Phe His Lys Leu Ile Gly Gln
450 455 460
agt cta ctt gag aac tcg aaa gaa agt aaa ctc aca ctt tcg ctt gtg 1440
Ser Leu Leu Glu Asn Ser Lys Glu Ser Lys Leu Thr Leu Ser Leu Val
465 470 475 480
tgc aat ccg aac cag ctc caa aag gag ctc atg ctt gct atc aaa gga 1488
Cys Asn Pro Asn Gln Leu Gln Lys Glu Leu Met Leu Ala Ile Lys Gly
485 490 495
gta caa cga agc 1500
Val Gln Arg Ser
500
<210> 56
<211> 500
<212> PRT
<213> Thraustochytrium sp.
<400> 56
Leu Pro Ala Lys Arg Trp Arg Phe Leu Gly Glu Asp Leu Glu Phe Leu
1 5 10 15
Arg Ala Ile Arg Leu Lys Glu Lys Pro Arg Gly Cys Phe Val Glu Ser
20 25 30
Val Asp Val Asn Phe Arg Arg Leu Lys Thr Pro Leu Thr Pro Glu Asp
35 40 45
Met Leu Arg Pro Gln Gln Leu Leu Ala Val Ser Thr Met Asp Arg Ala
50 55 60
Ile Ile Asp Ala Gly Leu Lys Lys Gly Gln His Val Ala Val Leu Val
65 70 75 80
Gly Leu Gly Thr Asp Leu Glu Leu Tyr Arg His Arg Ala Arg Val Ala
85 90 95
Leu Lys Glu Val Leu His Pro Ser Leu Lys Ser Asp Thr Ala Ile Leu
100 105 110
Gln Lys Ile Met Gln Tyr Val Asn Asp Ala Gly Thr Ser Thr Ser Tyr
115 120 125
Thr Ser Tyr Ile Gly Asn Leu Val Ala Thr Arg Ile Ser Ser Gln Trp
130 135 140
Gly Phe Thr Gly Pro Ser Phe Thr Val Thr Glu Gly Asn Asn Ser Val
145 150 155 160
Tyr Arg Cys Ala Gln Leu Ala Lys Asp Met Leu Gln Val Asn Arg Val
165 170 175
Asp Ala Val Val Ile Ala Gly Val Asp Leu Asn Gly Ser Ala Glu Ser
180 185 190
Phe Phe Val Arg Ala Asn Arg Gln Lys Ile Ser Lys Leu Ser His Pro
195 200 205
Cys Ala Ser Phe Asp Arg Asp Ala Asp Gly Phe Phe Ala Gly Glu Gly
210 215 220
Cys Gly Ala Leu Val Phe Lys Arg Leu Glu Asp Cys Ala Pro Gln Glu
225 230 235 240
Lys Ile Tyr Ala Ser Ile Asp Ser Ile Ala Ile Asp Lys Glu Pro Thr
245 250 255
Ser Ser Ala Val Lys Ala Val Tyr Gln Ser Asp Ser Ser Leu Ser Asp
260 265 270
Ile Glu Leu Leu Glu Ile Ser Gly Asp Ser Lys Arg Phe Ala Ala Phe
275 280 285
Glu Gly Ala Val Glu Ile Gln Ser Ser Val Glu Ala Gln Leu Lys Gly
290 295 300
Leu Ser Lys Val Leu Glu Pro Ala Lys Gly Gln Gly Val Ala Val Gly
305 310 315 320
Ser Thr Arg Ala Thr Val Gly Asp Ile Gly Tyr Ala Thr Gly Ala Ala
325 330 335
Ser Leu Ile Lys Thr Ala Leu Cys Leu Tyr Asn Arg Tyr Leu Pro Ala
340 345 350
Leu Ala Asn Trp Ser Gly Pro Cys Glu Gln Ser Ala Trp Gly Ser Asn
355 360 365
Met Phe Val Cys His Glu Thr Arg Pro Trp Met Lys Asn Gln Asn Glu
370 375 380
Lys Arg Cys Ala Leu Ile Ser Gly Thr Asp Pro Ser His Thr Cys Phe
385 390 395 400
Ser Leu Val Leu Ser Asp Thr Gly Cys Tyr Glu Glu His Asn Arg Thr
405 410 415
Cys Phe Asp Val Gln Ala Pro Gln Leu Val Leu Ile His Gly Phe Asp
420 425 430
Gly Lys Thr Ile Val Arg Arg Leu Glu Gly Tyr Leu Leu Glu Leu Val
435 440 445
Glu Gly His Ala Ser Pro Ser Glu Tyr Phe His Lys Leu Ile Gly Gln
450 455 460
Ser Leu Leu Glu Asn Ser Lys Glu Ser Lys Leu Thr Leu Ser Leu Val
465 470 475 480
Cys Asn Pro Asn Gln Leu Gln Lys Glu Leu Met Leu Ala Ile Lys Gly
485 490 495
Val Gln Arg Ser
500
<210> 57
<211> 1500
<212> DNA
<213> Thraustochytrium sp.
<220>
<221> CDS
<222> (1)..(1500)
<400> 57
atg tta aca ggg aag gat tgg gtc agt cca tca gga agt tgt ttt gcc 48
Met Leu Thr Gly Lys Asp Trp Val Ser Pro Ser Gly Ser Cys Phe Ala
1 5 10 15
cca aat ccg tta tca agc gca aaa gtg gca ttc atg tac gga gaa ggc 96
Pro Asn Pro Leu Ser Ser Ala Lys Val Ala Phe Met Tyr Gly Glu Gly
20 25 30
cga agc ccg tac tgt ggt gta ggc ttg ggt cta cat cgt ttg tgg ccc 144
Arg Ser Pro Tyr Cys Gly Val Gly Leu Gly Leu His Arg Leu Trp Pro
35 40 45
ggt ctc cat gaa aat gtg aac aat aag aca gtc gat tta tgg acg gaa 192
Gly Leu His Glu Asn Val Asn Asn Lys Thr Val Asp Leu Trp Thr Glu
50 55 60
gga gat ggt tgg tta tat cct cga acg ttg aca cga gaa gag cat aca 240
Gly Asp Gly Trp Leu Tyr Pro Arg Thr Leu Thr Arg Glu Glu His Thr
65 70 75 80
aaa gcc atc gaa tct ttc aac gca aat caa att gaa atg ttt cgc gct 288
Lys Ala Ile Glu Ser Phe Asn Ala Asn Gln Ile Glu Met Phe Arg Ala
85 90 95
ggg att ttc atc tca atg tgt cag aca gac tat gtc atg aat gtt ctc 336
Gly Ile Phe Ile Ser Met Cys Gln Thr Asp Tyr Val Met Asn Val Leu
100 105 110
ggt gtc cag cct aag gcc gga ttt ggg ctg agc ttg gga gaa att tca 384
Gly Val Gln Pro Lys Ala Gly Phe Gly Leu Ser Leu Gly Glu Ile Ser
115 120 125
atg ctc ttt gcg atg tca aag gag aac tgc agg cag tca cag gaa atg 432
Met Leu Phe Ala Met Ser Lys Glu Asn Cys Arg Gln Ser Gln Glu Met
130 135 140
acc aat cgt ttg cgc ggt tct cca gtg tgg tct aac gag ctt gct atc 480
Thr Asn Arg Leu Arg Gly Ser Pro Val Trp Ser Asn Glu Leu Ala Ile
145 150 155 160
aac ttc aat gca att cgc aag tta tgg aaa atc ccc cga gga gct ccc 528
Asn Phe Asn Ala Ile Arg Lys Leu Trp Lys Ile Pro Arg Gly Ala Pro
165 170 175
tta gaa tcc ttt tgg caa gga tac ttg gtt cac ggc aca aga gaa gaa 576
Leu Glu Ser Phe Trp Gln Gly Tyr Leu Val His Gly Thr Arg Glu Glu
180 185 190
gta gag cat gct att ggt ctt tct gag cct tat gta cgt ctg ctt att 624
Val Glu His Ala Ile Gly Leu Ser Glu Pro Tyr Val Arg Leu Leu Ile
195 200 205
gtg aac gat tca agg agt gcc ttg att gct gga aaa cca gac gcc tgt 672
Val Asn Asp Ser Arg Ser Ala Leu Ile Ala Gly Lys Pro Asp Ala Cys
210 215 220
cag gca gta atc agt aga cta aac tcc aag ttc cct tct ctg ccg gta 720
Gln Ala Val Ile Ser Arg Leu Asn Ser Lys Phe Pro Ser Leu Pro Val
225 230 235 240
aag caa gga atg att ggt cat tgc cca gaa gtt cgt gcg ttc atc aaa 768
Lys Gln Gly Met Ile Gly His Cys Pro Glu Val Arg Ala Phe Ile Lys
245 250 255
gat att ggg tac atc cat gaa aca ctc cga att tcc aat gac tat tcg 816
Asp Ile Gly Tyr Ile His Glu Thr Leu Arg Ile Ser Asn Asp Tyr Ser
260 265 270
gat tgt cag ctt ttc tca gcg gta acc aag ggc gca ctt gac agc tcc 864
Asp Cys Gln Leu Phe Ser Ala Val Thr Lys Gly Ala Leu Asp Ser Ser
275 280 285
aca atg gaa atc aaa cac ttt gtg gga gag gtc tac tcc cgg atc gca 912
Thr Met Glu Ile Lys His Phe Val Gly Glu Val Tyr Ser Arg Ile Ala
290 295 300
gac ttt cct caa atc gtc aac acg gtg cat tcg gct ggt tat gac gta 960
Asp Phe Pro Gln Ile Val Asn Thr Val His Ser Ala Gly Tyr Asp Val
305 310 315 320
ttt ctt gag ctt ggc tgt gat gct tct aga tct gca gca gtt caa aac 1008
Phe Leu Glu Leu Gly Cys Asp Ala Ser Arg Ser Ala Ala Val Gln Asn
325 330 335
att ctt ggt ggt caa gga aag ttc ttg tct aca gct att gac aaa aaa 1056
Ile Leu Gly Gly Gln Gly Lys Phe Leu Ser Thr Ala Ile Asp Lys Lys
340 345 350
gga cac tcc gcc tgg tca caa gta ctt cgg gct acc gca tca tta gct 1104
Gly His Ser Ala Trp Ser Gln Val Leu Arg Ala Thr Ala Ser Leu Ala
355 360 365
gca cat cga gta ccg gga atc tca att ttg gat ttg ttt cac cca aat 1152
Ala His Arg Val Pro Gly Ile Ser Ile Leu Asp Leu Phe His Pro Asn
370 375 380
ttc cga gaa atg tgc tgt aca atg gca acc aca cct aaa gtg gaa gat 1200
Phe Arg Glu Met Cys Cys Thr Met Ala Thr Thr Pro Lys Val Glu Asp
385 390 395 400
aag ttc ctg cgc acg att caa atc aat ggt cgg ttt gaa aaa gaa atg 1248
Lys Phe Leu Arg Thr Ile Gln Ile Asn Gly Arg Phe Glu Lys Glu Met
405 410 415
att cac cta gaa gat aca aca tta agt tgc tta ccc gct cca agt gaa 1296
Ile His Leu Glu Asp Thr Thr Leu Ser Cys Leu Pro Ala Pro Ser Glu
420 425 430
gca aat atc gca gct att caa tct cgg tca att cga tct gct gcg gcg 1344
Ala Asn Ile Ala Ala Ile Gln Ser Arg Ser Ile Arg Ser Ala Ala Ala
435 440 445
cgt tct gga caa tcc cat gat tgt gca tcc cat agc cat gaa gaa aat 1392
Arg Ser Gly Gln Ser His Asp Cys Ala Ser His Ser His Glu Glu Asn
450 455 460
aag gat tca tgc cct gaa aag ctg aag ctt gat tct gtg tcc gtc gcc 1440
Lys Asp Ser Cys Pro Glu Lys Leu Lys Leu Asp Ser Val Ser Val Ala
465 470 475 480
ata aat ttc gac aat gat gac cgc att cag ctt ggg cac gcg ggt ttt 1488
Ile Asn Phe Asp Asn Asp Asp Arg Ile Gln Leu Gly His Ala Gly Phe
485 490 495
cgg gag atg tac 1500
Arg Glu Met Tyr
500
<210> 58
<211> 500
<212> PRT
<213> Thraustochytrium sp.
<400> 58
Met Leu Thr Gly Lys Asp Trp Val Ser Pro Ser Gly Ser Cys Phe Ala
1 5 10 15
Pro Asn Pro Leu Ser Ser Ala Lys Val Ala Phe Met Tyr Gly Glu Gly
20 25 30
Arg Ser Pro Tyr Cys Gly Val Gly Leu Gly Leu His Arg Leu Trp Pro
35 40 45
Gly Leu His Glu Asn Val Asn Asn Lys Thr Val Asp Leu Trp Thr Glu
50 55 60
Gly Asp Gly Trp Leu Tyr Pro Arg Thr Leu Thr Arg Glu Glu His Thr
65 70 75 80
Lys Ala Ile Glu Ser Phe Asn Ala Asn Gln Ile Glu Met Phe Arg Ala
85 90 95
Gly Ile Phe Ile Ser Met Cys Gln Thr Asp Tyr Val Met Asn Val Leu
100 105 110
Gly Val Gln Pro Lys Ala Gly Phe Gly Leu Ser Leu Gly Glu Ile Ser
115 120 125
Met Leu Phe Ala Met Ser Lys Glu Asn Cys Arg Gln Ser Gln Glu Met
130 135 140
Thr Asn Arg Leu Arg Gly Ser Pro Val Trp Ser Asn Glu Leu Ala Ile
145 150 155 160
Asn Phe Asn Ala Ile Arg Lys Leu Trp Lys Ile Pro Arg Gly Ala Pro
165 170 175
Leu Glu Ser Phe Trp Gln Gly Tyr Leu Val His Gly Thr Arg Glu Glu
180 185 190
Val Glu His Ala Ile Gly Leu Ser Glu Pro Tyr Val Arg Leu Leu Ile
195 200 205
Val Asn Asp Ser Arg Ser Ala Leu Ile Ala Gly Lys Pro Asp Ala Cys
210 215 220
Gln Ala Val Ile Ser Arg Leu Asn Ser Lys Phe Pro Ser Leu Pro Val
225 230 235 240
Lys Gln Gly Met Ile Gly His Cys Pro Glu Val Arg Ala Phe Ile Lys
245 250 255
Asp Ile Gly Tyr Ile His Glu Thr Leu Arg Ile Ser Asn Asp Tyr Ser
260 265 270
Asp Cys Gln Leu Phe Ser Ala Val Thr Lys Gly Ala Leu Asp Ser Ser
275 280 285
Thr Met Glu Ile Lys His Phe Val Gly Glu Val Tyr Ser Arg Ile Ala
290 295 300
Asp Phe Pro Gln Ile Val Asn Thr Val His Ser Ala Gly Tyr Asp Val
305 310 315 320
Phe Leu Glu Leu Gly Cys Asp Ala Ser Arg Ser Ala Ala Val Gln Asn
325 330 335
Ile Leu Gly Gly Gln Gly Lys Phe Leu Ser Thr Ala Ile Asp Lys Lys
340 345 350
Gly His Ser Ala Trp Ser Gln Val Leu Arg Ala Thr Ala Ser Leu Ala
355 360 365
Ala His Arg Val Pro Gly Ile Ser Ile Leu Asp Leu Phe His Pro Asn
370 375 380
Phe Arg Glu Met Cys Cys Thr Met Ala Thr Thr Pro Lys Val Glu Asp
385 390 395 400
Lys Phe Leu Arg Thr Ile Gln Ile Asn Gly Arg Phe Glu Lys Glu Met
405 410 415
Ile His Leu Glu Asp Thr Thr Leu Ser Cys Leu Pro Ala Pro Ser Glu
420 425 430
Ala Asn Ile Ala Ala Ile Gln Ser Arg Ser Ile Arg Ser Ala Ala Ala
435 440 445
Arg Ser Gly Gln Ser His Asp Cys Ala Ser His Ser His Glu Glu Asn
450 455 460
Lys Asp Ser Cys Pro Glu Lys Leu Lys Leu Asp Ser Val Ser Val Ala
465 470 475 480
Ile Asn Phe Asp Asn Asp Asp Arg Ile Gln Leu Gly His Ala Gly Phe
485 490 495
Arg Glu Met Tyr
500
<210> 59
<211> 1305
<212> DNA
<213> Thraustochytrium sp.
<220>
<221> CDS
<222> (1)..(1305)
<400> 59
aat aca aga tat agc ttg tac aca ggg gcg atg gca aag gga att gca 48
Asn Thr Arg Tyr Ser Leu Tyr Thr Gly Ala Met Ala Lys Gly Ile Ala
1 5 10 15
tct gca gat ctt gtc att gcc gct ggg aaa gag ggc atc cta gct tcc 96
Ser Ala Asp Leu Val Ile Ala Ala Gly Lys Glu Gly Ile Leu Ala Ser
20 25 30
tat gga gct gga gga cta cct ctt gct act gtt cga aag gga ata gac 144
Tyr Gly Ala Gly Gly Leu Pro Leu Ala Thr Val Arg Lys Gly Ile Asp
35 40 45
aaa att caa caa gcc ttg cca agt ggc cca tat gct gta aat ctt att 192
Lys Ile Gln Gln Ala Leu Pro Ser Gly Pro Tyr Ala Val Asn Leu Ile
50 55 60
cac tct ccc ttt gac ggc aac ttg gag cag gga aac gtc gat ttg ttc 240
His Ser Pro Phe Asp Gly Asn Leu Glu Gln Gly Asn Val Asp Leu Phe
65 70 75 80
ttg gaa aag aac gtc cgc gtg gcg gaa tgt tcc gcg ttt aca acg cta 288
Leu Glu Lys Asn Val Arg Val Ala Glu Cys Ser Ala Phe Thr Thr Leu
85 90 95
aca gtg cca gta gta cac tat cgt gct gca ggg ctt gtt cgg cgc caa 336
Thr Val Pro Val Val His Tyr Arg Ala Ala Gly Leu Val Arg Arg Gln
100 105 110
gat gga agc att ttg atc aag aac cga atc att gct aaa gta tct agg 384
Asp Gly Ser Ile Leu Ile Lys Asn Arg Ile Ile Ala Lys Val Ser Arg
115 120 125
aca gaa ctc gct gag atg ttc ctt cgt ccg gca cct caa atc atc ctc 432
Thr Glu Leu Ala Glu Met Phe Leu Arg Pro Ala Pro Gln Ile Ile Leu
130 135 140
gaa aaa ctg gta gca gca gaa atc att tca tct gac caa gcg cgt atg 480
Glu Lys Leu Val Ala Ala Glu Ile Ile Ser Ser Asp Gln Ala Arg Met
145 150 155 160
gca gcc aaa gtt ccc atg gcg gac gac atc gca gtc gaa gcc gac tct 528
Ala Ala Lys Val Pro Met Ala Asp Asp Ile Ala Val Glu Ala Asp Ser
165 170 175
ggt ggg cac acg gat aat cgg cct atg cac gtc att ttg ccc ctg ata 576
Gly Gly His Thr Asp Asn Arg Pro Met His Val Ile Leu Pro Leu Ile
180 185 190
att caa ctc cgc aat act ata ctt gca gag tat ggc tgt gcc acg gct 624
Ile Gln Leu Arg Asn Thr Ile Leu Ala Glu Tyr Gly Cys Ala Thr Ala
195 200 205
ttt cgt acc cgt ata ggc gct gga gga ggc att ggt tgt cct tca gcg 672
Phe Arg Thr Arg Ile Gly Ala Gly Gly Gly Ile Gly Cys Pro Ser Ala
210 215 220
gcc ctc gca gcc ttt gat atg ggt gcg agt ttt gtc gtg act gga agc 720
Ala Leu Ala Ala Phe Asp Met Gly Ala Ser Phe Val Val Thr Gly Ser
225 230 235 240
ata aat caa att tgc cgc gag gca ggg act tgc gat act gtt cgg gag 768
Ile Asn Gln Ile Cys Arg Glu Ala Gly Thr Cys Asp Thr Val Arg Glu
245 250 255
cta ctt gcc aac tca agc tac tcg gac gtg acg atg gcg cca gca gca 816
Leu Leu Ala Asn Ser Ser Tyr Ser Asp Val Thr Met Ala Pro Ala Ala
260 265 270
gac atg ttt gac caa ggt gtg aaa ctc caa gtc tta aaa cga gga acg 864
Asp Met Phe Asp Gln Gly Val Lys Leu Gln Val Leu Lys Arg Gly Thr
275 280 285
atg ttt cca agc aga gca aat aaa ctc cgg aag ctc ttt gtg aac tac 912
Met Phe Pro Ser Arg Ala Asn Lys Leu Arg Lys Leu Phe Val Asn Tyr
290 295 300
gaa tct cta gaa aca ctc ccg tcg aaa gag ttg aaa tac ctg gaa aac 960
Glu Ser Leu Glu Thr Leu Pro Ser Lys Glu Leu Lys Tyr Leu Glu Asn
305 310 315 320
atc ata ttc aag caa gca gta gac cag gtg tgg gag gaa aca aag cgc 1008
Ile Ile Phe Lys Gln Ala Val Asp Gln Val Trp Glu Glu Thr Lys Arg
325 330 335
ttt tac tgt gaa aaa ctg aac aat cca gat aaa att gca agg gcc atg 1056
Phe Tyr Cys Glu Lys Leu Asn Asn Pro Asp Lys Ile Ala Arg Ala Met
340 345 350
aaa gat cct aaa ttg aag atg tcg ctt tgc ttt cgg tgg tat ctc tcc 1104
Lys Asp Pro Lys Leu Lys Met Ser Leu Cys Phe Arg Trp Tyr Leu Ser
355 360 365
aag agc tct ggg tgg gcc aac gca gga att aaa tct cgt gca ctc gac 1152
Lys Ser Ser Gly Trp Ala Asn Ala Gly Ile Lys Ser Arg Ala Leu Asp
370 375 380
tac cag atc tgg tgt ggc ccg gca atg ggc tcg ttc aac aat ttc gcc 1200
Tyr Gln Ile Trp Cys Gly Pro Ala Met Gly Ser Phe Asn Asn Phe Ala
385 390 395 400
agc ggc aca tcc ctc gat tgg aaa gtg act ggg gtt ttc cct ggc gtt 1248
Ser Gly Thr Ser Leu Asp Trp Lys Val Thr Gly Val Phe Pro Gly Val
405 410 415
gcg gaa gta aac atg gcc att tta gat ggc gcg cga gaa cta gct gct 1296
Ala Glu Val Asn Met Ala Ile Leu Asp Gly Ala Arg Glu Leu Ala Ala
420 425 430
aaa cga aat 1305
Lys Arg Asn
435
<210> 60
<211> 435
<212> PRT
<213> Thraustochytrium sp.
<400> 60
Asn Thr Arg Tyr Ser Leu Tyr Thr Gly Ala Met Ala Lys Gly Ile Ala
1 5 10 15
Ser Ala Asp Leu Val Ile Ala Ala Gly Lys Glu Gly Ile Leu Ala Ser
20 25 30
Tyr Gly Ala Gly Gly Leu Pro Leu Ala Thr Val Arg Lys Gly Ile Asp
35 40 45
Lys Ile Gln Gln Ala Leu Pro Ser Gly Pro Tyr Ala Val Asn Leu Ile
50 55 60
His Ser Pro Phe Asp Gly Asn Leu Glu Gln Gly Asn Val Asp Leu Phe
65 70 75 80
Leu Glu Lys Asn Val Arg Val Ala Glu Cys Ser Ala Phe Thr Thr Leu
85 90 95
Thr Val Pro Val Val His Tyr Arg Ala Ala Gly Leu Val Arg Arg Gln
100 105 110
Asp Gly Ser Ile Leu Ile Lys Asn Arg Ile Ile Ala Lys Val Ser Arg
115 120 125
Thr Glu Leu Ala Glu Met Phe Leu Arg Pro Ala Pro Gln Ile Ile Leu
130 135 140
Glu Lys Leu Val Ala Ala Glu Ile Ile Ser Ser Asp Gln Ala Arg Met
145 150 155 160
Ala Ala Lys Val Pro Met Ala Asp Asp Ile Ala Val Glu Ala Asp Ser
165 170 175
Gly Gly His Thr Asp Asn Arg Pro Met His Val Ile Leu Pro Leu Ile
180 185 190
Ile Gln Leu Arg Asn Thr Ile Leu Ala Glu Tyr Gly Cys Ala Thr Ala
195 200 205
Phe Arg Thr Arg Ile Gly Ala Gly Gly Gly Ile Gly Cys Pro Ser Ala
210 215 220
Ala Leu Ala Ala Phe Asp Met Gly Ala Ser Phe Val Val Thr Gly Ser
225 230 235 240
Ile Asn Gln Ile Cys Arg Glu Ala Gly Thr Cys Asp Thr Val Arg Glu
245 250 255
Leu Leu Ala Asn Ser Ser Tyr Ser Asp Val Thr Met Ala Pro Ala Ala
260 265 270
Asp Met Phe Asp Gln Gly Val Lys Leu Gln Val Leu Lys Arg Gly Thr
275 280 285
Met Phe Pro Ser Arg Ala Asn Lys Leu Arg Lys Leu Phe Val Asn Tyr
290 295 300
Glu Ser Leu Glu Thr Leu Pro Ser Lys Glu Leu Lys Tyr Leu Glu Asn
305 310 315 320
Ile Ile Phe Lys Gln Ala Val Asp Gln Val Trp Glu Glu Thr Lys Arg
325 330 335
Phe Tyr Cys Glu Lys Leu Asn Asn Pro Asp Lys Ile Ala Arg Ala Met
340 345 350
Lys Asp Pro Lys Leu Lys Met Ser Leu Cys Phe Arg Trp Tyr Leu Ser
355 360 365
Lys Ser Ser Gly Trp Ala Asn Ala Gly Ile Lys Ser Arg Ala Leu Asp
370 375 380
Tyr Gln Ile Trp Cys Gly Pro Ala Met Gly Ser Phe Asn Asn Phe Ala
385 390 395 400
Ser Gly Thr Ser Leu Asp Trp Lys Val Thr Gly Val Phe Pro Gly Val
405 410 415
Ala Glu Val Asn Met Ala Ile Leu Asp Gly Ala Arg Glu Leu Ala Ala
420 425 430
Lys Arg Asn
435
<210> 61
<211> 4410
<212> DNA
<213> Thraustochytrium sp.
<220>
<221> CDS
<222> (1)..(4410)
<400> 61
atg ggc ccg cga gtg gcg tca ggc aag gtg ccg gct tgg gag atg agc 48
Met Gly Pro Arg Val Ala Ser Gly Lys Val Pro Ala Trp Glu Met Ser
1 5 10 15
aag tcc gag ctg tgt gat gac cgc acg gta gtc ttt gac tat gag gag 96
Lys Ser Glu Leu Cys Asp Asp Arg Thr Val Val Phe Asp Tyr Glu Glu
20 25 30
ctg ctg gag ttc gct gag ggc gat atc agt aag gtt ttt ggg ccg gag 144
Leu Leu Glu Phe Ala Glu Gly Asp Ile Ser Lys Val Phe Gly Pro Glu
35 40 45
ttc aaa gtg gtg gac ggg ttt agg cgc agg gtg agg ttg ccc gct cga 192
Phe Lys Val Val Asp Gly Phe Arg Arg Arg Val Arg Leu Pro Ala Arg
50 55 60
gag tac ctg ctg gtg acc cgg gtt acg ctg atg gat gcc gag gtg ggc 240
Glu Tyr Leu Leu Val Thr Arg Val Thr Leu Met Asp Ala Glu Val Gly
65 70 75 80
aac ttt cga gtg gga gca cgt atg gtg aca gag tat gac gta cct gtg 288
Asn Phe Arg Val Gly Ala Arg Met Val Thr Glu Tyr Asp Val Pro Val
85 90 95
aac gga gag ctc tcg gaa ggg gga gat gtg ccg tgg gct gtg ttg gtg 336
Asn Gly Glu Leu Ser Glu Gly Gly Asp Val Pro Trp Ala Val Leu Val
100 105 110
gaa gcc ggg cag tgc gac ttg ctg cta att tct tac atg ggc atc gat 384
Glu Ala Gly Gln Cys Asp Leu Leu Leu Ile Ser Tyr Met Gly Ile Asp
115 120 125
ttc cag tgc aaa gga gag cgg gtc tac cgg ctg ctg aac acc acc ttg 432
Phe Gln Cys Lys Gly Glu Arg Val Tyr Arg Leu Leu Asn Thr Thr Leu
130 135 140
acg ttt ttt ggc gtc gcg aaa gaa ggg gaa acg ctt gtg tac gat att 480
Thr Phe Phe Gly Val Ala Lys Glu Gly Glu Thr Leu Val Tyr Asp Ile
145 150 155 160
cgc gtc acg ggt ttc gcc aag agg ccg gac gga gat atc tcc atg ttc 528
Arg Val Thr Gly Phe Ala Lys Arg Pro Asp Gly Asp Ile Ser Met Phe
165 170 175
ttt ttc gaa tat gat tgc tac tgc aat ggc aag ctt ctc atc gaa atg 576
Phe Phe Glu Tyr Asp Cys Tyr Cys Asn Gly Lys Leu Leu Ile Glu Met
180 185 190
cga gat ggc tct gca ggc ttc ttc acg gac gaa gag ctc gct gcc ggc 624
Arg Asp Gly Ser Ala Gly Phe Phe Thr Asp Glu Glu Leu Ala Ala Gly
195 200 205
aaa gga gtg gtc gtc act cgt gca cag caa aac atg cgg gac aaa att 672
Lys Gly Val Val Val Thr Arg Ala Gln Gln Asn Met Arg Asp Lys Ile
210 215 220
gta cgg cag tcc att gag cct ttt gca ctg gcg gct tgc acg cac aaa 720
Val Arg Gln Ser Ile Glu Pro Phe Ala Leu Ala Ala Cys Thr His Lys
225 230 235 240
acg act ctg aac gag agt gac atg cag tcc ctt gtg gag cga aac tgg 768
Thr Thr Leu Asn Glu Ser Asp Met Gln Ser Leu Val Glu Arg Asn Trp
245 250 255
gca aac gtt ttt ggc acc agt aac aag atg gcg gag ctc aac tat aaa 816
Ala Asn Val Phe Gly Thr Ser Asn Lys Met Ala Glu Leu Asn Tyr Lys
260 265 270
att tgc gcc agg aaa atg ctc atg atc gac agg gtt acc cac att gac 864
Ile Cys Ala Arg Lys Met Leu Met Ile Asp Arg Val Thr His Ile Asp
275 280 285
cac cac ggt ggg gcg tat ggc ctc gga cta ctt gtt gga gag aag atc 912
His His Gly Gly Ala Tyr Gly Leu Gly Leu Leu Val Gly Glu Lys Ile
290 295 300
ttg gat cga aac cat tgg tac ttt cct tgt cac ttt gtc aat gat caa 960
Leu Asp Arg Asn His Trp Tyr Phe Pro Cys His Phe Val Asn Asp Gln
305 310 315 320
gtc atg gca ggg tca ctg gtc agc gat ggt tgc agc cag ctc tta aaa 1008
Val Met Ala Gly Ser Leu Val Ser Asp Gly Cys Ser Gln Leu Leu Lys
325 330 335
ctc tat atg atc tgg ctt ggc ctc cac ctg aaa atg gag gaa ttt gat 1056
Leu Tyr Met Ile Trp Leu Gly Leu His Leu Lys Met Glu Glu Phe Asp
340 345 350
ttt ctc cca gtt agc ggc cac aaa aac aag gtg cga tgc agg gga caa 1104
Phe Leu Pro Val Ser Gly His Lys Asn Lys Val Arg Cys Arg Gly Gln
355 360 365
att tca ccg cat aaa ggc aag ctt gtc tac gtc atg gaa atc aaa aag 1152
Ile Ser Pro His Lys Gly Lys Leu Val Tyr Val Met Glu Ile Lys Lys
370 375 380
atg ggt tac gat caa gca tct gga agc cca tac gcc atc gcg gac gtt 1200
Met Gly Tyr Asp Gln Ala Ser Gly Ser Pro Tyr Ala Ile Ala Asp Val
385 390 395 400
gat atc att gac gtc aac gaa gag ctg ggt caa agt ttt gac atc aac 1248
Asp Ile Ile Asp Val Asn Glu Glu Leu Gly Gln Ser Phe Asp Ile Asn
405 410 415
gac ctt gcg agc tac gga aaa ggt gac ctg agc aaa aaa atc gtg gtt 1296
Asp Leu Ala Ser Tyr Gly Lys Gly Asp Leu Ser Lys Lys Ile Val Val
420 425 430
gac ttc aaa gga att gct ttg cag ctc aaa ggc cgc gct ttt tca cgc 1344
Asp Phe Lys Gly Ile Ala Leu Gln Leu Lys Gly Arg Ala Phe Ser Arg
435 440 445
atg agt tcc agc tcg tcc ttg aac gaa gga tgg caa tgt gtt cca aaa 1392
Met Ser Ser Ser Ser Ser Leu Asn Glu Gly Trp Gln Cys Val Pro Lys
450 455 460
cca agc cag aga atg gaa cac gaa cag ccc cct gct cac tgc ctt gca 1440
Pro Ser Gln Arg Met Glu His Glu Gln Pro Pro Ala His Cys Leu Ala
465 470 475 480
agc gac ccc gaa gcc cct tca act gtg acc tgg cac cca atg tca aag 1488
Ser Asp Pro Glu Ala Pro Ser Thr Val Thr Trp His Pro Met Ser Lys
485 490 495
ctt cct ggc aac cct acg ccg ttc ttc tcc cct tca tct tac cct ccg 1536
Leu Pro Gly Asn Pro Thr Pro Phe Phe Ser Pro Ser Ser Tyr Pro Pro
500 505 510
agg gca att tgc ttc atc cct ttc ccg ggc aat ccc ctt gac aac aac 1584
Arg Ala Ile Cys Phe Ile Pro Phe Pro Gly Asn Pro Leu Asp Asn Asn
515 520 525
tgc aag gct gga gaa atg ccc ctg aac tgg tac aac atg tca gag ttc 1632
Cys Lys Ala Gly Glu Met Pro Leu Asn Trp Tyr Asn Met Ser Glu Phe
530 535 540
atg tgt ggc aag gtt tct aac tgc ttg ggc cca gaa ttc gca cgc ttt 1680
Met Cys Gly Lys Val Ser Asn Cys Leu Gly Pro Glu Phe Ala Arg Phe
545 550 555 560
gac aag tcg aac acc agc cgg agc cct gct ttt gac ttg gct ctg gtg 1728
Asp Lys Ser Asn Thr Ser Arg Ser Pro Ala Phe Asp Leu Ala Leu Val
565 570 575
acc cga gtt gtt gaa gtc aca aac atg gaa cac ggc aag ttt cta aac 1776
Thr Arg Val Val Glu Val Thr Asn Met Glu His Gly Lys Phe Leu Asn
580 585 590
gtt gat tgc aat cca agc aaa ggc aca atg gtg ggg gag ttt gac tgt 1824
Val Asp Cys Asn Pro Ser Lys Gly Thr Met Val Gly Glu Phe Asp Cys
595 600 605
ccc caa gac gcg tgg ttc ttt gat ggt tcg tgc aac gac ggc cat atg 1872
Pro Gln Asp Ala Trp Phe Phe Asp Gly Ser Cys Asn Asp Gly His Met
610 615 620
ccg tat tcc att atc atg gaa atc gga ctg caa acc tca ggt gtt ctc 1920
Pro Tyr Ser Ile Ile Met Glu Ile Gly Leu Gln Thr Ser Gly Val Leu
625 630 635 640
acc tcg gtg ttg aag gca ccg ctg act atg gac aag gat gac att ctc 1968
Thr Ser Val Leu Lys Ala Pro Leu Thr Met Asp Lys Asp Asp Ile Leu
645 650 655
ttt cga aac ctc gat gca agt gct gaa atg gtg cgt cca gac gtg gat 2016
Phe Arg Asn Leu Asp Ala Ser Ala Glu Met Val Arg Pro Asp Val Asp
660 665 670
gtt cgc ggc aaa acg att cga aac gtg acc aag tgt acc ggc tat gca 2064
Val Arg Gly Lys Thr Ile Arg Asn Val Thr Lys Cys Thr Gly Tyr Ala
675 680 685
atg ttg gga aag atg ggg att cac cgg ttc acg ttt gag ttg agc gtt 2112
Met Leu Gly Lys Met Gly Ile His Arg Phe Thr Phe Glu Leu Ser Val
690 695 700
gac ggc gtg gta ttt tat aaa gga tcc act tcc ttt gga tgg ttc act 2160
Asp Gly Val Val Phe Tyr Lys Gly Ser Thr Ser Phe Gly Trp Phe Thr
705 710 715 720
ccc gag gtg ttt gct cag caa gct gga ctc gac aac ggg aaa aag acg 2208
Pro Glu Val Phe Ala Gln Gln Ala Gly Leu Asp Asn Gly Lys Lys Thr
725 730 735
gag ccc tgg tgc aag act aac aac acc tcg gtt cga aga gtt gaa atc 2256
Glu Pro Trp Cys Lys Thr Asn Asn Thr Ser Val Arg Arg Val Glu Ile
740 745 750
gca tcc gcc aaa gga aaa gag cag ctg act gag aag ctt ccc gac gca 2304
Ala Ser Ala Lys Gly Lys Glu Gln Leu Thr Glu Lys Leu Pro Asp Ala
755 760 765
act aat gct caa gtt ctt cgg cgt tca gag cag tgt gaa tac ctc gat 2352
Thr Asn Ala Gln Val Leu Arg Arg Ser Glu Gln Cys Glu Tyr Leu Asp
770 775 780
tac ctc aat att gcc cct gac tct ggg ctg cat ggg aag ggc tac gcc 2400
Tyr Leu Asn Ile Ala Pro Asp Ser Gly Leu His Gly Lys Gly Tyr Ala
785 790 795 800
cac gga cac aaa gac gtt aac ccg caa gac tgg ttc ttc tct tgc cac 2448
His Gly His Lys Asp Val Asn Pro Gln Asp Trp Phe Phe Ser Cys His
805 810 815
ttt tgg ttc gat cct gta atg cca gga tct tta gga att gaa tca atg 2496
Phe Trp Phe Asp Pro Val Met Pro Gly Ser Leu Gly Ile Glu Ser Met
820 825 830
ttc cag ctt atc gag gcc ttt gcg gtg gac caa aac att cct gga gag 2544
Phe Gln Leu Ile Glu Ala Phe Ala Val Asp Gln Asn Ile Pro Gly Glu
835 840 845
tac aac gta tcc aat ccg acc ttt gcc cat gca cca ggc aaa acg gcg 2592
Tyr Asn Val Ser Asn Pro Thr Phe Ala His Ala Pro Gly Lys Thr Ala
850 855 860
tgg aaa tac cga ggc cag ctc aca cca aag aac cgt gcg atg gac tgc 2640
Trp Lys Tyr Arg Gly Gln Leu Thr Pro Lys Asn Arg Ala Met Asp Cys
865 870 875 880
gag gtg cat atc gtt tca att acc gcc tcc ccc gag aac ggg ggc tac 2688
Glu Val His Ile Val Ser Ile Thr Ala Ser Pro Glu Asn Gly Gly Tyr
885 890 895
gtt gac atc gtg gcc gat gga gcg ctt tgg gta gat gga ctt cgc gtg 2736
Val Asp Ile Val Ala Asp Gly Ala Leu Trp Val Asp Gly Leu Arg Val
900 905 910
tac gaa gcc aaa gag ctt cga gtt cgt gtc gtt tcg gca aaa cct caa 2784
Tyr Glu Ala Lys Glu Leu Arg Val Arg Val Val Ser Ala Lys Pro Gln
915 920 925
gca att ccg gat gta caa caa cag cca cct agc gca aag gcg gac ccg 2832
Ala Ile Pro Asp Val Gln Gln Gln Pro Pro Ser Ala Lys Ala Asp Pro
930 935 940
ggg aaa aca gga gtt gca ctt tcg ccc act cag cta cgc gac gtc ctg 2880
Gly Lys Thr Gly Val Ala Leu Ser Pro Thr Gln Leu Arg Asp Val Leu
945 950 955 960
ctt gaa gtg gac aat cca ttg tat ctt ggt gta gag aac tcc aat ttg 2928
Leu Glu Val Asp Asn Pro Leu Tyr Leu Gly Val Glu Asn Ser Asn Leu
965 970 975
gtg cag ttt gag tcg aaa cct gca act tct tca cgt atc gtt tcg atc 2976
Val Gln Phe Glu Ser Lys Pro Ala Thr Ser Ser Arg Ile Val Ser Ile
980 985 990
aaa ccg tgc tcg att agt gac ctt ggc gat aag tct ttt atg gaa acg 3024
Lys Pro Cys Ser Ile Ser Asp Leu Gly Asp Lys Ser Phe Met Glu Thr
995 1000 1005
tac aac gtg tca gca cct ctg tat act gga gca atg gcc aag ggc 3069
Tyr Asn Val Ser Ala Pro Leu Tyr Thr Gly Ala Met Ala Lys Gly
1010 1015 1020
att gca tcc gcc gac ttg gtc att gct gct ggg aaa cgc aag ata 3114
Ile Ala Ser Ala Asp Leu Val Ile Ala Ala Gly Lys Arg Lys Ile
1025 1030 1035
ctt gga tcg ttt ggt gcg gga ggg ctg cct att tcc ata gtc cgt 3159
Leu Gly Ser Phe Gly Ala Gly Gly Leu Pro Ile Ser Ile Val Arg
1040 1045 1050
gaa gca ctg gag aaa att caa caa cac ctg ccc cac ggc ccc tac 3204
Glu Ala Leu Glu Lys Ile Gln Gln His Leu Pro His Gly Pro Tyr
1055 1060 1065
gct gtt aac ctc att cac tcg cct ttc gac agc aac ttg gaa aag 3249
Ala Val Asn Leu Ile His Ser Pro Phe Asp Ser Asn Leu Glu Lys
1070 1075 1080
ggc aac gtt gac ctc ttt ctc gag atg ggc gtg aca gtg gta gaa 3294
Gly Asn Val Asp Leu Phe Leu Glu Met Gly Val Thr Val Val Glu
1085 1090 1095
tgc agc gcg ttc atg gaa ctc acg gcc cag gtt gtc cgg tac cgc 3339
Cys Ser Ala Phe Met Glu Leu Thr Ala Gln Val Val Arg Tyr Arg
1100 1105 1110
gcg tct ggt cta agc aaa agt gcg gac ggt tcg att cgc att gct 3384
Ala Ser Gly Leu Ser Lys Ser Ala Asp Gly Ser Ile Arg Ile Ala
1115 1120 1125
cac cgt att att ggc aag gtt tcc aga acc gag ctg gca gaa atg 3429
His Arg Ile Ile Gly Lys Val Ser Arg Thr Glu Leu Ala Glu Met
1130 1135 1140
ttt att cgt cca gca cca cag cac ctc ctc caa aaa ctc gta gcc 3474
Phe Ile Arg Pro Ala Pro Gln His Leu Leu Gln Lys Leu Val Ala
1145 1150 1155
tcc ggc gag ctg aca gct gag caa gcc gag ctt gca aca cag gtt 3519
Ser Gly Glu Leu Thr Ala Glu Gln Ala Glu Leu Ala Thr Gln Val
1160 1165 1170
ccg gtg gcg gat gac att gcg gtc gaa gcc gac tcg ggg ggg cat 3564
Pro Val Ala Asp Asp Ile Ala Val Glu Ala Asp Ser Gly Gly His
1175 1180 1185
acc gac aac agg cct att cac gtc att ctt cct cta atc atc aac 3609
Thr Asp Asn Arg Pro Ile His Val Ile Leu Pro Leu Ile Ile Asn
1190 1195 1200
cta cgc aac cgt ttg cat aaa gag ctt gac tac cct tcg cat ctc 3654
Leu Arg Asn Arg Leu His Lys Glu Leu Asp Tyr Pro Ser His Leu
1205 1210 1215
cgg gta cgt gtg ggt gct ggt ggt ggt att gga tgt cct caa gcc 3699
Arg Val Arg Val Gly Ala Gly Gly Gly Ile Gly Cys Pro Gln Ala
1220 1225 1230
gct ctt gca gca ttt caa atg ggg gca gcg ttt tta atc act gga 3744
Ala Leu Ala Ala Phe Gln Met Gly Ala Ala Phe Leu Ile Thr Gly
1235 1240 1245
acg gtg aac cag ctt gct cgt gaa agt ggc act tgt gac aac gtc 3789
Thr Val Asn Gln Leu Ala Arg Glu Ser Gly Thr Cys Asp Asn Val
1250 1255 1260
cgg tta cag ctc tca aag gcc acg tat agc gac gtg tgt atg gct 3834
Arg Leu Gln Leu Ser Lys Ala Thr Tyr Ser Asp Val Cys Met Ala
1265 1270 1275
cct gct gcc gat atg ttt gac caa ggc gtg gag ctg caa gta ttg 3879
Pro Ala Ala Asp Met Phe Asp Gln Gly Val Glu Leu Gln Val Leu
1280 1285 1290
aag aaa ggc acg ctg ttc cca agt cgt gct aag aag ctg tac gag 3924
Lys Lys Gly Thr Leu Phe Pro Ser Arg Ala Lys Lys Leu Tyr Glu
1295 1300 1305
ctg ttc tgc aag tat gac tcg ttt gag gca atg ccg gct gaa gaa 3969
Leu Phe Cys Lys Tyr Asp Ser Phe Glu Ala Met Pro Ala Glu Glu
1310 1315 1320
ttg caa cgg gtt gaa aag cgg att ttt caa aag tcg ctt gct gaa 4014
Leu Gln Arg Val Glu Lys Arg Ile Phe Gln Lys Ser Leu Ala Glu
1325 1330 1335
gtt tgg cag gag acc agt gac ttt tac att cat cgt atc aag aac 4059
Val Trp Gln Glu Thr Ser Asp Phe Tyr Ile His Arg Ile Lys Asn
1340 1345 1350
cct gag aaa atc aat cgt gct gca agc gat ggc aaa ctg aaa atg 4104
Pro Glu Lys Ile Asn Arg Ala Ala Ser Asp Gly Lys Leu Lys Met
1355 1360 1365
tcg ctt tgc ttt cgc tgg tac ctt ggg ctt tcc tca ttt tgg gcc 4149
Ser Leu Cys Phe Arg Trp Tyr Leu Gly Leu Ser Ser Phe Trp Ala
1370 1375 1380
aac tct ggg gca caa gat cgc gtc atg gac tat caa att tgg tgt 4194
Asn Ser Gly Ala Gln Asp Arg Val Met Asp Tyr Gln Ile Trp Cys
1385 1390 1395
ggc cct gct att ggc gct ttc aat gat ttt acc aag ggc acg tac 4239
Gly Pro Ala Ile Gly Ala Phe Asn Asp Phe Thr Lys Gly Thr Tyr
1400 1405 1410
ctt gac gtg act gtt gca aag agt tac cct tgt gtg gca cag atc 4284
Leu Asp Val Thr Val Ala Lys Ser Tyr Pro Cys Val Ala Gln Ile
1415 1420 1425
aat ttg caa att ttg caa gga gct gcg tat ctg aaa cgc ctt ggt 4329
Asn Leu Gln Ile Leu Gln Gly Ala Ala Tyr Leu Lys Arg Leu Gly
1430 1435 1440
gtc att cgt ttt gac cgc atg ctg ctg cag gcc gtc gat atc gac 4374
Val Ile Arg Phe Asp Arg Met Leu Leu Gln Ala Val Asp Ile Asp
1445 1450 1455
gat cct gta ttt act tac gtg ccg acc cag cca ctt 4410
Asp Pro Val Phe Thr Tyr Val Pro Thr Gln Pro Leu
1460 1465 1470
<210> 62
<211> 1470
<212> PRT
<213> Thraustochytrium sp.
<400> 62
Met Gly Pro Arg Val Ala Ser Gly Lys Val Pro Ala Trp Glu Met Ser
1 5 10 15
Lys Ser Glu Leu Cys Asp Asp Arg Thr Val Val Phe Asp Tyr Glu Glu
20 25 30
Leu Leu Glu Phe Ala Glu Gly Asp Ile Ser Lys Val Phe Gly Pro Glu
35 40 45
Phe Lys Val Val Asp Gly Phe Arg Arg Arg Val Arg Leu Pro Ala Arg
50 55 60
Glu Tyr Leu Leu Val Thr Arg Val Thr Leu Met Asp Ala Glu Val Gly
65 70 75 80
Asn Phe Arg Val Gly Ala Arg Met Val Thr Glu Tyr Asp Val Pro Val
85 90 95
Asn Gly Glu Leu Ser Glu Gly Gly Asp Val Pro Trp Ala Val Leu Val
100 105 110
Glu Ala Gly Gln Cys Asp Leu Leu Leu Ile Ser Tyr Met Gly Ile Asp
115 120 125
Phe Gln Cys Lys Gly Glu Arg Val Tyr Arg Leu Leu Asn Thr Thr Leu
130 135 140
Thr Phe Phe Gly Val Ala Lys Glu Gly Glu Thr Leu Val Tyr Asp Ile
145 150 155 160
Arg Val Thr Gly Phe Ala Lys Arg Pro Asp Gly Asp Ile Ser Met Phe
165 170 175
Phe Phe Glu Tyr Asp Cys Tyr Cys Asn Gly Lys Leu Leu Ile Glu Met
180 185 190
Arg Asp Gly Ser Ala Gly Phe Phe Thr Asp Glu Glu Leu Ala Ala Gly
195 200 205
Lys Gly Val Val Val Thr Arg Ala Gln Gln Asn Met Arg Asp Lys Ile
210 215 220
Val Arg Gln Ser Ile Glu Pro Phe Ala Leu Ala Ala Cys Thr His Lys
225 230 235 240
Thr Thr Leu Asn Glu Ser Asp Met Gln Ser Leu Val Glu Arg Asn Trp
245 250 255
Ala Asn Val Phe Gly Thr Ser Asn Lys Met Ala Glu Leu Asn Tyr Lys
260 265 270
Ile Cys Ala Arg Lys Met Leu Met Ile Asp Arg Val Thr His Ile Asp
275 280 285
His His Gly Gly Ala Tyr Gly Leu Gly Leu Leu Val Gly Glu Lys Ile
290 295 300
Leu Asp Arg Asn His Trp Tyr Phe Pro Cys His Phe Val Asn Asp Gln
305 310 315 320
Val Met Ala Gly Ser Leu Val Ser Asp Gly Cys Ser Gln Leu Leu Lys
325 330 335
Leu Tyr Met Ile Trp Leu Gly Leu His Leu Lys Met Glu Glu Phe Asp
340 345 350
Phe Leu Pro Val Ser Gly His Lys Asn Lys Val Arg Cys Arg Gly Gln
355 360 365
Ile Ser Pro His Lys Gly Lys Leu Val Tyr Val Met Glu Ile Lys Lys
370 375 380
Met Gly Tyr Asp Gln Ala Ser Gly Ser Pro Tyr Ala Ile Ala Asp Val
385 390 395 400
Asp Ile Ile Asp Val Asn Glu Glu Leu Gly Gln Ser Phe Asp Ile Asn
405 410 415
Asp Leu Ala Ser Tyr Gly Lys Gly Asp Leu Ser Lys Lys Ile Val Val
420 425 430
Asp Phe Lys Gly Ile Ala Leu Gln Leu Lys Gly Arg Ala Phe Ser Arg
435 440 445
Met Ser Ser Ser Ser Ser Leu Asn Glu Gly Trp Gln Cys Val Pro Lys
450 455 460
Pro Ser Gln Arg Met Glu His Glu Gln Pro Pro Ala His Cys Leu Ala
465 470 475 480
Ser Asp Pro Glu Ala Pro Ser Thr Val Thr Trp His Pro Met Ser Lys
485 490 495
Leu Pro Gly Asn Pro Thr Pro Phe Phe Ser Pro Ser Ser Tyr Pro Pro
500 505 510
Arg Ala Ile Cys Phe Ile Pro Phe Pro Gly Asn Pro Leu Asp Asn Asn
515 520 525
Cys Lys Ala Gly Glu Met Pro Leu Asn Trp Tyr Asn Met Ser Glu Phe
530 535 540
Met Cys Gly Lys Val Ser Asn Cys Leu Gly Pro Glu Phe Ala Arg Phe
545 550 555 560
Asp Lys Ser Asn Thr Ser Arg Ser Pro Ala Phe Asp Leu Ala Leu Val
565 570 575
Thr Arg Val Val Glu Val Thr Asn Met Glu His Gly Lys Phe Leu Asn
580 585 590
Val Asp Cys Asn Pro Ser Lys Gly Thr Met Val Gly Glu Phe Asp Cys
595 600 605
Pro Gln Asp Ala Trp Phe Phe Asp Gly Ser Cys Asn Asp Gly His Met
610 615 620
Pro Tyr Ser Ile Ile Met Glu Ile Gly Leu Gln Thr Ser Gly Val Leu
625 630 635 640
Thr Ser Val Leu Lys Ala Pro Leu Thr Met Asp Lys Asp Asp Ile Leu
645 650 655
Phe Arg Asn Leu Asp Ala Ser Ala Glu Met Val Arg Pro Asp Val Asp
660 665 670
Val Arg Gly Lys Thr Ile Arg Asn Val Thr Lys Cys Thr Gly Tyr Ala
675 680 685
Met Leu Gly Lys Met Gly Ile His Arg Phe Thr Phe Glu Leu Ser Val
690 695 700
Asp Gly Val Val Phe Tyr Lys Gly Ser Thr Ser Phe Gly Trp Phe Thr
705 710 715 720
Pro Glu Val Phe Ala Gln Gln Ala Gly Leu Asp Asn Gly Lys Lys Thr
725 730 735
Glu Pro Trp Cys Lys Thr Asn Asn Thr Ser Val Arg Arg Val Glu Ile
740 745 750
Ala Ser Ala Lys Gly Lys Glu Gln Leu Thr Glu Lys Leu Pro Asp Ala
755 760 765
Thr Asn Ala Gln Val Leu Arg Arg Ser Glu Gln Cys Glu Tyr Leu Asp
770 775 780
Tyr Leu Asn Ile Ala Pro Asp Ser Gly Leu His Gly Lys Gly Tyr Ala
785 790 795 800
His Gly His Lys Asp Val Asn Pro Gln Asp Trp Phe Phe Ser Cys His
805 810 815
Phe Trp Phe Asp Pro Val Met Pro Gly Ser Leu Gly Ile Glu Ser Met
820 825 830
Phe Gln Leu Ile Glu Ala Phe Ala Val Asp Gln Asn Ile Pro Gly Glu
835 840 845
Tyr Asn Val Ser Asn Pro Thr Phe Ala His Ala Pro Gly Lys Thr Ala
850 855 860
Trp Lys Tyr Arg Gly Gln Leu Thr Pro Lys Asn Arg Ala Met Asp Cys
865 870 875 880
Glu Val His Ile Val Ser Ile Thr Ala Ser Pro Glu Asn Gly Gly Tyr
885 890 895
Val Asp Ile Val Ala Asp Gly Ala Leu Trp Val Asp Gly Leu Arg Val
900 905 910
Tyr Glu Ala Lys Glu Leu Arg Val Arg Val Val Ser Ala Lys Pro Gln
915 920 925
Ala Ile Pro Asp Val Gln Gln Gln Pro Pro Ser Ala Lys Ala Asp Pro
930 935 940
Gly Lys Thr Gly Val Ala Leu Ser Pro Thr Gln Leu Arg Asp Val Leu
945 950 955 960
Leu Glu Val Asp Asn Pro Leu Tyr Leu Gly Val Glu Asn Ser Asn Leu
965 970 975
Val Gln Phe Glu Ser Lys Pro Ala Thr Ser Ser Arg Ile Val Ser Ile
980 985 990
Lys Pro Cys Ser Ile Ser Asp Leu Gly Asp Lys Ser Phe Met Glu Thr
995 1000 1005
Tyr Asn Val Ser Ala Pro Leu Tyr Thr Gly Ala Met Ala Lys Gly
1010 1015 1020
Ile Ala Ser Ala Asp Leu Val Ile Ala Ala Gly Lys Arg Lys Ile
1025 1030 1035
Leu Gly Ser Phe Gly Ala Gly Gly Leu Pro Ile Ser Ile Val Arg
1040 1045 1050
Glu Ala Leu Glu Lys Ile Gln Gln His Leu Pro His Gly Pro Tyr
1055 1060 1065
Ala Val Asn Leu Ile His Ser Pro Phe Asp Ser Asn Leu Glu Lys
1070 1075 1080
Gly Asn Val Asp Leu Phe Leu Glu Met Gly Val Thr Val Val Glu
1085 1090 1095
Cys Ser Ala Phe Met Glu Leu Thr Ala Gln Val Val Arg Tyr Arg
1100 1105 1110
Ala Ser Gly Leu Ser Lys Ser Ala Asp Gly Ser Ile Arg Ile Ala
1115 1120 1125
His Arg Ile Ile Gly Lys Val Ser Arg Thr Glu Leu Ala Glu Met
1130 1135 1140
Phe Ile Arg Pro Ala Pro Gln His Leu Leu Gln Lys Leu Val Ala
1145 1150 1155
Ser Gly Glu Leu Thr Ala Glu Gln Ala Glu Leu Ala Thr Gln Val
1160 1165 1170
Pro Val Ala Asp Asp Ile Ala Val Glu Ala Asp Ser Gly Gly His
1175 1180 1185
Thr Asp Asn Arg Pro Ile His Val Ile Leu Pro Leu Ile Ile Asn
1190 1195 1200
Leu Arg Asn Arg Leu His Lys Glu Leu Asp Tyr Pro Ser His Leu
1205 1210 1215
Arg Val Arg Val Gly Ala Gly Gly Gly Ile Gly Cys Pro Gln Ala
1220 1225 1230
Ala Leu Ala Ala Phe Gln Met Gly Ala Ala Phe Leu Ile Thr Gly
1235 1240 1245
Thr Val Asn Gln Leu Ala Arg Glu Ser Gly Thr Cys Asp Asn Val
1250 1255 1260
Arg Leu Gln Leu Ser Lys Ala Thr Tyr Ser Asp Val Cys Met Ala
1265 1270 1275
Pro Ala Ala Asp Met Phe Asp Gln Gly Val Glu Leu Gln Val Leu
1280 1285 1290
Lys Lys Gly Thr Leu Phe Pro Ser Arg Ala Lys Lys Leu Tyr Glu
1295 1300 1305
Leu Phe Cys Lys Tyr Asp Ser Phe Glu Ala Met Pro Ala Glu Glu
1310 1315 1320
Leu Gln Arg Val Glu Lys Arg Ile Phe Gln Lys Ser Leu Ala Glu
1325 1330 1335
Val Trp Gln Glu Thr Ser Asp Phe Tyr Ile His Arg Ile Lys Asn
1340 1345 1350
Pro Glu Lys Ile Asn Arg Ala Ala Ser Asp Gly Lys Leu Lys Met
1355 1360 1365
Ser Leu Cys Phe Arg Trp Tyr Leu Gly Leu Ser Ser Phe Trp Ala
1370 1375 1380
Asn Ser Gly Ala Gln Asp Arg Val Met Asp Tyr Gln Ile Trp Cys
1385 1390 1395
Gly Pro Ala Ile Gly Ala Phe Asn Asp Phe Thr Lys Gly Thr Tyr
1400 1405 1410
Leu Asp Val Thr Val Ala Lys Ser Tyr Pro Cys Val Ala Gln Ile
1415 1420 1425
Asn Leu Gln Ile Leu Gln Gly Ala Ala Tyr Leu Lys Arg Leu Gly
1430 1435 1440
Val Ile Arg Phe Asp Arg Met Leu Leu Gln Ala Val Asp Ile Asp
1445 1450 1455
Asp Pro Val Phe Thr Tyr Val Pro Thr Gln Pro Leu
1460 1465 1470
<210> 63
<211> 1500
<212> DNA
<213> Thraustochytrium sp.
<220>
<221> CDS
<222> (1)..(1500)
<400> 63
atg ggc ccg cga gtg gcg tca ggc aag gtg ccg gct tgg gag atg agc 48
Met Gly Pro Arg Val Ala Ser Gly Lys Val Pro Ala Trp Glu Met Ser
1 5 10 15
aag tcc gag ctg tgt gat gac cgc acg gta gtc ttt gac tat gag gag 96
Lys Ser Glu Leu Cys Asp Asp Arg Thr Val Val Phe Asp Tyr Glu Glu
20 25 30
ctg ctg gag ttc gct gag ggc gat atc agt aag gtt ttt ggg ccg gag 144
Leu Leu Glu Phe Ala Glu Gly Asp Ile Ser Lys Val Phe Gly Pro Glu
35 40 45
ttc aaa gtg gtg gac ggg ttt agg cgc agg gtg agg ttg ccc gct cga 192
Phe Lys Val Val Asp Gly Phe Arg Arg Arg Val Arg Leu Pro Ala Arg
50 55 60
gag tac ctg ctg gtg acc cgg gtt acg ctg atg gat gcc gag gtg ggc 240
Glu Tyr Leu Leu Val Thr Arg Val Thr Leu Met Asp Ala Glu Val Gly
65 70 75 80
aac ttt cga gtg gga gca cgt atg gtg aca gag tat gac gta cct gtg 288
Asn Phe Arg Val Gly Ala Arg Met Val Thr Glu Tyr Asp Val Pro Val
85 90 95
aac gga gag ctc tcg gaa ggg gga gat gtg ccg tgg gct gtg ttg gtg 336
Asn Gly Glu Leu Ser Glu Gly Gly Asp Val Pro Trp Ala Val Leu Val
100 105 110
gaa gcc ggg cag tgc gac ttg ctg cta att tct tac atg ggc atc gat 384
Glu Ala Gly Gln Cys Asp Leu Leu Leu Ile Ser Tyr Met Gly Ile Asp
115 120 125
ttc cag tgc aaa gga gag cgg gtc tac cgg ctg ctg aac acc acc ttg 432
Phe Gln Cys Lys Gly Glu Arg Val Tyr Arg Leu Leu Asn Thr Thr Leu
130 135 140
acg ttt ttt ggc gtc gcg aaa gaa ggg gaa acg ctt gtg tac gat att 480
Thr Phe Phe Gly Val Ala Lys Glu Gly Glu Thr Leu Val Tyr Asp Ile
145 150 155 160
cgc gtc acg ggt ttc gcc aag agg ccg gac gga gat atc tcc atg ttc 528
Arg Val Thr Gly Phe Ala Lys Arg Pro Asp Gly Asp Ile Ser Met Phe
165 170 175
ttt ttc gaa tat gat tgc tac tgc aat ggc aag ctt ctc atc gaa atg 576
Phe Phe Glu Tyr Asp Cys Tyr Cys Asn Gly Lys Leu Leu Ile Glu Met
180 185 190
cga gat ggc tct gca ggc ttc ttc acg gac gaa gag ctc gct gcc ggc 624
Arg Asp Gly Ser Ala Gly Phe Phe Thr Asp Glu Glu Leu Ala Ala Gly
195 200 205
aaa gga gtg gtc gtc act cgt gca cag caa aac atg cgg gac aaa att 672
Lys Gly Val Val Val Thr Arg Ala Gln Gln Asn Met Arg Asp Lys Ile
210 215 220
gta cgg cag tcc att gag cct ttt gca ctg gcg gct tgc acg cac aaa 720
Val Arg Gln Ser Ile Glu Pro Phe Ala Leu Ala Ala Cys Thr His Lys
225 230 235 240
acg act ctg aac gag agt gac atg cag tcc ctt gtg gag cga aac tgg 768
Thr Thr Leu Asn Glu Ser Asp Met Gln Ser Leu Val Glu Arg Asn Trp
245 250 255
gca aac gtt ttt ggc acc agt aac aag atg gcg gag ctc aac tat aaa 816
Ala Asn Val Phe Gly Thr Ser Asn Lys Met Ala Glu Leu Asn Tyr Lys
260 265 270
att tgc gcc agg aaa atg ctc atg atc gac agg gtt acc cac att gac 864
Ile Cys Ala Arg Lys Met Leu Met Ile Asp Arg Val Thr His Ile Asp
275 280 285
cac cac ggt ggg gcg tat ggc ctc gga cta ctt gtt gga gag aag atc 912
His His Gly Gly Ala Tyr Gly Leu Gly Leu Leu Val Gly Glu Lys Ile
290 295 300
ttg gat cga aac cat tgg tac ttt cct tgt cac ttt gtc aat gat caa 960
Leu Asp Arg Asn His Trp Tyr Phe Pro Cys His Phe Val Asn Asp Gln
305 310 315 320
gtc atg gca ggg tca ctg gtc agc gat ggt tgc agc cag ctc tta aaa 1008
Val Met Ala Gly Ser Leu Val Ser Asp Gly Cys Ser Gln Leu Leu Lys
325 330 335
ctc tat atg atc tgg ctt ggc ctc cac ctg aaa atg gag gaa ttt gat 1056
Leu Tyr Met Ile Trp Leu Gly Leu His Leu Lys Met Glu Glu Phe Asp
340 345 350
ttt ctc cca gtt agc ggc cac aaa aac aag gtg cga tgc agg gga caa 1104
Phe Leu Pro Val Ser Gly His Lys Asn Lys Val Arg Cys Arg Gly Gln
355 360 365
att tca ccg cat aaa ggc aag ctt gtc tac gtc atg gaa atc aaa aag 1152
Ile Ser Pro His Lys Gly Lys Leu Val Tyr Val Met Glu Ile Lys Lys
370 375 380
atg ggt tac gat caa gca tct gga agc cca tac gcc atc gcg gac gtt 1200
Met Gly Tyr Asp Gln Ala Ser Gly Ser Pro Tyr Ala Ile Ala Asp Val
385 390 395 400
gat atc att gac gtc aac gaa gag ctg ggt caa agt ttt gac atc aac 1248
Asp Ile Ile Asp Val Asn Glu Glu Leu Gly Gln Ser Phe Asp Ile Asn
405 410 415
gac ctt gcg agc tac gga aaa ggt gac ctg agc aaa aaa atc gtg gtt 1296
Asp Leu Ala Ser Tyr Gly Lys Gly Asp Leu Ser Lys Lys Ile Val Val
420 425 430
gac ttc aaa gga att gct ttg cag ctc aaa ggc cgc gct ttt tca cgc 1344
Asp Phe Lys Gly Ile Ala Leu Gln Leu Lys Gly Arg Ala Phe Ser Arg
435 440 445
atg agt tcc agc tcg tcc ttg aac gaa gga tgg caa tgt gtt cca aaa 1392
Met Ser Ser Ser Ser Ser Leu Asn Glu Gly Trp Gln Cys Val Pro Lys
450 455 460
cca agc cag aga atg gaa cac gaa cag ccc cct gct cac tgc ctt gca 1440
Pro Ser Gln Arg Met Glu His Glu Gln Pro Pro Ala His Cys Leu Ala
465 470 475 480
agc gac ccc gaa gcc cct tca act gtg acc tgg cac cca atg tca aag 1488
Ser Asp Pro Glu Ala Pro Ser Thr Val Thr Trp His Pro Met Ser Lys
485 490 495
ctt cct ggc aac 1500
Leu Pro Gly Asn
500
<210> 64
<211> 500
<212> PRT
<213> Thraustochytrium sp.
<400> 64
Met Gly Pro Arg Val Ala Ser Gly Lys Val Pro Ala Trp Glu Met Ser
1 5 10 15
Lys Ser Glu Leu Cys Asp Asp Arg Thr Val Val Phe Asp Tyr Glu Glu
20 25 30
Leu Leu Glu Phe Ala Glu Gly Asp Ile Ser Lys Val Phe Gly Pro Glu
35 40 45
Phe Lys Val Val Asp Gly Phe Arg Arg Arg Val Arg Leu Pro Ala Arg
50 55 60
Glu Tyr Leu Leu Val Thr Arg Val Thr Leu Met Asp Ala Glu Val Gly
65 70 75 80
Asn Phe Arg Val Gly Ala Arg Met Val Thr Glu Tyr Asp Val Pro Val
85 90 95
Asn Gly Glu Leu Ser Glu Gly Gly Asp Val Pro Trp Ala Val Leu Val
100 105 110
Glu Ala Gly Gln Cys Asp Leu Leu Leu Ile Ser Tyr Met Gly Ile Asp
115 120 125
Phe Gln Cys Lys Gly Glu Arg Val Tyr Arg Leu Leu Asn Thr Thr Leu
130 135 140
Thr Phe Phe Gly Val Ala Lys Glu Gly Glu Thr Leu Val Tyr Asp Ile
145 150 155 160
Arg Val Thr Gly Phe Ala Lys Arg Pro Asp Gly Asp Ile Ser Met Phe
165 170 175
Phe Phe Glu Tyr Asp Cys Tyr Cys Asn Gly Lys Leu Leu Ile Glu Met
180 185 190
Arg Asp Gly Ser Ala Gly Phe Phe Thr Asp Glu Glu Leu Ala Ala Gly
195 200 205
Lys Gly Val Val Val Thr Arg Ala Gln Gln Asn Met Arg Asp Lys Ile
210 215 220
Val Arg Gln Ser Ile Glu Pro Phe Ala Leu Ala Ala Cys Thr His Lys
225 230 235 240
Thr Thr Leu Asn Glu Ser Asp Met Gln Ser Leu Val Glu Arg Asn Trp
245 250 255
Ala Asn Val Phe Gly Thr Ser Asn Lys Met Ala Glu Leu Asn Tyr Lys
260 265 270
Ile Cys Ala Arg Lys Met Leu Met Ile Asp Arg Val Thr His Ile Asp
275 280 285
His His Gly Gly Ala Tyr Gly Leu Gly Leu Leu Val Gly Glu Lys Ile
290 295 300
Leu Asp Arg Asn His Trp Tyr Phe Pro Cys His Phe Val Asn Asp Gln
305 310 315 320
Val Met Ala Gly Ser Leu Val Ser Asp Gly Cys Ser Gln Leu Leu Lys
325 330 335
Leu Tyr Met Ile Trp Leu Gly Leu His Leu Lys Met Glu Glu Phe Asp
340 345 350
Phe Leu Pro Val Ser Gly His Lys Asn Lys Val Arg Cys Arg Gly Gln
355 360 365
Ile Ser Pro His Lys Gly Lys Leu Val Tyr Val Met Glu Ile Lys Lys
370 375 380
Met Gly Tyr Asp Gln Ala Ser Gly Ser Pro Tyr Ala Ile Ala Asp Val
385 390 395 400
Asp Ile Ile Asp Val Asn Glu Glu Leu Gly Gln Ser Phe Asp Ile Asn
405 410 415
Asp Leu Ala Ser Tyr Gly Lys Gly Asp Leu Ser Lys Lys Ile Val Val
420 425 430
Asp Phe Lys Gly Ile Ala Leu Gln Leu Lys Gly Arg Ala Phe Ser Arg
435 440 445
Met Ser Ser Ser Ser Ser Leu Asn Glu Gly Trp Gln Cys Val Pro Lys
450 455 460
Pro Ser Gln Arg Met Glu His Glu Gln Pro Pro Ala His Cys Leu Ala
465 470 475 480
Ser Asp Pro Glu Ala Pro Ser Thr Val Thr Trp His Pro Met Ser Lys
485 490 495
Leu Pro Gly Asn
500
<210> 65
<211> 1500
<212> DNA
<213> Thraustochytrium sp.
<220>
<221> CDS
<222> (1)..(1500)
<400> 65
cct acg ccg ttc ttc tcc cct tca tct tac cct ccg agg gca att tgc 48
Pro Thr Pro Phe Phe Ser Pro Ser Ser Tyr Pro Pro Arg Ala Ile Cys
1 5 10 15
ttc atc cct ttc ccg ggc aat ccc ctt gac aac aac tgc aag gct gga 96
Phe Ile Pro Phe Pro Gly Asn Pro Leu Asp Asn Asn Cys Lys Ala Gly
20 25 30
gaa atg ccc ctg aac tgg tac aac atg tca gag ttc atg tgt ggc aag 144
Glu Met Pro Leu Asn Trp Tyr Asn Met Ser Glu Phe Met Cys Gly Lys
35 40 45
gtt tct aac tgc ttg ggc cca gaa ttc gca cgc ttt gac aag tcg aac 192
Val Ser Asn Cys Leu Gly Pro Glu Phe Ala Arg Phe Asp Lys Ser Asn
50 55 60
acc agc cgg agc cct gct ttt gac ttg gct ctg gtg acc cga gtt gtt 240
Thr Ser Arg Ser Pro Ala Phe Asp Leu Ala Leu Val Thr Arg Val Val
65 70 75 80
gaa gtc aca aac atg gaa cac ggc aag ttt cta aac gtt gat tgc aat 288
Glu Val Thr Asn Met Glu His Gly Lys Phe Leu Asn Val Asp Cys Asn
85 90 95
cca agc aaa ggc aca atg gtg ggg gag ttt gac tgt ccc caa gac gcg 336
Pro Ser Lys Gly Thr Met Val Gly Glu Phe Asp Cys Pro Gln Asp Ala
100 105 110
tgg ttc ttt gat ggt tcg tgc aac gac ggc cat atg ccg tat tcc att 384
Trp Phe Phe Asp Gly Ser Cys Asn Asp Gly His Met Pro Tyr Ser Ile
115 120 125
atc atg gaa atc gga ctg caa acc tca ggt gtt ctc acc tcg gtg ttg 432
Ile Met Glu Ile Gly Leu Gln Thr Ser Gly Val Leu Thr Ser Val Leu
130 135 140
aag gca ccg ctg act atg gac aag gat gac att ctc ttt cga aac ctc 480
Lys Ala Pro Leu Thr Met Asp Lys Asp Asp Ile Leu Phe Arg Asn Leu
145 150 155 160
gat gca agt gct gaa atg gtg cgt cca gac gtg gat gtt cgc ggc aaa 528
Asp Ala Ser Ala Glu Met Val Arg Pro Asp Val Asp Val Arg Gly Lys
165 170 175
acg att cga aac gtg acc aag tgt acc ggc tat gca atg ttg gga aag 576
Thr Ile Arg Asn Val Thr Lys Cys Thr Gly Tyr Ala Met Leu Gly Lys
180 185 190
atg ggg att cac cgg ttc acg ttt gag ttg agc gtt gac ggc gtg gta 624
Met Gly Ile His Arg Phe Thr Phe Glu Leu Ser Val Asp Gly Val Val
195 200 205
ttt tat aaa gga tcc act tcc ttt gga tgg ttc act ccc gag gtg ttt 672
Phe Tyr Lys Gly Ser Thr Ser Phe Gly Trp Phe Thr Pro Glu Val Phe
210 215 220
gct cag caa gct gga ctc gac aac ggg aaa aag acg gag ccc tgg tgc 720
Ala Gln Gln Ala Gly Leu Asp Asn Gly Lys Lys Thr Glu Pro Trp Cys
225 230 235 240
aag act aac aac acc tcg gtt cga aga gtt gaa atc gca tcc gcc aaa 768
Lys Thr Asn Asn Thr Ser Val Arg Arg Val Glu Ile Ala Ser Ala Lys
245 250 255
gga aaa gag cag ctg act gag aag ctt ccc gac gca act aat gct caa 816
Gly Lys Glu Gln Leu Thr Glu Lys Leu Pro Asp Ala Thr Asn Ala Gln
260 265 270
gtt ctt cgg cgt tca gag cag tgt gaa tac ctc gat tac ctc aat att 864
Val Leu Arg Arg Ser Glu Gln Cys Glu Tyr Leu Asp Tyr Leu Asn Ile
275 280 285
gcc cct gac tct ggg ctg cat ggg aag ggc tac gcc cac gga cac aaa 912
Ala Pro Asp Ser Gly Leu His Gly Lys Gly Tyr Ala His Gly His Lys
290 295 300
gac gtt aac ccg caa gac tgg ttc ttc tct tgc cac ttt tgg ttc gat 960
Asp Val Asn Pro Gln Asp Trp Phe Phe Ser Cys His Phe Trp Phe Asp
305 310 315 320
cct gta atg cca gga tct tta gga att gaa tca atg ttc cag ctt atc 1008
Pro Val Met Pro Gly Ser Leu Gly Ile Glu Ser Met Phe Gln Leu Ile
325 330 335
gag gcc ttt gcg gtg gac caa aac att cct gga gag tac aac gta tcc 1056
Glu Ala Phe Ala Val Asp Gln Asn Ile Pro Gly Glu Tyr Asn Val Ser
340 345 350
aat ccg acc ttt gcc cat gca cca ggc aaa acg gcg tgg aaa tac cga 1104
Asn Pro Thr Phe Ala His Ala Pro Gly Lys Thr Ala Trp Lys Tyr Arg
355 360 365
ggc cag ctc aca cca aag aac cgt gcg atg gac tgc gag gtg cat atc 1152
Gly Gln Leu Thr Pro Lys Asn Arg Ala Met Asp Cys Glu Val His Ile
370 375 380
gtt tca att acc gcc tcc ccc gag aac ggg ggc tac gtt gac atc gtg 1200
Val Ser Ile Thr Ala Ser Pro Glu Asn Gly Gly Tyr Val Asp Ile Val
385 390 395 400
gcc gat gga gcg ctt tgg gta gat gga ctt cgc gtg tac gaa gcc aaa 1248
Ala Asp Gly Ala Leu Trp Val Asp Gly Leu Arg Val Tyr Glu Ala Lys
405 410 415
gag ctt cga gtt cgt gtc gtt tcg gca aaa cct caa gca att ccg gat 1296
Glu Leu Arg Val Arg Val Val Ser Ala Lys Pro Gln Ala Ile Pro Asp
420 425 430
gta caa caa cag cca cct agc gca aag gcg gac ccg ggg aaa aca gga 1344
Val Gln Gln Gln Pro Pro Ser Ala Lys Ala Asp Pro Gly Lys Thr Gly
435 440 445
gtt gca ctt tcg ccc act cag cta cgc gac gtc ctg ctt gaa gtg gac 1392
Val Ala Leu Ser Pro Thr Gln Leu Arg Asp Val Leu Leu Glu Val Asp
450 455 460
aat cca ttg tat ctt ggt gta gag aac tcc aat ttg gtg cag ttt gag 1440
Asn Pro Leu Tyr Leu Gly Val Glu Asn Ser Asn Leu Val Gln Phe Glu
465 470 475 480
tcg aaa cct gca act tct tca cgt atc gtt tcg atc aaa ccg tgc tcg 1488
Ser Lys Pro Ala Thr Ser Ser Arg Ile Val Ser Ile Lys Pro Cys Ser
485 490 495
att agt gac ctt 1500
Ile Ser Asp Leu
500
<210> 66
<211> 500
<212> PRT
<213> Thraustochytrium sp.
<400> 66
Pro Thr Pro Phe Phe Ser Pro Ser Ser Tyr Pro Pro Arg Ala Ile Cys
1 5 10 15
Phe Ile Pro Phe Pro Gly Asn Pro Leu Asp Asn Asn Cys Lys Ala Gly
20 25 30
Glu Met Pro Leu Asn Trp Tyr Asn Met Ser Glu Phe Met Cys Gly Lys
35 40 45
Val Ser Asn Cys Leu Gly Pro Glu Phe Ala Arg Phe Asp Lys Ser Asn
50 55 60
Thr Ser Arg Ser Pro Ala Phe Asp Leu Ala Leu Val Thr Arg Val Val
65 70 75 80
Glu Val Thr Asn Met Glu His Gly Lys Phe Leu Asn Val Asp Cys Asn
85 90 95
Pro Ser Lys Gly Thr Met Val Gly Glu Phe Asp Cys Pro Gln Asp Ala
100 105 110
Trp Phe Phe Asp Gly Ser Cys Asn Asp Gly His Met Pro Tyr Ser Ile
115 120 125
Ile Met Glu Ile Gly Leu Gln Thr Ser Gly Val Leu Thr Ser Val Leu
130 135 140
Lys Ala Pro Leu Thr Met Asp Lys Asp Asp Ile Leu Phe Arg Asn Leu
145 150 155 160
Asp Ala Ser Ala Glu Met Val Arg Pro Asp Val Asp Val Arg Gly Lys
165 170 175
Thr Ile Arg Asn Val Thr Lys Cys Thr Gly Tyr Ala Met Leu Gly Lys
180 185 190
Met Gly Ile His Arg Phe Thr Phe Glu Leu Ser Val Asp Gly Val Val
195 200 205
Phe Tyr Lys Gly Ser Thr Ser Phe Gly Trp Phe Thr Pro Glu Val Phe
210 215 220
Ala Gln Gln Ala Gly Leu Asp Asn Gly Lys Lys Thr Glu Pro Trp Cys
225 230 235 240
Lys Thr Asn Asn Thr Ser Val Arg Arg Val Glu Ile Ala Ser Ala Lys
245 250 255
Gly Lys Glu Gln Leu Thr Glu Lys Leu Pro Asp Ala Thr Asn Ala Gln
260 265 270
Val Leu Arg Arg Ser Glu Gln Cys Glu Tyr Leu Asp Tyr Leu Asn Ile
275 280 285
Ala Pro Asp Ser Gly Leu His Gly Lys Gly Tyr Ala His Gly His Lys
290 295 300
Asp Val Asn Pro Gln Asp Trp Phe Phe Ser Cys His Phe Trp Phe Asp
305 310 315 320
Pro Val Met Pro Gly Ser Leu Gly Ile Glu Ser Met Phe Gln Leu Ile
325 330 335
Glu Ala Phe Ala Val Asp Gln Asn Ile Pro Gly Glu Tyr Asn Val Ser
340 345 350
Asn Pro Thr Phe Ala His Ala Pro Gly Lys Thr Ala Trp Lys Tyr Arg
355 360 365
Gly Gln Leu Thr Pro Lys Asn Arg Ala Met Asp Cys Glu Val His Ile
370 375 380
Val Ser Ile Thr Ala Ser Pro Glu Asn Gly Gly Tyr Val Asp Ile Val
385 390 395 400
Ala Asp Gly Ala Leu Trp Val Asp Gly Leu Arg Val Tyr Glu Ala Lys
405 410 415
Glu Leu Arg Val Arg Val Val Ser Ala Lys Pro Gln Ala Ile Pro Asp
420 425 430
Val Gln Gln Gln Pro Pro Ser Ala Lys Ala Asp Pro Gly Lys Thr Gly
435 440 445
Val Ala Leu Ser Pro Thr Gln Leu Arg Asp Val Leu Leu Glu Val Asp
450 455 460
Asn Pro Leu Tyr Leu Gly Val Glu Asn Ser Asn Leu Val Gln Phe Glu
465 470 475 480
Ser Lys Pro Ala Thr Ser Ser Arg Ile Val Ser Ile Lys Pro Cys Ser
485 490 495
Ile Ser Asp Leu
500
<210> 67
<211> 1410
<212> DNA
<213> Thraustochytrium sp.
<220>
<221> CDS
<222> (1)..(1410)
<400> 67
ggc gat aag tct ttt atg gaa acg tac aac gtg tca gca cct ctg tat 48
Gly Asp Lys Ser Phe Met Glu Thr Tyr Asn Val Ser Ala Pro Leu Tyr
1 5 10 15
act gga gca atg gcc aag ggc att gca tcc gcc gac ttg gtc att gct 96
Thr Gly Ala Met Ala Lys Gly Ile Ala Ser Ala Asp Leu Val Ile Ala
20 25 30
gct ggg aaa cgc aag ata ctt gga tcg ttt ggt gcg gga ggg ctg cct 144
Ala Gly Lys Arg Lys Ile Leu Gly Ser Phe Gly Ala Gly Gly Leu Pro
35 40 45
att tcc ata gtc cgt gaa gca ctg gag aaa att caa caa cac ctg ccc 192
Ile Ser Ile Val Arg Glu Ala Leu Glu Lys Ile Gln Gln His Leu Pro
50 55 60
cac ggc ccc tac gct gtt aac ctc att cac tcg cct ttc gac agc aac 240
His Gly Pro Tyr Ala Val Asn Leu Ile His Ser Pro Phe Asp Ser Asn
65 70 75 80
ttg gaa aag ggc aac gtt gac ctc ttt ctc gag atg ggc gtg aca gtg 288
Leu Glu Lys Gly Asn Val Asp Leu Phe Leu Glu Met Gly Val Thr Val
85 90 95
gta gaa tgc agc gcg ttc atg gaa ctc acg gcc cag gtt gtc cgg tac 336
Val Glu Cys Ser Ala Phe Met Glu Leu Thr Ala Gln Val Val Arg Tyr
100 105 110
cgc gcg tct ggt cta agc aaa agt gcg gac ggt tcg att cgc att gct 384
Arg Ala Ser Gly Leu Ser Lys Ser Ala Asp Gly Ser Ile Arg Ile Ala
115 120 125
cac cgt att att ggc aag gtt tcc aga acc gag ctg gca gaa atg ttt 432
His Arg Ile Ile Gly Lys Val Ser Arg Thr Glu Leu Ala Glu Met Phe
130 135 140
att cgt cca gca cca cag cac ctc ctc caa aaa ctc gta gcc tcc ggc 480
Ile Arg Pro Ala Pro Gln His Leu Leu Gln Lys Leu Val Ala Ser Gly
145 150 155 160
gag ctg aca gct gag caa gcc gag ctt gca aca cag gtt ccg gtg gcg 528
Glu Leu Thr Ala Glu Gln Ala Glu Leu Ala Thr Gln Val Pro Val Ala
165 170 175
gat gac att gcg gtc gaa gcc gac tcg ggg ggg cat acc gac aac agg 576
Asp Asp Ile Ala Val Glu Ala Asp Ser Gly Gly His Thr Asp Asn Arg
180 185 190
cct att cac gtc att ctt cct cta atc atc aac cta cgc aac cgt ttg 624
Pro Ile His Val Ile Leu Pro Leu Ile Ile Asn Leu Arg Asn Arg Leu
195 200 205
cat aaa gag ctt gac tac cct tcg cat ctc cgg gta cgt gtg ggt gct 672
His Lys Glu Leu Asp Tyr Pro Ser His Leu Arg Val Arg Val Gly Ala
210 215 220
ggt ggt ggt att gga tgt cct caa gcc gct ctt gca gca ttt caa atg 720
Gly Gly Gly Ile Gly Cys Pro Gln Ala Ala Leu Ala Ala Phe Gln Met
225 230 235 240
ggg gca gcg ttt tta atc act gga acg gtg aac cag ctt gct cgt gaa 768
Gly Ala Ala Phe Leu Ile Thr Gly Thr Val Asn Gln Leu Ala Arg Glu
245 250 255
agt ggc act tgt gac aac gtc cgg tta cag ctc tca aag gcc acg tat 816
Ser Gly Thr Cys Asp Asn Val Arg Leu Gln Leu Ser Lys Ala Thr Tyr
260 265 270
agc gac gtg tgt atg gct cct gct gcc gat atg ttt gac caa ggc gtg 864
Ser Asp Val Cys Met Ala Pro Ala Ala Asp Met Phe Asp Gln Gly Val
275 280 285
gag ctg caa gta ttg aag aaa ggc acg ctg ttc cca agt cgt gct aag 912
Glu Leu Gln Val Leu Lys Lys Gly Thr Leu Phe Pro Ser Arg Ala Lys
290 295 300
aag ctg tac gag ctg ttc tgc aag tat gac tcg ttt gag gca atg ccg 960
Lys Leu Tyr Glu Leu Phe Cys Lys Tyr Asp Ser Phe Glu Ala Met Pro
305 310 315 320
gct gaa gaa ttg caa cgg gtt gaa aag cgg att ttt caa aag tcg ctt 1008
Ala Glu Glu Leu Gln Arg Val Glu Lys Arg Ile Phe Gln Lys Ser Leu
325 330 335
gct gaa gtt tgg cag gag acc agt gac ttt tac att cat cgt atc aag 1056
Ala Glu Val Trp Gln Glu Thr Ser Asp Phe Tyr Ile His Arg Ile Lys
340 345 350
aac cct gag aaa atc aat cgt gct gca agc gat ggc aaa ctg aaa atg 1104
Asn Pro Glu Lys Ile Asn Arg Ala Ala Ser Asp Gly Lys Leu Lys Met
355 360 365
tcg ctt tgc ttt cgc tgg tac ctt ggg ctt tcc tca ttt tgg gcc aac 1152
Ser Leu Cys Phe Arg Trp Tyr Leu Gly Leu Ser Ser Phe Trp Ala Asn
370 375 380
tct ggg gca caa gat cgc gtc atg gac tat caa att tgg tgt ggc cct 1200
Ser Gly Ala Gln Asp Arg Val Met Asp Tyr Gln Ile Trp Cys Gly Pro
385 390 395 400
gct att ggc gct ttc aat gat ttt acc aag ggc acg tac ctt gac gtg 1248
Ala Ile Gly Ala Phe Asn Asp Phe Thr Lys Gly Thr Tyr Leu Asp Val
405 410 415
act gtt gca aag agt tac cct tgt gtg gca cag atc aat ttg caa att 1296
Thr Val Ala Lys Ser Tyr Pro Cys Val Ala Gln Ile Asn Leu Gln Ile
420 425 430
ttg caa gga gct gcg tat ctg aaa cgc ctt ggt gtc att cgt ttt gac 1344
Leu Gln Gly Ala Ala Tyr Leu Lys Arg Leu Gly Val Ile Arg Phe Asp
435 440 445
cgc atg ctg ctg cag gcc gtc gat atc gac gat cct gta ttt act tac 1392
Arg Met Leu Leu Gln Ala Val Asp Ile Asp Asp Pro Val Phe Thr Tyr
450 455 460
gtg ccg acc cag cca ctt 1410
Val Pro Thr Gln Pro Leu
465 470
<210> 68
<211> 470
<212> PRT
<213> Thraustochytrium sp.
<400> 68
Gly Asp Lys Ser Phe Met Glu Thr Tyr Asn Val Ser Ala Pro Leu Tyr
1 5 10 15
Thr Gly Ala Met Ala Lys Gly Ile Ala Ser Ala Asp Leu Val Ile Ala
20 25 30
Ala Gly Lys Arg Lys Ile Leu Gly Ser Phe Gly Ala Gly Gly Leu Pro
35 40 45
Ile Ser Ile Val Arg Glu Ala Leu Glu Lys Ile Gln Gln His Leu Pro
50 55 60
His Gly Pro Tyr Ala Val Asn Leu Ile His Ser Pro Phe Asp Ser Asn
65 70 75 80
Leu Glu Lys Gly Asn Val Asp Leu Phe Leu Glu Met Gly Val Thr Val
85 90 95
Val Glu Cys Ser Ala Phe Met Glu Leu Thr Ala Gln Val Val Arg Tyr
100 105 110
Arg Ala Ser Gly Leu Ser Lys Ser Ala Asp Gly Ser Ile Arg Ile Ala
115 120 125
His Arg Ile Ile Gly Lys Val Ser Arg Thr Glu Leu Ala Glu Met Phe
130 135 140
Ile Arg Pro Ala Pro Gln His Leu Leu Gln Lys Leu Val Ala Ser Gly
145 150 155 160
Glu Leu Thr Ala Glu Gln Ala Glu Leu Ala Thr Gln Val Pro Val Ala
165 170 175
Asp Asp Ile Ala Val Glu Ala Asp Ser Gly Gly His Thr Asp Asn Arg
180 185 190
Pro Ile His Val Ile Leu Pro Leu Ile Ile Asn Leu Arg Asn Arg Leu
195 200 205
His Lys Glu Leu Asp Tyr Pro Ser His Leu Arg Val Arg Val Gly Ala
210 215 220
Gly Gly Gly Ile Gly Cys Pro Gln Ala Ala Leu Ala Ala Phe Gln Met
225 230 235 240
Gly Ala Ala Phe Leu Ile Thr Gly Thr Val Asn Gln Leu Ala Arg Glu
245 250 255
Ser Gly Thr Cys Asp Asn Val Arg Leu Gln Leu Ser Lys Ala Thr Tyr
260 265 270
Ser Asp Val Cys Met Ala Pro Ala Ala Asp Met Phe Asp Gln Gly Val
275 280 285
Glu Leu Gln Val Leu Lys Lys Gly Thr Leu Phe Pro Ser Arg Ala Lys
290 295 300
Lys Leu Tyr Glu Leu Phe Cys Lys Tyr Asp Ser Phe Glu Ala Met Pro
305 310 315 320
Ala Glu Glu Leu Gln Arg Val Glu Lys Arg Ile Phe Gln Lys Ser Leu
325 330 335
Ala Glu Val Trp Gln Glu Thr Ser Asp Phe Tyr Ile His Arg Ile Lys
340 345 350
Asn Pro Glu Lys Ile Asn Arg Ala Ala Ser Asp Gly Lys Leu Lys Met
355 360 365
Ser Leu Cys Phe Arg Trp Tyr Leu Gly Leu Ser Ser Phe Trp Ala Asn
370 375 380
Ser Gly Ala Gln Asp Arg Val Met Asp Tyr Gln Ile Trp Cys Gly Pro
385 390 395 400
Ala Ile Gly Ala Phe Asn Asp Phe Thr Lys Gly Thr Tyr Leu Asp Val
405 410 415
Thr Val Ala Lys Ser Tyr Pro Cys Val Ala Gln Ile Asn Leu Gln Ile
420 425 430
Leu Gln Gly Ala Ala Tyr Leu Lys Arg Leu Gly Val Ile Arg Phe Asp
435 440 445
Arg Met Leu Leu Gln Ala Val Asp Ile Asp Asp Pro Val Phe Thr Tyr
450 455 460
Val Pro Thr Gln Pro Leu
465 470
<210> 69
<211> 6180
<212> DNA
<213> Artificial
<220>
<223> synthetic
<400> 69
atggccgctc gcaacgtgag cgccgcgcat gagatgcacg atgaaaagcg catcgccgtc 60
gtcggcatgg ccgtccagta cgccggatgc aaaaccaagg acgagttctg ggaggtgctc 120
atgaacggca aggtcgagtc caaggtgatc agcgacaaac gactcggctc caactaccgc 180
gccgagcact acaaagcaga gcgcagcaag tatgccgaca ccttttgcaa cgaaacgtac 240
ggcacccttg acgagaacga gatcgacaac gagcacgaac tcctcctcaa cctcgccaag 300
caggcactcg cagagacatc cgtcaaagac tcgacacgct gcggcatcgt cagcggctgc 360
ctctcgttcc ccatggacaa cctccagggt gaactcctca acgtgtacca aaaccatgtc 420
gagaaaaagc tcggggcccg cgtcttcaag gacgcctccc attggtccga acgcgagcag 480
tccaacaaac ccgaggccgg tgaccgccgc atcttcatgg acccggcctc cttcgtcgcc 540
gaagaactca acctcggcgc ccttcactac tccgtcgacg cagcatgcgc cacggcgctc 600
tacgtgctcc gcctcgcgca ggatcatctc gtctccggcg ccgccgacgt catgctctgc 660
ggtgccacct gcctgccgga gccctttttc atcctttcgg gcttttccac cttccaggcc 720
atgcccgtcg gcacgggcca gaacgtgtcc atgccgctgc acaaggacag ccagggcctc 780
accccgggtg agggcggctc catcatggtc ctcaagcgtc tcgatgatgc catccgcgac 840
ggcgaccaca tctacggcac ccttctcggc gccaatgtca gcaactccgg cacaggtctg 900
cccctcaagc cccttctccc cagcgagaaa aagtgcctca tggacaccta cacgcgcatt 960
aacgtgcacc cgcacaagat tcagtacgtc gagtgccacg ccaccggcac gccccagggt 1020
gatcgtgtgg aaatcgacgc cgtcaaggcc tgctttgaag gcaaggtccc ccgtttcggt 1080
accacaaagg gcaactttgg acacaccctc gtcgcagccg gctttgccgg tatgtgcaag 1140
gtcctcctct ccatgaagca tggcatcatc ccgcccaccc cgggtatcga tgacgagacc 1200
aagatggacc ctctcgtcgt ctccggtgag gccatcccat ggccagagac caacggcgag 1260
cccaagcgcg ccggtctctc ggcctttggc tttggtggca ccaacgccca tgccgtcttt 1320
gaggagcatg acccctccaa cgccgcctgc acgggccacg actccatttc tgcgctctcg 1380
gcccgctgcg gcggtgaaag caacatgcgc atcgccatca ctggtatgga cgccaccttt 1440
ggcgctctca agggactcga cgccttcgag cgcgccattt acaccggcgc tcacggtgcc 1500
atcccactcc cagaaaagcg ctggcgcttt ctcggcaagg acaaggactt tcttgacctc 1560
tgcggcgtca aggccacccc gcacggctgc tacattgaag atgttgaggt cgacttccag 1620
cgcctccgca cgcccatgac ccctgaagac atgctcctcc ctcagcagct tctggccgtc 1680
accaccattg accgcgccat cctcgactcg ggaatgaaaa agggtggcaa tgtcgccgtc 1740
tttgtcggcc tcggcaccga cctcgagctc taccgtcacc gtgctcgcgt cgctctcaag 1800
gagcgcgtcc gccctgaagc ctccaagaag ctcaatgaca tgatgcagta cattaacgac 1860
tgcggcacat ccacatcgta cacctcgtac attggcaacc tcgtcgccac gcgcgtctcg 1920
tcgcagtggg gcttcacggg cccctccttt acgatcaccg agggcaacaa ctccgtctac 1980
cgctgcgccg agctcggcaa gtacctcctc gagaccggcg aggtcgatgg cgtcgtcgtt 2040
gcgggtgtcg atctctgcgg cagtgccgaa aacctttacg tcaagtctcg ccgcttcaag 2100
gtgtccacct ccgatacccc gcgcgccagc tttgacgccg ccgccgatgg ctactttgtc 2160
ggcgagggct gcggtgcctt tgtgctcaag cgtgagacta gctgcaccaa ggacgaccgt 2220
atctacgctt gcatggatgc catcgtccct ggcaacgtcc ctagcgcctg cttgcgcgag 2280
gccctcgacc aggcgcgcgt caagccgggc gatatcgaga tgctcgagct cagcgccgac 2340
tccgcccgcc acctcaagga cccgtccgtc ctgcccaagg agctcactgc cgaggaggaa 2400
atcggcggcc ttcagacgat ccttcgtgac gatgacaagc tcccgcgcaa cgtcgcaacg 2460
ggcagtgtca aggccaccgt cggtgacacc ggttatgcct ctggtgctgc cagcctcatc 2520
aaggctgcgc tttgcatcta caaccgctac ctgcccagca acggcgacga ctgggatgaa 2580
cccgcccctg aggcgccctg ggacagcacc ctctttgcgt gccagacctc gcgcgcttgg 2640
ctcaagaacc ctggcgagcg tcgctatgcg gccgtctcgg gcgtctccga gacgcgctcg 2700
tgctattccg tgctcctctc cgaagccgag ggccactacg agcgcgagaa ccgcatctcg 2760
ctcgacgagg aggcgcccaa gctcattgtg cttcgcgccg actcccacga ggagatcctt 2820
ggtcgcctcg acaagatccg cgagcgcttc ttgcagccca cgggcgccgc cccgcgcgag 2880
tccgagctca aggcgcaggc ccgccgcatc ttcctcgagc tcctcggcga gacccttgcc 2940
caggatgccg cttcttcagg ctcgcaaaag cccctcgctc tcagcctcgt ctccacgccc 3000
tccaagctcc agcgcgaggt cgagctcgcg gccaagggta tcccgcgctg cctcaagatg 3060
cgccgcgatt ggagctcccc tgctggcagc cgctacgcgc ctgagccgct cgccagcgac 3120
cgcgtcgcct tcatgtacgg cgaaggtcgc agcccttact acggcatcac ccaagacatt 3180
caccgcattt ggcccgaact ccacgaggtc atcaacgaaa agacgaaccg tctctgggcc 3240
gaaggcgacc gctgggtcat gccgcgcgcc agcttcaagt cggagctcga gagccagcag 3300
caagagtttg atcgcaacat gattgaaatg ttccgtcttg gaatcctcac ctcaattgcc 3360
ttcaccaatc tggcgcgcga cgttctcaac atcacgccca aggccgcctt tggcctcagt 3420
cttggcgaga tttccatgat ttttgccttt tccaagaaga acggtctcat ctccgaccag 3480
ctcaccaagg atcttcgcga gtccgacgtg tggaacaagg ctctggccgt tgaatttaat 3540
gcgctgcgcg aggcctgggg cattccacag agtgtcccca aggacgagtt ctggcaaggc 3600
tacattgtgc gcggcaccaa gcaggatatc gaggcggcca tcgccccgga cagcaagtac 3660
gtgcgcctca ccatcatcaa tgatgccaac accgccctca ttagcggcaa gcccgacgcc 3720
tgcaaggctg cgatcgcgcg tctcggtggc aacattcctg cgcttcccgt gacccagggc 3780
atgtgcggcc actgccccga ggtgggacct tataccaagg atatcgccaa gatccatgcc 3840
aaccttgagt tccccgttgt cgacggcctt gacctctgga ccacaatcaa ccagaagcgc 3900
ctcgtgccac gcgccacggg cgccaaggac gaatgggccc cttcttcctt tggcgagtac 3960
gccggccagc tctacgagaa gcaggctaac ttcccccaaa tcgtcgagac catttacaag 4020
caaaactacg acgtctttgt cgaggttggg cccaacaacc accgtagcac cgcagtgcgc 4080
accacgcttg gtccccagcg caaccacctt gctggcgcca tcgacaagca gaacgaggat 4140
gcttggacga ccatcgtcaa gcttgtggct tcgctcaagg cccaccttgt tcctggcgtc 4200
acgatctcgc cgctgtacca ctccaagctt gtggcggagg ctgaggcttg ctacgctgcg 4260
ctctgcaagg gtgaaaagcc caagaagaac aagtttgtgc gcaagattca gctcaacggt 4320
cgcttcaaca gcaaggcgga ccccatctcc tcggccgatc ttgccagctt tccgcctgcg 4380
gaccctgcca ttgaagccgc catctcgagc cgcatcatga agccggttgc tccgaagttc 4440
tacgcgcgtc tcaacattga cgagcaggac gagacccgtg atccgatcct caacaaggac 4500
aacgcgccgt cttccagctc tagctcctct tccagctctt ccagctcttc cagcccgtcg 4560
ccagctccgt ccgccccagt gcaaaagaag gctgctccgg ccgcggagac caaggctgtt 4620
gcttcggctg acgcacttcg cagtgccctg ctcgatctcg acagtatgct tgcgctgagc 4680
tctgccagtg cctccggcaa ccttgttgag actgcgccta gcgacgcctc ggtcattgtg 4740
ccgccctgca acattgcgga tctcggcagc cgcgccttca tgaaaacgta cggtgtttcg 4800
gcgcctctgt acacgggcgc catggccaag ggcattgcct ctgcggacct cgtcattgcc 4860
gccggccgcc agggcatcct tgcgtccttt ggcgccggcg gacttcccat gcaggttgtg 4920
cgtgagtcca tcgaaaagat tcaggccgcc ctgcccaatg gcccgtacgc tgtcaacctt 4980
atccattctc cctttgacag caacctcgaa aagggcaatg tcgatctctt cctcgagaag 5040
ggtgtcacct ttgtcgaggc ctcggccttt atgacgctca ccccgcaggt cgtgcggtac 5100
cgcgcggctg gcctcacgcg caacgccgac ggctcggtca acatccgcaa ccgtatcatt 5160
ggcaaggtct cgcgcaccga gctcgccgag atgttcatgc gtcctgcgcc cgagcacctt 5220
cttcagaagc tcattgcttc cggcgagatc aaccaggagc aggccgagct cgcccgccgt 5280
gttcccgtcg ctgacgacat cgcggtcgaa gctgactcgg gtggccacac cgacaaccgc 5340
cccatccacg tcattctgcc cctcatcatc aaccttcgcg accgccttca ccgcgagtgc 5400
ggctacccgg ccaaccttcg cgtccgtgtg ggcgccggcg gtggcattgg gtgcccccag 5460
gcggcgctgg ccaccttcaa catgggtgcc tcctttattg tcaccggcac cgtgaaccag 5520
gtcgccaagc agtcgggcac gtgcgacaat gtgcgcaagc agctcgcgaa ggccacttac 5580
tcggacgtat gcatggcccc ggctgccgac atgttcgagg aaggcgtcaa gcttcaggtc 5640
ctcaagaagg gaaccatgtt tccctcgcgc gccaacaagc tctacgagct cttttgcaag 5700
tacgactcgt tcgagtccat gccccccgca gagcttgcgc gcgtcgagaa gcgcatcttc 5760
agccgcgcgc tcgaagaggt ctgggacgag accaaaaact tttacattaa ccgtcttcac 5820
aacccggaga agatccagcg cgccgagcgc gaccccaagc tcaagatgtc gctgtgcttt 5880
cgctggtacc tgagcctggc gagccgctgg gccaacactg gagcttccga tcgcgtcatg 5940
gactaccagg tctggtgcgg tcctgccatt ggttccttca acgatttcat caagggaact 6000
taccttgatc cggccgtcgc aaacgagtac ccgtgcgtcg ttcagattaa caagcagatc 6060
cttcgtggag cgtgcttctt gcgccgtctc gaaattctgc gcaacgcacg cctttccgat 6120
ggcgctgccg ctcttgtggc cagcatcgat gacacatacg tcccggccga gaagctgtaa 6180
<210> 70
<211> 8394
<212> DNA
<213> Artificial
<220>
<223> synthetic
<220>
<221> misc_feature
<222> (227)..(227)
<220>
<221> misc_feature
<222> (227)..(227)
<223> n is a, c, g, or t
<400> 70
ccgcgaatca agaaggtagg cgcgctgcga ggcgcggcgg cggagcggag cgagggagag 60
ggagagggag agagagggag ggagacgtcg ccgcggcggg gcctggcctg gcctggtttg 120
gcttggtcag cgcggccttg tccgagcgtg cagctggagt tgggtggatt catttggatt 180
ttcttttgtt tttgtttttc tctctttccc ggaaagtgtt ggccggncgg tgttctttgt 240
tttgatttct tcaaaagttt tggtggttgg ttctctctct tggctctctg tcaggcggtc 300
cggtccacgc cccggcctct cctctcctct cctctcctct cctctccgtg cgtatacgta 360
cgtacgtttg tatacgtaca tacatcccgc ccgccgtgcc ggcgagggtt tgctcagcct 420
ggagcaatgc gatgcgatgc gatgcgatgc gacgcgacgc gacgcgagtc actggttcgc 480
gctgtggctg tggcttgctt gcttacttgc tttcgagctc tcccgctttc ttctttcctt 540
ctcacgccac caccaacgaa agaagatcgg ccccggcacg ccgctgagaa gggctggcgg 600
cgatgacggc acgcgcgccc gctgccacgt tggcgctcgc tgctgctgct gctgctgctg 660
ctgctgctgc tgctgctgct gctgctgctt ctgcgcgcag gctttgccac gaggccggcg 720
tgctggccgc tgccgcttcc agtccgcgtg gagagatcga atgagagata aactggatgg 780
attcatcgag ggatgaatga acgatggttg gatgcctttt tcctttttca ggtccacagc 840
gggaagcagg agcgcgtgaa tctgccgcca tccgcatacg tctgcatcgc atcgcatcgc 900
atgcacgcat cgctcgccgg gagccacaga cgggcgacag ggcggccagc cagccaggca 960
gccagccagg caggcaccag agggccagag agcgcgcctc acgcacgcgc cgcagtgcgc 1020
gcatcgctcg cagtgcagac cttgattccc cgcgcggatc tccgcgagcc cgaaacgaag 1080
agcgccgtac gggcccatcc tagcgtcgcc tcgcaccgca tcgcatcgca tcgcgttccc 1140
tagagagtag tactcgacga aggcaccatt tccgcgctcc tcttcggcgc gatcgaggcc 1200
cccggcgccg cgacgatcgc ggcggccgcg gcgctggcgg cggccctggc gctcgcgctg 1260
gcggccgccg cgggcgtctg gccctggcgc gcgcgggcgc cgcaggagga gcggcagcgg 1320
ctgctcgccg ccagagaagg agcgcgccgg gcccggggag ggacggggag gagaaggaga 1380
aggcgcgcaa ggcggccccg aaagagaaga ccctggactt gaacgcgaag aagaagaaga 1440
aggagaagaa gttgaagaag aagaagaaga aggagaggaa gttgaagaag acgaggagca 1500
ggcgcgttcc aaggcgcgtt ctcttccgga ggcgcgttcc agctgcggcg gcggggcggg 1560
ctgcggggcg ggcgcgggcg cgggtgcggg cagaggggac gcgcgcgcgg aggcggaggg 1620
ggccgagcgg gagcccctgc tgctgcgggg cgcccgggcc gcaggtgtgg cgcgcgcgac 1680
gacggaggcg acgacgccag cggccgcgac gacaaggccg gcggcgtcgg cgggcggaag 1740
gccccgcgcg gagcaggggc gggagcagga caaggcgcag gagcaggagc agggccggga 1800
gcgggagcgg gagcgggcgg cggagcccga ggcagaaccc aatcgagatc cagagcgagc 1860
agaggccggc cgcgagcccg agcccgcgcc gcagatcact agtaccgctg cggaatcaca 1920
gcagcagcag cagcagcagc agcagcagca gcagcagcag cagccacgag agggagataa 1980
agaaaaagcg gcagagacga tgggtccccg tgttgcttcc ggtaaggttc cggcctggga 2040
gatgtcgaag tcggagctct gcgatgaccg cacggtcgtg tttgattacg aggagctcct 2100
tgagttcgcc gagggtgaca tctccaaggt gttcggtccg gagtttaaag tcgttgacgg 2160
ctttcgtcgc cgcgtccgcc tccccgcgcg tgagtacctc cttgtcaccc gcgtcacgct 2220
tatggacgcc gaggtgggta actttcgcgt gggcgctcgc atggttactg agtacgacgt 2280
tccggtcaac ggcgagctgt ctgagggcgg cgacgtgccc tgggccgttc ttgtcgaggc 2340
cggccagtgc gacctcctcc tcatctcgta catgggcatc gacttccagt gcaagggaga 2400
gcgcgtctac cgcctcctca acaccaccct tacgttcttc ggcgtcgcca aggagggcga 2460
gactctcgtg tacgacatcc gcgtcactgg tttcgccaag cgccctgacg gcgacatctc 2520
gatgttcttc tttgagtacg actgctactg caacggtaag ctcctcatcg agatgcgcga 2580
tggttctgcc ggctttttca ctgatgagga gctcgctgcc ggcaagggcg tcgtcgtcac 2640
gcgtgcccag caaaacatgc gcgacaagat cgtccgtcag tccatcgagc cgtttgcgct 2700
cgccgcctgc actcacaaga cgaccctcaa cgagtccgac atgcagtccc tcgtcgagcg 2760
caactgggcg aacgtgttcg gcaccagcaa caagatggcc gagctcaact acaagatttg 2820
cgcccgcaag atgctcatga tcgaccgcgt gacccacatc gaccatcatg gcggcgctta 2880
cggcctcggc ctccttgtcg gcgaaaagat cctcgatcgt aaccattggt acttcccctg 2940
ccactttgtg aatgaccaag ttatggccgg ctcccttgtc tctgacggct gttcgcagct 3000
gcttaagctt tacatgatct ggctcggcct ccacctcaag atggaggagt tcgattttct 3060
ccccgtcagc ggccacaaga acaaggtccg ctgccgcgga cagatttcgc cccacaaggg 3120
taagctcgtc tacgtgatgg agattaagaa gatgggctac gaccaggctt cgggcagccc 3180
ctacgccatt gcggacgttg atatcattga tgtcaacgag gagctcggcc agtcgtttga 3240
catcaacgat ctcgcgtcgt acggtaaggg cgacctctcg aagaagattg ttgtcgattt 3300
caaaggtatc gctctccagc tgaaaggccg cgccttctcc cgcatgtcct cctcgtcctc 3360
cctcaacgag ggctggcagt gcgtgcccaa gccgtcgcag cgcatggagc acgagcaacc 3420
ccctgcccat tgcctcgcct ccgatccgga ggcccctagc acggtgacgt ggcaccccat 3480
gagcaagctc cccggcaacc ccaccccctt cttttctccc tcgtcgtatc cgccccgtgc 3540
tatctgcttc atcccttttc cgggcaaccc gctcgacaac aactgcaagg ccggcgagat 3600
gcccctcaac tggtacaaca tgagcgaatt catgtgcggt aaggtcagca actgcctcgg 3660
cccggagttc gcccgctttg acaagagcaa cacctcccgc tcccccgcct tcgaccttgc 3720
gctcgtcacg cgcgtcgtcg aggtcaccaa catggagcac ggcaagttcc tcaacgtcga 3780
ctgtaaccct tcgaagggca cgatggtggg agagttcgac tgcccgcagg acgcctggtt 3840
ctttgacggc tcctgcaatg acggtcatat gccgtactcc atcatcatgg agatcggcct 3900
tcagacgtct ggtgtcctca cgtcggtgct caaggctcct ctcacgatgg acaaggacga 3960
catcctcttt cgcaaccttg atgcctcggc tgagatggtg cgccctgacg tcgatgtccg 4020
cggcaagacc atccgcaacg tgaccaagtg taccggctac gccatgcttg gtaagatggg 4080
tatccatcgc tttacctttg agctctccgt ggacggcgtc gtcttttaca agggcagcac 4140
cagcttcggc tggtttacgc cggaagtgtt tgcccagcag gccggtctgg acaacggcaa 4200
gaagaccgag ccctggtgca agaccaacaa cacctccgtc cgccgcgtcg agatcgccag 4260
cgctaagggt aaggagcagc tcacggagaa gctccctgat gctaccaacg cccaggttct 4320
ccgccgctcc gagcagtgcg agtacctcga ctacctcaac atcgcccccg actccggcct 4380
tcacggcaag ggttacgcgc acggccacaa ggacgtcaac ccccaggact ggtttttctc 4440
gtgccacttc tggttcgacc cggtgatgcc cggctcgctt ggcattgagt ccatgttcca 4500
gctcatcgaa gcctttgctg tcgaccagaa tatccctggc gagtacaatg tttcgaaccc 4560
gacctttgcc catgcccccg gtaagaccgc ttggaagtat cgcggccagc tcactcccaa 4620
gaaccgcgct atggactgcg aggtccacat cgtcagcatc acggcgagcc cggagaacgg 4680
cggctacgtc gacatcgtcg ccgacggcgc cctttgggtc gatggcctcc gcgtttacga 4740
ggccaaggag ctccgtgtcc gcgtcgtcag cgccaagccg caagctatcc cggatgtcca 4800
gcagcagcct ccctcggcta aggccgaccc tggcaagacc ggtgtcgccc tcagccccac 4860
ccagctccgc gatgtcctcc tggaggtcga caaccctctg tacctcggtg tcgagaactc 4920
caaccttgtc cagttcgaaa gcaagccggc gacgtcctcc cgcatcgtgt ccattaagcc 4980
gtgttctatc tccgacctcg gcgacaagtc tttcatggag acttacaacg tgtctgcgcc 5040
tctttacacc ggcgcgatgg ccaagggtat tgccagcgct gacctcgtca tcgccgctgg 5100
caagcgtaag atcctcggtt cgttcggtgc cggtggcctc ccgatctcca tcgttcgcga 5160
ggcccttgag aagatccagc agcacctccc ccacggccct tacgccgtca accttatcca 5220
ctccccgttc gactcgaacc tggagaaggg caatgtcgac ctttttcttg aaatgggtgt 5280
caccgtcgtc gagtgctcgg ctttcatgga gctcacggct caggtcgttc gctaccgcgc 5340
ttccggcctc tccaagagcg cggacggcag catccgcatc gcgcaccgca tcatcggcaa 5400
ggtgagccgc actgagcttg ccgagatgtt catccgtcct gcccctcagc accttctcca 5460
gaagctggtc gccagcggcg agctcaccgc cgaacaggcc gagcttgcca cgcaagtccc 5520
ggtcgccgat gacatcgcgg tcgaggccga ttcgggcggt cacaccgaca accgcccgat 5580
ccacgtgatt ctccccctta ttatcaacct ccgcaaccgc cttcacaagg agctcgacta 5640
cccctcgcac ctgcgcgtgc gcgtgggagc cggcggtggt atcggctgcc ctcaggcggc 5700
cctggcggcc tttcagatgg gcgctgcttt cctgattacc ggcaccgtca accagctcgc 5760
ccgtgagtcg ggcacctgcg acaacgtccg ccttcagctc tccaaggcca cctacagcga 5820
cgtgtgcatg gcccctgccg cggacatgtt tgaccagggc gtggagcttc aggtgctcaa 5880
gaagggcacg ctgttcccca gccgcgccaa gaagctctac gagctcttct gcaagtacga 5940
ctccttcgag gccatgccgg ccgaggagct tcagcgtgtc gagaagcgca tctttcagaa 6000
gtcgctggcc gaggtttggc aggagacttc ggatttctac attcaccgca ttaagaaccc 6060
tgagaagatc aatcgcgctg ccagcgacgg taaactcaag atgtcgcttt gcttccgctg 6120
gtatcttggc ctctcgtcgt tctgggccaa ctccggtgcc caggaccgcg tcatggacta 6180
ccagatttgg tgcggtcccg cgatcggagc cttcaacgat tttaccaagg gcacctacct 6240
cgacgtcacg gttgccaagt cttacccgtg cgttgcccag atcaacctcc aaatccttca 6300
gggtgcggct tacctcaagc gcctcggtgt gatccgcttc gaccgcatgc tcctccaggc 6360
ggtcgacatc gatgacccgg ttttcacgta cgtccccacc cagcccctct aagaaagtga 6420
accttgtcct aacccgacag cgaatggcgg gagggggcgg gctaaaagat cgtattacat 6480
agtatttttc ccctactctt tgtgtttgtc tttttttttt tttgaacgca ttcaagccac 6540
ttgtctbggt ttacttgttt gttygcttgc ttgcttgctt gcttgcctgc ttcttggtca 6600
gacggcccaa aaaagggaaa aaattcattc atggcacaga taagaaaaag aaaargtttg 6660
tcgaccaccg tcatcagaaa gcaagagaag agaaacactc gcgctcacat tctcgctcgc 6720
gtaagaatct tagccacgca tacgaagtaa tttgtccatc tggcgaatct ttacatgagc 6780
gttttcaagc tggagcgtga gatcatacct ttcttgatcg taatgttcca accttgcata 6840
ggcctcgttg cgatccgcta gcaatgcgtc gtactcccgt tgcarctgcg ccatcgcctc 6900
attgtgacgt gagttcagat tcttctcgag accttcgagc gctgctaatt tcgcctgacg 6960
ctccttcttt tgtgcttcca tgacacgccg cttcaccgtg cgttccactt cttcctcaga 7020
catgcccttg gctgcctcga cctgctcggt aagcttcgtc gtaatctcct cgatctcgga 7080
attcttcttg ccctccatcc actcggcacc atacttggca gcctgttcaa cacgctcatt 7140
gaaaaacttt tcattctctt ccagctccgc aacccgcgct cgaagctcat tcacttccgc 7200
caccacggct tcggcatcga gcgccgaatc agtcgccgaa ctttccgaaa gatacaccac 7260
ggcccctccg ctgctgctgc gcagcgtcat catcagtcgc gtgttatckt cgcgcagatt 7320
ctccacctgc tccgtaagca gcttcacggt ggcctcttga ttctgagggc tcacgtcgtg 7380
gattagcgct tgcagctctt gcagctccgt cagcttggaa gagctcgtaa tcatggcttt 7440
gcacttgtcc agacgtcgca gagcgttcga gagccgcttc gcgttatctg ccatggacgc 7500
ttctgcgctc gcggcctccc tgacgacagt ctcttgcagt ttcactagat catgtccaat 7560
cagcttgcgg tgcagctctc caatcacgtt ctgcatcttg tttgtgtgtc cgggccgcgc 7620
ctcgtcttgc gatttgcgaa tttcctcctc gagctcgcgt tcgagctcca rggcgccttt 7680
aagtagctcg aagtcagccg ccgttagccc cagctccgtc gccgcgttca gacagtcggt 7740
tagcttgatt cgattccgct tttccatggc aagtttaaga tcctggccca gctgcacctc 7800
ctgcgccttg cgcatcatgc gcggttccgc ctggcgcaaa agcttcgagt cgtatcctgc 7860
ctgccatgcc agcgcaatgg cacgcacgag cgacttgagt tgccmactat tcatcgccga 7920
gatgagcagc attttgatct gcatgaacac ctcgtcagag tcgtcatcct ctgcctcctc 7980
cagctctgcg ggcgagcgac gctctccttg cagatgaagc gagggccgca ggcctccgaa 8040
gagcacctct tgcgcgagat cctcctccgt cgtcgccctc cgcaggatyg cggycgtgtc 8100
cgccatcttg ccgccacagc agcttttgst cgctctgcac cttcaatttc tggtgccgct 8160
ggtgccgctg gtgccgcttg tgctggtgct ggtgctggtg ctggtgctgg tgccttgtgc 8220
tggtgctgcc acagacaccg ccgctcctgc tgctgctctt ccggccccct cgccgccgcc 8280
gcgagccccc gccgcgcgcc gtgcctgggc tctccgcgct ctccgcgggc tcctcggcct 8340
cggcctcgcc gtccgcgacg acgtctgcgc ggccgatggt gcggatctgc tcta 8394
<210> 71
<211> 12495
<212> DNA
<213> Artificial
<220>
<223> synthetic
<400> 71
cgactgcgag ggctcttgcg tcatccgcct gatgcggccg ccggccggaa gaggccgccc 60
cgcagcctcc ccggtgcggg gccgcgccgg gatgcctcgc ctgcgtcccc agcgatgcga 120
ggcggcgacg tctgtgctgc cgtcaggtcc tgtgcgaggt cccactgtta atattaagta 180
cgtaccgcac aggacccgga gtagcgcggc gcggggacga cctccgacgc ggccggaaga 240
cggcgcccac agcacgcgct cgggttcgcg ggcggcggcc gcgcgaagtg cgtaagcaga 300
cggcgcgcgg tccggctgcg ggggaagaag gtgtggaagg tgcgggggga acccgtggcc 360
gcctacgtgt gcctgcgacg gaggcgcggc ggcgcccggc acctaggaac tgtctaagag 420
ggcttacaac ggacagcccg tcacaggcgc agaggcggcg gcggcgggtc tttccttctc 480
tcccggcaga aagagaggga gggagagaga gagaaagcct gaatgtggct gcgatggaga 540
cttgggcagc gataatgact tggtgggctg aagattactc tcagcattgc tgcgcgctta 600
gcattcttgc ggcattggcc aggtcggcgt cgggtttcgc ttgcggcgac gaccgagggt 660
cgttggatcg cgcggcagat tagacaggca gctgggacgc acgcacgcac gcacgaacga 720
acaaacaaac gagagaacgt gcgtacgggc ctgctggccg cggatgcaga aaagtgaatg 780
gaattttcca ctacagccag cgagccctgt cagccagcta gctgcagctt gagcggagcg 840
gcggctgttg ctgcgtctct tgaacttgaa ttcgaatgga tgtatgtact tgcttgcctc 900
ttgatgctgc gttgacttgt ggatgatgtt caaagtggca ggcacaccac ctaaaatcaa 960
aaaatgtaaa ggcgcggcgc agaaccgtgc atctgccgag gagcgcgtgc accgctgccg 1020
tgcgtgcggt gcgtgcgtgc tcgcctgcat ccgcgtcgcc ggcaaggtct ctgtgctgta 1080
tctatcgctc gcattcgaat cgctcgcgcc ttctgctccg acgtgcccta aaacatagag 1140
tccatcatta ggctagtgat actctatgtg acttgcttcc ttcctggaga ggaagaatga 1200
ataccgtatg gtatcaggta tgaagaaaac caacctcgcg cctccggacc caccgccgcg 1260
cggccagcca gatccgcgcg gccagctcgt ccatgccagc ctcgggaggt atccatcccc 1320
tccgcgccgg cagctgtcgg tctctcgcca tcgcctgtgc cgctcgaaga agtttcagca 1380
acctctccgt cctgcgccat ggcaccatct tatcttctcc gcgtcccact cttctctccc 1440
aaagcctgca cctcaaaggc gaggccgggc caggccgcag ccgcgccacg agaagcccca 1500
tcacgccgcc tcgcacgcgg ccgcgcgcgt ctgcgcgaga cggcgctgtt attttctttt 1560
cttttctttt cttttcttct ctcctccccg ctctcctcgc ttcctgcgcg ccgctgcggg 1620
ggcgaaggaa gacagggggg ctcgggagga agaggaggcg agggaaggaa ggagggcggc 1680
gacggcatcg ccagacgacg acggcggcgg cgggggacgc ggggcgcgcg tccccccgtg 1740
cgtggcagca tgatgcatgc gatgcgcgcg atgcgtgcgg cgcgaggagg cgaggcccga 1800
tgggcggagg cgagcggggt ggatacgggc ggcggcgggc gggagcggga ggcaggcaga 1860
ccccgaaccc cgagggtaaa actacacaaa cagacagaca gcctgcggct gcctggcaac 1920
aagactcacg cacgcacgca cgcaccgatc ggtcgagcga gcgagcgctt gatcgaacgg 1980
acgtgagaac cagcaaggaa gcagcagcag cagcagcagc agcaacagct cgagagagag 2040
aaaatgaagg atatggagga tcgccgcgtc gccattgtcg gtatgtcggc ccatctcccc 2100
tgcggcaccg acgtgaagga gtcgtggcag gccattcgtg atggtatcga ttgcctgtct 2160
gacctccccg ccgaccgcct cgacgtcacg gcgtactaca accccaacaa ggccactaag 2220
gataagattt actgcaagcg cggtggcttt attcccaact acgattttga tcctcgcgag 2280
tttggcctta acatgttcca gatggaggac tccgacgcca accagactct cactcttctg 2340
aaggtcaagc aggccctgga ggacgcttcc attgagccct ttaccaagga gaagaagaac 2400
atcggctgcg tcctcggaat cggcggtggc cagaaggcca gccacgagtt ttactctcgc 2460
ctcaactacg ttgtcgtcga gaaggtcctc cgcaagatgg gcctccctga tgccgacgtt 2520
gaggaggccg tggagaagta caaggccaat tttcctgagt ggcgcctcga cagcttccct 2580
ggcttcctcg gcaacgtcac tgctggccgc tgctccaaca cctttaacat ggagggtatg 2640
aactgcgtgg tggacgccgc ctgcgcctcc tccctcatcg ccattaaggt ggcggtggag 2700
gagctcctct tcggcgactg cgacaccatg attgccggtg ccacctgcac ggataactcg 2760
ctcggcatgt acatggcttt ttccaagacg ccggtgttca gcaccgaccc ctccgtccgc 2820
gcctacgatg aaaagactaa gggcatgctt atcggcgagg gctccgccat gttcgtgctc 2880
aagcgctacg ccgacgcggt ccgtgatggc gacactatcc acgccgttct ccgtagctgc 2940
tcgtccagca gcgacggcaa ggccgctgga atttacacgc ctacgatctc gggccaggag 3000
gaggccctcc gccgtgccta cgcccgcgct ggcgtctgcc cctcgaccat cggcctcgtt 3060
gagggtcacg gcaccggcac gccggtcggc gaccgcatcg agctcactgc cctccgcaat 3120
ctcttcgaca aggcttttgg ctccaagaag gaacaaatcg ctgtcggttc catcaagtct 3180
cagatcggcc acctcaagag cgtggccggc tttgctggcc tggtcaaggc ggtcctggcc 3240
ctcaagcaca agacgctccc tggctcgatt aacgtggacc agcctcccct cctttacgac 3300
ggcacgcaga tccaggactc gtccctgtac attaacaaga ctaaccgccc ctggtttacc 3360
caaaacaagc tccctcgccg tgcgggtgtc agctccttcg gttttggtgg cgccaactac 3420
cacgccgtcc tcgaagagtt tgagcccgag cacgagaagc cttaccgcct caacacggtc 3480
ggccaccccg tcctcctcta cgcccccagc gtcgaggccc tcaaggtcct ttgcaacgac 3540
cagctcgccg aactcaccat cgcgcttgag gaggccaaga cccacaagaa cgtggacaag 3600
gtttgcggtt acaagtttat cgacgagttc cagctccagg gtagctgccc tcctgagaac 3660
ccccgcgtcg gctttctcgc cactctcccg acgtccaaca tcatcgtcgc tctcaaggcg 3720
atcctcgctc agctcgatgc caagcctgac gccaagaagt gggacctccc gcacaagaag 3780
gctttcggtg ctaccttcgc ctcgtcgtcg gtcaagggct cggttgccgc gctgttcgcc 3840
ggccagggca ctcagtacct caacatgttt tccgatgtcg cgatgaactg gccccctttc 3900
cgcgattcga tcgtggccat ggaggaggcc cagaccgagg tgttcgaggg ccaggttgaa 3960
cccatttcga aggtcctctt tccgcgcgag cgttacgcct cggagtcgga gcagggcaac 4020
gagctgctct gcctcaccga gtactcgcag cccactacaa ttgccgccgc tgtcggcgcc 4080
tttgacatct tcaaggcggc tggctttaag cccgatatgg tcggaggcca ctcccttggc 4140
gagtttgctg ccctgtacgc cgctggctcg atctctcgcg atgacctcta caagctcgtc 4200
tgcaagcgtg ccaaggcgat ggcgaacgcg agcgatggag ccatggccgc tgtgatcggt 4260
cccgatgctc gcctcgtcac tcctcagaac tccgacgtct acgtcgccaa tttcaatagc 4320
gcgacgcagg tcgtcatcag cggcacggtg cagggcgtca aagaggagag caagctcctt 4380
attagcaagg gttttcgcgt cctgcctctg aagtgccagg gcgccttcca ctccccgctc 4440
atgggacctt ccgaggactc cttcaagtcg ctcgttgaga cttgtactat ctccccgcct 4500
aagaacgtca agttcttttg caacgtgagc ggcaaggagt cgcctaatcc gaagcagact 4560
ctcaagtctc acatgaccag ctccgtccag tttgaggagc agatccgcaa catgtacgat 4620
gccggtgccc gtgtctttct ggagtttggc cctcgccagg tgctcgccaa gctcatcgcc 4680
gagatgttcc cctcgtgcac cgccatctcg gtcaacccgg cctcctcggg cgactcggac 4740
gtccagctcc gcctcgcggc cgtcaagttt gcggtgtccg gcgctgccct ctcgacgttt 4800
gacccctggg agtaccgcaa gccccaggac ctccttatcc gcaagccccg caagaccgcg 4860
ctcgtcctct ctgctgccac gtacgtttcg cctaagaccc tcgccgagcg caagaaggcc 4920
atggaggaca tcaagctcgt gtcgatcacc cctcgcgact cgatggtttc gattggtaag 4980
atcgctcaag aggtccgcac tgctaagcag cccctcgaaa ccgagattcg ccgcctcaac 5040
aaggagctcg aacacctcaa gcgcgagctc gcggctgcca aagcttcggt caagtctgcc 5100
tccaagtcct ctaaggagcg cagcgtcctc tccaagcacc gcgccctcct ccagaacatc 5160
ctccaagact acgacgacct ccgcgtcgtc cccttcgccg tccgctcggt cgccgtggac 5220
aacaccgcgc cgtacgccga ccaggtcagc acccctgcct cggagcgtag cgcgtcgccc 5280
cttttcgaga agcgttcctc cgtttcgtcg gctcgcctgg ccgaggcgga ggccgccgtc 5340
ctctctgtgc tcgccgacaa gacgggctac gacagctcga tgatcgagat ggacatggac 5400
ctggagagcg agcttggcgt ggactccatc aagcgcgtcg agatcatgtc cgaggtccag 5460
actcttctct cggtcgaggt cagcgatgtt gacgctctca gccgcaccaa aacggtcggc 5520
gacgtgatcg aggctatgaa gctcgaactt ggcggacccc aaggccagac cctcaccgcc 5580
gagtcgatcc gtcagcctcc cgtgtcggag cccgccgtcc cgacgtcctc ctcttcctcc 5640
atcgctaacg tctcttctgc tcgcctcgcc gaggctgaag ctgctgttct ttctgtcctc 5700
gccgacaaga ccggctacga ctcgtccatg attgagatgg acatggacct cgaaagcgag 5760
ctcggcgtcg acagcattaa gcgcgtcgag atcatgtccg aggtgcagac ccttctcagc 5820
gtggaggttt cggacgtcga tgccctctcc cgcactaaga ccgtcggcga tgtcatcgag 5880
gccatgaagc tcgaactcgg cggtcctcag ggtcaaacgc tgaccgccga gtcgattcgc 5940
cagccccctg tttccgagcc ggccgtgccg acgtcgtcgt cgagctcgat cgccaacgtt 6000
tccagcgccc gcctcgccga ggccgaagcc gccgtcctct ccgtcctcgc ggacaagacc 6060
ggttacgact cctcgatgat tgaaatggac atggatcttg agtctgagct tggcgtcgat 6120
tccatcaagc gcgttgagat catgtcggaa gtgcaaactc tcctttctgt tgaagtctct 6180
gatgtcgatg ctctcagccg cacgaaaacc gtcggtgacg tcatcgaggc catgaagctc 6240
gaactcggtg gccctcaggg ccagaccctc accgccgagt ccatccgtca accgcccgtg 6300
tccgagcccg ccgtcccgac ctcctcgtcg agctcgattg cgaacgttct ctcggcgcgt 6360
ctcgcggagg ccgaggccgc ggtcctctcg gtcctcgccg acaagacggg ctacgactcc 6420
agcatgatcg agatggacat ggacctcgaa tctgagctcg gcgtcgacag cattaagcgc 6480
gtcgagatta tgagcgaggt ccagaccctc ctctccgtgg aggtttcgga cgtggacgcg 6540
ctctcgcgta ccaagaccgt tggcgacgtt attgaggcca tgaaactcga actcggtggc 6600
cctcagggac agaccctcac tgccgagtcg attcgccagc ctccggtttc tgagcctgct 6660
gttcctacgt cctcttcttc ttctattgct aatgtcagct cggcgcgcct cgcggaggcc 6720
gaggctgccg tgctctcggt tctcgcggac aagaccggct atgactcgtc catgattgag 6780
atggatatgg atcttgagtc cgagctgggc gtcgatagca tcaagcgtgt ggaaatcatg 6840
tccgaagtcc agaccctcct ctcggtcgag gtcagcgatg tcgacgccct ctcgcgcacc 6900
aagaccgtcg gcgatgtcat cgaggccatg aaacttgagc tcggcggacc tcagggacag 6960
accctcacgt ccgagccgat ccaccagccg cccgtgagcg agccggccgt cccgacttcg 7020
agctcctcgt ccatcgccaa tgtctctagc gctcgcctcg ccgaggccga ggccgccgtg 7080
ctgtccgtcc tcgccgataa gaccggatat gactccagca tgatcgagat ggacatggac 7140
cttgagtccg agctgggtgt tgattctatt aagcgtgttg agattatgtc ggaggtgcag 7200
acccttctct cggtcgaagt ctctgatgtc gatgccctct ctcgtaccaa gactgtcggc 7260
gacgtcatcg aggctatgaa gatggagctc ggcggacccc agggccagac tcttaccgcc 7320
gaatctatcc gccagccgcc tgtcagcgag cctgccgtcc ctacctcctc gtcctcgtcg 7380
attgccaacg tttcttctgc ccgtcttgcc gaggccgagg cggccgtcct ctcggtcctc 7440
gcggacaaga ccggttatga ttcgtcgatg attgagatgg acatggacct tgagtcggag 7500
ctcggagtcg acagcatcaa gcgcgtcgag atcatgtcgg aggtccaggc tctcctctcc 7560
gtcgaggtta gcgatgtcga cgccctctcg cgcaccaaga ccgttggcga tgttattgag 7620
gccatgaaaa tggagctcgg tggtccgcag ggccagaccc tcactgccga gtcgattcgc 7680
gagccgccgg tttccgagcc ggccgtgccc acgagcagct cgtcgagcat cgctaacgtc 7740
agctcggccc gccttgccga ggccgaggct gctgtcctct ccgtgctcgc cgataagact 7800
ggttatgact cgtccatgat tgagatggac atggacctgg agtccgagct cggcgtggac 7860
tcgatcaagc gcgttgagat catgtctgag gtgcagaccc tgctttccgt cgaggtgagc 7920
gacgtcgatg ccctgtcgcg taccaagact gtgggtgacg tcatcgaggc gatgaagctg 7980
gagctcggag agtcgagctc gattgagact cttaattgca ccgaggtcga gcacacgtcc 8040
tacaagagcg tcaaggccag cggatgcgag aacgtggaca cccgtttcgc caaagtggtc 8100
cagatcagcc tcccgtccaa gcttaagagc accgtcagcc atgaccgccc ggtcattgtt 8160
gtggatgacg gcaccccgct taccacggag ctctgcaaga ttctcggtgg caacattgtc 8220
gttctcagct accagggcaa gcctgccggc cctcgtggcg tcgaggttcc cgacctctcg 8280
gaggaggccc tcatccaggc gctcgccctc attcgctcga cctacggcgt ccccattggt 8340
ttcatctgcc agcaggtttc caacgtcagc accaaggccc agctctgctg ggcgctgctg 8400
gccgctaagc acctcaagaa ggacctcaat gccgtcctcc ctgactcccg ctcgtttttc 8460
gtgggcgttg tccgcctcaa cggcaagctg ggcacctttg agaacatttc cgactttagc 8520
aagttcgatc tcactaaggc gctcgactac ggccagcgcg gctccctcct cggcctgtgc 8580
aagagcctcg atcttgagtg ggagcaggtt ttctgccgcg gcatcgacct ggcctgcgac 8640
ctcatgcctc tccaagccgc gcgtatcctc cgcaacgagc tccagtgccc gaacatgcgc 8700
ctgcgcgagg tcggctacga tatctcgggc gctcgctaca ccatctccac cgacgacctt 8760
ctttgcggcc ctagcaaggc caaggtcgaa gcggcggacc tctttcttgt cacgggtggt 8820
gcccgcggta tcactcccca ctgcgtccgc gagatcgcct cgcgtagccc cggcacgacg 8880
tttgttctcg tcggccgctc cgagatgagc gacgagcccg actgggccgt gggtcactac 8940
aacaaggatc tcgaccagtc cacgatgaag cacctgaagg ccacgcatgc tgccggaggc 9000
gtgaagccga ctcccaaggc gcaccgcgcc cttgtcaacc gtgtcaccgg ctcgcgcgag 9060
gtccgcgaga gcctgcgcgc cattcaggag gcgggtgcga acgttgagta catcgcctgc 9120
gacgtcagcg acgagaacaa ggtgcgccag ctcgtccagc gcgtggagca gaagtacggt 9180
tgcgagatta cgggcatctg gcacgcctcg ggtgttctcc gcgacaagct cgtggagcaa 9240
aagaccacgg acgacttcga ggccgtgttt ggcactaagg tcacgggcct cgtgaacatc 9300
gtcagccagg tcaacatgtc caagctgcgc catttcatcc tcttctcctc gctcgcgggc 9360
tttcacggca acaagggcca gaccgactac gccatcgcca acgaggccct caacaagatc 9420
gcccacaccc tttccgcctt tctccccaag ctcaacgcga aggtcctcga ctttggcccg 9480
tgggtcggct ccggcatggt cacggagact cttgagaagc actttaaggc catgggcgtc 9540
cagaccatcc ccctcgaacc gggtgcccgc accgtggccc agatcatcct cgccagctct 9600
ccgccccagt ccctcctcgg taactggggc ttccccgcca cgaaacccct tcagcgctcc 9660
aacgtggtca ccggcaccct ctcgccggag gagatcgaat ttatcgccga tcacaagatc 9720
cagggccgca aggttctccc gatgatggcc gccatcggct tcatggcgtc gatcgccgag 9780
ggcctctacc ctggctacaa ccttcagggc gttgagaacg ctcagctttt tcagggcctc 9840
accatcaacc aggaaaccaa gttccagatc acgctcatcg aggagcacaa ctccgaggag 9900
aacctcgacg tcctcaccag cctcggtgtc atgctcgaaa gcggcaaggt gcttcccgcc 9960
taccgttgcg tcgtctgcct caacactacc cagcagcagc ccaagctcag ccccaagatc 10020
ctcaacctgg aggttgaccc cgcctgcgag gtcaacccct acgacggcaa gtccctcttt 10080
cacggcccgc tcctccaatt tgtccagcag gtcctccact cgtcgacgaa aggcctcgtg 10140
gcgaagtgcc gtgccctgcc gattaaggag gccatccgtg gcccgttcat caagcagacg 10200
ctccacgacc cgatcctcga cgacgtcatc tttcagctca tgctcgtgtg gtgccgcaac 10260
gccctcggct cggcctccct cccgaaccgc attgagaaga tgagctactt cggtaatgtg 10320
tcggagggca gcactttctt cgccagcgtt acccccgtcg gcccccgtgt cccgaaggat 10380
cccgtgatca agatgcagtt tctcctccag gacgagtccg gcaacacctt ttcgtccggc 10440
gagggcagcg tcgtcctcag cgatgagctc gtgttctaaa tctaaactag tgaatcgcga 10500
caagttgtct ttttgttact ctacgtactg ctctttctaa ttttacgacg tatgcttctg 10560
ctcttgacga cgacaaccat ggcaataaaa gtaaggcaag aaagtgagtg cgtgctcgct 10620
cacaaggtct aggccgaaac gaggcgcctt aggattggtt gtctccgtcg taagtcatga 10680
cggagcgtag gacaccgacg gcctgccgcg caaatatacg aaccgctgca caattctttt 10740
cgttgagaac aacctcgaac ggcctgcctt gctgagctgc cgacacggtg gaaggaagca 10800
tagcggccaa tcgaggggat gctattaatt aggcttggcg ctgctgccgc cgtgcctgaa 10860
gatgtgcgca agcgtggcaa caccgtccac cttgccatta aagtcatgca ctccaaatac 10920
ctcgaacaga gcctctcgca tgtttggcca agcaccttcg agagagtctg gactctcact 10980
ccttcctcac cgttgtcgcc attctcagcg agctcatgca atcaccagga cggagagacg 11040
gccagctgct tttctgcttt ccattgttat tagagaaacg cttctcgctc tcatcgtctt 11100
agtagacatt ccgatggctt cgttcgccaa tttgtcacct aagtaagcta gagtgttaag 11160
tctaaatgcc tttgacccgc gtacggcgtc acgtagatgc ctgtccttgc cagcaaacgc 11220
tagttcgcgg tgtgcgtaat ttggcccgca ttatgctggc tctcaaaatc aaccgccacc 11280
actcgcggct gcacgatgat tttcgtgcac tcatgacatg agaaatgtga tactcaaact 11340
agtatagacc tcctactcct actgctgctt ttctcgtcag agctgtctcc ggaaaagttg 11400
acaagttgtt ggccttcttc ttctctgcta gtaagtagat catcatggat gagacgatga 11460
tgataatgat gatgatgata gcgaagagct tttgggactc gagcttgagc tgatgtggct 11520
tattttatta ctcaaaaacc aatgcaccgt tgcgagctct cgagagtgga gcaaagttgc 11580
aacagcgcac acacaaagaa cacatagaaa tagacatcaa aaatagtact tttacaatcc 11640
agccgaggca gcgcgaaaag tcagcatctg cgaactgcca caaaagccgt agatcaagtt 11700
ttgacacaac gctcatgcac gtctacgtgc tcgcgcatat aggaaaacaa atcacatcga 11760
gagattccca ctcaggtcgt gcgtggcctt ttgggcatac tcttgccgcg cagcagccca 11820
caacgcctca tcttctccca taccaaggtc aaaggatggt tgtattttgt cgtgaagttg 11880
gggcggcatt ttctctaaaa gcattgatgc aatagatttc gggctgtagc gcgcggaaaa 11940
atgcatgagc agaagcgtat cgacgcgatc aaacaagcct cgatgaccga acgctgcaag 12000
ttggtcaaca tgaatatggc cgtggtcttc ggccttggaa atgtcgccat cgaaaaaggt 12060
cacctccacg cagagcgtct ttgcacggag aaagggagat tcagggtccc gttccaaagc 12120
agcagcgacc gtgtcgcccg tgtaagcaaa gtcgacaacc tcgtgtatga cgtagtcctc 12180
aggctttggt ggcgaggtct tgaagcgagt gcgctttgtc gcaacgggga gctccgcaag 12240
ttccggacgt aactcctttt tgatattaat gaccgcatat cctacagaag gcacacgatg 12300
ctcggttgca aggactgcaa cgcgcgtatt cccgttcaac tctacgctgt cgccggggtt 12360
gacgcccgtg atcttcatat tgaaggggtc ctgggtgtcg tcaacatctc ctcctccgtc 12420
gagggcttgc atcgctcgcc ctgcactgcg aaaatcctcc acagcctccg caggcatgta 12480
gacgcgcgtc tcctt 12495
<210> 72
<211> 8647
<212> DNA
<213> Artificial
<220>
<223> synthetic
<400> 72
ctatactggt gctcttcggt gctgatttag ctcgacttgg gtccacacca ctgcccctct 60
actgtgaatg gatcaatgga cgcacgacgg gccgacgaaa gtgcgcgagt gaggtaacct 120
aagcaacggc ggtcttcaga ggggacgcac gccctccgtc gcagtcagtc cagacaggca 180
gaaaagcgtc ttagggacca cgcacgcacg cacgcacgca cgcacgcccg cacgcacgct 240
ccctccctcg cgtgcctatt tttttaggct tccttccgca cgggcctacc tctcgctccc 300
tcgcctcgcc gcaccaggcg gcagcagcga tacctgccgg tgccgcctcc gtcacgcgct 360
cagccgcagc tcagcccagc cgcgagctag ggtttgttcg tcctgaattg tttgatttga 420
tttgatttga tttgatccga tccgatccga tctgatctga tttgctttgc tttgctttgt 480
ctccctcccg gcgcggacca agcgtccgtc tgcgcgccgc agcttccctt cttctcccag 540
ccctccttct gctcccgcct ctcgcgcaag cacgcagctt cgccgccgca tccggtcggt 600
cggtcggtcg atcgacccgc ctgccgctgc tgctgtggcc gggcttttct ccatcggcga 660
ctctttcttc tccatacgtc ctactacgta catacatact gccggcttcc tcctcttcca 720
gcgcggcgac ggcggcaggc tgcgacgtcg tcgccgccgc gggcgccgcg cgcgccgccg 780
ccgccgcccg cgtcgcaggg cctcgtcgcc gccgccgctc cgctccgctc cgaggccgcg 840
agagggccgc ggcggcgcga tggatggatg gatggatgga tggatggatg gattttgttg 900
atcgatggcg gcgcatgggc ggagatgagc gaggacgagc gcgcgagcgc ggcagccgga 960
ttcgcagggc ctcgctcgcc tcgcgcccgc tgccgcgccc gccttgcgag cctgcgccgc 1020
gagcgagcga gcgagcgagc ggggctttct ttgtctcgcg cgccgcttgg cctcgtgtgt 1080
cttgtgcttg cgtagcgggc gccgcggtgg aagatggctc attcaatcga cccattcacg 1140
cacgcactcc ggcgcgcaga gaaggccgag gaggagcagc aagcaaacca aaagctctcg 1200
cgctcgcggt ctcgggctcg agcggtctcg gagagagagt cttgcggcga ccaccggcag 1260
cagcagcagc agcagcagcg ctgtcgagca cgagcacgag cacgagcacg agcacgagca 1320
ttcgagcaag aggacagaca cggttgtcag cgcctagctc gctcgataca gaaagaggcg 1380
ggttgggcgt aaaaaaaaag gagcacgcaa gccgccagcc agccagctag ctagccagcc 1440
tgcctgccaa aatgcagctc ccgcccgctc actccgctga tgagaaccgc attgccgtgg 1500
tcggcatggc cgtgaagtac gctggctgcg acaacaagga ggaattctgg aaaaccctca 1560
tgaacggttc gattaacacc aaaagcatta gcgcggctcg ccttggctcg aacaagcgcg 1620
acgagcacta cgtcccggag cgcagcaagt acgccgacac gttctgcaac gagcgttacg 1680
gctgcatcca gcagggcacg gataacgagc acgacctcct cctcggcctc gcccaggagg 1740
ccctcgccga tgctgccggc cgtatggaga agcagccgtc ggaggccttc gatcttgaga 1800
ataccggcat cgtgtcgggc tgcctgagct ttccgatgga taacctccag ggcgagctcc 1860
tcaacctcta ccagtcccac gtcgagaagc agcttccccc gtctgctctc gtggaggccg 1920
tcaagctctg gagcgagcgc cagaagtcca ctaaggccca cgcgggcgac aagcgccgct 1980
ttatcgatcc ggcgtctttc gtcgccgaca agctgaacct cggccccctc cactacgcca 2040
tcgacgccgc ctgcgcctcg gcgctctacg tgctgaagct cgcccaggac cacctcgtca 2100
gcggcgctgt cgatatgatg ctctgcggcg ccacttgttt cccggagccg ttcttcatcc 2160
tctcgggctt cagcaccttc caagccatgc cggtcggtgc ggacggcgtg tcgctccccc 2220
tccacaagac ctcggctggc ctcacccccg gtgagggcgg ctccatcatg gttctcaagc 2280
gcctcaagga cgccatccgc gacggcaacc acatctacgg cgtgctcctt gaggccaacc 2340
tctcgaacgc cggatgcggc ctcccgctct cgccgcacct cccttccgag gagtcgtgca 2400
ttcgcgacac ctatcgccgc gctggcgtcg ctgccgacca gagcatccag tacatcgagt 2460
gccacgccac cggcaccccg cgtggcgacg tcgtcgagat cgaggctgtc gagcgcgtct 2520
ttaagaagaa tgtgccccgc cttggttcta ccaagggcaa cttcggccac tccctcgtcg 2580
ctgccggctt cgcgggtatg gcgaagctgc tcctcgctat ggagcacggc gtcatcccgc 2640
ccacccctgg cctggacgcc agcaatcagg cttccgagca cgtcgtcact aaggcgatta 2700
cctggccgga aacccacggc gctcctaagc gcgccggcct ctccgccttc ggctttggcg 2760
gcacgaacgc gcatgccctt tttgaggagt tcaatgccga gggcatttcc taccgccccg 2820
gtaagcctcc ggtcgagtcg aacacccgcc cctctgtggt catcactggc atggactgca 2880
cgtttggcag cctggaggga atcgacgcct ttgagactgc cctctacgag ggccgtgatg 2940
ccgcccgtga tcttcctgcc aagcgttggc gcttcctcgg cgaggatctg gagtttctcc 3000
gcgccatccg cctgaaggag aagccccgtg gctgctttgt tgagtccgtt gacgtgaact 3060
ttcgccgcct caagacccct ctcaccccgg aggatatgct ccgcccgcag cagctcctcg 3120
ctgtctccac tatggaccgc gcgatcatcg acgccggcct caagaagggc cagcatgtcg 3180
ccgtcctcgt cggcctcggc accgatctgg agctttaccg ccaccgtgcc cgtgtggccc 3240
tcaaggaggt gctccacccc tcgctgaaga gcgacaccgc catcctccag aagatcatgc 3300
agtacgtcaa cgacgcgggc acctcgacct cctacacctc gtacatcggc aacctcgtcg 3360
ccacccgtat cagctcgcag tggggcttta ccggcccgag ctttactgtc acggagggta 3420
acaacagcgt ctaccgttgc gcccagctcg ctaaggacat gctgcaagtc aaccgcgtcg 3480
atgccgtcgt cattgccggt gtggacctga acggctccgc cgagagcttc ttcgtccgcg 3540
ctaaccgtca aaagatcagc aagctttccc acccgtgcgc cagcttcgac cgcgacgccg 3600
acggcttctt tgccggcgaa ggctgcggcg ctctcgtgtt caagcgcctt gaggactgcg 3660
cccctcagga gaagatttac gcttccatcg acagcatcgc catcgacaag gagcctacct 3720
cctcggccgt caaggctgtc taccagtccg actcctccct ctccgacatc gagcttcttg 3780
agatcagcgg cgactccaag cgttttgcgg ccttcgaggg cgctgtcgag atccagtcct 3840
ctgtggaggc gcagctcaag ggcctttcca aggttcttga gcccgccaag ggccaaggcg 3900
tcgccgttgg ctcgacccgc gccactgtcg gtgatatcgg ctacgccact ggcgcggctt 3960
cgctcatcaa gacggccctg tgcctctaca accgttacct gcctgccctc gccaactgga 4020
gcggcccctg cgaacagagc gcctggggta gcaacatgtt cgtctgccac gagactcgtc 4080
cttggatgaa gaaccagaac gagaagcgct gcgcgctcat ctcgggcacg gacccgtccc 4140
acacctgctt cagcctcgtg ctctccgata ctggttgcta cgaggagcac aaccgcacgt 4200
gctttgacgt gcaggccccg cagctcgttc tcattcatgg ttttgatggc aagaccattg 4260
tgcgccgcct tgagggctat ctccttgagc ttgtcgaggg ccatgcctcg ccgtccgagt 4320
actttcacaa gctcatcggc cagagcctcc ttgagaactc caaggagtcg aagctcacgc 4380
tctcgctcgt ctgcaacccc aaccaactcc agaaggagct catgctcgcc atcaagggtg 4440
tgcagcgctc tatgctgacg ggtaaggact gggtttcccc ctcgggctct tgctttgctc 4500
cgaaccctct ctcgtccgcc aaggtcgctt tcatgtacgg cgaaggccgc tccccctact 4560
gcggtgtggg ccttggcctc caccgcctct ggcctggcct ccacgaaaac gtgaacaaca 4620
agacggtgga cctctggacg gagggcgacg gttggctcta cccgcgcacc ctcactcgtg 4680
aggagcacac taaggccatc gagtcgttta acgctaacca gatcgagatg ttccgtgccg 4740
gtatctttat ctccatgtgc cagacggact acgtgatgaa cgtcctcggc gtgcagccca 4800
aggccggctt tggcctctcg ctcggcgaga tcagcatgct cttcgccatg tccaaggaga 4860
actgccgcca gagccaggag atgaccaacc gccttcgtgg cagccccgtc tggtcgaacg 4920
agcttgccat taacttcaat gcgatccgta agctctggaa gattccccgc ggtgccccgc 4980
ttgagtcctt ctggcagggc tacctcgtcc acggcacccg cgaggaggtc gagcacgcca 5040
tcggcctcag cgagccctac gtccgcctgc ttatcgtgaa tgacagccgc tcggccctta 5100
tcgcgggtaa gcctgacgcc tgccaggccg tgatctcgcg cctcaactcg aagttccctt 5160
ctctccctgt gaagcagggc atgatcggcc actgcccgga ggtgcgcgcc ttcatcaagg 5220
acattggtta catccacgag actctccgta tctctaacga ttactcggac tgccagctct 5280
tttcggccgt caccaagggt gcccttgact cgtctactat ggagatcaag cacttcgtcg 5340
gtgaggtcta cagccgcatt gccgattttc cccagattgt caacacggtg cactcggccg 5400
gctacgacgt gtttctcgaa ctcggctgcg acgcctcccg cagcgccgct gttcagaaca 5460
tcctcggcgg tcagggcaag tttctgtcta ctgccattga caagaagggt cactctgcct 5520
ggtcgcaggt tctccgcgct accgcctcgc tcgctgccca ccgcgtgccc ggcatctcga 5580
tcctcgatct ctttcacccg aatttccgcg agatgtgctg cacgatggct acgaccccca 5640
aggtggagga caagtttctc cgcaccatcc agattaacgg ccgtttcgag aaggagatga 5700
tccacctcga agataccact ctctcctgcc ttcccgcgcc ttcggaggcc aacattgccg 5760
ccattcagtc gcgctcgatt cgcagcgctg cggcccgtag cggccagtcg cacgactgcg 5820
cgtcccacag ccatgaggag aataaggact cctgcccgga gaagctcaaa cttgactcgg 5880
tcagcgtcgc gatcaacttt gacaacgacg accgtattca gctcggccac gcgggttttc 5940
gcgagatgta caacacccgc tactcgctct acacgggcgc tatggctaaa ggcatcgctt 6000
cggccgacct cgtcatcgct gcgggcaagg agggtatcct cgccagctac ggtgctggcg 6060
gcctcccgct cgccaccgtc cgcaagggta tcgacaagat ccagcaggcg ctccccagcg 6120
gtccttacgc cgtcaacctc atccactccc cgtttgacgg caacctggag cagggcaacg 6180
tcgacctctt tctcgaaaag aacgtccgcg tcgccgagtg ttctgccttt acgaccctca 6240
ccgtgcccgt cgtccattat cgcgccgctg gcctcgttcg ccgccaggac ggctcgatcc 6300
tcattaagaa ccgcatcatc gccaaggtca gccgcaccga gctcgctgag atgttcctcc 6360
gccctgcgcc gcagattatc ctcgaaaagc tggtcgccgc cgagatcatc tccagcgatc 6420
aggcgcgtat ggccgcgaag gtgccgatgg ccgacgacat cgccgtcgag gccgacagcg 6480
gcggccacac ggacaaccgc ccgatgcatg ttattctccc cctcattatc cagctccgca 6540
acaccattct cgcggagtac ggctgcgcta ctgcctttcg cacgcgtatt ggcgctggtg 6600
gcggcatcgg ttgcccgagc gccgctctcg ccgccttcga catgggtgcc tctttcgtcg 6660
tcaccggctc catcaatcag atttgccgcg aggcgggcac ctgcgacacg gttcgcgagc 6720
tcctcgccaa ctcgtcgtac agcgatgtca cgatggctcc tgccgccgac atgttcgatc 6780
agggcgtgaa gctccaagtc ctcaagcgcg gcaccatgtt cccctcgcgc gctaacaagc 6840
ttcgcaagct ctttgtgaac tacgagtccc tcgaaactct cccctccaag gagctcaagt 6900
accttgagaa cattattttc aagcaggctg tggaccaggt gtgggaggag actaagcgct 6960
tctactgcga gaagctgaac aaccccgaca agatcgctcg cgctatgaag gaccccaagc 7020
tcaagatgtc gctctgcttc cgctggtatc tcagcaagtc gtcgggctgg gccaacgccg 7080
gcatcaagtc tcgcgccctc gactaccaaa tctggtgcgg acccgcgatg ggcagcttta 7140
acaacttcgc ctccggcacg agcctcgact ggaaagtgac cggtgtcttt cccggcgtcg 7200
ccgaggtgaa catggccatc ctcgatggcg cccgcgagct cgctgccaag cgcaactaag 7260
taagctctca tatatgttag ttgcgtgaga ccgacacgaa gataatatca catacgcttt 7320
tgtttgttct ttcaattatt tgtctgtgct tcatgttgct cctcagtatc tagctggcgg 7380
ctcttatctt cttttaaaat atctggacaa ggacaaaaac aagaataaag gcgagaagat 7440
gtgaatttca tttcgacttg agaactcgaa gagcattgat gcggttagta tatgggtatt 7500
ttccagacac ttttcatcat catcatcatc atcatcatta tgaagaagta gtagctgata 7560
aagtagactc actgtttgca gcgagaacca ggccctttcg gtccgtaacc ttggtgaaaa 7620
atcgaggagc gatcatgcct tgtgcgtcgc cggggctaag aatgaccccg ttgtctgatt 7680
cgaaaaattt gatgccagcc tcggcagctg cagcagcagc gtctacatac acgaagtacg 7740
tcacaaggac ttgcgcatcc cgctgatcac acccgtctcc gaggacggaa gcccgtgagc 7800
aaagtgaatg tgattccgtt tcattcgcga caaacccttg tcctggatct gagcccaggc 7860
agaagtattt gttccgtgca agcacgtctc aatgcttgct ggatcgagtg gacgcaacaa 7920
actcgtctct ttgacaactg acatggagtg tccctgattc gcacgaatca accagcttcc 7980
gtccgtgtcc tggcgcaacg tgaaccgctg cttgtcgttg tctcgcacga cagcctcaat 8040
gtccgaaaag gagatcccct tgaagcgctt gagcttgccc tgtagctcag ccagacgaac 8100
aaatccatct tcgcgcactt cgagaccctc ctgaacggcc gagtgccgca gcacacggct 8160
tagcatgtgc gaaagcttct tgttatgcgc cttggctttt gaaggcagcg ttggcgcgct 8220
gcgagagtgt ttacttggtt gcgcagcttc actatcacga gcagcacttc gtttattcat 8280
ttccatgttg tttgcaggtt cagtggtagc cccatccggc acgggccaga gcaccctgtg 8340
agagcgccgt tcctcgaccc tgaggaaaag ctccgtaggt atggctcctg tatcgcccag 8400
accaggggta agtaggacgc cattgcttga ttggaacatt tccaagcccg catcatgtgc 8460
gcgcgcggta tcgaggaaga tgagcacctc tgcggagccg cgaaagccac tgagcactcc 8520
gtcctgacca ggaagtcccg aggcaaaatg aatgtgattt cggcccatgc ggcggaggcc 8580
ctggcgttgg attgcaggcc agtggcgaag atacgttccg tgaatacaca gcggaagcaa 8640
tgagaga 8647
<210> 73
<211> 4479
<212> DNA
<213> Artificial
<220>
<223> synthetic
<220>
<221> CDS
<222> (1)..(4479)
<400> 73
atg gcg ctc cgt gtc aag acg aac aag aag cca tgc tgg gag atg acc 48
Met Ala Leu Arg Val Lys Thr Asn Lys Lys Pro Cys Trp Glu Met Thr
1 5 10 15
aag gag gag ctg acc agc ggc aag acc gag gtg ttc aac tat gag gaa 96
Lys Glu Glu Leu Thr Ser Gly Lys Thr Glu Val Phe Asn Tyr Glu Glu
20 25 30
ctc ctc gag ttc gca gag ggc gac atc gcc aag gtc ttc gga ccc gag 144
Leu Leu Glu Phe Ala Glu Gly Asp Ile Ala Lys Val Phe Gly Pro Glu
35 40 45
ttc gcc gtc atc gac aag tac ccg cgc cgc gtg cgc ctg ccc gcc cgc 192
Phe Ala Val Ile Asp Lys Tyr Pro Arg Arg Val Arg Leu Pro Ala Arg
50 55 60
gag tac ctg ctc gtg acc cgc gtc acc ctc atg gac gcc gag gtc aac 240
Glu Tyr Leu Leu Val Thr Arg Val Thr Leu Met Asp Ala Glu Val Asn
65 70 75 80
aac tac cgc gtc ggc gcc cgc atg gtc acc gag tac gat ctc ccc gtc 288
Asn Tyr Arg Val Gly Ala Arg Met Val Thr Glu Tyr Asp Leu Pro Val
85 90 95
aac gga gag ctc tcc gag ggc gga gac tgc ccc tgg gcc gtc ctg gtc 336
Asn Gly Glu Leu Ser Glu Gly Gly Asp Cys Pro Trp Ala Val Leu Val
100 105 110
gag agt ggc cag tgc gat ctc atg ctc atc tcc tac atg ggc att gac 384
Glu Ser Gly Gln Cys Asp Leu Met Leu Ile Ser Tyr Met Gly Ile Asp
115 120 125
ttc cag aac cag ggc gac cgc gtc tac cgc ctg ctc aac acc acg ctc 432
Phe Gln Asn Gln Gly Asp Arg Val Tyr Arg Leu Leu Asn Thr Thr Leu
130 135 140
acc ttt tac ggc gtg gcc cac gag ggc gag acc ctc gag tac gac att 480
Thr Phe Tyr Gly Val Ala His Glu Gly Glu Thr Leu Glu Tyr Asp Ile
145 150 155 160
cgc gtc acc ggc ttc gcc aag cgt ctc gac ggc ggc atc tcc atg ttc 528
Arg Val Thr Gly Phe Ala Lys Arg Leu Asp Gly Gly Ile Ser Met Phe
165 170 175
ttc ttc gag tac gac tgc tac gtc aac ggc cgc ctc ctc atc gag atg 576
Phe Phe Glu Tyr Asp Cys Tyr Val Asn Gly Arg Leu Leu Ile Glu Met
180 185 190
cgc gat ggc tgc gcc ggc ttc ttc acc aac gag gag ctc gac gcc ggc 624
Arg Asp Gly Cys Ala Gly Phe Phe Thr Asn Glu Glu Leu Asp Ala Gly
195 200 205
aag ggc gtc gtc ttc acc cgc ggc gac ctc gcc gcc cgc gcc aag atc 672
Lys Gly Val Val Phe Thr Arg Gly Asp Leu Ala Ala Arg Ala Lys Ile
210 215 220
cca aag cag gac gtc tcc ccc tac gcc gtc gcc ccc tgc ctc cac aag 720
Pro Lys Gln Asp Val Ser Pro Tyr Ala Val Ala Pro Cys Leu His Lys
225 230 235 240
acc aag ctc aac gaa aag gag atg cag acc ctc gtc gac aag gac tgg 768
Thr Lys Leu Asn Glu Lys Glu Met Gln Thr Leu Val Asp Lys Asp Trp
245 250 255
gca tcc gtc ttt ggc tcc aag aac ggc atg ccg gaa atc aac tac aaa 816
Ala Ser Val Phe Gly Ser Lys Asn Gly Met Pro Glu Ile Asn Tyr Lys
260 265 270
ctc tgc gcg cgt aag atg ctc atg att gac cgc gtc acc agc att gac 864
Leu Cys Ala Arg Lys Met Leu Met Ile Asp Arg Val Thr Ser Ile Asp
275 280 285
cac aag ggc ggt gtc tac ggc ctc ggt cag ctc gtc ggt gaa aag atc 912
His Lys Gly Gly Val Tyr Gly Leu Gly Gln Leu Val Gly Glu Lys Ile
290 295 300
ctc gag cgc gac cac tgg tac ttt ccc tgc cac ttt gtc aag gat cag 960
Leu Glu Arg Asp His Trp Tyr Phe Pro Cys His Phe Val Lys Asp Gln
305 310 315 320
gtc atg gcc gga tcc ctc gtc tcc gac ggc tgc agc cag atg ctc aag 1008
Val Met Ala Gly Ser Leu Val Ser Asp Gly Cys Ser Gln Met Leu Lys
325 330 335
atg tac atg atc tgg ctc ggc ctc cac ctc acc acc gga ccc ttt gac 1056
Met Tyr Met Ile Trp Leu Gly Leu His Leu Thr Thr Gly Pro Phe Asp
340 345 350
ttc cgc ccg gtc aac ggc cac ccc aac aag gtc cgc tgc cgc ggc caa 1104
Phe Arg Pro Val Asn Gly His Pro Asn Lys Val Arg Cys Arg Gly Gln
355 360 365
atc tcc ccg cac aag ggc aag ctc gtc tac gtc atg gag atc aag gag 1152
Ile Ser Pro His Lys Gly Lys Leu Val Tyr Val Met Glu Ile Lys Glu
370 375 380
atg ggc ttc gac gag gac aac gac ccg tac gcc att gcc gac gtc aac 1200
Met Gly Phe Asp Glu Asp Asn Asp Pro Tyr Ala Ile Ala Asp Val Asn
385 390 395 400
atc att gat gtc gac ttc gaa aag ggc cag gac ttt agc ctc gac cgc 1248
Ile Ile Asp Val Asp Phe Glu Lys Gly Gln Asp Phe Ser Leu Asp Arg
405 410 415
atc agc gac tac ggc aag ggc gac ctc aac aag aag atc gtc gtc gac 1296
Ile Ser Asp Tyr Gly Lys Gly Asp Leu Asn Lys Lys Ile Val Val Asp
420 425 430
ttt aag ggc atc gct ctc aag atg cag aag cgc tcc acc aac aag aac 1344
Phe Lys Gly Ile Ala Leu Lys Met Gln Lys Arg Ser Thr Asn Lys Asn
435 440 445
ccc tcc aag gtt cag ccc gtc ttt gcc aac ggc gcc gcc act gtc ggc 1392
Pro Ser Lys Val Gln Pro Val Phe Ala Asn Gly Ala Ala Thr Val Gly
450 455 460
ccc gag gcc tcc aag gct tcc tcc ggc gcc agc gcc agc gcc agc gcc 1440
Pro Glu Ala Ser Lys Ala Ser Ser Gly Ala Ser Ala Ser Ala Ser Ala
465 470 475 480
gcc ccg gcc aag cct gcc ttc agc gcc gat gtt ctt gcg ccc aag ccc 1488
Ala Pro Ala Lys Pro Ala Phe Ser Ala Asp Val Leu Ala Pro Lys Pro
485 490 495
gtt gcc ctt ccc gag cac atc ctc aag ggc gac gcc ctc gcc ccc aag 1536
Val Ala Leu Pro Glu His Ile Leu Lys Gly Asp Ala Leu Ala Pro Lys
500 505 510
gag atg tcc tgg cac ccc atg tca aag ctt cct ggc aac cct acg ccg 1584
Glu Met Ser Trp His Pro Met Ser Lys Leu Pro Gly Asn Pro Thr Pro
515 520 525
ttc ttc tcc cct tca tct tac cct ccg agg gca att tgc ttc atc cct 1632
Phe Phe Ser Pro Ser Ser Tyr Pro Pro Arg Ala Ile Cys Phe Ile Pro
530 535 540
ttc ccg ggc aat ccc ctt gac aac aac tgc aag gct gga gaa atg ccc 1680
Phe Pro Gly Asn Pro Leu Asp Asn Asn Cys Lys Ala Gly Glu Met Pro
545 550 555 560
ctg aac tgg tac aac atg tca gag ttc atg tgt ggc aag gtt tct aac 1728
Leu Asn Trp Tyr Asn Met Ser Glu Phe Met Cys Gly Lys Val Ser Asn
565 570 575
tgc ttg ggc cca gaa ttc gca cgc ttt gac aag tcg aac acc agc cgg 1776
Cys Leu Gly Pro Glu Phe Ala Arg Phe Asp Lys Ser Asn Thr Ser Arg
580 585 590
agc cct gct ttt gac ttg gct ctg gtg acc cga gtt gtt gaa gtc aca 1824
Ser Pro Ala Phe Asp Leu Ala Leu Val Thr Arg Val Val Glu Val Thr
595 600 605
aac atg gaa cac ggc aag ttt cta aac gtt gat tgc aat cca agc aaa 1872
Asn Met Glu His Gly Lys Phe Leu Asn Val Asp Cys Asn Pro Ser Lys
610 615 620
ggc aca atg gtg ggg gag ttt gac tgt ccc caa gac gcg tgg ttc ttt 1920
Gly Thr Met Val Gly Glu Phe Asp Cys Pro Gln Asp Ala Trp Phe Phe
625 630 635 640
gat ggt tcg tgc aac gac ggc cat atg ccg tat tcc att atc atg gaa 1968
Asp Gly Ser Cys Asn Asp Gly His Met Pro Tyr Ser Ile Ile Met Glu
645 650 655
atc gga ctg caa acc tca ggt gtt ctc acc tcg gtg ttg aag gca ccg 2016
Ile Gly Leu Gln Thr Ser Gly Val Leu Thr Ser Val Leu Lys Ala Pro
660 665 670
ctg act atg gac aag gat gac att ctc ttt cga aac ctc gat gca agt 2064
Leu Thr Met Asp Lys Asp Asp Ile Leu Phe Arg Asn Leu Asp Ala Ser
675 680 685
gct gaa atg gtg cgt cca gac gtg gat gtt cgc ggc aaa acg att cga 2112
Ala Glu Met Val Arg Pro Asp Val Asp Val Arg Gly Lys Thr Ile Arg
690 695 700
aac gtg acc aag tgt acc ggc tat gca atg ttg gga aag atg ggg att 2160
Asn Val Thr Lys Cys Thr Gly Tyr Ala Met Leu Gly Lys Met Gly Ile
705 710 715 720
cac cgg ttc acg ttt gag ttg agc gtt gac ggc gtg gta ttt tat aaa 2208
His Arg Phe Thr Phe Glu Leu Ser Val Asp Gly Val Val Phe Tyr Lys
725 730 735
gga tcc act tcc ttt gga tgg ttc act ccc gag gtg ttt gct cag caa 2256
Gly Ser Thr Ser Phe Gly Trp Phe Thr Pro Glu Val Phe Ala Gln Gln
740 745 750
gct gga ctc gac aac ggg aaa aag acg gag ccc tgg tgc aag act aac 2304
Ala Gly Leu Asp Asn Gly Lys Lys Thr Glu Pro Trp Cys Lys Thr Asn
755 760 765
aac acc tcg gtt cga aga gtt gaa atc gca tcc gcc aaa gga aaa gag 2352
Asn Thr Ser Val Arg Arg Val Glu Ile Ala Ser Ala Lys Gly Lys Glu
770 775 780
cag ctg act gag aag ctt ccc gac gca act aat gct caa gtt ctt cgg 2400
Gln Leu Thr Glu Lys Leu Pro Asp Ala Thr Asn Ala Gln Val Leu Arg
785 790 795 800
cgt tca gag cag tgt gaa tac ctc gat tac ctc aat att gcc cct gac 2448
Arg Ser Glu Gln Cys Glu Tyr Leu Asp Tyr Leu Asn Ile Ala Pro Asp
805 810 815
tct ggg ctg cat ggg aag ggc tac gcc cac gga cac aaa gac gtt aac 2496
Ser Gly Leu His Gly Lys Gly Tyr Ala His Gly His Lys Asp Val Asn
820 825 830
ccg caa gac tgg ttc ttc tct tgc cac ttt tgg ttc gat cct gta atg 2544
Pro Gln Asp Trp Phe Phe Ser Cys His Phe Trp Phe Asp Pro Val Met
835 840 845
cca gga tct tta gga att gaa tca atg ttc cag ctt atc gag gcc ttt 2592
Pro Gly Ser Leu Gly Ile Glu Ser Met Phe Gln Leu Ile Glu Ala Phe
850 855 860
gcg gtg gac caa aac att cct gga gag tac aac gta tcc aat ccg acc 2640
Ala Val Asp Gln Asn Ile Pro Gly Glu Tyr Asn Val Ser Asn Pro Thr
865 870 875 880
ttt gcc cat gca cca ggc aaa acg gcg tgg aaa tac cga ggc cag ctc 2688
Phe Ala His Ala Pro Gly Lys Thr Ala Trp Lys Tyr Arg Gly Gln Leu
885 890 895
aca cca aag aac cgt gcg atg gac tgc gag gtg cat atc gtt tca att 2736
Thr Pro Lys Asn Arg Ala Met Asp Cys Glu Val His Ile Val Ser Ile
900 905 910
acc gcc tcc ccc gag aac ggg ggc tac gtt gac atc gtg gcc gat gga 2784
Thr Ala Ser Pro Glu Asn Gly Gly Tyr Val Asp Ile Val Ala Asp Gly
915 920 925
gcg ctt tgg gta gat gga ctt cgc gtg tac gaa gcc aaa gag ctt cga 2832
Ala Leu Trp Val Asp Gly Leu Arg Val Tyr Glu Ala Lys Glu Leu Arg
930 935 940
gtt cgt gtc gtt tcg gca aaa cct caa gca att ccg gat gta caa caa 2880
Val Arg Val Val Ser Ala Lys Pro Gln Ala Ile Pro Asp Val Gln Gln
945 950 955 960
cag cca cct agc gca aag gcg gac ccg ggg aaa aca gga gtt gca ctt 2928
Gln Pro Pro Ser Ala Lys Ala Asp Pro Gly Lys Thr Gly Val Ala Leu
965 970 975
tcg ccc act cag cta cgc gac gtc ctg ctt gaa gtg gac aat cca ttg 2976
Ser Pro Thr Gln Leu Arg Asp Val Leu Leu Glu Val Asp Asn Pro Leu
980 985 990
tat ctt ggt gta gag aac tcc aat ttg gtg cag ttt gag tcg aaa cct 3024
Tyr Leu Gly Val Glu Asn Ser Asn Leu Val Gln Phe Glu Ser Lys Pro
995 1000 1005
gca act tct tca cgt atc gtt tcg atc aaa ccg tgc tcg att agt 3069
Ala Thr Ser Ser Arg Ile Val Ser Ile Lys Pro Cys Ser Ile Ser
1010 1015 1020
gac ctt ggc gat aag tct ttt atg gaa acg tac aac gtg tca gca 3114
Asp Leu Gly Asp Lys Ser Phe Met Glu Thr Tyr Asn Val Ser Ala
1025 1030 1035
cct ctg tat act ggc gcc atg gcc aag ggc att gcc tcg gcg gac 3159
Pro Leu Tyr Thr Gly Ala Met Ala Lys Gly Ile Ala Ser Ala Asp
1040 1045 1050
ctc gtc atc gcc gcc ggc aag cgc aag atc ctc ggc tcc ttt ggc 3204
Leu Val Ile Ala Ala Gly Lys Arg Lys Ile Leu Gly Ser Phe Gly
1055 1060 1065
gcc ggc ggc ctc ccc atg cac cac gtg cgc gcc gcc ctc gag aag 3249
Ala Gly Gly Leu Pro Met His His Val Arg Ala Ala Leu Glu Lys
1070 1075 1080
atc cag gcc gcc ctg cct cag ggc ccc tac gcc gtc aac ctc atc 3294
Ile Gln Ala Ala Leu Pro Gln Gly Pro Tyr Ala Val Asn Leu Ile
1085 1090 1095
cac tcg cct ttt gac agc aac ctc gag aag ggc aac gtc gat ctc 3339
His Ser Pro Phe Asp Ser Asn Leu Glu Lys Gly Asn Val Asp Leu
1100 1105 1110
ttc ctc gag aag ggc gtc act gtg gtg gag gcc tcg gca ttc atg 3384
Phe Leu Glu Lys Gly Val Thr Val Val Glu Ala Ser Ala Phe Met
1115 1120 1125
acc ctc acc ccg cag gtc gtg cgc tac cgc gcc gcc ggc ctc tcg 3429
Thr Leu Thr Pro Gln Val Val Arg Tyr Arg Ala Ala Gly Leu Ser
1130 1135 1140
cgc aac gcc gac ggt tcg gtc aac atc cgc aac cgc atc atc ggc 3474
Arg Asn Ala Asp Gly Ser Val Asn Ile Arg Asn Arg Ile Ile Gly
1145 1150 1155
aag gtc tcg cgc acc gag ctc gcc gag atg ttc atc cgc ccg gcc 3519
Lys Val Ser Arg Thr Glu Leu Ala Glu Met Phe Ile Arg Pro Ala
1160 1165 1170
ccg gag cac ctc ctc gag aag ctc atc gcc tcg ggc gag atc acc 3564
Pro Glu His Leu Leu Glu Lys Leu Ile Ala Ser Gly Glu Ile Thr
1175 1180 1185
cag gag cag gcc gag ctc gcg cgc cgc gtt ccc gtc gcc gac gat 3609
Gln Glu Gln Ala Glu Leu Ala Arg Arg Val Pro Val Ala Asp Asp
1190 1195 1200
atc gct gtc gag gct gac tcg ggc ggc cac acc gac aac cgc ccc 3654
Ile Ala Val Glu Ala Asp Ser Gly Gly His Thr Asp Asn Arg Pro
1205 1210 1215
atc cac gtc atc ctc ccg ctc atc atc aac ctc cgc aac cgc ctg 3699
Ile His Val Ile Leu Pro Leu Ile Ile Asn Leu Arg Asn Arg Leu
1220 1225 1230
cac cgc gag tgc ggc tac ccc gcg cac ctc cgc gtc cgc gtt ggc 3744
His Arg Glu Cys Gly Tyr Pro Ala His Leu Arg Val Arg Val Gly
1235 1240 1245
gcc gga ggt ggc gtc ggc tgc ccg cag gcc gcc gcc gcc gcg ctc 3789
Ala Gly Gly Gly Val Gly Cys Pro Gln Ala Ala Ala Ala Ala Leu
1250 1255 1260
acc atg ggc gcc gcc ttc atc gtc acc ggc act gtc aac cag gtc 3834
Thr Met Gly Ala Ala Phe Ile Val Thr Gly Thr Val Asn Gln Val
1265 1270 1275
gcc aag cag tcc ggc acc tgc gac aac gtg cgc aag cag ctc tcg 3879
Ala Lys Gln Ser Gly Thr Cys Asp Asn Val Arg Lys Gln Leu Ser
1280 1285 1290
cag gcc acc tac tcg gat atc tgc atg gcc ccg gcc gcc gac atg 3924
Gln Ala Thr Tyr Ser Asp Ile Cys Met Ala Pro Ala Ala Asp Met
1295 1300 1305
ttc gag gag ggc gtc aag ctc cag gtc ctc aag aag gga acc atg 3969
Phe Glu Glu Gly Val Lys Leu Gln Val Leu Lys Lys Gly Thr Met
1310 1315 1320
ttc ccc tcg cgc gcc aac aag ctc tac gag ctc ttt tgc aag tac 4014
Phe Pro Ser Arg Ala Asn Lys Leu Tyr Glu Leu Phe Cys Lys Tyr
1325 1330 1335
gac tcc ttc gac tcc atg cct cct gcc gag ctc gag cgc atc gag 4059
Asp Ser Phe Asp Ser Met Pro Pro Ala Glu Leu Glu Arg Ile Glu
1340 1345 1350
aag cgt atc ttc aag cgc gca ctc cag gag gtc tgg gag gag acc 4104
Lys Arg Ile Phe Lys Arg Ala Leu Gln Glu Val Trp Glu Glu Thr
1355 1360 1365
aag gac ttt tac att aac ggt ctc aag aac ccg gag aag atc cag 4149
Lys Asp Phe Tyr Ile Asn Gly Leu Lys Asn Pro Glu Lys Ile Gln
1370 1375 1380
cgc gcc gag cac gac ccc aag ctc aag atg tcg ctc tgc ttc cgc 4194
Arg Ala Glu His Asp Pro Lys Leu Lys Met Ser Leu Cys Phe Arg
1385 1390 1395
tgg tac ctt ggt ctt gcc agc cgc tgg gcc aac atg ggc gcc ccg 4239
Trp Tyr Leu Gly Leu Ala Ser Arg Trp Ala Asn Met Gly Ala Pro
1400 1405 1410
gac cgc gtc atg gac tac cag gtc tgg tgt ggc ccg gcc att ggc 4284
Asp Arg Val Met Asp Tyr Gln Val Trp Cys Gly Pro Ala Ile Gly
1415 1420 1425
gcc ttc aac gac ttc atc aag ggc acc tac ctc gac ccc gct gtc 4329
Ala Phe Asn Asp Phe Ile Lys Gly Thr Tyr Leu Asp Pro Ala Val
1430 1435 1440
tcc aac gag tac ccc tgt gtc gtc cag atc aac ctg caa atc ctc 4374
Ser Asn Glu Tyr Pro Cys Val Val Gln Ile Asn Leu Gln Ile Leu
1445 1450 1455
cgt ggt gcc tgc tac ctg cgc cgt ctc aac gcc ctg cgc aac gac 4419
Arg Gly Ala Cys Tyr Leu Arg Arg Leu Asn Ala Leu Arg Asn Asp
1460 1465 1470
ccg cgc att gac ctc gag acc gag gat gct gcc ttt gtc tac gag 4464
Pro Arg Ile Asp Leu Glu Thr Glu Asp Ala Ala Phe Val Tyr Glu
1475 1480 1485
ccc acc aac gcg ctc 4479
Pro Thr Asn Ala Leu
1490
<210> 74
<211> 1493
<212> PRT
<213> Artificial
<220>
<223> Synthetic Construct
<400> 74
Met Ala Leu Arg Val Lys Thr Asn Lys Lys Pro Cys Trp Glu Met Thr
1 5 10 15
Lys Glu Glu Leu Thr Ser Gly Lys Thr Glu Val Phe Asn Tyr Glu Glu
20 25 30
Leu Leu Glu Phe Ala Glu Gly Asp Ile Ala Lys Val Phe Gly Pro Glu
35 40 45
Phe Ala Val Ile Asp Lys Tyr Pro Arg Arg Val Arg Leu Pro Ala Arg
50 55 60
Glu Tyr Leu Leu Val Thr Arg Val Thr Leu Met Asp Ala Glu Val Asn
65 70 75 80
Asn Tyr Arg Val Gly Ala Arg Met Val Thr Glu Tyr Asp Leu Pro Val
85 90 95
Asn Gly Glu Leu Ser Glu Gly Gly Asp Cys Pro Trp Ala Val Leu Val
100 105 110
Glu Ser Gly Gln Cys Asp Leu Met Leu Ile Ser Tyr Met Gly Ile Asp
115 120 125
Phe Gln Asn Gln Gly Asp Arg Val Tyr Arg Leu Leu Asn Thr Thr Leu
130 135 140
Thr Phe Tyr Gly Val Ala His Glu Gly Glu Thr Leu Glu Tyr Asp Ile
145 150 155 160
Arg Val Thr Gly Phe Ala Lys Arg Leu Asp Gly Gly Ile Ser Met Phe
165 170 175
Phe Phe Glu Tyr Asp Cys Tyr Val Asn Gly Arg Leu Leu Ile Glu Met
180 185 190
Arg Asp Gly Cys Ala Gly Phe Phe Thr Asn Glu Glu Leu Asp Ala Gly
195 200 205
Lys Gly Val Val Phe Thr Arg Gly Asp Leu Ala Ala Arg Ala Lys Ile
210 215 220
Pro Lys Gln Asp Val Ser Pro Tyr Ala Val Ala Pro Cys Leu His Lys
225 230 235 240
Thr Lys Leu Asn Glu Lys Glu Met Gln Thr Leu Val Asp Lys Asp Trp
245 250 255
Ala Ser Val Phe Gly Ser Lys Asn Gly Met Pro Glu Ile Asn Tyr Lys
260 265 270
Leu Cys Ala Arg Lys Met Leu Met Ile Asp Arg Val Thr Ser Ile Asp
275 280 285
His Lys Gly Gly Val Tyr Gly Leu Gly Gln Leu Val Gly Glu Lys Ile
290 295 300
Leu Glu Arg Asp His Trp Tyr Phe Pro Cys His Phe Val Lys Asp Gln
305 310 315 320
Val Met Ala Gly Ser Leu Val Ser Asp Gly Cys Ser Gln Met Leu Lys
325 330 335
Met Tyr Met Ile Trp Leu Gly Leu His Leu Thr Thr Gly Pro Phe Asp
340 345 350
Phe Arg Pro Val Asn Gly His Pro Asn Lys Val Arg Cys Arg Gly Gln
355 360 365
Ile Ser Pro His Lys Gly Lys Leu Val Tyr Val Met Glu Ile Lys Glu
370 375 380
Met Gly Phe Asp Glu Asp Asn Asp Pro Tyr Ala Ile Ala Asp Val Asn
385 390 395 400
Ile Ile Asp Val Asp Phe Glu Lys Gly Gln Asp Phe Ser Leu Asp Arg
405 410 415
Ile Ser Asp Tyr Gly Lys Gly Asp Leu Asn Lys Lys Ile Val Val Asp
420 425 430
Phe Lys Gly Ile Ala Leu Lys Met Gln Lys Arg Ser Thr Asn Lys Asn
435 440 445
Pro Ser Lys Val Gln Pro Val Phe Ala Asn Gly Ala Ala Thr Val Gly
450 455 460
Pro Glu Ala Ser Lys Ala Ser Ser Gly Ala Ser Ala Ser Ala Ser Ala
465 470 475 480
Ala Pro Ala Lys Pro Ala Phe Ser Ala Asp Val Leu Ala Pro Lys Pro
485 490 495
Val Ala Leu Pro Glu His Ile Leu Lys Gly Asp Ala Leu Ala Pro Lys
500 505 510
Glu Met Ser Trp His Pro Met Ser Lys Leu Pro Gly Asn Pro Thr Pro
515 520 525
Phe Phe Ser Pro Ser Ser Tyr Pro Pro Arg Ala Ile Cys Phe Ile Pro
530 535 540
Phe Pro Gly Asn Pro Leu Asp Asn Asn Cys Lys Ala Gly Glu Met Pro
545 550 555 560
Leu Asn Trp Tyr Asn Met Ser Glu Phe Met Cys Gly Lys Val Ser Asn
565 570 575
Cys Leu Gly Pro Glu Phe Ala Arg Phe Asp Lys Ser Asn Thr Ser Arg
580 585 590
Ser Pro Ala Phe Asp Leu Ala Leu Val Thr Arg Val Val Glu Val Thr
595 600 605
Asn Met Glu His Gly Lys Phe Leu Asn Val Asp Cys Asn Pro Ser Lys
610 615 620
Gly Thr Met Val Gly Glu Phe Asp Cys Pro Gln Asp Ala Trp Phe Phe
625 630 635 640
Asp Gly Ser Cys Asn Asp Gly His Met Pro Tyr Ser Ile Ile Met Glu
645 650 655
Ile Gly Leu Gln Thr Ser Gly Val Leu Thr Ser Val Leu Lys Ala Pro
660 665 670
Leu Thr Met Asp Lys Asp Asp Ile Leu Phe Arg Asn Leu Asp Ala Ser
675 680 685
Ala Glu Met Val Arg Pro Asp Val Asp Val Arg Gly Lys Thr Ile Arg
690 695 700
Asn Val Thr Lys Cys Thr Gly Tyr Ala Met Leu Gly Lys Met Gly Ile
705 710 715 720
His Arg Phe Thr Phe Glu Leu Ser Val Asp Gly Val Val Phe Tyr Lys
725 730 735
Gly Ser Thr Ser Phe Gly Trp Phe Thr Pro Glu Val Phe Ala Gln Gln
740 745 750
Ala Gly Leu Asp Asn Gly Lys Lys Thr Glu Pro Trp Cys Lys Thr Asn
755 760 765
Asn Thr Ser Val Arg Arg Val Glu Ile Ala Ser Ala Lys Gly Lys Glu
770 775 780
Gln Leu Thr Glu Lys Leu Pro Asp Ala Thr Asn Ala Gln Val Leu Arg
785 790 795 800
Arg Ser Glu Gln Cys Glu Tyr Leu Asp Tyr Leu Asn Ile Ala Pro Asp
805 810 815
Ser Gly Leu His Gly Lys Gly Tyr Ala His Gly His Lys Asp Val Asn
820 825 830
Pro Gln Asp Trp Phe Phe Ser Cys His Phe Trp Phe Asp Pro Val Met
835 840 845
Pro Gly Ser Leu Gly Ile Glu Ser Met Phe Gln Leu Ile Glu Ala Phe
850 855 860
Ala Val Asp Gln Asn Ile Pro Gly Glu Tyr Asn Val Ser Asn Pro Thr
865 870 875 880
Phe Ala His Ala Pro Gly Lys Thr Ala Trp Lys Tyr Arg Gly Gln Leu
885 890 895
Thr Pro Lys Asn Arg Ala Met Asp Cys Glu Val His Ile Val Ser Ile
900 905 910
Thr Ala Ser Pro Glu Asn Gly Gly Tyr Val Asp Ile Val Ala Asp Gly
915 920 925
Ala Leu Trp Val Asp Gly Leu Arg Val Tyr Glu Ala Lys Glu Leu Arg
930 935 940
Val Arg Val Val Ser Ala Lys Pro Gln Ala Ile Pro Asp Val Gln Gln
945 950 955 960
Gln Pro Pro Ser Ala Lys Ala Asp Pro Gly Lys Thr Gly Val Ala Leu
965 970 975
Ser Pro Thr Gln Leu Arg Asp Val Leu Leu Glu Val Asp Asn Pro Leu
980 985 990
Tyr Leu Gly Val Glu Asn Ser Asn Leu Val Gln Phe Glu Ser Lys Pro
995 1000 1005
Ala Thr Ser Ser Arg Ile Val Ser Ile Lys Pro Cys Ser Ile Ser
1010 1015 1020
Asp Leu Gly Asp Lys Ser Phe Met Glu Thr Tyr Asn Val Ser Ala
1025 1030 1035
Pro Leu Tyr Thr Gly Ala Met Ala Lys Gly Ile Ala Ser Ala Asp
1040 1045 1050
Leu Val Ile Ala Ala Gly Lys Arg Lys Ile Leu Gly Ser Phe Gly
1055 1060 1065
Ala Gly Gly Leu Pro Met His His Val Arg Ala Ala Leu Glu Lys
1070 1075 1080
Ile Gln Ala Ala Leu Pro Gln Gly Pro Tyr Ala Val Asn Leu Ile
1085 1090 1095
His Ser Pro Phe Asp Ser Asn Leu Glu Lys Gly Asn Val Asp Leu
1100 1105 1110
Phe Leu Glu Lys Gly Val Thr Val Val Glu Ala Ser Ala Phe Met
1115 1120 1125
Thr Leu Thr Pro Gln Val Val Arg Tyr Arg Ala Ala Gly Leu Ser
1130 1135 1140
Arg Asn Ala Asp Gly Ser Val Asn Ile Arg Asn Arg Ile Ile Gly
1145 1150 1155
Lys Val Ser Arg Thr Glu Leu Ala Glu Met Phe Ile Arg Pro Ala
1160 1165 1170
Pro Glu His Leu Leu Glu Lys Leu Ile Ala Ser Gly Glu Ile Thr
1175 1180 1185
Gln Glu Gln Ala Glu Leu Ala Arg Arg Val Pro Val Ala Asp Asp
1190 1195 1200
Ile Ala Val Glu Ala Asp Ser Gly Gly His Thr Asp Asn Arg Pro
1205 1210 1215
Ile His Val Ile Leu Pro Leu Ile Ile Asn Leu Arg Asn Arg Leu
1220 1225 1230
His Arg Glu Cys Gly Tyr Pro Ala His Leu Arg Val Arg Val Gly
1235 1240 1245
Ala Gly Gly Gly Val Gly Cys Pro Gln Ala Ala Ala Ala Ala Leu
1250 1255 1260
Thr Met Gly Ala Ala Phe Ile Val Thr Gly Thr Val Asn Gln Val
1265 1270 1275
Ala Lys Gln Ser Gly Thr Cys Asp Asn Val Arg Lys Gln Leu Ser
1280 1285 1290
Gln Ala Thr Tyr Ser Asp Ile Cys Met Ala Pro Ala Ala Asp Met
1295 1300 1305
Phe Glu Glu Gly Val Lys Leu Gln Val Leu Lys Lys Gly Thr Met
1310 1315 1320
Phe Pro Ser Arg Ala Asn Lys Leu Tyr Glu Leu Phe Cys Lys Tyr
1325 1330 1335
Asp Ser Phe Asp Ser Met Pro Pro Ala Glu Leu Glu Arg Ile Glu
1340 1345 1350
Lys Arg Ile Phe Lys Arg Ala Leu Gln Glu Val Trp Glu Glu Thr
1355 1360 1365
Lys Asp Phe Tyr Ile Asn Gly Leu Lys Asn Pro Glu Lys Ile Gln
1370 1375 1380
Arg Ala Glu His Asp Pro Lys Leu Lys Met Ser Leu Cys Phe Arg
1385 1390 1395
Trp Tyr Leu Gly Leu Ala Ser Arg Trp Ala Asn Met Gly Ala Pro
1400 1405 1410
Asp Arg Val Met Asp Tyr Gln Val Trp Cys Gly Pro Ala Ile Gly
1415 1420 1425
Ala Phe Asn Asp Phe Ile Lys Gly Thr Tyr Leu Asp Pro Ala Val
1430 1435 1440
Ser Asn Glu Tyr Pro Cys Val Val Gln Ile Asn Leu Gln Ile Leu
1445 1450 1455
Arg Gly Ala Cys Tyr Leu Arg Arg Leu Asn Ala Leu Arg Asn Asp
1460 1465 1470
Pro Arg Ile Asp Leu Glu Thr Glu Asp Ala Ala Phe Val Tyr Glu
1475 1480 1485
Pro Thr Asn Ala Leu
1490
<210> 75
<211> 4479
<212> DNA
<213> artificial
<220>
<223> synthetic
<400> 75
atggcgctcc gtgtcaagac gaacaagaag ccatgctggg agatgaccaa ggaggagctg 60
accagcggca agaccgaggt gttcaactat gaggaactcc tcgagttcgc agagggcgac 120
atcgccaagg tcttcggacc cgagttcgcc gtcatcgaca agtacccgcg ccgcgtgcgc 180
ctgcccgccc gcgagtacct gctcgtgacc cgcgtcaccc tcatggacgc cgaggtcaac 240
aactaccgcg tcggcgcccg catggtcacc gagtacgatc tccccgtcaa cggagagctc 300
tccgagggcg gagactgccc ctgggccgtc ctggtcgaga gtggccagtg cgatctcatg 360
ctcatctcct acatgggcat tgacttccag aaccagggcg accgcgtcta ccgcctgctc 420
aacaccacgc tcacctttta cggcgtggcc cacgagggcg agaccctcga gtacgacatt 480
cgcgtcaccg gcttcgccaa gcgtctcgac ggcggcatct ccatgttctt cttcgagtac 540
gactgctacg tcaacggccg cctcctcatc gagatgcgcg atggctgcgc cggcttcttc 600
accaacgagg agctcgacgc cggcaagggc gtcgtcttca cccgcggcga cctcgccgcc 660
cgcgccaaga tcccaaagca ggacgtctcc ccctacgccg tcgccccctg cctccacaag 720
accaagctca acgaaaagga gatgcagacc ctcgtcgaca aggactgggc atccgtcttt 780
ggctccaaga acggcatgcc ggaaatcaac tacaaactct gcgcgcgtaa gatgctcatg 840
attgaccgcg tcaccagcat tgaccacaag ggcggtgtct acggcctcgg tcagctcgtc 900
ggtgaaaaga tcctcgagcg cgaccactgg tactttccct gccactttgt caaggatcag 960
gtcatggccg gatccctcgt ctccgacggc tgcagccaga tgctcaagat gtacatgatc 1020
tggctcggcc tccacctcac caccggaccc tttgacttcc gcccggtcaa cggccacccc 1080
aacaaggtcc gctgccgcgg ccaaatctcc ccgcacaagg gcaagctcgt ctacgtcatg 1140
gagatcaagg agatgggctt cgacgaggac aacgacccgt acgccattgc cgacgtcaac 1200
atcattgatg tcgacttcga aaagggccag gactttagcc tcgaccgcat cagcgactac 1260
ggcaagggcg acctcaacaa gaagatcgtc gtcgacttta agggcatcgc tctcaagatg 1320
cagaagcgct ccaccaacaa gaacccctcc aaggttcagc ccgtctttgc caacggcgcc 1380
gccactgtcg gccccgaggc ctccaaggct tcctccggcg ccagcgccag cgccagcgcc 1440
gccccggcca agcctgcctt cagcgccgat gttcttgcgc ccaagcccgt tgcccttccc 1500
gagcacatcc tcaagggcga cgccctcgcc cccaaggaga tgtcctggca ccccatgagc 1560
aagctccccg gcaaccccac ccccttcttt tctccctcgt cgtatccgcc ccgtgctatc 1620
tgcttcatcc cttttccggg caacccgctc gacaacaact gcaaggccgg cgagatgccc 1680
ctcaactggt acaacatgag cgaattcatg tgcggtaagg tcagcaactg cctcggcccg 1740
gagttcgccc gctttgacaa gagcaacacc tcccgctccc ccgccttcga ccttgcgctc 1800
gtcacgcgcg tcgtcgaggt caccaacatg gagcacggca agttcctcaa cgtcgactgt 1860
aacccttcga agggcacgat ggtgggagag ttcgactgcc cgcaggacgc ctggttcttt 1920
gacggctcct gcaatgacgg tcatatgccg tactccatca tcatggagat cggccttcag 1980
acgtctggtg tcctcacgtc ggtgctcaag gctcctctca cgatggacaa ggacgacatc 2040
ctctttcgca accttgatgc ctcggctgag atggtgcgcc ctgacgtcga tgtccgcggc 2100
aagaccatcc gcaacgtgac caagtgtacc ggctacgcca tgcttggtaa gatgggtatc 2160
catcgcttta cctttgagct ctccgtggac ggcgtcgtct tttacaaggg cagcaccagc 2220
ttcggctggt ttacgccgga agtgtttgcc cagcaggccg gtctggacaa cggcaagaag 2280
accgagccct ggtgcaagac caacaacacc tccgtccgcc gcgtcgagat cgccagcgct 2340
aagggtaagg agcagctcac ggagaagctc cctgatgcta ccaacgccca ggttctccgc 2400
cgctccgagc agtgcgagta cctcgactac ctcaacatcg cccccgactc cggccttcac 2460
ggcaagggtt acgcgcacgg ccacaaggac gtcaaccccc aggactggtt tttctcgtgc 2520
cacttctggt tcgacccggt gatgcccggc tcgcttggca ttgagtccat gttccagctc 2580
atcgaagcct ttgctgtcga ccagaatatc cctggcgagt acaatgtttc gaacccgacc 2640
tttgcccatg cccccggtaa gaccgcttgg aagtatcgcg gccagctcac tcccaagaac 2700
cgcgctatgg actgcgaggt ccacatcgtc agcatcacgg cgagcccgga gaacggcggc 2760
tacgtcgaca tcgtcgccga cggcgccctt tgggtcgatg gcctccgcgt ttacgaggcc 2820
aaggagctcc gtgtccgcgt cgtcagcgcc aagccgcaag ctatcccgga tgtccagcag 2880
cagcctccct cggctaaggc cgaccctggc aagaccggtg tcgccctcag ccccacccag 2940
ctccgcgatg tcctcctgga ggtcgacaac cctctgtacc tcggtgtcga gaactccaac 3000
cttgtccagt tcgaaagcaa gccggcgacg tcctcccgca tcgtgtccat taagccgtgt 3060
tctatctccg acctcggcga caagtctttc atggagactt acaacgtgtc tgcgcctctg 3120
tatactggcg ccatggccaa gggcattgcc tcggcggacc tcgtcatcgc cgccggcaag 3180
cgcaagatcc tcggctcctt tggcgccggc ggcctcccca tgcaccacgt gcgcgccgcc 3240
ctcgagaaga tccaggccgc cctgcctcag ggcccctacg ccgtcaacct catccactcg 3300
ccttttgaca gcaacctcga gaagggcaac gtcgatctct tcctcgagaa gggcgtcact 3360
gtggtggagg cctcggcatt catgaccctc accccgcagg tcgtgcgcta ccgcgccgcc 3420
ggcctctcgc gcaacgccga cggttcggtc aacatccgca accgcatcat cggcaaggtc 3480
tcgcgcaccg agctcgccga gatgttcatc cgcccggccc cggagcacct cctcgagaag 3540
ctcatcgcct cgggcgagat cacccaggag caggccgagc tcgcgcgccg cgttcccgtc 3600
gccgacgata tcgctgtcga ggctgactcg ggcggccaca ccgacaaccg ccccatccac 3660
gtcatcctcc cgctcatcat caacctccgc aaccgcctgc accgcgagtg cggctacccc 3720
gcgcacctcc gcgtccgcgt tggcgccgga ggtggcgtcg gctgcccgca ggccgccgcc 3780
gccgcgctca ccatgggcgc cgccttcatc gtcaccggca ctgtcaacca ggtcgccaag 3840
cagtccggca cctgcgacaa cgtgcgcaag cagctctcgc aggccaccta ctcggatatc 3900
tgcatggccc cggccgccga catgttcgag gagggcgtca agctccaggt cctcaagaag 3960
ggaaccatgt tcccctcgcg cgccaacaag ctctacgagc tcttttgcaa gtacgactcc 4020
ttcgactcca tgcctcctgc cgagctcgag cgcatcgaga agcgtatctt caagcgcgca 4080
ctccaggagg tctgggagga gaccaaggac ttttacatta acggtctcaa gaacccggag 4140
aagatccagc gcgccgagca cgaccccaag ctcaagatgt cgctctgctt ccgctggtac 4200
cttggtcttg ccagccgctg ggccaacatg ggcgccccgg accgcgtcat ggactaccag 4260
gtctggtgtg gcccggccat tggcgccttc aacgacttca tcaagggcac ctacctcgac 4320
cccgctgtct ccaacgagta cccctgtgtc gtccagatca acctgcaaat cctccgtggt 4380
gcctgctacc tgcgccgtct caacgccctg cgcaacgacc cgcgcattga cctcgagacc 4440
gaggatgctg cctttgtcta cgagcccacc aacgcgctc 4479
<210> 76
<211> 4200
<212> DNA
<213> Schizochytrium sp.
<400> 76
tttctctctc tcgagctgtt gctgctgctg ctgctgctgc tgcttccttg ctggttctca 60
cgtccgttcg atcaagcgct cgctcgctcg accgatcggt gcgtgcgtgc gtgcgtgagt 120
cttgttgcca ggcagccgca ggctgtctgt ctgtttgtgt agttttaccc tcggggttcg 180
gggtctgcct gcctcccgct cccgcccgcc gccgcccgta tccaccccgc tcgcctccgc 240
ccatcgggcc tcgcctcctc gcgccgcacg catcgcgcgc atcgcatgca tcatgctgcc 300
acgcacgggg ggacgcgcgc cccgcgtccc ccgccgccgc cgtcgtcgtc tggcgatgcc 360
gtcgccgccc tccttccttc cctcgcctcc tcttcctccc gagcccccct gtcttccttc 420
gcccccgcag cggcgcgcag gaagcgagga gagcggggag gagagaagaa aagaaaagaa 480
aagaaaagaa aataacagcg ccgtctcgcg cagacgcgcg cggccgcgtg cgaggcggcg 540
tgatggggct tctcgtggcg cggctgcggc ctggcccggc ctcgcctttg aggtgcaggc 600
tttgggagag aagagtggga cgcggagaag ataagatggt gccatggcgc aggacggaga 660
ggttgctgaa acttcttcga gcggcacagg cgatggcgag agaccgacag ctgccggcgc 720
ggaggggatg gatacctccc gaggctggca tggacgagct ggccgcgcgg atctggctgg 780
ccgcgcggcg gtgggtccgg aggcgcgagg ttggttttct tcatacctga taccatacgg 840
tattcattct tcctctccag gaaggaagca agtcacatag agtatcacta gcctaatgat 900
ggactctatg ttttagggca cgtcggagca gaaggcgcga gcgattcgaa tgcgagcgat 960
agatacagca cagagacctt gccggcgacg cggatgcagg cgagcacgca cgcaccgcac 1020
gcacggcagc ggtgcacgcg ctcctcggca gatgcacggt tctgcgccgc gcctttacat 1080
tttttgattt taggtggtgt gcctgccact ttgaacatca tccacaagtc aacgcagcat 1140
caagaggcaa gcaagtacat acatccattc gaattcaagt tcaagagacg cagcaacagc 1200
cgccgctccg ctcaagctgc agctagctgg ctgacagggc tcgctggctg tagtggaaaa 1260
ttccattcac ttttctgcat ccgcggccag caggcccgta cgcacgttct ctcgtttgtt 1320
tgttcgttcg tgcgtgcgtg cgtgcgtccc agctgcctgt ctaatctgcc gcgcgatcca 1380
acgaccctcg gtcgtcgccg caagcgaaac ccgacgccga cctggccaat gccgcaagaa 1440
tgctaagcgc gcagcaatgc tgagagtaat cttcagccca ccaagtcatt atcgctgccc 1500
aagtctccat cgcagccaca ttcaggcttt ctctctctct ccctccctct ctttctgccg 1560
ggagagaagg aaagacccgc cgccgccgcc tctgcgcctg tgacgggctg tccgttgtaa 1620
gccctcttag acagttccta ggtgccgggc gccgccgcgc ctccgtcgca ggcacacgta 1680
ggcggccacg ggttcccccc gcaccttcca caccttcttc ccccgcagcc ggaccgcgcg 1740
ccgtctgctt acgcacttcg cgcggccgcc gcccgcgaac ccgagcgcgt gctgtgggcg 1800
ccgtcttccg gccgcgtcgg aggtcgtccc cgcgccgcgc tactccgggt cctgtgcggt 1860
acgtacttaa tattaacagt gggacctcgc acaggacctg acggcagcac agacgtcgcc 1920
gcctcgcatc gctggggacg caggcgaggc atcccggcgc ggccccgcac cggggaggct 1980
gcggggcggc ctcttccggc cggcggccgc atcaggcgga tgacgcaaga gccctcgcag 2040
tcgctcgctc gcgggagcgc agcgcggcgc cagcgtggcc aagctcccgc cccttctggc 2100
tggctgcatg cctgcctgcc tgcctgcctg cgtgcgtgcg tgcgtgcgtg ccttcgtgcg 2160
tgcctgcctt cgtgcgtgcg tgcgtgagtg cggcggaaga gggatcatgc gaggatcaat 2220
cacccgccgc acctcgactt ttgaagaagc cgcgatgcga tgcgatgcga tgcgatgcga 2280
cgcgataccg tgcgaggcta cgaagcgagt ctggccggcc gtcatacaac gcacgttttc 2340
gagaaggagg gctggcggag gcgtgcatgc cggcgaccat tgcgaacgcg gcgtctcgtg 2400
gctggcgaag gtgcctggag gatctaacga tcgctgctat gatgctatag ctgtgctgat 2460
ccccggtcca ttccaccacg tctgtgcctg ccgcctgacc tgcgcttggc tttccttcaa 2520
gttctcctcc gccgggcctt caggaccgag acgagacctg cagctgcagc tagactcgcg 2580
ctcgctcgcg gaggattcgc cggccgccgg gccggacggg actcgcgagg tcacacggcc 2640
gccggcgatc gcgatggctg tgctgacgta ctcgtgcgtg gcagccgtac gtcagcgacg 2700
ccgcctccgt attgtggatt cgttagttgg ttgttggttg atttgttgat taattttttt 2760
gttcgtaggc ttggttatag ctaatagttt agtttatact ggtgctcttc ggtgctgatt 2820
tagctcgact tgggtccaca ccactgcccc tctactgtga atggatcaat ggacgcacga 2880
cgggccgacg aaagtgcgcg agtgaggtaa cctaagcaac ggcggtcttc agaggggacg 2940
cacgccctcc gtcgcagtca gtccagacag gcagaaaagc gtcttaggga ccacgcacgc 3000
acgcacgcac gcacgcacgc ccgcacgcac gctccctccc tcgcgtgcct atttttttag 3060
gcttccttcc gcacgggcct acctctcgct ccctcgcctc gccgcaccag gcggcagcag 3120
cgatacctgc cggtgccgcc tccgtcacgc gctcagccgc agctcagccc agccgcgagc 3180
tagggtttgt tcgtcctgaa ttgtttgatt tgatttgatt tgatttgatc cgatccgatc 3240
cgatctgatc tgatttgctt tgctttgctt tgtctccctc ccggcgcgga ccaagcgtcc 3300
gtctgcgcgc cgcagcttcc cttcttctcc cagccctcct tctgctcccg cctctcgcgc 3360
aagcacgcag cttcgccgcc gcatccggtc ggtcggtcgg tcgatcgacc cgcctgccgc 3420
tgctgctgtg gccgggcttt tctccatcgg cgactctttc ttctccatac gtcctactac 3480
gtacatacat actgccggct tcctcctctt ccagcgcggc gacggcggca ggctgcgacg 3540
tcgtcgccgc cgcgggcgcc gcgcgcgccg ccgccgccgc ccgcgtcgca gggcctcgtc 3600
gccgccgccg ctccgctccg ctccgaggcc gcgagagggc cgcggcggcg cgatggatgg 3660
atggatggat ggatggatgg atggattttg ttgatcgatg gcggcgcatg ggcggagatg 3720
agcgaggacg agcgcgcgag cgcggcagcc ggattcgcag ggcctcgctc gcctcgcgcc 3780
cgctgccgcg cccgccttgc gagcctgcgc cgcgagcgag cgagcgagcg agcggggctt 3840
tctttgtctc gcgcgccgct tggcctcgtg tgtcttgtgc ttgcgtagcg ggcgccgcgg 3900
tggaagatgg ctcattcaat cgacccattc acgcacgcac tccggcgcgc agagaaggcc 3960
gaggaggagc agcaagcaaa ccaaaagctc tcgcgctcgc ggtctcgggc tcgagcggtc 4020
tcggagagag agtcttgcgg cgaccaccgg cagcagcagc agcagcagca gcgctgtcga 4080
gcacgagcac gagcacgagc acgagcacga gcattcgagc aagaggacag acacggttgt 4140
cagcgcctag ctcgctcgat acagaaagag gcgggttggg cgtaaaaaaa aaggagcacg 4200
<210> 77
<211> 3886
<212> DNA
<213> Schizochytrium sp.
<220>
<221> misc_feature
<222> (2115)..(2115)
<223> n = a, c, g, or t
<400> 77
gatcttgatt gccaagctct ggattgtcga ttccgatgaa tcgagctctt tgttgtcgag 60
ctctggcttg ccgagctttc agaaatagac aaaattgccg agttcctgat tgcggggctc 120
tcgattgcca aggtctggtg gattctcgaa ctctcgattg tcaaaatctt ggtcgtctcg 180
tcggattctt tcctgatttg ttttgtcaag accttgagat tgtgcaaaac cttgatcgtt 240
gacaaaccct tgatcgacag cagcctttca tcacgctcag ctcttgtcat tgattatatt 300
ccccctgaca gccaacacct tgatgcaggg tctcaacctt gatttttgga ggccatcatc 360
agcatcacgc cccggcactc accctcaaca ttcgacagcc aacgcttttt tttcttcgac 420
taggatctga gaataaaagc aggtcaccac gaccgtaggc caacgcgaca accatggaaa 480
taaagtgaca acgaacgact tgcaagttta aatgtaaaga gcagcaattg cccgcccaca 540
gacaaatgaa agcaggcgcc gagtcttatt tgaggaggtg ggcctgtggc aatgggcgaa 600
agaaaatcaa ggacaaggag agcaggttac gtaccggtat actggtatac gtacatggat 660
ggttcttggc aagttgacgg gatgtgtgcg agtgaccgtg gtagttaacg aaagagccgc 720
aagggcaagg aaagcaagag aatgcagact tttccacagg atggatgggt ccgcagcttg 780
ccgcatgatg aaacgctgta tttcacctgg cacgtggtgg cgcacgcgcc cacatatgat 840
cgcggcggcg ggtgtattat acattttccc cctcaggtct actgccatcc ctccatgcgt 900
cgctcgtgcg aacgacgcaa gcctttcgca tcgtgcagcc tctttctggt aaggcaagag 960
ctaaacccaa acctaaacga aagaacattt ttacctctct ctctctccca ttggtcgcgt 1020
gcgctccgcc gctcgctcct cctcctgcca gtgtcgcgcc ctaacttccc ccctccctcc 1080
ctccctccct ccctccctct ctcctgccac cgcccctctc tccgcgctgc gtgcggtgct 1140
gccctggacc aatggcatgc tgctgcacgc tcggcggatg acgcaagccg cttcgcaatt 1200
tccggatcag atctcggcgg ggcgtgcgcc gcggggtcac tgcggacctg ccgcggcccc 1260
tgcttctttc acatccatca tgtcctccaa acctccgcct cctccacgca cgtacgcacg 1320
cccgctcgca cgcgcgcact gccgctgcga aagcaagcgc ccgcccgccg cccggcgacg 1380
ggaaggcggc cgcggtctcc ctccgcggtt gcctcgctcc cgcgcggggc tgggcgggca 1440
gcagaaggcg ggtggcggcg gcggcttccg tcttcgtcag cggcctacgt cggcggcggc 1500
gcgcgagact acgcatgccc ttgcgtcatg cgctcgcagg tagccgccgc gggcctagcg 1560
tttccgctgg cgccgcgcct aagcccccgg cgcgcacggt attgccgcga taccgtacgg 1620
ccaagaccgc cgcagacgtc ggccctctcg cggccagcca gccagcagcg cagcggagga 1680
agagcgcgca ggcgcggcgg gagggcggcc gcggagcagc gcagagcggg gcggagcagc 1740
gcggagcaga acgggcagac tcggagcggg cagggcgggc agagctttgg ggtttaagga 1800
ccgggttacc ggcgaagtga gcggctgcgg ggagcggctg tgggaggggt gagtacgcaa 1860
gcacgatgcg agcgagagag agacgctgcc gcgaatcaag aaggtaggcg cgctgcgagg 1920
cgcggcggcg gagcggagcg agggagaggg agagggagag agagggaggg agacgtcgcc 1980
gcggcggggc ctggcctggc ctggtttggc ttggtcagcg cggccttgtc cgagcgtgca 2040
gctggagttg ggtggattca tttggatttt cttttgtttt tgtttttctc tctttcccgg 2100
aaagtgttgg ccggncggtg ttctttgttt tgatttcttc aaaagttttg gtggttggtt 2160
ctctctcttg gctctctgtc aggcggtccg gtccacgccc cggcctctcc tctcctctcc 2220
tctcctctcc tctccgtgcg tatacgtacg tacgtttgta tacgtacata catcccgccc 2280
gccgtgccgg cgagggtttg ctcagcctgg agcaatgcga tgcgatgcga tgcgatgcga 2340
cgcgacgcga cgcgagtcac tggttcgcgc tgtggctgtg gcttgcttgc ttacttgctt 2400
tcgagctctc ccgctttctt ctttccttct cacgccacca ccaacgaaag aagatcggcc 2460
ccggcacgcc gctgagaagg gctggcggcg atgacggcac gcgcgcccgc tgccacgttg 2520
gcgctcgctg ctgctgctgc tgctgctgct gctgctgctg ctgctgctgc tgctgcttct 2580
gcgcgcaggc tttgccacga ggccggcgtg ctggccgctg ccgcttccag tccgcgtgga 2640
gagatcgaat gagagataaa ctggatggat tcatcgaggg atgaatgaac gatggttgga 2700
tgcctttttc ctttttcagg tccacagcgg gaagcaggag cgcgtgaatc tgccgccatc 2760
cgcatacgtc tgcatcgcat cgcatcgcat gcacgcatcg ctcgccggga gccacagacg 2820
ggcgacaggg cggccagcca gccaggcagc cagccaggca ggcaccagag ggccagagag 2880
cgcgcctcac gcacgcgccg cagtgcgcgc atcgctcgca gtgcagacct tgattccccg 2940
cgcggatctc cgcgagcccg aaacgaagag cgccgtacgg gcccatccta gcgtcgcctc 3000
gcaccgcatc gcatcgcatc gcgttcccta gagagtagta ctcgacgaag gcaccatttc 3060
cgcgctcctc ttcggcgcga tcgaggcccc cggcgccgcg acgatcgcgg cggccgcggc 3120
gctggcggcg gccctggcgc tcgcgctggc ggccgccgcg ggcgtctggc cctggcgcgc 3180
gcgggcgccg caggaggagc ggcagcggct gctcgccgcc agagaagagc gcgccgggcc 3240
cggggaggga cggggaggag aaggagaagg cgcgcaaggc ggccccgaaa gagaagaccc 3300
tggacttgaa cgcgaagaag aagaagaagg agaagaagtt gaagaagaag aagaagaagg 3360
agaggaagtt gaagaagacg aggagcaggc gcgttccaag gcgcgttctc ttccggaggc 3420
gcgttccagc tgcggcggcg gggcgggctg cggggcgggc gcgggcgcgg gtgcgggcag 3480
aggggacgcg cgcgcggagg cggagggggc cgagcgggag cccctgctgc tgcggggcgc 3540
ccgggccgca ggtgtggcgc gcgcgacgac ggaggcgacg acgccagcgg ccgcgacgac 3600
aaggccggcg gcgtcggcgg gcggaaggcc ccgcgcggag caggggcggg agcaggacaa 3660
ggcgcaggag caggagcagg gccgggagcg ggagcgggag cgggcggcgg agcccgaggc 3720
agaacccaat cgagatccag agcgagcaga ggccggccgc gagcccgagc ccgcgccgca 3780
gatcactagt accgctgcgg aatcacagca gcagcagcag cagcagcagc agcagcagca 3840
gcagcagcag ccacgagagg gagataaaga aaaagcggca gagacg 3886
<210> 78
<211> 20
<212> DNA
<213> Artificial
<220>
<223> synthetic
<400> 78
catatggcgc tccgtgtcaa 20
<210> 79
<211> 35
<212> DNA
<213> Artificial
<220>
<223> synthetic
<400> 79
gccaggaagc tttgacatgg ggtgccagga catct 35
<210> 80
<211> 37
<212> DNA
<213> artificial
<220>
<223> synthetic
<400> 80
tcctggcacc ccatgtcaaa gcttcctggc aacccta 37
<210> 81
<211> 20
<212> DNA
<213> artificial
<220>
<223> synthetic
<400> 81
agtatacaga ggtgctgaca 20
<210> 82
<211> 28
<212> DNA
<213> artificial
<220>
<223> synthetic
<400> 82
gcaccccatg agcaagctcc ccggcaac 28
<210> 83
<211> 28
<212> DNA
<213> Artificial
<220>
<223> synthetic
<400> 83
gtatacagag gcgcagacac gttgtaag 28
<210> 84
<211> 28
<212> DNA
<213> Artificial
<220>
<223> synthetic
<400> 84
ctgcagccag atgctcaaga tgtacatg 28
<210> 85
<211> 31
<212> DNA
<213> artificial
<220>
<223> synthetic
<400> 85
ggagcttgct catggggtgc caggacatct c 31
<210> 86
<211> 10
<212> DNA
<213> artificial
<220>
<223> synthetic
<400> 86
ggatccatgg 10
<210> 87
<211> 31
<212> DNA
<213> Artificial
<220>
<223> synthetic
<400> 87
aagcttgtgc agtcaagtgc gcaaaaccat g 31
<210> 88
<211> 15
<212> DNA
<213> Artificial
<220>
<223> synthetic
<400> 88
taacccgggt ctaga 15
<210> 89
<211> 31
<212> DNA
<213> Artificial
<220>
<223> synthetic
<400> 89
gactgctagc ttaagcaagg attttcttaa c 31
<210> 90
<211> 31
<212> DNA
<213> Artificial
<220>
<223> synthetic
<400> 90
gactggatcc tcctgatgcg gtattttctc c 31
<210> 91
<211> 12
<212> DNA
<213> Artificial
<220>
<223> synthetic
<400> 91
ctaggcggcc gc 12
<210> 92
<211> 31
<212> DNA
<213> Artificial
<220>
<223> synthetic
<400> 92
gactactagt ctaagaaacc attattatca t 31
<210> 93
<211> 31
<212> DNA
<213> Artificial
<220>
<223> synthetic
<400> 93
gactggatcc agctttaaat aatcggtgtc a 31
<210> 94
<211> 46
<212> DNA
<213> Artificial
<220>
<223> synthetic
<400> 94
gactggatcc gccaccatgt tgcagcatac ttggctacca aaaccc 46
<210> 95
<211> 35
<212> DNA
<213> Artificial
<220>
<223> synthetic
<400> 95
gacttctaga tcaataatgc cagaattttg gctgc 35
Claims (59)
- 제1 다중불포화 지방산 폴리케타이드 신테이즈 (PUFA PKS) 시스템과 비교하여 상이한 비율의 오메가-3 대 오메가-6 PUFA를 생산하는 키메라 PUFA PKS 시스템이 생산되도록, 제1 PUFA PKS 시스템으로부터의 FabA-유사 β-히드록시아실-아실 캐리어(carrier) 단백질 디하이드레이즈(dehydrase)-2 (DH2) 도메인이 상이한 제2 PUFA PKS 시스템으로부터의 DH2 도메인으로 교체된 키메라 PUFA PKS 시스템.
- 제1항에 있어서, 제1 PUFA PKS 시스템으로부터의 DH2 도메인을 포함하는 단백질이 제2 PUFA PKS 시스템으로부터의 DH2 도메인을 포함하는 상동성 단백질로 교체되는 키메라 PUFA PKS 시스템.
- 제1항 또는 제2항에 있어서, 제1 또는 제2 PUFA PKS 시스템으로부터의 DH2 도메인이 스키조키트리움(Schizochytrium) 또는 트라우스토키트리움(Thraustochytrium)으로부터의 DH2 도메인을 포함하는 키메라 PUFA PKS 시스템.
- 제1항에 있어서, (a) 제1 PUFA PKS 시스템이 스키조키트리움 PUFA PKS 시스템이고, 제2 PUFA PKS 시스템이 트라우스토키트리움 PUFA PKS 시스템이거나; (b) 제1 PUFA PKS 시스템이 스키조키트리움 PUFA PKS 시스템이고, 제2 PUFA PKS 시스템이 상이한 트라우스토키트리드(Thraustochytrid)로부터의 것이고, 여기서 스키조키트리움 PUFA PKS 시스템으로부터의 DH2 도메인을 포함하는 OrfC가 상이한 트라우스토키트리드로부터의 DH2 도메인을 포함하는 OrfC로 교체되는 것이거나; (c) 제1 PUFA PKS 시스템이 스키조키트리움 PUFA PKS 시스템이고, 제2 PUFA PKS 시스템이 트라우스토키트리움 23B로부터의 것이고, 여기서 스키조키트리움 PUFA PKS 시스템으로부터의 DH2 도메인을 포함하는 OrfC가 트라우스토키트리움 23B로부터의 DH2 도메인을 포함하는 OrfC로 교체되는 것이거나; 또는 (d) 제1 PUFA PKS 시스템이 스키조키트리움 PUFA PKS 시스템이고, 제2 PUFA PKS 시스템이 트라우스토키트리움 23B로부터의 것이고, 여기서 트라우스토키트리움 23B로부터의 DH2 도메인을 포함하는 키메라 단백질을 생산하도록 스키조키트리움 PUFA PKS 시스템으로부터의 OrfC의 DH2 도메인이 트라우스토키트리움 23B로부터의 DH2 도메인으로 교체되는 것인 키메라 PUFA PKS 시스템.
- 제4항에 있어서, 트라우스토키트리움 23B로부터의 OrfC가 스키조키트리움 코돈 사용빈도에 대해 최적화된 핵산 서열에 의해 코딩되는 키메라 PUFA PKS 시스템.
- 제5항에 있어서, 핵산 서열이 서열 70을 포함하는 키메라 PUFA PKS 시스템.
- 제4항에 있어서, 스키조키트리움 PUFA PKS 시스템으로부터의 OrfA가 트라우스토키트리움 23B로부터의 OrfA로 교체되거나, 스키조키트리움 PUFA PKS 시스템으로부터의 OrfB가 트라우스토키트리움 23B로부터의 OrfB로 교체되거나, 또는 그의 조합인 키메라 PUFA PKS 시스템.
- 제7항에 있어서, 트라우스토키트리움 23B로부터의 OrfA, OrfB, 또는 그의 조합이 스키조키트리움 코돈 사용빈도에 대해 최적화된 핵산 서열에 의해 코딩되는 키메라 PUFA PKS 시스템.
- 제8항에 있어서, OrfA를 코딩하는 핵산 서열이 서열 71을 포함하고 OrfB를 코딩하는 핵산 서열이 서열 72를 포함하는 키메라 PUFA PKS 시스템.
- 제4항에 있어서, 트라우스토키트리움 23B로부터의 DH2 도메인을 포함하는 키메라 단백질이 서열 73을 포함하는 핵산 서열에 의해 코딩되는 키메라 PUFA PKS 시스템.
- 제4항에 있어서, 트라우스토키트리움 23B로부터의 DH2가 스키조키트리움 코돈 사용빈도에 대해 최적화된 핵산 서열에 의해 코딩되는 키메라 PUFA PKS 시스템.
- 제4항 또는 제11항에 있어서, 트라우스토키트리움 23B로부터의 DH2 도메인을 포함하는 키메라 단백질이 서열 75를 포함하는 핵산 서열에 의해 코딩되는 키메라 PUFA PKS 시스템.
- 제1항에 있어서, 키메라 PUFA PKS 시스템이 서열 74의 아미노산 서열을 포함하는 단백질을 포함하는 키메라 PUFA PKS 시스템.
- 제1항에 있어서, a) 서열 2, 서열 4 및 서열 74; b) 서열 39, 서열 4 및 서열 62; c) 서열 39, 서열 4 및 서열 74; d) 서열 1, 서열 3 및 서열 70; e) 서열 1, 서열 3 및 서열 73; f) 서열 1, 서열 3 및 서열 75; 또는 g) 서열 71, 서열 3 및 서열 70을 포함하는 키메라 PUFA PKS 시스템.
- 제1항 또는 제4항의 키메라 다중불포화 지방산 (PUFA) PKS 시스템을 생물에서 발현시키는 것을 포함하는, 제1 PUFA PKS 시스템에 의해 생산되는 PUFA의 오메가-3 대 오메가-6 비율을 변경시키는 방법.
- 제15항에 있어서, 키메라 PUFA PKS 시스템이 미생물 또는 식물에 의해 발현되는 방법.
- 제1항, 제4항, 제13항 및 제14항 중 어느 한 항의 키메라 PUFA PKS 시스템을 포함하는, 유전자 변형된 미생물 또는 식물 또는 식물의 일부분.
- 제1 다중불포화 지방산 (PUFA) PKS 시스템과 비교하여 상이한 비율의 오메가-3 대 오메가-6 PUFA를 생산하는 키메라 PUFA PKS 시스템이 생산되도록 제1 PUFA PKS 시스템으로부터의 FabA-유사 β-히드록시아실-ACP 디하이드레이즈-2 (DH2) 도메인이 상이한 제2 PUFA PKS 시스템으로부터의 DH2 도메인으로 교체되고, 제2 PUFA PKS 시스템으로부터의 DH2 도메인이 제1 PUFA PKS 시스템이 유래되는 생물의 코돈 사용빈도에 대해 최적화된 키메라 PUFA PKS 시스템을 생물에서 발현시키는 것을 포함하는, PUFA의 생산을 증가시키고 제1 PUFA PKS 시스템에 의해 생산되는 PUFA의 오메가-3 대 오메가-6 비율을 변경시키는 방법.
- 서열 74의 아미노산 서열을 포함하는 키메라 OrfC 단백질을 코딩하는 단리된 핵산 분자.
- 제19항의 핵산 분자로 형질감염된 재조합 숙주 세포.
- 제20항에 있어서, 세포가 미생물이거나 식물 세포인 재조합 숙주 세포.
- 제20항 또는 제21항의 재조합 숙주 세포를 포함하는, 유전자 변형된 식물 또는 그의 일부분.
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
- 삭제
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US11/749,686 | 2007-05-16 | ||
US11/749,686 US8003772B2 (en) | 1999-01-14 | 2007-05-16 | Chimeric PUFA polyketide synthase systems and uses thereof |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20100020963A KR20100020963A (ko) | 2010-02-23 |
KR101539470B1 true KR101539470B1 (ko) | 2015-07-24 |
Family
ID=40122412
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020097026099A KR101539470B1 (ko) | 2007-05-16 | 2008-05-16 | 키메라 pufa 폴리케타이드 신테이즈 시스템 및 이의 용도 |
Country Status (13)
Country | Link |
---|---|
US (3) | US8003772B2 (ko) |
EP (1) | EP2160470B1 (ko) |
JP (1) | JP5551584B2 (ko) |
KR (1) | KR101539470B1 (ko) |
CN (1) | CN101849014B (ko) |
AU (1) | AU2008254837B2 (ko) |
BR (1) | BRPI0810302A2 (ko) |
CA (1) | CA2687523C (ko) |
ES (1) | ES2467918T3 (ko) |
HK (1) | HK1143403A1 (ko) |
IL (1) | IL202131A (ko) |
MX (1) | MX2009012395A (ko) |
WO (1) | WO2008144473A2 (ko) |
Families Citing this family (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6566583B1 (en) * | 1997-06-04 | 2003-05-20 | Daniel Facciotti | Schizochytrium PKS genes |
US20070244192A1 (en) * | 1999-01-14 | 2007-10-18 | Martek Biosciences Corporation | Plant seed oils containing polyunsaturated fatty acids |
US7247461B2 (en) * | 1999-01-14 | 2007-07-24 | Martek Biosciences Corporation | Nucleic acid molecule encoding ORFA of a PUFA polyketide synthase system and uses thereof |
US7211418B2 (en) * | 1999-01-14 | 2007-05-01 | Martek Biosciences Corporation | PUFA polyketide synthase systems and uses thereof |
US7217856B2 (en) * | 1999-01-14 | 2007-05-15 | Martek Biosciences Corporation | PUFA polyketide synthase systems and uses thereof |
US8003772B2 (en) * | 1999-01-14 | 2011-08-23 | Martek Biosciences Corporation | Chimeric PUFA polyketide synthase systems and uses thereof |
TWI350854B (en) | 2001-04-16 | 2011-10-21 | Martek Biosciences Corp | Product and process for transformation of thraustochytriales microorganisms |
CN102559364B (zh) | 2004-04-22 | 2016-08-17 | 联邦科学技术研究组织 | 用重组细胞合成长链多不饱和脂肪酸 |
US7834250B2 (en) | 2004-04-22 | 2010-11-16 | Commonwealth Scientific And Industrial Research Organisation | Synthesis of long-chain polyunsaturated fatty acids by recombinant cells |
WO2007106905A2 (en) * | 2006-03-15 | 2007-09-20 | Martek Biosciences Corporation | Polyunsaturated fatty acid production in heterologous organisms using pufa polyketide synthase systems |
CA2661697A1 (en) | 2006-08-29 | 2008-03-06 | Commonwealth Scientific And Industrial Research Organisation | Synthesis of fatty acids |
CA2722466A1 (en) | 2008-04-29 | 2009-11-05 | Tariq Ghayur | Dual variable domain immunoglobulins and uses thereof |
EP2297209A4 (en) | 2008-06-03 | 2012-08-01 | Abbott Lab | IMMUNOGLOBULINS WITH TWO VARIABLE DOMAINS AND USES THEREOF |
EP2358882B1 (en) | 2008-11-18 | 2017-07-26 | Commonwealth Scientific and Industrial Research Organisation | Enzymes and methods for producing omega-3 fatty acids |
TWI504749B (zh) | 2009-03-16 | 2015-10-21 | Dsm Ip Assets Bv | 於網黏菌門微生物中生產蛋白質之技術 |
US8207363B2 (en) | 2009-03-19 | 2012-06-26 | Martek Biosciences Corporation | Thraustochytrids, fatty acid compositions, and methods of making and uses thereof |
CA3012998C (en) | 2009-03-19 | 2021-09-07 | Dsm Ip Assets B.V. | Polyunsaturated fatty acid synthase nucleic acid molecules and polypeptides, compositions, and methods of making and uses thereof |
WO2011037207A1 (ja) | 2009-09-24 | 2011-03-31 | 国立大学法人九州大学 | ストラメノパイルの形質転換方法 |
IN2012DN06278A (ko) * | 2009-12-28 | 2015-09-25 | Dsm Ip Assets Bv | |
EP3213766A1 (en) | 2009-12-28 | 2017-09-06 | Merial Ltd. | Recombinant ndv antigen and uses thereof |
EP2519642B1 (en) * | 2009-12-28 | 2017-10-25 | DSM IP Assets B.V. | Recombinant thraustochytrids that grow on xylose, and compositions, methods of making, and uses thereof |
EP3505632B1 (en) * | 2009-12-28 | 2022-08-03 | Sanofi Vaccine Technologies, S.A.S. | Production of heterologous polypeptides in microalgae, microalgal extracellular bodies, compositions, and methods of making and uses thereof |
CN107858297A (zh) | 2009-12-28 | 2018-03-30 | Dsm Ip资产公司 | 在蔗糖上生长的重组破囊壶菌和其组合物、制备方法及用途 |
JP5920890B2 (ja) | 2010-01-19 | 2016-05-18 | ディーエスエム アイピー アセッツ ビー.ブイ. | エイコサペンタエン酸生成微生物、脂肪酸組成物、ならびにそれらを作る方法およびそれらの使用 |
CA2792117C (en) | 2010-03-12 | 2016-09-20 | Merial Limited | Foot and mouth disease virus recombinant vaccines and uses thereof |
US11236351B2 (en) * | 2010-05-17 | 2022-02-01 | Dow Agrosciences Llc | Production of DHA and other LC PUFAs in plants |
TW201144442A (en) * | 2010-05-17 | 2011-12-16 | Dow Agrosciences Llc | Production of DHA and other LC-PUFAs in plants |
UY33492A (es) | 2010-07-09 | 2012-01-31 | Abbott Lab | Inmunoglobulinas con dominio variable dual y usos de las mismas |
JP2013537415A (ja) | 2010-08-03 | 2013-10-03 | アッヴィ・インコーポレイテッド | 二重可変ドメイン免疫グロブリンおよびその使用 |
CN103649313B (zh) * | 2011-03-07 | 2017-10-24 | Dsm营养产品股份公司 | 工程化破囊壶菌属微生物 |
US9222112B2 (en) | 2011-07-21 | 2015-12-29 | Dsm Ip Assets B.V. | Eicosapentaenoic acid-producing microorganisms, fatty acid compositions, and methods of making and uses thereof |
TW201307553A (zh) | 2011-07-26 | 2013-02-16 | Dow Agrosciences Llc | 在植物中生產二十二碳六烯酸(dha)及其他長鏈多元不飽和脂肪酸(lc-pufa)之技術 |
US8946460B2 (en) | 2012-06-15 | 2015-02-03 | Commonwealth Scientific And Industrial Research Organisation | Process for producing polyunsaturated fatty acids in an esterified form |
TW201525136A (zh) | 2013-11-26 | 2015-07-01 | Dow Agrosciences Llc | 利用破囊壺菌PUFA合成酶於油籽作物中生成ω-3長鏈多不飽和脂肪酸 |
SG11201604871VA (en) | 2013-12-18 | 2016-07-28 | Commw Scient Ind Res Org | Lipid comprising long chain polyunsaturated fatty acids |
KR102527795B1 (ko) | 2014-06-27 | 2023-05-02 | 커먼웰쓰 사이언티픽 앤 인더스트리알 리서치 오거니제이션 | 도코사펜타에노산을 포함하는 지질 |
US9932599B2 (en) | 2015-03-02 | 2018-04-03 | Synthetic Genomics, Inc. | Regulatory elements from labyrinthulomycetes microorganisms |
CA2978770A1 (en) * | 2015-03-12 | 2016-09-15 | Synthetic Genomics, Inc. | Microorganisms for fatty acid production using elongase and desaturase enzymes |
WO2017161005A1 (en) | 2016-03-16 | 2017-09-21 | Synthetic Genomics, Inc. | Production of proteins in labyrinthulomycetes |
CN109477079A (zh) | 2016-05-12 | 2019-03-15 | 帝斯曼知识产权资产管理有限公司 | 增加微藻中ω-3多不饱和脂肪酸产量的方法 |
EP3484994A4 (en) | 2016-07-13 | 2020-01-22 | DSM IP Assets B.V. | CRISPR-CAS-SYSTEM FOR AN ALGENE CELL |
US10633454B2 (en) | 2016-11-01 | 2020-04-28 | Conagen Inc. | Expression of modified glycoproteins and glycopeptides |
CN106947706B (zh) * | 2017-05-10 | 2020-07-07 | 南京工业大学 | 一株裂殖壶菌菌株、其构建方法及应用 |
US20210309987A1 (en) * | 2018-08-10 | 2021-10-07 | Kyowa Hakko Bio Co., Ltd. | Microorganism producing polyunsaturated fatty acid and method for producing polyunsaturated fatty acid |
US11613728B2 (en) | 2018-08-10 | 2023-03-28 | Kyowa Hakko Bio Co., Ltd. | Microorganism producing eicosapentaenoic acid and method for producing eicosapentaenoic acid |
WO2023144707A1 (en) | 2022-01-25 | 2023-08-03 | Dsm Ip Assets B.V. | Media refinement and nutrient feeding approaches to increase polyunsaturated fatty acid production |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2002083870A2 (en) * | 2001-04-16 | 2002-10-24 | Martek Biosciences Boulder Corporation | Pufa polyketide synthase systems and uses thereof |
US20040253621A1 (en) * | 2003-05-07 | 2004-12-16 | Picataggio Stephen K. | Codon-optimized genes for the production of polyunsaturated fatty acids in oleaginous yeasts |
US20050100995A1 (en) * | 1999-01-14 | 2005-05-12 | Weaver Craig A. | PUFA polyketide synthase systems and uses thereof |
Family Cites Families (40)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5246841A (en) | 1986-12-26 | 1993-09-21 | Sagami Chemical Research Center | Microbial process for production of eicosapentaenoic acid |
US5130242A (en) | 1988-09-07 | 1992-07-14 | Phycotech, Inc. | Process for the heterotrophic production of microbial products with high concentrations of omega-3 highly unsaturated fatty acids |
US5340742A (en) | 1988-09-07 | 1994-08-23 | Omegatech Inc. | Process for growing thraustochytrium and schizochytrium using non-chloride salts to produce a microfloral biomass having omega-3-highly unsaturated fatty acids |
US5639790A (en) | 1991-05-21 | 1997-06-17 | Calgene, Inc. | Plant medium-chain thioesterases |
US5683898A (en) | 1992-05-15 | 1997-11-04 | Sagami Chemical Research Center | Gene coding for eicosapentaenoic acid synthesizing enzymes and process for production of eicosapentaenoic acid |
US5798259A (en) | 1992-05-15 | 1998-08-25 | Sagami Chemical Research Center | Gene coding for eicosapentaenoic acid synthesizing enzymes and process for production of eicosapentaenoic acid |
CA2113557A1 (en) | 1992-05-15 | 1993-11-25 | Kazunaga Yazawa | Gene which codes for eicosapentaenoic acid synthetase group and process for producing eicosapentaenoic acid |
US5310242A (en) | 1992-09-28 | 1994-05-10 | Golder Kimberly A | Portable infant seat |
DE4323727A1 (de) | 1993-07-15 | 1995-03-09 | Boehringer Mannheim Gmbh | Verfahren zur Identifizierung von menschlichen und tierischen Zellen mit der Fähigkeit zu unbegrenzter Proliferation oder zur Tumorbildung |
US5672491A (en) | 1993-09-20 | 1997-09-30 | The Leland Stanford Junior University | Recombinant production of novel polyketides |
CA2209987A1 (en) | 1995-01-13 | 1996-07-18 | Sagami Chemical Research Center | Gene coding for eicosapentaenoic acid synthesizing enzymes and process for production of eicosapentaenoic acid |
EP0823475B1 (en) | 1995-04-17 | 2009-06-17 | National Institute of Advanced Industrial Science and Technology | Novel microorganisms capable of producing highly unsaturated fatty acids and process for producing highly unsaturated fatty acids by using the microorganisms |
US6033883A (en) | 1996-12-18 | 2000-03-07 | Kosan Biosciences, Inc. | Production of polyketides in bacteria and yeast |
EP0986377A1 (en) | 1997-03-27 | 2000-03-22 | Bristol-Myers Squibb Company | Use of docosahexanoic acid and arachidonic acid enhancing the growth of preterm infants |
CN1253588A (zh) | 1997-04-11 | 2000-05-17 | 艾博特公司 | 在植物中合成长链多不饱和脂肪酸的方法和组合物 |
US6566583B1 (en) | 1997-06-04 | 2003-05-20 | Daniel Facciotti | Schizochytrium PKS genes |
US6140486A (en) | 1997-06-04 | 2000-10-31 | Calgene Llc | Production of polyunsaturated fatty acids by expression of polyketide-like synthesis genes in plants |
US6677145B2 (en) | 1998-09-02 | 2004-01-13 | Abbott Laboratories | Elongase genes and uses thereof |
US7247461B2 (en) | 1999-01-14 | 2007-07-24 | Martek Biosciences Corporation | Nucleic acid molecule encoding ORFA of a PUFA polyketide synthase system and uses thereof |
US20070244192A1 (en) | 1999-01-14 | 2007-10-18 | Martek Biosciences Corporation | Plant seed oils containing polyunsaturated fatty acids |
US7271315B2 (en) | 1999-01-14 | 2007-09-18 | Martek Biosciences Corporation | PUFA polyketide synthase systems and uses thereof |
US7211418B2 (en) | 1999-01-14 | 2007-05-01 | Martek Biosciences Corporation | PUFA polyketide synthase systems and uses thereof |
US8003772B2 (en) * | 1999-01-14 | 2011-08-23 | Martek Biosciences Corporation | Chimeric PUFA polyketide synthase systems and uses thereof |
AU2001268296B2 (en) | 2000-06-08 | 2006-05-25 | Miami University | Fatty acid elongase 3-ketoacyl coa synthase polypeptides |
US20040010817A1 (en) | 2000-07-21 | 2004-01-15 | Washington State University Research Foundation | Plant acyl-CoA synthetases |
DK1911837T3 (da) | 2000-09-28 | 2011-08-29 | Bioriginal Food & Science Corp | FAD5-2 fedtsyredesaturasefamiliemedlem og anvendelser deraf |
TWI350854B (en) | 2001-04-16 | 2011-10-21 | Martek Biosciences Corp | Product and process for transformation of thraustochytriales microorganisms |
US20040005672A1 (en) | 2002-02-22 | 2004-01-08 | Santi Daniel V. | Heterologous production of polyketides |
GB2385852A (en) | 2002-02-27 | 2003-09-03 | Rothamsted Ex Station | Delta 6-desaturases from Primulaceae |
CA2519169C (en) | 2002-03-16 | 2013-04-30 | The University Of York | Transgenic plants expressing enzymes involved in fatty acid biosynthesis |
US20040172682A1 (en) | 2003-02-12 | 2004-09-02 | Kinney Anthony J. | Production of very long chain polyunsaturated fatty acids in oilseed plants |
KR101234200B1 (ko) | 2003-03-26 | 2013-02-19 | 마텍 바이오싸이언스스 코포레이션 | Pufa 폴리케타이드 신타제 시스템 및 이의 용도 |
EP1613746B1 (de) | 2003-03-31 | 2013-03-06 | University Of Bristol | Neue pflanzliche acyltransferasen spezifisch für langkettige, mehrfach ungesättigte fettsäuren |
US7208590B2 (en) | 2003-07-15 | 2007-04-24 | Abbott Laboratories | Genes involved in polyketide synthase pathways and uses thereof |
DE102004017370A1 (de) | 2004-04-08 | 2005-10-27 | Nutrinova Nutrition Specialties & Food Ingredients Gmbh | PUFA-PKS Gene aus Ulkenia |
DE102004060340A1 (de) | 2004-07-16 | 2006-02-09 | Basf Plant Science Gmbh | Verfahren zur Erhöhung des Gehalts an mehrfach ungesättigten langkettigen Fettsäuren in transgenen Organismen |
US8362319B2 (en) | 2004-09-20 | 2013-01-29 | Basf Plant Science Gmbh | Arabidopsis genes encoding proteins involved in sugar and lipid metabolism and methods of use |
WO2006135866A2 (en) * | 2005-06-10 | 2006-12-21 | Martek Biosciences Corporation | Pufa polyketide synthase systems and uses thereof |
WO2007106905A2 (en) | 2006-03-15 | 2007-09-20 | Martek Biosciences Corporation | Polyunsaturated fatty acid production in heterologous organisms using pufa polyketide synthase systems |
CA3012998C (en) | 2009-03-19 | 2021-09-07 | Dsm Ip Assets B.V. | Polyunsaturated fatty acid synthase nucleic acid molecules and polypeptides, compositions, and methods of making and uses thereof |
-
2007
- 2007-05-16 US US11/749,686 patent/US8003772B2/en not_active Expired - Fee Related
-
2008
- 2008-05-16 WO PCT/US2008/063835 patent/WO2008144473A2/en active Application Filing
- 2008-05-16 KR KR1020097026099A patent/KR101539470B1/ko not_active IP Right Cessation
- 2008-05-16 MX MX2009012395A patent/MX2009012395A/es active IP Right Grant
- 2008-05-16 CN CN200880024785.9A patent/CN101849014B/zh not_active Expired - Fee Related
- 2008-05-16 AU AU2008254837A patent/AU2008254837B2/en not_active Ceased
- 2008-05-16 JP JP2010508603A patent/JP5551584B2/ja not_active Expired - Fee Related
- 2008-05-16 CA CA2687523A patent/CA2687523C/en active Active
- 2008-05-16 EP EP08755645.2A patent/EP2160470B1/en active Active
- 2008-05-16 BR BRPI0810302-0A patent/BRPI0810302A2/pt not_active IP Right Cessation
- 2008-05-16 ES ES08755645.2T patent/ES2467918T3/es active Active
-
2009
- 2009-11-15 IL IL202131A patent/IL202131A/en active IP Right Grant
-
2010
- 2010-09-08 HK HK10108535.3A patent/HK1143403A1/xx not_active IP Right Cessation
-
2011
- 2011-06-27 US US13/170,011 patent/US8309796B2/en not_active Expired - Fee Related
-
2012
- 2012-10-02 US US13/633,770 patent/US8859855B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050100995A1 (en) * | 1999-01-14 | 2005-05-12 | Weaver Craig A. | PUFA polyketide synthase systems and uses thereof |
WO2002083870A2 (en) * | 2001-04-16 | 2002-10-24 | Martek Biosciences Boulder Corporation | Pufa polyketide synthase systems and uses thereof |
US20040253621A1 (en) * | 2003-05-07 | 2004-12-16 | Picataggio Stephen K. | Codon-optimized genes for the production of polyunsaturated fatty acids in oleaginous yeasts |
Also Published As
Publication number | Publication date |
---|---|
US8859855B2 (en) | 2014-10-14 |
EP2160470B1 (en) | 2014-03-05 |
US8309796B2 (en) | 2012-11-13 |
IL202131A (en) | 2013-09-30 |
CA2687523C (en) | 2016-09-13 |
IL202131A0 (en) | 2010-06-16 |
CN101849014A (zh) | 2010-09-29 |
US20120021470A1 (en) | 2012-01-26 |
CA2687523A1 (en) | 2008-11-27 |
WO2008144473A2 (en) | 2008-11-27 |
HK1143403A1 (en) | 2010-12-31 |
AU2008254837B2 (en) | 2013-09-12 |
BRPI0810302A2 (pt) | 2020-10-06 |
JP2010527244A (ja) | 2010-08-12 |
ES2467918T3 (es) | 2014-06-13 |
JP5551584B2 (ja) | 2014-07-16 |
MX2009012395A (es) | 2010-02-10 |
EP2160470A4 (en) | 2012-02-22 |
EP2160470A2 (en) | 2010-03-10 |
US20080022422A1 (en) | 2008-01-24 |
KR20100020963A (ko) | 2010-02-23 |
US8003772B2 (en) | 2011-08-23 |
WO2008144473A3 (en) | 2009-01-15 |
US20130143281A1 (en) | 2013-06-06 |
AU2008254837A1 (en) | 2008-11-27 |
CN101849014B (zh) | 2015-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101539470B1 (ko) | 키메라 pufa 폴리케타이드 신테이즈 시스템 및 이의 용도 | |
US7897844B2 (en) | PUFA polyketide synthase systems and uses thereof | |
KR101506347B1 (ko) | 다불포화 지방산을 함유하는 식물 종자 오일 | |
US7271315B2 (en) | PUFA polyketide synthase systems and uses thereof | |
US20080005811A1 (en) | Pufa polyketide synthase systems and uses thereof | |
US20070244192A1 (en) | Plant seed oils containing polyunsaturated fatty acids | |
KR20070084187A (ko) | Pufa 폴리케티드 신타제 시스템 및 그의 용도 | |
KR101234198B1 (ko) | Pufa 폴리케타이드 신타제 시스템 및 이의 용도 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
N231 | Notification of change of applicant | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |