KR20220002910A - 효율적인 rna 트랜스-스플라이싱을 위한 삼중 나선 종결인자 - Google Patents
효율적인 rna 트랜스-스플라이싱을 위한 삼중 나선 종결인자 Download PDFInfo
- Publication number
- KR20220002910A KR20220002910A KR1020217034092A KR20217034092A KR20220002910A KR 20220002910 A KR20220002910 A KR 20220002910A KR 1020217034092 A KR1020217034092 A KR 1020217034092A KR 20217034092 A KR20217034092 A KR 20217034092A KR 20220002910 A KR20220002910 A KR 20220002910A
- Authority
- KR
- South Korea
- Prior art keywords
- splicing
- domain
- nucleic acid
- trans
- sequence
- Prior art date
Links
Images
Classifications
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/63—Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
- C12N15/79—Vectors or expression systems specially adapted for eukaryotic hosts
- C12N15/85—Vectors or expression systems specially adapted for eukaryotic hosts for animal cells
- C12N15/86—Viral vectors
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/10—Processes for the isolation, preparation or purification of DNA or RNA
- C12N15/102—Mutagenizing nucleic acids
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61K—PREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
- A61K48/00—Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61K—PREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
- A61K48/00—Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy
- A61K48/005—Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy characterised by an aspect of the 'active' part of the composition delivered, i.e. the nucleic acid delivered
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61P—SPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
- A61P27/00—Drugs for disorders of the senses
- A61P27/02—Ophthalmic agents
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61P—SPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
- A61P35/00—Antineoplastic agents
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61P—SPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
- A61P43/00—Drugs for specific purposes, not provided for in groups A61P1/00-A61P41/00
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
- C12N15/113—Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2320/00—Applications; Uses
- C12N2320/30—Special therapeutic applications
- C12N2320/33—Alteration of splicing
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2750/00—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA ssDNA viruses
- C12N2750/00011—Details
- C12N2750/14011—Parvoviridae
- C12N2750/14111—Dependovirus, e.g. adenoassociated viruses
- C12N2750/14141—Use of virus, viral particle or viral elements as a vector
- C12N2750/14143—Use of virus, viral particle or viral elements as a vector viral genome or elements thereof as genetic vector
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2830/00—Vector systems having a special element relevant for transcription
- C12N2830/36—Vector systems having a special element relevant for transcription being a transcription termination element
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2830/00—Vector systems having a special element relevant for transcription
- C12N2830/42—Vector systems having a special element relevant for transcription being an intron or intervening sequence for splicing and/or stability of RNA
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2830/00—Vector systems having a special element relevant for transcription
- C12N2830/48—Vector systems having a special element relevant for transcription regulating transport or export of RNA, e.g. RRE, PRE, WPRE, CTE
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2830/00—Vector systems having a special element relevant for transcription
- C12N2830/50—Vector systems having a special element relevant for transcription regulating RNA stability, not being an intron, e.g. poly A signal
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Genetics & Genomics (AREA)
- Engineering & Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Organic Chemistry (AREA)
- Biotechnology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Zoology (AREA)
- Wood Science & Technology (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Pharmacology & Pharmacy (AREA)
- Medicinal Chemistry (AREA)
- Animal Behavior & Ethology (AREA)
- Public Health (AREA)
- Veterinary Medicine (AREA)
- Biophysics (AREA)
- Microbiology (AREA)
- Plant Pathology (AREA)
- Biochemistry (AREA)
- Physics & Mathematics (AREA)
- Chemical Kinetics & Catalysis (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- General Chemical & Material Sciences (AREA)
- Epidemiology (AREA)
- Virology (AREA)
- Ophthalmology & Optometry (AREA)
- Crystallography & Structural Chemistry (AREA)
- Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
- Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
- Micro-Organisms Or Cultivation Processes Thereof (AREA)
- Medicines Containing Material From Animals Or Micro-Organisms (AREA)
Abstract
안구 질환을 유발하는 결함 또는 돌연변이를 운반하는 표적화된 포유류 안구 유전자의 엑손을 결함 또는 돌연변이가 없는 자연 발생의 서열을 갖는 엑손으로 대체할 수 있는 핵산 트랜스-스플라이싱 분자가 제공된다. 트랜스-스플라이싱 분자는 트랜스-스플라이싱의 효율을 향상시키는 3' 전사 종결인자 도메인을 포함한다. 3' TTD는 삼중 나선 도메인과 tRNA 유사 도메인을 포함한다.
Description
다수의 유전성 망막 질환은 일반적으로 큰 안구 유전자의 일부에 걸쳐 위치한 돌연변이, 일반적으로 다중 돌연변이에 의해 유발된다. 일 예로서, 스타가르트(Stargardt) 1(STGD1)로도 알려진 스타가르트 질환은 보통 진행성 중심 시력 상실을 특징으로 하는 망막 이영양증의 상염색체 열성 형태이다. 유사한 망막 질환은 다른 안구 장애 중에서도 결함 또는 돌연변이가 레베르 선천성 흑암시(Leber's congenital amaurosis)를 유발하는 CEP290(7440개 뉴클레오타이드), 및 결함 또는 돌연변이가 어셔(Usher) 질환을 유발하는 MYO7A(7465개 뉴클레오타이드)를 포함한, 다른 큰 안구 유전자의 결함으로 인해 유발된다.
이러한 큰 안구 유전자 및 기타 유전자에서 다중 돌연변이의 발생 및 위치는 이 돌연변이를 복구하는 전략을 매우 어렵게 했다. 이 과제를 해결하기 위한 20년 동안에 걸친 트랜스-스플라이싱(trans-splicing) 기술의 대단한 전망에도 불구하고 아직 유전자 요법에 대한 의미있는 접근법은 드러나지 않았다. 이는 전적이지는 않지만, 주로 트랜스-스플라이싱 반응의 저조한 효율 때문이다. 트랜스-스플라이싱은 인간을 비롯한 고등 진핵생물에서 흔하지 않다는 것을 인식하는 것이 중요하다. 그리고 내인성 트랜스-스플라이싱의 드문 예가 몇 가지 있지만, 시스-스플라이싱은 큰 여력(margin)으로 인해 분명하게 우세하다. 간단히 말해서, 인간에서 트랜스-스플라이싱은 전통적인 시스-스플라이싱 경로를 매개하는 동일한 세포 인자 및 메커니즘을 활용하는 대체 스플라이싱의 새로운 부류인 것으로 보인다.
이러한 장애를 치료하기 위한 효과적인 조성물 및 치료 방법은 여전히 필요로 한다.
요약
본원에는 암호 서열의 하나 이상의 엑손에 있는 결함으로 인해 유발되는 질환의 치료에 유용한 RNA 트랜스-스플라이싱 분자(RTM)가 제공된다. 또한, 이러한 RTM을 활용하는 방법 및 조성물도 제공된다.
일 측면에서, 본 발명은 삼중 나선을 포함하는 3' 전사 종결인자 도메인(transcription terminator domain, TTD)을 포함하는 핵산 트랜스-스플라이싱 분자(예를 들어, RTM)를 포함한다. 일부 실시양태에서, 삼중 나선은 적어도 5개의 연속 A-U 후그스틴(Hoogsteen) 염기쌍(예를 들어, 4 내지 20개의 연속 A-U 후그스틴 염기쌍, 4 내지 18개의 연속 A-U 후그스틴 염기쌍, 4 내지 15개의 연속 A-U 후그스틴 염기쌍, 4 내지 12개의 연속 A-U 후그스틴 염기쌍, 4 내지 11개의 연속 A-U 후그스틴 염기쌍, 또는 4 내지 10개의 연속 A-U 후그스틴 염기쌍, 예를 들어, 6 내지 8개의 연속 A-U 후그스틴 염기쌍, 8 내지 10개의 연속 A-U 후그스틴 염기쌍, 10 내지 12개의 연속 A-U 후그스틴 염기쌍, 12 내지 14개의 연속 A-U 후그스틴 염기쌍, 14 내지 16개의 연속 A-U 후그스틴 염기쌍, 16 내지 18개의 연속 A-U 후그스틴 염기쌍, 또는 18 내지 20개의 연속 A-U 후그스틴 염기쌍)을 포함한다.
일부 실시양태에서, 삼중 나선은 5-30개의 핵산(예를 들어, 5-10개의 핵산, 10-20개의 핵산, 또는 20-30개의 핵산)의 A-풍부 트랙트(tract)를 포함한다. 일부 실시양태에서, A-풍부 트랙트는 TTD의 3' 말단(예를 들어, 폴리-A 꼬리에 또는 그 내부에)에 있다.
일부 실시양태에서, 삼중 나선은 10개의 연속 뉴클레오타이드의 가닥을 포함하고, 여기서 10개의 연속 뉴클레오타이드 중 9개는 후그스틴 염기 쌍형성(pairing)을 통해 쌍을 이룬다. 일부 실시양태에서, TTD는 줄기-루프 모티프를 포함한다.
일부 실시양태에서, 3' TTD는 5'에서 3' 방향으로 작동적으로 연결된, 5' U-풍부 모티프, 줄기-루프 모티프, t' U-풍부 모티프 및 A-풍부 트랙트를 포함한다.
일부 실시양태에서, 3' TTD는 서열번호 13, 서열번호 15, 서열번호 17, 또는 서열번호 23과 적어도 95% 상동성(예를 들어, 서열번호 13, 서열번호 15, 서열번호 17, 또는 서열번호 23과 적어도 96% 상동성; 서열번호 13, 서열번호 15, 서열번호 17, 또는 서열번호 23과 적어도 97% 상동성: 서열번호 13, 서열번호 15, 서열번호 17 또는 서열번호 23과 적어도 98% 상동성; 서열번호 13, 서열번호 15, 서열번호 17, 또는 서열번호 23과 적어도 99% 상동성; 또는 서열번호 13, 서열번호 15, 서열번호 17, 또는 서열번호 23과 100% 상동성)이다.
일부 실시양태에서, 3' TTD는 서열번호 13과 적어도 95% 상동성(예를 들어, 적어도 96%, 적어도 97%, 적어도 98%, 또는 적어도 99% 상동성)이고, 여기서 삼중 나선은 A-풍부 트랙트와 서열번호 13의 U7-U11의 후그스틴 염기 쌍형성을 포함한다. 일부 실시양태에서, 3' TTD는 PAN ENE+A이다.
일부 실시양태에서, 3' TTD는 서열번호 15와 적어도 95% 상동성(예를 들어, 적어도 96%, 적어도 97%, 적어도 98%, 또는 적어도 99% 상동성)이고, 여기서 삼중 나선은 A-풍부 트랙트와 서열번호 15의 U6-10, C11 및 U12-15의 후그스틴 염기 쌍형성을 포함한다. 일부 실시양태에서, 3' TTD는 MALAT1 ENE+A이다.
일부 실시양태에서, 3' TTD는 서열번호 17과 적어도 95% 상동성(예를 들어, 적어도 96%, 적어도 97%, 적어도 98%, 또는 적어도 99% 상동성)이고, 여기서 삼중 나선은 A-풍부 트랙트와 서열번호 17의 U6-10, C11, 및 U12-15의 후그스틴 염기 쌍형성을 포함한다. 일부 실시양태에서, 3' TTD는 MALAT1 코어 ENE+A이다.
일부 실시양태에서, 3' TTD는 서열번호 23과 적어도 95% 상동성이고, 여기서 삼중 나선은 A-풍부 트랙트와 서열번호 23의 U8-10, C11, 및 U12-15의 후그스틴 염기 쌍형성을 포함한다. 일부 실시양태에서, 3' TTD는 MENβ ENE+A이다.
일 측면에서, 핵산 트랜스-스플라이싱 분자가 제공된다. RTM은 5'에서 3' 방향으로 작동적으로 연결된 하기:
(a) 선택된 유전자의 하나 이상의 기능적 엑손(들)을 포함하는 암호 서열 도메인(CDS);
(b) 암호 도메인과 결합 도메인 사이에 구조적 연결부로서 작용하고 스플라이싱 인핸서로서 기능하거나, 또는 트랜스-스플라이싱 이벤트가 일어나기 전에 암호 영역의 해독을 최소화하는 작용을 하는 복잡한 2차 구조로 접히는 능력을 갖거나, 또는 조기 RTM 성숙 이벤트에서 분해 펩타이드를 암호화하는 모티프를 함유할 수 있는, 다양한 길이 및/또는 조성의 링커 서열;
(c) 스플라이세오솜(spliceosome)-매개 트랜스-스플라이싱을 개시하도록 구성된 스플라이세오솜 인식 모티프(5' 스플라이스 부위(5' SS)로도 불리는 스플라이스 공여체(Splice Donor, SD));
(d) 선택된 유전자의 표적 인트론에 혼성화하도록 설계된 다양한 길이 및 서열의 결합 도메인(BD)으로서, 상기 유전자는 표적 인트론에 대한 5' 엑손에 적어도 하나의 결함 또는 돌연변이를 갖는 결합 도메인; 및
(e) 3' 전사 종결인자 도메인(TTD)를 포함하고,
여기서 핵산 트랜스-스플라이싱 분자는 표적 인트론에 인접한 선택된 유전자의 내인성 엑손에 암호 도메인을 트랜스-스플라이싱하도록 구성되어, 내인성 결함 또는 돌연변이된 엑손을 기능적 엑손으로 대체하고 선택된 유전자의 돌연변이를 교정한다.
일 실시양태에서, 결합 도메인은 돌연변이에 대해 3' 측의 선택된 유전자의 표적 인트론에 혼성화하고 암호 도메인은 표적 인트론에 대해 5' 측의 하나 이상의 엑손(들)을 포함한다.
또 다른 측면에서, RTM은 5'에서 3' 방향으로 작동적으로 연결된 하기:
(a) 선택된 유전자의 표적 인트론에 혼성화하도록 설계된 다양한 길이 및 서열의 결합 도메인(BD)으로서, 여기서 상기 유전자는 표적화된 인트론에 대해 3' 측 엑손에 적어도 하나의 결함 또는 돌연변이를 갖는 결합 도메인;
(b) 결합 도메인과 암호 영역 사이에 구조적 연결부로서 작용하고 스플라이싱 인핸서로서 기능하거나, 또는 트랜스-스플라이싱에 대한 경쟁적 이벤트로서 암호 영역의 해독을 방해하는 복잡한 2차 구조로 접히거나, 또는 조기 RTM 성숙 이벤트에서 분해 펩타이드를 암호화하는 모티프를 함유하는, 다양한 길이 및/또는 조성의 링커 서열;
(c) 트랜스-스플라이싱을 매개하도록 구성된 3' 스플라이세오솜 인식 모티프(3' 스플라이스 부위(3' SS)라고도 불리는 스플라이스 수용체(Splice Acceptor, SA));
(d) 선택된 유전자의 하나 이상의 기능적 엑손(들)을 포함하는 암호 서열 도메인(CDS); 및
(e) 3' 전사 종결인자 도메인(TTD)를 포함하고,
여기서 핵산 트랜스-스플라이싱 분자는 표적 인트론에 인접한 선택된 유전자의 내인성 엑손에 암호 도메인을 트랜스-스플라이싱하도록 구성되어, 내인성 결함 또는 돌연변이된 엑손을 기능적 엑손으로 대체하고 선택된 유전자의 돌연변이를 교정한다. 일 실시양태에서, 결합 도메인은 돌연변이에 대해 3' 측의 선택된 유전자의 표적 인트론에 결합하고 암호 도메인은 표적 인트론에 대해 5'에 하나 이상의 엑손을 포함한다.
일 실시양태에서, 3' 전사 종결인자 도메인은 삼중 나선 3' 평활-말단 캡으로 축합되는 3' 전사 종결인자를 함유하는 하나 이상의 긴 비암호 RNA(long non-coding RNA, lncRNA) 또는 다른 핵 RNA 분자로부터의 서열이다.
또 다른 측면에서, 본원에 기재된 임의의 RTM을 포함하는 재조합 아데노 관련 바이러스(rAAV)가 제공된다.
또 다른 측면에서, 표적 유전자의 결함 또는 돌연변이에 의해 유발되는 질환을 치료하는 방법이 제공된다. 이 방법은 그 질환을 갖는 대상체의 세포로 본원에 기재된 바와 같은 핵산 트랜스-스플라이싱 분자를 포함하는 재조합 AAV를 포함하는 조성물을 투여하는 것을 포함한다.
또 다른 측면에서, 생리학적 허용성 담체 및 본원에 기재된 rAAV 또는 RTM을 포함하는 약제학적 제제가 제공된다.
다른 측면 및 실시양태는 다음의 상세한 설명에서 기술된다.
도 1a-1e는 인간 CEP290에서 Intron26을 표적으로 하는 RTM 루시퍼라제 리포터 작제물의 지도 및 부분 서열을 보여준다. 이들은 루시퍼라제 암호 서열(CDS)의 5' 절반을 상이한 전사 종결인자 서열: 폴리(A) - 폴리(A) 신호에서 절단 및 주형이 없는 폴리(A) 꼬리의 첨가 후 3' 말단 단부(terminal end)를 생성하는 SV40 유래의 폴리아데닐화 신호(도 1a); hhRz - RTM의 3' 말단 단부를 생성하기 위해 자가절단하는 해머헤드 리보자임(도 1b); Comp14 - RNase P 절단 후 RTM의 3' 말단 단부를 생성하는, 절두된 MALAT1 삼중 나선 종결인자 구조(2가지 버전 - 도 1c, 1d); 및 리보자임 자가절단 후 RTM의 3' 말단 단부를 생성하는, Comp14의 mascRNA 도메인이 hhRz로 대체된 혼성체(도 1e)와 함께 암호화한다. 도 1a(391.폴리(A))에는 서열번호 31 nt 2081-2600이 도시된다. 도 1b(391.hhRz)에는 서열번호 32 nt 2081-2447이 도시된다. 도 1c(391.Comp14-v1)에는 서열번호 33 nt 2081-2470이 도시된다. 도 1d(391.Comp14-v2)에는 서열번호 34 nt 2081-2470이 도시된다. 도 1e(391.Comp14.hhRz)에는 서열번호 35 nt 2081-2470이 도시된다.
도 1f는 루시퍼라제 CDS의 3' 절반에 융합된 인간 CEP290의 Intron26을 함유하는 미니유전자의 지도 및 서열을 보여준다. 도 1f(pcDNA_FRT.In26 target.3'Luc)에는 서열번호 36 nt 6761-7280이 도시된다.
도 2a 및 2b는 실시예 1에서 논의된 바와 같이, 도 1a 내지 1d에 기재된 작제물에 대해 측정된 루시퍼라제 수준을 보여준다. RTM은 도 1f에 도시된 루시퍼라제 CDS의 3' 절반에 융합된 인간 CEP290의 Intron26을 함유하는 미니유전자를 발현하는 세포주로 전달된다.
도 3a-3c는 인간 ABCA4의 Intron23을 표적으로 하는 RTM 작제물의 지도 및 부분 서열을 보여준다. 이들은 ABCA4 트랜스-스플라이싱 활성에 대해 테스트된 여러 종결인자 서열 중 하나를 포함한다: hhz - 자가절단하여 RTM의 3' 말단 단부를 생성하는 해머헤드 리보자임(도 3a); C14 또는 Comp14 - RNase P 절단 후 RTM의 3' 말단 단부를 생성하는 MALAT1 삼중 나선 구조의 절두된 유도체(도 3b); 및 wt - RNase P 절단 후 RTM의 3' 말단 단부를 생성하는 천연 MALAT1 삼중 나선 종결인자(도 3c). 도 3a는 5' SS(SD 또는 스플라이싱 도메인이라고도 함)가 nt 4311에서 시작하고 인슐레이터(insulator)가 nt 4591에서 끝나는 서열번호 28에 제시된 서열의 일부를 보여준다. 도 3b는 5' SS(SD 또는 스플라이싱 도메인이라고도 함)가 nt 4311에서 시작하고 mascRNA가 nt 4620에서 끝나는 서열번호 29에 제시된 서열의 일부를 보여준다. 도 3c는 5' SS(SD 또는 스플라이싱 도메인이라고도 함)가 nt 4311에서 시작하고 mascRNA가 nt 4654에서 끝나는 서열번호 30에 제시된 서열의 일부를 보여준다.
도 4a 및 4b는 RTM-매개의 트랜스-스플라이싱에 의해 발생된 ABCA4 단백질을 보여주는 웨스턴 블롯, 및 이의 정량화이다. 테스트된 도 3의 RTM은 ABCA4 인트론23(모티프 27 및 81) 및 인트론22(모티프 117 및 118)에 대한 결합 도메인을 포함한다. NB는 음성 대조군 비-결합성 모티프이다.
도 5a는 lncRNA로부터의 상이한 삼중 나선 종결인자를 함유하는 RTM의 웨스턴 블롯 분석을 보여준다. 이들은 MALAT1 및 NEAT1(MENβ)로부터의 야생형 서열, 뿐만 아니라 MALAT1의 삼중 나선 도메인이 NEAT1의 tRNA-유사 모티프(menRNA라고 함)에 융합된 키메라 형태 및 NEAT1의 삼중 나선 도메인이 MALAT1의 mascRNA 모티프에 융합된 키메라 형태를 포함한다. 이 데이터는 RTM이 야생형 MALAT1 종결인자를 함유할 때 트랜스-스플라이싱 활성이 가장 높다는 것을 시사한다.
도 5b는 MALAT1, MENβ(NEAT1), 및 PAN RNA(카포시 육종 관련 헤르페스바이러스, KSHV에서 생산됨)를 포함하는 3개의 다른 lncRNA로부터의 삼중 나선 종결인자에 대한 예측된 염기 쌍형성을 보여준다. 별개의 lncRNA에 따른 구조적 유사성은 전사 종결 후 lncRNA의 3' 단부를 보호하기 위한 일반적인 진화 전략을 시사한다. 그러나, MALAT1 삼중 나선 도메인의 X-선 결정학은 이것이 임의의 공지된 자연 발생의 삼중 나선 구조(Brown, J.A. 등. 2014)의 대부분인, 10개의 주요 홈(groove)과 2개의 보조 홈 삼중체를 함유한다는 것을 밝혀냈다. 이 복잡한 디자인이 NEAT1 또는 PAN보다 높은 수준의 구조적 안정성을 부여하는 것 같으며, MALAT1 종결인자가 트랜스-스플라이싱을 더 잘 지원하는 것으로 나타나는 이유를 설명할 수 있다. 핵에서 분해로부터 RTM을 보호함. 중요하게도, MALAT1의 평활 말단의 삼중 나선은 생체내 붕괴 검정에 의해 나타나는 바와 같이 빠른 핵 RNA 붕괴를 억제하는 것으로 나타났다(Brown, J.A. 2014).
도 6a는 여러 종의 MALAT1의 고도로 보존된 mascRNA 서열 및 이의 예상된 접힌 입체형태를 보여준다. 빨간색 화살표로 표시된 단일 G-to-A 점 돌연변이를 mascRNA 서열에 삽입하여 트랜스-스플라이싱 활성에 대한 이 도메인의 중요성을 테스트했다. 웨스턴 블롯(도 6b)에서 나타나는 바와 같이, 점 돌연변이는 ABCA4를 표적으로 하는 검증된 RTM의 트랜스-스플라이싱 활성을 소멸시켰다. 이는 아마도 RNaseP 인식 및 절단에 필요한 정확한 입체형태를 추정하는데 있어서 돌연변이된 서열의 불능 때문이다.
도 7은 코돈 최적화된 ABCA4 암호 서열, 및 해머헤드 리보자임(hhRz)을 포함하는 벡터의 벡터 지도를 보여준다. 이 서열은 서열번호 28에 제시된다.
도 8은 코돈 최적화된 ABCA4 암호 서열, 코돈 1-23을 위한 MALAT1, 및 절두된 MALAT1 Comp14 3'TTD 서열을 포함하는 벡터의 벡터 지도를 보여준다. 이 서열은 서열번호 29에 제시된다.
도 9는 코돈 최적화된 ABCA4 암호 서열, 코돈 1-23을 위한 MALAT1 및 wt MALAT1 3'TTD 서열을 포함하는 벡터의 벡터 지도를 보여준다. 이 서열은 서열번호 30에 제시된다.
도 10은 인간 MALAT1 lncRNA로부터의 삼중 나선 영역의 지도 및 서열을 보여준다. MALAT1의 서열은 서열번호 7에 제시된다. 삼중 나선 영역은 서열번호 7의 8287에서 시작하고 mascRNA는 서열번호 7의 8437에서 끝난다.
도 1f는 루시퍼라제 CDS의 3' 절반에 융합된 인간 CEP290의 Intron26을 함유하는 미니유전자의 지도 및 서열을 보여준다. 도 1f(pcDNA_FRT.In26 target.3'Luc)에는 서열번호 36 nt 6761-7280이 도시된다.
도 2a 및 2b는 실시예 1에서 논의된 바와 같이, 도 1a 내지 1d에 기재된 작제물에 대해 측정된 루시퍼라제 수준을 보여준다. RTM은 도 1f에 도시된 루시퍼라제 CDS의 3' 절반에 융합된 인간 CEP290의 Intron26을 함유하는 미니유전자를 발현하는 세포주로 전달된다.
도 3a-3c는 인간 ABCA4의 Intron23을 표적으로 하는 RTM 작제물의 지도 및 부분 서열을 보여준다. 이들은 ABCA4 트랜스-스플라이싱 활성에 대해 테스트된 여러 종결인자 서열 중 하나를 포함한다: hhz - 자가절단하여 RTM의 3' 말단 단부를 생성하는 해머헤드 리보자임(도 3a); C14 또는 Comp14 - RNase P 절단 후 RTM의 3' 말단 단부를 생성하는 MALAT1 삼중 나선 구조의 절두된 유도체(도 3b); 및 wt - RNase P 절단 후 RTM의 3' 말단 단부를 생성하는 천연 MALAT1 삼중 나선 종결인자(도 3c). 도 3a는 5' SS(SD 또는 스플라이싱 도메인이라고도 함)가 nt 4311에서 시작하고 인슐레이터(insulator)가 nt 4591에서 끝나는 서열번호 28에 제시된 서열의 일부를 보여준다. 도 3b는 5' SS(SD 또는 스플라이싱 도메인이라고도 함)가 nt 4311에서 시작하고 mascRNA가 nt 4620에서 끝나는 서열번호 29에 제시된 서열의 일부를 보여준다. 도 3c는 5' SS(SD 또는 스플라이싱 도메인이라고도 함)가 nt 4311에서 시작하고 mascRNA가 nt 4654에서 끝나는 서열번호 30에 제시된 서열의 일부를 보여준다.
도 4a 및 4b는 RTM-매개의 트랜스-스플라이싱에 의해 발생된 ABCA4 단백질을 보여주는 웨스턴 블롯, 및 이의 정량화이다. 테스트된 도 3의 RTM은 ABCA4 인트론23(모티프 27 및 81) 및 인트론22(모티프 117 및 118)에 대한 결합 도메인을 포함한다. NB는 음성 대조군 비-결합성 모티프이다.
도 5a는 lncRNA로부터의 상이한 삼중 나선 종결인자를 함유하는 RTM의 웨스턴 블롯 분석을 보여준다. 이들은 MALAT1 및 NEAT1(MENβ)로부터의 야생형 서열, 뿐만 아니라 MALAT1의 삼중 나선 도메인이 NEAT1의 tRNA-유사 모티프(menRNA라고 함)에 융합된 키메라 형태 및 NEAT1의 삼중 나선 도메인이 MALAT1의 mascRNA 모티프에 융합된 키메라 형태를 포함한다. 이 데이터는 RTM이 야생형 MALAT1 종결인자를 함유할 때 트랜스-스플라이싱 활성이 가장 높다는 것을 시사한다.
도 5b는 MALAT1, MENβ(NEAT1), 및 PAN RNA(카포시 육종 관련 헤르페스바이러스, KSHV에서 생산됨)를 포함하는 3개의 다른 lncRNA로부터의 삼중 나선 종결인자에 대한 예측된 염기 쌍형성을 보여준다. 별개의 lncRNA에 따른 구조적 유사성은 전사 종결 후 lncRNA의 3' 단부를 보호하기 위한 일반적인 진화 전략을 시사한다. 그러나, MALAT1 삼중 나선 도메인의 X-선 결정학은 이것이 임의의 공지된 자연 발생의 삼중 나선 구조(Brown, J.A. 등. 2014)의 대부분인, 10개의 주요 홈(groove)과 2개의 보조 홈 삼중체를 함유한다는 것을 밝혀냈다. 이 복잡한 디자인이 NEAT1 또는 PAN보다 높은 수준의 구조적 안정성을 부여하는 것 같으며, MALAT1 종결인자가 트랜스-스플라이싱을 더 잘 지원하는 것으로 나타나는 이유를 설명할 수 있다. 핵에서 분해로부터 RTM을 보호함. 중요하게도, MALAT1의 평활 말단의 삼중 나선은 생체내 붕괴 검정에 의해 나타나는 바와 같이 빠른 핵 RNA 붕괴를 억제하는 것으로 나타났다(Brown, J.A. 2014).
도 6a는 여러 종의 MALAT1의 고도로 보존된 mascRNA 서열 및 이의 예상된 접힌 입체형태를 보여준다. 빨간색 화살표로 표시된 단일 G-to-A 점 돌연변이를 mascRNA 서열에 삽입하여 트랜스-스플라이싱 활성에 대한 이 도메인의 중요성을 테스트했다. 웨스턴 블롯(도 6b)에서 나타나는 바와 같이, 점 돌연변이는 ABCA4를 표적으로 하는 검증된 RTM의 트랜스-스플라이싱 활성을 소멸시켰다. 이는 아마도 RNaseP 인식 및 절단에 필요한 정확한 입체형태를 추정하는데 있어서 돌연변이된 서열의 불능 때문이다.
도 7은 코돈 최적화된 ABCA4 암호 서열, 및 해머헤드 리보자임(hhRz)을 포함하는 벡터의 벡터 지도를 보여준다. 이 서열은 서열번호 28에 제시된다.
도 8은 코돈 최적화된 ABCA4 암호 서열, 코돈 1-23을 위한 MALAT1, 및 절두된 MALAT1 Comp14 3'TTD 서열을 포함하는 벡터의 벡터 지도를 보여준다. 이 서열은 서열번호 29에 제시된다.
도 9는 코돈 최적화된 ABCA4 암호 서열, 코돈 1-23을 위한 MALAT1 및 wt MALAT1 3'TTD 서열을 포함하는 벡터의 벡터 지도를 보여준다. 이 서열은 서열번호 30에 제시된다.
도 10은 인간 MALAT1 lncRNA로부터의 삼중 나선 영역의 지도 및 서열을 보여준다. MALAT1의 서열은 서열번호 7에 제시된다. 삼중 나선 영역은 서열번호 7의 8287에서 시작하고 mascRNA는 서열번호 7의 8437에서 끝난다.
문헌에 보고된 많은 실험적 트랜스-스플라이싱 연구는 종종 치료적으로 의미 있는 평가변수가 부족하다. 이것은 이들 연구가 언제나 RTM 결합 도메인과 스플라이스 부위 신호의 필수적인 역할을 보여주기 때문에, 이들 연구가 무의미함을 시사하는 것은 아니다. 그리고, 이러한 기본 요소가 사실상 중요하지만, RNA 스플라이싱의 복잡성이 RTM 분자의 턴오버(turn-over) 또는 국재화에 직접 영향을 미칠 수 있는 다른 비-스플라이싱 메커니즘은 말할 것도 없고 주형 인식, 스플라이세오솜 어셈블리를 위한 일련의 또 다른 시스- 및 트랜스-작용 인자를 수반한다. 트랜스-스플라이싱은 시스-스플라이싱에 비해 경쟁적으로 불리하기 때문에, RNA 트랜스-스플라이싱 분자(RTM)의 기술 설계에는 RTM에 유리하게 확률을 높이는 특징을 포함하는 것이 필수적이다. 이를 달성하는 한 가지 방법은 핵에서 RTM의 유효 농도를 증가시키거나, RTM을 스플라이세오솜에 더욱 매력적인 표적으로 만드는 것이다(시스-작용성 요소 또는 국재화를 통해).
본 개시내용의 중심에는 관심 유전자를 특이적으로 표적화하고 이의 유전자 페이로드(payload)를 트랜스-스플라이싱 반응을 통해 전달하도록 설계된 RNA 트랜스-스플라이싱 분자(RNA trans-splicing molecule, RTM)가 있다. 구조적으로, RTM은 3개의 핵심 도메인으로 조직화되어 있다: 1) 단백질 암호 영역; 2) 표적 유전자 RNA 전사체 내의 인트론에 혼성화되는 결합 도메인; 및 3) 암호 영역을 결합 도메인에 연결하는 스플라이싱 신호(5' SS 또는 3' SS)를 갖는 링커 서열. 이 세 영역은 각각 기능적 역할도 갖고 있음을 강조하는 것이 중요하다. 이러한 영역 중 임의의 영역에 대한 변형이 RTM 활성에 이론적으로 영향을 미칠 수는 있지만, 결합 도메인이 가장 많은 관심을 끌었다. 실제로, 문헌의 대부분의 보고는 최적의 결합 서열을 식별하기 위한 어느 정도의 스크리닝을 포함한다. 표적 서열의 위치 및 길이가 모두 RTM 활성에 영향을 미치는 것으로 나타났다. 그러나, 콘센서스 모티프를 구성한다거나 상이한 유전자 표적을 따라 적용될 수 있는 결합 도메인 설계 규칙의 개발에 도움을 줄 수 있는 서열 특이적 특징에 대해서는 어떠한 증거도 없다. 결과적으로, 결합 도메인은 변함없이 시행착오를 거쳐 결정된다.
일부 결합 도메인이 다른 도메인보다 더 잘 작동하는 이유는 아직 명확하지 않다. 가능한 설명은 RNA 접힘, 및 이것이 RTM의 혼성화를 위해 주어진 표적 서열의 유용성에 어떻게 영향을 미칠 수 있는지를 수반한다. RNA 접힘은 또한 RTM 결합 도메인 자체에 영향을 미칠 수 있다; 즉, 결합 도메인이 복잡한 2차 구조로 추정된다면, 이는 표적 인트론과의 혼성화에 유용하지 않을 것이다. 최적의 결합 도메인이 식별된다면, RTM은 핵의 다른 RNA와 동일한 규칙에 대한 대상이 된다. 그리고 이것은 결합 반응과 무관하게 RTM 활성에 영향을 미칠 수 있다. 역학적으로, RTM은 결합 반응이 일어나도록 하기에 충분히 긴 반감기를 핵에서 가져야 한다. RTM이 핵 밖으로 수송되거나 편재적인 핵 리보뉴클레아제에 의해 분해된다면, 두 이벤트가 효과적인 RTM 농도를 현저하게 감소시킬 것이고, 트랜스-스플라이싱 효율이 저하될 것이다.
긴 비암호 RNA(long non-coding RNA, lncRNA)의 생물학은 최근 생물의학 연구 및 의학에서 큰 관심의 주제가 되었다. 이것은 주로 일부가 특정 암에서 상향 조절되는 것으로 나타났다는 관찰 때문이다. 그리고, 그 관계가 인과관계가 있는 것으로 보이지는 않지만, 이러한 수수께끼 같은 RNA의 역할을 이해하면 유전자 조절에서 그 RNA의 가능한 역할을 밝힐 수 있을 것이다. RTM과 마찬가지로, lncRNA는 RNA 중합효소 II에 의해 전사된다. 그리고 이들 둘 모두는 동일한 문제에 직면해 있다; 즉, 정확한 중합효소 종결과 성숙한 전사체의 기능을 보장하기 위한 3' 단부 프로세싱. RTM을 위해, 대부분의 문헌 보고서는 3' 단부 프로세싱을 위해 폴리아데닐화 신호를 사용한다. 그러나, 이 접근 방식은 RTM을 세포질로 신호를 보내 핵 카피 수를 효과적으로 줄이고 RTM이 알려지지 않은 생물학적 결과를 갖는 절두형 단백질을 발현할 수 있게 한다. 절두형 단백질을 생성하는, 때로 RTM 성숙이라고도 하는 RTM 발현은 알려지지 않은 생물학적 결과를 갖는 바람직하지 않은 결과/비표적 효과이다. 이와 대조적으로, 많은 lncRNA는 폴리아데닐화 신호가 없고 대신 PolII 종결을 위한 비표준 3' 단부 프로세싱에 의존적이다. 이들 중 일부는 성숙한 전사체(예를 들어, 히스톤 mRNA)를 안정화하는 데 도움이 되는 것으로 여겨지는 3' 단부에 단순한 줄기-루프 구조가 추정된다. 반면 다른 것들은 훨씬 더 복잡한 2차 구조를 이용한다.
lncRNA는 적어도 2가지 특징, 즉 1) 핵 국재화 신호 및 2) 리보뉴클레아제에 의한 분해를 회피하여 안정성을 증가시키는 비표준 3' 단부 프로세싱 메커니즘을 포함하는 것으로 보이는 핵 국재화에 대한 청사진을 발전시켰다. 이 두 가지 특징을 모두 포함하는 것으로 밝혀진 프로토타입 lncRNA는 MALAT1(전이 관련 폐 선암종 전사체 1)이라고 불린다. 흥미롭게도, MALAT1의 3' 단부는 종을 따라 고도로 보존적이며 RNaseP에 의한 tRNA 유사 구조의 인식 및 절단 후 삼중 나선 구조로 축합되는 것으로 나타났다(Wilutz 등. 2012.Genes and Develop. 26:2392-2407). 이러한 삼중 나선은 뉴클레아제에서 MALAT1 전사체를 안정화시키는 데 도움이 되는 것으로 여겨진다.
본 명세서에 설명된 바와 같이, 인간 MALAT1의 3' 말단 삼중 나선은 CEP290-루시퍼라제 리포터에 의해 암호화된 1차 RNA 전사체 또는 내인성 ABCA4 유전자에 의해 암호화된 1차 RNA 전사체를 표적으로 하는 연구용 RTM에 첨가하였다. 모든 경우에 3' 삼중 나선 종결인자의 존재는 향상된 트랜스-스플라이싱 활성을 표시했다. 이것은 3' 말단 삼중 나선의 117bp 절두형 버전(Comp14라고 함, Wilutz 등. 2012에 설명됨)에 의해 처음으로 입증되었고, 나중에는 151bp 천연 서열(NCBI REFSEQ: NR_002819)에 의해 입증되었다.
일 측면에서, 본원에 설명된 조성물 및 방법은 유전성 유전자 장애를 치료하기 위한 수단으로서 아데노 관련 바이러스(AAV)를 사용하는 유전자 요법을 이용한다. 보다 구체적으로, 본원에 기술된 방법 및 조성물은 큰 유전자의 결함에 의해 야기되는 질환의 치료를 위해 생체외 및 생체내 둘 모두에서 유전자 요법으로서 pre-mRNA 트랜스-스플라이싱의 사용을 이용한다. 일 실시양태에서, 이러한 조성물 및 방법은 4700개 뉴클레오타이드로 제한되는 AAV로의 핵산 패키징 한계에 의해 야기되는 문제를 극복한다. 효과적인 rAAV 치료제를 생산하고 RNA-트랜스-스플라이싱 분자(RTM)를 발현하는 데 필요한 서열을 포함시키는 경우, 안구 유전자 서열을 함유하는 RTM에 대한 유효 크기 제약은 약 4000개 뉴클레오타이드이다. 이들 방법 및 조성물은 다른 유전자 중에서도 ABCA4, CEP290 및 MYO7A와 같은 AAV 내에 혼입 및 발현에 필요한 크기를 초과하는 유전자의 결함으로 인한 장애의 치료에 특히 바람직하다.
달리 정의되지 않는 한, 본원에 사용된 기술 및 과학 용어는 본 발명이 속하는 기술 분야의 통상의 지식을 가진 자에 의해, 그리고 본 기술분야의 기술자에게 본 출원에 사용된 많은 용어에 일반적인 가이드를 제공하는 공개된 텍스트를 참조하여 본 기술분야의 기술자가 일반적으로 이해하는 것과 동일한 의미를 갖는다. 본원에 사용된 정의는 단지 명확성을 위해 제공되며 청구된 발명을 제한하려는 것이 아니다.
본원에 사용된 "3' 전사 종결인자 도메인" 또는 "3' TTD"는 트랜스-스플라이싱 분자의 3' 말단에 위치한 긴 비암호 RNA(lncRNA)를 지칭한다. 일부 경우에 3' TTD는 트랜스-스플라이싱 효율을 증가시킨다. 일부 경우에, 전사 종결인자 도메인은 A-풍부 트랙트(예를 들어, 폴리-A 꼬리)와 함께 정렬될 때 ENE+A를 형성할 수 있는 발현 및 핵 유지 요소(expression and nuclear retention element, ENE)를 포함한다.
본원에 사용된 "긴 비암호화 RNA" 또는 "lncRNA"는 200개 뉴클레오타이드보다 긴(예를 들어, 300개보다 긴 뉴클레오타이드, 400개보다 긴 뉴클레오타이드, 또는 500개보다 긴 뉴클레오타이드) 비-단백질 암호 RNA 전사체를 지칭한다. 일부 실시양태에서, lncRNA는 200 내지 300개의 뉴클레오타이드, 300 내지 400개의 뉴클레오타이드, 400 내지 500개의 뉴클레오타이드, 또는 500개 초과의 뉴클레오타이드이다.
본 명세서에 사용된 바와 같이, 용어 "트랜스-스플라이싱 효율"은 세포에 투여된 트랜스-스플라이싱 분자당 생성된 트랜스-스플라이싱된 RNA 전사체의 수를 지칭한다. 따라서, 트랜스-스플라이싱 효율은 트랜스-스플라이싱 분자의 안정성 및 핵 국재화 및 유지를 반영한다.
본 명세서에 사용된 바와 같이, 용어 "삼중 나선", "삼중 나선 구조", 및 "삼본쇄" 및 이들의 문법적 파생어는 상호교환가능하게 사용되며, 후그스틴 염기 쌍형성에 의해 형성된 적층된 주요 홈 삼중체를 특징으로 하는 폴리뉴클레오타이드(예를 들어, RNA)의 영역을 지칭한다. 일부 경우에, 삼중 나선은 후그스틴 염기 쌍형성을 통해 쌍을 이루는 다중(예를 들어, 4개 이상) 연속 뉴클레오타이드를 포함한다. 일부 실시양태에서, 삼중 나선은 4개 이상의 연속적인 아데노신 뉴클레오타이드를 포함하고, 여기서 각각의 연속적인 아데닌은 후그스틴 염기 쌍형성을 통해 우라실에 쌍을 이룬다(예를 들어, 폴리-A 트랙트는, 예를 들어, 적층된 주요 홈 삼중체에서, U-풍부 모티프와 정렬된다).
본원에 사용된 용어 "A-풍부 트랙트"는 연속 핵산의 적어도 80%가 아데닌(A)인 연속 핵산 가닥을 지칭한다.
본원에 사용된 용어 "U-풍부 모티프"는 연속 핵산의 적어도 80%가 우라실(U)인 연속 핵산 가닥을 지칭한다.
"핵산 트랜스-스플라이싱 분자" 또는 "트랜스-스플라이싱 분자"는 3가지 주요 구성요소를 갖는다: (a) 트랜스-스플라이싱 분자를 이의 표적 유전자(예를 들어, pre-mRNA)에 테더링하여 특이성을 부여하는 결합 도메인; (b) 스플라이싱 도메인(예를 들어, 3' 또는 5' 스플라이스 부위를 갖는 스플라이싱 도메인); 및 (c) 표적 유전자에 있는 하나 이상의 엑손(예를 들어, 하나 이상의 돌연변이된 엑손)을 대체할 수 있는, 표적 유전자 상에 트랜스-스플라이싱되도록 구성된 암호 서열. "pre-mRNA 트랜스-스플라이싱 분자" 또는 "RTM"은 pre-mRNA를 표적으로 하는 핵산 트랜스-스플라이싱 분자를 지칭한다. 일부 실시양태에서, RTM과 같은 트랜스-스플라이싱 분자는 cDNA를, 예를 들어, 돌연변이된 엑손의 대체 또는 교정을 위한 기능적 엑손의 일부로서 포함할 수 있다.
핵산은 다른 핵산 서열과 구조적 또는 기능적 관계로 배치될 때 "작동적으로 연결"된다. 예를 들어, 하나의 핵산 서열은 동일한 인접 폴리뉴클레오타이드에서 서로 상대적으로 위치하고 삼중 나선의 형성(예를 들어, 후그스틴 염기 쌍형성을 통해)과 같은 구조적 또는 기능적 관계를 갖는다면 다른 핵산 서열에 작동적으로 연결될 수 있다. 일부 예에서, 작동적으로 연결된 핵산 서열은 직접 연결된다(즉, 핵산 서열은 개재 뉴클레오타이드 없이 다른 핵산 서열에 직접 공유 연결됨). 다른 경우에, 작동적으로 연결된 핵산 서열은 직접 연결되지 않는다. 작동적으로 연결된 핵산 서열이 직접 연결되지 않는 경우에는 링커 서열을 통해 작동적으로 연결(간접적으로)될 수 있다. 일부 경우에, 링커 서열은 길이가 1-1,000개 염기 길이(예를 들어, 1-900, 1-800, 1-700, 1-600, 1-500, 1-400, 1-300, 1-250, 1-200, 1-150, 1-100, 1-90, 1-80, 1-70, 1-60, 1-50, 1-40, 1-30, 1-20, 1-10, 1-8, 1-6, 1-5, 1-4, 또는 1-3개의 염기 길이, 예를 들어 1-10, 10-15, 15-20, 20-30, 30-40, 40-50, 50-100, 100-150, 150-200 또는 200-500 염기 길이)일 수 있다. 일부 경우에, A-풍부 트랙트는 링커 서열을 통해 U-풍부 모티프에 대해 3'에 작동적으로 연결된다.
본원에 사용된 용어 "포유류 대상체" 또는 "대상체"는 특히 인간을 포함하여, 이러한 치료 또는 예방 방법을 필요로 하는 임의의 포유류를 포함한다. 이러한 치료 또는 예방이 필요한 기타 포유류로는 개, 고양이 또는 다른 길든 동물, 말, 가축, 인간이 아닌 영장류를 포함한 실험 동물 등을 포함한다. 대상체는 수컷 또는 암컷일 수 있다.
일 실시양태에서, 대상체는 유전자 돌연변이에 의해 유발된 장애가 있거나 발병할 위험이 있다. 일 실시양태에서, 대상체는 안구 장애가 있거나 발병할 위험이 있다. 또 다른 실시양태에서, 대상체는 안구 장애, 특히 ABCA4, CEP290 또는 MYO7A 유전자의 결함 또는 돌연변이와 관련된 장애의 임상 징후를 나타냈다.
"안구 장애"라는 용어는 제한 없이 스타가르트 질환(상염색체 우성 또는 상염색체 열성), 색소성 망막염, 간상-원추체 이영양증, 레베르 선천성 흑암시, 어셔 증후군, 바르데-비들(Bardet-Biedl) 증후군, 베스트병, 망막분열증, 치료되지 않는 망막 박리, 패턴 이영양증, 원추-간상체 이영양증, 색맹, 안구 백색증, 강화 S 원추 증후군, 당뇨병성 망막증, 연령 관련 황반변성, 미숙아 망막병증, 겸상적혈구 망막병증, 선천성 고정 야맹증, 녹내장 또는 망막 정맥 폐쇄를 포함한다. 또 다른 실시양태에서, 대상체는 녹내장, 레베르의 유전성 시신경병증, 리소좀 축적 장애, 또는 과산화소체 장애가 있거나 발병할 위험이 있다.
안구 질환의 임상 징후로는 주변 시력 감소, 중심(읽기) 시력 감소, 야간 시력 감소, 색 지각 상실, 시력 감소, 광수용체 기능 감소, 색소 변화를 포함하지만, 이에 제한되지는 않는다. 또 다른 실시양태에서, 대상체는 STGD1 진단을 받았다. 또 다른 실시양태에서, 대상체는 청소년 발병 황반 변성, 황반 안저(fundus flavimaculatus) 진단을 받았다. 또 다른 실시양태에서, 대상체는 원추-간상체 이영양증 진단을 받았다. 또 다른 실시양태에서, 대상체는 색소성 망막염 진단을 받았다. 또 다른 실시양태에서, 대상체는 연령-관련 황반변성(AMD) 진단을 받았다. 또 다른 실시양태에서, 대상체는 LCA10 진단을 받았다. 또 다른 실시양태에서, 대상체는 이러한 안구 병리의 임상 징후를 아직 나타내지 않았다.
본원에 사용된 용어 "치료" 또는 "치료하는"은 안구 질환의 발병 또는 진행 감소, 질환 예방, 질환 증상의 중증도 감소, 또는 이들의 진행 지연, 질환 증상의 제거, 질환의 발병 지연 또는 주어진 대상체에서 질환 진행 또는 치료 효능의 모니터링 중 하나 이상으로서 정의된다.
본원에 사용된 용어 "선택된 세포"는 RTM이 전달되는 임의의 세포 또는 세포 유형(즉, 본원에 제공된 조성물 및 방법을 사용한 변형에 유익한 표적)을 지칭한다. 특정 실시양태에서, 선택된 세포는 원핵 세포이다. 다른 실시양태에서, 선택된 세포는 진핵 세포이고, 이의 비제한적인 예는 식물 세포 및 조직, 동물 세포 및 조직, 및 인간 세포 및 조직을 포함한다. 세포는 확립된 세포주로부터 유래하거나, 일차 세포일 수 있으며, 여기서 "일차 세포", "일차 세포주" 및 "일차 배양물"은 대상체로부터 유래되고 제한된 수의 배양물 계대 동안 시험관내에서 성장할 수 있도록 한 세포 및 세포 배양물을 지칭하는 것으로 본 명세서에서 상호교환가능하게 사용된다. 제한 없이, 선택된 세포는, 예를 들어, 암성일 수 있다. 특정 실시양태에서, 선택된 세포는 생체외에서 조작된 다음, 대상체에게 투여된다. 또 다른 실시양태에서, 선택된 세포는 대상체에 대해, 예를 들어, rAVV를 전달함으로써, 생체내에서 표적화된다. 일부 실시양태에서, 용어 "선택된 세포"는 광수용체 세포와 같은 눈의 기능과 관련된 임의의 세포인 안구 세포를 지칭한다. 일부 실시양태에서, 이 용어는 간상체, 원추체, 감광성 신경절 세포, 망막 색소 상피(RPE) 세포, 뮐러(Mueller) 세포, 양극성 세포, 수평 세포, 또는 무축삭 세포를 지칭한다. 일부 유전자 표적은 눈 뿐만 아니라 다른 기관에서도 발현된다. 예를 들어, CEP290은 신장 상피 및 중추신경계에서 발현되고 MY07A는 청각 유모 세포에서 발현된다. 따라서, 선택된 세포는 또한 이러한 안구외 세포를 포함할 수 있다. 특정 실시양태에서, 선택된 세포는 골격근 세포, 예를 들어 적색(느린) 골격근 세포, 백색(빠른) 골격근 세포, 또는 중간 골격근 세포이다. 특정 실시양태에서, 선택된 세포는 심장 근육 세포, 예를 들어 심근세포 또는 결절 심장 근육 세포이다. 특정 실시양태에서, 선택된 세포는 평활근 세포이다. 특정 실시양태에서, 선택된 세포는 근육 위성 세포 또는 근육 줄기 세포이다.
본 명세서에 사용된 바와 같이, 용어 "숙주 세포"는 rAAV가 플라스미드로부터 생산되는 패키징 세포주를 지칭할 수 있다. 대안적으로, 용어 "숙주 세포"는 전이유전자의 발현이 요구되는 표적 세포를 지칭할 수 있다.
코돈 최적화는 암호화된 아미노산에서 임의의 결과적인 변화 없이 개별 핵산을 변화시키기 위한 핵산 서열의 변형을 지칭한다. 이 과정은 발현 또는 안정성을 향상시키기 위해 본 명세서에 기재된 임의의 서열에 대해 수행될 수 있다. 코돈 최적화는, 예를 들어, 본원에 참고로 포함되는 미국 특허 제7,561,972호; 제7,561,973호; 및 제7,888,112호에 기재된 것, 및 해독 시작 부위를 둘러싼 서열의 콘센서스 코작(Kozak) 서열로의 전환과 같은 방식으로 수행될 수 있다. 본원에 참고로 포함되는 Kozak 등, Nucleic Acids Res. 15(20): 8125-8148 참조. 일 실시양태에서, 암호 서열은 코돈 최적화된다.
"상동성"이라는 용어는 2개의 핵산 서열의 서열간 동일성 정도를 지칭한다. 상동성 서열의 상동성은 비교할 서열에 대해 최적 조건하에 정렬된 2개의 서열을 비교함으로써 결정된다. 본 명세서에서 비교되는 서열은 두 서열의 최적 정렬에서 첨가 또는 결실(예를 들어, 갭 등)을 가질 수 있다. 이러한 서열 상동성은, 예를 들어, ClustalW 알고리즘(Nucleic Acid Res., 22(22): 4673 4680(1994))을 사용하여 정렬을 생성함으로써 계산할 수 있다. 일반적으로 이용가능한 서열 분석 소프트웨어, 보다 구체적으로 Vector NTI, GENETYX, BLAST 또는 공공 데이터베이스에서 제공되는 분석 도구 역시 사용될 수 있다.
"약제학적 허용성"이라는 용어는 동물, 더욱 특히 인간에 사용하기 위해 연방 또는 주 정부의 규제 기관의 승인을 받은 것 또는 미국 약전 또는 기타 일반적으로 인정된 약전에 등재된 것을 의미한다.
"담체"라는 용어는 합성 물질이 투여되는 희석제, 보조제, 부형제 또는 비히클을 의미한다. 적합한 약제학적 담체의 예는 E. W. Martin의 "Remington's Pharmaceutical sciences"에 기재되어 있다.
단수의 용어("a" 또는 "an")는 하나 이상을 지칭하며, 예를 들어 "유전자"는 하나 이상의 이러한 유전자들을 나타내는 것으로 이해한다. 이와 같이, 단수의 용어, "하나 이상" 및 "적어도 하나"는 본원에서 상호교환가능하게 사용된다.
본원에 사용된 바와 같이, 용어 "약"은 달리 명시되지 않는 한, 주어진 지시대상으로부터 ± 0.1 내지 10%의 변동성을 의미한다.
하기 설명과 관련하여, 본원에 기재된 각각의 조성물은 또 다른 실시양태에서 본원에 기재된 치료 방법에 유용한 것으로 의도된다. 또한, 방법에 유용한 것으로 본원에 기재된 각각의 조성물은 그 자체가 실시양태인 것으로 의도된다. 본 명세서의 다양한 실시양태는 다른 상황 하에서 다른 구성요소 또는 단계를 포괄하는, "포함하는"이란 언어를 사용하여 제시되고 있지만, 관련 실시양태는 또한 그 실시양태를 유의적으로 변화시키는 모든 또는 임의의 구성요소 또는 단계를 배제하는, "로 이루어지는" 또는 "로 본질적으로 이루어지는"을 사용하여 해석 및 설명되는 것으로 의도된다.
Pre-mRNA 트랜스-스플라이싱 방법 및 분자
세포 내에서 비암호 핵산 서열, 즉 인트론, 및 유전자 산물을 형성하는 아미노산을 암호화하는 핵산 서열을 포함하는 pre-mRNA 중간체가 존재한다. 인트론은 pre-mRNA에 있는 유전자의 엑손 사이에 산재되어 있으며, 스플라이세오솜으로 알려진 단백질 복합체에 의해 엑손들이 함께 결합될 때 pre-mRNA 분자로부터 궁극적으로 절단된다. 스플라이세오솜 활성을 사용하여, 제2 핵산의 도입을 통해 대체 엑손을 도입시킬 수 있다. 스플라이세오솜 매개 RNA 트랜스-스플라이싱(SMaRT)은 핵 내의 pre-mRNA를 표적화하도록 특이적으로 결합하고 스플라이세오솜에 의해 매개되는 과정에서 트랜스-스플라이싱을 유발하는 조작된 pre-mRNA 트랜스-스플라이싱 분자(RTM)를 이용하는 것으로서 기술된 바 있다. 이 방법론은, 예를 들어, Puttaraju M, 등 1999 Nat Biotechnol., 17:246-252; Gruber C 등, 2013 Dec, Mol. Oncol. 7(6):1056; Avale ME, 2013 Jul, Hum. Mol. Genet., 22(13):2603-11; Rindt H 등, 2012 Dec, Cell Mol. Life Sci., 69(24):4191; 미국 특허 출원 공개 번호 2006/0246422 및 20130059901, 및 미국 특허 제6,083,702호; 제6,013,487호; 제6,280,978호; 제7,399,753호; 및 제8,053,232호에 기술되어 있다. 이 문서들은 본원에 참고로 포함된다.
본원에 개시된 핵산 트랜스-스플라이싱 분자는 핵산 트랜스-스플라이싱 분자의 임의의 구조적 또는 기능적 특징, 및 본 기술분야에 공지된 관련 방법, 예를 들어 각각 전체가 본원에 참고로 포함되는 WO 2017/087900 및 WO 2019/2045114에 기재된 것을 포함할 수 있다.
일부 실시양태에서, 본원에 기재된 RNA 트랜스-스플라이싱 분자(RTM)는 5개의 주요 요소를 갖는다. 일 실시양태에서, 5'에서 3' 방향으로 작동적으로 연결된 하기 요소들을 포함한다:
(a) 선택된 유전자의 하나 이상의 기능적 엑손(들)을 포함하는 암호 도메인(CD);
(b) 암호 도메인과 결합 도메인 사이의 구조적 연결부로서 작용하고, 스플라이싱 인핸서로 기능하거나 트랜스-스플라이싱 이벤트가 일어나기 전에 암호 영역의 해독을 최소화하는 작용을 하는 복잡한 이차 구조로 접히는 능력을 갖거나, 또는 조기 RTM 성숙의 이벤트에서 분해 펩타이드를 암호화하는 모티프를 함유할 수 있는 다양한 길이 및 서열의 링커 도메인(LD);
(c) 스플라이세오솜 매개 트랜스-스플라이싱을 개시하도록 구성된 스플라이세오솜 인식 모티프(스플라이스 공여체, SD);
(d) 선택된 유전자의 표적 인트론에 혼성화하도록 구성된 다양한 길이 및 서열의 결합 도메인(BD)으로서, 여기서 상기 유전자는 표적 인트론에 대해 5'에 엑손 에 적어도 하나의 결함 또는 돌연변이를 갖는 결합 도메인; 및
(e) 트랜스-스플라이싱의 효율을 증가시키는 3' 전사 종결인자 도메인(TTD).
핵산 트랜스-스플라이싱 분자는 표적 인트론에 인접한 선택된 유전자의 내인성 엑손에 암호 도메인을 트랜스-스플라이스하여, 내인성의 결함 또는 돌연변이 엑손을 기능적 엑손으로 대체하고 선택된 유전자의 돌연변이를 교정하도록 구성된다.
다른 실시양태에 따르면, 5'에서 3' 방향으로 작동적으로 연결된 하기 요소들을 포함한다:
(a) 선택된 유전자의 표적 인트론에 결합하도록 구성된 결합 도메인(BD)으로서, 여기서 상기 유전자는 표적화된 인트론에 대해 3'인 엑손에 적어도 하나의 결함 또는 돌연변이를 갖는 결합 도메인;
(b) 결합 도메인과 암호 영역 사이에 구조적 연결부로서 작용하고, 스플라이싱 인핸서로서 기능하거나, 트랜스-스플라이싱을 위한 경쟁 이벤트로서 암호 영역의 해독을 방해하는 복잡한 이차 구조로 접히거나, 또는 조기 RTM 성숙의 이벤트에서 분해 펩타이드를 암호화하는 모티프를 함유하는 다양한 길이 및 조성의 링커 서열;
(c) 트랜스-스플라이싱을 매개하도록 구성된 3' 스플라이세오솜 인식 모티프(스플라이스 수용체, SA);
(d) 선택된 유전자의 하나 이상의 기능적 엑손(들)을 포함하는 암호 도메인(CD); 및
(e) 트랜스-스플라이싱의 효율을 증가시키는 3' 전사 종결인자 도메인(TTD).
암호 도메인 서열(CDS)
본원에 기재된 RTM의 암호 도메인은 표적 pre-mRNA에 트랜스-스플라이싱되는 야생형 암호 서열의 일부를 포함한다. "야생형 암호 서열"은 해독되고 어셈블리될 때 기능적 단백질을 제공하는 서열을 의미한다. 발현 또는 기능은 야생형 단백질과 동일한 수준일 필요는 없다. 일 실시양태에서, 야생형 암호 서열은, 예를 들어, 코돈 최적화를 통해 변형된다.
pre-RNA 트랜스-스플라이싱 분자(RTM)는 표적 인트론에 인접한 선택된 유전자의 내인성 엑손에 암호 도메인을 트랜스-스플라이싱하여 내인성의 결함 또는 돌연변이 엑손을 기능적 엑손으로 대체하고 선택된 유전자의 돌연변이를 교정하도록 구성된다. CDS는 RTM의 구성에 따라 결합 도메인에 대해 3' 또는 5'에 선택된 유전자의 일부 또는 모든 엑손을 제공할 수 있다. 예를 들어, 5' 트랜스-스플라이싱 반응의 경우에는 BD에 대해 5' 엑손의 전부 또는 일부가 대체된다. 3' 트랜스-스플라이싱 반응의 경우에는 BD에 대해 3' 엑손의 전체 또는 일부가 대체된다. RTM의 설계는 pre-mRNA 엑손(들)의 결함 또는 돌연변이 부분을 핵산 서열, 즉 결함 또는 돌연변이 없이 정상 서열을 갖는 엑손(들)으로 대체할 수 있게 한다. "정상" 서열은 야생형 자연 발생 서열 또는 질병을 유발하지 않는 일부 다른 변형을 갖는, 예를 들어 코돈-변형된, 교정된 서열일 수 있다.
일 실시양태에서, 암호 도메인은 질병-유발 돌연변이가 없는 정상 야생형 서열을 함유하는 표적 유전자의 단일 엑손, 예를 들어 ABCA4의 엑손 22이다. 또 다른 실시양태에서, 암호 도메인은 질병을 유발하는 다중 돌연변이를 함유하는 다중 엑손, 예를 들어 ABCA4의 엑손 1-22를 포함한다. 교정되어야 하는 엑손의 위치에 따라, RTM은 표적 유전자의 5' 또는 3' 단부에 위치한 다중 엑손을 함유할 수 있고, 또는 RTM은 유전자의 중간에 있는 엑손을 대체하도록 설계될 수 있다. rAAV에서 사용 및 전달하고자 하는 경우, 이 기술이 3000개 미만의 뉴클레오타이드 길이인 작은 안구 유전자에 대한 것이 아닌 한, 안구 유전자의 전체 암호 서열은 RTM의 암호 도메인으로서 유용하지 않다. 본원에 기재된 바와 같이, 전체 대형 유전자를 대체하기 위해서는 2개의 RTM, 즉 3' 및 5' RTM이 상이한 rAAV 입자에 이용될 수 있다.
본원에 기재된 RTM은 본원에서 식별되고 관련 질환에 관한 유전자 돌연변이 또는 결함을 함유하는 것을 특징으로 하는 하나 이상의 엑손을 암호화하는 암호 도메인을 포함할 수 있으며, 예를 들어 ABCA4의 엑손 27은 스타가르트 질환의 치료를 위해 설계된 RTM에 대한 암호 도메인일 수 있다. 본원의 표 1 내지 3에서 표적화된 유전자의 명칭 및 질환을 유발할 가능성이 있는 돌연변이를 함유하는 엑손의 명칭이 확인된다.
일 실시양태에서, 5' RTM의 암호 도메인은 표적화된 유전자의 5' 부분에 있는 엑손을 대체하도록 설계된다. 또 다른 실시양태에서, 3' RTM의 암호 도메인은 유전자의 3' 부분에 있는 엑손을 대체하도록 설계된다. 또 다른 실시양태에서, 암호 도메인은 유전자 내부에 위치한 하나 또는 다수의 엑손이고 암호 도메인은 이중 트랜스-스플라이싱 RTM에 위치한다.
따라서, 예를 들어, 3가지 가능한 유형의 RTM이, 예를 들어, ABCA4에서 결함으로 인한 질환의 치료에 유용하다: 5' 스플라이스 부위를 포함하는 5' 트랜스-스플라이싱 RTM. 트랜스-스플라이싱 후, 5' RTM은 표적 mRNA의 5' 영역을 변화시켰을 것이다: 표적 mRNA의 3' 영역을 트랜스-스플라이싱 및 교체하는 데 사용되는 3' 스플라이스 부위를 포함하는 3' RTM; 및 3' 및 5' 스플라이스 부위와 함께 다중 결합 도메인을 운반하는 이중 트랜스-스플라이싱 RTM. 트랜스-스플라이싱 후, 이 RTM은 프로세싱된 표적 mRNA에서 내부 엑손을 대체한다. 다른 실시양태에서, 암호 도메인은 유전자 발현을 감소시키기 위해 자연 발생 또는 인공적으로 도입된 정지 코돈을 포함하는 엑손을 포함할 수 있고; 또는 RTM은 RNAi 유사 효과를 생성하는 다른 서열을 함유할 수 있다.
스타가르트 질환의 치료에 사용하기 위해, ABCA4의 적합한 암호 영역은 별도의 RTM 중의 엑손 1-22 또는 27-50이다. LCA10 치료에 사용하기 위한 경우, CEP290의 적합한 암호 영역은 별도의 RTM 중의 엑손 1-26 또는 엑손 27-54이다. 어셔 증후군 치료에 사용하기 위한 경우, MYO7A의 적합한 암호 영역은 별도의 RTM 중의 엑손 1-18 또는 33-49이다.
또 다른 암호 도메인은 본원에 제공된 교시를 감안하면, 5' RTM 및 3'RTM, 및/또는 이중 스플라이싱 RTM에 의해 제공되는 단편의 유전자 전체를 대체하도록 본 기술분야의 기술자에 의해 작제될 수 있다.
링커 도메인(LD)
본원에 기재된 RTM은 일부 실시양태에서 암호 도메인과 결합 도메인 사이에서 구조적 연결부로서 작용하는 다양한 길이 및 서열의 링커 도메인(LD)을 포함한다. 일 실시양태에서, LD는 스플라이싱 인핸서로서 기능하는 하나 이상의 모티프를 함유한다. 일 실시양태에서, LD는 트랜스-스플라이싱 이벤트가 일어나기 전에 암호 영역의 해독을 최소화하는 작용을 하는 복잡한 이차 구조로 접히는 능력을 갖는 하나 이상의 모티프를 제공한다.
일 실시양태에서, 링커 서열은 서열번호 37: ccgaatacgacacgtagcaagatct이다.
스플라이세오솜 인식 모티프(스플라이스 공여체(SD) 및 스플라이스 수용체(SA))
RTM(5'- 또는 3') 방향성에 따라, RTM은 스플라이스 공여체(SD), 스플라이스 수용체(SA) 또는 둘 모두인 스플라이세오솜 인식 모티프를 포함한다.
인트론은 항상 어느 한쪽 단부에 2개의 별개의 뉴클레오타이드를 갖는다. 5' 단부에서 DNA 뉴클레오타이드는 GT[프리메신저 RNA(pre-mRNA)에서는 GU]이고; 3' 단부에서는 AG이다. 이들 뉴클레오타이드는 스플라이싱 부위의 일부이다. SD는 인트론의 시작에 있는 스플라이싱 부위, 즉 인트론 5' 좌측 단부이며, 때로는 5' 스플라이스 부위 또는 5'SS라고도 지칭된다. SA는 인트론의 단부에 있는 스플라이싱 부위, 즉 3' 우측 단부이며, 때로는 3' 스플라이스 부위 또는 3'SS라고도 지칭된다.
간단히 말해서, 스플라이싱 도메인은 스플라이세오솜에 의해 인식되는 필수 콘센서스 모티프를 제공한다. BP와 PPT의 사용은 시스-스플라이싱 및 아마도 트랜스-스플라이싱에도 관여하는 2가지 포스포릴 전이 반응의 수행에 필요한 콘센서스 서열을 따른다. 일 실시양태에서, 포유류의 분지점 콘센서스 서열은 YNYURAC(Y=피리미딘; N=임의의 뉴클레오타이드)이다. 밑줄 친 A는 분지 형성 부위이다. 폴리피리미딘 트랙트는 분지점과 스플라이스 부위 수용체 사이에 위치하며 다른 분지점 활용 및 3' 스플라이스 부위 인식에 중요하다. RNA 스플라이싱에 사용되는 5' 스플라이스 공여체 부위 및 3' 스플라이스 영역에 대한 컨센서스 서열은 본 기술분야에 잘 알려져 있다. 또한, 5' 공여체 스플라이스 부위 및 3' 스플라이스 영역으로 기능하는 능력을 유지하는 변형된 컨센서스 서열이 사용될 수도 있다. 간단히 말해서, 일 실시양태에서, 5' 스플라이스 부위 콘센서스 서열은 핵산 서열 AG/GURAGU(여기서, /는 스플라이스 부위를 나타냄)이다. 다른 실시양태에서, 스플라이스 부위에 근접한 엑손에 상응하는 내인성 스플라이스 부위는 임의의 스플라이싱 조절 신호를 유지하기 위해 사용될 수 있다. 일 실시양태에서, 인트론 22의 영역에 상보적인 결합 도메인을 갖는 엑손 1-22를 암호화하는 서열을 암호 영역으로서 함유하는 ABCA4 5'RTM은 내인성 인트론 22 5' 스플라이스 부위를 사용한다. 또 다른 실시양태에서, 인트론 26에 상보적인 결합 도메인을 갖는 엑손 27-50을 암호화하는 ABCA4 3'RTM은 내인성 인트론 26 3' 스플라이스 부위를 사용한다.
일 실시양태에서, 스페이서를 갖는 적합한 5' 스플라이스 부위는 5'-GTA AGA GAG CTC GTT GCG ATA TTA T -3' 서열번호 1이다. 일 실시양태에서, 적합한 5' 스플라이스 부위는 AGGT이다.
일 실시양태에서, 적합한 3' RTM BP는 5'-TACTAAC-3'(서열번호 2)이다. 일 실시양태에서, 적합한 3' 스플라이스 부위는 5'-TAC TAA CTG GTA CCT CTT CTT TTT TTT CTG CAG -3' 서열번호 2 또는 5'-CAGGT-3'(서열번호 4)이다. 일 실시양태에서, 적합한 3'RTM PPT는 5'-TGG TAC CTC TTC TTT TTT TTC TG-3' 서열번호 5이다.
결합 도메인(BD)
RTM은 선택된 유전자의 표적 인트론에 혼성화하도록 구성된 다양한 길이 및 서열의 결합 도메인(BD)을 포함한다. 일 실시양태에서, 결합 도메인은 내인성 표적 시스-스플라이싱을 억제하면서 트랜스-스플라이싱 분자와 표적 pre-mRNA 사이의 트랜스-스플라이싱을 향상시키는, 예를 들어, 내인성 mRNA의 일부 및 하나 이상의 기능적 엑손을 갖는 암호 도메인을 갖는 키메라 분자를 생성하는, 표적 pre-mRNA의 서열에 상보적인 핵산 서열이다. 일부 실시양태에서, 결합 도메인은 표적 인트론의 서열에 대한 안티센스 배향이다.
5' 트랜스-스플라이싱 분자는 일반적으로 돌연변이에 대해 3'의 표적 인트론에 결합하는 반면, 3' 트랜스-스플라이싱 분자는 일반적으로 돌연변이에 대해 5'의 표적 인트론에 결합할 것이다. 일 실시양태에서, 결합 도메인은 표적 인트론에 상보적인 서열의 일부를 포함한다. 본원의 일 실시양태에서, 결합 도메인은 교정되고 있는 엑손 서열에 가장 가까운(즉, 인접한) 인트론에 상보적인 핵산 서열이다.
또 다른 실시양태에서, 결합 도메인은 표적 인트론의 3' 또는 5' 스플라이스 신호에 매우 근접한 인트론 서열에 대해 표적화된다. 또 다른 실시양태에서, 결합 도메인 서열은 인접한 엑손의 일부 외에도 표적 인트론에 결합할 수 있다.
따라서, 일부 경우에, 결합 도메인은 돌연변이된 내인성 표적 pre-mRNA에 특이적으로 결합하여 트랜스-스플라이싱 분자의 암호 도메인을 pre-mRNA에 고정시켜 표적 유전자의 정확한 위치에서 트랜스-스플라이싱이 일어나도록 한다. 핵의 스플라이세오솜 프로세싱 기구는 그 다음 질환을 유발하는 돌연변이된 엑손에 대하여 교정된 엑손의 성공적인 트랜스-스플라이싱을 매개할 수 있다.
특정 실시양태에서, 트랜스-스플라이싱 분자는 하나보다 많은 위치에서 결합하는 표적 pre-mRNA 상의 서열을 함유하는 결합 도메인을 특징으로 한다. 결합 도메인은 암호 도메인과 함께 트랜스-스플라이싱이 일어나도록 하기 위해 표적 pre-mRNA에 안정적으로 결합하는 데 필요한 임의의 수의 뉴클레오타이드를 함유할 수 있다. 일 실시양태에서, 결합 도메인은 접근가능한 루프에 대한 mFOLD 구조 분석을 사용하여 선택한다(Zuker, Nucleic Acids Res. 2003, 31(13): 3406-3415).
적합한 표적 결합 도메인은 길이가 10 내지 500개의 뉴클레오타이드일 수 있다. 일부 실시양태에서, 결합 도메인은 길이가 20 내지 400개의 뉴클레오타이드이다. 일부 실시양태에서, 결합 도메인은 길이가 50 내지 300개의 뉴클레오타이드이다. 일부 실시양태에서, 결합 도메인은 길이가 100 내지 200개의 뉴클레오타이드이다. 일부 실시양태에서, 결합 도메인은 10-20개 뉴클레오타이드 길이(예를 들어, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 또는 20개 뉴클레오타이드 길이), 20-30개 뉴클레오타이드 길이(예를 들어, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 또는 30개 뉴클레오타이드 길이), 30-40개 뉴클레오타이드 길이(예를 들어, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39 또는 40개 뉴클레오타이드 길이), 40-50개 뉴클레오타이드 길이(예를 들어, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50개 뉴클레오타이드 길이), 50-60개 뉴클레오타이드 길이(예를 들어, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 또는 60개 뉴클레오타이드 길이), 60-70개 뉴클레오타이드 길이(예를 들어, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69 또는 70개 뉴클레오타이드 길이), 70-80개 뉴클레오타이드 길이(예를 들어, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79 또는 80개 뉴클레오타이드 길이), 80-90개 뉴클레오타이드 길이(예를 들어, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 또는 90개 뉴클레오타이드 길이), 90-100개 뉴클레오타이드 길이(예를 들어, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99 또는 100개 뉴클레오타이드 길이), 100-110개 뉴클레오타이드 길이(예를 들어, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109 또는 110개 뉴클레오타이드 길이), 110-120개 뉴클레오타이드 길이(예를 들어, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119 또는 120개 뉴클레오타이드 길이), 120-130개 뉴클레오타이드 길이(예를 들어, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129 또는 130개 뉴클레오타이드 길이), 130-140개 뉴클레오타이드 길이(예를 들어, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 또는 140개 뉴클레오타이드 길이), 140-150개 뉴클레오타이드 길이(예를 들어, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149 또는 150개 뉴클레오타이드 길이), 150-160개 뉴클레오타이드 길이(예를 들어, 150, 151, 152, 153, 154, 155, 156, 157, 158, 159 또는 160개 뉴클레오타이드 길이), 160-170개 뉴클레오타이드 길이(예를 들어, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 또는 170개 뉴클레오타이드 길이), 170-180개 뉴클레오타이드 길이(예를 들어, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 또는 180개 뉴클레오타이드 길이), 180-190개 뉴클레오타이드 길이(예를 들어, 181, 182, 183, 184, 185, 186, 187, 188, 189, 또는 190개 뉴클레오타이드 길이), 190-200개 뉴클레오타이드 길이(예를 들어, 190, 191, 192, 193, 194, 195, 196, 197, 198, 199, 또는 200개 뉴클레오타이드 길이), 200-210개 뉴클레오타이드 길이, 210-220개 뉴클레오타이드 길이, 220-230개 뉴클레오타이드 길이, 230-240개 뉴클레오타이드 길이, 240-250개 뉴클레오타이드 길이, 250-260개 뉴클레오타이드 길이, 260-270개 뉴클레오타이드 길이, 270-280개 뉴클레오타이드 길이, 280-290개 뉴클레오타이드 길이, 290-300개 뉴클레오타이드 길이, 300-350개 뉴클레오타이드 길이, 350-400개 뉴클레오타이드 길이, 400-450개 뉴클레오타이드 길이, 또는 450-500개 뉴클레오타이드 길이이다. 일부 실시양태에서, 결합 도메인은 약 150개 뉴클레오타이드 길이이다. 또 다른 실시양태에서, 표적 결합 도메인은 750개 이하의 뉴클레오타이드 길이의 핵산 서열을 포함할 수 있다. 또 다른 실시양태에서, 표적 결합 도메인은 1000개 이하의 뉴클레오타이드 길이의 핵산 서열을 포함할 수 있다. 또 다른 실시양태에서, 표적 결합 도메인은 최대 2000개 또는 그 이상의 뉴클레오타이드 길이의 핵산 서열을 포함할 수 있다.
일부 실시양태에서, 트랜스-스플라이싱 분자의 특이성은 표적 결합 도메인의 길이를 증가시킴으로써 증가될 수 있다. 트랜스-스플라이싱 분자의 다른 구성요소의 길이에 따라 다른 길이가 사용될 수 있다.
결합 도메인은 표적 인트론과 안정적으로 혼성화할 수 있도록 표적 인트론에 대해 80% 내지 100% 상보적일 수 있다. 예를 들어, 일부 실시양태에서, 결합 도메인은 표적 인트론에 대해 80%, 81%, 82%, 83%, 84%, 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 100% 상보적이다. 상보성의 정도는 3,000개 또는 최대 4,000개의 뉴클레오타이드 염기 한도 내에서 rAAV 내에 포함 및 발현시키기 위해 필요한 서열을 함유하는 트랜스-스플라이싱 분자 및 핵산 작제물을 유지해야 하는 필요성에 기초하여 본 기술분야의 기술자에 의해 선택된다. 이 서열의 선택 및 혼성화의 강도는 핵산의 길이 및 상보성에 따라 달라진다.
일 실시양태에서, BD는 ABCA4의 인트론 23, 모티프 81을 표적으로 한다. 일 실시양태에서, 서열은 서열번호 6이다:
TCACTGTTTAATCTGTTAATTCATCTGAGCATTTTGAGGGTGTAGTCGCTTGATTTTATCCTAGAGAGTGTGTGAGTCACACACAGAGAGGAGCAGAACCTCCAAGGGTCCCTTTGGCTTGTCATCAATTATGTGGCAGCTGTAGGTTCT.
3' 전사 종결인자 도메인(TTD)
본원에 기술된 RTM은 3' 전사 종결인자 도메인(TTD), 예를 들어 트랜스-스플라이싱의 효율을 증가시키는 3' TTD를 함유한다. 일 실시양태에서, TTD는 하기 서열 중 하나 이상을 포함한다: 삼본쇄(본원에서 "삼중 나선" 또는 "삼중 나선 구조"로도 지칭됨)의 형성에 관여하는 서열, RNase P 절단 부위, RNaseP 절단을 위한 주형 역할을 하는 tRNA 유사 구조(본원에서 tRNA 유사 도메인, 구조 또는 서열로도 지칭됨), 및 이들 도메인의 접힘을 독립적으로 또는 종합적으로 촉진할 수 있는 임의의 측면 서열. 이러한 측면 서열은 인공 링커, 다른 서열로부터 유래된 링커, 또는 천연 lncRNA로부터의 측면 서열일 수 있다. 일 실시양태에서, 3' 전사 종결인자 도메인은 3' 단부를 효과적으로 캡핑하거나 뉴클레아제 분해로부터 3' 단부를 보호하는 삼중 나선 구조를 형성한다. 본원에서 논의되는 바와 같이, tRNA-유사 도메인은 RNase P 절단 부위를 추가로 포함할 수 있다.
긴 비암호 RNA는 유전자 발현에서 중요한 조절 매개인자 역할을 한다. 일부 lncRNA는 RNase P에 의한 tRNA 유사 구조의 비표준 인식 및 절단에 의해 생성된 3' 단부을 갖고 있는 것으로 밝혀져 있다. 일부 경우에, 일부 lncRNA는 고도로 보존된 삼중 나선 구조로 인해 3'-5' 엔도뉴클레아제로부터 보호되는 것으로 밝혀져 있다. 본원에 제공된 바와 같이, 특정 lncRNA의 3' 말단 단부의 서열은 트랜스-스플라이싱의 효율을 증가시킬 수 있는 말단 도메인(TTD)으로서 RTM에 혼입될 수 있다. 일 실시양태에서, TTD는 삼중 나선 3' 단부 캡에 축합되는 3' 전사 종결인자를 함유하는 하나 이상의 긴 비암호 RNA(lncRNA) 또는 다른 핵 RNA 분자로부터의 서열이다. 일 실시양태에서, TTD 서열은 인간의 긴 비암호 RNA MALAT1로부터 유래된다. 또 다른 실시양태에서, TTD 서열은 인간 lncRNA MENβ로부터 유래된다. 일 실시양태에서, TTD는 인간 MALAT1(서열번호 7)의 뉴클레오타이드 8287-8437을 포함한다. 또 다른 실시양태에서, TTD는 5'에서 3' 순으로, 서열번호 7의 뉴클레오타이드 8287-8379를 포함하는 삼본쇄 형성 서열, 서열번호 7의 뉴클레오타이드 8379-8380을 포함하는 RNaseP 절단 부위, 및 서열번호 7의 뉴클레오타이드 8380-8437을 포함하는 tRNA-유사 서열을 포함한다.
일부 실시양태에서, 3' TTD는 5'에서 3' 방향으로(직접 또는 간접적으로 연결됨) 5' U-풍부 모티프, 줄기-루프 모티프, 3' U-풍부 모티프, 및 A-풍부 트랙트(예를 들어, 폴리-A 꼬리)를 포함한다. 일부 경우, A-풍부 트랙트는 5'-U 풍부 모티프와 후그스틴 염기 쌍형성을 할 수 있다. 일부 실시양태에서, 하나 또는 둘 모두의 줄기 가닥은 약 8-20개 염기쌍 길이(예를 들어, 9-16개, 10-14개, 또는 11-23개 염기쌍 길이)이다. 일부 실시양태에서, 5' U-풍부 모티프 및 3' U-풍부 모티프는 각각 적어도 5개의 연속적인 우라실을 포함한다. 일부 실시양태에서, 5' U-풍부 모티프 및 3' U-풍부 모티프는 각각 5 내지 15개 염기쌍 길이이다.
일부 실시양태에서, 3' TTD는 5'에서 3' 방향으로 5개의 연속적인 우라실을 포함하는 5' U-풍부 모티프, 적어도 하나의 줄기 가닥이 약 16개 염기쌍 길이를 갖는 줄기-루프 모티프, 5개의 연속적인 우라실을 포함하는 3' U-풍부 모티프, 및 적어도 18개의 아데닌을 포함하는 A-풍부 트랙트를 포함한다. 일부 실시양태에서, 3' TTD는 서열번호 14를 포함한다. 일부 실시양태에서, 3' TTD는 서열번호 13을 포함한다.
일부 실시양태에서, 3' TTD는 5'에서 3' 방향으로 서열번호 18을 포함하는 5' U-풍부 모티프, 적어도 하나의 줄기 가닥이 약 13개 뉴클레오타이드의 길이를 갖는 줄기-루프 모티프, 서열번호 19를 포함하는 3' U-풍부 모티프, 및 서열번호 20을 포함하는 A-풍부 트랙트를 포함한다. 일부 실시양태에서, 3' TTD는 서열번호 16을 포함한다. 일부 실시양태에서, 3' TTD는 서열번호 15를 포함한다.
일부 실시양태에서, 3' TTD는 5'에서 3' 방향으로 서열번호 18, 서열번호 19, 및 서열번호 20을 포함한다. 일부 실시양태에서, 3' TTD는 서열번호 17을 포함한다.
일부 실시양태에서, 3' TTD는 5'에서 3' 방향으로 서열번호 23을 포함하는 5' U-풍부 모티프, 적어도 하나의 줄기 가닥이 약 13개 뉴클레오타이드 길이를 갖는 줄기-루프 모티프, 서열번호 24를 포함하는 3' U-풍부 모티프, 및 서열번호 25를 포함하는 A-풍부 트랙트를 포함한다. 일부 실시양태에서, 3' TTD는 서열번호 24를 포함한다. 일부 실시양태에서, 3' TTD는 서열번호 23을 포함한다.
일부 실시양태에서, 3' TTD는 200 내지 1000개 뉴클레오타이드 길이(예를 들어, 200 내지 900개, 200 내지 800개, 200 내지 700개, 200 내지 600개, 200 내지 500개, 200 내지 400개, 또는 200 내지 300개 뉴클레오타이드 길이)이다.
삼본쇄 형성 구조
삼중 나선 구조는, 일 실시양태에서, 2개의 상류(예를 들어, 5') U-풍부 모티프 및 줄기-루프 구조와 함께 A-풍부 모티프(예를 들어, A-풍부 트랙트)로 형성된다. 본원에 예시된 바와 같이, 이들 서열은 특정 암과 관련된 lncRNA인 전이-관련 폐 선암종 전사체 1(MALAT1)에서 진화적으로 고도로 보존된다. 유사한 고도로 보존적인 A- 및 U-풍부 모티프는 NEAT1_2라고도 알려진 MENβ 긴 핵보유 비암호 RNA의 3' 단부에 존재하며, 이는 또한 이의 3' 단부에서 RNase P에 의해 추가로 프로세싱된다. 이러한 고도로 보존된 A- 및 U-풍부 모티프는 3'-5' 엑소뉴클레아제로부터 MALAT1의 3' 단부를 보호하는 데 중요한 삼중 나선 구조를 형성하는 것으로 밝혀져 있다.
다수의 삼중 나선은 본 명세서에 기재된 임의의 작제물을 조작하는데 유용하다. 이러한 삼중 나선으로는 ENE+A, 리보스위치 및 텔로머라제 삼중 나선을 포함한다(예를 들어, Brown 등. Nature Structural and Molecular Biology, 21, 633-642, 2014 참조, 이는 본원에 참고로 포함됨). 예를 들어, ENE+A 삼중 나선은 인간 MALAT1(Brown 등. Nat. Struct. Mol. Biol., 7, 633-40, 2014.), KSHV PAN(Mitton-Fry 등. Science, 330, 1244-7, 2010), 인간 MENβ(Brown 등. Proc. Natl. Acad. Sci. USA, 109, 19202-7, 2012), 아칸타모에바 폴리파가(Acanthamoeba polyphaga) 미니바이러스(Tycowski 등. Cell Rep., 2, 26-32, 2012), 코테시아 콘그레가타(Cotesia congregata) 브라코바이러스(Tycowski 등. Cell Rep., 2, 26-32, 2012), 코테시아 세사미애(Cotesia sesamiae) 브라코바이러스(Tycowski 등. Cell Rep., 2, 26-32, 2012), 말 헤르페스바이러스(Equine herpesvirus) 2(EHV2)(Tycowski 등. Cell Rep., 2, 26-32, 2012), 플라우티아 스탈리(Plautia stali) 소장 바이러스(PSIV)(Tycowski 등. Cell Rep., 2, 26-32, 2012), 및 리서스 라디노바이러스(Rhesus rhadinovirus) PAN(RRV)(Tycowski 등. Cell Rep., 2, 26-32, 2012)에서 기술되어 있다. 다른 예시적인 삼중 나선은 락토바실랄레스 람노서스(Lactobacillales rhamnosus)의 PreQ1-II Riboswitch(Liberman 등. Nat. Chem. Biol., 9, 353-5, 2013) 및 사르가소 씨(Sargasso Sea) 메타게놈에서 발견된 SAM-II Riboswitch(Gilbert 등. Nat. Struct. Mol. Biol., 15, 177-82, 2008)에서 기술된 리보스위치 삼중 나선을 포함한다. 또 다른 예에서, 텔로머라제 삼중 나선은 인간(Theimer 등. Mol Cell, 17, 671-82, 2005) 및 클루이베로마이세스 락티스(Kluyveromyces lactis)(Cash 등. Proc. Natl. Acad. Sci USA, 110, 10970-5, 2013)에 대해 기술되어 있다.
일 실시양태에서, RTM은 U-풍부 모티프 1(예를 들어, 5' U-풍부 모티프), 보존된 줄기-루프, U-풍부 모티프 2(예를 들어, 3' U-풍부 모티프), 및 A-풍부 트랙트(예를 들어, 폴리-A 꼬리의 일부로서)를 포함하는 삼본쇄 형성 서열을 함유하며, 여기서, A-풍부 트랙트 및 U-풍부 모티프 2는 왓슨-크릭 줄기 이본쇄를 형성하고, U-풍부 모티프 1은 A-풍부 트랙트와 정렬하여 후그스틴 염기쌍을 형성한다(Buske 등. 2012; Beal and Dervan, 1991), 본원에 참고로 포함됨. 일 실시양태에서, 서열은 인간 MALAT1 유래이다. 따라서, 일 실시양태에서, RTM은 U-풍부 모티프 1(인간 MALAT1의 8292-8301), 보존된 줄기-루프(인간 MALAT1의 8302-8333), U-풍부 모티프 2(인간 MALAT1의 8334-8343), 및 A-풍부 트랙트(인간 MALAT1의 8369-8379)를 포함하는 삼본쇄 형성 서열을 함유하며, 여기서 A-풍부 트랙트 및 U-풍부 모티프 2는 왓슨-크릭 줄기 이본쇄를 형성하고, U-풍부 모티프 1은 A-풍부 트랙트와 정렬하여 후그스틴 염기쌍을 형성한다.
또 다른 실시양태에서, 본원에 기재된 3' TTD는 이론적인 모델링으로부터 및/또는 자연 발생 서열의 확장에 의해 유도된 신규 설계이다. 일 실시양태에서, TTD는 5'에서 3'의 순으로 다양한 길이 및 조성의 삼본쇄 형성 서열, RNaseP 절단 부위, 및 다양한 길이 및 조성의 tRNA-유사 서열을 포함한다. 일 실시양태에서, 삼본쇄 형성 서열은 3개의 공지된 기본 "모티프" 중 하나에 일치하고, 삼중 나선의 세 번째 가닥의 염기 조성에 의해 지칭된다: 피리미딘 모티프(T,C), 퓨린 모티프(G,A), 및 퓨린-피리미딘 모티프(G,T)(Buske FA, Bauer DC, Mattick JS, Bailey TL. 2012. Triplexator: Detecting Nucleic acid triple helices in genomic and transcriptomic data. Genome Res. 22:1372-1382; Beal PA, Dervan PB. 1991. Second structural motif for recognition of DNA by oligonucleotide-directed triple-helix formation. Science. 251: 1360-1363, 둘 모두 본원에 참고로 포함됨).
또 다른 실시양태에서, TTD는 인간 MALAT1 삼중 나선의 절두된 버전이다. 일 실시양태에서, TTD는 U-풍부 모티프 1(인간 MALAT1의 8292-8301), 보존된 줄기-루프(인간 MALAT1의 8302-8310 및 8325-8333), U-풍부 모티프 2(인간 MALAT1의 8334-8343), A-풍부 트랙트(인간 MALAT1의 8369-8379), 및 U-풍부 모티프 2와 A-풍부 트랙트 사이에 개재 서열의 인간 MALAT1의 결실 스패닝(spanning) 뉴클레오타이드 8345-8364를 포함하는 삼본쇄 형성 서열을 함유하며, 여기서 A-풍부 트랙트와 U-풍부 모티프 2는 왓슨-크릭 줄기 이본쇄를 형성하고 U-풍부 모티프 1은 A-풍부 트랙트와 정렬하여 후그스틴 염기쌍을 형성한다.
일 실시양태에서, 삼중 나선 구조는 lncRNA로부터 유래된다. 일 실시양태에서, 삼중 나선 구조는 MALAT1로부터 유래된다. MALAT1 서열은 진화적으로 고도로 보존적이므로, MALAT1 서열은 임의의 종에서 유래될 수 있다. 일 실시양태에서, MALAT1 서열은 인간에서 유래된다. 또 다른 실시양태에서, MALAT1 서열은 마우스에서 유래된다. 또 다른 실시양태에서, MALAT1 서열은 비-인간 영장류에서 유래된다. 또 다른 실시양태에서, MALAT1 서열은 개에서 유래된다. 또 다른 실시양태에서, MALAT1 서열은 코끼리에서 유래된다. 또 다른 실시양태에서, MALAT1 서열은 주머니쥐에서 유래된다. 또 다른 실시양태에서, MALAT1 서열은 어류에서 유래된다. 이러한 서열은 본 기술분야에 공지되어 있으며, 예를 들어 GenBank에서 찾아볼 수 있다. 일 실시양태에서, MALAT1 서열은 서열번호 7이다.
다른 실시양태에서, 삼중 나선 서열은 이 서열이 요구되는 삼중 나선 구조로 접히는 능력을 유지하는 한, 천연 서열의 절두된 또는 변형된 버전으로서 제공된다.
일 실시양태에서, 삼중 나선 구조는 MENβ에서 유래된다. MENβ 서열은 임의의 종에서 유래할 수 있다. 일 실시양태에서, MENβ 서열은 인간에서 유래한다. 또 다른 실시양태에서, MENβ 서열은 마우스에서 유래한다. 또 다른 실시양태에서, MENβ 서열은 비-인간 영장류에서 유래한다. 또 다른 실시양태에서, MENβ 서열은 개에서 유래한다. 또 다른 실시양태에서, MENβ 서열은 코끼리에서 유래한다. 또 다른 실시양태에서, MENβ 서열은 주머니쥐에서 유래한다. 또 다른 실시양태에서, MENβ 서열은 어류에서 유래한다. 이러한 서열은 본 기술분야에 공지되어 있으며, 예를 들어 GenBank에서 찾을 수 있다.
다른 실시양태에서, 삼중 나선 서열은 이 서열이 요구되는 삼중 나선 구조로 접히는 능력을 유지하는 한, 천연 서열의 절두된 또는 변형된 버전으로서 제공된다. 일 실시양태에서, MENβ 서열은 서열번호 8이다.
일부 실시양태에서, 삼중 나선은 후그스틴 염기 쌍형성을 통해 쌍을 이루는 4 내지 100개의 연속 아데노신(예를 들어, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 4 내지 80개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 4 내지 60개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 4 내지 50개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 4 내지 40개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 4 내지 30개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 4 내지 20개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 4 내지 18개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 4 내지 15개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 4 내지 12개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 4 내지 11개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 4 내지 10개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 4 내지 9개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 4 내지 8개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 4 내지 7개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 4 내지 6개의 연속 아데노신, 예를 들어, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 5 내지 50개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 5 내지 40개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 5 내지 30개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 5 내지 20개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 5 내지 18개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 5 내지 15개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 5 내지 12개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 5 내지 10개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 5 내지 9개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 5 내지 8개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 5 내지 7개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 5 내지 6개의 연속 아데노신, 예를 들어, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 6 내지 8개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 8 내지 10개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 10 내지 12개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 12 내지 14개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 14 내지 16개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 16 내지 18개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 18 내지 20개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 20 내지 30개의 연속 아데노신, 후그스틴 염기 쌍형성을 통해 쌍을 이루는 30 내지 40개의 연속 아데노신, 또는 후그스틴 염기 쌍형성을 통해 쌍을 이루는 40 내지 50개의 연속 아데노신)을 포함한다.
일부 실시양태에서, 삼중 나선은 뉴클레오타이드의 적어도 90%가 후그스틴 염기 쌍형성을 통해 쌍을 이루는(예를 들어, 뉴클레오타이드의 적어도 90%가 후그스틴 염기 쌍형성을 통해 쌍을 이루는, 뉴클레오타이드의 적어도 91%가 후그스틴 염기 쌍형성을 통해 쌍을 이루는, 뉴클레오타이드의 적어도 92%가 후그스틴 염기 쌍형성을 통해 쌍을 이루는, 뉴클레오타이드의 적어도 93%가 후그스틴 염기 쌍형성을 통해 쌍을 이루는, 뉴클레오타이드의 적어도 94%가 후그스틴 염기 쌍형성을 통해 쌍을 이루는, 뉴클레오타이드의 적어도 95%가 후그스틴 염기 쌍형성을 통해 쌍을 이루는, 뉴클레오타이드의 적어도 96%가 후그스틴 염기 쌍형성을 통해 쌍을 이루는, 뉴클레오타이드의 적어도 97%가 후그스틴 염기 쌍형성을 통해 쌍을 이루는, 뉴클레오타이드의 적어도 98%가 후그스틴 염기 쌍형성을 통해 쌍을 이루는, 뉴클레오타이드의 적어도 99%가 후그스틴 염기 쌍형성을 통해 쌍을 이루는, 또는 뉴클레오타이드의 100%가 후그스틴 염기 쌍형성을 통해 쌍을 이루는) 연속 뉴클레오타이드의 가닥을 포함한다.
도메인 2 - tRNA-유사 구조
본원에 기술된 tRNA-유사 구조는 tRNA-유사 클로버 2차 구조를 형성하여 RNase P, RNase Z 및 CCA-부가 효소 중 하나 이상에 의해 인식되도록 한 서열이다.
MALAT1의 tRNA-유사 구조는 mascRNA(MALAT1 관련 작은 세포질 RNA)라고 지칭된다. 이 서열은 61nt 길이이며 서열번호 9에 제시된다. mascRNA의 tRNA-유사 구조는 마우스와 인간 오솔로그(ortholog) 사이에 4개의 불일치가 클로버잎 2차 구조를 유지하기 때문에 진화를 통해 보존되었다. tRNA와 구조가 유사하고 잘 보존된 B-box를 함유하지만, 61-nt mascRNA 전사체는 대부분의 tRNA(~76-nt)보다 작고, 작은 비교적 덜 보존적인 안티코돈 루프를 갖는다. Wilusz 등, Cell. 2008 Nov 28; 135(5): 919-932, 본원에 참고로 포함됨. MENβ의 tRNA-유사 구조는 menRNA라고 지칭된다. 본원에 참고로 포함된 Zhang 등, 2017, Cell Reports 19, 1723-1738.
일 실시양태에서, tRNA-유사 구조는 lncRNA로부터 유래된다. 일 실시양태에서, tRNA-유사 구조는 MALAT1로부터 유래된다. MALAT1 서열은 진화적으로 고도로 보존되기 때문에, MALAT1 서열은 임의의 종에서 유래될 수 있다. 일 실시양태에서, MALAT1 서열은 인간에서 유래된다. 또 다른 실시양태에서, MALAT1 서열은 마우스에서 유래된다. 또 다른 실시양태에서, MALAT1 서열은 비-인간 영장류에서 유래된다. 또 다른 실시양태에서, MALAT1 서열은 개에서 유래된다. 또 다른 실시양태에서, MALAT1 서열은 코끼리에서 유래된다. 또 다른 실시양태에서, MALAT1 서열은 주머니쥐에서 유래된다. 또 다른 실시양태에서, MALAT1 서열은 어류에서 유래된다. 이러한 서열은 본 기술분야에 공지되어 있으며, 예를 들어 GenBank에서 찾아볼 수 있다.
다른 실시양태에서, tRNA-유사 서열은 이 서열이 요구되는 tRNA-유사 구조로 접히는 능력을 유지하는 한, 천연 서열의 절두된 또는 변형된 버전으로서 제공된다.
일 실시양태에서, tRNA-유사 구조는 MENβ으로부터 유래된다. MENβ 서열은 임의의 종에서 유래할 수 있다. 일 실시양태에서, MENβ 서열은 인간으로부터 유래한다. 또 다른 실시양태에서, MENβ 서열은 마우스로부터 유래한다. 또 다른 실시양태에서, MENβ 서열은 비-인간 영장류로부터 유래한다. 또 다른 실시양태에서, MENβ 서열은 개로부터 유래한다. 또 다른 실시양태에서, MENβ 서열은 코끼리로부터 유래한다. 또 다른 실시양태에서, MENβ 서열은 주머니쥐로부터 유래한다. 또 다른 실시양태에서, MENβ 서열은 어류로부터 유래한다. 이러한 서열은 본 기술분야에 공지되어 있으며, 예를 들어, GenBank에서 찾아볼 수 있다.
다른 실시양태에서, tRNA-유사 서열은 이 서열이 요구되는 tRNA-유사 구조로 접히는 능력을 유지하는 한, 천연 서열의 절두된 또는 변형된 버전으로서 제공된다.
TTD의 구성요소는 상이한 종의 lncRNA 동족체를 포함하여 동일하거나 상이한 lncRNA에서 기원할 수 있다. 예를 들어, 삼중 나선 도메인 및 tRNA-유사 도메인은 동일한 긴 비암호 RNA, 또는 인간 또는 임의의 다른 종으로부터 유래된 긴 비암호 RNA 도메인의 상이한 조합으로부터 기원할 수 있다. 일 실시양태에서, 삼중 나선 도메인 및 tRNA-유사 도메인은 MALAT1 또는 NEAT1/MENβ로부터 유래된다.
표적화된 유전자
표적화된 유전자는 안과 질환을 유발하는 하나 또는 다중 결함 또는 돌연변이를 함유하는 것이다. 본원에 기재된 일 실시양태에서, 표적화된 유전자는 질환 또는 장애를 유발하는 것으로 알려진 결함을 갖는 포유류 유전자이다.
유전자 및 암호화된 단백질의 야생형 서열 및/또는 게놈 서열 및 염색체 서열은 공개적으로 입수가능한 데이터베이스로부터 입수가능하고 그의 수탁 번호는 본원에 제공된다. 이러한 공개된 서열 외에, 향후에 수득되는 모든 교정물 또는 인간 또는 다른 포유류 집단에서 발생하는 자연 발생의 보존적 및 질환 유발성이 아닌 변이체 서열도 포함된다. 또한, 보존적 뉴클레오타이드 대체물 또는 코돈 최적화를 유발하는 대체물도 포함된다. 데이터베이스 수탁 번호에 의해 제공된 바와 같은 서열도 동일하거나 또 다른 포유류 유기체에서의 상동성 서열을 검색하는 데 사용될 수 있다.
표적 안구 핵산 서열 및 본원에서 식별된 최종 생성된 단백질 절두체 또는 아미노산 단편은 핵산 수준에서 특정 사소한 변형을 허용하여, 예를 들어, 침묵하는 뉴클레오타이드 염기에 대한 변형, 예를 들어 선호 코돈을 포함할 수 있을 것으로 예상된다. 다른 실시양태에서, 예를 들어, 최종 생성된 펩타이드/단백질의 발현을 개선하기 위해, 아미노산을 변화시키는 핵산 염기 변형이 예상된다. 또한, 단편의 변형 가능성이 있는 것으로서, 유전자 암호의 자연 축퇴로 인한 대립유전자 변이도 포함된다.
또한, 선택된 유전자의 변형으로서, 본원에 제공된 암호화된 단백질 단편의 유사체 또는 변형된 버전도 포함된다. 전형적으로, 이러한 유사체는 단지 1 내지 4개의 코돈 변화에 의해 특이적으로 식별된 단백질과 상이하다. 보존적 대체는 측쇄 및 화학적 특성에 관련이 있는 아미노산 계열 내에서 일어나는 대체이다.
정상 유전자를 암호화하는 핵산 서열은 그 유전자 또는 이의 상동체를 천연적으로 발현하는 임의의 포유류로부터 유래될 수 있다. 또 다른 실시양태에서, 유전자 서열은 조성물이 치료하고자 하는 동일한 포유류로부터 유래된다. 또 다른 실시양태에서, 유전자 서열은 인간으로부터 유래된다. 다른 실시양태에서는 표적 세포에서 발현을 향상시키기 위해 유전자 서열에 특정 변형이 이루어진다. 이러한 변형으로는 코돈 최적화를 포함한다.
일 실시양태에서, 유전자는 스타가르트 질환에서 나타나는 ABCA4이다. 이 유전자에 대한 DNA의 게놈 서열은 NG_009073.1에서 염색체 1에 대한 NCBI 참조 서열(135313 bp) 중에서 찾아볼 수 있다. 이 유전자의 mRNA 뿐만 아니라 엑손의 위치는 NCBI 보고서에 나와 있다. ABCA4의 DNA 서열은 NCBI 참조 서열: NM_000350.2로서 제공된다. 아미노산 서열은 NCBI 참조 서열: NP000341.2로서 제공된다.
또 다른 실시양태에서, 유전자는 CEP290이다. 레베르 선천성 흑암시는 시력 상실, 안진 및 심각한 망막 기능장애를 특징으로 하는 조기 발병 아동 망막 이영양증 그룹을 포함한다. 환자는 보통 출생 시 심각한 시력 상실과 진자 안진을 동반한다. 망막전위도(ERG) 반응은 일반적으로 기록될 수 없다. 다른 임상 소견으로는 높은 원시, 광위감, 눈비빔 징후, 원추 각막, 백내장 및 다양한 안저 모양이 포함될 수 있다. LCA10은 염색체 12q21 상의 CEP290 유전자 중 돌연변이로 인해 발생하며, LCA 사례의 21%를 차지할 수 있다. CEP290의 돌연변이는 또한 신장 및 CNS 이상을 포함한 안구외 소견을 초래할 수 있으며, 따라서 증후군(Senior Loken 증후군, Joubert 증후군, Bardet-Biedl)을 초래할 수 있다.
이 유전자에 대한 DNA의 게놈 서열은 NC_000012.12에서 nt. 88049013-88142216(93,204bp)으로부터 염색체 12에 대한 NCBI 참조 서열 중에서 찾아볼 수 있다. mRNA와 엑손은 NCBI 보고서에서 확인된다. CEP290의 DNA 서열은 NCBI 참조 서열: NM_025114.3으로서 제공된다. 아미노산 서열은 NCBI 참조 서열: NP0789390.3으로서 제공된다. mRNA는 54개의 엑손과 59개의 인트론(대안적 스플라이싱으로 인해)을 함유한다. CEP290의 많은 돌연변이 및 뉴클레오타이드 서열에서의 위치는 공지되어 있다.
또 다른 실시양태에서, 유전자는 MYO7A이다. 이 유전자의 돌연변이는 어셔 증후군과 관련이 있다. 어셔 증후군은 청력 상실과 진행성 시력 상실을 특징으로 하는 상태이다. 시력 상실은 빛에 민감한 망막 층에 영향을 미치는 색소성 망막염(RP)이라는 눈 질환으로 인해 발생한다. 망막의 빛을 감지하는 세포가 점차 악하될 때 시력 상실이 발생한다. 시간이 지남에 따라 이러한 맹점은 확대되고 합쳐져 터널 시각을 생성한다. 어셔 증후군의 일부 경우에는 수정체가 흐려져 시력이 더욱 손상된다(백내장). 하지만, 색소성 망막염이 있는 많은 사람들은 일생 동안 일부 중심 시력을 유지한다. 청력 상실은 달팽이관 유모 세포의 질환으로 인해 유발되며, 이 또한 점차 악화된다. 어셔 증후군 I형은 CDH23, MYO7A, PCDH15, USH1C 또는 USH1G 유전자의 돌연변이로 인해 발생할 수 있다.
어셔 증후군 1B형을 가진 사람에서는 MYO7A 유전자에 250개가 넘는 돌연변이가 확인되었다. 이러한 유전자 변화의 대부분은 미오신 VIIA 단백질의 중요한 영역에서 단일 단백질 빌딩 블록(아미노산)을 변경시킨다. 다른 돌연변이는 미오신 VIIA 단백질에 대한 명령에서 조기 정지 신호를 도입시킨다. 결과적으로, 이 단백질의 비정상적으로 작은 버전이 만들어진다. 일부 돌연변이는 MYO7A 유전자에 소량의 DNA를 삽입하거나 결실시키고, 이는 단백질을 변경시킨다. 이러한 모든 변화는 내이 및 망막에 있는 세포의 발달과 기능에 부정적인 영향을 미치는 비기능적 미오신 VIIA 단백질의 생산을 유발하여 어셔 증후군을 초래한다.
이 유전자에 대한 DNA의 게놈 서열은 NC_000011.9에서 nt. 77,128,255부터 77,215,240(86,986bp)까지의 염색체 11에 대한 NCBI 참조 서열에서 찾아볼 수 있다. MYO7A의 DNA 서열은 NCBI 참조 서열: NM_000260.3으로서 제공된다. 아미노산 서열은 NCBI 참조 서열: NP 000251.1로서 제공된다. DNA 서열, 아미노산 서열, 엑손 서열 및 인트론 서열은 2010년 2월 17일에 마지막으로 수정된 https://grenada.lumc.nl/LOVD2/Usher_montpellier/refseq/MYO7A_codingDNA.html에서 온라인으로 MYO7A에 대해 제공된다. mRNA는 49개의 엑손과 61개의 인트론을 함유한다. MYO7A의 많은 돌연변이는 CCHMC Molecular Genetics Laboratory Mutation Database, LOVD v.2.0에서 찾아볼 수 있다.
RTM 표적 유전자 암호 서열
일 실시양태에서, 암호 도메인은 질환-유발 돌연변이가 없는 정상 야생형 서열, 예를 들어 ABCA4의 엑손 27을 함유하는 표적 유전자의 단일 엑손이다. 또 다른 실시양태에서, 암호 도메인은 질병을 유발하는 다중 돌연변이를 함유하는 다중 엑손, 예를 들어 ABCA4의 엑손 1-22를 포함한다. 교정하려는 엑손의 위치에 따라, RTM은 표적 유전자의 5' 또는 3' 단부에 위치한 디중 엑손을 함유할 수 있거나, 또는 RTM은 유전자 중간에 있는 엑손을 대체하도록 설계될 수 있다. rAAV에서의 사용 및 전달을 위해, 이 기술이 3000개 미만의 뉴클레오타이드 길이의 작은 유전자에 대한 것이 아닌 한, 그 유전자의 전체 암호 서열은 RTM의 암호 도메인으로서 유용하지 않다. 본원에 기재된 바와 같이, 전체 대형 유전자를 대체하기 위해서는 2개의 RTM, 3' 및 5' RTM이 상이한 rAAV 입자에 이용될 수 있다.
일 실시양태에서, 5' RTM의 암호 도메인은 표적화된 유전자의 5' 부분에서 엑손을 대체하도록 설계된다. 또 다른 실시양태에서, 3' RTM의 암호 도메인은 유전자의 3' 부분에서 엑손을 대체하도록 설계된다. 또 다른 실시양태에서, 암호 도메인은 유전자 내부에 위치한 하나 또는 다중 엑손이고 암호 도메인은 이중 트랜스-스플라이싱 RTM에 위치한다.
따라서, 예를 들어, 3가지 가능한 유형의 RTM이, 예를 들어, ABCA4에서의 결함으로 인한 질환을 치료하는데 유용하다: 5' 스플라이스 부위를 포함하는 5' 트랜스-스플라이싱 RTM. 트랜스-스플라이싱 후, 5' RTM은 표적 mRNA의 5' 영역을 변화시켰을 것이다; 트랜스-스플라이스하고 표적 mRNA의 3' 영역을 대체하는데 사용되는 3' 스플라이스 부위를 포함하는 3' RTM; 및 3' 및 5' 스플라이스 부위와 함께 다중 결합 도메인을 운반하는 이중 트랜스-스플라이싱 RTM. 트랜스-스플라이싱 후, 이 RTM은 프로세싱된 표적 mRNA에서 내부 엑손을 대체한다. 다른 실시양태에서, 암호 도메인은 유전자 발현을 감소시키기 위해 자연 발생적 또는 인공적으로 도입된 정지 코돈을 포함하는 엑손을 포함할 수 있고; 또는 RTM은 RNAi 유사 효과를 생성하는 다른 서열을 함유할 수 있다.
스타가르트 질환의 치료에 사용하기 위한 ABCA4의 적합한 암호 영역은 별도의 RTM 중 엑손 1-22 또는 27-50이다. LCA10 치료에 사용하기 위한 CEP290의 적합한 암호 영역은 별도의 RTM 중 엑손 1-26 또는 엑손 27-54이다. 어셔 증후군 치료에 사용하기 위한 MYO7A의 적합한 암호 영역은 별도의 RTM 중 엑손 1-18 또는 33-49이다.
RTM의 선택적 구성요소 또는 변형
선택적 스페이서 영역은 RTM의 표적 결합 도메인으로부터 스플라이싱 도메인을 분리하는 데 사용될 수 있다. 스페이서 영역은 (i) 임의의 스플라이싱되지 않은 RTM의 해독을 차단하는 기능을 하는 정지 코돈 및/또는 (ii) 표적 pre-mRNA에 대한 트랜스-스플라이싱을 향상시키는 서열과 같은 특징을 포함하도록 설계될 수 있다. 스페이서는 RTM의 다른 구성요소의 길이 및 rAAV 한계에 따라 3 내지 25개 뉴클레오타이드 또는 그 이상일 수 있다. 일 실시양태에서 적합한 5' RTM 스페이서는 AGA TCT CGT TGC GAT ATT AT 서열번호 10이다. 일 실시양태에서 적합한 3' 스페이서는 다음과 같다: 5'-GAG AAC ATT ATT ATA GCG TTG CTC GAG-3' 서열번호 11.
RTM의 또 다른 선택적 구성요소는 미니 인트론, 및 트랜스-스플라이싱을 조절할 수 있는 인트론 또는 엑손의 인핸서 또는 사일런서(silencer)를 포함한다(예를 들어, 본원에 인용된 RTM 기술 간행물의 설명 참조).
또 다른 실시양태에서, RTM은 비특이적 트랜스-스플라이싱을 방지하기 위해 RTM 중 스페이서, 결합 도메인, 또는 그 외 다른 곳에 혼입되는 적어도 하나의 안전 서열을 추가로 포함한다. 이것은 비교적 약한 상보성에 의해 RTM의 3' 및/또는 5' 스플라이스 부위의 요소를 커버하는 RTM의 영역으로서, 비특이적 트랜스-스플라이싱을 방지한다. RTM은 RTM의 결합/표적화 부분(들)의 혼성화 시에, 3' 및/또는 5' 스플라이스 부위가 드러나 완전히 활성화되는 방식으로 설계된다. 이러한 "안전" 서열은 RTM 분지점, 피리미딘 트랙트, 3' 스플라이스 부위 및/또는 5' 스플라이스 부위(스플라이싱 요소)의 일측 또는 양측에 결합하거나, 또는 스플라이싱 요소 자체의 일부에 결합할 수 있는, 시스-서열의 상보적 스트레치(또는 제2의 별도의 핵산 가닥일 수 있음)를 포함한다. "안전" 서열의 결합은 표적 pre-mRNA에 RTM의 표적 결합 영역의 결합에 의해 붕괴되어, RTM 스플라이싱 요소를 노출 및 활성화시킬 수 있다(표적 pre-mRNA에 트랜스-스플라이스할 수 있도록 함). 다른 실시양태에서, RTM은 3 또는 5' 단부에 첨가된 3'UTR 서열 또는 리보자임 서열을 갖는다.
일 실시양태에서, 예를 들어, 엑손 스플라이싱 인핸서로 지칭되는 서열과 같은 스플라이싱 인핸서는 또한 합성 RTM의 구조에 포함될 수도 있다. 이 RTM 분자에는 RNA 발현/안정성을 변형시키는 폴리아데닐화 신호, 또는 스플라이싱을 향상시키기 위한 5' 스플라이스 서열, 추가 결합 영역, "안전"-자가 상보성 영역, 추가 스플라이스 부위, 또는 분자의 안정성을 조절하고 분해를 방지하기 위한 보호기와 같은 추가 특징들이 추가될 수 있다. 또한, 이 RTM 구조에는 스플라이스되지 않은 RTM의 해독을 방지하기 위해 정지 코돈이 포함될 수 있다. 3' 헤어핀 구조, 원형화된 RNA, 뉴클레오타이드 염기 변형 또는 합성 유사체와 같은 추가 요소들도 RTM에 혼입되어 핵 국재화 및 스플라이세오솜 혼입 및 세포내 안정성을 촉진하거나 용이하게 할 수 있다.
표적 pre-mRNA에 대한 RTM 핵산 분자의 결합은 상보성(즉, 핵산의 염기-쌍형성 특성을 기반으로 함), 삼중 나선 형성 또는 단백질-핵산 상호작용(본원에 인용된 문서에 기술됨)에 의해 매개된다. 일 실시양태에서, RTM 핵산 분자는 DNA, RNA 또는 DNA/RNA 혼성 분자로 이루어지며, 여기서 DNA 또는 RNA는 단일 가닥 또는 이중 가닥이다. 또한, 전술한 RNA 또는 DNA 중 하나에, 바람직하게는 엄중한 조건 하에, 예를 들어, 2.5XSSC 완충액 중 60℃에서 혼성화 및 더 낮은 농도의 완충액, 예를 들어 0.5xSSC 완충액으로 37℃에서 수회 세척 하에 혼성화하며, 지질 포스페이트 포스파타제 활성 및/또는 원형질막과의 결합을 나타내는 단백질을 암호화하는 RNA 또는 DNA도 포함된다. RTM이 시험관내에서 합성되는 경우(합성 RTM), 이러한 RTM은, 예를 들어, 분자의 안정성, 표적 mRNA에 대한 혼성화, 세포 내로의 수송, 효소 절단에 대한 세포에서의 안정성 등을 개선시키기 위해, 염기 모이어티, 당 모이어티, 또는 인산염 백본에서 변형될 수 있다. 예를 들어, 전체 전하를 감소시키는 RTM의 변형은 분자의 세포 흡수를 향상시킬 수 있다. 또한, 뉴클레아제 또는 화학적 분해에 대한 감수성을 감소시키는 변형도 이루어질 수 있다. 핵산 분자는 다른 분자, 예를 들어 펩타이드, 혼성화 유발 가교제, 수송제, 혼성화 유발 절단제 등에 접합되도록 합성될 수 있다.
핵산 분자에 대한 다양한 다른 공지된 변형은 세포내 안정성 및 반감기를 증가시키는 수단으로서 도입될 수 있다(올리고뉴클레오타이드에 대한 상기 설명 참조). 가능한 변형은 본 기술분야에 알려져 있다(본원에 인용된 문서 참조). 합성 RTM의 구조에 이루어질 수 있는 변형은 인용된 RTM 기술 문서에 설명된 것과 같은 백본 변형을 포함하지만, 이에 제한되지는 않는다.
재조합 AAV 분자
표적 세포에 RTM을 전달하기 위해 의도된, RTM 및 재조합 아데노 관련 바이러스(AAV)의 구성요소를 설계 및 어셈블리하기 위한 이들 방법에는 다양한 공지된 핵산 벡터가 사용될 수 있다. 본 기술분야의 기술자에게 공지된 다수의 간행물은 유전자 전달을 위한 다양한 이러한 벡터의 사용을 논의한다(예를 들어, Ausubel 등, Current Protocols in Molecular Biology, John Wiley & Sons, New York, 1989; Kay, M.A. 등, 2001 Nat. Medic., 7(1):33to40; 및 Walther W. 및 Stein U., 2000 Drugs, 60(2):249to71). 본원에 기재된 일 실시양태에서 벡터는 RTM을 운반하고 영향을 받은 대상체의 선택된 표적 세포에서 RTM을 발현하는 프로모터에 의해 구동되는 재조합 AAV이다. 재조합 벡터의 어셈블리 방법은 잘 알려져 있다(예를 들어, 2000년 3월 23일에 공개된 국제 특허 공개 번호 WO 00/15822, 및 본 명세서에 인용된 다른 참고문헌 참조).
본원에 기재된 특정 실시양태에서, 선택된 유전자 결합 및 암호 서열을 운반하는 RTM(들)은 아데노 관련 바이러스 벡터에 의한 치료를 필요로 하는 표적 세포, 예를 들어 광수용체 세포로 전달된다. 많은 자연 발생의 AAV 혈청형이 이용가능하다. AAV 캡시드에는 많은 천연 변이체가 존재하여, 안구 세포에 특히 적합한 특성을 가진 AAV를 식별하여 사용할 수 있다. AAV 바이러스는 기존의 분자 생물학 기술에 의해 조작될 수 있어, RTM 핵산 서열의 세포 특이적 전달, 면역원성 최소화, 안정성 및 입자 수명 조정, 효율적인 분해, 핵으로의 정확한 전달 등을 위해 이러한 입자를 최적화할 수 있게 한다.
본원에 기재된 RTM의 발현은 원하는 RTM을 암호화하는 서열을 함유하는 재조합적으로 조작된 AAV 또는 인공 AAV에 의한 전달을 통해 선택된 세포에서 달성될 수 있다. AAV의 사용은, 비교적 독성이 없고 효율적인 유전자 전달을 제공하며 특정 목적에 쉽게 최적화될 수 있기 때문에 DNA의 외인성 전달의 일반적인 방식이다. 인간 또는 비인간 영장류(NHP)에서 단리되고 잘 특성화된 AAV의 혈청형 중에서, 인간 혈청형 2는 상이한 표적 조직 및 동물 모델에서 효율적인 유전자 전달 실험에 널리 사용되고 있다. 다른 AAV 혈청형은 AAV1, AAV3, AAV4, AAV5, AAV6, AAV7, AAV8 및 AAV9를 포함하지만, 이에 제한되지 않는다. 달리 명시되지 않는 한, 본 명세서에 기재된 AAV ITR 및 기타 선택된 AAV 구성요소는 AAV1, AAV2, AAV3, AAV4, AAV5, AAV6, AAV7, AAV8, AAV9, AAVrh.10, AAV8bp, AAV7m8 또는 기타 알려진 AAV 혈청형 및 알려지지 않은 AAV 혈청형을 제한없이 포함하는 임의의 AAV 혈청형 중에서 쉽게 선택될 수 있다. 이들 ITR 또는 다른 AAV 구성요소는 AAV 혈청형으로부터 본 기술분야의 기술자에게 이용가능한 기술을 사용하여 용이하게 단리될 수 있다. 이러한 AAV는 학문적, 상업적 또는 공공 출처(예를 들어, 버지니아주 마나사스에 소재하는 미국모식균배양수집소(American Type Culture Collection))에서 단리되거나 수득될 수 있다. 대안적으로, AAV 서열은 문헌 또는 예를 들어, GenBank, PubMed 등과 같은 데이터베이스에서 입수가능한 것과 같은 공개된 서열을 참조하여 합성 또는 다른 적절한 수단을 통해 수득할 수 있다. 다양한 AAV 혈청형에 대한 논의는 예를 들어, 본원에 참고로 포함되는 WO 2005/033321 또는 WO2014/124282를 참조한다.
벡터 내에 조립하기에 바람직한 AAV 단편은 vp1, vp2, vp3 및 초가변 영역을 포함하는 cap 단백질, rep 78, rep 68, rep 52 및 rep 40을 포함하는 rep 단백질, 및 이들 단백질을 암호화하는 서열을 포함한다. 이들 단편은 다양한 벡터 시스템 및 숙주 세포에서 용이하게 활용될 수 있다. 이러한 단편은 단독으로, 다른 AAV 혈청형 서열 또는 단편과 조합으로, 또는 다른 AAV 또는 비-AAV 바이러스 서열로부터의 요소와 조합으로 사용될 수 있다. 본원에 사용된 인공 AAV 혈청형은 제한없이 비-천연 발생의 캡시드 단백질을 갖는 AAV를 포함한다. 이러한 인공 캡시드는 선택된 AAV 서열(예를 들어, vp1 캡시드 단백질의 단편)을 다른 선택된 AAV 혈청형, 동일한 AAV 혈청형의 비인접 부분, 비-AAV 바이러스 공급원, 또는 비-바이러스 공급원으로부터 수득할 수 있는 이종 서열과 조합으로 사용하여, 임의의 적합한 기술에 의해 생성될 수 있다. 인공 AAV 혈청형은 제한 없이 위형(pseudotyped) AAV, 키메라 AAV 캡시드, 재조합 AAV 캡시드, 또는 "인간화" AAV 캡시드일 수 있다. 하나의 AAV의 캡시드가 이종 캡시드 단백질로 대체된 위형 벡터가 본 발명에 유용하다. 일 실시양태에서, AAV2/5는 유용한 위형 벡터이다. 또 다른 실시양태에서, AAV는 AAV2/8이다.
일 실시양태에서, 본원에 기재된 조성물 및 방법을 제조하는 데 유용한 벡터는 선택된 AAV 혈청형 캡시드, 예를 들어, AAV2 캡시드 또는 이의 단편을 암호화하는 서열을 최소한 함유한다. 또 다른 실시양태에서, 유용한 벡터는 선택된 AAV 혈청형 rep 단백질, 예를 들어, AAV2 rep 단백질, 또는 이의 단편을 암호화하는 서열을 최소한 함유한다. 선택적으로, 이러한 벡터는 AAV 캡 및 rep 단백질을 모두 함유할 수 있다. AAV rep 및 cap 모두가 제공된 벡터에서, AAV rep 및 AAV cap 서열은 둘 모두가 하나의 혈청형 기원, 예를 들어 모두 AAV2 기원인 것일 수 있다. 대안적으로, rep 서열이 cap 서열을 제공하는 것과 상이한 AAV 혈청형으로부터 유래된 벡터가 사용될 수 있다. 일 실시양태에서, rep 및 cap 서열은 별도의 공급원(예를 들어, 별도의 벡터, 또는 숙주 세포 및 벡터)으로부터 발현된다. 또 다른 실시양태에서, 이들 rep 서열은 상이한 AAV 혈청형의 cap 서열에 프레임내 융합되어, 본원에 참고로 포함되는 미국 특허 제7,282,199호에 기재된 AAV2/8과 같은 키메라 AAV 벡터를 형성한다.
적합한 재조합 아데노 관련 바이러스(AAV)는 본원에 정의된 바와 같은 아데노 관련 바이러스(AAV) 혈청형 캡시드 단백질 또는 이의 단편을 암호화하는 핵산 서열; 기능적 rep 유전자; 최소한 AAV 역 말단 반복부(ITR) 및 RTM 핵산 서열로 구성된 미니유전자; 및 AAV 캡시드 단백질 내로 미니유전자의 패키징을 허용하기에 충분한 헬퍼 기능을 함유하는 숙주 세포를 배양하여 생성한다. AAV 캡시드에 AAV 미니유전자를 패키징하기 위해 숙주 세포에서 배양되는데 필요한 구성요소는 트랜스로 숙주 세포에 제공될 수 있다. 대안적으로, 임의의 하나 이상의 필수 구성요소(예를 들어, 미니유전자, rep 서열, cap 서열 및/또는 헬퍼 기능)는 본 기술분야의 기술자에게 공지된 방법을 사용하여 하나 이상의 필수 구성요소를 함유하도록 조작된 안정한 숙주 세포에 의해 제공될 수 있다.
일 실시양태에서, rAAV는 프로모터(또는 프로모터의 기능적 단편)를 포함한다. rAAV에 이용되는 프로모터의 선택은 원하는 표적 세포에서 선택된 전이유전자(transgene)를 발현할 수 있는 광범위한 수의 구성적 또는 유도성 프로모터 중에서 이루어질 수 있다. 예를 들어, 2014년 8월 14일자로 공개된 국제 특허 공개 번호 WO2014/12482에서 확인되는 프로모터 목록을 참조한다. 일 실시양태에서, 프로모터는 "세포 특이적"이다. 용어 "세포 특이적"은 재조합 벡터를 위해 선택된 특정 프로모터가 특정 세포 또는 안구 세포 유형에서 선택된 전이유전자의 발현을 유도할 수 있음을 의미한다. 일 실시양태에서, 프로모터는 광수용체 세포에서 전이유전자의 발현에 특이적이다. 또 다른 실시양태에서, 프로모터는 간상체 및/또는 원추체에서의 발현에 특이적이다. 또 다른 실시양태에서, 프로모터는 RPE 세포에서 전이유전자의 발현에 특이적이다. 또 다른 실시양태에서, 프로모터는 신경절 세포에서 전이유전자의 발현에 특이적이다. 또 다른 실시양태에서, 프로모터는 뮐러 세포에서 전이유전자의 발현에 특이적이다. 또 다른 실시양태에서, 프로모터는 양극성 세포에서 전이유전자의 발현에 특이적이다. 또 다른 실시양태에서, 전이유전자는 임의의 상기 언급된 안구 세포에서 발현된다.
또 다른 실시양태에서, 프로모터는 발현될 표적 안구 유전자에 대한 천연 프로모터이다. 유용한 프로모터는 간상 옵신 프로모터, 적색-녹색 옵신 프로모터, 청색 옵신 프로모터, cGMP-β-포스포디에스터라제 프로모터, 마우스 옵신 프로모터(상기 인용된 Beltran 등 2010), 로돕신 프로모터(Mussolino 등, Gene Ther, July 2011, 18(7):637-45); 원추 트랜스듀신의 알파-서브유닛(Morrissey 등, BMC Dev, Biol, Jan 2011, 11:3); 베타 포스포디에스터라제(PDE) 프로모터; 색소성 망막염(RP1) 프로모터(Nicord 등, J. Gene Med, Dec 2007, 9(12):1015-23); NXNL2/NXNL1 프로모터(Lambard 등, PLoS One, Oct. 2010, 5(10):e13025), RPE65 프로모터; 망막 변성 슬로우/페리페린 2(Rds/perph2) 프로모터(Cai 등, Exp Eye Res. 2010 Aug;91(2):186-94); 및 VMD2 프로모터(Kachi 등, Human Gene Therapy, 2009(20:31-9))를 제한없이 포함한다. 이들 문서 각각은 본원에 참고로 포함된다.
미니-유전자 또는 rAAV에 함유된 다른 통상적인 조절 서열은 WO2014/124282 및 본원에 참고로 인용되고 포함된 다른 문서와 같은 문서에도 개시되어 있다. 본 기술분야의 기술자는 본원에 기술된 범위를 벗어남이 없이, 이들 및 다른 발현 조절 서열 중에서 선택할 수 있다.
바람직한 AAV 미니유전자는 최소한 본원에 기술된 RTM 및 이의 조절 서열, 5' 및 3' AAV 역 말단 반복부(ITR)로 구성된다. 일 실시양태에서, AAV 혈청형 2의 ITR이 사용된다. 또 다른 실시양태에서, AAV 혈청형 5 또는 8의 ITR이 사용된다. 그러나, 다른 적합한 혈청형의 ITR이 선택될 수도 있다. AAV 캡시드에 패키징되어, 선택된 숙주 세포에 전달되는 것은 이 미니유전자이다.
rAAV를 생산하는 데 필요한 미니유전자, rep 서열, cap 서열, 및 헬퍼 기능은 운반되는 서열을 전달하는 임의의 유전자 요소의 형태로 패키징 숙주 세포에 전달될 수 있다. 선택된 유전자 요소는 본원에 기재된 방법을 비롯한 임의의 적합한 방법에 의해 전달될 수 있다. 본원에 기재된 임의의 실시양태를 작제하기 위해 사용되는 방법은 핵산 조작의 숙련가에게 공지되어 있으며 유전 공학, 재조합 공학 및 합성 기술을 포함한다. 예를 들어, Sambrook 등, Molecular Cloning: A Laboratory Manual, Cold Spring Harbor Press, Cold Spring Harbor, NY 참조. 이와 유사하게, rAAV 비리온을 생성하는 방법은 잘 알려져 있고 적절한 방법의 선택은 본 발명에 대한 제한이 아니다. 특히, K. Fisher 등, 1993 J. Virol., 70:520to532 및 미국 특허 제5,478,745호 참조. 이들 간행물은 본 명세서에 참고로 포함된다.
적합한 생산 세포주는 본 기술분야의 기술자에 의해 쉽게 선택된다. 예를 들어, 적합한 숙주 세포는 원핵(예를 들어, 박테리아) 세포, 및 곤충 세포, 효모 세포 및 포유류 세포를 포함하는 진핵 세포를 비롯한 임의의 생물학적 유기체로부터 선택될 수 있다. 간단히 설명하면, 미니유전자를 운반하는 AAV 생산 플라스미드는 일시적으로 존재할 수 있는 선택된 패키징 세포 내로 형질감염된다. 대안적으로, 측면 ITR을 갖는 미니유전자 또는 유전자 발현 카세트는 숙주 세포의 게놈 내로 염색체적으로 또는 에피솜으로서 안정적으로 통합된다. 적합한 형질감염 기술은 공지되어 있으며 재조합 AAV 게놈을 숙주 세포로 전달하는데 용이하게 활용될 수 있다. 전형적으로, 생산 플라스미드는 cap 및/또는 rep 단백질을 발현하는 숙주 세포에서 배양된다. 숙주 세포에서, AAV ITR이 측면에 있는 RTM으로 구성된 미니유전자는 구조되고 캡시드 단백질 또는 엔벨로프 단백질에 패키징되어 감염성 바이러스 입자를 형성한다. 따라서, 재조합 AAV 감염성 입자는 유전자 발현 카세트 바이러스 게놈을 감염성 AAV 엔벨로프 또는 캡시드 내로 패키징하기에 충분한 바이러스 서열의 존재 하에 프로바이러스 플라스미드를 운반하는 패키징 세포를 배양함으로써 생산된다.
약제학적 담체 및 약제학적 조성물
선택된 표적 세포, 예를 들어, 상기에 상세히 설명된 스타가르트 질환의 치료를 위한 광수용체 세포에 사용하기에 바람직한 RTM 미니유전자를 함유하는 재조합 바이러스 벡터, 예를 들어 AAV를 함유하는 본원에 기재된 조성물은 바람직하게는 통상적인 방법에 의해 오염에 대해 평가되고, 그 다음 적절한 투여 경로로 의도된 약제학적 조성물로 제형화된다. 예를 들어, 네이키드 DNA 또는 단백질로서, RTM을 함유하는 또 다른 조성물은 적합한 담체와 함께 유사하게 제형화될 수 있다. 이러한 제형은 특히 표적 세포에 투여하도록 유도된 약제학적 및/또는 생리학적으로 허용되는 비히클 또는 담체의 사용을 수반한다. 일 실시양태에서, 눈의 세포에 투여하기에 적합한 담체는 완충 식염수, 등장성 염화나트륨 용액, 또는 적절한 생리학적 수준에서 pH를 유지하기 위한 기타 완충액, 예를 들어 HEPES, 및 선택적으로, 기타 의약 제제, 약제학적 제제, 안정화제, 완충액, 담체, 보조제, 희석제 등을 포함한다.
주사제의 경우, 담체는 전형적으로 액체일 것이다. 예시적인 생리학적 허용성 담체는 멸균된, 발열원-없는 물 및 멸균된, 발열원-없는 인산염 완충 식염수를 포함한다. 이러한 공지된 다양한 담체는 본 명세서에 참고로 포함된 미국 특허 제7,629,322호에 제공되어 있다. 일 실시양태에서, 담체는 등장성 염화나트륨 용액이다. 또 다른 실시양태에서, 담체는 평형염 용액이다. 일 실시양태에서, 담체는 tween을 포함한다. 바이러스가 장기간 보관되어야 하는 경우, 글리세롤 또는 Tween20의 존재 하에 동결될 수 있다.
다른 실시양태에서, 예를 들어 본원에 기재된 RTM을 함유하는 조성물은 계면활성제를 포함한다. Pluronic F68((Poloxamer 188), Lutrol® F68로도 알려짐)과 같은 유용한 계면활성제는 AAV가 불활성 표면에 점착하지 않게 방지하여 바람직한 용량의 전달을 보장하기 때문에 포함될 수 있다.
일 예로서, 본원에 기재된 안구 질환의 치료를 위해 설계된 하나의 예시적인 조성물은 포유류 대상체의 안구 세포에서 RTM을 발현하는 조절 서열의 제어 하에 본원에 기재된 바와 같은 3'RTM을 암호화하는 핵산 서열을 운반하는 재조합 아데노 관련 벡터 및 약제학적 허용성 담체를 포함한다. 담체는 등장성 염화나트륨 용액이며 계면활성제 Pluronic F68을 포함한다. 일 실시양태에서, RTM은 실시예에 기술된 것이다. 또 다른 실시양태에서, RTM은 CEP290 또는 MYO7A에 대한 결합 및 암호 영역을 함유한다.
또 다른 예시적 실시양태에서, 조성물은 표적 세포에서 RTM의 발현을 유도하는 프로모터의 제어 하에 핵산 서열을 둔, 내부 유전자 교체를 위한 3' 또는 5' 또는 RTM을 운반하는 재조합 AAV2/5 위형 아데노 관련 바이러스를 포함하고, 여기서, 조성물은 주사에 적합한 담체 및 추가 성분과 함께 제형화된다.
또 다른 실시양태에서, 조성물 또는 이 조성물의 생산 또는 어셈블리를 위한 구성요소, 예를 들어, 담체, rAAV 입자, 계면활성제, 및/또는 rAAV를 생성하기 위한 구성요소, 뿐만 아니라 조성물 제조에 적합한 실험실 하드웨어는 키트에 혼입될 수 있다.
장애를 치료하는 방법
따라서, 전술한 조성물은 선택된 유전자와 관련된 하나 이상의 질환을 치료하는 방법에 유용하다. 일 실시양태에서, 질환은 안구 질환(예를 들어, 특히 스타가르트 질환, 레베르 선천성 흑암시, 원추 간상체 이영양증, 황반 안저, 색소성 망막염, 연령 관련 황반 변성, 시니어 로켄 증후군, 주베르 증후군, 또는 어셔 증후군)이다. 일 실시양태에서, 치료는 본원에 기술된 안구 질환과 관련된 증상을 지연시키거나 또는 개선시키는 것을 포함한다. 이러한 방법은 표적 pre-mRNA(예를 들어, ABCA4, CEP290, MYO7A)를 3'RTM, 5'RTM, 또는 3' 및 5'RTM 모두 중 하나 이상, 또는 본원에 기재된 이중 트랜스-스플라이싱 RTM과, 이 RTM의 일부가 표적 pre-mRNA에 스플라이스되어 하나 이상의 결함 또는 돌연변이를 운반하는 표적화된 유전자 전부 또는 일부를 표적화된 유전자의 "건강한", 또는 정상 또는 야생형 또는 교정된 mRNA로 교체하는 조건 하에 접촉시켜, 표적 세포 내 해당 유전자의 발현을 교정하는 것을 수반한다. 대안적으로, 표적 mRNA의 발현을 감소시키도록 설계된 pre-miRNA(본원에 인용된 RTM 문서 참조)가 형성될 수 있다. 따라서, 방법 및 조성물은 특정 돌연변이 및/또는 유전자 발현과 관련된 안구 질환/병리를 치료하는 데 사용된다.
일 실시양태에서, 접촉은 영향을 받는 대상체에 대한 직접 투여를 수반하고; 또 다른 실시양태에서, 접촉은 대상체에 재이식되는 처리된 세포 및 배양된 세포에 대해 생체외에서 일어날 수 있다. 일 실시양태에서, 방법은 3' RTM을 운반하는 rAAV 입자를 투여하는 것을 수반한다. 또 다른 실시양태에서, 방법은 5' RTM을 운반하는 rAAV 입자를 투여하는 것을 수반한다. 또 다른 실시양태에서, 방법은 이중 트랜스-스플라이싱 RTM을 운반하는 rAAV 입자를 투여하는 것을 수반한다. 또 다른 실시양태에서, 방법은 3' RTM을 운반하는 rAAV 입자 및 5' RTM을 운반하는 rAAV 입자의 혼합물을 투여하는 것을 수반한다. 또 다른 실시양태에서, 방법은 3' RTM을 운반하는 rAAV 입자 및 이중 트랜스-스플라이싱 RTM을 운반하는 rAAV 입자의 혼합물을 투여하는 것을 수반한다. 또 다른 실시양태에서, 방법은 5' RTM을 운반하는 rAAV 입자 및 이중 트랜스-스플라이싱 RTM을 운반하는 rAAV의 혼합물을 투여하는 것을 수반한다. 또 다른 실시양태에서, 방법은 3' RTM을 운반하는 rAAV 입자와 5' RTM을 운반하는 rAAV 입자 및 이중 트랜스-스플라이싱 RTM을 운반하는 rAAV 입자의 혼합물을 투여하는 것을 수반한다.
이들 방법은 본원에 기술된 임의의 조성물의 유효 농도를 필요로 하는 대상체에게 투여하는 것을 포함한다. 하나의 예시적인 실시양태에서, 이러한 방법은 대상체에서 스타가르트 질환과 관련된 시력 상실을 예방, 진행 저지 또는 개선하기 위해 제공되며, 상기 방법은 상기 및 실시예에 기재된 바와 같은 3'RTM을, 이 RTM이 기능하여 포유류 대상체의 안구 세포, 예를 들어 광수용체 세포에 있는 결함성 표적화된 유전자의 트랜스-스플라이싱을 유발하도록 하는 조절 서열의 제어 하에, 운반하는 재조합 아데노 관련 바이러스(AAV)를 포함하는 조성물의 유효 농도를, 이를 필요로 하는 포유류 대상체의 안구 세포에 투여하는 것을 포함한다. 또 다른 실시양태에서, 방법은 2개의 rAAV 입자, 즉 하나는 5'RTM을 운반하고 다른 하나는 3'RTM을 운반하는 것, 예컨대 큰 유전자의 대부분을 대체하기 위한 실시예에 기술된 RTM들을 투여하는 것을 수반한다.
방법에 사용되는 바와 같은 "투여하는"이란, 표적화된 유전자의 돌연변이 또는 결함에 의해 유발되는 질환을 특징으로 하는 표적 선택된 세포에 조성물을 전달하는 것을 의미한다. 예를 들어, 일 실시양태에서, 방법은 망막하 주사에 의해 조성물을 광수용체 세포 또는 다른 안구 세포로 전달하는 것을 수반한다. 다른 실시양태에서, 안구 세포로의 유리체내 주사 또는 안검 정맥을 통한 안구 세포로의 주사가 사용될 수 있다. 또 다른 실시양태에서, 방법은 조성물을 지시된 기관, 예를 들어 간으로 직접 주사에 의해 전달하는 것을 수반한다. 또 다른 실시양태에서, 방법은 정맥내 주사에 의해 조성물을 전달하는 것을 수반한다. 또 다른 투여 방법은 본 개시내용을 감안하여 본 기술분야의 기술자에 의해 선택될 수 있다.
또한, 특정 실시양태에서, 치료를 위해 표적화되는 유지된 광수용체의 영역을 확인하기 위해 비침습성 망막 영상화 및 기능적 연구를 수행하는 것이 바람직하다. 이러한 실시양태에서, 임상 진단 테스트는 하나 이상의 망막하 주사(들)에 대한 정확한 위치(들)를 결정하는데 사용된다. 이러한 검사에는 망막전위도(ERG), 시야측정법, 공초점 주사 레이저 검안경검사(cSLO) 및 광간섭 단층촬영(OCT)을 통한 망막 층의 지형 매핑 및 망막 층 두께 측정, 적응 광학(AO)을 통한 원추체 밀도의 지형 매핑, 기능적 눈 검사 등을 포함할 수 있다. 영상화 및 기능적 연구의 관점에서, 일부 실시양태에 따르면 유지된 광수용체의 상이한 영역을 표적화하기 위해 동일한 눈에 1회 이상의 주사가 수행된다.
이들 방법에 사용하기 위한 각 주사의 부피 및 바이러스 역가는 하기에 더 상세히 설명되는 바와 같이 개별적으로 결정되며, 동일한 대상체에서 수행되는 다른 주사와 동일하거나 상이할 수 있다. 또 다른 실시양태에서, 전체 눈을 치료하기 위해 더 큰 부피의 단일 주사가 이루어진다. 투여량, 투여 및 요법은 본 명세서의 교시를 감안하여 주치의에 의해 결정될 수 있다.
일 실시양태에서, rAAV 조성물의 부피 및 농도는 광수용체 또는 다른 안구 세포의 특정 영역만이 영향을 받도록 선택된다. 또 다른 실시양태에서, rAAV 조성물의 부피 및/또는 농도는 눈의 더 큰 부분에 도달하기 위한 더 많은 양이다. 유사하게, 투여량은 다른 기관에 투여하기 위해 조정된다.
본 명세서에 기재된 바와 같은 RTM을 운반하는 재조합 아데노 관련 바이러스의 유효 농도는 밀리리터당 약 108 내지 1013 벡터 게놈(vg/mL) 범위이다. rAAV 감염 단위는 S.K. McLaughlin 등, 1988 J. Virol., 62:1963에 기재된 바와 같이 측정된다. 또 다른 실시양태에서, 농도는 밀리리터당 109 내지 1013 벡터 게놈(vg/mL) 범위이다. 또 다른 실시양태에서, 유효 농도는 약 1.5 x 1011 vg/mL이다. 일 실시양태에서, 유효 농도는 약 1.5 x 1010 vg/mL이다. 또 다른 실시양태에서, 유효 농도는 약 2.8 x 1011 vg/mL이다. 또 다른 실시양태에서, 유효 농도는 약 1.5 x 1012 vg/mL이다. 다른 실시양태에서, 유효 농도는 약 1.5 x 1013 vg/mL이다. 독성과 같은 바람직하지 않은 효과의 위험 및 눈에 투여와 관련된 기타 문제, 예를 들어, 망막 이형성증 및 박리의 위험을 줄이기 위해, 바이러스의 가장 낮은 유효 농도를 이용하는 것이 바람직하다. 이러한 범위 또는 다른 단위의 또 다른 투여량은 대상체의 연령을 포함하여 치료되는 대상체, 바람직하게는 인간의 신체 상태; 투여되는 조성물 및 특정 장애; 표적화된 세포 및 장애가 진행성인 경우 발병된 정도를 고려하여 주치의에 의해 선택될 수 있다.
조성물은 치료할 면적의 크기, 사용된 바이러스 역가, 투여 경로 및 방법의 원하는 효과에 따라, 범위 내의 모든 숫자를 포함하는 약 50μL 내지 약 1mL의 부피로 전달될 수 있다. 일 실시양태에서, 부피는 약 50μL이다. 또 다른 실시양태에서, 부피는 약 70μL이다. 또 다른 실시양태에서, 부피는 약 100μL이다. 다른 실시양태에서, 부피는 약 125μL이다. 또 다른 실시양태에서, 부피는 약 150μL이다. 또 다른 실시양태에서, 부피는 약 175μL이다. 또 다른 실시양태에서, 부피는 약 200μL이다. 다른 실시양태에서, 부피는 약 250μL이다. 또 다른 실시양태에서, 부피는 약 300μL이다. 또 다른 실시양태에서, 부피는 약 450μL이다. 또 다른 실시양태에서, 부피는 약 500μL이다. 또 다른 실시양태에서, 부피는 약 600μL이다. 또 다른 실시양태에서, 부피는 약 750μL이다. 또 다른 실시양태에서, 부피는 약 850μL이다. 다른 실시양태에서, 부피는 약 1000μL이다.
다음의 실시예는 본원에 설명된 실시양태의 범위를 제한하지 않는다. 본 기술분야의 기술자는 본 발명의 사상 및 범위에 의해 포괄되는 것으로 의도된 하기 실시예에 변형이 이루어질 수 있음을 이해할 것이다.
실시예 1: 스플라이싱 의존적 리포터 RTM
도 1a 내지 도 1d에 도시된 RTM은 루시퍼라제 ORF의 3' 절반에 융합된 CEP290의 Intron26을 함유하는 미니유전자(도 1f)를 발현하는 세포주로 전달되었다. RTM은 인트론26의 표적 서열에 결합하여(결합 도메인을 통해), RTM의 5' 스플라이스 부위(5' SS)가 CEP290 미니유전자의 3' 스플라이스 부위(3' SS)에 근접하게 만든다. 스플라이세오솜 매개 스플라이싱이 발생하여, 트랜스-스플라이싱 활성의 직접적인 척도로서 루시퍼라제 발현을 산출한다(도 2a). 폴리아데닐화 신호(polyA) 또는 해머헤드 리보자임(hhRz)을 함유하는 2개의 참조 RTM은 전사 종결 요소에 대한 종래 기술을 구성하며, 여기서 활성의 기준선을 수립하는 역할을 한다. 데이터는 MALAT1 전사 종결인자의 Comp14 유도체가 전사 종결을 위해 hhRz를 함유하는 참조 RTM에 비해 트랜스-스플라이싱을 향상시킨다는 것을 시사한다. 또한, 이 활성은 mascRNA 도메인 및 이의 관련 RNaseP 절단에 의존적인 것으로 보인다. mascRNA 도메인이 hhRz로 대체될 때 활성 상실로 입증된다.
도 2b에서 실험은 루시퍼라제 RNA 및 단백질을 각각 TaqMan과 웨스턴 블로팅에 의해 측정하도록 설계되었다. N=4 실험 반복물을 각 작제물에 대해 테스트하여, hhRz가 Comp14 Malat1 유도체로 대체되었을 때 루시퍼라제 단백질의 증가를 밝혀냈으며, 이는 도 2a에 도시된 루시퍼라제 활성과 일치한다. 처리된 세포에서 추출한 RNA의 TaqMan 분석은 두 개의 다른 프라이머-프로브 세트(S2 및 S4)에 따라, RTM이 Malat1 종결인자의 Comp14 유도체를 함유할 때 트랜스-스플라이스된 루시퍼라제 RNA의 유사한 증가를 보여주었다. 이 연구의 RTM은 CEP290 유전자의 Intron26을 표적으로 하는 결합 도메인을 사용했기 때문에 내인성 CEP290 전사체에 대한 RTM 트랜스-스플라이싱 활성도 측정할 수 있었다. 도 2b에 도시된 바와 같이, Malat1 종결인자의 Comp14 유도체를 운반하는 RTM은 2개의 다른 TaqMan 프라이머-프로브 세트(S2 및 S3)에 따라 hhRz 종결인자가 있는 RTM에 비해 더 높은 수준의 키메라성 Luc-CEP290 RNA를 생성했다.
실시예 2: 3' 종결인자 서열의 비교
ABCA4 발현에 대해 여러 종결인자 서열을 테스트한 RTM 작제물을 제조했다: hhz - 자가 절단하여 RTM의 3' 말단 단부를 생성하는 해머헤드 리보자임(도 3a); C14 또는 Comp14 - RNase P 절단 후 RTM의 3' 말단 단부를 생성하는 절두된 MALAT1 삼중 나선 구조(서열번호 12)(도 3b); 및 wt - RNase P 절단 후 RTM의 3' 말단 단부를 생성하는 천연 MALAT1 삼중 나선(도 3c).
도 4a 및 4b는 RTM 매개 트랜스-스플라이싱에 의해 생성된 ABCA4 단백질을 보여주는 웨스턴 블롯 및 이의 정량이다. 테스트된 도 3의 RTM은 ABCA4 인트론23(모티프 27 및 81) 및 인트론22(모티프 117 및 118)에 대한 결합 도메인을 포함한다. NB는 음성 대조군 비결합 모티프이다. 도 4a의 데이터는 hhRz 종결인자가 Comp14 유도체로 대체되었을 때 ABCA4 단백질의 현저한 증가를 보여준다. 도 4b에서 Comp14 유도체는 야생형 MALAT1 삼중 나선 종결인자와 비교되었고, 이는 후자에 의해 트랜스-스플라이싱 활성이 훨씬 크게 증가함을 밝혀냈으며, 결합 도메인에 따라 5 내지 10배의 범위였다. 도 4c는 야생형 MALAT1 삼중 나선 종결인자와 Comp14 유도체의 예측된 염기쌍형성을 보여준다. Comp14 유도체의 설계에서 Wilusz 등은 절두된 측면 줄기 루프 도메인이 아닌 야생형 MALAT1 서열과 동일한 A-풍부 도메인과 U-풍부 도메인 사이에 염기-쌍형성 특성을 가져야 한다는 것을 시사했다. 그러나, 이 가정은 적절한 염기 쌍형성에 대한 측면 줄기 루프의 가능한 역할은 무시하고, 야생형 MALAT1 삼중 나선 종결인자에 비해 Comp14의 더 낮은 ENE 활성을 설명할 수 있었다. Comp14 유도체에 비해 야생형 MALAT1 서열에 의해 보이는 더 높은 수준의 트랜스-스플라이싱 활성은 삼중 나선 종결인자 구조 및 ENE 기능의 중요한 특징을 입증한다.
도 5a는 lncRNA로부터 상이한 삼중 나선 종결인자를 함유하는 RTM의 웨스턴 블롯 분석을 보여준다. 이들은 MALAT1 및 NEAT1(MENβ)의 야생형 서열, 뿐만 아니라 MALAT1의 삼중 나선 도메인이 NEAT1의 tRNA 유사 모티프(menRNA라 지칭됨)에 융합된 키메라 형태 및 NEAT1의 삼중 나선 도메인이 MALAT1의 mascRNA 모티프에 융합된 키메라 형태를 포함한다. 이 데이터는 RTM이 야생형 MALAT1 종결인자를 함유할 때 트랜스-스플라이싱 활성이 가장 높다는 것을 시사한다.
도 5b는 MALAT1, MENβ(NEAT1) 및 PAN RNA(카포시 육종 관련 헤르페스바이러스, KSHV에서 생성됨)를 포함하는 3개의 다른 lncRNA로부터의 삼중 나선 종결인자에 대한 예측된 염기 쌍형성을 보여준다. 별개의 lncRNA를 따라 구조적 유사성은 전사 종결 후 lncRNA의 3' 단부를 보호하기 위한 일반적인 진화 전략을 시사한다. 그러나, MALAT1 삼중 나선 도메인의 X-선 결정학은 임의의 공지된 자연 발생의 삼중 나선 구조의 대부분인(Brown J.A. 등. 2014), 10개의 주요 홈과 2개의 보조 홈의 삼중체를 함유한다는 것을 밝혀냈다. 이 복잡한 디자인은 NEAT1 또는 PAN보다 높은 수준의 구조적 안정성을 부여할 가능성이 있고, MALAT1 종결인자가 트랜스 스플라이싱을 더 잘 지원하는 것으로 보이는 이유를 설명할 수 있었다. 핵에서의 분해로부터 RTM을 보호함에 의해. 중요하게도, MALAT1의 평활 말단 삼중 나선은 생체 내 붕괴 검정에 의해 나타나는 바와 같이 빠른 핵 RNA 붕괴를 저해하는 것으로 나타났다(Brown, J.A. 2014).
도 6a는 여러 종의 MALAT1의 고도로 보존된 mascRNA 서열 및 이의 예측된 접힌 입체형태를 보여준다. 빨간색 화살표로 표시된 단일 G-to-A 점 돌연변이는 트랜스-스플라이싱 활성에 대한 이 도메인의 중요성을 테스트하기 위해 mascRNA 서열에 삽입했다. 웨스턴 블롯(도 6b)에서 보여지는 바와 같이, 점 돌연변이는 ABCA4를 표적으로 하는 검증된 RTM의 트랜스-스플라이싱 활성을 소멸시켰다. 이는 아마도 돌연변이된 서열이 RNaseP 인식 및 절단에 필요한 정확한 입체형태를 나타낼 수 없기 때문일 수 있다.
이하에 추가로 번호를 매긴 단락은 본원에 설명된 본 발명의 일부 실시양태를 추가로 정의한다.
1. 3' 전사 종결인자 도메인(TTD)을 포함하는 핵산 트랜스-스플라이싱 분자로서, 삼중 나선을 포함하는, 핵산 트랜스-스플라이싱 분자.
2. 제1항에 있어서, 삼중 나선이 적어도 5개의 연속적인 A-U 후그스틴 염기쌍을 포함하는 핵산 트랜스-스플라이싱 분자.
3. 제1항 또는 제2항에 있어서, 삼중 나선이 5-30개 핵산의 A-풍부 트랙트를 포함하는 핵산 트랜스-스플라이싱 분자.
4. 제3항에 있어서, A-풍부 트랙트가 TTD의 3' 말단에 있는 핵산 트랜스-스플라이싱 분자.
5. 제1항 내지 제4항 중 어느 한 항에 있어서, 삼중 나선이 10개의 연속 뉴클레오타이드의 가닥을 포함하고, 여기서 10개의 연속 뉴클레오타이드 중 9개가 후그스틴 염기 쌍형성을 통해 쌍을 이루는 핵산 트랜스-스플라이싱 분자.
6. 제1항 내지 제5항 중 어느 한 항에 있어서, TTD가 줄기-루프 모티프를 포함하는 핵산 트랜스-스플라이싱 분자.
7. 제1항 내지 제6항 중 어느 한 항에 있어서, 3' TTD가 5'에서 3' 방향으로 작동적으로 연결된, 5' U-풍부 모티프, 줄기-루프 모티프, 3' U-풍부 모티프 및 A-풍부 트랙트를 포함하는 핵산 트랜스-스플라이싱 분자.
8. 제1항 내지 제4항 중 어느 한 항에 있어서, 3' TTD가 서열번호 13, 서열번호 15, 서열번호 17, 또는 서열번호 23과 적어도 95% 상동성인 핵산 트랜스-스플라이싱 분자.
9. 제8항에 있어서, 3' TTD가 서열번호 13과 적어도 95% 상동성이고, 삼중 나선이 A-풍부 트랙트와 서열번호 13의 U7-U11의 후그스틴 염기 쌍형성을 포함하는 핵산 트랜스-스플라이싱 분자.
10. 제9항에 있어서, 3' TTD가 PAN ENE+A인 핵산.
11. 제1항 내지 제8항 중 어느 한 항에 있어서, 3' TTD가 서열번호 15와 적어도 95% 상동성이고, 삼중 나선이 A-풍부 트랙트와 서열번호 15의 U6-10, C11, 및 U12-15의 후그스틴 염기 쌍형성을 포함하는 핵산 트랜스-스플라이싱 분자.
12. 제11항에 있어서, 3' TTD가 MALAT1 ENE+A인 핵산.
13. 제8항에 있어서, 3' TTD가 서열번호 17과 적어도 95% 상동성이고, 삼중 나선이 A-풍부 트랙트와 U6-10, C11, 및 U12-15의 후그스틴 염기 쌍형성을 포함하는 핵산 트랜스-스플라이싱 분자.
14. 제13항에 있어서, 3' TTD가 MALAT1 코어 ENE+A인 핵산.
15. 제8항에 있어서, 3' TTD가 서열번호 23과 적어도 95% 상동성이고, 삼중 나선이 A-풍부 트랙트와 서열번호 23의 U8-10, C11, 및 U12-15의 후그스틴 염기 쌍형성을 포함하는 핵산 트랜스-스플라이싱 분자.
16. 제15항에 있어서, 3' TTD가 MENβ ENE+A인 핵산 트랜스-스플라이싱 분자.
17. 5'에서 3' 방향으로 작동적으로 연결된 하기를 포함하는 핵산 트랜스-스플라이싱 분자로서:
(a) 선택된 유전자의 하나 이상의 기능적 엑손(들)을 포함하는 암호 도메인 서열(CDS);
(b) 암호 도메인과 결합 도메인 사이의 구조적 연결부로서 작용하는 다양한 길이의 링커 도메인 서열(LDS);
(c) 스플라이세오솜 매개 트랜스-스플라이싱을 개시하도록 구성된 스플라이세오솜 인식 모티프(5' 스플라이스 부위);
(d) 선택된 유전자의 표적 인트론에 혼성화하도록 구성된 다양한 길이 및 서열의 결합 도메인(BD)으로서, 상기 유전자는 표적 인트론에 대해 5'인 엑손에 적어도 하나의 결함 또는 돌연변이를 갖는 결합 도메인; 및
(e) 트랜스-스플라이싱의 효율을 증가시키는 3' 전사 종결인자 도메인(TTD)
을 포함하고, 여기서 핵산 트랜스-스플라이싱 분자는 암호 도메인을 표적 인트론에 인접한 선택된 유전자의 내인성 엑손에 트랜스-스플라이스하도록 구성되어, 내인성 결함 또는 돌연변이된 엑손을 기능적 엑손으로 대체하고 선택된 유전자의 돌연변이를 교정하는, 핵산 트랜스-스플라이싱 분자.
18. 제17항에 있어서, 결합 도메인이 돌연변이에 대해 3'인 선택된 유전자의 표적 인트론에 혼성화하고 암호 도메인이 표적 인트론에 대해 5'인 하나 이상의 엑손(들)을 포함하는 핵산 트랜스-스플라이싱 분자.
19. 5'에서 3' 방향으로 작동적으로 연결된 하기를 포함하는 핵산 트랜스-스플라이싱 분자로서,
(a) 선택된 유전자의 표적 인트론에 결합하도록 구성된 결합 도메인(BD)으로서, 상기 유전자는 표적화된 인트론에 대해 3'인 엑손에 적어도 하나의 결함 또는 돌연변이를 갖는 결합 도메인;
(b) 결합 도메인과 암호 영역 사이의 구조적 연결부로서 작용하는 다양한 길이 및 조성의 링커 서열;
(c) 트랜스-스플라이싱을 매개하도록 구성된 3' 스플라이세오솜 인식 모티프(3' 스플라이스 부위);
(d) 선택된 유전자의 하나 이상의 기능적 엑손(들)을 포함하는 암호 도메인 서열(CDS); 및
(e) 트랜스-스플라이싱의 효율을 증가시키는 3' 전사 종결인자 도메인(TTD)
을 포함하고, 여기서 핵산 트랜스-스플라이싱 분자는 표적 인트론에 인접한 선택된 유전자의 내인성 엑손에 암호 도메인을 트랜스-스플라이싱하도록 구성되어, 내인성 결함 또는 돌연변이된 엑손을 기능적 엑손으로 대체하고 선택된 유전자의 돌연변이를 교정하는 핵산 트랜스-스플라이싱 분자.
20. 제19항에 있어서, 결합 도메인이 돌연변이에 대해 3'인 선택된 유전자의 표적 인트론에 결합하고 암호 도메인이 표적 인트론에 대해 5'인 하나 이상의 엑손을 포함하는 핵산 트랜스-스플라이싱 분자.
21. 제17항 내지 제20항 중 어느 한 항에 있어서, 3' 전사 종결인자 도메인이 3' 단부를 효과적으로 캡핑하는 삼중 나선 구조를 형성하는 핵산 트랜스-스플라이싱 분자.
22. 제1항 내지 제21항 중 어느 한 항에 있어서, 3' 전사 종결인자 도메인이 삼중 나선 평활 말단 구조로 축합하는 3' 전사 종결인자를 함유하는 하나 이상의 긴 비암호 RNA(lncRNA) 또는 다른 핵 RNA 분자로부터의 서열인 핵산 트랜스-스플라이싱 분자.
23. 제17항 내지 제22항 중 어느 한 항에 있어서, 3' 전사 종결인자 도메인이 인간의 긴 비암호 RNA MALAT1 유래인 핵산 트랜스-스플라이싱 분자.
24. 제23항에 있어서, 3' 전사 종결인자 도메인이 인간 MALAT1의 뉴클레오타이드 8287-8437을 포함하는 핵산 트랜스-스플라이싱 분자.
25. 제23항에 있어서, 3' 전사 종결인자 도메인이 5'에서 3' 순으로, 뉴클레오타이드 8287-8379를 포함하는 삼본쇄 형성 서열, 뉴클레오타이드 8379-8380을 포함하는 RNaseP 절단 부위, 및 뉴클레오타이드 8380-8437을 포함하는 tRNA 유사 서열을 포함하는 핵산 트랜스-스플라이싱 분자.
26. 제23항에 있어서, 3' 전사 종결인자 도메인이 U-풍부 모티프 1(8292-8301), 보존된 줄기-루프(8302-8333), U-풍부 모티프 2(8334-8343) 및 A-풍부 트랙트(8369-8379)를 포함하는 삼본쇄 형성 서열을 함유하고, 여기서 A-풍부 트랙트와 U-풍부 모티프 2는 왓슨-크릭(Watson-Crick) 줄기 이본쇄를 형성하고, U-풍부 모티프 1은 A-풍부 트랙트와 정렬하여 후그스틴 염기쌍을 형성하는 핵산 트랜스-스플라이싱 분자.
27. 제23항에 있어서, 3' 전사 종결인자 도메인이 인간 MALAT1 삼중 나선의 절두된 버전인 핵산 트랜스-스플라이싱 분자.
28. 제27항에 있어서, 3' 전사 종결인자 도메인이 U-풍부 모티프 1(8292-8301), 보존된 줄기-루프(8302-8310 및 8325-8333), U-풍부 모티프 2(8334-8343), A-풍부 트랙트(8369-8379) 및 U-풍부 모티프 2와 A-풍부 트랙트 사이에 개재 서열의 결실 스패닝 뉴클레오타이드 8345-8364를 포함하는 삼본쇄 형성 서열을 함유하고, 여기서 A-풍부 트랙트와 U-풍부 모티프 2는 왓슨-크릭 줄기 이본쇄를 형성하고 U-풍부 모티프 1은 A-풍부 트랙트와 정렬하여 후그스틴 염기쌍을 형성하는 핵산 트랜스-스플라이싱 분자.
29. 제27항에 있어서, 3' 전사 종결인자 도메인이 5'에서 3'의 순으로 다양한 길이와 조성의 삼본쇄 형성 서열, RNaseP 절단 부위, 및 다양한 길이와 조성의 tRNA 유사 서열을 포함하는 핵산 트랜스-스플라이싱 분자.
30. 제27항에 있어서, 3' 전사 종결인자 도메인이 3개의 공지된 기본 "모티프" 중 하나에 일치하는 삼본쇄 형성 서열을 함유하고, 삼중 나선의 세 번째 가닥의 염기 조성: 피리미딘 모티프(T,C), 퓨린 모티프(G,A) 및 퓨린-피리미딘 모티프(G,T)에 의해 지칭되는 핵산 트랜스-스플라이싱 분자.
31. 제22항에 있어서, 3' 전사 종결인자 도메인이 삼중 나선 도메인 및 tRNA-유사 도메인을 포함하는 핵산 트랜스-스플라이싱 분자.
32. 제31항에 있어서, 삼중 나선 도메인 및 tRNA-유사 도메인이 동일한 긴 비암호 RNA, 또는 인간 또는 임의의 다른 종으로부터 유래된 긴 비암호 RNA 도메인의 상이한 조합으로부터 기원하는 것인 핵산 트랜스-스플라이싱 분자.
33. 제31항에 있어서, 삼중 나선 도메인 및 tRNA-유사 도메인이 MALAT1 또는 NEAT1/MENβ로부터 유래되는 핵산 트랜스-스플라이싱 분자.
34. 임의의 전술한 제17항에 있어서, 표적화된 포유류 유전자가 ABCA4, CEP290, 또는 MYO7A인 핵산 트랜스-스플라이싱 분자.
35. 제1항 내지 제34항 중 어느 한 항에 있어서, 유전자가 ABCA4이고 결함 또는 돌연변이가 엑손 1-23 중 어느 하나에 있는 것인 핵산 트랜스-스플라이싱 분자.
36. 제1항 내지 제35항 중 어느 한 항에 있어서, 하나 이상의 링커 서열을 추가로 포함하는 핵산 트랜스-스플라이싱 분자.
37. 제26항에 있어서, 스플라이싱 도메인과 결합 도메인 사이에 링커를 포함하는 핵산 트랜스-스플라이싱 분자.
38. 제36항 또는 제37항에 있어서, 결합 도메인과 3' 말단 도메인 사이에 링커를 포함하는 핵산 트랜스-스플라이싱 분자.
39. 제1항 내지 제38항 중 어느 한 항의 핵산 분자를 포함하는 재조합 아데노 관련 바이러스(rAAV).
40. 제39항에 있어서, AAV가 광수용체 세포를 우선적으로 표적화하는 rAAV.
41. 제39항 또는 제40항에 있어서, AAV가 AAV5 캡시드 단백질, AAV8 캡시드 단백질, AAV8(b) 캡시드 단백질, 또는 AAV9 캡시드 단백질을 포함하는 rAAV.
42. 제1항 내지 제38항 중 어느 한 항의 핵산 트랜스-스플라이싱 분자를 포함하는 재조합 AAV를 포함하는 조성물을 질환을 갖는 대상체의 세포에 투여하는 것을 포함하는 표적 유전자의 결함 또는 돌연변이에 의해 유발된 질환을 치료하는 방법.
43. 제1항 내지 제38항 중 어느 한 항의 핵산 트랜스-스플라이싱 분자를 포함하는 재조합 AAV를 포함하는 조성물을 안구 질환이 있는 대상체의 안구 세포에 투여하는 것을 포함하는 표적 유전자의 결함 또는 돌연변이에 의해 유발된 안구 질환을 치료하는 방법.
44. 제43항에 있어서, 질환이 스타가르트 질환, 레베르 선천성 흑암시(LCA), 원추 간상체 이영양증, 황반 안저, 색소성 망막염, 연령 관련 황반 변성, 또는 어셔 증후군인 방법.
45. 제43항 또는 제44항에 있어서, 조성물이 망막하 주사에 의해 투여되는 방법.
46. 제43항에 있어서, 질환이 스타가르트 질환이고, 세포가 광수용체 세포이며, 안구 유전자가 ABCA4이고, 교정된 엑손 서열이 엑손 1-19, 엑손 1-22, 엑손 1-23 또는 엑손 1-24인 방법.
47. 생리학적 허용성 담체 및 제39항 내지 제41항 중 어느 한 항의 rAAV를 포함하는 약제학적 제제.
본 명세서에 인용된 모든 간행물은 그 전체가 참고로 본원에 포함된다. 또한, 2019년 4월 17일에 출원된 미국 가특허출원 제62/835,164호는 그 전체가 참고로 본원에 포함된다. 유사하게, 본 명세서에서 언급되고 첨부된 서열 목록에 나타나는 서열번호는 참고로 포함된다. 본 발명이 특정 실시양태를 참조하여 설명되었지만, 본 발명의 사상을 벗어남이 없이 수정이 이루어질 수 있음을 이해할 것이다. 이러한 수정은 첨부된 청구항의 범위에 속하는 것으로 의도된다.
<110> The Trustees of the University of Pennsylvania
<120> TRIPLE HELIX TERMINATOR FOR EFFICIENT RNA TRANS-SPLICING
<130> UPN-19-8992PCT
<150> US 62/835,164
<151> 2019-04-17
<160> 37
<170> PatentIn version 3.5
<210> 1
<211> 25
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 1
gtaagagagc tcgttgcgat attat 25
<210> 2
<211> 7
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 2
tactaac 7
<210> 3
<211> 33
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 3
tactaactgg tacctcttct tttttttctg cag 33
<210> 4
<211> 5
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 4
caggt 5
<210> 5
<211> 23
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 5
tggtacctct tctttttttt ctg 23
<210> 6
<211> 150
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 6
tcactgttta atctgttaat tcatctgagc attttgaggg tgtagtcgct tgattttatc 60
ctagagagtg tgtgagtcac acacagagag gagcagaacc tccaagggtc cctttggctt 120
gtcatcaatt atgtggcagc tgtaggttct 150
<210> 7
<211> 8779
<212> DNA
<213> Homo sapiens
<400> 7
cgcagcctgc agcccgagac ttctgtaaag gactggggcc ccgcaactgg cctctcctgc 60
cctcttaagc gcagcgccat tttagcaacg cagaagcccg gcgccgggaa gcctcagctc 120
gcctgaaggc aggtcccctc tgacgcctcc gggagcccag gtttcccaga gtccttggga 180
cgcagcgacg agttgtgctg ctatcttagc tgtccttata ggctggccat tccaggtggt 240
ggtatttaga taaaaccact caaactctgc agtttggtct tggggtttgg aggaaagctt 300
ttatttttct tcctgctccg gttcagaagg tctgaagctc atacctaacc aggcataaca 360
cagaatctgc aaaacaaaaa cccctaaaaa agcagaccca gagcagtgta aacacttctg 420
ggtgtgtccc tgactggctg cccaaggtct ctgtgtcttc ggagacaaag ccattcgctt 480
agttggtcta ctttaaaagg ccacttgaac tcgctttcca tggcgatttg ccttgtgagc 540
actttcagga gagcctggaa gctgaaaaac ggtagaaaaa tttccgtgcg ggccgtgggg 600
ggctggcggc aactgggggg ccgcagatca gagtgggcca ctggcagcca acggcccccg 660
gggctcaggc ggggagcagc tctgtggtgt gggattgagg cgttttccaa gagtgggttt 720
tcacgtttct aagatttccc aagcagacag cccgtgctgc tccgatttct cgaacaaaaa 780
agcaaaacgt gtggctgtct tgggagcaag tcgcaggact gcaagcagtt gggggagaaa 840
gtccgccatt ttgccacttc tcaaccgtcc ctgcaaggct ggggctcagt tgcgtaatgg 900
aaagtaaagc cctgaactat cacactttaa tcttccttca aaaggtggta aactatacct 960
actgtccctc aagagaacac aagaagtgct ttaagaggta ttttaaaagt tccgggggtt 1020
ttgtgaggtg tttgatgacc cgtttaaaat atgatttcca tgtttctttt gtctaaagtt 1080
tgcagctcaa atctttccac acgctagtaa tttaagtatt tctgcatgtg tagtttgcat 1140
tcaagttcca taagctgtta agaaaaatct agaaaagtaa aactagaacc tatttttaac 1200
cgaagaacta ctttttgcct ccctcacaaa ggcggcggaa ggtgatcgaa ttccggtgat 1260
gcgagttgtt ctccgtctat aaatacgcct cgcccgagct gtgcggtagg cattgaggca 1320
gccagcgcag gggcttctgc tgagggggca ggcggagctt gaggaaaccg cagataagtt 1380
tttttctctt tgaaagatag agattaatac aactacttaa aaaatatagt caataggtta 1440
ctaagatatt gcttagcgtt aagtttttaa cgtaatttta atagcttaag attttaagag 1500
aaaatatgaa gacttagaag agtagcatga ggaaggaaaa gataaaaggt ttctaaaaca 1560
tgacggaggt tgagatgaag cttcttcatg gagtaaaaaa tgtatttaaa agaaaattga 1620
gagaaaggac tacagagccc cgaattaata ccaatagaag ggcaatgctt ttagattaaa 1680
atgaaggtga cttaaacagc ttaaagttta gtttaaaagt tgtaggtgat taaaataatt 1740
tgaaggcgat cttttaaaaa gagattaaac cgaaggtgat taaaagacct tgaaatccat 1800
gacgcaggga gaattgcgtc atttaaagcc tagttaacgc atttactaaa cgcagacgaa 1860
aatggaaaga ttaattggga gtggtaggat gaaacaattt ggagaagata gaagtttgaa 1920
gtggaaaact ggaagacaga agtacgggaa ggcgaagaaa agaatagaga agatagggaa 1980
attagaagat aaaaacatac ttttagaaga aaaaagataa atttaaacct gaaaagtagg 2040
aagcagaaga aaaaagacaa gctaggaaac aaaaagctaa gggcaaaatg tacaaactta 2100
gaagaaaatt ggaagataga aacaagatag aaaatgaaaa tattgtcaag agtttcagat 2160
agaaaatgaa aaacaagcta agacaagtat tggagaagta tagaagatag aaaaatataa 2220
agccaaaaat tggataaaat agcactgaaa aaatgaggaa attattggta accaatttat 2280
tttaaaagcc catcaattta atttctggtg gtgcagaagt tagaaggtaa agcttgagaa 2340
gatgagggtg tttacgtaga ccagaaccaa tttagaagaa tacttgaagc tagaagggga 2400
agttggttaa aaatcacatc aaaaagctac taaaaggact ggtgtaattt aaaaaaaact 2460
aaggcagaag gcttttggaa gagttagaag aatttggaag gccttaaata tagtagctta 2520
gtttgaaaaa tgtgaaggac tttcgtaacg gaagtaattc aagatcaaga gtaattacca 2580
acttaatgtt tttgcattgg actttgagtt aagattattt tttaaatcct gaggactagc 2640
attaattgac agctgaccca ggtgctacac agaagtggat tcagtgaatc taggaagaca 2700
gcagcagaca ggattccagg aaccagtgtt tgatgaagct aggactgagg agcaagcgag 2760
caagcagcag ttcgtggtga agataggaaa agagtccagg agccagtgcg atttggtgaa 2820
ggaagctagg aagaaggaag gagcgctaac gatttggtgg tgaagctagg aaaaaggatt 2880
ccaggaagga gcgagtgcaa tttggtgatg aaggtagcag gcggcttggc ttggcaacca 2940
cacggaggag gcgagcaggc gttgtgcgta gaggatccta gaccagcatg ccagtgtgcc 3000
aaggccacag ggaaagcgag tggttggtaa aaatccgtga ggtcggcaat atgttgtttt 3060
tctggaactt acttatggta accttttatt tattttctaa tataatgggg gagtttcgta 3120
ctgaggtgta aagggattta tatggggacg taggccgatt tccgggtgtt gtaggtttct 3180
ctttttcagg cttatactca tgaatcttgt ctgaagcttt tgagggcaga ctgccaagtc 3240
ctggagaaat agtagatggc aagtttgtgg gttttttttt tttacacgaa tttgaggaaa 3300
accaaatgaa tttgatagcc aaattgagac aatttcagca aatctgtaag cagtttgtat 3360
gtttagttgg ggtaatgaag tatttcagtt ttgtgaatag atgacctgtt tttacttcct 3420
caccctgaat tcgttttgta aatgtagagt ttggatgtgt aactgaggcg ggggggagtt 3480
ttcagtattt ttttttgtgg gggtgggggc aaaatatgtt ttcagttctt tttcccttag 3540
gtctgtctag aatcctaaag gcaaatgact caaggtgtaa cagaaaacaa gaaaatccaa 3600
tatcaggata atcagaccac cacaggttta cagtttatag aaactagagc agttctcacg 3660
ttgaggtctg tggaagagat gtccattgga gaaatggctg gtagttactc ttttttcccc 3720
ccaccccctt aatcagactt taaaagtgct taacccctta aacttgttat tttttacttg 3780
aagcattttg ggatggtctt aacagggaag agagagggtg ggggagaaaa tgtttttttc 3840
taagattttc cacagatgct atagtactat tgacaaactg ggttagagaa ggagtgtacc 3900
gctgtgctgt tggcacgaac accttcaggg actggagctg cttttatcct tggaagagta 3960
ttcccagttg aagctgaaaa gtacagcaca gtgcagcttt ggttcatatt cagtcatctc 4020
aggagaactt cagaagagct tgagtaggcc aaatgttgaa gttaagtttt ccaataatgt 4080
gacttcttaa aagttttatt aaaggggagg ggcaaatatt ggcaattagt tggcagtggc 4140
ctgttacggt tgggattggt ggggtgggtt taggtaattg tttagtttat gattgcagat 4200
aaactcatgc cagagaactt aaagtcttag aatggaaaaa gtaaagaaat atcaacttcc 4260
aagttggcaa gtaactccca atgatttagt ttttttcccc ccagtttgaa ttgggaagct 4320
gggggaagtt aaatatgagc cactgggtgt accagtgcat taatttgggc aaggaaagtg 4380
tcataatttg atactgtatc tgttttcctt caaagtatag agcttttggg gaaggaaagt 4440
attgaactgg gggttggtct ggcctactgg gctgacatta actacaatta tgggaaatgc 4500
aaaagttgtt tggatatggt agtgtgtggt tctcttttgg aatttttttc aggtgattta 4560
ataataattt aaaactacta tagaaactgc agagcaaagg aagtggctta atgatcctga 4620
agggatttct tctgatggta gcttttgtat tatcaagtaa gattctattt tcagttgtgt 4680
gtaagcaagt ttttttttag tgtaggagaa atacttttcc attgtttaac tgcaaaacaa 4740
gatgttaagg tatgcttcaa aaattttgta aattgtttat tttaaactta tctgtttgta 4800
aattgtaact gattaagaat tgtgatagtt cagcttgaat gtctcttaga gggtgggctt 4860
ttgttgatga gggaggggaa actttttttt tttctataga cttttttcag ataacatctt 4920
ctgagtcata accagcctgg cagtatgatg gcctagatgc agagaaaaca gctccttggt 4980
gaattgataa gtaaaggcag aaaagattat atgtcatacc tccattgggg aataagcata 5040
accctgagat tcttactact gatgagaaca ttatctgcat atgccaaaaa attttaagca 5100
aatgaaagct accaatttaa agttacggaa tctaccattt taaagttaat tgcttgtcaa 5160
gctataacca caaaaataat gaattgatga gaaatacaat gaagaggcaa tgtccatctc 5220
aaaatactgc ttttacaaaa gcagaataaa agcgaaaaga aatgaaaatg ttacactaca 5280
ttaatcctgg aataaaagaa gccgaaataa atgagagatg agttgggatc aagtggattg 5340
aggaggctgt gctgtgtgcc aatgtttcgt ttgcctcaga caggtatctc ttcgttatca 5400
gaagagttgc ttcatttcat ctgggagcag aaaacagcag gcagctgtta acagataagt 5460
ttaacttgca tctgcagtat tgcatgttag ggataagtgc ttatttttaa gagctgtgga 5520
gttcttaaat atcaaccatg gcactttctc ctgacccctt ccctagggga tttcaggatt 5580
gagaaatttt tccatcgagc ctttttaaaa ttgtaggact tgttcctgtg ggcttcagtg 5640
atgggatagt acacttcact cagaggcatt tgcatcttta aataatttct taaaagcctc 5700
taaagtgatc agtgccttga tgccaactaa ggaaatttgt ttagcattga atctctgaag 5760
gctctatgaa aggaatagca tgatgtgctg ttagaatcag atgttactgc taaaatttac 5820
atgttgtgat gtaaattgtg tagaaaacca ttaaatcatt caaaataata aactattttt 5880
attagagaat gtatactttt agaaagctgt ctccttattt aaataaaata gtgtttgtct 5940
gtagttcagt gttggggcaa tcttgggggg gattcttctc taatctttca gaaactttgt 6000
ctgcgaacac tctttaatgg accagatcag gatttgagcg gaagaacgaa tgtaacttta 6060
aggcaggaaa gacaaatttt attcttcata aagtgatgag catataataa ttccaggcac 6120
atggcaatag aggccctcta aataaggaat aaataacctc ttagacaggt gggagattat 6180
gatcagagta aaaggtaatt acacatttta tttccagaaa gtcaggggtc tataaattga 6240
cagtgattag agtaatactt tttcacattt ccaaagtttg catgttaact ttaaatgctt 6300
acaatcttag agtggtaggc aatgttttac actattgacc ttatataggg aagggagggg 6360
gtgcctgtgg ggttttaaag aattttcctt tgcagaggca tttcatcctt catgaagcca 6420
ttcaggattt tgaattgcat atgagtgctt ggctcttcct tctgttctag tgagtgtatg 6480
agaccttgca gtgagtttat cagcatactc aaaatttttt tcctggaatt tggagggatg 6540
ggaggagggg gtggggctta cttgttgtag cttttttttt ttttacagac ttcacagaga 6600
atgcagttgt cttgacttca ggtctgtctg ttctgttggc aagtaaatgc agtactgttc 6660
tgatcccgct gctattagaa tgcattgtga aacgactgga gtatgattaa aagttgtgtt 6720
ccccaatgct tggagtagtg attgttgaag gaaaaaatcc agctgagtga taaaggctga 6780
gtgttgagga aatttctgca gttttaagca gtcgtatttg tgattgaagc tgagtacatt 6840
ttgctggtgt atttttaggt aaaatgcttt ttgttcattt ctggtggtgg gaggggactg 6900
aagcctttag tcttttccag atgcaacctt aaaatcagtg acaagaaaca ttccaaacaa 6960
gcaacagtct tcaagaaatt aaactggcaa gtggaaatgt ttaaacagtt cagtgatctt 7020
tagtgcattg tttatgtgtg ggtttctctc tcccctccct tggtcttaat tcttacatgc 7080
aggaacactc agcagacaca cgtatgcgaa gggccagaga agccagaccc agtaagaaaa 7140
aatagcctat ttactttaaa taaaccaaac attccatttt aaatgtgggg attgggaacc 7200
actagttctt tcagatggta ttcttcagac tatagaagga gcttccagtt gaattcacca 7260
gtggacaaaa tgaggaaaac aggtgaacaa gctttttctg tatttacata caaagtcaga 7320
tcagttatgg gacaatagta ttgaatagat ttcagcttta tgctggagta actggcatgt 7380
gagcaaactg tgttggcgtg ggggtggagg ggtgaggtgg gcgctaagcc tttttttaag 7440
atttttcagg tacccctcac taaaggcacc gaaggcttaa agtaggacaa ccatggagcc 7500
ttcctgtggc aggagagaca acaaagcgct attatcctaa ggtcaagaga agtgtcagcc 7560
tcacctgatt tttattagta atgaggactt gcctcaactc cctctttctg gagtgaagca 7620
tccgaaggaa tgcttgaagt acccctgggc ttctcttaac atttaagcaa gctgttttta 7680
tagcagctct taataataaa gcccaaatct caagcggtgc ttgaagggga gggaaagggg 7740
gaaagcgggc aaccactttt ccctagcttt tccagaagcc tgttaaaagc aaggtctccc 7800
cacaagcaac ttctctgcca catcgccacc ccgtgccttt tgatctagca cagacccttc 7860
acccctcacc tcgatgcagc cagtagcttg gatccttgtg ggcatgatcc ataatcggtt 7920
tcaaggtaac gatggtgtcg aggtctttgg tgggttgaac tatgttagaa aaggccatta 7980
atttgcctgc aaattgttaa cagaagggta ttaaaaccac agctaagtag ctctattata 8040
atacttatcc agtgactaaa accaacttaa accagtaagt ggagaaataa catgttcaag 8100
aactgtaatg ctgggtggga acatgtaact tgtagactgg agaagatagg catttgagtg 8160
gctgagaggg cttttgggtg ggaatgcaaa aattctctgc taagactttt tcaggtgaac 8220
ataacagact tggccaagct agcatcttag cggaagctga tctccaatgc tcttcagtag 8280
ggtcatgaag gtttttcttt tcctgagaaa acaacacgta ttgttttctc aggttttgct 8340
ttttggcctt tttctagctt aaaaaaaaaa aaagcaaaag atgctggtgg ttggcactcc 8400
tggtttccag gacggggttc aaatccctgc ggcgtctttg ctttgactac taatctgtct 8460
tcaggactct ttctgtattt ctccttttct ctgcaggtgc tagttcttgg agttttgggg 8520
aggtgggagg taacagcaca atatctttga actatataca tccttgatgt ataatttgtc 8580
aggagcttga cttgattgta tattcatatt tacacgagaa cctaatataa ctgccttgtc 8640
tttttcaggt aatagcctgc agctggtgtt ttgagaagcc ctactgctga aaacttaaca 8700
attttgtgta ataaaaatgg agaagctcta aattgttgtg gttcttttgt gaataaaaaa 8760
atcttgattg gggaaaaaa 8779
<210> 8
<211> 22743
<212> DNA
<213> Homo sapiens
<400> 8
ggagttagcg acagggaggg atgcgcgcct gggtgtagtt gtgggggagg aagtggctag 60
ctcagggctt caggggacag acagggagag atgactgagt tagatgagac gagggggcgg 120
gctgggggtg cgagaaggaa gcttggcaag gagactaggt ctagggggac cacagtgggg 180
caggctgcat ggaaaatatc cgcagggtcc cccaggcaga acagccacgc tccaggccag 240
gctgtcccta ctgcctggtg gagggggaac ttgacctctg ggagggcgcc gctcttgcat 300
agctgagcga gcccgggtgc gctggtctgt gtggaaggag gaaggcaggg agaggtagaa 360
ggggtggagg agtcaggagg aataggccgc agcagccctg gaaatgatca ggaaggcagg 420
cagtgggtgc agggctgcag gagggccggg agggctaatc ttcaacttgt ccatgccagc 480
agcccctttt tttccagacc aagggctgtg aacccgcctg gggatgaggc ctggtcttgt 540
ggaactgaac ttagctcgac ggggctgacc gctctggccc agggtggtat gtaattttcg 600
ctcggcctgg gacggggccc aggccgggcc cagcctggtg gagcgtccag gtctgggtgc 660
gaagccaggc ccctgggcgg aggtgagggg tggtctgagg agtgatgtgg agttaaggcg 720
ccatcctcac cggtgactgg tgcggcacct agcatgtttg acaggcgggg actgcgaggc 780
acgctgctcg ggtgttgggg acaacattga ccaacgcttt attttccagg tggcagtgct 840
ccttttggac ttttctctag gtttggcgct aaactcttct tgtgagctca ctccacccct 900
tcttcctccc tttaacttat ccattcactt aaaacattac ctggtcatct ggtaagcccg 960
ggacagtaag ccgagtggct gttggagtcg gtattgttgg taatggtgga ggaagagagg 1020
ccttcccgct gaggctgggg tggggcggat cggtgttgct tgcctgcaga gagggtgggg 1080
agtgaatgtg cacccttggg tgggcctgca gccatccagc tgaaagttac aaaaatgctt 1140
catggaccgt ggtttgttac tatagtgttc ctcatggcga gcagatggaa ccgggagaca 1200
tggagtccct ggccagtgtg agtcctagca ttgcaggagg ggagaccctg gaggagagag 1260
cccgcctcaa ttgatgcctg cagattgaat ttccagaggc ttaggaggag gaagttctcc 1320
aatgttctgt ttccaggcct tgctcaggaa gccctgtatt caggaggcta ccatttaaag 1380
tttgcagatg agcttatggg gggcaatctt aaaaagtcca cagcagatgc atccggctcg 1440
aggggccatc agctttgaat aaatgcttgt tccagagccc atgaatgcca gcaggcaccc 1500
ctcctttcct ggggtaaagg ttttcagatg ctgcatcttc taaattgagc ctccggtcat 1560
actagttttg tgcttggaac cttgcttcaa gaagatccct aagctgtaga acattttaac 1620
gttgatgcca caacgcagat tgatgccttg tagatggagc ttgcagatgg agccccgtga 1680
cctctcacct acccacctgt ttgcctgcct tcttgtgcgt ttctcggaga agttcttagc 1740
ctgatgaaat aacttggggc gttgaagagc tgtttaattt taaatgcctt agactgggga 1800
tatattagag gaagcagatt gtcaaattaa gggtgtcatt gtgttgtgct aaacgctggg 1860
agggtacaag ttggtcattc ctaaatctgt gtgtgagaaa tggcaggtct agtttgggca 1920
ttgtgattgc attgcagatt actaggagaa gggaatggtg ggtacaccgg tagtgctctt 1980
ttgttcttgc ttcgtttttt taaacttgaa ctttacttcg ttagatttca taatactttc 2040
ttggcattct agtaagagga ccctgaggtg ggagttgtgg gggacgggga gaaggggaca 2100
gcttggcacc ggtcccgtgg gcgttgcagt gtgggggatg ggggtatgca gcttggcact 2160
ggtactggga gggatgaggg tgaagaaggg gagagggttg gttagagata cagtgtgggt 2220
ggtgggggtg gtaggaaatg caggttgaag ggaattctct ggggctttgg ggaatttagt 2280
gcgtgggtga gccaagaaaa tactaattaa taatagtaag ttgttagtgt tggttaagtt 2340
gttgcttgga agtgagaagt tgcttagaaa ctttccaaag tgcttagaac tttaagtgca 2400
aacagacaaa ctaacaaaca aaaattgttt tgctttgcta caaggtgggg aagactgaag 2460
aagtgttaac tgaaaacagg tgacacagag tcaccagttt tccgagaacc aaagggaggg 2520
gtgtgtgatg ccatctcaca ggcaggggaa atgtctttac cagcttcctc ctggtggcca 2580
agacagcctg tttcagaggg ttgttttgtt tggggtgtgg gtgttatcaa gtgaattagt 2640
cacttgaaag atgggcgtca gacttgcata cgcagcagat cagcatcctt cgctgcccct 2700
tagcaactta ggtggttgat ttgaaactgt gaaggtgtga ttttttcagg agctggaagt 2760
cttagaaaag ccttgtaaat gcctatattg tgggctttta acgtatttaa gggaccactt 2820
aagacgagat tagatgggct cttctggatt tgttcctcat ttgtcacagg tgtcttgtga 2880
ttgaaaatca tgagcgaagt gaaattgcat tgaatttcaa gggaatttag tatgtaaatc 2940
gtgccttaga aacacatctg ttgtcttttc tgtgtttggt cgatattaat aatggcaaaa 3000
tttttgccta tctagtatct tcaaattgta gtctttgtaa caaccaaata accttttgtg 3060
gtcactgtaa aattaatatt tggtagacag aatccatgta cctttgctaa ggttagaatg 3120
aataatttat tgtattttta atttgaatgt ttgtgctttt taaatgagcc aagactagag 3180
gggaaactat cacctaaaat cagtttggaa aacaagacct aaaaagggaa ggggatgggg 3240
attgtgggga gagagtgggc gaggtgcctt tactacatgt gtgatctgaa aaccctgctt 3300
ggttctgagc tgcgtctatt gaattggtaa agtaatacca atggcttttt atcatttcct 3360
tcttcccttt aagtttcact tgaaatttta aaaatcatgg ttatttttat cgttgggatc 3420
tttctgtctt ctgggttcca ttttttaaat gtttaaaaat atgttgacat ggtagttcag 3480
ttcttaacca atgacttggg gatgatgcaa acaattactg tcgttgggat ttagagtgta 3540
ttagtcacgc atgtatgggg aagtagtctc gggtatgctg ttgtgaaatt gaaactgtaa 3600
aagtagatgg ttgaaagtac tggtatgttg ctctgtatgg taagaactaa ttctgttacg 3660
tcatgtacat aattactaat cacttttctt cccctttaca gcacaaataa agtttgagtt 3720
ctaaactcat tagaattgtt gtattgctat gttacatttc tcgaccccta tcacattgcc 3780
ttcataacga ctttggatgt atcttcatat tgtagattta ggtctagatt tgctagctcc 3840
aagtaattaa ggccatgtag gagagcatgg taaccacaga tagaactggt attatcccaa 3900
gtggtctgca gactgctgag tggggatggg atctgctctc tgttgagagt tggtaatcat 3960
tggtttgaaa tgtgatgaaa ccactcaagc caatgaaggt gggtgtgtag gtggggagta 4020
ctttgccata atattttaaa acattacctg gttagagttc taagtggtac ttatttttgt 4080
ttggttaggg gaaagcctga ataaaaacag aaatggacac ataatatgca tattccatag 4140
tctttgggag gctggaatgt gcctgggatt tgggtctaag tgtatgcgta attcttacct 4200
cactaaagaa tttgccttgt ttttttcctt ttggtgagtg actaaaacgt ctgggcttcc 4260
ctgtgtgcgt gctacagtaa gcaagcagag gctgtgcaaa ggtgtgagca ggatcacgtg 4320
gaatctggag gatacatctt ggcttgcaaa ctgcctctgt ctcctgggtg ggactgttct 4380
gtccttgcac tgctgttctg tgttacctct tggggtgtaa ggttttgctt acaggagaca 4440
aactttgggc gtagaatgga agccactgcc agcctctgtg ctgagaagga aggtgcttgt 4500
ttcaaaggga gcagcaaggg aggcttgttc tactcacctg ggcctgtttg cctgagaagg 4560
ggagataagg gctgaactgg gactagccag ggggaccaac acaaatggtg ggggatcatg 4620
acctgaagga ttctttcctt cccatgagct gcagggctgg ttgccgtcct tgcaactgtg 4680
tcttatttgc ctgtgccgtt atatcttggt gacccctcca cgtgtacact actgacaaac 4740
gggtggagtg ctggggagaa gtcactgtgc cgcccaccta gtaaaccttc tgtctgtgct 4800
catggcatct ccaagatggg gcactgctgt gtgcagaatc cagggtcctc tttctgcttg 4860
caactccttt ccctggatgc cccagaaaca atccaggcct cctttcctat cttacccctt 4920
tgctttgctt tttaccccag cacctctata accgccttct cttcttttca gaactccttg 4980
tttctcgtcc tgttttttat gattacaaaa ctcttgcttc caccctggaa gataactgct 5040
atagatgcct gtatgtaaat ggtgctgtct ccagcaactg gcatgctgaa gaagaattga 5100
ttcacggggt ataaatgttg gggattggaa gtggggatga aatggcactt gttgatacag 5160
gagcagagag gtgaggccga ctgctgaaga cagctcgcca ccctccttgc ctccactcca 5220
atccaggggc tggggccaca ttctttgcct tcatttatcc tcagatcagg tgagatcgac 5280
aggaggtgtt gatggcagtg ccagcaatta ttgctaatcc gtttgcatcc ttatgcatag 5340
atctgaattc agactttgtg aatttccaga ggtgtgggta atataataga attcagtgag 5400
tgggcatggc tgatcttgtg caaattaaaa gttatggggc ataagaatag caaaagttga 5460
acttctttta aaaaggaaag taccctgaga gccagtattg gttgaggctc ttcagtatgc 5520
ccaggttggc agcactgaga accgcaggaa cggcctgttg ttacaaaaag gagattgact 5580
cagctgccct tggtgcatct gactgactat gactgctgag agattccaag gacccttaat 5640
gccagggcta acctctccat gtgcagtgag acctctggag gaagtgtcat cctctggctt 5700
tgtgtggtac tcattatggt gcagtgcggg catgaaatga agacacccaa ataggcttac 5760
agatacgata tgttttaaat gttcgtattt aacaaaaaca tactgacact gtttggaaat 5820
ggcaacagga agatagcaaa atgaatacta acattacgaa aagatgaaca ggtacatgtt 5880
ccaaggcagg tggctgtgaa cttcctctga gtgaaggcat cccctccagc acctttcagc 5940
ctgctagtta ggacgacccg ccgccaccct ccaggacctc cagccctgca ctgcctttcc 6000
tctcttttaa ataattcttc attgagttct aatatgtaaa aaaaaaaagt ttactgtaaa 6060
gtttgcaaat aaggaaattt tttttaaaag tcctcagtaa tcttaccagt aacaattgtt 6120
atgggcacat ttgcttttgg aagatttctt ttgtatgcat gggataagta catttttaaa 6180
caaaaatggg attatgccat aaattctatt ttgtgacttt aatatatagt gaacaccttt 6240
tttaatgatg acaggatgtt cccttgcatg gctgtatcaa tttaaacaat cttgtttcaa 6300
tgggcataca gggtattttc tagttttttt ttcctcttag aaaataatac ttgcgatgac 6360
tttccttgta gctcagactt tttcacgtct gttgttatct ctttgggaat gctgaataca 6420
tacatttcga gaaggaaatg actgttaaac tcttaagact tcaggttcat attgctaaac 6480
tgcccagcag ggagggattt tttcaattag tgttctcact ggtgaggcaa acctgatgcc 6540
ttcccctctt cctcagaacc ggctttatca cattgaaaac ctttgctcct ccgacggatc 6600
gagtctgctt tccctctgga tgtgagcatt gctttgtctg ctggtgactg aacatctcta 6660
ccttgtgtca attggccatt tgtggtgtgt gtgtgtgtgc gtgtgtgtgt gtgtgtgtgt 6720
gtatgatttt ctaattccta gtcatttttc tattgattgt tttgcaaaag ccatttacat 6780
cttaaggata ttgataatct tttgttatat ttgatgcaaa tatttttttc cagtttatag 6840
gttgcctttt aattttgtgt ttcaggtaga taaaagttaa acgattttct taggttagtt 6900
tatcactgtg gtttctgaac ttgttatgtg tagatctttt ccaccccaag agtacataaa 6960
tattaatcca tactttctta tggaacttgt atggtttcgt tttttacatt taaaccttct 7020
tccccgtggt gtgtgttgtg gaatctgtgt ttgtgtgagg aggggcatgg tgctctcaga 7080
acccacctcc tgtggccaga gagccctgtc ctgtgagggt ggttgtcaca gtggcagggt 7140
tcaattcaga agaccttgag ggcaggctga tgtttcctga atgggcccct ggttgttgct 7200
tgtccctgac tctccatttc cccatctgag tggatttgga cctaataggg cactggagct 7260
ggttcgaatc ctgactggac tacttggcaa ctttatgtct gggagcaagt tacttaacct 7320
ccccaagcct gtgtctgtga aatgcgggta aatgaatgta gatgtttggc agcagctact 7380
ccttgttgag ctctcacagt gaactctcct gcctctgccc tccttccccg cctcccctgg 7440
tgcctagcgt caggtctagc cacttcctcc tgggcccctc tcccttttct gtggctggct 7500
gcctgcccgc ctggcgctgg acctttcatg taacgggaat cagcatgtat attctggtct 7560
ggtctgtttc tacacttaat tttgtttcca gtagtatttc cctgtaccgg cagagttcac 7620
aaacacattt gaagaggctt tttctcagga ttcttaacct tcccaaagga agtcccatgg 7680
atgggtttct agaagtctat aaatgctctg aaattgtatt tttctgtgga aagcataact 7740
ttcatctgct tgttcgtgct caaaaaagat catgaatgaa tgattgcatg attttatgcc 7800
attgtgctta tactaaagga tatgtagccc atctcttgag ctgttaaact gttttgacta 7860
ctttaaatcg tgcagctgtg agcatctctg taaatttagt gtacacatgt atcccctgga 7920
gtggcattgc ctcggcagtg agcacttatg gttttataac tctcttcaca gactcaaatg 7980
actccagaaa gctacacttc ctgttgtgag tatatgatat ccatttccct acatagccac 8040
taacatcagg tttttacaat tttatttatt tcttgctact ttaagaaatt tttgtggtga 8100
aatacatata atagaagttg actatctgaa tcatttttaa gtatacattc agtagtgtta 8160
agtatgtcgc cattgttgta caaccaatct ccagaacttt ttcatcttgc aaaacaaact 8220
ctgtacccat taaataacat taaacattcc attccctcca gcctcagcaa ccccattcta 8280
ctttctgttt ctgtgagttt gactattcca agcacttcat atcagttaaa tcatgaagta 8340
tttgtctgtc tgtgactggc ttatttctct gagcacagtg tcctcgagat gcgtctatgt 8400
tgtagcatat gtcagaattt ccttcctttt taaaagatcc aaataatatt cttattttat 8460
atcttttttt tatccattca tccattagtg gacacttggg ttgcttttgg ctattgtaaa 8520
taatggtgct atgtacaaat atctatatta ttgtatttac aagtataatg ctgtaatgta 8580
cacacatctt tttgagatcc taccttcagt tcttttgagt atatagccag aagtggtatt 8640
actaaatctt acgatatttc tatttttaat ttattgagga accactgtag tttttcatag 8700
caactgcacc attttacgtt ctcaccaaga gtgcacaagg gttccgaggt tcccacatcc 8760
tccccaacac ttgttatttt ctgctttttt tagattgcag ccatcatagt gggtgtgagg 8820
tgacatttca ttgtggtttt gatttgcatt tccctaatga ggagtgatgc tgagcatctt 8880
ttcatatgct tactggtcat ttgtatgttg tctttggaaa aatgtctatt caagtccttt 8940
gactatttta aaaattgggt tattagagtt atcgttgttg ttgacttgta ggagtttctt 9000
tctatattct ggatattaat cccctatcag atatatgatt tgcaaatatc ttctcttatt 9060
ccataaggtt actttttcac tttgttgatt gtgttctttg atgtatagaa gtttttagtt 9120
ttgaaatagt ctaatttatc tgtttttact tttgtggtct gtgcttttgg tgtcatatcc 9180
aagaaatcct tgccaaatcc aacgttataa ggtactttta aggtatttta gttgtcttag 9240
tctatatttc tgtactcacc tttctttatc cactcatcag ttgatgggca tgtaggttgg 9300
ttccatatct ttgcaattct gaattgtgct atgatcaggt gtctttttag tataatgatt 9360
tactctcctt tgggtagata cccagtagtg ggattgctgg atcgaatggt ttttataatt 9420
ttctatttta ccacagtttc tctctgcatt tttcctcttt gaccactaac catgtgaaat 9480
tctcatattg acctttataa tgatcatgaa ctcttagtat cattgggaag gccacatttg 9540
ccacttatga ttgtaaacct tatcctccat ttttcctgtt attgttggtg caaaaagcac 9600
ctattatacc aggactttaa aaatcagtct gataagtctt tgataagtct aataataata 9660
actgataagt ccattgaatt tgcttctgat tactttttct ttagtagcta aacatgtatg 9720
tactcctatg attacaatga acactcctct ccatttaaat taattattta cattgatgaa 9780
atagcaaaat gttaatgact aaatactgtc ttggtttttt cgttccaggt cagtcaatat 9840
taacttctta taattttctt ttttttcttt atgtgtgtgt gtgtgtgtat tttttttttt 9900
ttaatttcaa tggcttttgg ggtacaaatg gcttttggtc atatagatga attctacagt 9960
agtgaagtct gagattttac tgcaccggtc acctgagtag tgtacattgt acccaatatg 10020
tggtttttta taccttgccc ccctcttacc ctccccactt tgagtctcta gtgtccatta 10080
tgtcactctg tatacctttt tgtacccata agttagctct cacttataag tgagaacaca 10140
cagtatttgg ttttccattc ctgagttgct tcacttagaa taatatcctc cagctccatc 10200
caaaattgct gcaaaaaaaa aaaaaaccac aaacattatt ttgttctttt ttattgctaa 10260
gtcatattcc atggtgtaga gataccacat tttatttatc cactcactgg ttgatgggtt 10320
ggttccacat ctttgcaatt gtgacttgta ctgccatcaa gtgtctttct ggtataatga 10380
cttcttttcc tttgggtaga tacccaggag tgggattgct agatcaaatg gttcttaaca 10440
ttttctctct ggatctattt ctggaaattt taggctccag tttttgttgt tgttgttaat 10500
aaaatgcaat ggaatgtaat gatcatcact tttcattatg ctttaaaatc tggtaaatgg 10560
aggctagaac actcctgtaa ggcaagaata ttctctctgt tggaactcaa atacacagaa 10620
ctgggtaaat ctcaatctta atctttgatt caggacacaa catggctctc ttttacttgc 10680
tttctttaat tgttttttaa taatgtggta agcatttctg aatctcctat ccaatacaaa 10740
aactaggaca atacagacag taactcctat ggttacaatg aacactcctc tccacttaaa 10800
ttaattattt acactgatga aattgaaata gcaaaatttt aatgactaaa tactgtcttt 10860
gattttttgt tccaggtctg tcaatattaa cttcttataa ttttcttttt ttttctttat 10920
gtgtgtgtgt gtgtgtgtat atatatatat ttaatttcaa tggcttttgg ggtacaaatg 10980
gcttttggtc atatatatga gttctacagt agtgaagtct gagattttac tacaccttcc 11040
acttatgtgg tcccacacca cccgcctccc ctgccgcctc ctgccacccc ctaggccaag 11100
gtaataatca tcctgaatcc tgggtttatc tctcacttgc tttcttttca tataattttg 11160
caaaagaatc tgatctaaat gtgtttttca gagtatatat ttatatttta gctgttctta 11220
gagaaaattt attattttgc atgtaatctt atggaacatt ctcatttaat accatggtaa 11280
gattcagccc ttgcccaggg gatagttcat ttagtttgtt tactggatag agctcatcat 11340
gtgactatac ctcagttagt ttatcagttc tcccatccat ggtgactagg ttgcctctca 11400
gcctctcaac aacactgttt ctcagtgtcc ttgtagaagt gatatgtggg tgttttctcc 11460
ttacacagag ttgaaaggtg acgacaacaa cgttggcact accaatcccc caccctccag 11520
aggggtaacc agtgttacca gtttgctgtg tttcctgcta cacctcgcct tattcacttc 11580
catttgtatc tgaaaaacgt gttgcatggt ttcttttcta tagaagtggt aaaatgctat 11640
tgtgtcctgt acattattga ttactttttt tcatttaaca gtagggagat gcctgggagt 11700
acacagagaa ctgccctcat tgttttcaac ttctgcactg tatgtctgtg agtttagcca 11760
ttctgctgtt aatggaaatt tacagtattc taatcttttg atattacaaa cagttctgtg 11820
cgatcatcgt catacacaac cccttgtgca caatgcatga gtgtttctca gggtaggtac 11880
caagaagtga aattcctggg tcatagggcg tgagtccgac atttttctcc attctgccct 11940
gttgccctcc agagtgggtg tccagctttg catacctaag tatgagagta tctgttgttc 12000
atatcctcta cgacgctcca tatatgaaac ttaagtttct gctagttgcc atctttgatc 12060
tatcatgtat gcagtgacct actaagactg taattggtac agtagattct tgtcatctgt 12120
gtgtgaattt agcattcatg ggcttaatgc tgacaaggcc cccagggtcc aagacatata 12180
atcatgtata attttgtcaa ggtataattt tttaaattgc ttttgtcatg tgtctgctgg 12240
tgatgcccaa cccagtgctc tgcacccagg tcacactgtg gctttgtcct ctgcttatgc 12300
ctgcattgca gcaactgtcc tgaagagacc aaaattatgc agatttaggt aagtccatgg 12360
ctaatgttat tatattatgt gctattgtaa tggatggggc tgtggagtgt atgaatttat 12420
aaatcactgg tcttgtaatt aaaattcaaa cactatagaa aaaggccatg tagaagataa 12480
aagttcctct ataatcccgg acccctaaga taactactaa tgacaacttc atttatattc 12540
cttcagacat tttctggctg tggatgtact aaaatgtatc ctattattct ctgccctaaa 12600
atggaatcat acaaggtgta ctgttatttt tatggctcta taacatgtca tattgtacgt 12660
gttggtatgg tcattttaac catttttcta gtgatggctt tgaggttatt tgcagtttcc 12720
tagccatctc aaagtgtgct gcggggatct cttttgcatc cctctgggtg cagagctgag 12780
gcacccagag gcagtgtcca gaggaggcag catctgtagg tgtcttcacc tgctctggct 12840
cttggcacat ctggttggtg acactgtttt gtgagatggg ttgaaagcac gtgctgccaa 12900
aatagaataa tgttggtcct ctcctcatgt gccgtggaac tggggtaaaa ctgcgtagtg 12960
gctgcagctg cctgtccata ccggaatcga gtataacacg gtgcctggct tagcacaaaa 13020
cagtagtggg tcctgcaggc cccagagtct aattcctggt attctttccc ctacacagat 13080
taaataaacc aaaaacaaac tattctagga aagcgtctgt gacatttgta aaaagtggta 13140
tttaatgatc ttttattcac ttgtctgttt agtttgttga aatcttaagt ggcatcctgg 13200
tctgggaagg agtgctgtct gcgcctgccc tccgctgggc acagcgtggc tgcttcaggg 13260
gctaagcaca cactttctgt cttctaaagg gccgccacat gccaggagct caggtgtgag 13320
cccggctctg gctcttacct catagggtca ctcatagggg cacagggagc agaacattgt 13380
acacagcgag gcaccacccg gcttggcatc tgcctcggtg gacttactac ctctagaagg 13440
aaatacctga gttcctctgg cctcagctcc tagagtgact ggtgtgctgt ccctgttact 13500
cttctgtcaa ggtgacaact gtgtgaccca tcatctgtgt gtcaaagcaa ggccctgcct 13560
gggcctctgc tcctgtgctg accccaaagg caaatgcttt gctagtttcc ttccagttaa 13620
tttcacctat gaatagatgt gtgaaaactg ttcaaagcca tacctgcaca tgtttgaact 13680
tcaaaccctg tgggtgattc agtggcatct ttctctaacc cccagcctcc cttcccacag 13740
aggccaccgt catggccagt tgctgcagtt tctttccaga gaacctgtgt atgtgtaaag 13800
ctgtacaggc gtgggtacac cacacagcct gtcttgcact gtggactgtt gagttactag 13860
tacatctagg taagcaccgc atatctgtat tcatgtctgc cttggtcttt tcaacatctg 13920
tgtggtagcc gtgtttgaat tacccattcc ctttttgggg aaccattaag ttgtttcagc 13980
aatttttact gtagataagg ctataccgca tatctgtgta catgggtttt tatgtacatg 14040
ggcaagtata tctgtgagag aaaagtttcc tcaggaggaa ttctgggcac agcatgtgta 14100
aatttctaaa tatgatggac acccccagct tccacctcaa ggaggttggt cccattgaca 14160
tttccccaca ccttcaccca ggctgtgccc ttaaacttgg ttatttgtca atgtgagaag 14220
tggaaaatag tatttaattg tagtttggat ttgtatttct attgggttgt atacttactg 14280
attaataata agagctcttt acatattaag gaaattaacc cttttcaaat acattcctat 14340
ttctcactaa tctttaagtt ttattgtaat attttgctct ttagtttata tatatatgta 14400
tatatatata tatgtatata tatatatata catatatata tacatatata tatactaatt 14460
ttcttttatg gttcctggat tttgtgagta gtttgaaaag gctaatccag ctgaagattt 14520
tgttgttgtt gttaaacccc atgttttctc ctaactcttt ttatttttat tttggaggac 14580
tctatctaga cttaatttta gcataacaag tgacagggtt agttagcctg ttgtccttac 14640
accattttct ggctaataca gctattaact attgatctgt ctattcacgt gccagttcct 14700
aatggtttta catagtgtaa tctgcacttc aaaatagcga agggaagccc tacctcatta 14760
ttctactttt ccagaattct cctggctatt ccaggctgca tgtttacctt aaccttccct 14820
gtgatgtctt catgccgttg tcttcttatg caagaataag gtacgtcttt ccatccactc 14880
acgtctattt aatttgactt tgcattacac agaaagctgg tcttggtctg tctacctcgg 14940
catctagttg tcctcactgc cccctagccg accccacccc atctgactga ctaccccatc 15000
acagagtact tttatttacg ttttgctctg cctaatggtt acttgatact gtcacgccga 15060
cagtgtccag ttcagtggtc tttgcagttg aaatgctccc gtacacactg tcttgttaaa 15120
aatgccagta agttcataca aacccagctt gcacccaagg tcacattcag agagcgtagg 15180
gctgggatgg gttgttttcc aagcttctgc cactgtgtgg ctagctcttc ccactgggaa 15240
gttctgtgta cccggaatgt cggagtggag tcctgttcta gtgtccagca cctgaccctg 15300
tgcccaaccc ctcaacagcc tattcctgct gtccacagcc tgctggaact ttttacaaaa 15360
tatgttgcca tgctggaccc tgggcactgg acataagccc cctggcagcc tttttcatgt 15420
cacccaaagg ggtaattgtc ctactggtgg tctgtaagat gagttagggt gacttgctaa 15480
tagacattgt aaatcttaat atttatgtat gtattttatt attaccggtt ttccatttat 15540
gatggtaata ttgtttcttc taagaatatt tatttttcct tctaaatatt gagataaaat 15600
tcatgctttt gaaatgttct attcagtggc ttttagtata tttgctatgt tgtgcaacca 15660
tcgacactat ccatttctag aactttttcg tcatcccaaa cagacgctct gtattcataa 15720
aaaaataact tcctacctgt ctctccccct agtctttggt aacctttgtt atactggtaa 15780
actttgttgt gctctctgtc tgtgtgaatt tgcctattct aggggcctca tataagtgta 15840
atcatacagt atttgtcttt ttgggtctgt ctgatttcac ttagcgggtt ttcagggttc 15900
attcatgttg cagcatataa cagtactgcg ttcctttttc tggctgaata atattccact 15960
gtatggatag accccatttt gtttattcac acatcatttg gacatttgga ttatttctgg 16020
tttttggcta ttatgaacaa tggtgctatg aacagttgcg tacaagtttt tgtgtgaaca 16080
tatgttttca attctctcat tatataccta ggagtagaat tactgggtca tatggtaact 16140
gtatattttt gaggaactgc caaactattt tcccacgtcc atgcaccatt tcacattccc 16200
accagtaagt aagagggttc caatttctgc gcattcttgc caacactagt tattatctga 16260
ctttctggtt ataatcattc taatgagtgt gaagtagcct ctggtgtcat ttggatttgc 16320
atttctctga tgagtgatgc tatcaagcac ctttgctggt gctgttggcc atatgtgtat 16380
gttccctgga gaagtgtctg tgctgagcct tggcccactt tttaattagg cgtttgtctt 16440
tttattactg agttgtaaga gttctttata tattctggat tctagaccct tatcagatac 16500
atggtttgca aatattttct cccattctgt gggttgtgtt ttcactttat cgataatgtc 16560
cttagacata taataaattt gtattttaaa agtgacttga tttggctgtg caaggtggct 16620
cacgcttgta atcccagcac tttgggagac tgaggtgggt ggatcatatg aggaggctag 16680
gagttcgagg tcagcctggc cagcatagcg aaaacttgtc tctactaaaa atacaaaaat 16740
tagtcaggca tggtggtgca cgtctgtaat accagcttct caggaggctg aggcacgagg 16800
atcacttgaa cccaggagga ggaggttgca gtgagctgag atcatgccag ggcaacagaa 16860
tgagactttg tttaaaaaaa aaaaaaagtg acttgattta agggaaaaaa tgactggcta 16920
tattcagtca gatatggcaa aaagtctcaa ggtgttaatg tgaatgatta aggtcttggg 16980
gggggtgtcc cctatcagac tacaggtgtt tagaggcaca gaaaaaggtg cagttgggtt 17040
cttaatgtga aatgatgaga agcacaactc cagtgtgtct ctttgtgtag aatgtcagca 17100
gacaccccct gctagatgtg ctggatcatg ggaaagcatt tccatttgtt actagattgt 17160
tcagaagttt taatttatga tgggtgtggt ggctcatgcc tgtagtccca gcactgtggg 17220
aggctgaggc aggaggatca tctgaggcca agagttcaag atcagcctgg gcaacatagt 17280
gataccctat ctcttaaaaa agaagaagtt tttaaatttg aaataataat aggtactgga 17340
tttatgcaaa tgtcttttct gcgtcttttg agatgagtat caggtttttt tttttccttt 17400
tatcatctga tgatgaactt aatgtttcca tttgtattaa tggaatacta agtccctctg 17460
tgatttctga accaagctat tcctaggcct gagttttatt ttgttgacac agaaataaat 17520
tagaaggcca agcgtggtgg catgtgcctg tagtcctagt tgctgaggta agaggattgc 17580
ttgagcccag gagttcaagg ctgcagcaag ctttgattgc gccactgcac tccagccttg 17640
gcgacagact aagacgctgt ctcaaaaaaa aacaaaaacg acaaaaaaaa aacaaaacag 17700
aaaaaataaa ctaaggcaat gacagtccct ggcaaatgct gggagggagg cagcagtggt 17760
cagggaaggt aaccctgaag caggacttgt aaagcaaata agattgggag gccaaggtgg 17820
gtggatcacg aggtcaggag ttcgagacca gcctggccaa catagtgaaa ccccgtcttt 17880
actaaaaata caaaaaaatt agccaggtgt ggtggtgggt gcctgtagtc ccagctactt 17940
gggaggctga ggcaggagaa tctcgaaccc aggaggcgga ggttacagtc agctgagacc 18000
gcaccattgc actccagcct gggtgacaga gcaagattcc gtctcaaaaa aaaaaaaaaa 18060
aaaaaaacca agaagaaaag gaatgaatta gaacttcttc tgcttggact taagggcatc 18120
atcaggcagg ttttgggtag gatagcaggg gaggcagaga catagtcggg gtcagtggtc 18180
atgagtgtgg ctttgagccc aaaaacttgg tttctgttcc ctactttgcc actcagtagt 18240
gcatgacttt ggccaaattt cttaaattca tgaagcaagt ttccgggtga atgaaatggg 18300
gataaaaata gtgttcaaac ctatccgttg gtttgtgtga aactgaaatg aatagtatcg 18360
tgcaggtact tgtgagcaag gggagctgct gtttcctgtc cctttatgat gggaaatatc 18420
tagacaagtt cccaaccctc tgcactgcag gctgcatggc acggagggtc ttgtaacacc 18480
agctggggct ggccttcttt taggagcttc agtggttctg aaaactttta tttgtttgtt 18540
tgttttagta gatgtggggt ctttctgtgt tgcccggact ggtctcaaac ttctggactc 18600
aagtgatcct cccccgctca acctcccaaa gtgttgggat tacaggtgtg agccactgtg 18660
cccagccttg aaaacttttt caggttcttc cagggttact gggctattaa atatttctat 18720
ttcattataa gtcagttttt caaagttata ttatcttaat tacctttttt atatgtatta 18780
gtgtagagta gcattttata ttttgatatc ctccttatgc atagtttttc actttttatt 18840
cctagttttt cgtttttaat aagactttca agaaatttat tttattggcc ttttgaaaaa 18900
agcagcttta gataaagtaa gcagttctgc tttcatttta taatttattt ctacttttgt 18960
ttcattaatc ttttcctccg gcatgccttg gattttgttg tgttactctt tttctagagg 19020
ctcgcattgt gtgtctggtt cacttatgat cacgcttgcc tacttttaag aatggaagag 19080
gggaggtgga gggtggctgc acagtcgagg gtgtgaggca gtcttgctct agccccacca 19140
tgccctcagc ccgctgtggc cacgctggtt cctcaattgc tggggcgtgc agtgtctgta 19200
agggaggcta ctgatgccat ccgaggaaga tgtaaggttt cgtgtgggca gcgagagcct 19260
agcaggcatg tggggtgccc agcaaagggt aacagtggac agttgttgcc tcattccaca 19320
gagttttgat tttttttttt tttttaatgg tcactccatc aacatccccc atggccagag 19380
cctgagctgg tccccagaga cacaggcatt cagctgacag cctcgccttc acgctgctgc 19440
tgttctcatg ggggacaggc ctcaggtggc aatgcacaaa tcattagtta agggcagttg 19500
tgacagttac caaggagtgt agtcccccgc cccccgccca gtgaaaacag ccctaaccag 19560
gggtggggac ctttgggctc tgacccgaag ggtaggagaa gctggaagga cagcattcct 19620
gtctgcgaag gcaggagcaa agctgccagg ctatgaagga aatggctgga gcctgaagtc 19680
atgcaagctg gggctggcag ggacagggcc aacttccagg cctgggggcc accatgagga 19740
ttcaggacgt gacccccagg gcacatgaag gccttccatc tgtatttaag aaaagacttt 19800
atcagacgag tatggtggct cacgcctgaa tcttagcact ttgggaggct gaggcaggtg 19860
gatcacgagg tcaggagttc aataccagcc tggccaatat ggtaaaaccc catctctact 19920
aaaactacaa aaattagcca ggcatggtgg cgcacgcctg tagtcccagc tactcgggag 19980
gctgaggcag aagaatcact tgaacccggg aggtggaggt tacagtgagc caagatcgcg 20040
ccactacact ccagcctggg tgacagagtg agactccgtc tcaaaaaaac caaaagactt 20100
tatcttattt cctatatgtt tgtggtttca gtcctgatgt ataatttgac cctagttaga 20160
atggttatct gaggaagtgg cctgtacgat ttctgctttt ttaaatgtgt ggctcccttt 20220
cttcattgat taacgtatga ttatttttat aaatgttcca tggcagtggg aagggattct 20280
ctgtcacatt ccacatctgg atcagttcct ccccattttg ttggtcaaat ccgatctgcc 20340
atatcctgtg taatgacaag tgagttgcat tctcaccgtc actcctgggg tctctccgct 20400
tcccctgagc tggctcagca gtctgctcca tgtgttttga tgcagggtga cccattggta 20460
ttcccgacac taacgccccc gtctgtggac tgcttgctgc ttgggcttca ctgtgtctgg 20520
tgttgacagt gcagacctaa aggtgtgcac acatgtgcac acacactccg ctgtcttctt 20580
gtttgcactg gacttaaata tctatgaggg ttattttcaa ctgctgaatt tggaatgatt 20640
tttatatctt ttctgctttc tgcccatgta catgtgttta ttttacactg ttgtgattgg 20700
tagttactat gtggggacac aattacttgg gctgaaataa tccacctgtt gtggttgggg 20760
tcctctgggg cattccaggg tgagaggttg tcactgccac ctgggccatg tgggccggca 20820
ccagcatttt gtggttacga attctacagt cacaaatatc tttgggcaaa tccccttcta 20880
tacctcaagg cagcttttgg tttgcaaccc cactggccag agggaagggc cagtcacttg 20940
gctctctcac tgccctgcgc cccagatggt tctagggctg ctgttttccc ttggccctgc 21000
caacaccact gtttttactt ctgctcattg gctgagtgca gtggttcctg gaagccagtg 21060
gcacgtttcc ccgcgtagct cgcttatccc acagcacaca cccaagggtt ctgttgctaa 21120
cacgctgaat taattctttg ctcatcttac agagtgtgtt ttgactgccc ccatttctga 21180
ggccttgtaa ggccagagct ttgttgcttc atcggcaggt tgggacttag atggccgtga 21240
atgtttcctc tctgctgctg cagtaagtaa gtgcccgcac catagtgtgt ttggaggctg 21300
aagttgaagc gaggctgtga ggggagatgg acgtgtgagg agggatgatg gggcttgagc 21360
aaagtggggg agggggcaaa ggcagttggc ccaacacatt ccccacccct ttgagaggtc 21420
tgaggcctgc agacctggct cggagcccac ctggtagtcc tcagactgtg tgtgtgtgtg 21480
tgtgtgtgtg tgtgtgtgtg tgtgtgtgtg tgtgtgtgtg tgtgtaaaag agagaagttg 21540
tggagaaatg gggggctgat tctgctcaga ttcatcagga tgagtagaag gcacccagct 21600
ctcaccctgg cctgacatgt gtgtccctga gcaggttaca gtcctctctg agcctctgct 21660
tcccatctgg accctgctgg gcagggcttc tgagctcctt agcactagca ggaggggctc 21720
caggggccct ccctccatgg cagccaggac aggactctca aatgaggaca gcagagctcg 21780
tggggggctc ccacggaccc gccgtgggcc caggggaggc agagcctgag ccaacagcag 21840
tggtgctgtg gaccgtggat cctgagggtg gcctggggca agtaccggct gagggtccag 21900
gtgggctttg tgtacctttg ggtcctgggg ccctggtgac ttggactcca ggttagagtc 21960
aagtgacagg agaaaggctg gtggggccct gtgcttccga cttcatttcg agtgatggca 22020
gttcccagga aggaatccac agctgacggt ggctgacaga tcagagaatg gaaggcgagg 22080
caggcgggcg tctgcgtgac ctcaggtgct tggggcccag cagacccaga gaaccatttc 22140
cactaggcca gggtgccgga agtgtccaca ggtcttagat tccctgttca gatgaaaaga 22200
tttgtgcctt taatgataaa agtgatctgc atagagtcaa aaattcaagc catgggtata 22260
aaatgcaagt aaaatccctg ccctcaccta tcccacccta ctacacagag atgtcctctc 22320
gagtttccta gactcactct ggaaatttct gtatacacac agaagcttgt gcctctgctc 22380
gtgaaggcag agggagggag agctgaaggg ccagcacctt ctcacctgtg ggccccctca 22440
gtgctcggtc ccagagcatg caggactgtg cctcgtgttc agtttgctgg tctgacttca 22500
tgctccttgg gcaggatatg catgtgccat gctaggagac atgtggatgt gaagctgggg 22560
gacaatgtcc cctggctatg cctttacaag ggaagtaagg aaggtaggag gtgagcctgg 22620
gagggaggga gggaggcgcg gagccgccgc aggtgtttct tttactgagt gcagcccatg 22680
gccgcactca ggttttgctt ttcaccttcc catctgtgaa agagtgagca ggaaaaagca 22740
aaa 22743
<210> 9
<211> 58
<212> DNA
<213> Homo sapiens
<400> 9
gatgctggtg gttggcactc ctggtttcca ggacggggtt caaatccctg cggcgtct 58
<210> 10
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 10
agatctcgtt gcgatattat 20
<210> 11
<211> 27
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 11
gagaacatta ttatagcgtt gctcgag 27
<210> 12
<211> 59
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 12
aaaggttttt cttttcctga gaaatttctc aggttttgct ttttaaaaaa aaagcaaaa 59
<210> 13
<211> 65
<212> RNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 13
gcuggguuuu uccuuguucg caccggacac cuccagugac cagacggcaa gguuuuuauc 60
ccagu 65
<210> 14
<211> 51
<212> RNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 14
uuuuuccuug uucgcaccgg acaccuccag ugaccagacg gcaagguuuu u 51
<210> 15
<211> 93
<212> RNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 15
gaagguuuuu cuuuuccuga gaaaacaaca cguauuguuu ucucagguuu ugcuuuuugg 60
ccuuuuucua gcuuaaaaaa aaaaaaagca aaa 93
<210> 16
<211> 53
<212> RNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 16
uuuuucuuuu ccugagaaaa caacacguau uguuuucuca gguuuugcuu uuu 53
<210> 17
<211> 75
<212> RNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 17
gaagguuuuu cuuuuccuga ggcgaaaguc ucagguuuug cuuuuuggcc uuucuuaaaa 60
aaaaaaaaag caaaa 75
<210> 18
<211> 10
<212> RNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 18
uuuuucuuuu 10
<210> 19
<211> 11
<212> RNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 19
uuuugcuuuu u 11
<210> 20
<211> 19
<212> RNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 20
aaaaaaaaaa aaagcaaaa 19
<210> 21
<211> 21
<212> RNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 21
gaagguuuuu cuuuuccuga g 21
<210> 22
<211> 28
<212> RNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 22
ucucagguuu ugcuuuuugg ccuuucuu 28
<210> 23
<211> 8
<212> RNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 23
uuucuuuu 8
<210> 24
<211> 9
<212> RNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 24
uuuugcuuu 9
<210> 25
<211> 11
<212> RNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 25
aaaaagcaaa a 11
<210> 26
<211> 61
<212> RNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 26
ggagguguuu cuuuuacuga gugcagccca uggccgcacu cagguuuugc uuuucaccuu 60
c 61
<210> 27
<211> 47
<212> RNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 27
uuucuuuuac ugagugcagc ccauggccgc acucagguuu ugcuuuu 47
<210> 28
<211> 6788
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<220>
<221> misc_feature
<222> (34)..(602)
<223> enhancer/promoter
<220>
<221> misc_feature
<222> (741)..(791)
<223> codon optimized ABCA4 ORF
<220>
<221> misc_feature
<222> (741)..(743)
<223> ATG
<220>
<221> misc_feature
<222> (744)..(785)
<223> V5 eptiope tag
<220>
<221> misc_feature
<222> (4520)..(4578)
<223> hhRz
<400> 28
aatattattg aagcatttat cagggttact agcctagtta ttaatagtaa tcaattacgg 60
ggtcattagt tcatagccca tatatggagt tccgcgttac ataacttacg gtaaatggcc 120
cgcctggctg accgcccaac gacccccgcc cattgacgtc aataatgacg tatgttccca 180
tagtaacgcc aatagggact ttccattgac gtcaatgggt ggagtattta cggtaaactg 240
cccacttggc agtacatcaa gtgtatcata tgccaagtac gccccctatt gacgtcaatg 300
acggtaaatg gcccgcctgg cattatgccc agtacatgac cttatgggac tttcctactt 360
ggcagtacat ctacgtatta gtcatcgcta ttaccatggt gatgcggttt tggcagtaca 420
tcaatgggcg tggatagcgg tttgactcac ggggatttcc aagtctccac cccattgacg 480
tcaatgggag tttgttttgg caccaaaatc aacgggactt tccaaaatgt cgtaacaact 540
ccgccccatt gacgcaaatg ggcggtaggc gtgtacggtg ggaggtctat ataagcagag 600
ctctctggct aactagagaa cccactgctt actggcttat cgaaattaat acgactcact 660
atagggagac ccaagctggc tagcgtttaa acgggccctc tagactcgag cggccgccac 720
tgtgctggat aaacgccacc atgggtaagc ctatccctaa ccctctcctc ggtctcgatt 780
ctacgggccg cggctttgtg cgacagattc agctgctgct gtggaagaac tggaccctgc 840
ggaagcggca gaaaatcaga ttcgtggtgg aactcgtgtg gcccctgagc ctgtttctgg 900
tgctgatctg gctgcggaac gccaatcctc tgtacagcca ccacgagtgt cacttcccca 960
acaaggccat gccttctgcc ggaatgctgc cttggctgca gggcatcttc tgcaacgtga 1020
acaacccctg ctttcagagc cccacacctg gcgaaagccc tggcatcgtg tccaactaca 1080
acaacagcat cctggccaga gtgtaccggg acttccaaga gctgctgatg aacgcccctg 1140
agtctcagca cctgggcaga atctggaccg agctgcacat cctgagccag ttcatggaca 1200
ccctgagaac acaccccgag agaatcgccg gcaggggcat cagaatccgg gacatcctga 1260
aggacgagga aaccctgaca ctgttcctca tcaagaacat cggcctgagc gacagcgtgg 1320
tgtacctgct gatcaacagc caagtgcggc ccgagcagtt tgctcatggc gtgccggatc 1380
tcgccctgaa ggatatcgcc tgttctgagg ccctgctgga acggttcatc atcttcagcc 1440
agcggagagg cgccaagacc gtcagatatg ccctgtgcag tctgagccag ggaaccctgc 1500
agtggatcga ggataccctg tacgccaacg tggacttctt caagctgttc cgggtgctgc 1560
ccacactgct ggattctaga tcccagggca tcaacctgag aagctggggc ggcatcctgt 1620
ccgacatgag cccaagaatc caagagttca tccaccggcc tagcatgcag gacctgctgt 1680
gggttaccag acctctgatg cagaacggcg gacccgagac attcaccaag ctgatgggca 1740
ttctgagcga tctgctgtgc ggctaccctg aaggcggagg atctagagtg ctgagcttca 1800
attggtacga ggacaacaac tacaaggcct tcctgggcat cgactccacc agaaaggacc 1860
ccatctacag ctacgaccgg cggacaacca gcttctgcaa tgccctgatc cagagcctgg 1920
aaagcaaccc tctgaccaag atcgcttgga gggccgccaa acctctgctg atgggaaaga 1980
tcctgtacac ccctgacagc cctgccgcca gaagaatcct gaagaacgcc aacagcacct 2040
tcgaggaact ggaacacgtg cgcaagctgg tcaaggcctg ggaagaagtg ggacctcaga 2100
tttggtactt cttcgacaat agcacccaga tgaacatgat cagagacacc ctgggcaacc 2160
ctaccgtgaa ggacttcctg aacagacagc tgggcgaaga gggcattacc gccgaggcca 2220
tcctgaactt tctgtacaag ggccccagag agtcccaggc cgacgacatg gccaacttcg 2280
attggcggga catcttcaac atcaccgaca gaaccctgcg gctggtcaac cagtacctgg 2340
aatgcctggt gctggacaag ttcgagagct acaacgacga gacacagctg acccagagag 2400
ccctgtctct gctggaagag aatatgttct gggctggcgt ggtgttcccc gacatgtacc 2460
cttggacaag cagcctgcct cctcacgtga agtacaagat ccggatggac atcgacgtgg 2520
tcgaaaagac caacaagatc aaggaccggt actgggacag cggccctaga gctgatcccg 2580
tggaagattt tcggtacatc tggggcggat tcgcatacct gcaggacatg gtggaacagg 2640
gaatcacacg gtcccaggtg caggctgaag ctcctgtggg aatctacctg cagcagatgc 2700
cttatccttg cttcgtggac gacagcttca tgatcatcct gaatcggtgc ttccccatct 2760
tcatggtgct ggcctggatc tactccgtgt ctatgaccgt gaagtccatc gtgctggaaa 2820
aagagctgcg gctgaaagag acactgaaga accagggcgt gtccaatgcc gtgatctggt 2880
gcacctggtt tctggacagc ttctccatta tgagcatgag catctttctg ctgacgatct 2940
tcatcatgca cggccgaatc ctgcactaca gcgacccctt tatcctcttc ctgttcctgc 3000
tggccttcag caccgctaca atcatgctgt gttttctgct gtccaccttc ttcagcaagg 3060
cctctctggc cgctgcttgt agcggcgtga tctacttcac cctgtacctg cctcacatcc 3120
tgtgcttcgc atggcaggac agaatgaccg ccgagctgaa gaaagctgtg tccctgctga 3180
gccctgtggc ctttggcttt ggcaccgagt acctcgtcag atttgaggaa caaggactgg 3240
gactgcagtg gtccaacatc ggcaatagcc ctacagaggg cgacgagttc agcttcctgc 3300
tgtctatgca gatgatgctg ctggacgccg ccgtgtatgg actgctggct tggtatctgg 3360
accaggtgtt cccaggcgat tacggcactc ctctgccttg gtatttcctg ctgcaagaga 3420
gctactggct cggcggcgag ggatgtagca ccagagaaga aagagccctg gaaaagaccg 3480
agcctctgac cgaggaaaca gaggaccctg aacacccaga gggcatccac gatagctttt 3540
tcgagagaga acaccccggc tgggtgccag gcgtgtgtgt gaagaatctg gtcaagattt 3600
tcgagccctg cggcagacct gccgtggaca gactgaacat caccttctac gagaaccaga 3660
ttaccgcctt tctgggccac aacggcgctg gcaagacaac cacattgagc atcctcacag 3720
gcctgctgcc tccaacaagc ggcacagttc tcgttggcgg cagagacatc gagacaagcc 3780
tggatgccgt cagacagtcc ctgggcatgt gccctcagca caacatcctg tttcaccacc 3840
tgaccgtggc cgagcacatg ctgttttatg cccagctgaa gggcaagagc caagaagagg 3900
ctcagctgga aatggaagcc atgttggagg acaccggcct gcaccacaag agaaatgagg 3960
aagcccagga tctgagcggc ggcatgcaga gaaaactgag cgtggccatt gccttcgtgg 4020
gcgacgccaa ggttgtgatc ctggatgagc ctacaagcgg cgtggaccct tacagcagaa 4080
gatccatctg ggatctgctg ctgaagtaca gatcaggccg gaccatcatc atgagcaccc 4140
accacatgga cgaggccgat ctgctcggag acagaatcgc catcattgct cagggcagac 4200
tgtactgcag cggcacccca ctgtttctga agaactgttt cggcaccgga ctgtatctga 4260
ccctcgtgcg gaagatgaag aacatccagt ctcagcggaa gggcagcgag gtaagtccga 4320
atacgacacg tagcaagatc ttcactgttt aatctgttaa ttcatctgag cattttgagg 4380
gtgtagtcgc ttgattttat cctagagagt gtgtgagtca cacacagaga ggagcagaac 4440
ctccaagggt ccctttggct tgtcatcaat tatgtggcag ctgtaggttc tgcggccgca 4500
gcaaaccaaa caaacaaagg cgcgtcctgg attccacggt acatccagct gatgagtccc 4560
aaataggacg aaacgcgctc aaacaaacaa aagtaggata agtaagtaat attaaggtac 4620
gggaggtatt ggacaggccg caataaaata tctttatttt cattacatct gtgtgttggt 4680
tttttgtgtg aatcgatagt actaacatac gctctccatc aaaacaaaac gaaacaaaac 4740
aaactagcaa aataggctgt ccccagtgca agtgcaggtg ccagaacatt tctctggcct 4800
aactggccgc gtcgaccgat gcccttgaga gccttcaacc cagtcagctc cttccggtgg 4860
gcgcggggca tgactatcgt cgccgcactt atgactgtct tctttatcat gcaactcgta 4920
ggacaggtgc cggcagcgct cttccgcttc ctcgctcact gactcgctgc gctcggtcgt 4980
tcggctgcgg cgagcggtat cagctcactc aaaggcggta atacggttat ccacagaatc 5040
aggggataac gcaggaaaga acatgtgagc aaaaggccag caaaaggcca ggaaccgtaa 5100
aaaggccgcg ttgctggcgt ttttccatag gctccgcccc cctgacgagc atcacaaaaa 5160
tcgacgctca agtcagaggt ggcgaaaccc gacaggacta taaagatacc aggcgtttcc 5220
ccctggaagc tccctcgtgc gctctcctgt tccgaccctg ccgcttaccg gatacctgtc 5280
cgcctttctc ccttcgggaa gcgtggcgct ttctcatagc tcacgctgta ggtatctcag 5340
ttcggtgtag gtcgttcgct ccaagctggg ctgtgtgcac gaaccccccg ttcagcccga 5400
ccgctgcgcc ttatccggta actatcgtct tgagtccaac ccggtaagac acgacttatc 5460
gccactggca gcagccactg gtaacaggat tagcagagcg aggtatgtag gcggtgctac 5520
agagttcttg aagtggtggc ctaactacgg ctacactaga agaacagtat ttggtatctg 5580
cgctctgctg aagccagtta ccttcggaaa aagagttggt agctcttgat ccggcaaaca 5640
aaccaccgct ggtagcggtg gtttttttgt ttgcaagcag cagattacgc gcagaaaaaa 5700
aggatctcaa gaagatcctt tgatcttttc tacggggtct gacgctcagt ggaacgaaaa 5760
ctcacgttaa gggattttgg tcatgagatt atcaaaaagg atcttcacct agatcctttt 5820
aaattaaaaa tgaagtttta aatcaatcta aagtatatat gagtaaactt ggtctgacag 5880
cggccggccg caaatgctaa accactgcag tggttaccag tgcttgatca gtgaggcacc 5940
gatctcagcg atctgcctat ttcgttcgtc catagtggcc tgactccccg tcgtgtagat 6000
cactacgatt cgtgagggct taccatcagg ccccagcgca gcaatgatgc cgcgagagcc 6060
gcgttcaccg gcccccgatt tgtcagcaat gaaccagcca gcagggaggg ccgagcgaag 6120
aagtggtcct gctactttgt ccgcctccat ccagtctatg agctgctgtc gtgatgctag 6180
agtaagaagt tcgccagtga gtagtttccg aagagttgtg gccattgcta ctggcatcgt 6240
ggtatcacgc tcgtcgttcg gtatggcttc gttcaactct ggttcccagc ggtcaagccg 6300
ggtcacatga tcacccatat tatgaagaaa tgcagtcagc tccttagggc ctccgatcgt 6360
tgtcagaagt aagttggccg cggtgttgtc gctcatggta atggcagcac tacacaattc 6420
tcttaccgtc atgccatccg taagatgctt ttccgtgacc ggcgagtact caaccaagtc 6480
gttttgtgag tagtgtatac ggcgaccaag ctgctcttgc ccggcgtcta tacgggacaa 6540
caccgcgcca catagcagta ctttgaaagt gctcatcatc gggaatcgtt cttcggggcg 6600
gaaagactca aggatcttgc cgctattgag atccagttcg atatagccca ctcttgcacc 6660
cagttgatct tcagcatctt ttactttcac cagcgtttcg gggtgtgcaa aaacaggcaa 6720
gcaaaatgcc gcaaagaagg gaatgagtgc gacacgaaaa tgttggatgc tcatactcgt 6780
cctttttc 6788
<210> 29
<211> 6598
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 29
aatattattg aagcatttat cagggttact agcctagtta ttaatagtaa tcaattacgg 60
ggtcattagt tcatagccca tatatggagt tccgcgttac ataacttacg gtaaatggcc 120
cgcctggctg accgcccaac gacccccgcc cattgacgtc aataatgacg tatgttccca 180
tagtaacgcc aatagggact ttccattgac gtcaatgggt ggagtattta cggtaaactg 240
cccacttggc agtacatcaa gtgtatcata tgccaagtac gccccctatt gacgtcaatg 300
acggtaaatg gcccgcctgg cattatgccc agtacatgac cttatgggac tttcctactt 360
ggcagtacat ctacgtatta gtcatcgcta ttaccatggt gatgcggttt tggcagtaca 420
tcaatgggcg tggatagcgg tttgactcac ggggatttcc aagtctccac cccattgacg 480
tcaatgggag tttgttttgg caccaaaatc aacgggactt tccaaaatgt cgtaacaact 540
ccgccccatt gacgcaaatg ggcggtaggc gtgtacggtg ggaggtctat ataagcagag 600
ctctctggct aactagagaa cccactgctt actggcttat cgaaattaat acgactcact 660
atagggagac ccaagctggc tagcgtttaa acgggccctc tagactcgag cggccgccac 720
tgtgctggat aaacgccacc atgggtaagc ctatccctaa ccctctcctc ggtctcgatt 780
ctacgggccg cggctttgtg cgacagattc agctgctgct gtggaagaac tggaccctgc 840
ggaagcggca gaaaatcaga ttcgtggtgg aactcgtgtg gcccctgagc ctgtttctgg 900
tgctgatctg gctgcggaac gccaatcctc tgtacagcca ccacgagtgt cacttcccca 960
acaaggccat gccttctgcc ggaatgctgc cttggctgca gggcatcttc tgcaacgtga 1020
acaacccctg ctttcagagc cccacacctg gcgaaagccc tggcatcgtg tccaactaca 1080
acaacagcat cctggccaga gtgtaccggg acttccaaga gctgctgatg aacgcccctg 1140
agtctcagca cctgggcaga atctggaccg agctgcacat cctgagccag ttcatggaca 1200
ccctgagaac acaccccgag agaatcgccg gcaggggcat cagaatccgg gacatcctga 1260
aggacgagga aaccctgaca ctgttcctca tcaagaacat cggcctgagc gacagcgtgg 1320
tgtacctgct gatcaacagc caagtgcggc ccgagcagtt tgctcatggc gtgccggatc 1380
tcgccctgaa ggatatcgcc tgttctgagg ccctgctgga acggttcatc atcttcagcc 1440
agcggagagg cgccaagacc gtcagatatg ccctgtgcag tctgagccag ggaaccctgc 1500
agtggatcga ggataccctg tacgccaacg tggacttctt caagctgttc cgggtgctgc 1560
ccacactgct ggattctaga tcccagggca tcaacctgag aagctggggc ggcatcctgt 1620
ccgacatgag cccaagaatc caagagttca tccaccggcc tagcatgcag gacctgctgt 1680
gggttaccag acctctgatg cagaacggcg gacccgagac attcaccaag ctgatgggca 1740
ttctgagcga tctgctgtgc ggctaccctg aaggcggagg atctagagtg ctgagcttca 1800
attggtacga ggacaacaac tacaaggcct tcctgggcat cgactccacc agaaaggacc 1860
ccatctacag ctacgaccgg cggacaacca gcttctgcaa tgccctgatc cagagcctgg 1920
aaagcaaccc tctgaccaag atcgcttgga gggccgccaa acctctgctg atgggaaaga 1980
tcctgtacac ccctgacagc cctgccgcca gaagaatcct gaagaacgcc aacagcacct 2040
tcgaggaact ggaacacgtg cgcaagctgg tcaaggcctg ggaagaagtg ggacctcaga 2100
tttggtactt cttcgacaat agcacccaga tgaacatgat cagagacacc ctgggcaacc 2160
ctaccgtgaa ggacttcctg aacagacagc tgggcgaaga gggcattacc gccgaggcca 2220
tcctgaactt tctgtacaag ggccccagag agtcccaggc cgacgacatg gccaacttcg 2280
attggcggga catcttcaac atcaccgaca gaaccctgcg gctggtcaac cagtacctgg 2340
aatgcctggt gctggacaag ttcgagagct acaacgacga gacacagctg acccagagag 2400
ccctgtctct gctggaagag aatatgttct gggctggcgt ggtgttcccc gacatgtacc 2460
cttggacaag cagcctgcct cctcacgtga agtacaagat ccggatggac atcgacgtgg 2520
tcgaaaagac caacaagatc aaggaccggt actgggacag cggccctaga gctgatcccg 2580
tggaagattt tcggtacatc tggggcggat tcgcatacct gcaggacatg gtggaacagg 2640
gaatcacacg gtcccaggtg caggctgaag ctcctgtggg aatctacctg cagcagatgc 2700
cttatccttg cttcgtggac gacagcttca tgatcatcct gaatcggtgc ttccccatct 2760
tcatggtgct ggcctggatc tactccgtgt ctatgaccgt gaagtccatc gtgctggaaa 2820
aagagctgcg gctgaaagag acactgaaga accagggcgt gtccaatgcc gtgatctggt 2880
gcacctggtt tctggacagc ttctccatta tgagcatgag catctttctg ctgacgatct 2940
tcatcatgca cggccgaatc ctgcactaca gcgacccctt tatcctcttc ctgttcctgc 3000
tggccttcag caccgctaca atcatgctgt gttttctgct gtccaccttc ttcagcaagg 3060
cctctctggc cgctgcttgt agcggcgtga tctacttcac cctgtacctg cctcacatcc 3120
tgtgcttcgc atggcaggac agaatgaccg ccgagctgaa gaaagctgtg tccctgctga 3180
gccctgtggc ctttggcttt ggcaccgagt acctcgtcag atttgaggaa caaggactgg 3240
gactgcagtg gtccaacatc ggcaatagcc ctacagaggg cgacgagttc agcttcctgc 3300
tgtctatgca gatgatgctg ctggacgccg ccgtgtatgg actgctggct tggtatctgg 3360
accaggtgtt cccaggcgat tacggcactc ctctgccttg gtatttcctg ctgcaagaga 3420
gctactggct cggcggcgag ggatgtagca ccagagaaga aagagccctg gaaaagaccg 3480
agcctctgac cgaggaaaca gaggaccctg aacacccaga gggcatccac gatagctttt 3540
tcgagagaga acaccccggc tgggtgccag gcgtgtgtgt gaagaatctg gtcaagattt 3600
tcgagccctg cggcagacct gccgtggaca gactgaacat caccttctac gagaaccaga 3660
ttaccgcctt tctgggccac aacggcgctg gcaagacaac cacattgagc atcctcacag 3720
gcctgctgcc tccaacaagc ggcacagttc tcgttggcgg cagagacatc gagacaagcc 3780
tggatgccgt cagacagtcc ctgggcatgt gccctcagca caacatcctg tttcaccacc 3840
tgaccgtggc cgagcacatg ctgttttatg cccagctgaa gggcaagagc caagaagagg 3900
ctcagctgga aatggaagcc atgttggagg acaccggcct gcaccacaag agaaatgagg 3960
aagcccagga tctgagcggc ggcatgcaga gaaaactgag cgtggccatt gccttcgtgg 4020
gcgacgccaa ggttgtgatc ctggatgagc ctacaagcgg cgtggaccct tacagcagaa 4080
gatccatctg ggatctgctg ctgaagtaca gatcaggccg gaccatcatc atgagcaccc 4140
accacatgga cgaggccgat ctgctcggag acagaatcgc catcattgct cagggcagac 4200
tgtactgcag cggcacccca ctgtttctga agaactgttt cggcaccgga ctgtatctga 4260
ccctcgtgcg gaagatgaag aacatccagt ctcagcggaa gggcagcgag gtaagtccga 4320
atacgacacg tagcaagatc ttcactgttt aatctgttaa ttcatctgag cattttgagg 4380
gtgtagtcgc ttgattttat cctagagagt gtgtgagtca cacacagaga ggagcagaac 4440
ctccaagggt ccctttggct tgtcatcaat tatgtggcag ctgtaggttc tcaaacaaac 4500
aaaaaaggtt tttcttttcc tgagaaattt ctcaggtttt gctttttaaa aaaaaagcaa 4560
aagatgctgg tggttggcac tcctggtttc caggacgggg ttcaaatccc tgcggcgtct 4620
gtcgaccgat gcccttgaga gccttcaacc cagtcagctc cttccggtgg gcgcggggca 4680
tgactatcgt cgccgcactt atgactgtct tctttatcat gcaactcgta ggacaggtgc 4740
cggcagcgct cttccgcttc ctcgctcact gactcgctgc gctcggtcgt tcggctgcgg 4800
cgagcggtat cagctcactc aaaggcggta atacggttat ccacagaatc aggggataac 4860
gcaggaaaga acatgtgagc aaaaggccag caaaaggcca ggaaccgtaa aaaggccgcg 4920
ttgctggcgt ttttccatag gctccgcccc cctgacgagc atcacaaaaa tcgacgctca 4980
agtcagaggt ggcgaaaccc gacaggacta taaagatacc aggcgtttcc ccctggaagc 5040
tccctcgtgc gctctcctgt tccgaccctg ccgcttaccg gatacctgtc cgcctttctc 5100
ccttcgggaa gcgtggcgct ttctcatagc tcacgctgta ggtatctcag ttcggtgtag 5160
gtcgttcgct ccaagctggg ctgtgtgcac gaaccccccg ttcagcccga ccgctgcgcc 5220
ttatccggta actatcgtct tgagtccaac ccggtaagac acgacttatc gccactggca 5280
gcagccactg gtaacaggat tagcagagcg aggtatgtag gcggtgctac agagttcttg 5340
aagtggtggc ctaactacgg ctacactaga agaacagtat ttggtatctg cgctctgctg 5400
aagccagtta ccttcggaaa aagagttggt agctcttgat ccggcaaaca aaccaccgct 5460
ggtagcggtg gtttttttgt ttgcaagcag cagattacgc gcagaaaaaa aggatctcaa 5520
gaagatcctt tgatcttttc tacggggtct gacgctcagt ggaacgaaaa ctcacgttaa 5580
gggattttgg tcatgagatt atcaaaaagg atcttcacct agatcctttt aaattaaaaa 5640
tgaagtttta aatcaatcta aagtatatat gagtaaactt ggtctgacag cggccggccg 5700
caaatgctaa accactgcag tggttaccag tgcttgatca gtgaggcacc gatctcagcg 5760
atctgcctat ttcgttcgtc catagtggcc tgactccccg tcgtgtagat cactacgatt 5820
cgtgagggct taccatcagg ccccagcgca gcaatgatgc cgcgagagcc gcgttcaccg 5880
gcccccgatt tgtcagcaat gaaccagcca gcagggaggg ccgagcgaag aagtggtcct 5940
gctactttgt ccgcctccat ccagtctatg agctgctgtc gtgatgctag agtaagaagt 6000
tcgccagtga gtagtttccg aagagttgtg gccattgcta ctggcatcgt ggtatcacgc 6060
tcgtcgttcg gtatggcttc gttcaactct ggttcccagc ggtcaagccg ggtcacatga 6120
tcacccatat tatgaagaaa tgcagtcagc tccttagggc ctccgatcgt tgtcagaagt 6180
aagttggccg cggtgttgtc gctcatggta atggcagcac tacacaattc tcttaccgtc 6240
atgccatccg taagatgctt ttccgtgacc ggcgagtact caaccaagtc gttttgtgag 6300
tagtgtatac ggcgaccaag ctgctcttgc ccggcgtcta tacgggacaa caccgcgcca 6360
catagcagta ctttgaaagt gctcatcatc gggaatcgtt cttcggggcg gaaagactca 6420
aggatcttgc cgctattgag atccagttcg atatagccca ctcttgcacc cagttgatct 6480
tcagcatctt ttactttcac cagcgtttcg gggtgtgcaa aaacaggcaa gcaaaatgcc 6540
gcaaagaagg gaatgagtgc gacacgaaaa tgttggatgc tcatactcgt cctttttc 6598
<210> 30
<211> 6644
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 30
aatattattg aagcatttat cagggttact agcctagtta ttaatagtaa tcaattacgg 60
ggtcattagt tcatagccca tatatggagt tccgcgttac ataacttacg gtaaatggcc 120
cgcctggctg accgcccaac gacccccgcc cattgacgtc aataatgacg tatgttccca 180
tagtaacgcc aatagggact ttccattgac gtcaatgggt ggagtattta cggtaaactg 240
cccacttggc agtacatcaa gtgtatcata tgccaagtac gccccctatt gacgtcaatg 300
acggtaaatg gcccgcctgg cattatgccc agtacatgac cttatgggac tttcctactt 360
ggcagtacat ctacgtatta gtcatcgcta ttaccatggt gatgcggttt tggcagtaca 420
tcaatgggcg tggatagcgg tttgactcac ggggatttcc aagtctccac cccattgacg 480
tcaatgggag tttgttttgg caccaaaatc aacgggactt tccaaaatgt cgtaacaact 540
ccgccccatt gacgcaaatg ggcggtaggc gtgtacggtg ggaggtctat ataagcagag 600
ctctctggct aactagagaa cccactgctt actggcttat cgaaattaat acgactcact 660
atagggagac ccaagctggc tagcgtttaa acgggccctc tagactcgag cggccgccac 720
tgtgctggat aaacgccacc atgggtaagc ctatccctaa ccctctcctc ggtctcgatt 780
ctacgggccg cggctttgtg cgacagattc agctgctgct gtggaagaac tggaccctgc 840
ggaagcggca gaaaatcaga ttcgtggtgg aactcgtgtg gcccctgagc ctgtttctgg 900
tgctgatctg gctgcggaac gccaatcctc tgtacagcca ccacgagtgt cacttcccca 960
acaaggccat gccttctgcc ggaatgctgc cttggctgca gggcatcttc tgcaacgtga 1020
acaacccctg ctttcagagc cccacacctg gcgaaagccc tggcatcgtg tccaactaca 1080
acaacagcat cctggccaga gtgtaccggg acttccaaga gctgctgatg aacgcccctg 1140
agtctcagca cctgggcaga atctggaccg agctgcacat cctgagccag ttcatggaca 1200
ccctgagaac acaccccgag agaatcgccg gcaggggcat cagaatccgg gacatcctga 1260
aggacgagga aaccctgaca ctgttcctca tcaagaacat cggcctgagc gacagcgtgg 1320
tgtacctgct gatcaacagc caagtgcggc ccgagcagtt tgctcatggc gtgccggatc 1380
tcgccctgaa ggatatcgcc tgttctgagg ccctgctgga acggttcatc atcttcagcc 1440
agcggagagg cgccaagacc gtcagatatg ccctgtgcag tctgagccag ggaaccctgc 1500
agtggatcga ggataccctg tacgccaacg tggacttctt caagctgttc cgggtgctgc 1560
ccacactgct ggattctaga tcccagggca tcaacctgag aagctggggc ggcatcctgt 1620
ccgacatgag cccaagaatc caagagttca tccaccggcc tagcatgcag gacctgctgt 1680
gggttaccag acctctgatg cagaacggcg gacccgagac attcaccaag ctgatgggca 1740
ttctgagcga tctgctgtgc ggctaccctg aaggcggagg atctagagtg ctgagcttca 1800
attggtacga ggacaacaac tacaaggcct tcctgggcat cgactccacc agaaaggacc 1860
ccatctacag ctacgaccgg cggacaacca gcttctgcaa tgccctgatc cagagcctgg 1920
aaagcaaccc tctgaccaag atcgcttgga gggccgccaa acctctgctg atgggaaaga 1980
tcctgtacac ccctgacagc cctgccgcca gaagaatcct gaagaacgcc aacagcacct 2040
tcgaggaact ggaacacgtg cgcaagctgg tcaaggcctg ggaagaagtg ggacctcaga 2100
tttggtactt cttcgacaat agcacccaga tgaacatgat cagagacacc ctgggcaacc 2160
ctaccgtgaa ggacttcctg aacagacagc tgggcgaaga gggcattacc gccgaggcca 2220
tcctgaactt tctgtacaag ggccccagag agtcccaggc cgacgacatg gccaacttcg 2280
attggcggga catcttcaac atcaccgaca gaaccctgcg gctggtcaac cagtacctgg 2340
aatgcctggt gctggacaag ttcgagagct acaacgacga gacacagctg acccagagag 2400
ccctgtctct gctggaagag aatatgttct gggctggcgt ggtgttcccc gacatgtacc 2460
cttggacaag cagcctgcct cctcacgtga agtacaagat ccggatggac atcgacgtgg 2520
tcgaaaagac caacaagatc aaggaccggt actgggacag cggccctaga gctgatcccg 2580
tggaagattt tcggtacatc tggggcggat tcgcatacct gcaggacatg gtggaacagg 2640
gaatcacacg gtcccaggtg caggctgaag ctcctgtggg aatctacctg cagcagatgc 2700
cttatccttg cttcgtggac gacagcttca tgatcatcct gaatcggtgc ttccccatct 2760
tcatggtgct ggcctggatc tactccgtgt ctatgaccgt gaagtccatc gtgctggaaa 2820
aagagctgcg gctgaaagag acactgaaga accagggcgt gtccaatgcc gtgatctggt 2880
gcacctggtt tctggacagc ttctccatta tgagcatgag catctttctg ctgacgatct 2940
tcatcatgca cggccgaatc ctgcactaca gcgacccctt tatcctcttc ctgttcctgc 3000
tggccttcag caccgctaca atcatgctgt gttttctgct gtccaccttc ttcagcaagg 3060
cctctctggc cgctgcttgt agcggcgtga tctacttcac cctgtacctg cctcacatcc 3120
tgtgcttcgc atggcaggac agaatgaccg ccgagctgaa gaaagctgtg tccctgctga 3180
gccctgtggc ctttggcttt ggcaccgagt acctcgtcag atttgaggaa caaggactgg 3240
gactgcagtg gtccaacatc ggcaatagcc ctacagaggg cgacgagttc agcttcctgc 3300
tgtctatgca gatgatgctg ctggacgccg ccgtgtatgg actgctggct tggtatctgg 3360
accaggtgtt cccaggcgat tacggcactc ctctgccttg gtatttcctg ctgcaagaga 3420
gctactggct cggcggcgag ggatgtagca ccagagaaga aagagccctg gaaaagaccg 3480
agcctctgac cgaggaaaca gaggaccctg aacacccaga gggcatccac gatagctttt 3540
tcgagagaga acaccccggc tgggtgccag gcgtgtgtgt gaagaatctg gtcaagattt 3600
tcgagccctg cggcagacct gccgtggaca gactgaacat caccttctac gagaaccaga 3660
ttaccgcctt tctgggccac aacggcgctg gcaagacaac cacattgagc atcctcacag 3720
gcctgctgcc tccaacaagc ggcacagttc tcgttggcgg cagagacatc gagacaagcc 3780
tggatgccgt cagacagtcc ctgggcatgt gccctcagca caacatcctg tttcaccacc 3840
tgaccgtggc cgagcacatg ctgttttatg cccagctgaa gggcaagagc caagaagagg 3900
ctcagctgga aatggaagcc atgttggagg acaccggcct gcaccacaag agaaatgagg 3960
aagcccagga tctgagcggc ggcatgcaga gaaaactgag cgtggccatt gccttcgtgg 4020
gcgacgccaa ggttgtgatc ctggatgagc ctacaagcgg cgtggaccct tacagcagaa 4080
gatccatctg ggatctgctg ctgaagtaca gatcaggccg gaccatcatc atgagcaccc 4140
accacatgga cgaggccgat ctgctcggag acagaatcgc catcattgct cagggcagac 4200
tgtactgcag cggcacccca ctgtttctga agaactgttt cggcaccgga ctgtatctga 4260
ccctcgtgcg gaagatgaag aacatccagt ctcagcggaa gggcagcgag gtaagtccga 4320
atacgacacg tagcaagatc ttcactgttt aatctgttaa ttcatctgag cattttgagg 4380
gtgtagtcgc ttgattttat cctagagagt gtgtgagtca cacacagaga ggagcagaac 4440
ctccaagggt ccctttggct tgtcatcaat tatgtggcag ctgtaggttc tcagtagggt 4500
catgaaggtt tttcttttcc tgagaaaaca acacgtattg ttttctcagg ttttgctttt 4560
tggccttttt ctagcttaaa aaaaaaaaaa gcaaaagatg ctggtggttg gcactcctgg 4620
tttccaggac ggggttcaaa tccctgcggc gtctttgctt tgactagtcg accgatgccc 4680
ttgagagcct tcaacccagt cagctccttc cggtgggcgc ggggcatgac tatcgtcgcc 4740
gcacttatga ctgtcttctt tatcatgcaa ctcgtaggac aggtgccggc agcgctcttc 4800
cgcttcctcg ctcactgact cgctgcgctc ggtcgttcgg ctgcggcgag cggtatcagc 4860
tcactcaaag gcggtaatac ggttatccac agaatcaggg gataacgcag gaaagaacat 4920
gtgagcaaaa ggccagcaaa aggccaggaa ccgtaaaaag gccgcgttgc tggcgttttt 4980
ccataggctc cgcccccctg acgagcatca caaaaatcga cgctcaagtc agaggtggcg 5040
aaacccgaca ggactataaa gataccaggc gtttccccct ggaagctccc tcgtgcgctc 5100
tcctgttccg accctgccgc ttaccggata cctgtccgcc tttctccctt cgggaagcgt 5160
ggcgctttct catagctcac gctgtaggta tctcagttcg gtgtaggtcg ttcgctccaa 5220
gctgggctgt gtgcacgaac cccccgttca gcccgaccgc tgcgccttat ccggtaacta 5280
tcgtcttgag tccaacccgg taagacacga cttatcgcca ctggcagcag ccactggtaa 5340
caggattagc agagcgaggt atgtaggcgg tgctacagag ttcttgaagt ggtggcctaa 5400
ctacggctac actagaagaa cagtatttgg tatctgcgct ctgctgaagc cagttacctt 5460
cggaaaaaga gttggtagct cttgatccgg caaacaaacc accgctggta gcggtggttt 5520
ttttgtttgc aagcagcaga ttacgcgcag aaaaaaagga tctcaagaag atcctttgat 5580
cttttctacg gggtctgacg ctcagtggaa cgaaaactca cgttaaggga ttttggtcat 5640
gagattatca aaaaggatct tcacctagat ccttttaaat taaaaatgaa gttttaaatc 5700
aatctaaagt atatatgagt aaacttggtc tgacagcggc cggccgcaaa tgctaaacca 5760
ctgcagtggt taccagtgct tgatcagtga ggcaccgatc tcagcgatct gcctatttcg 5820
ttcgtccata gtggcctgac tccccgtcgt gtagatcact acgattcgtg agggcttacc 5880
atcaggcccc agcgcagcaa tgatgccgcg agagccgcgt tcaccggccc ccgatttgtc 5940
agcaatgaac cagccagcag ggagggccga gcgaagaagt ggtcctgcta ctttgtccgc 6000
ctccatccag tctatgagct gctgtcgtga tgctagagta agaagttcgc cagtgagtag 6060
tttccgaaga gttgtggcca ttgctactgg catcgtggta tcacgctcgt cgttcggtat 6120
ggcttcgttc aactctggtt cccagcggtc aagccgggtc acatgatcac ccatattatg 6180
aagaaatgca gtcagctcct tagggcctcc gatcgttgtc agaagtaagt tggccgcggt 6240
gttgtcgctc atggtaatgg cagcactaca caattctctt accgtcatgc catccgtaag 6300
atgcttttcc gtgaccggcg agtactcaac caagtcgttt tgtgagtagt gtatacggcg 6360
accaagctgc tcttgcccgg cgtctatacg ggacaacacc gcgccacata gcagtacttt 6420
gaaagtgctc atcatcggga atcgttcttc ggggcggaaa gactcaagga tcttgccgct 6480
attgagatcc agttcgatat agcccactct tgcacccagt tgatcttcag catcttttac 6540
tttcaccagc gtttcggggt gtgcaaaaac aggcaagcaa aatgccgcaa agaagggaat 6600
gagtgcgaca cgaaaatgtt ggatgctcat actcgtcctt tttc 6644
<210> 31
<211> 10575
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 31
gtcgacttaa ttaaggctgc gcgctcgctc gctcactgag gccgcccggg caaagcccgg 60
gcgtcgggcg acctttggtc gcccggcctc agtgagcgag cgagcgcgca gagagggagt 120
ggccaactcc atcactaggg gttccttgta gttaatgatt aacccgccat gctacttatc 180
tacgtagcaa gctagcctag ttattaatag taatcaatta cggggtcatt agttcatagc 240
ccatatatgg agttccgcgt tacataactt acggtaaatg gcccgcctgg ctgaccgccc 300
aacgaccccc gcccattgac gtcaataatg acgtatgttc ccatagtaac gccaataggg 360
actttccatt gacgtcaatg ggtggagtat ttacggtaaa ctgcccactt ggcagtacat 420
caagtgtatc atatgccaag tacgccccct attgacgtca atgacggtaa atggcccgcc 480
tggcattatg cccagtacat gaccttatgg gactttccta cttggcagta catctacgta 540
ttagtcatcg ctattaccat ggtgatgcgg ttttggcagt acaccaatgg gcgtggatag 600
cggtttgact cacggggatt tccaagtctc caccccattg acgtcaatgg gagtttgttt 660
tggcaccaaa atcaacggga ctttccaaaa tgtcgtaaca actccgcccc gttgacgcaa 720
atgggcggta ggcgtgtacg gtgggaggtc tatataagca gagctcgttt agtgaaccgt 780
cagatcgccg ccaccatgga agatgccaaa aacattaaga agggcccagc gccattctac 840
ccactcgaag acgggaccgc cggcgagcag ctgcacaaag ccatgaagcg ctacgccctg 900
gtgcccggca ccatcgcctt taccgacgca catatcgagg tggacattac ctacgccgaa 960
tacttcgaga tgagcgttcg gctggcagaa gctatgaagc gctatgggct gaatacaaac 1020
catcggatcg tggtgtgcag cgagaatagc ttgcagttct tcatgcccgt gttgggtgcc 1080
ctgttcatcg gtgtggctgt ggccccagct aacgacatct acaacgagcg cgagctgctg 1140
aacagcatgg gcatcagcca gcccaccgtc gtattcgtga gcaagaaagg gctgcaaaag 1200
atcctcaacg tgcaaaagaa gctaccgatc atacaaaaga tcatcatcat ggatagcaag 1260
accgactacc agggcttcca aagcatgtac accttcgtga cttcccattt gccacccggc 1320
ttcaacgagt acgacttcgt gcccgagagc ttcgaccggg acaaaaccat cgccctgatc 1380
atgaacagta gtggcagtac cggattgccc aagggcgtag ccctaccgca ccgcaccgct 1440
tgtgtccgat tcagtcatgc ccgcgacccc atcttcggca accagatcat ccccgacacc 1500
gctatcctca gcgtggtgcc atttcaccac ggcttcggca tgttcaccac gctgggctac 1560
ttgatctgcg gctttcgggt cgtgctcatg taccgcttcg aggaggagct attcttgcgc 1620
agcttgcaag actataagat tcaatctgcc ctgctggtgc ccacactatt tagcttcttc 1680
gctaagagca ctctcatcga caagtacgac ctaagcaact tgcacgagat cgccagcggc 1740
ggagcgccgc tcagcaagga ggtaggtgag gccgtggcca aacgcttcca cctaccaggc 1800
atccgccagg gctacggcct gacagaaaca accagcgcca ttctgatcac ccccgaaggg 1860
gacgacaagc ctggcgcagt aggcaaggtg gtgcccttct tcgaggctaa ggtggtggac 1920
ttggacaccg gtaagacact gggtgtgaac cagcgcggcg agctgtgcgt ccgtggcccc 1980
atgatcatga gcggctacgt taacaacccc gaggctacaa acgctctcat cgacaaggac 2040
ggctggctgc acagcggcga catcgcctac tgggacgagg acgagcactt cttcatcgtg 2100
gaccggctga agagcctgat caaatacaag ggctaccagg taagtccgaa tacgacacgt 2160
agcaagatct ggtgggaggt aattgaatcg tgggggtggt ttcccccacg ctattctcat 2220
aatagtaagt tctcacgatg tctgatggtt ttataagggg ctttcccctt tgctcggctc 2280
acattcttct aattccggcc accatgtgaa gaaaaatgtg gcggccgcgt ttacttaaga 2340
catgataaga tacattgatg agtttggaca aaccacaact agaatgcagt gaaaaaaatg 2400
ctttatttgt gaaatttgtg atgctattgc tttatttgta accattataa gctgcaataa 2460
acaagttaac aacaacaatt gcattcattt tatgtttcag gttcaggggg agatgtggga 2520
ggttttttaa agcaagtaaa acctctacaa atgtggtaaa ctcgagttct acgtagataa 2580
gtagcatggc gggttaatca ttaactacaa ggaaccccta gtgatggagt tggccactcc 2640
ctctctgcgc gctcgctcgc tcactgaggc cgggcgacca aaggtcgccc gacgcccggg 2700
ctttgcccgg gcggcctcag tgagcgagcg agcgcgcagc cttaattaac ctaaggaaaa 2760
tgaagtgaag ttcctatact ttctagagaa taggaacttc tatagtgagt cgaataaggg 2820
cgacacaaaa tttattctaa atgcataata aatactgata acatcttata gtttgtatta 2880
tattttgtat tatcgttgac atgtataatt ttgatatcaa aaactgattt tccctttatt 2940
attttcgaga tttattttct taattctctt taacaaacta gaaatattgt atatacaaaa 3000
aatcataaat aatagatgaa tagtttaatt ataggtgttc atcaatcgaa aaagcaacgt 3060
atcttattta aagtgcgttg cttttttctc atttataagg ttaaataatt ctcatatatc 3120
aagcaaagtg acaggcgccc ttaaatattc tgacaaatgc tctttcccta aactcccccc 3180
ataaaaaaac ccgccgaagc gggtttttac gttatttgcg gattaacgat tactcgttat 3240
cagaaccgcc cagggggccc gagcttaacc tttttatttg ggggagaggg aagtcatgaa 3300
aaaactaacc tttgaaattc gatctccagc acatcagcaa aacgctattc acgcagtaca 3360
gcaaatcctt ccagacccaa ccaaaccaat cgtagtaacc attcaggaac gcaaccgcag 3420
cttagaccaa aacaggaagc tatgggcctg cttaggtgac gtctctcgtc aggttgaatg 3480
gcatggtcgc tggctggatg cagaaagctg gaagtgtgtg tttaccgcag cattaaagca 3540
gcaggatgtt gttcctaacc ttgccgggaa tggctttgtg gtaataggcc agtcaaccag 3600
caggatgcgt gtaggcgaat ttgcggagct attagagctt atacaggcat tcggtacaga 3660
gcgtggcgtt aagtggtcag acgaagcgag actggctctg gagtggaaag cgagatgggg 3720
agacagggct gcatgataaa tgtcgttagt ttctccggtg gcaggacgtc agcatatttg 3780
ctctggctaa tggagcaaaa gcgacgggca ggtaaagacg tgcattacgt tttcatggat 3840
acaggttgtg aacatccaat gacatatcgg tttgtcaggg aagttgtgaa gttctgggat 3900
ataccgctca ccgtattgca ggttgatatc aacccggagc ttggacagcc aaatggttat 3960
acggtatggg aaccaaagga tattcagacg cgaatgcctg ttctgaagcc atttatcgat 4020
atggtaaaga aatatggcac tccatacgtc ggcggcgcgt tctgcactga cagattaaaa 4080
ctcgttccct tcaccaaata ctgtgatgac catttcgggc gagggaatta caccacgtgg 4140
attggcatca gagctgatga accgaagcgg ctaaagccaa agcctggaat cagatatctt 4200
gctgaactgt cagactttga gaaggaagat atcctcgcat ggtggaagca acaaccattc 4260
gatttgcaaa taccggaaca tctcggtaac tgcatattct gcattaaaaa atcaacgcaa 4320
aaaatcggac ttgcctgcaa agatgaggag ggattgcagc gtgtttttaa tgaggtcatc 4380
acgggatccc atgtgcgtga cggacatcgg gaaacgccaa aggagattat gtaccgagga 4440
agaatgtcgc tggacggtat cgcgaaaatg tattcagaaa atgattatca agccctgtat 4500
caggacatgg tacgagctaa aagattcgat accggctctt gttctgagtc atgcgaaata 4560
tttggagggc agcttgattt cgacttcggg agggaagctg catgatgcga tgttatcggt 4620
gcggtgaatg caaagaagat aaccgcttcc gaccaaatca accttactgg aatcgatggt 4680
gtctccggtg tgaaagaaca ccaacagggg tgttaccact accgcaggaa aaggaggacg 4740
tgtggcgaga cagcgacgaa gtatcaccga cataatctgc gaaaactgca aataccttcc 4800
aacgaaacgc accagaaata aacccaagcc aatcccaaaa gaatctgacg taaaaacctt 4860
caactacacg gctcacctgt gggatatccg gtggctaaga cgtcgtgcga ggaaaacaag 4920
gtgattgacc aaaatcgaag ttacgaacaa gaaagcgtcg agcgagcttt aacgtgcgct 4980
aactgcggtc agaagctgca tgtgctggaa gttcacgtgt gtgagcactg ctgcgcagaa 5040
ctgatgagcg atccgaatag ctcgatgcac gaggaagaag atgatggcta aaccagcgcg 5100
aagacgatgt aaaaacgatg aatgccggga atggtttcac cctgcattcg ctaatcagtg 5160
gtggtgctct ccagagtgtg gaaccaagat agcactcgaa cgacgaagta aagaacgcga 5220
aaaagcggaa aaagcagcag agaagaaacg acgacgagag gagcagaaac agaaagataa 5280
acttaagatt cgaaaactcg ccttaaagcc ccgcagttac tggattaaac aagcccaaca 5340
agccgtaaac gccttcatca gagaaagaga ccgcgactta ccatgtatct cgtgcggaac 5400
gctcacgtct gctcagtggg atgccggaca ttaccggaca actgctgcgg cacctcaact 5460
ccgatttaat gaacgcaata ttcacaagca atgcgtggtg tgcaaccagc acaaaagcgg 5520
aaatctcgtt ccgtatcgcg tcgaactgat tagccgcatc gggcaggaag cagtagacga 5580
aatcgaatca aaccataacc gccatcgctg gactatcgaa gagtgcaagg cgatcaaggc 5640
agagtaccaa cagaaactca aagacctgcg aaatagcaga agtgaggccg catgacgttc 5700
tcagtaaaaa ccattccaga catgctcgtt gaagcatacg gaaatcagac agaagtagca 5760
cgcagactga aatgtagtcg cggtacggtc agaaaatacg ttgatgataa agacgggaaa 5820
atgcacgcca tcgtcaacga cgttctcatg gttcatcgcg gatggagtga aagagatgcg 5880
ctattacgaa aaaattgatg gcagcaaata ccgaaatatt tgggtagttg gcgatctgca 5940
cggatgctac acgaacctga tgaacaaact ggatacgatt ggattcgaca acaaaaaaga 6000
cctgcttatc tcggtgggcg atttggttga tcgtggtgca gagaacgttg aatgcctgga 6060
attaatcaca ttcccctggt tcagagctgt acgtggaaac catgagcaaa tgatgattga 6120
tggcttatca gagcgtggaa acgttaatca ctggctgctt aatggcggtg gctggttctt 6180
taatctcgat tacgacaaag aaattctggc taaagctctt gcccataaag cagatgaact 6240
tccgttaatc atcgaactgg tgagcaaaga taaaaaatat gttatctgcc acgccgatta 6300
tccctttgac gaatacgagt ttggaaagcc agttgatcat cagcaggtaa tctggaaccg 6360
cgaacgaatc agcaactcac aaaacgggat cgtgaaagaa atcaaaggcg cggacacgtt 6420
catctttggt catacgccag cagtgaaacc actcaagttt gccaaccaaa tgtatatcga 6480
taccggcgca gtgttctgcg gaaacctaac attgattcag gtacagggag aaggcgcatg 6540
agactcgaaa gcgtagctaa atttcattcg ccaaaaagcc cgatgatgag cgactcacca 6600
cgggccacgg cttctgactc tctttccggt actgatgtga tggctgctat ggggatggcg 6660
caatcacaag ccggattcgg tatggctgca ttctgcggta agcacgaact cagccagaac 6720
gacaaacaaa aggctatcaa ctatctgatg caatttgcac acaaggtatc ggggaaatac 6780
cgtggtgtgg caaagcttga aggaaatact aaggcaaagg tactgcaagt gctcgcaaca 6840
ttcgcttatg cggattattg ccgtagtgcc gcgacgccgg gggcaagatg cagagattgc 6900
catggtacag gccgtgcggt tgatattgcc aaaacagagc tgtgggggag agttgtcgag 6960
aaagagtgcg gaagatgcaa aggcgtcggc tattcaagga tgccagcaag cgcagcatat 7020
cgcgctgtga cgatgctaat cccaaacctt acccaaccca cctggtcacg cactgttaag 7080
ccgctgtatg acgctctggt ggtgcaatgc cacaaagaag agtcaatcgc agacaacatt 7140
ttgaatgcgg tcacacgtta gcagcatgat tgccacggat ggcaacatat taacggcatg 7200
atattgactt attgaataaa attgggtaaa tttgactcaa cgatgggtta attcgctcgt 7260
tgtggtagtg agatgaaaag aggcggcgct tactaccgat tccgcctagt tggtcacttc 7320
gacgtatcgt ctggaactcc aaccatcgca ggcagagagg tctgcaaaat gcaatcccga 7380
aacagttcgc aggtaatagt tagagcctgc ataacggttt cgggattttt tatatctgca 7440
caacaggtaa gagcattgag tcgataatcg tgaagagtcg gcgagcctgg ttagccagtg 7500
ctctttccgt tgtgctgaat taagcgaata ccggaagcag aaccggatca ccaaatgcgt 7560
acaggcgtca tcgccgccca gcaacagcac aacccaaact gagccgtagc cactgtctgt 7620
cctgaattca ttagtaatag ttacgctgcg gccttttaca catgaccttc gtgaaagcgg 7680
gtggcaggag gtcgcgctaa caacctcctg ccgttttgcc cgtgcatatc ggtcacgaac 7740
aaatctgatt actaaacaca gtagcctgga tttgttctat cagtaatcga ccttattcct 7800
aattaaatag agcaaatccc cttattgggg gtaagacatg aagatgccag aaaaacatga 7860
cctgttggcc gccattctcg cggcaaagga acaaggcatc ggggcaatcc ttgcgtttgc 7920
aatggcgtac cttcgcggca gatataatgg cggtgcgttt acaaaaacag taatcgacgc 7980
aacgatgtgc gccattatcg cctggttcat tcgtgacctt ctcgacttcg ccggactaag 8040
tagcaatctc gcttatataa cgagcgtgtt tatcggctac atcggtactg actcgattgg 8100
ttcgcttatc aaacgcttcg ctgctaaaaa agccggagta gaagatggta gaaatcaata 8160
atcaacgtaa ggcgttcctc gatatgctgg cgtggtcgga gggaactgat aacggacgtc 8220
agaaaaccag aaatcatggt tatgacgtca ttgtaggcgg agagctattt actgattact 8280
ccgatcaccc tcgcaaactt gtcacgctaa acccaaaact caaatcaaca ggcgcttaag 8340
actggccgtc gttttacaac acagaaagag tttgtagaaa cgcaaaaagg ccatccgtca 8400
ggggccttct gcttagtttg atgcctggca gttccctact ctcgccttcc gcttcctcgc 8460
tcactgactc gctgcgctcg gtcgttcggc tgcggcgagc ggtatcagct cactcaaagg 8520
cggtaatacg gttatccaca gaatcagggg ataacgcagg aaagaacatg tgagcaaaag 8580
gccagcaaaa ggccaggaac cgtaaaaagg ccgcgttgct ggcgtttttc cataggctcc 8640
gcccccctga cgagcatcac aaaaatcgac gctcaagtca gaggtggcga aacccgacag 8700
gactataaag ataccaggcg tttccccctg gaagctccct cgtgcgctct cctgttccga 8760
ccctgccgct taccggatac ctgtccgcct ttctcccttc gggaagcgtg gcgctttctc 8820
atagctcacg ctgtaggtat ctcagttcgg tgtaggtcgt tcgctccaag ctgggctgtg 8880
tgcacgaacc ccccgttcag cccgaccgct gcgccttatc cggtaactat cgtcttgagt 8940
ccaacccggt aagacacgac ttatcgccac tggcagcagc cactggtaac aggattagca 9000
gagcgaggta tgtaggcggt gctacagagt tcttgaagtg gtgggctaac tacggctaca 9060
ctagaagaac agtatttggt atctgcgctc tgctgaagcc agttaccttc ggaaaaagag 9120
ttggtagctc ttgatccggc aaacaaacca ccgctggtag cggtggtttt tttgtttgca 9180
agcagcagat tacgcgcaga aaaaaaggat ctcaagaaga tcctttgatc ttttctacgg 9240
ggtctgacgc tcagtggaac gacgcgcgcg taactcacgt taagggattt tggtcatgag 9300
cttgcgccgt cccgtcaagt cagcgtaatg ctctgctttt agaaaaactc atcgagcatc 9360
aaatgaaact gcaatttatt catatcagga ttatcaatac catatttttg aaaaagccgt 9420
ttctgtaatg aaggagaaaa ctcaccgagg cagttccata ggatggcaag atcctggtat 9480
cggtctgcga ttccgactcg tccaacatca atacaaccta ttaatttccc ctcgtcaaaa 9540
ataaggttat caagtgagaa atcaccatga gtgacgactg aatccggtga gaatggcaaa 9600
agtttatgca tttctttcca gacttgttca acaggccagc cattacgctc gtcatcaaaa 9660
tcactcgcat caaccaaacc gttattcatt cgtgattgcg cctgagcgag gcgaaatacg 9720
cgatcgctgt taaaaggaca attacaaaca ggaatcgagt gcaaccggcg caggaacact 9780
gccagcgcat caacaatatt ttcacctgaa tcaggatatt cttctaatac ctggaacgct 9840
gtttttccgg ggatcgcagt ggtgagtaac catgcatcat caggagtacg gataaaatgc 9900
ttgatggtcg gaagtggcat aaattccgtc agccagttta gtctgaccat ctcatctgta 9960
acatcattgg caacgctacc tttgccatgt ttcagaaaca actctggcgc atcgggcttc 10020
ccatacaagc gatagattgt cgcacctgat tgcccgacat tatcgcgagc ccatttatac 10080
ccatataaat cagcatccat gttggaattt aatcgcggcc tcgacgtttc ccgttgaata 10140
tggctcatat tcttcctttt tcaatattat tgaagcattt atcagggtta ttgtctcatg 10200
agcggataca tatttgaatg tatttagaaa aataaacaaa taggggtcag tgttacaacc 10260
aattaaccaa ttctgaacat tatcgcgagc ccatttatac ctgaatatgg ctcataacac 10320
cccttgtttg cctggcggca gtagcgcggt ggtcccacct gaccccatgc cgaactcaga 10380
agtgaaacgc cgtagcgccg atggtagtgt ggggactccc catgcgagag tagggaactg 10440
ccaggcatca aataaaacga aaggctcagt cgaaagactg ggcctttcgc ccgggctaat 10500
tagggggtgt cgcccttatt cgactctata gtgaagttcc tattctctag aaagtatagg 10560
aacttctgaa gtggg 10575
<210> 32
<211> 10667
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 32
gtcgacttaa ttaaggctgc gcgctcgctc gctcactgag gccgcccggg caaagcccgg 60
gcgtcgggcg acctttggtc gcccggcctc agtgagcgag cgagcgcgca gagagggagt 120
ggccaactcc atcactaggg gttccttgta gttaatgatt aacccgccat gctacttatc 180
tacgtagcaa gctagcctag ttattaatag taatcaatta cggggtcatt agttcatagc 240
ccatatatgg agttccgcgt tacataactt acggtaaatg gcccgcctgg ctgaccgccc 300
aacgaccccc gcccattgac gtcaataatg acgtatgttc ccatagtaac gccaataggg 360
actttccatt gacgtcaatg ggtggagtat ttacggtaaa ctgcccactt ggcagtacat 420
caagtgtatc atatgccaag tacgccccct attgacgtca atgacggtaa atggcccgcc 480
tggcattatg cccagtacat gaccttatgg gactttccta cttggcagta catctacgta 540
ttagtcatcg ctattaccat ggtgatgcgg ttttggcagt acaccaatgg gcgtggatag 600
cggtttgact cacggggatt tccaagtctc caccccattg acgtcaatgg gagtttgttt 660
tggcaccaaa atcaacggga ctttccaaaa tgtcgtaaca actccgcccc gttgacgcaa 720
atgggcggta ggcgtgtacg gtgggaggtc tatataagca gagctcgttt agtgaaccgt 780
cagatcgccg ccaccatgga agatgccaaa aacattaaga agggcccagc gccattctac 840
ccactcgaag acgggaccgc cggcgagcag ctgcacaaag ccatgaagcg ctacgccctg 900
gtgcccggca ccatcgcctt taccgacgca catatcgagg tggacattac ctacgccgaa 960
tacttcgaga tgagcgttcg gctggcagaa gctatgaagc gctatgggct gaatacaaac 1020
catcggatcg tggtgtgcag cgagaatagc ttgcagttct tcatgcccgt gttgggtgcc 1080
ctgttcatcg gtgtggctgt ggccccagct aacgacatct acaacgagcg cgagctgctg 1140
aacagcatgg gcatcagcca gcccaccgtc gtattcgtga gcaagaaagg gctgcaaaag 1200
atcctcaacg tgcaaaagaa gctaccgatc atacaaaaga tcatcatcat ggatagcaag 1260
accgactacc agggcttcca aagcatgtac accttcgtga cttcccattt gccacccggc 1320
ttcaacgagt acgacttcgt gcccgagagc ttcgaccggg acaaaaccat cgccctgatc 1380
atgaacagta gtggcagtac cggattgccc aagggcgtag ccctaccgca ccgcaccgct 1440
tgtgtccgat tcagtcatgc ccgcgacccc atcttcggca accagatcat ccccgacacc 1500
gctatcctca gcgtggtgcc atttcaccac ggcttcggca tgttcaccac gctgggctac 1560
ttgatctgcg gctttcgggt cgtgctcatg taccgcttcg aggaggagct attcttgcgc 1620
agcttgcaag actataagat tcaatctgcc ctgctggtgc ccacactatt tagcttcttc 1680
gctaagagca ctctcatcga caagtacgac ctaagcaact tgcacgagat cgccagcggc 1740
ggagcgccgc tcagcaagga ggtaggtgag gccgtggcca aacgcttcca cctaccaggc 1800
atccgccagg gctacggcct gacagaaaca accagcgcca ttctgatcac ccccgaaggg 1860
gacgacaagc ctggcgcagt aggcaaggtg gtgcccttct tcgaggctaa ggtggtggac 1920
ttggacaccg gtaagacact gggtgtgaac cagcgcggcg agctgtgcgt ccgtggcccc 1980
atgatcatga gcggctacgt taacaacccc gaggctacaa acgctctcat cgacaaggac 2040
ggctggctgc acagcggcga catcgcctac tgggacgagg acgagcactt cttcatcgtg 2100
gaccggctga agagcctgat caaatacaag ggctaccagg taagtccgaa tacgacacgt 2160
agcaagatct ggtgggaggt aattgaatcg tgggggtggt ttcccccacg ctattctcat 2220
aatagtaagt tctcacgatg tctgatggtt ttataagggg ctttcccctt tgctcggctc 2280
acattcttct aattccggcc accatgtgaa gaaaaatgtg gcggccgcgt ttaaaccaaa 2340
caaacaaagg cgcgtcctgg attccacggt acatccagct gatgagtccc aaataggacg 2400
aaacgcgctc aaacaaacaa aagtacttaa gacatgataa gatacattga tgagtttgga 2460
caaaccacaa ctagaatgca gtgaaaaaaa tgctttattt gtgaaatttg tgatgctatt 2520
gctttatttg taaccattat aagctgcaat aaacaagtta acaacaacaa ttgcattcat 2580
tttatgtttc aggttcaggg ggagatgtgg gaggtttttt aaagcaagta aaacctctac 2640
aaatgtggta aactcgagtt ctacgtagat aagtagcatg gcgggttaat cattaactac 2700
aaggaacccc tagtgatgga gttggccact ccctctctgc gcgctcgctc gctcactgag 2760
gccgggcgac caaaggtcgc ccgacgcccg ggctttgccc gggcggcctc agtgagcgag 2820
cgagcgcgca gccttaatta acctaaggaa aatgaagtga agttcctata ctttctagag 2880
aataggaact tctatagtga gtcgaataag ggcgacacaa aatttattct aaatgcataa 2940
taaatactga taacatctta tagtttgtat tatattttgt attatcgttg acatgtataa 3000
ttttgatatc aaaaactgat tttcccttta ttattttcga gatttatttt cttaattctc 3060
tttaacaaac tagaaatatt gtatatacaa aaaatcataa ataatagatg aatagtttaa 3120
ttataggtgt tcatcaatcg aaaaagcaac gtatcttatt taaagtgcgt tgcttttttc 3180
tcatttataa ggttaaataa ttctcatata tcaagcaaag tgacaggcgc ccttaaatat 3240
tctgacaaat gctctttccc taaactcccc ccataaaaaa acccgccgaa gcgggttttt 3300
acgttatttg cggattaacg attactcgtt atcagaaccg cccagggggc ccgagcttaa 3360
cctttttatt tgggggagag ggaagtcatg aaaaaactaa cctttgaaat tcgatctcca 3420
gcacatcagc aaaacgctat tcacgcagta cagcaaatcc ttccagaccc aaccaaacca 3480
atcgtagtaa ccattcagga acgcaaccgc agcttagacc aaaacaggaa gctatgggcc 3540
tgcttaggtg acgtctctcg tcaggttgaa tggcatggtc gctggctgga tgcagaaagc 3600
tggaagtgtg tgtttaccgc agcattaaag cagcaggatg ttgttcctaa ccttgccggg 3660
aatggctttg tggtaatagg ccagtcaacc agcaggatgc gtgtaggcga atttgcggag 3720
ctattagagc ttatacaggc attcggtaca gagcgtggcg ttaagtggtc agacgaagcg 3780
agactggctc tggagtggaa agcgagatgg ggagacaggg ctgcatgata aatgtcgtta 3840
gtttctccgg tggcaggacg tcagcatatt tgctctggct aatggagcaa aagcgacggg 3900
caggtaaaga cgtgcattac gttttcatgg atacaggttg tgaacatcca atgacatatc 3960
ggtttgtcag ggaagttgtg aagttctggg atataccgct caccgtattg caggttgata 4020
tcaacccgga gcttggacag ccaaatggtt atacggtatg ggaaccaaag gatattcaga 4080
cgcgaatgcc tgttctgaag ccatttatcg atatggtaaa gaaatatggc actccatacg 4140
tcggcggcgc gttctgcact gacagattaa aactcgttcc cttcaccaaa tactgtgatg 4200
accatttcgg gcgagggaat tacaccacgt ggattggcat cagagctgat gaaccgaagc 4260
ggctaaagcc aaagcctgga atcagatatc ttgctgaact gtcagacttt gagaaggaag 4320
atatcctcgc atggtggaag caacaaccat tcgatttgca aataccggaa catctcggta 4380
actgcatatt ctgcattaaa aaatcaacgc aaaaaatcgg acttgcctgc aaagatgagg 4440
agggattgca gcgtgttttt aatgaggtca tcacgggatc ccatgtgcgt gacggacatc 4500
gggaaacgcc aaaggagatt atgtaccgag gaagaatgtc gctggacggt atcgcgaaaa 4560
tgtattcaga aaatgattat caagccctgt atcaggacat ggtacgagct aaaagattcg 4620
ataccggctc ttgttctgag tcatgcgaaa tatttggagg gcagcttgat ttcgacttcg 4680
ggagggaagc tgcatgatgc gatgttatcg gtgcggtgaa tgcaaagaag ataaccgctt 4740
ccgaccaaat caaccttact ggaatcgatg gtgtctccgg tgtgaaagaa caccaacagg 4800
ggtgttacca ctaccgcagg aaaaggagga cgtgtggcga gacagcgacg aagtatcacc 4860
gacataatct gcgaaaactg caaatacctt ccaacgaaac gcaccagaaa taaacccaag 4920
ccaatcccaa aagaatctga cgtaaaaacc ttcaactaca cggctcacct gtgggatatc 4980
cggtggctaa gacgtcgtgc gaggaaaaca aggtgattga ccaaaatcga agttacgaac 5040
aagaaagcgt cgagcgagct ttaacgtgcg ctaactgcgg tcagaagctg catgtgctgg 5100
aagttcacgt gtgtgagcac tgctgcgcag aactgatgag cgatccgaat agctcgatgc 5160
acgaggaaga agatgatggc taaaccagcg cgaagacgat gtaaaaacga tgaatgccgg 5220
gaatggtttc accctgcatt cgctaatcag tggtggtgct ctccagagtg tggaaccaag 5280
atagcactcg aacgacgaag taaagaacgc gaaaaagcgg aaaaagcagc agagaagaaa 5340
cgacgacgag aggagcagaa acagaaagat aaacttaaga ttcgaaaact cgccttaaag 5400
ccccgcagtt actggattaa acaagcccaa caagccgtaa acgccttcat cagagaaaga 5460
gaccgcgact taccatgtat ctcgtgcgga acgctcacgt ctgctcagtg ggatgccgga 5520
cattaccgga caactgctgc ggcacctcaa ctccgattta atgaacgcaa tattcacaag 5580
caatgcgtgg tgtgcaacca gcacaaaagc ggaaatctcg ttccgtatcg cgtcgaactg 5640
attagccgca tcgggcagga agcagtagac gaaatcgaat caaaccataa ccgccatcgc 5700
tggactatcg aagagtgcaa ggcgatcaag gcagagtacc aacagaaact caaagacctg 5760
cgaaatagca gaagtgaggc cgcatgacgt tctcagtaaa aaccattcca gacatgctcg 5820
ttgaagcata cggaaatcag acagaagtag cacgcagact gaaatgtagt cgcggtacgg 5880
tcagaaaata cgttgatgat aaagacggga aaatgcacgc catcgtcaac gacgttctca 5940
tggttcatcg cggatggagt gaaagagatg cgctattacg aaaaaattga tggcagcaaa 6000
taccgaaata tttgggtagt tggcgatctg cacggatgct acacgaacct gatgaacaaa 6060
ctggatacga ttggattcga caacaaaaaa gacctgctta tctcggtggg cgatttggtt 6120
gatcgtggtg cagagaacgt tgaatgcctg gaattaatca cattcccctg gttcagagct 6180
gtacgtggaa accatgagca aatgatgatt gatggcttat cagagcgtgg aaacgttaat 6240
cactggctgc ttaatggcgg tggctggttc tttaatctcg attacgacaa agaaattctg 6300
gctaaagctc ttgcccataa agcagatgaa cttccgttaa tcatcgaact ggtgagcaaa 6360
gataaaaaat atgttatctg ccacgccgat tatccctttg acgaatacga gtttggaaag 6420
ccagttgatc atcagcaggt aatctggaac cgcgaacgaa tcagcaactc acaaaacggg 6480
atcgtgaaag aaatcaaagg cgcggacacg ttcatctttg gtcatacgcc agcagtgaaa 6540
ccactcaagt ttgccaacca aatgtatatc gataccggcg cagtgttctg cggaaaccta 6600
acattgattc aggtacaggg agaaggcgca tgagactcga aagcgtagct aaatttcatt 6660
cgccaaaaag cccgatgatg agcgactcac cacgggccac ggcttctgac tctctttccg 6720
gtactgatgt gatggctgct atggggatgg cgcaatcaca agccggattc ggtatggctg 6780
cattctgcgg taagcacgaa ctcagccaga acgacaaaca aaaggctatc aactatctga 6840
tgcaatttgc acacaaggta tcggggaaat accgtggtgt ggcaaagctt gaaggaaata 6900
ctaaggcaaa ggtactgcaa gtgctcgcaa cattcgctta tgcggattat tgccgtagtg 6960
ccgcgacgcc gggggcaaga tgcagagatt gccatggtac aggccgtgcg gttgatattg 7020
ccaaaacaga gctgtggggg agagttgtcg agaaagagtg cggaagatgc aaaggcgtcg 7080
gctattcaag gatgccagca agcgcagcat atcgcgctgt gacgatgcta atcccaaacc 7140
ttacccaacc cacctggtca cgcactgtta agccgctgta tgacgctctg gtggtgcaat 7200
gccacaaaga agagtcaatc gcagacaaca ttttgaatgc ggtcacacgt tagcagcatg 7260
attgccacgg atggcaacat attaacggca tgatattgac ttattgaata aaattgggta 7320
aatttgactc aacgatgggt taattcgctc gttgtggtag tgagatgaaa agaggcggcg 7380
cttactaccg attccgccta gttggtcact tcgacgtatc gtctggaact ccaaccatcg 7440
caggcagaga ggtctgcaaa atgcaatccc gaaacagttc gcaggtaata gttagagcct 7500
gcataacggt ttcgggattt tttatatctg cacaacaggt aagagcattg agtcgataat 7560
cgtgaagagt cggcgagcct ggttagccag tgctctttcc gttgtgctga attaagcgaa 7620
taccggaagc agaaccggat caccaaatgc gtacaggcgt catcgccgcc cagcaacagc 7680
acaacccaaa ctgagccgta gccactgtct gtcctgaatt cattagtaat agttacgctg 7740
cggcctttta cacatgacct tcgtgaaagc gggtggcagg aggtcgcgct aacaacctcc 7800
tgccgttttg cccgtgcata tcggtcacga acaaatctga ttactaaaca cagtagcctg 7860
gatttgttct atcagtaatc gaccttattc ctaattaaat agagcaaatc cccttattgg 7920
gggtaagaca tgaagatgcc agaaaaacat gacctgttgg ccgccattct cgcggcaaag 7980
gaacaaggca tcggggcaat ccttgcgttt gcaatggcgt accttcgcgg cagatataat 8040
ggcggtgcgt ttacaaaaac agtaatcgac gcaacgatgt gcgccattat cgcctggttc 8100
attcgtgacc ttctcgactt cgccggacta agtagcaatc tcgcttatat aacgagcgtg 8160
tttatcggct acatcggtac tgactcgatt ggttcgctta tcaaacgctt cgctgctaaa 8220
aaagccggag tagaagatgg tagaaatcaa taatcaacgt aaggcgttcc tcgatatgct 8280
ggcgtggtcg gagggaactg ataacggacg tcagaaaacc agaaatcatg gttatgacgt 8340
cattgtaggc ggagagctat ttactgatta ctccgatcac cctcgcaaac ttgtcacgct 8400
aaacccaaaa ctcaaatcaa caggcgctta agactggccg tcgttttaca acacagaaag 8460
agtttgtaga aacgcaaaaa ggccatccgt caggggcctt ctgcttagtt tgatgcctgg 8520
cagttcccta ctctcgcctt ccgcttcctc gctcactgac tcgctgcgct cggtcgttcg 8580
gctgcggcga gcggtatcag ctcactcaaa ggcggtaata cggttatcca cagaatcagg 8640
ggataacgca ggaaagaaca tgtgagcaaa aggccagcaa aaggccagga accgtaaaaa 8700
ggccgcgttg ctggcgtttt tccataggct ccgcccccct gacgagcatc acaaaaatcg 8760
acgctcaagt cagaggtggc gaaacccgac aggactataa agataccagg cgtttccccc 8820
tggaagctcc ctcgtgcgct ctcctgttcc gaccctgccg cttaccggat acctgtccgc 8880
ctttctccct tcgggaagcg tggcgctttc tcatagctca cgctgtaggt atctcagttc 8940
ggtgtaggtc gttcgctcca agctgggctg tgtgcacgaa ccccccgttc agcccgaccg 9000
ctgcgcctta tccggtaact atcgtcttga gtccaacccg gtaagacacg acttatcgcc 9060
actggcagca gccactggta acaggattag cagagcgagg tatgtaggcg gtgctacaga 9120
gttcttgaag tggtgggcta actacggcta cactagaaga acagtatttg gtatctgcgc 9180
tctgctgaag ccagttacct tcggaaaaag agttggtagc tcttgatccg gcaaacaaac 9240
caccgctggt agcggtggtt tttttgtttg caagcagcag attacgcgca gaaaaaaagg 9300
atctcaagaa gatcctttga tcttttctac ggggtctgac gctcagtgga acgacgcgcg 9360
cgtaactcac gttaagggat tttggtcatg agcttgcgcc gtcccgtcaa gtcagcgtaa 9420
tgctctgctt ttagaaaaac tcatcgagca tcaaatgaaa ctgcaattta ttcatatcag 9480
gattatcaat accatatttt tgaaaaagcc gtttctgtaa tgaaggagaa aactcaccga 9540
ggcagttcca taggatggca agatcctggt atcggtctgc gattccgact cgtccaacat 9600
caatacaacc tattaatttc ccctcgtcaa aaataaggtt atcaagtgag aaatcaccat 9660
gagtgacgac tgaatccggt gagaatggca aaagtttatg catttctttc cagacttgtt 9720
caacaggcca gccattacgc tcgtcatcaa aatcactcgc atcaaccaaa ccgttattca 9780
ttcgtgattg cgcctgagcg aggcgaaata cgcgatcgct gttaaaagga caattacaaa 9840
caggaatcga gtgcaaccgg cgcaggaaca ctgccagcgc atcaacaata ttttcacctg 9900
aatcaggata ttcttctaat acctggaacg ctgtttttcc ggggatcgca gtggtgagta 9960
accatgcatc atcaggagta cggataaaat gcttgatggt cggaagtggc ataaattccg 10020
tcagccagtt tagtctgacc atctcatctg taacatcatt ggcaacgcta cctttgccat 10080
gtttcagaaa caactctggc gcatcgggct tcccatacaa gcgatagatt gtcgcacctg 10140
attgcccgac attatcgcga gcccatttat acccatataa atcagcatcc atgttggaat 10200
ttaatcgcgg cctcgacgtt tcccgttgaa tatggctcat attcttcctt tttcaatatt 10260
attgaagcat ttatcagggt tattgtctca tgagcggata catatttgaa tgtatttaga 10320
aaaataaaca aataggggtc agtgttacaa ccaattaacc aattctgaac attatcgcga 10380
gcccatttat acctgaatat ggctcataac accccttgtt tgcctggcgg cagtagcgcg 10440
gtggtcccac ctgaccccat gccgaactca gaagtgaaac gccgtagcgc cgatggtagt 10500
gtggggactc cccatgcgag agtagggaac tgccaggcat caaataaaac gaaaggctca 10560
gtcgaaagac tgggcctttc gcccgggcta attagggggt gtcgccctta ttcgactcta 10620
tagtgaagtt cctattctct agaaagtata ggaacttctg aagtggg 10667
<210> 33
<211> 10446
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 33
gtcgacttaa ttaaggctgc gcgctcgctc gctcactgag gccgcccggg caaagcccgg 60
gcgtcgggcg acctttggtc gcccggcctc agtgagcgag cgagcgcgca gagagggagt 120
ggccaactcc atcactaggg gttccttgta gttaatgatt aacccgccat gctacttatc 180
tacgtagcaa gctagcctag ttattaatag taatcaatta cggggtcatt agttcatagc 240
ccatatatgg agttccgcgt tacataactt acggtaaatg gcccgcctgg ctgaccgccc 300
aacgaccccc gcccattgac gtcaataatg acgtatgttc ccatagtaac gccaataggg 360
actttccatt gacgtcaatg ggtggagtat ttacggtaaa ctgcccactt ggcagtacat 420
caagtgtatc atatgccaag tacgccccct attgacgtca atgacggtaa atggcccgcc 480
tggcattatg cccagtacat gaccttatgg gactttccta cttggcagta catctacgta 540
ttagtcatcg ctattaccat ggtgatgcgg ttttggcagt acaccaatgg gcgtggatag 600
cggtttgact cacggggatt tccaagtctc caccccattg acgtcaatgg gagtttgttt 660
tggcaccaaa atcaacggga ctttccaaaa tgtcgtaaca actccgcccc gttgacgcaa 720
atgggcggta ggcgtgtacg gtgggaggtc tatataagca gagctcgttt agtgaaccgt 780
cagatcgccg ccaccatgga agatgccaaa aacattaaga agggcccagc gccattctac 840
ccactcgaag acgggaccgc cggcgagcag ctgcacaaag ccatgaagcg ctacgccctg 900
gtgcccggca ccatcgcctt taccgacgca catatcgagg tggacattac ctacgccgaa 960
tacttcgaga tgagcgttcg gctggcagaa gctatgaagc gctatgggct gaatacaaac 1020
catcggatcg tggtgtgcag cgagaatagc ttgcagttct tcatgcccgt gttgggtgcc 1080
ctgttcatcg gtgtggctgt ggccccagct aacgacatct acaacgagcg cgagctgctg 1140
aacagcatgg gcatcagcca gcccaccgtc gtattcgtga gcaagaaagg gctgcaaaag 1200
atcctcaacg tgcaaaagaa gctaccgatc atacaaaaga tcatcatcat ggatagcaag 1260
accgactacc agggcttcca aagcatgtac accttcgtga cttcccattt gccacccggc 1320
ttcaacgagt acgacttcgt gcccgagagc ttcgaccggg acaaaaccat cgccctgatc 1380
atgaacagta gtggcagtac cggattgccc aagggcgtag ccctaccgca ccgcaccgct 1440
tgtgtccgat tcagtcatgc ccgcgacccc atcttcggca accagatcat ccccgacacc 1500
gctatcctca gcgtggtgcc atttcaccac ggcttcggca tgttcaccac gctgggctac 1560
ttgatctgcg gctttcgggt cgtgctcatg taccgcttcg aggaggagct attcttgcgc 1620
agcttgcaag actataagat tcaatctgcc ctgctggtgc ccacactatt tagcttcttc 1680
gctaagagca ctctcatcga caagtacgac ctaagcaact tgcacgagat cgccagcggc 1740
ggagcgccgc tcagcaagga ggtaggtgag gccgtggcca aacgcttcca cctaccaggc 1800
atccgccagg gctacggcct gacagaaaca accagcgcca ttctgatcac ccccgaaggg 1860
gacgacaagc ctggcgcagt aggcaaggtg gtgcccttct tcgaggctaa ggtggtggac 1920
ttggacaccg gtaagacact gggtgtgaac cagcgcggcg agctgtgcgt ccgtggcccc 1980
atgatcatga gcggctacgt taacaacccc gaggctacaa acgctctcat cgacaaggac 2040
ggctggctgc acagcggcga catcgcctac tgggacgagg acgagcactt cttcatcgtg 2100
gaccggctga agagcctgat caaatacaag ggctaccagg taagtccgaa tacgatactc 2160
agcaggtggg aggtaattga atcgtggggg tggtttcccc cacgctattc tcataatagt 2220
aagttctcac gatgtctgat ggttttataa ggggctttcc cctttgctcg gctcacattc 2280
ttctaattcc ggccaccatg tgaagaaaaa tgtgaaaggt ttttcttttc ctgagaaatt 2340
tctcaggttt tgctttttaa aaaaaaagca aaagatgctg gtggttggca ctcctggttt 2400
ccaggacggg gttcaaatcc ctgcggcgtc tctcgagttc tacgtagata agtagcatgg 2460
cgggttaatc attaactaca aggaacccct agtgatggag ttggccactc cctctctgcg 2520
cgctcgctcg ctcactgagg ccgggcgacc aaaggtcgcc cgacgcccgg gctttgcccg 2580
ggcggcctca gtgagcgagc gagcgcgcag ccttaattaa cctaaggaaa atgaagtgaa 2640
gttcctatac tttctagaga ataggaactt ctatagtgag tcgaataagg gcgacacaaa 2700
atttattcta aatgcataat aaatactgat aacatcttat agtttgtatt atattttgta 2760
ttatcgttga catgtataat tttgatatca aaaactgatt ttccctttat tattttcgag 2820
atttattttc ttaattctct ttaacaaact agaaatattg tatatacaaa aaatcataaa 2880
taatagatga atagtttaat tataggtgtt catcaatcga aaaagcaacg tatcttattt 2940
aaagtgcgtt gcttttttct catttataag gttaaataat tctcatatat caagcaaagt 3000
gacaggcgcc cttaaatatt ctgacaaatg ctctttccct aaactccccc cataaaaaaa 3060
cccgccgaag cgggttttta cgttatttgc ggattaacga ttactcgtta tcagaaccgc 3120
ccagggggcc cgagcttaac ctttttattt gggggagagg gaagtcatga aaaaactaac 3180
ctttgaaatt cgatctccag cacatcagca aaacgctatt cacgcagtac agcaaatcct 3240
tccagaccca accaaaccaa tcgtagtaac cattcaggaa cgcaaccgca gcttagacca 3300
aaacaggaag ctatgggcct gcttaggtga cgtctctcgt caggttgaat ggcatggtcg 3360
ctggctggat gcagaaagct ggaagtgtgt gtttaccgca gcattaaagc agcaggatgt 3420
tgttcctaac cttgccggga atggctttgt ggtaataggc cagtcaacca gcaggatgcg 3480
tgtaggcgaa tttgcggagc tattagagct tatacaggca ttcggtacag agcgtggcgt 3540
taagtggtca gacgaagcga gactggctct ggagtggaaa gcgagatggg gagacagggc 3600
tgcatgataa atgtcgttag tttctccggt ggcaggacgt cagcatattt gctctggcta 3660
atggagcaaa agcgacgggc aggtaaagac gtgcattacg ttttcatgga tacaggttgt 3720
gaacatccaa tgacatatcg gtttgtcagg gaagttgtga agttctggga tataccgctc 3780
accgtattgc aggttgatat caacccggag cttggacagc caaatggtta tacggtatgg 3840
gaaccaaagg atattcagac gcgaatgcct gttctgaagc catttatcga tatggtaaag 3900
aaatatggca ctccatacgt cggcggcgcg ttctgcactg acagattaaa actcgttccc 3960
ttcaccaaat actgtgatga ccatttcggg cgagggaatt acaccacgtg gattggcatc 4020
agagctgatg aaccgaagcg gctaaagcca aagcctggaa tcagatatct tgctgaactg 4080
tcagactttg agaaggaaga tatcctcgca tggtggaagc aacaaccatt cgatttgcaa 4140
ataccggaac atctcggtaa ctgcatattc tgcattaaaa aatcaacgca aaaaatcgga 4200
cttgcctgca aagatgagga gggattgcag cgtgttttta atgaggtcat cacgggatcc 4260
catgtgcgtg acggacatcg ggaaacgcca aaggagatta tgtaccgagg aagaatgtcg 4320
ctggacggta tcgcgaaaat gtattcagaa aatgattatc aagccctgta tcaggacatg 4380
gtacgagcta aaagattcga taccggctct tgttctgagt catgcgaaat atttggaggg 4440
cagcttgatt tcgacttcgg gagggaagct gcatgatgcg atgttatcgg tgcggtgaat 4500
gcaaagaaga taaccgcttc cgaccaaatc aaccttactg gaatcgatgg tgtctccggt 4560
gtgaaagaac accaacaggg gtgttaccac taccgcagga aaaggaggac gtgtggcgag 4620
acagcgacga agtatcaccg acataatctg cgaaaactgc aaataccttc caacgaaacg 4680
caccagaaat aaacccaagc caatcccaaa agaatctgac gtaaaaacct tcaactacac 4740
ggctcacctg tgggatatcc ggtggctaag acgtcgtgcg aggaaaacaa ggtgattgac 4800
caaaatcgaa gttacgaaca agaaagcgtc gagcgagctt taacgtgcgc taactgcggt 4860
cagaagctgc atgtgctgga agttcacgtg tgtgagcact gctgcgcaga actgatgagc 4920
gatccgaata gctcgatgca cgaggaagaa gatgatggct aaaccagcgc gaagacgatg 4980
taaaaacgat gaatgccggg aatggtttca ccctgcattc gctaatcagt ggtggtgctc 5040
tccagagtgt ggaaccaaga tagcactcga acgacgaagt aaagaacgcg aaaaagcgga 5100
aaaagcagca gagaagaaac gacgacgaga ggagcagaaa cagaaagata aacttaagat 5160
tcgaaaactc gccttaaagc cccgcagtta ctggattaaa caagcccaac aagccgtaaa 5220
cgccttcatc agagaaagag accgcgactt accatgtatc tcgtgcggaa cgctcacgtc 5280
tgctcagtgg gatgccggac attaccggac aactgctgcg gcacctcaac tccgatttaa 5340
tgaacgcaat attcacaagc aatgcgtggt gtgcaaccag cacaaaagcg gaaatctcgt 5400
tccgtatcgc gtcgaactga ttagccgcat cgggcaggaa gcagtagacg aaatcgaatc 5460
aaaccataac cgccatcgct ggactatcga agagtgcaag gcgatcaagg cagagtacca 5520
acagaaactc aaagacctgc gaaatagcag aagtgaggcc gcatgacgtt ctcagtaaaa 5580
accattccag acatgctcgt tgaagcatac ggaaatcaga cagaagtagc acgcagactg 5640
aaatgtagtc gcggtacggt cagaaaatac gttgatgata aagacgggaa aatgcacgcc 5700
atcgtcaacg acgttctcat ggttcatcgc ggatggagtg aaagagatgc gctattacga 5760
aaaaattgat ggcagcaaat accgaaatat ttgggtagtt ggcgatctgc acggatgcta 5820
cacgaacctg atgaacaaac tggatacgat tggattcgac aacaaaaaag acctgcttat 5880
ctcggtgggc gatttggttg atcgtggtgc agagaacgtt gaatgcctgg aattaatcac 5940
attcccctgg ttcagagctg tacgtggaaa ccatgagcaa atgatgattg atggcttatc 6000
agagcgtgga aacgttaatc actggctgct taatggcggt ggctggttct ttaatctcga 6060
ttacgacaaa gaaattctgg ctaaagctct tgcccataaa gcagatgaac ttccgttaat 6120
catcgaactg gtgagcaaag ataaaaaata tgttatctgc cacgccgatt atccctttga 6180
cgaatacgag tttggaaagc cagttgatca tcagcaggta atctggaacc gcgaacgaat 6240
cagcaactca caaaacggga tcgtgaaaga aatcaaaggc gcggacacgt tcatctttgg 6300
tcatacgcca gcagtgaaac cactcaagtt tgccaaccaa atgtatatcg ataccggcgc 6360
agtgttctgc ggaaacctaa cattgattca ggtacaggga gaaggcgcat gagactcgaa 6420
agcgtagcta aatttcattc gccaaaaagc ccgatgatga gcgactcacc acgggccacg 6480
gcttctgact ctctttccgg tactgatgtg atggctgcta tggggatggc gcaatcacaa 6540
gccggattcg gtatggctgc attctgcggt aagcacgaac tcagccagaa cgacaaacaa 6600
aaggctatca actatctgat gcaatttgca cacaaggtat cggggaaata ccgtggtgtg 6660
gcaaagcttg aaggaaatac taaggcaaag gtactgcaag tgctcgcaac attcgcttat 6720
gcggattatt gccgtagtgc cgcgacgccg ggggcaagat gcagagattg ccatggtaca 6780
ggccgtgcgg ttgatattgc caaaacagag ctgtggggga gagttgtcga gaaagagtgc 6840
ggaagatgca aaggcgtcgg ctattcaagg atgccagcaa gcgcagcata tcgcgctgtg 6900
acgatgctaa tcccaaacct tacccaaccc acctggtcac gcactgttaa gccgctgtat 6960
gacgctctgg tggtgcaatg ccacaaagaa gagtcaatcg cagacaacat tttgaatgcg 7020
gtcacacgtt agcagcatga ttgccacgga tggcaacata ttaacggcat gatattgact 7080
tattgaataa aattgggtaa atttgactca acgatgggtt aattcgctcg ttgtggtagt 7140
gagatgaaaa gaggcggcgc ttactaccga ttccgcctag ttggtcactt cgacgtatcg 7200
tctggaactc caaccatcgc aggcagagag gtctgcaaaa tgcaatcccg aaacagttcg 7260
caggtaatag ttagagcctg cataacggtt tcgggatttt ttatatctgc acaacaggta 7320
agagcattga gtcgataatc gtgaagagtc ggcgagcctg gttagccagt gctctttccg 7380
ttgtgctgaa ttaagcgaat accggaagca gaaccggatc accaaatgcg tacaggcgtc 7440
atcgccgccc agcaacagca caacccaaac tgagccgtag ccactgtctg tcctgaattc 7500
attagtaata gttacgctgc ggccttttac acatgacctt cgtgaaagcg ggtggcagga 7560
ggtcgcgcta acaacctcct gccgttttgc ccgtgcatat cggtcacgaa caaatctgat 7620
tactaaacac agtagcctgg atttgttcta tcagtaatcg accttattcc taattaaata 7680
gagcaaatcc ccttattggg ggtaagacat gaagatgcca gaaaaacatg acctgttggc 7740
cgccattctc gcggcaaagg aacaaggcat cggggcaatc cttgcgtttg caatggcgta 7800
ccttcgcggc agatataatg gcggtgcgtt tacaaaaaca gtaatcgacg caacgatgtg 7860
cgccattatc gcctggttca ttcgtgacct tctcgacttc gccggactaa gtagcaatct 7920
cgcttatata acgagcgtgt ttatcggcta catcggtact gactcgattg gttcgcttat 7980
caaacgcttc gctgctaaaa aagccggagt agaagatggt agaaatcaat aatcaacgta 8040
aggcgttcct cgatatgctg gcgtggtcgg agggaactga taacggacgt cagaaaacca 8100
gaaatcatgg ttatgacgtc attgtaggcg gagagctatt tactgattac tccgatcacc 8160
ctcgcaaact tgtcacgcta aacccaaaac tcaaatcaac aggcgcttaa gactggccgt 8220
cgttttacaa cacagaaaga gtttgtagaa acgcaaaaag gccatccgtc aggggccttc 8280
tgcttagttt gatgcctggc agttccctac tctcgccttc cgcttcctcg ctcactgact 8340
cgctgcgctc ggtcgttcgg ctgcggcgag cggtatcagc tcactcaaag gcggtaatac 8400
ggttatccac agaatcaggg gataacgcag gaaagaacat gtgagcaaaa ggccagcaaa 8460
aggccaggaa ccgtaaaaag gccgcgttgc tggcgttttt ccataggctc cgcccccctg 8520
acgagcatca caaaaatcga cgctcaagtc agaggtggcg aaacccgaca ggactataaa 8580
gataccaggc gtttccccct ggaagctccc tcgtgcgctc tcctgttccg accctgccgc 8640
ttaccggata cctgtccgcc tttctccctt cgggaagcgt ggcgctttct catagctcac 8700
gctgtaggta tctcagttcg gtgtaggtcg ttcgctccaa gctgggctgt gtgcacgaac 8760
cccccgttca gcccgaccgc tgcgccttat ccggtaacta tcgtcttgag tccaacccgg 8820
taagacacga cttatcgcca ctggcagcag ccactggtaa caggattagc agagcgaggt 8880
atgtaggcgg tgctacagag ttcttgaagt ggtgggctaa ctacggctac actagaagaa 8940
cagtatttgg tatctgcgct ctgctgaagc cagttacctt cggaaaaaga gttggtagct 9000
cttgatccgg caaacaaacc accgctggta gcggtggttt ttttgtttgc aagcagcaga 9060
ttacgcgcag aaaaaaagga tctcaagaag atcctttgat cttttctacg gggtctgacg 9120
ctcagtggaa cgacgcgcgc gtaactcacg ttaagggatt ttggtcatga gcttgcgccg 9180
tcccgtcaag tcagcgtaat gctctgcttt tagaaaaact catcgagcat caaatgaaac 9240
tgcaatttat tcatatcagg attatcaata ccatattttt gaaaaagccg tttctgtaat 9300
gaaggagaaa actcaccgag gcagttccat aggatggcaa gatcctggta tcggtctgcg 9360
attccgactc gtccaacatc aatacaacct attaatttcc cctcgtcaaa aataaggtta 9420
tcaagtgaga aatcaccatg agtgacgact gaatccggtg agaatggcaa aagtttatgc 9480
atttctttcc agacttgttc aacaggccag ccattacgct cgtcatcaaa atcactcgca 9540
tcaaccaaac cgttattcat tcgtgattgc gcctgagcga ggcgaaatac gcgatcgctg 9600
ttaaaaggac aattacaaac aggaatcgag tgcaaccggc gcaggaacac tgccagcgca 9660
tcaacaatat tttcacctga atcaggatat tcttctaata cctggaacgc tgtttttccg 9720
gggatcgcag tggtgagtaa ccatgcatca tcaggagtac ggataaaatg cttgatggtc 9780
ggaagtggca taaattccgt cagccagttt agtctgacca tctcatctgt aacatcattg 9840
gcaacgctac ctttgccatg tttcagaaac aactctggcg catcgggctt cccatacaag 9900
cgatagattg tcgcacctga ttgcccgaca ttatcgcgag cccatttata cccatataaa 9960
tcagcatcca tgttggaatt taatcgcggc ctcgacgttt cccgttgaat atggctcata 10020
ttcttccttt ttcaatatta ttgaagcatt tatcagggtt attgtctcat gagcggatac 10080
atatttgaat gtatttagaa aaataaacaa ataggggtca gtgttacaac caattaacca 10140
attctgaaca ttatcgcgag cccatttata cctgaatatg gctcataaca ccccttgttt 10200
gcctggcggc agtagcgcgg tggtcccacc tgaccccatg ccgaactcag aagtgaaacg 10260
ccgtagcgcc gatggtagtg tggggactcc ccatgcgaga gtagggaact gccaggcatc 10320
aaataaaacg aaaggctcag tcgaaagact gggcctttcg cccgggctaa ttagggggtg 10380
tcgcccttat tcgactctat agtgaagttc ctattctcta gaaagtatag gaacttctga 10440
agtggg 10446
<210> 34
<211> 10465
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 34
gtcgacttaa ttaaggctgc gcgctcgctc gctcactgag gccgcccggg caaagcccgg 60
gcgtcgggcg acctttggtc gcccggcctc agtgagcgag cgagcgcgca gagagggagt 120
ggccaactcc atcactaggg gttccttgta gttaatgatt aacccgccat gctacttatc 180
tacgtagcaa gctagcctag ttattaatag taatcaatta cggggtcatt agttcatagc 240
ccatatatgg agttccgcgt tacataactt acggtaaatg gcccgcctgg ctgaccgccc 300
aacgaccccc gcccattgac gtcaataatg acgtatgttc ccatagtaac gccaataggg 360
actttccatt gacgtcaatg ggtggagtat ttacggtaaa ctgcccactt ggcagtacat 420
caagtgtatc atatgccaag tacgccccct attgacgtca atgacggtaa atggcccgcc 480
tggcattatg cccagtacat gaccttatgg gactttccta cttggcagta catctacgta 540
ttagtcatcg ctattaccat ggtgatgcgg ttttggcagt acaccaatgg gcgtggatag 600
cggtttgact cacggggatt tccaagtctc caccccattg acgtcaatgg gagtttgttt 660
tggcaccaaa atcaacggga ctttccaaaa tgtcgtaaca actccgcccc gttgacgcaa 720
atgggcggta ggcgtgtacg gtgggaggtc tatataagca gagctcgttt agtgaaccgt 780
cagatcgccg ccaccatgga agatgccaaa aacattaaga agggcccagc gccattctac 840
ccactcgaag acgggaccgc cggcgagcag ctgcacaaag ccatgaagcg ctacgccctg 900
gtgcccggca ccatcgcctt taccgacgca catatcgagg tggacattac ctacgccgaa 960
tacttcgaga tgagcgttcg gctggcagaa gctatgaagc gctatgggct gaatacaaac 1020
catcggatcg tggtgtgcag cgagaatagc ttgcagttct tcatgcccgt gttgggtgcc 1080
ctgttcatcg gtgtggctgt ggccccagct aacgacatct acaacgagcg cgagctgctg 1140
aacagcatgg gcatcagcca gcccaccgtc gtattcgtga gcaagaaagg gctgcaaaag 1200
atcctcaacg tgcaaaagaa gctaccgatc atacaaaaga tcatcatcat ggatagcaag 1260
accgactacc agggcttcca aagcatgtac accttcgtga cttcccattt gccacccggc 1320
ttcaacgagt acgacttcgt gcccgagagc ttcgaccggg acaaaaccat cgccctgatc 1380
atgaacagta gtggcagtac cggattgccc aagggcgtag ccctaccgca ccgcaccgct 1440
tgtgtccgat tcagtcatgc ccgcgacccc atcttcggca accagatcat ccccgacacc 1500
gctatcctca gcgtggtgcc atttcaccac ggcttcggca tgttcaccac gctgggctac 1560
ttgatctgcg gctttcgggt cgtgctcatg taccgcttcg aggaggagct attcttgcgc 1620
agcttgcaag actataagat tcaatctgcc ctgctggtgc ccacactatt tagcttcttc 1680
gctaagagca ctctcatcga caagtacgac ctaagcaact tgcacgagat cgccagcggc 1740
ggagcgccgc tcagcaagga ggtaggtgag gccgtggcca aacgcttcca cctaccaggc 1800
atccgccagg gctacggcct gacagaaaca accagcgcca ttctgatcac ccccgaaggg 1860
gacgacaagc ctggcgcagt aggcaaggtg gtgcccttct tcgaggctaa ggtggtggac 1920
ttggacaccg gtaagacact gggtgtgaac cagcgcggcg agctgtgcgt ccgtggcccc 1980
atgatcatga gcggctacgt taacaacccc gaggctacaa acgctctcat cgacaaggac 2040
ggctggctgc acagcggcga catcgcctac tgggacgagg acgagcactt cttcatcgtg 2100
gaccggctga agagcctgat caaatacaag ggctaccagg taagtccgaa tacgatactc 2160
agcaggtggg aggtaattga atcgtggggg tggtttcccc cacgctattc tcataatagt 2220
aagttctcac gatgtctgat ggttttataa ggggctttcc cctttgctcg gctcacattc 2280
ttctaattcc ggccaccatg tgaagaaaaa tgtggattcg tcagtagggt tgtaaaggtt 2340
tttcttttcc tgagaaattt ctcaggtttt gctttttaaa aaaaaagcaa aagatgctgg 2400
tggttggcac tcctggtttc caggacgggg ttcaaatccc tgcggcgtct ctcgagttct 2460
acgtagataa gtagcatggc gggttaatca ttaactacaa ggaaccccta gtgatggagt 2520
tggccactcc ctctctgcgc gctcgctcgc tcactgaggc cgggcgacca aaggtcgccc 2580
gacgcccggg ctttgcccgg gcggcctcag tgagcgagcg agcgcgcagc cttaattaac 2640
ctaaggaaaa tgaagtgaag ttcctatact ttctagagaa taggaacttc tatagtgagt 2700
cgaataaggg cgacacaaaa tttattctaa atgcataata aatactgata acatcttata 2760
gtttgtatta tattttgtat tatcgttgac atgtataatt ttgatatcaa aaactgattt 2820
tccctttatt attttcgaga tttattttct taattctctt taacaaacta gaaatattgt 2880
atatacaaaa aatcataaat aatagatgaa tagtttaatt ataggtgttc atcaatcgaa 2940
aaagcaacgt atcttattta aagtgcgttg cttttttctc atttataagg ttaaataatt 3000
ctcatatatc aagcaaagtg acaggcgccc ttaaatattc tgacaaatgc tctttcccta 3060
aactcccccc ataaaaaaac ccgccgaagc gggtttttac gttatttgcg gattaacgat 3120
tactcgttat cagaaccgcc cagggggccc gagcttaacc tttttatttg ggggagaggg 3180
aagtcatgaa aaaactaacc tttgaaattc gatctccagc acatcagcaa aacgctattc 3240
acgcagtaca gcaaatcctt ccagacccaa ccaaaccaat cgtagtaacc attcaggaac 3300
gcaaccgcag cttagaccaa aacaggaagc tatgggcctg cttaggtgac gtctctcgtc 3360
aggttgaatg gcatggtcgc tggctggatg cagaaagctg gaagtgtgtg tttaccgcag 3420
cattaaagca gcaggatgtt gttcctaacc ttgccgggaa tggctttgtg gtaataggcc 3480
agtcaaccag caggatgcgt gtaggcgaat ttgcggagct attagagctt atacaggcat 3540
tcggtacaga gcgtggcgtt aagtggtcag acgaagcgag actggctctg gagtggaaag 3600
cgagatgggg agacagggct gcatgataaa tgtcgttagt ttctccggtg gcaggacgtc 3660
agcatatttg ctctggctaa tggagcaaaa gcgacgggca ggtaaagacg tgcattacgt 3720
tttcatggat acaggttgtg aacatccaat gacatatcgg tttgtcaggg aagttgtgaa 3780
gttctgggat ataccgctca ccgtattgca ggttgatatc aacccggagc ttggacagcc 3840
aaatggttat acggtatggg aaccaaagga tattcagacg cgaatgcctg ttctgaagcc 3900
atttatcgat atggtaaaga aatatggcac tccatacgtc ggcggcgcgt tctgcactga 3960
cagattaaaa ctcgttccct tcaccaaata ctgtgatgac catttcgggc gagggaatta 4020
caccacgtgg attggcatca gagctgatga accgaagcgg ctaaagccaa agcctggaat 4080
cagatatctt gctgaactgt cagactttga gaaggaagat atcctcgcat ggtggaagca 4140
acaaccattc gatttgcaaa taccggaaca tctcggtaac tgcatattct gcattaaaaa 4200
atcaacgcaa aaaatcggac ttgcctgcaa agatgaggag ggattgcagc gtgtttttaa 4260
tgaggtcatc acgggatccc atgtgcgtga cggacatcgg gaaacgccaa aggagattat 4320
gtaccgagga agaatgtcgc tggacggtat cgcgaaaatg tattcagaaa atgattatca 4380
agccctgtat caggacatgg tacgagctaa aagattcgat accggctctt gttctgagtc 4440
atgcgaaata tttggagggc agcttgattt cgacttcggg agggaagctg catgatgcga 4500
tgttatcggt gcggtgaatg caaagaagat aaccgcttcc gaccaaatca accttactgg 4560
aatcgatggt gtctccggtg tgaaagaaca ccaacagggg tgttaccact accgcaggaa 4620
aaggaggacg tgtggcgaga cagcgacgaa gtatcaccga cataatctgc gaaaactgca 4680
aataccttcc aacgaaacgc accagaaata aacccaagcc aatcccaaaa gaatctgacg 4740
taaaaacctt caactacacg gctcacctgt gggatatccg gtggctaaga cgtcgtgcga 4800
ggaaaacaag gtgattgacc aaaatcgaag ttacgaacaa gaaagcgtcg agcgagcttt 4860
aacgtgcgct aactgcggtc agaagctgca tgtgctggaa gttcacgtgt gtgagcactg 4920
ctgcgcagaa ctgatgagcg atccgaatag ctcgatgcac gaggaagaag atgatggcta 4980
aaccagcgcg aagacgatgt aaaaacgatg aatgccggga atggtttcac cctgcattcg 5040
ctaatcagtg gtggtgctct ccagagtgtg gaaccaagat agcactcgaa cgacgaagta 5100
aagaacgcga aaaagcggaa aaagcagcag agaagaaacg acgacgagag gagcagaaac 5160
agaaagataa acttaagatt cgaaaactcg ccttaaagcc ccgcagttac tggattaaac 5220
aagcccaaca agccgtaaac gccttcatca gagaaagaga ccgcgactta ccatgtatct 5280
cgtgcggaac gctcacgtct gctcagtggg atgccggaca ttaccggaca actgctgcgg 5340
cacctcaact ccgatttaat gaacgcaata ttcacaagca atgcgtggtg tgcaaccagc 5400
acaaaagcgg aaatctcgtt ccgtatcgcg tcgaactgat tagccgcatc gggcaggaag 5460
cagtagacga aatcgaatca aaccataacc gccatcgctg gactatcgaa gagtgcaagg 5520
cgatcaaggc agagtaccaa cagaaactca aagacctgcg aaatagcaga agtgaggccg 5580
catgacgttc tcagtaaaaa ccattccaga catgctcgtt gaagcatacg gaaatcagac 5640
agaagtagca cgcagactga aatgtagtcg cggtacggtc agaaaatacg ttgatgataa 5700
agacgggaaa atgcacgcca tcgtcaacga cgttctcatg gttcatcgcg gatggagtga 5760
aagagatgcg ctattacgaa aaaattgatg gcagcaaata ccgaaatatt tgggtagttg 5820
gcgatctgca cggatgctac acgaacctga tgaacaaact ggatacgatt ggattcgaca 5880
acaaaaaaga cctgcttatc tcggtgggcg atttggttga tcgtggtgca gagaacgttg 5940
aatgcctgga attaatcaca ttcccctggt tcagagctgt acgtggaaac catgagcaaa 6000
tgatgattga tggcttatca gagcgtggaa acgttaatca ctggctgctt aatggcggtg 6060
gctggttctt taatctcgat tacgacaaag aaattctggc taaagctctt gcccataaag 6120
cagatgaact tccgttaatc atcgaactgg tgagcaaaga taaaaaatat gttatctgcc 6180
acgccgatta tccctttgac gaatacgagt ttggaaagcc agttgatcat cagcaggtaa 6240
tctggaaccg cgaacgaatc agcaactcac aaaacgggat cgtgaaagaa atcaaaggcg 6300
cggacacgtt catctttggt catacgccag cagtgaaacc actcaagttt gccaaccaaa 6360
tgtatatcga taccggcgca gtgttctgcg gaaacctaac attgattcag gtacagggag 6420
aaggcgcatg agactcgaaa gcgtagctaa atttcattcg ccaaaaagcc cgatgatgag 6480
cgactcacca cgggccacgg cttctgactc tctttccggt actgatgtga tggctgctat 6540
ggggatggcg caatcacaag ccggattcgg tatggctgca ttctgcggta agcacgaact 6600
cagccagaac gacaaacaaa aggctatcaa ctatctgatg caatttgcac acaaggtatc 6660
ggggaaatac cgtggtgtgg caaagcttga aggaaatact aaggcaaagg tactgcaagt 6720
gctcgcaaca ttcgcttatg cggattattg ccgtagtgcc gcgacgccgg gggcaagatg 6780
cagagattgc catggtacag gccgtgcggt tgatattgcc aaaacagagc tgtgggggag 6840
agttgtcgag aaagagtgcg gaagatgcaa aggcgtcggc tattcaagga tgccagcaag 6900
cgcagcatat cgcgctgtga cgatgctaat cccaaacctt acccaaccca cctggtcacg 6960
cactgttaag ccgctgtatg acgctctggt ggtgcaatgc cacaaagaag agtcaatcgc 7020
agacaacatt ttgaatgcgg tcacacgtta gcagcatgat tgccacggat ggcaacatat 7080
taacggcatg atattgactt attgaataaa attgggtaaa tttgactcaa cgatgggtta 7140
attcgctcgt tgtggtagtg agatgaaaag aggcggcgct tactaccgat tccgcctagt 7200
tggtcacttc gacgtatcgt ctggaactcc aaccatcgca ggcagagagg tctgcaaaat 7260
gcaatcccga aacagttcgc aggtaatagt tagagcctgc ataacggttt cgggattttt 7320
tatatctgca caacaggtaa gagcattgag tcgataatcg tgaagagtcg gcgagcctgg 7380
ttagccagtg ctctttccgt tgtgctgaat taagcgaata ccggaagcag aaccggatca 7440
ccaaatgcgt acaggcgtca tcgccgccca gcaacagcac aacccaaact gagccgtagc 7500
cactgtctgt cctgaattca ttagtaatag ttacgctgcg gccttttaca catgaccttc 7560
gtgaaagcgg gtggcaggag gtcgcgctaa caacctcctg ccgttttgcc cgtgcatatc 7620
ggtcacgaac aaatctgatt actaaacaca gtagcctgga tttgttctat cagtaatcga 7680
ccttattcct aattaaatag agcaaatccc cttattgggg gtaagacatg aagatgccag 7740
aaaaacatga cctgttggcc gccattctcg cggcaaagga acaaggcatc ggggcaatcc 7800
ttgcgtttgc aatggcgtac cttcgcggca gatataatgg cggtgcgttt acaaaaacag 7860
taatcgacgc aacgatgtgc gccattatcg cctggttcat tcgtgacctt ctcgacttcg 7920
ccggactaag tagcaatctc gcttatataa cgagcgtgtt tatcggctac atcggtactg 7980
actcgattgg ttcgcttatc aaacgcttcg ctgctaaaaa agccggagta gaagatggta 8040
gaaatcaata atcaacgtaa ggcgttcctc gatatgctgg cgtggtcgga gggaactgat 8100
aacggacgtc agaaaaccag aaatcatggt tatgacgtca ttgtaggcgg agagctattt 8160
actgattact ccgatcaccc tcgcaaactt gtcacgctaa acccaaaact caaatcaaca 8220
ggcgcttaag actggccgtc gttttacaac acagaaagag tttgtagaaa cgcaaaaagg 8280
ccatccgtca ggggccttct gcttagtttg atgcctggca gttccctact ctcgccttcc 8340
gcttcctcgc tcactgactc gctgcgctcg gtcgttcggc tgcggcgagc ggtatcagct 8400
cactcaaagg cggtaatacg gttatccaca gaatcagggg ataacgcagg aaagaacatg 8460
tgagcaaaag gccagcaaaa ggccaggaac cgtaaaaagg ccgcgttgct ggcgtttttc 8520
cataggctcc gcccccctga cgagcatcac aaaaatcgac gctcaagtca gaggtggcga 8580
aacccgacag gactataaag ataccaggcg tttccccctg gaagctccct cgtgcgctct 8640
cctgttccga ccctgccgct taccggatac ctgtccgcct ttctcccttc gggaagcgtg 8700
gcgctttctc atagctcacg ctgtaggtat ctcagttcgg tgtaggtcgt tcgctccaag 8760
ctgggctgtg tgcacgaacc ccccgttcag cccgaccgct gcgccttatc cggtaactat 8820
cgtcttgagt ccaacccggt aagacacgac ttatcgccac tggcagcagc cactggtaac 8880
aggattagca gagcgaggta tgtaggcggt gctacagagt tcttgaagtg gtgggctaac 8940
tacggctaca ctagaagaac agtatttggt atctgcgctc tgctgaagcc agttaccttc 9000
ggaaaaagag ttggtagctc ttgatccggc aaacaaacca ccgctggtag cggtggtttt 9060
tttgtttgca agcagcagat tacgcgcaga aaaaaaggat ctcaagaaga tcctttgatc 9120
ttttctacgg ggtctgacgc tcagtggaac gacgcgcgcg taactcacgt taagggattt 9180
tggtcatgag cttgcgccgt cccgtcaagt cagcgtaatg ctctgctttt agaaaaactc 9240
atcgagcatc aaatgaaact gcaatttatt catatcagga ttatcaatac catatttttg 9300
aaaaagccgt ttctgtaatg aaggagaaaa ctcaccgagg cagttccata ggatggcaag 9360
atcctggtat cggtctgcga ttccgactcg tccaacatca atacaaccta ttaatttccc 9420
ctcgtcaaaa ataaggttat caagtgagaa atcaccatga gtgacgactg aatccggtga 9480
gaatggcaaa agtttatgca tttctttcca gacttgttca acaggccagc cattacgctc 9540
gtcatcaaaa tcactcgcat caaccaaacc gttattcatt cgtgattgcg cctgagcgag 9600
gcgaaatacg cgatcgctgt taaaaggaca attacaaaca ggaatcgagt gcaaccggcg 9660
caggaacact gccagcgcat caacaatatt ttcacctgaa tcaggatatt cttctaatac 9720
ctggaacgct gtttttccgg ggatcgcagt ggtgagtaac catgcatcat caggagtacg 9780
gataaaatgc ttgatggtcg gaagtggcat aaattccgtc agccagttta gtctgaccat 9840
ctcatctgta acatcattgg caacgctacc tttgccatgt ttcagaaaca actctggcgc 9900
atcgggcttc ccatacaagc gatagattgt cgcacctgat tgcccgacat tatcgcgagc 9960
ccatttatac ccatataaat cagcatccat gttggaattt aatcgcggcc tcgacgtttc 10020
ccgttgaata tggctcatat tcttcctttt tcaatattat tgaagcattt atcagggtta 10080
ttgtctcatg agcggataca tatttgaatg tatttagaaa aataaacaaa taggggtcag 10140
tgttacaacc aattaaccaa ttctgaacat tatcgcgagc ccatttatac ctgaatatgg 10200
ctcataacac cccttgtttg cctggcggca gtagcgcggt ggtcccacct gaccccatgc 10260
cgaactcaga agtgaaacgc cgtagcgccg atggtagtgt ggggactccc catgcgagag 10320
tagggaactg ccaggcatca aataaaacga aaggctcagt cgaaagactg ggcctttcgc 10380
ccgggctaat tagggggtgt cgcccttatt cgactctata gtgaagttcc tattctctag 10440
aaagtatagg aacttctgaa gtggg 10465
<210> 35
<211> 10449
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 35
gtcgacttaa ttaaggctgc gcgctcgctc gctcactgag gccgcccggg caaagcccgg 60
gcgtcgggcg acctttggtc gcccggcctc agtgagcgag cgagcgcgca gagagggagt 120
ggccaactcc atcactaggg gttccttgta gttaatgatt aacccgccat gctacttatc 180
tacgtagcaa gctagcctag ttattaatag taatcaatta cggggtcatt agttcatagc 240
ccatatatgg agttccgcgt tacataactt acggtaaatg gcccgcctgg ctgaccgccc 300
aacgaccccc gcccattgac gtcaataatg acgtatgttc ccatagtaac gccaataggg 360
actttccatt gacgtcaatg ggtggagtat ttacggtaaa ctgcccactt ggcagtacat 420
caagtgtatc atatgccaag tacgccccct attgacgtca atgacggtaa atggcccgcc 480
tggcattatg cccagtacat gaccttatgg gactttccta cttggcagta catctacgta 540
ttagtcatcg ctattaccat ggtgatgcgg ttttggcagt acaccaatgg gcgtggatag 600
cggtttgact cacggggatt tccaagtctc caccccattg acgtcaatgg gagtttgttt 660
tggcaccaaa atcaacggga ctttccaaaa tgtcgtaaca actccgcccc gttgacgcaa 720
atgggcggta ggcgtgtacg gtgggaggtc tatataagca gagctcgttt agtgaaccgt 780
cagatcgccg ccaccatgga agatgccaaa aacattaaga agggcccagc gccattctac 840
ccactcgaag acgggaccgc cggcgagcag ctgcacaaag ccatgaagcg ctacgccctg 900
gtgcccggca ccatcgcctt taccgacgca catatcgagg tggacattac ctacgccgaa 960
tacttcgaga tgagcgttcg gctggcagaa gctatgaagc gctatgggct gaatacaaac 1020
catcggatcg tggtgtgcag cgagaatagc ttgcagttct tcatgcccgt gttgggtgcc 1080
ctgttcatcg gtgtggctgt ggccccagct aacgacatct acaacgagcg cgagctgctg 1140
aacagcatgg gcatcagcca gcccaccgtc gtattcgtga gcaagaaagg gctgcaaaag 1200
atcctcaacg tgcaaaagaa gctaccgatc atacaaaaga tcatcatcat ggatagcaag 1260
accgactacc agggcttcca aagcatgtac accttcgtga cttcccattt gccacccggc 1320
ttcaacgagt acgacttcgt gcccgagagc ttcgaccggg acaaaaccat cgccctgatc 1380
atgaacagta gtggcagtac cggattgccc aagggcgtag ccctaccgca ccgcaccgct 1440
tgtgtccgat tcagtcatgc ccgcgacccc atcttcggca accagatcat ccccgacacc 1500
gctatcctca gcgtggtgcc atttcaccac ggcttcggca tgttcaccac gctgggctac 1560
ttgatctgcg gctttcgggt cgtgctcatg taccgcttcg aggaggagct attcttgcgc 1620
agcttgcaag actataagat tcaatctgcc ctgctggtgc ccacactatt tagcttcttc 1680
gctaagagca ctctcatcga caagtacgac ctaagcaact tgcacgagat cgccagcggc 1740
ggagcgccgc tcagcaagga ggtaggtgag gccgtggcca aacgcttcca cctaccaggc 1800
atccgccagg gctacggcct gacagaaaca accagcgcca ttctgatcac ccccgaaggg 1860
gacgacaagc ctggcgcagt aggcaaggtg gtgcccttct tcgaggctaa ggtggtggac 1920
ttggacaccg gtaagacact gggtgtgaac cagcgcggcg agctgtgcgt ccgtggcccc 1980
atgatcatga gcggctacgt taacaacccc gaggctacaa acgctctcat cgacaaggac 2040
ggctggctgc acagcggcga catcgcctac tgggacgagg acgagcactt cttcatcgtg 2100
gaccggctga agagcctgat caaatacaag ggctaccagg taagtccgaa tacgatactc 2160
agcaggtggg aggtaattga atcgtggggg tggtttcccc cacgctattc tcataatagt 2220
aagttctcac gatgtctgat ggttttataa ggggctttcc cctttgctcg gctcacattc 2280
ttctaattcc ggccaccatg tgaagaaaaa tgtgaaaggt ttttcttttc ctgagaaatt 2340
tctcaggttt tgctttttaa aaaaaaagca aaaggcgcgt cctggattcc acggtacatc 2400
cagctgatga gtcccaaata ggacgaaacg cgctctcgag ttctacgtag ataagtagca 2460
tggcgggtta atcattaact acaaggaacc cctagtgatg gagttggcca ctccctctct 2520
gcgcgctcgc tcgctcactg aggccgggcg accaaaggtc gcccgacgcc cgggctttgc 2580
ccgggcggcc tcagtgagcg agcgagcgcg cagccttaat taacctaagg aaaatgaagt 2640
gaagttccta tactttctag agaataggaa cttctatagt gagtcgaata agggcgacac 2700
aaaatttatt ctaaatgcat aataaatact gataacatct tatagtttgt attatatttt 2760
gtattatcgt tgacatgtat aattttgata tcaaaaactg attttccctt tattattttc 2820
gagatttatt ttcttaattc tctttaacaa actagaaata ttgtatatac aaaaaatcat 2880
aaataataga tgaatagttt aattataggt gttcatcaat cgaaaaagca acgtatctta 2940
tttaaagtgc gttgcttttt tctcatttat aaggttaaat aattctcata tatcaagcaa 3000
agtgacaggc gcccttaaat attctgacaa atgctctttc cctaaactcc ccccataaaa 3060
aaacccgccg aagcgggttt ttacgttatt tgcggattaa cgattactcg ttatcagaac 3120
cgcccagggg gcccgagctt aaccttttta tttgggggag agggaagtca tgaaaaaact 3180
aacctttgaa attcgatctc cagcacatca gcaaaacgct attcacgcag tacagcaaat 3240
ccttccagac ccaaccaaac caatcgtagt aaccattcag gaacgcaacc gcagcttaga 3300
ccaaaacagg aagctatggg cctgcttagg tgacgtctct cgtcaggttg aatggcatgg 3360
tcgctggctg gatgcagaaa gctggaagtg tgtgtttacc gcagcattaa agcagcagga 3420
tgttgttcct aaccttgccg ggaatggctt tgtggtaata ggccagtcaa ccagcaggat 3480
gcgtgtaggc gaatttgcgg agctattaga gcttatacag gcattcggta cagagcgtgg 3540
cgttaagtgg tcagacgaag cgagactggc tctggagtgg aaagcgagat ggggagacag 3600
ggctgcatga taaatgtcgt tagtttctcc ggtggcagga cgtcagcata tttgctctgg 3660
ctaatggagc aaaagcgacg ggcaggtaaa gacgtgcatt acgttttcat ggatacaggt 3720
tgtgaacatc caatgacata tcggtttgtc agggaagttg tgaagttctg ggatataccg 3780
ctcaccgtat tgcaggttga tatcaacccg gagcttggac agccaaatgg ttatacggta 3840
tgggaaccaa aggatattca gacgcgaatg cctgttctga agccatttat cgatatggta 3900
aagaaatatg gcactccata cgtcggcggc gcgttctgca ctgacagatt aaaactcgtt 3960
cccttcacca aatactgtga tgaccatttc gggcgaggga attacaccac gtggattggc 4020
atcagagctg atgaaccgaa gcggctaaag ccaaagcctg gaatcagata tcttgctgaa 4080
ctgtcagact ttgagaagga agatatcctc gcatggtgga agcaacaacc attcgatttg 4140
caaataccgg aacatctcgg taactgcata ttctgcatta aaaaatcaac gcaaaaaatc 4200
ggacttgcct gcaaagatga ggagggattg cagcgtgttt ttaatgaggt catcacggga 4260
tcccatgtgc gtgacggaca tcgggaaacg ccaaaggaga ttatgtaccg aggaagaatg 4320
tcgctggacg gtatcgcgaa aatgtattca gaaaatgatt atcaagccct gtatcaggac 4380
atggtacgag ctaaaagatt cgataccggc tcttgttctg agtcatgcga aatatttgga 4440
gggcagcttg atttcgactt cgggagggaa gctgcatgat gcgatgttat cggtgcggtg 4500
aatgcaaaga agataaccgc ttccgaccaa atcaacctta ctggaatcga tggtgtctcc 4560
ggtgtgaaag aacaccaaca ggggtgttac cactaccgca ggaaaaggag gacgtgtggc 4620
gagacagcga cgaagtatca ccgacataat ctgcgaaaac tgcaaatacc ttccaacgaa 4680
acgcaccaga aataaaccca agccaatccc aaaagaatct gacgtaaaaa ccttcaacta 4740
cacggctcac ctgtgggata tccggtggct aagacgtcgt gcgaggaaaa caaggtgatt 4800
gaccaaaatc gaagttacga acaagaaagc gtcgagcgag ctttaacgtg cgctaactgc 4860
ggtcagaagc tgcatgtgct ggaagttcac gtgtgtgagc actgctgcgc agaactgatg 4920
agcgatccga atagctcgat gcacgaggaa gaagatgatg gctaaaccag cgcgaagacg 4980
atgtaaaaac gatgaatgcc gggaatggtt tcaccctgca ttcgctaatc agtggtggtg 5040
ctctccagag tgtggaacca agatagcact cgaacgacga agtaaagaac gcgaaaaagc 5100
ggaaaaagca gcagagaaga aacgacgacg agaggagcag aaacagaaag ataaacttaa 5160
gattcgaaaa ctcgccttaa agccccgcag ttactggatt aaacaagccc aacaagccgt 5220
aaacgccttc atcagagaaa gagaccgcga cttaccatgt atctcgtgcg gaacgctcac 5280
gtctgctcag tgggatgccg gacattaccg gacaactgct gcggcacctc aactccgatt 5340
taatgaacgc aatattcaca agcaatgcgt ggtgtgcaac cagcacaaaa gcggaaatct 5400
cgttccgtat cgcgtcgaac tgattagccg catcgggcag gaagcagtag acgaaatcga 5460
atcaaaccat aaccgccatc gctggactat cgaagagtgc aaggcgatca aggcagagta 5520
ccaacagaaa ctcaaagacc tgcgaaatag cagaagtgag gccgcatgac gttctcagta 5580
aaaaccattc cagacatgct cgttgaagca tacggaaatc agacagaagt agcacgcaga 5640
ctgaaatgta gtcgcggtac ggtcagaaaa tacgttgatg ataaagacgg gaaaatgcac 5700
gccatcgtca acgacgttct catggttcat cgcggatgga gtgaaagaga tgcgctatta 5760
cgaaaaaatt gatggcagca aataccgaaa tatttgggta gttggcgatc tgcacggatg 5820
ctacacgaac ctgatgaaca aactggatac gattggattc gacaacaaaa aagacctgct 5880
tatctcggtg ggcgatttgg ttgatcgtgg tgcagagaac gttgaatgcc tggaattaat 5940
cacattcccc tggttcagag ctgtacgtgg aaaccatgag caaatgatga ttgatggctt 6000
atcagagcgt ggaaacgtta atcactggct gcttaatggc ggtggctggt tctttaatct 6060
cgattacgac aaagaaattc tggctaaagc tcttgcccat aaagcagatg aacttccgtt 6120
aatcatcgaa ctggtgagca aagataaaaa atatgttatc tgccacgccg attatccctt 6180
tgacgaatac gagtttggaa agccagttga tcatcagcag gtaatctgga accgcgaacg 6240
aatcagcaac tcacaaaacg ggatcgtgaa agaaatcaaa ggcgcggaca cgttcatctt 6300
tggtcatacg ccagcagtga aaccactcaa gtttgccaac caaatgtata tcgataccgg 6360
cgcagtgttc tgcggaaacc taacattgat tcaggtacag ggagaaggcg catgagactc 6420
gaaagcgtag ctaaatttca ttcgccaaaa agcccgatga tgagcgactc accacgggcc 6480
acggcttctg actctctttc cggtactgat gtgatggctg ctatggggat ggcgcaatca 6540
caagccggat tcggtatggc tgcattctgc ggtaagcacg aactcagcca gaacgacaaa 6600
caaaaggcta tcaactatct gatgcaattt gcacacaagg tatcggggaa ataccgtggt 6660
gtggcaaagc ttgaaggaaa tactaaggca aaggtactgc aagtgctcgc aacattcgct 6720
tatgcggatt attgccgtag tgccgcgacg ccgggggcaa gatgcagaga ttgccatggt 6780
acaggccgtg cggttgatat tgccaaaaca gagctgtggg ggagagttgt cgagaaagag 6840
tgcggaagat gcaaaggcgt cggctattca aggatgccag caagcgcagc atatcgcgct 6900
gtgacgatgc taatcccaaa ccttacccaa cccacctggt cacgcactgt taagccgctg 6960
tatgacgctc tggtggtgca atgccacaaa gaagagtcaa tcgcagacaa cattttgaat 7020
gcggtcacac gttagcagca tgattgccac ggatggcaac atattaacgg catgatattg 7080
acttattgaa taaaattggg taaatttgac tcaacgatgg gttaattcgc tcgttgtggt 7140
agtgagatga aaagaggcgg cgcttactac cgattccgcc tagttggtca cttcgacgta 7200
tcgtctggaa ctccaaccat cgcaggcaga gaggtctgca aaatgcaatc ccgaaacagt 7260
tcgcaggtaa tagttagagc ctgcataacg gtttcgggat tttttatatc tgcacaacag 7320
gtaagagcat tgagtcgata atcgtgaaga gtcggcgagc ctggttagcc agtgctcttt 7380
ccgttgtgct gaattaagcg aataccggaa gcagaaccgg atcaccaaat gcgtacaggc 7440
gtcatcgccg cccagcaaca gcacaaccca aactgagccg tagccactgt ctgtcctgaa 7500
ttcattagta atagttacgc tgcggccttt tacacatgac cttcgtgaaa gcgggtggca 7560
ggaggtcgcg ctaacaacct cctgccgttt tgcccgtgca tatcggtcac gaacaaatct 7620
gattactaaa cacagtagcc tggatttgtt ctatcagtaa tcgaccttat tcctaattaa 7680
atagagcaaa tccccttatt gggggtaaga catgaagatg ccagaaaaac atgacctgtt 7740
ggccgccatt ctcgcggcaa aggaacaagg catcggggca atccttgcgt ttgcaatggc 7800
gtaccttcgc ggcagatata atggcggtgc gtttacaaaa acagtaatcg acgcaacgat 7860
gtgcgccatt atcgcctggt tcattcgtga ccttctcgac ttcgccggac taagtagcaa 7920
tctcgcttat ataacgagcg tgtttatcgg ctacatcggt actgactcga ttggttcgct 7980
tatcaaacgc ttcgctgcta aaaaagccgg agtagaagat ggtagaaatc aataatcaac 8040
gtaaggcgtt cctcgatatg ctggcgtggt cggagggaac tgataacgga cgtcagaaaa 8100
ccagaaatca tggttatgac gtcattgtag gcggagagct atttactgat tactccgatc 8160
accctcgcaa acttgtcacg ctaaacccaa aactcaaatc aacaggcgct taagactggc 8220
cgtcgtttta caacacagaa agagtttgta gaaacgcaaa aaggccatcc gtcaggggcc 8280
ttctgcttag tttgatgcct ggcagttccc tactctcgcc ttccgcttcc tcgctcactg 8340
actcgctgcg ctcggtcgtt cggctgcggc gagcggtatc agctcactca aaggcggtaa 8400
tacggttatc cacagaatca ggggataacg caggaaagaa catgtgagca aaaggccagc 8460
aaaaggccag gaaccgtaaa aaggccgcgt tgctggcgtt tttccatagg ctccgccccc 8520
ctgacgagca tcacaaaaat cgacgctcaa gtcagaggtg gcgaaacccg acaggactat 8580
aaagatacca ggcgtttccc cctggaagct ccctcgtgcg ctctcctgtt ccgaccctgc 8640
cgcttaccgg atacctgtcc gcctttctcc cttcgggaag cgtggcgctt tctcatagct 8700
cacgctgtag gtatctcagt tcggtgtagg tcgttcgctc caagctgggc tgtgtgcacg 8760
aaccccccgt tcagcccgac cgctgcgcct tatccggtaa ctatcgtctt gagtccaacc 8820
cggtaagaca cgacttatcg ccactggcag cagccactgg taacaggatt agcagagcga 8880
ggtatgtagg cggtgctaca gagttcttga agtggtgggc taactacggc tacactagaa 8940
gaacagtatt tggtatctgc gctctgctga agccagttac cttcggaaaa agagttggta 9000
gctcttgatc cggcaaacaa accaccgctg gtagcggtgg tttttttgtt tgcaagcagc 9060
agattacgcg cagaaaaaaa ggatctcaag aagatccttt gatcttttct acggggtctg 9120
acgctcagtg gaacgacgcg cgcgtaactc acgttaaggg attttggtca tgagcttgcg 9180
ccgtcccgtc aagtcagcgt aatgctctgc ttttagaaaa actcatcgag catcaaatga 9240
aactgcaatt tattcatatc aggattatca ataccatatt tttgaaaaag ccgtttctgt 9300
aatgaaggag aaaactcacc gaggcagttc cataggatgg caagatcctg gtatcggtct 9360
gcgattccga ctcgtccaac atcaatacaa cctattaatt tcccctcgtc aaaaataagg 9420
ttatcaagtg agaaatcacc atgagtgacg actgaatccg gtgagaatgg caaaagttta 9480
tgcatttctt tccagacttg ttcaacaggc cagccattac gctcgtcatc aaaatcactc 9540
gcatcaacca aaccgttatt cattcgtgat tgcgcctgag cgaggcgaaa tacgcgatcg 9600
ctgttaaaag gacaattaca aacaggaatc gagtgcaacc ggcgcaggaa cactgccagc 9660
gcatcaacaa tattttcacc tgaatcagga tattcttcta atacctggaa cgctgttttt 9720
ccggggatcg cagtggtgag taaccatgca tcatcaggag tacggataaa atgcttgatg 9780
gtcggaagtg gcataaattc cgtcagccag tttagtctga ccatctcatc tgtaacatca 9840
ttggcaacgc tacctttgcc atgtttcaga aacaactctg gcgcatcggg cttcccatac 9900
aagcgataga ttgtcgcacc tgattgcccg acattatcgc gagcccattt atacccatat 9960
aaatcagcat ccatgttgga atttaatcgc ggcctcgacg tttcccgttg aatatggctc 10020
atattcttcc tttttcaata ttattgaagc atttatcagg gttattgtct catgagcgga 10080
tacatatttg aatgtattta gaaaaataaa caaatagggg tcagtgttac aaccaattaa 10140
ccaattctga acattatcgc gagcccattt atacctgaat atggctcata acaccccttg 10200
tttgcctggc ggcagtagcg cggtggtccc acctgacccc atgccgaact cagaagtgaa 10260
acgccgtagc gccgatggta gtgtggggac tccccatgcg agagtaggga actgccaggc 10320
atcaaataaa acgaaaggct cagtcgaaag actgggcctt tcgcccgggc taattagggg 10380
gtgtcgccct tattcgactc tatagtgaag ttcctattct ctagaaagta taggaacttc 10440
tgaagtggg 10449
<210> 36
<211> 11651
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 36
gacggatcgg gagatctccc gatcccctat ggtgcactct cagtacaatc tgctctgatg 60
ccgcatagtt aagccagtat ctgctccctg cttgtgtgtt ggaggtcgct gagtagtgcg 120
cgagcaaaat ttaagctaca acaaggcaag gcttgaccga caattgcatg aagaatctgc 180
ttagggttag gcgttttgcg ctgcttcgcg atgtacgggc cagatatacg cgttgacatt 240
gattattgac tagttattaa tagtaatcaa ttacggggtc attagttcat agcccatata 300
tggagttccg cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc 360
cccgcccatt gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc 420
attgacgtca atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt 480
atcatatgcc aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt 540
atgcccagta catgacctta tgggactttc ctacttggca gtacatctac gtattagtca 600
tcgctattac catggtgatg cggttttggc agtacatcaa tgggcgtgga tagcggtttg 660
actcacgggg atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc 720
aaaatcaacg ggactttcca aaatgtcgta acaactccgc cccattgacg caaatgggcg 780
gtaggcgtgt acggtgggag gtctatataa gcagagctct ctggctaact agagaaccca 840
ctgcttactg gcttatcgaa attaatacga ctcactatag ggagacccaa gctggctagc 900
gtttaaactt aagcttggta ccgagctcgg atccactagt ccagtgtggt ggaattctgc 960
agatatccag cacagtggcg gccgccacca tggaacaaaa actcatctca gaagaggatc 1020
tgaatttgct caatgctctt cagatggatt cggatgaaat gaaaaaaata cttgcagaaa 1080
atagtaggaa aattactgtt ttgcaagtga atgaaaaatc acttataagg caatatacaa 1140
ccttagtaga attggagcga caacttagaa aagaaaatga gaagcaaaag aatgaattgt 1200
tgtcaatgga ggctgaagtt tgtgaaaaaa ttgggtgttt gcaaagattt aaggaaatgg 1260
ccattttcaa gattgcagct ctccaaaaag ttgtagataa tagtgtttct ttgtctgaac 1320
tagaactggc taataaacag tacaatgaac tgactgctaa gtacagggac atcttgcaaa 1380
aagataatat gcttgttcaa agaacaagta acctcgagca tctggaggta agtttgtgtg 1440
attcttgaac cttgtgaaat tagccatttt tcttcaatat ttttgtgttt ggggggattt 1500
ggcagatttt aattaaagtt tgcctgcatt tatataaatt taacagagat ataattatcc 1560
atattattca ttcagtttag ttataaatat tttgttccca cataacacac acacacacac 1620
acaatatatt atctatttat agtggctgaa tgacttctga atgattatct agatcattct 1680
ccttaggtca cttgcatgat ttagctgaat caaacctctt ttaaccagac atctaagaga 1740
aaaaggagca tgaaacaggt agaatattgt aatcaaagga gggaagcact cattaagtgc 1800
ccatcccttt ctcttacccc tgtacccaga acaaactatt ctcccatggt ccctggcttt 1860
tgttccttgg aatggatgta gccaacagta gctgaaatat taagggctct tcctggacca 1920
tggatgcact ctgtaaattc tcatcatttt ttattgtaga ataaatgtag aattttaatg 1980
tagaataaat ttatttaatg tagaataaaa aataaaaaaa ctagagtaga atatcataag 2040
ttacaatctg tgaatatgga ccagaccctt tgtagttatc ttacagccac ttgaactcta 2100
taccttttac tgaggacaga acaagctcct gatttgttca tcttcctcat cagaaataga 2160
ggcttatgga ttttggatta ttcttatcta agatcctttc acaggagtag aataagatct 2220
aattctatta gctcaaaagc ttttgctggc tcatagagac acattcagta aatgaaaacg 2280
ttgttctgag tagctttcag gattcctact aaattatgag tcatgtttat caatattatt 2340
tagaagtaat cataatcagt ttgctttctg ctgcttttgc caaagagagg tgattatgtt 2400
actttttata gaaaattatg cctatttagt gtggtgataa tttatttttt tccattctcc 2460
atgtcctctg tcctatcctc tccagcatta gaaagtccta ggcaagagac atcttgtgga 2520
taatgtatca atgagtgatg tttaacgtta tcattttccc aaagagtatt tttcatcttt 2580
cctaaagatt tttttttttt ttttttgaga tggagtttca ttctgtcacc caggctgagt 2640
gcagtggcac gatctcggct taacgcttac tgcatcctct gcctcccaga ttcaagcagt 2700
tctcctgcct cagcctctga gtagctggga ttacaggtgt gcaccaccac accagctaat 2760
tttttttttt tttttttttt ttttgaggca gagtctcgct ctgtcaccca ggctggagtg 2820
cagtggcgcc atcttggctc actgcaagct ccacctcccg ggttcaggcc gttctcctgc 2880
ctcagcctcc tgagtagctg gtaccacagg cacccaccat catgcccggc taattttttg 2940
tatttttagt agagatgggg tttcaccttg ttagccagga tggtgtcgat ctcctgaact 3000
cgtgatccac ccgcctcggc ctcctaaagt gctgggatta cagatgtgag ccaccgcacc 3060
tggccccagt tgtaattgtg agtatctcat acctatccct attggcagtg tcttagtttt 3120
attttttatt atctttattg tggcagccat tattcctgtc tctatctcca gtcttacatc 3180
ctccttactg ccacaagaat gatcattcta aacatgaatc ctaccctgtg actcccatgt 3240
gactccccgc cttaaaaact gtcaaaagct accggttacc tgaagggtaa aagtcaagtc 3300
ccctacttac ctcatgtcat ctagagcaag agatgaacta gctgagtttt ctgaccacag 3360
tgttctttct tatgtatgtt cttttgtacg tgctcttttc tatatatagg gaaccatttc 3420
tctcttccag ttgttttgct cagtgaattt ctattcctgt ttcaaaactt gttcaggcat 3480
tacctttttt ttcttaagca tacttttttt aatggaacaa agtcactcct gtctacacta 3540
gttctgcatc ttatacatag gttttgtaca tagtacatat ttatatcaca tcaaattata 3600
tgtgtttaca tatctgtctt ccttaatgga atataagtct tttgatataa ggaactattt 3660
aatttgtttc tgtgtgttga gtatctcctg tttggcacag agttcaagct aatacatgag 3720
agtgattagt ggtggagagc cacagtgcat gtggtgtcaa atatggtgct taggaaatta 3780
ttgttgcttt ttgagaggta aaggttcatg agactagagg tcacgaaaat cagatttcat 3840
gtgtgaagaa tggaatagat aataaggaaa tacaaaaact ggatgggtaa taaagcaaaa 3900
gaaaaacttg aaatttgata gtagaagaaa aaagaaatag atgtagattg aggtagaatc 3960
aagaagagga ttcttttttt gttgtttttt tttttgaaac agagtctcac tgtgttgccc 4020
aggctggagt gcagtggagt gatcttggct tactgcaacc tctgcctccc aggttcaagc 4080
gattcttctg cttcagtctc ccgagtagct ggaattacag gtgcccacca gcacggccgg 4140
ctaatttagt agagacaggg ttttgccatg ttggccgggc tggtctcaaa ctttggatct 4200
caggtaatcc gccagcctca acttcccaaa gtgctgggat tacaggcatg agccactgtg 4260
cccagcctgt tttttttttt ttaaaggaga ccagtgaagt ttcaggagga gggaaagaaa 4320
atttagagtt actagggaga gagtgatgaa gataagagat gaaagtggta ataagggaaa 4380
tagcaaaata tcagggtagg tgggagaaaa agagatttgt aacaaacaat aggattatcc 4440
tgtgaaaaag gatgaaagga agaaaaaaat ggatagaaag atatttaaaa caccctcagc 4500
ctcctgtttt ccctcctgtg tattcatagt atataaaact ataattatgt actttactta 4560
aaaaatatat tattattacc ttatcgtgct tatttaatca tagcatgtcc tctttttagt 4620
ctcattaccc tgtttgtatt attcttcata acacttaata cctgacattg tattatatat 4680
tggcttattt tccaggtact ccactcaaat ataagttcta ggatataatt tatttatcac 4740
tgaaatccat tgcttagagt acctggcatg tagtaaatag gcattctgtt ttttcaaata 4800
aaaaataaag gaacttaaga tatatattta tgttatatcg ccagcctttt tcctcacagc 4860
tctattctgt tgtacagaat tacctacttt acaattcctg tgtttcaagg ggatctcaaa 4920
tttaacgtgt ccacaatgaa ctcctgattt ctgtttctct cctagtcatt cttatttcaa 4980
tatatgttca gttacctaac cagctagtca aggcagatac tttagagtta ttctgtagtc 5040
attctttttc cctaccattt ttgttttcca aatgtaattt atgtgtgtct tcttcatcct 5100
cgcagctcta acccttgtcc aaaccagcat catcactcat ctggagttcc acaatgtctt 5160
tctggctagt ttccctgatt tctctattga cccctttatt ctccacagtg cagccagaat 5220
gattgtttaa aacttcctcc ttaaaatctt taaattgttt tcttttatac gttaagttaa 5280
attccagttc cttgtcttgg catgccatgc cctgcctggt gtggcccctg atggtctctc 5340
caacttcatg ttttactact attgactctt atttttgctt actctgcttg ggtgctccag 5400
tcctccaaat catttcctgc tccaatcatt tcaatcattt tttcctctca gatcttatag 5460
tattccaaat gctttcttcc tttggagcat ctgggtttac taataaatac ttcgtacctc 5520
acagttcagc ttaaatatca attatttggt ggttaagaca tccttcaacc gctctatcta 5580
aatgttcctt tctattattc actggctcag tactctgttt ttattttctt tctaaatgtc 5640
aacttttttt tttttgagtc agggtctcac tgttgcccag gctcgagtgc agttgcacaa 5700
tcatagctca ttgcagcctt gccctcctgg gatcaagtaa ttctcccacc tcagcctcca 5760
aaatagctgg gattacaggt atgcatcacc atgctcagct aattttttgt gtttttttgt 5820
agagatgagg tctcactttg ttgcccaggc tggtctcaaa ctcctggact caagtgattc 5880
tcccacctca gcctcccaaa gtgctggggt tacaggtgtg agccactgca cctggtcgat 5940
actgactttt tttttttttt gagatggagt tttgctctgt tgcccaggct agagcgcagt 6000
ggtgtgatct cagctcactg caacctccac ctcccaggtt aaagggattc ttctgcctca 6060
gtctcctgag tagctgggat tacaggcaag tgccatcatg actggctaat ttttgtattt 6120
ttagcactat gtttagtact gtgttggcca ggcttgtctc gaactcctga cctcaagtga 6180
tccacccacc tcagcctccc aaagtgctgg gattacaggt gtgagccacc gtaatcggcc 6240
aacattgaca tttttagtag actttttgtt tgtttacttg cttattatct gctgccttcc 6300
acactctggc gaaatcctgc cacccaccca cacacacata ggcactgaat gggcagaact 6360
ctgaaggcca gaattttata tttcttttca ctgtaaacat catcatctgt cactgatggc 6420
acactaggat gctcagcaac tgtgtgcatg aaggaagtaa gcactagttt gtgaaggctg 6480
caaaactctt gagtattcta agagttttgg ccaaaatgaa tgtacagctt tagtggcaga 6540
agctaatact cagaaattga ggccgtatat tggataacac aggatttgga tgattatttt 6600
aaaataatat tttacattgt atatatgtgt gtgtgtgtgt gtgtgtgtgt gtgtatgtgt 6660
gtgtgtgtgt atatatatat gtatgtatgt gtattagtcc gttctcatgc tgctatgaag 6720
aaatacctga gactgggtaa tttataaagg aaagaggttt aattgactca cagttccaca 6780
gagctgggga ggcctcagaa aacttaacag ttatggcaga aggggaagca aacacatttt 6840
tcttcacatg gtggccggaa ttagaagaat gtgagccgag caaaggggaa agccccttat 6900
aaaaccatca gacatcgtga gaacttacta ttatgagaat agcgtggggg aaaccacccc 6960
cacgattcaa ttacctccca ccaaatccct cccatgacat atgaggatta tgggaactat 7020
gattcaagat gagatttggg tagggacaca gccaaaccat atcagtatgt atatgtatac 7080
aagtattata tatatatgta tgtgtttgta tgcatacatg tattatatat ggaggaaatt 7140
ctaattttgt aaaaaactgg attgtgagtt ttaaggagat gttatataaa gttaagacaa 7200
tgtcattttg tggtattggt ctgaattaca atgtagtttc ttagtgatat ttttccttta 7260
ttcaggtagc cccagccgaa ctggagagca tcctgctgca acaccccaac atcttcgacg 7320
ccggggtcgc cggcctgccc gacgacgatg ccggcgagct gcccgccgca gtcgtcgtgc 7380
tggaacacgg taaaaccatg accgagaagg agatcgtgga ctatgtggcc agccaggtta 7440
caaccgccaa gaagctgcgc ggtggtgttg tgttcgtgga cgaggtgcct aaaggactga 7500
ccggcaagtt ggacgcccgc aagatccgcg agattctcat taaggccaag aagggcggca 7560
agatcgccgt gtaataaggg cccgtttaaa cccgctgatc agcctcgact gtgccttcta 7620
gttgccagcc atctgttgtt tgcccctccc ccgtgccttc cttgaccctg gaaggtgcca 7680
ctcccactgt cctttcctaa taaaatgagg aaattgcatc gcattgtctg agtaggtgtc 7740
attctattct ggggggtggg gtggggcagg acagcaaggg ggaggattgg gaagacaata 7800
gcaggcatgc tggggatgcg gtgggctcta tggcttctga ggcggaaaga accagctggg 7860
gctctagggg gtatccccac gcgccctgta gcggcgcatt aagcgcggcg ggtgtggtgg 7920
ttacgcgcag cgtgaccgct acacttgcca gcgccctagc gcccgctcct ttcgctttct 7980
tcccttcctt tctcgccacg ttcgccggct ttccccgtca agctctaaat cgggggctcc 8040
ctttagggtt ccgatttagt gctttacggc acctcgaccc caaaaaactt gattagggtg 8100
atggttcacg tacctagaag ttcctattcc gaagttccta ttctctagaa agtataggaa 8160
cttccttggc caaaaagcct gaactcaccg cgacgtctgt cgagaagttt ctgatcgaaa 8220
agttcgacag cgtctccgac ctgatgcagc tctcggaggg cgaagaatct cgtgctttca 8280
gcttcgatgt aggagggcgt ggatatgtcc tgcgggtaaa tagctgcgcc gatggtttct 8340
acaaagatcg ttatgtttat cggcactttg catcggccgc gctcccgatt ccggaagtgc 8400
ttgacattgg ggaattcagc gagagcctga cctattgcat ctcccgccgt gcacagggtg 8460
tcacgttgca agacctgcct gaaaccgaac tgcccgctgt tctgcagccg gtcgcggagg 8520
ccatggatgc gatcgctgcg gccgatctta gccagacgag cgggttcggc ccattcggac 8580
cgcaaggaat cggtcaatac actacatggc gtgatttcat atgcgcgatt gctgatcccc 8640
atgtgtatca ctggcaaact gtgatggacg acaccgtcag tgcgtccgtc gcgcaggctc 8700
tcgatgagct gatgctttgg gccgaggact gccccgaagt ccggcacctc gtgcacgcgg 8760
atttcggctc caacaatgtc ctgacggaca atggccgcat aacagcggtc attgactgga 8820
gcgaggcgat gttcggggat tcccaatacg aggtcgccaa catcttcttc tggaggccgt 8880
ggttggcttg tatggagcag cagacgcgct acttcgagcg gaggcatccg gagcttgcag 8940
gatcgccgcg gctccgggcg tatatgctcc gcattggtct tgaccaactc tatcagagct 9000
tggttgacgg caatttcgat gatgcagctt gggcgcaggg tcgatgcgac gcaatcgtcc 9060
gatccggagc cgggactgtc gggcgtacac aaatcgcccg cagaagcgcg gccgtctgga 9120
ccgatggctg tgtagaagta ctcgccgata gtggaaaccg acgccccagc actcgtccga 9180
gggcaaagga atagcacgta ctacgagatt tcgattccac cgccgccttc tatgaaaggt 9240
tgggcttcgg aatcgttttc cgggacgccg gctggatgat cctccagcgc ggggatctca 9300
tgctggagtt cttcgcccac cccaacttgt ttattgcagc ttataatggt tacaaataaa 9360
gcaatagcat cacaaatttc acaaataaag catttttttc actgcattct agttgtggtt 9420
tgtccaaact catcaatgta tcttatcatg tctgtatacc gtcgacctct agctagagct 9480
tggcgtaatc atggtcatag ctgtttcctg tgtgaaattg ttatccgctc acaattccac 9540
acaacatacg agccggaagc ataaagtgta aagcctgggg tgcctaatga gtgagctaac 9600
tcacattaat tgcgttgcgc tcactgcccg ctttccagtc gggaaacctg tcgtgccagc 9660
tgcattaatg aatcggccaa cgcgcgggga gaggcggttt gcgtattggg cgctcttccg 9720
cttcctcgct cactgactcg ctgcgctcgg tcgttcggct gcggcgagcg gtatcagctc 9780
actcaaaggc ggtaatacgg ttatccacag aatcagggga taacgcagga aagaacatgt 9840
gagcaaaagg ccagcaaaag gccaggaacc gtaaaaaggc cgcgttgctg gcgtttttcc 9900
ataggctccg cccccctgac gagcatcaca aaaatcgacg ctcaagtcag aggtggcgaa 9960
acccgacagg actataaaga taccaggcgt ttccccctgg aagctccctc gtgcgctctc 10020
ctgttccgac cctgccgctt accggatacc tgtccgcctt tctcccttcg ggaagcgtgg 10080
cgctttctca tagctcacgc tgtaggtatc tcagttcggt gtaggtcgtt cgctccaagc 10140
tgggctgtgt gcacgaaccc cccgttcagc ccgaccgctg cgccttatcc ggtaactatc 10200
gtcttgagtc caacccggta agacacgact tatcgccact ggcagcagcc actggtaaca 10260
ggattagcag agcgaggtat gtaggcggtg ctacagagtt cttgaagtgg tggcctaact 10320
acggctacac tagaaggaca gtatttggta tctgcgctct gctgaagcca gttaccttcg 10380
gaaaaagagt tggtagctct tgatccggca aacaaaccac cgctggtagc ggtggttttt 10440
ttgtttgcaa gcagcagatt acgcgcagaa aaaaaggatc tcaagaagat cctttgatct 10500
tttctacggg gtctgacgct cagtggaacg aaaactcacg ttaagggatt ttggtcatga 10560
gattatcaaa aaggatcttc acctagatcc ttttaaatta aaaatgaagt tttaaatcaa 10620
tctaaagtat atatgagtaa acttggtctg acagttacca atgcttaatc agtgaggcac 10680
ctatctcagc gatctgtcta tttcgttcat ccatagttgc ctgactcccc gtcgtgtaga 10740
taactacgat acgggagggc ttaccatctg gccccagtgc tgcaatgata ccgcgagacc 10800
cacgctcacc ggctccagat ttatcagcaa taaaccagcc agccggaagg gccgagcgca 10860
gaagtggtcc tgcaacttta tccgcctcca tccagtctat taattgttgc cgggaagcta 10920
gagtaagtag ttcgccagtt aatagtttgc gcaacgttgt tgccattgct acaggcatcg 10980
tggtgtcacg ctcgtcgttt ggtatggctt cattcagctc cggttcccaa cgatcaaggc 11040
gagttacatg atcccccatg ttgtgcaaaa aagcggttag ctccttcggt cctccgatcg 11100
ttgtcagaag taagttggcc gcagtgttat cactcatggt tatggcagca ctgcataatt 11160
ctcttactgt catgccatcc gtaagatgct tttctgtgac tggtgagtac tcaaccaagt 11220
cattctgaga atagtgtatg cggcgaccga gttgctcttg cccggcgtca atacgggata 11280
ataccgcgcc acatagcaga actttaaaag tgctcatcat tggaaaacgt tcttcggggc 11340
gaaaactctc aaggatctta ccgctgttga gatccagttc gatgtaaccc actcgtgcac 11400
ccaactgatc ttcagcatct tttactttca ccagcgtttc tgggtgagca aaaacaggaa 11460
ggcaaaatgc cgcaaaaaag ggaataaggg cgacacggaa atgttgaata ctcatactct 11520
tcctttttca atattattga agcatttatc agggttattg tctcatgagc ggatacatat 11580
ttgaatgtat ttagaaaaat aaacaaatag gggttccgcg cacatttccc cgaaaagtgc 11640
cacctgacgt c 11651
<210> 37
<211> 25
<212> DNA
<213> Artificial Sequence
<220>
<223> Synthetic Construct
<400> 37
ccgaatacga cacgtagcaa gatct 25
Claims (31)
- 5'에서 3' 방향으로 작동적으로 연결된 하기를 포함하는 핵산 트랜스-스플라이싱(trans-splicing) 분자로서,
(a) 선택된 유전자의 하나 이상의 기능적 엑손(들)을 포함하는 암호 도메인 서열(coding domain sequence, CDS);
(b) 상기 암호 도메인과 결합 도메인 사이에서 구조적 연결부로서 작용하고, 스플라이싱 인핸서(enhancer)로서 기능하거나, 또는 상기 트랜스-스플라이싱 이벤트가 일어나기 전에 상기 암호 영역의 해독을 최소화하는 작용을 하는 복잡한 이차 구조로 접히는 능력을 갖는 모티프(motif)를 함유할 수 있는 다양한 길이 및 서열의 링커 도메인 서열(linker domain sequence, LDS);
(c) 스플라이세오솜(spliceosome) 매개의 트랜스-스플라이싱을 개시하도록 구성된 스플라이세오솜 인식 모티프(5' 스플라이스 부위, 스플라이스 공여체, SD);
(d) 상기 선택된 유전자의 표적 인트론에 혼성화하도록 구성된 다양한 길이 및 서열의 결합 도메인(binding domain, BD)으로서, 상기 유전자는 상기 표적 인트론에 대해 5'인 엑손에 적어도 하나의 결함 또는 돌연변이를 갖는 결합 도메인; 및
(e) 3' 전사 종결인자 도메인(transcription terminator domain, TTD)
을 포함하고, 상기 핵산 트랜스-스플라이싱 분자는 상기 표적 인트론에 인접한 상기 선택된 유전자의 내인성 엑손에 상기 암호 도메인을 트랜스-스플라이스하도록 구성되어, 상기 내인성 결함 또는 돌연변이된 엑손을 상기 기능적 엑손으로 대체하고 상기 선택된 유전자의 돌연변이를 교정하는, 핵산 트랜스-스플라이싱 분자. - 제1항에 있어서, 상기 결합 도메인이 상기 돌연변이에 대해 3'인 상기 선택된 유전자의 상기 표적 인트론에 혼성화하고 상기 암호 도메인이 상기 표적 인트론에 대해 5'인 하나 이상의 엑손(들)을 포함하는 핵산 트랜스-스플라이싱 분자.
- 5'에서 3' 방향으로 작동적으로 연결된 하기를 포함하는 핵산 트랜스-스플라이싱 분자로서,
(a) 선택된 유전자의 표적 인트론에 결합하도록 구성된 결합 도메인(BD)으로서, 상기 유전자는 상기 표적화된 인트론에 대해 3'인 엑손에 적어도 하나의 결함 또는 돌연변이를 갖는 결합 도메인;
(b) 상기 결합 도메인과 암호 영역 사이에서 구조적 연결부로서 작용하고, 스플라이싱 인핸서로서 기능하거나, 또는 트랜스-스플라이싱에 대한 경쟁적 이벤트로서 상기 암호 영역의 해독을 방해하는 복잡한 이차 구조로 접히는 모티프를 함유하는 다양한 길이 및 조성의 링커 서열;
(c) 트랜스-스플라이싱을 매개하도록 구성된 3' 스플라이세오솜 인식 모티프(3' 스플라이스 부위)(스플라이스 수용체, SA);
(d) 상기 선택된 유전자의 하나 이상의 기능적 엑손(들)을 포함하는 암호 도메인 서열(CDS); 및
(e) 3' 전사 종결인자 도메인(TTD)
을 포함하고, 상기 핵산 트랜스-스플라이싱 분자는 상기 표적 인트론에 인접한 상기 선택된 유전자의 내인성 엑손에 상기 암호 도메인을 트랜스-스플라이스하도록 구성되어, 상기 내인성 결함 또는 돌연변이된 엑손을 상기 기능적 엑손으로 대체하고 상기 선택된 유전자의 돌연변이를 교정하는 핵산 트랜스-스플라이싱 분자. - 제3항에 있어서, 상기 결합 도메인이 상기 돌연변이에 대해 3'인 상기 선택된 유전자의 상기 표적 인트론에 결합하고 상기 암호 도메인이 상기 표적 인트론에 대해 5'인 하나 이상의 엑손을 포함하는 핵산 트랜스-스플라이싱 분자.
- 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 3' 전사 종결인자 도메인이 상기 3' 단부를 효과적으로 캡핑하는 삼중 나선 구조를 형성하는 핵산 트랜스-스플라이싱 분자.
- 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 3' 전사 종결인자 도메인이 삼중 나선 3' 단부 캡 삼중 나선 평활 말단 구조로 축합하는 3' 전사 종결인자를 함유하는 하나 이상의 긴 비암호 RNA(long non-coding RNA, lncRNA) 또는 다른 핵 RNA 분자로부터의 서열인 핵산 트랜스-스플라이싱 분자.
- 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 3' 전사 종결인자 도메인이 상기 인간의 긴 비암호 RNA MALAT1로부터 유래되는 것인 핵산 트랜스-스플라이싱 분자.
- 제7항에 있어서, 상기 3' 전사 종결인자 도메인이 인간 MALAT1의 뉴클레오타이드 8287-8437을 포함하는 핵산 트랜스-스플라이싱 분자.
- 제7항에 있어서, 상기 3' 전사 종결인자 도메인이 5'에서 3' 순으로, 뉴클레오타이드 8287-8379를 포함하는 삼본쇄 형성 서열, 뉴클레오타이드 8379-8380을 포함하는 RNaseP 절단 부위, 및 뉴클레오타이드 8380-8437을 포함하는 tRNA 유사 서열을 포함하는 핵산 트랜스-스플라이싱 분자.
- 제7항에 있어서, 상기 3' 전사 종결인자 도메인이 U-풍부 모티프 1(8292-8301), 보존된 줄기-루프(8302-8333), U-풍부 모티프 2(8334-8343) 및 A-풍부 트랙트(8369-8379)를 포함하는 삼본쇄 형성 서열을 함유하고, 여기서, 상기 A-풍부 트랙트와 상기 U-풍부 모티프 2는 왓슨-크릭(Watson-Crick) 줄기 이본쇄를 형성하고, 상기 U-풍부 모티프 1은 A-풍부 트랙트와 정렬하여 후그스틴(Hoogsteen) 염기쌍을 형성하는 핵산 트랜스-스플라이싱 분자.
- 제7항에 있어서, 상기 3' 전사 종결인자 도메인이 상기 인간 MALAT1 삼중 나선의 절두된 버전인 핵산 트랜스-스플라이싱 분자.
- 제11항에 있어서, 상기 3' 전사 종결인자 도메인이 U-풍부 모티프 1(8292-8301), 보존된 줄기-루프(8302-8310 및 8325-8333), U-풍부 모티프 2(8334-8343), A-풍부 트랙트(8369-8379) 및 상기 U-풍부 모티프 2와 상기 A-풍부 트랙트 사이에 개재 서열의 결실 스패닝 뉴클레오타이드 8345-8364를 포함하는 삼본쇄 형성 서열을 함유하고, 여기서 상기 A-풍부 트랙트와 상기 U-풍부 모티프 2는 왓슨-크릭 줄기 이본쇄를 형성하고, 상기 U-풍부 모티프 1은 상기 A-풍부 트랙트와 정렬하여 후그스틴 염기쌍을 형성하는 핵산 트랜스-스플라이싱 분자.
- 제11항에 있어서, 상기 3' 전사 종결인자 도메인이 5'에서 3'의 순으로 다양한 길이와 조성의 삼본쇄 형성 서열, RNaseP 절단 부위, 및 다양한 길이와 조성의 tRNA 유사 서열을 포함하는 핵산 트랜스-스플라이싱 분자.
- 제11항에 있어서, 상기 3' 전사 종결인자 도메인이 상기 삼중 나선의 세 번째 가닥의 염기 조성: 피리미딘 모티프(T,C), 퓨린 모티프(G,A) 및 퓨린-피리미딘 모티프(G,T)로 지칭되는 3개의 공지된 기본 "모티프" 중 하나에 일치하는 삼본쇄 형성 서열을 함유하는, 핵산 트랜스-스플라이싱 분자.
- 제6항에 있어서, 상기 3' 전사 종결인자 도메인이 삼중 나선 도메인 및 tRNA-유사 도메인을 포함하는 핵산 트랜스-스플라이싱 분자.
- 제15항에 있어서, 상기 삼중 나선 도메인 및 상기 tRNA-유사 도메인이 동일한 긴 비암호 RNA, 또는 인간 또는 임의의 다른 종에서 유래된 긴 비암호 RNA 도메인의 상이한 조합으로부터 기원하는 것인 핵산 트랜스-스플라이싱 분자.
- 제15항에 있어서, 상기 삼중 나선 도메인 및 상기 tRNA-유사 도메인이 MALAT1 또는 NEAT1/MENβ로부터 유래되는 핵산 트랜스-스플라이싱 분자.
- 제1항 내지 제17항 중 어느 한 항에 있어서, 상기 표적화된 포유류 유전자가 ABCA4, CEP290, 또는 MYO7A인 핵산 트랜스-스플라이싱 분자.
- 제1항 내지 제18항 중 어느 한 항에 있어서, 상기 유전자가 ABCA4이고 상기 결함 또는 돌연변이가 엑손 1-23 중 어느 하나에 있는 것인 핵산 트랜스-스플라이싱 분자.
- 제1항 내지 제19항 중 어느 한 항에 있어서, 하나 이상의 링커 서열을 추가로 포함하는 핵산 트랜스-스플라이싱 분자.
- 제20항에 있어서, 상기 스플라이싱 도메인과 결합 도메인 사이에 링커를 포함하는 핵산 트랜스-스플라이싱 분자.
- 제20항 또는 제21항에 있어서, 상기 결합 도메인과 3' 말단 도메인 사이에 링커를 포함하는 핵산 트랜스-스플라이싱 분자.
- 제1항 내지 제22항 중 어느 한 항의 핵산 분자를 포함하는 재조합 아데노 관련 바이러스(recombinant adeno-associated virus, rAAV).
- 제23항에 있어서, 상기 AAV가 광수용체 세포를 우선적으로 표적화하는 rAAV.
- 제23항 또는 제24항에 있어서, 상기 AAV가 AAV5 캡시드 단백질, AAV8 캡시드 단백질, AAV8(b) 캡시드 단백질, 또는 AAV9 캡시드 단백질을 포함하는 rAAV.
- 제1항 내지 제22항 중 어느 한 항의 핵산 트랜스-스플라이싱 분자를 포함하는 재조합 AAV를 포함하는 조성물을, 질환이 있는 대상체의 세포에 투여하는 것을 포함하는, 표적 유전자의 결함 또는 돌연변이에 의해 유발된 질환을 치료하는 방법.
- 제1항 내지 제22항 중 어느 한 항의 핵산 트랜스-스플라이싱 분자를 포함하는 재조합 AAV를 포함하는 조성물을 안구 질환이 있는 대상체의 안구 세포에 투여하는 것을 포함하는, 표적 유전자의 결함 또는 돌연변이에 의해 유발된 안구 질환을 치료하는 방법.
- 제27항에 있어서, 상기 질환이 스타가르트(Stargardt) 질환, 레베르 선천성 흑암시(Leber Congenital Amaurosis, LCA), 원추 간상체 이영양증, 황반 안저, 색소성 망막염, 연령 관련 황반 변성, 또는 어셔(Usher) 증후군인 방법.
- 제27항 또는 제28항에 있어서, 상기 조성물이 망막하 주사에 의해 투여되는 방법.
- 제27항에 있어서, 상기 질환이 스타가르트 질환이고, 상기 세포가 광수용체 세포이며, 상기 안구 유전자가 ABCA4이고, 상기 교정된 엑손 서열이 엑손 1-19, 엑손 1-22, 엑손 1-23 또는 엑손 1-24인 방법.
- 생리학적 허용성 담체 및 제23항 내지 제25항 중 어느 한 항의 rAAV를 포함하는 약제학적 제제.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962835164P | 2019-04-17 | 2019-04-17 | |
US62/835,164 | 2019-04-17 | ||
PCT/US2020/028797 WO2020214973A1 (en) | 2019-04-17 | 2020-04-17 | Triple helix terminator for efficient rna trans-splicing |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20220002910A true KR20220002910A (ko) | 2022-01-07 |
Family
ID=72837942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020217034092A KR20220002910A (ko) | 2019-04-17 | 2020-04-17 | 효율적인 rna 트랜스-스플라이싱을 위한 삼중 나선 종결인자 |
Country Status (11)
Country | Link |
---|---|
US (1) | US20220204989A1 (ko) |
EP (1) | EP3956442A4 (ko) |
JP (1) | JP2022529065A (ko) |
KR (1) | KR20220002910A (ko) |
CN (1) | CN114040974A (ko) |
AU (1) | AU2020260154A1 (ko) |
BR (1) | BR112021020539A2 (ko) |
CA (1) | CA3133555A1 (ko) |
IL (1) | IL287243A (ko) |
MX (1) | MX2021012702A (ko) |
WO (1) | WO2020214973A1 (ko) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4323391A1 (en) * | 2021-04-15 | 2024-02-21 | Tacit Therapeutics, Inc. | High efficiency trans-splicing for replacement of targeted rna sequences in human cells |
WO2023205694A2 (en) * | 2022-04-20 | 2023-10-26 | Tacit Therapeutics, Inc. | Stabilization of therapeutic trans-splicing rna molecules in human cells |
WO2023215761A1 (en) * | 2022-05-03 | 2023-11-09 | Tacit Therapeutics, Inc. | Localization of trans-splicing nucleic acid molecules to and within the cellular nucleus |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MX2015004853A (es) * | 2012-10-16 | 2015-12-09 | Massachusetts Inst Technology | Produccion de acidos ribonucleicos no poliadenilados estables. |
WO2017087900A1 (en) * | 2015-11-19 | 2017-05-26 | The Trustees Of The University Of Pennsylvania | Compositions and methods for correction of heritable ocular disease |
US11795455B2 (en) * | 2017-07-31 | 2023-10-24 | Massachusetts Institute Of Technology | RNA cleavage-induced transcript stabilizer and uses thereof |
-
2020
- 2020-04-17 MX MX2021012702A patent/MX2021012702A/es unknown
- 2020-04-17 AU AU2020260154A patent/AU2020260154A1/en active Pending
- 2020-04-17 KR KR1020217034092A patent/KR20220002910A/ko unknown
- 2020-04-17 US US17/604,228 patent/US20220204989A1/en active Pending
- 2020-04-17 CA CA3133555A patent/CA3133555A1/en active Pending
- 2020-04-17 CN CN202080044745.1A patent/CN114040974A/zh active Pending
- 2020-04-17 WO PCT/US2020/028797 patent/WO2020214973A1/en unknown
- 2020-04-17 JP JP2021561943A patent/JP2022529065A/ja active Pending
- 2020-04-17 EP EP20791307.0A patent/EP3956442A4/en active Pending
- 2020-04-17 BR BR112021020539A patent/BR112021020539A2/pt unknown
-
2021
- 2021-10-13 IL IL287243A patent/IL287243A/en unknown
Also Published As
Publication number | Publication date |
---|---|
JP2022529065A (ja) | 2022-06-16 |
AU2020260154A1 (en) | 2021-11-11 |
BR112021020539A2 (pt) | 2022-01-04 |
WO2020214973A1 (en) | 2020-10-22 |
MX2021012702A (es) | 2022-01-24 |
IL287243A (en) | 2021-12-01 |
CA3133555A1 (en) | 2020-10-22 |
US20220204989A1 (en) | 2022-06-30 |
EP3956442A4 (en) | 2023-01-25 |
CN114040974A (zh) | 2022-02-11 |
EP3956442A1 (en) | 2022-02-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019203955C1 (en) | Multipartite signaling proteins and uses thereof | |
AU2020260485B2 (en) | Gene therapies for lysosomal disorders | |
AU2015263150B2 (en) | Lentiviral vectors | |
KR20180081618A (ko) | 유전자 편집에 의한 인간 디스트로핀 유전자의 교정을 위한 치료용 표적 및 사용 방법 | |
CN108138201A (zh) | 包含2a肽的重组载体 | |
KR20220002910A (ko) | 효율적인 rna 트랜스-스플라이싱을 위한 삼중 나선 종결인자 | |
CN108713025A (zh) | 用于治疗心脏病况和其他病理的从单个载体表达多种生物活性多肽的组合物和方法 | |
KR20210105382A (ko) | 단백질을 코딩하는 rna | |
KR20210150486A (ko) | 리소좀 장애에 대한 유전자 요법 | |
AU2016378480A1 (en) | Endothelium-specific nucleic acid regulatory elements and methods and use thereof | |
KR20230066360A (ko) | 신경퇴행성 장애를 위한 유전자 요법 | |
KR20220078607A (ko) | 융합 단백질들을 이용한 tcr 재프로그래밍을 위한 조성물 및 방법들 | |
KR20190076995A (ko) | T-세포 수용체 합성 및 tcr-제시 세포에 대한 안정적인 게놈 통합을 위한 2-부분 디바이스 | |
KR20210118402A (ko) | 위스콧-알드리치(Wiskott-Aldrich) 증후군에 대한 조혈 줄기 세포-유전자 치료요법 | |
KR101539796B1 (ko) | 암 치료법을 위한 다중 발현 카세트를 포함하는 구조물 | |
CN101180082A (zh) | 利用siv-pedf载体治疗伴随眼组织细胞凋亡变性的疾患的药物 | |
KR20230093072A (ko) | 안구 장애에 대한 유전자 치료 | |
CN110225765B (zh) | 减毒猪流感疫苗以及其制备和使用方法 | |
CN101160139A (zh) | 含有pedf以及fgf2的伴随眼组织细胞凋亡变性的疾患的治疗药物 | |
KR20240021906A (ko) | 발현 벡터, 박테리아 서열-무함유 벡터, 및 이를 제조하고 사용하는 방법 | |
KR20240037192A (ko) | 게놈 통합을 위한 방법 및 조성물 | |
KR20150100606A (ko) | 아테리바이러스 단백질 및 발현 메커니즘 | |
TW202228728A (zh) | 用於同時調節基因表現之組合物及方法 | |
RU2730664C2 (ru) | Генотерапевтический ДНК-вектор на основе генотерапевтического ДНК-вектора VTvaf17, несущий целевой ген, выбранный из группы генов ANG, ANGPT1, VEGFA, FGF1, HIF1α, HGF, SDF1, KLK4, PDGFC, PROK1, PROK2 для повышения уровня экспрессии этих целевых генов, способ его получения и применения, штамм Escherichia coli SCS110-AF/VTvaf17-ANG, или Escherichia coli SCS110-AF/VTvaf17-ANGPT1, или Escherichia coli SCS110-AF/VTvaf17-VEGFA, или Escherichia coli SCS110-AF/VTvaf17-FGF1, или Escherichia coli SCS110-AF/VTvaf17-HIF1α, или Escherichia coli SCS110-AF/VTvaf17-HGF, или Escherichia coli SCS110-AF/VTvaf17-SDF1, или Escherichia coli SCS110-AF/VTvaf17-KLK4, или Escherichia coli SCS110-AF/VTvaf17-PDGFC, или Escherichia coli SCS110-AF/VTvaf17-PROK1, или Escherichia coli SCS110-AF/VTvaf17-PROK2, несущий генотерапевтический ДНК-вектор, способ его получения, способ производства в промышленных масштабах генотерапевтического ДНК-вектора | |
WO2004087873A2 (en) | Methods of treating xerostomia and xerophthalmia |