KR20180088484A

KR20180088484A - 프롤린 및 알라닌 잔기가 풍부한 반복적인 아미노산 서열을 암호화하고 낮은 반복적인 뉴클레오티드 서열을 갖는 핵산

Info

Publication number: KR20180088484A
Application number: KR1020187020867A
Authority: KR
Inventors: 울리 바인더; 스테판 아차츠; 아르네 스케라
Original assignee: 엑스엘-프로테인 게엠베하; 테크니쉐 우니베르지테트 뮌헨
Priority date: 2015-12-22
Filing date: 2016-12-22
Publication date: 2018-08-03
Also published as: EP3394266A1; HUE055267T2; EA201891127A1; AU2016378646B2; IL259352A; SG11201803958WA; ES2877539T3; WO2017109087A1; JP7065772B2; AU2016378646A1; US11401305B2; SI3394266T1; MX2018007680A; KR102654180B1; CA3005115A1; LT3394266T; JP2019508020A; CN109153996A; CN109153996B; US20190010192A1

Abstract

본 발명은 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 낮은 반복적인 뉴클레오티드 서열을 포함하는 핵산 분자에 관한 것이다. 상기 암호화된 폴리펩티드는 랜덤 코일을 형성하는 반복적인 아미노산 서열을 포함한다. 상기 낮은 반복적인 뉴클레오티드 서열을 포함하는 핵산 분자는 생물학적 또는 약리학적 활성 단백질를 암호화하는 뉴클레오티드 서열을 추가로 포함할 수 있다. 또한, 본 발명은 상기 낮은 반복적인 뉴클레오티드 서열을 포함하는 핵산 분자를 확인하기 위한 선별 수단 및 방법을 제공한다. 본 발명은 또한 상기 핵산 분자의 제조 방법에 관한 것이다. 또한, 본 명세서에서 제공되는 핵산 분자를 이용하여 상기 암호화된 폴리펩티드 또는 상기 암호화된 폴리펩티드를 갖는 약물 접합체를 제조하는 방법이 본 명세서에서 제공된다. 상기 약물 접합체는 생물학적 또는 약리학적 활성 단백질 또는 소분자 약물을 포함할 수 있다. 또한, 이러한 핵산 분자를 포함하는 벡터 및 숙주가 본 명세서에서 제공된다.

Description

프롤린 및 알라닌 잔기가 풍부한 반복적인 아미노산 서열을 암호화하고 낮은 반복적인 뉴클레오티드 서열을 갖는 핵산

본 발명은 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 낮은 반복적인 뉴클레오티드 서열을 포함하는 핵산 분자에 관한 것이다. 상기 암호화된 폴리펩티드는 랜덤 코일(random coil)을 형성하는 반복적인 아미노산 서열을 포함한다. 상기 낮은 반복적인 뉴클레오티드 서열을 포함하는 핵산 분자는 생물학적 또는 약리학적 활성 단백질을 암호화하는 뉴클레오티드 서열을 추가로 포함할 수 있다. 또한, 본 발명은 상기 낮은 반복적인 뉴클레오티드 서열을 포함하는 상기 핵산 분자를 확인하기 위한 선별 수단 및 방법을 제공한다. 본 발명은 또한 상기 핵산 분자(들)의 제조 방법에 관한 것이다. 또한, 본 명세서에서 제공되는 핵산 분자를 이용하여 상기 암호화된 폴리펩티드 또는 상기 암호화된 폴리펩티드를 갖는 약물 접합체(들)를 제조하는 방법이 본 명세서에서 제공된다. 상기 약물 접합체는 생물학적 또는 약리학적 활성 단백질 또는 소분자 약물을 포함할 수 있다. 또한, 본 명세서에는 이러한 핵산 분자를 포함하는 벡터 및 숙주가 제공된다.

랜덤 코일을 형성하는 폴리펩티드는 종래 기술에 알려져 있다. 예를 들면, WO 2008/155134는 적어도 약 100개 아미노산 잔기의 아미노산 서열을 포함하고 프롤린, 알라닌 및 세린(PAS) 잔기로 이루어지는 단백질을 개시한다. 상기 랜덤 코일 입체형태(conformation)를 형성하는 아미노산 서열은 복수의 아미노산 반복물을 포함할 수 있다. 상기 반복물은 적어도 3 내지 30개 이상의 아미노산 잔기로 이루어질 수 있다. WO 2011/144756은 프롤린 및 알라닌(PA) 잔기만으로 이루어지는 반복적인 아미노산 서열을 포함하는 폴리펩티드를 개시한다. 상기 폴리펩티드는 또한 랜덤 코일을 형성하며, 적어도 50개의 프롤린 및 알라닌 잔기로 이루어진다. WO 2015/132004는 PAS로 이루어지는 랜덤 코일 도메인을 포함하는 재조합 클로스트리디움 신경독소를 개시한다. US 2006/0252120 A1은 아미노산 서열 모티프 [(AP)₅]_n을 갖는 프롤린-풍부 글리코모듈로서 암호화되는 세그먼트를 함유하는 히드록시프롤린-풍부 당단백질을 개시한다. 또한, 자연 발생형 폴리펩티드는 유전자 은행 기탁 번호(AAP41454.1) 하에 공개된 마카시네 헤르페스바이러스(Macacine herpesvirus) 1 유전자의 매우 큰 피막(tegument) 단백질과 같은 프롤린 및 알라닌이 풍부한 서열을 포괄한다. 코돈 최적화 방법은 WO 2007/142954에 개시되어 있다.

PAS 또는 PA 서열과 같은 반복적인 종래 기술의 폴리펩티드는 전형적으로 대응하는 반복적인 핵산에 의해 암호화된다. 따라서, 상기 종래 기술의 핵산은 그 뉴클레오티드 서열로 암호화하는 아미노산 서열의 반복적인 구조를 반영한다. 따라서, 상기 종래 기술의 핵산은 그 서열 레벨에 대해 매우 반복적이다. 상기 종래 기술 핵산의 반복성은 특히, 예를 들면 300개 잔기 또는 그 이상의 긴 PAS 또는 PA 서열을 암호화할 때 부분적인 유전적 불안정성과 같은 경고(caveat)를 유발할 수 있다.

따라서, 본 발명의 기저를 이루는 기술적 문제는 아미노산 반복물을 함유하는 폴리펩티드, 특히 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 아미노산 반복물을 함유하는 폴리펩티드를 제조하는 편리하고 신뢰가능한 수단 및 방법을 제공하는 것이다.

상기 기술적 문제는 하기 본 명세서에서 제공되고 첨부된 청구항에서 특정되는 것과 같은 구현예를 제공함으로써 해결된다.

본 발명은 다음의 항목들에 관한 것이다.

1. 핵산 분자로서, 상기 핵산 분자는 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열을 포함하고,

상기 핵산의 뉴클레오티드 서열은 적어도 300개 길이의 뉴클레오티드를 가지며,

상기 뉴클레오티드 서열은 50,000 이하의 뉴클레오티드 반복물 점수(NRS)를 갖고,

상기 뉴클레오티드 반복물 점수(NRS)는 하기 식에 따라 결정된다:

상기에서, N_tot는 상기 뉴클레오티드 서열의 길이이고,

n은 상기 뉴클레오티드 서열 내의 반복물의 길이이며, 및

f_i(n)은 길이 n인 상기 반복물의 빈도이고,

길이 n인 반복물이 1개 이상이면, k(n)은 길이 n인 상기 반복물의 상기 상이한 서열의 수이고, 그렇지 않다면 k(n)은 길이 n인 상기 반복물에 대해 1이다.

2. 항목 1의 핵산 분자로서, 상기 암호화된 폴리펩티드는 프롤린 및 알라닌으로 이루어진다.

3. 항목 2의 핵산 분자로서, 상기 프롤린 잔기는 상기 암호화된 폴리펩티드의 약 10% 이상 및 약 75% 이하를 구성한다.

4. 항목 1의 핵산 분자로서, 상기 암호화된 폴리펩티드는 프롤린, 알라닌 및 세린으로 이루어진다.

5. 항목 4의 핵산 분자로서, 상기 프롤린 잔기는 상기 암호화된 폴리펩티드의 4% 이상 및 40% 이하를 구성한다.

6. 항목 1 내지 5 중 어느 하나의 핵산 분자로서, 상기 뉴클레오티드 반복물 점수(NRS)는 100 이하이다.

7. 항목 1 내지 6 중 어느 하나의 핵산 분자로서, 상기 핵산 분자는 향상된 유전적 안정성을 갖는다.

8. 항목 1 내지 7 중 어느 하나의 핵산 분자로서, 상기 뉴클레오티드 서열은 상기 반복물을 포함하고, 상기 반복물은 최대 길이 n_max를 가지며, n_max는 하기 식에 따라 결정된다:

상기에서, N_tot는 상기 뉴클레오티드 서열의 길이이다.

9. 항목 1 내지 8 중 어느 하나의 핵산 분자로서, 상기 반복물은 약 14, 15, 16 또는 17개 뉴클레오티드 내지 약 55개 뉴클레오티드의 최대 길이를 갖는다.

10. 항목 1 내지 9 중 어느 하나의 핵산 분자로서, 상기 반복물은 상기 뉴클레오티드 서열의 길이의 50%에 대응하는 최대 길이를 갖는다.

11. 항목 1 내지 10 중 어느 하나의 핵산 분자로서, 상기 암호화된 폴리펩티드는 복수의 아미노산 반복물을 갖는 반복적인 아미노산 서열을 포함하고, 최대 9개의 연이은(consecutive) 아미노산 잔기가 동일하며, 상기 폴리펩티드는 랜덤 코일을 형성한다.

12. 항목 1 내지 11 중 어느 하나의 핵산 분자로서, 상기 핵산 분자는 다음으로 이루어진 군으로부터 선택된다:

(a) 서열번호 19, 서열번호 20, 서열번호 21, 서열번호 22, 서열번호 23, 서열번호 24, 서열번호 25, 서열번호 26 및 서열번호 27로 이루어진 군으로부터 선택되는 적어도 하나의 뉴클레오티드 서열을 포함하는 핵산 분자;

(b) 서열번호 28, 서열번호 29, 서열번호 30, 서열번호 31, 서열번호 32, 서열번호 33, 서열번호 34, 서열번호 35, 서열번호 36 및 서열번호 37로 이루어진 군으로부터 선택되는 적어도 하나의 뉴클레오티드 서열을 포함하는 핵산 분자;

(c) 서열번호 38, 서열번호 39, 서열번호 40 및 서열번호 41로 이루어진 군으로부터 선택되는 뉴클레오티드 서열을 포함하는 핵산 분자;

(d) 서열번호 42, 서열번호 43, 서열번호 44 및/또는 서열번호 45로 이루어진 뉴클레오티드 서열을 포함하는 핵산 분자;

(e) (a) 또는 (b)에서 정의된 것과 같은 뉴클레오티드 서열의 상보적인 가닥에 엄격한 조건 하에 혼성화하는 핵산 분자;

(f) (a), (c) 및 (e) 중 어느 하나에서 정의된 것과 같은 뉴클레오티드 서열과 적어도 56% 동일성을 갖는 뉴클레오티드 서열을 포함하는 핵산 분자;

(g) (b), (d) 및 (e) 중 어느 하나에서 정의된 것과 같은 뉴클레오티드 서열과 적어도 66.7% 동일성을 갖는 뉴클레오티드 서열을 포함하는 핵산 분자; 및

(h) (a) 내지 (d) 중 어느 하나에서 정의된 것과 같은 뉴클레오티드 서열과 유전자 코드의 결과로서 축중(degeneracy)되는 핵산 분자.

13. 항목 1 내지 12 중 어느 하나의 핵산 분자로서, 상기 핵산 분자는 2개의 상보적인 5'-돌출부(overhang)를 포함하며, 코딩 가닥 상의 5'-돌출부는 5'-GCC이고, 및 비-코딩 가닥 상의 5'-돌출부는 5'-GGC이다.

14. 항목 1 내지 13 중 어느 하나의 핵산 분자로서, 생물학적 활성 단백질을 암호화하는 핵산과 동일한 해독틀(reading frame)에서 작동가능하게 결합된다.

15. 항목 14의 핵산 분자로서, 상기 생물학적 활성 단백질은 치료적으로 효과적인 단백질이다.

16. 항목 14 또는 15의 핵산 분자로서, 상기 생물학적 활성 단백질은 결합 단백질, 항체 절편, 사이토카인, 성장 인자, 호르몬, 효소, 단백질 백신, 펩티드 백신, 50개까지의 아미노산 잔기로 이루어지는 펩티드 또는 펩티도모방체(peptidomimetic)로 이루어진 군으로부터 선택된다.

17. 항목 16의 핵산 분자로서, 상기 결합 단백질은 항체, Fab 절편, Fab' 절편, F(ab')₂ 절편, 단일 사슬 가변 절편(scFv), (단일) 도메인 항체, 항체의 단리된 가변 영역(VL 및/또는 VH 영역), CDR, 면역글로불린 도메인, CDR-유래 펩티도모방체, 렉틴, 단백질 스캐폴드, 피브로넥틴 도메인, 테나신 도메인, 단백질 A 도메인, SH3 도메인, 안키린 반복 도메인, 및 리포칼린으로 이루어진 군으로부터 선택된다.

18. 항목 14 내지 17 중 어느 하나의 핵산 분자로서, 상기 생물학적 활성 단백질은 인터루킨 1 수용체 길항제, 렙틴, 산 스핑고마이엘리나아제, 아데노신 탈아미나아제, 아갈시다아제 알파, 알파-1 안티트립신, 알파 심방 나트륨이뇨 펩티드, 알파-갈락토시다아제, 알파-글루코시다아제, 알파-N-아세틸글루코사미니다아제, 알테플라아제, 아메디플라아제, 아밀린, 아밀린 유사체, 항-HIV 펩티드 융합 억제제, 아르기닌 탈이미나아제, 아스파라기나아제, B 도메인 결실 인자 Ⅷ, 뼈 형성 단백질, 브라디키닌 길항제, B-타입 나트륨이뇨 펩티드, 보우가닌, 성장 호르몬, 융모막 고나도트로핀, CD3 수용체 길항제, CD19 길항제, CD20 길항제, CD40 길항제, CD40L 길항제, 세레브로사이드 설파타아제, 응고 인자 Ⅶa, 응고 인자 XⅢ, 응고 인자 Ⅸ, 응고 인자 X, 보체 성분 C3 억제제, 보체 성분 5a 길항제, C-펩티드, CTLA-4 길항제, C-타입 나트륨이뇨 펩티드, 데펜신, 데옥시리보뉴클레아제 I, EGFR 수용체 길항제, 상피 성장 인자, 에리트로포이에틴, 엑센딘-4, 에즈린 펩티드 1, FcγⅡB 수용체 길항제, 섬유아세포 성장 인자 21, 여포-자극 호르몬, 위 억제 폴리펩티드(GIP), GIP 유사체, 글루카곤, 글루카곤 수용체 작용제, 글루카곤-유사 펩티드 1(GLP-1), GLP-1 유사체, 글루카곤-유사 펩티드 2(GLP-2), GLP-2 유사체, 고나도렐린, 고나도트로핀-방출 호르몬 작용제, 고나도트로핀-방출 호르몬 길항제, gp120, gp160, 과립구 콜로니 자극 인자(G-CSF), 과립구 대식세포 콜로니 자극 인자(GM-CSF), 그렐린, 그렐린 유사체, 성장 호르몬, 성장 호르몬-방출 호르몬, 헤마타이드, 간세포 성장 인자, 간세포 성장 인자 수용체(HGFR) 길항제, 헵시딘 길항제, 헵시딘 모방체, Her2/neu 수용체 길항제, 히스트렐린, 히루딘, hsp70 길항제, 휴마닌, 히알루로니다아제, 가수분해성 리소좀 글루코세레브로사이드-특이적 효소, 이두로네이트-2-설파타아제, IgE 길항제, 인슐린, 인슐린 유사체, 인슐린-유사 성장 인자 1, 인슐린-유사 성장 인자 2, 인터페론-알파, 인터페론-알파 길항제, 인터페론-알파 수퍼작용제, 인터페론-알파-n3, 인터페론-베타, 인터페론-감마, 인터페론-람다, 인터페론 타우, 인터루킨, 인터루킨 2 융합 단백질, 인터루킨-22 수용체 서브유닛 알파(IL-22ra) 길항제, 이리신, 소도 신생 연관 단백질, 각질세포 성장 인자, Kv1.3 이온 채널 길항제, 란티펩티드, 리파아제, 황체형성 호르몬, 루트로핀 알파, 리소스타핀, 만노시다아제, N-아세틸갈락토사민-6-설파타아제, N-아세틸글루코사미니다아제, 호중구 젤라티나아제-연관 리포칼린, 옥트레오타이드, ω-코노톡신, 오르니토도로스 모우바타 보체 억제제, 골형성 단백질-1, 오스테오프로테게린, 옥살레이트 탈카르복실라아제, P128, 부갑상선 호르몬, 파일로머, PD-1 길항제, PDGF 길항제, 페닐알라닌 암모니아 리아제, 혈소판 유래 성장 인자, 프로인슐린, 단백질 C, 릴랙신, 릴랙신 유사체, 세크레틴, RGD 펩티드, 리보뉴클레아제, 센레보타아제, 세린 프로테아제 억제제, 가용성 보체 수용체 타입 1, 가용성 DCC 수용체, 가용성 TACI 수용체, 가용성 종양 괴사 인자 I 수용체(sTNF-RI), 가용성 종양 괴사 인자 Ⅱ 수용체(sTNF-RⅡ), 가용성 VEGF 수용체 Flt-1, 가용성 FcγⅡB 수용체, 소마토스타틴, 소마토스타틴 유사체, 스트렙토키나아제, T-세포 수용체 리간드, 테넥테플라아제, 테리파라타이드, 트롬보모듈린 알파, 티모신 알파 1, 톨 유사 수용체 억제제, 종양 괴사 인자(TNFα), 종양 괴사 인자 α 길항제, 유리카아제, 혈관활성 장관 펩티드, 바소프레신, 바소프레신 유사체, VEGF 길항제, 폰 빌레브란트 인자로 이루어진 군으로부터 선택된다.

19. 항목 1 내지 18 중 어느 하나의 핵산 분자를 포함하는 벡터.

20. 항목 19의 벡터로서, 상기 벡터는 엔도뉴클레아제 제한 효소에 의해 인색되는 상류 인식 서열 및 엔도뉴클레아제 제한 효소에 의해 인식되는 하류 인식 서열을 포함하고, 상기 상류 인식 서열 및 하류 인식 서열은 역으로 상보적인 방향이다.

21. 항목 20의 벡터로서, 상기 하류 인식 서열을 인식하는 엔도뉴클레아제 제한 효소는 상기 상류 인식 서열을 인식하는 엔도뉴클레아제 제한 효소와 상이하다.

22. 항목 20 또는 21의 벡터로서, 상기 상류 인식 서열은 2개의 상이한 제한 효소에 대한 2개의 인식 서열을 포함한다.

23. 항목 20 내지 22 중 어느 하나의 벡터로서, 상기 하류 인식 서열은 상기 상류 인식 서열 내에 포함된다.

24. 항목 20 내지 23 중 어느 하나의 벡터로서, 상기 상류 인식 서열 및/또는 하류 인식 서열은 뉴클레오티드 돌출부를 생산하는 제한 효소에 대한 인식 서열이다.

25. 항목 20 내지 24 중 어느 하나의 벡터로서, 상기 상류 인식 서열 및/또는 하류 인식 서열은 상기 인식 서열 바깥을 자르는 제한 효소에 대한 인식 부위이다.

26. 항목 20 내지 25 중 어느 하나의 벡터로서, 상기 제한 효소는 타입 ⅡS 제한 효소이다.

27. 항목 20 내지 26 중 어느 하나의 벡터로서, 상기 상류 인식 서열은 뉴클레오티드 서열 "5'-GCTCTTC-3'"을 갖거나, 및/또는 상기 하류 인식 서열은 뉴클레오티드 서열 "5'-CTCTTC-3'"을 갖는다.

28. 항목 20 내지 27 중 어느 하나의 벡터로서, 상기 상류 인식 서열은 SapI 및 EarI에 의해 인식되거나, 및/또는 상기 하류 인식 서열은 EarI에 의해 인식된다.

29. 항목 20 내지 28 중 어느 하나의 벡터로서, 상기 벡터는 서열번호 48 또는 서열번호 55로 제공되는 서열을 갖는다.

30. 항목 1 내지 18 중 어느 하나의 핵산 분자를 포함하거나, 항목 19 내지 29 중 어느 하나의 벡터로 형질전환된 숙주.

31. 항목 30의 숙주로서, 상기 숙주는 박테리아, 포유동물 세포, 곤충 세포, 조류(藻類) 세포, 섬모류, 효모 및 식물 세포로 이루어진 군으로부터 선택된다.

32. 항목 30 또는 31의 숙주로서, 상기 박테리아는 에세리키아(Escherichia), 코리네박테리움(Corynebacterium), 슈도모나스(Pseudomonas) 또는 바실러스(Bacillus)의 속(屬)에 속한다.

33. 항목 32의 숙주로서, 상기 박테리아는 에세리키아 콜라이(Escherichia coli), 코리네박테리움 글루타미쿰(Corynebacterium glutamicum), 슈도모나스 플루오레센스(Pseudomonas fluorescens) 또는 바실러스 메가테리움(Bacillus megaterium)이다.

34. 항목 31의 숙주로서, 상기 포유동물 세포는 햄스터 세포이다.

35. 항목 34의 숙주로서, 상기 포유동물 세포는 CHO 세포이다.

36. 항목 31의 숙주로서, 상기 효모는 사카로마이세스(Saccharomyces), 피키아(Pichia), 한세눌라(Hansenula) 또는 클루이베로마이세스(Kluyveromyces)의 속에 속한다.

37. 항목 36의 숙주로서, 상기 효모는 사카로마이세스 세레비지애(Saccharomyces cerevisiae), 스키조사카로마이세스 폼베(Schizosaccharomyces pombe), 피키아 파스토리스(Pichia pastoris), 피키아 메타놀리카(Pichia methanolica), 한세눌라 폴리모르파(Hansenula polymorpha), 또는 클루이베로마이세스 락티스(Kluyveromyces lactis)이다.

38. 항목 1 내지 18 중 어느 하나의 핵산 분자, 또는 항목 19 내지 29 중 어느 하나의 벡터의 제조 방법으로서, 상기 방법은 항목 30 내지 37 중 어느 하나의 숙주를 배양/재배하는 단계 및 선택적으로 상기 생산된 핵산 분자 및/또는 벡터를 단리하는 단계를 포함한다.

39. 항목 1 내지 18 중 어느 하나의 핵산 분자에 의해 암호화되는 폴리펩티드의 제조 방법으로서, 상기 방법은 항목 1 내지 18 중 어느 하나의 핵산 분자를 포함하는 항목 30 내지 37 중 어느 하나의 숙주를 배양/재배하는 단계 및 선택적으로 상기 생산된 폴리펩티드를 단리하는 단계를 포함한다.

40. 약물 접합체(conjugate)의 제조 방법으로서, 상기 약물 접합체는 항목 1 내지 18 중 어느 하나의 핵산 분자에 의해 암호화되는 폴리펩티드를 포함하고, 추가로 (ⅰ) 생물학적 활성 단백질 및/또는 (ⅱ) 소분자 및/또는 (ⅲ) 탄수화물을 포함한다.

41. 항목 40의 약물 접합체의 제조 방법으로서, 상기 핵산 분자는 향상된 유전적 안정성을 갖는다.

42. 항목 40 또는 41의 약물 접합체의 제조 방법으로서, 상기 생물학적 활성 단백질은 치료적으로 효과적인 단백질이다.

43. 항목 40 내지 42 중 어느 하나의 약물 접합체의 제조 방법으로서, 상기 폴리펩티드는 상기 약물 접합체의 향상된 생체내 및/또는 시험관내 안정성을 매개한다.

44. 항목 40 내지 43 중 어느 하나의 약물 접합체의 제조 방법으로서, 상기 생물학적 활성 단백질은 결합 단백질, 항체 절편, 사이토카인, 성장 인자, 호르몬, 효소, 단백질 백신, 펩티드 백신, 50개까지의 아미노산 잔기로 이루어지는 펩티드 또는 펩티도모방체로 이루어진 군으로부터 선택된다.

45. 항목 40 내지 44 중 어느 하나의 약물 접합체의 제조 방법으로서, 상기 결합 단백질은 항체, Fab 절편, Fab' 절편, F(ab')₂ 절편, 단일 사슬 가변 절편(scFv), (단일) 도메인 항체, 항체의 단리된 가변 영역(VL 및/또는 VH 영역), CDR, 면역글로불린 도메인, CDR-유래 펩티도모방체, 렉틴, 단백질 스캐폴드, 피브로넥틴 도메인, 테나신 도메인, 단백질 A 도메인, SH3 도메인, 안키린 반복 도메인, 및 리포칼린으로 이루어진 군으로부터 선택된다.

46. 항목 40 내지 45 중 어느 하나의 약물 접합체의 제조 방법으로서, 상기 생물학적 활성 단백질은 인터루킨 1 수용체 길항제, 렙틴, 산 스핑고마이엘리나아제, 아데노신 탈아미나아제, 아갈시다아제 알파, 알파-1 안티트립신, 알파 심방 나트륨이뇨 펩티드, 알파-갈락토시다아제, 알파-글루코시다아제, 알파-N-아세틸글루코사미니다아제, 알테플라아제, 아메디플라아제, 아밀린, 아밀린 유사체, 항-HIV 펩티드 융합 억제제, 아르기닌 탈이미나아제, 아스파라기나아제, B 도메인 결실 인자 Ⅷ, 뼈 형성 단백질, 브라디키닌 길항제, B-타입 나트륨이뇨 펩티드, 보우가닌, 성장 호르몬, 융모막 고나도트로핀, CD3 수용체 길항제, CD19 길항제, CD20 길항제, CD40 길항제, CD40L 길항제, 세레브로사이드 설파타아제, 응고 인자 Ⅶa, 응고 인자 XⅢ, 응고 인자 Ⅸ, 응고 인자 X, 보체 성분 C3 억제제, 보체 성분 5a 길항제, C-펩티드, CTLA-4 길항제, C-타입 나트륨이뇨 펩티드, 데펜신, 데옥시리보뉴클레아제 I, EGFR 수용체 길항제, 상피 성장 인자, 에리트로포이에틴, 엑센딘-4, 에즈린 펩티드 1, FcγⅡB 수용체 길항제, 섬유아세포 성장 인자 21, 여포-자극 호르몬, 위 억제 폴리펩티드(GIP), GIP 유사체, 글루카곤, 글루카곤 수용체 작용제, 글루카곤-유사 펩티드 1(GLP-1), GLP-1 유사체, 글루카곤-유사 펩티드 2(GLP-2), GLP-2 유사체, 고나도렐린, 고나도트로핀-방출 호르몬 작용제, 고나도트로핀-방출 호르몬 길항제, gp120, gp160, 과립구 콜로니 자극 인자(G-CSF), 과립구 대식세포 콜로니 자극 인자(GM-CSF), 그렐린, 그렐린 유사체, 성장 호르몬, 성장 호르몬-방출 호르몬, 헤마타이드, 간세포 성장 인자, 간세포 성장 인자 수용체(HGFR) 길항제, 헵시딘 길항제, 헵시딘 모방체, Her2/neu 수용체 길항제, 히스트렐린, 히루딘, hsp70 길항제, 휴마닌, 히알루로니다아제, 가수분해성 리소좀 글루코세레브로사이드-특이적 효소, 이두로네이트-2-설파타아제, IgE 길항제, 인슐린, 인슐린 유사체, 인슐린-유사 성장 인자 1, 인슐린-유사 성장 인자 2, 인터페론-알파, 인터페론-알파 길항제, 인터페론-알파 수퍼작용제, 인터페론-알파-n3, 인터페론-베타, 인터페론-감마, 인터페론-람다, 인터페론 타우, 인터루킨, 인터루킨 2 융합 단백질, 인터루킨-22 수용체 서브유닛 알파(IL-22ra) 길항제, 이리신, 소도 신생 연관 단백질, 각질세포 성장 인자, Kv1.3 이온 채널 길항제, 란티펩티드, 리파아제, 황체형성 호르몬, 루트로핀 알파, 리소스타핀, 만노시다아제, N-아세틸갈락토사민-6-설파타아제, N-아세틸글루코사미니다아제, 호중구 젤라티나아제-연관 리포칼린, 옥트레오타이드, ω-코노톡신, 오르니토도로스 모우바타 보체 억제제, 골형성 단백질-1, 오스테오프로테게린, 옥살레이트 탈카르복실라아제, P128, 부갑상선 호르몬, 파일로머, PD-1 길항제, PDGF 길항제, 페닐알라닌 암모니아 리아제, 혈소판 유래 성장 인자, 프로인슐린, 단백질 C, 릴랙신, 릴랙신 유사체, 세크레틴, RGD 펩티드, 리보뉴클레아제, 센레보타아제, 세린 프로테아제 억제제, 가용성 보체 수용체 타입 1, 가용성 DCC 수용체, 가용성 TACI 수용체, 가용성 종양 괴사 인자 I 수용체(sTNF-RI), 가용성 종양 괴사 인자 Ⅱ 수용체(sTNF-RⅡ), 가용성 VEGF 수용체 Flt-1, 가용성 FcγⅡB 수용체, 소마토스타틴, 소마토스타틴 유사체, 스트렙토키나아제, T-세포 수용체 리간드, 테넥테플라아제, 테리파라타이드, 트롬보모듈린 알파, 티모신 알파 1, 톨 유사 수용체 억제제, 종양 괴사 인자(TNFα), 종양 괴사 인자 α 길항제, 유리카아제, 혈관활성 장관 펩티드, 바소프레신, 바소프레신 유사체, VEGF 길항제, 폰 빌레브란트 인자로 이루어진 군으로부터 선택된다.

47. 항목 40 내지 46 중 어느 하나의 약물 접합체의 제조 방법으로서, 상기 소분자는 혈관형성 억제제, 항-알레르기 약물, 항-구토 약물, 항-우울증 약물, 항-고혈압 약물, 항-염증성 약물, 항-감염성 약물, 항-정신병 약물, 항-증식성(세포독성 및 세포분열억제성) 약물, 칼슘 길항제 및 다른 순환 기관 약물, 콜린성 작용제, 중추 신경계에 작용하는 약물, 호흡기계에 작용하는 약물, 호르몬, 스테로이드, 폴리케타이드, 탄수화물, 올리고사카라이드, 핵산, 핵산 유도체, 안티센스 핵산, 소간섭 RNA(siRNA), 마이크로 RNA(miR) 억제제, 마이크로RNA 모방체, DNA 압타머 및 RNA 압타머로 이루어진 군으로부터 선택된다.

48. 항목 39의 방법에 의해 얻어지거나 얻어질 수 있는 폴리펩티드, 항목 40 내지 47 중 어느 하나의 방법에 의해 얻어지는 약물 접합체.

49. 항목 1 내지 18 중 어느 하나의 핵산 분자의 서열분석(sequencing) 방법.

50. 항목 1 내지 18 중 어느 하나의 핵산 분자의 증폭 방법.

51. 항목 1 내지 18 중 어느 하나의 핵산 분자의 클로닝(cloning) 방법.

52. 유전적으로 안정한 핵산 분자의 선별 방법으로서, 상기 핵산 분자는 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열을 포함하고, 상기 뉴클레오티드 서열은 적어도 300개 길이의 뉴클레오티드를 가지며,

상기 방법은 50,000 이하의 뉴클레오티드 반복물 점수(NRS)를 갖는 뉴클레오티드 서열을 포함하는 핵산 분자를 선별하는 단계를 포함하고,

상기에서, N_tot는 상기 뉴클레오티드 서열의 길이이고,

n은 상기 뉴클레오티드 서열 내의 반복물의 길이이며, 및

f_i(n)은 길이 n인 상기 반복물의 빈도이고,

소정 측면에서, 본 발명은 다음의 항목에 관한 것이다:

상기에서, N_tot는 상기 뉴클레오티드 서열의 길이이고,

n은 상기 뉴클레오티드 서열 내의 반복물의 길이이며, 및

f_i(n)은 길이 n인 상기 반복물의 빈도이고,

2. 항목 1의 핵산 분자로서, 상기 암호화된 폴리펩티드는 프롤린 및 알라닌으로 이루어지고, 상기 프롤린 잔기는 상기 암호화된 폴리펩티드의 약 10% 이상 및 약 75% 이하를 구성한다.

3. 항목 1의 핵산 분자로서, 상기 암호화된 폴리펩티드는 프롤린, 알라닌 및 세린으로 이루어지고, 상기 프롤린 잔기는 상기 암호화된 폴리펩티드의 4% 이상 및 40% 이하를 구성한다.

4. 항목 1 내지 3 중 어느 하나의 핵산 분자로서, 상기 뉴클레오티드 반복물 점수(NRS)는 100 이하이다.

5. 항목 1 내지 4 중 어느 하나의 핵산 분자로서, 상기 핵산 분자는 향상된 유전적 안정성을 갖는다.

6. 항목 1 내지 5 중 어느 하나의 핵산 분자로서, 상기 뉴클레오티드 서열은 상기 반복물을 포함하고, 상기 반복물은 최대 길이 n_max를 가지며, n_max는 하기 식에 따라 결정된다:

상기에서, N_tot는 상기 뉴클레오티드 서열의 길이이다.

7. 항목 1 내지 6 중 어느 하나의 핵산 분자로서, 상기 반복물은 약 14, 15, 16 또는 17개 뉴클레오티드 내지 약 55개 뉴클레오티드의 최대 길이를 갖는다.

8. 항목 1 내지 7 중 어느 하나의 핵산 분자로서, 상기 암호화된 폴리펩티드는 복수의 아미노산 반복물을 갖는 반복적인 아미노산 서열을 포함하고, 최대 9개의 연이은 아미노산 잔기가 동일하며, 상기 폴리펩티드는 랜덤 코일을 형성한다.

9. 항목 1 내지 8 중 어느 하나의 핵산 분자로서, 상기 핵산 분자는 다음으로 이루어진 군으로부터 선택된다:

(d) 서열번호 42, 서열번호 43 서열번호 44 및/또는 서열번호 45로 이루어지는 뉴클레오티드 서열을 포함하는 핵산 분자;

(g) (b), (d) 및 (e) 중 어느 하나에서 정의된 것과 같은 뉴클레오티드 서열과 적어도 66.7% 동일성을 갖는 뉴클레오티드 서열을 포함하는 핵산 분자;

(h) (a) 내지 (d) 중 어느 하나에서 정의된 것과 같은 뉴클레오티드 서열과 유전자 코드의 결과로서 축중되는 핵산 분자.

10. 항목 1 내지 9 중 어느 하나의 핵산 분자로서, 생물학적 활성 단백질을 암호화하는 핵산과 동일한 해독틀에서 작동가능하게 결합된다.

11. 항목 10의 핵산 분자로서, 상기 생물학적 활성 단백질은 결합 단백질, 항체 절편, 사이토카인, 성장 인자, 호르몬, 효소, 단백질 백신, 펩티드 백신, 50개까지의 아미노산 잔기로 이루어지는 펩티드 또는 펩티도모방체로 이루어진 군으로부터 선택되고, 상기 결합 단백질은 항체, Fab 절편, Fab' 절편, F(ab')₂ 절편, 단일 사슬 가변 절편(scFv), (단일) 도메인 항체, 항체의 단리된 가변 영역(VL 및/또는 VH 영역), CDR, 면역글로불린 도메인, CDR-유래 펩티도모방체, 렉틴, 단백질 스캐폴드, 피브로넥틴 도메인, 테나신 도메인, 단백질 A 도메인, SH3 도메인, 안키린 반복 도메인, 및 리포칼린으로 이루어진 군으로부터 선택된다.

12. 항목 10 또는 11의 핵산 분자로서, 상기 생물학적 활성 단백질은 산 스핑고마이엘리나아제, 아데노신 탈아미나아제, 아갈시다아제 알파, 알파-1 안티트립신, 알파 심방 나트륨이뇨 펩티드, 알파-갈락토시다아제, 알파-글루코시다아제, 알파-N-아세틸글루코사미니다아제, 알테플라아제, 아메디플라아제, 아밀린, 아밀린 유사체, 항-HIV 펩티드 융합 억제제, 아르기닌 탈이미나아제, 아스파라기나아제, B 도메인 결실 인자 Ⅷ, 뼈 형성 단백질, 브라디키닌 길항제, B-타입 나트륨이뇨 펩티드, 보우가닌, 성장 호르몬, 융모막 고나도트로핀, CD3 수용체 길항제, CD19 길항제, CD20 길항제, CD40 길항제, CD40L 길항제, 세레브로사이드 설파타아제, 응고 인자 Ⅶa, 응고 인자 XⅢ, 응고 인자 Ⅸ, 응고 인자 X, 보체 성분 C3 억제제, 보체 성분 5a 길항제, C-펩티드, CTLA-4 길항제, C-타입 나트륨이뇨 펩티드, 데펜신, 데옥시리보뉴클레아제 I, EGFR 수용체 길항제, 상피 성장 인자, 에리트로포이에틴, 엑센딘-4, 에즈린 펩티드 1, FcγⅡB 수용체 길항제, 섬유아세포 성장 인자 21, 여포-자극 호르몬, 위 억제 폴리펩티드(GIP), GIP 유사체, 글루카곤, 글루카곤 수용체 작용제, 글루카곤-유사 펩티드 1(GLP-1), GLP-1 유사체, 글루카곤-유사 펩티드 2(GLP-2), GLP-2 유사체, 고나도렐린, 고나도트로핀-방출 호르몬 작용제, 고나도트로핀-방출 호르몬 길항제, gp120, gp160, 과립구 콜로니 자극 인자(G-CSF), 과립구 대식세포 콜로니 자극 인자(GM-CSF), 그렐린, 그렐린 유사체, 성장 호르몬, 성장 호르몬-방출 호르몬, 헤마타이드, 간세포 성장 인자, 간세포 성장 인자 수용체(HGFR) 길항제, 헵시딘 길항제, 헵시딘 모방체, Her2/neu 수용체 길항제, 히스트렐린, 히루딘, hsp70 길항제, 휴마닌, 히알루로니다아제, 가수분해성 리소좀 글루코세레브로사이드-특이적 효소, 이두로네이트-2-설파타아제, IgE 길항제, 인슐린, 인슐린 유사체, 인슐린-유사 성장 인자 1, 인슐린-유사 성장 인자 2, 인터페론-알파, 인터페론-알파 길항제, 인터페론-알파 수퍼작용제, 인터페론-알파-n3, 인터페론-베타, 인터페론-감마, 인터페론-람다, 인터페론 타우, 인터루킨, 인터루킨 1 수용체 길항제, 인터루킨 2 융합 단백질, 인터루킨-22 수용체 서브유닛 알파(IL-22ra) 길항제, 이리신, 소도 신생 연관 단백질, 각질세포 성장 인자, Kv1.3 이온 채널 길항제, 란티펩티드, 렙틴, 리파아제, 황체형성 호르몬, 루트로핀 알파, 리소스타핀, 만노시다아제, N-아세틸갈락토사민-6-설파타아제, N-아세틸글루코사미니다아제, 호중구 젤라티나아제-연관 리포칼린, 옥트레오타이드, ω-코노톡신, 오르니토도로스 모우바타 보체 억제제, 골형성 단백질-1, 오스테오프로테게린, 옥살레이트 탈카르복실라아제, P128, 부갑상선 호르몬, 파일로머, PD-1 길항제, PDGF 길항제, 페닐알라닌 암모니아 리아제, 혈소판 유래 성장 인자, 프로인슐린, 단백질 C, 릴랙신, 릴랙신 유사체, 세크레틴, RGD 펩티드, 리보뉴클레아제, 센레보타아제, 세린 프로테아제 억제제, 가용성 보체 수용체 타입 1, 가용성 DCC 수용체, 가용성 TACI 수용체, 가용성 종양 괴사 인자 I 수용체(sTNF-RI), 가용성 종양 괴사 인자 Ⅱ 수용체(sTNF-RⅡ), 가용성 VEGF 수용체 Flt-1, 가용성 FcγⅡB 수용체, 소마토스타틴, 소마토스타틴 유사체, 스트렙토키나아제, T-세포 수용체 리간드, 테넥테플라아제, 테리파라타이드, 트롬보모듈린 알파, 티모신 알파 1, 톨 유사 수용체 억제제, 종양 괴사 인자(TNFα), 종양 괴사 인자 α 길항제, 유리카아제, 혈관활성 장관 펩티드, 바소프레신, 바소프레신 유사체, VEGF 길항제, 폰 빌레브란트 인자로 이루어진 군으로부터 선택된다.

13. 항목 1 내지 12 중 어느 하나의 핵산 분자를 포함하거나, 항목 1 내지 12 중 어느 하나의 핵산 분자를 포함하는 벡터로 형질전환된 숙주.

14. 항목 1 내지 12 중 어느 하나의 핵산 분자에 의해 암호화되는 폴리펩티드의 제조 방법으로서, 상기 방법은 항목 13의 숙주를 배양/재배하는 단계 및 선택적으로 상기 생산된 폴리펩티드를 단리하는 단계를 포함한다.

15. 약물 접합체의 제조 방법으로서, 상기 약물 접합체는 항목 1 내지 12 중 어느 하나의 핵산 분자에 의해 암호화되는 폴리펩티드를 포함하고, 추가로 (ⅰ) 생물학적 활성 단백질 및/또는 (ⅱ) 소분자 및/또는 (ⅲ) 탄수화물을 포함한다.

본 발명은 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 낮은 반복적인 뉴클레오티드 서열을 갖는 핵산 분자에 관한 것이다. 이러한 폴리펩티드는 또한 본 명세서에서 PA-풍부 또는 프롤린/알라닌-풍부 폴리펩티드라 명명된다. 본 명세서에서 제공되는 본 발명의 핵산 분자는 뉴클레오티드 반복물 서열 당 약 14, 15, 16 또는 17개 뉴클레오티드의 최대 길이와 같은 소정의 최대 길이의 뉴클레오티드 반복물이 없거나 거의 없다. 또한, 상기 PA-풍부 코딩 뉴클레오티드 서열은 적어도 300개 뉴클레오티드의 총 길이를 갖고, 상기 코딩 서열 내의 개별 뉴클레오티드 반복물은 14, 15, 16, 17, 약 20, 약 25, 약 30, 약 35, 약 40, 약 45, 약 50 또는 약 55개 뉴클레오티드의 개별 최대 길이를 갖는다.

한 측면에서, 본 발명의 핵산 분자는 반복적인 아미노산 서열(예컨대, PA-풍부 폴리펩티드)을 암호화하는 뉴클레오티드 서열을 포함하고, 상기 핵산 분자의 상기 뉴클레오티드 서열은 적어도 300개 뉴클레오티드의 길이를 가지며, 상기 뉴클레오티드 서열은 50,000 이하의 뉴클레오티드 반복물 점수(NRS)를 갖고, 상기 뉴클레오티드 반복물 점수(NRS)는 하기 식에 따라 결정된다:

상기 식에서, N_tot는 상기 뉴클레오티드 서열의 길이이고, n은 상기 뉴클레오티드 서열 내의 반복물의 길이이며, 및 f_i(n)은 길이 n인 상기 반복물의 빈도이고, 길이 n인 반복물이 1개 이상이면, k(n)은 길이 n인 상기 반복물의 상기 상이한 서열의 수이고, 그렇지 않다면 k(n)은 길이 n인 상기 반복물에 대해 1이다. 이하에 정의가 뒤따른다.

소정 측면에서, 본 발명의 핵산 분자는 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하고, 상기 핵산 분자의 뉴클레오티드 서열 내에 반복적으로 일어나는 뉴클레오티드 서열 스트레치(stretch)(즉, "반복물")는 최대 14, 15, 16, 17, 약 20, 약 25, 약 30, 약 35, 약 40, 약 45, 약 50 또는 약 55개 뉴클레오티드의 길이를 갖는다. 달리 말하면, 상기 핵산 분자는 PA-풍부 폴리펩티드를 암호화하는 뉴클레오티드 서열을 포함하고, 상기 코딩 뉴클레오티드 서열은 14, 15, 16, 17, 약 20, 약 25, 약 30, 약 35, 약 40, 약 45, 약 50 또는 약 55개 뉴클레오티드의 최대 길이를 갖는 뉴클레오티드 반복물을 포함한다. 본 발명의 핵산 분자/서열은 또한 부가적인 코딩 서열, 그 중에서도 생물학적 또는 약리학적 활성 단백질을 포함할 수 있다.

첨부된 실시예에서 본 발명의 낮은 반복적인 핵산 분자는 종래 기술의 높은 반복적인 핵산 분자와 비교하여 유리함을 보여준다. 특히, 본 명세서에서 제공되는 낮은 반복적인 핵산 분자의 유전적 안정성은 본 명세서에서 문서화되고 첨부된 실시예에서 나타낸 것과 같이 개선된다. PA-풍부 폴리펩티드를 암호화하는 종래 기술의 반복적인 핵산 분자의 유전적 안정성을 평가하기 위하여, WO 2008/155134에 개시된 것과 같이 다수의 60mer 뉴클레오티드 서열 유닛으로 이루어지는 반복적인 프롤린/알라닌-풍부 서열(PAS#1a(600); 서열번호 12; 실시예 6, 도 2b)을 암호화하는 종래 기술의 반복적인 핵산 분자를 포함하는 벡터를 구축하였다. 상기 벡터는 본 명세서에서 "pASK75-PAS#1a(600)-IL1Ra"(서열번호 51)이라 명명된다. 숙주(E. 콜라이)를 상기 벡터로 형질전환하였고, 수 일, 예컨대 7일 동안 배양하였다. 7일째에 대략 70 세대에 걸친 연속적인 성장 후, 세포를 LB/Amp 아가(agar) 상에 플레이팅하였고, 클론들을 취하였으며, 플라스미드 제조를 수행하였다. 제한 효소 및 후속하는 아가로즈 겔 전기영동을 이용해 플라스미드를 분석하였다(도 5). pASK75-PAS#1a(600)-IL1Ra의 분석된 5개의 클론들 중 4개는 상기 프롤린/알라닌-풍부 서열을 암호화하는 핵산 절편이 짧아진 것을 보여주었다(도 5, 레인 1-5).

따라서, 반복적인 프롤린/알라닌-풍부 서열을 암호화하는 종래 기술의 반복적인 핵산 분자는 유전적으로 불안정하다. 달리 말하면, 종래 기술의 핵산 분자는 낮은 생체내 안정성을 갖는다. 이론에 구애됨이 없이, 상기 유전적 불안정성은 상동성 재조합의 결과일 수 있다. 상기 유전적 불안정성과 유전자 카세트의 짧아짐으로 인하여, 결과물인 프롤린/알라닌-풍부 아미노산 서열도 역시 변경될 것이다. 따라서, 장기간의 배양 동안에 상기 불안정한 플라스미드에 의해 암호화되는 프롤린/알라닌-풍부 아미노산 서열은 원래의 플라스미드에 의해 암호화되는 서열과 상이할 것이다. 따라서, 종래 기술의 반복적인 핵산 분자를 이용하여 장기간 배양되는 동안에 얻어진 폴리펩티드는 원하는 폴리펩티드가 아닐 위험성이 상당히 존재한다.

또한, 결과물인 폴리펩티드 조성물은 특히 생물약학적 용도를 위한 생물학적 생성물의 원하는 일치성(conformity)에 반하여 상이한 폴리펩티드(예컨대, 다양한 크기, 길이 및/또는 서열의 프롤린/알라닌-풍부 폴리펩티드)를 다양하게 포함할 수 있는 위험성이 있다. 따라서, 프롤린/알라닌-풍부 폴리펩티드를 암호화하는 반복적인 종래 기술의 핵산 분자의 유전적 불안정성은 생물학적 최종-생성물의 품질 감소를 유도하여, 특히 치료 적용분야를 위한 규제 측면에서 그 생산을 불편하고 신뢰불가능하게 할 수 있다.

본 발명에서, 유전적 불안정성의 문제는 낮은 내부 뉴클레오티드 반복물을 갖는 핵산 분자를 디자인함으로써 해결된다. 그러나, 프롤린/알라닌-풍부 아미노산 서열을 암호화하기 위해 이용가능한 뉴클레오티드 트리플렛 코돈(triplet codon)의 수가 작기 때문에, 이는 사소한 작업은 아니었다.

첨부된 비제한적 실시예에 나타낸 것과 같이, 본 발명의 핵산 분자는 전술한 불리한 점을 방지하였다: 예컨대, 실시예 5 및 실시예 6 및 도 4 및 도 5의 레인 6-10 참조. 그럼에도 불구하고, 종래 기술의 핵산 분자와 마찬가지로, 본 발명의 핵산 분자는 복수의 프롤린/알라닌-풍부 반복물을 함유하는 프롤린/알라닌-풍부 폴리펩티드를 암호화한다. 그러나, 종래 기술의 핵산 분자와 매우 다르게, 본 발명의 핵산 분자는 낮은 반복적인 뉴클레오티드 서열을 갖는다(즉, 적거나 및/또는 짧은 뉴클레오티드 반복물만을 함유한다).

실증적인 실시예 5는 프롤린/알라닌-풍부 폴리펩티드를 암호화하는 낮은 반복적인 뉴클레오티드 서열을 포함하는 본 발명의 예시적인 벡터의 제조를 보여준다. 상기 예시적인 벡터에서 사용되는 것과 같이 "PAS#1f/1c/1b(600)"라 명명된 낮은 반복적인 뉴클레오티드 서열은 서열번호 38에 나타나 있다. 결과물인 플라스미드는 "pASK75-PAS#1f/1c/1b(600)-IL1Ra"(서열번호 50)으로 표기하였고, 도 4에 나타나 있다.

본 발명의 플라스미드인 "pASK75-PAS#1f/1c/1b(600)-IL1Ra"는 "pASK75-PAS#1a(600)-IL1Ra" 벡터와 연관되어 전술한 것과 같은 동일한 배양을 거쳤으며, 후자의 벡터는 WO 2008/155134에 개시된 것과 같은 다수의 60mer 뉴클레오티드 서열 유닛으로 이루어지는 반복적인 프롤린/알라닌-풍부 서열(PAS#1a(600); 서열번호 12)을 암호화하는 종래 기술의 반복적인 핵산 분자를 포함한다(도 1a). "pASK75-PAS#1a(600)-IL1Ra"와 달리, 본 발명의 플라스미드인 "pASK75-PAS#1f/1c/1b(600)-IL1Ra"는 높은 유전적 안정성을 보였다: "pASK75-PAS#1f/1c/1b(600)"의 모든 분석된 클론들은 단지 3,093 bp 및 2,377 bp의 예측되는 밴드만을 보였는데(도 5, 레인 6-10), 이는 1,800개 염기 쌍을 포함하고 프롤린/알라닌-풍부 서열 PAS#1을 암호화하는 낮은 반복적인 PAS#1f/1c/1b(600) 유전자 카세트의 높은 유전적 안정성을 나타낸다. 상기 높은 유전적 안정성으로 인하여, 종래 기술의 핵산 분자의 불리한 점은 방지된다. 이것은 낮은 반복적인 뉴클레오티드 서열을 포함하는 본 발명의 핵산 분자가 프롤린/알라닌-풍부 폴리펩티드 및/또는 대응하는 융합 단백질의 편리하고 신뢰가능한 생합성을 위해 유용함을 명확하게 보여준다.

실증적인 실시예 4는 본 발명에 따라 제공되는 핵산 분자의 추가적인 이점을 보여준다. 여기서, 본 발명의 낮은 반복적인 뉴클레오티드 서열을 포함하는 예시적인 핵산 분자(PAS#1f/1c/1b(600) 카세트로 나타냄; 서열번호 38; 예컨대, 실시예 1 참조)는 자동화된 DNA 서열분석을 거쳤다. 그 결과, 900개 염기 쌍 이상을 포함하는 명확하게 정의되고 오류가 없는 전기영동도(electropherogram)(도 3)가 얻어졌으며, 비특이적 프라이머 결합에 대한 징후를 보이지 않았다. 따라서, 대응하는 클로닝된 유전자 카세트의 상류 또는 하류와 혼성화되는 프라이머를 이용할 때만 신뢰가능하게 서열분석될 수 있는 반복적인 뉴클레오티드 서열과 대조적으로, 프롤린/알라닌-풍부 서열을 암호화하는 긴 낮은 반복적인 DNA 절편은 손쉬운 방식으로 완전히 서열분석될 수 있다. 이 경우, 내부적으로 결합하는 프라이머가 또한 적용될 수 있고, 따라서 필요시 다수의 중첩하는 서열 판독물을 생성할 수 있다: 주목하게는, 이러한 내부적으로 혼성화하는 프라이머를 사용해도 반복적인 뉴클레오티드 서열의 경우에는 독특한 서열분석 패턴으로 귀결되지 않는다. 따라서, 낮은 반복적인 뉴클레오티드 서열을 포함하는 본 발명의 핵산 분자는 상기 서열분석의 문제점을 피해간다.

요약하면, 본 발명은 그 중에서도 매우 반복적인 서열을 포함하는 종래 기술의 핵산 분자보다도 다음의 이점들을 갖는다. 상기 유익한 본 발명의 낮은 반복적인 뉴클레오티드 서열은 종래 기술의 핵산 분자와 대조적으로 추가적인 도움 없이도 완전히 서열분석될 수 있다. 본 발명의 핵산 분자의 추가적인 이점은 상기 낮은 반복성으로 인해 (예컨대, 중합효소 연쇄 반응인 PCR을 통한) 개선된 증폭 특성을 갖는다는 점이다. 또한, 본 발명의 핵산 분자는 반복된/반복적인 서열을 포함하는 뉴클레오티드 서열과 비교하여 클로닝 절차를 개선한다. 본 명세서에서 제공되는 핵산 분자의 특별한 이점은 종래 기술의 매우 반복적인 핵산 분자와 비교하여 개선된 유전적 안정성을 갖는다는 점이다. 이것은 프롤린/알라닌-풍부 폴리펩티드 및/또는 그의 융합 단백질의 신뢰가능한 생산을 허용한다.

본 발명의 핵산 분자의 특징적인 특성은 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열이 "낮은 반복적인 뉴클레오티드 서열"이라는 점이고, 이는 전술한 것과 같은 유리한 기술적인 효과를 부여한다. 첨부된 실시예에서, 핵산 분자가 본 발명에 따른 낮은 반복적인 뉴클레오티드 서열을 포함하는지 여부를 분석하기 위해 도입될 수 있는 방법을 보여준다. 특히, 첨부된 실시예는 본 명세서에서 "뉴클레오티드 반복물 점수(NRS)"로 나타낸 점수를 제공한다. 상기 뉴클레오티드 반복물 점수(NRS)는 본 명세서에서 상기에서 논의된 것과 같이 하기 식에 따라 결정된다:

상기에서, N_tot는 상기 뉴클레오티드 서열의 길이이고, n은 상기 뉴클레오티드 서열 내의 반복물의 길이이며, 및 f_i(n)은 길이 n인 상기 반복물의 빈도이고, 길이 n인 반복물이 1개 이상이면, k(n)은 길이 n인 상기 반복물의 상기 상이한 서열의 수이고, 그렇지 않다면 k(n)은 길이 n인 상기 반복물에 대해 1이다. 상기 점수는 아래에 상세히 개시되며, 첨부된 실시예에서 실증된다.

상기 NRS는 숙련된 기술자가 본 발명에서 사용하기 위한 낮은 반복적인 뉴클레오티드 서열을 선택할 수 있게 한다. 달리 말하면, 상기 NRS는 뉴클레오티드 서열의 반복성의 정도를 결정하기 위한 수단을 제공한다. 자동적으로 반복물을 확인하고 상기 NRS를 계산하기 위하여, 본 명세서에서 제공되는 NRS-계산기라 명명된 알고리즘이 도입될 수 있다.

첨부된 실증적인 실시예, 예컨대 실시예 13에 나타낸 것과 같이, 프롤린/알라닌-풍부 서열을 암호화하는 몇 가지 종래 기술의 핵산을 실시예 14에 개시되어 있는 NRS-계산기를 이용하여 본 발명에 따른 프롤린/알라닌-풍부 서열을 암호화하는 낮은 반복적인 핵산과 비교하였다. 예를 들면, 다음의 종래 기술의 서열의 NRS를 측정하였다: WO 2008/155134에 개시되어 있는 PAS#1a(200), WO2011144756에 개시되어 있는 PA#1a(200), US 20060252120에 개시되어 있는 [(AP)₅]₂₀APA, GenBank 기탁 번호 DQ399411a 하에 공개되어 있는 [AAPAPAPAP]₁₀AS, GenBank 기탁 번호 NP_851896 하에 공개되어 있는 마카시네 헤르페스바이러스 1의 큰 피막 단백질. 또한, 상기 종래 기술의 뉴클레오티드 서열 및 PAS#1b(200)(서열번호 19) 또는 PA#1e/1d/1c/1b(800)(서열번호 44)과 같은 본 발명의 낮은 반복적인 뉴클레오티드 서열에 대하여, 해당 길이에 대해 플롯팅한 뉴클레오티드 반복물의 빈도를 보여주는 히스토그램을 결정하였다(도 9). 상기 종래 기술의 뉴클레오티드 서열의 히스토그램은 매우 반복적인 본성을 나타내었다. 이와 대조적으로, 본 발명의 낮은 반복적인 뉴클레오티드 서열, 예컨대 PAS#1b(200) 및 PA#1e/1d/1c/1b(800)의 히스토그램은 14개 뉴클레오티드의 최대 길이를 갖는 소수의 반복물만을 보여준다; 예컨대, 도 9f 내지 도 9i 참조.

상기 종래 기술의 뉴클레오티드 서열 및 본 발명의 뉴클레오티드 서열 사이의 반복성에서의 차이는 그 뉴클레오티드 반복물 점수를 비교할 때 보다 더 명확하게 된다. 본 명세서에서 분석된 종래 기술의 서열은 80,000 이상의 NRS를 나타내었다(표 2). 이와 대조적으로, 본 발명의 예시적인 뉴클레오티드 서열은 예컨대 34 이하의 낮은 뉴클레오티드 반복물 점수를 보여준다; 표 1 참조. 결과적으로, 본 명세서에서 더 적고 더 짧은 뉴클레오티드 서열 반복물을 갖는 본 발명의 프롤린/알라닌-풍부 서열을 암호화하는 뉴클레오티드 서열의 반복물의 품질은 종래 기술의 서열과 비교하여 훨씬 더 높음이 명확하게 증명된다. 따라서, 본 발명의 핵산 분자는 낮은 반복적인 서열을 갖는다.

상기에 나타낸 것과 같이, 숙련된 기술자는 핵산 분자의 반복성의 정도를 분석하기 위한 몇 가지 대안을 알고 있다. 첨부된 실시예에서 본 발명 및 종래 기술의 핵산 분자의 반복성은 또한 도트 플롯 분석법(dot plot analysis)에 의해 분석되었음이 나타나 있다; 예컨대, 실시예 3 참조. 상기 도트 플롯 분석법은 WO 2011/144756에 개시되어 있는 반복적인 프롤린/알라닌-풍부 서열 PA#3a(서열번호 15; 도 2a), WO 2008/155134에 개시되어 있는 PAS#1(서열번호 11; 도 2b), US2006/0252120에 개시되어 있는 암호화된 [(AP)₅]_n 멀티머(서열번호 16) 및 GenBank 기탁 번호 AAP41454.1 하에 공개된 마카시네 헤르페스바이러스 1 유전자의 매우 큰 피막 단백질의 반복적인 프롤린/알라닌-풍부 영역(서열번호 18; 도 2c)을 암호화하는 핵산에 대해 수행되었다. 첨부된 실시예에서, 지니어스(Geneious) 소프트웨어 패키지 버전 8.1(Biomatters, Auckland, New Zealand)의 "도트업(dottup)" 수단이 도입되었다. 상기 알고리즘은 해당 서열을 그 자신에 대해 정렬하고, 예컨대 14 또는 15개 뉴클레오티드의 반복물 윈도우에 적용한다. 종래 기술의 뉴클레오티드 서열의 도트 플롯을 본 발명의 낮은 반복적인 뉴클레오티드 서열, 예컨대 유닛 PA#3b(200)(서열번호 36), PA#1b(서열번호 28) 또는 조립된 낮은 반복적인 뉴클레오티드 서열 PAS#1f/1c/1b(600)(서열번호 38) 및 PAS#1d/1f/1c/1b(800)(서열번호 39)과 비교하였다. 모든 분석된 종래 기술의 서열은 검고 평행한 대각선에 의해 실증되는 것과 같이 뉴클레오티드 서열 레벨에 대해 높은 반복적인 본성을 나타내었지만(도 2a 내지 도 2c), 본 발명에 따른 예시적인 뉴클레오티드 서열의 도트 플롯은 600개 뉴클레오티드(도 2a, 도 2c), 각각 1,800개 뉴클레오티드 또는 2,400개 뉴클레오티드(도 2b)의 전체 뉴클레오티드 서열 내에서 14개 뉴클레오티드(검은 선)의 최대 길이의 없거나 단지 소수의 산란된 반복물만을 보인다. 따라서, 본 명세서에서 제공되는 뉴클레오티드 서열은 반복물이 없거나 단지 소수의 짧은 반복물만을 포함하는 낮은 반복적인 뉴클레오티드 서열임이 본 명세서에서 증명된다.

요약하면, 첨부된 실시예는 본 발명의 핵산 분자가 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하면서도 낮은 반복적인 뉴클레오티드 서열을 갖고 있음을 명확하게 보여준다. 본 명세서에서는 본 명세서에서 제공되는 핵산 분자의 "낮은 반복성" 또는 "낮은 반복"이 대안적 전략, 예컨대 본 명세서에서 제공되는 뉴클레오티드 반복물 점수 또는 도트 플롯 분석법과 같이 숙련된 기술자에게 알려진 방법에 의해 즉시 평가될 수 있음을 추가로 보여준다. 대안적으로, 숙련된 기술자는 뉴클레오티드 서열 반복물과, 따라서 뉴클레오티드 서열의 반복성 정도를 수동으로 또는 비주얼 유전자 발생기(Visual Gene Developer)(Jung (2011) BMC Bioinformatics 12:340), 또는 렙파인드 수단(Repfind tool)(Betley (2002) Curr Biol 12:1756-1761)과 같은 일반적인(generic) 소프트웨어 프로그램의 도움으로 확인할 수 있다. 이로 인해, 예상치 못한 유리한 특성을 갖는 본 발명의 핵산 분자는 이러한 특징을 갖지 않는 종래 기술의 핵산 분자로부터 용이하게 구별될 수 있다.

전술한 것과 같이, 본 발명의 낮은 반복적인 뉴클레오티드 서열은 50,000 이하의 NRS를 갖거나, 약 17, 약 20, 약 25, 약 30, 약 35, 약 40, 약 45, 약 50 또는 약 55개 뉴클레오티드의 최대 길이를 갖는 반복물을 가질 수 있다. 본 발명의 낮은 반복적인 뉴클레오티드 서열은 적어도 100개 뉴클레오티드, 바람직하게는 적어도 150개, 더욱 바람직하게는 적어도 200개, 보다 더 바람직하게는 적어도 300개 뉴클레오티드, 보다 더 바람직하게는 적어도 350개 뉴클레오티드, 보다 더 바람직하게는 적어도 600개 뉴클레오티드, 보다 더 바람직하게는 적어도 900개, 보다 더 바람직하게는 적어도 1,200개, 보다 더 바람직하게는 적어도 1,500개 뉴클레오티드, 또는 가장 바람직하게는 적어도 1,800개 뉴클레오티드의 길이를 갖는다. 달리 말하면, 본 발명의 핵산 분자는 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열을 포함하거나 이로 이루어지고, 상기 핵산의 뉴클레오티드 서열은 적어도 100개 뉴클레오티드, 바람직하게는 적어도 150개, 더욱 바람직하게는 적어도 200개, 보다 더 바람직하게는 적어도 300개 뉴클레오티드, 보다 더 바람직하게는 적어도 350개 뉴클레오티드, 보다 더 바람직하게는 적어도 400개 또는 500개 뉴클레오티드, 보다 더 바람직하게는 적어도 600개 뉴클레오티드, 보다 더 바람직하게는 적어도 700개 또는 800개 뉴클레오티드, 보다 더 바람직하게는 적어도 900개 뉴클레오티드, 보다 더 바람직하게는 적어도 1,000개 또는 1,100개, 보다 더 바람직하게는 적어도 1,200개 뉴클레오티드(예컨대, 1,203개 뉴클레오티드), 보다 더 바람직하게는 적어도 1,300개 또는 1,400개 뉴클레오티드, 보다 더 바람직하게는 적어도 1,500개 뉴클레오티드, 보다 더 바람직하게는 적어도 1,600개 또는 1,700개 뉴클레오티드, 또는 가장 바람직하게는 적어도 1,800개 뉴클레오티드의 길이를 갖는다.

본 발명의 핵산 분자는 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열을 포함하거나 이로 이루어질 수 있고, 상기 핵산의 뉴클레오티드 서열은 최대 5,000개 뉴클레오티드, 바람직하게는 최대 4,800개 뉴클레오티드, 3,600개 뉴클레오티드 또는 2,400개 뉴클레오티드의 길이를 갖는다. 본 발명의 핵산 분자는 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열을 포함하거나 이로 이루어질 수 있고, 상기 핵산의 뉴클레오티드 서열은 최대 5,000개 뉴클레오티드, 4,900개 뉴클레오티드, 4,800개 뉴클레오티드, 4,700개 뉴클레오티드, 4,600개 뉴클레오티드, 4,500개 뉴클레오티드, 4,400개 뉴클레오티드, 4,300개 뉴클레오티드, 4,200개 뉴클레오티드, 4,100개 뉴클레오티드, 4,000개 뉴클레오티드, 3,900개 뉴클레오티드, 3,800개 뉴클레오티드, 3,700개 뉴클레오티드, 3,600개 뉴클레오티드, 3,500개 뉴클레오티드, 3,400개 뉴클레오티드, 3,300개 뉴클레오티드, 3,200개 뉴클레오티드, 3,100개 뉴클레오티드, 3,000개 뉴클레오티드, 2,900개 뉴클레오티드, 2,800개 뉴클레오티드, 2,700개 뉴클레오티드, 2,600개 뉴클레오티드, 2,500개 뉴클레오티드, 2,400개 뉴클레오티드, 2,300개 뉴클레오티드, 2,200개 뉴클레오티드, 2,100개 뉴클레오티드, 2,000개 뉴클레오티드 또는 최대 1,900개 뉴클레오티드의 길이를 갖는다.

특히 바람직한 측면에서, 본 발명의 핵산 분자는 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열을 포함하거나 이로 이루어질 수 있고, 상기 핵산의 뉴클레오티드 서열은 1,200개 내지 3,600개 뉴클레오티드의 길이를 갖는다.

또한, 상기 낮은 반복적인 뉴클레오티드 서열은 50,000 이하, 바람직하게는 40,000 이하, 더욱 바람직하게는 30,000 이하, 더욱 바람직하게는 20,000 이하, 더욱 바람직하게는 10,000 이하, 더욱 바람직하게는 1,000 이하, 더욱 바람직하게는 500 이하, 보다 더 바람직하게는 100 이하의 뉴클레오티드 반복물 점수(NRS)를 갖는다. 50 이하, 더욱 바람직하게는 48 이하, 더욱 바람직하게는 45 이하, 더욱 바람직하게는 43 이하, 더욱 바람직하게는 40 이하, 더욱 바람직하게는 38 이하 또는 가장 바람직하게는 35 이하의 뉴클레오티드 반복물 점수(NRS)를 갖는 낮은 반복적인 뉴클레오티드 서열이 특히 바람직하다. 달리 말하면, 본 발명의 핵산 분자는 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열을 포함하고, 상기 뉴클레오티드 서열은 50,000 이하, 바람직하게는 40,000 이하, 더욱 바람직하게는 30,000 이하, 더욱 바람직하게는 20,000 이하, 더욱 바람직하게는 10,000 이하, 더욱 바람직하게는 1,000 이하, 더욱 바람직하게는 500 이하, 보다 더 바람직하게는 400, 300, 200 이하 및 보다 더 바람직하게는 100 이하의 뉴클레오티드 반복물 점수(NRS)를 갖는다. 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열을 포함하는 핵산 분자가 특히 바람직하고, 상기 뉴클레오티드 서열은 90, 80, 70, 60 이하, 더욱 바람직하게는 50 이하, 더욱 바람직하게는 48 이하의 뉴클레오티드 반복물 점수(NRS), 더욱 바람직하게는 45 또는 45 이하, 더욱 바람직하게는 43 이하, 더욱 바람직하게는 40 이하의 NRS 점수, 더욱 바람직하게는 39, 38, 37 또는 36, 또는 39, 38, 37, 또는 36 이하의 NRS 점수, 또는 가장 바람직하게는 35 또는 35 이하의 NRS 점수를 갖는다. 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열을 포함하는 핵산 분자가 특히 더 바람직하고, 상기 뉴클레오티드 서열은 34, 32, 31, 30, 29, 28, 27, 26, 25, 24, 23, 22, 21, 20, 19, 18, 17, 16, 15, 14, 13, 12, 11, 10, 9 또는 8의 뉴클레오티드 반복물 점수(NRS), 또는 34, 32, 31, 30, 29, 28, 27, 26, 25, 24, 23, 22, 21, 20, 19, 18, 17, 16, 15, 14, 13, 12, 11, 10, 9 또는 8 이하의 NRS를 갖는다.

상기 논의한 것과 같이, "뉴클레오티드 반복물 점수" 또는 "NRS"는 하기 식에 따라 결정될 수 있다:

따라서, 상기 NRS는 모든 가능한 반복물 길이(n=4 부터 N_tot-1 까지)에 걸쳐서 각각의 반복물 길이(n)의 제곱의 합과 그의 총 빈도의 제곱근의 곱을 분석된 뉴클레오티드 서열의 전체 길이(N_tot)로 나눈 값으로서 정의된다. 달리 말하면, 상기 NRS는 상기 뉴클레오티드 서열 내의 반복물의 길이의 제곱의 합과 길이 n인 상기 반복물의 빈도(f_i(n))의 합의 제곱근의 곱이며, 길이 n인 반복물이 1개 이상이면, k(n)은 길이 n인 상기 반복물의 상기 상이한 서열의 수이고, 그렇지 않다면 k(n)은 길이 n인 상기 반복물에 대해 1이다; 그리고 상기 합은 상기 뉴클레오티드 서열의 전체 길이로 나누어진다.

본 명세서에서 사용된 것과 같이, "N_tot"는 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열의 총 길이이다. 상기 길이 N_tot는 또한 상기 뉴클레오티드 서열의 뉴클레오티드의 수이다. 따라서, N_tot는 분석된 뉴클레오티드 서열의 전체 길이이다.

본 명세서에서 사용된 것과 같이, "n"은 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열 내의 반복물의 길이이다. 상기 길이는 또한 상기 반복물의 뉴클레오티드의 수이다. 따라서, n은 분석된 뉴크레오티드 서열 내의 반복물의 길이이다. 정의에 의해, 가장 긴 가능한 반복물은 분석된 뉴클레오티드 서열의 전체 길이(N_tot)보다 1개 뉴클레오티드 더 짧은 길이, 즉, n=N_tot-1을 가질 수 있다. 다른 한편으로, 상기 NRS 분석법에 대해 고려되는 가장 짧은 길이의 반복물은 n=4이며, 이는 아미노산에 대한 단일 트리플렛(triplet) 코돈보다 더 긴 가장 짧은 뉴클레오티드 스트레치에 해당한다. 이러한 코돈은 암호화된 아미노산 서열의 단순화된 결과로서 다수 회 일어날 수 있으므로, 이들은 해결해야 하는 기술적 과제와 관련된 뉴클레오티드 서열 반복물로서 간주되지 않아야 한다.

본 명세서에서 사용된 것과 같이, "반복물"이란 용어는 길이 n인 뉴클레오티드의 동일한 인접한(contiguous) 서열을 1회 이상 포함하는 뉴클레오티드 서열(즉, 반복물)을 의미한다. 달리 말하면, 상기 뉴클레오티드 서열은 소정 길이의 뉴클레오티드의 인접부/스트레치/서열을 적어도 2 또는 복수의 카피(copy)로 포함한다. 본 명세서에서 분석된 뉴클레오티드 서열의 전체 길이 내에 길이 n인 반복물이 단지 한 타입일 수 있거나, 동일한 길이 n인 하나 이상의 상이한 반복물이 있을 수 있음이 고려된다. 따라서, 뉴클레오티드 서열은, 예를 들면, 모두 동일한 서열을 갖는 길이 n인 반복물을 가질 수 있다; 상기 반복물은 적어도 2회 일어날 수 있지만, 분석된 뉴클레오티드 서열의 전체 길이 내에 다수 회 일어날 수 있음이 이해된다. 대안적으로, 상이한 서열을 갖는 동일한 길이 n인 반복물이 있으며, 즉 상기 반복물은 동일한 길이(n)를 공유하지만 서열 레벨에서는 동일하지 않다. 이 경우, 각각의 상이한 반복 서열은 상이한 타입의 반복물을 구성한다.

본 명세서에서 사용된 것과 같이, "f_i(n)"은 길이 n인 반복물의 빈도이다. 달리 말하면, f_i(n)은 길이 n인 반복물이 발생한 수이다. 길이 n인 반복물이 한 타입만 있다면, k(n)은 1이다. 대안적으로, 길이 n인 하나 이상의 상이한 반복물이 있다면, k(n)은 길이 n인 상기 반복물의 상기 상이한 서열의 수이다. 달리 말하면, 상이한 서열을 갖는 길이 n인 하나 이상의 반복물이 있다면, k(n)은 길이 n인 상기 반복물의 상기 상이한 서열의 수이다. 따라서, 상이한 타입의 길이 n인 2 이상의 반복물이 있다면, k(n)은 길이 n인 상기 반복물의 상기 상이한 서열의 수이다. 그렇지 않다면, 길이 n인 반복물이 모두 같은(즉, 동일한) 서열을 갖는다면, k(n)은 길이 n인 상기 반복물에 대해 1이다.

예를 들면, 14개 뉴클레오티드(n=14)의 길이의 반복물의 빈도는 (길이 N_tot의) 뉴클레오티드 서열 내에 5일 수 있다. 이것은 14개 뉴클레오티드의 길이를 갖는 5개 반복물이 모두 동일한 서열(동일한 타입에 속함)을 가짐을, 즉 상기 반복물의 서열이 상기 뉴클레오티드 서열 내에서 5회 발생함을 의미할 수 있다. 이 경우, k(n)은 1이고, f₁(n)=5이다. 다른 시나리오에서, 14개 뉴클레오티드 길이의 5개 반복물은 상이한 서열을 가질 수 있다. 상기 시나리오에서, 상기 5개 반복물 중 2개는 동일한 서열(한 타입을 구성함)을 공유하고 상기 5개 반복물 중 3개는 다른 동일한 서열(제2 타입을 구성함)을 공유하며, 이로 인해 한 서열을 공유하는 전자의 2개 반복물의 서열과 다른 서열을 공유하는 후자의 3개 반복물의 서열은 서로 상이하다. 따라서, 상기 시나리오에서, 길이 n인 상기 상이한 서열의 수는 2, 즉 k(n)은 2이고, f₁(n)=2 및 f₂(n)=3이다. 상기 f_i(n)이란 용어에서 지수 "i"는 동일한 길이 n을 갖는 상이한 반복물의 세트 내에서 반복물의 타입을 나타내는 것으로 이해될 수 있다.

상기 NRS를 결정하기 위한 식은 반복물의 길이의 제곱(n²)의 합을 포함하고, 상기 n은 가중(summation)의 지수이며, 4가 가중의 최소 경계이고, N_tot-1이 가중의 최대 경계이다. 따라서, 최소로 고려되는 상기 반복물의 길이는 4이다. 4개 뉴클레오티드의 길이의 반복물은 한 아미노산 코돈 트리플렛보다 더 긴 모든 서열을 포함한다. 상기 지수 n은 각각의 연속적인 항에 대해 1씩 증가하며, n=N_tot-1일 때 중단된다.

또한, 상기 NRS를 결정하기 위한 식은 길이 n인 상기 반복물의 빈도(f_i(n))의 합의 제곱근을 포함하며, 상기 i는 가중의 지수이고, f_i(n)은 시리즈에서 각각의 연속적인 항을 나타내는 지수화된 변수이며, 1은 가중의 최소 경계이고, k(n)은 가중의 최대 경계이다. 상기 지수 i는 각각의 연속적인 항에 대해 1씩 증가하고, i=k(n)일 때 중단된다. 따라서, 길이 n인 반복물이 단지 한 타입만 있다면, 즉 길이 n인 모든 반복물이 동일한 서열을 갖는다면, 길이 n인 상기 반복물에 대해 k(n)은 1이고, 합계 대신에 상기 뉴클레오티드 서열(N_tot)의 전체 길이 내의 길이 n인 상기 반복물의 빈도 f₁(n)만이 분석된다.

예를 들면, 다음의 NRS-계산기 스크립트(script)가 NRS를 결정하기 위하여 본 발명에 따라 사용될 수 있다:

또한, 본 발명은 뉴클레오티드 반복물을 포함하는 뉴클레오티드 서열에 관한 것으로서, 상기 반복물은 최대 길이 n_max를 갖고, 상기 n_max는 하기 식에 따라 결정되며,

상기 N_tot는 상기 뉴클레오티드 서열의 전체 길이이다. 본 명세서에서 사용된 것과 같은 "최대 길이" 또는 "최대의 길이" 또는 "n_max"라는 용어는 상기 뉴클레오티드 서열 또는 핵산 분자 내에 적어도 2개의 카피가 존재하는 뉴클레오티드의 가장 긴 인접한 부분/스트레치/서열의 뉴클레오티드의 수를 정의한다. 달리 말하면, 본 명세서에서 사용된 것과 같은 "최대 길이" 또는 "최대의 길이" 또는 "n_max"라는 용어는 본 발명에 따른 핵산 분자의 뉴클레오티드 서열이 상기 길이보다 더 긴 반복물을 갖지 않음을 의미한다.

첨부된 실시예에서 본 발명의 예시적인 핵산 분자는 예컨대 14개 뉴클레오티드 길이의 단지 소수의 반복물만을 포함하는 것임을 보여준다; 예컨대, 첨부된 실시예 2 참조. 상기 나타낸 것과 같이, 상기 반복물 분석법은 수동으로 또는 예를 들면 비주얼 유전자 발생기(Jung (2011) loc. cit) 또는 렙파인드 수단(Betley (2002) loc. cit)을 이용하는 도트 플롯 분석법과 같은 일반적인 소프트웨어 프로그램의 도움으로 본 명세서에서 제공되는 NRS 분석법과 같은 임의의 적합한 수단으로 수행될 수 있다. 도트 플롯은 2개의 서열 사이의 유사성을 시각적으로 나타낸다.

첨부된 실시예에서, 본 명세서에서 제공되는 뉴클레오티드 서열은 스스로에 대해 정렬된다. 수직 배열의 각각의 축은 비교되는 2개의 (전체적으로 동일한) 뉴클레오티드 서열 중 하나를 나타낸다. 특정된 치환 매트릭스를 이용하여 제1 입력 서열로부터의 모든 위치는 제2 입력 서열로부터의 모든 위치와 비교 및 점수화된다. 이것은 점수의 매트릭스를 생성하며, 이로부터 유사성/동질성의 국소 영역(도트 플롯에서 사선에 대응함)이 확인된다. 사용자가 특정한 길이의 반복물 윈도우/역치는 모든 가능한 사선을 따라 이동된다. 상기 반복물 윈도우/역치에서의 각각의 위치는 상기 점수화 매트릭스로부터의 쌍별-비교(pair-wise) 점수에 대응한다. 전체 윈도우에 대한 점수는 그 내부의 개별 위치에 대한 점수의 합이다. 상기 윈도우 점수가 사용자가 정의한 역치 이상이면, 라인은 도트 플롯에서 상기 윈도우에 대응하여 플롯팅된다(예컨대, http://emboss.sourceforge.net/apps/cvs/emboss/apps/dotmatcher.html 참조).

상기 도트 플롯 분석법은 첨부된 실시예, 예컨대 실시예 3에 도입되어 핵산 분자의 뉴클레오티드 서열의 반복성을 분석한다. 여기서 본 발명의 핵산 분자, 예컨대 서열번호 36(본 명세서에서 PA#3b(200)으로 명명함) 또는 서열번호 28(본 명세서에서 PA#1b로 명명함)은 14의 반복물 윈도우/역치가 적용되는 경우에 600개 뉴클레오티드의 전체 길이 내에서 단지 소수의 산재된 14개 뉴클레오티드 반복물만을 갖는 것이 증명된다. 14의 반복물 윈도우/역치를 1개 뉴클레오티드 증가하면, 즉 15개 뉴클레오티드의 반복물 윈도우/역치는 분석된 전체 뉴클레오티드 서열 내에서 추가적인 반복물이 없음을 나타낸다(도 2 및 실시예 3 참조). 이것은 조사된 전체 핵산 서열 내에서 반복물의 최대 길이가 14개 뉴클레오티드의 길이를 가짐을 의미한다(더 짧은 반복물도 포함함). 일반적으로, 이러한 뉴클레오티드 반복물이 더 짧을수록 유전적 안정성에 대한 해로운 역할이 더 적을 것임을 추정할 수 있다.

그러나, 종래 기술에 개시되어 있는 프롤린/알라닌-풍부 서열을 암호화하는 핵산 분자는 예를 들면 첨부된 실시예에서 사용된 것과 같은 14 또는 15개 뉴클레오티드의 반복물 윈도우/역치가 도입되면 더 길거나 및/또는 더 반복되는 서열을 보인다(실시예 3 참조). 예를 들면, WO 2011/144756에 개시된 프롤린/알라닌-풍부 서열(서열번호 15; 본 명세서에서 PA#3a(200)으로 명명함)은 연이은 그리고 심지어 중첩하는 60개 길이의 다수의 뉴클레오티드 반복물을 갖고 있으며, 따라서 다수의 긴 평행선을 생성한다. 또한, 서열번호 12에 나타내고 WO 2008/155134에 개시된 것과 같은 PAS#1a(600) 및 서열번호 16에 나타내고 US2006/0252120에 개시된 것과 같은 [(AP)₅]_n 멀티머, 또는 서열번호 18에 나타내고 GenBank 기탁번호 AAP41454.1에 개시된 것과 같은 마카시네 헤르페스바이러스 1의 큰 피막 단백질과 같이 종래 기술에 개시된 핵산 분자들도 상기 뉴클레오티드 서열의 매우 반복적인 본성을 기록한다.

이는 뉴클레오티드 서열 레벨에서 낮은 반복성을 보여주는 본 발명의 핵산 분자와 극명하게 대조된다. 예를 들면, 14개 뉴클레오티드의 반복물 윈도우/역치를 이용하여 종래 기술 서열인 PA#3a(200)(서열번호 15)의 반복물의 수를 본 발명의 낮은 반복적인 뉴클레오티드 서열인 PA#3b(200)(서열번호 36)의 반복물의 수와 비교할 때, 종래 기술 서열의 100개 이상의 많은 반복물(600개 뉴클레오티드 잔기 당)과 비교하여 본 발명의 서열은 29개 반복물(600개 뉴클레오티드 잔기 당)을 가짐이 관찰될 수 있다. 15개 뉴클레오티드의 윈도우가 적용되면, 본 발명의 예시적으로 분석된 핵산 분자 또는 뉴클레오티드 서열은 어떠한 반복물도 포함하지 않는다. 이와 대조적으로, 종래 기술의 핵산 분자는 15개 뉴클레오티드 이상의 길이를 갖는 많은 반복물을 보여준다. 첨부된 실시예에서 입증된 것과 같이, 14 내지 20, 예컨대 14, 15, 16, 17, 18, 19 또는 20개 뉴클레오티드의 반복물 윈도우/역치가 특히 본 발명의 핵산 분자가 낮은 반복적인 뉴클레오티드 서열을 갖고 있음을 확인하는데 적합하다. 상기 반복물 윈도우/역치의 길이는 특정 뉴클레오티드 서열에서 확인되는 반복물의 수와 역의 상관관계가 있음이 인식된다. 예를 들면, 상기 반복물 윈도우/역치가 "1"이면, 반복물의 수는 뉴클레오티드 서열 내의 모든 뉴클레오티드 잔기(A, T, G 및/또는 C)의 수와 동일할 수 있다(분석된 서열에서 발생하는 각각의 뉴클레오티드 타입이 적어도 2 카피가 존재하는 경우). 상기 반복물 윈도우/역치의 길이가 증가하면, 분석된 뉴클레오티드 서열에서의 반복물의 수는 서열-특이적 방식으로 감소될 것이다. 결과적으로, 본 발명의 "낮은 반복적인" 뉴클레오티드 서열도 또한 반복물을 함유할 수 있다; 그러나, 분석을 위해 동일한 파라미터가 적용된다면 종래 기술 서열과 비교하여 이들은 더 짧고 더 적다.

따라서, 본 명세서에서 제공되는 핵산 분자(들)는 14, 15, 16, 17, 약 18, 약 19, 약 20, 약 21, 약 25, 약 30, 약 35, 약 40, 약 45, 약 50 또는 약 55개 뉴클레오티드의 최대 길이의 반복물을 포함한다. 또한, 본 명세서에서 제공되는 핵산 분자는 약 17개 뉴클레오티드의 최대 길이 내지 약 55개 뉴클레오티드의 최대 길이의 반복물을 포함한다. 반복물의 최대 길이의 문맥에서, "약"이란 용어는 최대 반복물 길이가 표시된 반복물 길이의 ±4 뉴클레오티드임을 의미한다. 달리 말하면, 상기 문맥에서, "약"은 반복물 길이가 표시된 반복물 길이보다 4개 뉴클레오티드 더 길거나 짧을 수 있는 범위를 나타낸다. 예를 들면, 약 55개 뉴클레오티드의 최대 반복물 길이는 51 내지 59개 뉴클레오티드의 최대 길이의 반복물을 포함하는 뉴클레오티드 서열을 나타낸다. 또한, 약 17개 뉴클레오티드의 최대 반복물 길이는 13 내지 21개 뉴클레오티드의 최대 길이의 반복물을 포함하는 뉴클레오티드 서열을 나타낸다.

또한, 본 발명은 59개 뉴클레오티드, 바람직하게는 54개 뉴클레오티드, 더욱 바람직하게는 50개 뉴클레오티드, 더욱 바람직하게는 48개 뉴클레오티드, 더욱 바람직하게는 40개 뉴클레오티드, 더욱 바람직하게는 36개 뉴클레오티드, 더욱 바람직하게는 35개 뉴클레오티드, 더욱 바람직하게는 30개 뉴클레오티드, 더욱 바람직하게는 25개 뉴클레오티드, 더욱 바람직하게는 24개 뉴클레오티드, 더욱 바람직하게는 21개 뉴클레오티드, 더욱 바람직하게는 20개 뉴클레오티드, 더욱 바람직하게는 19개 뉴클레오티드, 더욱 바람직하게는 18개 뉴클레오티드, 더욱 바람직하게는 16개 뉴클레오티드, 더욱 바람직하게는 15개 뉴클레오티드, 더욱 바람직하게는 14개 뉴클레오티드, 또는 가장 바람직하게는 17개 뉴클레오티드의 최대 길이의 반복물을 포함하는 핵산 분자에 관한 것이다.

본 명세서에서 사용된 것과 같이, 예를 들면, 17개 뉴클레오티드의 최대 길이의 반복물을 포함하는 핵산 분자는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16 또는 17개 뉴클레오티드의 길이를 갖는 반복 서열을 포함하는 핵산 분자에 관한 것이다. 마찬가지로, 14개 뉴클레오티드의 최대 길이의 반복물을 포함하는 핵산 분자는 14개 뉴클레오티드까지, 즉 "≤14개 뉴클레오티드" 또는 "1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13 또는 14개 뉴클레오티드"의 반복물을 포함하는 핵산 분자에 관한 것이다. 달리 말하면, 14개 뉴클레오티드의 최대 길이의 반복물을 포함하는 핵산 분자는 14개 뉴클레오티드보다 긴, 즉 ">14개 뉴클레오티드"의 반복물은 포함하지 않는다.

본 발명은 또한 낮은 반복적인 핵산 분자에 관한 것으로서, 낮은 반복성은 반복적 아미노산 서열을 암호화하는 더 긴 뉴클레오티드 서열 내에서 반복적으로 일어나는 뉴클레오티드 서열 스트레치가 상기 반복되는 아미노산 서열 스트레치를 암호화하는 뉴클레오티드 서열의 길이의 최대 0.05%, 바람직하게는 0.1%, 더욱 바람직하게는 0.5%, 더욱 바람직하게는 1%, 더욱 바람직하게는 2%, 더욱 바람직하게는 3%, 더욱 바람직하게는 4%, 더욱 바람직하게는 5%, 더욱 바람직하게는 6%, 더욱 바람직하게는 7%, 더욱 바람직하게는 8%, 더욱 바람직하게는 9%, 더욱 바람직하게는 10%, 더욱 바람직하게는 15%, 더욱 바람직하게는 20%, 더욱 바람직하게는 25%, 더욱 바람직하게는 30%, 더욱 바람직하게는 40%, 또는 가장 바람직하게는 50%에 해당함을 의미한다. 달리 말하면, 본 발명의 핵산은 반복물을 포함하며, 상기 반복물은 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드에서의 아미노산 서열 반복물을 암호화하는 상기 뉴클레오티드 서열의 길이의 0.05%, 바람직하게는 0.1%, 더욱 바람직하게는 0.5%, 더욱 바람직하게는 1%, 더욱 바람직하게는 2%, 더욱 바람직하게는 3%, 더욱 바람직하게는 4%, 더욱 바람직하게는 5%, 더욱 바람직하게는 6%, 더욱 바람직하게는 7%, 더욱 바람직하게는 8%, 더욱 바람직하게는 9%, 더욱 바람직하게는 10%, 더욱 바람직하게는 15%, 더욱 바람직하게는 20%, 더욱 바람직하게는 25%, 더욱 바람직하게는 30%, 더욱 바람직하게는 40%, 또는 가장 바람직하게는 50%에 해당하는 최대 길이를 갖는다.

본 발명은 PA-풍부 서열을 암호화하고 적어도 300개 뉴클레오티드(100개 아미노산 잔기에 해당함)를 갖는 신규하고 진보적인 뉴클레오티드 서열을 제공할 뿐만 아니라, 본 발명은 또한 재조합 및/또는 합성 핵산 분자에 대한 선별 수단 및 방법을 제공하여 유전적으로 안정한 서열을 유도하거나, 및/또는 편리한 클로닝, 서열분석 및/또는 증폭을 가능하게 하는 것이 자명하다. 상기 선별 방법은 본 명세서에서 제공되는 NRS 및/또는 본 명세서에서 개시된 최대 반복물 길이에 기반한다. 따라서, 본 발명은 유전적으로 안정한 핵산 분자의 선별 방법에 관한 것이며, 상기 핵산 분자는 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열을 포함하고, 상기 뉴클레오티드 서열은 적어도 300개 뉴클레오티드의 길이를 가지며, 상기 방법은 50,000 이하의 뉴클레오티드 반복물 점수(NRS)를 갖는 뉴클레오티드 서열을 포함하는 핵산 분자를 선별하는 단계를 포함하고, 상기 뉴클레오티드 반복물 점수(NRS)는 상기 본 명세서에서 제공되는 식에 따라 결정된다. 또한, 본 발명은 유전적으로 안정한 핵산 분자의 선별 방법에 관한 것이며, 상기 핵산 분자는 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열을 포함하고, 상기 방법은 n_max의 최대 길이를 갖는 반복물을 포함하는 상기 뉴클레오티드 서열을 선별하는 단계를 포함한다. 또한, 본 발명은 유전적으로 안정한 핵산 분자의 선별 방법에 관한 것이며, 상기 핵산 분자는 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열을 포함하고, 상기 방법은 약 17개 뉴클레오티드의 최대 길이 내지 약 55개 뉴클레오티드의 최대 길이의 반복물을 포함하는 상기 뉴클레오티드 서열을 선별하는 단계를 포함한다. PA-풍부 서열을 암호화하는 본 발명의 핵산의 문맥에서 상기에서 본 명세서에 제공되는 구현예 및 NRS 식의 파라미터 및 낮은 반복적인 뉴클레오티드 서열은 필요한 부분만 약간 수정하여 PA-풍부 서열을 암호화하는 유전적으로 안정한 핵산 분자뿐만 아니라 추가적인 구현예를 위해 본 명세서에서 제공되고 실증되는 선별 방법에 적용된다.

본 명세서에서, 놀랍게도 본 발명의 핵산 분자가 향상된 생체내 안정성을 갖고 있음이 발견 및 설명되었다. 첨부된 실증적인 실시예, 예컨대 실시예 6에 나타낸 것과 같이, 본 명세서에서 제공되는 핵산 분자는 보다 반복적인 뉴클레오티드 서열을 포함하는 핵산 분자보다 더 안정하다. 실시예 6은 뉴클레오티드 서열의 반복성이 상이한 프롤린, 알라닌 및 세린으로 이루어지는 폴리펩티드를 암호화하는 핵산 분자를 비교한다. 서열번호 50에 제공된 것과 같이 본 명세서에서 제공되는 낮은 반복적인 뉴클레오티드 서열을 포함하는 본 발명의 핵산 분자(또한 도 2b 참조)는 예컨대 종래 기술에서 제공된 서열번호 51과 같은 높은 반복적인 뉴클레오티드 서열과 비교하여 더 높은 유전적 안정성을 갖는다. 따라서, 본 명세서에서 사용된 것과 같은 "생체내 안정성"이란 용어는 상기 핵산이 숙주 세포 내에서 안정하게 유지되고, 상기 서열이 예컨대 돌연변이, 삽입 또는 결실에 의해 유전적으로 변형되지 않음을 의미한다. 본 명세서에서 사용된 것과 같이, 돌연변이는 예컨대 치환, 결실, 삽입 또는 연장에 의한 뉴클레오티드 서열에서의 변화를 나타낸다. 첨부된 실시예에서 매우 반복적인 뉴클레오티드 서열을 포함하는 핵산 분자는 결실되거나 짧아지기 쉬운 것으로 나타나 있다: 예큰대, 실시예 6 참조. 따라서, 매우 반복적인 뉴클레오티드 서열/반복적인 유전자 카세트를 포함하는 핵산 분자는 유전적 안정성이 떨어지며, 이는 예를 들면 세포 분열 동안의 재조합 사건으로부터 일어날 수 있다. 본 명세서에서 정의되는 파라미터 NRS 또는 n_max는 높은 수의 NRS 및/또는 n_max를 갖는 종래 기술로부터 유래되는 매우 반복적인 뉴클레오티드 서열로부터 낮은 수의 NRS 및/또는 n_max를 갖는 본 발명의 낮은 반복적인 뉴클레오티드 서열을 구별하기 위한 객관적인 수단을 제공한다.

본 명세서에서 제공되는 핵산 분자는 반복적인 아미노산 서열을 포함하는 폴리펩티드를 암호화한다. 특히, 상기 암호화된 반복적인 아미노산 서열은 또한 융합 단백질의 일부/절편일 수 있다. 예를 들면, 본 명세서에서 개시되는 핵산 분자는 프롤린/알라닌-풍부 반복물, 예컨대 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 반복물로 이루어지는 폴리펩티드를 암호화할 수 있다. 상기 프롤린/알라닌-풍부 폴리펩티드는 랜덤 코일을 형성할 수 있다. 소정 측면에서, 본 명세서에서 개시되는 핵산 분자는 프롤린, 알라닌 및 세린으로 이루어지는 폴리펩티드를 암호화하고, 상기 폴리펩티드는 랜던 코일을 형성한다. 소정 측면에서, 본 명세서에서 개시되는 핵산 분자는 프롤린 및 알라닌으로 이루어지는 폴리펩티드를 암호화하고, 상기 폴리펩티드는 랜덤 코일을 형성한다.

특히, 상기 뉴클레오티드 서열은 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화한다. 상기 암호화된 폴리펩티드는 랜덤 코일을 형성한다. 상기 뉴클레오티드 서열은 본 명세서에서 제공되는 핵산 분자에 포함된다. 따라서, 소정 측면에서, 본 명세서에서 개시되는 핵산 분자는 반복적인 아미노산 서열을 포함하고 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하며, 상기 폴리펩티드는 랜덤 코일을 형성한다. 소정 측면에서, 본 명세서에서 개시되는 핵산 분자는 반복적인 아미노산 서열을 포함하고 프롤린, 알라닌 및 세린으로 이루어지는 폴리펩티드를 암호화하며, 상기 폴리펩티드는 랜덤 코일을 형성한다. 소정 측면에서, 본 명세서에서 개시되는 핵산 분자는 반복적인 아미노산 서열을 포함하고 프롤린 및 알라닌으로 이루어지는 폴리펩티드를 암호화하며, 상기 폴리펩티드는 랜덤 코일을 형성한다.

본 명세서에서 사용된 것과 같이, "랜덤 코일"이란 용어는 아미노산 중합체를 포함하는 폴리펩티드 분자, 특히 L-아미노산으로 제조되는 폴리펩티드의 임의의 입체형태에 관한 것으로서, 상기 폴리머성 구조를 형성하는 개별 모노머성 성분은 본질적으로 근접한 모노머성 성분 또는 성분들을 향해 무작위로 배향되지만 여전히 화학적으로 결합되어 있다. 특히 "랜덤 코일 입체형태"를 취하고/갖고/형성하는 상기 암호화된 폴리펩티드, 또는 아미노산 폴리머는 실질적으로 정의된 2차 및 3차 구조가 없다. 상기 암호화된 폴리펩티드 랜덤 코일의 본성 및 이들의 실험적 확인 방법은 본 기술분야의 숙련된 기술자에게 알려져 있으며, 하기 과학 문헌들에 기재되어 있다: Cantor (1980) Biophysical Chemistry, 2nd ed., W.H. Freeman and Company, New York; Creighton (1993) 단백질 - Structures and Molecular Properties, 2nd ed., W.H. Freeman and Company, New York; Smith (1996) Fold. Des. 1:R95-R106; 및 특허 문헌, 예컨대 WO2011/144756 및 WO2008/155134.

본 발명의 상기 암호화된 랜덤 코일 폴리펩티드는, 예를 들면 수용액 중에서 및/또는 생리학적 조건에서 랜덤 코일 입체형태를 취한다/형성한다. "생리학적 조건"이란 용어는 본 기술분야에 알려져 있으며, 단백질이 대개 이들의 천연 폴딩된 입체형태를 취하는 조건에 관한 것이다. 보다 구체적으로 "생리학적 조건"이란 용어는 전형적으로 더 고등 형태의 생명, 특히 포유동물, 가장 바람직하게는 인간에서 유효한 환경적인 생물리학적 파라미터에 관한 것이다. "생리학적 조건"이란 용어는 이들이 포유동물, 특히 인간의 체내, 특히 체액에서 보통 발견되는 것과 같은 생화학적 및 생물리학적 파라미터에 관한 것일 수 있다. 상기 "생리학적 조건"은 건강한 신체에서 발견되는 해당 파라미터뿐만 아니라 질환 상태 또는 인간 환자에서 발견되는 파라미터에 관한 것일 수 있다. 예를 들면, 아픈 포유동물 또는 인간 환자는 상기 포유동물 또는 상기 인간이 열을 앓을 때 더 높지만 여전히 "생리학적" 체온(즉, 온도 조건)을 가질 수 있다. 단백질이 이들의 천연 입체형태/상태를 취하는 "생리학적 조건"과 관련하여, 가장 중요한 파라미터는 온도(건강한 인체의 경우 37℃), pH(인간 혈액의 경우 7.35-7.45), 삼투압(280-300 m㏖/㎏ H₂O), 그리고 필요한 경우, 일반적인 단백질 함량(66-85 g/혈청 ℓ)이다.

그러나, 본 기술분야의 숙련된 기술자는 생리학적 조건에서 이러한 파라미터가 변할 수 있다는 것, 예컨대 온도, pH, 삼투압 및 단백질 함량이 주어진 신체 또는 조직액, 예컨대 혈액, 뇌척수액, 복강액 및 림프에서 상이할 수 있음을 인지한다(Klinke (2005) Physiologie, 4th edition., Georg Thieme Verlag, Stuttgart). 예를 들면, 뇌척수액에서 삼투압은 290 m㏖/㎏ H₂O 근방일 수 있고, 단백질 농도는 0.15 g/ℓ 및 0.45 g/ℓ 사이일 수 있는 반면, 림프에서 pH는 7.4 근방일 수 있고, 단백질 함량은 3 g/ℓ 및 5 g/ℓ 사이일 수 있다. 암호화된 폴리펩티드/아미노산 서열이 실험적 조건 하에 랜덤 코일 입체형태를 형성/취하는지를 결정할 때, 생물리학적 파라미터, 예컨대 온도, pH, 삼투압 및 단백질 함량은 생체 내에서 보통 발견되는 생리학적 조건과 상이할 수 있다. 1℃ 및 42℃ 사이, 또는 바람직하게는 4℃ 내지 25℃의 온도는 시험관내 생리학적 조건 하에서 단백질의 생물리학적 특성 및 생물학적 활성을 테스트 및/또는 평가하는데 유용한 것으로 간주될 수 있다.

약학적 조성물을 위한 용매 및/또는 부형제를 포함할 수 있는 몇 가지 버퍼가 시험관내, 특히 예를 들면 CD 측정 또는 본 기술분야의 숙련된 기술자가 단백질/아미노산 서열의 구조적 특성을 결정하도록 하는 다른 방법의 문맥에서의 실험적 세팅에서 "생리학적 용액"/"생리학적 조건"을 나타내는 것으로 간주된다. 상기 버퍼의 예는, 예컨대 포스페이트-버퍼화된 식염수(PBS, 예컨대 115 mM NaCl, 4 mM H₂PO₄, 16 mM Na₂HPO₄ pH 7.4), 트리스 버퍼, 아세테이트 버퍼, 시트레이트 버퍼 또는 유사한 버퍼이다. 일반적으로, "생리학적 용액 조건"을 나타내는 버퍼의 pH는 6.5 내지 8.5의 범위, 바람직하게는 7.0 내지 8.0의 범위, 가장 바람직하게는 7.2 내지 7.7의 범위여야 하고, 삼투압은 10 내지 1,000 m㏖/㎏ H₂O 범위, 보다 바람직하게는 50 내지 500 m㏖/㎏ H₂O 범위 및 가장 바람직하게는 200 내지 350 m㏖/㎏ H₂O 범위여야 한다. 선택적으로, 생리학적 용액의 단백질 함량은, 스스로 랜덤 코일 입체형태를 취하는 상기 조사된 단백질을 무시하고, 0 내지 100 g/ℓ범위일 수 있다; 또한, 전형적인 안정화 단백질, 예를 들면 인간 또는 소 혈청 알부민이 존재할 수 있다.

본 발명의 핵산 분자에 의해 암호화되는 폴리펩티드는 생리학적 조건 하에서뿐만 아니라 보다 일반적으로 수용액 중에서 랜덤 코일 입체형태를 형성한다; 예컨대, WO2011/144756과 비교. "수용액"이란 용어는 본 기술분야에 잘 알려져 있다. "수용액"은 물(H₂O) 함량이 적어도 약 20%, 적어도 약 30%, 적어도 약 40%, 적어도 약 50%, 적어도 약 60%, 적어도 약 70%, 적어도 약 80% 또는 적어도 약 90% H₂O(중량/중량)인 용액일 수 있다. 따라서, 본 발명에서 제공되는 상기 암호화된 폴리펩티드는 더 넓은 범위의 온도, pH 값, 삼투압 또는 단백질 함량을 갖는, 가능하게는 다른 혼화성 용매를 함유하는 수용액 중에서 또는 수성 분산액 중에서 랜덤 코일 입체형태를 형성할 수 있다. 이는 특히 의학적 치료 또는 생체내 진단을 벗어난 랜덤 코일 폴리펩티드의 적용분야, 예를 들면 화장료, 영양 또는 식품 기술과 상관성이 있다.

본 발명의 문맥에서 상기 암호화된 폴리펩티드의 랜덤 코일 입체형태는 약학적 조성물, 예컨대 액체 약학적 제제/생물학적 제제 또는 동결건조된 약학적 조성물에서 유지되는 것이 또한 예측된다. 이는 특히, 상기 랜덤 코일 폴리펩티드를 포함하는 상기 암호화된 생물학적 활성 단백질 또는 약물 접합체의 문맥에서 중요하다. 바람직하게는, "생리학적 조건"은 해당 버퍼 시스템, 용매 및/또는 부형제에서 사용된다. 그러나, 예를 들면, 동결건조 또는 건조된 조성물(예컨대, 약학적 조성물/생물학적 제제)에서, 본 명세서에서 제공되는 암호화된 랜덤 코일 폴리펩티드의 랜덤 코일 입체형태가 일시적으로 존재하지 않을 수 있거나, 및/또는 검출될 수 없다는 것이 예측된다. 그러나, 상기 암호화된 랜덤 코일 폴리펩티드는 해당 버퍼/용액/부형제/용매에서 재구성 후 또는 신체에 투여된 후 그 랜덤 코일을 다시 취할/형성할 것이다.

본 발명의 소정 측면에서, 본 명세서에서 개시된 핵산 분자는 (주로 또는 전적으로) 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하고, 최대 9개의 연이은 아미노산 잔기가 동일하다. 이러한 암호화된 폴리펩티드는 랜덤 코일을 형성한다. 소정 측면에서, 랜덤 코일 입체형태를 취하는 상기 암호화된 아미노산 서열/폴리펩티드는 복수의 아미노산 반복물을 포함할 수 있고, 상기 "아미노산 반복물"은 주로 또는 전적으로 프롤린, 알라닌 및 선택적으로 세린 아미노산 잔기로 이루어지며, 최대 9개의 연이은 아미노산 잔기가 동일하다. 소정 측면에서, 랜덤 코일 입체형태를 취하는 상기 암호화된 아미노산 서열/폴리펩티드(본 명세서에서 정의된 것과 같은 랜덤 코일 폴리펩티드)는 복수의 아미노산 반복물을 포함할 수 있고, 상기 "아미노산 반복물"은 주로 또는 전적으로 프롤린, 알라닌 및 세린 아미노산 잔기로 이루어지며, 최대 9개의 연이은 아미노산 잔기가 동일하다. 소정 측면에서, 랜덤 코일 입체형태를 취하는 상기 암호화된 아미노산 서열/폴리펩티드는 복수의 아미노산 반복물을 포함할 수 있고, 상기 "아미노산 반복물"은 주로 또는 전적으로 프롤린 및 알라닌 아미노산 잔기로 이루어지며, 최대 9개의 연이은 아미노산 잔기가 동일하다.

바람직한 측면에서, 본 명세서에서 개시된 핵산 분자는 최대 8개의 연이은 아미노산 잔기가 동일한 복수의 아미노산 반복물을 갖는 반복적인 아미노산 서열을 포함하는 폴리펩티드를 암호화하고, 상기 폴리펩티드는 랜덤 코일을 형성한다. 바람직하게는, 본 명세서에서 개시된 핵산 분자는 최대 7개의 연이은 아미노산 잔기가 동일한 복수의 아미노산 반복물을 갖는 반복적인 아미노산 서열을 포함하는 폴리펩티드를 암호화하고, 상기 폴리펩티드는 랜덤 코일을 형성한다. 보다 바람직하게는, 본 명세서에서 개시된 핵산 분자는 최대 6개의 연이은 아미노산 잔기가 동일한 복수의 아미노산 반복물을 갖는 반복적인 아미노산 서열을 포함하는 폴리펩티드를 암호화하고, 상기 폴리펩티드는 랜덤 코일을 형성한다. 특히 바람직하게는, 본 명세서에서 개시된 핵산 분자는 최대 5개의 연이은 아미노산 잔기가 동일한 복수의 아미노산 반복물을 갖는 반복적인 아미노산 서열을 포함하는 폴리펩티드를 암호화하고, 상기 폴리펩티드는 랜덤 코일을 형성한다. 특히 더 바람직하게는, 본 명세서에서 개시된 핵산 분자는 최대 4개의 연이은 아미노산 잔기가 동일한 복수의 아미노산 반복물을 갖는 반복적인 아미노산 서열을 포함하는 폴리펩티드를 암호화하고, 상기 폴리펩티드는 랜덤 코일을 형성한다. 가장 바람직하게는, 본 명세서에서 개시된 핵산 분자는 최대 3개의 연이은 아미노산 잔기가 동일한 복수의 아미노산 반복물을 갖는 반복적인 아미노산 서열을 포함하는 폴리펩티드를 암호화하고, 상기 폴리펩티드는 랜덤 코일을 형성한다.

전적으로 프롤린, 알라닌 및 세린 잔기로 이루어지는 아미노산 반복물의 비제한적 예는 본 명세에서 아래에 제공된다; 예컨대, 서열번호 6 참조. 전적으로 프롤린 및 알라닌 잔기로 이루어지는 암호화된 아미노산 반복물의 비제한적 예는 본 명세서에서 아래에 제공된다; 예컨대, 서열번호 8 참조. 상기 암호화된 폴리펩티드는 동일한 서열 또는 상이한 서열의 다수의 카피를 포함할 수 있다.

본 명세서에서 개시된 핵산 분자는 주로 또는 전적으로 프롤린(Pro, P), 알라닌(Ala, A) 및 선택적으로 세린(Ser, S)의 3가지 아미노산 잔기로 이루어지는 폴리펩티드를 암호화한다. 본 명세서에서 사용된 것과 같은 "선택적으로"란 용어는 본 발명의 암호화된 폴리펩티드가 주로 또는 전적으로 프롤린, 알라닌 및 세린으로 이루어지거나 주로 또는 전적으로 프롤린 및 알라닌으로 이루어짐을 의미한다. 주로 또는 전적으로 프롤린, 알라닌 및 세린의 3가지 아미노산 잔기로 이루어지는 상기 암호화된 폴리펩티드는 본 명세서에서 "PAS" 폴리펩티드로 나타낸다. 주로 또는 전적으로 프롤린 및 알라닌의 2가지 아미노산 잔기로 이루어지는 상기 암호화된 폴리펩티드는 본 명세서에서 "PA" 폴리펩티드로 나타낸다. 프롤린 및 알라닌으로 이루어지는 암호화된 폴리펩티드의 비제한적 예는 서열번호 8에 제공된다. 프롤린, 알라닌 및 세린으로 이루어지는 암호화된 폴리펩티드의 비제한적 예는 서열번호 6에 제공된다. 본 명세서에서 사용된 것과 같은 "주로"라는 용어는 바람직하게는 적어도 약 90% 또는 적어도 약 95%의 상기 암호화된 아미노산이 프롤린, 알라닌 및 선택적으로 세린이고, 프롤린, 알라닌 및 세린이 합쳐서 대다수를 구성하지만 유일한 아미노산 잔기는 아닐 수 있음을 의미한다; 따라서, 상기 암호화된 아미노산 서열은 반드시 100% 프롤린, 알라닌 및 선택적으로 세린인 것은 아니다. 따라서, 본 상기 암호화된 폴리펩티드/아미노산 서열은 또한 상기 아미노산 서열이 랜덤 코일 입체형태를 형성하고/취하고/갖는 한 프롤린, 알라닌 및 선택적으로 세린 이외의 다른 아미노산을 소량 성분으로 포함할 수 있다. 이러한 랜덤 코일 입체형태는 본 명세서에서 개시된 수단 및 방법에 의해 용이하게 결정될 수 있다. 따라서, 본 발명은 한 구현예에서 랜덤 코일 폴리펩티드를 암호화하는 핵산 분자에 관한 것이며, 여기서 아미노산 서열은 주로 프롤린, 알라닌 및 선택적으로 세린으로 이루어진다.

상기 암호화된 폴리펩티드가 프롤린 및 알라닌으로 이루어지는 경우, 상기 프롤린 잔기는 상기 암호화된 아미노산 서열의 약 10% 이상 및 약 75% 이하를 구성한다. 따라서, 상기 암호화된 랜덤 코일 폴리펩티드는 주로 프롤린 및 알라닌으로 이루어지며, 상기 프롤린 잔기는 상기 아미노산 서열의 약 10% 이상 및 75% 이하를 구성한다. 상기 알라닌 잔기는 상기 아미노산 서열의 남아있는 적어도 25% 내지 90%를 포함한다.

바람직하게는, 상기 암호화된 아미노산 서열은 약 10% 이상, 바람직하게는 약 12% 이상, 더욱 바람직하게는 약 14%, 18%, 20% 이상, 더욱 바람직하게는 약 22%, 23%, 24%, 또는 25% 이상, 더욱 바람직하게는 약 27%, 29%, 또는 30% 이상, 더욱 바람직하게는 약 32%, 33%, 또는 34% 이상 및 가장 바람직하게는 약 35% 이상의 프롤린 잔기를 포함한다. 상기 아미노산 서열은 바람직하게는 약 75% 이하, 더욱 바람직하게는 70% 이하, 더욱 바람직하게는 65% 이하, 더욱 바람직하게는 60% 이하, 더욱 바람직하게는 55% 이하, 더욱 바람직하게는 50% 이하의 프롤린 잔기를 포함하고, 더 낮은 값이 바람직하다. 보다 더 바람직하게는, 상기 아미노산 서열은 약 48%, 46%, 44%, 42% 이하의 프롤린 잔기를 포함한다. 약 41%, 40%, 39% 38%, 37% 또는 36% 이하의 프롤린 잔기를 포함하는 아미노산 서열이 더욱 바람직하며, 더 낮은 값이 바람직하다. 약 34%, 32%, 또는 30% 이하를 포함하는 아미노산 서열이 더욱 바람직하다. 약 28%, 26% 또는 25% 이하를 포함하는 아미노산 서열이 더욱 바람직하다. 가장 바람직하게는, 상기 아미노산 서열은 약 35% 이하의 프롤린 잔기를 포함한다.

반대로, 상기 아미노산 서열은 바람직하게는 약 90% 이하, 보다 바람직하게는 88%, 86%, 84%, 82% 또는 80% 이하의 알라닌 잔기를 포함하며, 더 낮은 값이 바람직하다. 더욱 바람직하게는, 상기 아미노산 서열은 약 79%, 78%, 77%, 76% 이하의 알라닌 잔기를 포함하며, 더 낮은 값이 바람직하다. 더욱 바람직하게는, 상기 아미노산 서열은 약 74%, 72%, 또는 70% 이하의 알라닌 잔기를 포함하며, 더 낮은 값이 바람직하다. 더욱 바람직하게는, 상기 아미노산 서열은 약 69%, 67%, 또는 65% 이하의 알라닌 잔기를 포함하며, 더 낮은 값이 바람직하다. 가장 바람직하게는, 상기 아미노산 서열은 약 75% 이하의 알라닌 잔기를 포함한다. 약 25% 이상, 바람직하게는 약 30% 이상, 더욱 바람직하게는 약 35% 이상, 더욱 바람직하게는 약 40% 이상, 더욱 바람직하게는 약 45% 이상, 더욱 바람직하게는 약 50% 이상, 더욱 바람직하게는 약 52%, 54%, 56%, 58% 또는 59% 이상의 알라닌 잔기를 포함하는 아미노산 서열이 본 명세서에서 또한 바람직하며, 더 높은 값이 바람직하다. 보다 더 바람직하게는, 상기 아미노산 서열은 약 60%, 61%, 62%, 63% 또는 64% 이상의 알라닌 잔기를 포함한다. 가장 바람직하게는, 상기 아미노산 서열은 약 66%, 67%, 69%, 또는 70% 이사의 알라닌 잔기를 포함한다. 더욱 바람직하게는, 상기 아미노산 서열은 약 72%, 74%, 또는 75% 이상의 알라닌 잔기를 포함한다. 가장 바람직하게는, 상기 아미노산 서열은 약 65% 이상의 알라닌 잔기를 포함한다.

따라서, 상기 랜덤 코일 폴리펩티드는 각각 약 25% 또는 30%의 프롤린 잔기, 및 약 75% 또는 70%의 알라닌 잔기로 이루어지는 아미노산 서열을 포함할 수 있다. 대안적으로, 상기 랜덤 코일 폴리펩티드는 약 35%의 프롤린 잔기 및 약 65%의 알라닌 잔기로 이루어지는 아미노산 서열을 포함할 수 있다. 본 명세서에서 사용된 것과 같은 "약 X%"라는 용어는 정확한 수의 백분율에 제한되는 것은 아니며, 10% 내지 20% 더 많거나 10% 내지 20% 더 적은 잔기의 값을 또한 포함한다. 예를 들면, 10%라는 용어는 각각 11% 또는 12% 및 9% 또는 8%에 관한 것일 수도 있다.

상기 암호화된 폴리펩티드가 프롤린, 알라닌 및 세린으로 이루어지는 경우, 상기 프롤린 잔기는 상기 암호화된 아미노산 서열의 약 4% 이상 및 약 40% 이하를 구성한다. 상기 알라닌 및 세린 잔기는 상기 아미노산 서열의 남아있는 양을 구성한다.

바람직하게는, 상기 암호화된 아미노산 서열은 약 4% 이상, 바람직하게는 약 6% 이상, 더욱 바람직하게는 약 10% 이상, 더욱 바람직하게는 약 15% 이상, 더욱 바람직하게는 약 20% 이상, 더욱 바람직하게는 약 22%, 23% 또는 24% 이상, 더욱 바람직하게는 약 26%, 29%, 또는 30% 이상, 더욱 바람직하게는 약 31%, 32%, 33%, 34% 또는 35% 이상 및 가장 바람직하게는 약 25% 이상의 프롤린 잔기를 포함한다. 상기 암호화된 아미노산 서열은 바람직하게는 약 40% 이하, 더욱 바람직하게는 38%, 35%, 30%, 26% 이하의 프롤린 잔기를 포함하며, 더 낮은 값이 바람직하다.

상기 암호화된 아미노산 서열은 바람직하게는 약 95% 이하, 더욱 바람직하게는 90%, 86%, 84%, 82% 또는 80% 이하의 알라닌 잔기를 포함하며, 더 낮은 값이 바람직하다. 더욱 바람직하게는, 상기 암호화된 아미노산 서열은 약 79%, 78%, 77%, 76% 이하의 알라닌 잔기를 포함하며, 더 낮은 값이 바람직하다. 더욱 바람직하게는, 상기 암호화된 아미노산 서열은 약 75%, 73%, 71%, 또는 70% 이하의 알라닌 잔기를 포함하며, 더 낮은 값이 바람직하다. 더욱 바람직하게는, 상기 암호화된 아미노산 서열은 약 69%, 67%, 66%, 또는 65% 이하의 알라닌 잔기를 포함하며, 더 낮은 값이 바람직하다. 더욱 바람직하게는, 상기 암호화된 아미노산 서열은 약 64%, 63%, 62%, 또는 60% 이하의 알라닌 잔기를 포함하며, 더 낮은 값이 바람직하다. 더욱 바람직하게는, 상기 암호화된 아미노산 서열은 약 59%, 57%, 56%, 또는 55% 이하의 알라닌 잔기를 포함하며, 더 낮은 값이 바람직하다. 더욱 바람직하게는, 상기 암호화된 아미노산 서열은 약 54%, 53%, 또는 51% 이하의 알라닌 잔기를 포함하며, 더 낮은 값이 바람직하다. 가장 바람직하게는, 상기 암호화된 아미노산 서열은 약 50% 이하의 알라닌 잔기를 포함한다.

약 10% 이상, 바람직하게는 약 15%, 17%, 19%, 또는 20% 이상, 더욱 바람직하게는 약 22%, 24%, 또는 25% 이상, 더욱 바람직하게는 약 27%, 29%, 또는 30% 이상, 더욱 바람직하게는 약 32%, 34% 또는 35% 이상, 더욱 바람직하게는 약 37%, 39%, 또는 40% 이상, 더욱 바람직하게는 약 42%, 44% 또는 45% 이상, 더욱 바람직하게는 약 46%, 47% 또는 49% 이상의 알라닌 잔기를 포함하는 암호화된 아미노산 서열이 또한 본 명세서에서 바람직하며, 더 높은 값이 바람직하다. 보다 바람직하게는, 상기 암호화된 아미노산 서열은 약 50개 이상의 알라닌 잔기를 포함한다. 전술한 것과 같이, 상기 세린 잔기는 상기 아미노산 서열의 남아있는 양을 포함한다.

따라서, 상기 암호화된 랜덤 코일 폴리펩티드는 약 35% 프롤린 잔기, 약 50% 알라닌 및 15% 세린 잔기로 이루어지는 아미노산 서열을 포함할 수 있다. 시적인 뉴클레오티드 서열 및 그의 암호화된 폴리펩티드는 표 1에서 발견될 수 있다. 본 명세서에서 사용된 것과 같은 "약 X%"라는 용어는 정확한 수의 백분율에 제한되는 것은 아니며, 10% 내지 20% 더 많거나 10% 내지 20% 더 적은 잔기의 값을 또한 포함한다. 예를 들면, 10%라는 용어는 각각 11% 또는 12% 및 9% 및 8%에 관한 것일 수도 있다.

그러나, 상기에서 그리고 아래에서 본 명세서에서 더 상세히 나타낸 것과 같이, 상기 암호화된 랜덤 코일 폴리펩티드, 및 특히 아미노산 서열은 소량 성분으로 프롤린, 알라닌 및 선택적으로 세린과 상이한 추가적인 아미노산을 또한 포함할 수 있다. 본 명세서에서 상기에 이미 논의된 것과 같이, 상기 소량 성분(들), 즉 프롤린, 알라닌 또는 선택적인 세린과 상이한 아미노산(들)은 본 발명의 상기 암호화된 랜덤 코일 폴리펩티드의 약 10% 이하, 또는 약 5% 이하를 포함할 수 있다.

본 기술분야의 숙련된 기술자는 상기 암호화된 아미노산 서열/폴리펩티드는 프롤린, 알라닌 및 선택적으로 세린 이외의 다른 잔기가 상기 아미노산 서열/폴리펩티드(폴리펩티드 절편)에서 소량 성분으로 포함될 때에도 랜덤 코일 입체형태를 형성할 수 있음을 인지한다. 본 명세서에서 사용되는 것과 같은 "소량 성분"이란 용어는 최대 5% 또는 최대 10%의 아미노산 잔기가 본 발명의 상기 암호화된 랜덤 코일 폴리펩티드에서 프롤린, 알라닌 또는 세린과 상이하다는 것을 의미한다. 이는 상기 랜덤 코일 폴리펩티드에 포함된 100개의 아미노산 중 최대 10개가 프롤린, 알라닌 및 선택적으로 세린과 상이할 수 있고, 바람직하게는 최대 8%, 즉 100개의 아미노산 중 최대 8개가 프롤린, 알라닌 및 선택적으로 세린과 상이할 수 있으며, 보다 바람직하게는 최대 6%, 즉 100개의 아미노산 중 최대 6개가 프롤린, 알라닌 및 세린과 상이할 수 있고, 보다 더 바람직하게는 최대 5%, 즉 100개의 아미노산 중 최대 5개가 프롤린, 알라닌 및 선택적으로 세린과 상이할 수 있으며, 특히 바람직하게는 최대 4%, 즉 100개의 아미노산 중 최대 4개가 프롤린, 알라닌 및 선택적으로 세린과 상이할 수 있고, 특히 더 바람직하게는 최대 3%, 즉 100개의 아미노산 중 최대 3개가 프롤린, 알라닌 및 세린과 상이할 수 있으며, 특히 보다 더 바람직하게는 최대 2%, 즉 100개의 아미노산 중 최대 2개가 프롤린, 알라닌 및 선택적으로 세린과 상이할 수 있고, 가장 바람직하게는 최대 1%, 즉 100개의 아미노산 중 최대 1개가 프롤린, 알라닌 및 선택적으로 세린과 상이할 수 있음을 의미한다. 프롤린, 알라닌 및 선택적으로 세린과 상이한 상기 아미노산은 번역 후 변형된 아미노산 또는 비-천연 아미노산을 포함하여, Arg, Asn, Asp, Cys, Gln, Glu, Gly, His, Ile, Leu, Lys, Met, Phe, Thr, Trp, Tyr, 및 Val으로 이루어진 군으로부터 선택될 수 있다(예컨대, Budisa (2004) Angew Chem Int Ed Engl 43:6426-6463; Young (2010) J Biol Chem 285:11039-11044; Liu (2010) Annu Rev Biochem 79:413-444; Wagner (1983) AngewChem Int Ed Engl 22:816-828; Walsh (2010) Drug Discov Today 15: 773-780 참조). 소정 경우에, PA-풍부 서열은 또한 소량 성분으로서 Ser을 포함할 수 있다. 예를 들면, 상기 암호화된 랜덤 코일 폴리펩티드가 프롤린 및 알라닌으로 이루어지는 경우, 세린은 또한 소량 성분으로 간주될 수 있다.

일반적으로, 본 명세서에서 상기 "소량의" 아미노산(프롤린, 알라닌 및 선택적으로 세린 이외의 아미노산)은 본 명세서에서 개시된 것과 같은 상기 암호화된 랜덤 코일 폴리펩티드 또는 융합 단백질의 일부/절편으로서 상기 암호화된 랜덤 코일 폴리펩티드에 존재하지 않는 것이 바람직하다. 본 발명에 따르면, 상기 암호화된 랜덤 코일 폴리펩티드/아미노산 서열은 특히 프롤린, 알라닌 및 선택적으로 세린 잔기로만 전적으로 이루어질 수 있다(즉, 다른 어떠한 아미노산 잔기도 상기 암호화된 랜덤 코일 폴리펩티드 또는 상기 아미노산 서열에 존재하지 않는다).

본 발명의 문맥에서, 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 핵산 분자 또는 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열은 적어도 300개 뉴클레오티드로 이루어질 수 있다. 그러나, 본 명세서에서 제공되는 뉴클레오티드 서열의 길이는 상기 암호화된 뉴클레오티드가 랜덤 코일을 형성하는 한 제한되지 않음이 본 기술분야의 숙련된 기술자에게 자명하다. 첨부된 실시예는 낮은 반복적인 뉴클레오티드 서열을 포함하는 본 명세서에서 제공되는 핵산 분자가 놀랍게도 그 길이와 무관하게 합성될 수 있음을 기록한다. 예를 들면, 약 600개 뉴클레오티드의 길이를 갖는 뉴클레오티드 서열이 합성될 수 있음이 본 명세서에서 증명된다. 이러한 뉴클레오티드 서열은 훨씬 더 긴 뉴클레오티드 서열을 조립하기 위해 도입될 수 있다. 달리 말하면, 상기 뉴클레오티드 서열은 본 발명의 핵산 분자 내에 포괄되는 더 긴 뉴클레오티드 서열을 조합/조립하기 위한 유닛/모듈/빌딩 블록으로서 도입될 수 있다. 한 구현예에서, 단일 뉴클레오티드 서열 유닛/모듈/빌딩 블록이 또한 본 발명의 핵산 분자에 해당한다.

본 발명에 따르면, 동일하거나 동일하지 않은 뉴클레오티드 서열 유닛/모듈/빌딩 블록은 조립된 뉴클레오티드 서열이 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 한 서로 조합될 수 있다. 또한, 본 발며에 따르면, 동일하거나 동일하지 않은 뉴클레오티드 서열 유닛/모듈/빌딩 블록은 반복적인 아미노산 서열을 갖는 폴리펩티드를 암호화하는 조립된 뉴클레오티드 서열이 랜덤 코일을 형성하는 한 서로 조합될 수 있다. 전술한 것과 같이, 상기 유닛/모듈/빌딩 블록에 의해 낮은 반복적인 뉴클레오티드 서열을 포함하는 본 명세서에서 제공되는 핵산 분자를 조립하는 것이 특히 유리하다. 적어도 2,400개 뉴클레오티드의 길이를 갖는 긴 뉴클레오티드 서열이 조립될 수 있음이 하기 본 명세서에서 기록된다. 본 발명의 뉴클레오티드 서열은 서로 조합되거나, 부가적인 동일하지 않은 뉴클레오티드 서열과 조합될 수 있다. 따라서, 본 명세서에서 제공되는 핵산 서열은 동일하거나 동일하지 않은 뉴클레오티드 서열과 조립될 수 있고, 상기 뉴클레오티드 서열은 낮은 반복적인 뉴클레오티드 서열이다. 소정 측면에서, 본 명세서에서 제공되는 핵산 분자는 서열번호 19, 서열번호 20, 서열번호 21, 서열번호 22, 서열번호 23, 서열번호 24, 서열번호 25, 서열번호 26, 서열번호 27, 서열번호 28, 서열번호 29, 서열번호 30, 서열번호 31, 서열번호 32, 서열번호 33, 서열번호 34, 서열번호 35, 서열번호 36, 서열번호37, 서열번호 87, 서열번호 88, 서열번호 89, 서열번호 90, 서열번호 91, 서열번호 92, 서열번호 93, 서열번호 94, 서열번호 95, 서열번호 96, 서열번호 97, 서열번호 98, 서열번호 99, 서열번호 100, 서열번호 101, 서열번호 102, 서열번호 103, 서열번호 104, 서열번호 105, 서열번호 106, 서열번호 107, 서열번호 108, 서열번호 109, 서열번호 110, 서열번호 111, 서열번호 112, 서열번호 113, 서열번호 114, 서열번호 115, 서열번호 116, 서열번호 117, 서열번호 118, 서열번호 119, 서열번호 120, 서열번호 121, 서열번호 122, 서열번호 123, 서열번호 124, 서열번호 125, 서열번호 126, 서열번호 127, 서열번호 128, 서열번호 129, 서열번호 130, 서열번호 131, 서열번호 132, 서열번호 133, 서열번호 134, 서열번호 135, 서열번호 136, 서열번호 137, 서열번호 138, 서열번호 139, 서열번호 140, 서열번호 141, 서열번호 142, 서열번호 143, 서열번호 144, 서열번호 145, 서열번호 146, 서열번호 147, 서열번호 148, 서열번호 149, 서열번호 150, 서열번호 151, 서열번호 152, 서열번호 192, 서열번호 193, 서열번호 194 및 서열번호 195로 이루어진 군으로부터 선택되는 적어도 하나의 뉴클레오티드 서열을 포함한다. 상기 예시적인 뉴클레오티드 서열은 더 긴 뉴클레오티드 서열을 조립하기 위해 도입될 수 있으므로, 상기 뉴클레오티드 서열은 유닛 또는 모듈 또는 빌딩 블록으로 명명될 수 있다. 따라서, 본 명세서에서 본 발명의 핵산 분자는 더 긴 뉴클레오티드 서열로 조립되는 복수의 상기 뉴클레오티드 모듈 또는 뉴클레오티드 서열을 포함할 수 있음이 이해되며, 상기 더 긴 뉴클레오티드 서열 자체는 본 명세서에서 상기에 개시된 것과 같은 낮은 반복적인 뉴클레오티드 서열이다. 본 기술분야의 숙련된 기술자는 본 발명의 핵산 분자가 또한 해당 뉴클레오티드 서열 모듈의 절편을 포함할 수 있음을 이해한다. 달리 말하면, 본 명세서에서 제공되는 핵산 분자는 서열번호 19, 서열번호 20, 서열번호 21, 서열번호 22, 서열번호 23, 서열번호 24, 서열번호 25, 서열번호 26, 서열번호 27, 서열번호 28, 서열번호 29, 서열번호 30, 서열번호 31, 서열번호 32, 서열번호 33, 서열번호 34, 서열번호 35, 서열번호 36, 서열번호 37, 서열번호 87, 서열번호 88, 서열번호 89, 서열번호 90, 서열번호 91, 서열번호 92, 서열번호 93, 서열번호 94, 서열번호 95, 서열번호 96, 서열번호 97, 서열번호 98, 서열번호 99, 서열번호 100, 서열번호 101, 서열번호 102, 서열번호 103, 서열번호 104, 서열번호 105, 서열번호 106, 서열번호 107, 서열번호 108, 서열번호 109, 서열번호 110, 서열번호 111, 서열번호 112, 서열번호 113, 서열번호 114, 서열번호 115, 서열번호 116, 서열번호 117, 서열번호 118, 서열번호 119, 서열번호 120, 서열번호 121, 서열번호 122, 서열번호 123, 서열번호 124, 서열번호 125, 서열번호 126, 서열번호 127, 서열번호 128, 서열번호 129, 서열번호 130, 서열번호 131, 서열번호 132, 서열번호 133, 서열번호 134, 서열번호 135, 서열번호 136, 서열번호 137, 서열번호 138, 서열번호 139, 서열번호 140, 서열번호 141, 서열번호 142, 서열번호 143, 서열번호 144, 서열번호 145, 서열번호 146, 서열번호 147, 서열번호 148, 서열번호 149, 서열번호 150, 서열번호 151, 서열번호 152, 서열번호 192, 서열번호 193, 서열번호 194 및 서열번호 195로 이루어진 군으로부터 선택되는 적어도 하나의 뉴클레오티드 서열 또는 그의 절편이거나 이를 포함한다.

본 명세서에서 제공되는 낮은 반복적인 뉴클레오티드 서열 또는 유닛 또는 모듈 또는 빌딩 블록은 조립된 뉴클레오티드 서열이 본 발명에 따른 낮은 반복적인 뉴클레오티드 서열을 포함하는 한 임의의 조합으로 서로 순열되거나 조합될 수 있음이 본 명세서에서 이해된다. 예시적인 조립된 뉴클레오티드 서열은 본 명세서에서, 예컨대 서열번호 38 또는 본 명세서에서 PAS#1f/1c/1b(600)로 나타낸 서열, 서열번호 39 또는 본 명세서에서 PAS#1d/1f/1c/1b(800)로 나타낸 서열, 서열번호 40 또는 본 명세서에서 PAS#1h/1e/1i(600)로 나타낸 서열, 서열번호 41 또는 본 명세서에서 PAS#1j/1h/1e/1i(800)로 나타낸 서열, 서열번호 42 또는 본 명세서에서 PA#1d/1c/1b(600)로 나타낸 서열, 서열번호 43 또는 본 명세서에서 PA#1i/1h/1g/1f(800)로 나타낸 서열, 서열번호 44 또는 본 명세서에서 PA#1e/1d/1c/1b(800)로 나타낸 서열, 서열번호 45 또는 본 명세서에서 PA#1i/1h/1g/1f/1e/1d/1c/1b(1600)로 나타낸 서열, 서열번호 153, 서열번호 154, 서열번호 155, 서열번호 156, 서열번호 157, 서열번호 158, 서열번호 159, 서열번호 160, 서열번호 161, 서열번호 162, 서열번호 163, 서열번호 164, 서열번호 165, 서열번호 166, 서열번호 167, 서열번호 168, 서열번호 169, 서열번호 170, 서열번호 171, 서열번호 172, 서열번호 173; 서열번호 174, 서열번호 175, 서열번호 176, 서열번호 177, 서열번호 178, 서열번호 179, 서열번호 180, 서열번호 181, 서열번호 182, 서열번호 184, 서열번호 185, 서열번호 186, 서열번호 187, 서열번호 188, 서열번호 189, 서열번호 190 및/또는 서열번호 191과 같이 아래에 제공된다.

따라서, 본 명세서에서 제공되는 핵산 분자는 본 발명의 바람직한 측면에서 상기 조립된 뉴클레오티드 서열이거나, 이를 갖거나, 이를 포함한다.

첨부된 실시예(실시예 1 참조)에 기록된 것과 같이, 본 발명에 따른 긴 뉴클레오티드 서열은 단계적 방식으로 조립될 수 있다. 상기 조립된 뉴클레오티드 서열은 낮은 반복성을 유지한다. 첨부된 실시예에서 2,400개 뉴클레오티드를 포함하고 800개 아미노산을 암호화하는 서열번호 39로 제공되거나 본 명세서에서 PAS#1d/1f/1c/1b(800)으로 나타낸 예시적인 뉴클레오티드 서열이 어떻게 조립되는지를 보여준다.

본 명세서에서 상기 조립된 뉴클레오티드 서열은 낮은 반복적인 뉴클레오티드 서열임이 이해된다. 예를 들면, 첨부된 실시예는 서열번호 39로 제공되거나 본 명세서에서 PAS#1d/1f/1c/1b(800)로 나타낸 서열인 예시적인 뉴클레오티드 서열이 2,400개 뉴클레오티드의 전체 뉴클레오티드 서열 내에서 15의 반복물 윈도우의 경우에 반복물이 없거나, 단지 하나의 단일한 14개 뉴클레오티드 반복물이 있음을 기록한다; 도 2b 참조. 비교를 위하여, 종래 기술에서 개시된 것과 같은 긴 뉴클레오티드 서열은 본 명세서에서 서열번호 12로 제공되는 PAS#1a(600)의 경우에 예시적으로 나타낸 것과 같은 반복적인 뉴클레오티드 서열을 포함한다. 따라서, 본 발명에 따른 긴 핵산 분자는 낮은 반복적인 뉴클레오티드 서열을 갖고, 따라서 전술한 것과 같은 반복된 뉴클레오티드 스트레치와 연관된 기술적 도전과제를 극복한다.

핵산 분자 및 관련 핵산 분자(예컨대, 본 명세서에서 제공 및 정의된 것과 같은 프롤린 및 알라닌으로 이루어지는 폴리펩티드를 암호화하는 특정 뉴클레오티드 서열과 적어도 66%, 예컨대 적어도 66.6% 동일성을 갖는 변이체, 절편, 핵산 분자; 또는 프롤린, 알라닌 및 세린으로 이루어지는 폴리펩티드를 암호화하는 특정 뉴클레오티드 서열과 적어도 56%, 예컨대 적어도 56.6% 동일성을 갖는 변이체, 절편, 핵산 분자 등)는 생체내/시험관내 안정성을 증가시키는 랜덤 코일 입체형태를 형성하는 폴리펩티드를 암호화하는 낮은 반복적인 핵산 서열이거나 이를 포함한다.

핵산 분자 및 관련 핵산 분자는 랜덤 코일 입체형태를 형성하고 생물학적 또는 약리학적 활성 단백질 또는 약물의 생체내/시험관내 안정성을 증가시키는 폴리펩티드를 암호화하는 낮은 반복적인 뉴클레오티드 서열이건, 이를 갖거나, 이를 포함한다. 상기 관련 핵산 분자는 상기 핵산 분자의 변이체 및 절편이거나 이를 포함한다. 상기 관련 핵산 분자는 본 명세서에서 제공 및 정의된 것과 같은 프롤린 및 알라닌으로 이루어지는 폴리펩티드를 암호화하는 특정 뉴클레오티드 서열과 적어도 66%, 예컨대 적어도 66.6% 동일성을 갖거나, 프롤린, 알라닌 및 세린으로 이루어지는 폴리펩티드를 암호화하는 특정 뉴클레오티드 서열과 적어도 56%, 예컨대 적어도 56.6% 동일성, 등을 갖는다.

소정 측면에서, 프롤린 및 알라닌으로 이루어지는 폴리펩티드를 암호화하는 이종상동성(orthologous)/상동성/동일성/유사성(따라서, 연관된) 뉴클레오티드 서열을 포함하는 핵산 분자는 서열들 중에서도 서열번호 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 42, 43, 44, 45, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 153, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170, 171, 172, 173, 192 및 193으로 나타낸 뉴클레오티드 서열과 적어도 66%, 예컨대 적어도 66.6% 상동성/동일성을 갖는다. 보다 바람직하게는, 프롤린 및 알라닌으로 이루어지는 폴리펩티드를 암호화하는 이종상동성/상동성/동일성/유사성(따라서, 연관된) 뉴클레오티드 서열을 포함하는 핵산 분자는 서열들 중에서도 서열번호 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 42, 43, 44,45, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 153, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170, 171, 172, 173, 192 및 193으로 나타낸 뉴클레오티드 서열과 적어도 68%, 70%, 75%, 80%, 85%, 90%, 92%, 93%, 94%, 95%, 96%, 97% 또는 98% 상동성/동일성을 가지며, 더 높은 값이 바람직하다. 가장 바람직하게는, 프롤린 및 알라닌으로 이루어지는 폴리펩티드를 암호화하는 이종상동성/상동성/동일성/유사성(따라서, 연관된) 뉴클레오티드 서열을 포함하는 핵산 분자는 서열들 중에서도 서열번호 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 42, 43, 44, 45, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 153, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170, 171, 172, 173, 192 및 193으로 나타낸 뉴클레오티드 서열과 적어도 99% 상동성/동일성/유사성을 갖는다.

추가 측면에서, 프롤린, 알라닌 및 세린으로 이루어지는 폴리펩티드를 암호화하는 이종상동성/상동성/동일성/유사성(따라서, 연관된) 뉴클레오티드 서열을 포함하는 핵산 분자는 서열들 중에서도 서열번호 19, 20, 21, 22, 23, 24, 25, 26, 27, 38, 39, 40, 41, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 174, 175, 176, 177, 178, 179, 180, 181, 182, 184, 185, 186, 187, 188, 189, 190, 191, 194 및 195로 나타낸 뉴클레오티드 서열과 적어도 56%, 예컨대 적어도 56.6% 상동성/동일성/유사성을 갖는다. 보다 바람직하게는, 프롤린, 알라닌 및 세린으로 이루어지는 폴리펩티드를 암호화하는 이종상동성/상동성/동일성/유사성(따라서, 연관된) 뉴클레오티드 서열을 포함하는 핵산 분자는 서열들 중에서도 서열번호 19, 20, 21, 22, 23, 24, 25, 26, 27, 38 39, 40, 41, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 174, 175, 176, 177, 178, 179, 180, 181, 182, 184, 185, 186, 187, 188, 189, 190, 191, 194 및 195로 나타낸 뉴클레오티드 서열과 적어도 58%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97% 또는 98% 상동성/동일성을 갖는다. 가장 바람직하게는, 프롤린, 알라닌 및 세린으로 이루어지는 폴리펩티드를 암호화하는 이종상동성/상동성/동일성/유사성(따라서, 연관된) 뉴클레오티드 서열을 포함하는 핵산 분자는 서열들 중에서도 서열번호 19, 20, 21, 22, 23, 24, 25, 26, 27, 38, 39, 40, 41, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 174, 175, 176, 177, 178, 179, 180, 181, 182, 184, 185, 186, 187, 188, 189, 190, 191, 194 및 195로 나타낸 뉴클레오티드 서열과 적어도 99% 상동성/동일성/유사성을 갖는다. 상기 정의된 연관된 뉴클레오티드 서열은 또한 더 길거나 짧은 이소형(isoform), 스플라이싱 변이체 또는 융합 구조체에 포괄될 수 있다.

소정 측면에서, 본 명세서에서 제공되는 핵산 분자는 서열들 중에서도 서열번호 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44,45, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 180, 181, 182, 184, 185, 186, 187, 188, 189, 190, 191, 192, 193, 194 및 195로 나타낸 뉴클레오티드 서열의 상보적인 가닥에 엄격한 조건 하에 혼성화될 수 있다. 본 명세서에서 사용된 것과 같은 "혼성화" 또는 "혼성화하는"이란 용어는 엄격하거나 엄격하지 않은 조건 하의 혼성화와 연관될 수 있다. 추가로 특정하지 않는 한, 상기 조건은 엄격한 것이 바람직하다. 상기 혼성화 조건은 예컨대 하기 문헌들에 개시되어 있는 종래의 프로토콜에 따라 확립될 수 있다: Sambrook (2001) Molecular Cloning: A Laboratory Manual, Cold Spring Harbor Laboratory Press, 3rd ed., New York; Ausubel (1989) Current Protocols in Molecular Biology, Green Publishing Associates and Wiley Interscience, New York, or Higgins(1985) Nucleic acid hybridization, a practical approach, IRL Press Oxford, Washington DC. 적합한 조건의 세팅은 본 기술분야의 숙련된 기술자의 범위 내에 속하며, 종래 기술에서 개시된 프로토콜에 따라 결정될 수 있다. 따라서, 특이적으로 혼성화하는 서열만을 검출하는 것은 대개, 예를 들면, 0.1× 식염수 나트륨 시트레이트 버퍼(SSC), 0.1% w/v SDS, 65℃ 또는 2× SSC, 60℃, 0.1% w/v SDS와 같은 엄격한 혼성화 및 세척 조건을 필요로 할 것이다. 상동성이지만 정확하게 상보적이지 않은 서열을 검출하기 위한 엄격함이 낮은 혼성화 조건은, 예를 들면, 6× SSC, 1% w/v SDS, 65℃로 세팅될 수 있다. 잘 알려진 것과 같이, 핵산 프로브의 길이와 결정되는 핵산의 조성이 혼성화 조건의 추가적인 파라미터를 구성한다.

본 발명에 따르면, 2 이상의 뉴클레오티드 서열의 문맥에서 "상동성" 또는 "상동성 백분율" 또는 "동일성" 또는 "동일성 백분율" 또는 "동일성의 백분율" 또는 "서열 동일성"이란 용어는 본 기술분야에 알려진 것과 같은 서열 비교 알고리즘을 이용하거나 수동 정렬 및 시각적 검사에 의해 측정된 것과 같이 비교 윈도우에 걸쳐서(바람직하게는 전체 길이에 걸쳐서) 또는 지정된 영역에 걸쳐서 최대 대응으로 비교 및 정렬될 때 동일하거나, 동일한 뉴클레오티드의 특정 백분율(프롤린 및 알라닌으로 이루어지는 폴리펩티드를 암호화하는 핵산 분자의 경우에는 바람직하게는 적어도 66%, 예컨대 적어도 66.6% 동일성, 더욱 바람직하게는 적어도 68%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97% 또는 98% 동일성, 가장 바람직하게는 적어도 99% 동일성; 또는 프롤린, 알라닌 및 세린을 암호화하는 핵산 분자의 경우에는 바람직하게는 적어도 56%, 예컨대 적어도 56.6% 동일성, 더욱 바람직하게는 적어도 58%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97% 또는 98% 동일성, 가장 바람직하게는 적어도 99% 동일성)을 갖는 2 이상의 서열 또는 서브서열(subsequence)을 나타낸다.

예를 들면, 70% 내지 90% 또는 그 이상의 서열 동일성을 갖는 서열은 실질적으로 동일하거나 유사한 것으로 간주될 수 있다. 이러한 정의는 또한 테스트 핵산 서열의 상보체(complement)에도 적용된다. 바람직하게는, 상기 개시된 동일성은 적어도 약 15 내지 25개 뉴클레오티드 길이의 영역, 더욱 바람직하게는 적어도 약 50 내지 100개 뉴클레오티드 길이의 영역, 더욱 바람직하게는 적어도 약 125 내지 200개 뉴클레오티드 길이의 영역, 더욱 바람직하게는 적어도 약 225 내지 300개 뉴클레오티드 길이의 영역, 보다 더 바람직하게는 적어도 약 625 내지 800개 뉴클레오티드 길이의 영역 및 가장 바람직하게는 적어도 약 825 내지 1,200개 뉴클레오티드 길이의 영역에 걸쳐서 존재한다. 본 기술분야의 숙련된 기술자는, 예를 들면 CLUSTALW 컴퓨터 프로그램(Thompson (1994) Nucl. Acids Res. 2:4673-4680), CLUSTAL Omega(Sievers (2014) Curr. Protoc. Bioinformatics 48:3.13.1-3.13.16) 또는 FASTDB(Brutlag (1990) Comp App Biosci 6: 237-245)에 기반한 것과 같은 알고리즘을 이용하여 서열들 사이의 동일성 백분율을 결정하는 방법을 알 것이다. 또한, 기본적 국소 정렬 검색 도구(Basic Local Alignment Search Tool)를 나타내는 BLAST 및 BLAST 2.0 알고리즘도 본 기술분야의 기술자에게 이용가능하다(Altschul, (1997) Nucl. Acids Res. 25:3389-3402; Altschul (1990) J. Mol. Biol. 215:403-410). 핵산 서열에 대한 BLASTN 프로그램은 11의 단어 길이값(W), 10의 기댓값(E), M=5, N=4 및 양쪽 가닥의 비교를 디폴트(default)로 이용한다. BLOSUM62 점수화 매트릭스(Henikoff (1992) Proc. Natl. Acad. Sci. U.S.A. 89:10915-10919)는 50의 정렬값(B), 10의 기댓값(E), M=5, N=4 및 양쪽 가닥의 비교를 이용한다.

해당 뉴클레오티드 서열에서 뉴클레오티드 잔기가 예컨대 각각 서열번호 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44,45, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129, 130, 131, 132, 133, 134, 135, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150, 151, 152, 153, 154, 155, 156, 157, 158, 159, 160, 161, 162, 163, 164, 165, 166, 167, 168, 169, 170, 171, 172, 173, 174, 175, 176, 177, 178, 179, 180, 181, 182, 184, 185, 186, 187, 188, 189, 190, 191, 192, 193, 194 및 195의 뉴클레오티드 서열에서 어떠한 위치에 해당하는지를 결정하기 위하여, 숙련된 기술자는 예컨대 수동으로 또는 본 명세서에서 언급된 것들과 같은 컴퓨터 프로그램을 이용한 정렬과 같이 본 기술분야에 잘 알려진 수단 및 방법을 이용할 수 있다. 예를 들면, BLAST 2.0이 국소 서열 정렬을 위한 검색을 위해 사용될 수 있다. 상기 논의된 것과 같이, BLAST 또는 BLAST 2.0은 서열 유사성을 결정하기 위하여 뉴클레오티드 스열들의 정렬을 생성한다. 상기 정렬의 국소적인 본성으로 인하여, BLAST 또는 BLAST 2.0은 정확하게 일치하는 서열을 결정하거나 유사하거나 동일한 서열을 확인하는데 특히 유용하다.

첨부된 실시예에 나타낸 것과 같이, 본 명세서에서 긴 낮은 반복적인 뉴클레오티드 서열 또는 상기 뉴클레오티드 서열을 포함하는 긴 낮은 반복적인 핵산 분자를 신속하고 용이하게 클로닝하기 위한 수단 및 방법이 제공된다; 예컨대, 실시예 1, 2, 5, 7 및 10 참조. 첨부된 실시예에 나타낸 것과 같이, 본 명세서에서 본 발명의 뉴클레오티드 서열을 더 긴 구조체 내로 조립하기 위해 특히 적합한 예시적인 벡터가 제공된다. 전술한 것과 같이, 본 명세서에서 제공되는 핵산 분자 또는 뉴클레오티드 서열은 긴 핵산 분자 또는 긴 뉴클레오티드 서열을 구축하기 위한 단계적 방식으로 조립될 수 있다. 본 명세서에서 조립된 핵산 분자 또는 뉴클레오티드 서열의 크기는 제한되지 않거나, 기껏해야 플라스미드 크기 또는 형질전환/전달감염 효능과 같은 실무 환경에 의해 제한되는 것으로 예측된다.

약 2,400개 뉴클레오티드의 길이의 프롤린, 알라닌 및 세린의 반복적인 아미노산 서열을 암호화하는 낮은 반복적인 뉴클레오티드 서열 또는 핵산 분자를 포함하는 핵산 분자(800개 아미노산 잔기의 길이를 갖는 폴리펩티드를 암호화함)의 예시적인 조립은 첨부된 실시예 2에 나타나 있다. 여기서, 먼저 서열번호 19로 제공되는 뉴클레오티드 서열 유닛(빌딩 블록) PAS#1b(200)와, 다음으로 서열번호 20으로 제공되는 뉴클레오티드 서열 유닛 PAS#1c(200)와, 이어서 서열번호 23으로 제공되는 뉴클레오티드 서열 유닛 PAS#1f(200)와, 마지막으로 서열번호 21로 제공되는 뉴클레오티드 서열 유닛 PAS#1d(200)이 예시적인 pXL2 벡터에 클로닝 및 조립됨을 보여준다. 상기 예시적으로 조립된 핵산 분자 또는 조립된 뉴클레오티드 서열은 본 명세서에서 PAS#1d/1f/1c/1b(800)로 나타내며, 서열번호 39에 제공된다. 또한, 본 명세서에서 상기 조립된 본 발명의 핵산 분자는 낮은 반복적인 뉴클레오티드 서열을 갖거나 이를 포함하는 것이 증명된다. 특히, 실시예 2에서 서열번호 39로 제공되는 상기 예시적인 조립된 뉴클레오티드 서열은 14개 뉴클레오티드의 최대 길이의 반복 서열만을 갖고 있음이 나타나 있다.

본 발명은 또한 본 발명의 핵산 분자의 제공 방법에 관한 것이다; 예를 들면, 더 긴 뉴클레오티드 서열을 조립하기 위한 예시적인 절차를 실증하는 도 1e 참조. 또한, 본 발명은 상기 PA-풍부 폴리펩티드를 암호화하는 낮은 반복적인 핵산 분자를 조립하기에 특히 적합한 벡터에 관한 것이다.

상기에 따르면, 본 명세서에서 제공되는 핵산 분자는 프롤린 및 알라닌으로 이루어지는 폴리펩티드를 암호화할 수 있다.

따라서, 본 명세서에서 제공되는 핵산 분자는 다음으로 이루어진 군으로부터 선택될 수 있다:

(a) 서열번호 28, 서열번호 29, 서열번호 30, 서열번호 31, 서열번호 32, 서열번호 33, 서열번호 34, 서열번호 35, 서열번호 36, 서열번호 37, 서열번호 87, 서열번호 88, 서열번호 89, 서열번호 90, 서열번호 91, 서열번호 92, 서열번호 93, 서열번호 94, 서열번호 95, 서열번호 96, 서열번호 97, 서열번호 98, 서열번호 99, 서열번호 100, 서열번호 101, 서열번호 102, 서열번호 103, 서열번호 104, 서열번호 105, 서열번호 106, 서열번호 107, 서열번호 108, 서열번호 109, 서열번호 110, 서열번호 111, 서열번호 112, 서열번호 113, 서열번호 114, 서열번호 115, 서열번호 116, 서열번호 117, 서열번호 118, 서열번호 119, 서열번호 120, 서열번호 121, 서열번호 122, 서열번호 192 및 서열번호 193으로 이루어진 군으로부터 선택되는 적어도 하나의 뉴클레오티드 서열을 포함하는 핵산 분자;

(b) 서열번호 42, 서열번호 43, 서열번호 44, 서열번호 45, 서열번호 153, 서열번호 154, 서열번호 155, 서열번호 156, 서열번호 157, 서열번호 158, 서열번호 159, 서열번호 160, 서열번호 161, 서열번호 162, 서열번호 163, 서열번호 164, 서열번호 165, 서열번호 166, 서열번호 167, 서열번호 168, 서열번호 169, 서열번호 170, 서열번호 171, 서열번호 172 및/또는 서열번호 173으로 이루어진 뉴클레오티드 서열을 포함하는 핵산 분자;

(c) (a) 또는 (b)에서 정의된 것과 같은 뉴클레오티드 서열의 상보적 가닥에 엄격한 조건 하에 혼성화하는 핵산 분자;

(d) (a), (b) 및 (c) 중 어느 하나에서 정의된 것과 같은 뉴클레오티드 서열과 적어도 66.7% 동일성을 갖는 뉴클레오티드 서열을 포함하는 핵산 분자; 및

(e) (a) 또는 (b)에서 정의된 것과 같은 뉴클레오티드 서열과 유전자 코드의 결과로서 축중되는 핵산 분자.

상기에 따라, 본 명세서에서 제공되는 핵산 분자는 프롤린, 알라닌 및 세린으로 이루어지는 폴리펩티드를 암호화할 수 있다.

(a) 서열번호 19, 서열번호 20, 서열번호 21, 서열번호 22, 서열번호 23, 서열번호 24, 서열번호 25, 서열번호 26, 서열번호 27, 서열번호 123, 서열번호 124, 서열번호 125, 서열번호 126, 서열번호 127, 서열번호 128, 서열번호 129, 서열번호 130, 서열번호 131, 서열번호 132, 서열번호 133, 서열번호 134, 서열번호 135, 서열번호 136, 서열번호 137, 서열번호 138, 서열번호 139, 서열번호 140, 서열번호 141, 서열번호 142, 서열번호 143, 서열번호 144, 서열번호 145, 서열번호 146, 서열번호 147, 서열번호 148, 서열번호 149, 서열번호 150, 서열번호 151, 서열번호 152; 서열번호 194 및 서열번호 195로 이루어진 군으로부터 선택되는 적어도 하나의 뉴클레오티드 서열을 포함하는 핵산 분자;

(b) 서열번호 38, 서열번호 39, 서열번호 40, 서열번호 41, 서열번호 174, 서열번호 175, 서열번호 176, 서열번호 177, 서열번호 178, 서열번호 179, 서열번호 180, 서열번호 181, 서열번호 182, 서열번호 184, 서열번호 185, 서열번호 186, 서열번호 187, 서열번호 188, 서열번호 189, 서열번호 190 및 서열번호 191로 이루어진 군으로부터 선택되는 뉴클레오티드 서열을 포함하는 핵산 분자;

(c) (a) 또는 (b)에서 정의된 것과 같은 뉴클레오티드 서열의 상보적인 가닥에 엄격한 조건 하에 혼성화하는 핵산 분자;

(d) (a), (b) 및 (c) 중 어느 하나에서 정의된 것과 같은 뉴클레오티드 서열에 적어도 56% 동일성을 갖는 뉴클레오티드 서열을 포함하는 핵산 분자; 및

소정 측면에서, 본 발명은 본 발명의 낮은 반복적인 뉴클레오티드 서열을 포함하는 핵산 분자의 제조 방법에 관한 것이며, 상기 방법은 다음을 포함한다:

(a) 엔도뉴클레아제 제한 효소에 의해 인식되는 상류 인식 서열 및 엔도뉴클레아제 제한 효소에 의해 인식되는 하류 인식 서열을 포함하는 벡터를 제공하는 단계로서,

선택적으로 상기 하류 인식 서열을 인식하는 상기 엔도뉴클레아제 제한 효소는 상기 상류 인식 서열을 인식하는 엔도뉴클레아제 제한 효소와 상이하고,

상기 상류 인식 서열 및 상기 하류 인식 서열은 역으로 상보적인 방향이며,

상기 상류 인식 서열은 2개 상이한 제한 효소에 대한 2개의 인식 서열을 포함하고,

상기 하류 인식 서열은 상기 상류 인식 서열 내에 포함되며, 및/또는

상기 상류 인식 서열 및/또는 상기 하류 인식 서열은 상기 인식 서열의 바깥을 절단하는 제한 효소에 대한 인식 부위이고;

(b) 상기 (a)의 벡터를 상기 상류 및/또는 상기 하류 인식 서열을 인식하는 제한 효소(들)로 절단하는 단계;

(c) 선택적으로, 상기 (b)의 벡터를 탈인산화시켜 상보적인 점성의 말단의 혼성화를 방지하는 단계;

(d) 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 핵산 분자를 제공하는 단계로서, 상기 뉴클레오티드 서열의 말단이 (b) 또는 (c)의 벡터의 잘려진 말단과 혼성화하고; 및

(e) 상기 (d)의 핵산 분자를 DNA 리가아제(ligase)의 존재 하에 상기 잘려진 벡터 내로 삽입하는 단계.

본 발명의 소정 측면에서, 본 명세서에서 제공되는 방법은 더 긴 핵산 분자를 제조하게 위해 사용될 수 있으며, 상기 핵산 분자는 조립된 낮은 반복적인 뉴클레오티드 서열을 포함하고, 전술한 것과 같은 핵산 분자를 제조하기 위한 방법은 부가적으로 다음 단계들을 포함한다:

(f) 상기 (e)의 벡터를 상기 상류 또는 상기 하류 인식 서열을 인식하는 제한 효소로 절단하는 단계;

(g) 선택적으로, 상기 (f)의 벡터를 탈인산화시켜 상기 상보적인 점성의 말단의 혼성화를 방지하는 단계;

(h) 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 핵산 분자를 제공하는 단계로서, 상기 뉴클레오티드 서열의 말단이 상기 (f) 또는 (g)의 벡터의 잘려진 발단과 혼성화하고;

(i) 상기 (h)의 뉴클레오티드 서열을 DNA 리가아제의 존재 하에 상기 잘려진 벡터 내로 삽입하는 단계; 및

(j) 원하는 길이의 뉴클레오티드 서열에 도달할 때까지 단계 (f) 내지 (i)를 반복하는 단계.

본 기술분야의 숙련된 기술자는 상기 방법의 단계들이 PA-풍부 폴리펩티드를 암호화하는 원하는 길이의 조립된 뉴클레오티드 서열 또는 조립된 핵산 분자가 얻어질 때까지 반복적으로 되풀이될 수 있음을 이해한다.

본 명세서에서 제공되는 핵산 분자를 유리하게 클로닝하기 위한 수단 및 방법을 제공하기 위하여, 적합한 클로닝 벡터는 엔도뉴클레아제 제한 효소에 의해 인식되는 상류 인식 서열 및 엔도뉴클레아제 제한 효소에 의해 인식되는 하류 인식 서열을 포함하며, 선택적으로 상기 하류 인식 서열을 인식하는 상기 엔도뉴클레아제 제한 효소는 상기 상류 인식 서열을 인식하는 엔도뉴클레아제 제한 효소와 상이하고, 상기 상류 인식 서열 및 상기 하류 인식 서열은 역으로 상보적인 방향이다. 또한, 상기 상류 인식 서열은 2개의 상이한 제한 효소에 대한 2개의 인식 서열을 포함할 수 있다. 또한, 상기 하류 인식 서열은 상기 상류 인식 서열 내에 포함될 수 있다. 따라서, 상기 하류 인식 서열은 상기 상류 인식 서열 주에 하나 내에 포함될 수 있다. 첨부된 실증적인 실시예, 특히 도 1, 4, 6 및 8은 예시적인 벡터 및 핵산 분자뿐만 아니라 이를 제공하기 위한 방법도 보여준다.

첨부된 실시예에서 상기 하류 인식 서열이 상기 상류 인식 서열 내에 포함되는 것이 특히 유익함이 기록된다. 이러한 전략을 사용함으로써, 상기 상류 인식 부위는 추가적인 뉴클레오티드 서열을 본 명세서에서 제공되는 벡터 내로 조립하기 위해 도입될 수 있다. 물론, 이러한 벡터 상의 상기 상류 및 하류 제한 부위의 위치는 상호교환가능하다. 삽입된 본 발명의 뉴클레오티드 서열을 갖는 예시적인 클로닝 영역은 도 1d에 나타나 있다. 이 경우, 상기 하류 인식 서열을 인식하는 제한 효소는 또한 상기 상류 인식 서열을 인식 및 절단한다. 따라서, 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 본 발명의 뉴클레오티드 서열 또는 핵산 분자는 상기 하류 및 상류 인식 서열을 인식하는 제한 효소를 도입함으로써 본 명세서에서 제공되는 벡터로부터 잘려져서, 예컨대 유전자를 발현하게 하거나 융합 단백질을 위한 코딩 영역을 생성하기 위해 다른 핵산 또는 벡터와 라이게이션되게 할 수 있다. 긴 낮은 반복적인 뉴클레오티드 서열의 조립을 달성하기 위한 상기 클로닝 전략의 예는 본 명세서에서 아래에 실증된다; 예컨대, 도 1e 참조.

소정 측면에서, 제1 돌출부는 알라닌을 암호화하는 뉴클레오티드 트리플렛/코돈, 특히 GCC 뿐만 아니라 GCT, GCA 또는 GCG를 포함할 수 있다. 바람직한 측면에서, 본 발명의 핵산 분자는 2개의 상보적인 5'-돌출부를 포함하며, 즉 한 5'-돌출부는 코딩 가닥 상에 있고 다른 5'-돌출부는 비-코딩 가닥 상에 있다. 특히 바람직한 구현예에서, 상기 코딩 가닥 상의 5'-돌출부는 GCC이고, 상기 비-코딩 가닥 상의 5'-돌출부는 GGC이다.

소정의 추가 측면에서, 상기 제1 돌출부는 또한 프롤린 또는 세린을 암호화하는 뉴클레오티드 트리플렛/코돈, 예컨대 CCT, CCC, CCA, CCG, TCT, TCC, TCA, TCG, AGT 또는 AGC를 포함할 수 있다. 그러나, 본 기술분야의 숙련된 기술자는 본 명세서에서 제공되는 핵산 분자의 제조 방법이 돌출부로 제한되지 않으며 상기 핵산 분자 또는 뉴클레오티드 서열은, 예를 들면, 블런트(blunt) 말단을 통해 라이게이션될 수 있음을 알고 있다. 본 명세서에서 사용된 것과 같이, "돌출부"란 용어는 부착된 상보체가 없는 이중-가닥 DNA 분자의 일부로서 핵산 가닥의 말단부에 관한 것이며, 점성의 말단으로도 알려져 있다. 본 명세서에서 사용된 것과 같이, "블런트 말단"이란 용어는 돌출부가 없는 DNA 가닥의 말단부에 관한 것이다. 상기 오버행의 길이는 제하되지 않음이 예측된다; 그러나, 1 내지 10개 뉴클레오티드를 포함하는 돌출부가 특히 적합한 것으로 보인다. 첨부된 실시예에서, 아미노산 알라닌을 암호화하는 3개 뉴클레오티드의 돌출부가 도입되었다. 이러한 종류의 트리플렛 돌출부는 본 발명에 따른 핵산 분자의 아미노산 번역을 위한 해독틀과 직접적으로 호환된다는 이점을 제공한다.

주목하게는, 상기 돌출부는 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열 또는 핵산 분자에 하나의 부가적인 트리플렛을 도입한다. 따라서, 본 발명의 클로닝 전략은 하나의 부가적인 아미노산, 예컨대 알라닌을 도입한다. 상기 부가적인 아미노산 또는 대응하는 트리플렛/코돈은 각각 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드 또는 이를 암호화하는 핵산의 일부로서 간주될 수 있다. 결과적으로, 본 기술분야의 숙련된 기술자가 인식하는 것과 같이, 예컨대 300개 뉴클레오티드를 포함하는 뉴클레오티드 서열에 대한 전술한 클로닝 전략을 도입할 때, 3개 뉴클레오티드 5'-돌출부도 모두 함께 계수한다면 상기 잘려진 핵산 분자는 303개 뉴클레오티드를 포함한다. 본 명세서에서 도입되는 돌출부의 길이에 따라 심지어 더 많은 트리플렛/코돈 또는 그에 맞춰서 더 많은 아미노산 잔기가 상기 클로닝 절차에 도입될 수 있음이 본 명세서에서 예측된다.

또한, 벡터 상에, 또는 더 긴 합성 DNA 절편(예컨대, 스트링)의 일부로서 클로닝될 때, 본 명세서에서 제공되는 핵산 분자 또는 뉴클레오티드 서열은 상기 상류 인식 서열 및/또는 상기 하류 인식 서열을 포함하며, 상기 상류 인식 서열 및/또는 상기 하류 인식 서열은 상기 인식 서열의 바깥을 자르는 제한 효소에 대한 인식 부위이다. 본 명세서에서 도입되는 제한 효소, 예컨대 타입 ⅡS 클래스의 효소는 바람직하게는 한 쪽에서 그 인식 서열의 바깥을 자르며, 그 결과 비대칭 인식 서열의 올바른 방향에 따라 잘려진 핵산 분자 또는 뉴클레오티드 서열은 상기 인식 부위(들)를 포함하지 않게 된다.

또한, 본 명세서에서 제공되는 벡터에서, 이러한 제한 효소를 이용한 절단은 상기 제한 효소에 대한 인식 서열을 유지한다. 예시적인 벡터 pXL2의 클로닝 부위는 도 1c에 나타나 있다. 상기 벡터로부터 잘려진 핵산 분자 또는 뉴클레오티드 서열은 그 클로닝 또는 절단을 위해 사용되는 제한 효소의 인식 부위가 없으며, 이는 예컨대 발현 벡터의 클로닝 또는 융합 단백질에 대한 코딩 영역을 생성하기 위하여 본 명세서에서 개시된 절차에 따른 더 긴 핵산 분자 또는 더 긴 뉴클레오티드 서열의 조립을 위해 특히 이점이 있다.

추가 구현예에서, 예시적인 벡터 pXL1(서열번호 55)이 제공된다(도 1b에 나타냄). 이 경우, 본 발명에 따른 상기 클로닝/삽입된 핵산 분자 또는 뉴클레오티드 서열은 2개의 SapI 제한 부위에 의해 옆에 있다. 따라서, 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 핵산 분자는 단일 제한 효소, 즉 SapI(또는 EarI)로 소화/절단함으로써 상기 벡터로부터 간단히 잘려질 수 있으며, 이는 발현 벡터의 후속 클로닝 또는 융합 단백질에 대한 코딩 영역을 생성하기 위해 특히 이점이 있다.

첨부된 실시예에 나타낸 것과 같이, 본 명세서에서 제공되는 핵산 부자 또는 뉴클레오티드 서열은 되풀이되는 방식으로 벡터 pXL2(서열번호 48) 내에 조립된다; 예컨대, 실시예 2 참조. 따라서, 상기 벡터 내의 하나 또는 양쪽 인식 부위는 상기 벡터 내로 (존재하는 삽입체의 한 쪽에) 추가적인 뉴클레오티스 서열을 삽입하거나, 대안적으로 상기 벡터로부터 전체 (조립된) 뉴클레오티드 서열 또는 핵산 분자를 잘라내기 위해 도입될 수 있다.

추가 이점으로서, 본 명세서에서 제공되는 본 발명의 핵산 분자의 제조 방법에서, 본 발명에 따른 핵산 분자 내에 제한 효소에 대한 인식 부위가 없으면 (ⅰ) 본 명세서에서 제공되는 조립된 더 긴 뉴클레오티드 서열이 내부적으로, 예컨대 상기 조립된 뉴클레오티드 서열의 유닛/모듈 사이에서 잘려지는 것을 방지하고, 및 (ⅱ) 상기 조립된 뉴클레오티드 서열의 이웃하는 유닛/모듈 상의 암호화된 아미노산 서열 사이 또는 본 발명의 뉴클레오티드 서열 및 생물학적 활성 단백질에 대한 뉴클레오티드 서열 상의 암호화된 아미노산 서열 사이의 비편파적인 전이(unbiased transition)를 유도한다. 상기 전략은 "흔적없는(traceless)" 또는 "솔기없는(seamless)" 조립 또는 클로닝으로 명명될 수 있다.

첨부된 실시예에서 타입 ⅡS의 제한 효소가 도입될 수 있음을 보여준다; 실시예 1 및 실시예 2 참조. 상기 클래스의 제한 효소는 그 절단 부위로부터 떨어진 인식 부위를 가지며, 이들 중 일부, 예를 들면 SapI 및 EarI은 한 쪽에서 그 인식 부위 바깥을 자른다. 하기 본 명세서에서 pXL2에 대한 상기 상류 인식 서열은 SapI 및 EarI에 의해 인식되고 상기 하류 인식 서열은 EarI에 의해 인식됨이 나타나 있다. 따라서, 상기 상류 인식 서열은 뉴클레오티드 서열 5'-GCTCTTC-3'을 갖고, 상기 하류 인식 서열은 뉴클레오티드 서열 5'-CTCTTC-3'을 갖는다. 본 기술분야의 숙련된 기술자는 본 명세서에서 상기 제한 효소는 본 명세서에서 정의된 목적 또는 제한사항을 충족하는 한 특별히 제한되지 않음을 알고 있다.

본 명세서에서 사용된 것과 같이, "엔도뉴클레아제 제한 효소"란 용어는 뉴클레오티드의 스트레치를 포함하는 특정 인식 서열 또는 그 근처의 핵산 분자 또는 뉴클레오티드 서열, 예컨대 DNA 내에서 소정의 뉴클레오티드를 연결하는 포스포디에스테르 결합에서 올리고/폴리뉴클레오티드를 절단하는/자르는/혼성화하는 엔도뉴클레아제 효소에 관한 것이다. 따라서, 제한 효소는 뉴클레오티드 서열 또는 핵산 분자 내에서 포스포디에스테르 결합의 가수분해를 촉매한다. 제한 효소는 보통 그 인식 서열 또는 분리된 부위에서 그 기질을 절단/자르는지 여부에 따라 그 구조가 상이한 3가지 타입으로 분류된다. 이중-가닥 DNA를 절단/자르기 위하여, 제한 효소는 대개 DNA 이중 나선의 각각의 당-포스페이트 백본(즉, 각각의 가닥)에 있는 2개의 포스포디에스테르 결합을 자른다.

본 명세서에서 사용된 것과 같이, "인식 서열"이란 용어는 제한 효소에 의해 인식되는 뉴클레오티드의 특정 서열, 예컨대 4 내지 8개 길이의 특정 염기 쌍에 관한 것이다.

본 명세서에서 사용된 것과 같이, "자르는"이란 용어는 상기 핵산 분자 및/또는 벡터가 제한 효소로 절단/소화/가수분해되는 것을 의미한다. 전술한 것과 같이, 상기 제한 효소는 폴리뉴클레오티드 사슬 내의 포스포디에스테르 결합을 자른다.

본 명세서에서 사용된 것과 같이, "삽입하는"이란 용어는 효소의 작용으로 통해 핵산 분자를 벡터 내로 라이게이션하는 것을 나타낸다. 이로 인해, 한 폴리뉴클레오티드의 3'-히드록실기와 다른 폴리뉴클레오티드의 5'-포스포릴기 사이의 포스포디에스테르 결합의 형성에 의해 폴리뉴클레오티드의 말단이 서로 연결된다. 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 핵산 분자 또는 뉴클레오티드 서열은 상기 벡터의 잘려진 말단과 혼성화할 수 있는 말단을 갖는다. 본 발명의 바람직한 측면에서, 이러한 말단은 잘려진 벡터의 해당 돌출부와 혼성화할 수 있는 돌출부를 갖는다.

핵산 분자를 벡터 내로 삽입하기 위하여, 삽입체가 없는 재순환되는 벡터 DNA의 높은 배경을 피하기 위하여 상기 벡터를 탈인산화하는 것이 바람직하다. 탈인산화를 위한 예시적인 효소는 소화된 폴리뉴클레오티드의 5' 말단으로부터 포스페이트기를 제거하는 송아지-장내 알칼리 포스파타아제(CIP 또는 CIAP) 또는 양 알칼리 포스파타아제일 수 있다.

본 명세서에서 사용된 것과 같이, "상류" 및 "하류"란 용어는 모두 핵산 분자 또는 뉴클레오티드 서열 상의 상대적인 위치를 나타낸다. 상기 핵산 분자 또는 뉴클레오티드 서열의 각각의 가닥은 데옥시리보오스(또는 리보오스) 당 상의 탄소 원자에 대해 명명되는 5' 말단 및 3' 말단을 갖는다. 일반적으로, 상류 및 하류는 RNA 전사가 일어나는 코딩 가닥의 5'에서 3' 방향에 관한 것이다. 이중-가닥 DNA를 고려할 때, 상류는 문제의 유전자 또는 해독틀에 대한 코딩 가닥의 5' 말단을 향하며, 하류는 3' 말단을 향한다. 이중-가닥 DNA의 역-평행한 본성으로 인해, 이것은 비-코딩 가닥의 3' 말단이 유전자의 상류이고, 5' 말단이 하류임을 의미한다.

본 명세서에서 사용된 것과 같이, "핵산 분자" 또는 "뉴클레오티드 서열"이란 용어는 DNA 분자 및 RNA 분자와 같은 핵산 부자를 포함하는 의도이다. 본 명세서에서 "뉴클레오티드 서열"이란 용어는 "핵산 서열"이란 용어와 등가이고, 본 명세서에서 상기 용어들은 상호교환적으로 사용될 수 있음이 이해된다. 상기 핵산 분자 또는 상기 뉴클레오티드 서열은 단일-가닥 또는 이중-가닥일 수 있지만, 이중-가닥 DNA인 것이 바람직하다. 본 기술분야의 수련된 기술자는 이중-가닥 DNA는 실제로 이중 가닥을 형성하기 위해 비-공유적으로 연관/혼성화하는 대체로 상보적인 뉴클레오티드 서열을 갖는 2개의 상이한 핵산 분자(존재시 점성의 말단은 무시함)를 포함함을 알고 있다.

본 발명의 한 측면에서, 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열 또는 핵산 분자는 동일한 해독틀에서 생물학적 또는 약리학적 활성 단백질을 암호화하는 핵산과 작동가능하게 결합된다. 본 발명의 바람직한 측면에서, 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열 또는 핵산 분자는 동일한 해독틀에서 생물학적 또는 약리학적 활성 단백질을 암호화하는 핵산과 작동가능하게 결합된다. 따라서, 상기 핵산 분자는 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 포함하는 비상동성 약물 접합체를 암호화한다. 본 명세서에서 사용된 것과 같이, 비상동성은 상기 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드 및 상기 생물학적 또는 약리학적 활성 단백질을 암호화하는 핵산 분자가 자연에서 발견되지 않음을 의미한다.

본 명세서에서 사용된 것과 같이, "작동가능하게 결합되는"이란 용어는 병치(juxtaposition)를 나타내며, 문제의 성분들은 그 의도된 방식으로 양쪽 기능을 모두 허용하는 관계에 있다.

프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열은 상기 생물학적 또는 약리학적 활성 단백질을 암호화하는 뉴클레오티드 서열에 솔기없이 접합될 수 있으며, 즉 어떠한 링커(linker)도 상기 서열들 사이에 배치되지 않는다. 대안적으로, 링커 또는 스페이서 구조는 상기 랜덤 코일 폴리펩티드와 상기 생물학적 또는 약리학적 활성 단백질 사이에 포함된다. 따라서, 본 발명의 소정 측면에서, 아미노산 링커를 암호화하는 뉴클레오티드 서열은 상기 프롤린/알라닌-풍부 폴리펩티드를 암호화하는 뉴클레오티드 서열과 상기 생물학적 또는 약리학적 활성 단백질을 암호화하는 뉴클레오티드 서열 사이에 삽입된다. 예시적인 링커는 프로테아제 민감성 절단 부위, 세린/글리세린-링커, His₆-tag 또는 Strep-tag Ⅱ와 같은 친화성 태그, 신호 펩티드, 유지 펩티드, 막 전위(membrane translocation) 펩티드 또는 부가적인 이펙터(effector) 도메인과 같은 표적화 펩티드, 예컨대 항-종양 독소와 연관된 종양 표적화를 위한 항체 절편 또는 전구약물 활성화를 위한 효소 등일 수 있다. 링커/스페이서를 포함하는 폴리펩티드는 상기 생물학적 활성 단백질의 조절된 방출을 허용하는 혈장 프로테아제 절단 부위를 가질 수 있다. 상이한 타입 또는 길이의 링커/스페이서는 특정 단백질의 최적의 생물학적 활성을 얻기 위하여 과도한 노력없이 확인될 수 있다.

링커/스페이서는 링커 또는 스페이서 구조를 운반하는 융합 단백질을 수용하는 대상체에서 면역 반응을 유발할 수 있다. 따라서, 본 발명의 바람직한 측면에서, 상기 프롤린/알라닌-풍부 폴리펩티드를 암호화하는 뉴클레오티드 서열은 상기 생물학적 또는 약리학적 활성 단백질을 암호화하는 뉴클레오티드 서열에 솔기없이 접합된다. 본 명세서에서 사용된 것과 같이, "솔기없음"은 상기 랜덤 코일 폴리펩티드를 암호화하는 뉴클레오티드 서열이 상기 생물학적 또는 약리학적 활성 단백질을 암호화하는 뉴클레오티드 서열에 직접 접합됨을 의미한다. 따라서, 프롤린, 알라닌 또는 선택적으로 세린 이외의 아미노산 잔기를 암호화하는 어떠한 부가적인 뉴클레오티드 서열도 도입되지 않는다. 첨부된 실시예에 나타낸 것과 같이, 아미노산 잔기 알라닌을 암호화하는 돌출부를 이용함으로써 솔기없는 클로닝이 달성되었다; 예컨대, 실시예 7 참조. 따라서, 본 발명은 또한 핵산 분자의 제조 방법에 관한 것이며, 상기 핵산 분자는 프롤린, 알라닌 및 선택적으로 세린을 암호화하는 뉴클레오티드 서열 및 상기 생물학적 또는 약리학적 활성 단백질 또는 펩티드를 암호화하는 뉴클레오티드 서열을 포함하고, 상기 뉴클레오티드 서열은 상기 생물학적 또는 약리학적 활성 단백질 또는 펩티드를 암호화하는 상기 뉴클레오티드 서열에 솔기없이 접합된다. 첨부된 실시예 및 상기 본 명세서에서 또한 상기 솔기없는 클로닝은 PA-풍부 폴리펩티드를 암호화하는 더 긴 뉴클레오티드 서열을 조립하기 위해 사용될 수 있음을 보여준다. 따라서, 상기 솔기없는 클로닝 방법이 적용되면, 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 결과물인 뉴클레오티드 서열은 본 명세서에서 개시된 것과 같은 낮은 반복적인 뉴클레오티드 서열이다.

본 명세서에서 사용된 것과 같이, "생물학적 활성"이란 용어는 살아있는 대상, 예를 들면 유기체에 대한 물질의 생물학적 효과를 개시한다. 따라서, 본 명세서에서 사용된 것과 같은 "생물학적 활성 단백질" 또는 "생물학적 활성 펩티드"이란 용어는 상기 단백질 또는 폴리펩티드 또는 펩티드에 노출되는 살아있는 세포/유기체에서 생물학적 효과를 유도할 수 있는 단백질 또는 펩티드에 관한 것이다. 본 발명의 문맥에서, 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열 또는 핵산 분자는 생물학적 활성 단백질을 암호화하는 비상동성 핵산과 동일한 해독틀에서 작동가능하게 결합된다.

본 명세서에서 상기 암호화된 생물학적 활성 단백질 또는 펩티드는 "생물학적 활성을 갖거나 및/또는 매개하는 아미노산 서열"이거나, "생물학적 활성을 갖는 아미노산 서열"이거나, 및/또는 약리학적 활성을 갖거나 및/또는 매개하는 아미노산 서열인 것임이 이해된다. 또한 "생물학적 활성 단백질", "생물학적 활성을 갖거나 및/또는 매개하는 아미노산 서열" 또는 "생물학적 활성을 갖는 아미노산 서열" 및/또는 "약리학적 활성을 갖거나 및/또는 매개하는 아미노산 서열"이란 용어에는 시험관내 또는 생체내 반감기가 연장되는 것이 유익한 관심있는 임의의 단백질 또는 펩티드(및 그의 기능적 절편, 예컨대 항체 절편, 막 수용체의 세포외 또는 세포내 도메인(들)을 포함하는 절편, 절단된 형태의 성장 인자 또는 사이토카인 등)가 포함된다. 본 기술분야의 숙련된 기술자는 프롤린, 알라닌 및 선택적으로 세린으로 이루어진느 폴리펩티드의 랜덤 코일 입체형태가 상기 생물학적/약리학적 활성("기능성") 단백질(들) 또는 펩티드(e,f)에 증가된 생체내 및/또는 시험관내 안정성, 특히 증가된 혈장 반감기를 매개함을 알고 있다.

본 발명의 한 구현예에서, 본 발명에 따라 생물학적 활성을 갖거나 및/또는 매개하는 상기 암호화된 아미노산 서열은 임의의 "관심있는 단백질", 즉 약학적 또는 생물학적으로 관심있는 임의의 단백질 또는 치료적으로 효과적인 단백질로서 유용한 임의의 단백질로부터 추론될 수 있다. 따라서, 상기 생물학적 활성 단백질 또는 펩티드는 약리학적으로 활성이거나 치료적으로 효과적인 단백질 또는 펩티드일 수 있다. 약리학적으로 활성이거나 치료적으로 효과적인 단백질 또는 펩티드는 원하는 약리학적, 약학적 및/또는 생리학적 효과를 갖는 임의의 단백질 또는 펩티드이다. 상기 효과는 (ⅰ) 질환/의학적 증상/질병 또는 그의 징후를 완전히 또는 부분적으로 방지 및/또는 개선하는 측면에서 예방적일 수 있거나; 및/또는 (ⅱ) 상기 질환/의학적 증상/질병을 부분적으로 또는 완전히 억제하는, 즉 그 발생을 막거나, 상기 질환/의학적 증상/질병을 완화시키는, 즉 상기 질환/의학적 증상/질병의 퇴행을 유발하는 측면에서 치료적일 수 있다. 보다 바람직하게는, 상기 생물학적 활성 단백질은, 예컨대 백신으로서 사용하기 위해 치료적으로 효과적인 단백질이다. 따라서, 상기 생물학적 활성 단백질은 또한 백신화에 사용될 수 있다.

또한, 상기 생물학적 활성 단백질은 진단적으로 연관된 단백질일 수 있다. 본 명세서에서 사용된 것과 같이, "진단적으로 연관된 단백질"은 진단에 도입되는 단백질 또는 폴리펩티드에 관한 것이다. 본 발명의 문맥에서, 진단은 대상체에서 질환, 예컨대 암 및 종양 또는 임상적 증상의 인식 및 (초기) 검출에 관한 것이다. 또한, 상이한 진단도 포함할 수 있다. 또한, 질환 또는 임상적 증상의 증세의 평가도 어떤 구현예에서는 "진단"이란 용어에 의해 포괄될 수 있다. 특히, 본 발명의 핵산 분자에 의해 암호화된 폴리펩티드 및/또는 약물 접합체는 시험관내 또는 생체내 진단을 위해 사용될 수 있다. 예를 들면, 상기 암호화된 폴리펩티드 및/또는 약물 접합체는 의학적 이미징을 위한 방법에 사용될 수 있다. 상기 암호화된 PA-풍부 폴리펩티드 및/또는 약물 접합체는 특히 종양 세포 내로의 섭취가 증가되므로 상기 방법용으로 적합하다. 또한, 상기 암호화된 PA-풍부 폴리펩티드 및/또는 약물 접합체는 종양 세포 및 혈액 또는 건강한 세포/조직 사이에 더 높은 대조를 보인다.

상기 암호화된 생물학적 활성 단백질은 결합 단백질, 항체 절편, 사이토카인, 성장 인자, 호르몬, 효소, 단백질 백신, 펩티드 백신 또는 펩티드 또는 펩티도모방체로 이루어진 군으로부터 선택된다. 본 명세서에서 사용된 것과 같이, "펩티드"는 바람직하게는 50개 아미노산 잔기까지를 포함하거나 이로 이루어지고, "단백질"은 바람직하게는 50개 이상의 아미노산 잔기를 포함하거나 이로 이루어진다.

본 명세서에서 사용된 것과 같이, "결합 단백질"이란 용어는 (a) 잠재적인 결합 파트너(들)와 특이적으로 상호작용할 수 있어서, 잠재적인 결합 파트너(들)로서 상기 복수의 상이한 분자 풀로부터 상기 잠재적인 결합 파트너(들)만이 결합하거나 유의미하게 결합하는 정도로 상기 잠재적인 결합 파트너(들) 및 상기 잠재적인 결합 파트너(들)과 상이한 복수의 분자 사이를 구별할 수 있는 분자에 관한 것이다. 결합 단백질 및 잠재적인 결합 파트너 사이의 결합 활성을 측정하기 위한 방법은 본 기술분야에 알려져 있으며, 예컨대 효소-결합 면역흡착 분석법(ELISA), 등온 적정 열량측정(ITC), 평형 투석, 풀다운 분석법, 마이크로규모 열영동(thermophoresis), 형광 적정 또는 Biacore 기구를 이용하는 표면 플라스몬 공명(SPR) 분광법을 이용함으로써 일상적으로 수행될 수 있다.

본 발명의 맥락에서 유용한 예시적인 결합 단백질/결합 분자는 항체, 항체 절편, 예컨대 Fab 절편, Fab' 절편, F(ab')₂ 절편, 단일 사슬 가변 절편(scFv), 특히 낙타, 라마 또는 상어로부터 유래되는 (단일) 도메인 항체, 특히 인간 또는 영장류로부터 유래되는 항체의 단리된 가변 영역(VL 및/또는 VH 영역), CDR, 면역글로불린 도메인, CDR-유래의 펩티드모방체, 렉틴, 피브로넥틴 도메인, 테나신 도메인, 단백질 A 도메인, SH3 도메인, 안키린 반복 도메인 및 리포칼린 또는 예를 들면 하기 문헌들에 개시된 것과 같은 다양한 타입의 스캐폴드-유래의 결합 단백질이 비제한적으로 포함된다: Skerra (2000) J. Mol. Recognit. 13:167-187, Gebauer (2009) Curr. Opin. Chem. Biol. 13:245-255, 또는 Binz (2005) Nat. Biotechnol. 23:1257-1268.

본 발명의 문맥에서 유용한 관심있는 다른 예시적인 암호화된 생물학적, 약리학적 활성 단백질 또는 치료적으로 효과적인 단백질은 인터루킨 수용체 길항제, EBI-005 또는 아나킨라와 같은 인터루킨-1 수용체 길항제, 렙틴, 아세틸콜린에스테라아제, 활성화된 단백질 C(drotrecogin), 액티빈 수용체 ⅡB 길항제, 아데노신 탈아미나아제, 아갈시다아제 알파, 엔톨리모드(entolimod)와 같은 톨-유사 수용체 5의 작용제, 알파-1 안티트립신, 알파-1 프로티나아제 억제제, 알파-갈락토시다아제, 알파-인간 심방 나트륨이뇨 펩티드, 알파-N-아세틸글루코사미니다아제, 알테플라아제, 아메디플라아제, 아밀린, 아밀린 유사체, ANF-Rho, 앤지오텐신(1-7), 앤지오텐신 Ⅱ, 앤지오텐신-전환-효소 2, 항-상피 세포 부착 분자 단일-사슬 항체 절편, 항트롬빈 알파, 항트롬빈 Ⅲ, 아폽토시스 유도 효소 mi-APO, 아르기닌 탈이미나아제, 칼라스파르가아제와 같은 아스파라기나아제, 페가스파르가아제(pegaspargase), 크리산타스파아제(crisantaspase), 베록토코그(beroctocog) 알파 또는 옥토팩터(octofactor)와 같은 B 도메인 결실 인자 Ⅷ, 벡투모맙(bectumomab)(Lymphoscan), 부셀리파아제 알파와 같은 담즙 염 자극 리파아제, 파블리주맙(pavlizumab)과 같이 호흡기 세포융합 바이러스에 대한 결합 단백질, BMP-2(디보테르민 알파) 또는 BMP-6과 같은 뼈 형성 단백질, 보우가닌, 소 카르복시헤모글로빈, 소 성장 호르몬, C1-에스테라아제-억제제, C3 옥소효소 단백질, 카르복시헤모글로빈, CD19 길항제, 리툭산(rituxan)과 같은 CD20 길항제, CD3 수용체 길항제, CD40 길항제, 다피롤리주맙(dapirolizumab) 또는 안토바(Antova)와 같은 CD40L 길항제, 세레브로사이드 설파타아제, VGX-210와 같은 세트린(cethrin), 콘드로이틴 리아제, 노나코그(nonacog) 감마와 같은 응고 인자 Ⅸ, 코나코그(conacog) 베타, 알부트레페노나코그(albutrepenonacog) 알파, 엡타코그(eptacog) 알파와 같은 응고 인자 Ⅶa, 마르젭타코그(marzeptacog) 알파, 바트렙타코그(vatreptacog) 알파, 오렙타코그(oreptacog) 알파, 수속토코그(susoctocog) 알파와 같은 응고 인자 Ⅷ, 다목토코그(damoctocog) 알파, 투록토코그(turoctocog) 알파, 루리옥토코그(rurioctocog) 알파, 에프모록토코그(efmoroctocog) 알파, 에프랄록토코그(efraloctocog) 알파, 시목토코그(simoctocog) 알파, 응고 인자 X, 카트리데카코그(catridecacog)와 같은 응고 인자 XⅢ, 클로스트리디움 히스톨리티쿰(histolyticum)의 콜라게나아제, 보체 인자 C3 억제제, 보체 수용체 5a 길항제, 코르티코트로핀 방출 인자, FPA008와 같은 CSF1 수용체 길항제, CSF1R 길항제, 이필리무맙(ipilimumab)과 같은 CTLA-4 길항제, 시아노비린(cyanovirin)-N, doRNAe 알파와 같은 데옥시리보뉴클레아제 I, EGFR 수용체 길항제, 보나파니타아제(vonapanitase)와 같은 인간 타입 I 췌장 엘라스타아제와 같은 알레스타아제, 엔도스타틴(endostatin), 엔카스팀(enkastim), 상피 성장 인자, 에리트로포이에틴 알파, 에리트로포이에틴 제타, FcγⅡB 수용체 길항제, 피브리노게나아제(fibrinogenase), 브리나아제(brinase)와 같은 피브린용해성 효소, 섬유아세포 성장 인자 1(인간 산성 섬유아세포 성장 인자), 섬유아세포 성장 인자 18, 섬유아세포 성장 인자 2(인간 염기성 섬유아세포 성장 인자), 섬유아세포 성장 인자 21, FPA144와 같은 섬유아세포 성장 인자 수용체 2 길항제, Fms-유사 티로신 키나아제 3 리간드, 폴리트로핀(follitropin) 알파 또는 폴리트로핀 베타와 같은 여포-자극 호르몬, 인간 박테리아살해/투과성-증가 단백질 21(opebacan/rBPI 21)의 절편, 젤로닌(gelonin), 글루카곤 수용체 작용제, 압식시맙(abciximab)과 같은 당단백질 Ⅱb/Ⅲa 길항제, 콘돌리아제(condoliase)와 같은 글리코사미노글리칸-분해 효소, gp120/gp160, 과립구 콜로니 자극 인자(G-CSF), 과립구 대식세포 콜로니 자극 인자(GM-CSF), 전사 인자 E7과 융합된 마이코박테리아 BCG 유래의 열-충격 단백질 hsp 65(verpasep caltespen), 간세포 성장 인자, 간세포 성장 인자 수용체(HGFR) 길항제, 헵시딘 길항제, 헤르셉틴(herceptin)과 같은 Her2/neu 수용체 길항제, 헤테로다이머성 15:IL-15Ra(hetIL-15), 히루딘, hsp70 길항제, 인간 산 스핑고마이엘리나아제, 코리오고나도트로핀 알파와 같은 인간 융모막 고나도트로핀, 레베글루코시다아제 알파 또는 알글루코시다아제 알파와 같은 인간 효소 산 α-글루코시다아제, 인간 성장 호르몬, 인간 각질세포 성장 인자(KGF), 인간 매트릭스 메탈로프로티나아제, 인간 마이엘린 염기성 단백질 절편, 인간 골형성 단백질 1, 인간 골형성 단백질-1, 인간 부갑상선 호르몬, 인간 트롬보모듈린 알파, rHuPH20과 같은 히알루로니다아제, 인간 히알루로니다아제 PH-20과 같은 히알루로니다아제(보르히알루로니다아제 알파), 히알로시다아제(hyalosidase) 또는 보브히알루로니다아제, 글루코세레브로시다아제(glucocerebrosidase)와 같은 가수분해성 리소좀 글루코세레브로사이드-특이적 효소, 벨라글루세라아제(velaglucerase) 알파 또는 탈리글루세라아제(taliglucerase) 알파, 이두로네이트-2-설파타아제, 오말리주맙(omalizumab)과 같은 IgE 길항제, 아이이로퀴오시스 호메오박스(iIroquois homeobox) 단백질 2(IRX-2), 인슐린, 인슐린 유사체, 인테그린 α4β1 길항제, 인터페론 타우, 인터페론-알파, 인터페론-알파 길항제, 인터페론-알파 수퍼작용제, 인터페론-알파-n3(Alferon N Injection), 인터페론-베타, 인터페론-감마, 인터페론-람다, DAB(389)IL-2와 같은 인터루킨 2 융합 단백질, 오프렐레브킨(oprelevkin)과 같은 인터루킨-11, 인터루킨-12, 인터루킨-17 수용체 길항제, 인터루킨-18 결합 단백질, 인터루킨-2, 인터루킨-22, 피트라킨라(pitrakinra)와 같은 인터루킨-4, 인터루킨-4 뮤테인(mutein), 인터루킨-6 수용체 길항제, 인터루킨-7, 인터루킨-22 수용체 서브유닛 알파(IL-22ra) 길항제, 이리신, 소도 신생 연관 단백질, 칼리디노게나아제(kallidinogenase), 락토페린(lactoferrin), 락토페린 절편, 라노테플라아제(lanoteplase), 부를루리파아제와 같은 리파아제 효소, 리조리파아제, 에파피파아제(epafipase) 또는 세벨리파아제 알파, 황체형성 호르몬, 루트로핀 알파, 림프구 확장 분자, 리소스타핀, 포유동물 위 리파아제 효소(merispace), 벨마나아제(velmanase) 알파와 같은 만노시다아제, 멜라노코르틴(melanocortin)-4 수용체 작용제, MEPE-유래 23-아미노산 펩티드, 메티오닐 인간 줄기 세포 인자(ancestim), 마이크로플라스민(microplasmin), 엘루설파아제(elosulfase) 알파와 같은 N-아세틸갈락토사민-6-설파타아제, N-아세틸글루코사미니다아제, 나사루플라아제(nasaruplase) 베타, 신경 성장 인자, 뉴레굴린(neuregulin)-1, 신경독소(예컨대, 클로스트리디움 보툴리눔 신경독소와 같은 클로스트리디움 신경독소(예컨대, 클로스트리디움 보툴리눔 신경독소 혈청형 A, B, C, D, E, F 또는 G, 특히 클로스트리디움 보툴리눔 신경독소 혈청형 A)), 호중구 젤라티나아제-연관 리포칼린, 오크리플라스민(ocriplasmin), 오르니토도로스 모우바타 보체 억제제(OmCI/Coversin), 오스테오프로테게린, P128(StaphTAME), 파미테플라아제(pamiteplase), 파라토르몬(PTH), PD-1 길항제, PDGF 길항제, 펜트락신(pentraxin)-2 단백질, HY133과 같은 파지 라이신, 발리아제(valiase)와 같은 페닐알라닌 암모니아 리아제, 조직-비특이적 알칼리 포스파타아제 또는 아스포타아제(asfotase) 알파와 같은 포스파타아제, 플라스미노겐, V10153과 같은 플라스미노겐 변이체, 혈소판 유래 성장 인자-BB, 돼지 성장 호르몬, 프로히비틴(prohibitin)-표적화 펩티드 1, 프로인슐린, 단백질 A, 드로트레코그닌(drotrecognin)과 같은 단백질 C, FP-1039와 같은 단백질 결합 섬유아세포 성장 인자 수용체 리간드, 재조합 조직 인자 경로 억제제(tifacogin), 릴랙신, 세릴랙신과 같은 릴랙신 유사체, 레트플라아제(reteplase), rhPDGF-BB, 온코나아제(onconase) 또는 암피나아제(amphinase)와 같은 리보뉴클레아제, 센레보타아제, 코네스타트(conestat) 알파와 같은 세린 프로테아제 억제제, 스페리카아제(sfericase), 시알리다아제(sialidase), 가용성 보체 수용체 타입 1, 가용성 DCC(deleted in colorectal cancer) 수용체, 가용성 TACI 수용체(atacicept), 가용성 종양 괴사 인자 I 수용체(sTNF-RI), 가용성 종양 괴사 인자 Ⅱ 수용체(sTNF-RⅡ), 가용성 VEGF 수용체 Flt-1, 가용성, 인간 FcγⅡB 수용체, 스타필로키아아제, 스트렙토키나아제, 설파미다아제(sulfamidase), T-세포 수용체 리간드, 테넥테플라아제, 혈소판형성(thrombopoiesis)-자극 단백질(AMG-531), 트롬보포이에틴, 트롬보스폰딘-1, 갑상선 호르몬, 탈티렐린(taltirelin)과 같은 티로트로핀-방출 호르몬(TRH) 유사체, 조직 플라스미노겐 활성화제(activator), 파미테플라아제(pamiteplase)와 같은 조직-타입 플라스미노겐 활성화제, 트리펩타이드 펩티다아제 I, 종양 괴사 인자(TNF알파), 종양 괴사 인자 α 길항제, 라스부리카아제(rasburicase) 또는 페가드리카아제(pegadricase)와 같은 유리카아제, 유로딜라틴(urodilatin), 유로폴리트로핀, 유로키나아제, 우테로글로빈, 란비주맙(ranbizumab) 또는 베바시주맙(bevacizumab)과 같은 VEGF 길항제, VEGF/PDGF 길항제, 다중-VEGF/PDGF DARPin 또는 융합 단백질과 같은 VEGF/PDGF 길항제, 비스쿠민(viscumin), 보니코그(vonicog) 알파와 같은 폰 빌레브란트 인자를 비제한적으로 포함한다. 인터루킨 수용체 길항제, 특히 EBI-005 또는 아나킨라와 같은 인터루킨-1 수용체 길항제 및 렙틴, 특히 인간 렙틴 또는 돌연변이체 인간 렙틴(huLeptin(W100Q), 성숙한 폴리펩티드 사슬에서 100번 위치의 트립토판이 글루타민으로 치환된 인간 렙틴 돌연변이체)이 본 명세서에서 바람직하다. 인간 렙틴의 아미노산 서열은, 예컨대 UniProtKB 기탁 코드 P41159에 개시되어 있다. 돌연변이체 huLeptin(W100Q)은 하기 문헌에 개시되어 있다: Ricci (2006) Mutational approach to improve physical stability of protein therapeutics susceptible to aggregation, In Murphy (ed.) Misbehaving proteins: protein (mis)folding, aggregation, and stability, Springer, 1st edition, New York.

예시적인 펩티드 및 펩티도모방체는 아드레노코르티코트로핀 호르몬(ACTH), 아파멜라노타이드(afamelanotide), 알라렐린(alarelin), 알파 4 인테그린 억제제, 항-HIV 융합 억제제(예컨대, 엔푸르비타이드, V2o, SC34EK, SC35EK, IQN17 또는 IZN17), 앤지오텐신 Ⅱ 타입 2(AT2) 수용체 작용제(예컨대, LT2), 항-이디오타입 p53 펩티드, 아밀린, 아밀린 유사체, 아스트레신(astressin), 아토시반(atosiban), 항암 및 항 HIV 활성을 갖는 박테리아 펩티드 절편(예컨대, ATP-01), 이환형(bicyclic) 펩티드(예컨대, TG-758), 비발릴루딘, 브라디키닌 길항제(예컨대, 이카티반트), 브레멜라노타이드(bremelanotide), B-타입 나트륨이뇨 펩티드, 칼시토닌(calcitonin), 카베토신(carbetocin), 카르필조밉(carfilzomib), 크리살린(chrysalin), 실렌지타이드(cilengitide), C-타입 나트륨이뇨 펩티드, 콜로스트리닌(colostrinin), 코르티코트로핀 방출 인자(예컨대, 제레셉트, 코이슨트로핀), CNGRCG 종양 호밍(homing) 펩티드, ω-코노톡신 펩티드(예컨대, 지코노타이드), C-펩티드, 다네가프타이드(danegaptide), 데펜신, 에칼란타이드(ecallantide), 엘카토닌(elcatonin), 엘레도이신(eledoisin), 엑센딘-4, 엑센딘-4 유사체(예컨대, 엑센딘 9-39), 에즈린 펩티드 1, 인간 매트릭스 세포외 포스포당단백질 유래의 절편(예컨대, AC-100), 갈라닌(galanin), 위 억제 폴리펩티드(GIP), GIP 유사체, 글라티라머(glatiramer), 글루카곤, 글루카곤 유사체, 글루카곤-유사 펩티드 1(GLP-1), GLP-1 유사체(예컨대, 릭시세나타이드, 리라글루타이드 또는 세미글루타이드), 글루카곤-유사 펩티드 2(GLP-2), GLP-2 유사체(예컨대, 테두글루타이드), 고나도렐린, 고나도트로핀-방출 호르몬 작용제(예컨대, 고세렐린, 부세렐린, 트리프토렐린, 류프롤라이드, 프로티렐린, 레시렐린, 페르티렐린 또는 데시오렐린), 고나도트로핀-방출 호르몬 길항제(예컨대, 아바렐릭스, 세트로렐릭스, 데가렐릭스, 가니렐릭스 또는 테베렐릭스), 그렐린, 그렐린 유사체(예컨대, AZP-531), 성장 호르몬-방출 호르몬, 성장 호르몬-방출 호르몬 유사체(예컨대, 세르모렐린 또는 테사모렐린), 헤마타이드, 헵시딘 모방체 펩티드, 히스트렐린, 인돌리시딘(indolicidin), 인돌리시딘 유사체(예컨대, 오미가난), IgE 하향-조절 펩티드(예컨대, SC-01), INGAP 펩티드(엑스술린), 인슐린-유사 성장 인자 1, 인슐린-유사 성장 인자 2, Kv1.3 이온 채널 길항제(예컨대, cgtxA, cgtxE 또는 cgtxF), 란레오타이드(lanreotide), 렉틴 결합 펩티드(예컨대, sv6B, sv6D, svC2, svH1C, svH1D 또는 svL4), 란티펩티드, 라라조타이드(larazotide), 리나클로타이드(linaclotide), 루수풀타이드(lusupultide), 멜라노코르틴-4 수용체 작용제(예컨대, AZD2820), MEPE-유래 23-아미노산 펩티드, 미토콘드리아-유래 펩티드(예컨대, MOTS-c, 휴마닌, SHLP-6 또는 SHLP-2), 인슐린-유사 성장 인자 결합 단백질-2의 돌연변이체(예컨대, I-HBD1), Nav 이온 채널 조정자(modulator)(예컨대, GTx1-15 또는 VSTx3), 옥트레오타이드, 프로단백질 콘버타아제 서브틸리신/켁신 타입 9(PCSK9) 억제성 펩티드, 아주린의 펩티드 절편, 파일로머, MHC 클래스 Ⅱ-연관 불변 펩티드에 대한 펩티드 길항제(CLIP)(예컨대, VG1177), 열 충격 단백질 유래의 펩티드(예컨대, 엔카스팀), 펙시가난(pexiganan), 플로바머(plovamer), 프라믈린타이드(pramlintide), 프로히비틴-표적화 펩티드 1, 프로-아이스렛(pro-islet) 펩티드, 펩티드 티로신 티로신(PYY 3-36), RGD 펩티드 또는 펩티도모방체, 라모플라닌(ramoplanin), 세크레틴, 시나풀타이드(sinapultide), 소마토스타틴, 소마토스타틴 유사체(예컨대, 파시레오타이드 또는 CAP-232), 특이적으로 표적화된 항미생물 펩티드(STAMP)(예컨대, C16G2), 뼈 형성 단백질의 수용체 작용제(예컨대, THR-184 또는 THR-575), 스트레스코핀(stresscopin), 설팍신(surfaxin), Tc99m 압시타이드(apcitide), 테리파라타이드(PTH 1-34), 테트라코사크타이드(tetracosactide), 티모신 알파 1, TLR2 억제성 펩티드, TLR3 억제성 펩티드, TLR4 억제성 펩티드, 티모신 B4, 티모신 B15, 혈관활성 장관 펩티드, 바소프레신, (데솜프레신, 펠리프레신 또는 테를리프레신과 같은) 바소프레신 유사체를 비제한적으로 포함한다.

백신화의 문맥에서 유용한 관심있는 예시적인 생물학적 활성 단백질은 AE37 펩티드, 봄베신-가스트린-방출 펩티드, 암배아 항원(CEA), E형 간염 바이러스의 캡시드 단백질 개방 해독틀 2(ORF2) 단백질, 콜레라 독소 B, 스타필로코커스 아우레우스의 응집 인자 A, 디프테리아 독소, 디프테리아 독소 돌연변이체(예컨대, CRM 197), E. 콜라이 열 불안정성(labile) 장내독소, 슈도모나스 애루지노사의 외독소 A, 홍역 바이러스의 F 단백질, 일본 뇌염(JE) 바이러스의 당단백질 E, GPC3-유래 펩티드, A형 간염 폴리단백질, HER2-유래 펩티드 GP2, 헤레굴린(herregulin), Her2neu 펩티드, B형 간염 바이러스 표면 항원(HbSAg), 인간 글루탐산 탈카르복실라아제 단백질 이소형 65 kDa(rhGAD65), 인플루엔자 헴아글루티닌 항원(HA), 인플루엔자 뉴라미니다아제(NA), 인간 유두종 바이러스의 L1 단백질, li-Key/HER2/neu 하이브리드 펩티드, 보렐리아 부르고도르페리(borrelia burgdorferi)의 외표면의 리포단백질(OspA), 로타 바이러스의 주요 외부 캡시드 단백질, 뮤신-1(MUC-1) 펩티드, 노워크(Norwalk) 바이러스(rNVP) 캡시드 단백질, 파르보바이러스 B19 VLP, 과립세포-대식세포 콜로니-자극 인자 유래의 펩티드, 돼지 써코바이러스 2 캡시드(PCV2 ORF2) 단백질, 진드기-매개성 뇌염 바이러스의 단백질 C, 진드기-매개성 뇌염 바이러스의 단백질 E, 황열 바이러스의 단백질 E, 루벨라 바이러스의 단백질 E-1, 라브도비리대의 단백질 G of, 홍역 바이러스의 단백질 H, 파라믹소비리대의 단백질 H, 황열 바이러스의 단백질 NS, 파라믹소비리대의 단백질 N, 돼지 열 바이러스의 전립선-특이적 항원 E2 단백질, 로타 바이러스의 단백질 VP6, 로타 바이러스의 단백질 VP7, SARS 바이러스 유래의 스파이크 단백질(D3252), 폴리오 바이러스의 단백질 VP1, 폴리오 바이러스의 단백질 VP4, Ras 종양단백질, 정자 유래의 펩티드(예컨대, YLP12, P10G, A9D, mFA-12-19, SP56 및 또는 mFA-1117-136), 파상풍 독소, 투베르쿨린, 종양-연관 펩티드(TUMAP)(예컨대, IMA901, IMA910 또는 IMA950) 등을 비제한적으로 포함한다.

한 측면에서, 본 발명은 본 명세서에서 개시된 것과 같은 핵산 분자, 예를 들면, 프롤린, 알라닌 및 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열을 포함하는 핵산 분자에 관한 것이며, 상기 핵산의 뉴클레오티드 서열은 적어도 300개 뉴클레오티드의 길이를 갖는다; 또는

본 발명은 한 측면에서 본 명세서에서 개시된 것과 같은 생물학적 활성 단백질을 암호화하는 핵산과 동일한 해독틀에서 작동가능하게 결합된 핵산 분자, 예를 들면, 프롤린, 알라닌 및 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열을 포함하는 핵산 분자에 관한 것이며, 상기 핵산의 뉴클레오티드 서열은 적어도 300개 뉴클레오티드의 기이를 갖고, 상기 핵산 분자는 생물학적 활성 단백질을 암호화하는 핵산과 동일한 해독틀에서 작동가능하게 결합된다;

상기 뉴클레오티드 서열은 하기 서열은 아니다:

본 발명은 한 측면에서 본 명세서에서 개시된 것과 같은 생물학적 활성 단백질을 암호화하는 핵산과 동일한 해독틀에서 작동가능하게 결합된 핵산 분자, 예를 들면, 프롤린, 알라닌 및 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열을 포함하는 핵산 분자에 관한 것이며, 상기 핵산의 뉴클레오티드 서열은 적어도 300개 뉴클레오티드의 길이를 갖고, 상기 핵산 분자는 생물학적 활성 단백질을 암호화하는 핵산과 동일한 해독틀에서 작동가능하게 결합된다;

상기 뉴클레오티드 서열은 하기 서열은 아니다:

한 측면에서, 본 발명은 핵산 분자에 관한 것이며, 상기 핵산 분자는 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열로 이루어지고,

상기 핵산의 뉴클레오티드 서열은 적어도 300개 뉴클레오티드의 길이를 가지며,

상기에서, N_tot는 상기 뉴클레오티드 서열의 길이이고,

n은 상기 뉴클레오티드 서열 내의 반복물의 길이이며, 및

f_i(n)은 길이 n인 상기 반복물의 빈도이고,

또한, 본발명은 또한 본 발명의 핵산 분자 또는 뉴클레오티드 서열을 포함하는 벡터에 관한 것이다. 상기 벡터는 또한 (ⅰ) 알라닌, 프롤린 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열 및 (ⅱ) 생물학적 활성 단백질을 암호화하는 뉴클레오티드 서열을 포함하는 핵산 분자를 제공하기 위해 도입될 수 있다: 예컨대, 도 4 및 실시예 7 참조.

이러한 벡터는 상기 암호화된 랜덤 코일 폴리펩티드 및 생물학적 활성 단백질을 포함하는 융합 단백질을 발현하기 위한 발현 벡터로서 도입될 수 있다. 따라서, 상기 암호화된 융합 단백질은 (ⅱ) 생물학적 활성 단백질에 커플링된 (ⅰ) 낮은 반복적인 뉴클레오티드 서열에 의해 암호화된 랜덤 코일 폴리펩티드를 포괄한다. 바람직하게는, 상기 랜덤 코일 폴리펩티드는 알라닌, 프롤린 및 선택적으로 세린으로 이루어진다. 예시적인 벡터는 서열번호 56에 제공된다. 첨부된 실시예에서, 예시적인 방법이 이러한 벡터 또는 핵산 분자를 제공하기 위해 나타나 있다; 예컨대, 도 6 및 실시예 7 참조.

본 발명의 방법에서, 본 명세서에서 제공되는 벡터는 생물학적 활성 단백질을 암호화하는 뉴클레오티드 서열을 포함하며, 다음 단계에서, PA-풍부 폴리펩티드를 암호화하는 뉴클레오티드 서열이 상기 벡터 내로 도입된다. 상기 프롤린/알라닌-풍부 서열을 암호화하는 뉴클레오티드 서열을 상기 생물학적 활성 단백질을 암호화하는 뉴클레오티드 서열을 포함하는 벡터 내로 도입하기 위하여, 예컨대, 알라닌, 프롤린 및/또는 선택적으로 세린을 암호화하는 적어도 하나의 뉴클레오티드 트리플렛/코돈을 포함하는 돌출부가 도입될 수 있다: 상기 참조. 따라서, 이러한 트리플렛 또는 코돈은 상기 프롤린/알라닌-풍부 서열, 특히 알라닌의 일부로 간주되는 아미노산을 암호화할 수 있다.

결과적으로, 본 명세서에서 제공되는 방법 및 벡터는 종래의 제한 부위를 이용함으로써 도입될 수 있는 부가적인 아미노산 링커의 도입을 피한다. 따라서, 본 명세서에서 제공되는 수단 및 방법은 본 발명의 (ⅰ) 알라닌, 프롤린 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열 및 (ⅱ) 생물학적 활성 단백질을 암호화하는 뉴클레오티드 서열을 포함하는 핵산 분자의 솔기없는 클로닝을 허용한다.

많은 적합한 벡터가 분자 생물학의 숙련된 기술자에게 알려져 있다. 플라스미드, 코스미드, 바이러스, 박테리오파지 및 유전 공학에서 종래에 사용되는 다른 벡터를 포함하는 적합한 벡터의 선택은 원하는 기능에 의존한다.

바람직하게는, 상기 벡터는 플라스미드, 보다 바람직하게는 일반적인 E. 콜라이 발현 벡터 pASK37, pASK75 또는 pXL2에 기반한 플라스미드이다.

본 기술분야의 숙련된 기술자에게 잘 알려진 방법이 다양한 플라스미드를 구축하기 위해 사용될 수 있다; 예를 들면, 하기 문헌들에 개시된 기술들 참조: Sambrook (2001) loc cit. 및 Ausubel (1989) loc. cit. 전형적인 플라스미드 벡터는, 예컨대 pQE-12, pUC 시리즈의 플라스미드, pBluescript(Stratagene), pET 시리즈의 발현 벡터(Novagen) 또는 pCRTOPO(Invitrogen), 람다 gt11, pJOE, pBBR1-MCS 시리즈, pJB861, pBSMuL, pBC2, pUCPKS, 및 pTACT1를 포함한다. 포유동물 세포에서의 발현과 호환되는 전형적인 벡터는 E-027 pCAG Kosak-Cherry(L45a) 벡터 시스템, pREP(Invitrogen), pCEP4(Invitrogen), pMC1neo(Stratagene), pXT1(Stratagene), pSG5(Stratagene), EBO-pSV2neo, pBPV-1, pdBPVMMTneo, pRSVgpt, pRSVneo, pSV2-dhfr, pIZD35, Okayama-Berg cDNA 발현 벡터 pcDV1(Pharmacia), pRc/CMV, pcDNA1, pcDNA3(Invitrogen), pcDNA3.1, pSPORT1(GIBCO BRL), pGEMHE(Promega), pLXIN, pSIR(Clontech), pIRES-EGFP(Clontech), pEAK-10(Edge Biosystems) pTriEx-Hygro(Novagen) 및 pCINeo(Promega)를 포함한다. 피키아 파스토리스에 대해 적합한 플라스미드 벡터의 비제한적 예는, 예컨대 플라스미드 pAO815, pPIC9K 및 pPIC3.5K(모두 Invitrogen)를 포함한다.

일반적으로, 벡터는 클로닝 또는 발현을 위한 하나 이상의 복제 기원(ori) 및 유전 시스템, 숙주에서의 선별을 위한 하나 이상의 마커, 예컨대 항생제 저항성 마커, 및 하나 이상의 발현 카세트를 함유할 수 있다. 적합한 복제 기원의 예는, 예를 들면, 전체 길이의 ColE1, pUC 플라스미드 상에 존재하는 것들과 같은 그 절단된 버전, SV40 바이러스 및 M13 파지의 복제 기원을 포함한다. 선별가능한 마커의 비제한적 예는 암피실린, 클로람페니콜, 테트라사이클린, 카나마이신, dhfr, gpt, 네오마이신, 하이그로마이신, 블라스티시딘 또는 게네티신을 포함한다.

또한, 상기 벡터는 본 명세서에서 정의되는 상기 뉴클레오티드 서열 또는 핵산 분자에 작동가능하게 결합된 조절 서열을 포함한다.

상기 코딩 서열(들), 예컨대 상기 벡터 내에 포함되는 PA-풍부 폴리펩티드를 암호화하는 뉴클레오티드 서열은 확립된 방법을 이용하여 (a) 전사 조절 인자(들) 및/또는 다른 아미노산을 암호화하는 서열들에 결합될 수 있다. 이러한 조절 서열은 본 기술분야의 숙련된 기술자에게 잘 알려져 있으며, 전사의 개시를 보장하는 조절 서열, 내부 리보솜 진입 부위(IRES) 및, 선택적으로 전사의 종결 및 전사체의 안정화를 보장하는 조절 인자를 비제한적으로 포함한다. 전사의 개시를 보장하는 이러한 조절 서열의 비제한적 예는 프로모터, 번역 개시 코돈, 인핸서(enhancer), 인슐레이터(insulator) 및/또는 전사 종결을 보장하조절 인자를 포함한다. 추가 예는 Kozak 서열 및 RNA 스플라이싱을 위한 공여자 및 수용자의 옆에 있는 매개 서열, 분비 신호를 암호화하는 핵산 서열 또는, 사용되는 발현 시스템에 따라, 발현된 단백질을 세포 구획(compartment) 또는 배양 배지로 지향하게 할 수 있는 신호 서열을 포함한다.

적합한 프로모터의 예는 사이토메갈로바이러스(CMV) 프로모터, SV40 프로모터, RSV(Rous sarcome virus) 프로모터, lacZ 프로모터, 닭 β-액틴 프로모터, CAG 프로모터(닭 β-액틴 프로모터와 사이토메갈로바이러스 즉시-초기 인핸서의 조합), 인간 연장 인자 1a 프로모터, AOX1 프로모터, GAL1 프로모터, CaM-키나아제 프로모터, lac, trp 또는 tac 프로모터, lacUV5 프로모터, T7 또는 T5 프로모터, 오토그래파 캘리포니카(Autographa californica)의 다수의 핵 다면체병 바이러스(AcMNPV)의 다면체 프로모터 또는 포유동물 및 다른 동물 세포에서의 글로빈 인트론을 비제한적으로 포함한다.

또한, 발현 시스템에 따라, 폴리펩티드를 세포 구획으로 지향하거나 이를 배지로 분비하게 할 수 있는 리더 서열이 본 명세서에서 제공되는 핵산 분자의 코딩 서열에 부가될 수 있다. 상기 리더 서열(들)은 틀 내에서 번역, 개시 및 종결 서열과 함께 조립되고, 바람직하게는 리더 서열은 번역된 단백질 또는 그의 일부의 주변세포질 공간(periplasmic space) 또는 세포외 배지 내로 분비하는 것을 지향할 수 있다. 적합한 리더 서열은, 예를 들면, BAP(박테리아 알칼리 포스파타아제)의 신호 서열, CTB(콜레라 독소 서브유닛 B), DsbA, ENX, OmpA, PhoA, stⅡ, OmpT, PelB, E. 콜라이에서의 Tat(Twin-arginine translocation), 및 진핵생물 세포에서의 소 성장 호르몬, 인간 키모트립시노겐, 인간 인자 Ⅷ, 인간 ig-카파, 인간 인슐린, 인간 인터루킨-2, 메트리다 또는 바르굴라 유래의 루시퍼라아제, 인간 트립시노겐-2, 클루이베로마이세스 막시아누스 유래의 이눌리나아제(inulinase), 사카로마이세스 세레비지애 유래의 메이팅 인자 알파-1, 멜리틴, 인간 아주로시딘 등의 신호 서열이다.

상기 벡터는 또한 올바른 단백질 접힘을 촉진하기 위하여 하나 이상의 샤페론(chaperone)을 코딩하는 부가적인 발현가능한 핵산 서열을 함유할 수 있다.

바람직하게는, 본 발명의 벡터는 발현 벡터이다. 본 발명에 따른 발현 벡터는 본 발명의 핵산 분자, 예컨대 프롤린/알라닌-풍부 폴리펩티드를 암호화하는 뉴클레오티드 서열 및 생물학적 활성 단백질을 암호화하는 뉴클레오티드 서열을 포함하는 핵산 분자의 복제 및 발현을 지향할 수 있다. 첨부된 실시예에서, (ⅰ) 프롤린, 알라닌 및 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열 및 (ⅱ) 생물학적 활성 단백질, 예컨대 IL-1Ra를 포함하는 발현 벡터가 구축되었다: 실시예 6 참조. 프롤린 및 알라닌으로 이루어지는 폴리펩티드를 암호화하는 핵산 분자를 포함하는 예시적인 발현 벡터가 실시예 10에 나타나 있다.

적합한 박테리아 발현 숙주는, 예컨대 에세리키아 콜라이 JM83, W3110, KS272, TG1, BL21(예컨대, BL21(DE3), BL21(DE3)PlysS, BL21(DE3)RIL, BL21(DE3)PRARE), Origami(K-12), Origami B 또는 로제타 유래의 균주를 포함한다. 벡터의 변형을 위하여, PCR 증폭 및 라이게이션 기술이 있으며, 하기 문헌에 개시된 방법 참조: Sambrook (2001) loc. cit.

부가적으로, 배큘로바이러스 시스템이 또한 진핵생물 발현 시스템에서 본 발명의 핵산 분자를 발현하기 위한 벡터로서 사용될 수 있다. 상기 측면에서, pFBDM 벡터가 발현 벡터로 사용될 수 있다. 상기 MultiBac 배큘로바이러스 DNA 내로의 삽입은 DH10 MultiBac E. 콜라이 세포의 형질전환시 Tn7 전위(transposition) 서열을 통해 매개된다(Berger (2013) J. Vis. Exp. 77:50159, Fitzgerald (2006) Nat. Methods. 2006 3:1021-1032). 바이러스 증폭 및 발현은 Sf21(Spodoptera frugiperda) 또는 하이 파이브(High Five)(Trichoplusia ni) 세포에서 수행될 수 있다.

상기 본 명세서에서 개시된 것과 같은 본 발명의 핵산 분자 및/또는 벡터는, 예컨대 비-화학적 방법(전기천공, 초음파천공, 광학적 전달감염(optical transfection), 유전자 전기전달(electrotransfer), 세로와 본 발명의 핵산 분자의 접촉시의 수력학적 운반 또는 자연 발생형 형질전환), 화학-기반의 방법(칼슘 포스페이트, DMSO, PEG, 리포좀, DEAE-덱스트란, 폴리에틸렌이민, 뉴클레오펙션(nucleofection) 등), 입자-기반의 방법(유전자 총, 자기주입법(magnetofection), 임페일펙션(impalefection)), 파지 또는 파지미드 벡터-기반의 방법 및 바이러스 방법에 의해 세포 내로 도입하기 위해 디자인될 수 있다. 예를 들면, 레트로바이러스, 백시니아 바이러스, 아데노-연관 바이러스, 헤르페스 바이러스, 셈리키 삼림열 바이러스 또는 소 유두종 보아리스와 같은 바이러스 유래의 발현 벡터가 상기 핵산 분자를 표적화된 세포 군집 내로 운반하기 위해 사용될 수 있다.

바람직하게는, 본 발명의 핵산 분자 및/또는 벡터는 전기청공에 의한 전기천공적격(electrocompetent) E. 콜라이의 형질전환 또는 칼슘 포스페이트, 폴리에틸렌이민 또는 리포펙타민 전달감염에 의한 CHO 세포의 안정한 전달감염을 위해 디자인된다(Pham (2006) Mol. Biotechnol. 34:225-237; Geisse (2012) Methods Mol. Biol. 899:203-219; Hacker (2013) Protein Expr. Purif. 92:67-76).

본 발명은 또한 본 발명의 벡터 또는 핵산 분자로 형질전환된 숙주 세포 또는 비-인간 숙주에 관한 것이다. 본 발명에 따른 "본 발명의 벡터로 형질전환된 숙주 세포 또는 비-인간 숙주"란 용어는 본 발명의 벡터 또는 핵산 분자를 포함하는 숙주 세포 또는 비-인간 숙주에 관한 것임이 인식될 것이다. 폴리펩티드의 발현을 위한 숙주 세포는 본 기술분야에 잘 알려져 있으며, 원핵생물 세포뿐만 아니라 진핵생물 세포도 포함한다. 따라서, 상기 숙주는 박테리아, 포유동물 세포, 조류 세포, 섬모류, 효모 및 식물 세포로부터 선택될 수 있다.

전형적인 박테리아는 에세리키아, 코리네박테리움(글루타미쿰), 슈도모나스(플루오레센스), 락토바실러스, 스트렙토마이세스, 살모넬라 바실러스(예컨대, 바실러스 메가테리움 또는 바실러스 서브틸리스) 또는 코리네박테리움(예컨대, 코리네박테리움 글루타미쿰)을 포함한다. 본 명세서에서 가장 바람직한 박테리아 숙주는 E. 콜라이이다. 본 명세서에서 사용되는 예시적인 섬모류는 테트라히메나, 예컨대 테트라히메나 썰모필라이다.

전형적인 포유동물 세포는 Hela, HEK293, HEK293T, H9, Per.C6 및 Jurkat 세포, 마우스 NIH3T3, NS0 및 C127 세포, COS 1, COS 7 및 CV1, 메추라기 QC1-3 세포, 마우스 L 세포, 마우스 육종 세포, 바우스 흑색종 세포 및 중국 햄스터 난소(CHO) 세포를 포함한다. 본 발명에 따른 가장 바람직한 포유동물 숙주 세포는 CHO 세포이다. 본 명세서에서 사용되는 예시적인 숙주는 크리세툴러스, 예컨대, 크리세툴러스 그리세우스(중국 햄스터)이다. 또한, 인간 배아 신장(HEK) 세포가 바람직하다.

다른 적합한 진핵생물 숙주 세포는, 예컨대 피키아 파스토리스, 클루이베로마이세스 락티스, 사카로마이세스 세레비지애 및 스키조사카로마이세스 폼베와 같은 효모, 또는 예컨대 DT40 세포와 같은 닭 세포이다. 발현에 적합한 곤충 세포는, 예컨대 초파리 S2, 초파리 Kc, 스포돕테라(Spodoptera) Sf9 및 Sf21 또는 트리초플루시아(Trichoplusia) Hi5 세포이다. 바람직한 조류 세포는 클라미도모나스 레인하드티이(Chlamydomonas reinhardtii) 또는 시네초코쿠스 엘론가투스(Synechococcus elongatus) 세포 등이다. 예시적인 식물은 피스코미트렐라(Physcomitrella), 예를 들면 피스코미트렐라 파텐스이다. 예시적인 식물 세포는 피스코미트렐라 식물 세포, 예컨대 피스코미트렐라 파텐스 식물 세포이다.

또한, 1차(primary) 포유동물 세포 또는 세포주도 본 발명의 범위에 속한다. 1차 세포는 유기체로부터 직접 얻어진 세포이다. 적합한 1차 세포는, 예를 들면, 마우스 배아 섬유아세포(MEF), 마우스 1차 간세포, 심장근세포 및 뉴런 세포뿐만 아니라 마우스 근육 줄기 세포(위성 세포), 인간 진피 또는 폐 섬유아세포, 인간 상피 세포(코, 기관, 신장, 태반, 창자, 기관지 상피 세포), 인간 분비 세포(타액, 피지 및 땀샘 유래), 인간 내분비 세포(갑상선 세포), 인간 지방 세포, 인간 평활근 세포, 인간 골격근 세포, B-세포, T-세포, NK-세포 또는 수지상 세포와 같은 인간 백혈구 및 이들로부터 유래되는 안정한 불멸화된 세포주(예를 들면, hTERT 또는 암유전자 불멸화된 세포)이다. 전술한 숙주 세포에 대한 적합한 배양 배지 및 조건은 본 기술분야에 알려져 있다.

상기 숙주 세포는 예컨대 본 명세서에서 제공되는 핵산 분자, 본 명세서에서 제공되는 암호화된 폴리펩티드 및/또는 본 명세서에서 제공되는 상기 약물 접합체를 대량으로 생산하기 위해 도입될 수 있다. 따라서, 상기 숙주 세포는 본 명세서에서 제공되는 핵산 분자, PA-풍부 폴리펩티드를 암호화하는 뉴클레오티드 서열을 포함하는 핵산 분자에 의해 암호화된 폴리펩티드 및/또는 상기 PA-풍부 폴리펩티드 및 생물학적 활성 단백질을 암호화하는 뉴클레오티드 서열을 포함하는 핵산 분자에 의해 암호화된 폴리펩티드를 대량으로 생산하기 위해 도입될 수 있다.

따라서, 본 발명은 또한 본 명세서에서 제공되는 핵산 분자 또는 벡터의 제조 방법에 관한 것이며, 상기 방법은 본 발명의 숙주 또는 숙주 세포를 적합한 조건 하에 배양하는 단계 및 선택적으로 상기 생산된 핵산 분자 및/또는 벡터를 단리하는 단계를 포함한다.

또한, 본 발명은 본 명세서에서 제공되는 핵산 분자 또는 뉴클레오티드 서열에 의해 암호화된 폴리펩티드의 제조 방법에 관한 것이며, 상기 방법은 본 발명의 숙주 또는 숙주 세포를 적합한 조건 하에 배양하는 단계 및 선택적으로 상기 생산된 폴리펩티드를 단리하는 단계를 포함한다.

또한, 본 발명은 약물 접합체의 제조 방법에 관한 것이며, 상기 방법은 본 발명의 숙주 세포를 적합한 조건 하에 배양하는 단계 및 선택적으로 상기 생산된 상기 약물 접합체를 단리하는 단계를 포함한다. 바람직하게는, 본 발명은 약물 접합체의 제조 방법에 관한 것이며, 상기 약물 접합체는 상기 핵산 분자에 의해 암호화되고, 상기 핵산 분자는 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드 및 생물학적 활성 단백질을 암호화하는 뉴클레오티드 서열을 포함한다.

따라서, 본 발명은 한 측면에서 약물 접합체의 제조 방법에 관한 것이며, 상기 약물 접합체는 본 명세서에서 정의된 것과 같은 핵산 분자에 의해 암호화된 폴리펩티드를 포함하고, (ⅰ) 생물학적 활성 단백질 및/또는 (ⅱ) 소분자 및/또는 (ⅲ) 탄수화물을 추가로 포함하며, 상기 방법은 본 명세서에서 제공된 것과 같은 숙주 또는 숙주 세포를 배양하는 단계 및 선택적으로 상기 생산된 폴리펩티드 및/또는 약물 접합체를 단리하는 단계를 추가로 포함한다. 예를 들면, 상기 약물 접합체가 본 명세서에서 정의된 것과 같은 핵산 분자에 의해 암호화된 폴리펩티드를 포함하고 생물학적 활성 단백질을 추가로 포함하는 융합 단백질이면, 상기 방법은 본 명세서에서 제공되는 것과 같은 숙주 또는 숙주 세포(즉, 본 명세서에서 제공되는 것과 같은 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 핵산 및 본 명세서에서 정의된 것과 같은 생물학적 활성 단백질, 특히 치료적 활성 단백질을 암호화하는 핵산을 포함하는 숙주 또는 숙주 세포)를 배양하는 단계 및 선택적으로 상기 생산된 융합 단백질(약물 접합체)을 단리하는 단계를 추가로 포함할 수 있다. 물론, 상기 약물 접합체가 단백질이면, 상기 방법은 또한 본 명세서에서 제공되는 것과 같은 숙주 또는 숙주 세포(즉, 본 명세서에서 제공되는 것과 같은 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 핵산을 포함하는 숙주 또는 숙주 세포)를 배양하는 단계 및/또는 본 명세서에서 정의된 것과 같은 생물학적 활성 단백질, 특히 치료적 활성 단백질을 암호화하는 핵산을 포함하는 숙주 또는 숙주 세포를 배양하는 단계 및 선택적으로 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 생산된 폴리펩티드를 단리하는 단계 및/또는 생산된 생물학적 활성 단백질을 단리하는 단계 및 추가 선택적으로 상기 폴리펩티드 및 생물학적 활성 단백질을 접합시켜 상기 약물 접합체를 생산하는 단계를 포함할 수 있다.

예를 들면, 상기 약물 접합체가 본 명세서에서 정의된 것과 같은 핵산 분자(즉, 본 명세서에서 제공되는 것과 같은 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 핵산)에 의해 암호화된 폴리펩티드 및 소분자 및/또는 탄수화물의 접합체이면, 상기 방법은 본 명세서에서 제공되는 것과 같은 숙주 또는 숙주 세포(즉, 본 명세서에서 제공되는 것과 같은 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 핵산을 포함하는 숙주 또는 숙주 세포)를 배양하는 단계 및 선택적으로 상기 생산된 폴리펩티드를 단리하는 단계 및 추가 선택적으로 상기 폴리펩티드를 (예컨대, 화학적 커플링에 의해) 상기 소분자 및/또는 탄수화물에 접합시키는 단계를 추가로 포함할 수 있다.

"상기 숙주 또는 숙주 세포를 배양하는 것"은 상기 문맥에서 상기 숙주 또는 숙주 세포에서 본 명세서에서 정의된 것과 같은 폴리펩티드 및/또는 생물학적 활성 단백질을 발현하는 것을 포함한다.

첨부된 실시예에서 (ⅰ) 프롤린, 알라닌 및 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열 및 (ⅱ) IL-1Ra와 같은 생물학적 활성 단백질을 포함하는 이러한 핵산 분자는 박테리아에서 발현되고, 이어서 정제될 수 있음을 보여준다: 실시예 8 및 도 7 참조. 또한, 본 명세서에서 본 명세서에서 제공되는 핵산 분자에 의해 암호화된 프롤린 및 알라닌으로 이루어지는 폴리펩티드가 발현 및 정제될 수 있음이 나타나 있다: 예컨대, 실시예 11 및 도 8 참조. 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 암호화된 폴리펩티드를 소분자 약물, 탄수화물 및/또는 생물학적 활성 단백질에 접합시킴으로써, 상기 소분자/소분자 약물 및/또는 생물학적 활성 단백질의 혈장 반감기 및/또는 용해도가 증가될 수 있고, 비특이적 독성이 감소될 수 있으며, 신체에서 상기 활성 약물이 표적 세포 또는 구조물에 장기간 노출되면 향상된 약력학을 야기할 수 있다.

본 발명의 숙주에 존재하는 벡터는 발현 벡터이거나, 상기 벡터는 단백질의 발현이 보장되는 방식으로 숙주 세포의 게놈 내로 본 발명의 핵산 분자의 안정한 통합을 매개한다. 본 발명의 핵산 분자가 성공적으로 도입되어 단백질의 발현이 보장되는 숙주 세포를 선별하는 수단 및 방법은 본 기술분야에 잘 알려져 있으며, 하기 문헌에 개시되어 있다: Browne (2007) Trends Biotechnol. 25:425-432; Matasci (2008) Drug Discov. Today: Technol. 5:e37-e42; Wurm (2004) Nat. Biotechnol. 22:1393-1398.

원핵생물 또는 진핵생물 숙주 세포를 배양하기 위한 적합한 조건은 본 기술분야의 숙련된 기술자에게 잘 알려져 있다. 예를 들면, E. 콜라이과 같은 박테리아는 에어레이션(aeration) 하에 전형적으로 4 내지 약 37℃의 온도에서 Luria Bertani(LB) 배지에서 배양될 수 있다. 발현된 생성물의 수율 및 용해도를 증가시키기 위하여, 상기 배지는 버퍼화되거나 이를 향상 또는 촉진하는 것으로 알려진 적합한 첨가제로 보충될 수 있다. 유도가능한 프로모터가 상기 숙주 세포에 존재하는 벡터에서 본 발명의 핵산 분자를 조절하는 경우에, 상기 폴리펩티드의 발현은, 예컨대 첨부된 실시예에서 도입된 것과 같은 이소프로필-β-D-티오갈락토피라노사이드(IPTG) 또는 안하이드로테트라사이클린(aTc)와 같은 적합한 유도제의 첨가에 의해 유도될 수 있다. 적합한 발현 프로토콜 및 전략은 본 기술분야, 예컨대 샘브룩의 문헌(Sambrook (2001) loc. cit.)에 개시되어 있으며(Gebauer (2012) Meth. Enzymol. 503:157-188), 필요시 특정 숙주 세포의 필요성 및 발현되는 단백질의 요구사항에 따라 적응될 수 있다.

세포 타입 및 그 구체적인 요구사항에 따라, 포유동물 세포 배양은, 예컨대 RPMI, Williams' E 또는 10%(v/v) FCS, 2 mM L-글루타민 및 100 U/㎖ 페니실린/스트렙토마이신을 함유하는 배지 DMEM에서 수행될 수 있다. 상기 세포는, 예컨대 DT40 닭 세포의 경우 37℃, 또는 41℃, 5% CO₂, 물-포화된 대기 하에 유지될 수 있다. 곤충 세포 배양을 위한 적합한 배지는, 예컨대 TNM + 10% FCS, SF900 또는 HyClone SFX-곤충 배지이다. 곤충 세포는 대개 27℃에서 부착 또는 현탁 배양에서 자란다. 진핵생물 또는 척추동물 세포를 위한 적합한 발현 프로토콜은 본 기술분야의 숙련된 기술자에게 잘 알려져 있으며, 예컨대 샘브룩의 문헌(Sambrook (2001)(loc. cit))으로부터 검색될 수 있다.

바람직하게는, 본 발명의 핵산 분자, 벡터, 폴리펩티드 및/또는 약물 접합체의 제조 방법은, 예컨대 E. 콜라이 세포와 같은 박테리아 세포 또는 예컨대 CHO 세포와 같은 포유동물 세포를 이용해 수행된다. 보다 바람직하게는, 상기 방법은 E. 콜라이 세포 또는 CHO 세포를 이용해 수행되고, 보다 바람직하게는 상기 방법은 E. 콜라이 세포를 이용해 수행된다.

생산된 상기 암호화된 폴리펩티드를 단리하기 위한 방법은 (바람직하게는 Strep-태그 Ⅱ 또는 His₆-태그와 같은 융합 태그를 이용하는) 친화성 크로마토그래피, 겔 여과(크기 배제 크로마토그래피), 음이온 교환 크로마토그래피, 양이온 교환 크로마토그래피, 소수성 상호작용 크로마토그래피, 고압 액체 크로마토그래피(HPLC), 역상 HPLC, 암모늄 설페이트 침전 또는 면역침전과 같은 정제 단계를 비제한적으로 포함한다. 상기 방법은 본 기술분야에 잘 알려져 있으며, 일반적으로 예컨대 샘브룩의 문헌(Sambrook (2001) loc. cit.)에 개시되어 있고, 또한 첨부된 실시예에 개시되어 있다: 예컨대, 실시예 8 및 실시예 11 참조. 이러한 방법은 실질적으로 정제된 폴리펩티드를 제공한다. 상기 정제된 폴리펩티드는 바람직하게는 적어도 약 90 내지 95%(단백질 레벨에서), 보다 바람직하게는 적어도 약 98 내지 99%의 동질성(homogeneity)을 갖는다. 가장 바람직하게는, 상기 정제된 폴리펩티드는 약학적 용도/적용을 위해 적합하다. 또한, 식품 또는 화장품 산업에서의 적용도 본 명세서에서 예측된다. 상기 생산 절차에 도입되는 숙주 세포/유기체에 따라, 본 발명의 암호화된 폴리펩티드는 글리코실화될 수 있거나 글리코실화되지 않을 수 있다. 바람직하게는, 본 발명의 핵산 분자에 의해 암호화된 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드는 글리코실화되지 않는다. 가장 바람직하게는, 본 발명의 핵산 분자에 의해 암호화된 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드는 그 측쇄에, 예를 들면 프롤린 히드록실화에 의해 번역후 변형되지 않는다.

상기 암호화된 랜덤 코일 폴리펩티드는 알라닌, 프롤린 및 선택적으로 세린 잔기로 우세하게 이루어지며, O- 또는 N-글리코실화를 필요로 하는 세린, 트레오닌 또는 아스파라긴은 없는 것이 바람직하다. 따라서, 상기 폴리펩티드 자체 또는 상기 암호화된 랜덤 코일 폴리펩티드를 포함하는 생물학적 활성 단백질의 생산은 바람직하게는 상기 Pro/Ala/Ser 또는 Pro/Ala 서열 내에 번역후 변형이 없는 단순분산(monodisperse) 생성물을 야기할 수 있다. 이것은 복잡한단백질의 생합성을 위해 종종 선택되는 진핵생물 세포, 예컨대 중국 햄스터 난소 세포(CHO), HEK 세포 또는 효모에서의 재조합 단백질 생성을 위해 유리하다.

본 발명은 또한 약물 접합체의 제조 방법에 관한 것이며, 상기 약물 접합체는 본 명세서에서 제공되는 본 발명의 핵산 분자에 의해 암호화된 폴리펩티드를 포함하고, 추가로 (ⅰ) 생물학적 활성 단백질 및/또는 (ⅱ) 소분자 및/또는 (ⅲ) 탄수화물을 포함한다. 이러한 탄수화물 접합체는 백신으로서 특히 유용할 수 있다.

전술한 것과 같이, PA-풍부 폴리펩티드 및 생물학적 활성 단백질을 포함하는 약물 접합체는 상기 PA-풍부 폴리펩티드를 암호화하는 뉴클레오티드 서열을 포함하는 핵산 분자 및 상기 생물학적 활성 단백질을 암호화하는 핵산 분자를 발현시킴으로써 제조될 수 있다. 상기 발현된 약물 접합체는 단리될 수 있다. 대안적으로, 상기 약물 접합체는 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 상기 폴리펩티드를 암호화하는 뉴클레오티드 서열 또는 핵산 분자를 포함하는 숙주 세포를 배양/재배함으로써 제조될 수 있다. 따라서, 상기 핵산 분자는 상기 숙주에서 발현된다. 선택적으로, 상기 생산된 폴리펩티드는 단리된다. 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 상기 생산된 폴리펩티드는, 예컨대 펩티드 결합 또는 비-펩티드 결합을 통해 상기 생물학적 활성 단백질에 접합될 수 있다.

실증적인 실시예에서 본 명세서에서 제공되는 핵산 분자에 의해 암호화된 PA-풍부 폴리펩티드는 박테리아에서 발현될 수 있고 이로부터 정제될 수 있음을 보여준다; 예컨대, 실시예 11 및 도 8 참조. 특히, 놀랍게도 제조된 폴리펩티드의 출발 메티오닌(N-말단 메티오닌)이 잘려 나가고, 따라서 생산된 폴리펩티드에서 빠졌음이 나타나 있다; 예컨대, 실시예 12 및 도 8d 참조. 상기 제조된 폴리펩티드에서 빠진 출발 메티오닌은 N-말단에서 생물학적 활성 단백질, 소분자 및/또는 탄수화물에 대한 이후의 아미노산(출발 메티오닌 이후)의 1차 아미노기의 솔기없는 접합을 허용한다. 따라서, 본 발명의 핵산 분자 및 그의 제조된 폴리펩티드는 예컨대 생물학적 활성 단백질에 대한 접합을 위해 특히 유익하다.

특히, 상기 생물학적 활성 단백질은, 예컨대 N-(3-디메틸아미노프로필)-N'-에틸카르보디이미드(EDC) 또는 N-히드록시숙신이미드(NHS) 에스테르와 같은 활성화제의 존재 하에 생산된 랜덤 코일 폴리펩티드의 N-말단에 부위-특이적으로 접합될 수 있다(Hermanson (1996) Bioconjugate Techniques, 1st edition, Academic Press, San Diego, CA). 대안적으로, 상기 생물학적 활성 단백질은, 예컨대 EDC와 같은 활성화제의 존재 하에 또는 NHS 에스테르로서 활성화된 후에 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 생산된 랜덤 코일 폴리펩티드의 C-말단에 부위-특이적으로 접합될 수 있다.

또한, 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 생산된 폴리펩티드는 비-펩티드 결합을 통해 소분자 및/또는 탄수화물에 접합될 수 있다. 단백질의 가교-결합에 유용한 비-펩티드 결합은 본 기술분야에 알려져 있으며, 예컨대 2개의 Cys 측쇄 및/또는 티올기 사이의 이황화 결합, 티오에테르 결합 및 카르복실기 및 아미노기 사이의 아미드 결합을 포함할 수 있다. 비-펩티드 공유 결합은 또한 디숙신이미딜 수베레이트(DSS), N-β-말레이미도프로필-옥시숙신이미드 에스테르(BMPS) 또는 설포숙신이미딜 4-[p-말레이미도페닐]부티레이트(Sulfo-SMPB), 금속-킬레이팅/착물화기와 같은 화학적 가교-결합제뿐만 아니라 비-공유결합성 단백질-단백질 또는 단백질-펩티드 상호작용에 의해 제공될 수 있다.

또한, 소분자 약물은 부위-특이적으로 랜덤 코일을 형성하는 폴리펩티드에 접합될 수 있다. 선택적으로, 상기 폴리펩티드의 N-말단은 적합한 보호기, 예를 들면 아세틸기 또는 피로글루타밀기로 변형될 수 있으며, 예컨대 보통의 시약 EDC 및 NHS(Hermanson (1996) loc. cit.)를 이용하여 C-말단 카르복실기를 활성화시킨 후, 상기 랜덤 코일 폴리펩티드의 C-말단에 대한 상기 약물의 부위-특이적 커플링이 달성될 수 있다. 상기 방식에서, 균일한 약물 접합체가 용이하게 얻어질 수 있다.

단일 부위-특이적 접합에 대한 대안으로서, 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 랜덤 코일 폴리펩티드는 N- 또는 C-말단에서 또는 내부적으로, 예를 들면 NHS 에스테르 또는 말레이미드 활성기를 이용하여 1개, 2개 또는 다수의 소분자의 접합을 허용하는, 화학적 변형을 위해 적합한 부가적인 측쇄, 예컨대 이들의 ε-아미노기를 갖는 리신 잔기, 이들의 티올기를 갖는 시스테인 잔기, 또는 비-천연 아미노산이 제공될 수 있다.

안정한 접합과는 별도로, 전구약물은 일시적으로 랜덤 코일 폴리펩티드에 결합될 수 있다. 상기 결합은, 예를 들면 약하게 가용성인 항암제 캄프토테신이 PEG 폴리머에 접합되어 증가된 생체분포, 감소된 독성, 향상된 효능 및 종양 축적을 달성하는 것과 같이, 생리학적 pH에서 유사하게 개시되는 느린 가수분해 또는 효소적 기전을 통해 예측 가능한 방식으로 생체내에서 잘려지도록 디자인될 수 있다(Conover (1998) Cancer Chemother. Pharmacol. 42:407-414). 추가 전구약물의 예는 도세탁셀(Liu (2008) J. Pharm. Sci. 97:3274-3290), 독소루비신(Veronese (2005) Bioconjugate Chem. 16:775-784) 또는 파클리탁셀(Greenwald (2001) J. Control Release 74:159-171)과 같은 화학치료제가 있다.

또한, 소분자는 융합 단백질, 예컨대 표적화 도메인, 예컨대 항체 절편에 유전적으로 융합된 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 랜덤 코일을 형성하는 폴리펩티드에 커플링되어 상기 소분자 약물의 특이적 운반을 일으킬 수 있음이 예측된다. 세포독성 소분자와의 접합에 의해 후자에서 생성된 면역독소는, 예를 들면 표적화 도메인이 내재화를 겪는 세포-표면 수용체에 대해 지정되는 경우에 특히 유용하다.

본 명세서에서 사용된 것과 같이, "약물"이란 용어는 소분자, 생물학적 활성 단백질, 펩티드 또는 탄수화물에 관한 것이다. 본 명세서에서 사용된 것과 같이, "소분자"란 용어는 (유기) 저분자량(<900 달톤) 화합물을 나타낼 수 있다. 소분자는 생물학적 공정을 조절하는데 도움을 줄 수 있으며, 대개 나노미터 제곱수(order)의 크기를 갖는다. 본 명세서에서 상기 소분자는 치료, 진단 방법에 사용되거나, 식품 또는 화장품 산업에서 사용됨이 예측된다. 예를 들면, 본 명세서에서 제공되는 뉴클레오티드 서열 또는 핵산 분자에 의해 암호화되는 상기 생산된 폴리펩티드와의 약물 접합체는 (a) 혈관형성 억제제, 항-알레르기 약물, 항-구토 약물, 항-우울증 약물, 항-고혈압 약물, 항-염증성 약물, 항-감염성 약물, 항-정신병 약물, 항-증식성(세포독성 및 세포분열억제성) 약물, 칼슘 길항제 및 다른 순환 기관 약물, 콜린성 작용제, 중추 신경계에 작용하는 약물, 호흡기계에 작용하는 약물, 스테로이드, 안티센스 핵산, 소간섭 RNA(siRNA), 마이크로 RNA(miR) 억제제, 마이크로 RNA 모방체, DNA 압타머 및 RNA 압타머로 이루어진 군으로부터 선택되는 소분자(들)를 포함할 수 있다.

예시적인 혈관형성 억제제는 MetAP2 억제제(예컨대, 푸마길린, 푸마길린 유도체, 2-{3-[3,5-비스[4-니트로벤질리덴]-4-옥소피페리딘-1-일]-3-옥소프로필설파닐}에탄설폰산), VGFR 억제제(예컨대, 악시티닙, 브리바닙, 카보잔티닙, 티보자닙 및 모테사닙), 태반 성장 인자(PIGF) 억제제, 혈소판-유래 성장 인자 수용체 억제제(예컨대, AC 710, 소라페닙, 수니티닙 및 바탈라닙) 등을 비제한적으로 포함한다.

예시적인 항-알레르기 약물은 항히스타민제(예컨대, 디펜히드라민(베나드릴), 디멘히드리네이트(드라마민, 드리미네이트), 히드록시진 히드로클로라이드(레스탈, 비스타콧), 프로메타진(페네르간)) 등을 비제한적으로 포함한다.

예시적인 항-우울증 약물은 그라니세트론(granisetron), 팔로노세트론(palonosetron) 등을 비제한적으로 포함한다.

예시적인 항-우울증 약물은 시스-플루펜틱솔(cis-flupenthixol), 이미프라민(imipramine) 히드로클로라이드, 미안세린(mianserin) 등을 비제한적으로 포함한다.

예시적인 항-고혈압 약물은 알프로스타딜(alprostadil), 디아족사이드(diazoxide), 니카르디핀(nicardipine) 등을 비제한적으로 포함한다.

예시적인 항-염증성 약물은 콜티손, 히알루론산, 케토롤락 등을 비제한적으로 포함한다.

예시적인 항-감염성 약물은 아미노글리코사이드, 아마도비르, 아목시실린, 암피실린, 벤질페니실린, 카르바페넴스, 세팔로스포린, 세프티오푸르, 클로람페니콜, 세페핌, 세프타지딤, 세프토비프롤, 클린다마이신, 드락신, 달바반신, 다프토마이신, 디히드로스트렙토마이신, 에리트로마이신, 플로르페니콜, 플루오로퀴놀론, 플루닉신, 메글루민, 리네졸리드, 마르보플록사신, 미카푼긴, 니트로푸라존, 오리타반신, 옥시테트라사이클린, 페니실린, 피페라실린, 프로카인, 루핀트리비르, 스피라마이신, 스트렙토그라민, 설파디메톡신, 설파메타진, 테디졸리드, 텔라반신, 티카르실린, 틸미코신, 티게사이클린, 틸디피로신, 틸로신, 반코마이신 등을 비제한적으로 포함한다.

예시적인 항-정신병 약물은 아미설프리드, 아리프라졸, 벤페리돌, 브롬페리돌, 클로르프로마진, 클로르프로틱센, 클로펜틱솔, 클로자핀, 플루펜틱솔, 플루페나진, 플루스피릴렌, 할로페리돌, 레보메프로마진, 멜페론, 올란자핀, 페라진, 페르페나진, 피모지드, 피팜페론, 프로마진, 프로메타진, 프로티펜딜, 퀘티아핀, 리스페리도, 설피리드, 티오리다진, 트리플루오로페라진, 트리플루프로마진, 주클로펜틱솔 등을 비제한적으로 포함한다.

예시적인 항-종양 약물은 안트라사이클린(예컨대, 독소루비신, 에피루비신, 이다루비신 및 다우노루비신), 알킬화제(예컨대, 칼리키아마이신, 다크티노마이신, 미트로마이신 및 피롤로벤조디아제핀), AKT 억제제(예컨대, AT7867), 아마톡신(예컨대, 악스-아마니틴, P-아마니틴, y-아마니틴, c-아마니틴, 아마눌린, 아마눌산, 아마닌아미드, 아마닌, 및 프로라마눌린, SN-38, 및 캄프토테신), ATM 억제제, 오리스타틴(예컨대, 오리스타틴 EB(AEB), 오리스타틴 EFP(AEFP), 모노메틸 오리스타틴 E(MMAE), 모노메틸 오리스타틴 F(MMAF), 오리스타틴 F 및 돌라스타틴), 크립토피신, 사이클린-의존성 키나아제 억제제(예컨대, BMS-387032, PD0332991, GSK429286, AZD7762; AZD 1152, MLN8054 및 MLN8237; BI 2536, B16727, GSK461364, ON-01910, SB 743921, SB 715992, MK-0731, AZD8477, AZ3146, 및 ARRY-520), 두오카르마이신, DNA-PK 억제제, 에포틸론(예컨대, 에포틸론 A, B, C, D, E 또는 F, 및 유도체), GSK-3 억제제, HDAC 억제제(예컨대, 벨리노스탯, CUDC-101, 드록시노스탯, ITF2357, JNJ-26481585, LAQ824, 및 panobinostat MC1568, 모세티노스탯, 엔티노스탯, PCI-24781, 피록사마이드, 트리코스타틴 A 및 보리노스탯), hsp70 억제제, hsp90 억제제(예컨대, 17AAG 유도체, B11B021, B11B028, SNX-5422, NVP-AUY-922, KW-2478 및 겔다나마이신), MAPK 신호전달 경로 억제제(예컨대, MEK, Racs, JNK, B-Raf), 마이탄시노이드, 마이탄시노이드 유사체(예컨대, 마이탄시놀, 마이탄시놀 유사체, 마이탄신, DM-1 및 DM-4), p38 MAPK 억제제(예컨대, GDC-0973, GSK1 120212, MSC1936369B, AS703026, R05126766 및 R04987655, PD0325901, AZD6244, AZD 8330, GDC-0973, CDC-0879, PLX-4032, SB590885, BIRB 796, LY2228820, SB 202190, AEE788, BIBW2992, 아파티닙, 라파티닙, 에를로티닙 및 게피티닙), PARP 억제제(예컨대, 이니파립, 올라파립, 벨리파립, AG014699, CEP 9722, MK 4827, KU-0059436, LT-673, 3-아미노벤즈아미드, A-966492 및 AZD2461), PDK-1 억제제, 백금 화합물(예컨대, 시스플라틴, 카르보플라틴, 옥살리플라틴, 이프로플라틴, 오르마플라틴 또는 테트라플라틴), 탁산(예컨대, 파클리탁셀 및 오르도세탁셀), 투불리신(예컨대, 투불리신 A, 투불리신 B 및 투불리신 유도체), 빈카 알칼로이드(예컨대, 빈블라스틴, 빈데신 및 나벨빈), Wnt/Hedgehog 신호전달 경로 억제제(예컨대, 비스모데깁, GDC-0449, 시클로파민 및 XAV-939) 등을 비제한적으로 포함한다.

예시적인 중추 신경계에 작용하는 약물은 부프레노르핀, 크리오스타틴, 날트록스렉손, 날록손 등을 비제한적으로 포함한다.

예시적인 비타민은 비타민 B-12(시아노코발라민), vitamin A 등을 비제한적으로 포함한다.

예시적인 스테로이드는 안드로겐성 스테로이드(예컨대, 플루옥시메스테론, 메틸테스토스테론, 테스토스테론, 트렌볼론), 에스트로겐(예컨대, 베타-에스트라디올, 디에틸스틸베스트롤, 에스트론, 에스트리올, 에퀼린, 에스트로피페이트 에퀼린, 메스트라놀), 프로게스타티노날 화합물(예컨대, 19-노르프로게스테론, 알파프로스톨, 클로르마디논, 데메게스톤, 디드로게스테론, 디메티스테론, 에티스테론, 에티노디올 디아세테이트, 노레틴드론, 노레틴드론 아세테이트, 메드록시프로게스테론, 멜렌게스트롤프록게스테론, 노르게스트렐, 프로메게스톤, 제라놀) 등을 비제한적으로 포함한다.

예시적인 안티센스 핵산은 안드로겐 수용체(예컨대, ISIS-AR, AZD5312), 안지오포이에틴-유사 3 단백질(예컨대, ISIS-ANGPTL3), 아포리포단백질 B100(예컨대, 미포메르센), 아포리포단백질 CⅢ(예컨대, ISIS-APOCⅢ, 볼라네소르센), 결합 조직 성장 인자(CTGF)(예컨대, EXC 001, PF-06473871), 클루스테린(예컨대, 쿠스티르센, OGX-011), C- 반응성 단백질(예컨대, ISIS-CRP), 디아실글리세롤 아실트랜스퍼라아제(예컨대, ISIS-DGAT2), 인자 Ⅶ(예컨대, ISIS-FⅦ), 섬유아세포 성장 인자 수용체 4(예컨대, ISIS-FGFR4), 헵시딘(예컨대, XEN701), Hsp27(예컨대, 아파토르센, OGX-427), HTT 유전자(예컨대, ISIS-HTT), ICAM-1(예컨대, 알리카포르센), 프레칼리크렌(예컨대, ISIS-PKK), SMN2(예컨대, ISIS-SMN), STAT3(예컨대, ISIS-STAT3-2.5, AZD9150), 트랜스티레틴 유전자(예컨대, ISIS-TTR) 등을 표적화하는 안티센스 핵산을 비제한적으로 포함한다.

예시적인 소간섭 RNA(siRNA)는 알파-1-안티트립신 돌연변이체 Z-AAT(예컨대, ALN-AAT), 아미노레불리네이트 신타아제 1(ALAS-1)(예컨대, ALN-AS1, ALN-AS2), 항트롬빈 Ⅲ(예컨대, ALN-AT3), 보체 성분 C5(예컨대, ALN-CC5), 보체 성분 C6(예컨대, ALN-CC6), 결합 조직 성장 인자(예컨대, RXI-109), 디스트로핀 유전자의 엑손 8(예컨대, SRP-4008), 디스트로핀 유전자의 엑손 44(예컨대, SRP-4044), 디스트로핀 유전자의 엑손 45(예컨대, SRP-4045), 디스트로핀 유전자의 엑손 50(예컨대, SRP-4050), 에볼라 바이러스(예컨대, AVI-7537), 디스트로핀 유전자의 엑손 51(예컨대, 에테플리르센, AVI-4658), 디스트로핀 유전자의 엑손 52(예컨대, SRP-4052), 디스트로핀 유전자의 엑손 53(예컨대, SRP-4053), 인플루엔자 바이러스(예컨대, AVI-7100), 키네신 스핀들 단백질(KSP), 폐 질환(예컨대, Atu111), 마르부르크 바이러스(예컨대, AVI-7288), 다수-표적화 소간섭 RNA(siRNA) 칵테일(예컨대, STP503, STP523, STP601, STP702, STP705, STP801, STP805, STP900, STP902, STP911, STP916, siPOOLs), 바이러스 게놈의 뉴클레오캡시드 N(예컨대, ALN-RSV01), PCSK9(예컨대, ALN-PCS01, ALN-PCSsc), 프로-아폽토시스 단백질 카스파아제 2(예컨대, QPI-1007), 프로-아폽토시스 단백질 p53(예컨대, QPI-1002), RTP801(예컨대, PF-655), SERPINC1(예컨대, ALN-AT4), 막통과 프로테아제 세린 6(Tmprss6)(예컨대, ALN-TMP), 트랜스티레틴(예컨대, ALN-TTRsc, ALN-TTR02), PCSK10(예컨대, ALN-PCS02), PKN3(예컨대, Atu027), 혈관 내피 성장 인자(VEGF)(예컨대, ALN-VSP) 등을 표적화하는 siRNA를 비제한적으로 포함한다.

예시적인 마이크로RNA 억제제는 miR-10b, miR-15, miR-21, miR-29, miR-33, miR-92, miR-145, miR195, miR-208, miR-221, miR-451, miR-499 등의 억제제를 비제한적으로 포함한다.

예시적인 마이크로RNA 모방체는 miR-34(예컨대, MRX34), miR-Rx06, miR-Rx07, miR-Rx16의 유사체, let7의 유사체(예컨대, miR-Rxlet-7) 등을 비제한적으로 포함한다.

예시적인 DNA 압타머는 뉴클레올린 억제제(예컨대, AS1411), pGDF 억제제(예컨대, E10030), 트롬빈 억제제(예컨대, NU172), vWF 억제제(예컨대, ARC1779) 등을 비제한적으로 포함한다.

예시적인 RNA 압타머는 C5a 억제제(예컨대, NOX-D21 또는 ARC1905), 칼시토닌 유전자-연관 펩티드 억제제(예컨대, NOX-L41), C-C 케모카인 리간드 2 억제제(예컨대, NOX-E36), CXCL12 억제제(예컨대, NOX-A12), 글루카곤 억제제(예컨대, NOX-G16), 헵시딘 길항제(예컨대, NOX-H94), 병원체 인식 수용체 작용제(예컨대, RIG-I 작용제), 스핑고신-1-포스페이트 억제제(예컨대, NOX-S93), VEGF 길항제(예컨대, NX1838) 등을 비제한적으로 포함한다.

백신의 제조용으로 잠재적으로 유용한 예시적인 탄수화물은 렉틴, E. 콜라이 O 121 O-항원, E. 콜라이 O 121 O-항원 유도체, HIV-I gpl20 유래의 Man9, 시겔라 플렉스네리 2a O-폴리사카라이드, 스타필로코커스 아우레우스 폴리사카라이드 캡슐 폴리사카라이드 5, 스타필로코커스 아우레우스 폴리사카라이드 캡슐 폴리사카라이드 8, 종양-연관 탄수화물 항원(TACA)(예컨대, Tn 항원(예컨대, α-GalNAc-O-Ser/Thr), 시알릴 Tn 항원(예컨대, NeuAcα(2,6)-GalNAcα-O-Ser/Thr), 톰센-프리덴라이히 항원(Galβ1-3GalNAcα1), LewisY(예컨대, Fucα(l,2)-Galβ(l,4)-[Fucα(l,3)]-GalNAc), 시알릴 LewisX 및 시알릴 LewisA, LewisX(단계-특이적 배아 항원-1/SSEA-1), Globo H 항원(예컨대, Fucα(l,2)-Galβ(l,3)-GalNAcβ(l,3)-Galα(l,4)-Galβ(1,4)-Glc), T 항원(예컨대, Galβ(l,3)-GalNAcα-O-Ser/Thr), 글리코스핑고리피드 단계-특이적 배아 항원-3(SSEA-3), 글리코스핑고리피드를 함유하는 시알산, 강글리오사이드 GD2, GD3, 강글리오사이드 GM2, 강글리오사이드 푸코실 GM 및 강글리오사이드 Neu5GcGM3) 등에 특이적으로 결합된 탄수화물 에피토프를 비제한적으로 포함하다.

생물학적 활성 단백질 및/또는 소분자 및/또는 탄수화물을 포함하는 본 명세서에서 제공되는 본 발명의 핵산 분자에 의해 암호화되는 폴리펩티드를 포함하는 약물 접합체는 염증성 질환, 감염성 질환, 호흡기 질환, 내분비 질병, 중추 신경계의 질환, 근골격 질환, 심혈관 질환, 종양성 질환, 비뇨생식기 질환 및 대사성 질환의 치료를 위해 사용될 수 있다.

예시적인 염증성 질환은 강직성 척추염, 관절염, 죽상동맥경화증, 비전형적인 용혈성 요독성 증후군(aHUS), 섬유근육통, 길랑 바레 증후군(GBS), 과민성 대장 증후군(IBS), 크론 질환, 대장염, 피부염, 게실염, 골관절염, 건선성 관절염, 람베르트-이튼 근무력 증후군, 전신성 홍반성 낭창(SLE), 신장염, 파킨슨 질환, 다발성 경화증, 발작성 야간혈색소 요증(PNH), 류마티스성 관절염(RA), 쇼그렌 증후군, 궤양성 대장염 등을 비제한적으로 포함한다.

예시적인 감염성 질환은 아프리카 트리파노소마증, 보렐리아증, 콜레라, 크립토스포리디오시스, 뎅기열, A형 간염, B형 간염, C형 간염, HIV/AIDS, 인플루엔자, 일본 뇌염, 리슈마이어증, 마랄리아, 홍역, 뇌수막염, 사상충증, 폐렴, 로타바이러스 감염, 주혈흡충증, 패혈증, 시겔라증, 스트렙토코커스 편도염, 결핵, 파상풍, 황열 등을 비제한적으로 포함한다.

예시적인 호흡기 질환은 천식, 만성 폐쇄성 폐 질환(COPD), 낭성 섬유증 등을 비제한적으로 포함한다.

예시적인 내분비 질병은 말단비대증, 타입 I 당뇨병, 타입 Ⅱ 당뇨병, 임신성 당뇨병, 그레이브스 질환, 성장 호르몬 결핍, 당뇨병, 부갑상선기능항진증, 갑상선기능항진증, 저혈당증, 불임, 비만, 부갑상선 질환, 모르퀴오 A 증후군, 점액다당류증 등을 비제한적으로 포함한다.

예시적인 중추 신경계의 질환은 알츠하이머 질환, 카탈렙시, 헌팅톤 질환, 파킨슨 질환 등을 비제한적으로 포함한다.

예시적인 근골격 질환은 골다공증, 근육성 이영양증 증을 비제한적으로 포함한다.

예시적인 심혈관계 질환은 급성 심부전, 뇌혈관 질환(뇌졸중), 허혈성 심장 질환 등을 비제한적으로 포함한다.

예시적인 종양성 질환은 부신암, 방광암, 유방암, 결장 및 직장암, 자궁내막암, 신장암, 급성 림프아구성 백혈병(ALL) 및 다른 타입의 백혈병, 폐암, 흑색종, 비-호지킨 림프종, 췌장암, 전립선암, 갑상선암 등을 비제한적으로 포함한다.

예시적인 비뇨생식기 질환은 양성 전립선 과형성증(BPH), 혈뇨, 신경인성 방광, 페이로니 질환 등을 비제한적으로 포함한다.

예시적인 대사성 질환은 고쉐 질환, 파브리 질환, 성장 호르몬 결핍, 후를러 증후군, 헌터 증후군, 고옥살산뇨, 뉴런성 세로이드 리포푸스신증, 마로토-라미 증후군, 모르키오 증후군, 누난 증후군, SHOX 유전자 단상부족(haploinsufficiency), 터너 증후군, 프레더-윌리 증후군, 페닐케톤뇨증, 산필리포 증후군 등을 비제한적으로 포함한다.

전술한 것과 같이, 본 명세서에서 제공되는 핵산 분자는 또한 단독으로 또는 유전자 치료 목적을 위한 벡터의 일부로서 도입될 수 있다. 치료 유전자를 생체외(ex vivo) 또는 생체내 기술에 의해 세포 내로 도입하는 것에 기반하는 유전자 치료는 유전자 전달의 가장 중요한 적용분야 중 하나이다. 생체내 유전자 치료를 위한 적합한 벡터, 방법 또는 유전자 운반 시스템은 문헌에 개시되어 있으며, 본 기술분야의 숙련된 기술자에게 알려져 있다; 예컨대, Giordano (1996) Nat. Med. 2:534-539; Schaper (1996) Circ. Res. 79:911-919; Anderson (1992) Science 256:808-813; Verma (1997) Nature 389:239-249; Isner (1996) Lancet 348:370-374; Muhlhauser (1995) Circ. Res. 77:1077-1086; Onodera (1998) Blood 91:30-36; Verma (1998) Gene Ther. 5:692-699; Nabel (1997) Ann. N.Y. Acad. Sci. 811:289-292; Verzeletti (1998) Hum. Gene Ther. 9:2243-2251; Wang (1996) Nat. Med. 2:714-716; WO 94/29469; WO 97/00957, US 5,580,859; US 5,589,466; 또는 Schaper (1996) Curr. Opin. Biotechnol. 7: 635-640 참조. 본 명세서에서 제공되는 핵산 분자 및 벡터는 세포 내로 직접 도입하기 위해 또는 리포좀 또는 바이러스 벡터(예컨대, 아데노바이러스, 레트로바이러스)를 통해 도입하기 위해 디자인될 수 있다. 예를 들면, 상기 벡터는 아데노-연관-바이러스(AAV) 벡터, 특히 AAV8 벡터일 수 있다. AAV 벡터는 유전자 치료용으로 매력적이다. 상기 AAV 시스템은 장기간의 유전자 발현, 헬퍼 바이러스 없이 자체적으로 복제할 수 없음, 분열 및 비분열 세포의 형질도입 및 야생형 감염으로부터의 병원성의 부재를 포함하는 몇 가지 이점을 갖는다. 바람직하게는, 상기 핵산 분자 또는 벡터가 도입되는 세포는 생식선(germ line) 세포, 배아 세포 또는 난자 세포 또는 이로부터 유래되는 세포이고, 가장 바람직하게는 상기 세포는 줄기 세포이다. 배아 줄기 세포에 대한 예는 그 중에서도 하기 문헌에 개시된 것과 같은 줄기 세포일 수 있다: Nagy (1993) Proc. Natl. Acad. Sci. USA 90:8424-8428.

본 명세서에서 "폴리펩티드", "펩티드" 및 "단백질"이란 용어는 상호교환적으로 사용되며, 한 아미노산의 아미노기와 다른 아미노산의 카르복실기 사이에 형성되는 아미드 또는 펩티드 결합을 통해 결합된 2개 이상 아미노산의 폴리머를 나타낸다. 바람직하게는, 펩티드 결합은 한 아미노산의 α-아미노기와 다른 아미노산의 α-카르복실기 사이에 형성된다. 펩티드 또는 단백질에 포함되는 아미노산은 또한 아미노산 잔기로 불리며, 20개 표준 단백질형성(proteinogenic) α-아미노산(즉, Ala, Arg, Asn, Asp, Cys, Glu, Gln, Gly, His, Ile, Leu, Lys, Met, Phe, Pro, Ser, Thr, Trp, Tyr, 및 Val)으로부터 선택될 수 있지만, 비-단백질형성 및/또는 비-표준 α-아미노산(예컨대, 오르니틴, 시트룰린, 호모리신, 피로리신 또는 4-히드록시프롤린) 뿐만 아니라 β-아미노산(예컨대, β-알라닌), γ-아미노산 및 δ-아미노산으로부터도 선택될 수 있다. 바람직하게는, 펩티드 또는 단백질에 포함되는 아미노산 잔기는 α-아미노산, 더욱 바람직하게는 20개 표준 단백질형성 α-아미노산(L-이성질체 또는 D-이성질체로 존재할 수 있고, 바람직하게는 Gly을 제외한 보두가 L-이성질체로 존재함)으로부터 선택된다.

상기 암호화된 폴리펩티드 또는 단백질은 변형되지 않을 수 있거나, 그 N-말단, C-말단 및/또는 임의의 아미노산 잔기의 측쇄(특히, Lys, His, Ser, Thr, Tyr, Cys, Asp, Glu 및/또는 Arg 잔기 중 하나 이상의 측쇄 작용기)에 변형될 수 있다. 이러한 변형은, 예컨대 하기 문헌에서 해당 보호기에 대해 개시된 임의의 보호기의 부착을 포함할 수 있다: Wuts (2006) Greene's protective groups in organic synthesis, John Wiley & Sons, 4^th edition, Hoboken, N.J.. 이러한 변형은 또한 하나 이상의 지방산을 이용한 글리코실화 및/또는 아실화를 포함할 수 있다(예컨대, 하나 이상의 C_8-30 알카노산 또는 알케노산; 지방산 아실화된 펩티드 또는 단백질을 형성함). 상기 암호화된 폴리펩티드는 바람직하게는 히드록실화되지 않으며, 특히 히드록시프롤린을 포함하지 않는다.

상기 암호화된 펩티드 또는 단백질에 포함되는 아미노산 잔기는, 예컨대 선형 분자 사슬로서 존재할 수 있거나(선형 펩티드 또는 단백질을 형성함), 예컨대 펩티드 또는 이소펩티드 결합 또는 이황화 브릿지(bridge)를 통해 원형화된 하나 이상의 고리를 형성할 수 있다(환형 펩티드 또는 단백질에 해당함). 상기 펩티드 또는 단백질은 또한 둘 이상의 동일하거나 상이한 분자로 이루어지는 올리고머를 형성할 수 있다. 본 명세서에서 사용된 것과 같이, "도메인"이란 용어는 자체적으로 특정 구조 및/또는 기능을 채택할 수 있는 아미노산 서열의 임의의 영역/부분에 관한 것이다. 따라서, 본 발명의 문맥에서, "도메인"은 예를 들면 더 큰 폴리펩티드의 일부를 형성할 수 있는 기능적 도메인 또는 구조적 도메인을 나타낼 수 있다.

본 명세서에서 사용된 것과 같이, "포함하는" 및 "포함한"이란 용어 또는 이의 문법적 변이체는 언급된 특성, 정수, 단계 또는 성분들을 특정하기 위해 취해지며, 하나 이상의 부가적인 특성, 정수, 단계, 성분 또는 이의 그룹을 배제하는 것은 아니다. 상기 용어는 "이루어지는" 및 "본질적으로 이루어지는"이란 용어를 포괄한다.

따라서, "포함하는"/"포함한"/"갖는"이란 용어는 임의의 추가 성분(또는 마찬가지의 특성, 정수, 단계 등)이 존재할 수 있음을 의미한다. 따라서, 본 명세서에서 상기 "포함하는"/"포함한"/"갖는"이란 용어가 사용될 때마다, 이들은 "본질적으로 이루어지는", 또는 바람직하게는 "이루어지는"에 의해 교체될 수 있다.

"이루어지는"이란 용어는 추가 성분(또는 마찬가지의 특성, 정수, 단계 등)이 존재하지 않음을 의미한다.

본 명세서에서 사용될 때, "본질적으로 이루어지는"이란 용어 또는 이의 문법적 변이체는 언급된 특성, 정수, 단계 또는 성분을 특정하기 위해 취해지지만, 상기 부가적인 특성, 정수, 단계, 성분 또는 그의 그룹이 청구항의 조성물, 장치 또는 방법의 기본적이고 신규한 특성을 물질적으로 변경하지는 않는 경우에만 상기 하나 이상의 부가적인 특성, 정수, 단계, 성분 또는 그의 그룹의 부가를 배제하지 않는다.

따라서, "본질적으로 이루어지는"이란 용어는 다시 말해 상기 조성물, 장치 또는 방법의 본질적인 특징에 물질적으로 영향을 미치지 않는 특정한 추가 성분(또는 마찬가지의 특성, 정수, 단계 등)이 존재할 수 있음을 의미한다. 달리 말하면, "본질적으로 이루어지는"이란 용어(본 명세서에서 "실질적으로 포함하는"이란 용어와 상호교환적으로 사용될 수 있음)는, 상기 장치 또는 방법의 본질적인 특징이 다른 성분의 존재에 의해 물질적으로 영향을 받지 않는다면, 상기 조성물, 장치 또는 방법에 의무적인 성분(또는 마찬가지의 특성, 정수, 단계 등) 이외의 다른 성분들이 존재하는 것을 허용한다.

"방법"이란 용어는 화학, 생물학 및 생물리학 기술분야의 기술자에 의해 알려진 방식, 수단, 기술 및 절차로부터 알려지거나 즉시 개발되는 방식, 수단, 기술 및 절차를 비제한적으로 포함하는 주어진 과제를 달성하기 위한 방식, 수단, 기술, 절차를 나타낸다.

본 명세서에서 사용된 것과 같이, 및 달리 특정하지 않는 한, "약"이란 용어는 바람직하게는 표시된 수치 값의 ±10%, 더욱 바람직하게는 표시된 수치 값의 ±5%, 특히 표시된 정확한 수치 값을 나타낸다.

본 발명은 다음의 비제한적 도면 및 실시예를 참조로 하여 추가로 개시된다. 달리 특정하지 않는 한, 예를 들면 인용에 의해 그 전체 내용이 본 명세서에 포함되는 샘브룩의 문헌(Sambrook (2001) loc. cit.)에 개시된 것과 같은 재조합 유전자 기술의 확립된 방법이 사용되었다.

본 발명은 다음의 비제한적 도면 및 실시예를 참조로 하여 추가로 개시된다. 도면은 다음을 보여준다:
도 1: 플라스미드 pXL2를 이용한 프롤린/알라닌-풍부 서열을 암호화하는 낮은 반복적인 핵산의 조립
(A) pXL2(서열번호 48)의 플라스미드 지도. A SapI 인식 부위(5'-GCTCTTC-3') 및 EarI 인식 부위(5'-CTCTTC-3')는 lac 프로모터/오퍼레이터(lac ^p ^/o)의 전사 조절 하에 있는 선별가능한 마커 유전자 lacZ 내로 삽입된다. 상기 SapI 제한 부위는 프롤린/알라닌-풍부 서열을 암호화하는 낮은 반복적인 핵산 분자의 하나 이상의 유닛(빌딩 블록)의 연이은 삽입을 허용한다. 그 인식 서열이 SapI 인식 서열의 서브세트이거나 이와 중첩되는 제한 효소인 EarI으로 절단하는 것은 프롤린/알라닌-풍부 서열을 암호화하는 조립된 낮은 반복적인 핵산 분자(유전자 카세트)의 절단 및/또는 삽입을 허용한다. 상기 플라스미드 백본은 사일런트(silent) 돌연변이를 통해 부가적인 SapI 및 EarI 제한 부위가 결실된 것을 제외하고는 일반적인 클로닝 벡터 pUC19(Yanisch-Perron (1985) Gene 33:103-119)의 경우와 동일하다. ( B) pXL1(서열번호 55)의 플라스미드 지도. 반대 방향인 2개의 SapI 인식 부위(5'-GCTCTTC-3')가 lac 프로모터/오퍼레이터(lac ^p ^/o)의 전사 조절 하에 있는 선별가능한 마커 유전자 lacZ 내로 삽입된다. 상기 SapI 제한 부위는 프롤린/알라닌-풍부 서열을 암호화하는 낮은 반복적인 핵산 분자(유전자 카세트)의 삽입/클로닝뿐만 아니라 전파(propagation)/증폭 및 후속하는 절단 및/또는 단리를 허용한다. 상기 플라스미드 백본은 사일런트 돌연변이를 통해 부가적인 SapI 제한 부위가 결실된 것을 제외하고는 pUC19의 경우와 동일하다. 상기 삽입된 유전자 카세트는 pXL2와 비교하여 역방향을 가짐을 주목해야 한다. ( C) 낮은 반복적인 핵산 분자의 클로닝 및 조립에 유용한 pXL2의 클로닝 부위 및 그 근방의 뉴클레오티드 서열 스트레치. 상기 뉴클레오티드 서열은 SapI 제한 부위 및 EarI 제한 부위를 역방향으로 함유한다. 상기 EarI 인식 서열은 또한 상기 SapI 인식 서열의 일부이기 때문에, EarI은 양쪽 인식 부위 모두를 절단한다. 사용되는 제한 효소와 무관하게, SapI 또는 EarI 소화물은 돌출하는 GCC/CGG 말단(Ala를 암호화함)을 유도하며, 이는 프롤린/알라닌-풍부 서열을 암호화하는 낮은 반복적인 핵산 분자의 GCC/CGG 돌출부와 호환되고, 따라서 효과적인 라이게이션을 허용한다. 인식 서열은 밑줄 쳐 있다. ( D) 한 낮은 반복적인 핵산 유닛/빌딩 블록인 PAS#1b(200)(서열번호 19)가 삽입된 후 pXL2의 클로닝 부위의 뉴클레오티드 서열 및 암호화된 아미노산 서열. 상기 클로닝된 낮은 반복적인 핵산 유닛/빌딩 블록의 옆에 있는 상기 SapI 및 EarI 제한 부위가 라벨링된다(인식 서열은 밑줄 쳐 있다). ( E) 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 더 긴 클로닝된 뉴클레오티드 서열(핵산 분자)을 얻기 위한 낮은 반복적인 핵산 서열 유닛의 조립. 제1 단계에서, pXL2은 SapI로 소화되고, 탈인산화 및 제1 서열 유닛인 PAS#1b(200)과 라이게이션된다. 제2 단계에서, 결과물인 플라스미드는 단일 SapI 제한 소화에 의해 상기 클로닝된 서열 유닛의 상류에 개방/선형화되고, 이후 탈인산화 및 제2 뉴클레오티드 서열 유닛인 PAS#1c(200)과 라이게이션된다. 결과물인 플라스미드 pXL2-PAS#1c/1b(400)은 전체 1,200개 길이의 염기 쌍을 포함하는 삽입된 유전자/DNA 카세트를 함유한다. 전체적으로, 결과물인 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 클로닝된 낮은 반복적인 뉴클레오티드 서열은 14개 뉴클레오티드의 최대 길이를 갖는 뉴클레오티드 반복만을 함유한다(서열번호 52). 전체 조립된 유전자 카세트/핵산 분자는 EarI을 이용한 소화를 통해 용이하게 잘려질 수 있으며, 이어서 예를 들면 생물학적 활성 단백질 등을 암호화하는 뉴클레오티드 서열과 동일한 해독틀에서 발현 벡터에 서브클로닝하기 위해 사용될 수 있다. 주목하게는, 상기 제2 단계를 반복함으로써, 계속해서 증가하는 길이를 갖는 유전자 카세트가 체계적인 방식을 pXL2 상이 조립 및 클로닝될 수 있다. 상이한 적합한 뉴클레오티드 서열 유닛이 사용된다면, 결과물인 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 긴 낮은 반복적인 핵산 분자는 소수의 또는 짧은 뉴클레오티드 반복물만을 함유한다.
도 2: 프롤린/알라닌-풍부 서열의 반복물 분석
(A) 종래 기술의 프롤린/알라닌-풍부 서열 PA#3a(200)(서열번호 15)의 도트 플롯을 본 발명에 따른 낮은 반복적인 뉴클레오티드 서열인 PA#3b(200)(서열번호 36)의 도트 플롯과 비교하며, 이들은 모두 지니어스 V8.1 소프트웨어 패키지(Biomatters, Auckland, New Zealand)에 포함되는 도트 플롯 도구인 "도트업"을 이용하여 생성되고, 14 또는 15의 반복물 윈도우를 적용한다. 상기 분석된 뉴클레오티드 서열을 각각 2차원 그래프의 x- 및 y-축에 대해 그 자신과 비교함으로써, 상기 "도트업" 도구는 특정 길이(반복물 윈도우)의 동일한 서열이 발생하는 모든 영역을 확인하고, 대각선을 그리며, 따라서 상기 x- 및 y-축 상의 반복 서열의 위치를 나타낸다(대각선이 중앙 대각선과 상이하게 표시된다면, 후자는 자기-동일성을 나타낸다). 연속적인 반복물은 대각선을 확장한다. 여기에서 분석된 PA#3a(200) 뉴클레오티드 서열은 많은 및/또는 긴 대각선에 의해 실증되는 것과 같이 매우 반복적인 본성을 나타낸다. 이 경우, 상기 뉴클레오티드 서열은 각각 60개 염기 쌍의 무수한 반복물을 보여준다. 14의 반복물 윈도우를 적용함으로써, 상기 60 bp 반복물 내에서 심지어 더 짧은 14 bp 반복물이 나타난다. 이와 대조적으로, 상기 PA#3b(200) 뉴클레오티드 서열은 600 bp의 전체 분석된 뉴클레오티드 서열 내에서 소수의 산재된 14 bp 반복물만을 보이며, 분석을 위해 15의 약간 더 큰 반복물 윈도우를 적용할 때에는 검출가능한 반복물이 없다. ( B) 프롤린/알라닌-풍부 서열을 암호화하는 WO2008155134에 개시된 핵산 PAS#1a(600)(서열번호 12)의 도트 플롯을 14 및 15 염기 쌍의 반복물 윈도우를 이용하여 본 발명에 따른 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 상기 조립된 낮은 반복적인 뉴클레오티드 서열인 PAS#1d/1f/1c/1b(800)(서열번호 39) 및 PAS#1f/1c/1b(600)(서열번호 38)의 도트 플롯과 비교한다. 상기 뉴클레오티드 서열 PAS#1a(600)은 60개 염기 쌍의 반복물의 조성을 나타내지만, 상기 PAS#1d/1f/1c/1b(800) 및 PAS#1f/1c/1b(600) 뉴클레오티드 서열은 각각 2,400 또는 1,800 bp의 전체 분석된 뉴클레오티드 서열 내에서 뉴클레오티드 반복물이 없거나, 14 뉴클레오티드 반복물 윈도우의 경우에는 단지 하나의 단일 14 뉴클레오티드 반복물(대각선)만을 보인다. ( C) 14 및 15 뉴클레오티드의 반복물 윈도우를 적용하여 US2006/0252120에 개시된 [(AP)₅]_n 멀티머를 암호화하는 합성 DNA 서열(서열번호 16) 및 마카시네 헤르페스바이러스 1의 매우 큰 피막 단백질의 반복적인 프롤린/알라닌-풍부 영역을 암호화하는 천연 DNA 서열(GenBank AAP41454.1)(서열번호 18)과 본 발명에 따른 낮은 반복적인 뉴클레오티드 서열인 PA#3a(200)(서열번호 15)의 비교하는 도트 플롯 분석법. 상기 [(AP)₅]_n 멀티머 및 마카시네 헤르페스바이러스 1의 매우 큰 피막 단백질의 프롤린/알라닌-풍부 영역을 암호화하는 DNA 서열의 도트 플롯은 상기 뉴클레오티드 서열의 매우 반복적인 본성을 실증한다. 이와 대조적으로, 상기 PA#1b(200) 뉴클레오티드 서열의 도트 플롯은 600 bp의 전체 분석된 뉴클레오티드 내에서 단지 소수의 산재된 14개 뉴클레오티드 반복물(14 뉴클레오티드 반복물 윈도우)을 보이거나, 반복물을 전혀 보이지 않는다(15 뉴클레오티드 반복물 윈도우).
도 3: 프롤린/알라닌-풍부 아미노산 서열을 암호화하는 낮은 반복적인 핵산 분자의 DNA 서열분석으로부터의 전기영동도
본 발명에 따른 프롤린/알라닌-풍부 서열을 암호화하는 낮은 반복적인 뉴클레오티드 서열을 갖는 pXL2-PAS#1f/1c/1b(600)(서열번호 38)의 DNA 서열분석으로부터의 전기영동도. 상기 PAS#1b(200) 뉴클레오티드 서열 유닛(서열번호 19)의 코딩 영역 내에서 특이적으로 혼성화하는 프라이머 XLP-1(서열번호 3)을 이용하여 이중-가닥 DNA를 서열분석하였다. 상기 전기영동도에서 900개 이상의 염기가 판독가능하고, pXL2-PAS#1f/1c/1b(600)의 알려진 뉴클레오티드 서열에 대응한다. 주목하게는, 상기 전기영동도는 비특이적 또는 다수의 프라이머 혼성화의 징후는 보이지 않는다.
도 4: 치료적 타당성을 갖는 PAS#1(600)- IL1Ra 융합 단백질의 박테리아 생산을 위한 유전적으로 안정한 발현 벡터인 pASK75-PAS#1f/1c/1b(600)-IL1Ra
PAS#1f/1c/1b(600) 유전자 카세트를 삽입한 후의 (A) pASK75-IL1Ra(서열번호 49) 및 (B) 그 유도체인 pASK75-PAS#1f/1c/1b(600)-IL1Ra(서열번호 50)의 플라스미드 지도. 601개 아미노산 잔기를 갖는 PAS#1 폴리펩티드를 암호화하는 낮은 반복적인 뉴클레오티드 서열을 포함하는 생물학적/약리학적 활성 (프리)단백질에 대한 구조 유전자인 PAS#1(600)-IL1Ra 및 인간 IL-1Ra 뿐만 아니라 박테리아 OmpA 신호 서열 및 a His₆-태그에 대한 코딩 영역에 대한 구조 유전자가 tet 프로모터/오퍼레이터(tet^p/o)의 전사 조절 하에 클로닝된다. XbaI 및 HindⅢ 제한 부위의 옆에 있는 발현 카세트 바깥의 플라스미드 백본은 일반적인 발현 벡터 pASK75(Skerra (1994) Gene 151:131-135)의 경우와 동일하다. 본 발명에 따른 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 낮은 반복적인 핵산 분자의 삽입 후에 유지되는 단일 SapI 제한 부위가 표시되어 있다.
도 5: 종래 기술의 뉴클레오티드 서열인 PAS#1a(600)과 비교하여 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 낮은 반복적인 핵산 분자인 PAS#1f/1c/1b(600)의 유전적 안정성의 분석
pASK75-PAS#1a(600)-IL1Ra(레인 1-5)(서열번호 51) 또는 pASK75-PAS#1f/1c/1b(600)-IL1Ra(레인 1-10)(서열번호 50)으로 형질전환되고 대략 70 세대의 박테리아 세포 분열에 해당하는 7일에 걸쳐 배양된 E. 콜라이 JM83 클론의 10개 플라스미드 제조물의 XbaI/HindⅢ 제한 분석 후의 아가로오스 겔 전기영동. pASK75-PAS#1a(600)-IL1Ra의 분석된 클론의 4/5는 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 핵산 삽입물을 포함하는 DNA 절편이 짧아진 것을 보였는데(도 5a), 이는 유전적 불안정성을 명확하게 나타낸다. 이와 대조적으로, pASK75-PAS#1f/1c/1b(600)-IL1Ra의 5개 모든 클론은 각각 3,093 bp 및 2,377 bp에 대응하는 예상된 밴드만을 보였는데, 이는 상기 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 온전한 핵산 삽입물과 높은 유전적 플라스미드 안정성을 나타낸다. 따라서, 본 발명에 따른 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 낮은 반복적인 뉴클레오티드 서열은 종래 기술의 반복적인 뉴클레오티드 서열에 비해 명확한 이점을 제공한다.
도 6: 생물학적 활성 단백질 IL- 1Ra를 암호화하는 발현 플라스미드 상에서 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 낮은 반복적인 뉴클레오티드 서열의 솔기없는 클로닝
(A) OmpA 신호 서열 유전자와, 이후의 GCC 알라닌 코돈, 비-코딩 스트랜드 상의 제1 SapI 인식 서열 GCTCTTC, GC 디뉴클레오티드 스페이서 및 역방향의 제2 SapI 인식과 코딩 가닥 상의 그 인식 서열 GCTCTTC와, 마지막으로 뒤따르는 GCC 알라닌 코돈 및 성숙한 IL-1Ra(UniProt ID P18510)를 위한 코딩 서열을 포함하는 융합 단백질에 대한 코딩 영역의 개략적인 도시. 나타낸 전체 서열을 일반적인 발현 벡터 pASK75 상의 XbaI/HindⅢ 제한 부위를 통해 클로닝하였다. (B) 상기 2개의 SapI 제한 부위의 옆에 있는 짧은 24 bp 삽입물의 SapI 절단 및 잘라낸 후의 (A)에 개시된 DNA 카세트의 개략적인 도시. 중요하게는, 2개의 5'-돌출부로 인하여, 중앙의 18개 뉴클레오티드만이 DNA 이중 가닥을 형성하고, 따라서 정확한 의미의 연기 쌍을 포함한다. (C) EarI 제한 소화물(예컨대, 도 1)에 의해 생성된 호환가능한 점성의 GCC/CGG 말단을 통한, 예컨대 pXL2-PA#1b(200)(서열번호 54)으로부터 잘려진 낮은 반복적인 뉴클레오티드 서열을 포함하는 DNA 절편 PA#1b(200)의 단일방향 방식의 솔기없는 삽입. 결과물인 본 발명에 따른 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 낮은 반복적인 뉴클레오티드 서열을 포함하는 발현 카세트는 이하의 본 명세서에서 서열번호 47로 나타낸다.
도 7: 유전적으로 안정한 발현 벡터 pASK75 -PAS#1f/1c/1b(600)- IL1Ra를 이용하여 E. 콜라이에서 생산된 PAS#1(600)- IL1Ra 융합 단백질의 특징분석
(A) 10% SDS-PAGE에 의해 IMAC, AEX, CEX 및 SEC를 통해 정제된 PAS#1(600)-IL1Ra 융합 단백질의 분석. 겔은 2-머캅토에탄올로 환원되거나(레인 1) 환원되지 않은(레인 2) PAS#1(600)-IL1Ra의 2 ㎍의 샘플을 보여준다. 단백질 마커 단백질(M)의 크기는 왼쪽에 표시된다. 상기 PAS#1(600)-IL1Ra 융합 단백질은 116 kDa 이상의 겉보기(apparent) 분자 크기를 갖는 단일한 동종성 밴드로 나타난다. 빈약한 SDS 결합으로 인하여, PAS 융합 단백질은 일반적으로, 예컨대 PAS#1(600)-IL1Ra에 대해 계산된 질량인 68 kDa 보다도 현저하게 더 큰 크기를 보인다(Schlapschy (2013) Pretein Eng Des Sel. 26:489-501). ( B) 전자분무 이온화 질량 분석법(ESI-MS)을 통한 PAS#1(600) 융합 단백질의 특징분석. 정제된 PAS#1(600)-IL1Ra 융합 단백질의 디콘볼루션화(deconvoluted) ESI-MS 스펙트럼은 67,994.8 Da의 측정된 질량을 보였으며, 이는 67,994.9 Da의 계산된 질량과 거의 완벽하게 대응된다.
도 8: 유전적으로 안정한 발현 벡터 pASK37 - MP -PA#1d/1c/1b(600)를 이용하여 E. 콜라이에서 생산된 정제된 PA#1(600/) 폴리펩티드의 특징분석
(A) pASK37-MP-PA#1d/1c/1b(600)(서열번호 53)의 플라스미드 지도. PA#1(600) 폴리펩티드를 암호화하는 낮은 반복적인 뉴클레오티드 서열을 출발 Met 잔기 및 Pro 잔기에 대한 코돈이 선행하는 lacUV5 프로모터/오퍼레이터(lacUV5^p ^/o)의 전사 조절 하에 클로닝하였다. XbaI 및 HindⅢ 제한 부위의 옆에 있는 발현 카세트 바깥의 플라스미드 백본은 일반적인 발현 벡터 pASK37(Skerra (1991) Protein Eng. 4:971-979)의 경우와 동일하다. ( B) 10% SDS-PAGE와 이후의 바륨 아이오다이드를 이용한 염색에 의한 재조합 PA#1(600) 폴리펩티드의 분석. 로딩된 샘플은 3시간의 발현 후 용해된 세포(레인 1), 20% w/v (NH₄)₂SO₄로 침전된 단백질(레인 2), 17.000 rpm에서 20분 동안 원심분리한 후 20 mM Tris/HCl에 용해되고 이어서 1% v/v AcOH로 처리된 상기 (NH₄)₂SO₄ 침전물의 상등액(레인 3) 및 후속하는 상기 PA#1(600) 폴리펩티드 처리물의 공제성(subtractive) 양이온 교환 크로마토그래피의 유동물(레인 4)이다. 상기 PA#1(600) 폴리펩티드는 SDS에 빈약하게 결합한다; 따라서, 상기 PA#1(600) 폴리펩티드는 스태킹(stacking) 겔 내에서 적색/황색 요오드-염색된 밴드로 나타나며, 이는 동종성의 조성을 나타낸다. ( C) 물로 탈염색하고 쿠마시 브릴리언트 블루(Coomassie brilliant blue)로 염색한 후의 (B)에 나타낸 겔; 따라서, 불순물(숙주 세포 단백질)만이 쿠마시 염색된 겔에서 시각화된다. (D) 전기분무 이온화 질량 분석법(ESI-MS)을 통해 정제된 PA#1(600) 폴리펩티드의 특징분석. 상기 디콘볼루션화 스펙트럼은 48,301.78 Da의 측정된 값을 나타내는데, 이는 상기에 설명한 것과 같이 유전자 클로닝을 위해 도입된 SapI 제한 부위로 인해 N-말단에 부가적인 Pro 잔기 및 C-말단에 부가적인 Ala 잔기를 운반하는 상기 재조합 PA#1(600) 폴리펩티드에 대해 계산된 질량(48,301.4 Da)과 거의 완벽하게 일치한다. 상기 재조합 폴리펩티드는 출발 Met 잔기를 더 이상 운반하지 않음을 주목해야 하며, 이는 아마도 메티오닌 아미노펩티다아제의 세포내 작용의 결과인 것으로 보인다(Giglione (2015) Biochimie 114:134-46).
도 9: 프롤린/알라닌-풍부 아미노산 서열을 암호화하는 뉴클레오티드 서열의 자동화된 반복물 분석
종래 기술의 프롤린/알라닌-풍부 아미노산 서열을 암호화하는 천연 및 합성 뉴클레오티드의 반복물을 Python 스크립트 NRS-계산기를 이용하여 실시예 13에 개시된 것과 같이 분석하였고(실시예 14 참조), 여기서 본 발명에 따른 낮은 반복적인 뉴클레오티드 서열 PAS#1b(200) 및 PA#1e/1d/1c/1b(800)과 비교하였다. 상기 분석된 뉴클레오티드 서열 내의 소정 길이의 모든 반복물의 빈도(출현한 수)를 반복물 길이에 대해 플롯팅하였다. (A) 종래 기술의 뉴클레오티드 서열 PAS#1a(200)(서열번호 11)의 히스토그램. (B) 뉴클레오티드 서열 PA#1a(200)(서열번호 14)의 히스토그램. (C) 글리코모듈 [(AlaPro)₅]₂₀APA을 암호화하는 뉴클레오티드 서열(서열번호 16)의 히스토그램. (D) 글리코모듈 [AAPAPAPAP]₁₀AS를 암호화하는 뉴클레오티드 서열(서열번호 17)의 히스토그램. (E) 마카시네 헤르페스바이러스 1 의 큰 피막 단백질 내의 프롤린/알라닌-풍부 스트레치를 암호화하는 뉴클레오티드 서열(서열번호 18)의 히스토그램. (F) 낮은 반복적인 뉴클레오티드 서열 PAS#1b(200)(서열번호 19)의 히스토그램. (G) (F)에 도시된 PAS#1b(200) 데이터의 확대도. (H) 본 발명에 따른 낮은 반복적인 뉴클레오티드 서열 PA#1e/1d/1c/1b(800)(서열번호 44)의 히스토그램. (I) (H)에 도시된 PA#1e/1d/1c/1b(800) 데이터의 확대도. 빈도 및 반복물의 길이와 관련하여 프롤린/알라닌-풍부 아미노산 서열을 암호화하는 핵산 분자의 품질을 평가하기 위해 측정되는 상기 분석된 뉴클레오티드 서열의 전체 길이(N_tot) 및 그의 뉴클레오티드 반복물 점수(NRS)는 상이한 뉴클레오티드 서열에 대해 표 1 및 표 2에 요약되어 있다.
도 10: 치료적 타당성을 갖는 PA#1(600)- IL1Ra 융합 단백질의 박테리아 생산을 위한 유전적으로 안정한 발현 벡터인 pASK75-PA#1d/1c/1b(600)-IL1Ra
pASK75-PA#1d/1c/1b(600)-IL1Ra(서열번호 77)의 플라스미드 지도. 601개 아미노산 잔기를 갖는 PA#1 폴리펩티드를 암호화하는 낮은 반복적인 뉴클레오티드 서열을 포함하는 생물학적/약리학적 활성 (프리)단백질 PA#1(600)-IL1Ra에 대한 구조 유전자 및 인간 IL-1Ra 뿐만 아니라 박테리아 OmpA 신호 서열 및 a His6-태그에 대한 구조 유전자를 tet 프로모터/오퍼레이터(tet^p ^/o)의 전사 조절 하에 클로닝한다. XbaI 및 HindⅢ 제한 부위의 옆에 있는 발현 카세트 바깥의 플라스미드 백본은 일반적인 발현 벡터 pASK75(Skerra (1994) Gene 151:131-135)의 경우와 동일하다. 본 발명에 따른 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 낮은 반복적인 핵산 분자의 삽입 후에 유지되는 단일 SapI 제한 부위가 표시되어 있다.
도 11: 종래 기술의 뉴클레오티드 서열 PA#1a(600)와 비교하여 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 낮은 반복적인 핵산 분자 PA#1d/1c/1b(600)의 유전적 안정성의 분석
대략 70 세대의 박테리아 세포 분열에 해당하는 7일에 걸쳐 배양된, pASK75-PA#1d/1c/1b(600)-IL1Ra(도 10)(서열번호 77)로 형질전환된 E. 콜라이 JM83 클론의 10개 플라스미드 제조물 또는 pASK75-PA#1a(600)-IL1Ra(서열번호 78)로 형질전환된 10개 플라스미드 제조물의 XbaI/HindⅢ 제한 분석 후의 아가로오스 겔 전기영동. 레인: M, 분자 크기 표준(GeneRuler 1 kb DNA Ladder: 500, 750, 1,000, 1,500, 2,000, 2,500, 3,000, 3,500, 4,000, 5,000, 6,000, 8,000 및 10,000 bp); 1번 내지 10번: 제한 소화 후의 개별 클론 유래의 플라스미드 샘플. pASK75-PA#1a(600)-IL1Ra의 분석된 클론의 적어도 4/10이 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 핵산 삽입물을 포함하는 DNA 절편이 짧아진 것을 보였는데(도 11a), 이는 유전적 불안정성을 명확하게 나타낸다. 이와 대조적으로, pASK75-PA#1d/1c/1b(600)-IL1Ra의 10개의 모든 클론(도 11b)은 각각 3093 bp 및 2377 bp에 대응하는 예상된 밴드만을 보였는데, 이는 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 온전한 핵산 삽입물 및 높은 유전적 플라스미드 안정성을 나타낸다. 따라서, 본 발명에 따른 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 낮은 반복적인 뉴클레오티드 서열은 종래 기술의 반복적인 뉴클레오티드 서열에 비해 명확한 이점을 제공한다.
도 12: 프롤린/알라닌-풍부 아미노산 서열과 융합된 인간 렙틴의 박테리아 생산을 위한 유전적으로 안정한 발현 벡터의 구축
(A) 인간 렙틴의 구조 유전자와 틀 내에서 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 낮은 반복적인 뉴클레오티드 서열의 솔기없고 지향된 클로닝을 허용하기 위하여 SapI 제한 부위의 옆에 있는 솔기없는 클로닝 카세트를 함유하는 pASK37-MP-huLeptin(서열번호 81)의 플라스미드 지도. (B) PA#1d/1c/1b(600) 유전자 카세트(서열번호 42)의 삽입물을 갖는 pASK37-MP-huLeptin의 유도체인 pASK37-MP-huLeptin-PA#1d/1c/1b(600)(서열번호 82)의 플라스미드 지도. (C) PAS#1f/1c/1b(600) 유전자 카세트(서열번호 38)의 삽입물을 갖는 pASK37-MP-huLeptin의 유도체인 pASK37-MP-huLeptin-PAS#1f/1c/1b(600)(서열번호 83)의 플라스미드 지도. 생물학적/약리학적 활성 인간 단백질 렙틴, PA#1(600)을 암호화하는 반복적인 뉴클레오티드 서열에 융합된 인간 렙틴 및 PAS#1(600) 폴리펩티드를 암호화하는 낮은 반복적인 뉴클레오티드 서열에 융합된 인간 렙틴에 대한 구조 유전자를 모두 출발 Met 잔기 및 Pro 잔기에 대한 코돈이 선행하는 lacUV5 프로모터/오퍼레이터(lacUV5^p/o)의 전사 조절 하에 클로닝하였다. XbaI 및 HindⅢ 제한 부위의 옆에 있는 발현 카세트 바깥의 플라스미드 백본은 일반적인 발현 벡터 pASK37(Skerra (1991) Protein Eng. 4:971-979)의 경우와 동일하다.
도 13: 유전적으로 안정한 발현 벡터 pASK37 - MP -PA#1d/1c/1b(600)-huLeptin(W100Q)을 이용하여 PA#1(600) 폴리펩티드에 융합되고 E. 콜라이에서 생산된 인간 렙틴 변이체의 특징분석
(A) 10% 폴리아크릴아미드 겔을 이용하고, 이후 쿠마시 브릴리언트 블루 R-250을 이용한 염색에 의한 PA#1(600)-huLeptin(W100Q) 융합 단백질의 SDS-PAGE 분석. 상기 겔은 단백질 분자량(MW) 마커(레인 M; Thermo Fisher Scientific, Waltham, MA), 환원 샘플 조건 하에 19시간 발현한 후의 E. 콜라이 전체 세포 추출물(레인 1), 1 M (NH₄)₂SO₄로 침전된 환원되거나(레인 2) 환원되지 않은 단백질(레인 5), 환원되거나(레인 3) 환원되지 않은(레인 6) 음이온 교환 크로마토그래피 후의 단백질, 및 환원되거나(레인 4) 환원되지 않은(레인 7) 크기 배제 크로마토그래피 후의 단백질을 보여준다. PA#1(600)-huLeptin(W100Q)은 단일 밴드를 보이는데, 이는 동종성 조성물을 나타낸다. ( B) 전기분무 이온화 질량 분석법(ESI-MS)을 통한 PA#1(600)-huLeptin(W100Q) 융합 단백질의 특징분석. 디콘볼루션화 스펙트럼은 64,249.5 Da의 측정된 질량을 나타내는데, 이는 상기 재조합 융합 단백질에 대해 계산된 질량(64,249.8 Da)과 일치하며, 박테리아 메티오닌 아미노펩티다아제에 의한 출발 Met 잔기의 성공적인 절단을 나타낸다.

본 발명은 본 발명과 그 많은 이점들의 더 나은 이해를 제공하는 다음의 실증적인 비제한적 실시예에 의해 부가적으로 개시된다.

실시예 1: 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 낮은 반복적인 뉴클레오티드 서열 유닛의 합성

각각 200개 잔기의 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 상이한 뉴클레오티드 서열의 세트를 수동 조정을 포함하여 뉴클레오티드 레벨, 낮은 GC 함량, 낮은 RNA 2차 구조, E. 콜라이에서의 발현을 위한 바람직한 코돈-이용성 및 항-바이러스 모티프의 방지 및 CIS-작용 인자에 관해 최적화하였다. 이를 위하여, 조건-특이적 코돈 최적화 접근법(Lanza (2014) BMC Syst Biol 8:33) 또는 GeneOptimizer 알고리즘(Raab (2010) Syst Synth Biol 4:215-225)과 같은 확립된 알고리즘을 적용하였다. 얻어진 초기 서열을 다음의 방식으로 수동으로 조정하였다.

해당 역치(예컨대, 14개 뉴클레오티드)보다 더 긴 반복물을 http://visualgenedeveloper.net에서 자유롭게 이용가능한 Visual Gene Developer 소프트웨어 버전 1.2를 이용하여 확인하였다. 이어서, 확인된 반복물 내의 코돈을 단계별로 치환하였다. 특히, 상기 확인된 반복물 내의 GC-풍부 코돈을 선택된 숙주 유기체(예컨대, E. 콜라이, P. 파스토리스 또는 CHO)에서 높게 발현되는 유전자에서 우세한 AT-풍부 코돈으로 교체하였다. 각각의 치환 후, 반복물에 대해 전체 뉴클레오티드 서열을 다시 분석하였다. 상기 치환이 해당 역치보다 더 긴 새로운 반복물을 유도한 경우, 상기 뉴클레오티드 교환(들)은 거부되었고, 이전에 확인된 반복물 내의 상이한 코돈이 치환되었다. 상기 접근법이 실패하면, 상기 확인된 긴 반복물 내의 2개의 코돈을 동시에 치환하였다. 이러한 방식으로, 상기 암호화된 프롤린/알라닌-풍부 아미노산 서열을 유지하면서 해당 역치 이상의 모든 확인된 반복물을 되풀이하여 제거하였다.

제2 단계에서, 상기 최적화된 뉴클레오티드 서열의 코돈 적응 지수(CAI), GC 함량 및 안정한 mRNA 구조를 Visual Gene Developer 소프트웨어를 이용해 분석하였고, 출발 서열과 비교하였다. 상기 최적화된 뉴클레오티드 서열이 출발 서열과 동일하거나 더 나은 CAI, GC 함량 또는 mRNA 구조에 도달할 때까지 다시 코돈 치환/사일런트 돌연변이에 의한 부가적인 수동 조정을 수행하였다. 단계 1의 반복물 분석법을 다시 수행하였고, 반복물 역치, CAI, GC 함량 및 mRNA 구조(2차 구조)의 필요시 상기 목적을 충족하기 위하여 다른 코돈을 교환하였다.

제3 단계에서, 각각 동일한 200-잔기 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 상이한 개별적으로 최적화된 뉴클레오티드 서열을 서로 조합, 즉 첨부하였고, 결과물인 더 긴 뉴클레오티드 서열을 단계 1 및 2와 동일한 방식으로 최적화하였다. 마지막으로, 결과물인 긴 산 서열을 더 짧은, 예컨대 600개 뉴클레오티드 길이의 DNA 카세트로 나누었다. 예를 들면, 2,400개 뉴클레오티드 서열 PAS#1d/1f/1c/1b(서열번호 39)는 4개의 더 짧은 카세트(서열번호 19, 20, 21, 23)로 나누었다. 유사하게, 2,400개 뉴클레오티드 서열 PA#1e/1d/1c/1b(서열번호 44)는 각각 600개 뉴클레오티드를 포함하는 4개의 더 짧은 카세트(서열번호 28, 29, 30, 31)로 나누었다.

역으로 상보적인 방향으로 2개의 SapI 인식 부위(5'-GCTCTTC-3')의 옆에 있고 제한 효소 소화 후 5'-GCC/5'-GGC 뉴클레오티드 돌출부가 되는 상기 최적화된 뉴클레오티드 서열 유닛을 상이한 상업적인 판매사에 의해 개별적으로 합성하였다. 주목할 것은, 상기 2개의 GCC/GGC 뉴클레오티드 돌출부의 존재로 인하여, 중앙의 597개 뉴클레오티드만이 절단 후 DNA 이중 가닥을 형성하고, 따라서 염기 쌍(bp)을 포함한다. 또한, 상기 최적화된 600개 뉴클레오티드 서열은 제2 SapI 제한 부위의 존재로 인해 부가적인 Ala 코돈에 의해 연장되고, 따라서 프롤린/알라닌-풍부 아미노산 서열을 암호화하는 총 603개 뉴클레오티드의 클로닝된 DNA 카세트를 유도한다. 상기 2개의 옆에 있는 SapI 제한 부위의 존재는, 예컨대 pXL2 상에서 본 발명의 전체 DNA 카세트의 정확한 절단 및 서브클로닝을 가능하게 한다.

에세리키아 콜라이, 피키아 파스토리스, 인간 배아 신장(HEK) 세포, 슈도모나스 플루오레센스, 코리네박테리움 글루타미쿰, 바실러스 서브틸리스, 테트라히메나 썰모필라, 사카로마이세스 세레비지애, 클루이베로마이세스 락티스, 피스코미트렐라 파텐스 또는 크리세툴러스 그리세우스에서의 발현을 위해 코돈-최적화된 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 추가 세트의 뉴클레오티드 서열 유닛을 동일한 방식으로 디자인 및 합성하였다. 상기 유기체들에 대한 코돈 선호 테이블은 http://www.kazusa.or.jp/codon에서 다운로드해 이용가능하다. 본 발명에 따라 합성된 핵산 분자 및 그의 뉴클레오티드 서열 특징분석은 표 1에 요약되어 있다.

실시예 2: 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 더 긴 뉴클레오티드 서열에 대한 낮은 반복적인 뉴클레오티드 서열 유닛의 조립

각각 클로닝된 합성 DNA 절편을 운반하는 상업적인 판매사로부터 수득된 플라스미드를 SapI로 소화하였고, 결과물인 600개 뉴클레오티드 DNA 절편을 표준 절차에 따라 아가로오스 겔 전기영동을 통해 정제하였다(Sambrook (2001) loc. cit.). 개별 뉴클레오티드 서열 유닛을 도 1a에 나타낸 pUC19(Yanisch-Perron (1985). Gene. 33, 103-119)의 유도체인 플라스미드 pXL2(서열번호 48)을 이용하여 더 긴 뉴클레오티드 서열로 조립하였다. pXL2는 단일 SapI 제한 부위를 함유하며, 상기 타입 타입 ⅡS 제한 효소를 이용한 소화물은 합성된 정제 DNA 절편의 점성의 말단과 호환되는 알라닌을 코딩하는 5'-GCC/5'-GGC-돌출부를 생성한다(도 1c). 한 뉴클레오티드 서열 유닛의 삽입/라이게이션 후, 상기 플라스미드는 다른 SapI 제한 소화물에 의해 상기 클로닝된 서열 유닛의 한 말단(본 명세서에서는 상류)에서 개방될 수 있다(도 1d). 상기 벡터 디자인은 동일하거나 상이한 낮은 반복적인 뉴클레오티드 서열 유닛의 단계별 삽입을 허용하여, 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 더 긴 클로닝된 유전자 카세트를 생성한다(도 1e).

한 예로서, 먼저 뉴클레오티드 서열 유닛 PAS#1b(200)(서열번호 19), 이후 서열 유닛 PAS#1c(200)(서열번호 20), 및 이어서 서열 유닛 PAS#1f(200)(서열번호 23)을 상기 개시된 방식으로 SapI 제한 부위를 통해 pXL2 내로 삽입시킨 결과, 플라스미드 pXL2-PAS#1f/1c/1b(600)(서열번호 38)을 생성하였다. 후속 단계에서, 서열 유닛 PAS#1d(200)(서열번호 19)을 SapI 제한 부위를 이용하여 동일한 방식으로 부가적으로 삽입시켰다. 결과물인 플라스미드는 상기 조립된 2,400 bp DNA 카세트 PAS#1d/1f/1c/1b(800)를 함유하였으며, 전체적으로 14개 뉴클레오티드의 최대 길이를 갖는 뉴클레오티드 서열 반복물(서열번호 39)을 나타내었다. pXL2 상에 클로닝된 낮은 반복적인 DNA 카세트 하류의 EarI의 인식 서열(5'-CTCTTC-3')이 또한 SapI의 인식 서열의 일부이기 때문에, 전체 조립된 DNA 카세트는 EarI을 이용한 제한 소화를 통해 용이하게 잘려질 수 있으며, 따라서 2회 절단함으로써 추가 서브클로닝을 위한 후속 이용을 허용한다.

동일한 방식으로, 낮은 반복적인 뉴클레오티드 서열 PA#1e/1d/1c/1b(800)(서열번호 44)을 뉴클레오티드 서열 유닛 PA#1b(200)(서열번호 28), PA#1c(200)(서열번호 29), PA#1d(200)(서열번호 30) 및 PA#1e(200)(서열번호 31)으로부터 상기 순서로 조립하였다. 상기 개시된 조립된 뉴클레오티드 서열뿐만 아니라 E. 콜라이과 상이한 숙주 유기체를 위해 최적화된 코돈 이용성을 갖는 본 발명에 따른 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 추가 예시적인 낮은 반복적인 핵산 분자는 표 1에 요약되어 있다. 상기 개시된 클로닝 전략은 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 긴 낮은 반복적인 핵산 분자를 포함하는 복잡한 유전자 카세트의 단순하고 단계적인 조립을 제공하며, 이는 보통의 유전자 합성 방법에 의해 직접적으로 얻어질 수 없다.

실시예 3: 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 뉴클레오티드 서열의 반복성 분석

WO 2011144756에 개시된 것과 같은 프롤린/알라닌-풍부 아미노산 반복 서열 PA#3(서열번호 15)(도 2a), WO2008155134에 개시된 것과 같은 PAS#1(서열번호 11)(도 2b), WO2004094590에 개시된 것과 같은 [(AP)₅]_n 멀티머(서열번호 16) 및 GenBank 기탁 번호 AAP41454.1(서열번호 18)(도 2c) 하에 공개된 마카시네 헤르페스바이러스 1 유전자의 매우 큰 피막 단백질의 반복적인 프롤린/알라닌-풍부 아미노산 서열 영역을 암호화하는 상이한 뉴클레오티드 서열에 대한 도트 플롯 분석법을 수행하였다. 각각의 뉴클레오티드 서열을 지니어스 소프트웨어 패키지 버전 8.1(Biomatters, Auckland, New Zealand)의 도트 플롯 수단 "도트업"을 이용하여 스스로에 대해 정렬하고 14 또는 15개 뉴클레오티드의 반복물 윈도우에 적용함으로써 상기 분석법을 수행하였다. 상기 소프트웨어의 알고리즘은 자유롭게 이용가능한 EMBOSS 6.5.7 수단인 "도트업"(Sanger Institute, Cambridge, UK)에 기반한다. 결과물인 종래 기술의 뉴클레오티드 서열에 대해 얻어진 2차원 도트 플롯 그래프를 상기 낮은 반복적인 뉴클레오티드 서열 유닛 PA#3b(200)(서열번호 36), PA#1b(200)(서열번호 28) 및 더 긴 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 상기 조립된 뉴클레오티드 서열 PAS#1f/1c/1b(600)(서열번호 38) 및 PAS#1d/1f/1c/1b(800)(서열번호 39)의 도트 플롯과 비교하였다. 모든 분석된 종래 기술의 뉴클레오티드 서열은 뉴클레오티드 서열 레벨에 대해 매우 반복적인 본성을 보였지만(도 2a, 도 2b, 도 2c), 본 발명에 따른 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 상기 최적화된 뉴클레오티드 서열의 도트 플롯은 600개 뉴클레오티의 PA#3b(200) 및 PA#1b(200) 카세트(도 2a, 도 2c), 1,800개 뉴클레오티드 PAS#1f/1c/1b(600) 카세트(도 2b) 또는 2,400개 뉴클레오티드 PAS#1d/1f/1c/1b(800) 카세트(도 2b)의 전체 분석된 뉴클레오티드 서열 내에서 단지 소수의 산재된 또는 짧은 14개 뉴클레오티드 반복물만을 보였다(검은색 선).

실시예 4: 긴 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 낮은 반복적인 핵산 분자의 DNA-서열분석

플라스미드 pXL2 상에 클로닝되고 실시예 2에 개시된 상기 낮은 반복적인 PAS#1f/1c/1b(600) DNA 카세트(서열번호 38)를 ABI 3730XL 기구(Thermo Fisher Scientific, Waltham, MA) 상에서 Sanger 사이클 서열분석을 이용하여 DNA-서열분석 서비스 공급자(Eurofins Genomics, Ebersberg, Germany)에 의해 서열분석하였다. 이를 위하여, QIAprep Spin Miniprep 키트(Qiagen, Hilden, Germany)를 이용해 형질전환된 E. 콜라이 XL1-blue 세포로부터 단리된 8 ㎕(150 ng/㎕)의 pXL2-PAS#1f/1c/1b(600) 플라스미드 DNA를 5 ㎕의 이중 증류된 H₂O 및 PAS#1b(200) 뉴클레오티드 서열 유닛의 코딩 영역 내에서 혼성화하는 2 ㎕의 프라이머 XLP-1(10 μM)(서열번호 3)과 혼합하였고, DNA-서열분석 서비스 공급자에게 전달하였다. 그 결과, 비특이적 또는 다수의 프라이머 결합의 징후를 보이지 않는 900개 이상의 할당가능한 뉴클레오티드(도 3)를 포함하는 오류-부재 전기영동도가 얻어졌다. 따라서, 상기 클로닝된 DNA의 상류 또는 하류의 벡터 뉴클레오티드 서열에 혼성화하는 프라이머를 이용하여 부분적으로만 서열분석될 수 있는 긴 반복적인 뉴클레오티드 서열과 대조적으로, 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 본 발명에 따른 긴 낮은 반복적인 핵산 분자는 상기 클로닝된 뉴클레오티드 서열 내에서 내부에 특이적으로 혼성화하는 프리이머를 이용해서도 용이하게 서열분석될 수 있다. 이는 상이한 적합한 프라이머를 이용하여 다수의 중첩하는 서열을 해독할 수 있게 하고, 따라서 본 발명에 따른 매우 긴 핵산 분자의 전체 서열에 대해서도 커버하게 한다.

실시예 5: 치료적 PAS#1(600)- IL1Ra 융합 단백질의 박테리아 생산을 위한 유전적으로 안정한 발현 벡터인 pASK75-PAS#1f/1c/1b(600)의 구축

600개 잔기의 PAS#1 아미노산 반복 서열(서열번호 38)과의 융합물로서 인터루킨-1 수용체 길항제(IL-1Ra)를 암호화하는 발현 플라스미드를 구축하기 위하여, 벡터 pASK75-IL1Ra(도 4a)(서열번호 49)를 SapI로 절단하였고, 새우 알칼리 포스파타아제(Thermo Fisher Scientific, Waltham, MA)를 이용해 탈인산화시켰으며, 상기 600개 잔기 PAS#1 폴리펩티드를 암호화하는 낮은 반복적인 뉴클레오티드 서열 카세트에 대응하는 EarI을 이용한 제한 소화에 의해 플라스미드 pXL2-PAS#1f/1c/1b(600)로부터 잘려진 DNA 절편과 라이게이션하였다. E. 콜라이 XL1-Blue(Bullock (1987) Biotechniques 5:376-378)의 형질전환 후, 플라스미드 DNA를 제조하였고, 상기 삽입된 DNA 절편의 존재를 제한 분석 및 DNA 서열분석에 의해 확인하였다. 결과물인 플라스미드는 pASK75-PAS#1f/1c/1b(600)-IL1Ra(서열번호 50)로 표기하였으며, 도 4b에 나타나 있다.

실시예 6: 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 낮은 반복적인 핵산 분자를 갖고 있는 플라스미드의 장기간의 유전적 안정성 테스트

플라스미드 pASK75-PAS#1f/1c/1b(600)-IL1Ra(서열번호 50)의 유전적 안정성을 PAS#1f/1c/1b(600) DNA 카세트가 반복적인 핵산 PAS#1a(600)(서열번호 12)에 의해 치환된 유도체인 pASK75-PAS#1a(600)-IL1Ra(서열번호 51)의 유전적 안정성과 비교하였다. 이를 위하여, E. 콜라이 KS272(Strauch (1988) Proc. Natl. Acad. Sci. USA 85:1576-1580)를 염화칼슘 방법(Sambrook (2001) loc. cit.)을 이용하여 해당 플라스미드로 형질전환시켰고, 유전자 발현의 유도없이 100 ㎖의 교반 플라스크 내에서 100 ㎎/㎖의 암피실린으로 보충된 50 ㎖의 Luria Bertani(LB) 배지에서 37℃, 170 rpm으로 7일 동안 배양하였다. 상기 기간 동안, 박테리아 세포를 하루 2회(아침 및 저녁에) 1:1,000 희석을 이용하여 신선한 배지로 전달하였다. 7일에, 대략 70 세대에 걸친 계속적인 성장 후, 상기 배양물을 최종적으로 정지기로 성장시켰고, 세포를 LB/Amp 아가 상에 플레이팅하였다. 이후, 개별 클론들을 취하고, LB 배지에서 50 ㎖ 배양물의 접종을 위해 사용하였으며, 밤새 정지기로 성장시킨 후, 각각의 2개의 플라스미드에 대한 5개의 클론으로부터의 플라스미드 DNA를 Qiagen Miniprep 키트(Qiagen, Hilden, Germany)를 이용해 제조하였고, XbaI/HindⅢ 제한 소화에 의해 분석하였다(도 5).

pASK75-PAS#1a(600)-IL1Ra의 5개의 분석된 클론들 중 1개만이 3,093 bp 및 2,377 bp에 대응하는 예상된 밴드를 보였다(도 5, 레인 1). 2개의 클론(도 5, 레인 3 및 5)은 OmpA 및 IL1Ra을 암호화하는 조합된 유전자 서열의 대략적인 크기인 573 bp의 밴드를 보였으며, 이는 아마도 재조합에 의한 상기 반복적인 PAS#1a(600) 서열 카세트의 다소간의 완전한 손실을 나타낸다. 2개의 다른 클론은 현저하게 짧아진 DNA 절편을 보였으며(도 5, 레인 2 및 4), 이는 상기 반복적인 PAS#1a(600) 서열 카세트 내에서의 결실 사건, 즉 유전적 불안정성을 나타낸다. 이와 대조적으로, pASK75-PAS#1f/1c/1b(600)-IL1Ra의 5개의 분석된 모든 클론은 3,093 bp 및 2,377 bp의 예상된 밴드를 보였는데(도 5, 레인 6-10), 이는 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 온전한 유전자 카세트, 즉 본 발명에 따른 낮은 반복적인 핵산 분자의 높은 유전적 플라스미드 안정성을 나타낸다.

실시예 7: 생물학적 활성 단백질 IL- 1Ra를 암호화하는 발현 플라스미드 상에서 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 낮은 반복적인 뉴클레오티드 서열의 솔기없고 지향된 클로닝

약학적 적용을 목표로, 생물학적 활성 단백질 및 프롤린/알라닌-풍부 아미노산 반복 서열만을 포함하는 융합 단백질이 바람직하다. 예컨대, 클로닝을 위한 제한 부위를 제공하거나 이용하기 위해 도입되는 부가적인 아미노산 링커의 부재는 임상적 이용 동안에 잠재적인 면역 반응을 방지하거나, 및/또는 단백질 레벨에서 의도하지 않은 상호작용을 방지할 수 있다. 따라서, 낮은 반복적인 뉴클레오티드 서열의 지향된 삽입을 위한 솔기없는 클로닝 전략이 개발되었으며(도 6), 본 명세서에서 생물학적 활성 단백질 IL1-Ra(Molto (2010) Joint Bone Spine. 77:102-107)를 암호화하는 일반적인 발현 플라스미드 pASK75(Skerra (1994) loc. cit.)의 유도체 상에서 PA#1b(200)(서열번호 28)을 포함하는 DNA 절편에 대해 예시하였다.

먼저, IL1-Ra(UniProt ID P18510)의 성숙한 아미노산 서열을 암호화하는 합성 DNA 절편을 유전자 합성 공급자(Thermo Fisher Scientific, Regensburg, Germany)로부터 수득하였다. 성숙한 IL1Ra(UniProt ID P18510)을 위하여 상기 유전자 절편(서열번호 46)은 XbaI 제한 부위, 이후 리보좀 결합 부위, OmpA 신호 펩티드를 암호화하는 뉴클레오티드 서열, 이후 GCC 알라닌 코돈, 비-코딩 가닥 상의 제1 SapI 인식 서열 GCTCTTC, GC 디뉴클레오티드 스페이서, 및 코딩 가닥 상에 그 인식 서열 GCTCTTC를 갖는 역으로 상보적인 방향으로 제2 SapI 제한 서열, 이후 상기 코딩 서열에 직접 결합된 GCC 알라닌 코돈, 및 최종적으로 HindⅢ 제한 부위를 포함하였다.

상기 유전자 절편을 표준 절차(Sambrook (2001) loc. cit.)에 따라 옆에 있는 제한 부위 XbaI 및 HindⅢ를 통해 pASk75 상에 클로닝하였다. 결과물인 플라스미드(도 6a 참조)를 SapI로 소화시켰고, 이는 양쪽 SapI 인식 부위를 함유하는 작은(24 bp) DNA 삽입체 및 IL-1Ra의 상기 암호화된 성숙한 N-말단의 바로 앞에 위치하는 호환되는 5'-GCC/5'-GGC 점성의 말단을 갖는 잘려진 벡터 백본의 자유화(liberation)를 유도하였으며, 이는 상기 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 낮은 반복적인 핵산 분자의 삽입을 위해 이상적으로 적합하다(도 6b). 제조사의 설명서에 따라 QIAquick 겔 추출 키트(Qiagen, Hilden, Germany)를 이용한 벡터 절편의 단리 및 열민감성 알칼리 포스파타아제 FastAP(Thermo Fisher Scientific, Waltham, MA)를 이용한 탈인산화 후, 이를 EarI 제한 소화를 통해 pXL2-PA#1b(200)(서열번호 54)로부터 잘려진 PA#1b(200) 유전자 카세트와 라이게이션시켰다(도 6c). 결과물인 플라스미드(서열번호 56)는 (E. 콜라이에서 주변세포질 분비에 대한 OmpA 신호 펩티드의 생체내 가공 후) 상기 생물학적 활성 단백질 IL-1Ra와 용합된 프롤린/알라닌-풍부 아미노산 반복 서열만으로만 이루어지는 융합 단백질(서열번호 10)의 박테리아 발현을 허용한다.

실시예 8: 유전적으로 안정한 플라스미드 pASK75 -PAS#1f/1c/1b(600)- IL1Ra 상에서 암호화된 PAS#1(600) 서열 및 IL- 1Ra 사이의 융합 단백질의 박테리아 생산 및 정제

PAS#1(600)-IL1-Ra 융합 단백질(계산된 질량: 68 kDa)을 공개된 절차(Schiweck (1995) Protein 23:561-565)에 따라 100 ㎎/L 암피실린 및 30 ㎎/L 클로람페니콜이 보충된 합성 글루코오스 미네랄 배지로 8 L 벤치 탑 발효기를 이용하여 실시예 6으로부터의 유전적으로 안정한 발현 플라스미드 pASK75-PAS#1f/1c/1b(600)-IL1Ra 및 접힘 헬퍼 플라스미드 pTUM4(Schlapschy (2006) Protein Eng. Des. Sel. 20:273-284)를 갖고 있는 E. 콜라이 KS272에서 25℃에서 생산하였다. 상기 배양물이 OD₅₅₀=28에 도달하자마자 500 ㎍/L의 무수테트라사이클린을 첨가함으로써 재조합 유전자 발현을 유도하였다. 2.5시간의 유도 기간 후, 세포를 원심분리에 의해 수확하였고, 얼음-냉각 주변세포질 분획화 버퍼(500 mM 수크로오스, 1 mM EDTA, 100 mM Tris/HCl pH 8.0; 리터 당 2 ㎖ 및 OD₅₅₀)에서 10분 동안 재현탁시켰다. 15 mM EDTA 및 250 ㎍/㎖ 리소자임(lysozyme)을 첨가한 후, 상기 세포 현탁물을 얼음 상에서 30분 동안 인큐베이션하였고, 수 회 원심분리하였으며, 상기 재조합 단백질을 함유하는 맑은 상등액을 회수하였다.

상기 주변세포질 추출물을 5 L의 40 mM Na-포스페이트 pH 7.5, 500 mM NaCl에 대해 4℃에서 각각 4회 투석하였고, 80 ㎖ HisTrap HP 칼럼(GE Healthcare, Freiburg, Germany)을 이용하여 His₆-태그에 의해 정제하였다. 상기 단백질을 40 mM Na-포스페이트 pH 7.5, 0.5 M NaCl에서 0 내지 200 mM의 이미다졸/HCl pH 7.5 농축 구배로 용출하였다. 상기 정제된 단백질을 모으고, 5 L의 20 mM Tris/HCl pH8.0, 1 mM EDTA에 대해 4℃에서 적어도 6시간 동안 각각 2회 투석하였다. 상기 투석된 단백질 용액을 Source15Q 수지로 패킹되고 Akta 정제기 시스템(GE Healthcare, Freiburg, Germany)에 연결된 60 ㎖ XK 컬럼(GE Healthcare, Freiburg, Germany)을 이용하여 20 mM Tris/HCl pH 8.0, 1 mM EDTA를 구동 버퍼로 이용하여 음이온 교환 크로마토그래피를 거쳤다. 상기 단백질을 구동 버퍼에서 0 내지 200 mM의 NaCl 농도 구배를 이용해 용출하였다.

용출된 분획을 10 mM MES/HCl pH 6.0, 1 mM EDTA에 대해 4℃에서 적어도 6시간 동안 각각 2회 투석하였고, 후속해서 36 ㎖의 Source15S 수지(GE Healthcare, Freiburg, Germany)로 패킹된 XK 칼럼을 이용한 양이온 교환 크로마토그래피를 거쳤다. 상기 양이온 교환 크로마토그래피는 10 mM MES/HCl pH 6.0, 1 mM EDTA를 구동 버퍼로 이용하고 구동 버퍼에서 4 칼럼 부피에 대해 0 내지 500 mM의 NaCl 농도 구배로 Akta 정제기 시스템 상에서 수행하여 상기 단백질을 용출하였다. PAS#1(600)-IL1-Ra를 함유하는 용출된 단백질 분획을 다시 모으고, 5 L 포스페이트-버퍼화 식염수(PBS: 115 mM NaCl, 4 mM KH₂PO₄ 및 16 mM Na₂HPO₄ pH 7.4)에 대해 4℃에서 밤새 투석하였으며, Amicon Ultra 원심분리 필터 장치(30000 MWCO; 15 ㎖; Millipore, Billerica, MA)를 이용하여 5 ㎎/㎖로 농축하였고, PBS로 평형화된 HiLoad 26/60 Superdex 200 프렙그레이드 칼럼(GE Healthcare, Freiburg, Germany)을 이용한 크기 배제 크로마토그래피를 통해 추가로 정제하였다.

하나의 8 L 발효기로부터 70 ㎎의 최종 수율로 응집의 징후가 없는 동종성 단백질 제조물을 수득하였다. 15,720 M^- ¹ ㎝^-1의 계산된 흡광 계수(Gill (1989) Anal. Biochem. 182:319-326)를 이용하여 280 nm의 흡광도를 측정함으로써 단백질 농도를 결정하였다. 고 몰농도 Tris 버퍼 시스템(Fling (1986) Anal. Biochem. 155:83-88)을 이용하여 SDS-PAGE를 수행하였다(도 7a).

실시예 9: PAS#1(600)-IL1Ra 융합 단백질의 ESI-MS 분석

실시예 8에 개시된 것과 같이 생산 및 정제된 PAS#1(600)-IL1Ra를 1,000-배 부피의 10 mM 암모늄 아세테이트 pH 6.8에 대해 2회 투석하였고, 양이온 모드를 이용하여 Q-Tof Ultima 기구(Waters, Eschbronn, Germany) 상에서 ESI 질량 분석법을 통해 분석하였다. 상기 PA#1(600)-IL1Ra 융합 단백질의 디콘볼루션화 스펙트럼은 67,994.8 Da의 질량을 나타내었는데, 이는 본질적으로 67994.8 Da의 계산된 질량과 일치한다(도 7b). 이것은 전체 PA#1(600)-IL1Ra 융합 단백질이 상기 유전적으로 안정한 발현 플라스미드 pASK75-PAS#1f/1c/1b(600)-IL1Ra를 이용하여 E. 콜라이에서 효과적으로 생산될 수 있음을 명확하게 보여준다.

실시예 10: E. 콜라이에서 프롤린/알라닌-풍부 아미노산 반복 폴리펩티드의 생산을 위한 유전적으로 안정한 플라스미드인 pASK37-MP-PA#1d/1c/1b(600)의 구축

상기 정제된 PA#1(600) 폴리펩티드를 암호화하는 안정한 발현 플라스미드를 구축하기 위하여, 100 p㏖의 프라이머 NdeI-MP-SapI-HindⅢfw(서열번호 4) 및 NdeI-MP-SapI-HindⅢrev(서열번호 5)를 인산화하고, 혼합하고, 10분 동안 80℃까지 가열하고, 밤새 실온으로 천천히 냉각시켜 혼성화되게 하였다. 결과물인 2중 가닥의 DNA 절편은 NdeI 및 HindⅢ 돌출부와 호환되는 점성의 말단을 나타내었다. 플라스미드 pASK37(Skerra (1991) loc. cit.)을 NdeI 및 HindⅢ으로 절단하였고, 백본 절편을 상기 혼성화된 프라이머들과 라이게이션시켰다.

결과물인 플라스미드를 SapI으로 소화시켰으며, 이는 양쪽 SapI 인식 부위를 함유하는 작은(24 bp) 삽입체 및 점성의 5'-GCC/5'-GGC 말단과 호환되는 잘려진 벡터 백본의 자유화를 유도하였다. 상기 점성의 말단은 효과적인 번역 개시를 허용하는 것으로 나타난 프롤린 코돈 CCA에 의해 뒤따르는 N-말단 출발 메티오닌 코돈(ATG)의 바로 하류에 위치하는 상기 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 낮은 반복적인 뉴클레오티드 서열의 삽입을 위해 이상적으로 적합하다. 제조사의 설명서에 따라 QIAquick 겔 추출 키트를 이용한 벡터 절편의 단리 및 열민감성 알칼리 포스파타아제 FastAP를 이용한 탈인산화 후, 이를 EarI 제한 소화를 통해 pXL2-PA#1d/1c/1b(600)로부터 잘려진 낮은 반복적인 유전자 카세트 PA#1d/1c/1b(600)(서열번호 42)과 라이게이션시켰다. 결과물인 플라스미드(서열번호 53)는 프롤린/알라닌-풍부 아미노산 반복 서열만을 포함하는 폴리펩티드의 발현을 허용한다(도 8a).

실시예 11: 유전적으로 안정한 플라스미드 pASK37 - MP -PA#1d/1c/1b(600) 상에서 암호화된 PA#1(600) 폴리펩티드의 박테리아 발현 및 정제

N-말단에 부가적인 Pro 잔기 및 C-말단에 부가적인 Ala 잔기를 갖는 PA#1(600) 폴리펩티드(계산된 질량: 48,302 Da)를 실시예 10에 개시된 발현 플라스미드 pASK37-PA#1d/1c/1b(600)을 갖고 있는 E. 콜라이 KS272의 세포질에서 생산하였다. 멸균된 13 ㎖의 폴리프로필렌 튜브(Sarstedt, Numbrecht, Germany) 내에서 1% w/v 글루코오스 및 100 ㎎/L의 암피실린으로 보충된 4 ㎖의 LB 배지를 pASK37-PA# 1d/1c/1b(600)으로 형질전환된 E. 콜라이 KS272의 콜로니로 접종하였고, 37℃, 170 rpm에서 밤새 성장시켰다. 박테리아 단백질 생산을 2.5 g/L의 D-글루코오스 및 100 ㎎/L의 암피실린으로 보충된 2 L의 TB(terrific broth) 배지(Sambrook (2001) loc. cit.)를 갖는 5 L의 교반 플라스크에서 30℃에서 수행하였다.

E. 콜라이 배양물을 2 ㎖의 밤새 배양물로 접종하였고, 세포를 밤새 성장시켰으며, 0.5 mM의 최종 농도로 이소프로필-β-D-티오갈락토피라노사이드(IPTG)를 첨가함으로써 OD₅₅₀=5에서 재조합 유전자 발현을 유도하였다. 유도 3시간 후에 박테리아를 수확하였고, 20 ㎖의 40 mM Na-포스페이트 pH 7.2, 1 mM EDTA 내에 재현탁시켰으며, French 가압 세포(Thermo Scientific, Waltham, MA)를 이용해 용해시켰다. 상기 용해물의 원심분리(17,000 rpm, 1시간, 4℃) 후, 봉입체(inclusion body)는 관찰되지 않았다. 가용성 PA#1(600) 폴리펩티드를 함유하는 상등액을 실온에서 계속적인 교반 하에 20% w/v의 최종 농도로 고형의 (NH₄)₂SO₄를 단계별로 첨가함으로써 암모늄 설페이트 침전을 거쳤다. 상기 상등액을 실온에서 20분 동안 17,000 rpm에서 원심분리하였다. 침전된 PA#1(600) 폴리펩티드를 함유하는 침전물(sediment)을 20 mM Tris/HCl pH 8.0에 용해시켰고, 상기 용액을 원심분리(13,000 rpm, 10분, 실온)하여 불용성 오염물을 제거하였다.

정제된 아세트산(Sigma-Aldrich, Steinheim, Germany)을 1% v/v의 최종 농도로 첨가하였고, 13,000 rpm에서 10분 동안 원심분리함으로써 불순물을 침전시켰다. 거의 순수한 PA#1(600) 폴리펩티드를 함유하는 상기 상등액을 100-배 부피의 1% v/v 아세트산에 대해 4℃에서 밤새 투석하였다. 잔류 불순물을 제거하기 위하여, 상기 투석된 단백질을 1% v/v 아세트산을 구동 버퍼로 이용하여 Akta 정제기 시스템에 연결된 1 ㎖의 Source15S 컬럼(GE Healthcare, Freiburg, Germany)을 이용하여 공제성 양이온 교환 크로마토그래피를 거쳤다.

각각의 정제 단계로부터의 샘플을 고 몰농도 Tris 버퍼 시스템(Fling (1986) loc. cit.)을 이용한 SDS-PAGE에 의해 분석하였다. SDS-PAGE 후, 겔을 먼저 PEG의 분석법에 대해 개시된 것과 같이 바륨 아이오다이드로 염색하였다(Kurfurst (1992) Anal. Biochem. 200:244-248). 간략하게, 폴리아크릴아마이드 겔을 물로 세정한 후, 물 내의 2.5% w/v BaI₂(바륨 아이오다이드 이수화물; Sigma-Aldrich, Steinheim, Germany) 용액에서 5분 동안 인큐베이션하였다. 물로 세정한 후, 상기 겔을 Lugol 용액(10% w/v p.a. grade KI (AppliChem, Darmstadt, Germany 5% p.a. grade I₂ (Riedel de Haen AG, Seelze, Germany) in water)으로 5분 동안 전달하였다. 10% v/v 아세트산에서 탈염색한 후, 오렌지색 PA#1(600) 폴리펩티드 밴드는 시각화된다(도 8b). 후속하여, 상기 겔을 물로 탈염색하였고, 10% 아세트산(Honeywell Specialty Chemicals, Seelze, Germany), 65% H₂O 및 25% 이소프로판올(CLN, Niederhummel, Germany)에 용해된 쿠마시 브릴리언트 블루 R250 (Applichem)으로 제2 염색을 거쳤다. 10% v/v 아세트산에서 탈염색한 후, 푸른색 단백질 밴드(숙주 단백질의 경우)는 시각화된다(도 8c).

실시예 12: 정제된 PA#1(600) 폴리펩티드의 ESI -MS 분석

5 ㎎/㎖ 농도의 실시예 11로부터의 단리된 PA#1(600) 폴리펩티드 200 ㎕를 2% v/v 아세토니트릴, 1% v/v 포름산을 구동 버퍼로 이용하여 Akta 정제기 시스템에 연결된 1 ㎖의 Resource RPC 컬럼(GE Healthcare, Freiburg, Germany)에 적용하였다. 상기 단백질을 2% v/v 아세토니트릴, 1% v/v 포름산으로부터 80% v/v 아세토니트릴, 0.1% v/v 포름산의 아세토니트릴 구배를 이용하여 20 칼럼 부피에 걸쳐서 용출하였다. 상기 용출된 단백질을 양이온 모드를 이용하여 Q-Tof Ultima 기구 상에서 ESI 질량 분석법을 통해 직접 분석하였다. 상기 PA#1(600) 폴리펩티드의 디콘볼루션화 스펙트럼은 48,301.78 Da의 질량을 나타내었으며, 이는 N-말단의 부가적인 Pro 잔기 및 C-말단의 부가적인 Ala 잔기를 갖고 출발 메티오닌이 없는 상기 PA#1(600) 폴리펩티드의 계산된 질량(48,301.4 Da)과 본질적으로 일치한다(도 8d). 이것은 유전적으로 안정한 뉴클레오티드 서열에 의해 암호화된 정제된 PA#1(600) 폴리펩티드(친화도 태그 없음)가 E. 콜라이에서 그 온전한 형태로 생산될 수 있음을 명확하게 보여준다.

실시예 13: 프롤린/알라닌-풍부 아미노산 서열을 암호화하는 뉴클레오티드 서열의 반복물 분석

뉴클레오티드 서열 반복물의 빈도(발생)와 관련하여 프롤린/알라닌-풍부 서열을 암호화하는 핵산 분자의 품질을 평가하기 위한 측정으로서, 본 발명자들은 하기 식에 따라 계산되는 뉴클레오티드 반복물 점수(NRS)를 창안하였다:

상기 식에서, N_tot는 분석된 뉴클레오티드 서열의 전체 길이이고, n은 분석된 뉴클레오티드 서열 내의 서열 반복물의 길이이며, 빈도 f_i(n)은 상기 서열 반복물의 발생의 수이다. 동일한 길이 n을 갖는 몇 개의 상이한 서열 반복물이 있는 경우, 상기 상이한 서열 반복물은 지수 i에 의해 구별되고, 상기 동일한 길이 n을 갖는 상이한 서열 반복물의 수는 k(n)이다. 길이 n을 갖는 서열 반복물이 단지 한 타입만 있다면, k(n)은 1과 동일하다. 상기 NRS는 반복물 길이의 제곱의 합과 해당 총 빈도의 루트의 곱을 상기 분석된 뉴클레오티드 서열의 전체 길이로 나눈 것으로 정의된다. NRS의 계산을 위해 고려되는 최소 반복물 길이는 한 코돈 트리플렛보다 더 긴 모든 뉴클레오티드 서열을 포함하는 4개 뉴클레오티드를 포함하며, 분석된 뉴클레오티드 서열에서 1회 이상 일어날 수 있는 가장 긴 뉴클레오티드 서열 반복물의 길이인 N_tot-1까지의 범위이다.

상기 문맥에서, 반복물이란 용어는 뉴클레오티드 서열이 분석된 뉴클레오티드 서열 내에서 적어도 2회 일어나는 것을 의미한다. 상기 빈도를 계수할 때, 본 발명자들은 적어도 2회 일어나는 동일한 서열뿐만 아니라 역시 적어도 2회 일어나는 동일한 길이의 상이한 서열을 갖는 뉴클레오티드 스트레치 모두를 고려하였다. 예를 들면, 14mer 반복물의 총 빈도가 5라면, 이것은 분석된 뉴클레오티드 서열에서 동일한 14mer 뉴클레오티드 스트레치가 5회 일어나거나, 한 14mer 뉴클레오티드 서열이 2회 일어나고 상이한 14개 뉴클레오티드 서열이 3회 일어남을 의미할 수 있다.

또한, 더 긴 뉴클레오티드 서열 반복물 내에 함유되는 각각의 더 짧은 반복물은 별도로 계수된다. 예를 들면, 분석된 뉴클레오티드 서열이 2개의 GCACC 뉴클레오티드 스트레치(즉, 반복물)를 함유한다면, GCAC 및 CACC 반복물은 또한 상기 분석된 뉴클레오티드 서열 내에서 이들이 상기 GCACC 뉴클레오티드 스트레치 내에 발생하거나, 가능하게는 다른 곳에서 추가로 발생하는지와 무관하게 개별적으로 계수된다. 주목하게는, 상기 핵산 분자의 코딩 가닥 상의 반복물만이 고려된다.

본 기술분야의 숙련된 기술자는 수동으로 또는 http://www.visualgenedeveloper.net에서 다운로드 가능한 Visual Gene Developer(Jung (2011) loc. cit.) 또는 http://zlab.bu.edu/repfind에서 이용가능한 Repfind 도구(Betley (2002) loc. cit)와 같은 일반적인 소프트웨어 프로그램의 도움으로 뉴클레오티드 서열 반복물을 확인할 수 있다. 그러나, 모든 알고리즘이 각각의 종류의 반복물을 검출하는 것은 아니며, 예컨대 상기 Visual Gene Developer의 결과는 중첩하는 반복물을 포함하지 않는다. 따라서, 소프트웨어 도구의 결과는 체크되고, 필요시 수동으로 교정되어야 한다. 대안적으로, 실시예 14에 개시된 NRS-계산기라 명명된 알고리즘을 사용하여 뉴클레오티드 서열 반복물을 분명하게 확인하고 상기 NRS를 자동적으로 계산할 수 있다.

프롤린/알라닌-풍부 아미노산 서열을 암호화하는 천연 뿐만 아니라 소정의 합성 핵산이 본 기술분야에 알려져 있다. 그러나, 하기 개시된 NRS 분석법으로부터 명확하게 입증되는 것과 같이 이들 서열은 모두 유전자 레벨에서 매우 반복적이며, 따라서 생물공학적 및/또는 생물약학적 적용을 위한 그의 용도는 제한된다.

프롤린/알라닌-풍부 아미노산 서열을 암호화하는 몇 가지 종래 기술의 뉴클레오티드 서열을 실시예 14에 개시된 NRS-계산기를 이용하여 본 발명에 따른 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 낮은 반복적인 핵산 분자와 비교하였다: WO 2008/155134에 개시된 뉴클레오티드 서열 PAS#1a(200)(서열번호 11)(도 9a), WO2011144756에 개시된 뉴클레오티드 서열 PA#1a(200)(서열번호 14)(도 9b), US 20060252120에 개시된 [(AP)₅]₂₀APA 글리코모듈을 암호화하는 뉴클레오티드 서열(서열번호 16)(도 9c), GenBank 기탁 번호 DQ399411.1 하에 공개된 글리코모듈 [AAPAPAPAP]₁₀AS를 암호화하는 합성 유전자 구조체의 뉴클레오티드 서열(서열번호 17)(도 9d), GenBank 기탁 번호 NP_851896 하에 공개된 마카시네 헤르페스바이러스 1의 큰 피막 단백질 내의 프롤린/알라닌-풍부 서열을 암호화하는 225개 뉴클레오티드 서열(서열번호 18)(도 9e), 본 발명에 따른 낮은 반복적인 뉴클레오티드 서열 PAS#1b(200)(서열번호 19)(도 9f, 도 9g) 및 본 발명에 따른 낮은 반복적인 뉴클레오티드 서열 PA#1e/1d/1c/1b(800)(서열번호 44)(도 9h, 도 9i).

계산된 반복물 빈도를 Kaleidagraph V3.6 소프투웨어(Synergy Software, Reading, PA)를 이용하여 해당 반복물 길이에 대해 플롯팅하였다(도 9). 종래 기술의 뉴클레오티드 서열의 모든 히스토그램은 많은 수의 높은 막대에 의해 도시되는 것과 같이 넓게 분포된 반복물 길이와 함께 매우 긴 반복물까지 매우 반복적인 본성을 나타내었다. 주목하게는, 이 경우 상기 반복물 빈도는 반복물의 길이가 증가될 때만 천천히 감소된다(도 9a 내지 도 9e). 이와 대조적으로, 본 발명에 따른 낮은 반복적인 뉴클레오티드 서열 PAS#1b(200) 및 PA#1e/1d/1c/1b(800)의 히스토그램은 14개 뉴클레오티드의 최대 길이를 갖는 소수의 반복물만을 보이며, 그 빈도는 더 짧은 반복물로부터 더 긴 반복물로 나아갈 때 신속하게 0까지 감소된다(도 9f, 도 9g, 도 9h, 도 9i).

상기 종래 기술의 뉴클레오티드 서열과 본 발명의 낮은 반복적인 뉴클레오티드 서열 사이의 반복성에서의 차이는 그 뉴클레오티드 반복물 점수를 비교할 때 보다 더 명확해진다. 모든 종래 기술의 서열은 80,000 이상의 NRS를 나타내지만(표 2), 상기 600개 뉴클레오티드 서열 PAS#1b(200) 및 2,400개 뉴클레오티드 서열 PA#1e/1d/1c/1b(800)는 각각 단지 13 및 14의 NRS 값만을 보인다(표 1). 이것은 본 발명에 따른 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 낮은 반복적인 뉴클레오티드 서열의 반복물 품질이 종래 기술의 서열과 비교하여 더 적고 더 짧은 뉴클레오티드 서열 반복물과 함께 더욱 높음을 명확하게 보여준다.

본 발명에 따른 핵산 분자의 특징분석

	낮은 반복적인 뉴클레오티드 서열 번호	서열번호	코돈-최적화 대상	암호화된 아미노산 반복물	n _max	N _tot	NRS
A: 뉴클레오티드 서열 유닛(빌딩 블록)
1	PAS#1b(200)	19	E. 콜라이	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	600	13
2	PAS#1c(200)	20	E. 콜라이	ASPAAPAPASPAAPAPSAPA (서열번호 1)	12	600	12
3	PAS#1d(200)	21	E. 콜라이	ASPAAPAPASPAAPAPSAPA (서열번호 1)	12	600	11
4	PAS#1e(200)	22	CHO (C. 그리세우스)	ASPAAPAPASPAAPAPSAPA (서열번호 1)	12	600	12
5	PAS#1f(200)	23	E. 콜라이	ASPAAPAPASPAAPAPSAPA (서열번호 1)	12	600	11
6	PAS#1g(200)	24	피키아 파스토리스	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	600	24
7	PAS#1h(200)	25	CHO (C. 그리세우스)	ASPAAPAPASPAAPAPSAPA (서열번호 1)	12	600	20
8	PAS#1i(200)	26	CHO (C. 그리세우스)	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	600	17
9	PAS#1j(200)	27	CHO (C. 그리세우스)	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	600	16
10	PA#1b(200)	28	E. 콜라이	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	14	600	21
11	PA#1c(200)	29	E. 콜라이	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	14	600	18
13	PA#1d(200)	30	E. 콜라이	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	14	600	19
14	PA#1e(200)	31	E. 콜라이	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	14	600	22
15	PA#1f(200)	32	CHO (C. 그리세우스)	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	14	600	24
16	PA#1g(200)	33	CHO (C. 그리세우스)	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	14	600	24
17	PA#1h(200)	34	CHO (C. 그리세우스)	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	600	32
18	PA#1i(200)	35	CHO (C. 그리세우스)	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	600	17
19	PA#3b(200)	36	E. 콜라이	AAAPAAAPAAAPAAAPAAAP (서열번호 57)	14	600	26
20	PA#5b(198)	37	E. 콜라이	AAAAAPAAAAAPAAAAAP (서열번호 58)	14	594	27
101	PA#1j(200)	87	P. 파스토리스	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	600	39
102	PA#1k(200)	88	P. 파스토리스	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	600	29
103	PA#1l(200)	89	P. 파스토리스	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	600	31
104	PA#1m(200)	90	P. 파스토리스	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	14	600	24
105	PA#1n(200)	91	S. 세레비지애	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	600	38
106	PA#1o(200)	92	S. 세레비지애	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	14	600	20
107	PA#1p(200)	93	S. 세레비지애	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	14	600	19
108	PA#1q(200)	94	K. 락티스	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	600	28
109	PA#1r(200)	95	K. 락티스	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	14	600	23
110	PA#1s(200)	96	K. 락티스	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	600	34
111	PA#1t(200)	97	H. 사피엔스 (HEK 세포)	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	14	600	25
112	PA#1u(200)	98	H. 사피엔스 (HEK 세포)	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	600	29
114	PA#1v(200)	99	H. 사피엔스 (HEK 세포)	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	600	31
114	PA#1w(200)	100	바실러스 서브틸리스	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	14	600	23
115	PA#1x(200)	101	바실러스 서브틸리스	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	16	600	27
116	PA#1y(200)	102	바실러스 서브틸리스	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	600	32
117	PA#1z(200)	103	E. 콜라이	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	18	600	45
118	PA#1aa(200)	104	E. 콜라이	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	14	600	18
119	PA#1ab(200)	105	E. 콜라이	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	600	25
120	PA#1ac(200)	106	E. 콜라이	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	14	600	18
121	PA#1ad(200)	107	E. 콜라이	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	600	24
122	PA#1ae(100)	108	E. 콜라이	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	14	300	27
123	PA#1af(200)	109	C. 글루타미쿰	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	14	600	20
124	PA#1ag(200)	110	C. 글루타미쿰	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	600	24
125	PA#1ah(200)	111	C. 글루타미쿰	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	600	25
126	PA#1ai(200)	112	C. 글루타미쿰	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	16	600	21
127	PA#1aj(200)	113	P. 파텐스	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	600	30
128	PA#1ak(200)	114	P. 파텐스	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	600	31
129	PA#1al(200)	115	P. 파텐스	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	15	600	24
130	PA#1am(200)	116	P. 플루오레센스	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	600	32
131	PA#1an(200)	117	P. 플루오레센스	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	600	35
132	PA#1ao(200)	118	P. 플루오레센스	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	18	600	41
133	PA#1ap(200)	119	T. 썰모필라	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	600	37
134	PA#1aq(200)	120	T. 썰모필라	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	600	34
135	PA#1ar(200)	121	T. 썰모필라	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	14	600	22
136	PA#1as(200)	122	T. 썰모필라	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	600	35
137	PAS#1k(200)	123	E. 콜라이	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	600	14
138	PAS#1l(200)	124	E. 콜라이	ASPAAPAPASPAAPAPSAPA (서열번호 1)	15	600	17
139	PAS#1m(200)	125	E. 콜라이	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	600	16
140	PAS#1n(100)	126	E. 콜라이	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	300	15
141	PAS#1o(200)	127	P. 파스토리스	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	600	17
142	PAS#1p(200)	128	P. 파스토리스	ASPAAPAPASPAAPAPSAPA (서열번호 1)	17	600	29
143	PAS#1q(200)	129	P. 플루오레센스	ASPAAPAPASPAAPAPSAPA (서열번호 1)	17	600	25
144	PAS#1r(200)	130	P. 플루오레센스	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	600	14
145	PAS#1s(200)	131	P. 플루오레센스	ASPAAPAPASPAAPAPSAPA (서열번호 1)	17	600	24
146	PAS#1t(200)	132	C. 글루타미쿰	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	600	15
147	PAS#1u(200)	133	C. 글루타미쿰	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	600	12
148	PAS#1v(200)	134	C. 글루타미쿰	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	600	11
149	PAS#1w(200)	135	P. 파텐스	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	600	15
150	PAS#1x(200)	136	P. 파텐스	ASPAAPAPASPAAPAPSAPA (서열번호 1)	12	600	12
151	PAS#1y(200)	137	P. 파텐스	ASPAAPAPASPAAPAPSAPA (서열번호 1)	11	600	10
152	PAS#1z(200)	138	K. 락티스	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	600	15
153	PAS#1aa(200)	139	K. 락티스	ASPAAPAPASPAAPAPSAPA (서열번호 1)	15	600	17
154	PAS#1ab(200)	140	K. 락티스	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	600	16
155	PAS#1ac(200)	141	S. 세레비지애	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	600	14
156	PAS#1ad(200)	142	S. 세레비지애	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	600	14
157	PAS#1ae(200)	143	S. 세레비지애	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	600	14
158	PAS#1af(200)	144	T. 썰모필라	ASPAAPAPASPAAPAPSAPA (서열번호 1)	17	600	25
159	PAS#1ag(200)	145	T. 썰모필라	ASPAAPAPASPAAPAPSAPA (서열번호 1)	17	600	25
160	PAS#1ah(200)	146	T. 썰모필라	ASPAAPAPASPAAPAPSAPA (서열번호 1)	15	600	20
161	PAS#1ai(200)	147	H. 사피엔스 (HEK 세포)	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	600	13
162	PAS#1aj(200)	148	H. 사피엔스 (HEK 세포)	ASPAAPAPASPAAPAPSAPA (서열번호 1)	12	600	10
163	PAS#1ak(200)	149	H. 사피엔스 (HEK 세포)	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	600	11
164	PAS#1al(200)	150	B. 서브틸리스	ASPAAPAPASPAAPAPSAPA (서열번호 1)	12	600	11
165	PAS#1am(200)	151	B. 서브틸리스	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	600	13
166	PAS#1an(200)	152	B. 서브틸리스	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	600	14
167	PA#1at(200)	192	E. 콜라이	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	31	600	190
168	PA#1au(200)	193	E. 콜라이	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	26	600	105
169	PAS#1ao(200)	194	E. 콜라이	ASPAAPAPASPAAPAPSAPA (서열번호 1)	32	600	211
170	PAS#1ap(200)	195	E. 콜라이	ASPAAPAPASPAAPAPSAPA (서열번호 1)	26	600	105
B: 조립된 낮은-반복적인 뉴클레오티드 서열
21	PAS#1f/1c/1b(600)	38	E. 콜라이	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	1800	9
22	PAS#1d/1f/1c/1b(800)	39	E. 콜라이	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	2400	8
23	PAS#1h/1e/1i(600)	40	CHO (C. 그리세우스)	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	1800	14
24	PAS#1j/1h/1e/1i(800)	41	CHO (C. 그리세우스)	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	2400	13
25	PA#1d/1c/1b(600)	42	E. 콜라이	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	14	1800	15
26	PA#1i/1h/1g/1f(800)	43	CHO (C. 그리세우스)	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	2400	22
27	PA#1e/1d/1c/1b(800)	44	E. 콜라이	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	14	2400	14
28	PA#1i/1h/1g/1f/1e/1d/1c/1b(1600)	45	E. 콜라이 / CHO (C. 그리세우스)	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	27	4800	24
171	PA#1ae/1c(300)	153	E. 콜라이	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	14	900	18
172	PA#1ae/1d(300)	154	E. 콜라이	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	14	900	17
173	PA#1d/1c(400)	155	E. 콜라이	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	14	1200	17
174	PA#1b/1c/1d(600)	156	E. 콜라이	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	14	1800	15
175	PA#1d/1b/1c(600)	157	E. 콜라이	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	20	1800	17
176	PA#1c/1b/1d(600)	158	E. 콜라이	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	1800	16
177	PA#1c/1d/1b(600)	159	E. 콜라이	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	20	1800	17
178	PA#1b/1d/1c(600	160	E. 콜라이	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	1800	16
179	PA#1aa/1e/1d/1c/1b(1000)	161	E. 콜라이	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	20	3000	17
180	PA#1ab/1aa/1e/1d/1c/1b(1200)	162	E. 콜라이	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	20	3600	17
181	PA#1ac/1ab/1aa/1e/1d/1c/1b(1400)	163	E. 콜라이	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	20	4200	16
182	PA#1ad/1ac/1ab/1aa/1e/1d/1c/1b(1600)	164	E. 콜라이	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	20	4800	16
183	PA#1ao/1an/1am(600)	165	P. 플루오레센스	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	19	1800	27
184	PA#1ai/1ah/1ag/1af(800)	166	C. 글루타미쿰	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	2400	17
185	PA#1y/1x/1w(600)	167	B. 서브틸리스	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	1800	24
186	PA#1j/1k/1l/1m(800)	168	P. 파스토리스	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	2400	23
187	PA#1p/1o/1n(600)	169	S. 세레비지애	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	18	1800	21
188	PA#1s/1r/1q(600)	170	K. 락티스	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	17	1800	23
189	PA#1as/1ar/1aq/1ap(800)	171	T. 썰모필라	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	20	2400	30
190	PA#1v/1u/1t(600)	172	H. 사피엔스 (HEK 세포)	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	19	1800	28
191	PA#1al/1ak/1j(600)	173	P. 파텐스	AAPAAPAPAAPAAPAPAAPA (서열번호 2)	18	1800	24
192	PAS#1n/1b(300)	174	E. 콜라이	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	900	12
193	PAS#1n/1c(300)	175	E. 콜라이	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	900	13
194	PAS#1b/1f/1c(600)	176	E. 콜라이	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	1800	9
195	PAS#1b/1c/1f(600)	177	E. 콜라이	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	1800	9
196	PAS#1c/1b/1f(600)	178	E. 콜라이	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	1800	9
197	PAS#1f/1b/1c(600)	179	E. 콜라이	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	1800	9
198	PAS#1c/1f/1b(600)	180	E. 콜라이	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	1800	9
199	PAS#1k/1d/1f/1c/1b(1000)	181	E. 콜라이	ASPAAPAPASPAAPAPSAPA (서열번호 1)	20	3000	11
200	PAS#1l/1k/1d/1f/1c/1b(1200)	182	E. 콜라이	ASPAAPAPASPAAPAPSAPA (서열번호 1)	20	3600	12
201	PAS#1s/1q/1r(600)	183	P. 플루오레센스	ASPAAPAPASPAAPAPSAPA (서열번호 1)	20	1800	21
202	PAS#1v/1t/1u(600)	184	C. 글루타미쿰	ASPAAPAPASPAAPAPSAPA (서열번호 1)	17	1800	13
203	PAS#1an/am/1l(600)	185	B. 서브틸리스	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	1800	11
204	PAS#1p/1o/1g(600)	186	P. 파스토리스	ASPAAPAPASPAAPAPSAPA (서열번호 1)	17	1800	20
205	PAS#1ae/1ad/1ac(600)	187	S. 세레비지애	ASPAAPAPASPAAPAPSAPA (서열번호 1)	15	1800	12
206	PAS#1ab/1aa/1z(600)	188	K. 락티스	ASPAAPAPASPAAPAPSAPA (서열번호 1)	17	1800	15
207	PAS#1ah/1ag/1af(600)	189	T. 썰모필라	ASPAAPAPASPAAPAPSAPA (서열번호 1)	17	1800	19
208	PAS#1ak/aj/ah(600)	190	H. 사피엔스 (HEK 세포)	ASPAAPAPASPAAPAPSAPA (서열번호 1)	14	1800	10
209	PAS#1y/1x/1w(600)	191	P. 파텐스	ASPAAPAPASPAAPAPSAPA (서열번호 1)	17	1800	14

종래 기술의 뉴클레오티드 서열의 특징분석

	서열 명칭	유기체	서열 번호	GenBank 기탁/ 특허 번호	n _max	N _tot	NRS
1	PAS#1a(200)	합성	11	WO 2008155134	540	600	1 127 680
2	PA#1a(200)	합성	14	WO2011144756	540	600	1 127 680
3	PA#3a(200)	합성	15	WO2011144756	540	600	1 127 680
4	[(AP)₅]₂₀APA	합성	16	US2006/0252120	579	609	1 315 159
5	pBI-SS-(Tom)(AP)51-EGFP의 [AAPAPAPAP]₁₀AS 모듈	합성	17	DQ399411.1	243	276	150 961
6	큰 피막 단백질	마카시네 헤르페스 바이러스 1	18	NP_851896.1	197	225	81 858

실시예 14: 뉴클레오티드 서열 반복물을 분명하게 확인하고 뉴클레오티드 반복물 점수를 계산하기 위한 알고리즘인 NRS -계산기

Visual Gene Developer(Jung (2011) loc. cit) 또는 Repfind 도구(Betley (2002) loc. cit)와 같은 일반적으로 이용가능한 소프트웨어 프로그램은 항상 신뢰할만하게 작업하지는 않으며, 분석된 뉴클레오티드 서열 내의 모든 서열 반복물을 올바르게 계산하기 위하여 수동 교정을 필요로 할 수 있다. 또한, 반복물은 수동으로 계수되어야 하고, NRS는 실시예 13에 개시된 식에 따라 별도로 계산되어야 한다. 분명한 결과를 산출하고 NRS의 계산을 촉진하는 알고리즘을 제공하기 위하여, NRS-계산기라 명명된 단순한 Python 스크립트가 본 명세서에서 개시된다. 런타임(runtime) 환경 Python 2.7.10(http://www.python.org)에서 실행되는 상기 스크립트는 도트 매트릭스 서열 비교에 기반하며, 중첩하는 반복물을 포함하여 갭의 고려 없이 잠재적으로 긴 뉴클레오티드 서열 내의 모든 전방 반복물을 확인한다. 상기 도트 매트릭스 서열 비교는 본 기술분야의 숙련된 기술자에게 잘 알려진 방법이며, 예컨대 [Mount (2004) Bioinformatics: Sequence and Genome Analysis, Cold Spring Harbor Laboratory Press, 2^nd edition, New York]와 같은 보통의 생물정보학 교과서에 개시되어 있다.

NRS-계산기는 각각의 반복물 길이에 대한 빈도를 계수하며, 실시예 13에 개시된 식에 따른 NRS를 자동적으로 계산한다. 상기 NRS-계산기 스크립트를 실행하기 위하여, 런타임 환경 Python 버전 2.7.10을 https://www.python.org/downloads로부터 다운로드하였고, 윈도우즈 7 운영 시스템에서 작동하는 ThinkPad L530 노트북(Lenovo, Stuttgart, Germany)에 설치하였다. 하기 나열된 NRS-계산기 스크립트를 Microsoft Windows Editor Version 6.1을 이용하여 NRScalculator.py로 표기된 보통의 텍스트 파일로 저장하였다. 분석되는 뉴클레오티드 서열을 동일한 폴더 내에 sequence.fas라는 이름의 FASTA 파일로 저장하였다. 후속하여, 명령 줄 쉘을 열었고, 상기 NRScalculator.py 및 sequence.fas 파일을 모두 함유하는 디렉토리를 선택하였다. 계산을 시작하기 위하여, 다음의 명령 줄을 실행하였다:

c:\user\admin\NRSfolder> c:\Python27\python.exe NRScalculator.py sequence.fas

상기 명령의 결과 2개 열의 스크린 출력이 생성되었다: 왼쪽의 열은 반복물 길이(Length)를 나타내고, 오른쪽(제2) 열은 해당 반복물 빈도(Frequency)를 나타낸다. 또한, N_tot 및 NRS(정수로 통합된 수)가 각각 상기 출력의 시작 및 끝에 개시되었다.

실시예 15: 치료적 PA#1(600)- IL1Ra 융합 단백질의 박테리아 생산을 위한 유전적으로 안정한 발현 벡터인 pASK75 -PA#1d/1c/1b(600)- IL1Ra의 구축

600개 잔기 PA#1 아미노산 반복 서열과의 융합물로서 인터루킨-1 수용체 길항제(IL-1Ra)를 암호화하는 발현 플라스미드를 구축하기 위하여, 벡터 pASK75-IL1Ra(도 4a)(서열번호 49)를 SapI로 절단하였고, 새우 알칼리 포스파타아제(Thermo Fisher Scientific, Waltham, MA)로 탈인산화시켰으며, 상기 600개 잔기 PA#1 폴리펩티드를 암호화하는 낮은 반복적인 뉴클레오티드 서열 카세트에 대응하는 SapI을 이용한 제한 소화에 의해 플라스미드 pXL1-PA#1d/1c/1b(600)(서열번호 79)로부터 잘려진 DNA 절편과 라이게이션하였다. E. 콜라이 XL1-Blue(Bullock (1987) loc. cit.)의 형질전환 후, 플라스미드 DNA를 제조하였고, 상기 삽입된 DNA 절편의 존재를 제한 분석 및 DNA 서열분석에 의해 확인하였다. 결과물인 플라스미드는 pASK75-PA#1d/1c/1b(600)-IL1Ra(서열번호 77)로 표기하였으며, 도 10에 나타나 있다.

실시예 16: 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 낮은 반복적인 핵산 분자 PA#1d/1c/1b(600)를 갖고 있는 플라스미드 pASK75 -PA#1b/1c/1b(600)-IL1Ra의 장기간의 유전적 안정성 테스트

플라스미드 pASK75-PA#1d/1c/1b(600)-IL1Ra(서열번호 77)의 유전적 안정성을 PA#1d/1c/1b(600) DNA 카세트가 반복적인 핵산 PA#1a(600)(서열번호 80)에 의해 교체된 유도체인 pASK75-PA#1a(600)-IL1Ra(서열번호 78)의 유전적 안정성과 비교하였다. 이를 위하여, E. 콜라이 JM83(Yanisch-Perron C. (1985) loc. cit.)을 염화칼슘 방법(Sambrook (2001) loc. cit.)을 이용하여 해당 플라스미드로 형질전환시켰고, 유전자 발현의 유도없이 100 ㎖의 교반 플라스크 내에서 100 ㎎/L의 암피실린으로 보충된 50 ㎖의 Luria Bertani(LB) 배지에서 37℃, 170 rpm으로 7일 동안 배양하였다. 상기 기간 동안, 박테리아 세포를 매일 2회(아침 및 저녁에) 1:1,000 희석을 이용하여 신선한 배지로 전달하였다. 7일에, 대략 70 세대에 걸친 계속적인 성장 후, 상기 배양물을 최종적으로 정지기로 성장시켰고, 세포를 LB/Amp 아가 상에 플레이팅하였다. 이후, 각각의 상기 2개의 플라스미드에 대한 10개의 개별 콜리니를 취하였고, 각각 LB/Amp 배지에서 50 ㎖ 배양물의 접종을 위해 사용하였으며, 밤새 정지기로 성장시킨 후, 플라스미드 DNA를 Qiagen Miniprep 키트(Qiagen, Hilden, Germany)를 이용해 제조하였고, XbaI/HindⅢ 제한 소화를 통해 분석하였다(도 11).

pASK75-PA#1a(600)-IL1Ra의 10개의 분석된 클론들 중 6개만이 3,093 bp 및 2,377 bp에 대응하는 예상된 밴드를 보였다(도 11a, 레인 1, 3, 4, 5, 7 및 8). 2개의 클론은 현저하게 짧아진 DNA 절편을 보였으며(도 11a, 레인 2, 6, 9 및 10), 이는 상기 반복적인 PA#1a(600) 서열 카세트 내에서의 결실, 즉 유전적 불안정성을 나타낸다. 이와 대조적으로, pASK75-PA#1d/1c/1b(600)-IL1Ra의 10개의 모든 분석된 클론은 3,093 bp 및 2,377 bp의 예상된 밴드를 보였는데(도 11b, 레인 1-10), 이는 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 온전한 유전자 카세트, 즉 본 발명에 따른 낮은 반복적인 핵산 분자의 높은 유전적 플라스미드 안정성을 나타낸다.

실시예 17: 프롤린/알라닌-풍부 아미노산 반복 서열과 융합된 인간 렙틴의 박테리아 생산을 위한 유전적으로 안정한 발현 벡터의 구축

N-말단에 600개 잔기의 PA#1 아미노산 반복 서열(서열번호 82)과 융합된 인간 렙틴(huLeptin)을 암호화하는 발현 플라스미드를 구축하기 위하여, 벡터 pASK37-MP-huLeptin(도 12a)(서열번호 81)을 SapI으로 절단하였고, 이는

양쪽 SapI 인식 부위를 함유하는 작은(24 bp) DNA 삽입체 및 인간 렙틴의 상기 암호화된 성숙한 N-말단의 바로 상류에 위치하는 호환되는 5'-GCC/5'-GGC 점성의 말단을 갖는 잘려진 벡터 백본의 절단을 유도하다. 상기 점성의 말단은 효과적인 번역 개시를 허용하는 것으로 나타난 프롤린 코돈 CCA에 의해 뒤따르는 N-말단 출발 메티오닌 코돈(ATG)의 바로 하류에 위치하는 상기 프롤린/알라닌-풍부 아미노산 반복 서열을 암호화하는 낮은 반복적인 뉴클레오티드 서열의 삽입을 위해 이상적으로 적합하다. 제조사의 설명서에 따라 QIAquick 겔 추출 키트(Qiagen, Hilden, Germany)를 이용한 벡터 절편의 단리 및 열민감성 알칼리 포스파타아제 FastAP를 이용한 탈인산화 후, 상기 플라스미드를 SapI을 이용한 제한 소화에 의해 플라스미드 pXL1-PA#1d/1c/1b(600)(서열번호 79)로부터 잘려진 600개 잔기 PA#1 폴리펩티드를 암호화하는 낮은 반복적인 뉴클레오티드 서열에 대응하는 DNA 절편과 라이게이션시켰다. E. 콜라이 XL1-Blue(Bullock (1987) loc. cit.)의 형질전환 후, 플라스미드 DNA를 제조하였고, 삽입된 DNA 절편의 존재를 제한 분석 및 DNA 서열분석에 의해 확인하였다. 결과물인 플라스미드는 pASK37-MP-PA#1d/1c/1b(600)-huLeptin(서열번호 82)으로 표기하였으며, 도 12b에 도시되어 있다. 동일한 방식으로, pXL1-PAS#1f/1c/1b(서열번호 84)로부터 잘려진 낮은 반복적인 뉴클레오티드 서열 PAS#1f/1c/1b(서열번호 38)를 플라스미드 pASK37-MP-huLeptin(도 12a)(서열번호 81) 내로 삽입함으로써, 도 12c에 나타낸 600개 잔기 PAS#1 아미노산 반복 서열과 N-말단에 융합된 인간 렙틴(huLeptin)을 암호화하는 발현 플라스미드인 pASK37-MP-PAS#1f/1c/1b(600)-huLeptin(서열번호 83)을 구축하였다. 유사한 클로닝 전략이 프롤린/알라닌-풍부 아미노산 반복 서열과 C-말단에 융합된 렙틴 버전을 구축하기 위해 적용될 수 있다.

실시예 18: 유전적으로 안정한 플라스미드 pASK37 -PA#1d/1c/ 1b(600)hu -Leptin(W100Q) 상에 암호화된 프롤린/알라닌-풍부 아미노산 반복 서열 및 인간 렙틴 돌연변이체 사이의 융합 단백질의 박테리아 생산, 정제 및 특징분석

성숙한 아미노산 서열(UniProtKB accession code P41159)의 100번 위치에서 트립토판이 글루타민으로 치환된 인간 렙틴 돌연변이체와 프롤린/알라닌-풍부 아미노산 반복 서열 PA#1(600)(서열번호 85)(계산된 질량: 64.25 kDa) 사이의 융합 단백질인 PA#1(600)-huLeptin(W100Q)을 trxB, gor 및 ahpC 돌연변이(Bessette (1999) Proc. Natl. Acad. Sci. USA 96:13703-13708)로 인해 산화성 세포질을 갖는 E. 콜라이 균주인 Origami B(Novagene/Merck Millipore, Billerica, MA)의 세포질에서 30℃에서 생산하였다. 이를 위하여, 멸균된 13 ㎖의 폴리프로필렌 튜브(Sarstedt, Numbrecht, Germany) 내에서 1% w/v D-글루코오스 및 100 ㎎/L 암피실린으로 보충된 4 ㎖의 LB 배지를 상기 유전적으로 안정한 발현 플라스미드 pASK37-MP-PA#1d/1c/1b(600)-huLep(W100Q)(서열번호 86)로 형질전환된 E. 콜라이 Origami B의 콜로니로 접종하였다. 박테리아 세포를 교반기에서 170 rpm으로 30℃에서 밤새 성장시켰다.

박테리아 단백질 생산을 2 ㎖의 E. 콜라이 밤새 배양물로 접종된 2.5 g/L D-글루코오스 및 100 ㎎/L 암피실린으로 보충된 2 L의 TB(terrific broth) 배지(Sambrook (2001) loc. cit.)를 갖는 5 L의 배플(baffle) 플라스크에서 30℃에서 수행하였다. 박테리아 세포를 30℃에서 성장시켰고, 0.5 mM의 최종 농도로 이소프로필-β-D-티오갈락토피라노사이드(IPTG)를 첨가함으로써 재조합 유전자 발현을 OD₅₅₀=0.85에서 유도하였다. 19시간의 유도 후 박테리아를 수확하였고, 1 g 박테리아 세포 습윤 중량 당 3 ㎖ PBS/E(10 mM EDTA로 보충된 PBS)에서 재현탁시켰으며, Panda 세포 균질기(GEA, Parma, Italy)를 이용해 용해시켰다. 상기 용해물의 원심분리(20,000 rpm, 30분, 4℃) 후, 봉입체는 관찰되지 않았다. 1 mM의 2,2'-디티오디피리딘을 상등액에 첨가하여 상기 재조합 렙틴에서의 이황화 브릿지 형성을 신장시켰다. 상기 가용성 렙틴 융합 단백질을 함유하는 상등액을 100-배 부피의 PBS에 대해 4℃에서 밤새 투석하였다. 후속하여, 1 M (NH₄)₂SO₄의 최종 농도에 도달할 때까지 계속적인 교반 하에 4 M (NH₄)₂SO₄(물에 용해됨)를 한방울씩 첨가함으로써 상기 융합 단백질을 실온에서 침전시켰다. 실온에서 17,000 rpm으로 30분 동안 원심분리한 후, 상기 침전된 PA#1(600)-hu-Leptin(W100/Q) 융합 단백질을 함유하는 침전물을 PBS에 용해시켰고, 상기 용액을 원심분리(13,000 rpm, 10분, 실온)하여 불용성 오염물을 제거하였다.

상기 PA#1(600)-hu-Leptin(W100Q) 융합 단백질을 4℃에서 5 L의 20 mM Tris/HCl pH 8.5에 대해 각각 적어도 6시간 동안 2회 투석하였다. 이후, 상기 단백질 용액을 20 mM의 Tris/HCl pH 8.5를 구동 버퍼로 이용하여 Akta 정제기 시스템(GE Healthcare, Freiburg, Germany)에 연결된 6 ㎖의 ResourceQ 컬럼(GE Healthcare, Freiburg, Germany)을 이용하여 음이온 교환 크로마토그래피를 거쳤다. 후속하여, 상기 융합 단백질을 NaCl 농도 구배를 이용하여 용출하였다. 용출된 분획을 모았고, PBS로 평형화된 Superdex 200 HR10/300 컬럼(GE Healthcare, Freiburg, Germany)을 이용한 크기 배제 크로마토그래피를 통해 추가로 정제하였다.

상기 절차에 의해, 응집의 징후가 없이 0.8 ㎎/L 박테리아 배양물의 최종 수율로 동종성 단백질 제조물을 수득하였다. 8605 M^- ¹ ㎝^-1의 계산된 흡광 계수(Gill (1989) loc. cit.)를 이용하여 280 nm에서의 흡광도를 측정함으로써 단백질 농도를 결정하였다. 10% 고 몰농도 Tris 버퍼 시스템(Fling (1986) loc. cit.)을 이용하여 SDS-PAGE를 수행하였다(도 13a). 상기 용출된 단백질을 10,000-배 부피의 10 mM 암모늄 아세테이트 pH 5.5에 대해 2회 투석하였고, 양이온 모드를 이용하여 maXis Q-TOF 기구(Bruker Daltonics, Bremen, Germany) 상의 ESI 질량 분석법을 통해 분석하였다. PA#1(600)-hu-Leptin(W100Q)의 디콘볼루션화 스펙트럼은 64,249.53 Da의 질량을 나타내었는데(도 13b), 이는 상기 융합 단백질의 계산된 질량(64,249.80 Da)과 본질적으로 일치한다. 이것은 본 발명에 따른 유전적으로 안정한 낮은 반복적인 핵산 분자에 의해 암호화된 PA#1(600)-hu-Leptin(W100Q) 융합 단백질이 그 온전한 형태로 E. 콜라이에서 생산될 수 있음을 명확하게 보여준다.

<110> XL-protein GmbH <120> Nucleic acids encoding repetitive amino acid sequences rich in proline and alanine residues that have low repetitive nucleotide sequences <130> 2018-FPA-8716 <150> EP15 20 2093.9 <151> 2015-12-22 <160> 197 <170> BiSSAP 1.3 <210> 1 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> Amino acid repeat sequence of PAS#1 <400> 1 Ala Ser Pro Ala Ala Pro Ala Pro Ala Ser Pro Ala Ala Pro Ala Pro 1 5 10 15 Ser Ala Pro Ala 20 <210> 2 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> Amino acid repeat sequence of PA#1 <400> 2 Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Pro Ala Pro 1 5 10 15 Ala Ala Pro Ala 20 <210> 3 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> Sequencing primer XLP-1 <400> 3 ccgccggggc actaggag 18 <210> 4 <211> 33 <212> DNA <213> Artificial Sequence <220> <223> Primer NdeI-MP-SapI-HindIIIfw <400> 4 tatgccagcc tgaagagccg gctcttcggc cta 33 <210> 5 <211> 35 <212> DNA <213> Artificial Sequence <220> <223> Primer NdeI-MP-SapI-HindIIIrv <400> 5 agcttaggcc gaagagccgg ctcttcaggc tggca 35 <210> 6 <211> 200 <212> PRT <213> Artificial Sequence <220> <223> Amino acid sequence of the proline/alanine-rich sequence PAS#1(200) <400> 6 Ala Ser Pro Ala Ala Pro Ala Pro Ala Ser Pro Ala Ala Pro Ala Pro 1 5 10 15 Ser Ala Pro Ala Ala Ser Pro Ala Ala Pro Ala Pro Ala Ser Pro Ala 20 25 30 Ala Pro Ala Pro Ser Ala Pro Ala Ala Ser Pro Ala Ala Pro Ala Pro 35 40 45 Ala Ser Pro Ala Ala Pro Ala Pro Ser Ala Pro Ala Ala Ser Pro Ala 50 55 60 Ala Pro Ala Pro Ala Ser Pro Ala Ala Pro Ala Pro Ser Ala Pro Ala 65 70 75 80 Ala Ser Pro Ala Ala Pro Ala Pro Ala Ser Pro Ala Ala Pro Ala Pro 85 90 95 Ser Ala Pro Ala Ala Ser Pro Ala Ala Pro Ala Pro Ala Ser Pro Ala 100 105 110 Ala Pro Ala Pro Ser Ala Pro Ala Ala Ser Pro Ala Ala Pro Ala Pro 115 120 125 Ala Ser Pro Ala Ala Pro Ala Pro Ser Ala Pro Ala Ala Ser Pro Ala 130 135 140 Ala Pro Ala Pro Ala Ser Pro Ala Ala Pro Ala Pro Ser Ala Pro Ala 145 150 155 160 Ala Ser Pro Ala Ala Pro Ala Pro Ala Ser Pro Ala Ala Pro Ala Pro 165 170 175 Ser Ala Pro Ala Ala Ser Pro Ala Ala Pro Ala Pro Ala Ser Pro Ala 180 185 190 Ala Pro Ala Pro Ser Ala Pro Ala 195 200 <210> 7 <211> 200 <212> PRT <213> Artificial Sequence <220> <223> Amino acid sequence of proline/alanine-rich sequence PA#1(200) <400> 7 Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Pro Ala Pro 1 5 10 15 Ala Ala Pro Ala Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala 20 25 30 Ala Pro Ala Pro Ala Ala Pro Ala Ala Ala Pro Ala Ala Pro Ala Pro 35 40 45 Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Ala Pro Ala 50 55 60 Ala Pro Ala Pro Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala 65 70 75 80 Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Pro Ala Pro 85 90 95 Ala Ala Pro Ala Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala 100 105 110 Ala Pro Ala Pro Ala Ala Pro Ala Ala Ala Pro Ala Ala Pro Ala Pro 115 120 125 Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Ala Pro Ala 130 135 140 Ala Pro Ala Pro Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala 145 150 155 160 Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Pro Ala Pro 165 170 175 Ala Ala Pro Ala Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala 180 185 190 Ala Pro Ala Pro Ala Ala Pro Ala 195 200 <210> 8 <211> 200 <212> PRT <213> Artificial Sequence <220> <223> Amino acid sequence of proline/alanine-rich sequence PA#3(200) <400> 8 Ala Ala Ala Pro Ala Ala Ala Pro Ala Ala Ala Pro Ala Ala Ala Pro 1 5 10 15 Ala Ala Ala Pro Ala Ala Ala Pro Ala Ala Ala Pro Ala Ala Ala Pro 20 25 30 Ala Ala Ala Pro Ala Ala Ala Pro Ala Ala Ala Pro Ala Ala Ala Pro 35 40 45 Ala Ala Ala Pro Ala Ala Ala Pro Ala Ala Ala Pro Ala Ala Ala Pro 50 55 60 Ala Ala Ala Pro Ala Ala Ala Pro Ala Ala Ala Pro Ala Ala Ala Pro 65 70 75 80 Ala Ala Ala Pro Ala Ala Ala Pro Ala Ala Ala Pro Ala Ala Ala Pro 85 90 95 Ala Ala Ala Pro Ala Ala Ala Pro Ala Ala Ala Pro Ala Ala Ala Pro 100 105 110 Ala Ala Ala Pro Ala Ala Ala Pro Ala Ala Ala Pro Ala Ala Ala Pro 115 120 125 Ala Ala Ala Pro Ala Ala Ala Pro Ala Ala Ala Pro Ala Ala Ala Pro 130 135 140 Ala Ala Ala Pro Ala Ala Ala Pro Ala Ala Ala Pro Ala Ala Ala Pro 145 150 155 160 Ala Ala Ala Pro Ala Ala Ala Pro Ala Ala Ala Pro Ala Ala Ala Pro 165 170 175 Ala Ala Ala Pro Ala Ala Ala Pro Ala Ala Ala Pro Ala Ala Ala Pro 180 185 190 Ala Ala Ala Pro Ala Ala Ala Pro 195 200 <210> 9 <211> 198 <212> PRT <213> Artificial Sequence <220> <223> Amino acid sequence of the proline/alanine-rich sequence PA#5(198) <400> 9 Ala Ala Ala Ala Ala Pro Ala Ala Ala Ala Ala Pro Ala Ala Ala Ala 1 5 10 15 Ala Pro Ala Ala Ala Ala Ala Pro Ala Ala Ala Ala Ala Pro Ala Ala 20 25 30 Ala Ala Ala Pro Ala Ala Ala Ala Ala Pro Ala Ala Ala Ala Ala Pro 35 40 45 Ala Ala Ala Ala Ala Pro Ala Ala Ala Ala Ala Pro Ala Ala Ala Ala 50 55 60 Ala Pro Ala Ala Ala Ala Ala Pro Ala Ala Ala Ala Ala Pro Ala Ala 65 70 75 80 Ala Ala Ala Pro Ala Ala Ala Ala Ala Pro Ala Ala Ala Ala Ala Pro 85 90 95 Ala Ala Ala Ala Ala Pro Ala Ala Ala Ala Ala Pro Ala Ala Ala Ala 100 105 110 Ala Pro Ala Ala Ala Ala Ala Pro Ala Ala Ala Ala Ala Pro Ala Ala 115 120 125 Ala Ala Ala Pro Ala Ala Ala Ala Ala Pro Ala Ala Ala Ala Ala Pro 130 135 140 Ala Ala Ala Ala Ala Pro Ala Ala Ala Ala Ala Pro Ala Ala Ala Ala 145 150 155 160 Ala Pro Ala Ala Ala Ala Ala Pro Ala Ala Ala Ala Ala Pro Ala Ala 165 170 175 Ala Ala Ala Pro Ala Ala Ala Ala Ala Pro Ala Ala Ala Ala Ala Pro 180 185 190 Ala Ala Ala Ala Ala Pro 195 <210> 10 <211> 353 <212> PRT <213> Artificial Sequence <220> <223> Amino acid sequence of the proline/alanine-rich sequence PA#1 after seamless fusion with IL1Ra <400> 10 Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Pro Ala Pro 1 5 10 15 Ala Ala Pro Ala Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala 20 25 30 Ala Pro Ala Pro Ala Ala Pro Ala Ala Ala Pro Ala Ala Pro Ala Pro 35 40 45 Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Ala Pro Ala 50 55 60 Ala Pro Ala Pro Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala 65 70 75 80 Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Pro Ala Pro 85 90 95 Ala Ala Pro Ala Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala 100 105 110 Ala Pro Ala Pro Ala Ala Pro Ala Ala Ala Pro Ala Ala Pro Ala Pro 115 120 125 Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Ala Pro Ala 130 135 140 Ala Pro Ala Pro Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala 145 150 155 160 Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Pro Ala Pro 165 170 175 Ala Ala Pro Ala Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala 180 185 190 Ala Pro Ala Pro Ala Ala Pro Ala Ala Arg Pro Ser Gly Arg Lys Ser 195 200 205 Ser Lys Met Gln Ala Phe Arg Ile Trp Asp Val Asn Gln Lys Thr Phe 210 215 220 Tyr Leu Arg Asn Asn Gln Leu Val Ala Gly Tyr Leu Gln Gly Pro Asn 225 230 235 240 Val Asn Leu Glu Glu Lys Ile Asp Val Val Pro Ile Glu Pro His Ala 245 250 255 Leu Phe Leu Gly Ile His Gly Gly Lys Met Cys Leu Ser Cys Val Lys 260 265 270 Ser Gly Asp Glu Thr Arg Leu Gln Leu Glu Ala Val Asn Ile Thr Asp 275 280 285 Leu Ser Glu Asn Arg Lys Gln Asp Lys Arg Phe Ala Phe Ile Arg Ser 290 295 300 Asp Ser Gly Pro Thr Thr Ser Phe Glu Ser Ala Ala Cys Pro Gly Trp 305 310 315 320 Phe Leu Cys Thr Ala Met Glu Ala Asp Gln Pro Val Ser Leu Thr Asn 325 330 335 Met Pro Asp Glu Gly Val Met Val Thr Lys Phe Tyr Phe Gln Glu Asp 340 345 350 Glu <210> 11 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1a(200) <400> 11 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 60 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 120 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 180 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 240 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 300 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 360 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 420 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 480 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 540 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 600 600 <210> 12 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1a(600) <400> 12 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 60 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 120 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 180 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 240 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 300 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 360 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 420 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 480 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 540 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 600 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 660 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 720 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 780 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 840 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 900 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 960 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1020 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1080 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1140 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1200 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1260 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1320 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1380 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1440 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1500 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1560 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1620 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1680 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1740 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1800 1800 <210> 13 <211> 2400 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1a(800) <400> 13 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 60 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 120 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 180 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 240 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 300 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 360 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 420 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 480 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 540 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 600 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 660 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 720 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 780 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 840 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 900 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 960 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1020 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1080 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1140 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1200 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1260 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1320 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1380 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1440 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1500 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1560 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1620 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1680 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1740 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1800 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1860 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1920 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 1980 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 2040 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 2100 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 2160 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 2220 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 2280 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 2340 gcctctccag ctgcacctgc tccagcaagc cctgctgcac cagctccgtc tgctcctgct 2400 2400 <210> 14 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1a(200) <400> 14 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 60 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 120 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 180 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 240 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 300 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 360 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 420 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 480 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 540 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 600 600 <210> 15 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#3a(200) <400> 15 gccgctgcac ctgctgcagc acctgctgca gctccagcag ctgctcctgc agcagctcca 60 gccgctgcac ctgctgcagc acctgctgca gctccagcag ctgctcctgc agcagctcca 120 gccgctgcac ctgctgcagc acctgctgca gctccagcag ctgctcctgc agcagctcca 180 gccgctgcac ctgctgcagc acctgctgca gctccagcag ctgctcctgc agcagctcca 240 gccgctgcac ctgctgcagc acctgctgca gctccagcag ctgctcctgc agcagctcca 300 gccgctgcac ctgctgcagc acctgctgca gctccagcag ctgctcctgc agcagctcca 360 gccgctgcac ctgctgcagc acctgctgca gctccagcag ctgctcctgc agcagctcca 420 gccgctgcac ctgctgcagc acctgctgca gctccagcag ctgctcctgc agcagctcca 480 gccgctgcac ctgctgcagc acctgctgca gctccagcag ctgctcctgc agcagctcca 540 gccgctgcac ctgctgcagc acctgctgca gctccagcag ctgctcctgc agcagctcca 600 600 <210> 16 <211> 609 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of a [(AP)5]n multimer <400> 16 gctccagcac ctgccccagc ccctgcacca gctccagcac ctgccccagc ccctgcacca 60 gctccagcac ctgccccagc ccctgcacca gctccagcac ctgccccagc ccctgcacca 120 gctccagcac ctgccccagc ccctgcacca gctccagcac ctgccccagc ccctgcacca 180 gctccagcac ctgccccagc ccctgcacca gctccagcac ctgccccagc ccctgcacca 240 gctccagcac ctgccccagc ccctgcacca gctccagcac ctgccccagc ccctgcacca 300 gctccagcac ctgccccagc ccctgcacca gctccagcac ctgccccagc ccctgcacca 360 gctccagcac ctgccccagc ccctgcacca gctccagcac ctgccccagc ccctgcacca 420 gctccagcac ctgccccagc ccctgcacca gctccagcac ctgccccagc ccctgcacca 480 gctccagcac ctgccccagc ccctgcacca gctccagcac ctgccccagc ccctgcacca 540 gctccagcac ctgccccagc ccctgcacca gctccagcac ctgccccagc ccctgcacca 600 gctccagca 609 <210> 17 <211> 276 <212> DNA <213> Artificial Sequence <220> <223> Synthetic gene construct encoding the glycomodule [AAPAPAPAP]10AS <400> 17 gccgctccag cacctgcccc agcccctgca gctccagcac ctgccccagc ccctgcagct 60 ccagcacctg ccccagcccc tgcagctcca gcacctgccc cagcccctgc agctccagca 120 cctgccccag cccctgcagc tccagcacct gccccagccc ctgcagctcc agcacctgcc 180 ccagcccctg cagctccagc acctgcccca gcccctgcag ctccagcacc tgccccagcc 240 cctgcagctc cagcacctgc cccagcccct gcatcc 276 <210> 18 <211> 225 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of a fragment of the very large tegument protein of Macacine herpesvirus [GeneBank: AAP41454.1, 8844 - 8808] <400> 18 gcgccacccg cccctgctgc ccctgctgcc cctgctgccc ctgctgcccc tgctgcccct 60 gctgcccctg ctgcccctgc tgcccctgct gcccctgctg cccctgctgc ccctgctgcc 120 cctgctgccc ctgctgcccc tgctgcccct gctgcccctg ctgcccctgc tgcccctgct 180 gcccctgctg cccctgctgc ccctgctgcc cctgcgcccg cagca 225 <210> 19 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1b(200), codon-optimized for E. coli <400> 19 gccagccctg ccgcacctgc gcccgcatca cctgcggcac ctgcaccttc cgccccggct 60 gcatctcctg ccgcacccgc gcctgccagc ccagctgcac ctgccccaag tgcgccagca 120 gcatcccctg ccgcgcctgc ccccgctagt ccagcggccc cagctccatc tgcaccagct 180 gctagccctg ctgcaccagc tcctgcttct cccgcagccc cagcgccttc tgctcccgca 240 gcctcacctg cggccccggc accagcatct ccagcggcac cagcaccttc ggcccctgct 300 gctagcccag cagcacctgc gccagcctca ccagctgctc ccgctcctag tgccccggcg 360 gcctcgcctg ctgctcctgc accagcttcg ccagcggcac cggctccttc ggcgccggct 420 gcttcaccag cagcacctgc tccagcgtcc ccagcggccc ctgctccaag tgctccggct 480 gcatcgcctg ccgctcctgc tcctgcatcc ccagctgctc cagcaccaag cgcacctgcc 540 gcctcaccag cggcgccagc acccgccagc ccagcagcgc ctgctccatc cgcaccggcg 600 600 <210> 20 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1c(200), codon-optimized for E. coli <400> 20 gccagtcctg ctgcaccggc accggcatca ccggctgcac cagcacctag tgcaccggca 60 gcttctccgg ctgcccctgc gcctgcatca ccagctgcgc ctgcaccgtc tgcccctgca 120 gctagtccag cagctccagc tccggcttct cctgcggctc ctgcaccaag tgcgcctgca 180 gcaagtccgg ctgcgcctgc cccagctagt cctgctgctc cggcaccgtc agctccggca 240 gcatctcctg cagcaccagc ccctgcaagt ccagcagcgc cagccccatc agcaccagca 300 gcttcaccag ccgcaccagc gccagcaagc cctgctgccc cagctcctag cgcaccggca 360 gccagtcctg cagctcctgc gcctgctagt ccggcagccc cagctccaag tgcccctgcc 420 gcttcgcctg cagccccagc accagcttct ccagccgcac cggcaccttc tgccccagct 480 gcatctccgg cagctccggc accagcaagc ccggcagcac cggcaccatc tgcgcctgcc 540 gcatctccgg ctgcgccagc tccagcctct cctgcagcgc cagcaccgag cgcaccagca 600 600 <210> 21 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1d(200), codon-optimized for E. coli <400> 21 gccagccccg ccgcccctgc accggcgtct cccgccgcac cagccccttc agcgcctgca 60 gcatcacccg cggcccccgc acccgcatct ccagccgccc ctgctccttc cgccccagcc 120 gcatcgccag ccgctccagc accggcatcc cccgcggctc ccgctcccag cgcacctgcg 180 gcttcaccgg cagcaccagc gcccgcaagt ccagccgcgc cggctccttc tgcgcctgcg 240 gcctcgccgg cagctccagc ccctgcttcc ccagctgccc cggccccttc agccccagcg 300 gcgtctccag cagcaccagc tcccgcctct ccggcagcgc cagcgccctc ggcccccgcc 360 gcgtcccctg ccgccccggc acccgcatcg cccgctgccc cagccccatc cgccccagct 420 gcaagccccg ctgctccagc tcccgccagt ccagcagcac ccgccccttc tgcgccagcc 480 gcgtcaccgg ccgccccagc accggcgagc cccgctgcac ccgcccctag cgctccggcc 540 gcatctcctg cggcgcccgc acctgccagt ccagctgctc ctgctccgtc cgcccctgcc 600 600 <210> 22 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1e(200), codon-optimized for Cricetulus griseus <400> 22 gcctctcctg ctgcccctgc cccagcttct ccagctgctc ctgcaccttc tgctccagcc 60 gctagtcctg cagctccagc tcctgcttct cctgccgcac cagcacctag tgcccctgct 120 gcatcaccag cagctcccgc acccgctagc ccagctgcac cagctccaag tgctccagca 180 gcttcacccg cagcacccgc tccagcaagt ccagcagccc cagccccttc agcaccagct 240 gcatctcccg cagcccctgc tcctgccagc cctgccgctc ctgctccaag cgctcctgct 300 gctagtccag ccgcccctgc accagcaagt cctgctgctc ccgcacctag tgcaccagca 360 gcaagccctg cagctcctgc accagcatct ccagcagcac cagcaccatc agcccctgcc 420 gcttctcccg cagctccagc cccagcctcc cctgctgctc cagccccctc tgctcctgca 480 gcatctcctg ccgctcccgc ccctgcaagt cccgccgctc cagcaccatc cgctccagct 540 gcttccccag ccgctccagc tccagctagc cccgcagccc ccgcaccatc tgccccagca 600 600 <210> 23 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1f(200), codon-optimized for E. coli <400> 23 gcctcccctg ccgctccagc ccccgcctcg ccggccgctc ccgctccgtc tgcacctgct 60 gcctcaccag cagccccggc cccagcatcc ccggccgcac cagctccgtc agcacctgcc 120 gcatcgcctg ctgcccctgc cccagccagt ccagcggctc cagccccgag tgctccggcc 180 gcttcccccg cagcaccggc tcctgcctcc cctgcagccc ctgctccatc tgcccctgcg 240 gcatcccctg cggcgccagc tcctgcctct ccagctgcac cggctccctc agctcccgct 300 gcctccccag ccgcgcccgc tcctgcaagc ccagcagctc cggctccatc cgcccccgcc 360 gccagccccg cagccccggc gcctgcctct cctgctgcac ctgcaccgtc agcccctgca 420 gcatctcccg cagctcctgc accggcatct ccagcagccc ccgccccgtc agctcccgca 480 gccagcccgg ccgcacccgc ccccgcgtca ccagctgcac cagcgccatc cgctcctgct 540 gcgtctcccg ctgcgcccgc ccctgcctca cctgcagcac ctgcacctag cgccccggct 600 600 <210> 24 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1g(200), codon-optimized for Pichia Pastoris <400> 24 gcctctcctg ctgcacctgc accagcttct cccgctgctc ctgctccttc agctcctgct 60 gcatcacctg ctgcacctgc tcctgcttct ccagctgcac cagctccatc tgcaccagct 120 gcttcacctg cagcacctgc acctgcttca ccagcagcac cagctccttc cgctccagcc 180 gcttcaccag ccgctccagc accagcttca ccagcagctc ctgctccatc tgctcctgct 240 gcttcccctg ctgctccagc tcctgcatca ccagctgcac ctgcaccttc tgctccagct 300 gcatctccag cagctccagc tcccgcttca cctgctgctc cagcaccatc cgctcctgca 360 gcttctccag ctgctcctgc tccagcttct cctgcagcac ctgctccatc cgctccagca 420 gcttctccag ccgctcctgc tcctgcctcc cctgctgcac cagctccttc agctccagct 480 gcttccccag ctgctccagc tccagcttct ccagcagctc ctgcaccatc tgctccagct 540 gcttctcctg ctgcaccagc cccagcatcc ccagctgctc ctgcaccttc cgctcctgct 600 600 <210> 25 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1h(200), codon-optimized for Cricetulus griseus <400> 25 gcctcaccag ccgccccagc ccccgcctcc ccagccgccc ctgctccttc cgcccccgcc 60 gcttctccag ccgctcctgc ccccgcttct cccgctgccc ccgccccatc agcccccgcc 120 gcctctccag cagctccagc tcccgcctct cctgccgccc cagctccaag cgcccccgcc 180 gcatctcctg ccgcacctgc ccctgcctct cctgccgctc cagccccatc tgcccctgcc 240 gcctctccag ccgcccccgc ccctgcttct ccggctgccc ccgcaccttc agcacccgcc 300 gcttcaccag ctgcaccagc ccctgcctct cccgccgccc ccgcaccctc cgcacccgct 360 gcttcacctg ccgcccctgc acctgcctcc cctgccgcac ctgcacctag cgcccccgcc 420 gcctcacctg ccgccccagc cccagcttct cccgccgcac ccgccccttc tgcccctgca 480 gcctcccccg ctgccccagc tccagcctcc cctgccgccc ccgctccatc cgcccctgcc 540 gcttcccccg cagcccctgc ccctgcatcc cctgccgctc cagctccctc agctcccgcc 600 600 <210> 26 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1i(200), codon-optimized for Cricetulus griseus <400> 26 gccagccccg ccgctcccgc acctgccagc ccagccgctc ccgctccctc cgcccccgcc 60 gccagccccg ccgcccctgc tcccgccagc cctgcagctc cagcacctag cgccccagca 120 gcatccccag ctgcacccgc acccgcctcc ccagcagcac ctgcaccatc tgctccagca 180 gcaagtccgg ctgctcctgc tcctgcatca cctgctgcac cagccccctc agctcctgca 240 gcaagcccag ctgcacctgc accagctagt ccagccgctc cagcaccttc cgctccagca 300 gcatctcctg ctgcaccagc accagcatct cctgcagctc ccgccccaag tgccccagca 360 gcatcacctg ccgcaccagc tcctgcaagc ccagcagctc cagcaccaag cgctcctgca 420 gcctccccag ctgctcctgc cccagcttcc cccgcagctc ccgcaccttc tgccccagca 480 gcaagccccg cggcaccagc accagcttca cccgccgctc ctgcaccaag cgcccccgct 540 gcaagccctg cagcacccgc accagcctca ccagccgcac cagcaccctc cgccccagca 600 600 <210> 27 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1j(200), codon-optimized for Cricetulus griseus <400> 27 gcctcacccg ccgcaccagc cccagcatca cccgccgctc cggctccaag tgccccagcc 60 gcttctccag ctgcccctgc tccagcatca cctgctgctc ctgccccttc cgctcccgca 120 gcatctccag ctgcacctgc cccagcaagt ccagccgcac ctgctcctag tgctcctgct 180 gctagccctg ctgccccagc acctgcatca cccgcagctc ccgctccttc agctccagca 240 gcttcccctg ccgctcccgc accagcatca cccgcagccc cagctcctag cgcccctgcc 300 gccagtcccg ctgctcctgc tcccgcaagt cctgccgcac ccgcacccag tgcacctgct 360 gcatccccag ctgctccagc cccagctagt ccagcagccc ctgctccctc tgctcctgcc 420 gcttccccag cagcaccagc tcccgctagt cctgccgctc ctgccccaag tgcacccgct 480 gccagccccg cagcaccagc tccagcctca cccgctgctc ctgcacccag cgcaccagca 540 gctagcccag cagctcctgc tccagccagc ccagccgcac ctgccccatc tgcacccgct 600 600 <210> 28 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1b(200), codon-optimized for E. coli <400> 28 gccgctcctg ctgcccctgc tcccgctgcc cccgccgccc ccgccccagc tgcccccgct 60 gccgcacctg ctgccccagc tcccgctgcc ccagccgcgc cggcccccgc agctccagcc 120 gcggcaccag ctgccccagc tccagcggcg cctgctgccc cggcccccgc ggcaccggct 180 gccgcgcccg cagctccagc gcctgctgca ccggctgctc cggcacccgc cgcgccagca 240 gctgcccctg cggcaccagc tcctgctgcc cccgcggcac ctgcacccgc tgccccggcg 300 gcagctcccg ccgcgccagc ccctgcagct cctgctgcac ctgctcctgc cgcccctgct 360 gctgcccctg ctgctccagc ccctgcagca ccggccgctc cagctcctgc cgctcctgcc 420 gctgcgcccg ctgctccagc cccagctgcg ccagcagctc ctgcacctgc tgcccctgcc 480 gccgcccctg cggctccagc acctgctgca ccggccgccc cggcgcccgc tgcccccgca 540 gcagccccag ccgcacccgc tccagcagct cccgcagccc cagcacccgc agcaccagcc 600 600 <210> 29 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1c(200), codon-optimized for E. coli <400> 29 gccgcgccag cggccccggc ccctgccgcg cccgctgctc ccgcccctgc tgccccagcc 60 gccgctcctg cggcacctgc gcccgccgcg ccggcagcgc cggcaccggc agctccggcg 120 gccgcgcctg cagctcctgc accggcggct ccagcagccc cggcgccggc cgcacctgcg 180 gcggcgcccg cggcgcctgc acccgcagcg cctgcggcac cggccccagc agcccctgcc 240 gccgcaccgg ctgcgcctgc cccagcggcc cccgctgccc cggccccggc ggctccagcc 300 gcagcgcctg ccgccccagc gcccgcagca ccggcggcac cagctccggc ggcgccggcg 360 gcggctccgg cagctccggc ccctgctgcg ccggctgcgc cggctccggc ggcccctgcg 420 gcggctccgg ccgcacctgc acctgccgcg ccggctgctc cggccccggc tgccccagca 480 gcggcaccag cagcgcctgc tcctgcggcg cctgcagctc cggcgccggc agccccggcc 540 gccgcacccg cggctccagc ccccgccgct ccagcagccc ccgcgccagc tgcacctgct 600 600 <210> 30 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1d(200), codon-optimized for E. coli <400> 30 gccgcaccgg ctgccccagc ccctgccgca ccagcagctc ccgcccctgc agcccccgcc 60 gccgctccgg ccgcaccagc cccggctgcc cctgctgccc ccgccccggc agcacccgct 120 gcagcaccag ccgcgcctgc accggcagct cctgcagccc cggcaccggc agcacctgcc 180 gcagcacccg cagccccagc cccagcagcg cctgccgctc cagcaccagc ggcaccggcc 240 gccgcaccag ccgccccagc accggcagcc cccgcagcgc cggcaccagc cgctccagcc 300 gccgccccag cagccccggc tccggccgct cccgcggctc cagcaccagc agctccagcg 360 gccgctccgg cagcgccggc cccagcagca cctgcagccc ctgcaccagc agcgccagcc 420 gcggcgcccg cagctcccgc acctgcggct cccgcagccc ctgcacccgc ggcgccagca 480 gccgcccctg cagcgccagc tcctgcagca cctgcagctc cagccccggc cgccccagct 540 gcagctcctg cggccccagc acctgccgcc cctgccgcac cggctccagc cgccccagcc 600 600 <210> 31 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1e(200), codon-optimized for E. coli <400> 31 gccgcaccgg ctgcaccagc tccggcagct ccagcagcac cggcaccagc agctccggct 60 gcagcgccag cagcaccagc gcctgctgct ccagctgctc ctgctcctgc tgcaccagca 120 gcagctccag ccgcaccagc accggcagcg cctgcagccc ctgctccggc agctcctgcc 180 gcagcaccgg cagcaccagc tccagcggca cccgctgccc ctgctcctgc agcaccggca 240 gcggcaccgg ctgctcctgc gccagctgct ccggcagccc cagcccctgc agccccagca 300 gcagcgcctg cggctccagc gccagccgca ccagcggctc cggcaccggc agcccctgcg 360 gcagctcctg ctgcgcctgc tccagcagct ccagctgccc cagcgccggc agctccggct 420 gccgcaccag ctgcgcctgc ccctgctgcg ccagccgcac cggctccggc agcaccagca 480 gctgccccag cagctcctgc cccagctgcg cctgctgcgc cagcaccagc agccccagct 540 gcagcaccag ctgcaccggc accagctgct ccagcagcac cagccccagc cgctccggca 600 600 <210> 32 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1f(200), codon-optimized for Cricetulus griseus <400> 32 gccgctcctg ctgctccagc tcctgctgcc ccagcagccc ctgccccagc tgctcctgca 60 gcagctcccg cagccccagc acccgccgca ccagcagctc cagcccctgc agcaccagct 120 gctgcccctg ccgcccctgc tccagccgca cccgctgcac ccgcaccagc tgccccagcc 180 gccgcacccg cagctccagc tcccgctgct cctgctgcac cagcccctgc cgctccagca 240 gccgcaccag cagcaccagc cccagctgct cccgctgctc cagcacccgc agcccccgca 300 gcagcaccag ccgctcctgc tcctgccgcc ccagcagctc ctgctccagc agcccctgct 360 gctgctccag cagcaccagc accagctgct ccagctgccc cagctcctgc agcacccgcc 420 gctgctcccg cagctcctgc ccctgctgca cccgcagcac ccgctccagc agcacctgca 480 gctgcaccag ctgctcccgc acctgccgct cccgcagctc ccgctcctgc agctccagcc 540 gcagctcctg ctgctcctgc accagcagct cccgccgcac cagctccagc tgcccctgct 600 600 <210> 33 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1g(200), codon-optimized for Cricetulus griseus <400> 33 gccgcaccgg ctgctcctgc tcctgccgct cctgccgcac ccgctcccgc tgcccctgcc 60 gccgcccctg cagctcctgc ccccgccgca cctgcagctc cagcacctgc agcaccagct 120 gcagcacctg ctgcaccagc tcccgccgct ccagcagctc ctgccccagc tgcaccagcc 180 gctgcacccg ccgctcccgc tcctgcagcc cccgctgcac cggcccctgc cgctcctgca 240 gctgcgccag cagcccctgc tccagctgca cctgccgcac ccgccccagc tgcccccgcc 300 gctgctccag ccgctcctgc acctgctgca cctgctgctc cagcacctgc ggctcctgct 360 gccgctccag ctgcccccgc tccagcggct cctgccgccc ctgctcccgc cgctcctgca 420 gcagcccctg ctgctccagc cccagccgct ccggcagctc ccgctccagc agcccccgcc 480 gctgcccctg ctgcaccagc ccccgctgcc ccagctgccc ctgctcctgc tgcccccgcc 540 gcagcccccg ccgcacccgc accagcagca cccgcagctc cagcaccagc tgcaccagca 600 600 <210> 34 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1h(200), codon-optimized for Cricetulus griseus <400> 34 gccgcccctg ctgccccagc cccagccgcc cccgccgctc ccgccccagc tgccccagcc 60 gctgcacctg cagccccagc acctgctgcc ccagccgctc cagcaccagc tgcccctgca 120 gccgctcccg ccgccccagc ccccgctgcc cccgcagctc cagctcctgc cgctccagcc 180 gccgcccccg cagctcctgc ccccgctgcc cctgcagccc ctgctcctgc tgcacctgcc 240 gcagcccctg ctgccccagc tccagcagca cctgctgccc ccgctcccgc cgcacccgca 300 gcagcacctg ccgctccagc tccagccgcc cccgctgccc ctgctccagc cgctccagct 360 gctgctcccg cagcccctgc cccagccgct cccgcagcac ccgctcctgc cgccccagcc 420 gcagctccag ccgctcctgc ccctgccgca ccagctgctc ccgctcccgc tgctcccgcc 480 gccgctcccg ccgcacctgc tcctgccgca cccgccgctc cagcaccagc agctccagct 540 gccgctccag ccgctcccgc acccgctgct cctgccgccc ctgcccccgc agcccctgct 600 600 <210> 35 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1i(200), codon-optimized for Cricetulus griseus <400> 35 gccgctccag ccgccccagc ccctgccgcc cccgccgcac ctgcccccgc cgccccagct 60 gccgccccag ccgcccctgc tcccgctgct cctgccgcac ctgcacccgc tgcccctgct 120 gctgcccccg ctgctcctgc tcccgctgct cccgctgccc cggcccccgc tgctcccgcc 180 gctgctcccg ccgcacctgc cccagccgca ccagctgcac ctgctccagc cgctcccgct 240 gccgctccag ccgcccccgc acccgccgca cctgccgccc ctgcccctgc agcccccgcc 300 gccgctcccg cagcccccgc tcccgctgcc ccagccgccc ctgcccccgc ggctcccgcc 360 gctgctcctg ccgctcccgc ccccgccgcc cctgccgccc cggcccctgc tgcccccgct 420 gccgcacctg ctgctcccgc cccagccgct ccagctgccc ctgccccagc tgcccccgct 480 gctgcccctg ccgctcctgc ccctgctgct cctgccgccc ccgcccccgc cgctcctgcc 540 gctgcccccg ctgcacccgc tcccgccgcc cccgctgccc ccgcccctgc tgctcctgct 600 600 <210> 36 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#3b(200), codon-optimized for E. coli <400> 36 gccgcagcac cggcagcagc ccctgcagca gctccagctg ccgcaccagc agctgcacca 60 gctgcagcgc ctgctgctgc tcctgcagct gcgccagcag ctgctccggc agcggcaccg 120 gctgcagcac cagccgcagc cccagcagcc gctcctgctg cagctcctgc ggctgcacca 180 gcggctgccc ctgcggcagc accagcagca gcgccagcgg ctgcaccagc tgccgcaccg 240 gcagcagctc cggcagcagc accagcagcg gcaccggcag ctgcgcctgc cgctgcgcct 300 gcggcagccc ctgccgcagc tccagcagca gcaccggcag ctgctccagc ggcagctcct 360 gcagcagccc cagccgctgc gcctgccgca gcgccagcag ctgcgcctgc agcggctcca 420 gccgcagcac cagcggcagc tccagctgca gcccctgctg cagcgccagc agcagcacct 480 gcggctgccc ctgcagcggc tccggctgca gcgcctgcgg cagcacctgc agcggcacca 540 gcagcagccc ctgcggcagc gcctgctgca gccccagctg cagccccagc agcggcacca 600 600 <210> 37 <211> 594 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#5b(198), codon-optimized for E. coli <400> 37 gccgcagcag cagcaccggc agctgcagca gctccagcgg cagcagctgc ccctgcagcc 60 gcagctgcac cagcagcagc cgcagcgcct gcagcagctg ccgctccggc agcagcagcc 120 gcaccagctg ccgcagcagc tcctgccgca gccgcagccc cagccgcagc agcggctcca 180 gcagcagctg cagcaccagc cgctgcagcc gcaccggcag ctgcggcagc accagcagcg 240 gcagcagccc cagcagctgc agcagcgcct gcagccgcag cagcgccagc tgcagcagcg 300 gcaccggcag cggcagcggc tccggcagca gctgcagccc ctgccgcagc agctgcacct 360 gcagcagccg cagcaccggc tgccgcagcg gcaccagccg cagcagctgc cccagcggca 420 gcagcagcac cagcagctgc tgcagcacca gctgcagccg cagcaccagc ggctgccgca 480 gcgccagcag cggcagcggc accagcggca gcggcagcac cggcagcagc ggcagcccct 540 gcagccgctg cagctcctgc agcagcggca gcgccagccg cagccgcagc tcct 594 <210> 38 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1f/1c/1b(600), codon-optimized for E. coli <400> 38 gcctcccctg ccgctccagc ccccgcctcg ccggccgctc ccgctccgtc tgcacctgct 60 gcctcaccag cagccccggc cccagcatcc ccggccgcac cagctccgtc agcacctgcc 120 gcatcgcctg ctgcccctgc cccagccagt ccagcggctc cagccccgag tgctccggcc 180 gcttcccccg cagcaccggc tcctgcctcc cctgcagccc ctgctccatc tgcccctgcg 240 gcatcccctg cggcgccagc tcctgcctct ccagctgcac cggctccctc agctcccgct 300 gcctccccag ccgcgcccgc tcctgcaagc ccagcagctc cggctccatc cgcccccgcc 360 gccagccccg cagccccggc gcctgcctct cctgctgcac ctgcaccgtc agcccctgca 420 gcatctcccg cagctcctgc accggcatct ccagcagccc ccgccccgtc agctcccgca 480 gccagcccgg ccgcacccgc ccccgcgtca ccagctgcac cagcgccatc cgctcctgct 540 gcgtctcccg ctgcgcccgc ccctgcctca cctgcagcac ctgcacctag cgccccggct 600 gccagtcctg ctgcaccggc accggcatca ccggctgcac cagcacctag tgcaccggca 660 gcttctccgg ctgcccctgc gcctgcatca ccagctgcgc ctgcaccgtc tgcccctgca 720 gctagtccag cagctccagc tccggcttct cctgcggctc ctgcaccaag tgcgcctgca 780 gcaagtccgg ctgcgcctgc cccagctagt cctgctgctc cggcaccgtc agctccggca 840 gcatctcctg cagcaccagc ccctgcaagt ccagcagcgc cagccccatc agcaccagca 900 gcttcaccag ccgcaccagc gccagcaagc cctgctgccc cagctcctag cgcaccggca 960 gccagtcctg cagctcctgc gcctgctagt ccggcagccc cagctccaag tgcccctgcc 1020 gcttcgcctg cagccccagc accagcttct ccagccgcac cggcaccttc tgccccagct 1080 gcatctccgg cagctccggc accagcaagc ccggcagcac cggcaccatc tgcgcctgcc 1140 gcatctccgg ctgcgccagc tccagcctct cctgcagcgc cagcaccgag cgcaccagca 1200 gccagccctg ccgcacctgc gcccgcatca cctgcggcac ctgcaccttc cgccccggct 1260 gcatctcctg ccgcacccgc gcctgccagc ccagctgcac ctgccccaag tgcgccagca 1320 gcatcccctg ccgcgcctgc ccccgctagt ccagcggccc cagctccatc tgcaccagct 1380 gctagccctg ctgcaccagc tcctgcttct cccgcagccc cagcgccttc tgctcccgca 1440 gcctcacctg cggccccggc accagcatct ccagcggcac cagcaccttc ggcccctgct 1500 gctagcccag cagcacctgc gccagcctca ccagctgctc ccgctcctag tgccccggcg 1560 gcctcgcctg ctgctcctgc accagcttcg ccagcggcac cggctccttc ggcgccggct 1620 gcttcaccag cagcacctgc tccagcgtcc ccagcggccc ctgctccaag tgctccggct 1680 gcatcgcctg ccgctcctgc tcctgcatcc ccagctgctc cagcaccaag cgcacctgcc 1740 gcctcaccag cggcgccagc acccgccagc ccagcagcgc ctgctccatc cgcaccggcg 1800 1800 <210> 39 <211> 2400 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1d/1f/1c/1b(800), codon-optimized for E. coli <400> 39 gccagccccg ccgcccctgc accggcgtct cccgccgcac cagccccttc agcgcctgca 60 gcatcacccg cggcccccgc acccgcatct ccagccgccc ctgctccttc cgccccagcc 120 gcatcgccag ccgctccagc accggcatcc cccgcggctc ccgctcccag cgcacctgcg 180 gcttcaccgg cagcaccagc gcccgcaagt ccagccgcgc cggctccttc tgcgcctgcg 240 gcctcgccgg cagctccagc ccctgcttcc ccagctgccc cggccccttc agccccagcg 300 gcgtctccag cagcaccagc tcccgcctct ccggcagcgc cagcgccctc ggcccccgcc 360 gcgtcccctg ccgccccggc acccgcatcg cccgctgccc cagccccatc cgccccagct 420 gcaagccccg ctgctccagc tcccgccagt ccagcagcac ccgccccttc tgcgccagcc 480 gcgtcaccgg ccgccccagc accggcgagc cccgctgcac ccgcccctag cgctccggcc 540 gcatctcctg cggcgcccgc acctgccagt ccagctgctc ctgctccgtc cgcccctgcc 600 gcctcccctg ccgctccagc ccccgcctcg ccggccgctc ccgctccgtc tgcacctgct 660 gcctcaccag cagccccggc cccagcatcc ccggccgcac cagctccgtc agcacctgcc 720 gcatcgcctg ctgcccctgc cccagccagt ccagcggctc cagccccgag tgctccggcc 780 gcttcccccg cagcaccggc tcctgcctcc cctgcagccc ctgctccatc tgcccctgcg 840 gcatcccctg cggcgccagc tcctgcctct ccagctgcac cggctccctc agctcccgct 900 gcctccccag ccgcgcccgc tcctgcaagc ccagcagctc cggctccatc cgcccccgcc 960 gccagccccg cagccccggc gcctgcctct cctgctgcac ctgcaccgtc agcccctgca 1020 gcatctcccg cagctcctgc accggcatct ccagcagccc ccgccccgtc agctcccgca 1080 gccagcccgg ccgcacccgc ccccgcgtca ccagctgcac cagcgccatc cgctcctgct 1140 gcgtctcccg ctgcgcccgc ccctgcctca cctgcagcac ctgcacctag cgccccggct 1200 gccagtcctg ctgcaccggc accggcatca ccggctgcac cagcacctag tgcaccggca 1260 gcttctccgg ctgcccctgc gcctgcatca ccagctgcgc ctgcaccgtc tgcccctgca 1320 gctagtccag cagctccagc tccggcttct cctgcggctc ctgcaccaag tgcgcctgca 1380 gcaagtccgg ctgcgcctgc cccagctagt cctgctgctc cggcaccgtc agctccggca 1440 gcatctcctg cagcaccagc ccctgcaagt ccagcagcgc cagccccatc agcaccagca 1500 gcttcaccag ccgcaccagc gccagcaagc cctgctgccc cagctcctag cgcaccggca 1560 gccagtcctg cagctcctgc gcctgctagt ccggcagccc cagctccaag tgcccctgcc 1620 gcttcgcctg cagccccagc accagcttct ccagccgcac cggcaccttc tgccccagct 1680 gcatctccgg cagctccggc accagcaagc ccggcagcac cggcaccatc tgcgcctgcc 1740 gcatctccgg ctgcgccagc tccagcctct cctgcagcgc cagcaccgag cgcaccagca 1800 gccagccctg ccgcacctgc gcccgcatca cctgcggcac ctgcaccttc cgccccggct 1860 gcatctcctg ccgcacccgc gcctgccagc ccagctgcac ctgccccaag tgcgccagca 1920 gcatcccctg ccgcgcctgc ccccgctagt ccagcggccc cagctccatc tgcaccagct 1980 gctagccctg ctgcaccagc tcctgcttct cccgcagccc cagcgccttc tgctcccgca 2040 gcctcacctg cggccccggc accagcatct ccagcggcac cagcaccttc ggcccctgct 2100 gctagcccag cagcacctgc gccagcctca ccagctgctc ccgctcctag tgccccggcg 2160 gcctcgcctg ctgctcctgc accagcttcg ccagcggcac cggctccttc ggcgccggct 2220 gcttcaccag cagcacctgc tccagcgtcc ccagcggccc ctgctccaag tgctccggct 2280 gcatcgcctg ccgctcctgc tcctgcatcc ccagctgctc cagcaccaag cgcacctgcc 2340 gcctcaccag cggcgccagc acccgccagc ccagcagcgc ctgctccatc cgcaccggcg 2400 2400 <210> 40 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1h/1e/1i(600), codon-optimized for Cricetulus griseus <400> 40 gcctcaccag ccgccccagc ccccgcctcc ccagccgccc ctgctccttc cgcccccgcc 60 gcttctccag ccgctcctgc ccccgcttct cccgctgccc ccgccccatc agcccccgcc 120 gcctctccag cagctccagc tcccgcctct cctgccgccc cagctccaag cgcccccgcc 180 gcatctcctg ccgcacctgc ccctgcctct cctgccgctc cagccccatc tgcccctgcc 240 gcctctccag ccgcccccgc ccctgcttct ccggctgccc ccgcaccttc agcacccgcc 300 gcttcaccag ctgcaccagc ccctgcctct cccgccgccc ccgcaccctc cgcacccgct 360 gcttcacctg ccgcccctgc acctgcctcc cctgccgcac ctgcacctag cgcccccgcc 420 gcctcacctg ccgccccagc cccagcttct cccgccgcac ccgccccttc tgcccctgca 480 gcctcccccg ctgccccagc tccagcctcc cctgccgccc ccgctccatc cgcccctgcc 540 gcttcccccg cagcccctgc ccctgcatcc cctgccgctc cagctccctc agctcccgcc 600 gcctctcctg ctgcccctgc cccagcttct ccagctgctc ctgcaccttc tgctccagcc 660 gctagtcctg cagctccagc tcctgcttct cctgccgcac cagcacctag tgcccctgct 720 gcatcaccag cagctcccgc acccgctagc ccagctgcac cagctccaag tgctccagca 780 gcttcacccg cagcacccgc tccagcaagt ccagcagccc cagccccttc agcaccagct 840 gcatctcccg cagcccctgc tcctgccagc cctgccgctc ctgctccaag cgctcctgct 900 gctagtccag ccgcccctgc accagcaagt cctgctgctc ccgcacctag tgcaccagca 960 gcaagccctg cagctcctgc accagcatct ccagcagcac cagcaccatc agcccctgcc 1020 gcttctcccg cagctccagc cccagcctcc cctgctgctc cagccccctc tgctcctgca 1080 gcatctcctg ccgctcccgc ccctgcaagt cccgccgctc cagcaccatc cgctccagct 1140 gcttccccag ccgctccagc tccagctagc cccgcagccc ccgcaccatc tgccccagca 1200 gccagccccg ccgctcccgc acctgccagc ccagccgctc ccgctccctc cgcccccgcc 1260 gccagccccg ccgcccctgc tcccgccagc cctgcagctc cagcacctag cgccccagca 1320 gcatccccag ctgcacccgc acccgcctcc ccagcagcac ctgcaccatc tgctccagca 1380 gcaagtccgg ctgctcctgc tcctgcatca cctgctgcac cagccccctc agctcctgca 1440 gcaagcccag ctgcacctgc accagctagt ccagccgctc cagcaccttc cgctccagca 1500 gcatctcctg ctgcaccagc accagcatct cctgcagctc ccgccccaag tgccccagca 1560 gcatcacctg ccgcaccagc tcctgcaagc ccagcagctc cagcaccaag cgctcctgca 1620 gcctccccag ctgctcctgc cccagcttcc cccgcagctc ccgcaccttc tgccccagca 1680 gcaagccccg cggcaccagc accagcttca cccgccgctc ctgcaccaag cgcccccgct 1740 gcaagccctg cagcacccgc accagcctca ccagccgcac cagcaccctc cgccccagca 1800 1800 <210> 41 <211> 2400 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1j/1h/1e/1i(800), codon-optimized for Cricetulus griseus <400> 41 gcctcacccg ccgcaccagc cccagcatca cccgccgctc cggctccaag tgccccagcc 60 gcttctccag ctgcccctgc tccagcatca cctgctgctc ctgccccttc cgctcccgca 120 gcatctccag ctgcacctgc cccagcaagt ccagccgcac ctgctcctag tgctcctgct 180 gctagccctg ctgccccagc acctgcatca cccgcagctc ccgctccttc agctccagca 240 gcttcccctg ccgctcccgc accagcatca cccgcagccc cagctcctag cgcccctgcc 300 gccagtcccg ctgctcctgc tcccgcaagt cctgccgcac ccgcacccag tgcacctgct 360 gcatccccag ctgctccagc cccagctagt ccagcagccc ctgctccctc tgctcctgcc 420 gcttccccag cagcaccagc tcccgctagt cctgccgctc ctgccccaag tgcacccgct 480 gccagccccg cagcaccagc tccagcctca cccgctgctc ctgcacccag cgcaccagca 540 gctagcccag cagctcctgc tccagccagc ccagccgcac ctgccccatc tgcacccgct 600 gcctcaccag ccgccccagc ccccgcctcc ccagccgccc ctgctccttc cgcccccgcc 660 gcttctccag ccgctcctgc ccccgcttct cccgctgccc ccgccccatc agcccccgcc 720 gcctctccag cagctccagc tcccgcctct cctgccgccc cagctccaag cgcccccgcc 780 gcatctcctg ccgcacctgc ccctgcctct cctgccgctc cagccccatc tgcccctgcc 840 gcctctccag ccgcccccgc ccctgcttct ccggctgccc ccgcaccttc agcacccgcc 900 gcttcaccag ctgcaccagc ccctgcctct cccgccgccc ccgcaccctc cgcacccgct 960 gcttcacctg ccgcccctgc acctgcctcc cctgccgcac ctgcacctag cgcccccgcc 1020 gcctcacctg ccgccccagc cccagcttct cccgccgcac ccgccccttc tgcccctgca 1080 gcctcccccg ctgccccagc tccagcctcc cctgccgccc ccgctccatc cgcccctgcc 1140 gcttcccccg cagcccctgc ccctgcatcc cctgccgctc cagctccctc agctcccgcc 1200 gcctctcctg ctgcccctgc cccagcttct ccagctgctc ctgcaccttc tgctccagcc 1260 gctagtcctg cagctccagc tcctgcttct cctgccgcac cagcacctag tgcccctgct 1320 gcatcaccag cagctcccgc acccgctagc ccagctgcac cagctccaag tgctccagca 1380 gcttcacccg cagcacccgc tccagcaagt ccagcagccc cagccccttc agcaccagct 1440 gcatctcccg cagcccctgc tcctgccagc cctgccgctc ctgctccaag cgctcctgct 1500 gctagtccag ccgcccctgc accagcaagt cctgctgctc ccgcacctag tgcaccagca 1560 gcaagccctg cagctcctgc accagcatct ccagcagcac cagcaccatc agcccctgcc 1620 gcttctcccg cagctccagc cccagcctcc cctgctgctc cagccccctc tgctcctgca 1680 gcatctcctg ccgctcccgc ccctgcaagt cccgccgctc cagcaccatc cgctccagct 1740 gcttccccag ccgctccagc tccagctagc cccgcagccc ccgcaccatc tgccccagca 1800 gccagccccg ccgctcccgc acctgccagc ccagccgctc ccgctccctc cgcccccgcc 1860 gccagccccg ccgcccctgc tcccgccagc cctgcagctc cagcacctag cgccccagca 1920 gcatccccag ctgcacccgc acccgcctcc ccagcagcac ctgcaccatc tgctccagca 1980 gcaagtccgg ctgctcctgc tcctgcatca cctgctgcac cagccccctc agctcctgca 2040 gcaagcccag ctgcacctgc accagctagt ccagccgctc cagcaccttc cgctccagca 2100 gcatctcctg ctgcaccagc accagcatct cctgcagctc ccgccccaag tgccccagca 2160 gcatcacctg ccgcaccagc tcctgcaagc ccagcagctc cagcaccaag cgctcctgca 2220 gcctccccag ctgctcctgc cccagcttcc cccgcagctc ccgcaccttc tgccccagca 2280 gcaagccccg cggcaccagc accagcttca cccgccgctc ctgcaccaag cgcccccgct 2340 gcaagccctg cagcacccgc accagcctca ccagccgcac cagcaccctc cgccccagca 2400 2400 <210> 42 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1d/1c/1b(600), codon-optimized for E. coli <400> 42 gccgcaccgg ctgccccagc ccctgccgca ccagcagctc ccgcccctgc agcccccgcc 60 gccgctccgg ccgcaccagc cccggctgcc cctgctgccc ccgccccggc agcacccgct 120 gcagcaccag ccgcgcctgc accggcagct cctgcagccc cggcaccggc agcacctgcc 180 gcagcacccg cagccccagc cccagcagcg cctgccgctc cagcaccagc ggcaccggcc 240 gccgcaccag ccgccccagc accggcagcc cccgcagcgc cggcaccagc cgctccagcc 300 gccgccccag cagccccggc tccggccgct cccgcggctc cagcaccagc agctccagcg 360 gccgctccgg cagcgccggc cccagcagca cctgcagccc ctgcaccagc agcgccagcc 420 gcggcgcccg cagctcccgc acctgcggct cccgcagccc ctgcacccgc ggcgccagca 480 gccgcccctg cagcgccagc tcctgcagca cctgcagctc cagccccggc cgccccagct 540 gcagctcctg cggccccagc acctgccgcc cctgccgcac cggctccagc cgccccagcc 600 gccgcgccag cggccccggc ccctgccgcg cccgctgctc ccgcccctgc tgccccagcc 660 gccgctcctg cggcacctgc gcccgccgcg ccggcagcgc cggcaccggc agctccggcg 720 gccgcgcctg cagctcctgc accggcggct ccagcagccc cggcgccggc cgcacctgcg 780 gcggcgcccg cggcgcctgc acccgcagcg cctgcggcac cggccccagc agcccctgcc 840 gccgcaccgg ctgcgcctgc cccagcggcc cccgctgccc cggccccggc ggctccagcc 900 gcagcgcctg ccgccccagc gcccgcagca ccggcggcac cagctccggc ggcgccggcg 960 gcggctccgg cagctccggc ccctgctgcg ccggctgcgc cggctccggc ggcccctgcg 1020 gcggctccgg ccgcacctgc acctgccgcg ccggctgctc cggccccggc tgccccagca 1080 gcggcaccag cagcgcctgc tcctgcggcg cctgcagctc cggcgccggc agccccggcc 1140 gccgcacccg cggctccagc ccccgccgct ccagcagccc ccgcgccagc tgcacctgct 1200 gccgctcctg ctgcccctgc tcccgctgcc cccgccgccc ccgccccagc tgcccccgct 1260 gccgcacctg ctgccccagc tcccgctgcc ccagccgcgc cggcccccgc agctccagcc 1320 gcggcaccag ctgccccagc tccagcggcg cctgctgccc cggcccccgc ggcaccggct 1380 gccgcgcccg cagctccagc gcctgctgca ccggctgctc cggcacccgc cgcgccagca 1440 gctgcccctg cggcaccagc tcctgctgcc cccgcggcac ctgcacccgc tgccccggcg 1500 gcagctcccg ccgcgccagc ccctgcagct cctgctgcac ctgctcctgc cgcccctgct 1560 gctgcccctg ctgctccagc ccctgcagca ccggccgctc cagctcctgc cgctcctgcc 1620 gctgcgcccg ctgctccagc cccagctgcg ccagcagctc ctgcacctgc tgcccctgcc 1680 gccgcccctg cggctccagc acctgctgca ccggccgccc cggcgcccgc tgcccccgca 1740 gcagccccag ccgcacccgc tccagcagct cccgcagccc cagcacccgc agcaccagcc 1800 1800 <210> 43 <211> 2400 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1i/1h/1g/1f(800), codon-optimized for Cricetulus griseus <400> 43 gccgctccag ccgccccagc ccctgccgcc cccgccgcac ctgcccccgc cgccccagct 60 gccgccccag ccgcccctgc tcccgctgct cctgccgcac ctgcacccgc tgcccctgct 120 gctgcccccg ctgctcctgc tcccgctgct cccgctgccc cggcccccgc tgctcccgcc 180 gctgctcccg ccgcacctgc cccagccgca ccagctgcac ctgctccagc cgctcccgct 240 gccgctccag ccgcccccgc acccgccgca cctgccgccc ctgcccctgc agcccccgcc 300 gccgctcccg cagcccccgc tcccgctgcc ccagccgccc ctgcccccgc ggctcccgcc 360 gctgctcctg ccgctcccgc ccccgccgcc cctgccgccc cggcccctgc tgcccccgct 420 gccgcacctg ctgctcccgc cccagccgct ccagctgccc ctgccccagc tgcccccgct 480 gctgcccctg ccgctcctgc ccctgctgct cctgccgccc ccgcccccgc cgctcctgcc 540 gctgcccccg ctgcacccgc tcccgccgcc cccgctgccc ccgcccctgc tgctcctgct 600 gccgcccctg ctgccccagc cccagccgcc cccgccgctc ccgccccagc tgccccagcc 660 gctgcacctg cagccccagc acctgctgcc ccagccgctc cagcaccagc tgcccctgca 720 gccgctcccg ccgccccagc ccccgctgcc cccgcagctc cagctcctgc cgctccagcc 780 gccgcccccg cagctcctgc ccccgctgcc cctgcagccc ctgctcctgc tgcacctgcc 840 gcagcccctg ctgccccagc tccagcagca cctgctgccc ccgctcccgc cgcacccgca 900 gcagcacctg ccgctccagc tccagccgcc cccgctgccc ctgctccagc cgctccagct 960 gctgctcccg cagcccctgc cccagccgct cccgcagcac ccgctcctgc cgccccagcc 1020 gcagctccag ccgctcctgc ccctgccgca ccagctgctc ccgctcccgc tgctcccgcc 1080 gccgctcccg ccgcacctgc tcctgccgca cccgccgctc cagcaccagc agctccagct 1140 gccgctccag ccgctcccgc acccgctgct cctgccgccc ctgcccccgc agcccctgct 1200 gccgcaccgg ctgctcctgc tcctgccgct cctgccgcac ccgctcccgc tgcccctgcc 1260 gccgcccctg cagctcctgc ccccgccgca cctgcagctc cagcacctgc agcaccagct 1320 gcagcacctg ctgcaccagc tcccgccgct ccagcagctc ctgccccagc tgcaccagcc 1380 gctgcacccg ccgctcccgc tcctgcagcc cccgctgcac cggcccctgc cgctcctgca 1440 gctgcgccag cagcccctgc tccagctgca cctgccgcac ccgccccagc tgcccccgcc 1500 gctgctccag ccgctcctgc acctgctgca cctgctgctc cagcacctgc ggctcctgct 1560 gccgctccag ctgcccccgc tccagcggct cctgccgccc ctgctcccgc cgctcctgca 1620 gcagcccctg ctgctccagc cccagccgct ccggcagctc ccgctccagc agcccccgcc 1680 gctgcccctg ctgcaccagc ccccgctgcc ccagctgccc ctgctcctgc tgcccccgcc 1740 gcagcccccg ccgcacccgc accagcagca cccgcagctc cagcaccagc tgcaccagca 1800 gccgctcctg ctgctccagc tcctgctgcc ccagcagccc ctgccccagc tgctcctgca 1860 gcagctcccg cagccccagc acccgccgca ccagcagctc cagcccctgc agcaccagct 1920 gctgcccctg ccgcccctgc tccagccgca cccgctgcac ccgcaccagc tgccccagcc 1980 gccgcacccg cagctccagc tcccgctgct cctgctgcac cagcccctgc cgctccagca 2040 gccgcaccag cagcaccagc cccagctgct cccgctgctc cagcacccgc agcccccgca 2100 gcagcaccag ccgctcctgc tcctgccgcc ccagcagctc ctgctccagc agcccctgct 2160 gctgctccag cagcaccagc accagctgct ccagctgccc cagctcctgc agcacccgcc 2220 gctgctcccg cagctcctgc ccctgctgca cccgcagcac ccgctccagc agcacctgca 2280 gctgcaccag ctgctcccgc acctgccgct cccgcagctc ccgctcctgc agctccagcc 2340 gcagctcctg ctgctcctgc accagcagct cccgccgcac cagctccagc tgcccctgct 2400 2400 <210> 44 <211> 2400 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1e/1d/1c/1b(800), codon-optimized for E. coli <400> 44 gccgcaccgg ctgcaccagc tccggcagct ccagcagcac cggcaccagc agctccggct 60 gcagcgccag cagcaccagc gcctgctgct ccagctgctc ctgctcctgc tgcaccagca 120 gcagctccag ccgcaccagc accggcagcg cctgcagccc ctgctccggc agctcctgcc 180 gcagcaccgg cagcaccagc tccagcggca cccgctgccc ctgctcctgc agcaccggca 240 gcggcaccgg ctgctcctgc gccagctgct ccggcagccc cagcccctgc agccccagca 300 gcagcgcctg cggctccagc gccagccgca ccagcggctc cggcaccggc agcccctgcg 360 gcagctcctg ctgcgcctgc tccagcagct ccagctgccc cagcgccggc agctccggct 420 gccgcaccag ctgcgcctgc ccctgctgcg ccagccgcac cggctccggc agcaccagca 480 gctgccccag cagctcctgc cccagctgcg cctgctgcgc cagcaccagc agccccagct 540 gcagcaccag ctgcaccggc accagctgct ccagcagcac cagccccagc cgctccggca 600 gccgcaccgg ctgccccagc ccctgccgca ccagcagctc ccgcccctgc agcccccgcc 660 gccgctccgg ccgcaccagc cccggctgcc cctgctgccc ccgccccggc agcacccgct 720 gcagcaccag ccgcgcctgc accggcagct cctgcagccc cggcaccggc agcacctgcc 780 gcagcacccg cagccccagc cccagcagcg cctgccgctc cagcaccagc ggcaccggcc 840 gccgcaccag ccgccccagc accggcagcc cccgcagcgc cggcaccagc cgctccagcc 900 gccgccccag cagccccggc tccggccgct cccgcggctc cagcaccagc agctccagcg 960 gccgctccgg cagcgccggc cccagcagca cctgcagccc ctgcaccagc agcgccagcc 1020 gcggcgcccg cagctcccgc acctgcggct cccgcagccc ctgcacccgc ggcgccagca 1080 gccgcccctg cagcgccagc tcctgcagca cctgcagctc cagccccggc cgccccagct 1140 gcagctcctg cggccccagc acctgccgcc cctgccgcac cggctccagc cgccccagcc 1200 gccgcgccag cggccccggc ccctgccgcg cccgctgctc ccgcccctgc tgccccagcc 1260 gccgctcctg cggcacctgc gcccgccgcg ccggcagcgc cggcaccggc agctccggcg 1320 gccgcgcctg cagctcctgc accggcggct ccagcagccc cggcgccggc cgcacctgcg 1380 gcggcgcccg cggcgcctgc acccgcagcg cctgcggcac cggccccagc agcccctgcc 1440 gccgcaccgg ctgcgcctgc cccagcggcc cccgctgccc cggccccggc ggctccagcc 1500 gcagcgcctg ccgccccagc gcccgcagca ccggcggcac cagctccggc ggcgccggcg 1560 gcggctccgg cagctccggc ccctgctgcg ccggctgcgc cggctccggc ggcccctgcg 1620 gcggctccgg ccgcacctgc acctgccgcg ccggctgctc cggccccggc tgccccagca 1680 gcggcaccag cagcgcctgc tcctgcggcg cctgcagctc cggcgccggc agccccggcc 1740 gccgcacccg cggctccagc ccccgccgct ccagcagccc ccgcgccagc tgcacctgct 1800 gccgctcctg ctgcccctgc tcccgctgcc cccgccgccc ccgccccagc tgcccccgct 1860 gccgcacctg ctgccccagc tcccgctgcc ccagccgcgc cggcccccgc agctccagcc 1920 gcggcaccag ctgccccagc tccagcggcg cctgctgccc cggcccccgc ggcaccggct 1980 gccgcgcccg cagctccagc gcctgctgca ccggctgctc cggcacccgc cgcgccagca 2040 gctgcccctg cggcaccagc tcctgctgcc cccgcggcac ctgcacccgc tgccccggcg 2100 gcagctcccg ccgcgccagc ccctgcagct cctgctgcac ctgctcctgc cgcccctgct 2160 gctgcccctg ctgctccagc ccctgcagca ccggccgctc cagctcctgc cgctcctgcc 2220 gctgcgcccg ctgctccagc cccagctgcg ccagcagctc ctgcacctgc tgcccctgcc 2280 gccgcccctg cggctccagc acctgctgca ccggccgccc cggcgcccgc tgcccccgca 2340 gcagccccag ccgcacccgc tccagcagct cccgcagccc cagcacccgc agcaccagcc 2400 2400 <210> 45 <211> 4800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1i/1h/1g/1f/1e/1d/1c/1b(1600) <400> 45 gccgctcctg ctgcccctgc tcccgctgcc cccgccgccc ccgccccagc tgcccccgct 60 gccgcacctg ctgccccagc tcccgctgcc ccagccgcgc cggcccccgc agctccagcc 120 gcggcaccag ctgccccagc tccagcggcg cctgctgccc cggcccccgc ggcaccggct 180 gccgcgcccg cagctccagc gcctgctgca ccggctgctc cggcacccgc cgcgccagca 240 gctgcccctg cggcaccagc tcctgctgcc cccgcggcac ctgcacccgc tgccccggcg 300 gcagctcccg ccgcgccagc ccctgcagct cctgctgcac ctgctcctgc cgcccctgct 360 gctgcccctg ctgctccagc ccctgcagca ccggccgctc cagctcctgc cgctcctgcc 420 gctgcgcccg ctgctccagc cccagctgcg ccagcagctc ctgcacctgc tgcccctgcc 480 gccgcccctg cggctccagc acctgctgca ccggccgccc cggcgcccgc tgcccccgca 540 gcagccccag ccgcacccgc tccagcagct cccgcagccc cagcacccgc agcaccagcc 600 gccgcgccag cggccccggc ccctgccgcg cccgctgctc ccgcccctgc tgccccagcc 660 gccgctcctg cggcacctgc gcccgccgcg ccggcagcgc cggcaccggc agctccggcg 720 gccgcgcctg cagctcctgc accggcggct ccagcagccc cggcgccggc cgcacctgcg 780 gcggcgcccg cggcgcctgc acccgcagcg cctgcggcac cggccccagc agcccctgcc 840 gccgcaccgg ctgcgcctgc cccagcggcc cccgctgccc cggccccggc ggctccagcc 900 gcagcgcctg ccgccccagc gcccgcagca ccggcggcac cagctccggc ggcgccggcg 960 gcggctccgg cagctccggc ccctgctgcg ccggctgcgc cggctccggc ggcccctgcg 1020 gcggctccgg ccgcacctgc acctgccgcg ccggctgctc cggccccggc tgccccagca 1080 gcggcaccag cagcgcctgc tcctgcggcg cctgcagctc cggcgccggc agccccggcc 1140 gccgcacccg cggctccagc ccccgccgct ccagcagccc ccgcgccagc tgcacctgct 1200 gccgcaccgg ctgccccagc ccctgccgca ccagcagctc ccgcccctgc agcccccgcc 1260 gccgctccgg ccgcaccagc cccggctgcc cctgctgccc ccgccccggc agcacccgct 1320 gcagcaccag ccgcgcctgc accggcagct cctgcagccc cggcaccggc agcacctgcc 1380 gcagcacccg cagccccagc cccagcagcg cctgccgctc cagcaccagc ggcaccggcc 1440 gccgcaccag ccgccccagc accggcagcc cccgcagcgc cggcaccagc cgctccagcc 1500 gccgccccag cagccccggc tccggccgct cccgcggctc cagcaccagc agctccagcg 1560 gccgctccgg cagcgccggc cccagcagca cctgcagccc ctgcaccagc agcgccagcc 1620 gcggcgcccg cagctcccgc acctgcggct cccgcagccc ctgcacccgc ggcgccagca 1680 gccgcccctg cagcgccagc tcctgcagca cctgcagctc cagccccggc cgccccagct 1740 gcagctcctg cggccccagc acctgccgcc cctgccgcac cggctccagc cgccccagcc 1800 gccgcaccgg ctgcaccagc tccggcagct ccagcagcac cggcaccagc agctccggct 1860 gcagcgccag cagcaccagc gcctgctgct ccagctgctc ctgctcctgc tgcaccagca 1920 gcagctccag ccgcaccagc accggcagcg cctgcagccc ctgctccggc agctcctgcc 1980 gcagcaccgg cagcaccagc tccagcggca cccgctgccc ctgctcctgc agcaccggca 2040 gcggcaccgg ctgctcctgc gccagctgct ccggcagccc cagcccctgc agccccagca 2100 gcagcgcctg cggctccagc gccagccgca ccagcggctc cggcaccggc agcccctgcg 2160 gcagctcctg ctgcgcctgc tccagcagct ccagctgccc cagcgccggc agctccggct 2220 gccgcaccag ctgcgcctgc ccctgctgcg ccagccgcac cggctccggc agcaccagca 2280 gctgccccag cagctcctgc cccagctgcg cctgctgcgc cagcaccagc agccccagct 2340 gcagcaccag ctgcaccggc accagctgct ccagcagcac cagccccagc cgctccggca 2400 gccgctcctg ctgctccagc tcctgctgcc ccagcagccc ctgccccagc tgctcctgca 2460 gcagctcccg cagccccagc acccgccgca ccagcagctc cagcccctgc agcaccagct 2520 gctgcccctg ccgcccctgc tccagccgca cccgctgcac ccgcaccagc tgccccagcc 2580 gccgcacccg cagctccagc tcccgctgct cctgctgcac cagcccctgc cgctccagca 2640 gccgcaccag cagcaccagc cccagctgct cccgctgctc cagcacccgc agcccccgca 2700 gcagcaccag ccgctcctgc tcctgccgcc ccagcagctc ctgctccagc agcccctgct 2760 gctgctccag cagcaccagc accagctgct ccagctgccc cagctcctgc agcacccgcc 2820 gctgctcccg cagctcctgc ccctgctgca cccgcagcac ccgctccagc agcacctgca 2880 gctgcaccag ctgctcccgc acctgccgct cccgcagctc ccgctcctgc agctccagcc 2940 gcagctcctg ctgctcctgc accagcagct cccgccgcac cagctccagc tgcccctgct 3000 gccgcaccgg ctgctcctgc tcctgccgct cctgccgcac ccgctcccgc tgcccctgcc 3060 gccgcccctg cagctcctgc ccccgccgca cctgcagctc cagcacctgc agcaccagct 3120 gcagcacctg ctgcaccagc tcccgccgct ccagcagctc ctgccccagc tgcaccagcc 3180 gctgcacccg ccgctcccgc tcctgcagcc cccgctgcac cggcccctgc cgctcctgca 3240 gctgcgccag cagcccctgc tccagctgca cctgccgcac ccgccccagc tgcccccgcc 3300 gctgctccag ccgctcctgc acctgctgca cctgctgctc cagcacctgc ggctcctgct 3360 gccgctccag ctgcccccgc tccagcggct cctgccgccc ctgctcccgc cgctcctgca 3420 gcagcccctg ctgctccagc cccagccgct ccggcagctc ccgctccagc agcccccgcc 3480 gctgcccctg ctgcaccagc ccccgctgcc ccagctgccc ctgctcctgc tgcccccgcc 3540 gcagcccccg ccgcacccgc accagcagca cccgcagctc cagcaccagc tgcaccagca 3600 gccgcccctg ctgccccagc cccagccgcc cccgccgctc ccgccccagc tgccccagcc 3660 gctgcacctg cagccccagc acctgctgcc ccagccgctc cagcaccagc tgcccctgca 3720 gccgctcccg ccgccccagc ccccgctgcc cccgcagctc cagctcctgc cgctccagcc 3780 gccgcccccg cagctcctgc ccccgctgcc cctgcagccc ctgctcctgc tgcacctgcc 3840 gcagcccctg ctgccccagc tccagcagca cctgctgccc ccgctcccgc cgcacccgca 3900 gcagcacctg ccgctccagc tccagccgcc cccgctgccc ctgctccagc cgctccagct 3960 gctgctcccg cagcccctgc cccagccgct cccgcagcac ccgctcctgc cgccccagcc 4020 gcagctccag ccgctcctgc ccctgccgca ccagctgctc ccgctcccgc tgctcccgcc 4080 gccgctcccg ccgcacctgc tcctgccgca cccgccgctc cagcaccagc agctccagct 4140 gccgctccag ccgctcccgc acccgctgct cctgccgccc ctgcccccgc agcccctgct 4200 gccgctccag ccgccccagc ccctgccgcc cccgccgcac ctgcccccgc cgccccagct 4260 gccgccccag ccgcccctgc tcccgctgct cctgccgcac ctgcacccgc tgcccctgct 4320 gctgcccccg ctgctcctgc tcccgctgct cccgctgccc cggcccccgc tgctcccgcc 4380 gctgctcccg ccgcacctgc cccagccgca ccagctgcac ctgctccagc cgctcccgct 4440 gccgctccag ccgcccccgc acccgccgca cctgccgccc ctgcccctgc agcccccgcc 4500 gccgctcccg cagcccccgc tcccgctgcc ccagccgccc ctgcccccgc ggctcccgcc 4560 gctgctcctg ccgctcccgc ccccgccgcc cctgccgccc cggcccctgc tgcccccgct 4620 gccgcacctg ctgctcccgc cccagccgct ccagctgccc ctgccccagc tgcccccgct 4680 gctgcccctg ccgctcctgc ccctgctgct cctgccgccc ccgcccccgc cgctcctgcc 4740 gctgcccccg ctgcacccgc tcccgccgcc cccgctgccc ccgcccctgc tgctcctgct 4800 4800 <210> 46 <211> 571 <212> DNA <213> Artificial Sequence <220> <223> Synthetic gene construct for seamless fusion of a proline/alanine-rich sequence with IL1Ra <400> 46 tctagataac gagggcaaaa aatgaaaaag acagctatcg cgattgcagt ggcactggct 60 ggtttcgcta ccgtagcgca ggccgccaga agagcgcgct cttctgcccg accctctggg 120 agaaaatcca gcaagatgca agccttcaga atctgggatg ttaaccagaa gaccttctat 180 ctgaggaaca accaactagt tgccggatac ttgcaaggac caaatgtcaa tttagaagaa 240 aagatagatg tggtacccat tgagcctcat gctctgttct tgggaatcca tggagggaag 300 atgtgcctgt cctgtgtcaa gtctggtgat gagaccagac tccagctgga ggcagttaac 360 atcactgacc tgagcgagaa cagaaagcag gacaagcgct tcgccttcat ccgctcagac 420 agtggcccca ccaccagttt tgagtctgcc gcctgccccg gttggttcct ctgcacagcg 480 atggaagctg accagcccgt cagcctcacc aatatgcctg acgaaggcgt catggtcacc 540 aaattctact tccaggagga cgagtaagct t 571 <210> 47 <211> 1150 <212> DNA <213> Artificial Sequence <220> <223> Expression cassette encoding the PA#1b(200) sequence seamless fused to IL1Ra <400> 47 tctagataac gagggcaaaa aatgaaaaag acagctatcg cgattgcagt ggcactggct 60 ggtttcgcta ccgtagcgca ggccgccgct cctgctgccc ctgctcccgc tgcccccgcc 120 gcccccgccc cagctgcccc cgctgccgca cctgctgccc cagctcccgc tgccccagcc 180 gcgccggccc ccgcagctcc agccgcggca ccagctgccc cagctccagc ggcgcctgct 240 gccccggccc ccgcggcacc ggctgccgcg cccgcagctc cagcgcctgc tgcaccggct 300 gctccggcac ccgccgcgcc agcagctgcc cctgcggcac cagctcctgc tgcccccgcg 360 gcacctgcac ccgctgcccc ggcggcagct cccgccgcgc cagcccctgc agctcctgct 420 gcacctgctc ctgccgcccc tgctgctgcc cctgctgctc cagcccctgc agcaccggcc 480 gctccagctc ctgccgctcc tgccgctgcg cccgctgctc cagccccagc tgcgccagca 540 gctcctgcac ctgctgcccc tgccgccgcc cctgcggctc cagcacctgc tgcaccggcc 600 gccccggcgc ccgctgcccc cgcagcagcc ccagccgcac ccgctccagc agctcccgca 660 gccccagcac ccgcagcacc agccgcccga ccctctggga gaaaatccag caagatgcaa 720 gccttcagaa tctgggatgt taaccagaag accttctatc tgaggaacaa ccaactagtt 780 gccggatact tgcaaggacc aaatgtcaat ttagaagaaa agatagatgt ggtacccatt 840 gagcctcatg ctctgttctt gggaatccat ggagggaaga tgtgcctgtc ctgtgtcaag 900 tctggtgatg agaccagact ccagctggag gcagttaaca tcactgacct gagcgagaac 960 agaaagcagg acaagcgctt cgccttcatc cgctcagaca gtggccccac caccagtttt 1020 gagtctgccg cctgccccgg ttggttcctc tgcacagcga tggaagctga ccagcccgtc 1080 agcctcacca atatgcctga cgaaggcgtc atggtcacca aattctactt ccaggaggac 1140 gagtaagctt 1150 <210> 48 <211> 2662 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of pXL2 <400> 48 gcgcccaata cgcaaaccgc ctctccccgc gcgttggccg attcattaat gcagctggca 60 cgacaggttt cccgactgga aagcgggcag tgagcgcaac gcaattaatg tgagttagct 120 cactcattag gcaccccagg ctttacactt tatgcttccg gctcgtatgt tgtgtggaat 180 tgtgagcgga taacaatttc acacaggaaa cagctatgac catgattacg ccaagcttgg 240 ctcttctgcc agaagagtag aattcactgg ccgtcgtttt acaacgtcgt gactgggaaa 300 accctggcgt tacccaactt aatcgccttg cagcacatcc ccctttcgcc agctggcgta 360 atagcgagga ggcccgcacc gatcgccctt cccaacagtt gcgcagcctg aatggcgaat 420 ggcgcctgat gcggtatttt ctccttacgc atctgtgcgg tatttcacac cgcatatggt 480 gcactctcag tacaatctgc tctgatgccg catagttaag ccagccccga cacccgccaa 540 cacccgctga cgcgccctga cgggcttgtc tgctcccggc atccgcttac agacaagctg 600 tgaccgtctc cgggagctgc atgtgtcaga ggttttcacc gtcatcaccg aaacgcgcga 660 gacgaaaggg cctcgtgata cgcctatttt tataggttaa tgtcatgata ataatggttt 720 cttagacgtc aggtggcact tttcggggaa atgtgcgcgg aacccctatt tgtttatttt 780 tctaaataca ttcaaatatg tatccgctca tgagacaata accctgataa atgcttcaat 840 aatattgaaa aaggacgagt atgagtattc aacatttccg tgtcgccctt attccctttt 900 ttgcggcatt ttgccttcct gtttttgctc acccagaaac gctggtgaaa gtaaaagatg 960 ctgaagatca gttgggtgca cgagtgggtt acatcgaact ggatctcaac agcggtaaga 1020 tccttgagag ttttcgcccc gaagaacgtt ttccaatgat gagcactttt aaagttctgc 1080 tatgtggcgc ggtattatcc cgtattgacg ccgggcaaga gcaactcggt cgccgcatac 1140 actattctca gaatgacttg gttgagtact caccagtcac agaaaagcat cttacggatg 1200 gcatgacagt aagagaatta tgcagtgctg ccataaccat gagtgataac actgcggcca 1260 acttacttct gacaacgatc ggaggaccga aggagctaac cgcttttttg cacaacatgg 1320 gggatcatgt aactcgcctt gatcgttggg aaccggagct gaatgaagcc ataccaaacg 1380 acgagcgtga caccacgatg cctgtagcaa tggcaacaac gttgcgcaaa ctattaactg 1440 gcgaactact tactctagct tcccggcaac aattaataga ctggatggag gcggataaag 1500 ttgcaggacc acttctgcgc tcggcccttc cggctggctg gtttattgct gataaatctg 1560 gagccggtga gcgtgggtct cgcggtatca ttgcagcact ggggccagat ggtaagccct 1620 cccgtatcgt agttatctac acgacgggga gtcaggcaac tatggatgaa cgaaatagac 1680 agatcgctga gataggtgcc tcactgatta agcattggta actgtcagac caagtttact 1740 catatatact ttagattgat ttaaaacttc atttttaatt taaaaggatc taggtgaaga 1800 tcctttttga taatctcatg accaaaatcc cttaacgtga gttttcgttc cactgagcgt 1860 cagaccccgt agaaaagatc aaaggatctt cttgagatcc tttttttctg cgcgtaatct 1920 gctgcttgca aacaaaaaaa ccaccgctac cagcggtggt ttgtttgccg gatcaagagc 1980 taccaactct ttttccgaag gtaactggct tcagcagagc gcagatacca aatactgttc 2040 ttctagtgta gccgtagtta ggccaccact tcaagaactc tgtagcaccg cctacatacc 2100 tcgctctgct aatcctgtta ccagtggctg ctgccagtgg cgataagtcg tgtcttaccg 2160 ggttggactc aagacgatag ttaccggata aggcgcagcg gtcgggctga acggggggtt 2220 cgtgcacaca gcccagcttg gagcgaacga cctacaccga actgagatac ctacagcgtg 2280 agctatgaga aagcgccacg cttcccgaag ggagaaaggc ggacaggtat ccggtaagcg 2340 gcagggtcgg aacaggagag cgcacgaggg agcttccagg gggaaacgcc tggtatcttt 2400 atagtcctgt cgggtttcgc cacctctgac ttgagcgtcg atttttgtga tgctcgtcag 2460 gggggcggag cctatggaaa aacgccagca acgcggcctt tttacggttc ctggcctttt 2520 gctggccttt tgctcacatg ttctttcctg cgttatcccc tgattctgtg gataaccgta 2580 ttaccgcctt tgagtgagct gataccgctc gccgcagccg aacgaccgag cgcagcgagt 2640 cagtgagcga ggaagcggag aa 2662 <210> 49 <211> 3670 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of pASK75-IL1Ra: <400> 49 acccgacacc atcgaatggc cagatgatta attcctaatt tttgttgaca ctctatcatt 60 gatagagtta ttttaccact ccctatcagt gatagagaaa agtgaaatga atagttcgac 120 aaaaatctag ataacgaggg caaaaaatga aaaagacagc tatcgcgatt gcagtggcac 180 tggctggttt cgctaccgta gcgcaggccg ctagccatca ccatcaccac catagctctt 240 ctgcccgacc ctctgggaga aaatccagca agatgcaagc cttcagaatc tgggatgtta 300 accagaagac cttctatctg aggaacaacc aactagttgc cggatacttg caaggaccaa 360 atgtcaattt agaagaaaag atagatgtgg tacccattga gcctcatgct ctgttcttgg 420 gaatccatgg agggaagatg tgcctgtcct gtgtcaagtc tggtgatgag accagactcc 480 agctggaggc agttaacatc actgacctga gcgagaacag aaagcaggac aagcgcttcg 540 ccttcatccg ctcagacagt ggccccacca ccagttttga gtctgccgcc tgccccggtt 600 ggttcctctg cacagcgatg gaagctgacc agcccgtcag cctcaccaat atgcctgacg 660 aaggcgtcat ggtcaccaaa ttctacttcc aggaggacga gtaagcttga cctgtgaagt 720 gaaaaatggc gcacattgtg cgacattttt tttgtctgcc gtttaccgct actgcgtcac 780 ggatctccac gcgccctgta gcggcgcatt aagcgcggcg ggtgtggtgg ttacgcgcag 840 cgtgaccgct acacttgcca gcgccctagc gcccgctcct ttcgctttct tcccttcctt 900 tctcgccacg ttcgccggct ttccccgtca agctctaaat cgggggctcc ctttagggtt 960 ccgatttagt gctttacggc acctcgaccc caaaaaactt gattagggtg atggttcacg 1020 tagtgggcca tcgccctgat agacggtttt tcgccctttg acgttggagt ccacgttctt 1080 taatagtgga ctcttgttcc aaactggaac aacactcaac cctatctcgg tctattcttt 1140 tgatttataa gggattttgc cgatttcggc ctattggtta aaaaatgagc tgatttaaca 1200 aaaatttaac gcgaatttta acaaaatatt aacgtttaca atttcaggtg gcacttttcg 1260 gggaaatgtg cgcggaaccc ctatttgttt atttttctaa atacattcaa atatgtatcc 1320 gctcatgaga caataaccct gataaatgct tcaataatat tgaaaaagga agagtatgag 1380 tattcaacat ttccgtgtcg cccttattcc cttttttgcg gcattttgcc ttcctgtttt 1440 tgctcaccca gaaacgctgg tgaaagtaaa agatgctgaa gatcagttgg gtgcacgagt 1500 gggttacatc gaactggatc tcaacagcgg taagatcctt gagagttttc gccccgaaga 1560 acgttttcca atgatgagca cttttaaagt tctgctatgt ggcgcggtat tatcccgtat 1620 tgacgccggg caagagcaac tcggtcgccg catacactat tctcagaatg acttggttga 1680 gtactcacca gtcacagaaa agcatcttac ggatggcatg acagtaagag aattatgcag 1740 tgctgccata accatgagtg ataacactgc ggccaactta cttctgacaa cgatcggagg 1800 accgaaggag ctaaccgctt ttttgcacaa catgggggat catgtaactc gccttgatcg 1860 ttgggaaccg gagctgaatg aagccatacc aaacgacgag cgtgacacca cgatgcctgt 1920 agcaatggca acaacgttgc gcaaactatt aactggcgaa ctacttactc tagcttcccg 1980 gcaacaattg atagactgga tggaggcgga taaagttgca ggaccacttc tgcgctcggc 2040 ccttccggct ggctggttta ttgctgataa atctggagcc ggtgagcgtg gctctcgcgg 2100 tatcattgca gcactggggc cagatggtaa gccctcccgt atcgtagtta tctacacgac 2160 ggggagtcag gcaactatgg atgaacgaaa tagacagatc gctgagatag gtgcctcact 2220 gattaagcat tggtaggaat taatgatgtc tcgtttagat aaaagtaaag tgattaacag 2280 cgcattagag ctgcttaatg aggtcggaat cgaaggttta acaacccgta aactcgccca 2340 gaagctaggt gtagagcagc ctacattgta ttggcatgta aaaaataagc gggctttgct 2400 cgacgcctta gccattgaga tgttagatag gcaccatact cacttttgcc ctttagaagg 2460 ggaaagctgg caagattttt tacgtaataa cgctaaaagt tttagatgtg ctttactaag 2520 tcatcgcgat ggagcaaaag tacatttagg tacacggcct acagaaaaac agtatgaaac 2580 tctcgaaaat caattagcct ttttatgcca acaaggtttt tcactagaga atgcattata 2640 tgcactcagc gcagtggggc attttacttt aggttgcgta ttggaagatc aagagcatca 2700 agtcgctaaa gaagaaaggg aaacacctac tactgatagt atgccgccat tattacgaca 2760 agctatcgaa ttatttgatc accaaggtgc agagccagcc ttcttattcg gccttgaatt 2820 gatcatatgc ggattagaaa aacaacttaa atgtgaaagt gggtcttaaa agcagcataa 2880 cctttttccg tgatggtaac ttcactagtt taaaaggatc taggtgaaga tcctttttga 2940 taatctcatg accaaaatcc cttaacgtga gttttcgttc cactgagcgt cagaccccgt 3000 agaaaagatc aaaggatctt cttgagatcc tttttttctg cgcgtaatct gctgcttgca 3060 aacaaaaaaa ccaccgctac cagcggtggt ttgtttgccg gatcaagagc taccaactct 3120 ttttccgaag gtaactggct tcagcagagc gcagatacca aatactgtcc ttctagtgta 3180 gccgtagtta ggccaccact tcaagaactc tgtagcaccg cctacatacc tcgctctgct 3240 aatcctgtta ccagtggctg ctgccagtgg cgataagtcg tgtcttaccg ggttggactc 3300 aagacgatag ttaccggata aggcgcagcg gtcgggctga acggggggtt cgtgcacaca 3360 gcccagcttg gagcgaacga cctacaccga actgagatac ctacagcgtg agctatgaga 3420 aagcgccacg cttcccgaag ggagaaaggc ggacaggtat ccggtaagcg gcagggtcgg 3480 aacaggagag cgcacgaggg agcttccagg gggaaacgcc tggtatcttt atagtcctgt 3540 cgggtttcgc cacctctgac ttgagcgtcg atttttgtga tgctcgtcag gggggcggag 3600 cctatggaaa aacgccagca acgcggcctt tttacggttc ctggcctttt gctggccttt 3660 tgctcacatg 3670 <210> 50 <211> 5470 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of pASK75-PAS#1f/1c/1b(600)-IL1Ra: <400> 50 acccgacacc atcgaatggc cagatgatta attcctaatt tttgttgaca ctctatcatt 60 gatagagtta ttttaccact ccctatcagt gatagagaaa agtgaaatga atagttcgac 120 aaaaatctag ataacgaggg caaaaaatga aaaagacagc tatcgcgatt gcagtggcac 180 tggctggttt cgctaccgta gcgcaggccg ctagccatca ccatcaccac catagctctt 240 ctgcctcccc tgccgctcca gcccccgcct cgccggccgc tcccgctccg tctgcacctg 300 ctgcctcacc agcagccccg gccccagcat ccccggccgc accagctccg tcagcacctg 360 ccgcatcgcc tgctgcccct gccccagcca gtccagcggc tccagccccg agtgctccgg 420 ccgcttcccc cgcagcaccg gctcctgcct cccctgcagc ccctgctcca tctgcccctg 480 cggcatcccc tgcggcgcca gctcctgcct ctccagctgc accggctccc tcagctcccg 540 ctgcctcccc agccgcgccc gctcctgcaa gcccagcagc tccggctcca tccgcccccg 600 ccgccagccc cgcagccccg gcgcctgcct ctcctgctgc acctgcaccg tcagcccctg 660 cagcatctcc cgcagctcct gcaccggcat ctccagcagc ccccgccccg tcagctcccg 720 cagccagccc ggccgcaccc gcccccgcgt caccagctgc accagcgcca tccgctcctg 780 ctgcgtctcc cgctgcgccc gcccctgcct cacctgcagc acctgcacct agcgccccgg 840 ctgccagtcc tgctgcaccg gcaccggcat caccggctgc accagcacct agtgcaccgg 900 cagcttctcc ggctgcccct gcgcctgcat caccagctgc gcctgcaccg tctgcccctg 960 cagctagtcc agcagctcca gctccggctt ctcctgcggc tcctgcacca agtgcgcctg 1020 cagcaagtcc ggctgcgcct gccccagcta gtcctgctgc tccggcaccg tcagctccgg 1080 cagcatctcc tgcagcacca gcccctgcaa gtccagcagc gccagcccca tcagcaccag 1140 cagcttcacc agccgcacca gcgccagcaa gccctgctgc cccagctcct agcgcaccgg 1200 cagccagtcc tgcagctcct gcgcctgcta gtccggcagc cccagctcca agtgcccctg 1260 ccgcttcgcc tgcagcccca gcaccagctt ctccagccgc accggcacct tctgccccag 1320 ctgcatctcc ggcagctccg gcaccagcaa gcccggcagc accggcacca tctgcgcctg 1380 ccgcatctcc ggctgcgcca gctccagcct ctcctgcagc gccagcaccg agcgcaccag 1440 cagccagccc tgccgcacct gcgcccgcat cacctgcggc acctgcacct tccgccccgg 1500 ctgcatctcc tgccgcaccc gcgcctgcca gcccagctgc acctgcccca agtgcgccag 1560 cagcatcccc tgccgcgcct gcccccgcta gtccagcggc cccagctcca tctgcaccag 1620 ctgctagccc tgctgcacca gctcctgctt ctcccgcagc cccagcgcct tctgctcccg 1680 cagcctcacc tgcggccccg gcaccagcat ctccagcggc accagcacct tcggcccctg 1740 ctgctagccc agcagcacct gcgccagcct caccagctgc tcccgctcct agtgccccgg 1800 cggcctcgcc tgctgctcct gcaccagctt cgccagcggc accggctcct tcggcgccgg 1860 ctgcttcacc agcagcacct gctccagcgt ccccagcggc ccctgctcca agtgctccgg 1920 ctgcatcgcc tgccgctcct gctcctgcat ccccagctgc tccagcacca agcgcacctg 1980 ccgcctcacc agcggcgcca gcacccgcca gcccagcagc gcctgctcca tccgcaccgg 2040 cggcccgacc ctctgggaga aaatccagca agatgcaagc cttcagaatc tgggatgtta 2100 accagaagac cttctatctg aggaacaacc aactagttgc cggatacttg caaggaccaa 2160 atgtcaattt agaagaaaag atagatgtgg tacccattga gcctcatgct ctgttcttgg 2220 gaatccatgg agggaagatg tgcctgtcct gtgtcaagtc tggtgatgag accagactcc 2280 agctggaggc agttaacatc actgacctga gcgagaacag aaagcaggac aagcgcttcg 2340 ccttcatccg ctcagacagt ggccccacca ccagttttga gtctgccgcc tgccccggtt 2400 ggttcctctg cacagcgatg gaagctgacc agcccgtcag cctcaccaat atgcctgacg 2460 aaggcgtcat ggtcaccaaa ttctacttcc aggaggacga gtaagcttga cctgtgaagt 2520 gaaaaatggc gcacattgtg cgacattttt tttgtctgcc gtttaccgct actgcgtcac 2580 ggatctccac gcgccctgta gcggcgcatt aagcgcggcg ggtgtggtgg ttacgcgcag 2640 cgtgaccgct acacttgcca gcgccctagc gcccgctcct ttcgctttct tcccttcctt 2700 tctcgccacg ttcgccggct ttccccgtca agctctaaat cgggggctcc ctttagggtt 2760 ccgatttagt gctttacggc acctcgaccc caaaaaactt gattagggtg atggttcacg 2820 tagtgggcca tcgccctgat agacggtttt tcgccctttg acgttggagt ccacgttctt 2880 taatagtgga ctcttgttcc aaactggaac aacactcaac cctatctcgg tctattcttt 2940 tgatttataa gggattttgc cgatttcggc ctattggtta aaaaatgagc tgatttaaca 3000 aaaatttaac gcgaatttta acaaaatatt aacgtttaca atttcaggtg gcacttttcg 3060 gggaaatgtg cgcggaaccc ctatttgttt atttttctaa atacattcaa atatgtatcc 3120 gctcatgaga caataaccct gataaatgct tcaataatat tgaaaaagga agagtatgag 3180 tattcaacat ttccgtgtcg cccttattcc cttttttgcg gcattttgcc ttcctgtttt 3240 tgctcaccca gaaacgctgg tgaaagtaaa agatgctgaa gatcagttgg gtgcacgagt 3300 gggttacatc gaactggatc tcaacagcgg taagatcctt gagagttttc gccccgaaga 3360 acgttttcca atgatgagca cttttaaagt tctgctatgt ggcgcggtat tatcccgtat 3420 tgacgccggg caagagcaac tcggtcgccg catacactat tctcagaatg acttggttga 3480 gtactcacca gtcacagaaa agcatcttac ggatggcatg acagtaagag aattatgcag 3540 tgctgccata accatgagtg ataacactgc ggccaactta cttctgacaa cgatcggagg 3600 accgaaggag ctaaccgctt ttttgcacaa catgggggat catgtaactc gccttgatcg 3660 ttgggaaccg gagctgaatg aagccatacc aaacgacgag cgtgacacca cgatgcctgt 3720 agcaatggca acaacgttgc gcaaactatt aactggcgaa ctacttactc tagcttcccg 3780 gcaacaattg atagactgga tggaggcgga taaagttgca ggaccacttc tgcgctcggc 3840 ccttccggct ggctggttta ttgctgataa atctggagcc ggtgagcgtg gctctcgcgg 3900 tatcattgca gcactggggc cagatggtaa gccctcccgt atcgtagtta tctacacgac 3960 ggggagtcag gcaactatgg atgaacgaaa tagacagatc gctgagatag gtgcctcact 4020 gattaagcat tggtaggaat taatgatgtc tcgtttagat aaaagtaaag tgattaacag 4080 cgcattagag ctgcttaatg aggtcggaat cgaaggttta acaacccgta aactcgccca 4140 gaagctaggt gtagagcagc ctacattgta ttggcatgta aaaaataagc gggctttgct 4200 cgacgcctta gccattgaga tgttagatag gcaccatact cacttttgcc ctttagaagg 4260 ggaaagctgg caagattttt tacgtaataa cgctaaaagt tttagatgtg ctttactaag 4320 tcatcgcgat ggagcaaaag tacatttagg tacacggcct acagaaaaac agtatgaaac 4380 tctcgaaaat caattagcct ttttatgcca acaaggtttt tcactagaga atgcattata 4440 tgcactcagc gcagtggggc attttacttt aggttgcgta ttggaagatc aagagcatca 4500 agtcgctaaa gaagaaaggg aaacacctac tactgatagt atgccgccat tattacgaca 4560 agctatcgaa ttatttgatc accaaggtgc agagccagcc ttcttattcg gccttgaatt 4620 gatcatatgc ggattagaaa aacaacttaa atgtgaaagt gggtcttaaa agcagcataa 4680 cctttttccg tgatggtaac ttcactagtt taaaaggatc taggtgaaga tcctttttga 4740 taatctcatg accaaaatcc cttaacgtga gttttcgttc cactgagcgt cagaccccgt 4800 agaaaagatc aaaggatctt cttgagatcc tttttttctg cgcgtaatct gctgcttgca 4860 aacaaaaaaa ccaccgctac cagcggtggt ttgtttgccg gatcaagagc taccaactct 4920 ttttccgaag gtaactggct tcagcagagc gcagatacca aatactgtcc ttctagtgta 4980 gccgtagtta ggccaccact tcaagaactc tgtagcaccg cctacatacc tcgctctgct 5040 aatcctgtta ccagtggctg ctgccagtgg cgataagtcg tgtcttaccg ggttggactc 5100 aagacgatag ttaccggata aggcgcagcg gtcgggctga acggggggtt cgtgcacaca 5160 gcccagcttg gagcgaacga cctacaccga actgagatac ctacagcgtg agctatgaga 5220 aagcgccacg cttcccgaag ggagaaaggc ggacaggtat ccggtaagcg gcagggtcgg 5280 aacaggagag cgcacgaggg agcttccagg gggaaacgcc tggtatcttt atagtcctgt 5340 cgggtttcgc cacctctgac ttgagcgtcg atttttgtga tgctcgtcag gggggcggag 5400 cctatggaaa aacgccagca acgcggcctt tttacggttc ctggcctttt gctggccttt 5460 tgctcacatg 5470 <210> 51 <211> 5470 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of pASK75-PAS#1a(600)-IL1Ra: <400> 51 acccgacacc atcgaatggc cagatgatta attcctaatt tttgttgaca ctctatcatt 60 gatagagtta ttttaccact ccctatcagt gatagagaaa agtgaaatga atagttcgac 120 aaaaatctag ataacgaggg caaaaaatga aaaagacagc tatcgcgatt gcagtggcac 180 tggctggttt cgctaccgta gcgcaggccg ctagccatca ccatcaccac catagctctt 240 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 300 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 360 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 420 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 480 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 540 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 600 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 660 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 720 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 780 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 840 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 900 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 960 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 1020 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 1080 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 1140 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 1200 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 1260 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 1320 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 1380 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 1440 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 1500 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 1560 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 1620 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 1680 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 1740 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 1800 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 1860 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 1920 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 1980 ctgcctctcc agctgcacct gctccagcaa gccctgctgc accagctccg tctgctcctg 2040 ctgcccgacc ctctgggaga aaatccagca agatgcaagc cttcagaatc tgggatgtta 2100 accagaagac cttctatctg aggaacaacc aactagttgc cggatacttg caaggaccaa 2160 atgtcaattt agaagaaaag atagatgtgg tacccattga gcctcatgct ctgttcttgg 2220 gaatccatgg agggaagatg tgcctgtcct gtgtcaagtc tggtgatgag accagactcc 2280 agctggaggc agttaacatc actgacctga gcgagaacag aaagcaggac aagcgcttcg 2340 ccttcatccg ctcagacagt ggccccacca ccagttttga gtctgccgcc tgccccggtt 2400 ggttcctctg cacagcgatg gaagctgacc agcccgtcag cctcaccaat atgcctgacg 2460 aaggcgtcat ggtcaccaaa ttctacttcc aggaggacga gtaagcttga cctgtgaagt 2520 gaaaaatggc gcacattgtg cgacattttt tttgtctgcc gtttaccgct actgcgtcac 2580 ggatctccac gcgccctgta gcggcgcatt aagcgcggcg ggtgtggtgg ttacgcgcag 2640 cgtgaccgct acacttgcca gcgccctagc gcccgctcct ttcgctttct tcccttcctt 2700 tctcgccacg ttcgccggct ttccccgtca agctctaaat cgggggctcc ctttagggtt 2760 ccgatttagt gctttacggc acctcgaccc caaaaaactt gattagggtg atggttcacg 2820 tagtgggcca tcgccctgat agacggtttt tcgccctttg acgttggagt ccacgttctt 2880 taatagtgga ctcttgttcc aaactggaac aacactcaac cctatctcgg tctattcttt 2940 tgatttataa gggattttgc cgatttcggc ctattggtta aaaaatgagc tgatttaaca 3000 aaaatttaac gcgaatttta acaaaatatt aacgtttaca atttcaggtg gcacttttcg 3060 gggaaatgtg cgcggaaccc ctatttgttt atttttctaa atacattcaa atatgtatcc 3120 gctcatgaga caataaccct gataaatgct tcaataatat tgaaaaagga agagtatgag 3180 tattcaacat ttccgtgtcg cccttattcc cttttttgcg gcattttgcc ttcctgtttt 3240 tgctcaccca gaaacgctgg tgaaagtaaa agatgctgaa gatcagttgg gtgcacgagt 3300 gggttacatc gaactggatc tcaacagcgg taagatcctt gagagttttc gccccgaaga 3360 acgttttcca atgatgagca cttttaaagt tctgctatgt ggcgcggtat tatcccgtat 3420 tgacgccggg caagagcaac tcggtcgccg catacactat tctcagaatg acttggttga 3480 gtactcacca gtcacagaaa agcatcttac ggatggcatg acagtaagag aattatgcag 3540 tgctgccata accatgagtg ataacactgc ggccaactta cttctgacaa cgatcggagg 3600 accgaaggag ctaaccgctt ttttgcacaa catgggggat catgtaactc gccttgatcg 3660 ttgggaaccg gagctgaatg aagccatacc aaacgacgag cgtgacacca cgatgcctgt 3720 agcaatggca acaacgttgc gcaaactatt aactggcgaa ctacttactc tagcttcccg 3780 gcaacaattg atagactgga tggaggcgga taaagttgca ggaccacttc tgcgctcggc 3840 ccttccggct ggctggttta ttgctgataa atctggagcc ggtgagcgtg gctctcgcgg 3900 tatcattgca gcactggggc cagatggtaa gccctcccgt atcgtagtta tctacacgac 3960 ggggagtcag gcaactatgg atgaacgaaa tagacagatc gctgagatag gtgcctcact 4020 gattaagcat tggtaggaat taatgatgtc tcgtttagat aaaagtaaag tgattaacag 4080 cgcattagag ctgcttaatg aggtcggaat cgaaggttta acaacccgta aactcgccca 4140 gaagctaggt gtagagcagc ctacattgta ttggcatgta aaaaataagc gggctttgct 4200 cgacgcctta gccattgaga tgttagatag gcaccatact cacttttgcc ctttagaagg 4260 ggaaagctgg caagattttt tacgtaataa cgctaaaagt tttagatgtg ctttactaag 4320 tcatcgcgat ggagcaaaag tacatttagg tacacggcct acagaaaaac agtatgaaac 4380 tctcgaaaat caattagcct ttttatgcca acaaggtttt tcactagaga atgcattata 4440 tgcactcagc gcagtggggc attttacttt aggttgcgta ttggaagatc aagagcatca 4500 agtcgctaaa gaagaaaggg aaacacctac tactgatagt atgccgccat tattacgaca 4560 agctatcgaa ttatttgatc accaaggtgc agagccagcc ttcttattcg gccttgaatt 4620 gatcatatgc ggattagaaa aacaacttaa atgtgaaagt gggtcttaaa agcagcataa 4680 cctttttccg tgatggtaac ttcactagtt taaaaggatc taggtgaaga tcctttttga 4740 taatctcatg accaaaatcc cttaacgtga gttttcgttc cactgagcgt cagaccccgt 4800 agaaaagatc aaaggatctt cttgagatcc tttttttctg cgcgtaatct gctgcttgca 4860 aacaaaaaaa ccaccgctac cagcggtggt ttgtttgccg gatcaagagc taccaactct 4920 ttttccgaag gtaactggct tcagcagagc gcagatacca aatactgtcc ttctagtgta 4980 gccgtagtta ggccaccact tcaagaactc tgtagcaccg cctacatacc tcgctctgct 5040 aatcctgtta ccagtggctg ctgccagtgg cgataagtcg tgtcttaccg ggttggactc 5100 aagacgatag ttaccggata aggcgcagcg gtcgggctga acggggggtt cgtgcacaca 5160 gcccagcttg gagcgaacga cctacaccga actgagatac ctacagcgtg agctatgaga 5220 aagcgccacg cttcccgaag ggagaaaggc ggacaggtat ccggtaagcg gcagggtcgg 5280 aacaggagag cgcacgaggg agcttccagg gggaaacgcc tggtatcttt atagtcctgt 5340 cgggtttcgc cacctctgac ttgagcgtcg atttttgtga tgctcgtcag gggggcggag 5400 cctatggaaa aacgccagca acgcggcctt tttacggttc ctggcctttt gctggccttt 5460 tgctcacatg 5470 <210> 52 <211> 3862 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of pXL2-PAS#1c/1b(400): <400> 52 gcgcccaata cgcaaaccgc ctctccccgc gcgttggccg attcattaat gcagctggca 60 cgacaggttt cccgactgga aagcgggcag tgagcgcaac gcaattaatg tgagttagct 120 cactcattag gcaccccagg ctttacactt tatgcttccg gctcgtatgt tgtgtggaat 180 tgtgagcgga taacaatttc acacaggaaa cagctatgac catgattacg ccaagcttgg 240 ctcttctgcc agtcctgctg caccggcacc ggcatcaccg gctgcaccag cacctagtgc 300 accggcagct tctccggctg cccctgcgcc tgcatcacca gctgcgcctg caccgtctgc 360 ccctgcagct agtccagcag ctccagctcc ggcttctcct gcggctcctg caccaagtgc 420 gcctgcagca agtccggctg cgcctgcccc agctagtcct gctgctccgg caccgtcagc 480 tccggcagca tctcctgcag caccagcccc tgcaagtcca gcagcgccag ccccatcagc 540 accagcagct tcaccagccg caccagcgcc agcaagccct gctgccccag ctcctagcgc 600 accggcagcc agtcctgcag ctcctgcgcc tgctagtccg gcagccccag ctccaagtgc 660 ccctgccgct tcgcctgcag ccccagcacc agcttctcca gccgcaccgg caccttctgc 720 cccagctgca tctccggcag ctccggcacc agcaagcccg gcagcaccgg caccatctgc 780 gcctgccgca tctccggctg cgccagctcc agcctctcct gcagcgccag caccgagcgc 840 accagcagcc agccctgccg cacctgcgcc cgcatcacct gcggcacctg caccttccgc 900 cccggctgca tctcctgccg cacccgcgcc tgccagccca gctgcacctg ccccaagtgc 960 gccagcagca tcccctgccg cgcctgcccc cgctagtcca gcggccccag ctccatctgc 1020 accagctgct agccctgctg caccagctcc tgcttctccc gcagccccag cgccttctgc 1080 tcccgcagcc tcacctgcgg ccccggcacc agcatctcca gcggcaccag caccttcggc 1140 ccctgctgct agcccagcag cacctgcgcc agcctcacca gctgctcccg ctcctagtgc 1200 cccggcggcc tcgcctgctg ctcctgcacc agcttcgcca gcggcaccgg ctccttcggc 1260 gccggctgct tcaccagcag cacctgctcc agcgtcccca gcggcccctg ctccaagtgc 1320 tccggctgca tcgcctgccg ctcctgctcc tgcatcccca gctgctccag caccaagcgc 1380 acctgccgcc tcaccagcgg cgccagcacc cgccagccca gcagcgcctg ctccatccgc 1440 accggcggcc agaagagtag aattcactgg ccgtcgtttt acaacgtcgt gactgggaaa 1500 accctggcgt tacccaactt aatcgccttg cagcacatcc ccctttcgcc agctggcgta 1560 atagcgagga ggcccgcacc gatcgccctt cccaacagtt gcgcagcctg aatggcgaat 1620 ggcgcctgat gcggtatttt ctccttacgc atctgtgcgg tatttcacac cgcatatggt 1680 gcactctcag tacaatctgc tctgatgccg catagttaag ccagccccga cacccgccaa 1740 cacccgctga cgcgccctga cgggcttgtc tgctcccggc atccgcttac agacaagctg 1800 tgaccgtctc cgggagctgc atgtgtcaga ggttttcacc gtcatcaccg aaacgcgcga 1860 gacgaaaggg cctcgtgata cgcctatttt tataggttaa tgtcatgata ataatggttt 1920 cttagacgtc aggtggcact tttcggggaa atgtgcgcgg aacccctatt tgtttatttt 1980 tctaaataca ttcaaatatg tatccgctca tgagacaata accctgataa atgcttcaat 2040 aatattgaaa aaggacgagt atgagtattc aacatttccg tgtcgccctt attccctttt 2100 ttgcggcatt ttgccttcct gtttttgctc acccagaaac gctggtgaaa gtaaaagatg 2160 ctgaagatca gttgggtgca cgagtgggtt acatcgaact ggatctcaac agcggtaaga 2220 tccttgagag ttttcgcccc gaagaacgtt ttccaatgat gagcactttt aaagttctgc 2280 tatgtggcgc ggtattatcc cgtattgacg ccgggcaaga gcaactcggt cgccgcatac 2340 actattctca gaatgacttg gttgagtact caccagtcac agaaaagcat cttacggatg 2400 gcatgacagt aagagaatta tgcagtgctg ccataaccat gagtgataac actgcggcca 2460 acttacttct gacaacgatc ggaggaccga aggagctaac cgcttttttg cacaacatgg 2520 gggatcatgt aactcgcctt gatcgttggg aaccggagct gaatgaagcc ataccaaacg 2580 acgagcgtga caccacgatg cctgtagcaa tggcaacaac gttgcgcaaa ctattaactg 2640 gcgaactact tactctagct tcccggcaac aattaataga ctggatggag gcggataaag 2700 ttgcaggacc acttctgcgc tcggcccttc cggctggctg gtttattgct gataaatctg 2760 gagccggtga gcgtgggtct cgcggtatca ttgcagcact ggggccagat ggtaagccct 2820 cccgtatcgt agttatctac acgacgggga gtcaggcaac tatggatgaa cgaaatagac 2880 agatcgctga gataggtgcc tcactgatta agcattggta actgtcagac caagtttact 2940 catatatact ttagattgat ttaaaacttc atttttaatt taaaaggatc taggtgaaga 3000 tcctttttga taatctcatg accaaaatcc cttaacgtga gttttcgttc cactgagcgt 3060 cagaccccgt agaaaagatc aaaggatctt cttgagatcc tttttttctg cgcgtaatct 3120 gctgcttgca aacaaaaaaa ccaccgctac cagcggtggt ttgtttgccg gatcaagagc 3180 taccaactct ttttccgaag gtaactggct tcagcagagc gcagatacca aatactgttc 3240 ttctagtgta gccgtagtta ggccaccact tcaagaactc tgtagcaccg cctacatacc 3300 tcgctctgct aatcctgtta ccagtggctg ctgccagtgg cgataagtcg tgtcttaccg 3360 ggttggactc aagacgatag ttaccggata aggcgcagcg gtcgggctga acggggggtt 3420 cgtgcacaca gcccagcttg gagcgaacga cctacaccga actgagatac ctacagcgtg 3480 agctatgaga aagcgccacg cttcccgaag ggagaaaggc ggacaggtat ccggtaagcg 3540 gcagggtcgg aacaggagag cgcacgaggg agcttccagg gggaaacgcc tggtatcttt 3600 atagtcctgt cgggtttcgc cacctctgac ttgagcgtcg atttttgtga tgctcgtcag 3660 gggggcggag cctatggaaa aacgccagca acgcggcctt tttacggttc ctggcctttt 3720 gctggccttt tgctcacatg ttctttcctg cgttatcccc tgattctgtg gataaccgta 3780 ttaccgcctt tgagtgagct gataccgctc gccgcagccg aacgaccgag cgcagcgagt 3840 cagtgagcga ggaagcggag aa 3862 <210> 53 <211> 5520 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of pASK37-MP-PA#1d/1c/1b(600) <400> 53 acccgacacc atcgaatggc gcaaaacctt tcgcggtatg gcatgatagc gcccggaaga 60 gagtcaattc agggtggtga atgtgaaacc agtaacgtta tacgatgtcg cagagtatgc 120 cggtgtctct tatcagaccg tttcccgcgt ggtgaaccag gccagccacg tttctgcgaa 180 aacgcgggaa aaagtggaag cggcgatggc ggagctgaat tacattccca accgcgtggc 240 acaacaactg gcgggcaaac agtcgttgct gattggcgtt gccacctcca gtctggccct 300 gcacgcgccg tcgcaaattg tcgcggcgat taaatctcgc gccgatcaac tgggtgccag 360 cgtggtggtg tcgatggtag aacgaagcgg cgtcgaagcc tgtaaagcgg cggtgcacaa 420 tcttctcgcg caacgcgtca gtgggctgat cattaactat ccgctggatg accaggatgc 480 cattgctgtg gaagctgcct gcactaatgt tccggcgtta tttcttgatg tctctgacca 540 gacacccatc aacagtatta ttttctccca tgaagacggt acgcgactgg gcgtggagca 600 tctggtcgca ttgggtcacc agcaaatcgc gctgttagcg ggcccattaa gttctgtctc 660 ggcgcgtctg cgtctggctg gctggcataa atatctcact cgcaatcaaa ttcagccgat 720 agcggaacgg gaaggcgact ggagtgccat gtccggtttt caacaaacca tgcaaatgct 780 gaatgagggc atcgttccca ctgcgatgct ggttgccaac gatcagatgg cgctgggcgc 840 aatgcgcgcc attaccgagt ccgggctgcg cgttggtgcg gatatctcgg tagtgggata 900 cgacgatacc gaagacagct catgttatat cccgccgtta accaccatca aacaggattt 960 tcgcctgctg gggcaaacca gcgtggaccg cttgctgcaa ctctctcagg gccaggcggt 1020 gaagggcaat cagctgttgc ccgtctcact ggtgaaaaga aaaaccaccc tggcgcccaa 1080 tacgcaaacc gcctctcccc gcgcgttggc cgattcatta atgcagctgg cacgacaggt 1140 ttcccgactg gaaagcgggc agtgagcgca acgcaattaa tgtgagttag ctcactcatt 1200 aggcacccca ggctttacac tttatgcttc cggctcgtat aatgtgtgga attgtgagcg 1260 gataacaatt tcacacagga aacagctatg accatgatta cggattcact ggaactctag 1320 aaataatttt gtttaacttt aagaaggaga tatacatatg ccagccgctc ctgctgcccc 1380 tgctcccgct gcccccgccg cccccgcccc agctgccccc gctgccgcac ctgctgcccc 1440 agctcccgct gccccagccg cgccggcccc cgcagctcca gccgcggcac cagctgcccc 1500 agctccagcg gcgcctgctg ccccggcccc cgcggcaccg gctgccgcgc ccgcagctcc 1560 agcgcctgct gcaccggctg ctccggcacc cgccgcgcca gcagctgccc ctgcggcacc 1620 agctcctgct gcccccgcgg cacctgcacc cgctgccccg gcggcagctc ccgccgcgcc 1680 agcccctgca gctcctgctg cacctgctcc tgccgcccct gctgctgccc ctgctgctcc 1740 agcccctgca gcaccggccg ctccagctcc tgccgctcct gccgctgcgc ccgctgctcc 1800 agccccagct gcgccagcag ctcctgcacc tgctgcccct gccgccgccc ctgcggctcc 1860 agcacctgct gcaccggccg ccccggcgcc cgctgccccc gcagcagccc cagccgcacc 1920 cgctccagca gctcccgcag ccccagcacc cgcagcacca gccgccgcgc cagcggcccc 1980 ggcccctgcc gcgcccgctg ctcccgcccc tgctgcccca gccgccgctc ctgcggcacc 2040 tgcgcccgcc gcgccggcag cgccggcacc ggcagctccg gcggccgcgc ctgcagctcc 2100 tgcaccggcg gctccagcag ccccggcgcc ggccgcacct gcggcggcgc ccgcggcgcc 2160 tgcacccgca gcgcctgcgg caccggcccc agcagcccct gccgccgcac cggctgcgcc 2220 tgccccagcg gcccccgctg ccccggcccc ggcggctcca gccgcagcgc ctgccgcccc 2280 agcgcccgca gcaccggcgg caccagctcc ggcggcgccg gcggcggctc cggcagctcc 2340 ggcccctgct gcgccggctg cgccggctcc ggcggcccct gcggcggctc cggccgcacc 2400 tgcacctgcc gcgccggctg ctccggcccc ggctgcccca gcagcggcac cagcagcgcc 2460 tgctcctgcg gcgcctgcag ctccggcgcc ggcagccccg gccgccgcac ccgcggctcc 2520 agcccccgcc gctccagcag cccccgcgcc agctgcacct gctgccgcac cggctgcccc 2580 agcccctgcc gcaccagcag ctcccgcccc tgcagccccc gccgccgctc cggccgcacc 2640 agccccggct gcccctgctg cccccgcccc ggcagcaccc gctgcagcac cagccgcgcc 2700 tgcaccggca gctcctgcag ccccggcacc ggcagcacct gccgcagcac ccgcagcccc 2760 agccccagca gcgcctgccg ctccagcacc agcggcaccg gccgccgcac cagccgcccc 2820 agcaccggca gcccccgcag cgccggcacc agccgctcca gccgccgccc cagcagcccc 2880 ggctccggcc gctcccgcgg ctccagcacc agcagctcca gcggccgctc cggcagcgcc 2940 ggccccagca gcacctgcag cccctgcacc agcagcgcca gccgcggcgc ccgcagctcc 3000 cgcacctgcg gctcccgcag cccctgcacc cgcggcgcca gcagccgccc ctgcagcgcc 3060 agctcctgca gcacctgcag ctccagcccc ggccgcccca gctgcagctc ctgcggcccc 3120 agcacctgcc gcccctgccg caccggctcc agccgcccca gccgcctaag cttgacctgt 3180 gaagtgaaaa atggcgcaca ttgtgcgaca ttttttttgt ctgccgttta ccgctactgc 3240 gtcacggatc cccacgcgcc ctgtagcggc gcattaagcg cggcgggtgt ggtggttacg 3300 cgcagcgtga ccgctacact tgccagcgcc ctagcgcccg ctcctttcgc tttcttccct 3360 tcctttctcg ccacgttcgc cggctttccc cgtcaagctc taaatcgggg catcccttta 3420 gggttccgat ttagtgcttt acggcacctc gaccccaaaa aacttgatta gggtgatggt 3480 tcacgtagtg ggccatcgcc ctgatagacg gtttttcgcc ctttgacgtt ggagtccacg 3540 ttctttaata gtggactctt gttccaaact ggaacaacac tcaaccctat ctcggtctat 3600 tcttttgatt tataagggat tttgccgatt tcggcctatt ggttaaaaaa tgagctgatt 3660 taacaaaaat ttaacgcgaa ttttaacaaa atattaacgt ttacaatttc aggtggcact 3720 tttcggggaa atgtgcgcgg aacccctatt tgtttatttt tctaaataca ttcaaatatg 3780 tatccgctca tgagacaata accctgataa atgcttcaat aatattgaaa aaggaagagt 3840 atgagtattc aacatttccg tgtcgccctt attccctttt ttgcggcatt ttgccttcct 3900 gtttttgctc acccagaaac gctggtgaaa gtaaaagatg ctgaagatca gttgggtgca 3960 cgagtgggtt acatcgaact ggatctcaac agcggtaaga tccttgagag ttttcgcccc 4020 gaagaacgtt ttccaatgat gagcactttt aaagttctgc tatgtggcgc ggtattatcc 4080 cgtattgacg ccgggcaaga gcaactcggt cgccgcatac actattctca gaatgacttg 4140 gttgagtact caccagtcac agaaaagcat cttacggatg gcatgacagt aagagaatta 4200 tgcagtgctg ccataaccat gagtgataac actgcggcca acttacttct gacaacgatc 4260 ggaggaccga aggagctaac cgcttttttg cacaacatgg gggatcatgt aactcgcctt 4320 gatcgttggg aaccggagct gaatgaagcc ataccaaacg acgagcgtga caccacgatg 4380 cctgtagcaa tggcaacaac gttgcgcaaa ctattaactg gcgaactact tactctagct 4440 tcccggcaac aattaataga ctggatggag gcggataaag ttgcaggacc acttctgcgc 4500 tcggcccttc cggctggctg gtttattgct gataaatctg gagccggtga gcgtgggtct 4560 cgcggtatca ttgcagcact ggggccagat ggtaagccct cccgtatcgt agttatctac 4620 acgacgggga gtcaggcaac tatggatgaa cgaaatagac agatcgctga gataggtgcc 4680 tcactgatta agcattggta actgtcagac caagtttact catatatact ttagattgat 4740 ttaaaacttc atttttaatt taaaaggatc taggtgaaga tcctttttga taatctcatg 4800 accaaaatcc cttaacgtga gttttcgttc cactgagcgt cagaccccgt agaaaagatc 4860 aaaggatctt cttgagatcc tttttttctg cgcgtaatct gctgcttgca aacaaaaaaa 4920 ccaccgctac cagcggtggt ttgtttgccg gatcaagagc taccaactct ttttccgaag 4980 gtaactggct tcagcagagc gcagatacca aatactgtcc ttctagtgta gccgtagtta 5040 ggccaccact tcaagaactc tgtagcaccg cctacatacc tcgctctgct aatcctgtta 5100 ccagtggctg ctgccagtgg cgataagtcg tgtcttaccg ggttggactc aagacgatag 5160 ttaccggata aggcgcagcg gtcgggctga acggggggtt cgtgcacaca gcccagcttg 5220 gagcgaacga cctacaccga actgagatac ctacagcgtg agctatgaga aagcgccacg 5280 cttcccgaag ggagaaaggc ggacaggtat ccggtaagcg gcagggtcgg aacaggagag 5340 cgcacgaggg agcttccagg gggaaacgcc tggtatcttt atagtcctgt cgggtttcgc 5400 cacctctgac ttgagcgtcg atttttgtga tgctcgtcag gggggcggag cctatggaaa 5460 aacgccagca acgcggcctt tttacggttc ctggcctttt gctggccttt tgctcacatg 5520 5520 <210> 54 <211> 3262 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of pXL2-PA#1b(200) <400> 54 gcgcccaata cgcaaaccgc ctctccccgc gcgttggccg attcattaat gcagctggca 60 cgacaggttt cccgactgga aagcgggcag tgagcgcaac gcaattaatg tgagttagct 120 cactcattag gcaccccagg ctttacactt tatgcttccg gctcgtatgt tgtgtggaat 180 tgtgagcgga taacaatttc acacaggaaa cagctatgac catgattacg ccaagcttgg 240 ctcttctgcc gctcctgctg cccctgctcc cgctgccccc gccgcccccg ccccagctgc 300 ccccgctgcc gcacctgctg ccccagctcc cgctgcccca gccgcgccgg cccccgcagc 360 tccagccgcg gcaccagctg ccccagctcc agcggcgcct gctgccccgg cccccgcggc 420 accggctgcc gcgcccgcag ctccagcgcc tgctgcaccg gctgctccgg cacccgccgc 480 gccagcagct gcccctgcgg caccagctcc tgctgccccc gcggcacctg cacccgctgc 540 cccggcggca gctcccgccg cgccagcccc tgcagctcct gctgcacctg ctcctgccgc 600 ccctgctgct gcccctgctg ctccagcccc tgcagcaccg gccgctccag ctcctgccgc 660 tcctgccgct gcgcccgctg ctccagcccc agctgcgcca gcagctcctg cacctgctgc 720 ccctgccgcc gcccctgcgg ctccagcacc tgctgcaccg gccgccccgg cgcccgctgc 780 ccccgcagca gccccagccg cacccgctcc agcagctccc gcagccccag cacccgcagc 840 accagccgcc agaagagtag aattcactgg ccgtcgtttt acaacgtcgt gactgggaaa 900 accctggcgt tacccaactt aatcgccttg cagcacatcc ccctttcgcc agctggcgta 960 atagcgagga ggcccgcacc gatcgccctt cccaacagtt gcgcagcctg aatggcgaat 1020 ggcgcctgat gcggtatttt ctccttacgc atctgtgcgg tatttcacac cgcatatggt 1080 gcactctcag tacaatctgc tctgatgccg catagttaag ccagccccga cacccgccaa 1140 cacccgctga cgcgccctga cgggcttgtc tgctcccggc atccgcttac agacaagctg 1200 tgaccgtctc cgggagctgc atgtgtcaga ggttttcacc gtcatcaccg aaacgcgcga 1260 gacgaaaggg cctcgtgata cgcctatttt tataggttaa tgtcatgata ataatggttt 1320 cttagacgtc aggtggcact tttcggggaa atgtgcgcgg aacccctatt tgtttatttt 1380 tctaaataca ttcaaatatg tatccgctca tgagacaata accctgataa atgcttcaat 1440 aatattgaaa aaggacgagt atgagtattc aacatttccg tgtcgccctt attccctttt 1500 ttgcggcatt ttgccttcct gtttttgctc acccagaaac gctggtgaaa gtaaaagatg 1560 ctgaagatca gttgggtgca cgagtgggtt acatcgaact ggatctcaac agcggtaaga 1620 tccttgagag ttttcgcccc gaagaacgtt ttccaatgat gagcactttt aaagttctgc 1680 tatgtggcgc ggtattatcc cgtattgacg ccgggcaaga gcaactcggt cgccgcatac 1740 actattctca gaatgacttg gttgagtact caccagtcac agaaaagcat cttacggatg 1800 gcatgacagt aagagaatta tgcagtgctg ccataaccat gagtgataac actgcggcca 1860 acttacttct gacaacgatc ggaggaccga aggagctaac cgcttttttg cacaacatgg 1920 gggatcatgt aactcgcctt gatcgttggg aaccggagct gaatgaagcc ataccaaacg 1980 acgagcgtga caccacgatg cctgtagcaa tggcaacaac gttgcgcaaa ctattaactg 2040 gcgaactact tactctagct tcccggcaac aattaataga ctggatggag gcggataaag 2100 ttgcaggacc acttctgcgc tcggcccttc cggctggctg gtttattgct gataaatctg 2160 gagccggtga gcgtgggtct cgcggtatca ttgcagcact ggggccagat ggtaagccct 2220 cccgtatcgt agttatctac acgacgggga gtcaggcaac tatggatgaa cgaaatagac 2280 agatcgctga gataggtgcc tcactgatta agcattggta actgtcagac caagtttact 2340 catatatact ttagattgat ttaaaacttc atttttaatt taaaaggatc taggtgaaga 2400 tcctttttga taatctcatg accaaaatcc cttaacgtga gttttcgttc cactgagcgt 2460 cagaccccgt agaaaagatc aaaggatctt cttgagatcc tttttttctg cgcgtaatct 2520 gctgcttgca aacaaaaaaa ccaccgctac cagcggtggt ttgtttgccg gatcaagagc 2580 taccaactct ttttccgaag gtaactggct tcagcagagc gcagatacca aatactgttc 2640 ttctagtgta gccgtagtta ggccaccact tcaagaactc tgtagcaccg cctacatacc 2700 tcgctctgct aatcctgtta ccagtggctg ctgccagtgg cgataagtcg tgtcttaccg 2760 ggttggactc aagacgatag ttaccggata aggcgcagcg gtcgggctga acggggggtt 2820 cgtgcacaca gcccagcttg gagcgaacga cctacaccga actgagatac ctacagcgtg 2880 agctatgaga aagcgccacg cttcccgaag ggagaaaggc ggacaggtat ccggtaagcg 2940 gcagggtcgg aacaggagag cgcacgaggg agcttccagg gggaaacgcc tggtatcttt 3000 atagtcctgt cgggtttcgc cacctctgac ttgagcgtcg atttttgtga tgctcgtcag 3060 gggggcggag cctatggaaa aacgccagca acgcggcctt tttacggttc ctggcctttt 3120 gctggccttt tgctcacatg ttctttcctg cgttatcccc tgattctgtg gataaccgta 3180 ttaccgcctt tgagtgagct gataccgctc gccgcagccg aacgaccgag cgcagcgagt 3240 cagtgagcga ggaagcggag aa 3262 <210> 55 <211> 2662 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of plasmid pXL1 <400> 55 gcgcccaata cgcaaaccgc ctctccccgc gcgttggccg attcattaat gcagctggca 60 cgacaggttt cccgactgga aagcgggcag tgagcgcaac gcaattaatg tgagttagct 120 cactcattag gcaccccagg ctttacactt tatgcttccg gctcgtatgt tgtgtggaat 180 tgtgagcgga taacaatttc acacaggaaa cagctatgac catgattacg ccaagcttgg 240 ctcttcaggc agaagagcag aattcactgg ccgtcgtttt acaacgtcgt gactgggaaa 300 accctggcgt tacccaactt aatcgccttg cagcacatcc ccctttcgcc agctggcgta 360 atagcgaaga ggcccgcacc gatcgccctt cccaacagtt gcgcagcctg aatggcgaat 420 ggcgcctgat gcggtatttt ctccttacgc atctgtgcgg tatttcacac cgcatatggt 480 gcactctcag tacaatctgc tctgatgccg catagttaag ccagccccga cacccgccaa 540 cacccgctga cgcgccctga cgggcttgtc tgctcccggc atccgcttac agacaagctg 600 tgaccgtctc cgggagctgc atgtgtcaga ggttttcacc gtcatcaccg aaacgcgcga 660 gacgaaaggg cctcgtgata cgcctatttt tataggttaa tgtcatgata ataatggttt 720 cttagacgtc aggtggcact tttcggggaa atgtgcgcgg aacccctatt tgtttatttt 780 tctaaataca ttcaaatatg tatccgctca tgagacaata accctgataa atgcttcaat 840 aatattgaaa aaggaagagt atgagtattc aacatttccg tgtcgccctt attccctttt 900 ttgcggcatt ttgccttcct gtttttgctc acccagaaac gctggtgaaa gtaaaagatg 960 ctgaagatca gttgggtgca cgagtgggtt acatcgaact ggatctcaac agcggtaaga 1020 tccttgagag ttttcgcccc gaagaacgtt ttccaatgat gagcactttt aaagttctgc 1080 tatgtggcgc ggtattatcc cgtattgacg ccgggcaaga gcaactcggt cgccgcatac 1140 actattctca gaatgacttg gttgagtact caccagtcac agaaaagcat cttacggatg 1200 gcatgacagt aagagaatta tgcagtgctg ccataaccat gagtgataac actgcggcca 1260 acttacttct gacaacgatc ggaggaccga aggagctaac cgcttttttg cacaacatgg 1320 gggatcatgt aactcgcctt gatcgttggg aaccggagct gaatgaagcc ataccaaacg 1380 acgagcgtga caccacgatg cctgtagcaa tggcaacaac gttgcgcaaa ctattaactg 1440 gcgaactact tactctagct tcccggcaac aattaataga ctggatggag gcggataaag 1500 ttgcaggacc acttctgcgc tcggcccttc cggctggctg gtttattgct gataaatctg 1560 gagccggtga gcgtgggtct cgcggtatca ttgcagcact ggggccagat ggtaagccct 1620 cccgtatcgt agttatctac acgacgggga gtcaggcaac tatggatgaa cgaaatagac 1680 agatcgctga gataggtgcc tcactgatta agcattggta actgtcagac caagtttact 1740 catatatact ttagattgat ttaaaacttc atttttaatt taaaaggatc taggtgaaga 1800 tcctttttga taatctcatg accaaaatcc cttaacgtga gttttcgttc cactgagcgt 1860 cagaccccgt agaaaagatc aaaggatctt cttgagatcc tttttttctg cgcgtaatct 1920 gctgcttgca aacaaaaaaa ccaccgctac cagcggtggt ttgtttgccg gatcaagagc 1980 taccaactct ttttccgaag gtaactggct tcagcagagc gcagatacca aatactgttc 2040 ttctagtgta gccgtagtta ggccaccact tcaagaactc tgtagcaccg cctacatacc 2100 tcgctctgct aatcctgtta ccagtggctg ctgccagtgg cgataagtcg tgtcttaccg 2160 ggttggactc aagacgatag ttaccggata aggcgcagcg gtcgggctga acggggggtt 2220 cgtgcacaca gcccagcttg gagcgaacga cctacaccga actgagatac ctacagcgtg 2280 agctatgaga aagcgccacg cttcccgaag ggagaaaggc ggacaggtat ccggtaagcg 2340 gcagggtcgg aacaggagag cgcacgaggg agcttccagg gggaaacgcc tggtatcttt 2400 atagtcctgt cgggtttcgc cacctctgac ttgagcgtcg atttttgtga tgctcgtcag 2460 gggggcggag cctatggaaa aacgccagca acgcggcctt tttacggttc ctggcctttt 2520 gctggccttt tgctcacatg ttctttcctg cgttatcccc tgattctgtg gataaccgta 2580 ttaccgcctt tgagtgagct gataccgctc gccgcagccg aacgaccgag cgcagcgagt 2640 cagtgagcga ggaagcggag aa 2662 <210> 56 <211> 4240 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of pASK75-PA#1b(200)-IL1RA encoding the proline/alanine-rich sequence PA#1 seamless fused with IL1Ra <400> 56 acccgacacc atcgaatggc cagatgatta attcctaatt tttgttgaca ctctatcatt 60 gatagagtta ttttaccact ccctatcagt gatagagaaa agtgaaatga atagttcgac 120 aaaaatctag ataacgaggg caaaaaatga aaaagacagc tatcgcgatt gcagtggcac 180 tggctggttt cgctaccgta gcgcaggccg ccgccgctcc tgctgcccct gctcccgctg 240 cccccgccgc ccccgcccca gctgcccccg ctgccgcacc tgctgcccca gctcccgctg 300 ccccagccgc gccggccccc gcagctccag ccgcggcacc agctgcccca gctccagcgg 360 cgcctgctgc cccggccccc gcggcaccgg ctgccgcgcc cgcagctcca gcgcctgctg 420 caccggctgc tccggcaccc gccgcgccag cagctgcccc tgcggcacca gctcctgctg 480 cccccgcggc acctgcaccc gctgccccgg cggcagctcc cgccgcgcca gcccctgcag 540 ctcctgctgc acctgctcct gccgcccctg ctgctgcccc tgctgctcca gcccctgcag 600 caccggccgc tccagctcct gccgctcctg ccgctgcgcc cgctgctcca gccccagctg 660 cgccagcagc tcctgcacct gctgcccctg ccgccgcccc tgcggctcca gcacctgctg 720 caccggccgc cccggcgccc gctgcccccg cagcagcccc agccgcaccc gctccagcag 780 ctcccgcagc cccagcaccc gcagcaccag ccgcccgacc ctctgggaga aaatccagca 840 agatgcaagc cttcagaatc tgggatgtta accagaagac cttctatctg aggaacaacc 900 aactagttgc cggatacttg caaggaccaa atgtcaattt agaagaaaag atagatgtgg 960 tacccattga gcctcatgct ctgttcttgg gaatccatgg agggaagatg tgcctgtcct 1020 gtgtcaagtc tggtgatgag accagactcc agctggaggc agttaacatc actgacctga 1080 gcgagaacag aaagcaggac aagcgcttcg ccttcatccg ctcagacagt ggccccacca 1140 ccagttttga gtctgccgcc tgccccggtt ggttcctctg cacagcgatg gaagctgacc 1200 agcccgtcag cctcaccaat atgcctgacg aaggcgtcat ggtcaccaaa ttctacttcc 1260 aggaggacga gtaagcttga cctgtgaagt gaaaaatggc gcacattgtg cgacattttt 1320 tttgtctgcc gtttaccgct actgcgtcac ggatctccac gcgccctgta gcggcgcatt 1380 aagcgcggcg ggtgtggtgg ttacgcgcag cgtgaccgct acacttgcca gcgccctagc 1440 gcccgctcct ttcgctttct tcccttcctt tctcgccacg ttcgccggct ttccccgtca 1500 agctctaaat cgggggctcc ctttagggtt ccgatttagt gctttacggc acctcgaccc 1560 caaaaaactt gattagggtg atggttcacg tagtgggcca tcgccctgat agacggtttt 1620 tcgccctttg acgttggagt ccacgttctt taatagtgga ctcttgttcc aaactggaac 1680 aacactcaac cctatctcgg tctattcttt tgatttataa gggattttgc cgatttcggc 1740 ctattggtta aaaaatgagc tgatttaaca aaaatttaac gcgaatttta acaaaatatt 1800 aacgtttaca atttcaggtg gcacttttcg gggaaatgtg cgcggaaccc ctatttgttt 1860 atttttctaa atacattcaa atatgtatcc gctcatgaga caataaccct gataaatgct 1920 tcaataatat tgaaaaagga agagtatgag tattcaacat ttccgtgtcg cccttattcc 1980 cttttttgcg gcattttgcc ttcctgtttt tgctcaccca gaaacgctgg tgaaagtaaa 2040 agatgctgaa gatcagttgg gtgcacgagt gggttacatc gaactggatc tcaacagcgg 2100 taagatcctt gagagttttc gccccgaaga acgttttcca atgatgagca cttttaaagt 2160 tctgctatgt ggcgcggtat tatcccgtat tgacgccggg caagagcaac tcggtcgccg 2220 catacactat tctcagaatg acttggttga gtactcacca gtcacagaaa agcatcttac 2280 ggatggcatg acagtaagag aattatgcag tgctgccata accatgagtg ataacactgc 2340 ggccaactta cttctgacaa cgatcggagg accgaaggag ctaaccgctt ttttgcacaa 2400 catgggggat catgtaactc gccttgatcg ttgggaaccg gagctgaatg aagccatacc 2460 aaacgacgag cgtgacacca cgatgcctgt agcaatggca acaacgttgc gcaaactatt 2520 aactggcgaa ctacttactc tagcttcccg gcaacaattg atagactgga tggaggcgga 2580 taaagttgca ggaccacttc tgcgctcggc ccttccggct ggctggttta ttgctgataa 2640 atctggagcc ggtgagcgtg gctctcgcgg tatcattgca gcactggggc cagatggtaa 2700 gccctcccgt atcgtagtta tctacacgac ggggagtcag gcaactatgg atgaacgaaa 2760 tagacagatc gctgagatag gtgcctcact gattaagcat tggtaggaat taatgatgtc 2820 tcgtttagat aaaagtaaag tgattaacag cgcattagag ctgcttaatg aggtcggaat 2880 cgaaggttta acaacccgta aactcgccca gaagctaggt gtagagcagc ctacattgta 2940 ttggcatgta aaaaataagc gggctttgct cgacgcctta gccattgaga tgttagatag 3000 gcaccatact cacttttgcc ctttagaagg ggaaagctgg caagattttt tacgtaataa 3060 cgctaaaagt tttagatgtg ctttactaag tcatcgcgat ggagcaaaag tacatttagg 3120 tacacggcct acagaaaaac agtatgaaac tctcgaaaat caattagcct ttttatgcca 3180 acaaggtttt tcactagaga atgcattata tgcactcagc gcagtggggc attttacttt 3240 aggttgcgta ttggaagatc aagagcatca agtcgctaaa gaagaaaggg aaacacctac 3300 tactgatagt atgccgccat tattacgaca agctatcgaa ttatttgatc accaaggtgc 3360 agagccagcc ttcttattcg gccttgaatt gatcatatgc ggattagaaa aacaacttaa 3420 atgtgaaagt gggtcttaaa agcagcataa cctttttccg tgatggtaac ttcactagtt 3480 taaaaggatc taggtgaaga tcctttttga taatctcatg accaaaatcc cttaacgtga 3540 gttttcgttc cactgagcgt cagaccccgt agaaaagatc aaaggatctt cttgagatcc 3600 tttttttctg cgcgtaatct gctgcttgca aacaaaaaaa ccaccgctac cagcggtggt 3660 ttgtttgccg gatcaagagc taccaactct ttttccgaag gtaactggct tcagcagagc 3720 gcagatacca aatactgtcc ttctagtgta gccgtagtta ggccaccact tcaagaactc 3780 tgtagcaccg cctacatacc tcgctctgct aatcctgtta ccagtggctg ctgccagtgg 3840 cgataagtcg tgtcttaccg ggttggactc aagacgatag ttaccggata aggcgcagcg 3900 gtcgggctga acggggggtt cgtgcacaca gcccagcttg gagcgaacga cctacaccga 3960 actgagatac ctacagcgtg agctatgaga aagcgccacg cttcccgaag ggagaaaggc 4020 ggacaggtat ccggtaagcg gcagggtcgg aacaggagag cgcacgaggg agcttccagg 4080 gggaaacgcc tggtatcttt atagtcctgt cgggtttcgc cacctctgac ttgagcgtcg 4140 atttttgtga tgctcgtcag gggggcggag cctatggaaa aacgccagca acgcggcctt 4200 tttacggttc ctggcctttt gctggccttt tgctcacatg 4240 <210> 57 <211> 20 <212> PRT <213> Artificial Sequence <220> <223> Amino acid sequence of a PA#3 <400> 57 Ala Ala Ala Pro Ala Ala Ala Pro Ala Ala Ala Pro Ala Ala Ala Pro 1 5 10 15 Ala Ala Ala Pro 20 <210> 58 <211> 18 <212> PRT <213> Artificial Sequence <220> <223> Amino acid sequence of a PA#5 <400> 58 Ala Ala Ala Ala Ala Pro Ala Ala Ala Ala Ala Pro Ala Ala Ala Ala 1 5 10 15 Ala Pro <210> 59 <211> 46 <212> DNA <213> Artificial Sequence <220> <223> Upper nucleotide strand depicted in Figure 1C <400> 59 tacgccaagc ttggctcttc tgccagaaga gtagaattca ctggcc 46 <210> 60 <211> 46 <212> DNA <213> Artificial Sequence <220> <223> Lower nucleotide strand depicted in Figure 1C <400> 60 ggccagtgaa ttctactctt ctggcagaag agccaagctt ggcgta 46 <210> 61 <211> 646 <212> DNA <213> Artificial Sequence <220> <223> Upper nucleotide strand depicted in Figure 1D <400> 61 tacgccaagc ttggctcttc tgccagccct gccgcacctg cgcccgcatc acctgcggca 60 cctgcacctt ccgccccggc tgcatctcct gccgcacccg cgcctgccag cccagctgca 120 cctgccccaa gtgcgccagc agcatcccct gccgcgcctg cccccgctag tccagcggcc 180 ccagctccat ctgcaccagc tgctagccct gctgcaccag ctcctgcttc tcccgcagcc 240 ccagcgcctt ctgctcccgc agcctcacct gcggccccgg caccagcatc tccagcggca 300 ccagcacctt cggcccctgc tgctagccca gcagcacctg cgccagcctc accagctgct 360 cccgctccta gtgccccggc ggcctcgcct gctgctcctg caccagcttc gccagcggca 420 ccggctcctt cggcgccggc tgcttcacca gcagcacctg ctccagcgtc cccagcggcc 480 cctgctccaa gtgctccggc tgcatcgcct gccgctcctg ctcctgcatc cccagctgct 540 ccagcaccaa gcgcacctgc cgcctcacca gcggcgccag cacccgccag cccagcagcg 600 cctgctccat ccgcaccggc ggccagaaga gtagaattca ctggcc 646 <210> 62 <211> 646 <212> DNA <213> Artificial Sequence <220> <223> Lower nucleotide strand depicted in Figure 1D <400> 62 ggccagtgaa ttctactctt ctggccgccg gtgcggatgg agcaggcgct gctgggctgg 60 cgggtgctgg cgccgctggt gaggcggcag gtgcgcttgg tgctggagca gctggggatg 120 caggagcagg agcggcaggc gatgcagccg gagcacttgg agcaggggcc gctggggacg 180 ctggagcagg tgctgctggt gaagcagccg gcgccgaagg agccggtgcc gctggcgaag 240 ctggtgcagg agcagcaggc gaggccgccg gggcactagg agcgggagca gctggtgagg 300 ctggcgcagg tgctgctggg ctagcagcag gggccgaagg tgctggtgcc gctggagatg 360 ctggtgccgg ggccgcaggt gaggctgcgg gagcagaagg cgctggggct gcgggagaag 420 caggagctgg tgcagcaggg ctagcagctg gtgcagatgg agctggggcc gctggactag 480 cgggggcagg cgcggcaggg gatgctgctg gcgcacttgg ggcaggtgca gctgggctgg 540 caggcgcggg tgcggcagga gatgcagccg gggcggaagg tgcaggtgcc gcaggtgatg 600 cgggcgcagg tgcggcaggg ctggcagaag agccaagctt ggcgta 646 <210> 63 <211> 201 <212> PRT <213> Artificial Sequence <220> <223> Amino acid sequence depicted in Figure 1D <400> 63 Ala Ser Pro Ala Ala Pro Ala Pro Ala Ser Pro Ala Ala Pro Ala Pro 1 5 10 15 Ser Ala Pro Ala Ala Ser Pro Ala Ala Pro Ala Pro Ala Ser Pro Ala 20 25 30 Ala Pro Ala Pro Ser Ala Pro Ala Ala Ser Pro Ala Ala Pro Ala Pro 35 40 45 Ala Ser Pro Ala Ala Pro Ala Pro Ser Ala Pro Ala Ala Ser Pro Ala 50 55 60 Ala Pro Ala Pro Ala Ser Pro Ala Ala Pro Ala Pro Ser Ala Pro Ala 65 70 75 80 Ala Ser Pro Ala Ala Pro Ala Pro Ala Ser Pro Ala Ala Pro Ala Pro 85 90 95 Ser Ala Pro Ala Ala Ser Pro Ala Ala Pro Ala Pro Ala Ser Pro Ala 100 105 110 Ala Pro Ala Pro Ser Ala Pro Ala Ala Ser Pro Ala Ala Pro Ala Pro 115 120 125 Ala Ser Pro Ala Ala Pro Ala Pro Ser Ala Pro Ala Ala Ser Pro Ala 130 135 140 Ala Pro Ala Pro Ala Ser Pro Ala Ala Pro Ala Pro Ser Ala Pro Ala 145 150 155 160 Ala Ser Pro Ala Ala Pro Ala Pro Ala Ser Pro Ala Ala Pro Ala Pro 165 170 175 Ser Ala Pro Ala Ala Ser Pro Ala Ala Pro Ala Pro Ala Ser Pro Ala 180 185 190 Ala Pro Ala Pro Ser Ala Pro Ala Ala 195 200 <210> 64 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> Nucleic acid section depicted in Figure 6A <400> 64 gccgccagaa gagcgcgctc ttctgcccga 30 <210> 65 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> Nucleic acid section depicted in Figure 6A <400> 65 tcgggcagaa gagcgcgctc ttctggcggc 30 <210> 66 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> Nucleic acid section depicted in Figure 6 <400> 66 gagtaagctt 10 <210> 67 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> Nucleic acid section depicted in Figure 6 <400> 67 aagcttactc 10 <210> 68 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Nucleic acid section of the PA#1b(200) cassette depicted in Figure 6C <400> 68 gccgctcctg ct 12 <210> 69 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Nucleic acid section of the PA#1b(200) cassette depicted in Figure 6C <400> 69 ggcggctggt gc 12 <210> 70 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Nucleic acid section depicted in Figure 6C <400> 70 gccgctcctg ct 12 <210> 71 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Nucleic acid section depicted in Figure 6C <400> 71 agcaggagcg gc 12 <210> 72 <211> 14 <212> DNA <213> Artificial Sequence <220> <223> Nucleic acid section depicted in Figure 6C <400> 72 gcaccaccgc ccga 14 <210> 73 <211> 15 <212> DNA <213> Artificial Sequence <220> <223> Nucleic acid section depicted in Figure 6C <400> 73 tcgggcggct ggtcg 15 <210> 74 <211> 4 <212> PRT <213> Artificial Sequence <220> <223> Amino acid strech depicted in Figure 6C <400> 74 Ala Pro Ala Ala 1 <210> 75 <211> 4 <212> PRT <213> Artificial Sequence <220> <223> Amino acid strech depicted in Figure 6C <400> 75 Ala Ala Pro Ala 1 <210> 76 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> Amino acid strech depicted in Figure 6C <400> 76 Ala Pro Ala Ala Arg 1 5 <210> 77 <211> 5470 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of pASK75-PA#1d/1c/1b(600)-IL1Ra <400> 77 acccgacacc atcgaatggc cagatgatta attcctaatt tttgttgaca ctctatcatt 60 gatagagtta ttttaccact ccctatcagt gatagagaaa agtgaaatga atagttcgac 120 aaaaatctag ataacgaggg caaaaaatga aaaagacagc tatcgcgatt gcagtggcac 180 tggctggttt cgctaccgta gcgcaggccg ctagccatca ccatcaccac catagctctt 240 ctgccgcacc ggctgcccca gcccctgccg caccagcagc tcccgcccct gcagcccccg 300 ccgccgctcc ggccgcacca gccccggctg cccctgctgc ccccgccccg gcagcacccg 360 ctgcagcacc agccgcgcct gcaccggcag ctcctgcagc cccggcaccg gcagcacctg 420 ccgcagcacc cgcagcccca gccccagcag cgcctgccgc tccagcacca gcggcaccgg 480 ccgccgcacc agccgcccca gcaccggcag cccccgcagc gccggcacca gccgctccag 540 ccgccgcccc agcagccccg gctccggccg ctcccgcggc tccagcacca gcagctccag 600 cggccgctcc ggcagcgccg gccccagcag cacctgcagc ccctgcacca gcagcgccag 660 ccgcggcgcc cgcagctccc gcacctgcgg ctcccgcagc ccctgcaccc gcggcgccag 720 cagccgcccc tgcagcgcca gctcctgcag cacctgcagc tccagccccg gccgccccag 780 ctgcagctcc tgcggcccca gcacctgccg cccctgccgc accggctcca gccgccccag 840 ccgccgcgcc agcggccccg gcccctgccg cgcccgctgc tcccgcccct gctgccccag 900 ccgccgctcc tgcggcacct gcgcccgccg cgccggcagc gccggcaccg gcagctccgg 960 cggccgcgcc tgcagctcct gcaccggcgg ctccagcagc cccggcgccg gccgcacctg 1020 cggcggcgcc cgcggcgcct gcacccgcag cgcctgcggc accggcccca gcagcccctg 1080 ccgccgcacc ggctgcgcct gccccagcgg cccccgctgc cccggccccg gcggctccag 1140 ccgcagcgcc tgccgcccca gcgcccgcag caccggcggc accagctccg gcggcgccgg 1200 cggcggctcc ggcagctccg gcccctgctg cgccggctgc gccggctccg gcggcccctg 1260 cggcggctcc ggccgcacct gcacctgccg cgccggctgc tccggccccg gctgccccag 1320 cagcggcacc agcagcgcct gctcctgcgg cgcctgcagc tccggcgccg gcagccccgg 1380 ccgccgcacc cgcggctcca gcccccgccg ctccagcagc ccccgcgcca gctgcacctg 1440 ctgccgctcc tgctgcccct gctcccgctg cccccgccgc ccccgcccca gctgcccccg 1500 ctgccgcacc tgctgcccca gctcccgctg ccccagccgc gccggccccc gcagctccag 1560 ccgcggcacc agctgcccca gctccagcgg cgcctgctgc cccggccccc gcggcaccgg 1620 ctgccgcgcc cgcagctcca gcgcctgctg caccggctgc tccggcaccc gccgcgccag 1680 cagctgcccc tgcggcacca gctcctgctg cccccgcggc acctgcaccc gctgccccgg 1740 cggcagctcc cgccgcgcca gcccctgcag ctcctgctgc acctgctcct gccgcccctg 1800 ctgctgcccc tgctgctcca gcccctgcag caccggccgc tccagctcct gccgctcctg 1860 ccgctgcgcc cgctgctcca gccccagctg cgccagcagc tcctgcacct gctgcccctg 1920 ccgccgcccc tgcggctcca gcacctgctg caccggccgc cccggcgccc gctgcccccg 1980 cagcagcccc agccgcaccc gctccagcag ctcccgcagc cccagcaccc gcagcaccag 2040 ccgcccgacc ctctgggaga aaatccagca agatgcaagc cttcagaatc tgggatgtta 2100 accagaagac cttctatctg aggaacaacc aactagttgc cggatacttg caaggaccaa 2160 atgtcaattt agaagaaaag atagatgtgg tacccattga gcctcatgct ctgttcttgg 2220 gaatccatgg agggaagatg tgcctgtcct gtgtcaagtc tggtgatgag accagactcc 2280 agctggaggc agttaacatc actgacctga gcgagaacag aaagcaggac aagcgcttcg 2340 ccttcatccg ctcagacagt ggccccacca ccagttttga gtctgccgcc tgccccggtt 2400 ggttcctctg cacagcgatg gaagctgacc agcccgtcag cctcaccaat atgcctgacg 2460 aaggcgtcat ggtcaccaaa ttctacttcc aggaggacga gtaagcttga cctgtgaagt 2520 gaaaaatggc gcacattgtg cgacattttt tttgtctgcc gtttaccgct actgcgtcac 2580 ggatctccac gcgccctgta gcggcgcatt aagcgcggcg ggtgtggtgg ttacgcgcag 2640 cgtgaccgct acacttgcca gcgccctagc gcccgctcct ttcgctttct tcccttcctt 2700 tctcgccacg ttcgccggct ttccccgtca agctctaaat cgggggctcc ctttagggtt 2760 ccgatttagt gctttacggc acctcgaccc caaaaaactt gattagggtg atggttcacg 2820 tagtgggcca tcgccctgat agacggtttt tcgccctttg acgttggagt ccacgttctt 2880 taatagtgga ctcttgttcc aaactggaac aacactcaac cctatctcgg tctattcttt 2940 tgatttataa gggattttgc cgatttcggc ctattggtta aaaaatgagc tgatttaaca 3000 aaaatttaac gcgaatttta acaaaatatt aacgtttaca atttcaggtg gcacttttcg 3060 gggaaatgtg cgcggaaccc ctatttgttt atttttctaa atacattcaa atatgtatcc 3120 gctcatgaga caataaccct gataaatgct tcaataatat tgaaaaagga agagtatgag 3180 tattcaacat ttccgtgtcg cccttattcc cttttttgcg gcattttgcc ttcctgtttt 3240 tgctcaccca gaaacgctgg tgaaagtaaa agatgctgaa gatcagttgg gtgcacgagt 3300 gggttacatc gaactggatc tcaacagcgg taagatcctt gagagttttc gccccgaaga 3360 acgttttcca atgatgagca cttttaaagt tctgctatgt ggcgcggtat tatcccgtat 3420 tgacgccggg caagagcaac tcggtcgccg catacactat tctcagaatg acttggttga 3480 gtactcacca gtcacagaaa agcatcttac ggatggcatg acagtaagag aattatgcag 3540 tgctgccata accatgagtg ataacactgc ggccaactta cttctgacaa cgatcggagg 3600 accgaaggag ctaaccgctt ttttgcacaa catgggggat catgtaactc gccttgatcg 3660 ttgggaaccg gagctgaatg aagccatacc aaacgacgag cgtgacacca cgatgcctgt 3720 agcaatggca acaacgttgc gcaaactatt aactggcgaa ctacttactc tagcttcccg 3780 gcaacaattg atagactgga tggaggcgga taaagttgca ggaccacttc tgcgctcggc 3840 ccttccggct ggctggttta ttgctgataa atctggagcc ggtgagcgtg gctctcgcgg 3900 tatcattgca gcactggggc cagatggtaa gccctcccgt atcgtagtta tctacacgac 3960 ggggagtcag gcaactatgg atgaacgaaa tagacagatc gctgagatag gtgcctcact 4020 gattaagcat tggtaggaat taatgatgtc tcgtttagat aaaagtaaag tgattaacag 4080 cgcattagag ctgcttaatg aggtcggaat cgaaggttta acaacccgta aactcgccca 4140 gaagctaggt gtagagcagc ctacattgta ttggcatgta aaaaataagc gggctttgct 4200 cgacgcctta gccattgaga tgttagatag gcaccatact cacttttgcc ctttagaagg 4260 ggaaagctgg caagattttt tacgtaataa cgctaaaagt tttagatgtg ctttactaag 4320 tcatcgcgat ggagcaaaag tacatttagg tacacggcct acagaaaaac agtatgaaac 4380 tctcgaaaat caattagcct ttttatgcca acaaggtttt tcactagaga atgcattata 4440 tgcactcagc gcagtggggc attttacttt aggttgcgta ttggaagatc aagagcatca 4500 agtcgctaaa gaagaaaggg aaacacctac tactgatagt atgccgccat tattacgaca 4560 agctatcgaa ttatttgatc accaaggtgc agagccagcc ttcttattcg gccttgaatt 4620 gatcatatgc ggattagaaa aacaacttaa atgtgaaagt gggtcttaaa agcagcataa 4680 cctttttccg tgatggtaac ttcactagtt taaaaggatc taggtgaaga tcctttttga 4740 taatctcatg accaaaatcc cttaacgtga gttttcgttc cactgagcgt cagaccccgt 4800 agaaaagatc aaaggatctt cttgagatcc tttttttctg cgcgtaatct gctgcttgca 4860 aacaaaaaaa ccaccgctac cagcggtggt ttgtttgccg gatcaagagc taccaactct 4920 ttttccgaag gtaactggct tcagcagagc gcagatacca aatactgtcc ttctagtgta 4980 gccgtagtta ggccaccact tcaagaactc tgtagcaccg cctacatacc tcgctctgct 5040 aatcctgtta ccagtggctg ctgccagtgg cgataagtcg tgtcttaccg ggttggactc 5100 aagacgatag ttaccggata aggcgcagcg gtcgggctga acggggggtt cgtgcacaca 5160 gcccagcttg gagcgaacga cctacaccga actgagatac ctacagcgtg agctatgaga 5220 aagcgccacg cttcccgaag ggagaaaggc ggacaggtat ccggtaagcg gcagggtcgg 5280 aacaggagag cgcacgaggg agcttccagg gggaaacgcc tggtatcttt atagtcctgt 5340 cgggtttcgc cacctctgac ttgagcgtcg atttttgtga tgctcgtcag gggggcggag 5400 cctatggaaa aacgccagca acgcggcctt tttacggttc ctggcctttt gctggccttt 5460 tgctcacatg 5470 <210> 78 <211> 5470 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of pASK75-PA#1a(600)-IL1Ra <400> 78 acccgacacc atcgaatggc cagatgatta attcctaatt tttgttgaca ctctatcatt 60 gatagagtta ttttaccact ccctatcagt gatagagaaa agtgaaatga atagttcgac 120 aaaaatctag ataacgaggg caaaaaatga aaaagacagc tatcgcgatt gcagtggcac 180 tggctggttt cgctaccgta gcgcaggccg ctagccatca ccatcaccac catagctctt 240 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 300 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 360 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 420 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 480 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 540 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 600 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 660 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 720 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 780 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 840 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 900 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 960 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 1020 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 1080 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 1140 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 1200 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 1260 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 1320 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 1380 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 1440 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 1500 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 1560 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 1620 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 1680 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 1740 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 1800 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 1860 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 1920 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 1980 ctgccgctcc agctgcacct gctccagcag cacctgctgc accagctccg gctgctcctg 2040 ctgcccgacc ctctgggaga aaatccagca agatgcaagc cttcagaatc tgggatgtta 2100 accagaagac cttctatctg aggaacaacc aactagttgc cggatacttg caaggaccaa 2160 atgtcaattt agaagaaaag atagatgtgg tacccattga gcctcatgct ctgttcttgg 2220 gaatccatgg agggaagatg tgcctgtcct gtgtcaagtc tggtgatgag accagactcc 2280 agctggaggc agttaacatc actgacctga gcgagaacag aaagcaggac aagcgcttcg 2340 ccttcatccg ctcagacagt ggccccacca ccagttttga gtctgccgcc tgccccggtt 2400 ggttcctctg cacagcgatg gaagctgacc agcccgtcag cctcaccaat atgcctgacg 2460 aaggcgtcat ggtcaccaaa ttctacttcc aggaggacga gtaagcttga cctgtgaagt 2520 gaaaaatggc gcacattgtg cgacattttt tttgtctgcc gtttaccgct actgcgtcac 2580 ggatctccac gcgccctgta gcggcgcatt aagcgcggcg ggtgtggtgg ttacgcgcag 2640 cgtgaccgct acacttgcca gcgccctagc gcccgctcct ttcgctttct tcccttcctt 2700 tctcgccacg ttcgccggct ttccccgtca agctctaaat cgggggctcc ctttagggtt 2760 ccgatttagt gctttacggc acctcgaccc caaaaaactt gattagggtg atggttcacg 2820 tagtgggcca tcgccctgat agacggtttt tcgccctttg acgttggagt ccacgttctt 2880 taatagtgga ctcttgttcc aaactggaac aacactcaac cctatctcgg tctattcttt 2940 tgatttataa gggattttgc cgatttcggc ctattggtta aaaaatgagc tgatttaaca 3000 aaaatttaac gcgaatttta acaaaatatt aacgtttaca atttcaggtg gcacttttcg 3060 gggaaatgtg cgcggaaccc ctatttgttt atttttctaa atacattcaa atatgtatcc 3120 gctcatgaga caataaccct gataaatgct tcaataatat tgaaaaagga agagtatgag 3180 tattcaacat ttccgtgtcg cccttattcc cttttttgcg gcattttgcc ttcctgtttt 3240 tgctcaccca gaaacgctgg tgaaagtaaa agatgctgaa gatcagttgg gtgcacgagt 3300 gggttacatc gaactggatc tcaacagcgg taagatcctt gagagttttc gccccgaaga 3360 acgttttcca atgatgagca cttttaaagt tctgctatgt ggcgcggtat tatcccgtat 3420 tgacgccggg caagagcaac tcggtcgccg catacactat tctcagaatg acttggttga 3480 gtactcacca gtcacagaaa agcatcttac ggatggcatg acagtaagag aattatgcag 3540 tgctgccata accatgagtg ataacactgc ggccaactta cttctgacaa cgatcggagg 3600 accgaaggag ctaaccgctt ttttgcacaa catgggggat catgtaactc gccttgatcg 3660 ttgggaaccg gagctgaatg aagccatacc aaacgacgag cgtgacacca cgatgcctgt 3720 agcaatggca acaacgttgc gcaaactatt aactggcgaa ctacttactc tagcttcccg 3780 gcaacaattg atagactgga tggaggcgga taaagttgca ggaccacttc tgcgctcggc 3840 ccttccggct ggctggttta ttgctgataa atctggagcc ggtgagcgtg gctctcgcgg 3900 tatcattgca gcactggggc cagatggtaa gccctcccgt atcgtagtta tctacacgac 3960 ggggagtcag gcaactatgg atgaacgaaa tagacagatc gctgagatag gtgcctcact 4020 gattaagcat tggtaggaat taatgatgtc tcgtttagat aaaagtaaag tgattaacag 4080 cgcattagag ctgcttaatg aggtcggaat cgaaggttta acaacccgta aactcgccca 4140 gaagctaggt gtagagcagc ctacattgta ttggcatgta aaaaataagc gggctttgct 4200 cgacgcctta gccattgaga tgttagatag gcaccatact cacttttgcc ctttagaagg 4260 ggaaagctgg caagattttt tacgtaataa cgctaaaagt tttagatgtg ctttactaag 4320 tcatcgcgat ggagcaaaag tacatttagg tacacggcct acagaaaaac agtatgaaac 4380 tctcgaaaat caattagcct ttttatgcca acaaggtttt tcactagaga atgcattata 4440 tgcactcagc gcagtggggc attttacttt aggttgcgta ttggaagatc aagagcatca 4500 agtcgctaaa gaagaaaggg aaacacctac tactgatagt atgccgccat tattacgaca 4560 agctatcgaa ttatttgatc accaaggtgc agagccagcc ttcttattcg gccttgaatt 4620 gatcatatgc ggattagaaa aacaacttaa atgtgaaagt gggtcttaaa agcagcataa 4680 cctttttccg tgatggtaac ttcactagtt taaaaggatc taggtgaaga tcctttttga 4740 taatctcatg accaaaatcc cttaacgtga gttttcgttc cactgagcgt cagaccccgt 4800 agaaaagatc aaaggatctt cttgagatcc tttttttctg cgcgtaatct gctgcttgca 4860 aacaaaaaaa ccaccgctac cagcggtggt ttgtttgccg gatcaagagc taccaactct 4920 ttttccgaag gtaactggct tcagcagagc gcagatacca aatactgtcc ttctagtgta 4980 gccgtagtta ggccaccact tcaagaactc tgtagcaccg cctacatacc tcgctctgct 5040 aatcctgtta ccagtggctg ctgccagtgg cgataagtcg tgtcttaccg ggttggactc 5100 aagacgatag ttaccggata aggcgcagcg gtcgggctga acggggggtt cgtgcacaca 5160 gcccagcttg gagcgaacga cctacaccga actgagatac ctacagcgtg agctatgaga 5220 aagcgccacg cttcccgaag ggagaaaggc ggacaggtat ccggtaagcg gcagggtcgg 5280 aacaggagag cgcacgaggg agcttccagg gggaaacgcc tggtatcttt atagtcctgt 5340 cgggtttcgc cacctctgac ttgagcgtcg atttttgtga tgctcgtcag gggggcggag 5400 cctatggaaa aacgccagca acgcggcctt tttacggttc ctggcctttt gctggccttt 5460 tgctcacatg 5470 <210> 79 <211> 4462 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of pXL1-PA#1d/1c/1b(600) <400> 79 gcgcccaata cgcaaaccgc ctctccccgc gcgttggccg attcattaat gcagctggca 60 cgacaggttt cccgactgga aagcgggcag tgagcgcaac gcaattaatg tgagttagct 120 cactcattag gcaccccagg ctttacactt tatgcttccg gctcgtatgt tgtgtggaat 180 tgtgagcgga taacaatttc acacaggaaa cagctatgac catgattacg ccaagcttgg 240 ctcttcaggc tggtgctgcg ggtgctgggg ctgcgggagc tgctggagcg ggtgcggctg 300 gggctgctgc gggggcagcg ggcgccgggg cggccggtgc agcaggtgct ggagccgcag 360 gggcggcggc aggggcagca ggtgcaggag ctgctggcgc agctggggct ggagcagcgg 420 gcgcagcggc aggagcggca ggagctggag cggccggtgc tgcaggggct ggagcagcag 480 gggcagcagc aggggcggca ggagcaggtg cagcaggagc tgcaggggct ggcgcggcgg 540 gagctgccgc cggggcagcg ggtgcaggtg ccgcgggggc agcaggagct ggtgccgcag 600 gggcagctgc tggcgcggcg ggtgccggag cagccggtgc agcaggcgct ggagctgcgg 660 gcgcggcagc cggtgccgcg ggggccgggg cagcaggcgc cgctggagct ggggcagctg 720 gtgccgcggc tggagctgcg ggggccggcg cggctggggc agcgggagct ggggcagcag 780 gtgcggcagc gggggcagct ggggcggggg cggcgggggc agcgggagca ggggcagcag 840 gagcggcagc aggtgcagct ggcgcggggg ctgctggagc ggcgggggct ggagccgcgg 900 gtgcggcggc cggggctgcc ggcgccggag ctgcaggcgc cgcaggagca ggcgctgctg 960 gtgccgctgc tggggcagcc ggggccggag cagccggcgc ggcaggtgca ggtgcggccg 1020 gagccgccgc aggggccgcc ggagccggcg cagccggcgc agcaggggcc ggagctgccg 1080 gagccgccgc cggcgccgcc ggagctggtg ccgccggtgc tgcgggcgct ggggcggcag 1140 gcgctgcggc tggagccgcc ggggccgggg cagcgggggc cgctggggca ggcgcagccg 1200 gtgcggcggc aggggctgct ggggccggtg ccgcaggcgc tgcgggtgca ggcgccgcgg 1260 gcgccgccgc aggtgcggcc ggcgccgggg ctgctggagc cgccggtgca ggagctgcag 1320 gcgcggccgc cggagctgcc ggtgccggcg ctgccggcgc ggcgggcgca ggtgccgcag 1380 gagcggcggc tggggcagca ggggcgggag cagcgggcgc ggcaggggcc ggggccgctg 1440 gcgcggcggc tggggcggct ggagccggtg cggcaggggc ggcaggtgct ggggccgcag 1500 gagctgcagc tggggcggcc ggggctggag ctgcaggtgc tgcaggagct ggcgctgcag 1560 gggcggctgc tggcgccgcg ggtgcagggg ctgcgggagc cgcaggtgcg ggagctgcgg 1620 gcgccgcggc tggcgctgct ggtgcagggg ctgcaggtgc tgctggggcc ggcgctgccg 1680 gagcggccgc tggagctgct ggtgctggag ccgcgggagc ggccggagcc ggggctgctg 1740 gggcggcggc tggagcggct ggtgccggcg ctgcgggggc tgccggtgct ggggcggctg 1800 gtgcggcggc cggtgccgct ggtgctggag cggcaggcgc tgctggggct ggggctgcgg 1860 gtgctgcggc aggtgctgcc ggtgccgggg ctgcaggagc tgccggtgca ggcgcggctg 1920 gtgctgcagc gggtgctgcc ggggcggggg cagcaggggc agccggggct ggtgcggccg 1980 gagcggcggc gggggctgca ggggcgggag ctgctggtgc ggcaggggct ggggcagccg 2040 gtgcggcggc agaagagcag aattcactgg ccgtcgtttt acaacgtcgt gactgggaaa 2100 accctggcgt tacccaactt aatcgccttg cagcacatcc ccctttcgcc agctggcgta 2160 atagcgaaga ggcccgcacc gatcgccctt cccaacagtt gcgcagcctg aatggcgaat 2220 ggcgcctgat gcggtatttt ctccttacgc atctgtgcgg tatttcacac cgcatatggt 2280 gcactctcag tacaatctgc tctgatgccg catagttaag ccagccccga cacccgccaa 2340 cacccgctga cgcgccctga cgggcttgtc tgctcccggc atccgcttac agacaagctg 2400 tgaccgtctc cgggagctgc atgtgtcaga ggttttcacc gtcatcaccg aaacgcgcga 2460 gacgaaaggg cctcgtgata cgcctatttt tataggttaa tgtcatgata ataatggttt 2520 cttagacgtc aggtggcact tttcggggaa atgtgcgcgg aacccctatt tgtttatttt 2580 tctaaataca ttcaaatatg tatccgctca tgagacaata accctgataa atgcttcaat 2640 aatattgaaa aaggaagagt atgagtattc aacatttccg tgtcgccctt attccctttt 2700 ttgcggcatt ttgccttcct gtttttgctc acccagaaac gctggtgaaa gtaaaagatg 2760 ctgaagatca gttgggtgca cgagtgggtt acatcgaact ggatctcaac agcggtaaga 2820 tccttgagag ttttcgcccc gaagaacgtt ttccaatgat gagcactttt aaagttctgc 2880 tatgtggcgc ggtattatcc cgtattgacg ccgggcaaga gcaactcggt cgccgcatac 2940 actattctca gaatgacttg gttgagtact caccagtcac agaaaagcat cttacggatg 3000 gcatgacagt aagagaatta tgcagtgctg ccataaccat gagtgataac actgcggcca 3060 acttacttct gacaacgatc ggaggaccga aggagctaac cgcttttttg cacaacatgg 3120 gggatcatgt aactcgcctt gatcgttggg aaccggagct gaatgaagcc ataccaaacg 3180 acgagcgtga caccacgatg cctgtagcaa tggcaacaac gttgcgcaaa ctattaactg 3240 gcgaactact tactctagct tcccggcaac aattaataga ctggatggag gcggataaag 3300 ttgcaggacc acttctgcgc tcggcccttc cggctggctg gtttattgct gataaatctg 3360 gagccggtga gcgtgggtct cgcggtatca ttgcagcact ggggccagat ggtaagccct 3420 cccgtatcgt agttatctac acgacgggga gtcaggcaac tatggatgaa cgaaatagac 3480 agatcgctga gataggtgcc tcactgatta agcattggta actgtcagac caagtttact 3540 catatatact ttagattgat ttaaaacttc atttttaatt taaaaggatc taggtgaaga 3600 tcctttttga taatctcatg accaaaatcc cttaacgtga gttttcgttc cactgagcgt 3660 cagaccccgt agaaaagatc aaaggatctt cttgagatcc tttttttctg cgcgtaatct 3720 gctgcttgca aacaaaaaaa ccaccgctac cagcggtggt ttgtttgccg gatcaagagc 3780 taccaactct ttttccgaag gtaactggct tcagcagagc gcagatacca aatactgttc 3840 ttctagtgta gccgtagtta ggccaccact tcaagaactc tgtagcaccg cctacatacc 3900 tcgctctgct aatcctgtta ccagtggctg ctgccagtgg cgataagtcg tgtcttaccg 3960 ggttggactc aagacgatag ttaccggata aggcgcagcg gtcgggctga acggggggtt 4020 cgtgcacaca gcccagcttg gagcgaacga cctacaccga actgagatac ctacagcgtg 4080 agctatgaga aagcgccacg cttcccgaag ggagaaaggc ggacaggtat ccggtaagcg 4140 gcagggtcgg aacaggagag cgcacgaggg agcttccagg gggaaacgcc tggtatcttt 4200 atagtcctgt cgggtttcgc cacctctgac ttgagcgtcg atttttgtga tgctcgtcag 4260 gggggcggag cctatggaaa aacgccagca acgcggcctt tttacggttc ctggcctttt 4320 gctggccttt tgctcacatg ttctttcctg cgttatcccc tgattctgtg gataaccgta 4380 ttaccgcctt tgagtgagct gataccgctc gccgcagccg aacgaccgag cgcagcgagt 4440 cagtgagcga ggaagcggag aa 4462 <210> 80 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1a(600) <400> 80 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 60 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 120 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 180 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 240 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 300 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 360 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 420 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 480 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 540 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 600 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 660 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 720 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 780 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 840 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 900 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 960 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 1020 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 1080 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 1140 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 1200 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 1260 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 1320 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 1380 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 1440 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 1500 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 1560 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 1620 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 1680 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 1740 gccgctccag ctgcacctgc tccagcagca cctgctgcac cagctccggc tgctcctgct 1800 1800 <210> 81 <211> 4179 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of pASK37-MP-huLeptin <400> 81 acccgacacc atcgaatggc gcaaaacctt tcgcggtatg gcatgatagc gcccggaaga 60 gagtcaattc agggtggtga atgtgaaacc agtaacgtta tacgatgtcg cagagtatgc 120 cggtgtctct tatcagaccg tttcccgcgt ggtgaaccag gccagccacg tttctgcgaa 180 aacgcgggaa aaagtggaag cggcgatggc ggagctgaat tacattccca accgcgtggc 240 acaacaactg gcgggcaaac agtcgttgct gattggcgtt gccacctcca gtctggccct 300 gcacgcgccg tcgcaaattg tcgcggcgat taaatctcgc gccgatcaac tgggtgccag 360 cgtggtggtg tcgatggtag aacgaagcgg cgtcgaagcc tgtaaagcgg cggtgcacaa 420 tcttctcgcg caacgcgtca gtgggctgat cattaactat ccgctggatg accaggatgc 480 cattgctgtg gaagctgcct gcactaatgt tccggcgtta tttcttgatg tctctgacca 540 gacacccatc aacagtatta ttttctccca tgaagacggt acgcgactgg gcgtggagca 600 tctggtcgca ttgggtcacc agcaaatcgc gctgttagcg ggcccattaa gttctgtctc 660 ggcgcgtctg cgtctggctg gctggcataa atatctcact cgcaatcaaa ttcagccgat 720 agcggaacgg gaaggcgact ggagtgccat gtccggtttt caacaaacca tgcaaatgct 780 gaatgagggc atcgttccca ctgcgatgct ggttgccaac gatcagatgg cgctgggcgc 840 aatgcgcgcc attaccgagt ccgggctgcg cgttggtgcg gatatctcgg tagtgggata 900 cgacgatacc gaagacagct catgttatat cccgccgtta accaccatca aacaggattt 960 tcgcctgctg gggcaaacca gcgtggaccg cttgctgcaa ctctctcagg gccaggcggt 1020 gaagggcaat cagctgttgc ccgtctcact ggtgaaaaga aaaaccaccc tggcgcccaa 1080 tacgcaaacc gcctctcccc gcgcgttggc cgattcatta atgcagctgg cacgacaggt 1140 ttcccgactg gaaagcgggc agtgagcgca acgcaattaa tgtgagttag ctcactcatt 1200 aggcacccca ggctttacac tttatgcttc cggctcgtat aatgtgtgga attgtgagcg 1260 gataacaatt tcacacagga aacagctatg accatgatta cggattcact ggaactctag 1320 aaataatttt gtttaacttt aagaaggaga tatacatatg ccagccagaa gagcgcgctc 1380 ttctgccgtg ccgattcaga aagttcagga tgataccaaa accctgatta aaaccattgt 1440 gacccgcatt aacgatatca gccataccca gagcgttagc agcaaacaga aagttaccgg 1500 tctggatttt attccgggtc tgcatccgat tctgaccctg agcaaaatgg atcagaccct 1560 ggcagtttat cagcagattc tgacaagcat gccgagccgt aatgttattc agattagcaa 1620 tgatctggaa aacctgcgtg atctgctgca tgttctggca tttagcaaaa gctgtcatct 1680 gccgtgggca agcggtctgg aaaccctgga tagcctgggt ggtgttctgg aagcaagcgg 1740 ttatagcacc gaagttgttg cactgagccg tctgcaaggt agtctgcaag atatgctgtg 1800 gcagctggat ctgagtccgg gttgttaagc ttgacctgtg aagtgaaaaa tggcgcacat 1860 tgtgcgacat tttttttgtc tgccgtttac cgctactgcg tcacggatcc ccacgcgccc 1920 tgtagcggcg cattaagcgc ggcgggtgtg gtggttacgc gcagcgtgac cgctacactt 1980 gccagcgccc tagcgcccgc tcctttcgct ttcttccctt cctttctcgc cacgttcgcc 2040 ggctttcccc gtcaagctct aaatcggggc atccctttag ggttccgatt tagtgcttta 2100 cggcacctcg accccaaaaa acttgattag ggtgatggtt cacgtagtgg gccatcgccc 2160 tgatagacgg tttttcgccc tttgacgttg gagtccacgt tctttaatag tggactcttg 2220 ttccaaactg gaacaacact caaccctatc tcggtctatt cttttgattt ataagggatt 2280 ttgccgattt cggcctattg gttaaaaaat gagctgattt aacaaaaatt taacgcgaat 2340 tttaacaaaa tattaacgtt tacaatttca ggtggcactt ttcggggaaa tgtgcgcgga 2400 acccctattt gtttattttt ctaaatacat tcaaatatgt atccgctcat gagacaataa 2460 ccctgataaa tgcttcaata atattgaaaa aggaagagta tgagtattca acatttccgt 2520 gtcgccctta ttcccttttt tgcggcattt tgccttcctg tttttgctca cccagaaacg 2580 ctggtgaaag taaaagatgc tgaagatcag ttgggtgcac gagtgggtta catcgaactg 2640 gatctcaaca gcggtaagat ccttgagagt tttcgccccg aagaacgttt tccaatgatg 2700 agcactttta aagttctgct atgtggcgcg gtattatccc gtattgacgc cgggcaagag 2760 caactcggtc gccgcataca ctattctcag aatgacttgg ttgagtactc accagtcaca 2820 gaaaagcatc ttacggatgg catgacagta agagaattat gcagtgctgc cataaccatg 2880 agtgataaca ctgcggccaa cttacttctg acaacgatcg gaggaccgaa ggagctaacc 2940 gcttttttgc acaacatggg ggatcatgta actcgccttg atcgttggga accggagctg 3000 aatgaagcca taccaaacga cgagcgtgac accacgatgc ctgtagcaat ggcaacaacg 3060 ttgcgcaaac tattaactgg cgaactactt actctagctt cccggcaaca attaatagac 3120 tggatggagg cggataaagt tgcaggacca cttctgcgct cggcccttcc ggctggctgg 3180 tttattgctg ataaatctgg agccggtgag cgtgggtctc gcggtatcat tgcagcactg 3240 gggccagatg gtaagccctc ccgtatcgta gttatctaca cgacggggag tcaggcaact 3300 atggatgaac gaaatagaca gatcgctgag ataggtgcct cactgattaa gcattggtaa 3360 ctgtcagacc aagtttactc atatatactt tagattgatt taaaacttca tttttaattt 3420 aaaaggatct aggtgaagat cctttttgat aatctcatga ccaaaatccc ttaacgtgag 3480 ttttcgttcc actgagcgtc agaccccgta gaaaagatca aaggatcttc ttgagatcct 3540 ttttttctgc gcgtaatctg ctgcttgcaa acaaaaaaac caccgctacc agcggtggtt 3600 tgtttgccgg atcaagagct accaactctt tttccgaagg taactggctt cagcagagcg 3660 cagataccaa atactgtcct tctagtgtag ccgtagttag gccaccactt caagaactct 3720 gtagcaccgc ctacatacct cgctctgcta atcctgttac cagtggctgc tgccagtggc 3780 gataagtcgt gtcttaccgg gttggactca agacgatagt taccggataa ggcgcagcgg 3840 tcgggctgaa cggggggttc gtgcacacag cccagcttgg agcgaacgac ctacaccgaa 3900 ctgagatacc tacagcgtga gctatgagaa agcgccacgc ttcccgaagg gagaaaggcg 3960 gacaggtatc cggtaagcgg cagggtcgga acaggagagc gcacgaggga gcttccaggg 4020 ggaaacgcct ggtatcttta tagtcctgtc gggtttcgcc acctctgact tgagcgtcga 4080 tttttgtgat gctcgtcagg ggggcggagc ctatggaaaa acgccagcaa cgcggccttt 4140 ttacggttcc tggccttttg ctggcctttt gctcacatg 4179 <210> 82 <211> 5958 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of pASK37-MP-huLeptin-PA#1d/1c/1b(600) <400> 82 acccgacacc atcgaatggc gcaaaacctt tcgcggtatg gcatgatagc gcccggaaga 60 gagtcaattc agggtggtga atgtgaaacc agtaacgtta tacgatgtcg cagagtatgc 120 cggtgtctct tatcagaccg tttcccgcgt ggtgaaccag gccagccacg tttctgcgaa 180 aacgcgggaa aaagtggaag cggcgatggc ggagctgaat tacattccca accgcgtggc 240 acaacaactg gcgggcaaac agtcgttgct gattggcgtt gccacctcca gtctggccct 300 gcacgcgccg tcgcaaattg tcgcggcgat taaatctcgc gccgatcaac tgggtgccag 360 cgtggtggtg tcgatggtag aacgaagcgg cgtcgaagcc tgtaaagcgg cggtgcacaa 420 tcttctcgcg caacgcgtca gtgggctgat cattaactat ccgctggatg accaggatgc 480 cattgctgtg gaagctgcct gcactaatgt tccggcgtta tttcttgatg tctctgacca 540 gacacccatc aacagtatta ttttctccca tgaagacggt acgcgactgg gcgtggagca 600 tctggtcgca ttgggtcacc agcaaatcgc gctgttagcg ggcccattaa gttctgtctc 660 ggcgcgtctg cgtctggctg gctggcataa atatctcact cgcaatcaaa ttcagccgat 720 agcggaacgg gaaggcgact ggagtgccat gtccggtttt caacaaacca tgcaaatgct 780 gaatgagggc atcgttccca ctgcgatgct ggttgccaac gatcagatgg cgctgggcgc 840 aatgcgcgcc attaccgagt ccgggctgcg cgttggtgcg gatatctcgg tagtgggata 900 cgacgatacc gaagacagct catgttatat cccgccgtta accaccatca aacaggattt 960 tcgcctgctg gggcaaacca gcgtggaccg cttgctgcaa ctctctcagg gccaggcggt 1020 gaagggcaat cagctgttgc ccgtctcact ggtgaaaaga aaaaccaccc tggcgcccaa 1080 tacgcaaacc gcctctcccc gcgcgttggc cgattcatta atgcagctgg cacgacaggt 1140 ttcccgactg gaaagcgggc agtgagcgca acgcaattaa tgtgagttag ctcactcatt 1200 aggcacccca ggctttacac tttatgcttc cggctcgtat aatgtgtgga attgtgagcg 1260 gataacaatt tcacacagga aacagctatg accatgatta cggattcact ggaactctag 1320 aaataatttt gtttaacttt aagaaggaga tatacatatg ccagccgcac cggctgcccc 1380 agcccctgcc gcaccagcag ctcccgcccc tgcagccccc gccgccgctc cggccgcacc 1440 agccccggct gcccctgctg cccccgcccc ggcagcaccc gctgcagcac cagccgcgcc 1500 tgcaccggca gctcctgcag ccccggcacc ggcagcacct gccgcagcac ccgcagcccc 1560 agccccagca gcgcctgccg ctccagcacc agcggcaccg gccgccgcac cagccgcccc 1620 agcaccggca gcccccgcag cgccggcacc agccgctcca gccgccgccc cagcagcccc 1680 ggctccggcc gctcccgcgg ctccagcacc agcagctcca gcggccgctc cggcagcgcc 1740 ggccccagca gcacctgcag cccctgcacc agcagcgcca gccgcggcgc ccgcagctcc 1800 cgcacctgcg gctcccgcag cccctgcacc cgcggcgcca gcagccgccc ctgcagcgcc 1860 agctcctgca gcacctgcag ctccagcccc ggccgcccca gctgcagctc ctgcggcccc 1920 agcacctgcc gcccctgccg caccggctcc agccgcccca gccgccgcgc cagcggcccc 1980 ggcccctgcc gcgcccgctg ctcccgcccc tgctgcccca gccgccgctc ctgcggcacc 2040 tgcgcccgcc gcgccggcag cgccggcacc ggcagctccg gcggccgcgc ctgcagctcc 2100 tgcaccggcg gctccagcag ccccggcgcc ggccgcacct gcggcggcgc ccgcggcgcc 2160 tgcacccgca gcgcctgcgg caccggcccc agcagcccct gccgccgcac cggctgcgcc 2220 tgccccagcg gcccccgctg ccccggcccc ggcggctcca gccgcagcgc ctgccgcccc 2280 agcgcccgca gcaccggcgg caccagctcc ggcggcgccg gcggcggctc cggcagctcc 2340 ggcccctgct gcgccggctg cgccggctcc ggcggcccct gcggcggctc cggccgcacc 2400 tgcacctgcc gcgccggctg ctccggcccc ggctgcccca gcagcggcac cagcagcgcc 2460 tgctcctgcg gcgcctgcag ctccggcgcc ggcagccccg gccgccgcac ccgcggctcc 2520 agcccccgcc gctccagcag cccccgcgcc agctgcacct gctgccgctc ctgctgcccc 2580 tgctcccgct gcccccgccg cccccgcccc agctgccccc gctgccgcac ctgctgcccc 2640 agctcccgct gccccagccg cgccggcccc cgcagctcca gccgcggcac cagctgcccc 2700 agctccagcg gcgcctgctg ccccggcccc cgcggcaccg gctgccgcgc ccgcagctcc 2760 agcgcctgct gcaccggctg ctccggcacc cgccgcgcca gcagctgccc ctgcggcacc 2820 agctcctgct gcccccgcgg cacctgcacc cgctgccccg gcggcagctc ccgccgcgcc 2880 agcccctgca gctcctgctg cacctgctcc tgccgcccct gctgctgccc ctgctgctcc 2940 agcccctgca gcaccggccg ctccagctcc tgccgctcct gccgctgcgc ccgctgctcc 3000 agccccagct gcgccagcag ctcctgcacc tgctgcccct gccgccgccc ctgcggctcc 3060 agcacctgct gcaccggccg ccccggcgcc cgctgccccc gcagcagccc cagccgcacc 3120 cgctccagca gctcccgcag ccccagcacc cgcagcacca gccgccgtgc cgattcagaa 3180 agttcaggat gataccaaaa ccctgattaa aaccattgtg acccgcatta acgatatcag 3240 ccatacccag agcgttagca gcaaacagaa agttaccggt ctggatttta ttccgggtct 3300 gcatccgatt ctgaccctga gcaaaatgga tcagaccctg gcagtttatc agcagattct 3360 gacaagcatg ccgagccgta atgttattca gattagcaat gatctggaaa acctgcgtga 3420 tctgctgcat gttctggcat ttagcaaaag ctgtcatctg ccgtgggcaa gcggtctgga 3480 aaccctggat agcctgggtg gtgttctgga agcaagcggt tatagcaccg aagttgttgc 3540 actgagccgt ctgcaaggta gtctgcaaga tatgctgtgg cagctggatc tgagtccggg 3600 ttgttaagct tgacctgtga agtgaaaaat ggcgcacatt gtgcgacatt ttttttgtct 3660 gccgtttacc gctactgcgt cacggatccc cacgcgccct gtagcggcgc attaagcgcg 3720 gcgggtgtgg tggttacgcg cagcgtgacc gctacacttg ccagcgccct agcgcccgct 3780 cctttcgctt tcttcccttc ctttctcgcc acgttcgccg gctttccccg tcaagctcta 3840 aatcggggca tccctttagg gttccgattt agtgctttac ggcacctcga ccccaaaaaa 3900 cttgattagg gtgatggttc acgtagtggg ccatcgccct gatagacggt ttttcgccct 3960 ttgacgttgg agtccacgtt ctttaatagt ggactcttgt tccaaactgg aacaacactc 4020 aaccctatct cggtctattc ttttgattta taagggattt tgccgatttc ggcctattgg 4080 ttaaaaaatg agctgattta acaaaaattt aacgcgaatt ttaacaaaat attaacgttt 4140 acaatttcag gtggcacttt tcggggaaat gtgcgcggaa cccctatttg tttatttttc 4200 taaatacatt caaatatgta tccgctcatg agacaataac cctgataaat gcttcaataa 4260 tattgaaaaa ggaagagtat gagtattcaa catttccgtg tcgcccttat tccctttttt 4320 gcggcatttt gccttcctgt ttttgctcac ccagaaacgc tggtgaaagt aaaagatgct 4380 gaagatcagt tgggtgcacg agtgggttac atcgaactgg atctcaacag cggtaagatc 4440 cttgagagtt ttcgccccga agaacgtttt ccaatgatga gcacttttaa agttctgcta 4500 tgtggcgcgg tattatcccg tattgacgcc gggcaagagc aactcggtcg ccgcatacac 4560 tattctcaga atgacttggt tgagtactca ccagtcacag aaaagcatct tacggatggc 4620 atgacagtaa gagaattatg cagtgctgcc ataaccatga gtgataacac tgcggccaac 4680 ttacttctga caacgatcgg aggaccgaag gagctaaccg cttttttgca caacatgggg 4740 gatcatgtaa ctcgccttga tcgttgggaa ccggagctga atgaagccat accaaacgac 4800 gagcgtgaca ccacgatgcc tgtagcaatg gcaacaacgt tgcgcaaact attaactggc 4860 gaactactta ctctagcttc ccggcaacaa ttaatagact ggatggaggc ggataaagtt 4920 gcaggaccac ttctgcgctc ggcccttccg gctggctggt ttattgctga taaatctgga 4980 gccggtgagc gtgggtctcg cggtatcatt gcagcactgg ggccagatgg taagccctcc 5040 cgtatcgtag ttatctacac gacggggagt caggcaacta tggatgaacg aaatagacag 5100 atcgctgaga taggtgcctc actgattaag cattggtaac tgtcagacca agtttactca 5160 tatatacttt agattgattt aaaacttcat ttttaattta aaaggatcta ggtgaagatc 5220 ctttttgata atctcatgac caaaatccct taacgtgagt tttcgttcca ctgagcgtca 5280 gaccccgtag aaaagatcaa aggatcttct tgagatcctt tttttctgcg cgtaatctgc 5340 tgcttgcaaa caaaaaaacc accgctacca gcggtggttt gtttgccgga tcaagagcta 5400 ccaactcttt ttccgaaggt aactggcttc agcagagcgc agataccaaa tactgtcctt 5460 ctagtgtagc cgtagttagg ccaccacttc aagaactctg tagcaccgcc tacatacctc 5520 gctctgctaa tcctgttacc agtggctgct gccagtggcg ataagtcgtg tcttaccggg 5580 ttggactcaa gacgatagtt accggataag gcgcagcggt cgggctgaac ggggggttcg 5640 tgcacacagc ccagcttgga gcgaacgacc tacaccgaac tgagatacct acagcgtgag 5700 ctatgagaaa gcgccacgct tcccgaaggg agaaaggcgg acaggtatcc ggtaagcggc 5760 agggtcggaa caggagagcg cacgagggag cttccagggg gaaacgcctg gtatctttat 5820 agtcctgtcg ggtttcgcca cctctgactt gagcgtcgat ttttgtgatg ctcgtcaggg 5880 gggcggagcc tatggaaaaa cgccagcaac gcggcctttt tacggttcct ggccttttgc 5940 tggccttttg ctcacatg 5958 <210> 83 <211> 5958 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of pASK37-MP-huLeptin-PAS#1f/1c/1b(600) <400> 83 acccgacacc atcgaatggc gcaaaacctt tcgcggtatg gcatgatagc gcccggaaga 60 gagtcaattc agggtggtga atgtgaaacc agtaacgtta tacgatgtcg cagagtatgc 120 cggtgtctct tatcagaccg tttcccgcgt ggtgaaccag gccagccacg tttctgcgaa 180 aacgcgggaa aaagtggaag cggcgatggc ggagctgaat tacattccca accgcgtggc 240 acaacaactg gcgggcaaac agtcgttgct gattggcgtt gccacctcca gtctggccct 300 gcacgcgccg tcgcaaattg tcgcggcgat taaatctcgc gccgatcaac tgggtgccag 360 cgtggtggtg tcgatggtag aacgaagcgg cgtcgaagcc tgtaaagcgg cggtgcacaa 420 tcttctcgcg caacgcgtca gtgggctgat cattaactat ccgctggatg accaggatgc 480 cattgctgtg gaagctgcct gcactaatgt tccggcgtta tttcttgatg tctctgacca 540 gacacccatc aacagtatta ttttctccca tgaagacggt acgcgactgg gcgtggagca 600 tctggtcgca ttgggtcacc agcaaatcgc gctgttagcg ggcccattaa gttctgtctc 660 ggcgcgtctg cgtctggctg gctggcataa atatctcact cgcaatcaaa ttcagccgat 720 agcggaacgg gaaggcgact ggagtgccat gtccggtttt caacaaacca tgcaaatgct 780 gaatgagggc atcgttccca ctgcgatgct ggttgccaac gatcagatgg cgctgggcgc 840 aatgcgcgcc attaccgagt ccgggctgcg cgttggtgcg gatatctcgg tagtgggata 900 cgacgatacc gaagacagct catgttatat cccgccgtta accaccatca aacaggattt 960 tcgcctgctg gggcaaacca gcgtggaccg cttgctgcaa ctctctcagg gccaggcggt 1020 gaagggcaat cagctgttgc ccgtctcact ggtgaaaaga aaaaccaccc tggcgcccaa 1080 tacgcaaacc gcctctcccc gcgcgttggc cgattcatta atgcagctgg cacgacaggt 1140 ttcccgactg gaaagcgggc agtgagcgca acgcaattaa tgtgagttag ctcactcatt 1200 aggcacccca ggctttacac tttatgcttc cggctcgtat aatgtgtgga attgtgagcg 1260 gataacaatt tcacacagga aacagctatg accatgatta cggattcact ggaactctag 1320 aaataatttt gtttaacttt aagaaggaga tatacatatg ccagcctccc ctgccgctcc 1380 agcccccgcc tcgccggccg ctcccgctcc gtctgcacct gctgcctcac cagcagcccc 1440 ggccccagca tccccggccg caccagctcc gtcagcacct gccgcatcgc ctgctgcccc 1500 tgccccagcc agtccagcgg ctccagcccc gagtgctccg gccgcttccc ccgcagcacc 1560 ggctcctgcc tcccctgcag cccctgctcc atctgcccct gcggcatccc ctgcggcgcc 1620 agctcctgcc tctccagctg caccggctcc ctcagctccc gctgcctccc cagccgcgcc 1680 cgctcctgca agcccagcag ctccggctcc atccgccccc gccgccagcc ccgcagcccc 1740 ggcgcctgcc tctcctgctg cacctgcacc gtcagcccct gcagcatctc ccgcagctcc 1800 tgcaccggca tctccagcag cccccgcccc gtcagctccc gcagccagcc cggccgcacc 1860 cgcccccgcg tcaccagctg caccagcgcc atccgctcct gctgcgtctc ccgctgcgcc 1920 cgcccctgcc tcacctgcag cacctgcacc tagcgccccg gctgccagtc ctgctgcacc 1980 ggcaccggca tcaccggctg caccagcacc tagtgcaccg gcagcttctc cggctgcccc 2040 tgcgcctgca tcaccagctg cgcctgcacc gtctgcccct gcagctagtc cagcagctcc 2100 agctccggct tctcctgcgg ctcctgcacc aagtgcgcct gcagcaagtc cggctgcgcc 2160 tgccccagct agtcctgctg ctccggcacc gtcagctccg gcagcatctc ctgcagcacc 2220 agcccctgca agtccagcag cgccagcccc atcagcacca gcagcttcac cagccgcacc 2280 agcgccagca agccctgctg ccccagctcc tagcgcaccg gcagccagtc ctgcagctcc 2340 tgcgcctgct agtccggcag ccccagctcc aagtgcccct gccgcttcgc ctgcagcccc 2400 agcaccagct tctccagccg caccggcacc ttctgcccca gctgcatctc cggcagctcc 2460 ggcaccagca agcccggcag caccggcacc atctgcgcct gccgcatctc cggctgcgcc 2520 agctccagcc tctcctgcag cgccagcacc gagcgcacca gcagccagcc ctgccgcacc 2580 tgcgcccgca tcacctgcgg cacctgcacc ttccgccccg gctgcatctc ctgccgcacc 2640 cgcgcctgcc agcccagctg cacctgcccc aagtgcgcca gcagcatccc ctgccgcgcc 2700 tgcccccgct agtccagcgg ccccagctcc atctgcacca gctgctagcc ctgctgcacc 2760 agctcctgct tctcccgcag ccccagcgcc ttctgctccc gcagcctcac ctgcggcccc 2820 ggcaccagca tctccagcgg caccagcacc ttcggcccct gctgctagcc cagcagcacc 2880 tgcgccagcc tcaccagctg ctcccgctcc tagtgccccg gcggcctcgc ctgctgctcc 2940 tgcaccagct tcgccagcgg caccggctcc ttcggcgccg gctgcttcac cagcagcacc 3000 tgctccagcg tccccagcgg cccctgctcc aagtgctccg gctgcatcgc ctgccgctcc 3060 tgctcctgca tccccagctg ctccagcacc aagcgcacct gccgcctcac cagcggcgcc 3120 agcacccgcc agcccagcag cgcctgctcc atccgcaccg gcggccgtgc cgattcagaa 3180 agttcaggat gataccaaaa ccctgattaa aaccattgtg acccgcatta acgatatcag 3240 ccatacccag agcgttagca gcaaacagaa agttaccggt ctggatttta ttccgggtct 3300 gcatccgatt ctgaccctga gcaaaatgga tcagaccctg gcagtttatc agcagattct 3360 gacaagcatg ccgagccgta atgttattca gattagcaat gatctggaaa acctgcgtga 3420 tctgctgcat gttctggcat ttagcaaaag ctgtcatctg ccgtgggcaa gcggtctgga 3480 aaccctggat agcctgggtg gtgttctgga agcaagcggt tatagcaccg aagttgttgc 3540 actgagccgt ctgcaaggta gtctgcaaga tatgctgtgg cagctggatc tgagtccggg 3600 ttgttaagct tgacctgtga agtgaaaaat ggcgcacatt gtgcgacatt ttttttgtct 3660 gccgtttacc gctactgcgt cacggatccc cacgcgccct gtagcggcgc attaagcgcg 3720 gcgggtgtgg tggttacgcg cagcgtgacc gctacacttg ccagcgccct agcgcccgct 3780 cctttcgctt tcttcccttc ctttctcgcc acgttcgccg gctttccccg tcaagctcta 3840 aatcggggca tccctttagg gttccgattt agtgctttac ggcacctcga ccccaaaaaa 3900 cttgattagg gtgatggttc acgtagtggg ccatcgccct gatagacggt ttttcgccct 3960 ttgacgttgg agtccacgtt ctttaatagt ggactcttgt tccaaactgg aacaacactc 4020 aaccctatct cggtctattc ttttgattta taagggattt tgccgatttc ggcctattgg 4080 ttaaaaaatg agctgattta acaaaaattt aacgcgaatt ttaacaaaat attaacgttt 4140 acaatttcag gtggcacttt tcggggaaat gtgcgcggaa cccctatttg tttatttttc 4200 taaatacatt caaatatgta tccgctcatg agacaataac cctgataaat gcttcaataa 4260 tattgaaaaa ggaagagtat gagtattcaa catttccgtg tcgcccttat tccctttttt 4320 gcggcatttt gccttcctgt ttttgctcac ccagaaacgc tggtgaaagt aaaagatgct 4380 gaagatcagt tgggtgcacg agtgggttac atcgaactgg atctcaacag cggtaagatc 4440 cttgagagtt ttcgccccga agaacgtttt ccaatgatga gcacttttaa agttctgcta 4500 tgtggcgcgg tattatcccg tattgacgcc gggcaagagc aactcggtcg ccgcatacac 4560 tattctcaga atgacttggt tgagtactca ccagtcacag aaaagcatct tacggatggc 4620 atgacagtaa gagaattatg cagtgctgcc ataaccatga gtgataacac tgcggccaac 4680 ttacttctga caacgatcgg aggaccgaag gagctaaccg cttttttgca caacatgggg 4740 gatcatgtaa ctcgccttga tcgttgggaa ccggagctga atgaagccat accaaacgac 4800 gagcgtgaca ccacgatgcc tgtagcaatg gcaacaacgt tgcgcaaact attaactggc 4860 gaactactta ctctagcttc ccggcaacaa ttaatagact ggatggaggc ggataaagtt 4920 gcaggaccac ttctgcgctc ggcccttccg gctggctggt ttattgctga taaatctgga 4980 gccggtgagc gtgggtctcg cggtatcatt gcagcactgg ggccagatgg taagccctcc 5040 cgtatcgtag ttatctacac gacggggagt caggcaacta tggatgaacg aaatagacag 5100 atcgctgaga taggtgcctc actgattaag cattggtaac tgtcagacca agtttactca 5160 tatatacttt agattgattt aaaacttcat ttttaattta aaaggatcta ggtgaagatc 5220 ctttttgata atctcatgac caaaatccct taacgtgagt tttcgttcca ctgagcgtca 5280 gaccccgtag aaaagatcaa aggatcttct tgagatcctt tttttctgcg cgtaatctgc 5340 tgcttgcaaa caaaaaaacc accgctacca gcggtggttt gtttgccgga tcaagagcta 5400 ccaactcttt ttccgaaggt aactggcttc agcagagcgc agataccaaa tactgtcctt 5460 ctagtgtagc cgtagttagg ccaccacttc aagaactctg tagcaccgcc tacatacctc 5520 gctctgctaa tcctgttacc agtggctgct gccagtggcg ataagtcgtg tcttaccggg 5580 ttggactcaa gacgatagtt accggataag gcgcagcggt cgggctgaac ggggggttcg 5640 tgcacacagc ccagcttgga gcgaacgacc tacaccgaac tgagatacct acagcgtgag 5700 ctatgagaaa gcgccacgct tcccgaaggg agaaaggcgg acaggtatcc ggtaagcggc 5760 agggtcggaa caggagagcg cacgagggag cttccagggg gaaacgcctg gtatctttat 5820 agtcctgtcg ggtttcgcca cctctgactt gagcgtcgat ttttgtgatg ctcgtcaggg 5880 gggcggagcc tatggaaaaa cgccagcaac gcggcctttt tacggttcct ggccttttgc 5940 tggccttttg ctcacatg 5958 <210> 84 <211> 4454 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of pXL1-PAS#1f/1c/1b(600) <400> 84 gcgcccaata cgcaaaccgc ctctccccgc gcgttggccg attcattaat gcagctggca 60 cgacaggttt cccgactgga aagcgggcag tgagcgcaac gcaattaatg tgagttagct 120 cactcattag gcaccccagg ctttacactt tatgcttccg gctcgtatgt tgtgtggaat 180 tgtgagcgga taacaatttc acacaggaaa cagctatgac catgattacg ccaagcttgg 240 ccgccggtgc ggatggagca ggcgctgctg ggctggcggg tgctggcgcc gctggtgagg 300 cggcaggtgc gcttggtgct ggagcagctg gggatgcagg agcaggagcg gcaggcgatg 360 cagccggagc acttggagca ggggccgctg gggacgctgg agcaggtgct gctggtgaag 420 cagccggcgc cgaaggagcc ggtgccgctg gcgaagctgg tgcaggagca gcaggcgagg 480 ccgccggggc actaggagcg ggagcagctg gtgaggctgg cgcaggtgct gctgggctag 540 cagcaggggc cgaaggtgct ggtgccgctg gagatgctgg tgccggggcc gcaggtgagg 600 ctgcgggagc agaaggcgct ggggctgcgg gagaagcagg agctggtgca gcagggctag 660 cagctggtgc agatggagct ggggccgctg gactagcggg ggcaggcgcg gcaggggatg 720 ctgctggcgc acttggggca ggtgcagctg ggctggcagg cgcgggtgcg gcaggagatg 780 cagccggggc ggaaggtgca ggtgccgcag gtgatgcggg cgcaggtgcg gcagggctgg 840 ctgctggtgc gctcggtgct ggcgctgcag gagaggctgg agctggcgca gccggagatg 900 cggcaggcgc agatggtgcc ggtgctgccg ggcttgctgg tgccggagct gccggagatg 960 cagctggggc agaaggtgcc ggtgcggctg gagaagctgg tgctggggct gcaggcgaag 1020 cggcaggggc acttggagct ggggctgccg gactagcagg cgcaggagct gcaggactgg 1080 ctgccggtgc gctaggagct ggggcagcag ggcttgctgg cgctggtgcg gctggtgaag 1140 ctgctggtgc tgatggggct ggcgctgctg gacttgcagg ggctggtgct gcaggagatg 1200 ctgccggagc tgacggtgcc ggagcagcag gactagctgg ggcaggcgca gccggacttg 1260 ctgcaggcgc acttggtgca ggagccgcag gagaagccgg agctggagct gctggactag 1320 ctgcaggggc agacggtgca ggcgcagctg gtgatgcagg cgcaggggca gccggagaag 1380 ctgccggtgc actaggtgct ggtgcagccg gtgatgccgg tgccggtgca gcaggactgg 1440 cagccggggc gctaggtgca ggtgctgcag gtgaggcagg ggcgggcgca gcgggagacg 1500 cagcaggagc ggatggcgct ggtgcagctg gtgacgcggg ggcgggtgcg gccgggctgg 1560 ctgcgggagc tgacggggcg ggggctgctg gagatgccgg tgcaggagct gcgggagatg 1620 ctgcaggggc tgacggtgca ggtgcagcag gagaggcagg cgccggggct gcggggctgg 1680 cggcgggggc ggatggagcc ggagctgctg ggcttgcagg agcgggcgcg gctggggagg 1740 cagcgggagc tgagggagcc ggtgcagctg gagaggcagg agctggcgcc gcaggggatg 1800 ccgcaggggc agatggagca ggggctgcag gggaggcagg agccggtgct gcgggggaag 1860 cggccggagc actcggggct ggagccgctg gactggctgg ggcaggggca gcaggcgatg 1920 cggcaggtgc tgacggagct ggtgcggccg gggatgctgg ggccggggct gctggtgagg 1980 cagcaggtgc agacggagcg ggagcggccg gcgaggcggg ggctggagcg gcaggggagg 2040 caagaagagc agaattcact ggccgtcgtt ttacaacgtc gtgactggga aaaccctggc 2100 gttacccaac ttaatcgcct tgcagcacat ccccctttcg ccagctggcg taatagcgaa 2160 gaggcccgca ccgatcgccc ttcccaacag ttgcgcagcc tgaatggcga atggcgcctg 2220 atgcggtatt ttctccttac gcatctgtgc ggtatttcac accgcatatg gtgcactctc 2280 agtacaatct gctctgatgc cgcatagtta agccagcccc gacacccgcc aacacccgct 2340 gacgcgccct gacgggcttg tctgctcccg gcatccgctt acagacaagc tgtgaccgtc 2400 tccgggagct gcatgtgtca gaggttttca ccgtcatcac cgaaacgcgc gagacgaaag 2460 ggcctcgtga tacgcctatt tttataggtt aatgtcatga taataatggt ttcttagacg 2520 tcaggtggca cttttcgggg aaatgtgcgc ggaaccccta tttgtttatt tttctaaata 2580 cattcaaata tgtatccgct catgagacaa taaccctgat aaatgcttca ataatattga 2640 aaaaggaaga gtatgagtat tcaacatttc cgtgtcgccc ttattccctt ttttgcggca 2700 ttttgccttc ctgtttttgc tcacccagaa acgctggtga aagtaaaaga tgctgaagat 2760 cagttgggtg cacgagtggg ttacatcgaa ctggatctca acagcggtaa gatccttgag 2820 agttttcgcc ccgaagaacg ttttccaatg atgagcactt ttaaagttct gctatgtggc 2880 gcggtattat cccgtattga cgccgggcaa gagcaactcg gtcgccgcat acactattct 2940 cagaatgact tggttgagta ctcaccagtc acagaaaagc atcttacgga tggcatgaca 3000 gtaagagaat tatgcagtgc tgccataacc atgagtgata acactgcggc caacttactt 3060 ctgacaacga tcggaggacc gaaggagcta accgcttttt tgcacaacat gggggatcat 3120 gtaactcgcc ttgatcgttg ggaaccggag ctgaatgaag ccataccaaa cgacgagcgt 3180 gacaccacga tgcctgtagc aatggcaaca acgttgcgca aactattaac tggcgaacta 3240 cttactctag cttcccggca acaattaata gactggatgg aggcggataa agttgcagga 3300 ccacttctgc gctcggccct tccggctggc tggtttattg ctgataaatc tggagccggt 3360 gagcgtgggt ctcgcggtat cattgcagca ctggggccag atggtaagcc ctcccgtatc 3420 gtagttatct acacgacggg gagtcaggca actatggatg aacgaaatag acagatcgct 3480 gagataggtg cctcactgat taagcattgg taactgtcag accaagttta ctcatatata 3540 ctttagattg atttaaaact tcatttttaa tttaaaagga tctaggtgaa gatccttttt 3600 gataatctca tgaccaaaat cccttaacgt gagttttcgt tccactgagc gtcagacccc 3660 gtagaaaaga tcaaaggatc ttcttgagat cctttttttc tgcgcgtaat ctgctgcttg 3720 caaacaaaaa aaccaccgct accagcggtg gtttgtttgc cggatcaaga gctaccaact 3780 ctttttccga aggtaactgg cttcagcaga gcgcagatac caaatactgt tcttctagtg 3840 tagccgtagt taggccacca cttcaagaac tctgtagcac cgcctacata cctcgctctg 3900 ctaatcctgt taccagtggc tgctgccagt ggcgataagt cgtgtcttac cgggttggac 3960 tcaagacgat agttaccgga taaggcgcag cggtcgggct gaacgggggg ttcgtgcaca 4020 cagcccagct tggagcgaac gacctacacc gaactgagat acctacagcg tgagctatga 4080 gaaagcgcca cgcttcccga agggagaaag gcggacaggt atccggtaag cggcagggtc 4140 ggaacaggag agcgcacgag ggagcttcca gggggaaacg cctggtatct ttatagtcct 4200 gtcgggtttc gccacctctg acttgagcgt cgatttttgt gatgctcgtc aggggggcgg 4260 agcctatgga aaaacgccag caacgcggcc tttttacggt tcctggcctt ttgctggcct 4320 tttgctcaca tgttctttcc tgcgttatcc cctgattctg tggataaccg tattaccgcc 4380 tttgagtgag ctgataccgc tcgccgcagc cgaacgaccg agcgcagcga gtcagtgagc 4440 gaggaagcgg agaa 4454 <210> 85 <211> 749 <212> PRT <213> Artificial Sequence <220> <223> Amino acid sequence of PA#1(600)-huLeptin(W100Q) <400> 85 Met Pro Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Pro 1 5 10 15 Ala Pro Ala Ala Pro Ala Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala 20 25 30 Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Ala Pro Ala Ala Pro 35 40 45 Ala Pro Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Ala 50 55 60 Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala 65 70 75 80 Pro Ala Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Pro 85 90 95 Ala Pro Ala Ala Pro Ala Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala 100 105 110 Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Ala Pro Ala Ala Pro 115 120 125 Ala Pro Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Ala 130 135 140 Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala 145 150 155 160 Pro Ala Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Pro 165 170 175 Ala Pro Ala Ala Pro Ala Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala 180 185 190 Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Ala Pro Ala Ala Pro 195 200 205 Ala Pro Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Ala 210 215 220 Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala 225 230 235 240 Pro Ala Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Pro 245 250 255 Ala Pro Ala Ala Pro Ala Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala 260 265 270 Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Ala Pro Ala Ala Pro 275 280 285 Ala Pro Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Ala 290 295 300 Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala 305 310 315 320 Pro Ala Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Pro 325 330 335 Ala Pro Ala Ala Pro Ala Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala 340 345 350 Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Ala Pro Ala Ala Pro 355 360 365 Ala Pro Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Ala 370 375 380 Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala 385 390 395 400 Pro Ala Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Pro 405 410 415 Ala Pro Ala Ala Pro Ala Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala 420 425 430 Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Ala Pro Ala Ala Pro 435 440 445 Ala Pro Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Ala 450 455 460 Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala 465 470 475 480 Pro Ala Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Pro 485 490 495 Ala Pro Ala Ala Pro Ala Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala 500 505 510 Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Ala Pro Ala Ala Pro 515 520 525 Ala Pro Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Ala 530 535 540 Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala 545 550 555 560 Pro Ala Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Pro 565 570 575 Ala Pro Ala Ala Pro Ala Ala Ala Pro Ala Ala Pro Ala Pro Ala Ala 580 585 590 Pro Ala Ala Pro Ala Pro Ala Ala Pro Ala Ala Val Pro Ile Gln Lys 595 600 605 Val Gln Asp Asp Thr Lys Thr Leu Ile Lys Thr Ile Val Thr Arg Ile 610 615 620 Asn Asp Ile Ser His Thr Gln Ser Val Ser Ser Lys Gln Lys Val Thr 625 630 635 640 Gly Leu Asp Phe Ile Pro Gly Leu His Pro Ile Leu Thr Leu Ser Lys 645 650 655 Met Asp Gln Thr Leu Ala Val Tyr Gln Gln Ile Leu Thr Ser Met Pro 660 665 670 Ser Arg Asn Val Ile Gln Ile Ser Asn Asp Leu Glu Asn Leu Arg Asp 675 680 685 Leu Leu His Val Leu Ala Phe Ser Lys Ser Cys His Leu Pro Gln Ala 690 695 700 Ser Gly Leu Glu Thr Leu Asp Ser Leu Gly Gly Val Leu Glu Ala Ser 705 710 715 720 Gly Tyr Ser Thr Glu Val Val Ala Leu Ser Arg Leu Gln Gly Ser Leu 725 730 735 Gln Asp Met Leu Trp Gln Leu Asp Leu Ser Pro Gly Cys 740 745 <210> 86 <211> 5958 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of pASK37-MP-PA#1d/1c/1b(600)-huLep(W100Q) <400> 86 acccgacacc atcgaatggc gcaaaacctt tcgcggtatg gcatgatagc gcccggaaga 60 gagtcaattc agggtggtga atgtgaaacc agtaacgtta tacgatgtcg cagagtatgc 120 cggtgtctct tatcagaccg tttcccgcgt ggtgaaccag gccagccacg tttctgcgaa 180 aacgcgggaa aaagtggaag cggcgatggc ggagctgaat tacattccca accgcgtggc 240 acaacaactg gcgggcaaac agtcgttgct gattggcgtt gccacctcca gtctggccct 300 gcacgcgccg tcgcaaattg tcgcggcgat taaatctcgc gccgatcaac tgggtgccag 360 cgtggtggtg tcgatggtag aacgaagcgg cgtcgaagcc tgtaaagcgg cggtgcacaa 420 tcttctcgcg caacgcgtca gtgggctgat cattaactat ccgctggatg accaggatgc 480 cattgctgtg gaagctgcct gcactaatgt tccggcgtta tttcttgatg tctctgacca 540 gacacccatc aacagtatta ttttctccca tgaagacggt acgcgactgg gcgtggagca 600 tctggtcgca ttgggtcacc agcaaatcgc gctgttagcg ggcccattaa gttctgtctc 660 ggcgcgtctg cgtctggctg gctggcataa atatctcact cgcaatcaaa ttcagccgat 720 agcggaacgg gaaggcgact ggagtgccat gtccggtttt caacaaacca tgcaaatgct 780 gaatgagggc atcgttccca ctgcgatgct ggttgccaac gatcagatgg cgctgggcgc 840 aatgcgcgcc attaccgagt ccgggctgcg cgttggtgcg gatatctcgg tagtgggata 900 cgacgatacc gaagacagct catgttatat cccgccgtta accaccatca aacaggattt 960 tcgcctgctg gggcaaacca gcgtggaccg cttgctgcaa ctctctcagg gccaggcggt 1020 gaagggcaat cagctgttgc ccgtctcact ggtgaaaaga aaaaccaccc tggcgcccaa 1080 tacgcaaacc gcctctcccc gcgcgttggc cgattcatta atgcagctgg cacgacaggt 1140 ttcccgactg gaaagcgggc agtgagcgca acgcaattaa tgtgagttag ctcactcatt 1200 aggcacccca ggctttacac tttatgcttc cggctcgtat aatgtgtgga attgtgagcg 1260 gataacaatt tcacacagga aacagctatg accatgatta cggattcact ggaactctag 1320 aaataatttt gtttaacttt aagaaggaga tatacatatg ccagccgcac cggctgcccc 1380 agcccctgcc gcaccagcag ctcccgcccc tgcagccccc gccgccgctc cggccgcacc 1440 agccccggct gcccctgctg cccccgcccc ggcagcaccc gctgcagcac cagccgcgcc 1500 tgcaccggca gctcctgcag ccccggcacc ggcagcacct gccgcagcac ccgcagcccc 1560 agccccagca gcgcctgccg ctccagcacc agcggcaccg gccgccgcac cagccgcccc 1620 agcaccggca gcccccgcag cgccggcacc agccgctcca gccgccgccc cagcagcccc 1680 ggctccggcc gctcccgcgg ctccagcacc agcagctcca gcggccgctc cggcagcgcc 1740 ggccccagca gcacctgcag cccctgcacc agcagcgcca gccgcggcgc ccgcagctcc 1800 cgcacctgcg gctcccgcag cccctgcacc cgcggcgcca gcagccgccc ctgcagcgcc 1860 agctcctgca gcacctgcag ctccagcccc ggccgcccca gctgcagctc ctgcggcccc 1920 agcacctgcc gcccctgccg caccggctcc agccgcccca gccgccgcgc cagcggcccc 1980 ggcccctgcc gcgcccgctg ctcccgcccc tgctgcccca gccgccgctc ctgcggcacc 2040 tgcgcccgcc gcgccggcag cgccggcacc ggcagctccg gcggccgcgc ctgcagctcc 2100 tgcaccggcg gctccagcag ccccggcgcc ggccgcacct gcggcggcgc ccgcggcgcc 2160 tgcacccgca gcgcctgcgg caccggcccc agcagcccct gccgccgcac cggctgcgcc 2220 tgccccagcg gcccccgctg ccccggcccc ggcggctcca gccgcagcgc ctgccgcccc 2280 agcgcccgca gcaccggcgg caccagctcc ggcggcgccg gcggcggctc cggcagctcc 2340 ggcccctgct gcgccggctg cgccggctcc ggcggcccct gcggcggctc cggccgcacc 2400 tgcacctgcc gcgccggctg ctccggcccc ggctgcccca gcagcggcac cagcagcgcc 2460 tgctcctgcg gcgcctgcag ctccggcgcc ggcagccccg gccgccgcac ccgcggctcc 2520 agcccccgcc gctccagcag cccccgcgcc agctgcacct gctgccgctc ctgctgcccc 2580 tgctcccgct gcccccgccg cccccgcccc agctgccccc gctgccgcac ctgctgcccc 2640 agctcccgct gccccagccg cgccggcccc cgcagctcca gccgcggcac cagctgcccc 2700 agctccagcg gcgcctgctg ccccggcccc cgcggcaccg gctgccgcgc ccgcagctcc 2760 agcgcctgct gcaccggctg ctccggcacc cgccgcgcca gcagctgccc ctgcggcacc 2820 agctcctgct gcccccgcgg cacctgcacc cgctgccccg gcggcagctc ccgccgcgcc 2880 agcccctgca gctcctgctg cacctgctcc tgccgcccct gctgctgccc ctgctgctcc 2940 agcccctgca gcaccggccg ctccagctcc tgccgctcct gccgctgcgc ccgctgctcc 3000 agccccagct gcgccagcag ctcctgcacc tgctgcccct gccgccgccc ctgcggctcc 3060 agcacctgct gcaccggccg ccccggcgcc cgctgccccc gcagcagccc cagccgcacc 3120 cgctccagca gctcccgcag ccccagcacc cgcagcacca gccgccgtgc cgattcagaa 3180 agttcaggat gataccaaaa ccctgattaa aaccattgtg acccgcatta acgatatcag 3240 ccatacccag agcgttagca gcaaacagaa agttaccggt ctggatttta ttccgggtct 3300 gcatccgatt ctgaccctga gcaaaatgga tcagaccctg gcagtttatc agcagattct 3360 gacaagcatg ccgagccgta atgttattca gattagcaat gatctggaaa acctgcgtga 3420 tctgctgcat gttctggcat ttagcaaaag ctgtcatctg ccgcaggcaa gcggtctgga 3480 aaccctggat agcctgggtg gtgttctgga agcaagcggt tatagcaccg aagttgttgc 3540 actgagccgt ctgcaaggta gtctgcaaga tatgctgtgg cagctggatc tgagtccggg 3600 ttgttaagct tgacctgtga agtgaaaaat ggcgcacatt gtgcgacatt ttttttgtct 3660 gccgtttacc gctactgcgt cacggatccc cacgcgccct gtagcggcgc attaagcgcg 3720 gcgggtgtgg tggttacgcg cagcgtgacc gctacacttg ccagcgccct agcgcccgct 3780 cctttcgctt tcttcccttc ctttctcgcc acgttcgccg gctttccccg tcaagctcta 3840 aatcggggca tccctttagg gttccgattt agtgctttac ggcacctcga ccccaaaaaa 3900 cttgattagg gtgatggttc acgtagtggg ccatcgccct gatagacggt ttttcgccct 3960 ttgacgttgg agtccacgtt ctttaatagt ggactcttgt tccaaactgg aacaacactc 4020 aaccctatct cggtctattc ttttgattta taagggattt tgccgatttc ggcctattgg 4080 ttaaaaaatg agctgattta acaaaaattt aacgcgaatt ttaacaaaat attaacgttt 4140 acaatttcag gtggcacttt tcggggaaat gtgcgcggaa cccctatttg tttatttttc 4200 taaatacatt caaatatgta tccgctcatg agacaataac cctgataaat gcttcaataa 4260 tattgaaaaa ggaagagtat gagtattcaa catttccgtg tcgcccttat tccctttttt 4320 gcggcatttt gccttcctgt ttttgctcac ccagaaacgc tggtgaaagt aaaagatgct 4380 gaagatcagt tgggtgcacg agtgggttac atcgaactgg atctcaacag cggtaagatc 4440 cttgagagtt ttcgccccga agaacgtttt ccaatgatga gcacttttaa agttctgcta 4500 tgtggcgcgg tattatcccg tattgacgcc gggcaagagc aactcggtcg ccgcatacac 4560 tattctcaga atgacttggt tgagtactca ccagtcacag aaaagcatct tacggatggc 4620 atgacagtaa gagaattatg cagtgctgcc ataaccatga gtgataacac tgcggccaac 4680 ttacttctga caacgatcgg aggaccgaag gagctaaccg cttttttgca caacatgggg 4740 gatcatgtaa ctcgccttga tcgttgggaa ccggagctga atgaagccat accaaacgac 4800 gagcgtgaca ccacgatgcc tgtagcaatg gcaacaacgt tgcgcaaact attaactggc 4860 gaactactta ctctagcttc ccggcaacaa ttaatagact ggatggaggc ggataaagtt 4920 gcaggaccac ttctgcgctc ggcccttccg gctggctggt ttattgctga taaatctgga 4980 gccggtgagc gtgggtctcg cggtatcatt gcagcactgg ggccagatgg taagccctcc 5040 cgtatcgtag ttatctacac gacggggagt caggcaacta tggatgaacg aaatagacag 5100 atcgctgaga taggtgcctc actgattaag cattggtaac tgtcagacca agtttactca 5160 tatatacttt agattgattt aaaacttcat ttttaattta aaaggatcta ggtgaagatc 5220 ctttttgata atctcatgac caaaatccct taacgtgagt tttcgttcca ctgagcgtca 5280 gaccccgtag aaaagatcaa aggatcttct tgagatcctt tttttctgcg cgtaatctgc 5340 tgcttgcaaa caaaaaaacc accgctacca gcggtggttt gtttgccgga tcaagagcta 5400 ccaactcttt ttccgaaggt aactggcttc agcagagcgc agataccaaa tactgtcctt 5460 ctagtgtagc cgtagttagg ccaccacttc aagaactctg tagcaccgcc tacatacctc 5520 gctctgctaa tcctgttacc agtggctgct gccagtggcg ataagtcgtg tcttaccggg 5580 ttggactcaa gacgatagtt accggataag gcgcagcggt cgggctgaac ggggggttcg 5640 tgcacacagc ccagcttgga gcgaacgacc tacaccgaac tgagatacct acagcgtgag 5700 ctatgagaaa gcgccacgct tcccgaaggg agaaaggcgg acaggtatcc ggtaagcggc 5760 agggtcggaa caggagagcg cacgagggag cttccagggg gaaacgcctg gtatctttat 5820 agtcctgtcg ggtttcgcca cctctgactt gagcgtcgat ttttgtgatg ctcgtcaggg 5880 gggcggagcc tatggaaaaa cgccagcaac gcggcctttt tacggttcct ggccttttgc 5940 tggccttttg ctcacatg 5958 <210> 87 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1j(200), codon-optimized for P. pastoris <400> 87 gccgcacctg ccgcacctgc ccctgctgcc ccagctgccc ctgctcctgc cgcccctgcc 60 gccgctcctg ccgctcctgc tcctgccgct ccagctgctc cagctcctgc tgctccagca 120 gctgccccag ccgccccagc tcctgctgcc ccagccgcac ctgcaccagc cgctccagct 180 gctgcccctg ccgcacctgc accagctgct ccagccgcac ctgcacctgc cgccccagct 240 gccgcccctg ccgcaccagc tcctgcagcc cctgccgctc cagccccagc agctccagct 300 gccgcccctg cagcccctgc cccagccgca ccagctgccc ctgccccagc agctcctgct 360 gccgcccctg ctgctccagc accagcagct ccagccgcac ctgctccagc cgctccagct 420 gccgcacctg ccgctccagc ccctgcagcc cctgcagccc cagctccagc cgccccagcc 480 gccgcacctg cagccccagc accagctgcc cctgcagcac cagctcctgc tgctcctgct 540 gcagcaccag ccgcaccagc accagcagca ccagccgccc cagccccagc cgcaccagca 600 600 <210> 88 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1k(200), codon-optimized for P. pastoris <400> 88 gccgcccctg ccgcccccgc tcctgctgca cctgctgctc ccgcacccgc cgcccctgcc 60 gctgcccctg ctgcaccagc ccctgctgct ccagccgcac cagctccagc agctcctgcc 120 gctgccccag ctgccccagc tcccgccgcc cccgccgctc ctgcacccgc tgcaccagcc 180 gccgccccag ccgctccagc cccagccgct cctgcagctc ctgctcctgc tgcccctgca 240 gccgccccgg cagctccagc tcccgcagct cctgctgcac cagctcccgc tgctcctgca 300 gccgcacctg ctgcccctgc tcctgctgct ccagctgcac ccgctcctgc cgcaccagcc 360 gctgcccctg ccgctccagc acccgccgca ccagccgctc ctgcccctgc agctccagcc 420 gccgcccctg ccgcgcctgc tccagccgct cctgcagcac ctgcacctgc agcacctgct 480 gcagcaccag cagctcctgc tcccgcagca ccagcagccc cagcaccagc cgctccagca 540 gccgctccag ctgcacctgc ccctgcagca cctgcagctc ctgctccagc ggctccagct 600 600 <210> 89 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1l(200), codon-optimized for P. pastoris <400> 89 gccgcccccg ccgctccagc acctgccgca cctgcagctc cagcccctgc tgctcctgct 60 gctgcacctg ccgctcccgc accagctgct cccgcagctc ccgcccctgc cgcgccagct 120 gccgctcccg ctgcccctgc accagctgct cctgctgctc ctgcccctgc tgcacctgca 180 gctgctccag ccgcccctgc tccggcagcc ccagcagcac ccgctcctgc tgcaccagcc 240 gccgcaccag ctgctccagc tccggcagca cctgcagccc ccgctccagc cgcccctgcc 300 gcagccccag ctgcgccagc tcccgctgct ccagcagctc cagcacccgc cgctccagcc 360 gccgctcccg ctgctccagc tccggctgca cctgctgcac ctgctcctgc tgctcccgct 420 gctgcccccg cagcaccagc tcctgccgca cctgctgctc ctgctccagc agcacccgcc 480 gcagctcctg cagcaccggc tccagcagct cctgctgcac ctgcccctgc cgctcccgct 540 gcagctcccg ccgctcccgc ccctgctgca cccgctgccc cagcacctgc agcacctgca 600 600 <210> 90 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1m(200), codon-optimized for P. pastoris <400> 90 gccgcacccg ctgcacctgc ccccgcagcc ccagccgccc ctgcccccgc tgcacctgca 60 gcagcccccg ctgcccctgc acccgcagca ccagctgcac ctgctcctgc cgctcccgct 120 gctgcacctg ctgccccagc ccctgctgca ccagcagctc cagctcccgc tgcccctgct 180 gcagcacccg ctgctcctgc tcctgcagct ccagctgcac cagccccagc agcacctgcc 240 gctgctcctg ctgcccccgc tccagcagcc cctgcagcac ctgctcctgc agcccccgca 300 gcagctccag ctgcccctgc ccccgccgct ccagctgctc ctgctcccgc cgcacctgcc 360 gcagctcctg cagctcctgc acctgctgct ccagccgctc ccgcaccagc agcacctgct 420 gccgctcctg cagccccagc acccgctgcc cccgcagcac ctgcacccgc cgcccctgct 480 gccgcacccg ccgcacctgc tccagctgct cccgcagccc ctgcacctgc cgctcctgcc 540 gccgctccag ccgctccagc ccccgcagct cctgccgctc cagcacctgc agctccagca 600 600 <210> 91 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1n(200), codon-optimized for S. cerevisiae <400> 91 gccgctccag ctgcaccagc tccagcagct ccagccgctc ctgctcctgc tgctcccgca 60 gcagcccctg cagcacccgc tccagcagca cccgctgctc cagctccagc tgcacccgca 120 gctgctccag cagcacctgc accagccgca ccagcagctc ccgctccagc agctcctgca 180 gcagcacccg ccgcaccagc accagccgca ccagctgctc cagcaccagc cgctccagct 240 gcagccccag cagctcccgc tcctgcagct cctgctgctc ctgcaccagc agcacccgcc 300 gcagctcccg cagcaccagc tccagctgct cccgctgcac ccgctccagc cgcaccagcc 360 gctgcaccag ctgcacccgc tccagctgca cccgccgctc cagctcctgc agcaccagct 420 gctgccccag ccgctccagc accagctgct cccgccgctc ctgcaccagc agctccagct 480 gccgctcctg cagcacccgc accagctgca ccagcagcac cagcaccagc agcaccagct 540 gctgctcccg ctgctcctgc tcctgccgct cctgcagctc cagctcctgc cgctccagct 600 600 <210> 92 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#o(200), codon-optimized for S. cerevisiae <400> 92 gccgctccag ctgctccagc cccagctgca cctgcagcgc cagcaccagc agctccagca 60 gctgcaccag ccgctcccgc accagctgct cctgctgctc cagcgcctgc agctcctgct 120 gccgctccag ctgccccagc tccagcggct ccggcagcgc cagccccagc agcacccgcc 180 gctgcacctg ccgcaccagc tcctgccgca cctgctgctc ccgcaccagc agcaccggca 240 gctgctccag ccgcaccagc gcctgccgca cccgctgccc cagcacctgc ggcgccagca 300 gcagctcctg cggcaccggc accagctgcc cctgcagctc cggctccagc tgcgcctgcc 360 gctgcaccag ctgcgcctgc gccagccgct cctgctgcgc ctgcaccagc ggcaccagca 420 gctgcacccg ctgcaccagc gccagcagct ccggcagctc cagcgcccgc ggcgcctgct 480 gctgcccctg ccgctccagc tccagctgct cctgcagcac cagcccctgc agccccggcg 540 gccgcaccag cagcgcctgc acctgcggct ccagcagccc cagccccagc ggcccctgcc 600 600 <210> 93 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1p(200), codon-optimized for S. cerevisiae <400> 93 gccgctccag cagcaccagc tcctgcagct ccagctgcac ctgctccagc cgctcccgct 60 gcagctccgg ccgctcccgc cccagccgca cccgcagccc cagctcccgc tgctccagct 120 gcagctccag cagcacctgc gcccgcggca ccagccgctc ctgcaccggc tgcacccgct 180 gcggcgccgg cagcacccgc tcccgcagcc cccgcagcgc ccgccccagc ggccccagcc 240 gcggcgccag cagctccagc tccagcggca cccgcggcac cagctcccgc agcgccggcg 300 gcagctcctg cagccccggc ccccgccgca ccagcagctc ctgctccggc ggcaccagca 360 gcagcgccgg cggctccggc gccggcagcg ccagcggccc ctgctcccgc cgcgccggca 420 gcagcccccg ccgctccagc ccctgcggct ccggcggcgc ccgcccccgc agcacctgcg 480 gctgcgccag ccgcacctgc cccggctgca cctgctgcac ccgcgccggc tgcacccgcg 540 gctgccccgg ctgctccggc gccagcggca cctgctgcac cagcacctgc cgcgccagcg 600 600 <210> 94 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1q(200), codon-optimized for K. lactis <400> 94 gccgctccag cagcaccggc cccagccgcg cccgccgctc cagctcccgc tgcacctgca 60 gccgctcctg ctgcacctgc acctgcagcc ccagccgctc cagctcctgc cgctccagcc 120 gccgcccctg ccgcacccgc accagcagca cctgccgcgc ctgctccagc agcaccagcc 180 gcagcaccag ccgctccagc gcctgcagct ccagcagccc cagctcccgc agcaccagct 240 gcagcaccag cagctcctgc acctgcagca ccagccgcac cagcccccgc tgcccctgct 300 gccgcccctg cagcacctgc gccagccgcg ccagcagctc cagctccagc agcacccgca 360 gcagctccag cagctcccgc tcctgctgcc cctgccgctc ctgcccctgc tgcaccagcc 420 gccgctcccg cagctcctgc accagctgca cctgccgccc ccgcacctgc cgcacccgct 480 gccgctcctg ctgcccccgc acccgctgca cccgcggccc cggccccggc agctccagca 540 gcagctcctg ccgctccggc ccctgcagca ccagccgctc ccgcaccggc cgcacccgcc 600 600 <210> 95 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1r(200), codon-optimized for K. lactis <400> 95 gccgccccag cagctcctgc tccagctgct cccgctgctc cagcccctgc agctcccgcc 60 gcagcaccag ccgccccagc tcctgccgct cccgccgctc cagcacctgc cgcccctgct 120 gctgctcctg ccgctcctgc ccccgccgcc ccagccgccc cagccccagc agcaccagca 180 gcggcccctg cagccccagc tcctgcagca cctgccgcac ctgcaccagc tgccccagct 240 gccgccccag cagcccctgc tcctgcagca ccagctgcac ctgctccggc cgcaccagca 300 gccgcacctg cagctccagc acccgcagct cccgcagccc cagcacctgc cgctcccgct 360 gctgctcccg ccgctcctgc cccagctgct cctgccgcac ctgctcccgc agctccagcc 420 gctgcgcctg ctgcaccagc acccgcagca ccggcagcgc cagcacctgc agctcctgcc 480 gcagcgcccg cagcaccagc ccctgccgct ccagcagcac ctgctcctgc tgctccagcc 540 gccgcccccg ctgcaccagc tccagctgca ccagctgctc ccgcccctgc tgccccggcc 600 600 <210> 96 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1s(200), codon-optimized for K. lactis <400> 96 gccgcccccg ctgctcctgc cccagctgcc cccgccgcgc cagcccctgc tgctcctgct 60 gccgcgcctg cagctccagc cccagccgca ccagcagccc cagccccagc agctcccgcc 120 gcagctccag cagcccccgc cccagctgca ccagccgcac cagcacctgc tgctcccgcc 180 gctgccccag ccgctcctgc tccagccgcc cctgccgctc ccgccccagc agccccagca 240 gcagcgccag cagccccagc acccgctgct ccagccgccc cagctccggc cgcaccagct 300 gccgccccag ccgctcctgc accagctgcc cctgccgccc cagctcccgc cgccccagca 360 gcagctccag ccgcaccagc cccagccgcg ccagctgctc ctgcacctgc tgcacctgca 420 gcagctcccg ctgctccagc acctgctgca cctgctgctc cagccccagc agcgcccgca 480 gccgctccag cagctccagc acctgcagct ccagccgctc cagccccagc cgcgcctgcc 540 gccgctccag ctgcccctgc cccagcagca cccgccgctc cagccccagc agctccagcc 600 600 <210> 97 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1t(200), codon-optimized for H. sapiens (HEK cells) <400> 97 gccgctcctg ctgctccagc tccagctgca ccagccgctc cggcaccagc agcacccgct 60 gctgcccctg cagctcctgc tccggcagct cccgcagctc ctgcaccagc tgctccagct 120 gccgctccag ccgctcctgc tcctgccgct cctgcagcac ccgctccggc cgcaccagct 180 gctgctcccg ctgcacccgc tccagcagct ccggctgcac cagcaccggc tgctccagca 240 gcagcccctg cagcaccagc tccagctgct cccgcagctc cagctcctgc tgctccggcc 300 gctgctcctg ccgcaccagc accagccgct ccagctgcac ccgcaccagc tgcacccgcc 360 gctgctccag ctgctcctgc accggcagca ccagctgctc ccgctccggc tgctcccgct 420 gctgcaccgg ccgctccagc tccagcagct cctgccgctc ccgcaccagc agctcccgca 480 gcagcacccg ccgcaccggc tccggcagca ccagccgcac cagctcccgc tgcaccggct 540 gccgcaccgg ctgcaccggc accagcagct ccagccgctc cggctcctgc agctccagca 600 600 <210> 98 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1u(200), codon-optimized for H. sapiens (HEK cells) <400> 98 gccgccccgg ctgctcccgc tcctgcagca ccggcagctc ccgctccagc cgcaccagca 60 gcagcacccg cagctccagc accggctgca cccgctgcac ctgctccagc cgctccagca 120 gctgccccag ccgcaccagc accggcagct ccggctgctc ctgctccagc agcacccgcc 180 gcagctccgg ccgctccagc tcctgctgca cccgcagctc ccgcaccggc agctccagcc 240 gctgcaccag cagctccggc tccagctgct ccagcagcac cagctccagc cgcacccgct 300 gcagccccag ctgcaccagc accagccgca cctgcagctc cagcaccagc tgctccggca 360 gctgcacccg ctgctcccgc accagctgca ccagcagcac ccgcaccagc cgctccggcc 420 gcagctcctg cagctcccgc ccctgcagct cctgccgctc ctgctcccgc tgctcctgcc 480 gcagctcccg ctgctccggc tcctgccgca ccagctgcac ccgctccggc agcaccagca 540 gccgcacccg cagcaccagc tccagcagct ccagctgctc ctgctcctgc tgcaccagct 600 600 <210> 99 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1v(200), codon-optimized for H. sapiens (HEK cells) <400> 99 gccgccccgg cagcacccgc accggctgca ccagccgctc cagcaccggc cgcaccagcc 60 gcagctccag cagcaccggc accggcagct cccgcagcac cagctccggc agctccagcc 120 gccgctccgg ctgcaccagc tccagcagca ccagctgctc cagctccagc agcacccgca 180 gctgctccag cagctcccgc tccggccgct cctgctgcac cggctccagc tgctccggcc 240 gcagcaccag cagctccagc cccagccgct ccagcagctc ctgctcccgc agcaccggca 300 gccgcaccag ctgctccggc tccggcagct cctgctgcac cagctcccgc cgctccagct 360 gcagctccag ctgctccggc accggctgca ccggccgctc cggctcccgc cgcaccagct 420 gcagcccctg ccgctcctgc accagctgca cccgctgctc cagctccggc tgctcctgca 480 gccgctcctg cagctccggc accagctgca cctgcagctc ccgctccagc tgctcctgca 540 gcagctcccg ctgcaccagc accagcagct cccgccgcac cggctccagc tgcaccagca 600 600 <210> 100 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1w(200), codon-optimized for B. subtilis <400> 100 gccgcaccgg ctgcaccggc accagctgcg cctgctgcac cagcaccggc agcaccagca 60 gccgcacccg ctgctcccgc tcctgctgcg ccagctgcac cagctccggc agcgcctgcg 120 gctgctccag cggctccggc tcctgcagct cctgccgctc cagctccagc agcaccagct 180 gcggctccgg ctgcaccggc tccagccgca ccagcagcac cggcaccggc agcgccagct 240 gcagcccctg ctgctccggc gcctgctgca ccggcagctc cggcaccagc ggcaccggca 300 gcagctccgg cagctccggc tcctgctgct ccggcagcgc cagcgccagc agctcctgca 360 gctgctcctg ctgcacctgc accggctgct ccagcagcgc cggcaccggc tgcgccggct 420 gcagctccag ctgctccagc gccagctgct ccggcagcac cggctccggc tgcgcctgca 480 gccgctcctg cagcgcctgc accagccgct ccggcggctc ctgcaccagc cgcaccggct 540 gctgcacctg ctgcgcctgc gcctgctgct cctgctgcgc ctgctccggc agctcctgca 600 600 <210> 101 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1x(200), codon-optimized for B. subtilis <400> 101 gccgcacctg cagcaccagc tccggcagca ccggcagctc cagcgcctgc ggctccggct 60 gctgctcctg cagctcctgc gccagctgcg ccagcagctc cagctccagc cgctcctgct 120 gcagcccctg cggcaccggc tccggcagct ccagcggcac cagcaccggc agctccggct 180 gcagcgccag cagctccggc accagcagct ccagcagcgc cagctcctgc ggcaccagcc 240 gcagcaccag ccgctccggc tccagctgcg cctgccgcac cggctccagc ggcaccggct 300 gcggcaccag cagcaccagc gcctgcagca ccagcagcgc cagcacctgc tgctccggca 360 gctgcaccgg ctgctccggc tccagcagct ccggctgcac cagcgcctgc tgcgcctgca 420 gcagcacctg cggctccggc accggctgca ccggcggcac cggctccagc tgctccagca 480 gcggctcctg cagctccggc tcctgccgca ccggctgctc cagctccggc tgcgccagcg 540 gcagcaccgg ctgcaccagc accagcggcg ccagccgcac cagcacctgc tgcgcctgct 600 600 <210> 102 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1y(200), codon-optimized for B. subtilis <400> 102 gccgcaccgg ctgcgccagc acctgcagcg cctgccgctc ctgctccggc tgctccggct 60 gctgcaccag cggcaccagc accagcagcg cctgcggcac cggcaccagc cgcaccagct 120 gccgctccag ccgctccggc accggctgct ccggcagcac cagcaccagc tgcaccagcg 180 gcagcgcctg cagcgccagc tccggcagcg ccagcagcac cagctccagc tgcaccggct 240 gctgcccctg ctgcaccagc tccagccgct ccggctgcgc ctgctcctgc agcgccagct 300 gccgctcctg cagcaccagc gccagcggca ccggcagcgc ctgctccggc tgcaccagct 360 gccgcaccgg cagcacctgc accagcagct ccagctgctc cggctccagc ggctcctgca 420 gctgcgcctg cggctcctgc accagcggct ccagctgctc ctgcgcctgc cgctccagca 480 gcagctccag ctgcgcctgc gccagcagca ccggctgcgc ctgcaccagc ggctccggca 540 gcagcaccag ctgcgccagc gcctgcagct ccggctgctc cggcaccagc tgcgccagct 600 600 <210> 103 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1z(200), codon-optimized for E. coli <400> 103 gccgcacctg ccgcacctgc ccctgctgcc ccagctgccc ctgctcctgc cgcccctgcc 60 gccgctcctg ccgctcctgc tccagccgct ccagctgctc cagctcctgc tgctccagct 120 gctgccccag ccgccccagc tcctgctgcc ccagccgcac ctgcaccagc cgctccagct 180 gctgcccctg ccgcacctgc accagctgct ccagccgcac ctgcacctgc tgccccagct 240 gccgcccctg ccgcaccagc tcctgcagcc cctgccgctc cagccccagc agctccagct 300 gccgctcctg cagcccctgc ccctgccgca ccagctgccc ctgccccagc cgctcctgct 360 gccgcccctg ccgctccagc accagcagct ccagccgcac ctgctccagc tgctccagct 420 gccgcacctg ccgctccagc ccctgcagcc cctgcagccc cagccccagc cgctccagcc 480 gccgcccctg cagccccagc accagctgcc cctgcagccc cagctcctgc tgctcctgct 540 gcagcaccag ccgcaccagc accagcagca ccagccgccc ctgcaccagc cgcaccagca 600 600 <210> 104 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1aa(200), codon-optimized for E. coli <400> 104 gccgccccag cagcaccggc tccagctgcc ccagccgcac cagcaccagc cgctccagcg 60 gccgcgcctg ccgctcccgc acccgcggct ccggccgccc ctgcgccggc ggcaccggcg 120 gcggcacccg cggcacctgc acctgccgcc cccgcggctc ctgctcccgc ggcgccagca 180 gcagcgccag cggcgcctgc tcctgccgca ccagcagcac cagcacccgc cgcgccagca 240 gcggcccctg cagctcccgc cccggcagcg cccgctgcgc cagcacccgc tgctcccgcg 300 gcagcccccg cagctccggc ccctgcggct ccagctgcac cagcaccggc agcgccggcg 360 gcggcaccag ccgcacccgc accggctgcg cccgccgcgc cagcgccagc cgctccagct 420 gccgcgccgg cagccccggc ccccgctgcc cctgctgcac ccgcgcctgc agcaccggcg 480 gcagcccctg cggcacctgc acccgcggct cccgctgccc ctgcacccgc agcgcccgcc 540 gccgcaccgg ccgctccggc acctgcagcg ccggctgcac cagcgccggc agctccagcg 600 600 <210> 105 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1ab(200), codon-optimized for E. coli <400> 105 gccgcgcccg ctgcacccgc accagctgca ccagccgcac cggcaccggc ggccccagct 60 gcagcaccgg cagcccccgc gccggccgcg ccagccgcgc cggcaccggc tgctccggct 120 gcagcaccgg cagcgcctgc gccagctgct cccgcagctc ctgctccggc ggcgcctgca 180 gctgcaccgg cagctcctgc cccagcagcc ccggcggcgc cagcgcccgc cgccccagct 240 gcagcccctg cagcgccggc acccgccgcc cccgcagcac ctgcgccggc cgccccagct 300 gcggcaccgg ccgcacccgc cccggcggct ccagcagcac ctgctccagc agcaccagct 360 gcagcccctg cggcaccagc acccgcagcg ccagcggcac cagctccggc cgctcccgcc 420 gctgcaccag cctcaccggc gccggccgca ccagctgctc ccgccccagc cgctcccgcg 480 gcggcaccag cggcgccagc gcccgcagct ccggcagcac cggcgccggc tgctcctgcc 540 gccgcacctg ctgccccggc gcccgccgcc cccgccgctc ccgcgccggc tgcacctgcg 600 600 <210> 106 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1ac(200), codon-optimized for E. coli <400> 106 gccgcgccag cggcgccagc tcctgccgcg cccgcagccc cagcgcccgc cgctccggcc 60 gccgcgcccg cggctcccgc acccgctgcg cccgccgctc cagcacctgc cgccccagcg 120 gcggcaccag ccgcgccagc acccgctgcg cctgcagcac ccgctccggc ggccccggcg 180 gctgctccag ccgcccctgc acccgctgct ccagctgcgc ccgccccagc cgccccggcc 240 gccgctccgg ctgcaccggc accggcagca ccggctgcgc cagccccggc tgccccggca 300 gctgctccgg cggcacctgc ccccgccgcg ccagctgccc ccgcaccggc agctccagcg 360 gcagccccgg cggcaccagc tccagcagcg ccagctgcgc ctgccccagc agcgccagcc 420 gctgctccag cagctcctgc ccctgctgcg cctgcggctc cggcgccagc tgctcctgct 480 gcagctccgg ccgccccagc accggcagcg ccagcagcac cggcgccagc tgcccctgcc 540 gccgcaccag cagcacctgc gccggcggct cccgcagcac ctgctccggc tgcccctgcc 600 600 <210> 107 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1ad(200), codon-optimized for E. coli <400> 107 gccgcgcccg ctgcaccggc acctgctgcg ccggcggcgc ctgcacctgc agcaccagca 60 gcggccccgg cggctcccgc acctgccgcc ccggcagctc ccgcaccggc ggcgcctgcc 120 gcagctcccg ccgcaccagc gccagccgca ccagccgctc cggcccccgc ggctccggca 180 gcagcccccg ccgctccagc gcctgctgca cctgccgcgc ctgcgcctgc cgcacctgcc 240 gctgctcccg ctgccccagc tccagccgct ccggcggcgc ccgcacctgc tgcccctgcg 300 gccgctcccg ctgcgcccgc gcctgctgct cctgcagcac cagctcccgc cgctccggcc 360 gcagcccccg ctgccccggc gcctgcagct ccagcggcgc cggctcccgc tgcgcccgcc 420 gcagcccccg cagccccagc acctgctgct cccgctgcgc cggccccggc tgctccagct 480 gcagctccag cggcccctgc ccctgctgct cccgccgcgc cagctcctgc cgctccagct 540 gcagctcctg ctgctcccgc gccggcagct ccggctgcac cggctccagc agctcctgcg 600 600 <210> 108 <211> 300 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1ae(100), codon-optimized for E. coli <400> 108 gccgctcctg ctgcccctgc tcccgctgcc cccgccgccc ccgccccagc tgcccccgct 60 gccgcacctg ctgccccagc tcccgctgcc ccagccgcgc cggcccccgc agctccagcc 120 gcggcaccag ctgccccagc tccagcggcg cctgctgccc cggcccccgc ggcaccggct 180 gccgcgcccg cagctccagc gcctgctgca ccggctgctc cggcacccgc cgcgccagca 240 gctgcccctg cggcaccagc tcctgctgcc cccgcggcac ctgcacccgc tgccccggcg 300 300 <210> 109 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1af(200), codon-optimized for C. glutamicum <400> 109 gccgcgcccg cggctcctgc cccagcagcg cccgcggcac cagcaccggc ggccccggcc 60 gccgcccctg ctgcgcccgc gcctgcagct cccgccgccc cagcccccgc tgcaccagca 120 gccgctccag ccgcaccggc gcccgctgca cctgccgctc cggcgccggc cgctccagcc 180 gctgcaccag ccgcgccagc accagctgca cctgcggccc ctgcgccagc tgcgccagca 240 gcggcaccag cagctccagc tccagctgcg cctgcggcac ctgccccggc tgccccggcg 300 gctgcgcctg cggcccctgc accagccgcc ccagctgcac ccgcccctgc ggcgcctgcc 360 gccgcacccg ccgcgcctgc cccagccgct ccggcggcac ctgccccagc tgctcctgca 420 gcagcccctg ccgccccggc gccagccgca cccgccgcac cagcacctgc agcgccagct 480 gccgcgccag ctgcgcctgc ccccgcagcc cccgccgctc ctgctccagc cgcacccgca 540 gccgctccgg ctgctccagc cccagcagct ccagcggcac ccgcccctgc tgcaccggct 600 600 <210> 110 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1ag(200), codon-optimized for C. glutamicum <400> 110 gccgctccgg ccgcccccgc acccgctgct cccgcagcgc cggcgcctgc ggcacccgca 60 gccgcccctg cagccccagc tcccgcagcc cccgctgctc ctgctccagc tgcacccgcg 120 gctgcacccg ctgcaccggc cccggcggct cctgccgccc cagcgccggc ggctcccgct 180 gctgcacccg cggcccctgc gccggcagcc ccagcggcac cagcgcctgc cgcaccggca 240 gccgccccag ccgccccagc gccagctgcg ccagcggctc cggccccagc tgcgccggca 300 gcggcacctg cagctccagc tcctgctgct cccgcggcgc ccgcccccgc agcacctgct 360 gccgccccag ctgccccagc tccggccgcc cctgcggctc ctgctcctgc agcgcctgct 420 gcggctcccg cggcgccagc gccggcggcc ccagcagctc cagctcctgc agcaccggca 480 gcggcccccg cggctccagc tcctgcagct ccggctgccc cagcccctgc cgcaccggct 540 gcagcgcccg cggctcccgc tcctgcagca cctgcagcac cagcccctgc tgcaccggcg 600 600 <210> 111 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1ah(200), codon-optimized for C. glutamicum <400> 111 gccgctcctg cagcaccagc gccagcggct cccgccgcac cggcaccagc tgctcccgct 60 gcagcgccgg cggcacccgc tccggctgcg ccggccgcgc ctgccccggc ggcgcctgca 120 gcagcgcctg ccgcacctgc tccagccgct ccagcggcgc ccgcccccgc ggccccagca 180 gcggctccgg cggccccagc gcccgcagcc ccagccgcgc ccgcacctgc tgcgccggcc 240 gccgcacccg cggcaccggc gcccgcggcc cccgctgccc ctgcacccgc tgcccccgca 300 gccgctccag cagcaccagc accagcggct ccggcggcgc cggctcccgc tgcccccgca 360 gcagcgcccg ccgcccccgc gcctgccgca ccagcggcac cggcaccagc agcgcccgcg 420 gccgcgccag ctgcgcccgc cccagcggct cctgccgccc ccgcgccggc cgctcctgca 480 gctgcccctg ccgctccggc gccagccgct cccgccgccc ccgctcctgc ggctccggcc 540 gctgcgccgg ctgcccctgc accagcggct ccggccgctc cggcccccgc cgctccagct 600 600 <210> 112 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1ai(200), codon-optimized for C. glutamicum <400> 112 gccgctccag ctgcacccgc tcctgccgca ccggcggctc cagcacccgc ggcacctgcc 60 gccgcacctg ctgcacctgc accggccgct cccgccgccc cggccccggc ggctccagcc 120 gctgcgcccg cagctcctgc ccccgcagcc ccggcagcgc ccgcaccggc agcccctgcg 180 gcggcgcccg cagcaccagc tccggccgct cccgctgccc cggcaccggc tgccccagcc 240 gccgcacctg cggcgccggc gccggccgca ccggctgcgc ccgcgccggc agcccccgct 300 gcagcacctg ccgccccagc cccagccgct ccagccgctc ccgcaccggc tgcgcctgct 360 gcagccccag ccgcgccggc tccggcggcc ccggcggccc cggctccggc agccccagcc 420 gcagcccccg cagcgccagc gccagccgct ccggcagcac ctgcacctgc ggcgcccgcg 480 gcggcacctg cagcgcctgc gcccgctgcc cccgcggccc ccgctcctgc cgcgccggcg 540 gcggcaccag ccgcccctgc cccagctgca ccggcagcgc ctgcccccgc tgcgccagcc 600 600 <210> 113 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1aj(200), codon-optimized for P. patens <400> 113 gccgctcccg ctgcccctgc tcctgctgcg cccgctgcac ctgcccctgc tgctcccgca 60 gctgctccag ccgcccccgc tcccgctgca ccagctgctc ccgctcctgc cgctcccgct 120 gccgcacccg ctgcacctgc gcctgcggct cccgccgctc ccgcccccgc tgcgcccgca 180 gccgcccccg cagcccccgc accagcagcc ccagccgcac cagctccagc agccccagct 240 gccgcacctg ctgcacccgc tcctgctgct cccgcagcac cagcccctgc agctcccgct 300 gccgcgcctg ccgcccctgc ccccgcagca ccagcagctc ccgccccagc tgcacctgca 360 gccgctccag cagccccagc ccctgccgct ccagctgctc ctgctccagc cgcaccagca 420 gccgcacccg ctgcaccagc acctgcagcg cccgctgcac cagcgcccgc tgccccagct 480 gccgctcccg ccgcaccagc tcctgctgca cccgctgctc cagcacccgc cgctcccgcc 540 gctgctcctg ccgctcctgc tcccgcagct cccgctgcgc ctgctccagc tgcaccagcc 600 600 <210> 114 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1ak(200), codon-optimized for P. patens <400> 114 gccgcacctg ccgcaccagc ccccgcagca cccgcagcgc cagctccagc agctccagcc 60 gccgcacctg ccgctcccgc gcccgctgct cctgccgccc ctgcccctgc tgcacccgct 120 gcagctcctg ccgctcctgc acctgccgct cctgcagccc ctgctcctgc tgcccctgct 180 gccgctccag ctgcccctgc tcctgccgcg cctgctgccc cagcaccggc cgccccagca 240 gctgctcctg ctgcccccgc accagcagct ccagccgcgc ctgcgcctgc tgcccccgct 300 gccgctcctg ccgctcctgc ccctgctgct cctgctgcac ccgctcccgc tgctcctgct 360 gctgcacccg ccgcccctgc tcctgcagct ccagccgctc ccgctccagc tgcaccagcc 420 gccgccccag ccgcgccagc gccagctgcc cctgctgcac ctgctcccgc cgctcccgct 480 gccgcccccg ctgcacccgc accagctgca cccgctgctc ccgcccctgc tgctcccgct 540 gcagctccgg ccgctcccgc acctgctgct cccgctgccc ctgcgcctgc cgctcccgca 600 600 <210> 115 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1al(200), codon-optimized for P. patens <400> 115 gccgcaccag ctgctcccgc acctgcagca ccagccgctc ccgcccctgc cgctccagcc 60 gccgcaccag ccgccccagc ccctgcagca cccgcagcac ctgctcccgc agctccagcc 120 gcagccccag ccgctcctgc accagccgcc cctgctgcac cggctccagc cgcgcccgct 180 gctgcgcccg ccgctcccgc cccagccgcc ccagctgccc ccgctccagc tgctcccgca 240 gctgcacccg ccgcacctgc acctgctgcc cccgctgcac ctgcacctgc cgcccctgca 300 gctgccccag ccgccccggc acccgctgcc cccgccgctc ctgctcctgc tgcaccagct 360 gccgcccctg ccgcccccgc accagcggcc ccagcagccc ccgccccagc cgctccagct 420 gctgctcccg ccgcacctgc cccagccgca cctgccgccc cagctcccgc cgctcccgcc 480 gccgctcctg ctgcacccgc ccctgctgct cctgccgctc ccgctcccgc tgctcccgct 540 gccgctcccg ccgcccccgc tcctgccgcc cccgccgcac cagcacctgc agctcctgcc 600 600 <210> 116 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1am(200), codon-optimized for P. fluorescens <400> 116 gccgcgccag cggcgccggc cccagccgcg ccggcagcgc cagcgcccgc cgcgccagca 60 gccgcgcctg cggcgcctgc gcctgcggcc ccagcggcgc cggcgccagc ggcaccggca 120 gccgcgcccg cagcgccggc ccctgccgcg ccggcagccc ccgcgcctgc ggccccagca 180 gccgccccgg cggctcccgc gccggccgcc cctgcggcac cggcgcctgc ggccccggcg 240 gccgcgccag ccgcgcctgc cccggccgcg ccggccgcgc cggcgcccgc cgcacctgcc 300 gccgccccgg ccgcgccggc tccggccgcg ccagcggccc ctgcgcctgc agccccagcc 360 gcggccccgg cggcgcccgc accagccgcg cctgccgcgc ccgcgccggc cgcaccggca 420 gccgcgccgg ccgcgcctgc ccctgccgcc cccgccgcgc ctgccccagc agccccggca 480 gccgccccgg cagcgcctgc gccagccgca ccggccgcgc cggcgccagc cgcaccagcc 540 gccgcaccgg ccgcccctgc gccagcggcg cccgcagcgc cggcgcctgc cgcacccgcg 600 600 <210> 117 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1an(200), codon-optimized for P. fluorescens <400> 117 gccgcgcccg cagccccagc cccggccgcg cccgccgcac ccgcgcccgc cgcccctgct 60 gccgcgcccg ccgccccggc cccggccgct cccgccgcgc cggccccggc cgccccggcc 120 gccgcgcctg ctgcccctgc ccctgccgcg ccggccgcgc ccgccccagc ggcccctgcc 180 gccgctcccg ccgcacctgc acccgccgcc ccagctgcgc ccgcacccgc ggcgcccgcc 240 gccgccccgg cagcgcccgc gcctgccgcg ccggccgccc ctgcccctgc tgcgcccgcc 300 gcggccccgg ccgcacccgc gcccgcggcg cccgccgctc cagccccggc cgccccggca 360 gccgcgccag ccgctcccgc cccagccgcc ccggctgcgc ccgcccctgc cgccccggcc 420 gcggctcccg ccgcgcccgc gcccgccgcg cctgccgccc cagcgcccgc cgcgcccgcc 480 gcagcgcccg ccgcgccagc ccccgccgcc ccagcagcgc ccgccccagc agccccggcc 540 gccgcgcccg ccgcgcccgc accagccgca cccgccgccc cagcccctgc agcgcctgcc 600 600 <210> 118 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1ao(200), codon-optimized for P. fluorescens <400> 118 gccgccccag ccgcccctgc ccctgccgcc ccagccgcac ccgccccggc agccccagcc 60 gccgccgccg ccgcacccgc cccagcagca cccgctgcgc ccgctcctgc cgcgcccgcg 120 gccgcgcccg ccgcccctgc cccggctgcg cccgccgccc cagcgccagc tgcgcccgcc 180 gccgcccctg ccgccccagc cccggccgca cccgccgccc cggcccctgc cgcgcccgct 240 gccgcacccg ccgcacccgc cccggccgcc cctgccgccc ctgcacccgc cgcgcctgcc 300 gctgccccag ccgcaccagc cccagccgcg ccagccgcac ccgcccctgc agcccctgcc 360 gccgcgccag ccgcgcccgc cccggccgcc ccagccgccc ccgctcccgc cgccccagcc 420 gccgcgccgg cagccccagc cccagccgcc cctgcagcac ccgcacccgc cgcgcccgcc 480 gccgccccag ccgcgcccgc acccgccgcc cctgccgctc ctgccccagc cgccccagcc 540 gccgcaccag ccgcccctgc cccggccgcg cccgctgcgc ccgccccggc cgcacccgcg 600 600 <210> 119 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1ap(200), codon-optimized for T. thermophila <400> 119 gccgctccag ctgctccggc tcccgctgct cctgcagctc ccgctccagc tgctcctgca 60 gcagctcctg cagcccccgc tccagctgca ccggctgcac cagctcctgc tgctcctgct 120 gctgcccctg ctgctcccgc ccctgctgct cctgcagctc cggcacctgc tgctcctgct 180 gccgcacctg cagctccagc cccagctgct cctgctgcac ctgctcctgc agcaccagct 240 gctgcacctg ctgcacccgc tccagctgct ccagctgctc ctgcccctgc agctccagct 300 gccgcacctg ccgctccagc tcctgcagct cccgccgcac ctgctccagc agctcccgca 360 gctgcacctg ctgctcctgc cccagcagct cctgcagctc cagctccagc agctcctgcc 420 gctgcacctg ctgctccagc accagctgca ccagcagctc ctgctcctgc agctcctgcc 480 gcagctcctg ctgctcccgc accagctgca cctgccgctc ccgctccagc agcaccagct 540 gccgctccag ctgctcccgc cccagctgct ccagcagctc cagcaccagc agctccagct 600 600 <210> 120 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1aq(200), codon-optimized for T. thermophila <400> 120 gccgctcctg ctgcaccagc acctgctgct cctgcagcac ccgctcctgc tgcccctgct 60 gcagctcctg cagctcctgc tcctgctgct ccggcagctc ctgctcccgc tgcccctgct 120 gccgctcctg cagctcccgc acctgctgct ccagctgccc cagcacctgc tgccccagct 180 gcagctcctg cggcccctgc tcctgcagct ccggctgctc ctgctcctgc cgcaccagct 240 gctgctcctg cagccccagc tcctgctgcc ccagccgctc cagctccagc tgcaccagct 300 gcagcacctg ctgctccggc tccagctgct cccgcagcac ctgctcctgc tgcaccggca 360 gctgctcctg cagctcctgc accagctgct cctgccgccc ctgcacctgc tgcacctgct 420 gctgcacctg cagctcctgc tccggctgca cctgctgccc ctgcaccagc tgcacctgct 480 gcagcacctg ccgctcctgc cccagctgcc cctgctgctc ctgctccagc tgcacccgct 540 gctgcacctg ctgcgccagc tcctgctgca cctgcagccc ctgctcctgc tgcacctgct 600 600 <210> 121 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1ar(200), codon-optimized for T. thermophila <400> 121 gccgctcctg cagctccagc acctgctgca ccagctgccc ctgccccagc tgctcccgct 60 gctgctccag ctgcacctgc acccgctgca ccggctgctc cggctcctgc tgctcctgcc 120 gctgctcctg ctgcccccgc tcctgctgca cctgccgcac ctgctcctgc ggctccagcc 180 gctgctccag cagctcctgc tccagccgca ccagcagcac cagctcctgc agcacctgca 240 gctgctcctg cggcacctgc tccagctgct ccagcggctc ctgcacctgc tgctcccgca 300 gctgctccag ccgcccctgc tcctgctgcg cctgctgctc cagcccctgc agctcctgcc 360 gccgctcctg cagcccctgc tccagcagcc cctgccgctc ctgctcctgc agcgcctgca 420 gctgcaccag ccgctcctgc ccctgctgct ccagcagcac ctgctcccgc cgctccagct 480 gccgctccag cagctccagc tcctgctgct ccagcggcac cagctccagc tgctcctgct 540 gctgctcctg ctgcacccgc acctgcagca ccagcagctc ccgctcctgc tgctcccgct 600 600 <210> 122 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1as(200), codon-optimized for T. thermophila <400> 122 gccgcacctg cagctccagc acctgccgct cccgccgcac ctgctcctgc cgctcctgct 60 gccgctccag cagcacctgc tcctgcagct ccagcagctc ctgcccctgc tgctcctgcc 120 gcagctcctg ccgcacccgc tcccgctgct ccagctgctc ctgctccggc tgctccagct 180 gctgctcctg ctgcccctgc tcctgctgct cctgcggctc cagcacccgc agctcccgcc 240 gccgctcctg ctgctcccgc acccgctgct cctgccgctc cagcacctgc tgctcctgct 300 gcagctcccg cagctcctgc gcctgctgct cctgctgcgc ctgctcccgc tgctccagca 360 gcagctcctg ctgctccagc ccctgctgct cccgctgctc ctgcacctgc agctcctgca 420 gctgcccctg cagctccagc accagctgct cctgccgctc ccgctcctgc agctcctgcc 480 gctgcaccag ctgcacctgc accagctgcc cctgctgcac ctgcacctgc cgctcctgca 540 gcagctcctg ctgcacccgc ccctgctgct ccagctgcac ccgctcctgc tgctcctgca 600 600 <210> 123 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1k(200), codon-optimized for E. coli <400> 123 gcctctcctg cagctccggc cccagcttca ccagccgctc cagccccatc tgcgccggcc 60 gcctcacctg cagcaccagc ccctgcgtcg cccgccgcgc ctgcgccctc agccccagca 120 gctagccctg ccgcacccgc cccagcaagt cctgctgctc ctgccccctc tgccccggca 180 gcttcaccgg cagcccctgc accagcttcc cccgcagccc ctgcccccag tgcacctgca 240 gctagtcctg cggccccagc accagcgtct ccagctgcgc ccgcgccttc agcaccagca 300 gcttctccgg ccgctcccgc tcccgctagc cctgcagctc cagctccctc agcgcccgca 360 gcaagccctg ccgcaccggc ccctgcctct cctgctgctc ccgccccgtc cgcacccgca 420 gcctcaccag ccgctcctgc tcccgcttcg ccagccgctc ccgccccttc cgcgcctgca 480 gcttctcccg ccgctcctgc tccggcctct cccgcggcgc ctgctccttc tgccccggcc 540 gcgtcccctg ccgcacctgc ccctgcgagc cctgcagccc cagccccgag cgctcctgcc 600 600 <210> 124 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1l(200), codon-optimized for E. coli <400> 124 gccagcccag cagctcccgc tccggcatca cccgctgctc cggccccgag tgctccagct 60 gcttctcctg ccgcacccgc ccctgcaagc ccggcagccc ccgcaccctc cgcgccggcc 120 gcgtcaccag ccgctcctgc acccgcgtca ccagcggcac cggcaccctc tgcgcccgcc 180 gcatcaccag cagcaccggc gcctgcatcc ccagcagcac ctgcaccaag cgcccccgcc 240 gcctccccgg ccgcccctgc accggcaagt cctgcagcac ccgcgccttc agctccggcc 300 gcctccccag cagctcccgc accagccagc ccagccgcac cagcgccgtc tgcaccagcc 360 gcgagcccag ccgcgcctgc accggccagc cctgccgccc cagccccctc tgcgcccgca 420 gcctcccctg cagctcctgc cccggccagt ccagccgccc ccgcgccgag tgcacctgca 480 gcatcaccag cggctcctgc acctgcatct cccgcagcac ccgctccgtc agcccctgca 540 gccagccctg ccgcgccagc acctgcgtca ccagccgccc cggccccgag tgcacctgca 600 600 <210> 125 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1m(200), codon-optimized for E. coli <400> 125 gcctcgcccg ccgctccagc accggcaagt ccagctgctc ctgcccccag cgcacctgcc 60 gcatcgccag ctgctcccgc cccggcctct ccagctgccc ccgccccgtc cgcccccgcc 120 gcaagtccag cagccccagc cccagcctca ccggccgccc cagcacccag tgcgcctgcc 180 gcttcaccag cggcgccagc accagcgtca ccagcggccc cagcgccatc tgcacctgcc 240 gcaagcccag ccgcaccagc tccagcatct ccagccgcac ccgccccgag cgctccagca 300 gcttcaccag ccgcaccggc cccggcatca ccagcagcac ccgcaccctc tgcaccagct 360 gcttctccgg ccgcccctgc tccggcttcc ccagctgccc cggccccgtc cgcccctgca 420 gcaagcccag cagctcccgc gccagcgtct cctgcagcac ctgctcccag cgcacctgct 480 gcgagtccag ccgccccagc accagcttca ccagctgccc ccgcaccaag cgccccagca 540 gctagtccag cagcccccgc tcccgcgtct ccggctgcac cggccccctc tgctccggct 600 600 <210> 126 <211> 300 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1n(100), codon-optimized for E. coli <400> 126 gccagtccgg cagcgcccgc tccagcaagt cccgctgcac ccgcacctag cgccccggca 60 gcttccccgg ctgcgcctgc gccagcctct ccggctgccc cagcgccgtc cgcacccgcg 120 gcgtcaccag cagcccctgc gcctgcttcc ccagcagccc ctgcaccgtc agcgccagca 180 gcatcacctg ctgcccccgc acccgcaagt cctgccgcac cggccccttc agcccctgct 240 gcctctccag ccgcgccagc acccgcgtcg cccgctgcgc ctgcccccag cgcacctgca 300 300 <210> 127 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1o(200), codon-optimized for P. pastoris <400> 127 gcctcaccag ccgcacccgc cccagctagt cccgcagccc ccgctccctc tgctccagca 60 gccagtccag ccgcaccagc acctgcaagt ccagctgcac ccgcaccttc tgcacctgcc 120 gcctctcccg ctgctccagc cccagcctca cctgctgccc ctgctccatc cgcacctgcc 180 gcatctcctg ccgcccccgc acctgcttcc cccgctgcac ccgcccctag tgctcctgca 240 gcatcacccg ctgccccagc ccctgcatcc ccagctgctc cagcccctag tgcccccgct 300 gctagtcccg ctgcaccagc ccccgcaagt ccagctgccc ccgccccatc tgctcccgcc 360 gcctcccccg cagctcctgc tcccgcttct cctgccgccc cagcccctag tgcacctgct 420 gcctcacctg cagctccagc acctgcctct ccagcagccc cagcacccag tgctcccgct 480 gctagtcctg cagctcccgc accagcttca cctgccgcac ccgcacccag tgctcctgct 540 gcatcaccag ctgctcccgc accagcctcc ccagcagcac cagctcccag tgcacctgct 600 600 <210> 128 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1p(200), codon-optimized for P. pastoris <400> 128 gcctctcctg ctgcacccgc tcccgcatca cctgcagcac ctgctcccag tgctccagca 60 gcctcacctg ccgctccagc ccctgccagt cctgccgctc cagctcccag tgctcctgct 120 gcttctccag ccgctccagc tccagcttcc cctgcagctc ccgctccctc agctcctgca 180 gcatctccag ccgcaccagc ccctgcttct cccgcagcac ccgcaccttc cgcaccagcc 240 gcctcccccg ctgcacccgc acctgcttcc ccagcagcac ctgcacccag tgctcccgca 300 gcatcaccag cagccccagc tcctgcttca cccgccgcac cagccccctc cgctcctgct 360 gcttctcctg cagctcccgc tccagcttca cccgctgcac ctgccccctc cgcacccgca 420 gcctcaccag ctgcaccagc acccgcttct cctgcagcac ccgccccctc tgctcccgct 480 gcttctccag ccgcaccagc tcctgcatca cctgcagctc ctgcccccag tgctcccgca 540 gcttctcctg cagctcctgc tccagctagt cccgctgcac ctgccccttc cgcacctgca 600 600 <210> 129 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1q(200), codon-optimized for P. fluorescens <400> 129 gcctcgcccg cagccccagc gcccgcctcc cctgccgccc ctgccccaag cgccccggca 60 gccagcccgg ccgcaccggc cccagcaagc ccagccgcac cagccccttc cgccccggcc 120 gcctcccctg cagcgcccgc cccggcctcg cccgccgccc cggcgccgag cgcgcccgcc 180 gcctcccctg ccgctcccgc acccgcgagc cctgcagccc cggccccgtc cgccccagcc 240 gcctcccctg ccgcgcccgc cccagctagc cccgcggccc cggccccaag cgctcctgcc 300 gctagccctg ccgccccggc gcccgccagc cctgccgctc ccgccccaag tgctcccgcc 360 gcgtccccgg ccgccccggc cccggcctca cccgcagctc cggccccttc cgcgcccgcc 420 gcgagccccg cagccccggc tcctgccagc cccgccgccc ctgcaccgtc ggcgcccgcc 480 gcctccccag ccgcccctgc cccggccagc cccgccgccc cggcaccgag cgcgccagcc 540 gcttcgcccg ccgcgccagc gcctgcctcg cccgccgcgc ccgccccttc cgcccctgcc 600 600 <210> 130 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1r(200), codon-optimized for P. fluorescens <400> 130 gcctccccag ccgcgcccgc gcccgctagc cccgcagcgc ccgccccgtc ggcccctgcc 60 gcgtctcctg ccgcgccagc cccggccagt ccagccgcgc ccgccccgtc cgcgccggca 120 gcctcgccag ccgcccctgc acccgcaagc ccggccgcac ccgccccgag cgcaccggca 180 gcctcaccag ctgccccagc cccggcatcc gccgccgctc cagccccatc cgctcccgcc 240 gccagtccgg ccgccccggc tcctgcatcg cccgcagccc ctgccccgag tgcgccagca 300 gcgagccccg ccgcccctgc gcccgccagc ccagctgccc ccgcgccgag tgcgcccgca 360 gcgtccccgg cagccccggc gcccgcctca cccgccgccc cagccccaag cgcacccgct 420 gcgtcgcccg ccgcacctgc tcccgcctcc ccggcagctc ccgccccaag tgcccctgct 480 gcgagtccgg ctgcaccggc cccagcgagc ccggcggccc cggccccgag cgcccctgcc 540 gcaagcccag ccgcccccgc tcccgcatcc ccagccgcgc cggccccgtc cgctccggcc 600 600 <210> 131 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1s(200), codon-optimized for P. fluorescens <400> 131 gcctcaccag cagctcccgc gcccgcatcg cccgccgccc cggcccctag cgccccggcg 60 gccagccccg ccgcgcctgc cccggcctcg ccggcagccc cagcgccaag tgcgcccgcc 120 gccagccccg ccgccccagc gcccgcctcg ccggccgccc cggccccaag tgctcccgcc 180 gcctccccgg ccgcccctgc gccagccagc cccgcagccc cggccccgtc ggcaccagcc 240 gcctctccag ccgcgcccgc cccggctagc cccgcagccc cagccccgtc cgcccctgcc 300 gcgtcccctg cagccccagc ccctgcgagc cctgccgcac ccgccccgtc cgcgcccgcc 360 gcttcgccgg cagccccggc cccggcgtcg cccgccgccc cagccccgag tgccccggcc 420 gcgagccccg ccgcccccgc cccagcctcg cccgcggccc ctgcaccatc cgcaccggcc 480 gccagcccag cggcgcccgc accggcctcc ccggcagccc ctgcgcccag tgccccggca 540 gctagcccag ccgcgcccgc cccagcgtcg cccgccgcgc ctgccccaag tgcccccgcc 600 600 <210> 132 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1t(200), codon-optimized for C. glutamicum <400> 132 gcctccccgg cggcaccagc accagcgagc ccagcagcac cagcgccgtc tgcacctgca 60 gcgtctcctg ccgctccagc tccggcaagc ccggccgcac ctgctccatc tgctcccgcg 120 gcatccccag ctgcgccagc cccagcttct cccgctgcac cggctccctc cgcaccagcc 180 gcttccccag cagctccagc tccagcatct cccgctgcac ctgcaccgtc agcaccggct 240 gctagccccg cggcgccagc tcctgcgtcc ccggcagctc cagcgccatc cgctcctgcg 300 gcatcccctg cagctccagc acctgcttca cctgctgcac cagccccaag tgctccggct 360 gcatcaccag cagctcctgc accagcgtct cctgcggccc cagcaccatc cgcgcccgca 420 gcttccccag ctgcgcctgc accagcctcc cccgctgcgc cagcgccatc agcacctgcc 480 gcttctccgg ctgctccagc gcctgcctcc ccagctgcac ccgctccatc ggctccggct 540 gcttcacctg ccgcaccagc cccagcgtca cctgcagctc ctgccccatc tgccccagct 600 600 <210> 133 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1u(200), codon-optimized for C. glutamicum <400> 133 gcctccccag cagcgcccgc tccggcatct ccagccgctc cggcccctag cgctccagct 60 gcatctcctg ctgcgcctgc ccctgctagc cctgctgctc ccgcaccttc ggctccggca 120 gcttcgccag ccgctccagc tcccgcctcc ccggccgctc cagcaccctc tgctccagct 180 gcctctccag cagcaccggc accagcttcc cccgcagccc cggctccaag cgctcctgct 240 gcaagtcctg ccgcacctgc gcctgcgtct ccagctgcac cagctcccag cgccccagcc 300 gcttcccctg ctgcacctgc gccggctagt cccgctgcac ccgctccctc cgcccctgca 360 gcatcgccag ccgcccctgc acccgcatct ccggcagcgc ctgctccatc ggctcctgcc 420 gcctccccgg cagctcctgc tcccgcctcc cccgcggcac ctgctccgag tgccccagct 480 gccagcccag ctgctccagc tcctgcctcg cctgctgctc cagccccatc cgcaccagct 540 gccagtccag cggcccccgc accagcaagc cctgccgcgc cggcacccag tgctccagcg 600 600 <210> 134 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1v(200), codon-optimized for C. glutamicum <400> 134 gcctccccag ctgctccagc accagcctct cctgcagcac cagcgccatc cgctccggcc 60 gcctcccctg cagcacctgc tcctgccagt cctgctgcac cggccccgag cgcacccgca 120 gctagcccag cagcacctgc acctgcctca cctgcggcgc ctgctccctc cgccccagct 180 gcatctccag ccgcgcccgc tccagcttca ccagctgcac cagcaccgtc tgctccggca 240 gccagccctg ctgctcctgc gccagcatct cccgctgctc cggcgccatc tgcacccgcc 300 gctagtccag ccgcaccagc gcctgcaagc cccgcagcac ccgctccttc cgcacctgcg 360 gctagcccag cagctcctgc tccagcgtcc ccagccgccc ctgcaccaag tgctcctgct 420 gccagcccag ctgccccagc acctgcgagt ccagcagccc ctgcaccgag tgcaccagct 480 gcttcccctg ccgctcccgc accggcttcc ccggcagcac cagctccatc agcgcctgca 540 gcaagtccag cagctccggc cccagctagt cctgcagctc ccgccccgtc agcaccagca 600 600 <210> 135 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1w(200), codon-optimized for P. patens <400> 135 gcctctcccg cagccccagc gcccgcatct cctgccgctc ctgctccttc cgctcccgca 60 gctagtccag ccgccccagc tcccgctagt cctgccgccc cagctccgag tgcccccgcc 120 gcttctcccg cagcacccgc cccagcgtca cctgccgctc cagccccctc agctcctgcc 180 gcaagccctg ctgctcctgc tcccgcttct cctgccgcac ccgcaccttc tgcccctgct 240 gcatcacccg ctgctcctgc acccgcgtct ccagcagcgc cggcacctag cgctccagcc 300 gcatcgcccg ccgctcctgc acctgctagc ccggctgccc ctgccccttc agctcccgct 360 gcaagtccag ctgcaccagc ccccgcgtct cctgcagctc ctgccccttc tgctccagcc 420 gcctctccag ctgcccccgc accagcatct ccagctgcgc cggccccctc tgctcctgca 480 gcatcaccag cagctcctgc tcccgcatct ccggctgccc ctgctcccag cgcacctgca 540 gcatcgccag ccgccccagc ccccgcgagc cccgccgctc ccgctccctc tgctccagct 600 600 <210> 136 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1x(200), codon-optimized for P. patens <400> 136 gccagccccg ctgctcccgc tccagcttca cctgcagctc cagctcccag tgcccccgcc 60 gcctcccctg ccgctccagc gcccgcgtcc cccgcagctc cagcaccaag cgcacctgct 120 gccagtccag cagcacccgc tccggcgagc ccagctgcac ccgctccatc cgcacctgct 180 gcaagtccag ccgcacctgc gcctgctagc cctgctgcac ccgccccgtc tgcaccagca 240 gcgagccccg cagcacccgc cccggcttcc cccgcagcac cagctccatc ggctcctgca 300 gcttccccgg cagcccccgc gccagcatca cccgcagccc ccgctccctc cgccccagcc 360 gcgagtcctg cagcgcccgc gccagcttct ccagccgccc ctgctccatc agcccccgct 420 gcctcgccag ctgcaccagc accagcatca ccggccgcac cagccccgtc tgcccccgca 480 gcatcaccag cagcacctgc tccagcatcc ccagccgctc cagcaccttc ggccccagca 540 gctagcccgg cagctcccgc cccagccagc cctgctgctc ctgcccctag cgcccctgct 600 600 <210> 137 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1y(200), codon-optimized for P. patens <400> 137 gccagtcctg ctgcacctgc ccctgcgtct ccagctgctc ccgctccgag tgctcctgca 60 gcgtctcctg ccgcaccagc cccagcgtcg cctgccgcac ccgcgccttc tgctccagct 120 gcttcaccag ctgctcctgc gcccgcatca cccgcagcgc cagccccatc cgcacccgca 180 gcttccccgg ccgctccagc accagcatct cccgcagcgc ccgctccgtc ggctcctgct 240 gcctctcctg cagcgccggc tccagcatca cctgctgctc cggctccgtc ggccccggct 300 gcttcgcccg ccgctccagc ccctgctagc ccagccgcac ctgccccgag cgcacctgca 360 gcaagcccgg ccgcacccgc ccctgcttct ccggccgccc ccgcaccgtc cgctcctgct 420 gctagtccgg ctgctccggc ccctgcatcc cctgccgcgc ccgctccttc ggcaccggcc 480 gcgtcacccg ctgcaccagc ccccgcttcc ccggcagctc ccgcgccttc agcgccagcc 540 gctagccccg ccgcacccgc tccagcttct cccgctgctc ctgctccgtc cgcacctgct 600 600 <210> 138 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1z(200), codon-optimized for K. lactis <400> 138 gcctctccgg ctgcacccgc cccggctagt ccagccgccc cggctccttc agcaccagca 60 gcttcaccag cagcaccggc tcccgcctcg ccagccgccc ctgctccttc cgccccggct 120 gcaagtccag ccgcccctgc acccgccagt cccgcagctc cagctccatc agcaccagcc 180 gcatcgccgg ctgcaccagc ccctgcatcg ccggcagccc cagccccgtc agctccggct 240 gccagtcctg cagctccggc ccccgcttca cccgccgccc ccgcaccttc cgccccagcc 300 gcaagtcctg ccgccccagc accagctagt ccggctgctc ccgccccatc cgctccagcc 360 gcttcgccag ctgcccccgc ccccgcaagt cccgcagccc ccgcaccttc tgcacccgcc 420 gcttcgccgg ccgcaccggc acccgcttca cccgcagcac ctgcaccgag tgctcccgcc 480 gcatcccctg cagcaccagc acctgcaagt ccagctgcac ctgccccttc agcaccggct 540 gcatctcccg ctgcaccggc tccggcatcg cccgccgcac ccgcacctag tgctccagct 600 600 <210> 139 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1aa(200), codon-optimized for K. lactis <400> 139 gcctctccgg ctgcaccagc tcccgcatct ccagcagctc ccgccccgtc ggcaccggca 60 gcctctccgg ccgcacctgc cccagcctcc cctgcagcac cagctcccag tgctccggct 120 gcatcacctg ctgcaccagc acctgcatca cctgccgccc cggcaccgtc agccccggct 180 gcatctcccg ccgccccagc cccagcctcg ccagcagccc ctgctcccag tgcacctgct 240 gcctcacctg cagctcctgc acccgcaagt ccggcagcac ctgccccttc tgcccctgca 300 gctagtccgg ccgctcccgc cccagccagt cccgccgcac ctgcaccaag tgctcctgct 360 gcttctcctg ctgcacctgc tccggcctca cccgccgctc cggctccatc ggcccctgca 420 gcatcaccag ctgcacccgc tcccgcctcc ccggccgcac cagcaccatc tgctcctgca 480 gcatcaccgg ccgcacctgc accagcaagt ccagccgcac ccgccccatc tgcaccggca 540 gcatcacccg ctgcccctgc tccagcttcg ccagcagcac ccgccccatc ggctcctgct 600 600 <210> 140 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1ab(200), codon-optimized for K. lactis <400> 140 gcctccccgg cagctccagc ccctgcctca ccagctgccc cggccccatc ggcccccgca 60 gcctctcccg ccgctcccgc ccctgctagt cctgcagctc ctgctccatc cgcacctgca 120 gcttcaccag ccgcaccagc tccggcctcg ccagccgcac cagcaccgtc cgcccctgct 180 gcttcaccag cagcccctgc cccggcttcc cctgcagcac ctgctccttc ggctccagct 240 gcctctccgg cagctccggc tcctgcctcc cctgccgctc cagctccgtc agcacccgct 300 gcaagtcctg ccgcacccgc tcccgcctct ccggcagccc cagctccatc cgcaccagca 360 gctagtccgg cagcaccggc tccagctagt ccagctgcac cagccccttc cgccccagca 420 gcttcaccgg ccgccccggc cccagcctct ccagcagcac ctgccccatc ggccccggcc 480 gcatctcccg ctgccccggc tcccgcatcg cctgccgcac cggctccctc ggcaccggcc 540 gcctctcctg ctgcacctgc acccgcttcc cctgccgctc ctgcccctag tgcaccagca 600 600 <210> 141 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1ac(200), codon-optimized for S. cerevisiae <400> 141 gccagtcctg ccgctccagc acctgccagt ccagcagctc cagccccttc tgccccagca 60 gcctcaccag ccgcacctgc tccagcaagc ccggcagctc ccgccccgag tgctccagca 120 gcatcaccag ctgctcccgc gccggctagc cctgcggctc ccgcaccgag tgccccagca 180 gcatcacctg ccgcccctgc gcccgcaagc cccgcggccc ctgctccttc cgcgcctgct 240 gcctcaccag cagcaccagc cccggcaagt ccagcggcgc cggcacccag cgcacccgcg 300 gcctctcctg cagctcctgc acctgcatct cccgcggctc ccgcaccctc agctcccgcg 360 gccagccctg ctgcaccagc acctgcaagc cctgcggctc cggcgccttc tgcccctgct 420 gcctctccgg ctgcccctgc acctgcgtcc ccggctgctc ccgctcctag tgccccggca 480 gcaagcccag ccgcaccggc cccagccagc cccgccgctc ccgctccctc cgctcccgct 540 gcgtccccag ccgctcccgc tcctgcgtca cctgcagcgc ccgcgccctc tgcacccgcc 600 600 <210> 142 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1ad(200), codon-optimized for S. cerevisiae <400> 142 gcctctccag cagcgccggc accagcaagc cctgcggcac ctgctccatc tgctccggcg 60 gccagtcccg ctgcacctgc tccggcttct cctgcagcac cagcaccatc tgcccctgca 120 gctagcccgg cagcgcccgc tcccgcgagt ccagcagcgc ctgccccttc agcgccggcc 180 gcgtcacctg ccgcaccggc acccgctagc ccagcggcac cggctccgtc tgcaccagcc 240 gcttccccag cagcaccagc gccagctagc ccggctgccc cagctccctc cgctcctgct 300 gcatcccctg ctgcacccgc tcccgctagt cctgctgcgc ctgcaccctc agctccagca 360 gcgtctcccg cagcgccagc acctgcgagt ccagcggcac cagcaccctc tgctccagcc 420 gcttccccgg cagccccggc ccctgcctcc ccagctgcgc cagctccttc cgctcccgct 480 gcctcccctg ccgcacctgc cccggcgagc cctgctgctc ctgcaccctc tgctcccgcg 540 gcctctcccg ctgcaccagc gcccgcgtct cccgctgctc cggcacctag tgcaccagct 600 600 <210> 143 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1ae(200), codon-optimized for S. cerevisiae <400> 143 gcctctcccg cagcacccgc acccgcgtca cctgcggcac cggctccctc tgcaccggca 60 gcctctccag ctgcaccagc ccctgcgtcc ccagcagcgc ccgcgcccag cgctccagcg 120 gcaagcccag ctgccccagc tcctgcaagc ccggctgccc cggctcctag cgccccagct 180 gcttcacccg ctgctcccgc acctgcctct ccggcggccc cagcgcccag cgctcctgca 240 gcgtcaccag cggccccagc gccagcctca cccgctgctc cggccccatc tgcgccggca 300 gcgagtccag ccgctccagc gcctgcgtct cctgcggcac cagcaccttc agctccggca 360 gcatctccgg cggctcccgc gcctgcttcc cccgctgcac cagcacctag cgcacccgcc 420 gcttcacctg ctgcgcccgc tcctgccagc ccggcagcac ccgcgccatc cgcacccgcc 480 gctagcccag cagcacctgc ccctgcatct ccggcagctc ccgcgccatc agcccccgcg 540 gcatctccgg ctgctcctgc cccagcatca cccgccgcgc cagccccgtc cgcaccagca 600 600 <210> 144 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1af(200), codon-optimized for T. thermophila <400> 144 gcctctccag ccgcaccagc ccctgcttca cccgctgccc ctgctcctag tgcacctgct 60 gcaagccccg ctgcccctgc acctgcttct cctgccgctc cagccccttc tgcccctgcc 120 gcttctccag cagcccctgc acccgcttca cctgctgctc cagccccatc agctcccgct 180 gctagtcccg ccgctcctgc acctgcttct cccgctgcac ctgccccatc agcaccagcc 240 gcctcaccag ccgctcccgc cccagcctca cccgccgccc ctgcaccatc tgcacctgca 300 gcctcacccg ccgcacctgc acccgcatca cccgctgcac ctgctccatc agctcctgct 360 gcttctccag ccgcacctgc tccagcatca cctgccgctc ccgccccaag tgctccagcc 420 gcatctcctg ctgcacccgc acctgcaagc cctgctgcac ctgcaccttc agcccctgca 480 gccagccctg ctgcacctgc cccagctagt cccgctgcac ccgcccctag tgctcctgcc 540 gcaagccctg cagctcctgc ccctgcttca cctgctgccc ctgctccaag cgctcctgca 600 600 <210> 145 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1ag(200), codon-optimized for T. thermophila <400> 145 gccagtcctg ctgctcccgc tccagcaagt cctgctgctc cagcccctag tgctccagct 60 gcttcacccg ccgctcccgc acccgcatca cctgctgcac ctgctccaag cgcacctgct 120 gctagcccag ctgcccctgc accagcttct cccgccgcac cagcacctag cgcaccagct 180 gcctctcccg ctgcaccagc acccgcttca cccgcagccc cagcccctag cgcacctgcc 240 gcctcaccag ctgcacctgc tccagcaagt cctgccgccc ccgctcctag cgcaccagca 300 gcctcaccag ccgcaccagc tcccgcaagt cctgcagctc cagccccaag tgcacccgca 360 gctagccctg cagctcccgc tcccgcaagt ccagctgccc cagcaccatc tgcacccgct 420 gcttcacccg ccgcacccgc accagctagc ccagcagctc ctgctccttc agctcccgcc 480 gcttcaccag ctgctcccgc accagcctca ccagctgcac ccgctcccag cgctcctgct 540 gcttcacctg ctgctcctgc accagctagt cctgctgctc cagctccatc agccccagca 600 600 <210> 146 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1ah(200), codon-optimized for T. thermophila <400> 146 gccagtcctg ccgctcccgc acctgctagt cctgccgcac ccgccccttc tgcaccagcc 60 gcatctccag cagcacctgc tccagcctct ccagccgctc ccgctcccag cgccccagcc 120 gcaagccctg ccgctcccgc tccagctagc cccgccgctc ccgcacctag tgctcctgct 180 gcaagccctg ctgctcctgc acctgctagc cctgctgcac cagctccaag cgccccagcc 240 gctagtccag ctgctcccgc tcctgcaagc cctgcagcac ctgctccaag tgctcccgcc 300 gcttctcccg ctgcccccgc acctgccagt cctgctgcac ctgctccctc agctcccgct 360 gcttcaccag ctgcacccgc accagcttca cctgccgcac cagctcctag cgctccagct 420 gcatctcctg cagctcccgc tcctgcatca ccagcagctc ctgcacccag tgcaccagcc 480 gctagccctg cagcaccagc accagcctct cctgccgcac cagcccctag cgcaccagcc 540 gcatcacctg ccgctccagc tcctgccagc cctgctgccc cagctccatc tgctccagct 600 600 <210> 147 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1ai(200), codon-optimized for H. sapiens (HEK cells) <400> 147 gccagtcccg ctgcgccggc accagcctcc cctgctgccc cagcccctag cgcacccgct 60 gcttcccctg ccgctccagc gcctgcctct cctgcggccc ctgctcctag tgcaccagcc 120 gcttccccag cagcacctgc tcctgcaagt ccagctgctc ctgcaccctc tgctcccgcg 180 gcctctccag ctgcacccgc tcctgcttca cctgccgctc cagctccatc cgcaccagct 240 gccagtcctg ctgcgcctgc acccgcctca cctgctgctc ccgcaccttc agcacctgca 300 gcctctccgg cagcccctgc acccgcctcc ccggctgccc ccgcgcccag tgctccggcc 360 gcgtctcccg ctgctcctgc tcccgcttca cccgccgctc ctgccccttc tgcccctgcc 420 gccagccccg ctgctcccgc ccctgcctcc cctgcagctc ccgccccatc tgcgcctgct 480 gcttcaccgg ctgcgccagc accagctagc cccgcagcgc cagccccatc agcaccagcc 540 gcctctcctg ctgcacccgc ccctgcgagc cctgcggctc ccgcaccctc tgccccagca 600 600 <210> 148 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1aj(200), codon-optimized for H. sapiens (HEK cells) <400> 148 gccagtcccg cagcaccagc acccgcgtcc ccagctgcgc ctgcccctag tgctccagct 60 gcctctcccg ccgcacccgc acctgcaagt cctgcagctc cggcaccgag cgcccccgcc 120 gccagtccag ccgcacccgc gcctgcaagc ccagccgcgc ccgccccttc cgccccggcc 180 gcttctccag ccgcaccagc gcccgcatcc ccagcggctc cagctccgtc tgctcctgcc 240 gcaagccctg ctgcgcccgc ccctgcatcc cctgctgcac ctgctccgag tgctcccgcc 300 gcctccccag ccgcaccggc ccctgctagt cccgccgcgc cggccccaag tgccccagct 360 gcttctcctg ctgctccagc accggcatct cccgcggccc ctgcaccaag tgcgccagcc 420 gctagtccgg cagctcctgc tccagccagt cccgcggctc ctgctccaag cgccccagct 480 gcatcaccag cagctccagc tcctgccagc cctgcagcgc ccgcgccatc agcccctgct 540 gctagcccag cagcccccgc cccagcgagt ccagcggcac ctgctccatc tgctccagct 600 600 <210> 149 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1ak(200), codon-optimized for H. sapiens (HEK cells) <400> 149 gccagtcctg ctgcccctgc acctgcgtct ccagctgctc ccgctccttc tgctccggct 60 gcatctcctg ccgccccagc ccctgcaagt ccagcagcgc ctgctccatc agctcctgca 120 gcttcaccag cggccccagc acccgccagt cctgcagctc ctgcgccctc agccccagcc 180 gcgagccctg ccgcgcctgc tcccgcctct cccgcagccc ctgccccatc cgctccggcc 240 gcatcacctg ctgctcctgc tcctgcctca cccgctgctc cagcgccatc tgcacccgct 300 gccagccccg ctgccccggc tcctgcatcc cctgcggcac cagctccaag cgctcctgca 360 gcaagccccg ccgctccagc tcccgcgagt cctgccgctc ctgcaccatc tgccccagca 420 gctagtcccg ctgcaccggc tcccgcatct ccagcagctc cggcaccttc ggccccagca 480 gccagtcctg cagccccagc acctgccagt cctgcggctc cggcgccatc agcacctgca 540 gcgtcacctg ccgcacctgc tcccgcaagt cctgccgcgc cagctcctag cgcaccagcc 600 600 <210> 150 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1al(200), codon-optimized for B. subtilis <400> 150 gcctcacccg ctgcacctgc tccagcttcc ccagcagcac cagccccttc cgcacctgcc 60 gctagccccg ctgctcctgc cccagcctca cctgcggctc cagctccttc cgcaccggca 120 gcgtcgcctg cagcaccggc gcctgctagc cctgctgctc ccgccccttc ggcacctgca 180 gcgtctccgg cggctcctgc tcctgcgtct ccagcagctc ctgcaccgtc cgctcctgcc 240 gcaagccccg cagcacctgc acctgcttca ccagcggctc ctgccccgag tgcaccggca 300 gcctcccctg cagctcctgc tccggcaagc ccagctgcac cggccccaag cgcaccagct 360 gcaagccctg cagccccagc accggcctca ccggcagcac ctgcgccgtc agcacctgca 420 gccagcccag cggcccctgc acctgcatca cctgcggcgc ctgctccttc tgcccctgcg 480 gcatcccctg ctgctcctgc acccgcaagt ccggctgcac cggctccaag tgcaccagca 540 gcatcacctg ccgcaccggc acctgcgagt cctgcggcac ctgcccctag tgctccggcg 600 600 <210> 151 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1am(200), codon-optimized for B. subtilis <400> 151 gcctcaccgg ctgccccagc acctgcttct ccggcagctc cggccccttc agcacctgca 60 gcttctccgg cagcgcccgc acccgcctct cctgcagctc cggcaccgtc agcgccagcg 120 gccagcccag cagctccggc tccagcttcg cctgccgctc cagcaccgtc ggctccggca 180 gcatctccgg ctgctcctgc tccagcgtca ccagccgcac ctgcaccgag tgctcctgca 240 gcctctccag ctgcccctgc ccctgcttcg ccagcagcac ctgcgccttc ggccccggca 300 gcaagcccag ccgctcctgc accagcaagt cctgccgccc cagccccttc tgctcctgct 360 gcttccccgg cggcaccggc acccgcgtca ccggcagcac ccgcaccgtc tgcaccagct 420 gcgagcccgg ctgcaccagc gcctgcttca cctgccgcgc ccgctccttc agctccagct 480 gcttctcccg ccgcacctgc tccggctagc ccagcagcgc cggcaccttc agcacctgct 540 gcgagtccag cagctccagc gccggcaagc cctgccgctc cagcgccgtc agcccctgca 600 600 <210> 152 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1an(200), codon-optimized for B. subtilis <400> 152 gcctcacctg cagcaccggc accagcttca cccgcagccc ctgctccaag cgcaccggcg 60 gcatcccctg cagcgccagc gccggcctca ccagcagctc cagccccgag cgctcctgcg 120 gcatcaccgg cagcgcccgc tccagcatct cctgccgcac cggccccgag cgctccagct 180 gcgtccccgg cagcaccagc gccagcgagt ccggcggccc ccgcaccgtc tgctccagca 240 gcgagtcctg ccgccccggc gcccgcttct ccggcagcac ccgccccgtc agcaccagcg 300 gcatcacccg cagctcctgc ccctgcaagt ccagctgctc ctgccccctc agctccagcc 360 gccagccctg ctgcaccagc tccggcatca cctgcagcgc cagccccttc agcgcccgcc 420 gcgagccctg ctgcacccgc tcctgcttcc cctgccgcac cagcaccctc tgcgccagcc 480 gcgtcgcctg ccgctcccgc tcccgcatca ccagcggctc ccgctccatc tgcaccagca 540 gccagtcctg cagcaccagc accagctagt ccggcagccc ccgcacctag tgcacctgct 600 600 <210> 153 <211> 900 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1ae/1c(300), codon-optimized for E. coli <400> 153 gccgctcctg ctgcccctgc tcccgctgcc cccgccgccc ccgccccagc tgcccccgct 60 gccgcacctg ctgccccagc tcccgctgcc ccagccgcgc cggcccccgc agctccagcc 120 gcggcaccag ctgccccagc tccagcggcg cctgctgccc cggcccccgc ggcaccggct 180 gccgcgcccg cagctccagc gcctgctgca ccggctgctc cggcacccgc cgcgccagca 240 gctgcccctg cggcaccagc tcctgctgcc cccgcggcac ctgcacccgc tgccccggcg 300 gccgcgccag cggccccggc ccctgccgcg cccgctgctc ccgcccctgc tgccccagcc 360 gccgctcctg cggcacctgc gcccgccgcg ccggcagcgc cggcaccggc agctccggcg 420 gccgcgcctg cagctcctgc accggcggct ccagcagccc cggcgccggc cgcacctgcg 480 gcggcgcccg cggcgcctgc acccgcagcg cctgcggcac cggccccagc agcccctgcc 540 gccgcaccgg ctgcgcctgc cccagcggcc cccgctgccc cggccccggc ggctccagcc 600 gcagcgcctg ccgccccagc gcccgcagca ccggcggcac cagctccggc ggcgccggcg 660 gcggctccgg cagctccggc ccctgctgcg ccggctgcgc cggctccggc ggcccctgcg 720 gcggctccgg ccgcacctgc acctgccgcg ccggctgctc cggccccggc tgccccagca 780 gcggcaccag cagcgcctgc tcctgcggcg cctgcagctc cggcgccggc agccccggcc 840 gccgcacccg cggctccagc ccccgccgct ccagcagccc ccgcgccagc tgcacctgct 900 900 <210> 154 <211> 900 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1ae/1d(300), codon-optimized for E. coli <400> 154 gccgctcctg ctgcccctgc tcccgctgcc cccgccgccc ccgccccagc tgcccccgct 60 gccgcacctg ctgccccagc tcccgctgcc ccagccgcgc cggcccccgc agctccagcc 120 gcggcaccag ctgccccagc tccagcggcg cctgctgccc cggcccccgc ggcaccggct 180 gccgcgcccg cagctccagc gcctgctgca ccggctgctc cggcacccgc cgcgccagca 240 gctgcccctg cggcaccagc tcctgctgcc cccgcggcac ctgcacccgc tgccccggcg 300 gccgcaccgg ctgccccagc ccctgccgca ccagcagctc ccgcccctgc agcccccgcc 360 gccgctccgg ccgcaccagc cccggctgcc cctgctgccc ccgccccggc agcacccgct 420 gcagcaccag ccgcgcctgc accggcagct cctgcagccc cggcaccggc agcacctgcc 480 gcagcacccg cagccccagc cccagcagcg cctgccgctc cagcaccagc ggcaccggcc 540 gccgcaccag ccgccccagc accggcagcc cccgcagcgc cggcaccagc cgctccagcc 600 gccgccccag cagccccggc tccggccgct cccgcggctc cagcaccagc agctccagcg 660 gccgctccgg cagcgccggc cccagcagca cctgcagccc ctgcaccagc agcgccagcc 720 gcggcgcccg cagctcccgc acctgcggct cccgcagccc ctgcacccgc ggcgccagca 780 gccgcccctg cagcgccagc tcctgcagca cctgcagctc cagccccggc cgccccagct 840 gcagctcctg cggccccagc acctgccgcc cctgccgcac cggctccagc cgccccagcc 900 900 <210> 155 <211> 1200 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1d/1c(400), codon-optimized for E. coli <400> 155 gccgcaccgg ctgccccagc ccctgccgca ccagcagctc ccgcccctgc agcccccgcc 60 gccgctccgg ccgcaccagc cccggctgcc cctgctgccc ccgccccggc agcacccgct 120 gcagcaccag ccgcgcctgc accggcagct cctgcagccc cggcaccggc agcacctgcc 180 gcagcacccg cagccccagc cccagcagcg cctgccgctc cagcaccagc ggcaccggcc 240 gccgcaccag ccgccccagc accggcagcc cccgcagcgc cggcaccagc cgctccagcc 300 gccgccccag cagccccggc tccggccgct cccgcggctc cagcaccagc agctccagcg 360 gccgctccgg cagcgccggc cccagcagca cctgcagccc ctgcaccagc agcgccagcc 420 gcggcgcccg cagctcccgc acctgcggct cccgcagccc ctgcacccgc ggcgccagca 480 gccgcccctg cagcgccagc tcctgcagca cctgcagctc cagccccggc cgccccagct 540 gcagctcctg cggccccagc acctgccgcc cctgccgcac cggctccagc cgccccagcc 600 gccgcgccag cggccccggc ccctgccgcg cccgctgctc ccgcccctgc tgccccagcc 660 gccgctcctg cggcacctgc gcccgccgcg ccggcagcgc cggcaccggc agctccggcg 720 gccgcgcctg cagctcctgc accggcggct ccagcagccc cggcgccggc cgcacctgcg 780 gcggcgcccg cggcgcctgc acccgcagcg cctgcggcac cggccccagc agcccctgcc 840 gccgcaccgg ctgcgcctgc cccagcggcc cccgctgccc cggccccggc ggctccagcc 900 gcagcgcctg ccgccccagc gcccgcagca ccggcggcac cagctccggc ggcgccggcg 960 gcggctccgg cagctccggc ccctgctgcg ccggctgcgc cggctccggc ggcccctgcg 1020 gcggctccgg ccgcacctgc acctgccgcg ccggctgctc cggccccggc tgccccagca 1080 gcggcaccag cagcgcctgc tcctgcggcg cctgcagctc cggcgccggc agccccggcc 1140 gccgcacccg cggctccagc ccccgccgct ccagcagccc ccgcgccagc tgcacctgct 1200 1200 <210> 156 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1b/1c/1d(600), codon-optimized for E. coli <400> 156 gccgctcctg ctgcccctgc tcccgctgcc cccgccgccc ccgccccagc tgcccccgct 60 gccgcacctg ctgccccagc tcccgctgcc ccagccgcgc cggcccccgc agctccagcc 120 gcggcaccag ctgccccagc tccagcggcg cctgctgccc cggcccccgc ggcaccggct 180 gccgcgcccg cagctccagc gcctgctgca ccggctgctc cggcacccgc cgcgccagca 240 gctgcccctg cggcaccagc tcctgctgcc cccgcggcac ctgcacccgc tgccccggcg 300 gcagctcccg ccgcgccagc ccctgcagct cctgctgcac ctgctcctgc cgcccctgct 360 gctgcccctg ctgctccagc ccctgcagca ccggccgctc cagctcctgc cgctcctgcc 420 gctgcgcccg ctgctccagc cccagctgcg ccagcagctc ctgcacctgc tgcccctgcc 480 gccgcccctg cggctccagc acctgctgca ccggccgccc cggcgcccgc tgcccccgca 540 gcagccccag ccgcacccgc tccagcagct cccgcagccc cagcacccgc agcaccagcc 600 gccgcgccag cggccccggc ccctgccgcg cccgctgctc ccgcccctgc tgccccagcc 660 gccgctcctg cggcacctgc gcccgccgcg ccggcagcgc cggcaccggc agctccggcg 720 gccgcgcctg cagctcctgc accggcggct ccagcagccc cggcgccggc cgcacctgcg 780 gcggcgcccg cggcgcctgc acccgcagcg cctgcggcac cggccccagc agcccctgcc 840 gccgcaccgg ctgcgcctgc cccagcggcc cccgctgccc cggccccggc ggctccagcc 900 gcagcgcctg ccgccccagc gcccgcagca ccggcggcac cagctccggc ggcgccggcg 960 gcggctccgg cagctccggc ccctgctgcg ccggctgcgc cggctccggc ggcccctgcg 1020 gcggctccgg ccgcacctgc acctgccgcg ccggctgctc cggccccggc tgccccagca 1080 gcggcaccag cagcgcctgc tcctgcggcg cctgcagctc cggcgccggc agccccggcc 1140 gccgcacccg cggctccagc ccccgccgct ccagcagccc ccgcgccagc tgcacctgct 1200 gccgcaccgg ctgccccagc ccctgccgca ccagcagctc ccgcccctgc agcccccgcc 1260 gccgctccgg ccgcaccagc cccggctgcc cctgctgccc ccgccccggc agcacccgct 1320 gcagcaccag ccgcgcctgc accggcagct cctgcagccc cggcaccggc agcacctgcc 1380 gcagcacccg cagccccagc cccagcagcg cctgccgctc cagcaccagc ggcaccggcc 1440 gccgcaccag ccgccccagc accggcagcc cccgcagcgc cggcaccagc cgctccagcc 1500 gccgccccag cagccccggc tccggccgct cccgcggctc cagcaccagc agctccagcg 1560 gccgctccgg cagcgccggc cccagcagca cctgcagccc ctgcaccagc agcgccagcc 1620 gcggcgcccg cagctcccgc acctgcggct cccgcagccc ctgcacccgc ggcgccagca 1680 gccgcccctg cagcgccagc tcctgcagca cctgcagctc cagccccggc cgccccagct 1740 gcagctcctg cggccccagc acctgccgcc cctgccgcac cggctccagc cgccccagcc 1800 1800 <210> 157 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1d/1b/1c(600), codon-optimized for E. coli <400> 157 gccgcaccgg ctgccccagc ccctgccgca ccagcagctc ccgcccctgc agcccccgcc 60 gccgctccgg ccgcaccagc cccggctgcc cctgctgccc ccgccccggc agcacccgct 120 gcagcaccag ccgcgcctgc accggcagct cctgcagccc cggcaccggc agcacctgcc 180 gcagcacccg cagccccagc cccagcagcg cctgccgctc cagcaccagc ggcaccggcc 240 gccgcaccag ccgccccagc accggcagcc cccgcagcgc cggcaccagc cgctccagcc 300 gccgccccag cagccccggc tccggccgct cccgcggctc cagcaccagc agctccagcg 360 gccgctccgg cagcgccggc cccagcagca cctgcagccc ctgcaccagc agcgccagcc 420 gcggcgcccg cagctcccgc acctgcggct cccgcagccc ctgcacccgc ggcgccagca 480 gccgcccctg cagcgccagc tcctgcagca cctgcagctc cagccccggc cgccccagct 540 gcagctcctg cggccccagc acctgccgcc cctgccgcac cggctccagc cgccccagcc 600 gccgctcctg ctgcccctgc tcccgctgcc cccgccgccc ccgccccagc tgcccccgct 660 gccgcacctg ctgccccagc tcccgctgcc ccagccgcgc cggcccccgc agctccagcc 720 gcggcaccag ctgccccagc tccagcggcg cctgctgccc cggcccccgc ggcaccggct 780 gccgcgcccg cagctccagc gcctgctgca ccggctgctc cggcacccgc cgcgccagca 840 gctgcccctg cggcaccagc tcctgctgcc cccgcggcac ctgcacccgc tgccccggcg 900 gcagctcccg ccgcgccagc ccctgcagct cctgctgcac ctgctcctgc cgcccctgct 960 gctgcccctg ctgctccagc ccctgcagca ccggccgctc cagctcctgc cgctcctgcc 1020 gctgcgcccg ctgctccagc cccagctgcg ccagcagctc ctgcacctgc tgcccctgcc 1080 gccgcccctg cggctccagc acctgctgca ccggccgccc cggcgcccgc tgcccccgca 1140 gcagccccag ccgcacccgc tccagcagct cccgcagccc cagcacccgc agcaccagcc 1200 gccgcgccag cggccccggc ccctgccgcg cccgctgctc ccgcccctgc tgccccagcc 1260 gccgctcctg cggcacctgc gcccgccgcg ccggcagcgc cggcaccggc agctccggcg 1320 gccgcgcctg cagctcctgc accggcggct ccagcagccc cggcgccggc cgcacctgcg 1380 gcggcgcccg cggcgcctgc acccgcagcg cctgcggcac cggccccagc agcccctgcc 1440 gccgcaccgg ctgcgcctgc cccagcggcc cccgctgccc cggccccggc ggctccagcc 1500 gcagcgcctg ccgccccagc gcccgcagca ccggcggcac cagctccggc ggcgccggcg 1560 gcggctccgg cagctccggc ccctgctgcg ccggctgcgc cggctccggc ggcccctgcg 1620 gcggctccgg ccgcacctgc acctgccgcg ccggctgctc cggccccggc tgccccagca 1680 gcggcaccag cagcgcctgc tcctgcggcg cctgcagctc cggcgccggc agccccggcc 1740 gccgcacccg cggctccagc ccccgccgct ccagcagccc ccgcgccagc tgcacctgct 1800 1800 <210> 158 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1c/1b/1d(600), codon-optimized for E. coli <400> 158 gccgcgccag cggccccggc ccctgccgcg cccgctgctc ccgcccctgc tgccccagcc 60 gccgctcctg cggcacctgc gcccgccgcg ccggcagcgc cggcaccggc agctccggcg 120 gccgcgcctg cagctcctgc accggcggct ccagcagccc cggcgccggc cgcacctgcg 180 gcggcgcccg cggcgcctgc acccgcagcg cctgcggcac cggccccagc agcccctgcc 240 gccgcaccgg ctgcgcctgc cccagcggcc cccgctgccc cggccccggc ggctccagcc 300 gcagcgcctg ccgccccagc gcccgcagca ccggcggcac cagctccggc ggcgccggcg 360 gcggctccgg cagctccggc ccctgctgcg ccggctgcgc cggctccggc ggcccctgcg 420 gcggctccgg ccgcacctgc acctgccgcg ccggctgctc cggccccggc tgccccagca 480 gcggcaccag cagcgcctgc tcctgcggcg cctgcagctc cggcgccggc agccccggcc 540 gccgcacccg cggctccagc ccccgccgct ccagcagccc ccgcgccagc tgcacctgct 600 gccgctcctg ctgcccctgc tcccgctgcc cccgccgccc ccgccccagc tgcccccgct 660 gccgcacctg ctgccccagc tcccgctgcc ccagccgcgc cggcccccgc agctccagcc 720 gcggcaccag ctgccccagc tccagcggcg cctgctgccc cggcccccgc ggcaccggct 780 gccgcgcccg cagctccagc gcctgctgca ccggctgctc cggcacccgc cgcgccagca 840 gctgcccctg cggcaccagc tcctgctgcc cccgcggcac ctgcacccgc tgccccggcg 900 gcagctcccg ccgcgccagc ccctgcagct cctgctgcac ctgctcctgc cgcccctgct 960 gctgcccctg ctgctccagc ccctgcagca ccggccgctc cagctcctgc cgctcctgcc 1020 gctgcgcccg ctgctccagc cccagctgcg ccagcagctc ctgcacctgc tgcccctgcc 1080 gccgcccctg cggctccagc acctgctgca ccggccgccc cggcgcccgc tgcccccgca 1140 gcagccccag ccgcacccgc tccagcagct cccgcagccc cagcacccgc agcaccagcc 1200 gccgcaccgg ctgccccagc ccctgccgca ccagcagctc ccgcccctgc agcccccgcc 1260 gccgctccgg ccgcaccagc cccggctgcc cctgctgccc ccgccccggc agcacccgct 1320 gcagcaccag ccgcgcctgc accggcagct cctgcagccc cggcaccggc agcacctgcc 1380 gcagcacccg cagccccagc cccagcagcg cctgccgctc cagcaccagc ggcaccggcc 1440 gccgcaccag ccgccccagc accggcagcc cccgcagcgc cggcaccagc cgctccagcc 1500 gccgccccag cagccccggc tccggccgct cccgcggctc cagcaccagc agctccagcg 1560 gccgctccgg cagcgccggc cccagcagca cctgcagccc ctgcaccagc agcgccagcc 1620 gcggcgcccg cagctcccgc acctgcggct cccgcagccc ctgcacccgc ggcgccagca 1680 gccgcccctg cagcgccagc tcctgcagca cctgcagctc cagccccggc cgccccagct 1740 gcagctcctg cggccccagc acctgccgcc cctgccgcac cggctccagc cgccccagcc 1800 1800 <210> 159 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1c/1d/1b(600), codon-optimized for E. coli <400> 159 gccgcgccag cggccccggc ccctgccgcg cccgctgctc ccgcccctgc tgccccagcc 60 gccgctcctg cggcacctgc gcccgccgcg ccggcagcgc cggcaccggc agctccggcg 120 gccgcgcctg cagctcctgc accggcggct ccagcagccc cggcgccggc cgcacctgcg 180 gcggcgcccg cggcgcctgc acccgcagcg cctgcggcac cggccccagc agcccctgcc 240 gccgcaccgg ctgcgcctgc cccagcggcc cccgctgccc cggccccggc ggctccagcc 300 gcagcgcctg ccgccccagc gcccgcagca ccggcggcac cagctccggc ggcgccggcg 360 gcggctccgg cagctccggc ccctgctgcg ccggctgcgc cggctccggc ggcccctgcg 420 gcggctccgg ccgcacctgc acctgccgcg ccggctgctc cggccccggc tgccccagca 480 gcggcaccag cagcgcctgc tcctgcggcg cctgcagctc cggcgccggc agccccggcc 540 gccgcacccg cggctccagc ccccgccgct ccagcagccc ccgcgccagc tgcacctgct 600 gccgcaccgg ctgccccagc ccctgccgca ccagcagctc ccgcccctgc agcccccgcc 660 gccgctccgg ccgcaccagc cccggctgcc cctgctgccc ccgccccggc agcacccgct 720 gcagcaccag ccgcgcctgc accggcagct cctgcagccc cggcaccggc agcacctgcc 780 gcagcacccg cagccccagc cccagcagcg cctgccgctc cagcaccagc ggcaccggcc 840 gccgcaccag ccgccccagc accggcagcc cccgcagcgc cggcaccagc cgctccagcc 900 gccgccccag cagccccggc tccggccgct cccgcggctc cagcaccagc agctccagcg 960 gccgctccgg cagcgccggc cccagcagca cctgcagccc ctgcaccagc agcgccagcc 1020 gcggcgcccg cagctcccgc acctgcggct cccgcagccc ctgcacccgc ggcgccagca 1080 gccgcccctg cagcgccagc tcctgcagca cctgcagctc cagccccggc cgccccagct 1140 gcagctcctg cggccccagc acctgccgcc cctgccgcac cggctccagc cgccccagcc 1200 gccgctcctg ctgcccctgc tcccgctgcc cccgccgccc ccgccccagc tgcccccgct 1260 gccgcacctg ctgccccagc tcccgctgcc ccagccgcgc cggcccccgc agctccagcc 1320 gcggcaccag ctgccccagc tccagcggcg cctgctgccc cggcccccgc ggcaccggct 1380 gccgcgcccg cagctccagc gcctgctgca ccggctgctc cggcacccgc cgcgccagca 1440 gctgcccctg cggcaccagc tcctgctgcc cccgcggcac ctgcacccgc tgccccggcg 1500 gcagctcccg ccgcgccagc ccctgcagct cctgctgcac ctgctcctgc cgcccctgct 1560 gctgcccctg ctgctccagc ccctgcagca ccggccgctc cagctcctgc cgctcctgcc 1620 gctgcgcccg ctgctccagc cccagctgcg ccagcagctc ctgcacctgc tgcccctgcc 1680 gccgcccctg cggctccagc acctgctgca ccggccgccc cggcgcccgc tgcccccgca 1740 gcagccccag ccgcacccgc tccagcagct cccgcagccc cagcacccgc agcaccagcc 1800 1800 <210> 160 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1b/1d/1c(600), codon-optimized for E. coli <400> 160 gccgctcctg ctgcccctgc tcccgctgcc cccgccgccc ccgccccagc tgcccccgct 60 gccgcacctg ctgccccagc tcccgctgcc ccagccgcgc cggcccccgc agctccagcc 120 gcggcaccag ctgccccagc tccagcggcg cctgctgccc cggcccccgc ggcaccggct 180 gccgcgcccg cagctccagc gcctgctgca ccggctgctc cggcacccgc cgcgccagca 240 gctgcccctg cggcaccagc tcctgctgcc cccgcggcac ctgcacccgc tgccccggcg 300 gcagctcccg ccgcgccagc ccctgcagct cctgctgcac ctgctcctgc cgcccctgct 360 gctgcccctg ctgctccagc ccctgcagca ccggccgctc cagctcctgc cgctcctgcc 420 gctgcgcccg ctgctccagc cccagctgcg ccagcagctc ctgcacctgc tgcccctgcc 480 gccgcccctg cggctccagc acctgctgca ccggccgccc cggcgcccgc tgcccccgca 540 gcagccccag ccgcacccgc tccagcagct cccgcagccc cagcacccgc agcaccagcc 600 gccgcaccgg ctgccccagc ccctgccgca ccagcagctc ccgcccctgc agcccccgcc 660 gccgctccgg ccgcaccagc cccggctgcc cctgctgccc ccgccccggc agcacccgct 720 gcagcaccag ccgcgcctgc accggcagct cctgcagccc cggcaccggc agcacctgcc 780 gcagcacccg cagccccagc cccagcagcg cctgccgctc cagcaccagc ggcaccggcc 840 gccgcaccag ccgccccagc accggcagcc cccgcagcgc cggcaccagc cgctccagcc 900 gccgccccag cagccccggc tccggccgct cccgcggctc cagcaccagc agctccagcg 960 gccgctccgg cagcgccggc cccagcagca cctgcagccc ctgcaccagc agcgccagcc 1020 gcggcgcccg cagctcccgc acctgcggct cccgcagccc ctgcacccgc ggcgccagca 1080 gccgcccctg cagcgccagc tcctgcagca cctgcagctc cagccccggc cgccccagct 1140 gcagctcctg cggccccagc acctgccgcc cctgccgcac cggctccagc cgccccagcc 1200 gccgcgccag cggccccggc ccctgccgcg cccgctgctc ccgcccctgc tgccccagcc 1260 gccgctcctg cggcacctgc gcccgccgcg ccggcagcgc cggcaccggc agctccggcg 1320 gccgcgcctg cagctcctgc accggcggct ccagcagccc cggcgccggc cgcacctgcg 1380 gcggcgcccg cggcgcctgc acccgcagcg cctgcggcac cggccccagc agcccctgcc 1440 gccgcaccgg ctgcgcctgc cccagcggcc cccgctgccc cggccccggc ggctccagcc 1500 gcagcgcctg ccgccccagc gcccgcagca ccggcggcac cagctccggc ggcgccggcg 1560 gcggctccgg cagctccggc ccctgctgcg ccggctgcgc cggctccggc ggcccctgcg 1620 gcggctccgg ccgcacctgc acctgccgcg ccggctgctc cggccccggc tgccccagca 1680 gcggcaccag cagcgcctgc tcctgcggcg cctgcagctc cggcgccggc agccccggcc 1740 gccgcacccg cggctccagc ccccgccgct ccagcagccc ccgcgccagc tgcacctgct 1800 1800 <210> 161 <211> 3000 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1aa/1e/1d/1c/1b(1000), codon-optimized for E. coli <400> 161 gccgccccag cagcaccggc tccagctgcc ccagccgcac cagcaccagc cgctccagcg 60 gccgcgcctg ccgctcccgc acccgcggct ccggccgccc ctgcgccggc ggcaccggcg 120 gcggcacccg cggcacctgc acctgccgcc cccgcggctc ctgctcccgc ggcgccagca 180 gcagcgccag cggcgcctgc tcctgccgca ccagcagcac cagcacccgc cgcgccagca 240 gcggcccctg cagctcccgc cccggcagcg cccgctgcgc cagcacccgc tgctcccgcg 300 gcagcccccg cagctccggc ccctgcggct ccagctgcac cagcaccggc agcgccggcg 360 gcggcaccag ccgcacccgc accggctgcg cccgccgcgc cagcgccagc cgctccagct 420 gccgcgccgg cagccccggc ccccgctgcc cctgctgcac ccgcgcctgc agcaccggcg 480 gcagcccctg cggcacctgc acccgcggct cccgctgccc ctgcacccgc agcgcccgcc 540 gccgcaccgg ccgctccggc acctgcagcg ccggctgcac cagcgccggc agctccagcg 600 gccgcaccgg ctgcaccagc tccggcagct ccagcagcac cggcaccagc agctccggct 660 gcagcgccag cagcaccagc gcctgctgct ccagctgctc ctgctcctgc tgcaccagca 720 gcagctccag ccgcaccagc accggcagcg cctgcagccc ctgctccggc agctcctgcc 780 gcagcaccgg cagcaccagc tccagcggca cccgctgccc ctgctcctgc agcaccggca 840 gcggcaccgg ctgctcctgc gccagctgct ccggcagccc cagcccctgc agccccagca 900 gcagcgcctg cggctccagc gccagccgca ccagcggctc cggcaccggc agcccctgcg 960 gcagctcctg ctgcgcctgc tccagcagct ccagctgccc cagcgccggc agctccggct 1020 gccgcaccag ctgcgcctgc ccctgctgcg ccagccgcac cggctccggc agcaccagca 1080 gctgccccag cagctcctgc cccagctgcg cctgctgcgc cagcaccagc agccccagct 1140 gcagcaccag ctgcaccggc accagctgct ccagcagcac cagccccagc cgctccggca 1200 gccgcaccgg ctgccccagc ccctgccgca ccagcagctc ccgcccctgc agcccccgcc 1260 gccgctccgg ccgcaccagc cccggctgcc cctgctgccc ccgccccggc agcacccgct 1320 gcagcaccag ccgcgcctgc accggcagct cctgcagccc cggcaccggc agcacctgcc 1380 gcagcacccg cagccccagc cccagcagcg cctgccgctc cagcaccagc ggcaccggcc 1440 gccgcaccag ccgccccagc accggcagcc cccgcagcgc cggcaccagc cgctccagcc 1500 gccgccccag cagccccggc tccggccgct cccgcggctc cagcaccagc agctccagcg 1560 gccgctccgg cagcgccggc cccagcagca cctgcagccc ctgcaccagc agcgccagcc 1620 gcggcgcccg cagctcccgc acctgcggct cccgcagccc ctgcacccgc ggcgccagca 1680 gccgcccctg cagcgccagc tcctgcagca cctgcagctc cagccccggc cgccccagct 1740 gcagctcctg cggccccagc acctgccgcc cctgccgcac cggctccagc cgccccagcc 1800 gccgcgccag cggccccggc ccctgccgcg cccgctgctc ccgcccctgc tgccccagcc 1860 gccgctcctg cggcacctgc gcccgccgcg ccggcagcgc cggcaccggc agctccggcg 1920 gccgcgcctg cagctcctgc accggcggct ccagcagccc cggcgccggc cgcacctgcg 1980 gcggcgcccg cggcgcctgc acccgcagcg cctgcggcac cggccccagc agcccctgcc 2040 gccgcaccgg ctgcgcctgc cccagcggcc cccgctgccc cggccccggc ggctccagcc 2100 gcagcgcctg ccgccccagc gcccgcagca ccggcggcac cagctccggc ggcgccggcg 2160 gcggctccgg cagctccggc ccctgctgcg ccggctgcgc cggctccggc ggcccctgcg 2220 gcggctccgg ccgcacctgc acctgccgcg ccggctgctc cggccccggc tgccccagca 2280 gcggcaccag cagcgcctgc tcctgcggcg cctgcagctc cggcgccggc agccccggcc 2340 gccgcacccg cggctccagc ccccgccgct ccagcagccc ccgcgccagc tgcacctgct 2400 gccgctcctg ctgcccctgc tcccgctgcc cccgccgccc ccgccccagc tgcccccgct 2460 gccgcacctg ctgccccagc tcccgctgcc ccagccgcgc cggcccccgc agctccagcc 2520 gcggcaccag ctgccccagc tccagcggcg cctgctgccc cggcccccgc ggcaccggct 2580 gccgcgcccg cagctccagc gcctgctgca ccggctgctc cggcacccgc cgcgccagca 2640 gctgcccctg cggcaccagc tcctgctgcc cccgcggcac ctgcacccgc tgccccggcg 2700 gcagctcccg ccgcgccagc ccctgcagct cctgctgcac ctgctcctgc cgcccctgct 2760 gctgcccctg ctgctccagc ccctgcagca ccggccgctc cagctcctgc cgctcctgcc 2820 gctgcgcccg ctgctccagc cccagctgcg ccagcagctc ctgcacctgc tgcccctgcc 2880 gccgcccctg cggctccagc acctgctgca ccggccgccc cggcgcccgc tgcccccgca 2940 gcagccccag ccgcacccgc tccagcagct cccgcagccc cagcacccgc agcaccagcc 3000 3000 <210> 162 <211> 3600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1ab/1aa/1e/1d/1c/1b(1200), codon-optimized for E. coli <400> 162 gccgcgcccg ctgcacccgc accagctgca ccagccgcac cggcaccggc ggccccagct 60 gcagcaccgg cagcccccgc gccggccgcg ccagccgcgc cggcaccggc tgctccggct 120 gcagcaccgg cagcgcctgc gccagctgct cccgcagctc ctgctccggc ggcgcctgca 180 gctgcaccgg cagctcctgc cccagcagcc ccggcggcgc cagcgcccgc cgccccagct 240 gcagcccctg cagcgccggc acccgccgcc cccgcagcac ctgcgccggc cgccccagct 300 gcggcaccgg ccgcacccgc cccggcggct ccagcagcac ctgctccagc agcaccagct 360 gcagcccctg cggcaccagc acccgcagcg ccagcggcac cagctccggc cgctcccgcc 420 gctgcaccag cctcaccggc gccggccgca ccagctgctc ccgccccagc cgctcccgcg 480 gcggcaccag cggcgccagc gcccgcagct ccggcagcac cggcgccggc tgctcctgcc 540 gccgcacctg ctgccccggc gcccgccgcc cccgccgctc ccgcgccggc tgcacctgcg 600 gccgccccag cagcaccggc tccagctgcc ccagccgcac cagcaccagc cgctccagcg 660 gccgcgcctg ccgctcccgc acccgcggct ccggccgccc ctgcgccggc ggcaccggcg 720 gcggcacccg cggcacctgc acctgccgcc cccgcggctc ctgctcccgc ggcgccagca 780 gcagcgccag cggcgcctgc tcctgccgca ccagcagcac cagcacccgc cgcgccagca 840 gcggcccctg cagctcccgc cccggcagcg cccgctgcgc cagcacccgc tgctcccgcg 900 gcagcccccg cagctccggc ccctgcggct ccagctgcac cagcaccggc agcgccggcg 960 gcggcaccag ccgcacccgc accggctgcg cccgccgcgc cagcgccagc cgctccagct 1020 gccgcgccgg cagccccggc ccccgctgcc cctgctgcac ccgcgcctgc agcaccggcg 1080 gcagcccctg cggcacctgc acccgcggct cccgctgccc ctgcacccgc agcgcccgcc 1140 gccgcaccgg ccgctccggc acctgcagcg ccggctgcac cagcgccggc agctccagcg 1200 gccgcaccgg ctgcaccagc tccggcagct ccagcagcac cggcaccagc agctccggct 1260 gcagcgccag cagcaccagc gcctgctgct ccagctgctc ctgctcctgc tgcaccagca 1320 gcagctccag ccgcaccagc accggcagcg cctgcagccc ctgctccggc agctcctgcc 1380 gcagcaccgg cagcaccagc tccagcggca cccgctgccc ctgctcctgc agcaccggca 1440 gcggcaccgg ctgctcctgc gccagctgct ccggcagccc cagcccctgc agccccagca 1500 gcagcgcctg cggctccagc gccagccgca ccagcggctc cggcaccggc agcccctgcg 1560 gcagctcctg ctgcgcctgc tccagcagct ccagctgccc cagcgccggc agctccggct 1620 gccgcaccag ctgcgcctgc ccctgctgcg ccagccgcac cggctccggc agcaccagca 1680 gctgccccag cagctcctgc cccagctgcg cctgctgcgc cagcaccagc agccccagct 1740 gcagcaccag ctgcaccggc accagctgct ccagcagcac cagccccagc cgctccggca 1800 gccgcaccgg ctgccccagc ccctgccgca ccagcagctc ccgcccctgc agcccccgcc 1860 gccgctccgg ccgcaccagc cccggctgcc cctgctgccc ccgccccggc agcacccgct 1920 gcagcaccag ccgcgcctgc accggcagct cctgcagccc cggcaccggc agcacctgcc 1980 gcagcacccg cagccccagc cccagcagcg cctgccgctc cagcaccagc ggcaccggcc 2040 gccgcaccag ccgccccagc accggcagcc cccgcagcgc cggcaccagc cgctccagcc 2100 gccgccccag cagccccggc tccggccgct cccgcggctc cagcaccagc agctccagcg 2160 gccgctccgg cagcgccggc cccagcagca cctgcagccc ctgcaccagc agcgccagcc 2220 gcggcgcccg cagctcccgc acctgcggct cccgcagccc ctgcacccgc ggcgccagca 2280 gccgcccctg cagcgccagc tcctgcagca cctgcagctc cagccccggc cgccccagct 2340 gcagctcctg cggccccagc acctgccgcc cctgccgcac cggctccagc cgccccagcc 2400 gccgcgccag cggccccggc ccctgccgcg cccgctgctc ccgcccctgc tgccccagcc 2460 gccgctcctg cggcacctgc gcccgccgcg ccggcagcgc cggcaccggc agctccggcg 2520 gccgcgcctg cagctcctgc accggcggct ccagcagccc cggcgccggc cgcacctgcg 2580 gcggcgcccg cggcgcctgc acccgcagcg cctgcggcac cggccccagc agcccctgcc 2640 gccgcaccgg ctgcgcctgc cccagcggcc cccgctgccc cggccccggc ggctccagcc 2700 gcagcgcctg ccgccccagc gcccgcagca ccggcggcac cagctccggc ggcgccggcg 2760 gcggctccgg cagctccggc ccctgctgcg ccggctgcgc cggctccggc ggcccctgcg 2820 gcggctccgg ccgcacctgc acctgccgcg ccggctgctc cggccccggc tgccccagca 2880 gcggcaccag cagcgcctgc tcctgcggcg cctgcagctc cggcgccggc agccccggcc 2940 gccgcacccg cggctccagc ccccgccgct ccagcagccc ccgcgccagc tgcacctgct 3000 gccgctcctg ctgcccctgc tcccgctgcc cccgccgccc ccgccccagc tgcccccgct 3060 gccgcacctg ctgccccagc tcccgctgcc ccagccgcgc cggcccccgc agctccagcc 3120 gcggcaccag ctgccccagc tccagcggcg cctgctgccc cggcccccgc ggcaccggct 3180 gccgcgcccg cagctccagc gcctgctgca ccggctgctc cggcacccgc cgcgccagca 3240 gctgcccctg cggcaccagc tcctgctgcc cccgcggcac ctgcacccgc tgccccggcg 3300 gcagctcccg ccgcgccagc ccctgcagct cctgctgcac ctgctcctgc cgcccctgct 3360 gctgcccctg ctgctccagc ccctgcagca ccggccgctc cagctcctgc cgctcctgcc 3420 gctgcgcccg ctgctccagc cccagctgcg ccagcagctc ctgcacctgc tgcccctgcc 3480 gccgcccctg cggctccagc acctgctgca ccggccgccc cggcgcccgc tgcccccgca 3540 gcagccccag ccgcacccgc tccagcagct cccgcagccc cagcacccgc agcaccagcc 3600 3600 <210> 163 <211> 4200 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1ac/1ab/1aa/1e/1d/1c/1b(1400), codon-optimized for E. coli <400> 163 gccgcgccag cggcgccagc tcctgccgcg cccgcagccc cagcgcccgc cgctccggcc 60 gccgcgcccg cggctcccgc acccgctgcg cccgccgctc cagcacctgc cgccccagcg 120 gcggcaccag ccgcgccagc acccgctgcg cctgcagcac ccgctccggc ggccccggcg 180 gctgctccag ccgcccctgc acccgctgct ccagctgcgc ccgccccagc cgccccggcc 240 gccgctccgg ctgcaccggc accggcagca ccggctgcgc cagccccggc tgccccggca 300 gctgctccgg cggcacctgc ccccgccgcg ccagctgccc ccgcaccggc agctccagcg 360 gcagccccgg cggcaccagc tccagcagcg ccagctgcgc ctgccccagc agcgccagcc 420 gctgctccag cagctcctgc ccctgctgcg cctgcggctc cggcgccagc tgctcctgct 480 gcagctccgg ccgccccagc accggcagcg ccagcagcac cggcgccagc tgcccctgcc 540 gccgcaccag cagcacctgc gccggcggct cccgcagcac ctgctccggc tgcccctgcc 600 gccgcgcccg ctgcacccgc accagctgca ccagccgcac cggcaccggc ggccccagct 660 gcagcaccgg cagcccccgc gccggccgcg ccagccgcgc cggcaccggc tgctccggct 720 gcagcaccgg cagcgcctgc gccagctgct cccgcagctc ctgctccggc ggcgcctgca 780 gctgcaccgg cagctcctgc cccagcagcc ccggcggcgc cagcgcccgc cgccccagct 840 gcagcccctg cagcgccggc acccgccgcc cccgcagcac ctgcgccggc cgccccagct 900 gcggcaccgg ccgcacccgc cccggcggct ccagcagcac ctgctccagc agcaccagct 960 gcagcccctg cggcaccagc acccgcagcg ccagcggcac cagctccggc cgctcccgcc 1020 gctgcaccag cctcaccggc gccggccgca ccagctgctc ccgccccagc cgctcccgcg 1080 gcggcaccag cggcgccagc gcccgcagct ccggcagcac cggcgccggc tgctcctgcc 1140 gccgcacctg ctgccccggc gcccgccgcc cccgccgctc ccgcgccggc tgcacctgcg 1200 gccgccccag cagcaccggc tccagctgcc ccagccgcac cagcaccagc cgctccagcg 1260 gccgcgcctg ccgctcccgc acccgcggct ccggccgccc ctgcgccggc ggcaccggcg 1320 gcggcacccg cggcacctgc acctgccgcc cccgcggctc ctgctcccgc ggcgccagca 1380 gcagcgccag cggcgcctgc tcctgccgca ccagcagcac cagcacccgc cgcgccagca 1440 gcggcccctg cagctcccgc cccggcagcg cccgctgcgc cagcacccgc tgctcccgcg 1500 gcagcccccg cagctccggc ccctgcggct ccagctgcac cagcaccggc agcgccggcg 1560 gcggcaccag ccgcacccgc accggctgcg cccgccgcgc cagcgccagc cgctccagct 1620 gccgcgccgg cagccccggc ccccgctgcc cctgctgcac ccgcgcctgc agcaccggcg 1680 gcagcccctg cggcacctgc acccgcggct cccgctgccc ctgcacccgc agcgcccgcc 1740 gccgcaccgg ccgctccggc acctgcagcg ccggctgcac cagcgccggc agctccagcg 1800 gccgcaccgg ctgcaccagc tccggcagct ccagcagcac cggcaccagc agctccggct 1860 gcagcgccag cagcaccagc gcctgctgct ccagctgctc ctgctcctgc tgcaccagca 1920 gcagctccag ccgcaccagc accggcagcg cctgcagccc ctgctccggc agctcctgcc 1980 gcagcaccgg cagcaccagc tccagcggca cccgctgccc ctgctcctgc agcaccggca 2040 gcggcaccgg ctgctcctgc gccagctgct ccggcagccc cagcccctgc agccccagca 2100 gcagcgcctg cggctccagc gccagccgca ccagcggctc cggcaccggc agcccctgcg 2160 gcagctcctg ctgcgcctgc tccagcagct ccagctgccc cagcgccggc agctccggct 2220 gccgcaccag ctgcgcctgc ccctgctgcg ccagccgcac cggctccggc agcaccagca 2280 gctgccccag cagctcctgc cccagctgcg cctgctgcgc cagcaccagc agccccagct 2340 gcagcaccag ctgcaccggc accagctgct ccagcagcac cagccccagc cgctccggca 2400 gccgcaccgg ctgccccagc ccctgccgca ccagcagctc ccgcccctgc agcccccgcc 2460 gccgctccgg ccgcaccagc cccggctgcc cctgctgccc ccgccccggc agcacccgct 2520 gcagcaccag ccgcgcctgc accggcagct cctgcagccc cggcaccggc agcacctgcc 2580 gcagcacccg cagccccagc cccagcagcg cctgccgctc cagcaccagc ggcaccggcc 2640 gccgcaccag ccgccccagc accggcagcc cccgcagcgc cggcaccagc cgctccagcc 2700 gccgccccag cagccccggc tccggccgct cccgcggctc cagcaccagc agctccagcg 2760 gccgctccgg cagcgccggc cccagcagca cctgcagccc ctgcaccagc agcgccagcc 2820 gcggcgcccg cagctcccgc acctgcggct cccgcagccc ctgcacccgc ggcgccagca 2880 gccgcccctg cagcgccagc tcctgcagca cctgcagctc cagccccggc cgccccagct 2940 gcagctcctg cggccccagc acctgccgcc cctgccgcac cggctccagc cgccccagcc 3000 gccgcgccag cggccccggc ccctgccgcg cccgctgctc ccgcccctgc tgccccagcc 3060 gccgctcctg cggcacctgc gcccgccgcg ccggcagcgc cggcaccggc agctccggcg 3120 gccgcgcctg cagctcctgc accggcggct ccagcagccc cggcgccggc cgcacctgcg 3180 gcggcgcccg cggcgcctgc acccgcagcg cctgcggcac cggccccagc agcccctgcc 3240 gccgcaccgg ctgcgcctgc cccagcggcc cccgctgccc cggccccggc ggctccagcc 3300 gcagcgcctg ccgccccagc gcccgcagca ccggcggcac cagctccggc ggcgccggcg 3360 gcggctccgg cagctccggc ccctgctgcg ccggctgcgc cggctccggc ggcccctgcg 3420 gcggctccgg ccgcacctgc acctgccgcg ccggctgctc cggccccggc tgccccagca 3480 gcggcaccag cagcgcctgc tcctgcggcg cctgcagctc cggcgccggc agccccggcc 3540 gccgcacccg cggctccagc ccccgccgct ccagcagccc ccgcgccagc tgcacctgct 3600 gccgctcctg ctgcccctgc tcccgctgcc cccgccgccc ccgccccagc tgcccccgct 3660 gccgcacctg ctgccccagc tcccgctgcc ccagccgcgc cggcccccgc agctccagcc 3720 gcggcaccag ctgccccagc tccagcggcg cctgctgccc cggcccccgc ggcaccggct 3780 gccgcgcccg cagctccagc gcctgctgca ccggctgctc cggcacccgc cgcgccagca 3840 gctgcccctg cggcaccagc tcctgctgcc cccgcggcac ctgcacccgc tgccccggcg 3900 gcagctcccg ccgcgccagc ccctgcagct cctgctgcac ctgctcctgc cgcccctgct 3960 gctgcccctg ctgctccagc ccctgcagca ccggccgctc cagctcctgc cgctcctgcc 4020 gctgcgcccg ctgctccagc cccagctgcg ccagcagctc ctgcacctgc tgcccctgcc 4080 gccgcccctg cggctccagc acctgctgca ccggccgccc cggcgcccgc tgcccccgca 4140 gcagccccag ccgcacccgc tccagcagct cccgcagccc cagcacccgc agcaccagcc 4200 4200 <210> 164 <211> 4800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1ad/1ac/1ab/1aa/1e/1d/1c/1b(1600), codon-optimized for E. coli <400> 164 gccgcgcccg ctgcaccggc acctgctgcg ccggcggcgc ctgcacctgc agcaccagca 60 gcggccccgg cggctcccgc acctgccgcc ccggcagctc ccgcaccggc ggcgcctgcc 120 gcagctcccg ccgcaccagc gccagccgca ccagccgctc cggcccccgc ggctccggca 180 gcagcccccg ccgctccagc gcctgctgca cctgccgcgc ctgcgcctgc cgcacctgcc 240 gctgctcccg ctgccccagc tccagccgct ccggcggcgc ccgcacctgc tgcccctgcg 300 gccgctcccg ctgcgcccgc gcctgctgct cctgcagcac cagctcccgc cgctccggcc 360 gcagcccccg ctgccccggc gcctgcagct ccagcggcgc cggctcccgc tgcgcccgcc 420 gcagcccccg cagccccagc acctgctgct cccgctgcgc cggccccggc tgctccagct 480 gcagctccag cggcccctgc ccctgctgct cccgccgcgc cagctcctgc cgctccagct 540 gcagctcctg ctgctcccgc gccggcagct ccggctgcac cggctccagc agctcctgcg 600 gccgcgccag cggcgccagc tcctgccgcg cccgcagccc cagcgcccgc cgctccggcc 660 gccgcgcccg cggctcccgc acccgctgcg cccgccgctc cagcacctgc cgccccagcg 720 gcggcaccag ccgcgccagc acccgctgcg cctgcagcac ccgctccggc ggccccggcg 780 gctgctccag ccgcccctgc acccgctgct ccagctgcgc ccgccccagc cgccccggcc 840 gccgctccgg ctgcaccggc accggcagca ccggctgcgc cagccccggc tgccccggca 900 gctgctccgg cggcacctgc ccccgccgcg ccagctgccc ccgcaccggc agctccagcg 960 gcagccccgg cggcaccagc tccagcagcg ccagctgcgc ctgccccagc agcgccagcc 1020 gctgctccag cagctcctgc ccctgctgcg cctgcggctc cggcgccagc tgctcctgct 1080 gcagctccgg ccgccccagc accggcagcg ccagcagcac cggcgccagc tgcccctgcc 1140 gccgcaccag cagcacctgc gccggcggct cccgcagcac ctgctccggc tgcccctgcc 1200 gccgcgcccg ctgcacccgc accagctgca ccagccgcac cggcaccggc ggccccagct 1260 gcagcaccgg cagcccccgc gccggccgcg ccagccgcgc cggcaccggc tgctccggct 1320 gcagcaccgg cagcgcctgc gccagctgct cccgcagctc ctgctccggc ggcgcctgca 1380 gctgcaccgg cagctcctgc cccagcagcc ccggcggcgc cagcgcccgc cgccccagct 1440 gcagcccctg cagcgccggc acccgccgcc cccgcagcac ctgcgccggc cgccccagct 1500 gcggcaccgg ccgcacccgc cccggcggct ccagcagcac ctgctccagc agcaccagct 1560 gcagcccctg cggcaccagc acccgcagcg ccagcggcac cagctccggc cgctcccgcc 1620 gctgcaccag cctcaccggc gccggccgca ccagctgctc ccgccccagc cgctcccgcg 1680 gcggcaccag cggcgccagc gcccgcagct ccggcagcac cggcgccggc tgctcctgcc 1740 gccgcacctg ctgccccggc gcccgccgcc cccgccgctc ccgcgccggc tgcacctgcg 1800 gccgccccag cagcaccggc tccagctgcc ccagccgcac cagcaccagc cgctccagcg 1860 gccgcgcctg ccgctcccgc acccgcggct ccggccgccc ctgcgccggc ggcaccggcg 1920 gcggcacccg cggcacctgc acctgccgcc cccgcggctc ctgctcccgc ggcgccagca 1980 gcagcgccag cggcgcctgc tcctgccgca ccagcagcac cagcacccgc cgcgccagca 2040 gcggcccctg cagctcccgc cccggcagcg cccgctgcgc cagcacccgc tgctcccgcg 2100 gcagcccccg cagctccggc ccctgcggct ccagctgcac cagcaccggc agcgccggcg 2160 gcggcaccag ccgcacccgc accggctgcg cccgccgcgc cagcgccagc cgctccagct 2220 gccgcgccgg cagccccggc ccccgctgcc cctgctgcac ccgcgcctgc agcaccggcg 2280 gcagcccctg cggcacctgc acccgcggct cccgctgccc ctgcacccgc agcgcccgcc 2340 gccgcaccgg ccgctccggc acctgcagcg ccggctgcac cagcgccggc agctccagcg 2400 gccgcaccgg ctgcaccagc tccggcagct ccagcagcac cggcaccagc agctccggct 2460 gcagcgccag cagcaccagc gcctgctgct ccagctgctc ctgctcctgc tgcaccagca 2520 gcagctccag ccgcaccagc accggcagcg cctgcagccc ctgctccggc agctcctgcc 2580 gcagcaccgg cagcaccagc tccagcggca cccgctgccc ctgctcctgc agcaccggca 2640 gcggcaccgg ctgctcctgc gccagctgct ccggcagccc cagcccctgc agccccagca 2700 gcagcgcctg cggctccagc gccagccgca ccagcggctc cggcaccggc agcccctgcg 2760 gcagctcctg ctgcgcctgc tccagcagct ccagctgccc cagcgccggc agctccggct 2820 gccgcaccag ctgcgcctgc ccctgctgcg ccagccgcac cggctccggc agcaccagca 2880 gctgccccag cagctcctgc cccagctgcg cctgctgcgc cagcaccagc agccccagct 2940 gcagcaccag ctgcaccggc accagctgct ccagcagcac cagccccagc cgctccggca 3000 gccgcaccgg ctgccccagc ccctgccgca ccagcagctc ccgcccctgc agcccccgcc 3060 gccgctccgg ccgcaccagc cccggctgcc cctgctgccc ccgccccggc agcacccgct 3120 gcagcaccag ccgcgcctgc accggcagct cctgcagccc cggcaccggc agcacctgcc 3180 gcagcacccg cagccccagc cccagcagcg cctgccgctc cagcaccagc ggcaccggcc 3240 gccgcaccag ccgccccagc accggcagcc cccgcagcgc cggcaccagc cgctccagcc 3300 gccgccccag cagccccggc tccggccgct cccgcggctc cagcaccagc agctccagcg 3360 gccgctccgg cagcgccggc cccagcagca cctgcagccc ctgcaccagc agcgccagcc 3420 gcggcgcccg cagctcccgc acctgcggct cccgcagccc ctgcacccgc ggcgccagca 3480 gccgcccctg cagcgccagc tcctgcagca cctgcagctc cagccccggc cgccccagct 3540 gcagctcctg cggccccagc acctgccgcc cctgccgcac cggctccagc cgccccagcc 3600 gccgcgccag cggccccggc ccctgccgcg cccgctgctc ccgcccctgc tgccccagcc 3660 gccgctcctg cggcacctgc gcccgccgcg ccggcagcgc cggcaccggc agctccggcg 3720 gccgcgcctg cagctcctgc accggcggct ccagcagccc cggcgccggc cgcacctgcg 3780 gcggcgcccg cggcgcctgc acccgcagcg cctgcggcac cggccccagc agcccctgcc 3840 gccgcaccgg ctgcgcctgc cccagcggcc cccgctgccc cggccccggc ggctccagcc 3900 gcagcgcctg ccgccccagc gcccgcagca ccggcggcac cagctccggc ggcgccggcg 3960 gcggctccgg cagctccggc ccctgctgcg ccggctgcgc cggctccggc ggcccctgcg 4020 gcggctccgg ccgcacctgc acctgccgcg ccggctgctc cggccccggc tgccccagca 4080 gcggcaccag cagcgcctgc tcctgcggcg cctgcagctc cggcgccggc agccccggcc 4140 gccgcacccg cggctccagc ccccgccgct ccagcagccc ccgcgccagc tgcacctgct 4200 gccgctcctg ctgcccctgc tcccgctgcc cccgccgccc ccgccccagc tgcccccgct 4260 gccgcacctg ctgccccagc tcccgctgcc ccagccgcgc cggcccccgc agctccagcc 4320 gcggcaccag ctgccccagc tccagcggcg cctgctgccc cggcccccgc ggcaccggct 4380 gccgcgcccg cagctccagc gcctgctgca ccggctgctc cggcacccgc cgcgccagca 4440 gctgcccctg cggcaccagc tcctgctgcc cccgcggcac ctgcacccgc tgccccggcg 4500 gcagctcccg ccgcgccagc ccctgcagct cctgctgcac ctgctcctgc cgcccctgct 4560 gctgcccctg ctgctccagc ccctgcagca ccggccgctc cagctcctgc cgctcctgcc 4620 gctgcgcccg ctgctccagc cccagctgcg ccagcagctc ctgcacctgc tgcccctgcc 4680 gccgcccctg cggctccagc acctgctgca ccggccgccc cggcgcccgc tgcccccgca 4740 gcagccccag ccgcacccgc tccagcagct cccgcagccc cagcacccgc agcaccagcc 4800 4800 <210> 165 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1ao/1an/1am(600), codon-optimized for P. fluorescens <400> 165 gccgccccag ccgcccctgc ccctgccgcc ccagccgcac ccgccccggc agccccagcc 60 gccgccgccg ccgcacccgc cccagcagca cccgctgcgc ccgctcctgc cgcgcccgcg 120 gccgcgcccg ccgcccctgc cccggctgcg cccgccgccc cagcgccagc tgcgcccgcc 180 gccgcccctg ccgccccagc cccggccgca cccgccgccc cggcccctgc cgcgcccgct 240 gccgcacccg ccgcacccgc cccggccgcc cctgccgccc ctgcacccgc cgcgcctgcc 300 gctgccccag ccgcaccagc cccagccgcg ccagccgcac ccgcccctgc agcccctgcc 360 gccgcgccag ccgcgcccgc cccggccgcc ccagccgccc ccgctcccgc cgccccagcc 420 gccgcgccgg cagccccagc cccagccgcc cctgcagcac ccgcacccgc cgcgcccgcc 480 gccgccccag ccgcgcccgc acccgccgcc cctgccgctc ctgccccagc cgccccagcc 540 gccgcaccag ccgcccctgc cccggccgcg cccgctgcgc ccgccccggc cgcacccgcg 600 gccgcgcccg cagccccagc cccggccgcg cccgccgcac ccgcgcccgc cgcccctgct 660 gccgcgcccg ccgccccggc cccggccgct cccgccgcgc cggccccggc cgccccggcc 720 gccgcgcctg ctgcccctgc ccctgccgcg ccggccgcgc ccgccccagc ggcccctgcc 780 gccgctcccg ccgcacctgc acccgccgcc ccagctgcgc ccgcacccgc ggcgcccgcc 840 gccgccccgg cagcgcccgc gcctgccgcg ccggccgccc ctgcccctgc tgcgcccgcc 900 gcggccccgg ccgcacccgc gcccgcggcg cccgccgctc cagccccggc cgccccggca 960 gccgcgccag ccgctcccgc cccagccgcc ccggctgcgc ccgcccctgc cgccccggcc 1020 gcggctcccg ccgcgcccgc gcccgccgcg cctgccgccc cagcgcccgc cgcgcccgcc 1080 gcagcgcccg ccgcgccagc ccccgccgcc ccagcagcgc ccgccccagc agccccggcc 1140 gccgcgcccg ccgcgcccgc accagccgca cccgccgccc cagcccctgc agcgcctgcc 1200 gccgcgccag cggcgccggc cccagccgcg ccggcagcgc cagcgcccgc cgcgccagca 1260 gccgcgcctg cggcgcctgc gcctgcggcc ccagcggcgc cggcgccagc ggcaccggca 1320 gccgcgcccg cagcgccggc ccctgccgcg ccggcagccc ccgcgcctgc ggccccagca 1380 gccgccccgg cggctcccgc gccggccgcc cctgcggcac cggcgcctgc ggccccggcg 1440 gccgcgccag ccgcgcctgc cccggccgcg ccggccgcgc cggcgcccgc cgcacctgcc 1500 gccgccccgg ccgcgccggc tccggccgcg ccagcggccc ctgcgcctgc agccccagcc 1560 gcggccccgg cggcgcccgc accagccgcg cctgccgcgc ccgcgccggc cgcaccggca 1620 gccgcgccgg ccgcgcctgc ccctgccgcc cccgccgcgc ctgccccagc agccccggca 1680 gccgccccgg cagcgcctgc gccagccgca ccggccgcgc cggcgccagc cgcaccagcc 1740 gccgcaccgg ccgcccctgc gccagcggcg cccgcagcgc cggcgcctgc cgcacccgcg 1800 1800 <210> 166 <211> 2400 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1ai/1ah/1ag/1af(800), codon-optimized for C. glutamicum <400> 166 gccgctccag ctgcacccgc tcctgccgca ccggcggctc cagcacccgc ggcacctgcc 60 gccgcacctg ctgcacctgc accggccgct cccgccgccc cggccccggc ggctccagcc 120 gctgcgcccg cagctcctgc ccccgcagcc ccggcagcgc ccgcaccggc agcccctgcg 180 gcggcgcccg cagcaccagc tccggccgct cccgctgccc cggcaccggc tgccccagcc 240 gccgcacctg cggcgccggc gccggccgca ccggctgcgc ccgcgccggc agcccccgct 300 gcagcacctg ccgccccagc cccagccgct ccagccgctc ccgcaccggc tgcgcctgct 360 gcagccccag ccgcgccggc tccggcggcc ccggcggccc cggctccggc agccccagcc 420 gcagcccccg cagcgccagc gccagccgct ccggcagcac ctgcacctgc ggcgcccgcg 480 gcggcacctg cagcgcctgc gcccgctgcc cccgcggccc ccgctcctgc cgcgccggcg 540 gcggcaccag ccgcccctgc cccagctgca ccggcagcgc ctgcccccgc tgcgccagcc 600 gccgctcctg cagcaccagc gccagcggct cccgccgcac cggcaccagc tgctcccgct 660 gcagcgccgg cggcacccgc tccggctgcg ccggccgcgc ctgccccggc ggcgcctgca 720 gcagcgcctg ccgcacctgc tccagccgct ccagcggcgc ccgcccccgc ggccccagca 780 gcggctccgg cggccccagc gcccgcagcc ccagccgcgc ccgcacctgc tgcgccggcc 840 gccgcacccg cggcaccggc gcccgcggcc cccgctgccc ctgcacccgc tgcccccgca 900 gccgctccag cagcaccagc accagcggct ccggcggcgc cggctcccgc tgcccccgca 960 gcagcgcccg ccgcccccgc gcctgccgca ccagcggcac cggcaccagc agcgcccgcg 1020 gccgcgccag ctgcgcccgc cccagcggct cctgccgccc ccgcgccggc cgctcctgca 1080 gctgcccctg ccgctccggc gccagccgct cccgccgccc ccgctcctgc ggctccggcc 1140 gctgcgccgg ctgcccctgc accagcggct ccggccgctc cggcccccgc cgctccagct 1200 gccgctccgg ccgcccccgc acccgctgct cccgcagcgc cggcgcctgc ggcacccgca 1260 gccgcccctg cagccccagc tcccgcagcc cccgctgctc ctgctccagc tgcacccgcg 1320 gctgcacccg ctgcaccggc cccggcggct cctgccgccc cagcgccggc ggctcccgct 1380 gctgcacccg cggcccctgc gccggcagcc ccagcggcac cagcgcctgc cgcaccggca 1440 gccgccccag ccgccccagc gccagctgcg ccagcggctc cggccccagc tgcgccggca 1500 gcggcacctg cagctccagc tcctgctgct cccgcggcgc ccgcccccgc agcacctgct 1560 gccgccccag ctgccccagc tccggccgcc cctgcggctc ctgctcctgc agcgcctgct 1620 gcggctcccg cggcgccagc gccggcggcc ccagcagctc cagctcctgc agcaccggca 1680 gcggcccccg cggctccagc tcctgcagct ccggctgccc cagcccctgc cgcaccggct 1740 gcagcgcccg cggctcccgc tcctgcagca cctgcagcac cagcccctgc tgcaccggcg 1800 gccgcgcccg cggctcctgc cccagcagcg cccgcggcac cagcaccggc ggccccggcc 1860 gccgcccctg ctgcgcccgc gcctgcagct cccgccgccc cagcccccgc tgcaccagca 1920 gccgctccag ccgcaccggc gcccgctgca cctgccgctc cggcgccggc cgctccagcc 1980 gctgcaccag ccgcgccagc accagctgca cctgcggccc ctgcgccagc tgcgccagca 2040 gcggcaccag cagctccagc tccagctgcg cctgcggcac ctgccccggc tgccccggcg 2100 gctgcgcctg cggcccctgc accagccgcc ccagctgcac ccgcccctgc ggcgcctgcc 2160 gccgcacccg ccgcgcctgc cccagccgct ccggcggcac ctgccccagc tgctcctgca 2220 gcagcccctg ccgccccggc gccagccgca cccgccgcac cagcacctgc agcgccagct 2280 gccgcgccag ctgcgcctgc ccccgcagcc cccgccgctc ctgctccagc cgcacccgca 2340 gccgctccgg ctgctccagc cccagcagct ccagcggcac ccgcccctgc tgcaccggct 2400 2400 <210> 167 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1y/1x/1w(600), codon-optimized for B. subtilis <400> 167 gccgcaccgg ctgcaccggc accagctgcg cctgctgcac cagcaccggc agcaccagca 60 gccgcacccg ctgctcccgc tcctgctgcg ccagctgcac cagctccggc agcgcctgcg 120 gctgctccag cggctccggc tcctgcagct cctgccgctc cagctccagc agcaccagct 180 gcggctccgg ctgcaccggc tccagccgca ccagcagcac cggcaccggc agcgccagct 240 gcagcccctg ctgctccggc gcctgctgca ccggcagctc cggcaccagc ggcaccggca 300 gcagctccgg cagctccggc tcctgctgct ccggcagcgc cagcgccagc agctcctgca 360 gctgctcctg ctgcacctgc accggctgct ccagcagcgc cggcaccggc tgcgccggct 420 gcagctccag ctgctccagc gccagctgct ccggcagcac cggctccggc tgcgcctgca 480 gccgctcctg cagcgcctgc accagccgct ccggcggctc ctgcaccagc cgcaccggct 540 gctgcacctg ctgcgcctgc gcctgctgct cctgctgcgc ctgctccggc agctcctgca 600 gccgcacctg cagcaccagc tccggcagca ccggcagctc cagcgcctgc ggctccggct 660 gctgctcctg cagctcctgc gccagctgcg ccagcagctc cagctccagc cgctcctgct 720 gcagcccctg cggcaccggc tccggcagct ccagcggcac cagcaccggc agctccggct 780 gcagcgccag cagctccggc accagcagct ccagcagcgc cagctcctgc ggcaccagcc 840 gcagcaccag ccgctccggc tccagctgcg cctgccgcac cggctccagc ggcaccggct 900 gcggcaccag cagcaccagc gcctgcagca ccagcagcgc cagcacctgc tgctccggca 960 gctgcaccgg ctgctccggc tccagcagct ccggctgcac cagcgcctgc tgcgcctgca 1020 gcagcacctg cggctccggc accggctgca ccggcggcac cggctccagc tgctccagca 1080 gcggctcctg cagctccggc tcctgccgca ccggctgctc cagctccggc tgcgccagcg 1140 gcagcaccgg ctgcaccagc accagcggcg ccagccgcac cagcacctgc tgcgcctgct 1200 gccgcaccgg ctgcgccagc acctgcagcg cctgccgctc ctgctccggc tgctccggct 1260 gctgcaccag cggcaccagc accagcagcg cctgcggcac cggcaccagc cgcaccagct 1320 gccgctccag ccgctccggc accggctgct ccggcagcac cagcaccagc tgcaccagcg 1380 gcagcgcctg cagcgccagc tccggcagcg ccagcagcac cagctccagc tgcaccggct 1440 gctgcccctg ctgcaccagc tccagccgct ccggctgcgc ctgctcctgc agcgccagct 1500 gccgctcctg cagcaccagc gccagcggca ccggcagcgc ctgctccggc tgcaccagct 1560 gccgcaccgg cagcacctgc accagcagct ccagctgctc cggctccagc ggctcctgca 1620 gctgcgcctg cggctcctgc accagcggct ccagctgctc ctgcgcctgc cgctccagca 1680 gcagctccag ctgcgcctgc gccagcagca ccggctgcgc ctgcaccagc ggctccggca 1740 gcagcaccag ctgcgccagc gcctgcagct ccggctgctc cggcaccagc tgcgccagct 1800 1800 <210> 168 <211> 2400 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1j/1k/1l/1m(800), codon-optimized for P. pastoris <400> 168 gccgcacctg ccgcacctgc ccctgctgcc ccagctgccc ctgctcctgc cgcccctgcc 60 gccgctcctg ccgctcctgc tcctgccgct ccagctgctc cagctcctgc tgctccagca 120 gctgccccag ccgccccagc tcctgctgcc ccagccgcac ctgcaccagc cgctccagct 180 gctgcccctg ccgcacctgc accagctgct ccagccgcac ctgcacctgc cgccccagct 240 gccgcccctg ccgcaccagc tcctgcagcc cctgccgctc cagccccagc agctccagct 300 gccgcccctg cagcccctgc cccagccgca ccagctgccc ctgccccagc agctcctgct 360 gccgcccctg ctgctccagc accagcagct ccagccgcac ctgctccagc cgctccagct 420 gccgcacctg ccgctccagc ccctgcagcc cctgcagccc cagctccagc cgccccagcc 480 gccgcacctg cagccccagc accagctgcc cctgcagcac cagctcctgc tgctcctgct 540 gcagcaccag ccgcaccagc accagcagca ccagccgccc cagccccagc cgcaccagca 600 gccgcccctg ccgcccccgc tcctgctgca cctgctgctc ccgcacccgc cgcccctgcc 660 gctgcccctg ctgcaccagc ccctgctgct ccagccgcac cagctccagc agctcctgcc 720 gctgccccag ctgccccagc tcccgccgcc cccgccgctc ctgcacccgc tgcaccagcc 780 gccgccccag ccgctccagc cccagccgct cctgcagctc ctgctcctgc tgcccctgca 840 gccgccccgg cagctccagc tcccgcagct cctgctgcac cagctcccgc tgctcctgca 900 gccgcacctg ctgcccctgc tcctgctgct ccagctgcac ccgctcctgc cgcaccagcc 960 gctgcccctg ccgctccagc acccgccgca ccagccgctc ctgcccctgc agctccagcc 1020 gccgcccctg ccgcgcctgc tccagccgct cctgcagcac ctgcacctgc agcacctgct 1080 gcagcaccag cagctcctgc tcccgcagca ccagcagccc cagcaccagc cgctccagca 1140 gccgctccag ctgcacctgc ccctgcagca cctgcagctc ctgctccagc ggctccagct 1200 gccgcccccg ccgctccagc acctgccgca cctgcagctc cagcccctgc tgctcctgct 1260 gctgcacctg ccgctcccgc accagctgct cccgcagctc ccgcccctgc cgcgccagct 1320 gccgctcccg ctgcccctgc accagctgct cctgctgctc ctgcccctgc tgcacctgca 1380 gctgctccag ccgcccctgc tccggcagcc ccagcagcac ccgctcctgc tgcaccagcc 1440 gccgcaccag ctgctccagc tccggcagca cctgcagccc ccgctccagc cgcccctgcc 1500 gcagccccag ctgcgccagc tcccgctgct ccagcagctc cagcacccgc cgctccagcc 1560 gccgctcccg ctgctccagc tccggctgca cctgctgcac ctgctcctgc tgctcccgct 1620 gctgcccccg cagcaccagc tcctgccgca cctgctgctc ctgctccagc agcacccgcc 1680 gcagctcctg cagcaccggc tccagcagct cctgctgcac ctgcccctgc cgctcccgct 1740 gcagctcccg ccgctcccgc ccctgctgca cccgctgccc cagcacctgc agcacctgca 1800 gccgcacccg ctgcacctgc ccccgcagcc ccagccgccc ctgcccccgc tgcacctgca 1860 gcagcccccg ctgcccctgc acccgcagca ccagctgcac ctgctcctgc cgctcccgct 1920 gctgcacctg ctgccccagc ccctgctgca ccagcagctc cagctcccgc tgcccctgct 1980 gcagcacccg ctgctcctgc tcctgcagct ccagctgcac cagccccagc agcacctgcc 2040 gctgctcctg ctgcccccgc tccagcagcc cctgcagcac ctgctcctgc agcccccgca 2100 gcagctccag ctgcccctgc ccccgccgct ccagctgctc ctgctcccgc cgcacctgcc 2160 gcagctcctg cagctcctgc acctgctgct ccagccgctc ccgcaccagc agcacctgct 2220 gccgctcctg cagccccagc acccgctgcc cccgcagcac ctgcacccgc cgcccctgct 2280 gccgcacccg ccgcacctgc tccagctgct cccgcagccc ctgcacctgc cgctcctgcc 2340 gccgctccag ccgctccagc ccccgcagct cctgccgctc cagcacctgc agctccagca 2400 2400 <210> 169 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1p/1o/1n(600), codon-optimized for S. cerevisiae <400> 169 gccgctccag cagcaccagc tcctgcagct ccagctgcac ctgctccagc cgctcccgct 60 gcagctccgg ccgctcccgc cccagccgca cccgcagccc cagctcccgc tgctccagct 120 gcagctccag cagcacctgc gcccgcggca ccagccgctc ctgcaccggc tgcacccgct 180 gcggcgccgg cagcacccgc tcccgcagcc cccgcagcgc ccgccccagc ggccccagcc 240 gcggcgccag cagctccagc tccagcggca cccgcggcac cagctcccgc agcgccggcg 300 gcagctcctg cagccccggc ccccgccgca ccagcagctc ctgctccggc ggcaccagca 360 gcagcgccgg cggctccggc gccggcagcg ccagcggccc ctgctcccgc cgcgccggca 420 gcagcccccg ccgctccagc ccctgcggct ccggcggcgc ccgcccccgc agcacctgcg 480 gctgcgccag ccgcacctgc cccggctgca cctgctgcac ccgcgccggc tgcacccgcg 540 gctgccccgg ctgctccggc gccagcggca cctgctgcac cagcacctgc cgcgccagcg 600 gccgctccag ctgctccagc cccagctgca cctgcagcgc cagcaccagc agctccagca 660 gctgcaccag ccgctcccgc accagctgct cctgctgctc cagcgcctgc agctcctgct 720 gccgctccag ctgccccagc tccagcggct ccggcagcgc cagccccagc agcacccgcc 780 gctgcacctg ccgcaccagc tcctgccgca cctgctgctc ccgcaccagc agcaccggca 840 gctgctccag ccgcaccagc gcctgccgca cccgctgccc cagcacctgc ggcgccagca 900 gcagctcctg cggcaccggc accagctgcc cctgcagctc cggctccagc tgcgcctgcc 960 gctgcaccag ctgcgcctgc gccagccgct cctgctgcgc ctgcaccagc ggcaccagca 1020 gctgcacccg ctgcaccagc gccagcagct ccggcagctc cagcgcccgc ggcgcctgct 1080 gctgcccctg ccgctccagc tccagctgct cctgcagcac cagcccctgc agccccggcg 1140 gccgcaccag cagcgcctgc acctgcggct ccagcagccc cagccccagc ggcccctgcc 1200 gccgctccag ctgcaccagc tccagcagct ccagccgctc ctgctcctgc tgctcccgca 1260 gcagcccctg cagcacccgc tccagcagca cccgctgctc cagctccagc tgcacccgca 1320 gctgctccag cagcacctgc accagccgca ccagcagctc ccgctccagc agctcctgca 1380 gcagcacccg ccgcaccagc accagccgca ccagctgctc cagcaccagc cgctccagct 1440 gcagccccag cagctcccgc tcctgcagct cctgctgctc ctgcaccagc agcacccgcc 1500 gcagctcccg cagcaccagc tccagctgct cccgctgcac ccgctccagc cgcaccagcc 1560 gctgcaccag ctgcacccgc tccagctgca cccgccgctc cagctcctgc agcaccagct 1620 gctgccccag ccgctccagc accagctgct cccgccgctc ctgcaccagc agctccagct 1680 gccgctcctg cagcacccgc accagctgca ccagcagcac cagcaccagc agcaccagct 1740 gctgctcccg ctgctcctgc tcctgccgct cctgcagctc cagctcctgc cgctccagct 1800 1800 <210> 170 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1s/1r/1q(600), codon-optimized for K. lactis <400> 170 gccgcccccg ctgctcctgc cccagctgcc cccgccgcgc cagcccctgc tgctcctgct 60 gccgcgcctg cagctccagc cccagccgca ccagcagccc cagccccagc agctcccgcc 120 gcagctccag cagcccccgc cccagctgca ccagccgcac cagcacctgc tgctcccgcc 180 gctgccccag ccgctcctgc tccagccgcc cctgccgctc ccgccccagc agccccagca 240 gcagcgccag cagccccagc acccgctgct ccagccgccc cagctccggc cgcaccagct 300 gccgccccag ccgctcctgc accagctgcc cctgccgccc cagctcccgc cgccccagca 360 gcagctccag ccgcaccagc cccagccgcg ccagctgctc ctgcacctgc tgcacctgca 420 gcagctcccg ctgctccagc acctgctgca cctgctgctc cagccccagc agcgcccgca 480 gccgctccag cagctccagc acctgcagct ccagccgctc cagccccagc cgcgcctgcc 540 gccgctccag ctgcccctgc cccagcagca cccgccgctc cagccccagc agctccagcc 600 gccgccccag cagctcctgc tccagctgct cccgctgctc cagcccctgc agctcccgcc 660 gcagcaccag ccgccccagc tcctgccgct cccgccgctc cagcacctgc cgcccctgct 720 gctgctcctg ccgctcctgc ccccgccgcc ccagccgccc cagccccagc agcaccagca 780 gcggcccctg cagccccagc tcctgcagca cctgccgcac ctgcaccagc tgccccagct 840 gccgccccag cagcccctgc tcctgcagca ccagctgcac ctgctccggc cgcaccagca 900 gccgcacctg cagctccagc acccgcagct cccgcagccc cagcacctgc cgctcccgct 960 gctgctcccg ccgctcctgc cccagctgct cctgccgcac ctgctcccgc agctccagcc 1020 gctgcgcctg ctgcaccagc acccgcagca ccggcagcgc cagcacctgc agctcctgcc 1080 gcagcgcccg cagcaccagc ccctgccgct ccagcagcac ctgctcctgc tgctccagcc 1140 gccgcccccg ctgcaccagc tccagctgca ccagctgctc ccgcccctgc tgccccggcc 1200 gccgctccag cagcaccggc cccagccgcg cccgccgctc cagctcccgc tgcacctgca 1260 gccgctcctg ctgcacctgc acctgcagcc ccagccgctc cagctcctgc cgctccagcc 1320 gccgcccctg ccgcacccgc accagcagca cctgccgcgc ctgctccagc agcaccagcc 1380 gcagcaccag ccgctccagc gcctgcagct ccagcagccc cagctcccgc agcaccagct 1440 gcagcaccag cagctcctgc acctgcagca ccagccgcac cagcccccgc tgcccctgct 1500 gccgcccctg cagcacctgc gccagccgcg ccagcagctc cagctccagc agcacccgca 1560 gcagctccag cagctcccgc tcctgctgcc cctgccgctc ctgcccctgc tgcaccagcc 1620 gccgctcccg cagctcctgc accagctgca cctgccgccc ccgcacctgc cgcacccgct 1680 gccgctcctg ctgcccccgc acccgctgca cccgcggccc cggccccggc agctccagca 1740 gcagctcctg ccgctccggc ccctgcagca ccagccgctc ccgcaccggc cgcacccgcc 1800 1800 <210> 171 <211> 2400 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1as/1ar/1aq/1ap(800), codon-optimized for T. thermophila <400> 171 gccgcacctg cagctccagc acctgccgct cccgccgcac ctgctcctgc cgctcctgct 60 gccgctccag cagcacctgc tcctgcagct ccagcagctc ctgcccctgc tgctcctgcc 120 gcagctcctg ccgcacccgc tcccgctgct ccagctgctc ctgctccggc tgctccagct 180 gctgctcctg ctgcccctgc tcctgctgct cctgcggctc cagcacccgc agctcccgcc 240 gccgctcctg ctgctcccgc acccgctgct cctgccgctc cagcacctgc tgctcctgct 300 gcagctcccg cagctcctgc gcctgctgct cctgctgcgc ctgctcccgc tgctccagca 360 gcagctcctg ctgctccagc ccctgctgct cccgctgctc ctgcacctgc agctcctgca 420 gctgcccctg cagctccagc accagctgct cctgccgctc ccgctcctgc agctcctgcc 480 gctgcaccag ctgcacctgc accagctgcc cctgctgcac ctgcacctgc cgctcctgca 540 gcagctcctg ctgcacccgc ccctgctgct ccagctgcac ccgctcctgc tgctcctgca 600 gccgctcctg cagctccagc acctgctgca ccagctgccc ctgccccagc tgctcccgct 660 gctgctccag ctgcacctgc acccgctgca ccggctgctc cggctcctgc tgctcctgcc 720 gctgctcctg ctgcccccgc tcctgctgca cctgccgcac ctgctcctgc ggctccagcc 780 gctgctccag cagctcctgc tccagccgca ccagcagcac cagctcctgc agcacctgca 840 gctgctcctg cggcacctgc tccagctgct ccagcggctc ctgcacctgc tgctcccgca 900 gctgctccag ccgcccctgc tcctgctgcg cctgctgctc cagcccctgc agctcctgcc 960 gccgctcctg cagcccctgc tccagcagcc cctgccgctc ctgctcctgc agcgcctgca 1020 gctgcaccag ccgctcctgc ccctgctgct ccagcagcac ctgctcccgc cgctccagct 1080 gccgctccag cagctccagc tcctgctgct ccagcggcac cagctccagc tgctcctgct 1140 gctgctcctg ctgcacccgc acctgcagca ccagcagctc ccgctcctgc tgctcccgct 1200 gccgctcctg ctgcaccagc acctgctgct cctgcagcac ccgctcctgc tgcccctgct 1260 gcagctcctg cagctcctgc tcctgctgct ccggcagctc ctgctcccgc tgcccctgct 1320 gccgctcctg cagctcccgc acctgctgct ccagctgccc cagcacctgc tgccccagct 1380 gcagctcctg cggcccctgc tcctgcagct ccggctgctc ctgctcctgc cgcaccagct 1440 gctgctcctg cagccccagc tcctgctgcc ccagccgctc cagctccagc tgcaccagct 1500 gcagcacctg ctgctccggc tccagctgct cccgcagcac ctgctcctgc tgcaccggca 1560 gctgctcctg cagctcctgc accagctgct cctgccgccc ctgcacctgc tgcacctgct 1620 gctgcacctg cagctcctgc tccggctgca cctgctgccc ctgcaccagc tgcacctgct 1680 gcagcacctg ccgctcctgc cccagctgcc cctgctgctc ctgctccagc tgcacccgct 1740 gctgcacctg ctgcgccagc tcctgctgca cctgcagccc ctgctcctgc tgcacctgct 1800 gccgctccag ctgctccggc tcccgctgct cctgcagctc ccgctccagc tgctcctgca 1860 gcagctcctg cagcccccgc tccagctgca ccggctgcac cagctcctgc tgctcctgct 1920 gctgcccctg ctgctcccgc ccctgctgct cctgcagctc cggcacctgc tgctcctgct 1980 gccgcacctg cagctccagc cccagctgct cctgctgcac ctgctcctgc agcaccagct 2040 gctgcacctg ctgcacccgc tccagctgct ccagctgctc ctgcccctgc agctccagct 2100 gccgcacctg ccgctccagc tcctgcagct cccgccgcac ctgctccagc agctcccgca 2160 gctgcacctg ctgctcctgc cccagcagct cctgcagctc cagctccagc agctcctgcc 2220 gctgcacctg ctgctccagc accagctgca ccagcagctc ctgctcctgc agctcctgcc 2280 gcagctcctg ctgctcccgc accagctgca cctgccgctc ccgctccagc agcaccagct 2340 gccgctccag ctgctcccgc cccagctgct ccagcagctc cagcaccagc agctccagct 2400 2400 <210> 172 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1v/1u/1t(600), codon-optimized for H. sapiens (HEK cells) <400> 172 gccgccccgg cagcacccgc accggctgca ccagccgctc cagcaccggc cgcaccagcc 60 gcagctccag cagcaccggc accggcagct cccgcagcac cagctccggc agctccagcc 120 gccgctccgg ctgcaccagc tccagcagca ccagctgctc cagctccagc agcacccgca 180 gctgctccag cagctcccgc tccggccgct cctgctgcac cggctccagc tgctccggcc 240 gcagcaccag cagctccagc cccagccgct ccagcagctc ctgctcccgc agcaccggca 300 gccgcaccag ctgctccggc tccggcagct cctgctgcac cagctcccgc cgctccagct 360 gcagctccag ctgctccggc accggctgca ccggccgctc cggctcccgc cgcaccagct 420 gcagcccctg ccgctcctgc accagctgca cccgctgctc cagctccggc tgctcctgca 480 gccgctcctg cagctccggc accagctgca cctgcagctc ccgctccagc tgctcctgca 540 gcagctcccg ctgcaccagc accagcagct cccgccgcac cggctccagc tgcaccagca 600 gccgccccgg ctgctcccgc tcctgcagca ccggcagctc ccgctccagc cgcaccagca 660 gcagcacccg cagctccagc accggctgca cccgctgcac ctgctccagc cgctccagca 720 gctgccccag ccgcaccagc accggcagct ccggctgctc ctgctccagc agcacccgcc 780 gcagctccgg ccgctccagc tcctgctgca cccgcagctc ccgcaccggc agctccagcc 840 gctgcaccag cagctccggc tccagctgct ccagcagcac cagctccagc cgcacccgct 900 gcagccccag ctgcaccagc accagccgca cctgcagctc cagcaccagc tgctccggca 960 gctgcacccg ctgctcccgc accagctgca ccagcagcac ccgcaccagc cgctccggcc 1020 gcagctcctg cagctcccgc ccctgcagct cctgccgctc ctgctcccgc tgctcctgcc 1080 gcagctcccg ctgctccggc tcctgccgca ccagctgcac ccgctccggc agcaccagca 1140 gccgcacccg cagcaccagc tccagcagct ccagctgctc ctgctcctgc tgcaccagct 1200 gccgctcctg ctgctccagc tccagctgca ccagccgctc cggcaccagc agcacccgct 1260 gctgcccctg cagctcctgc tccggcagct cccgcagctc ctgcaccagc tgctccagct 1320 gccgctccag ccgctcctgc tcctgccgct cctgcagcac ccgctccggc cgcaccagct 1380 gctgctcccg ctgcacccgc tccagcagct ccggctgcac cagcaccggc tgctccagca 1440 gcagcccctg cagcaccagc tccagctgct cccgcagctc cagctcctgc tgctccggcc 1500 gctgctcctg ccgcaccagc accagccgct ccagctgcac ccgcaccagc tgcacccgcc 1560 gctgctccag ctgctcctgc accggcagca ccagctgctc ccgctccggc tgctcccgct 1620 gctgcaccgg ccgctccagc tccagcagct cctgccgctc ccgcaccagc agctcccgca 1680 gcagcacccg ccgcaccggc tccggcagca ccagccgcac cagctcccgc tgcaccggct 1740 gccgcaccgg ctgcaccggc accagcagct ccagccgctc cggctcctgc agctccagca 1800 1800 <210> 173 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1al/1ak/1j(600), codon-optimized for P. patens <400> 173 gccgcaccag ctgctcccgc acctgcagca ccagccgctc ccgcccctgc cgctccagcc 60 gccgcaccag ccgccccagc ccctgcagca cccgcagcac ctgctcccgc agctccagcc 120 gcagccccag ccgctcctgc accagccgcc cctgctgcac cggctccagc cgcgcccgct 180 gctgcgcccg ccgctcccgc cccagccgcc ccagctgccc ccgctccagc tgctcccgca 240 gctgcacccg ccgcacctgc acctgctgcc cccgctgcac ctgcacctgc cgcccctgca 300 gctgccccag ccgccccggc acccgctgcc cccgccgctc ctgctcctgc tgcaccagct 360 gccgcccctg ccgcccccgc accagcggcc ccagcagccc ccgccccagc cgctccagct 420 gctgctcccg ccgcacctgc cccagccgca cctgccgccc cagctcccgc cgctcccgcc 480 gccgctcctg ctgcacccgc ccctgctgct cctgccgctc ccgctcccgc tgctcccgct 540 gccgctcccg ccgcccccgc tcctgccgcc cccgccgcac cagcacctgc agctcctgcc 600 gccgcacctg ccgcaccagc ccccgcagca cccgcagcgc cagctccagc agctccagcc 660 gccgcacctg ccgctcccgc gcccgctgct cctgccgccc ctgcccctgc tgcacccgct 720 gcagctcctg ccgctcctgc acctgccgct cctgcagccc ctgctcctgc tgcccctgct 780 gccgctccag ctgcccctgc tcctgccgcg cctgctgccc cagcaccggc cgccccagca 840 gctgctcctg ctgcccccgc accagcagct ccagccgcgc ctgcgcctgc tgcccccgct 900 gccgctcctg ccgctcctgc ccctgctgct cctgctgcac ccgctcccgc tgctcctgct 960 gctgcacccg ccgcccctgc tcctgcagct ccagccgctc ccgctccagc tgcaccagcc 1020 gccgccccag ccgcgccagc gccagctgcc cctgctgcac ctgctcccgc cgctcccgct 1080 gccgcccccg ctgcacccgc accagctgca cccgctgctc ccgcccctgc tgctcccgct 1140 gcagctccgg ccgctcccgc acctgctgct cccgctgccc ctgcgcctgc cgctcccgca 1200 gccgctcccg ctgcccctgc tcctgctgcg cccgctgcac ctgcccctgc tgctcccgca 1260 gctgctccag ccgcccccgc tcccgctgca ccagctgctc ccgctcctgc cgctcccgct 1320 gccgcacccg ctgcacctgc gcctgcggct cccgccgctc ccgcccccgc tgcgcccgca 1380 gccgcccccg cagcccccgc accagcagcc ccagccgcac cagctccagc agccccagct 1440 gccgcacctg ctgcacccgc tcctgctgct cccgcagcac cagcccctgc agctcccgct 1500 gccgcgcctg ccgcccctgc ccccgcagca ccagcagctc ccgccccagc tgcacctgca 1560 gccgctccag cagccccagc ccctgccgct ccagctgctc ctgctccagc cgcaccagca 1620 gccgcacccg ctgcaccagc acctgcagcg cccgctgcac cagcgcccgc tgccccagct 1680 gccgctcccg ccgcaccagc tcctgctgca cccgctgctc cagcacccgc cgctcccgcc 1740 gctgctcctg ccgctcctgc tcccgcagct cccgctgcgc ctgctccagc tgcaccagcc 1800 1800 <210> 174 <211> 900 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1n/1b(300), codon-optimized for E. coli <400> 174 gccagtccgg cagcgcccgc tccagcaagt cccgctgcac ccgcacctag cgccccggca 60 gcttccccgg ctgcgcctgc gccagcctct ccggctgccc cagcgccgtc cgcacccgcg 120 gcgtcaccag cagcccctgc gcctgcttcc ccagcagccc ctgcaccgtc agcgccagca 180 gcatcacctg ctgcccccgc acccgcaagt cctgccgcac cggccccttc agcccctgct 240 gcctctccag ccgcgccagc acccgcgtcg cccgctgcgc ctgcccccag cgcacctgca 300 gccagccctg ccgcacctgc gcccgcatca cctgcggcac ctgcaccttc cgccccggct 360 gcatctcctg ccgcacccgc gcctgccagc ccagctgcac ctgccccaag tgcgccagca 420 gcatcccctg ccgcgcctgc ccccgctagt ccagcggccc cagctccatc tgcaccagct 480 gctagccctg ctgcaccagc tcctgcttct cccgcagccc cagcgccttc tgctcccgca 540 gcctcacctg cggccccggc accagcatct ccagcggcac cagcaccttc ggcccctgct 600 gctagcccag cagcacctgc gccagcctca ccagctgctc ccgctcctag tgccccggcg 660 gcctcgcctg ctgctcctgc accagcttcg ccagcggcac cggctccttc ggcgccggct 720 gcttcaccag cagcacctgc tccagcgtcc ccagcggccc ctgctccaag tgctccggct 780 gcatcgcctg ccgctcctgc tcctgcatcc ccagctgctc cagcaccaag cgcacctgcc 840 gcctcaccag cggcgccagc acccgccagc ccagcagcgc ctgctccatc cgcaccggcg 900 900 <210> 175 <211> 900 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1n/1c(300), codon-optimized for E. coli <400> 175 gccagtccgg cagcgcccgc tccagcaagt cccgctgcac ccgcacctag cgccccggca 60 gcttccccgg ctgcgcctgc gccagcctct ccggctgccc cagcgccgtc cgcacccgcg 120 gcgtcaccag cagcccctgc gcctgcttcc ccagcagccc ctgcaccgtc agcgccagca 180 gcatcacctg ctgcccccgc acccgcaagt cctgccgcac cggccccttc agcccctgct 240 gcctctccag ccgcgccagc acccgcgtcg cccgctgcgc ctgcccccag cgcacctgca 300 gccagtcctg ctgcaccggc accggcatca ccggctgcac cagcacctag tgcaccggca 360 gcttctccgg ctgcccctgc gcctgcatca ccagctgcgc ctgcaccgtc tgcccctgca 420 gctagtccag cagctccagc tccggcttct cctgcggctc ctgcaccaag tgcgcctgca 480 gcaagtccgg ctgcgcctgc cccagctagt cctgctgctc cggcaccgtc agctccggca 540 gcatctcctg cagcaccagc ccctgcaagt ccagcagcgc cagccccatc agcaccagca 600 gcttcaccag ccgcaccagc gccagcaagc cctgctgccc cagctcctag cgcaccggca 660 gccagtcctg cagctcctgc gcctgctagt ccggcagccc cagctccaag tgcccctgcc 720 gcttcgcctg cagccccagc accagcttct ccagccgcac cggcaccttc tgccccagct 780 gcatctccgg cagctccggc accagcaagc ccggcagcac cggcaccatc tgcgcctgcc 840 gcatctccgg ctgcgccagc tccagcctct cctgcagcgc cagcaccgag cgcaccagca 900 900 <210> 176 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1b/1f/1c(600), codon-optimized for E. coli <400> 176 gccagccctg ccgcacctgc gcccgcatca cctgcggcac ctgcaccttc cgccccggct 60 gcatctcctg ccgcacccgc gcctgccagc ccagctgcac ctgccccaag tgcgccagca 120 gcatcccctg ccgcgcctgc ccccgctagt ccagcggccc cagctccatc tgcaccagct 180 gctagccctg ctgcaccagc tcctgcttct cccgcagccc cagcgccttc tgctcccgca 240 gcctcacctg cggccccggc accagcatct ccagcggcac cagcaccttc ggcccctgct 300 gctagcccag cagcacctgc gccagcctca ccagctgctc ccgctcctag tgccccggcg 360 gcctcgcctg ctgctcctgc accagcttcg ccagcggcac cggctccttc ggcgccggct 420 gcttcaccag cagcacctgc tccagcgtcc ccagcggccc ctgctccaag tgctccggct 480 gcatcgcctg ccgctcctgc tcctgcatcc ccagctgctc cagcaccaag cgcacctgcc 540 gcctcaccag cggcgccagc acccgccagc ccagcagcgc ctgctccatc cgcaccggcg 600 gcctcccctg ccgctccagc ccccgcctcg ccggccgctc ccgctccgtc tgcacctgct 660 gcctcaccag cagccccggc cccagcatcc ccggccgcac cagctccgtc agcacctgcc 720 gcatcgcctg ctgcccctgc cccagccagt ccagcggctc cagccccgag tgctccggcc 780 gcttcccccg cagcaccggc tcctgcctcc cctgcagccc ctgctccatc tgcccctgcg 840 gcatcccctg cggcgccagc tcctgcctct ccagctgcac cggctccctc agctcccgct 900 gcctccccag ccgcgcccgc tcctgcaagc ccagcagctc cggctccatc cgcccccgcc 960 gccagccccg cagccccggc gcctgcctct cctgctgcac ctgcaccgtc agcccctgca 1020 gcatctcccg cagctcctgc accggcatct ccagcagccc ccgccccgtc agctcccgca 1080 gccagcccgg ccgcacccgc ccccgcgtca ccagctgcac cagcgccatc cgctcctgct 1140 gcgtctcccg ctgcgcccgc ccctgcctca cctgcagcac ctgcacctag cgccccggct 1200 gccagtcctg ctgcaccggc accggcatca ccggctgcac cagcacctag tgcaccggca 1260 gcttctccgg ctgcccctgc gcctgcatca ccagctgcgc ctgcaccgtc tgcccctgca 1320 gctagtccag cagctccagc tccggcttct cctgcggctc ctgcaccaag tgcgcctgca 1380 gcaagtccgg ctgcgcctgc cccagctagt cctgctgctc cggcaccgtc agctccggca 1440 gcatctcctg cagcaccagc ccctgcaagt ccagcagcgc cagccccatc agcaccagca 1500 gcttcaccag ccgcaccagc gccagcaagc cctgctgccc cagctcctag cgcaccggca 1560 gccagtcctg cagctcctgc gcctgctagt ccggcagccc cagctccaag tgcccctgcc 1620 gcttcgcctg cagccccagc accagcttct ccagccgcac cggcaccttc tgccccagct 1680 gcatctccgg cagctccggc accagcaagc ccggcagcac cggcaccatc tgcgcctgcc 1740 gcatctccgg ctgcgccagc tccagcctct cctgcagcgc cagcaccgag cgcaccagca 1800 1800 <210> 177 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1b/1c/1f(600), codon-optimized for E. coli <400> 177 gccagccctg ccgcacctgc gcccgcatca cctgcggcac ctgcaccttc cgccccggct 60 gcatctcctg ccgcacccgc gcctgccagc ccagctgcac ctgccccaag tgcgccagca 120 gcatcccctg ccgcgcctgc ccccgctagt ccagcggccc cagctccatc tgcaccagct 180 gctagccctg ctgcaccagc tcctgcttct cccgcagccc cagcgccttc tgctcccgca 240 gcctcacctg cggccccggc accagcatct ccagcggcac cagcaccttc ggcccctgct 300 gctagcccag cagcacctgc gccagcctca ccagctgctc ccgctcctag tgccccggcg 360 gcctcgcctg ctgctcctgc accagcttcg ccagcggcac cggctccttc ggcgccggct 420 gcttcaccag cagcacctgc tccagcgtcc ccagcggccc ctgctccaag tgctccggct 480 gcatcgcctg ccgctcctgc tcctgcatcc ccagctgctc cagcaccaag cgcacctgcc 540 gcctcaccag cggcgccagc acccgccagc ccagcagcgc ctgctccatc cgcaccggcg 600 gccagtcctg ctgcaccggc accggcatca ccggctgcac cagcacctag tgcaccggca 660 gcttctccgg ctgcccctgc gcctgcatca ccagctgcgc ctgcaccgtc tgcccctgca 720 gctagtccag cagctccagc tccggcttct cctgcggctc ctgcaccaag tgcgcctgca 780 gcaagtccgg ctgcgcctgc cccagctagt cctgctgctc cggcaccgtc agctccggca 840 gcatctcctg cagcaccagc ccctgcaagt ccagcagcgc cagccccatc agcaccagca 900 gcttcaccag ccgcaccagc gccagcaagc cctgctgccc cagctcctag cgcaccggca 960 gccagtcctg cagctcctgc gcctgctagt ccggcagccc cagctccaag tgcccctgcc 1020 gcttcgcctg cagccccagc accagcttct ccagccgcac cggcaccttc tgccccagct 1080 gcatctccgg cagctccggc accagcaagc ccggcagcac cggcaccatc tgcgcctgcc 1140 gcatctccgg ctgcgccagc tccagcctct cctgcagcgc cagcaccgag cgcaccagca 1200 gcctcccctg ccgctccagc ccccgcctcg ccggccgctc ccgctccgtc tgcacctgct 1260 gcctcaccag cagccccggc cccagcatcc ccggccgcac cagctccgtc agcacctgcc 1320 gcatcgcctg ctgcccctgc cccagccagt ccagcggctc cagccccgag tgctccggcc 1380 gcttcccccg cagcaccggc tcctgcctcc cctgcagccc ctgctccatc tgcccctgcg 1440 gcatcccctg cggcgccagc tcctgcctct ccagctgcac cggctccctc agctcccgct 1500 gcctccccag ccgcgcccgc tcctgcaagc ccagcagctc cggctccatc cgcccccgcc 1560 gccagccccg cagccccggc gcctgcctct cctgctgcac ctgcaccgtc agcccctgca 1620 gcatctcccg cagctcctgc accggcatct ccagcagccc ccgccccgtc agctcccgca 1680 gccagcccgg ccgcacccgc ccccgcgtca ccagctgcac cagcgccatc cgctcctgct 1740 gcgtctcccg ctgcgcccgc ccctgcctca cctgcagcac ctgcacctag cgccccggct 1800 1800 <210> 178 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1c/1b/1f(600), codon-optimized for E. coli <400> 178 gccagtcctg ctgcaccggc accggcatca ccggctgcac cagcacctag tgcaccggca 60 gcttctccgg ctgcccctgc gcctgcatca ccagctgcgc ctgcaccgtc tgcccctgca 120 gctagtccag cagctccagc tccggcttct cctgcggctc ctgcaccaag tgcgcctgca 180 gcaagtccgg ctgcgcctgc cccagctagt cctgctgctc cggcaccgtc agctccggca 240 gcatctcctg cagcaccagc ccctgcaagt ccagcagcgc cagccccatc agcaccagca 300 gcttcaccag ccgcaccagc gccagcaagc cctgctgccc cagctcctag cgcaccggca 360 gccagtcctg cagctcctgc gcctgctagt ccggcagccc cagctccaag tgcccctgcc 420 gcttcgcctg cagccccagc accagcttct ccagccgcac cggcaccttc tgccccagct 480 gcatctccgg cagctccggc accagcaagc ccggcagcac cggcaccatc tgcgcctgcc 540 gcatctccgg ctgcgccagc tccagcctct cctgcagcgc cagcaccgag cgcaccagca 600 gccagccctg ccgcacctgc gcccgcatca cctgcggcac ctgcaccttc cgccccggct 660 gcatctcctg ccgcacccgc gcctgccagc ccagctgcac ctgccccaag tgcgccagca 720 gcatcccctg ccgcgcctgc ccccgctagt ccagcggccc cagctccatc tgcaccagct 780 gctagccctg ctgcaccagc tcctgcttct cccgcagccc cagcgccttc tgctcccgca 840 gcctcacctg cggccccggc accagcatct ccagcggcac cagcaccttc ggcccctgct 900 gctagcccag cagcacctgc gccagcctca ccagctgctc ccgctcctag tgccccggcg 960 gcctcgcctg ctgctcctgc accagcttcg ccagcggcac cggctccttc ggcgccggct 1020 gcttcaccag cagcacctgc tccagcgtcc ccagcggccc ctgctccaag tgctccggct 1080 gcatcgcctg ccgctcctgc tcctgcatcc ccagctgctc cagcaccaag cgcacctgcc 1140 gcctcaccag cggcgccagc acccgccagc ccagcagcgc ctgctccatc cgcaccggcg 1200 gcctcccctg ccgctccagc ccccgcctcg ccggccgctc ccgctccgtc tgcacctgct 1260 gcctcaccag cagccccggc cccagcatcc ccggccgcac cagctccgtc agcacctgcc 1320 gcatcgcctg ctgcccctgc cccagccagt ccagcggctc cagccccgag tgctccggcc 1380 gcttcccccg cagcaccggc tcctgcctcc cctgcagccc ctgctccatc tgcccctgcg 1440 gcatcccctg cggcgccagc tcctgcctct ccagctgcac cggctccctc agctcccgct 1500 gcctccccag ccgcgcccgc tcctgcaagc ccagcagctc cggctccatc cgcccccgcc 1560 gccagccccg cagccccggc gcctgcctct cctgctgcac ctgcaccgtc agcccctgca 1620 gcatctcccg cagctcctgc accggcatct ccagcagccc ccgccccgtc agctcccgca 1680 gccagcccgg ccgcacccgc ccccgcgtca ccagctgcac cagcgccatc cgctcctgct 1740 gcgtctcccg ctgcgcccgc ccctgcctca cctgcagcac ctgcacctag cgccccggct 1800 1800 <210> 179 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1f/1b/1c(600), codon-optimized for E. coli <400> 179 gcctcccctg ccgctccagc ccccgcctcg ccggccgctc ccgctccgtc tgcacctgct 60 gcctcaccag cagccccggc cccagcatcc ccggccgcac cagctccgtc agcacctgcc 120 gcatcgcctg ctgcccctgc cccagccagt ccagcggctc cagccccgag tgctccggcc 180 gcttcccccg cagcaccggc tcctgcctcc cctgcagccc ctgctccatc tgcccctgcg 240 gcatcccctg cggcgccagc tcctgcctct ccagctgcac cggctccctc agctcccgct 300 gcctccccag ccgcgcccgc tcctgcaagc ccagcagctc cggctccatc cgcccccgcc 360 gccagccccg cagccccggc gcctgcctct cctgctgcac ctgcaccgtc agcccctgca 420 gcatctcccg cagctcctgc accggcatct ccagcagccc ccgccccgtc agctcccgca 480 gccagcccgg ccgcacccgc ccccgcgtca ccagctgcac cagcgccatc cgctcctgct 540 gcgtctcccg ctgcgcccgc ccctgcctca cctgcagcac ctgcacctag cgccccggct 600 gccagccctg ccgcacctgc gcccgcatca cctgcggcac ctgcaccttc cgccccggct 660 gcatctcctg ccgcacccgc gcctgccagc ccagctgcac ctgccccaag tgcgccagca 720 gcatcccctg ccgcgcctgc ccccgctagt ccagcggccc cagctccatc tgcaccagct 780 gctagccctg ctgcaccagc tcctgcttct cccgcagccc cagcgccttc tgctcccgca 840 gcctcacctg cggccccggc accagcatct ccagcggcac cagcaccttc ggcccctgct 900 gctagcccag cagcacctgc gccagcctca ccagctgctc ccgctcctag tgccccggcg 960 gcctcgcctg ctgctcctgc accagcttcg ccagcggcac cggctccttc ggcgccggct 1020 gcttcaccag cagcacctgc tccagcgtcc ccagcggccc ctgctccaag tgctccggct 1080 gcatcgcctg ccgctcctgc tcctgcatcc ccagctgctc cagcaccaag cgcacctgcc 1140 gcctcaccag cggcgccagc acccgccagc ccagcagcgc ctgctccatc cgcaccggcg 1200 gccagtcctg ctgcaccggc accggcatca ccggctgcac cagcacctag tgcaccggca 1260 gcttctccgg ctgcccctgc gcctgcatca ccagctgcgc ctgcaccgtc tgcccctgca 1320 gctagtccag cagctccagc tccggcttct cctgcggctc ctgcaccaag tgcgcctgca 1380 gcaagtccgg ctgcgcctgc cccagctagt cctgctgctc cggcaccgtc agctccggca 1440 gcatctcctg cagcaccagc ccctgcaagt ccagcagcgc cagccccatc agcaccagca 1500 gcttcaccag ccgcaccagc gccagcaagc cctgctgccc cagctcctag cgcaccggca 1560 gccagtcctg cagctcctgc gcctgctagt ccggcagccc cagctccaag tgcccctgcc 1620 gcttcgcctg cagccccagc accagcttct ccagccgcac cggcaccttc tgccccagct 1680 gcatctccgg cagctccggc accagcaagc ccggcagcac cggcaccatc tgcgcctgcc 1740 gcatctccgg ctgcgccagc tccagcctct cctgcagcgc cagcaccgag cgcaccagca 1800 1800 <210> 180 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1c/1f/1b(600), codon-optimized for E. coli <400> 180 gccagtcctg ctgcaccggc accggcatca ccggctgcac cagcacctag tgcaccggca 60 gcttctccgg ctgcccctgc gcctgcatca ccagctgcgc ctgcaccgtc tgcccctgca 120 gctagtccag cagctccagc tccggcttct cctgcggctc ctgcaccaag tgcgcctgca 180 gcaagtccgg ctgcgcctgc cccagctagt cctgctgctc cggcaccgtc agctccggca 240 gcatctcctg cagcaccagc ccctgcaagt ccagcagcgc cagccccatc agcaccagca 300 gcttcaccag ccgcaccagc gccagcaagc cctgctgccc cagctcctag cgcaccggca 360 gccagtcctg cagctcctgc gcctgctagt ccggcagccc cagctccaag tgcccctgcc 420 gcttcgcctg cagccccagc accagcttct ccagccgcac cggcaccttc tgccccagct 480 gcatctccgg cagctccggc accagcaagc ccggcagcac cggcaccatc tgcgcctgcc 540 gcatctccgg ctgcgccagc tccagcctct cctgcagcgc cagcaccgag cgcaccagca 600 gcctcccctg ccgctccagc ccccgcctcg ccggccgctc ccgctccgtc tgcacctgct 660 gcctcaccag cagccccggc cccagcatcc ccggccgcac cagctccgtc agcacctgcc 720 gcatcgcctg ctgcccctgc cccagccagt ccagcggctc cagccccgag tgctccggcc 780 gcttcccccg cagcaccggc tcctgcctcc cctgcagccc ctgctccatc tgcccctgcg 840 gcatcccctg cggcgccagc tcctgcctct ccagctgcac cggctccctc agctcccgct 900 gcctccccag ccgcgcccgc tcctgcaagc ccagcagctc cggctccatc cgcccccgcc 960 gccagccccg cagccccggc gcctgcctct cctgctgcac ctgcaccgtc agcccctgca 1020 gcatctcccg cagctcctgc accggcatct ccagcagccc ccgccccgtc agctcccgca 1080 gccagcccgg ccgcacccgc ccccgcgtca ccagctgcac cagcgccatc cgctcctgct 1140 gcgtctcccg ctgcgcccgc ccctgcctca cctgcagcac ctgcacctag cgccccggct 1200 gccagccctg ccgcacctgc gcccgcatca cctgcggcac ctgcaccttc cgccccggct 1260 gcatctcctg ccgcacccgc gcctgccagc ccagctgcac ctgccccaag tgcgccagca 1320 gcatcccctg ccgcgcctgc ccccgctagt ccagcggccc cagctccatc tgcaccagct 1380 gctagccctg ctgcaccagc tcctgcttct cccgcagccc cagcgccttc tgctcccgca 1440 gcctcacctg cggccccggc accagcatct ccagcggcac cagcaccttc ggcccctgct 1500 gctagcccag cagcacctgc gccagcctca ccagctgctc ccgctcctag tgccccggcg 1560 gcctcgcctg ctgctcctgc accagcttcg ccagcggcac cggctccttc ggcgccggct 1620 gcttcaccag cagcacctgc tccagcgtcc ccagcggccc ctgctccaag tgctccggct 1680 gcatcgcctg ccgctcctgc tcctgcatcc ccagctgctc cagcaccaag cgcacctgcc 1740 gcctcaccag cggcgccagc acccgccagc ccagcagcgc ctgctccatc cgcaccggcg 1800 1800 <210> 181 <211> 3000 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1k/1d/1f/1c/1b(1000), codon-optimized for E. coli <400> 181 gcctctcctg cagctccggc cccagcttca ccagccgctc cagccccatc tgcgccggcc 60 gcctcacctg cagcaccagc ccctgcgtcg cccgccgcgc ctgcgccctc agccccagca 120 gctagccctg ccgcacccgc cccagcaagt cctgctgctc ctgccccctc tgccccggca 180 gcttcaccgg cagcccctgc accagcttcc cccgcagccc ctgcccccag tgcacctgca 240 gctagtcctg cggccccagc accagcgtct ccagctgcgc ccgcgccttc agcaccagca 300 gcttctccgg ccgctcccgc tcccgctagc cctgcagctc cagctccctc agcgcccgca 360 gcaagccctg ccgcaccggc ccctgcctct cctgctgctc ccgccccgtc cgcacccgca 420 gcctcaccag ccgctcctgc tcccgcttcg ccagccgctc ccgccccttc cgcgcctgca 480 gcttctcccg ccgctcctgc tccggcctct cccgcggcgc ctgctccttc tgccccggcc 540 gcgtcccctg ccgcacctgc ccctgcgagc cctgcagccc cagccccgag cgctcctgcc 600 gccagccccg ccgcccctgc accggcgtct cccgccgcac cagccccttc agcgcctgca 660 gcatcacccg cggcccccgc acccgcatct ccagccgccc ctgctccttc cgccccagcc 720 gcatcgccag ccgctccagc accggcatcc cccgcggctc ccgctcccag cgcacctgcg 780 gcttcaccgg cagcaccagc gcccgcaagt ccagccgcgc cggctccttc tgcgcctgcg 840 gcctcgccgg cagctccagc ccctgcttcc ccagctgccc cggccccttc agccccagcg 900 gcgtctccag cagcaccagc tcccgcctct ccggcagcgc cagcgccctc ggcccccgcc 960 gcgtcccctg ccgccccggc acccgcatcg cccgctgccc cagccccatc cgccccagct 1020 gcaagccccg ctgctccagc tcccgccagt ccagcagcac ccgccccttc tgcgccagcc 1080 gcgtcaccgg ccgccccagc accggcgagc cccgctgcac ccgcccctag cgctccggcc 1140 gcatctcctg cggcgcccgc acctgccagt ccagctgctc ctgctccgtc cgcccctgcc 1200 gcctcccctg ccgctccagc ccccgcctcg ccggccgctc ccgctccgtc tgcacctgct 1260 gcctcaccag cagccccggc cccagcatcc ccggccgcac cagctccgtc agcacctgcc 1320 gcatcgcctg ctgcccctgc cccagccagt ccagcggctc cagccccgag tgctccggcc 1380 gcttcccccg cagcaccggc tcctgcctcc cctgcagccc ctgctccatc tgcccctgcg 1440 gcatcccctg cggcgccagc tcctgcctct ccagctgcac cggctccctc agctcccgct 1500 gcctccccag ccgcgcccgc tcctgcaagc ccagcagctc cggctccatc cgcccccgcc 1560 gccagccccg cagccccggc gcctgcctct cctgctgcac ctgcaccgtc agcccctgca 1620 gcatctcccg cagctcctgc accggcatct ccagcagccc ccgccccgtc agctcccgca 1680 gccagcccgg ccgcacccgc ccccgcgtca ccagctgcac cagcgccatc cgctcctgct 1740 gcgtctcccg ctgcgcccgc ccctgcctca cctgcagcac ctgcacctag cgccccggct 1800 gccagtcctg ctgcaccggc accggcatca ccggctgcac cagcacctag tgcaccggca 1860 gcttctccgg ctgcccctgc gcctgcatca ccagctgcgc ctgcaccgtc tgcccctgca 1920 gctagtccag cagctccagc tccggcttct cctgcggctc ctgcaccaag tgcgcctgca 1980 gcaagtccgg ctgcgcctgc cccagctagt cctgctgctc cggcaccgtc agctccggca 2040 gcatctcctg cagcaccagc ccctgcaagt ccagcagcgc cagccccatc agcaccagca 2100 gcttcaccag ccgcaccagc gccagcaagc cctgctgccc cagctcctag cgcaccggca 2160 gccagtcctg cagctcctgc gcctgctagt ccggcagccc cagctccaag tgcccctgcc 2220 gcttcgcctg cagccccagc accagcttct ccagccgcac cggcaccttc tgccccagct 2280 gcatctccgg cagctccggc accagcaagc ccggcagcac cggcaccatc tgcgcctgcc 2340 gcatctccgg ctgcgccagc tccagcctct cctgcagcgc cagcaccgag cgcaccagca 2400 gccagccctg ccgcacctgc gcccgcatca cctgcggcac ctgcaccttc cgccccggct 2460 gcatctcctg ccgcacccgc gcctgccagc ccagctgcac ctgccccaag tgcgccagca 2520 gcatcccctg ccgcgcctgc ccccgctagt ccagcggccc cagctccatc tgcaccagct 2580 gctagccctg ctgcaccagc tcctgcttct cccgcagccc cagcgccttc tgctcccgca 2640 gcctcacctg cggccccggc accagcatct ccagcggcac cagcaccttc ggcccctgct 2700 gctagcccag cagcacctgc gccagcctca ccagctgctc ccgctcctag tgccccggcg 2760 gcctcgcctg ctgctcctgc accagcttcg ccagcggcac cggctccttc ggcgccggct 2820 gcttcaccag cagcacctgc tccagcgtcc ccagcggccc ctgctccaag tgctccggct 2880 gcatcgcctg ccgctcctgc tcctgcatcc ccagctgctc cagcaccaag cgcacctgcc 2940 gcctcaccag cggcgccagc acccgccagc ccagcagcgc ctgctccatc cgcaccggcg 3000 3000 <210> 182 <211> 3600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence PAS#1l/1k/1d/1f/1c/1b(1200), codon-optimized for E. coli <400> 182 gccagcccag cagctcccgc tccggcatca cccgctgctc cggccccgag tgctccagct 60 gcttctcctg ccgcacccgc ccctgcaagc ccggcagccc ccgcaccctc cgcgccggcc 120 gcgtcaccag ccgctcctgc acccgcgtca ccagcggcac cggcaccctc tgcgcccgcc 180 gcatcaccag cagcaccggc gcctgcatcc ccagcagcac ctgcaccaag cgcccccgcc 240 gcctccccgg ccgcccctgc accggcaagt cctgcagcac ccgcgccttc agctccggcc 300 gcctccccag cagctcccgc accagccagc ccagccgcac cagcgccgtc tgcaccagcc 360 gcgagcccag ccgcgcctgc accggccagc cctgccgccc cagccccctc tgcgcccgca 420 gcctcccctg cagctcctgc cccggccagt ccagccgccc ccgcgccgag tgcacctgca 480 gcatcaccag cggctcctgc acctgcatct cccgcagcac ccgctccgtc agcccctgca 540 gccagccctg ccgcgccagc acctgcgtca ccagccgccc cggccccgag tgcacctgca 600 gcctctcctg cagctccggc cccagcttca ccagccgctc cagccccatc tgcgccggcc 660 gcctcacctg cagcaccagc ccctgcgtcg cccgccgcgc ctgcgccctc agccccagca 720 gctagccctg ccgcacccgc cccagcaagt cctgctgctc ctgccccctc tgccccggca 780 gcttcaccgg cagcccctgc accagcttcc cccgcagccc ctgcccccag tgcacctgca 840 gctagtcctg cggccccagc accagcgtct ccagctgcgc ccgcgccttc agcaccagca 900 gcttctccgg ccgctcccgc tcccgctagc cctgcagctc cagctccctc agcgcccgca 960 gcaagccctg ccgcaccggc ccctgcctct cctgctgctc ccgccccgtc cgcacccgca 1020 gcctcaccag ccgctcctgc tcccgcttcg ccagccgctc ccgccccttc cgcgcctgca 1080 gcttctcccg ccgctcctgc tccggcctct cccgcggcgc ctgctccttc tgccccggcc 1140 gcgtcccctg ccgcacctgc ccctgcgagc cctgcagccc cagccccgag cgctcctgcc 1200 gccagccccg ccgcccctgc accggcgtct cccgccgcac cagccccttc agcgcctgca 1260 gcatcacccg cggcccccgc acccgcatct ccagccgccc ctgctccttc cgccccagcc 1320 gcatcgccag ccgctccagc accggcatcc cccgcggctc ccgctcccag cgcacctgcg 1380 gcttcaccgg cagcaccagc gcccgcaagt ccagccgcgc cggctccttc tgcgcctgcg 1440 gcctcgccgg cagctccagc ccctgcttcc ccagctgccc cggccccttc agccccagcg 1500 gcgtctccag cagcaccagc tcccgcctct ccggcagcgc cagcgccctc ggcccccgcc 1560 gcgtcccctg ccgccccggc acccgcatcg cccgctgccc cagccccatc cgccccagct 1620 gcaagccccg ctgctccagc tcccgccagt ccagcagcac ccgccccttc tgcgccagcc 1680 gcgtcaccgg ccgccccagc accggcgagc cccgctgcac ccgcccctag cgctccggcc 1740 gcatctcctg cggcgcccgc acctgccagt ccagctgctc ctgctccgtc cgcccctgcc 1800 gcctcccctg ccgctccagc ccccgcctcg ccggccgctc ccgctccgtc tgcacctgct 1860 gcctcaccag cagccccggc cccagcatcc ccggccgcac cagctccgtc agcacctgcc 1920 gcatcgcctg ctgcccctgc cccagccagt ccagcggctc cagccccgag tgctccggcc 1980 gcttcccccg cagcaccggc tcctgcctcc cctgcagccc ctgctccatc tgcccctgcg 2040 gcatcccctg cggcgccagc tcctgcctct ccagctgcac cggctccctc agctcccgct 2100 gcctccccag ccgcgcccgc tcctgcaagc ccagcagctc cggctccatc cgcccccgcc 2160 gccagccccg cagccccggc gcctgcctct cctgctgcac ctgcaccgtc agcccctgca 2220 gcatctcccg cagctcctgc accggcatct ccagcagccc ccgccccgtc agctcccgca 2280 gccagcccgg ccgcacccgc ccccgcgtca ccagctgcac cagcgccatc cgctcctgct 2340 gcgtctcccg ctgcgcccgc ccctgcctca cctgcagcac ctgcacctag cgccccggct 2400 gccagtcctg ctgcaccggc accggcatca ccggctgcac cagcacctag tgcaccggca 2460 gcttctccgg ctgcccctgc gcctgcatca ccagctgcgc ctgcaccgtc tgcccctgca 2520 gctagtccag cagctccagc tccggcttct cctgcggctc ctgcaccaag tgcgcctgca 2580 gcaagtccgg ctgcgcctgc cccagctagt cctgctgctc cggcaccgtc agctccggca 2640 gcatctcctg cagcaccagc ccctgcaagt ccagcagcgc cagccccatc agcaccagca 2700 gcttcaccag ccgcaccagc gccagcaagc cctgctgccc cagctcctag cgcaccggca 2760 gccagtcctg cagctcctgc gcctgctagt ccggcagccc cagctccaag tgcccctgcc 2820 gcttcgcctg cagccccagc accagcttct ccagccgcac cggcaccttc tgccccagct 2880 gcatctccgg cagctccggc accagcaagc ccggcagcac cggcaccatc tgcgcctgcc 2940 gcatctccgg ctgcgccagc tccagcctct cctgcagcgc cagcaccgag cgcaccagca 3000 gccagccctg ccgcacctgc gcccgcatca cctgcggcac ctgcaccttc cgccccggct 3060 gcatctcctg ccgcacccgc gcctgccagc ccagctgcac ctgccccaag tgcgccagca 3120 gcatcccctg ccgcgcctgc ccccgctagt ccagcggccc cagctccatc tgcaccagct 3180 gctagccctg ctgcaccagc tcctgcttct cccgcagccc cagcgccttc tgctcccgca 3240 gcctcacctg cggccccggc accagcatct ccagcggcac cagcaccttc ggcccctgct 3300 gctagcccag cagcacctgc gccagcctca ccagctgctc ccgctcctag tgccccggcg 3360 gcctcgcctg ctgctcctgc accagcttcg ccagcggcac cggctccttc ggcgccggct 3420 gcttcaccag cagcacctgc tccagcgtcc ccagcggccc ctgctccaag tgctccggct 3480 gcatcgcctg ccgctcctgc tcctgcatcc ccagctgctc cagcaccaag cgcacctgcc 3540 gcctcaccag cggcgccagc acccgccagc ccagcagcgc ctgctccatc cgcaccggcg 3600 3600 <210> 183 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence PAS#1s/1q/1r(600), codon-optimized for P. fluorescens <400> 183 gcctcaccag cagctcccgc gcccgcatcg cccgccgccc cggcccctag cgccccggcg 60 gccagccccg ccgcgcctgc cccggcctcg ccggcagccc cagcgccaag tgcgcccgcc 120 gccagccccg ccgccccagc gcccgcctcg ccggccgccc cggccccaag tgctcccgcc 180 gcctccccgg ccgcccctgc gccagccagc cccgcagccc cggccccgtc ggcaccagcc 240 gcctctccag ccgcgcccgc cccggctagc cccgcagccc cagccccgtc cgcccctgcc 300 gcgtcccctg cagccccagc ccctgcgagc cctgccgcac ccgccccgtc cgcgcccgcc 360 gcttcgccgg cagccccggc cccggcgtcg cccgccgccc cagccccgag tgccccggcc 420 gcgagccccg ccgcccccgc cccagcctcg cccgcggccc ctgcaccatc cgcaccggcc 480 gccagcccag cggcgcccgc accggcctcc ccggcagccc ctgcgcccag tgccccggca 540 gctagcccag ccgcgcccgc cccagcgtcg cccgccgcgc ctgccccaag tgcccccgcc 600 gcctccccag ccgcgcccgc gcccgctagc cccgcagcgc ccgccccgtc ggcccctgcc 660 gcgtctcctg ccgcgccagc cccggccagt ccagccgcgc ccgccccgtc cgcgccggca 720 gcctcgccag ccgcccctgc acccgcaagc ccggccgcac ccgccccgag cgcaccggca 780 gcctcaccag ctgccccagc cccggcatcc gccgccgctc cagccccatc cgctcccgcc 840 gccagtccgg ccgccccggc tcctgcatcg cccgcagccc ctgccccgag tgcgccagca 900 gcgagccccg ccgcccctgc gcccgccagc ccagctgccc ccgcgccgag tgcgcccgca 960 gcgtccccgg cagccccggc gcccgcctca cccgccgccc cagccccaag cgcacccgct 1020 gcgtcgcccg ccgcacctgc tcccgcctcc ccggcagctc ccgccccaag tgcccctgct 1080 gcgagtccgg ctgcaccggc cccagcgagc ccggcggccc cggccccgag cgcccctgcc 1140 gcaagcccag ccgcccccgc tcccgcatcc ccagccgcgc cggccccgtc cgctccggcc 1200 gcctcgcccg cagccccagc gcccgcctcc cctgccgccc ctgccccaag cgccccggca 1260 gccagcccgg ccgcaccggc cccagcaagc ccagccgcac cagccccttc cgccccggcc 1320 gcctcccctg cagcgcccgc cccggcctcg cccgccgccc cggcgccgag cgcgcccgcc 1380 gcctcccctg ccgctcccgc acccgcgagc cctgcagccc cggccccgtc cgccccagcc 1440 gcctcccctg ccgcgcccgc cccagctagc cccgcggccc cggccccaag cgctcctgcc 1500 gctagccctg ccgccccggc gcccgccagc cctgccgctc ccgccccaag tgctcccgcc 1560 gcgtccccgg ccgccccggc cccggcctca cccgcagctc cggccccttc cgcgcccgcc 1620 gcgagccccg cagccccggc tcctgccagc cccgccgccc ctgcaccgtc ggcgcccgcc 1680 gcctccccag ccgcccctgc cccggccagc cccgccgccc cggcaccgag cgcgccagcc 1740 gcttcgcccg ccgcgccagc gcctgcctcg cccgccgcgc ccgccccttc cgcccctgcc 1800 1800 <210> 184 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence PAS#1v/1t/1u(600), codon-optimized for C. glutamicum <400> 184 gcctccccag ctgctccagc accagcctct cctgcagcac cagcgccatc cgctccggcc 60 gcctcccctg cagcacctgc tcctgccagt cctgctgcac cggccccgag cgcacccgca 120 gctagcccag cagcacctgc acctgcctca cctgcggcgc ctgctccctc cgccccagct 180 gcatctccag ccgcgcccgc tccagcttca ccagctgcac cagcaccgtc tgctccggca 240 gccagccctg ctgctcctgc gccagcatct cccgctgctc cggcgccatc tgcacccgcc 300 gctagtccag ccgcaccagc gcctgcaagc cccgcagcac ccgctccttc cgcacctgcg 360 gctagcccag cagctcctgc tccagcgtcc ccagccgccc ctgcaccaag tgctcctgct 420 gccagcccag ctgccccagc acctgcgagt ccagcagccc ctgcaccgag tgcaccagct 480 gcttcccctg ccgctcccgc accggcttcc ccggcagcac cagctccatc agcgcctgca 540 gcaagtccag cagctccggc cccagctagt cctgcagctc ccgccccgtc agcaccagca 600 gcctccccag cagcgcccgc tccggcatct ccagccgctc cggcccctag cgctccagct 660 gcatctcctg ctgcgcctgc ccctgctagc cctgctgctc ccgcaccttc ggctccggca 720 gcttcgccag ccgctccagc tcccgcctcc ccggccgctc cagcaccctc tgctccagct 780 gcctctccag cagcaccggc accagcttcc cccgcagccc cggctccaag cgctcctgct 840 gcaagtcctg ccgcacctgc gcctgcgtct ccagctgcac cagctcccag cgccccagcc 900 gcttcccctg ctgcacctgc gccggctagt cccgctgcac ccgctccctc cgcccctgca 960 gcatcgccag ccgcccctgc acccgcatct ccggcagcgc ctgctccatc ggctcctgcc 1020 gcctccccgg cagctcctgc tcccgcctcc cccgcggcac ctgctccgag tgccccagct 1080 gccagcccag ctgctccagc tcctgcctcg cctgctgctc cagccccatc cgcaccagct 1140 gccagtccag cggcccccgc accagcaagc cctgccgcgc cggcacccag tgctccagcg 1200 gcctccccgg cggcaccagc accagcgagc ccagcagcac cagcgccgtc tgcacctgca 1260 gcgtctcctg ccgctccagc tccggcaagc ccggccgcac ctgctccatc tgctcccgcg 1320 gcatccccag ctgcgccagc cccagcttct cccgctgcac cggctccctc cgcaccagcc 1380 gcttccccag cagctccagc tccagcatct cccgctgcac ctgcaccgtc agcaccggct 1440 gctagccccg cggcgccagc tcctgcgtcc ccggcagctc cagcgccatc cgctcctgcg 1500 gcatcccctg cagctccagc acctgcttca cctgctgcac cagccccaag tgctccggct 1560 gcatcaccag cagctcctgc accagcgtct cctgcggccc cagcaccatc cgcgcccgca 1620 gcttccccag ctgcgcctgc accagcctcc cccgctgcgc cagcgccatc agcacctgcc 1680 gcttctccgg ctgctccagc gcctgcctcc ccagctgcac ccgctccatc ggctccggct 1740 gcttcacctg ccgcaccagc cccagcgtca cctgcagctc ctgccccatc tgccccagct 1800 1800 <210> 185 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence PAS#1an/am/1l(600), codon-optimized for B. subtilis <400> 185 gcctcacctg cagcaccggc accagcttca cccgcagccc ctgctccaag cgcaccggcg 60 gcatcccctg cagcgccagc gccggcctca ccagcagctc cagccccgag cgctcctgcg 120 gcatcaccgg cagcgcccgc tccagcatct cctgccgcac cggccccgag cgctccagct 180 gcgtccccgg cagcaccagc gccagcgagt ccggcggccc ccgcaccgtc tgctccagca 240 gcgagtcctg ccgccccggc gcccgcttct ccggcagcac ccgccccgtc agcaccagcg 300 gcatcacccg cagctcctgc ccctgcaagt ccagctgctc ctgccccctc agctccagcc 360 gccagccctg ctgcaccagc tccggcatca cctgcagcgc cagccccttc agcgcccgcc 420 gcgagccctg ctgcacccgc tcctgcttcc cctgccgcac cagcaccctc tgcgccagcc 480 gcgtcgcctg ccgctcccgc tcccgcatca ccagcggctc ccgctccatc tgcaccagca 540 gccagtcctg cagcaccagc accagctagt ccggcagccc ccgcacctag tgcacctgct 600 gcctcaccgg ctgccccagc acctgcttct ccggcagctc cggccccttc agcacctgca 660 gcttctccgg cagcgcccgc acccgcctct cctgcagctc cggcaccgtc agcgccagcg 720 gccagcccag cagctccggc tccagcttcg cctgccgctc cagcaccgtc ggctccggca 780 gcatctccgg ctgctcctgc tccagcgtca ccagccgcac ctgcaccgag tgctcctgca 840 gcctctccag ctgcccctgc ccctgcttcg ccagcagcac ctgcgccttc ggccccggca 900 gcaagcccag ccgctcctgc accagcaagt cctgccgccc cagccccttc tgctcctgct 960 gcttccccgg cggcaccggc acccgcgtca ccggcagcac ccgcaccgtc tgcaccagct 1020 gcgagcccgg ctgcaccagc gcctgcttca cctgccgcgc ccgctccttc agctccagct 1080 gcttctcccg ccgcacctgc tccggctagc ccagcagcgc cggcaccttc agcacctgct 1140 gcgagtccag cagctccagc gccggcaagc cctgccgctc cagcgccgtc agcccctgca 1200 gcctcacccg ctgcacctgc tccagcttcc ccagcagcac cagccccttc cgcacctgcc 1260 gctagccccg ctgctcctgc cccagcctca cctgcggctc cagctccttc cgcaccggca 1320 gcgtcgcctg cagcaccggc gcctgctagc cctgctgctc ccgccccttc ggcacctgca 1380 gcgtctccgg cggctcctgc tcctgcgtct ccagcagctc ctgcaccgtc cgctcctgcc 1440 gcaagccccg cagcacctgc acctgcttca ccagcggctc ctgccccgag tgcaccggca 1500 gcctcccctg cagctcctgc tccggcaagc ccagctgcac cggccccaag cgcaccagct 1560 gcaagccctg cagccccagc accggcctca ccggcagcac ctgcgccgtc agcacctgca 1620 gccagcccag cggcccctgc acctgcatca cctgcggcgc ctgctccttc tgcccctgcg 1680 gcatcccctg ctgctcctgc acccgcaagt ccggctgcac cggctccaag tgcaccagca 1740 gcatcacctg ccgcaccggc acctgcgagt cctgcggcac ctgcccctag tgctccggcg 1800 1800 <210> 186 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence PAS#1p/1o/1g(600), codon-optimized for P. pastoris <400> 186 gcctctcctg ctgcacccgc tcccgcatca cctgcagcac ctgctcccag tgctccagca 60 gcctcacctg ccgctccagc ccctgccagt cctgccgctc cagctcccag tgctcctgct 120 gcttctccag ccgctccagc tccagcttcc cctgcagctc ccgctccctc agctcctgca 180 gcatctccag ccgcaccagc ccctgcttct cccgcagcac ccgcaccttc cgcaccagcc 240 gcctcccccg ctgcacccgc acctgcttcc ccagcagcac ctgcacccag tgctcccgca 300 gcatcaccag cagccccagc tcctgcttca cccgccgcac cagccccctc cgctcctgct 360 gcttctcctg cagctcccgc tccagcttca cccgctgcac ctgccccctc cgcacccgca 420 gcctcaccag ctgcaccagc acccgcttct cctgcagcac ccgccccctc tgctcccgct 480 gcttctccag ccgcaccagc tcctgcatca cctgcagctc ctgcccccag tgctcccgca 540 gcttctcctg cagctcctgc tccagctagt cccgctgcac ctgccccttc cgcacctgca 600 gcctcaccag ccgcacccgc cccagctagt cccgcagccc ccgctccctc tgctccagca 660 gccagtccag ccgcaccagc acctgcaagt ccagctgcac ccgcaccttc tgcacctgcc 720 gcctctcccg ctgctccagc cccagcctca cctgctgccc ctgctccatc cgcacctgcc 780 gcatctcctg ccgcccccgc acctgcttcc cccgctgcac ccgcccctag tgctcctgca 840 gcatcacccg ctgccccagc ccctgcatcc ccagctgctc cagcccctag tgcccccgct 900 gctagtcccg ctgcaccagc ccccgcaagt ccagctgccc ccgccccatc tgctcccgcc 960 gcctcccccg cagctcctgc tcccgcttct cctgccgccc cagcccctag tgcacctgct 1020 gcctcacctg cagctccagc acctgcctct ccagcagccc cagcacccag tgctcccgct 1080 gctagtcctg cagctcccgc accagcttca cctgccgcac ccgcacccag tgctcctgct 1140 gcatcaccag ctgctcccgc accagcctcc ccagcagcac cagctcccag tgcacctgct 1200 gcctctcctg ctgcacctgc accagcttct cccgctgctc ctgctccttc agctcctgct 1260 gcatcacctg ctgcacctgc tcctgcttct ccagctgcac cagctccatc tgcaccagct 1320 gcttcacctg cagcacctgc acctgcttca ccagcagcac cagctccttc cgctccagcc 1380 gcttcaccag ccgctccagc accagcttca ccagcagctc ctgctccatc tgctcctgct 1440 gcttcccctg ctgctccagc tcctgcatca ccagctgcac ctgcaccttc tgctccagct 1500 gcatctccag cagctccagc tcccgcttca cctgctgctc cagcaccatc cgctcctgca 1560 gcttctccag ctgctcctgc tccagcttct cctgcagcac ctgctccatc cgctccagca 1620 gcttctccag ccgctcctgc tcctgcctcc cctgctgcac cagctccttc agctccagct 1680 gcttccccag ctgctccagc tccagcttct ccagcagctc ctgcaccatc tgctccagct 1740 gcttctcctg ctgcaccagc cccagcatcc ccagctgctc ctgcaccttc cgctcctgct 1800 1800 <210> 187 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence PAS#1ae/1ad/1ac(600), codon-optimized for S. cerevisiae <400> 187 gcctctcccg cagcacccgc acccgcgtca cctgcggcac cggctccctc tgcaccggca 60 gcctctccag ctgcaccagc ccctgcgtcc ccagcagcgc ccgcgcccag cgctccagcg 120 gcaagcccag ctgccccagc tcctgcaagc ccggctgccc cggctcctag cgccccagct 180 gcttcacccg ctgctcccgc acctgcctct ccggcggccc cagcgcccag cgctcctgca 240 gcgtcaccag cggccccagc gccagcctca cccgctgctc cggccccatc tgcgccggca 300 gcgagtccag ccgctccagc gcctgcgtct cctgcggcac cagcaccttc agctccggca 360 gcatctccgg cggctcccgc gcctgcttcc cccgctgcac cagcacctag cgcacccgcc 420 gcttcacctg ctgcgcccgc tcctgccagc ccggcagcac ccgcgccatc cgcacccgcc 480 gctagcccag cagcacctgc ccctgcatct ccggcagctc ccgcgccatc agcccccgcg 540 gcatctccgg ctgctcctgc cccagcatca cccgccgcgc cagccccgtc cgcaccagca 600 gcctctccag cagcgccggc accagcaagc cctgcggcac ctgctccatc tgctccggcg 660 gccagtcccg ctgcacctgc tccggcttct cctgcagcac cagcaccatc tgcccctgca 720 gctagcccgg cagcgcccgc tcccgcgagt ccagcagcgc ctgccccttc agcgccggcc 780 gcgtcacctg ccgcaccggc acccgctagc ccagcggcac cggctccgtc tgcaccagcc 840 gcttccccag cagcaccagc gccagctagc ccggctgccc cagctccctc cgctcctgct 900 gcatcccctg ctgcacccgc tcccgctagt cctgctgcgc ctgcaccctc agctccagca 960 gcgtctcccg cagcgccagc acctgcgagt ccagcggcac cagcaccctc tgctccagcc 1020 gcttccccgg cagccccggc ccctgcctcc ccagctgcgc cagctccttc cgctcccgct 1080 gcctcccctg ccgcacctgc cccggcgagc cctgctgctc ctgcaccctc tgctcccgcg 1140 gcctctcccg ctgcaccagc gcccgcgtct cccgctgctc cggcacctag tgcaccagct 1200 gccagtcctg ccgctccagc acctgccagt ccagcagctc cagccccttc tgccccagca 1260 gcctcaccag ccgcacctgc tccagcaagc ccggcagctc ccgccccgag tgctccagca 1320 gcatcaccag ctgctcccgc gccggctagc cctgcggctc ccgcaccgag tgccccagca 1380 gcatcacctg ccgcccctgc gcccgcaagc cccgcggccc ctgctccttc cgcgcctgct 1440 gcctcaccag cagcaccagc cccggcaagt ccagcggcgc cggcacccag cgcacccgcg 1500 gcctctcctg cagctcctgc acctgcatct cccgcggctc ccgcaccctc agctcccgcg 1560 gccagccctg ctgcaccagc acctgcaagc cctgcggctc cggcgccttc tgcccctgct 1620 gcctctccgg ctgcccctgc acctgcgtcc ccggctgctc ccgctcctag tgccccggca 1680 gcaagcccag ccgcaccggc cccagccagc cccgccgctc ccgctccctc cgctcccgct 1740 gcgtccccag ccgctcccgc tcctgcgtca cctgcagcgc ccgcgccctc tgcacccgcc 1800 1800 <210> 188 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence PAS#1ab/1aa/1z(600), codon-optimized for K. lactis <400> 188 gcctccccgg cagctccagc ccctgcctca ccagctgccc cggccccatc ggcccccgca 60 gcctctcccg ccgctcccgc ccctgctagt cctgcagctc ctgctccatc cgcacctgca 120 gcttcaccag ccgcaccagc tccggcctcg ccagccgcac cagcaccgtc cgcccctgct 180 gcttcaccag cagcccctgc cccggcttcc cctgcagcac ctgctccttc ggctccagct 240 gcctctccgg cagctccggc tcctgcctcc cctgccgctc cagctccgtc agcacccgct 300 gcaagtcctg ccgcacccgc tcccgcctct ccggcagccc cagctccatc cgcaccagca 360 gctagtccgg cagcaccggc tccagctagt ccagctgcac cagccccttc cgccccagca 420 gcttcaccgg ccgccccggc cccagcctct ccagcagcac ctgccccatc ggccccggcc 480 gcatctcccg ctgccccggc tcccgcatcg cctgccgcac cggctccctc ggcaccggcc 540 gcctctcctg ctgcacctgc acccgcttcc cctgccgctc ctgcccctag tgcaccagca 600 gcctctccgg ctgcaccagc tcccgcatct ccagcagctc ccgccccgtc ggcaccggca 660 gcctctccgg ccgcacctgc cccagcctcc cctgcagcac cagctcccag tgctccggct 720 gcatcacctg ctgcaccagc acctgcatca cctgccgccc cggcaccgtc agccccggct 780 gcatctcccg ccgccccagc cccagcctcg ccagcagccc ctgctcccag tgcacctgct 840 gcctcacctg cagctcctgc acccgcaagt ccggcagcac ctgccccttc tgcccctgca 900 gctagtccgg ccgctcccgc cccagccagt cccgccgcac ctgcaccaag tgctcctgct 960 gcttctcctg ctgcacctgc tccggcctca cccgccgctc cggctccatc ggcccctgca 1020 gcatcaccag ctgcacccgc tcccgcctcc ccggccgcac cagcaccatc tgctcctgca 1080 gcatcaccgg ccgcacctgc accagcaagt ccagccgcac ccgccccatc tgcaccggca 1140 gcatcacccg ctgcccctgc tccagcttcg ccagcagcac ccgccccatc ggctcctgct 1200 gcctctccgg ctgcacccgc cccggctagt ccagccgccc cggctccttc agcaccagca 1260 gcttcaccag cagcaccggc tcccgcctcg ccagccgccc ctgctccttc cgccccggct 1320 gcaagtccag ccgcccctgc acccgccagt cccgcagctc cagctccatc agcaccagcc 1380 gcatcgccgg ctgcaccagc ccctgcatcg ccggcagccc cagccccgtc agctccggct 1440 gccagtcctg cagctccggc ccccgcttca cccgccgccc ccgcaccttc cgccccagcc 1500 gcaagtcctg ccgccccagc accagctagt ccggctgctc ccgccccatc cgctccagcc 1560 gcttcgccag ctgcccccgc ccccgcaagt cccgcagccc ccgcaccttc tgcacccgcc 1620 gcttcgccgg ccgcaccggc acccgcttca cccgcagcac ctgcaccgag tgctcccgcc 1680 gcatcccctg cagcaccagc acctgcaagt ccagctgcac ctgccccttc agcaccggct 1740 gcatctcccg ctgcaccggc tccggcatcg cccgccgcac ccgcacctag tgctccagct 1800 1800 <210> 189 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence PAS#1ah/1ag/1af(600), codon-optimized for T. thermophila <400> 189 gccagtcctg ccgctcccgc acctgctagt cctgccgcac ccgccccttc tgcaccagcc 60 gcatctccag cagcacctgc tccagcctct ccagccgctc ccgctcccag cgccccagcc 120 gcaagccctg ccgctcccgc tccagctagc cccgccgctc ccgcacctag tgctcctgct 180 gcaagccctg ctgctcctgc acctgctagc cctgctgcac cagctccaag cgccccagcc 240 gctagtccag ctgctcccgc tcctgcaagc cctgcagcac ctgctccaag tgctcccgcc 300 gcttctcccg ctgcccccgc acctgccagt cctgctgcac ctgctccctc agctcccgct 360 gcttcaccag ctgcacccgc accagcttca cctgccgcac cagctcctag cgctccagct 420 gcatctcctg cagctcccgc tcctgcatca ccagcagctc ctgcacccag tgcaccagcc 480 gctagccctg cagcaccagc accagcctct cctgccgcac cagcccctag cgcaccagcc 540 gcatcacctg ccgctccagc tcctgccagc cctgctgccc cagctccatc tgctccagct 600 gccagtcctg ctgctcccgc tccagcaagt cctgctgctc cagcccctag tgctccagct 660 gcttcacccg ccgctcccgc acccgcatca cctgctgcac ctgctccaag cgcacctgct 720 gctagcccag ctgcccctgc accagcttct cccgccgcac cagcacctag cgcaccagct 780 gcctctcccg ctgcaccagc acccgcttca cccgcagccc cagcccctag cgcacctgcc 840 gcctcaccag ctgcacctgc tccagcaagt cctgccgccc ccgctcctag cgcaccagca 900 gcctcaccag ccgcaccagc tcccgcaagt cctgcagctc cagccccaag tgcacccgca 960 gctagccctg cagctcccgc tcccgcaagt ccagctgccc cagcaccatc tgcacccgct 1020 gcttcacccg ccgcacccgc accagctagc ccagcagctc ctgctccttc agctcccgcc 1080 gcttcaccag ctgctcccgc accagcctca ccagctgcac ccgctcccag cgctcctgct 1140 gcttcacctg ctgctcctgc accagctagt cctgctgctc cagctccatc agccccagca 1200 gcctctccag ccgcaccagc ccctgcttca cccgctgccc ctgctcctag tgcacctgct 1260 gcaagccccg ctgcccctgc acctgcttct cctgccgctc cagccccttc tgcccctgcc 1320 gcttctccag cagcccctgc acccgcttca cctgctgctc cagccccatc agctcccgct 1380 gctagtcccg ccgctcctgc acctgcttct cccgctgcac ctgccccatc agcaccagcc 1440 gcctcaccag ccgctcccgc cccagcctca cccgccgccc ctgcaccatc tgcacctgca 1500 gcctcacccg ccgcacctgc acccgcatca cccgctgcac ctgctccatc agctcctgct 1560 gcttctccag ccgcacctgc tccagcatca cctgccgctc ccgccccaag tgctccagcc 1620 gcatctcctg ctgcacccgc acctgcaagc cctgctgcac ctgcaccttc agcccctgca 1680 gccagccctg ctgcacctgc cccagctagt cccgctgcac ccgcccctag tgctcctgcc 1740 gcaagccctg cagctcctgc ccctgcttca cctgctgccc ctgctccaag cgctcctgca 1800 1800 <210> 190 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence PAS#1ak/aj/ah(600), codon-optimized for HEK cells <400> 190 gccagtcctg ctgcccctgc acctgcgtct ccagctgctc ccgctccttc tgctccggct 60 gcatctcctg ccgccccagc ccctgcaagt ccagcagcgc ctgctccatc agctcctgca 120 gcttcaccag cggccccagc acccgccagt cctgcagctc ctgcgccctc agccccagcc 180 gcgagccctg ccgcgcctgc tcccgcctct cccgcagccc ctgccccatc cgctccggcc 240 gcatcacctg ctgctcctgc tcctgcctca cccgctgctc cagcgccatc tgcacccgct 300 gccagccccg ctgccccggc tcctgcatcc cctgcggcac cagctccaag cgctcctgca 360 gcaagccccg ccgctccagc tcccgcgagt cctgccgctc ctgcaccatc tgccccagca 420 gctagtcccg ctgcaccggc tcccgcatct ccagcagctc cggcaccttc ggccccagca 480 gccagtcctg cagccccagc acctgccagt cctgcggctc cggcgccatc agcacctgca 540 gcgtcacctg ccgcacctgc tcccgcaagt cctgccgcgc cagctcctag cgcaccagcc 600 gccagtcccg cagcaccagc acccgcgtcc ccagctgcgc ctgcccctag tgctccagct 660 gcctctcccg ccgcacccgc acctgcaagt cctgcagctc cggcaccgag cgcccccgcc 720 gccagtccag ccgcacccgc gcctgcaagc ccagccgcgc ccgccccttc cgccccggcc 780 gcttctccag ccgcaccagc gcccgcatcc ccagcggctc cagctccgtc tgctcctgcc 840 gcaagccctg ctgcgcccgc ccctgcatcc cctgctgcac ctgctccgag tgctcccgcc 900 gcctccccag ccgcaccggc ccctgctagt cccgccgcgc cggccccaag tgccccagct 960 gcttctcctg ctgctccagc accggcatct cccgcggccc ctgcaccaag tgcgccagcc 1020 gctagtccgg cagctcctgc tccagccagt cccgcggctc ctgctccaag cgccccagct 1080 gcatcaccag cagctccagc tcctgccagc cctgcagcgc ccgcgccatc agcccctgct 1140 gctagcccag cagcccccgc cccagcgagt ccagcggcac ctgctccatc tgctccagct 1200 gccagtcccg ctgcgccggc accagcctcc cctgctgccc cagcccctag cgcacccgct 1260 gcttcccctg ccgctccagc gcctgcctct cctgcggccc ctgctcctag tgcaccagcc 1320 gcttccccag cagcacctgc tcctgcaagt ccagctgctc ctgcaccctc tgctcccgcg 1380 gcctctccag ctgcacccgc tcctgcttca cctgccgctc cagctccatc cgcaccagct 1440 gccagtcctg ctgcgcctgc acccgcctca cctgctgctc ccgcaccttc agcacctgca 1500 gcctctccgg cagcccctgc acccgcctcc ccggctgccc ccgcgcccag tgctccggcc 1560 gcgtctcccg ctgctcctgc tcccgcttca cccgccgctc ctgccccttc tgcccctgcc 1620 gccagccccg ctgctcccgc ccctgcctcc cctgcagctc ccgccccatc tgcgcctgct 1680 gcttcaccgg ctgcgccagc accagctagc cccgcagcgc cagccccatc agcaccagcc 1740 gcctctcctg ctgcacccgc ccctgcgagc cctgcggctc ccgcaccctc tgccccagca 1800 1800 <210> 191 <211> 1800 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence PAS#1y/1x/1w(600), codon-optimized for P. patens <400> 191 gccagtcctg ctgcacctgc ccctgcgtct ccagctgctc ccgctccgag tgctcctgca 60 gcgtctcctg ccgcaccagc cccagcgtcg cctgccgcac ccgcgccttc tgctccagct 120 gcttcaccag ctgctcctgc gcccgcatca cccgcagcgc cagccccatc cgcacccgca 180 gcttccccgg ccgctccagc accagcatct cccgcagcgc ccgctccgtc ggctcctgct 240 gcctctcctg cagcgccggc tccagcatca cctgctgctc cggctccgtc ggccccggct 300 gcttcgcccg ccgctccagc ccctgctagc ccagccgcac ctgccccgag cgcacctgca 360 gcaagcccgg ccgcacccgc ccctgcttct ccggccgccc ccgcaccgtc cgctcctgct 420 gctagtccgg ctgctccggc ccctgcatcc cctgccgcgc ccgctccttc ggcaccggcc 480 gcgtcacccg ctgcaccagc ccccgcttcc ccggcagctc ccgcgccttc agcgccagcc 540 gctagccccg ccgcacccgc tccagcttct cccgctgctc ctgctccgtc cgcacctgct 600 gccagccccg ctgctcccgc tccagcttca cctgcagctc cagctcccag tgcccccgcc 660 gcctcccctg ccgctccagc gcccgcgtcc cccgcagctc cagcaccaag cgcacctgct 720 gccagtccag cagcacccgc tccggcgagc ccagctgcac ccgctccatc cgcacctgct 780 gcaagtccag ccgcacctgc gcctgctagc cctgctgcac ccgccccgtc tgcaccagca 840 gcgagccccg cagcacccgc cccggcttcc cccgcagcac cagctccatc ggctcctgca 900 gcttccccgg cagcccccgc gccagcatca cccgcagccc ccgctccctc cgccccagcc 960 gcgagtcctg cagcgcccgc gccagcttct ccagccgccc ctgctccatc agcccccgct 1020 gcctcgccag ctgcaccagc accagcatca ccggccgcac cagccccgtc tgcccccgca 1080 gcatcaccag cagcacctgc tccagcatcc ccagccgctc cagcaccttc ggccccagca 1140 gctagcccgg cagctcccgc cccagccagc cctgctgctc ctgcccctag cgcccctgct 1200 gcctctcccg cagccccagc gcccgcatct cctgccgctc ctgctccttc cgctcccgca 1260 gctagtccag ccgccccagc tcccgctagt cctgccgccc cagctccgag tgcccccgcc 1320 gcttctcccg cagcacccgc cccagcgtca cctgccgctc cagccccctc agctcctgcc 1380 gcaagccctg ctgctcctgc tcccgcttct cctgccgcac ccgcaccttc tgcccctgct 1440 gcatcacccg ctgctcctgc acccgcgtct ccagcagcgc cggcacctag cgctccagcc 1500 gcatcgcccg ccgctcctgc acctgctagc ccggctgccc ctgccccttc agctcccgct 1560 gcaagtccag ctgcaccagc ccccgcgtct cctgcagctc ctgccccttc tgctccagcc 1620 gcctctccag ctgcccccgc accagcatct ccagctgcgc cggccccctc tgctcctgca 1680 gcatcaccag cagctcctgc tcccgcatct ccggctgccc ctgctcccag cgcacctgca 1740 gcatcgccag ccgccccagc ccccgcgagc cccgccgctc ccgctccctc tgctccagct 1800 1800 <210> 192 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1at(200), codon-optimized for E. coli <400> 192 gccgcaccgg cagcaccggc accggcagca ccggcggcac cggcaccggc agcgccggca 60 gcagcaccgg cagcaccggc gccggcagca ccggcagcac cggctccggc agcaccggca 120 gcagcaccgg cagcgccggc accggcagca ccggcagcac cggcaccggc ggcaccggca 180 gcagcaccgg cagcaccggc accggctgca ccggcagcac cggcaccggc agcgccggcg 240 gcagcaccgg cagcaccggc accggccgca ccggcagcac cggcaccggc agctccggca 300 gcagcaccgg cagcaccggc cccggcagca ccggcagcac cggcaccggc agccccggca 360 gcagcaccgg cagcaccggc accagcagca ccggcagcac cggcaccggc agcgccagca 420 gcagcaccgg cagcaccggc accggcagca ccagcagcac cggcaccggc agcaccggca 480 gcagcaccgg cggcaccggc accggcggca ccggcagcgc cggcaccggc agcgccggca 540 gcagcgccgg cagcaccggc accggcagca ccggcagcgc cggcaccggc ggcaccggca 600 600 <210> 193 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PA#1au(200), codon-optimized for E. coli <400> 193 gcctctccgg cagcaccggc accggcatct ccggcggcac cggcaccgag tgcaccggca 60 gcatctccgg cagcgccggc accggcaagt ccggcagcac cggcgccgtc tgcaccggca 120 gcaagtccgg cagcgccggc gccggcatct ccggcagcac cggctccgag tgcaccggca 180 gcgagtccgg cagcaccggc accggcgtct ccggcagcac cggcaccgtc tgcaccggca 240 gcgtctccgg cagcaccggc gccggcaagt ccggcagcac cggcaccgag cgcaccggca 300 gcatctccgg cggcaccggc gccggcatct ccggcggcgc cggcaccgag tgcaccggcg 360 gcatctccgg cagcaccggc gccggcgagc ccggcagcac cggcaccgag tgcgccggca 420 gcatctccgg cagcaccggc accagcatct ccggcagcac cggcgccatc tgcaccggca 480 gcatctccgg cagcaccggc cccggcatct ccggcagcac cggcaccgag tgcaccggcg 540 gcgagtccgg cagcaccggc accggcaagc ccggcagcac cggcaccgtc tgcgccggca 600 600 <210> 194 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1ao(200), codon-optimized for E. coli <400> 194 gcctctccgg cagcaccggc accggcatct ccggcagcac cggcgccgag tgcaccggca 60 gcatctccgg cagcaccggc tccggcatct ccggcagcac cggcaccgtc tgcaccggca 120 gcaagtccgg cagcaccggc accggcgagt ccggcagcac cggcaccgag tgcaccggca 180 gcaagtccgg cggcaccggc accggcaagt ccggcagcac cggcaccgtc tgcgccggca 240 gcatctccgg cagcaccggc accggcgtct ccggcagcac cggcaccgag cgcaccggca 300 gcatctccgg cagcaccggc gccggcatct ccggcagcac cggcaccgag tgcgccggca 360 gcatctccgg cagcaccggc gccggcgagt ccggcagcac cggcaccgtc tgcaccggcg 420 gcatctccgg cagcaccggc accggcaagc ccggcagcac cggcaccgag tgcaccggcg 480 gcatctccgg cagcaccggc gccggcaagt ccggcagcac cggcaccgag tgcaccggct 540 gcatctccgg cagcaccggc accggcaagt ccggcagcac cggcgccgtc tgcaccggca 600 600 <210> 195 <211> 600 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence of PAS#1ap(200), codon-optimized for E. coli <400> 195 gcctctccgg cagcaccggc accggcatct ccggcggcac cggcaccgag tgcaccggca 60 gcatctccgg cagcgccggc accggcaagt ccggcagcac cggcgccgtc tgcaccggca 120 gcaagtccgg cagcgccggc gccggcatct ccggcagcac cggctccgag tgcaccggca 180 gcgagtccgg cagcaccggc accggcgtct ccggcagcac cggcaccgtc tgcaccggca 240 gcgtctccgg cagcaccggc gccggcaagt ccggcagcac cggcaccgag cgcaccggca 300 gcatctccgg cggcaccggc gccggcatct ccggcggcgc cggcaccgag tgcaccggcg 360 gcatctccgg cagcaccggc gccggcgagc ccggcagcac cggcaccgag tgcgccggca 420 gcatctccgg cagcaccggc accagcatct ccggcagcac cggcgccatc tgcaccggca 480 gcatctccgg cagcaccggc cccggcatct ccggcagcac cggcaccgag tgcaccggcg 540 gcgagtccgg cagcaccggc accggcaagc ccggcagcac cggcaccgtc tgcgccggca 600 600 <210> 196 <211> 4641 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence <400> 196 atgggcagca gccatcatca tcaccatcat ggtagcctgg ttccgcgtag ctcttctgca 60 agtccggcag caccggcacc ggcttcacca gctgcaccag cacctagcgc accggcagca 120 tctccagcag cccctgcacc ggcaagccct gcagctccag caccgtcagc accagcagca 180 agcccagctg ctcctgctcc agcgagccca gcagcgccag ctcctagtgc ccctgctgcc 240 tctcctgctg ctccggcacc agcaagtcct gctgcgcctg caccgagtgc tccggctgct 300 agtcctgccg caccagctcc ggctagtcca gctgctccag ccccttcagc tccggcagct 360 tcccctgcag cgcctgcccc tgccagtcca gcggctcctg cacctagtgc gcctgcagct 420 tcaccggctg cccctgcgcc agcttctcct gcggctccag ctccatctgc cccagccgca 480 tccccagcgg caccagctcc agcttctccg gcagcgccag caccttctgc gcctgccgca 540 tctcctgcag caccagcgcc tgcgagtcct gcagctcctg ctccttcagc ccctgcggca 600 agtccagcag caccagcccc agcaagccca gccgcaccag caccatctgc ccctgcagca 660 ccatttgtga acaagcagtt taactataag gacccggtga acggtgtgga tatcgcgtat 720 atcaaaatcc cgaatgcggg ccagatgcaa ccagtcaagg cgttcaagat tcataacaag 780 atttgggtta ttccggaacg tgataccttc accaatccgg aagaaggcga cttaaacccg 840 ccgccagaag ccaaacaagt gccggtgagc tactatgata gcacgtatct tagcaccgat 900 aatgaaaaag acaattacct gaagggcgtg accaagttgt tcgagcgcat ctacagtacc 960 gacttaggcc gcatgttgtt gacgagcatc gttcgcggta tcccgttctg gggcggctcg 1020 accattgata ccgagttgaa agtcattgac acgaactgta tcaatgttat ccaaccggac 1080 ggcagttatc gcagcgagga gttaaatttg gtcatcatcg gtccaagcgc agatattatt 1140 cagttcgaat gcaagagctt cggccatgag gtcttgaatt tgacgcgcaa cggttacggc 1200 agcacccaat acatccgctt tagcccggat ttcacctttg gcttcgagga gagcttggag 1260 gtggacacca acccgctgtt aggtgccggc aaattcgcaa ccgacccggc agtgacgttg 1320 gcgcacgaat tgattcatgc gggtcaccgc ttatacggta tcgcgatcaa tccgaatcgc 1380 gtctttaaag tcaataccaa cgcgtactac gaaatgagcg gcttagaggt tagctttgaa 1440 gaattacgca ccttcggtgg ccacgacgcc aagttcatcg acagcctgca ggaaaatgag 1500 ttccgcttgt actattacaa taaattcaag gacatcgcga gcaccttaaa taaagcaaag 1560 agcattgtgg gcaccaccgc aagcttgcag tacatgaaga acgtatttaa ggaaaaatat 1620 ttgttgtcgg aggataccag cgggaaattc agcgtcgata agctgaaatt cgacaaattg 1680 tataaaatgc tgaccgagat ttacaccgag gataacttcg tcaagttttt taaggtgtta 1740 aatcgtaaga cctatttaaa ctttgataaa gcggtgttta aaattaatat cgtgccgaag 1800 gtgaattaca ccatctacga tggtttcaat ttacgcaaca cgaatctggc ggcgaatttt 1860 aatggccaaa acaccgaaat taacaacatg aactttacga agttaaagaa tttcacgggc 1920 ttattcgaat tctacaagtt attatgcgtg cgcggcatca ttaccagcaa ggcaggtgcg 1980 ggcaagtcct tggttccgcg tggcagcgcc ggcgccggcg cgctcaatga tctgtgtatt 2040 aaagtcaata actgggacct gttcttcagc ccgagcgagg ataactttac caacgactta 2100 aacaaaggcg aggagatcac gagcgatacg aacatcgagg cggcggagga aaatattagc 2160 ctggacctca ttcagcagta ctatctgacg ttcaattttg acaatgagcc ggagaacatc 2220 agcattgaaa atctcagcag cgacatcatc ggtcagttgg aactgatgcc gaacattgaa 2280 cgctttccga acggcaaaaa atatgaactg gacaagtata ccatgttcca ttacttacgc 2340 gcacaggaat ttgagcacgg caagagccgc attgcgctga ccaatagcgt taacgaggcc 2400 ttgttaaatc cgagccgtgt ctacacgttc ttcagcagcg attatgtcaa aaaagtgaac 2460 aaggcgaccg aagccgcgat gtttttgggc tgggtcgagc aattggttta cgattttacc 2520 gacgaaacca gcgaggtgag cacgaccgac aaaattgcag atatcaccat catcattccg 2580 tacatcggtc cggcgctcaa tatcggcaat atgttataca aggacgactt tgtgggcgcg 2640 ctgatcttta gcggcgcggt tatcttatta gaattcatcc cggagatcgc aatcccggtc 2700 ttgggcacct ttgcgttggt gagctatatc gcgaataaag tgctcacggt ccaaaccatc 2760 gataacgcgc tcagcaagcg taatgagaaa tgggacgagg tttataagta tatcgtgacc 2820 aactggttag caaaagtcaa tacgcagatc gatctcatcc gcaaaaaaat gaaagaagcc 2880 ttggaaaatc aagcggaggc aaccaaagcc atcattaatt accagtataa ccaatatacc 2940 gaagaagaaa aaaacaatat caacttcaat atcgatgatt tgagcagcaa actgaacgag 3000 agcattaaca aagcgatgat taacatcaac aagttcttga atcaatgcag cgtgagctat 3060 ctcatgaaca gcatgatccc gtatggcgtc aaacgcttgg aagattttga cgccagcctg 3120 aaagatgcgc tcctcaagta tatttatgac aaccgcggca ccctcattgg ccaggtggac 3180 cgcttgaagg ataaagtgaa caatacgctc agcacggata tcccgttcca gctgagcaag 3240 tacgtcgaca accagcgctt actgagcacc tttaccgagt atatcaagaa catcattaat 3300 accagcatcc tcaacttgcg ctatgagagc aatcacctga tcgacctcag ccgctacgcc 3360 agcaagatca acatcggcag caaggtcaat ttcgacccga tcgataagaa tcagatccaa 3420 ttgtttaacc tggaaagcag caagatcgag gttatcttga agaacgcgat tgtgtacaac 3480 agcatgtacg agaactttag cacgagcttc tggattcgta tcccgaagta tttcaatagc 3540 attagcctga ataacgaata taccattatc aactgcatgg aaaataatag cggctggaag 3600 gtgagcttaa attacggcga gatcatttgg accttacagg atacccaaga aatcaaacag 3660 cgcgtcgtct ttaagtatag ccagatgatc aacatcagcg attacatcaa ccgctggatc 3720 ttcgtgacca tcaccaataa tcgcttgaat aatagcaaga tttacatcaa tggtcgcttg 3780 attgatcaaa aaccgatcag caatctcggt aatatccatg ccagcaataa catcatgttt 3840 aagttagacg gttgccgcga tacccaccgc tatatctgga tcaagtattt taacttattt 3900 gataaggaac tcaacgaaaa ggaaattaaa gacttatatg acaatcagag caatagcggc 3960 atcctgaagg atttctgggg cgactacctg cagtacgata agccgtacta tatgttgaac 4020 ttgtatgacc cgaacaaata tgtcgatgtg aacaatgtgg gtattcgtgg ctatatgtac 4080 ttaaagggcc cgcgtggtag cgtgatgacc acgaatattt acttaaacag cagcttatac 4140 cgcggcacga agtttattat caagaagtat gccagcggca acaaggacaa tatcgtccgc 4200 aacaacgacc gtgtgtatat taacgtggtg gtgaagaata aagagtaccg cttggccacg 4260 aatgcgagcc aggcgggcgt ggaaaaaatc ttgagcgcgt tggagatccc ggacgtcggc 4320 aacctcagcc aggttgtggt gatgaagtct aaaaacgacc agggcatcac gaacaagtgc 4380 aaaatgaatt tgcaagataa caacggcaac gacatcggct ttattggttt tcaccagttc 4440 aataacatcg ccaaactcgt ggccagcaat tggtataacc gccaaattga acgcagcagc 4500 cgcacgctcg gctgtagctg ggagttcatc ccggtggacg atggctgggg cgagcgcccg 4560 ctcggagatc tggtgccacg cggttccgcg aattcgagct ccgtcgacaa gctttggagc 4620 cacccgcagt tcgaaaaata a 4641 <210> 197 <211> 4341 <212> DNA <213> Artificial Sequence <220> <223> Nucleotide sequence <400> 197 atgggtagca gccatcatca tcaccatcat ggtagcctgg ttccgcgtag ctcttctgca 60 agtccggcag caccggcacc ggcttcacca gctgcaccag cacctagcgc accggcagca 120 tctccagcag cccctgcacc ggcaagccct gcagctccag caccgtcagc accagcagca 180 agcccagctg ctcctgctcc agcgagccca gcagcgccag ctcctagtgc ccctgctgcc 240 tctcctgctg ctccggcacc agcaagtcct gctgcgcctg caccgagtgc tccggctgct 300 agtcctgccg caccagctcc ggctagtcca gctgctccag ccccttcagc ccctgcagca 360 ccatttgtga acaagcagtt taactataag gacccggtga acggtgtgga tatcgcgtat 420 atcaaaatcc cgaatgcggg ccagatgcaa ccagtcaagg cgttcaagat tcataacaag 480 atttgggtta ttccggaacg tgataccttc accaatccgg aagaaggcga tttaaatccg 540 ccgccagaag ccaaacaagt gccggtgagc tactatgata gcacgtatct tagcaccgat 600 aatgaaaaag acaattacct gaagggcgtg accaagttgt tcgagcgcat ctacagtacc 660 gacttaggcc gcatgttgtt gacgagcatc gttcgcggta tcccgttctg gggcggctcg 720 accattgata ccgagttgaa agtcattgac acgaactgta tcaatgttat ccaaccggac 780 ggcagttatc gcagcgagga gttaaatttg gtcatcatcg gtccaagcgc agatattatt 840 cagttcgaat gcaagagctt cggccatgag gtcttgaatt tgacgcgcaa cggttacggc 900 agcacccaat acatccgctt tagcccggat ttcacctttg gcttcgagga gagcttggag 960 gtggacacca acccgctgtt aggtgccggc aaattcgcaa ccgacccggc agtgacgttg 1020 gcgcacgaat tgattcatgc gggtcaccgc ttatacggta tcgcgatcaa tccgaatcgc 1080 gtctttaaag tcaataccaa cgcgtactac gaaatgagcg gcttagaggt tagctttgaa 1140 gaattacgca ccttcggtgg ccacgacgcc aagttcatcg acagcctgca ggaaaatgag 1200 ttccgcttgt actattacaa taaattcaag gacatcgcga gcaccttaaa taaagcaaag 1260 agcattgtgg gcaccaccgc aagcttgcag tacatgaaga acgtatttaa ggaaaaatat 1320 ttgttgtcgg aggataccag cgggaaattc agcgtcgata agctgaaatt cgacaaattg 1380 tataaaatgc tgaccgagat ttacaccgag gataacttcg tcaagttttt taaggtgtta 1440 aatcgtaaga cctatttaaa ctttgataaa gcggtgttta aaattaatat cgtgccgaag 1500 gtgaattaca ccatctacga tggtttcaat ttacgcaaca cgaatctggc ggcgaatttt 1560 aatggccaaa acaccgaaat taacaacatg aactttacga agttaaagaa tttcacgggc 1620 ttattcgaat tctacaagtt attatgcgtg cgcggcatca ttaccagcaa ggcaggtgcg 1680 ggcaagtcct tggttccgcg tggcagcgcc ggcgccggcg cgctcaatga tctgtgtatt 1740 aaagtcaata actgggacct gttcttcagc ccgagcgagg ataactttac caacgactta 1800 aacaaaggcg aggagatcac gagcgatacg aacatcgagg cggcggagga aaatattagc 1860 ctggacctca ttcagcagta ctatctgacg ttcaattttg acaatgagcc ggagaacatc 1920 agcattgaaa atctcagcag cgacatcatc ggtcagttgg aactgatgcc gaacattgaa 1980 cgctttccga acggcaaaaa atatgaactg gacaagtata ccatgttcca ttacttacgc 2040 gcacaggaat ttgagcacgg caagagccgc attgcgctga ccaatagcgt taacgaggcc 2100 ttgttaaatc cgagccgtgt ctacacgttc ttcagcagcg attatgtcaa aaaagtgaac 2160 aaggcgaccg aagccgcgat gtttttgggc tgggtcgagc aattggttta cgattttacc 2220 gacgaaacca gcgaggtgag cacgaccgac aaaattgcag atatcaccat catcattccg 2280 tacatcggtc cggcgctcaa tatcggcaat atgttataca aggacgactt tgtgggcgcg 2340 ctgatcttta gcggcgcggt tatcttatta gaattcatcc cggagatcgc aatcccggtc 2400 ttgggcacct ttgcgttggt gagctatatc gcgaataaag tgctcacggt ccaaaccatc 2460 gataacgcgc tcagcaagcg taatgagaaa tgggacgagg tttataagta tatcgtgacc 2520 aactggttag caaaagtcaa tacgcagatc gatctcatcc gcaaaaaaat gaaagaagcc 2580 ttggaaaatc aagcggaggc aaccaaagcc atcattaatt accagtataa ccaatatacc 2640 gaagaagaaa aaaacaatat caacttcaat atcgatgatt tgagcagcaa actgaacgag 2700 agcattaaca aagcgatgat taacatcaac aagttcttga atcaatgcag cgtgagctat 2760 ctcatgaaca gcatgatccc gtatggcgtc aaacgcttgg aagattttga cgccagcctg 2820 aaagatgcgc tcctcaagta tatttatgac aaccgcggca ccctcattgg ccaggtggac 2880 cgcttgaagg ataaagtgaa caatacgctc agcacggata tcccgttcca gctgagcaag 2940 tacgtcgaca accagcgctt actgagcacc tttaccgagt atatcaagaa catcattaat 3000 accagcatcc tcaacttgcg ctatgagagc aatcacctga tcgacctcag ccgctacgcc 3060 agcaagatca acatcggcag caaggtcaat ttcgacccga tcgataagaa tcagatccaa 3120 ttgtttaacc tggaaagcag caagatcgag gttatcttga agaacgcgat tgtgtacaac 3180 agcatgtacg agaactttag cacgagcttc tggattcgta tcccgaagta tttcaatagc 3240 attagcctga ataacgaata taccattatc aactgcatgg aaaataatag cggctggaag 3300 gtgagcttaa attacggcga gatcatttgg accttacagg atacccaaga aatcaaacag 3360 cgcgtcgtct ttaagtatag ccagatgatc aacatcagcg attacatcaa ccgctggatc 3420 ttcgtgacca tcaccaataa tcgcttgaat aatagcaaga tttacatcaa tggtcgcttg 3480 attgatcaaa aaccgatcag caatctcggt aatatccatg ccagcaataa catcatgttt 3540 aagttagacg gttgccgcga tacccaccgc tatatctgga tcaagtattt taacttattt 3600 gataaggaac tcaacgaaaa ggaaattaaa gacttatatg acaatcagag caatagcggc 3660 atcctgaagg atttctgggg cgactacctg cagtacgata agccgtacta tatgttgaac 3720 ttgtatgacc cgaacaaata tgtcgatgtg aacaatgtgg gtattcgtgg ctatatgtac 3780 ttaaagggcc cgcgtggtag cgtgatgacc acgaatattt acttaaacag cagcttatac 3840 cgcggcacga agtttattat caagaagtat gccagcggca acaaggacaa tatcgtccgc 3900 aacaacgacc gtgtgtatat taacgtggtg gtgaagaata aagagtaccg cttggccacg 3960 aatgcgagcc aggcgggcgt ggaaaaaatc ttgagcgcgt tggagatccc ggacgtcggc 4020 aacctcagcc aggttgtggt gatgaagtct aaaaacgacc agggcatcac gaacaagtgc 4080 aaaatgaatt tgcaagataa caacggcaac gacatcggct ttattggttt tcaccagttc 4140 aataacatcg ccaaactcgt ggccagcaat tggtataacc gccaaattga acgcagcagc 4200 cgcacgctcg gctgtagctg ggagttcatc ccggtggacg atggctgggg cgagcgcccg 4260 ctcggagatc tggtgccacg cggttccgcg aattcgagct ccgtcgacaa gctttggagc 4320 cacccgcagt tcgaaaaata a 4341

Claims

프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열을 포함하는 핵산 분자로서,
상기 핵산의 뉴클레오티드 서열은 적어도 300개 뉴클레오티드의 길이를 갖고,
상기 뉴클레오티드 서열은 50,000 이하의 뉴클레오티드 반복물 점수(NRS)를 가지며,
상기 뉴클레오티드 반복물 점수(NRS)는 하기 식에 따라 결정되는 핵산 분자:

상기에서,
N_tot는 상기 뉴클레오티드 서열의 길이이고,
n은 상기 뉴클레오티드 서열 내의 반복물의 길이이며, 및
f_i(n)은 길이 n인 상기 반복물의 빈도이고,
길이 n인 반복물이 1개 이상이면, k(n)은 길이 n인 상기 반복물의 상기 상이한 서열의 수이고, 그렇지 않다면 k(n)은 길이 n인 상기 반복물에 대해 1이다.
청구항 1에 있어서,
상기 암호화된 폴리펩티드는 프롤린 및 알라닌으로 이루어지는 핵산 분자.
청구항 2에 있어서,
상기 프롤린 잔기는 상기 암호화된 폴리펩티드의 약 10% 이상 및 약 75% 이하를 구성하는 핵산 분자.
청구항 1에 있어서,
상기 암호화된 폴리펩티드는 프롤린, 알라닌 및 세린으로 이루어지는 핵산 분자.
청구항 4에 있어서,
상기 프롤린 잔기는 상기 암호화된 폴리펩티드의 4% 이상 및 40% 이하를 구성하는 핵산 분자.
청구항 1 내지 청구항 5 중 어느 하나의 항에 있어서,
상기 뉴클레오티드 반복물 점수(NRS)는 100 이하인 핵산 분자.
청구항 1 내지 청구항 6 중 어느 하나의 항에 있어서,
상기 뉴클레오티드 반복물 점수(NRS)는 50 이하인 핵산 분자.
청구항 1 내지 청구항 7 중 어느 하나의 항에 있어서,
상기 뉴클레오티드 반복물 점수(NRS)는 35 이하인 핵산 분자.
청구항 1 내지 청구항 8 중 어느 하나의 항에 있어서,
상기 핵산의 뉴클레오티드 서열은 적어도 900개 뉴클레오티드의 길이를 갖는 핵산 분자.
청구항 1 내지 청구항 9 중 어느 하나의 항에 있어서,
상기 핵산 분자는 향상된 유전적 안정성을 갖는 핵산 분자.
청구항 1 내지 청구항 10 중 어느 하나의 항에 있어서,
상기 뉴클레오티드 서열은 상기 반복물을 포함하고, 상기 반복물은 최대 길이 n_max를 가지며, n_max는 하기 식에 따라 결정되는 핵산 분자:

상기에서, N_tot는 상기 뉴클레오티드 서열의 길이이다.
청구항 1 내지 청구항 11 중 어느 하나의 항에 있어서,
상기 반복물은 약 14, 15, 16 또는 17개 뉴클레오티드 내지 약 55개 뉴클레오티드의 최대 길이를 갖는 핵산 분자.
청구항 1 내지 청구항 12 중 어느 하나의 항에 있어서,
상기 암호화된 폴리펩티드는 복수의 아미노산 반복물을 갖는 반복적인 아미노산 서열을 포함하고, 최대 9개의 연이은 아미노산 잔기가 동일하며, 상기 폴리펩티드는 랜덤 코일을 형성하는 핵산 분자.
청구항 1 내지 청구항 3 및 청구항 6 내지 청구항 13 중 어느 하나의 항에 있어서,
상기 핵산 분자는 다음으로 이루어진 군으로부터 선택되는 핵산 분자:
(a) 서열번호 28, 서열번호 29, 서열번호 30, 서열번호 31, 서열번호 32, 서열번호 33, 서열번호 34, 서열번호 35, 서열번호 36, 서열번호 37, 서열번호 87, 서열번호 88, 서열번호 89, 서열번호 90, 서열번호 91, 서열번호 92, 서열번호 93, 서열번호 94, 서열번호 95, 서열번호 96, 서열번호 97, 서열번호 98, 서열번호 99, 서열번호 100, 서열번호 101, 서열번호 102, 서열번호 103, 서열번호 104, 서열번호 105, 서열번호 106, 서열번호 107, 서열번호 108, 서열번호 109, 서열번호 110, 서열번호 111, 서열번호 112, 서열번호 113, 서열번호 114, 서열번호 115, 서열번호 116, 서열번호 117, 서열번호 118, 서열번호 119, 서열번호 120, 서열번호 121, 서열번호 122, 서열번호 192 및 서열번호 193으로 이루어진 군으로부터 선택되는 적어도 하나의 뉴클레오티드 서열을 포함하는 핵산 분자;
(b) 서열번호 42, 서열번호 43, 서열번호 44, 서열번호 45, 서열번호 153, 서열번호 154, 서열번호 155, 서열번호 156, 서열번호 157, 서열번호 158, 서열번호 159, 서열번호 160, 서열번호 161, 서열번호 162, 서열번호 163, 서열번호 164, 서열번호 165, 서열번호 166, 서열번호 167, 서열번호 168, 서열번호 169, 서열번호 170, 서열번호 171, 서열번호 172 및/또는 서열번호 173으로 이루어진 뉴클레오티드 서열을 포함하는 핵산 분자;
(c) (a) 또는 (b)에서 정의된 것과 같은 뉴클레오티드 서열의 상보적인 가닥에 엄격한 조건 하에 혼성화하는 핵산 분자;
(d) (a), (b) 및 (c) 중 어느 하나에서 정의된 것과 같은 뉴클레오티드 서열과 적어도 66.7% 동일성을 갖는 뉴클레오티드 서열을 포함하는 핵산 분자; 및
(e) (a) 또는 (b)에서 정의된 것과 같은 뉴클레오티드 서열과 유전자 코드의 결과로서 축중(degeneracy)되는 핵산 분자.
청구항 1 및 청구항 4 내지 청구항 13 중 어느 하나의 항에 있어서,
상기 핵산 분자는 다음으로 이루어진 군으로부터 선택되는 핵산 분자:
(a) 서열번호 19, 서열번호 20, 서열번호 21, 서열번호 22, 서열번호 23, 서열번호 24, 서열번호 25, 서열번호 26, 서열번호 27, 서열번호 123, 서열번호 124, 서열번호 125, 서열번호 126, 서열번호 127, 서열번호 128, 서열번호 129, 서열번호 130, 서열번호 131, 서열번호 132, 서열번호 133, 서열번호 134, 서열번호 135, 서열번호 136, 서열번호 137, 서열번호 138, 서열번호 139, 서열번호 140, 서열번호 141, 서열번호 142, 서열번호 143, 서열번호 144, 서열번호 145, 서열번호 146, 서열번호 147, 서열번호 148, 서열번호 149, 서열번호 150, 서열번호 151, 서열번호 152, 서열번호 194 및 서열번호 195로 이루어진 군으로부터 선택되는 적어도 하나의 뉴클레오티드 서열을 포함하는 핵산 분자;
(b) 서열번호 38, 서열번호 39, 서열번호 40, 서열번호 41, 서열번호 174, 서열번호 175, 서열번호 176, 서열번호 177, 서열번호 178, 서열번호 179, 서열번호 180, 서열번호 181, 서열번호 182, 서열번호 184, 서열번호 185, 서열번호 186, 서열번호 187, 서열번호 188, 서열번호 189, 서열번호 190 및 서열번호 191로 이루어진 군으로부터 선택되는 뉴클레오티드 서열을 포함하는 핵산 분자;
(c) (a) 또는 (b)에서 정의된 것과 같은 뉴클레오티드 서열의 상보적인 가닥에 엄격한 조건 하에 혼성화하는 핵산 분자;
(d) (a), (b) 및 (c) 중 어느 하나에서 정의된 것과 같은 뉴클레오티드 서열과 적어도 56% 동일성을 갖는 뉴클레오티드 서열을 포함하는 핵산 분자;
(e) (a) 또는 (b)에서 정의된 것과 같은 뉴클레오티드 서열과 유전자 코드의 결과로서 축중되는 핵산 분자.
청구항 1 내지 청구항 15 중 어느 하나의 항에 있어서,
생물학적 활성 단백질을 암호화하는 핵산과 동일한 해독틀에서 작동가능하게 결합되는 핵산 분자.
청구항 16에 있어서,
상기 생물학적 활성 단백질은 치료적으로 효과적인 단백질인 핵산 분자.
청구항 16 또는 청구항 17에 있어서,
상기 생물학적 활성 단백질은 결합 단백질, 항체 절편, 사이토카인, 성장 인자, 호르몬, 효소, 단백질 백신, 펩티드 백신, 50개까지의 아미노산 잔기로 이루어지는 펩티드 또는 펩티도모방체로 이루어진 군으로부터 선택되는 핵산 분자.
청구항 18에 있어서,
상기 결합 단백질은 항체, Fab 절편, Fab' 절편, F(ab')₂ 절편, 단일 사슬 가변 절편(scFv), (단일) 도메인 항체, 항체의 단리된 가변 영역(VL 및/또는 VH 영역), CDR, 면역글로불린 도메인, CDR-유래 펩티도모방체, 렉틴, 단백질 스캐폴드, 피브로넥틴 도메인, 테나신 도메인, 단백질 A 도메인, SH3 도메인, 안키린 반복 도메인 및 리포칼린으로 이루어진 군으로부터 선택되는 핵산 분자.
청구항 16 내지 청구항 18 중 어느 하나의 항에 있어서,
상기 생물학적 활성 단백질은 인터루킨 1 수용체 길항제, 렙틴, 산 스핑고마이엘리나아제, 아데노신 탈아미나아제, 아갈시다아제 알파, 알파-1 안티트립신, 알파 심방 나트륨이뇨 펩티드, 알파-갈락토시다아제, 알파-글루코시다아제, 알파-N-아세틸글루코사미니다아제, 알테플라아제, 아메디플라아제, 아밀린, 아밀린 유사체, 항-HIV 펩티드 융합 억제제, 아르기닌 탈이미나아제, 아스파라기나아제, B 도메인 결실 인자 Ⅷ, 뼈 형성 단백질, 브라디키닌 길항제, B-타입 나트륨이뇨 펩티드, 보우가닌, 성장 호르몬, 융모막 고나도트로핀, CD3 수용체 길항제, CD19 길항제, CD20 길항제, CD40 길항제, CD40L 길항제, 세레브로사이드 설파타아제, 응고 인자 Ⅶa, 응고 인자 XⅢ, 응고 인자 Ⅸ, 응고 인자 X, 보체 성분 C3 억제제, 보체 성분 5a 길항제, C-펩티드, CTLA-4 길항제, C-타입 나트륨이뇨 펩티드, 데펜신, 데옥시리보뉴클레아제 I, EGFR 수용체 길항제, 상피 성장 인자, 에리트로포이에틴, 엑센딘-4, 에즈린 펩티드 1, FcγⅡB 수용체 길항제, 섬유아세포 성장 인자 21, 여포-자극 호르몬, 위 억제 폴리펩티드(GIP), GIP 유사체, 글루카곤, 글루카곤 수용체 작용제, 글루카곤-유사 펩티드 1(GLP-1), GLP-1 유사체, 글루카곤-유사 펩티드 2(GLP-2), GLP-2 유사체, 고나도렐린, 고나도트로핀-방출 호르몬 작용제, 고나도트로핀-방출 호르몬 길항제, gp120, gp160, 과립구 콜로니 자극 인자(G-CSF), 과립구 대식세포 콜로니 자극 인자(GM-CSF), 그렐린, 그렐린 유사체, 성장 호르몬, 성장 호르몬-방출 호르몬, 헤마타이드, 간세포 성장 인자, 간세포 성장 인자 수용체(HGFR) 길항제, 헵시딘 길항제, 헵시딘 모방체, Her2/neu 수용체 길항제, 히스트렐린, 히루딘, hsp70 길항제, 휴마닌, 히알루로니다아제, 가수분해성 리소좀 글루코세레브로사이드-특이적 효소, 이두로네이트-2-설파타아제, IgE 길항제, 인슐린, 인슐린 유사체, 인슐린-유사 성장 인자 1, 인슐린-유사 성장 인자 2, 인터페론-알파, 인터페론-알파 길항제, 인터페론-알파 수퍼작용제, 인터페론-알파-n3, 인터페론-베타, 인터페론-감마, 인터페론-람다, 인터페론 타우, 인터루킨, 인터루킨 2 융합 단백질, 인터루킨-22 수용체 서브유닛 알파(IL-22ra) 길항제, 이리신, 소도 신생 연관 단백질, 각질세포 성장 인자, Kv1.3 이온 채널 길항제, 란티펩티드, 리파아제, 황체형성 호르몬, 루트로핀 알파, 리소스타핀, 만노시다아제, N-아세틸갈락토사민-6-설파타아제, N-아세틸글루코사미니다아제, 호중구 젤라티나아제-연관 리포칼린, 옥트레오타이드, ω-코노톡신, 오르니토도로스 모우바타 보체 억제제, 골형성 단백질-1, 오스테오프로테게린, 옥살레이트 탈카르복실라아제, P128, 부갑상선 호르몬, 파일로머, PD-1 길항제, PDGF 길항제, 페닐알라닌 암모니아 리아제, 혈소판 유래 성장 인자, 프로인슐린, 단백질 C, 릴랙신, 릴랙신 유사체, 세크레틴, RGD 펩티드, 리보뉴클레아제, 센레보타아제, 세린 프로테아제 억제제, 가용성 보체 수용체 타입 1, 가용성 DCC 수용체, 가용성 TACI 수용체, 가용성 종양 괴사 인자 I 수용체(sTNF-RI), 가용성 종양 괴사 인자 Ⅱ 수용체(sTNF-RⅡ), 가용성 VEGF 수용체 Flt-1, 가용성 FcγⅡB 수용체, 소마토스타틴, 소마토스타틴 유사체, 스트렙토키나아제, T-세포 수용체 리간드, 테넥테플라아제, 테리파라타이드, 트롬보모듈린 알파, 티모신 알파 1, 톨 유사 수용체 억제제, 종양 괴사 인자(TNFα), 종양 괴사 인자 α 길항제, 유리카아제, 혈관활성 장관 펩티드, 바소프레신, 바소프레신 유사체, VEGF 길항제, 폰 빌레브란트 인자로 이루어진 군으로부터 선택되는 핵산 분자.
청구항 1 내지 청구항 20 중 어느 하나의 항의 핵산 분자를 포함하는 벡터.
청구항 1 내지 청구항 20 중 어느 하나의 항의 핵산 분자를 포함하는 숙주 또는 숙주 세포, 청구항 21의 벡터를 포함하는 숙주 또는 숙주 세포, 또는 청구항 21의 벡터로 현질전환된 숙주 또는 숙주 세포.
청구항 22의 숙주 또는 숙주 세포를 배양하는 단계 및 선택적으로 상기 생산된 핵산 분자를 단리하는 단계를 포함하는 청구항 1 내지 청구항 20 중 어느 하나의 항의 핵산 분자의 제조 방법.
청구항 22의 숙주 또는 숙주 세포를 배양하는 단계 및 상기 생산된 벡터를 선택적으로 단리하는 단계를 포함하는 청구항 21의 벡터의 제조 방법.
청구항 22의 숙주 또는 숙주 세포를 배양/재배하는 단계 및 선택적으로 상기 생산된 폴리펩티드를 단리하는 단계를 포함하는 청구항 1 내지 청구항 20 중 어느 하나의 항의 핵산 분자에 의해 암호화된 폴리펩티드의 제조 방법.
약물 접합체의 제조 방법으로서, 상기 약물 접합체는 청구항 1 내지 청구항 15 중 어느 하나의 항의 핵산 분자에 의해 암호화된 폴리펩티드와, 추가로 (ⅰ) 생물학적 활성 단백질 및/또는 (ⅱ) 소분자 및/또는 (ⅲ) 탄수화물을 포함하고, 상기 방법은 청구항 22의 숙주 또는 숙주 세포를 배양하는 단계 및 선택적으로 상기 생산된 폴리펩티드 및/또는 약물 접합체를 단리하는 단계를 추가로 포함하는 약물 접합체의 제조 방법.
청구항 26에 있어서,
상기 생물학적 활성 단백질은 치료적으로 효과적인 단백질인 약물 접합체의 제조 방법.
청구항 26 또는 청구항 27에 있어서,
상기 생물학적 활성 단백질은 결합 단백질, 항체 절편, 사이토카인, 성장 인자, 호르몬, 효소, 단백질 백신, 펩티드 백신, 50개까지의 아미노산 잔기로 이루어지는 펩티드 또는 펩티도모방체로 이루어진 군으로부터 선택되는 약물 접합체의 제조 방법.
청구항 28에 있어서,
상기 결합 단백질은 항체, Fab 절편, Fab' 절편, F(ab')₂ 절편, 단일 사슬 가변 절편(scFv), (단일) 도메인 항체, 항체의 단리된 가변 영역(VL 및/또는 VH 영역), CDR, 면역글로불린 도메인, CDR-유래 펩티도모방체, 렉틴, 단백질 스캐폴드, 피브로넥틴 도메인, 테나신 도메인, 단백질 A 도메인, SH3 도메인, 안키린 반복 도메인 및 리포칼린으로 이루어진 군으로부터 선택되는 약물 접합체의 제조 방법.
청구항 26 내지 청구항 28 중 어느 하나의 항에 있어서,
상기 생물학적 활성 단백질은 인터루킨 1 수용체 길항제, 렙틴, 산 스핑고마이엘리나아제, 아데노신 탈아미나아제, 아갈시다아제 알파, 알파-1 안티트립신, 알파 심방 나트륨이뇨 펩티드, 알파-갈락토시다아제, 알파-글루코시다아제, 알파-N-아세틸글루코사미니다아제, 알테플라아제, 아메디플라아제, 아밀린, 아밀린 유사체, 항-HIV 펩티드 융합 억제제, 아르기닌 탈이미나아제, 아스파라기나아제, B 도메인 결실 인자 Ⅷ, 뼈 형성 단백질, 브라디키닌 길항제, B-타입 나트륨이뇨 펩티드, 보우가닌, 성장 호르몬, 융모막 고나도트로핀, CD3 수용체 길항제, CD19 길항제, CD20 길항제, CD40 길항제, CD40L 길항제, 세레브로사이드 설파타아제, 응고 인자 Ⅶa, 응고 인자 XⅢ, 응고 인자 Ⅸ, 응고 인자 X, 보체 성분 C3 억제제, 보체 성분 5a 길항제, C-펩티드, CTLA-4 길항제, C-타입 나트륨이뇨 펩티드, 데펜신, 데옥시리보뉴클레아제 I, EGFR 수용체 길항제, 상피 성장 인자, 에리트로포이에틴, 엑센딘-4, 에즈린 펩티드 1, FcγⅡB 수용체 길항제, 섬유아세포 성장 인자 21, 여포-자극 호르몬, 위 억제 폴리펩티드(GIP), GIP 유사체, 글루카곤, 글루카곤 수용체 작용제, 글루카곤-유사 펩티드 1(GLP-1), GLP-1 유사체, 글루카곤-유사 펩티드 2(GLP-2), GLP-2 유사체, 고나도렐린, 고나도트로핀-방출 호르몬 작용제, 고나도트로핀-방출 호르몬 길항제, gp120, gp160, 과립구 콜로니 자극 인자(G-CSF), 과립구 대식세포 콜로니 자극 인자(GM-CSF), 그렐린, 그렐린 유사체, 성장 호르몬, 성장 호르몬-방출 호르몬, 헤마타이드, 간세포 성장 인자, 간세포 성장 인자 수용체(HGFR) 길항제, 헵시딘 길항제, 헵시딘 모방체, Her2/neu 수용체 길항제, 히스트렐린, 히루딘, hsp70 길항제, 휴마닌, 히알루로니다아제, 가수분해성 리소좀 글루코세레브로사이드-특이적 효소, 이두로네이트-2-설파타아제, IgE 길항제, 인슐린, 인슐린 유사체, 인슐린-유사 성장 인자 1, 인슐린-유사 성장 인자 2, 인터페론-알파, 인터페론-알파 길항제, 인터페론-알파 수퍼작용제, 인터페론-알파-n3, 인터페론-베타, 인터페론-감마, 인터페론-람다, 인터페론 타우, 인터루킨, 인터루킨 2 융합 단백질, 인터루킨-22 수용체 서브유닛 알파(IL-22ra) 길항제, 이리신, 소도 신생 연관 단백질, 각질세포 성장 인자, Kv1.3 이온 채널 길항제, 란티펩티드, 리파아제, 황체형성 호르몬, 루트로핀 알파, 리소스타핀, 만노시다아제, N-아세틸갈락토사민-6-설파타아제, N-아세틸글루코사미니다아제, 호중구 젤라티나아제-연관 리포칼린, 옥트레오타이드, ω-코노톡신, 오르니토도로스 모우바타 보체 억제제, 골형성 단백질-1, 오스테오프로테게린, 옥살레이트 탈카르복실라아제, P128, 부갑상선 호르몬, 파일로머, PD-1 길항제, PDGF 길항제, 페닐알라닌 암모니아 리아제, 혈소판 유래 성장 인자, 프로인슐린, 단백질 C, 릴랙신, 릴랙신 유사체, 세크레틴, RGD 펩티드, 리보뉴클레아제, 센레보타아제, 세린 프로테아제 억제제, 가용성 보체 수용체 타입 1, 가용성 DCC 수용체, 가용성 TACI 수용체, 가용성 종양 괴사 인자 I 수용체(sTNF-RI), 가용성 종양 괴사 인자 Ⅱ 수용체(sTNF-RⅡ), 가용성 VEGF 수용체 Flt-1, 가용성 FcγⅡB 수용체, 소마토스타틴, 소마토스타틴 유사체, 스트렙토키나아제, T-세포 수용체 리간드, 테넥테플라아제, 테리파라타이드, 트롬보모듈린 알파, 티모신 알파 1, 톨 유사 수용체 억제제, 종양 괴사 인자(TNFα), 종양 괴사 인자 α 길항제, 유리카아제, 혈관활성 장관 펩티드, 바소프레신, 바소프레신 유사체, VEGF 길항제, 폰 빌레브란트 인자로 이루어진 군으로부터 선택되는 약물 접합체의 제조 방법.
청구항 26 내지 청구항 30 중 어느 하나의 항에 있어서,
상기 소분자는 혈관형성 억제제, 항-알레르기 약물, 항-구토 약물, 항-우울증 약물, 항-고혈압 약물, 항-염증성 약물, 항-감염성 약물, 항-정신병 약물, 항-증식성(세포독성 및 세포분열억제성) 약물, 칼슘 길항제 및 다른 순환 기관 약물, 콜린성 작용제, 중추 신경계에 작용하는 약물, 호흡기계에 작용하는 약물, 호르몬, 스테로이드, 폴리케타이드, 탄수화물, 올리고사카라이드, 핵산, 핵산 유도체, 안티센스 핵산, 소간섭 RNA(siRNA), 마이크로 RNA(miR) 억제제, 마이크로RNA 모방체, DNA 압타머 및 RNA 압타머로 이루어진 군으로부터 선택되는 약물 접합체의 제조 방법.
청구항 1 내지 청구항 20 중 어느 하나의 항의 핵산 분자의 서열분석 방법.
청구항 1 내지 청구항 20 중 어느 하나의 항의 핵산 분자의 증폭 방법.
청구항 1 내지 청구항 20 중 어느 하나의 항의 핵산 분자의 클로닝 방법.
유전적으로 안정한 핵산 분자의 선별 방법으로서, 상기 핵산 분자는 프롤린, 알라닌 및 선택적으로 세린으로 이루어지는 폴리펩티드를 암호화하는 뉴클레오티드 서열을 포함하고, 상기 뉴클레오티드 서열은 적어도 300개 뉴클레오티드의 길이를 가지며,
상기 방법은 50,000 이하의 뉴클레오티드 반복물 점수(NRS)를 갖는 뉴클레오티드 서열을 포함하는 핵산 분자를 선별하는 단계를 포함하고,
상기 뉴클레오티드 반복물 점수(NRS)는 다음의 식에 따라 결정되는 유전적으로 안정한 핵산 분자의 선별 방법:

상기에서,
N_tot는 상기 뉴클레오티드 서열의 길이이고,
n은 상기 뉴클레오티드 서열 내의 반복물의 길이이며, 및
f_i(n)은 길이 n인 상기 반복물의 빈도이고,
길이 n인 반복물이 1개 이상이면, k(n)은 길이 n인 상기 반복물의 상기 상이한 서열의 수이고, 그렇지 않다면 k(n)은 길이 n인 상기 반복물에 대해 1이다.