KR20180004169A

KR20180004169A - 페니실린-g 아실라아제

Info

Publication number: KR20180004169A
Application number: KR1020177033631A
Authority: KR
Inventors: 고타미 바너지; 지에 양; 시윤 장; 에리카 엠 밀크젝; 멜리사 앤 마요; 스테판 젠느
Original assignee: 코덱시스, 인코포레이티드
Priority date: 2015-05-07
Filing date: 2016-05-06
Publication date: 2018-01-10
Also published as: HUE053863T2; US20200385699A1; US10781436B2; JP6755886B2; SG11201708356PA; US11180747B2; WO2016179464A1; CN107531762A; US10400231B2; US20160326508A1; MX2017014213A; JP2018515089A; US20190345474A1; IL255245A0; IL255245B; EP3292136B1; NZ736220A; US20180201919A1; AU2016258091A1; CA2983620A1

Abstract

본 발명은 개선된 특성을 갖는 조작된 페니실린 G 아실라아제(PGA) 효소, 그러한 효소를 코딩하는 폴리뉴클레오티드, 상기 효소를 포함하는 조성물, 및 상기 효소를 사용하는 방법을 제공한다.

Description

페니실린-G 아실라아제

본 출원은 2015년 5월 7일 출원된 미국 가출원 제62/158,118호에 대한 우선권을 주장하며, 모든 목적을 위해 그 전체로 참조로 본원에 포함시킨다.

서열 목록, 표 또는 컴퓨터 프로그램에 관한 참조

파일명 CX2-149WO1_ST25.txt로 EFS-웹을 통해 컴퓨터 판독가능한 형태(CRF)의 37 C.F.R. §1.821하에 본원과 함께 동시에 제출된 서열 목록이 참조로 본원에 포함된다. 서열 목록의 전자 사본은 88 킬로바이트의 파일 크기로, 2016년 4월 28일에 생성되었다.

발명의 분야

본 발명은 조작된 페니실린 G 아실라아제(PGA) 효소, 상기 효소를 코딩하는 폴리뉴클레오티드, 상기 효소를 포함하는 조성물, 및 상기 조작된 PGA 효소를 사용하는 방법을 제공한다.

페니실린 G 아실라아제(PGA)(페니실린 아미다아제, EC 3.5.1.11)는 페니실린 G(벤질페니실린) 측쇄의 아미드 결합의 절단을 촉매한다. 상기 효소는 6-아미노-페니실란산(6-APA) 및 페닐-아세트산(PAA)의 제조에서 상업적으로 사용된다. 6-APA는 반합성 β-락탐 항생제 예컨대 아목시실린, 암피실린 및 세팔렉신의 산업적 생산에서 핵심 화합물이다. 천연 발생 PGA 효소는 상업적 공정에서 불안정성을 보여서, 상업적 적용을 위해 고체 기질 상에 고정을 필요로 한다. PGA는 다양한 지지체에 공유적으로 결합되었고 PGA 고정된 시스템은 순수한 광학 이성질체의 합성을 위한 유용한 도구로서 보고되었다. 그러나, 고체 표면과의 부착은 약화된 효소 특성, 예컨대 감소된 활성 및/또는 선택성, 및 용질 접근의 제한을 초래한다. 게다가, 고체 기질과의 부착이 효소의 포획 및 추가 공정 주기 동안의 재사용을 가능하게 하지만, 효소의 안정성은 그 적용이 제한될 수 있다. 페니실린 G에서 6-APA로의 PGA에 의한 효소 촉매반응은 위치특이적(락탐 아미드 결합을 절단하지 않음) 및 입체특이적이다. 6-APA의 생성은 아마도 의약 생산 시 효소 촉매반응을 최대로 이용한 것일 것이다. 펜아세틸 모이어티와 회합된, PGA의 효소 활성은 알콜뿐 아니라 1차 아민의 상당히 다양한 유도체의 입체특이적 가수분해를 가능하게 한다.

본 발명은 인슐린으로부터 A1/B1/B29 트리-페닐 아세테이트 보호기를 제거하여 유리 인슐린을 생성시킬 수 있는 조작된 페니실린 G 아실라아제를 제공하고, 상기 페니실린 G 아실라아제는 서열번호 2, 4, 6, 8, 10, 및/또는 12와 적어도 약 85%, 약 86%, 약 87%, 약 88%, 약 89%, 약 90%, 약 91%, 약 92%, 약 93%, 약 94%, 약 95%, 약 96%, 약 97%, 약 98%, 약 99%, 또는 그 이상 동일하다. 일부 실시형태에서, 본 발명은 인슐린으로부터 A1/B1/B29 트리-페닐 아세테이트 보호기를 제거하여 유리 인슐린을 생성시킬 수 있는 조작된 페니실린 G 아실라아제를 제공하고, 상기 페니실린 G 아실라아제는 서열번호 2, 4, 6, 8, 10, 및/또는 12와 적어도 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, 또는 그 이상 동일하다. 일부 추가 실시형태에서, 본 발명은 인슐린으로부터 A1/B1/B29 트리-페닐 아세테이트 보호기를 제거하여 유리 인슐린을 생성시킬 수 있는 조작된 페니실린 G 아실라아제를 제공하고, 상기 페니실린 G 아실라아제는 서열번호 2, 4, 6, 8, 10, 및/또는 12를 포함한다. 일부 추가 실시형태에서, 페니실린 G 아실라아제는 표 5.1, 표 6.2, 및/또는 표 6.3에 제공된 바와 같은 적어도 하나의 돌연변이를 포함한다.

본 발명은 또한 서열번호 3, 5, 7, 9, 및 11에서 선택된 서열과 적어도 약 85%, 약 86%, 약 87%, 약 88%, 약 89%, 약 90%, 약 91%, 약 92%, 약 93%, 약 94%, 약 95%, 약 96%, 약 97%, 약 98%, 약 99%, 또는 그 이상의 서열 동일성을 갖는 폴리뉴클레오티드 서열에 의해 코딩되는 페니실린 G 아실라아제를 제공한다.

일부 실시형태에서, 폴리뉴클레오티드 서열에 의해 코딩되는 페니실린 G 아실라아제는 서열번호 3, 5, 7, 9, 및 11에서 선택된 서열과 적어도 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, 또는 그 이상의 서열 동일성을 갖는다. 일부 실시형태에서, 페니실린 G 아실라아제는 서열번호 3, 5, 7, 9, 및 11에서 선택된 폴리뉴클레오티드 서열에 의해 코딩된다. 본 발명은 또한 본원에 제공된 폴리뉴클레오티드 서열(예를 들어, 서열번호 3, 5, 7, 9, 및/또는 11)을 포함하는 벡터를 제공한다. 본 발명은 또한 본원에 제공된 벡터(예를 들어,서열번호 3, 5, 7, 9, 및/또는 11의 폴리뉴클레오티드 서열을 포함하는 벡터)를 포함하는 숙주 세포를 제공한다.

본 발명은 또한 유리 인슐린을 제조하는 방법을 제공하고, 이 방법은 i) 본원에 제공된 적어도 하나의 조작된 페니실린 G 아실라아제, 및 A1/B1/B29 트리-페닐 아세테이트 보호기를 포함하는 인슐린을 제공하는 단계; 및 ii) 조작된 페니실린 G 아실라아제가 A1/B1/B29 트리-페닐 아세테이트 보호기를 제거하여 유리 인슐린이 생성되는 조건 하에서, 조작된 페니실린 G 아실라아제를 A1/B1/B29 트리-페닐 아세테이트 보호기를 포함하는 인슐린에 노출시키는 단계를 포함한다, 방법의 일부 실시형태에서, 페니실린 G 아실라아제는 서열번호 2, 4, 6, 8, 10, 및/또는 12와 적어도 약 85%, 약 86%, 약 87%, 약 88%, 약 89%, 약 90%, 약 91%, 약 92%, 약 93%, 약 94%, 약 95%, 약 96%, 약 97%, 약 98%, 약 99%, 또는 그 이상 동일하다. 방법의 일부 실시형태에서, 페니실린 G 아실라아제는 서열번호 2, 4, 6, 8, 10, 및/또는 12와 적어도 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99%, 또는 그 이상 동일하다. 방법의 일부 추가 실시형태에서, 페니실린 G 아실라아제는 서열번호 2, 4, 6, 8, 10, 및/또는 12를 포함한다. 일부 실시형태에서, 조작된 페니실린 G 아실라아제는 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 그 이상의 유리 인슐린을 생성시킨다. 본 발명은 또한 본원에 제공된 방법(들)에 따라 생성된 유리 인슐린을 포함하는 조성물을 제공한다.

도 1은 변이체 1에서 관찰된 기질 억제 활성을 도시한 그래프를 제공한다.
도 2는 7종의 변이체 PGA를 사용해 생성된 유리 인슐린의 양을 도시한 그래프를 제공한다.
도 3은 3종의 변이체 PGA를 사용해 생성된 유리 인슐린의 수율(%)을 도시한 그래프를 제공한다.
도 4는 반응물 중 DMSO의 존재 하에서 3종의 변이체 PGA를 사용해 생성된 유리 인슐린의 수율(%)을 도시한 그래프를 제공한다.

본 발명은 많은 다양한 β-락탐 항생제의 합성에서 핵심 중간체인, 페닐 아세트산 및 6-아미노페니실란산(6-APA)으로 페니실린을 절단할 수 있는 조작된 페니실린 G 아실라아제(PGA)를 제공한다. 구체적으로, 본 발명은 A1/B1/B29 트리-페닐 아세테이트 보호기를 제거하여 유리 인슐린을 방출할 수 있는 조작된 PGA를 제공한다.

대체로 천연 발생 PGA는 알파 서브유닛 및 베타 서브유닛으로 구성된 이종이량체 효소이다. 야생형 PGA는 주변세포질로의 전좌를 매개하는 N-말단 신호 펩티드 및 알파 서브유닛의 C-말단을 베타 서브유닛의 N-말단에 연결시키는 링커 영역을 함유하는, 프리-프로-PGA 폴리펩티드로서 천연적으로 합성된다. 단백질가수분해 프로세싱은 성숙한 이종이량체 효소를 유도한다. 분자간 링커 영역은 또한 효소의 적절한 폴딩을 촉진하는데 기능할 수 있다. 본원에 기술된 PGA는 다양한 변형이 도입되어 이하에 상세하게 기술되는 바와 같은 개선된 효소 특성을 생성시키는 클루이베라 시트로필라(Kluyvera citrophila) 유래의 PGA를 기반으로 한다.

본원에 제공된 설명에서, 단수의 사용은 달리 특정하여 명시하지 않으면 복수(및 그 반대)를 포함한다. 예를 들어, 단수형 "한", "하나" 및 "그"는 명확하게 문맥에서 언급하지 않으면 복수 대상을 포함한다. 유사하게, "포함하다", "포함한다", "포함하는", "포괄하다", "포괄한다", 및 "포괄하는"은 상호교환적일 수 있고 제한하려는 의도가 아니다. 다양한 실시형태의 설명이 용어 "포함하는"을 사용하는 경우, 당업자는 일부 특정예에서, 실시형태가 언어 "실질적으로 이루어지는" 또는 "이루어지는"을 사용해 대안적으로 설명될 수 있다는 것을 이해하게 됨을 더욱 이해해야 한다.

도면, 및 이하의 상세한 설명을 포함하여, 전술한 일반 설명은 오직 예시적이고 설명적이며 본원을 제한하지 않는다. 또한, 본원에서 사용된 표제부는 오직 구성상의 목적이고 기술된 대상 주제를 한정하는 것으로 해석해서는 안된다.

정의

본원에서 사용시, 하기 용어들은 하기 의미를 갖고자 한다.

본원과 관련하여, 본원의 설명에서 사용되는 기술 및 과학 용어는 특별히 달리 정의하지 않으면, 당업자가 통상적으로 이해하는 의미를 갖게된다. 따라서, 하기 용어들은 하기 의미를 갖고자 한다. 본원에 인용된, 모든 특허 및 공개문헌, 그러한 특허 및 출판물 내에 개시된 모든 서열은 명백하게 참조로 포함된다. 달리 언급하지 않으면, 본 발명의 실시는 당업자에게 알려진, 분자 생물학, 발효, 미생물학, 및 관련 분야에서 사용되는 통상의 기술을 포함한다. 본원에서 달리 정의하지 않으면, 본원에서 사용되는 모든 기술 및 과학 용어는 이 발명이 속하는 분야의 숙련가가 통상적으로 이해하는 바와 동일한 의미를 갖는다. 본원에 기술된 것과 유사하거나 또는 균등한 임의의 방법 및 재료가 본 발명의 실시 또는시험에서 사용될 수 있지만, 바람직한 방법 및 재료가 설명된다. 또한, 본 발명은 이들이 사용되는 문맥에 따라서 다양할 수 있으므로, 특정 방법론, 프로토콜, 및 시약에 제한하지 않으려고 한다. 본원에 제공되는 제목은 본 발명의 다양한 측면 또는 실시형태의 제한이 아니다.

그럼에도, 본 발명의 이해를 쉽게 하기 위해서, 많은 용어들을 하기에 정의한다. 수치 범위는 그 범위를 한정하는 수치를 포함한다. 따라서, 본원에 개시된 모든 수치 범위는, 더 좁은 수치 범위가 모두 명시적으로 본원에 기재된 것처럼, 더 넓은 수치 범위에 속하는 그러한 모든 좁은 수치 범위를 포함하고자 한다. 또한 본원에 개시된 모든 최대(또는 최소) 한계는 더 낮은(또는 더 높은) 수치 한계가 명시적으로 본원에 기재된 것처럼, 그러한 모든 더 낮은(또는 더 높은) 수치 한계를 포함하고자 한다.

본원에서 사용시, 용어 "포함하는" 및 이의 동의어는 그들의 포괄하는 의미(즉, 용어 "포괄하는" 및 이의 상응하는 동의어와 동등)로 사용된다.

본원 및 첨부된 청구항에서 사용시, 단수형 "한", "하나" 및 "그"는 명백하게 달리 언급하지 않으면, 복수대상을 포함한다. 따라서, 예를 들어, 한 "숙주 세포"에 대한 언급은 다수의 그러한 숙주 세포를 포함한다.

달리 표시하지 않으면, 각 핵산은 좌측에서 우측으로 5'에서 3' 방향으로 아미노산 서열은 좌측에서 우측으로 아미노에서 카복시 방향으로 기재된다.

본원에 제공되는 제목은 전체로서 명세서에 참조될 수 있는 본 발명의 다양한 측면 또는 실시형태의 제한이 아니다. 따라서, 이하에 정의되는 용어들은 전체로 본 명세서를 참조하여 더욱 상세하게 정의된다.

본원에서 사용시, 용어 "단백질", "폴리펩티드", 및 "펩티드"는 길이 또는 번역후 변형(예를 들어, 당화, 인산화, 지질화, 미리스틸화, 유비퀴틴화 등)과 무관하게, 아미드 결합으로 공유적으로 연결된 적어도 2개 아미노산의 중합체를 의미하기 위해 본원에서 상호교환적으로 사용된다. D-아미노산 및 L-아미노산, 및 D-아미노산과 L-아미노산의 혼합물이 이 정의에 포함된다.

본원에서 사용시, "폴리뉴클레오티드" 및 "핵산"은 함께 공유적으로 연결된 2 이상의 뉴클레오시드를 의미한다. 폴리뉴클레오티드는 전체로 리보뉴클레오시드(즉, RNA)로 구성되거나, 전체로 2' 데옥시리보뉴클레오티드(즉, DNA) 또는 리보뉴클레오시드 및 2' 데옥시리보뉴클레오시드의 혼합물로 구성될 수 있다. 뉴클레오시드가 전형적으로 표준 포스포디에스테르 연결을 통해 함께 연결되지만, 폴리뉴클레오티드는 1 이상의 비표준 연결을 포함할 수 있다. 폴리뉴클레오티드는 단일 가닥이거나 또는 이중 가닥일 수 있거나, 또는 단일 가닥 및 이중 가닥 영역 둘 모두를 포함할 수 있다. 또한, 폴리뉴클레오티드가 전형적으로 천연 발생 코딩 핵염기(즉, 아데닌, 구아닌, 우라실, 티민, 및 시토신)로 구성되는 반면, 1 이상의 변형 및/또는 합성 핵염기(예를 들어, 이노신, 잔틴, 하이포잔틴 등)를 포함할 수 있다. 바람직하게, 그러한 변형 또는 합성 핵염기는 코딩 핵염기이다.

본원에서 사용시, "혼성화 엄격성"은 핵산의 혼성화시, 세척 조건과 같은, 혼성화 조건에 관한 것이다. 일반적으로, 혼성화 반응은 보다 낮은 엄격성 조건 하에서 수행 후, 다양하지만 더 높은 엄격성의 세척이 후속된다. 용어 "중간 정도의 엄격한 혼성화"는 표적 DNA에 대해 약 60% 동일성, 바람직하게 약 75% 동일성, 약 85% 동일성, 표적-뉴클레오티드에 대해 약 90%가 넘는 동일성을 갖는 상보성 핵산과 표적-DNA를 결합할 수 있게 하는 조건을 의미한다. 예시적인 중간 정도의 엄격한 조건은 42℃에 50% 포름아미드, 5×덴하르트 용액, 5×SSPE, 0.2% SDS에서 혼성화 후, 42℃에 0.2×SSPE, 0.2% SDS에서 세척과 동등한 조건이다. "고엄격성 혼성화"는 일반적으로 정해진 폴리뉴클레오티드 서열에 대한 용해 조건 하에서 결정시 열적 용융 온도(T _m )로부터 약 10℃ 또는 그 이하인 조건을 의미한다. 일부 실시형태에서, 고엄격성 조건은 65℃에 0.018 M NaCl 중에서 안정한 하이브리드를 형성하는 오직 그들 핵산 서열의 혼성화를 가능하게 하는 조건을 의미한다(즉, 만약 하이브리드가 65℃에 0.018 M NaCl에서 안정하지 않으면, 본원에서 고려하는 바와 같이, 고엄격성 조건 하에서 안정하지 않음). 고엄격성 조건은 예를 들어, 42℃에 50% 포름아미드, 5×덴하르트 용액, 5×SSPE, 0.2% SDS와 동등한 조건에서 혼성화 후, 65℃에 0.1×SSPE, 및 0.1% SDS에서 세척에 의해 제공될 수 있다. 다른 고엄격성 조건은 65℃에서 0.1%(w:v) SDS를 함유하는 5×SSC에서 혼성화 및 65℃에서 0.1% SDS를 함유하는 0.1×SSC에서 세척과 동일한 조건에서의 혼성화이다. 다른 고엄격성 조건을 비롯하여, 중간 정도의 엄격한 조건은 당업자에게 공지되어 있다.

본원에서 사용시, "코딩 서열"은 단백질의 아미노산 서열을 코딩하는 핵산의 일부(예를 들어, 유전자)를 의미한다.

본원에서 사용시, "코돈 최적화"는 코딩된 단백질이 관심 유기체에서 효과적으로 발현되도록 특정 유기체에서 우선적으로 사용되는 것으로 단백질을 코딩하는 폴리뉴클레오티드 코돈의 변화를 의미한다. 일부 실시형태에서, PGA 효소를 코딩하는 폴리뉴클레오티드는 발현을 위해 선택된 숙주 유기체로부터 최적 생성을 위해 코돈 최적화될 수 있다. 유전자 코돈은 대부분의 아미노산이 "동의성" 또는 "동의" 코돈이라고 불리는, 몇몇 코돈으로 대표되는 축퇴성이지만, 특정 유기체에 의한 코돈 용법은 특정 코돈 트리플렛쪽으로 비임의적이고 편향적이라는 것은 잘 알려져 있다. 이 코돈 용법 편향성은 소정 유전자, 공통 기능 또는 조상 기원의 유전자들, 저카피수 단백질 대비 고발현 단백질, 및 유기체 게놈의 집합 단백질 코딩 영역과 관련하여 더 높을 수 있다. 일부 실시형태에서, PGA 효소를 코딩하는 폴리뉴클레오티드는 발현을 위해 선택된 숙주 유기체로부터 최적 생성을 위해 코돈 최적화될 수 있다.

본원에서 사용시, "바람직한, 최적의, 높은 코돈 용법 편향 코돈"은 동일한 아미노산을 코딩하는 다른 코돈보다 단백질 코딩 영역에서 더 높은 빈도로 사용되는 코돈을 상호교환적으로 의미한다. 바람직한 코돈은 단일 유전자의 코돈 용법, 공통 기능 또는 기원의 유전자 세트, 고도로 발현되는 유전자, 전체 유기체의 집합 단백질 코딩 영역의 코돈 빈도, 관련 유기체의 집합 단백질 코딩 영역의 코돈 빈도, 또는 이의 조합과 관련하여 결정될 수 있다. 그 빈도가 유전자 발현도에 따라 증가되는 코돈이 전형적으로 발현에 최적한 코돈이다. 예를 들어, 군집 분석 또는 대응 분석을 사용하는, 다변량 분석, 및 유전자에서 사용되는 코돈의 유효수를 포함하여, 특정 유기체에서 코돈 빈도(예를 들어, 코돈 용법, 상대적 동의 코돈 용법) 및 코돈 선호도를 결정하기 위한 다양한 방법이 알려져 있다(예를 들어, 하기 문헌들을 참조함: [GCG CodonPreference, Genetics Computer Group Wisconsin Package]; [CodonW, John Peden, University of Nottingham]; [McInerney, Bioinform., 14:372-73 [1998]]; [Stenico et al., Nucleic Acids Res., 222:437-46 [1994]]; 및 [Wright, Gene 87:23-29 [1990]]). 코돈 용법 표들이 증가하는 유기체 목록에 대해 이용가능하다(예를 들어, 하기 문헌들을 참조함; [Wada et al., Nucleic Acids Res., 20:2111-2118 [1992]]; [Nakamura et al., Nucl. Acids Res., 28:292 [2000]]; [Duret, et al., 상동]; [Henaut and Danchin, "Escherichia coli and Salmonella," Neidhardt, et al.(eds.), ASM Press, Washington D.C., [1996], p. 2047-2066]). 코돈 용법을 획득하기 위한 데이터 공급원은 단백질을 코딩할 수 있는 임의의 입수가능한 뉴클레오티드 서열에 의존적일 수 있다. 이들 데이터 세트는 발현되는 단백질을 코딩하는 것으로 실제로 알려진 핵산 서열(예를 들어, 완전한 단백질 코딩 서열-CDS), 발현된 서열 태그(ESTS), 또는 게놈 서열의 예상되는 코딩 영역을 포함한다(예를 들어, 하기 문헌들을 참조함: [Uberbacher, Meth. Enzymol., 266:259-281 [1996]]; [Tiwari et al., Comput. Appl. Biosci., 13:263-270 [1997]]).

본원에서 사용시, "제어 서열"은 본원의 폴리뉴클레오티드 및/또는 폴리펩티드의 발현에 필요하거나 또는 유리한, 모든 성분을 포함하는 것으로 본원에서 정의된다. 각각의 제어 서열은 관심 폴리뉴클레오티드에 천연적이거나 또는 외래적일 수 있다. 그러한 제어 서열은 제한없이, 리더, 폴리아데닐화 서열, 프로펩티드 서열, 프로모터, 신호 펩티드 서열, 및 전사 종결인자를 포함한다.

본원에서 사용시, "작동적으로 연결된"은 제어 서열이 관심 폴리뉴클레오티드에 대한 위치에 적절하게 위치(기능적 관계로)되어서 제어 서열이 관심 폴리뉴클레오티드 및/또는 폴리펩티드의 발현을 지시하거나 또는 조절하는 배열로서 본원에서 정의된다.

본원에서 사용시, "프로모터 서열"은 코딩 서열과 같은, 관심 폴리뉴클레오티드의 발현을 위해 숙주 세포가 인식하는 핵산 서열을 의미한다. 제어 서열은 적절한 프로모터 서열을 포함할 수 있다. 프로모터 서열은 관심 폴리뉴클레오티드의 발현을 매개하는 전사 제어 서열을 함유한다. 프로모터는 돌연변이체, 절단형, 및 하이브리드 프로모터를 포함하는 선택 숙주 세포 내에서 전사 활성을 보이는 임의의 핵산 서열일 수 있고, 숙주 세포에 상동성이거나 또는 이종성인 세포외 또는 세포내 폴리펩티드를 코딩하는 유전자로부터 획득될 수 있다.

본원에서 사용시, "천연 발생" 또는 "야생형"은 자연계에 존재하는 형태를 의미한다. 예를 들어, 천연 발생 또는 야생형 폴리펩티드 또는 폴리뉴클레오티드 서열은 자연계의 공급원에서 단리할 수 있고, 인간 조작으로 의도적으로 변형되지 않은 유기체에 존재하는 서열이다.

본원에서 사용시, (예를 들어, 세포, 핵산, 또는 폴리펩티드)와 관련하여, 본원에서 사용시 본원에서 "비천연 발생", "조작된" 및 "재조합"은 달리 자연계에 존재하지 않는 방식으로 변형된, 재료, 또는 그 재료의 자연 또는 천연 형태에 상응하는 재료를 의미한다. 일부 실시형태에서, 재료는 천연 발생 재료와 동일하지만, 재조합 기술을 사용해 조작되고/되거나 합성 재료로부터 생성 또는 유도된다. 비제한적인 예는 다른 것들 중에서도, 세포의 천연(비재조합) 형태에는 존재하지 않거나 또는 그렇지 않으면 다른 수준으로 발현되는 천연 유전자를 발현하는 유전자를 발현하는 재조합 세포를 포함한다.

본원에서 사용시, "서열 동일성 퍼센트", "동일성 퍼센트", 및 "동일 퍼센트"는 폴리뉴클레오티드 서열 또는 폴리펩티드 서열 간 비교를 의미하고, 비교창 상에서 2종의 최적으로 정렬된 서열을 비교하여 결정되며, 상기 비교창의 폴리뉴클레오티드 또는 폴리펩티드 서열의 일부분은 2개 서열의 최적 정렬을 위한 기준 서열과 비교해 첨가 또는 결실(즉, 갭)을 포함할 수 있다. 퍼센트는 일치하는 위치의 수를 산출하기 위해 핵산 염기 또는 아미노산 잔기를 갭과 정렬시키거나 또는 동일한 핵산 염기 또는 아미노산 잔기가 양쪽 서열에 존재하는 위치의 수를 결정하고, 일치하는 위치의 수를 비교창의 총 위치수로 나누고 그 결과에 100을 곱하여 서열 동일성의 퍼센트를 산출하여 계산된다. 최적 정렬 및 서열 동일성 퍼센트의 결정은 BLAST 및 BLAST 2.0 알고리즘을 사용해 수행된다(예를 들어, 하기 문헌들을 참조함: [Altschul et al., J. Mol. Biol. 215: 403-410 [1990]]; 및 [Altschul et al., Nucl. Acids Res. 3389-3402 [1977]]). BLAST 분석을 수행하기 위한 소프트웨어는 미국립 생명공학 정보 센터의 웹사이트를 통해 공개적으로 입수할 수 있다.

간략하게, BLAST 분석은 데이터베이스 서열 중에서 동일 길이의 단어와 정렬시 일부 양성값 역치 점수(T)와 일치하거나 또는 그를 만족하는 문의 서열의 짧은 단어 길이(W)를 동정하여 높은 점수의 서열쌍(HSP)을 먼저 동정하는 것을 포함한다. T는 이웃 단어 점수 역치라고 한다(Altschul et al., 상동). 이들 초기 이웃 단어 히트는 그들을 함유하는 더 긴 HSP를 찾도록 검색을 개시하기 위한 씨드로서 작용한다. 단어 히트를 누적 정렬 점수가 증가될 수 있는 만큼 멀리 각 서열을 따라 양쪽 방향으로 연장시킨다. 누적 점수는 뉴클레오티드 서열의 경우, 매개변수 M(일치하는 잔기쌍에 대한 보상 점수; 항상 > 0임) 및 N(비일치 잔기에 대한 패널티 점수; 항상 < 0임)을 사용해 계산된다. 아미노산 서열의 경우, 점수 매트릭스가 누적 점수를 계산하는데 사용된다. 각 방향으로 단어 히트의 연장은 누적 정렬 점수가 이의 최대 획득값으로부터 수량 X만큼 감소되고, 누적 점수가 1 이상의 음성 점수 잔기 정렬의 축적으로 인해 0 또는 그 이하가 되거나, 또는 양쪽 서열의 끝에 도달했을 때 중지된다. BLAST 알고리즘 매개변수 W, T, 및 X는 정렬의 감도 및 속도를 결정한다. BLASTN 프로그램(뉴클레오티드 서열의 경우)은 디폴트로서 11의 단어길이(W), 10의 기대치(E), M=5, N=-4, 및 양쪽 가닥의 비교를 사용한다. 아미노산 서열의 경우, BLASTP 프로그램은 디폴트로서 3의 단어 길이(W), 10의 기대치(E), 및 BLOSUM62 점수 매트릭스를 사용한다(예를 들어, 다음의 문헌을 참조함: [Henikoff and Henikoff, Proc Natl Acad Sci USA 89:10915 [1989]]).

2개 서열에 대한 동일성 퍼센트를 제공하는데 BLAST와 유사하게 기능하는 수많은 다른 알고리즘이 당분야에서 이용가능하며 공지되어 있다. 비교를 위한 서열의 최적 정렬은 당분야에 공지된 임의의 적합한 방법을 사용하여, 예를 들어 문헌 [Smith and Waterman, Adv. Appl. Math. 2:482 [1981]]의 국소 상동성 알고리즘, 문헌 [Needleman and Wunsch, J. Mol. Biol. 48:443 [1970]]의 상동성 정렬 알고리즘, 문헌 [Pearson and Lipman, Proc. Natl. Acad. Sci. USA 85:2444 [1988]]의 유사성 방법에 대한 검색; 및/또는 이들 알고리즘([GCG 위스콘신 소프트웨어 패키지의 GAP, BESTFIT, FASTA, 및 TFASTA])의 컴퓨터 수행을 통해서, 또는 당분야에서 일반적으로 알려져 있는 방법을 사용해, 육안 검사에 의해 수행할 수 있다. 추가적으로, 서열 정렬 및 서열 동일성 퍼센트의 결정은 제공된 디폴트 매개변수를 사용해, GCG 위스콘신 소프트웨어 패키지의 BESTFIT 또는 GAP 프로그램(Accelrys, Madison WI)을 채택할 수 있다.

본원에서 사용시, "실질적 동일성"은 적어도 20개 잔기 위치의 비교 창, 빈번하게는 적어도 30-50개 잔기의 창에 걸쳐 기준 서열과 비교시 적어도 80% 서열 동일성, 적어도 85% 동일성 및 89 내지 95% 서열 동일성, 보다 일반적으로 적어도 99% 서열 동일성을 갖는 폴리뉴클레오티드 또는 폴리펩티드 서열을 의미하고, 서열 동일성의 퍼센트는 비교창 상에서 기준 서열의 총 20% 또는 그 미만인 결실 또는 첨가를 포함하는 서열과 기준 서열을 비교하여 계산한다. 폴리펩티드에 적용되는 특정 실시형태에서, 용어 "실질적 동일성"은 2개의 폴리펩티드 서열이, 예컨대 디폴트 갭 가중치를 사용하는 프로그램 GAP 또는 BESTFIT을 사용하여 최적으로 정렬시, 적어도 80% 서열 동일성, 바람직하게 적어도 89% 서열 동일성, 적어도 95% 서열 동일성 또는 그 이상(예를 들어, 99% 서열 동일성)을 공유하는 것을 의미한다. 일부 바람직한 실시형태에서, 동일하지 않은 잔기 위치는 보존성 아미노산 치환이 다르다.

본원에서 사용시, "기준 서열"은 다른 서열을 비교하는 정해진 서열을 의미한다. 기준 서열은 더 큰 서열의 서브셋, 예를 들어 전체 길이 유전자 또는 폴리펩티드 서열의 절편일 수 있다. 일반적으로, 기준 서열은 길이가 적어도 20개 뉴클레오티드 또는 아미노산 잔기, 적어도 25개 잔기 길이, 적어도 50개 잔기 길이, 또는 전체 길이의 핵산 또는 폴리펩티드이다. 2개 폴리뉴클레오티드 또는 폴리펩티드가 각각( 1) 2개 서열 간에 유사한 서열(즉, 완전한 서열의 일부)을 포함하고, (2) 2개 서열 간에 다른 서열을 더 포함할 수 있으므로, 2(또는 그 이상의) 폴리뉴클레오티드 또는 폴리펩티드 간 서열 비교는 전형적으로 서열 유사성의 국소 영역을 동정하고 비교하기 위한 비교창 상에서 2개 폴리뉴클레오티드의 서열을 비교하여 수행된다. 용어 "기준 서열"은 야생형 서열에 국한하려는 것이 아니고, 조작되거나 또는 변경된 서열을 포함할 수 있다. 예를 들어, 일부 실시형태에서, "기준 서열"은 사전에 조작되거나 또는 변경된 아미노산 서열일 수 있다.

본원에서 사용시, "비교창"은 적어도 약 20개의 인접하는 뉴클레오티드 위치 또는 아미노산 잔기의 개념적 절편을 의미하고 여기서 서열은 적어도 20개의 인접하는 뉴클레오티드 또는 아미노산의 기준 서열과 비교될 수 있고 비교창 내 서열의 일부분은 2개 서열의 최적 정렬을 위해 기준 서열(첨가 또는 결실을 포함하지 않음)과 비교하여 20% 또는 그 미만의 첨가 또는 결실(즉, 갭)을 포함할 수 있다. 비교창은 20개보다 긴 연속 잔기일 수 있고, 경우에 따라, 30, 40, 50, 100, 또는 그 보다 긴 창을 포함할 수 있다.

본원에서 사용시, 소정 아미노산 또는 폴리뉴클레오티드 서열의 번호매김과 관련하여 사용시, "∼에 상응하는", "∼와 관련하여", 및 "∼에 대해서"는 소정 아미노산 또는 폴리뉴클레오티드 서열을 기준 서열과 비교하는 경우 특정 기준 서열의 잔기의 번호매김을 의미한다. 달리 말하면, 소정 중합체의 잔기 번호 또는 잔기 위치는 소정 아미노산 또는 폴리뉴클레오티드 서열 내 잔기의 실제 번호 위치보다는 기준 서열에 대해 지정된다. 예를 들어, 소정 아미노산 서열 예컨대 조작된 PGA의 아미노산 서열은 2개 서열 간 잔기 일치를 최적화하기 위해 갭을 도입시켜 기준 서열에 대해 정렬시킬 수 있다. 이러한 경우들에서, 갭이 존재하더라도, 소정 아미노산 또는 폴리뉴클레오티드 서열 내 잔기의 번호매김은 정렬시킨 기준 서열에 대해 이루어진다. 본원에서 사용시, 잔기 위치에 대한 언급, 예컨대 이하에 더 기술되는 "Xn"은 달리 특별히 언급하지 않으면, "∼에 상응하는 잔기'를 의미하는 것으로 이해한다. 따라서, 예를 들어, "X94"는 폴리펩티드 서열에서 위치 94의 임의 아미노산을 의미한다.

본원에서 사용시, "개선된 효소 특성"은 기준 PGA와 비교하여 임의의 효소 특성에 개선을 나타내는 PGA를 의미한다. 본원에 기술된 조작된 PGA 폴리펩티드의 경우, 비교는 일반적으로 야생형 PGA 효소에 대해 이루어지지만, 일부 실시형태에서, 기준 PGA는 다른 개선된 조작된 PGA일 수 있다. 개선이 바람직할 수 있는 효소 특성은 제한없이, 효소 활성(특정량의 PGA를 사용한 특정 반응 시간에서 기질의 전환율(%) 관점에서 표현할 수 있음), 열 안정성, 용매 안정성, pH 활성 프로파일, 보조인자 요구성, 억제제에 대한 무반응성(예를 들어, 생성물 억제), 입체특이성 및 입체선택성(거울상 선택성)을 포함한다.

본원에서 사용시, "증가된 효소 활성"은 기준 PGA 효소와 비교하여 비활성(예를 들어, 생성된 생성물/시간/단백질 중량)의 증가 또는 기질에서 생성물로의 전환율(예를 들어, 특정량의 PGA를 사용한 특정 시기 동안 생성물로의 기질의 출발량의 전환율)의 증가로 대표될 수 있는, 조작된 PGA 폴리펩티드의 개선된 특성을 의미한다. 효소 활성을 결정하는 예시적인 방법은 실시예에서 제공한다. 효소 활성과 관련된 임의 특성은 K _m , V _max 또는 k _cat 의 고전적인 효소 특성을 포함하여, 증가된 효소 활성을 유발시킬 수 있는 변화에 의해 영향받을 수 있다. 효소 활성의 개선은 상응하는 야생형 PGA 효소의 효소 활성의 약 1.5배부터, 천연 발생 PGA 또는 PGA 폴리펩티드가 유도된 다른 조작된 PGA보다 2배, 5배, 10배, 20배, 25배, 50배, 75배, 100배, 또는 그 이상까지의 효소 활성일 수 있다. 특정 실시형태에서, 조작된 PGA 효소는 부모 PGA 효소보다 1.5 내지 50배, 1.5 내지 100배 범위의 더 큰 개선된 효소 활성을 나타낸다. 임의 효소의 활성은 확산이 제한적이어서 촉매 턴오버 속도가 임의의 필요한 보조인자를 포함하여, 기질의 확산 속도를 넘을 수 없다는 것을 당업자는 이해한다. 확산 한계, 또는 k _cat /K _m 의 이론적 최대값은 대체로 약 10⁸ 내지 10⁹(M^-1 s^-1)이다. 따라서, PGA의 효소 활성의 임의 개선은 PGA 효소에 작용하는 기질의 확산 속도와 관련된 최대 한계를 가지게 된다. PGA 활성은 페니실린 G의 절단 시 페닐아세트산의 방출을 측정하기 위해 사용되는 표준 검정법 중 어느 하나, 예컨대 적정법에 의해 측정할 수 있다(예를 들어, 다음의 문헌을 참조함: [Simons and Gibson, Biotechnol. Tech.,13:365-367 [1999]]). 일부 실시형태에서, PGA 활성은 절단 생성물 5-아미노-2-니트로-벤조산을 분광광도법으로 검출가능한(λmax = 405 nm), 6-니트로페닐아세타미도 벤조산(NIPAB)을 사용해 측정할 수 있다. 효소 활성의 비교는 본원에 상세하게 추가로 설명되는 바와 같은, 정해진 효소 조제물, 설정 조건 하에서 정해진 검정법, 및 1 이상의 정해진 기질을 사용해 이루어진다. 일반적으로, 용해물을 비교하는 경우, 숙주 세포에 의해 생성되고 용해물에 존재하는 효소량의 변동을 최소화하기 위해 동일한 발현 시스템 및 동일한 숙주 세포의 사용을 비롯하여 세포의 수 및 검정되는 단백질의 양을 결정한다.

본원에서 사용시, "증가된 효소 활성" 및 "증가된 활성"은 본원에 기술된 바와 같이 기준 효소와 비교하여 비활성(예를 들어, 생성된 생성물/시간/단백질 중량)의 증가 또는 생성물로의 기질의 전환율(예를 들어, 특정량의 PGA를 사용하여 특정 시기에 기질의 출발량의 생성물로의 전환율)의 증가로 나타낼 수 있는, 조작된 효소의 개선된 특성을 의미한다. 효소 활성과 관련된 임의 특성은 K_m, V_max 또는 k_cat의 고전적인 효소 특성을 포함하여, 증가된 효소 활성을 유발시킬 수 있는 변화에 영향을 줄 수 있다. 일부 실시형태에서, 본원에서 제공하는 PGA 효소는 인슐린의 특정 잔기로부터 트리-페닐 아세테이트 보호기를 제거하여 인슐린을 유리시킨다. 효소 활성의 비교는 본원에서 상세하게 더 설명하는 바와 같이, 효소의 정해진 조제물, 설정 조건 하의 정해진 검정법, 및 1 이상의 정해진 기질을 사용해 이루어진다. 일반적으로, 세포 용해물의 효소를 비교하는 경우, 숙주 세포에 의해 생성되고 용해물에 존재하는 효소량의 변동을 최소화하기 위해 동일한 발현 시스템 및 동일한 숙주 세포의 사용을 비롯하여 검정되는 단백질의 양 및 세포의 수를 결정한다.

본원에서 사용시, "전환"은 상응하는 생성물로 기질의 효소적 변환을 의미한다.

본원에서 사용시, "전환율"은 특정 조건 하에서 일정 기간 내 생성물로 전환되는 기질의 백분율을 의미한다. 따라서, 예를 들어, PGA 폴리펩티드의 "효소 활성" 또는 "활성"은 생성물로의 기질의 "전환율"로서 표현될 수 있다.

본원에서 사용시, "화학선택성"은 화학 또는 효소 반응에서 다른 것보다 한 생성물의 우선적 형성을 의미한다.

본원에서 사용시, "열안정한" 및 "열적 안정한"은 미처리 효소와 비교하여 일정 기간(예를 들어, 0.5-24시간) 동안 온도 조건 세트(예를 들어, 40-80℃)에 노출시 불활성화에 내성이어서, 상승된 온도에 노출 후에 일정 수준의 잔류 활성(예를 들어, 60% 내지 80% 초과)을 보유하는 폴리펩티드를 의미하기 위해 상호교환적으로 사용된다.

본원에서 사용시, "용매 안정한"은 미처리 효소와 비교하여 일정 시간(예를 들어, 0.5-24시간) 동안 용매(예를 들어, 이소프로필 알콜, 테트라히드로퓨란, 2-메틸테트라히드로퓨란, 아세톤, 톨루엔, 부틸아세테이트, 메틸 tert-부틸에테르 등)의 다양한 농도(예를 들어, 5-99%)에 노출 후 유사한 활성(예를 들어, 60% 내지 80% 초과)을 유지하는 폴리펩티드의 능력을 의미한다.

본원에서 사용시, "pH 안정한"은 미처리 효소와 비교하여 일정 시간(예를 들어, 0.5-24시간) 동안 높거나 낮은 pH(예를 들어, 4.5-6 또는 8 내지 12)에 노출 후 유사한 활성(예를 들어, 60% 내지 80% 초과)을 유지하는 PGA 폴리펩티드를 의미한다.

본원에서 사용시, "열 및 용매 안정한"은 열적 안정하고 용매 안정한 PGA 폴리펩티드를 의미한다.

본원에서 사용시, "친수성 아미노산 또는 잔기"는 Eisenberg 등의 정규화된 공통 소수성 스케일에 따라서 0 미만의 소수성을 나타내는 측쇄를 갖는 아미노산 또는 잔기를 의미한다(Eisenberg et al., J. Mol. Biol., 179:125-142 [1984]). 유전적으로 코딩되는 친수성 아미노산은 L-Thr(T), L-Ser(S), L-His(H), L-Glu(E), L-Asn(N), L-Gln(Q), L-Asp(D), L-Lys(K) 및 L-Arg(R)을 포함한다.

본원에서 사용시, "산성 아미노산 또는 잔기"는 아미노산이 펩티드 또는 폴리펩티드에 포함될 때 약 6보다 낮은 pK 값을 나타내는 측쇄를 갖는 친수성 아미노산 또는 잔기를 의미한다. 산성 아미노산은 전형적으로 수소 이온의 손실로 인해 생리학적 pH에서 음으로 하전된 측쇄를 갖는다. 유전적으로 코딩되는 산성 아미노산은 L-Glu(E) 및 L-Asp(D)를 포함한다.

본원에서 사용시, "염기성 아미노산 또는 잔기"는 아미노산이 펩티드 또는 폴리펩티드에 포함될 때 약 6보다 큰 pK 값을 나타내는 측쇄를 갖는 친수성 아미노산 또는 잔기를 의미한다. 염기성 아미노산은 전형적으로 히드로늄 이온과의 회합으로 인해 생리적 pH에서 양으로 하전된 측쇄를 갖는다. 유전적으로 코딩되는 염기성 아미노산은 L-Arg(R) 및 L-Lys(K)을 포함한다.

본원에서 사용시, "극성 아미노산 또는 잔기"는 생리적 pH에서 하전되지 않지만, 2개 원자가 공통으로 공유하는 전자쌍이 원자 중 하나에 의해 더 밀접하게 유지되는 적어도 하나의 결합을 갖는 측쇄를 갖는 친수성 아미노산 또는 잔기를 의미한다. 유전적으로 코딩되는 극성 아미노산은 L-Asn(N), L-Gln(Q), L-Ser(S) 및 L-Thr(T)을 포함한다.

본원에서 사용시, "소수성 아미노산 또는 잔기"는 Eisenberg 등의 정규화된 공통 소수성 스케일에 따라서 0보다 큰 소수성을 나타내는 측쇄를 갖는 아미노산 또는 잔기를 의미한다(Eisenberg et al., J. Mol. Biol., 179:125-142 [1984]). 유전적으로 코딩되는 소수성 아미노산은 L-Pro(P), L-Ile(I), L-Phe(F), L-Val(V), L-Leu(L), L-Trp(W), L-Met(M), L-Ala(A) 및 L-Tyr(Y)을 포함한다.

본원에서 사용시, "방향족 아미노산 또는 잔기"는 적어도 하나의 방향종 또는 헤테로방향족 고리를 포함하는 측쇄를 갖는 친수성 또는 소수성 아미노산 또는 잔기를 의미한다. 유전적으로 코딩되는 방향족 아미노산은 L-Phe(F), L-Tyr(Y) 및 L-Trp(W)을 포함한다. 이의 헤테로방향족 질소 원자의 pKa 덕분에 L-His(H)은 때때로 염기성 잔기로 분류되거나, 또는 이의 측쇄가 헤테로방향족 고리를 포함하므로 방향족 잔기로 분류되지만, 본원에서 히스티딘은 친수성 잔기 또는 "속박 잔기"(이하 참조)로서 분류된다.

본원에서 사용시, "속박 아미노산 또는 잔기"는 속박된 기하학적 구조를 갖는 아미노산 또는 잔기를 의미한다. 본원에서 속박 잔기는 L-Pro(P) 및 L-His(H)을 포함한다. 히스티딘은 상대적으로 작은 이미다졸 고리를 갖기 때문에 속박된 기하학적 구조를 갖는다. 프롤린은 역시 5원 고리를 갖기 때문에 속박된 기하학적 구조를 갖는다.

본원에서 사용시, "비극성 아미노산 또는 잔기"는 2개 원자가 공통으로 공유하는 전자쌍을 일반적으로 2개 원자 각각이 동일하게 유지하는 결합을 가지며 생리적 pH에서 비하전된 측쇄(즉, 측쇄가 극성이 아님)를 갖는 소수성 아미노산 또는 잔기를 의미한다. 유전적으로 코딩된 비극성 아미노산은 L-Gly(G), L-Leu(L), L-Val(V), L-Ile(I), L-Met(M) 및 L-Ala(A)을 포함한다.

본원에서 사용시, "지방족 아미노산 또는 잔기"는 지방족 탄화수소 측쇄를 갖는 소수성 아미노산 또는 잔기를 의미한다. 유전적으로 코딩되는 지방족 아미노산은 L-Ala(A), L-Val(V), L-Leu(L) 및 L-Ile(I)을 포함한다.

시스테인(또는 "L-Cys" 또는 "[C]")은 다른 L-Cys(C) 아미노산 또는 다른 설파닐- 또는 설프히드릴-함유 아미노산과 이황화 결합을 형성할 수 있다는 점에서 흔치않다는 것을 주목한다. "시스테인-유사 잔기"는 이황화 결합의 형성에 이용할 수 있는 설프히드릴 모이어티를 함유하는 다른 아미노산과 시스테인을 포함한다. 환원된 유리 -SH 또는 산화된 이황화-결합 형태의 펩티드로 존재하는 L-Cys(C)(및 -SH 함유 측쇄를 갖는 다른 아미노산)의 능력은 L-Cys(C)이 펩티드에 대한 순 소수성 또는 친수성 특징에 기여하는지 여부에 영향을 준다. L-Cys(C)이 Eisenberg(Eisenberg et al., 1984, 상동)의 정규화된 공통 스케일에 따라서 0.29의 소수성을 나타내는 반면, 본원의 목적을 위해 L-Cys(C)은 그 자체의 고유한 군으로 분류된다는 것을 이해해야 한다.

본원에서 사용시, "소형 아미노산 또는 잔기"는 총 3개 또는 그 이하의 탄소 및/또는 이종원자(α-탄소 및 수소 배제)로 구성된 측쇄를 갖는 아미노산 또는 잔기를 의미한다. 소형 아미노산 또는 잔기는 상기 정의에 따라서, 지방족, 비극성, 극성 또는 산성 소형 아미노산 또는 잔기로서 더 분류될 수 있다. 유전적으로 코딩된 소형 아미노산은 L-Ala(A), L-Val(V), L-Cys(C), L-Asn(N), L-Ser(S), L-Thr(T) 및 L-Asp(D)를 포함한다.

본원에서 사용시, "히드록실-함유 아미노산 또는 잔기"는 히드록실(-OH) 모이어티를 함유하는 아미노산을 의미한다. 유전적으로 코딩된 히드록실-함유 아미노산은 L-Ser(S), L-Thr(T) 및 L-Tyr(Y)을 포함한다.

본원에서 사용시, "아미노산 차이" 및 "잔기 차이"는 기준 서열 내 상응하는 위치의 아미노산 잔기에 대한 폴리펩티드 서열의 위치에서 아미노산 잔기의 차이를 의미한다. 아미노산 차이의 위치는 일반적으로 본원에서 "Xn"이라고 하며, 여기서 n은 잔기 차이를 기반으로 하는 기준 서열 내 상응하는 위치를 의미한다. 예를 들어, "서열번호 2와 비교시 위치 X40에서 잔기 차이"는 서열번호 2의 위치 40에 상응하는 폴리펩티드 위치에서 아미노산 잔기의 차이를 의미한다. 따라서, 서열번호 2의 기준 폴리펩티드가 위치 40에 히스티딘을 가지면, "서열번호 2와 비교시 위치 X40에서 잔기 차이"는 서열번호 2의 위치 40에 상응하는 폴리펩티드의 위치에서 히스티딘 이외의 임의 잔기의 아미노산 치환을 의미한다. 본원의 대부분의 예에서, 위치에서 특정 아미노산 잔기 차이는 "XnY"로 표시되며 여기서 "Xn"은 상기 기술된 바와 같이 상응하는 위치를 특정하고, "Y"는 조작된 폴리펩티드에 존재하는 아미노산의 단일 글자 식별자이다(즉, 기준 폴리펩티드와 다른 잔기). 일부 예에서, 본원은 또한 통상의 표기법 "AnB"로 표시된 특정 아미노산 차이를 제공하고, 여기서 A는 기준 서열 내 잔기의 단일 글자 식별자이고, "n"은 기준 서열 내 잔기 위치의 번호이고, B는 조작된 폴리펩티드의 서열 내 잔기 치환의 단일 글자 식별자이다. 일부 예에서, 본원의 폴리펩티드는 잔기 차이가 기준 서열에 대해 존재하는 특정 위치의 목록으로 표시되는, 기준 서열에 대한 1 이상의 아미노산 잔기 차이를 포함할 수 있다. 일부 실시형태에서, 1개가 넘는 아미노산이 폴리펩티드의 특정 잔기 위치에 사용될 수 있는 경우, 사용될 수 있는 다양한 아미노산 잔기는 "/"로 분리된다(예를 들어, X192A/G). 본원은 보존성 및 비보존성 아미노산 치환 중 하나 또는 둘 모두를 포함하는 1 이상의 아미노산 차이를 포함하는 조작된 폴리펩티드 서열을 포함한다. 본원의 서열 목록에 포함되는 특정 재조합 카본산 언히드라제 폴리펩티드의 아미노산 서열은 개시 메티오닌(M) 잔기(즉, M은 잔기 위치 1을 나타냄)를 포함한다. 그러나, 당업자는 이러한 개시 메티오닌 잔기가 생물학적 프로세싱 조직, 예컨대 숙주 세포 또는 시험관내 번역 시스템에서 제거되어서, 개시 메티오닌 잔기가 결여되었지만 효소의 특성은 유지하는 성숙한 단백질을 생성시킬 수 있다는 것을 이해한다. 결과적으로, 본원에서 사용시 "Xn에서 서열번호 2에 대한 아미노산 잔기 차이"는 위치 "Xn" 또는 출발 메티오닌을 결여시키도록 프로세싱된 기준 서열 내 상응하는 위치(예를 들어, 위치(X-1)n)를 의미한다.

본원에서 사용시, 어구 "보존성 아미노산 치환"은 유사한 측쇄를 갖는 잔기의 상호교환성을 의미하여서, 전형적으로 아미노산의 동일하거나 또는 유사한 정해진 부류 내에 아미노산으로 폴리펩티드 내 아미노산의 치환을 포함한다. 제한없이 예로서, 일부 실시형태에서, 지방족 측쇄를 갖는 아미노산은 다른 지방족 아미노산(예를 들어, 알라닌, 발린, 류신, 및 이소류신)으로 치환되고/되거나, 히드록실 측쇄를 갖는 아미노산은 히드록실 측쇄를 갖는 다른 아미노산(예를 들어, 세린 및 트레오닌)으로 치환되고/되거나, 방향족 측쇄를 갖는 아미노산은 방향족 측쇄를 갖는 다른 아미노산(예를 들어, 페닐알라닌, 티로신, 트립토판, 및 히스티딘)으로 치환되고/되거나, 염기성 측쇄를 갖는 아미노산은 염기성 측쇄를 갖는 다른 아미노산(예를 들어, 리신 및 아르기닌)으로 치환되고/되거나, 산성 측쇄를 갖는 아미노산은 산성 측쇄를 갖는 다른 아미노산(예를 들어, 아스파르트산 또는 글루탐산)으로 치환되고/되거나, 소수성 또는 친수성 아미노산은 각각 다른 소수성 또는 친수성 아미노산으로 치환된다. 예시적인 보존성 치환은 표 1에 제공한다.

본원에서 사용시, 어구 "비보존성 치환"은 유의하게 다른 측쇄 측성을 갖는 아미노산으로 폴리펩티드 내 아미노산의 치환을 의미한다. 비보존성 치환은 정해진 군 안에서 보다는, 그 사이의 아미노산을 사용할 수 있고, (a) 치환 영역 내 펩티드 골격의 구조(예를 들어, 글리신에 대해 프롤린), (b) 전하 또는 소수성, 또는 (c) 측쇄의 부피에 영향을 줄 수 있다. 제한없이, 예로서, 예시적인 비보존성 치환은 염기성 또는 지방족 아미노산으로 치환된 산성 아미노산, 소형 아미노산으로 치환된 방향족 아미노산, 및 소수성 아미노산으로 치환된 친수성 아미노산일 수 있다.

본원에서 사용시, "결실"은 기준 폴리펩티드로부터 1 이상의 아미노산의 제거에 의한 폴리펩티드의 변형을 의미한다. 결실은 효소 활성을 유지하고/하거나 조작된 효소의 개선된 특성을 유지하면서 1개 이상의 아미노산, 2개 이상의 아미노산, 5개 이상의 아미노산, 10개 이상의 아미노산, 15개 이상의 아미노산, 또는 20개 이상의 아미노산, 아미노산 총 개수의 최대 10%, 또는 폴리펩티드를 구성하는 아미노산의 총 개수의 최대 20%의 제거를 포함할 수 있다. 결실은 폴리펩티드의 내부 부분 및/또는 말단 부분에 대해 지정될 수 있다. 다양한 실시형태에서, 결실은연속되는 절편을 포함할 수 있거나 또는 비연속적일 수 있다.

본원에서 사용시, "삽입"은 기준 폴리펩티드에 1 이상의 아미노산의 첨가에 의한 폴리펩티드의 변형을 의미한다. 일부 실시형태에서, 개선된 조작된 PGA 효소는 천연 발생 PGA 폴리펩티드에 1 이상의 아미노산의 삽입을 비롯하여 조작된 PGA 폴리펩티드에 1 이상의 아미노산의 삽입을 포함한다. 삽입은 폴리펩티드의 내부 부분에 있을 수 있거나, 또는 카복시 또는 아미노 말단에 될 수 있다. 본원에서 사용시 삽입은 당분야에 공지된 바와 같은 융합 단백질을 포함한다. 삽입은 아미노산의 인접한 절편일 수 있거나 또는 천연 발생 폴리펩티드 내 1 이상의 아미노산에 의해 이격될 수 있다.

용어 "아미노산 치환 세트" 또는 "치환 세트"는 기준 서열과 비교시, 폴리펩티드 서열 내 아미노산 치환군을 의미한다. 치환 세트는 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 또는 그 이상의 아미노산 치환을 가질 수 있다. 일부 실시형태에서, 치환 세트는 실시예에 제공된 표에 열거된 변이체 PGA 중 어느 하나에 존재하는 아미노산 치환 세트를 의미한다.

본원에서 사용시, "단편"은 아미노-말단 및/또는 카복시-말단 결실을 갖지만, 나머지 아미노산 서열은 서열 내 상응하는 위치와 동일한 폴리펩티드를 의미한다. 단편은 전형적으로, 전체 길이 PGA 폴리펩티드, 예를 들어, 서열번호 2의 폴리펩티드의 약 80%, 약 90%, 약 95%, 약 98%, 또는 약 99%를 가질 수 있다. 일부 실시형태에서, 단편은 "생물학적으로 활성"이다(즉, 전체 길이 서열과 동일한 효소 활성을 나타냄).

본원에서 사용시, "단리된 폴리펩티드"는 그와 자연적으로 동반되는 다른 오염물, 예를 들어 단백질, 지질 및 폴리뉴클레오티드로부터 실질적으로 분리된 폴리펩티드를 의미한다. 이 용어는 그들의 천연 발생 환경 또는 발생 시스템(예를 들어, 숙주 세포 또는 시험관 내 합성)으로부터 제거되거나 또는 정제된 폴리펩티드를 포함한다. 개선된 PGA 효소는 세포 내에 존재하거나, 세포 매질에 존재하거나, 또는 다양한 형태, 예컨대 용해물 또는 단리된 조제물로 제조될 수 있다. 이와 같이, 일부 실시형태에서, 본원의 조작된 PGA 폴리펩티드는 단리된 폴리펩티드일 수 있다.

본원에서 사용시, "실질적으로 순수한 폴리펩티드"는 그 폴리펩티드 종이 존재하는 우세한 종(즉, 몰 농도 또는 중량 기준으로 조성물 중 임의의 다른 개별 거대 분자 종보다 더 풍부)인 조성물을 의미하고, 대상 종이 몰 농도 또는 중량% 기준으로 존재하는 거대 분자 종의 적어도 약 50%를 포함할 때 대체로 실질적으로 정제된 조성물이다. 대체로, 실질적으로 순수한 조작된 PGA 폴리펩티드 조성물은 조성물에 존재하는 몰 농도 또는 중량% 기준으로 전체 거대분자 종의 약 60% 또는 그 이상, 약 70% 또는 그 이상, 약 80% 또는 그 이상, 약 90% 또는 그 이상, 약 91% 또는 그 이상, 약 92% 또는 그 이상, 약 93% 또는 그 이상, 약 94% 또는 그 이상, 약 95% 또는 그 이상, 약 96% 또는 그 이상, 약 97% 또는 그 이상, 약 98% 또는 그 이상, 또는 약 99%를 포함한다. 용매 종, 소형 분자(< 500 달톤), 및 원소 이온 종은 거대분자 종으로 간주하지 않는다. 일부 실시형태에서, 단리된 개선된 PGA 폴리펩티드는 실질적으로 순수한 폴리펩티드 조성물이다.

본원에서 사용시, 핵산 또는 폴리펩티드와 관련하여 사용시, 용어 "이종성"은 유기체(예를 들어, 야생형 유기체)에 의해 정상적으로 발현 및 분비되지 않는 서열을 의미한다. 일부 실시형태에서, 이 용어는 자연계에서 정상적으로 존재하는것과 서로 동일한 관계로 존재하지 않는 2 이상의 서브서열을 포함하거나, 또는 재조합적으로 조작되어서 이의 발현도, 또는 세포 내에서 다른 핵산 또는 다른 분자와의 물리적 관계, 또는 구조가 자연계에 정상적으로 존재하지 않는 서열을 포함한다. 예를 들어, 이종성 핵산은 전형적으로, 자연계에 존재하지 않는 방식으로 배열된 미관련 유전자로부터의 2 이상의 서열을 갖게, 재조합적으로 생성된다(예를 들어, 발현 카세트, 예컨대 벡터에 삽입된 프로모터 서열에 작동적으로 연결된 본 발명의 핵산 오픈 리딩 프레임(ORF)). 일부 실시형태에서, "이종성 폴리뉴클레오티드"는 실험실 기술에 의해 숙주 세포에 도입된 임의의 폴리뉴클레오티드를 의미하고, 숙주 세포로부터 분리되어, 실험실 조작이 가해진 후, 숙주 세포에 다시 도입된 폴리뉴클레오티드를 포함한다.

본원에서 사용시, "적합한 반응 조건"은 본원의 PGA 폴리펩티드가 트리-페닐 아세테이트 보호기를 제거하여 유리 인슐린을 방출할 수 있는 생물촉매 반응 용액 중의 조건들(예를 들어, 효소 적재량, 기질 적재량, 보조인자 적재량, 온도, pH, 완충액, 공용매 등의 범위)을 의미한다. 예시적인 "적합한 반응 조건"은 본원에서 제공하고 실시예로 예시한다.

본원에서 사용시, "적재량(loading)", 예컨대 "화합물 적재량", "효소 적재량", 또는 "보조인자 적재량"은 반응의 출발 시 반응 혼합물 중 성분의 농도 또는 양을 의미한다.

본원에서 사용시, 생물촉매 매개 과정에서 "기질"은 생물촉매에 의해 작용되는 화합물 또는 분자를 의미한다.

본원에서 사용시, 생물촉매 매개 과정에서 "생성물"은 생물촉매의 작용 결과에 의한 화합물 또는 분자를 의미한다.

본원에서 사용시, 본원에서 사용시 "평형"은 화학 또는 효소 반응의 정반응 속도 상수 및 역반응 속도 상수로 결정시, 입체이성질체의 상호전환을 포함하여, 화학 또는 효소 반응(예를 들어, 2개 종 A 및 B의 상호전환)의 화학 종의 정상 상태 농도를 야기시키는 과정을 의미한다.

본원에서 사용시 "아실라아제" 및 "아실트랜스퍼라제"는 아실 기를 도너에서 억셉터에게 전달하여 에스테르 또는 아미드를 형성할 수 있는 효소를 의미하기 위해 상호교환적으로 사용된다. 아실라아제 매개 역반응은 에스테르 또는 아미드의 가수분해를 일으킨다.

본원에서 사용시, "페니실린 G" 및 "벤질페니실린"은 (2S,5R,6R)-3,3-디메틸-7-옥소-6-(2-페닐아세타미도)-4-티아-1-아자비시클로[3.2.0]헵탄-2-카복실산(C₁₆H₁₈N₂O₄S)이라고도 알려진 항생제를 의미한다. 이는 그람 양성 유기체에 주로 효과적이지만, 일부 음성 유기체도 이에 감수성이다.

본원에서 사용시, "페니실린 G 아실라아제" 및 "PGA"는 페닐아세트산(PHA) 및 6-아미노페니실란산(6-APA)으로 페니실린 G(벤질페니실린)의 절단을 매개할 수 있는 능력을 갖는 효소를 의미하기 위해 상호교환적으로 사용된다. 일부 실시형태에서, PGA 활성은 모델 기질의 절단, 예를 들어, 페닐아세트산 및 5-아미노-2-니트로-벤조산으로 6-니트로-3-(페닐아세타미드)벤조산의 절단을 기반으로 할 수 있다. PGA는 또한 아실 도너의 아실 기를 아실 억셉터에게 전달하는 역반응을 수행할 수 있다. 본원에서 사용시 PGA는 인간 천연 발생(야생형) PGA를 비롯하여 인간 조작에 의해 생성된 1 이상의 조작된 폴리펩티드를 포함하는 비천연 발생 PGA 효소를 포함한다. 야생형 PGA 유전자는 54개 아미노산의 스페이서 영역에 의해 연결된 알파 서브유닛(23.8 KDa) 및 베타 서브유닛(62.2KDa)으로 이루어진 이종이량체이다. 스페이서 영역의 존재로 인해, 자가 프로세싱 단계가 활성 단백질을 형성하는데 필요하다.

본원에서 사용시, "아실 도너"는 아실 기를 아실 억셉터에 제공하여 에스테르 또는 아미드를 형성하는 아실라아제 기질의 일부를 의미한다.

본원에서 사용시, "아실 억셉터"는 아실 도너의 아실 기를 수용하여 에스테르 또는 아미드를 형성하는 아실라아제 기질의 일부를 의미한다.

본원에서 사용시,"α-사슬 서열"은 서열번호 2의 위치 27 내지 235에서의 잔기에 상응하는(예를 들어, 적어도 85% 동일성을 갖는) 아미노산 서열을 의미한다. 본원에서 사용시, 단일 사슬 폴리펩티드는 "α-사슬 서열" 및 추가 서열(들)을 포함할 수 있다.

본원에서 사용시, "β-사슬 서열"은 서열번호 2의 위치 290 내지 846에서의 잔기에 상응하는(예를 들어, 적어도 85% 동일성을 갖는) 아미노산 서열을 의미한다. 본원에서 사용시, 단일 사슬 폴리펩티드는 "β-사슬 서열" 및 추가 서열(들)을 포함할 수 있다.

본원에서 사용시, 조작된 PGA 효소에서 사용시 "∼에서 유도된"은 조작에서 기반으로 한, 유래된 PGA 효소, 및/또는 그러한 PGA 효소를 코딩하는 유전자를 동정한다. 예를 들어, 서열번호 60의 조작된 PGA 효소는 다수의 세대 동안, 서열번호 2의 케이. 시트로필라 PGA 알파-사슬 및 베타-사슬을 코딩하는 유전자를 인공적으로 진화시켜 획득하였다. 따라서, 이러한 조작된 PGA 효소는 서열번호 2의 천연 발생 또는 야생형 PGA"로부터 유도된다".

본원에서 사용시, "인슐린"은 정상 개체 내 췌장의 베타-세포에 의해 생성되는 폴리펩티드 호르몬을 의미한다. 인슐린은 혈당 수준을 감소시켜서, 탄수화물 물질대사를 조절하는데 필수적이다. 인슐린의 조직적 결핍은 당뇨병을 초래한다. 인슐린은 51개 아미노산으로 구성되고 분자량이 대략 5800 달톤이다. 인슐린은 하나의 서브유닛내 및 2개의 서브유닛간 이황화 결합을 함유하는, 2개 펩티드 사슬("A" 및 "B"라고 명명함)로 구성된다. A 사슬은 21개 아미노산으로 구성되고 B 사슬은 30개 아미노산으로 구성된다. 2개 사슬은 고도로 정돈된 구조를 형성하고, 몇몇 알파-나선 영역이 A 및 B 사슬 둘 모두에 있다. 단리된 사슬은 불활성이다. 용액에서, 인슐린은 단량체, 이량체 또는 육량체이다. 피하 주사에 사용되는 고농축 조제물 중에서는 육량체이지만, 체액에 희석되면서 단량체가 된다. 이 정의는 1차 구조적 입체형태의 일부 또는 전부 및 천연 발생 인슐린의 생물학적 특성 중 적어도 하나를 갖는 임의의 정제된 단리된 폴리펩티드 및 프로인슐린을 포함하고자 한다. 당화형태를 비롯하여, 유사체(예를 들어, 결실, 삽입 및/또는 치환을 갖는 폴리펩티드)를 포함해, 천연 및 합성 유도 인슐린을 더 포함하고자 한다.

인슐린은 페닐아세테이트-도너와 잠재적으로 반응할 수 있고 PGA에 의해 탈보호될 수 있는 3개의 친핵성 아민을 함유한다. 이들 잔기는 위치 29에 B-사슬(B29) 상의 Lys 및 2개 N-말단 유리 아민, 위치 1의 A-사슬(A1) 상의 Gly 및 위치 1의 B-사슬(B1) 상의 Phe를 포함한다. 본 발명은 삼중 보호된 인슐린(인간 인슐린의 A1, B1, B29 잔기에 화학적으로 부착된 페닐 아세테이트)을 제공한다. PGA는 페닐아세테이트 아미드 결합에 대한 독점적인 선택성으로, 단백질의 펩티드 결합의 나머지는 온전하게 남겨두고, N-페닐아세테이트-보호된 펩티드 및 인슐린의 가수분해를 촉매하는 것으로 보고되었다([Brtnik et al., Coll. Czech. Chem. Commun., 46(8), 1983-1989 [1981]]; 및 [Wang et al. Biopolym. 25(Suppl.), S109-S114 [1986]]).

본원에서 사용시, "트리-페닐 아세테이트 보호기"는 본원에서 기술된 바와 같이, 페닐 아실 기로 보호된 B1, B29 및 A1 위치의 3개 1차 아민을 갖는 인슐린 분자를 의미한다.

페니실린 G 아실라아제

페니실린 아실라아제는 Sakaguchi 및 Murao(Sakaguchi and Murao, J. Agr.Chem. Soc. Jpn., 23:411 [1950])에 의해 페니실리움 크리소제넘(Penicillium chrysogenum) Wisc. Q176에서 처음 기술되었다. 페니실린 G 아실라아제는 페니실린 G, 세팔로스포린 G, 및 관련 항생제의 측쇄에 작용하여 β-락탐 항생제 중간체 6-아미노 페니실란산 및 7-아미노 데스-아세톡시 세팔로스포란산과 공통 부산물로서 페닐 아세트산을 생성시키는 가수분해 효소이다. 이들 항생제 중간체는 반합성 항생제, 예컨대 암피실린, 아목시실린, 클록사실린, 세팔렉신, 및 세파톡심의 잠재적인 빌딩 블록 중 하나이다.

상기에 나타낸 바와 같이, 페니실린 G 아실라아제(PGA)는 반응식 1에 도시된 바와 같이, 화학식 (II)의 짝염기를 갖는 6-아미노 페니실란산, 및 화학식 (III)의 페닐아세트산으로 화학식 (I)의 짝염기를 갖는 페니실린 G의 가수분해적 절단을 촉매하는 능력을 특징으로 한다:

이론에 국한되지 않지만, 기질 특이성은 소수성 페닐 기의 인식과 연합되어 나타나는 한편 일부 PGA에서 베타-사슬의 N-말단의 세린 잔기인 친핵성은 베타-락탐 및 다양한 다른 기, 예컨대 베타-아미노산의 억셉터로서 작용한다. PGA는 또한 페니실린 G와 유사한 모델 기질을 절단하는 능력, 예를 들어, 반응식 2에 도시된 바와 같이, 화학식 (III)의 페닐아세트산 및 화학식 (V)의 5-아미노-2-니트로-벤조산으로 화학식 (IV)의 6-니트로-3-(페닐아세타미도)벤조산(NIPAB)을 절단하는 능력을 특징으로 할 수 있다(예를 들어, 다음의 문헌을 참조함: [Alkema et al., Anal. Biochem., 275:47-53 [1999]]):

5-아미노-2-니트로-벤조산은 발색성이기 때문에, 화학식 (IV)의 기질은 PGA 활성을 측정하는 편리한 방식을 제공한다. 전술한 반응 이외에도, PGA는 또한 광학적으로 순수한 tert 류신의 제조를 위한 DL-tert 류신의 동적 분할에도 사용될 수 있다(예를 들어, 다음의 문헌을 참조함: [Liu et al., Prep. Biochem. Biotechnol., 36:235-41 [2006]]).

본원의 PGA는 유기체 클루이베라 시트로필라(케이. 시트로필라)로부터 획득된 효소를 기반으로 한다. 다른 유기체 유래의 PGA처럼, 케이. 시트로필라의 PGA는 프리-프로-PGA 폴리펩티드의 단백질가수분해 프로세싱에 의해 생성되는 알파-서브유닛 및 베타-서브유닛으로 구성된 이종이량체 효소이다. 신호 펩티드 및 스페이서 펩티드의 제거는 성숙한 이종이량체를 생성시킨다(예를 들어, 다음의 문헌을 참조함: [arbero et al., Gene 49:69-80 [1986]]). 케이. 시트로필라의 천연 발생 프리-프로-PGA 폴리펩티드의 아미노산 서열은 공개적으로 입수할 수 있고(예를 들어, 유전자은행 등록 번호 P07941, [gi:129551]), 본원에서 서열번호 2로 제공된다. 천연 발생 케이. 시트로필라 PGA의 알파-사슬 서열은 서열번호 2의 잔기 27 내지 235에 상응한다. 천연 발생 케이. 시트로필라 PGA의 베타-사슬 서열은 서열번호 2의 잔기 290 내지 846에 상응한다. 서열번호 2의 잔기 1 내지 26은 신호 펩티드에 상응하고 서열번호 2의 잔기 236-289는 연결 프로펩티드에 상응하며, 둘 모두 제거되어 α-사슬 서브유닛 및 β-사슬 서브유닛을 포함하는 이종이량체인 천연 발생의 성숙한 PGA 효소를 생성시킨다.

일부 실시형태에서, 본 발명은 서열번호 2, 4, 6, 8, 10 및/또는 12와 적어도 약 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 또는 99% 또는 그 이상의 서열 동일성을 갖는 아미노산 서열을 갖는 조작된 PGA 폴리펩티드를 제공한다.

본 발명은 실험실 규모의 제조 용도에 적합한 인슐린-특이적 탈아실화 생물촉매를 제공한다. 유도 진화는 인슐린 상의 A1/B1/B29-트리-페닐 아세테이트 보호기를 완전하게 제거하여 > 99% 유리 인슐린을 생성시킬 수 있는 효율적인 아실라아제 변이체를 개발하는데 사용되었다. 오직 2회전의 진화 후, 0.8 g/L 효소 적재량에서 6시간 미만에 99%가 넘게 유리 인슐린을 생성시키는 변이체가 생성되었다. 최종적인 최고 변이체 PGA_005는 초기 골격보다 ∼8배 개선되었다. 본원에 제공된 PGA 변이체는 광범위한 아실기를 수용할 수 있고 야생형 PGA와 비교하여, 증가된 용매 안정성, 및 개선된 열 안정성을 나타낸다. 본원에 제공된 변이체 PGA는 스페이서 영역이 결여되었다. 따라서, 자가-프로세싱 단계가 활성효소를 생성시키기 위해 필요하지 않다.

본 발명은 또한 조작된 PGA 폴리펩티드를 코딩하는 폴리뉴클레오티드를 제공한다. 일부 실시형태에서, 폴리뉴클레오티드는 폴리펩티드를 발현할 수 있는 재조합 폴리뉴클레오티드를 생성시키기 위해, 유전자 발현을 제어하는 1 이상의 이종성 조절 서열에 작동적으로 연결된다. 조작된 PGA 폴리펩티드를 코딩하는 이종성 폴리뉴클레오티드를 함유하는 발현 구성체가 적절한 숙주 세포에 도입되어 상응하는 PGA 폴리펩티드를 발현시킬 수 있다.

다양한 아미노산에 상응하는 코돈의 지식때문에, 단백질 서열의 이용률은 대상을 코딩할 수 있는 모든 폴리뉴클레오티드의 서술을 제공한다. 동일한 아미노산을 대안 또는 동의 코돈에 의해 코딩하는 유전자 코드의 축퇴성은 모두 본원에 개시된 개선된 PGA 효소를 코딩하는, 엄청나게 많은 핵산을 만들어질 수 있게 한다. 따라서, 특정 아미노산 서열을 동정하여, 당업자는 단백질의 아미노산 서열을 변화시키지 않는 방식으로 1 이상의 코돈의 서열을 단순하게 변형시켜 임의 수의 상이한 핵산을 만들 수 있다. 이러한 점에서, 본원은 가능한 코돈 선택을 기반으로 조합을 선택하여 만들 수 있는 각각의 그리고 모든 가능한 폴리뉴클레오티드의 변이를 특별히 고려하며, 모든 이러한 변이는 실시예 5 및 6의 표에 나타낸 아미노산 서열을 포함하여, 본원에 개시된 임의 폴리펩티드에 대해 특별히 개시된 것으로 간주된다.

다양한 실시형태에서, 코돈은 바람직하게 단백질이 생성되는 숙주 세포에 적합하도록 선택된다. 예를 들어, 박테리아에서 사용되는 바람직한 코돈은 박테리아에서 유전자를 발현하는데 사용되고, 효모에서 사용되는 바람직한 코돈은 효모에서 발현을 위해 사용되며, 포유동물에서 사용되는 바람직한 코돈은 포유동물 세포에서 발현을 위해 사용된다.

일정 실시형태에서, 모든 코돈은 천연 서열이 바람직한 코돈을 포함하게 되고, 바람직한 코돈의 사용이 모든 아미노산 잔기에 필요하지 않을 수 있기 때문에 PGA 폴리펩티드의 코돈 용법을 최적화하기 위해 교체할 필요가 없다. 결과적으로, PGA 효소를 코딩하는 코돈 최적화된 폴리뉴클레오티드는 전체 길이 코딩 영역의 코돈 위치의 약 40%, 50%, 60%, 70%, 80%, 또는 90%가 넘게 바람직한 코돈을 함유할 수 있다.

일부 실시형태에서, 폴리뉴클레오티드는 본원에 기술된 임의의 기준 조작된 PGA 폴리펩티드의 알파-사슬 및/또는 베타-사슬과 적어도 약 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 또는 99% 또는 그 이상의 서열 동일성을 갖는 아미노산 서열을 갖는 PGA 폴리펩티드를 코딩하는 뉴클레오티드 서열을 포함한다. 따라서, 일부 실시형태에서, 폴리뉴클레오티드는 서열번호 2를 기반으로 하는 기준 알파-사슬 및 베타-사슬 서열과 적어도 약 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 그 이상 동일한 아미노산 서열을 코딩한다. 일부 실시형태에서, 폴리뉴클레오티드는 서열번호 2의 알파-사슬 및/또는 베타-사슬 아미노산 서열을 코딩한다.

일부 실시형태에서, 폴리뉴클레오티드는 서열번호 4, 6, 8, 10, 및/또는 12와 적어도 약 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 또는 99% 또는 그 이상의 서열 동일성을 갖는 아미노산 서열을 갖는 PGA 폴리펩티드를 코딩하는 뉴클레오티드 서열을 포함한다. 따라서, 일부 실시형태에서, 폴리뉴클레오티드는 서열번호 1, 3, 5, 7, 9, 및/또는 11과 적어도 약 85%, 86%, 87%, 88%, 89%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 그 이상 동일한 아미노산 서열을 코딩한다.

일부 실시형태에서, 개선된 PGA 폴리펩티드를 코딩하는 단리된 폴리뉴클레오티드는 폴리펩티드의 개선된 활성 및/또는 발현을 제공하는 다양한 방식으로 조작되었다. 벡터에 이의 삽입 전에 단리된 폴리뉴클레오티드의 조작이 발현 벡터에 따라서 바람직하거나 또는 필수적일 수 있다. 재조합 DNA 방법을 이용하여 폴리뉴클레오티드 및 핵산 서열을 변형시키기 위한 방법은 당분야에 잘 알려져 있다.

예를 들어, 돌연변이유발법 및 유도 진화 방법은 발현시키고, 스크리닝하고, 검정할 수 있는 변이체 라이브러리를 생성시키기 위해 폴리뉴클레오티드에 쉽게 적용할 수 있다. 돌연변이유발법 및 유도 진화 방법은 당분야에 잘 알려져 있다(예를 들어, 미국 특허 제5,605,793호, 제5,830,721호, 제6,132,970호, 제6,420,175호, 제6,277,638호, 제6,365,408호, 제6,602,986호, 제7,288,375호, 제6,287,861호, 제6,297,053호, 제6,576,467호, 제6,444,468호, 제5,811238호, 제6,117,679호, 제6,165,793호, 제6,180,406호, 제6,291,242호, 제6,995,017호, 제6,395,547호, 제6,506,602호, 제6,519,065호, 제6,506,603호, 제6,413,774호, 제6,573,098호, 제6,323,030호, 제6,344,356호, 제6,372,497호, 제7,868,138호, 제5,834,252호, 제5,928,905호, 제6,489,146호, 제6,096,548호, 제6,387,702호, 제6,391,552호, 제6,358,742호, 제6,482,647호, 제6,335,160호, 제6,653,072호, 제6,355,484호, 제6,03,344호, 제6,319,713호, 제6,613,514호, 제6,455,253호, 제6,579,678호, 제6,586,182호, 제6,406,855호, 제6,946,296호, 제7,534,564호, 제7,776,598호, 제 5,837,458호, 제6,391,640호, 제6,309,883호, 제7,105,297호, 제7,795,030호, 제6,326,204호, 제6,251,674호, 제6,716,631호, 제6,528,311호, 제6,287,862호, 제6,335,198호, 제6,352,859호, 제6,379,964호, 제7,148,054호, 제7,629,170호, 제7,620,500호, 제6,365,377호, 제6,358,740호, 제6,406,910호, 제6,413,745호, 제6,436,675호, 제6,961,664호, 제7,430,477호, 제7,873,499호, 제7,702,464호, 제7,783,428호, 제7,747,391호, 제7,747,393호, 제7,751,986호, 제6,376,246호, 제6,426,224호, 제6,423,542호, 제6,479,652호, 제6,319,714호, 제6,521,453호, 제6,368,861호, 제7,421,347호, 제7,058,515호, 제7,024,312호, 제7,620,502호, 제7,853,410호, 제7,957,912호, 제7,904,249호, 및 모든 관련 US 이외의 대응 특허; [Ling et al., Anal. Biochem., 254(2):157-78 [1997]]; [Dale et al., Meth. Mol. Biol., 57:369-74 [1996]]; [Smith, Ann. Rev. Genet., 19:423-462 [1985]]; [Botstein et al., Science, 229:1193-1201 [1985]]; [Carter, Biochem. J., 237:1-7 [1986]]; [Kramer et al., Cell, 38:879-887 [1984]]; [Wells et al., Gene, 34:315-323 [1985]]; [Minshull et al., Curr. Op. Chem. Biol., 3:284-290 [1999]]; [Christians et al., Nat. Biotechnol., 17:259-264 [1999]]; [Crameri et al., Nature, 391:288-291 [1998]]; [Crameri, et al., Nat. Biotechnol., 15:436-438 [1997]]; [Zhang et al., Proc. Nat. Acad. Sci. U.S.A., 94:4504-4509 [1997]]; [Crameri et al., Nat. Biotechnol., 14:315-319 [1996]]; [Stemmer, Nature, 370:389-391 [1994]]; [Stemmer, Proc. Nat. Acad. Sci. USA, 91:10747-10751 [1994]]; WO 95/22625; WO 97/0078; WO 97/35966; WO 98/27230; WO 00/42651; WO 01/75767; 및 WO 2009/152336을 참조하며, 이들 모두는 참조로 본원에 포함됨).

일부 실시형태에서, 본 발명의 변이체 PGA 아실라아제는 효소의 코딩된 활성을 변경시키지 않는 추가 서열을 더 포함한다. 예를 들어, 일부 실시형태에서, 변이체 PGA 아실라아제는 정제에 유용한 다른 서열 또는 에피토프 태그에 연결된다.

일부 실시형태에서, 본 발명의 변이체 PGA 아실라아제 폴리펩티드는 그들이 발현되는 숙주 세포(예를 들어, 효모 또는 섬유상 진균 숙주 세포)에서 분비되고 신호 펩티드(즉, 폴리펩티드의 아미노 말단에 연결되고 코딩된 폴리펩티드를 세포 분비 경로로 유도시키는 아미노산 서열)을 포함한 프리-단백질로서 발현된다.

일부 실시형태에서, 신호 펩티드는 내생성 케이. 시트로필라 PGA 아실라아제 신호 펩티드이다. 일부 다른 실시형태에서, 다른 케이. 시트로필라 분비 단백질 유래의 신호 펩티드가 사용된다. 일부 실시형태에서, 다른 신호 펩티드가 숙주 세포 및 다른 인자들에 의존적으로 사용된다. 섬유상 진균 숙주 세포에 효과적인 신호 펩티드 코딩 영역은 제한없이, 아스퍼질러스 오리재(Aspergillus oryzae) TAKA 아밀라제, 아스퍼질러스 니거(Aspergillus niger) 중성 아밀라제, 아스퍼질러스 니거 글루코아밀라제, 리조무코르 미에헤이(Rhizomucor miehei) 아스파르트산 프로테이나제, 휴미콜라 인솔렌스(Humicola insolens) 셀룰라제, 휴미콜라 라누지노사(Humicola lanuginosa) 리파제, 티. 리에세이(T. reesei) 셀로비오히드롤라제 II에서 획득된 신호 펩티드 코딩 영역을 포함한다. 박테리아 숙주 세포에 대한 신호 펩티드 코딩 영역은 제한없이, 바실러스(Bacillus) NClB 11837 말토스형성 아밀라제, 바실러스 스테아로써모필러스(Bacillus stearothermophilus) 알파-아밀라제, 바실러스 리체니포르미스(Bacillus licheniformis) 서브틸리신, 바실러스 리체니포르미스 β-락타마제, 바실러스 스테아로써모필러스 중성 프로테아제(nprT, nprS, nprM), 및 바실러스 서브틸리스(Bacillus subtilis) prsA에 대한 유전자에서 획득된 신호 펩티드 코딩 영역을 포함한다. 일부 추가 실시형태에서, 다른 신호 펩티드가 본 발명에서 사용된다(예를 들어, 참조로 본원에 포함되는 다음의 문헌을 참조함: [Simonen and Palva, Microbiol. Rev., 57: 109-137 [1993]]). 효모 숙주 세포에 대해 추가로 유용한 신호 펩티드는 사카로마이세스 세레비지아(Saccharomyces cerevisiae) 알파-인자, 사카로마이세스 세레비지아 SUC2 인버타제에 대한 유전자 유래의 것을 포함한다(예를 들어, 다음의 문헌을 참조함: [Taussig and Carlson, Nucl. Acids Res., 11:1943-54 [1983]]; [SwissProt Accession No. P00724]; 및 [Romanos et al., Yeast 8:423-488 [1992]]). 일부 실시형태에서, 이들 신호 펩티드 및 다른 신호 펩티드의 변이체가 사용된다. 실제로, 본 발명은 당분야에 공지된 임의의 적합한 신호 펩티드가 본 발명에서 사용되므로, 임의의 특정 신호 펩티드에 국한시키려는 의도가 없다.

일부 실시형태에서, 본 발명은 본원에 기술된 바와 같이, 변이체 PGA 아실라아제 폴리펩티드, 및/또는 이의 생물학적 활성 단편을 코딩하는 폴리뉴클레오티드를 제공한다. 일부 실시형태에서, 폴리뉴클레오티드는 폴리펩티드를 발현할 수 있는 재조합 폴리뉴클레오티드를 생성시키도록 유전자 발현을 제어하는 1 이상의 이종성 조절 또는 제어 서열에 작동적으로 연결된다. 일부 실시형태에서, 변이체 PGA 아실라아제를 코딩하는 이종성 폴리뉴클레오티드를 함유하는 발현 구성체는 적절한 숙주 세포에 도입되어 변이체 PGA 아실라아제를 발현한다.

당업자는 유전자 코드의 축퇴성 덕분에, 본 발명의 변이체 PGA 아실라아제 폴리펩티드를 코딩하는 다수의 뉴클레오티드 서열이 존재함을 이해한다. 예를 들어, 코돈 AGA, AGG, CGA, CGC, CGG, 및 CGU는 모두 아미노산 아르기닌을 코딩한다. 따라서, 아르기닌이 코돈에 의해 특정되는 본 발명의 핵산 내 모든 위치에서, 코돈은 코딩된 폴리펩티드를 변경시키지 않고 상기 기술된 임의의 상응하는 코돈으로 변경될 수 있다. RAN 서열의 "U"는 DNA 서열의 "T"에 상응함을 이해한다. 본 발명은 가능한 코돈 선택을 기반으로 조합을 선택하여 만들 수 있는 본 발명의 폴리펩티드를 코딩하는 핵산 서열의 각각의 그리고 모든 가능한 변이를 고려하고 제공한다.

상기에 나타낸 바와 같이, PGA를 코딩하는 DNA 서열은 또한 높은 코돈 용법 편향 코돈(동일한 아미노산을 코딩하는 다른 코돈보다 단백질 코딩 영역에서 더 높은 빈도로 사용되는 코돈)에 대해 디자인될 수도 있다. 바람직한 코돈은 단일 유전자에서 코돈 용버, 공통 기능 또는 기원의 유전자 세트, 고도로 발현되는 유전자, 전체 유기체의 집합 단백질 코딩 영역 내 코돈 빈도, 관련 유기체의 집합 단백질 코딩 영역 내 코돈 빈도, 또는 이의 조합과 관련하여 결정될 수 있다. 그 빈도가 유전자 발현도에 따라 증가되는 코돈은 전형적으로 발현에 최적인 코돈이다. 구체적으로, DNA 서열은 특정 숙주 유기체에서의 발현에 최적화될 수 있다. 다변량 분석(예를 들어, 군집 분석 또는 대응 분석을 사용) 및 유전자에 사용되는 코돈의 유효수를 포함하여, 특정 유기체에서 코돈 빈도(예를 들어, 코돈 용법, 상대 동의 코돈 용법) 및 코돈 선호도를 결정하기 위한 다양한 방법이 당분야에 잘 알려져 있다. 코돈 용법을 얻기 위한 데이터 공급원은 단백질을 코딩할 수 있는 임의의 이용가능한 뉴클레오티드 서열에 의존적일 수 있다. 이들 데이터 세트는 당분야에 공지된 바와 같이, 게놈 서열의 예상 코딩 영역 또는 발현되는 단백질을 코딩하는 것으로 실제 알려진 핵산 서열(예를 들어, 완전 단백질 코딩 서열-CDS)을 포함한다. 변이체 PGA를 코딩하는 폴리뉴클레오티드는 당분야에 공지된 임의의 적합한 방법을 사용해 제조할 수 있다. 전형적으로, 올리고뉴클레오티드는 본질적으로 임의의 바람직한 연속되는 서열을 형성하도록 개별적으로 합성된 후, 연결된다(예를 들어, 효소 또는 화학 결찰 방법, 또는 중합효소-매개 방법에 의함). 일부 실시형태에서, 본 발명의 폴리뉴클레오티드는 제한없이, 자동화 합성 방법을 포함하여, 당분야에 공지된 임의의 적합한 방법을 사용해 화학 합성으로 제조된다. 예를 들어, 포스포르아미다이트 방법에서, 올리고뉴클레오티드가 합성(자동화 DNA 합성기에서)되고, 정제, 어닐링, 결찰되어 적절한 벡터에 클로닝된다. 일부 실시형태에서, 이중 가닥 DNA 단편은 상보성 가닥을 합성하여 적절한 조건 하에서 함께 가닥들을 어닐링하거나, 또는 적절한 프라이머 서열과 DNA 중합효소를 사용해 상보성 가닥을 첨가하여 획득된다. 본 발명에서 유용한 방법을 제공하는 수많은 일반 및 표준 교재가 당업자에게 잘 알려져 있다.

조작된 PGA는 상기 기술된 바와 같이, 돌연변이유발법 및/또는 유도 진화 방법을 천연 발생 PGA를 코딩하는 폴리뉴클레오티드에 수행하여 획득될 수 있다. 돌연변이유발법은 무작위 및 부위-지정 돌연변이유발법을 포함해, 당분야에 공지된 임의 기술에 따라서 수행될 수 있다. 유도 진화는 셔플링을 포함해 개선된 변이체에 대한 스크리닝을 위해 당분야에 공지된 임의의 기술로 수행될 수 있다. 사용되는 다른 유도 진화 절차는 제한없이, 스태거드 확장 방법(StEP), 시험관내 재조합법, 돌연변이성 PCR, 카세트 돌연변이유발법, 중첩 연장에 의한 스플라이싱(SOEing), ProSAR™ 유도 진화 방법 등을 비롯하여, 임의의 다른 적합한 방법을 포함한다.

돌연변이유발 처리 후 획득된 클론은 원하는 개선된 효소 특성을 갖는 조작된 PGA에 대해 스크리닝된다. 발현 라이브러리로부터 효소 활성 측정은 생성물 형성 속도를 모니터링하는 표준 생화학 기술을 사용해 수행될 수 있다. 바람직한 개선된 효소 특성이 열 안정성인 경우, 효소 활성은 효소 조제물에 대해 정해진 온도를 가하고 열 처리 후 남은 효소 활성량을 측정한 후 측정될 수 있다. PGA를 코딩하는 폴리뉴클레오티드를 함유하는 클론이 단리되면, 서열분석하여 뉴클레오티드 서열 변화(있다면)를 동정하고, 숙주 세포에서 효소를 발현하는데 사용된다.

조작된 폴리펩티드의 서열이 알려져 있는 경우, 효소를 코딩하는 폴리뉴클레오티드는 기지의 합성 방법에 따라서, 표준 고체상 방법으로 제조될 수 있다. 일부 실시형태에서, 최대 약 100개 염기의 단편은 개별적으로 합성된 후, 연결(예를 들어, 효소 또는 화학 결찰 방법, 또는 중합효소 매개 방법에 의함)되어 임의의 원하는 연속되는 서열을 형성할 수 있다. 예를 들어, 본 발명의 폴리뉴클레오티드 및 올리고뉴클레오티드는 화학 합성에 의해 제조될 수 있다(예를 들어, 전형적으로 자동화 합성 방법에서 실시되는 바와 같이, 문헌 [Beaucage et al., Tet. Lett., 22:1859-69 [1981]]에 기술된 고전적인 포스포르아미다이트 방법, 또는 문헌 [Matthes et al., EMBO J., 3:801-05 [1984]]에 기술된 방법을 사용함). 포스포르아미다이트 방법에 따라서, 올리고뉴클레오티드를 합성하고(예를 들어, 자동화 DNA 합성기에서), 정제, 어닐링, 결찰하여 적절한 벡터에 클로닝한다. 또한, 본질적으로 임의 핵산은 임의의 다양한 상업적 공급처에서 획득할 수 있다(예를 들어, The Midland Certified Reagent Company, Midland, TX, The Great American Gene Company, Ramona, CA, ExpressGen Inc. Chicago, IL, Operon Technologies Inc., Alameda, CA, 및 많은 다른 공급처).

본 발명은 또한 본원에 제공된 바와 같이, 적어도 하나의 변이체를 코딩하는 서열을 포함하는 재조합 구성체를 제공한다. 일부 실시형태에서, 본 발명은 이종성 프로모터에 작동적으로 연결된 변이체 PGA 폴리뉴클레오티드를 포함하는 발현 벡터를 제공한다. 일부 실시형태에서, 본 발명의 발현 벡터는 숙주 세포가 변이체 PGA 단백질을 발현할 수 있게 허용하는 적절한 숙주 세포를 형질전환시키는데 사용된다. 진균 및 다른 유기체에서 단백질의 재조합 발현을 위한 방법은 당분야에 잘 알려져 있고, 수많은 발현 벡터가 이용가능하거나 또는 통상의 방법을 사용해 제작될 수 있다. 일부 실시형태에서, 본 발명의 핵산 구성체는 본 발명의 핵산 서열이 삽입된, 벡터, 예컨대 플라스미드, 코스미드, 파지, 바이러스, 박테리아 인공 염색체(BAC), 효소 인공 염색체(YAC) 등을 포함한다. 일부 실시형태에서, 본 발명의 폴리뉴클레오티드는 변이체 PGA 폴리펩티드(들)를 발현하는데 적합한 다양한 발현 벡터 중 어느 하나에 도입된다. 적합한 벡터는 제한없이, 염색체, 비염색체 및 합성 DNA 서열(예를 들어, SV40의 유도체)을 비롯하여, 박테리아 플라스미드, 파지 DNA, 배큘로바이러스, 효모 플라스미드, 플라스미드와 파지 DNA의 조합에서 유도된 벡터, 바이러스 DNA 예컨대 백시니아, 아데노바이러스, 계두 바이러스, 가성광견병, 아데노바이러스, 아데노-회합 바이러스, 레트로바이러스, 및 많은 다른 것들을 포함한다. 세포에 유전 물질을 형질도입시키고, 복제가 바람직하면, 관련 숙주에서 복제가능하고 생존가능한 임의의 적합한 벡터가 본 발명에서 사용된다. 일부 실시형태에서, 구성체는 제한없이, 단백질 코딩 서열에 작동적으로 연결된, 프로모터를 포함하여, 조절 서열을 더 포함한다. 대량의 적합한 벡터 및 프로모터가 당업자에게 알려져 있다. 또한, 일부 실시형태에서, 특정 숙주에서 높은 발현도를 획득하기 위해서, 종종 이종성 프로모터의 제어 하에 본 발명의 변이체 PGA를 발현시키는 것이 유용하다. 일부 실시형태에서, 프로모터 서열은 당분야에 공지된 임의의 적합한 방법을 사용해 변이체 PGA 코딩 서열의 5' 영역에 작동적으로 연결된다. 변이체 PGA의 발현을 위해 유용한 프로모터의 예는 제한없이, 진균 유래의 프로모터를 포함한다. 일부 실시형태에서, 진균 균주의 PGA 유전자 이외의 유전자의 발현을 구동시키는 프로모터 서열이 사용된다. 비제한적인 예로서, 엔도글루카나제를 코딩하는 유전자 유래의 진균 프로모터가 사용될 수 있다. 일부 실시형태에서, PGA가 유도된 진균 균주 이외의 진균 균주에서 PGA 유전자의 발현을 구동하는 프로모터 서열이 사용된다. 섬유상 진균 숙주 세포에서 본 발명의 뉴클레오티드 구성체의 전사를 지시하는데 유용한 다른 적합한 프로모터의 예는 제한없이, 아스퍼질러스 오리재 TAKA 아밀라제, 리조무코르 미에헤이 아스파르트산 프로테이나제, 아스퍼질러스 니거 중성 알파-아밀라제, 아스퍼질러스 니거 산 안정 알파-아밀라제, 아스퍼질러스 니거 또는 아스퍼닐러스 아와모리(Aspergillus awamori) 글루코아밀라제(glaA), 리조무코르 미에헤이 리파제, 아스퍼질러스 오리재 알칼리 프로테아제, 아스퍼질러스 오리재 트리오스 포스페이트 이소머라제, 아스퍼질러스 니둘란스(Aspergillus nidulans) 아세타미다제, 및 푸사리움 옥시스포럼(Fusarium oxysporum) 트립신-유사 프로테아제(예를 들어, 참조로 본원에 포함되는, WO 96/00787 참조)에 대한 유전자로부터 획득된 프로모터를 비롯하여, NA2-tpi 프로모터(아스퍼질러스 니거 중성 알파-아밀라제 및 아스퍼질러스 오리재 트리오스 포스페이트 이소머라제에 대한 유전자 유래의 프로모터의 하이브리드), 프로모터 예컨대 cbh1, cbh2, egl1, egl2, pepA, hfb1, hfb2, xyn1, amy, 및 glaA(예를 들어, 하기 문헌들을 참조하고, 이들 모두를 참조로 본원에 포함시킴: [Nunberg et al., Mol. Cell Biol., 4:2306 -2315 [1984]]; [Boel et al., EMBO J., 3:1581-85 [1984]]; 및 유럽 특허 출원 제137280호), 및 이의 돌연변이체, 절단형, 및 하이브리드 프로모터를 포함한다.

효모 숙주 세포에서, 유용한 프로모터는 제한없이, 사카로마이세스 세레비지아 에놀라제(eno-1), 사카로마이세스 세레비지아 갈락토미나제(gal1), 사카로마이세스 세레비지아 알콜 디히드로게나제/글리세르알데히드-3-포스페이트 디히드로게나제(ADH2/GAP), 및 에스. 세레비지아 3-포스포글리세레이트 키나제에 대한 유전자에서 유래된 것들을 포함한다. 효모 숙주 세포에 유용한 추가의 유용한 프로모터는 당분야에 알려져 있다(예를 들어, 참조로 본원에 포함되는, 다음의 문헌을 참조함: [Romanos et al., Yeast 8:423-488 [1992]]). 또한, 진균에서 키티나제 생성과 연관된 프로모터가 본 발명에서 사용된다(예를 들어, 둘 모두 참조로 본원에 포함되는, 하기 문헌들을 참조함: [Blaiseau and Lafay, Gene 120243-248 [1992]]; 및 [Limon et al., Curr. Genet., 28:478-83 [1995]]).

박테리아 숙주 세포의 경우, 본원의 핵산 구성체의 전사를 지시하기 위한 적합한 프로모터는 제한없이, 이. 콜라이 lac 오페론, 이. 콜라이 trp 오페론, 박테리오파지 λ, 스트렙토마이세스 코엘리콜로(Streptomyces coelicolo) 아가라아제 유전자(dagA), 바실러스 서브틸리스(Bacillus subtilis) 레반수크라제 유전자(sacB), 바실러스 리체니포르미스 알파-아밀라제 유전자(amyL), 바실러스 스테아로써모필러스 말토스형성 아밀라제 유전자(amyM), 바실러스 아밀로리케파시엔스(Bacillus amyloliquefaciens) 알파-아밀라제 유전자(amyQ), 바실러스 리체니포르미스 페니실리나제 유전자(penP), 바실러스 서브틸리스 xylA 및 xylB 유전자, 및 원핵생물 베타-락타마제 유전자에서 획득된 프로모터(예를 들어, 다음의 문헌을 참조함: [Villa-Kamaroff et al., Proc. Natl. Acad. Sci. USA 75: 3727-3731 [1978]])를 비롯하여, tac 프로모터(예를 들어, 다음의 문헌을 참조함: [DeBoer et al., Proc. Natl. Acad. Sci. USA 80: 21-25 [1983]])를 포함한다.

일부 실시형태에서, 본 발명의 클로닝된 변이체 PGA는 전사를 종결하기 위해 숙주 세포가 인지하는 서열인, 적합한 전사 종결인자 서열을 갖는다. 종결인자 서열은 폴리펩티드를 코딩하는 핵산 서열의 3' 말단에 작동적으로 연결된다. 선택된 숙주 세포에서 기능성인 임의의 종결인자가 본 발명에서 사용된다. 섬유상 진균 숙주 세포에 대한 예시적인 전사 종결인자는 제한없이, 아스퍼질러스 오리재 TAKA 아밀라제, 아스퍼질러스 니거 글루코아밀라제, 아스퍼질러스 니둘란스 안트라닐레이트 시타제, 아스퍼질러스 니거 알파-글루코시다제, 및 푸사리움 옥시스포룸 트립신-유사 프로테아제에 대한 유전자에서 획득된 것들을 포함한다(예를 들어, 참조로 본원에 포함되는, 미국 특허 제7,399,627호를 참조함). 일부 실시형태에서, 효모 숙주 세포에 대한 예시적인 종결인자는 사카로마이세스 세레비지아 에놀라제, 사카로마이세스 세레비지아 사이토크롬 C(CYCl), 및 사카로마이세스 세레비지아 글리세르알데히드-3-포스페이트 디히드로게나제에 대한 유전자에서 획득된 것들을 포함한다. 효모 숙주 세포에 대한 다른 유용한 종결인자는 당업자에게 잘 알려져 있다(예를 들어, 다음의 문헌을 참조함: [Romanos et al., Yeast 8:423-88 [1992]]).

일부 실시형태에서, 적합한 리더 서열은 숙주 세포에 의한 번역에 중요한 mRNA의 비번역 영역인, 클로닝된 변이체 PGA 서열의 일부이다. 리더 서열은 폴리펩티드를 코딩하는 핵산 서열의 5' 말단에 작동적으로 연결된다. 선택된 숙주 세포에서 기능성인 임의의 리더 서열이 본 발명에서 사용된다. 섬유상 진균 숙주 세포에 대한 예시적인 리더는 제한없이, 아스퍼질러스 오리재 TAKA 아밀라제 및 아스퍼질러스 니둘란스 트리오스 포스페이트 이소머라제에 대한 유전자에서 획득된 것들을 포함한다. 숙주 세포에 대해 적합한 리더는 제한없이, 사카로마이세스 세레비지아 에놀라제(ENO-1), 사카로마이세스 세레비지아 3-포스포글리세레이트 키나제, 사카로마이세스 세레비지아 알파-인자, 및 사카로마이세스 세레비지아 알콜 디히드로게나제/글리세르알데히드-3-포스페이트 디히드로게나제(ADH2/GAP)에 대한 유전자에서 획득된 것들을 포함한다.

일부 실시형태에서, 본 발명의 서열은 또한 핵산 서열의 3' 말단에 작동적으로 연결된 서열이고, 전사시, 전사된 mRNA에 폴리아데노신 잔기를 첨가하는 신호로서 숙주 세포에 의해 인식되는, 폴리아데닐화 서열을 포함한다. 선택된 숙주 세포에서 기능성인 임의의 폴리아데닐화 서열이 본 발명에서 사용된다. 섬유상 진균 숙주 세포에 대한 예시적인 폴리아데닐화 서열은 제한없이, 아스퍼질러스 오리재 TAKA 아밀라제, 아스퍼질러스 니거 글루코아밀라제, 아스퍼질러스 니둘란스 안트라닐레이트 신타제, 푸사리움 옥시스포럼 트립신-유사 프로테아제, 및 아스퍼질러스 니거 알파-글루코시다제에 대한 유전자로부터 획득된 것들을 포함한다. 효모 숙주 세포에 대한 유용한 폴리아데닐화 서열은 당분야에서 공지이다(예를 들어, 다음의 문헌을 참조함: [Guo and Sherman, Mol. Cell. Biol., l5:5983-5990 [1995]]).

일부 실시형태에서, 제어 서열은 폴리펩티드의 아미노 말단에 연결된 아미노산 서열을 코딩하는 신호 펩티드 코딩 영역을 포함하고 코딩된 폴리펩티드를 세포의 분비 경로로 유도한다. 핵산 서열의 코딩 서열의 5' 말단은 고유하게 분비되는 폴리펩티드를 코딩하는 코딩 영역의 절편과 번역 리딩 프레임으로 자연적으로 연결된 신호 펩티드 코딩 영역을 함유할 수 있다. 다르게, 코딩 서열의 5' 말단은 코딩 서열에 외래적인 신호 펩티드 코딩 영역을 함유할 수 있다. 외래 신호 펩티드 코딩 영역은 코딩 서열이 자연적으로 신호 펩티드 코딩 영역을 함유하지 않는 경우 필요할 수 있다.

대안적으로, 외래 신호 펩티드 코딩 영역은 폴리펩티드의 분비를 강화시키기 위해 천연 신호 펩티드 코딩 영역을 단순히 교체할 수 있다. 그러나, 발현된 폴리펩티드를 선택된 숙주 세포의 분비 경로로 유도하는 임의의 신호 펩티드 코딩 영역이 본 발명에 사용될 수 있다.

박테리아 숙주 세포에 대해 효과적인 신호 펩티드 코딩 영역은 제한없이, 바실러스 NClB 11837 말토스형성 아밀라제, 바실러스 스테아로써모필러스 알파-아밀라제, 바실러스 리체니포르미스 서브틸리신, 바실러스 리체니포르미스 베타-락타마제, 바실러스 스테아로써모필러스 중성 프로테아제(nprT, nprS, nprM), 및 바실러스 서브틸리스 prsA에 대한 유전자로부터 획득된 신호 펩티드 코딩 영역을 포함한다. 추가의 신호 펩티드는 당분야에서 공지이다(예를 들어, 다음의 문헌을 참조함: [Simonen and Palva, Microbiol. Rev., 57: 109-137 [1993]]).

섬유상 진균 숙주 세포에 대한 효과적인 신호 펩티드 코딩 영역은 제한없이, 아스퍼질러스 오리재 TAKA 아밀라제, 아스퍼질러스 니거 중성 아밀라제, 아스퍼질러스 니거 글루코아밀라제, 리조무코르 미에헤이 아스파르트산 프로테이나제, 휴미콜라 인솔렌스 셀룰라제, 및 휴미콜라 라누지노사 리파제에 대한 유전자로부터 획득된 신호 펩티드 코딩 영역을 포함한다.

효모 숙주 세포에 유용한 신호 펩티드는 제한없이, 사카로마이세스 세레비지아 알파-인자 및 사카로마이세스 세레비지아 인버타제에 대한 유전자를 포함한다. 다른 유용한 신호 펩티드 코딩 영역이 당분야에 공지되어 있다(예를 들어, 다음의 문헌을 참조함: [Romanos et al., [1992], 상동]).

일부 실시형태에서, 제어 서열은 폴리펩티드의 아미노 말단에 위치된 아미노산 서열을 코딩하는 프로펩티드 코딩 영역을 포함한다. 최종 폴리펩티드는 프로효소 또는 프로폴리펩티드(또는 일부 경우에서 자이모겐)로 알려져 있다. 프로폴리펩티드는 일반적으로 불활성이고 프로폴리펩티드로부터 프로펩티드의 촉매 또는 자가촉매 절단에 의해 성숙한 활성 PGA 폴리펩티드로 전환될 수 있다. 프로펩티드 코딩 영역은 바실러스 서브틸리스 알칼리 프로테아제(aprE), 바실러스 서브틸리스 중성 프로테아제(nprT), 사카로마이세스 세레비지아 알파-인자, 리조무코르 미에헤이 아스파르트산 프로테이나제, 및 마이셀리오프토라 써모필라(Myceliophthora thermophila) 락타제에 대한 유전자로부터 획득될 수 있다(예를 들어, WO 95/33836을 참조함).

신호 펩티드 및 프로펩티드 영역 둘 모두가 폴리펩티드의 아미노 말단에 존재하는 경우, 프로펩티드 영역은 폴리펩티드의 아미노 말단 다음에 위치되고 신호 펩티드 영역은 프로펩티드 영역의 아미노 말단 다음에 위치된다.

일부 실시형태에서, 조절 서열은 또한 숙주 세포의 성장에 관해 폴리펩티드의 발현 제어를 가능하도록 사용된다. 조절 시스템의 예는 조절 화합물의 존재를 포함하여, 화학적 또는 물리적 자극에 대응하여 유전자의 발현을 켜거나 또는 끌 수 있는 것들이다. 원핵생물 숙주 세포에서, 적합한 조절 서열은 제한없이, lac, tac, 및 trp 오퍼레이터 시스템을 포함한다. 효모 숙주 세포에서, 적합한 조절 시스템은 예로서, ADH2 시스템 또는 GAL1 시스템을 포함한다. 섬유상 진균에서, 적합한 조절 서열은 TAKA 알파-아밀라제 프로모터, 아스퍼질러스 니거 글루코아밀라제 프로모터, 및 아스퍼질러스 오리재 글루코아밀라제 프로모터를 포함한다.

조절 서열의 다른 예는 유전자 증폭을 가능하게 하는 것들이다. 진핵생물 시스템에서, 이들은 메토트렉세이트의 존재에서 증폭되는, 디히드로폴레이트 리덕타제 유전자, 및 중금속으로 증폭되는, 메탈로티오네인 유전자를 포함한다. 이들 경우에서, 본 발명의 PGA 폴리펩티드를 코딩하는 핵산 서열은 조절 서열과 작동적으로 연결된다.

따라서, 추가 실시형태에서, 본 발명은 조작된 PGA 폴리펩티드 또는 이의 변이체를 코딩하는 폴리뉴클레오티드, 및 그들이 도입되는 숙주의 유형에 따라서, 1 이상의 발현 조절 영역 예컨대 프로모터 및 종결인자, 복제기원 등을 포함하는 재조합 발현 벡터를 제공한다. 일부 실시형태에서, 상기 기술된 다양한 핵산 및 제어 서열은 함께 연결되어 1 이상의 편리한 제한효소 부위를 포함하여 그 부위에서 폴리펩티드를 코딩하는 핵산 서열의 삽입 또는 치환을 가능하게 할 수 있는 재조합 발현 벡터를 생성시킨다. 대안적으로, 일부 실시형태에서, 핵산 서열은 발현을 위해 적절한 벡터에 핵산 서열 또는 서열을 포함하는 핵산 구성체를 삽입시켜 발현된다. 발현 벡터를 생성시, 코딩 서열은 이 코딩 서열인 발현을 위해 적절한 제어 서열과 작동적으로 연결되도록 벡터에 위치된다.

재조합 발현 벡터는 편리하게 재조합 DNA 절차를 수행할 수 있고 폴리뉴클레오티드 서열의 발현을 일으킬 수 있는, 임의의 적합한 벡터(예를 들어, 플라스미드 또는 바이러스)를 포함한다. 벡터의 선택은 전형적으로 벡터가 도입되는 숙주 세포와 벡터의 상용성에 의존적이다. 일부 실시형태에서, 벡터는 선형이거나 또는 폐쇄된 원형 플라스미드이다.

일부 실시형태에서, 발현 벡터는 자체적으로 복제되는 벡터(즉, 염색체외 독립체로서 존재하고, 그 복제가 염색체 복제와 독립적인, 벡터, 예컨대 플라스미드, 염색체외 성분, 미니염색체 또는 인공 염색체)이다. 일부 실시형태에서, 벡터는 자가 복제를 보장하는 임의 수단을 함유한다. 대안적으로, 일부 다른 실시형태에서, 숙주 세포에 도입 시, 벡터는 게놈에 통합되어 이것이 통합된 염색체(들)와 함께 복제된다. 또한, 추가 실시형태에서, 단일 벡터 또는 플라스미드 또는 숙주 세포의 게놈에 도입되는 전체 DNA를 함께 함유하는 2 이상의 벡터 또는 플라스미드, 또는 트랜스포존이 사용된다.

일부 실시형태에서, 본 발명의 발현 벡터는 형질전환된 세포의 용이한 선별을 가능하게 하는, 1 이상의 선별 마커를 함유한다. "선별 마커"는 그 생성물이 살생물성 또는 바이러스 내성, 항미생물제 또는 중금속에 대한 내성, 영양요구성에 대해 자가영양성을 제공하는 유전자이다. 섬유상 진균 숙주 세포에 사용하기 적합한 임의의 선별 마커는 본 발명에서, 제한없이, amdS(아세타미다제), argB(오르니틴 카바모일트랜스퍼라제), bar(포스피노트리신 아세틸트랜스퍼라제), hph(하이그로마이신 포스포트랜스퍼라제), niaD(나이트레이트 리덕타제), pyrG(오로티딘-5'-포스페이트 디카복실라제), sC(설페이트 아데닐트랜스퍼라제), 및 trpC(안트라닐레이트 신타제)를 비롯하여 이의 균등물을 포함하여 사용된다. 아스퍼질러스 등과 같은 숙주 세포에 유용한 추가 마커는 제한없이, 아스퍼질러스 니둘란스 또는 아스퍼질러스 오리재의 amdS 및 pyrG 유전자, 및 스트렙토마이세스 하이그로스코피커스(Streptomyces hygroscopicus)의 bar 유전자를 포함한다. 효모 숙주 세포에 적합한 마커는 제한없이, ADE2, HIS3, LEU2, LYS2, MET3, TRP1, 및 URA3을 포함한다. 박테리아 선별 마커의 예는 제한없이, 바실러스 서브틸리스 또는 바실러스 리체니포르미스 유래의 dal 유전자, 또는 항생제 내성 예컨대 암피실린, 카나마이신, 클로람페니콜, 및 또는 테트라사이클린 내성을 부여하는 마커를 포함한다.

일부 실시형태에서, 본 발명의 발현 벡터는 숙주 세포의 게놈에의 벡터의 통합 또는 게놈과 독립적으로 세포 내에서 벡터의 자가 복제를 가능하게 하는 성분(들)을 함유한다. 숙주 세포 게놈에의 통합을 포함하는 일부 실시형태에서, 벡터는 폴리펩티드를 코딩하는 핵산 서열 또는 상동성 또는 비상동성 재조합에 의해 게놈으로의 벡터의 통합을 위한 벡터의 임의의 다른 성분에 의존적이다.

일부 대안적인 실시형태에서, 발현 벡터는 숙주 세포의 게놈에 상동성 재조합에 의한 통합을 지시하기 위한 추가의 핵산 서열을 함유한다. 추가의 핵산 서열은 염색체(들) 내 정확한 위치(들)에서 숙주 세포 게놈에 벡터를 통합시킬 수 있다. 정확한 위치에 통합 가능성을 증가시키기 위해, 통합 성분은 바람직하게 상동성 재조합의 확률을 증가시키도록 상응하는 표적 서열과 고도의 상동성인, 충분한 수의 뉴클레오티드, 예컨대 100 내지 10,000 염기쌍, 바람직하게 400 내지 10,000 염기쌍, 가장 바람직하게 800 내지 10,000 염기쌍을 함유한다. 통합 성분은 숙주 세포의 게놈 내 표적 서열과 상동성인 임의 서열일 수 있다. 또한, 통합 성분은 비코딩 또는 코딩 핵산 서열일 수 있다. 한편, 벡터는 비상동성 재조합에 의해 숙주 세포의 게놈에 통합될 수 있다.

자가 복제를 위해서, 벡터는 대상 숙주 세포에서 벡터가 자체로 복제할 수 있는 복제 기원을 더 포함할 수 있다. 박테리아 복제 기원의 예는 P15A ori 또는 이. 콜라이에서 복제할 수 있게 하는 플라스미드 pBR322, pUC19, pACYCl77(이 플라스미드는 P15A ori를 가짐), 또는 pACYC184, 및 바실러스에서 복제할 수 있게 하는 pUB110, pE194, pTA1060, 또는 pAMβ1의 복제 기원을 포함한다. 효모 숙주 세포에서 사용하기 위한 복제 기원의 예는 2 미크론 복제 기원, ARS1, ARS4, ARS1 및 CEN3의 조합, 및 ARS4 및 CEN6의 조합을 포함한다. 복제 기원은 숙주 세포에서 이의 기능성을 온도-감수성으로 만드는 돌연변이를 갖는 것일 수 있다(예를 들어, 다음의 문헌을 참조함: [Ehrlich, Proc. Natl. Acad. Sci. USA 75:1433 [1978]]).

일부 실시형태에서, 본 발명의 핵산 서열의 1 이상의 카피가 숙주 세포에 삽입되어 유전자 생성물의 생성을 증가시킨다. 핵산 서열의 카피 수 증가는 서열의 적어도 하나의 추가 카피를 숙주 세포 게놈에 통합시키거나 또는 선별 마커 유전자의 증폭된 카피와, 그에 따라 핵산 서열의 추가 카피를 함유하는 세포가 적절한 선별제 존재에서 세포를 배양하는 것에 의해 선택될 수 있는 핵산 서열과 증폭가능한 선별 마커 유전자를 포함시켜 획득될 수 있다.

본 발명에서 사용하기 위한 많은 발현 벡터는 상업적으로 입수할 수 있다. 적합한 상업적 발현 벡터는 제한없이, 포유동물 숙주 세포에서 발현을 위한 CMV 프로모터 및 hGH 폴리아데닐화 부위 및 이. 콜라이의 증폭을 위한 pBR322 복제 기원 및 암피실린 내성 마커를 포함하는, p3xFLAGTM™ 발현 벡터(Sigma-Aldrich Chemicals)를 포함한다. 다른 적합한 발현 벡터는 제한없이, pBluescriptII SK(-) 및 pBK-CMV(Stratagene), 및 pBR322(Gibco BRL), pUC(Gibco BRL), pREP4, pCEP4(Invitrogen) 또는 pPoly(예를 들어, 다음의 문헌을 참조함: [Lathe et al., Gene 57:193-201 [1987]]) 유래 플라스미드를 포함한다.

따라서, 일부 실시형태에서, 적어도 하나의 변이체 PGA를 코딩하는 서열을 포함하는 벡터는 벡터의 증식 및 변이체 PGA(들)의 발현을 가능하게 하기 위해 숙주 세포에 형질전환된다. 일부 실시형태에서, 변이체 PGA는 신호 펩티드를 제거하도록 번역 후 변형되고 일부 경우에서 분비 후 절단될 수 있다. 일부 실시형태에서, 상기 기술된 형질전환된 숙주 세포는 변이체 PGA(들)의 발현을 가능하게 하는 조건 하에서 적합한 영양 배지에서 배양된다. 숙주 세포를 배양하는데 유용한 임의의 적합한 배지는 제한없이, 적절한 보충제를 함유하는 최소 또는 완전 배지를 포함하여, 본 발명에서 사용된다. 일부 실시형태에서, 숙주 세포는 HTP 배지에서 성장된다. 적합한 배지는 다양한 상업적 공급처에서 입수할 수 있거나 또는 공개된 배합표에 따라 제조될 수 있다(예를 들어, 미국 유전자 은행(American Type Culture Collection)의 카탈로그 참조).

다른 측면에서, 본 발명은 본원에서 제공하는 개선된 PGA 폴리펩티드를 코딩하는 폴리뉴클레오티드를 포함하는 숙주 세포를 제공하고, 폴리뉴클레오티드는 숙주 세포에서 PGA 효소의 발현을 위해 1 이상의 제어 서열에 작동적으로 연결된다. 본 발명의 발현 벡터에 의해 코딩되는 PGA 폴리펩티드를 발현하는데 사용하기 위한 숙주 세포는 당분야에 잘 알려져 있고 제한없이, 박테리아 세포, 예컨대 이. 콜라이, 바실러스 메가테리움(Bacillus megaterium), 락토바실러스 케피르(Lactobacillus kefir), 스트렙토마이세스(Streptomyces) 및 살모넬라 티피뮤리움(Salmonella typhimurium); 진균 세포, 예컨대 효모 세포(예를 들어, 사카로마이세스 세레비지아 또는 피키아 파스토리스(Pichia pastoris)(ATCC 등록 번호 201178); 곤충 세포 예컨대 드로소필라(Drosophila) 및 스포돕테라(Spodoptera) Sf9 세포; 동물 세포 예컨대 CHO, COS, BHK, 293, 및 보우스 흑색종 세포; 및 식물 세포를 포함한다. 상기 기술된 숙주 세포에 적절한 배양 배지 및 성장 조건은 당분야에 잘 알려져 있다.

PGA의 발현을 위한 폴리뉴클레오티드는 당분야에 공지된 다양한 방법에 의해 세포에 도입될 수 있다. 기술들은 특히 전기천공법, 유전자총법, 리포솜 매개 형질감염법, 염화칼슘 형질감염법, 원형질 융합법을 포함한다. 세포에 폴리뉴클레오티드를 도입시키기 위한 다양한 방법은 당업자에게 공지되어 있다.

일부 실시형태에서, 숙주 세포는 진핵생물 세포이다. 적합한 진핵생물 숙주 세포는 제한없이, 진균 세포, 조류 세포, 곤충 세포, 및 식물 세포를 포함한다. 적합한 진균 숙주 세포는 제한없이, 아스코마이코타(Ascomycota), 바시디오마이코타(Basidiomycota), 듀테로마이코타(Deuteromycota), 자이고마이코타(Zygomycota), 불완전 진균류를 포함한다. 일부 실시형태에서, 진균 숙주 세포는 효모 세포 및 섬유상 진균 세포이다. 본 발명의 섬유상 진균 숙주 세포는 아문 유마이코티나(Eumycotina) 및 우마이코타(Oomycota)의 모든 섬유상 형태를 포함한다. 섬유상 진균은 키틴, 셀룰로스 및 다른 복합 다당류로 구성된 세포벽을 갖는 영양 균사체를 특징으로 한다. 본 발명의 섬유상 진균 숙주 세포는 효모와 형태학적으로 구별된다.

본 발명의 일부 실시형태에서, 섬유상 숙주 세포는 제한없이, 아클리아(Achlya), 아크레모니움(Acremonium), 아스퍼질러스(Aspergillus), 아우레오바시디움(Aureobasidium), 비제르칸데라(Bjerkandera), 세리포리옵시스(Ceriporiopsis), 세팔로스포리움(Cephalosporium), 크리소스포리움(Chrysosporium), 코클리오보러스(Cochliobolus), 코리나스커스(Corynascus), 크리포넥트리아(Cryphonectria), 크립토코커스(Cryptococcus), 코프리너스(Coprinus), 코리오러스(Coriolus), 디플로디아(Diplodia), 엔도티스(Endothis), 푸사리움(Fusarium), 지베렐라(Gibberella), 글리오클라디움(Gliocladium), 휴미콜라(Humicola), 히포크레아(Hypocrea), 마이셀리오프토라(Myceliophthora), 무코르(Mucor), 뉴로스포라(Neurospora), 페니실리움(Penicillium), 포도스포라(Podospora), 플레비아(Phlebia), 피로마이세스(Piromyces), 피리쿨라리아(Pyricularia), 리조무코르(Rhizomucor), 리조퍼스(Rhizopus), 스키조필럼(Schizophyllum), 스시탈리디움(Scytalidium), 스포로트리컴(Sporotrichum), 탈라로마이세스(Talaromyces), 써모아스커스(Thermoascus), 티에라비아(Thielavia), 트라메테스(Trametes), 톨리포클라디움(Tolypocladium), 트리코더마(Trichoderma), 베르티실리움(Verticillium), 및/또는 볼바리엘라(Volvariella), 및/또는 이의 유성생식형, 또는 무성생식형, 및 이명, 기본명, 또는 분류상 균등물을 포함하는, 임의의 속 및 종이다.

본 발명의 일부 실시형태에서, 숙주 세포는 제한없이, 캔디다(Candida), 한세뉼라(Hansenula), 사카로마이세스(Saccharomyces), 스키조사카로마이세스(Schizosaccharomyces), 피키아(Pichia), 클루이베로마이세스(Kluyveromyces), 또는 야로위아(Yarrowia) 종의 세포를 포함하는 효모 세포이다. 본 발명의 일부 실시형태에서, 효모 세포는 한세뉼라 폴리몰파(Hansenula polymorpha), 사카로마이세스 세레비지아(Saccharomyces cerevisiae), 사카로마이세스 칼스베르젠시스(Saccharomyces carlsbergensis), 사카로마이세스 디아스타티커스(Saccharomyces diastaticus), 사카로마이세스 놀벤시스(Saccharomyces norbensis), 사카로마이세스 클루이베리(Saccharomyces kluyveri), 스키조사카로마이세스 폼베(Schizosaccharomyces pombe), 피키아 파스토리스(Pichia pastoris), 피키아 핀란디카(Pichia finlandica), 피키아 트레할로필라(Pichia trehalophila), 피키아 코다마에(Pichia kodamae), 피키아 멤브라내파시엔스(Pichia membranaefaciens), 피키아 오푼티아에(Pichia opuntiae), 피키아 써모톨레란스(Pichia thermotolerans), 피키아 살리크타리아(Pichia salictaria), 피키아 케르큠(Pichia quercuum), 피키아 피지페리(Pichia pijperi), 피키아 스티피티스(Pichia stipitis), 피키아 메타놀리카(Pichia methanolica), 피키아 안구스타(Pichia angusta), 클루이베로마이세스 락티스(Kluyveromyces lactis), 칸디다 알비칸스(Candida albicans), 또는 야로위아 리포리티카(Yarrowia lipolytica)이다.

본 발명의 일부 실시형태에서, 숙주 세포는 조류 세포 에컨대 클라미도모나스(Chlamydomonas)(예를 들어, 씨. 레인하르드티(C. reinhardtii)) 및 포르미디움(Phormidium)(P. sp. ATCC29409)이다.

일부 다른 실시형태에서, 숙주 세포는 원핵생물 세포이다. 적합한 원핵생물 세포는 제한없이, 그람 양성, 그람 음성 및 그람 부정성 박테리아 세포를 포함한다. 임의의 적합한 박테리아 유기체가 제한없이, 아그로박테리움(Agrobacterium), 알리시클로바실러스(Alicyclobacillus), 아나바에나(Anabaena), 아나시스티스(Anacystis), 아시네토박터(Acinetobacter), 악시도써머스(Acidothermus), 알트로박터(Arthrobacter), 아조박터(Azobacter), 바실러스(Bacillus), 비피도박테리움(Bifidobacterium), 브레비박테리움(Brevibacterium), 부티리비브리오(Butyrivibrio), 부치네라(Buchnera), 캄페스트리스(Campestris), 캠프리오박터(Camplyobacter), 클로스트리디움(Clostridium), 코리네박테리움(Corynebacterium), 클로마티움(Chromatium), 코프로코커스(Coprococcus), 에스케리치아(Escherichia), 엔테로코커스(Enterococcus), 엔테로박터(Enterobacter, 어위니아(Erwinia), 푸소박테리움(Fusobacterium), 파에칼리박테리움(Faecalibacterium), 프란시셀라(Francisella), 플라보박테리움(Flavobacterium), 지오바실러스(Geobacillus), 해모필러스(Haemophilus), 헬리코박터(Helicobacter), 클렙시엘라(Klebsiella), 락토바실러스(Lactobacillus), 락토코커스(Lactococcus), 일리오박터(Ilyobacter), 마이크로코커스(Micrococcus), 마이크로박테리움(Microbacterium), 메소리조비움(Mesorhizobium), 메틸로박테리움(Methylobacterium), 메틸로박테리움(Methylobacterium), 마이코박테리움(Mycobacterium), 나이세리아(Neisseria), 판토에아(Pantoea), 슈도모나스(Pseudomonas), 프로클로로코커스(Prochlorococcus), 로도박터(Rhodobacter), 로도슈도모나스(Rhodopseudomonas), 로도슈도모나스(Rhodopseudomonas), 로세버리아(Roseburia), 로도스피릴럼(Rhodospirillum), 로도코커스(Rhodococcus), 세네데스머스(Scenedesmus), 스트렙토마이세스(Streptomyces), 스트렙토코커스(Streptococcus), 시네코커스(Synecoccus), 사카로모노스포라(Saccharomonospora), 스타필로코커스(Staphylococcus), 세라티아(Serratia), 살모넬라(Salmonella), 시겔라(Shigella), 써모어애로박테리움(Thermoanaerobacterium), 트로페리마(Tropheryma), 툴라렌시스(Tularensis), 테메쿨라(Temecula), 써모시네코코커스(Thermosynechococcus), 써모코커스(Thermococcus), 우레아플라스마(Ureaplasma), 잔토모나스(Xanthomonas), 자일렐라(Xylella), 여시니아(Yersinia) 및 자이모모나스(Zymomonas)를 포함하여, 본원에서 사용된다. 일부 실시형태에서, 숙주 세포는 아그로박테리움, 아시네토박터, 아조박터, 바실러스, 비피도박테리움, 부치네라, 지오바실러스, 캄필로박터, 클로스트리디움, 코리네박테리움, 에스케리치아, 엔테로코커스, 어위니아, 플라보박테리움, 락토바실러스, 락토코커스, 판토에아, 슈도모나스, 스타필로코커스, 살모넬라, 스트렙토코커스, 스트렙토마이세스, 또는 자이모모나스의 종이다. 일부 실시형태에서, 박테리아 숙주 균주는 인간에 비병원성이다. 일부 실시형태에서 박테리아 숙주 균주는 산업용 균주이다. 수많은 박테리아 산업용 균주가 알려져있고 본 발명에 적합하다. 본 발명의 일부 실시형태에서, 박테리아 숙주 세포는 아그로박테리움 종(예를 들어, 에이. 라디오박터(A. radiobacter), 에이. 리조제네스(A. rhizogenes), 및 에이. 루비(A. rubi))이다. 본 발명의 일부 실시형태에서, 박테리아 숙주 세포는 알트로박터 종(예를 들어, 에이. 아우레센스(A. aurescens), 에이. 시트레우스(A. citreus), 에이. 글로비포르미스(A. globiformis), 에이. 히드로카르보글루타미커스(A. hydrocarboglutamicus), 에이. 미소렌스(A. mysorens), 에이 니코티아나에(A. nicotianae), 에이. 파라피네우스(A. paraffineus), 에이. 프로토폰니아에(A. protophonniae), 에이. 로세오파르크피너스(A. roseoparqffinus), 에이. 설퍼레우스(A. sulfureus), 및 에이. 우레아파시엔스(A. ureafaciens))이다. 본 발명의 일부 실시형태에서, 박테리아 숙주 세포는 바실러스 종(예를 들어, 비. 투린젠시스(B. thuringensis), 비. 안트라시스(B. anthracis), 비. 메가테리움(B. megaterium), 비. 서브틸리스(B. subtilis), 비. 렌터스(B. lentus), 비. 실쿨란스(B. circulans), 비. 푸밀러스(B. pumilus), 비. 라우터스(B. lautus), 비. 코아굴란스(B.coagulans), 비. 브레비스(B. brevis), 비. 필머스(B. firmus), 비. 알카오피우스(B. alkaophius), 비. 리체니포르미스(B. licheniformis), 비. 클라우시(B. clausii), 비. 스테아로써모필러스(B. stearothermophilus), 비. 할로두란스(B. halodurans), 및 비. 아밀로리케파시엔스(B. amyloliquefaciens))이다. 일부 실시형태에서, 숙주 세포는 제한없이, 비. 서브틸리스, 비. 푸밀러스, 비. 리체니포르미스, 비. 메가테리움, 비. 클라우시, 비. 스테아로써모필러스, 또는 비. 아밀로리케파시엔스를 포함하는 산업 바실러스 균주이다. 일부 실시형태에서, 바실러스 숙주 세포는 비. 서브틸리스, 비. 리체니포르미스, 비. 메가테리움, 비. 스테아로써모필러스, 및/또는 비. 아밀로리케파시엔스이다. 일부 실시형태에서, 박테리아 숙주 세포는 클로스트리디움 종(예를 들어, 씨. 아세토부틸리컴(C. acetobutylicum), 씨. 테타니(C. tetani) E88, 씨. 리투세부렌스(C. lituseburense), 씨. 사카로부틸리컴(C. saccharobutylicum), 씨. 펄프린젠스(C. perfringens), 및 씨. 베이제린키(C. beijerinckii))이다. 일부 실시형태에서, 박테리아 숙주 세포는 코리네박테리움 종((예를 들어, 씨. 글루타미컴(C. glutamicum) 및 씨. 아세토아시도필럼(C. acetoacidophilum))이다.. 일부 실시형태에서, 박테리아 숙주 세포는 에스케리치아 종(예를 들어, 이. 콜라이)이다. 일부 실시형태에서, 박테리아 숙주 세포는 어위니아 종(예를 들어, 이. 우레도보라(E. uredovora), 이. 카로토보라(E. carotovora), 이.아나나스(E. ananas), 이. 헬비콜라(E. herbicola), 이. 푼타타(E. punctata), 및 이. 테레우스(E. terreus))이다. 일부 실시형태에서, 박테리아 숙주 세포는 판토에아 종(예를 들어, 피. 시트레아(P. citrea), 및 피. 아글로메란스(P. agglomerans))이다. 일부 실시형태에서, 박테리아 숙주 세포는 슈도모나스 종(예를 들어, 피. 푸티다(P. putida), 피. 에루지노사(P. aeruginosa), 피. 메발로니(P. mevalonii), 및 슈도모나스 종 D-0l 10)이다. 일부 실시형태에서, 박테리아 숙주 세포는 스트렙토코커스 종(예를 들어, 에스. 에퀴시밀레스(S. equisimiles), 에스. 피오제네스(S. pyogenes), 및 에스. 우베리스(S. uberis))이다. 일부 실시형태에서, 박테리아 숙주 세포는 스트렙토마이세스 종(예를 들어, 에스. 암보파시엔스(S. ambofaciens), 에스. 아크로모제네스(S. achromogenes), 에스. 아벨미틸리스(S. avermitilis), 에스. 코엘리콜롤(S. coelicolor), 에스. 아우레오파시엔스(S. aureofaciens), 에스. 아우레우스(S. aureus), 에스. 푼지시디커스(S. fungicidicus), 에스. 그리세우스(S. griseus), 및 에스. 리비단스(S. lividans))이다. 일부 실시형태에서, 박테리아 숙주 세포는 자이모모나스 종(예를 들어, 지. 모빌리스(Z. mobilis), 및 지. 리포리티카(Z. lipolytica))이다.

예시적인 숙주 세포는 에스케리치아 콜라이(Escherichia coli) W3110이다. 발현 벡터는 lacI 억제인자의 제어 하에 있는 lac 프로모터에 작동적으로 연결된 플라스미드 pCK110900에 개선된 PGA를 코딩하는 폴리뉴클레오티드를 작동적으로 연결시켜 생성시켰다. 발현 벡터는 또한 P15a 복제 기원 및 클로람페니콜 내성 유전자를 함유하였다. 에스케리치아 콜라이 W3110에 대상 폴리뉴클레오티드를 함유하는 세포는 이 세포에 클로람페니콜 선별을 수행하여 단리하였다.

본 발명에서 사용되는 많은 원핵생물 및 진핵생물 균주는 수많은 균주 수집처 에컨대 미국 균주 은행(American Type Culture Collection(ATCC)), 독일 생물자원 센터(Deutsche Sammlung von Mikroorganismen und Zellkulturen GmbH(DSM)), 네덜란드 중앙 균주 센터(Centraalbureau Voor Schimmelcultures(CBS)), 및 농업 연구 서비스 특허 균주 은행, 북부 연구 센터(Agricultural Research Service Patent Culture Collection, Northern Regional Research Center)(NRRL)에서 공적으로 쉽게 입수할 수 있다.

일부 실시형태에서, 숙주 세포는 단백질 분비, 단백질 안정성 및/또는 단백질의 발현 및/또는 분비에 바람직한 다른 특성을 개선시킨 특징을 갖도록 유전적으로 변형된다. 유전자 변형은 유전자 조작 기술 및/또는 고전적인 미생물학적 기술(예를 들어, 화학 또는 UV 돌연변이유발법 및 후속 선별법)에 의해 획득될 수 있다. 또한, 일부 실시형태에서, 재조합 변형 및 고전적 선별 기술의 조합을 사용해 숙주 세포를 생성시킨다. 재조합 기술을 사용하여, 핵산 분자를 숙주 세포 내 및/또는 배양 배지 내에 PGA 변이체(들)의 수율 증가를 유발시키는 방식으로, 도입시키거나, 결실시키거나, 억제시키거나 또는 변형시킬 수 있다. 예를 들어, Alp1 기능의 넉아웃은 프로테아제 결핍된 세포를 초래하고, pyr5 기능의 넉아웃은 피리미딘 결핍 표현형을 갖는 세포를 초래한다. 한 유전자 조작 접근법에서, 상동성 재조합이 코딩된 단백질의 발현을 억제하도록 생체 내에서 유전자를 특이적으로 표적화하여 표적 유전자 변형을 유도시키는데 사용된다. 대안적 접근법에서, siRNA, 안티센스 및/또는 리보자임 기술이 유전자 발현을 억제하는데 사용된다. 제한없이, 단백질을 코딩하는 유전자의 전부 또는 일부의 결실 및 유전자 생성물의 발현 또는 활성을 파괴시키는 부위-특이적 돌연변이유발법을 포함하여, 세포에서 단백질의 발현을 감소시키기 위한 다양한 방법이 당분야에 알려져 있다(예를 들어, 전부 참조로 본원에 포함되는, 다음의 문헌들을 참조함: [Chaveroche et al., Nucl. Acids Res., 28:22 e97 [2000]]; [Cho et al., Molec. Plant Microbe Interact., 19:7-15 [2006]]; [Maruyama and Kitamoto, Biotechnol Lett., 30:1811-1817 [2008]]; [Takahashi et al., Mol. Gen. Genom., 272: 344-352 [2004]]; 및 [You et al., Arch. Micriobiol.,191:615-622 [2009]]). 무작위 돌연변이유발법과 바람직한 돌연변이에 대한 후속 스크리닝이 또한 사용된다(예를 들어, 둘 모두 참조로 본원에 포함되는, 다음의 문헌들을 참조함: [Combier et al., FEMS Microbiol. Lett., 220:141-8 [2003]]; 및 [Firon et al., Eukary. Cell 2:247-55 [2003]]).

숙주 세포로 벡터 또는 DNA 구성체의 도입은 제한없이, 인산칼슘 형질감염법, DEAE-덱트스란 매개 형질감염법, PEG-매개 형질도입법, 전기천공법, 또는 당분야에 공지된 다른 공통 기술을 포함하여, 당분야에 공지된 임의의 적합한 방법을 사용해 수행할 수 있다.

일부 실시형태에서, 본 발명의 조작된 숙주 세포(즉, "재조합 숙주 세포")는 프로모터를 활성화시키거나, 형질전환체를 선별하거나, 또는 PGA 폴리뉴클레오티드를 증폭시키기에 적절하게 변형된 통상의 영양 배지에서 배양된다. 배양 조건, 예컨대 온도, pH 등은 발현에 선택된 숙주 세포로 이전에 사용된 것들이고, 당업자에게 잘 알려져 있다. 언급한 바와 같이, 많은 표준 참조문헌 및 교재가 박테리아, 식물, 동물(특히 포유동물) 및 고세균의 세포를 포함하여, 많은 세포의 배양 및 생성에 이용가능하다.

일부 실시형태에서, 본 발명의 변이체 PGA 폴리펩티드를 발현하는 세포는 회분식 또는 연속형 발효배양 조건 하에서 성장된다. 고전적인 "회분식 발효배양"은 폐쇄 시스템으로서, 배지의 조성이 발효의 시작시에 설정되어 발효 동안 인공적인 변경이 가해지지 않는다. 회분식 시스템의 이형은 본 발명에서 역시 사용되는 "유가식 발효배양"이다. 이러한 이형에서, 기질이 발효 배양을 진행함에 따라 증분량으로 첨가된다. 유가식 시스템은 이화대사산물 억제가 아마도 세포의 물질대사를 억제할 수 있는 경우 및 배지 내에 제한량의 기질을 갖는 것이 바람직한 경우에 유용하다. 회분식 및 유가신 발효배양은 당분야에서 일반적이고 잘 알려져 있다. "연속 발효배양"은 정해진 발효배양 배지가 연속적으로 생물반응기에 첨가되고 동일량의 조건화 배지가 프로세싱 동안 동시에 제거되는 개방형 시스템이다. 연속 발효배양은 일반적으로 세포를 주로 대수기 성장의 일정한 고밀도로 배양물을 유지시킨다. 연속 발효배양 시스템은 정상 상태 성장 조건을 유지시키도록 노력한다. 연속발효배양 공정을 위해 영양분 및 성장 인자를 조정하기 위한 방법을 비롯하여 생성물 형성 속도를 최대화하기 위한 기술이 산업 미생물학 분야에서 잘 알려져 있다.

본 발명의 일부 실시형태에서, 세포 무함유 전사/번역 시스템이 변이체 PGA(들)를 생성시키는데 사용된다. 몇몇 시스템은 상업적으로 입수가능하고 방법은 당업자에게 잘 알려져 있다.

본 발명은 변이체 PGA 폴리펩티드 또는 이의 생물학적 활성 단편을 제조하는 방법을 제공한다. 일부 실시형태에서, 상기 방법은 서열번호 2와 적어도 약 70%(또는 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%)의 서열 동일성을 포함하는 아미노산 서열을 코딩하고 본원에서 제공하는 적어도 하나의 돌연변이를 포함하는 폴리뉴클레오티드로 형질전환된 숙주 세포를 제공하는 단계; 숙주 세포가 코딩된 변이체 PGA 폴리펩티드를 발현하는 조건 하에서 배양 배지에서 형질전환된 숙주 세포를 배양하는 단계, 및 경우에 따라 발현된 변이체 PGA 폴리펩티드를 회수 또는 단리하는 단계, 및/또는 발현된 변이체 PGA 폴리펩티드를 함유하는 배양 배지를 회수 또는 단리하는 단계를 포함한다. 일부 실시형태에서, 상기 방법은 경우에 따라 코딩된 PGA 폴리펩티드를 발현시킨 후 형질전환된 숙주 세포를 용해시키는 단계 및 경우에 따라 세포 용해물로부터 발현된 변이체 PGA 폴리펩티드를 회수 및/또는 단리하는 단계를 더 제공한다. 본 발명은 변이체 PGA 폴리펩티드의 생성에 적합한 조건 하에서 변이체 PGA 폴리펩티드로 형질전환된 숙주 세포를 배양하는 단계 및 변이체 PGA 폴리펩티드를 회수하는 단계를 포함하는 변이체 PGA 폴리펩티드를 제조하는 방법을 더 제공한다. 전형적으로, PGA 폴리펩티드의 회수 또는 단리는 본원에 기술된 것들을 포함하여, 당분야에 잘 알려진 단백질 회수 기술을 사용하여, 숙주 세포 배양 배지, 숙주 세포 또는 둘 모두로부터 한다. 일부 실시형태에서, 숙주 세포는 원심분리에 의해 수확되어, 물리적 또는 화학적 수단으로 파괴되고, 최종 미정제 추출물은 추가 정제를 위해 유지시켰다. 단백질의 발현에 적용된 미생물 세포는 제한없이, 냉동-해동 사이클링, 초음파처리, 기계적 파괴, 및/또는 세포 용해제의 사용을 비롯하여, 당업자에게 잘 알려진 많은 다른 적합한 방법을 포함해, 임의의 편리한 방법으로 파괴시킬 수 있다.

숙주 세포에서 발현되는 조작된 PGA 효소는 특히, 리소자임 처리, 초음파처리, 여과, 염석, 초원심분리, 및 크로마토그래피를 포함한, 단백질 정제를 위해 잘 알려진 기술 중 어느 하나 이상을 사용해 세포 및/또는 배양 배지로부터 회수될 수 있다. 박테리아, 예컨대 이. 콜라이로부터 용해 및 단백질의 고효율 추출을 위해 적합한 용액은 상품명 셀라이틱스 비(CelLytic B)(상표명)(Sigma-Aldrich) 하에 상업적으로 입수할 수 있다. 따라서, 일부 실시형태에서, 최종 폴리펩티드는 회수/단리되고 경우에 따라 당분야에 공지된 임의의 많은 방법으로 정제된다. 예를 들어, 일부 실시형태에서, 폴리펩티드는 제한없이, 원심분리, 여과, 추출, 분무-건조, 증발, 크로마토그래피(예를 들어, 이온 교환, 친화성, 소수성 상호작용, 크로마토포커싱, 및 크기 배제), 또는 침전을 포함한 통상의 절차에 의해 영양 배지로부터 단리된다. 일부 실시형태에서, 단백질 리폴딩 단계는 바람직하다면, 성숙한 단백질의 원심분리를 완료하고 사용된다. 또한, 일부 실시형태에서, 고성능 액상 크로마토그래피(HPLC)가 최종 정제 단계에서 적용된다. 예를 들어, 일부 실시형태에서, 당분야에 공지인 방법이 본 발명에서 사용된다(예를 들어, 둘 모두 참조로 본원에 포함되는, 다음의 문헌들을 참조함: [Parry et al., Biochem. J., 353:117 [2001]]; 및 [Hong et al., Appl. Microbiol. Biotechnol., 73:1331 [2007]]). 또한, 당분야에 공지된 임의의 적합한 정제 방법이 본 발명에서 사용된다.

PGA 폴리펩티드의 단리를 위한 크로마토그래피 기술은 제한없이, 역상 크로마토그래피, 고성능 액상 크로마토그래피, 이온 교환 크로마토그래피, 겔 전기영동, 및 친화성 크로마토그래피를 포함한다. 특정 효소를 정제하기 위한 조건은 부분적으로 인자들 예컨대 순전하,소수성,친수성, 분자량, 분자 형상 등에 의존적이고 당업자에게 공지되어 있다.

일부 실시형태에서, 친화성 기술이 개선된 PGA 효소를 단리시키는데 사용된다. 친화성 크로마토그래피 정제를 위해, PGA 폴리펩티드에 특이적으로 결합하는 임의의 항체가 사용될 수 있다. 항체의 생성을 위해, 제한없이, 토끼, 마우스. 래트 등을 포함해, 다양한 숙주 동물이 PGA의 주사에 의해 면역화될 수 있다. PGA 폴리펩티드는 측쇄 작용기 또는 측쇄 작용기에 부착된 링커에 의해, 적합한 담체, 예컨대 BSA에 부착될 수 있다. 제한없이, 프로인트(완전 및 불완전), 미네랄 겔 예컨대 수산화알루미늄, 표면 활성 물질 예컨대 리소레시틴, 플루로닉 폴리올, 다음이온, 펩티드, 오일 에멀션, 키홀 림펫 헤모시아닌, 디니트로페놀, 및 잠재적으로 유용한 인간 보조제 예컨대 BCG(Bacillus Calmette Guerin) 및 코리네박테리움 파르븀(Corynebacterium parvum)을 포함하여, 다양한 보조제가 숙주 종에 따라, 면역학적 반응을 증가시키는데 사용될 수 있다.

일부 실시형태에서, PGA 변이체는 효소를 발현하는 세포의 형태, 미정제 추출물로서, 또는 단리 또는 정제 조제물로서 제조되고 사용된다. 일부 실시형태에서, PGA 변이체는 분말 형태(예를 들어, 아세톤 분말)인, 동결건조물로서 제조되거나, 또는 효소 용액으로 제조된다. 일부 실시형태에서, PGA 변이체는 실질적으로 순수한 조제물 형태이다.

일부 실시형태에서, PGA 폴리펩티드는 임의의 적합한 고체 기질에 부착된다. 고체 기질은 제한없이, 고체상, 표면, 및/또는 막을 포함한다. 고체 지지체는 제한없이, 유기 중합체 예컨대 폴리스티렌, 폴리에틸렌, 폴리프로필렌, 폴리플루오로에틸렌, 폴리에틸렌옥시, 및 폴리아크릴아미드를 비롯하여 이의 공중합체 및 그라프트를 포함한다. 고체 지지체는 또한 무기물, 예컨대 유리, 실리카, 제어 공극 유리(CPG), 역상 실리카 또는 금속, 예컨대 금 또는 백금을 포함한다. 기질의 입체형태는 비드, 구형, 입자, 과립, 겔, 막 또는 표면의 형태일 수 있다. 표면은 평면, 실질적으로 평면 또는 비평면일 수 있다. 고체 지지체는 다공성이거나 또는 비다공성일 수 있고, 팽균성 또는 비팽윤성 특징을 가질 수 있다. 고체 지지체는 웰의 형태, 함몰형, 또는 다른 용기 형태, 베슬, 지형, 또는 위치로 배치될 수 있다. 다수의 지지체가 시약의 로봇식 전달을 다룰 수 있거나, 또는 검출 방법 및/또는 장비에 의해 다룰 수 있는, 다양한 위치의 어레이 상에 배치될 수 있다.

일부 실시형태에서, 면역학적 방법이 PGA 변이체를 정제하는데 사용된다. 일 접근법에서, 통상의 방법을 사용하여 변이체 PGA 폴리펩티드(예를 들어, 서열번호 2, 4, 6, 8, 10, 또는 12 중 어느 하나를 포함하는 폴리펩티드, 및/또는 이의 면역원성 단편)에 대항하여 생성된 항체를 비드 상에 고정시키고, 변이체 PGA가 결합하는 조건 하에서 세포 배양 배지와 혼합하고, 침전시킨다. 관련 접근법에서, 면역크로마토그래피가 사용된다.

일부 실시형태에서, 변이체 PGA는 비효소 부분을 포함한 융합 단백질로서 발현된다. 일부 실시형태에서, 변이체 PGA 서열은 정제 용이 도메인에 융합된다. 본원에서 사용시, "정제 용이 도메인"은 융합되는 폴리펩티드의 정제를 매개하는 도메인을 의미한다. 적합한 정제 도메인은 제한없이, 금속 킬레이트화 펩티드, 고정된 금속 상에서 정제를 가능하게 하는, 히스티딘-트립토판 모듈, 글루타티온에 결합하는 서열(예를 들어, GST), 헤마글루티닌(HA) 태그(인플루엔자 헤마글루티딘 단단백질에서 유도된 에피토프에 상응; 예를 들어, 다음의 문헌을 참조함: [Wilson et al., Cell 37:767 [1984]]), 말토스 결합 단백질 서열, FLAGS 확장/친화성 정제 시스템(예를 들어, Immunex Corp에서 입수할 수 있는 시스템)에서 이용되는 FLAG 등을 포함한다. 본원에 기술된 조성물 및 방법에 사용이 고려되는 한 발현 벡터는 엔테로키나제 절단 부위에 의해 이격된 폴리히스티딘 영역에 융합된 본 발명의 폴리펩티드를 포함하는 융합 단백질의 발현을 제공한다. 히스티딘 잔기는 IMIAC(고정된 금속 이온 친화성 크로마토그래피; 예를 들어, 다음의 문헌을 참조함: [Porath et al., Prot. Exp. Purif., 3:263-281 [1992]]) 상에서 정제를 용이하게 하는 한편 엔테로키나제 절단 부위는 융합 단백질로부터 변이체 PGA 폴리펩티드를 분리시키기 위한 수단을 제공한다. pGEX 벡터(Promega)는 글루타티온 S-트랜스퍼라제(GST)와의 융합 단백질로서 외래 폴리펩티드를 발현시키는데 사용될 수 있다. 일반적으로, 이러한 융합 단백질은 가용성이어서 리간드-아가로스 비드(예를 들어, GST-융합체의 경우 글루타티온-아가로스)에 흡착 후 유리 리간드 존재에서 용리시켜 용해된 세포로부터 쉽게 정제될 수 있다.

실험

본원의 다양한 특징 및 실시형태를 이하의 대표적인 실시예에서 예시하지만, 예시를 위한 것이고, 제한하는 것이 아니다.

하기 실험에서, 다음의 약어가 적용된다: ppm(백만분율); M(몰 농도); mM(밀리몰 농도), uM 및 μM(마이크로몰 농도); nM(나노몰 농도); mol(몰수); gm 및 g(그램); mg(밀리그램); ug 및 ㎍(마이크로그램); L 및 l(리터); ml 및 mL(밀리리터); cm(센티미터); mm(밀리미터); um 및 ㎛(마이크로미터); sec.(초); min(분); h 및 hr(시간); U(유닛); MW(분자량); rpm(분당 회전수); ℃(섭씨 온도); RT(실온); CDS(코딩 서열); DNA(데옥시리보핵산); RNA(리보핵산); TB(테리픽(Terrific) 액체배지; 12 g/L 박토-트립톤, 24 g/L 효모 추출물, 4 mL/L 글리세롤, 65 mM 인산칼륨, pH 7.0, 1 mM MgSO₄); CAM(클로람페니콜); PMBS(폴리믹신 B 설페이트); IPTG(이소프로필 티오갈락토시드); TFA(트리플루오로아세트산); HPLC(고성능 액상 크로마토그래피); FIOPC(양성 대조군 대비 배수 개선); HTP(고산출량); LB(루리아 액체배지); 코데시스(Codexis, Inc., Redwood City, CA); 시그마-알드리치(Sigma-Aldrich, St. Louis, MO); 밀리포어(Millipore, Corp., Billerica MA); 디프코(Difco Laboratories, BD Diagnostic Systems, Detroit, MI); 다이셀(Daicel, West Chester, PA); 제네티스(Genetix USA, Inc., Beaverton, OR); 몰리큘라 디바이시스(Molecular Devices, LLC, Sunnyvale, CA); 어플라이드 바이오시스템스(Applied Biosystems, Life Technologies, Corp.의 지부, Grand Island, NY), 애질런트(Agilent Technologies, Inc., Santa Clara, CA); 써모 사이언티픽(Thermo Fisher Scientific의 지부, Waltham, MA); 인폴스(Infors-HT, Bottmingen/Basel, Switzerland); 코닝(Corning, Inc., Palo Alto, CA); 및 바이오-라드(Bio-Rad Laboratories, Hercules, CA); 마이크로플루이딕스(Microfluidics Corp., Newton, MA, United States of America).

하기 서열은 본 발명에서 사용된다.

실시예 1

재조합 PGA 유전자를 함유하는 이.콜라이( E. coli ) 발현 숙주

본 발명의 변이체를 생성시키는데 사용된 초기 PGA 효소는 코덱스(Codex)(등록상표) 아실라아제 패널(코데시스)에서 입수하였다. PGA 패널 플레이트는 야생형 클루이베라 시트로필라 PGA와 비교하여, 개선된 특성을 갖는 조작된 PGA 폴리펩티드의 컬렉션을 포함한다. 야생형 PGA 유전자는 54 aa 스페이서 영역에 의해 연결된 알파 서브유닛(23.8 KDa) 및 베타 서브유닛(62.2KDa)으로 이루어진 이종이량체이다. 스페이서 영역의 존재로 인해서, 자가프로세싱 단계는 활성 단백질을 형성시키는데 필요하다. 야생형 유전자는 스페이서 영역을 제거하도록 변형되어서 자가 프로세싱 단계가 없어졌다. 코덱스 아실라아제 패널(코데시스)은 스페이서 영역이 결여된 PGA 변이체를 함유한다(예를 들어, 미국 공개 특허 출원 제2010/0143968호 A1를 참조함). PGA-코딩 유전자는 lacI 억제인자 제어 하의 lac 프로모터에 작동적으로 연결된 발현 벡터에 클로닝되었다(예를 들어, 미국 공개 특허 출원 제2006/0195947호의 도 3 참조). 발현 벡터는 또한 P15a 복제 기원 및 클로람페니콜 내성 유전자를 함유한다. 최종 플라스미드는 당분야에 공지된 표준 방법을 사용하여, 이. 콜라이 W3110에 형질전환시켰다. 형질전환체는 당분야에 공지된 바와 같이, 세포에 대해 클로람페니콜 선별을 수행하여 단리하였다(예를 들어, 미국 특허 제8,383,346호 및 WO2010/144103을 참조함).

실시예 2

HTP PGA-함유 습윤 세포 펠렛의 제조

단일클론 콜로니 유래의 재조합 PGA-코딩 융전자를 함유하는 이. 콜라이 세포를 96웰 얕은 웰 마이크로타이터 플레이트의 웰 중 1% 포도당 및 30 ㎍/mL 클로람페니콜을 함유하는 180 ㎕ LB에 접종하였다. 배양물을 30℃, 200 rpm 및 85% 습도에서 밤새 성장시켰다. 다음으로, 10 ㎕의 각 세포 배양물을 390 mL TB 및 30 ㎍/mL CAM을 함유하는 96웰 깊은 웰 플레이트의 웰로 옮겼다. 깊은 웰 플레이트를 3시간(OD600 0.6-0.8) 동안 30℃, 250 rpm 및 85% 습도에서 항온반응시켰다. 다음으로, 세포 배양물을 1 mM의 최종 농도로 IPTG에 의해 유도시키고 밤새 본래 사용된 것과 동일한 조건에서 항온반응하였다. 이어서, 세포를 4000 rpm에서 10분간 원심분리를 사용해 펠렛화시켰다. 상등액을 버리고 펠렛은 용해 전까지 -80℃에 냉동시켰다.

실시예 3

HTP PGA-함유 세포 용해물의 제조 및 분석

먼저, 20 mM Tris-HCl 완충제, pH 7.5, 1 mg/mL 리소자임, 및 0.5 mg/mL PMBS를 함유하는 250 ㎕의 용해 완충액을 실시예 2에 기술된 바와 같이 생성된 각 웰의 세포 페이스트에 첨가하였다. 세포를 실온에서 2시간 동안 벤치탑 진탕기 상에서 진탕하면서 용해시켰다. 다음으로, 펠렛을 15분간 4000 rpm 및 4℃에서 원심분리하였다. 투명한 상등액을 그들의 활성도를 결정하기 위한 생물촉매 반응에 사용하였다.

PGA 변이체의 활성은 인슐린의 A1(글리시), B1(페닐알라닌), 및 B29(리신) 잔기에 화학적으로 부착된 3개의 페닐 아세테이트 기를 제거하는 변이체의 효율을 기반으로 평가하였다. HTP 반응은 96웰 깊은 웰 플레이트에서 수행하였다. 먼저, 0.3 mL의 반응 혼합물은 0.1 M Tris-HCl, pH 8.0, 5 g/L 삼중 보호된 인슐린 및 25-125 ㎕(선형 곡선에 의존적)의 HTP 용해물을 함유하였다. HTP 플레이트는 써모트론(Thermotron)(등록상표) 진탕기(3 mm 간격, 모델 #AJ185, 인폴스, 30℃, 300 rpm)에서, 6 또는 22시간 동안 항온반응하였다. 반응물을 300 ㎕의 아세토니트릴로 켄칭하고 3분간 벤치탑 진탕기를 사용해 혼합하였다. 다음으로, 플레이트를 4000 rpm에서 2분간 원심분리하였고 분석을 위해 HPLC에 적재하였다. 애질런트 이클립스(Agilent eclipse) XDB C18, 5 ㎛, 2.1 x 150 mm 컬럼을 사용하여 HTP 샘플을 분석하였다. 유속은 0.5 mL/분으로 설정하였고 온도는 50℃로 설정하였다. 이동상 A는 물 + 0.05% TFA였고, 이동상 B는 아세토니트릴 + 0.05% TFA였다. 실행시간은 7.2분이였고, 주입 중복은 가능하였다. 농도구배는 0.2분간 75% 이동상 A, 4.9분간 55% 이동상 A, 5.4분간 5% 이동상 A였고, 5.9분간 75% 이동상 A로 돌아왔다.

실시예 4

진탕 플라스크(SF) 배양물 유래의 동결건조된 용해물의 제조 및 분석

상기에 기술된 바와 같이 성장시킨 선택된 HTP 배양물을 1% 포도당 및 30 ㎍/mL CAM을 갖는 LB 한천 플레이트 상에 플레이팅하고 밤새 37℃에서 성장시켰다. 각 배양물로부터의 단일 콜로니를 1% 포도당 및 30 ㎍/mL CAM을 갖는 50 mL의 LB로옮겼다. 배양물을 18시간 동안 30℃에 250 rpm에서 성장시켰고, 30 ㎍/mL CAM을 함유하는 250 mL의 TB에 대략 1:10으로, 0.2의 최종 OD₆₀₀까지 서브배양하였다. 배양물을 135분간 30℃, 250 rpm에서, 0.6-0.8의 OD₆₀₀까지 성장시키고 1 mM IPTG로 유도시켰다. 다음으로, 배양물을 20시간 동안 30℃, 250 rpm에서 성장시켰다. 배양물을 4000 rpm x 20분간 원심분리시켰다. 상등액을 버리고, 펠렛을 30 mL의 50 mM 인산나트륨, pH 7.5에 재현탁시켰다. 세포를 펠렛화(4000 rpm x 20분)시키고 -80℃에서 120분간 냉동시켰다. 냉동된 펠렛을 30 mL의 50 mM 인산나트륨 pH 7.5에 재현탁시키고, 미세유동화기 시스템(마이크로플루이딕스)을 사용해 18,000 psi에서 용해시켰다. 용해물을 펠렛화(10,000 rpm x 60분)시켰고 상등액을 냉동 및 동결건조시켜서 진탕 플라스크(SF) 효소를 생성시켰다.

선택된 진탕 플라스크 PGA 변이체의 활성은 인슐린의 A1(글리신), B1(페닐알라닌), 및 B29(리신) 잔기에 화학적으로 부착된 3개 페닐 아세테이트 기를 제거하는 변이체의 효율을 기반으로 평가하였다. 진탕 플라스크 반응은 96웰의 깊은 웰 플레이트에서 수행하였다. 먼저, 0.3 mL의 반응 혼합물은 0.1 M Tris-HCl, pH 8.0, 5 g/L 삼중 보호된 인슐린, 0.1-0.8 g/L의 진탕 플라스크 용해물을 함유하였다. 깊은 웰 반응 플레이트를 써모트론 진탕기(3 mm 간격, 모델# AJ185, 인폴스)에 30℃, 300rpm에서 22시간 또는 6시간(1회전 진화를 위해 22시간 및 2회전 진화를 위해 6시간) 동안 항온반응시켰다. 반응물을 300 ㎕ 아세토니트릴로 켄칭하고 3분가나 벤치탑 진탕기에서 혼합하였다. 다음으로, 플레이트를 4000 rpm에서 2분간 원심분리하고 분석을 위해 HPLC에 적재하였다. 애질런트 이클립스 XDB C18, 5 ㎛, 2.1 x 150 mm 컬럼을 HTP 샘플을 분석하는데 사용하였다. 유속은 0.6 mL/분으로 설정하였고, 온도는 50℃로 설정하였다. 이동상 A는 물 + 0.05% TFA였고 이동상 B는 아세토니트릴 + 0.05% TFA였다. 실행시간은 18.2분이었고 주입 중복은 가능하였다. 농도구배는 0-1분 동안 80% 이동상 A, 12분간 60% 이동상 A, 15분간 5% 이동상 A였고, 16분간 80% 이동상 A로 되돌아갔다.

실시예 5

1회전 진화 골격 선택, 구축 및 스크리닝

상기 실시예들에 기술된 HTP 프로토콜에 따라서, 코덱스 아실라아제 패널(코데시스)을 실시예 4에 기술된 진탕 플라스크 프로토콜을 사용해 평가하였다. 코덱스 아실라아제 패널 유래의 "변이체 1"이라고 명명한 변이체 중 하나(서열번호 4)는 22시간 동안 0.8 g/L 진탕 플라스크 용해물 적재량으로 54% 유리 인슐린을 생성시켰다. 기질 억제 실험을 변이체 1을 사용해 수행하였다(도 1을 참조함). 삼중 보호된 인슐린 기질의 농도를 증가시키면, 변이체 1에 의해 촉매되는 유리 인슐린의 생성은 유의하게 감소되었다. 5시간 동안, 유리 인슐린 생성은 0.8 g/L의 고정 효소 적재량에서 1 g/L 기질 적재량일 때 82%에서 10 g/L 기질 적재량에서 2%로 떨어졌다. 본 발명을 임의의 특정 기전에 국한하려는 의도는 없지만, 이들 결과는 더 높은 농도의 삼중 보호된 인슐린 기질이 기질 억제를 초래한다는 것을 시사한다. 유리 인슐린 생성량은 낮은 기질 농도에서 증가하였다(예를 들어, 다음 문헌을 참조함: [Wang et al., Biopolymer 25:S109-S114 [1986]]). 따라서, 본 발명에서 제공하는 장점 중 하나는 기질 억제를 극복한 PGA 변이체의 생성이다. 이러한 변이체는 1회전 진화를 위한 골격으로서 선택되었다. 변이체 1의 상동성 모델은 주형으로서 이. 콜라이 PGA를 사용해 구축하였다(이. 콜라이 PGA는 야생형 케이. 시트로필라 PGA와 87% 서열 동일성을 가짐). 삼중 보호된 인슐린은 이의 PGA와의 상호작용에 접근하도록 변이체 1의 활성 부위에 도킹되었다. 다음으로, 이의 아미노산 서열 내 96 위치가 1회전의 진화에 선택되었는데, 활성 부위 및 삼중 보호된 인슐린 결합 부위의 제1 층(5-6Å 이내의 아미노산 잔기) 및 제2 층의 일부(6-12Å 이내의 아미노산 잔기)를 포괄한다. 2종의 조합 라이브러리를 또한, PGA 패널 스크리닝 결과 및 공통 돌연변이의 분석을 기반으로 디자인하였다. 이 1회전의 진화에서 획득한 변이체에 대한 모든 HTP 스크리닝을 상기에 기술된 바와 동일한 프로토콜을 사용해 수행하였고, 최종 반응 시점은 22시간이었다. 변이체 1에 대한 총 활성에서 상응하는 배수 개선을 갖는 활성 돌연변이를 하기 표 5.1에 도시한다. 이 표에서, 양성 대조군은 변이체 1(서열번호 4)이다.

이들 결과를 기반으로, 변이체 6, 19, 14, 67, 88, 및 53은 진탕 플라스크 부피까지 규모를 확대하였고, 그들 활성은 이전 실시형태에 기술된 프로토콜을 사용해 분석하였다. 결과는 도 2에 도시하였다. 변이체 6은 22시간 동안 0.8 g/L 효소 적재량에서 93% 유리 인슐린을 생성시켰고(도 2를 참조함), 변이체 1과 비교하여 더 나은 발현도를 달성하였다. 변이체 53은 변이체 1과 유사한 발현도를 가졌지만, 변이체 1에 의해 생성된 54%와 비교하여 73% 유리 인슐린을 생성시켰다. 결과들을 기반으로, 변이체 6(서열번호 6)은 다음 회(즉, 2회전)의 진화를 위한 출발 골격으로 선택되었다. 이 변이체를 또한 "발현 히트"라고 명명하였다. 변이체 53(서열번호 8)이 또한 대체 2회전 골격으로 선택되었고 "활성 히트"라고 명명되었다.

실시예 6

2회전 라이브러리 구축 및 스크리닝

1회전 진화에서 동정된 최고로 유리한 돌연변이는 D484N, V264A, Q547K, V56I, S750G, V56L, S619K, V28N, V618I, 및 T131N이었다. 2종의 조합 라이브러리를 골격으로서 변이체 6 및 변이체 53을 사용해, 1회전 결과의 분석을 기반으로, 디자인되었다. 2회전 변이체에 대해 사용된 모든 HTP 스크리닝 방법을 이전에 기술된 프로토콜을 사용해 수행하였고, 최종 반응 시점은 6시간이었다. 변이체 6 및 변이체 53에 대한 전체 활성에서 상응하는 배수 개선을 갖는 활성 돌연변이는 하기 표 6.1 및 6.2에 도시하였다. 표 6.1은 변이체 6을 기반으로 한 변이체의 결과를 제공하는 반면, 표 6.2는 변이체 53을 기반으로 한 변이체의 결과를 제공한다.

변이체 6(서열번호 6), 258(서열번호 12) 및 261(서열번호 10)이 이전 실시예에 기술된 프로토콜을 사용하여 분석된 진탕 플라스크 및 그들의 활성에서 확대되었다. 결과를 도 3에 도시하였다. 표시된 바와 같이, 변이체 258은 < 0.8 g/L 진탕 플라스크 용해물 적재량에서 > 99% 유리 인슐린을 생성시켜서, 완전하게 기질 억제를 방출시킨데 반해, 변이체 261은 6시간 동안 0.8 g/L 용해물 적재량에서 ∼90% 유리 인슐린을 생성시켰다.

따라서, 본 발명은 전체 활성에서 8×배 개선을 가진 PGA 변이체를 제공한다. 또한 S619K 치환이 주로 활성에 영향을 준데 반해 D484N 치환은 주로 발현에 영향을 주는 것으로 확인되었다. S619K는 인슐린 결합 부위의 제1 층에 위치하고 D484N은 활성 부위의 제2 층에 위치한다.

실시예 7

DMSO 내성

DMSO 내성 실험을 개선된 PGA 변이체(변이체 번호 6, 258, 및 261)에 대해 수행하였다. 반응은 실시예 4에 기술된 프로토콜에 따라서 0-50% v/v DMSO의 존재에서 수행하였다. 결과(도 4 참조)는 시험된 모든 변이체가 시험 반응물에 DMSO의 첨가 시 활성을 상실함을 의미한다. 예를 들어, 30%v/v DMSO에서, 오직 30% 유리 인슐린만이 변이체 258에 의해 생성되었다.

본 출원에서 인용되는 모든 출판물, 특허, 특허 출원 및 다른 문서들은 각 개별 출판물, 특허, 특허 출원 또는 다른 문서가 개별적으로 모든 목적을 위해 참조로 포함된다고 표시한 것과 동일한 정도로 모든 목적을 위해 그들 전체로 참조로 본원에 포함된다.

다양한 특정 실시형태가 예시되고 기술되었지만, 다양한 변화가 본 발명(들)의 정신 및 범주를 벗어나지 않고 만들어질 수 있다는 것을 이해하게 된다.

SEQUENCE LISTING <110> Codexis, Inc. Banerjee, Goutami Yang, Jie Zhang, Xiyun Milczek, Erika M. Mayo, Melissa Ann Jenne, Stephan <120> Penicillin-G Acylases <130> CX2-149WO1 <150> US 62/158,118 <151> 2015-05-07 <160> 15 <170> PatentIn version 3.5 <210> 1 <211> 2541 <212> DNA <213> Kluyvera citrophila <400> 1 atgaaaaata gaaatcgtat gatcgtgaac ggtattgtga cttccctgat ctgttgttct 60 agcctgtcag cgctggcggc aagcccgcca accgaggtta agatcgttcg cgatgaatac 120 ggcatgccgc atatttacgc cgatgatacc tatcgactgt tttacggcta tggctacgtg 180 gtggcgcagg atcgcctgtt ccagatggaa atggcgcgcc gcagtactca ggggaccgtc 240 tccgaggtgc tgggcaaagc attcgtcagt tttgataaag atattcgcca gaactactgg 300 ccggattcta ttcgcgcgca gatagcttcc ctctccgctg aggataaatc cattctgcag 360 ggctatgccg atggcatgaa tgcgtggatc gataaagtga acgccagccc cgataagctg 420 ttaccccagc agttctccac ctttggtttt aaacccaagc attgggaacc gtttgatgtg 480 gcgatgattt ttgtcggcac catggcgaac cggttttctg acagcaccag cgaaattgat 540 aacctggcgc tgctgacggc gctaaaagat aaatacggca agcagcaggg catggcggtc 600 tttaaccagc tgaaatggct ggttaatcct tccgcgccaa ccaccattgc ggcgcgggaa 660 agcgcctatc cgctgaagtt tgatctgcaa aacacgcaaa cggcggcgct gctgccgcgc 720 tacgaccagc cggcaccgat gctcgaccgc ccggcaaaag ggaccgatgg cgcgctgctg 780 gcgctgaccg ccgatcagaa ccgggaaact atcgccgcgc agttcgcgca aagcggcgct 840 aacggcctgg ctggctaccc gaccactagc aatatgtggg tgattggcaa aaacaaagcc 900 caggatgcga aggccattat ggtcaatggg ccgcagtttg gttggtatgc gccggcgtac 960 acctacggta tcggcctgca cggcgcgggc tatgacgtca ccggcaatac gccgtttgcc 1020 tatccgggcc tcgtttttgg tcacaacggc accatttcat ggggatccac cgccggtttt 1080 ggtgatgatg tcgatatctt tgccgaaaaa ctttccgccg agaagccggg ctattaccag 1140 cataacggcg agtgggtgaa gatgttgagc cgcaaggaga ctattgcggt caaagacggc 1200 cagccggaga cctttaccgt ttggcgcacg ctgcacggca acgtcattaa aaccgatact 1260 gcgacgcaga ccgcctatgc caaagcgcgc gcctgggatg gcaaagaggt ggcgtccctg 1320 ctggcgtgga cgcaccagat gaaggccaaa aactggccgg agtggacgca gcaggcggcc 1380 aaacaggcgc tgaccattaa ctggtactac gccgatgtga acggcaatat cggctatgtg 1440 cataccggcg cctatccgga tcgccagccc ggccacgacc cgcgtttgcc ggttcccggc 1500 actggaaaat gggactggaa agggttgctg tcgtttgatt tgaatccgaa agtgtataac 1560 ccgcagtcgg gctatatcgc caactggaac aactcgccgc aaaaagacta cccggcctct 1620 gatctgttcg cgttcctgtg gggcggtgcg gatcgagtta ctgagatcga cacgatcctc 1680 gataagcaac cgcgcttcac cgccgatcag gcgtgggatg tgatccgcca aaccagccgt 1740 cgggatctca acctgcggtt gttcttaccg gcgctgaagg acgccaccgc gaacctggcg 1800 gaaaacgatc cgcgccgcca actggtggat aaactggcga gctgggacgg tgaaaacctt 1860 gtcaacgatg acggaaaaac ctatcagcaa ccgggatcgg cgattcttaa cgcctggctg 1920 accagcatgc tcaagcgcac ggtggttgcc gcggtcccag cgccgtttgg caagtggtac 1980 agcgccagtg gctatgaaac cacccaggac gggccaaccg gctcgctgaa catcagcgtg 2040 ggggcgaaaa tcctctacga agctctgcag ggtgataagt cgccaatccc gcaggcggtc 2100 gatctgtttg gcgggaaacc gcagcaggaa gtgatactgg cggcgctgga cgacgcttgg 2160 cagacgctgt caaaacgcta cggtaacgac gtcaccggct ggaaaacccc tgccatggcg 2220 cttaccttcc gggccaataa cttcttcggc gtgccgcagg cggcagcaaa agaggcgcgt 2280 catcaggcgg agtaccagaa ccgcggtacg gaaaacgaca tgattgtctt ctcaccgacg 2340 tcgggtaacc gcccggttct tgcctgggat gtggtggcgc cggggcaaag cggttttatc 2400 gcgccggatg gcaaagccga taagcactat gacgatcagc tgaaaatgta cgagagcttt 2460 ggccgtaaat cgctgtggtt aacgcctcag gacgttgacg agcacaaaga gtctcaggaa 2520 gtgctgcagg tacagcgcta a 2541 <210> 2 <211> 846 <212> PRT <213> Kluyvera citrophila <400> 2 Met Lys Asn Arg Asn Arg Met Ile Val Asn Gly Ile Val Thr Ser Leu 1 5 10 15 Ile Cys Cys Ser Ser Leu Ser Ala Leu Ala Ala Ser Pro Pro Thr Glu 20 25 30 Val Lys Ile Val Arg Asp Glu Tyr Gly Met Pro His Ile Tyr Ala Asp 35 40 45 Asp Thr Tyr Arg Leu Phe Tyr Gly Tyr Gly Tyr Val Val Ala Gln Asp 50 55 60 Arg Leu Phe Gln Met Glu Met Ala Arg Arg Ser Thr Gln Gly Thr Val 65 70 75 80 Ser Glu Val Leu Gly Lys Ala Phe Val Ser Phe Asp Lys Asp Ile Arg 85 90 95 Gln Asn Tyr Trp Pro Asp Ser Ile Arg Ala Gln Ile Ala Ser Leu Ser 100 105 110 Ala Glu Asp Lys Ser Ile Leu Gln Gly Tyr Ala Asp Gly Met Asn Ala 115 120 125 Trp Ile Asp Lys Val Asn Ala Ser Pro Asp Lys Leu Leu Pro Gln Gln 130 135 140 Phe Ser Thr Phe Gly Phe Lys Pro Lys His Trp Glu Pro Phe Asp Val 145 150 155 160 Ala Met Ile Phe Val Gly Thr Met Ala Asn Arg Phe Ser Asp Ser Thr 165 170 175 Ser Glu Ile Asp Asn Leu Ala Leu Leu Thr Ala Leu Lys Asp Lys Tyr 180 185 190 Gly Lys Gln Gln Gly Met Ala Val Phe Asn Gln Leu Lys Trp Leu Val 195 200 205 Asn Pro Ser Ala Pro Thr Thr Ile Ala Ala Arg Glu Ser Ala Tyr Pro 210 215 220 Leu Lys Phe Asp Leu Gln Asn Thr Gln Thr Ala Ala Leu Leu Pro Arg 225 230 235 240 Tyr Asp Gln Pro Ala Pro Met Leu Asp Arg Pro Ala Lys Gly Thr Asp 245 250 255 Gly Ala Leu Leu Ala Leu Thr Ala Asp Gln Asn Arg Glu Thr Ile Ala 260 265 270 Ala Gln Phe Ala Gln Ser Gly Ala Asn Gly Leu Ala Gly Tyr Pro Thr 275 280 285 Thr Ser Asn Met Trp Val Ile Gly Lys Asn Lys Ala Gln Asp Ala Lys 290 295 300 Ala Ile Met Val Asn Gly Pro Gln Phe Gly Trp Tyr Ala Pro Ala Tyr 305 310 315 320 Thr Tyr Gly Ile Gly Leu His Gly Ala Gly Tyr Asp Val Thr Gly Asn 325 330 335 Thr Pro Phe Ala Tyr Pro Gly Leu Val Phe Gly His Asn Gly Thr Ile 340 345 350 Ser Trp Gly Ser Thr Ala Gly Phe Gly Asp Asp Val Asp Ile Phe Ala 355 360 365 Glu Lys Leu Ser Ala Glu Lys Pro Gly Tyr Tyr Gln His Asn Gly Glu 370 375 380 Trp Val Lys Met Leu Ser Arg Lys Glu Thr Ile Ala Val Lys Asp Gly 385 390 395 400 Gln Pro Glu Thr Phe Thr Val Trp Arg Thr Leu His Gly Asn Val Ile 405 410 415 Lys Thr Asp Thr Ala Thr Gln Thr Ala Tyr Ala Lys Ala Arg Ala Trp 420 425 430 Asp Gly Lys Glu Val Ala Ser Leu Leu Ala Trp Thr His Gln Met Lys 435 440 445 Ala Lys Asn Trp Pro Glu Trp Thr Gln Gln Ala Ala Lys Gln Ala Leu 450 455 460 Thr Ile Asn Trp Tyr Tyr Ala Asp Val Asn Gly Asn Ile Gly Tyr Val 465 470 475 480 His Thr Gly Ala Tyr Pro Asp Arg Gln Pro Gly His Asp Pro Arg Leu 485 490 495 Pro Val Pro Gly Thr Gly Lys Trp Asp Trp Lys Gly Leu Leu Ser Phe 500 505 510 Asp Leu Asn Pro Lys Val Tyr Asn Pro Gln Ser Gly Tyr Ile Ala Asn 515 520 525 Trp Asn Asn Ser Pro Gln Lys Asp Tyr Pro Ala Ser Asp Leu Phe Ala 530 535 540 Phe Leu Trp Gly Gly Ala Asp Arg Val Thr Glu Ile Asp Thr Ile Leu 545 550 555 560 Asp Lys Gln Pro Arg Phe Thr Ala Asp Gln Ala Trp Asp Val Ile Arg 565 570 575 Gln Thr Ser Arg Arg Asp Leu Asn Leu Arg Leu Phe Leu Pro Ala Leu 580 585 590 Lys Asp Ala Thr Ala Asn Leu Ala Glu Asn Asp Pro Arg Arg Gln Leu 595 600 605 Val Asp Lys Leu Ala Ser Trp Asp Gly Glu Asn Leu Val Asn Asp Asp 610 615 620 Gly Lys Thr Tyr Gln Gln Pro Gly Ser Ala Ile Leu Asn Ala Trp Leu 625 630 635 640 Thr Ser Met Leu Lys Arg Thr Val Val Ala Ala Val Pro Ala Pro Phe 645 650 655 Gly Lys Trp Tyr Ser Ala Ser Gly Tyr Glu Thr Thr Gln Asp Gly Pro 660 665 670 Thr Gly Ser Leu Asn Ile Ser Val Gly Ala Lys Ile Leu Tyr Glu Ala 675 680 685 Leu Gln Gly Asp Lys Ser Pro Ile Pro Gln Ala Val Asp Leu Phe Gly 690 695 700 Gly Lys Pro Gln Gln Glu Val Ile Leu Ala Ala Leu Asp Asp Ala Trp 705 710 715 720 Gln Thr Leu Ser Lys Arg Tyr Gly Asn Asp Val Thr Gly Trp Lys Thr 725 730 735 Pro Ala Met Ala Leu Thr Phe Arg Ala Asn Asn Phe Phe Gly Val Pro 740 745 750 Gln Ala Ala Ala Lys Glu Ala Arg His Gln Ala Glu Tyr Gln Asn Arg 755 760 765 Gly Thr Glu Asn Asp Met Ile Val Phe Ser Pro Thr Ser Gly Asn Arg 770 775 780 Pro Val Leu Ala Trp Asp Val Val Ala Pro Gly Gln Ser Gly Phe Ile 785 790 795 800 Ala Pro Asp Gly Lys Ala Asp Lys His Tyr Asp Asp Gln Leu Lys Met 805 810 815 Tyr Glu Ser Phe Gly Arg Lys Ser Leu Trp Leu Thr Pro Gln Asp Val 820 825 830 Asp Glu His Lys Glu Ser Gln Glu Val Leu Gln Val Gln Arg 835 840 845 <210> 3 <211> 2295 <212> DNA <213> Artificial Sequence <220> <223> synthetic PGA nucleotide sequence for variant 1 <400> 3 agcaatatgt gggtgattgg caaaaacaaa gcccaggatg cgaaggccat tatggtcaat 60 gggccgcagt ttggttggta tgtgccggcg tacacctacg gtatcggcct gcacggcgcg 120 ggctatgacg tcaccggcaa tacgccgttt gcctatccgg gcctcgtttt tggtcacaac 180 ggcaccattt catggggatc caccgccggt ggtggtgatg atgtcgatat ctttgccgaa 240 aaactttccg ccgagaagcc gggctattac cagcataacg gcgagtgggt gaagatgttg 300 agccgcaagg agactattgc ggtcaaagac ggccagccgg agacctttac cgtttggcgc 360 acgctgcacg gcaacgtcat taaaaccgat actgcgacgc agaccgccta tgccaaagcg 420 cgcgcctggg atggcaaaga ggtggcgtcc ctgctggcgt ggacgcacca gatgaaggcc 480 aaaaactggc cggagtggac gcagcaggcg gccaaacagg cgctgaccat taactggtac 540 tacgccgatg tgaacggcaa tatcggctat gtgcataccg gcgcctatcc ggatcgccag 600 cccggccacg acccgcgttt gccggttccc ggcactggaa aatgggactg gaaagggttg 660 ctgtcgtttg atttgaatcc gaaagtgtat aacccgcagt cgggctatat cgccaactgg 720 aacaactcgc cgcaaaaaga ctacccggcc tctgatctgt tcgcgttcct gtggggcggt 780 gcggatcgag ttactgagat cgacacgatc ctcgataagc aaccgcgctt caccgccgat 840 caggcgtggg atgtgatccg ccaaaccagc cgtcgggatc tcaacctgcg gttgttctta 900 ccggcgctga aggacgccac cgcgaacctg gcggaaaacg atccgcgccg ccaactggtg 960 gataaactgg cgagctggga cggcgaaaac cttgtcaacg atgacggaaa aacctatcag 1020 caaccgggat cggcgattct taacgcctgg ctgaccagca tgctcaagcg cacggtggtt 1080 gccgcggtcc cagcgccgtt tggtaagtgg tacagcgcca gtggctatga aaccacccag 1140 gacgggccaa ccggctcgct gaacatcagc gtgggggcga aaatcctcta cgaagctctg 1200 cagggtgata agtcgccaat cccgcaggcg gtcgatctgt ttggcgggaa accgcagcag 1260 gaagtaatac tggcggcgct ggacgacgct tggcagacgc tgtcaaaacg ctacggtaac 1320 gacgtcaccg gctggaaaac ccctgccatg gcgcttacct tccgggccaa taacttcttc 1380 ggcgtgccgc aggcggcagc aaaagaggcg cgtcatcagg cggagtacca gaaccgcggt 1440 acggaaaacg acatgattgt cttctcaccg acgtcgggta accgcccggt tcttgcctgg 1500 gatgtggtgg cgccggggca aagcggtttt atcgcgccgg atggcaaagc cgataagcac 1560 tatgacgatc agctgaaaat gtacgagagc tttggccgta aatcgctgtg gttaacgcct 1620 caggacgttg acgagcacca agagtctcag gaagtgctgc aggtacagtt ggatcagacc 1680 gaggttaaga tcgttcgcga tgaatacggc atgccgcata tttacgccga tgatacctat 1740 cgactgtttt acggctatgg ctacgtggtg gcgcaggatc gcctgttcca gatggaaatg 1800 gcgcgccgca gtactcaggg gaccgtctcc gaggtgctgg gcaaagcatt cgtcagtttt 1860 gataaagata ttcgccagaa ctactggccg gattctattc gcgcgcagat agcttccctc 1920 tccgctgagg ataaatccat tctgcagggc tatgccgatg gcatgaatgc gtggatcgat 1980 aaagtgaacg ccagccccga taagctgtta ccccagcagt tctccacctt tggttttaaa 2040 cccaagcatt gggaaccgtt tgatgtggcg atgatttttg tcggcaccat ggcgaaccgt 2100 ttctctgaca gcaccagcga aattgataac ctggcgctgc tgacggcgct aaaagacaaa 2160 tacggcaagc agcagggcat ggcggtcttt aaccagctga aatggctggt taatccttcc 2220 gcgccaacca ccattgcggc gcgggaaagc gcctatccgc tgaagtttga tctgcaaaac 2280 acgcaaacgg cgtaa 2295 <210> 4 <211> 763 <212> PRT <213> Artificial Sequence <220> <223> synthetic PGA protein sequence for variant 1 <400> 4 Ser Asn Met Trp Val Ile Gly Lys Asn Lys Ala Gln Asp Ala Lys Ala 1 5 10 15 Ile Met Val Asn Gly Pro Gln Phe Gly Trp Tyr Val Pro Ala Tyr Thr 20 25 30 Tyr Gly Ile Gly Leu His Gly Ala Gly Tyr Asp Val Thr Gly Asn Thr 35 40 45 Pro Phe Ala Tyr Pro Gly Leu Val Phe Gly His Asn Gly Thr Ile Ser 50 55 60 Trp Gly Ser Thr Ala Gly Gly Gly Asp Asp Val Asp Ile Phe Ala Glu 65 70 75 80 Lys Leu Ser Ala Glu Lys Pro Gly Tyr Tyr Gln His Asn Gly Glu Trp 85 90 95 Val Lys Met Leu Ser Arg Lys Glu Thr Ile Ala Val Lys Asp Gly Gln 100 105 110 Pro Glu Thr Phe Thr Val Trp Arg Thr Leu His Gly Asn Val Ile Lys 115 120 125 Thr Asp Thr Ala Thr Gln Thr Ala Tyr Ala Lys Ala Arg Ala Trp Asp 130 135 140 Gly Lys Glu Val Ala Ser Leu Leu Ala Trp Thr His Gln Met Lys Ala 145 150 155 160 Lys Asn Trp Pro Glu Trp Thr Gln Gln Ala Ala Lys Gln Ala Leu Thr 165 170 175 Ile Asn Trp Tyr Tyr Ala Asp Val Asn Gly Asn Ile Gly Tyr Val His 180 185 190 Thr Gly Ala Tyr Pro Asp Arg Gln Pro Gly His Asp Pro Arg Leu Pro 195 200 205 Val Pro Gly Thr Gly Lys Trp Asp Trp Lys Gly Leu Leu Ser Phe Asp 210 215 220 Leu Asn Pro Lys Val Tyr Asn Pro Gln Ser Gly Tyr Ile Ala Asn Trp 225 230 235 240 Asn Asn Ser Pro Gln Lys Asp Tyr Pro Ala Ser Asp Leu Phe Ala Phe 245 250 255 Leu Trp Gly Gly Ala Asp Arg Val Thr Glu Ile Asp Thr Ile Leu Asp 260 265 270 Lys Gln Pro Arg Phe Thr Ala Asp Gln Ala Trp Asp Val Ile Arg Gln 275 280 285 Thr Ser Arg Arg Asp Leu Asn Leu Arg Leu Phe Leu Pro Ala Leu Lys 290 295 300 Asp Ala Thr Ala Asn Leu Ala Glu Asn Asp Pro Arg Arg Gln Leu Val 305 310 315 320 Asp Lys Leu Ala Ser Trp Asp Gly Glu Asn Leu Val Asn Asp Asp Gly 325 330 335 Lys Thr Tyr Gln Gln Pro Gly Ser Ala Ile Leu Asn Ala Trp Leu Thr 340 345 350 Ser Met Leu Lys Arg Thr Val Val Ala Ala Val Pro Ala Pro Phe Gly 355 360 365 Lys Trp Tyr Ser Ala Ser Gly Tyr Glu Thr Thr Gln Asp Gly Pro Thr 370 375 380 Gly Ser Leu Asn Ile Ser Val Gly Ala Lys Ile Leu Tyr Glu Ala Leu 385 390 395 400 Gln Gly Asp Lys Ser Pro Ile Pro Gln Ala Val Asp Leu Phe Gly Gly 405 410 415 Lys Pro Gln Gln Glu Val Ile Leu Ala Ala Leu Asp Asp Ala Trp Gln 420 425 430 Thr Leu Ser Lys Arg Tyr Gly Asn Asp Val Thr Gly Trp Lys Thr Pro 435 440 445 Ala Met Ala Leu Thr Phe Arg Ala Asn Asn Phe Phe Gly Val Pro Gln 450 455 460 Ala Ala Ala Lys Glu Ala Arg His Gln Ala Glu Tyr Gln Asn Arg Gly 465 470 475 480 Thr Glu Asn Asp Met Ile Val Phe Ser Pro Thr Ser Gly Asn Arg Pro 485 490 495 Val Leu Ala Trp Asp Val Val Ala Pro Gly Gln Ser Gly Phe Ile Ala 500 505 510 Pro Asp Gly Lys Ala Asp Lys His Tyr Asp Asp Gln Leu Lys Met Tyr 515 520 525 Glu Ser Phe Gly Arg Lys Ser Leu Trp Leu Thr Pro Gln Asp Val Asp 530 535 540 Glu His Gln Glu Ser Gln Glu Val Leu Gln Val Gln Leu Asp Gln Thr 545 550 555 560 Glu Val Lys Ile Val Arg Asp Glu Tyr Gly Met Pro His Ile Tyr Ala 565 570 575 Asp Asp Thr Tyr Arg Leu Phe Tyr Gly Tyr Gly Tyr Val Val Ala Gln 580 585 590 Asp Arg Leu Phe Gln Met Glu Met Ala Arg Arg Ser Thr Gln Gly Thr 595 600 605 Val Ser Glu Val Leu Gly Lys Ala Phe Val Ser Phe Asp Lys Asp Ile 610 615 620 Arg Gln Asn Tyr Trp Pro Asp Ser Ile Arg Ala Gln Ile Ala Ser Leu 625 630 635 640 Ser Ala Glu Asp Lys Ser Ile Leu Gln Gly Tyr Ala Asp Gly Met Asn 645 650 655 Ala Trp Ile Asp Lys Val Asn Ala Ser Pro Asp Lys Leu Leu Pro Gln 660 665 670 Gln Phe Ser Thr Phe Gly Phe Lys Pro Lys His Trp Glu Pro Phe Asp 675 680 685 Val Ala Met Ile Phe Val Gly Thr Met Ala Asn Arg Phe Ser Asp Ser 690 695 700 Thr Ser Glu Ile Asp Asn Leu Ala Leu Leu Thr Ala Leu Lys Asp Lys 705 710 715 720 Tyr Gly Lys Gln Gln Gly Met Ala Val Phe Asn Gln Leu Lys Trp Leu 725 730 735 Val Asn Pro Ser Ala Pro Thr Thr Ile Ala Ala Arg Glu Ser Ala Tyr 740 745 750 Pro Leu Lys Phe Asp Leu Gln Asn Thr Gln Thr 755 760 <210> 5 <211> 2295 <212> DNA <213> Artificial Sequence <220> <223> synthetic PGA nucleotide sequence for variant 6 <400> 5 agcaatatgt gggtgattgg caaaaacaaa gcccaggatg cgaaggccat tatggtcaat 60 gggccgcagt ttggttggta tgtgccggcg tatacctacg gtatcggcct gcacggcgcg 120 ggctatgacg tcaccggcaa tacgccgttt gcctatccgg gcctcgtttt tggtcacaac 180 ggcaccattt catggggatc caccgccggt ggtggtgatg atgtcgatat ctttgccgaa 240 aaactttccg ccgagaagcc gggctattac cagcataacg gcgagtgggt gaagatgttg 300 agccgcaagg agactattgc ggtcaaagac ggccagccgg agacctttac cgtttggcgc 360 acgctgcacg gcaacgtcat taaaaccgat actgcgacgc agaccgccta tgccaaagcg 420 cgcgcctggg atggcaaaga ggtggcgtcc ctgctggcgt ggacgcacca gatgaaggcc 480 aaaaactggc cggagtggac gcagcaggcg gccaaacagg cgctgaccat caactggtac 540 tacgccgatg tgaacggcaa tatcggctat gtgcataccg gcgcctatcc ggatcgccag 600 cccggccacg acccgcgttt gccggttccc ggcactggaa aatgggactg gaaagggttg 660 ctgtcgtttg atttgaatcc gaaagtgtat aacccgcagt cgggctatat cgccaactgg 720 aacaactcgc cgcaaaaaga ctacccggcc tctgatctgt tcgcgttcct gtggggcggt 780 gcggatcgag cgactgagat cgacacgatc ctcgataagc aaccgcgctt caccgccgat 840 caggcgtggg atgtgatccg ccaaaccagc cgtcgggatc tcaacctgcg gttgttctta 900 ccggcgctga aggacgccac cgccaacctg gcggaaaacg atccgcgccg ccaactggtg 960 gataaactgg cgagctggga cggcgaaaac cttgtcaacg atgacggaaa aacctatcag 1020 caaccgggat cggcgattct taacgcctgg ctgaccagca tgctcaagcg cacggtggtt 1080 gccgcggtcc cagcgccgtt tggtaagtgg tacagcgcca gtggctatga aaccacccag 1140 gacgggccaa ccggctcgct gaacatcagc gtgggggcga aaatcctcta cgaagctctg 1200 cagggtgata agtcgccaat cccgcaggcg gtcgatctgt ttggcgggaa accgcagcag 1260 gaagtaatac tggcggcgct ggacgacgct tggcagacgc tgtcaaaacg ctacggtaac 1320 gacgtcaccg gctggaaaac ccctgccatg gcgcttacct tccgggccaa taacttcttc 1380 ggcgtgccgc aggcggcagc aaaagaggcg cgtcatcagg cggagtacca gaaccgcggt 1440 acggaaaaca acatgattgt cttctcaccg acgtcgggta accgcccggt tcttgcctgg 1500 gatgtggtgg cgccggggca aagcggtttt atcgcgccgg atggcaaagc cgataagcac 1560 tatgacgatc agctgaaaat gtacgagagc tttggccgta aatcgctgtg gttaacgcct 1620 caggacgttg acgagcacaa agagtctcag gaagtgctgc aggtacagtt ggatcagacc 1680 gaggttaaga tcgttcgcga tgaatacggc atgccgcata tttacgccga tgatacctat 1740 cgactgtttt acggctatgg ctacgtggtg gcgcaggatc gcctgttcca gatggaaatg 1800 gcgcgccgca gtactcaggg gaccgtctcc gaggtgctgg gcaaagcatt cgtcagtttt 1860 gataaagata ttcgccagaa ctactggccg gattctattc gcgcgcagat agcttccctc 1920 tccgctgagg ataaatccat tctgcagggc tatgccgatg gcatgaatgc gtggatcgat 1980 aaagtgaacg ccagccccga taagctgtta ccccagcagt tctccacctt tggttttaaa 2040 cccaagcatt gggaaccgtt tgatgtggcg atgatttttg tcggcaccat ggcgaaccgt 2100 ttttctgaca gcaccagcga aattgataac ctggcgctgc tgacggcgct aaaagacaaa 2160 tacggcaagc agcagggcat ggcggtcttt aaccagctga aatggctggt taatccttcc 2220 gcgccaacca ccattgcggc gcgggaaagc gcctatccgc tgaagtttga tctgcaaaac 2280 acgcaaacgg cgtaa 2295 <210> 6 <211> 764 <212> PRT <213> Artificial Sequence <220> <223> synthetic PGA protein sequence for variant 6 <400> 6 Ser Asn Met Trp Val Ile Gly Lys Asn Lys Ala Gln Asp Ala Lys Ala 1 5 10 15 Ile Met Val Asn Gly Pro Gln Phe Gly Trp Tyr Val Pro Ala Tyr Thr 20 25 30 Tyr Gly Ile Gly Leu His Gly Ala Gly Tyr Asp Val Thr Gly Asn Thr 35 40 45 Pro Phe Ala Tyr Pro Gly Leu Val Phe Gly His Asn Gly Thr Ile Ser 50 55 60 Trp Gly Ser Thr Ala Gly Gly Gly Asp Asp Val Asp Ile Phe Ala Glu 65 70 75 80 Lys Leu Ser Ala Glu Lys Pro Gly Tyr Tyr Gln His Asn Gly Glu Trp 85 90 95 Val Lys Met Leu Ser Arg Lys Glu Thr Ile Ala Val Lys Asp Gly Gln 100 105 110 Pro Glu Thr Phe Thr Val Trp Arg Thr Leu His Gly Asn Val Ile Lys 115 120 125 Thr Asp Thr Ala Thr Gln Thr Ala Tyr Ala Lys Ala Arg Ala Trp Asp 130 135 140 Gly Lys Glu Val Ala Ser Leu Leu Ala Trp Thr His Gln Met Lys Ala 145 150 155 160 Lys Asn Trp Pro Glu Trp Thr Gln Gln Ala Ala Lys Gln Ala Leu Thr 165 170 175 Ile Asn Trp Tyr Tyr Ala Asp Val Asn Gly Asn Ile Gly Tyr Val His 180 185 190 Thr Gly Ala Tyr Pro Asp Arg Gln Pro Gly His Asp Pro Arg Leu Pro 195 200 205 Val Pro Gly Thr Gly Lys Trp Asp Trp Lys Gly Leu Leu Ser Phe Asp 210 215 220 Leu Asn Pro Lys Val Tyr Asn Pro Gln Ser Gly Tyr Ile Ala Asn Trp 225 230 235 240 Asn Asn Ser Pro Gln Lys Asp Tyr Pro Ala Ser Asp Leu Phe Ala Phe 245 250 255 Leu Trp Gly Gly Ala Asp Arg Ala Thr Glu Ile Asp Thr Ile Leu Asp 260 265 270 Lys Gln Pro Arg Phe Thr Ala Asp Gln Ala Trp Asp Val Ile Arg Gln 275 280 285 Thr Ser Arg Arg Asp Leu Asn Leu Arg Leu Phe Leu Pro Ala Leu Lys 290 295 300 Asp Ala Thr Ala Asn Leu Ala Glu Asn Asp Pro Arg Arg Gln Leu Val 305 310 315 320 Asp Lys Leu Ala Ser Trp Asp Gly Glu Asn Leu Val Asn Asp Asp Gly 325 330 335 Lys Thr Tyr Gln Gln Pro Gly Ser Ala Ile Leu Asn Ala Trp Leu Thr 340 345 350 Ser Met Leu Lys Arg Thr Val Val Ala Ala Val Pro Ala Pro Phe Gly 355 360 365 Lys Trp Tyr Ser Ala Ser Gly Tyr Glu Thr Thr Gln Asp Gly Pro Thr 370 375 380 Gly Ser Leu Asn Ile Ser Val Gly Ala Lys Ile Leu Tyr Glu Ala Leu 385 390 395 400 Gln Gly Asp Lys Ser Pro Ile Pro Gln Ala Val Asp Leu Phe Gly Gly 405 410 415 Lys Pro Gln Gln Glu Val Ile Leu Ala Ala Leu Asp Asp Ala Trp Gln 420 425 430 Thr Leu Ser Lys Arg Tyr Gly Asn Asp Val Thr Gly Trp Lys Thr Pro 435 440 445 Ala Met Ala Leu Thr Phe Arg Ala Asn Asn Phe Phe Gly Val Pro Gln 450 455 460 Ala Ala Ala Lys Glu Ala Arg His Gln Ala Glu Tyr Gln Asn Arg Gly 465 470 475 480 Thr Glu Asn Asn Met Ile Val Phe Ser Pro Thr Ser Gly Asn Arg Pro 485 490 495 Val Leu Ala Trp Asp Val Val Ala Pro Gly Gln Ser Gly Phe Ile Ala 500 505 510 Pro Asp Gly Lys Ala Asp Lys His Tyr Asp Asp Gln Leu Lys Met Tyr 515 520 525 Glu Ser Phe Gly Arg Lys Ser Leu Trp Leu Thr Pro Gln Asp Val Asp 530 535 540 Glu His Lys Glu Ser Gln Glu Val Leu Gln Val Gln Leu Asp Gln Thr 545 550 555 560 Glu Val Lys Ile Val Arg Asp Glu Tyr Gly Met Pro His Ile Tyr Ala 565 570 575 Asp Asp Thr Tyr Arg Leu Phe Tyr Gly Tyr Gly Tyr Val Val Ala Gln 580 585 590 Asp Arg Leu Phe Gln Met Glu Met Ala Arg Arg Ser Thr Gln Gly Thr 595 600 605 Val Ser Glu Val Leu Gly Lys Ala Phe Val Ser Phe Asp Lys Asp Ile 610 615 620 Arg Gln Asn Tyr Trp Pro Asp Ser Ile Arg Ala Gln Ile Ala Ser Leu 625 630 635 640 Ser Ala Glu Asp Lys Ser Ile Leu Gln Gly Tyr Ala Asp Gly Met Asn 645 650 655 Ala Trp Ile Asp Lys Val Asn Ala Ser Pro Asp Lys Leu Leu Pro Gln 660 665 670 Gln Phe Ser Thr Phe Gly Phe Lys Pro Lys His Trp Glu Pro Phe Asp 675 680 685 Val Ala Met Ile Phe Val Gly Thr Met Ala Asn Arg Phe Ser Asp Ser 690 695 700 Thr Ser Glu Ile Asp Asn Leu Ala Leu Leu Thr Ala Leu Lys Asp Lys 705 710 715 720 Tyr Gly Lys Gln Gln Gly Met Ala Val Phe Asn Gln Leu Lys Trp Leu 725 730 735 Val Asn Pro Ser Ala Pro Thr Thr Ile Ala Ala Arg Glu Ser Ala Tyr 740 745 750 Pro Leu Lys Phe Asp Leu Gln Asn Thr Gln Thr Ala 755 760 <210> 7 <211> 2295 <212> DNA <213> Artificial Sequence <220> <223> synthetic PGA nucleotide sequence for variant 53 <400> 7 agcaatatgt gggtgattgg caaaaacaaa gcccaggatg cgaaggccat tatggtcaat 60 gggccgcagt ttggttggtt taatccggcg tacacctacg gtatcggcct gcacggcgcg 120 ggctatgacg tcaccggcaa tacgccgttt gcctatccgg gcctcctgtt tggtcacaac 180 ggcaccattt catggggatc caccgccggt ggtggtgatg atgtcgatat ctttgccgaa 240 aaactttccg ccgagaagcc gggctattac cagcataacg gcgagtgggt gaagatgttg 300 agccgcaagg agactattgc ggtcaaagac ggccagccgg agacctttac cgtttggcgc 360 acgctgcacg gcaacgtcat taaaaccgat actgcgacgc agaccgccta tgccaaagcg 420 cgcgcctggg atggcaaaga ggtggcgtcc ctgctggcgt ggacgcacca gatgaaggcc 480 aaaaactggc cggagtggac gcagcaggcg gccaaacagg cgctgaccat taactggtac 540 tacgccgatg tgaacggcaa tatcggctat gtgcataccg gcgcctatcc ggatcgccag 600 cccggccacg acccgcgttt gccggttccc ggcactggaa aatgggactg gaaagggttg 660 ctgtcgtttg atttgaatcc gaaagtgtat aacccgcagt cgggctatat cgccaactgg 720 aacaactcgc cgcaaaaaga ctacccggcc tctgatctgt tcgcgttcct gtggggcggt 780 gcggatcgag ttactgagat cgacacgatc ctcgataagc aaccgcgctt caccgccgat 840 caggcgtggg atgtgatccg ccaaaccagc cgtcgggatc tcaacctgcg gttgttctta 900 ccggcgctga aggacgccac cgcgaacctg gcggaaaacg atccgcgccg ccaactggtg 960 gataaactgg cgagctggga cggcgaaaac cttgtcaacg atgacggaaa aacctatcag 1020 caaccgggat cggcgattct taacgcctgg ctgaccagca tgctcaagcg cacggtggtt 1080 gccgcggtcc cagcgccgtt tggtaagtgg tacagcgcca gtggctatga aaccacccag 1140 gacgggccaa ccggctcgct gaacatcagc gtgggggcga aaatcctcta cgaagctctg 1200 cagggtgata agtcgccaat cccgcaggcg gtcgatctgt ttggcgggaa accgcagcag 1260 gaagtaatac tggcggcgct ggacgacgct tggcagacgc tgtcaaaacg ctacggtaac 1320 gacgtcaccg gctggaaaac ccctgccatg gcgcttacct tccgggccaa taacttcttc 1380 ggcgtgccgc aggcggcagc aaaagaggcg cgtcatcagg cggagtacca gaaccgcggt 1440 acggaaaacg acatgattgt cttctcaccg acgtcgggta accgcccggt tcttgcctgg 1500 gatgtggtgg cgccggggca aagcggtttt atcgcgccgg atggcaaagc cgataagcac 1560 tatgacgatc agctgaaaat gtacgagagc tttggccgta aatcgctgtg gttaacgcct 1620 caggacgttg acgagcacca agagtctcag gaagtgctgc aggtacagtt ggatcagacc 1680 gaggttaaga tcgttcgcga tgaatacggc atgccgcata tttacgccga tgatacctat 1740 cgactgtttt acggctatgg ctacgtggtg gcgcaggatc gcctgttcca gatggaaatg 1800 gcgcgccgca gtactcaggg gaccgtctcc gaggtgctgg gcaaagcttt cgtttctttt 1860 gataaagata ttcgccagaa ctactggccg gattctattc gcgcgcagat agcttccctc 1920 tccgctgagg ataaatccat tctgcagggc tatgccgatg gcatgaatgc gtggatcgat 1980 aaagtgaacg ccagccccga taagctgtta ccccagcagt tctccacctt tggttttaaa 2040 cccaagcatt gggaaccgtt tgatgtggcg atgatttttg tcggcaccat ggcgaaccgt 2100 ttctctgaca gcaccagcga aattgataac ctggcgctgc tgacggcgct aaaagacaaa 2160 tacggcaagc agcagggcat ggcggtcttt aaccagctga aatggctggt taatccttcc 2220 gcgccaacca ccattgcggc gcgggaaagc gcctatccgc tgaagtttga tctgcaaaac 2280 acgcaaacgg cgtaa 2295 <210> 8 <211> 764 <212> PRT <213> Artificial Sequence <220> <223> synthetic PGA protein sequence for variant 5 <400> 8 Ser Asn Met Trp Val Ile Gly Lys Asn Lys Ala Gln Asp Ala Lys Ala 1 5 10 15 Ile Met Val Asn Gly Pro Gln Phe Gly Trp Phe Asn Pro Ala Tyr Thr 20 25 30 Tyr Gly Ile Gly Leu His Gly Ala Gly Tyr Asp Val Thr Gly Asn Thr 35 40 45 Pro Phe Ala Tyr Pro Gly Leu Leu Phe Gly His Asn Gly Thr Ile Ser 50 55 60 Trp Gly Ser Thr Ala Gly Gly Gly Asp Asp Val Asp Ile Phe Ala Glu 65 70 75 80 Lys Leu Ser Ala Glu Lys Pro Gly Tyr Tyr Gln His Asn Gly Glu Trp 85 90 95 Val Lys Met Leu Ser Arg Lys Glu Thr Ile Ala Val Lys Asp Gly Gln 100 105 110 Pro Glu Thr Phe Thr Val Trp Arg Thr Leu His Gly Asn Val Ile Lys 115 120 125 Thr Asp Thr Ala Thr Gln Thr Ala Tyr Ala Lys Ala Arg Ala Trp Asp 130 135 140 Gly Lys Glu Val Ala Ser Leu Leu Ala Trp Thr His Gln Met Lys Ala 145 150 155 160 Lys Asn Trp Pro Glu Trp Thr Gln Gln Ala Ala Lys Gln Ala Leu Thr 165 170 175 Ile Asn Trp Tyr Tyr Ala Asp Val Asn Gly Asn Ile Gly Tyr Val His 180 185 190 Thr Gly Ala Tyr Pro Asp Arg Gln Pro Gly His Asp Pro Arg Leu Pro 195 200 205 Val Pro Gly Thr Gly Lys Trp Asp Trp Lys Gly Leu Leu Ser Phe Asp 210 215 220 Leu Asn Pro Lys Val Tyr Asn Pro Gln Ser Gly Tyr Ile Ala Asn Trp 225 230 235 240 Asn Asn Ser Pro Gln Lys Asp Tyr Pro Ala Ser Asp Leu Phe Ala Phe 245 250 255 Leu Trp Gly Gly Ala Asp Arg Val Thr Glu Ile Asp Thr Ile Leu Asp 260 265 270 Lys Gln Pro Arg Phe Thr Ala Asp Gln Ala Trp Asp Val Ile Arg Gln 275 280 285 Thr Ser Arg Arg Asp Leu Asn Leu Arg Leu Phe Leu Pro Ala Leu Lys 290 295 300 Asp Ala Thr Ala Asn Leu Ala Glu Asn Asp Pro Arg Arg Gln Leu Val 305 310 315 320 Asp Lys Leu Ala Ser Trp Asp Gly Glu Asn Leu Val Asn Asp Asp Gly 325 330 335 Lys Thr Tyr Gln Gln Pro Gly Ser Ala Ile Leu Asn Ala Trp Leu Thr 340 345 350 Ser Met Leu Lys Arg Thr Val Val Ala Ala Val Pro Ala Pro Phe Gly 355 360 365 Lys Trp Tyr Ser Ala Ser Gly Tyr Glu Thr Thr Gln Asp Gly Pro Thr 370 375 380 Gly Ser Leu Asn Ile Ser Val Gly Ala Lys Ile Leu Tyr Glu Ala Leu 385 390 395 400 Gln Gly Asp Lys Ser Pro Ile Pro Gln Ala Val Asp Leu Phe Gly Gly 405 410 415 Lys Pro Gln Gln Glu Val Ile Leu Ala Ala Leu Asp Asp Ala Trp Gln 420 425 430 Thr Leu Ser Lys Arg Tyr Gly Asn Asp Val Thr Gly Trp Lys Thr Pro 435 440 445 Ala Met Ala Leu Thr Phe Arg Ala Asn Asn Phe Phe Gly Val Pro Gln 450 455 460 Ala Ala Ala Lys Glu Ala Arg His Gln Ala Glu Tyr Gln Asn Arg Gly 465 470 475 480 Thr Glu Asn Asp Met Ile Val Phe Ser Pro Thr Ser Gly Asn Arg Pro 485 490 495 Val Leu Ala Trp Asp Val Val Ala Pro Gly Gln Ser Gly Phe Ile Ala 500 505 510 Pro Asp Gly Lys Ala Asp Lys His Tyr Asp Asp Gln Leu Lys Met Tyr 515 520 525 Glu Ser Phe Gly Arg Lys Ser Leu Trp Leu Thr Pro Gln Asp Val Asp 530 535 540 Glu His Gln Glu Ser Gln Glu Val Leu Gln Val Gln Leu Asp Gln Thr 545 550 555 560 Glu Val Lys Ile Val Arg Asp Glu Tyr Gly Met Pro His Ile Tyr Ala 565 570 575 Asp Asp Thr Tyr Arg Leu Phe Tyr Gly Tyr Gly Tyr Val Val Ala Gln 580 585 590 Asp Arg Leu Phe Gln Met Glu Met Ala Arg Arg Ser Thr Gln Gly Thr 595 600 605 Val Ser Glu Val Leu Gly Lys Ala Phe Val Ser Phe Asp Lys Asp Ile 610 615 620 Arg Gln Asn Tyr Trp Pro Asp Ser Ile Arg Ala Gln Ile Ala Ser Leu 625 630 635 640 Ser Ala Glu Asp Lys Ser Ile Leu Gln Gly Tyr Ala Asp Gly Met Asn 645 650 655 Ala Trp Ile Asp Lys Val Asn Ala Ser Pro Asp Lys Leu Leu Pro Gln 660 665 670 Gln Phe Ser Thr Phe Gly Phe Lys Pro Lys His Trp Glu Pro Phe Asp 675 680 685 Val Ala Met Ile Phe Val Gly Thr Met Ala Asn Arg Phe Ser Asp Ser 690 695 700 Thr Ser Glu Ile Asp Asn Leu Ala Leu Leu Thr Ala Leu Lys Asp Lys 705 710 715 720 Tyr Gly Lys Gln Gln Gly Met Ala Val Phe Asn Gln Leu Lys Trp Leu 725 730 735 Val Asn Pro Ser Ala Pro Thr Thr Ile Ala Ala Arg Glu Ser Ala Tyr 740 745 750 Pro Leu Lys Phe Asp Leu Gln Asn Thr Gln Thr Ala 755 760 <210> 9 <211> 2295 <212> DNA <213> Artificial Sequence <220> <223> synthetic PGA nucleotide sequence for variant 261 <400> 9 agcaatatgt gggtgattgg caaaaacaaa gcccaggatg cgaaggccat tatggtcaat 60 gggccgcagt ttggttggta taatccggcg tatacctacg gtatcggcct gcacggcgcg 120 ggctatgacg tcaccggcaa tacgccgttt gcctatccgg gcctcctttt tggtcacaac 180 ggcaccattt catggggatc caccgccggt gccggtgatg tcgtcgatat ctttgccgaa 240 aaactttccg ccgagaagcc gggctattac cagcataacg gcgagtgggt gaagatgttg 300 agccgcaagg agactattgc ggtcaaagac ggccagccgg agacctttac cgtttggcgc 360 acgctgcacg gcaacgtcat taaaaccgat actgcgacgc agaccgccta tgccaaagcg 420 cgcgcctggg atggcaaaga ggtggcgtcc ctgctggcgt ggacgcacca gatgaaggcc 480 aaaaactggc cggagtggac gcagcaggcg gccaaacagg cgctgaccat caactggtac 540 tacgccgatg tgaacggcaa tatcggctat gtgcataccg gcgcctatcc ggatcgccag 600 cccggccacg acccgcgttt gccggttccc ggcactggaa aatgggactg gaaagggttg 660 ctgtcgtttg atttgaatcc gaaagtgtat aacccgcagt cgggctatat cgccaactgg 720 aacaactcgc cgcaaaaaga ctacccggcc tctgatctgt tcgcgttcct gtggggcggt 780 gcggatcgag cgactgagat cgacacgatc ctcgataagc aaccgcgctt caccgccgat 840 caggcgtggg atgtgatccg ccaaaccagc cgtcgggatc tcaacctgcg gttgttctta 900 ccggcgctga aggacgccac cgccaacctg gcggaaaacg atccgcgccg ccaactggtg 960 gataaactgg cgagctggga cggcgaaaac cttgtcaacg atgacggaaa aacctatcag 1020 caaccgggat cggcgattct taacgcctgg ctgaccagca tgctcaagcg cacggtggtt 1080 gccgcggtcc cagcgccgtt tggtaagtgg tacagcgcca gtggctatga aaccacccag 1140 gacgggccaa ccggctcgct gaacatcagc gtgggggcga aaatcctcta cgaagctctg 1200 cagggtgata agtcgccaat cccgcaggcg gtcgatctgt ttggcgggaa accgcagcag 1260 gaagtaatac tggcggcgct ggacgacgct tggcagacgc tgtcaaaacg ctacggtaac 1320 gacgtcaccg gctggaaaac ccctgccatg gcgcttacct tccgggccaa taacttcttc 1380 ggcgtgccgc aggcggcagc aaaagaggcg cgtcatcagg cggagtacca gaaccgcggt 1440 acggaaaaca acatgattgt cttctcaccg acgtcgggta accgcccggt tcttgcctgg 1500 gatgtggtgg cgccggggca aagcggtttt atcgcgccgg atggcaaagc cgataagcac 1560 tatgacgatc agctgaaaat gtacgagagc tttggccgta aatcgctgtg gttaacgcct 1620 caggacgttg acgagcacaa agagtctcag gaagtgctgc aggtacagtt ggatcagacc 1680 gaggttaaga tcgttcgcga tgaatacggc atgccgcata tttacgccga tgatacctat 1740 cgactgtttt acggctatgg ctacgtggtg gcgcaggatc gcctgttcca gatggaaatg 1800 gcgcgccgca gtactcaggg gaccgtctcc gaggtgctgg gcaaagcatt cgtttcattt 1860 gataaagata ttcgccagaa ctactggccg gattctattc gcgcgcagat agcttccctc 1920 tccgctgagg ataaatccat tctgcagggc tatgccgatg gcatgaatgc gtggatcgat 1980 aaagtgaacg ccagccccga taagctgtta ccccagcagt tctccacctt tggttttaaa 2040 cccaagcatt gggaaccgtt tgatgtggcg atgatttttg tcggcaccat ggcgaaccgt 2100 ttttctgaca gcaccagcga aattgataac ctggcgctgc tgacggcgct aaaagacaaa 2160 tacggcaagc agcagggcat ggcggtcttt aaccagctga aatggctggt taatccttcc 2220 gcgccaacca ccattgcggc gcgggaaagc gcctatccgc tgaagtttga tctgcaaaac 2280 acgcaaacgg cgtaa 2295 <210> 10 <211> 764 <212> PRT <213> Artificial Sequence <220> <223> synthetic PGA protein sequence for variant 261 <400> 10 Ser Asn Met Trp Val Ile Gly Lys Asn Lys Ala Gln Asp Ala Lys Ala 1 5 10 15 Ile Met Val Asn Gly Pro Gln Phe Gly Trp Tyr Asn Pro Ala Tyr Thr 20 25 30 Tyr Gly Ile Gly Leu His Gly Ala Gly Tyr Asp Val Thr Gly Asn Thr 35 40 45 Pro Phe Ala Tyr Pro Gly Leu Leu Phe Gly His Asn Gly Thr Ile Ser 50 55 60 Trp Gly Ser Thr Ala Gly Ala Gly Asp Val Val Asp Ile Phe Ala Glu 65 70 75 80 Lys Leu Ser Ala Glu Lys Pro Gly Tyr Tyr Gln His Asn Gly Glu Trp 85 90 95 Val Lys Met Leu Ser Arg Lys Glu Thr Ile Ala Val Lys Asp Gly Gln 100 105 110 Pro Glu Thr Phe Thr Val Trp Arg Thr Leu His Gly Asn Val Ile Lys 115 120 125 Thr Asp Thr Ala Thr Gln Thr Ala Tyr Ala Lys Ala Arg Ala Trp Asp 130 135 140 Gly Lys Glu Val Ala Ser Leu Leu Ala Trp Thr His Gln Met Lys Ala 145 150 155 160 Lys Asn Trp Pro Glu Trp Thr Gln Gln Ala Ala Lys Gln Ala Leu Thr 165 170 175 Ile Asn Trp Tyr Tyr Ala Asp Val Asn Gly Asn Ile Gly Tyr Val His 180 185 190 Thr Gly Ala Tyr Pro Asp Arg Gln Pro Gly His Asp Pro Arg Leu Pro 195 200 205 Val Pro Gly Thr Gly Lys Trp Asp Trp Lys Gly Leu Leu Ser Phe Asp 210 215 220 Leu Asn Pro Lys Val Tyr Asn Pro Gln Ser Gly Tyr Ile Ala Asn Trp 225 230 235 240 Asn Asn Ser Pro Gln Lys Asp Tyr Pro Ala Ser Asp Leu Phe Ala Phe 245 250 255 Leu Trp Gly Gly Ala Asp Arg Ala Thr Glu Ile Asp Thr Ile Leu Asp 260 265 270 Lys Gln Pro Arg Phe Thr Ala Asp Gln Ala Trp Asp Val Ile Arg Gln 275 280 285 Thr Ser Arg Arg Asp Leu Asn Leu Arg Leu Phe Leu Pro Ala Leu Lys 290 295 300 Asp Ala Thr Ala Asn Leu Ala Glu Asn Asp Pro Arg Arg Gln Leu Val 305 310 315 320 Asp Lys Leu Ala Ser Trp Asp Gly Glu Asn Leu Val Asn Asp Asp Gly 325 330 335 Lys Thr Tyr Gln Gln Pro Gly Ser Ala Ile Leu Asn Ala Trp Leu Thr 340 345 350 Ser Met Leu Lys Arg Thr Val Val Ala Ala Val Pro Ala Pro Phe Gly 355 360 365 Lys Trp Tyr Ser Ala Ser Gly Tyr Glu Thr Thr Gln Asp Gly Pro Thr 370 375 380 Gly Ser Leu Asn Ile Ser Val Gly Ala Lys Ile Leu Tyr Glu Ala Leu 385 390 395 400 Gln Gly Asp Lys Ser Pro Ile Pro Gln Ala Val Asp Leu Phe Gly Gly 405 410 415 Lys Pro Gln Gln Glu Val Ile Leu Ala Ala Leu Asp Asp Ala Trp Gln 420 425 430 Thr Leu Ser Lys Arg Tyr Gly Asn Asp Val Thr Gly Trp Lys Thr Pro 435 440 445 Ala Met Ala Leu Thr Phe Arg Ala Asn Asn Phe Phe Gly Val Pro Gln 450 455 460 Ala Ala Ala Lys Glu Ala Arg His Gln Ala Glu Tyr Gln Asn Arg Gly 465 470 475 480 Thr Glu Asn Asn Met Ile Val Phe Ser Pro Thr Ser Gly Asn Arg Pro 485 490 495 Val Leu Ala Trp Asp Val Val Ala Pro Gly Gln Ser Gly Phe Ile Ala 500 505 510 Pro Asp Gly Lys Ala Asp Lys His Tyr Asp Asp Gln Leu Lys Met Tyr 515 520 525 Glu Ser Phe Gly Arg Lys Ser Leu Trp Leu Thr Pro Gln Asp Val Asp 530 535 540 Glu His Lys Glu Ser Gln Glu Val Leu Gln Val Gln Leu Asp Gln Thr 545 550 555 560 Glu Val Lys Ile Val Arg Asp Glu Tyr Gly Met Pro His Ile Tyr Ala 565 570 575 Asp Asp Thr Tyr Arg Leu Phe Tyr Gly Tyr Gly Tyr Val Val Ala Gln 580 585 590 Asp Arg Leu Phe Gln Met Glu Met Ala Arg Arg Ser Thr Gln Gly Thr 595 600 605 Val Ser Glu Val Leu Gly Lys Ala Phe Val Ser Phe Asp Lys Asp Ile 610 615 620 Arg Gln Asn Tyr Trp Pro Asp Ser Ile Arg Ala Gln Ile Ala Ser Leu 625 630 635 640 Ser Ala Glu Asp Lys Ser Ile Leu Gln Gly Tyr Ala Asp Gly Met Asn 645 650 655 Ala Trp Ile Asp Lys Val Asn Ala Ser Pro Asp Lys Leu Leu Pro Gln 660 665 670 Gln Phe Ser Thr Phe Gly Phe Lys Pro Lys His Trp Glu Pro Phe Asp 675 680 685 Val Ala Met Ile Phe Val Gly Thr Met Ala Asn Arg Phe Ser Asp Ser 690 695 700 Thr Ser Glu Ile Asp Asn Leu Ala Leu Leu Thr Ala Leu Lys Asp Lys 705 710 715 720 Tyr Gly Lys Gln Gln Gly Met Ala Val Phe Asn Gln Leu Lys Trp Leu 725 730 735 Val Asn Pro Ser Ala Pro Thr Thr Ile Ala Ala Arg Glu Ser Ala Tyr 740 745 750 Pro Leu Lys Phe Asp Leu Gln Asn Thr Gln Thr Ala 755 760 <210> 11 <211> 2295 <212> DNA <213> Artificial Sequence <220> <223> synthetic PGA nucleotide sequence for variant 258 <400> 11 agcaatatgt gggtgattgg caaaaacaaa gcccaggatg cgaaggccat tatggtcaat 60 gggccgcagt ttggttggta taatccggcg tatacctacg gtatcggcct gcacggcgcg 120 ggctatgacg tcaccggcaa tacgccgttt gcctatccgg gcctcctttt tggtcacaac 180 ggcaccattt catggggatc caccgccggt gccggtgata gcgtcgatat ctttgccgaa 240 aaactttccg ccgagaagcc gggctattac cagcataacg gcgagtgggt gaagatgttg 300 agccgcaagg agactattgc ggtcaaagac ggccagccgg agacctttac cgtttggcgc 360 acgctgcacg gcaacgtcat taaaaccgat actgcgacgc agaccgccta tgccaaagcg 420 cgcgcctggg atggcaaaga ggtggcgtcc ctgctggcgt ggacgcacca gatgaaggcc 480 aaaaactggc cggagtggac gcagcaggcg gccaaacagg cgctgaccat caactggtac 540 tacgccgatg tgaacggcaa tatcggctat gtgcataccg gcgcctatcc ggatcgccag 600 cccggccacg acccgcgttt gccggttccc ggcactggaa aatgggactg gaaagggttg 660 ctgtcgtttg atttgaatcc gaaagtgtat aacccgcagt cgggctatat cgccaactgg 720 aacaactcgc cgcaaaaaga ctacccggcc tctgatctgt tcgcgttcct gtggggcggt 780 gcggatcgag cgactgagat cgacacgatc ctcgataagc aaccgcgctt caccgccgat 840 caggcgtggg atgtgatccg ccaaaccagc cgtcgggatc tcaacctgcg gttgttctta 900 ccggcgctga aggacgccac cgccaacctg gcggaaaacg atccgcgccg ccaactggtg 960 gataaactgg cgagctggga cggcgaaaac cttgtcaacg atgacggaaa aacctatcag 1020 caaccgggat cggcgattct taacgcctgg ctgaccagca tgctcaagcg cacggtggtt 1080 gccgcggtcc cagcgccgtt tggtaagtgg tacagcgcca gtggctatga aaccacccag 1140 gacgggccaa ccggctcgct gaacatcagc gtgggggcga aaatcctcta cgaagctctg 1200 cagggtgata agtcgccaat cccgcaggcg gtcgatctgt ttggcgggaa accgcagcag 1260 gaagtaatac tggcggcgct ggacgacgct tggcagacgc tgtcaaaacg ctacggtaac 1320 gacgtcaccg gctggaaaac ccctgccatg gcgcttacct tccgggccaa taacttcttc 1380 ggcgtgccgc aggcggcagc aaaagaggcg cgtcatcagg cggagtacca gaaccgcggt 1440 acggaaaaca acatgattgt cttctcaccg acgtcgggta accgcccggt tcttgcctgg 1500 gatgtggtgg cgccggggca aagcggtttt atcgcgccgg atggcaaagc cgataagcac 1560 tatgacgatc agctgaaaat gtacgagagc tttggccgta aatcgctgtg gttaacgcct 1620 caggacgttg acgagcacaa agagtctcag gaagtgctgc aggtacagtt ggatcagacc 1680 gaggttaaga tcgttcgcga tgaatacggc atgccgcata tttacgccga tgatacctat 1740 cgactgtttt acggctatgg ctacgtggtg gcgcaggatc gcctgttcca gatggaaatg 1800 gcgcgccgca gtactcaggg gaccgtctcc gaggtgctgg gcaaagcatt cgttaagttt 1860 gataaagata ttcgccagaa ctactggccg gattctattc gcgcgcagat agcttccctc 1920 tccgctgagg ataaatccat tctgcagggc tatgccgatg gcatgaatgc gtggatcgat 1980 aaagtgaacg ccagccccga taagctgtta ccccagcagt tctccacctt tggttttaaa 2040 cccaagcatt gggaaccgtt tgatgtggcg atgatttttg tcggcaccat ggcgaaccgt 2100 ttttctgaca gcaccagcga aattgataac ctggcgctgc tgacggcgct aaaagacaaa 2160 tacggcaagc agcagggcat ggcggtcttt aaccagctga aatggctggt taatccttcc 2220 gcgccaacca ccattgcggc gcgggaaagc gcctatccgc tgaagtttga tctgcaaaac 2280 acgcaaacgg cgtaa 2295 <210> 12 <211> 764 <212> PRT <213> Artificial Sequence <220> <223> synthetic PGA protein sequence for variant 258 <400> 12 Ser Asn Met Trp Val Ile Gly Lys Asn Lys Ala Gln Asp Ala Lys Ala 1 5 10 15 Ile Met Val Asn Gly Pro Gln Phe Gly Trp Tyr Asn Pro Ala Tyr Thr 20 25 30 Tyr Gly Ile Gly Leu His Gly Ala Gly Tyr Asp Val Thr Gly Asn Thr 35 40 45 Pro Phe Ala Tyr Pro Gly Leu Leu Phe Gly His Asn Gly Thr Ile Ser 50 55 60 Trp Gly Ser Thr Ala Gly Ala Gly Asp Ser Val Asp Ile Phe Ala Glu 65 70 75 80 Lys Leu Ser Ala Glu Lys Pro Gly Tyr Tyr Gln His Asn Gly Glu Trp 85 90 95 Val Lys Met Leu Ser Arg Lys Glu Thr Ile Ala Val Lys Asp Gly Gln 100 105 110 Pro Glu Thr Phe Thr Val Trp Arg Thr Leu His Gly Asn Val Ile Lys 115 120 125 Thr Asp Thr Ala Thr Gln Thr Ala Tyr Ala Lys Ala Arg Ala Trp Asp 130 135 140 Gly Lys Glu Val Ala Ser Leu Leu Ala Trp Thr His Gln Met Lys Ala 145 150 155 160 Lys Asn Trp Pro Glu Trp Thr Gln Gln Ala Ala Lys Gln Ala Leu Thr 165 170 175 Ile Asn Trp Tyr Tyr Ala Asp Val Asn Gly Asn Ile Gly Tyr Val His 180 185 190 Thr Gly Ala Tyr Pro Asp Arg Gln Pro Gly His Asp Pro Arg Leu Pro 195 200 205 Val Pro Gly Thr Gly Lys Trp Asp Trp Lys Gly Leu Leu Ser Phe Asp 210 215 220 Leu Asn Pro Lys Val Tyr Asn Pro Gln Ser Gly Tyr Ile Ala Asn Trp 225 230 235 240 Asn Asn Ser Pro Gln Lys Asp Tyr Pro Ala Ser Asp Leu Phe Ala Phe 245 250 255 Leu Trp Gly Gly Ala Asp Arg Ala Thr Glu Ile Asp Thr Ile Leu Asp 260 265 270 Lys Gln Pro Arg Phe Thr Ala Asp Gln Ala Trp Asp Val Ile Arg Gln 275 280 285 Thr Ser Arg Arg Asp Leu Asn Leu Arg Leu Phe Leu Pro Ala Leu Lys 290 295 300 Asp Ala Thr Ala Asn Leu Ala Glu Asn Asp Pro Arg Arg Gln Leu Val 305 310 315 320 Asp Lys Leu Ala Ser Trp Asp Gly Glu Asn Leu Val Asn Asp Asp Gly 325 330 335 Lys Thr Tyr Gln Gln Pro Gly Ser Ala Ile Leu Asn Ala Trp Leu Thr 340 345 350 Ser Met Leu Lys Arg Thr Val Val Ala Ala Val Pro Ala Pro Phe Gly 355 360 365 Lys Trp Tyr Ser Ala Ser Gly Tyr Glu Thr Thr Gln Asp Gly Pro Thr 370 375 380 Gly Ser Leu Asn Ile Ser Val Gly Ala Lys Ile Leu Tyr Glu Ala Leu 385 390 395 400 Gln Gly Asp Lys Ser Pro Ile Pro Gln Ala Val Asp Leu Phe Gly Gly 405 410 415 Lys Pro Gln Gln Glu Val Ile Leu Ala Ala Leu Asp Asp Ala Trp Gln 420 425 430 Thr Leu Ser Lys Arg Tyr Gly Asn Asp Val Thr Gly Trp Lys Thr Pro 435 440 445 Ala Met Ala Leu Thr Phe Arg Ala Asn Asn Phe Phe Gly Val Pro Gln 450 455 460 Ala Ala Ala Lys Glu Ala Arg His Gln Ala Glu Tyr Gln Asn Arg Gly 465 470 475 480 Thr Glu Asn Asn Met Ile Val Phe Ser Pro Thr Ser Gly Asn Arg Pro 485 490 495 Val Leu Ala Trp Asp Val Val Ala Pro Gly Gln Ser Gly Phe Ile Ala 500 505 510 Pro Asp Gly Lys Ala Asp Lys His Tyr Asp Asp Gln Leu Lys Met Tyr 515 520 525 Glu Ser Phe Gly Arg Lys Ser Leu Trp Leu Thr Pro Gln Asp Val Asp 530 535 540 Glu His Lys Glu Ser Gln Glu Val Leu Gln Val Gln Leu Asp Gln Thr 545 550 555 560 Glu Val Lys Ile Val Arg Asp Glu Tyr Gly Met Pro His Ile Tyr Ala 565 570 575 Asp Asp Thr Tyr Arg Leu Phe Tyr Gly Tyr Gly Tyr Val Val Ala Gln 580 585 590 Asp Arg Leu Phe Gln Met Glu Met Ala Arg Arg Ser Thr Gln Gly Thr 595 600 605 Val Ser Glu Val Leu Gly Lys Ala Phe Val Lys Phe Asp Lys Asp Ile 610 615 620 Arg Gln Asn Tyr Trp Pro Asp Ser Ile Arg Ala Gln Ile Ala Ser Leu 625 630 635 640 Ser Ala Glu Asp Lys Ser Ile Leu Gln Gly Tyr Ala Asp Gly Met Asn 645 650 655 Ala Trp Ile Asp Lys Val Asn Ala Ser Pro Asp Lys Leu Leu Pro Gln 660 665 670 Gln Phe Ser Thr Phe Gly Phe Lys Pro Lys His Trp Glu Pro Phe Asp 675 680 685 Val Ala Met Ile Phe Val Gly Thr Met Ala Asn Arg Phe Ser Asp Ser 690 695 700 Thr Ser Glu Ile Asp Asn Leu Ala Leu Leu Thr Ala Leu Lys Asp Lys 705 710 715 720 Tyr Gly Lys Gln Gln Gly Met Ala Val Phe Asn Gln Leu Lys Trp Leu 725 730 735 Val Asn Pro Ser Ala Pro Thr Thr Ile Ala Ala Arg Glu Ser Ala Tyr 740 745 750 Pro Leu Lys Phe Asp Leu Gln Asn Thr Gln Thr Ala 755 760 <210> 13 <211> 763 <212> PRT <213> Artificial Sequence <220> <223> synthetic PGA protein sequence for variants 293-333 <220> <221> VARIANT <222> (26)..(26) <223> Xaa can be Trp or Phe <220> <221> VARIANT <222> (27)..(27) <223> Xaa can be Tyr, Phe, Gly, His, Thr, or Val <220> <221> VARIANT <222> (28)..(28) <223> Xaa can be Val or Asn <220> <221> VARIANT <222> (32)..(32) <223> Xaa can be Thr or Asp <220> <221> VARIANT <222> (49)..(49) <223> Xaa can be Pro or His <220> <221> VARIANT <222> (56)..(56) <223> Xaa can be Val, Ile or Leu <220> <221> VARIANT <222> (71)..(71) <223> Xaa can be Gly, Phe or Ala <220> <221> VARIANT <222> (74)..(74) <223> Xaa can be Asp, Ala, Gly, His, Leu, Asn, Pro, Ser, Thr, or Val <220> <221> VARIANT <222> (116)..(116) <223> Xaa can be Phe or Ile <220> <221> VARIANT <222> (126)..(126) <223> Xaa can be Val or Ile <220> <221> VARIANT <222> (127)..(127) <223> Xaa can be Ile or Val <220> <221> VARIANT <222> (129)..(129) <223> Xaa can be Thr, Lys or Trp <220> <221> VARIANT <222> (130)..(130) <223> Xaa can be Asp or Glu <220> <221> VARIANT <222> (131)..(131) <223> Xaa can be Thr, Asp, Asn, or Arg <220> <221> VARIANT <222> (132)..(132) <223> Xaa can be Ala, Arg or Thr <220> <221> VARIANT <222> (133)..(133) <223> Xaa can be Thr, Ala, Cys,Gly, Asn, Gln, Arg, or Ser <220> <221> VARIANT <222> (134)..(134) <223> Xaa can be Gln, His or Ser <220> <221> VARIANT <222> (156)..(156) <223> Xaa can be His or Arg <220> <221> VARIANT <222> (160)..(160) <223> Xaa can be Ala or Ser <220> <221> VARIANT <222> (240)..(240) <223> Xaa can be Trp or Phe <220> <221> VARIANT <222> (253)..(253) <223> Xaa can be Leu, Phe, Ser, Thr, Val, or Trp <220> <221> VARIANT <222> (254)..(254) <223> Xaa can be Phe or Trp <220> <221> VARIANT <222> (255)..(255) <223> Xaa can be Ala, Phe, Gly, Leu, Met, Arg, Ser, Val, or Tyr <220> <221> VARIANT <222> (256)..(256) <223> Xaa can be Phe or Tyr <220> <221> VARIANT <222> (257)..(257) <223> Xaa can be Asn or Arg <220> <221> VARIANT <222> (264)..(264) <223> Xaa can be Val or Ala <220> <221> VARIANT <222> (308)..(308) <223> Xaa can be Ala or Thr <220> <221> VARIANT <222> (348)..(348) <223> Xaa can be Asn, Asp, Glu, His, Lys, Arg, or Ser <220> <221> VARIANT <222> (360)..(360) <223> Xaa can be Val or Ala <220> <221> VARIANT <222> (365)..(365) <223> Xaa can be Ala or Met <220> <221> VARIANT <222> (367)..(367) <223> Xaa can be Phe or Ser <220> <221> VARIANT <222> (368)..(368) <223> Xaa can be Gly or Asp <220> <221> VARIANT <222> (369)..(369) <223> Xaa can be Lys or Cys <220> <221> VARIANT <222> (370)..(370) <223> Xaa can be Trp, Phe, Ile, or Val <220> <221> VARIANT <222> (372)..(372) <223> Xaa can be Ser, Ala or Leu <220> <221> VARIANT <222> (373)..(373) <223> Xaa can be Ala, Gln, or Tyr <220> <221> VARIANT <222> (373)..(373) <223> Xaa can be Ala, Leu, Gln, or Tyr <220> <221> VARIANT <222> (378)..(378) <223> Xaa can be Thr, Cys or Gln <220> <221> VARIANT <222> (379)..(379) <223> Xaa can be Thr, Ala, Cys, Gly, Leu, Arg, or Ser <220> <221> VARIANT <222> (380)..(380) <223> Xaa can be Gln, Cys, Ile, Lys, or Arg <220> <221> VARIANT <222> (381)..(381) <223> Xaa can be Asp, Cys, Phe, Gly, Ile, Lys, Leu, Met, Pro, Gln, Arg, Val, Trp, or Tyr <220> <221> VARIANT <222> (384)..(384) <223> Xaa can be Thr, Ala, Cys, Phe, Gly, His, Asn, Pro, or Arg <220> <221> VARIANT <222> (387)..(387) <223> Xaa can be Leu, Cys, Glu, Phe, Gly, His, Ile, Met, Gln, Ser, or Thr <220> <221> VARIANT <222> (388)..(388) <223> Xaa can be Asn, Gly or Ser <220> <221> VARIANT <222> (389)..(389) <223> Xaa can be Ile or Pro <220> <221> VARIANT <222> (391)..(391) <223> Xaa can be Val, Asn, or Pro <220> <221> VARIANT <222> (418)..(418) <223> Xaa can be Pro or Gln <220> <221> VARIANT <222> (453)..(453) <223> Xaa can be Thr or Arg <220> <221> VARIANT <222> (454)..(454) <223> Xaa can be Phe or Tyr <220> <221> VARIANT <222> (456)..(456) <223> Xaa can be Ala or Thr <220> <221> VARIANT <222> (484)..(484) <223> Xaa can be Asp or Asn <220> <221> VARIANT <222> (547)..(547) <223> Xaa can be Gln or Lys <220> <221> VARIANT <222> (557)..(557) <223> Xaa can be Leu or Ser <220> <221> VARIANT <222> (596)..(596) <223> Xaa can be Phe or Leu <220> <221> VARIANT <222> (616)..(616) <223> Xaa can be Ala or Asp <220> <221> VARIANT <222> (618)..(618) <223> Xaa can be Val or Ile <220> <221> VARIANT <222> (619)..(619) <223> Xaa can be Ser or Lys <220> <221> VARIANT <222> (697)..(697) <223> Xaa can be Met or Arg <220> <221> VARIANT <222> (711)..(711) <223> Xaa can be Leu or Gln <220> <221> VARIANT <222> (750)..(750) <223> Xaa can be Ser or Gly <220> <221> VARIANT <222> (754)..(754) <223> Xaa can be Leu or Pro <400> 13 Ser Asn Met Trp Val Ile Gly Lys Asn Lys Ala Gln Asp Ala Lys Ala 1 5 10 15 Ile Met Val Asn Gly Pro Gln Phe Gly Xaa Xaa Xaa Pro Ala Tyr Xaa 20 25 30 Tyr Gly Ile Gly Leu His Gly Ala Gly Tyr Asp Val Thr Gly Asn Thr 35 40 45 Xaa Phe Ala Tyr Pro Gly Leu Xaa Phe Gly His Asn Gly Thr Ile Ser 50 55 60 Trp Gly Ser Thr Ala Gly Xaa Gly Asp Xaa Val Asp Ile Phe Ala Glu 65 70 75 80 Lys Leu Ser Ala Glu Lys Pro Gly Tyr Tyr Gln His Asn Gly Glu Trp 85 90 95 Val Lys Met Leu Ser Arg Lys Glu Thr Ile Ala Val Lys Asp Gly Gln 100 105 110 Pro Glu Thr Xaa Thr Val Trp Arg Thr Leu His Gly Asn Xaa Xaa Lys 115 120 125 Xaa Xaa Xaa Xaa Xaa Xaa Thr Ala Tyr Ala Lys Ala Arg Ala Trp Asp 130 135 140 Gly Lys Glu Val Ala Ser Leu Leu Ala Trp Thr Xaa Gln Met Lys Xaa 145 150 155 160 Lys Asn Trp Pro Glu Trp Thr Gln Gln Ala Ala Lys Gln Ala Leu Thr 165 170 175 Ile Asn Trp Tyr Tyr Ala Asp Val Asn Gly Asn Ile Gly Tyr Val His 180 185 190 Thr Gly Ala Tyr Pro Asp Arg Gln Pro Gly His Asp Pro Arg Leu Pro 195 200 205 Val Pro Gly Thr Gly Lys Trp Asp Trp Lys Gly Leu Leu Ser Phe Asp 210 215 220 Leu Asn Pro Lys Val Tyr Asn Pro Gln Ser Gly Tyr Ile Ala Asn Xaa 225 230 235 240 Asn Asn Ser Pro Gln Lys Asp Tyr Pro Ala Ser Asp Xaa Xaa Xaa Xaa 245 250 255 Xaa Trp Gly Gly Ala Asp Arg Xaa Thr Glu Ile Asp Thr Ile Leu Asp 260 265 270 Lys Gln Pro Arg Phe Thr Ala Asp Gln Ala Trp Asp Val Ile Arg Gln 275 280 285 Thr Ser Arg Arg Asp Leu Asn Leu Arg Leu Phe Leu Pro Ala Leu Lys 290 295 300 Asp Ala Thr Xaa Asn Leu Ala Glu Asn Asp Pro Arg Arg Gln Leu Val 305 310 315 320 Asp Lys Leu Ala Ser Trp Asp Gly Glu Asn Leu Val Asn Asp Asp Gly 325 330 335 Lys Thr Tyr Gln Gln Pro Gly Ser Ala Ile Leu Xaa Ala Trp Leu Thr 340 345 350 Ser Met Leu Lys Arg Thr Val Xaa Ala Ala Val Pro Xaa Pro Xaa Xaa 355 360 365 Xaa Xaa Tyr Xaa Xaa Ser Gly Tyr Glu Xaa Xaa Xaa Xaa Gly Pro Xaa 370 375 380 Gly Ser Xaa Xaa Xaa Ser Xaa Gly Ala Lys Ile Leu Tyr Glu Ala Leu 385 390 395 400 Gln Gly Asp Lys Ser Pro Ile Pro Gln Ala Val Asp Leu Phe Gly Gly 405 410 415 Lys Xaa Gln Gln Glu Val Ile Leu Ala Ala Leu Asp Asp Ala Trp Gln 420 425 430 Thr Leu Ser Lys Arg Tyr Gly Asn Asp Val Thr Gly Trp Lys Thr Pro 435 440 445 Ala Met Ala Leu Xaa Xaa Arg Xaa Asn Asn Phe Phe Gly Val Pro Gln 450 455 460 Ala Ala Ala Lys Glu Ala Arg His Gln Ala Glu Tyr Gln Asn Arg Gly 465 470 475 480 Thr Glu Asn Xaa Met Ile Val Phe Ser Pro Thr Ser Gly Asn Arg Pro 485 490 495 Val Leu Ala Trp Asp Val Val Ala Pro Gly Gln Ser Gly Phe Ile Ala 500 505 510 Pro Asp Gly Lys Ala Asp Lys His Tyr Asp Asp Gln Leu Lys Met Tyr 515 520 525 Glu Ser Phe Gly Arg Lys Ser Leu Trp Leu Thr Pro Gln Asp Val Asp 530 535 540 Glu His Xaa Glu Ser Gln Glu Val Leu Gln Val Gln Xaa Asp Gln Thr 545 550 555 560 Glu Val Lys Ile Val Arg Asp Glu Tyr Gly Met Pro His Ile Tyr Ala 565 570 575 Asp Asp Thr Tyr Arg Leu Phe Tyr Gly Tyr Gly Tyr Val Val Ala Gln 580 585 590 Asp Arg Leu Xaa Gln Met Glu Met Ala Arg Arg Ser Thr Gln Gly Thr 595 600 605 Val Ser Glu Val Leu Gly Lys Xaa Phe Xaa Xaa Phe Asp Lys Asp Ile 610 615 620 Arg Gln Asn Tyr Trp Pro Asp Ser Ile Arg Ala Gln Ile Ala Ser Leu 625 630 635 640 Ser Ala Glu Asp Lys Ser Ile Leu Gln Gly Tyr Ala Asp Gly Met Asn 645 650 655 Ala Trp Ile Asp Lys Val Asn Ala Ser Pro Asp Lys Leu Leu Pro Gln 660 665 670 Gln Phe Ser Thr Phe Gly Phe Lys Pro Lys His Trp Glu Pro Phe Asp 675 680 685 Val Ala Met Ile Phe Val Gly Thr Xaa Ala Asn Arg Phe Ser Asp Ser 690 695 700 Thr Ser Glu Ile Asp Asn Xaa Ala Leu Leu Thr Ala Leu Lys Asp Lys 705 710 715 720 Tyr Gly Lys Gln Gln Gly Met Ala Val Phe Asn Gln Leu Lys Trp Leu 725 730 735 Val Asn Pro Ser Ala Pro Thr Thr Ile Ala Ala Arg Glu Xaa Ala Tyr 740 745 750 Pro Xaa Lys Phe Asp Leu Gln Asn Thr Gln Thr 755 760 <210> 14 <211> 764 <212> PRT <213> Artificial Sequence <220> <223> synthetic PGA protein sequence for variants 255-292 <220> <221> VARIANT <222> (28)..(28) <223> Xaa can be Val or Asn <220> <221> VARIANT <222> (56)..(56) <223> Xaa can be Val or Leu <220> <221> VARIANT <222> (71)..(71) <223> Xaa can be Gly or Ala <220> <221> VARIANT <222> (74)..(74) <223> Xaa can be Asp, Asn, Ser, Thr or Val <220> <221> VARIANT <222> (139)..(139) <223> Xaa can be Lys or Ile <220> <221> misc_feature <222> (445)..(445) <223> Xaa can be any naturally occurring amino acid <220> <221> VARIANT <222> (455)..(455) <223> Xaa can be Arg or Trp <220> <221> VARIANT <222> (618)..(618) <223> Xaa can be Val or Ile <220> <221> VARIANT <222> (619)..(619) <223> Xaa can be Ser or Lys <400> 14 Ser Asn Met Trp Val Ile Gly Lys Asn Lys Ala Gln Asp Ala Lys Ala 1 5 10 15 Ile Met Val Asn Gly Pro Gln Phe Gly Trp Tyr Xaa Pro Ala Tyr Thr 20 25 30 Tyr Gly Ile Gly Leu His Gly Ala Gly Tyr Asp Val Thr Gly Asn Thr 35 40 45 Pro Phe Ala Tyr Pro Gly Leu Xaa Phe Gly His Asn Gly Thr Ile Ser 50 55 60 Trp Gly Ser Thr Ala Gly Xaa Gly Asp Xaa Val Asp Ile Phe Ala Glu 65 70 75 80 Lys Leu Ser Ala Glu Lys Pro Gly Tyr Tyr Gln His Asn Gly Glu Trp 85 90 95 Val Lys Met Leu Ser Arg Lys Glu Thr Ile Ala Val Lys Asp Gly Gln 100 105 110 Pro Glu Thr Phe Thr Val Trp Arg Thr Leu His Gly Asn Val Ile Lys 115 120 125 Thr Asp Thr Ala Thr Gln Thr Ala Tyr Ala Xaa Ala Arg Ala Trp Asp 130 135 140 Gly Lys Glu Val Ala Ser Leu Leu Ala Trp Thr His Gln Met Lys Ala 145 150 155 160 Lys Asn Trp Pro Glu Trp Thr Gln Gln Ala Ala Lys Gln Ala Leu Thr 165 170 175 Ile Asn Trp Tyr Tyr Ala Asp Val Asn Gly Asn Ile Gly Tyr Val His 180 185 190 Thr Gly Ala Tyr Pro Asp Arg Gln Pro Gly His Asp Pro Arg Leu Pro 195 200 205 Val Pro Gly Thr Gly Lys Trp Asp Trp Lys Gly Leu Leu Ser Phe Asp 210 215 220 Leu Asn Pro Lys Val Tyr Asn Pro Gln Ser Gly Tyr Ile Ala Asn Trp 225 230 235 240 Asn Asn Ser Pro Gln Lys Asp Tyr Pro Ala Ser Asp Leu Phe Ala Phe 245 250 255 Leu Trp Gly Gly Ala Asp Arg Ala Thr Glu Ile Asp Thr Ile Leu Asp 260 265 270 Lys Gln Pro Arg Phe Thr Ala Asp Gln Ala Trp Asp Val Ile Arg Gln 275 280 285 Thr Ser Arg Arg Asp Leu Asn Leu Arg Leu Phe Leu Pro Ala Leu Lys 290 295 300 Asp Ala Thr Ala Asn Leu Ala Glu Asn Asp Pro Arg Arg Gln Leu Val 305 310 315 320 Asp Lys Leu Ala Ser Trp Asp Gly Glu Asn Leu Val Asn Asp Asp Gly 325 330 335 Lys Thr Tyr Gln Gln Pro Gly Ser Ala Ile Leu Asn Ala Trp Leu Thr 340 345 350 Ser Met Leu Lys Arg Thr Val Val Ala Ala Val Pro Ala Pro Phe Gly 355 360 365 Lys Trp Tyr Ser Ala Ser Gly Tyr Glu Thr Thr Gln Asp Gly Pro Thr 370 375 380 Gly Ser Leu Asn Ile Ser Val Gly Ala Lys Ile Leu Tyr Glu Ala Leu 385 390 395 400 Gln Gly Asp Lys Ser Pro Ile Pro Gln Ala Val Asp Leu Phe Gly Gly 405 410 415 Lys Pro Gln Gln Glu Val Ile Leu Ala Ala Leu Asp Asp Ala Trp Gln 420 425 430 Thr Leu Ser Lys Arg Tyr Gly Asn Asp Val Thr Gly Xaa Lys Thr Pro 435 440 445 Ala Met Ala Leu Thr Phe Arg Ala Asn Asn Phe Phe Gly Val Pro Gln 450 455 460 Ala Ala Ala Lys Glu Ala Arg His Gln Ala Glu Tyr Gln Asn Arg Gly 465 470 475 480 Thr Glu Asn Asn Met Ile Val Phe Ser Pro Thr Ser Gly Asn Arg Pro 485 490 495 Val Leu Ala Trp Asp Val Val Ala Pro Gly Gln Ser Gly Phe Ile Ala 500 505 510 Pro Asp Gly Lys Ala Asp Lys His Tyr Asp Asp Gln Leu Lys Met Tyr 515 520 525 Glu Ser Phe Gly Arg Lys Ser Leu Trp Leu Thr Pro Gln Asp Val Asp 530 535 540 Glu His Lys Glu Ser Gln Glu Val Leu Gln Val Gln Leu Asp Gln Thr 545 550 555 560 Glu Val Lys Ile Val Arg Asp Glu Tyr Gly Met Pro His Ile Tyr Ala 565 570 575 Asp Asp Thr Tyr Arg Leu Phe Tyr Gly Tyr Gly Tyr Val Val Ala Gln 580 585 590 Asp Arg Leu Phe Gln Met Glu Met Ala Arg Arg Ser Thr Gln Gly Thr 595 600 605 Val Ser Glu Val Leu Gly Lys Ala Phe Xaa Xaa Phe Asp Lys Asp Ile 610 615 620 Arg Gln Asn Tyr Trp Pro Asp Ser Ile Arg Ala Gln Ile Ala Ser Leu 625 630 635 640 Ser Ala Glu Asp Lys Ser Ile Leu Gln Gly Tyr Ala Asp Gly Met Asn 645 650 655 Ala Trp Ile Asp Lys Val Asn Ala Ser Pro Asp Lys Leu Leu Pro Gln 660 665 670 Gln Phe Ser Thr Phe Gly Phe Lys Pro Lys His Trp Glu Pro Phe Asp 675 680 685 Val Ala Met Ile Phe Val Gly Thr Met Ala Asn Arg Phe Ser Asp Ser 690 695 700 Thr Ser Glu Ile Asp Asn Leu Ala Leu Leu Thr Ala Leu Lys Asp Lys 705 710 715 720 Tyr Gly Lys Gln Gln Gly Met Ala Val Phe Asn Gln Leu Lys Trp Leu 725 730 735 Val Asn Pro Ser Ala Pro Thr Thr Ile Ala Ala Arg Glu Ser Ala Tyr 740 745 750 Pro Leu Lys Phe Asp Leu Gln Asn Thr Gln Thr Ala 755 760 <210> 15 <211> 764 <212> PRT <213> Artificial Sequence <220> <223> synthetic PGA protein sequence for variants 293-333 <220> <221> VARIANT <222> (27)..(27) <223> Xaa can be Phe or Tyr <220> <221> VARIANT <222> (28)..(28) <223> Xaa can be Asn or Val <220> <221> misc_feature <222> (54)..(54) <223> Xaa can be any naturally occurring amino acid <220> <221> VARIANT <222> (56)..(56) <223> Xaa can be Leu or Ile <220> <221> VARIANT <222> (71)..(71) <223> Xaa can be Gly or Ala <220> <221> VARIANT <222> (74)..(74) <223> Xaa can be Asp, Asn, Ser Thr, or Val <220> <221> VARIANT <222> (264)..(264) <223> Xaa can be Val or Ala <220> <221> VARIANT <222> (484)..(484) <223> Xaa can be Asp or Asn <220> <221> misc_feature <222> (544)..(544) <223> Xaa can be any naturally occurring amino acid <220> <221> VARIANT <222> (547)..(547) <223> Xaa can be Gln or Lys <220> <221> VARIANT <222> (618)..(618) <223> Xaa can be Val or Ile <220> <221> VARIANT <222> (619)..(619) <223> Xaa can be Ser or Lys <220> <221> VARIANT <222> (741)..(741) <223> Xaa can be Ala or Thr <400> 15 Ser Asn Met Trp Val Ile Gly Lys Asn Lys Ala Gln Asp Ala Lys Ala 1 5 10 15 Ile Met Val Asn Gly Pro Gln Phe Gly Trp Xaa Xaa Pro Ala Tyr Thr 20 25 30 Tyr Gly Ile Gly Leu His Gly Ala Gly Tyr Asp Val Thr Gly Asn Thr 35 40 45 Pro Phe Ala Tyr Pro Xaa Leu Leu Phe Gly His Asn Gly Thr Ile Ser 50 55 60 Trp Gly Ser Thr Ala Gly Xaa Gly Asp Xaa Val Asp Ile Phe Ala Glu 65 70 75 80 Lys Leu Ser Ala Glu Lys Pro Gly Tyr Tyr Gln His Asn Gly Glu Trp 85 90 95 Val Lys Met Leu Ser Arg Lys Glu Thr Ile Ala Val Lys Asp Gly Gln 100 105 110 Pro Glu Thr Phe Thr Val Trp Arg Thr Leu His Gly Asn Val Ile Lys 115 120 125 Thr Asp Thr Ala Thr Gln Thr Ala Tyr Ala Lys Ala Arg Ala Trp Asp 130 135 140 Gly Lys Glu Val Ala Ser Leu Leu Ala Trp Thr His Gln Met Lys Ala 145 150 155 160 Lys Asn Trp Pro Glu Trp Thr Gln Gln Ala Ala Lys Gln Ala Leu Thr 165 170 175 Ile Asn Trp Tyr Tyr Ala Asp Val Asn Gly Asn Ile Gly Tyr Val His 180 185 190 Thr Gly Ala Tyr Pro Asp Arg Gln Pro Gly His Asp Pro Arg Leu Pro 195 200 205 Val Pro Gly Thr Gly Lys Trp Asp Trp Lys Gly Leu Leu Ser Phe Asp 210 215 220 Leu Asn Pro Lys Val Tyr Asn Pro Gln Ser Gly Tyr Ile Ala Asn Trp 225 230 235 240 Asn Asn Ser Pro Gln Lys Asp Tyr Pro Ala Ser Asp Leu Phe Ala Phe 245 250 255 Leu Trp Gly Gly Ala Asp Arg Xaa Thr Glu Ile Asp Thr Ile Leu Asp 260 265 270 Lys Gln Pro Arg Phe Thr Ala Asp Gln Ala Trp Asp Val Ile Arg Gln 275 280 285 Thr Ser Arg Arg Asp Leu Asn Leu Arg Leu Phe Leu Pro Ala Leu Lys 290 295 300 Asp Ala Thr Ala Asn Leu Ala Glu Asn Asp Pro Arg Arg Gln Leu Val 305 310 315 320 Asp Lys Leu Ala Ser Trp Asp Gly Glu Asn Leu Val Asn Asp Asp Gly 325 330 335 Lys Thr Tyr Gln Gln Pro Gly Ser Ala Ile Leu Asn Ala Trp Leu Thr 340 345 350 Ser Met Leu Lys Arg Thr Val Val Ala Ala Val Pro Ala Pro Phe Gly 355 360 365 Lys Trp Tyr Ser Ala Ser Gly Tyr Glu Thr Thr Gln Asp Gly Pro Thr 370 375 380 Gly Ser Leu Asn Ile Ser Val Gly Ala Lys Ile Leu Tyr Glu Ala Leu 385 390 395 400 Gln Gly Asp Lys Ser Pro Ile Pro Gln Ala Val Asp Leu Phe Gly Gly 405 410 415 Lys Pro Gln Gln Glu Val Ile Leu Ala Ala Leu Asp Asp Ala Trp Gln 420 425 430 Thr Leu Ser Lys Arg Tyr Gly Asn Asp Val Thr Gly Trp Lys Thr Pro 435 440 445 Ala Met Ala Leu Thr Phe Arg Ala Asn Asn Phe Phe Gly Val Pro Gln 450 455 460 Ala Ala Ala Lys Glu Ala Arg His Gln Ala Glu Tyr Gln Asn Arg Gly 465 470 475 480 Thr Glu Asn Asp Met Ile Val Phe Ser Pro Thr Ser Gly Asn Arg Pro 485 490 495 Val Leu Ala Trp Asp Val Val Ala Pro Gly Gln Ser Gly Phe Ile Ala 500 505 510 Pro Asp Gly Lys Ala Asp Lys His Tyr Asp Asp Gln Leu Lys Met Tyr 515 520 525 Glu Ser Phe Gly Arg Lys Ser Leu Trp Leu Thr Pro Gln Asp Val Xaa 530 535 540 Glu His Xaa Glu Ser Gln Glu Val Leu Gln Val Gln Leu Asp Gln Thr 545 550 555 560 Glu Val Lys Ile Val Arg Asp Glu Tyr Gly Met Pro His Ile Tyr Ala 565 570 575 Asp Asp Thr Tyr Arg Leu Phe Tyr Gly Tyr Gly Tyr Val Val Ala Gln 580 585 590 Asp Arg Leu Phe Gln Met Glu Met Ala Arg Arg Ser Thr Gln Gly Thr 595 600 605 Val Ser Glu Val Leu Gly Lys Ala Phe Xaa Xaa Phe Asp Lys Asp Ile 610 615 620 Arg Gln Asn Tyr Trp Pro Asp Ser Ile Arg Ala Gln Ile Ala Ser Leu 625 630 635 640 Ser Ala Glu Asp Lys Ser Ile Leu Gln Gly Tyr Ala Asp Gly Met Asn 645 650 655 Ala Trp Ile Asp Lys Val Asn Ala Ser Pro Asp Lys Leu Leu Pro Gln 660 665 670 Gln Phe Ser Thr Phe Gly Phe Lys Pro Lys His Trp Glu Pro Phe Asp 675 680 685 Val Ala Met Ile Phe Val Gly Thr Met Ala Asn Arg Phe Ser Asp Ser 690 695 700 Thr Ser Glu Ile Asp Asn Leu Ala Leu Leu Thr Ala Leu Lys Asp Lys 705 710 715 720 Tyr Gly Lys Gln Gln Gly Met Ala Val Phe Asn Gln Leu Lys Trp Leu 725 730 735 Val Asn Pro Ser Xaa Pro Thr Thr Ile Ala Ala Arg Glu Ser Ala Tyr 740 745 750 Pro Leu Lys Phe Asp Leu Gln Asn Thr Gln Thr Ala 755 760

Claims

인슐린으로부터 A1/B1/B29 트리-페닐 아세테이트 보호기를 제거하여 유리 인슐린을 생성할 수 있는 조작된 페니실린 G 아실라아제로서, 상기 페니실린 G 아실라아제는 서열번호 2, 4, 6, 8, 10, 및/또는 12와 적어도 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 또는 그 이상 동일한 것인 조작된 페니실린 G 아실라아제.
제1항에 있어서, 상기 페니실린 G 아실라아제는 표 5.1, 표 6.2, 및/또는 표 6.3에 제공된 바와 같은 1 이상의 돌연변이를 포함하는 것인 조작된 페니실린 G 아실라아제.
제1항에 있어서, 상기 페니실린 G 아실라아제는 서열번호 4, 6, 8, 10, 또는 12를 포함하는 것인 조작된 페니실린 G 아실라아제.
제1항에 있어서, 상기 페니실린 G 아실라아제는 서열번호 3, 5, 7, 9, 및 11에서 선택된 폴리뉴클레오티드 서열에 의해 코딩되는 것인 조작된 페니실린 G 아실라아제.
제4항의 폴리뉴클레오티드 서열을 포함하는 벡터.
제5항의 벡터를 포함하는 숙주 세포.
유리 인슐린을 제조하기 위한 방법으로서,
i) 제1항의 조작된 페니실린 G 아실라아제, 및 A1/B1/B29 트리-페닐 아세테이트 보호기를 포함하는 인슐린을 제공하는 단계; 및
ii) 상기 조작된 페니실린 G 아실라아제가 A1/B1/B29 트리-페닐 아세테이트 보호기를 제거하여 유리 인슐린이 생성되는 조건 하에서, A1/B1/B29 트리-페닐 아세테이트 보호기를 포함하는 상기 인슐린에 상기 조작된 페니실린 G 아실라아제를 노출시키는 단계
를 포함하는 것인 제조 방법.
제7항에 있어서, 상기 조작된 페니실린 G 아실라아제는 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 초과 또는 그 이상의 유리 인슐린을 생성하는 것인 제조 방법.
제7항 및/또는 제8항에 있어서, 상기 페니실린 G 아실라아제는 서열번호 4, 6, 8, 10, 또는 12를 포함하는 것인 제조 방법.
제7항 내지 제9항 중 어느 한 항의 방법에 따라 생성된 유리 인슐린을 포함하는 조성물.