KR20200132870A

KR20200132870A - 중국 햄스터 난소 세포의 유전자 조작을 위한 htp 플랫폼

Info

Publication number: KR20200132870A
Application number: KR1020207026356A
Authority: KR
Inventors: 케이트 케이브; 아마르 싱
Original assignee: 지머젠 인코포레이티드
Priority date: 2018-03-20
Filing date: 2019-03-20
Publication date: 2020-11-25
Also published as: CA3091228A1; EP3768844A1; CN111902540A; US20200347383A1; JP2021518128A; US20230235318A1; US10988761B2; EP3768844A4; US20210254050A1; JP2024010245A; WO2019183183A1

Abstract

중국 햄스터 난소(CHO) 세포에서 치료 단백질의 생산을 개선하기 위한 고 처리량(HTP) 게놈 조작 플랫폼이 본 발명에 제시된다. 개시된 HTP 게놈 조작 플랫폼은 컴퓨터로 구동되며 분자 생물학, 자동화 및 고급 기계 학습 프로토콜을 통합한다. 이 플랫폼은 고유한 HTP 유전자 조작 도구 모음을 사용하여 치료 단백질 생산 경로와 관련된 게놈 환경을 탐색하여 생물학적 동인을 밝히고 CHO 세포에서 치료 단백질 생산을 최적화하는 데 담당하는 특징화되지 않은 유전자 구조를 해체한다.

Description

중국 햄스터 난소 세포의 유전자 조작을 위한 HTP 플랫폼

본 발명은 CHO 세포에서 치료 단백질의 생산을 개선하기 위한 고 처리량(HTP) 게놈 조작 플랫폼에 관한 것이다. 공개된 HTP 게놈 조작 플랫폼은 컴퓨터 기반이며 분자 생물학, 자동화 및 고급 기계 학습 프로토콜을 통합한다.

중국 햄스터 난소(CHO) 세포는 재조합 단백질 치료제의 산업적 제조를 위해 가장 빈번하게 적용되는 숙주 세포 시스템을 대표한다. CHO 세포는 그램 양으로 인간과 유사한 번역 후 변형을 나타내는 고품질 생물학적 제제를 생산할 수 있다. 이를 감안할 때, CHO 세포에서 생산되는 치료 단백질이 매우 수요가 많다는 것은 놀라운 일이 아니다. 결과적으로, 효과적이고 안전하며 저렴한 단백질 치료제에 대한 지속적으로 증가하는 수요를 충족시키기 위해, 수십년의 극도의 노력이 CHO 세포에서 생산되는 재조합 단백질의 양과 품질을 극대화하는 것을 목표로 하였다.

그러나, CHO 세포를 사용하는 바이오 의약품을 위한 생산 공정은 제한된 성장, 낮은 생산성 및 스트레스 저항성과 같은 세포 한계뿐만 아니라 박테리아 또는 효모 기반 발현 시스템에 비해 더 높은 비용으로 여전히 어려움을 겪고 있다. 최근 세포 조작 노력이 생성물 역가를 개선하였다; 그러나, 특성화되지 않은 세포 과정과 유전자 조절 메커니즘은 여전히 세포 성장, 비 생산성 및 단백질 품질을 방해한다.

따라서, 인간 치료 단백질의 생산을 위해 CHO 세포를 조작하는 새로운 방법에 대한 당업계에 큰 요구가 있다.

특히, 단백질 생산의 생물학적 동인을 밝히고 세포 성장, 비 생산성 및 단백질 품질을 방해하는 특성화되지 않은 세포 과정 및 유전자 조절 메커니즘을 해체할 수 있는 CHO 세포를 조작하는 방법에 대한 시급한 요구가 있다.

본 발명은 CHO 세포에서 치료 단백질의 생산을 개선하기 위한 고 처리량(HTP) 게놈 조작 플랫폼에 관한 것이다.

본 발명에 기술된 CHO 세포 게놈 조작 플랫폼은 HTP 유전자 조작 도구 세트를 기반으로 하며, 이는 근본적인 유전적 인과 관계에 대한 지식에 의존하지 않는다. 결과적으로, 교시된 플랫폼은 치료 단백질 생산에 중요한 경로를 유도하는 기본 유전자 구조를 발견하기 위해 유전적으로 불가지론적 방식으로 CHO 게놈 지형을 탐색할 수 있다.

특정 양태에서, 본 발명은 치료 항체 생산과 관련된 유전 경로를 탐색하는 데 유용한 HTP 프로모터 스왑 게놈 조작 도구를 교시한다. HTP 프로모터 스왑 도구는 세포 경로 유전자의 체계적인 섭동을 가능하게 하여 그러한 섭동이 관심 유전자, 예를 들어, 항체와 같은 치료 단백질에 미치는 영향을 결정할 수 있게 한다. 이 HTP 분자 도구는 고급 기계 학습 프로토콜 및 HTP 세포 구축 공장 플랫폼과 결합되어 항체 생산을 위한 더 나은 CHO 세포주의 제조를 가능하게 할 것이다.

HTP 프로모터 스왑 도구의 다양성은 게놈 엔지니어에게 CHO 세포 경로를 교란 및 연구하고 치료 단백질 생산에 대한 특정 유전자의 효과를 확인하는 체계적인 방법을 제공한다.

다양한 "오믹스(omics)" 경로에서 HTP 프로모터 스왑 게놈 엔지니어링 도구를 사용하여 얻은 데이터는 고급 기계 학습 모델에 사용될 수 있는 게놈 정보의 대규모 라이브러리를 개발할 수 있게 하여, 유전적 섭동을 이해하여 더 나은 CHO 세포 치료 단백질 생산으로 이어질 가능성이 가장 높다. 이 정보는 새로운 게놈 편집 기술과 함께 사용되어 CHO 세포를 합리적으로 조작하여 많은 생물학적 제제의 양, 품질 및 경제성을 추가로 제어할 수 있다.

따라서, 교시된 플랫폼은 더 나은 성능의 CHO 세포를 조작하기 위해 합리적 및 불가지론적 방법론을 모두 사용한다. 예를 들어, HTP 프로모터 스왑 게놈 조작 도구는 원하는 치료 단백질 생산 특성에 가장 많이 기여할 것으로 간주되는 경로 내에서 먼저 활용될 수 있다. 이러한 "합리적 개선" 캠페인에서 얻은 정보는 유전자 데이터베이스에 저장될 수 있으며, 이는 고급 기계 학습 프로토콜을 위한 훈련 데이터 세트의 기초를 형성한다. 이러한 기계 학습 알고리즘은 섭동에 중요할 수 있고 순전히 합리적으로 디자인된 개선 캠페인을 사용하여 결정할 수 없는 미래의 표적 유전자를 예측하는 데 활용될 것이다.

더욱이, HTP 프로모터 스왑 게놈 조작 도구는 치료 단백질 생산과 관련이 없다고 생각되는 유전자가 교란되는 초기 "유전 경로 불가지론적 방식"으로 활용될 수 있다. 앞서 언급한 합리적인 개선 캠페인에서 얻은 유전 정보와 같은 이 정보는 데이터베이스에 저장되어 기계 학습 알고리즘을 훈련하는 데 활용될 수 있다.

실시태양에서, 본 발명의 HTP 게놈 조작 방법은 숙주 세포 성능에서 상당한 이득을 달성하기 위해 사전 유전 지식을 필요로 하지 않는다. 실제로, 본 발명은 다음을 포함하는 여러 기능적 불가지론적 접근법을 통해 다양성 풀을 생성하는 방법을 교시한다: 기존 숙주 세포 변이체 간의 유전적 다양성의 확인(예를 들어, 서열분석된 CHO 세포주의 게놈 간의 비교); 및 무작위 방식으로 게놈 공간을 효과적으로 "탐색"하기 위해 "알려진 경로" 유전자에 대한 선호없이 프로모터 스왑 도구로 유전자를 무작위로 표적화하는 단계를 포함한다.

그러나 일부 실시태양에서, 본 발명은 또한 하류 HTP 조작에 사용될 유전적 다양성을 디자인하는 가설 기반 방법을 교시한다. 즉, 일부 실시태양에서, 본 발명은 선택된 유전자 변경의 지시된 다자인을 교시한다.

한 실시태양에서, 면역글로불린 발현을 개선하기 위한 HTP 방법이 제공되며, 이는 a) 숙주 세포에 내인성인 세포 경로 표적 유전자 및 상이한 발현 프로파일을 나타내는 복수의 프로모터를 포함하는 프로모터 래더를 제공하는 단계; b) 복수의 숙주 세포를 포함하는 초기 프로모터 스왑 숙주 세포 라이브러리를 생성하기 위해 숙주 세포의 게놈을 조작하는 단계로서, 여기서 각 세포는 표적 유전자에 작동 가능하게 연결된 프로모터 래더와 상이한 프로모터를 포함하는 것인 단계; 및 c) 관심 면역글로불린 및/또는 숙주 세포의 표현형 특징에 대해 초기 프로모터 스왑 숙주 세포 라이브러리의 세포를 스크리닝하는 단계를 포함한다. 다른 실시태양에서, 면역글로불린 발현을 개선하기 위한 HTP 방법이 제공되며, 이는 a) 숙주 세포에 내인성인 세포 경로 표적 유전자 및 상이한 발현 프로파일을 나타내는 복수의 프로모터를 포함하는 프로모터 래더를 제공하는 단계; b) 복수의 숙주 세포를 포함하는 초기 프로모터 스왑 숙주 세포 라이브러리를 생성하기 위해 숙주 세포의 게놈을 조작하는 단계로서, 여기서 복수의 숙주 세포는 표적 유전자에 작동 가능하게 연결된 프로모터 래더와 상이한 프로모터를 포함하는 개별 숙주 세포를 포함하는 것인 단계; 및 c) 관심 면역글로불린 및/또는 숙주 세포의 표현형 특징에 대해 초기 프로모터 스왑 숙주 세포 라이브러리의 세포를 스크리닝하는 단계를 포함한다. 실시태양에서, 숙주 세포는 포유류 세포, 뮤린 세포 또는 중국 햄스터 난소 세포이다. 실시태양에서, 표적 유전자는 분비, 단백질 수송, 스트레스, 글리코실화, 세포자멸사, 펼쳐진 단백질 반응, 단백질 폴딩(예를 들어, 샤페론), ER 관련 분해 및 대사로 구성된 그룹에서 선택된 기능을 가진 분자를 암호화한다. 실시태양에서, 표적 유전자는 SRP14, SRP9, SRP54, XBP-1, bcl-2, IGF1, COSMC, FUT8, BCL2, BAK, ATF6, PERK, IRE1α, BiP/GRP78(HSP70), Dnajb9(ERdj4/HSP40) 및 LDHA로 이루어진 그룹으로부터 선택된 분자를 암호화한다. 실시태양에서, 프로모터 래더는 CMV, EF1α, SV40, RSV 및 PGK로 구성된 그룹으로부터 적어도 2개의 프로모터를 포함한다. 실시태양에서, 프로모터 래더는 SEQ ID NOs 1-5로 이루어진 그룹으로부터 선택된 뉴클레오타이드 서열을 갖는 적어도 2개의 프로모터를 포함한다. 실시태양에서, 면역글로불린은 IgG, IgM, IgA, IgE 및 IgD로 이루어진 그룹에서 선택된다. 실시태양에서, 면역글로불린은 IgG1, IgG2, IgG3 및 IgG4로 이루어진 그룹에서 선택된다. 실시태양에서, 숙주 세포의 게놈을 조작하는 단계는 CRISPR 호환 가능한 엔도뉴클레아제 및 연관된 gRNA를 활용하여 표적 유전자의 상류에서 숙주 세포 게놈을 표적화하고 절단하는 것을 포함한다. 일부 실시태양에서, CRISPR 호환 가능한 엔도뉴 클레아제는 Cas9, Cas12a, Cas12b, Cas12c, Cas12d, Cas12e, Cas13a, Cas13b, Cas13c, Cpf1 및 MAD7, 또는 이들의 상동체, 오르쏘로그, 돌연변이체, 변이체 또는 변형된 버전으로부터 선택된다. 실시태양에서, 숙주 세포의 게놈을 조작하는 단계는 CRIPSR 호환 가능한 엔도뉴클레아제 및 연관된 gRNA를 활용하여 표적 유전자의 상류에서 숙주 세포 게놈을 표적화하고 절단하고 상동성 재조합을 통해 프로모터 래더로부터 프로모터를 삽입하는 것을 포함한다. 실시태양에서, 관심 면역글로불린의 표현형 특징에 대한 초기 프로모터 스왑 숙주 세포 라이브러리의 세포를 스크리닝하는 단계는 관심 면역글로불린의 역가, N-말단 절단 및/또는 글리코실화 패턴을 확인하거나 특징화하는 것을 포함한다. 실시태양에서, 숙주 세포의 표현형 특징에 대한 초기 프로모터 스왑 숙주 세포 라이브러리의 세포를 스크리닝하는 단계는 세포 성장, 배양 동안 세포 생존 패턴, 세포 밀도 및 세포 당 하루에 생산되는 면역글로불린의 세포 비 생산성을 확인하거나 특징화하는 것을 포함한다. 실시태양에서, 하나 이상의 세포 경로 표적 유전자가 제공된다. 실시태양에서, 단계 a)-c)가 반복된다. 실시태양에서, 상기 방법은 d) 각각이 이전 단계에서 스크리닝된 적어도 2개의 개별 숙주 세포에 존재하는 유전자 변이로부터 선택된 고유한 조합의 유전자 변이를 포함하는 후속 복수의 숙주 세포를 제공하여 후속 프로모터 스왑 숙주 세포 라이브러리를 생성하는 단계를 추가로 포함한다. 실시태양에서, 방법은 d) 각각이 이전 단계에서 스크리닝된 적어도 2개의 개별 숙주 세포에 존재하는 유전자 변이로부터 선택된 고유한 조합의 유전자 변이를 포함하는 후속 복수의 숙주 세포를 제공하여 후속 프로모터 스왑 숙주 세포 라이브러리를 생성하는 단계; 및 e) 관심 면역글로불린 및/또는 숙주 세포의 표현형 특징에 대해 후속 프로모터 스왑 숙주 세포 라이브러리의 개별 숙주 세포를 스크리닝하는 단계를 추가로 포함한다. 실시태양에서, 방법은 d) 각각이 이전 단계에서 스크리닝된 적어도 2개의 개별 숙주 세포에 존재하는 유전자 변이로부터 선택된 고유한 조합의 유전자 변이를 포함하는 후속 복수의 숙주 세포를 제공하여 후속 프로모터 스왑 숙주 세포 라이브러리를 생성하는 단계; e) 관심 면역글로불린 및/또는 숙주 세포의 표현형 특징에 대해 후속 프로모터 스왑 숙주 세포 라이브러리의 개별 숙주 세포를 스크리닝하는 단계; 및 f) 단계 d)-e)를 1회 이상 반복하는 단계를 추가로 포함한다. 실시태양에서, 교시된 방법에 의해 유도된 숙주 세포 집단이 제공된다.

일부 실시태양에서, 관심 생성물의 발현을 개선하기 위한 HTP 방법이 제공되며, 이는 a) 숙주 세포에 내인성인 세포 경로 표적 유전자 및 상이한 발현 프로파일을 나타내는 복수의 프로모터를 포함하는 프로모터 래더를 제공하는 단계; b) 복수의 숙주 세포를 포함하는 초기 프로모터 스왑 숙주 세포 라이브러리를 생성하기 위해 숙주 세포의 게놈을 조작하는 단계로서, 여기서 각 세포는 표적 유전자에 작동 가능하게 연결된 프로모터 래더와 상이한 프로모터를 포함하는 것인 단계; 및 c) 관심 면역글로불린 및/또는 숙주 세포의 표현형 특징에 대해 초기 프로모터 스왑 숙주 세포 라이브러리의 세포를 스크리닝하는 단계를 포함한다. 실시태양에서, 관심 생성물은 단백질이다. 실시태양에서, 면역글로불린 발현을 개선하기 위한 HTP 방법이 제공되며, 이는 a) 숙주 세포에 내인성인 세포 경로 표적 유전자 및 상이한 발현 프로파일을 나타내는 복수의 프로모터를 포함하는 프로모터 래더를 제공하는 단계; b) 복수의 숙주 세포를 포함하는 초기 프로모터 스왑 숙주 세포 라이브러리를 생성하기 위해 숙주 세포의 게놈을 조작하는 단계로서, 여기서 복수의 숙주 세포는 표적 유전자에 작동 가능하게 연결된 프로모터 래더와 상이한 프로모터를 포함하는 개별 숙주 세포를 포함하는 것인 단계; 및 c) 관심 면역글로불린 및/또는 숙주 세포의 표현형 특징에 대해 초기 프로모터 스왑 숙주 세포 라이브러리의 세포를 스크리닝하는 단계를 포함한다. 실시태양에서, 관심 생성물은 단백질이다. 실시태양에서, 숙주 세포의 게놈을 조작하는 단계는 CRISPR 호환 가능한 엔도뉴클레아제 및 연관된 gRNA를 활용하여 표적 유전자의 상류에서 숙주 세포 게놈을 표적화하고 절단하는 것을 포함한다. 일부 실시태양에서, CRISPR 호환 가능한 엔도뉴 클레아제는 Cas9, Cas12a, Cas12b, Cas12c, Cas12d, Cas12e, Cas13a, Cas13b, Cas13c, Cpf1 및 MAD7, 또는 이들의 상동체, 오르쏘로그, 돌연변이체, 변이체 또는 변형된 버전으로부터 선택된다. 실시태양에서, 관심 생성물은 면역글로불린이다. 실시태양에서, 관심 생성물은 항체이다. 실시태양에서, 관심 생성물은 생체분자이다. 실시태양에서, 관심 생성물은 효소이다. 실시태양에서, 관심 생성물은 단백질이 아니다.

본 발명의 내용 중에 포함되어 있다.

도 1은 본 발명의 자동화 시스템의 한 실시태양을 도시한다. 본 발명은 프로모터 래더 생성, DNA 서열분석 및 구축, CHO 세포 형질 감염, 스크리닝, 단백질 테스트/특징화 및 CHO 세포 클론 선택이 가능한 다양한 모듈을 갖는 자동화된 로봇 시스템의 사용을 나타낸다.
도 2는 CHO 세포 개선을 위한 본 발명의 실험실 정보 관리 시스템(LIMS)의 실시태양을 도시한다.
도 3은 본 발명의 LIMS 시스템의 실시태양의 클라우드 컴퓨팅 구현을 도시한다.
도 4는 본 발명의 반복적 예측 디자인 흐름도의 실시태양을 도시한다.
도 5는 본 발명의 실시태양에 따른 컴퓨터 시스템의 실시태양을 도시한다.
도 6은 확인된 유전자 표적에 대한 프로모터 스왑 프로세스를 수행하기 위해 사용되는 예시적인 프로모터 라이브러리를 예시한다. PRO 스왑(즉, 프로모터 스왑 또는 PROSWAP) 프로세스에서 사용되는 프로모터는 P₁-P₈을 포함하는 프로모터 래더로 도시된다(P₁이 가장 높은 발현을 갖고 P₈이 가장 낮은 발현을 가짐). 그러나 발현 강도의 범위가 있는 한, 임의의 수의 프로모터가 프로모터 래더로 사용될 수 있다. P₁-P₈ 프로모터 래더는 프로모터 래더 전반에 걸쳐 다양한 발현 강도의 유용성을 전달하기 위한 예시 목적이다. 프로모터 래더는 3개의 프로모터를 포함하는 고> 중> 저 래더 배열을 포함할 수 있다.
도 7a, 도 7b 및 도 7c는 HTP 프로모터 스왑 게놈 조작 도구를 구현하는 다양한 실시태양을 예시한다. 표적 유전자를 둘러싼 DNA 영역은 CRISPR 시스템(또는 유사한) 유전자 편집 접근법을 사용하여 선택적으로 절단된다. 표적 유전자의 상류에있는 프로모터는 상동성 지정 복구 메커니즘을 통해 프로모터 4로 대체된다. 프로모터 대체 카세트는 A-C 실시태양에서 논의되는 다양한 부분으로 구성될 수 있다. 도 7a - 구조체는 3개의 마커를 가지고 있다. 마커 1은 상동 영역 밖에 있으며 대상 통합 중에 손실된다. 오프 표적 통합에 대한 네거티브 선택/스크리닝 마커로 사용된다. 마커 2와 3은 표적 유전자좌에서 성공적으로 통합되었을 때 유지되며 빠른 표현형 분석을 위한 선별(형광) 및 선택(항생제 내성)을 위해 별도로 사용될 수 있다. 도 7b - 구조체는 오프 표적 통합에 대해 네거티브 선택/스크리닝 마커만을 가지고 있다. 포지티브 마커는 표적 유전자좌에 통합되어 있지 않으므로, 소정의 균주에서 여러 유전자를 순차적으로 표적화할 수 있다. 양성 마커가 없는 경우 보다 광범위한 유전형 분석이 올바르게 통합된 클론을 분리하는 데 사용될 수 있다. 도 7c - 구조체는 2개의 양성 마커 2와 3 주위에 FRT 또는 LoxP 재조합 부위의 추가 특징을 가진 도 7a의 구조체와 유사하다. 이러한 재조합 부위의 존재는 내부 영역을 선택적으로 루프 아웃하는 데 사용될 수 있다. 이것은 이러한 마커를 재활용하고 소정의 균주에서 여러 표적 유전자의 순차적 조작을 허용한다.
도 8은 HTP 프로모터 스왑 게놈 조작 도구 뒤에 있는 목적의 예시를 제공한다. HTP 도구는 세포 경로 유전자의 체계적인 섭동을 허용하여 그러한 섭동이 관심있는 유전자, 예를 들어, 항체와 같은 치료 단백질에 미치는 영향을 결정할 수 있게 한다. 이 HTP 분자 도구는 고급 기계 학습 프로토콜 및 HTP 세포 구축 공장 플랫폼과 결합되어 항체 생산을 위한 더 나은 CHO 세포주를 제조할 수 있다.
도 9는 예시적인 HTP 프로모터 스왑 게놈 조작 도구 실시태양을 예시한다.
도 10은 치료 단백질 생산과 관련된 게놈 경로를 조사/섭동하는 데 사용되는 HTP 프로모터 스왑 게놈 조작 도구의 실시태양을 예시한다. 원래의 CHO 세포주는 관심 유전자(GOI), 예를 들어 항체로 먼저 형질감염된다. 안정한 항체 생산 CHO 세포가 얻어지면, 다음 8개의 대표적인 기능을 가진 분자를 암호화하는 표적 유전자가 선택된다: (1) 분비/단백질 수송, (2) 스트레스, (3) 글리코실화, (4) 세포자멸사, (5) 펼쳐진 단백질 반응, (6) 단백질 폴딩(예를 들어, 샤페론), (7) ER-관련 분해, 및 (8) 대사. 다음으로, 상이한 발현 프로파일을 나타내는 프로모터를 갖는 프로모터 래더가 각 표적 유전자에 작동 가능하게 연결된다. 예시에서, 프로모터 래더는 3개의 프로모터(예를 들어, 높음, 중간 및 낮음)를 포함한다. 결과적으로, 각각의 표적 유전자(총 8개, 각 기능의 분자를 암호화하는 하나)에 대해 CHO 세포주는 소정의 프로모터를 소정의 표적 유전자에 작동 가능하게 연결하도록 조작될 것이다. 따라서, 예시적인 예시에서, 총 24개의 고유한 CHO 세포주가 생성될 것이며, 각각은 표적 경로 유전자와 연관된 프로모터 래더로부터 특정 프로모터의 뚜렷한 유전적 구성을 갖지만 그렇지 않으면 유전적으로 동일하다. 이것은 관찰될 특정 경로 표적을 교란시키는 효과를 허용한다. 소정의 경로 표적에 대한 그러한 프로모터 섭동의 효과는 관심 유전자(GOI), 예를 들어 항체의 발현을 특징화함으로써 조사될 것이다.

정의

다음의 용어는 당해 기술 분야에서 통상의 지식을 가진 자에 의해 잘 이해되는 것으로 생각되지만, 다음 정의는 본 발명에 개시된 주제의 설명을 용이하게 하기 위해 제시된다.

용어 하나("a" 또는 "an")는 그 실체 중 하나 이상을 의미하며, 즉 복수의 지시대상을 의미할 수 있다. 이와 같이, 용어 "하나", "하나 이상" 및 "적어도 하나"라는 본 발명에서 상호 교환적으로 사용된다. 또한, 부정관사에 의한 "한 요소"에 대한 언급은, 내용이 분명하게는 요소의 하나 및 단지 하나가 존재하는 것을 요구하지 않는 한, 하나 이상의 요소가 존재하는 가능성을 배제하지 않는다.

본 발명에 사용된 용어 "세포 생물", "미세유기체" 또는 "미생물"은 광범위하게 이해되어야 한다. 이 용어들은 상호 교환적으로 사용되며, 두 원핵생물 영역인 박테리아와 고세균뿐만 아니라 특정 진핵생물 균류 및 원생 생물을 포함하나 이에 제한되지 않는다. 일부 실시태양에서, 본 발명은 본 발명에 제공된 목록/표 및 도면의 "미세유기체" 또는 "세포유기체" 또는 "미생물"을 의미한다. 이런 특성화는 표와 도면의 확인된 분류학적 속과 확인된 분류학적 종뿐만 아니라 상기 표 또는 도면의 임의의 유기체의 다양한 신규하고 새로운 확인된 또는 디자인된 균주를 의미할 수 있다. 동일한 특성화는 실시예에서와 같이, 명세서의 다른 부분에서 이런 용어의 인용에 대해서도 마찬가지이다.

용어 "원핵 생물"은 당업계에 공지되어 있으며 핵 또는 다른 세포 기관을 함유하지 않는 세포를 의미한다. 원핵생물은 일반적으로 두 영역, 박테리아와 고세균의 하나로 분류된다. 고세균과 박테리아 영역의 유기체 사이의 명확한 차이는 16S 리보솜 RNA에서 뉴클레오타이드 염기 서열의 근본적인 차이에 기초한다.

용어 "고세균는 전형적으로 특이한 환경에서 발견되고 세포벽에서 리보솜 단백질의 수 및 뮤라민산의 부족을 포함하는 몇몇 기준에 의해 나머지 원핵 생물과 구별되는 멘도시쿠테스(Mendosicutes) 문의 유기체의 범주를 의미한다. ssrRNA 분석에 기초하여, 고세균은 두 계통발생학적으로 다른 그룹으로 구성된다: 크렌고세균(Crenarchaeota) 및 유리고세균(Euryarchaeota). 생리학을 기초로, 고세균은 세 가지 유형으로 구성될 수 있다: 메테인 생성균(methanogens)(메테인을 생성하는 원핵 생물); 고염성 세균(extreme halophiles)(매우 높은 농도의 염(NaCl)에서 사는 원핵 생물; 및 고온성(초고온성) 세균(extreme(hyper) thermophilus)(초고온에서 사는 원핵 생물). 박테리아와 구별되는 통일된 고세균의 특징(즉, 세포벽, 에스터-연결 막 지질 등에 뮤레인 없음)이외에, 이런 원핵 생물은 이들의 특정한 서식 환경에 적응시키는 특이한 구조 또는 생화학적 특성을 나타낸다. 크렌고세균은 주로 초고온성 황 의존성 원핵 생물로 이루어지며 유리고세균은 메테인 생성균과 고염성 세균을 함유한다.

"박테리아" 또는 "진정세균(eubacteria)"는 원핵 생물의 영역을 의미한다. 박테리아는 다음과 같이 적어도 11개의 구별된 그룹을 포함한다: (1) 그람 양성 (그람+) 박테리아, 2개위 주요 세부구분이 존재한다: (1) 높은 G+C 그룹(액티노마이세테스, 마이코박테리아, 마이르코콕커스, 기타) (2) 낮은 G+C 그룹(바실러스, 클로스트리디아, 락토바실러스, 스타필로콕키, 스트렙토콕키, 마이코플라스마스); (2) 프로테오박테리아, 예를 들어, 보라색 광합성 + 비 광합성 그람 음성 박테리아 (대부분의 "일반적인" 그람 음성 박테리아 포함); (3) 사이아노박테리아, 예를 들면, 산소성 광영양생물; (4) 스피로체테스 및 관련 종; (5) 플랭크토마이세스; (6) 박테로이데스, 플라보박테리아; (7) 클라마이디아; (8) 녹색 황 박테리아; (9) 녹색 비 황 박테리아(또한 혐기성 광영양식물); (10) 방사성 저항성 마이크로콕키 및 동족; (11) 써모토가(Thermotoga) 및 써모시포 써모필레스(Thermosipho thermophiles).

"진핵 생물"은 세포가 막 내에 둘러싸인 핵 및 다른 소기관을 함유하는 임의의 유기체이다. 진핵 생물은 분류군(Eukarya 또는 Eukaryota)에 속한다. 진핵 생물 세포를 원핵 생물(박테리아와 고세균)와 구분시키는 정의하는 특징은 막으로 둘러싸인 유전자 물질, 특히 유전자 물질을 함유하고 핵막에 의해 둘러싸인 핵을 가진다는 것이다.

본 발명의 의미에서 "숙주 세포"는 임의의 원핵 또는 진핵 세포를 포함할 수 있다. 그러나, 본 발명의 특정 실시태양은 진핵 세포에 초점을 맞춘다. 예를 들어, "숙주 세포"는 햄스터 세포, 예를 들어 BHK21, BHK TK-, CHO, CHO-K1, CHO-DUKX, CHO-DUKX B1 및 CHO-DG44 세포, 또는 임의의 이러한 세포주의 유도체/후손을 포함한다. 본 발명의 추가 실시태양에서, 숙주 세포는 또한 예를 들어 뮤린 골수종 세포, 예를 들어, NSO 및 Sp2/0 세포, 또는 이러한 세포주의 유도체/후손을 포함한다. 본 발명의 의미에서 사용될 수 있는 뮤린 및 햄스터 세포의 예는 또한 표 1에 요약되어 있다. 그러나, 이들 세포, 및 인간, 마우스, 랫트, 원숭이를 포함하나 이에 제한되지 않는 다른 포유동물 세포, 조류, 또는 설치류 세포주, 또는 효모, 곤충 및 식물 세포를 포함하나 이에 제한되지 않는 비 포유동물 진핵 세포의 유도체/후손은 특히 생물약학적 및/또는 치료제 단백질의 생산을 위해 본 발명의 의미에서 사용될 수 있다.

표 1
본 발명에 유용한 진핵 생물 생산 세포주
세포주	주문/기탁 번호
NS0	ECACC No. 85110503
Sp2/0-Ag14	ATCC CRL-1581
BHK21	ATCC CCL-10
BHK TK	ECACC No. 85011423
HaK	ATCC CCL-15
2254-62.2 (BHK-21 유도체)	ATCC CRL-8544
CHO	ECACC No. 8505302
CHO 야생형	ECACC 00102307
CHO-Kl	ATCC CCL-61
CHO-DUKX(CHO duk-, CHO/dhFr-)	ATCC CRL-9096
CHO-DUKX B11	ATCC CRL-9010
CHO-DG44	Urlaub et al., 1983
CHO Pro-5	ATCC CRL-1781
V79	ATCC CCC-93
B 14AF28-G3	ATCC CCL-14
PER.C6	(Fallaux, F. J. et al, 1998)
HEK 293	ATCC CRL-1573
COS-7	ATCC CRL-1651
U266	ATCC TIB-196
HuNS1	ATCC CRL-8644
CHL	ECACC No. 87111906

숙주 세포는 무 혈청 조건하에서, 및 임의로 동물 기원의 단백질/펩타이드가 없는 배지에서 확립되고, 적응되고, 완전히 배양될 수 있다. Ham's F 12(Sigma, Deisenhofen, Germany), RPMI-1640(Sigma), 듈베코의 변형 이글스 배지(DMEM; Sigma), 최소 필수 배지(MEM; Sigma), 이스코브의 변형 듈베코 배지(IMDM; Sigma), CD-CHO(Invitrogen, Carlsbad, CA), CHO-S-Invitrogen), 무 혈청 CHO 배지(Sigma) 및 무 단백질 CHO 배지(Sigma)와 같은 상업적으로 이용 가능한 배지가 대표적인 적절한 영양 용액이다. 임의의 배지는 다양한 화합물로 필요에 따라 보충되며 이의 예는 호르몬 및/또는 기타 성장 인자(예를 들어, 인슐린, 트랜스페린, 표피 성장 인자, 인슐린 유사 성장 인자), 염(예를 들어, 염화나트륨, 칼슘, 마그네슘, 인산염), 완충제(예를 들어, HEPES), 뉴클레오사이드(예를 들어, 아데노신, 티미딘), 글루타민, 글루코오스 또는 기타 동등한 에너지 원, 항생제, 미량 원소이다. 임의의 다른 필요한 보충제는 또한 당업자에게 알려진 적절한 농도로 포함될 수 있다. 본 발명에서, 무 혈청 배지가 양태에서 사용될 수 있다. 그러나, 적절한 양의 혈청이 보충된 배지는 숙주 세포의 배양에도 사용될 수 있다. 선별 가능한 유전자를 발현하는 유전적으로 변형된 세포의 성장 및 선별을 위해, 적절한 선별제가 배양 배지에 첨가될 수 있다.

용어 "유전자 변형된 숙주 세포", "재조합 숙주 세포" 및 및 "재조합 균주"는 본 발명에서 상호 교환적으로 사용되고 본 발명의 클로닝, 형질전환, 형질전환 또는 기타 방법에 의해 유전자 변형된 숙주 세포를 의미한다. 따라서, 이 용어는 유전자 변경, 변형 또는 조작되어, 숙주 세포가 유도된 자연 발생 유기체와 비교하여 변경, 변형 또는 상이한 유전자형 및/또는 표현형을 나타내는(예를 들어, 유전자 변형이 미생물의 핵산 서열 암호화에 영향을 미칠 때) 숙주 세포(예를 들어, 박테리아, 효모 세포, 곰팡이 세포, CHO 세포, 인간 세포 등)를 포함한다. 일부 실시태양에서, 이 용어는 문제의 특정 재조합 숙주 세포뿐만 아니라 이런 숙주 세포의 자손 또는 잠재적 자손을 의미하는 것으로 이해된다.

용어 "야생형 미생물" 또는 "야생형 숙주 세포"는 자연에서 발생하는 세포, 즉 유전자 변형되지 않은 세포를 기술한다.

용어 "유전자 조작된"은 (예를 들어, 삽입, 결실, 돌연변이 또는 핵산의 대체에 의한) 숙주 세포의 게놈의 임의적 조작을 의미할 수 있다.

용어 "대조군" 또는 "대조군 숙주 세포"는 유전자 변형 또는 실험적 치료의 효과를 측정하기 위한 적절한 비교기 숙주 세포를 의미한다. 일부 실시태양에서, 대조군 숙주 세포는 야생형 세포이다. 다른 실시태양에서, 대조군 숙주 세포는 치료 숙주 세포를 분화시키는 유전자 변형(들)을 제외하고, 유전자 변형된 숙주 세포와 유전적으로 동일하다.

본 발명에 사용된 용어 "대립 유전자(들)"은 유전자의 하나 이상의 대안 형태의 임의의 것을 의미하며, 이의 모두 대립 유전자는 적어도 하나의 형질 또는 특성과 관련된다. 이배체 세포에서, 소정의 유전자의 두 대립 유전자는 한 쌍의 상동 염색체 상에 상응하는 유전자좌를 차지한다.

본 발명에 사용된 용어 "유전자좌"(복수 유전자좌)는 예를 들어 유전자 또는 유전자 마커가 발견되는 염색체 상의 특정 장소 또는 장소들 또는 위치를 의미한다.

본 발명에 사용된 용어 "유전적으로 연결된"은 교차를 통해 분리하기가 어려워 번식 동안 높은 비율로 공동유전되는 2개 이상의 형질을 의미한다.

본 발명에 사용된 바와 같이 "재조합" 또는 "재조합 사건"은 염색체 교차 또는 독립된 분류를 의미한다.

본 발명에 사용된 바와 같이 용어 "표현형"은 개체의 유전적 구성(즉, 유전자형)과 환경 사이의 상호작용으로부터 기인하는 개별 세포, 세포 배양, 유기체 또는 유기체의 그룹의 관찰 가능한 특성을 의미한다.

본 발명에 사용된 바와 같이, 핵산 서열 또는 단백질 서열을 기술할 때 용어 "키메라" 또는 "재조합체"는 적어도 2개의 이종 폴리 뉴클레오타이드 또는 2개의 이종 폴리펩타이드를 단일 거대분자 속에 연결하거나 적어도 하나의 천연 핵산 또는 단백질 서열의 하나 이상의 요소를 재배열하는 핵산 또는 단백질 서열을 의미한다. 예를 들어, 용어 "재조합체"는 예를 들어, 화학적 합성 또는 유전자 조작 기술에 의한 핵산의 분리된 단편의 조작에 의해 서열의 두 개의 분리된 단편의 인공적 조합을 의미할 수 있다.

본 발명에 사용된 바와 같이 "합성 뉴클레오타이드 서열" 또는 "합성 폴리뉴클레오타이드 서열"은 자연에서 발생하는 것으로 알려지지 않았거나 자연 발생적이지 않은 뉴클레오타이드 서열이다. 일반적으로, 이런 합성 뉴클레오타이드 서열은 임의의 다른 자연 발생 뉴클레오타이드 서열과 비교할 때 적어도 하나의 뉴클레오타이드 차이를 포함할 것이다.

본 발명에 사용된 용어 "핵산"은 임의의 길이의 중합체 형태의 리보뉴클레오타이드 또는 데옥시리보뉴클레오타이드 또는 이의 유사체를 의미한다. 이 용어는 분자의 1 차 구조를 의미하며, 따라서 이중 나선 및 단일 가닥의 DNA뿐 아니라 이중 및 단일 가닥의 RNA를 포함한다. 또한, 메틸화 및/또는 캡핑된 핵산과 같은 변형된 핵산, 변형된 염기를 함유하는 핵산, 골격 변형 등과 같은 변형 핵산을 포함한다. 용어 "핵산" 및 "뉴클레오타이드 서열"은 상호 교환적으로 사용된다.

본 발명에 사용된 용어 "유전자"는 생물학적 기능과 관련된 DNA의 임의의 단편을 의미한다. 따라서, 유전자는 암호화 서열 및/또는 그의 발현에 요구되는 조절 서열을 포함하나 이에 제한되지 않는다. 유전자는 또한, 예를 들어, 다른 단백질에 대한 인식 서열을 형성하는 비 발현 DNA 단편을 포함할 수 있다. 유전자는 관심 공급원으로부터의 클로닝 또는 공지되거나 예측된 서열 정보로부터의 합성을 포함하는 다양한 공급원으로부터 얻을 수 있고, 원하는 파라미터를 갖도록 디자인된 서열을 포함할 수 있다.

본 발명에 사용된 용어 "상동 기관(homologous)" 또는 "동족체 (homologue)"또는 "오르쏘로그(ortholog)"는 당업계에 공지되어 있고 공통 조상 또는 가족 구성원을 공유하고 서열 동일성의 정도에 기초하여 결정되는 관련 서열을 의미한다. 용어 "상동성", "상동 기관", "실질적으로 유사" 및 "상응하게 실질적으로"는 본 발명에서 상호 교환적으로 사용된다. 이들은 하나 이상의 뉴클레오타이드 염기의 변화가 유전자 발현을 중재하거나 특정 표현형을 생성시키는 핵산 단편의 능력에 영향을 미치지 않는 핵산 단편을 의미한다. 이런 용어는 또한 초기의 변형되지 않은 단편에 비해 생성된 핵산 단편의 기능적 특성을 실질적으로 변화시키지 않는 하나 이상의 뉴클레오타이드의 결실 또는 삽입과 같은 본 발명의 핵산 단편의 변형을 의미한다. 따라서, 당업자가 알 수 있는 바와 같이, 본 발명은 특정 예시적인 서열 이상을 포함하는 것으로 이해된다. 이런 용어는 한 종, 아종, 품종, 품종 또는 균주에서 발견된 유전자 및 다른 종, 아종, 품종, 품종 또는 균주에서 상응하는 또는 동등한 유전자 사이의 관계를 기술한다. 본 발명을 위해서, 상동성 서열이 비교된다. "상동 서열" 또는 "상동체"또는 "오르쏘로그"는 기능적으로 관련이 있다고 생각되고, 믿거나 알려진다. 기능적 관계는 (a) 서열 동일성 및/또는 (b) 동일하거나 유사한 생물학적 기능을 포함하나 이에 제한되지 않는 다수의 방식 중 임의의 하나로 표시될 수 있다. 바람직하게는, (a) 및 (b) 모두가 표시된다. 상동성은 Current Protocols in Molecular Biology(F.M. Ausubel et al., eds., 1987) Supplement 30, 섹션 7.718, 표 7.71에서 논의된 바와 같은 당해분야에서 용이하게 이용 가능한 소프트웨어 프로그램을 사용하여 얻은 결과로부터 추론될 수 있다. 일부 정렬 프로그램은 맥벡터(MacVector)(Oxford Molecular Ltd, Oxford, U.K.), ALIGN 플러스(Plus)(Scientific and Educational Software, Pennsylvania) 및 AlignX(Vector NTI, Invitrogen, Carlsbad, CA)이다. 다른 정렬 프로그램은 기본 매개변수를 사용하여 시퀀처(Sequencher)(Gene Codes, Ann Arbor, Michigan)이다.

본 발명에 사용된 용어 "내인성" 또는 "내인성 유전자"는 숙주 세포 게놈 내에서 자연적으로 발견되는 위치에서 자연 발생 유전자를 의미한다. 본 발명과 관련하여, 이종 프로모터를 내인성 유전자에 작동 가능하게 연결시키는 것은 이 유전자가 자연적으로 존재하는 위치에서 기존 유전자 앞에 이종성 프로모터 서열을 유전적으로 삽입하는 것을 의미한다. 본 발명에 기재된 내인성 유전자는 본 발명의 방법 중 어느 하나에 따라 돌연변이된 자연 발생 유전자의 대립 유전자를 포함할 수있다.

본 발명에 사용된 용어 "외인성"은 자연 공급원 이외의 일부 공급원으로부터 유도하는 물질을 의미한다. 예를 들어, 용어 "외인성 단백질" 또는 "외인성 유전자"는 비 자연 공급원의 단백질 또는 유전자 및 생물학적 시스템에 공급된 단백질 또는 유전자를 의미한다.

본 발명에 사용된 용어 "이종성"은 천연 공급원 또는 위치가 아닌 일부 공급원 또는 위치로부터 오는 물질을 지칭한다. 예를 들어, 용어 "이종성 프로모터"는 하나의 소스 유기체로부터 취해져서 다른 유기체에서 사용되는 프로모터를 지칭할 수 있으며, 여기서 프로모터는 자연적으로 발견되지 않는다. 그러나, "이종성 프로모터"라는 용어는 또한 동일한 소스 유기체 내로부터 유래되나 새로운 위치로 단지 이동된 프로모터를 지칭할 수 있지만, 상기 프로모터가 정상적으로 위치하지 않는 것이다.

이종성 유전자 서열은 진핵 발현 벡터, 예를 들어 포유 동물 발현 벡터일 수있는 "발현 벡터"를 사용하여 표적 세포로 도입될 수 있다. 벡터를 구축하는 데 사용되는 방법은 당업자에게 잘 알려져 있으며 다양한 간행물에 기술된다. 특히 프로모터, 인핸서, 종결 및 폴리아데닐화 신호, 선택 마커, 복제 기점 및 스플라이싱 신호와 같은 기능적 구성 요소의 설명을 포함하여 적합한 벡터를 구축하기 위한 특정 기술이 선행 기술에서 검토된다. 벡터는 플라스미드 벡터, 파지미드, 코스미드, 인공/미니 염색체(예를 드어, ACE), 또는 바큘로바이러스, 레트로바이러스, 아데노바이러스, 아데노 관련 바이러스, 단순 포진 바이러스, 레트로바이러스, 박테리오파지와 같은 플라스미드 벡터를 포함할 수 있으나 이에 제한되지 않는다. 진핵 발현 벡터는 전형적으로 박테리아에서의 벡터의 증식을 촉진하는 원핵 서열, 예컨대 박테리아에서의 선택을 위한 복제 기점 및 항생제 내성 유전자를 포함할 것이다. 폴리뉴클레오타이드가 작동 가능하게 연결될 수 있는 클로닝 부위를 포함하는 다양한 진핵 발현 벡터는 당업계에 잘 알려져 있으며 일부는 Stratagene, La Jolla, CA; Invitrogen, Carlsbad, CA; Promega, Madison, Wis. 또는 BD Biosciences Clontech, Palo Alto, Calif와 같은 회사로부터 상업적으로 이용 가능하다. 한 실시태양에서, 발현 벡터는 펩타이드/폴리펩타이드/관심 단백질을 암호화하는 뉴클레오타이드 서열의 전사 및 번역에 필요한 조절 서열인 적어도 하나의 핵산 서열을 포함한다.

본 발명에 사용된 용어 "발현"은 숙주 세포 내에서 이종성 핵산 서열의 전사 및/또는 번역을 지칭한다. 숙주 세포에서 원하는 생성물/관심 단백질의 발현 수준은 세포에 존재하는 상응하는 mRNA의 양, 또는 선택된 서열에 의해 암호화된 원하는 폴리펩타이드/괸심 단백질의 양에 기초하여 결정될 수 있다. 예를 들어, 선택된 서열로부터 전사된 mRNA는 노던 블롯 혼성화, 리보뉴클레아제 RNA 보호, 세포 RNA에 대한 인 시튜(in situ) 혼성화 또는 PCR에 의해 정량화될 수 있다. 선택된 서열에 의해 암호화된 단백질은 다양한 방법, 예를 들어, ELISA, 웨스턴 블로팅, 방사성 면역 분석, 면역 침전, 단백질의 생물학적 활성에 대한 분석, 단백질의 면역 염색 후 FACS 분석 또는 균질한 시간 분해 형광(HTRF) 분석에 의해 정량화될 수 있다.

진핵 숙주 세포를 폴리뉴클레오타이드 또는 발현 벡터로 "형질감염"하여 유 전적으로 변형된 세포 또는 유전자이식 세포를 생성하는 것은 당업계에 잘 알려진 임의의 방법에 의해 수행될 수 있다. 형질감염 방법은 리포솜 매개 형질감염, 인산 칼슘 공침, 전기 천공, 폴리 양이온(예를 들어, DEAE-덱스트란) 매개 형질감염, 원형질체 융합, 바이러스 감염 및 미세 주입을 포함하나 이에 제한되지 않는다. 양태에서, 형질감염은 안정한 형질감염인 것이 바람직하다. 최적의 형질감염 빈도와 특정 숙주 세포주 및 유형에서 이종성 유전자의 발현을 제공하는 형질감염 방법이 선호된다. 적절한 방법은 일상적인 절차에 의해 결정될 수 있다. 안정한 형질감염체의 경우 구조체는 숙주 세포의 게놈 또는 인공 염색체/미니 염색체에 통합되거나 숙주 세포 내에서 안정적으로 유지되도록 에피솜에 위치된다.

본 발명에 사용된 용어 "뉴클레오타이드 변화"는 당업계에서 잘 알려진 바와 같이, 예를 들어 뉴클레오타이드 치환, 결실 및/또는 삽입을 의미한다. 예를 들어 돌연변이는 침묵 치환, 추가 또는 결실을 생성하나 암호화된 단백질의 특성 또는 활성 또는 단백질이 어떻게 만들어지는지를 변형하지 않는 변경을 함유한다.

본 발명에서 사용된 용어 "단백질 변형"은 당업계에 잘 알려진 바와 같이, 예를 들어 아미노산 치환, 아미노산 변형, 결실 및 또는 삽입을 의미한다.

용어 "단백질"은 폴리펩타이드와 상호 교환적으로 사용되며 임의의 길이의 아미노산 폴리머를 지칭한다. 이들 용어는 또한 글리코실화, 아세틸화, 인산화 또는 단백질 가공을 포함하나 이에 제한되지 않는 반응을 통해 번역 후 변형된 단백질을 포함한다. 예를 들어, 변형 및 변경: 다른 단백질로의 융합, 아미노산 서열 치환, 결실 또는 삽입은 분자가 생물학적 기능 활성을 유지하는 동안 폴리펩타이드의 구조에서 이루어질 수 있다. 예를 들어, 특정 아미노산 서열 치환은 폴리펩타이드 또는 이의 기본 핵산 암호화 서열에서 이루어질 수 있으며 단백질은 유사한 특성으로 수득될 수 있다. 일반적으로, 단백질은 아미노산 길이로 정의되며 폴리펩타이드보다 길다. 용어 "폴리펩타이드"는 10개 이상의 아미노산을 갖는 서열을 의미하고 용어 "펩타이드"는 최대 10개 아미노산 길이의 서열을 의미한다.

본 발명은 생물약학적 폴리펩타이드/단백질의 생산을 위한 숙주 세포를 생성하는 데 적합하다. 본 발명은 향상된 세포 생산성을 보여주는 세포에 의한 다수의 상이한 관심 유전자의 고 수율 발현에 특히 적합하다.

"관심 유전자"(GOI), "선택된 서열" 또는 "생성물 유전자"는 본 발명에서 동일한 의미를 가지며 "원하는 생성물"이라는 용어로도 언급된 관심 생성물 또는 "관심 단백질"을 암호화하는 임의의 길이의 폴리뉴클레오타이드 서열을 의미한다. 선택된 서열은 전장 또는 절단된 유전자, 융합 또는 태그된 유전자일 수 있고, cDNA, 게놈 DNA 또는 DNA 단편, 바람직하게는 cDNA일 수 있다. 이것은 천연 서열, 즉 자연적으로 발생하는 형태(들)일 수 있거나, 원하는 대로 돌연변이되거나 달리 변형될 수 있다. 이러한 변형은 선택된 숙주 세포에서 코돈 사용을 최적화하기 위한 코돈 최적화, 인간화 또는 태깅을 포함한다. 선택된 서열은 분비된, 세포질, 핵, 막 결합 또는 세포 표면 폴리펩타이드를 암호화할 수 있다.

"관심 단백질"은 선택된 숙주 세포에서 발현될 수 있는 임의의 단백질, 폴리펩타이드, 이의 단편 또는 펩타이드를 포함할 수 있다. 원하는 단백질은, 예를 들어, 항체, 효소, 사이토카인, 림포카인, 접착 분자, 수용체, 유도체 또는 이의 단편, 효현제 또는 길항제 역할을 할 수 있는 폴리펩타이드, 및/또는 치료 또는 진단 용도를 갖는 임의의 단백질일 수 있다. 단클론 항체와 같은 더 복잡한 분자의 경우, GOI는 두 항체 사슬 중 하나 또는 둘 다를 암호화한다. "관심 생성물"은 숙주 세포에서 생산 가능한 임의의 원하는 분자(단백질 또는 기타)일 수 있다.

"관심 단백질" 또는 "원하는 단백질"의 추가 예는 인슐린, 인슐린 유사 성장 인자, hGH, tPA, 인터루킨(IL), 예를 들어, IL-1, IL-2, IL-3, IL-4, IL-5, IL-6, IL-7, IL-8, IL-9, IL-10, IL-11, IL-12, IL- 13, IL-14, IL-15, IL-16, IL-17, IL-18과 같은 인터루킨(IL)와 같은 사이토카인, 인터페론(IFN) 알파, IFN 베타, IFN 감마, IFN 오메가 또는 IFN 타우, TNF 알파 및 TNF 베타, TNF 감마와 같은 종양 괴사 인자(TNF), TRAIL; G-CSF, GM-CSF, M-CSF, MCP-1 및 VEGF를 포함한다. 또한 에리스로포이에틴 또는 임의의 기타 호르몬 성장 인자의 생산도 포함된다. 본 발명에 따른 방법은 또한 항체 또는 이의 단편의 생산에 유리하게 사용될 수 있다. 이러한 단편은 예를 들어 Fab 단편(단편 항원 결합 = Fab)을 포함한다. Fab 단편은 인접한 불변 영역에 의해 함께 유지되는 두 사슬의 가변 영역으로 이루어진다. 이들은, 예를 들어, 종래의 항체로부터의 파파인에 의한 프로테아제 분해에 의해 형성될 수 있으나 유사 Fab 단편도 유전자 조작에 의해 생산될 수 있다. 추가 항체 단편은 펩신으로 단백질 분해 절단에 의해 제조될 수 있는 F(ab')2 단편을 포함한다. 관심 단백질은 분비된 폴리펩타이드로서 배양 배지로부터 회수될 수 있거나 분비 신호 없이 발현되는 경우 숙주 세포 용해물로부터 회수될 수 있다.

관심 단백질의 실질적으로 균질한 제제가 얻어지는 방식으로 다른 재조합 단백질 및 숙주 세포 단백질로부터 관심 단백질을 정제하는 것이 필요할 수 있다. 첫 번째 단계로, 세포 및/또는 미립자 세포 파편이 배양 배지 또는 용해물에서 제거된다. 그 후 관심 생성물은, 예를 들어, 면역 친화성 또는 이온 교환 컬럼 상에서 분획화, 에탄올 침전, 역상 HPLC, 세파덱스 크로마토그래피, 실리카 또는 DEAE와 같은 양이온 교환 수지 상의 크로마토그래피에 의해 오염 물질 용해성 단백질, 폴리타이드 및 핵산으로부터 정제된다. 일반적으로, 숙주 세포에 의해 이종 발현된 단백질을 정제하는 방법을 당업자에게 교시하는 방법은 당업계에 주지되어 있다.

유전자 조작 방법을 사용하여 중쇄(VH) 및 경쇄(VL)의 가변 영역으로만 이루어진 단축된 항체 단편을 생산할 수 있다. 이는 Fv 단편으로 지칭된다(가변성 단편(Fragment variable) = 가변 부분의 단편). 이러한 Fv 단편은 불변 사슬의 시스테인에 의한 두 사슬의 공유 결합이 없기 때문에 Fv 단편은 종종 안정화된다. 예를 들어 10 내지 30개 아미노산, 예를 들어, 15개의 아미노산의 짧은 펩타이드 단편에 의해 중쇄 및 경쇄의 가변 영역을 연결하는 것이 유리하다. 이러한 방식으로 펩타이드 링커에 의해 연결된 VH 및 VL로 이루어진 단일 펩타이드 가닥이 얻어진다. 이러한 종류의 항체 단백질은 단일 사슬 Fv(scFv)로 알려져 있다. 이러한 종류의 scFv 항체 단백질의 예는 당업계에 공지되어 있다.

최근, scFv를 다량체 유도체로 제조하기 위한 다양한 전략이 개발되었다. 이는, 특히, 개선된 약동학적 및 생체분포 특성뿐만 아니라 증가된 결합력을 갖는 재조합 항체를 유도하기 위한 것이다. scFv의 다량체화를 달성하기 위해, scFv는 다량체화 도메인을 갖는 융합 단백질로 제조된다. 다량체화 도메인은, 예를 들어, IgG 또는 루신-지퍼(Leucin-zipper) 도메인과 같은 코일형 코일 구조(나선 구조)의 CH3 영역일 수 있다. 그러나, scFv의 VH/VL 영역 사이의 상호 작용이 다량체화(예를 들어, 다이아바디-, 트라이- 및 펜타바디)에 사용되는 전략도 있다. 다이아바디란 당업자는 2가 동종 이량체 scFv 유도체를 의미한다. scFv 분자의 링커를 5-10개 아미노산으로 단축하면 사슬 간 VH/VL 중첩이 발생하는 동종 이량체가 형성된다. 다이아바디는 다이설파이드 브릿지의 통합에 의해 추가로 안정화될 수 있다. 다이아바디-항체 단백질의 예는 당업계에 공지되어 있다.

미니바디란 당업자는 2가의 동종 이량체 scFv 유도체를 의미한다. 이는 면역글로불린의 CH3 영역, 바람직하게는 IgG, 가장 바람직하게는 이량체화 영역으로서 IgG1을 포함하는 융합 단백질로 이루어지며, 이는 힌지 영역(예를 들어, 또한 IgG1으로부터) 및 링커 영역을 통해 scFv에 연결된다. 미니바디-항체 단백질의 예는 당 업계에 공지되어 있다.

트라이아바디란 당업자는 3가 동종 삼량체 scFv 유도체를 의미한다. VH-VL이 링커 서열 없이 직접 융합된 ScFv 유도체는 삼량체의 형성을 유도한다.

당업자는 또한 2가, 3가 또는 4가 구조를 갖고 scFv로부터 유래된 소위 미니항체에 익숙할 것이다. 다량체화는 이량체, 삼량체 또는 사량체 코일 구조에 의해 수행된다.

당업자는 또한 라마 또는 낙타과의 다른 동물로부터 유래된 단일 사슬 항체의 하나 이상의 가변 도메인으로 이루어진 폴리펩타이드 분자에 익숙할 것이다. 또한, 당업자는 이러한 낙타과 항체의 유도체 및 변이체를 알고 있다. 이러한 분자는 "도메인 항체"라고도 한다. 도메인 항체 변이체에는 펩타이드 링커에 의해 공유적으로 연결된 여러 가변 도메인을 포함한다. 혈청 반감기를 증가시키기 위해, 항체 Fc-부분과 같은 폴리펩타이드 모이어티 또는 알부민과 같은 혈청에 존재하는 다른 단백질에 융합된 도메인 항체가 생성될 수 있다.

"스캐폴드 단백질"이란 당업자는 유전자 클로닝에 의해 또는 다른 단백질 또는 다른 기능을 갖는 단백질의 일부와의 공동 번역 과정에 의해 결합된 단백질의 임의의 기능적 도메인을 의미한다.

본 발명에 사용된 용어 핵산 또는 폴리펩타이드의 "적어도 일부" 또는 "단편"은 전장 분자를 포함하는 전장 분자의 이런 서열 또는 임의의 더 큰 단편의 최소 크기 특성을 갖는 부분을 의미한다. 본 발명의 폴리뉴클레오타이드 단편은 유전자 조절 요소의 생물학적 활성 부분을 암호화할 수있다. 유전자 조절 요소의 생물학적 활성 부분은 유전자 조절 요소를 포함하는 본 발명의 폴리뉴클레오타이드 중 하나의 일부를 분리하고 본 발명에 기재된 바와 같은 활성을 평가함으로써 제조될 수 있다. 유사하게, 폴리펩타이드의 일부는 전장 폴리펩타이드까지 이르는 4개 아미노산, 5개 아미노산, 6개 아미노산, 7개 아미노산 등일 수 있다. 사용될 부분의 길이는 특정 용도에 따라 다를 것이다. 하이브리드화 프로브로서 유용한 핵산의 일부는 12개 뉴클레오타이드 정도로 짧을 수 있으며; 일부 실시태양에서, 이것은 20개 뉴클레오타이드이다. 에피토프로서 유용한 폴리펩타이드의 일부는 4개의 아미노산 정도로 짧을 수 있다. 전장 폴리펩타이드의 기능을 수행하는 폴리펩타이드의 일부는 일반적으로 4개 이상의 아미노산보다 길 수 있다.

변이체 폴리뉴클레오타이드는 또한 DNA 셔플링과 같은 돌연변이 및 재조합 절차로부터 유도된 서열을 포함한다. 그러한 DNA 셔플링을위한 전략은 당업계에 공지되어있다. 예를 들어, Stemmer(1994) PNAS 91:10747-10751; Stemmer(1994) Nature 370:389-391; Crameri et al.(1997) Nature Biotech. 15:436-438; Moore et al.(1997) J. Mol. Biol. 272:336-347; Zhang et al.(1997) PNAS 94:4504-4509; Crameri et al.(1998) Nature 391:288-291; 및 미국 특허 제5,605,793호 및 제5,837,458호 참조.

본 발명에 개시된 폴리뉴클레오타이드의 PCR 증폭을 위해, 임의의 관심 유기체로부터 추출된 cDNA 또는 게놈 DNA로부터의 상응하는 DNA 서열을 증폭시키기 위한 PCR 반응에 사용하기 위해 올리고뉴클레오타이드 프라이머가 디자인될 수 있다. PCR 프라이머 및 PCR 클로닝을 디자인하기 위한 방법은 당업계에 일반적으로 공지되어 있으며, Sambrook et al.(2001) Molecular Cloning: A Laboratory Manual (3^rd ed., Cold Spring Harbor Laboratory Press, Plainview, New York). See also Innis et al., eds. (1990) PCR Protocols: A Guide to Methods and Applications (Academic Press, New York); Innis and Gelfand, eds. (1995) PCR Strategies (Academic Press, New York); and Innis and Gelfand, eds. (1999) PCR Methods Manual (Academic Press, New York)에 개시된다. PCR의 공지된 방법은 쌍을 이룬 프라이머, 네스티드 프라이머, 단일 특이적 프라이머, 축퇴성 프라이머, 유전자 특이적 프라이머, 벡터 특이적 프라이머, 부분적 불일치 프라이머 등을 사용하는 방법을 포함하나 이에 제한되지 않는다.

본 발명에 사용된 용어 "프라이머"는 DNA 중합효소를 부착시키는 증폭 표적에 대한 어닐링을 행할 수 있어, 프라이머 연장 생성물의 합성이 유도되는 조건하에 놓일 때, 즉, 뉴클레오타이드 및 DNA 중합효소와 같은 중합화제의 존재하에서 및 적절한 온도 및 pH에서 DNA 합성의 개시점으로서 작용하는 올리고뉴클레오타이드를 의미한다. (증폭) 프라이머는 증폭 효율을 최대화하기 위해 바람직하게는 단일 가닥이다. 바람직하게는, 프라이머는 올리고데옥시리보뉴클레오타이드이다. 프라이머는 중합화제의 존재 하에서 증량 생성물의 합성을 시작하기에 충분히 길어야한다. 프라이머의 정확한 길이는 프라이머의 온도 및 조성(A/T 대 G/C 함량)을 포함하는 많은 요소에 따라 달라질 것이다. 한 쌍의 양방향성 프라이머는 PCR 증폭과 같은 DNA 증폭 기술 분야에서 일반적으로 사용되는 것과 같은 하나의 순방향 및 역방향 프라이머로 구성된다.

본 발명에 사용된 용어 "프로모터"는 암호화 서열 또는 기능성 RNA의 발현을 제어할 수있는 DNA 서열을 의미한다. 일부 실시태양에서, 프로모터 서열은 근위 및 더 원위 상류 요소로 구성되고, 후자의 요소는 종종 인핸서로 의미된다. 따라서, "인핸서"는 프로모터 활성을 자극할 수 있는 DNA 서열이며, 프로모터의 선천적인 요소 또는 프로모터의 수준 또는 조직 특이성을 향상시키기 위해 삽입된 이종성 요소일 수 있다. 프로모터는 천연 유전자로부터 완전히 유도되거나 자연계에서 발견되는 다른 프로모터로부터 유도된 상이한 요소로 구성되거나 심지어 합성 DNA 단편을 포함할 수 있다. 상이한 프로모터가 상이한 조직 또는 세포 유형, 또는 상이한 발달 단계 또는 상이한 환경 조건에 대한 반응으로 유전자의 발현을 지시할 수 있음은 당업자에게 이해된다. 또한, 대부분의 경우에, 조절 서열의 정확한 경계가 완전히 정의되지 않았기 때문에, 일부 변이체의 DNA 단편은 동일한 프로모터 활성을 가질 수 있다는 것이 추가로 인식된다.

본 발명에서 사용된 용어 "재조합 구조체", "발현 구조체", "키메라 구조체", "구조체" 및 "재조합 DNA 구조체"는 본 발명에서 상호 교환적으로 사용된다. 재조합 구조체는 천연에서 함께 발견되지 않는 조절 및 암호화 서열과 같은 핵산 단편의 인위적인 조합을 포함한다. 예를 들어, 키메라 구조체는 상이한 공급원으로부터 유도된 조절 서열 및 암호화 서열, 또는 동일한 공급원으로부터 유도되지만 자연계에서 발견되는 것과 상이한 방식으로 배열된 조절 서열 및 암호화 서열을 포함할 수 있다. 이러한 구조체는 그 자체로 사용되거나 벡터와 함께 사용될 수 있다. 벡터가 사용되는 경우 벡터의 선택은 당업자에게 주지된 바와 같이 숙주 세포를 형질 전환하는데 사용될 방법에 의존한다. 예를 들어, 플라스미드 벡터가 사용될 수 있다. 당업자는 본 발명의 분리된 핵산 단편을 포함하는 숙주 세포를 성공적으로 형질전환, 선별 및 증식시키기 위해 벡터 상에 존재해야 하는 유전자 요소를 잘 알고 있다. 당업자는 또한 상이한 독립적인 형질전환 사건이 발현의 상이한 수준 및 패턴을 유도한다는 것을 인식할 것이며(Jones et al., (1985) EMBO J. 4 : 2411-2418; De Almeida et al., (1989) Mol. Gen Genetics 218 : 78-86), 따라서 다수의 사건은 원하는 발현 수준 및 패턴을 나타내는 라인을 수득하기 위해 선별돼야한다. 이러한 선별은 다른 것들 중에서, DNA의 서던 분석, mRNA 발현의 노던 분석, 단백질 발현의 면역 블로 팅 분석 또는 표현형 분석에 의해 실행될 수 있다. 벡터는 자율적으로 복제하거나 숙주 세포의 염색체에 통합될 수있는 플라스미드, 바이러스, 박테리오파지, 프로-바이러스, 파지미드, 트랜스포존, 인공 염색체 등일 수있다. 벡터는 또한 자율적으로 복제하지 않는 네이키드 RNA 폴리뉴클레오타이드, 네이키드 DNA 폴리뉴클레오타이드, 동일한 가닥 내의 DNA 및 RNA 모두로 구성된 폴리뉴클레오타이드, 폴리-라이신-컨쥬게이드된 DNA 또는 RNA, 펩타이드-컨쥬게이드된 DNA 또는 RNA, 리포좀-컨쥬게이드된 DNA 등일 수 있다. 본 발명에 사용된 용어 "발현"은 기능적 최종 산물, 예를 들어 mRNA 또는 단백질(전구체 또는 성숙)의 생산을 의미한다.

"작동 가능하게 연결된"은 추가 폴리뉴클레오타이드의 전사를 초래하는 추가의 올리고뉴클레오타이드 또는 폴리뉴클레오타이드에 의한 본 발명에 따른 프로모터 폴리뉴클레오타이드의 순차적 배열을 의미한다.

용어 "체적 생산성" 또는 "생산 속도"는 단위 시간당 매질의 부피당 형성된 생성물의 양으로 정의된다. 체적 생산성은 시간당 리터 당 그램(g/L/h)으로 보고될 수 있다.

용어 "비 생산성"은 생성물의 형성 속도로 정의된다. 비 생산성은 본 발명에서 시간당 세포 건조 중량의 그래당 그램 생성물(g/g CDW/h)의 비 생산성으로서 더 정의된다. 소정의 미생물에 대한 OD₆₀₀에 대한 CDW의 관계를 사용하여, 비 생산성은 시간당 600nm(OD)(g/L/h/OD)에서 배양액의 광학 밀도당 배양 배지당 그램 생성물로 표현될 수 있다.

용어 "수율"은 원료의 단위 중량당 수득된 생성물의 양으로 정의되며 g 기질 당 g 생성물(g/g)로 표현될 수 있다. 수율은 이론적 수율의 백분율로 표현될 수있다. "이론적 수율"은 생성물을 제조하는데 사용된 신진대사 경로의 화학양론에 따라 결정된 소정량의 기질당 생성될 수 있는 최대 생성물로 정의된다.

용어 "역가(titre 또는 titer)"는 용액의 강도 또는 용액 속의 물질의 농도로 정의된다. 예를 들어, 발효액에서 관심 생성물(예를 들어, 소분자, 단백질, 펩타이드, 항체, 합성 화합물, 연료, 알코올 등)의 역가는 발효액 1 리터당 용액 속 관심 제품의 g(g/L)로 기술된다.

용어 "총 역가"는 용액 속의 관심 생성물, 적용 가능한 경우 기체상의 관심 생성물, 공정으로부터 제거되고 공정에서 최초 부피 또는 공정에서 작동 부피에 따라 회수된 임의의 관심 생성물을 포함하나 이에 제한되지 않는 공정에서 생산된 모든 관심 생성물의 합으로 정의된다.

본 발명에 사용된 용어 "HTP 유전 디자인 라이브러리" 또는 "라이브러리"는 본 발명에 따른 유전자 교란의 집합을 의미한다. 일부 실시태양에서, 본 발명의 라이브러리는 i) 데이터베이스 또는 다른 컴퓨터 파일에서 서열 정보의 집합, ii) 상기한 일련의 유전자 요소를 암호화하는 유전자 구조체의 집합, 또는 iii) 상기 유전자 요소를 포함하는 숙주 세포(예를 들어, CHO 세포)로서 입증될 수 있다. 일부 실시태양에서, 본 발명의 라이브러리는 개별 요소의 집합(예를 들어, PRO 스왑 라이브러리를 위한 프로모터 집합)을 의미할 수 있다. 다른 실시태양에서, 본 발명의 라이브러리는 특정 프로모터::유전자의 조합과 같은 유전자 요소의 조합을 의미할 수 있다. 일부 실시태양에서, 본 발명의 라이브러리는 숙주 유기체에서 라이브러리의 각 구성원을 적용하는 효과와 관련된 메타 데이터를 추가로 포함한다. 예를 들어, 본 발명에서 사용된 라이브러리는 특정 CHO 세포에서 하나 이상의 표현형에 대한 이들 조합의 얻어진 효과와 함께 프로모터::유전자 서열 조합의 집합을 포함할 수 있으며, 따라서 미래 프로모터 스왑 CHO 개선 캠페인에 상기 조합을 사용하는 미래 예측 가치를 개량시킨다.

본 발명에서 사용된 용어 "SNP"는 작은 핵 다형성(들)을 의미한다. 일부 실시태양에서, 본 발명의 SNP는 광범위하게 해석되어야하며, 단일 뉴클레오타이드 다형성, 서열 삽입, 결실, 역전 및 다른 서열 치환을 포함한다. 본 발명에서 사용된 용어 "비 동의" 또는 비 동의 SNP"는 숙주 세포 단백질에서 암호화 변화를 유도하는 돌연변이를 의미한다.

게놈 조작의 "고 처리량(HTP)" 방법 또는 "고 처리량(HTP)" 방법은 비 HTP 방법, 예를 들어, 자동화 장비와 비교하여 상대적으로 많은 수의 실험 또는 조건을 평가할 수 있게 해주는 장비, 상기 방법의 적어도 하나의 단계를 수행하기 위한 자동화 장비(예를 들어, 액체 핸들러 또는 플레이트 핸들러 머신)의 적어도 하나의 부품의 이용을 필요로 할 수 있다.

중국 햄스터 난소 세포

CHO 세포는 다음과 같은 다른 세포 유형에 비해 몇 가지 주요 이점으로 인해 치료 단백질에 가장 자주 사용되는 포유류 생산 숙주를 나타낸다: (i) 화학적으로 정의된 무 혈청 현탁 배양에서 강력한 성장, (ii) 인간 병원성 바이러스 복제에 관한 합리적인 안전성 프로파일, 및 (iii) 인간과 유사한 번역 후 변형으로 r-단백질을 발현하는 능력(Kim et al., 2012). 또한, CHO 세포 시스템의 가장 중요한 특징 중 하나는 사람이 사용하기에 충분한 수율과 허용 가능한 품질로 관심 유전자(GOI)를 안정적으로 발현할 수 있는 조작된 세포 클론을 쉽게 생성할 수 있다는 것이다. 이는 부위 특이적 통합 또는 무작위 통합을 통해 숙주 세포 게놈에 표적 유전자를 삽입한 후 다이하이드로폴레이트 환원 효소(DHFR) 또는 글루타민 합성 효소(GS) 시스템을 사용하는 유전자 증폭 후 달성될 수 있다(Durocher and Butler, 2009; Kramer et al ., 2010). 그러나, 글리코실화 패턴이 인간의 것과 완전히 동일하지 않기 때문에, CHO 세포에서 파생된 r-단백질은 때때로 면역원성인 것으로 나타났다(Butler and Spearman, 2014).

전체 "CHO 세포 시스템"은 1956년에 테오도어 퍽(Puck et al., 1958)에 의해 최초로 분리된 클론 및 자연적으로 불멸화된 중국 햄스터 난소 세포에서 유래된 것 같은 다양한 상이한 세포주를 포함한다. 이 첫 번째 CHO 세포와 이후에 파생된 모든 세포주가 프롤린 합성이 부족하다는 사실은 공통 클론 기원의 개념을 강력하게 뒷받침한다(Wurm and Hacker, 2011). 요즘에, 3개의 상이한 CHO 세포주가 생물의약 제조에 일반적으로 사용된다: (i) 기능성 DHFR 유전자를 여전히 보유하고 있는 CHO-K1 세포주, (ii) 단일 대립 유전자 DHFR 녹아웃이 있는 CHO-DXB11 세포주 및 (iii) 두 DHFR 대립 유전자가 물리적으로 결실된 CHO-DG44 세포주(Urlaub and Chasin, 1980; Urlaub et al., 1983; Wurm and Hacker, 2011).

2011년, 첫 번째 CHO 게놈은 CHO-K1 세포로부터 Xu와 동료에 의해 서열분석되었고, 이는 생명공학 응용을 위한 연구 노력을 상당히 가속화하였다(Xu et al., 2011). 그러나, CHO 세포는 본질적으로 게놈 재배열이 발생하기 쉬움으로, 사전에 염색체 정렬을 포함하는 추가 서열분석 노력은 게놈 환경에 대한 자세한 개요를 얻기 위해 필수적이었다(Brinkrolf et al., 2013; Lewis et al., 2013). 게놈 정보 외에도, 최근에 전사체, miRnome 및 프로테옴/단백질 총량 데이터는 사용될 수 있게 되었다(Baycin-Hizal et al., 2012; Becker et al., 2011; Clarke et al., 2012; Courtes et al., 2013; Hackl et al., 2011). 보다 최근에, 전사 시작 부위가 밝혀졌고(Jakobi et al., 2014), 이는 일단 이러한 시작 부위가 공개적으로 이용 가능한 CHO 게놈 데이터베이스(www.chogenome.org)에 도입되면 보다 상세한 생물 정보학 분석이 발생된다. 종합해보면, 이러한 모든 귀중한 공헌은 이 생명공학 일꾼(work horse)을 더 잘 특징화하는 데 크게 도움이 되었으며 세포 조작에 대한 연구 노력을 실질적으로 지원하였다.

전술한 "중국 햄스터 난소 세포" 섹션은 Fischer et al., "The art of CHO cell engineering: A comprehensive retrospect and future perspectives," Biotechnology Advances, Vol. 33, (2015), pgs. 1878-1896으로부터 실질적으로 인용하였고, 이는 그 전체가 본 발명에 참조로 포함된다.

CHO 세포 균주 개선의 전통적인 방법

치료 단백질을 생산하기 위한 CHO 세포 성능을 개선하 기위한 전통적인 접근법은 몇 가지 큰 범주로 나눌 수 있으며, 각 범주는 아래에서 간략하게 논의될 것이다.

A. 생체공정 및 유전자이식 발현 최적화

생체공정 및 유전자이식 발현 최적화는 지난 수십 년 동안 CHO 세포에서 재조합 단백질 역가를 약 100배 향상시켰다. 체적 수율의 이러한 증가는 주로 배지 최적화, 클론 선택 과정, 발현 벡터, 유전 요소, 생체공정 제어 및 생체반응기 설계를 통해 달성되었다. Kuo et al., "The emerging role of systems biology for engineering protein production in CHO cells," Current Opinion in Biotechnology, Vol. 51, (2018), pgs. 64-69, 이는 그 전체가 본 발명에 참조로 포함된다.

B. CHO 세포의 표적화된 조작

1. 유전자 도입

포유 동물 생산 세포주의 성능을 향상시키기 위한 유익한 유전자의 안정적인 게놈 통합이 빈번하게 이용되어왔다. 일반적으로, 유리한 GOI가 동정되면, 인트론 서열이 없는 이의 (일반적으로 코돈 최적화된) 상보적 DNA(cDNA)가 분리되어 포유류 발현 벡터 속에 복제된다. 플라스미드 DNA(pDNA) 전달 후, 형질감염된 세포는 항생제 선택 압력을 받아 플라스미드 DNA가 게놈에 안정적으로 통합된 세포 풀을 생성한다. GOI의 높은 발현 수준을 보장하기 위해, 그 발현은 주로 강력한 바이러스 또는 세포 프로모터/인핸서에 의해 주도되는 반면, 선택적 유전자는 일반적으로 전체 발현 수준을 증가시키기 위해 약한 프로모터에 의해 제어된다. 선택된 세포 배양은 개별 세포 사이의 표현형 차이를 초래하는 다양한 정도의 유전자이식 과발현을 보여주는 이종성 혼합 세포 풀을 나타낸다. 따라서, 단일 세포 클론은 강력하고 안정적인 조작 된 표현형을 나타내는 클론을 얻으려면 이종성 세포 풀로부터 확립되어야 한다. 상기 Fischer et al. (2015)(내부 인용 생략) 참조.

2. 유전자 녹아웃

CHO 생산 세포의 성능을 향상시키기 위해 유리한 GOI를 과발현하는 것 외에도, 불리한 유전자의 게놈 녹아웃은 숙주 세포 조작을 위한 추가 유망한 전략을 나타낸다. 예를 들어, 화학적 또는 방사선 유도 무작위 돌연변이 유발 또는 정확한 게놈 편집 접근 방식을 사용함으로써 게놈에서 유전자를 안정적으로 삭제하거나 기능을 끄는 상이한 방식이 존재한다. 따라서 특이성이 높은 표적 게놈 조작은 특히 규제 관점에서 무작위 돌연변이 유발보다 우수해졌다. 이와 관련하여 현재의 최첨단 기술은 주로 ZFN (Zinc-finger nuclease), TALEN (transcription activator-like effector nuclease), 메가뉴클레아제 또는 최근에 도입된 규칙적인 간격을 갖는 짧은 회문 반복체(CRISPR/Cas9)(또는 Cpf1) 시스템의 사용으로 구성된다. 상기, Fischer et al. (2015) (내부 인용 생략) 참조.

역사적으로, 궁극적으로 생물의약 제조를 위한 CHO 세포의 경제적 활용을 위한 길을 열었던 가장 중요한 유전자 조작 중 하나는 다이하이드로폴레이트 환원 효소(DHFR) 유전자의 게놈 삭제/불활성화이었다. 이러한 조작은 화학적 돌연변이 유발 및 이온화 방사선에 의해 도입하여, 각각 DXB11 및 DG44라는 이름의 상이한 DHFR-결핍 CHO 서브라인이 발생했지만, 생명공학분야에서 CHO 세포의 상업적 이용의 출발점을 표시한다. 이후에, 다른 유전자 증폭 시스템은 메티오닌 설폭시민(MSX)에 의해 억제될 수 있는 글루타민 합성 효소(GS) 효소를 기반으로 도입되어, 고 발현 재조합 CHO 세포를 생성할 수 있다. 대사 선택 및 유전자 증폭에 적합한 CHO-GS 세포 공장의 레퍼토리는 내인성 GS 유전자(CHO-GS)의 게놈 녹아웃에 의한 CHO-K1SV 세포의 생성에 의해 확장되었다. CHO-DXB11/DG44 및 CHO-GS 세포는 세포가 기능성 DHFR 또는 GS 유전자 복제물과 조합하여 이식 유전자를 암호화하는 발현 벡터로 이전에 형질감염된 경우, 각각 하이포잔틴/티미딘 및 L-글루타민이 없는 성장 배지에서 안정한 형질 감염체에 대해 선택될 수 있다. 더욱 중요한 것은, 안정적으로 형질감염된 세포는 지속적으로 증가하는 농도의 다이하이드로폴레이트 유사체 메토트렉세이트(MTX)(CHO-DXB11 및 -DG44) 또는 메티오닌 설폭시민(MSX)(CHO-GS)에 노출시킴으로써 유전자 증폭을 받을 수 있다. 상기 Fischer et al. (2015) (내부 인용 생략) 참조.

C. RNAi 매개 유전자 침묵

예쁜꼬마선충(C. elegans)에서 RNA 간섭(RNAi)이 발견된 이후, 작은 간섭 RNA(siRNAs)로도 불리는 작은 이중 가닥 RNA(dsRNA)를 사용하는 유전자 침묵(유전자 녹다운이라고도 함)이 세포 조작에서 자주 적용되는 기술이 되었다. siRNA는 표적 메신저 RNA(mRNA)에 대한 완전한 서열 상보성을 나타내는 20-25개의 염기쌍 길이 dsRNA 분자이다. 외인성으로 전달된 siRNA는 RNase-III 효소 DICER에 의해 절단되어 세포질에서 RNA 유도 침묵 복합체(RISC)의 핵심을 구성하는 아르고나우테(Argonaute)-2(AGO2) 단백질에 적재된다. 특히, AGO2는 슬라이서 활성을 나타내는 유일한 AGO 계열 단백질을 나타내며, 이는 일단 siRNA에 의해 결합되면 표적 mRNA를 즉시 절단한다. dsRNA의 5'-말단에서의 열역학적 안정성은 어느 가닥이 가이드 가닥으로 선호될 지를 결정한다. 표적화된 유전자 침묵을 위한 siRNA는 인공적이지만, 최근 연구는 트랜스포존 전사체, 반복 서열, 긴 줄기 루프 구조 또는 센스 안티센스 전사체와 같은 내인성 요소에서 유래된 진핵 세포에서 자연적으로 발생하는 siRNA의 존재를 밝혀내었다. 상기 Fischer et al. (2015) (내부 인용 생략) 참조.

D. miRNA 과발현/억제

지난 수십 년 동안, 생물의약 생산 세포의 유전자 조작은 단일 표적 유전자의 조작에 초점을 맞추었다. 그러나, 세포 표현형의 변화는 개별 유전자의 발현을 변경한 결과가 아니라 동일하거나 다른 경로에 관여하는 과다한 유전자의 결과일 가능성이 높기 때문에, 전체 신호 전달 경로의 조작이 표현형 결과를 개선할 수 있다고 생각될 수 있다. microRNA는 최근에 CHO 세포 공학 분야에 진입했는데 이는 이러한 내인성 작은 RNA가 전체 세포 경로를 조절할 수 있기 때문이다. 흥미롭게도, 많은 수의 miRNA는 세포를 항상성 상태로 유지하기 위해 여러 가지 다른 세포 경로를 동시에 조절할 수 있다. 이러한 특성이 miRNA를 미래의 차세대 숙주 세포 공학을 위한 매우 매력적인 분자 도구로 만든다. 그러나, 많은 수의 miRNA는 표현형 영향을 특징화하기 위해 CHO 세포에서 여전히 기능적으로 평가되어야 한다. 이와 함께, 고 함량 기능성 miRNA 스크리닝 접근법과 miRnome 프로파일링 연구는 CHO 세포 조작에 사용되는 새로운 표적 분자를 밝히는 데 도움이 될 것다. 상기, Fischer et al. (2015) (내부 인용 생략) 참조.

CHO 세포 조작의 발전에도 불구하고 심각한 장애물이 남아 있다

위에서 설명한 CHO 세포 조작의 발전은 단백질 생산을 향상시키는 강력한 도구를 제공하였다. 그러나, 단일 단백질의 합성 및 분비는 수백 또는 수천 개의 다른 단백질의 공동 기능에 의존한다. 따라서, 진정으로 효과적인 조작 전략은 숙주 세포에 대한 여러 유전자 변화를 필요로 할 수 있다.

이를 달성하기 위해, 높은 속도의 단백질 분비를 가능하게 하는 분자 변화를 포괄적으로 연구하여 특정 세포를 높은 생산자로 만드는 분자 및 생리적 요인에 대한 빛을 발하는 노력이 이루어졌다. 오믹스(Omics) 데이터는 생산적인 클론을 연구하기 위해 광범위하게 사용되었다. 예를 들어, 차별적 프로테오믹 분석은 글루타티온 생합성의 상향 조절과 DNA 복제의 하향 조절이 고 생산 CHO 세포의 특징임을 확인하였다. 마찬가지로, 다양한 CHO 세포주의 전사체 프로파일링은 특정 유리한 대사 및 글리코실화 패턴이 주요 유전자의 차등 발현과 관련되어 있음을 나타내었다. 리보솜 프로파일링 및 폴리솜 프로파일링은 또한 항체 생산 CHO 세포에서 재조합 단백질 및 내인성 mRNA의 번역을 정량화하는 데 사용되었다. 이러한 많은 추가 연구는 오믹스 데이터가 CHO 세포에서 단백질 생산에서 원하는 특성과 관련된 유전자, 단백질 및 대사 산물에 대한 통찰력을 제공하는 귀중한 분석으로 등장했음을 보여준다. 또한, 이들은 단백질 생산 향상을 위한 세포 조작 및 생물공정 최적화를위한 잠재적인 표적을 동정하는 데 도움이 된다. 상기, Kuo et al. (2018)(내부 인용 생략) 참조.

HTP 도구 및 분석은 오믹스 공간을 탐색하는 데 필요하다

게놈 지형을 탐색하고 앞서 언급한 CHO 세포 오믹스 데이터의 증가를 최대한 활용하는 데 사용할 수 있는 HTP 유전 도구 및 분석의 개발이 필요하다. 이러한 HTP 도구 및 분석은 생성될 방대한 양의 생물학적 데이터를 이해하기 위해 더 큰 데이터 과학 및 기계 학습 시스템 내에서 작동하도록 맞춤화 및 조정되어야 한다.

본 발명은, 예를 들어, 이러한 HTP 유전자 도구, 예를 들어, HTP 프로모터 스왑 게놈 조작 도구를 제공한다. 이 도구는 치료 단백질 생산에 중요한 확인된 경로에서 특정 유전자를 체계적으로 표적화하는 데 사용될 수 있다.

더욱이, 이 도구는 알려지지 않은 기능의 유전자 또는 특정 치료 단백질 생산 경로와 연관되는 것으로 알려지지 않은 유전자를 조절하는 데 사용될 수 있다는 사실에서 확장된 유용성을 가지고 있다. HTP 프로모터 스왑 도구의 다양성은 게놈 엔지니어에게 CHO 세포 경로를 교란 및 연구하고 치료 단백질 생산에 대한 특정 유전자의 영향을 확인하는 체계적인 방법을 제공한다.

이를 위해서, 본 발명은 연산적으로 구동되고 분자 생물학, 자동화, 데이터 분석 및 기계 학습 프로토콜을 통합하는 독특한 HTP 게놈 조작 플랫폼을 개시한다. 이 통합 플랫폼은 HTP 유전자 디자인 라이브러리를 구축하는데 사용되는 한 벌의 HTP 분자 도구 세트를 사용한다. 이러한 유전자 디자인 라이브러리는 아래에 자세히 설명될 것이다.

또한, 본 발명에서 교시된 HTP 플랫폼은 개별 유전자 변화가 CHO 세포 성능에 미치는 효과를 확인, 특징화 및 정량화할 수 있다. 이 정보, 즉 소정의 유전자 변화 x가 숙주 세포 표현형 y에 대해 갖는 효과(예를 들어, 치료 단백질의 생산)는 생성될 수 있고, 이후에 논의되는 HTP 유전자 디자인 라이브러리에 저장될 수 있다. 즉, 각 유전자 순열에 대한 서열 정보 및 숙주 세포 표현형에 대한 이의 효과는 하나 이상의 데이터베이스에 저장되며, 후속 분(예를 들어, 아래에서 논의되는 바와 같이 상위성 매핑)에 이용가능하다. 본 발명은 또한 유전자 삽입 구조체의 형태로, 또는 상기 유전자 순열을 함유하는 하나 이상의 숙주 세포 생물체의 형태로 귀중한 유전자 순열을 물리적으로 보호/저장하는 방법을 교시한다(예를 들어, 이하에서 논의되는 CHO 세포 라이브러리 참조).

이들 HTP 유전 디자인 라이브러리를 정교한 데이터 분석 및 기계 학습 과정과 통합된 반복적 과정에 결합시키면, CHO 세포를 개량하기 위한 극적으로 상이한 방법론이 나타난다. 교시된 HTP 플랫폼은 매우 효율적이고 우아한 HTP 분자 도구를 사용하여 CHO 세포 유전자 환경을 체계적으로 탐색할 수 있으며, 이런 유전자 탐사는 연구원이 CHO 분야에서 생성되는 확장된 오믹스 데이터 세트를 최대한 활용하게 할 수 있다. HTP 분자 도구 세트와 아래 논의된 유도된 유전자 디자인 라이브러리를 참조하면 이러한 장점과 다른 장점이 분명해질 것이다.

유전자 디자인 및 CHO 세포 조작: 한 벌의 HTP 분자 도구 및 HTP 유전자 디자인 라이브러리를 이용하는 CHO 세포 개량에 대한 체계적인 조합 접근법

상기한 바와 같이, 본 발명은 CHO 세포 게놈에 걸친 유전자 변화의 반복적인 체계적 도입 및 제거를 통해 CHO 세포를 조작하기 위한 신규한 HTP 플랫폼 및 유전자 디자인 전략을 제공한다. 이 플랫폼은 HTP 유전자 디자인 라이브러리의 생성을 가능하게 하고 소정의 CHO 세포 속에 유전자 변이의 효율적 수행을 허용하는 한 벌의 분자 도구에 의해 지원된다.

본 발명의 HTP 유전자 디자인 라이브러리는 특정 CHO 세포 유전자 배경 속에 도입될 수 있는 가능한 유전자 변형의 공급원으로 작용한다. 이러한 방식으로, HTP 유전자 디자인 라이브러리는 소정의 CHO 라인의 초기 또는 추가 조작에 적용될 수 있는 유전자 다양성의 저장소 또는 유전자 교란의 집합이다. 숙주 세포에 대한 실행을 위한 유전자 디자인을 프로그래밍하는 기술은 본 발명에 참조로 인용된 계류중인 미국 특허 출원, Serial No. 15/140,296에 기술된다.

이 플랫폼에서 이용되는 HTP 분자 도구 세트는 본 발명에서 "프로모터 스왑" 또는 "PRO 스왑" 또는 "PROSWAP" 도구라고도 불리는 HTP 프로모터 스왑 게놈 조작 도구를 포함할 수 있다.

본 발명의 HTP 방법은 또한 상위성 매핑 프로토콜을 포함하는 HTP 도구 세트의 통합/조합 사용을 지시하는 방법을 교시한다. 상기한 바와 같이, 이 한 벌의 분자 도구는 단독 또는 조합으로 HTP 유전자 디자인 CHO 세포 라이브러리의 형성을 가능하게 한다.

입증된 바와 같이, 교시된 HTP CHO 세포 조작 플랫폼의 맥락에서 전술한 HTP 유전자 다자인 라이브러리의 이용은 치료 단백질 생산과 고도로 연관된 유익한 유전적 교란의 확인 및 단일 CHO 세포 유전자 배경 속으로의 통합을 가능하게 한다.

일부 실시태양에서, 본 발명은 발현 및 비 발현 유전 요소를 포함하는 다수의 이종 게놈 영역에 걸친 유전자 순열의 게놈 전체 조합 효과를 분석하고 수집된 정보(예를 들어, 실험 결과)를 사용하여 CHO 세포 향상을 일으키는 것으로 예상된 유전자 조합을 예측한다는 점에서 공지된 CHO 세포 개량 접근법과 상이하다.

일부 실시태양에서, 본 발명은 i) 개시된 플랫폼을 통한 개량에 순종하는 CHO 세포, ii) 하류 분석을 위한 CHO 세포 다양성 풀 생성, iii) 고 처리량 선별 및 대형 CHO 세포 변이체 풀의 서열화를 위한 방법 및 하드웨어 iv) 게놈 전체 돌연변이의 시너지 효과의 기계 학습 계산 분석 및 예측을 위한 방법 및 하드웨어, 및 v) 고 처리량 CHO 세포 조작을 위한 방법을 교시한다.

CHO 세포 조작 플랫폼에서 이용되는 다양한 HTP 유전자 디자인 라이브러리의 생성을 가능하게 하는 HTP 분자 도구 세트의 각각은 이제 논의될 것이다.

프로모터 스왑: 프로모터 스왑 CHO 세포 라이브러리의 유도를 위한 분자 도구

일부 실시태양에서, 본 발명은 전체 CHO 세포 표현형에 유익한 효과를 나타내기 위해 최적 발현 특성(예를 들어, 치료 단백질의 수율 또는 생산성)을 갖는 프로모터를 선별하는 방법을 교시한다.

예를 들어, 일부 실시태양에서, 본 발명은 다양한 발현 강도(예를 들어, 아래에서 논의된 프로모터 래더) 또는 뛰어난 조절 특성(예를 들어, 선택된 유전자에 대한 엄격한 조절 제어)을 나타내는 하나 이상의 프로모터를 확인 및/또는 CHO 세포 내에서 하나 이상의 프로모터의 변이체를 생성시키는 방법을 교시한다. 이들 확인된 및/또는 생성된 프로모터의 특정 조합은 프로모터 래더로서 함께 그룹화될 수 있으며, 이는 보다 상세히 이하에서 설명된다.

당해 프로모터 래더는 소정의 관심 유전자와 결합된다. 따라서, 프로모터 P₁-P₃(다양한 발현 강도, 예를 들어, 높음>중간>낮음을 나타내는 것으로 확인된 및/또는 생성된 3개의 프로모터를 나타냄)이 있고 프로모터 래더를 CHO 세포 유전자 배경에서 관심 단일 유전자와 결합시킨다면(즉, 소정의 표적 유전자에 작동 가능하게 연결된 소정의 프로모터에 의해 CHO 세포를 유전적으로 조작한다), 3개 프로모터의 각각의 효과는 조작된 CHO 세포가 표적 유전자와 결합된 특정 프로모터(들)를 제외하고 그렇지 않다면 동일한 유전자 배경을 갖는 것을 고려하여, 각 조합적 노력으로부터 생성되는 각각의 조작된 CHO 세포의 각각을 특성화함으로써 확인될 수 있다.

이 과정을 통해 조작되어 생성된 CHO 세포는 HTP 유전자 디자인 라이브러리를 형성한다.

HTP 유전자 디자인 라이브러리는 이 과정을 통해 형성되는 실제의 물리적 CHO 세포 집합을 의미할 수 있으며, 각각의 구성원 세포는 그렇지 않다면 동일한 유전자 배경으로 특정 표적 유전자에 작동 가능하게 연결된 소정의 프로모터를 나타내며, 상기 라이브러리는 "프로모터 스왑 CHO 세포 라이브러리"로 불린다.

또한, HTP 유전자 디자인 라이브러리는 유전자 교란의 집합-이 경우 소정의 유전자에 작동 가능하게 연결된 소정의 프로모터 x)을 의미할 수 있으며-상기 집합은 "프로모터 스왑 라이브러리"로 불린다.

또한, CHO 세포를 조작하기 위해 프로모터 P₁-P₃를 포함하는 동일한 프로모터 래더를 이용할 수 있으며, 여기서 3개의 프로모터의 각각은 10개의 상이한 유전자 표적에 작동 가능하게 연결된다. 이 절차의 결과는 관심 표적 유전자에 작동 가능하게 연결된 특정 프로모터를 제외하고, 그렇지 않다면 유전적으로 동일하게 간주되는 30개 CHO 세포주가 될 것이다. 이런 30개 세포주는 적절하게 선별되고 특징화되고 다른 HTP 유전자 디자인 라이브러리를 생성한다.

3개의 프로모터와 10개의 표적 유전자의 전술한 예는 단지 예시일 뿐인데 이는 그 개념은 다양한 발현 강도 및 임의의 주어진 수의 표적 유전자의 전시에 기초하여 함께 그룹화된 임의의 주어진 수의 프로모터에 적용될 수 있기 때문이다.

당업자는 또한 임의의 유전자 표적 앞에서 둘 이상의 프로모터를 작동 가능하게 연결시키는 능력을 인식할 것이다. 따라서, 일부 실시태양에서, 본 발명은 프로모터 래더로부터의 1, 2, 3개 이상의 프로모터가 하나 이상의 유전자에 작동 가능하게 연결된 프로모터 스왑 라이브러리를 교시한다.

프로모터 래더의 크기는 임의의 범위일 수 있다. 프로모터 래더는 정량화할 수 있는 발현 강도 범위만 갖는 것을 필요로 한다. 따라서, 높은>중간>낮은 디자인을 갖는 3개의 프로모터 래더는 단지 예시일뿐이다. 하나는 프로모터 래더에 2개 프로모터, 3개 프로모터, 4개 프로모터, 5개 프로모터, 6개 프로모터, 7개 프로모터, 8개 프로모터, 9개 프로모터, 10개 이상의 프로모터를 가질 수 있다. 도 6은 도면에 나열된 각각의 표적 유전자 앞에 사용될 수 있는 8개의 프로모터를 포함하는 가상 프로모터 래더를 예시한다.

HTP 유전자 디자인 라이브러리에서 CHO 세포주의 특성화는 관계형 데이터베이스, 객체 지향 데이터베이스 또는 고도로 분산된 NoSQL 데이터베이스를 포함하여 임의의 데이터 저장 구조물에 저장될 수 있는 정보와 데이터를 생성한다. 이 데이터/정보는, 예를 들어, 소정의 유전자 표적에 작동 가능하게 연결된 경우 소정의 프로모터(예를 들어, P₁-P_n) 효과일 수 있다. 이 데이터/정보는 또한 둘 이상의 프로모터(예를 들어, P₁-P_n)을 소정의 유전자 표적에 작동 가능하게 연결시킴으로써 초래하는 광범위한 세트의 조합적 효과일 수 있다.

요약하면, 유기체에서 다양한 유전자의 발현을 유도하는 다양한 프로모터를 이용하면 관심 형질을 최적화하는 강력한 수단이다. 본 발명자들이 개발한 프로모터 스와핑의 분자 도구는 적어도 하나의 조건하에서 적어도 하나의 유전자좌의 발현을 변화시키는 것으로 입증된 프로모터 서열의 래더를 사용한다. 그런 다음 이 래더는 고 처리량 게놈 조작을 사용하여 유기체에서 유전자 그룹에 체계적으로 적용된다. 이 유전자 그룹은 여러 가지 방법의 임의의 하나를 기초로 한 관심 형질에 영향을 줄 가능성을 갖는 것으로 결정된다. 이것은 공지된 기능에 기초한 선택 또는 관심 형질에 대한 영향 또는 이전에 결정된 유익한 유전자 다양성에 기초한 알고리즘 선택을 포함할 수 있다. 일부 실시태양에서, 유전자의 선택은 소정의 숙주 내 모든 유전자를 포함할 수 있다. 다른 실시태양에서, 유전자의 선택은 무작위로 선택된 소정의 숙주 내 모든 유전자의 서브세트일 수 있다.

그리고, 전술한 바와 같이, HTP 프로모터 스왑 게놈 조작 도구로 변조할 유전자의 선택은 임의의 수의 오믹스 데이터 세트에 기초하여 선택될 수 있다.

유전자에 연결된 프로모터 서열을 함유하는 개별 세포의 생성된 HTP 유전자 디자인 프로모터 스왑 CHO 세포 라이브러리는 고 처리량 선별 모델에서 성능에 대해 평가되고, 증가된 성능을 유도하는 프로모터-유전자 연관이 결정되고, 정보가 데이터베이스에 저장된다.

논의된 바와 같이, 유전자 교란의 집합(즉, 소정의 유전자 y에 작동 가능하게 연결된 소정의 프로모터 x)은 "프로모터 스왑 라이브러리"를 형성하며, 이는 이후 CHO 세포 처리에 이용될 잠재적인 유전자 교란의 공급원으로서 이용될 수 있다. 시간이 지남에 따라, 더 다양한 CHO 세포 배경에 대해 더 많은 유전적 섭동이 구현됨에 따라, 관심 표현형을 변경하기 위한 목적으로(예를 들어, 다양한 항체 부류의 생산), 실험적으로 확인된 데이터 모음이 구축됨에 따라, 각 라이브러리가 더욱 강력해지며, 이는 관심 모든 CHO 세포 배경에 대한 대상 변경을 보다 정확하고 예측 가능하게 디자인하는 데 사용될 수 있다.

유기체에서 유전자의 전사 수준은 유기체 행동에 영향을 미치는 제어의 핵심 포인트이다. 전사는 번역(단백질 발현)과 밀접하게 연관되며, 어떤 단백질은 유기체의 행동을 결정하는 양에서 발현된다. 세포는 수천 가지의 서로 다른 유형의 단백질을 발현하며, 이러한 단백질은 복잡한 복합적인 방식으로 상호작용하여 기능을 생성한다. 단백질 세트의 발현 수준을 체계적으로 변화시킴으로써, 기능이 복잡성으로 인해 예측하기 어렵도록 변형될 수 있다. 일부 변경은 성능을 증가시킬 수 있고 성능을 평가하기 위한 메커니즘과 연관되어, 이 기술은 개량된 기능, 예를 들어, CHO 세포 및 치료 단백질 생산을 가진 유기체의 생성을 가능하게 한다.

소분자 합성 경로의 상황에서, 효소는 기질로 시작하여 관심 소형 분자로 끝나는 직선 또는 가지 사슬에 있는 소형 분자 기질 및 생성물을 통해 상호작용한다. 이러한 상호작용이 순차적으로 연결되기 때문에, 이 시스템은 분산된 제어를 나타내며, 하나의 효소의 발현을 증가시키면 다른 효소가 속도 제한될 때까지만 경로 유속을 증가시킬 수 있다.

대사 조절 분석(MCA)은, 실험 데이터 및 제 1 원리로부터, 어느 효소 또는 효소들이 속도를 제한하는지를 결정하는 방법이다. 그러나, MCA는 새로운 속도 제한 효소를 결정하기 위한 각 발현 수준 변경 후에 광범위한 실험이 필요하기 때문에 제한적이다. 프로모터 스와핑은 이러한 상황에서 유리한데, 이는 이 경로에서 각 효소에 대한 프로모터 래더의 적용을 통해, 제한 효소가 발견되고, 속도 제한이 되는 새로운 효소를 찾기 위해 동일한 과정을 수행될 수 있기 때문이다. 또한, 기능에 대한 판독은 관심 소형 분자의 더 나은 생산이기 때문에, 어떤 효소가 제한되는지 결정하는 실험은 생산을 늘리는 공학과 동일하여, 개발 시간을 단축시킨다. 일부 실시태양에서, 본 발명은 다중 단위 효소의 개별 서브유닛을 암호화하는 유전자에 대한 PRO 스왑의 적용을 교시한다. 또 다른 실시태양에서, 본 발명은 개개의 효소 또는 전체 생합성 경로를 조절할 책임이 있는 유전자에 PRO 스왑 기술을 적용하는 방법을 교시한다.

일부 실시태양에서, 본 발명의 프로모터 스왑 도구는 선택된 유전자 표적의 최적 발현을 확인하는데 사용된다. 일부 실시태양에서, 프로모터 스왑의 목표는 대사 경로 또는 유전자 경로에서 병목을 감소시키기 위해 표적 유전자의 발현을 증가시키는 것일 수 있다. 다른 실시태양에서, 프로모터 스왑의 목표는 상기 표적 유전자의 발현이 요구되지 않을 때 숙주 세포에서 불필요한 에너지 소비를 피하기 위해 표적 유전자의 발현을 감소시키는 것일 수 있다.

전사, 수송 또는 신호 전달과 같은 다른 세포 시스템의 상황에서, 다양한 합리적인 방법이 사용되어 어떤 단백질이 발현 변화의 표적이고 그 변화가 무엇이어야하는지를 선험적으로 시험하고 밝혀낼 수 있다. 이러한 합리적인 방법은 성능 개량을 위해 테스트해야하는 교란의 수를 줄이지만, 상당한 비용이 든다. 유전자 결실 연구는 이의 존재가 특정 기능에 필수적인 단백질을 확인하고 중요한 유전자는 과다 발현될 수 있다. 단백질 상호작용의 복잡성으로 인해, 성능을 향상시키는데 종종 효과가 없다. 세포에서 단백질 수준의 함수로서, 첫 번째 원칙으로부터, 전사 또는 신호전달 행동을 기술하려고 시도하는 다양한 유형의 모델이 개발되었다. 이러한 모델은 종종 발현 변화가 상이한 기능이나 개량된 기능으로 이어질 수 있는 표적을 제안한다. 이 모델의 기초가 되는 가설은 단순하고 매개변수는 측정하기가 어려워서, 특히 비-모델 유기체에 대해 이런 모델이 한 예측은 종종 부정확하다. 유전자 삭제와 모델링 모두에 의해, 어떻게 특정 유전자에 영향을 미치는 지를 결정하는데 필요한 실험은 성능을 개량시키는 변화를 만드는 후속 작업과는 상이하다. 프로모터 스와핑은 이러한 어려움을 회피하는데, 이는 특정 교란의 중요성을 강조하는 구축된 CHO 세포가 이미 개량된 CHO 세포이기 때문이다.

따라서, 특정 실시태양에서, 프로모터 스와핑은 다음을 포함하는 다단계 공정이다:

1. "래더"로서 작용하는 "x" 프로모터의 세트를 선택하는 단계. 이상적으로 이런 프로모터는 다수의 게놈 유전자좌 전체에서 매우 가변적인 발현을 유도하는 것으로 나타났지만, 유일한 요구조건은 일부 유전자 발현, 예를 들어, 높은, 중간 및 낮은 유전자 발현을 교란시키는 것이다.

2. 표적화할 "n"유전자 세트 선택. 이 세트는 특정 기능에 중요한 것으로 알려진 경로의 모든 유전자일 수 있다. 그러나 이것은 알려진 기능이 없는 유전자를 포함하는 모든 게놈 영역일 수도 있다. 그리고 "비경로" 유전자를 포함한다. 유전자 표적은 알고리즘을 기반으로 선택될 수 있다. 예를 들어, 이전에 생성된 섭동 사이의 상위성 상호 작용에 기반한 알고리즘 선택이 사용될 수 있다. 표적화할 유익한 유전자에 관한 가설을 기반으로 하거나 무작위 선택을 통해 다른 선택 기준을 사용될 수 있다. 다른 실시태양에서, "n" 표적 유전자는 비-암호화 RNA를 포함하는 비-단백질 암호화 유전자를 포함할 수 있다.

3. 다음과 같은 유전자 변형을 신속하게- 및 일부 실시태양에서, 병렬-수행하는 고 처리량 CHO 세포 조작 단계: 천연 프로모터가 표적 유전자 n의 앞에 존재하고 이의 서열이 알려질 때, 천연 프로모터를 래더에 있는 x 프로모터의 각각으로 대체한다. 천연 프로모터가 존재하지 않거나 이의 서열이 알려지지 않을 때, 유전자 n의 앞에 있는 래더에 x 프로모터의 각각을 삽입한다(예를 들어, 도 6 참조). 이러한 방식으로, CHO 세포의 "라이브러리"(HTP 유전자 디자인 라이브러리라고도 불림)가 구성되며, 라이브러리의 각 구성원은 그렇지 않으면 동일한 유전자 상황에서, n 표적에 작동 가능하게 연결된 x 프로모터의 한 예이다. 상기한 바와 같이, 프로모터의 조합이 삽입되어 라이브러리가 구성되는 조합 가능성의 범위를 확장시킬 수 있다.

4. 하나 이상의 메트릭에 대한 성능이 최적화되는 성능을 나타내는 상황에서 CHO 세포의 라이브러리의 고 처리량 선별 단계.

이 기본 과정은 특히 다음과 같은 방법으로 CHO 세포 성능에 추가 개량을 제공하는데 확장될 수 있다: (1) 반복 과정에서 한 번에 하나씩 또는 단일 단계에서 다중 변화로서 단일 CHO 유전자 배경 속에 다수의 유익한 교란을 통합하는 단계. 다중 교란은 정의된 변경의 특정 세트 또는 부분적으로 무작위화된 조합 라이브러리의 변화일 수 있다. 예를 들어, 표적 세트가 한 경로의 모든 유전자인 경우, 이전 라이브러리 세포의 개량된 구성원 또는 구성원들 속으로 교란의 라이브러리의 순차적 재생은 어느 유전자가 임의의 소정의 반복에서 속도를 제한하는지와 관계없이 한 경로에서 각 유전자의 발현 수준을 최적화할 수 있다; (2) 각 교란의 상호작용에 기초하여 최적의 교란 세트를 예측하기 위해 그 데이터를 사용하는 알고리즘 속에 라이브러리의 개별 및 조합 생성으로부터 성능 데이터를 제공하는 단계; 및 (3) 위의 두 접근법의 조합을 실행하는 단계.

프로모터 스왑 저수준 표현 변형

상기 논의된 분자 도구 또는 기술은 프로모터 스와핑으로서 특징화되지만, 프로모터에 제한되지 않으며 표적 세트의 발현 수준을 체계적으로 변화시키는 다른 서열 변화를 포함할 수 있다.

한 세트의 유전자의 발현 수준을 변화시키는 다른 방법은 다음을 포함할 수 있다: a) 프로모터를 전체적으로 제거하여 표적 유전자를 형성하는 단계; b) 리보좀 결합 부위의 래더(또는 진핵생물에서 코작 서열); c) 리보솜 결합 부위를 제거하는 단계; d) 개시 코돈을 대체하는 단계; e) 개시 코돈을 제거하는 단계; f) 다양한 mRNA 안정화 또는 불안정화 서열을 전사체의 5' 또는 3' 말단 또는 임의의 다른 위치에 부착하는 단계; g) 단백질 내의 임의의 위치에 다양한 단백질 안정화 또는 불안정화 서열을 부착하는 단계.

또한, 유전자 녹아웃의 이용은 표적 유전자의 발현을 완전히 제거하기 위해 이용될 수 있다. 따라서, 도구의 "낮은 발현" 프로필은 매우 적은 발현 또는 "발현 없음"을 포함할 수 있다.

또한, CRISPRi 기술(또는 임의의 유형의 침묵 또는 간섭 기술, 예를 들어, RNAi)의 이용이 표적 유전자의 발현을 억제하기 위해 고려된다.

2. 상위성 매핑 - 유익한 유전자 통합을 가능하게 하는 예측 분석 도구

일부 실시태양에서, 본 발명은 유익한 유전자 변형을 예측하고 CHO 숙주 세포 내로 결합시키는 상위성 매핑 방법을 교시한다. 유전자 변형은 상기한 HTP 분자 도구 세트(예를 들어, 프로모터 스왑)의 임의의 것에 의해 일어날 수 있고 이러한 유전자 변형의 효과는 유도된 HTP 유전자 디자인 세포 라이브러리의 특성화로부터 알 수 있다. 따라서, 본 발명에서 사용된 용어 상위성 매핑은 숙주 성능의 증가를 초래할 수 있는 유전자 변형의 조합(예를 들어, 유익한 프로모터/표적 유전자 결합)의 조합을 확인하는 방법을 포함한다.

실시태양에서, 본 발명의 상위성 맵핑 방법은 2개의 상이한 작용기로부터의 유익한 유전자 변형의 조합이 동일한 작용기로부터의 유전자 변형의 조합과 비교하여, 숙주 성능을 개량시키가 더 쉽다는 아이디어에 기초한다. 예를 들어, Costanzo, The Genetic Landscape of a Cell, Science, Vol. 327, Issue 5964, Jan. 22, 2010, pp. 425-431 참조(전문이 본 발명에 참조로 포함).

동일한 작용기로부터의 유전자 변형은 동일한 메카니즘에 의해 작용할 가능성이 더 높으며, 따라서 전체 숙주 성능에 대해 음성 또는 중성 상위성을 나타내기가 더 쉽다. 대조적으로, 상이한 작용기로부터의 유전자 변형은 독립적인 메카니즘에 의해 작동하기 쉽고, 이로 인해 개량된 숙주 성능 및 일부 경우에 상승 효과를 유도할 수 있다.

따라서, 일부 실시태양에서, 본 발명은 상이한 작용기에 속하는 것으로 예측되는 유전자 변형을 분석하는 방법을 교시한다. 일부 실시태양에서, 작용기 유사성은 상관관계 계수와 유사한 유전자 변형 상호작용 프로파일의 코사인 유사성을 계산함으로써 결정된다. 본 발명은 또한 유사성 행렬 또는 덴드로그램을 통한 유전자 변형의 비교를 예시한다.

따라서, 상위성 매핑 절차는 하나 이상의 유전자 배경에 상기 변형의 효율적이고 효과적인 통합을 위해 하나 이상의 유전자 배경에 적용된 다양성의 유전자 변형을 그룹화 및/또는 순위화하는 방법을 제공한다.

양태에서, 통합은 표적 생체분자의 생산을 위해 최적화된 신규 CHO 세포주를 생성하는 목적으로 수행된다. 교시된 상위성 매핑 절차를 통해, 유전자 변화의 기능적 그룹화를 확인하는 것이 가능하며 이런 기능적 그룹화는 바람직하지 않은 상위성 효과를 최소화하는 통합 전략을 가능하게 한다.

이전에 논의한 바와 같이, CHO 세포 유전자 조작에 대한 합리적인 접근법은 생물학의 근본적인 복잡성에 의해 혼란스럽게 된다. 인과관계 매커니즘은, 특히 관찰된 유익한 효과가 있는 두 개 이상의 변화를 결합하려고 시도할 때 잘 이해되지 않는다. 때로는 순 긍정적인 결과가 예상보다 낮을 수도 있고 경우에 따라 예상보다 높을 수도 있지만, 유전자 변화의 이런 통합은 긍정적인 결과(원하는 표현형 활동의 증가로 측정됨)를 가져온다. 다른 경우, 이런 조합은 순 중성 효과 또는 순 부정적인 효과를 일으킨다. 이 현상은 상위성으로 불리고 유전자 조작에 대한 근본적인 도전 중 하나이다.

본 HTP 게놈 조작 플랫폼은 전통적인 CHO 세포 유전자 조작 접근법과 관련된 많은 문제점을 해결한다. 현재의 HTP 플랫폼은 자동화 기술을 사용하여 한 번에 수백 또는 수천 개의 유전자 변화를 실행한다. 특정 양태에서, 상기한 합리적인 접근법과는 달리, 개시된 HTP 플랫폼은 수천 개의 CHO 세포 배경의 병렬 건설을 가능하게 하여 관련 게놈 공간의 큰 서브세트를 보다 효과적으로 탐사할 수 있게 한다. "모든 것"을 시도함으로써, 체계적인 방식으로, 현재의 HTP 플랫폼은 제한된 생물학적 이해에 의해 유도된 어려움을 회피한다.

그러나, 동시에, 본 HTP 플랫폼은 게놈 공간의 조합 폭발성 크기 및 유전자 상호작용의 복잡성을 고려하여 생성된 데이터 세트를 해석하는 계산 기술의 효과에 의해 근본적으로 제한되는 문제에 직면한다. 원하는 결과를 산출하는 조합의 비 무작위 선택을 최대화하는 방식으로 광대한 조합 공간의 서브세트를 탐구하는 기술이 필요하다.

다소 유사한 HTP 접근법이 효소 최적화의 경우에 효과적이라는 것이 증명되었다. 이 틈새 문제에서, 관심 게놈 서열(약 1000 염기)은 일부 복잡한 물리적 구성을 가진 단백질 사슬을 암호화한다. 정확한 구성은 구성 원자 구성요소 사이의 집단적 전자기 상호작용에 의해 결정된다. 짧은 게놈 서열과 물리적으로 구속된 접힘 문제의 조합은 탐욕 최적화 전략(greedy optimization strategies)에 특히 적합하다. 즉, 모든 잔기에서 서열을 개별적으로 돌연변이시키고, 생성된 돌연변이를 뒤섞어 서열 활성 반응 모델링과 양립가능한 해상도로 로컬 서열 공간을 효과적으로 샘플링하는 것이 가능하다.

그러나, 생체 분자에 대한 완전한 게놈 최적화를 위해, 이런 잔기-중심 접근법은 몇 가지 중요한 이유 때문에 불충분하다. 첫째, 생체 분자에 대한 게놈 최적화와 관련된 관련 서열 공간의 기하 급수적인 증가 때문이다. 둘째, 생체분자 합성에서 조절, 발현 및 대사 상호작용의 추가된 복잡성 때문이다. 본 발명자들은 교시 된 상위성 매핑 절차를 통해 이러한 문제점을 해결하였다.

상기 유전자 변화를 하나 이상의 유전자 배경 속에 더 효율적이고 효과적으로 통합하기 위해서 유전자 변화의 집합 사이의 상위성 상호작용을 모델링하는 교시된 방법은 획기적이며 당업계에서 매우 필요하다.

상위성 매핑 절차를 기술할 때, 용어 "더 효율적" 및 "더 효과적인"은 특정 표현형 목표와 관련하여 통합 CHO 세포 사이의 바람직하지 않은 상위성 상호작용의 회피를 의미한다.

유전자 디자인 및 HTP CHO 세포 조작 플랫폼에서 활용을 위한 유전자 다양성 풀 생성

일부 실시태양에 있어서, 본 발명의 방법은 유전자 디자인으로서 특징화된다. 본 발명에 사용된 용어 유전자 디자인은 새로운 우수한 숙주 세포를 디자인하고 생성하기 위해 특정 유전자, 유전자의 일부, 프로모터, 종결 코돈, 5'UTR, 3'UTR 또는 다른 DNA 서열의 가장 최적의 변이체의 확인 및 선택을 통한 숙주 유기체 게놈의 재구성 또는 변형을 의미한다.

일부 실시태양에서, 본 발명의 유전자 디자인 방법의 제 1 단계는 새로운 숙주 게놈이 재구성될 수 있는 복수의 서열 변형을 갖는 초기 유전자 다양성 풀 집단을 얻는 것이다.

일부 실시태양에서, 본 발명에 교시된 유전자 디자인 방법의 후속 단계는 상기한 HTP 분자 도구 세트(예를 들어, 프로모터 스와핑)의 하나 이상을 사용하여 HTP 유전자 디자인 라이브러리를 구축한 다음, 숙주 세포에서의 시험을위한 특정 게놈 변형의 라이브러리를 제공함으로써 게놈 조작 과정의 동인으로서 작용하는 것이다.

현존하는 CHO 세포주로부터의 다양성 풀 사용하기

일부 실시태양에서, 본 발명은 다양한 상이한 CHO 세포주 중에서 존재하는 서열 다양성을 확인하는 방법을 교시한다. 따라서, 다양성 풀은 분석을 위해 사용된 소정의 수 n개의 CHO 세포주일 수 있으며, 상기 미생물의 게놈은 "다양성 풀"을 나타낸다.

존재하는 다양한 CHO 세포주는 상이한 표현형 특징을 갖는 것으로 알려져 있다. 따라서, 알려진 CHO 세포주를 서열분석함으로써 이러한 전체 게놈 서열을 기반으로 하는 CHO 세포 다양성의 초기 풀을 생성할 수 있다.

다양성을 생성하기 위한 단일 유전자좌 돌연변이

일부 실시태양에서, 본 발명은 게놈 DNA의 선택된 부분을 도입, 결실 또는 치환함으로써 CHO 세포 집단을 유전적으로 조작하는 것을 교시한다. 따라서, 일부 실시태양에서, 본 발명은 특정 유전자좌에 대한 유전자 변형을 표적화하는 방법을 교시한다. 다른 실시태양에서, 본 발명은 표적 DNA 영역을 선택적으로 편집하기 위해 ZFNs, TALENS 또는 CRISPR과 같은 유전자 편집 기술의 사용을 교시한다.

다른 실시태양에서, 본 발명은 숙주 유기체의 외부에서 선택된 DNA 영역을 변형시킨 다음 서열을 숙주로 유기체 속에 역삽입하는 것을 교시한다. 예를 들어, 일부 실시태양에서, 본 발명은 다양한 발현 성질을 갖는 다양한 프로모터 변이체를 생성하기 위해 천연 또는 합성 프로모터를 변형/조작하는 것을 교시한다(이하 프로모터 래더 참조). 다른 실시태양에서, 본 발명은 ProSAR(Fox et al, 2007. 본 발명에 참조로 포함된 "Improving catalytic function by ProSAR-driven enzyme evolution." Nature Biotechnology Vol 25 (3) 338-343)와 같은 단일 유전자 최적화 기술과 양립된다.

일부 실시태양에서, DNA의 선택된 영역은 천연 변이체의 유전자 셔플링 또는 합성 올리고체, 플라스미드-플라스미드 재조합, 바이러스 플라스미드 재조합, 바이러스-바이러스 재조합에 의한 셔플링을 통해 시험관 내에서 생성된다. 다른 실시태양에서, 게놈 영역은 에러-유발PCR(error-prone PCR)을 통해 생성된다.

프로모터 래더

프로모터는 유전자가 전사되는 속도를 조절하고 다양한 방식으로 전사에 영향을 미칠 수 있다. 예를 들어, 구조성 프로모터는 내부 또는 외부 세포 조건에 관계없이 일정한 비율로 관련 유전자의 전사를 지시하지만, 조절 가능한 프로모터는 내부 및/또는 외부 세포, 예를 들어, 성장 속도, 온도, 특정 환경 화학물질에 대한 반응 등에 따라 유전자가 전사되는 속도를 증가 또는 감소시킨다. 프로모터는 정상적인 세포 컨텍스트로부터 격리될 수 있으며 사실상 모든 유전자의 발현을 조절하도록 조작되어 세포 성장, 생산 수율 및/또는 기타 관심 표현형의 효과적인 변형을 가능하게 한다.

일부 실시태양에서, 본 발명은 하류 유전자 디자인 방법에서 사용하기 위한 프로모터 래더 라이브러리를 생산하는 방법을 교시한다. 예를 들어, 일부 실시태양에서, 본 발명은 하나 이상의 프로모터를 확인하고 및/또는 다양한 발현 강도 또는 우수한 조절 특성을 나타내는 숙주 세포 내 하나 이상의 프로모터의 변이체를 생성하는 방법을 교시한다. 이들 확인된 및/또는 생성된 프로모터의 특정 조합은 프로모터 래더로서 함께 그룹화될 수 있으며, 이는 보다 상세히 후술된다.

일부 실시태양에서, 본 발명은 프로모터 래더의 사용을 교시한다. 일부 실시태양에서, 본 발명의 프로모터 래더는 연속 범위의 발현 프로파일을 나타내는 프로모터를 포함한다. 예를 들어, 일부 실시태양에서, 프로모터 래더는 자극, 또는 구성성 발현을 통해 다양한 발현 강도를 나타내는 자연, 고유 또는 야생형 프로모터를 확인함으로써 생성된다. 이러한 확인된 프로모터는 프로모터 래더로서 함께 그룹화될 수 있다.

다른 실시태양에서, 본 발명은 상이한 조건에 걸쳐 다양한 발현 프로파일을 나타내는 프로모터 래더의 생성을 교시한다. 예를 들어, 일부 실시태양에서, 본 발명은 발효의 상이한 단계에 전체에서 퍼진 발현 피크를 갖는 프로모터의 래더를 생성하는 것을 교시한다. 다른 실시태양에서, 본 발명은 특정 자극에 반응하여 상이한 발현 피크 동역학을 갖는 프로모터의 래더를 생성하는 것을 교시한다. 당업자는 본 개시의 조절 프로모터 래더가 임의의 하나 이상의 조절 프로파일을 나타낼 수 있다는 것을 인식할 것이다.

일부 실시태양에서, 본 발명의 프로모터 래더는 연속적인 범위의 반응에 걸쳐 예측 가능한 방식으로 유전자 발현을 교란시키도록 디자인되었다. 일부 실시태양에서, 프로모터 래더의 연속 특성은 CHO 세포 개량 프로그램에 추가의 예측력을 제공한다. 예를 들어, 일부 실시태양에서, 선택된 대사 경로의 스와핑 프로모터는 가장 최적의 발현 비율 또는 프로파일을 확인하는 숙주 세포 성능 곡선을 생성할 수 있다; 부적절한 환경에서 불필요한 과발현이나 잘못된 발현을 피하면서 표적 유전자가 더 이상 특정 반응이나 유전자 캐스케이드에 대한 제한 요소가 되지 않는 CHO 세포를 생산한다.

일부 실시태양에서, 프로모터 래더는 원하는 프로파일을 나타내는 자연, 고유 또는 야생형 프로모터를 확인함으로써 생성된다. 다른 실시태양에서, 프로모터 래더는 자연 발생 프로모터를 돌연변이시켜 다수의 돌연변이 프로모터 서열을 유도함으로써 생성된다. 이들 돌연변이된 프로모터의 각각은 표적 유전자 발현에 대한 효과에 대해 시험된다. 일부 실시태양에서, 편집된 프로모터는 다양한 조건에 걸쳐 발현 활성에 대해 시험되어 각 프로모터 변이체의 활성이 문서화/특징화/주석처리되고 데이터베이스에 저장된다. 생성된 편집된 프로모터 변이체는 뒤이어 그 발현의 강도에 기초하여 배열된 프로모터 래더로 조직화된다(예를 들어, 상부 근처의 고도로 발현된 변이체 및 하부 근처의 약화된 발현에 의해, 따라서 "래더"라는 용어를 유도한다).

일부 실시태양에서, 본 발명은 천연/공유 프로모터의 동정된 자연 발생 프로모터 및 돌연변이된 변이체 프로모터의 조합인 프로모터 래더를 교시한다.

일부 실시태양에서, 상기 확인된 자연 발생 프로모터 서열 중 하나 이상이 유전자 편집을 위해 선택된다. 실시태양에서, 본 발명의 프로모터는 원하는 서열을 갖는 새로운 프로모터 변이체를 합성함으로써 편집된다.

일부 실시태양에서, 프로모터 래더는 천연 프로모터의 프로모터 변이체에 기초하거나 파생되지 않는다. 오히려, 이들 실시태양에서, 프로모터 래더는 발현 강도의 범위에 기초하여 래더를 형성하도록 선택된 이종 프로모터의 집합체이다.

본 발명의 프로모터의 비 제한적인 리스트가 하기 표 2에 제공된다. 프로모터 서열의 각각은 이종 프로모터 또는 이종 프로 프로모터 뉴클레오타이드로 불릴 수 있다.

본 발명의 선택된 프로모터 서열

SEQ ID No.	프로모터 명칭	프로모터 기원
1	CMV	거대 세포 바이러스 즉시 초기 프로모터
2	EF1α	인간 신장 인자 1α 프로모터
3	SV40	유인원 바이러스 40 초기 프로모터
4	RSV	라우스 육종 바이러스 긴 말단 반복 프로모터
5	PGK	마우스 포스포글리세레이트 키나제 1 프로모터

표 2에서, 프로모터 PGK는 가장 낮은 발현 강도를 가지며; RSV 및 SV40은 중간 발현 강도를 가지고 있으며; EF1α와 CMV는 가장 강력한 프로모터이다. 따라서, 이들 5개의 프로모터는 임의의 조합을 기반으로 프로모터 래더로 조립될 수 있다. 하나는 적어도 2개의 프로모터를 선택하여 발현 강도의 가변 "사다리"를 사용할 수 있다. 시각적 묘사를 위해, 도 9를 참조하십시오.

일부 실시태양에서, 본 발명의 프로모터는 상기 표 1로부터의 프로모터 뉴클레오타이드 서열과 적어도 100%, 99%, 98%, 97%, 96%, 95%, 94%, 93%, 92%, 91%, 90%, 89%, 88%, 87%, 86%, 85%, 84%, 83%, 82%, 81%, 80%, 79%, 78%, 77%, 76%, 또는 75% 서열 동일성을 나타내는 뉴크레오타이드 서열을 포함한다.

가설-주도 다양성 풀과 언덕 오르기(Hill Climbing)

본 발명의 HTP 게놈 조작 방법은 숙주 세포 성능에서 상당한 이득을 달성하기 위해 사전 유전자 지식을 필요로 하지 않는다는 것을 교시한다. 실제로, 본 발명은 다음을 포함하는 여러 기능적 불가지론적 접근법을 통해 다양성 풀을 생성하는 방법을 교시한다: 기존 숙주 세포 변이체 간의 유전적 다양성의 확인(예를 들어, 서열분석된 CHO 세포주의 게놈 간의 비교); 및 무작위 방식으로 게놈 공간을 효과적으로 "탐색"하기 위해 "알려진 경로"유전자에 대한 선호 없이 프로모터 스왑 도구로 유전자를 무작위로 표적화하는 단계를 포함한다.

그러나, 일부 실시태양에서, 본 발명은 또한 하류 HTP 조작에 사용될 유전자 다양성을 디자인하는 가설-주도적 방법을 교시한다. 즉, 일부 실시태양에서, 본 발명은 선택된 유전자 변형의 지시된 디자인을 교시한다.

일부 실시태양에서, 본 발명은 유전자 주석, 가설된(또는 확인된) 유전자 기능, 또는 게놈 내의 위치에 기초한 지시된 유전자 변형 또는 프로모터 스왑 도구에 의한 표적화를 교시한다. 본 발명의 다양성 풀은 숙주 세포의 성능이 증가된 문헌에 관련된 특정 대사 경로 또는 유전자 경로에 관여한다고 가설된 유전자의 유전자 변형을 생성하는 것을 포함할 수 있다. 또 다른 실시태양에서, 본 발명의 다양성 풀은 알고리즘 예측 기능 또는 다른 유전자 주석에 기초한 유전자에 대한 유전자 변형을 포함할 수 있다.

일부 실시태양에서, 본 발명은 가설 주도 유전자 변형의 표적을 우선순위화하기위한 "껍질"에 기초한 접근법을 교시한다. 유전자 표적 우선순위화를 위한 껍질 비유는 단지 소수의 1차 유전자가 숙주 세포의 성능(예를 들어, 단일 생체분자의 생산)의 특정 측면의 대부분을 담당한다는 가설에 기초한다. 이들 1차 유전자는 껍질의 코어에 위치되고, 제 2 층에서 2차 효과 유전자, 3차 껍질에서 3차 효과 및 ... 등이 이어진다. 예를 들어, 한 실시태양에서, 껍질의 코어는 선택된 대사 경로 내의 중요한 생합성 효소를 암호화하는 유전자를 포함할 수 있다. 제 2 껍질 상에 위치하는 유전자는 생성물 전환 또는 피드백 신호 전달을 담당하는 생합성 경로 내의 다른 효소를 암호화하는 유전자를 포함할 수 있다. 이러한 예시적인 은유하에서의 제 3층 유전자는 생합성 경로의 발현을 조절하는 조절 유전자를 포함할 것이다.

본 발명은 또한 모든 동정된 유전자 변형으로부터 성능 이득을 최적화하기 위한 "언덕 오르기(hill climb)" 방법을 교시한다. 일부 실시태양에서, 본 발명은 HTP 다양성 라이브러리에서 무작위, 자연 또는 가설-주도 유전자 변형이 숙주 세포 성능과 관련된 유전자의 동정을 초래할 수 있음을 교시한다. 예를 들어, 본 방법은 프로모터 스왑 도구를 이용하여 치료 단백질 생산 효율에 관여하는 것으로 선험적으로 생각되지 않은 표적 유전자의 발현 조절을 탐구할 수 있다; 그러나, 프로모터 스왑 도구를 사용하고 유리한 표현형 효과를 관찰하면, 유전자의 중요성은 유기체의 조합 유전자 공간에서 성능 "언덕"을 발견하는 것과 유사할 수 있다.

일부 실시태양에서, 본 발명은 확인된 언덕 주변의 조합 공간을 탐색하는 방법을 교시한다. 즉, 일부 실시태양에서, 본 발명은 그 유전자 노드로부터 얻어진 성능 이득(즉, 언덕 오르기)을 최적화하기 위해 확인된 유전자 및 관련 조절 서열의 교란을 교시한다.

언덕 오르기의 개념은 또한 단일 유전자 서열을 둘러싸는 조합 공간의 탐색을 넘어 확장될 수 있다. 일부 실시태양에서, 특정 유전자의 유전자 변형은 숙주 세포 성능에 대한 특정 대사 경로 또는 유전자 경로의 중요성을 나타낼 수 있다.

세포 배양 및 발효

본 발명의 세포는 임의의 바람직한 생합성 반응 또는 선택을 위해 적절하게 변형된 통상적인 영양 배지에서 배양될 수 있다. 일부 실시태양에서, 본 발명은 프로모터를 활성화시키기 위해 배지를 유도하는 배양을 교시한다. 일부 실시태양에서, 본 발명은 형질전환체(예를 들어, 항생제)의 선택 제제를 포함하는 선택 제제를 갖는 배지를 교시한다. 일부 실시태양에서, 본 발명은 세포 성장을 위해 최적화된 배지에서 세포 배양물을 성장시키는 것을 교시한다. 다른 실시태양에서, 본 발명은 생산 수율에 최적화된 배지에서 세포 배양물을 성장시키는 것을 교시한다. 일부 실시태양에서, 본 발명은 세포 성장을 유도할 수 있는 배지에서 배양 물을 배양하는 것을 교시하며 최종 생성물 생산을 위한 필수 전구체를 포함한다.

온도, pH 등과 같은 배양 조건은 발현을 위해 선택된 숙주 세포와 함께 사용하기에 적합한 것들이며, 당업자에게 명백할 것이다. 언급한 바와 같이, 박테리아, 식물, 동물(포유류 포함) 및 고세균 기원 세포를 포함하는 많은 세포의 배양 및 생산에 대한 많은 참고 자료가 이용될 수 있다. 예를 들어, Sambrook, Ausubel (all supra), as well as Berger, Guide to Molecular Cloning Techniques, Methods in Enzymology　volume 152 Academic Press, Inc., San Diego, CA; and　 Freshney (1994)　Culture of Animal Cells, a Manual of Basic Technique, third edition, Wiley-Liss, New York and the references cited therein; Doyle and Griffiths (1997)　Mammalian Cell Culture: Essential Techniques　John Wiley and Sons, NY; Humason (1979) Animal Tissue Techniques, fourth edition W.H. Freeman and Company; and Ricciardelle et al., (1989)　In Vitro Cell Dev. Biol.　25:1016-1024, all of which are incorporated herein by reference. For plant cell culture and regeneration, Payne et al. (1992)　Plant Cell and Tissue Culture in Liquid Systems　John Wiley & Sons, Inc. New York, N.Y.; Gamborg and Phillips (eds) (1995)　Plant Cell, Tissue and Organ Culture; Fundamental Methods Springer Lab Manual, Springer-Verlag (Berlin Heidelberg N.Y.); Jones, ed. (1984)　Plant Gene Transfer and Expression Protocols, Humana Press, Totowa, N.J. and　Plant Molecular Biology　(1993) R. R. D. Croy, Ed. Bios Scientific Publishers, Oxford, U.K. ISBN 0 12 198370 6 참조하고, 이의 전문은 참조로 본 발명에 포함된다. 일반적으로 세포 배양 배지는 Atlas and Parks (eds.)　The Handbook of Microbiological Media　(1993) CRC Press, Boca Raton, Fla에서 설명되며, 이는 참조로 본 발명에 포함된다. 세포 배양에 대한 추가 정보는 Life Science Research Cell Culture Catalogue　from Sigma-Aldrich, Inc (St Louis, Mo.) ("Sigma-LSRCCC") 및, 예를 들어,　The Plant Culture Catalogue　and supplement also from Sigma-Aldrich, Inc (St Louis, Mo.) ("Sigma-PCCS")와 같은 구입가능한 상업용 논문에서 발견되며, 이의 전부는 참조로 본 발명에 포함된다.

생성물 회수 및 정량화

관심 생성물의 생산을 위한 선별 방법은 당업자에게 공지되어 있으며 본 명세서 전반에 걸쳐 논의된다. 이러한 방법은 본 발명의 CHO 세포를 선별할 때 사용될 수있다.

일부 실시태양에서, 본 발명은 비 분비된 세포내 생성물을 생산하도록 디자인된 균주를 개량시키는 방법을 교시한다. 예를 들어, 본 발명은 세포내 효소, 오일, 약제 또는 다른 가치있는 작은 분자 또는 펩타이드를 생성하는 세포 배양물의 견고성, 수율, 효율 또는 전반적인 바람직함을 개선시키는 방법을 교시한다. 비 분비된 세포내 생성물의 회수 또는 분리는 용해 및 본 발명에 기술된 것을 포함하여 당해 분야에 주지된 회수 기술에 의해 달성될 수 있다.

예를 들어, 일부 실시태양에서, 본 발명의 세포는 원심 분리, 여과, 침전 또는 다른 방법에 의해 수확될 수 있다. 이어서, 수확된 세포는 동결-해동 사이클링, 초음파 처리, 기계적 파쇄 또는 세포 용해제의 사용, 또는 당업자에게 공지된 다른 방법을 포함하는 임의의 편리한 방법으로 파괴된다.

관심의 생성된 생성물, 예를 들면, 폴리펩타이드는 당업계에 공지된 다수의 방법 중 임의의 방법에 의해 회수/분리될 수 있으며 임의로 정제될 수 있다. 예를 들어, 생성물 폴리 펩타이드는 원심 분리, 여과, 추출, 분무 건조, 증발, 크로마토 그래피(예를 들어, 이온 교환, 친화성, 소수성 상호작용, 크로마토포커싱 및 크기 배제) 또는 침전을 포함하나 이에 제한되지 않는 통상적인 절차에 의해 영양 배지로부터 분리될 수 있다. 최종적으로, 고성능 액체 크로마토 그래피(HPLC)가 최종 정제 단계에서 사용될 수 있다. (예를 들어, Purification of intracellular protein as described in Parry et al., 2001, Biochem. J.353:117, and Hong et al., 2007, Appl. Microbiol. Biotechnol.　73:1331, 참조, 모두는 참조로 본 발명에 포함된다).

상기한 참조문헌 이외에, 다양한 정제 방법은, 예를 들어, Sandana (1997)　Bioseparation of Proteins, Academic Press, Inc.; Bollag et al. (1996)　Protein Methods,　2^ndEdition, Wiley-Liss, NY; Walker (1996)　The Protein Protocols Handbook Humana Press, NJ; Harris and Angal (1990)　Protein Purification Applications: A Practical Approach, IRL Press at Oxford, Oxford, England; Harris and Angal　Protein Purification Methods: A Practical Approach, IRL Press at Oxford, Oxford, England; Scopes (1993)　Protein Purification: Principles and Practice　3^rdEdition, Springer Verlag, NY; Janson and Ryden (1998)　Protein Purification: Principles, High Resolution Methods and Applications, Second Edition, Wiley-VCH, NY; and Walker (1998)　Protein Protocols on CD-ROM, Humana Press, NJ에 개시된 것들을 포함하여 당업계에 주지되어 있으며, 이의 전부는 본 발명에 참조로 포함된다.

일부 실시태양에서, 본 발명은 분비된 생성물을 생산하도록 디자인된 균주를 개량시키는 방법을 교시한다. 예를 들어, 본 발명은 귀중한 작은 분자 또는 펩타이드를 생산하는 세포 배양물의 견고성, 수율, 효율 또는 전반적인 바람직함을 개선시키는 방법을 교시한다.

일부 실시태양에서, 면역학적 방법을 사용하여 본 발명의 세포에 의해 생산된 분비된 또는 분비되지 않은 생성물을 검출 및/또는 정제하는데 사용될 수 있다. 한 예시적 접근법에서, 통상적인 방법을 사용하여 생성물 분자(예를 들어, 인슐린 폴리펩타이드 또는 이의 면역원성 단편에 대해)에 대해 생성된 항체는 비드 상에 고정화되고, 엔도글루카나아제가 결합되고 침전되는 조건하에 세포 배양 배지와 혼합된다. 일부 실시태양에서, 본 발명은 효소-결합 면역흡착 분석법(ELISA)의 사용을 교시한다.

다른 관련 실시태양에서, 면역크로마토그래피가 미국 특허 제5,002,303호, 미국 특허 제5,591,645호, 미국 특허 제4,855,240호, 미국 특허 제4,435,504호, 미국 특허 제4,980,298호 및 Se-Hwan Paek, et al., "Development of rapid One-Step Immunochromatographic assay, Methods", 22, 53-60, 2000에 개시된 바와 같이 사용되며, 이의 각각은 참조로 본 발명에 포함된다. 일반적인 면역크로마토그래피는 2개의 항체를 사용하여 표본을 검출한다. 제 1 항체는 시험 용액 중에 또는 시험 용액을 떨어뜨린 다공성 막으로 제조된 대략 직사각형 형태의 시험편의 말단 부분에 존재한다. 이 항체는 라텍스 입자 또는 금 콜로이드 입자(이 항체는 이하에서 표지 항체로 불릴 것이다)로 표지한다. 떨어뜨린 시험 용액이 검출될 표본을 포함하는 경우, 표지된 항체는 표본을 인식하여 표본과 결합한다. 표본과 표지된 항체의 복합체는 모세관 현상에 의해 여과지로 만들어지고 표지된 항체를 포함하는 말단의 반대편 말단에 부착된 흡수체를 향하여 흐른다. 이 흐름 동안, 표본과 표지 항체의 복합체가 다공질 막의 중간에 존재하는 제 2 항체(이하에서 태핑 항체로 불릴 것이다)에 의해 인식되어 포획되고, 그 결과, 복합체는 가시광 신호로서 다공성 막 상의 검출부 상에 나타내고 검출된다.

일부 실시태양에서, 본 발명의 선별 방법은 측광 검출 기술(흡수, 형광)에 기초한다. 예를 들어, 일부 실시태양에서, 검출은 항체에 결합된 GFP와 같은 형광 단 검출기의 존재에 기초할 수 있다. 다른 실시태양에서, 측광 검출은 세포 배양 물로부터의 원하는 생성물 상의 축적에 기초할 수 있다. 일부 실시태양에서, 생성물은 배양물의 UV 또는 상기 배양물로부터의 추출물을 통해 검출될 수 있다.

당업자는 본 발명의 방법이 관심의 임의의 바람직한 생체분자 생성물을 생산하는 숙주 세포와 양립할 수 있음을 인식할 것이다.

선택 기준 및 목표

본 발명의 방법에 적용되는 선택 기준은 세포 개량 프로그램의 특정 목표에 따라 달라질 것이다. 본 발명은 임의의 프로그램 목표를 충족시키도록 조정될 수 있다. 예를 들어, 일부 실시태양에서, 프로그램 목표는 CHO 세포에 의해 생산되는 치료 단백질의 양을 최대화하는 것이다. 다른 목표는 치료 단백질의 보다 효율적인 생산일 수 있다. 일부 실시태양에서, 프로그램 목표는 수율, 역가, 생산성, 부산물 제거, 공정 이상현상에 대한 내성, 최적 성장 온도 및 성장율과 같은 성능 특성을 개선하는 것일 수 있다. 일부 실시태양에서, 프로그램 목표는 관심 생성물의 부피 생산성, 비 생산성, 수율 또는 역가에 의해 측정된 바와 같이 개량된 숙주 성능이다.

서열분석

일부 실시태양에서, 본 발명은 본 발명에 기재된 유기체의 전체-게놈 서열분석을 교시한다. 다른 실시태양에서, 본 발명은 또한 본 발명의 방법에 대한 품질 조절제로서의 플라스미드, PCR 생성물 및 다른 올리고의 서열분석을 교시한다. 크고 작은 프로젝트를 위한 서열분석 방법은 당업자에게 주지되어 있다.

일부 실시태양에서, 핵산을 서열분석하는 임의의 고 처리량 기술이 본 발명의 방법에 사용될 수 있다. 일부 실시태양에서, 본 발명은 전체 게놈 서열분석을 교시한다. 다른 실시태양에서, 본 발명은 유전자 변이를 확인하기위한 앰플리콘 서열분석 울트라 딥 서열화를 교시한다. 일부 실시태양에서, 본 발명은 또한 태그맨테이션 (tagmentation)을 포함하는 신규한 라이브러리 제조 방법을 교시한다(WO/2016/073690 참조). DNA 서열화 기술은 표지된 터미네이터 또는 프라이머를 사용하는 고전적인 다이데옥시 서열화 반응(생거 방법) 및 슬라브 또는 모세관에서의 겔 분리; 가역적으로 종결된 표지된 뉴클레오타이드를 사용하는 합성에 의한 서열화, 열서열화; 454 서열화; 표지된 올리고 뉴클레오타이드 프로브의 라이브러리에 대한 대립유전자 특이적 혼성화; 결찰이 뒤따르는 표지된 클론의 라이브러리에 대한 대립유전자 특이적 혼성화를 사용하는 합성에 의한 서열화; 중합 단계 동안 표지된 뉴클레오타이드의 혼입의 실시간 모니터링; 폴로니 서열화; 및 SOLiD 서열화를 포함한다.

본 발명의 한 양태에서, 연속적으로 서열화되는 고체 표면상의 개별 분자를 공간적으로 분리하는 단계를 포함하는 서열화의 고 처리량 방법이 사용된다. 이런 고체 표면은 비다공성 표면(솔렉사 서열화, 예를 들어, Bentley et al, Nature, 456: 53-59 (2008) or Complete Genomics　sequencing, e.g. Drmanac et al, Science, 327: 78-81 (2010)), 비드-또는 입자 결합 주형을 포함할 수 있는 웰의 어레이(454 서열화, 예를 들어, Margulies et al, Nature, 437: 376-380 (2005) or Ion Torrent　sequencing, U.S. patent publication 2010/0137143 or 2010/0304982), 미세가공된 막(SMRT 서열화, 예를 들어, Eid et al, Science, 323: 133-138 (2009)) 또는 비드 어레이(폴로니 서열화 또는 SOLiD 서열화, 예를 들어, Kim et al, Science, 316: 1481-1414 (2007))를 포함할 수 있다.

다른 실시태양에서, 본 발명의 방법은 분리된 분자가 고체 표면상에서 공간적으로 분리되기 전 또는 후에 분리된 분자를 증폭시키는 단계를 포함한다. 사전 증폭은 에멀젼 PCR, 또는 롤링 써클 증폭과 같은 에멀젼-기초 증폭을 포함할 수 있다. 또한 벤틀레이 등(상기) 및 제조사 지시(예를 들어, TruSeq™ Sample Preparation Kit and Data Sheet,　Illumina, Inc., San Diego, Calif., 2010); 및 추가로 참조로 포함된 다음 참조문헌: 미국 특허 제6,090,592호; 제6,300,070호; 제7,115,400호; 및 EP0972081B1에 기술된 바와 같이 개별 주형 분자가 고체 표면상에서 공간적으로 분리된 후, 브리지 PCR에 의해 평행하게 증촉되어 분리된 클론 집단 또는 클러스터를 형성한 후, 서열화되는 솔렉사-기초 서열화가 교시된다.

한 실시태양에서, 고체 표면상에 배치되고 증폭된 개개의 분자는 cm²당 적어도 10⁵ 클러스터의 밀도; 또는 cm²당 적어도 5x10⁵의 밀도; 또는 cm²당 적어도 10⁶ 클러스터의 밀도로 클러스터를 형성한다. 한 실시태양에서, 상대적으로 높은 에러율을 갖는 서열화 화학 반응이 사용된다. 이런 실시태양에서, 이런 화학 반응에 의해 생산된 평균 품질 점수는 서열 판독 길이의 단조 감소 함수이다. 한 실시태양에서, 이런 감소는 서열 판독의 0.5%가 1-75 위치에서 적어도 하나의 오차를 가지며; 서열 판독의 1%가 76-100 위치에서 적어도 하나의 오차를 가지며; 서열 판독의 2%가 101-125 위치에서 적어도 하나의 오차를 갖는 것에 상응한다.

게놈-전체 유전자 디자인 기준의 효과의 전산 분석 및 예측

일부 실시태양에서, 본 발명은 소정의 CHO 세포 배경에 포함되는 특정 유전자 변형의 효과를 예측하는 방법을 교시한다. 추가의 양태에서, 본 발명은 세포가 특정 표현형 형질을 갖기 위해 소정의 CHO 세포에 포함되어야 하는 제안된 유전자 변형을 생성하는 방법을 제공한다. 소정의 양태에서, 본 발명은 신규 숙주 세포를 디자인하는데 이용될 수 있는 예측 모델을 제공한다.

일부 실시태양에서, 본 발명은 선별의 각 라운드의 수행 결과를 분석하는 방법 및 다음 선별 라운드에서 숙주 세포 성능을 향상시키도록 예측된 새로운 제안된 게놈-전체 서열 변형을 생성하는 방법을 교시한다.

일부 실시태양에서, 본 발명은 시스템이 이전의 선별 결과에 기초하여 숙주 세포에 대해 제안된 서열 변형을 생성하는 것을 교시한다. 일부 실시태양에서, 본 시스템의 권고는 직전 선별 검사의 결과에 기초한다. 다른 실시태양에서, 본 시스템의 권고는 하나 이상의 선별 검사의 누적 결과에 기초한다.

일부 실시태양에서, 본 시스템의 권고는 이전에 개발된 HTP 유전자 디자인 라이브러리에 기초한다. 예를 들어, 일부 실시태양에서, 본 시스템은 이전의 선별로부터의 결과를 저장하고, 그 결과를 동일 또는 상이한 CHO 세포 배경에서 상이한 프로젝트에 적용하도록 디자인된다.

다른 실시태양에서, 본 시스템의 권고는 과학적인 통찰력에 기초한다. 예를 들어, 일부 실시태양에서, 권고는 (주석된 유전자 데이터베이스 및 관련 문헌과 같은 출처로부터의) 유전자의 공지된 특성, 코돈 최적화, 전사 미끄러짐, 다양한 "오믹스" 데이터 또는 다른 가설 주도 서열 및 숙주 최적화에 기초한다.

일부 실시태양에서, 시스템 또는 예측 모델에 의해 권장되는 숙주 세포에 대해 제안된 서열 변형은, 예를 들어, 다음을 포함하는 개시된 분자 도구 세트의 하나 이상을 이용함으로써 수행된다: 프로모터 스왑 또는 상위성 매핑.

상위성 맵핑 섹션에서 언급된 바와 같이, HTP 유전자 디자인 라이브러리로부터의 유전자 변형의 집합을 일부 바람직한 예측 모델을 통해 특정 배경으로 통합시킴으로써 얻어진 가상 CHO 세포의 성능(별칭, 점수)을 추정하는 것이 가능하다. 이런 예측 모델을 감안할 때, 조합 통합을 통해 접근할 수 있는 모든 가상 CHO 세포를 채점하고 순위를 매기는 것이 가능하다.

제조된 CHO 세포를 특징화하는 선형 회귀

선형 회귀는 구현 및 해석의 용이함 때문에 기술된 HTP 게놈 조작 플랫폼에 대한 매력적인 방법이다. 얻어진 회귀 계수는 각 유전자 변화, 예를 들어, 프로모터 스왑 캠페인의 각 프로모터:유전자 콤보의 존재에 기인한 상대적 CHO 세포 성능의 평균 증가 또는 감소로 해석될 수 있다.

따라서, 교시된 방법은 선형 회귀 모델을 사용하여 다양한 교시된 라이브러리로부터의 그들의 게놈에 도입된 다양한 유전자 교란을 갖는 제조된 CHO 세포를 기술하고/특징화하고 순위를 매긴다.

예측 디자인 모델링

구축된 CHO 세포로부터의 데이터를 사용하는 상기한 선형 회귀 모델은 아직 제조되지 않은 CHO 세포에 대한 성능 예측을 수행하는데 사용될 수 있다.

절차는 다음과 같이 요약될 수 있다: 가능한 모든 형태의 유전자 변화를 인 실리코로 생성한다 → 회귀 모델을 사용하여 상대적인 세포 성능을 예측한다 → 성능에 의해 후보 세포 디자인을 순서화한다. 따라서 회귀 모델을 이용하여 아직 제조되지 않은 세포의 성능을 예측함으로써, 이 방법은 더 적은 실험을 수행하는 동시에 고성능 세포의 생산을 가능하게 한다.

구성 생성

아직 제조되지 않은 CHO 세포의 성능을 예측하기 위한 모델을 구축하는 경우, 첫 번째 단계는 일련의 디자인 후보를 생산하는 것이다. 이것은 세포의 유전자 변화의 총 수를 고정한 다음, 가능한 모든 유전자 변화의 조합을 정의함으로써 이루어진다. 예를 들어, 잠재적 유전자 변화/교란의 총 수를 설정한 후 잠재적 유전자 변화의 모든 가능한 조합을 디자인하도록 결정할 수 있으며, 이것이 후보 세포 디자인을 생성할 것이다. n!/((n-r)! * r!)을 사용하여 n개의 가능한 구성원으로부터 크기 r의 비 중복 그룹의 수를 계산할 수 있다

새로운 CHO 세포 디자인의 성능 예측

입력으로서 조합 구성으로 위에서 구축된 선형 회귀 분석을 사용하여, 각각의 후보 디자인의 예상된 상대 성능을 예측할 수 있다.

예측 정확도는 새로운 관찰이 모델을 반복적으로 재훈련하고 재구성하는데 사용됨에 따라 시간이 지남에 따라 증가해야 한다. 모델 예측의 품질은 예측된 값과 관찰된 값 사이의 연관성의 강도를 나타내는 상관 계수 또는 평균 모델 오차의 척도인 평균 제곱근 오차를 포함하는 여러 방법을 통해 평가될 수 있다. 모델 평가에 선택된 메트릭을 사용하여, 시스템은 모델이 재훈련되어야 할 때에 대한 규칙을 정의할 수 있다.

상기 모델에 대한 몇 가지 설명되지 않은 가정은 다음을 포함한다: (1) 상위성 상호작용이 없다; (2) 예측 모델을 구축하기 위해 사용된 유전자 변화/교란은 유전자 변형의 제안된 조합으로서 모두 동일한 배경에서 만들어진다.

2차 기능에 대한 필터링

상기 설명된 예는 예측된 숙주 세포 성능에 기초한 선형 회귀 예측에 초점을 두었다. 일부 실시태양에서, 본 선형 회귀 방법은 포화 바이오매스, 저항성 또는 다른 측정가능한 숙주 세포 특징과 같은 비-생체분자 인자에도 적용될 수 있다. 따라서, 본 발명의 방법은 또한 제조할 후보자의 우선순위를 정할 때 예측된 성능 이외의 다른 특징을 고려하는 것을 교시한다. 추가적인 관련 데이터가 있다고 가정하면, 비선형 항도 회귀 모델에 포함된다.

변화의 다양성

상기한 모델을 구축할 때, 유전자 변화가 상위성 상화작용의 존재에 의해 진정으로 부가적일 것을 확신할 수 없다(선형 회귀에 의해 가정되고 상기 가정으로 언급됨). 그러므로, 유전자 변화 비유사성의 지식은 긍정적인 가산성의 가능성을 증가시키는데 사용될 수 있다. 예를 들어, 상위 CHO 세포로부터의 유전자 변화가 동일한 대사 경로에 있고 유사한 성능 특성을 갖는 것을 아는 경우, 그 정보는 변화의 비유사한 구성을 가진 다른 상위 디자인을 선택하는 데 사용될 수 있다. 상위성 매핑에 관한 위의 섹션에서 설명한 바와 같이, 예측된 최고의 유전자 변화는 상당히 비유사한 응답 프로파일을 가진 유전자 변형에 대한 선택을 제한하기 위해 필터링될 수 있다. 대안적으로, 선형 회귀는 예측을 가중하기 위해 유사성 매트릭스를 사용하는 가중된 최소 자승 회귀(weighted least squares regression)일 수 있다.

예측된 성능의 다양성

마지막으로, 예측 모델을 검증하고 후속적으로 개량하기 위해, 중간 또는 나쁜 예측된 성능을 가진 CHO 세포를 디자인하도록 선택할 수 있다.

반복 CHO 세포 디자인 최적화

요약하면, 도 4의 흐름도를 참조하면, 반복 예측 CHO 세포 디자인 작업 흐름은 다음과 같이 기술될 수 있다:

● 입력과 출력 변수의 훈련 세트, 예를 들어, 입력으로 유전자 변화 및 출력으로 성능 특성을 생성한다(3302). 생성은 이전의 유전자 변화 및 이러한 유전자 변화를 포함하는 CHO 세포의 상응하는 측정된 성능에 기초하여 분석 장비(214)에 의해 수행될 수 있다.

● 훈련 세트를 기반으로 초기 모델(예를 들어, 선형 회귀 모델)을 개발한다(3304). 이는 분석 장비(214)에 의해 수행될 수 있다.

● 디자인 후보자를 생성한다(3306).

○ 한 실시태양에서, 분석 장비(214)는 변화의 조합의 형태로, 배경 세포에 대해 행해지는 유전자 변화의 수를 고정시킬 수 있다. 이런 변화를 나타내기 위해, 분석 장비(214)는 변화의 조합을 나타내는 하나 이상의 DNA 세부사항 표현을 해석자(204)에 제공할 수 있다. (이런 유전자 변화 또는 이런 변화를 포함하는 숙주 세포는 "테스트 입력"으로 불릴 수 있다) 해석자(204)는 하나 이상의 DNA 세부사항을 해석하고, 실행 엔진(207)은 DNA 세부사항을 실행하여 이런 변화에 대한 개별 후보 후보자 디자인 세포를 나타내는 분석된 출력으로 DNA 세부사항을 채운다.

● 모델에 기초하여, 분석 장비(214)는 각각의 후보 디자인 균주의 예상 성능을 예측한다(3308).

● 분석 장비(214)는 최고의 예측된 성능을 가진 제한된 수, 예를 들어, 100개의 후보 디자인을 선택한다(3310).

○ 상위성 매핑과 관련하여 본 발명의 다른 곳에서 설명된 바와 같이, 분석 장비(214)는 예를 들어, 상위성 효과에 대한 상위 디자인을 필터링하거나, 예측 모델 속에 상위성을 고려하여 상위성과 같은 2차 효과를 설명할 수 있다.

● 주문 배치 엔진(208)에 의해 생성된 공장 주문에 기초하여 필터링된 후보 세포를(공장(210)에서)제조한다(3312).

● 분석 장비(214)는 선택된 세포의 실제 성능을 측정하고 우수한 실제 성능을 기초로 제한된 수의 선택된 세포를 선택하고(3314), 디자인 변화와 이의 얻어진 성능을 예측 모델에 추가한다 (3316).

● 분석 장비(214)는 새로운 디자인 후보 세포의 생성으로 다시 반복하고(3306), 정지 조건이 만족될 때까지 반복을 지속한다. 정지 조건은, 예를 들어, 관심 치료 단백질의 수율과 같은 성능 메트릭을 만족시키는 적어도 하나의 세포의 측정된 성능을 포함할 수 있다.

CHO 세포 디자인을 최적화하기 위한 기계 학습

상기 예에서, CHO 세포 디자인의 반복 최적화는 기계 학습을 구현하기 위해 피드백 및 선형 회귀를 사용한다. 일반적으로, 기계 학습은 제한된 수의 표지된 데이터의 예를 사용하고 알려지지 않은 데이터에 동일한 작업을 실행하여 정보 작업의 수행(예를 들어, 분류 또는 회귀)시에, 매개 변수, 기술 또는 기타 기능과 같은 성능 기준의 최적화로 기술될 수 있다. 상기 선형 회귀 예와 같은 감독된 기계 학습에서, 기계(예를 들어, 컴퓨팅 디바이스)는 예를 들어 훈련 데이터에 의해 나타난 패턴, 카테고리, 통계적 관계 또는 다른 속성을 확인함으로써 학습한다. 그런 다음 학습 결과는 새로운 데이터가 동일한 패턴, 카테고리, 통계적 관계 또는 기타 속성을 나타낼 것인지를 예측하는데 사용된다.

본 발명의 실시태양은 훈련 데이터가 이용가능할 때 다른 감독된 기계 학습 기술을 사용할 수 있다. 훈련 데이터가 없는 경우, 실시태양은 감독되지 않은 기계 학습을 채택할 수 있다. 대안적으로, 실시태양은 소량의 표지된 데이터 및 다량의 비표지된 데이터를 사용하는 반-감독된 기계 학습을 채택할 수 있다. 실시태양은 또한 기계 학습 모델의 성능을 최적화하기 위해 가장 관련이 있는 특징의 서브세트를 선택하기 위해 특징 선택을 채택할 수 있다. 선형 회귀에 대한 대안으로서 또는 선형 회귀에 추가로 선택된 기계 학습 접근법의 유형에 따라, 실시태양은, 예를 들어, 로지스틱 회귀, 신경망, 지지 벡터 기계(SVM), 결정 트리, 숨겨진 마르코프 모델, 베이지안 네트워크, 그램 슈미트, 보강-기반 학습, 계층적 클러스터링을 포함하는 클러스터 기반 학습, 유전자 알고리즘 및 당업계에 공지된 임의의 다른 적절한 학습 기계를 채택할 수 있다. 특히, 실시태양은 로지스틱 회귀를 이용하여 분류 자체와 함께 분류(예를 들어, 상이한 기능 그룹으로 유전자의 분류)의 확률을 제공할 수 있다. 예를 들어, Shevade, A simple and efficient algorithm for gene selection using sparse logistic regression, Bioinformatics, Vol. 19, No. 17 2003, pp. 2246-2253, Leng, et al., Classification using functional data analysis for temporal gene expression data, Bioinformatics, Vol. 22, No. 1, Oxford University Press (2006), pp. 68-76를 참조하고, 이의 전부는 전문이 참조로 본 발명에 포함된다.

실시태양은, 특히 심층 신경망(DNN)으로 알려진 형태로 기계 학습 작업을 수행함에 있어 인기가 증가하고 있는 것으로 밝혀진 그래픽 처리 장치(GPU) 가속 아키텍처를 채택할 수 있다. 본 발명의 실시태양은 GPU 기반 딥 러닝 인터페이스: A Performance and Power Analysis, NVidia Whitepaper, November 2015, Dahl, et al., Multi-task Neural Networks for QSAR Predictions, Dept. of Computer Science, Univ. of Toronto, June 2014 (arXiv:1406.1231 [stat.ML])에 기술된 것과 같은 GPU-기반 기계 학습을 채택할 수 있고, 이의 전부는 전문이 참조로 본 발명에 포함된다. 본 발명의 실시태양에 적용할 수 있는 기계 학습 기술은 다른 참조문헌 중에서, Libbrecht, et al., Machine learning applications in genetics and genomics, Nature Reviews: Genetics, Vol. 16, June 2015, Kashyap, et al., Big Data Analytics in Bioinformatics: A Machine Learning Perspective, Journal of Latex Class Files, Vol. 13, No. 9, Sept. 2014, Prompramote, et al., Machine Learning in Bioinformatics, Chapter 5 of Bioinformatics Technologies, pp. 117-153, Springer Berlin Heidelberg 2005에서 발견될 수 있고, 이의 전부는 전문이 참조로 본 발명에 포함된다.

서비스로서 게놈 디자인 및 조작

본 발명의 실시태양에서, 도 2의 LIMS 시스템 소프트웨어는 도 3의 클라우드 컴퓨팅 시스템(3202)에서 구현되어, 다수의 사용자가 본 발명의 실시태양에 따라 CHO 세포를 디자인 및 제조할 수 있게 한다. 도 3은 본 발명의 실시태양에 따른 클라우드 컴퓨팅 환경(3204)을 도시한다. 도 3에 도시된 것과 같은 클라이언트 컴퓨터(3206)는 인터넷과 같은 네트워크(3208)를 통해 LIMS 시스템에 접근한다. 실시태양에서, LIMS 시스템 애플리케이션 소프트웨어(3210)는 클라우드 컴퓨팅 시스템(3202)에 상주한다. LIMS 시스템은 도 15에 도시된 유형의 하나 이상의 프로세서를 사용하는 하나 이상의 컴퓨팅 시스템을 사용할 수 있다. 클라우드 컴퓨팅 시스템 자체는 네트워크를 통해 LIMS 시스템 어플리케이션(3210)을 클라이언트 컴퓨터(3206)에 인터페이스하는 네트워크 인터페이스(3212)를 포함한다. 네트워크 인터페이스(3212)는 클라이언트 컴퓨터(3206)에서 클라이언트 애플리케이션이 LIMS 시스템 소프트웨어(3210)에 접근할 수 있게 하는 어플리케이션 프로그래핑 인터페이스(API)를 포함할 수 있다. 특히, API를 통해, 네트워크 컴퓨터(3026)는 입력 인터페이스(202), 해석자(204), 실행 엔진(207), 주문 배치 엔진(208), 공장(210)을 구동하는 소프트웨어뿐만 아니라 테스트 장비(212) 및 분석 장비(214)를 제한 없이 포함하는 LIMS 시스템(200)의 구성요소에 접근할 수 있다. 서비스로서 소프트웨어(SaaS) 소프트웨어 모듈(3214)은 클라이언트 컴퓨터(3206)에 서비스로서 LIMS 시스템 소프트웨어(3210)을 제공한다. 클라우드 관리 모듈(3216)은 클라이언트 컴퓨터들(3206)에 의해 LIMS 시스템(3210)에 대한 접근을 관리한다. 클라우드 관리 모듈(3216)은 당업계에 공지된 멀티테넌트 애플리케이션, 가상화 또는 다른 아키텍처를 사용하는 클라우드 아키텍처가 여러 사용자에게 서비스를 제공하는 것을 가능하게 한다.

게놈 자동화

본 발명의 방법의 자동화는 다중 테스트 세포주로부터의 표적 생성물의 높은 처리량의 표현형 선별 및 확인을 동시에 가능하게 한다.

상기한 게놈 조작 예측 모델링 플랫폼은 수백 및 수천 개의 세포가 고 처리량 방식으로 구축된다는 사실에 전제된다. 아래에 설명된 로봇 및 컴퓨터 시스템은 이런 고 처리량 공정이 수행될 수있는 구조적 메커니즘이다.

일부 실시태양에서, 본 발명은 숙주 세포 생산성을 개선하는 방법을 교시한다. 이 공정의 일부로서, 본 개시는 DNA를 조립하고, 새로운 세포를 제조하고, 플레이트에서 선별하고, 산업용 치료 단백질 생산을 위해 모델에서 선별하는 방법을 교시한다. 일부 실시태양에서, 본 발명은 새로운 숙주 세포를 생성하고 테스트하는 상기한 방법의 하나 이상이 자동화 로봇에 의해 보조되는 것을 교시한다.

HTP 로봇 시스템

일부 실시태양에서, 본 발명의 자동화 방법은 로봇 시스템을 포함한다. 본 발명에 개략된 시스템은 일반적으로 96- 또는 384-웰 미세 역가 플레이트의 사용에 관한 것이지만, 당업자라면 알 수 있듯이, 임의의 수의 상이한 플레이트 또는 구성이 사용될 수 있다. 또한, 본 발명에 개략된 단계의 일부 또는 전부는 자동화될 수 있고, 따라서, 예를 들어, 시스템은 완전히 또는 부분적으로 자동화될 수 있다.

일부 실시태양에서, 본 발명의 자동화 시스템은 하나 이상의 작업 모듈을 포함한다. 예를 들어, 일부 실시태양에서, 본 발명의 자동화 시스템은 프로모터 래더 생성, 서열분석 및 DNA 제작, 형질감염, 스크리닝, 단백질 테스트/특징화 및 CHO 세포 클론 선택을 위해 맞춤화된 모듈을 포함한다(도 1 참조).

당업자가 알 수 있는 바와 같이, 자동화 시스템은 액체 핸드러; 하나 이상의 로봇 암; 마이크로플레이트의 위치 결정을 위한 플레이트 핸들러; 플레이트 씰러 (plate sealers), 플레이트 피어서(plate piercers), 비 교차 오염 플레이트상의 웰을 위한 뚜껑을 제거하고 대체하는 자동화 뚜껑 처리기; 일회용 팁에 의해 샘플 배급을 위한 일회용 팁 어셈블리; 샘플 분배를 위한 세척 가능한 팁 어셈블리; 96 웰 로딩 블록; 통합 열 순환기; 냉각된 시약 랙; 미세적정 플레이트 피펫 위치(선택적으로 냉각됨); 플레이트와 팁을 위한 스태킹 타워; 마그네틱 비드 가공 스테이션; 여과 시스템; 플레이트 교반기; 바코드 판독기 및 애플리케이터; 및 컴퓨터 시스템을 포함하나 이에 제한되지 않는 매우 다양한 구성요소를 포함할 수 있다.

일부 실시태양에서, 본 발명의 로봇 시스템은 유전자 표적화 및 재조합 분야의 공정에서의 모든 단계를 수행하기 위한 고 처리량 피펫팅을 가능하게 하는 자동화된 액체 및 입자 취급을 포함한다. 이것은 흡인, 분배, 혼합, 희석, 세척, 정확한 체적 이동과 같은 액체 및 입자 조작; 피펫 팁의 회수 및 폐기; 단일 샘플 흡인으로 다중 전달을 위한 동일한 부피의 반복적 피펫팅을 포함한다. 이런 조작은 교차 오염이 없는 액체, 입자, 세포 및 유기체 전달이다. 이 장비는 필터, 막 및/또는 도터 플레이트에 대한 마이크로 플레이트 샘플의 자동화 반복, 고밀도 전달, 전체 플레이트 연속 희석 및 고용량 작업을 수행한다.

일부 실시태양에서, 본 발명의 맞춤형 자동화 액체 처리 시스템은 TECAN 머신(예를 들어, 맞춤형 TECAN Freedom Evo)이다.

일부 실시태양에서, 본 발명의 자동화 시스템은 다중 웰 플레이트, 딥 웰 플레이트, 정사각형 플레이트, 시약 트로프, 테스트 튜브, 미니 튜브, 마이크로퓨즈 튜브, 냉동 튜브, 필터, 마이크로 어레이 칩, 광섬유, 비드, 아가로스 및 아크릴 아마이드 겔을 위한 플랫폼과 양립가능하며 다른 고상 매트릭스 또는 플랫폼은 업그레이드 가능한 모듈식 데크에 수용된다. 일부 실시태양에서, 본 발명의 자동화 시스템은 공급원 및 출력 샘플, 시약, 샘플 및 시약 희석액, 분석 플레이트, 샘플 및 시약 저장조, 피펫 팁 및 활성 팁 세척 스테이션을 배치하기 위한 다중 위치 작업 표면을 위한 적어도 하나의 모듈 데크를 포함한다.

일부 실시태양에서, 본 발명의 자동화 시스템은 고 처리량 전기 천공 시스템을 포함한다. 일부 실시태양에서, 고효율 전기 천공 시스템은 96 또는 384-웰 플레이트에서 세포를 형질전환시킬 수 있다. 일부 실시태양에서, 고효율 전기 천공 시스템은 VWR® 고 처리량 전기 천공 시스템, BTX™, Bio-Rad® Gene Pulser MXcell™ 또는 다른 다중-웰 전기 천공 시스템을 포함한다.

일부 실시태양에서, 통합된 열 순환기 및/또는 열 조절기는 0℃ 내지 100℃에서 샘플을 배양하는 정확한 온도 제어를 제공하도록 제어된 블록 또는 플랫폼과 같은 열 교환기의 온도를 안정화하는데 사용된다.

일부 실시태양에서, 본 발명의 자동화 시스템은 액체, 입자, 세포 또는 다중 세포 유기체를 로봇 공학적으로 조작할 수 있는 단일 또는 다중 자기 프로브, 친 화성 프로브, 리플리케이터 또는 피펫터를 갖는 교환 가능한 머신-헤드(단일 또는 다중 채널)과 양립가능하다. 다중 웰 또는 다중 튜브 자기 분리기 및 여과 스테이션은 단일 또는 다중 샘플 형식으로 액체, 입자, 세포 및 유기체를 조작한다.

일부 실시태양에서, 본 발명의 자동화 시스템은 카메라 비전 및/또는 분광계 시스템과 양립가능하다. 따라서, 일부 실시태양에서, 본 발명의 자동화 시스템은 진행중인 세포 배양물에서 색 및 흡수 변화를 검출 및 기록할 수 있다.

일부 실시태양에서, 본 발명의 자동화 시스템은 시스템이 다수의 애플리케이션을 수행할 수 있게 하는 다중 하드웨어 애드온(add-on)으로 융통성 있고 적응할 수 있도록 디자인된다. 소프트웨어 프로그램 모듈은 방법의 생성, 수정 및 실행을 허용한다. 시스템의 진단 모듈은 설정, 장비 정렬 및 모터 작동을 허용한다. 맞춤형 도구, 랩웨어 및 액체 및 입자 전달 패턴은 다양한 응용 프로그램이 프로그램되고 실행되게 한다. 데이터베이스는 방법 및 매개변수 저장을 허용한다. 로봇 및 컴퓨터 인터페이스는 장비 간의 통신을 허용한다.

당업자는 본 발명의 HTP 공학 방법을 수행할 수 있는 다양한 로봇 플랫폼을 인식할 것이다.

컴퓨터 시스템 하드웨어

도 5는 본 발명의 실시태양에 따라 비 일시적 컴퓨터 판독 가능 매체(예를 들어, 메모리)에 저장된 프로그램 코드를 실행하는데 사용될 수 있는 컴퓨터 시스템(800)의 한 예를 도시한다. 컴퓨터 시스템은 애플리케이션에 따라 인간 사용자 및/또는 다른 컴퓨터 시스템과 인터페이스하기 위해 사용될 수 있는 입력/출력 서브 시스템(802)을 포함한다. I/O 서브 시스템(802)은 예를 들어, 입력을 위한 키보드, 마우스, 그래픽 사용자 인터페이스, 터치 스크린, 또는 다른 인터페이스, 및 예를 들어 애플리케이션 프로그램 인터페이스(APIs)를 포함하는 출력을 위한 LED 또는 다른 평면 디스플레이를 포함할 수 있다. LIMS 시스템의 구성요소와 같은 본 발명의 실시태양의 다른 요소는 컴퓨터 시스템(800)과 같은 컴퓨터 시스템으로 구현될 수 있다.

프로그램 코드는 2차 메모리(810) 또는 메인 메모리(808) 또는 둘 다에서 의 영구 저장장치와 같은 비 일시적인 매체에 저장될 수 있다. 메인 메모리 808)는 랜덤 액세스 메모리(RAM)와 같은 휘발성 메모리 또는 리드 온리 메모리(ROM)와 같은 비 휘발성 메모리뿐만 아니라 명령들 및 데이터에 대한보다 빠른 접근를 위한 상이한 수준의 캐시 메모리를 포함할 수 있다. 2차 메모리는 솔리드 스테이트 드라이브, 하드 디스크 드라이브 또는 광 디스크와 같은 영구 저장장치를 포함할 수 있다. 하나 이상의 프로세서(804)는 하나 이상의 비 일시적인 매체로부터 프로그램 코드를 판독하고 컴퓨터 시스템이 본 실시태양에 의해 수행된 방법을 완성할 수 있도록 코드를 실행한다. 당업자는 프로세서(들)가 소스 코드를 섭취하고 소스 코드를 프로세서(들)(804)의 하드웨어 게이트 레벨에서 이해할 수 있는 머신 코드로 해석 또는 컴파일할 수 있다는 것을 이해할 것이다. 프로세서(들)(804)은 컴퓨팅 집약적인 작업을 처리하기 위한 그래픽 처리 장치(GPU)를 포함할 수 있다. 특히, 기계 학습에서, 하나 이상의 CPU(804)는 하나 이상의 GPU(804)로 대량의 데이터 처리를 오프로드할 수 있다.

프로세서(들)(804)는 네트워크 인터페이스 카드, WiFi 트랜시버 등과 같은 하나 이상의 통신 인터페이스(807)를 통해 외부 네트워크와 통신할 수 있다. 버스 (805)는 I/O 서브시스템(802), 프로세서(들)(804), 주변 장치(806), 통신 인터페이스(807), 메모리(808) 및 영구 저장장치(810)와 통신가능하게 연결된다. 본 발명의 실시태양은 이런 대표적 아키텍처에 제한되지 않는다. 대안적 실시태양은 상이한 배열 및 유형의 구성요소, 예를 들어 입출력 구성요소 및 메모리 서브시스템을 위한 개별 버스를 사용할 수 있다.

당업자는 본 발명의 실시태양의 요소의 일부 또는 전부 및 이들의 수반되는 작업이 컴퓨터 시스템(800)의 하나 이상의 프로세서 및 하나 이상의 메모리를 포함하는 하나 이상의 컴퓨터 시스템에 의해 전체적으로 또는 부분적으로 구현될 수 있다는 것을 이해할 것이다. 특히, LIMS 시스템(200)의 요소 및 본 발명에 기술된 임의의 로봇 및 다른 자동화 시스템 또는 장치는 컴퓨터로 구현될 수 있다. 일부 요소 및 기능은 국소적으로 구현될 수 있고, 다른 것들은 예를 들어, 클라이언트- 서버 방식과 같은, 상이한 서버를 통해 네트워크 도처에 분산된 방식으로 구현될 수 있다. 특히 도 3과 같이, 서버 측 작업은 서비스로서 소프트웨어(SaaS) 방식으로 여러 클라이언트에 이용될 수 있다.

본 내용에서 구성요소라는 용어는 소프트웨어, 하드웨어 또는 펌웨어(또는 이들의 임의의 조합) 구성요소를 포괄적으로 의미한다. 구성요소는 일반적으로 지정된 입력(들)을 사용하여 유용한 데이터 또는 다른 출력을 생성할 수 있는 기능적 구성요소이다. 구성요소는 자급식일 수 있거나 아닐 수 있다. 애플리케이션 프로그램("애플리케이션"이라고도 함)은 하나 이상의 구성요소를 포함할 수 있으며 구성요소는 하나 이상의 애플리케이션 프로그램을 포함할 수 있다.

일부 실시태양은 다른 모듈 또는 애플리케이션 구성요소와 함께 구성요소의 일부, 전부를 포함하거나 하나도 포함하지 않는다. 여전히, 다양한 실시태양은 이들 구성요소의 둘 이상을 단일 모듈에 통합하고 및/또는 이들 구성요소의 하나 이상의 기능의 일부를 다른 구성요소와 연관시킬 수 있다.

용어 "메모리"는 정보를 저장하기 위해 사용되는 임의의 장치 또는 메커니즘일 수 있다. 본 발명의 일부 실시태양에 따르면, 메모리는 휘발성 메모리, 비 휘발성 메모리 및 동적 메모리의 임의의 유형을 포함하나 이에 제한되는 것은 아니다. 예를 들어, 메모리는 랜덤 액세스 메모리, 메모리 저장 장치, 광학 메모리 장치, 자기 매체, 플로피 디스크, 자기 테이프, 하드 드라이브, SIMMs, SDRAM, DIMMs, RDRAM, DDR RAM, SODIMMS, 지울 수 있는 프로그램가능한 리드 온리 메모리(EPROMs), 전기적으로 지울 수 있는 프로그램가능한 리드 온리 메모리(EEPROMs), 컴팩트 디스크, DVDs 및/또는 이와 동일한 종류일 수 있다. 일부 실시태양에 따르면, 메모리는 하나 이상의 디스크 드라이브, 플래시 드라이브, 데이터베이스, 로컬 캐시 메모리, 프로세서 캐시 메모리, 관계형 데이터베이스, 플랫 데이터베이스, 서버, 클라우드 기반 플랫폼 및/또는 이와 동일한 종류를 포함할 수 있다. 또한, 당업자는 정보를 저장하기 위한 많은 부가적인 장치 및 기술이 메모리로서 사용될 수 있다는 것을 이해할 것이다.

메모리는 프로세서 상의 하나 이상의 애플리케이션 또는 모듈을 실행하기 위한 명령을 저장하는데 사용될 수 있다. 예를 들어, 일부 실시태양에서 메모리는 본 발명에 개시된 하나 이상의 모듈 및/또는 애플리케이션의 기능을 실행하는데 필요한 명령의 전부 또는 일부를 수용하기 위해 사용될 수 있다.

유전자 디자인 예측을 기반으로 하는 HTP CHO 세포 조작: 예시적 작업 흐름

일부 실시태양에서, 본 발명은 본 발명의 전산 분석 시스템의 권고에 기초한 새로운 숙주 유기체의 지시된 조작을 교시한다.

일부 실시태양에서, 본 발명은 모든 유전자 디자인 및 클로닝 방법과 양립할 수 있다. 즉, 일부 실시태양에서, 본 발명은 폴리머라제 연쇄 반응, 제한 효소 절단, 결찰, 상동성 재조합, RT PCR 및 당업계에 일반적으로 공지된 다른 기술과 같은 전통적인 클로닝 기술의 사용을 교시하고 예를 들어 참조로 본 발명에 포함된 Sambrook et al. (2001) Molecular Cloning: A Laboratory Manual(3^rd ed., Cold Spring Harbor Laboratory Press, Plainview, New York에 기술된다.

일부 실시태양에서, 복제된 서열은 본 발명에서 교시된 임의의 HTP 유전자 디자인 라이브러리, 예를 들면: 프로모터 스왑 라이브러리로부터의 프로모터의 임의의 것으로부터 가능성을 포함할 수 있다.

또한, 특정 구조체에 포함되어야 하는 정확한 서열 조합은 상위성 맵핑 기능에 의해 통지될 수 있다.

다른 실시태양에서, 복제된 서열은 합리적인 디자인(가설-주도적) 및/또는 과학 출판물과 같은 다른 소스에 기초한 서열에 기초한 서열을 또한 포함할 수 있다.

특정 DNA 올리고 뉴클레오타이드 제조

일부 실시태양에서, 본 발명은 숙주 세포 유기체의 DNA 절편을 삽입 및/또는 교체 및/또는 변경 및/또는 삭제하는 것을 교시한다. 일부 양태에서, 본 발명에 교시된 방법은 숙주 유기체의 게놈 속에 포함될 관심 올리고뉴클레오타이드(즉, 표적 DNA 절편)를 제조하는 것을 포함한다. 일부 실시태양에서, 본 발명의 표적 DNA 절편은 공지된 주형으로부터의 복제 또는 절단, 돌연변이 또는 DNA 합성을 포함하여 당업계에 공지된 임의의 방법을 통해 얻을 수있다. 일부 실시태양에서, 본 발명은 표적 DNA 서열(예를 들어, GeneArt™, GeneMaker™,　GenScript™, Anagen™, Blue Heron™, Entelechon™, GeNOsys, Inc., 또는 Qiagen™)을 생산하기 위한 상업적으로 구입가능한 유전자 합성 생성물과 양립가능하다.

일부 실시태양에서, 표적 DNA 절편은 숙주 유기체의 선택된 DNA 영역에 SNP를 포함시키도록 디자인된다.

일부 실시태양에서, 본 발명의 방법에서 사용된 올리고뉴클레오타이드는 당 업계에 공지된 효소적 또는 화학적 합성 방법 중 임의의 방법을 사용하여 합성될 수 있다. 올리고뉴클레오타이드는 제어된 공극 유리(CPG), 폴리스티렌 비드 또는 CPG를 함유할 수 있는 열가소성 폴리머로 구성된 막과 같은 고체 지지체 상에서 합성될 수 있다. 올리고 뉴클레오타이드는 미세유체역학(Tian et al., Mol. BioSyst., 5, 714-722 (2009)) 또는 둘 다의 조합을 제공하는 공지된 기술(Jacobsen et al., 미국 특허 출원 제 2011/0172127호 참조)을 사용하여 병렬 마이크로스케일로 어레이 상에서 합성될 수 있다.

어레이 상에 또는 미세유체역학을 통한 합성은 보다 낮은 시약 사용을 통해 비용을 감소시킴으로써 통상적인 고체 지지체 합성에 비해 이점을 제공한다. 유전자 합성에 필요한 규모는 작아서, 어레이 또는 미세유체역학을 통해 합성된 올리고 뉴클레오타이드 생성물의 규모가 허용가능하다. 그러나, 합성된 올리고뉴클레오타이드는 고체 지지체 합성을 사용할 때보다 품질이 떨어진다(이하의 Tian 참조; 또한 Staehler et al., U.S. Pat. App. No. 2010/0216648 참조).

퍼옥시 음이온 탈보호를 사용하여 1980년대에 처음으로 기술되었기 때문에 종래의 4단계 포스포아미다이트 화학에서 많은 발전이 이루어져왔다(예를 들어, Sierzchala, et al.　J. Am. Chem. Soc.,　125, 13427-13441 (2003) using peroxy anion deprotection; Hayakawa et al., U.S. Pat. No. 6,040,439 for alternative protecting groups; Azhayev et al,　Tetrahedron　57, 4977-4986 (2001) for universal supports; Kozlov et al.,　Nucleosides, Nucleotides, and Nucleic Acids,　24 (5-7), 1037-1041 (2005) for improved synthesis of longer oligonucleotides through the use of large-pore CPG; and Damha et al.,　NAR,　18, 3813-3821 (1990) for improved derivatization 참조)

합성 유형에 관계없이, 생성된 올리고뉴클레오타이드는 보다 긴 올리고뉴클레오타이드를 위한 더 작은 빌딩 블록을 형성할 수 있다. 일부 실시태양에서, 더 작은 올리고뉴클레오타이드는 폴리머라제 연쇄 조립(PCA), 리가아제 연쇄 반응 (LCR) 및 열역학적으로 균형 잡힌 인사이드-아웃 합성(TBIO)과 같은 당업계에 공지 된 프로토콜을 사용하여 함께 결합될 수 있다(Czar et al. Trends in Biotechnology, 27, 63-71 (2009) 참조). PCA에서, 원하는 긴 제품의 전체 길이에 걸쳐있는 올리고뉴클레오타이드는 어닐링되고 여러 사이클(일반적으로 약 55 사이클)에서 연장되어 전장 생성물을 최종적으로 얻는다. LCR은 리가아제 효소를 사용하여 제 3 올리고뉴클레오타이드에 모두 어닐링되는 두 올리고뉴클레오타이드에 연결시킨다. TBIO 합성은 목적 생성물의 중심에서 시작하여 유전자의 5' 말단에서 포워드 가닥과 상동성이고 유전자의 3' 말단에서 리버스 가닥과 상동성인 중첩 올리고뉴클레오타이드를 사용함으로써 점진적으로 양방향으로 연장된다.

더 큰 이중 가닥 DNA 단편을 합성하는 다른 방법은 상위-가닥 PCR(TSP)을 통해 더 작은 올리고뉴클레오타이드를 조합하는 것이다. 이 방법에서, 복수의 올리고뉴클레오타이드는 원하는 생성물의 전체 길이에 걸쳐 있고 인접한 올리고뉴클레오타이드(들)에 중첩 영역을 포함한다. 증폭은 범용 포워드 및 리버스 프라이머로 수행될 수 있으며, 증폭의 다중 사이클을 통해 전장 이중 가닥 DNA 생성물이 형성된다. 이런 생성물은 선택적인 오류 보정 및 원하는 이중 가닥 DNA 단편 최종 생성물을 생성하는 추가 증폭을 진행될 수 있다.

TSP의 한 방법에서, 전장의 원하는 생성물을 형성하도록 결합되어질 더 작은 올리고뉴클레오타이드의 세트는 40-200 염기 길이이고 적어도 약 15-20 염기만큼 서로 중첩된다. 실제적인 목적을 위해, 중첩 영역은 올리고뉴클레오타이드의 특정 어닐링을 보장할만큼 충분히 길어야 하고 사용된 반응 온도에서 어닐링하기에 충분한 높은 용융 온도(T_m)를 가져야 한다. 중첩은 소정의 올리고뉴클레오타이드가 인접한 올리고뉴클레오타이드에 의해 완전히 중첩되는 지점까지 연장될 수 있다. 중첩의 양은 최종 생성물의 품질에 영향을 미치지 않는 것으로 보입니다. 어셈블리의 첫 번째 및 마지막 올리고뉴클레오타이드 빌딩 블록은 포워드 및 리버스 증폭 프라이머에 대한 결합 위치를 포함해야 한다. 하나의 실시태양에서, 첫 번째 및 마지막 올리고뉴클레오타이드의 최종 말단 서열은 보편적 프라이머의 사용을 허용하도록 상보성의 동일한 서열을 포함한다.

숙주 세포의 형질감염

일부 실시태양에서, 본 발명은 숙주 유기체, 예를 들어, CHO 세포의 게놈에 원하는 표적 DNA 부분(예를 들어, 특정 프로모터, 및/또는 항체와 같은 GOI를 포함)을 삽입할 수 있는 벡터를 구축하는 방법을 교시한다.

일부 실시태양에서, 본 발명은 숙주 유기체로의 형질전환 또는 형질감염에 적합한 임의의 벡터와 양립 가능하다.

일부 실시태양에서, 본 발명은 숙주 세포와 양립 가능한 셔틀 벡터의 사용을 교시한다. 본 발명에 제공된 방법에 사용하기 위한 셔틀 벡터는 본 발명에 기술된 바와 같은 선택 및/또는 역 선택을 위한 마커를 포함할 수 있다. 마커는 당업계에 공지되고/되거나 본 발명에 제공된 임의의 마커일 수 있다. 셔틀 벡터는 당업계에 공지된 바와 같이 상기 셔틀 벡터의 조립에 유용한 임의의 조절 서열(들) 및/또는 서열을 추가로 포함할 수 있다. 조절 서열은 당업계에 공지되거나 본 발명에 제공된 임의의 조절 서열, 예를 들어 숙주 세포의 유전 기구에 의해 사용되는 프로모터, 개시, 중지, 신호, 분비 및/또는 종결 서열일 수 있다. 특정 예에서, 표적 DNA는 상업용 벡터(예를 들어, DNA2.0 맞춤형 또는 GATEWAY® 벡터)와 같은 임의의 저장소 또는 카탈로그 생성물로부터 얻을 수 있는 벡터, 구조체 또는 플라스미드에 삽입될 수 있다.

일부 실시태양에서, 본 발명의 조립/복제 방법은 다음 조립 전략: i) II형 통상적인 복제, ii) II형 S-매개 또는 "골든 게이트" 복제(예를 들어, Engler, C., R. Kandzia, and S. Marillonnet. 2008 "A one pot, one step, precision　cloning method with high-throughput capability". PLos One 3:e3647; Kotera, I., and T. Nagai. 2008 "A high-throughput and single-tube recombination of crude PCR products using a DNA polymerase inhibitor and type IIS　restriction enzyme." J Biotechnol 137:1-7.; Weber, E., R. Gruetzner, S. Werner, C. Engler, and S. Marillonnet. 2011 Assembly of Designer TAL Effectors by　Golden Gate　Cloning. PloS One 6:e19722 참조), iii) GATEWAY® 재조합, iv) TOPO® 복제, 엑소뉴클레아제 매개 어셈블리(Aslanidis and de Jong 1990. "Ligation-independent　cloning　of PCR products (LIC-PCR)." Nucleic Acids Research, Vol. 18, No. 20 6069), v) 상동성 재조합, vi) 비 상동성 말단 결합, vii) 깁슨 어셈블리(Gibson et al., 2009 "Enzymatic assembly of DNA molecules up to several hundred kilobases" Nature Methods 6, 343-345) 또는 이의 조합의 적어도 하나를 사용할 수 있다. 모듈형 IIS 기반 조립 전략은 PCT 공개공보 WO 2011/154147에 개시되며, 그 내용은 본 발명에 참고로 포함된다.

플라스미드가 포유류에 자연적으로 존재하지는 않지만, 과학자들은 합성 벡터 및 배양된 포유류 세포를 사용하여 플라스미드 기반 연구의 이점을 얻을 수 있다. 물론, 이러한 포유류 벡터는 그 속에 형질감염되는 세포 유형과 호환되어야 한다 - 예를 들어 박테리아 복제 기점(ORI)은 포유류 세포에서 플라스미드 복제를 허용하지 않으며 박테리아를 죽이는 독소는 포유류 세포에 대한 미치는 어떠한 식별 가능한 효과를 가질 수 없다.

유전 물질(예를 들어, 플라스미드)을 포유류 세포에 도입하는 수단은 형질 감염이라고 하는 과정이다. 형질감염은 박테리아 형질전환(박테리아 세포에 DNA 도입)과 다소 비슷하다; 그러나, 기술과 시약은 다양하다. 포유류 세포로의 플라스미드 형질감염은 매우 간단하며 생성된 세포는 플라스미드 DNA를 일시적으로 (박테리아와 유사) 발현하거나 유전 물질을 게놈에 직접 통합하여 안정적인 형질감염을 형성할 수 있다. 박테리아 형질전환과 달리, 과학자들은 동일한 방식으로 플라스미드를 흡수한 세포를 "선택"하지 않는다. 아래 기술된 선택 방법은 일반적으로 안정적인 세포주를 만들 때 사용되며 일반적인 플라스미드 선택에는 사용되지 않는다. 대신, 리포터 유전자는 세포의 형질감염 효율과 발현 수준을 쉽게 모니터하도록 사용된다. 이상적으로, 선택된 리포터는 세포에 고유하고, 플라스미드에서 발현되며 편리하게 분석될 수 있다. 관심 유전자에 대한 직접 검사는 형질감염 성공을 평가하는 또 다른 방법일 수 있다. GFP는 종종 리포터로 사용된다.

많은 실험에서, 형질감염된 플라스미드가 일시적으로 발현되는 것으로 충분하다. 형질감염 과정에서 도입된 DNA는 핵 게놈에 통합되지 않기 때문에, 플라스미드 복제가 없는 경우, 외래 DNA는 시간이 지남에 따라 분해되거나 희석될 것이다. 그러나, 이는 실험 기간이나 기타 매개 변수에 따라 문제가 되지 않을 수 있다. 포유류 세포는 박테리아보다 훨씬 느린 속도로 두 배가 된다(각각 ~24시간 대 20분). 따라서, 이러한 실험의 대부분은 형질감염 후 48시간 이내에 종료되기 때문에, 플라스미드가 세포에서 복제되는지 확인하는 것이 항상 중요한 것은 아니다.

물론, 플라스미드가 고갈되는 것을 원하지 않을 수도 있지만 여전히 일시적 형질감염 방법을 사용하기를 원할 수도 있다. "천연" 포유류 ORI가 없기 때문에, 과학자들은 바이러스 기반 ORI를 빼앗아 빈 공간을 채웠다. 그러나, 이러한 ORI는 효과적인 복제를 위해 세포 내에서 trans로 표현되는 추가 구성요소가 필요하다. 앱스테인-바르 바이러스(EBV) 핵 항원 1(EBNA1) 또는 SV40 대형-T 항원(293E 또는 293T 세포)을 발현하는 세포주는 각각 바이러스 EBV 또는 SV40 ORI를 포함하는 플라스미드의 에피솜 증폭을 허용한다. 이러한 바이러스 구성요소의 존재는 플라스미드 희석 속도를 크게 감소시키지만 100% 형질감염 효율을 보장하지는 않는다.

안정한 형질감염

안정한 형질감염은 외래 유전 물질(GOI, 관심 유전자)을 게놈에 완전하고 성공적으로 통합한 세포 집단을 생성하는 데 사용된다. 효모 및 박테리아에서 발현에 사용되는 플라스미드와 달리, 안정한 형질감염에 사용되는 플라스미드는 통합된 DNA가 게놈의 일부로 복제되기 때문에 ORI를 거의 포함하지 않는다. 외래 DNA가 숙주 게놈에 영구적으로 추가되기 때문에, 세포는 외래 물질의 유전자 형질을 지속적으로 발현하고 이후 세대에 전달할 것이다. 안정적으로 형질감염된 세포는 원래의 부모 세포로부터 완전히 새로운 세포주로 간주될 수 있다.

포유류 세포에서 양성 선택

안정한 형질감염을 달성하려면, 세포가 플라스미드 DNA를 게놈에 통합하도록 강제하는 선택적인 압력이 있어야 한다. 양성 선택은 양성 형질을 선택하는 수단인 반면(즉, 플라스미드는 세포가 독소에 저항성을 갖게 하는 카세트를 포함한다), 음성 선택은 음성 형질을 선택하는 것이다(즉, 플라스미드는 세포가 독소에 민감하게 하는 카세트를 포함한다). 음성 선택 기술은 양성 선택과 함께 사용될 수 있어서 유전자가 게놈 내의 특정 위치로 표적화되는 것을 보장한다.

포유 동물 세포에서의 양성 선택은 박테리아에서의 것과 유사하게 작용하며 가장 일반적으로 사용되는 선택 마커의 표는 아래에 나열되어 있다:

CHO 세포 형질감염에서 공통적인 선택 마커

명칭	저항성 부여 유전자	세포 유형^*	작용 방식^**	작업 농도^***
블라스티시딘	bsd	HeLa, NIH3T3, CHO, COS-1, 293HEK	번역의 종료 단계를 금지한다	2-10 ug/mL
G418/진티신	Neo	HeLa, NIH3T3, CHO, 293HEK, Jurkat T cells	80S에서 폴리펩타이드 합성을 차단한다; 사슬 신장을 억제한다	100-800 ug/mL
하이그로마이신 B	hygB	HeLa, NIH3T3, CHO, Jurkat T cells	80S에서 폴리펩타이드 합성을 차단한다; 사슬 신장을 억제한다	50-500 ug/mL
퓨로마이신	Pac	HeLa, 293HEK, Jurkat T cells	단백질 합성을 금지한다; 조기 사슬 종료	1-10 ug/mL
제신	Sh bla	HeLa, NIH3T3, CHO, COS-1, 293HEK, Jurkat T cells	DNA와 복합체를 형성한다; 가닥 가위를 형성한다	100-400 ug/mL

^* 포괄적이지 않다. ^** 진핵 생물에서. ^*** 선택에 사용되는 농도는 일반적으로 형질감염된 세포주의 유지에 사용되는 농도보다 더 높다(두 배).

단백질 검사 및 특징화 - PROSWAP 유도 유전적 섭동의 영향 측정

다양한 표적 유전자의 발현을 조절하기 위해 HTP 프로모터 스왑 게놈 조작 도구를 사용하는 결과는 이러한 절차가 일부 실시태양에서 항체(Ab)와 같은 치료 단백질인 GOI에 미치는 영향에 대해 평가될 것이다.

프로모터 스왑 도구는 HTP 및 체계적인 "프로브"를 허용하고, 이에 의해 특정 표적 유전자를 조절한 다음, GOI 생성물의 표현형 특징, 예를 들어, 생산된 항체의 특징에 대한 이러한 조절의 효과를 측정한다. GOI의 생성물(즉, 치료 단백질 및/또는 항체)에 대한 효과의 평가는 유전자 섭동이 Ab의 발현을 부정적으로 방해하지 않았다는 것을 보장하기 위해 역가, N-말단 절단, 글리코실화 등과 같은 다수의 Ab 표현형 특징화를 수반할 것이다.

예시적인 관심 유전자 - 항체

본 발명은 원하는 관심 유전자 (GOI)의 발현을 개선하기 위해 CHO 세포의 HTP 유전 공학을 교시한다. 이러한 관심 범주의 유전자 중 하나는 인간 치료 단백질을 암호화하는 유전자이다. 예를 들어, 항체를 암호화하는 유전자의 개선된 발현 및 CHO 세포를 통한 항체 생산이 고려된다.

용어 "항체" 및 "면역글로불린"은 본 발명에서 상호 교환적으로 사용된다. 이러한 용어는 당업자가 잘 이해하고 있으며 항원에 특이적으로 결합하는 하나 이상의 폴리펩타이드로 이루어진 단백질을 의미한다. 항체의 한 형태는 항체의 기본 구조 단위를 구성한다. 이 형태는 테트라머이며 두 개의 동일한 항체 사슬 쌍으로 이루어지며, 각 쌍은 하나의 경쇄와 하나의 중쇄를 가진다. 각 쌍에서, 경쇄 및 중쇄 가변 영역은 함께 항원에 대한 결합을 담당하고 불변 영역은 항체 이펙터 기능을 담당한다.

인식된 면역글로불린 폴리펩타이드는 카파 및 람다 경쇄 및 알파, 감마(IgG1, IgG2, IgG3, IgG4), 델타, 엡실론 및 뮤 중쇄 또는 다른 종의 등가물을 포함한다. (약 25kDa 또는 약 214개 아미노산의) 전장 면역글로불린 "경쇄"는 NH2- 말단에서 약 110개 아미노산의 가변 영역과 COOH-말단에서 카파 또는 람다 불변 영역을 포함한다. (약 50kDa 또는 약 446개 아미노산의) 전장 면역글로불린 "중쇄"는 유사하게 (약 116개 아미노산의) 가변 영역 및 상기 중쇄 불변 영역 중 하나, 예를 들어 (약 330개 아미노산의) 감마를 포함한다.

용어 "항체" 및 "면역글로불린"은 임의의 이소타입의 항체 또는 면역글로불린, Fab, Fv, scFv 및 Fd 단편을 포함하나 이에 제한되지 않는 항원에 대한 특이적 결합을 유지하는 항체의 단편, 키메릭 항체, 인간화 항체, 단일 사슬 항체 및 항체 및 비 항체 단백질의 항원 결합 부분을 포함하는 융합 단백질을 포함한다. 항체는, 예를 들어, 방사성 동위 원소, 검출 가능한 생성물을 생성하는 효소, 형광 단백질 등으로 검출 가능하게 표지될 수 있다. 항체는, 예를 들어, 비오틴(비오틴-아비딘 특이적 결합 쌍의 구성원) 등과 같은 특정 결합 쌍의 구성원과 같은 다른 모이어 티에 추가로 접합될 수 있다. 항체는 또한 폴리스티렌 플레이트 또는 비드 등을 포함하나 제한되지 않는 고체 지지체에 결합될 수 있다. 또한 Fab', Fv, F(ab')2 및 항원에 대한 특이적 결합을 유지하는 다른 항체 단편이 용어에 포함된다.

항체는, 예를 들어, Fv, Fab 및 (Fab')2 뿐만 아니라 이중 기능(즉, 이중 특이적) 하이브리드 항체(예를 들어, Lanzavecchia et al., Eur. J. Immunol. 17, 105 (1987))를 포함하는 다양한 다른 형태 및 단일 사슬(예를 들어, Huston et al., Proc. Natl. Acad. Sci. USA, 85, 5879-5883 (1988); Bird et al., Science , 242, 423-426 (1988); Hood et al., "Immunology", Benjamin, NY, 2nd ed. (1984) 및 Hunkapiller and Hood, Nature, 323, 15-16 (1986) 참조)로 존재할 수 있다.

면역글로불린 경쇄 또는 중쇄 가변 영역은 "상보성 결정 영역" 또는 CDR이라고도 하는 3개의 초가변 영역에 의해 중단된 "프레임워크" 영역으로 이루어진다. 상이한 경쇄 또는 중쇄의 프레임워크 영역의 서열은 종 내에서 상대적으로 보존된다. 항체의 프레임워크 영역, 즉 구조성 경쇄 및 중쇄의 결합된 프레임워크 영역은 CDR을 배치하고 정렬하는 역할을 한다. CDR은 주로 항원의 에피토프에 대한 결합을 담당한다.

키메라 항체는 경쇄 및 중쇄 유전자가 일반적으로 유전 공학에 의해 상이한 종에 속하는 항체 가변 및 불변 영역 유전자로부터 구축된 항체이다. 예를 들어, 토끼 단일 클론 항체의 유전자의 가변 세그먼트는 감마 1 및 감마 3과 같은 인간 불변 세그먼트에 연결될 수 있다. 치료 키메라 항체의 예는 토끼 항체의 가변 또는 항원 결합 도메인 및 인간 항체의 불변 또는 이펙터 도메인으로 구성된 하이브리드 단백질이다.

본 발명에 사용된 바와 같이, 달리 명시되지 않거나 문맥으로부터 명확하지 않은 한, 항체 도메인, 영역 및 단편은 당업계에 주지된 표준 정의에 따른다. 예를 들어, Abbas, A.K., et al., (1991) Cellular and Molecular Immunology, W. B. Saunders Company, Philadelphia, Pa. 참조.

본 발명에 사용된 용어 "인간화 항체" 또는 "인간화 면역글로불린"은 동물 항체로부터의 하나 이상의 CDR을 포함하는 항체를 지칭하며, 항체는 부모 동물 항체보다 인간에서 덜 면역원성이 되도록 변형된 항체를 의미한다. 동물 항체는 키메라 항체 생산, CDR 이식(재형성이라고도 함) 및 항체 재포장을 포함하는 여러 방법을 사용하여 인간화될 수 있다.

본 발명에 사용된 용어 "뮤린화 항체" 또는 "뮤린화 면역글로불린"은 동물 항체로부터의 하나 이상의 CDR을 포함하는 항체를 지칭하며, 항체는 부모 동물 항체보다 마우스에서 덜 면역원성이 되도록 변형된 항체를 의미한다. 동물 항체는 키메라 항체 생산, CDR 이식(재형성이라고도 함) 및 항체 재포장을 포함하는 여러 방법을 사용하여 뮤린화될 수 있다.

본 발명에 사용된 용어 "결정", "측정" 및 "평가" 및 "분석"은 상호 교환적으로 사용되며 정량적 및 정성적 결정을 모두 포함한다.

상기한 바와 같이, 혈청에서 발견되는 항체 분자의 5개 면역글로불린 부류(이소타입): IgG, IgM, IgA, IgE 및 IgD가 존재한다. 이들은 포함하는 중쇄의 유형으로 구별된다. IgG 분자는 γ-사슬로 알려진 중쇄를 가지며; IgM는 μ-사슬을 가지며; IgA는 α-사슬을 가지며; IgE는 ε-사슬을 가지며; IgD는 δ-사슬을 가진다. 중쇄 폴리펩타이드의 변이는 각 면역글로불린 부류가 다른 유형의 면역 반응에서 또는 신체 방어의 상이한 단계 동안 기능할 수 있도록 한다. 이러한 기능적 차이를 부여하는 아미노산 서열은 주로 Fc 도메인 내에 위치된다.

항체 부류는 또한 그 원자가, 즉 항원에 결합할 수 있는 암의 수가 상이하다. 이것은 특정 면역글로불린이 J 사슬을 통한 Fc 도메인의 연결을 통해 멀티머를 형성하는 능력에서 발생한다. 예를 들어, IgM은 5개의 동일한 "Y" 형태의 모노머의 펜타머이다. 따라서 완전한 IgM 단백질은 10개의 중쇄, 10개의 경쇄 및 10개의 항원 결합 암을 포함한다(IgM에 10의 원자가 제공).

인간에서, 단지 두 종류의 경쇄 - κ 및 λ(VL 및 CL 영역의 미묘한 아미노산 차이에 기초함)가 존재한다. κ와 λ 사슬은 요즘 각각 67%와 33% 발견된다. 임의의 항체는 하나의 중쇄 유형과 하나의 경쇄 유형의 결합에 의해 형성될 수 있다. 가능한 모든 조합에서, 항체 단위(단량체)에 두 개의 동일한 중쇄 및 경쇄가 존재할 것이다. 따라서 IgM 펜타머는 (μ₂κ₂)₅ 또는 (μ₂λ₂)₅를 포함할 수 있다.

상기한 바와 같이, 면역글로불린은 IgG1, IgG2, IgG3 및 IgG4로 지정된 4개의 하위 분류로 추가로 세분화된다(혈청 내 풍부도가 감소하는 순서로 나열됨). 이들은 γ-중쇄의 CH 영역에서 95% 이상의 서열 상동성을 공유한다. 또한 두 종류의 하위 분류의 IgA: IgA1(90%) 및 IgA2(10%)가 존재한다. 혈청 IgA는 모노머이지만 눈물, 점액 및 타액과 같은 분비물에서 다이머로 발견된다. 분비물에서, IgA는 J 사슬과 이와 관련된 분비물 조각(또는 T 조각)이라고 하는 또 다른 단백질을 가진다. 또한, κ 및 λ 경쇄의 여러 하위 부류가 존재하는 것으로 알려져 있다.

표 4의 데이터는 인간 항체에 대한 전술한 정보 중 일부를 요약한다.

인간 항체 특성

특성	IgG				IgA		IgM	IgD	IgE
H 사슬 부류 (중쇄)	Γ				α		μ	δ	ε
H 사슬 하위 부류	γ1	γ2	γ3	γ4	α1	α2	없음	없음	없음
H 사슬 MW	50 kDa	50 kDa	60 kDa	50 kDa	55 kDa	55 kDa	70 kDa	62 kDa	70 kDa
L 사슬 MW^* (경쇄 k & λ)	23 kDa	23 kDa	23 kDa	23 kDa	23 kDa	23 kDa	23 kDa	23 kDa	23 kDa
총 MW	150 kDa	150 kDa	170 kDa	150 kDa	160 kDa (혈청) 600 kDa (분비성)	160 kDa (혈청) 600 kDa (분비성)	970 kDa	180 kDa	190 kDa
Ext. Coeff. 0.1% @280 nm	1.4	1.4	1.4	1.4	1.32	1.32	1.18	1.7	1.53
보체 고정	약함	약함	강함	아니오	아니오	아니오	강함	아니오	아니오
Fc 수용체 결합	강함	약함	강함	약함	네	네	네	아니오	네
비만 세포 / 호흡기 탈과립	아니오	아니오	아니오	아니오	아니오	아니오	아니오	아니오	네
태반 전달	강함	약함	강함	강함	아니오	아니오	아니오	아니오	아니오

^* 경쇄는 모든 면역글로불린 부류에 존재한다. 인간에서, k 사슬은 요즘 67% 발견되고 λ 사슬은 요즘 33% 발견된다.

실시예

하기 실시예는 본 발명의 다양한 실시태양을 설명하기 위해 제공되며 어떠한 방식으로든 본 발명을 제한하려는 것은 아니다. 청구항의 범위에 의해 정의된 바와 같이, 본 발명의 취지 내에 포함되는 변경 및 다른 용도는 당업자에 의해 인식될 것이다.

아래에서 단지 독자를 돕기 위해 내용의 간략한 표(즉, 표 5)가 제공된다. 이런 표의 내용의 어떤 것도 본 출원의 실시예 또는 설명의 범위를 제한하지 않는다.

실시예 부분에 대한 내용의 표

실시예	제목	간략한 설명
1	표적 경로 유전자의 유전자 환경을 탐색하기 위한 프로모터 스왑 라이브러리의 구현을 위한 일반 흐름도	HTP 프로모터 스왑 게놈 엔지니어링 도구를 사용하여 관심 표현형 매개 변수, 예를 들어, 치료 단백질 생산과 관련된 표적 경로와 관련된 게놈 환경을 탐색할 때 구현되는 일반적인 흐름도를 기술한다.
2	경로 항체 발현 의존성을 탐색하기 위한 프로모터 스왑 라이브러리의 특정 구현	HTP 프로모터 스왑 게놈 조작 도구를 사용하여 CHO 세포에서 항체 생산과 관련된 8가지 경로와 관련된 게놈 환경을 탐색하는 방법을 기술한다.
3	프로모터 스왑 라이브러리의 통합 및 다단계 조합 테스트	HTP 프로모터 스왑 게놈 조작 도구를 사용하여 발견된 유익한 유전자 변형(예를 들어, 특정 프로모터 : 유전자 콤보)의 통합을 기술한다.

실시예 1 : 표적 경로 유전자의 유전자 환경을 탐색하기 위한 프로모터 스왑 라이브러리의 구현을 위한 일반 흐름도

이 실시예는 HTP 프로모터 스왑 게놈 조작 도구를 사용하는 HTP 게놈 조작 절차의 실시태양을 예시한다.

A. 프로모터 스와핑 표적의 식별

상기한 바와 같이, 프로모터 스와핑은 표적화 할 "n" 유전자 세트를 선택하는 단계를 포함하는 다단계 과정이다.

이 실시예에서, 본 발명자들은 CHO 세포 치료 단백질 생산에 중요한 것으로 생각되는 8개의 기능성 그룹을 식별하였다. 이들 8개의 광범위한 기능 각각 내에서, 본 발명자들은 프로모터 스왑 게놈 조작 도구로 표적화할 단일 특정 유전자를 선택하였다.

결과적으로, 실험을 위해 선택된 각각의 대표적인 기능에서 하나씩, 8개의 표적 유전자가 존재한다. (표적 유전자는 도 6 및 실시예 2 참조).

B. 프로모터 래더 생성

프로모터 스왑 과정의 구현에서 또 다른 단계는 "래더" 역할을 할 "x" 프로모터 세트를 선택하는 것이다. 이상적으로 이러한 프로모터는 여러 게놈 유전자좌에 걸쳐 매우 가변적인 발현을 유도하는 것으로 나타났지만, 유일한 요구 사항은 유전자 발현을 어떤 방식으로든 교란시키는 것이다.

일부 실시 양태에서, 이들 프로모터 래더는 관심 표적 유전자와 연관된 천연, 천연 또는 야생형 프로모터를 확인한 다음 상기 프로모터를 돌연변이 / 변경하여 다중 합성 프로모터 서열을 유도함으로써 생성된다. 이들 편집 된 프로모터 각각은 표적 유전자 발현에 대한 효과에 대해 테스트된다.

다른 실시태양에서, 프로모터는 천연 또는 고유 CHO 유전자 프로모터로부터 유래되지 않고 오히려 CHO 세포 게놈에 도입된 이종성 프로모터이다.

일부 실시태양에서, 프로모터는 다양한 조건에 걸쳐 발현 활성에 대해 테스트되어, 각 프로모터의 활성이 문서화/특징화/주석되고 데이터베이스에 저장된다.

이어서, 프로모터는 이들의 발현 강도에 기초하여 배열된 "래더"로 조직화된다(예를 들어, 고도로 발현되는 프로모터가 상단 근처에 있고, 발현이 약화되어 하단 근처에 있으므로 "래더"라는 용어로 이어짐).

C. 래더의 프로모터와 표적 유전자의 연관

프로모터 스왑 과정의 구현에서 또 다른 단계는 특정 표적 유전자와 관련된 프로모터 래더로부터 주어진 프로모터를 포함하는 다양한 CHO 세포의 HTP 조작이다.

천연 프로모터가 표적 유전자 n 앞에 존재하고 그 서열이 알려져 있는 경우, 래더에서 각각의 x 프로모터에 의한 천연 프로모터의 대체가 수행된다.

천연 프로모터가 존재하지 않거나 그 서열이 알려지지 않은 경우, 유전자 n 앞의 래더에서 각각의 x 프로모터의 삽입이 수행된다.

이러한 방식으로, CHO 세포의 라이브러리가 구축되고, 여기서 라이브러리의 각 구성원은 다른 동일한 유전적 맥락에서 n개의 표적 유전자에 작동 가능하게 연결된 x 프로모터의 한 예이다.

D. CHO 세포의 HTP 스크리닝

프로모터 스왑 과정의 마지막 단계는 앞서 언급 한 라이브러리에서 CHO 세포의 HTP 스크리닝이다. 각각의 유래된 세포는 다른 동일한 유전자 배경에서 n개의 표적에 연결된 x 프로모터의 한 예를 나타낸다.

하나 이상의 메트릭에 대한 성능이 특징화되는 시나리오에서 각 세포의 HTP 스크리닝을 구현함으로써, 본 발명자들은 주어진 메트릭에 대해 가장 유익한 프로모터/표적 유전자 연관성을 결정할 수 있다(예를 들어, 치료 단백질의 생산 최적화).

실시예 2 : 경로 항체 발현 의존성을 탐색하기 위한 프로모터 스왑 라이브러리의 특정 구현

본 연구는 CHO 세포에서 항체 발현을 개선하기 위해 HTP 프로모터 스왑 게놈 조작 도구를 사용한다. 프로모터 스왑 도구는 경로와 단백질 발현 및 품질 간의 관계를 명확하게 식별하는 데 사용된다.

표적 유전자 기능과 항체 발현/분비 사이의 관계를 평가하기 위해, 단일 유전자좌가 서로 다른 다수의 균주가 구축된다. 유전자 변화는 다양한 강도의 이종성 프로모터(들), 즉 PROSWAP에 의한 표적 경로의 유전자의 발현을 유도하는 내인성 프로모터의 대체를 필요로 한다. 예시적인 실시태양의 다양한 개략도가 도 6-10에서 발견된다.

원하는 변화에 영향을 미치기 위한 전반적인 게놈 편집 접근법은 Cas9 및 sgRNA로 게놈 유전자좌를 표적화하여 원하는 위치에서 게놈을 절단하고, 선별 마커 및 관심 프로모터를 운반하는 DNA 카세트의 해당 유전자좌에 삽입하는 것이다. 다른 CRISPR 시스템, 예를 들어 Cpf1도 사용될 수 있다.

표적 유전자의 CRISPR 지원 PROSWAP를 사용한 CHO 균주의 구축 및 평가는 세 단계로 나눌 수 있다:

단계 I - mAB 생성 클론의 구축 및 분리 ^*

호라이즌 디스커버리(CHO-K1의 유도체)의 인-하우스 균주는 mAb(단클론 항체) 생산 유전자를 암호화하는 GS-벡터로 형질감염된다. 숙주 균주는 기능성 글루타민 합성효소(GS)가 부족하여 글루타민에 대해 영양 요구성이 된다. 선형화된 GS 운반 벡터로 형질감염할 때, 벡터의 무작위 삽입은 글루타민 영양 요구성을 유발하고 불가결한 성분은 글루타민이 없는 상태에서 배양함으로써 분리된다. 선택 압력은 GS의 화학적 억제제인 메티오닌 설폭시민(MSX)으로 배지를 보충함으로써 강화된다.

발현이 용이한 모델(GOI, 예를 들어, 허셉틴, 리툭시맙 등)^**의 중쇄 및 경쇄를 암호화하는 유전자는 GS 벡터에 복제되어 안정한 세포 풀을 생성하는 mAb를 수득한다. 안정하게 선택된 풀은 분비 된 항체 및 풀 성장 특성에 대해 여기서 평가됩니다. 일반적으로, IgG1 및 IgG4는 다른 부류에 비해 구조가 비교적 단순하기 때문에 발현하기 가장 쉬운 항체 부류이다. 그러나, 본 발명은 임의의 항체 부류에 적용 가능하다. 도 10에서, 원래의 CHO 세포주는 열린 원으로 표시되고 GOI를 발현하는 안정된 형질감염된 CHO 세포주는 내부가 선으로 채워진 원으로 표시된다.

CHO 세포의 큰 클론 대 클론 가변성으로 인해, 안정적으로 형질감염된 풀이 복제되고 생산에 대해 개별적으로 평가된다. 이 단계에서 표현형 평가는 mAb 역가, 글리코실화 패턴, 세포 성장, 배양 중 생존 패턴, 세포 밀도 및 특정 생산성(pg mAb/세포/일)을 포함한다.

또 다른 우려는 발현의 안정성이며, 따라서 클론은 여러 세대(12-50세대) 동안 배양하여 안정성을 평가한다. 발현 안정성에 대한 확률은 일반적으로 배양 중에 선택 압력(+MSX)을 유지함으로써 증가될 수 있다.

일부 실시태양에서, 항체 중쇄 및 경쇄 유전자는 FRT(또는 LoxP) 부위에 의해 플랭킹될 수 있다. 이러한 재조합 부위를 사용하여, 항체 유전자는 특정 FLP(또는 Cre) 재조합 효소에 의해 나중에 루프될 수 있으며, 항체 유전자가 없는 CHO 숙주를 생성하지만, 특정 게놈 유전자좌("랜딩 패드(landing pads)"라고 함)에서 FRT(또는 LoxP) 재조합 부위를 가진다. 향후 프로젝트를 위해, 다른 항체에 대한 중쇄 및 경쇄 유전자를 특정 랜딩 패드에 통합하기 위해 표적화될 수 있으며, 이는 불가결한 성분의 스크리닝 동안 필요한 시간과 노력을 줄일 수 있다.

단계 II - 표적 경로 유전자의 CRISPR 지원 프로모터 스왑

단백질 발현에 영향을 미칠 것으로 예상되는 표 6에 열거된 기능을 갖는 분자를 암호화하는 유전자는 프로모터 스왑 절차를 위해 표적화된다. 이 표는 또한 초기 POC 연구를 대상으로 하는 특정 유전자를 나열한다.

이들 표적 경로 유전자는 HTP 프로모터 스왑 게놈 조작 도구로 조절되고, 단계 I로부터 상기한 삽입된 GOI에 대한 이러한 유전자 조절의 효과가 평가된다. 도 10은 실시예의 개략도를 제공하며, 프로모터 래더(높음, 중간, 낮음)가 아래의 8개 표적 경로 유전자 각각에 작동 가능하게 연결되어, 24개의 고유한 CHO 세포주를 생성한다. 이러한 세포주는 고유한 프로모터:유전자 표적 요소를 제외하고는, 유전적으로 동일한 것으로 간주된다.

GOI(즉, 치료 단백질, 항체)에 대한 효과의 평가는 유전자 섭동이 Ab의 발현을 부정적으로 방해하지 않는다는 것을 보장하기 위해 역가, N-말단 절단, 글리코실화 등과 같은 다수의 Ab 표현형 특징화를 수반한다.

표적 유전자

기능	표적 유전자	대체 유전자
분비/단백질 수송	SRP14	SRP9, SRP54
스트레스	XBP-1	bcl-2, IGF1
글리코실화	COSMC	FUT8
세포자멸사	BCL2	BAK
접히지 않은 단백질 반응	ATF6	PERK, IRE1α
단백질 접힘(예를 들어, 샤페론)	BiP/ GRP78 (HSP70)
ER-관련 분해	Dnajb9 (ERdj4/ HSP40)
대사/에너지	LDHA

CRISPR 매개 통합 카세트 벡터는 다음 부분으로 이루어진다^*

폴리아데닐화 신호가 뒤따르는 마커 1의 발현을 유도하는 프로모터. HDR을 통해 표적 유전자좌로의 표적 통합에 대한 5' 상동성 서열. 상동성 길이는 일반적으로 100-3000bp 사이에서 변할 수 있다. POC 연구에서, 상동성 길이는 약 1000bp를 목표로 한다.

(선택적) 별도의 프로모터에 의해 구동되고 자체 폴리아데닐화 신호가 뒤따르는 마커 2 및 3, 양성 불가결한 요소에 대해 선택하는 네오마이신 저항성 마커. 일부 실시태양에서, 이러한 마커는 FRT 또는 LoxP 부위에 의해 플랭킹될 수 있고, 이는 이러한 마커를 루프 아웃하기 위해 나중 단계에서 사용될 수 있다.

조절될 표적 유전자에 선행하는 PROSWAP에 대한 프로모터 4(고/중/저 강도).

HDR을 통한 표적 유전자좌로의 표적 통합에 대한 3' 상동성 서열. 상동성 길이는 일반적으로 100-3000bp 사이에서 변할 수 있다. POC 연구에서, 상동성 길이는 약 1000bp를 목표로 한다.

마커 1 및 2는 바람직하게는 세포를 구별할 수있는 형광 마커(GFP/RFP/mCHERRY/BFP/YFP)이다.

오프 타겟 삽입은 마커 1과 2를 모두 유지하는 반면, 원하는 온 타겟 삽입은 마커 2만을 유지한다.

마커 3은 바람직하게는 이종성 카세트의 성공적인 통합으로 세포의 성장만을 허용하는 항생제 선택 마커(네오마이신/퓨로마이신/블라스티시딘/하이그로마이신)이다.

프로모터 4는 그 발현을 조절하기 위해 표적 유전자의 상류에 삽입된다. 프로모터 4는 높음, 중간 또는 낮은 강도일 수 있다(예를 들어, CMV>EF1α>SV40>RSV>PGK 상대 강도 순서, 표 2 및 도 9 참조).

일부 실시태양에서, 표적 유전자의 발현을 완전히 제거하기 위해, 프로모터 4 또는 리보솜 결합 부위 또는 번역 개시 신호가 통합 카세트에서 생략된다. 또한, 상기한 바와 같이, 표적 유전자의 완전한 녹아웃이 활용될 수 있거나 표적 유전자 전사가 CRISPRi 또는 RNAi와 같은 간섭 기술로 심하게 억제될 수 있다. 폴리아데 닐화 서열은 SV40, hGH, BGH 및 rbGlob에서 선택될 수 있다.

mAB 생성 CHO 세포 클론은 i) 표적 유전자좌에서 게놈 DNA를 절단하는 Cas9 및 sgRNA 운반 벡터 및 ii) 관심 프로모터와 함께 양성 및 음성 마커를 운반하는 상기 통합 벡터로 형질 감염된다. 상기한 바와 같이, Cpf1 또는 기타 적절한 CRISPR 엔도뉴클레아제가 사용될 수 있다. 형질감염체는 네오마이신이 있거나 없는 배지에서 96 웰 플레이트(표적 당 1-10개 플레이트)에 1000-5000개 세포/웰의 밀도로 시드되고 37C 인큐베이터에서 배양된다. GS(및 mAB) 벡터에 대한 MSX 선택은 세포에 다중 선택 압력을 부과하지 않도록 이 단계에서 생략된다.

CRISPR 효율은 가변적이고 유전자좌 의존적일 것으로 예상된다. 생성된 콜로니(즉, 미니풀)는 먼저 형광에 대해 스크리닝되고, 마커 2가 있는 콜로니만 접합 부위의 PCR-증폭 및 PCR 생성물의 생거 시퀀싱을 사용하여 표적 유전자좌에서 통합을 위해 추가로 스크리닝다(예를 들어, 적색 형광, GFP 등). PCR용 프라이머는 통합 카세트의 외부 또는 내부에 결합하도록 디자인될 수 있다.

선택적으로, 정확한 통합을 갖는 미니풀은 mAb 역가, 글리코실화 패턴, 세포 성장, 배양 중 생존 패턴, 세포 밀도 및 특정 생산성(pg mAb/세포/일)에 대해 평가된다.

도 7a, 도 7b 및 도 7c는 상기한 실험 구조체의 예시로서 참조될 수 있고 HTP 프로모터 스왑 게놈 조작 도구를 구현하는 다양한 실시태양을 묘사할 수 있다. 표적 유전자를 둘러싼 DNA 영역은 CRISPR(또는 유사한) 유전자 편집 접근법을 사용하여 sgRNA에 의해 선택적으로 절단된다. 표적 유전자의 상류는 상동성 지정 복구 메커니즘을 통해 프로모터 4로 대체된다. 프로모터 대체 카세트는 다양한 부분으로 구성될 수 있으며, 예를 들어, 도 7a에서 구조체는 3개의 마커를 운반한다. 마커 1은 상동 영역 밖에 있으며 표적 통합 중에 손실된다. 오프 타겟 통합에 대한 네거티브 선택/스크리닝 마커로 사용된다. 마커 2와 3은 표적 유전자좌에서 성공적으로 통합되었을 때 유지되며 신속한 표현형 분석을 위해 선별(형광) 및 선택(항생제 내성)에 별도로 사용될 수 있다. 도 7b에서, 구조체는 오프 타겟 통합에 대한 부정적인 선택/스크리닝 마커만 전달한다. 표적 유전자좌에는 양성 마커가 통합되어 있지 않아서, 소정의 균주에서 여러 유전자를 순차적으로 표적화할 수 있다. 양성 마커가 없는 경우, 더 광범위한 유전형 분석이 수행되어 올바르게 통합된 클론을 분리한다. 그리고 도 7c에서, 구조체는 2개의 양성 마커 2 및 3 주위에 FRT 또는 LoxP 재조합 부위의 추가 특징을 갖는 도 7a 실시태양의 것과 유사하다. 이러한 재조합 부위의 존재는 영역을 내부에서 선택적으로 루프-아웃하는 데 사용될 수 있다. 이것은 이러한 마커를 재활용하고 소정의 균주에서 여러 표적 유전자의 순차적 조작을 가능하게 한다.

단계 III - PROSWAP 미니풀 복제 및 개별 클론 평가

미니풀 배양물을 연속 희석하고, 단일 세포 클론을 분리하기 위해 0.3 세포/웰의 세포 밀도로 96웰 플레이트(미니풀당 1-2개)를 시드하는 데 사용된다. 클론형성능 증명(The proof-of-clonality)은 솔렌팀(Solentim)(또는 유사한) 장치에 의한 각 웰의 이미징이 필요하다.

96웰 플레이트에서 성장한 후, 콜로니는 확장되고, 뱅킹하고, mAb 역가, 글리코실화 패턴, 세포 성장, 배양 중 생존 패턴, 세포 밀도 및 비생산성(pg mAb/세포/일)을 포함하는 생리학적 특성에 대해 평가된다. 단백질 테스트 및 특성화 모듈(도 1 참조)은 유전자 섭동이 Ab의 특성에 부정적인 영향을 미치지 않도록 보장하는 데 중요하다.

CRISPR 표적화된 변화의 안정성은 또한 가변적일 것으로 예상되며, 따라서 최고 유망 클론은 ~ 60세대 동안 연속 배양한 다음 표적 유전자좌에서 유전형 분석 및 mAB 분비에 대한 생산성 평가를 통해 모니터된다.

마커 2 및 3이 FRT(또는 LoxP) 부위가 플랭킹되는 실시태양에서, FLP-재조합 효소(또는 Cre 재조합 효소)를 운반하는 벡터로 두 번째 형질감염을 수행한 다음, 마커 2(및 마커 3)를 상실한 형질감염체에 대한 형광 스크리닝이 수행될 수 있다. 이러한 마커 없는 클론은 나중에 여러 유전자 표적의 순차적 PROSWAP에 사용될 수 있다.

주해: ^*이 접근법은 가장 빠른 변형 구성 및 평가를 위해 디자인되었다. 이 접근법을 사용하여 생성된 세포는 다른 프로젝트/항체에 대해 있는 그대로 사용될 수 없다. RFP(형광) 및 네오마이신(선택) 마커는 POC 실험 중에 선택을 단순화하기 위해서만 포함된다. 이러한 2개의 마커는 일부 실시태양에서 생략될 수 있으며, 이는 CRISPR 효율이 넓은 범위(1-60%)에 걸쳐 변할 것으로 예상되므로 정확하게 통합 된 미니풀/클론을 동정하기 위해 나중의 유전자형 분석에서 더 많은 자원을 필요로 할 것이다. 특정 실시태양에서, 상기 개략된 바와 같이, 이들 마커는 FRP 또는 LoxP 재조합 부위에 의해 플랭킹될 수 있으며, 이는 FLP 또는 LoxP 재조합 부위에서 마커를 루프아웃하기 위해 특정 재조합 효소(FLP 또는 Cre 재조합 효소)에 의한 다른 형질 감염을 필요로 할 것이다. ^**흐름도는 자동화될 수 있고 여러 항체에 대해 병렬로 수행될 수 있다.

실시예 3: 프로모터 스왑 라이브러리의 통합 및 다중 인자 조합 테스트

이 실시예에서, 실시예 2에서 숙주 성능에 긍정적인 영향을 미치는 것으로 동정된 프로모터 스왑은 2차 조합으로 새로운 라이브러리로 통합된다.

소정의 프로모터:유전자 조합을 통합하기 위한 결정은 관심 매개 변수, 예를 들어 mAb 역가, 글리코실화 패턴, 세포 성장, 배양 중 생존 패턴, 세포 밀도 및 특이적 생산성(pg mAb/세포/일)을 포함하는 생리학적 특성 및 조합이 추가, 시너지 또는 비 독성 효과를 생성할 가능성에 대한 전반적인 긍정적 효과를 기초로 한다.

서열 파일에서 서열의 목록

SEQ ID NO	설명
1	CMV 프로모터
2	EF1α 프로모터
3	SV40 프로모터
4	RSV 프로모터
5	PGK 프로모터
6	XP_003503464.1 SRP14 표적 유전자 암호화 단백질
7	NP_001230978.1 XBP-1 표적 유전자 암호화 단백질
8	XP_007622335.1 COSMC (C1GALT1) 표적 유전자 암호화 단백질
9	XP_007640773.1 BCL2 표적 유전자 암호화 단백질
10	XP_007625847.2 ATF6 표적 유전자 암호화 단백질
11	NP_001233668.1 BiP/ GRP78 (HSP70) 표적 유전자 암호화 단백질
12	XP_003498044.2 Dnajb9 (ERdj4/ HSP40) 표적 유전자 암호화 단백질
13	XP_007648110.1 LDHA 표적 유전자 암호화 단백질
14	RFP 마커 핵산
15	RFP 마커 단백질
16	Ds-Red2 마커 핵산
17	Ds-Red2 마커 단백질
18	eGFP 마커 핵산
19	eGFP 마커 단백질
20	mCHerry 마커 핵산
21	mCHerry 마커 단백질
22	퓨로마이신 저항 마커 핵산
23	퓨로마이신 저항 마커 단백질
24	네오마이신 저항 마커 핵산
25	네오마이신 저항 마커 단백질
26	블라스티시딘 저항 마커 핵산
27	블라스티시딘 저항 마커 단백질
28	하이그로마이신 저항 마커 핵산
29	하이그로마이신 저항 마커 단백질
30	eYFP 마커 핵산
31	eYFP 마커 단백질
32	TagBFP 마커 핵산
33	TagBFP 마커 단백질
34	Cre 재조합효소 마커 핵산
35	Cre 마커 단백질
36	FLP 재조합효소 마커 핵산
37	FLP 재조합효소 마커 단백질
38	SV40 pA (폴리 A 영역)
39	hGH pA (폴리 A 영역)
40	BGH pA (폴리 A 영역)
41	rbGlob pA (폴리 A 영역)
42	HSV TH pA (폴리 A 영역)
43	PGK pA (폴리 A 영역)
44	SRP14 5' 상동성 영역
45	XBP-1 5' 상동성 영역
46	COSMC (C1GALT1) 5' 상동성 영역
47	BCL2 5' 상동성 영역
48	ATF6 5' 상동성 영역
49	BiP/ GRP78 (HSP70) 5' 상동성 영역
50	Dnajb9 (ERdj4/ HSP40) 5' 상동성 영역
51	LDHA 5' 상동성 영역
52	SRP14 3' 상동성 영역
53	XBP-1 3' 상동성 영역
54	COSMC (C1GALT1) 3' 상동성 영역
55	BCL2 3' 상동성 영역
56	ATF6 3' 상동성 영역
57	BiP/ GRP78 (HSP70) 3' 상동성 영역
58	Dnajb9 (ERdj4/ HSP40) 3' 상동성 영역
59	LDHA 3' 상동성 영역
60	FRT 재조합 부위
61	LoxP 재조합 부위

본 발명의 추가 실시태양

본 발명에 의해 고려된 다른 주제는 이하의 번호를 매긴 실시태양에서 기술된다:

1. 다음을 포함하는 면역글로불린 발현 세포 경로 의존성을 탐색하기 위한 HTP 방법:

a. 숙주 세포에 내인성인 세포 경로 표적 유전자 및 상이한 발현 프로파일을 나타내는 복수의 프로모터를 포함하는 프로모터 래더를 제공하는 단계;

b. 복수의 숙주 세포를 포함하는 초기 프로모터 스왑 숙주 세포 라이브러리를 생성하기 위해 숙주 세포의 게놈을 조작하는 단계로서, 여기서 복수의 숙주 세포는 표적 유전자에 작동 가능하게 연결된 프로모터 래더와 상이한 프로모터를 포함하는 개별 숙주 세포를 포함하는 것인 단계; 및

c. 관심 면역글로불린 및/또는 숙주 세포의 표현형 특징에 대해 초기 프로모터 스왑 숙주 세포 라이브러리의 세포를 스크리닝하는 단계

2. 실시태양 1의 방법, 여기서 숙주 세포는 포유류 세포이다.

3. 실시태양 1의 방법, 여기서 숙주 세포는 뮤린 세포이다.

4. 실시태양 1의 방법, 여기서 숙주 세포는 중국 햄스터 난소 세포이다.

5. 실시태양 1의 방법, 여기서 표적 유전자는 분비, 단백질 수송, 스트레스, 글리코 실화, 아폽토시스, 펼쳐진 단백질 반응, 단백질 접힘, ER-관련 분해 및 대사로 이루어진 그룹으로부터 선택된 세포 경로이다.

6. 실시태양 1의 방법, 여기서 표적 유전자는 SRP14, SRP9, SRP54, XBP-1, bcl-2, IGF1, COSMC, FUT8, BCL2, BAK, ATF6, PERK, IRE1α, BiP/GRP78(HSP70), Dnajb9 (ERdj4/HSP40) 및 LDHA로 이루어진 그룹으로부터 선택된다.

7. 실시태양 1의 방법, 여기서 프로모터 래더는 CMV, EF1α, SV40, RSV 및 PGK로 이루어진 그룹으로부터 선택된 적어도 2개의 프로모터를 포함한다.

8. 실시태양 1의 방법, 여기서 프로모터 래더는 SEQ ID NOs 1-5로 이루어진 그룹으로부터 선택된 적어도 2개의 프로모터를 포함한다.

9. 실시태양 1의 방법, 여기서 면역글로불린은 IgG, IgM, IgA, IgE 및 IgD로 이루어진 그룹으로부터 선택된다.

10. 실시태양 1의 방법, 여기서 면역글로불린은 IgG1, IgG2, IgG3 및 IgG4로 이루어진 그룹으로부터 선택된다.

11. 실시태양 1의 방법, 여기서 숙주 세포의 게놈을 조작하는 단계는 CRISPR 호환 가능한 엔도뉴클레아제 및 관련 gRNA를 사용하여 표적 유전자의 상류에서 숙주 세포 게놈을 표적화하고 절단하는 것을 포함한다.

12. 실시태양 1의 방법, 여기서 숙주 세포의 게놈을 조작하는 단계는 CRIPSR 호환 가능한 엔도뉴클레아제 및 관련 gRNA를 사용하여 표적 유전자의 상류에서 숙주 세포 게놈을 표적화하고 절단하고 상동성 재조합을 통해 프로모터 래더로부터 프로모터를 삽입하는 것을 포함한다.

13. 실시태양 1의 방법, 여기서 관심 면역글로불린의 표현형 특징에 대한 초기 프로모터 스왑 숙주 세포 라이브러리의 세포를 스크리닝하는 단계는 관심 면역글로불린의 역가, N-말단 절단 및/또는 글리코실화 패턴을 확인하거나 특징화하는 것을 포함한다.

14. 실시태양 1의 방법, 여기서 숙주 세포의 표현형 특징에 대한 초기 프로모터 스왑 숙주 세포 라이브러리의 세포를 스크리닝하는 단계는 세포 성장, 배양 중 세포 생존성 패턴, 세포 밀도 및 일당 세포당 생산된 면역글로불린의 세포 특이적 생산성을 확인하거나 특징화하는 것을 포함한다.

15. 실시태양 1의 방법, 여기서 하나 이상의 세포 경로 표적 유전자가 제공된다.

16. 실시태양 1의 방법, 여기서 단계 a)-c)가 반복된다.

17. d) 각각이 이전 단계에서 스크리닝된 적어도 2개의 개별 숙주 세포에 존재하는 유전자 변이로부터 선택된 고유한 조합의 유전자 변이를 포함하는 후속 복수의 숙주 세포를 제공하여 후속 프로모터 스왑 숙주 세포 라이브러리를 생성하는 단계를 추가로 포함하는 것인 실시태양 1의 방법.

18. d) 각각이 이전 단계에서 스크리닝된 적어도 2개의 개별 숙주 세포에 존재하는 유전자 변이로부터 선택된 고유한 조합의 유전자 변이를 포함하는 후속 복수의 숙주 세포를 제공하여 후속 프로모터 스왑 숙주 세포 라이브러리를 생성하는 단계; 및

e) 관심 면역글로불린 및/또는 숙주 세포의 표현형 특징에 대해 후속 프로모터 스왑 숙주 세포 라이브러리의 개별 숙주 세포를 스크리닝하는 단계를 추가로 포함하는 것인 실시태양 1의 방법.

19. d) 각각이 이전 단계에서 스크리닝된 적어도 2개의 개별 숙주 세포에 존재하는 유전자 변이로부터 선택된 고유한 조합의 유전자 변이를 포함하는 후속 복수의 숙주 세포를 제공하여 후속 프로모터 스왑 숙주 세포 라이브러리를 생성하는 단계;

e) 관심 면역글로불린 및/또는 숙주 세포의 표현형 특징에 대해 후속 프로모터 스왑 숙주 세포 라이브러리의 개별 숙주 세포를 스크리닝하는 단계; 및

f) 단계 d)-e)를 1회 이상 반복하는 단계를 추가로 포함하는 것인 실시태양 1의 방법.

20. 실시태양 1의 방법에 의해 유래된 숙주 세포 집단.

21. a. 숙주 세포에 내인성인 세포 경로 표적 유전자 및 상이한 발현 프로파일을 나타내는 복수의 프로모터를 포함하는 프로모터 래더를 제공하는 단계;

b. 복수의 숙주 세포를 포함하는 초기 프로모터 스왑 숙주 세포 라이브러리를 생성하기 위해 숙주 세포의 게놈을 조작하는 단계로서, 여기서 각 세포는 표적 유전자에 작동 가능하게 연결된 프로모터 래더와 상이한 프로모터를 포함하는 것인 단계; 및

c. 관심 생성물 및/또는 숙주 세포의 표현형 특징에 대해 초기 프로모터 스왑 숙주 세포 라이브러리의 세포를 스크리닝하는 단계를 포함하는 것인 관심 생성물의 발현을 개선하기 위한 HTP 방법.

22. 실시태양 21의 방법, 여기서 숙주 세포는 포유류 세포이다.

23. 실시태양 21의 방법, 여기서 숙주 세포는 뮤린 세포이다.

24. 실시태양 21의 방법, 여기서 숙주 세포는 중국 햄스터 난소 세포이다.

25. 실시태양 21의 방법, 여기서 표적 유전자는 분비, 단백질 수송, 스트레스, 글리코 실화, 아폽토시스, 펼쳐진 단백질 반응, 단백질 접힘, ER-관련 분해 및 대사로 이루어진 그룹으로부터 선택된 기능을 가진 분자를 암호화한다.

26. 실시태양 21의 방법, 여기서 표적 유전자는 SRP14, SRP9, SRP54, XBP-1, bcl-2, IGF1, COSMC, FUT8, BCL2, BAK, ATF6, PERK, IRE1α, BiP/GRP78(HSP70), Dnajb9 (ERdj4/HSP40) 및 LDHA로 이루어진 그룹으로부터 선택된 분자를 암호화한다.

27. 실시태양 21의 방법, 여기서 프로모터 래더는 CMV, EF1α, SV40, RSV 및 PGK로 이루어진 그룹으로부터 선택된 적어도 2개의 프로모터를 포함한다.

28. 실시태양 21의 방법, 여기서 프로모터 래더는 SEQ ID NOs 1-5로 이루어진 그룹으로부터 선택된 적어도 2개의 프로모터를 포함한다.

29. 실시태양 21의 방법, 여기서 관심 생성물은 단백질이다.

30. 실시태양 21의 방법, 관심 생성물은 면역글로불린이다.

31. 실시태양 21의 방법, 여기서 관심 생성물은 IgG, IgM, IgA, IgE 및 IgD로 이루어진 그룹으로부터 선택된다.

32. 실시태양 21의 방법, 여기서 관심 생성물은 IgG1, IgG2, IgG3 및 IgG4로 이루어진 그룹으로부터 선택된다.

33. 실시태양 21의 방법, 여기서 숙주 세포의 게놈을 조작하는 단계는 CRISPR 호환 가능한 엔도뉴클레아제 및 관련 gRNA를 사용하여 표적 유전자의 상류에서 숙주 세포 게놈을 표적화하고 절단하는 것을 포함한다.

34. 상동성 재조합을 통해 프로모터 래더로부터의 프로모터를 삽입하는 단계를 추가로 포함하는 것인 실시태양 33의 방법.

35. 실시태양 21의 방법, 여기서 관심 면역글로불린의 표현형 특징에 대한 초기 프로모터 스왑 숙주 세포 라이브러리의 세포를 스크리닝하는 단계는 관심 면역글로불린의 역가, N-말단 절단 및/또는 글리코실화 패턴을 확인하거나 특징화하는 것을 포함한다.

36. 실시태양 21의 방법, 여기서 숙주 세포의 표현형 특징에 대한 초기 프로모터 스왑 숙주 세포 라이브러리의 세포를 스크리닝하는 단계는 세포 성장, 배양 중 세포 생존성 패턴, 세포 밀도 및 일당 세포당 생산된 면역글로불린의 세포 특이적 생산성을 확인하거나 특징화하는 것을 포함한다.

37. 실시태양 21의 방법, 여기서 하나 이상의 세포 경로 표적 유전자가 제공된다.

38. 실시태양 21의 방법, 여기서 단계 a)-c)가 반복된다.

39. d. 각각이 이전 단계에서 스크리닝된 적어도 2개의 개별 숙주 세포에 존재하는 유전자 변이로부터 선택된 고유한 조합의 유전자 변이를 포함하는 후속 복수의 숙주 세포를 제공하여 후속 프로모터 스왑 숙주 세포 라이브러리를 생성하는 단계를 추가로 포함하는 것인 실시태양 21의 방법.

40. d. 각각이 이전 단계에서 스크리닝된 적어도 2개의 개별 숙주 세포에 존재하는 유전자 변이로부터 선택된 고유한 조합의 유전자 변이를 포함하는 후속 복수의 숙주 세포를 제공하여 후속 프로모터 스왑 숙주 세포 라이브러리를 생성하는 단계; 및

e. 관심 면역글로불린 및/또는 숙주 세포의 표현형 특징에 대해 후속 프로모터 스왑 숙주 세포 라이브러리의 개별 숙주 세포를 스크리닝하는 단계를 추가로 포함하는 것인 실시태양 21의 방법.

41. d. 각각이 이전 단계에서 스크리닝된 적어도 2개의 개별 숙주 세포에 존재하는 유전자 변이로부터 선택된 고유한 조합의 유전자 변이를 포함하는 후속 복수의 숙주 세포를 제공하여 후속 프로모터 스왑 숙주 세포 라이브러리를 생성하는 단계;

e. 관심 면역글로불린 및/또는 숙주 세포의 표현형 특징에 대해 후속 프로모터 스왑 숙주 세포 라이브러리의 개별 숙주 세포를 스크리닝하는 단계; 및

f. 단계 d)-e)를 1회 이상 반복하는 단계를 추가로 포함하는 것인 실시태양 21의 방법.

42. 실시태양 21의 방법에 의해 유래된 숙주 세포 집단.

43. 실시태양 42의 숙주 세포 집단으로부터의 숙주 세포에 의해 생산된 관심 생성물.

본 발명에 인용된 모든 참고문헌, 기사, 간행물, 특허, 특허 간행물 및 특허 출원은 모든 목적을 위해 그 전문이 참조로 포함된다. 그러나 본 발명에 언급된 모든 참고문헌, 기사, 출판물, 특허, 특허 간행물 및 특허 출원은 세계 어느 나라에서든 유효한 선행 기술을 구성하거나 보통의 일반 지식의 일부를 구성한다는 인정 또는 어떠한 형태의 제안으로 간주되어서는 안 된다. 이를 위해, 미국 출원 번호 15/396,230(미국 공개 번호 US 2017/0159045 A1), 미국 출원 번호 15/140,296(미국 공개 번호 US 2017/0316353 A1) 및 PCT/US2016/065464(WO 2017/100376 A2)는 모두 본 발명에 참조로 포함된다.

SEQUENCE LISTING <110> Zymergen Inc. <120> A HTP PLATFORM FOR THE GENETIC ENGINEERING OF CHINESE HAMSTER OVARY CELLS <130> ZYMR-024/01WO 327574-2112 <150> US 62/645,708 <151> 2018-03-20 <160> 61 <170> PatentIn version 3.5 <210> 1 <211> 508 <212> DNA <213> Cytomegalovirus sp. <400> 1 cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60 gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc attgacgtca 120 atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt atcatatgcc 180 aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt atgcccagta 240 catgacctta tgggactttc ctacttggca gtacatctac gtattagtca tcgctattac 300 catggtgatg cggttttggc agtacatcaa tgggcgtgga tagcggtttg actcacgggg 360 atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc aaaatcaacg 420 ggactttcca aaatgtcgta acaactccgc cccattgacg caaatgggcg gtaggcgtgt 480 acggtgggag gtctatataa gcagagct 508 <210> 2 <211> 1179 <212> DNA <213> Homo sapiens <400> 2 ggctccggtg cccgtcagtg ggcagagcgc acatcgccca cagtccccga gaagttgggg 60 ggaggggtcg gcaattgaac cggtgcctag agaaggtggc gcggggtaaa ctgggaaagt 120 gatgtcgtgt actggctccg cctttttccc gagggtgggg gagaaccgta tataagtgca 180 gtagtcgccg tgaacgttct ttttcgcaac gggtttgccg ccagaacaca ggtaagtgcc 240 gtgtgtggtt cccgcgggcc tggcctcttt acgggttatg gcccttgcgt gccttgaatt 300 acttccacct ggctgcagta cgtgattctt gatcccgagc ttcgggttgg aagtgggtgg 360 gagagttcga ggccttgcgc ttaaggagcc ccttcgcctc gtgcttgagt tgaggcctgg 420 cctgggcgct ggggccgccg cgtgcgaatc tggtggcacc ttcgcgcctg tctcgctgct 480 ttcgataagt ctctagccat ttaaaatttt tgatgacctg ctgcgacgct ttttttctgg 540 caagatagtc ttgtaaatgc gggccaagat ctgcacactg gtatttcggt ttttggggcc 600 gcgggcggcg acggggcccg tgcgtcccag cgcacatgtt cggcgaggcg gggcctgcga 660 gcgcggccac cgagaatcgg acgggggtag tctcaagctg gccggcctgc tctggtgcct 720 ggcctcgcgc cgccgtgtat cgccccgccc tgggcggcaa ggctggcccg gtcggcacca 780 gttgcgtgag cggaaagatg gccgcttccc ggccctgctg cagggagctc aaaatggagg 840 acgcggcgct cgggagagcg ggcgggtgag tcacccacac aaaggaaaag ggcctttccg 900 tcctcagccg tcgcttcatg tgactccacg gagtaccggg cgccgtccag gcacctcgat 960 tagttctcga gcttttggag tacgtcgtct ttaggttggg gggaggggtt ttatgcgatg 1020 gagtttcccc acactgagtg ggtggagact gaagttaggc cagcttggca cttgatgtaa 1080 ttctccttgg aatttgccct ttttgagttt ggatcttggt tcattctcaa gcctcagaca 1140 gtggttcaaa gtttttttct tccatttcag gtgtcgtga 1179 <210> 3 <211> 281 <212> DNA <213> Simian virus 40 <400> 3 tgtgtcagtt agggtgtgga aagtccccag gctccccagc aggcagaagt atgcaaagca 60 tgcatctcaa ttagtcagca accaggtgtg gaaagtcccc aggctcccca gcaggcagaa 120 gtatgcaaag catgcatctc aattagtcag caaccatagt cccgccccta actccgccca 180 tcccgcccct aactccgccc agttccgccc attctccgcc ccatggctga ctaatttttt 240 ttatttatgc agaggccgag gccgcctctg cctctgagct a 281 <210> 4 <211> 262 <212> DNA <213> Rous sarcoma virus <400> 4 aatgtagtct tatgcaatac tcttgtagtc ttgcaacatg gtaacgatga gttagcaaca 60 tgccttacaa ggagagaaaa agcaccgtgc atgccgattg gtggaagtaa ggtggtacga 120 tcgtgcctta ttaggaaggc aacagacggg tctgacatgg attggacgaa ccactgaatt 180 ccgcattgca gagatattgt atttaagtgc ctagctcgat acaataaacg ccatttgacc 240 attcaccaca ttggtgtgca cc 262 <210> 5 <211> 500 <212> DNA <213> Mus sp. <400> 5 gggtagggga ggcgcttttc ccaaggcagt ctggagcatg cgctttagca gccccgctgg 60 gcacttggcg ctacacaagt ggcctctggc ctcgcacaca ttccacatcc accggtaggc 120 gccaaccggc tccgttcttt ggtggcccct tcgcgccacc ttctactcct cccctagtca 180 ggaagttccc ccccgccccg cagctcgcgt cgtgcaggac gtgacaaatg gaagtagcac 240 gtctcactag tctcgtgcag atggacagca ccgctgagca atggaagcgg gtaggccttt 300 ggggcagcgg ccaatagcag ctttgctcct tcgctttctg ggctcagagg ctgggaaggg 360 gtgggtccgg gggcgggctc aggggcgggc tcaggggcgg ggcgggcgcc cgaaggtcct 420 ccggaggccc ggcattctgc acgcttcaaa agcgcacgtc tgccgcgctg ttctcctctt 480 cctcatctcc gggcctttcg 500 <210> 6 <211> 110 <212> PRT <213> Cricetulus griseus <400> 6 Met Val Leu Leu Glu Ser Glu Gln Phe Leu Thr Glu Leu Thr Arg Leu 1 5 10 15 Phe Gln Lys Cys Arg Ser Ser Gly Ser Val Tyr Ile Thr Leu Lys Lys 20 25 30 Tyr Asp Gly Arg Thr Lys Pro Thr Pro Arg Lys Ser Ala Val Glu Ser 35 40 45 Val Glu Pro Ala Glu Asn Lys Cys Leu Leu Arg Ala Thr Asp Gly Lys 50 55 60 Arg Lys Ile Ser Thr Val Val Ser Ser Lys Glu Val Asn Lys Phe Gln 65 70 75 80 Met Ala Tyr Ser Asn Leu Leu Arg Ala Asn Met Asp Gly Leu Lys Lys 85 90 95 Arg Asp Lys Lys Asn Lys Ser Lys Lys Thr Lys Pro Ala Gln 100 105 110 <210> 7 <211> 370 <212> PRT <213> Cricetulus griseus <400> 7 Met Val Val Val Ala Ala Ser Pro Ser Ala Ala Thr Ala Ala Pro Lys 1 5 10 15 Val Leu Leu Leu Ser Gly Gln Pro Ala Ala Asp Gly Arg Ala Leu Pro 20 25 30 Leu Met Val Pro Gly Ser Arg Ala Ala Gly Ser Glu Ala Asn Gly Ala 35 40 45 Pro Gln Ala Arg Lys Arg Gln Arg Leu Thr His Leu Ser Pro Glu Glu 50 55 60 Lys Ala Leu Arg Arg Lys Leu Lys Asn Arg Val Ala Ala Gln Thr Ala 65 70 75 80 Arg Asp Arg Lys Lys Ala Arg Met Ser Glu Leu Glu Gln Gln Val Val 85 90 95 Asp Leu Glu Glu Glu Asn Gln Lys Leu Leu Leu Glu Asn Gln Leu Leu 100 105 110 Arg Glu Lys Thr His Gly Leu Val Ile Glu Asn Gln Glu Leu Arg Thr 115 120 125 Arg Leu Gly Met Asp Val Leu Thr Thr Glu Glu Ala Pro Glu Thr Glu 130 135 140 Ser Lys Gly Asn Gly Val Arg Pro Val Ala Gly Ser Ala Glu Ser Ala 145 150 155 160 Ala Gly Ala Gly Pro Val Val Thr Ser Pro Glu His Leu Pro Met Asp 165 170 175 Ser Asp Thr Val Asp Ser Ser Asp Ser Glu Ser Asp Ile Leu Leu Gly 180 185 190 Ile Leu Asp Lys Leu Asp Pro Val Met Phe Phe Lys Cys Pro Ser Pro 195 200 205 Glu Ser Ala Asn Leu Glu Glu Leu Pro Glu Val Tyr Pro Gly Pro Ser 210 215 220 Ser Leu Pro Ala Ser Leu Ser Leu Ser Val Gly Thr Ser Ser Ala Lys 225 230 235 240 Leu Glu Ala Ile Asn Glu Leu Ile Arg Phe Asp His Val Tyr Thr Lys 245 250 255 Pro Leu Val Leu Glu Ile Pro Ser Glu Thr Glu Ser Gln Thr Asn Val 260 265 270 Val Val Lys Ile Glu Glu Ala Pro Leu Ser Ser Ser Glu Glu Asp His 275 280 285 Pro Glu Phe Ile Val Ser Val Lys Lys Glu Pro Leu Glu Glu Asp Phe 290 295 300 Ile Pro Glu Pro Gly Ile Ser Asn Leu Leu Ser Ser Ser His Cys Leu 305 310 315 320 Lys Pro Ser Ser Cys Leu Leu Asp Ala Tyr Ser Asp Cys Gly Tyr Glu 325 330 335 Gly Ser Pro Ser Pro Phe Ser Asp Met Ser Ser Pro Leu Gly Ile Asp 340 345 350 His Ser Trp Glu Asp Thr Phe Ala Asn Glu Leu Phe Pro Gln Leu Ile 355 360 365 Ser Val 370 <210> 8 <211> 318 <212> PRT <213> Cricetulus griseus <400> 8 Met Leu Ser Glu Ser Ser Ser Phe Leu Lys Gly Val Met Leu Gly Ser 1 5 10 15 Ile Phe Tyr Ala Leu Ile Thr Thr Leu Gly His Ile Arg Ile Gly His 20 25 30 Arg Asn Arg Thr His His His Glu His His His Leu Gln Ala Pro Asn 35 40 45 Lys Glu Asp Ile Ser Lys Ile Ser Ala Ala Glu Arg Met Glu Leu Ser 50 55 60 Lys Ser Phe Arg Val Tyr Cys Ile Val Leu Val Lys Pro Lys Asp Val 65 70 75 80 Ser Leu Trp Ala Ala Val Lys Glu Thr Trp Thr Lys His Cys Asp Lys 85 90 95 Ala Glu Phe Phe Ser Ser Glu Asn Val Lys Val Phe Glu Ser Ile Asn 100 105 110 Val Asp Thr Asp Asp Met Trp Leu Met Met Arg Lys Ala Tyr Lys Tyr 115 120 125 Ala Phe Asp Lys Tyr Lys Glu Gln Tyr Asn Trp Phe Phe Leu Ala Arg 130 135 140 Pro Ser Thr Phe Ala Val Ile Glu Asn Leu Lys Tyr Phe Leu Leu Lys 145 150 155 160 Lys Asp Pro Ser Gln Pro Phe Tyr Leu Gly His Thr Val Lys Ser Gly 165 170 175 Asp Leu Glu Tyr Val Ser Val Asp Gly Gly Ile Val Leu Ser Ile Glu 180 185 190 Ser Met Lys Arg Leu Asn Ser Leu Leu Ser Val Pro Glu Lys Cys Pro 195 200 205 Glu Gln Gly Gly Met Ile Trp Lys Ile Ser Glu Asp Lys Gln Leu Ala 210 215 220 Val Cys Leu Lys Tyr Ala Gly Val Phe Ala Glu Asn Ala Glu Asp Ala 225 230 235 240 Asp Arg Lys Asp Val Phe Asn Thr Lys Ser Val Gly Leu Phe Ile Lys 245 250 255 Glu Ala Met Ser Asn His Pro Asn Gln Val Val Glu Gly Cys Cys Ser 260 265 270 Asn Met Ala Val Thr Phe Asn Gly Leu Thr Pro Asn Gln Met His Val 275 280 285 Met Met Tyr Gly Val Tyr Arg Leu Arg Ala Phe Gly His Val Phe Asn 290 295 300 Asp Ala Leu Val Phe Leu Pro Pro Asn Gly Ser Asp Asn Asp 305 310 315 <210> 9 <211> 203 <212> PRT <213> Cricetulus griseus <400> 9 Met Ala Gln Ala Gly Arg Thr Gly Tyr Asp Asn Arg Glu Ile Val Met 1 5 10 15 Lys Tyr Ile His Tyr Lys Leu Ser Gln Arg Gly Tyr Glu Trp Asp Val 20 25 30 Gly Asp Val Asp Ala Ala Pro Leu Gly Ala Ala Pro Thr Pro Gly Ile 35 40 45 Phe Ser Phe Gln Pro Glu Ser Asn Pro Thr Pro Ala Val His Arg Asp 50 55 60 Met Ala Ala Arg Thr Ser Pro Leu Arg Pro Ile Val Ala Thr Thr Gly 65 70 75 80 Pro Thr Leu Ser Pro Val Pro Pro Val Val His Leu Thr Leu Arg Arg 85 90 95 Ala Gly Asp Asp Phe Ser Arg Arg Tyr Arg Arg Asp Phe Ala Glu Met 100 105 110 Ser Ser Gln Leu His Leu Thr Pro Phe Thr Ala Arg Gly Arg Phe Ala 115 120 125 Thr Val Val Glu Glu Leu Phe Arg Asp Gly Val Asn Trp Gly Arg Ile 130 135 140 Val Ala Phe Phe Glu Phe Gly Gly Val Met Cys Val Glu Ser Val Asn 145 150 155 160 Arg Glu Met Ser Pro Leu Val Asp Asn Ile Ala Leu Trp Met Thr Glu 165 170 175 Tyr Leu Asn Arg His Leu His Thr Trp Ile Gln Asp Asn Gly Gly Trp 180 185 190 Leu Met Cys Ser Glu Asp Ser Ala Ser Pro Gln 195 200 <210> 10 <211> 766 <212> PRT <213> Cricetulus griseus <400> 10 Met Thr Leu Ser Val Thr Thr Ser Leu Ala Gly Ser Val Gly Ala Thr 1 5 10 15 Arg Asn Gln Pro Arg Asp Ile Gly Ser Pro Cys Cys His Ala Arg Leu 20 25 30 Gly Glu Ala Gly Val Gly Asn Phe Leu Val Ala Asp Pro Gly Val Ile 35 40 45 Ala Leu Gln Gln Met Thr Ala Asn Leu Trp Ala Ser Pro Phe Ala Ser 50 55 60 Ala Arg Pro Pro Ser Val Ser Val Pro Gln Ile Leu Ser Ala Gly Arg 65 70 75 80 Arg Arg Phe Gly Leu Leu Thr Asp Pro Ser Ser Glu Gly Glu Ala Ser 85 90 95 Val Trp Arg Lys Pro Ala Gly Ala Ala Gly Thr Met Glu Ser Pro Phe 100 105 110 Ser Pro Gly Phe Pro His Gly Pro Glu Glu Asp Trp Glu Ser Thr Leu 115 120 125 Phe Ala Glu Leu Gly Tyr Phe Thr Asp Asn Asp Glu Val Gln Phe Asp 130 135 140 Ala Ala Asn Glu Thr Tyr Glu Asn Asn Phe Asp His Leu Asn Phe Asp 145 150 155 160 Leu Asp Leu Met Pro Trp Glu Ser Asp Ile Trp Ser Ser Ser Ser His 165 170 175 Phe Cys Ser Val Lys Asp Ile Lys Ala Glu Pro Gln Pro Leu Ser Pro 180 185 190 Ala Ser Ser Ser Cys Ser Val Ser Ser Pro Arg Ser Val Asp Ser Cys 195 200 205 Ser Ser Thr Gln His Val Pro Glu Glu Leu Asp Leu Ser Ser Ser Ser 210 215 220 Gln Ser Pro Leu Ser Leu Tyr Gly Glu Ser Cys Asn Ser Pro Ser Ser 225 230 235 240 Val Glu Pro Leu Lys Glu Asp Lys Pro Val Ile Gly Pro Gly Asn Lys 245 250 255 Thr Glu His Gly Leu Thr Pro Lys Lys Lys Asn Gln Met Ser Ser Lys 260 265 270 Pro Ser Val Gln Pro Lys Pro Leu Leu Leu Pro Ala Ala Pro Lys Thr 275 280 285 Gln Thr Asn Ala Gly Val Pro Ala Lys Thr Ile Ile Ile Gln Thr Leu 290 295 300 Pro Ala Leu Met Pro Leu Ala Lys Gln Gln Ser Ser Ile Ile Ser Ile 305 310 315 320 Gln Pro Ala Pro Thr Lys Gly Gln Thr Val Leu Leu Ser Gln Pro Ala 325 330 335 Val Val Gln Leu Gln Ala Pro Gly Val Leu Pro Ser Ala Gln Pro Val 340 345 350 Leu Ala Val Ala Gly Gly Ala Thr Gln Leu Pro Asn His Val Val Asn 355 360 365 Val Val Pro Ala Pro Val Val Asn Ser Pro Val Asn Gly Lys Leu Ser 370 375 380 Met Thr Lys Pro Val Leu Gln Ser Thr Thr Arg Ser Val Gly Ser Asp 385 390 395 400 Ile Ala Val Leu Arg Arg Gln Gln Arg Met Ile Lys Asn Arg Glu Ser 405 410 415 Ala Cys Gln Ser Arg Lys Lys Lys Lys Glu Tyr Met Leu Gly Leu Glu 420 425 430 Ala Arg Leu Lys Ala Ala Leu Ser Glu Asn Glu Gln Leu Lys Lys Glu 435 440 445 Asn Gly Ser Leu Lys Arg Gln Leu Asp Glu Val Val Ser Glu Asn Gln 450 455 460 Arg Leu Lys Val Pro Ser Pro Lys Arg Arg Ala Val Cys Val Met Ile 465 470 475 480 Val Leu Ala Phe Ile Met Leu Asn Tyr Gly Pro Met Ser Met Leu Glu 485 490 495 Gln Asp Ser Arg Arg Val Lys Pro Ser Val Asn Pro Ala Asn Gln Arg 500 505 510 Arg His Leu Leu Glu Phe Ser Ala Lys Glu Val Glu Asp Thr Ser Asp 515 520 525 Asp Ile Asn Gln Lys Asn Ser Tyr Arg Tyr Asp His Ser Val Ser Asn 530 535 540 Asp Lys Ala Leu Met Val Leu Thr Glu Glu Pro Leu Leu Tyr Ile Pro 545 550 555 560 Pro Pro Pro Cys Gln Pro Leu Ile Asn Thr Thr Glu Ser Leu Arg Leu 565 570 575 Asn His Glu Leu Arg Gly Trp Val His Arg His Glu Val Glu Arg Thr 580 585 590 Lys Ser Arg Arg Met Ile Asn Asn Gln Gln Lys Thr Arg Ile Leu Gln 595 600 605 Gly Ala Leu Glu Gln Gly Ser Asn Ser Gln Leu Met Ala Val Gln Tyr 610 615 620 Thr Glu Thr Thr Ser Ile Ser Arg Asn Ser Gly Asn Glu Leu Gln Val 625 630 635 640 Tyr Tyr Ala Ser Pro Gly Ser Tyr Gln Gly Phe Phe Glu Ala Ile Arg 645 650 655 Arg Arg Gly Asp Thr Phe Tyr Val Val Ser Phe Arg Arg Asp His Leu 660 665 670 Leu Leu Pro Ala Thr Thr His Asn Lys Thr Thr Arg Pro Lys Met Ser 675 680 685 Ile Val Leu Pro Ala Ile Asn Ile Asn Asp Asn Val Ile Asn Gly Gln 690 695 700 Asp Tyr Glu Val Met Met Gln Ile Asp Cys Gln Val Met Asp Thr Arg 705 710 715 720 Ile Leu His Ile Lys Ser Ser Ser Val Pro Pro Tyr Leu Arg Asp His 725 730 735 Gln Arg Asn Gln Thr Asn Thr Phe Phe Gly Ser Pro Pro Thr Ala Thr 740 745 750 Glu Thr Thr His Val Val Ser Thr Ile Pro Glu Ser Leu Gln 755 760 765 <210> 11 <211> 654 <212> PRT <213> Cricetulus griseus <400> 11 Met Lys Phe Pro Met Val Ala Ala Ala Leu Leu Leu Leu Cys Ala Val 1 5 10 15 Arg Ala Glu Glu Glu Asp Lys Lys Glu Asp Val Gly Thr Val Val Gly 20 25 30 Ile Asp Leu Gly Thr Thr Tyr Ser Cys Val Gly Val Phe Lys Asn Gly 35 40 45 Arg Val Glu Ile Ile Ala Asn Asp Gln Gly Asn Arg Ile Thr Pro Ser 50 55 60 Tyr Val Ala Phe Thr Pro Glu Gly Glu Arg Leu Ile Gly Asp Ala Ala 65 70 75 80 Lys Asn Gln Leu Thr Ser Asn Pro Glu Asn Thr Val Phe Asp Ala Lys 85 90 95 Arg Leu Ile Gly Arg Thr Trp Asn Asp Pro Ser Val Gln Gln Asp Ile 100 105 110 Lys Phe Leu Pro Phe Lys Val Val Glu Lys Lys Thr Lys Pro Tyr Ile 115 120 125 Gln Val Asp Ile Gly Gly Gly Gln Thr Lys Thr Phe Ala Pro Glu Glu 130 135 140 Ile Ser Ala Met Val Leu Thr Lys Met Lys Glu Thr Ala Glu Ala Tyr 145 150 155 160 Leu Gly Lys Lys Val Thr His Ala Val Val Thr Val Pro Ala Tyr Phe 165 170 175 Asn Asp Ala Gln Arg Gln Ala Thr Lys Asp Ala Gly Thr Ile Ala Gly 180 185 190 Leu Asn Val Met Arg Ile Ile Asn Glu Pro Thr Ala Ala Ala Ile Ala 195 200 205 Tyr Gly Leu Asp Lys Arg Glu Gly Glu Lys Asn Ile Leu Val Phe Asp 210 215 220 Leu Gly Gly Gly Thr Phe Asp Val Ser Leu Leu Thr Ile Asp Asn Gly 225 230 235 240 Val Phe Glu Val Val Ala Thr Asn Gly Asp Thr His Leu Gly Gly Glu 245 250 255 Asp Phe Asp Gln Arg Val Met Glu His Phe Ile Lys Leu Tyr Lys Lys 260 265 270 Lys Thr Gly Lys Asp Val Arg Lys Asp Asn Arg Ala Val Gln Lys Leu 275 280 285 Arg Arg Glu Val Glu Lys Ala Lys Arg Ala Leu Ser Ser Gln His Gln 290 295 300 Ala Arg Ile Glu Ile Glu Ser Phe Phe Glu Gly Glu Asp Phe Ser Glu 305 310 315 320 Thr Leu Thr Arg Ala Lys Phe Glu Glu Leu Asn Met Asp Leu Phe Arg 325 330 335 Ser Thr Met Lys Pro Val Gln Lys Val Leu Glu Asp Ser Asp Leu Lys 340 345 350 Lys Ser Asp Ile Asp Glu Ile Val Leu Val Gly Gly Ser Thr Arg Ile 355 360 365 Pro Lys Ile Gln Gln Leu Val Lys Glu Phe Phe Asn Gly Lys Glu Pro 370 375 380 Ser Arg Gly Ile Asn Pro Asp Glu Ala Val Ala Tyr Gly Ala Ala Val 385 390 395 400 Gln Ala Gly Val Leu Ser Gly Asp Gln Asp Thr Gly Asp Leu Val Leu 405 410 415 Leu Asp Val Cys Pro Leu Thr Leu Gly Ile Glu Thr Val Gly Gly Val 420 425 430 Met Thr Lys Leu Ile Pro Arg Asn Thr Val Val Pro Thr Lys Lys Ser 435 440 445 Gln Ile Phe Ser Thr Ala Ser Asp Asn Gln Pro Thr Val Thr Ile Lys 450 455 460 Val Tyr Glu Gly Glu Arg Pro Leu Thr Lys Asp Asn His Leu Leu Gly 465 470 475 480 Thr Phe Asp Leu Thr Gly Ile Pro Pro Ala Pro Arg Gly Val Pro Gln 485 490 495 Ile Glu Val Thr Phe Glu Ile Asp Val Asn Gly Ile Leu Arg Val Thr 500 505 510 Ala Glu Asp Lys Gly Thr Gly Asn Lys Asn Lys Ile Thr Ile Thr Asn 515 520 525 Asp Gln Asn Arg Leu Thr Pro Glu Glu Ile Glu Arg Met Val Asn Asp 530 535 540 Ala Glu Lys Phe Ala Glu Glu Asp Lys Lys Leu Lys Glu Arg Ile Asp 545 550 555 560 Thr Arg Asn Glu Leu Glu Ser Tyr Ala Tyr Ser Leu Lys Asn Gln Ile 565 570 575 Gly Asp Lys Glu Lys Leu Gly Gly Lys Leu Ser Ser Glu Asp Lys Glu 580 585 590 Thr Met Glu Lys Ala Val Glu Glu Lys Ile Glu Trp Leu Glu Ser His 595 600 605 Gln Asp Ala Asp Ile Glu Asp Phe Lys Ala Lys Lys Lys Glu Leu Glu 610 615 620 Glu Ile Val Gln Pro Ile Ile Ser Lys Leu Tyr Gly Ser Ala Gly Pro 625 630 635 640 Pro Pro Thr Gly Glu Glu Asp Thr Ser Glu Lys Asp Glu Leu 645 650 <210> 12 <211> 261 <212> PRT <213> Cricetulus griseus <400> 12 Met Cys Ile Ala Phe Arg Met Leu Leu Ser Val Ile Pro Lys Val Cys 1 5 10 15 Trp Cys Asp Cys Phe Leu Glu Val Leu Ser Leu Ser Lys Thr Val Phe 20 25 30 Leu Ser Phe Leu Gly Leu Glu Met Ala Thr Pro Gln Ser Val Phe Val 35 40 45 Phe Ala Ile Cys Ile Leu Met Ile Thr Glu Leu Ile Leu Ala Ser Lys 50 55 60 Ser Tyr Tyr Asp Ile Leu Gly Val Pro Lys Ser Ala Ser Glu Arg Gln 65 70 75 80 Ile Lys Lys Ala Phe His Lys Leu Ala Met Lys Tyr His Pro Asp Lys 85 90 95 Asn Lys Ser Pro Asp Ala Glu Ala Lys Phe Arg Glu Ile Ala Glu Ala 100 105 110 Tyr Glu Thr Leu Ser Asp Ala His Arg Arg Lys Glu Tyr Asp Thr Val 115 120 125 Gly His Thr Ala Phe Thr Asn Gly Lys Gly Gln Arg Gly Ser Gly Ser 130 135 140 Pro Phe Glu Gln Ser Phe Asn Phe Asn Phe Asp Asp Leu Phe Lys Asp 145 150 155 160 Phe Asn Leu Phe Gly Gln Asn Gln Asn Thr Arg Ser Lys Lys His Phe 165 170 175 Glu Asn His Phe Gln Thr His Gln Asp Gly Ser Asn Arg Gln Arg His 180 185 190 His Phe Gln Glu Phe Ser Phe Gly Gly Gly Leu Phe Asp Asp Met Phe 195 200 205 Glu Asp Met Glu Lys Met Phe Ser Phe Ser Gly Phe Asp Thr Thr Asn 210 215 220 Arg His Thr Val Gln Thr Glu Asn Arg Phe His Gly Ser Ser Lys His 225 230 235 240 Cys Arg Thr Val Thr Gln Arg Arg Gly Asn Met Val Thr Thr Tyr Thr 245 250 255 Asp Cys Ser Gly Gln 260 <210> 13 <211> 332 <212> PRT <213> Cricetulus griseus <400> 13 Met Ala Thr Leu Lys Asp Gln Leu Ile Val Asn Leu Leu Lys Glu Glu 1 5 10 15 Gln Thr Pro Gln Asn Lys Ile Thr Ile Val Gly Val Gly Ala Val Gly 20 25 30 Met Ala Cys Ala Ile Ser Ile Leu Met Lys Asp Leu Ala Asp Glu Leu 35 40 45 Ala Leu Val Asp Val Met Glu Asp Lys Leu Lys Gly Glu Met Met Asp 50 55 60 Leu Gln His Gly Ser Leu Phe Leu Arg Thr Pro Lys Ile Val Ser Gly 65 70 75 80 Lys Asp Tyr Ser Val Thr Ala Asn Ser Lys Leu Val Ile Val Thr Ala 85 90 95 Gly Ala Arg Gln Gln Glu Gly Glu Ser Arg Leu Asn Leu Val Gln Arg 100 105 110 Asn Val Asn Ile Phe Lys Phe Ile Ile Pro Asn Val Val Lys Tyr Ser 115 120 125 Pro Asp Cys Lys Leu Leu Ile Val Ser Asn Pro Val Asp Ile Leu Thr 130 135 140 Tyr Val Ala Trp Lys Ile Ser Gly Phe Pro Lys Asn Arg Val Ile Gly 145 150 155 160 Ser Gly Cys Asn Leu Asp Ser Ala Arg Phe Arg Tyr Leu Met Gly Glu 165 170 175 Arg Leu Gly Val His Pro Leu Ser Cys His Gly Trp Val Leu Gly Glu 180 185 190 His Gly Asp Ser Ser Val Pro Val Trp Ser Gly Val Asn Val Ala Gly 195 200 205 Val Ser Leu Lys Asn Leu Asn Pro Glu Leu Gly Thr Asp Thr Asp Lys 210 215 220 Glu Gln Trp Asn Glu Val His Lys Gln Val Val Asp Ser Ala Tyr Glu 225 230 235 240 Val Ile Lys Leu Lys Gly Tyr Thr Ser Trp Ala Ile Gly Leu Ser Val 245 250 255 Ala Asp Leu Ala Glu Ser Ile Met Lys Asn Leu Arg Arg Val His Pro 260 265 270 Ile Ser Thr Met Ile Lys Gly Leu Tyr Gly Ile Lys Asp Asp Val Phe 275 280 285 Leu Ser Val Pro Cys Val Leu Gly Gln Asn Gly Ile Ser Asp Val Val 290 295 300 Lys Val Thr Leu Thr Ser Glu Glu Glu Ala Arg Leu Lys Lys Ser Ala 305 310 315 320 Asp Thr Leu Trp Gly Ile Gln Lys Glu Leu Gln Phe 325 330 <210> 14 <211> 678 <212> DNA <213> Discosoma sp. <400> 14 atggcctcct ccgaggacgt catcaaggag ttcatgcgct tcaaggtgcg catggagggc 60 tccgtgaacg gccacgagtt cgagatcgag ggcgagggcg agggccgccc ctacgagggc 120 acccagaccg ccaagctgaa ggtgaccaag ggcggccccc tgcccttcgc ctgggacatc 180 ctgtcccctc agttccagta cggctccaag gcctacgtga agcaccccgc cgacatcccc 240 gactacttga agctgtcctt ccccgagggc ttcaagtggg agcgcgtgat gaacttcgag 300 gacggcggcg tggtgaccgt gacccaggac tcctccctgc aggacggcga gttcatctac 360 aaggtgaagc tgcgcggcac caacttcccc tccgacggcc ccgtaatgca gaagaagacc 420 atgggctggg aggcctccac cgagcggatg taccccgagg acggcgccct gaagggcgag 480 atcaagatga ggctgaagct gaaggacggc ggccactacg acgccgaggt caagaccacc 540 tacatggcca agaagcccgt gcagctgccc ggcgcctaca agaccgacat caagctggac 600 atcacctccc acaacgagga ctacaccatc gtggaacagt acgagcgcgc cgagggccgc 660 cactccaccg gcgcctaa 678 <210> 15 <211> 225 <212> PRT <213> Discosoma sp. <400> 15 Met Ala Ser Ser Glu Asp Val Ile Lys Glu Phe Met Arg Phe Lys Val 1 5 10 15 Arg Met Glu Gly Ser Val Asn Gly His Glu Phe Glu Ile Glu Gly Glu 20 25 30 Gly Glu Gly Arg Pro Tyr Glu Gly Thr Gln Thr Ala Lys Leu Lys Val 35 40 45 Thr Lys Gly Gly Pro Leu Pro Phe Ala Trp Asp Ile Leu Ser Pro Gln 50 55 60 Phe Gln Tyr Gly Ser Lys Ala Tyr Val Lys His Pro Ala Asp Ile Pro 65 70 75 80 Asp Tyr Leu Lys Leu Ser Phe Pro Glu Gly Phe Lys Trp Glu Arg Val 85 90 95 Met Asn Phe Glu Asp Gly Gly Val Val Thr Val Thr Gln Asp Ser Ser 100 105 110 Leu Gln Asp Gly Glu Phe Ile Tyr Lys Val Lys Leu Arg Gly Thr Asn 115 120 125 Phe Pro Ser Asp Gly Pro Val Met Gln Lys Lys Thr Met Gly Trp Glu 130 135 140 Ala Ser Thr Glu Arg Met Tyr Pro Glu Asp Gly Ala Leu Lys Gly Glu 145 150 155 160 Ile Lys Met Arg Leu Lys Leu Lys Asp Gly Gly His Tyr Asp Ala Glu 165 170 175 Val Lys Thr Thr Tyr Met Ala Lys Lys Pro Val Gln Leu Pro Gly Ala 180 185 190 Tyr Lys Thr Asp Ile Lys Leu Asp Ile Thr Ser His Asn Glu Asp Tyr 195 200 205 Thr Ile Val Glu Gln Tyr Glu Arg Ala Glu Gly Arg His Ser Thr Gly 210 215 220 Ala 225 <210> 16 <211> 678 <212> DNA <213> Discosoma sp. <400> 16 atggcctcct ccgagaacgt catcaccgag ttcatgcgct tcaaggtgcg catggagggc 60 accgtgaacg gccacgagtt cgagatcgag ggcgagggcg agggccgccc ctacgagggc 120 cacaacaccg tgaagctgaa ggtgaccaag ggcggccccc tgcccttcgc ctgggacatc 180 ctgtcccccc agttccagta cggctccaag gtgtacgtga agcaccccgc cgacatcccc 240 gactacaaga agctgtcctt ccccgagggc ttcaagtggg agcgcgtgat gaacttcgag 300 gacggcggcg tggcgaccgt gacccaggac tcctccctgc aggacggctg cttcatctac 360 aaggtgaagt tcatcggcgt gaacttcccc tccgacggcc ccgtgatgca gaagaagacc 420 atgggctggg aggcctccac cgagcgcctg tacccccgcg acggcgtgct gaagggcgag 480 acccacaagg ccctgaagct gaaggacggc ggccactacc tggtggagtt caagtccatc 540 tacatggcca agaagcccgt gcagctgccc ggctactact acgtggacgc caagctggac 600 atcacctccc acaacgagga ctacaccatc gtggagcagt acgagcgcac cgagggccgc 660 caccacctgt tcctgtag 678 <210> 17 <211> 225 <212> PRT <213> Discosoma sp. <400> 17 Met Ala Ser Ser Glu Asn Val Ile Thr Glu Phe Met Arg Phe Lys Val 1 5 10 15 Arg Met Glu Gly Thr Val Asn Gly His Glu Phe Glu Ile Glu Gly Glu 20 25 30 Gly Glu Gly Arg Pro Tyr Glu Gly His Asn Thr Val Lys Leu Lys Val 35 40 45 Thr Lys Gly Gly Pro Leu Pro Phe Ala Trp Asp Ile Leu Ser Pro Gln 50 55 60 Phe Gln Tyr Gly Ser Lys Val Tyr Val Lys His Pro Ala Asp Ile Pro 65 70 75 80 Asp Tyr Lys Lys Leu Ser Phe Pro Glu Gly Phe Lys Trp Glu Arg Val 85 90 95 Met Asn Phe Glu Asp Gly Gly Val Ala Thr Val Thr Gln Asp Ser Ser 100 105 110 Leu Gln Asp Gly Cys Phe Ile Tyr Lys Val Lys Phe Ile Gly Val Asn 115 120 125 Phe Pro Ser Asp Gly Pro Val Met Gln Lys Lys Thr Met Gly Trp Glu 130 135 140 Ala Ser Thr Glu Arg Leu Tyr Pro Arg Asp Gly Val Leu Lys Gly Glu 145 150 155 160 Thr His Lys Ala Leu Lys Leu Lys Asp Gly Gly His Tyr Leu Val Glu 165 170 175 Phe Lys Ser Ile Tyr Met Ala Lys Lys Pro Val Gln Leu Pro Gly Tyr 180 185 190 Tyr Tyr Val Asp Ala Lys Leu Asp Ile Thr Ser His Asn Glu Asp Tyr 195 200 205 Thr Ile Val Glu Gln Tyr Glu Arg Thr Glu Gly Arg His His Leu Phe 210 215 220 Leu 225 <210> 18 <211> 720 <212> DNA <213> Aequorea victoria <400> 18 atggtgagca agggcgagga gctgttcacc ggggtggtgc ccatcctggt cgagctggac 60 ggcgacgtaa acggccacaa gttcagcgtg tccggcgagg gcgagggcga tgccacctac 120 ggcaagctga ccctgaagtt catctgcacc accggcaagc tgcccgtgcc ctggcccacc 180 ctcgtgacca ccctgaccta cggcgtgcag tgcttcagcc gctaccccga ccacatgaag 240 cagcacgact tcttcaagtc cgccatgccc gaaggctacg tccaggagcg caccatcttc 300 ttcaaggacg acggcaacta caagacccgc gccgaggtga agttcgaggg cgacaccctg 360 gtgaaccgca tcgagctgaa gggcatcgac ttcaaggagg acggcaacat cctggggcac 420 aagctggagt acaactacaa cagccacaac gtctatatca tggccgacaa gcagaagaac 480 ggcatcaagg tgaacttcaa gatccgccac aacatcgagg acggcagcgt gcagctcgcc 540 gaccactacc agcagaacac ccccatcggc gacggccccg tgctgctgcc cgacaaccac 600 tacctgagca cccagtccgc cctgagcaaa gaccccaacg agaagcgcga tcacatggtc 660 ctgctggagt tcgtgaccgc cgccgggatc actctcggca tggacgagct gtacaagtaa 720 <210> 19 <211> 239 <212> PRT <213> Aequorea victoria <400> 19 Met Val Ser Lys Gly Glu Glu Leu Phe Thr Gly Val Val Pro Ile Leu 1 5 10 15 Val Glu Leu Asp Gly Asp Val Asn Gly His Lys Phe Ser Val Ser Gly 20 25 30 Glu Gly Glu Gly Asp Ala Thr Tyr Gly Lys Leu Thr Leu Lys Phe Ile 35 40 45 Cys Thr Thr Gly Lys Leu Pro Val Pro Trp Pro Thr Leu Val Thr Thr 50 55 60 Leu Thr Tyr Gly Val Gln Cys Phe Ser Arg Tyr Pro Asp His Met Lys 65 70 75 80 Gln His Asp Phe Phe Lys Ser Ala Met Pro Glu Gly Tyr Val Gln Glu 85 90 95 Arg Thr Ile Phe Phe Lys Asp Asp Gly Asn Tyr Lys Thr Arg Ala Glu 100 105 110 Val Lys Phe Glu Gly Asp Thr Leu Val Asn Arg Ile Glu Leu Lys Gly 115 120 125 Ile Asp Phe Lys Glu Asp Gly Asn Ile Leu Gly His Lys Leu Glu Tyr 130 135 140 Asn Tyr Asn Ser His Asn Val Tyr Ile Met Ala Asp Lys Gln Lys Asn 145 150 155 160 Gly Ile Lys Val Asn Phe Lys Ile Arg His Asn Ile Glu Asp Gly Ser 165 170 175 Val Gln Leu Ala Asp His Tyr Gln Gln Asn Thr Pro Ile Gly Asp Gly 180 185 190 Pro Val Leu Leu Pro Asp Asn His Tyr Leu Ser Thr Gln Ser Ala Leu 195 200 205 Ser Lys Asp Pro Asn Glu Lys Arg Asp His Met Val Leu Leu Glu Phe 210 215 220 Val Thr Ala Ala Gly Ile Thr Leu Gly Met Asp Glu Leu Tyr Lys 225 230 235 <210> 20 <211> 711 <212> DNA <213> Discosoma sp. <400> 20 atggtgagca agggcgagga ggataacatg gccatcatca aggagttcat gcgcttcaag 60 gtgcacatgg agggctccgt gaacggccac gagttcgaga tcgagggcga gggcgagggc 120 cgcccctacg agggcaccca gaccgccaag ctgaaggtga ccaagggtgg ccccctgccc 180 ttcgcctggg acatcctgtc ccctcagttc atgtacggct ccaaggccta cgtgaagcac 240 cccgccgaca tccccgacta cttgaagctg tccttccccg agggcttcaa gtgggagcgc 300 gtgatgaact tcgaggacgg cggcgtggtg accgtgaccc aggactcctc cctccaggac 360 ggcgagttca tctacaaggt gaagctgcgc ggcaccaact tcccctccga cggccccgta 420 atgcagaaga agaccatggg ctgggaggcc tcctccgagc ggatgtaccc cgaggacggc 480 gccctgaagg gcgagatcaa gcagaggctg aagctgaagg acggcggcca ctacgacgct 540 gaggtcaaga ccacctacaa ggccaagaag cccgtgcagc tgcccggcgc ctacaacgtc 600 aacatcaagt tggacatcac ctcccacaac gaggactaca ccatcgtgga acagtacgaa 660 cgcgccgagg gccgccactc caccggcggc atggacgagc tgtacaagta g 711 <210> 21 <211> 236 <212> PRT <213> Discosoma sp. <400> 21 Met Val Ser Lys Gly Glu Glu Asp Asn Met Ala Ile Ile Lys Glu Phe 1 5 10 15 Met Arg Phe Lys Val His Met Glu Gly Ser Val Asn Gly His Glu Phe 20 25 30 Glu Ile Glu Gly Glu Gly Glu Gly Arg Pro Tyr Glu Gly Thr Gln Thr 35 40 45 Ala Lys Leu Lys Val Thr Lys Gly Gly Pro Leu Pro Phe Ala Trp Asp 50 55 60 Ile Leu Ser Pro Gln Phe Met Tyr Gly Ser Lys Ala Tyr Val Lys His 65 70 75 80 Pro Ala Asp Ile Pro Asp Tyr Leu Lys Leu Ser Phe Pro Glu Gly Phe 85 90 95 Lys Trp Glu Arg Val Met Asn Phe Glu Asp Gly Gly Val Val Thr Val 100 105 110 Thr Gln Asp Ser Ser Leu Gln Asp Gly Glu Phe Ile Tyr Lys Val Lys 115 120 125 Leu Arg Gly Thr Asn Phe Pro Ser Asp Gly Pro Val Met Gln Lys Lys 130 135 140 Thr Met Gly Trp Glu Ala Ser Ser Glu Arg Met Tyr Pro Glu Asp Gly 145 150 155 160 Ala Leu Lys Gly Glu Ile Lys Gln Arg Leu Lys Leu Lys Asp Gly Gly 165 170 175 His Tyr Asp Ala Glu Val Lys Thr Thr Tyr Lys Ala Lys Lys Pro Val 180 185 190 Gln Leu Pro Gly Ala Tyr Asn Val Asn Ile Lys Leu Asp Ile Thr Ser 195 200 205 His Asn Glu Asp Tyr Thr Ile Val Glu Gln Tyr Glu Arg Ala Glu Gly 210 215 220 Arg His Ser Thr Gly Gly Met Asp Glu Leu Tyr Lys 225 230 235 <210> 22 <211> 600 <212> DNA <213> Streptomyces alboniger <400> 22 atgaccgagt acaagcccac ggtgcgcctc gccacccgcg acgacgtccc cagggccgta 60 cgcaccctcg ccgccgcgtt cgccgactac cccgccacgc gccacaccgt cgatccggac 120 cgccacatcg agcgggtcac cgagctgcaa gaactcttcc tcacgcgcgt cgggctcgac 180 atcggcaagg tgtgggtcgc ggacgacggc gccgcggtgg cggtctggac cacgccggag 240 agcgtcgaag cgggggcggt gttcgccgag atcggcccgc gcatggccga gttgagcggt 300 tcccggctgg ccgcgcagca acagatggaa ggcctcctgg cgccgcaccg gcccaaggag 360 cccgcgtggt tcctggccac cgtcggcgtc tcgcccgacc accagggcaa gggtctgggc 420 agcgccgtcg tgctccccgg agtggaggcg gccgagcgcg ccggggtgcc cgccttcctg 480 gagacctccg cgccccgcaa cctccccttc tacgagcggc tcggcttcac cgtcaccgcc 540 gacgtcgagg tgcccgaagg accgcgcacc tggtgcatga cccgcaagcc cggtgcctga 600 <210> 23 <211> 199 <212> PRT <213> Streptomyces alboniger <400> 23 Met Thr Glu Tyr Lys Pro Thr Val Arg Leu Ala Thr Arg Asp Asp Val 1 5 10 15 Pro Arg Ala Val Arg Thr Leu Ala Ala Ala Phe Ala Asp Tyr Pro Ala 20 25 30 Thr Arg His Thr Val Asp Pro Asp Arg His Ile Glu Arg Val Thr Glu 35 40 45 Leu Gln Glu Leu Phe Leu Thr Arg Val Gly Leu Asp Ile Gly Lys Val 50 55 60 Trp Val Ala Asp Asp Gly Ala Ala Val Ala Val Trp Thr Thr Pro Glu 65 70 75 80 Ser Val Glu Ala Gly Ala Val Phe Ala Glu Ile Gly Pro Arg Met Ala 85 90 95 Glu Leu Ser Gly Ser Arg Leu Ala Ala Gln Gln Gln Met Glu Gly Leu 100 105 110 Leu Ala Pro His Arg Pro Lys Glu Pro Ala Trp Phe Leu Ala Thr Val 115 120 125 Gly Val Ser Pro Asp His Gln Gly Lys Gly Leu Gly Ser Ala Val Val 130 135 140 Leu Pro Gly Val Glu Ala Ala Glu Arg Ala Gly Val Pro Ala Phe Leu 145 150 155 160 Glu Thr Ser Ala Pro Arg Asn Leu Pro Phe Tyr Glu Arg Leu Gly Phe 165 170 175 Thr Val Thr Ala Asp Val Glu Val Pro Glu Gly Pro Arg Thr Trp Cys 180 185 190 Met Thr Arg Lys Pro Gly Ala 195 <210> 24 <211> 795 <212> DNA <213> Escherichia coli <400> 24 atgattgaac aagatggatt gcacgcaggt tctccggccg cttgggtgga gaggctattc 60 ggctatgact gggcacaaca gacaatcggc tgctctgatg ccgccgtgtt ccggctgtca 120 gcgcaggggc gcccggttct ttttgtcaag accgacctgt ccggtgccct gaatgaactg 180 caggacgagg cagcgcggct atcgtggctg gccacgacgg gcgttccttg cgcagctgtg 240 ctcgacgttg tcactgaagc gggaagggac tggctgctat tgggcgaagt gccggggcag 300 gatctcctgt catctcacct tgctcctgcc gagaaagtat ccatcatggc tgatgcaatg 360 cggcggctgc atacgcttga tccggctacc tgcccattcg accaccaagc gaaacatcgc 420 atcgagcgag cacgtactcg gatggaagcc ggtcttgtcg atcaggatga tctggacgaa 480 gagcatcagg ggctcgcgcc agccgaactg ttcgccaggc tcaaggcgcg catgcccgac 540 ggcgaggatc tcgtcgtgac ccatggcgat gcctgcttgc cgaatatcat ggtggaaaat 600 ggccgctttt ctggattcat cgactgtggc cggctgggtg tggcggaccg ctatcaggac 660 atagcgttgg ctacccgtga tattgctgaa gagcttggcg gcgaatgggc tgaccgcttc 720 ctcgtgcttt acggtatcgc cgctcccgat tcgcagcgca tcgccttcta tcgccttctt 780 gacgagttct tctga 795 <210> 25 <211> 267 <212> PRT <213> Escherichia coli <400> 25 Met Gly Ser Ala Ile Glu Gln Asp Gly Leu His Ala Gly Ser Pro Ala 1 5 10 15 Ala Trp Val Glu Arg Leu Phe Gly Tyr Asp Trp Ala Gln Gln Thr Ile 20 25 30 Gly Cys Ser Asp Ala Ala Val Phe Arg Leu Ser Ala Gln Gly Arg Pro 35 40 45 Val Leu Phe Val Lys Thr Asp Leu Ser Gly Ala Leu Asn Glu Leu Gln 50 55 60 Asp Glu Ala Ala Arg Leu Ser Trp Leu Ala Thr Thr Gly Val Pro Cys 65 70 75 80 Ala Ala Val Leu Asp Val Val Thr Glu Ala Gly Arg Asp Trp Leu Leu 85 90 95 Leu Gly Glu Val Pro Gly Gln Asp Leu Leu Ser Ser His Leu Ala Pro 100 105 110 Ala Glu Lys Val Ser Ile Met Ala Asp Ala Met Arg Arg Leu His Thr 115 120 125 Leu Asp Pro Ala Thr Cys Pro Phe Asp His Gln Ala Lys His Arg Ile 130 135 140 Glu Arg Ala Arg Thr Arg Met Glu Ala Gly Leu Val Asp Gln Asp Asp 145 150 155 160 Leu Asp Glu Glu His Gln Gly Leu Ala Pro Ala Glu Leu Phe Ala Arg 165 170 175 Leu Lys Ala Arg Met Pro Asp Gly Asp Asp Leu Val Val Thr His Gly 180 185 190 Asp Ala Cys Leu Pro Asn Ile Met Val Glu Asn Gly Arg Phe Ser Gly 195 200 205 Phe Ile Asp Cys Gly Arg Leu Gly Val Ala Asp Arg Tyr Gln Asp Ile 210 215 220 Ala Leu Ala Thr Arg Asp Ile Ala Glu Glu Leu Gly Gly Glu Trp Ala 225 230 235 240 Asp Arg Phe Leu Val Leu Tyr Gly Ile Ala Ala Pro Asp Ser Gln Arg 245 250 255 Ile Ala Phe Tyr Arg Leu Leu Asp Glu Phe Phe 260 265 <210> 26 <211> 399 <212> DNA <213> Aspergillus terreus <400> 26 atggccaagc ctttgtctca agaagaatcc accctcattg aaagagcaac ggctacaatc 60 aacagcatcc ccatctctga agactacagc gtcgccagcg cagctctctc tagcgacggc 120 cgcatcttca ctggtgtcaa tgtatatcat tttactgggg gaccttgtgc agaactcgtg 180 gtgctgggca ctgctgctgc tgcggcagct ggcaacctga cttgtatcgt cgcgatcgga 240 aatgagaaca ggggcatctt gagcccctgc ggacggtgcc gacaggtgct tctcgatctg 300 catcctggga tcaaagccat agtgaaggac agtgatggac agccgacggc agttgggatt 360 cgtgaattgc tgccctctgg ttatgtgtgg gagggctaa 399 <210> 27 <211> 132 <212> PRT <213> Aspergillus terreus <400> 27 Met Ala Lys Pro Leu Ser Gln Glu Glu Ser Thr Leu Ile Glu Arg Ala 1 5 10 15 Thr Ala Thr Ile Asn Ser Ile Pro Ile Ser Glu Asp Tyr Ser Val Ala 20 25 30 Ser Ala Ala Leu Ser Ser Asp Gly Arg Ile Phe Thr Gly Val Asn Val 35 40 45 Tyr His Phe Thr Gly Gly Pro Cys Ala Glu Leu Val Val Leu Gly Thr 50 55 60 Ala Ala Ala Ala Ala Ala Gly Asn Leu Thr Cys Ile Val Ala Ile Gly 65 70 75 80 Asn Glu Asn Arg Gly Ile Leu Ser Pro Cys Gly Arg Cys Arg Gln Val 85 90 95 Leu Leu Asp Leu His Pro Gly Ile Lys Ala Ile Val Lys Asp Ser Asp 100 105 110 Gly Gln Pro Thr Ala Val Gly Ile Arg Glu Leu Leu Pro Ser Gly Tyr 115 120 125 Val Trp Glu Gly 130 <210> 28 <211> 1026 <212> DNA <213> Escherichia coli <400> 28 atgaaaaagc ctgaactcac cgcgacgtct gtcgagaagt ttctgatcga aaagttcgac 60 agcgtctccg acctgatgca gctctcggag ggcgaagaat ctcgtgcttt cagcttcgat 120 gtaggagggc gtggatatgt cctgcgggta aatagctgcg ccgatggttt ctacaaagat 180 cgttatgttt atcggcactt tgcatcggcc gcgctcccga ttccggaagt gcttgacatt 240 ggggaattca gcgagagcct gacctattgc atctcccgcc gtgcacaggg tgtcacgttg 300 caagacctgc ctgaaaccga actgcccgct gttctgcagc cggtcgcgga ggccatggat 360 gcgatcgctg cggccgatct tagccagacg agcgggttcg gcccattcgg accgcaagga 420 atcggtcaat acactacatg gcgtgatttc atatgcgcga ttgctgatcc ccatgtgtat 480 cactggcaaa ctgtgatgga cgacaccgtc agtgcgtccg tcgcgcaggc tctcgatgag 540 ctgatgcttt gggccgagga ctgccccgaa gtccggcacc tcgtgcacgc ggatttcggc 600 tccaacaatg tcctgacgga caatggccgc ataacagcgg tcattgactg gagcgaggcg 660 atgttcgggg attcccaata cgaggtcgcc aacatcttct tctggaggcc gtggttggct 720 tgtatggagc agcagacgcg ctacttcgag cggaggcatc cggagcttgc aggatcgccg 780 cggctccggg cgtatatgct ccgcattggt cttgaccaac tctatcagag cttggttgac 840 ggcaatttcg atgatgcagc ttgggcgcag ggtcgatgcg acgcaatcgt ccgatccgga 900 gccgggactg tcgggcgtac acaaatcgcc cgcagaagcg cggccgtctg gaccgatggc 960 tgtgtagaag tactcgccga tagtggaaac cgacgcccca gcactcgtcc gagggcaaag 1020 gaatag 1026 <210> 29 <211> 341 <212> PRT <213> Escherichia coli <400> 29 Met Lys Lys Pro Glu Leu Thr Ala Thr Ser Val Glu Lys Phe Leu Ile 1 5 10 15 Glu Lys Phe Asp Ser Val Ser Asp Leu Met Gln Leu Ser Glu Gly Glu 20 25 30 Glu Ser Arg Ala Phe Ser Phe Asp Val Gly Gly Arg Gly Tyr Val Leu 35 40 45 Arg Val Asn Ser Cys Ala Asp Gly Phe Tyr Lys Asp Arg Tyr Val Tyr 50 55 60 Arg His Phe Ala Ser Ala Ala Leu Pro Ile Pro Glu Val Leu Asp Ile 65 70 75 80 Gly Glu Phe Ser Glu Ser Leu Thr Tyr Cys Ile Ser Arg Arg Ala Gln 85 90 95 Gly Val Thr Leu Gln Asp Leu Pro Glu Thr Glu Leu Pro Ala Val Leu 100 105 110 Gln Pro Val Ala Glu Ala Met Asp Ala Ile Ala Ala Ala Asp Leu Ser 115 120 125 Gln Thr Ser Gly Phe Gly Pro Phe Gly Pro Gln Gly Ile Gly Gln Tyr 130 135 140 Thr Thr Trp Arg Asp Phe Ile Cys Ala Ile Ala Asp Pro His Val Tyr 145 150 155 160 His Trp Gln Thr Val Met Asp Asp Thr Val Ser Ala Ser Val Ala Gln 165 170 175 Ala Leu Asp Glu Leu Met Leu Trp Ala Glu Asp Cys Pro Glu Val Arg 180 185 190 His Leu Val His Ala Asp Phe Gly Ser Asn Asn Val Leu Thr Asp Asn 195 200 205 Gly Arg Ile Thr Ala Val Ile Asp Trp Ser Glu Ala Met Phe Gly Asp 210 215 220 Ser Gln Tyr Glu Val Ala Asn Ile Phe Phe Trp Arg Pro Trp Leu Ala 225 230 235 240 Cys Met Glu Gln Gln Thr Arg Tyr Phe Glu Arg Arg His Pro Glu Leu 245 250 255 Ala Gly Ser Pro Arg Leu Arg Ala Tyr Met Leu Arg Ile Gly Leu Asp 260 265 270 Gln Leu Tyr Gln Ser Leu Val Asp Gly Asn Phe Asp Asp Ala Ala Trp 275 280 285 Ala Gln Gly Arg Cys Asp Ala Ile Val Arg Ser Gly Ala Gly Thr Val 290 295 300 Gly Arg Thr Gln Ile Ala Arg Arg Ser Ala Ala Val Trp Thr Asp Gly 305 310 315 320 Cys Val Glu Val Leu Ala Asp Ser Gly Asn Arg Arg Pro Ser Thr Arg 325 330 335 Pro Arg Ala Lys Glu 340 <210> 30 <211> 720 <212> DNA <213> Aequorea victoria <400> 30 atggtgagca agggcgagga gctgttcacc ggggtggtgc ccatcctggt cgagctggac 60 ggcgacgtaa acggccacaa gttcagcgtg tccggcgagg gcgagggcga tgccacctac 120 ggcaagctga ccctgaagtt catctgcacc accggcaagc tgcccgtgcc ctggcccacc 180 ctcgtgacca ccttcggcta cggcctgaag tgcttcgccc gctaccccga ccacatgaag 240 cagcacgact tcttcaagtc cgccatgccc gaaggctacg tccaggagcg caccatcttc 300 ttcaaggacg acggcaacta caagacccgc gccgaggtga agttcgaggg cgacaccctg 360 gtgaaccgca tcgagctgaa gggcatcgac ttcaaggagg acggcaacat cctggggcac 420 aagctggagt acaactacaa cagccacaac gtctatatca tggccgacaa gcagaagaac 480 ggcatcaagg tgaacttcaa gatccgccac aacatcgagg acggcagcgt gcagctcgcc 540 gaccactacc agcagaacac ccccatcggc gacggccccg tgctgctgcc cgacaaccac 600 tacctgagct accagtccgc cctgagcaaa gaccccaacg agaagcgcga tcacatggtc 660 ctgctggagt tcgtgaccgc cgccgggatc actctcggca tggacgagct gtacaagtaa 720 <210> 31 <211> 239 <212> PRT <213> Aequorea victoria <400> 31 Met Val Ser Lys Gly Glu Glu Leu Phe Thr Gly Val Val Pro Ile Leu 1 5 10 15 Val Glu Leu Asp Gly Asp Val Asn Gly His Lys Phe Ser Val Ser Gly 20 25 30 Glu Gly Glu Gly Asp Ala Thr Tyr Gly Lys Leu Thr Leu Lys Phe Ile 35 40 45 Cys Thr Thr Gly Lys Leu Pro Val Pro Trp Pro Thr Leu Val Thr Thr 50 55 60 Phe Gly Tyr Gly Leu Lys Cys Phe Ala Arg Tyr Pro Asp His Met Lys 65 70 75 80 Gln His Asp Phe Phe Lys Ser Ala Met Pro Glu Gly Tyr Val Gln Glu 85 90 95 Arg Thr Ile Phe Phe Lys Asp Asp Gly Asn Tyr Lys Thr Arg Ala Glu 100 105 110 Val Lys Phe Glu Gly Asp Thr Leu Val Asn Arg Ile Glu Leu Lys Gly 115 120 125 Ile Asp Phe Lys Glu Asp Gly Asn Ile Leu Gly His Lys Leu Glu Tyr 130 135 140 Asn Tyr Asn Ser His Asn Val Tyr Ile Met Ala Asp Lys Gln Lys Asn 145 150 155 160 Gly Ile Lys Val Asn Phe Lys Ile Arg His Asn Ile Glu Asp Gly Ser 165 170 175 Val Gln Leu Ala Asp His Tyr Gln Gln Asn Thr Pro Ile Gly Asp Gly 180 185 190 Pro Val Leu Leu Pro Asp Asn His Tyr Leu Ser Tyr Gln Ser Ala Leu 195 200 205 Ser Lys Asp Pro Asn Glu Lys Arg Asp His Met Val Leu Leu Glu Phe 210 215 220 Val Thr Ala Ala Gly Ile Thr Leu Gly Met Asp Glu Leu Tyr Lys 225 230 235 <210> 32 <211> 698 <212> DNA <213> Discosoma sp. <400> 32 atgagcgagc tgattaagga gaacatgcac atgaagctgt acatggaggg caccgtggac 60 aaccatcact tcaagtgcac atccgagggc gaaggcaagc cctacgaggg cacccagacc 120 atgagaatca aggtggtcga gggcggccct ctccccttcg ccttcgacat cctggctact 180 agcttcctct acggcagcaa gaccttcatc aaccacaccc agggcatccc cgacttcttc 240 aagcagtcct tccctgaggg cttcacatgg gagagagtca ccacatacga agacgggggc 300 gtgctgaccg ctacccagga caccagcctc caggacggct gcctcatcta caacgtcaag 360 atcagagggg tgaacttcac atccaacggc cctgtgatgc agaagaaaac actcggctgg 420 gaggccttca ccgagacgct gtaccccgct gacggcggcc tggaaggcag aaacgacatg 480 gccctgaagc tcgtgggcgg gagccatctg atcgcaaaca tcaagaccac atatagatcc 540 aagaaacccg ctaagaacct caagatgcct ggcgtctact atgtggacta cagactggaa 600 agaatcaagg aggccaacaa cgagacctac gtcgagcagc acgaggtggc agtggccaga 660 tactgcgacc tccctagcaa actggggcac aagcttaa 698 <210> 33 <211> 233 <212> PRT <213> Discosoma sp. <400> 33 Met Ser Glu Leu Ile Lys Glu Asn Met His Met Lys Leu Tyr Met Glu 1 5 10 15 Gly Thr Val Asp Asn His His Phe Lys Cys Thr Ser Glu Gly Glu Gly 20 25 30 Lys Pro Tyr Glu Gly Thr Gln Thr Met Arg Ile Lys Val Val Glu Gly 35 40 45 Gly Pro Leu Pro Phe Ala Phe Asp Ile Leu Ala Thr Ser Phe Leu Tyr 50 55 60 Gly Ser Lys Thr Phe Ile Asn His Thr Gln Gly Ile Pro Asp Phe Phe 65 70 75 80 Lys Gln Ser Phe Pro Glu Gly Phe Thr Trp Glu Arg Val Thr Thr Tyr 85 90 95 Glu Asp Gly Gly Val Leu Thr Ala Thr Gln Asp Thr Ser Leu Gln Asp 100 105 110 Gly Cys Leu Ile Tyr Asn Val Lys Ile Arg Gly Val Asn Phe Thr Ser 115 120 125 Asn Gly Pro Val Met Gln Lys Lys Thr Leu Gly Trp Glu Ala Phe Thr 130 135 140 Glu Thr Leu Tyr Pro Ala Asp Gly Gly Leu Glu Gly Arg Asn Asp Met 145 150 155 160 Ala Leu Lys Leu Val Gly Gly Ser His Leu Ile Ala Asn Ile Lys Thr 165 170 175 Thr Tyr Arg Ser Lys Lys Pro Ala Lys Asn Leu Lys Met Pro Gly Val 180 185 190 Tyr Tyr Val Asp Tyr Arg Leu Glu Arg Ile Lys Glu Ala Asn Asn Glu 195 200 205 Thr Tyr Val Glu Gln His Glu Val Ala Val Ala Arg Tyr Cys Asp Leu 210 215 220 Pro Ser Lys Leu Gly His Lys Leu Asn 225 230 <210> 34 <211> 1032 <212> DNA <213> Bacteriophage P1 <400> 34 atgtccaatt tactgaccgt acaccaaaat ttgcctgcat taccggtcga tgcaacgagt 60 gatgaggttc gcaagaacct gatggacatg ttcagggatc gccaggcgtt ttctgagcat 120 acctggaaaa tgcttctgtc cgtttgccgg tcgtgggcgg catggtgcaa gttgaataac 180 cggaaatggt ttcccgcaga acctgaagat gttcgcgatt atcttctata tcttcaggcg 240 cgcggtctgg cagtaaaaac tatccagcaa catttgggcc agctaaacat gcttcatcgt 300 cggtccgggc tgccacgacc aagtgacagc aatgctgttt cactggttat gcggcggatc 360 cgaaaagaaa acgttgatgc cggtgaacgt gcaaaacagg ctctagcgtt cgaacgcact 420 gatttcgacc aggttcgttc actcatggaa aatagcgatc gctgccagga tatacgtaat 480 ctggcatttc tggggattgc ttataacacc ctgttacgta tagccgaaat tgccaggatc 540 agggttaaag atatctcacg tactgacggt gggagaatgt taatccatat tggcagaacg 600 aaaacgctgg ttagcaccgc aggtgtagag aaggcactta gcctgggggt aactaaactg 660 gtcgagcgat ggatttccgt ctctggtgta gctgatgatc cgaataacta cctgttttgc 720 cgggtcagaa aaaatggtgt tgccgcgcca tctgccacca gccagctatc aactcgcgcc 780 ctggaaggga tttttgaagc aactcatcga ttgatttacg gcgctaagga tgactctggt 840 cagagatacc tggcctggtc tggacacagt gcccgtgtcg gagccgcgcg agatatggcc 900 cgcgctggag tttcaatacc ggagatcatg caagctggtg gctggaccaa tgtaaatatt 960 gtcatgaact atatccgtaa cctggatagt gaaacagggg caatggtgcg cctgctggaa 1020 gatggcgatt ag 1032 <210> 35 <211> 343 <212> PRT <213> Bacteriophage P1 <400> 35 Met Ser Asn Leu Leu Thr Val His Gln Asn Leu Pro Ala Leu Pro Val 1 5 10 15 Asp Ala Thr Ser Asp Glu Val Arg Lys Asn Leu Met Asp Met Phe Arg 20 25 30 Asp Arg Gln Ala Phe Ser Glu His Thr Trp Lys Met Leu Leu Ser Val 35 40 45 Cys Arg Ser Trp Ala Ala Trp Cys Lys Leu Asn Asn Arg Lys Trp Phe 50 55 60 Pro Ala Glu Pro Glu Asp Val Arg Asp Tyr Leu Leu Tyr Leu Gln Ala 65 70 75 80 Arg Gly Leu Ala Val Lys Thr Ile Gln Gln His Leu Gly Gln Leu Asn 85 90 95 Met Leu His Arg Arg Ser Gly Leu Pro Arg Pro Ser Asp Ser Asn Ala 100 105 110 Val Ser Leu Val Met Arg Arg Ile Arg Lys Glu Asn Val Asp Ala Gly 115 120 125 Glu Arg Ala Lys Gln Ala Leu Ala Phe Glu Arg Thr Asp Phe Asp Gln 130 135 140 Val Arg Ser Leu Met Glu Asn Ser Asp Arg Cys Gln Asp Ile Arg Asn 145 150 155 160 Leu Ala Phe Leu Gly Ile Ala Tyr Asn Thr Leu Leu Arg Ile Ala Glu 165 170 175 Ile Ala Arg Ile Arg Val Lys Asp Ile Ser Arg Thr Asp Gly Gly Arg 180 185 190 Met Leu Ile His Ile Gly Arg Thr Lys Thr Leu Val Ser Thr Ala Gly 195 200 205 Val Glu Lys Ala Leu Ser Leu Gly Val Thr Lys Leu Val Glu Arg Trp 210 215 220 Ile Ser Val Ser Gly Val Ala Asp Asp Pro Asn Asn Tyr Leu Phe Cys 225 230 235 240 Arg Val Arg Lys Asn Gly Val Ala Ala Pro Ser Ala Thr Ser Gln Leu 245 250 255 Ser Thr Arg Ala Leu Glu Gly Ile Phe Glu Ala Thr His Arg Leu Ile 260 265 270 Tyr Gly Ala Lys Asp Asp Ser Gly Gln Arg Tyr Leu Ala Trp Ser Gly 275 280 285 His Ser Ala Arg Val Gly Ala Ala Arg Asp Met Ala Arg Ala Gly Val 290 295 300 Ser Ile Pro Glu Ile Met Gln Ala Gly Gly Trp Thr Asn Val Asn Ile 305 310 315 320 Val Met Asn Tyr Ile Arg Asn Leu Asp Ser Glu Thr Gly Ala Met Val 325 330 335 Arg Leu Leu Glu Asp Gly Asp 340 <210> 36 <211> 1269 <212> DNA <213> Saccharomyces cerevisiae <400> 36 atgagccaat ttgatatatt atgtaaaaca ccacctaagg tcctggttcg tcagtttgtg 60 gaaaggtttg aaagaccttc aggggaaaaa atagcatcat gtgctgctga actaacctat 120 ttatgttgga tgattactca taacggaaca gcaatcaaga gagccacatt catgagctat 180 aatactatca taagcaattc gctgagtttc gatattgtca acaaatcact ccagtttaaa 240 tacaagacgc aaaaagcaac aattctggaa gcctcattaa agaaattaat tcctgcttgg 300 gaatttacaa ttattcctta caatggacaa aaacatcaat ctgatatcac tgatattgta 360 agtagtttgc aattacagtt cgaatcatcg gaagaagcag ataagggaaa tagccacagt 420 aaaaaaatgc ttaaagcact tctaagtgag ggtgaaagca tctgggagat cactgagaaa 480 atactaaatt cgtttgagta tacctcgaga tttacaaaaa caaaaacttt ataccaattc 540 ctcttcctag ctactttcat caattgtgga agattcagcg atattaagaa cgttgatccg 600 aaatcattta aattagtcca aaataagtat ctgggagtaa taatccagtg tttagtgaca 660 gagacaaaga caagcgttag taggcacata tacttcttta gcgcaagggg taggatcgat 720 ccacttgtat atttggatga atttttgagg aactctgaac cagtcctaaa acgagtaaat 780 aggaccggca attcttcaag caacaaacag gaataccaat tattaaaaga taacttagtc 840 agatcgtaca acaaggcttt gaagaaaaat gcgccttatc caatctttgc tataaagaat 900 ggcccaaaat ctcacattgg aagacatttg atgacctcat ttctgtcaat gaagggccta 960 acggagttga ctaatgttgt gggaaattgg agcgataagc gtgcttctgc cgtggccagg 1020 acaacgtata ctcatcagat aacagcaata cctgatcact acttcgcact agtttctcgg 1080 tactatgcat atgatccaat atcaaaggaa atgatagcat tgaaggatga gactaatcca 1140 attgaggagt ggcagcatat agaacagcta aagggtagtg ctgaaggaag catacgatac 1200 cccgcatgga atgggataat atcacaggag gtactagact acctttcatc ctacataaat 1260 agacgcata 1269 <210> 37 <211> 423 <212> PRT <213> Saccharomyces cerevisiae <400> 37 Met Ser Gln Phe Asp Ile Leu Cys Lys Thr Pro Pro Lys Val Leu Val 1 5 10 15 Arg Gln Phe Val Glu Arg Phe Glu Arg Pro Ser Gly Glu Lys Ile Ala 20 25 30 Ser Cys Ala Ala Glu Leu Thr Tyr Leu Cys Trp Met Ile Thr His Asn 35 40 45 Gly Thr Ala Ile Lys Arg Ala Thr Phe Met Ser Tyr Asn Thr Ile Ile 50 55 60 Ser Asn Ser Leu Ser Phe Asp Ile Val Asn Lys Ser Leu Gln Phe Lys 65 70 75 80 Tyr Lys Thr Gln Lys Ala Thr Ile Leu Glu Ala Ser Leu Lys Lys Leu 85 90 95 Ile Pro Ala Trp Glu Phe Thr Ile Ile Pro Tyr Asn Gly Gln Lys His 100 105 110 Gln Ser Asp Ile Thr Asp Ile Val Ser Ser Leu Gln Leu Gln Phe Glu 115 120 125 Ser Ser Glu Glu Ala Asp Lys Gly Asn Ser His Ser Lys Lys Met Leu 130 135 140 Lys Ala Leu Leu Ser Glu Gly Glu Ser Ile Trp Glu Ile Thr Glu Lys 145 150 155 160 Ile Leu Asn Ser Phe Glu Tyr Thr Ser Arg Phe Thr Lys Thr Lys Thr 165 170 175 Leu Tyr Gln Phe Leu Phe Leu Ala Thr Phe Ile Asn Cys Gly Arg Phe 180 185 190 Ser Asp Ile Lys Asn Val Asp Pro Lys Ser Phe Lys Leu Val Gln Asn 195 200 205 Lys Tyr Leu Gly Val Ile Ile Gln Cys Leu Val Thr Glu Thr Lys Thr 210 215 220 Ser Val Ser Arg His Ile Tyr Phe Phe Ser Ala Arg Gly Arg Ile Asp 225 230 235 240 Pro Leu Val Tyr Leu Asp Glu Phe Leu Arg Asn Ser Glu Pro Val Leu 245 250 255 Lys Arg Val Asn Arg Thr Gly Asn Ser Ser Ser Asn Lys Gln Glu Tyr 260 265 270 Gln Leu Leu Lys Asp Asn Leu Val Arg Ser Tyr Asn Lys Ala Leu Lys 275 280 285 Lys Asn Ala Pro Tyr Pro Ile Phe Ala Ile Lys Asn Gly Pro Lys Ser 290 295 300 His Ile Gly Arg His Leu Met Thr Ser Phe Leu Ser Met Lys Gly Leu 305 310 315 320 Thr Glu Leu Thr Asn Val Val Gly Asn Trp Ser Asp Lys Arg Ala Ser 325 330 335 Ala Val Ala Arg Thr Thr Tyr Thr His Gln Ile Thr Ala Ile Pro Asp 340 345 350 His Tyr Phe Ala Leu Val Ser Arg Tyr Tyr Ala Tyr Asp Pro Ile Ser 355 360 365 Lys Glu Met Ile Ala Leu Lys Asp Glu Thr Asn Pro Ile Glu Glu Trp 370 375 380 Gln His Ile Glu Gln Leu Lys Gly Ser Ala Glu Gly Ser Ile Arg Tyr 385 390 395 400 Pro Ala Trp Asn Gly Ile Ile Ser Gln Glu Val Leu Asp Tyr Leu Ser 405 410 415 Ser Tyr Ile Asn Arg Arg Ile 420 <210> 38 <211> 122 <212> DNA <213> Simian virus 40 <400> 38 aacttgttta ttgcagctta taatggttac aaataaagca atagcatcac aaatttcaca 60 aataaagcat ttttttcact gcattctagt tgtggtttgt ccaaactcat caatgtatct 120 ta 122 <210> 39 <211> 494 <212> DNA <213> Homo sapiens <400> 39 cctggccttg gaagttgcca ctccagtgcc caccagcctt gtcctaataa aattaagttg 60 catcattttg tctgactagg tgtccttcta taatattatg gggtggaggg gggtggtatg 120 gagcaagggg caagttggga agacaacctg tagggcctgc ggggtctatt gggaaccaag 180 ctggagtgca gtggcacaat cttggctcac tgcaatctcc gcctcctggg ttcaagcgat 240 tcccctgcct cagcctcccg agttgttggg attccaggca tgcatgacca ggctcagcta 300 atttttgttt ttttggtaga gacggggttt caccatattg gccaggctgg tctccaactc 360 ctaatctcag gtgatctacc caccttggcc tcccaaattg ctgggattac aggcgtgaac 420 cactgctccc ttccctgtcc ttctgatttt aaaataacta taccagcagg aggacgtcca 480 gacacagcat aggc 494 <210> 40 <211> 225 <212> DNA <213> Bos taurus <400> 40 ctgtgccttc tagttgccag ccatctgttg tttgcccctc ccccgtgcct tccttgaccc 60 tggaaggtgc cactcccact gtcctttcct aataaaatga ggaaattgca tcgcattgtc 120 tgagtaggtg tcattctatt ctggggggtg gggtggggca ggacagcaag ggggaggatt 180 gggaagacaa tagcaggcat gctggggatg cggtgggctc tatgg 225 <210> 41 <211> 56 <212> DNA <213> Homo sapiens <400> 41 aataaaggaa atttattttc attgcaatag tgtgttggaa ttttttgtgt ctctca 56 <210> 42 <211> 56 <212> DNA <213> Herpes simplex virus <400> 42 aataaaggaa atttattttc attgcaatag tgtgttggaa ttttttgtgt ctctca 56 <210> 43 <211> 462 <212> DNA <213> Mus sp. <220> <221> misc_feature <222> (436)..(436) <223> n is a, c, g, or t <220> <221> misc_feature <222> (443)..(444) <223> n is a, c, g, or t <400> 43 ctgtaagtct gcagaaattg atgatctatt aaacaataaa gatgtccact aaaatggaag 60 tttttcctgt catactttgt taagaagggt gagaacagag tacctacatt ttgaatggaa 120 ggattggagc tacgggggtg ggggtggggt gggattagat aaatgcctgc tctttactga 180 aggctcttta ctattgcttt atgataatgt ttcatagttg gatatcataa tttaaacaag 240 caaaaccaaa ttaagggcca gctcattcct cccactcatg atctatagat ctatagatct 300 ctcgtgggat cattgttttt ctcttgattc ccactttgtg gttctaagta ctgtggtttc 360 caaatgtgtc agtttcatag cctgaagaac gagatcagca gcctctgttc cacatacact 420 tcattctcag tattgntttg ccnngttcta attccatcag aa 462 <210> 44 <211> 996 <212> DNA <213> Cricetulus griseus <220> <221> misc_feature <222> (501)..(557) <223> n is a, c, g, or t <400> 44 agctttagaa ggattaagag gtatggcttt gttggaggaa gtgtgtcatg gtggtgggct 60 tagaggtttc aaaagcttaa gctaggccca gagtctgtct gtcaggatgt agaactctta 120 gctatttctc cagcaccatg tctgcctgtg tctagccatg gtccaagcca tgatgctaat 180 ggcctaacct ctcaaactgt aagcaggctt ccagttaaac ctttttttta taagagttgc 240 cttggtcatg gtgtctcttc tcagccatag aacaatgact aagacaaata gctaaagctt 300 agttagcact tctatgtacc agacagtatt ctatatttca atataaattc atctgctctt 360 cacagtcata ttgtgaaaag ggtactatca tcctcacttt aaaaaaagca aactgaggca 420 atggactctt ggataactta catgtttctc ttccttcctt ccttccttcc ttccttcctt 480 ccttccttcc ttccttcctt nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 540 nnnnnnnnnn nnnnnnncgg gtttctctgt gtagctttgg agcctatcct ggcactcgct 600 ctggagacca ggctggcctc gcactcacac agatccgcct gcctctgcct cccgagtgct 660 gggattaaag gcgtgcgcca ccaacgcccg gcaacttaca tatttctatc aagtcttttt 720 tttttttttt tttttttgct ctcattccct tccatagcct agggtgagca cagcaggcct 780 gacagtccaa gggcccaaag ggcctaagga ccgtggtgag ctggagtctt gccttttctg 840 ctttgttttc ttttaagtca gtctggctgt gaacttagtc tcctaaacag ctgaggtaca 900 ggtgcaacgc actcctcatc ctgggccggc tgaagggtgt gtctgcggtg gtgggggtcc 960 gagggcacat tggcggaaga agtgcaactg gaagcg 996 <210> 45 <211> 978 <212> DNA <213> Cricetulus griseus <220> <221> misc_feature <222> (495)..(611) <223> n is a, c, g, or t <400> 45 gaaagaaata ctgtcaaggc tggagacaca gttcagtgat atctctaatt tcatagataa 60 agtgggctga aggaatagtt gagtgtagaa cactaggttc tgggttcagg ctctagcact 120 gcaaaacaaa gataaccatg atgatataag cttataccag ggagtttaga tatacaaaca 180 aaatgaaact acatgtattc ccactatgca gacattattt atcaactcct tactacagtg 240 ttctggtttt tcttcttcgt ttaaatagct ctctctagcc taggcctccc tatgtagctc 300 aggctgtcct caaactggaa acaaagagct gagactacgg gtgagcatca ccatgcccga 360 ctacatttag ttactgaaat tatttgattt cctaaagact tattttgcaa aatttctcca 420 ggtgtgtgtg tgtgtgtgtg tgtttgtgtg tgtgtgtgtg tgtgtgtgtg tgtgtgtggg 480 gggtgtgcgg ggggnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 540 nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 600 nnnnnnnnnn ngtgtccgct aactccaagc cggatatgcc accggttcga ttttccgctg 660 ctctgggggc cgacgtggtc ccggacatta caatgtggtc aggctggggt aaagatctgt 720 gagactcagt ctggaagtct ggctagcgag aaaagccggg cattcccagc gtcagggagt 780 gggaacgcgt ttgtggaaga cccgggcctc cagcaacccc tctctgctgt ccactcgccc 840 tcaggcccag ctcgccaggc ggaggacagc tgtgcagcca cgctggacac ccacccctcc 900 cgcgctgggc ccgccctcta gcccgtagga ccaataggca ctgagaataa ccgtgcgtca 960 cgcggagcgg gcctatcg 978 <210> 46 <211> 983 <212> DNA <213> Cricetulus griseus <400> 46 aaggagcaca gtggaacttt gtggagtcac agaggaaatt gggaaacgtt cagcctttac 60 taacaaaaat ggaaacctta ttttccacat gttttattta cattggcatt tctttcagtt 120 tctaattgaa attaaaaatg caggagtttt tctcccagtg tacctcccca aggaagaaaa 180 ttccttttga ggagataaaa atacttgtta atgtccccca aatataccta ccttaacttc 240 tttctccaaa caactttcca ttgtgggctt ttattacatc agtagttcgt gtactgtatt 300 gtaagacact tagtcgaaga atgatattaa caacatgtgg tattaaccac aagaaatgtg 360 atttagactg tttaaaatac cttaggacat tagccaccag ttaaataaag cacctttagt 420 cccaacattt cactcaggaa gcagaggcag agaggaactc tgagttcaag cccatcctga 480 tctccagagc aagttccagg acagccaggg atacacagag aagccctgac tcggaaaaga 540 aaagaaagaa ggaaaagaga agtttcaatg gaaattgagt atctgttcaa cttaaagtct 600 tttgtaatgg ccagaggtac ttcaaatcat agtgcaagtt tgtcacacaa atttttagag 660 aatgatggaa aaacaatctc tataactttg gtttctaggc taatgctttg atttcctctt 720 ggttaaataa atgatgatgt acaaacattg ctcccccccc ccactgcaaa ttgtactcca 780 tggaggagtt tctataatgt tgcagtttct acctaatggt gaccaaatgc cagtgaaagg 840 attgtaagag tacttgtcac atatactact cacctcattt caagaatgtg gacctgcttt 900 taaacattaa gagcaaatcg taattatata agaaataagc aaatgaaact attagactgt 960 ttgaaaagtc tttttcttta cag 983 <210> 47 <211> 1193 <212> DNA <213> Cricetulus griseus <400> 47 ttaggaaaaa gaaggggggg ctaaaccctc ccccaccacc ttcttctccc gcagcgcacc 60 acacacagcg cgcgggctgc tcgctcggca cccggcggcc ccggcgcgtc cctgcctgca 120 tttatcaagc tgctcccccc caccccattt ttttcggaaa acgcattggc cttttggagt 180 ttaatcagaa gaggattttt gtccctgtcc cccccctctt tcatcgtccc cctcgcgtgt 240 ctctgccgtg gagggcttaa gcaatccagt ggagacggat ccatgcctgc gctcgagcgt 300 gtgtgtgcga gtgtaaattg ccgagaagcg ggggaaatca caggacttct tcaaatgctg 360 gactgaaaat tgtaattcat ctgccgccgc cgctgccttt ccggcccctc tgtcgtgctc 420 ttgagatctc cggttgggat tcctacggat tgacattttc agtgaagcca aaccgtgggg 480 acgggacgca atctggaaac cctcctgatt ttactctacc tagctctccc ccacctcctc 540 ctcattgcaa gtttcaaaga agcttatacc aggagacttc tgaagatcga tggtgtcgtt 600 gccttatata tttgtttggg ttttaccaaa aagcaaaaca aaaaaaagag ggggaaactt 660 gacagaagat catgctgtcc tttaaaaata agtaagtttt ttgcacagga atttggttta 720 gtttaacttt caacggacgc atttgatttt tttctttaaa tacattcgag caaatttaat 780 ttccaaacag tttaatgcag tctctttagt gtgtaacttg tagcggatat gcccttcctc 840 ccctgagtat ataaagaaca cacctgtttt taacttgcca agtcgtccct cccctcacct 900 ttcagcattg cggagtaagt agactgatat taacaaagct taataaataa tgtgcctcgt 960 gaaataaaga accgaaagga atttgaataa aaatttcctg catctaatgc caagggggaa 1020 acaccagaat caagtgttcc gcgtaactga agacaccccc tcatccagga atgcaaaagc 1080 acatccaata aaagagctgg attataacta tttttttttc ttttggggct gtggggcggg 1140 agtcaggacg agaagtgctg ttgatatacc tgcagctttt ttttcgggga agg 1193 <210> 48 <211> 1000 <212> DNA <213> Cricetulus griseus <400> 48 ctacctgact ttcacctctc tctctgtaca tctgacttct tctgtgtctt gctggtgtca 60 atgcatctct tcttcctggc gacctctctt tccccggaag tcccacttat tccctcctgc 120 ctagctattg gccattcagc cctttgttaa accaatcaga agttacctta ggcagagaca 180 catctttaca gtatacgaag attatcccac aatagaggcc agcctggtct acagagcaag 240 ttccaggaca gccagggcta tacagagaaa ccctgtctca aaaaaccaaa aacaatcata 300 aaagacattg acatggaaat aatttttaaa taacttgaac aacaatcctc tttaagcatg 360 cctagttagt ttgggagggg tttactaatg attcttgaga aagacccctg tatatgactg 420 aaccctttgg aagcttgcat ataatatttc ttaaacaaga agaaattctt tcctttctgt 480 ctttcatgaa atgttctcac ccctttctcc ttcattatct cctcgaagca tttcaaaacc 540 tggtcaatcc atgagagtgc ccctttgtga gtgaaaaatg gttgaatagc cataatctca 600 tatggctcaa cttaacatct agccatccta caccatatag cagacagtag cccatttcat 660 ttgcatttgc atttttcagt ataatgtgta atgcacactg agaacatgtg tgcattattg 720 taggtgatat ggtgaataaa tcactgcttt tggctacata cattccagct ggaaggggca 780 ataccttttt gaaagctaat tgtactggag gaatggctgg gaaccctaac tatgtaaagt 840 ccagccagtc tggaggtgga ggcaggagga atcagttaaa ggtctttttg aactttgtag 900 ggagttggag caggggccag cctggctaca ggaacctcaa acaaatcaac agaaaaacaa 960 aacaaagtgc atgcatactg ctttggggcc attggacaac 1000 <210> 49 <211> 872 <212> DNA <213> Cricetulus griseus <400> 49 gggaacatta tggggcgaca agctagagaa aaaaaatgat atattccagg gtggaaagtg 60 ctcgcttgac tattcataga acagaatagc cacagcatag cggggggctc agtactaggt 120 tgcaaatggc caggccaatt ctgggactta accccaagaa aagaaaaatt ggcaaggcca 180 ggatagacaa atgcagctgg cctaggggtg aagggaaaac agttggctga gaagagccac 240 gattcgcaga gaggcagaac acagactagg acccagctcg agacgtgcag gccgggtggg 300 taacatagag cccgggcgct cggctacccg agaacgtgag ggaggcttgg aagggcagag 360 atgcgttccc aggcgaccac agcatctatg ctgaggctga gcagctcggg acccgagggg 420 acttaggagg agaaaaggcc gcatactgct tcggggtaag ggacagaccg gggaaggacc 480 caagtcccac cgcccagagg gaactgacac gcagaccccg cagcagtccc cgggggccgg 540 gtgacgggag gacctggacg gttaccggcg gaaacggtct cgggttgaga ggtcacctga 600 gggacaggca gctgctgaac caataggacc ggcgcacagg gcggatgctg cctctcattg 660 gcggccgttg agagtaacca gtagccaatg agtcagcccg gggggcgtag cggtgacgta 720 agttgcggag gaggccgctt cgaatcggca gcggccagct tggtggcatg gaccaatcag 780 cgtcctccaa cgagaagcgc cttcaccaat cggaggcctc cacgacgggg ctggggggag 840 ggtatataag ccaagtcggc ggcggcgcgc tc 872 <210> 50 <211> 1121 <212> DNA <213> Cricetulus griseus <400> 50 agctcactgt gcagaccatg ctggccttga actccaaagt aatccgcctg tccctgcctc 60 cctagtgcgg ggattaaagg catgtgccac tgtgcctgct ttgtgtcttt agaccaagag 120 gttgcacttt ctggttggtt acgcgtgact atgactaagt ctcaggaaaa aagtaaccta 180 cctgctaatt aagctcagaa taggccacag gagaggacga ctggcagttt ccacaaagca 240 cagtactttt tcgtcagcct atgtcatcat aggttattaa ggacttctgt ggttcagcat 300 tcaaaaaagc aaaccaggag agtattatca gtaattccaa gtaaaactta atgctttaaa 360 gagaaacggc ttacttcctg agtaacttgg aaaacctcct tatccacagt acaaacgatt 420 tccttcctct gggccttgtt ttttcttttt cttttttttt ttttgttttt ttgttttttt 480 gttttgtttt gttttccaag acagggtttc tctgtgtagc tttggagccc atcctggcac 540 tcgctctgga gacgaggctg gcctcgaact cgcagagatc cgcctgcttc tgcctcccca 600 gtgctggtat taaaggcgtg cacaaccaat tcccggctga tttggggctt taagcagaag 660 ttatttctga agtgtttcat acatatatga aaactgatta ttttaaccct tttaagagca 720 tatagaatta accaacttga gaaacatctt tccttcccca cctttgcctt gatactaaga 780 ttctagccaa acacagagaa aacagggatt ttcaatattt ttgtcatata ctgaagctag 840 atgtggttat gacagcattg agaaagctga ggtgggaata tcaggacatc taagccagct 900 agtacttctt aggatgatgc tgccttcaaa aatgttttgg agaggtaata atacctttaa 960 catcacaagc aaacaaaagt tgctttacat aaatagaaag ggtctttcct tcctaagaaa 1020 gtattaattt agctttcttt tcaacagatg aacaaaaggc ttgctagtag attcttaata 1080 ttagaaatac tgtcagtaca atatcatgag tatgtgatac t 1121 <210> 51 <211> 946 <212> DNA <213> Cricetulus griseus <400> 51 ccggattccg gcttgttgga cctggctgcc tgcccggaga tccacttgct cttttggaac 60 aatttcagaa atagacgtag tgcttgctgg gggaaatata tccctcgtgg ttaggaaact 120 ctaggcctta gcccctctgt aacggtatac ccatttcgga acggaagaaa tttcccctta 180 ccggcctcat cctgggtgat gaggctccgc cctagctggt gggtggttac aagtccctgc 240 ttcctggtat agctgtttga aatttgaatc tggtgccaag ccaaggtggc tgccagcccc 300 ttctcaccgt gcttgcatgt gctttgggct ctagtaaggt ccgaagtctg ccccgaaatg 360 cctacttgga agtctcatcc atggccagca gccactagac ttatattact accctgctct 420 gaaattgcgc cagcgcatcg gcttgcccgg catggcctgt cagtcataga gatccccggc 480 tggtcataaa acttgtggtg ggggggggaa gcctgcgcat gcgcgggccc cagcacgtta 540 ctttgcctta gggtcgcacc ttgtggccgt tatcgggccc tctgctcttg atttttggta 600 cttactggag caacctggca ccctacttac tgtaggattc tgggtattaa gagcggaaga 660 gcagttctct gatggtgtcc aaggagaggc catctccttt cagagttaat caaaatgagt 720 gagtcctcgg aaggctacac ttacacggag acctcggtat tacttttacg tttcaaggtg 780 aggaccagag cagaccctgg tattaatgct ttccatgcta tggctactct catttcccac 840 ttccgccctt ttagtcaatg gaaagtagac caaaggatac aaagattata aacttggtga 900 ttatactttg gagtgacctc aatgacagga aatgcttcca ccttag 946 <210> 52 <211> 1074 <212> DNA <213> Cricetulus griseus <400> 52 gaagccccgc ccatcgcagg cgagacttcc ggctgtaacc gcttgcagcg gcttctgctg 60 acggagtcgg aaccggcgga gctcaggatg gtgttgctcg agagcgagca ggtaccggct 120 gcccggaggg ccggggactc gagcgaatgg ggtcagctcg ggtcgcattt ccctctttgc 180 gggcgggcca gggccgtgac gcggcggggc gaggactgga ggctgcctaa ccgggcgtgt 240 tgtgttgcag ttcctgacgg agctgaccag gctcttccag aagtgccggt cgtcgggcag 300 cgtgtacatc accctgaaga agtgtaagca gcccccggga cgacggctgg gaggggccgc 360 tcactccggc ctcccggcac cggccacctc cggggctcag ggtcggggca gtggcgagtc 420 aggcagccca gcccctgctc cgtcagtgag gtcgcacatg ccttggggtc gcagtgtcaa 480 gtcgttgctc ccacgattga aacccccctg agtgacgatg agtgtggcga gtttatggga 540 ggcgagagca gtggtggtgg attggggtca ccctggaact cttctctgcc gttttcactt 600 tggagccggc agcaacgcct gtggcggtgg gtgttcccca ggttgtaact tttttttttt 660 tttttttaac gcagatgatg gtcgcaccaa acccactcca cggaagagtg cggtggagag 720 cgttgagccc gcagaaaaca agtgtctgtt gagagctacg gatgggaaaa ggaagatcag 780 caccgtggtg agctggagtc ctgtcttttc tgctttgcct tcttttaagt ctgtctgccg 840 tgaacttaat cctgtctcaa ataactgagg tacaggtgac ggtctatccc acggccggct 900 ggtaagctga attttaaaaa ctgtcacagc agacgcctcg gcctgtgccg gggtcacagt 960 gtatgttgtc agccgagaca gatacagtga tgatttctgt ggggctaaga gattgaatcc 1020 gggccagggt cttcattgtg tctgtcatca ccctgttact aagccacacc gcca 1074 <210> 53 <211> 1010 <212> DNA <213> Cricetulus griseus <400> 53 atggtggtgg tggcagcgtc gccgagcgcg gccacggcgg ccccgaaagt actgcttcta 60 tcgggccagc ccgccgcgga cggccgggcg ctgccactca tggttccagg ctcgcgggca 120 gcagggtccg aggcgaacgg ggcgccacag gctcgcaagc ggcagcgcct cacgcacctg 180 agcccggagg agaaggcgct gcggaggtgg gctcggcggg cggggcggca aggccgggca 240 tgggaccctt tctcgtgtgg cggtcgggag ggctctgtgg ggtggcgtag atgagcctct 300 agtacctatt tctggaggga ggcacggagc tgaggtgaca gcccctccga aggtctgctt 360 agtctgtgtc ggggagtcta acacttgtca gacgggacct gacgctcagc cctctgtgaa 420 tgcttgctct tcttggagga cccatggcag ggtccgctct ggctgttgtt gcagccgctt 480 gggaacttaa cactgggatc cgagtcacca tcctccggca gcccgagttg agcttgggga 540 gggacggttg gtagcgcccc cgccgccttc acggagcctg ttggacagaa tcggaactag 600 aaagccgcgg gggaggaggg aagatgctta tgacgcaacg ggaatgtgtg tcagcccggt 660 ggtaaaataa gactcgagtg gacagcaaca tgggagagaa tcgagcaagt cttcaaggcc 720 cacgggcaga aaagctgtgg tttttgtctt tttgagagga ggagcctcag aatgtgttta 780 ccactgttta gtcttattct gtaaagtcag cgaaagcacc agctggccac atttacaaat 840 gaagatacag gaaagctgaa gatgactcgg ttcgttatgt gccctgtctt ccttcaggaa 900 actgaaaaac agagtagcag cgcagactgc ccgagatcga aagaaagccc ggatgagcga 960 gctggaacag caagtggtgg atttggaaga agaggtaaag ggatttaagg 1010 <210> 54 <211> 1087 <212> DNA <213> Cricetulus griseus <400> 54 gaaaaatgct ttcagaaagc agttcatttt tgaaaggtgt gatgcttgga agcatcttct 60 atgccttgat cactacgcta ggccacatta ggattgggca cagaaacagg acacaccacc 120 atgagcatca ccacctgcaa gctcctaaca aagaagatat ctcgaaaatc tcagcggctg 180 agcgcatgga gctcagtaag agcttccggg tatactgtat agttcttgta aaacccaaag 240 atgtgagtct ttgggctgca gtgaaggaga cttggaccaa acactgtgac aaagcagagt 300 tcttcagttc tgaaaatgtt aaagtgtttg agtcaattaa cgtggacact gatgacatgt 360 ggttgatgat gaggaaagct tataaatatg cctttgataa atacaaagag cagtacaact 420 ggttcttcct tgcacgcccc agtacttttg ctgtgattga aaatctaaaa tattttttgt 480 taaaaaagga tccatcgcag cctttctatc taggacacac tgtaaaatct ggagaccttg 540 aatatgtgag tgtggatgga gggattgtct taagcataga gtcaatgaaa agactcaaca 600 gccttctcag tgttccggaa aagtgtcctg aacaaggtgg gatgatttgg aagatatctg 660 aagataagca gctagcagtc tgcctgaaat atgctggagt atttgcggaa aatgcggaag 720 acgctgatag aaaagatgta tttaatacca aatctgttgg gcttttcatt aaagaggcca 780 tgtctaacca cccgaaccag gtagtagaag gatgctgttc caatatggct gtcactttta 840 atggactaac tcctaatcag atgcatgtga tgatgtatgg ggtgtaccgg cttagggcct 900 ttggacatgt tttcaacgat gcgttggttt tcttacctcc aaacggttct gataatgact 960 gacaaaaagc aagagcatgc atttggtaac cacattaaga catgttatgc tttctaatcg 1020 ataatgcatc taacacagta gtgtgtttct tttccttatc tggtcacatt gaagtctact 1080 tgtacat 1087 <210> 55 <211> 1047 <212> DNA <213> Cricetulus griseus <400> 55 atggctcaag ctgggagaac agggtatgat aaccgagaga tcgtgatgaa gtacatccat 60 tataagctgt cacagagggg ctacgagtgg gatgtgggag atgtggacgc cgcgcccctg 120 ggcgccgccc ccacccctgg catcttctcc ttccagcctg agagcaaccc aacgcccgct 180 gtgcaccggg acatggctgc caggacatcg ccactaaggc ccatagtcgc caccactggg 240 cctaccctta gccccgtgcc acctgtggtc cacctgaccc tccgccgggc tggggatgac 300 ttctcccgtc gctaccgtcg cgacttcgcg gagatgtcca gtcagctgca cctgacgccc 360 ttcaccgcga ggggacgctt tgctacggtg gtggaggaac tcttcaggga tggggtgaac 420 tgggggagga ttgtggcctt ctttgagttc ggtggggtca tgtgtgtgga gagcgtcaac 480 agggagatgt cacccctggt ggacaacatc gccctgtgga tgaccgagta cctgaaccgg 540 catctgcaca cctggatcca ggataacgga ggctgggtag gtgcatgtct gactgaatga 600 gtctgggctt tgctctcaaa gccaagatgc agagaggctg gggacttagt ggatcctggg 660 tcaaaatgag ccatgagcca atgaatgaaa atccagtttg tagctttgct ccccgtccca 720 gtacctttct ctggtcagat cacaccctgc caatactgtg ctagctcctg cctgcaggct 780 gtaaaagagc aaaggtccag tatttttgat ccagtaggat ctgaagataa atggtatccc 840 tccagtgagt cccagagtta cttgaagtct gagtagcttg ttgcagatgt tctggttcct 900 gggtaggaac cagacctcca gctttctctg catcttaggc tactctgttg gactaataac 960 tgacaaggtc caactagaca aataggctcc accagaggac gcaggcatac cttttctgac 1020 tcacttggga acattttccc aaagaaa 1047 <210> 56 <211> 980 <212> DNA <213> Cricetulus griseus <400> 56 atgaccctga gtgtgactac ttcccttgct gggtcagttg gtgctaccag gaaccagcca 60 agagacattg gttctccgtg ttgtcatgct aggctcgggg aggctggtgt gggcaacttc 120 ctggtggctg atcctggagt aattgcccta cagcagatga cagccaacct ctgggcctct 180 ccagtgatta attttttttt tttttacaat ttcatttgtg tatacaatgc tttctgatca 240 cacatctcat tcttacacct ttcccaatct catacccctc caatcaccct cttactttca 300 tgtctttttg tttctcttgt gacccaatga acttaactag tactatctct gtgagcactg 360 atgtggtcac atccaaatta taatcaagac tgacatcaaa atctttcatt tctgtatctc 420 agtttggttt cacttttcag ggtaatatac attttaaaga tgtcacaccg aagtgctgat 480 ctaactaaaa tctaatagta ctgatgagac acaatataac aaggtgtaat ttcacccatc 540 agtttgtttt ttttttttaa ccagtgttca tctgtaggtt accactagag aacaaactaa 600 agcctactaa catctccagg ttacatatcc atgaccaata aatggtttta ttctcttaat 660 gatcatactt tcatagtgaa agtgaacttg gaggccaggt atgaatttag aagtgtgaag 720 tattcttgca aaaatgaagt gcactcccaa cccccagtct agcctctgtg taaatacggc 780 aggtttagga acaagttaaa cataactgtt aagataaagt cagcagactc acaaagtagg 840 cagttctcca ggacaagact gttttcttca gcatacggtg tccatcagag tgtggaagag 900 tgttgcagaa tacttgtttc cactgtgtga gcatgtgtcc ttgtgattgg ttaattaaag 960 agctgaatgg ccaatagcta 980 <210> 57 <211> 1227 <212> DNA <213> Cricetulus griseus <400> 57 acactggcca agacaacagt gaccggagga cctgcctttg cggctccgag aggtaagcgc 60 cgcggcctgc tcttgccaga cctcctttga gcctgtctcg tggctcctcc tgacccgggg 120 ggcttctgtc gccctcagat cggaacgccg ccgcgctccg ggactacagc ctgttgctgg 180 acttcgagac tgcagacgga ccgaccgctg agcactggcc cacagcgccg gcaagatgaa 240 gttccctatg gtggcggcgg cgctgctgct gctctgcgcg gtgcgggccg aggaggagga 300 caagaaggag gatgtgggca cggtggtcgg catcgacctg gggaccacct attcctggtg 360 agtgggggag agagagtggg gcgtggcctc ctgggccggc gtgagagagt gaggtgctga 420 ttccttttct gtggggtgtt tccgtcagcg ttggtgtgtt caagaacggc cgcgtggaga 480 tcatagccaa cgatcagggc aaccgcatca cgccgtcgta tgtggccttc actcctgaag 540 gcgagcgtct gattggcgat gcggccaaga accagctcac ctccaatccc gagaacacgg 600 tcttcgacgc caagcgcctc atcggacgca cttggaatga cccttcagtg cagcaggaca 660 tcaagttctt gcctttcaag gtccaatccg tttttttttt ttttttttta acccacgctt 720 aaggggctgt tagggtggtg ggaaatttag aggttgaaac gaggcggaaa aacattcaaa 780 cggctaaaag gatgcagtcg gggtttacgt aacggtttta gatgtagtct cttttagtat 840 tatgagaaga gacacagtgt tacaatgtct aaaagttgga aggtagacta aaaactgtcg 900 atcggcccac aatacagctg tgcttagtct tagtcaagat ctccctaagg gaccaaaatg 960 aattcaagtt atggaagaga agaaacggat tattttttct ttaaactttg tggtgccatt 1020 gtttcaactt cggaaaaatt acctttaaat tattctttat cataggtggt tgaaaagaaa 1080 actaaaccat acattcaagt tgatattgga ggtgggcaaa ccaaaacatt tgccccagaa 1140 gaaatttctg ccatggttct cactaaaatg aaagaaactg ctgaagcata tttgggaaag 1200 aaggtaaata catgtgtggc atggtgt 1227 <210> 58 <211> 1039 <212> DNA <213> Cricetulus griseus <400> 58 atgtgcatag cttttcgaat gctgctgtct gttataccaa aggtttgttg gtgtgattgt 60 tttctagaag tcttatcctt gagtaaaact gttttccttt cttttttagg attagaaatg 120 gctactcccc aatcagtttt tgtctttgca atttgcattt taatgataac agaattaatc 180 ctagcctcaa agagctacta tgatatctta ggtgtgccaa aatctgcctc agagcgacaa 240 atcaagaagg cctttcacaa attagcgatg aagtaccacc ccgacaaaaa taagagccct 300 gatgctgaag caaaattcag agagattgca gaaggtaagt aaatgattct gcagtctcat 360 gggtatttat agtaagtaac tgaaaatttt gtgtgctctt aaagatgtta tggaaattgg 420 agagtttatg tagatttttg caatttatct tgttagaata gatacctggc ttctgggtaa 480 gtaattgatt atagtaggta atttttgttg ttgttgttta caattctaaa atgcccgttt 540 cccttattta tttatgagat tactatgtat aaaatgaggt attagaaagt actgtgtata 600 aaatgaggga ttagaaagcc aaaattctta tcaagtaatt taaatgtatt tttactaagt 660 actgacttac tgtacacaaa ataggttaaa agtgtctatt gcatctacat ttcaaaacaa 720 tgtgtcttta aaaaattgtg aagtatgtta ctagttctaa aactaattgt acatccctgc 780 atattactta agtagttaat gggcctaact aggagttgga attaaaaatt tactttatct 840 agtaaagtga aaaacgtggt tttgtattag ttgaacacat ttgttaattt aattctttaa 900 tacaaataat agttttgcac aaataatatg aagatgaaca aattagtttt tcccacatgt 960 ttatttgtga taatggcagc atttaacaaa tatattaatt gaagaaataa ttattagaaa 1020 gacattattg ttctaacta 1039 <210> 59 <211> 1124 <212> DNA <213> Cricetulus griseus <400> 59 gtcccaaaaa gttcaaagtc caagatggca acactcaagg accagctgat tgtgaatcta 60 cttaaggaag aacagacccc ccagaacaag attacgattg ttggggttgg tgctgttggc 120 atggcttgtg ccatcagtat cctcatgaag gtaagtgggg atccttcagg tcacaagccc 180 aagcattggg aggccctaca ttgtcacatt gtatataaaa ctatcaagtt tcaggcactc 240 attcaagaga gccttctatg aaacattttg caacatggtg atgcacaaag gattatccaa 300 agtaacatta taaaaggtta gcagactgag gcctttttaa aatgctctac agtatgttag 360 catgccctac cagcaagaaa gaatgcaggg agttgaagga acctagggtc tcccatatgg 420 taggtaacca ttggagctgt atgcccagct cttaagtaat ttttaattga aatgtatatg 480 tacctgtggt aaaaattaat atcctaccga atgggatatc ttgaatttct atccaatccc 540 taatgttccc tgacttataa tagttttcct ttgagaaaaa agtgtgtgtg tgtgtatgag 600 cacactgggt aactgagggt aattggcttc tctcctacct tgtgggttct gggggtcaaa 660 ctcagctcac caggcttgtg caggaattgc tttcccctcg agccatctca atcagagcta 720 aaatttaatt ggtcagataa ccacataatt gcattagaaa acacttgctg agacagggta 780 aatttttttt taagatttta tttatttatt atgtatacaa cattctgctt ccatatatat 840 ctacacacca gaagagggca ccagatctca taacgggtgg ttgtgaggca ctatgtggtt 900 tctgggaatt gaactcatga cctctggaag agcagtcagt gctcttaacc tcagagccat 960 ttctccagcc ctcagggtaa atgttaatat atatattttt atatatgggg ctaagacagg 1020 gtttctcttt gtaacccagg ctgttctgga actcattctg tagaccagac tggcctcaaa 1080 ctcatctgcc tgcctttgcc tcccaaatat taaaaataaa gttt 1124 <210> 60 <211> 34 <212> DNA <213> Saccharomyces cerevisiae <400> 60 gaagttccta ttctctagaa agtataggaa cttc 34 <210> 61 <211> 34 <212> DNA <213> Bacteriophage P1 <220> <221> misc_feature <222> (14)..(16) <223> n is a, c, g, or t <220> <221> misc_feature <222> (19)..(21) <223> n is a, c, g, or t <400> 61 ataacttcgt atannntann ntatacgaag ttat 34

Claims

다음을 포함하여 면역글로불린 발현을 개선하기 위한 HTP 방법:
a. 숙주 세포에 내인성인 세포 경로 표적 유전자 및 상이한 발현 프로파일을 나타내는 복수의 프로모터를 포함하는 프로모터 래더를 제공하는 단계;
b. 복수의 숙주 세포를 포함하는 초기 프로모터 스왑 숙주 세포 라이브러리를 생성하기 위해 숙주 세포의 게놈을 조작하는 단계로서, 여기서 복수의 숙주 세포는 표적 유전자에 작동 가능하게 연결된 프로모터 래더와 상이한 프로모터를 포함하는 개별 숙주 세포를 포함하는 것인 단계; 및
c. 관심 면역글로불린 및/또는 숙주 세포의 표현형 특징에 대해 초기 프로모터 스왑 숙주 세포 라이브러리의 세포를 스크리닝하는 단계.
제 1 항에 있어서,
숙주 세포는 포유류 세포인 방법.
제 1 항 또는 제 2 항에 있어서,
숙주 세포는 뮤린 세포인 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
숙주 세포는 중국 햄스터 난소 세포인 방법.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
표적 유전자는 분비, 단백질 수송, 스트레스, 글리코 실화, 아폽토시스, 펼쳐진 단백질 반응, 단백질 접힘, ER-관련 분해 및 대사로 이루어진 그룹으로부터 선택된 기능을 가진 분자를 암호화하는 것인 방법.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
표적 유전자는 SRP14, SRP9, SRP54, XBP-1, bcl-2, IGF1, COSMC, FUT8, BCL2, BAK, ATF6, PERK, IRE1α, BiP/GRP78(HSP70), Dnajb9 (ERdj4/HSP40) 및 LDHA로 이루어진 그룹으로부터 선택된 분자를 암호화하는 것인 방법.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
프로모터 래더는 CMV, EF1α, SV40, RSV 및 PGK로 이루어진 그룹으로부터 선택된 적어도 2개의 프로모터를 포함하는 것인 방법.
제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
프로모터 래더는 SEQ ID NOs 1-5로 이루어진 그룹으로부터 선택된 적어도 2개의 프로모터를 포함하는 것인 방법.
제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
면역글로불린은 IgG, IgM, IgA, IgE 및 IgD로 이루어진 그룹으로부터 선택되는 것인 방법.
제 1 항 내지 제 9 항 중 어느 한 항에 있어서,
면역글로불린은 IgG1, IgG2, IgG3 및 IgG4로 이루어진 그룹으로부터 선택되는 것인 방법.
제 1 항 내지 제 10 항 중 어느 한 항에 있어서,
숙주 세포의 게놈을 조작하는 단계는 CRISPR 호환 가능한 엔도뉴클레아제 및 관련 gRNA를 사용하여 표적 유전자의 상류에서 숙주 세포 게놈을 표적화하고 절단하는 것을 포함하는 것인 방법.
제 11 항에 있어서,
상동성 재조합을 통해 프로모터 래더로부터의 프로모터를 삽입하는 단계를 추가로 포함하는 것인 방법.
제 1 항 내지 제 12 항 중 어느 한 항에 있어서,
관심 면역글로불린의 표현형 특징에 대한 초기 프로모터 스왑 숙주 세포 라이브러리의 세포를 스크리닝하는 단계는 관심 면역글로불린의 역가, N-말단 절단 및/또는 글리코실화 패턴을 확인하거나 특징화하는 것을 포함하는 것인 방법.
제 1 항 내지 제 13 항 중 어느 한 항에 있어서,
숙주 세포의 표현형 특징에 대한 초기 프로모터 스왑 숙주 세포 라이브러리의 세포를 스크리닝하는 단계는 세포 성장, 배양 중 세포 생존성 패턴, 세포 밀도 및 일당 세포당 생산된 면역글로불린의 세포 특이적 생산성을 확인하거나 특징화하는 것을 포함하는 것인 방법.
제 1 항 내지 제 14 항 중 어느 한 항에 있어서,
하나 이상의 세포 경로 표적 유전자가 제공되는 것인 방법.
제 1 항 내지 제 15 항 중 어느 한 항에 있어서,
단계 a)-c)가 반복되는 것인 방법.
제 1 항 내지 제 16 항 중 어느 한 항에 있어서,
d. 각각이 이전 단계에서 스크리닝된 적어도 2개의 개별 숙주 세포에 존재하는 유전자 변이로부터 선택된 고유한 조합의 유전자 변이를 포함하는 후속 복수의 숙주 세포를 제공하여 후속 프로모터 스왑 숙주 세포 라이브러리를 생성하는 단계를 추가로 포함하는 것인 방법.
제 1 항 내지 제 16 항 중 어느 한 항에 있어서,
d. 각각이 이전 단계에서 스크리닝된 적어도 2개의 개별 숙주 세포에 존재하는 유전자 변이로부터 선택된 고유한 조합의 유전자 변이를 포함하는 후속 복수의 숙주 세포를 제공하여 후속 프로모터 스왑 숙주 세포 라이브러리를 생성하는 단계; 및
e) 관심 면역글로불린 및/또는 숙주 세포의 표현형 특징에 대해 후속 프로모터 스왑 숙주 세포 라이브러리의 개별 숙주 세포를 스크리닝하는 단계를 추가로 포함하는 것인 실시태양 1의 방법.
제 1 항 내지 제 16 항 중 어느 한 항에 있어서,
d. 각각이 이전 단계에서 스크리닝된 적어도 2개의 개별 숙주 세포에 존재하는 유전자 변이로부터 선택된 고유한 조합의 유전자 변이를 포함하는 후속 복수의 숙주 세포를 제공하여 후속 프로모터 스왑 숙주 세포 라이브러리를 생성하는 단계;
e. 관심 면역글로불린 및/또는 숙주 세포의 표현형 특징에 대해 후속 프로모터 스왑 숙주 세포 라이브러리의 개별 숙주 세포를 스크리닝하는 단계; 및
f. 단계 d)-e)를 1회 이상 반복하는 단계를 추가로 포함하는 것인 방법.
제 1 항 내지 제 19 항 중 어느 한 항의 방법에 의해 유래된 숙주 세포 집단.
다음을 포함하여 관심 생성물의 발현을 개선하기 위한 HTP 방법:
a. 숙주 세포에 내인성인 세포 경로 표적 유전자 및 상이한 발현 프로파일을 나타내는 복수의 프로모터를 포함하는 프로모터 래더를 제공하는 단계;
b. 복수의 숙주 세포를 포함하는 초기 프로모터 스왑 숙주 세포 라이브러리를 생성하기 위해 숙주 세포의 게놈을 조작하는 단계로서, 여기서 복수의 숙주 세포는 표적 유전자에 작동 가능하게 연결된 프로모터 래더와 상이한 프로모터를 포함하는 개별 숙주 세포를 포함하는 것인 단계; 및
c. 관심 생성물 및/또는 숙주 세포의 표현형 특징에 대해 초기 프로모터 스왑 숙주 세포 라이브러리의 세포를 스크리닝하는 단계.
제 21 항에 있어서,
숙주 세포는 포유류 세포인 방법.
제 21 항 또는 제 22 항에 있어서,
숙주 세포는 뮤린 세포인 방법.
제 21 항 내지 제 23 항 중 어느 한 항에 있어서,
숙주 세포는 중국 햄스터 난소 세포인 방법.
제 21 항 내지 제 24 항 중 어느 한 항에 있어서,
표적 유전자는 분비, 단백질 수송, 스트레스, 글리코 실화, 아폽토시스, 펼쳐진 단백질 반응, 단백질 접힘, ER-관련 분해 및 대사로 이루어진 그룹으로부터 선택된 기능을 가진 분자를 암호화하는 것인 방법.
제 21 항 내지 제 25 항 중 어느 한 항에 있어서,
표적 유전자는 SRP14, SRP9, SRP54, XBP-1, bcl-2, IGF1, COSMC, FUT8, BCL2, BAK, ATF6, PERK, IRE1α, BiP/GRP78(HSP70), Dnajb9 (ERdj4/HSP40) 및 LDHA로 이루어진 그룹으로부터 선택된 분자를 암호화하는 것인 방법.
제 21 항 내지 제 26 항 중 어느 한 항에 있어서,
프로모터 래더는 CMV, EF1α, SV40, RSV 및 PGK로 이루어진 그룹으로부터 선택된 적어도 2개의 프로모터를 포함하는 것인 방법.
제 21 항 내지 제 27 항 중 어느 한 항에 있어서,
프로모터 래더는 SEQ ID NOs 1-5로 이루어진 그룹으로부터 선택된 적어도 2개의 프로모터를 포함하는 것인 방법.
제 21 항 내지 제 28 항 중 어느 한 항에 있어서,
관심 생성물은 단백질인 방법.
제 21 항 내지 제 29 항 중 어느 한 항에 있어서,
관심 생성물은 면역글로불린인 방법.
제 21 항 내지 제 30 항 중 어느 한 항에 있어서,
관심 생성물은 IgG, IgM, IgA, IgE 및 IgD로 이루어진 그룹으로부터 선택되는 것인 방법.
제 21 항 내지 제 31 항 중 어느 한 항에 있어서,
관심 생성물은 IgG1, IgG2, IgG3 및 IgG4로 이루어진 그룹으로부터 선택되는 것인 방법.
제 21 항 내지 제 32 항 중 어느 한 항에 있어서,
숙주 세포의 게놈을 조작하는 단계는 CRISPR 호환 가능한 엔도뉴클레아제 및 관련 gRNA를 사용하여 표적 유전자의 상류에서 숙주 세포 게놈을 표적화하고 절단하는 것을 포함하는 것인 방법.
제 33 항에 있어서,
상동성 재조합을 통해 프로모터 래더로부터의 프로모터를 삽입하는 단계를 추가로 포함하는 것인 방법.
제 21 항 내지 제 34 항 중 어느 한 항에 있어서,
관심 면역글로불린의 표현형 특징에 대한 초기 프로모터 스왑 숙주 세포 라이브러리의 세포를 스크리닝하는 단계는 관심 면역글로불린의 역가, N-말단 절단 및/또는 글리코실화 패턴을 확인하거나 특징화하는 것을 포함하는 것인 방법.
제 21 항 내지 제 35 항 중 어느 한 항에 있어서,
숙주 세포의 표현형 특징에 대한 초기 프로모터 스왑 숙주 세포 라이브러리의 세포를 스크리닝하는 단계는 세포 성장, 배양 중 세포 생존성 패턴, 세포 밀도 및 일당 세포당 생산된 면역글로불린의 세포 특이적 생산성을 확인하거나 특징화하는 것을 포함하는 것인 방법.
제 21 항 내지 제 36 항 중 어느 한 항에 있어서,
하나 이상의 세포 경로 표적 유전자가 제공되는 것인 방법.
제 21 항 내지 제 37 항 중 어느 한 항에 있어서,
단계 a)-c)가 반복되는 것인 방법.
제 21 항 내지 제 38 항 중 어느 한 항에 있어서,
d. 각각이 이전 단계에서 스크리닝된 적어도 2개의 개별 숙주 세포에 존재하는 유전자 변이로부터 선택된 고유한 조합의 유전자 변이를 포함하는 후속 복수의 숙주 세포를 제공하여 후속 프로모터 스왑 숙주 세포 라이브러리를 생성하는 단계를 추가로 포함하는 것인 방법.
제 21 항 내지 제 38 항 중 어느 한 항에 있어서,
d. 각각이 이전 단계에서 스크리닝된 적어도 2개의 개별 숙주 세포에 존재하는 유전자 변이로부터 선택된 고유한 조합의 유전자 변이를 포함하는 후속 복수의 숙주 세포를 제공하여 후속 프로모터 스왑 숙주 세포 라이브러리를 생성하는 단계; 및
e. 관심 면역글로불린 및/또는 숙주 세포의 표현형 특징에 대해 후속 프로모터 스왑 숙주 세포 라이브러리의 개별 숙주 세포를 스크리닝하는 단계를 추가로 포함하는 것인 방법.
제 21 항 내지 제 38 항 중 어느 한 항에 있어서,
d. 각각이 이전 단계에서 스크리닝된 적어도 2개의 개별 숙주 세포에 존재하는 유전자 변이로부터 선택된 고유한 조합의 유전자 변이를 포함하는 후속 복수의 숙주 세포를 제공하여 후속 프로모터 스왑 숙주 세포 라이브러리를 생성하는 단계;
e. 관심 면역글로불린 및/또는 숙주 세포의 표현형 특징에 대해 후속 프로모터 스왑 숙주 세포 라이브러리의 개별 숙주 세포를 스크리닝하는 단계; 및
f. 단계 d)-e)를 1회 이상 반복하는 단계를 추가로 포함하는 것인 방법.
제 21 항 내지 제 41 항 중 어느 한 항의 방법에 의해 유래된 숙주 세포 집단.