KR20160057482A - 효소 변이체의 자동화 스크리닝 - Google Patents

효소 변이체의 자동화 스크리닝 Download PDF

Info

Publication number
KR20160057482A
KR20160057482A KR1020167010661A KR20167010661A KR20160057482A KR 20160057482 A KR20160057482 A KR 20160057482A KR 1020167010661 A KR1020167010661 A KR 1020167010661A KR 20167010661 A KR20167010661 A KR 20167010661A KR 20160057482 A KR20160057482 A KR 20160057482A
Authority
KR
South Korea
Prior art keywords
substrate
enzyme
variants
active
pose
Prior art date
Application number
KR1020167010661A
Other languages
English (en)
Other versions
KR102342205B1 (ko
Inventor
치엔 장
자비니어 사르미엔토러셀
도날드 스코트 바스커빌
자이트 더블유 휘즈먼
Original Assignee
코덱시스, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코덱시스, 인코포레이티드 filed Critical 코덱시스, 인코포레이티드
Publication of KR20160057482A publication Critical patent/KR20160057482A/ko
Application granted granted Critical
Publication of KR102342205B1 publication Critical patent/KR102342205B1/ko

Links

Images

Classifications

    • G06F19/70
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C99/00Subject matter not provided for in other groups of this subclass
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1089Design, preparation, screening or analysis of libraries using computer algorithms
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1058Directional evolution of libraries, e.g. evolution of libraries is achieved by mutagenesis and screening or selection of mixed population of organisms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/20Screening of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • G16C20/64Screening of libraries

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Microbiology (AREA)
  • Plant Pathology (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computing Systems (AREA)
  • Ecology (AREA)
  • Analytical Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Enzymes And Modification Thereof (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

복합 생체분자 라이브러리 또는 상기 라이브러리 세트로부터 원하는 특성을 갖는 (또는 한 라운드의 유도 진화를 위해 가장 적합한) 생체분자를 확인하는 방법을 개시한다. 본 개시내용의 일부 실시양태는 단백질을 유익한 특성에 대해 가상적으로 스크리닝하는 방법을 제공한다. 본 개시내용의 일부 실시양태는 특정 기질을 포함하는 촉매 반응을 위한 원하는 활성 및/또는 선택성에 대해 효소를 가상적으로 스크리닝하는 방법을 제공한다. 일부 실시양태는 원하는 특성을 갖는 단백질 및 효소를 디자인 및 개발하기 위해 스크리닝 및 유도 진화를 조합한다. 상기 방법을 구현하는 시스템 및 컴퓨터 프로그램 제품 또한 제공한다.

Description

효소 변이체의 자동화 스크리닝{AUTOMATED SCREENING OF ENZYME VARIANTS}
관련 출원에 대한 상호 참조
본 출원은 35 U.S.C. § 119(e) 하에 2013년 9월 27일 출원된 미국 가특허 출원 번호 제61/883,838호(발명의 명칭: AUTOMATED SCREENING OF ENZYME VARIANTS)에 대한 이익을 주장하며, 상기 출원은 그 전문이 모든 목적을 위해 본원에서 참조로 포함된다.
검색가능한 서열 공간을 구성하는 가능한 분자의 조합상 급격한 증가 이외의 다른 이유가 없었다면, 단백질 디자인은 어려운 과정이 되는 것으로 장기간 알려져 왔을 것이다. 단백질의 서열 공간은 방대하며, 현재 당업계에 공지된 방법을 사용하여 철저하게 조사하는 것은 불가능하며, 이는 대개는 유용한 폴리펩티드를 확인하는 데 필요한 시간과 비용에 의해 제한된다. 문제 중 일부는 시퀀싱되고, 스크리닝되고, 검정되어야 하는 다수의 폴리펩티드 변이체로부터 발생한다. 유도 진화 방법은 유익한 특성을 갖는 후보 생체분자에 관하여 호닝하는 데 있어서의 효율을 증가시킨다. 오늘날, 단백질의 유도 진화는 흔히 반복적으로 실행되는 다양한 고처리량 스크리닝 재조합 포맷에 의해 지배된다.
또한, 서열 활성 공간에 대한 조사를 위한 것으로 다양한 전산 기법이 제안되어 왔다. 상대적으로 말하면, 이들 기법은 초기 단계에 있으며, 여전히 상당한 발전이 요구되고 있다. 따라서, 후보 생체분자의 스크리닝, 시퀀싱, 검정 효율을 개선시키기 위한 새로운 방법이 매우 바람직할 것이다.
본 개시내용은 분자 생물학, 분자 진화, 생물 정보학, 및 디지털 시스템 분야에 관한 것이다. 디지털 시스템을 비롯한 시스템, 및 상기 방법을 수행하기 위한 시스템 소프트웨어 또한 제공한다. 본 개시내용의 방법은 산업적 및 치료학적 용도를 위한 단백질의 최적화에서 유용성을 가진다. 본 방법 및 시스템은 특정 기질의 촉매 반응을 위해 원하는 활성 및 선택성을 갖는 효소를 디자인하고 개발하는 데 특히 유용하다.
본 개시내용의 특정 측면은 유익한 특성을 갖는 단백질을 가상으로 스크리닝하고/거나, 유도 진화 프로그램을 유도하는 방법에 관한 것이다. 본 개시내용은 복합 생체분자 라이브러리 또는 상기 라이브러리 세트로부터 원하는 특성을 갖는 (또는 상기 특성으로의 유도 진화를 위해 가장 적합한) 생체분자를 확인하는 방법을 제공한다. 본 개시내용의 일부 실시양태는 특정 기질상의 촉매 반응을 위해 원하는 활성 및 선택성에 대해 효소를 가상으로 스크리닝하는 방법을 제공한다. 일부 실시양태는 원하는 특성을 갖는 단백질 및 효소를 디자인 및 개발하기 위해 스크리닝 및 유도 진화를 조합한다. 본 방법을 구현하는 시스템 및 컴퓨터 프로그램 제품 또한 제공한다.
본 개시내용의 일부 실시양태는 기질과의 활성에 대해 복수의 상이한 효소 변이체를 스크리닝하는 방법을 제공한다. 일부 실시양태에서, 본 방법은 하나 이상의 프로세서 및 시스템 메모리를 포함하는 컴퓨터 시스템을 이용하여 구현된다. 본 방법은 (a) 각각의 효소 변이체에 대해, 컴퓨터 시스템에 의해, 기질의 컴퓨터 리프리젠테이션(computational representation)을 효소 변이체의 활성 부위의 컴퓨터 리프리젠테이션에 도킹하는 단계로서, 상기 도킹은 (i) 활성 부위에서의 기질의 복수의 포즈(pose)를 생성하고, (ii) 활성 부위에서의 기질의 에너지적으로 유리한 포즈를 확인하는 것인 단계; (b) 각각의 에너지적으로 유리한 포즈에 대해, 포즈의 활성 여부를 결정하는 단계로서, 여기서, 활성 포즈는 기질이 활성 부위에서 촉매반응을 겪기 위한 하나 이상의 제약조건을 충족하는 것인 단계; 및 (c) 하나 이상의 활성 포즈를 갖는 것으로 결정된 효소 변이체 중 1종 이상을 선택하는 것인 단계를 포함한다.
일부 실시양태에서, 제약조건은 위치, 거리, 각, 및 비틀림 제약조건 중 하나 이상을 포함한다. 일부 실시양태에서, 제약조건은 기질 상의 특정 모이어티와 활성 부위 내의 특정 잔기 또는 잔기 모이어티 사이의 거리를 포함한다. 일부 실시양태에서, 제약조건으로는 리간드 상의 특정 모이어티와 활성 부위 내의 이상적으로 배치된 네이티브(native) 리간드 사이의 거리를 포함한다.
일부 실시양태에서, 기질의 컴퓨터 리프리젠테이션은 효소 활성의 반응 좌표를 따라 존재하는 종을 나타낸다. 종은 기질, 기질의 반응 중간체, 또는 기질의 전이 상태로부터 선택된다. 일부 실시양태에서, 스크리닝된 변이체는 다중 기질을 전환시킬 수 있는 효소의 패널로부터 선택되고, 여기서, 패널의 구성원은 참조 서열과 비교하여 1개 이상의 돌연변이를 가진다. 일부 실시양태에서, 1개 이상의 돌연변이는 단일 잔기 돌연변이이다. 일부 실시양태에서, 1개 이상의 돌연변이는 효소의 활성 부위 내에 존재한다. 일부 실시양태에서, 복수의 변이체는 케톤 환원, 아미노기 전이, 산화, 니트릴 가수분해, 이민 환원, 에논 환원, 아실 가수분해, 및 할로하이드린 탈할로겐화으로부터 선택되는 화학 반응을 촉진시킬 수 있는 1종 이상의 효소를 포함한다. 일부 실시양태에서, 효소는 케톤 리덕타제, 트랜스아미나제, 사이토크롬 P450, 베이어-빌리거(Baeyer-Villiger) 모노옥시게나제, 모노아민 옥시다제, 니트릴라제, 이민 리덕타제, 에논 리덕타제, 아실라제, 및 할로하이드린 데할로게나제로부터 선택된다. 그러나, 임의의 적합한 효소가 본 발명의 방법에서 사용될 수 있다는 것을 알 수 있는 바, 본 발명을 임의의 특정 효소 또는 효소 부류로 한정하고자 하지 않는다. 일부 실시양태에서, 변이체는 시험관내(in vitro) 및/또는 인 실리코(in silico)에서의 1회 이상의 라운드의 유도 진화에 의해 제조된 라이브러리의 구성원이다.
일부 실시양태에서, 본 방법은 약 10종 이상의 상이한 변이체를 스크리닝한다. 다른 실시양태에서, 본 방법은 약 1,000종 이상의 상이한 변이체를 스크리닝한다.
일부 실시양태에서, 활성 부위의 컴퓨터 리프리젠테이션은 복수의 변이체에 대한 3D 상동성 모델로부터 제공된다. 일부 실시양태에서, 본 방법은 단백질 변이체에 대한 3D 상동성 모델을 제조하기 위해 제공된다. 일부 실시양태에서, 본 방법은 복수의 기질을 스크리닝하는 데 적용된다.
일부 실시양태는, 네이티브 기질이 야생형 효소에 의한 촉매적 화학 변환을 겪을 때, 네이티브 기질, 네이티브 기질의 반응 중간체, 또는 네이티브 기질의 전이 상태의 하나 이상의 포즈를 확인함으로써, 기질이 촉매적 화학 변환을 겪기 위한 제약조건을 확인하는 방법을 제공한다.
일부 실시양태는 하나 이상의 효소 제약조건이, 야생형 효소의 존재 하에 네이티브 기질이 촉매적 화학 변환을 겪을 때의 야생형 효소의 제약조건과 유사한 것인, 하나 이상의 효소 제약조건 세트를 복수의 효소 변이체에 적용하는 방법을 제공한다.
일부 실시양태에서, 기질의 복수의 포즈는 하기: 고온 분자 동역학, 무작위 회전, 격자 기반의 시뮬레이션된 어닐링에 의한 리파인먼트(refinement), 및 최종의 격자 기반 또는 풀 포스 필드(full force field) 최소화 중 하나 이상을 포함하는 도킹 작업에 의해 얻어진다. 일부 실시양태에서, 리간드의 복수의 포즈는 활성 부위에서 기질의 약 10개 이상의 포즈를 포함한다.
일부 실시양태에서, 상기 (c)에서 변이체를 선택하는 단계는 다른 변이체와의 비교에 의해 다수의 활성 포즈를 갖는 것으로 결정된 변이체를 확인하는 것을 포함한다. 일부 실시양태에서, (c)의 선택 단계는 하기: 변이체가 갖는 활성 포즈의 개수, 활성 포즈의 도킹 점수, 및 활성 포즈의 결합 에너지 중 하나 이상에 의해 변이체를 순위화하는 것을 포함한다. 변이체는 순위에 기초하여 선택된다. 일부 실시양태에서, 도킹 점수는 반 데르 발스 힘 및 정전기적 상호작용에 기초한다. 일부 실시양태에서, 결합 에너지는 하기: 반 데르 발스 힘, 정전기적 상호작용, 및 용매화 에너지 중 하나 이상에 기초한다.
일부 실시양태에서, 스크리닝 방법은 또한 1개 이상의 선택된 변이체의 적어도 일부를 포함하거나 코딩하는 복수의 올리고뉴클레오티드를 제조하는 단계를 포함한다. 본 방법은 복수의 올리고뉴클레오티드를 사용하여 1회 이상의 라운드의 유도 진화를 수행하는 단계를 추가로 포함한다. 일부 실시양태에서, 복수의 올리고뉴클레오티드를 제조하는 단계는 핵산 합성기를 사용하여 올리고뉴클레오티드를 합성하는 것을 포함한다. 일부 실시양태에서, 1회 이상의 라운드의 유도 진화를 수행하는 단계는 복수의 올리고뉴클레오티드를 단편화하고, 재조합하는 것을 포함한다. 일부 실시양태에서, 1회 이상의 라운드의 유도 진화를 수행하는 단계는 복수의 올리고뉴클레오티드에 대하여 포화 돌연변이유발법을 수행하는 것을 포함한다.
일부 실시양태에서, 스크리닝된 효소 변이체는 원하는 촉매 활성 및/또는 선택성을 가진다. 일부 실시양태의 방법은 또한 스크리닝으로부터 선택된 효소를 합성하는 단계를 포함한다.
일부 실시양태에서, 스크리닝 방법은 효소 이외의 다른 생체분자를 스크리닝하는 것으로 확장될 수 있다. 일부 실시양태는 리간드와의 상호작용에 대해 복수의 단백질 변이체를 스크리닝하는 방법을 제공한다. 본 방법은 (a) 각각의 단백질 변이체에 대해, 컴퓨터 시스템에 의해, 리간드의 컴퓨터 리프리젠테이션을 효소 변이체의 활성 부위의 컴퓨터 리프리젠테이션에 도킹하는 단계로서, 상기 도킹은 (i) 활성 부위에서의 리간드의 복수의 포즈를 생성하고, (ii) 활성 부위에서의 리간드의 에너지적으로 유리한 포즈를 확인하는 것인 단계; (b) 각각의 에너지적으로 유리한 포즈에 대해, 포즈의 활성 여부를 결정하는 단계로서, 여기서, 활성 포즈는 리간드가 단백질 변이체와 특정 상호작용을 겪기 위한 하나 이상의 제약조건을 충족하는 것인 단계; 및 (c) 하나 이상의 활성 포즈를 갖는 것으로 결정된 단백질 변이체 중 1종 이상을 선택하는 것인 단계를 포함한다. 일부 실시양태에서, 리간드는 기질, 중간체, 전이 상태, 생성물, 억제제, 효능제, 및/또는 길항제로부터 선택될 수 있다.
일부 실시양태에서, 효소 및 단백질을 스크리닝하기 위한 방법을 구현하기 위한 컴퓨터 프로그램 제품 및 컴퓨터 시스템 또한 제공한다.
상기 특징 및 다른 특징은 관련 도면을 참조로 하여 하기에 제공된다.
도 1은 티로신 모이어티, 아세토페논 기질, 및 보조인자 NADPH와 함께 케톤 리덕타제 효소를 포함하는 반응인, 프로R 선택성의 촉매 반응에 대한 활성 포즈를 확인하기 위한 기하학적 제약조건을 도시한 것이다.
도 2는 일부 실행에서 후보 생체분자의 잠재적인 활성을 분석하기 위한 작업 흐름을 나타낸 순서도이다.
도 3a는 본 개시내용의 일부 실시양태에 따라 생체분자 서열을 디자인하기 위한 작업 흐름의 예를 보여주는 순서도이다.
도 3b는, 가상 스크리닝으로부터 얻은 서열을 합성하고, 검정하는 것을 포함하는, 생체분자 서열을 디자인하기 위한 작업 흐름의 예를 보여주는 순서도이다.
도 3c는 다중 반복의 각 라운드에서 시험관내 유도 진화 및 가상 스크리닝을 조합하는, 생체분자 서열을 디자인하기 위한 작업 흐름의 예를 보여주는 순서도이다.
도 4는 본 개시내용의 일부 실시양태에 따라 실행될 수 있는 예시적인 디지털 장치를 보여주는 것이다.
도 5는 제2 라운드의 유도 진화로부터의 10개의 최상의 변이체, 및 라운드 1에 대한 골격(Rd1BB) 및 라운드 2에 대한 골격(Rd2BB)의 결합 에너지 및 선택성을 보여주는 데이터 플롯을 제공하는 것이다.
도 6a는 일부 실시양태에 따른 가상 단백질 스크리닝 시스템으로부터의 데이터를 사용하여 구축된 서열 활성 모델의 모델 적합도를 보여주는 것이다.
도 6b는 도 6a에서 구성된 바와 같은 서열 활성 모델이 결합 에너지를 예측하는 데 정확하였다는 것을 나타낸 교차 검증을 보여주는 것이다.
도 6c는 도 6a에서 구성된 바와 같은 서열 활성 모델에 따른 다양한 돌연변이에 대한 계수를 보여주는 것이다.
도 7은 1,1,1-트리플루로프로판-2-온으로부터의 (R)-1,1,1-트리플루로프로판-2-올의 거울상 이성질체 선택적 제조를 위한 케토리덕타제 변이체의 가상적 스크리닝으로부터의 X축 상의 전환 및 Y축 상의 선택성을 나타낸 정량값을 보여주는 것이다.
도 8은 C-OH로의 위치 선택적 CH 산화를 위한 가상 유도 진화로부터의 전환 및 히트(특정 수준 개선된 변이체)를 나타내는 정량값을 보여주는 것이다.
단백질 및 효소의 스크리닝은 리간드 및 기질과 상호작용하는 단백질 및 효소의 화학적 및 물리적 특징을 측정하는 것을 포함하는 실제 방식으로 수행될 수 있다. 실제 측정은 시간 및 자원을 소비하고, 기본 물리적 및 화학적 메커니즘은 대개 시각화 또는 조작이 어렵다. 본원에 개시된 "가상" 스크리닝 방법 및 시스템은 효소, 단백질, 및 그의 기질 및 리간드의 구조 및 동역학적 성질을 시각화 또는 조작하는 도구를 제공한다. 이러한 도구를 통해 분자 연구에 있어 시간 및/또는 물질을 절약할 수 있다.
일부 실시양태에서, 단백질 또는 효소의 가상 스크리닝은 관심의 대상이 되는 단백질의 유도 진화에 사용된다. 가상 스크리닝은 상기 유도 진화 실시양태의 다양한 단계 동안 물리적 스크리닝 대신으로 사용되며, 이를 통해 실제 스크리닝에 의해 요구되는 물리적 물질 및 시간을 필요로 하지 않으면서, 다수의 분자 및 반응을 연구할 수 있다. 본 실시양태를 통해 원하는 특성을 갖는 단백질 및 효소를 얻기 위한 프로세스의 속도를 가속화시킬 수 있다. 물질 및 자원 또한 본 프로세스에서 절약될 수 있다. 일부 실시양태는 특정 기질을 포함하는 촉매 반응을 위한 원하는 활성, 및/또는 선택성을 갖는 효소를 디자인하고 개발하는 데 특히 유용하다.
I. 정의
본원에서 달리 정의되지 한, 본원에서 사용되는 모든 기술 용어 및 과학 용어는 본 분야의 숙련가에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 본원에 포함된 용어를 포함하는 각종 과학 사전은 당업자에게 널리 공지되어 있으며, 이용가능하다. 본원에 기술된 것과 유사하거나, 또는 등가인 임의의 방법 및 물질은 본원에 개시된 실시양태를 실시하는 데 사용될 수 있다는 것을 알 수 있다.
바로 다음에서 정의되는 용어들은 전체적으로 명세서를 참조함으로써 더욱 충분하게 이해된다. 정의는 단지 특정 실시양태를 기술하고, 본 명세서에 기술된 복잡한 개념의 이해를 돕기 위한 것이다. 정의는 본 개시내용의 전체 범주를 한정하고자 하는 것이 아니다. 구체적으로, 기술된 특정 서열, 조성물, 알고리즘, 시스템, 방법론, 프로토콜 및/또는 시약은 이러한 것들이 당업자에 의해 사용되는 상황에 따라 달라질 수 있는 바, 본 개시내용은 상기 특정 서열, 조성물, 알고리즘, 시스템, 방법론, 프로토콜 및 시약으로 제한하는 것이 아님을 이해하여야 한다.
본 명세서 및 첨부된 청구범위에서 사용되는 바, 내용상 및 맥락상 달리 명확하게 명시되지 않는 한, "하나"("a," "an") 및 "그"라는 단수 형태는 복수의 지시 대상을 포함한다. 따라서, 예를 들어, "한 장치"라고 언급하는 것은 2개 이상의 상기 장치의 조합 등을 포함한다. 달리 명시되지 않는 한, "또는"이라는 접속사는 그의 정확한 의미로, 대안으로 특징을 선택하는 것(A 또는 B, 여기서, A를 선택하는 것은 B와 상호 배타적인 경우), 및 공동으로 함께 특징을 선택하는 것(A 또는 B, 여기서, A 및 B, 둘 모두를 선택하는 경우), 둘 모두를 포함하는, 불(Boolean) 논리 연산자로서 사용되는 것으로 한다.
본원에서 사용되는 바, "도킹(docking)"이란 분자(예컨대, 기질 또는 리간드)의 컴퓨터 리프리젠테이션의, 생체분자(예컨대, 효소 또는 단백질)의 활성 부위의 컴퓨터 리프리젠테이션에의 결합을 시뮬레이션하고/거나, 특징화(characterize)하는 컴퓨터에 의한 프로세스를 의미한다. 도킹은 전형적으로 "도커" 컴퓨터 프로그램을 사용하여 컴퓨터 시스템에서 실행된다. 전형적으로, 도킹 프로세스의 결과는 특이적인 "포즈"에서 활성 부위 내에 "도킹된" 분자의 컴퓨터 리프리젠테이션이다. 복수의 도킹 프로세스는 분자의 동일한 컴퓨터 리프리젠테이션과 활성 부위의 동일한 컴퓨터 리프리젠테이션 사이에서 수행될 수 있고, 이로써, 활성 부위에서 분자의 복수의 상이한 "포즈"가 생성될 수 있다. 활성 부위의 컴퓨터 리프리젠테이션에서 복수의 상이한 "포즈"의 구조, 입체구조, 및 에너지적 성질 평가를 통해 리간드와 생체분자 사이의 결합을 위해 에너지적으로 더욱 바람직한 것으로서 특정 "포즈"를 확인할 수 있다.
일부 실시양태에서, 도킹으로부터 생성된 포즈는 평가를 통해 그가 생체분자와의 원하는 상호작용에 대하여 "활성"인지 여부에 대해 측정된다. "활성 포즈"는 고려 되는 활성을 위해 하나 이상의 제약조건을 충족하는 것이다. "제약조건"은 포즈의 구조, 지오메트리(geometry), 입체구조, 에너지적 성질 등을 제한할 수 있다. 특정 실시양태에서, 효소의 활성 부위에서의 기질의 컴퓨터 리프리젠테이션의 "활성 포즈"는 효소에 의한 촉매반응을 위한 조건을 충족한다. 도킹이 활성 부위의 컴퓨터 리프리젠테이션에서의 기질의 컴퓨터 리프리젠테이션의 다수의 활성 포즈를 확인할 때, 구현된 특이 효소는 기질의 생성물로의 화학적 변화를 촉진하는 데 바람직한 것으로서 선택될 수 있다.
"도커(docker)"는 분자(예컨대, 기질 또는 리간드)의 컴퓨터 리프리젠테이션과 단백질 또는 다른 생물학적 분자 중의 관심의 대상이 되는 활성 부위의 컴퓨터 리프리젠테이션 사이의 도킹 프로세스를 전산적으로 시뮬레이션하고/거나, 특징화하는 컴퓨터 프로그램이다.
도커는 전형적으로 하드웨어와 함께 일시적으로 또는 영구적으로 저장될 수 있는 소프트웨어, 예컨대, 프로세서 또는 프로세서들로서 실행될 수 있다. 상업적으로 이용가능한 도킹 프로그램으로는 CDocker(엑셀리스(Accelrys)), DOCK (캘리포니아 대학(University of California: 샌프란시스코)), AutoDock(스크립스 리서치 인스티튜트(Scripps Research Institute)), FlexX(tripos.com), GOLD(ccdc.cam.ac.uk), 및 GLIDE(schrodinger.com)를 포함한다.
도커를 사용하는 도킹은 전형적으로 활성 부위와 관련하여 기질 및 리간드의 컴퓨터 리프리젠테이션의 "포즈"를 생성한다. 이들 포즈는 도킹 점수를 생성하는 데 또는 다르게는 도킹을 평가하는 데 사용될 수 있다. 일부 실시양태에서, 포즈는 도커에 의해 계산된 상호작용 에너지 값과 관련이 있다. 일부 포즈는 다른 포즈보다 에너지적으로 더욱 바람직하다. 일부 실시양태에서, 도커를 통해 사용자는 도킹을 평가하는 데 사용되는 포즈의 개수(n)를 명시할 수 있다. 도킹 점수가 최고인 상위 n개의 포즈만이 도킹을 평가하는 데 고려된다. 일부 실시양태에서, 정의된 기준을 충족하는 바람직한 상호작용 에너지를 갖는 포즈만이 선택되어 활성 또는 불활성 포즈로 분류된다.
일부 실시양태에서, 도커는 기질 또는 리간드의 하나 이상의 포즈가 생체분자와 바람직한 상호작용 에너지를 가진다면, 기질 또는 리간드는 생체분자와 결합할 가능성이 있다고 결정할 수 있다. 결합된 리간드는 효능제 또는 길항제로서 작용할 수 있다. 다양한 도커는 기질 또는 리간드와 생체분자 사이의 도킹 점수 또는 다른 척도를 출력한다. 생체분자 활성 부위와 기질 또는 리간드의 일부 조합의 경우, 도킹 프로그램은 결합이 일어날 가능성이 적다고 결정할 것이다. 상기 경우에서, 도킹 프로그램은 기질 또는 리간드가 생체분자와 결합하지 않는다는 결론을 출력할 것이다.
도커는 리간드가 생체분자의 활성 부위와 도킹할 수 있는 가능성, 또는 발생될 상기 도킹의 정질 평가를 출력하도록 프로그램화될 수 있다. 도킹의 가능성 및 정질이 리간드가 생체분자와 결합할 가능성이 있는지 여부를 나타낸다. 한 단계에서, 도커는 리간드가 생체분자의 활성 부위에 결합할 가능성이 있는지 여부를 결정한다. 도커 논리가 결합 가능성이 없거나, 또는 매우 적합하지 않다는 결론을 내릴 경우, "리파이닝된 포즈 발견되지 않음"이라는 결과를 출력할 수 있다. 이는 도킹 프로그램이 생성한 모든 입체구조가 활성 부위와 적합하지 않은 반 데르 발스 충돌 및/또는 정전기 척력을 가질 때 발생할 수 있다. 상기 예시된 도킹 과정에서, 2차 작업에서 소프트 에너지가 역치보다 작은 포즈를 찾지 못했다면, 도커는 예컨대, "리파이닝된 포즈 발견되지 않음"이라는 결과로 복귀할 수 있다. 소프트 에너지는 대개 반 데르 발스 및 정전력을 비롯한 비결합 상호작용을 고려하기 때문에, "리파이닝된 포즈 발견되지 않음"이라는 결과는 리간드가 주어진 개수의 포즈에 대하여 생체분자 수용체와 극심한 입체적 충돌 및/또는 정전기 척력을 가진다는 것을 의미한다.
특정 실시양태에서, 도커는 생체분자 활성 부위에서 리간드 사이의 상호작용을 나타내는 도킹 점수를 출력한다. 도커는 리간드-생체분자 상호작용의 다양한 특징을 계산할 수 있다. 한 예에서, 출력값은 간단하게는 리간드와 생체분자 사이의 상호작용 에너지이다. 또 다른 실시양태에서, 총 에너지가 출력값이다. 총 에너지는 리간드-생체분자 상호작용 에너지와 리간드 변형의 조합인 것으로 이해될 수 있다. 특정 실행에서, 상기 에너지는 포스 필드, 예컨대, CHARMm을 사용하여 계산될 수 있다.
다양한 실시양태에서, 도킹 프로그램은 생체분자의 활성 부위에서의 리간드의 다중의 포즈를 고려함으로써 상기 출력값을 생성한다. 각 포즈는 그 자신과 관련된 에너지 값을 가질 것이다. 일부 실시양태에서, 도킹 프로그램은 포즈를 순위화하고, 순위가 높은 포즈 중 하나 이상과 관련된 에너지를 고려한다. 일부 경우에서, 특정의 순위가 높은 포즈의 에너지의 평균값을 구하거나, 또는 다르게는 최고 순위의 포즈의 통계학적 분석을 수행할 수 있다. 다른 실시양태에서, 이는 간단하게는 최고 순위의 포즈와 관련된 값을 선택하여 이를 도킹을 위한 생성 에너지로서 출력한다.
일부 실시양태에서, 기질의 컴퓨터 리프리젠테이션은 기질 분자를 원하는 생성물 분자로 전환시킬 수 있는 효소 반응의 반응 좌표를 따라 존재하는 분자 종에 상응한다. 일부 실시양태에서, 기질의 컴퓨터 리프리젠테이션은 기질 분자 그 자체를 나타낸다. 일부 실시양태에서, 기질의 컴퓨터 리프리젠테이션은 반응 좌표를 따라 형성되는 기질의 중간체 구조(즉, "기질의 반응 중간체")를 나타낸다. 일부 실시양태에서, 기질의 컴퓨터 리프리젠테이션은 효소 반응 좌표를 따라 형성되는 전이 상태 구조(즉, "기질의 전이 상태")를 나타낸다.
일부 실시양태에서, 리간드의 컴퓨터 리프리젠테이션은 효소 또는 생체분자에 강력하게 결합하지만, 반응 좌표를 따라 원하는 생성물로 진행되지 못하는 분자 종을 나타낼 수 있다. 예를 들어, 리간드의 컴퓨터 리프리젠테이션은 효소의 억제제를 스크리닝하기 위한 강력한 억제제, 또는 단백질(예컨대, 수용체)의 강력한 결합 길항제 또는 효능제를 나타낼 수 있다.
"포즈"는 생물학적 분자의 활성 부위와 관련하여 기질 또는 리간드의 위치 또는 배향이다. 포즈에서, 리간드의 원자 중 일부 또는 그들 모두의 3차원 위치는 활성 부위 내의 원자의 위치 중 일부 또는 그들 모두와 관련하여 명시된다. 입체구조가 활성 부위를 고려하지 않기 때문에 리간드의 입체구조가 그의 포즈가 아니지만, 포즈를 결정하는 데 입체구조가 사용될 수 있다. 일부 실시양태에서, 리간드의 배향 및 입체구조가 함께 포즈를 정의한다. 일부 실시양태에서, 포즈는 오직 리간드의 배향/입체구조 조합이 참조 활성 부위에서의 정의된 역치 에너지 수준을 충족하는 경우에만 존재한다.
도킹을 위한 포즈를 생성하는 데 다양한 전산 메커니즘이 사용될 수 있다. 예로는 회전 가능한 결합에 대한 체계적 또는 확률적 비틀림 검색, 분자 동역학 시뮬레이션, 및 새로운 저에너지 입체구조를 진화시키는 유전자 알고리즘을 포함한다. 이러한 기법을 사용하여 리간드 및/또는 활성 부위의 전산적 표현을 변형시킴으로써 "포즈 공간"을 탐색한다.
도커는 포즈를 평가하여 리간드가 활성 부위와 어떻게 상호작용하는지 측정한다. 일부 실시양태에서, 이는 상기 언급된 상호작용 유형 중 하나 이상(예컨대, 반 데르 발스 힘)에 기초하여 상호작용 에너지를 계산함으로써 수행한다. 상기 정보는 도킹을 특징화하는 데, 및 일부 경우에서는 도킹 점수를 생성하는 데 사용된다. 일부 실행에서, 도커는 도킹 점수에 기초하여 포즈를 순위화한다. 일부 실행에서, 도커는 적합하지 않은 도킹 점수를 가진 포즈는 고려 대상으로부터 제거한다.
특정 실시양태에서, 가상 단백질 스크리닝 시스템은 포즈를 평가하여 포즈의 활성 여부를 결정한다. 포즈가 고려되는 원하는 활성에 중요한 것으로 공지된 정의된 제약조건을 충족시킬 경우, 포즈는 활성인 것으로 간주된다. 한 예로, 가상 단백질 스크리닝 시스템은 포즈가 활성 부위에서 리간드의 촉매적 변환을 지원하는지 여부를 결정할 수 있다.
"리간드"는 생체분자의 활성 부위와 상호작용하여 적어도 리간드 및 생체분자를 함유하는 안정적인 복합체를 형성하는 분자 또는 복합체이다. 안정적인 복합체는 리간드 및 생체분자 이외에도 다른 화학적 엔티티, 예컨대, 유기 및 무기 보조인자(예컨대, 조효소 및 보결 분자단), 금속 이온 등을 포함할 수 있다(종종 필요로 할 수 있다). 리간드는 효능제 또는 길항제일 수 있다.
생체분자의 "활성 부위"는 분자(예컨대, 기질 또는 리간드) 모두 또는 그의 일부를 함유하고/거나, 그와 결합할 수 있는 생체분자의 구조에 의해 정의되는 부위이다. 많은 유형의 활성 부위가 고려되며, 그중 일부는 본원 다른 곳에 기술되어 있다. 활성 부위는 대개 기질 또는 리간드와 결합 상호작용을 형성할 수 있는 화학적 및/또는 물리적 특징(예컨대, 아미노산 잔기)를 함유한다. 일부 실시양태에서(예컨대, 생체분자가 효소일 때), "활성 부위"는 1개 이상의 촉매 잔기 및 복수의 결합 잔기, 및 종종 다른 화학 엔티티, 예컨대, 유기 및 무기 보조인자(예컨대, 조효소 및 보결 분자단), 금속 이온 등을 포함한다. 활성 부위의 1개 이상의 촉매 잔기는 기질의 전환을 촉진하는 촉매성 모이어티를 함유할 수 있다. 활성 부위의 결합 잔기는 기질과의 결합 상호작용하여 입체선택적 및/또는 위치 선택적 방식으로 그를 활성 부위 내에 그대로 유지시킨다. 상기 상호작용은 반 데르 발스 상호작용, 정전기적 상호작용, 수소 결합, 친수성 상호작용, 소수성 상호작용, 용매 상호작용, 공유 결합 등을 포함할 수 있다.
일부 실시양태에서, 활성 부위의 컴퓨터 리프리젠테이션은 기질 또는 리간드의 컴퓨터 리프리젠테이션과 도킹하여 활성 부위와의 바람직한 상호작용에 대하여 평가될 수 있는(예컨대, 포즈에 대한 결합 에너지 측정) 포즈를 생성하는 데 사용될 수 있다.
일부 실시양태에서, 활성 부위의 컴퓨터 리프리젠테이션은 구체 또는 다른 형상에 의해 기하학적으로 정의된다. 일부 실시양태에서, 활성 부위는 선택된 객체(예컨대, 리간드 및/또는 구조 주형 중 다른 화학적 엔티티) 주변에 그를 포함하도록 조정된 반경을 가진 구체를 생성함으로써 정의된다. 최소 반경은 5 Å이지만, 활성 부위는 구체 반경을 1 Å, 2 Å, 3 Å, 4 Å, 6 Å, 8 Å, 10 Å 등, 그만큼 증가시킴으로써 확장될 수 있다. 일부 실행에서, 반경의 크기는 반경에 가장 가까운 기질을 포획하도록 선택된다. 그러므로, 기질이 클수록 더욱 큰 반경과 관련이 있을 것이며, 작은 기질은 더 작은 반경과 관련이 있을 것이다. 본 발명을 임의의 특정 값의 반경으로 한정하고자 하지 않는다. 일부 실시양태에서, 활성 부위는, 활성 부위가 구조 주형에서 검출된 공동들 중 하나로부터 유래된 것인 수용체 공동으로부터 정의될 수 있다. 일부 실시양태에서, 구조 주형의 단백질 데이터 뱅크(PDB: Protein Data Bank) 파일은 대개 사이트 기록을 사용하여 정의된 활성 부위를 갖는 바, 활성 부위는 PDB 사이트 기록으로부터 정의될 수 있다. 모든 상동성 모델은 구조 주형을 사용하여 생성되기 때문에, 정의된 활성 부위는 모든 상동성 모델로 전달가능하다.
일부 실시양태에서, 활성 부위의 컴퓨터 리프리젠테이션은 기질 및/또는 효소 상의 모이어티를 참조로 하여 다양한 3차원 형상, 예컨대, 맞춤형 형상(예컨대, 타원형 또는 기질의 구조를 반영하는 불규칙한 형상)에 의해 정의될 수 있다.
일부 실시양태에서, 활성 부위의 컴퓨터 리프리젠테이션은 활성 부위에서 기질 또는 리간드 분자와 직접적으로 (예컨대, 반 데르 발스 상호작용, 정전기적 상호작용, 수소 결합을 통해) 상호작용하지 않고, 활성 부위의 컴퓨터 리프리젠테이션 중의 다른 아미노산과 상호작용하여 기질 또는 리간드의 포즈 평가에 영향을 미치는 아미노산을 포함하는 것으로 정의될 수 있다.
일부 실시양태에서, 촉매반응 및/또는 결합에 기여하는 잔기는 상기 정의된 바와 같이 활성 부위의 컴퓨터 리프리젠테이션의 바깥쪽에 존재할 수 있다. 상기 잔기는 활성 부위 이외의 잔기를 돌연변이 또는 재조합을 위한 후보로서 고려해 봄으로써 유도 진화 동안 변형될 수 있다.
"반응 중간체"는 기질에서 반응 생성물로의 변환에서 기질로부터 생성된 화학적 엔티티이다. 기질의 "전이 상태"는 반응 경로 중의 최고 잠재 에너지에 상응하는 상태의 기질이다. 잠깐 존재하는 경향이 있는 전이 상태에서 충돌 반응 물질 분자는 계속 진행되어 생성물을 형성한다. 본 개시내용에서, 종종 기질이 프로세스에서 기술될 때, 중간체 및 전이 상태 또한 상기 프로세스에 적합할 수 있다. 상기 상황에서, 기질, 중간체, 및 전이 상태는 총칭하여 "리간드"로 지칭될 수 있다. 일부 경우에서, 기질의 촉매적 변환에서 다중의 중간체가 생성된다. 특정 실시양태에서, 분석을 위해 선택된 리간드 종(기질 또는 중간체 또는 전이 상태)은 촉매적 변환에서 속도 제한 단계와 관련된 것으로 공지된 것이다. 한 예로서, 효소 보조인자에 공유 결합된 기질은 속도 제한 단계에서 화학적으로 변형될 수 있다. 상기 경우에, 기질-보조인자 종은 상호작용을 모델링하는 데 사용된다.
"리간드"란 생체분자에 결합할 수 있는 분자이며, 이는 결합할 수 있고, 추가로 촉매적 화학 변환이 일어날 수 있는 "기질" 분자를 포함할 수 있다. 일부 리간드는 활성 부위와 결합하지만, 촉매성 변환은 일어나지 않는다. 예로는 약물 디자인 분야에서 평가되는 리간드를 포함한다. 상기 리간드는 약리학적 목적으로 표적 생체분자와 비공유적으로 결합할 수 있는 그의 능력에 대해 선택되는 소형 분자일 수 있다. 일부 경우에서, 리간드는 생체분자의 천연 거동을 강화시키거나, 활성화시키거나, 또는 억제시킬 수 있는 그의 능력에 대해 평가된다.
"생체분자" 또는 "생물학적 분자"란 일반적으로 생물학적 유기체에서 발견되거나, 또는 그에 의해 생산되는 분자를 의미한다. 일부 실시양태에서, 생물학적 분자는 다중 서브유닛을 갖는 중합체성 생물학적 거대분자(즉, "생체중합체")를 포함한다. 전형적인 생체분자로는 단백질, 효소, 및 다른 폴리펩티드, DNA, RNA 및 다른 폴리뉴클레오티드를 포함하고, 자연적으로 발생된 중합체와 일부 구조상의 특징들을 공유하는 분자, 예컨대, RNA 유사체, DNA 유사체, 폴리펩티드 유사체, 펩티드 핵산(PNA: peptide nucleic acid), RNA 및 DNA의 조합(예컨대, 키메라플라스트) 등을 비롯한, (뉴클레오티드 서브유닛으로부터 형성된) RNA, (뉴클레오티드 서브유닛으로부터 형성된) DNA, 및 (아미노산 서브유닛으로부터 형성된) 펩티드 또는 폴리펩티드 또한 포함할 수 있다. 예컨대, 지질, 탄수화물, 또는 하나 이상의 유전적으로 코딩가능한 분자에 의해 제조된 다른 유기 분자(예컨대, 하나 이상의 효소 또는 효소 경로) 등을 포함하나, 이에 한정되지 않는, 임의의 적합한 생물학적 분자가 본 개시내용에서 사용될 수 있다는 것을 알 수 있는 바, 생체분자를 임의의 특정 분자로 한정하고자 하지 않는다. 리간드와 상호작용하여 화학적 또는 생물학적 변환, 예컨대, 기질의 촉매반응, 생체분자의 활성화, 또는 생체분자, 구체적으로 효소의 불활성화를 수행하는 활성 부위를 갖는 생체분자가 본 개시내용의 일부 측면에 있어 특히 관심의 대상이 된다.
일부 실시양태에서, "유익한 특성" 또는 "활성"은 하기: 촉매 속도(kcat), 기질 결합 친화도(KM), 촉매 효율(kcat/KM), 기질 특이성, 화학 선택성, 위치 선택성, 입체 선택성, 입체 특이성, 리간드 특이성, 수용체 효능 작용, 수용체 길항 작용, 보조인자의 전환, 산소 안정성, 단백질 발현 수준, 가용성, 열적 활성, 열적 안정성, pH 활성, pH 안정성(예컨대, 알칼리성 또는 산성 pH에서의 안정성), 글루코스 억제, 및/또는 억제제(예컨대, 아세트산, 렉틴, 탄닌산 및 페놀 화합물) 및 프로테아제에 대한 저항성 중 하나 이상의 증가 또는 감소이다. 다른 원하는 활성으로는 특정 자극(예컨대, 변경된 온도 및/또는 pH 프로파일)에 대한 반응으로 변경된 프로파일을 포함할 수 있다. 합리적인 리간드 디자인과 관련하여, 표적화된 공유 억제(TCI: targeted covalent inhibition)의 최적화가 활성의 한 유형이다. 일부 실시양태에서, 본원에 기술된 바와 같이 스크리닝된 2종 이상의 변이체는 같은 기질에 대하여 작용하지만, 하기 활성: 생성물 형성 속도, 기질의 생성물로의 전환율(%), 선택성, 및/또는 보조인자의 전환율(%) 중 하나 이상과 관련해서는 상이하다. 본 개시내용을 특정의 유익한 특성 및/또는 원하는 활성으로 한정하고자 하지 않는다.
일부 실시양태에서, "활성"은 기질의 생성물로의 전환을 촉진시킬 수 있는 효소의 능력이라는 더욱 제한된 개념을 기술하는 데 사용된다. 관련된 효소의 특징은 특정 생성물, 예컨대, 거울상이성질체 또는 위치 선택성 생성물에 대한 그의 "선택성"이다. 비록 통상적으로 선택성이 때때로 효소 활성과 다른 것으로 간주되기도 하지만, 본원에서 제공하는 "활성"이라는 것에 관한 광범위한 정의는 선택성을 포함한다.
"단백질," "폴리펩티드" 및 "펩티드"라는 용어는 상호교환적으로 사용되며, 이는 길이 또는 번역 후 변형(예컨대, 당화, 인산화, 지질화, 미리스틸화, 유비퀴틴화 등)에 상관없이, 아미드 결합에 의해 공유적으로 연결된 2개 이상의 아미노산으로 이루어진 중합체를 의미한다. 일부 경우에서, 중합체는 약 30개 이상의 아미노산 잔기, 및 일반적으로, 약 50개 이상의 아미노산 잔기를 가진다. 더욱 전형적으로, 중합체는 약 100개 이상의 아미노산 잔기를 함유한다. 본 용어는 통상 전장의 단백질 또는 펩티드의 단편으로 간주되는 조성물을 포함한다. D- 및 L-아미노산, 및 D- 및 L-아미노산의 혼합물도 본 정의에 포함된다. 본원에 기술된 폴리펩티드는 유전적으로 코딩된 아미노산으로 한정되지 않는다. 실제로, 유전적으로 코딩된 아미노산 이외에도, 본원에 기술된 폴리펩티드는 전체적으로 또는 부분적으로 자연적으로 발생된 및/또는 합성 비코딩된 아미노산으로 구성될 수 있다. 일부 실시양태에서, 폴리펩티드는 기능적 활성(예컨대, 촉매 활성)은 그대로 유지하면서, 전장의 모체 폴리펩티드의 아미노산 서열과 비교하였을 때, 아미노산 부가 또는 결실(예컨대, 갭) 및/또는 치환을 포함하는, 전장의 선조 또는 모체 폴리펩티드의 일부이다.
"야생형(wild-type)" 또는 "야생형(wildtype)"(WT) 생체분자 또는 유기체란 그가 자연 상태에 존재하는 것과 같은 전형적인 형태의 종의 표현형을 갖는 것이다. 종종 야생형 생체분자는 자연적으로 발생된 공급원으로부터 단리된 것이다. 다른 경우에 상기 생체분자는 실험실 환경에서 유도된다. 일반적으로, 야생형 생체분자는 돌연변이체 게놈과는 대조적으로 정규 또는 참조 게놈의 유전자 서열과 관련이 있거나, 또는 그에 의해 코딩된다. 네이티브 형태와 동일한 서열을 갖는 재조합 형태의 폴리펩티드 또는 폴리뉴클레오티드는 "야생형 생체분자"의 정의에 포함된다. 야생형 생체분자와 반응하는 기질 또는 리간드는 종종 "네이티브" 기질 또는 리간드로 간주된다.
본원에서 사용되는 바, "변이체," "돌연변이체," "돌연변이체 서열," 및 "변이체 서열"이라는 용어는 일부 측면에서 표준 또는 참조 서열(예컨대, 일부 실시양태에서, 모체 서열)과 다른 생물학적 서열을 의미한다. 상기 차이는 "돌연변이"로 지칭될 수 있다. 일부 실시양태에서, 돌연변이체는 1개 이상의 치환, 삽입, 교차, 결실, 및/또는 다른 유전자 연산에 의해 변경된 폴리펩티드 또는 폴리뉴클레오티드 서열이다. 본 개시내용의 목적을 위해, 돌연변이체 및 변이체는 그를 생성하는 특정 방법으로 제한되지 않는다. 일부 실시양태에서, 돌연변이체 또는 변이체 서열은 모체 서열과 비교하여 증가된, 감소된, 또는 실질적으로 유사한 활성 또는 특성을 가진다. 일부 실시양태에서, 변이체 폴리펩티드는 야생형 폴리펩티드(예컨대, 모체 폴리펩티드)의 아미노산 서열과 비교하여 돌연변이화된 하나 이상의 아미노산 잔기를 포함한다. 일부 실시양태에서, 복수의 폴리펩티드를 구성하는 변이체 폴리펩티드 중 폴리펩티드의 하나 이상의 아미노산 잔기는 모체폴리펩티드와 비교하여 일정하게 유지되거나, 비변이체이거나, 또는 돌연변이화되지 않는다. 일부 실시양태에서, 모체 폴리펩티드는 안정성, 활성 또는 임의의 다른 원하는 특성이 개선된 변이체를 생성하기 위한 기반으로서 사용된다.
본원에서 사용되는 바, "효소 변이체" 및 "변이체 효소"라는 용어는 특히 그의 기능에 있어서는 참조 효소와 유사하지만, 야생형 또는 또 다른 참조 효소와 다른 서열을 가지게 만드는 그의 아미노산 서열 중 돌연변이를 갖는 효소를 참조로 하여 사용된다. 효소 변이체는 당업자에게 널리 공지된 매우 다양한 상이한 돌연변이유발 기법에 의해 제조될 수 있다. 추가로, 돌연변이유발용 키트 또한 다수의 상업적 분자 생물학 공급업체로부터 이용가능하다. 정의된 아미노산(부위 지정)에서의 특이적인 치환, 유전자의 국재화된 영역(영역 특이적)에서의 특이적인 또는 무작위 돌연변이 또는 전체 유전자에 걸친 무작위 돌연변이유발(예컨대, 포화 무작위 돌연변이유발)이 일어나도록 하는 방법이 이용가능하다. PCR을 이용하는 단일 가닥 DNA 또는 이중 가닥 DNA의 부위 지정 돌연변이유발법, 카세트 돌연변이유발법, 유전자 합성, 오류 유발 PCR, 셔플링, 및 화학적 포화 돌연변이유발법, 또는 당업계에 공지된 임의의 다른 적합한 방법을 포함하나, 이에 한정되지 않는, 효소 변이체를 생성하는 다수의 적합한 방법이 당업자에게 공지되어 있다. 변이체 제조 후, 이는 원하는 특성(예컨대, 높은 또는 증가된; 또는 낮은 또는 감소된 활성, 증가된 열적 및/또는 알칼리성 안정성 등)에 대하여 스크리닝될 수 있다.
"효소의 패널"은 패널의 각 구성원이 동일한 화학 반응을 촉진하도록 선택된 효소 군이다. 일부 실시양태에서, 패널의 구성원은 다중 기질을 집합적으로 전환시킬 수 있으며, 이들에서는 각각 같은 반응이 일어나게 된다. 대개 패널 구성원은 다중 기질을 효율적으로 전환시키는 것이 선택된다. 일부 경우에서, 패널은 상업적으로 이용가능하다. 다른 경우에서, 이들은 한 독립체의 소유물이다. 예를 들어, 패널은 스크리닝에서 히트로서 확인된 다양한 효소를 포함할 수 있다. 특정 실시양태에서, 패널의 하나 이상의 구성원은 단지 컴퓨터 리프리젠테이션으로만 존재한다. 다시 말해, 효소는 가상 효소이다.
"모델"은 생체분자 또는 리간드의 구조의 리프리젠테이션이다. 이는 종종 구현된 엔티티의 원자 또는 모이어티에 대한 3차원 위치의 집합으로서 제공된다. 모델은 대개 활성 부위 또는 효소 변이체의 다른 측면의 전산적으로 제조된 리프리젠테이션을 포함한다. 본원에서 실시양태와 관련된 모델의 예는 상동성 모델링, 단백질 스레딩, 또는 루틴, 예컨대, 로제타(Rosetta)(rosettacommons.org/software/) 또는 몰레큘라 다이나믹스 시뮬레이션즈(Molecular Dynamics simulations)를 이용하는 순이론적(ab initio) 단백질 모델링으로부터 생성된다.
"상동성 모델"은 적어도 고려되는 리간드의 활성 부위를 함유하는 단백질 또는 단백질 일부분의 3차원 모델이다. 상동성 모델링은 단백질 구조가 상동성 단백질 중에서 보존되는 경향이 있다는 관찰값에 의존한다. 상동성 모델은 골격 및 측쇄를 포함하는 잔기의 3차원 위치를 제공한다. 모델은 모델링된 서열의 구조와 유사할 가능성이 있는 상동성 단백질의 구조 주형으로부터 생성된다. 일부 실시양태에서, 구조 주형은 "서열을 주형에 대하여 정렬시키는 단계" 및 "상동성 모델을 구축하는 단계"인 이 두 단계에서 사용된다.
"서열을 주형에 대하여 정렬시키는" 단계는 모델 서열을 하나 이상의 구조 주형 서열에 대해 정렬하고, 상동성 모델을 구축하기 위해 입력된 서열 정렬을 준비한다. 정렬은 모델 서열과 구조 주형 서열(들) 사이의 갭 및 다른 비유사 영역을 확인한다.
"상동성 모델을 구축하는" 단계는 공간적 제약을 유도하기 위해 구조 주형의 구조적 특징을 사용하며, 이는 결국에는 예컨대, 컨쥬게이트 구배 및 모의된 어닐링 최적화 방법을 사용하여 모델 단백질 구조를 생성하는 데 사용된다. 주형의 구조적 특징은 예컨대, NMR 또는 x선 결정학과 같은 기법으로부터 얻을 수 있다. 상기 기법의 예는 리뷰 논문, ["A Guide to Template Based Structure Prediction," by Qu X, Swanson R, Day R, Tsai J. Curr Protein Pept Sci. 2009 Jun;10(3):270-85]에서 살펴볼 수 있다.
"활성 입체구조"라는 용어는 단백질이 기질에서 화학 변환(예컨대, 촉매적 반응)이 일어날 수 있도록 허용하는 단백질(예컨대, 효소)의 입체구조를 참조로 하여 사용된다.
"활성 포즈"는 여기에서 리간드의 촉매적 변환이 이루어질 수 있거나, 또는 리간드가 일부 원하는 역할, 예컨대, 결합 부위와의 공유 결합을 수행할 수 있는 것이다.
"산화환원," "산화-환원," 및 "산환 환원 반응"이라는 용어는 한 반응은 산화이고, 그 역반응은 환원인 가역적인 화학 반응과 관련하여 상호교환적으로 사용된다. 상기 용어는 또한 원자가 그의 산화 상태로 변화되는 모든 화학 반응을 의미하는 것으로 사용되며; 일반적으로, 산환 환원 반응인 반응은 종 간의 전자 이동을 포함한다. 이는 예컨대, 이산화탄소(CO2)를 생성하는 탄소의 산화 또는 메탄(CH4)을 생성하는 탄소의 수소에 의한 환원과 같은 간단한 산환 환원 반응 과정이거나, 또는 예컨대, 인체에서 일련의 복잡한 전자 전달 과정을 통해 이루어지는 글루코스(C6H12O6)의 산화와 같은 복잡한 과정일 수 있다.
"옥시도리덕타제"는 산화환원 반응을 촉진하는 효소이다.
본원에서 사용되는 바, "전이(transferation)"라는 용어는 작용기를 한 화합물에서 또 다른 화합물로 전달하는 화학 반응을 의미한다. "트랜스퍼라제"란 전이 반응을 촉진하는 각종 효소들 중 임의의 것을 의미하는 것으로 사용된다.
"가수분해"라는 용어는 물이 화합물과 반응하여 다른 화합물을 제조하는 화학 반응으로서, 상기 반응은 물로부터의 수소 양이온 및 하이드록시드 음이온의 부가에 의해 화학 반응이 분리되는 것을 포함하는 화학 반응을 의미하는 것으로 사용된다.
"하이드롤라제"는 가수분해 반응을 촉진하는 효소이다.
"이성질체화"라는 용어는 화합물을 이성질체로 전환시키는 화학 반응을 의미하는 것으로 사용된다.
"이소머라제"는 이성질체화 반응을 촉진하여 그의 기질을 이성질체 형태로변화시키는 효소이다.
본원에서 사용되는 바, "결찰"이라는 용어는 새로운 화학 반응을 형성함으로써 두 분자를 결합시키는 임의의 화학 반응을 의미한다. 일부 실시양태에서, 결찰 반응은 더 큰 분자들 중 하나에 의존하는 작은 화학기의 가수분해를 포함한다. 일부 실시양태에서, 효소는 예컨대, C-O, C-S, C-N 등의 결합을 촉진하는 효소와 같이, 두 화합물로 함께 이루어지는 그의 결합을 촉진한다. 결찰 반응을 촉진하는 효소는 "리가제"로 지칭된다.
"리아제"는 가수분해 및 산화 이외의 수단에 의해 이루어지는 다양한 화학 반응의 분해를 촉진하는 효소이다. 일부 실시양태에서, 리아제 반응은 새로운 이중 결합 또는 새로운 고리 구조를 형성한다.
"케토리덕타제"는 전형적으로 보조인자 NADPH를 이용하여 케토 기를 하이드록실 기로 입체특이적으로 환원시키는 효소이다(예컨대, WO2008103248A2, WO2009029554A2, WO2009036404A2, WO2009042984A1, WO2009046153A1, 및 WO2010025238A2에 개시된 변이체 참조).
"트랜스아미나제" 또는 "아미노트랜스퍼라제"는, 아미노산 상의 아민 기인 NH2는 α-케토산 상의 케토 기인 =O와 교환이 이루어지는, 아미노산과 α-케토산 사이의 아미노기 전이 반응을 촉진하는 효소이다(예컨대, WO2010081053A2 및 WO2010099501A2에 개시된 변이체 참조).
"사이토크롬" 단백질("CYP"(cytochrome" protein)로 약칭)은 유기 물질의 산화에 관여하는 효소이다. 한 예로 사이토크롬 P450 효소가 있다. CYP 효소의 기질로는 대사 중간체, 예컨대, 지질 및 스테로이드성 호르몬 뿐만 아니라, 생체이물 물질, 예컨대, 약물 및 다른 독성 화학물질을 포함하나, 이에 한정되지 않는다. CYP는 약물 대사 및 생리활성에 관여하는 주요 효소이다. CYP는 효소 반응에서 기질로서 다양한 소분자 및 거대 분자를 이용한다. 사이토크롬 P450에 의해 촉진되는 가장 일반적인 반응으로는 예컨대, 1개의 산소 원자는 유기 기질(RH) 내로 삽입되고, 동시에 다른 산소 원자는 물로 환원되는 모노옥시게나제 반응이 있다. 사이토크롬 P450 효소는 헴 보조인자를 함유하는 단백질의 슈퍼패밀리에 속하며, 따라서, 헴단백질이다. 일반적으로, 이는 전자 전달 연쇄에서 최종 옥시다제 효소이다. 코덱시스(Codexis)로부터 이용가능한 마이크로사이프(MicroCyp)® 스크리닝 플레이트 및 효소가 약물 대사산물 및 신규한 선도 화합물의 제조에 유용하다(예컨대, WO2002083868A2, WO2005017105A2, WO2005017116A2, 및 WO2003008563A2에 개시된 변이체 참조).
"베이어-빌리거 모노옥시게나제"는 NADPH 및 산소 분자를 이용하여, 산소 원자가 카보닐 기질의 탄소-탄소 결합 내로 삽입되는 베이어-빌리거 산화 반응을 촉진하는 효소이다(예컨대, WO2011071982A2 및 WO2012078800A2의 변이체 참조).
"모노아민 옥시다제"(MAO: monoamine oxidase)(EC 1.4.3.4)는 두 탄소 쇄(-CH2-CH2-)에 의해 방향족 고리에 연결된 한 아미노 기를 함유하는 신경 전달 물질이자, 신경 조절 물질인 모노아민의 산화를 촉진하는 효소이다. MAO는 플라빈 함유 아민 옥시도리덕타제의 단백질 패밀리에 속한다(예컨대, WO2010008828A2의 변이체 참조).
"니트릴라제" 또는 니트릴 아미노하이드롤라제(EC 3.5.5.1)는 "유리" 아미드 중간체 형성 없이 니트릴의 카복실산 및 암모니아로의 가수분해를 촉진하는 효소이다(예컨대, WO2011011630A2의 변이체 참조).
"이민 리덕타제"는 전자를 질소 원자에 제공하도록 함으로써 이중 결합을 분해하는, 탄소-질소 이중 결합을 함유하는 이민 작용기의 환원을 촉진하는 효소이다.
"에논 리덕타제"는 케토 또는 알켄 이중 결합을 분해하는, 알켄 및 케톤의 컨쥬게이트된 시스템을 포함하는, 에논 작용기의 환원을 촉진하는 효소이다(예컨대, WO2010075574A2의 변이체 참조).
"아실라제"는 아실 아미드 또는 아실 에스테르 결합의 가수분해성 절단을 촉진하는 효소이다(예컨대, WO2010054319A2에서의 페니실린 G 아실라제의 변이체 참조).
"할로하이드린 데할로게나제"인 "HHDH(halohydrin dehalogenase)"는 인접한 할로하이드린의 분해에 관여하는 효소이다. 아그로박테리움 라디오박터(Agrobacterium radiobacter) AD1에서, 예를 들어, 상기 효소는 할로하이드린의 탈할로겐화를 촉진하여 상응하는 에폭시드를 제조한다(예컨대, WO2010080635A2에 개시된 변이체 참조).
본원에서 사용되는 바, "서열"이라는 용어는 전체 게놈, 전체 염색체, 염색체 세그먼트, 상호작용 유전자에 대한 유전자 서열의 집합, 유전자, 핵산 서열, 단백질, 펩티드, 폴리펩티드, 다당류 등을 포함하나, 이에 한정되지 않는, 임의의 생물학적 서열의 순서 및 아이덴티티를 의미한다. 일부 맥락에서, "서열"은 단백질(즉, 단백질 서열 또는 단백질 문자열) 중 아미노산 잔기의 순서 및 아이덴티티를, 또는 핵산(즉, 핵산 서열 또는 핵산 문자열) 중 뉴클레오티드의 순서 및 아이덴티티를 의미한다. 서열은 문자열로 표시될 수 있다. "핵산 서열"은 핵산을 포함하는 뉴클레오티드의 순서 및 아이덴티티를 의미한다. "단백질 서열"은 단백질 또는 펩티드를 포함하는 아미노산의 순서 및 아이덴티티를 의미한다.
"코돈"이란 유전자 코드의 일부이고, 단백질 중 특정 아미노산을 명시하거나, 또는 단백질 합성을 개시 또는 종결하는 3개의 연속된 뉴클레오티드로 이루어진 특이적 서열을 의미한다.
"유전자"라는 용어는 광범위하게 사용되며, 이는 생물학적 기능과 관련된 DNA 또는 다른 핵산의 임의의 세그먼트를 의미한다. 따라서, 유전자는 코딩 서열, 및 그의 발현에 필요한 조절 서열을 포함한다. 유전자는 또한 임의적으로 예를 들어, 다른 단백질에 대한 인식 서열을 형성하는 비발현 핵산 세그먼트를 포함한다. 유전자는 관심의 대상이 되는 소스로부터의 클로닝, 또는 공지된 또는 예측된 서열 정보로부터의 합성을 비롯한, 다양한 소스로부터 얻을 수 있고, 원하는 파라미터를 가지도록 디자인된 서열을 포함할 수 있다.
"모이어티"는, 작용기가 상기 분자의 특징적인 화학 반응을 담당하는 분자내 원자 또는 결합으로 이루어진 기인 것인, 서브구조로서 전체 작용기 또는 작용기의 일부를 포함할 수 있는 분자의 일부분이다.
"스크리닝"이란 하나 이상의 생체분자의 하나 이상의 특성을 측정하는 프로세스를 의미한다. 예를 들어, 전형적인 스크리닝 프로세스는 하나 이상의 라이브러리의 하나 이상의 구성원의 하나 이상의 특성을 측정하는 것을 포함한다. 스크리닝은 생체분자의 전산 모델 및 생체분자의 가상 환경을 사용하여 전산적으로 수행될 수 있다. 일부 실시양태에서, 가상 단백질 스크리닝 시스템은 원하는 활성 및 선택성의 선택된 효소에 대해 제공된다.
"발현 시스템"은 유전자 또는 다른 핵산에 의해 코딩되는 단백질 또는 펩티드를 발현하는 시스템이다.
"유도 진화," "유도된 진화," 또는 "인공 진화"란 인공 선택, 돌연변이, 재조합 또는 다른 조작에 의해 하나 이상의 생체분자 서열(또는 상기 서열을 나타내는 문자열)을 인공적으로 변이시키는 인실리코, 시험관내 또는 생체내 프로세스를 의미한다. 일부 실시양태에서, 유도 진화는, (1) 개체 변종이 존재하고, (2) 일부 변종은 유전성 유전자 정보를 가지며, (3) 일부 변종은 적합도가 상이한 것인 재생 집단에서 발생한다. 재생 성공 여부는 미리 결정된 특성, 예컨대, 유익한 특성에 대한 선택 결과에 의해 결정된다. 재생 집단은 예컨대, 시험관내 프로세스에서 물리적 집단 또는 인실리코 프로세스에서 컴퓨터 시스템에서의 가상 집단일 수 있다.
유도 진화 방법은 폴리뉴클레오티드에 쉽게 적용될 수 있고, 이로써, 발현, 스크리닝 및 검정될 수 있는 변이체 라이브러리가 생성도리 수 있다. 돌연변이유발법 및 유도 진화 방법은 당업계에 널리 공지되어 있다(예컨대, 미국 특허 번호 제5,605,793호, 제5,830,721호, 제6,132,970호, 제6,420,175호, 제6,277,638호, 제6,365,408호, 제6,602,986호, 제7,288,375호, 제6,287,861호, 제6,297,053호, 제6,576,467호, 제6,444,468호, 제5,811238호, 제6,117,679호, 제6,165,793호, 제6,180,406호, 제6,291,242호, 제6,995,017호, 제6,395,547호, 제6,506,602호, 제6,519,065호, 제6,506,603호, 제6,413,774호, 제6,573,098호, 제6,323,030호, 제6,344,356호, 제6,372,497호, 제7,868,138호, 제5,834,252호, 제5,928,905호, 제6,489,146호, 제6,096,548호, 제6,387,702호, 제6,391,552호, 제6,358,742호, 제6,482,647호, 제6,335,160호, 제6,653,072호, 제6,355,484호, 제6,03,344호, 제6,319,713호, 제6,613,514호, 제6,455,253호, 제6,579,678호, 제6,586,182호, 제6,406,855호, 제6,946,296호, 제7,534,564호, 제7,776,598호, 제5,837,458호, 제6,391,640호, 제6,309,883호, 제7,105,297호, 제7,795,030호, 제6,326,204호, 제6,251,674호, 제6,716,631호, 제6,528,311호, 제6,287,862호, 제6,335,198호, 제6,352,859호, 제6,379,964호, 제7,148,054호, 제7,629,170호, 제7,620,500호, 제6,365,377호, 제6,358,740호, 제6,406,910호, 제6,413,745호, 제6,436,675호, 제6,961,664호, 제7,430,477호, 제7,873,499호, 제7,702,464호, 제7,783,428호, 제7,747,391호, 제7,747,393, 7,751,986호, 제6,376,246호, 제6,426,224호, 제6,423,542호, 제6,479,652호, 제6,319,714호, 제6,521,453호, 제6,368,861호, 제7,421,347호, 제7,058,515호, 제7,024,312호, 제7,620,502호, 제7,853,410호, 제7,957,912호, 제7,904,249호, 및 모든 관련된 미국 이외의 대응 문헌; [Ling et al., Anal. Biochem, 254(2):157-78 [1997]]; [Dale et al., Meth. Mol. Biol., 57:369-74 [1996]]; [Smith, Ann. Rev. Genet., 19:423-462 [1985]]; [Botstein et al., Science, 229:1193-1201 [1985]]; [Carter, Biochem. J., 237:1-7 [1986]]; [Kramer et al., Cell, 38:879-887 [1984]]; [Wells et al., Gene, 34:315-323 [1985]]; [Minshull et al., Curr. Op. Chem. Biol., 3:284-290 [1999]]; [Christians et al., Nat. Biotechnol., 17:259-264 [1999]]; [Crameri et al., Nature, 391:288-291 [1998]]; [Crameri, et al., Nat. Biotechnol., 15:436-438 [1997]]; [Zhang et al., Proc. Nat. Acad. Sci. U.S.A., 94:4504-4509 [1997]]; [Crameri et al., Nat. Biotechnol., 14:315-319 [1996]]; [Stemmer, Nature, 370:389-391 [1994]]; [Stemmer, Proc. Nat. Acad. Sci. USA, 91:10747-10751 [1994]]; WO 95/22625; WO 97/0078; WO 97/35966; WO 98/27230; WO 00/42651; WO 01/75767; 및 WO 2009/152336(상기 문헌들은 모두 본원에서 참조로 포함된다) 참조).
특정 실시양태에서, 유도 진화 방법은 모체 단백질로부터 발생된 변이체를 코딩하는 유전자를 재조합함으로써 뿐만 아니라, 모체 단백질 변이체 라이브러리 중의 변이체를 코딩하는 유전자를 재조합함으로써 단백질 변이체 라이브러리를 생성한다. 본 방법은 모체 단백질 변이체 라이브러리의 1개 이상의 단백질을 코딩하는 서열 또는 서브서열을 포함하는 올리고뉴클레오티드를 사용할 수 있다. 모체 변이체 라이브러리의 올리고뉴클레오티드 중 일부는 밀접한 관계를 가지며, 오직 다른 변이체와의 재조합에 의해 가변되도록 선택되는 대체 아미노산에 대한 코돈 선택에 있어서만 상이할 수 있다. 본 방법은 1회 사이클 동안 또는 원하는 결과를 달성할 때까지 다회 사이클 동안 수행될 수 있다. 다회 사이클이 사용되는 경우, 각각은 전형적으로 허용가능하거나, 개선된 성능을 가지고, 1회 이상의 후속 재조합 사이클에서 사용하기 위한 후보물질인 변이체를 확인하는 스크리닝 단계를 포함한다. 일부 실시양태에서, 스크리닝 단계는 원하는 기질에 대한 효소의 촉매적 활성 및 선택성을 측정하는 가상 단백질 스크리닝 시스템을 포함한다.
일부 실시양태에서, 유도 진화 방법은 정의된 잔기에서 부위 지정 돌연변이 유발법에 의해 단백질 변이체를 생성한다. 상기 정의된 잔기는 전형적으로 결합 부위의 구조적 분석, 양자 화학 분석, 서열 상동성 분석, 서열 활성 모델 등에 의해 확인된다. 일부 실시양태는 유전자의 특이적 위치, 또는 좁은 영역에서의 모든 가능한(또는 가능한 그에 가깝게) 돌연변이를 생성하도록 시도되는 포화 돌연변이 유발법을 사용한다.
"셔플링" 및 "유전자 셔플링"은 일련의 쇄 연장 사이클을 거쳐 모체 폴리뉴클레오티드의 단편의 집합을 재조합하는 유도 진화 방법의 한 유형이다. 특정 실시양태에서, 쇄 연장 사이클 중 1회 이상은 자가 프라이밍이다; 즉, 단편 그 자체 이외의 다른 프라이머는 첨가되지 않고 수행된다. 각각의 사이클은 하이브리드화를 통한 단일 가닥 단편 어닐링, 이어서, 쇄 연장을 통한 어닐링된 단편의 신장, 및 변성을 포함한다. 셔플링 과정 동안에 걸쳐 성장 핵산 가닥은 전형적으로는, 종종 "주형 교환"으로도 지칭되는 것으로서, 한 핵산으로부터의 한 핵산 도메인을 제2 핵산으로부터의 제2 도메인을 교환하는 것인 프로세스에서 다중의 상이한 어닐링 파트너에 노출된다(즉, 제1 및 제2 핵산은 셔플링 방법에서 주형으로서의 역할을 한다).
주형 교환을 통해서 빈번하게, 상이한 기원을 갖는 단편 사이의 교차 도입의 결과인 키메라 서열이 생성된다. 교차는 어닐링, 연장, 및 변성으로 이루어진 다회 사이클 동안의 주형 교환식 재조합을 통해 형성된다. 따라서, 셔플링을 통해서는 전형적으로 변이체 폴리뉴클레오티드 서열이 제조된다. 일부 실시양태에서, 변이체 서열은 변이체의 "라이브러리"(즉, 다중 변이체를 포함하는 군)를 포함한다. 상기 라이브러리의 일부 실시양태에서, 변이체는 모체 폴리뉴클레오티드 중 2개 이상의 것으로부터의 서열 세그먼트를 포함한다.
2개 이상의 모체 폴리뉴클레오티드가 사용될 때, 개별 모체 폴리뉴클레오티드는 상이한 모체로부터의 단편이 셔플링 사이클에서 사용되는 어닐링 조건하에서 하이브리드화하는 데 충분한 정도로 상동성을 띤다. 일부 실시양태에서, 셔플링을 통해 상동성 수준이 상대적으로 제한된/낮은 모체 폴리뉴클레오티드의 재조합이 이루어질 수 있다. 대개, 개별 모체 폴리뉴클레오티드는 관심의 대상이 되는, 독특한 및/또는 고유의 도메인 및/또는 다른 서열 특징을 가진다. 독특한 서열 특징을 갖는 모체 폴리뉴클레오티드를 사용할 때, 셔플링을 통해서 고도로 다양한 변이체 폴리뉴클레오티드가 제조될 수 있다.
다양한 셔플링 기법인 당업계에 공지되어 있다. 예컨대, 미국 특허 번호 제6,917,882호, 제7,776,598호, 제8,029,988호, 제7,024,312호, 및 제7,795,030호(상기 특허는 모두 그 전문이 본원에서 참조로 포함된다)를 참조할 수 있다.
일부 유도 진화 기법은 제한 부위에 의존하지 않고 DNA 서열을 재조합하고, 시험관내에서 돌연변이화된 DNA 단편을 직접 생성하는 PCR 기반 방법인 "중첩 연장에 의한 유전자 스플라이싱(Gene Splicing by Overlap Extension)" 또는 "유전자 SOEing"를 사용한다. 본 기법의 일부 실행에서, 초기 PCR은 제2 PCR 동안 주형 DNA로서 사용되는 중첩 유전자 세그먼트를 생성하고, 이로써, 전장의 생성물이 생성된다. 내부 PCR 프라이머는 중간체 세그먼트 상의 중첩의 상보적인 3' 단부를 생성하고, 유전자 스플라이싱을 위한 뉴클레오티드 치환, 삽입, 또는 결실을 도입한다. 상기 중간체 세그먼트의 중첩 가닥은 제2 PCR에서 3' 영역에 하이브리드화되고, 연장되어 전장의 생성물이 생성된다. 다양한 적용에서, 전장의 생성물은 클로닝 목적으로 발현 벡터 내로 생성물을 삽입하기 위해 제한 효소 부위를 포함할 수 있는 측면에 위치하는 프라이머에 의해 증폭된다. 예컨대, 문헌 [Horton, et al., Biotechniques, 8(5): 528-35 [1990]]을 참조할 수 있다. "돌연변이유발법"은 한 돌연변이를 표준 또는 참조 서열, 예컨대, 모체 핵산 또는 모체 폴리펩티드 내로 도입하는 프로세스이다.
부위 지정 돌연변이유발법은, 비록 임의의 적합한 방법도 사용될 수 있다는 것을 알 수 있지만, 돌연변이를 도입하는 데 있어 유용한 기법의 한 예가 된다. 따라서, 별법으로, 또는 추가로, 돌연변이체는 유전자 합성, 포화 무작위 돌연변이유발법, 잔기의 반합성 조합 라이브러리, 반복적 서열 재조합("RSR": recursive sequence recombination")(예컨대, 미국 특허 출원 공개 번호 2006/0223143(상기 출원은 그 전문이 본원에서 참조로 포함된다)), 유전자 셔플링, 오류 유발 PCR, 및/또는 임의의 다른 적합한 방법에 의해에 의해 제공될 수 있다.
적합한 포화 돌연변이유발 방법의 한 예는 미국 특허 출원 공개 번호 20100093560(상기 출원은 그 전문이 본원에서 참조로 포함된다)에 기술되어 있다.
"단편"은 뉴클레오티드 또는 아미노산 서열의 임의의 일부분이다. 단편은 폴리펩티드 또는 폴리뉴클레오티드 서열을 절단하는 것을 포함하나, 이에 한정되지 않는, 당업계에 공지된 임의의 적합한 방법을 사용하여 제조될 수 있다. 일부 실시양태에서, 단편은 폴리뉴클레오티드를 절단하는 뉴클레아제를 사용함으로써 제조된다. 일부 추가의 실시양태에서, 단편은 화학적 및/또는 생물학적 합성 기법을 사용하여 생성된다. 일부 실시양태에서, 단편은 상보적인 핵산(들)의 부분적인 쇄 신장을 사용하여 생성된, 1개 이상의 모체 서열의 서브서열을 포함한다. 인실리코 기법을 포함하는 일부 실시양태에서, 가상 단편은 화학적 및/또는 생물학적 기법에 의해 생성된 단편의 결과를 모방하도록 전산적으로 생성된다. 일부 실시양태에서, 폴리펩티드 단편은 전장의 폴리펩티드의 활성을 보이지만, 일부 다른 실시양태에서, 폴리펩티드 단편은 전장의 폴리펩티드가 보이는 활성을 가지지 않는다.
"모체 폴리펩티드," "모체 폴리뉴클레오티드," "모체 핵산," 및 "모체"란 일반적으로 야생형 폴리펩티드, 야생형 폴리뉴클레오티드, 또는 다양성 생성 방법, 예컨대, 유도 진화에서 출발점으로서 사용되는 변이체를 의미하는 것으로 사용된다. 일부 실시양태에서, 모체 그 자체가 셔플링 또는 다른 다양성 생성 방법(들)을 통해 제조된다. 일부 실시양태에서, 유도 진화에서 사용되는 돌연변이체는 모체 폴리펩티드와 직접적인 관련이 있다. 일부 실시양태에서, 모체 폴리펩티드는 극한의 온도, pH 및/또는 용매 조건에 노출되었을 때에도 안정적이고, 셔플링을 위한 변이체를 생성하기 위한 기반으로서의 역할을 할 수 있다. 일부 실시양태에서, 모체 폴리펩티드는 극한의 온도, pH 및/또는 용매 조건에 안정적이지 않으며, 모체 폴리펩티드는 진화되어 강력한 변이체로 제조된다.
"모체 핵산"이 모체 폴리펩티드를 코딩한다.
"라이브러리" 또는 "집단"은 2개 이상의 상이한 분자, 문자열, 및/또는 모델, 예컨대, 핵산 서열(예컨대, 유전자, 올리고뉴클레오티드 등) 또는 그로부터의 발현 생성물(예컨대, 효소 또는 다른 단백질)로 이루어진 집합을 의미한다. 라이브러리 또는 집단은 일반적으로 다수의 상이한 분자를 포함한다. 예를 들어, 라이브러리 또는 집단은 전형적으로 약 10개 이상의 상이한 분자를 포함한다. 거대 라이브러리는 전형적으로 약 100개 이상의 상이한 분자, 더욱 전형적으로, 약 1,000개 이상의 상이한 분자를 포함한다. 일부 적용을 위해, 라이브러리는 적어도 약 10,000개 이상의 상이한 분자를 포함한다. 그러나, 본 발명은 특정 개수의 상이한 분자로 한정하고자 하지 않는다. 특정 실시양태에서, 라이브러리는 유도 진화 방법에 의해 제조된 다수의 변이체 또는 키메라 핵산 또는 단백질을 포함한다.
각각의 두 핵산으로부터의 서열이 조합되어 자손 핵산(들)으로 제조될 때, 두 핵산은 "재조합된" 것이다. 핵산 둘 모두가 재조합에 대한 기질일 경우, 두 서열은 "직접적으로" 재조합된 것이다.
"선택"이란 하나 이상의 생체분자가 관심의 대상이 되는 하나 이상의 특성을 갖는 것으로 확인되는 프로세스를 의미한다. 따라서, 예를 들어, 하나 이상의 라이브러리 구성원의 하나 이상의 특성을 측정하기 위해 라이브러리를 스크리닝할 수 있다. 라이브러리 구성원 중 하나 이상(들)이 관심의 대상이 되는 특성을 갖는 것으로 확인되었다면, 이는 선택된다. 선택은 라이브러리 구성원의 단리를 포함할 수 있지만, 이는 반드시 필요한 것은 아니다. 추가로, 선택 및 스크리닝은 동시 진행될 수 있고, 대개는 동시 진행된다. 본원에 개시된 일부 실시양태는 원하는 활성 및/또는 선택성을 갖는 효소를 스크리닝 및 선택하기 위한 시스템 및 방법을 제공한다.
"서열 활성 모델"이라는 용어는 한편으로는 생물학적 분자의 활성, 특징, 또는 특성과 다른 한편으로는 각종 생물학적 서열 사이의 관계를 기술하는 임의의 수학적 모델을 의미한다.
"참조 서열"은 그로부터 서열 변이가 이루어지는 서열이다. 일부 경우에서, "참조 서열"은 변이를 정의하는 데 사용된다. 상기 서열은 최고값(또는 최고값들 중 하나)의 원하는 활성을 갖는 모델에 의해 예측되는 것일 수 있다. 또 다른 경우에서, 참조 서열은 원래의 단백질 변이체 라이브러리의 구성원의 것일 수 있다. 특정 실시양태에서, 참조 서열은 모체 단백질 또는 핵산의 서열이다.
"차세대 시퀀싱" 및 "고처리량 시퀀싱"은 시퀀싱 프로세스를 병렬화하여 한꺼번에 동시 수천 또는 수백 만개의 서열을 제조하는 시퀀싱 기법이다. 적합한 다음 세대 시퀀싱 방법의 예로는 단일 분자 실시간 시퀀싱(예컨대, 퍼시픽 바이오사이언시스(Pacific Biosciences: 미국 캘리포니아주 멘로 파크)), 이온 반도체 시퀀싱(예컨대, 이온 토렌트(Ion Torrent: 미국 캘리포니아주 사우쓰 샌프란스시코)), 파이로시퀀싱(예컨대, 454, 미국 코네티컷주 브랜퍼드), 결찰에 의한 시퀀싱(예컨대, 라이프 테크놀러지즈(Life Technologies: 미국 캘리포니아주 칼즈배드)의 SOLid 시퀀싱), 합성 및 가역성 종결인자에 의한 시퀀싱(예컨대, 일루미나(Illumina: 미국 캘리포니아주 샌디에고)), 핵산 영상화 기술, 예컨대, 투과 전자 현미경법 등을 포함하나, 이에 한정되지 않는다.
"유전자 알고리즘"은 진화 과정을 모방한 과정이다. 유전자 알고리즘(GA: genetic algorithm)은 매우 다양한 분야에서 완전하게 특징화되지 못하였거나, 너무 복잡하여 완전하게 특징화될 수 없지만, 그에 대한 일부 분석적 평가는 이용가능한 문제의 해법을 찾는 데 사용된다. 즉, GA는 해답의 상대적인 값(또는 적어도 또 다른 것과 비교할 때 잠재적인 한 해답의 상대적인 값)에 대한 일부 정량가능한 척도에 의해 평가될 수 있는 문제의 해법을 찾는 데 사용된다. 본 개시내용과 관련하여, 유전자 알고리즘은 전형적으로 문자열이 하나 이상의 생물학적 분자(예컨대, 핵산, 단백질 등) 또는 모델, 예컨대, 서열 활성 모델을 트레이닝시키는 데 사용되는 데이터에 상응하는 경우에, 컴퓨터에서 문자열을 선택하거나, 조작하기 위한 프로세스이다.
전형적인 실행에서, 유전자 알고리즘은 제1 세대에서 문자열 집단을 제공하고, 평가한다. "적합도 함수"는 집단의 구성원 모델을 평가하고, 하나 이상의 기준, 예컨대, 높은 활성에 기초하여 그를 순위화한다. 순위가 높은 문자열은 제2 세대로의 승격을 위해 및/또는 알고리즘의 제2 세대를 위한 "자손(children) 문자열"을 생성하기 위한 메이팅을 위해 선택된다. 제2 세대에서 집단은 적합도 함수에 의해 유사하게 평가되고, 순위가 높은 구성원은 제1 세대와 같이 승격되고/거나, 메이팅된다. 유전자 알고리즘은, 알고리즘이 하나 이상의 순위가 높은 개체로 결론적으로 마무리되는 지점인 "수렴 기준"이 충족될 때까지 후속 세대에 대하여 상기와 같은 방식으로 계속 진행된다.
"유전자 연산"(또는 "GO": genetic operation)이라는 용어는 임의 유형의 문자열로 이루어진 임의 집단에서의(및 따라서, 상기 문자열에 의해 코딩된 물리적 객체의 임의의 물리적 특성에서의) 모든 변화는 논리 대수 함수의 유한 세트의 무작위 및/또는 미리 결정된 응용의 결과로서 기술될 수 있는, 생물학적 및/또는 전산학적 유전자 연산을 의미한다. GO의 예로는 증식, 교차, 재조합, 돌연변이, 결찰, 단편화 등을 포함하나, 이에 한정되지 않는다.
II. 가상 단백질 스크리닝
일부 실시양태에서, 가상 단백질 스크리닝 시스템은 정의된 온도에서 반응을 효율적으로 및 선택적으로 촉진시키는 활성과 같은 바람직한 활성을 가질 가능성이 있는 생체분자 변이체를 전산적으로 확인하는 것과 관련된 다양한 연산을 실행하도록 구성된다. 가상 단백질 스크리닝 시스템은 변이체와 상호작용하도록 의도된 1개 또는 1개 초과의 리간드의 리프리젠테이션을 입력값으로서 취할 수 있다. 시스템은 다른 입력값으로서 생체분자 변이체, 또는 적어도 상기 변이체의 활성 부위의 리프리젠테이션을 취할 수 있다. 리프리젠테이션은 리간드 및/또는 변이체의 원자 및/또는 모이어티의 3차원 위치를 포함할 수 있다. 상동성 모델은 생체분자 변이체의 리프리젠테이션의 예이다. 가상 단백질 스크리닝 시스템은 도킹 정보 및 활성 제약조건을 적용하여 변이체의 작용을 평가할 수 있다.
특정 실시양태에서, 가상 단백질 스크리닝 시스템은 하나 이상의 제약조건을 적용하여 활성 포즈와 불활성 포즈를 구별한다. 상기 포즈는 상기 기술된 바와 같이 도커에 의해 또는 또 다른 도구에 의해 생성될 수 있다. 리간드 포즈는 리간드의 하나 이상의 특징이 촉매적 변환 또는 다른 정의된 활성이 이루어질 수 있도록 환경에 배치되어 있는지 여부를 결정하기 위해 그의 환경에서 평가된다. 해당 환경은 전형적으로 효소 또는 다른 생체분자의 활성 부위이다.
기질 또는 다른 리간드가 생체분자의 활성 부위에 결합한다고 가정할 때, 요청되는 질의는 그가 "활성" 방식으로 결합하는지 여부이다. 전형적인 도킹 프로그램은 리간드가 활성 부위에 결합하는지 여부에 대해 답변할 수 있지만, 그가 "활성" 방식으로 결합하는지에 대해서는 답변하지 못한다.
특정 실시양태에서, 활성은 도커 또는 다른 도구에 의해 생성된 하나 이상의 포즈를 고려함으로써 측정된다. 각 포즈를 평가하여 그가 관심의 대상이 되는 활성("원하는 활성")과 관련된 제약조건을 충족하는지 여부를 결정한다. 활성 포즈는 리간드에서 촉매적 변환이 일어날 가능성이 있거나, 또는 그가 일부 원하는 역할, 예컨대, 결합 부위와 공유적으로 결합할 가능성이 있는 것이다.
활성으로서 기질의 촉매적 전환을 고려할 때, 가상 단백질 스크리닝 시스템은 특정 반응과 관련된 것으로 공지된 포즈를 확인하도록 구성될 수 있다. 일부 실시양태에서, 이는 기질 그 자체보다는 반응 중간체 또는 전이 상태를 고려하는 것을 포함한다. 전환 이외에도, 포즈는 다른 유형의 활성, 예컨대, 거울상 이성질체의 입체선택적 합성, 신약 개발, 생성물의 위치 선택적 전환 등에 중요한 것으로 확인된 표적 생체분자의 수용체에의 결합 등에 대하여 평가될 수 있다. 일부 경우에서, 활성은 비가역적 또는 가역적 공유 결합, 예컨대, 표적화된 공유 억제(TCI: targeted covalent inhibition)이다.
제약조건은 직접적으로, 수동적으로, 자동적으로, 실험적으로, 및/또는 앞서 공지된 정보에 기초하여 결정될 수 있다. 한 접근법에서, 연구원은 야생형 단백질에 대한 활성 부위 및 네이티브 기질을 평가한다. 이는 야생형 단백질이 성질에 의해 네이티브 기질에 대한 것으로 유도되는 것으로 공지되어 있으며, 따라서, 최상의 촉매 상수(kcat)를 가지기 때문이다. 일부 경우에서, 야생형 단백질과 네이티브 기질 또는 중간체 복합체의 결정 구조가 해명되었다. 이어서, 구조 분석에 기초하여 제약조건을 설정할 수 있다. 이는 제약조건을 결정하기 위한 "직접적인 접근법"으로 지칭된다. 상기 결정 구조가 이용가능하지 않을 경우, 평가는 예를 들어, 도킹 프로그램을 사용하여 수행될 수 있다. 연구원은 상기 프로그램을 사용하여 야생형 단백질에서 네이티브 기질의 촉매적 변환과 관련된 제약조건을 확인한다. 이는 제약조건을 결정하기 위한 수동적 또는 실험적 접근법으로 지칭된다. 또 다른 접근법에서, 제약조건은 양자 역학 연산을 사용하여 결정된다. 예를 들어, 연구원은 양자 역학을 이용하여 촉매 잔기(예컨대, Tyr) 및/또는 보조인자(예컨대, NADHP)의 작용기의 존재 하에서 기질 또는 중간체 또는 전이 상태를 최적화시킬 수 있고, 제약조건을 상기 상태와 유사하게 설정할 수 있다. 이러한 접근법은 종종 자동적 또는 순이론적 접근법으로 지칭된다. 상기 접근법을 이용하는 상업적 도구의 예로는 www|.|Gaussian.com으로부터의 가우시안(Gaussian)이 있다.
제약조건은 다양한 형태를 취할 수 있다. 특정 실시양태에서, 상기 제약조건 중 일부 또는 그들 모두는 3차원 공간에서 리간드 포즈 중의 1개 초과의 원자의 상대적인 위치(들)를 조건으로 지정하는 기하학적 제약조건이다. 일부 실시양태에서, 상기 공간은 활성 부위 내의 원자의 위치와 관련하여 정의될 수 있다.
"기하학적 제약조건(geometric constraint)"은 2개 이상의 참여자 모이어티 또는 다른 화학 원소의 지오메트리를 평가하는 제약조건이다. 특정 실시양태에서, 참여자 중 하나는 리간드 상의 모이어티 또는 다른 화학 종이다. 일부 실시양태에서, 참여자 중 또 다른 것은 생체분자의 활성 부위의 모이어티 또는 다른 화학적 특징이다. 활성 부위의 모이어티 또는 다른 화학적 특징은 생체분자 활성 부위(예컨대, 아미노산 잔기 측쇄) 상의 잔기, 전형적으로 활성 부위와 관련된 보조인자 또는 다른 화합물 상의 특징 및/또는 촉매반응 등과 관련이 있을 수 있다. 한 예로서, 케토리덕타제 단백질에 의한 케톤의 환원에서, 기질의 카보닐 기는 기하학적 제약조건에서 한 참여자일 수 있고, 효소 활성 부위의 티로신 모이어티는 기하학적 제약조건에서 제2 참여자일 수 있다.
일반적으로, 기하학적 제약조건은 한편으로는 리간드와 관련하여, 및 다른 한편으로는 결합 환경의 하나 이상의 특징과 관련하여 만들어진다. 일부 실시양태에서, 환경으로는 펩티드 골격(또는 측쇄)의 잔기 위치, 및/또는 보통 활성 부위 내에 상주하는 보조인자 또는 다른 비골격 물질을 포함할 수 있다.
기하학적 제약조건 중의 참여자의 지오메트리는 모이어티 사이의 거리, 모이어티 사이의 각, 모이어티 사이의 비틀림 관계 등, 그러한 면에서 정의될 수 있다. 종종, 제약조건으로는 활성을 특징화하는 데 사용되는 다중의 기본 기하학적 제약조건을 포함한다. 예를 들어, 기질의 위치에 대한 제약조건은 2개 이상의 원자 쌍 사이의 거리에 의해 정의될 수 있다. 한 예가 도 1에 제시되어 있다. 비틀림 관계인 경우, 기질 및 활성 부위 환경의 특징이 공통 회전축을 공유하는 명목상 평행한 판으로 간주될 때, 제약조건을 적절할 수 있다. 축 주변의 상기 플레이트의 상대적인 각 위치가 비틀림 제약조건을 정의한다.
도 1은 활성 포즈를 확인하기 위하여 기하학적 제약조건을 확인하는 데 사용될 수 있는 작업 흐름의 예를 도시한 것이다. 도시된 작업 흐름은 야생형 효소는 케톤 리덕타제이고, 네이티브 기질은 아세토페논인 것으로 가정한다. 도 1의 좌측 상단 코너에 도시된 바와 같이, 네이티브 반응은 입체선택적 촉매반응에 의해 아세토페논을 상응하는 알코올로 전환시킨다. 반응은 케톤 기질의 아세틸 탄소에서 키랄 중심을 도입한다. 야생형 케톤 리덕타제는 전환을 제어하고, 이로써, 오직 R 거울상 이성질체만이 제조된다. 반응은 보조인자로서 NADPH의 존재 하에서 수행된다. 반응은 도 1의 좌측 상단 코너에 개략적으로 도시되어 있다.
도 1의 우측 상단 코너에 촉매반응 및 선택성의 메커니즘이 도시되어 있다. 이 메커니즘은 활성 포즈를 불활성 포즈로부터 구별하는 데 사용되는 기하학적 제약조건을 정의할 때 고려된다. 본 프로세스의 일부로서, 연구원 또는 자동화 시스템은 야생형 케톤 리덕타제에서 그의 촉매 환경과 관련하여 아세토페논 기질의 배향을 측정한다. 일반적으로, 관련된 환경으로는 촉매적 변환이 일어날 때 존재하는 주변 잔기, 보조인자 등을 포함한다.
도시된 예에서, 야생형 케톤 리덕타제에서 활성 부위 환경의 관련된 특징은 (1) 야생형 효소의 골격 중 티로신 잔기, 및 (2) 보조인자인 NADPH에서의 원자 위치이다. 활성 포즈에서 기질의 다른 관련된 환경상의 특징은 활성 포즈 내의 서브포켓이다. 이는 도 1에는 제시되어 있지 않다. 서브포켓 중 하나는 아세토페논 기질의 페닐 기를 수용하고, 또 다른 것은 아세토페논의 메틸 기를 수용한다. 이들 서브포켓은 함께 반응의 입체특이성을 지시하는 배향으로 기질을 유지시킨다. 일부 실시양태에서, 상기 정보는 야생형 케톤 리덕타제 및 네이티브 아세토페논 기질 복합체의 결정 구조의 구조적 분석에 기초하여 수집된다. 따라서, 기하학적 제약조건은 직접적으로 정의될 수 있다.
케토리덕타제의 촉매적 메커니즘은 도시된 배열(도 1의 우측 상단 코너)에 제시된 화살표 순서로 도시되어 있다. 구체적으로, NADPH는 아세토페논의 카보닐 탄소와 커플링하는 하이드라이드 이온을 통해 전자를 공여하다. 동시에, 아세토페논의 카보닐 산소로부터의 전자쌍은 티로신 잔기의 양성자로 공여되고, 티로신의 하이드록실 산소로부터의 전자쌍은 NADP(H)의 리보스 모이어티의 양성자로 공여되어, 이로써, 기질의 상응하는 알코올로의 전환이 완성된다. 언급된 바와 같이, 반응은 기질의 페닐 기가 하나의 더 큰 서브포켓에 유지되면서, 그의 메틸 기는 더 작은 서브포켓에 유지되고, 그의 케톤 기는 티로신 하이드록실 기 쪽으로 매우 근접하게 유지되는 방향으로 진행된다.
도 1에 추가로 제시된 바와 같이, 야생형 케톤 리덕타제는 상이한 지질, 이로써, "원하는 기질"로 불리는 것의 전환을 입체특이적으로 촉진하는 변이체 케톤 리덕타제로 진화된다. 도 1 중간에 도시된 바와 같이, 원하는 반응은 메틸 tert-부틸 케톤의 상응하는 알코올 (1 tert-부틸 에틸 알코올)의 S 거울상 이성질체로의 전환이다. 반응은 전환을 위해 최적화된 변이체 효소의 활성 부위에서 및 보조인자 NADPH로 촉진된 것으로 추정된다.
반응이 원하는 입체특이성으로 전개되도록 보장하기 위해, 하나 이상의 제약조건이 결정되어야 한다. 네이티브 기질은 야생형 케톤 리덕타제에 의해 R 거울상 이성질체로 전환되고, 원하는 기질은 변이체에 의해 S 거울상 이성질체로 전환될 것이라는 것에 주목한다. 그러므로, 원하는 기질의 tert-부틸 기는 보통 네이티브 아세토페논 기질의 메틸 기를 수용하는 서브포켓 중에 위치하여야 하고, 원하는 기질의 메틸 기는 네이티브 기질의 페닐 기를 수용하는 서브포켓 중에 위치하여야 한다고 간주할 수 있다.
이를 염두에 두고, 위치 제약조건 세트는 도 1 좌측 하단 코너에 도시되어 있는 바와 같이 정의될 수 있다. 그 도면에 제시된 바와 같이, 네이티브 기질은 최대 전환율(kcat)을 얻기 위해 결정 구조 중 WT 효소 활성 부위에 안치되어 있는 바, 다양한 제약조건이 네이티브 기질의 3차원 위치와 관련하여 정의된다. 다시 말해, 도 1의 우측 상단 코너의 다이어그램과 관련하여 측정된 바와 같이, 촉매적 전환을 지시하는 카보닐 탄소 및 카보닐 산소, 및 입체선택성을 지시하는 카보닐 탄소 옆의 두 탄소 중 하나를 비롯한 네이티브 기질의 중요한 작용기의 배향은 X, Y, Z 좌표로 해석된다. 모든 변이체 중의 상동성 모델은 주형으로서 WT 구조를 사용하여 구축되었는 바, X, Y, Z 좌표는 변이체로 전이가능하다. 촉매적 티로신 잔기 및 NADPH 보조인자를 향한 최적의 배향으로 안치되어 있는 것으로 예측되는 바, 이러한 좌표계를 이용하여 원하는 기질의 중요한 작용기(C1(C2)C=O)의 위치를 네이티브 기질의 상응하는 4개의 원자의 위치와 비교할 수 있다. 촉매반응을 위한 잔기 및 보조인자(NADPH) 결합을 위한 잔기는 모든 변이체에 보존되고, 모든 변이체 중의 상기 티로신 및 NADPH에 대해서는 오직 미세한 입체구조적 또는 위치 변화만이 예상된다는 것은 주목할 만하다. 이를 염두에 두고, 도 1의 좌측 하단 코너에 도시된 위치 제약조건은 네이티브 기질의 카보닐 탄소 원자, 카보닐 산소 원자, 및 메틸 탄소 원자의 상응하는 위치와 관련하여 원하는 기질의 카보닐 탄소 원자, 카보닐 산소 원자, 및 중심 tert-부틸 원자의 위치 범위를 명시한다. 원하는 기질의 원자와 네이티브 기질의 상응하는 원자 사이의 위치 차이 범위는 거리 d1, d2, 및 d3로 표시된다. 한 예로서, 이들 거리는 각각 원하는 기질의 포즈가 활성 포즈인 것으로 간주되도록 하기 위해서는 대략 1 Å이어야 할 필요가 있을 수 있다. 제약조건 값은 보통 변이체 중의 촉매 티로신 및 보조인자의 미세한 입체구조적 변화를 반영하는 특정의 가요성을 허용하는 범위로 설정된다. 일부 실행에서, 상기 거리에 대한 기준은 머신 학습 알고리즘에 의해 리파이닝된다.
상기 예에서, 원하는 기질의 3개의 관련 원자의 위치는 네이티브 기질의 것에 가깝다. 상기 위치 제약조건을 충족하는 포즈에서 원하는 기질과 도킹된 케토리덕타제 변이체는 촉매적으로 활성이고, S 선택성일 것으로 예상된다.
일반적으로, 가상 단백질 스크리닝 시스템은 다양한 유형의 것 중 임의 유형의 기하학적 제약조건을 적용시킬 수 있다. 일부 실행에서, 참여자 사이의 절대 거리를 적용한다. 예를 들어, 기질의 카보닐 기 중 산소 원자와 활성 부위의 티로신 기의 원자 사이의 거리는 제약조건으로서 명시될 수 있다(예컨대, 상기 원자 사이의 거리는 2 Å ± 0.5 Å일 수 있다). 또 다른 예에서, 카보닐 기 중의 탄소 및 산소 원자 사이의 축에 의해 정의된 하나의 라인과, 활성 부위 중 페닐 기의 축을 따라 진행되는 또 다른 라인 사이의 각은 120°±20°이다.
도 1의 우측 하단에는 각각 원하는 기질의 하나 이상의 원자와, 결합 포켓 내의 효소 또는 보조인자(또는 다른 엔티티)의 하나 이상의 원자 사이에 정의되는, 기하학적 제약조건 유형의 예가 도시되어 있다. 거리 제약조건은 기질 상의 원자와 활성 부위 잔기, 보조인자 등, 그 위의 원자 사이의 거리로서 정의된다. 제약조건은 기질 및 그의 환경에 의해 정의되는 2개 이상의 축 사이의 각도상의 관계에 의해 포즈에 대하여 정의된다. 축은 결합 포켓 중 기질 및 모이어티의 원자 사이의 결합인 공규 결합일 수 있다. 예를 들어, 각은 기질 상의 두 원자 사이에 정의되는 하나의 축과, 잔기 상의 원자와 기질 상의 원자 사이의 분리로서 정의되는 또 다른 축 사이에 정의될 수 있다. 일부 다른 실시양태에서, 하나의 축은 잔기 측쇄 상의 두 원자 사이에 정의되고, 또 다른 축은 기질 상의 원자와 잔기 상의 원자 사이의 분리에 의해 정의된다. 추가의 기하학적 제약조건 유형은 도 1의 우측 하단 코너에 도시되어 있다. 이러한 유형의 제약조건은 "비틀림 제약조건"으로 지칭되고, 결합 포켓 중의 상이한 두 엔티티(그 중 하나는 전형적으로 기질 모두 또는 그의 일부분이다)는 공통 회전축을 공유하는 것으로 가정된다. 비틀림 제약조건은 공통 회전축 주변의 나머지 다른 한 엔티티와 관련하여 엔티티 중 하나의 각 위치 범위에 의해 정의될 수 있다.
일반적으로, 기하학적 제약조건은 결합 포켓 내의 기질 모이어티의 일부 미리 조정된 기하학적 위치 또는 배향과 관련하여 적용될 수 있다. 상기 위치 또는 배향은 예를 들어, 결합 포켓 내의 네이티브 기질 중 활성 모이어티의 대표적인 위치에 의해 명시될 수 있다. 한 예로서, 고려되는 기질의 카보닐 기의 탄소 및 산소 원자는 결합 포켓 내의 네이티브 기질 중 카보닐 기의 탄소 산소 원자의 위치로부터 1 Å 이내에 존재하여야 한다. 도 1 좌측 하단 코너에 제시된 위치 제약조건을 참조할 수 있다. 도 1 좌측 하단 코너의 위치 제약조건은 원하는 기질과 네이티브 기질 사이에 존재한다는 것에 주목한다. 그러나, 위치 제약조건은 도 1의 중간 및 우측 하단 코너의 기하학적 제약조건에 상응하는 원하는 기질과 효소 변이체 사이의 관계로 해석될 수 있다.
기하학적 제약조건을 직접적으로, 수동으로, 또는 컴퓨터 시스템을 이용하여 자동적으로 측정하는 것 이외에도, 제약조건은 또한 결과를 스크리닝함으로써 리파이닝될 수 있다. 예를 들어, 실험실에서의 스크리닝을 통해 1개 또는 1개 초과의 변이체가 활성인 것으로 확인된 반면, 일부 다른 것들은 원하는 반응에 대해 불활성인 것으로 확인된 경우, 그의 포즈는 추가로 분석될 수 있고, 제약조건은 트레이닝될 수 있다.
도 1에 도시된 예는 원하는 기질로서 상대적으로 작고, 간단한 분자(메틸 tert-부틸 케톤)를 사용하였지만, 대개는 유도 진화 노력에서는 훨씬 더 크고, 더욱 복잡한 기질이 평가된다.
도 2는 일부 실행에서 후보 생체분자의 잠재적인 활성을 분석하기 위한 작업 흐름을 제공한다. 다수의 다른 활성이 고려될 수 있지만, 본 실시양태에서 강조되는 것은 기질의 촉매적 변환이다. 변환은 거울상 이성질체 선택적 또는 위치 선택적일 수 있다. 상기 경우에서, 변이체는 효소이다. 상기 도면의 설명에서, "기질"이라는 용어가 사용될 때, 본 개념은 기질의 반응 생성물로의 촉매적 변환에서 속도 측정 단계에서 중요한, 관련된 리간드, 예컨대, 반응 중간체 또는 전이 상태로 확장된다.
도 2에 제시된 바와 같이, 프로세스는 기질의 활성 포즈를 불활성 포즈와 구별하는 제약조건을 확인함으로써 시작된다. 블록 (201)을 참조할 수 있다. 일부 경우에서, 제약조건은 도킹에 의해 확인된다. 상기 프로세스에서, 연구원은 효소 활성 부위와 기질 또는 반응 중간체 또는 전이 상태의 상호작용을 고려한다. 프로세스에서, 상기 연구원은 원하는 활성(예컨대, 입체특이적인 촉매적 변환 기질)을 일으키는 제약조건을 확인한다. 연구원은 효소 및 관련된 기질, 중간체, 또는 전이 상태의 리프리젠테이션을 나타내는 구조 분석, 도킹 프로그램 및/또는 양자 역학 연산의 도움으로 이를 수행할 수 있다. 도커를 이용하여 수행된 도킹은 때때로 "실험적" 도킹 접근법으로 지칭되고, 양자 역학 도구를 이용하여 수행된 최적화는 때때로 "순이론적" 접근법"으로 지칭된다. 일부 실시양태에서, 도킹은 야생형 효소와 네이티브 기질, 중간체, 또는 전이 상태를 이용하여 수행된다. 블록 (201)을 참조할 수 있다. 상기에서 설명된 바와 같이, 일부 제약조건은 도 1의 좌측 하단 코너에 제시된 바와 같이 원하는 기질 중의 모이어티 및 네이티브 기질 또는 관련된 보조인자 중의 모이어티의 상대적인 위치를 나타내는 기하학적 제약조건이다. 일부 실행에서, 제약조건은 예컨대, 도 1의 중간 및 우측 하단 코너에 제시된 기하학적 제약조건과 같이 원하는 기질 및 효소 변이체 사이의 관계로서 정의될 수 있다.
일부 경우에서, 활성 포즈에 대한 제약조건은 야생형 효소에서 네이티브 기질을 도킹하는 것 이외의 다른 기법에 의해 확인될 수 있다. 예를 들어, 양자 역학 및 분자 동력학적 도구를 사용하여 촉매 반응에 대해 관련된 모이어티를 확인할 수 있고, 확인된 모이어티 사이의 관계를 정의할 수 있다.
다시 도 2에 제시된 프로세스를 돌아가서, 가상 단백질 스크리닝 시스템은 활성에 대해 고려되는 다중의 변이체 생체분자 각각에 대한 구조 모델을 생성하거나, 수신한다. 블록 (203)을 참조할 수 있다. 설명된 바와 같이, 구조 모델은 효소 변이체의 활성 부위 또는 다른 측면에 대해 컴퓨터에 의해 생성된 3차원 리프리젠테이션이다. 이들 모델은 추후 사용을 위해 데이터베이스 또는 다른 데이터 저장소에 저장될 수 있다. 일부 경우에서, 모델 중 1개 이상은 작업 흐름에서의 사용을 위해 생성된다. 일부 경우에서, 모델 중 1개 이상은 앞서 생성된 것이며, 이러한 경우, 프로세스는 간단하게 상기 모델을 수신한다.
각각이 상이한 생체분자 서열에 대한 것인 다중 모델이 도 2에 제시된 프로세스에서 사용된다. 이는 도킹 프로그램을 이용하는 종래 작업 흐름과 대조를 이루어야 한다. 종래 작업 흐름은 단일 표적 또는 서열에 중점을 둔다. 일부 경우에서, 종래 작업 흐름은 수용체에 관한 다중의 예를 고려하지만, 이는 동일 서열에 기초한 기초한 것이다. 각 경우는 NMR 또는 분자 동역학적 시뮬레이션으로부터 생성된 상이한 3차원 좌표를 가진다.
도 2의 프로세스에서 사용된 구조 모델은 활성 부위 또는 효소의 서열 중 일부 다른 위치와 관련된 위치에서 하나 이상의 아미노산 잔기 모델에서의 삽입, 결실, 또는 치환에 의해 서로 차이가 난다. 구조 모델은 다양한 기법에 의해 새성될 수 있다. 한 실시양태에서, 상동성 모델링에 의해 생성된다.
활성 제약조건 및 구조 모델이 있는 경우, 가상 단백질 스크리닝 시스템은 고려를 위해 선택된 변이체에 대해 반복된다. 반복 제어는, 고려되는 다음 변이체 효소가 분석을 위해 선택된다는 것을 나타낸, 블록 (205)에 의해 예시된다. 도 2의 상기 연산 및 나머지 연산은 소프트웨어 또는 디지털 논리에 의해 실행될 수 있다.
현재 고려되고 있는 변이체 효소의 경우, 가상 단백질 스크리닝 시스템은 먼저 원하는 기질을 변이체의 활성 부위에 도킹하고자 하는 시도를 한다. 블록 (207)을 참조할 수 있다. 본 프로세스는 종래 도킹 방법에 상응할 수 있다. 그러므로, 도커를 사용하여 기질이 변이체 중 활성 부위와 도킹할 수 있는지 여부를 결정할 수 있다. 이러한 결정은 블록 (209)에 제시되어 있다. 원하는 기질은 종종 제약조건을 생성하는 데 사용될 수 있는 네이티브 기질과 상이하다는 점에 주목한다.
가상 단백질 스크리닝 시스템을 통해 도킹의 성공 가능성이 적다고 결정되어다면, 프로세스 제어는, 시스템이 고려해야 할 임의의 추가 변이체가 더 존재하는지 여부를 결정하는 블록 (220)으로 향하도록 유도된다. 고려해야 할 추가 변이체가 없을 경우, 명시된 바와 같이, 프로세스는 임의적인 연산 (223)으로 종료된다. 한편, 하나 이상의 변이체가 고려해야 하는 것으로 남아있는 경우, 프로세스 제어는 고려를 위해 다음 변이체를 선택하는 프로세스 단계 (205)로 다시 향하도록 유도된다. 이어서, 블록 (207) 및 (209)를 참조하여 상기 기술된 바와 같이 상기 변이체를 고려되는 기질에 도킹할 수 있는 그의 능력에 대하여 평가한다.
고려되는 변이체가 기질과 성공적으로 도킹할 수 있다고 판명되었다면, 프로세스 제어는 다중 포즈가 고려되고, 각각은 활성에 대해 평가되는 알고리즘의 일부분으로 향하도록 유도된다. 하기 기술되는 바와 같이, 본 분석은 블록 (211), (213), (215), 및 (217)애 의해 도시된다.
제시된 바와 같이, 프로세스는 다중의 이용가능한 포즈에 대해 반복된다. 다양한 실시양태에서, 도커는 포즈 선택에 도움을 준다. 설명된 바와 같이, 도커는 활성 부위 중 기질의 다수의 포즈를 생성할 수 있다. 이는 또한 하나 이상의 기준, 예컨대, 도킹 점수, 에너지적 고려 사항 등에 기초하여 포즈를 순위화할 수 있다. 다른 곳에 기술된 바와 같이, 전체 에너지 및/또는 상호작용 에너지가 고려될 수 있다. 포즈가 어떻게 생성되는지 및/또는 순위화되는지 그와는 상관없이, 작업 흐름은 명시된 개수의 포즈를 고려하도록 구성될 수 있다. 고려되는 포즈의 개수는 임의로 설정될 수 있다. 한 실시양태에서, 상위의 약 10개 이상의 포즈가 고려된다. 또 다른 실시양태에서, 약 20개 이상의 포즈가 고려되거나, 또는 약 59개 이상의 포즈, 또는 약 100개 이상의 포즈가 고려된다. 그러나, 본 발명을 특정 개수의 포즈로 한정하고자 하지 않는다.
블록 (211)에 도시된 바와 같이, 프로세스는 분석을 위해 다음 포즈를 선택한다. 이어서, 현 시점에서 선택된 포즈를 블록 (201)에서 확인된 제약조건에 대해 평가함으로써 포즈가 활성 포즈인지 여부를 결정한다. 설명된 바와 같이, 상기 제약조건은 기질의 하나 이상의 모이어티가 활성 부위 내에 위치하는지, 이로써, 기질에서 원하는 촉매적 변환이 이루어질 가능성이 있는지 여부를 결정하는 기하학적 제약조건일 수 있다.
블록 (213)에서 수행된 평가가 현 포즈가 활성가 아니라고 나타낼 경우, 이때 가상 단백질 스크리닝 시스템은 고려되는 현 변이체에 대해 고려해야 할 임의의 추가 포즈가 더 존재하는지 여부를 결정한다. 블록 (215)를 참조할 수 있다. 고려해야 할 포즈가 더 있다고 가정할 때, 프로세스 제어는 다음 포즈를 고려하는 블록 (211)로 다시 향하도록 유도된다.
가상 단백질 스크리닝 시스템이 블록 (213)에서 고려되는 포즈가 활성이라고 결정한 것으로 가정하였을 때, 추후 고려를 위해 상기 포즈를 기록한다. 블록 (217)를 참조할 수 있다. 일부 실시양태에서, 가상 단백질 스크리닝 시스템은 현재 고려되는 변이체에 대한 누계수의 활성 포즈를 유지할 수 있다.
현 포즈가 활성이라는 것을 적절히 기록한 후, 프로세스 제어는, 가상 단백질 스크리닝 시스템이 고려해야 할 임의의 추가 포즈가 존재하는지 여부를 결정하는 블록 (215)로 향하도록 유도된다. 고려되는 변이체에 대하여 이용가능한 모든 포즈에 대한 고려를 반복한 후, 가상 단백질 스크리닝 시스템은 고려해야 할 추가 포즈가 없다고 결정하고, 프로세스 제어는, 현 변이체의 가능한 활성을 특징화하는 블록 (218)로 향하도록 유도된다. 다양한 기법에 의해 고려되는 변이체에 대한 활성 포즈 개수 및 도킹 점수 및 본원에 기술된 다른 고려 사항을 포함하나, 이에 한정되지 않는 특징에 대해 규명될 수 있다. 블록 (218) 연산 완료 후, 프로세스 제어는 고려해야 할 임의의 추가 변이체가 존재하는지 여부를 결정하는, 결정 연산 (220)으로 향하도록 유도된다. 고려해야 할 추가 변이체가 존재할 경우, 프로세스 제어는 블록 (205)로 다시 복귀하고, 여기서, 작업 흐름이 상기 기술된 바와 같이 계속 진행된다.
작업 흐름에서 모든 변이체를 고려한 후, 가상 단백질 스크리닝 시스템은 그를 하나 이상의 기준, 예컨대, 변이체가 가지고 있는 활성 포즈 개수, 활성 포즈의 하나 이상의 도킹 점수 및/또는 활성 포즈의 하나 이상의 결합 에너지에 기초하여 순위화할 수 있다. 블록 (223)을 참조할 수 있다. 오직 활성 포즈로서 확인된 포즈(블록 (217))만이 블록 (223)의 순위화를 수행하는 데 평가될 필요가 있다. 이러한 방식으로, 작업 흐름에서 연산은 활성 포즈로부터 불활성 포즈를 필터링하고, 변이체를 순위화하는 것과 관련된 컴퓨터 사용 노력을 절감시켜 주는 작용을 한다. 도 2에 제시되지는 않았지만, 변이체를 그의 순위화에 기초하여 추가 연구를 위해 선택될 수 있다.
특정 실시양태에서, 결합 에너지를 계산하는 프로토콜은 변이체의 각 활성 포즈의 에너지학적 성질을 평가하도록 실행된다. 일부 실행에서, 프로토콜은 반 데르 발스 힘, 정전기적 상호작용, 및 용매화 에너지를 고려할 수 있다. 용매화는 계산상 도커에 의해 실행되는 것으로는 간주되지 않는다. 거리 의존성 유전체, 쌍별 합산을 이용하는 제너럴라이즈드 보른(GenBorn: Generalized Born with pairwise summation), 암시적 막을 이용하는 제너럴라이즈드 보른(GBIM: Generalized Born Generalized Born with Implicit Membrane), 분자 부피 적분을 이용하는 제너럴라이즈드 보른(GBMV: Generalized Born with Molecular Volume integration), 간단한 전환을 이용하는 제너럴라이즈드 보른(GBSW: Generalized Born with a simple switching), 및 비극성 표면적을 이용하는 포아송 볼츠만 방정식(PBSA: Poisson-Boltzmann equation with non-polar surface area)을 포함하나, 이에 한정되지 않는 결합 에너지를 계산하는 데 다양한 용매화 모델이 이용가능하다. 결합 에너지를 계산하는 프로토콜은 도커 프로그램과는 상이하거나, 또는 별개의 것이다. 일반적으로 이는 부분적으로는 그 계산상 용매화 효과를 포함하는 것에 기인하여 도킹 점수보다 더 정확한 결과를 산출한다. 다양한 실행에서, 결합 에너지는 활성인 것으로 간주되는 포즈에 대해서만 계산된다.
A. 각각이 활성 부위를 포함하는 것인 다중 생체분자의 모델 생성
컴퓨터 시스템은 복수의 단백질 변이체에 대한 3차원 모델을 제공할 수 있다. 3차원 모델은 단백질 변이체의 전장의 서열 중 일부 또는 그들 모두에 대한 컴퓨터 리프리젠테이션이다. 전형적으로, 최소한도로, 컴퓨터 리프리젠테이션이 적어도 단백질 변이체의 활성 부위를 커버한다.
일부 경우에서, 3차원 모델은 적절하게 디자인된 컴퓨터 시스템을 이용하여 제작된 상동성 모델이다. 3차원 모델은 단백질 변이체는 그의 아미노산 서열에 있어 서로 차이가 나는 것인 구조 주형을 사용한다. 일반적으로, 구조 주형은 앞서 X선 결정학 또는 NMR에 의해 모델 서열과 상동성인 서열에 대하여 해명된 구조이다. 상동성 모델의 정질은 서열 동일성 및 구조 주형의 해상도에 의존한다. 특정 실시양태에서, 3차원 모델은 현재 또는 향후 프로젝트에 필요할 때 사용하기 위해 데이터베이스에 저장될 수 있다.
단백질 변이체의 3차원 모델은 상동성 모델링 이외의 기법에 의해 제작될 수 있다. 한 예는 구조 주형 또한 필요로 하는 단백질 스레딩이다. 또 다른 예는 구조 주형을 필요로 하지 않고, 기본 물리적 원칙에 기초하는 순이론적 또는 새로운(de novo) 단백질 모델링이다. 순이론적 기법의 예로는 분자 동역학 시뮬레이션 및 로제타 소프트웨어 스위트를 이용하는 시뮬레이션을 포함한다.
일부 실시양태에서, 단백질 변이체는 그의 활성 부위에서 서로 차이가 난다. 일부 경우에서, 활성 부위는 활성 부위의 아미노산 서열에 있어 1개 이상의 돌연변이에 의해 서로 상이하다. 돌연변이(들)는 야생형 단백질 서열 또는 일부 다른 참조 단백질 서열에서 일어날 수 있다. 일부 경우에서, 2개 이상의 단백질 변이체는 활성 부위에 대해 동일한 아미노산 서열을 공유하지만, 단백질의 또 다른 영역에 대한 아미노산 서열에서 차이가 난다. 일부 경우에서, 두 단백질 변이체는 약 2개 이상의 아미노산, 또는 약 3개 이상의 아미노산, 또는 약 4개 이상의 아미노산에 의해 서로 상이하다. 그러나, 본 발명을 구체적인 개수의, 단백질 변이체 사이의 아미노산 차이로 한정하고자 하지 않는다.
특정 실시양태에서, 복수의 변이체는 1회 이상의 라운드의 유도 진화에 의해 생성된 라이브러리 구성원을 포함한다. 유도 진화에 사용되는 다양성 생성 기법으로는 유전자 셔플링, 돌연변이유발법, 재조합 등을 포함한다. 유도 진화 기법의 예는 미국 특허 출원 공개 번호 2006/0223143에 기술되어 있으며, 상기 특허는 그 전문이 본원에서 참조로 포함된다.
일부 실행된 프로세스에서, 복수의 변이체는 약 10개 이상의 상이한 변이체, 또는 약 100개 이상의 상이한 변이체, 또는 약 1,000개 이상의 상이한 변이체를 포함한다. 그러나, 본 발명을 특정 개수의 단백질 변이체로 한정하고자 하지 않는다.
B. 다중의 상이한 단백질 변이체에서의 리간드 평가
본원에서 설명된 바와 같이, 도킹은 리간드의 컴퓨터 리프리젠테이션 및 생성된 복수의 변이체의 활성 부위의 컴퓨터 리프리젠테이션을 이용하는 적절하게 프로그램화된 컴퓨터 시스템에 의해 수행된다.
한 예로서, 도커는 하기 연산 중 일부 또는 그들 모두를 실행하기 위해 수행될 수 있다:
1. 무작위 시드와 함께 고온 분자 동역학을 이용하여 리간드 입체구조 세트를 생성한다. 도커는 리간드 환경을 고려하지 않고, 상기 입체구조를 생성할 수 있다. 따라서, 도커는 오직 내부 변형 또는 단독으로 리간드에 특이적인 다른 고려 사항만을 고려함으로써 바람직한 입체구조를 확인할 수 있다. 생성되는 입체구조의 개수를 임의적으로 설정해 놓을 수 있다. 한 실시양태에서, 약 10개 이상의 입체구조가 생성된다. 또 다른 실시양태에서, 약 20개 이상의 입체구조가 생성되거나, 또는 약 50개 이상의 입체구조, 또는 약 100개 이상의 입체구조가 생성된다. 그러나, 본 발명을 구체적인 개수의 입체구조로 한정하고자 하지 않는다.
2. 리간드의 중심을 수용체 활성 부위 내의 명시된 위치로 번역하고, 일련의 무작위 회전을 수행함으로써 입체구조의 무작위 배향을 생성한다. 리파이닝되는 배향의 개수는 임의적으로 설정해 놓을 수 있다. 한 실시양태에서, 약 10개 이상의 배향이 생성된다. 또 다른 실시양태에서, 약 20개 이상의 배향이 생성되거나, 또는 약 50개 이상의 배향, 또는 약 100개 이상의 배향이 생성된다. 그러나, 본 발명을 구체적인 개수의 배향으로 한정하고자 하지 않는다. 특정 실시양태에서, 도커는 "연화" 에너지를 계산하여 배향 및 입체구조의 추가 조합을 생성한다. 도커는 활성 부위에서의 특정 배향의 허용성에 대한, 물리적으로 비현실적인 가정을 이용하여 연화 에너지를 계산한다. 예를 들어, 도커는 리간드 원자 및 활성 부위 원자가 본질적으로 같은 공간을 점유할 수 있다고 가정할 수 있는데, 이는 파울리 반발력(Pauli repulsion) 및 입체 고려 사항에 기초하면 불가능한 것이다. 이러한 연화 가정은 예를 들어, 입체구조 공간 탐색시 이완된 형태의 르나드-존스(Lennard-Jones) 포텐셜을 이용함으로써 실행될 수 있다. 연화 에너지 계산을 사용함으로써, 도커는 물리적으로 현실적인 고려 사항을 사용하였을 때 이용가능한 것보다 더욱 완벽하게 입체구조를 탐색할 수 있다. 특정 배향의 입체구조의 연화 에너지가 명시된 역치보다 작을 경우, 입체구조 배향은 유지된다. 이러한 저에너지 입체구조는 "포즈"로서 유지된다. 특정 실행에서, 상기 프로세스는 원하는 개수의 저에너지 포즈가 발견될 때까지, 또는 최대 개수의 불량 포즈가 발견되 때까지 계속 진행된다.
3. 단계 2로부터의 각 유지된 포즈에 대해 어닐링 분자 동역학을 시뮬레이션시켜 포즈를 리파이닝한다. 온도를 높은 값까지 승온시킨 후, 이어서, 표적 온도로 냉각시킨다. 도커를 수행하여 연화 에너지 계산에 의해 제공되는 것보다 더 많은 개수의 물리적으로 현실적인 배향 및/또는 입체구조를 제공할 수 있다.
4. 비연화 포텐셜을 이용함으로써 강성 수용체에서 리간드에 대한 최종의 최소화를 수행한다. 이는 유지된 포즈에 대하여 더욱 정확한 에너지 값을 제공한다. 그러나, 계산은 오직 포즈의 에너지에 대한 부분적인 정보만을 제공할 수 있다.
5. 각각의 최종 포즈에 대해, 전체 에너지(수용체-리간드 상호작용 에너지 + 리간드 내지 변형) 및 상호작용 에너지만 단독으로 계산한다. 계산은 CHARMm을 이용하여 수행될 수 있다. 포즈는 CHARMm 에너지에 의해 분류되고, 점수가 높은(가장 음성값이며, 따라서, 결합에 대해 유리한 것) 포즈가 유지된다. 일부 실시양태에서, 본 단계(및/또는 단계 4)는 에너지적으로 적합하지 않은 포즈는 제거한다.
하기 참고 문헌은 도커의 작용의 예를 제공한다: 문헌 [Wu et al., Detailed Analysis of Grid-Based Molecular Docking: A Case Study of CDOCKER - A CHARMm-Based MD Docking Algorithm, J. Computational Chem., Vol. 24, No. 13, pp 1549-62 (2003)](상기 문헌은 그 전문이 본원에서 참조로 포함된다).
도커, 예컨대, 본원에 기술된 것은 고성능 변이체를 확인하기 위해 스크리닝 시스템에 의해 사용되는 하나 이상의 정보를 제공할 수 있다. 상기 정보로는 원하는 기질과의 도킹 가능성이 없는 변이체의 아이덴티티를 포함한다. 상기 변이체는 활성 등에 대해 평가될 필요는 없다. 도커에 의해 제공되는 다른 정보로는 활성에 대해 고려될 수 있는 포즈 세트(각 변이체에 대하여 한 세트)를 포함한다. 추가의 다른 정보로는 세트 중의 포즈의 도킹 점수를 포함한다.
C. 도킹된 리간드의 포즈가 활성인지 여부 결정
리간드와 성공적으로 도킹된 단백질 변이체의 경우, 가상 단백질 스크리닝 시스템은 하기 작업: (i) 고려되는 단백질 변이체의 활성 부위에서 리간드의 컴퓨터 리프리젠테이션의 복수의 포즈를 고려하고, (ii) 복수의 포즈 중 임의의 것이 활성인지 여부를 결정하는 작업을 수행한다.
활성 포즈는 리간드가 (임의의 결합 조건보다는) 정의된 조건하에서 결합하는 것에 관한 하나 이상의 제약조건을 충족하는 것이다. 리간드가 기질이고, 단백질이 효소일 경우, 활성 결합은 기질에서 촉매적 화학 변환이 일어나도록, 특히, 입체특이성 변환이 일어나도록 허용하는 결합일 수 있다. 일부 실행에서, 제약조건은 리간드 중 하나 이상의 원자 및 단백질 및/또는 단백질과 관련된 보조인자 중의 하나 이상의 원자의 상대적인 위치 범위를 정의하는 기하학적 제약조건이다.
일부 경우에서, 제약조건은 네이티브 기질, 및/또는 야생형 효소에 의해 촉매적 화학 변환이 일어났을 때의 후속 중간체의 하나 이상의 입체구조로부터 확인된다. 특정 실시양태에서, 제약조건은 (i) 기질 및/또는 후속 중간체 상의 특정 모이어티와 활성 부위 내의 특정 잔기 또는 잔기 모이어티 사이의 거리, (ii) 기질 및/또는 후속 중간체 상의 특정 모이어티와 활성 부위 내의 특정 보조인자 사이의 거리, 및/또는 (iii) 기질 및/또는 후속 중간체 상의 특정 모이어티와 활성 부위 내의 이상적으로 배치된 네이티브 기질 및/또는 후속 중간체 상의 특정 모이어티 사이의 거리를 포함한다. 특정 실시양태에서, 제약조건은 화학 결합 사이의 각, 축 주변의 비틀림, 또는 화학 결합에서의 변형을 포함할 수 있다.
고려되는 단백질 변이체의 컴퓨터 리프리젠테이션과 관련하여 기질 및/또는 후속 중간체의 전상상의 리프리젠테이션의 복수의 포즈가 생성될 수 있다. 복수의 포즈가 다양한 기법에 의해 생성될 수 있다. 상기 기법의 일반 예로는 회전 가능한 결합에 대한 체계적 또는 확률적 비틀림 검색, 분자 동역학 시뮬레이션, 및 저에너지 입체구조를 위치시키도록 디자인된 유전자 알고리즘을 포함한다. 한 예에서, 포즈는 고온 분자 동역학에 이어서, 무작위 회전, 격자 기반의 시뮬레이션된 어닐링에 의한 리파인먼트, 및 최종의 격자 기반 또는 포스 필드 최소화를 사용하여 컴퓨터 리프리젠테이션의 활성 부위에서 기질 및/또는 후속 중간체의 입체구조 및/또는 배향을 생성함으로써 생성된다. 이러한 작업 중 일부, 예컨대, 격자 기반의 시뮬레이션된 어닐링에 의한 리파인먼트, 및 격자 기반 또는 포스 필드 최소화는 임의적이다.
특정 실시양태에서, 고려되는 포즈의 개수는 약 10개 이상, 또는 약 20개 이상, 또는 약 50개 이상, 또는 약 100개 이상, 또는 약 200개 이상, 또는 약 500개 이상이다. 그러나, 본 발명을 구체적인 개수의 고려되는 포즈로 한정하고자 하지 않는다.
프로젝트가 성공적일 경우, 변이체 중 1종 이상이 활성이고, 에너지적으로 유리한 하나 이상의 포즈를 갖는 것으로 결정된다. 특정 실시양태에서, 추가 고려를 위해 선택되는 변이체는 다른 변이체와 비교하여 많은 개수의 활성 입체구조를 갖는 것으로 결정된 것이다. 특정 실시양태에서, 변이체는 그가 가진 활성 포즈의 개수, 활성 포즈에 대한 하나 이상의 도킹 점수, 및/또는 활성 포즈의 하나 이상의 결합 에너지에 기초하여 변이체를 순위화함으로써 선택된다. 예로서, 고려될 수 있는 도킹 점수의 유형으로는 반 데르 발스 힘 및/또는 정전기적 상호작용에 기초한 점수를 포함한다. 예로서, 고려될 수 있는 결합 에너지의 유형으로는 반 데르 발스 힘, 정전기적 상호작용, 및 용매화 에너지를 포함한다.
하나 이상의 활성 포즈를 지지하는 것으로 측정된 단백질 변이체는 추가 조사, 합성, 제조 등을 위해 선택될 수 있다. 한 예에서, 선택된 단백질 변이체는 1회 이상의 라운드의 유도 진화를 시딩하는 데 사용된다. 한 예로서, 한 라운드의 유도 진화는 (i) 선택된 단백질 변이체 중 적어도 일부를 포함하거나, 또는 그를 코딩하는 복수의 올리고뉴클레오티드를 제조하고, (ii) 복수의 올리고뉴클레오티드를 사용하여 한 라운드의 유도 진화를 수행하는 것을 포함할 수 있다. 올리고뉴클레오티드는 유전자 합성, 선택된 단백질 변이체 중 일부 또는 그 모두를 코딩하는 핵산의 단편화 등에 의해 제조될 수 있다. 특정 실시양태에서, 상기 라운드의 유도 진화는 복수의 올리고뉴클레오티드를 단편화하고, 재조합하는 것을 포함한다. 특정 실시양태에서, 상기 라운드의 유도 진화는 복수의 올리고뉴클레오티드에 대하여 포화 돌연변이유발법을 수행하는 것을 포함한다.
제약조건을 사용하여 스크리닝될 수 있는 촉매적 화학 변환으로는 예를 들어, 케톤 환원, 아미노기 전이, 산화, 니트릴 가수분해, 이민 환원, 에논 환원, 아실 가수분해, 및 할로하이드린 탈할로겐화를 포함하나, 이에 한정되지 않는다. 제약조건을 사용하여 평가되는 다중 변이체를 제공할 수 있는 효소 부류의 예로는 케톤 리덕타제, 트랜스아미나제, 사이토크롬 P450, 베이어-빌리거 모노옥시게나제, 모노아민 옥시다제, 니트릴라제, 이민 리덕타제, 에논 리덕타제, 아실라제, 및 할로하이드린 데할로게나제를 포함하나, 이에 한정되지 않는다. 합리적인 리간드 디자인과 관련하여, 표적화된 공유 억제(TCI)의 최적화가 제약조건을 사용하여 스크리닝될 수 있는 활성 유형이다. TCI 적용의 예는 문헌 [Singh et al., The resurgence of covalent drugs, Nature Reviews Drug Discovery, vol. 10, pp. 307-317 (2011)](상기 문헌은 그 전문이 본원에서 참조로 포함된다)에 기술되어 있다. 일부 실행에서, TCI 활성은 단백질 중 친핵성 아미노산(예컨대, 시스테인)을 확인함으로써 찾을 수 있다. 본원에 기술된 프로세스는 억제시키고자 하는 생체분자와 반응할 수 있는, 억제에 중요한 친전자성 모이어티(추정 억제제)의 이상적인 배향을 정의하는 제약조건을 충족하는 억제제를 확인하는 데 도움을 줄 수 있다.
III. 가상 단백질 스크리닝 시스템을 이용한 효소 디자인
일부 실시양태는 가상 단백질 스크리닝 시스템을 이용하여 효소를 가상적으로 모델링하고, 스크리닝함으로써 원하는 특성, 예컨대, 촉매 활성 및 선택성을 갖는 효소를 확인하는 방법을 제공한다. 일부 실시양태에서, 실제 효소 계열을 초기 변이체 라이브러리로서 가상적으로 모델링하고, 스크리닝할 수 있다. 일부 실시양태는 인실리코, 시험관내, 또는 생체내 기법에 의해 모체 폴리펩티드 또는 참조 서열로서 초기 라이브러리로부터 가상 스크리닝에 의해 선택된 1종 이상의 효소를 반복하여 사용함으로써 새로운 변이체 라이브러리를 생성할 수 있다. 일부 실시양태에서, 본원에 기술된 바와 같이 시스템에 의해 높은 순위로 순위화된 하나 이상의 효소는 모체 폴리펩티드(들)로 선택된다. 선택된 변이체 라이브러리는 모체 폴리펩티드의 서열과 다른 단백질 서열을 포함하고/거나, 후속 변이(들)를 도입하는 데 전구체로서 사용될 수 있다.
일부 실시양태에서, 모체 폴리펩티드를 돌연변이유발법 및/또는 재조합 기반 다양성 생성 메커니즘을 수행하여 유도 진화 방법에서 변형시킴으로써 단백질 변이체의 새로운 라이브러리를 생성한다. 일부 실시양태에서, 모체 폴리펩티드는 1개 이상의 치환, 삽입, 교차, 결실, 및/또는 다른 유전자 연산에 의해 변경된다. 유도 진화는 폴리펩티드상에서 직접적으로(예컨대, 인실리코 방법에서), 또는 폴리펩티드를 코딩하는 핵산상에서 간접적으로(예컨대, 시험관내 방법에서) 실행될 수 있다. 새로운 라이브러리를 사용하여 추가의 스크리닝 및 유도 진화를 위한 새로운 상동성 모델을 생성할 수 있다.
일부 실시양태에서, 효소의 모델링, 스크리닝, 및 진화는 측정 기준을 충족하는 하나 이상의 효소가 충족될 때까지 인실리코 방식으로 반복적으로 수행된다. 예를 들어, 기준은 명시된 결합 에너지 또는 점수, 또는 그의 개선일 수 있다. 다른 실시양태는 인실리코 및 물리적(예컨대, 시험관내 또는 생체내) 기법을 조합할 수 있다. 예를 들어, 시험관내 스크리닝 및 시퀀싱에 의해 유래된 효소를 사용하여 효소 디자인 프로세스를 개시할 수 있다. 시험관내 시퀀싱은 차세대 시퀀싱에 의해 수행될 수 있다. 이어서, 효소 디자인 프로세스는 유도 진화, 모델링, 및 추가의 스크리닝을 위한 인실리코 방법을 사용할 수 있다. 프로세스는 최종적으로는 시험관내 및/또는 생체내 기법을 이용하여 생물학적 시스템에서의 효소를 검증할 수 있다. 인실리코 및 물리적 기법의 다른 조합 및 순서도 다양한 적용에 적합하다. 실제로, 본 발명을 임의의 구체적인 조합 및/또는 순서의 방법으로 한정하고자 하지 않는다.
일부 실시양태에서, 폴리펩티드 서열의 제조는 인실리코 방식으로 달성된다. 다른 실시양태에서, 폴리펩티드는 핵산 합성기를 이용하여 올리고뉴클레오티드 또는 해산 서열을 합성하고, 뉴클레오티드 서열을 번역시킴으로써 폴리펩티드를 얻는다.
상기 언급된 바와 같이, 일부 실시양태에서, 선택된 효소를 하나 이상의 재조합 기반 다양성 생성 메커니즘을 수행하여 새로운 단백질 변이체 라이브러리를 생성할 수 있다. 상기 재조합 메커니즘으로는 예컨대, 셔플링, 주형 교환, 중첩 연장에 의한 유전자 스플라이싱, 오류 유발 PCR, 잔기의 반합성 조합 라이브러리, 반복적 서열 재조합("RSR": recursive sequence recombination")(예컨대, 미국 특허 출원 공개 번호 2006/0223143(상기 출원은 그 전문이 본원에서 참조로 포함된다))을 포함하나, 이에 한정되지 않는다)). 일부 실시양태에서, 상기 재조합 메커니즘 중 일부는 시험관내에서 수행될 수 있다. 일부 실시양태에서, 상기 재조합 메커니즘 중 일부는 전산적으로 인실리코 방식으로 수행되어 생물학적 메커니즘을 모방할 수 있다.
일부 실시양태는 단백질 서열 중 하나 이상의 위치를 선택하고, 그렇게 선택된 하나 이상의 위치에서 부위 지정 돌연변이 방법, 예컨대, 포화 돌연변이유발법을 수행하는 것을 포함한다. 일부 실시양태에서, 위치는 본 명세서 다른 곳에서 논의되는 바와 같이 촉매 반응과 관련된 제약조건 및/또는 활성 부위의 구조를 평가함으로써 선택된다. 일부 실시양태에서, 가상 스크리닝을 서열 활성 모델링과 조합하는 것이 사용될 수 있다는 것을 알 수 있다. 상기 실시양태에서, 유도 진화 방법은 서열 활성 모델의 항의 계수를 평가하여 관심의 대상이 되는 활성에 기여하는 잔기 중 하나 이상을 확인함으로써 위치를 선택할 수 있다. 미국 특허 번호 제7,783,428호(상기 특허는 그 전문이 본원에서 참조로 포함된다)는 돌연변이유발법을 위한 아미노산을 확인하는 데 사용될 수 있는 서열 활성 모델의 예를 제공한다.
일부 실시양태에서, 본 방법은 제조를 위해 새로운 단백질 변이체 라이브러리의 하나 이상의 구성원을 선택하는 것을 포함한다. 이어서, 이들 변이체 중 하나 이상을 발현 시스템에서 합성 및/또는 발현시킬 수 있다. 구체적인 실시양태에서, 본 방법은 하기 방식으로: (i) 새로운 단백질 변이체 라이브러리의 선택된 구성원의 발현 기점이 될 수 있는 발현 시스템을 제공하고; (ii) 새로운 단백질 변이체 라이브러리의 선택된 구성원을 발현시킴으로써 계속해서 진행된다.
도 3a-3c는 본원 다른 곳에 기술된 요소들의 다양한 조합을 실행하는, 생체분자 서열을 디자인하기 위한 작업 흐름의 예를 보여주는 순서도이다. 도 3a는 생체분자 패널, 예컨대, 효소의 패널로부터 다중의 출발 서열의 서열 정보를 수신함으로써 개시되는 프로세스 (300)에 대한 순서도를 보여주는 것이다. 블록 (302)를 참조할 수 있다. 이어서, 프로세스는 가상 단백질 스크리닝 시스템을 이용하여 현 시점에서 수신된 서열의 가상 스크리닝을 실행한다. 블록 (304)를 참조할 수 있다. 일부 실시양태에서, 가상 단백질 스크리닝 시스템은 출발 서열의 3차원 상동성 모델을 생성할 수 있고, 상기 기술된 바와 같이 기질의 포즈를 고려함으로써 상동성 모델과 하나 이상의 기질을 도킹하여 출발 서열에 대한 도킹 점수를 생성할 수 있다. 가상 단백질 스크리닝 시스템은 또한 도킹 참여자(효소 및 기질)의 상호작용 에너지 및 내부 에너지를 계산할 수 있다. 또한, 가상 단백질 스크리닝 시스템은 포즈의 다양한 제약조건을 평가하여 포즈가 활성인지 여부, 즉, 기질이 기질의 촉매적 전환을 일으킬 가능성이 있는 방식으로 효소와 결합하는지 여부를 결정할 수 있다. 추가로, 일부 실시양태에서, 또한 제약조건을 평가함으로써 촉매 반응의 생성물이 거울상 이성질체 선택적인지 및/또는 위치 선택적인지 여부와 관련하여 추론한다. 일부 실시양태에서, 프로세스는 가상 스크리닝 시스템에 의해 측정된 결합 에너지, 활성, 및 선택성에 기초하여 하나 이상의 서열을 선택한다. 블록 (306)을 참조할 수 있다. 이어서, 프로세스는 단계 (308)에서 선택된 서열의 추가 조사를 수행해야 할 필요가 있는지 여부를 평가한다. 필요가 있는 경우, 본 예에서 프로세스는 선택된 서열을 전산적으로 돌연변이화시킨다. 돌연변이는 상기 기술된 다양한 다양성 생성 메커니즘, 예컨대, 돌연변이유발법 또는 재조합에 기초한다. 블록 (310)을 참조할 수 있다. 이어서, 전산적으로 돌연변이화된 서열을 가상 단백질 스크리닝 시스템에 의해 새 라운드의 가상 스크리닝을 위해 제공한다. 블록 (304)를 참조할 수 있다. 서열에 대하여 추가로 조사할 필요가 없을 때까지 가상 스크리닝 및 선택을 반복 수행할 수 있으며, 상기와 같은 결정은 미리 설정된 기준, 예컨대, 구체적인 반복 횟수 및/또는 특정 수준의 원하는 활성에 의해 결정될 수 있다. 이 시점에서, 생체분자(예컨대, 효소)를 디자인하는 프로세스는 단계 (312)에서 종료된다.
도 3b는 프로세스가 프로세스 (300)과 비교하여 일부는 유사하고, 일부는 상이한 요소를 갖는 것인, 생체분자, 예컨대, 효소의 유도 진화를 위한 프로세스 (320)에 대한 순서도를 보여주는 것이다. 프로세스 (320)은 생체분자(예컨대, 효소)의 다중의 출발 서열의 시험관내 합성에 의해 개시되며, 기존의 생체분자 패널이 이용가능하지 않을 때 필요하거나, 또는 유용할 수 있다. 블록 (322)를 참조할 수 있다. 합성된 서열은 또한 원하는 특성의 생체분자를 디자인하는 데 유용할 수 있는 것인 서열에 대한 데이터를 수집하기 위해 검정될 수 있으며, 여기서, 상기 데이터는 가상 스크리닝 시스템에 의해 얻을 수 없는 것이다. 이어서, 프로세스는 프로세스 (300) 중 단계 (304)와 유사한 블록 (324)에 도시된 바와 같은 가상 단백질 스크리닝 시스템을 이용하여 합성된 서열의 가상 스크리닝을 실행한다. 이어서, 프로세스는 가상 스크리닝 시스템에 의해 측정된 결합 에너지, 활성, 및 선택성에 기초하여 하나 이상의 서열을 선택한다. 블록 (326)을 참조할 수 있다. 이어서, 프로세스는 단계 (328)에서 선택된 서열의 추가의 유도 진화를 실행하여야 할 필요가 있는지 여부를 평가한다. 필요할 경우, 본 예에서 프로세스는 인실리코 방식으로 또는 시험관내에서 선택된 서열을 돌연변이화시킨다. 돌연변이는 상기 기술된 다양한 다양성 생성 메커니즘에 기초한다. 블록 (330)을 참조할 수 있다. 이어서, 돌연변이화된 서열을 가상 단백질 스크리닝 시스템에 의해 새로운 라운드의 가상 스크리닝을 위해 제공한다. 블록 (324)를 참조할 수 있다. 서열에 대한 추가 진화가 필요없을 때까지 가상 스크리닝 및 선택을 반복 수행할 수 있으며, 상기와 같은 결정은 미리 설정된 기준, 예컨대, 특정 반복 횟수 및/또는 특정 수준의 원하는 활성에 의해 결정될 수 있다. 이 시점에서, 가상 스크리닝 시스템에 의해 선택된 서열은 합성되고, 발현되어 실제 효소를 제조한다. 블록 (332)를 참조할 수 있다. 제조된 효소를 관심의 대상이 되는 활성에 대하여 검정하고, 이는 가상 스크리닝 프로세스 결과를 검증하는 데 사용될 수 있다. 블록 (334)를 참조할 수 있다. 검정 후, 유도 진화 프로세스는 단계 (336)에서 결론적으로 마무리된다.
도 3c는 생체분자, 예컨대, 효소의 유도 진화를 위한 프로세스 (340)에 대한 순서도를 보여주는 것이다. 프로세스 (340)은 생체분자(예컨대, 효소)의 다중의 출발 서열을 유도하는 시험관내 유도 진화에 의해 개시된다. 블록 (342)를 참조할 수 있다. 프로세스 (320)에서와 같이, 유도된 서열을 검정하여 서열이 특정 기준, 예컨대, 원하는 활성 또는 선택성을 충족하는지 여부를 결정한다. 추가 개발을 위해 기준을 충족하는 서열을 히트로서 결정한다. 블록 (344)를 참조할 수 있다. 이어서, 프로세스는 프로세스 (300) 중 단계 (304)와 유사한 블록 (346)에 도시된 바와 같은 가상 단백질 스크리닝 시스템을 이용하여 히트의 가상 스크리닝을 실행한다. 일부 실시양태에서, 프로세스는 또한 상기 기술된 바와 같이 가상 스크리닝 시스템에 의해 측정된 결합 에너지, 활성, 및 선택성에 기초하여 하나 이상의 서열을 선택한다. 이어서, 프로세스는 단계 (348)에서 선택된 서열의 추가 라운드의 유도 진화를 실행하여야 할 필요가 있는지 여부를 평가한다. 필요할 경우, 프로세스는 새로운 반복으로 추가 라운드의 시험관내 유도 진화를 위해 선택된 서열을 제공한다. 블록 (342)을 참조할 수 있다. 서열에 대한 추가 진화가 필요없을 때까지 가상 스크리닝 및 선택을 반복 수행할 수 있으며, 상기와 같은 결정은 미리 설정된 기준에 의해 결정될 수 있다. 이 시점에서, 생체분자(예컨대, 효소)를 디자인하는 프로세스는 단계 (350)에서 종료된다.
IV. 단백질 변이체 라이브러리 생성
단백질 변이체 라이브러리는 라이브러리 중의 구성원마다 다른 하나 이상의 잔기를 갖는 다중의 단백질 군을 포함한다. 이러한 라이브러리는 본원에 기술된 방법 및/또는 당업계에 공지된 임의의 적합한 수단을 사용하여 생성될 수 있다. 다양한 실시양태에서, 이러한 라이브러리는 가상 단백질 스크리닝 시스템을 위한 후보 효소를 제공한다. 일부 실시양태에서, 라이브러리는 첫 라운드에서 인실리코 방식으로 제공되고, 스크리닝될 수 있고, 가상 스크리닝 시스템에 의해 추후 또는 최종 라운드로부터 선택된 생성된 단백질을 시험관내에서 시퀀싱하고/거나, 스크리닝할 수 있다. 첫 라운드의 스크리닝은 인실리코 방식으로 실행되기 때문에, 스크리닝을 위한 시간 및 비용은 상당히 감소될 수 있다. 일부 실행에서, 단백질 변이체 라이브러리에 포함된 단백질의 개수는 종래의 물리적 스크리닝과 비교하여 첫 라운드의 스크리닝에서 쉽게 증가시킬 수 있다. 본 개시내용을 본 개시내용의 방법에서 사용되는 단백질 라이브러리 중 임의의 특정 개수의 단백질로 한정하고자 하지 않는다. 본 개시내용을 임의의 특정 단백질 변이체 라이브러리 또는 라이브러리들로 한정하고자 하지 않는다.
한 예에서, 단백질 변이체 라이브러리는 일부 실시양태에서는 단일 유전자 패밀리에 의해 코딩될 수 있는 하나 이상의 천연적으로 발생된 단백질로부터, 또는 다른 실시양태에서는 효소의 패널로부터 생성된다. 다른 출발점으로는 공지 단백질 및/또는 신규한 합성 단백질의 재조합체를 포함하나, 이에 한정되지 않는다. 라이브러리는 다양한 기법에 의해 이들 "시드" 또는 "출발" 단백질로부터 생성될 수 있다. 한 경우에서, 라이브러리는 예컨대, 문헌 [Stemmer (1994) Proceedings of the National Academy of Sciences, USA, 10747-10751] 및 WO 95/22625(상기 두 문헌 모두 본원에서 참조로 포함된다)에 기술된 DNA 단편화 매개 재조합, 문헌 [Ness et al. (2002) Nature Biotechnology 20:1251-1255] 및 WO 00/42561(상기 두 문헌 모두 본원에서 참조로 포함된다)에 기술된 합성 올리고뉴클레오티드 매개 재조합, 또는 하나 이상의 모체 단백질 중 일부 또는 그들 모두를 코딩하는 핵산과 같은, 생물학적 또는 화학적 기법을 반영하는 가상 방법에 의해 생성된다. 이들 방법의 조합(예컨대, DNA 단편 및 합성 올리고뉴클레오티드의 재조합) 뿐만 아니라, 예를 들어, WO97/20078 및 WO98/27230(상기 두 문헌 모두 본원에서 참조로 포함된다)과 같이 당업계에 공지된 다른 재조합 기반 방법이 사용될 수 있다. 단백질 변이체 라이브러리를 생성하는 데 사용되는 임의의 적합한 방법이 본 개시내용에서 사용될 수 있다는 것을 알 수 있다. 실제로, 본 개시내용을 변이체 라이브러리를 제조하는 임의의 특정 방법으로 한정하고자 하지 않는다.
일부 실시양태에서, 모델링 프로세스에서 사용되는 돌연변이 군을 정의하기 위한 목적으로 단일 "출발" 서열(이는 "선조" 서열일 수 있다)이 사용될 수 있다. 일부 실시양태에서, 출발 서열이 1개 초과로 존재한다. 일부 추가의 실시양태에서, 출발 서열 중 1개 이상은 야생형 서열이다. 특정 실시양태에서, 돌연변이는 (a) 기질 특이성, 선택성, 안정성, 및/또는 관심의 대상이 되는 다른 특성에 영향을 주는 것으로서 문헌상에서 확인되고/거나, (b) 단백질 폴딩 패턴(예컨대, 단백질의 내부 잔기를 패킹하는 것)을 개선시키거나, 리간드 결합을 개선시키거나, 서브유닛 상호작용을 개선시키거나, 또는 다중의 다양한 동족체 사이의 계열 셔플링 방법을 개선시키는 등, 그러한 것으로 전산적으로 예측된다. 본 발명을 관심의 대상이 되는 특성/특성들 또는 기능(들)에 대한 임의의 특정 선택으로 한정하고자 하지 않는다.
일부 실시양태에서, 돌연변이는 출발 서열 내로 가상적으로 도입될 수 있고, 단백질은 유익한 특성에 대해 가상적으로 스크리닝될 수 있다. 임의의 적합한 방법이 사용될 수 있다는 것도 알 수 있지만, 부위 지정 돌연변이유발법은 돌연변이를 도입하는 데 유용한 기법 중 한 예이다. 따라서, 별법으로 또는 추가로, 돌연변이체는 유전자 합성, 포화 무작위 돌연변이유발법, 잔기의 반합성 조합 라이브러리, 반복적 서열 재조합("RSR"")(예컨대, 미국 특허 출원 공개 번호 2006/0223143(상기 출원은 그 전문이 본원에서 참조로 포함된다)), 유전자 셔플링, 오류 유발 PCR, 및/또는 임의의 다른 적합한 방법에 의해에 의해 제공될 수 있다. 적합한 포화 돌연변이유발 방법의 한 예는 미국 특허 출원 공개 번호 20100093560(상기 출원은 그 전문이 본원에서 참조로 포함된다)에 기술되어 있다.
출발 서열이 야생형 단백질의 아미노산 서열과 동일할 필요는 없다. 그러나, 일부 실시양태에서, 출발 서열은 야생형 단백질의 서열이다. 일부 실시양태에서, 출발 서열은 야생형 단백질에 존재하지 않는 돌연변이를 포함한다. 일부 실시양태에서, 출발 서열은 공통된 특성을 갖는 단백질 군, 예컨대, 단백질 계열로부터 유래된 컨센서스 서열이다.
일부 실시양태에서, 가상 스크리닝 시스템을 이용하여 스크리닝될 수 있는 촉매적 화학 변환으로는 예를 들어, 케톤 환원, 아미노기 전이, 산화, 니트릴 가수분해, 이민 환원, 에논 환원, 아실 가수분해, 및 할로하이드린 탈할로겐화를 포함하나, 이에 한정되지 않는다. 평가되는 다중 변이체를 제공할 수 있는 효소 부류의 예로는 케톤 리덕타제, 트랜스아미나제, 사이토크롬 P450, 베이어-빌리거 모노옥시게나제, 모노아민 옥시다제, 니트릴라제, 이민 리덕타제, 에논 리덕타제, 아실라제, 및 할로하이드린 데할로게나제를 포함하나, 이에 한정되지 않는다.
모체 서열의 공급원으로서 작용할 수 있는 효소 계열 또는 부류에 대한 비제한적인 대표 목록으로는 하기: 옥시도리덕타제(E.C.1); 트랜스퍼라제(E.C.2); 하이드로리아제(E.C.3); 리아제(E.C.4); 이소머라제(E.C.5) 및 리가제(E.C. 6)를 포함하나, 이에 한정되지 않는다. 더욱 구체적이되, 비제한적인 옥시도리덕타제의 서브군으로는 데하이드로게나제(예컨대, 알코올 데하이드로게나제(카보닐 리덕타제), 크실로스 리덕타제, 알데히드 리덕타제, 파네솔 데하이드로게나제, 락테이트 데하이드로게나제, 아라비노스 데하이드로게나제, 글루코스 데하이드로게나제, 프럭토스 데하이드로게나제, 크실로스 리덕타제 및 숙시네이트 데하이드로게나제),  옥시다제(예컨대,  글루코스 옥시다제, 헥소스 옥시다제, 갈락토스 옥시다제 및 라카제), 모노아민 옥시다제, 리폭시게나제, 퍼옥시다제,  알데히드 데하이드로게나제, 리덕타제, 장쇄 아실-[아실-캐리어-단백질] 리덕타제, 아실-CoA 데하이드로게나제, 에네-리덕타제, 신타제(예컨대, 글루타메이트 신타제), 니트레이트 리덕타제, 모노옥시게나제 및 디옥시게나제, 및 카탈라제를 포함한다. 더욱 구체적이되, 비제한적인 트랜스퍼라제의 서브군으로는 메틸, 아미디노, 및 카복실 트랜스퍼라제, 트랜스케톨라제, 트랜스알돌라제, 아실트랜스퍼라제,  글리코실트랜스퍼라제, 트랜스아미나제, 트랜스글루타미나제 및 폴리머라제를 포함한다. 더욱 구체적이되, 비제한적인 하이드롤라제의 서브군으로는 에스테르 하이드롤라제, 펩티다제, 글리코실라제, 아밀라제, 셀룰라제, 헤미셀룰라제, 크실라나제, 키티나제, 글리코시다제, 글루카나제, 글루코아밀라제, 아실라제,  갈락토시다제, 풀루라나제, 피타제, 락타제, 아라비노시다제, 뉴클레오시다제,  니트릴라제, 포스파타제, 리파제, 포스포리파제, 프로테아제, ATP아제, 및 데할로게나제를 포함한다. 더욱 구체적이되, 비제한적인 리아제의 서브군으로는 데카복실라제, 알돌라제, 하이드라타제, 데하이드라타제(예컨대, 카보닉 안하이드라제), 신타제(예컨대, 이소프렌, 피넨 및 파르네센 신타제), 펙티나제(예컨대, 펙틴 리아제) 및 할로하이드린 데하이드로게나제를 포함한다. 더욱 구체적이되, 비제한적인 이소머라제의 서브군으로는 라세마제, 에피머라제, 이소머라제(예컨대, 크실로스, 아라비노스, 리보스, 글루코스, 갈락토스 및 만노스 이소머라제), 토토머라제, 및 뮤타제(예컨대 아실 절단 뮤타제, 포스포뮤타제, 및 아미노뮤타제를 포함한다. 더욱 구체적이되, 비제한적인 리가제의 서브군으로는 에스테르 신타제를 포함한다. 모체 서열의 공급원으로서 사용될 수 있는 다른 효소 계열 또는 부류로는 트랜스아미나제, 프로테아제, 키나제, 및 신타제를 포함한다. 본 개시내용의 가능한 효소에 관한 특정의 구체적인 측면을 예시하였지만, 본 목록이 철저한 것으로 간주되지 않으며, 본 개시내용을 한정하거나, 그의범주를 제한하는 것이 아니다.
일부 경우에서, 본원에 기술된 방법에서 유용한 후보 효소는 예를 들어, 거울상 이성질체 선택적 반응, 예컨대, 거울상 이성질체 선택적 환원 반응을 촉진할 수 있다. 상기 효소는 예를 들어, 제약 화합물의 합성에 유용한 중간체를 제조하는 데 사용될 수 있다.
일부 실시양태에서, 후보 효소는 엔도크실라나제(EC 3.2.1.8); β-크실로시다제(EC 3.2.1.37); 알파-L-아라비노푸라노시다제(EC 3.2.1.55); 알파-글루쿠로니다제(EC 3.2.1.139); 아세틸 크실란에스터라제(EC 3.1.1.72); 페루로일 에스터라제(EC 3.1.1.73); 쿠마로일 에스터라제(EC 3.1.1.73); 알파-갈락토시다제(EC 3.2.1.22); 베타-갈락토시다제(EC 3.2.1.23); 베타-만난아제(EC 3.2.1.78); 베타-만노시다제(EC 3.2.1.25); 엔도-폴리갈락투로나제(EC 3.2.1.15); 펙틴 메틸 에스터라제(EC 3.1.1.11); 엔도-갈락타나제(EC 3.2.1.89); 펙틴 아세틸 에스터라제(EC 3.1.1.6); 엔도-펙틴 리아제(EC 4.2.2.10); 펙테이트 리아제(EC 4.2.2.2); 알파 람노시다제(EC 3.2.1.40); 엑소-폴리-알파-갈락투로노시다제(EC 3.2.1.82); 1,4-알파-갈락투로니다제(EC 3.2.1.67); 엑소폴리갈락투로네이트 리아제(EC 4.2.2.9); 람노갈락투로난 엔도리아제 EC(4.2.2.B3); 람노갈락투로난 아세틸에스터라제(EC 3.2.1.B11); 람노갈락투로난 갈락투로노하이드롤라제(EC 3.2.1.B11); 엔도-아라비나나제(EC 3.2.1.99); 락카제(EC 1.10.3.2); 망간 의존성 퍼옥시다제(EC 1.10.3.2); 아밀라제(EC 3.2.1.1), 글루코아밀라제(EC 3.2.1.3), 프로테아제, 리파제, 및 리그닌 퍼옥시다제(EC 1.11.1.14)로부터 선택된다. 1, 2, 3, 4, 5개, 또는 5개 초과의 효소로 이루어진 임의의 조합이 본 개시내용의 조성물에서 사용될 수 있다는 것을 알 수 있다. 본 발명을 임의의 특정 개수의 효소 및/또는 효소 부류로 한정하고자 하지 않는다.
임의의 적합한 방법이 사용될 수 있다는 것을 알 수 있는 바, 본 발명을 체계적으로 변이된 서열을 생성하는 임의의 특정 방법으로 한정하고자 하지 않는다. 본 개시내용의 하나 이상의 실시양태에서, 단일의 출발 서열은 라이브러리를 생성하기 위해 다양한 방식으로 변형된다. 일부 실시양태에서, 라이브러리는 출발 서열의 개별 잔기를 체계적으로 변이시킴으로써 생성된다. 라이브러리의 체계적으로 변이된 서열의 세트는 데이터 세트 중 서열을 정의할 수 있도록 실험 디자인(DOE: design of experiment) 방법을 사용하여 연역적으로 디자인될 수 있다. DOE 방법에 대한 설명은 문헌 [Diamond, W.J. (2001) Practical Experiment Designs: for Engineers and Scientists, John Wiley & Sons] 및 ["Practical Experimental Design for Engineers and Scientists" by William J Drummond (1981) Van Nostrand Reinhold Co New York, "Statistics for experimenters" George E.P. Box, William G Hunter] 및 [J. Stuart Hunter (1978) John Wiley and Sons, New York]에서, 또는 예컨대, itl.nist.gov/div898/handbook/의 월드 와이드 웹 상에서 살펴볼 수 있다. 스타티스틱스 툴박스(Statistics Toolbox)(MATLAB®), JMP®, STATISTICA®, 및 STAT-EASE® DESIGN EXPERT®를 비롯한, 관련된 수학적 계산을 실행하는 데 이용가능한 컴퓨터 패키지는 수개 존재한다. 결과는 본원에 개시된 가상 단백질 스크리닝 시스템에 의해 스크리닝하는 데 적합한, 체계적으로 변이된 직교 분산형의 서열 데이터 세트이다. DOE 기반 데이터 세트는 또한 당업계에 공지된 바와 같이, 플레킷-버만(Plackett-Burman) 또는 부분 요인 설계(Fractional Factorial Designs)를 사용하여 쉽게 생성될 수 있다(문헌 [Diamond, W.J. (2001)]).
첫 라운드의 스크리닝은 고효율로 인실리코 방식으로 수행될 수 있기 때문에, 변이체 개수가 보통 너무 많아서 종래의 물리적 방법으로 스크리닝하기 어려울 때, 일부 실시양태는 이용가능한 서열 중 일부 또는 그들 모두를 이용하여 단백질 변이체 라이브러리를 제공할 수 있다. 예를 들어, 위치가 15개이고, 상기 위치는 각각은 20종의 가능한 아미노산을 갖는 서열의 경우, 아미노산 쌍에 대해 300개의 가능한 위치, 및
Figure pct00001
개의 상이한 변이체 서열이 존재한다 일부 실행에서, 라이브러리는 이용가능한 컴퓨팅 검정력 및 적용 필요성에 따라 상기 가능한 풀로부터 수백, 수천, 수만, 수십만개 이상의 변이체를 포함할 수 있다. 본 개시내용을 라이브러리 중 임의의 특정 개수의 변이체로 한정하고자 하지 않는다.
V. 단백질 변이체 시퀀싱
일부 실시양태에서, 물리적 단백질 변이체를 사용하여 상기 기술된 바와 같이 가상 스크리닝에서 사용되는 단백질 변이체의 활성 부위의 전산 모델을 생성한다. 일부 실시양태에서, 가상 스크리닝으로부터 얻어지는 단백질 변이체는 상기 기술된 각종 방법을 사용하여 물리적으로 생성된다. 일부 실시양태에서, 물리적으로 생성된 단백질 변이체는 관심의 대상이 되는 하나 이상의 리간드에 대한 그의 반응에 관한 검정된다. 다양한 실시양태에서, 물리적 단백질 변이체의 서열을 단백질 시퀀싱 방법에 의해 확인하며, 상기 방법 중 일부는 하기에 추가로 기술된다.
단백질 시퀀싱은 단백질의 아미노산 서열을 측정하는 것을 포함한다. 일부 단백질 시퀀싱 기법은 또한 단백질이 채용하는 입체구조, 및 그가 임의의 비펩티드 분자와 복합체를 형성하는 정도를 측정한다. 질량 분석법 및 에드먼(Edman) 분해 반응을 사용하여 단백질의 아미노산의 서열을 직접 측정할 수 있다.
에드먼 분해 반응을 통해 단백질의 정돈된 아미노산 조성물을 발견할 수 있다. 일부 실시양태에서, 단백질 변이체의 서열을 측정하는 데 자동화 에드먼 시퀀싱기가 사용될 수 있다. 자동화 에드먼 시퀀싱기는 길이가 점점 더 증가하는, 예컨대, 최대 50개의 아미노산 길이까지의 것의 펩티드를 시퀀싱할 수 있다. 일부 실시양태에서, 에드먼 분해를 실행하는 단백질 시퀀싱 프로세스는 하기 중 하나 이상을 포함한다:
-- 환원제, 예컨대, 2-머캅토에탄올을 이용하여 단백질 중의 이황화 브릿지를 절단한다. 보호기, 예컨대, 요오도아세트산을 사용하여 결합지 재형성되지 못하도록 막을 수 있다.
-- 1개 초과로 존재할 경우, 단백질 복합체의 개별 쇄를 분리하고, 정제한다.
-- 각 쇄의 아미노산 조성물을 측정한다.
-- 각 쇄의 말단 아미노산을 측정한다.
-- 각 쇄를 단편, 예컨대, 길이가 50개 미만의 아미노산 길이인 단편으로 절단한다.
-- 단편을 분리하고, 정제한다.
-- 에드먼 분해 반응을 이용하여 각 단편의 서열을 측정한다.
-- 아미노산 서열의 추가 리드(들)를 제공하기 위해 상이한 패턴을 절단을 적용시키면서 상기 단계를 반복한다.
-- 아미노산 서열 리드로부터 전체 단백질의 서열을 구성한다.
다양한 실행에서, 길이가 약 50-70개의 아미노산보다 더 긴 펩티드는 작은 단편으로 절단하여 에드먼 반응에 의한 시퀀싱이 용이하게 이루어지도록 하여야 한다. 더욱 긴 장쇄 서열의 분해는 엔도펩티다제, 예컨대, 트립신 또는 펩신에 의해, 또는 화학 시약, 예컨대, 시아노겐 브로마이드에 의해 수행될 수 있다. 상이한 효소에 의해 상이한 절단 패턴이 이루어지며, 단편 사이의 중복을 사용하여 전체 서열을 구성할 수 있다.
에드먼 분해 반응 동안, 시퀀싱하고자 하는 펩티드를 기판의 고체 표면 상에 흡착시킨다. 일부 실시양태에서, 한 적합한 기판은 양이온 중합체인 폴리브렌으로 코팅된 유리 섬유이다. 에드먼 시약인 페닐이소티오시아네이트(PITC)를 약한 염기성인 트리메틸아민 완충제 용액과 함께 흡착된 펩티드에 첨가한다. 상기 반응 용액은 N 말단 아미노산의 아민 기와 반응한다. 이어서, 무수산의 첨가에 의해 말단 아미노산을 선택적으로 탈착시킬 수 있다. 이어서, 유도체가 이성질화되어 치환된 페닐티오히단토인이 생성되며, 이를 세척하고, 크로마토그래피에 의해 확인할 수 있다. 이어서, 이 사이클을 반복할 수 있다.
일부 실시양태에서, 질량 분석법을 사용하여 아미노산 서열의 단편의 질량 대 전하의 비율을 측정함으로써 아미노산 서열을 측정할 수 있다. 다중으로 하전된 단편에 상응하는 피크를 포함하는 질량 스펙트럼을 측정할 수 있으며, 여기서, 상이한 동위원소에 상응하는 피크 사이의 거리는 단편 상의 전하에 반비례한다. 앞서 시퀀싱된 단백질의 데이터베이스와 비교하여 단편의 서열을 측정함으로써 질량 스펙트럼을 분석한다. 이어서, 상이한 분해 효소를 이용하여 상기 프로세스를 반복하고, 서열 중의 중복부를 이용하여 완전한 아미노산 서열을 구성한다.
대개는 전체 단백질보다는 펩티드가 제조하고, 질량 분석법으로 분석하기 더 쉽다. 일부 실시양태에서, 펩티드를 분광계에 전달하는 데 전기분무 이온화가 사용된다. 단백질을 엔도프로테아제로 분해하고, 생성된 용액을 고압 액체 크로마토그래피 칼럼을 통해 통과시킨다. 상기 칼럼 단부에서, 양의 전위로 하전된 용액을 질량 분광계 내로 분무한다. 용액 소적 상의 전하에 의해 이는 단일 이온으로 단편화된다. 이어서, 펩티드를 단편화하고, 단편의 질량 대 전하의 비율을 측정한다.
단백질을 코딩하는 DNA 또는 mRNA 서열로부터 아미노산 서열을 간접적으로 측정할 수도 있다. 핵산 시퀀싱 방법, 예컨대, 각종의 차세대 시퀀싱 방법을 사용하여 DNA 또는 RNA 서열을 측정할 수 있다. 일부 실행에서, 단백질을 코딩하는 뉴클레오티드에 대한 지식 정보 없이, 단백질 서열을 새로 단리시킨다. 상기 실행에서, 먼저 직접적인 단백질 시퀀싱 방법 중 하나를 이용하여 짧은 폴리펩티드 서열을 측정할 수 있다. 상기 짧은 서열로부터 단백질의 RNA에 대한 상보적인 마커를 측정할 수 있다. 이어서, 이를 이용하여 단백질을 코딩하는 mRNA를 단리시킬 수 있고, 이러서, 이를 중합효소 연쇄 반응에서 복제함으로써 상당량의 DNA를 수득할 수 있고, 이어서, DNA 시퀀싱 방법을 이용함으로써 시퀀싱할 수 있다. 이어서, DNA 서열로부터 단백질의 아미노산 서열을 도출해 낼 수 있다. 도출시, mRNA 번역 후에 제거된 아미노산을 고려해야 할 필요가 있다.
하나 이상의 실시양태에서 핵산 서열 데이터는 단백질의 유도 진화 프로세스 중 다양한 단계에서 사용될 수 있다. 하나 이상의 실시양태에서, 서열 데이터는 예를 들어, 제1 세대 시퀀싱 방법으로 간주되는 생어(Sanger) 시퀀싱 또는 맥삼-길버트(Maxam-Gilbert) 시퀀싱을 비롯한 벌크 시퀀싱 방법을 사용하여 수득할 수 있다. 표지화된 디데옥시 쇄 종결인자를 사용하는 것을 포함하는 생어 시퀀싱은 당업계에 널리 공지되어 있으며; 예컨대, 문헌 [Sanger et al., Proceedings of the National Academy of Sciences of the United States of America 74, 5463-5467 (1997)]을 참조할 수 있다. 핵산 샘플 분획에 대해 다중의 부분 화학적 분해 반응을 수행한 후, 단편을 검출하고 분석하고 서열을 추론해내는 것을 포함하는 맥삼-길버트 시퀀싱 또한 당업계에 널리 공지되어 있다; 예컨대, 문헌 [Maxam et al., Proceedings of the National Academy of Sciences of the United States of America 74, 560-564 (1977)]을 참조할 수 있다. 또 다른 벌크 시퀀싱 방법은 샘플의 서열이 예컨대, 마이크로어레이 또는 유전자 칩 상의 복수의 서열에 대한 그의 하이브리드화 특성에 기초하여 도출되는 것인, 하이브리드화에 의한 시퀀싱이다; 예컨대, 문헌 [Drmanac, et al., Nature Biotechnology 16, 54-58 (1998)]을 참조할 수 있다.
하나 이상의 실시양태에서, 핵선 서열 데이터는 차세대 시퀀싱 방법을 사용하여 얻는다. 차세대 시퀀싱은 또한 "고처리량 서열 분석"으로도 지칭된다. 상기 기법은 시퀀싱 프로세스를 병행하여 수천 또는 수백만 개의 서열을 한번에 제조한다. 적합한 차세대 시퀀싱 방법의 예로는 단일 분자 실시간 서열 분석(예컨대, 퍼시픽 바이오사이언시스: 미국 캘리포니아주 멘로 파크), 이온 반도체 서열 분석(예컨대, 이온 토렌트: 미국 캘리포니아주 사우쓰 샌프란시스코), 파이로시퀀싱(예컨대, 454, 미국 코네티컷 브래드포드), 결찰에 의한 시퀀싱(예컨대, 라이프 테크놀러지즈(Life Technologies: 미국 캘리포니아주 칼즈배드)의 SOLid 서열 분석), 합성 및 가역성 종결인자에 의한 서열 분석(예컨대, 일루미나: 미국 캘리포니아주 샌디에고), 핵산 영상화 기술, 예컨대, 투과 전자 현미경법 등을 포함하나, 이에 한정되지 않는다.
일반적으로, 차세대 시퀀싱 방법은 전형적으로 개별 DNA 분자를 증폭시키는 시험관내 클로닝 단계를 사용한다. 에멀젼 PCR(emPCR: Emulsion PCR)은 오일상 내의 수성 소적 중의 프라이머로 코팅된 비드와 함께 개별 DNA 분자를 단리시킨다. PCR을 통해 비드 상의 프라이머에 결합하는 DNA 분자 카피가 제조되고, 이후 추후 시퀀싱을 위해 고정화시킨다. emPCR은 (Marguilis) 등에 의한(454 라이프 사이언시즈(454 Life Sciences: 미국 코네티컷 브래드포드), (Shendure 및 Porreca 등에 의한(이는 또한 "폴로니(polony) 시퀀싱"으로도 알려져 있다) 방법, 및 SOLiD 서열 분석(어플라이드 바이오시스템즈 인코포레이티드(Applied Biosystems Inc.: 미국 캘리포니아주 포스터 시티)에서 사용된다. 문헌 [M. Margulies, et al. (2005) "Genome sequencing in microfabricated high-density picolitre reactors" Nature 437: 376-380]; [J. Shendure, et al. (2005) "Accurate Multiplex Polony Sequencing of an Evolved Bacterial Genome" Science 309 (5741): 1728-1732]를 참조할 수 있다. 시험관내 클론 증폭 또한 고체 표면에 부착된 프라이머 상에서 단편이 증폭되는, "브릿지 PCR"에 의해 수행될 수 있다. (Braslavsky) 등은 DNA 분자를 표면에 직접 고정시키면서, 상기 증폭 단계는 생략한, 단일 분자 방법(헬리코스 바이오사이언시스 코포레이션(Helicos Biosciences Corp.: 미국 매사추세츠 케임브리지)에 의해 상업화됨)를 개발하였다(문헌 [I. Braslavsky, et al. (2003) "Sequence information can be obtained from single DNA molecules" Proceedings of the National Academy of Sciences of the United States of America 100: 3960-3964]).
물리적으로 표면에 결합된 DNA 분자는 동시에 서열 분석될 수 있다. "합성에 의한 시퀀싱"에서, 상보적 가닥은 염료 종결 전기영동 서열 분석과 같이 DNA 폴리머라제를 사용하여 주형 가닥의 서열에 기초하여 구축된다. 가역적 종결인자 방법(일루미나(미국 캘리포니아주 샌디에고) 및 헬리코스 바이오사이언시스 코포레이션(미국 매사추세츠 케임브리지)에 의해 상업화됨)은 가역성 버전의 염료 종결인자를 사용하여 뉴클레오티드를 한번에 하나씩 부가하고, 또 다른 뉴클레오티드가 중합화될 수 있도록 차단기를 반복적으로 제거함으로써 실시간으로 각각의 위치의 형광을 검출한다. "파이로시퀀싱" 또한 DNA 중합화를 사용하여 뉴클레오티드를 한번에 하나씩 부가하고, 부착된 피로포스페이트의 유리에 의해 방출된 빛을 통해 주어진 위치에 부가된 뉴클레오티드를 검출하고, 그 개수를 정량화한다(454 라이프 사이언시즈(미국 코네티컷 브래드포드)에 의해 상업화됨). 문헌 [M. Ronaghi, et al. (1996). "Real-time DNA sequencing using detection of pyrophosphate release" Analytical Biochemistry 242: 84-89]를 참조할 수 있다.
차세대 시퀀싱 방법의 구체적인 예는 하기에 추가로 상세하게 기술된다. 본 발명의 하나 이상의 실행은 본 발명의 원리로부터 벗어남 없이 하기 서열 분석 방법 중 하나 이상을 사용할 수 있다.
단일 분자 실시간 서열 분석(SMRT: single molecule real time sequencing로도 알려져 있다)은 퍼시픽 바이오사이언시스에 의해 개발된 합성 기술에 의한 병행 단일 분자 DNA 서열 분석이다. 단일 분자 실시간 서열 분석은 제로 모드 도파관(ZMW: zero-mode waveguide)을 사용하였다. 단일 DNA 폴리머라제 효소는 ZMW 바닥에 고정되고, 여기서, DNA 단일 분자는 주형으로서 사용된다. ZMW는 DNA 폴리머라제에 의해 도입되는 DNA(이는 또한 염기로도 알려져 있다)의 단일 뉴클레오티드만을 관찰하는 데 충분한 정도로 작은 조사된 관찰 부피를 생성하는 구조물이다. 4개의 DNA 염기 각각이 4개의 상이한 형광성 염료 중 하나에 부착된다. DNA 폴리머라제에 의해 뉴클레오티드가 도입되었을 때, 형광성 태그는 절단되고, 그의 형광이 더 이상은 관찰될 수 없는 ZMW의 관찰 영역 밖으로 확산된다. 검출기는 뉴클레오티드 도입의 형광성 신호를 검출하고, 염료의 상응하는 형광성에 따라 염기는 결정된다(base call).
적용가능한 또 다른 단일 분자 서열 분석 기술은 (예컨대, 문헌 [Harris T.D. et al., Science 320: 106-109]에 기술되어 있는 바와 같이) 헬리코스 트루 싱글 몰레큘 시퀀싱(tSMS: Helicos True Single Molecule Sequencing) 기술이다. tSMS 기법에서, DNA 샘플을 대략 100 내지 200개의 뉴클레오티드로 이루어진 가닥으로 절단하고, 폴리A 서열을 각각의 DNA 가닥의 3' 단부에 부가한다. 각각의 가닥을 형광으로 표지화된 아데노신 뉴클레오티드의 부가에 의해 표지화한다. 이어서, DNA 가닥을, 유세포 표면에 고정화되어 있는 수백만 개의 올리고 T 포획 부위를 포함하는 유세포에 하이브리드화시킨다. 특정 실시양태에서, 주형의 밀도는 약 1억개의 주형/㎠일 수 있다. 이어서, 유세포를 장치, 예컨대, 헬리스코프(HeliScope)™ 서열 분석기에 로딩하고, 레이저를 유세포의 표면에 조사하여 각각의 주형의 위치를 밝혀낸다. CCD 카메라는 유세포 표면상의 주형의 위치를 지도화할 수 있다. 이어서, 주형 형광성 표지를 절단하고, 세척해 낸다. DNA 폴리머라제 및 형광으로 표지화된 뉴클레오티드를 도입함으로써 시퀀싱 반응을 시작한다. 올리고 T 핵산이 프라이머로서의 역할을 한다. 폴리머라제는 표지화된 뉴클레오티드를 주형 지정된 방식으로 프라이머에 도입한다. 폴리머라제 및 도입되지 않은 뉴클레오티드를 제거한다. 형광으로 표지화된 뉴클레오티드가 지정된 방식으로 도입되어 있는 주형을 유세포 표면을 영상화함으로써 식별한다. 영상화한 후, 절단 단계를 통해 형광성 표지를 제거하고, 원하는 판독 길이에 도달할 때까지 다른 형광으로 표지화된 뉴클레오티드를 이용하여 프로세스를 반복한다. 각각의 뉴클레오티드 부가 단계를 이용하여 서열 정보를 수집한다. 단일 분자 시퀀싱 기술에 의한 전체 게놈 시퀀싱은 시퀀싱 라이브러리 제조에서 PCR 기반 증폭을 제외시키거나, 또는 전형적으로 배제하고, 본 방법을 통해서는 샘플 카피를 측정하기보다는 샘플을 직접적으로 측정할 수 있다.
이온 반도체 시퀀싱은 DNA의 중합화 동안 유리되는 수소 이온의 검출에 기초하여 DNA 시퀀싱 방법이다. 이는 "합성에 의한 시퀀싱" 방법으로서, 그 동안 상보적 가닥은 주형 가닥의 서열에 기초하여 구축된다. 시퀀싱하고자 하는 주형 DNA 가닥을 함유하는 마이크로웰에 단일 종의 데옥시리보뉴클레오티드 트리포스페이트(dNTP: deoxyribonucleotide triphosphate)를 가득 채운다. 도입된 dNTP이 선도 주형 뉴클레오티드에 상보적일 경우, 성장하는 상보적 가닥 내로 도입된다. 이는 반응이 발생하였음을 나타내는 ISFET 이온 센서를 촉발시키는 수소 이온을 유리시킨다. 주형 서열에 동종중합체 반복부가 존재할 경우, 다중 dNTP 분자는 단일 사이클에서 도입될 것이다. 이로써 상응하는 개수의 수소가 방출되고, 비례하여 더 높은 전기 신호가 발생하게 된다. 이러한 기술은, 변형된 뉴클레오티드 또는 광학이 사용되지 않는다는 점에서 다른 시퀀싱 기술과는 상이하다. 이온 반도체 시퀀싱은 또한 이온 토렌트 시퀀싱, pH 매개 시퀀싱, 실리콘 시퀀싱, 또는 반도체 시퀀싱으로도 지칭될 수 있다.
파이로시퀀싱에서, 중합화 반응에 의해 유리되는 피로포스페이트 이온은 ATP [0190] 술푸릴라제에 의해 아데노신 5' 포스포술페이트와 반응하여 ATP를 제조하고; 이어서, ATP는 루시퍼라제에 의해 루시페린의 옥시루시페린 + 빛으로의 전환을 구동시킨다. 형광은 일시적이기 때문에, 본 방법에서는 형광을 제거하는 분리 단계는 필요 없다. 한번에 한 유형의 데옥시리보뉴클레오티드 트리포스페이트(dNTP)가 부가되고, 서열 정보는 dNTP가 반응 부위에서 유의적인 신호를 생성하는 것에 따라 식별된다. 상업적으로 이용가능한 로슈(Roche) GS FLX 장치는 본 방법을 사용하여 서열을 획득한다. 상기 기법 및 그의 적용은 예를 들어, 문헌 [Ronaghi et al., Analytical Biochemistry 242, 84-89 (1996) and Margulies et al., Nature 437, 376-380 (2005)([Nature 441, 120 (2006)]의 정오표)에서 상세하게 논의되고 있다. 상업적으로 이용가능한 파이로시퀀싱 기술은 (예컨대, 문헌 [Margulies, M. et al. Nature 437:376-380 [2005]]에 기술되어 있는 것과 같은) 454 시퀀싱(로슈)이다.
결찰 시퀀싱에서, 오버행이 있는 부분적으로 이중 가닥 올리고뉴클레오티드를 오버행을 가진, 시퀀싱되는 핵산에 연결하는 데 리가제 효소가 사용되며; 결찰이 이루어지도록 하기 위해서는 오버행은 상보적이어야 한다. 부분적으로 이중 가닥 올리고뉴클레오티드 중 염기는 부분적으로 이중 가닥 올리고뉴클레오티드 및/또는 부분적으로 이중 가닥 올리고뉴클레오티드의 또 다른 부분에 하이브리드화된 제2 올리고뉴클레오티드에 컨쥬게이트된 형광단에 따라 확인될 수 있다. 형광 데이터를 획득한 후, (부분적으로 이중 가닥 올리고뉴클레오티드에 포함되어 있던) 그의 인식 부위로부터 고정된 거리에 있는 부위에서 절단하는 예컨대, II형 제한 효소, 예를 들어, Bbvl에 의해 결찰된 복합체를 결찰 부위의 상류쪽에서 절단한다. 이러한 절단 반응은 이전 오버행의 상류쪽으로 바로 옆에 있는 신규 오버행을 노출시키고, 프로세스는 반복된다. 상기 기법 및 그의 적용은 예를 들어, 문헌 [Brenner et al., Nature Biotechnology 18, 630-634 (2000)]에서 상세하게 논의된다. 일부 실시양태에서, 결찰 시퀀싱은 환형 핵산 분자의 회전환 증폭 생성물을 수득하고, 결찰 시퀀싱을 위한 주형으로서 회전환 증폭 생성물을 사용함으로써 본 발명의 방법에 적합화된다.
결찰 시퀀싱 기술의 상업적으로 이용가능한 예는 SOLiD™ 기술(어플라이드 바이오시스템즈(Applied Biosystems))이다. 결찰에 의한 SOLiD™ 시퀀싱에서, 게놈 DNA를 단편으로 전단하고, 어댑터를 단편의 5' 및 3' 단부에 부착시켜 단편 라이브러리를 생성한다. 별법으로, 어댑터를 단편의 5' 및 3' 단부에 결찰시키고, 단편을 환형화하고, 환형화된 단편을 분해하여 내부 어댑터를 생성하고, 어댑터를 생성된 단편의 5' 및 3' 단부에 부착시켜 짝을 이루어 쌍으로 형성된 라이브러리를 생성함으로써 내부 어댑터를 도입시킬 수 있다. 이어서, 비드, 프라이머, 주형, 및 PCR 성분을 함유하는 마이크로반응기에서 클론 비드 집단을 제조한다. PCR 후, 주형을 변성시키고, 비드를 강화시켜 주형 연장된 비드를 분리시킨다. 선택된 비드 상의 주형을 3' 변형시켜 유리 슬라이드에 결합할 수 있도록 만든다. 순차적인 하이브리드화, 및 특이적 형광단에 의해 확인되는 중앙 결정된 염기(또는 염기쌍)와 부분적 무작위 올리고뉴클레오티드의 결찰에 의해 서열을 결정할 수 있다. 색상을 기록하고, 결찰된 올리고뉴클레오티드를 절단하고, 제거하고, 이어서, 프로세스를 반복한다.
가역성 종결인자 시퀀싱에서, 차단기의 존재에 기인하여 가역성 쇄 종결인자인 것인 형광성 염료로 표지화된 뉴클레오티드 유사체를 단일 염기 연장 반응에서 도입한다. 염기의 아이덴티티는 형광단에 따라 측정되고; 다시 말해, 각각의 염기는 상이한 형광단과 쌍을 형성한다. 형광/서열 데이터를 획득한 후, 형광단 및 차단기를 화학적으로 제거하고, 다음 염기의 서열 정보를 획득할 때까지 사이클을 반복하다. 일루미나 GA 장치는 상기 방법에 의해 작동한다. 상기 기법 및 그의 적용은 예를 들어, 문헌 [Ruparel et al., Proceedings of the National Academy of Sciences of the United States of America 102, 5932-5937 (2005)], 및 [Harris et al., Science 320, 106-109 (2008)]에서 상세하게 기술된다.
가역성 종결인자 시퀀싱 방법의 상업적으로 이용가능한 예는 (예컨대, 문헌 [Bentley et al., Nature 6:53-59 [2009]]에 기술되어 있는 바와 같은) 일루미나의 합서에 의한 시퀀싱 및 가역성 종결인자 기반 분석이다. 일루미나의 시퀀싱 기술은 올리고뉴클레오티드 앵커가 결합되는 평면형인, 광학적으로 투명한 표면에의 단편화된 게놈 DNA의 부착에 의존한다. 주형 DNA는 단부를 수복시켜 5' 인산화된 블런트 단부를 생성하고, 클레노우(Klenow) 단편의 폴리머라제 활성을 사용하여 단일 A 염기를 블런트 인산화된 DNA 단편의 3' 단부에 부가한다. 이러한 부가를 통해 올리고뉴클레오티드 어댑터에의 결찰을 위한 DNA 단편이 제조되며, 이는 결찰율을 증가시키기 위해 그의 3' 단부에 단일 T 염기로 이루어진 오버행을 가진다. 어댑터 올리고뉴클레오티드는 유세포 앵커에 상보적이다. 제한 희석 조건하에서, 어댑터 변형된 단일 가닥 주형 DNA를 유세포에 부가하고, 하이브리드화에 의해 앵커에 고정화시킨다. 부착된 DNA 단편을 연장시키고, 브릿지 증폭시켜 각각 ~1,000개의 같은 주형의 카피를 함유하는, 수억개의 클러스터를 갖는 초고밀도 시퀀싱 유세포를 생성한다. 제거가능한 형광성 염료와 함께 가역성 종결인자를 아용하는 합성에 의한 강건한 4색 DNA 시퀀싱 기술을 사용하여 주형을 시퀀싱한다. 레이저 여기 및 내부 전반사 광학을 이용하여 고밀도 형광 검출을 달성한다. 약 20-40 bp, 예컨대 36 bp의 짧은 서열 리드(reads)를 반복 차폐된 참조 게놈에 대해 정렬하고, 특수 개발된 데이터 분석 파이프라인 소프트웨어를 이용하여 짧은 서열 리드의 참조 게놈에 대한 독특한 지도화를 확인한다. 비반복 차폐된 참조 게놈 또한 사용될 수 있다. 반복 차폐된 또는 비반복 차폐된 참조 게놈이 사용되는지 여부와는 상관없이, 오직 참조 게놈에 대하여 독특하게 지도화된 리드만이 계수된다. 제2 리드 완료 후, 주형은 계내에서 재생됨으로써 단편의 반대쪽 단부로부터 제2 리드가 이루어질 수 있다. 따라서, DNA 단편에 대한 단일 단부 또는 쌍을 이룬 단부의 시퀀싱이 사용될 수 있다. 샘플 중에 존재하는 DNA 단편의 부분적인 시퀀싱이 수행되고, 길이가 미리 결정된, 약 36 bp의 서열 태그를 포함하는 리드가 공지된 참조 게놈에 대해 지도화되고 계수된다.
나노포어 시퀀싱에서, 단일 가닥 핵산 분자는 예컨대, 전기영동 구동력을 사용하여 포어를 통해 트레딩되고, 서열은 단일 가닥 핵산 분자가 포어를 통해 통과함에 따라 얻어지는 데이터를 분석함으로써 도출된다. 데이터는 이온 전류 데이터일 수 있고, 여기서, 각각의 염기는 예컨대, 포어를 통해 통과하는 전류를 상이하게 식별가능한 정도로 부분적으로 차단함으로써 전류를 변경시킨다.
또 다른 예시적인, 그러나, 비제한적인 실시양태에서, 본원에 기술된 본 방법은 투과 전자 현미경법(TEM: 트랜스mission electron microscopy)을 사용하여 서열 정보를 얻는 것을 포함한다. 본 방법은 중원자 마커로 선택적으로 표지화된 고분자량(150 kb 이상) DNA를 단일 원자 해상도 투과 전자 현미경으로 영상화하고, 이들 분자를 초박 필름상에 과조밀(가닥 사이 3 nm) 평행 어레이로 염기 사이의 이격 거리는 일관되게 하여 배열하는 것을 포함한다. 전자 현미경을 사용하여 필름 상의 분자를 영상화하여 중원자 마커의 위치를 측정하고, DNA로부터 염기 서열 정보를 추출한다. 본 방법은 PCR 특허 공개 WO 2009/046445에 추가로 기술되어 있다.
또 다른 예시적인, 그러나, 비제한적인 실시양태에서, 본원에 기술된 본 방법은 제3 세대 시퀀싱을 사용하여 서열 정보를 얻는 것을 포함한다. 제3 세대 시퀀싱에서, 다수의 작은 (~50 nm) 홀이 있는, 알루미늄 코팅을 포함하는 슬라이드가 제로 모드 도파관으로서 사용된다(예컨대, 문헌 [Levene et al., Science 299, 682-686 (2003)] 참조). 알루미늄 표면은 폴리포스포네이트 화학법, 예컨대, 폴리비닐포스포네이트 화학법에 의해 DNA 폴리머라제의 부착으로부터 보호된다(예컨대, 문헌 [Korlach et al., Proceedings of the National Academy of Sciences of the United States of America 105, 1176-1181 (2008)] 참조). 이로써 DNA 폴리머라제 분자는 알루미늄 코팅의 홀 중 노출된 실리카에 우선적으로 부착된다. 이러한 구성으로 사용되는 소산파 현상은 형광 배경을 감소시킬 수 있으며, 이로써 보다 고농도의 형광으로 표지화된 dNTP가 사용될 수 있다. 형광단은 dNTP의 말단 포스페이트에 부착되고, 이로써 형광은 dNTP 도입시에 방출되지만, 형광단은 새로 도입된 뉴클레오티드에 부착된 상태로 남아있지 않으며, 이는 복합체가 또 다른 회차의 도입을 위해 즉시 사용될 준비가 되어 있음을 의미한다. 이 방법에 의해, 알루미늄 코팅의 홀에 존재하는 개별 프라이머-주형 복합체 내로의 dNTP 도입이 검출될 수 있다. 예컨대, 문헌 [Eid et al., Science 323, 133-138 (2009)]를 참조할 수 있다.
VI. 유전자 및 단백질 변이체 검정
일부 실시양태에서, 본 발명의 방법과 관련하여 생성된 폴리뉴클레오티드를 임의적으로 활성 스크리닝을 위해 세포로 클로닝하여 단백질 변이체를 발현시킨다(또는 시험관내 전사 반응에 사용하여 생성물을 제조하고, 이를 스크리닝한다). 추가로, 단백질 변이체를 코딩하는 핵산을 농축, 시퀀싱, 발현시키거나, 또는 임의의 다른 일반 재조합 방법으로 처리할 수 있다.
돌연변이유발법, 라이브러리 구성, 스크리닝 검정법, 세포 배양 등을 비롯한, 본원에서 유용한 분자 생물학 기법을 기술한 일반 교재로는 문헌 [Berger and Kimmel, Guide to Molecular Cloning Techniques, Methods in Enzymology volume 152 Academic Press, Inc., San Diego, CA (Berger)]; [Sambrook et al., Molecular Cloning - A Laboratory Manual (2nd Ed.), Vol. 1-3, Cold Spring Harbor Laboratory, Cold Spring Harbor, New York, 1989 (Sambrook)] 및 [Current Protocols in Molecular Biology, F.M. Ausubel et al., eds., Current Protocols, a joint venture between Greene Publishing Associates, Inc. and John Wiley & Sons, Inc., New York (supplemented through 2000) (Ausubel))]을 포함한다. 식물 및 동물 세포를 비롯한 세포에 핵산을 형질도입하는 방법은 상기 핵산에 의해 코딩되는 단백질을 발현시키는 방법인 바, 일반적으로 이용가능하다. [Berger], [Ausubel] 및 [Sambrook] 이외에도, 동물 세포 배양에 유용한 일반 참고 문헌으로는 문헌 [Freshney (Culture of Animal Cells, a Manual of Basic Technique, third edition Wiley- Liss, New York (1994))] 및 상기 참고 문헌에서 인용된 참고 문헌, 문헌 [Humason (Animal Tissue Techniques, fourth edition W.H. Freeman and Company (1979))] 및 [Ricciardelli, et al., 시험관내 Cell Dev. Biol. 25:1016-1024 (1989)]를 포함한다. 동물 세포 클로닝, 배양 및 재생에 대한 참고 문헌으로는 문헌 [Payne et al. (1992) Plant Cell and Tissue Culture in Liquid Systems John Wiley & Sons, Inc. New York, NY (Payne);] 및 [Gamborg and Phillips (eds) (1995) Plant Cell, Tissue and Organ Culture]; [Fundamental Methods Springer Lab Manual, Springer-Verlag (Berlin Heidelberg New York) (Gamborg)]를 포함한다. 다양한 세포 배양 배지가 문헌 [Atlas and Parks (eds) The Handbook of Microbiological Media (1993) CRC Press, Boca Raton, FL (Atlas)]에 기술되어 있다. 식물 세포 배양에 관한 추가 정보는 이용가능한 상업적 문헌, 예컨대, 시그마-알드리치 인크.(Sigma-Aldrich, Inc.: 미국 미주리주 세인트 루이스)로부터의 문헌 [Life Science Research Cell Culture Catalogue (1998)])(시그마-LSRCCC)(Sigma-LSRCCC), 및 예컨대, 이 또한 시그마-알드리치 인크.(미국 미주리주 세인트 루이스)로부터의 것인 문헌 [Plant Culture Catalogue and supplement (1997)](시그마-PCCS)(Sigma-PCCS)에서 살펴볼 수 있다.
예컨대, 올리고뉴클레오티드 재조합된 핵산을 증폭시키는 데 유용한 시험관내 증폭 방법을 통해 당업자에게 가르쳐 주는 데 충분한 기법의 예로는 중합 효소 연쇄 반응(PCR: polymerase chain reaction), 리가제 연쇄 반응(LCR: 리가제 chain reaction), Qb-리플리카제 증폭 및 다른 RNA 폴리머라제 매개 기법 (예컨대, NASBA)을 포함한다. 이들 기법은 문헌 [Berger, 상기 문헌 동일], [Sambrook, 상기 문헌 동일], 및 [Ausubel, 상기 문헌 동일] 뿐만 아니라, 미국 특허 번호 제4,683,202호(Mullis et al., (1987)); 문헌 [PCR Protocols A Guide to Methods and Applications (Innis et al. eds) Academic Press Inc. San Diego, CA (1990) (Innis)]; [Arnheim & Levinson (October 1, 1990) C&EN 36-47]; [The Journal Of NIH Research (1991) 3, 81-94]; [Kwoh et al. (1989) Proc. Natl. Acad. Sci. USA 86, 1173]; [Guatelli et al. (1990) Proc. Natl. Acad. Sci. USA 87, 1874]; [Lomell et al. (1989) J. Clin. Chem 35, 1826]; [Landegren et al., (1988) Science 241, 1077-1080; Van Brunt (1990) Biotechnology 8, 291-294]; [Wu and Wallace, (1989) Gene 4, 560]; [Barringer et al. (1990) Gene 89, 117], 및 [Sooknanan and Malek (1995) Biotechnology 13: 563-564]에서 살펴볼 수 있다. 시험관내 증폭된 핵산을 클로닝하는 개선된 방법은 미국 특허 번호 제5,426,039호(Wallace et al.)에 기술되어 있다. PCR에 의해 큰 핵산을 증폭시키는 개선된 방법은 최대 40 kb의 PCR 앰플리콘이 생성되는 것으로 기술되어 있는 문헌 [Cheng et al. (1994) Nature 369: 684-685] 및 상기 문헌에서 인용된 참고 문헌에 요약되어 있다. 역전사 효소 및 폴리머라제를 사용하여 본질적으로 임의의 RNA를 제한 분해, PCR 확장 및 시퀀싱에 적합한 이중 가닥 DNA로 전환시킬 수 있다는 것을 당업자는 이해할 것이다. 문헌 [Ausubel, 상기 문헌 동일], [Sambrook, 상기 문헌 동일], 및 [Berger, 상기 문헌 동일]을 참조할 수 있다.
한 바람직한 방법에서, 재조립된 서열은 패밀리 기반 재조합 올리고뉴클레오티드의 도입에 대해 체크된다. 이는 예컨대, 본질적으로 문헌 [Sambrook, 상기 문헌 동일], [Berger, 상기 문헌 동일], 및 [Ausubel, 상기 문헌 동일]에 교시된 바와 같이, 핵산을 클로닝 및 시퀀싱함으로써, 및/또는 제한 분해에 의해 수행될 수 있다. 추가로, 서열은 PCR 증폭될 수 있고, 직접 시퀀싱될 수 있다. 따라서, 예컨대, 문헌 [Sambrook, 상기 문헌 동일], [Berger, 상기 문헌 동일], [Ausubel, 상기 문헌 동일], 및 [Innis, 상기 문헌 동일] 이외에도, 추가의 PCR 시퀀싱 방법 또한 특히 유용하다. 예를 들어, PCR 생성된 앰플리콘의 직접적인 시퀀싱은 뉴클레아제를 이용하여 앰플리콘의 PCR 및 분해 동안 붕소화 뉴클레아제 저항성 뉴클레오티드를 앰플리콘 내로 선택적으로 도입함으로써 크기별 주형 단편을 생성함으로써 수행되었다(문헌 [Porter et al. (1997) Nucleic Acids Research 25(8):1611-1617). 상기 방법에서, 주형에 대해 4개의 PCR 반응이 수행되며, 각각의 상기 반응에서 PCR 반응 혼합물 중의 뉴클레오티드 트리포스페이트 중 하나가 2'데옥시뉴클레오시드 5'-[P-붕소]-트리포스페이트로 부분적으로 치환된다. 붕소화된 뉴클레오티드는 확률적으로 주형의 PCR 단편의 네스티드 세트 중 PCR 앰플리콘을 따라 다양한 위치의 PCR 생성물 내로 도입된다. 도입된 붕소화된 뉴클레오티드에 의해 차단된 엑소뉴클레아제가 PCR 앰플리콘을 절단하는 데 사용된다. 이어서, 절단된 앰플리콘을 폴리아크릴아미드 겔 전기영동을 사용하여 크기별로 분리하여 앰플리콘의 서열을 제공한다. 본 방법의 장점은 PCR 앰플리콘의 표준 생어 스타일의 시퀀싱을 수행할 때보다 더 적게 생화학적 조작을 이용한다는 점이다.
합성 유전자는 종래 클로닝 및 발현 접근법으로 잘 처리될 수 있고; 따라서, 유전자 및 유전자가 코딩한 단백질의 특성은 숙주 세포에서의 그의 발현 이후에 쉽게 조사될 수 있다. 합성 유전자는 또한 시험관내(무세포) 전사 및 번역에 의해 폴리펩티드 생성물을 생성하는 데 사용될 수 있다. 따라서, 폴리뉴클레오티드 및 폴리펩티드는 미리 결정된 리간드, 소형 분자 및 이온, 또는 중합체성 및 이종중합체성 물질(다른 단백질 및 폴리펩티드 에피토프 포함) 뿐만 아니라, 미생물 세포벽, 바이러스 입자, 표면 및 막에 결합할 수 있는 그의 능력에 대해서 조사될 수 있다.
예를 들어, 폴리뉴클레오티드에 의해 직접적으로, 또는 코딩된 폴리펩티드에 의해 화학 반응의 촉매반응과 관련된 표현혀을 코딩하는 폴리뉴클레오티드를 검출하는 데 다수의 물리적 방법이 사용될 수 있다. 단지 예시 목적으로, 및 관심의 대상이 되는 특정의 미리 결정된 화학 반응의 세푸 사항에 의존하여, 상기 방법은 기질(들)과 생성물(들) 사이의 물리적 차이, 또는 화학 반응과 관련된 반응 매질의 변화(예컨대, UV, 가시광선 또는 적외선(열)에 상관 없이 전자기 방출, 흡수, 손실, 및 형광의 변화)를 설명하는 것인, 당업계에 공지된 다수의 기법을 포함할 수 있다. 본 방법은 또한 하기: 질량 분석법; 핵 자기 공명법; 동위원소 분포 또는 표지화된 생성물 형성을 설명하는 동위원소에 의해 표지화된 물질, 구획화 및 스펙트럼 방법; 반응 생성물(들)의 이온 또는 원소 조성의 동반되는 변화(pH, 무기 및 유기 이온 등의 변화)를 검출하는 스펙트럼 및 화학적 방법의 임의 조합으로부터 선택될 수 있다. 본원의 방법에서 사용하는 데 적합한, 다른 물리적 검정 방법은 리포터 특성을 갖는 항체를 포함하는 것, 또는 리포터 유전자의 발현 및 활성과 커플링된 생체내 친화도 인식에 기반하는 것을 비롯한, 반응 생성물(들)에 특이적인 바이오센서 사용에 기반하는 것일 수 있다. 적절할 경우, 반응 생성물 검출을 위한 효소 커플링된 검정법 및 생체내 세포 생-사-성장 선택 또한 사용될 수 있다. 물리적 검정법의 특이적인 성질과 상관 없이, 상기 검정법은 모두 관심의 대상이 되는 생체분자에 의해 제공되거나, 또는 그에 의해 코딩되는 원하는 활성, 또는 원하는 활성의 조합을 선별하는 데 사용될 수 있다.
선별을 위해 사용되는 구체적인 검정법은 적용에 의존할 것이다. 단백질, 수용체, 리간드, 효소, 기질 등에 대한 다수의 검정법이 공지되어 있다. 포맷은 고정화된 성분에의 결합, 세포 또는 유기체의 생존 가능성, 리포터 조성물 생산 등을 포함한다.
고처리량 검정법은 특히 본 발명에서 사용되는 라이브러리를 스크리닝하는 데 적합한다. 고처리량 검정법에서, 하루에 최대 수천개의 상이한 변이체를 스크리닝할 수 있다. 예를 들어, 마이크로타이터 플레이트의 각 웰이 별도의 검정법을 수행하는 데 사용될 수 있거나, 농도 또는 인큐베이션 시간의 효과를 관찰하고자 하는 경우, 매 5-10개의 웰마다 단일 변이체를 (예컨대, 상이한 농도로) 테스트할 수 있다. 따라서, 단일 표준 마이크로타이터 플레이트가 약 100개 (예컨대, 96개)의 반응을 검정할 수 있다. 1536개의 웰 플레이트가 사용될 경우, 단일 플레이트는 약 100개 내지 약 1,500개의 상이한 반응을 쉽게 검정할 수 있다. 1일당 수개의 상이한 플레이트를 검정할 수 있고; 본 발명의 통합된 시스템을 이용함으로써 최대 약 6,000-20,000개의 상이한 검정을 위한 (즉, 상이한 핵산, 코딩된 단백질, 농도 등을 포함한 검정을 위한) 검정 스크린이 가능하다. 더욱 최근에는 초고 수준의 처리량 미세유동 검정 방법을 제공할 수 있는 시약 조작을 위한 미세유동 접근법이 예컨대, 캘리퍼 테크놀러지즈(Caliper Technologies: 미국 캘리포니아주 마운틴 뷰)에 의해 개발되었다.
고처리량 스크리닝 시스템이 상업적으로 이용가능하다(예컨대, 자이마크 코포레이션(Zymark Corp.: 미국 매사추세츠주 홉킨턴); 에어 테크니컬 인더스트리즈(미국 오하이오주 멘토); 벡맨 인스트루먼츠, 인크.(Beckman Instruments, Inc.: 미국 캘리포니아주 풀러턴); 프리시즌 시스템즈 인크.(Precision Systems, Inc.: 미국 매사추세츠주 나티크) 등 참조). 상기 시스템은 전형적으로 검정법에 적절한 검출기(들)에서 모든 샘플 및 시약의 피펫팅, 액체 분배, 일정 시간 후 작동하도록 장치한 인큐베이션, 및 최종의 마이크로플레이트 판독을 비롯한 전 과정을 자동화한다. 이러한 설정 가능한 시스템은 고처리량 및 신속한 시동 뿐만 아니라, 고도의 유연성 및 맞춤화를 제공한다.
상기 시스템의 제조업체는 각종의 고처리량 스크리닝 검정법에 대한 상세한 프로토콜을 제공한다. 따라서, 예를 들어, 자이마크 코포레이션은 유전자 전사, 리간드 결합 등의 변조를 검출하는 스크리닝 시스템을 기술하는 기술 회보를 제공한다.
예컨대, PC(인텔(Intel) x86 또는 펜티엄 칩 호환 MAC OS, 윈도스(WINDOWS)™ 계열, 또는 UNIX 기반 (예컨대, SUN™ 워크 스테이션) 컴퓨터를 이용하여 비디오 또는 광학 이미지 또는 다름 검정 이미지를 디지털화하거나, 디지털화된 비디오 또는 디지털화된 광학 이미지 또는 다름 검정 이미지를 저장 및 분석하는 데 다양한 상업적으로 이용가능한 주변 장치 및 소프트웨어가 이용가능하다.
분석용 시스템은 전형적으로 본원의 방법 중 하나 이상의 방법의 하나 이상의 단계를 지시하기 위해 소프트웨어를 사용하여 특수화된 알고리즘을 수행하도록 특수 프로그램화된 디지털 컴퓨터, 및 임의적으로는 또한 예컨대, 차세대 시퀀싱 플랫폼 제어 소프트웨어, 고처리량 액체 제어 소프트웨어, 이미지 분석 소프트웨어, 데이터 해석 소프트웨어, 소스로부터의 솔루션을 디지털 컴퓨터에 작동가능하게 연결된 목적지로 전달하기 위한 로봇식 액체 제어 전기자, 데이터를 디지털 컴퓨터에 입력하여 작동 또는 로봇식 액체 제어 전기자에 의한 고처리량 액체 전달을 제어하는 입력 장치(예컨대, 컴퓨터 키보드), 및 임의적으로, 표지화된 검정 소자로부터 표지 신호를 디지털화하기 위한 이미지 스캐너를 포함한다. 이미지 스캐너는 이미지 분석 소프트웨어와 인터페이스로 접속하여 프로브 표지 강도를 측정할 수 있다. 전형적으로, 프로브 표지 강도 측정은 데이터 해석 소프트웨어에 의해 해석되며, 이로써, 표지화된 프로브가 고체 지지체 상의 DNA에 하이브리드화하는지 여부를 보여준다.
일부 실시양태에서, 시험관내 올리고뉴클레오티드 매개 재조합 생성물 또는 인실리코 재조합된 핵산의 물리적 실시양태를 포함하는 세포, 바이러스 플라크, 포자 등은 고체 배지 상에서 분리되어 개별 콜로니(또는 플라크)를 생산할 수 있다. 자동화 콜로니 피커(예컨대, Q-보트(진틱스(Genetix: 영국)))를 사용하여, 콜로니 또는 플라크를 확인하고, 채취하고, 최대 10,000개의 상이한 돌연변이체를 2개의 3 mm 유리 볼/웰을 포함하는 96 웰 마이크로타이터 내로 접종한다. Q-보트는 전체 콜로니를 채취하기 보다는, 콜로니 중심부를 통하여 핀을 삽입하고, 소량의 세포, (또는 균사) 및 포자(또는 플라크 적용시 바이러스)를 가지고 배출된다. 핀이 콜로니에 있는 시간, 배양 배지를 접종하는 딥 개수, 및 각각의 핀이 배지 중에서 접종물 크기에 영향을 미치는 시간, 및 각 파라미터는 제어되고, 최적화될 수 있다.
예컨대, Q-보트와 같이 일관된 자동화 콜로니 채취 방법은 인간이 범하는 취급상의 오류를 감소시키고, 배양물 확립 속도(대략 10,000개/4시간)를 증가시킨다. 상기 배양물은 임의적으로 온도 및 습도 제어식 인큐베이터에서 진탕된다. 마이크로타이터 플레이트 중의 임의적인 유리 볼은 세포의 일관된 통기 및 발효기의 블레이드아 유사한 세포(예컨대, 균사) 단편의 분산을 촉진하는 작용을 한다. 관심의 대상이 되는 배양물로부터의 클론을 한계 희석에 의해 단리할 수 있다. 또한 상기 기술된 바와 같이, 라이브러리를 구성하는 프라크 또는 세포는 또한 하이브리드화, 단백질 활성, 항체에의 단백질 결합 등을 검출함으로써 단백질 제조에 대하여 직접적으로 스크리닝될 수 있다. 충분한 크기의 풀을 확인할 수 있는 기회를 증가시키기 위하여, 프로세싱된 돌연변이체의 개수를 10배만큼 증가시키는 프리스크린이 사용될 수 있다. 1차 스크린의 목표는 모체 균주(들)와 생성물 역가가 동일하거나, 또는 그보다 우수한 돌연변이체를 신속하게 확인하고, 후속 분석을 위해 상기 돌연변이체만을 액체 세포 배양물로 이동시키고자 하는 것이다.
다양한 라이브러리를 스크리닝하는 한 접근법은 대량 병렬 고체상 방법을 사용하여 폴리뉴클레오티드 변이체, 예컨대, 효소 변이체를 코딩하는 폴리뉴클레오티드를 발현하는 세포를 스크리닝하는 것이다. 흡수, 형광, 또는 FRET를 이용하는 대량 병렬 고체상 스크리닝 장치는 이용가능하다. 예컨대, 미국 특허 번호 제5,914,245호(Bylina, et al. (1999))를 참조할 수 있고; http://www|.| kairos -scientific.com/; 문헌 [Youvan et al. (1999) "Fluorescence Imaging Micro-Spectrophotometer (FIMS)" Biotechnology et alia, <www|.|et-al.com> 1:1-16]; [Yang et al. (1998) "High Resolution Imaging Microscope (HIRIM)" Biotechnology et alia, <www|.|et-al.com> 4:1-20]; 및 [Youvan et al. (1999) "Calibration of Fluorescence Resonance Energy 트랜스fer in Microscopy Using Genetically Engineered GFP Derivatives on Nickel Chelating Beads" posted at www|.|kairos-scientific.com] 또한 참조할 수 있다. 상기 기법에 의해 스크리닝한 후, 당업계에 공지된 방법을 사용하여 전형적으로는 관심의 대상이 되는 분자를 단리시키고, 임의적으로는 시퀀싱한다. 이어서, 서열 정보는 신규한 단백질 변이체 라이브러리를 디자인하는 데 본원에 기술된 바와 같이 사용된다.
유사하게, 검정 시스템에서 유용한 용액상 화학법을 위해 널리 공지된 다수의 로봇식 시스템 또한 개발되었다. 상기 시스템으로는 다케다 케미컬 인더스트리즈, 리미티드(Takeda Chemical Industries, LTD.: 일본 오사카)에 의해 개발된 자동화 합성 장치, 및 과학작에 의해 실행되는 수동식 합성 연산을 모방하는 로롯식 아암을 이용하는 다수의 로봇식 시스템(자이메이트 II(Zymate II)(자이마크 코포레이션: 미국 매사추세츠주 홉킨턴); 오르카(Orca)(벡맨 쿨터 인크.(Beckman Coulter, Inc.: 미국 캘리포니아주 풀러턴)))과 같은 자동화 워크스테이션을 포함한다. 상기 장치 중 임의의 것은 예컨대, 본원에 기술된 바와 같이 진화된 핵산에 의해 코딩된 분자의 고처리량 스크리닝을 위한 것과 같이 본 발명에서 사용되는 데 적합하다. (필요할 경우) 상기 장치가 본원에서 논의된 바와 같이 작동될 수 있도록 이루어지는 그에 대한 변형의 성질 및 실행은 관련 분야의 당업자에게 자명할 것이다.
VII. 디지털 장치 및 시스템
자명한 바, 본원에 기술된 실시양태는 하나 이상의 컴퓨터 시스템에 저장되거나, 그를 통해 전달되는 명령 및/또는 데이터의 제어하에 작동하는 프로세스를 이용한다. 본원에 개시된 실시양태는 또한 이들 연산을 실행하는 시스템 및 기기(예컨대, 장치)에 관한 것이다. 일부 실시양태에서, 장치는 필요한 목적을 위해 특수 디자인되고/거나, 구성될 수 있거나, 또는 컴퓨터에 저장된 컴퓨터 프로그램 및/또는 데이터 구조에 의해 선택적으로 활성화되거나, 변경되는 범용 컴퓨터일 수 있다. 본 개시내용에 의해 제공되는 프로세스는 본질적으로 임의의 특정 컴퓨터 또는 다른 특정 장치와 관련이 있는 것은 아니다. 특히, 다양한 범용 기계는 본원의 교시에 따라 작성된 프로그램과 함께 사용된다는 것을 알 수 있다. 그러나, 일부 실시양태에서, 특수 장치는 필요한 방법 연산을 실행하도록 구성된다. 상기와 같은 다양한 기계를 위한 특정 구조에 관한 한 실시양태는 하기에 기술된다.
추가로, 본 개시내용의 특정 실시양태는 다양한 컴퓨터 실행 연산 실행을 위한 프로그램 명령 및/또는 데이터(데이터 구조 포함)를 포함하는 컴퓨터 판독가능 매체 또는 컴퓨터 프로그램 제품에 관한 것이다. 컴퓨터 판독가능 매체의 예로는 자기 매체, 예컨대, 하드 디스크; 광학 매체, 예컨대, CD-ROM 장치 및 홀로그램 장치; 광자기 매체; 반도체 메모리 장치, 예컨대, 플래시 메모리를 포함하나, 이에 한정되지 않는다. 하드웨어 장치, 예컨대, 읽기 전용 메모리 장치(ROM: read-only memory) 및 랜덤 액세스 메모리(RAM: random access memory)가 프로그램 명령을 저장하도록 구성될 수 있다. 하드웨어 장치, 예컨대, 응용 주문형 집적 회로(ASIC: application-specific integrated circuit), 및 프로그램 가능 논리 소자(PLD: programmable logic device)가 프로그램 명령을 실행하고, 저장하도록 구성될 수 있다. 본 개시내용을 컴퓨터 실행 연산 실행을 위한 명령 및/또는 데이터를 포함하는 임의의 특정 컴퓨터 판독가능 매체 또는 임의의 다른 컴퓨터 프로그램 제품으로 한정하고자 하지 않는다.
프로그램 명령의 예로는 예컨대, 컴파일러에 의해 작성된 로우 레벨 코드, 및 인터프리터를 사용하여 컴퓨터에 의해 실행될 수 있는 하이어 레벨 코드를 포함하는 파일을 포함하나, 이에 한정되지 않는다. 추가로, 프로그램 명령으로는 기계 코드, 원시 코드 및 본 개시내용에 따라 컴퓨팅 기계의 연산을 직접 또는 간접적으로 제어하는 임의의 다른 코드를 포함하나, 이에 한정되지 않는다. 코드는 입력, 출력, 계산, 조건부, 분기, 반복 루프 등을 명시할 수 있다.
한 예시적인 일례에서, 본원에 개시된 방법을 구현하는 코드는 적절하게 설정된 컴퓨팅 장치로 로딩되었을 때, 장치가 하나 이상의 리간드와 상호작용하는 하나 이상의 생체분자 변이체의 가상 스크리닝을 실행하도록 하는 논리 명령 및/또는 데이터를 포함하는 고정 매체 또는 전달가능한 프로그램 구성 요소에서 구현된다. 도 4는 매체(817), 네트워크 포트(819), 사용자 입력 키보드(809), 사용자 입력(811), 또는 다른 입력 수단으로부터 명령을 판독할 수 있는 논리 장치인 예시적인 디지털 장치(800)를 보여주는 것이다. 이하 장치(800)은 데이터 공간에서 통계학적 연산을 지시하기 위해, 예컨대, 리간드 모이어티와 활성 부위, 보조인자 등의 하나 이상의 특징 사이의 기하학적 관계를 평가하기 위해(예컨대, 활성 부위 내의 네이티브 기질의 위치와 단백질 변이체의 활성 부위에서 고려되는 기질의 위치 사이의 거리를 측정하기 위해) 상기 명령을 사용할 수 있다. 개시된 실시양태를 구현할 수 있는 논리 장치의 한 유형으로는 CPU(807), 임의적 사용자 입력 장치 키보드(809), 및 GUI 위치 결정 장치(811) 뿐만 아니라, 주변 구성 요소, 예컨대, 디스크 드라이버(815) 및 모니터(805)(GO 변형된 문자열을 제시하고, 사용장 의해 상기 문자열의 서브세트의 간소화된 선택을 제공한다)를 포함하는 컴퓨터 시스템(800)에서와 같은 컴퓨터 시스템이 있다. 고정된 매체(817)은 임의적으로 전체 시스템을 프로그램화하는 데 사용되고, 이는 예컨대, 디스크형의 광학 또는 자기 매체 또는 다른 전자 메모리 저장 소자를 포함할 수 있다. 통신 포트(819)는 시스템을 프로그램화하는 데 사용되고, 이는 임의 유형의 통신 연결부를 나타낼 수 있다.
특정 실시양태는 또한 응용 주문형 집적 회로(ASIC), 및 프로그램 가능 논리 소자(PLD)의 회로망 내에서 구현될 수 있다. 상기 경우에서, 본 실시양태는 ASIC 또는 PLD를 생성하는 데 사용될 수 있는 컴퓨터 판독가능 디스크립터 언어로 실행된다. 본 개시내용의 일부 실시양태는 다양한 다른 디지털 장치, 예컨대, PDA, 랩톱 컴퓨터 시스템, 디스플레이, 영상 편집 장치 등의 회로망 또는 논리 프로세서 내에서 실행된다.
일부 실시양태에서, 본 개시내용은 컴퓨터 시스템의 하나 이상의 프로세서에 의해 실행될 때, 컴퓨터 시스템이 단백질 변이체의 가상 스크리닝 방법 및/또는 원하는 활성을 가진 단백질의 인실리코 유도 진화 방법을 구현하도록 하는 컴퓨터 실행가능 명령이 저장되어 있는 하나 이상의 컴퓨터 판독가능 저장 매체를 포함하는 컴퓨터 프로그램 제품에 관한 것이다. 상기 방법은 본원에 기술된 임의의 방법, 예컨대, 도면 및 유사 부호에 의해 포함되는 것일 수 있다. 일부 실시양태에서, 예를 들어, 본 방법은 복수의 효소에 대한 서열 데이터를 수신하고, 생물학적 분자의 3차원 상동성 모델을 생성하고, 효소의 상동성 모델을 기질의 하나 이상의 컴퓨터 리프리젠테이션과 도킹하고, 원하는 촉매 활성 및 선택성을 가진 효소를 선별한다. 일부 실시양태에서, 본 방법은 스크리닝 프로세스에 의해 높은 순위로 순위화된 변이체로부터 변이체 라이브러리를 추가로 개발해 낼 수 있다. 변이체 라이브러리는 반복적인 유도 진화 및 스크리닝에서 사용될 수 있으며, 이를 통해 원하는 유익한 특성을 가진 효소를 얻을 수 있다.
일부 실시양태에서, 효소의 상동성 모델과 기질의 하나 이상의 컴퓨터 리프리젠테이션의 도킹은 본원에 기술된 바와 같이 리간드의 컴퓨터 리프리젠테이션 및 복수의 변이체의 활성 부위의 컴퓨터 리프리젠테이션을 이용하는 컴퓨터 시스템 상의 도킹 프로그램에 의해 수행된다. 다양한 실시양태에서, 도킹을 측정하는 방법은 기질의 포즈와 효소 사이의 결합 에너지를 평가하는 것을 포함한다. 리간드와 성공적으로 도킹한 단백질 변이체의 경우, 가상 단백질 스크리닝 시스템은 고려되는 단백질 변이체의 활성 부위에서 리간드의 컴퓨터 리프리젠테이션의 복수의 포즈를 고려하고, 복수의 포즈 중 임의의 것이 활성인지 측정한다. 다양한 실시양태에서, 활성 포즈를 측정하는 방법은 리간드 중의 하나 이상의 원자 및 단백질 및/또는 상기 단백질과 관련된 보조인자 중의 하나 이상의 원자의 상대적인 위치 범위를 정의하는 지리적 제약조건을 평가하는 것을 포함한다.
VIII. 웹사이트 및 클라우드 컴퓨팅에서의 실시양태
인터넷은 통신 링크를 통해 서로 연결된 컴퓨터, 정보 기기, 및 컴퓨터 네트워크를 포함한다. 서로 연결된 컴퓨터는 예컨대, 전자 우편, ftp, 월드 와이드 웹("WWW": World Wide Web), 및 보안 서비스를 비롯한 다른 서비스와 같은 각종 서비스를 이용하여 정보를 교환한다. WWW 서비스는 서버 컴퓨터 시스템(예컨대, 웹 서버 또는 웹 사이트)이 정보의 웹 페이지를 원격 클라이언트 정보 기기 또는 컴퓨터 시스템으로 전송할 수 있도록 허용하는 것으로 이해될 수 있다. 이어서, 원격 클라이언트 컴퓨터 시스템은 웹 페이지를 디스플레이할 수 있다. 일반적으로, WWW의 각 자원(예컨대, 컴퓨터 또는 웹 페이지)은 균일 자원 위치 지정자("URL": Uniform Resource Locator)에 의해 고유하게 식별가능하다. 구체적인 웹 페이지를 검토하거나, 또는 서로 소통하기 위해, 클라이언트 컴퓨터 시스템은 요청시 상기 웹 페이지에 대한 URL을 지정한다. 요청은 웹 페이지를 지원하는 서버로 전송된다. 서버가 요청을 수신하였을 때, 서버는 웹 페이지를 클라이언트 정보 시스템으로 전송한다. 클라이언트 컴퓨터 시스템이 웹 페이지를 수신하였을 때, 상기 시스템은 브라우저를 이용하여 웹 페이지를 디스플레이할 수 있거나, 웹 페이지와 소통할 수 있거나, 또는 별도로 제공되는 바와 같이 인터페이스로 접속할 수 있다. 브라우저는 웹 페이지의 요청 및 웹 페이지 디스플레이 또는 그와의 소통에 영향을 미치는 논리 모듈이다.
현재, 디스플레이가능한 웹 페이지는 전형적으로 하이퍼 텍스트 마크업 언어("HTML": Hyper Text Markup Language)를 사용하여 정의된다. HTML은 웹 페이지가 어떻게 디스플레이되는지를 정의하는 표준 태그 세트를 제공한다. HTML 문서는 텍스트, 그래픽, 컨트롤, 및 다른 특징의 디스플레잉을 제어하는 각종 태그를 포함한다. HTML 문서는 상기 서버 컴퓨터 시스템 또는 다른 서버 컴퓨터 시스템 상에서 이용가능한 다른 웹 펩이지의 URL을 포함할 수 있다. URL은 또한 정보를 사용자에게 반드시 디스플레이할 필요없이 원격 정보 기기 또는 서버와 통신하기 위해 정보 기기가 사용하는, CGI 스크립트 또는 실행가능한 인터페이스와 같은 것을 비롯한, 다른 유형의 인터페이스를 나타낼 수 있다.
인터넷은 특히 정보 서비스를 하나 이상의 원격 고객에게 제공하는 데 도움이 된다. 서비스는 인터넷을 통해 구매자에게 전자 방식으로 전달되는 아이템(예컨대, 음악 또는 주식 시세)를 포함할 수 있다. 서비스는 또한 종래 유통 경로(예컨대, 통신 사업자)를 통해 전달될 수 있는 아이템(예컨대, 식료품, 서적, 또는 화학 물질 또는 생물 화합물 등)에 대한 처리 순서를 포함할 수 있다. 서비스는 또한 구매자가 추후에 접속하는 아이템, 예컨대, 항공 또는 극장 예약에 대한 처리 순서를 포함할 수 있다. 서버 컴퓨터 시스템은 이용가능한 아이템 또는 서비스를 열거하는 전자 버전의 인터페이스를 제공할 수 있다. 사용자 또는 잠재적인 구매자는 브라우저를 이용하여 인터페이스와 연결될 수 있고, 관심의 대상이 되는 각종 아이템을 선택할 수 있다. 사용자가 원하는 아이템 선택을 완료하였을 때, 서버 컴퓨터 시스템은 이어서, 서비스 완료에 필요한 정보에 대해 사용자에게 프롬프팅할 수 있다. 거래 특정 주문 정보로는 구매자의 성명 또는 다른 신원 확인, 지불(예컨대, 회사 구매 주문 번호 또는 계좌 번호)에 대한 확인, 또는 서비스 완료에 필요한 추가 정보, 예컨대, 비행 정보를 포함할 수 있다.
인터넷을 통해 및 다른 네트워크를 통해 제공될 수 있는, 특히 관심의 대상이 되는 서비스들 중에는 생물학적 데이터 및 생물학적 데이터베이스가 있다. 상기 서비스는 미국 국립 보건원(NIH: National Institutes of Health)의 미국 국립 생물 공학 정보 센터(NCBI: National Center for Biotechnology Information)가 제공하는 다양한 서비스를 포함한다. NCBI는 분자 생물학, 생화학, 및 유전학에 대한 지식을 저장 및 분석하기 위한 자동화 시스템 생성; 연구 단체 및 의학계에 의한 상기 데이터베이스 및 소프트웨어 사용 촉진; 국가적으로 및 국제적으로인 둘 모두의 방식으로 생물공학 정보를 수집하고자 하는 노력 조정; 및 생물학적으로 중요한 분자의 구조 및 기능을 분석하기 위한 개선된 컴퓨터 기반 정보 프로세싱 방법에 대한 연구 수행을 담당하고 있다.
NCBI는 진뱅크(GenBank)® DNA 서열 데이터베이스에 대한 책임을 맡고 있다. 데이터베이스는 개별 실험실에 의해, 및 국제 뉴클레오티드 서열 데이터베이스, 유럽 분자 생물 실험실(EMBL: European Molecular Biology Laboratory) 및 일부 DNA 데이터베이스(DDBJ: DNA Database of Japan)와의 데이터 교환에 의해 제출된 서열로부터 구성될 수 있고, 에 제출된 특허 서열 데이터를 포함한다. 진뱅크® 이외에도, NCBI는 의학계 및 과학계를 위해 다양한 데이터베이스를 지원하고 배포한다. 이는 미국 국립 암 연구소(National Cancer Institute)와 함께 협력하여 온라인 멘델리안 인헤리턴스 인 맨(OMIM: Online Mendelian Inheritance in Man), 3D 단백질 구조의 몰레큘라 모델링 데이터베이스(MMDB: Molecular Modeling Database), 유니크 휴먼 시퀀스 콜렉션(Unique Human Gene Sequence Collection)(유진진(UniGene)), 진 맵 오브 더 휴먼 게놈(Gene Map of the Human Genome), 택소노미 브라우저(Taxonomy Browser), 및 캔서 게놈 아나토미 프로젝트(CGAP: Cancer Genome Anatomy Project)를 포함한다. 엔트레즈(Entrez)는 사용자에게 서열, 지도화, 분류, 및 구조 데이터에 대한 통합 접속을 제공하는 NCBI의 서치 및 검색 시스템이다. 엔트레즈는 또한 서열 및 염색체 지도에 관한 그래프 도면을 제공한다. 엔트레즈의 특징은 관련 서열, 구조, 및 참조를 검색할 수 있는 능력이다. 본원에 기술된 바와 같은 BLAST는 전체 DNA 데이터베이스에 대한 서열 서치를 수행할 수 있는 유전자 및 유전적 특징을 확인하기 위한 것으로서, NCBI에서 개발된 서열 유사성 검색 프로그램이다. NCBI에 의해 제공되는 추가의 소프트웨어 도구로는 오픈 리딩 프레임 파인더(Open Reading Frame Finder(ORF 파인더(ORF Finder)), 일렉트로닉스 PCR(Electronic PCR), 및 서열 전손 도구, 시퀸(Sequin) 및 뱅크잇(BankIt)을 포함한다. NCBI의 다양한 데이터베이스 및 소프트웨어 도구는 WWW로부터, 또는 FTP에 의해, 또는 e-메일 서버에 의해 이용가능하다. 추가 정보는 www|.|ncbi.nlm.nih.gov에서 이용가능하다.
인터넷상에서 이용가능한 일부 생물학적 데이터는 일반적으로는 특수 브라우저 "플러그-인" 또는 다른 실행 코드로 검토되는 데이터이다. 상기 시스템의 한 예로 생물학적 분자 구조를 비롯한, 분자 구조의 가상 3차원 디스플레이를 허용하는 브라우저 플러그-인인 CHIME가 있다. CHIME에 관한 추가 정보는 www|.|mdlchime.com/chime/에서 이용가능하다.
다양한 회사 및 기관이 생물학적 화합물 주문을 위한 온라인 시스템을 제공한다. 상기 시스템의 예는 www|.|genosys.com/oligo_custinfo.cfm 또는 www|.|genomictechnologies.com/Qbrowser2_FP.html에서 살펴볼 수 있다. 전형적으로, 이들 시스템은 원하는 생물학적 화합물(예컨대, 올리고뉴클레오티드, DNA 가닥, RNA 가닥, 아미노산 서열 등)의 일부 디스크립터를 수락한 후, 이어서, 요청된 화합물을 제조하고, 이를 액체 용액 또는 다른 적절한 형태로 고객에게 배송한다.
본원에 제공하는 방법은 하기에 추가로 기술된 바와 같이 웹사이트상에서 실행될 수 있는 바, 본 개시내용의 일부 실시양태에 의해 제조된 폴리펩티드 또는 폴리뉴클레오티드를 포함하는 컴퓨터에 의한 결과 또는 물리적 결과는 상기 기술된 생물학적 정보 및 화합물과 유사한 방식으로 인터넷을 통해 제공될 수 있다.
추가로 설명하기 위해, 본 발명의 방법은 로컬화된 또는 분산 컴퓨팅 환경에서 실행될 수 있다. 분산 환경에서, 본 방법은 다중 프로세서를 포함하는 단일 컴퓨터상에서 또는 복수의 컴퓨터상에서 실행될 수 있다. 컴퓨터는 예컨대, 공통 버스를 통해 연결될 수 있지만, 더욱 바람직하게, 컴퓨터(들)는 네트워크상의 노드이다. 상기 네트워크는 범용 또는 전용 로컬 또는 광역 네트워크일 수 있고, 특정의 바람직한 실시양태에서, 컴퓨터는 인트라넷 또는 인터넷의 소자일 수 있다.
한 인터넷 실시양태에서, 클라이언트 시스템은 전형적으로 웹 브라우저를 실행하고, 웹 서버를 실행하는 서버 컴퓨터에 연결된다. 웹 브라우저는 전형적으로는 프로그램, 예컨대, IBM의 웹 익스플로러(IBM's Web Explorer), 마이크로소프트의 인터넷 익스플로러(Microsoft's Internet explorer), 넷스케이프(NetScape), 오페라(Opera), 또는 모자이크를 포함한다. 웹 서버는 반드시 그러한 것은 아니지만, 전형적으로는 프로그램, 예컨대, IBM의 HTTP 데몬(Daemon) 또는 다른 www 데몬(예컨대, LINUX 기반 형태의 프로그램)을 포함한다. 클라이언트 컴퓨터는 유선상에서 또는 무선 시스템을 통해 서버 컴퓨터와 양방향으로 연결된다. 결국, 서버 컴퓨터는 웹사이트(웹사이트와 호스팅하는 서버)와 양방향으로 연결되어 본 발명의 방법을 구현하는 소프트웨어에 접속한다.
언급된 바와 같이, 인트라넷 또는 인터넷에 연결된 클라이언트의 사용자는 클라이언트가 본 발명의 방법을 구현하는 어플리케이션(들)을 호스팅하는 웹 사이트(들)의 일부인 자원을 요청하도록 할 수 있다. 이어서, 서버 프로그램(들)은 요청을 프로세싱하여 명시된 자원을 복귀시킨다(현재 이용가능하다고 가정할 때). 표준 명명 규칙(즉, 균일 자원 위치 지정자("URL"))은 현재 서브부류인, 예컨대, 하이퍼텍스트 트랜스포트 프로토콜("http": Hypertext Transport Protocol), 파일 트랜스포트 프로토콜("ftp": File Transport Protocol), 고퍼, 및 와이드 에어리어 인포메이션 서비스("WAIS": Wide Area Information Service)를 비롯한, 여러 유형의 위치명을 포함한다. 자원 다운로드시, 이는 추가 자원의 URL을 포함할 수 있다. 따라서, 클라이언트의 사용자는 그 또는 그녀가 구체적으로 요청하지 않았던 새로원 자원의 존재를 쉽게 학습할 수 있다.
본 발명의 방법(들)을 실행하는 소프트웨어는 실제 클라이언트-서버 아키텍쳐에서 웹사이트를 호스팅하는 서버상에서 로컬 방식으로 수행될 수 있다. 따라서, 클라이언트 컴퓨터는 요청된 프로세스(들)를 로컬 방식으로 수행한 후, 결과를 다시 클라이언트에게로 다운로드하고자 하는 요청을 호스트 서버에게 전송한다. 별법으로, 본 발명의 방법은 방법(들)의 구성 요소들이 클라이언트에 의해 국소적으로 실행되는 "다계층" 포맷으로 실행될 수 있다. 이는 클라이언트(예컨대, 자바 어플리케이션)에 의해 요청시 서버로부터 다운로드에 소프트웨어에 의해 실행될 수 있거나, 클라이언트상에 "영구적으로" 설치된 소프트웨어에 의해 실행될 수 있다.
한 실시양태에서, 본 발명의 방법을 구현하는 어플리케이션(들)은 2가지 프레임으로 나뉜다. 이러한 패러다임에서, 특징 또는 기능성의 집합만큼 많은 정도 아니지만, 대신 별개의 프레임 또는 뷰의 집합으로서 어플리케이션을 검토하는 것이 도움이 된다. 예를 들어, 전형적인 어플리케이션은 일반적으로 각각이 특정 프레임, 즉, 어플리케이션의 특정 기능을 자명하는 형태를 적용하는 것인, 메뉴 아이템 세트를 포함한다. 이러한 관점에서, 어플리케이션은 코드의 모놀리식 몸체로서가 아니라, 애플릿 집한, 또는 기능 번들로서 검토된다. 브라우저 내의 이러한 방식으로, 사용자는 웹 페이지 링크를 선택하여, 결국에는 어플리케이션의 특정 프레임(즉, 서브어플리케이션)을 적용할 것이다. 따라서, 예를 들어, 하나 이상의 프레임은 생물학적 분자(들)를 하나 이상의 데이터 공간에 입력하고/거나, 코딩하는 기능을 제공할 수 있는 반면, 또 다른 프레임은 데이터 공간의 모델을 리파이닝하기 위한 도구를 제공한다.
특정 실시양태에서, 본 발명의 방법은 하기 기능(들): 2개 이상의 생물학적 분자를 문자열로 코딩하여 2개 이상의 상이한 이니셜 문자열의 집합을 제공하는 기능(들)으로서, 여기서, 상기 생물학적 분자들은 각각 선택된 서브유닛 세트를 포함하는 것인 기능(들); 문자열로부터 2개의 서브문자열을 선택하는 기능; 서브문자열을 연결시켜 이니셜 문자열 중 하나 이상과 길이가 거의 동일한 하나 이상의 생성물 문자열을 형성하는 기능; 문자열 집합에 생성물 문자열을 부가(배지)하는 기능; 효소 및 기질의 컴퓨터 리프리젠테이션/모델을 생성 및 조작하는 기능; 기질(예컨대, 리간드)의 컴퓨터 리프리젠테이션을 효소(예컨대, 단백질)의 컴퓨터 리프리젠테이션과 도킹하는 기능; 분자 동역학을 분자 모델에 적용하는 기능; 분자를 포함하는 화학 반응에 영향을 주는 분자 사이의 다양한 제약조건(예컨대, 기질 모이어티와 효소 활성 부위 사이의 거리 또는 각)을 계산하는 기능; 및 본원에 기술된 임의의 특징을 실행하는 기능을 제공하는 하나 이상의 프레임으로서 실행된다.
이러한 기능들 중 하나 이상은 또한 오직 배타적으로 서버상에서만 또는 클라이언트 컴퓨터상에서만 실행될 수 있다. 이러한 기능, 예컨대, 생물학적 분자의 전산 모델을 생성 또는 조작하는 기능은, 사용자가 생물학적 분자의 리프리젠테이션(들)를 삽입 또는 조작할 수 있는 하나 이상의 창을 제공할 수 있다. 추가로, 기능은 또한 임의적으로 로컬 네트워크 및/또는 인트라넷을 통해 접속가능한 개인용 및/또는 공용 데이터베이스에의 접속을 제공하며, 이로써, 데이터베이스에 포함되어 있는 하나 이상의 서열은 본 발명의 방법 내로 입력될 수 있다. 따라서, 예를 들어, 한 실시양태에서, 사용자는 임의적으로 진뱅크®의 서치를 요청할 수 있고, 상기 서치에 의해 복귀된 서열 중 하나 이상을 코딩 및/또는 다양한 생성 기능 내로 입력시킬 수 있는 능력을 가진다.
전산 및/또는 데이터 접속 프로세스의 인트라넷 및/또는 인트라넷 실시양태를 실행하는 방법은 당업자에게 널리 공지되어 있고, 매우 상세하게 문서화되어 있다(예컨대, 문헌 [Cluer et al. (1992) "A General Framework for the Optimization of Object-Oriented Queries," Proc SIGMOD International Conference on Management of Data, San Diego, California, Jun. 2-5, 1992, SIGMOD Record, vol. 21, Issue 2, Jun., 1992]; [Stonebraker, M., Editor]; [ACM Press, pp. 383-392]; [ISO-ANSI, Working Draft, "Information Technology-Database Language SQL," Jim Melton, Editor, International Organization for Standardization and American National Standards Institute, Jul. 1992]; [Microsoft Corporation, "ODBC 2.0 Programmer's Reference and SDK Guide. The Microsoft Open Database Standard for Microsoft Windows.™ and Windows NT™, Microsoft Open Database Connectivity.TM. Software Development Kit," 1992, 1993, 1994 Microsoft Press, pp. 3-30 and 41-56]; [ISO Working Draft, "Database Language SQL-Part 2:Foundation (SQL/Foundation)," CD9075-2:199.chi.SQL, Sep. 11, 1997] 등 참조). 웹 기반 어플리케이션에 관한 관련된 추가의 상세한 설명은 WO 00/42559(발명의 명칭: "METHODS OF POPULATING DATA STRUCTURES FOR USE IN EVOLUTIONARY SIMULATIONS")(Selifonov 및 Stemmer)에서 살펴볼 수 있다.
일부 실시양태에서, 폴리뉴클레오티드 또는 폴리펩티드 서열을 탐색, 스크리닝, 및/또는 개발하는 방법은, 네트워크가 LAN상의 인트라넷 및/또는 인터넷을 포함할 수 있는 것인 컴퓨터 네트워크상에 분산된 복수의 처리 장치 및 메모리를 포함하는 컴퓨터 시스템상에서 다중 사용자 시스템으로서 실행될 수 있다. 일부 실시양태에서, 분산 컴퓨팅 아키텍쳐는 전산 및 데이터 저장을 위해 컴퓨터 네트워크상에서 이용가능한 컴퓨터 시스템의 집합인 "클라우드"를 포함한다. 클라우드를 포함하는 컴퓨팅 환경은 클라우드 컴퓨팅 환경으로 지칭된다. 일부 실시양태에서, 하나 이상의 사용자는 인트라넷 및/또는 인터넷상에 분산된 클라우드의 컴퓨터에 접속할 수 있다. 일부 실시양태에서, 사용자는 상기 기술된 단백질 변이체를 스크리닝 및/또는 개발하는 방법을 구현하는 서버 컴퓨터에 웹 클라이언트를 통하여 원격으로 접속할 수 있다.
클라우드 컴퓨팅 환경을 포함하는 일부 실시양태에서, 가상 머신(VM: virtual machine)은 서버 컴퓨터 상에 제공되고, 가상 머신의 결과는 사용자에게로 다시 전송될 수 있다. 가상 머신(VM)은 컴퓨터의 소프트웨어 기반 에뮬레이션이다. 가상 머신은 가상 컴퓨터의 사양에 기반할 수 있거나, 실제 컴퓨터의 컴퓨터 아키텍쳐 및 기능을 에뮬레이션할 수 있다. VM의 구조 및 기능은 당업계에 널리 공지되어 있다. 전형적으로, VM은 시스템 하드웨어를 포함하는 호스트 플랫폼에 설치되어 있고, VM 그 자체는 가상 시스템 하드웨어 및 게스트 소프트웨어를 포함한다.
VM에 대한 호스트 시스템 하드웨어는 하나 이상의 중앙 처리 장치(CPU: Central Processing Unit), 메모리, 하나 이상의 하드 디스크 및 각종의 다른 장치를 포함한다. VM의 가상 시스템 하드웨어는 하나 이상의 가상 CPU, 가상 메모리, 하나 이상의 가상 하드 디스크 및 하나 이상의 가상 장치를 포함한다. VM의 게스트 소프트웨어는 게스트 시스템 소프트웨어 및 게스트 어플리케이션을 포함한다. 일부 실행에서, 게스트 시스템 소프트웨어는 가상 장치를 위한 드라이버와 함께 게스트 운영 체제를 포함한다. 일부 실행에서, VM의 게스트 어플리케이션은 상기 기술된 바와 같이 1개 이상의 가상 단백질 스크리닝 시스템의 예를 포함한다.
일부 실시양태에서, 제공된 VM의 개수는 해결하고자 하는 문제의 전산상의 부하로 크기가 조정될 수 있다. 일부 실시양태에서, 사용자는 가상 스크리닝 시스템을 포함하는 VM인 가상 머신을 클라우드로부터 요청할 수 있다. 일부 실시양태에서, 클라우드 컴퓨팅 환경은 사용자 요청에 기초하여 VM을 제공할 수 있다. 일부 실시양태에서, VM은, 이미지 저장소에 저장될 수 있는 것인 앞서 저장된 VM 이미지에서 빠져 나갈 수 있다. 클라우드 컴퓨팅 환경은 이미지를 서치하고, 이를 서버 또는 사용자 시스템으로 전송할 수 있다. 이어서, 클라우드 컴퓨팅 환경은 서버 또는 사용자 시스템상에 이미지를 부팅할 수 있다.
IX. 실시예
실시예 1
하기 실시예는 효소 변이체를 가상적으로 스크리닝하고, 다양한 실시양태를 실행하는 원하는 촉매 활성 및 선택성을 갖는 효소를 개발하는 방법을 예시한다.
요약컨대, 본 방법은 실제 효소의 패널의 3차원 상동성 모델을 생성하고, 효소의 패널 구성원을 가상적으로 스크리닝하여 (a) 활성 포즈에서 기질과 도킹하고, (b) 프로S 입체구조로 도킹되고, (c) 활성 포즈에서 및 프로S 입체구조로 도킹된 것들 중에서 가장 낮은 전체 결합 에너지(또는 도킹 점수)를 가진 제1 변이체를 선별하였다. 이어서, 본 방법은 제1 변이체를 제1 라운드 골격으로서, 또는 모체 서열로서 사용하여 가상 유도 진화를 위해 가산 돌연변이유발 기법을 사용함으로써 제1 라운드의 상 변이체 라이브러리를 생성하였다. 이어서, 본 방법은 제1 라운드 가상 변이체 라이브러리의 구성원의 모델을 생성하고, 제1 라운드 가상 변이체 라이브러리를 스크리닝하고, 제1 라운드 골격을 선별할 ?와 유사한 선별 방법을 이용하여 제2 변이체를 제2 라운드 골격으로서 선별하였다. 본 방법은 또한 제1 라운드 가상 변이체 라이브러리로부터 추가의 변이체를 선별하였다. 추가의 변이체는 (a) 활성 포즈에서 기질과 도킹하고, (b) 활성 포즈에서 도킹된 것들 중에서 낮은 전체 결합 에너지(또는 도킹 점수)를 가졌다. 이어서, 본 방법은 제2 라운드 골격을 추가의 변이체와 조합하여 다양성을 제2 라운드 변이체 라이브러리 내로 도입하였다. 최종적으로, 본 방법은 변이체를 전산적으로 모델링하고, 스크리닝하고, 선별하여 제1 라운드 및 제2 라운드 골격과 비교하였을 때, 활성 및 선택성이 개선된 가상 효소 변이체를 수득하였다.
더욱 구체적으로, 본 실시예의 방법은 실제 효소의 패널을 이루는 194개의 상동성 모델을 생성함으로써 개시되었다. 상기 효소는 구조상 또는 기능상 원하는 기질과 관련이 있는 네이티브 기질을 촉진시킨다. 본 방법은 원하는 기질을 상동성 모델에 도킹하고, 실제 효소의 패널의 구성원을 가상적으로 스크리닝하여 (a) 활성 포즈에서 원하는 기질과 도킹하고, (b) 프로S 입체구조로 도킹된 유일한 변이체만을 찾는다. 활성 포즈에서 결합이 성공적으로 이루어졌다는 것은 리간드에서 촉매적 변환이 일어날 가능성이 있거나, 또는 일부 원하는 역할, 예컨대, 결합 부위와 공유적으로 결합할 가능성이 있다는 것을 제안하였다. 원하는 기질 및 패널 구성원의 도킹은 상기에 상세하게 기술되어 있는 도킹 방법에 의해 수행될 수 있다. 원하는 기질의 기능상 관련된 모이어티를 도킹 공간에서 같은 X, Y, Z 좌표 중에 2개의 기질을 배치함으로써 네이티브 기질과 비교하였다. 원하는 기질의 포즈가 활성일 때, 프로S, 또는 프로R은 원하는 기질 및 네이티브 기질의 모이어티 사이의 거리에 의해 측정되었다. 한 예로 거리 기준을 1.25 Å로 설정하였다. (거리의 평균, 최소, 최대 등이 기준보다 더 작은 것을 필요로 하는) 기준 값 및 법칙은 상이한 적용에서 및 다양한 라운드의 유조 진화에서 조정될 수 있다.
상기 변이체는 프로S 및 프로R 입체구조, 둘 모두로 기질에 결합할 수 있는 것으로 나타났다. 변이체는 고도의 선택성을 가지지 않을 수 있다고 의심되었다. 원하는 기질에 대한 활성의 S 선택성 효소를 유도하기 위하여, 상기 변이체를 제1 라운드 골격으로서 선택하여 인실리코 제1 라운드의 유도 진화에서 돌연변이유발법에 의해 제1 라운드 변이체 라이브러리를 생성하였다. 상기 제1 라운드 골격에서 확인된 15개의 활성 부위 위치가 존재하고, 제1 라운드 골격과 다른 것으로서, 각 위치에 대하여 가능한 19개의 아미노산이 존재하는 바, 이에 상이한 가능한 점 돌연변이는 285개에 이르게 된다. 제1 라운드 진화에서, 제1 라운드 변이체 라이브러리에 대해, 각 돌연변이체는 난수의 돌연변이를 가지며, 여기서, 난수는 평균=4 및 SD=2의 가우스 분포로부터 선택된 것인, 1,000개의 돌연변이체가 생성되었다. 돌연변이는 285개의 가능한 점 돌연변이로부터 무작위로 선택되었다.
이어서, 본 방법은 상기에 실제 효소의 패널에 대해 기술된 것과 유사하되, 단, 예외적으로, 포즈의 활성 및 선택성을 측정하는 기준이 1.25 Å와 달리 1 Å으로서 더욱 엄격한 값으로 설정된 것인 도킹 및 스크리닝 방법을 사용하였다. 본 방법을 통해 한 변이체는 활성인 프로S 포즈에 결합하는 모든 돌연변이체들 중에서 전체 결합 에너지가 가장 낮은 돌연변이를 포함하는 것으로 확인되었다. 실제로, 상기 돌연변이체 중의 돌연변이가 기질이 원치않는 프로R 입체구조에 결합하지 못하도록 방해하였고, 이는 선택성에 대해 유익한 돌연변이를 나타낸다. 따라서, 본 방법은 상기 변이체를 제2 라운드 유도 진화를 위한 골격으로서 선택하였다.
그러나, 0.38303 kcal/mol인, 제2 라운드 골격의 결합 에너지는 심지어 제1 라운드 골격에 대하여 측정된 것과 비교하였을 때에도 비교적 높았으며(-4.005 kcal/mol), 이는 진화가 효소의 유익한 특성을 추가로 개선시킬 수 있다는 것을 제안하는 것이다. 인실리코 방식으로 29개의 돌연변이를 제2 라운드 골격 내로 도입함으로써 제2 라운드 유도 진화를 수행하였다. 제1 라운드 진화로부터 얻은 모든 변이체 중에서 결합 에너지가 가장 낮은 제1 라운드 라이브러리의 29개의 변이체로부터 29개의 돌연변이가 유도되었다. 제2 라운드 진화에서, 각 돌연변이체는 난수의 돌연변이를 가지며, 여기서, 난수는 평균=6 및 SD=4의 가우스 분포로부터 선택된 것인, 1,000개의 돌연변이체가 생성되었고, 이를 통해 제2 라운드 변이체 라이브러리가 생성되었다. 돌연변이는 29개의 변이체로부터 유도된 29개의 가능한 돌연변이로부터 무작위로 선택되었다.
이어서, 본 방법은 상기 기술된 것과 유사한 도킹 및 스크리닝 방법을 사용하여 측정함으로써 대부분의 변이체는 오직 원하는 프로S 입체구조로만 기질에 결합하는 것을 선호하면, 10개 이상의 변이체가 제1 라운드 및 제2 라운드 골격보다 더 우수한 결합 에너지를 가졌다는 것을 확인하였다. 제2 라운드 진화로부터 개선된 변이체 및 제1 라운드 및 제2 라운드 골격의 결합 에너지에 대해 하기 표 1을 참조할 수 있다. 표 1의 데이터를 제시하는 것 이외에도, 도 5는 제2 라운드 진화 로부터의 10개의 개선된 변이체 뿐만 아니라, 제1 라운드 및 제2 라운드 골격의 선택성을 보여주는 것이다. 상기 도면은 효소의 패널의 가상 스크리닝은 먼저 결합 에너지는 낮지만, S 선택성은 아닌 것인 제1 라운드 골격을 확인하였다는 것을 도시한 것이다. 이어서, 본 방법은 인실리코 유도 진화(돌연변이유발법)를 사용하여 S 선택성을 개선시킴으로써 제2 라운드 골격을 얻었다. 본 방법은 최종적으로 재조합을 통해 제2 라운드 진화에서 기질 결합을 개선시킴으로써 원하는 기질과 높은 친화도를 가지고, 거울상 이성질체 선택성인 효소 변이체를 얻었다.
Figure pct00002
2회 라운드에 걸쳐 진행된 진화에서 제공된 다양성은 생물학적 유전자 연산을 기반으로 한, 돌연변이유발법 및 재조합에 의해 생성되었다. 일부 적용에서, 가상 단백질 스크리닝 방법은 유도 진화 방법을 유도하는 서열 활성 모델과 조합될 수 있다. 미국 특허 번호 제7,783,428호에 기술된 방법에 따라 다중 선형 회귀 기법으로 서열 활성 모델을 구축하였다. 도 6a에서, 서열 활성 모델의 예측된 결합 에너지는 서열의 검정 세트에 대한 가상 스크리닝 시스템에 의해 얻은 관찰된 에너지에 대해 플롯팅되어 있다. 검정 세트로부터 배제된 서열의 검증 세트를 검정함으로써 서열 활성 모델의 교차 검증을 수행하였다. 상기 모델은 검정 세트에서 90.9%의 분산을 차지한다(R2=0.909). 도 6b의 교차 검증 데이터는 서열 활성 모델이 특정 위치의 특정 돌연변이의 서열로부터 결합 에너지를 예측하는 데 정확하였으며, 이는 검증 세트에서 82.9%를 차지하였다(R2=.829).
모델을 사용하여 돌연변이유발을 위한 아미노산을 확인하였다. 서열 활성 모델을 사용하여 유도 진화를 유도하는 다른 방법들 중에서 한 방법은, 단백질 활성에 대한 돌연변이의 기여도를 반영하는 것인, 특정 위치의 특정 잔기의 특정 돌연변이에 대한 회귀 계수에 의존한다. 구체적으로, 유도 진화 방법은 서열 활성 모델의 항의 계수를 평가함으로써 가상 스크리닝 시스템에 의해 계산된 실질적인 결합 에너지에 기여하는 아미노산 중 하나 이상을 확인함으로써 돌연변이 위치를 선택할 수 있다. 예를 들어, 한 예에서, 돌연변이 1은 큰 양의 계수를 가지며, 이는 돌연변이 1이 활성을 크게 증가시킨다는 것을 나타낸다. 도 6c를 참조할 수 있다. 반대로, 돌연변이 27은 큰 음의 계수를 가지며, 이는 도 6c에서 측정된 바와 같이 높은 활성을 얻기 위해서는 상기 돌연변이는 피해야 한다는 것을 제안한다.
실시예 2
실시예 2는 도 7 상단에 제시된 반응에서와 같이, 프로키랄 케톤으로부터의 키랄 알코올의 R 거울상 이성질체에 대한 케토리덕타제 변이체를 가상적으로 스크리닝하는 것에 관한 실험적 검증을 제공한다.
본 방법은 2개의 현 케토리덕타제 효소 변이체 패널(각 패널당 96개의 웰 포맷)의 3차원 상동성 모델을 생성하고, 케토리덕타제 패널의 192개의 구성원을 가상적으로 스크리닝하여 (a) 활성 포즈에서 기질과 도킹하고, (b) 프로R 입체구조로 도킹되고, (c) 바람직한 도킹 점수를 가진 변이체를 선별하는 것을 포함하였다.
이어서, 본 방법을 통해, 추가 개발 및 스크리닝을 위해 우선적으로 처리될 수 있는, 활성이고, 에너지적으로 유리한 포즈로 유도될 수 있는 24개의 변이체가 확인되었다. 가상 인실리코 스크리닝 결과의 유용성 및 타당성을 검증하기 위해 본 방법은 또한 표준 프로토콜을 이용하여 192개의 구성원 모두에 대해 시험관내 스크리닝을 수행하고, 기질/생성물을 고성능 액체 크로마토그래피(HPLC: high-performance liquid chromatography)로 검출하였다.
결과는 도 7에 제시되어 있으며, 여기서, x축은 (피크 면적( R )-알코올 + 피크 면적( S )-알코올)÷(피크 면적( R )-알코올 + 피크 면적( S )-알코올 + 피크 면적케톤)x100%로서 계산된 전환율(%)이고, y축은 (피크 면적( R )-알코올 - 피크 면적( S )-알코올)÷(피크 면적( R )-알코올 + 피크 면적( S )-알코올)x100%로서 계산된 원하는 R 생성물로의 % e.e.(거울상 이성질체 선택성 지수)이다. 가상 스크리닝에 의해 우선적으로 처리된 24개의 변이체는 적색 사각형 표시로 강조 표시하였고, 나머지 변이체는 청색 마름모꼴 표시로 강조 표시하였다. 본 결과는 1) 시험관내 스크리닝 이전에 가상 스크리닝이 효소 변이체 세트를 이용하였을 때 실현 가능한지 여부를 결정하는 데 도움을 줄 수 있고; 2) 작고, 가요성인 기질이 보통 모델링을 위한 도전 과제가 되는 것으로 간주된다는 사실에도 불구하고, 상당량의 예측된 변이체가 실제로 높은 활성(전환율(%)) 및 거울상 이성질체 선택성(% e.e.)을 제공하였다는 것을 제안한다. 그러므로, 가상 스크리닝은 시험관내 스크리닝을 위해 가능서이 매우 적은 반응을 필터링할 수 있고, 검정하는 데 더 적은 샘플을 선택할 수 있으며(이 경우, 24개 대 192개), 이로써, 시간 및 비용을 상당 수준으로 절약할 수 있다.
실시예 3
실시예 3은 도 8의 상단에 제시된 반응과 같이, CH-NH2로의 입체선택적 C=O 환원을 위한 트랜스아미나제의 가상 유도 진화에 관한 실험적 검증을 제공한다.
본 방법은 골격의 12개의 활성 부위 위치의 인실리코 포화 돌연변이유발법으로부터 228개의 가상 서열로 된 3차원 상동성 모델을 생성하고(12개의 위치 x 19개의 AA/위치 = 228개의 변이체, 1개의 돌연변이/변이체), 228개의 가상 변이체를 가상적으로 스크리닝하여 (a) 활성 포즈에서 기질과 도킹하고, (b) 원하는 입체선택성을 유도하는 입체구조로 도킹되고, (c) 활성 포즈에서 및 표적화된 입체구조로 도킹된 것들 중에서 가장 낮은 전체 결합 에너지를 가진 변이체를 선별하는 것을 포함하였다.
이어서, 본 방법을 통해 활성이고, 에너지적으로 유리한 포즈로 유도될 수 있는 12개의 변이체 또는 12개의 돌연변이체가 확인되었다. 12개의 돌연변이를 사용하여 라이브러리를 합성하고, 시험관내에서 스크리닝하였다. 시험관내 스크리닝을 사유 프로토콜을 이용하여 360개의 변이체(변이체 1개당 1개 또는 1개 초과의 변이체)에 대해 수행하였다. 기질/생성물은 HPLC로 검출하였다.
시험관내 스크리닝으로부터 얻은 최고 변이체에 대한 결과는 도 8에 제시되어 있으며, 여기서, x축은 스크리닝된 샘플이고, y축은 양성 대조군에 대해 상대적인 개선 배수(Fold Improvement Over Positive Control)로 정의되고, (전환율(%)변이 - 전환율(%)음성 대조군)÷(전환율(%)양성 대조군 - 전환율(%)음성 대조군) x 100%로 계산된 FIOPC이다. 양성 대조군은 가상 스크리닝 및 시험관내 스크리닝의 골격이고, 음성 대조군은 효소를 포함하지 않는 공 벡터이다.
시험관내 라이브러리 스크리닝 결과, FIOPC > 1.5인 변이체 13% 및 FIOPC >2인 변이체 5.3%를 얻었다. 최고 히트의 FIOPC는 2.4였다. 그러므로, 가상 스크리닝은 시험관내 스크리닝에 대해 유해한 돌연변이를 필터링할 수 있고, 더욱 표적화된 라이브러리를 디자인하는 데 도움을 줄 수 있으며, 이로써, 시간 및 비용을 크게 절약할 수 있다. 예를 들어, 본 발명자들이 시험관내에서 포화 돌연변이유발법을 수행해야 했다면, 800개 이상의 또 다른 변이체를 스크리닝하여야 할 것이다.
상기 내용은 명확성과 이해 목적으로 일부 상세하게 기술되었지만, 본 개시내용의 진정한 범주로부터 벗어남 없이 형태 및 세부 사항은 다양하게 변형될 수 있다는 것이 당업자에게는 본 개시내용의 판독으로부터 명백해질 것이다. 예를 들어, 상기 기술된 모든 기법 및 장치는 다양한 조합으로 사용될 수 있다. 본 출원에서 인용된 모든 공개 문헌, 특허, 특허 출원, 또는 다른 문헌은 마치 각각의 개별공개 문헌, 특허, 특허 출원, 또는 다른 문헌이 개별적으로 모든 목적을 위해 참조로 포함된 것으로 명시된 바와 같은 정도로 모든 목적을 위해 그 전문이 참조로 포함된다.

Claims (40)

  1. (a) 각각의 효소 변이체에 대해, 컴퓨터 시스템에 의해, 기질의 컴퓨터 리프리젠테이션(computational representation)을 효소 변이체의 활성 부위의 컴퓨터 리프리젠테이션에 도킹하는 단계로서, 상기 도킹은 (i) 활성 부위에서의 기질의 복수의 포즈(pose)를 생성하고, (ii) 활성 부위에서의 기질의 에너지적으로 유리한 포즈를 확인하는 것인 단계;
    (b) 각각의 에너지적으로 유리한 포즈에 대해, 포즈의 활성 여부를 결정하는 단계로서, 활성 포즈는 기질이 활성 부위에서 촉매반응을 겪기 위한 하나 이상의 제약조건을 충족하는 것인 단계; 및
    (c) 하나 이상의 활성 포즈를 갖는 것으로 결정된 효소 변이체 중 1종 이상을 선택하는 단계
    를 포함하는, 하나 이상의 프로세서 및 시스템 메모리를 포함하는 컴퓨터 시스템을 이용하여 구현되는, 기질과의 활성에 대해 복수의 상이한 효소 변이체를 스크리닝하는 방법.
  2. 제1항에 있어서, 화학 반응을 일으킴으로써, (c)에서 선택된 1종 이상의 효소 변이체를 기질에 대해 스크리닝하는 단계를 추가로 포함하는 스크리닝 방법.
  3. 제1항 또는 제2항에 있어서, 기질의 컴퓨터 리프리젠테이션이, 효소 활성의 반응 좌표를 따라 존재하는 종을 나타내고, 상기 종은 기질, 기질의 반응 중간체, 또는 기질의 전이 상태로부터 선택되는 것인 스크리닝 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 복수의 효소 변이체가 다중 기질을 전환시킬 수 있는 효소의 패널을 포함하고, 상기 패널의 구성원은 참조 서열과 비교하여 1개 이상의 돌연변이를 갖는 것인 스크리닝 방법.
  5. 제4항에 있어서, 1개 이상의 돌연변이가 효소의 활성 부위 내의 단일 잔기 돌연변이인 스크리닝 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 복수의 변이체가 산화환원, 전이(transferation), 가수분해, 이성질체화, 결찰, 및 가수분해, 산화, 또는 환원 이외의 반응에 의한 화학 결합 절단으로부터 선택되는 화학 반응을 촉진할 수 있는 1종 이상의 효소를 포함하는 것인 스크리닝 방법.
  7. 제6항에 있어서, 효소가 옥시도리덕타제, 트랜스퍼라제, 하이드롤라제, 이소머라제, 리가제, 및 리아제로부터 선택되는 것인 스크리닝 방법.
  8. 제6항에 있어서, 복수의 변이체가 케톤 환원, 아미노기 전이, 산화, 니트릴 가수분해, 이민 환원, 에논 환원, 아실 가수분해, 및 할로하이드린 탈할로겐화로부터 선택되는 화학 반응을 촉진할 수 있는 1종 이상의 효소를 포함하는 것인 스크리닝 방법.
  9. 제8항에 있어서, 효소가 케톤 리덕타제, 트랜스아미나제, 사이토크롬 P450, 베이어-빌리거(Baeyer-Villiger) 모노옥시게나제, 모노아민 옥시다제, 니트릴라제, 이민 리덕타제, 에논 리덕타제, 아실라제, 및 할로하이드린 데할로게나제로부터 선택되는 것인 스크리닝 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서, 복수의 변이체가 시험관내(in vitro) 및/또는 인실리코(in silico)에서의 1회 이상의 라운드의 유도 진화에 의해 생성된 라이브러리의 구성원을 포함하는 것인 스크리닝 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서, 복수의 변이체가 약 10종 이상의 상이한 변이체를 포함하는 것인 스크리닝 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서, 복수의 변이체가 약 1,000종 이상의 상이한 변이체를 포함하는 것인 스크리닝 방법.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서, 활성 부위의 컴퓨터 리프리젠테이션이 복수의 변이체에 대한 3D 상동성 모델로부터 제공되는 것인 스크리닝 방법.
  14. 제13항에 있어서, 복수의 변이체에 대한 상기 3D 상동성 모델을 생성하는 단계를 추가로 포함하는 스크리닝 방법.
  15. 제1항 내지 제14항 중 어느 한 항에 있어서, 기질의 컴퓨터 리프리젠테이션이 기질의 3D 모델인 스크리닝 방법.
  16. 제1항 내지 제15항 중 어느 한 항에 있어서, 이 방법을 적용하여 복수의 기질을 스크리닝하는 것인 스크리닝 방법.
  17. 제1항 내지 제16항 중 어느 한 항에 있어서, 네이티브 기질이 야생형 효소에 의한 촉매적 화학 변환을 겪을 때, 네이티브 기질, 네이티브 기질의 반응 중간체, 또는 네이티브 기질의 전이 상태의 하나 이상의 포즈를 확인함으로써, 기질이 촉매적 화학 변환을 겪기 위한 제약조건을 확인하는 단계를 추가로 포함하는 스크리닝 방법.
  18. 제1항 내지 제17항 중 어느 한 항에 있어서, 제약조건이 위치, 거리, 각, 및 비틀림 제약조건 중 하나 이상을 포함하는 것인 스크리닝 방법.
  19. 제1항 내지 제18항 중 어느 한 항에 있어서, 제약조건이 기질 상의 특정 모이어티와 활성 부위 내의 특정 잔기 또는 잔기 모이어티 사이의 거리를 포함하는 것인 스크리닝 방법.
  20. 제1항 내지 제19항 중 어느 한 항에 있어서, 제약조건이 기질 상의 특정 모이어티와 보조인자 상의 특정 잔기 또는 잔기 모이어티 사이의 거리를 포함하는 것인 스크리닝 방법.
  21. 제1항 내지 제20항 중 어느 한 항에 있어서, 제약조건이 기질 상의 특정 모이어티와 활성 부위 내의 이상적으로 배치된 네이티브 기질 사이의 거리를 포함하는 것인 스크리닝 방법.
  22. 제1항 내지 제21항 중 어느 한 항에 있어서, 하나 이상의 효소 제약조건 세트를 복수의 효소 변이체에 적용하는 단계를 추가로 포함하는 방법으로서, 상기 하나 이상의 효소 제약조건은, 야생형 효소의 존재 하에 네이티브 기질이 촉매적 화학 변환을 겪을 때의 야생형 효소의 제약조건과 유사한 것인 스크리닝 방법.
  23. 제1항 내지 제22항 중 어느 한 항에 있어서, 기질의 복수의 포즈가 고온 분자 동역학, 무작위 회전, 격자 기반의 시뮬레이션된 어닐링에 의한 리파인먼트(refinement), 격자 기반 또는 풀 포스 필드(full force field) 최소화, 및 이들의 임의의 조합으로 이루어진 군으로부터 선택되는 하나 이상의 도킹 작업에 의해 얻어지는 것인 스크리닝 방법.
  24. 제1항 내지 제23항 중 어느 한 항에 있어서, 리간드의 복수의 포즈가 활성 부위에서의 기질의 약 10개 이상의 포즈를 포함하는 것인 스크리닝 방법.
  25. 제1항 내지 제24항 중 어느 한 항에 있어서, (c)에서의 선택이, 다른 변이체와의 비교에 의해 다수의 활성 포즈를 갖는 것으로 결정된 변이체를 확인하는 것을 포함하는 것인 스크리닝 방법.
  26. 제1항 내지 제25항 중 어느 한 항에 있어서, (c)에서의 선택이
    변이체가 갖는 활성 포즈의 개수, 활성 포즈의 도킹 점수, 및 활성 포즈의 결합 에너지 중 하나 이상에 의해 변이체를 순위화하는 것; 및
    그의 순위에 기초하여 변이체를 선택하는 것
    을 포함하는 것인 스크리닝 방법.
  27. 제26항에 있어서, 도킹 점수가 반 데르 발스 힘 및 정전기적 상호작용에 기초하는 것인 스크리닝 방법.
  28. 제26항에 있어서, 결합 에너지가 반 데르 발스 힘, 정전기적 상호작용, 및 용매화 에너지 중 하나 이상에 기초하는 것인 스크리닝 방법.
  29. 제1항 내지 제28항 중 어느 한 항에 있어서,
    (c)에서 선택된 1종 이상의 변이체의 적어도 일부를 포함하거나 코딩하는 복수의 올리고뉴클레오티드를 제조하는 단계; 및
    복수의 올리고뉴클레오티드를 사용하여 1회 이상의 라운드의 유도 진화를 수행하는 단계
    를 추가로 포함하는 스크리닝 방법.
  30. 제29항에 있어서, 복수의 올리고뉴클레오티드를 제조하는 단계가 핵산 합성기를 사용하여 올리고뉴클레오티드를 합성하는 것을 포함하는 것인 스크리닝 방법.
  31. 제29항 또는 제30항에 있어서, 1회 이상의 라운드의 유도 진화를 수행하는 단계가, 복수의 올리고뉴클레오티드를 단편화하고 재조합하는 것을 포함하는 것인 스크리닝 방법.
  32. 제29항 내지 제31항 중 어느 한 항에 있어서, 1회 이상의 라운드의 유도 진화를 수행하는 단계가, 복수의 올리고뉴클레오티드에 대하여 포화 돌연변이유발법을 수행하는 것을 포함하는 것인 스크리닝 방법.
  33. 제1항 내지 제32항 중 어느 한 항에 있어서, 1종 이상의 효소 변이체가 원하는 촉매 활성 및/또는 선택성을 갖는 것인 스크리닝 방법.
  34. 제1항 내지 제33항 중 어느 한 항에 있어서, (c)에서 선택된 1종 이상의 효소 변이체를 합성하는 단계를 추가로 포함하는 스크리닝 방법.
  35. 컴퓨터 시스템의 하나 이상의 프로세서에 의해 실행될 때, 컴퓨터 시스템이 효소 변이체의 가상 스크리닝 방법을 구현하도록 하는 컴퓨터 실행가능 명령이 저장되어 있는 하나 이상의 컴퓨터 판독가능 비일시적 저장 매체를 포함하는 컴퓨터 프로그램 제품으로서, 상기 명령은
    (a) 각각의 효소 변이체에 대해, 기질의 컴퓨터 리프리젠테이션을 효소 변이체의 활성 부위의 컴퓨터 리프리젠테이션에 도킹하는 것으로서, 상기 도킹은 (i) 활성 부위에서의 기질의 복수의 포즈를 생성하고, (ii) 활성 부위에서의 기질의 에너지적으로 유리한 포즈를 확인하는 것;
    (b) 각각의 에너지적으로 유리한 포즈에 대해, 포즈의 활성 여부를 결정하는 것으로서, 활성 포즈는 기질이 활성 부위에서 촉매반응을 겪기 위한 하나 이상의 제약조건을 충족하는 것; 및
    (c) 하나 이상의 활성 포즈를 갖는 것으로 결정된 효소 변이체 중 1종 이상을 선택하는 것을 포함하는 것인, 컴퓨터 프로그램 제품.
  36. 제35항에 있어서, 컴퓨터 시스템의 하나 이상의 프로세서에 의해 실행될 때, 컴퓨터 시스템이 제2항 내지 제28항 중 어느 한 항에 기재된 방법을 구현하도록 하는 컴퓨터 실행가능 명령을 추가로 포함하는 컴퓨터 프로그램 제품.
  37. 하나 이상의 프로세서; 및
    시스템 메모리
    를 포함하는 시스템으로서,
    상기 하나 이상의 프로세서 및 메모리는 기질과의 활성에 대해 효소 변이체를 가상적으로 스크리닝하는 방법을 구현하도록 구성되고,
    상기 방법은
    (a) 각각의 효소 변이체에 대해, 기질의 컴퓨터 리프리젠테이션을 효소 변이체의 활성 부위의 컴퓨터 리프리젠테이션에 도킹하는 단계로서, 상기 도킹은 (i) 활성 부위에서의 기질의 복수의 포즈를 생성하고, (ii) 활성 부위에서의 기질의 에너지적으로 유리한 포즈를 확인하는 것인 단계;
    (b) 각각의 에너지적으로 유리한 포즈에 대해, 포즈의 활성 여부를 결정하는 단계로서, 활성 포즈는 기질이 활성 부위에서 촉매반응을 겪기 위한 하나 이상의 제약조건을 충족하는 것인 단계; 및
    (c) 하나 이상의 활성 포즈를 갖는 것으로 결정된 효소 변이체 중 1종 이상을 선택하는 단계
    를 포함하는 것인 시스템.
  38. 제37항에 있어서, 하나 이상의 프로세서 및 메모리가 제2항 내지 제28항 중 어느 한 항에 기재된 방법을 구현하도록 구성되는 것인 시스템.
  39. (a) 각각의 단백질 변이체에 대해, 컴퓨터 시스템에 의해, 리간드의 컴퓨터 리프리젠테이션을 단백질 변이체의 활성 부위의 컴퓨터 리프리젠테이션에 도킹하는 단계로서, 상기 도킹은 (i) 활성 부위에서의 리간드의 복수의 포즈를 생성하고, (ii) 활성 부위에서의 리간드의 에너지적으로 유리한 포즈를 확인하는 것인 단계;
    (b) 각각의 에너지적으로 유리한 포즈에 대해, 포즈의 활성 여부를 결정하는 단계로서, 활성 포즈는 리간드가 단백질 변이체와 특정 상호작용을 겪기 위한 하나 이상의 제약조건을 충족하는 것인 단계; 및
    (c) 하나 이상의 활성 포즈를 갖는 것으로 결정된 단백질 변이체 중 1종 이상을 선택하는 단계
    를 포함하는, 하나 이상의 프로세서 및 시스템 메모리를 포함하는 컴퓨터 시스템을 이용하여 구현되는, 리간드와의 상호작용에 대해 복수의 단백질 변이체를 스크리닝하는 방법.
  40. 제39항에 있어서, 상기 리간드가 기질, 기질의 중간체, 기질의 전이 상태, 기질의 생성물, 단백질 변이체의 억제제, 단백질 변이체의 효능제, 및 단백질 변이체의 길항제로부터 선택되는 것인 스크리닝 방법.
KR1020167010661A 2013-09-27 2014-09-26 효소 변이체의 자동화 스크리닝 KR102342205B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201361883838P 2013-09-27 2013-09-27
US61/883,838 2013-09-27
PCT/US2014/057899 WO2015048572A1 (en) 2013-09-27 2014-09-26 Automated screening of enzyme variants

Publications (2)

Publication Number Publication Date
KR20160057482A true KR20160057482A (ko) 2016-05-23
KR102342205B1 KR102342205B1 (ko) 2021-12-21

Family

ID=51662390

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167010661A KR102342205B1 (ko) 2013-09-27 2014-09-26 효소 변이체의 자동화 스크리닝

Country Status (15)

Country Link
US (3) US10696964B2 (ko)
EP (2) EP3418929B1 (ko)
JP (3) JP6857029B2 (ko)
KR (1) KR102342205B1 (ko)
CN (1) CN105765592B (ko)
AU (1) AU2014324669B2 (ko)
BR (1) BR112016006285B1 (ko)
CA (1) CA2923755C (ko)
DK (2) DK3049973T3 (ko)
ES (2) ES2857711T3 (ko)
HU (2) HUE053049T2 (ko)
IL (1) IL244457B (ko)
RU (2) RU2019140645A (ko)
SG (1) SG11201601695WA (ko)
WO (1) WO2015048572A1 (ko)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
HUE048104T2 (hu) 2013-09-27 2020-05-28 Codexis Inc Szerkezet alapú prediktív modellezés
CN105765592B (zh) 2013-09-27 2019-12-17 科德克希思公司 用于酶变体的自动筛选的方法、装置和系统
WO2015073971A1 (en) * 2013-11-15 2015-05-21 InfiniteBio Computer-assisted modeling for treatment design
HUE053363T2 (hu) 2014-11-25 2021-06-28 Codexis Inc Módosított iminreduktázok és eljárások keton- és aminvegyületek reduktív aminálására
EP4234699A1 (en) 2014-12-22 2023-08-30 Codexis, Inc. Human alpha-galactosidase variants
US10542961B2 (en) 2015-06-15 2020-01-28 The Research Foundation For The State University Of New York System and method for infrasonic cardiac monitoring
WO2017155945A1 (en) * 2016-03-09 2017-09-14 President And Fellows Of Harvard College Methods and systems of cell-free enzyme discovery and optimization
NZ755628A (en) 2017-02-13 2023-09-29 Codexis Inc Engineered phenylalanine ammonia lyase polypeptides
JP6917050B2 (ja) * 2017-03-06 2021-08-11 学校法人早稲田大学 最適特性を有する非天然型タンパク質の製造方法
WO2018200214A2 (en) 2017-04-27 2018-11-01 Codexis, Inc. Ketoreductase polypeptides and polynucleotides
BR112019023337A2 (pt) * 2017-05-08 2020-06-16 Codexis, Inc. Ligase engenheirada, sequência de polinucleotídeo, vetor de expressão, célula hospedeira, métodos para produzir um polipeptídeo da ligase engenheirada, um produto de ligação, uma biblioteca de dna e uma pluralidade de fragmentos de dna adequados para sequenciamento, e, composição
EP3404567A1 (en) * 2017-05-19 2018-11-21 Fujitsu Limited A system and a method for discovery of predicted site-specific protein phosphorylation candidates
US20180365372A1 (en) * 2017-06-19 2018-12-20 Jungla Inc. Systems and Methods for the Interpretation of Genetic and Genomic Variants via an Integrated Computational and Experimental Deep Mutational Learning Framework
WO2019005539A1 (en) 2017-06-30 2019-01-03 Codexis, Inc. T7 POLYMERASE RNA VARIANTS
US10793841B2 (en) 2017-06-30 2020-10-06 Codexis, Inc. T7 RNA polymerase variants
EP3652328A1 (en) * 2017-07-14 2020-05-20 c-LEcta GmbH Ketoreductases
CN107832577B (zh) * 2017-10-30 2021-07-13 中国农业大学 一种筛选几丁质酶OfChtⅠ抑制剂的方法
CN107974484A (zh) * 2017-11-10 2018-05-01 嘉兴欣贝莱生物科技有限公司 根皮素生物合成过程中查尔酮合成酶建模方法
CN112204402B (zh) * 2018-03-05 2024-05-03 斯坦福大学托管董事会 基于机器学习和分子模拟的用于增强结合和活性预测的方法
EP3613855A1 (en) * 2018-08-23 2020-02-26 Clariant Produkte (Deutschland) GmbH Method for the production of a nucleic acid library
EP3640864A1 (en) 2018-10-18 2020-04-22 Fujitsu Limited A computer-implemented method and apparatus for inferring a property of a biomedical entity
AU2019373208A1 (en) 2018-10-29 2021-05-13 Codexis, Inc. Engineered DNA polymerase variants
AU2019397401A1 (en) 2018-12-14 2021-06-17 Codexis, Inc. Engineered tyrosine ammonia lyase
EP3898960A4 (en) 2018-12-20 2022-11-30 Codexis, Inc. VARIANTS OF HUMAN ALPHA GALACTOSIDASE
CN109841263B (zh) * 2019-02-22 2023-08-15 成都分迪科技有限公司 蛋白降解药物分子库及其构建方法
JP7344509B2 (ja) * 2019-09-20 2023-09-14 公立大学法人 富山県立大学 光学活性フルオロアルコールおよび光学活性クロロフルオロアルコールの製造方法
EP4053269A4 (en) * 2019-10-28 2022-11-02 Asymchem Laboratories (Tianjin) Co., Ltd TRANSAMINASE MUTANT AND USE THEREOF
US11970722B2 (en) 2019-12-20 2024-04-30 Codexis, Inc. Engineered acid alpha-glucosidase variants
CN111681703A (zh) * 2020-05-09 2020-09-18 北京纽伦智能科技有限公司 一种蛋白结构的对接方法及分布式蛋白结构对接系统
CN114822717A (zh) * 2021-01-28 2022-07-29 腾讯科技(深圳)有限公司 基于人工智能的药物分子处理方法、装置、设备及存储介质
WO2023022783A1 (en) * 2021-08-17 2023-02-23 University Of Southern California System and method for computational enzyme design based on maximum entropy
CN113921082B (zh) * 2021-10-27 2023-04-07 云舟生物科技(广州)股份有限公司 基因搜索权重调整方法、计算机存储介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060121455A1 (en) * 2003-04-14 2006-06-08 California Institute Of Technology COP protein design tool
KR20080099278A (ko) * 2006-01-23 2008-11-12 조셉 피. 에리코 표적 약물 개발의 방법 및 조성물

Family Cites Families (87)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
JPH04179495A (ja) 1990-11-14 1992-06-26 M D Res Kk 融合蛋白質、およびペプチド又は蛋白質の製造方法
US5426039A (en) 1993-09-08 1995-06-20 Bio-Rad Laboratories, Inc. Direct molecular cloning of primer extended DNA containing an alkane diol
US6117679A (en) 1994-02-17 2000-09-12 Maxygen, Inc. Methods for generating polynucleotides having desired characteristics by iterative selection and recombination
US6165793A (en) 1996-03-25 2000-12-26 Maxygen, Inc. Methods for generating polynucleotides having desired characteristics by iterative selection and recombination
US5834252A (en) 1995-04-18 1998-11-10 Glaxo Group Limited End-complementary polymerase reaction
US5605793A (en) 1994-02-17 1997-02-25 Affymax Technologies N.V. Methods for in vitro recombination
US6309883B1 (en) 1994-02-17 2001-10-30 Maxygen, Inc. Methods and compositions for cellular and metabolic engineering
US6995017B1 (en) 1994-02-17 2006-02-07 Maxygen, Inc. Methods for generating polynucleotides having desired characteristics by iterative selection and recombination
US6335160B1 (en) 1995-02-17 2002-01-01 Maxygen, Inc. Methods and compositions for polypeptide engineering
US6406855B1 (en) 1994-02-17 2002-06-18 Maxygen, Inc. Methods and compositions for polypeptide engineering
US5928905A (en) 1995-04-18 1999-07-27 Glaxo Group Limited End-complementary polymerase reaction
US20060257890A1 (en) 1996-05-20 2006-11-16 Maxygen, Inc. Methods and compositions for cellular and metabolic engineering
US5837458A (en) 1994-02-17 1998-11-17 Maxygen, Inc. Methods and compositions for cellular and metabolic engineering
US6395547B1 (en) 1994-02-17 2002-05-28 Maxygen, Inc. Methods for generating polynucleotides having desired characteristics by iterative selection and recombination
US6096548A (en) 1996-03-25 2000-08-01 Maxygen, Inc. Method for directing evolution of a virus
US6506602B1 (en) 1996-03-25 2003-01-14 Maxygen, Inc. Methods for generating polynucleotides having desired characteristics by iterative selection and recombination
US7148054B2 (en) 1997-01-17 2006-12-12 Maxygen, Inc. Evolution of whole cells and organisms by recursive sequence recombination
US6326204B1 (en) 1997-01-17 2001-12-04 Maxygen, Inc. Evolution of whole cells and organisms by recursive sequence recombination
DE69835360T2 (de) 1997-01-17 2007-08-16 Maxygen, Inc., Redwood City EVOLUTION Prokaryotischer GANZER ZELLEN DURCH REKURSIVE SEQUENZREKOMBINATION
US5914245A (en) 1998-04-20 1999-06-22 Kairos Scientific Inc. Solid phase enzyme kinetics screening in microcolonies
US6365408B1 (en) 1998-06-19 2002-04-02 Maxygen, Inc. Methods of evolving a polynucleotides by mutagenesis and recombination
JP4221100B2 (ja) 1999-01-13 2009-02-12 エルピーダメモリ株式会社 半導体装置
WO2000042559A1 (en) 1999-01-18 2000-07-20 Maxygen, Inc. Methods of populating data structures for use in evolutionary simulations
US6436675B1 (en) 1999-09-28 2002-08-20 Maxygen, Inc. Use of codon-varied oligonucleotide synthesis for synthetic shuffling
US6917882B2 (en) 1999-01-19 2005-07-12 Maxygen, Inc. Methods for making character strings, polynucleotides and polypeptides having desired characteristics
US6368861B1 (en) 1999-01-19 2002-04-09 Maxygen, Inc. Oligonucleotide mediated nucleic acid recombination
US6376246B1 (en) 1999-02-05 2002-04-23 Maxygen, Inc. Oligonucleotide mediated nucleic acid recombination
US7702464B1 (en) 2001-08-21 2010-04-20 Maxygen, Inc. Method and apparatus for codon determining
US6961664B2 (en) 1999-01-19 2005-11-01 Maxygen Methods of populating data structures for use in evolutionary simulations
IL138002A0 (en) 1999-01-19 2001-10-31 Maxygen Inc Methods for making character strings, polynucleotides and polypeptides having desired characteristics
US7024312B1 (en) 1999-01-19 2006-04-04 Maxygen, Inc. Methods for making character strings, polynucleotides and polypeptides having desired characteristics
US20070065838A1 (en) 1999-01-19 2007-03-22 Maxygen, Inc. Oligonucleotide mediated nucleic acid recombination
WO2000052155A2 (en) 1999-03-05 2000-09-08 Maxygen, Inc. Recombination of insertion modified nucleic acids
US6969763B1 (en) * 1999-05-12 2005-11-29 Isis Pharmaceuticals, Inc. Molecular interaction sites of interleukin-2 RNA and methods of modulating the same
US7430477B2 (en) 1999-10-12 2008-09-30 Maxygen, Inc. Methods of populating data structures for use in evolutionary simulations
US6519065B1 (en) 1999-11-05 2003-02-11 Jds Fitel Inc. Chromatic dispersion compensation device
AU2001250955A1 (en) * 2000-03-23 2001-10-03 California Institute Of Technology Method and apparatus for predicting ligand binding interactions
WO2001075767A2 (en) 2000-03-30 2001-10-11 Maxygen, Inc. In silico cross-over site selection
US20020133297A1 (en) * 2001-01-17 2002-09-19 Jinn-Moon Yang Ligand docking method using evolutionary algorithm
EP1470219A4 (en) 2001-04-16 2005-10-05 California Inst Of Techn PEROXIDE MOLDED CYTOCHROME OXYGENASE P450 OXYGENASE VARIANTS
WO2003008563A2 (en) 2001-07-20 2003-01-30 California Institute Of Technology Improved cytochrome p450 oxygenases
US20050084907A1 (en) 2002-03-01 2005-04-21 Maxygen, Inc. Methods, systems, and software for identifying functional biomolecules
DK2278509T3 (en) 2002-03-01 2014-12-15 Codexis Mayflower Holdings Llc Methods, systems and software for identification of functional biomolecules
US7747391B2 (en) 2002-03-01 2010-06-29 Maxygen, Inc. Methods, systems, and software for identifying functional biomolecules
US7620500B2 (en) 2002-03-09 2009-11-17 Maxygen, Inc. Optimization of crossover points for directed evolution
US20060099667A1 (en) * 2002-10-28 2006-05-11 Francois Andre Method for performing restrained dynamics docking of one or multiple substrates on multi-specific enzymes
CN1468959A (zh) * 2003-06-02 2004-01-21 复旦大学 非典型性肺炎冠状病毒蛋白质空间构象模型及其应用
EP1639091B1 (en) 2003-06-17 2012-12-05 California University Of Technology Regio- and enantioselective alkane hydroxylation with modified cytochrome p450
US8005620B2 (en) 2003-08-01 2011-08-23 Dna Twopointo Inc. Systems and methods for biopolymer engineering
US7435570B2 (en) 2003-08-11 2008-10-14 California Institute Of Technology Thermostable peroxide-driven cytochrome P450 oxygenase variants and methods of use
JP2005309877A (ja) 2004-04-22 2005-11-04 National Institute Of Advanced Industrial & Technology 機能性生体分子の配列解析方法
WO2006044378A2 (en) 2004-10-12 2006-04-27 University Of Iowa Research Foundation Rapid computational identification of targets
WO2006121455A1 (en) 2005-05-10 2006-11-16 The Salk Institute For Biological Studies Dynamic signal processing
RU2008140858A (ru) 2006-03-15 2010-04-20 Ксир (Za) Способ скрининга соединений, обладающих активностью ингибитора глутамин синтетазы
KR20090031938A (ko) 2006-07-05 2009-03-30 더 스크립스 리서치 인스티튜트 방향성 진화로 촉매 작용을 최적화시킨 키메라 징크 핑거 리컴비나제
US7814234B2 (en) 2006-10-30 2010-10-12 Microsoft Corporation Offline execution of web based applications
WO2008103248A1 (en) 2007-02-08 2008-08-28 Codexis, Inc. Ketoreductases and uses thereof
US20090118130A1 (en) 2007-02-12 2009-05-07 Codexis, Inc. Structure-activity relationships
WO2009029554A2 (en) 2007-08-24 2009-03-05 Codexis, Inc. Improved ketoreductase polypeptides for the stereoselective production of (r)-3-hydroxythiolane
WO2009036404A2 (en) 2007-09-13 2009-03-19 Codexis, Inc. Ketoreductase polypeptides for the reduction of acetophenones
KR20100061571A (ko) 2007-09-28 2010-06-07 코덱시스, 인코포레이티드 케토리덕타제 폴리펩티드 및 이의 용도
CN101883846A (zh) 2007-10-01 2010-11-10 科德克希思公司 用于生成氮杂环丁酮的还原酶多肽
JP2010539991A (ja) 2007-10-04 2010-12-24 ハルシオン モレキュラー 電子顕微鏡を用いた核酸ポリマーの配列決定
WO2009064015A1 (ja) 2007-11-12 2009-05-22 In-Silico Sciences, Inc. インシリコスクリーニング装置、および、インシリコスクリーニング方法
CA2726850C (en) 2008-06-13 2015-06-02 Codexis, Inc. Method of synthesizing polynucleotide variants
US8383346B2 (en) 2008-06-13 2013-02-26 Codexis, Inc. Combined automated parallel synthesis of polynucleotide variants
CN102131813B (zh) 2008-06-24 2014-07-30 科德克希思公司 用于制备基本上立体异构纯的稠合二环脯氨酸化合物的生物催化方法
ES2602430T3 (es) 2008-07-25 2017-02-21 Glaxosmithkline Biologicals S.A. Polipéptidos, polinucleótidos y composiciones para uso en el tratamiento de tuberculosis latente
ES2560459T3 (es) 2008-08-27 2016-02-19 Codexis, Inc. Polipéptidos cetorreductasa para la producción de una 3-aril-3-hidroxipropanamina a partir de una 3-aril-3-cetopropanamina
WO2010054319A2 (en) 2008-11-10 2010-05-14 Codexis, Inc. Penicillin-g acylases
WO2010077470A2 (en) * 2008-11-19 2010-07-08 University Of Washington Enzyme catalysts for diels-alder reactions
SG172231A1 (en) 2008-12-18 2011-07-28 Codexis Inc Recombinant halohydrin dehalogenase polypeptides
WO2010075574A2 (en) 2008-12-25 2010-07-01 Codexis, Inc. Enone reductases
EP3354727B1 (en) 2009-01-08 2020-10-07 Codexis, Inc. Transaminase polypeptides
ES2448816T3 (es) 2009-02-26 2014-03-17 Codexis, Inc. Biocatalizadores de transaminasa
WO2011011630A2 (en) 2009-07-23 2011-01-27 Codexis, Inc. Nitrilase biocatalysts
SG181535A1 (en) 2009-12-08 2012-07-30 Codexis Inc Synthesis of prazole compounds
CN102939383B (zh) 2009-12-30 2015-04-29 先锋国际良种公司 用于靶向多核苷酸修饰的方法和组合物
US9267159B2 (en) 2010-12-08 2016-02-23 Codexis, Inc. Biocatalysts and methods for the synthesis of armodafinil
CN102156823B (zh) * 2011-02-18 2015-04-22 复旦大学 一种靶向作用于蛋白激酶非活性构象的化合物筛选方法
NZ703347A (en) 2012-06-29 2016-05-27 Wisconsin Alumni Res Found Use of 2-methylene-19-nor-(20s)-1α,25-dihydroxyvitamin d3 to treat secondary hyperparathyroidism
US20140303952A1 (en) 2013-04-08 2014-10-09 City University Of Hong Kong Protein-ligand docking
CN103265635A (zh) * 2013-04-28 2013-08-28 中山大学附属第一医院 一种通用的靶向蛋白嵌合型分子化合物的构建方法
CN103324861B (zh) 2013-07-10 2016-07-20 南京大学 基于分子动力学模拟的核受体介导内分泌干扰物质的虚拟筛选方法
CN105765592B (zh) 2013-09-27 2019-12-17 科德克希思公司 用于酶变体的自动筛选的方法、装置和系统
HUE048104T2 (hu) 2013-09-27 2020-05-28 Codexis Inc Szerkezet alapú prediktív modellezés

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060121455A1 (en) * 2003-04-14 2006-06-08 California Institute Of Technology COP protein design tool
KR20080099278A (ko) * 2006-01-23 2008-11-12 조셉 피. 에리코 표적 약물 개발의 방법 및 조성물

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
David P. Nannemann et al., Assessing directed evolution methods for the generation of biosynthetic enzymes with potential in drug biosynthesis, Future Med Chem. Vol.3, pp803-819(2011.05.)* *
Fang Zheng et al., Computational Modeling of Solvent Effects on Protein-Ligand Interactions Using Fully Polarizable Continuum Model and Rational Drug Design, Commun. Comput. Phys. Vol.13(2013.01.)* *
Martin R. Hediger et al., A Computational Methodology to Screen Activities of Enzyme Variants, PLOS ONE Vol.7, e49849(2012.12.17.)* *

Also Published As

Publication number Publication date
DK3418929T3 (da) 2021-02-01
EP3418929B1 (en) 2020-12-09
HUE053049T2 (hu) 2021-06-28
US20150133307A1 (en) 2015-05-14
BR112016006285B1 (pt) 2022-09-06
HUE039618T2 (hu) 2019-01-28
CA2923755A1 (en) 2015-04-02
JP6857029B2 (ja) 2021-04-14
CN105765592A (zh) 2016-07-13
NZ717658A (en) 2020-11-27
EP3418929A1 (en) 2018-12-26
EP3049973A1 (en) 2016-08-03
SG11201601695WA (en) 2016-04-28
JP2021131901A (ja) 2021-09-09
JP2019083025A (ja) 2019-05-30
AU2014324669A1 (en) 2016-03-24
BR112016006285A2 (pt) 2017-08-01
CA2923755C (en) 2023-03-14
RU2016116253A (ru) 2017-11-01
JP2016537700A (ja) 2016-12-01
US20230048421A1 (en) 2023-02-16
ES2857711T3 (es) 2021-09-29
DK3049973T3 (en) 2018-10-22
IL244457B (en) 2021-05-31
US11535845B2 (en) 2022-12-27
IL244457A0 (en) 2016-04-21
KR102342205B1 (ko) 2021-12-21
EP3049973B1 (en) 2018-08-08
AU2014324669B2 (en) 2020-06-04
US10696964B2 (en) 2020-06-30
WO2015048572A1 (en) 2015-04-02
RU2019140645A (ru) 2020-01-27
ES2693150T3 (es) 2018-12-07
CN105765592B (zh) 2019-12-17
US20200277597A1 (en) 2020-09-03

Similar Documents

Publication Publication Date Title
US11535845B2 (en) Automated screening of enzyme variants
US11342046B2 (en) Methods and systems for engineering biomolecules
KR20150113166A (ko) 상호작용 성분을 이용하여 생체분자를 확인하기 위한 방법, 시스템, 및 소프트웨어
Appel et al. uPIC–M: efficient and scalable preparation of clonal single mutant libraries for high-throughput protein biochemistry
Zhang et al. A preorganization oriented computational method for de novo design of Kemp elimination enzymes
NZ717658B2 (en) Automated screening of enzyme variants

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant