KR20210043568A - 생물학적 서열 선택을 이용한 생물도달가능 예측 도구 - Google Patents

생물학적 서열 선택을 이용한 생물도달가능 예측 도구 Download PDF

Info

Publication number
KR20210043568A
KR20210043568A KR1020217002962A KR20217002962A KR20210043568A KR 20210043568 A KR20210043568 A KR 20210043568A KR 1020217002962 A KR1020217002962 A KR 1020217002962A KR 20217002962 A KR20217002962 A KR 20217002962A KR 20210043568 A KR20210043568 A KR 20210043568A
Authority
KR
South Korea
Prior art keywords
reaction
sequences
leu
sequence
ala
Prior art date
Application number
KR1020217002962A
Other languages
English (en)
Inventor
애너팜 초두리
에릭 제데디아 딘
알렉산더 글레논 시어러
스테판 티모셴코
미셸 엘 윈
Original Assignee
지머젠 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 지머젠 인코포레이티드 filed Critical 지머젠 인코포레이티드
Publication of KR20210043568A publication Critical patent/KR20210043568A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • G16B5/20Probabilistic models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/30Unsupervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Physiology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Genetics & Genomics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)

Abstract

시스템, 방법 및 비 일시적 컴퓨터 판독 가능 매체는 숙주 세포에서 기능을 가능하게 하기 위한 후보 생물학적 서열을 식별한다. 실시양태는 효소와 같은 복수의 생물학적 서열을 반응 촉매 작용과 같은 하나 이상의 기능과 연관시키는 예측 모델에 액세스하고; 예측 모델을 사용하여, 복수의 생물학적 서열 중 하나 이상의 후보 서열이 원하는 기능을 가능하게 한다는 것을 예측하고; 프로세서를 사용하여, 신뢰 임계값을 만족하는 후보 서열을 필터링된 후보 서열로 분류하는 것을 포함한다.

Description

생물학적 서열 선택을 이용한 생물도달가능 예측 도구
본 발명은 일반적으로 세포의 유전 공학을 개선하는 방법, 특히 알고리즘적으로 선택된 천연 또는 이종 단백질(예를 들어, 효소) 또는 유전자 서열 세트를 사용하여 특정 세포에서 생성될 수 있는 분자를 식별하는 방법에 관한 것이다.
이 출원은 본 발명에 전체가 참조로 포함되는 2018년 8월 15일에 출원된 미국 가출원 제62/764,819호, 2018년 8월 21일에 출원된 미국 가출원 제62/720,811호, 2018년 8월 15일에 출원된 미국 가출원 제62/764,861호 및 2018년 8월 21일에 출원된 미국 가출원 제62/720,839호의 우선권을 주장한다.
이 출원은 본 발명에 전체가 참조로 포함되는 2018년 2월 14일에 출원된 P.C.T. 출원번호 PCT/US2018/018234("BPT PCT 출원") 및 2017년 2월 15일에 출원된 미국 가출원 제62/459,558호와 관련된다.
이 발명은 DARPA에 의해 수여된 협의서 No. HROO11-15-9-0014 하에서 미국 정부 지원으로 이루어졌다. 정부는 본 발명에 대한 특정 권리를 가진다.
생물학자, 화학자, 재료 과학자 및 관련 학문의 다른 사람들은 예를 들어 세포의 유전체를 수정하여 세포에서 원하는 표현형 특성을 가진 원하는 분자를 생성하기 위해 생물공학을 사용한다. 이러한 세포는 그 자체가 단세포 유기체(예를 들어, 박테리아) 또는 다세포 숙주 유기체의 구성요소이거나, 또는 자연에서 발견되는 세포의 돌연변이된 변이체 일 수 있다. 그러나, 분자가 세포에서 바이오매스의 일부로서 생성될 수 있는 데에는 한계가 있다. 일반적으로, 이들은 광범위한 수동 개입을 요구하지 않고, 유전자 변형을 통해 생성될 수 있는 생물도달가능(bioreachable) 분자의 가장 큰 가능한 풀을 결정하는 문제에 직면하게 된다. 이 문제는 BPT PCT 출원에서 해결되었다.
본 발명 및 BPT PCT 출원에 기재된 실시양태는 후보 생물도달가능 분자 및 이의 형성을 야기하는 일련의 반응을 확인할 수 있다. 그러나, 이후, 분자를 만들기 위해 세포를 엔지니어링하는 과정은 일반적으로 주어진 반응 또는 반응들의 효소적 촉매 기능에 상응하는 하나 이상의 유전자를 삽입, 삭제 또는 조절함으로써 숙주 세포의 대사를 변경하는 것을 필요로 한다. 필요한 기능을 갖는 단백질 서열(예를 들어, 효소) 또는 이들 단백질 서열을 코딩하는 기본 DNA 서열을 모든 이들의 알려지고 예측된 변이체 중 다수로부터 선택하는 것은 종종 확장하기 어렵고 오류가 발생하기 쉬운 과정이다.
RAVEN Toolbox와 같은 현재 접근법은 원하는 효소 활성이 특정 관심 유전체에 존재하는지 여부를 예측한다. 이 도구 상자는 유전체-규모 모델을 재구성하기 위해 유전체에 존재하는 일련의 대사 활성을 예측하도록 설계되었다. 그러나, 이는 개별 반응 활성을 위한 단일 숙주 세포에 고유한 효소를 식별하는 것으로 제한된다. 셀렌자임(Selenzyme)과 같은 대안적 접근법은 이들이 필요/원하는 기능을 가지고 있다는 신뢰 또는 본 발명에 기술된 이들의 서열 다양성의 합리적 샘플링에 기초한 후보 효소의 스코어링을 포함하지 않는다.
BPT PCT 출원에 기재된 생물도달가능 예측 도구의 실시양태는 생물도달가능 분자 및 이들 예측된 분자를 얻기 위한 반응 경로를 예측한다. 화학자 또는 다른 과학자는 이들의 지식과 직관을 사용하여 이들 경로를 따르는 반응을 촉매하는 최적의 효소 후보를 수동으로 선택할 수 있다. 그러나, BPT의 이러한 실시양태는 최적 효소의 수동 결정이 시간 소모적이고 오류가 발생하기 쉬운 다중 반응(예를 들어, 각각 10개의 반응을 포함하는 10개의 경로, 또는 그 이상)을 각각 포함하는 다수의 경로를 예측할 수 있다. 더욱이, 효소의 수동 주석은 오류가 있을 수 있으며, 다른 경우에는 촉매 반응 생성물이 원하는 정도로 발현되지 않을 수 있다.
본 발명은 상기 과제를 해결하는 것을 목적으로 한다.
본 발명의 실시양태는 종래 기술의 단점을 극복하는 방식으로 생존 가능한 표적 분자 및 반응 촉매를 예측하기 위한 생물도달가능 예측 도구를 제공한다. 특히, 본 발명의 실시양태의 생물도달가능 예측 도구는 숙주 세포 및 분자의 생산을 가능하게 하거나 개선하기 위해 주어진 숙주에서 발현될 수 있는 효소 세트(천연 및 이종일 수 있음)에 특이적인 생존 가능한 표적 분자를 예측한다.
생물도달가능 예측 도구가 생존 가능한 표적 분자를 유도하는 것으로 식별하는 각각의 확인된 반응 경로(즉, 족보)에 대해, 도구는 또한 본 발명의 실시양태에 따른, BPT에 의해 확인된 반응 경로에서 각 반응을 촉매하기 위한 후보 천연 또는 이종 효소 세트를 식별할 수 있다. 본 발명의 실시양태는 주어진 기능을 가능하게 하기 위해 다수의 잠재적 후보 서열의 합리적 샘플링을 가능하게 하는 확장가능한(scalable) 알고리즘 접근법을 제공한다.
도구는 다음 중 적어도 하나 또는 둘 모두에 기초하여 특정 반응을 촉매하기 위한 후보 효소 세트를 식별할 수 있다: 1) 효소가 특정 표적 반응을 촉매하는 증거가 있다, 또는 2) 이들의 서열은 원하는 기능이 아닌 다른 기능과 관련된 다른 모델보다 원하는 기능에 대한 모델과 훨씬 더 잘 일치한다.
실시양태에서, 도구는 다음 개선 사항 중 하나 또는 둘 모두에 기초하여 특정 반응의 촉매 작용을 위해 선택된 후보 효소 세트를 추가로 정제할 수 있다: 1) 효소가 특정 세포에서 추가적인 원하지 않는 기능적 행동을 유도하지 않는다는 증거가 있다, 또는 2) 효소가 특정 숙주에서 다른 원하지 않는 기능적 행동(여기서 원하지 않는 기능적 행동은 비-표적 반응의 촉매 작용을 포함할 수 있지만 이에 국한되지는 않음)을 유도하지 않을 가능성이 높은 것으로 예측된 모델.
후보 천연 또는 이종 효소 세트의 각 효소는 이후 원하는 표적 분자를 생산할 수 있는 것으로 확인된 특정 반응 경로(계통)에서 각 반응을 촉매하기 위해 하나 이상의 숙주 세포로 엔지니어링된다. 실시양태에서, 도구는 또한 식별된 후보 효소 세트가 서로 진화적으로 다양함을 보장하면서, 필요한 촉매 활성의 존재에 대한 신뢰를 유지한다.
본 발명의 실시양태는 숙주 세포에서 기능을 가능하게 하기 위한 후보 생물학적 서열을 식별하기 위한 시스템, 방법 및 비 일시적 컴퓨터 판독 가능 매체를 제공한다. 실시양태는 복수의 생물학적 서열을 하나 이상의 기능과 연관시키는 예측 모델에 액세스하고; 예측 모델을 사용하여, 복수의 생물학적 서열 중 하나 이상의 후보 서열이 원하는 기능을 가능하게 한다는 것을 예측하고; 및 프로세서를 사용하여, 신뢰 임계값을 만족하는 후보 서열을 필터링된 후보 서열로 분류한다. 필터링된 후보 서열의 제 1 필터링된 후보 서열을 처리하면 분자의 생성을 초래할 수 있다. 본 발명의 실시양태는 제 1 필터링된 후보 서열에 관한 정보를 유전자 제조 시스템에 제공할 수 있으며, 여기서 유전자 제조 시스템은 분자를 생산하는 반응 경로가 가능하도록 제 1 필터링된 후보 서열을 사용하도록 작동할 수 있다.
실시양태에서, 분류하는 것은 신뢰 임계값을 만족하는 후보 서열의 다양한 세트를 필터링된 후보 서열로 분류하는 것을 포함한다. 다양한 세트를 필터링된 후보 서열로 분류하는 것은 다음을 포함할 수 있다: 신뢰 임계값을 만족하는 복수의 후보 서열을 복수의 클러스터의 각 클러스터로 클러스터링하는 것; 및 다양한 세트 내에 포함된 것과 같은, 복수의 클러스터 중 적어도 2개의 클러스터의 각각으로부터 적어도 하나의 후보 서열을 식별하는 것. 분류하는 것은 신뢰 임계값을 만족하지만 원하는 기능과 다른 기능을 가능하게 할 가능성이 더 큰 후보 서열을 필터링된 후보 서열로서 분류하지 않는 것을 추가로 포함할 수 있다. 분류하지 않는 것은 신뢰 임계값을 만족하지만 주어진 허용오차 내에서 원하는 기능과 다른 기능을 가능하게 할 가능성이 더 큰 후보 서열을 필터링된 후보 서열로서 분류하지 않는 것을 포함할 수 있다.
실시양태는 필터링된 후보 서열 중 적어도 하나가 원하는 기능을 가능하게 하는지에 대한 경험적 데이터를 획득하며, 및 경험적 데이터를 사용하여 예측 모델을 개선한다. 예측 모델은 기계 학습을 사용할 수 있으며, 이는 경험적 데이터를 학습할 수 있다.
생물학적 서열은 효소 아미노산 서열일 수 있고, 원하는 기능은 효소-촉매 반응일 수 있다. 생물학적 서열은 효소 아미노산 서열일 수 있고 하나 이상의 효소 기능은 하나 이상의 반응 경로를 따르는 하나 이상의 효소-촉매 반응일 수 있으며, 여기서 각 반응 경로는 분자를 생성한다. 생물학적 서열은 효소를 코딩하는 뉴클레오티드 서열일 수 있으며, 원하는 기능은 효소-촉매 반응일 수 있다.
예측 모델은 서열 정렬에 적어도 부분적으로 기초할 수 있다. 예측 모델은 다음 모델들: 은닉 마르코프 모델(Hidden Markov Model; HMM), 인공 신경망, 또는 동적 베이지안 네트워크 중 적어도 하나에 적어도 부분적으로 기초할 수 있다.
분자는 생물도달가능 분자일 수 있다. 기능은 전사 기능 또는 수송 기능 중 하나일 수 있다. 분자는 필터링된 후보 서열 중 하나일 수 있다. 필터링된 후보 서열 중 하나는 효소 아미노산 서열을 포함할 수 있으며, 여기서 분자는 생물도달가능 분자이며, 처리는 효소 아미노산 서열을 사용하여 반응을 촉매하는 것을 포함한다.
분자는 생물도달가능 분자로 예측되는 분자일 수 있으며, 다음에 의해 생물도달가능 분자로 예측될 수 있다: 숙주 세포에 대한 출발 대사산물을 지정하는 출발 대사산물 세트를 얻는 단계; 반응을 지정하는 출발 반응 세트를 얻는 단계; 필터링된 반응 세트에 출발 반응 세트로부터의 하나 이상의 반응을 포함하는 단계; 및 적어도 하나의 프로세서에 의해 수행되는 하나 이상의 처리 단계의 각 처리 단계에서, 필터링된 반응 세트의 하나 이상의 반응에 따라, 출발 대사산물 및 이전 처리 단계에서 생성된 대사산물을 나타내는 데이터를 처리하여 하나 이상의 후보 생물도달가능 분자를 나타내는 데이터를 생성하는 단계.
숙주 세포는 미생물, 식물 또는 동물 조직으로부터 유래될 수 있거나, 또는 단세포 유기체 또는 다세포 유기체의 일부일 수 있다.
본 발명의 실시양태는 숙주 세포에 대한 출발 대사산물을 지정하는 출발 대사산물 세트를 얻고; 반응을 지정하는 출발 반응 세트를 얻고; 필터링된 반응 세트에, 하나 이상의 상응하는 촉매에 의해 촉매화되는 것으로 표시된 출발 반응 세트로부터의 하나 이상의 반응을 포함하고; 하나 이상의 상응하는 촉매 중 하나 이상에 상응하는 필터링된 후보 서열을 식별하기 위해 이전 실시양태 중 어느 하나의 시스템을 사용하고; 적어도 하나의 프로세서에 의해 수행되는 하나 이상의 처리 단계의 각 처리 단계에서, 필터링된 반응 세트의 하나 이상의 반응에 따라, 출발 대사산물 및 이전 처리 단계에서 생성된 대사산물을 나타내는 데이터를 처리하여 하나 이상의 생존 가능한 표적 분자를 나타내는 데이터를 생성하며; 및 하나 이상의 생존 가능한 표적 분자를 나타내는 데이터를 출력으로서 제공할 수 있다.
본 발명의 내용 중에 기재되어 있다.
도 1은 본 발명의 실시양태에 따르는 생물도달가능 예측 도구를 구현하기 위한 시스템을 예시한다.
도 2는 본 발명의 실시양태에 따르는 생물도달가능 예측 도구의 작동을 예시하는 흐름도이다.
도 3은 본 발명의 실시양태에 따르는 엄격하고 완화된 효소 서열 검색을 구현하기 위한 의사코드(pseudocode)를 예시한다.
도 4는 본 발명의 실시양태의 생물도달가능 예측 도구에 의해 생성될 수 있는 보고서의 예를 예시한다.
도 5는 본 발명의 실시양태의 생물도달가능 예측 도구에 의해 생성될 수 있는 반응 족보 추적의 보고서의 가상의 예를 예시한다.
도 6은 본 발명의 실시양태에 따르는 클라우드 컴퓨팅 환경을 예시한다.
도 7은 본 발명의 실시양태에 따르는 비-일시적인 컴퓨터 판독가능한 매체(예를 들어, 메모리)에 저장된 명령어를 실행하기 위해 사용될 수 있는 컴퓨터 시스템의 예를 예시한다.
도 8은 본 발명의 실시양태의 생물도달가능 예측 도구에 의해 생성될 수 있는 유형의 단일 경로의 예를 예시한다. 이 예에서, 분자 티라민은 숙주 세포로 단일 효소 단계의 추가에 의해 도달가능할 것으로 예측되었다. 이 경로는 구체적으로 실현되고 숙주 세포로 엔지니어링되어 티라민을 생산한다. 이 경로의 평가 점수는 반응 다이어그램에 포함된다.
도 9는 본 발명의 실시양태의 생물도달가능 예측 도구에 의해 생성될 수 있는 두 개의 구분되는 경로의 예를 예시한다. 이 예에서, 두 경로는 생물도달가능 예측 도구에 의해 생물도달가능한 분자 (S)-2,3,4,5-테트라하이드로디피콜리네이트 (THDP)를 생성할 수 있는 것으로 확인되었다. 두 개의 경로는 그들의 환원 등가 유형(NADH 대 NADPH)의 사용에 따라 다르다. 이들 경로 중 하나는 구체적으로 실현되고 숙주 세포로 엔지니어링되어 THDP를 생산한다. 각 경로의 평가 점수는 반응 다이어그램에 포함된다.
도 10은 본 발명의 실시양태의 생물도달가능 예측 도구에 의해 생성될 수 있는 유형의 더 복잡한 다중-경로 예측의 예를 예시한다. 각 경로의 평가 점수는 반응 다이어그램에 포함된다.
도 11a 및 도 11b는 본 발명의 실시양태의 생물도달가능 예측 도구에 의해 생성될 수 있는 점수매기기 상세의 예를 함께 예시한다. (도 11b는 도 11a의 아래에 첨부된다.) 이 경우, 도시된 평가 데이터는 분자 (S)-2,3,4,5-테트라하이드로디피콜리네이트(THDP)로의 경로를 예측하는 과정에서 생성되었다.
도 12는 본 발명의 실시양태의 작동을 예시하는 흐름도이다.
도 13a-h는 본 발명의 실시양태에 따라 티로신 디카르복실라제 활성을 가능하게 하는 적어도 하나의 서열을 확인하는 실시예를 예시한다. 도 13a는 출현 순서대로 각각 서열번호 1-6을 개시한다. 도 13b는 출현 순서대로 각각 서열번호 7-10을 개시한다.
본 설명은 다양한 예시적인 실시양태가 도시된 첨부된 도면을 참고하여 이루어진다. 그러나 수많은 상이한 예시적인 실시양태가 사용될 수 있고, 따라서 본 설명은 본 명세서에 개시된 예시적인 실시양태로 한정되는 것으로 간주되지 않아야 한다. 차라리, 이들 예시적인 실시양태는 이 개시가 철저하고 완전하도록 제공된다. 예시적인 실시양태에 다양한 변경이 당업자에게 쉽게 명확할 것이고, 본 명세서에서 정의된 일반적인 원칙들이 본 발명의 정신과 범위를 벗어나지 않고 다른 실시양태 및 응용에 적용될 수 있다. 따라서, 이 개시는 도시된 실시양태로 한정되는 것으로 의도되지 않고, 본 명세서에 개시된 원칙 및 특징과 일치하는 가장 넓은 범위에 따르도록 의도된다.
본 발명자들은 실행가능한 표적 분자를 예측하기 위한 통상적인 방법이 하술되는 장애를 겪음을 인식하였다:
1) 생물학적 부분의 결핍. 이것은 생물학적으로 생성될 수 있는 화학물질에 대한 가짜 양성 예측의 가장 큰 단일한 원인이다. 일부 통상적인 방법은, 존재하는 반응 데이터베이스를 사용하여 글루코스와 같은 원료로부터 모든 공지된 대사 반응을 통한 단계를 밟고, 모든 경로는 엔지니어링될 수 있다고 가정한다. 그러나 많은 반응이 숙주 세포로 엔지니어링될 수 있는 유전적인 부분에 상응하지 않는다. 전형적으로, 반응은 효소에 의해 촉진된다. 존재하는 데이터베이스에서 반응은 그들의 촉매화 효소에 따라 잘 특성화될 수 있지만, 이들 효소의 대부분은 그들의 아미노산이 서열분석되지 않았고, 이는 효소와 연관된 유전자 서열 사이에 정립된 상관관계가 없다는 것을 의미한다. 유전자 서열 없이, 숙주 유전체는 요구되는 효소를 생산하기 위해 개조되지 않을 수 있다. 사실, 잘 특성화된 효소 반응의 대략적으로 25-50%가 공지된 연관된 유전자 서열을 가지지 않고, 따라서 이들 효소들은 엔지니어링 목적을 위해 생물학적 부분으로서 유용하지 않다. 전체 생물학적 데이터베이스에서 유전자-부재 반응의 비율은, 이들 데이터베이스가 잘 특성화되지 않은 수많은 반응을 포함하기 때문에, 더 높을 가능성이 높다. 본 발명자들은, 일부 경우에, 예컨대 효소-나노입자 접합체와 같은 효소 이외의 촉매가 사용될 수 있음을 주목한다. 예를 들어, 전체가 본 명세서에 참조로서 인용되는 논문 [Vertgel AA, et al., Enzyme-nanoparticle conjugates for biomedical applications, Methods Mol. Bio. 2011; 679: 165-82]; 논문 [Johnson PA, et al., Enzyme nanoparticle fabrication: magnetic nanoparticle synthesis and enzyme immobilization, Methods Mol. Biol. 2011; 679: 183-91]을 참고하라. 이들 경우에, 숙주 세포로 이들 촉매를 엔지니어링하기 위해 요구되는 부분은 공지되거나 공지되지 않을 수 있다.
2) 잘못된 경로 추적. 많은 시도된 해결이 분자 사이에 임의적으로 경로를 추적하기 위해 시도되었다. 이는 표적 분자의 탄소 골격의 생성을 적합하게 추적하는 것의 실패를 야기할 수 있다. 공통적인 예를 인용하기 위하여, 글루타민으로부터 표적 분자를 생성하는 반응으로 경로는 추적될 수 있고, 이어서 글루타민은 표적 분자를 생성하기 위한 경로의 부분으로서 인용될 것이다. 그러나 대부분의 경우에, 글루타민은 질소기를 제공하고 탄소를 제공하지 않으므로, 이 추적은 잘못 인도하고, 생산될 수 있는 표적 분자를 표시하지 않는다(다른 실수는 ATP와 같은 다른 유비쿼터스 분자 또는 물과 같은 무기 분자를 통한 추적 연결을 포함한다). 이들 유형의 경로 추적 실수는 또한 쓸 수 없게 큰 규모의 예측된 경로를 야기한다(마치 지도 앱이 두 개 내지 세 개의 가장 직접적이고 유용한 경로 대신에 샌프란시스코를 통한 모든 가능한 거리 경로를 허용하는 것처럼).
3) 양방향성 반응의 추정. 실수의 다른 중요한 원천은 반응의 열역학/방향을 해명하는 것에 실패하는 것이다. 열역학은 일부 반응은 한 방향으로만 실행할 수 있다고 설명한다. 하지만, 분자 A를 분자 B로 분해하는 반응은 둘 중 어느 한 방향으로 실행되기 위한 통상적인 수단에 의해 종종 예측되어, 분자 A가 분자 B로부터 합성될 수 있다고 잘못 예측될 수 있다. 특정한 예로써, 일부 박테리아는 유기염화물과 같은 할로겐화된 화합물을 분해하지만, 할로겐화된 화합물을 생성하도록 반대로 실행할 수 없다. 많은 생물학적 반응은 극적으로 단지 한 방향으로 실행되는 것을 선호되기 때문에, 반응 방향성에 대한 설명 실패는 또한 가짜 양성 예측을 생성할 것이다.
4) 기타 오류. 모든 숙주가 동일한 대사 경로의 세트를 유지하는 것이 아니기 때문에, 모든 숙주가 모든 표적 분자를 생산하기 위해 엔지니어링될 수 있거나, 또는 동일한 개조의 세트로 또는 성공 가능성으로 모든 표적 분자를 생산할 수 있기 위해 엔지니어링될 수 있는 것은 아니다.
본 발명의 실시양태는 통상적인 방법의 한계를 극복한다. 본 발명의 실시양태는 표적-불문의 방식으로 주어진 출발 제약의 세트를 생물학적으로 생성할 수 있는 모든 화학물질을 제공할 수 있다(예를 들어, 특정 숙주 세포, 반응 단계의 수, 허용된 유전자-서열분석된 효소와 반응인지 여부). 이는 실행가능한 표적 화학물질의 리스트인 "생물도달가능 리스트"를 생성한다. 이들 표적 화학물질 및 그들의 연관된 구조는 전문적인 화학자에게 제공될 수 있고, 이 화학자는 그들을 생성하기 위해 요구되는 생물학을 검토할 필요 없이 분자의 화학적 유용성을 검토할 수 있다. 특정 표적 분자가 선택된 후, 그들의 화학식 및 반응 경로는 유전자 제조 시스템에 제공되어 숙주 세포의 유전자 서열을 개조하여 선택된 표적 분자를 생성한다.
본 발명의 실시양태의 생물도달가능 예측 도구는 숙주 세포에 대한 출발 대사산물을 지정하는 출발 대사산물 세트를 획득한다. 실시양태에서, 출발 대사산물 세트는 지정된 조건에서 엔지니어링되지 않은 숙주에 의해 생성된 적어도 하나의 데이터베이스로 표시되는 대사산물을 포함하는 핵심 대사산물인 코어 대사산물을 지정한다. 실시양태에서, 숙주는 유전적 변형을 거치지 않았다.
실시양태에서, 생물도달가능 예측 도구는 반응을 지정하는 출발 반응 세트를 얻는다. 실시양태에서, 도구는 그 자체로 숙주 세포에서 일어날 수 있는 하나 이상의 반응을 촉매화할 수 있는 것으로 표시되는 하나 이상의 상응하는 촉매, 예를 들어, 효소에 의해 촉매화되는 것으로 적어도 하나의 데이터베이스에 표시된 출발 반응 세트로부터의 하나 이상의 반응을 필터링된 반응 세트에 포함한다.
생물도달가능 예측 도구가 예를 들어, 공개 또는 독점 데이터베이스로부터 정보를 결정하는 경우 촉매는 숙주 세포에서 반응을 "촉매화할 수" 있을 가능성이 있으며, 이는 촉매를 숙주(예를 들어, 숙주 유전체 변형, 플라스미드 첨가) 내로 엔지니어링함으로써 또는 숙주가 성장하는 성장 배지로부터 촉매의 흡수를 통해 촉매가 숙주에 도입될 수 있음을 나타낸다.
보다 구체적으로, 본 발명은 숙주 세포가 촉매(예를 들어, 효소 단백질)를 생산하도록 숙주 세포의 유전체가 변형될 때(예를 들어, 삽입, 결실, 부분의 생산을 위한 코딩된 플라스미드의 삽입을 포함하는 유전자의 대체를 통해) 촉매와 같은 부분을 숙주 세포로 "엔지니어링된" 것으로 언급한다. 그러나, 만약 부분 자체가 유전 물질(예를 들어, 효소 역할을 하는 핵산 서열)을 포함하는 경우, 그 부분을 숙주 세포로 "엔지니어링"하는 것은 그 부분 자체를 구현하도록 숙주 유전체를 변형하는 것을 의미한다.
생물도달가능 예측 도구가 부분이 숙주에서 엔지니어링될 수 있음을 나타내는 정보를 결정하는 경우, 부분은 숙주 세포로 "엔지니어링될 수 있는" 가능성이 있다. 예를 들어, 실시양태에 따르면, 도구는 효소가 숙주로 조작 가능한 것으로 밝혀지면, 예를 들어, BPT 도구에 의해 액세스된 공개 또는 독점 데이터베이스의 주석으로 표시되면, 효소가 숙주로 엔지니어링될 가능성이 있음을 나타내는 정보를 결정할 것이다. 적어도 하나의 아미노산 서열이 (임의의 숙주에서) 반응을 촉매화하는 것으로 알려져 있다는(예를 들어, 상기 데이터베이스 중 하나에서 발견됨) 증거가 있는 경우, 숙련된 기술자는 아미노산 서열을 코딩하는 데 사용되는 상응하는 유전자 서열을 유도하고, 따라서 숙주 유전체를 수정할 수 있을 것이다. 만약 사용 가능한 부분이 효소인 경우, 도구는 분자를 만드는 데 필요한 반응을 촉매할 가능성이 높은 것으로 예측되는 일련의 효소 서열 세트를 선택할 수 있으며, 여기서 효소 서열은 단백질 아미노산 서열로 표시되거나 DNA 또는 RNA와 같이 유전적으로 표현될 수 있으며, 고유 또는 이종일 수 있다. 이러한 맥락 및 청구항에서 "가능성"은 그렇지 않을 것보다 더 가능성이 있음을 의미하며, 즉, 가능성이 50% 초과인 것을 의미한다.
생물도달가능 분자의 예측으로 이어지는 하나 이상의 처리 단계의 각 처리 단계에서, 생물도달가능 예측 도구는 필터링된 반응 세트의 하나 이상의 반응에 따라, 출발 대사산물 및 이전 처리 단계에서 생성된 대사산물을 나타내는 데이터를 처리하여 하나 이상의 생존 가능한 표적 분자를 나타내는 데이터를 생성한다. 도구는 하나 이상의 생존 가능한 표적 분자를 나타내는 데이터를 출력으로서 제공한다.
실시양태에서, 생물도달가능 예측 도구는 상응하는 촉매가 숙주 세포에서 하나 이상의 반응을 촉매화하는 데 이용 가능한지, 예를 들어, 숙주 세포로 엔지니어링하여 하나 이상의 반응을 촉매하는 데 이용 가능한지 여부에 대한 신뢰도를 결정한다. 신뢰도는 예를 들어, 적어도 제 1 신뢰도 또는 제 1 신뢰도보다 높은 제 2 신뢰도를 포함할 수 있다. 도구는 필터링된 반응 세트에, 제 2 신뢰도로 숙주 세포에서 하나 이상의 반응을 촉매하기 위해 숙주 세포로 엔지니어링하는데 그 자체로 이용 가능한 것으로 결정된 예를 들어, 제 2 신뢰도로 하나 이상의 반응을 촉매화하기 위해 이용 가능한 것으로 결정된 하나 이상의 상응하는 촉매에 의해 촉매화된 것으로 적어도 하나의 데이터베이스에 표시된 출발 반응 세트로부터의 하나 이상의 반응을 포함할 수 있다.
본 발명의 실시양태에서, 생물도달가능 예측 도구는 하나 이상의 생존 가능한 표적 분자를 생성하는 어려움의 표시를 생성한다. 어려움의 표시는 열역학적 특성, 하나 이상의 생존 가능한 표적 분자에 대한 반응 경로 길이, 또는 하나 이상의 생존 가능한 표적 분자에 대한 하나 이상의 제 1 반응 경로를 따라 하나 이상의 해당 반응을 촉매화하는 데 촉매를 사용할 수 있는지 여부에 대한 신뢰도를 기반으로 할 수 있다.
본 발명의 실시양태에서, 특정 처리 단계에서 하나 이상의 생존 가능한 표적 분자를 나타내는 데이터를 생성한 후 그리고 다음 처리 단계 전에, 생물도달가능 예측 도구는 특정 처리 단계에서 하나 이상의 생존 가능한 표적 분자를 나타내는 데이터를 생성하는 것과 관련된 임의의 반응을 필터링된 반응 세트에서 제거한다.
실시양태에서, 도구는 각각의 생존 가능한 표적 분자로 이어지는 하나 이상의 반응 경로(즉, 족보)의 기록을 생성한다. 실시양태에서, 기록을 생성하는 것은 유비쿼터스 대사산물로부터의 반응 경로를 기록에 포함하지 않는 것을 포함한다. 실시양태에서, 도구는 생존 가능한 표적 분자를 나타내는 데이터가 생성되는 단계의 기록을 생성한다. 실시양태에서, 도구는 출발 대사산물 세트에서 각 생존 가능한 표적 분자로의 최단 반응 경로의 기록을 생성한다.
단일 숙주 세포가 주어진 생존 가능한 표적 분자를 결정하는 대신, 주어진 생존 가능한 표적 분자를 생성할 하나 이상의 숙주 세포를 확인하는 것이 바람직할 수 있다. 예를 들어, 고객은 도구의 사용자에게 표적 분자를 생산할 복수의 숙주 내에서 최적의 숙주 세포를 결정하도록 요청할 수 있다. 실시양태에서, 생물도달가능 예측 도구는 복수의 숙주 세포에 대해 실행되고, 본 발명에 기술된 임의의 방법에 따라 복수의 숙주 세포의 각 숙주 세포에 대해 하나 이상의 생존 가능한 표적 분자(생물도달가능 후보 분자)를 나타내는 데이터를 생성한다. 이러한 실시양태에서, 주어진 생존 가능한 표적 분자에 대해, 도구는 주어진 숙주 세포에 의해 생산된 생존 가능한 표적 분자의 주어진 예측된 수율 또는 주어진 숙주 세포에서 주어진 생존 가능한 표적 분자를 생산하는 데 필요한 것으로 예측되는 주어진 수의 처리 단계와 같은 적어도 하나의 기준을 만족하는 복수의 숙주 세포 중 적어도 하나를 결정한다. 도구는 적어도 하나의 기준을 만족하는 것으로 결정된 숙주 세포를 나타내는 데이터를 출력으로서 제공한다.
상기 실시양태에 대해 기재된 바와 같이, 도구는 각 숙주 세포에 의해 생성된 각 표적 분자로 이어지는 하나 이상의 반응 경로(즉, 족보)의 예를 들어, 열역학적 특성을 포함하는 기록을 생성할 수 있다. 복수의 숙주 세포에 대해 도구를 실행하는 상기 실시양태를 기반으로, 도구는 수율, 처리 단계 수, 반응 경로에서 반응을 촉매하는 촉매의 이용가능성 등과 같은 매개변수를 지정하는 주석을 포함할 수 있는 라이브러리로서 데이터베이스에 숙주 세포, 표적 분자 및 족보 간의 연관성을 저장할 수 있다.
실시양태에서, 도구가 이러한 라이브러리에 액세스 할 수 있는 경우, 주어진 생존 가능한 표적 분자를 생산할 여러 숙주 세포를 식별하기 위해 도구를 실행할 필요가 없다. 대신, 이러한 실시양태에서, 도구는 숙주, 표적 분자 및 반응 간의 연관성에 관한 주석 데이터를 포함할 수 있는 라이브러리로부터의 족보를 사용할 수 있다. 도구는 적어도 하나의 표적 숙주 세포에서 표적 분자의 생산으로 이어지는 적어도 하나의 반응 경로에서 반응을 촉매할 것으로 예측되는 모든 촉매가 이러한 모든 반응을 촉매하는 데 이용 가능할 가능성이 있는 예를 들어, 공개 또는 독점 데이터베이스 또는 라이브러리로부터의 증거에 적어도 부분적으로 기초하여 하나 이상의 숙주 세포 중에서 적어도 하나의 표적 숙주 세포를 식별할 수 있다. 실시양태에서, 도구는 표적 분자를 생성하는 데 필요하다고 예측되는 반응 경로 내에서 임계 수 미만의 반응 단계를 필요로 하는 표적 숙주에 기초하여 표적 숙주를 결정할 수 있다.
일부 반응 효소는 알려진 관련 아미노산 서열 또는 유전자 서열("오펀 효소(orphan enzymes)")을 가지지 않을 수 있다. 이러한 경우, 도구는 대신에 오펀 효소를 생물학적으로 조사하여 아미노산 서열을 예측하고, 궁극적으로, 이들의 유전자 서열을 예측하여, 새롭게 서열화된 효소가 숙주 세포로 엔지니어링되어 하나 이상의 반응을 촉매할 수 있다. 도구는 생물도달가능 분자 찾기에 사용되는 필터링된 반응 데이터의 구성원으로서 새롭게 서열화된 효소에 해당하는 반응을 포함할 수 있다.
실시양태에서, 생물도달가능 예측 도구는 "팩토리", 예를 들어 유전자 제조 시스템에 생존 가능한 표적 분자로 이어지는 반응 경로에서 하나 이상의 반응과 관련된 하나 이상의 유전자 서열의 표시를 제공한다. 실시양태에서, 유전자 제조 시스템은 지시된 유전자 서열을 숙주의 유전체로 구현하여, 표적 분자의 제조를 위한 엔지니어링된 유전체를 생성한다. 실시양태에서, 도구는 팩토리가 표적 분자의 생산을 위해 숙주 세포의 성장 배지에 하나 이상의 촉매를 도입하기 위한 하나 이상의 촉매의 표시를 팩토리에 제공한다.
실시양태에서, 생물도달가능 예측 도구는, 필터링된 반응 세트에서, 하나 이상의 반응이 자발적인지 여부에 적어도 부분적으로 기초하여, 적어도 부분적으로는 방향성에 적어도 부분적으로 기초하여, 하나 이상의 반응이 수송 반응인지 여부에 적어도 부분적으로 기초하여, 또는 하나 이상의 반응이 할로겐 화합물을 생성하는지 여부에 적어도 부분적으로 기초하여 출발 반응 세트로부터의 반응을 포함한다.
본 발명의 실시양태에서, 생물도달가능 예측 도구는 숙주 세포에 대한 출발 대사산물을 지정하는 출발 대사산물 세트를 획득하고, 숙주에 특이적인 반응을 지정하는 출발 반응 세트를 획득한다. 본 발명의 실시양태에서, 생물도달가능 예측 도구는 필터링된 반응 세트에 적어도 하나의 데이터베이스에서 자발적인 것으로 표시된 하나 이상의 반응을 포함한다. 하나 이상의 처리 단계의 각 처리 단계에서, 도구는 필터링된 반응 세트의 하나 이상의 반응에 따라, 출발 대사산물 및 이전 처리 단계에서 생성된 임의의 대사산물을 나타내는 데이터를 처리하여, 각 단계에서 하나 이상의 생존 가능한 표적 분자를 나타내는 데이터를 생성한다. 실시양태에서, 도구는 하나 이상의 생존 가능한 표적 분자를 나타내는 데이터를 출력으로서 제공한다.
시스템 디자인
도 1은 본 발명의 실시양태의 분배된 시스템(100)을 예시한다. 사용자 인터페이스(102)는 텍스트 편집기 또는 그래픽 사용자 인터페이스(GUI)와 같은 클라이언트-측 인터페이스를 포함한다. 사용자 인터페이스(102)는 랩탑 또는 데스크탑 컴퓨터와 같은 클라이언트-측 컴퓨팅 장치(103)에 머무를 수 있다. 클라이언트-측 컴퓨팅 장치(103)는 인터넷과 같은 네트워크(106)를 통하여 하나 이상의 서버(108)에 커플링된다.
서버(108)는 하나 이상의 데이터베이스(110)에 국지적으로 또는 원격으로 커플링되고, 이는 분자, 반응 및 서열 데이터의 하나 이상의 자료 덩어리를 포함할 수 있다. 반응 데이터는 모든 공지된 대사 반응의 세트를 대표할 수 있다. 실시양태에서, 반응 데이터는 보편적이고, 즉, 숙주-특이적이지 않다.
분자 데이터는 기질 또는 생성물 중의 하나로서 반응 데이터에 함유된 반응에 포함되는 대사산물-생성물질에 대한 데이터를 포함한다. 실시양태에서, 대사산물에 대한 데이터는 특정 숙주 세포에서 생산되는 것으로 당업계에 공지된, 코어 대사산물과 같은, 숙주-특이적 대사산물에 대한 데이터를 포함한다. 일부 실시양태에서, 일부 코어 대사산물은 본 발명자들에 의해 수집된 실증적 증거를 통하여 특정 숙주에 의해 생산되는 것으로 결정되었다. 이들 숙주-특이적 대사산물 세트는, 숙주 세포의 대사체학 분석법(metabolomics analysis)과 같은 다양한 방법을 통하여, 또는 특정 성장 조건 하에서 필수적인 효소-코딩 유전자를 확인하고 이들 유전자에 의해 코딩되는 효소에 의해 생산되는 대사산물의 존재를 추론함으로써, 확인되었다. 분자 데이터는 숙주 세포, 성장 배지 특성화, 및 분자가 코어 대사산물, 전구체, 유비쿼터스인지 또는 무기물인지 여부와 같은 많은 특징을 나타내는 주석이 태깅될 수 있다.
데이터베이스(110), 예를 들어 UniProt은, 또한 숙주가 성장하는 성장 배지로부터 촉매의 흡수를 통하여 촉매가 숙주 세포로 도입될 수 있는지 여부에 대하여 데이터를 포함할 수 있다.
서열 데이터는, 반응이 숙주 세포로 반응을 엔지니어링하기 위한, 예를 들어 효소 또는 유전자 서열과 같이, 서열에 상응하는 것으로 알려질 가능성이 높은지 여부에 대하여 반응 데이터에서 반응을 주석 달기 위해 반응 주석 엔진(107)을 위한 데이터를 포함할 수 있다. 예를 들어, 서열 데이터는 반응이 상응하는 아미노산 서열이 공지될 가능성이 높은 효소에 의해 촉진되는지 여부에 대하여 반응 데이터에서 반응을 주석 달기 위한 데이터를 포함할 수 있다. 만약 그렇다면, 이어서 당업계에 공지된 방법을 통하여, 효소를 코딩하기 위한 유전자 서열이 결정될 수 있다. 실시양태에서, 생존 가능한 표적 분자를 결정하기 위한 목적을 위해, 반응 주석 엔진(107)은 서열 데이터 그 자체를 알아야 할 필요는 없지만, 차라리 서열은 촉매를 위해 존재하기 위해 공지될 가능성이 큰지 여부는 알아야 할 필요가 있다. 반응 주석 엔진(107)은 후술되는 바와 같이 UniProt과 같은 데이터베이스로부터 서열 데이터를 컴파일(compile)할 수 있고, 이는 연관된 코딩 서열을 가지는 것으로 표시된 반응을 촉진하는 효소를 위한 서열 데이터를 포함한다. 서열 데이터는 또한 모델을 훈련시키고 가능한 예측된 서열의 소스를 제공하기 위해 효소 선택 단계 동안 사용될 수 있다.
실시양태에서, 서버(108)는 반응 주석 엔진(107) 및 생물도달가능 예측 엔진(109)을 포함하고, 이들 엔진은 함께 또는 개별적으로 본 발명의 실시양태의 생물도달가능 예측 도구를 형성한다. 다르게는, 주석 엔진(107), 예측 엔진(109), 또는 둘 다를 위한 소프트웨어 및 연관된 하드웨어는 서버(108)에 있는 대신에 클라이언트(103)에 국지적으로 상주할 수 있거나, 또는 클라이언트(103) 및 서버(108) 둘 다 사이에 분배될 수 있다. 데이터베이스(110)는 유니프롯(UniProt), PDB, 브렌다(Brenda), BKMR, 및 MNXref과 같은 공개 데이터베이스, 뿐만 아니라 사용자 또는 기타에 의해 생성된 고객 데이터베이스, 예를 들어 사용자 또는 제 3 기여자에 의해 수행된 합성 생물학 실험을 통해 생성된 분자 및 반응을 포함하는 데이터베이스를 포함할 수 있다. 데이터베이스(110)는 클라이언트(103)에 대하여 국지적 또는 원격일 수 있거나, 국지적으로 및 원격으로 분배될 수 있다. 일부 실시양태에서, 주석 엔진(107)은 클라우드-기반 서비스로서 실행될 수 있고, 예측 엔진(109)은 클라이언트 디바이스(103) 상에 국지적으로 실행될 수 있다. 실시양태에서, 임의의 국지적 거주 엔진에 의한 사용하기 위한 데이터는 클라이언트 디바이스(103) 상에서 메모리에 저장될 수 있다.
시스템 작동
출발 대사산물 리스트 및 출발 반응 데이터 세트 획득하기
생물도달가능 예측 처리로 입력은 출발 대사산물 리스트, 출발 반응 리스트, 숙주 세포 및 숙주를 위한 연료 수준(예를 들어, 최소 또는 리치 성장 배지)과 같은 기초선 조건, 및 온도와 같은 환경 조건과 같은 정보를 포함한다. 주석 엔진(107)은 대사산물 및 반응 데이터를 데이터베이스(110)로부터 연관된 주석에 따라 어셈블링할 수 있다.
사용자 인터페이스(102)를 통하여, 사용자는 출발 대사산물 및 반응 리스트를 위한 정보를 획득하기 위한 데이터베이스(110)를 구체화할 수 있다. 예를 들어, 반응 및 숙주-특이적 대사산물은 KEGG, UniProt, BKMR, 및 MNXref와 같은 공개 데이터베이스로부터 획득될 수 있다. (당업계의 숙련자는 논의의 맥락으로부터 본 명세서 및 특허청구범위에서 "대사산물", "반응" 등에 대한 지칭은 많은 예에서 사실 물리적인 객체 또는 과정을 나타내는 데이터를 지칭하는 것이지, 물리적인 객체 또는 과정 그 자체를 지칭하는 것이 아님을 인식할 것이다.)
출발 대사산물 리스트
도 2를 참고하면, 실시양태에서 반응 주석 엔진(107)은, 주어진 성장 조건하에서 특정 시각에서 또는 특정 시간 간격 동안 숙주 세포의 성장 동안 존재하는 것으로 예상되는 화학적 화합물(출발, 중간, 및 최종 생성물)의 리스트를 포함하는 숙주-특이적 출발 대사산물 파일을 데이터베이스(110)로부터 획득하거나 또는 스스로 응집한다(202). 디폴트 성장 조건은 최소 성장 배지일 수 있는데, 이는 출발 대사산물을 선택하기 위한 가장 보수적인 접근법이기 때문이다. 실시양태에서, 반응 주석 엔진(107)은 출발 대사산물 리스트로서 대사산물 파일을 예측 엔진(109)으로 제공할 수 있다.
실시양태에서, 반응 주석 엔진(107)은 숙주 세포를 위해 또는 유사한 세포를 위해 성장 데이터에 기반하여 출발 대사산물을 결정하거나 (유사한 미생물의) 주형(template)이 될 수 있다. 이 접근법은 RAST 시스템과 같은 시스템에서 미생물의 유전체를 주석 달기 위해, 또는 BioCyc 데이터베이스 수집에서 대사 경로를 예측하기 위해 사용되는 접근법과 유사하다. 이 접근법은 대사 경로가 존재하는 것으로 가장 양호한 추측을 하기 위한 주어진 숙주 세포에 대한 유전체 주석을 사용하고, 이어서 이들 경로에서 모든 구성 반응 및 그들의 대사산물의 존재를 추정한다. BioCyc 데이터베이스의 경우에, 존재하는 유전체 주석이 사용되어 개별적인 효소(및 이에 따른 그들의 반응)의 추정 존재를 확인한다. 규칙-기반 시스템이 이어서 사용되어 (일부) 그들의 대체 반응의 존재에 기반하여 전체 대사 경로의 존재를 추론한다.
숙주 세포에 특이적인 출발 대사산물 리스트를 가지는 것은 본 발명의 실시양태를 위한 구별되는 출발 포인트이다. 다른 통상적인 접근법은 만들어질 수 있는 표적에 대한 일반적인 예측을 하는 반면에, 본 발명의 실시양태의 이 주문 제조 가능한 단계는 표적 분자가 숙주 세포의 생물학에서 차이에 기인하여 만들어질 수 있는 (또는 그들이 만들어질 수 있는 방법) 부정확한 예측의 문제를 피한다.
실시양태에서, 사용자는 반응 주석 엔진(107)이 숙주 세포 및 성장 배지와 같은 파라미터를 가진, 및 일부 실시양태에서, 관련된 모델 세포 데이터베이스 또는 특이적 대사산물의 존재의 다른 명령어를 가진 데이터베이스를 상호-참조 표시를 통하여, 데이터베이스 또는 데이터세트 질의(querying)에 기반하여 MNXref, KEGG 또는 BKMR와 같이 존재하는 데이터베이스 또는 데이터세트로부터 출발 대사산물을 검색하도록 명령할 수 있다. 지금까지, 특정 산업 숙주에 대하여, 양수인은 200-300개의 대사산물의 순서로 전형적인 출발 대사산물 파일을 생성하였다. 위에 언급된 것처럼, 공개 데이터베이스에서 대사산물을 나타내는 데이터 객체 및 주석 엔진(107)에 의해 형성된 리스트는 숙주 세포, 성장 배지 유형 및 대사산물이 코어 대사산물, 전구체, 유기 또는 유비쿼터스인지 여부와 같은 메타데이터를 포함하는 주석을 포함할 수 있다.
코어 대사산물은 성장 배지의 풍부함과 같이 주어진 기초선 조건에 대하여 유전적으로-개조되지 않은 세포에서 천연적으로 발견되는 출발(예를 들어, 기질), 중간 및 최종 대사산물이다. 대장균(E. coli)와 같은 미생물의 생체량에서 각각의 코어 대사산물(예를 들어, 아미노산)은 11개의 전구체 대사산물 중의 하나로부터 세포의 코어 대사에서 생성될 수 있고, 유전적으로-개조되지 않은 세포로 어떤 탄소 입력이 제공되든지 이로부터 근본적으로 생성될 수 있다. 실시양태에서, 사용자는 MNXref, KEGG, ChEBI, Reactome, 또는 기타와 같은 데이터베이스로부터 그들의 전구체 의존성으로 태그된 선택된 코어 화합물의 출발 대사산물 세트를 선택할 수 있다.
그들의 이름이 제안하는 바와 같이, 암모늄과 같은 무기 대사산물은 탄소를 포함하지 않으므로, 대사의 새로운 생산물로 탄소 원자를 기여할 수 없다. 따라서, 반응 주석 엔진(107)은 출발 대사산물 세트로부터 무기 대사산물을 제외할 수 있다.
일부 대사산물은 유비쿼터스이고, 즉, 그들은 많은 반응에서 발견된다. 그들은 ATP 및 NADP와 같은 분자를 포함한다. 전형적으로, 유비쿼터스 분자는 탄소를 표적 생산물에 기여하지 않고, 따라서 표적으로 임의의 대사 경로의 일부가 아닐 것이다. 따라서, 반응 주석 엔진(107)은 출발 대사산물 세트로부터 유비쿼터스 대사산물을 제외할 수 있다. 유비쿼터스 분자는 전문가 평가에 기반하여 주석에서 수동적으로 지정될 수 있거나, 어떤 분자가 특정 역치 숫자를 넘어 반응에서 참여하는지 결정하기 위해 확인될 수 있다. 한 경험적 방법은 전형적인 코어 대사산물 입력(예를 들어, 300)의 크기보다 더 큰 숫자에서 반응 세트에서 나타나는 모든 분자를 표시한다. 예를 들어, 한 데이터 세트에서, ATP는 대략 31,000 반응 중 2,415개의 반응에서, NADH는 2,000개의 반응에서, NADPH는 3,107개의 반응에서 나타나고, 그들을 상기 코어 대사산물에 계산되도록 넣고, 그들 모두에 "유비쿼터스(ubiquitous)" 태그를 얻게 해준다.
출발 반응 데이터 세트
반응 주석 엔진(107)은 실행가능한 표적 분자의 예측을 위한 기초로서 출발 반응 데이터 세트를 획득한다(204). 사용자는 출발 반응 데이터 세트를 구성하는 방법을 구체화할 수 있거나, 사용자는 주석 엔진(107)이 공개 데이터베이스(110) 또는 사용자 또는 다른 이들에 의해 이전에 생성된 커스텀 데이터베이스와 같은 독점 데이터베이스(110)로부터 직접적으로 데이터를 획득하도록 명령할 수 있다. 한 실시양태에서, 주석 엔진(107)은 MetaNetx 반응 이름공간(MNX, MetaNetx reaction namespace)로부터 전체적인 반응 세트(대략 30,000개의 반응)을 불러올 수 있다. 다른 실시양태에서, 주석 엔진(107)은 MetaCyc 및 KEGG, 또는 다른 공개 또는 개인 데이터베이스로부터 반응 세트를 불러오고 합병할 수 있다(대략 22,000개의 총 반응).
실시양태에서, 반응 주석 엔진(107)은 데이터베이스(110)로부터 획득된 정보를 선택적으로 수집함으로써 출발 반응 데이터 세트를 구성할 수 있다. 예를 들어, BKMR은 반응이 자발적인지에 대한 정보를 제공한다. 주석 엔진(107)은 BKMR 반응 ID를 상응하는 반응에 대하여 MNXref에서 ID에 맵핑하기 위한 공지된 맵핑을 사용할 수 있다. 다른 예에서, KEGG 또는 MetaCyc 및 그들의 ID는 BKMR 및 이의 ID 대신에 사용될 수 있다. 이 연결을 사용하여, 반응 주석 엔진(107)은 이어서 BKMR로부터 상응하는 자발적인 반응 태그와 함께 MNXref로부터 존재하는 주석(예를 들어, 코어, 유비쿼터스)을 사용하여 데이터베이스(110)에서 커스텀 반응 리스트를 생성할 수 있다. 유사하게, 상응하는 ID의 맵핑을 통하여, 주석 엔진(107)은 MNXref에서 반응을 UniProt에서 주석과 연결하여 반응이 운송 반응인지 또는 반응 기질 또는 생산물이 할로겐을 함유하는지에 대한 태그를 획득하고, 이들 태그를 데이터베이스(110)에서 커스텀 반응 리스트에서 반응에 대한 주석에 통합시킬 수 있다. (대부분의 할로겐-관련 반응은 화합물질을 붕괴하는 것에 관한 것이기 때문에, 할로겐화된 화합물을 확인하는 것은 잘못된 방향으로 실행되는 반응을 확인하기 위한 발견적 방법이다.)
이 선들을 따라서, 반응 주석 엔진(107)은 데이터베이스 전체에 걸쳐 연관된 ID를 사용하여 데이터베이스로부터 데이터를 모아, 반응이 자발적인지, 열역학 때문에 오직 한 방향으로 실행되는지, 할로겐을 포함하는지(방향성을 결정하는 것과 관련하여), 유비쿼터스 대사산물을 포함하는지, 운송 반응인지, 불균형인지(즉, 화학 반응의 두 개의 측면이 원소 균형을 유지하지 않고, 반응이 원천 데이터베이스에서 잘못 쓰여지고, 무시되어야 하는지), 허용가능한 데이터베이스에서 불완전하게 특성분석되는지, 효소가 공지된 아미노산 서열 또는 효소를 코딩하는 유전자 서열과 연관되는 것을 표시와 함께 태그하는 효소와 연관되는지, 또는 다른 태그 사이에 트랜스멤브레인 도메인을 가질 가능성이 높은 원천 효소에 의해 촉진되는지와 같은 커스텀 주석과 함께 출발 반응 세트를 저장하는 데이터베이스(110)를 구성할 수 있다. 따라서, 주석 엔진(107)을 통하여, 사용자는, 예를 들어 MNXref 데이터베이스에서 대략 30,000개의 반응 전부에 주석을 부여할 수 있다. 전술한 바와 같이, 사용자는 기준을 구성하여 각각의 주석 특성 또는 그들의 임의의 조합에 대해 개별적인 리스트로 이 마스터 파일을 필터링할 수 있다.
생물도달가능 분자 예측
도 2의 흐름도를 참조하면, 본 발명의 실시양태의 예측 엔진(109)의 작동의 예가 후술된다. 예측 엔진(109)은 어떤 화학물질이 임의로 선택된 숙주 세포에서 예를 들어 유전 공학을 통해 생성될 수 있는지 예측한다. 예측 엔진(109)은 입력으로서 출발 대사산물 파일, 출발 반응 데이터 세트, 및 서열 데이터베이스를 가질 수 있다. 서열 데이터베이스는 촉매 화합물(예컨대 효소)에 대한 아미노산 서열, 또는 촉매 화합물을 코딩하는 유전자 서열을 저장할 수 있다. 본 발명의 실시양태는 서열 데이터베이스를 사용하여 각 반응에 대한 아미노산 서열 또는 유전자 서열의 존재 또는 부재를 결정한다. 이러한 실시양태에서, 서열 데이터베이스는 촉매가 효소 또는 허용가능하거나 하지 않은 유전 부분을 가지는 것으로 태그되는 한 서열 자체를 포함할 필요는 없다. 생물도달가능 후보 분자의 리스트와 함께, 예측 엔진(109)은 일부 실시양태에서, 숙주의 코어 대사산물과 같이 출발 대사산물로부터 각각의 분자의 생산을 야기하는 반응의 구체적인 숙주 세포 "족보"(반응 경로)에 대해 생산한다.
특히, 예측은 수많은 파라미터, 예컨대 촉매가 반응을 촉진시킬 가능성(예를 들어, 유전 부분이 숙주 세포로 엔지니어링될 허용가능성 또는 촉매가 숙주 세포가 성장하는 성장 배지로부터 흡수를 통하여 숙주 세포로 도입될 허용가능성), 허용되는 반응 단계의 최대 숫자(출발 대사산물로부터 출발하여), 허용되는 부분 또는 화학 반응의 유형, 및 다른 선택가능한 특징들에 기반하여 조정될 수 있다. 예측 엔진(109)은 또한 코어 대사산물로부터 각각의 표적 분자로 잠재력 있는 경로를 예측함으로써 표적 분자를 디자인하는데 있어서 접근법 및 어려움을 예측하는 것을 돕는다.
필터링된 반응 데이터 세트
실시양태에서, 예측 엔진(109)은 필터링되고 유효한 반응 데이터 세트(RDS)를 생성한다. 반응 주석 엔진(107)에 의해 특징화되는 반응을 사용하여, 예측 엔진(109)은 반응을 바람직한 유효 수준으로, 예를 들어 반응 효소를 위한 코딩 서열이 존재한다는 확신의 수준으로, 필터링할 수 있다(206). 이는 예측의 정확도를 미세 조정하는 단계이고, 가짜 양성 예측의 일차 소스를 제어하기 위한 단계이다. 상술한 예에서, 본 발명자들은 MNXref의 MetaNetx 반응 이름공간(MNX)으로부터 전체 반응 세트(대략 30,000개의 반응)를 내보내고 주석을 달아서 하나의 생물도달가능 리스트에 대한 RDS를 생성하였다. 유사한 접근법이 KEGG, Reactome, 및 MetaCyc와 같은 다른 공개적으로 입수가능한 반응 데이터베이스에 적용될 수 있다.
본 발명자들의 경험에 기반하여, 가장 인기있는 공개 데이터베이스에서 반응의 25-50%는 임의의 공지된 연관된 생물학적 부분을 가지지 않을 수 있다. 예를 들어, 반응을 촉진하기 위한 효소의 아미노산 서열, 또는 그들의 동반하는 유전자 서열은 알려지지 않을 수 있다. 효소 서열 정보 없이, 생물반응기는 이들 효소를 사용하여 반응을 수행할 수 없을 것이기 때문에, 반응 정보는 엔지니어링 목적을 위해 소용없게 된다. 한 경로 내에 단 하나의 효소가 공지된 유전자 서열이 부족한 경우조차, 전체 경로가 숙주로 엔지니어링될 수 없다.
이러한 부족을 다루기 위해, 예측 엔진(109)은 공개적으로 입수가능한 또는 커스텀 데이터를 사용하여 일련의 유효 시험을 통해 반응을 필터링할 수 있다. 한 공개 데이터베이스는 UniProt이고, 이는 크고, 접근 개방되고, 신뢰할만하게 조직된다. 다른 것들은 RCSB 단백질 데이터 뱅크(PDB) 및 GenBank를 포함한다. MNXref, UniProt, Brenda, 또는 PDB와 같은 일부 공개 데이터베이스에서, 반응은 효소 커미션(EC, Enzyme Commission) 숫자로 태그될 수 있고, 이는 그들이 촉진시키는 반응에 기반한 효소에 대한 숫자 분류이다. UniProt 또는 PDB와 같은 일부 데이터베이스는, 오직 촉진 효소를 코딩하는 유전자 서열이 공지된 반응에 대하여 EC 숫자 태그를 저장한다. KEGG 및 MetaCyc와 같은 기타 데이터베이스는, 유전자 서열이 공지되지 않은 효소에 대한 EC 숫자를 포함한다.
따라서, 데이터베이스에 의존하여, EC 숫자는 공지된 효소 유전자 서열의 존재를 표시하거나 하지 않을 수 있다. EC 숫자를 가진 반응의 대략 20-25%는 연관된 효소 코딩 서열을 가지지 않는다. 일부 경우에, EC 숫자는 여러 특정 화학 변형을 주석달기 위해 사용되어(EC 숫자와 화학 반응 사이에 일-대-다수 관계가 있다), EC 숫자와 연관된 효소 서열의 존재는 EC와 연관된 반응이 유효한 연관된 서열을 가지는 것을 의미하지 않는다. 따라서, 효소 활성에 대한 EC 태그의 존재는 그 효소에 대한 유전자 서열의 존재의 신뢰할만한 일반적인 표시가 아니지만, 서열이 그 효소에 대해 존재하는 것이 합리적으로 가능성이 높음을 결정하기 위한 특정 데이터베이스로 적용될 수 있다. 일부 데이터베이스는 또한 특정 화학 반응이 주어진 아미노산 서열에 의해 확실하게 촉진되는 것으로 알려지는 것을 명시적으로 설명하는 별도의 필드(예를 들어, UniProt에서 "촉매 활성" 필드)를 가진다(따라서, 효소 촉매를 코딩하기 위한 공지된 유전자 서열을 가짐). 이러한 반응은 본 명세서에서 "확실하게 서열화됨"으로 주석되는 것으로 나타난다.
예측 엔진(109)은 촉매가 숙주 세포에서 반응을 촉진하기 위해 허용가능한지 여부에 대하여 신뢰도를 결정할 수 있다(예를 들어, 반응을 촉진하기 위해 숙주 세포로 엔지어니링되기 위해 허용가능한지). 예를 들어, 효소 코딩 서열이 공지되는 것의 확실성 차이에 기반하여, 예측 엔진(109)은 일부 실시양태에서 반응 데이터 세트에서 주석에 대한 효소 코딩 서열을 찾는 "엄격한(strict)" 검색 또는 "완화된(relaxed)" 검색을 실행할 수 있다. 엄격한 검색을 위해, 예측 엔진(109)은, 예를 들어 명확하게 서열화되는 것으로 주석이 달린 반응만 선택할 수 있다.
실시양태에서, 하기 실시양태에 기재된 바와 같이, 예측 엔진(109)은 촉매가 반응을 촉매하는데 이용 가능한지에 대한 신뢰도에, 서열(예를 들어, 효소 아미노산 서열, 뉴클레오티드 서열)이 숙주 세포에서 원하는 기능을 가능하게 한다는 신뢰도(예를 들어, 기대값)를 고려할 수 있다.
완화된 검색을 위해, 예측 엔진(109)은, 예를 들어 공지된 효소 코딩 서열과 연관되는 EC 숫자를 가지는 것으로 주석이 달린 반응(불린(Boolean) 비-배제 OR) 또는 MetaCyc와 같은 데이터베이스로부터 유래된 주석으로부터 서열 데이터베이스에서 "명확하게 서열화되는" 것으로 주석이 달리는 반응을 선택할 수 있다. 예측 엔진(109)은 신뢰도의 둘 중 어느 수준을 위해서 반응을 위해 임의의 유전자 또는 아미노산 서열이 발견되는 것을 기록한다. 예를 들어 예측 엔진(109)은 반응이 완화된 검색을 만족하는 것으로 표시된 태그를 가지는 것으로 주석을 달 수 있다.
도 3은 본 발명의 실시양태에 따르는 MNXref 및 UniProt와 같은 데이터베이스에 대한 엄격한 및 완화된 효소 서열 검색을 실행하기 위해 예시적인 의사코드(pseudocode)를 예시한다. 의사코드는 효소를 위해 존재하는 서열인지 여부를 결정하기 위한 발견적 방법에 의해 사용된 논리를 설명한다. 이 실시양태는 4개의 신뢰 수준을 제공한다. 코드는 처음에 반응 데이터 센터 주석이 적어도 하나의 EC 숫자를 포함하는지 결정하는 것을 도시한다. 그러기 위하여, 이어서 코드는 EC 숫자를 위한 서열 데이터베이스를 검색하는 것을 요청한다. 엄격한 검색이 수행되는 경우, 이어서 코드는 명확하게 서열화되는 것인 반응을 위해 서열 데이터베이스를 검색하는 것이 요청된다. 완화된 검색이 수행되는 경우, 이어서 코드는 연관된 EC 숫자 및 TRUE를 가지는 반응을 위해 완화된 주석 태그를 설정한다.
시작 단계가 반응 데이터 세트 주석은 (a) EC 숫자를 포함하지 않거나, 또는 (b) (전술한 바와 같이) EC 서열 검색은 서열 데이터베이스로부터 EC 숫자를 발견하는 것을 결정하고 엄격한 검색이 수행된다면, 코드는 명확하게 서열화되는 반응을 위해 서열 데이터베이스를 검색하는 것을 요청한다. 저 검색이 반응이 명확하게 서열화되는 것을 발견한다면, 이어서 코드는 반응을 위해 엄격한(Strict) 및 완화된(Relaxed) 주석 둘 다를 진짜(TRUE)로 설정한다. 그렇지 않다면, 코드는 저 반응을 위한 주석들 둘 다를 가짜(FALSE)로 설정한다.
요약하면, 발견적 방법의 출력은 각 반응에 대한 엄격함(Strict) 및 완화됨(Relaxed) 두 개의 주석 태그이다. 이 발견적 방법은 하술되는 바와 같이 4개의 신뢰도 수준을 제공한다:
엄격함 = 진짜(TRUE) -> 매우 높은 신뢰도로 서열이 존재함
엄격함 = 가짜(FALSE) -> 중간 신뢰도로 서열이 존재하지 않음 (일부 가짜 음성이 예상됨)
완화됨 = 진짜(TRUE) -> 중간 신뢰도로 서열이 존재함 (일부 가짜 양성이 예상됨)
완화됨 = 가짜(FALSE) -> 매우 높은 신뢰도로 서열이 존재하지 않음
본 발명자들은 완화된 검색을 실행하면 20% 보다 적은 가짜 양성 비율을 야기하는 반면에, UniProt에서 촉매 활성 필드에 대한 엄격한 검색을 실행하면 현저한 가짜 음성 비율을 야기하는 것을 발견하였다. 그러므로, 완화된 검색의 측면에서 약간 틀리는 것이 더 나을 수 있다. "완화됨" 및 "엄격함" 태그는 단지 서열-기반의 필터링을 다루는 두 개의 가능한 방법이다. 생물도달가능 예측 도구는 표적 활성을 위한 적합한 모티프를 가진 서열의 존재를 확인하는 것과 같은 더욱 관대한 방법 또는 MetaCyc과 같은 중요하게 조직된 데이터베이스에서 직접적으로-문헌-지지된-활성-서열 연결의 존재를 요구하는 것과 같은 더욱 엄중한 방법을 포함하는, 임의의 서열-기반 태깅(및 따라서 필터링) 접근법으로 처리할 수 있다.
서열-기반 필터링의 대안으로서 또는 추가하여, 예측 엔진(109)은 반응 방향성 또는 반응이 자발적인 반응, 운송 반응인지, 또는 할로겐을 함유하는지 여부와 같은, 주석 엔진(107)에 관하여 상기에서 논의된 주석의 임의의 조합에 기반한 반응을 필터링할 수 있다(즉, 선택 또는 선택하지 않을 수 있다). 예측 엔진(109)은 사용자 인터페이스(102) 또는 디폴트 설정을 통하여 사용자 구성에 기반한 필터링을 수행할 수 있다. 실시양태에서, 예측 엔진(109)은 시뮬레이팅된 대사 경로를 따라 상이한 반응 단계에서 상이한 필터를 적용할 수 있고, 이들은, 반응이 완화된 기준에 기반하여 서열을 가지는지; 모든 운송 반응을 배제하는지; 반응이 서열을 가진다면 할로겐을 함유하는 반응만 포함하는지; 상기 특성과 관련없이 모든 자발적인 반응을 포함하는지일 수 있다.
반응이 자발적이라면, 반응은 숙주 유전체를 엔지니어링하여 효소를 생산하여 자발적인 반응을 촉진할 필요 없이 자동적으로 일어날 것이다. 반응은 주어진 숙주를 위해 주어진 조건 하에서 발생하는 것으로 공지되어 있기 때문에, 예측 엔진(109)은 자발적 반응 생산물이 생산될 것을 예상할 수 있다.
상기 기재된 바와 같이, 무기 분자는 탄소를 기여하지 않고, 유비쿼터스 분자는 표적 대사산물에 탄소를 기여할 가능성이 없다. 따라서, 출발 대사산물로서 사용되는 것들로부터 유비쿼터스 및 무기 분자를 제거하는 것은 예측 엔진(109)이 실행가능한 표적 분자를 예측하는데에 있어서 유효한 대사 경로를 따를 것으로 높은 신뢰도를 체험적으로 제공한다. 따라서, 예측 엔진(109)은 반응에 제한된 것으로 유비쿼터스 또는 무기 분자를 처리하지 않는다. 즉, 그들은 그들이 참여하는 반응에 항상 허용가능할 가능성이 높은 것으로 추측된다.
대사산물 예측
도 2를 참조하면, 예측 엔진(109)은 필터링된 RDS에서 반응에 따라 처리된 입력 대사산물의 기질이 주어진다면 어떤 대사산물이 형성되는지 예측하기 위해 단계별 시뮬레이션을 수행할 수 있다(208). (화학 반응은 화학 생성물을 생산하기 위해 입력 "기질"(예를 들어, 분자의 세트) 상에 작동한다.) 본 발명의 실시양태의 예측 엔진(109)의 작동은 하기와 같이 서술될 수 있다:
단계 0: 초기에는, 시뮬레이팅된 숙주 세포에 코어 대사산물만 존재한다. 그들은 다음 단계에서 반응을 위해 현재 기질을 형성한다.
단계 1 : 예측 엔진(109)은 단계 0으로부터 코어 대사산물이 필터링된 반응 세트(RDS) 내에서 임의의 화학 반응의 한 측면과 일치하는지, 및 반응이 (방향성/열역학 주석에 기반하여) 주어진 방향으로 일어날 수 있는지 결정하고, 따라서 어떤 반응이 반응 방정식의 다른 측면 상에 화학물질을 생산하도록 촉발할 것인지 결정한다(208). 예측 엔진(109)은 어떤 임의의 새로운 대사산물이 촉발된 반응에 의해 생산되는지를 결정한다(210).
예측 엔진(109)은 새로운 대사산물이 예측되지 않는다고 결정하면(210), 이어서 예측 엔진(109)은 예측 과정을 종료하고, 결과를 보고한다(212).
반대로, 만일 예측 엔진(109)이 새로운 대사산물이 형성된다고 결정하면(210), 예측 엔진(109)은 새로운 대사산물을 기질 풀(pool)에 추가한다(214). 업데이트된 기질 풀은 이제 코어 대사산물 및 단계 1로부터 새롭게 예측된 대사산물을 포함한다.
예측 엔진(109)은 대사산물 및 각 단계에서 촉발된 반응을 기록하고, 필터링된 RDS로부터 촉발된 반응을 또한 제거한다(단계 216). 이 제거는 동일한 반응이 후속적인 단계에서 촉발되는 것을 예방하여, 반응 및 그의 생성된 대사산물이 후속적인 단계에서 존재하는 것으로 확인되는 것을 피한다. 각 단계는 과정의 모든 단계를 통하여 단 한번 시뮬레이팅된다. 이는 대사산물에 도달하기 위한 가장 짧은 경로(가장 적은 수의 단계)에 집중하는 가장 훌륭한 실행을 엔지니어링하며 행동하고, 동일한 대사산물로의 더 긴 경로는 전형적으로 부최적(suboptimal)이다. 대사산물 및 각 단계 내에서 반응과 함께, 예측 엔진(109)은 대사산물이 만들어지는(즉, 만들어질 것으로 예측되는) 단계를 기록한다. 그 단계는 대사산물을 생성하는데까지 대사 경로 길이를 나타낸다. 대사산물은 구별되는 반응을 통하여 생성된다면 여러 단계에서 생산물로서 나타날 수 있음을 유의한다. 이 사실은 예측 엔진이 동일한 대사산물이 구별되는 반응에 의해 도달되는 구별되는 경로를 확인하는 것을 허용한다.
단계 2: 예측 엔진(109)은 이어서 필터링된 RDS에 대항하여 실행하기 위해 입력으로서 업데이트된 대사산물의 기질 풀을 사용하여 임의의 반응이 새로운 대사산물을 생산하기 위해 촉발할 수 있는지 여부를 예측하기 위해 단계(208)로 돌아온다.
여러 번의 반복 후, 대사산물의 풀은 성장하는 반면에 허용가능한 반응의 풀이 줄어든다. 결국, 필터링된 RDS에 남아 있는 반응을 촉발할 수 있는 대사산물이 더 이상 남지 않기 때문에, 처리는 포화될 때까지 실행될 수 있다. 본 발명자들에 의한 실험에서, 대략 10,000개의 필터링된 반응이 모든 반복 후에 수 천개의 대사산물을 야기할 수 있다. 다르게는, 예측을 멈추고 결과를 보고하기 전에 구성되어 예측 엔진(109)이 수많은 허용된 반응 단계를 구체화할 수 있다(212). 반응 단계의 횟수에 대한 제한은 실제 엔지니어링을 반영하고, 이는 전형적으로 사이클 수를 제한할 것이다.
도 4 및 도 5는 본 발명의 실시양태에 의해 생성될 수 있는 보고의 예를 예시한다. 도 4는, 각 처리 단계에 대하여, 생성된 대사산물(생물도달가능 이름), 그들의 화학 구조식, 대사산물의 유형(예를 들어, 코어, 전구체, 반응에 의해 생산된 후보 생물도달가능), 공지된 데이터베이스에서 사용되는 ID와 같이 고유의 반응 ID에 의해 표시된 대사산물의 반응 족보(또한 반응의 왼쪽("L") 또는 오른쪽("R")이 촉발되는지 도시한다), 후보 생물도달가능 분자를 생산하기 위해 가장 가까운 코어 대사산물로부터 필요한 반응 단계의 횟수, 및 각 후보 생물도달가능 분자로부터 가장 가까운 코어 대사산물의 이름을 도시한다. 단계 0에서 단지 분자만이 출발 대사산물 리스트(예를 들어, 코어, 전구체)에 있음을 주의한다.
도 5는 반응 족보 추적의 가설적인 예를 예시한다. 단계별 반응은 다음과 같다:
단계 1: A + B <--> C + D
단계 2: C + B <--> E + F
단계 3: D + E <--> G + H
이 예에서 특징은: 단계에서 생성된 대사산물이 코어인지; 대사산물이 발견되는 단계가 발견되는지; 단계의 수에서 거리에 의해 측정된 생성된 대사산물에 가장 가까운 코어 대사산물; 및 대사산물을 생산하기 위해 촉발된 화학 반응을 나타낸 반응 족보를 포함한다. 대사산물 A는 코어 대사산물이고, B는 단계 0에서 숙주의 생체량에 존재하는 전구체 대사산물이다. 따라서, 반응 족보를 가지지 않는다.
C 및 D는 반응 족보에서 반응 A + B에 의해 단계 1에서 생산되는 것으로 도시된다(원천 반응). C 및 D에 가장 가까운 코어은 A이다. C 및 D는 코어 A 및 B에 따라 기질에 추가된다.
E 및 F는 반응 C + B에 의해 단계 2에서 생산되는 것으로 도시된다. E 및 F에 가장 가까운 코어은 A이다. E 및 F는 코어 A 및 B 및 생물도달가능 생산물 C 및 D에 따라 기질에 추가된다.
G 및 H는 반응 D + E에 의해 단계 3에서 생산되는 것으로 도시된다. G 및 H에 가장 가까운 코어은 A이다.
본 발명의 실시양태는 각 대사산물에 대한 경로(또한 반응의 "족보" 서열로 알려짐)를 하기와 같이 산출할 수 있다:
C: A + B→
D: A + B→
E: A + B→; C + B→
F: A + B→; C + B→
G: A + B→; C + B→; D + E→
H: A + B→; C + B→; D + E→
경로 필터링. 실시양태에서, 숙주 세포, 표적 분자, 및 주어진 표적 분자를 야기하는 경로의 반응 족보가 주어지면, 예측 엔진(109)은 경로를 선택적으로 필터링하여 경로 길이(예를 들어, 출발 대사산물로부터 표적 분자로의 반응 처리 단계의 숫자)와 같은 주어진 파라미터에 기반한 경로를 확인할 수 있다. 예측 엔진(109)은 출력으로서 확인된 반응 경로를 나타내는 데이터를 제공할 수 있다.
숙주 세포 선택. 하나의 숙주 세포를 부여하는 실행가능한 표적 분자를 결정하는 대신에, 주어진 실행가능한 표적 분자를 생산하는 하나 이상의 숙주 세포를 확인하는 것이 바람직할 수 있다. 실시양태에서, 예측 엔진(109)은 하나의 숙주 세포가 아닌 복수의 숙주 세포에 대하여 상술한 방법에 따라서 실행가능한 표적 분자를 나타내는 데이터를 생성한다. 이러한 실시양태에서, 주어진 실행가능한 표적 분자에 대하여, 예측 엔진(109)은 적어도 하나의 기준을 만족시키는 적어도 하나의 복수의 숙주 세포를 결정한다. 예를 들어, 반응 족보 데이터를 사용하여, 예측 엔진(109)은 숙주 세포에서 주어진 실행가능한 표적 분자를 생산하기 위해 필요한 것으로 예측되는 처리 단계의 수에 기반하여 숙주 세포를 선택할 수 있다. 또 다른 예로서, 예측 엔진(109)은 숙주 세포에 의해 생산된 실행가능한 표적 분자의 예측된 수율에 기반하여 숙주 세포를 선택할 수 있다. 예측된 수율은 각각의 가능한 숙주에 대하여 분리된 모델에 기반하여 플럭스-밸런스 분석(FBA, Flux-Balance Analysis), 단순 원소 수율 모델 및 전구체-기반한 백분율 수율 예측을 포함한 수많은 방법에서 유래될 수 있다. 예측 엔진(109)은 출력으로서, 적어도 하나의 기준을 만족시키기 위한 숙주 세포를 나타내는 데이터를 제공한다.
상술한 실시양태에 대해 기재된 바와 같이, 예측 엔진(109)은 각각의 숙주 세포에 의해 생산된 각각의 표적 분자를 야기하는 하나 이상의 반응 경로(즉, 족보)의 기록을 생성할 수 있다. 복수의 숙주 세포에 대한 도구를 실행하는 상기 실시양태를 기반으로, 반응 주석 엔진(107)은 숙주 세포 및 표적 분자 사이의 연관, 및 라이브러리로서 데이터베이스에서 족보, 수율, 처리 단계의 수, 반응 경로에서 반응을 촉진하는 촉매의 허용가능성, 등과 같은 파라미터를 구체화하는 주석을 포함할 수 있다. 대안적으로, 라이브러리는 제 3 자로부터 획득될 수 있다.
실시양태에서, 만일 예측 엔진(109)이 이러한 라이브러리로 접근을 가진다면, 도구는 주어진 실행가능한 표적 분자를 생산하는 여러 개의 숙주 세포를 확인하기 위해 실행될 필요가 없다. 대신에, 이러한 실시양태에서, 예측 엔진(109)은 숙주, 표적 분자, 및 반응 사이에 연관에 관련된 주석 데이터를 포함할 수 있다. 예측 엔진(109)은 적어도 부분적으로 예를 들어 라이브러리 또는 공개 또는 독점 데이터베이스로부터 증거에 기반한 하나 이상의 숙주 세포들 사이에서 적어도 하나의 표적 숙주 세포를 확인할 수 있고, 따라서 적어도 하나의 표적 숙주 세포에서 표적 분자의 생산으로 야기하는 적어도 하나의 반응 경로에서 반응을 촉진하기 위해 예측된 모든 촉매는 적어도 하나의 반응 경로에서 모든 이러한 반응을 촉진하는데 허용가능할 가능성이 높다. 실시양태에서, 예측 엔진(109)은 표적 분자를 생산하기 위해 필요한 것으로 예측되는 반응 경로 내에서 반응 단계의 역치 숫자보다 적게 요구되는 표적 숙주에 기반하여 표적 숙주를 결정할 수 있다.
생물자원탐사. 일부 반응 효소는 EC 숫자를 가지고, 잘 특성화(그들의 반응물질 및 생산물이 공지됨)될 수 있지만, 공지된 연관된 아미노산 서열 또는 유전자 서열을 가지지 않을 수 있다("오펀 효소(orphan enzyme)"). 이러한 경우에, 예측 엔진(109)은 오펀 효소를 생물자원탐사하여 그들의 아미노산 서열 및 궁극적으로 그들의 유전자 서열을 예측하여, 새롭게 서열화된 효소는 숙주 세포로 엔지니어링되어 하나 이상의 반응을 촉진할 수 있다. 예측 엔진(109)은 이어서 새롭게 서열화된 효소에 상응하는 반응을 필터링된 반응 데이터의 구성원으로서 지정할 수 있다. 실시양태에서, 예측 엔진(109)은 당 분야에 공지된 기법을 사용하여 오펀 효소를 생물자원탐사한다. 예를 들어, 하나의 팀은 서열을 확인하기 위하여 (서열 유사성 네트워크 및 오페론 문맥 분석을 포함한) 분석 및 컴퓨터 방법에 기반한 질량-분석법에 의해 적은 수의 오펀 효소에 대하여 아미노산 서열을 결정하였다. 이어서 팀은 새롭게 결정된 서열을 사용하여 많은 이전에 특성분석되지 않거나 주석이 잘못 달린 촉매 기능을 더욱 정확하게 예측하였다. 본 명세서에서 전체가 참조로 인용된 논문 [Ramkissoon KR, et al. (2013) Rapid Identification of Sequences for Orphan Enzymes to Power Accurate Protein Annotation, PLoS ONE 8(12): e84508. doi: 10.1371/journal. pone.0084508]; 또한 논문 [Shearer AG, et al. (2014) Finding Sequences for over 270 Orphan Enzymes. PLoS ONE 9(5): e97250. doi: 10.1371/journal.pone.0097250]; 및 논문 [Yamada T, et al., Prediction and identification of sequences coding for orphan enzymes using genomic and metagenomic neighbours genomic and metagenomic neighbours, Molecular Systems Biology 8:581]을 참조.
유전체 엔지니어링. 본 발명의 실시양태는 숙주 세포에서 기능을 가능하게 하는 생물학적 서열을 확인하고, 숙주 세포가 (예를 들어, 서열을 숙주 세포 유전체로 엔지니어링함으로써) 확인된 생물학적 서열을 사용하여 분자를 생성할 수 있게 한다. 생물도달가능 예측 도구는, 화학자, 재료 과학자 등에게, 그들은 고객과 같이 제 3 자일 수 있는데, 생물도달가능 후보 분자(실행가능한 표적 분자)의 리스트를 제공할 수 있다. 그들의 표적 분자의 선택에 기반하여, 사용자는 도구를 유전자 제조 시스템에 효소 또는 각각의 선택된 표적 분자를 야기하는 반응 경로에서 반응을 촉진하는 다른 촉매에 대하여 유전자 서열의 표시를 제공하도록 표시할 수 있다. 유전자 제조 시스템은 이어서 숙주의 유전체로 표시된 유전자 서열을 (예를 들어, 삽입, 대체, 결실을 통하여) 구현함으로써 실행가능한 표적 분자의 제조를 위해 엔지니어링된 유전체를 생산할 수 있다. 실시양태에서, 유전자 제조 시스템은 시스템 및 당 분야에 공지된 기법에 의해, 또는 본 명세서에서 전체가 참조로서 통합된 "미생물 균주 디자인 시스템 및 엔지니어링된 뉴클레오티드 서열의 개선된 대규모 생산을 위한 방법(Microbial Strain Design System and Methods for Improved Large Scale Production of Engineered Nucleotide Sequences)"라는 제목의 2016년 4월 27일 출원되고, 2017년 11월 2일 공개된 계속 중인 미국 특허 출원 No. 15/140,296에서 개시된 팩토리(210)에 의해 사용하여 구현될 수 있다. 해당 출원에 기재된 바와 같이, 유전자 제조 시스템은 입력 설계를 기반으로 DNA 서열을 조립하기 위해 Gibson 및 Golden Gate 어셈블리 프로토콜과 같은 알려진 기술을 사용할 수 있다. DNA 구조는 전형적으로 원형화되어 기본 균주에 삽입하기 위한 플라스미드를 형성한다. 유전자 제조 시스템에서, 기본 균주는 조립된 플라스미드를 수용하기 위해 준비된 다음 삽입된다. 입력 정보에는 제조의 시작, 중간 및 최종 단계에서 사용할 기술이 포함될 수 있다. 예를 들어, 많은 실험실 프로토콜에는 주형 서열과 두개의 프라이머 서열이 필요한 PCR 증폭 단계가 포함된다. 당업계에 알려진 바와 같이, 유전자 제조 시스템은 부분적으로 또는 전체적으로 로봇 자동화를 사용하여 구현될 수 있다. 실시양태에서, 유전자 서열을 숙주로 구현하는 것에 추가로 또는 그 대체물로서, 예측 엔진(109)은 팩토리에 대해 하나 이상의 촉매의 표시를 팩토리로 제공하여 표적 분자의 생산을 위해 숙주 세포의 성장 배지로 하나 이상의 촉매를 도입한다.
관심 생성물의 생산. 본 발명의 실시양태는 천연 또는 엔지니어링된 유전체를 갖는 기본 균주로부터 생존 가능한 표적 분자 또는 기타 관심 생성물을 생성하기 위해 잘 알려진 기술을 사용한다. 본 발명의 실시양태에 따르면, 유기체는 발효를 위해 공급 원료를 함유하는 생물 반응기로 이동된다. 제어된 조건 하에서, 유기체는 발효되어 조립된 DNA를 기반으로 원하는 관심 생성물(예를 들어, 소분자, 펩티드, 합성 화합물, 연료, 알코올)을 생성한다.
상이한 유형의 미생물은 광합성(광영양 조류) 또는 발효(종속영양 조류)를 통한 미세조류뿐만 아니라 최종 생성물로 설탕 화합물을 발효시키는 박테리아 및 효모를 포함하여 산업 생명공학에서 플랫폼 유기체로 기능할 수 있다.
박테리아 또는 기타 세포는 원하는 생합성 반응 또는 선택을 위해 적절하게 수정된 기존의 영양 배지에서 배양할 수 있다. 온도, pH 등과 같은 배양 조건은 발현을 위해 선택된 숙주 세포와 함께 사용하기에 적합한 조건이며, 당업자에게 명백할 것이다. 박테리아, 식물, 동물(포유류 포함) 및 고세균 기원의 세포를 포함하여 세포의 배양 및 생산에 대한 많은 참고문헌이 이용가능하다. 예를 들어, Sambrook, Ausubel (all supra)는 물론 Berger, Guide to Molecular Cloning Techniques, Methods in Enzymology volume 152 Academic Press, Inc., San Diego, CA; 및 Freshney (1994) Culture of Animal Cells, a Manual of Basic Technique, third edition, Wiley-Liss, New York 및 여기에 인용된 참고문헌; Doyle and Griffiths (l997)Mammalian Cell Culture: Essential Techniques John Wiley and Sons, NY; Humason (1979) Animal Tissue Techniques, fourth edition W.H. Freeman and Company; 및 Ricciardelle et al., (1989) In Vitro Cell Dev. Biol. 25: 1016-1024, 이들 모두는 본 발명에 참조로 포함된다. 식물 세포 배양 및 재생의 경우, Payne et al. (1992) Plant Cell and Tissue Culture in Liquid Systems John Wiley & Sons, Inc. New York, N.Y.; Gamborg and Phillips (eds) (1995) Plant Cell, Tissue and Organ Culture; Fundamental Methods Springer Lab Manual, Springer-Verlag (Berlin Heidelberg N.Y.); Jones, ed. (1984) Plant Gene Transfer and Expression Protocols, Humana Press, Totowa, N.J. 및 Plant Molecular Biology (1993) R.R. D. Croy, Ed. Bios Scientific Publishers, Oxford, U.K. ISBN 0 12 198370 6, 이들 모두는 본 발명에 참조로 포함된다. 일반적으로 세포 배양 배지는 Atlas and Parks (eds.) The Handbook of Microbiological Media (1993) CRC Press, Boca Raton, Fla.에 설명되며, 이는 본 발명에 참조로 포함된다. 세포 배양에 대한 추가 정보는 Life Science Research Cell Culture Catalogue from Sigma-Aldrich, Inc (St Louis, Mo.) ("Sigma-LSRCCC") 및 예를 들어, The Plant Culture Catalogue and supplement also from Sigma-Aldrich, Inc (St Louis, Mo.) ("Sigma-PCCS")와 같은 이용가능한 상업 문헌에서 확인되며, 이들 모두는 본 발명에 참조로 포함된다.
사용되는 배양 배지는 적절한 방식으로 각 균주의 요구를 만족시켜야 한다. 다양한 미생물에 대한 배양 배지에 대한 설명은 미국 세균 학회(Washington D.C., USA, 1981)의 "Manual of Methods for General Bacteriology"에 있으며, 본 발명에 참조로 포함된다.
합성된 세포는 원하는 유기 화합물을 생산할 목적으로 연속적으로 또는 배치 공정(배치 배양) 또는 유가(fed-batch) 또는 반복 유가 공정으로 불연속적으로 배양될 수 있다. 알려진 배양 방법에 대한 일반적인 성격의 요약은 Chmiel의 교과서(Bioprozeβtechnik. 1: Einfuhrung in die Bioverfahrenstechnik (Gustav Fischer Verlag, Stuttgart, 1991)) 또는 Storhas의 교과서(Bioreaktoren and periphere Einrichtungen (Vieweg Verlag, Braunschweig/Wiesbaden, 1994))에서 볼 수 있d으으며, 이들 모두는 본 발명에 참고로 포함된다.
고전적 배치 발효는 폐쇄 시스템이며, 여기서 배지의 조성은 발효 초기에 설정되고 발효 동안 인공적인 변경을 받지 않는다. 배치 시스템의 변형은 유가 발효이다. 이 변형에서 기질은 발효가 진행됨에 따라 증분으로 추가된다. 유가 시스템은 이화 생성물(catabolite) 억제가 세포의 대사를 억제할 가능성이 있고 배지에 제한된 양의 기질을 갖는 것이 바람직한 경우에 유용한다. 배치 및 유가 발효는 일반적이며 당업계에 잘 알려져 있다.
연속 발효는 정의된 발효 배지를 생물 반응기에 연속적으로 첨가하고 원하는 생체분자 생성물의 처리 및 수확을 위해 동일한 양의 조절 배지를 동시에 제거하는 시스템이다. 연속 발효는 일반적으로 세포가 주로 로그 단계 성장에 있는 일정한 고밀도로 배양을 유지한다. 연속 발효는 일반적으로 배양을 고정 또는 후기 로그/고정, 단계 성장으로 유지한다. 연속 발효 시스템은 안정된 상태의 성장 조건을 유지하기 위해 노력한다.
연속 발효 공정을 위한 영양소 및 성장 인자를 조절하는 방법 및 생성물 형성 속도를 최대화하기 위한 기술은 산업 미생물학 분야에 잘 알려져 있다.
예를 들어, 세포 배양을 위한 탄소 공급원의 비 제한적인 목록에는 설탕 및 탄수화물, 예를 들어 포도당, 수크로스, 락토스, 과당, 말토오스, 당밀, 사탕무 또는 사탕수수 가공으로부터의 수크로스 함유 용액, 전분, 전분 가수 분해물 및 셀룰로오스; 예를 들어, 대두유, 해바라기유, 땅콩유 및 코코넛 지방과 같은 유지류; 예를 들어, 팔미트산, 스테아르산 및 리놀레산과 같은 지방산; 예를 들어, 글리세롤, 메탄올 및 에탄올과 같은 알코올; 및 예를 들어, 아세트산 또는 젖산과 같은 유기산이 포함된다.
질소 공급원의 비 제한적인 목록에는 펩톤, 효모 추출물, 육류 추출물, 맥아 추출물, 옥수수 침지액, 대두 분 및 요소와 같은 유기 질소 함유 화합물; 또는 황산 암모늄, 염화 암모늄, 인산 암모늄, 탄산 암모늄 및 질산 암모늄과 같은 무기 화합물이 포함된다. 질소 공급원은 개별적으로 또는 혼합물로 사용할 수 있다.
가능한 인 공급원의 비 제한적인 목록은 인산, 인산 이수소 칼륨 또는 인산 수소 이칼륨 또는 상응하는 나트륨 함유 염을 포함한다.
배양 배지는 예를 들어, 나트륨, 칼륨, 마그네슘, 칼슘 및 철, 예를 들어, 황산 마그네슘 또는 황산 철과 같은 금속의 염화물 또는 황산염 형태의 염을 추가로 포함할 수 있다.
마지막으로, 아미노산, 예를 들어 호모세린 및 비타민, 예를 들어 티아민, 비오틴 또는 판토텐산과 같은 필수 성장 인자가 상기 언급된 물질 이외에 사용될 수 있다.
일부 실시양태에서, 배양물의 pH는 수산화나트륨, 수산화칼륨, 암모니아 또는 수성 암모니아; 또는 적절한 방식으로 인산 또는 황산과 같은 산성 화합물을 포함하나 이에 제한되지 않는 임의의 산 또는 염기, 또는 완충 염에 의해 제어될 수 있다. 일부 실시양태에서, pH는 일반적으로 6.0 내지 8.5, 바람직하게는 6.5 내지 8의 값으로 조정된다.
배양물은 예를 들어, 지방산 폴리글리콜 에스테르와 같은 소포제를 포함할 수 있다. 예를 들어, 항생제와 같은 적합한 선택적 물질을 첨가함으로써 배양물을 변형시켜 배양물의 플라스미드를 안정화시킬 수 있다.
배양은 호기성 또는 혐기성 조건 하에서 수행될 수 있다. 호기성 조건을 유지하기 위해, 산소 또는 공기와 같은 산소 함유 가스 혼합물이 배양물에 도입된다. 마찬가지로 과산화수소가 풍부한 액체를 사용하는 것도 가능한다. 발효는 적절한 경우, 상승된 압력, 예를 들어 0.03 내지 0.2MPa의 상승된 압력에서 수행된다. 배양물의 온도는 일반적으로 20℃ 내지 45℃, 바람직하게는 25℃ 내지 40℃, 특히 바람직하게는 30℃ 내지 37℃이다. 배치 또는 유가 공정에서, 회수에 충분한 양의 원하는 관심 생성물(예를 들어, 유기-화학적 화합물)이 형성될 때까지 배양을 계속할 수 있다. 이 목표는 일반적으로 10시간 내지 160시간 이내에 달성할 수 있다. 연속 공정에서, 더 긴 배양 시간이 가능한다. 미생물의 활성은 발효 배지 및/또는 상기 미생물의 세포에서 관심 생성물의 농축(축적)을 초래한다.
경로 예측 예시
예측 엔진(109)은 본 발명의 실시양태에 따라 경로에서의 반응을 촉매화하거나 표적 분자에 도달하기 위해 숙주로 엔지니어링될 가능성이 있는 촉매를 사용하는 반응의 모든 경로를 예측할 수 있다. 예측 엔진(109)은 또한 예측 엔진(109)에 의해 생성될 수 있는 코어과 같이 정량 정보 또는 정성 정보에 기반한 분자의 제조를 시도하기 위해 예측된 경로들로부터 선택하기 위해 사용될 수 있다.
반응 라벨 및 카테고리
반응 세트는 이 특허 출원의 다른 부분에서 기재된 바와 같이, 필터링되고 라벨링될 수 있다. 예를 들어, 반응은 유전자 서열이 입수 가능하고 그들이 유전자 서열을 가질 가능성이 높음을 나타내기 위해 "서열 완화됨"으로 라벨링되거나, 또는 유전자가 자연에 존재하고 실험적으로 특성화되어야 할 필요가 있음을 나타내기 위해 그들은 "오펀으로 특성화됨"으로 라벨링될 수 있다. 반응은 그들의 질량 및 에너지 밸런스, 또는 다른 특성을 반영하기 위해 유사하게 라벨링될 수 있다.
또한, 생물도달가능 예측 도구는 반응이 열역학적 데이터에 기반한 작동할 가능성이 높은 방향으로 계산할 수 있다.
표적 분자를 생성하기 위한 반응의 처리 동안, 반응 주석 엔진(107)은 열역학적으로 유리한 방향으로, 또는 열역학적으로 불리한 방향으로 반응에 의해 표적 분자의 생산이 일어나는지 여부를 표시할 수 있다.
이들 열역학적 결과 및 다른 모든 반응 라벨은 반응 주석 엔진(107)에 의해 사용되어 생물도달가능 예측 도구의 주어진 실행에 의해 생산된 분자 및 족보를 태깅할 수 있다. 예를 들어, 반응을 촉진하기 위한 효소를 생산하기 위해 열역학적으로 불리한 반응 및 공지된 유전자가 부족한 두 개의 반응을 함유하는 다섯-단계 족보는 다음과 같이 라벨링될 수 있다:
경로 길이: 5
불리한 반응: 1
유전자 부족 반응: 2
이들 라벨들은 이어서 예측 엔진(109)에 의해 사용되어 각각의 반응에 점수를 줄 수 있다. 또한 그들은 출력의 하부섹션 상에서 분류하고 작동하기 위해 사용될 수 있고, 그들은 주어진 숙주에 대한 주어진 분자의 엔지니어링 가능성으로 직접적인 통찰력을 제공한다.
후술될 예에서, 생물도달가능 예측 도구는 표적 분자를 확인하고, 이들 표적 분자에 도달하기 위해 사용될 수 있는 예측된 경로를 표시하기 위해 사용되었다.
경로 생산 및 평가로 통합되었던 열역학 데이터는 그룹 기여 방법을 사용하여 생성되었지만, 임의의 숫자의 대사 데이터베이스로부터 유래될 수 있었다.
예측 엔진(109)은 본 명세서에 개시된 점수 방법을 사용하여 생성된 연관된 점수를 각각의 가능한 경로에 부여할 수 있다. 이들 점수는 표적 분자를 만들기 위해 엔지니어링하기 위한 시도에 경로 변이에 관하여 결정을 알려주기 위해 사용될 수 있다.
실시양태에서, 예측 엔진(109)은 100점의 최적 점수에서 시작하고 디자인 실패의 어려움 또는 위험을 추가하는 경로 특징에 대하여 점수를 뺄 수 있다. 예를 들어, 경로 길이는 디자인 위험과 경로 길이 상관관계가 있고, 전체 점수는 경로 길이가 증가함에 따라 감소될 수 있다. 예를 들어, 예측 엔진(109)은 경로 길이에서 각각의 추가적인 단계에 대하여 하나 이상의 점수를 뺄 수 있다.
티라민
도 8은 본 발명의 실시양태를 따라, 티라민을 생산하기 위해 예측 엔진(109)에 의해 확인된 경로를 예시한다. 티라민의 경우에서, 하나의 반응 단계(R1)로 구성된 단일한 경로가 예측되었다. 도시된 열역학 데이터에 기반한 계산된 반응에 의존한다. 도시된 경로는 가열적인 것으로 열역학적 데이터에 기반하여 계산되는 반응 상에 의존하고, 이는 티라민을 생성하기 위해 요구되는 방향에서 작동할 수 있는 것을 의미한다.
경로도에서, 검은 화살표는 바람직한 분자(여기서는 티라민)를 생성하기 위해 경로에서 반응에 요구되는 반응 방향을 나타낸다. 흰 화살표는 반응에 대해 계산된 열역학 방향을 나타낸다. 요구되고 계산된 반응 방향이 일치하는 경우, 경로는 타당하다.
이 단일 경로는 다른 부분에 개시된 측정법(metric)에 의해 100점을 득점한다.
(S)-2,3,4,5-테트라하이드로디피콜리네이트(THDP)
도 9에 도시된 바와 같이, 생물도달가능 예측 도구는 본 발명의 실시양태에 따라 THDP를 생성하기 위한 두 가지 가능한 2-단계 경로를 예측한다. 두 경로는 이들 실시양태에서 97점의 동일한 점수를 달성한다.
경로는 동일한 제 1 반응(R1)을 공유하고, 제 2 반응(R2 또는 R3)에서 상이하다. 이 경우에, 이들 반응은 그들이 사용하는 환원 공통인자의 형태, 예를 들어 NADH 대 NADPH가 상이하다. 경로가 동일한 점수를 획득하더라도, 이들 공통인자 차이는 엔지니어링 목적에 관련되고, 따라서 생물도달가능 예측 도구의 실시양태에서 제시되어 설계 결정을 안내하는 것을 돕는다. 전형적으로, 한 공통인자(NADH 또는 NADPH 둘 중의 하나)가 각각의 주어진 숙주 세포에서 훨씬 더 풍부하게 존재한다. 따라서, 실시양태에서, 당업자는 더 풍부한 공통인자를 사용하는 경로를 선택하여, THDP를 생산할 수 있다. 다른 실시양태에서, 예측 엔진(109)은 데이터베이스로부터 검색하고 표적 분자 점수를 계산하기 위한 엔지니어링가능성 상에 공통인자의 영향력에 관한 정보를 고려할 수 있으므로, 이로써 경로의 공통인자의 인간 검토에 대한 요구를 배제한다.
가상적인 분자 "F"에 대한 예시적인 예측된 경로
또 다른 예에서, 생물도달가능 분자 "F"에 대하여, 생물도달가능 예측 도구는 도 10에서 예시한 바와 같이 3가지 가능한 경로를 예상하였다.
제 1 경로는 2 단계 길이이고, 저-신뢰도 오펀 반응(R2)을 포함하여, 58점의 점수를 획득한다. 저-신뢰도 오펀 반응은 상응하는 DNA 서열이 폭넓은 특이적 연구 없이 쉽게 입수할 가능성이 낮은 오펀 효소에 의해 촉진된 반응이다. 따라서, 많은 점수가 오펀 효소에 대해 차감된다.
두 번째 경로는 3 단계 길이이고, 오직 진핵세포 유전자만 허용가능한 한 반응(R4)을 포함하여, 92점의 점수를 획득한다. 점수는 전체 경로 길이 때문에, 그리고 R4에 대한 유전자 소싱에서 제한 때문에 제한다.
세 번째 경로도 또한 3 단계 길이이고, 다른 3 단계 반응과 공통인 두 개의 반응(R3 및 R4)을 가진다. 또한 오직 진핵세포 유전자만 허용가능한 한 반응(R4) 및 엔지니어링 효소를 요구하는 또 다른 반응(R5)을 가져, 82점의 점수를 야기한다. 또한, 이 경로는 경로 점수에 영향이 없지만, 구체적인 숙주 및 용도에 대하여 경로가 가장 양호한 맞는지 결정할 때 고려사항인 출발 코어 대사산물의 대안적인 세트(A + B 대신 K + L)를 가진다.
이 예시에서, 생물도달가능 예측 도구의 예측 엔진(109)으로부터 득점 출력은 단순한 경로 길이를 넘어선 중요한 엔지니어링 정보를 제공한다. 가장 짧은 경로(#1)가 가장 양호한 것이라는 직관에도 불구하고, 각각의 반응에 대한 주석 엔진(107)에 의해, 그리고 필터링 또는 처리 동안 생물도달가능 예측 도구에 의해 수집된 정보는 더 긴 경로(#2 및 #3)가 엔지니어링하기에 더 실행가능할 수 있다는 것을 나타낸다. 예를 들어, 반응 주석 엔진(107)은 일부 반응에 대하여 촉매가 오직 고-위험 카테고리(예를 들어, 저-신뢰도 오펀, 엔지니어링된 효소)에서 입수가능하다는 것을 결정할 수 있고, 예측 엔진(109)은 짧은 경로는 고-위험 카테고리에 의존하는 반면에, 긴 경로는 그렇지 않고, 이는 더 긴 경로가 엔지니어링하기에 더 실행가능할 수 있다는 것을 결정할 수 있다.
테트라하이드로디피콜리네이트 득점표
본 발명의 실시양태에 따라, 예측 엔진(109)은 표적 분자를 생산하는 어려움을 점수내기 위해 생성되는 정보를 사용한다. (반대로, 점수는 분자를 생산하는 용이함을 나타내는 것으로 보일 수 있다.) 이 점수는 본 명세서에서 "분자 점수", "표적 분자 점수", 또는 "전체 경로 점수"로 상호교환가능하게 지칭된다.
예시로써, 도 11a 및 도 11b는 함께 어떻게 예측 엔진(109)이 테트라하이드로디피콜리네이트(THDP)의 생산을 점수낼 수 있는지 예시하는 표를 제공한다. 실시양태에서, 전체 경로 점수내기 처리는 경로 점수, 부분 점수, 및 생산물 점수와 같은 구성요소에 의해 세분화될 수 있고, 표에 도시된 바와 같이, 예를 들어, 30%, 60%, 10%로서 가중화될 수 있다. 도시된 평가 데이터는 분자 (S)-2,3,4,5-테트라하이드로디피콜리네이트(THDP)로 경로를 예측하는 처리 동안 생성되었다.
경로 구성요소 점수는 경로의 상대적인 엔지니어링 실행용이성을 나타낸다. 실시양태에서, 두 개의 요소를 포함한다:
경로 길이 - 경로에서 반응 단계의 수. 이는 본 발명의 실시양태에 따라, 예측 엔진(109)에 의해 생물도달가능 예측의 고유한 부분으로 계측된다.
유전자 계수 - 경로를 위해 요구되는 예측된 유전자의 수. 반응 주석 엔진(107)에 의해 반응 필터링의 부분으로서 데이터베이스를 질의함으로써 확인된다.
반응 및 효소가 항상 1:1 관계인 것이 아니기 때문에(예를 들어, 단일한 반응이 종종 두 개의 유전자를 요구하는 2-부분 효소에 의해 촉진된다), 예측 엔진(109)은 경로의 엔지니어링의 예측된 어려움으로 두 개의 요인을 고려할 수 있다.
도 9에 도시된 바와 같이, 생물도달가능 예측 도구에 의해 예측되는 두 개의 족보에서, THDP는 바람직한 숙주 세포에서 두-단계 경로를 요구한다. 이는 두-단계 대 한-단계 경로의 어려움에서 가장 온화한 증가에 기반한 적합한 점수 차감을 이끈다.
이 경우에, 경로 반응 단계 당 유전자 수(반응이 유전자를 가질 가능성을 결정하는 동일한 평가 처리를 통하여 확인가능함)는 또한 가장 온화한 벌점을 이끈다.
부분 구성요소 점수
부분 점수는 개별적인 경로 부분의 상대적인 엔지니어링 실행가능성을 나타낸다. 실시양태에서, 평가되는 경로에서 반응에 대한 촉매를 숙주로 엔지니어링하기 위해 요구된 부분(예를 들어, 유전자)을 찾는 데에 있어서 예측된 어려움에 기반한다.
실시양태에서, 부분을 찾는 능력을 부여할 수 있는 가능한 특징들은 하기를 포함한다:
>100 공지된 효소 서열 - 반응 필터링 단계 동안 발견된 100 또는 더 많은 서열(예를 들어, 반응을 촉진하기 위한 효소에 상응하는 적어도 하나의 데이터베이스에서 나타난 100 또는 더 많은 아미노산 서열)
<100 공지된 효소 서열 - 효소 서열이 발견되었으나, 반응 필터링 단계 동안100개 보다 적게 확인되었음
고-신뢰도 오펀/저-신뢰도 오펀 - 효소 서열이 반응 필터링 단계 동안 공개 데이터베이스에서 발견되지 않았으나, 연관된 증거가 이들 서열이 확인하기에 상대적으로 쉽거나(고-신뢰도) 또는 어려울 것(저-신뢰도)으로 제안하는 것으로 발견되었음
엔지니어링된 효소 - 반응 필터링 단계 동안 이 반응에 연결된 효소만 엔지니어링되어 반응을 수행하였다(이 데이터는 데이터베이스 검색에서 찾을 수 있다). 이는 전형적으로 자연적으로 촉진하는 반응과 다른 반응을 촉진하도록 변형된 천연 효소를 지칭한다. 이들 엔지니어링된 효소는 기증자 세포의 제한 범위로부터 하나 또는 여러 개의 서열로 제한될 수 있기 때문에 새로운 경로에서 사용하는 것은 어려울 수 있다. 이러한 엔지니어링된 효소는 BRENDA와 같이 공개 데이터베이스에서 발견될 수 있다.
유전자 분류 소싱 - 역시 반응 필터링 단계 동안 확인됨(효소 서열은 발견된 것으로 추정함); 이 구성요소는 분자에 대한 예측된 경로에서 반응 사이에 "가장 불량한 경우"(가장 큰 벌점)에 의해 후보 생물도달가능 분자를 분류하고; 벌점은 산업상 플랫폼 세포에서 표시된 소스로부터 효소를 발현하는 어려움에 대하여 지금까지 경험적인 데이터에 기반한다.
개별적인 반응이 알려지지 않은 경우 경로에 대한 유전자 허용가능성 - 일부 경우에, 경로는 데이터세트에서 대신하는 반응을 사용하여 정의될 수 있고, 이들 반응은 개별적인 유전자 클러스터 또는 세포에 프로그램적으로 연결될 수 있고; 개별적인 반응을 알려지지 않은 경로는 엔지니어링 위험 및 어려움에서 현저한 증가를 나타내고, 따라서 큰 벌점이 부여된다.
이들 특징 요소는 각각의 반응을 촉진하는 효소에 대한 서열 데이터의 정보가 존재, 부재, 및 풍부함에 대하여 축적되기 때문에 반응 주석 엔진(107)에 의해 모두 확인된다.
THDP의 경우에, 유전자는 두 개의 경로 반응에 대하여 풍부하게 존재하여, 벌점을 얻지 않는다. 대신에, 예를 들어, 반응 중의 하나가 저-신뢰도 오펀에 의해 촉진되어, THDP는 상당한 벌점이 누적될 것이다.
생산물 구성요소 점수
생산물 점수는 본 발명의 실시양태에서 표적 분자 점수에 대한 가장 작은 전체 기여자이다. 생산물 점수는 세포에서 생산물을 유지하는데에, 세포로부터 그것을 배출하는데에, 그리고 배지에 그것을 유지하는데에 있어서 어려움에 영향을 미치는 요인을 나타낸다. 실시양태에서, 분자의 예상된 독성, 배출성 및 안정성의 평가를 나타낸다. 이 실시양태에서 개시된 구체적인 특징은 하기를 포함한다:
독성 - 분자가 하나 이상의 숙주 세포에 독성일 것으로 예상될 수 있는 정도. 이 정보는 항균성 데이터베이스(또는 숙주 세포의 일반적인 카테고리 상의 독성 정보를 수집하는 다른 데이터베이스)에 질의하는 것으로부터 유래될 수 있다.
배출 - 분배 계수 데이터에 대한 화학물질 데이터베이스에 질의함으로써 또는 내부 실험 데이터에 질의함으로써 예측됨.
안정성 - 안정성 이슈는 화학물질 데이터베이스에 질의함으로서 확인됨.
점수 요약
표의 하단에 전체 점수 및 카테고리 점수를 요약한다. 또한 경로 엔지니어링에 대한 특정한 위험 제거를 요구하는 임의의 플래그-영역을 하일라이트 표시한다. THDP는 플래그를 갖지 않는다. 플래그의 예시는 경로가 그 반응 단계에 대하여 하나 이상의 유전자를 놓치는 경우일 수 있다(예를 들어, 고- 또는 저-신뢰도 오펀).
알고리즘적 효소 선택
개요
알고리즘적 생물학적 서열 선택을 포함하는 본 발명의 실시양태는 반응을 촉매하기 위한 후보로서 효소를 선택하기 위한 알고리즘적 컴퓨터 구현 접근법을 제공한다. 이 접근법은 최적의 효소를 결정하는 데 필요한 시간을 크게 줄이고 인적 오류를 제거한다. 또한 선택한 서열 세트의 실험적 검증 결과 생성된 경험적 데이터를 기반으로 예측 모델을 개선하여 도구의 예측 정확도를 지속적으로 개선할 수 있다.
방대한 데이터 세트를 처리할 수 있는 능력 때문에, 알고리즘적 생물학적 서열 선택을 사용하는 실시양태는 잠재적인 후보 서열의 기하급수적 증가를 유발할 수 있다. 본 발명의 실시양태는 서열 공간의 다양성을 유지하면서 후보 서열의 선택을 개선하기 위해 클러스터링 또는 대안적 경로 제거(또는 둘 다)를 수행함으로써 이 문제를 해결한다.
더욱이, 본 발명의 실시양태는 서열의 기능적 인간 주석에 의존하는 수동 접근법보다 원하는 기능과 통계적으로 더 유사한 서열의 식별을 가능하게 한다.
보다 일반적으로, 본 발명의 실시양태는 숙주 세포에서 원하는 기능의 수행을 가능하게 하는 서열을 선택할 수 있다. 효소 이외에, 이러한 서열은 예를 들어, 운반체, 전사 인자, 및 촉매 반응을 위한 효소와 같은 단백질을 코딩하는 핵산 서열을 포함할 수 있다. 효소 반응 외에도, 기능에는 유전자 전사/번역, 막을 통한 분자 수송, 분자의 안정화 또는 분해와 같은 세포 과정의 촉진 또는 조절이 포함될 수 있다.
본 발명의 실시양태는 상이한 세포에서 동일하거나 유사한 기능을 가능하게 하는 것으로 알려져 있거나 생각되는 서열에 기초하여 숙주 세포에서 기능을 가능하게 하기 위한 후보 생물학적 서열을 확인한다. 예를 들어, 세포는 다른 종에서 발견될 수 있다. 그러나 다른 경우에서는 동일한 종에서 동일한 기능을 수행하는 상이한 서열이 과학자가 한 목적에는 바람직하지만 다른 목적에는 아니라고 생각하는 다른 속성을 나타낼 수 있다.
용어집
생물학적 서열은 뉴클레오티드 또는 아미노산의 서열이다.
명확히 하기 위해, 본 발명에서 달리 표시되지 않는 한, 용어 "분자"는 개별 분리된 분자가 아닌 분자 유형(예를 들어, 특정 유형의 단백질 분자)을 지칭한다.
유사하게, 명확히 하기 위해, 본 발명에서 달리 지시되지 않는 한, 용어 "세포"는 개별 분리된 세포가 아닌 세포의 유형을 지칭한다.
본 발명에서 달리 지시되지 않는 한, 용어 "실제 생물도달가능" 분자, "실제로 생물도달가능" 분자 및 "생물도달가능" 분자는 생체 내, 시험관 내, 또는 그 외에는 하나 이상의 생물학적 과정(예를 들어, 바이오-촉매, 전사, 번역)을 사용하여 생성될 수 있는 분자를 지칭하기 위해 본 발명에서 상호 교환적으로 사용된다.
본 발명에서 달리 지시되지 않는 한, 용어 "후보 생물도달가능 분자" 또는 상호 교환적으로 "생물도달가능 후보 분자"는 생물도달가능 분자일 가능성이 있는 분자를 지칭한다. 실시양태에서, 후보 생물도달가능 분자는 일련의 출발 대사 반응 및 대사산물에 기초하여 생물도달가능 분자(예를 들어, 하나 이상의 주어진 숙주 세포에서)로 예측되는 분자일 수 있다. 실시양태에서, 후보 생물도달가능 분자는 아직 생물도달가능한 것으로 확인되지 않은 생물도달가능 분자일 수 있다. 실시양태에서, 후보 생물도달가능 분자는 후보 또는 실제 생물도달가능 분자에 대한 데이터베이스(예를 들어, 데이터베이스(110))에 저장된 분자일 수 있지만, 데이터베이스에서 실제로 생물도달가능 것으로 아직 확인되지 않았다. 실시양태에서, 후보 생물도달가능 분자는 생물학적 시스템(예를 들어, 단일 유기체 또는 여러 유기체 또는 조직 유형의 컨소시엄)에서 합성 또는 분리되었다는 증거(예를 들어, 데이터베이스에서 식별됨)가 있는 분자이다. 예를 들어, 상기 섹션에 기재된 실시양태를 사용하여 생물도달가능 후보 분자가 생존 가능한 표적 분자로 예측되었기 때문에, 생물도달가능 후보 분자는 생물도달가능한 것으로 추측되는 분자일 수 있다. 실시양태에서, 용어 "후보 생물도달가능 분자"는 상기 기재된 발명의 실시양태에 의해 예측된 생존 가능한 표적 분자를 포함한다.
용어 "추정적인 생물도달가능 분자"는 실제 생물도달가능 분자 또는 후보 생물도달가능 분자를 지칭할 것이다.
작동
본 발명의 실시양태에서, 예측 엔진(109)은 숙주 세포에서 기능을 가능하게 하기 위한 후보 생물학적 서열을 식별하기 위한 프로그램 코드를 포함한다. 예측 엔진(109)은: 복수의 생물학적 서열을 하나 이상의 기능과 연관시키는 예측 모델에 액세스하고; 예측 모델을 사용하여, 복수의 생물학적 서열 중 하나 이상의 후보 서열이 숙주 세포에서 원하는 기능을 가능하게 한다는 것을 예측하고; 및 신뢰 임계값을 만족하는 후보 서열을 필터링된 후보 서열로 분류할 수 있다. 실시양태에서, 생물학적 서열은 반응을 촉매하기 위한 효소이다(기능은 효소-촉매 반응임). 예측 엔진(109)은 제 1 필터링된 후보 서열에 관한 정보를 유전자 제조 시스템에 제공할 수 있어서, 유전자 제조 시스템은 제 1 필터링된 후보 서열을 사용하여 예를 들어 생물도달가능한 분자일 수 있는 분자를 생성할 수 있다.
도 12는 본 발명의 실시양태의 작동을 예시하는 흐름도이다. 달리 지시되지 않는 한, 이러한 작동은 예측 엔진(109)에 상주하는 소프트웨어에 의해 수행될 수 있다. 이하의 설명은 효소 아미노산 서열의 식별에 관한 것이지만, 동일한 접근법이 아래에 언급된 바와 같이 다른 서열을 식별하는 데 사용될 수 있다.
본 발명의 실시양태에 따르면, 예측 엔진(109)은 다음 작업을 수행할 수 있다:
단계 1(1202): 예측 모델 획득
예측 엔진(109)은 원하는 기능을 수행하기 위해 물리적으로 검증되거나 높은 신뢰도로 예측된 효소의 경우에 대해 훈련된 하나 이상의 모델을 생성(또는 내부 또는 외부 데이터베이스로부터 검색)할 수 있다. 기능의 예는 다음과 같다: 티로신의 티라민으로의 전환을 촉매하는 효소인 티로신 디카르복실라제; 및 복합 다당류에서 알파 결합의 가수 분해를 촉매하는 효소인 알파-아밀라아제와 같은 효소 활성이다.
효소 대신에, 본 발명의 실시양태는 관심 효소를 코딩하는 핵산 서열을 확인할 수 있다. 또한, 이러한 모델이 나타내는 기능은 대사 반응의 효소에 국한되지 않으며, 예를 들어 DNA 또는 단백질의 두 가닥을 분리하는 역할을 하는 DNA 헬리카제, 및 전사 인자, 수송체, 구조적 단백질과 같은 다른 비 촉매적 유형의 기능뿐만 아니라 전달 RNA와 같은 펩티드로 번역되지 않는 뉴클레오티드 서열 및 소형 비-코딩 RNA와 같은 기능을 지칭할 수도 있다. 또한, 계통발생, 정형학, 서열 유사성, 효소 소단위 및 단백질 형태와 같은 다양한 정보를 추출하는 각 기능적 활성에 대해 하나 또는 여러 모델을 생성할 수 있다.
여기서 "모델"이라는 용어는 은닉 마르코프 모델(HMM), 동적 베이지안 네트워크, 장기 단기 기억 모델(LSTM)에 기반한 것과 같은 반복 신경망을 포함하는 인공 신경망(ANN)은 물론 이의 파생물 및 이의 일반화, 및 기타 기계 학습 기반 모델과 같은 통계 모델을 포함하지만 이에 제한되지 않는다.
예측 모델의 예로서, 단계 1에 대해, 예측 엔진(109)은 다중 서열 정렬(MSA)의 통계 모델인 HMM에 의존할 수 있다. 생물 정보학에서, 서열 정렬은 DNA, RNA 또는 단백질과 같은 서열을 배열하여 서열 간의 기능적, 구조적 및/또는 진화적 관계의 결과일 수 있는 유사성의 영역을 식별하는 방법이다. 진화 생물학에서, 보존된 서열은 핵산(DNA 및 RNA) 또는 종(오르토로거스 서열) 또는 게놈(파랄로거스 서열) 내 단백질에서 유사하거나 동일한 서열이다. 보존은 자연 선택에 의해 서열이 유지되었음을 나타낸다. 아미노산 서열은 단백질 또는 도메인의 구조 또는 기능을 유지하기 위해 보존될 수 있다.
상기 실시양태의 반응 경로 출력의 일부일 수 있는 반응(기능)에 대한 단백질 아미노산 서열을 찾는 예로서, 예측 엔진(109)은 데이터베이스(110)로부터 반응을 촉매하는 효소의 훈련 세트를 검색할 수 있다. 각 효소는 다른 종에서 발견될 수 있다. 그러나, 효소의 모든 아미노산이 기능을 수행하는 데 중요한 것은 아니다. 아미노산이 동일한 기능을 수행하는 다른 효소 서열에서 동일한 위치를 차지하는 관찰된 빈도(아미노산이 "보존"되는 정도)는 아미노산이 해당 기능의 수행을 가능하게 할 가능성과 관련이 있다. 이것은 MSA를 사용하여 원하는 기능을 수행하기 위한 다른 효소 서열을 식별하는 기초이다. MSA 모델을 사용하는 예측 엔진(109)은 서열이 원하는 기능을 가능하게 하는 신뢰도의 척도(서열의 보존에 기초함)와 함께 출력 서열을 제공한다.
보존된 서열은 BLAST, HMMER 및 Infernal과 같은 도구를 사용하여 상동성 검색에 의해 확인될 수 있다. 상동성 검색 도구는 개별 핵산 또는 단백질 서열을 입력으로 사용하거나, 또는 알려진 관련 서열의 다중 서열 정렬에서 생성된 통계 모델을 사용할 수 있다. 프로파일-HMM과 같은 통계 모델 및 구조 정보를 통합하는 RNA 공분산 모델은 더 먼 관련 서열을 검색할 때 유용할 수 있다. 그런 다음 입력 서열은 관련된 개인 또는 다른 종의 서열 데이터베이스에 대해 정렬된다. 결과 정렬은 일치하는 아미노산 또는 염기의 수 및 정렬에 의해 생성된 갭 또는 결실의 수를 기반으로 점수가 매겨진다. 허용 가능한 보존적 대체는 PAM 및 BLOSUM과 같은 대체 행렬을 사용하여 식별할 수 있다. 고득점 정렬은 상동성 서열에서 나온 것으로 간주된다. 서열의 보존은 광범위한 계통발생 범위에 걸쳐 매우 유사한 상동체의 검출에 의해 추론될 수 있다.
보존된 서열의 확인은 단백질 및 유전자와 같은 서열의 기능을 발견하고 예측하는 데 사용될 수 있다. 단백질 도메인 또는 모티프와 같은 알려진 기능을 가진 보존된 서열을 사용하여 서열의 기능을 예측할 수도 있다. 보존된 단백질 도메인 또는 Pfam 및 보존된 도메인 데이터베이스와 같은 모티프의 데이터베이스를 사용하여 예측된 단백질의 기능 도메인 또는 모티프에 주석을 달 수 있다.
예시 입력 및 출력
입력 단계 1: 화학 방정식 "L-티로신 <=> 티라민 + CO2"로 표현될 수 있는 "티로신 디카르복실라제"와 같은 예측된 경로/족보로부터의 효소 활성/반응 및 이러한 효소 활성을 갖는 것으로/이러한 반응을 촉매하는 것으로 여겨지는 서열의 훈련 세트(예를 들어, 과학 출판물, 공개 또는 내부 데이터베이스의 실험 데이터 또는 필요한 활성의 실험적 증거가 있는 서열에 대한 상동성을 기반으로 한 계산 예측에 기반함).
도 13a-h는 본 발명의 실시양태에 따른 HMMER 도구를 사용하여 티로신 디카르복실라제 활성을 가능하게 하는 적어도 하나의 서열을 확인하는 예언적 예를 예시한다. 당업자는 특히 전체가 본 발명에 참조로 포함되는 Eddy, et al., HMMER User's Guide: Biological sequence analysis using profile hidden Markov models, Version 3.lb2; February 2015의 관점에서 이들 도면들을 어떻게 해석하는지를 이해할 것이다.
도 13a는 티로신 디카르복실라제 활성을 촉매하는 효소의 훈련 세트를 포함하는 예시적인 FASTA 파일의 스니펫을 예시한다. 파일은 반응 활성을 인코딩하는 효소의 훈련 세트의 아미노산 서열을 포함한다. 표시된 주석은 상업적으로 이용가능한 데이터베이스로부터 유도되었기 때문에 파일의 주석은 트립토판 디카르복실라제와 같은 티로신 디카르복실라제 이외의 활성을 나타낸다. 그러나, 본 발명의 실시양태는 이러한 서열이 사실상 티로신 디카르복실라제 활성을 가능하게 한다는 것을 결정했다. 따라서, 본 발명의 실시양태는 그렇지 않으면 부정확하게 공개적으로 이용가능한 데이터베이스에서 주석의 정확한 기록을 가능하게 한다.
출력 단계 1: 서열 내의 단위(예를 들어, 아미노산)가 원하는 기능(예를 들어, 기대값, 단위가 서열 내 주어진 위치에서 보존될 확률)과 관련되어 있다는 신뢰도의 지표를 포함하여, 훈련 세트에 존재하는 서열의 다중-서열 정렬(들) 및 이 정렬을 나타내는 모델(또는 다중 모델). 도 13b는 티로신 디카르복실라제 반응을 인코딩하는 효소의 훈련 세트의 이러한 다중 서열 정렬을 보여주는 출력 파일의 스니펫을 나타낸다. ">" 기호 다음에 오는 식별자(예를 들어, B8GDM7)는 효소 서열을 식별하며 아래 텍스트는 해당 서열을 나타낸다. 이 예에서, 아미노산 서열에서 "-"로 표시되는 공백은 특정 효소 서열이 효소의 훈련 세트에서 모든 효소의 합의(consensus) 정렬과 정렬되지 않는 위치를 나타낸다. 합의 정렬은 효소의 훈련 세트의 모든 서열에 걸쳐 유사성 및/또는 동일성을 통해 보존되는 최적의 하위서열에 의해 결정된다.
도 13c는 도 13b에 도시된 다중-서열 정렬 파일로부터 구성된 은닉 마르코프 모델(HMMER 도구 사용)의 출력 파일의 스니펫을 보여주며, 여기에서 숙련된 기술자는 서열 내 아미노산이 원하는 티로신 디카르복실라제 활성(기능)과 관련된다는 것의 신뢰도를 결정할 수 있다. 도 13d는 티로신 디카르복실라제 활성에 대한 동일한 통계 모델의 그림 표현을 보여주며, 여기서 각 아미노산 주석의 높이는 전체 효소의 원하는 기능과 관련될 해당 위치(x축에 표시됨)에서 특정 아미노산의 성향을 나타낸다.
단계 2(1204): 서열 데이터베이스를 모델에 매칭
예측 엔진(109)은 (Uniprot, KEGG, NCBI, JGI GOLD 또는 뉴클레오티드 또는 단백질 서열의 독점 데이터베이스와 같은) 소스 데이터베이스의 모든 서열을 단계 1에서 생성된 모델(들)과 비교함으로써, 단계 1에서 학습된 모델(들)을 사용하여 관심 기능을 활성화하기 위한 후보 서열 검색을 수행할 수 있다. 이 프로세스에 사용할 수 있는 도구의 예로는 LSTM 모델에 의한 검색을 위해 설계된 HMMsearch, HMMscan 또는 Recurrent Neural Networks가 있다.
예시 입력 및 출력
입력 단계 2: 원하는 기능 및 서열의 검색 데이터베이스를 사용하여 신뢰할 수 있는 서열 세트(들)에 대해 훈련된 모델(들)
출력 단계 2: 소스 데이터베이스의 크기로 인해, 예측 엔진(109)은 단계 1에서 생성된 모델(들)과 상당히 일치하는(높은 확률 점수를 가짐) 몇몇부터 100,000 범위(단 하나의 반응에 대해)의 서열 세트를 출력할 수 있다. 도 13e는 후보 서열을 티로신 디카르복실라제에 대한 HMM 모델과 비교한 후 서열 히트의 예시 출력 파일의 스니펫을 나타낸다. 이 예시 파일에서, 티로신 디카르복실라제의 HMM과 일치하는 데이터베이스로부터의 특정 효소 서열의 신뢰도는 E-값 메트릭으로 열거된다. 효소의 E-값이 낮을수록, 모델과의 일치에 대한 통계적 신뢰도가 높아진다.
도 13f는 검색 데이터베이스로부터 서열의 식별자 및 E-값의 오름차순으로 정렬된 티로신 디카르복실라제 HMM 모델에 대한 일치의 E-값을 추출하는 도 13e에 대한 미가공(raw) 출력 파일로부터 후보 서열의 처리된 표의 예를 나타낸다. 이 예에서, 효소 서열 Q7XHL3은 가장 낮은 E-값을 가지므로, 티로신 디카르복실라제 활성을 가능하게 할 가능성이 가장 높은 아미노산 서열로 순위가 매겨진다.
본 발명의 실시양태는 이 잠재적으로 방대한 데이터 세트의 크기를 감소시키기 위한 추가 정제를 제공한다.
단계 3(1205): 매칭 서열 필터링
예측 엔진(109)은 검색의 정밀도와 범위 사이의 의도된 목적 및 절충에 기초하여 사용자 또는 다른 사람에 의해 결정될 수 있는 임계값 매개변수(예를 들어, 기대값(E-값) 또는 유의성 임계값과 같은 최소 확률 점수)에 기초하여 단계 2로부터 후보 서열을 분류할 수 있다. 예를 들어, 단계 2로 인해 낮은 신뢰도로 원하는 기능을 가능하게 하는 많은 수의 서열이 생성된다고 가정한다. 이러한 경우에, 사용자는 예측 엔진(109)이 더 높은 신뢰도를 갖는 보다 관리 가능한 수의 후보 서열을 생성하기 위해 그 제 1 임계값을 만족하지 않는 서열을 제거하도록 제 1 신뢰 임계값을 조정할 수 있다. 제 1 신뢰 임계값(단계 3 생존)을 만족하는 후보 서열은 만약 워크플로우가 도 12에 표시되고 아래에 기재된 경로 I를 따르는 경우 "필터링된 후보 서열"이라고 할 수 있다. 만약 경로 II 또는 경로 III이 취해지면, 각각 선택적 단계 3(b) 또는 3(d)로부터 단계 4로 들어가는 후보 서열은 "필터링된 후보 서열"이라고 할 수 있다.
예를 들어, 트레이닝 세트의 크기, 서열 데이터베이스의 크기, 단계 2에서 확인된 후보 서열의 수는 물론 기타 요인에 따라, 사용자는 최소한의 신뢰도, 예를 들어, 1E-1O* 이상(정밀도를 희생하여 검색 범위를 넓히기 위함)만큼 허용적이거나, 또는 반대로 축소된 범위의 경고(caveat)와 함께 정밀도를 높이기 위해 1E-50** 이하만큼 엄격한 기대값을 설정할 수 있다.
* 100억(1010)개의 무작위로 생성된 서열 중 예측된 하나가 e-값 1E-10을 갖는 후보 서열보다 주어진 모델과 더 잘 일치할 것이다
** 1050개의 무작위로 생성된 서열 중 예측된 하나가 e-값 1E-50을 갖는 후보 서열보다 주어진 모델에 더 잘 일치할 것이다.
예시 입력 및 출력
입력 단계 3: 관심 기능을 나타내는 모델(들)과 일치하는 하나 이상의 서열
출력 단계 3: 관심 기능을 나타내는 모델(들)과 일치하고 사용자 정의된 최소, 제 1 신뢰 임계값을 만족하는 (필터링된) 후보 서열의 서브세트.
단계 4(1206): 예측 모델 개선
단계 3에서 제 1 신뢰 임계값을 만족하는 후보 서열은 이들이 모델에 의해 예측된대로 원하는 기능을 촉매하는지 경험적으로 식별하기 위해 합성되고 테스트될 수 있다. (아래에 기재된 선택적 경로 II 및 III의 결과로 생성된 후보 서열에 대해 동일한 작업을 수행할 수 있다.) 이 테스트는 시험관 내 효소 분석으로 수행하거나 또는 염색체 통합 또는 복제된 플라스미드를 통해 서열을 숙주(들)에 통합하여 수행할 수 있으나, 여기에 제한되지는 않는다. 특정 실험 조건 하에서 원하는 기능을 생성한 서열에 대해, 예측 엔진(109)은 모델 데이터베이스(예를 들어, 데이터베이스(110))에 결과를 기록할 수 있다. 원하는 기능이 검출될 수 없는 서열에 대해, 예측 엔진(109)은 또한 그 결과를 데이터베이스(110)에 기록할 수 있다. 예측 엔진(109)은 "긍정적" 및 "부정적" 훈련 세트/예로서 이 기능을 나타내는 모델(들)에 대한 훈련 서열 세트를 확장/개선하기 위해 이들 기록을 사용할 수 있다.
본 발명의 실시양태에 따르면, 예측 엔진(109)은 각 반응(예를 들어, 특정 추정 생물도달가능 분자로 이어지는 경로에서)에 대해 단계 1-4(및 이러한 옵션이 선택되는 정도까지 단계 3(a)-(d))를 반복하며, 데이터베이스(110)에 결과를 저장한다.
(숙주 세포 또는 성장 배지의 변화와 같은) 실험 환경의 변화는 경험적 결과를 변화시킬 수 있다. 예를 들어, 모든 서열이 가능한 모든 조건에서 원하는 기능을 생성할 수 있는 것은 아니다. 예측 엔진(109)은 숙주 및 실험 조건의 동일한 조합을 갖는 후속 검색이 부정적인 예를 배제하도록 데이터베이스(110)에 이 결과를 기록할 수 있다.
실험적으로 검증되도록 선택된 서열의 수는 이용 가능한 처리량에 의해 제한될 수 있다. 고-처리량 팩토리-유사 설정에서, 원칙적으로, 동일한 기능에 대해 여러 서열을 동시에 테스트할 수 있다. 관찰된 긍정적인 결과와 부정적인 결과를 기반으로한 모델의 피드백 루프를 통한 "재-훈련"은 모든 선택-테스트-재훈련 주기(도 12에서 경로 I, II 및 III의 일부로 설명됨)에서 모델의 예측력과 정밀도를 향상시킨다. 이를 위해, 자동화된, 고-처리량 실험을 통해 크고 일관된 훈련 세트를 생성할 수 있으므로, 간헐적인 오류와 생물학적 가변성에 대해 견고하게 일관된 방식으로 재훈련할 수 있다.
예시 입력 및 출력
입력 단계 4: 검증할 후보 서열
출력 단계 4: 예측 모델을 업데이트하기 위한 데이터베이스의 실험적 검증의 기록된 결과
선택적 단계 3(a) 및 3(b)(1208): 클러스터링
도 12를 참조하면, 위에서 설명한 단계 1, 2, 3 및 4는 "경로 I"로 표시된 화살표를 따른다. 도 12는 또한 본 발명의 실시양태에 따라 필터링된 후보 서열들을 더 정제하기 위해 수행될 수 있는 선택적 경로 II 및 III를 예시한다. 본 발명의 실시양태에 따라, 경로 I로부터의 것과 마찬가지로 경로 II 및 III으로부터 생성된 후보 서열은 단계 4의 대상이 된다.
경로 II는 단계 3(a) 및 3(b)(1208)를 포함한다. 실시양태에서, 예측 엔진(109)은(예를 들어, 사용자가 선택하는 경우) 단계 4 전에 추가 단계 3(a) 및 3(b)를 취하여 제 1 신뢰 임계값을 만족하는 후보 서열을 다양화할 수 있다.
단계 3(a)(1208): 예측 엔진(109)은 제 1 신뢰 임계값을 만족하는 후보 서열에 대해 통계적 클러스터링(예를 들어, 서열 유사성, 또는 t-분산 확률적 이웃 임베딩(Distributed Stochastic Neighbor Embedding)에 기초함)을 수행할 수 있다. 예측 엔진(109)은 동일한 클러스터에 나타나기에 충분히 유사한 서열을 기록할 수 있다. 예를 들어, CD-HIT 클러스터링 알고리즘을 사용하여, 예측 엔진(109)은 서열이 38%-99% 서열 동일성 임계값을 초과하는 경우 동일한 클러스터에 속하는 것으로 표시할 수 있다. 이 값은 서열 간의 최대 동일성 정도를 반영하는 사용자 정의 매개변수로, 사용자가 최종 필터링된 후보 세트에 포함할 수 있다. 왼쪽 표에서, 도 13g는 티로신 디카르복실라제에 대한 모든 HMM 서열 히트를 클러스터링한 결과로 생성된 미가공 출력 파일의 스니펫을 나타낸다. 모든 HMM 서열 히트는 70%의 예시적 서열 동일성 임계값을 사용하여 클러스터링된다. 도면은 클러스터 번호와 해당 클러스터 내에 있는 모든 서열의 서열 식별자를 나열하는 파일의 스니펫을 나타낸다. (이 스니펫에서, 서열 식별자의 전체 목록은 별표에 의해 표시된 것과 같이 잘린다.) 이러한 방식으로, 사용자는 후보 서열의 수가 모든 후보를 테스트할 수 있는 실험 용량을 초과할 때 후보 서열을 균등하게 탐색하는 문제를 해결할 수 있다.
선택적 단계 3(b)(1208): 클러스터로부터 서열(들)을 선택
예측 엔진(109)은 각각의 클러스터로부터 하나 이상의 서열을 선택할 수 있다. 선택된 서열의 수는 클러스터의 수에 의존할 수 있으며, 이는 클러스터링 이전에 후보 서열 세트 내의 전체 "서열 다양성" 뿐만 아니라 사용자 정의 서열 동일성 임계값에 의존한다. 각 클러스터로부터의 특정 후보 서열(들)의 선택은 신뢰도(예를 들어, 해당 모델에 대한 일치의 e-값)에 의해 통보될 수 있다. 이는 각 기능/반응에 대해 다양한 후보 세트가 선택되는 것뿐만 아니라, 원하는 기능의 가능성이 가장 높은 후보가 우선화되는 것을 보증한다. 도 13g(오른쪽 표)는 클러스터링 단계 3(a) 이후, 각 클러스터에서 e-값이 가장 낮은 서열만 선택된 하위 선택된 서열의 처리된 테이블 출력 예를 나타낸다. 표는 이들 효소의 식별자, 티로신 디카르복실라제에 대한 HMM에 일치하는 서열의 e-값, 및 도면의 왼쪽 표에 있는 출력 파일을 구문분석하여 생성된 클러스터 번호를 나타낸다. 오른쪽 표는 e-값을 증가시켜(즉, 신뢰도 감소) 정렬된 서열을 나타낸다.
선택적 단계 3(c) 및 3(d)(1208): 대체 기능에 대한 친화성을 갖는 후보 서열 제거
경로 III는 단계 3(c) 및 3(d)(1210)을 포함한다. 실시양태에서, 예측 엔진(109)은(예를 들어, 사용자가 선택하는 경우), 제 1 신뢰 임계값을 만족하는 후보 서열이 원하지 않는 기능을 나타낼 가능성을 줄이기 위해 단계 4 전에 추가 단계 3(c) 및 3(d)를 취할 수 있다. 실시양태에서, 단계 3(c) 및 3(d)는 제 1 신뢰 임계값을 만족하는 후보 서열의 신뢰 점수가 제 2 임계값 초과 또는 미만인 경우에만 선택될 수 있다.
선택적 단계 3(c): 다른 기능을 위한 모델의 데이터 세트 생성
실시양태에서, 예측 엔진(109)은 이러한 모델(들)이 구성될 수 있는 모든 알려진 기능, 예를 들어, 해당 기능을 수행하는 것으로 경험적으로 관찰된 적어도 하나의 서열과 연관된 모든 KEGG 오쏠로지(orthology) 그룹을 나타내는 예측 모델의 데이터베이스를 준비할 수 있다.
선택적 단계 3(d): 대체 기능에 대한 친화성을 갖는 후보 서열 제거
실시양태에서, 예측 엔진(109)은 필터링된 후보 서열로서 제 1 신뢰 임계값을 만족하지만 주어진 허용오차 내에서(예를 들어, 0.5와 1 사이, 여기서 1은 대체 기능의 가능성에 대한 허용오차 없음을 나타냄) 원하는 기능과는 다른 기능을 가능하게 할 가능성이 더 높은 후보 서열의 분류를 방지할 수 있다. 이렇게 하기 위해, 예측 엔진(109)은 단계 3(제 1 신뢰 임계값, 예를 들어, 0.8을 만족함)에서 얻은 각 후보 서열을 단계 3(c)에서 데이터베이스에 저장된 각 모델과 비교(예를 들어, HMMscan을 사용함)하여 원하는 기능 이외의 임의의 기능에 대해 더 높은 신뢰도 점수(허용오차 매개변수를 고려함)를 가진 서열을 찾아 제거할 수 있다. 도 13h는 다양한 반응 활성의 배열을 나타내는 다른 은닉 마르코프 모델에 대해 클러스터된 히트를 필터링하는 예시 출력 파일의 스니펫을 나타낸다. 이 예에서, 모델 식별자는 특정 반응 활성을 나타내는 KEGG 오쏠로지 그룹을 나타낸다. 식별된 각 서열에 대해, 도면은 서열이 서로 다른 활성의 스캐닝 데이터베이스에 있는 HMM과 일치하는 기대값을 나타낸다. 다른 활성과 관련하여 원하는 활성(TYDC_training으로 표시되는 티로신 디카르복실라제)에 대한 확인된 서열의 기대 점수는 원하는 활성에 대해 서열이 얼마나 특이적인지 정량화한다. 예를 들어, 서열 Q7XHL3의 경우, 원하는 티로신 디카르복실라제 활성은 최소 e-값을 갖는 활성이 아니므로, 테스트하기에 가장 적합한 후보 서열이 아닐 수 있다.
사용자 정의 허용오차 매개변수는 후보 서열이 원하는 기능을 생성한다는 신뢰도가 원하지 않는 기능을 또한 생성한다는 신뢰도 아래로 얼마나 떨어지는 것이 허용되는지에 대한 한계를 설정하는 데 사용될 수 있다. 예측 엔진(109)은 주어진 후보 서열이 원하는 기능을 가능하게 한다는 신뢰도를 후보 서열이 이들의 예측 모델에 따라 데이터베이스에 저장된 임의의 다른 알려진 기능을 가능하게 하는 신뢰도 수준과 비교할 수 있다. 이 허용오차 매개변수를 통해 사용자는 후보 서열이 다양한 신뢰도로 여러 기능(모델로 표시됨)과 일치하도록 예측될 수 있는 경우를 해결할 수 있으며, 사용자는 원하는 기능을 나타내는 모델이 후보 서열에 대해 (최적 일치가 아닌 경우) 최적 일치 중 하나인 것을 보증하고자 한다. 예를 들어, 이 허용오차는 (모든 모델의 데이터베이스와 비교할 때 발견된 가장 낮은 e-값의 로그)를 (원하는 기능을 나타내는 모델과 비교할 때 e-값의 로그)로 나눈 비율일 수 있다. 이 경우, 만약 최적 일치 모델이 원하는 기능을 나타내는 모델이기도 한 경우, 비율은 1이 된다. 다른 모든 경우에서, 1보다 낮은 비율은 원하는 기능을 가지며, 최적 일치인 모델(예를 들어, e-값이 가장 낮은 모델)에 의해 나타나는 기능이 아닌 주어진 후보 서열에 대한 감소된 신뢰도를 나타낸다.
실험 데이터에 기초한 예
본질적으로 도 12, 경로 III(즉, 피드백 학습을 제외한 모든 단계)에 의해 예시된 서열 선택 프로세스를 사용하여, 48 내지 72개의 후보 서열이 단백질 서열의 메타-유전체 컬렉션으로부터 관심있는 3가지 효소 기능에 대해 선택되었다. 동일한 방식으로 관심있는 소분자 배출자(exporter) 기능을 위해 72개의 후보 서열도 선택되었다. 특히, 네 가지 기능은 모두 선택된 서열이 테스트된 미생물에 고유했지만, 표적 분자의 생산이나 세포로부터의 배출을 제한할 수 있다는 가정에 근거하여 관심있는 것으로 간주되었다.
선택된 단백질 서열 각각은 코딩 DNA 서열로 역-번역되고, 합성되고, 이미 관심 분자의 매우 효과적인 산업적 생산자인 미생물의 유전체에 삽입되었다. 이들 변형된 미생물은 관심있는 두 가지 표현형 측면에서 특정 분자의 생산 개선에 대해 테스트되었다: (1) 시간당 L당 그램의 생산 속도; (2) 그램 당 그램의 전체 기질-대-생성물 전환 효율. 세 가지 효소 기능 중 두 가지와 하나의 배출자 기능을 나타내는 여러 서열은 관심있는 두 가지 표현형 중 적어도 하나에 대해 1% 초과의 통계적으로 유의미한 개선을 나타냈다. 이러한 고도로 최적화된 산업적으로 사용되는 미생물에서, 다른 하나에 해로운 영향을 미치지 않으면서 표현형 중 하나를 개선하는 어떠한 변화를 관찰하는 것은 드물 것이다. 그럼에도 불구하고, 다수의 후보 서열은 이러한 개선을 가져왔다. 표현형 개선을 측정하기 위해, 알고리즘적으로 선택된 각 서열을 개별적으로 숙주 미생물로 엔지니어링한 다음 결과 표현형 개선을 평가하였다.
이 실험은 어떤 기능적 주석도 없이 예측된 단백질 서열로만 구성된 큰 메타-유전체에서도 효소 및 배출자 기능을 위한 매우 효과적인 후보 서열을 찾기 위해도 12에 예시된 워크플로우의 유용성을 입증했다. 이 예에서의 개선은 본 발명의 실시양태의 피드백 학습 없이 획득되었다. 따라서, 당업자는 피드백 학습이 훨씬 더 개선된 서열 예측을 초래할 것으로 기대할 것이다.
기계 학습
본 발명의 실시양태는 주어진 매개변수(서열)와 관찰된 결과(예를 들어, 기능) 사이의 관계를 학습하기 위해 기계 학습("ML") 기술을 적용할 수 있다. 이 프레임워크에서, 실시양태는 특징 중요성을 결정하기 위해 표준 ML 모델, 예를 들어 결정 트리를 사용할 수 있다. 일반적으로, 기계 학습은 제한된 수의 표지된 데이터의 예를 사용하고 알려지지 않은 데이터에 동일한 작업을 실행하여 정보 작업의 수행(예를 들어, 분류 또는 회귀)시에, 매개 변수, 기술 또는 기타 기능과 같은 성능 기준의 최적화로 기술될 수 있다. 선형 회귀를 사용하는 접근법과 같은 감독된 기계 학습에서, 기계(예를 들어, 컴퓨팅 디바이스)는 예를 들어 훈련 데이터에 의해 나타난 패턴, 카테고리, 통계적 관계 또는 다른 속성을 확인함으로써 학습한다. 그런 다음 학습 결과는 새로운 데이터가 동일한 패턴, 카테고리, 통계적 관계 또는 기타 속성을 나타낼 것인지를 예측하는데 사용된다.
본 발명의 실시양태는 감독되지 않은 기계 학습을 사용할 수 있다. 대안적으로, 일부 실시양태는 소량의 표지된 데이터 및 다량의 비표지된 데이터를 사용하는 반-감독된 기계 학습을 채택할 수 있다. 실시양태는 또한 기계 학습 모델의 성능을 최적화하기 위해 가장 관련이 있는 특징의 서브세트를 선택하기 위해 특징 선택을 채택할 수 있다. 선형 회귀에 대한 대안으로서 또는 선형 회귀에 추가로 선택된 기계 학습 접근법의 유형에 따라, 실시양태는, 예를 들어, 로지스틱 회귀, 신경망, 지지 벡터 기계(SVM), 결정 트리, 은닉 마르코프 모델, 베이지안 네트워크, 그램 슈미트, 보강-기반 학습, 계층적 클러스터링을 포함하는 클러스터 기반 학습, 유전자 알고리즘 및 당업계에 공지된 임의의 다른 적절한 학습 기계를 채택할 수 있다. 특히, 실시양태는 로지스틱 회귀를 이용하여 분류 자체와 함께 분류의 확률을 제공할 수 있다. 예를 들어, Shevade, A simple and efficient algorithm for gene selection using sparse logistic regression, Bioinformatics, Vol. 19, No. 17 2003, pp. 2246-2253, Leng, et al., Classification using functional data analysis for temporal gene expression data, Bioinformatics, Vol. 22, No. 1, Oxford University Press (2006), pp. 68-76를 참조하고, 이의 전부는 전문이 참조로 본 발명에 포함된다.
실시양태는, 특히 심층 신경망(DNN)으로 알려진 형태로 기계 학습 작업을 수행함에 있어 인기가 증가하고 있는 것으로 밝혀진 그래픽 처리 장치(GPU) 또는 텐서 처리 장치(TPU) 가속 아키텍처를 채택할 수 있다. 본 발명의 실시양태는 GPU 기반 딥 러닝 인터페이스: A Performance and Power Analysis, NVidia Whitepaper, November 2015, Dahl, et al., Multi-task Neural Networks for QSAR Predictions, Dept. of Computer Science, Univ. of Toronto, June 2014 (arXiv:1406.1231 [stat.ML])에 기술된 것과 같은 GPU-기반 기계 학습을 채택할 수 있고, 이의 전부는 전문이 참조로 본 발명에 포함된다. 본 발명의 실시양태에 적용할 수 있는 기계 학습 기술은 다른 참조문헌 중에서, Libbrecht, et al., Machine learning applications in genetics and genomics, Nature Reviews: Genetics, Vol. 16, June 2015, Kashyap, et al., Big Data Analytics in Bioinformatics: A Machine Learning Perspective, Journal of Latex Class Files, Vol. 13, No. 9, Sept. 2014, Prompramote, et al., Machine Learning in Bioinformatics, Chapter 5 of Bioinformatics Technologies, pp. 117-153, Springer Berlin Heidelberg 2005에서 발견될 수 있고, 이의 전부는 전문이 참조로 본 발명에 포함된다.
컴퓨터 시스템 구현
도 6은 본 발명의 실시양태에 따라 클라우드 컴퓨팅 환경(604)를 예시한다. 본 발명의 실시양태에서, 도 1의 반응 주석 엔진(107) 및 예측 엔진(109)에 대한 소프트웨어(610)는 클라우드 컴퓨팅 시스템(602)에서 구현되어, 예를 들어, 여러 사용자가 본 발명의 실시양태에 따라 반응을 주석달고 생물도달가능 분자를 예측하게 할 수 있다. 도 7에 예시된 것과 같이, 클라이언트 컴퓨터(606)는 인터넷과 같은 네트워크(608)를 통해 시스템에 액세스한다. 시스템은 도 7에 예시되는 유형의 하나 이상의 프로세서를 사용하여 하나 이상의 컴퓨팅 시스템을 사용할 수 있다. 클라우드 컴퓨팅 시스템은 그 자체가 네트워크 인터페이스(612)를 포함하여 생물도달가능 예측 도구 소프트웨어(610)를 네트워크(608)를 통하여 클라이언트 컴퓨터(606)로 인터페이스한다. 네트워크 인터페이스(612)는 어플리케이션 프로그래밍 인터페이스(API, application programming interface)를 포함하여 클라이언트 컴퓨터(606)에서 클라이언트 어플리케이션이 시스템 소프트웨어(610)에 액세스하게 할 수 있다. 특히, API를 통해, 클라이언트 컴퓨터(606)는 주석 엔진(107) 및 예측 엔진(109)에 액세스할 수 있다.
서비스로서 소프트웨어(SaaS, software as a service) 소프트웨어 모듈(614)은 클라이언트 컴퓨터(606)에 서비스로서 생물도달가능 예측 도구 시스템 소프트웨어(610) 제공한다. 클라우드 관리 모듈(616)은 클라이언트 컴퓨터(606)에 의해 시스템(610)으로 액세스를 관리한다. 클라우드 관리 모듈(616)은 클라우드 아키텍쳐가 멀티테넌트(multitenant) 어플리케이션, 시각화 또는 당업계에 공지된 다른 아키텍쳐가 여러 사용자를 서빙하게 할 수 있다.
도 7은 본 발명의 실시양태에 따라 비-일시적 판독가능한 매체(예를 들어, 메모리)에 저장된 프로그램 코드를 실행하기 위해 사용될 수 있는 컴퓨터 시스템(800)의 예를 예시한다. 컴퓨터 시스템은 입력/출력 서브시스템(802)을 포함하고, 이는 어플리케이션에 따라서 인간 사용자 또는 다른 컴퓨터 시스템과 인터페이스로 접속하기 위해 사용될 수 있다. I/O 서브시스템(802)은, 예를 들어, 키보드, 마우스, 그래픽 사용자 인터페이스, 터치스크린, 또는 입력을 위한 다른 인터페이스, 및 예를 들어 LED 또는 다른 평면 스크린 디스플레이, 또는 어플리케이션 프로그램 인터페이스(API, application program interface)를 포함한, 출력을 위한 다른 인터페이스를 포함할 수 있다. 주석 엔진(107) 및 예측 엔진(109)과 같은, 본 발명의 실시양태의 다른 구성요소는 컴퓨터 시스템(800)의 그것과 같이 컴퓨터 시스템으로 구현될 수 있다.
프로그램 코드는 2차 메모리(810) 또는 주 메모리(808) 또는 둘 다에서 지속되는 저장과 같이 비-일시적인 매체에 저장될 수 있다. 주 메모리(808)는 랜덤 액세스 메모리(RAM)와 같은 휘발성 메모리 또는 리드 온리 메모리(ROM)와 같은 비-휘발성 메모리뿐만 아니라 명령어 및 데이터에 더 빠른 액세스를 위한 상이한 수준의 캐시(cache)를 포함할 수 있다. 이차 메모리는 고체 상태 드라이브, 하드 디스크 드라이브 또는 광학 디스크와 같은 지속적인 저장을 포함할 수 있다. 하나 이상의 프로세서(804)는 하나 이상의 비-일시적 매체로부터 프로그램 코드를 읽고 코드를 실행하여 컴퓨터 시스템이 본 명세서의 실시양태에 의해 수행된 방법을 완성되게 한다. 당업자는 프로세서가 소스 코드를 입수하고, 소스 코드를 해석하거나, 프로세서(804)의 하드웨어 게이트 수준에서 이해할 수 있는 기계로 소스 코드를 컴파일할 수 있는 것으로 이해된다. 프로세서(804)는 계산적으로 집중적인 태스크를 핸들링하기 위한 그래픽 처리 단위(GPU)를 포함할 수 있다.
프로세서(804)는 네트워크 인터페이스 카드, WiFi 무선기 등과 같은 하나 이상의 커뮤니케이션 인터페이스(807)를 통해 외부 네트워크와 통신할 수 있다. 버스(805)는 I/O 서브시스템(802), 프로세서(804), 주변 기기(806), 커뮤니케이션 인터페이스(807), 메모리(808), 및 지속적인 저장소(810)와 통신적으로 커플링한다. 본 발명의 실시양태는 이 대표적인 아키텍쳐에 제한되지 않는다. 대안적인 실시양태가 입력-출력 구성요소에 대한 분리된 버스 및 메모리 서브시스템과 같이 구성요소의 상이한 배열 및 유형을 사용할 수 있다.
당업자는 본 발명의 실시양태의 구성요소의 일부 또는 전부 및 그들의 동반하는 작동이 컴퓨터 시스템(800)의 그것들과 같은 하나 이상의 프로세서 및 하나 이상의 시스템을 포함하는 하나 이상의 컴퓨터 시스템에 의해 전체적으로 또는 부분적으로 구현될 수 있다는 것을 이해할 것이다. 특히, 본 명세서에 개시된 생물도달가능 예측 도구의 요소는 및 임의의 다른 자동화된 시스템 또는 장치는 컴퓨터 구현될 수 있다. 일부 요소 및 기능성은 국소적으로 구현될 수 있고, 다른 것들은 상이한 서버를 통하여 네트워크에 걸쳐, 예를 들어 클라이언트-서버 방식과 같이, 분배된 방식으로 구현될 수 있다. 특히, 서버-측 작동은 도 6에 도시된 바와 같이, 서버로서 소프트웨어(SaaS) 방식에서 여러 클라이언트에게 허용가능하게 이루어질 수 있다.
본 개시는 본 명세서에 개시된 일부 실시양태 또는 특징이 본 명세서에 개시된 다른 실시양태 또는 특징과 결합하는 것을 명시적으로 개시하지는 않지만, 이 개시는 당업자에 의해 실시될 수 있는 임의의 이러한 조합을 개시하는 것으로 해석되어야 한다. 본 발명에서 달리 명시되지 않는 한, 용어 "포함하다"는 "제한없이 포함하는" 것을 의미하고, "또는"이라는 용어는 "및/또는"의 방식으로 비-배타적 "또는"을 의미한다.
당업자는 일부 실시양태에서 본 명세서에 개시된 작동의 일부가 인간 구현화에 의해, 또는 자동화된 및 수동 수단의 조합을 통하여 수행될 수 있다는 것을 인식할 것이다. 작동이 완전히 자동화되지 않은 경우, 본 발명의 실시양태를 위한 적합한 구성요소들이, 예를 들어, 자체의 작동 능력을 통한 결과를 생성하는 것보다 작동의 인간 수행의 결과를 수신할 것이다.
본 발명에 인용된 모든 참고문헌, 논문, 간행물, 특허, 특허 공개공보 및 특허 출원은 모든 목적을 위해 그 전체가 본 발명에 참고로 포함된다. 그러나, 여기에 인용된 참고문헌, 논문, 간행물, 특허, 특허 공개공보 및 특허 출원에 대한 언급은 유효한 선행 기술을 구성하거나, 또는 세계 어느 국가에서의 일반적인 상식의 일부를 구성하거나, 또는 필수 사항을 공개하고 있다는 인정 또는 제안으로 간주되어서는 안된다.
아래의 청구항에서, "청구항 x로 시작하는 상기 청구항 중 어느 하나"를 인용하는 청구항 n은 청구항 x로 시작하여 바로 앞의 청구항위(청구항 n-1)로 끝나는 청구항 중 어느 하나를 언급할 것이다. 예를 들어, "제 28 항으로 시작하는 선행 청구항 중 어느 한 항의 시스템"을 인용하는 청구항 35는 제 28 항 내지 제 34 항 중 어느 한 항의 시스템을 지칭한다.
SEQUENCE LISTING <110> ZYMERGEN INC. <120> BIOREACHABLE PREDICTION TOOL WITH BIOLOGICAL SEQUENCE SELECTION <130> ZYM011WOPC01 <140> <141> <150> 62/720,811 <151> 2018-08-21 <150> 62/764,819 <151> 2018-08-15 <150> 62/764,861 <151> 2018-08-15 <160> 10 <170> PatentIn version 3.5 <210> 1 <211> 497 <212> PRT <213> Oryza sativa <400> 1 Met Glu Gly Val Gly Gly Gly Gly Gly Gly Glu Glu Trp Leu Arg Pro 1 5 10 15 Met Asp Ala Glu Gln Leu Arg Glu Cys Gly His Arg Met Val Asp Phe 20 25 30 Val Ala Asp Tyr Tyr Lys Ser Ile Glu Ala Phe Pro Val Leu Ser Gln 35 40 45 Val Gln Pro Gly Tyr Leu Lys Glu Val Leu Pro Asp Ser Ala Pro Arg 50 55 60 Gln Pro Asp Thr Leu Asp Ser Leu Phe Asp Asp Ile Gln Gln Lys Ile 65 70 75 80 Ile Pro Gly Val Thr His Trp Gln Ser Pro Asn Tyr Phe Ala Tyr Tyr 85 90 95 Pro Ser Asn Ser Ser Thr Ala Gly Phe Leu Gly Glu Met Leu Ser Ala 100 105 110 Ala Phe Asn Ile Val Gly Phe Ser Trp Ile Thr Ser Pro Ala Ala Thr 115 120 125 Glu Leu Glu Val Ile Val Leu Asp Trp Phe Ala Lys Met Leu Gln Leu 130 135 140 Pro Ser Gln Phe Leu Ser Thr Ala Leu Gly Gly Gly Val Ile Gln Gly 145 150 155 160 Thr Ala Ser Glu Ala Val Leu Val Ala Leu Leu Ala Ala Arg Asp Arg 165 170 175 Ala Leu Lys Lys His Gly Lys His Ser Leu Glu Lys Leu Val Val Tyr 180 185 190 Ala Ser Asp Gln Thr His Ser Ala Leu Gln Lys Ala Cys Gln Ile Ala 195 200 205 Gly Ile Phe Ser Glu Asn Val Arg Val Val Ile Ala Asp Cys Asn Lys 210 215 220 Asn Tyr Ala Val Ala Pro Glu Ala Val Ser Glu Ala Leu Ser Ile Asp 225 230 235 240 Leu Ser Ser Gly Leu Ile Pro Phe Phe Ile Cys Ala Thr Val Gly Thr 245 250 255 Thr Ser Ser Ser Ala Val Asp Pro Leu Pro Glu Leu Gly Gln Ile Ala 260 265 270 Lys Ser Asn Asp Met Trp Phe His Ile Asp Ala Ala Tyr Ala Gly Ser 275 280 285 Ala Cys Ile Cys Pro Glu Tyr Arg His His Leu Asn Gly Val Glu Glu 290 295 300 Ala Asp Ser Phe Asn Met Asn Ala His Lys Trp Phe Leu Thr Asn Phe 305 310 315 320 Asp Cys Ser Leu Leu Trp Val Lys Asp Arg Ser Phe Leu Ile Gln Ser 325 330 335 Leu Ser Thr Asn Pro Glu Phe Leu Lys Asn Lys Ala Ser Gln Ala Asn 340 345 350 Ser Val Val Asp Phe Lys Asp Trp Gln Ile Pro Leu Gly Arg Arg Phe 355 360 365 Arg Ser Leu Lys Leu Trp Met Val Leu Arg Leu Tyr Gly Val Asp Asn 370 375 380 Leu Gln Ser Tyr Ile Arg Lys His Ile His Leu Ala Glu His Phe Glu 385 390 395 400 Gln Leu Leu Leu Ser Asp Ser Arg Phe Glu Val Val Thr Pro Arg Thr 405 410 415 Phe Ser Leu Val Cys Phe Arg Leu Val Pro Pro Thr Ser Asp His Glu 420 425 430 Asn Gly Arg Lys Leu Asn Tyr Asp Met Met Asp Gly Val Asn Ser Ser 435 440 445 Gly Lys Ile Phe Leu Ser His Thr Val Leu Ser Gly Lys Phe Val Leu 450 455 460 Arg Phe Ala Val Gly Ala Pro Leu Thr Glu Glu Arg His Val Asp Ala 465 470 475 480 Ala Trp Lys Leu Leu Arg Asp Glu Ala Thr Lys Val Leu Gly Lys Met 485 490 495 Val <210> 2 <211> 575 <212> PRT <213> Modestobacter marinus <400> 2 Met Thr Gly His Met Thr Pro Glu Gln Phe Arg Gln His Gly His Glu 1 5 10 15 Val Val Asp Trp Ile Ala Asp Tyr Trp Glu Arg Ile Gly Ser Phe Pro 20 25 30 Val Arg Ser Gln Val Ser Pro Gly Asp Val Arg Ala Ser Leu Pro Pro 35 40 45 Thr Ala Pro Glu Gln Gly Glu Pro Phe Ser Ala Val Leu Ala Asp Leu 50 55 60 Asp Arg Val Val Leu Pro Gly Val Thr His Trp Gln His Pro Gly Phe 65 70 75 80 Phe Gly Tyr Phe Pro Ala Asn Thr Ser Gly Pro Ser Val Leu Gly Asp 85 90 95 Leu Val Ser Ala Gly Leu Gly Val Gln Gly Met Ser Trp Val Thr Ser 100 105 110 Pro Ala Ala Thr Glu Leu Glu Gln His Val Met Asp Trp Phe Ala Asp 115 120 125 Leu Leu Gly Leu Pro Glu Ser Phe Arg Ser Thr Gly Ser Gly Gly Gly 130 135 140 Val Val Gln Asp Ser Ser Ser Gly Ala Asn Leu Val Ala Leu Leu Ala 145 150 155 160 Ala Leu His Arg Ala Ser Lys Gly Ala Thr Leu Arg His Gly Val Arg 165 170 175 Pro Glu Asp His Thr Val Tyr Val Ser Ala Glu Thr His Ser Ser Met 180 185 190 Glu Lys Ala Ala Arg Ile Ala Gly Leu Gly Thr Asp Ala Ile Arg Ile 195 200 205 Val Glu Val Gly Pro Asp Leu Ala Met Asn Pro Arg Ala Leu Ala Gln 210 215 220 Arg Leu Glu Arg Asp Val Ala Arg Gly Tyr Thr Pro Val Leu Val Cys 225 230 235 240 Ala Thr Val Gly Thr Thr Ser Thr Thr Ala Ile Asp Pro Leu Ala Glu 245 250 255 Leu Gly Pro Ile Cys Gln Gln His Gly Val Trp Leu His Val Asp Ala 260 265 270 Ala Tyr Ala Gly Val Ser Ala Val Ala Pro Glu Leu Arg Ala Leu Gln 275 280 285 Ala Gly Val Glu Trp Ala Asp Ser Tyr Thr Thr Asp Ala His Lys Trp 290 295 300 Leu Leu Thr Gly Phe Asp Ala Thr Leu Phe Trp Val Ala Asp Arg Ala 305 310 315 320 Ala Leu Thr Gly Ala Leu Ser Ile Leu Pro Glu Tyr Leu Arg Asn Ala 325 330 335 Ala Thr Asp Thr Gly Ala Val Val Asp Tyr Arg Asp Trp Gln Ile Glu 340 345 350 Leu Gly Arg Arg Phe Arg Ala Leu Lys Leu Trp Phe Val Val Arg Trp 355 360 365 Tyr Gly Ala Glu Gly Leu Arg Glu His Val Arg Ser His Val Ala Leu 370 375 380 Ala Gln Glu Leu Ala Gly Trp Ala Asp Ala Asp Glu Arg Phe Asp Val 385 390 395 400 Ala Ala Pro His Pro Phe Ser Leu Val Cys Leu Arg Pro Arg Trp Ala 405 410 415 Pro Gly Ile Asp Ala Asp Val Ala Thr Met Thr Leu Leu Asp Arg Leu 420 425 430 Asn Asp Gly Gly Glu Val Phe Leu Thr His Thr Thr Val Asp Gly Ala 435 440 445 Ala Val Leu Arg Val Ala Ile Gly Ala Pro Ala Thr Thr Arg Glu His 450 455 460 Val Glu Arg Val Trp Ala Leu Leu Gly Glu Ala His Asp Trp Leu Ala 465 470 475 480 Arg Asp Phe Glu Glu Gln Ala Ala Glu Arg Arg Ala Ala Glu Leu Arg 485 490 495 Glu Arg Glu Ala Ala Glu Glu Gln Leu Arg Ala Arg Arg Glu Ala Glu 500 505 510 Ala Ala Ala Ala Ala Ala Thr Glu Ala Pro Val Glu Pro Ala Ala Glu 515 520 525 Glu Pro Glu Gln Leu Val Val Pro Pro Val Glu Val Pro Ala Val Glu 530 535 540 Thr Pro Ala Ala Trp Asp Glu Ser Ala Thr Gln Val Ala Ala Gln Thr 545 550 555 560 Asp Leu His Ala Asp Pro Ala Pro Gln Pro Ala Asp Gly Gln Gly 565 570 575 <210> 3 <211> 481 <212> PRT <213> Streptomyces sviceus <400> 3 Met Pro Asp Leu Glu Pro Asp Glu Phe Arg Arg Gln Gly His Gln Leu 1 5 10 15 Val Asp Trp Val Ala Arg Tyr Arg Thr Ser Leu Pro Ser Leu His Val 20 25 30 Arg Pro Lys Val Val Pro Gly Ser Val Lys Ala Gln Leu Pro Arg Glu 35 40 45 Leu Pro Glu Gln Pro Ser Gln Ala Leu Gly Asp Asp Leu Ile Ala Leu 50 55 60 Leu Asn Asp Val Val Val Pro Ser Ser Leu His Trp Gln His Pro Gly 65 70 75 80 Phe Phe Gly Tyr Phe Pro Ala Asn Ala Ser Leu Leu Ser Leu Leu Gly 85 90 95 Asp Ile Ala Ser Gly Gly Ile Gly Ala Gln Gly Met Leu Trp Ser Thr 100 105 110 Ser Pro Ala Gly Thr Glu Ile Glu Gln Val Leu Leu Asp Gly Leu Ala 115 120 125 Asp Ala Leu Gly Leu Gly Arg Glu Phe Thr Phe Ala Gly Gly Gly Gly 130 135 140 Gly Ser Leu Gln Asp Ser Ala Ser Ser Ala Ser Leu Ala Ala Leu Leu 145 150 155 160 Ala Ala Leu Gln Arg Ser Asn Pro Asp Trp Arg Glu His Gly Val Asp 165 170 175 Gly Thr Glu Thr Val Tyr Val Thr Ala Glu Thr His Ser Ser Leu Ala 180 185 190 Lys Ala Val Arg Val Ala Gly Leu Gly Ala Arg Ala Leu Arg Ile Val 195 200 205 Pro Phe Thr Gln Gly Thr Leu Ser Met Ser Ala Asp Ala Leu Ala Asp 210 215 220 Met Leu Ala Lys Asp Thr Ala Ala Gly Lys Arg Pro Val Met Val Cys 225 230 235 240 Pro Thr Val Gly Thr Thr Gly Thr Gly Ala Ile Asp Pro Val Arg Glu 245 250 255 Val Ala Leu Ala Ala Arg Thr Tyr Glu Ala Trp Val His Val Asp Ala 260 265 270 Ala Trp Ala Gly Val Ala Ala Leu Cys Pro Glu Phe Arg Trp Leu Leu 275 280 285 Asp Gly Val Asn Leu Val Asp Ser Phe Cys Thr Asp Ala His Lys Trp 290 295 300 Phe Tyr Thr Ala Phe Asp Ala Ser Phe Met Trp Val Arg Asp Ala Arg 305 310 315 320 Ala Leu Pro Thr Ala Leu Ser Ile Thr Pro Glu Tyr Leu Arg Asn Ala 325 330 335 Ala Thr Glu Ser Gly Glu Val Ile Asp Tyr Arg Asp Trp Gln Val Pro 340 345 350 Leu Gly Arg Arg Met Arg Ala Leu Lys Ile Trp Ser Val Val His Gly 355 360 365 Ala Gly Leu Glu Gly Leu Arg Glu Ser Ile Arg Gly His Val Ala Met 370 375 380 Ala Asn Ser Leu Ala Gly Arg Ile Glu Ser Glu Ser Gly Phe Ala Leu 385 390 395 400 Ala Thr Pro Pro Ser Leu Ala Leu Val Cys Leu Tyr Leu Val Asp Gln 405 410 415 Glu Gly Arg Pro Asp Asp Ala Ala Thr Lys Ala Ala Met Glu Ala Val 420 425 430 Asn Ala Glu Gly His Ser Phe Leu Thr His Thr Ser Val Asn Gly His 435 440 445 Phe Ala Ile Arg Val Ala Ile Gly Ala Thr Thr Thr Leu Pro Asp His 450 455 460 Ile Asp Thr Leu Trp Asp Ser Leu Cys Lys Ala Ala Arg Gln Ser Gly 465 470 475 480 Gly <210> 4 <211> 470 <212> PRT <213> Pseudomonas putida <400> 4 Met Thr Pro Glu Gln Phe Arg Gln Tyr Gly His Gln Leu Ile Asp Leu 1 5 10 15 Ile Ala Asp Tyr Arg Gln Thr Val Gly Glu Arg Pro Val Met Ala Gln 20 25 30 Val Glu Pro Gly Tyr Leu Lys Ala Ala Leu Pro Ala Thr Ala Pro Gln 35 40 45 Gln Gly Glu Pro Phe Ala Ala Ile Leu Asp Asp Val Asn Asn Leu Val 50 55 60 Met Pro Gly Leu Ser His Trp Gln His Pro Asp Phe Tyr Gly Tyr Phe 65 70 75 80 Pro Ser Asn Gly Thr Leu Ser Ser Val Leu Gly Asp Phe Leu Ser Thr 85 90 95 Gly Leu Gly Val Leu Gly Leu Ser Trp Gln Ser Ser Pro Ala Leu Ser 100 105 110 Glu Leu Glu Glu Thr Thr Leu Asp Trp Leu Arg Gln Leu Leu Gly Leu 115 120 125 Ser Gly Gln Trp Ser Gly Val Ile Gln Asp Thr Ala Ser Thr Ser Thr 130 135 140 Leu Val Ala Leu Ile Ser Ala Arg Glu Arg Ala Thr Asp Tyr Ala Leu 145 150 155 160 Val Arg Gly Gly Leu Gln Ala Glu Pro Lys Pro Leu Ile Val Tyr Val 165 170 175 Ser Ala His Ala His Ser Ser Val Asp Lys Ala Ala Leu Leu Ala Gly 180 185 190 Phe Gly Arg Asp Asn Ile Arg Leu Ile Pro Thr Asp Glu Arg Tyr Ala 195 200 205 Leu Arg Pro Glu Ala Leu Gln Ala Ala Ile Glu Gln Asp Leu Ala Ala 210 215 220 Gly Asn Gln Pro Cys Ala Val Val Ala Thr Thr Gly Thr Thr Thr Thr 225 230 235 240 Thr Ala Leu Asp Pro Leu Arg Pro Val Gly Glu Ile Ala Gln Ala Asn 245 250 255 Gly Leu Trp Leu His Val Asp Ser Ala Met Ala Gly Ser Ala Met Ile 260 265 270 Leu Pro Glu Cys Arg Trp Met Trp Asp Gly Ile Glu Leu Ala Asp Ser 275 280 285 Val Val Val Asn Ala His Lys Trp Leu Gly Val Ala Phe Asp Cys Ser 290 295 300 Ile Tyr Tyr Val Arg Asp Pro Gln His Leu Ile Arg Val Met Ser Thr 305 310 315 320 Asn Pro Ser Tyr Leu Gln Ser Ala Val Asp Gly Glu Val Lys Asn Leu 325 330 335 Arg Asp Trp Gly Ile Pro Leu Gly Arg Arg Phe Arg Ala Leu Lys Leu 340 345 350 Trp Phe Met Leu Arg Ser Glu Gly Val Asp Ala Leu Gln Ala Arg Leu 355 360 365 Arg Arg Asp Leu Asp Asn Ala Gln Trp Leu Ala Gly Gln Val Glu Ala 370 375 380 Ala Ala Glu Trp Glu Val Leu Ala Pro Val Gln Leu Gln Thr Leu Cys 385 390 395 400 Ile Arg His Arg Pro Ala Gly Leu Glu Gly Glu Ala Leu Asp Ala His 405 410 415 Thr Lys Gly Trp Ala Glu Arg Leu Asn Ala Ser Gly Ala Ala Tyr Val 420 425 430 Thr Pro Ala Thr Leu Asp Gly Arg Trp Met Val Arg Val Ser Ile Gly 435 440 445 Ala Leu Pro Thr Glu Arg Gly Asp Val Gln Arg Leu Trp Ala Arg Leu 450 455 460 Gln Asp Val Ile Lys Gly 465 470 <210> 5 <211> 384 <212> PRT <213> Propionibacterium sp. <400> 5 Met Gly Met Asp Ile Ser Ser Arg Pro Val Glu Trp Ala Ser Leu Ser 1 5 10 15 Glu Ile Thr Ala Ser Asp Val Ser Phe Glu Gly Gly Ala Ile Phe Asn 20 25 30 Ser Ile Cys Thr Arg Pro His Pro Leu Ala Ala Gln Val Met Ala Asp 35 40 45 Asn Leu His Leu Asn Ala Gly Asp Gly Arg Leu Phe Pro Ser Val Ala 50 55 60 Arg Cys Glu Ser Glu Ile Thr Asn Phe Leu Gly Gly Leu Met Gly Leu 65 70 75 80 Pro Arg Ala Val Gly Met Cys Thr Ser Gly Ala Thr Glu Ala Asn Leu 85 90 95 Ile Ala Val His Ser Ala Ile Glu Asn Trp Arg Arg Lys Gly Gly Gln 100 105 110 Gly Arg Pro Gln Val Ile Leu Gly Arg Gly Gly His Phe Ser Phe Asp 115 120 125 Lys Ile Ser Val Leu Leu Gly Val Glu Leu Val Leu Ala Trp Ser Asp 130 135 140 Ile Asp Thr Leu Lys Val Asp Pro Glu Ser Val Ser Glu Leu Ile Ser 145 150 155 160 Pro Arg Thr Ala Leu Ile Val Ala Thr Ala Gly Ser Ser Glu Thr Gly 165 170 175 Ala Val Asp Asp Val Glu Trp Leu Ser Arg Val Ala Leu Ser Lys Gly 180 185 190 Val Pro Leu His Val Asp Ala Ala Ser Gly Gly Leu Leu Ile Pro Phe 195 200 205 Leu Arg Asp Leu Gly Gly Ala Leu Pro Asp Ile Gly Phe Arg Asn Asp 210 215 220 Gly Val Thr Thr Ile Ala Ile Asp Pro His Lys Phe Gly Ser Ala Pro 225 230 235 240 Ile Pro Ser Gly His Leu Val Ala Arg Glu Trp Thr Trp Ile Glu Gly 245 250 255 Leu Arg Thr Glu Ser His Tyr Gln Gly Thr Ala Arg His Leu Thr Phe 260 265 270 Leu Gly Thr Arg Ser Gly Gly Ser Ile Leu Ala Thr Tyr Ala Leu Phe 275 280 285 Gly His Leu Gly Glu Lys Gly Leu Arg Gly Met Ala Glu Gln Leu Lys 290 295 300 Ala Leu Arg Ser His Leu Val Asp Arg Leu Arg Lys Ala Gly Ala Thr 305 310 315 320 Leu Ala Tyr Val Pro Glu Leu Met Val Val Ala Leu Lys Ala Asp Ser 325 330 335 Asp Ala Val Lys Val Leu Glu Arg Arg Gly Ile Phe Thr Ser Tyr Ala 340 345 350 Lys Arg Leu Gly Tyr Leu Arg Ile Val Val Gln Leu His Met Ser Glu 355 360 365 Gly Gln Val Asp Gly Leu Val Asp Ala Leu Leu Met Glu Gly Ile Val 370 375 380 <210> 6 <211> 361 <212> PRT <213> Enterococcus faecium <400> 6 Thr Lys Leu Gln Asn Asn Glu Leu Lys Arg Gly Trp Gly His Ile Val 1 5 10 15 Ala Asp Gly Ser Leu Ala Asn Leu Glu Gly Leu Trp Tyr Ala Arg Asn 20 25 30 Ile Lys Ser Leu Pro Leu Ala Met Lys Glu Val Thr Pro Glu Leu Val 35 40 45 Ala Gly Lys Ser Asp Trp Glu Leu Met Asn Leu Ser Thr Glu Glu Ile 50 55 60 Met Asn Leu Leu Asp Ser Val Pro Glu Lys Ile Asp Glu Ile Lys Ala 65 70 75 80 His Ser Ala Arg Ser Gly Lys His Leu Glu Lys Leu Gly Lys Trp Leu 85 90 95 Val Pro Gln Thr Lys His Tyr Ser Trp Leu Lys Ala Ala Asp Ile Ile 100 105 110 Gly Ile Gly Leu Asp Gln Val Ile Pro Val Pro Val Asp His Asn Tyr 115 120 125 Arg Met Asp Ile Asn Glu Leu Glu Lys Ile Val Arg Gly Leu Ala Ala 130 135 140 Glu Lys Thr Pro Ile Leu Gly Val Val Gly Val Val Gly Ser Thr Glu 145 150 155 160 Glu Gly Ala Ile Asp Gly Ile Asp Lys Ile Val Ala Leu Arg Arg Val 165 170 175 Leu Glu Lys Asp Gly Ile Tyr Phe Tyr Leu His Val Asp Ala Ala Tyr 180 185 190 Gly Gly Tyr Gly Arg Ala Ile Phe Leu Asp Glu Asp Asn Asn Phe Ile 195 200 205 Pro Phe Glu Asp Leu Lys Asp Val His Tyr Lys Tyr Asn Val Phe Thr 210 215 220 Glu Asn Lys Asp Tyr Ile Leu Glu Glu Val His Ser Ala Tyr Lys Ala 225 230 235 240 Ile Glu Glu Ala Glu Ser Val Thr Ile Asp Pro His Lys Met Gly Tyr 245 250 255 Val Pro Tyr Ser Ala Gly Gly Ile Val Ile Lys Asp Ile Arg Met Arg 260 265 270 Asp Val Ile Ser Tyr Phe Ala Thr Tyr Val Phe Glu Lys Gly Ala Asp 275 280 285 Ile Pro Ala Leu Leu Gly Ala Tyr Ile Leu Glu Gly Ser Lys Ala Gly 290 295 300 Ala Thr Ala Ala Ser Val Trp Ala Ala His His Val Leu Pro Leu Asn 305 310 315 320 Val Thr Gly Tyr Gly Lys Leu Met Gly Ala Ser Ile Glu Gly Ala His 325 330 335 Arg Phe Tyr Asn Phe Leu Lys Asp Leu Ser Phe Lys Val Gly Thr Lys 340 345 350 Asn Arg Ser Ser Ser Ile Thr Thr His 355 360 <210> 7 <211> 363 <212> PRT <213> Methanosphaerula palustris <400> 7 Met Leu Asn Lys Gly Leu Ala Glu Glu Glu Leu Phe Ser Phe Leu Ser 1 5 10 15 Lys Lys Arg Glu Glu Asp Leu Cys His Ser His Ile Leu Ser Ser Met 20 25 30 Cys Thr Val Pro His Pro Ile Ala Val Lys Ala His Leu Met Phe Met 35 40 45 Glu Thr Asn Leu Gly Asp Pro Gly Leu Phe Pro Gly Thr Ala Ser Leu 50 55 60 Glu Arg Leu Leu Ile Glu Arg Leu Gly Asp Leu Phe His His Arg Glu 65 70 75 80 Ala Gly Gly Tyr Ala Thr Ser Gly Gly Thr Glu Ser Asn Ile Gln Ala 85 90 95 Leu Arg Ile Ala Lys Ala Gln Lys Lys Val Asp Lys Pro Asn Val Val 100 105 110 Ile Pro Glu Thr Ser His Phe Ser Phe Lys Lys Ala Cys Asp Ile Leu 115 120 125 Gly Ile Gln Met Lys Thr Val Pro Ala Asp Arg Ser Met Arg Thr Asp 130 135 140 Ile Ser Glu Val Ser Asp Ala Ile Asp Lys Asn Thr Ile Ala Leu Val 145 150 155 160 Gly Ile Ala Gly Ser Thr Glu Tyr Gly Met Val Asp Asp Ile Gly Ala 165 170 175 Leu Ala Thr Ile Ala Glu Glu Glu Asp Leu Tyr Leu His Val Asp Ala 180 185 190 Ala Phe Gly Gly Leu Val Ile Pro Phe Leu Pro Asn Pro Pro Ala Phe 195 200 205 Asp Phe Ala Leu Pro Gly Val Ser Ser Ile Ala Val Asp Pro His Lys 210 215 220 Met Gly Met Ser Thr Leu Pro Ala Gly Ala Leu Leu Val Arg Glu Pro 225 230 235 240 Gln Met Leu Gly Leu Leu Asn Ile Asp Thr Pro Tyr Leu Thr Val Lys 245 250 255 Gln Glu Tyr Thr Leu Ala Gly Thr Arg Pro Gly Ala Ser Val Ala Gly 260 265 270 Ala Leu Ala Val Leu Asp Tyr Met Gly Arg Asp Gly Met Glu Ala Val 275 280 285 Val Ala Gly Cys Met Lys Asn Thr Ser Arg Leu Ile Arg Gly Met Glu 290 295 300 Thr Leu Gly Phe Pro Arg Ala Val Thr Pro Asp Val Asn Val Ala Thr 305 310 315 320 Phe Ile Thr Asn His Pro Ala Pro Lys Asn Trp Val Val Ser Gln Thr 325 330 335 Arg Arg Gly His Met Arg Ile Ile Cys Met Pro His Val Thr Ala Asp 340 345 350 Met Ile Glu Gln Phe Leu Ile Asp Ile Gly Glu 355 360 <210> 8 <211> 432 <212> PRT <213> Petroselinum crispum <400> 8 Glu Phe Arg Arg Gln Gly His Leu Met Ile Asp Phe Leu Ala Asp Tyr 1 5 10 15 Tyr Arg Lys Val Glu Asn Tyr Pro Val Arg Ser Gln Val Ser Pro Gly 20 25 30 Tyr Leu Arg Glu Ile Leu Pro Glu Ser Ala Pro Tyr Asn Pro Glu Ser 35 40 45 Leu Glu Thr Ile Leu Gln Asp Val Gln Thr Lys Ile Ile Pro Gly Ile 50 55 60 Thr His Trp Gln Ser Pro Asn Phe Phe Ala Tyr Phe Pro Ser Ser Gly 65 70 75 80 Ser Thr Ala Gly Phe Leu Gly Glu Met Leu Ser Thr Gly Phe Asn Val 85 90 95 Val Gly Phe Asn Trp Met Val Ser Pro Ala Ala Thr Glu Leu Glu Asn 100 105 110 Val Val Thr Asp Trp Phe Gly Lys Met Leu Gln Leu Pro Lys Ser Phe 115 120 125 Leu Phe Ser Gly Gly Gly Gly Gly Val Leu Gln Gly Thr Thr Cys Glu 130 135 140 Ala Ile Leu Cys Thr Leu Val Ala Ala Arg Asp Lys Asn Leu Arg Gln 145 150 155 160 His Gly Met Asp Asn Ile Gly Lys Leu Val Val Tyr Cys Ser Asp Gln 165 170 175 Thr His Ser Ala Leu Gln Lys Ala Ala Lys Ile Ala Gly Ile Asp Pro 180 185 190 Lys Asn Phe Arg Ala Ile Glu Thr Ser Lys Ser Ser Asn Phe Lys Leu 195 200 205 Cys Pro Lys Arg Leu Glu Ser Ala Ile Leu Tyr Asp Leu Gln Asn Gly 210 215 220 Leu Ile Pro Leu Tyr Leu Cys Ala Thr Val Gly Thr Thr Ser Ser Thr 225 230 235 240 Thr Val Asp Pro Leu Pro Ala Leu Thr Glu Val Ala Lys Lys Tyr Lys 245 250 255 Leu Trp Val His Val Asp Ala Ala Tyr Ala Gly Ser Ala Cys Ile Cys 260 265 270 Pro Glu Phe Arg Gln Tyr Leu Asp Gly Val Glu Asn Ala Asp Ser Phe 275 280 285 Ser Leu Asn Ala His Lys Trp Phe Leu Thr Thr Leu Asp Cys Cys Cys 290 295 300 Leu Trp Val Arg Asp Pro Ser Ala Leu Ile Lys Ser Leu Ser Thr Tyr 305 310 315 320 Pro Glu Phe Leu Lys Asn Asn Ala Ser Glu Thr Asn Lys Val Val Asp 325 330 335 Tyr Lys Asp Trp Gln Ile Met Leu Ser Arg Arg Phe Arg Ala Leu Lys 340 345 350 Leu Trp Phe Val Leu Arg Ser Tyr Gly Val Gly Gln Leu Arg Glu Phe 355 360 365 Ile Arg Gly His Val Gly Met Ala Lys Tyr Phe Glu Gly Leu Val Gly 370 375 380 Met Asp Asn Arg Phe Glu Val Val Ala Pro Arg Leu Phe Ser Met Val 385 390 395 400 Cys Phe Arg Ile Lys Pro Ser Ala Met Ile Gly Lys Asn Asp Glu Asp 405 410 415 Glu Val Asn Glu Ile Asn Arg Lys Leu Leu Glu Ser Val Asn Asp Ser 420 425 430 <210> 9 <211> 396 <212> PRT <213> Methanocaldococcus jannaschii <400> 9 Met Arg Asn Met Gln Glu Lys Gly Val Ser Glu Lys Glu Ile Leu Glu 1 5 10 15 Glu Leu Lys Lys Tyr Arg Ser Leu Asp Leu Lys Tyr Glu Asp Gly Asn 20 25 30 Ile Phe Gly Ser Met Cys Ser Asn Val Leu Pro Ile Thr Arg Lys Ile 35 40 45 Val Asp Ile Phe Leu Glu Thr Asn Leu Gly Asp Pro Gly Leu Phe Lys 50 55 60 Gly Thr Lys Leu Leu Glu Glu Lys Ala Val Ala Leu Leu Gly Ser Leu 65 70 75 80 Leu Asn Asn Lys Asp Ala Tyr Gly His Ile Val Ser Gly Gly Thr Glu 85 90 95 Ala Asn Leu Met Ala Leu Arg Cys Ile Lys Asn Ile Trp Arg Glu Lys 100 105 110 Arg Arg Lys Gly Leu Ser Lys Asn Glu His Pro Lys Ile Ile Val Pro 115 120 125 Ile Thr Ala His Phe Ser Phe Glu Lys Gly Arg Glu Met Met Asp Leu 130 135 140 Glu Tyr Ile Tyr Ala Pro Ile Lys Glu Asp Tyr Thr Ile Asp Glu Lys 145 150 155 160 Phe Val Lys Asp Ala Val Glu Asp Tyr Asp Val Asp Gly Ile Ile Gly 165 170 175 Ile Ala Gly Thr Thr Glu Leu Gly Thr Ile Asp Asn Ile Glu Glu Leu 180 185 190 Ser Lys Ile Ala Lys Glu Asn Asn Ile Tyr Ile His Val Asp Ala Ala 195 200 205 Phe Gly Gly Leu Val Ile Pro Phe Leu Asp Asp Lys Tyr Lys Lys Lys 210 215 220 Gly Val Asn Tyr Lys Phe Asp Phe Ser Leu Gly Val Asp Ser Ile Thr 225 230 235 240 Ile Asp Pro His Lys Met Gly His Cys Pro Ile Pro Ser Gly Gly Ile 245 250 255 Leu Phe Lys Asp Ile Gly Tyr Lys Arg Tyr Leu Asp Val Asp Ala Pro 260 265 270 Tyr Leu Thr Glu Thr Arg Gln Ala Thr Ile Leu Gly Thr Arg Val Gly 275 280 285 Phe Gly Gly Ala Cys Thr Tyr Ala Val Leu Arg Tyr Leu Gly Arg Glu 290 295 300 Gly Gln Arg Lys Ile Val Asn Glu Cys Met Glu Asn Thr Leu Tyr Leu 305 310 315 320 Tyr Lys Lys Leu Lys Glu Asn Asn Phe Lys Pro Val Ile Glu Pro Ile 325 330 335 Leu Asn Ile Val Ala Ile Glu Asp Glu Asp Tyr Lys Glu Val Cys Lys 340 345 350 Lys Leu Arg Asp Arg Gly Ile Tyr Val Ser Val Cys Asn Cys Val Lys 355 360 365 Ala Leu Arg Ile Val Val Met Pro His Ile Lys Arg Glu His Ile Asp 370 375 380 Asn Phe Ile Glu Ile Leu Asn Ser Ile Lys Arg Asp 385 390 395 <210> 10 <211> 531 <212> PRT <213> Papaver somniferum <400> 10 Met Gly Ser Leu Asn Thr Glu Asp Val Leu Glu Asn Ser Ser Ala Phe 1 5 10 15 Gly Val Thr Asn Pro Leu Asp Pro Glu Glu Phe Arg Arg Gln Gly His 20 25 30 Met Ile Ile Asp Phe Leu Ala Asp Tyr Tyr Arg Asp Val Glu Lys Tyr 35 40 45 Pro Val Arg Ser Gln Val Glu Pro Gly Tyr Leu Arg Lys Arg Leu Pro 50 55 60 Glu Thr Ala Pro Tyr Asn Pro Glu Ser Ile Glu Thr Ile Leu Gln Asp 65 70 75 80 Val Thr Thr Glu Ile Ile Pro Gly Leu Thr His Trp Gln Ser Pro Asn 85 90 95 Tyr Tyr Ala Tyr Phe Pro Ser Ser Gly Ser Val Ala Gly Phe Leu Gly 100 105 110 Glu Met Leu Ser Thr Gly Phe Asn Val Val Gly Phe Asn Trp Met Ser 115 120 125 Ser Pro Ala Ala Thr Glu Leu Glu Ser Val Val Met Asp Trp Phe Gly 130 135 140 Lys Met Leu Asn Leu Pro Glu Ser Phe Leu Phe Ser Gly Ser Gly Gly 145 150 155 160 Gly Val Leu Gln Gly Thr Ser Cys Glu Ala Ile Leu Cys Thr Leu Thr 165 170 175 Ala Ala Arg Asp Arg Lys Leu Asn Lys Ile Gly Arg Glu His Ile Gly 180 185 190 Arg Leu Val Val Tyr Gly Ser Asp Gln Thr His Cys Ala Leu Gln Lys 195 200 205 Ala Ala Gln Val Ala Gly Ile Asn Pro Lys Asn Phe Arg Ala Ile Lys 210 215 220 Thr Phe Lys Glu Asn Ser Phe Gly Leu Ser Ala Ala Thr Leu Arg Glu 225 230 235 240 Val Ile Leu Glu Asp Ile Glu Ala Gly Leu Ile Pro Leu Phe Val Cys 245 250 255 Pro Thr Val Gly Thr Thr Ser Ser Thr Ala Val Asp Pro Ile Ser Pro 260 265 270 Ile Cys Glu Val Ala Lys Glu Tyr Glu Met Trp Val His Val Asp Ala 275 280 285 Ala Tyr Ala Gly Ser Ala Cys Ile Cys Pro Glu Phe Arg His Phe Ile 290 295 300 Asp Gly Val Glu Glu Ala Asp Ser Phe Ser Leu Asn Ala His Lys Trp 305 310 315 320 Phe Phe Thr Thr Leu Asp Cys Cys Cys Leu Trp Val Lys Asp Pro Ser 325 330 335 Ala Leu Val Lys Ala Leu Ser Thr Asn Pro Glu Tyr Leu Arg Asn Lys 340 345 350 Ala Thr Glu Ser Arg Gln Val Val Asp Tyr Lys Asp Trp Gln Ile Ala 355 360 365 Leu Ser Arg Arg Phe Arg Ser Leu Lys Leu Trp Met Val Leu Arg Ser 370 375 380 Tyr Gly Val Thr Asn Leu Arg Asn Phe Leu Arg Ser His Val Lys Met 385 390 395 400 Ala Lys Thr Phe Glu Gly Leu Ile Cys Met Asp Gly Arg Phe Glu Ile 405 410 415 Thr Val Pro Arg Thr Phe Ala Met Val Cys Phe Arg Leu Leu Pro Pro 420 425 430 Lys Thr Ile Lys Val Tyr Asp Asn Gly Val His Gln Asn Gly Asn Gly 435 440 445 Val Val Pro Leu Arg Asp Glu Asn Glu Asn Leu Val Leu Ala Asn Lys 450 455 460 Leu Asn Gln Val Tyr Leu Glu Thr Val Asn Ala Thr Gly Ser Val Tyr 465 470 475 480 Met Thr His Ala Val Val Gly Gly Val Tyr Met Ile Arg Phe Ala Val 485 490 495 Gly Ser Thr Leu Thr Glu Glu Arg His Val Ile Tyr Ala Trp Lys Ile 500 505 510 Leu Gln Glu His Ala Asp Leu Ile Leu Gly Lys Phe Ser Glu Ala Asp 515 520 525 Phe Ser Ser 530

Claims (75)

  1. 숙주 세포에서 기능을 가능하게 하는 후보 생물학적 서열을 식별하기 위한 컴퓨터 구현 방법으로, 이 방법은
    a) 복수의 생물학적 서열을 하나 이상의 기능과 연관시키는 예측 모델을 사용하여, 복수의 생물학적 서열 중 하나 이상의 후보 서열이 원하는 기능을 가능하게 한다는 것을 예측하는 단계;
    b) 프로세서를 사용하여, 신뢰 임계값을 만족하는 후보 서열을 필터링된 후보 서열로 분류하는 단계,
    i) 여기서 필터링된 후보 서열 중 하나 이상의 제 1 필터링된 후보 서열의 처리는 하나 이상의 상응하는 분자의 생성을 초래한다; 및
    c) 필터링된 후보 서열을 나타내는 데이터를 반환하는 단계
    를 포함하는 것인 숙주 세포에서 기능을 가능하게 하는 후보 생물학적 서열을 식별하기 위한 컴퓨터 구현 방법.
  2. 제 1 항에 있어서,
    a) 필터링된 후보 서열 중 적어도 하나가 원하는 기능을 가능하게 하는지에 대한 경험적 데이터를 획득하는 단계; 및
    b) 경험적 데이터를 사용하여 예측 모델을 개선하는 단계
    를 추가로 포함하는 것인 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    예측 모델은 기계 학습을 사용하는 것인 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    분류하는 단계는 신뢰 임계값을 만족하는 후보 서열의 다양한 세트를 필터링된 후보 서열로 분류하는 것을 포함하는 것인 방법.
  5. 제 4 항에 있어서,
    다양한 세트를 필터링된 후보 서열로 분류하는 것은
    a) 신뢰 임계값을 만족하는 복수의 후보 서열을 복수의 클러스터의 각 클러스터로 클러스터링하는 단계; 및
    b) 다양한 세트 내에 포함된 것과 같은, 복수의 클러스터 중 적어도 2개의 클러스터의 각각으로부터 적어도 하나의 후보 서열을 식별하는 단계
    를 포함하는 것인 방법.
  6. 제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
    분류하는 단계는
    a) 신뢰 임계값을 만족하지만 원하는 기능과 다른 기능을 가능하게 할 가능성이 더 큰 후보 서열을 필터링된 후보 서열로서 분류하지 않는 것
    을 추가로 포함하는 것인 방법.
  7. 제 6 항에 있어서,
    분류하지 않는 것은 신뢰 임계값을 만족하지만 주어진 허용오차 내에서 원하는 기능과 다른 기능을 가능하게 할 가능성이 더 큰 후보 서열을 필터링된 후보 서열로서 분류하지 않는 것을 포함하는 것인 방법.
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
    생물학적 서열이 효소 아미노산 서열이고, 원하는 기능이 효소-촉매 반응인 방법.
  9. 제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
    생물학적 서열이 효소 아미노산 서열을 포함하고 하나 이상의 효소적 기능이 하나 이상의 반응 경로를 따르는 하나 이상의 효소-촉매 반응이며, 각각의 반응 경로는 분자를 생성하기 위한 것인 방법.
  10. 제 1 항 내지 제 9 항 중 어느 한 항에 있어서,
    생물학적 서열이 효소를 코딩하는 뉴클레오티드 서열을 포함하고, 원하는 기능이 효소-촉매 반응인 방법.
  11. 제 1 항 내지 제 10 항 중 어느 한 항에 있어서,
    처리는 하나 이상의 제 1 필터링된 후보 서열 중 적어도 하나에 상응하는 적어도 하나의 뉴클레오티드 서열을 숙주 세포로 엔지니어링하는 것을 포함하는 것인 방법.
  12. 제 1 항 내지 제 11 항 중 어느 한 항에 있어서,
    예측 모델이 서열 정렬에 적어도 부분적으로 기초하는 것인 방법.
  13. 제 1 항 내지 제 12 항 중 어느 한 항에 있어서,
    예측 모델은 다음 모델들: 은닉 마르코프 모델(Hidden Markov Model; HMM), 인공 신경망, 또는 동적 베이지안 네트워크 중 적어도 하나에 적어도 부분적으로 기초하는 것인 방법.
  14. 제 1 항 내지 제 13 항 중 어느 한 항에 있어서,
    하나 이상의 제 1 필터링된 후보 서열에 관한 정보를 유전자 제조 시스템에 제공하는 단계를 추가로 포함하며, 여기서 유전자 제조 시스템은 숙주 세포가 하나 이상의 제 1 필터링된 후보 서열을 사용하여 하나 이상의 분자를 생산할 수 있도록 작동 가능한 것인 방법.
  15. 제 1 항 내지 제 14 항 중 어느 한 항에 있어서,
    하나 이상의 제 1 필터링된 후보 서열 중 적어도 하나를 사용하여 하나 이상의 분자 중 적어도 하나를 생성하는 단계를 추가로 포함하는 것인 방법.
  16. 제 1 항 내지 제 15 항 중 어느 한 항에 있어서,
    하나 이상의 분자가 생물도달가능(bioreachable) 분자인 방법.
  17. 제 1 항 내지 제 16 항 중 어느 한 항에 있어서,
    기능이 전사 기능 또는 수송 기능 중 하나인 방법.
  18. 제 1 항 내지 제 17 항 중 어느 한 항에 있어서,
    하나 이상의 분자가 필터링된 후보 서열 중 하나 이상인 방법.
  19. 제 1 항 내지 제 18 항 중 어느 한 항에 있어서,
    필터링된 후보 서열 중 하나는 효소 아미노산 서열을 포함하고, 처리는 효소 아미노산 서열을 사용하여 반응을 촉매하는 것을 포함하는 것인 방법.
  20. 제 1 항 내지 제 19 항 중 어느 한 항에 있어서,
    하나 이상의 분자가 하나 이상의 생물도달가능 분자인 것으로 예측되는 하나 이상의 분자를 포함하는 것인 방법.
  21. 제 1 항 내지 제 20 항 중 어느 한 항에 있어서,
    하나 이상의 분자가
    a) 적어도 하나의 프로세서를 사용하여, 반응이 반응을 촉매화하는 데 이용 가능한 것으로 표시되는 하나 이상의 상응하는 촉매에 의해 반응이 촉매화된 것으로 표시되는지 여부에 적어도 부분적으로 기초하여 반응을 선택하는 단계, 여기서 반응 세트는 선택된 반응을 포함한다; 및
    b) 적어도 하나의 프로세서에 의해 수행되는 하나 이상의 처리 단계의 각 처리 단계에서, 반응 세트의 하나 이상의 반응에 따라, 숙주 세포에 대한 출발 대사산물 및 이전 처리 단계에서 생성된 대사산물을 나타내는 데이터를 처리하여, 하나 이상의 분자를 나타내는 데이터를 생성하는 단계
    에 의해 예측되는 것인 방법.
  22. 제 21 항에 있어서,
    선택하는 단계는 유기체 내로 엔지니어링될 수 있거나 또는 유기체가 성장하는 성장 배지로부터 흡수될 수 있는 것으로 표시되는 하나 이상의 상응하는 촉매에 의해 촉매된 것으로 표시되는 반응을 선택하는 것을 포함하는 것인 방법.
  23. 제 21 항에 있어서,
    선택하는 단계는 하나 이상의 아미노산 서열 또는 하나 이상의 유전적 서열에 상응하는 것으로 표시되는 하나 이상의 상응하는 촉매에 의해 촉매화되는 것으로 표시된 반응을 선택하는 것을 포함하는 것인 방법.
  24. 제 21 항에 있어서,
    선택하는 단계는 반응이 반응을 촉매화하는 데 이용 가능한 것으로 표시된 하나 이상의 상응하는 촉매에 의해 촉매화되는 것으로 적어도 하나의 데이터베이스에 반응이 표시되는지 여부에 적어도 부분적으로 기초하여 반응을 선택하는 것을 포함하는 것인 방법.
  25. 제 1 항 내지 제 24 항 중 어느 한 항에 있어서,
    숙주 세포가 미생물, 식물 또는 동물 조직에서 유래하거나, 또는 단세포 유기체 또는 다세포 유기체의 일부인 방법.
  26. 숙주 세포에서 기능을 가능하게 하기 위한 후보 생물학적 서열을 식별하기 위한 시스템으로, 시스템은
    하나 이상의 프로세서; 및
    하나 이상의 프로세서 중 적어도 하나에 의해 실행될 때, 시스템이 다음을 수행하도록 하는 명령어를 저장하는 하나 이상의 메모리:
    a) 복수의 생물학적 서열을 하나 이상의 기능과 연관시키는 예측 모델을 사용하여, 복수의 생물학적 서열 중 하나 이상의 후보 서열이 원하는 기능을 가능하게 한다는 것을 예측한다;
    b) 프로세서를 사용하여, 신뢰 임계값을 만족하는 후보 서열을 필터링된 후보 서열로 분류한다,
    i) 여기서 필터링된 후보 서열 중 하나 이상의 제 1 필터링된 후보 서열의 처리는 하나 이상의 상응하는 분자의 생성을 초래한다; 및
    c) 필터링된 후보 서열을 나타내는 데이터를 반환한다
    를 포함하는 것인 숙주 세포에서 기능을 가능하게 하기 위한 후보 생물학적 서열을 식별하기 위한 시스템.
  27. 제 26 항에 있어서,
    하나 이상의 메모리 중 적어도 하나는 하나 이상의 프로세서 중 적어도 하나에 의해 실행될 때, 시스템이 다음:
    a) 필터링된 후보 서열 중 적어도 하나가 원하는 기능을 가능하게 하는지에 대한 경험적 데이터를 획득한다; 및
    b) 경험적 데이터를 사용하여 예측 모델을 개선한다
    를 수행하도록 하는 명령어를 저장하는 것인 시스템.
  28. 제 26 항 또는 제 27 항에 있어서,
    예측 모델은 기계 학습을 사용하는 것인 시스템.
  29. 제 26 항 내지 제 28 항 중 어느 한 항에 있어서,
    분류하는 것은 신뢰 임계값을 만족하는 후보 서열의 다양한 세트를 필터링된 후보 서열로 분류하는 것을 포함하는 것인 시스템.
  30. 제 29 항에 있어서,
    다양한 세트를 필터링된 후보 서열로 분류하는 것은
    a) 신뢰 임계값을 만족하는 복수의 후보 서열을 복수의 클러스터의 각 클러스터로 클러스터링하는 것; 및
    b) 다양한 세트 내에 포함된 것과 같은, 복수의 클러스터 중 적어도 2개의 클러스터의 각각으로부터 적어도 하나의 후보 서열을 식별하는 것
    을 포함하는 것인 시스템.
  31. 제 26 항 내지 제 30 항 중 어느 한 항에 있어서,
    분류하는 것은
    a) 신뢰 임계값을 만족하지만 원하는 기능과 다른 기능을 가능하게 할 가능성이 더 큰 후보 서열을 필터링된 후보 서열로서 분류하지 않는 것
    을 추가로 포함하는 것인 시스템.
  32. 제 31 항에 있어서,
    분류하지 않는 것은 신뢰 임계값을 만족하지만 주어진 허용오차 내에서 원하는 기능과 다른 기능을 가능하게 할 가능성이 더 큰 후보 서열을 필터링된 후보 서열로서 분류하지 않는 것을 포함하는 것인 시스템.
  33. 제 26 항 내지 제 32 항 중 어느 한 항에 있어서,
    생물학적 서열이 효소 아미노산 서열이고, 원하는 기능이 효소-촉매 반응인 시스템.
  34. 제 26 항 내지 제 33 항 중 어느 한 항에 있어서,
    생물학적 서열이 효소 아미노산 서열을 포함하고 하나 이상의 효소적 기능이 하나 이상의 반응 경로를 따르는 하나 이상의 효소-촉매 반응이며, 각각의 반응 경로는 분자를 생성하기 위한 것인 시스템.
  35. 제 26 항 내지 제 34 항 중 어느 한 항에 있어서,
    생물학적 서열이 효소를 코딩하는 뉴클레오티드 서열을 포함하고, 원하는 기능이 효소-촉매 반응인 시스템.
  36. 제 26 항 내지 제 35 항 중 어느 한 항에 있어서,
    처리는 하나 이상의 제 1 필터링된 후보 서열 중 하나 이상에 상응하는 적어도 하나의 뉴클레오티드 서열을 숙주 세포로 엔지니어링하는 것을 포함하는 것인 시스템.
  37. 제 26 항 내지 제 36 항 중 어느 한 항에 있어서,
    예측 모델이 서열 정렬에 적어도 부분적으로 기초하는 것인 시스템.
  38. 제 26 항 내지 제 37 항 중 어느 한 항에 있어서,
    예측 모델은 다음 모델들: 은닉 마르코프 모델(Hidden Markov Model; HMM), 인공 신경망, 또는 동적 베이지안 네트워크 중 적어도 하나에 적어도 부분적으로 기초하는 것인 시스템.
  39. 제 26 항 내지 제 38 항 중 어느 한 항에 있어서,
    하나 이상의 메모리 중 적어도 하나는 하나 이상의 프로세서 중 적어도 하나에 의해 실행될 때, 시스템이 하나 이상의 제 1 필터링된 후보 서열에 관한 정보를 유전자 제조 시스템에 제공하게 하는 명령어를 저장하고, 여기서 유전자 제조 시스템은 숙주 세포가 하나 이상의 제 1 필터링된 후보 서열을 사용하여 하나 이상의 분자를 생산할 수 있는 반응 경로가 가능하도록 작동 가능한 것인 시스템.
  40. 제 26 항 내지 제 39 항 중 어느 한 항에 있어서,
    하나 이상의 메모리 중 적어도 하나는 하나 이상의 프로세서 중 적어도 하나에 의해 실행될 때, 하나 이상의 제 1 필터링된 후보 서열 중 적어도 하나를 사용하여 하나 이상의 분자 중 적어도 하나의 생산을 유발하는 명령어를 저장하는 것인 시스템.
  41. 제 26 항 내지 제 40 항 중 어느 한 항에 있어서,
    하나 이상의 분자가 생물도달가능(bioreachable) 분자인 시스템.
  42. 제 26 항 내지 제 41 항 중 어느 한 항에 있어서,
    기능이 전사 기능 또는 수송 기능 중 하나인 시스템.
  43. 제 26 항 내지 제 42 항 중 어느 한 항에 있어서,
    하나 이상의 분자가 필터링된 후보 서열 중 하나 이상인 시스템.
  44. 제 26 항 내지 제 43 항 중 어느 한 항에 있어서,
    필터링된 후보 서열 중 하나는 효소 아미노산 서열을 포함하고, 처리는 효소 아미노산 서열을 사용하여 반응을 촉매하는 것을 포함하는 것인 시스템.
  45. 제 26 항 내지 제 44 항 중 어느 한 항에 있어서,
    하나 이상의 분자가 하나 이상의 생물도달가능 분자인 것으로 예측되는 하나 이상의 분자를 포함하는 것인 시스템.
  46. 제 26 항 내지 제 45 항 중 어느 한 항에 있어서,
    하나 이상의 분자가
    a) 반응이 반응을 촉매화하는 데 이용 가능한 것으로 표시되는 하나 이상의 상응하는 촉매에 의해 반응이 촉매화된 것으로 표시되는지 여부에 적어도 부분적으로 기초하여 반응을 선택하는 것, 여기서 반응 세트는 선택된 반응을 포함한다; 및
    b) 하나 이상의 처리 단계의 각 처리 단계에서, 반응 세트의 하나 이상의 반응에 따라, 숙주 세포에 대한 출발 대사산물 및 이전 처리 단계에서 생성된 대사산물을 나타내는 데이터를 처리하여, 하나 이상의 분자를 나타내는 데이터를 생성하는 것
    에 의해 예측되는 것인 시스템.
  47. 제 46 항에 있어서,
    선택은 유기체 내로 엔지니어링될 수 있거나 또는 유기체가 성장하는 성장 배지로부터 흡수될 수 있는 것으로 표시되는 하나 이상의 상응하는 촉매에 의해 촉매된 것으로 표시되는 반응을 선택하는 것을 포함하는 것인 시스템.
  48. 제 46 항에 있어서,
    선택은 하나 이상의 아미노산 서열 또는 하나 이상의 유전적 서열에 상응하는 것으로 표시되는 하나 이상의 상응하는 촉매에 의해 촉매화되는 것으로 표시된 반응을 선택하는 것을 포함하는 것인 시스템.
  49. 제 46 항에 있어서,
    선택은 반응이 반응을 촉매화하는 데 이용 가능한 것으로 표시된 하나 이상의 상응하는 촉매에 의해 촉매화되는 것으로 적어도 하나의 데이터베이스에 반응이 표시되는지 여부에 적어도 부분적으로 기초하여 반응을 선택하는 것을 포함하는 것인 시스템.
  50. 제 26 항 내지 제 49 항 중 어느 한 항에 있어서,
    숙주 세포가 미생물, 식물 또는 동물 조직에서 유래하거나, 또는 단세포 유기체 또는 다세포 유기체의 일부인 시스템.
  51. 숙주 세포에서 기능을 가능하게 하기 위한 후보 생물학적 서열을 식별하기 위한 명령어를 저장하는 하나 이상의 비 일시적 컴퓨터 판독 가능 매체로, 여기서 명령어는 하나 이상의 컴퓨팅 장치에 의해 실행될 때, 하나 이상의 컴퓨팅 장치 중 적어도 하나가 다음:
    a) 복수의 생물학적 서열을 하나 이상의 기능과 연관시키는 예측 모델을 사용하여, 복수의 생물학적 서열 중 하나 이상의 후보 서열이 원하는 기능을 가능하게 한다는 것을 예측한다;
    b) 프로세서를 사용하여, 신뢰 임계값을 만족하는 후보 서열을 필터링된 후보 서열로 분류한다,
    i) 여기서 필터링된 후보 서열 중 제 1 필터링된 후보 서열의 처리는 분자의 생성을 초래한다; 및
    c) 필터링된 후보 서열을 나타내는 데이터를 반환한다
    를 수행하도록 하는 것인 숙주 세포에서 기능을 가능하게 하기 위한 후보 생물학적 서열을 식별하기 위한 명령어를 저장하는 하나 이상의 비 일시적 컴퓨터 판독 가능 매체.
  52. 제 51 항에 있어서,
    실행될 때, 하나 이상의 컴퓨팅 장치 중 적어도 하나가 다음:
    a) 필터링된 후보 서열 중 적어도 하나가 원하는 기능을 가능하게 하는지에 대한 경험적 데이터를 획득한다; 및
    b) 경험적 데이터를 사용하여 예측 모델을 개선한다
    를 수행하도록 하는 명령어를 저장하는 것인 하나 이상의 비 일시적 컴퓨터 판독 가능 매체.
  53. 제 51 항 또는 제 52 항에 있어서,
    예측 모델은 기계 학습을 사용하는 것인 하나 이상의 비 일시적 컴퓨터 판독 가능 매체.
  54. 제 51 항 내지 제 53 항 중 어느 한 항에 있어서,
    분류하는 것은 신뢰 임계값을 만족하는 후보 서열의 다양한 세트를 필터링된 후보 서열로 분류하는 것을 포함하는 것인 하나 이상의 비 일시적 컴퓨터 판독 가능 매체.
  55. 제 54 항에 있어서,
    다양한 세트를 필터링된 후보 서열로 분류하는 것은
    a) 신뢰 임계값을 만족하는 복수의 후보 서열을 복수의 클러스터의 각 클러스터로 클러스터링하는 것; 및
    b) 다양한 세트 내에 포함된 것과 같은, 복수의 클러스터 중 적어도 2개의 클러스터의 각각으로부터 적어도 하나의 후보 서열을 식별하는 것
    을 포함하는 것인 하나 이상의 비 일시적 컴퓨터 판독 가능 매체.
  56. 제 51 항 내지 제 55 항 중 어느 한 항에 있어서,
    분류하는 것은
    a) 신뢰 임계값을 만족하지만 원하는 기능과 다른 기능을 가능하게 할 가능성이 더 큰 후보 서열을 필터링된 후보 서열로서 분류하지 않는 것
    을 추가로 포함하는 것인 하나 이상의 비 일시적 컴퓨터 판독 가능 매체.
  57. 제 56 항에 있어서,
    분류하지 않는 것은 신뢰 임계값을 만족하지만 주어진 허용오차 내에서 원하는 기능과 다른 기능을 가능하게 할 가능성이 더 큰 후보 서열을 필터링된 후보 서열로서 분류하지 않는 것을 포함하는 것인 하나 이상의 비 일시적 컴퓨터 판독 가능 매체.
  58. 제 51 항 내지 제 57 항 중 어느 한 항에 있어서,
    생물학적 서열이 효소 아미노산 서열이고, 원하는 기능이 효소-촉매 반응인 하나 이상의 비 일시적 컴퓨터 판독 가능 매체.
  59. 제 51 항 내지 제 58 항 중 어느 한 항에 있어서,
    생물학적 서열이 효소 아미노산 서열을 포함하고 하나 이상의 효소적 기능이 하나 이상의 반응 경로를 따르는 하나 이상의 효소-촉매 반응이며, 각각의 반응 경로는 분자를 생성하기 위한 것인 하나 이상의 비 일시적 컴퓨터 판독 가능 매체.
  60. 제 51 항 내지 제 59 항 중 어느 한 항에 있어서,
    생물학적 서열이 효소를 코딩하는 뉴클레오티드 서열을 포함하고, 원하는 기능이 효소-촉매 반응인 하나 이상의 비 일시적 컴퓨터 판독 가능 매체.
  61. 제 51 항 내지 제 60 항 중 어느 한 항에 있어서,
    처리는 하나 이상의 제 1 필터링된 후보 서열 중 하나 이상에 상응하는 적어도 하나의 뉴클레오티드 서열을 숙주 세포로 엔지니어링하는 것을 포함하는 것인 하나 이상의 비 일시적 컴퓨터 판독 가능 매체.
  62. 제 51 항 내지 제 61 항 중 어느 한 항에 있어서,
    예측 모델이 서열 정렬에 적어도 부분적으로 기초하는 것인 하나 이상의 비 일시적 컴퓨터 판독 가능 매체.
  63. 제 51 항 내지 제 62 항 중 어느 한 항에 있어서,
    예측 모델은 다음 모델들: 은닉 마르코프 모델(Hidden Markov Model; HMM), 인공 신경망, 또는 동적 베이지안 네트워크 중 적어도 하나에 적어도 부분적으로 기초하는 것인 하나 이상의 비 일시적 컴퓨터 판독 가능 매체.
  64. 제 51 항 내지 제 63 항 중 어느 한 항에 있어서,
    실행될 때, 하나 이상의 컴퓨팅 장치 중 적어도 하나가 하나 이상의 제 1 필터링된 후보 서열에 관한 정보를 유전자 제조 시스템에 제공하게 하는 명령어를 저장하고, 여기서 유전자 제조 시스템은 숙주 세포가 하나 이상의 제 1 필터링된 후보 서열을 사용하여 하나 이상의 분자를 생산할 수 있는 반응 경로가 가능하도록 작동 가능한 것인 하나 이상의 비 일시적 컴퓨터 판독 가능 매체.
  65. 제 51 항 내지 제 64 항 중 어느 한 항에 있어서,
    실행될 때, 하나 이상의 컴퓨팅 장치 중 적어도 하나가 하나 이상의 제 1 필터링된 후보 서열 중 적어도 하나를 사용하여 하나 이상의 분자 중 적어도 하나의 생산을 유발하도록 하는 명령어를 저장하는 것인 하나 이상의 비 일시적 컴퓨터 판독 가능 매체.
  66. 제 51 항 내지 제 65 항 중 어느 한 항에 있어서,
    하나 이상의 분자가 생물도달가능(bioreachable) 분자인 하나 이상의 비 일시적 컴퓨터 판독 가능 매체.
  67. 제 51 항 내지 제 66 항 중 어느 한 항에 있어서,
    기능이 전사 기능 또는 수송 기능 중 하나인 하나 이상의 비 일시적 컴퓨터 판독 가능 매체.
  68. 제 51 항 내지 제 67 항 중 어느 한 항에 있어서,
    하나 이상의 분자가 필터링된 후보 서열 중 하나 이상인 하나 이상의 비 일시적 컴퓨터 판독 가능 매체.
  69. 제 51 항 내지 제 68 항 중 어느 한 항에 있어서,
    필터링된 후보 서열 중 하나는 효소 아미노산 서열을 포함하고, 분자는 생물도달가능(bioreachable) 분자이며, 처리는 효소 아미노산 서열을 사용하여 반응을 촉매하는 것을 포함하는 것인 하나 이상의 비 일시적 컴퓨터 판독 가능 매체.
  70. 제 51 항 내지 제 69 항 중 어느 한 항에 있어서,
    하나 이상의 분자가 하나 이상의 생물도달가능 분자인 것으로 예측되는 하나 이상의 분자를 포함하는 것인 하나 이상의 비 일시적 컴퓨터 판독 가능 매체.
  71. 제 51 항 내지 제 70 항 중 어느 한 항에 있어서,
    하나 이상의 분자가
    a) 반응이 반응을 촉매화하는 데 이용 가능한 것으로 표시되는 하나 이상의 상응하는 촉매에 의해 반응이 촉매화된 것으로 표시되는지 여부에 적어도 부분적으로 기초하여 반응을 선택하는 것, 여기서 반응 세트는 선택된 반응을 포함한다; 및
    b) 하나 이상의 처리 단계의 각 처리 단계에서, 반응 세트의 하나 이상의 반응에 따라, 숙주 세포에 대한 출발 대사산물 및 이전 처리 단계에서 생성된 대사산물을 나타내는 데이터를 처리하여, 하나 이상의 분자를 나타내는 데이터를 생성하는 것
    에 의해 예측되는 것인 하나 이상의 비 일시적 컴퓨터 판독 가능 매체.
  72. 제 71 항에 있어서,
    선택은 유기체 내로 엔지니어링될 수 있거나 또는 유기체가 성장하는 성장 배지로부터 흡수될 수 있는 것으로 표시되는 하나 이상의 상응하는 촉매에 의해 촉매된 것으로 표시되는 반응을 선택하는 것을 포함하는 것인 하나 이상의 비 일시적 컴퓨터 판독 가능 매체.
  73. 제 71 항에 있어서,
    선택은 하나 이상의 아미노산 서열 또는 하나 이상의 유전적 서열에 상응하는 것으로 표시되는 하나 이상의 상응하는 촉매에 의해 촉매화되는 것으로 표시된 반응을 선택하는 것을 포함하는 것인 하나 이상의 비 일시적 컴퓨터 판독 가능 매체.
  74. 제 71 항에 있어서,
    선택은 반응이 반응을 촉매화하는 데 이용 가능한 것으로 표시된 하나 이상의 상응하는 촉매에 의해 촉매화되는 것으로 적어도 하나의 데이터베이스에 반응이 표시되는지 여부에 적어도 부분적으로 기초하여 반응을 선택하는 것을 포함하는 것인 하나 이상의 비 일시적 컴퓨터 판독 가능 매체.
  75. 제 51 항 내지 제 74 항 중 어느 한 항에 있어서,
    숙주 세포가 미생물, 식물 또는 동물 조직에서 유래하거나, 또는 단세포 유기체 또는 다세포 유기체의 일부인 하나 이상의 비 일시적 컴퓨터 판독 가능 매체.
KR1020217002962A 2018-08-15 2019-08-14 생물학적 서열 선택을 이용한 생물도달가능 예측 도구 KR20210043568A (ko)

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201862764819P 2018-08-15 2018-08-15
US201862764861P 2018-08-15 2018-08-15
US62/764,819 2018-08-15
US62/764,861 2018-08-15
US201862720839P 2018-08-21 2018-08-21
US201862720811P 2018-08-21 2018-08-21
US62/720,811 2018-08-21
US62/720,839 2018-08-21
PCT/US2019/046580 WO2020037085A1 (en) 2018-08-15 2019-08-14 Bioreachable prediction tool with biological sequence selection

Publications (1)

Publication Number Publication Date
KR20210043568A true KR20210043568A (ko) 2021-04-21

Family

ID=69525854

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217002962A KR20210043568A (ko) 2018-08-15 2019-08-14 생물학적 서열 선택을 이용한 생물도달가능 예측 도구

Country Status (7)

Country Link
US (1) US20210225455A1 (ko)
EP (1) EP3837692A4 (ko)
JP (1) JP2021536049A (ko)
KR (1) KR20210043568A (ko)
CN (1) CN112585687A (ko)
CA (1) CA3105455A1 (ko)
WO (1) WO2020037085A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11334534B2 (en) * 2019-09-27 2022-05-17 Oracle International Corporation System and method for providing a correlated content organizing technique in an enterprise content management system
US11372809B2 (en) 2019-09-27 2022-06-28 Oracle International Corporation System and method for providing correlated content organization in an enterprise content management system based on a training set
CN113409889A (zh) * 2021-05-25 2021-09-17 电子科技大学长三角研究院(衢州) 一种sgRNA的靶标活性预测方法、装置、设备和存储介质
CN113380330B (zh) * 2021-06-30 2022-07-26 北京航空航天大学 一种基于phmm模型的差分可辨性基因序列聚类方法
WO2024000579A1 (zh) * 2022-07-01 2024-01-04 中国科学院深圳先进技术研究院 一种机器学习引导的生物序列工程改造方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL138002A0 (en) 1999-01-19 2001-10-31 Maxygen Inc Methods for making character strings, polynucleotides and polypeptides having desired characteristics
US20030228565A1 (en) * 2000-04-26 2003-12-11 Cytokinetics, Inc. Method and apparatus for predictive cellular bioinformatics
US7747391B2 (en) * 2002-03-01 2010-06-29 Maxygen, Inc. Methods, systems, and software for identifying functional biomolecules
US20050149269A1 (en) * 2002-12-09 2005-07-07 Thomas Paul D. Browsable database for biological use
EP2434420A3 (en) * 2003-08-01 2012-07-25 Dna Twopointo Inc. Systems and methods for biopolymer engineering
CN1884521A (zh) * 2006-06-21 2006-12-27 北京未名福源基因药物研究中心有限公司 发现新基因的方法和使用的计算机系统平台以及新基因
JP5250850B2 (ja) * 2006-06-29 2013-07-31 ディーエスエム アイピー アセッツ ビー.ブイ. 改善されたポリペプチド発現を達成する方法

Also Published As

Publication number Publication date
CN112585687A (zh) 2021-03-30
EP3837692A4 (en) 2022-07-06
CA3105455A1 (en) 2020-02-20
US20210225455A1 (en) 2021-07-22
JP2021536049A (ja) 2021-12-23
WO2020037085A1 (en) 2020-02-20
EP3837692A1 (en) 2021-06-23

Similar Documents

Publication Publication Date Title
JP6798056B2 (ja) Htpゲノム操作プラットフォームによる微生物株の改良
KR20210043568A (ko) 생물학적 서열 선택을 이용한 생물도달가능 예측 도구
US20210256394A1 (en) Methods and systems for the optimization of a biosynthetic pathway
US20200058376A1 (en) Bioreachable prediction tool for predicting properties of bioreachable molecules and related materials
WO2021158989A1 (en) Methods and apparatus for efficient and accurate assembly of long-read genomic sequences
Imam et al. An integrated approach to reconstructing genome-scale transcriptional regulatory networks
US20230073351A1 (en) Selecting biological sequences for screening to identify sequences that perform a desired function
Rodríguez-López et al. Broad functional profiling of fission yeast proteins using phenomics and machine learning
Gross Untapped bounty: sampling the seas to survey microbial biodiversity
JP2020527770A (ja) 表現型最適化のスループットを増加させるための遺伝子改変の優先順位付け
JP7089086B2 (ja) 生体到達可能予測ツール
Wu Insights from Systematically Analyzing Microbial Phenotypic Profiles
Danchin No wisdom in the crowd: genome annotation at the time of big data-current status and future prospects
Sampaio et al. Machine Learning: A Suitable Method for Biocatalysis. Catalysts 2023, 13, 961
Bastos Modelling interspecies interactions of syntrophic communities of Syntrophobacter fumaroxidans and Methanospirillum hungatei
Landon Genome Design: Computational Methods and Multi-scale Analysis
Glebes Genome Engineering for Improved Furfural and Product Tolerance in Escherichia coli for Renewable Biofuel Applications
Horan Gene Function Prediction Based on Sequence or Expression Data
Vinko Inferring Trichoderma reesei gene regulatory network
Akhter et al. Shannon's Uncertainty and Kullback-Leibler Divergence in Microbial Genome
Chatsurachai Development of computational method for
Saa et al. ted

Legal Events

Date Code Title Description
A201 Request for examination