KR20190113800A - 생물도달가능 예측 도구 - Google Patents

생물도달가능 예측 도구 Download PDF

Info

Publication number
KR20190113800A
KR20190113800A KR1020197022762A KR20197022762A KR20190113800A KR 20190113800 A KR20190113800 A KR 20190113800A KR 1020197022762 A KR1020197022762 A KR 1020197022762A KR 20197022762 A KR20197022762 A KR 20197022762A KR 20190113800 A KR20190113800 A KR 20190113800A
Authority
KR
South Korea
Prior art keywords
reactions
reaction
starting
filtered
instructions
Prior art date
Application number
KR1020197022762A
Other languages
English (en)
Inventor
미셸 엘 윈
알렉산더 쥐 시어러
에릭 제데디아 딘
Original Assignee
지머젠 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 지머젠 인코포레이티드 filed Critical 지머젠 인코포레이티드
Publication of KR20190113800A publication Critical patent/KR20190113800A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physiology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

숙주 생물에서 표적 분자를 생산하기 위한 실행가능성을 예측하기 위한 시스템 및 방법이 제공된다. 숙주에 대한 출발 대사산물 세트 및 반응 세트가 획득된다. 필터링된 반응 세트에 숙주 생물에서 반응을 촉진하도록 허용가능할 가능성이 높은 것으로 스스로 표시되는 하나 이상의 상응하는 촉매에 의해 촉진되는 것으로 표시되는 반응이 포함된다. 각각의 처리 단계에서, 필터링된 반응 세트의 반응에 따라, 출발 대사산물 및 이전 처리 단계에서 생성된 대사산물을 나타내는 데이터가 처리되어, 하나 이상의 실행가능한 표적 분자를 나타내는 데이터를 생성한다.

Description

생물도달가능 예측 도구
본 개시는 일반적으로 미생물의 유전 공학을 개선하는 방법, 및 특히 광범위한 수동 개입 없이 특정 미생물에서 생산될 수 있는 분자의 세트를 확인함으로써 숙주 선택 및 경로 엔지니어링과 같은 공정을 용이하게 하는 미생물의 유전 공학을 개선하는 방법에 관한 것이다.
이 출원은 본원에 전체가 참조로 인용되는 2017년 2월 15일에 출원된 미국 가출원 제62/459,558호의 우선권을 주장한다. 이 발명은 DARPA에 의해 허가된, 협의서 No. HR001 1-15-9-0014 하에서 미국 정부 지원으로 이루어졌다. 정부는 이 발명에 특정 권리를 가진다.
화학자 및 재료 과학자는 바람직한 화학물질을 생산하기 위해 숙주 생물(예, 박테리아, 효모 또는 곰팡이)의 유전체를 개조하기 위해 합성 생물학을 이용한다. 그러나, 화학물질이 미생물에서 생물체량의 일부로서 생산될 수 있는 데에는 한계가 있다. 일반적으로, 이들은, 광범위한 수동 개입을 요구하지 않고, 유전체 개조를 통해 생성될 수 있는 화학물질의 가장 큰 가능한 풀(pool)을 결정하는 문제에 직면하게 된다. 이러한 화학물질은 본 명세서에서 "생물도달가능(Bioreachable)" 화학물질, 분자, 또는 대사산물로 지칭될 것이다.
생물학적인 화학물질 생성에서 최신 기술은 크게 두 가지 카테고리로 세분화될 수 있다:
1) 이해된 표적 분자 또는 대사 경로가 있다 - 화학물질 생산은 이 특정 경로에 집중하고, 이 경로에서 화학물질을 유용하게 만들려고 시도한다.
2) 공지된 대사 반응의 하위세트를 사용하고 그들을 통해 단순 추적함으로써 만들어질 수 있는 분자를 컴퓨터로 예측하는 시도가 있다.
이들 접근법은 실수하기 쉽고, 일부는 매우 높은 가짜 양성 비율을 야기한다. 일습의 제약조건을 고려하면, 숙주 생물이 생물학적으로 생성하는 화학물질을 더 정확하게 예측하는 방법이 요구된다.
본 개시는 통상적인 기법의 단점을 극복하는 방식으로 실행가능한 표적 분자를 예측하기 위한 생물도달가능 예측 도구를 제공한다. 특히, 본 개시의 생물도달가능한 예측 도구는 구체화된 숙주 생물에 특이적인 실행가능한 표적 분자를 예측한다.
본 개시의 실시양태의 생물도달가능 예측 도구는 숙주 생물을 위한 출발 대사산물을 구체화하는 출발 대사산물 세트를 획득한다. 실시양태에서, 출발 대사산물 세트는 코어 대사산물을 구체화하고, 코어 대사산물은 구체화된 조건 하에서 엔지니어링되지 않은(un-engineered) 숙주에 의해 생산된 것으로 적어도 하나의 데이터베이스에 의해 표시된 대사산물을 포함한다. 실시양태에서, 숙주는 유전체 개조에 종속되지 않았다.
실시양태에서, 생물도달가능 예측 도구는 반응을 구체화하는 출발 반응 세트를 획득한다. 실시양태에서, 상기 도구는, 숙주 생물에서 일어날 수 있는 하나 이상의 반응을 촉진하기 위해 거의 틀림없이 허용가능할 가능성이 높은 것으로 스스로 표시되는, 하나 이상의 상응하는 촉매, 예를 들어 효소에 의해 촉진되는 것으로 적어도 하나의 데이터베이스에서 표시되는 출발 반응 세트로부터 하나 이상의 반응을 필터링된 반응 세트에 포함한다.
만일 생물도달가능 예측 도구가, 예를 들어, 숙주로 촉매를 엔지니어링함으로써(예, 숙주 유전체를 개조함으로써) 또는 숙주가 성장하는 성장 배지로부터 촉매의 흡수를 통하여, 촉매가 숙주로 도입될 수 있다는 것을 표시하는, 공개 또는 독점적 데이터베이스로부터 정보를 결정한다면, 촉매는 숙주 생물에서 반응을 "촉진하기 위해 허용가능"할 가능성이 높다.
더욱 구체적으로, 이 개시는 숙주 생물의 유전체가 개조되어(예, 삽입, 결실, 대체를 통해) 숙주 생물이 촉매(예, 효소 단백질)를 생산할 때, 숙주 생물로 "엔지니어링"되는 부분, 예컨대 촉매에 관한 것이다. 그러나, 만일 부분은 그 자체가 유전 물질(예, 효소로 역할하는 핵산 서열)을 포함하는 경우, 숙주 생물로 부분의 "엔지니어링"은 숙주 유전체를 개조하여 부분 그 자체를 구현하는 것에 관한 것이다.
만일 생물도달가능 예측 도구가 부분이 숙주로 엔지니어링될 수 있다는 것을 표시하는 정보를 결정한다면, 부분은 숙주 생물로 "엔지니어링되도록 허용가능"할 가능성이 높다. 예를 들어, 실시양태에 따르면, 만일 도구에 의해 액세스되는 공개 또는 독점 데이터베이스는 효소가 공지된 아미노산 서열에 상응하는 것으로 표시하는 것을 표시하는 경우(예, 주석을 통해), 상기 도구는 효소가 숙주로 엔지니어링되도록 허용가능할 가능성이 높은 것을 표시하는 정보를 결정할 것이다. 아미노산 서열이 공지된 경우, 숙련자들은 아미노산 서열을 코딩하기 위해 사용된 상응하는 유전자 서열을 도출할 수 있고, 따라서 숙주 유전체를 개조할 것이다.
이 문맥에서, 및 청구범위에서, "가능성이 높은"은 그렇지 않은 것보다 더 가능성이 높은, 즉 50%보다 높은 가능성을 가지는 것을 의미한다.
하나 이상의 처리 단계의 각각의 처리 단계에서, 생물도달가능 예측 도구는, 필터링된 반응 세트의 하나 이상의 반응에 따라, 출발 대사산물 및 이전 처리 단계에서 생성된 대사산물을 나타내는 데이터를 처리하여 하나 이상의 실행가능한 표적 분자를 나타내는 데이터를 생성한다. 도구는 출력으로 하나 이상의 실행가능한 표적 분자를 나타내는 데이터를 제공한다.
실시양태에서, 생물도달가능 예측 도구는, 상응하는 촉매가 숙주 생물에서 하나 이상의 반응을 촉진하기 위해 허용가능한지, 예를 들어, 하나 이상의 반응을 촉진하기 위해 숙주 생물로 엔지니어링되도록 허용가능한지 여부에 관한 신뢰도를 결정한다. 신뢰도는, 예를 들어 적어도 제 1 신뢰도 또는 제 1 신뢰도보다 높은 제 2 신뢰도를 포함할 수 있다. 도구는, 숙주 생물에서 하나 이상의 반응을 촉진하기 위해, 제 2 신뢰도로 허용가능할 가능성이 높은 것으로 스스로 결정되는, 예를 들어 하나 이상의 반응을 촉진하기 위해 숙주 생물로 엔지니어링하기 위해 제 2 신뢰도로 허용가능하게 결정되는, 하나 이상의 상응하는 촉매에 의해 촉진되는 것으로 적어도 하나의 데이터베이스에서 표시되는 출발 반응 세트로부터 하나 이상의 반응을 필터링된 반응 세트에 포함할 수 있다.
본 개시의 실시양태에서, 생물도달가능 예측 도구는 하나 이상의 실행가능한 표적 분자를 생산하는 것의 어려움의 표시를 생성한다. 어려움의 표시는 열역학적 특성, 하나 이상의 실행가능한 표적 분자를 위한 반응 경로 길이, 또는 촉매가 하나 이상의 제 1 반응 경로를 따라 하나 이상의 실행가능한 표적 분자로 하나 이상의 상응하는 반응을 촉진하는 것이 허용가능한지 여부에 대한 신뢰도에 기반될 수 있다.
본 개시의 실시양태에서, 특정 처리 단계에서 하나 이상의 실행가능한 표적 분자를 나타내는 데이터를 생성한 후, 및 다음 처리 단계 전, 생물도달가능 예측 도구는 필터링된 반응 세트로부터 특정 처리 단계에서 하나 이상의 실행가능한 표적 분자를 나타내는 데이터를 생성하는 것과 연관된 임의의 반응을 제거한다.
실시양태에서, 도구는 각각의 실행가능한 표적 분자를 야기하는 하나 이상의 반응 경로의 기록(즉, 족보)을 생성한다. 실시양태에서, 기록을 생성하는 것은 유비쿼터스(ubiquitous) 대사산물로부터 반응 경로를 기록에 포함하지 않는 것을 포함한다. 실시양태에서, 도구는 실행가능한 표적 분자를 나타내는 데이터가 생성되는 단계의 기록을 생성한다. 실시양태에서, 도구는 출발 대사산물 세트로부터 각각의 실행가능한 표적 분자로 가장 짧은 반응 경로의 기록을 생성한다.
주어진 단일 숙주 생물에 대한 실행가능한 표적 분자를 결정하는 대신, 주어진 생행가능한 표적 분자를 생산하는 하나 이상의 숙주 생물들을 확인하는 것이 바람직할 수 있다. 예를 들어, 고객은 도구의 사용자가 표적 분자를 생산하는 복수의 숙주 중에서 최적의 숙주 생물을 결정하는 것을 요청할 수 있다. 실시양태에서, 생물도달가능 예측 도구는 복수의 숙주 생물에 대해 실행되고, 복수의 숙주 생물의 각각의 숙주에 대해, 본 명세서에 기재된 방법 중 어느 하나에 따라, 하나 이상의 실행가능한 표적 분자를 나타내는 데이터를 생성한다. 이러한 실시양태에서, 주어진 실행가능한 표적 분자에 대해, 도구는 주어진 숙주 생물 또는 주어진 숙주 동물에서 주어진 실행가능한 표적 분자를 생산하기 위해 필요한 것으로 예측되는 처리 단계의 주어진 숫자에 의해 생산된 실행가능한 표적 분자의 주어진 예측률과 같이 적어도 하나의 기준을 만족하는 적어도 하나의 복수의 숙주 생물을 결정한다. 도구는 출력으로서 적어도 하나의 기준을 만족시키기 위해 결정된 숙주 생물을 나타내는 데이터를 제공한다.
상술한 실시양태에 대해 기재된 바와 같이, 도구는 각각의 숙주 생물에 의해 생산된 각각의 표적 분자를 야기하는 하나 이상의 반응 경로의 기록(즉, 족보), 예를 들어 열역학적 특성을 생성할 수 있다. 복수의 숙주 생물에 대해 도구를 실행하는 상술한 실시양태에 근거하여, 도구는 라이브러리로서 데이터베이스에 숙주 생물, 표적 분자, 및 족보 사이에 연관을 저장할 수 있고, 이는 수율, 처리 단계의 숫자, 반응 경로에서 반응을 촉진하기 위한 촉매의 허용가능성 등과 같은 파라미터를 구체화하는 주석을 포함할 수 있다.
실시양태에서, 만일 도구가 이러한 라이브러리에 액세스를 가지면, 도구는 주어진 실행가능한 표적 분자를 생산하기 위한 다수의 숙주 생물을 확인하기 위해 실행될 필요가 없다. 대신, 이러한 실시양태에서, 도구는 라이브러리로부터 족보를 사용할 수 있고, 이는 숙주, 표적 분자, 및 반응 사이에 연관에 관련된 주석 데이터를 포함할 수 있다. 도구는 예를 들어 공개 또는 독점적 데이터베이스로부터, 또는 라이브러리로부터, 적어도 부분적으로, 적어도 하나의 표적 숙주 생물에서 표적 분자의 생산을 야기하는 적어도 하나의 반응 경로에서 반응을 촉진시키는 것으로 예측되는 모든 촉매는 모든 이러한 반응을 촉진하기 위해 허용가능할 가능성이 높다는 증거에 기반하여, 하나 이상의 숙주 생물로부터 적어도 하나의 표적 숙주 생물을 확인할 수 있다. 실시양태에서, 도구는 표적 분자를 생산하기 위해 필요한 것으로 예측되는 반응 경로 내에서 반응 단계의 역치 숫자보다 적게 요구하는 표적 숙주에 기반하여 표적 숙주를 결정할 수 있다.
일부 반응 효소는 공지된 연관된 아미노산 서열 또는 유전자 서열을 가지지 않을 수 있다("오펀 효소(orphan enzyme)"). 이러한 경우에, 도구는 오펀 효소를 생물탐사하여 그들의 아미노산 서열, 및 궁극적으로 그들의 유전자 서열을 예측하여, 새로운 서열분석된 효소가 숙주 생물 속으로 엔지니어링되어 하나 이상의 반응을 촉진할 수 있다. 도구는 필터링된 반응 데이터의 일원으로서 새로 서열분석된 효소에 상응하는 반응을 포함할 수 있다.
실시양태에서, 생물도달가능 예측 도구는, 예를 들어 유전자 제조 시스템인 "팩토리(factory)"로 실행가능한 표적 분자를 야기하는 반응 경로에서 하나 이상의 반응과 연관된 하나 이상의 유전자 서열의 표시를 제공한다. 실시양태에서, 유전자 제조 시스템은 숙주의 유전체로 표시된 유전자 서열을 구현함으로써, 표적 분자의 제조를 위한 엔지니어링된 유전체를 생산한다. 실시양태에서, 도구는 팩토리를 위해 하나 이상의 촉매의 표시를 팩토리로 제공하여 표적 분자의 생산을 위한 숙주 생물의 성장 배지로 하나 이상의 촉매를 도입한다.
실시양태에서, 생물도달가능 예측 도구는 필터링된 반응 세트에서, 하나 이상의 반응이 자발적인지 여부에 대하여 적어도 일부 기반하거나, 그들의 지향성에 적어도 일부 기반하거나, 하나 이상의 반응이 운송 반응인지 여부에 적어도 일부 기반하거나, 또는 하나 이상의 반응이 할로겐 화합물을 생성하는지 여부에 적어도 일부 기반한 출발 반응 세트로부터 반응을 포함한다.
본 개시의 실시양태에서, 생물도달가능 예측 도구는 숙주 생물에 대한 출발 대사산물을 구체화하는 출발 대사산물 세트를 수득하고, 숙주에 특이적인 반응을 구체화하는 출발 반응 세트를 획득한다. 본 개시의 실시양태에서, 생물도달가능 예측 도구는 필터링된 반응 세트에서 적어도 하나의 데이터베이스에서 자발적으로 표시되는 하나 이상의 반응을 포함한다. 하나 이상의 처리 단계의 각 처리 단계에서, 도구는 필터링된 반응 세트의 하나 이상의 반응에 따라, 출발 대산산물 및 이전 처리 단계에서 생성된 임의의 대사산물을 나타내는 데이터를 처리하여, 각 단계에서 하나 이상의 실행가능한 표적 분자를 나타내는 데이터를 생성한다. 실시양태에서, 도구는 하나 이상의 실행가능한 표적 분자를 나타내는 데이터를 출력으로서 제공한다.
본 명세서에 기재되어 있음.
도 1은 본 개시의 실시양태에 따르는 생물도달가능 예측 도구를 구현하기 위한 시스템을 예시한다.
도 2는 본 개시의 실시양태에 따르는 생물도달가능 예측 도구의 작동을 예시하는 흐름도이다.
도 3은 본 개시의 실시양태에 따르는 엄격하고 완화된 효소 서열 검색을 구현하기 위한 의사코드(pseudocode)를 예시한다.
도 4는 본 개시의 실시양태의 생물도달가능 예측 도구에 의해 생성될 수 있는 보고서의 예를 예시한다.
도 5는 본 개시의 실시양태의 생물도달가능 예측 도구에 의해 생성될 수 있는 반응 족보 추적의 보고서의 가상의 예를 예시한다.
도 6은 본 개시의 실시양태에 따르는 클라우드 컴퓨팅 환경을 예시한다.
도 7은 본 개시의 실시양태에 따르는 비-일시적인 컴퓨터 판독가능한 매체(예, 메모리)에 저장된 명령어를 실행하기 위해 사용될 수 있는 컴퓨터 시스템의 예를 예시한다.
도 8은 본 개시의 실시양태의 생물도달가능 예측 도구에 의해 생성될 수 있는 유형의 단일 경로의 예를 예시한다. 이 예에서, 분자 티라민은 숙주 생물로 단일 효소 단계의 추가에 의해 도달가능할 것으로 예측되었다. 이 경로는 구체적으로 실현되고 숙주 생물로 엔지니어링되어 티라민을 생산한다. 이 경로의 평가 점수는 반응 다이어그램의 끝에 첨부된다.
도 9는 본 개시의 실시양태의 생물도달가능 예측 도구에 의해 생성될 수 있는 두 개의 구분되는 경로의 예를 예시한다. 이 예에서, 두 경로는 생물도달가능 예측 도구에 의해 생물도달가능한 분자 (S)-2,3,4,5-테트라하이드로디피콜리네이트 (THDP)를 생성할 수 있는 것으로 확인되었다. 두 개의 경로는 그들의 환원 등가 유형(NADH 대 NADPH)의 사용에 따라 다르다. 이들 경로 중 하나는 구체적으로 실현되고 숙주 생물로 엔지니어링되어 THDP를 생산한다. 각 경로의 평가 점수는 반응 다이어그램의 끝에 첨부된다.
도 10은 본 개시의 실시양태의 생물도달가능 예측 도구에 의해 생성될 수 있는 유형의 더 복잡한 다중-경로 예측의 예를 예시한다. 각 경로의 평가 점수는 반응 다이어그램의 끝에 첨부된다.
도 11a 및 도 11b는 본 개시의 실시양태의 생물도달가능 예측 도구에 의해 생성될 수 있는 점수매기기 상세의 예를 함께 예시한다. (도 11b는 도 11a의 아래에 첨부된다.) 이 경우, 도시된 평가 데이터는 분자 (S)-2,3,4,5-테트라하이드로디피콜리네이트(THDP)로의 경로를 예측하는 과정에서 생성되었다.
본 설명은 다양한 예시적인 실시양태가 도시된 첨부된 도면을 참고하여 이루어진다. 그러나 수많은 상이한 예시적인 실시양태가 사용될 수 있고, 따라서 본 설명은 본 명세서에 개시된 예시적인 실시양태로 한정되는 것으로 간주되지 않아야 한다. 차라리, 이들 예시적인 실시양태는 이 개시가 철저하고 완전하도록 제공된다. 예시적인 실시양태에 다양한 변경이 당업자에게 쉽게 명확할 것이고, 본 명세서에서 정의된 일반적인 원칙들이 본 개시의 정신과 범위를 벗어나지 않고 다른 실시양태 및 응용에 적용될 수 있다. 따라서, 이 개시는 도시된 실시양태로 한정되는 것으로 의도되지 않고, 본 명세서에 개시된 원칙 및 특징과 일치하는 가장 넓은 범위에 따르도록 의도된다.
본 발명자들은 실행가능한 표적 분자를 예측하기 위한 통상적인 방법이 하술되는 장애를 겪음을 인식하였다:
1) 생물학적 부분의 결핍. 이것은 생물학적으로 생성될 수 있는 화학물질에 대한 가짜 양성 예측의 가장 큰 단일한 원인이다. 일부 통상적인 방법은, 존재하는 반응 데이터베이스를 사용하여 글루코스와 같은 원료로부터 모든 공지된 대사 반응을 통한 단계를 밟고, 모든 경로는 엔지니어링될 수 있다고 가정한다. 그러나 많은 반응이 숙주 생물로 엔지니어링될 수 있는 유전적인 부분에 상응하지 않는다. 전형적으로, 반응은 효소에 의해 촉진된다. 존재하는 데이터베이스에서 반응은 그들의 촉매화 효소에 따라 잘 특성화될 수 있지만, 이들 효소의 대부분은 그들의 아미노산이 서열분석되지 않았고, 이는 효소와 연관된 유전자 서열 사이에 정립된 상관관계가 없다는 것을 의미한다. 유전자 서열 없이, 숙주 유전체는 요구되는 효소를 생산하기 위해 개조되지 않을 수 있다. 사실, 잘 특성화된 효소 반응의 대략적으로 25-50%가 공지된 연관된 유전자 서열을 가지지 않고, 따라서 이들 효소들은 엔지니어링 목적을 위해 생물학적 부분으로서 유용하지 않다. 전체 생물학적 데이터베이스에서 유전자-부재 반응의 비율은, 이들 데이터베이스가 잘 특성화되지 않은 수많은 반응을 포함하기 때문에, 더 높을 가능성이 높다. 본 발명자들은, 일부 경우에, 예컨대 효소-나노입자 접합체와 같은 효소 이외의 촉매가 사용될 수 있음을 주목한다. 예를 들어, 전체가 본 명세서에 참조로서 인용되는 논문 [Vertgel AA, et al., Enzyme-nanoparticle conjugates for biomedical applications, Methods Mol. Bio. 2011; 679: 165-82]; 논문 [Johnson PA, et al., Enzyme nanoparticle fabrication: magnetic nanoparticle synthesis and enzyme immobilization, Methods Mol. Biol. 2011; 679: 183-91]을 참고하라. 이들 경우에, 숙주 생물로 이들 촉매를 엔지니어링하기 위해 요구되는 부분은 공지되거나 공지되지 않을 수 있다.
2) 잘못된 경로 추적. 많은 시도된 해결이 분자 사이에 임의적으로 경로를 추적하기 위해 시도되었다. 이는 표적 분자의 탄소 골격의 생성을 적합하게 추적하는 것의 실패를 야기할 수 있다. 공통적인 예를 인용하기 위하여, 글루타민으로부터 표적 분자를 생성하는 반응으로 경로는 추적될 수 있고, 이어서 글루타민은 표적 분자를 생성하기 위한 경로의 부분으로서 인용될 것이다. 그러나 대부분의 경우에, 글루타민은 질소기를 제공하고 탄소를 제공하지 않으므로, 이 추적은 잘못 인도하고, 생산될 수 있는 표적 분자를 표시하지 않는다(다른 실수는 ATP와 같은 다른 유비쿼터스 분자 또는 물과 같은 무기 분자를 통한 추적 연결을 포함한다). 이들 유형의 경로 추적 실수는 또한 쓸 수 없게 큰 규모의 예측된 경로를 야기한다(마치 지도 앱이 두 개 내지 세 개의 가장 직접적이고 유용한 경로 대신에 샌프란시스코를 통한 모든 가능한 거리 경로를 허용하는 것처럼).
3) 양방향성 반응의 추정. 실수의 다른 중요한 원천은 반응의 열역학/방향을 해명하는 것에 실패하는 것이다. 열역학은 일부 반응은 한 방향으로만 실행할 수 있다고 설명한다. 하지만, 분자 A를 분자 B로 분해하는 반응은 둘 중 어느 한 방향으로 실행되기 위한 통상적인 수단에 의해 종종 예측되어, 분자 A가 분자 B로부터 합성될 수 있다고 잘못 예측될 수 있다. 특정한 예로써, 일부 박테리아는 유기염화물과 같은 할로겐화된 화합물을 분해하지만, 할로겐화된 화합물을 생성하도록 반대로 실행할 수 없다. 많은 생물학적 반응은 극적으로 단지 한 방향으로 실행되는 것을 선호되기 때문에, 반응 방향성에 대한 설명 실패는 또한 가짜 양성 예측을 생성할 것이다.
4) 기타 실수. 모든 숙주가 동일한 대사 경로의 세트를 유지하는 것이 아니기 때문에, 모든 숙주가 모든 표적 분자를 생산하기 위해 엔지니어링될 수 있거나, 또는 동일한 개조의 세트로 또는 성공 가능성으로 모든 표적 분자를 생산할 수 있기 위해 엔지니어링될 수 있는 것은 아니다.
본 개시의 실시양태의 생물도달가능 예측 도구(BPT, bioreahable prediction tool)는 통상적인 방법의 한계를 극복한다. 본 개시의 실시양태의 BPT는 표적-불문의 방식으로 주어진 출발 제약의 세트를 생물학적으로 생성할 수 있는 모든 화학물질을 설명할 수 있다(예, 특정 숙주 생물, 반응 단계의 수, 허용된 유전자-서열분석된 효소와 반응인지 여부). 이는 실행가능한 표적 화학물질의 리스트인 "생물도달가능 리스트"를 생성한다. 이들 표적 화학물질 및 그들의 연관된 구조는 전문적인 화학자에게 제공될 수 있고, 이 화학자는 그들을 생성하기 위해 요구되는 생물학을 검토할 필요 없이 분자의 화학적 유용성을 검토할 수 있다. 특정 생물도달가능 표적 화합물질이 선택된 후, 그들의 화학식 및 반응 경로는 유전자 제조 시스템에 제공되어 숙주 생물의 유전자 서열을 개조하여 선택된 표적 분자를 생성한다.
시스템 디자인
도 1은 본 개시의 실시양태의 분배된 시스템(100)을 예시한다. 사용자 인터페이스(102)는 텍스트 편집기 또는 그래픽 사용자 인터페이스(GUI)와 같은 클라이언트-측 인터페이스를 포함한다. 사용자 인터페이스(102)는 랩탑 또는 데스크탑 컴퓨터와 같은 클라이언트-측 컴퓨팅 장치(103)에 머무를 수 있다. 클라이언트-측 컴퓨팅 장치(103)는 인터넷과 같은 네트워크(106)를 통하여 하나 이상의 서버(108)에 커플링된다.
서버(108)는 하나 이상의 데이터베이스(110)에 국지적으로 또는 원격으로 커플링되고, 이는 분자, 반응 및 서열 데이터의 하나 이상의 자료 덩어리를 포함할 수 있다. 반응 데이터는 모든 공지된 대사 반응의 세트를 대표할 수 있다. 실시양태에서, 반응 데이터는 보편적이고, 즉, 숙주-특이적이지 않다.
분자 데이터는 기질 또는 생성물 중의 하나로서 반응 데이터에 함유된 반응에 포함되는 대사산물-생성물질에 대한 데이터를 포함한다. 실시양태에서, 대사산물에 대한 데이터는 특정 숙주 미생물에서 생산되는 것으로 당업계에 공지된, 코어 대사산물과 같은, 숙주-특이적 대사산물에 대한 데이터를 포함한다. 일부 실시양태에서, 일부 코어 대사산물은 본 발명자들에 의해 수집된 실증적 증거를 통하여 특정 숙주에 의해 생산되는 것으로 결정되었다. 이들 숙주-특이적 대사산물 세트는, 숙주 생물의 대사체학 분석법(metabolomics analysis)과 같은 다양한 방법을 통하여, 또는 특정 성장 조건 하에서 필수적인 효소-코딩 유전자를 확인하고 이들 유전자에 의해 코딩되는 효소에 의해 생산되는 대사산물의 존재를 추론함으로써, 확인되었다. 분자 데이터는 숙주 생물, 성장 배지 특성화, 및 분자가 코어 대사산물, 전구체, 유비쿼터스인지 또는 무기물인지 여부와 같은 많은 특징을 나타내는 주석이 태깅될 수 있다.
데이터베이스(110), 예를 들어 UniProt은, 또한 숙주가 성장하는 성장 배지로부터 촉매의 흡수를 통하여 촉매가 숙주 생물로 도입될 수 있는지 여부에 대하여 데이터를 포함할 수 있다.
서열 데이터는, 반응이 숙주 생물로 반응을 엔지니어링하기 위한, 예를 들어 효소 또는 유전자 서열과 같이, 서열에 상응하는 것으로 알려질 가능성이 높은지 여부에 대하여 반응 데이터에서 반응을 주석 달기 위해 반응 주석 엔진(107)을 위한 데이터를 포함할 수 있다. 예를 들어, 서열 데이터는 반응이 상응하는 아미노산 서열이 공지될 가능성이 높은 효소에 의해 촉진되는지 여부에 대하여 반응 데이터에서 반응을 주석 달기 위한 데이터를 포함할 수 있다. 만약 그렇다면, 이어서 당업계에 공지된 방법을 통하여, 효소를 코딩하기 위한 유전자 서열이 결정될 수 있다. 실시양태에서, 생물도달가능 표적 분자를 결정하기 위한 목적을 위해, 반응 주석 엔진(107)은 서열 데이터 그 자체를 알아야 할 필요는 없지만, 차라리 서열은 촉매를 위해 존재하기 위해 공지될 가능성이 큰지 여부는 알아야 할 필요가 있다. 반응 주석 엔진(107)은 후술되는 바와 같이 UniProt과 같은 데이터베이스로부터 서열 데이터를 컴파일(compile)할 수 있고, 이는 연관된 코딩 서열을 가지는 것으로 표시된 반응을 촉진하는 효소를 위한 서열 데이터를 포함한다.
실시양태에서, 서버(108)는 반응 주석 엔진(107) 및 생물도달가능 예측 엔진(109)을 포함하고, 이들은 함께 본 개시의 실시양태의 생물도달가능 예측 도구를 형성한다. 다르게는, 주석 엔진(107), 예측 엔진(109), 또는 둘 다를 위한 소프트웨어 및 연관된 하드웨어는 서버(108)에 있는 대신에 클라이언트(103)에 국지적으로 상주할 수 있거나, 또는 클라이언트(103) 및 서버(108) 둘 다 사이에 분배될 수 있다. 데이터베이스(110)는 유니프롯(UniProt), PDB, 브렌다(Brenda), BKMR, 및 MNXref과 같은 공개 데이터베이스, 뿐만 아니라 사용자 또는 기타에 의해 생성된 고객 데이터베이스, 예를 들어 사용자 또는 제 3 기여자에 의해 수행된 합성 생물학 실험을 통해 생성된 분자 및 반응을 포함하는 데이터베이스를 포함할 수 있다. 데이터베이스(110)는 클라이언트(103)에 대하여 국지적 또는 원격일 수 있거나, 국지적으로 및 원격으로 분배될 수 있다. 일부 실시양태에서, 주석 엔진(107)은 클라우드-기반 서비스로서 실행될 수 있고, 예측 엔진(109)은 클라이언트 디바이스(103) 상에 국지적으로 실행될 수 있다. 실시양태에서, 임의의 국지적 거주 엔진에 의한 사용하기 위한 데이터는 클라이언트 디바이스(103) 상에서 메모리에 저장될 수 있다.
시스템 작동
출발 대사산물 리스트 및 출발 반응 데이터 세트 획득하기
생물도달가능 예측 처리로 입력은 출발 대사산물 리스트, 출발 반응 리스트, 숙주 생물 및 숙주를 위한 연료 수준(예, 최소 또는 리치 성장 배지)과 같은 기초선 조건, 및 온도와 같은 환경 조건과 같은 정보를 포함한다. 주석 엔진(107)은 대사산물 및 반응 데이터를 데이터베이스(110)로부터 연관된 주석에 따라 어셈블링할 수 있다.
사용자 인터페이스(102)를 통하여, 사용자는 출발 대사산물 및 반응 리스트를 위한 정보를 획득하기 위한 데이터베이스(110)를 구체화할 수 있다. 예를 들어, 반응 및 숙주-특이적 대사산물은 KEGG, UniProt, BKMR, 및 MNXref와 같은 공개 데이터베이스로부터 획득될 수 있다. (당업계의 숙련자는 논의의 맥락으로부터 본 명세서 및 특허청구범위에서 "대사산물", "반응" 등에 대한 지칭은 많은 예에서 사실 물리적인 객체 또는 과정을 나타내는 데이터를 지칭하는 것이지, 물리적인 객체 또는 과정 그 자체를 지칭하는 것이 아님을 인식할 것이다.)
출발 대사산물 리스트
도 2를 참고하면, 실시양태에서 반응 주석 엔진(107)은, 주어진 성장 조건하에서 특정 시각에서 또는 특정 시간 간격 동안 숙주 생물의 성장 동안 존재하는 것으로 예상되는 화학적 화합물(출발, 중간, 및 최종 생성물)의 리스트를 포함하는 숙주-특이적 출발 대사산물 파일을 데이터베이스(110)로부터 획득하거나 또는 스스로 응집한다(202). 디폴트 성장 조건은 최소 성장 배지일 수 있는데, 이는 출발 대사산물을 선택하기 위한 가장 보수적인 접근법이기 때문이다. 실시양태에서, 반응 주석 엔진(107)은 출발 대사산물 리스트로서 대사산물 파일을 예측 엔진(109)으로 제공할 수 있다.
실시양태에서, 반응 주석 엔진(107)은 숙주 생물을 위해 또는 유사한 생물을 위해 성장 데이터에 기반하여 출발 대사산물을 결정하거나 (유사한 미생물의) 주형(template)이 될 수 있다. 이 접근법은 RAST 시스템과 같은 시스템에서 미생물의 유전체를 주석 달기 위해, 또는 BioCyc 데이터베이스 수집에서 대사 경로를 예측하기 위해 사용되는 접근법과 유사하다. 이 접근법은 대사 경로가 존재하는 것으로 가장 양호한 추측을 하기 위한 주어진 숙주 생물에 대한 유전체 주석을 사용하고, 이어서 이들 경로에서 모든 구성 반응 및 그들의 대사산물의 존재를 추정한다. BioCyc 데이터베이스의 경우에, 존재하는 유전체 주석이 사용되어 개별적인 효소(및 이에 따른 그들의 반응)의 추정 존재를 확인한다. 규칙-기반 시스템이 이어서 사용되어 (일부) 그들의 대체 반응의 존재에 기반하여 전체 대사 경로의 존재를 추론한다.
숙주 생물에 특이적인 출발 대사산물 리스트를 가지는 것은 본 개시의 실시양태를 위한 구별되는 출발 포인트이다. 다른 통상적인 접근법은 만들어질 수 있는 표적에 대한 일반적인 예측을 하는 반면에, 본 개시의 실시양태의 이 주문 제조 가능한 단계는 표적 분자가 숙주 생물의 생물학에서 차이에 기인하여 만들어질 수 있는 (또는 그들이 만들어질 수 있는 방법) 부정확한 예측의 문제를 피한다.
실시양태에서, 사용자는 반응 주석 엔진(107)이 숙주 생물 및 성장 배지와 같은 파라미터를 가진, 및 일부 실시양태에서, 관련된 모델 생물 데이터베이스 또는 특이적 대사산물의 존재의 다른 명령어를 가진 데이터베이스를 상호-참조 표시를 통하여, 데이터베이스 또는 데이터세트 질의(querying)에 기반하여 MNXref, KEGG 또는 BKMR와 같이 존재하는 데이터베이스 또는 데이터세트로부터 출발 대사산물을 검색하도록 명령할 수 있다. 지금까지, 특정 산업 숙주에 대하여, 양수인은 200-300개의 대사산물의 순서로 전형적인 출발 대사산물 파일을 생성하였다. 위에 언급된 것처럼, 공개 데이터베이스에서 대사산물을 나타내는 데이터 객체 및 주석 엔진(107)에 의해 형성된 리스트는 숙주 생물, 성장 배지 유형 및 대사산물이 코어 대사산물, 전구체, 유기 또는 유비쿼터스인지 여부와 같은 메타데이터를 포함하는 주석을 포함할 수 있다.
코어 대사산물은 성장 배지의 풍부함과 같이 주어진 기초선 조건에 대하여 유전적으로-개조되지 않은 미생물에서 천연적으로 발견되는 출발(예, 기질), 중간 및 최종 대사산물이다. 대장균(E. coli)와 같은 미생물의 생체량에서 각각의 코어 대사산물(예, 아미노산)은 11개의 전구체 대사산물 중의 하나로부터 세포의 코어 대사에서 생성될 수 있고, 유전적으로-개조되지 않은 생물로 어떤 탄소 입력이 제공되든지 이로부터 근본적으로 생성될 수 있다. 실시양태에서, 사용자는 MNXref, KEGG, ChEBI, Reactome, 또는 기타와 같은 데이터베이스로부터 그들의 전구체 의존성으로 태그된 선택된 코어 화합물의 출발 대사산물 세트를 선택할 수 있다.
그들의 이름이 제안하는 바와 같이, 암모늄과 같은 무기 대사산물은 탄소를 포함하지 않으므로, 대사의 새로운 생산물로 탄소 원자를 기여할 수 없다. 따라서, 반응 주석 엔진(107)은 출발 대사산물 세트로부터 무기 대사산물을 제외할 수 있다.
일부 대사산물은 유비쿼터스이고, 즉, 그들은 많은 반응에서 발견된다. 그들은 ATP 및 NADP와 같은 분자를 포함한다. 전형적으로, 유비쿼터스 분자는 탄소를 표적 생산물에 기여하지 않고, 따라서 표적으로 임의의 대사 경로의 일부가 아닐 것이다. 따라서, 반응 주석 엔진(107)은 출발 대사산물 세트로부터 유비쿼터스 대사산물을 제외할 수 있다. 유비쿼터스 분자는 전문가 평가에 기반하여 주석에서 수동적으로 지정될 수 있거나, 어떤 분자가 특정 역치 숫자를 넘어 반응에서 참여하는지 결정하기 위해 확인될 수 있다. 한 경험적 방법은 전형적인 코어 대사산물 입력(예, 300)의 크기보다 더 큰 숫자에서 반응 세트에서 나타나는 모든 분자를 표시한다. 예를 들어, 한 데이터 세트에서, ATP는 대략 31,000 반응 중 2,415개의 반응에서, NADH는 2,000개의 반응에서, NADPH는 3,107개의 반응에서 나타나고, 그들을 상기 코어 대사산물에 계산되도록 넣고, 그들 모두에 "유비쿼터스(ubiquitous)" 태그를 얻게 해준다.
출발 반응 데이터 세트
반응 주석 엔진(107)은 실행가능한 표적 분자의 예측을 위한 기초로서 출발 반응 데이터 세트를 획득한다(204). 사용자는 출발 반응 데이터 세트를 구성하는 방법을 구체화할 수 있거나, 사용자는 주석 엔진(107)이 공개 데이터베이스(110) 또는 사용자 또는 다른 이들에 의해 이전에 생성된 커스텀 데이터베이스와 같은 독점 데이터베이스(110)로부터 직접적으로 데이터를 획득하도록 명령할 수 있다. 한 실시양태에서, 주석 엔진(107)은 MetaNetx 반응 이름공간(MNX, MetaNetx reaction namespace)로부터 전체적인 반응 세트(대략 30,000개의 반응)을 불러올 수 있다. 다른 실시양태에서, 주석 엔진(107)은 MetaCyc 및 KEGG, 또는 다른 공개 또는 개인 데이터베이스로부터 반응 세트를 불러오고 합병할 수 있다(대략 22,000개의 총 반응).
실시양태에서, 반응 주석 엔진(107)은 데이터베이스(110)로부터 획득된 정보를 선택적으로 수집함으로써 출발 반응 데이터 세트를 구성할 수 있다. 예를 들어, BKMR은 반응이 자발적인지에 대한 정보를 제공한다. 주석 엔진(107)은 BKMR 반응 ID를 상응하는 반응에 대하여 MNXref에서 ID에 맵핑하기 위한 공지된 맵핑을 사용할 수 있다. 다른 예에서, KEGG 또는 MetaCyc 및 그들의 ID는 BKMR 및 이의 ID 대신에 사용될 수 있다. 이 연결을 사용하여, 반응 주석 엔진(107)은 이어서 BKMR로부터 상응하는 자발적인 반응 태그와 함께 MNXref로부터 존재하는 주석(예, 코어, 유비쿼터스)을 사용하여 데이터베이스(110)에서 커스텀 반응 리스트를 생성할 수 있다. 유사하게, 상응하는 ID의 맵핑을 통하여, 주석 엔진(107)은 MNXref에서 반응을 UniProt에서 주석과 연결하여 반응이 운송 반응인지 또는 반응 기질 또는 생산물이 할로겐을 함유하는지에 대한 태그를 획득하고, 이들 태그를 데이터베이스(110)에서 커스텀 반응 리스트에서 반응에 대한 주석에 통합시킬 수 있다. (대부분의 할로겐-관련 반응은 화합물질을 붕괴하는 것에 관한 것이기 때문에, 할로겐화된 화합물을 확인하는 것은 잘못된 방향으로 실행되는 반응을 확인하기 위한 발견적 방법이다.)
이 선들을 따라서, 반응 주석 엔진(107)은 데이터베이스 전체에 걸쳐 연관된 ID를 사용하여 데이터베이스로부터 데이터를 모아, 반응이 자발적인지, 열역학 때문에 오직 한 방향으로 실행되는지, 할로겐을 포함하는지(방향성을 결정하는 것과 관련하여), 유비쿼터스 대사산물을 포함하는지, 운송 반응인지, 불균형인지(즉, 화학 반응의 두 개의 측면이 원소 균형을 유지하지 않고, 반응이 원천 데이터베이스에서 잘못 쓰여지고, 무시되어야 하는지), 허용가능한 데이터베이스에서 불완전하게 특성분석되는지, 효소가 공지된 아미노산 서열 또는 효소를 코딩하는 유전자 서열과 연관되는 것을 표시와 함께 태그하는 효소와 연관되는지, 또는 다른 태그 사이에 트랜스멤브레인 도메인을 가질 가능성이 높은 원천 효소에 의해 촉진되는지와 같은 커스텀 주석과 함께 출발 반응 세트를 저장하는 데이터베이스(110)를 구성할 수 있다. 따라서, 주석 엔진(107)을 통하여, 사용자는, 예를 들어 MNXref 데이터베이스에서 대략 30,000개의 반응 전부에 주석을 부여할 수 있다. 전술한 바와 같이, 사용자는 기준을 구성하여 각각의 주석 특성 또는 그들의 임의의 조합에 대해 개별적인 리스트로 이 마스터 파일을 필터링할 수 있다.
생물도달가능 분자 예측
도 2의 흐름도를 참조하면, 본 개시의 실시양태의 예측 엔진(109)의 작동의 예가 후술된다. 예측 엔진(109)은 어떤 화학물질이 임의로 선택된 숙주 생물에서 예를 들어 유전 공학을 통해 생성될 수 있는지 예측한다. 예측 엔진(109)은 입력으로서 출발 대사산물 파일, 출발 반응 데이터 세트, 및 서열 데이터베이스를 가질 수 있다. 서열 데이터베이스는 촉매 화합물(예컨대 효소)에 대한 아미노산 서열, 또는 촉매 화합물을 코딩하는 유전자 서열을 저장할 수 있다. 실시양태에서, 본 개시의 실시양태의 BPT는 서열 데이터베이스를 사용하여 각 반응에 대한 아미노산 서열 또는 유전자 서열의 존재 또는 부재를 결정한다. 이러한 실시양태에서, 서열 데이터베이스는 촉매가 효소 또는 허용가능하거나 하지 않은 유전 부분을 가지는 것으로 태그되는 한 서열 자체를 포함할 필요는 없다. 생물도달가능 분자의 리스트와 함께, 예측 엔진(109)은 일부 실시양태에서, 숙주의 코어 대사산물과 같이 출발 대사산물로부터 각각의 도달가능한 표적 분자의 생산을 야기하는 반응의 구체적인 숙주 생물 "족보"(반응 경로)에 대해 생산한다.
특히, 예측은 수많은 파라미터, 예컨대 촉매가 반응을 촉진시킬 가능성(예, 유전 부분이 숙주 생물로 엔지니어링될 허용가능성 또는 촉매가 숙주 생물이 성장하는 성장 배지로부터 흡수를 통하여 숙주 샘울로 도입될 허용가능성), 허용되는 반응 단계의 최대 숫자(출발 대사산물로부터 출발하여), 허용되는 부분 또는 화학 반응의 유형, 및 다른 선택가능한 특징들에 기반하여 조정될 수 있다. 예측 엔진(109)은 또한 코어 대사산물로부터 각각의 표전 분자로 잠재력 있는 경로를 예측함으로써 표적 분자를 디자인하는데 있어서 접근법 및 어려움을 예측하는 것을 돕는다.
필터링된 반응 데이터 세트
실시양태에서, 예측 엔진(109)은 필터링되고 유효한 반응 데이터 세트(RDS)를 생성한다. 반응 주석 엔진(107)에 의해 특징화되는 반응을 사용하여, 예측 엔진(109)은 반응을 바람직한 유효 수준으로, 예를 들어 반응 효소를 위한 코딩 서열이 존재한다는 확신의 수준으로, 필터링할 수 있다(206). 이는 예측의 정확도를 미세 조정하는 단계이고, 가짜 양성 예측의 일차 소스를 제어하기 위한 단계이다. 상술한 예에서, 본 발명자들은 MNXref의 MetaNetx 반응 이름공간(MNX)으로부터 전체 반응 세트(대략 30,000개의 반응)를 내보내고 주석을 달아서 하나의 생물도달가능 리스트에 대한 RDS를 생성하였다. 유사한 접근법이 KEGG, Reactome, 및 MetaCyc와 같은 다른 공개적으로 입수가능한 반응 데이터베이스에 적용될 수 있다.
본 발명자들의 경험에 기반하여, 가장 인기있는 공개 데이터베이스에서 반응의 25-50%는 임의의 공지된 연관된 생물학적 부분을 가지지 않을 수 있다. 예를 들어, 반응을 촉진하기 위한 효소의 아미노산 서열, 또는 그들의 동반하는 유전자 서열은 알려지지 않을 수 있다. 효소 서열 정보 없이, 생물반응기는 이들 효소를 사용하여 반응을 수행할 수 없을 것이기 때문에, 반응 정보는 엔지니어링 목적을 위해 소용없게 된다. 한 경로 내에 단 하나의 효소가 공지된 유전자 서열이 부족한 경우조차, 전체 경로가 숙주로 엔지니어링될 수 없다.
이러한 부족을 다루기 위해, 예측 엔진(109)은 공개적으로 입수가능한 또는 커스텀 데이터를 사용하여 일련의 유효 시험을 통해 반응을 필터링할 수 있다. 한 공개 데이터베이스는 UniProt이고, 이는 크고, 접근 개방되고, 신뢰할만하게 조직된다. 다른 것들은 RCSB 단백질 데이터 뱅크(PDB) 및 GenBank를 포함한다. MNXref, UniProt, Brenda, 또는 PDB와 같은 일부 공개 데이터베이스에서, 반응은 효소 커미션(EC, Enzyme Commission) 숫자로 태그될 수 있고, 이는 그들이 촉진시키는 반응에 기반한 효소에 대한 숫자 분류이다. UniProt 또는 PDB와 같은 일부 데이터베이스는, 오직 촉진 효소를 코딩하는 유전자 서열이 공지된 반응에 대하여 EC 숫자 태그를 저장한다. KEGG 및 MetaCyc와 같은 기타 데이터베이스는, 유전자 서열이 공지되지 않은 효소에 대한 EC 숫자를 포함한다.
따라서, 데이터베이스에 의존하여, EC 숫자는 공지된 효소 유전자 서열의 존재를 표시하거나 하지 않을 수 있다. EC 숫자를 가진 반응의 대략 20-25%는 연관된 효소 코딩 서열을 가지지 않는다. 일부 경우에, EC 숫자는 여러 특정 화학 변형을 주석달기 위해 사용되어(EC 숫자와 화학 반응 사이에 일-대-다수 관계가 있다), EC 숫자와 연관된 효소 서열의 존재는 EC와 연관된 반응이 유효한 연관된 서열을 가지는 것을 의미하지 않는다. 따라서, 효소 활성에 대한 EC 태그의 존재는 그 효소에 대한 유전자 서열의 존재의 신뢰할만한 일반적인 표시가 아니지만, 서열이 그 효소에 대해 존재하는 것이 합리적으로 가능성이 높음을 결정하기 위한 특정 데이터베이스로 적용될 수 있다. 일부 데이터베이스는 또한 특정 화학 반응이 주어진 아미노산 서열에 의해 확실하게 촉진되는 것으로 알려지는 것을 명시적으로 설명하는 별도의 필드(예를 들어, UniProt에서 "촉매 활성" 필드)를 가진다(따라서, 효소 촉매를 코딩하기 위한 공지된 유전자 서열을 가짐). 이러한 반응은 본 명세서에서 "확실하게 서열화됨"으로 주석되는 것으로 나타난다.
예측 엔진(109)은 촉매가 숙주 생물에서 반응을 촉진하기 위해 허용가능한지 여부에 대하여 신뢰도를 결정할 수 있다(예, 반응을 촉진하기 위해 숙주 생물로 엔지어니링되기 위해 허용가능한지). 예를 들어, 효소 코딩 서열이 공지되는 것의 확실성 차이에 기반하여, 예측 엔진(109)은 일부 실시양태에서 반응 데이터 세트에서 주석에 대한 효소 코딩 서열을 찾는 "엄격한(strict)" 검색 또는 "완화된(relaxed)" 검색을 실행할 수 있다. 엄격한 검색을 위해, 예측 엔진(109)은, 예를 들어 명확하게 서열화되는 것으로 주석이 달린 반응만 선택할 수 있다.
완화된 검색을 위해, 예측 엔진(109)은, 예를 들어 공지된 효소 코딩 서열과 연관되는 EC 숫자를 가지는 것으로 주석이 달린 반응(불린(Boolean) 비-배제 OR) 또는 MetaCyc와 같은 데이터베이스로부터 유래된 주석으로부터 서열 데이터베이스에서 "명확하게 서열화되는" 것으로 주석이 달리는 반응을 선택할 수 있다. 예측 엔진(109)은 신뢰도의 둘 중 어느 수준을 위해서 반응을 위해 임의의 유전자 또는 아미노산 서열이 발견되는 것을 기록한다. 예를 들어 예측 엔진(109)은 반응이 완화된 검색을 만족하는 것으로 표시된 태그를 가지는 것으로 주석을 달 수 있다.
도 3은 본 개시의 실시양태에 따르는 MNXref 및 UniProt와 같은 데이터베이스에 대한 엄격한 및 완화된 효소 서열 검색을 실행하기 위해 예시적인 의사코드(pseudocode)를 예시한다. 의사코드는 효소를 위해 존재하는 서열인지 여부를 결정하기 위한 발견적 방법에 의해 사용된 논리를 설명한다. 이 실시양태는 4개의 신뢰 수준을 제공한다. 코드는 처음에 반응 데이터 센터 주석이 적어도 하나의 EC 숫자를 포함하는지 결정하는 것을 도시한다. 그러기 위하여, 이어서 코드는 EC 숫자를 위한 서열 데이터베이스를 검색하는 것을 요청한다. 엄격한 검색이 수행되는 경우, 이어서 코드는 명확하게 서열화되는 것인 반응을 위해 서열 데이터베이스를 검색하는 것이 요청된다. 완화된 검색이 수행되는 경우, 이어서 코드는 연관된 EC 숫자 및 TRUE를 가지는 반응을 위해 완화된 주석 태그를 설정한다.
시작 단계가 반응 데이터 세트 주석은 (a) EC 숫자를 포함하지 않거나, 또는 (b) (전술한 바와 같이) EC 서열 검색은 서열 데이터베이스로부터 EC 숫자를 발견하는 것을 결정하고 엄격한 검색이 수행된다면, 코드는 명확하게 서열화되는 반응을 위해 서열 데이터베이스를 검색하는 것을 요청한다. 저 검색이 반응이 명확하게 서열화되는 것을 발견한다면, 이어서 코드는 반응을 위해 엄격한(Strict) 및 완화된(Relaxed) 주석 둘 다를 진짜(TRUE)로 설정한다. 그렇지 않다면, 코드는 저 반응을 위한 주석들 둘 다를 가짜(FALSE)로 설정한다.
요약하면, 발견적 방법의 출력은 각 반응에 대한 엄격함(Strict) 및 완화됨(Relaxed) 두 개의 주석 태그이다. 이 발견적 방법은 하술되는 바와 같이 4개의 신뢰도 수준을 제공한다:
엄격함 = 진짜(TRUE) -> 매우 높은 신뢰도로 서열이 존재함
엄격함 = 가짜(FALSE) -> 중간 신뢰도로 서열이 존재하지 않음 (일부 가짜 음성이 예상됨)
완화됨 = 진짜(TRUE) -> 중간 신뢰도로 서열이 존재함 (일부 가짜 양성이 예상됨)
완화됨 = 가짜(FALSE) -> 매우 높은 신뢰도로 서열이 존재하지 않음
본 발명자들은 완화된 검색을 실행하면 20% 보다 적은 가짜 양성 비율을 야기하는 반면에, UniProt에서 촉매 활성 필드에 대한 엄격한 검색을 실행하면 현저한 가짜 음성 비율을 야기하는 것을 발견하였다. 그러므로, 완화된 검색의 측면에서 약간 틀리는 것이 더 나을 수 있다. "완화됨" 및 "엄격함" 태그는 단지 서열-기반의 필터링을 다루는 두 개의 가능한 방법이다. BPT는 표적 활성을 위한 적합한 모티프를 가진 서열의 존재를 확인하는 것과 같은 더욱 관대한 방법 또는 MetaCyc과 같은 중요하게 조직된 데이터베이스에서 직접적으로-문헌-지지된-활성-서열 연결의 존재를 요구하는 것과 같은 더욱 엄중한 방법을 포함하는, 임의의 서열-기반 태깅(및 따라서 필터링) 접근법으로 처리할 수 있다.
서열-기반 필터링의 대안으로서 또는 추가하여, 예측 엔진(109)은 반응 방향성 또는 반응이 자발적인 반응, 운송 반응인지, 또는 할로겐을 함유하는지 여부와 같은, 주석 엔진(107)에 관하여 상기에서 논의된 주석의 임의의 조합에 기반한 반응을 필터링할 수 있다(즉, 선택 또는 선택하지 않을 수 있다). 예측 엔진(109)은 사용자 인터페이스(102) 또는 디폴트 설정을 통하여 사용자 구성에 기반한 필터링을 수행할 수 있다. 실시양태에서, 예측 엔진(109)은 시뮬레이팅된 대사 경로를 따라 상이한 반응 단계에서 상이한 필터를 적용할 수 있고, 그들은, 반응이 완화된 기준에 기반하여 서열을 가지는지; 모든 운송 반응을 배제하는지; 반응이 서열을 가진다면 할로겐을 함유하는 반응만 포함하는지; 상기 특성과 관련없이 모든 자발적인 반응을 포함하는지일 수 있다.
반응이 자발적이라면, 반응은 숙주 유전체를 엔지니어링하여 효소를 생산하여 자발적인 반응을 촉진할 필요 없이 자동적으로 일어날 것이다. 반응은 주어진 숙주를 위해 주어진 조건 하에서 발생하는 것으로 공지되어 있기 때문에, 예측 엔진(109)은 자발적 반응 생산물이 생산될 것을 예상할 수 있다.
상기 설명된 바와 같이, 무기 분자는 탄소를 기여하지 않고, 유비쿼터스 분자는 표적 대사산물에 탄소를 기여할 가능성이 없다. 따라서, 출발 대사산물로서 사용되는 것들로부터 유비쿼터스 및 무기 분자를 제거하는 것은 예측 엔진(109)이 실행가능한 표적 분자를 예측하는데에 있어서 유효한 대사 경로를 따를 것으로 높은 신뢰도를 체험적으로 제공한다. 따라서, 예측 엔진(109)은 반응에 제한된 것으로 유비쿼터스 또는 무기 분자를 처리하지 않는다. 즉, 그들은 그들이 참여하는 반응에 항상 허용가능할 가능성이 높은 것으로 추측된다.
대사산물 예측
도 2를 참조하면, 예측 엔진(109)은 필터링된 RDS에서 반응에 따라 처리된 입력 대사산물의 기질이 주어진다면 어떤 대사산물이 형성되는지 예측하기 위해 단계별 시뮬레이션을 수행할 수 있다(208). (화학 반응은 화학 생성물을 생산하기 위해 입력 "기질"(예, 분자의 세트) 상에 작동한다.) 본 개시의 실시양태의 예측 엔진(109)의 작동은 하기와 같이 서술될 수 있다:
단계 0: 초기에는, 시뮬레이팅된 숙주 생물에 코어 대사산물만 존재한다. 그들은 다음 단계에서 반응을 위해 현재 기질을 형성한다.
단계 1 : 예측 엔진(109)은 단계 0으로부터 코어 대사산물이 필터링된 반응 세트(RDS) 내에서 임의의 화학 반응의 한 측면과 일치하는지, 및 반응이 (방향성/열역학 주석에 기반하여) 주어진 방향으로 일어날 수 있는지 결정하고, 따라서 어떤 반응이 반응 방정식의 다른 측면 상에 화학물질을 생산하도록 촉발할 것인지 결정한다(208). 예측 엔진(109)은 어떤 임의의 새로운 대사산물이 촉발된 반응에 의해 생산되는지를 결정한다(210).
예측 엔진(109)은 새로운 대사산물이 예측되지 않는다고 결정하면(210), 이어서 예측 엔진(109)은 예측 과정을 종료하고, 결과를 보고한다(212).
반대로, 만일 예측 엔진(109)이 새로운 대사산물이 형성된다고 결정하면(210), 예측 엔진(109)은 새로운 대사산물을 기질 풀(pool)에 추가한다(214). 업데이트된 기질 풀은 이제 코어 대사산물 및 단계 1로부터 새롭게 예측된 대사산물을 포함한다.
예측 엔진(109)은 대사산물 및 각 단계에서 촉발된 반응을 기록하고, 필터링된 RDS로부터 촉발된 반응을 또한 제거한다(단계 216). 이 제거는 동일한 반응이 후속적인 단계에서 촉발되는 것을 예방하여, 반응 및 그의 생성된 대사산물이 후속적인 단계에서 존재하는 것으로 확인되는 것을 피한다. 각 단계는 과정의 모든 단계를 통하여 단 한번 시뮬레이팅된다. 이는 대사산물에 도달하기 위한 가장 짧은 경로(가장 적은 수의 단계)에 집중하는 가장 훌륭한 실행을 엔지니어링하며 행동하고, 동일한 대사산물로의 더 긴 경로는 전형적으로 부최적(suboptimal)이다. 대사산물 및 각 단계 내에서 반응과 함께, 예측 엔진(109)은 대사산물이 만들어지는(즉, 만들어질 것으로 예측되는) 단계를 기록한다. 그 단계는 대사산물을 생성하는데까지 대사 경로 길이를 나타낸다. 대사산물은 구별되는 반응을 통하여 생성된다면 여러 단계에서 생산물로서 나타날 수 있음을 유의한다. 이 사실은 예측 엔진이 동일한 대사산물이 구별되는 반응에 의해 도달되는 구별되는 경로를 확인하는 것을 허용한다.
단계 2: 예측 엔진(109)은 이어서 필터링된 RDS에 대항하여 실행하기 위해 입력으로서 업데이트된 대사산물의 기질 풀을 사용하여 임의의 반응이 새로운 대사산물을 생산하기 위해 촉발할 수 있는지 여부를 예측하기 위해 단계(208)로 돌아온다.
여러 번의 반복 후, 대사산물의 풀은 성장하는 반면에 허용가능한 반응의 풀이 줄어든다. 결국, 필터링된 RDS에 남아 있는 반응을 촉발할 수 있는 대사산물이 더 이상 남지 않기 때문에, 처리는 포화될 때까지 실행될 수 있다. 본 발명자들에 의한 실험에서, 대략 10,000개의 필터링된 반응이 모든 반복 후에 수 천개의 대사산물을 야기할 수 있다. 다르게는, 예측을 멈추고 결과를 보고하기 전에 구성되어 예측 엔진(109)이 수많은 허용된 반응 단계를 구체화할 수 있다(212). 반응 단계의 횟수에 대한 제한은 실제 엔지니어링을 반영하고, 이는 전형적으로 사이클 수를 제한할 것이다.
도 4 및 도 5는 본 개시의 실시양태의 생물도달가능 예측 도구에 의해 생성될 수 있는 보고의 예를 예시한다. 도 4는, 각 처리 단계에 대하여, 생성된 대사산물(생물도달가능 이름), 그들의 화학 구조식, 대사산물의 유형(예, 코어, 전구체, 반응에 의해 생산된 후보 생물도달가능), 공지된 데이터베이스에서 사용되는 ID와 같이 고유의 반응 ID에 의해 표시된 대사산물의 반응 족보(또한 반응의 왼쪽("L") 또는 오른쪽("R")이 촉발되는지 도시한다), 후보 생물도달가능 분자를 생산하기 위해 가장 가까운 코어 대사산물로부터 필요한 반응 단계의 횟수, 및 각 후보 생물도달가능 분자로부터 가장 가까운 코어 대사산물의 이름을 도시한다. 단계 0에서 단지 분자만이 출발 대사산물 리스트(예, 코어, 전구체)에 있음을 주의한다.
도 5는 반응 족보 추적의 가설적인 예를 예시한다. 단계별 반응은 다음과 같다:
단계 1: A + B <--> C + D
단계 2: C + B <--> E + F
단계 3 : D + E <--> G + H
이 예에서 특징은: 단계에서 생성된 대사산물이 코어인지; 대사산물이 발견되는 단계가 발견되는지; 단계의 수에서 거리에 의해 측정된 생성된 대사산물에 가장 가까운 코어 대사산물; 및 대사산물을 생산하기 위해 촉발된 화학 반응을 나타낸 반응 족보를 포함한다. 대사산물 A는 코어 대사산물이고, B는 단계 0에서 숙주의 생체량에 존재하는 전구체 대사산물이다. 따라서, 반응 족보를 가지지 않는다.
C 및 D는 반응 족보에서 반응 A + B에 의해 단계 1에서 생산되는 것으로 도시된다(원천 반응). C 및 D에 가장 가까운 코어은 A이다. C 및 D는 코어 A 및 B에 따라 기질에 추가된다.
E 및 F는 반응 C + B에 의해 단계 2에서 생산되는 것으로 도시된다. E 및 F에 가장 가까운 코어은 A이다. E 및 F는 코어 A 및 B 및 생물도달가능 생산물 C 및 D에 따라 기질에 추가된다.
G 및 H는 반응 D + E에 의해 단계 3에서 생산되는 것으로 도시된다. G 및 H에 가장 가까운 코어은 A이다.
도구는 각 대사산물에 대한 경로(또한 반응의 "족보" 서열로 알려짐)를 하기와 같이 출력할 수 있다:
C: A + B→
D: A + B→
E: A + B→; C + B→
F: A + B→; C + B→
G: A + B→; C + B→; D + E→
H: A + B→; C + B→; D + E→
경로 필터링. 실시양태에서, 숙주 생물, 표적 분자, 및 주어진 표적 분자를 야기하는 경로의 반응 족보가 주어지면, 예측 엔진(109)은 경로를 선택적으로 필터링하여 경로 길이(예, 출발 대사산물로부터 표적 분자로의 반응 처리 단계의 숫자)와 같은 주어진 파라미터에 기반한 경로를 확인할 수 있다. 예측 엔진(109)은 출력으로서 확인된 반응 경로를 나타내는 데이터를 제공할 수 있다.
숙주 생물 선택. 하나의 숙주 생물을 부여하는 실행가능한 표적 분자를 결정하는 대신에, 주어진 실행가능한 표적 분자를 생산하는 하나 이상의 숙주 생물을 확인하는 것이 바람직할 수 있다. 실시양태에서, 예측 엔진(109)은 하나의 숙주 생물이 아닌 복수의 숙주 생물에 대하여 상술한 방법 중의 하나에 따라서 실행가능한 표적 분자를 나타내는 데이터를 생성한다. 이러한 실시양태에서, 주어진 실행가능한 표적 분자에 대하여, 예측 엔진(109)은 적어도 하나의 기준을 만족시키는 적어도 하나의 복수의 숙주 생물을 결정한다. 예를 들어, 반응 족보 데이터를 사용하여, 예측 엔진(109)은 숙주 생물에서 주어진 실행가능한 표적 분자를 생산하기 위해 필요한 것으로 예측되는 처리 단계의 수에 기반하여 숙주 생물을 선택할 수 있다. 또 다른 예로서, 예측 엔진(109)은 숙제 생물에 의해 생산된 실행가능한 표적 분자의 예측된 수율에 기반하여 숙주 생물을 선택할 수 있다. 예측된 수율은 각각의 가능한 숙주에 대하여 분리된 모델에 기반하여 플럭스-밸런스 분석(FBA, Flux-Balance Analysis), 단순 원소 수율 모델 및 전구체-기반한 백분율 수율 예측을 포함한 수많은 방법에서 유래될 수 있다. 예측 엔진(109)은 출력으로서, 적어도 하나의 기준을 만족시키기 위한 숙주 생물을 나타내는 데이터를 제공한다.
상술한 실시양태에 대해 기재된 바와 같이, 예측 엔진(109)은 각각의 숙주 생물에 의해 생산된 각각의 표적 분자를 야기하는 하나 이상의 반응 경로(즉, 족보)의 기록을 생성할 수 있다. 복수의 숙주 생물에 대한 도구를 실행하는 상기 실시양태를 기반으로, 반응 주석 엔진(107)은 숙주 생물 및 표적 분자 사이의 연관, 및 라이브러리로서 데이터베이스에서 족보, 수율, 처리 단계의 수, 반응 경로에서 반응을 촉진하는 촉매의 허용가능성, 등과 같은 파라미터를 구체화하는 주석을 포함할 수 있다. 다르게는, 라이브러리는 제 3 자로부터 획득될 수 있다.
실시양태에서, 만일 예측 엔진(109)이 이러한 라이브러리로 접근을 가진다면, 도구는 주어진 실행가능한 표적 분자를 생산하는 여러 개의 숙주 생물을 확인하기 위해 실행될 필요가 없다. 대신에, 이러한 실시양태에서, 예측 엔진(109)은 숙주, 표적 분자, 및 반응 사이에 연관에 관련된 주석 데이터를 포함할 수 있다. 예측 엔진(109)은 적어도 부분적으로 예를 들어 라이브러리 또는 공개 또는 독점 데이터베이스로부터 증거에 기반한 하나 이상의 숙주 생물들 사이에서 적어도 하나의 표적 숙주 생물을 확인할 수 있고, 따라서 적어도 하나의 표적 숙주 생물에서 표적 분자의 생산으로 야기하는 적어도 하나의 반응 경로에서 반응을 촉진하기 위해 예측된 모든 촉매는 적어도 하나의 반응 경로에서 모든 이러한 반응을 촉진하는데 허용가능할 가능성이 높다. 실시양태에서, 예측 엔진(109)은 표적 분자를 생산하기 위해 필요한 것으로 예측되는 반응 경로 내에서 반응 단계의 역치 숫자보다 적게 요구되는 표적 숙주에 기반하여 표적 숙주를 결정할 수 있다.
생물자원탐사. 일부 반응 효소는 EC 숫자를 가지고, 잘 특성화(그들의 반응물질 및 생산물이 공지됨)될 수 있지만, 공지된 연관된 아미노산 서열 또는 유전자 서열을 가지지 않을 수 있다("오펀 효소(orphan enzyme)"). 이러한 경우에, 예측 엔진(109)은 오펀 효소를 생물자원탐사하여 그들의 아미노산 서열 및 궁극적으로 그들의 유전자 서열을 예측하여, 새롭게 서열화된 효소는 숙주 생물로 엔지니어링되어 하나 이상의 반응을 촉진할 수 있다. 예측 엔진(109)은 이어서 새롭게 서열화된 효소에 상응하는 반응을 필터링된 반응 데이터의 구성원으로서 지정할 수 있다. 실시양태에서, 예측 엔진(109)은 당 분야에 공지된 기법을 사용하여 오펀 효소를 생물자원탐사한다. 예를 들어, 하나의 팀은 서열을 확인하기 위하여 (서열 유사성 네트워크 및 오페론 문맥 분석을 포함한) 분석 및 컴퓨터 방법에 기반한 질량-분석법에 의해 적은 수의 오펀 효소에 대하여 아미노산 서열을 결정하였다. 이어서 팀은 새롭게 결정된 서열을 사용하여 많은 이전에 특성분석되지 않거나 주석이 잘못 달린 촉매 기능을 더욱 정확하게 예측하였다. 본 명세서에서 전체가 참조로 인용된 논문 [Ramkissoon KR, et al. (2013) Rapid Identification of Sequences for Orphan Enzymes to Power Accurate Protein Annotation, PLoS ONE 8(12): e84508. doi: 10.1371/journal. pone.0084508]; 또한 논문 [Shearer AG, et al. (2014) Finding Sequences for over 270 Orphan Enzymes. PLoS ONE 9(5): e97250. doi: 10.1371/journal.pone.0097250]; 및 논문 [Yamada T, et al., Prediction and identification of sequences coding for orphan enzymes using genomic and metagenomic neighbours genomic and metagenomic neighbours, Molecular Systems Biology 8:581]을 참조하라.
유전체 엔지니어링. 생물도달가능 예측 도구는, 화학자, 재료 과학자 등에게, 그들은 고객과 같이 제 3 자일 수 있는데, 생물도달가능 후보 분자(실행가능한 표적 분자)의 리스트를 제공할 수 있다. 그들의 표적 분자의 선택에 기반하여, 사용자는 도구를 유전자 제조 시스템에 효소 또는 각각의 선택된 표적 분자를 야기하는 반응 경로에서 반응을 촉진하는 다른 촉매에 대하여 유전자 서열의 표시를 제공하도록 표시할 수 있다. 유전자 제조 시스템은 이어서 숙주의 유전체로 표시된 유전자 서열을 (예를 들어, 삽입, 대체, 결실을 통하여) 구현함으로써 실행가능한 표적 분자의 제조를 위해 엔지니어링된 유전체를 생산할 수 있다. 실시양태에서, 유전자 제조 시스템은 시스템 및 당 분야에 공지된 기법에 의해, 또는 본 명세서에서 전체가 참조로서 통합된 "미생물 균주 디자인 시스템 및 엔지니어링된 뉴클레오타이드 서열의 개선된 대규모 생산을 위한 방법(Microbial Strain Design System and Methods for Improved Large Scale Production of Engineered Nucleotide Sequences)"라는 제목의 2016년 4월 27일 출원된 계속 중인 미국 특허 출원 No. 15/140,296에서 개시된 팩토리(210)에 의해 사용하여 구현될 수 있다. 실시양태에서, 예측 엔진(109)은 팩토리에 대해 하나 이상의 촉매의 표시를 팩토리로 제공하여 표적 분자의 생산을 위해 숙주 생물의 성장 배지로 하나 이상의 촉매를 도입한다.
경로 예측 예시
예측 엔진(109)은, 촉매를 사용하는 반응의 모든 경로를 예측하여, 본 개시의 실시양태에 따라, 표적 분자에 도달하기 위해 촉진되거나 엔지니어링될 가능성이 높다. 예측 엔진(109)은 또한 예측 엔진(109)에 의해 생성될 수 있는 코어과 같이 정량 정보 또는 정성 정보에 기반한 분자의 제조를 시도하기 위해 예측된 경로들로부터 선택하기 위해 사용될 수 있다.
반응 라벨 및 카테고리
반응 세트는 이 특허 출원의 다른 부분에서 설명된 바와 같이, 필터링되고 라벨링될 수 있다. 예를 들어, 반응은 유전자 서열이 입수 가능하고 그들이 유전자 서열을 가질 가능성이 높음을 나타내기 위해 "서열 완화됨"으로 라벨링되거나, 또는 유전자가 자연에 존재하고 실험적으로 특성화되어야 할 필요가 있음을 나타내기 위해 그들은 "오펀으로 특성화됨"으로 라벨링될 수 있다. 반응은 그들의 질량 및 에너지 밸런스, 또는 다른 특성을 반영하기 위해 유사하게 라벨링될 수 있다.
또한, BPT는 반응이 열역학적 데이터에 기반한 작동할 가능성이 높은 방향으로 계산할 수 있다.
표적 분자를 생성하기 위한 반응의 처리 동안, 반응 주석 엔진(107)은 열역학적으로 유리한 방향으로, 또는 열역학적으로 불리한 방향으로 반응에 의해 표적 분자의 생산이 일어나는지 여부를 표시할 수 있다.
이들 열역학적 결과 및 다른 모든 반응 라벨은 반응 주석 엔진(107)에 의해 사용되어 BPT의 주어진 실행에 의해 생산된 분자 및 족보를 태깅할 수 있다. 예를 들어, 반응을 촉진하기 위한 효소를 생산하기 위해 열역학적으로 불리한 반응 및 공지된 유전자가 부족한 두 개의 반응을 함유하는 다섯-단계 족보는 다음과 같이 라벨링될 수 있다:
경로 길이: 5
불리한 반응: 1
유전자 부족 반응: 2
이들 라벨들은 이어서 예측 엔진(109)에 의해 사용되어 각각의 반응에 점수를 줄 수 있다. 또한 그들은 출력의 하부섹션 상에서 분류하고 작동하기 위해 사용될 수 있고, 그들은 주어진 숙주에 대한 주어진 분자의 엔지니어링 가능성으로 직접적인 통찰력을 제공한다.
후술될 예에서, BPT는 생물도달가능 표적 분자를 확인하기 위해, 표적 분자에 도달하기 위해 사용될 수 있는 예측된 경로를 표시하기 위해 사용되었다.
경로 생산 및 평가로 통합되었던 열역학 데이터는 그룹 기여 방법을 사용하여 생성되었지만, 임의의 숫자의 대사 데이터베이스로부터 유래될 수 있었다.
예측 엔진(108)은 본 명세서에 개시된 점수 방법을 사용하여 생성된 연관된 점수를 각각의 가능한 경로에 부여할 수 있다. 이들 점수는 표적 분자를 만들기 위해 엔지니어링하기 위한 시도에 경로 변이에 관하여 결정을 알려주기 위해 사용될 수 있다.
실시양태에서, 예측 엔진(109)은 100점의 최적 점수에서 시작하고 디자인 실패의 어려움 또는 위험을 추가하는 경로 특징에 대하여 점수를 뺄 수 있다. 예를 들어, 경로 길이는 디자인 위험과 경로 길이 상관관계가 있고, 전체 점수는 경로 길이가 증가함에 따라 감소될 수 있다. 예를 들어, 예측 엔진(109)은 경로 길이에서 각각의 추가적인 단계에 대하여 하나 이상의 점수를 뺄 수 있다.
티라민
도 8은 본 개시의 실시양태를 따라, 티라민을 생산하기 위해 예측 엔진(109)에 의해 확인된 경로를 예시한다. 티라민의 경우에서, 하나의 반응 단계(R1)로 구성된 단일한 경로가 예측되었다. 도시된 열역학 데이터에 기반한 계산된 반응에 의존한다. 도시된 경로는 가열적인 것으로 열역학적 데이터에 기반하여 계산되는 반응 상에 의존하고, 이는 티라민을 생성하기 위해 요구되는 방향에서 작동할 수 있는 것을 의미한다.
경로도에서, 검은 화살표는 바람직한 분자(여기서는 티라민)를 생성하기 위해 경로에서 반응에 요구되는 반응 방향을 나타낸다. 흰 화살표는 반응에 대해 계산된 열역학 방향을 나타낸다. 요구되고 계산된 반응 방향이 일치하는 경우, 경로는 타당하다.
이 단일 경로는 다른 부분에 개시된 측정법(metric)에 의해 100점을 득점한다.
(S)-2,3,4,5-테트라하이드로디피콜리네이트(THDP)
도 9에 도시된 바와 같이, BPT는 본 개시의 실시양태에 따라 THDP를 생성하기 위한 두 가지 가능한 2-단계 경로를 예측한다. 두 경로는 이들 실시양태에서 97점의 동일한 점수를 달성한다.
경로는 동일한 제 1 반응(R1)을 공유하고, 제 2 반응(R2 또는 R3)에서 상이하다. 이 경우에, 이들 반응은 그들이 사용하는 환원 공통인자의 형태, 예를 들어 NADH 대 NADPH가 상이하다. 경로가 동일한 점수를 획득하더라도, 이들 공통인자 차이는 엔지니어링 목적에 관련되고, 따라서 BPT의 실시양태에서 제시되어 설계 결정을 안내하는 것을 돕는다. 전형적으로, 한 공통인자(NADH 또는 NADPH 둘 중의 하나)가 각각의 주어진 숙주 생물에서 훨씬 더 풍부하게 존재한다. 따라서, 실시양태에서, 당업자는 더 풍부한 공통인자를 사용하는 경로를 선택하여, THDP를 생산할 수 있다. 다른 실시양태에서, 예측 엔진(109)은 데이터베이스로부터 검색하고 표적 분자 점수를 계산하기 위한 엔지니어링가능성 상에 공통인자의 영향력에 관한 정보를 고려할 수 있으므로, 이로써 경로의 공통인자의 인간 검토에 대한 요구를 배제한다.
가상적인 분자 "F"에 대한 예시적인 예측된 경로
또 다른 예에서, 생물도달가능 분자 "F"에 대하여, BPT은 도 10에서 예시한 바와 같이 3가지 가능한 경로를 예상하였다.
첫 번째 경로는 2 단계 길이이고, 저-신뢰도 오펀 반응(R2)을 포함하여, 58점의 점수를 획득한다. 저-신뢰도 오펀 반응은 상응하는 DNA 서열이 폭넓은 특이적 연구 없이 쉽게 입수할 가능성이 낮은 오펀 효소에 의해 촉진된 반응이다. 따라서, 많은 점수가 오펀 효소에 대해 차감된다.
두 번째 경로는 3 단계 길이이고, 오직 진핵세포 유전자만 허용가능한 한 반응(R4)을 포함하여, 92점의 점수를 획득한다. 점수는 전체 경로 길이 때문에, 그리고 R4에 대한 유전자 소싱에서 제한 때문에 제한다.
세 번째 경로도 또한 3 단계 길이이고, 다른 3 단계 반응과 공통인 두 개의 반응(R3 및 R4)을 가진다. 또한 오직 진핵세포 유전자만 허용가능한 한 반응(R4) 및 엔지니어링 효소를 요구하는 또 다른 반응(R5)을 가져, 82점의 점수를 야기한다. 또한, 이 경로는 경로 점수에 영향이 없지만, 구체적인 숙주 및 용도에 대하여 경로가 가장 양호한 맞는지 결정할 때 고려사항인 출발 코어 대사산물의 대안적인 세트(A + B 대신 K + L)를 가진다.
이 예시에서, BPT의 예측 엔진(109)으로부터 득점 출력은 단순한 경로 길이를 넘어선 중요한 엔지니어링 정보를 제공한다. 가장 짧은 경로(#1)가 가장 양호한 것이라는 직관에도 불구하고, 각각의 반응에 대한 주석 엔진(107)에 의해, 그리고 필터링 또는 처리 동안 BPT에 의해 수집된 정보는 더 긴 경로(#2 및 #3)가 엔지니어링하기에 더 실행가능할 수 있다는 것을 보여준다. 예를 들어, 반응 주석 엔진(107)은 일부 반응에 대하여 촉매가 오직 고-위험 카테고리(예, 저-신뢰도 오펀, 엔지니어링된 효소)에서 입수가능하다는 것을 결정할 수 있고, 예측 엔진(109)은
짧은 경로는 고-위험 카테고리에 의존하는 반면에, 긴 경로는 그렇지 않고, 이는 더 긴 경로가 엔지니어링하기에 더 실행가능할 수 있다는 것을 결정할 수 있다.
테트라하이드로디피콜리네이트 득점표
본 개시의 실시양태에 따라, 예측 엔진(109)은 표적 분자를 생산하는 어려움을 점수내기 위해 생성되는 정보를 사용한다. (반대로, 점수는 분자를 생산하는 용이함을 나타내는 것으로 보일 수 있다. ) 이 점수는 본 명세서에서 "분자 점수", "표적 분자 점수", 또는 "전체 경로 점수"로 상호교환가능하게 지칭된다.
예시로써, 도 11a 및 도 11b는 함께 어떻게 예측 엔진(109)이 테트라하이드로디피콜리네이트(THDP)의 생산을 점수낼 수 있는지 예시하는 표를 제공한다. 실시양태에서, 전체 경로 점수내기 처리는 경로 점수, 부분 점수, 및 생산물 점수와 같은 구성요소에 의해 세분화될 수 있고, 표에 도시된 바와 같이, 예를 들어, 30%, 60%, 10%로서 가중화될 수 있다. 도시된 평가 데이터는 분자 (S)-2,3,4,5-테트라하이드로디피콜리네이트(THDP)로 경로를 예측하는 처리 동안 생성되었다.
경로 구성요소 점수는 경로의 상대적인 엔지니어링 실행용이성을 나타낸다. 실시양태에서, 두 개의 요소를 포함한다:
경로 길이 - 경로에서 반응 단계의 수. 이는 본 개시의 실시양태에 따라, 예측 엔진(109)에 의해 생물도달가능 예측의 고유한 부분으로 계측된다.
유전자 계수 - 경로를 위해 요구되는 예측된 유전자의 수. 반응 주석 엔진(107)에 의해 반응 필터링의 부분으로서 데이터베이스를 질의함으로써 확인된다.
반응 및 효소가 항상 1:1 관계인 것이 아니기 때문에(예를 들어, 단일한 반응이 종종 두 개의 유전자를 요구하는 2-부분 효소에 의해 촉진된다), 예측 엔진(109)은 경로의 엔지니어링의 예측된 어려움으로 두 개의 요인을 고려할 수 있다.
도 9에 도시된 바와 같이, BPT에 의해 예측되는 두 개의 족보에서, THDP는 바람직한 숙주 생물에서 두-단계 경로를 요구한다. 이는 두-단계 대 한-단계 경로의 어려움에서 가장 온화한 증가에 기반한 적합한 점수 차감을 이끈다.
이 경우에, 경로 반응 단계 당 유전자 수(반응이 유전자를 가질 가능성을 결정하는 동일한 평가 처리를 통하여 확인가능함)는 또한 가장 온화한 벌점을 이끈다.
부분 구성요소 점수
부분 점수는 개별적인 경로 부분의 상대적인 엔지니어링 실행가능성을 나타낸다. 실시양태에서, 평가되는 경로에서 반응에 대한 촉매를 숙주로 엔지니어링하기 위해 요구된 부분(예, 유전자)을 찾는 데에 있어서 예측된 어려움에 기반한다.
실시양태에서, 부분을 찾는 능력을 부여할 수 있는 가능한 특징들은 하기를 포함한다:
>100 공지된 효소 서열 - 반응 필터링 단계 동안 발견된 100 또는 더 많은 서열(예, 반응을 촉진하기 위한 효소에 상응하는 적어도 하나의 데이터베이스에서 나타난 100 또는 더 많은 아미노산 서열)
<100 공지된 효소 서열 - 효소 서열이 발견되었으나, 반응 필터링 단계 동안100개 보다 적게 확인되었음
고-신뢰도 오펀/저-신뢰도 오펀 - 효소 서열이 반응 필터링 단계 동안 공개 데이터베이스에서 발견되지 않았으나, 연관된 증거가 이들 서열이 확인하기에 상대적으로 쉽거나(고-신뢰도) 또는 어려울 것(저-신뢰도)으로 제안하는 것으로 발견되었음
엔지니어링된 효소 - 반응 필터링 단계 동안 이 반응에 연결된 효소만 엔지니어링되어 반응을 수행하였다(이 데이터는 데이터베이스 검색에서 찾을 수 있다). 이는 전형적으로 자연적으로 촉진하는 반응과 다른 반응을 촉진하도록 변형된 천연 효소를 지칭한다. 이들 엔지니어링된 효소는 기증자 생물의 제한 범위로부터 하나 또는 여러 개의 서열로 제한될 수 있기 때문에 새로운 경로에서 사용하는 것은 어려울 수 있다. 이러한 엔지니어링된 효소는 BRENDA와 같이 공개 데이터베이스에서 발견될 수 있다.
유전자 분류 소싱 - 역시 반응 필터링 단계 동안 확인됨(효소 서열은 발견된 것으로 추정함); 이 구성요소는 생물도달가능 분자에 대한 예측된 경로에서 반응 사이에 "가장 불량한 경우"(가장 큰 벌점)에 의해 생물도달가능 분자를 분류하고; 벌점은 산업상 플랫폼 생물에서 표시된 소스로부터 효소를 발현하는 어려움에 대하여 지금까지 경험적인 데이터에 기반한다.
개별적인 반응이 알려지지 않은 경우 경로에 대한 유전자 허용가능성 - 일부 경우에, 경로는 데이터세트에서 대신하는 반응을 사용하여 정의될 수 있고, 이들 반응은 개별적인 유전자 클러스터 또는 생물에 프로그램적으로 연결될 수 있고; 개별적인 반응을 알려지지 않은 경로는 엔지니어링 위험 및 어려움에서 현저한 증가를 나타내고, 따라서 큰 벌점이 부여된다.
이들 특징 요소는 각각의 반응을 촉진하는 효소에 대한 서열 데이터의 정보가 존재, 부재, 및 풍부함에 대하여 축적되기 때문에 반응 주석 엔진(107)에 의해 모두 확인된다.
THDP의 경우에, 유전자는 두 개의 경로 반응에 대하여 풍부하게 존재하여, 벌점을 얻지 않는다. 대신에, 예를 들어, 반응 중의 하나가 저-신뢰도 오펀에 의해 촉진되어, THDP는 상당한 벌점이 누적될 것이다.
생산물 구성요소 점수
생산물 점수는 본 개시의 실시양태에서 표적 분자 점수에 대한 가장 작은 전체 기여자이다. 생산물 점수는 세포에서 생산물을 유지하는데에, 세포로부터 그것을 배출하는데에, 그리고 배지에 그것을 유지하는데에 있어서 어려움에 영향을 미치는 요인을 나타낸다. 실시양태에서, 분자의 예상된 독성, 배출성 및 안정성의 평가를 나타낸다. 이 실시양태에서 개시된 구체적인 특징은 하기를 포함한다:
독성 - 분자가 하나 이상의 숙주 생물에 독성일 것으로 예상될 수 있는 정도. 이 정보는 항균성 데이터베이스(또는 숙주 생물의 일반적인 카테고리 상의 독성 정보를 수집하는 다른 데이터베이스)에 질의하는 것으로부터 유래될 수 있다.
배출 - 분배 계수 데이터에 대한 화학물질 데이터베이스에 질의함으로써 또는 내부 실험 데이터에 질의함으로써 예측됨.
안정성 - 안정성 이슈는 화학물질 데이터베이스에 질의함으로서 확인됨.
점수 요약
표의 하단에 전체 점수 및 카테고리 점수를 요약한다. 또한 경로 엔지니어링에 대한 특정한 위험 제거를 요구하는 임의의 플래그-영역을 하일라이트 표시한다. THDP는 플래그를 갖지 않는다. 플래그의 예시는 경로가 그 반응 단계에 대하여 하나 이상의 유전자를 놓치는 경우일 수 있다(예, 고- 또는 저-신뢰도 오펀).
컴퓨터 시스템 구현
도 6은 본 개시의 실시양태에 따라 클라우드 컴퓨팅 환경(604)를 예시한다. 본 개시의 실시양태에서, 도 1의 반응 주석 엔진(107) 및 예측 엔진(109)에 대한 소프트웨어(610)는 클라우드 컴퓨팅 시스템(602)에서 구현되어, 여러 사용자가 본 개시의 실시양태에 따라 반응을 주석달고 생물도달가능 분자를 예측하게 할 수 있다. 도 7에 예시된 것과 같이, 클라이언트 컴퓨터(606)는 인터넷과 같은 네트워크(608)를 통해 시스템에 액세스한다. 시스템은 도 7에 예시되는 유형의 하나 이상의 프로세서를 사용하여 하나 이상의 컴퓨팅 시스템을 사용할 수 있다. 클라우드 컴퓨팅 시스템은 그 자체가 네트워크 인터페이스(612)를 포함하여 생물도달가능 예측 도구 소프트웨어(610)를 네트워크(608)를 통하여 클라이언트 컴퓨터(606)로 인터페이스한다. 네트워크 인터페이스(612)는 어플리케이션 프로그래밍 인터페이스(API, application programming interface)를 포함하여 클라이언트 컴퓨터(606)에서 클라이언트 어플리케이션이 시스템 소프트웨어(610)에 액세스하게 할 수 있다. 특히, API를 통해, 클라이언트 컴퓨터(606)는 주석 엔진(107) 및 예측 엔진(109)에 액세스할 수 있다.
서비스로서 소프트웨어(SaaS, software as a service) 소프트웨어 모듈(614)은 클라이언트 컴퓨터(606)에 서비스로서 BPT 시스템 소프트웨어(610) 제공한다. 클라우드 관리 모듈(616)은 클라이언트 컴퓨터(606)에 의해 시스템(610)으로 액세스를 관리한다. 클라우드 관리 모듈(616)은 클라우드 아키텍쳐가 멀티테넌트(multitenant) 어플리케이션, 시각화 또는 당업계에 공지된 다른 아키텍쳐가 여러 사용자를 서빙하게 할 수 있다.
도 7은 본 개시의 실시양태에 따라 비-일시적 판독가능한 매체(예, 메모리)에 저장된 프로그램 코드를 실행하기 위해 사용될 수 있는 컴퓨터 시스템(800)의 예를 예시한다. 컴퓨터 시스템은 입력/출력 서브시스템(802)을 포함하고, 이는 어플리케이션에 따라서 인간 사용자 및/또는 다른 컴퓨터 시스템과 인터페이스로 접속하기 위해 사용될 수 있다. I/O 서브시스템(802)은, 예를 들어, 키보드, 마우스, 그래픽 사용자 인터페이스, 터치스크린, 또는 입력을 위한 다른 인터페이스, 및 예를 들어 LED 또는 다른 평면 스크린 디스플레이, 또는 어플리케이션 프로그램 인터페이스(API, application program interface)를 포함한, 출력을 위한 다른 인터페이스를 포함할 수 있다. 주석 엔진(107) 및 예측 엔진(109)과 같은, 본 개시의 실시양태의 다른 구성요소는 컴퓨터 시스템(800)의 그것과 같이 컴퓨터 시스템으로 구현될 수 있다.
프로그램 코드는 2차 메모리(810) 또는 주 메모리(808) 또는 둘 다에서 지속되는 저장과 같이 비-일시적인 매체에 저장될 수 있다. 주 메모리(808)는 랜덤 액세스 메모리(RAM)와 같은 휘발성 메모리 또는 리드 온리 메모리(ROM)와 같은 비-휘발성 메모리뿐만 아니라 명령어 및 데이터에 더 빠른 액세스를 위한 상이한 수준의 캐시(cache)를 포함할 수 있다. 이차 메모리는 고체 상태 드라이브, 하드 디스크 드라이브 또는 광학 디스크와 같은 지속적인 저장을 포함할 수 있다. 하나 이상의 프로세서(804)는 하나 이상의 비-일시적 매체로부터 프로그램 코드를 읽고 코드를 실행하여 컴퓨터 시스템이 본 명세서의 실시양태에 의해 수행된 방법을 완성되게 한다. 당업자는 프로세서가 소스 코드를 입수하고, 소스 코드를 해석하거나, 프로세서(804)의 하드웨어 게이트 수준에서 이해할 수 있는 기계로 소스 코드를 컴파일할 수 있는 것으로 이해된다. 프로세서(804)는 계산적으로 집중적인 태스크를 핸들링하기 위한 그래픽 처리 단위(GPU)를 포함할 수 있다.
프로세서(804)는 네트워크 인터페이스 카드, WiFi 무선기 등과 같은 하나 이상의 커뮤니케이션 인터페이스(807)를 통해 외부 네트워크와 통신할 수 있다. 버스(805)는 I/O 서브시스템(802), 프로세서(804), 주변 기기(806), 커뮤니케이션 인터페이스(807), 메모리(808), 및 지속적인 저장소(810)와 통신적으로 커플링한다. 본 개시의 실시양태는 이 대표적인 아키텍쳐에 제한되지 않는다. 대안적인 실시양태가 입력-출력 구성요소에 대한 분리된 버스 및 메모리 서브시스템과 같이 구성요소의 상이한 배열 및 유형을 사용할 수 있다.
당업자는 본 개시의 실시양태의 구성요소의 일부 또는 전부 및 그들의 동반하는 작동이 컴퓨터 시스템(800)의 그것들과 같은 하나 이상의 프로세서 및 하나 이상의 시스템을 포함하는 하나 이상의 컴퓨터 시스템에 의해 전체적으로 또는 부분적으로 구현될 수 있다는 것을 이해할 것이다. 특히, 본 명세서에 개시된 생물도달가능 예측 도구의 요소는 및 임의의 다른 자동화된 시스템 또는 장치는 컴퓨터 구현될 수 있다. 일부 요소 및 기능성은 국소적으로 구현될 수 있고, 다른 것들은 상이한 서버를 통하여 네트워크에 걸쳐, 예를 들어 클라이언트-서버 방식과 같이, 분배된 방식으로 구현될 수 있다. 특히, 서버-측 작동은 도 6에 도시된 바와 같이, 서버로서 소프트웨어(SaaS) 방식에서 여러 클라이언트에게 허용가능하게 이루어질 수 있다.
본 개시는 본 명세서에 개시된 일부 실시양태 또는 특징이 본 명세서에 개시된 다른 실시양태 또는 특징과 결합하는 것을 명시적으로 개시하지는 않지만, 이 개시는 당업자에 의해 실시될 수 있는 임의의 이러한 조합을 개시하는 것으로 해석되어야 한다.
당업자는 일부 실시양태에서 본 명세서에 개시된 작동의 일부가 인간 구현화에 의해, 또는 자동화된 및 수동 수단의 조합을 통하여 수행될 수 있다는 것을 인식할 것이다. 작동이 완전히 자동화되지 않은 경우, 생물도달가능 예측 도구를 위한 적합한 구성요소들이, 예를 들어, 자체의 작동 능력을 통한 결과를 생성하는 것보다 작동의 인간 수행의 결과를 수신할 것이다.

Claims (104)

  1. 숙주 생물에서 표적 분자의 생산의 실행가능성을 예측하는 컴퓨터-구현된 방법으로, 상기 방법은
    적어도 하나의 프로세서를 사용하여, 숙주 생물에 대한 출발 대사산물을 구체화하는 출발 대사산물 세트를 획득하는 단계;
    적어도 하나의 프로세서를 사용하여, 반응을 구체화하는 출발 반응 세트를 획득하는 단계;
    적어도 하나의 프로세서를 사용하여, 필터링된 반응 세트에 출발 반응 세트로부터 하나 이상의 반응을 포함하는 단계;
    적어도 하나의 프로세서에 의해 수행되는 하나 이상의 처리 단계의 각각의 처리 단계에서, 필터링된 반응 세트에 하나 이상의 반응에 따라, 출발 대사산물, 및 이전 처리 단계에서 생성된 대사산물을 나타내는 데이터를 처리하여, 하나 이상의 실행가능한 표적 분자를 나타내는 데이터를 생성하는 단계; 및
    적어도 하나의 프로세서를 사용하여, 출력으로서, 하나 이상의 실행가능한 표적 분자를 나타내는 데이터를 제공하는 단계
    를 포함하는 것인 방법.
  2. 제 1 항에 있어서,
    필터링된 반응 세트에 하나 이상의 반응을 포함하는 단계는 숙주 생물에서 하나 이상의 반응을 촉진하기 위해 허용가능할 가능성이 높은 것으로 스스로 표시되는 하나 이상의 상응하는 촉매에 의해 촉진되는 것으로 표시되는 출발 반응 세트로부터 하나 이상의 반응을 필터링된 반응 세트에 포함하는 단계를 포함하는 것인 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    필터링된 반응 세트에 하나 이상의 반응을 포함하는 단계는 숙주 생물에서 하나 이상의 반응을 촉진하기 위해 허용가능할 가능성이 높은 것으로 적어도 하나의 데이터베이스에 스스로 표시되는 하나 이상의 상응하는 촉매에 의해 촉진되는 것으로 적어도 하나의 데이터베이스에 표시되는 출발 반응 세트로부터 하나 이상의 반응을 필터링된 반응 세트에 포함하는 단계를 포함하는 것인 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    필터링된 반응 세트에 하나 이상의 반응을 포함하는 단계는 숙주 생물로 엔지니어링되게 허용가능할 가능성이 높은 것으로 또는 숙주 생물이 성장하는 성장 배지로부터 흡수를 통하여 숙주 생물로 도입될 수 있게 허용가능할 가능성이 높은 것으로 스스로 표시되는 하나 이상의 상응하는 촉매에 의해 촉진되는 것으로 표시되는 출발 반응 세트로부터 하나 이상의 반응을 필터링된 반응 세트에 포함하는 단계는 포함하는 것인 방법.
  5. 제 2 항 내지 제 4 항 중 어느 한 항에 있어서,
    각각의 상응하는 촉매는 촉매 및 효소-나노입자 접합체로 이루어지는 그룹으로부터 선택되는 것인 방법.
  6. 제 2 항 내지 제 5 항 중 어느 한 항에 있어서,
    각각의 상응하는 촉매는 효소이고, 효소는 효소에 대한 아미노산 서열 또는 효소에 대해 코딩하는 DNA 서열의 허용가능성 상에 적어도 부분적으로 기반한 숙주 생물에서 반응을 촉진하도록 허용가능할 가능성이 높은 것으로 표시되는 것인 방법.
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    출발 반응 세트에서 하나 이상의 반응은 하나 이상의 상응하는 오펀 효소에 의해 촉진되는 것으로 표시되고,
    상기 방법은
    하나 이상의 오펀 효소를 생물탐사하여 하나 이상의 상응하는 아미노산 서열을 예측하는 단계; 및
    하나 이상의 상응하는 생물탐사된 오펀 효소에 의해 촉진된 하나 이상의 반응을 필터링된 반응 세트에 포함하는 단계
    를 더 포함하는 것인 방법.
  8. 제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
    촉매가 상응하는 반응을 촉진하기 위해 허용가능한지 여부에 대해 신뢰도를 결정하는 단계를 더 포함하고, 여기서 신뢰도는 적어도 적어도 제 1 신뢰도 또는 제 1 신뢰도보다 높은 제 2 신뢰도이고,
    출발 반응 세트로부터 필터링된 반응 세트에 하나 이상의 반응을 포함하는 단계는, 하나 이상의 제 2 반응을 촉진하기 위해 제 2 신뢰도와 함께, 허용가능한 것으로 스스로 결정되는 하나 이상의 상응하는 촉매에 의해 촉진된 것으로 표시되는 출발 반응 세트로부터 하나 이상의 제 2 반응을 필터링된 반응 세트에서 포함하는 단계를 함유하는 것인 방법.
  9. 제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
    처리하는 단계는, 특정 처리 단계에 하나 이상의 실행가능한 표적 분자를 나타내는 데이터를 생성하는 단계 후, 그리고 다음 처리 단계 전에, 특정 처리 단계에서 하나 이상의 실행가능한 표적 분자를 나타내는 데이터를 생성하는 것과 연관된 임의의 반응을 필터링된 반응 세트로부터 제거하는 단계를 더 포함하는 것인 방법.
  10. 제 1 항 내지 제 9 항 중 어느 한 항에 있어서,
    출발 대사산물 세트는 코어 대사산물을 구체화하고, 코어 대사산물은 특이적 조건 하에서 엔지니어링되지 않은 숙주에 의해 생산된 것과 같은 대사산물을 포함하는 것인 방법.
  11. 제 1 항 내지 제 10 항 중 어느 한 항에 있어서,
    숙주는 유전적 개조에 종속되지 않은 것인 방법.
  12. 제 1 항 내지 제 11 항 중 어느 한 항에 있어서,
    실행가능한 표적 분자를 야기하는 하나 이상의 반응 경로의 기록을 생성하는 단계를 더 포함하는 것인 방법.
  13. 제 12 항에 있어서,
    기록을 생성하는 단계는 유비쿼터스(ubiquitous) 대사산물로부터 반응 경로를 기록에 포함하지 않는 단계를 포함하는 것인 방법.
  14. 제 1 항 내지 제 13 항 중 어느 한 항에 있어서,
    실행가능한 표적 분자를 나타내는 데이터를 생성하는 단계의 기록을 생성하는 단계를 더 포함하는 것인 방법.
  15. 제 1 항 내지 제 14 항 중 어느 한 항에 있어서,
    출발 대사산물 세트로부터 하나 이상의 실행가능한 표적 분자로 가장 짧은 반응 경로의 기록을 생성하는 단계를 더 포함하는 것인 방법.
  16. 제 1 항 내지 제 15 항 중 어느 한 항에 있어서,
    실행가능한 표적 분자로 반응 경로를 따라 하나 이상의 반응의 열역학적 특성의 기록을 생성하는 단계를 더 포함하는 것인 방법.
  17. 제 1 항 내지 제 16 항 중 어느 한 항에 있어서,
    실행가능한 표적 분자로 반응 경로를 따라 하나 이상의 상응하는 반응을 촉진하도록 허용가능한지 여부에 대해 신뢰도의 기록을 생성하는 단계를 더 포함하는 것인 방법.
  18. 제 1 항 내지 제 17 항 중 어느 한 항에 있어서,
    하나 이상의 실행가능한 표적 분자를 생성하는 것의 어려움의 표시를 생성하는 단계를 더 포함하는 것인 방법.
  19. 제 18 항에 있어서,
    하나 이상의 실행가능한 표적 분자에 대한 반응 경로 길이 상에 적어도 부분적으로 기반한 것인 방법.
  20. 제 18 항 또는 제 19 항에 있어서,
    어려움의 표시는 열역학적 특성 상에 적어도 부분적으로 기반한 것인 방법.
  21. 제 18 항 내지 제 20 항 중 어느 한 항에 있어서,
    어려움의 표시는 하나 이상의 실행가능한 표적 분자로의 하나 이상의 제 1 반응 경로에 따라 하나 이상의 상응하는 반응을 촉진하도록 허용가능한지 여부에 대해 신뢰도에 따라 적어도 부분적으로 기반한 것인 방법.
  22. 제 18 항 내지 제 21 항 중 어느 한 항에 있어서,
    어려움의 표시는, 하나 이상의 실행가능한 표적 분자로 하나 이상의 제 1 반응 경로를 따라 하나 이상의 반응이, 하나 이상의 제 1 반응 경로를 따라 하나 이상의 반응을 촉진하도록 허용가능할 가능성이 높은 것으로 스스로 표시되는 하나 이상의 상응하는 촉매에 의해 촉진되는 것으로 표시되는지에 따라 적어도 부분적으로 기반한 것인 방법.
  23. 제 1 항 내지 제 22 항 중 어느 한 항에 있어서,
    실행가능한 표적 분자로 이끄는 반응 경로에서 하나 이상의 반응과 연관된 하나 이상의 유전자 서열의 표시를 유전자 제조 시스템에 제공하는 단계를 더 포함하고,
    여기서 유전자 제조 시스템은 숙주의 유전체로 표시된 하나 이상의 유전자 서열을 구현하도록 작동가능하여, 실행가능한 표적 분자의 제조를 위해 엔지니어링된 유전체를 생산하는 것인 방법.
  24. 제 1 항 내지 제 23 항 중 어느 한 항에 있어서,
    출발 반응 세트로부터 필터링된 반응 세트에 하나 이상의 반응을 포함하는 단계는 하나 이상의 반응이 자발적인지에 따라 적어도 부분적으로 기반한 출발 반응 세트로부터 하나 이상의 반응을 필터링된 반응 세트에 포함하는 단계를 포함하는 것인 방법.
  25. 제 1 항 내지 제 24 항 중 어느 한 항에 있어서,
    출발 반응 세트로부터 필터링된 반응 세트에 하나 이상의 반응을 포함하는 단계는 하나 이상의 반응의 방향성에 따라 적어도 부분적으로 기반한 출발 반응 세트로부터 하나 이상의 반응을 필터링된 반응 세트에 포함하는 단계를 포함하는 것인 방법.
  26. 제 1 항 내지 제 25 항 중 어느 한 항에 있어서,
    출발 반응 세트로부터 필터링된 반응 세트에 하나 이상의 반응을 포함하는 단계는 하나 이상의 반응이 운송 반응인지에 따라 적어도 부분적으로 기반한 출발 반응 세트로부터 하나 이상의 반응을 필터링된 반응 세트에 포함하는 단계를 포함하는 것인 방법.
  27. 제 1 항 내지 제 26 항 중 어느 한 항에 있어서,
    출발 반응 세트로부터 필터링된 반응 세트에 하나 이상의 반응을 포함하는 단계는 하나 이상의 반응이 할로겐 화합물을 생성하는지에 따라 적어도 부분적으로 기반한 출발 반응 세트로부터 하나 이상의 반응을 필터링된 반응 세트에 포함하는 단계를 포함하는 것인 방법.
  28. 복수의 숙주 생물의 각각의 숙주 생물에 대해 제 1 항 내지 제 27 항 중 어느 한 항에 따른 방법을 수행하는 단계;
    주어진 실행가능한 표적 분자를 위하여, 적어도 하나의 기준을 만족하는 하나 이상의 복수의 숙주 생물을 결정하는 단계; 및
    결정된 하나 이상의 숙주 생물을 표시하는 데이터를 제공하는 단계
    를 포함하는 방법.
  29. 제 28 항에 있어서,
    적어도 하나의 기준은 처리 단계의 수율 및 숫자로 구성되는 그룹으로부터 선택되는 적어도 하나의 기준을 포함하는 것인 방법.
  30. 제 1 항 내지 제 29 항 중 어느 한 항의 방법에 의해 제공되는 데이터에 의해 제시되는 실행가능한 표적 분자.
  31. 제 1 항 내지 제 30 항 중 어느 한 항의 방법에 의해 제공되는 데이터에 의해 제시되는 적어도 하나의 하나 이상의 실행가능한 표적 분자를 생산하기 위한 생물.
  32. 숙주 생물에서 표적분자를 생산하는 실행가능성을 예측하는 시스템으로, 상기 시스템은:
    하나 이상의 프로세서;
    명령어를 포함하는 하나 이상의 메모리로, 하나 이상의 프로세서의 적어도 하나에 의해 명령어가 실행될 때, 명령어는 시스템이:
    숙주 생물에 대하여 출발 대사산물을 구체화하는 출발 대사산물 세트를 획득하게 하고;
    반응을 구체화하는 출발 반응 세트를 획득하게 하고;
    출발 반응 세트로부터 하나 이상의 반응을 필터링된 반응 세트에 포함하게 하고;
    적어도 하나의 프로세서에 의해 수행되는 하나 이상의 처리 단계의 각각의 처리 단계에서, 필터링된 반응 세트의 하나 이상의 반응에 따라, 출발 대사산물 및 이전 처리 단계에서 생성된 대사산물을 나타내는 데이터를 처리하여 하나 이상의 실행가능한 표적 분자를 나타내는 데이터를 생성하게 하고; 및
    출력으로서, 하나 이상의 실행가능한 표적 분자를 나타내는 데이터를 제공하게 하는 것인
    메모리
    를 포함하는 것인 시스템.
  33. 제 32 항에 있어서,
    필터링된 반응 세트에 하나 이상의 반응을 포함하는 것은 숙주 생물에서 하나 이상의 반응을 촉진하도록 허용가능할 가능성이 높은 것으로 스스로 표시되는 하나 이상의 상응하는 촉매에 의해 촉진되는 것으로 표시되는 출발 반응 세트로부터 하나 이상의 반응을 필터링된 반응 세트에 포함하는 것을 포함하는 것인 시스템.
  34. 제 32 항 또는 제 33 항에 있어서,
    필터링된 반응 세트에 하나 이상의 반응을 포함하는 것은 숙주 생물에서 하나 이상의 반응을 촉진하도록 허용가능할 가능성이 높은 것으로 적어도 하나의 데이터베이스에서 스스로 표시되는 하나 이상의 상응하는 촉매에 의해 촉진되는 것으로 적어도 하나의 데이터베이스에 표시되는 출발 반응 세트로부터 하나 이상의 반응을 필터링된 반응 세트에 포함하는 것을 포함하는 것인 시스템.
  35. 제 32 항 내지 제 34 항 중 어느 한 항에 있어서,
    필터링된 반응 세트에 하나 이상의 반응을 포함하는 것은 숙주 생물로 엔지니어링되는 것을 허용가능할 가능성이 높거나, 또는 숙주 생물이 성장하는 성장 배지로부터 흡수를 통하여 숙주 생물로 도입할 허용가능성이 높은 것으로 스스로 표시되는 하나 이상의 상응하는 촉매에 의해 촉진되는 것으로 표시되는 출발 반응으로부터 하나 이상의 반응을 필터링된 반응 세트에 포함하는 것을 포함하는 것인 시스템.
  36. 제 33 항 내지 제 35 항 중 어느 한 항에 있어서,
    각각의 상응하는 촉매는 효소 및 효소-나노입자 접합체로 이루어지는 그룹으로부터 선택되는 것인 시스템.
  37. 제 33 항 내지 제 36 항 중 어느 한 항에 있어서,
    각각의 상응하는 촉매는 효소이고, 여기서 효소는 효소에 대한 아미노산 서열 또는 효소를 코딩하는 DNA 서열의 입수가능성에 적어도 부분적으로 기반한 숙주 생물에서 반응을 촉진하기 위해 허용가능할 가능성이 높은 것으로 표시되는 것인 시스템.
  38. 제 32 항 내지 제 37 항 중 어느 한 항에 있어서,
    출발 반응 세트에서 하나 이상의 반응은 하나 이상의 상응하는 오펀 효소에 의해 촉진되는 것으로 표시되고,
    명령어는, 하나 이상의 오펀 효소를 생물탐사하여 하나 이상의 상응하는 아미노산 서열을 예측하기 위한 명령어; 및 하나 이상의 상응하는 생물탐사된 오펀 효소에 의해 촉진된 하나 이상의 반응을 필터링된 반응 세트에 포함하기 위한 명령어를 더 포함하는 것인 시스템.
  39. 제 32 항 내지 제 38 항 중 어느 한 항에 있어서,
    명령어는 촉매가 상응하는 반응을 촉진하기 위해 허용가능한지 여부에 대하여 신뢰도를 결정하기 위한 명령어를 더 포함하고, 여기서 신뢰도는 적어도 제 1 신뢰도이거나, 또는 제 1 신뢰도보다 높은 제 2 신뢰도이고,
    출발 반응 세트로부터 필터링된 반응 세트에 하나 이상의 반응을 포함하는 것은 하나 이상의 제 2 반응을 촉진하기 위해, 제 2 신뢰도로 허용가능하다고 스스로 결정되는 하나 이상의 상응하는 촉매에 의해 촉진되는 것으로 표시되는 출발 반응 세트로부터 하나 이상의 제 2 반응을 필터링된 반응 세트에 포함하는 것을 포함하는 것인 시스템.
  40. 제 32 항 내지 제 39 항 중 어느 한 항에 있어서,
    처리는, 특정 처리 단계에서 하나 이상의 실행가능한 표적 분자를 나타내는 데이터를 생성한 후, 그리고 다음 처리 단계 전에, 특정 처리 단계에서 하나 이상의 실행가능한 표적 분자를 나타내는 데이터를 생성하는 것과 연관된 임의의 반응을 필터링된 반응 세트로부터 제거하는 단계를 더 포함하는 것인 시스템.
  41. 제 32 항 내지 제 40 항 중 어느 한 항에 있어서,
    출발 대사산물 세트는 코어 대사산물을 구체화하고, 코어 대사산물은 특정한 조건 하에서 엔지니어링되지 않은 숙주에 의해 생산되는 대사산물을 포함하는 것인 시스템.
  42. 제 32 항 내지 제 41 항 중 어느 한 항에 있어서,
    숙주는 유전체 개조에 종속되지 않은 것인 시스템.
  43. 제 32 항 내지 제 42 항 중 어느 한 항에 있어서,
    명령어는 하나 이상의 실행가능한 표적 분자를 야기하는 하나 이상의 반응 경로의 기록을 생성하기 위한 명령어를 더 포함하는 것인 시스템.
  44. 제 43 항에 있어서,
    기록을 생성하는 단계는 유비쿼터스 대사산물로부터 반응 경로를 기록에 포함하지 않는 단계를 포함하는 것인 시스템.
  45. 제 32 항 내지 제 44 항 중 어느 한 항에 있어서,
    명령어는 실행가능한 표적 분자를 나타내는 데이터가 생성되는 단계의 기록을 생성하기 위한 명령어를 더 포함하는 것인 시스템.
  46. 제 32 항 내지 제 45 항 중 어느 한 항에 있어서,
    명령어는 출발 대사산물 세트로부터 하나 이상의 실행가능한 표적 분자로 가장 짧은 반응 경로의 기록을 생성하기 위한 명령어를 더 포함하는 것인 시스템.
  47. 제 32 항 내지 제 47 항 중 어느 한 항에 있어서,
    명령어는 실행가능한 표적 분자로 반응 경로를 따라 하나 이상의 반응의 열역학적 특성의 기록을 생성하기 위한 명령어를 더 포함하는 것인 시스템.
  48. 제 32 항 내지 제 48 항 중 어느 한 항에 있어서,
    명령어는 촉매가 실행가능한 표적 분자로 반응 경로를 따라 하나 이상의 상응하는 반응을 촉진하도록 허용가능한지에 대한 신뢰도의 기록을 생성하기 위한 명령어를 더 포함하는 것인 시스템.
  49. 제 32 항 내지 제 48 항 중 어느 한 항에 있어서,
    명령어는 하나 이상의 실행가능한 표적 분자를 생산하는 것의 어려움의 표시를 생성하기 위한 명령어를 더 포함하는 것인 시스템.
  50. 제 49 항에 있어서,
    어려움의 표시는 하나 이상의 실행가능한 표적 분자에 대한 반응 경로에 적어도 부분적으로 기반하는 것인 시스템.
  51. 제 49 항 또는 제 50 항에 있어서,
    어려움의 표시는 열역학적 특성에 적어도 부분적으로 기반하는 것인 시스템.
  52. 제 49 항 내지 제 51 항 중 어느 한 항에 있어서,
    어려움의 표시는 촉매가 하나 이상의 실행가능한 표적 분자로 하나 이상의 제 1 반응 경로를 따라 하나 이상의 상응하는 반응을 촉진하도록 허용가능한지에 대한 신뢰도 상에 적어도 부분적으로 기반하는 것인 시스템.
  53. 제 49 항 내지 제 52 항 중 어느 한 항에 있어서,
    어려움의 표시는, 하나 이상의 실행가능한 표적 분자로 하나 이상의 제 1 반응 경로를 따라 하나 이상의 반응이 하나 이상의 제 1 반응 경로를 따라 하나 이상의 반응을 촉진하도록 허용가능할 가능성이 높은 것으로 스스로 표시되는 하나 이상의 상응하는 촉매에 의해 촉진되는 것으로 표시되는지 여부에 적어도 부분적으로 기반하는 것인 시스템.
  54. 제 32 항 내지 제 53 항 중 어느 한 항에 있어서,
    명령어는 실행가능한 표적 분자를 야기하는 반응 경로에서 하나 이상의 반응과 연관된 하나 이상의 유전자 서열의 표시를 유전자 제조 시스템에 제공하기 위한 명령어를 더 포함하고,
    여기서 유전자 제조 시스템은 숙주의 유전체로 표시된 하나 이상의 유전자 서열을 구현하도록 작동가능하여, 실행가능한 표적 분자의 제조를 위하여 엔지니어링된 유전체를 생산하는 것인 시스템.
  55. 제 32 항 내지 제 54 항 중 어느 한 항에 있어서,
    출발 반응 세트로부터 하나 이상의 반응을 필터링된 반응 세트에 포함하는 것은 하나 이상의 반응이 자발적인지 여부에 대해 적어도 부분적으로 기반한 출발 반응 세트로부터 하나 이상의 반응을 필터링된 반응 세트에 포함하는 것을 포함하는 것인 시스템.
  56. 제 32 항 내지 제 55 항 중 어느 한 항에 있어서,
    출발 반응 세트로부터 하나 이상의 반응을 필터링된 반응 세트에 포함하는 것은 하나 이상의 반응의 방향성 상에 적어도 부분적으로 기반한 출발 반응으로부터 하나 이상의 반응을 필터링된 반응 세트에 포함하는 것을 포함하는 것인 시스템.
  57. 제 32 항 내지 제 56 항 중 어느 한 항에 있어서,
    출발 반응 세트로부터 하나 이상의 반응을 필터링된 반응 세트에 포함하는 것은 하나 이상의 반응이 운송 반응인지 여부에 적어도 부분적으로 기반한 출발 반응으로부터 하나 이상의 반응을 필터링된 반응 세트에 포함하는 것을 포함하는 것인 시스템.
  58. 제 32 항 내지 제 57 항 중 어느 한 항에 있어서,
    출발 반응 세트로부터 하나 이상의 반응을 필터링된 반응 세트에 포함하는 것은 하나 이상의 반응이 할로겐 화합물을 생산하는지 여부에 적어도 부분적으로 기반한 출발 반응 세트로부터 하나 이상의 반응을 필터링된 반응 세트에 포함하는 것을 포함하는 것인 시스템.
  59. 제 32 항 내지 제 58 항 중 어느 한 항에 있어서,
    표적 분자를 생산하기 위한 숙주 생물을 확인하기 위한 시스템으로,
    명령어는 출발 대사산물 세트의 획득을 위한 명령어, 출발 반응 세트의 획득을 위한 명령어, 및 복수의 숙주 생물의 각각의 숙주 생물에 대한 제 32 항 내지 제 58 항 중 어느 한 항의 처리를 위한 명령어를 포함하고,
    명령어는, 복수의 숙주 생물의 각각의 숙주 생물을 위해,
    주어진 실행가능한 표적 분자를 위해, 적어도 하나의 기준을 만족하는 하나 이상의 복수의 숙주 생물을 결정하기 위한 명령어; 및
    결정된 하나 이상의 숙주 생물을 표시하는 데이터를 제공하기 위한 명령어를 더 포함하는 것인 시스템.
  60. 제 59 항에 있어서,
    적어도 하나의 기준은 처리 단계의 수율 및 횟수로 이루어지는 그룹으로부터 선택되는 적어도 하나의 기준을 포함하는 것인 시스템.
  61. 숙주 생물에서 표적 분자를 생산하는 실행가능성을 예측하기 위한 명령어를 저장하는 하나 이상의 비-일시적 컴퓨터-판독가능한 매체로서,
    하나 이상의 컴퓨팅 디바이스에 의해 실행될 때, 명령어는 하나 이상의 컴퓨팅 디바이스가:
    숙주 생물에 대하여 출발 대사산물을 구체화하는 출발 대사산물 세트를 획득하게 하고;
    반응을 구체화하는 출발 반응 세트를 획득하게 하고;
    출발 반응 세트로부터 하나 이상의 반응을 필터링된 반응 세트에 포함하게 하고;
    적어도 하나의 프로세서에 의해 수행되는 하나 이상의 처리 단계의 각각의 처리 단계에서, 필터링된 반응 세트의 하나 이상의 반응에 따라, 출발 대사산물 및 이전 처리 단계에서 생성된 대사산물을 나타내는 데이터를 처리하여 하나 이상의 실행가능한 표적 분자를 나타내는 데이터를 생성하게 하고; 및
    출력으로서, 하나 이상의 실행가능한 표적 분자를 나타내는 데이터를 제공하게 하는 것인
    하나 이상의 비-일시적 컴퓨터-판독가능한 매체.
  62. 제 61 항에 있어서,
    필터링된 반응 세트에 하나 이상의 반응을 포함하는 것은 숙주 생물에서 하나 이상의 반응을 촉진하도록 허용가능할 가능성이 높은 것으로 스스로 표시되는 하나 이상의 상응하는 촉매에 의해 촉진되는 것으로 표시되는 출발 반응 세트로부터 하나 이상의 반응을 필터링된 반응 세트에 포함하는 것을 포함하는 것인 하나 이상의 컴퓨터-판독가능한 매체.
  63. 제 61 항 또는 제 62 항에 있어서,
    필터링된 반응 세트에 하나 이상의 반응을 포함하는 것은 숙주 생물에서 하나 이상의 반응을 촉진하도록 허용가능할 가능성이 높은 것으로 적어도 하나의 데이터베이스에서 스스로 표시되는 하나 이상의 상응하는 촉매에 의해 촉진되는 것으로 적어도 하나의 데이터베이스에 표시되는 출발 반응 세트로부터 하나 이상의 반응을 필터링된 반응 세트에 포함하는 것을 포함하는 것인 하나 이상의 컴퓨터-판독가능한 매체.
  64. 제 61 항 내지 제 63 항 중 어느 한 항에 있어서,
    필터링된 반응 세트에 하나 이상의 반응을 포함하는 것은 숙주 생물로 엔지니어링되는 것을 허용가능할 가능성이 높거나, 또는 숙주 생물이 성장하는 성장 배지로부터 흡수를 통하여 숙주 생물로 도입할 허용가능성이 높은 것으로 스스로 표시되는 하나 이상의 상응하는 촉매에 의해 촉진되는 것으로 표시되는 출발 반응으로부터 하나 이상의 반응을 필터링된 반응 세트에 포함하는 것을 포함하는 것인 하나 이상의 컴퓨터-판독가능한 매체.
  65. 제 61 항 내지 제 64 항 중 어느 한 항에 있어서,
    각각의 상응하는 촉매는 효소 및 효소-나노입자 접합체로 이루어지는 그룹으로부터 선택되는 것인 하나 이상의 컴퓨터-판독가능한 매체.
  66. 제 62 항 내지 제 65 항 중 어느 한 항에 있어서,
    각각의 상응하는 촉매는 효소이고, 여기서 효소는 효소에 대한 아미노산 서열 또는 효소를 코딩하는 DNA 서열의 입수가능성에 적어도 부분적으로 기반한 숙주 생물에서 반응을 촉진하기 위해 허용가능할 가능성이 높은 것으로 표시되는 것인 하나 이상의 컴퓨터-판독가능한 매체.
  67. 제 62 항 내지 제 66 항 중 어느 한 항에 있어서,
    출발 반응 세트에서 하나 이상의 반응은 하나 이상의 상응하는 오펀 효소에 의해 촉진되는 것으로 표시되고,
    명령어는, 하나 이상의 오펀 효소를 생물탐사하여 하나 이상의 상응하는 아미노산 서열을 예측하기 위한 명령어; 및 하나 이상의 상응하는 생물탐사된 오펀 효소에 의해 촉진된 하나 이상의 반응을 필터링된 반응 세트에 포함하기 위한 명령어를 더 포함하는 것인 하나 이상의 컴퓨터-판독가능한 매체.
  68. 제 61 항 내지 제 67 항 중 어느 한 항에 있어서,
    명령어는 촉매가 상응하는 반응을 촉진하기 위해 허용가능한지 여부에 대하여 신뢰도를 결정하기 위한 명령어를 더 포함하고, 여기서 신뢰도는 적어도 제 1 신뢰도이거나, 또는 제 1 신뢰도보다 높은 제 2 신뢰도이고,
    출발 반응 세트로부터 필터링된 반응 세트에 하나 이상의 반응을 포함하는 것은 하나 이상의 제 2 반응을 촉진하기 위해, 제 2 신뢰도로 허용가능하다고 스스로 결정되는 하나 이상의 상응하는 촉매에 의해 촉진되는 것으로 표시되는 출발 반응 세트로부터 하나 이상의 제 2 반응을 필터링된 반응 세트에 포함하는 것을 포함하는 것인 하나 이상의 컴퓨터-판독가능한 매체.
  69. 제 61 항 내지 제 68 항 중 어느 한 항에 있어서,
    처리는, 특정 처리 단계에서 하나 이상의 실행가능한 표적 분자를 나타내는 데이터를 생성한 후, 그리고 다음 처리 단계 전에, 특정 처리 단계에서 하나 이상의 실행가능한 표적 분자를 나타내는 데이터를 생성하는 것과 연관된 임의의 반응을 필터링된 반응 세트로부터 제거하는 단계를 더 포함하는 것인 하나 이상의 컴퓨터-판독가능한 매체.
  70. 제 61 항 내지 제 69 항 중 어느 한 항에 있어서,
    출발 대사산물 세트는 코어 대사산물을 구체화하고, 코어 대사산물은 특정한 조건 하에서 엔지니어링되지 않은 숙주에 의해 생산되는 대사산물을 포함하는 것인 하나 이상의 컴퓨터-판독가능한 매체.
  71. 제 61 항 내지 제 70 항 중 어느 한 항에 있어서,
    숙주는 유전체 개조에 종속되지 않은 것인 하나 이상의 컴퓨터-판독가능한 매체.
  72. 제 61 항 내지 제 71 항 중 어느 한 항에 있어서,
    명령어는 하나 이상의 실행가능한 표적 분자를 야기하는 하나 이상의 반응 경로의 기록을 생성하기 위한 명령어를 더 포함하는 것인 하나 이상의 컴퓨터-판독가능한 매체.
  73. 제 72 항에 있어서,
    기록을 생성하는 것은 유비쿼터스 대사산물로부터 반응 경로를 기록에 포함하지 않는 것을 포함하는 것인 하나 이상의 컴퓨터-판독가능한 매체.
  74. 제 61 항 내지 제 73 항 중 어느 한 항에 있어서,
    명령어는 실행가능한 표적 분자를 나타내는 데이터가 생성되는 단계의 기록을 생성하기 위한 명령어를 더 포함하는 것인 하나 이상의 컴퓨터-판독가능한 매체.
  75. 제 61 항 내지 제 74 항 중 어느 한 항에 있어서,
    명령어는 출발 대사산물 세트로부터 하나 이상의 실행가능한 표적 분자로 가장 짧은 반응 경로의 기록을 생성하기 위한 명령어를 더 포함하는 것인 하나 이상의 컴퓨터-판독가능한 매체.
  76. 제 61 항 내지 제 75 항 중 어느 한 항에 있어서,
    명령어는 실행가능한 표적 분자로 반응 경로를 따라 하나 이상의 반응의 열역학적 특성의 기록을 생성하기 위한 명령어를 더 포함하는 것인 하나 이상의 컴퓨터-판독가능한 매체.
  77. 제 61 항 내지 제 76 항 중 어느 한 항에 있어서,
    명령어는 촉매가 실행가능한 표적 분자로 반응 경로를 따라 하나 이상의 상응하는 반응을 촉진하도록 허용가능한지에 대한 신뢰도의 기록을 생성하기 위한 명령어를 더 포함하는 것인 하나 이상의 컴퓨터-판독가능한 매체.
  78. 제 61 항 내지 제 77 항 중 어느 한 항에 있어서,
    명령어는 하나 이상의 실행가능한 표적 분자를 생산하는 어려움의 표시를 생성하기 위한 명령어를 더 포함하는 것인 하나 이상의 컴퓨터-판독가능한 매체.
  79. 제 78 항에 있어서,
    어려움의 표시는 하나 이상의 실행가능한 표적 분자에 대한 반응 경로 길이에 적어도 부분적으로 기반한 것인 하나 이상의 컴퓨터-판단가능한 매체.
  80. 제 78 항 또는 제 79 항에 있어서,
    어려움의 표시는 열역학적 특성에 적어도 부분적으로 기반한 것인 하나 이상의 컴퓨터-판단가능한 매체.
  81. 제 78 항 내지 제 80 항 중 어느 한 항에 있어서,
    어려움의 표시는 촉매가 하나 이상의 실행가능한 표적 분자로 하나 이상의 제 1 반응 경로를 따라 하나 이상의 상응하는 반응을 촉진하도록 허용가능한지에 대한 신뢰도 상에 적어도 부분적으로 기반한 것인 하나 이상의 컴퓨터-판독가능한 매체.
  82. 제 78 항 내지 제 81 항 중 어느 한 항에 있어서,
    어려움의 표시는, 하나 이상의 실행가능한 표적 분자로 하나 이상의 제 1 반응 경로를 따라 하나 이상의 반응이 하나 이상의 제 1 반응 경로를 따라 하나 이상의 반응을 촉진하도록 허용가능할 가능성이 높은 것으로 스스로 표시되는 하나 이상의 상응하는 촉매에 의해 촉진되는 것으로 표시되는지에 적어도 부분적으로 기반한 것인 하나 이상의 컴퓨터-판독가능한 매체.
  83. 제 61 항 내지 제 82 항 중 어느 한 항에 있어서,
    명령어는 실행가능한 표적 분자를 야기하는 반응 경로에서 하나 이상의 반응과 연관된 하나 이상의 유전자 서열의 표시를 유전자 제조 시스템에 제공하기 위한 명령어를 더 포함하고,
    여기서 유전자 제조 시스템은 숙주의 유전체로 표시된 하나 이상의 유전자 서열을 구현하도록 작동가능하여, 실행가능한 표적 분자의 제조를 위하여 엔지니어링된 유전체를 생산하는 것인
    하나 이상의 컴퓨터-판독가능한 매체.
  84. 제 61 항 내지 제 83 항 중 어느 한 항에 있어서,
    출발 반응 세트로부터 필터링된 반응 세트에 하나 이상의 반응을 포함하는 것은 하나 이상의 반응이 자발적인지에 대해 적어도 부분적으로 기반한 출발 반응 세트로부터 하나 이상의 반응을 필터링된 반응 세트에 포함하는 것을 포함하는 것인 하나 이상의 컴퓨터-판독가능한 매체.
  85. 제 61 항 내지 제 84 항 중 어느 한 항에 있어서,
    출발 반응 세트로부터 필터링된 반응 세트에 하나 이상의 반응을 포함하는 것은 하나 이상의 반응의 방향성 상에 적어도 부분적으로 기반한 출발 반응으로부터 하나 이상의 반응을 필터링된 반응 세트에 포함하는 것을 포함하는 것인 하나 이상의 컴퓨터-판독가능한 매체.
  86. 제 61 항 내지 제 85 항 중 어느 한 항에 있어서,
    출발 반응 세트로부터 필터링된 반응 세트에 하나 이상의 반응을 포함하는 것은 하나 이상의 반응이 운송 반응인지에 적어도 부분적으로 기반한 출발 반응으로부터 하나 이상의 반응을 필터링된 반응 세트에 포함하는 것을 포함하는 것인 하나 이상의 컴퓨터-판독가능한 매체.
  87. 제 61 항 내지 제 86 항 중 어느 한 항에 있어서,
    출발 반응 세트로부터 필터링된 반응 세트에 하나 이상의 반응을 포함하는 단계를 하나 이상의 반응이 할로겐 화합물을 생산하는지에 적어도 부분적으로 기반한 출발 반응 세트로부터 하나 이상의 반응을 필터링된 반응 세트에 포함하는 단계를 포함하는 것인 하나 이상의 컴퓨터-판독가능한 매체.
  88. 제 61 항 내지 제 87 항 중 어느 한 항에 있어서,
    표적 분자를 생산하기 위한 숙주 생물을 확인하기 위한 하나 이상의 컴퓨터-판독가능한 매체로,
    명령어는 출발 대사산물 세트의 획득을 위한 명령어, 출발 반응 세트의 획득을 위한 명령어, 및 복수의 숙주 생물의 각각의 숙주 생물에 대한 제 61 항 내지 제 87 항 중 어느 한 항의 처리를 위한 명령어를 포함하고,
    명령어는 복수의 숙주 생물의 각각의 숙주 생물을 위해
    주어진 실행가능한 표적 분자를 위해, 적어도 하나의 기준을 만족하는 하나 이상의 복수의 숙주 생물을 결정하기 위한 명령어; 및
    결정된 하나 이상의 숙주 생물을 표시하는 데이터를 제공하기 위한 명령어를 더 포함하는 것인, 하나 이상의 컴퓨터-판독가능한 매체.
  89. 제 89 항에 있어서,
    적어도 하나의 기준은 처리 단계의 수율 및 횟수로 이루어지는 그룹으로부터 선택되는 적어도 하나의 기준을 포함하는 것인 하나 이상의 컴퓨터-판독가능한 매체.
  90. 표적 분자를 생산하는 숙주 생물을 확인하는 방법으로, 상기 방법은
    적어도 하나의 프로세서를 사용하여, 하나 이상의 분자 및 하나 이상의 분자가 생산되는 하나 이상의 숙주 생물 사이에 연결에 관한 정보를 액세스하는 단계;
    적어도 하나의 프로세서를 사용하여, 표적 분자를 생산하는데에 포함되는 모든 촉매는 하나 이상의 표적 숙주 생물에서 표적 분자의 생산을 야기하는 반응을 촉진하도록 허용가능할 가능성이 높다는 증거에 적어도 부분적으로 기반한 표적 분자를 생산하는 하나 이상의 표적 숙주 생물로서 적어도 하나의 하나 이상의 숙주 생물을 확인하는 단계;
    적어도 하나의 프로세서를 사용하여, 출력으로서, 하나 이상의 표적 숙주 생물을 나타내는 데이터를 제공하는 단계를 포함하는 것인 방법.
  91. 제 90 항에 있어서,
    하나 이상의 표적 숙주 생물을 나타내는 데이터는 하나 이상의 표적 숙주 생물에서 표적 분자를 생산하기 위해 사용될 수 있는 것인 방법.
  92. 제 90 항 또는 제 91 항에 있어서,
    증거는 표적 분자의 생산을 야기하는 하나 이상의 반응 경로의 기록을 포함하는 것인 방법.
  93. 제 92 항에 있어서,
    하나 이상의 표적 숙주 생물을 확인하는 단계는 하나 이상의 표적 숙주 생물 내에서 표적 분자를 생산하기 위해 요구되는 하나 이상의 반응 경로 내에서 반응 단계의 횟수에 적어도 부분적으로 기반한 것인 방법.
  94. 제 90 항 내지 제 93 항 중 어느 한 항에 있어서,
    하나 이상의 표적 숙주 생물에서 표적 분자를 생산하는 단계를 더 포함하는 것인 방법.
  95. 표적 분자를 생산하는 숙주 생물을 확인하는 시스템으로서,
    상기 시스템은
    하나 이상의 프로세서;
    명령어를 포함하는 하나 이상의 메모리로, 하나 이상의 프로세서의 적어도 하나에 의해 명령어가 실행될 때, 명령어는 시스템이:
    하나 이상의 분자 및 하나 이상의 분자가 생산되는 하나 이상의 숙주 생물 사이에 연결에 관한 정보를 액세스하게 하고;
    표적 분자를 생산하는데에 포함되는 모든 촉매는 하나 이상의 표적 숙주 생물에서 표적 분자의 생산을 야기하는 반응을 촉진하도록 허용가능할 가능성이 높다는 증거에 적어도 부분적으로 기반한 표적 분자를 생산하는 하나 이상의 표적 숙주 생물로서 적어도 하나의 하나 이상의 숙주 생물을 확인하게 하고;
    출력으로서, 하나 이상의 표적 숙주 생물을 나타내는 데이터를 제공하게 하는 것인 메모리
    를 포함하는 것인 시스템.
  96. 제 95 항에 있어서,
    하나 이상의 표적 숙주 생물을 나타내는 데이터는 하나 이상의 표적 숙주 생물에서 표적 분자를 생산하기 위해 사용될 수 있는 것인 시스템.
  97. 제 95 항 또는 제 96 항에 있어서,
    증거는 표적 분자의 생산을 야기하는 하나 이상의 반응 경로의 기록을 포함하는 것인 시스템.
  98. 제 97 항에 있어서,
    하나 이상의 표적 숙주 생물을 확인하는 것은 하나 이상의 표적 숙주 생물 내에서 표적 분자를 생산하기 위해 요구되는 하나 이상의 반응 경로 내에서 반응 단계의 횟수에 적어도 부분적으로 기반하는 것인 시스템.
  99. 제 95 항 내지 제 98 항 중 어느 한 항에 있어서,
    명령어는 하나 이상의 표적 숙주 생물에서 표적 분자를 생산하기 위한 명령어를 더 포함하는 것인 시스템.
  100. 표적 분자를 생산하기 위한 숙주 생물을 확인하기 위한 명령어를 저장하는 하나 이상의 비-일시적 컴퓨터-판독가능한 매체로서,
    명령어는, 하나 이상의 컴퓨팅 디바이스에 의해 실행될 때, 적어도 하나의 하나 이상의 컴퓨팅 디바이스가:
    하나 이상의 분자 및 하나 이상의 분자가 생산되는 하나 이상의 숙주 생물 사이에 연결에 관한 정보를 액세스하게 하고;
    표적 분자를 생산하는데에 포함되는 모든 촉매는 하나 이상의 표적 숙주 생물에서 표적 분자의 생산을 야기하는 반응을 촉진하도록 허용가능할 가능성이 높다는 증거에 적어도 부분적으로 기반한 표적 분자를 생산하는 하나 이상의 표적 숙주 생물로서 적어도 하나의 하나 이상의 숙주 생물을 확인하게 하고;
    출력으로서, 하나 이상의 표적 숙주 생물을 나타내는 데이터를 제공하게 하는 것인
    하나 이상의 비-일시적 컴퓨터-판독가능한 매체.
  101. 제 100 항에 있어서,
    하나 이상의 표적 숙주 생물을 나타내는 데이터는 하나 이상의 표적 숙주 생물에서 표적 분자를 생산하기 위해 사용될 수 있는 것인 하나 이상의 컴퓨터-판독가능한 매체.
  102. 제 100 항 또는 제 101 항에 있어서,
    증거는 표적 분자의 생산을 야기하는 하나 이상의 반응 경로의 기록을 포함하는 것인 하나 이상의 컴퓨터-판독가능한 매체.
  103. 제 102 항에 있어서,
    하나 이상의 표적 숙주 생물을 확인하는 것은 하나 이상의 표적 숙주 생물 내에서 표적 분자를 생산하기 위해 요구되는 하나 이상의 반응 경로 내에서 반응 단계의 횟수에 적어도 부분적으로 기반한 것인 하나 이상의 컴퓨터-판독가능한 매체.
  104. 제 100 항 내지 제 103 항 중 어느 한 항에 있어서,
    명령어는 하나 이상의 표적 숙주 생물에서 표적 분자를 생산하기 위한 명령어를 더 포함하는 것인 하나 이상의 컴퓨터-판독가능한 매체.
KR1020197022762A 2017-02-15 2018-02-14 생물도달가능 예측 도구 KR20190113800A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762459558P 2017-02-15 2017-02-15
US62/459,558 2017-02-15
PCT/US2018/018234 WO2018152243A2 (en) 2017-02-15 2018-02-14 Bioreachable prediction tool

Publications (1)

Publication Number Publication Date
KR20190113800A true KR20190113800A (ko) 2019-10-08

Family

ID=61283409

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197022762A KR20190113800A (ko) 2017-02-15 2018-02-14 생물도달가능 예측 도구

Country Status (7)

Country Link
US (1) US20190392919A1 (ko)
EP (1) EP3583528A2 (ko)
JP (2) JP6860684B2 (ko)
KR (1) KR20190113800A (ko)
CN (1) CN110574115A (ko)
CA (1) CA3050749A1 (ko)
WO (1) WO2018152243A2 (ko)

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1102861A1 (en) * 1998-08-05 2001-05-30 University Of Pittsburgh Modelling organic compound reactivity in cytochrome p450 mediated reactions
CA2434224C (en) * 2001-01-10 2013-04-02 The Penn State Research Foundation Method and system for modeling cellular metabolism
EP1451572A4 (en) * 2001-10-03 2007-04-04 Intradigm Corp MULTI-DISCIPLINARY APPROACH TO VALIDATION OR IDENTIFICATION OF TARGETS USING AN IN VIVO SYSTEM
GB2406192A (en) * 2002-06-18 2005-03-23 Genego Inc Methods for identifying compounds for treating disease states
US20060052942A1 (en) * 2004-05-21 2006-03-09 Shuo-Huan Hsu Integrated knowledge-based reverse engineering of metabolic pathways
JP2006072653A (ja) * 2004-09-01 2006-03-16 Fujitsu Ltd 代謝予測支援装置、代謝予測支援方法、代謝予測支援プログラム、および記録媒体
JP5529457B2 (ja) * 2009-07-31 2014-06-25 富士通株式会社 代謝解析プログラム、代謝解析装置および代謝解析方法
WO2013007786A1 (en) * 2011-07-12 2013-01-17 Scientist Of Fortune S.A. Recombinant microorganism for the production of useful metabolites
KR102023618B1 (ko) * 2012-07-27 2019-09-20 삼성전자주식회사 1,4-bdo 생성능이 개선된 변이 미생물 및 이를 이용한 1,4-bdo의 제조방법
US20140244228A1 (en) * 2012-09-19 2014-08-28 Agency For Science, Technology And Research Codon optimization of a synthetic gene(s) for protein expression
JP2016510310A (ja) * 2012-12-18 2016-04-07 ジェネンテック, インコーポレイテッド 分子の生理活性予測
US20170147742A1 (en) * 2014-06-27 2017-05-25 Nanyang Technological University Systems and methods for synthetic biology design and host cell simulation

Also Published As

Publication number Publication date
EP3583528A2 (en) 2019-12-25
JP2021120865A (ja) 2021-08-19
WO2018152243A2 (en) 2018-08-23
CN110574115A (zh) 2019-12-13
JP2020507859A (ja) 2020-03-12
WO2018152243A3 (en) 2018-09-27
JP7089086B2 (ja) 2022-06-21
US20190392919A1 (en) 2019-12-26
JP6860684B2 (ja) 2021-04-21
CA3050749A1 (en) 2018-08-23

Similar Documents

Publication Publication Date Title
Rochette et al. Deriving genotypes from RAD-seq short-read data using Stacks
Alamancos et al. Methods to study splicing from high-throughput RNA sequencing data
Cho et al. Prediction of novel synthetic pathways for the production of desired chemicals
Cantarel et al. MAKER: an easy-to-use annotation pipeline designed for emerging model organism genomes
US20210225455A1 (en) Bioreachable prediction tool with biological sequence selection
US20200058376A1 (en) Bioreachable prediction tool for predicting properties of bioreachable molecules and related materials
Kunath et al. Metagenomics and CAZyme discovery
Kong et al. GAAP: a genome assembly+ annotation pipeline
Liu et al. Design of prime-editing guide RNAs with deep transfer learning
Kono et al. SNPM eta: SNP annotation and SNP metadata collection without a reference genome
JP7089086B2 (ja) 生体到達可能予測ツール
Berg et al. Comparing gene annotation enrichment tools for functional modeling of agricultural microarray data
Gupta et al. Improving re-annotation of annotated eukaryotic genomes
Ishengoma et al. Using SPAdes, AUGUSTUS, and BLAST in an automated pipeline for clustering homologous exome sequences
Havukkala Biodata mining and visualization: novel approaches
Paytuví Gallart Development and application of integrative tools for the functional and structural analyses of genomes
Bradford Rapid detection of safe and efficient gene editing targets across entire genomes
Awad et al. GALA: gap-free chromosome-scale assembly with long reads
Gerlee et al. Gene divergence and pathway duplication in the metabolic network of yeast and digital organisms
Gaitán et al. A graph clustering algorithm for detection and genotyping of structural variants from long reads
Arango Argoty Computational Tools for Annotating Antibiotic Resistance in Metagenomic Data
Rombaut DISCOVERY OF REGULATORY ELEMENTS IN RELATED GENOMES USING APACHE SPARK
Čalounová Mining novel terpene synthases from large-scale repositories
Hachey A Review of VGP’s Current Techniques and Best Practices for the Generation of Vertebrate Chromosome-level Reference Genomes Using Multiple Sequencing Technologies
Lal et al. Efficient Pangenome Construction through Alignment-Free Residue Pangenome Analysis (ARPA)

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E601 Decision to refuse application