WO2021182718A1 - 생화학 패스웨이 확장방법, 장치 및 프로그램 - Google Patents

생화학 패스웨이 확장방법, 장치 및 프로그램 Download PDF

Info

Publication number
WO2021182718A1
WO2021182718A1 PCT/KR2020/017475 KR2020017475W WO2021182718A1 WO 2021182718 A1 WO2021182718 A1 WO 2021182718A1 KR 2020017475 W KR2020017475 W KR 2020017475W WO 2021182718 A1 WO2021182718 A1 WO 2021182718A1
Authority
WO
WIPO (PCT)
Prior art keywords
pathway
input
calculation
extension
analog
Prior art date
Application number
PCT/KR2020/017475
Other languages
English (en)
French (fr)
Inventor
박종선
손장혁
Original Assignee
인포보스 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인포보스 주식회사 filed Critical 인포보스 주식회사
Priority to EP20924030.8A priority Critical patent/EP4134961A4/en
Publication of WO2021182718A1 publication Critical patent/WO2021182718A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Abstract

시작물질, 중간물질 및 종료물질을 포함하는 입력 패스웨이가 입력되는 입력단계 와, 상기 입력 패스웨이 상의 각 단계의 물질에 대해 유사 기능 다른 구조의 아날로그가 조사되는 아날로그 조사단계 와, 상기 아날로그가 포함된 다른 패스웨이에 대해, 상기 아날로그끼리의 연관관계가 설정되는 아날로그 연관단계 와, 상기 연관관계가 설정된 단계 이후 단계에 대해, 변경된 중간물질의 재계산 및 신규 종료물질의 계산이 수행되는 변경물질 계산단계 가 포함되어 이루어짐을 특징으로 하는 생화학 패스웨이 확장방법이 제공된다. [대표도] 도 1

Description

생화학 패스웨이 확장방법, 장치 및 프로그램
본 발명은, 생화학 패스웨이 확장방법, 장치 및 프로그램에 관한 것으로서, 보다 상세히는, 주어진 생화학 패스웨이(이하, '패스웨이'로 약칭)(입력 패스웨이) 내의 물질이 아날로그로 대체된 새로운 패스웨이(확장 패스웨이)를 생성하여 나타내고, 그 확장 패스웨이에 의한 최종 2차 대사산물의 존재확률을 계량화하여 나타내는 방법, 장치 및 프로그램에 관한 것이다.
생명과학과 컴퓨터과학의 발전에 따라, 지금까지 연구되어 온 생화학 데이터들이 점차 디지털화되어 축적되기 시작하고 있다. 이에 따라, 디지털화된 데이터의 조작과 응용에 있어서, 높은 정확성의 추구는 물론이고, 결과물을 얻기 위해 소요되는 시간과 비용도 큰 관건이 되고 있다.
일반적으로 생물체가 가지고 있는 DNA는, 염기서열 결정방법에 의해 해독된다. 이 염기서열 결정방법에는, 크게 2가지가 있는데, 그 하나는 고전적인 생어 염기서열 결정방법(Sanger Sequencing Method)이고, 다른 하나는 NGS(Next Generation Sequencing Method; 차세대 염기서열 결정방법)이다. NGS는, 2005년 경부터 상업화되어 제공되고 있다.
상기 생어 염기서열 결정방법은, 한 종류의 DNA조각을 약 1,000 염기쌍 (base pair; bp)가량 읽어서 처리할 수 있으나, 그 비용이 상대적으로 높은 편(현재 약 4원/bp)이다. 한편, NGS 중 하나인 SBS(Sequencing by Synthesis) 방법은, 인간 게놈 해독(Human Genome Project; HGP) 등 대량의 염기서열 결정 필요가 대두되었던 2000년 전후에 새로운 염기서열 결정방법으로서 등장했고, 현재 120Gbp 염기서열 결정에 약 300만원이 소요(0.000025원/bp)되므로, 매우 저렴하다.
이와 같이 경제성 뛰어난 NGS 기술들이 활용되면서, 수많은 게놈 연구 및 관련 연구들이 활성화되어, 현재는 어마어마하게 많은 염기서열 데이터들이 쏟아지고 있다. 참고로, 2019년 현재, 31Pbp(31,067,314,313,468,958bp)의 데이터가 NCBI SRA(Short Read Archive)에 저장(https://trace.ncbi.nlm.nih.gov/Traces/sra/)되어 있다(도 8 그래프 참조).
이러한 NGS 기술의 보편화를 통해, 게놈 연구가 더욱 가속화되고 있는데, 이런 가속화는, 지속적인 기술발전을 통한 염기서열 결정비용의 하락이 가장 큰 원동력이다. 예컨대, 인간 게놈의 경우, 한 사람의 전체 게놈을 해독하는데 약 120만원 (서비스비용 기준, 90Gbp 데이터 생성, 한국)이면 해결 가능하다.
다만, 식물의 경우는 동물(인간)과는 달리 게놈의 길이가 길고, 구조가 복잡함에 따라, 그 해독이 상대적으로 더디다는 점에서, 연구의 활성화가 되지 못해 왔었다. 그러나, NGS 기술의 활용에 따라, 이전보다 좀 더 저렴하게 게놈을 확보할 수 있게 되어, 최근 몇 년 사이에는, 공개되는 게놈의 양이 급격하게 늘어나고 있다. 2020년 2월 현재, 식물 게놈은, 638종, 1986개의 유전자 데이터가 공개(Plant Genome Database Release 2.6; http://www.plantgenome.info/ 참조)되어 있다.
이와 같은 주요 게놈 연구 외에도, 다양한 연구 목적으로 NGS 기술이 활용되고 있는데, 그 중에 대표적인 연구로서 GWAS(Genome-wide association study), GBS(Genotype by sequencing), 하이브리드 시퀀싱(HybSeq), 소기관 게놈(Organelle genome sequencing) 해독 등이 있다. 이들 연구에서 생성되는 NGS 데이터는, 게놈을 해독하는 쓰이기에는 데이터 양이 부족하거나 그 성질이 다르다. 반면, 데이터 양이 적은 것이므로, 상대적으로 많은 종들, 혹은 동종의 다른 개체의 NGS 데이터가 연구에서 생성되고 있어서, 이들 데이터를 활용할 수 있는 방법이 있으면, 이들 데이터로부터 더 많은 정보를 가공할 수 있을 것으로 예상된다.
한편, 식물자원의 경우는, 그들이 생성하는 2차 대사산물(Secondary metabolites)이 활용되는 경우가 많다. 예를 들면, 타미플루(R)의 원료로 사용되는 중국 자생종인 팔각( Illicium verum)은, 시킴산(Shikimic acid)을 2차 대사산물로 많이 만들어 내는데, 이것이 항바이러스 기능을 한다. 이를 바탕으로 타미플루(R) 약품이 개발되어, 현재 시판되고 있다. 또한, 커피( Coffea arabica), 차( Camellia sinensis)의 경우는, 열매 혹은 잎에 많이 있는 카페인(caffeine) 성분이 활용되어, 음료로 널리 보급되었다.
이들 2차 대사산물은, 식물체 내에서 패스웨이를 통해서 생성되는데, 주요한 패스웨이들은 잘 알려져 있다. 예를 들어, 카페인은, 잔토신(xanthosine)으로부터 시작해서 카페인(caffeine)이 만들어지는 4단계로 구성(도 9 참조)되어 있음이 잘 알려져 있다. 또한, 커피( Coffea canephora)가 해독이 되면서, 게놈 안에 있는 유전자들 중 상기의 4단계에 관여하는 유전자들이 모두 파악되었고, 차 및 카카오의 관련 유전자와의 비교 분석연구(도 10 참조)도 이미 완료(비특허문헌1 참조)되었다.
이와 같은 특정 2차 대사산물의 중요성 및 그 패스웨이는 많이 알려져 있으나, 한편으로는 이 정보만으로는, 새로운 식물자원에 대한 가능성 있는 2차 대사산물을 예측하는 데에는 큰 한계가 존재한다. 왜냐하면 패스웨이에 관여하는 효소 유전자들은, 게놈 내에서 하나가 아닌 여러 개의 유전자로 존재(도 10의 도 2에서도 여러 개임)하고 있고, 이들 중에서 어떤 유전자가 해당 패스웨이에 관여하는지 정보를 명확히 확인하기가 어렵기 때문이다. 또한, 하나의 패스웨이 내에는, 여러 가지 과정이 혼재되어 있으므로, 이들에 대한 좀 더 체계적인 분석은 이루어지지 못하고 있다.
비근한 예로서, KEGG(https://www.genome.jp/kegg/)의 경우는, 1차, 2차 대사산물에 대한 패스웨이를 정리하여 DB화 하였고, 이들에 대한 전체 지도를 구성하는 작업을 진행하였다. 하지만, 이와 같은 방대한 정보에도 불구하고, 이들이 제공하는 패스웨이 예측 서비스(https://www.genome.jp/tools/pathpred/)에서 카페인의 패스웨이 예측을 실행해 보면, 그 출력되는 결과는, 기지의 패스웨이와 달리, 조각난 정보만 제공받게 된다는 큰 한계 및 문제(도 11 참조)가 존재한다. 즉, KEGG의 패스웨이 예측 서비스에서는 총 4가지 패스웨이가 예측되어 출력되는데, 기존에 알려진 4단계(도 9 참조)와는 차이가 있다. 이는, 패스웨이의 예상 이상의 높은 복잡성을 시사함과 함께, 추가적인 연구가 매우 절실하게 필요함을 보여주고 있다.
한편, 한의학 분야에서 다루는 전통지식에 따르면, 모든 식물에는 각기 고유의 다양한 효능(예컨대, 질경이-여성질환, 도라지-기관지/감기)이 있다고 한다. 하지만, 종래의 기술에 의하면, 각 식물에 있는 효능 후보물질을 특정하는 것이 어렵고, 또한 채산성도 낮아, 산업 적용에 여러 가지 난점을 가지고 있다.
또한, 의약, 식품, 화장품 등의 분야에서는, 다양한 식물의 2차 대사산물을 이용한 제품을 출시할 필요가 있는데, 종래의 기술에 의하면, 어느 미지의 신규 식물에서 어떤 2차 대사산물이 산출되는지, 그 생성 메카니즘은 어떻게 되는지 등의 정보를 쉽게 알 수 없을 뿐 아니라, 결과를 얻기까지 시간과 비용이 과다하게 소요된다는 문제가 있다.
특허문헌1의 '애기장대 유전자 네트워크를 이용한 식물의 복합 형질 관련 유전자 예측 시스템'에는, 애기장대( Arabidopsis thaliana)에서 유전자 네트워크를 이용하여 특정 형질과 관련된 유전자를 예측하는 방법이 개시되어 있는데, 이는 본 발명에서 입력자료로 이용하는 예측 효소 유전자에 관련이 있을 뿐이다. 본 발명은 효소의 예측이 아니라, 효소가 어느 패스웨이에 적용 가능한지를 예측함으로써, 어떤 식물이 내재하고 있는 다양한 패스웨이를 발견하고 확장함으로써, 보다 다양한 최종산물(결과물질; 2차 대사산물)을 예측하기 위한 것이므로, 특허문헌1의 기술은 직접 대응되는 테마라 할 수 없다.
특허문헌2의 '타겟 화합물의 경로를 선택하는 방법 및 디바이스'에는, 특정 화합물을 결정하면 이를 합성하는 최적 방법이 선택되도록 하는 기술이 개시되어 있는데, 이는 본 발명에서 가능한 패스웨이의 재구성 내지 확장(Possible pathway reconstruction or Pathway expansion)에 있어서 최적의 패스웨이를 찾는 부분의 방법론으로서 일부가 관련될 수 있으나, 본 발명은 가능한 모든 다양한 패스웨이를 추론함에 목적이 있고, 도출된 다량의 패스웨이들 중에서 실재성을 검증하기 위해 화학합성법과 생화학합성법을 함께 고려해서 합리적 결과를 도출하는 것임에 비해, 특허문헌2의 기술은 최적 패스웨이를 선택함에 목적이 있으므로, 직접적 관련이 있다고 할 수는 없다.
[선행기술문헌]
[특허문헌]
(특허문헌 1) 특허등록 10-1568399 공보
(특허문헌 2) 특허공개 10-2017-0095711 공보
[비특허문헌]
(비특허문헌 1)Denoeud, F., Carretero-Paulet, L., Dereeper, A., Droc, G., Guyot, R., Pietrella, M., Zheng, C., Alberti, A., Anthony, F., Aprea, G. and Aury, J.M., 2014. The coffee genome provides insight into the convergent evolution of caffeine biosynthesis. science, 345(6201), pp.1181-1184.
본 발명은, 상기와 같은 종래의 패스웨이 예측기술의 한계점을 극복하기 위해, 현재 많은 식물 게놈 정보를 활용하여, 패스웨이에 관련된 효소 유전자를 발굴하고, 이들의 역할을 예측하는 작업을, 계통학적 및 발현확률적으로 평가하는 기술을 제공하고자 한다.
또한, 식물 게놈 정보로부터, 미지의 각 식물이 생성할 수 있는 특정 물질(2차 대사산물)의 도출이 가능하며, 추론 가능한 생성 메카니즘(패스웨이) 정보까지 확보, 제공하여, 신약개발 및 건강식품, 화장품 개발 등 다양한 산업분야에 적용이 가능하며, 엄청난 시간과 비용을 줄여, 식물자원의 산업 적용에 많은 발전을 도모할 것으로 판단되는 기술을 제공하고자 한다.
또한, 패스웨이를 입력받고, 이 입력 패스웨이 내의 각 단계의 물질을 아날로그로 대체한 후 이후 단계의 반응을 추적함으로써, 입력 패스웨이에 대해 확장된 확장 패스웨이를 생성하여 제시할 수 있는 기술을 제공하고자 한다.
또한, 입력 패스웨이 내의 각 단계의 물질과, 이에 대응하는 확장 패스웨이 내의 각 대응 단계의 물질 사이의 물질 차이도를 산출하여 제시할 수 있는 기술을 제공하고자 한다.
또한, 입력 패스웨이의 실재성 스코어와 패스웨이간 물질 차이도로부터 확장 패스웨이의 패스웨이 실재성을 판단하여, 확장 패스웨이의 실재성 스코어를 산출하여 제시할 수 있는 기술을 제공하고자 한다.
또한, 확장 패스웨이에 대해 실재성 스코어에 의한 실재성 필터링을 수행함으로써, 고득점의 확장 패스웨이를 선택하여 제시할 수 있는 기술을 제공하고자 한다.
또한, 확장 패스웨이 내의 각 단계의 물질에 대해 물질별 가중치가 부여되고 연산됨으로써, 확장 패스웨이에 의한 종료물질인 2차 대사산물의 산출확률을 예측하여 제시할 수 있는 기술을 제공하고자 한다.
상기 과제를 달성하기 위한 본 발명의 생화학 패스웨이 확장방법은, 시작물질, 중간물질 및 종료물질을 포함하는 입력 패스웨이가 입력되는 입력단계와, 상기 입력 패스웨이 상의 각 단계의 물질에 대해 유사 기능 다른 구조의 아날로그가 조사되는 아날로그 조사단계와, 상기 아날로그가 포함된 다른 패스웨이에 대해, 상기 아날로그끼리의 연관관계가 설정되는 아날로그 연관단계와, 상기 연관관계가 설정된 단계 이후 단계에 대해, 변경된 중간물질의 재계산 및 신규 종료물질의 계산이 수행되는 변경물질 계산단계가 포함되어 이루어짐을 특징으로 한다.
여기서, 상기 확장 패스웨이가 실재 존재할 확률을 나타내는 확장 패스웨이의 실재성 스코어에 의해 상기 확장 패스웨이가 실재성 필터링되어, 기준치보다 높은 고득점의 확장 패스웨이가 추출되는 고득점 확장 패스웨이 추출단계가 더 포함되어 이루어짐이 바람직하다.
또한, 상기 확장 패스웨이 내의 각 단계의 물질에 대해 물질별 가중치가 부여되고 연산됨으로써, 상기 확장 패스웨이에 의한 종료물질인 2차 대사산물의 실제 존재확률이 산출되는 2차 대사산물 실재확률 산출단계가 더 포함되어 이루어짐이 바람직하다.
또한, 상기 입력 패스웨이 내의 각 단계의 물질과, 이에 대응하는 상기 확장 패스웨이 내의 각 대응 단계의 물질 사이의 물질 차이도가 산출되는 물질 차이도 산출단계가 더 포함되어 이루어지고, 상기 물질 차이도는, (1 - 물질 유사도)로 정의되고, 상기 물질 유사도는, 물질의 유사성을 수치화하여 나타낸 0 내지 1의 값임이 바람직하다.
또한, 상기 입력 패스웨이의 실재성 스코어와 상기 입력 패스웨이 및 상기 확장 패스웨이 사이의 각 단계의 물질 차이도에 근거하여, 상기 확장 패스웨이의 패스웨이 실재성이 판단됨으로써, 상기 확장 패스웨이의 실재성 스코어가 산출되는 확장 패스웨이 실재성 스코어링 단계가 더 포함되어 이루어짐이 바람직하다.
여기서, 상기 입력 패스웨이의 실재성 스코어는, 상기 입력 패스웨이의 각 단계의 효소 유전자의 적합도 스코어의 연산에 따라 산출됨이 바람직하다.
그리고, 상기 입력 패스웨이의 각 단계마다 매핑된 효소가 다수인 경우에, 효소들의 적합도 스코어 중의 최대값이 선정되고, 상기 입력 패스웨이의 모든 단계에 대해 선정된 적합도 스코어의 합계가 산출되고, 상기 입력 패스웨이의 단계수로 나눈 평균값에 의해 상기 실재성 스코어가 연산되도록 이루어짐이 바람직하다.
한편, 상기 과제를 달성하기 위한 본 발명의 생화학 패스웨이 확장장치는, 시작물질, 중간물질 및 종료물질을 포함하는 입력 패스웨이가 입력되도록 하는 입력모듈과, 상기 입력 패스웨이 상의 각 단계의 물질에 대해 유사 기능 다른 구조의 아날로그가 조사되도록 하는 아날로그 조사모듈과, 상기 아날로그가 포함된 다른 패스웨이에 대해, 상기 아날로그끼리의 연관관계가 설정되도록 하는 아날로그 연관모듈과, 상기 연관관계가 설정된 단계 이후 단계에 대해, 변경된 중간물질의 재계산 및 신규 종료물질의 계산이 수행되도록 하는 변경물질 계산모듈이 포함되어 이루어짐을 특징으로 한다.
그리고, 상기 과제를 달성하기 위한 본 발명의 생화학 패스웨이 확장용 프로그램은, 정보처리기기에 상기에 기재된 방법의 각 단계를 실행시키기 위한 프로그램을 기록한, 정보처리기기로 읽을 수 있는 저장매체에 기록된 프로그램이다.
본 발명에 의하면, 현재 많은 식물 게놈 정보를 활용하여, 패스웨이에 관련된 효소 유전자를 발굴하고, 이들의 역할을 예측하는 작업을, 계통학적 및 발현확률적으로 평가하는 기술이 제공된다.
또한, 식물 게놈 정보로부터, 미지의 각 식물이 생성할 수 있는 특정 물질(2차 대사산물)의 도출이 가능하며, 추론 가능한 생성 메카니즘(패스웨이) 정보까지 확보, 제공하여, 신약개발 및 건강식품, 화장품 개발 등 다양한 산업분야에 적용이 가능하며, 엄청난 시간과 비용을 줄여, 식물자원의 산업 적용에 많은 발전을 도모할 것으로 판단되는 기술이 제공된다.
또한, 패스웨이를 입력받아서, 이 입력 패스웨이 내의 각 단계의 물질을 아날로그로 대체한 후 이후 단계의 반응을 추적함으로써, 입력 패스웨이에 대해 확장된 확장 패스웨이를 생성하여 제시할 수 있는 기술이 제공된다.
또한, 입력 패스웨이 내의 각 단계의 물질과, 이에 대응하는 확장 패스웨이 내의 각 대응 단계의 물질 사이의 물질 차이도를 산출하여 제시할 수 있는 기술이 제공된다.
또한, 입력 패스웨이의 실재성 스코어와 패스웨이간 물질 차이도로부터 확장 패스웨이의 패스웨이 실재성을 판단하여 확장 패스웨이의 실재성 스코어를 산출하여 제시할 수 있는 기술이 제공된다.
또한, 확장 패스웨이에 대해 실재성 스코어에 의한 실재성 필터링을 수행함으로써 고득점 확장 패스웨이를 선택하여 제시할 수 있는 기술이 제공된다.
또한, 확장 패스웨이 내의 각 단계의 물질에 대해 물질별 가중치가 부여되고 연산됨으로써 확장 패스웨이에 의한 종료물질인 2차 대사산물의 산출확률을 예측하여 제시할 수 있는 기술이 제공된다.
도 1은, 본 발명의 생화학 패스웨이 확장방법이 적용되는 생화학 패스웨이 확장장치의 블럭도이다.
도 2는, 본 발명의 생화학 패스웨이 확장방법의 플로차트이다.
도 3은, 본 발명의 생화학 패스웨이 확장방법에 이용되는 아날로그의 일례인 알코올의 아날로그의 구조식이다.
도 4는, 입력 패스웨이의 입력으로부터 확장 패스웨이의 실재성 스코어링까지의 플로우를 나타낸 설명도이다.
도 5는, 효소의 역할에 대한 설명에 있어서 효소의 일례인 Monooxygenase의 작용을 예시하는 도면이다.
도 6은, 효소 Monooxygenasedp 의해 Coumarin 물질에 OH기가 추가된 최종산물이 예측된 예를 나타낸 도면이다.
도 7은, 예측 또는 확장 패스웨이에 관련된 물질에 대한 스코어링을 통해, 예측된 2차 대사산물의 목록 및 실재확률(스코어)가 산출되는 플로우를 나타낸 도면이다.
도 8은, NGS 기법을 활용한 염기서열 데이터가 NCBI SRA 데이터베이스에 축적된 현황을 시간에 따라 보여주는 성장현황 그래프이다.
도 9는, 카페인의 기지 패스웨이를 나타내는 도면이다.
도 10은, 커피의 카페인의 패스웨이와 차 및 카카오의 관련 유전자 비교연구 논문의 일부발췌 내용을 나타낸 도면이다.
도 11은, KEGG 데이터베이스의 패스웨이 예측 서비스에 있어서 카페인에 대한 패스웨이 예측의뢰 결과를 나타내는 도면이다.
이하, 첨부도면을 참조하면서 본 발명에 따른 생화학 패스웨이 재구성방법, 장치 및 프로그램에 대해 상세히 설명한다. 다만, 동일구성에 의해 동일기능을 가지는 부재에 대해서는, 도면이 달라지더라도 동일부호를 유지함으로써, 그 상세한 설명을 생략하는 경우가 있다.
또한, 어떤 부재의 전후, 좌우, 상하에 다른 부재가 배치되거나 연결되는 관계는, 그 중간에 별도 부재가 삽입되는 경우를 포함한다. 반대로, 어떤 부재가 다른 부재의 '바로' 전후, 좌우, 상하에 있다고 할 때에는, 중간에 별도 부재가 없는 것을 뜻한다. 그리고 어떤 부분이 다른 구성요소를 '포함'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한, 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
그리고 구성의 명칭을 제1, 제2 등으로 구분한 것은, 그 구성이 동일한 관계로 이를 구분하기 위한 것으로, 반드시 그 순서에 한정되는 것은 아니다. 또한, 명세서에 기재된 '유닛', '수단', '부', '부재', '모듈' 등의 용어는, 적어도 하나의 기능이나 동작을 하는 포괄적인 구성의 단위를 의미한다. 하나의 구성단위는 2 이상으로 분할되어 구현될 수 있고, 역으로 2 이상의 구성단위는, 하나로 통합되어 구현될 수 있다. 그리고 명세서에 기재된 단말, 서버 등의 정보처리기기는, 특정한 기능이나 동작이 구현된 하드웨어를 의미하는 하드 와이어링을 기본적으로 의미하지만, 특정한 하드웨어에 한정되도록 해석되어서는 안되고, 일반 범용 하드웨어 상에 그 특정한 기능이나 동작이 구현되도록 하기 위해 구동되는 소프트웨어로 이루어지는 소프트 와이어링을 배제하는 것이 아니다. 즉, 단말 또는 서버는, 어떤 장치가 될 수도 있고, 앱과 같이, 어떤 기기에 설치되는 소프트웨어가 될 수도 있다.
그리고 도면에 나타난 각 구성의 크기 및 두께는, 설명의 편의를 위해 임의로 나타내었으므로, 본 발명이 반드시 도면에 도시된 바에 한정되지 않으며, 층 및 영역 등의 여러 부분 및 영역을 명확하게 표현하기 위해 두께 등은 과장하여 확대 또는 축소하여 나타낸 경우가 있다.
<기본구성 - 방법>
본 발명의 일실시예에 따른 생화학 패스웨이 확장방법은, 도 2와 같이, 입력단계(S10)와, 아날로그 조사단계(S20)와, 아날로그 연관단계(S30)와, 변경물질 계산단계(S40)가 포함되어 이루어짐을 특징으로 한다. 상기 방법은, 도 4에 나타내는 바와 같이, 입력 패스웨이의 정보를 입력받아, 후술할 패스웨이의 확장과정을 거쳐 확장 패스웨이의 정보를 생성하는 과정이다. 이러한 확장 패스웨이의 정보는, 후술하는 바와 같이, 입력 패스웨이의 실재성 스코어와 함께 이용되어, 확장 패스웨이의 실재성 스코어링에 의해 실재성 스코어로 나타내는데 활용될 수 있다.
상기 입력단계(S10)는, 시작물질, 중간물질 및 종료물질을 포함하는 입력 패스웨이가 입력되는 단계이다. 상기 입력 패스웨이는, 특정 2차 대사산물을 최종 종료물질로서 생산한다고 알려진 기지의 패스웨이일 수도 있고, 식물 등 샘플로부터 입수된 미지의 패스웨이일 수도 있으며, NGS 등에 의한 염기서열 분석시에 발생하는 조각 패스웨이일 수도 있고, 이러한 조각 패스웨이들이 조합되어 생성된 재구성 패스웨이일 수도 있다. 이들 모든 종류의 패스웨이들은, 효소를 구성요소로 하고 있고, 미지의 패스웨이의 경우에도, 적어도 효소의 유전자로 예측된 예측 효소 유전자가 선별될 수 있다.
상기 예측 효소 유전자는, 일반적으로 다음과 같이 산출될 수 있지만, 이에 한정되는 것은 아니다.
먼저, NGS 로우데이터를 처리한다. 즉, 식물 샘플로부터 DNA를 추출한 후에, NGS 기반 시퀀서(염기서열 결정기; Sequencer; 예컨대 Illumina HiSeq 계열 장비)로부터 로우데이터를 얻는다.
보통 NGS 로우데이터의 처리는, 대량의 매우 작은(보통 300bp~5kb 가량) DNA 조각에 대해 양단 염기서열 100bp에서 300bp 가량의 염기서열을 결정(pair-end library, mate-pair library)하는 방법으로 진행된다.
로우데이터는, 일반적으로 텍스트 파일 형태로 구성되어 있고, 예컨대 Illumina사 기기의 경우, fastq 포맷으로 제공된다. 그러나, Illumina사의 기기 말고 다른 종류의 NGS 데이터들도 사용이 가능하며, 이들의 데이터는 상황에 따라서 그 기기에서 제공하는 고유의 형식으로 따른다. 여기서는, fastq 파일 기준으로 설명하며, 각 과정은 제공되는 파일 형식에 따라 프로그램이 달라질 수 있으나, 과정은 실질적으로 동일하다.
첫 과정은, NGS 로우데이터의 각 염기쌍의 품질점수(quality score)를 기준으로, 낮은 품질점수를 보여주는 염기쌍을 제거하는 과정을 거친다. 본 과정은, 예컨대 품질점수가 30점 이하인 경우에 필터링으로 컷오프를 수행(Q30)하는데, 데이터의 조건 및 양에 따라서 필터링 조건은 변경이 될 수 있다. 이 과정에서 사용되는 프로그램은, 예컨대 Trimmomatic, fastQC 등이며, 이와 관련된 프로그램은 어떠한 것을 사용해도 좋다. 다만, 이 단계는 상황에 따라 생략될 수도 있다.
일반적으로 게놈을 해독하기 위해서는, 해당 식물 게놈 길이의 150배 이상의 염기서열 데이터가 확보되어야 한다. 그러나, 염기서열의 양은 비용과 비례하기 때문에, 본 발명에서는, 많은 식물 종에 대한 게놈 확보를 위해, 로우데이터의 양이 적더라도 본 발명의 목적을 달성할 수 있도록 설계할 필요가 있다.
이를 위해, 본 발명에서는, 입력 데이터 양이 기존보다 (1/2 이하로) 적어도 동작을 할 수 있도록 하기 위해, 후술하는 de novo assembly 과정에서 나오는 결과를 취합하는데 비교적 느슨한 조건을 활용하도록 할 수 있다.
다음 과정으로, 필터링된 NGS 로우데이터를 바탕으로, 전체 게놈을 복원하는 과정이, 마치 퍼즐 맞추기와 유사한 방법으로 진행된다. 즉, 작은 DNA 조각에서 얻어진 100~300bp의 짧은 염기서열이, 다른 염기서열들과 겹치는 부분이 있는지를 다양한 알고리즘, 예컨대 Smith-waterman algorithm 혹은 de bruijn graph algorithm 등을 활용하여 찾아내고, 이를 바탕으로 그들을 연결, 확장하는 과정을 거친다.
여러 가지 염기서열 조립 프로그램이 존재하는데, 최근에 NGS 데이터를 다루는 프로그램들은 대부분, de bruijn algorithm을 활용하여 구성되어 있다. 그 이유는, NGS 데이터의 양이 엄청나게 많고, 각 염기서열의 길이는 짧아서, 이들을 기존방식(Smith-waterman algorithm)으로 처리하면, 해당 과정을 거치는데 수개월 이상이 소요되기 때문이다.
de bruijn algorithm을 사용하는 프로그램 중에서, 식물 게놈 데이터를 상대적으로 잘 조립하는 SOAPdenovo를 주로 사용하여, 게놈을 복원하는 과정을 수행할 수 있다. 그러나, 필요에 따라서는, 다른 프로그램(예, Velvet, AllPath-LG, ABySS, Platanus 등)을 사용해도 무방하다.
본 과정을 통해서 얻어지는 결과는, 염기서열을 최대한 길게 연결한 contig sequence 및, 이에 대해 추가적인 정보(pair-end, mate-pair)를 활용하여 순서를 결정한 scaffold sequence가 된다.
그리고, scaffold sequence를 기반으로 하여, 해당 염기서열에 있어서 결정이 안 된 구간(gap, N으로 표시)에 대해 염기서열을 결정해 주는 Gap closing 과정을 수행한다. 상기 Gap closing 과정에는, GapCloser가 주로 사용되는데, SOAP 프로그램과 동일한 팀에서 개발한 프로그램이다. 이 과정을 거치게 되면, 염기서열이 결정되지 않은 구간들이 많이 복원되어, 보다 질 좋은 게놈 데이터가 확보될 수 있다.
본 과정 중에서, 적은 데이터로 최대한의 결과를 얻도록 하기 위해, SOAP 프로그램의 파라미터를 적은 양의 데이터도 허용할 수 있는 범위로 조정하여 구동할 수 있다. 특히 어셈블리 과정이 종료된 다음에 각 scaffold sequence의 길이가 짧은(100bp ~ 1000bp) 데이터들도 필터링 하지 않고 포함시켜 다음 과정으로 넘어가도록 조치를 하여, 상대적으로 데이터 양이 적어도 원하는 결과를 얻어낼 수 있도록 조치할 수 있다.
이런 전략은, 대량의 식물종에 대한 게놈 해독과 그 결과를 활용하고자 하는데 있어서, 저렴한 비용으로 원하는 결과를 얻을 수 있다는 장점이 있다. 게놈 해독은, 비용을 올릴수록 그 수준이 좋아지나, 더 좋은 수준으로 가기 위해 투입되는 비용은 기하급수적으로 점점 커지는 문제가 있어, 적절한 수준을 결정하는 것이 중요하므로, 본 발명에서 허용하는 낮은 수준에 최적화된 조건은, 보다 많은 데이터를 다양한 관점에서 유용하게 활용하는 분야에서 널리 적용될 수 있을 것으로 예상된다.
다음 과정으로, 게놈 조립 과정을 통해서 얻어진 염기서열들을 바탕으로, 유전자 예측을 수행한다. 통상적으로, 유전자 예측은 사람이 아닌 컴퓨터 프로그램을 통해서 진행을 하게 되며, 유전자의 염기서열을 최대한 확보하여, 이들을 컴퓨터 프로그램을 학습시켜서, 전체 게놈에 적용하는 과정을 거친다.
식물 게놈의 경우는, 종마다 특이적인 요소들이 많기 때문에, 게놈을 해독할 때마다, 그들의 RNA을 추출하여 대량으로 염기서열을 결정하고, 이 데이터를 바탕으로 컴퓨터 프로그램을 학습시키는 과정을 수행한 후에, 유전자를 예측하는 과정을 진행한다.
여기서, 재미있는 부분은, 식물에서 가장 연구가 많이 된 애기장대( Arabidopsis thaliana)에서 학습된 데이터셋(pre-trained dataset)을 바탕으로, 새로운 식물 게놈에서 유전자를 예측하게 되면, 유전자의 수가 매우 많이 예측이 된다는 점이다. 예를 들어, 보통 식물은 유전자 수가 10만개 미만인데, 털질경이( Plantago depressa)의 유전체를 애기장대의 데이터로 예측하게 되면, 22만개가 예측된다. 그런데, 재미있는 것은, 이렇게 예측된 유전자가, 가짜가 아니라는 것이다. 즉, 이들의 55% 가량이, 알려진 기능 도메인(functional domain)을 온전하게 가지고 있다는 점에서, 거짓 정보가 아님을 방증하고 있다.
이렇게 하여, 유전자를 예측하는 프로그램들 중 예컨대 AUGUSTUS 프로그램을 활용하여, 식물 유전자를 예측하는 작업을 수행한다.
마지막 과정으로, 효소 예측 과정이 수행된다.
상기 예측된 유전자 셋은, 각 유전자의 염기서열, 이 염기서열의 번역(translation) 결과인 아미노산 서열, 그리고 유전자의 위치정보 등으로 구성되어 있다. 이들 데이터 중에서 아미노산 서열을 바탕으로, 유전자의 핵심 기능을 담당하는 기능 도메인이 있는지 여부를 예측하는 과정 및 추가 데이터 비교를 통해서 패스웨이에 관여하는 효소 유전자를 예측하는 과정을 수행한다.
먼저 기능 도메인 예측은, 예컨대 InterProScan 이라는 프로그램을 사용하여 3만개가 넘게 정의된 기능 도메인의 존재 유무를 예측하는 작업을 수행한다. 다만, 목적에 따라서 InterProScan이 아닌 특화된 PRINT, Pfam 등의 프로그램을 사용해도 무방하다.
또한, 유사한 유전자 찾기(Homologous gene search)를 통해서, 기존에 알려진 효소 유전자와 유사한 아미노산 서열을 가진 유전자들을 찾는 작업을 BLAST 프로그램, 혹은 이에 상응하는 프로그램들을 활용하여 데이터를 확보한다.
이렇게 얻어진 기능도메인 및 효소와 유사한 유전자들을 입력을 받아서, 최종적으로 패스웨이에 관여하는 효소 유전자를 예측한다.
기능 도메인의 경우는, 효소의 작용(예, monooxygenase (Cytochrome P450); 산소 원자를 이동하는 효소)에 관련된 기능 도메인을 가진 유전자들을 후보 유전자로 선발하고, 유사한 유전자 찾기의 경우는, 기존에 알려진 기능을 하는 효소 유전자와 매우 유사한(예컨대, e-value: 1e-10 이상, 아미노산 유사도: 30% 이상) 유전자를 선별하는 작업을 수행한다.
또한, 선발된 후보 유전자들은, 아래의 식으로부터 점수를 매겨서, 그 우선순위를 결정하는 작업도 병행함이 바람직하다. 점수를 내는 방법은 다양할 수 있으며, 목적에 따라서 식은 얼마든지 수정이 가능하다.
효소 유전자 예측 점수 (Score)
= {[아미노산 서열 유사도]*0.5 +-log[아미노산 서열 유사정도 통계값 (e-value등)]/400 *0.5}
+ {[효소 관련 기능도메인 존재 유뮤 (0: 없음, 1: 있음)]}
(여기서, 점수는 0부터 2의 값을 가짐. 2에 가까울수록 확률이 높음.)
확보된 효소 유전자 후보 대상은, 계통확률값 및 발현확률값을 감안하여, 추가적인 예측정보를 계산해도 좋다.
이상과 같은 예측 효소 유전자는, 기지의 패스웨이의 각 단계의 효소로서 매핑되어 조각 패스웨이를 형성하는데 이용될 수 있다. 그리고 어느 조각 패스웨이의 최종산물과 다른 조각 패스웨이의 시작물질이 동일하면, 이들 조각 패스웨이들이 병합되도록 함으로써, 재구성 패스웨이가 형성될 수 있다. 본 발명의 입력단계에서는, 기지의 패스웨이 뿐 아니라 미지의 패스웨이도 입력될 수 있고, 일부만으로 이루어진 조각 패스웨이나 이들 조각 패스웨이들이 조합되어 이루어진 재구성 패스웨이도 입력될 수 있다. 이렇게 다양한 종류, 형태의 패스웨이가, 입력 패스웨이로서 입력모듈(10)을 통해 본 발명의 장치에 입력된다. 도 1의 예시에서는, 입력 패스웨이로서 시작물질(A), 중간물질(B, C, D, E), 종료물질(F)이 각각 효소(a, b, c, d, e)에 의해 다음 단계로 넘어가는 패스웨이가 예시되어 있다.
상기 아날로그 조사단계(S20)는, 상기 입력 패스웨이 상의 각 단계의 물질에 대해 유사 기능 다른 구조의 아날로그가 조사되는 단계이다.
일반적으로, 패스웨이의 시작물질 혹은 종료물질은, 그 종류가 워낙 다양하다. 이로 인해, 2 이상의 패스웨이들을 병합할 수 있는 경우는 극히 제한적이다. 따라서, 주어진 패스웨이를 기반으로 유추하여, 실제 존재할 가능성이 있는 새로운 패스웨이를 패스웨이 재구성에 의해서만 조합하는 경우에, 그 결과물의 양이 기대한 만큼 많지 않을 수 있다.
그런데, 화학물질 특성상, 구조와 기능에 있어서, 두 가지 대별되는 경우가 있다. 하나의 경우는, 화학물질 구조가 상당히 다르지만, 동일한 기능을 하는 경우이고, 다른 하나의 경우는, 반대로, 비슷한 화학구조를 가지지만, 그 기능이 완전히 다른 경우이다. 전자의 경우는 아날로그라 하는데, 예컨대 메탄올의 경우, 도 3과 같은 아날로그를 가진다. 후자의 경우는, 예컨대 거울상 이성질체가 그 예인데, 화학식은 동일하나 구조적 차이로 인해 그 기능이 다른 경우들이 존재한다. 특히 효소의 경우는, 이 거울상 이성질체를 엄격히 인식하여, 특정 형태의 물질에 대해서만 반응하는 특성을 보여준다.
이와 같은 화학물질의 특성을 활용하여, 패스웨이에 있는 시작물질, 중간물질, 종료물질들에 대해 이와 같은 경우(아날로그가 존재하는 경우)를 모두 조사한다.
상기 아날로그 연관단계(S30)는, 상기 아날로그가 포함된 다른 패스웨이에 대해, 상기 아날로그끼리의 연관관계가 설정되는 단계이다.
아날로그가 조사된 패스웨이에 대해, 이들 아날로그를 바탕으로 해당 패스웨이에 관여하는 물질들을 "확장"하는 과정을 개시한다. 즉, 찾아진 부분 패스웨이의 시작물질, 종료물질과 동일한 기능을 하는 아날로그가 다른 패스웨이에 있는 경우, 이 둘(공통된 아날로그 물질들)을 연관짓는 작업을 한다. 여기서 연관이란, 제1 패스웨이 상의 어느 단계의 어느 물질 또는 그 아날로그와, 제2 패스웨이 상의 어느 단계의 어느 물질 또는 그 아날로그 사이에, 대응, 대등, 대체, 교환, 동일시 등의 관계를 연결시키는 개념이고, 제1 패스웨이가 주체가 되는 상황과, 제2 패스웨이가 주체가 되는 상황을 모두 포괄하며, 화학반응의 경로의 기로가 되도록 관계가 연결되는 한, 용어는 이에 한하지 않는다.
상기 변경물질 계산단계(S40)는, 상기 연관관계가 설정된 단계 이후 단계에 대해, 변경된 중간물질의 재계산 및 신규 종료물질의 계산이 수행되는 단계이다.
연관을 짓고 나면, 다른 패스웨이에서 중간물질들이 달라지게 되므로, 도 4와 같이, 달라지게 되는 화학물질을 모두 재계산하여, 새로운 최종산물을 계산하는 작업을 수행한다. 여기서 계산이란, 주어진 환경조건, 즉 온도, 압력, pH 등의 하에서 고려하여, 패스웨이 내의 반응전 물질과 효소와 반응후 물질 사이의 화학반응을 예측, 시뮬레이션, 판정, 추적, 출력하는 등의 동작을 대표하는 개념이며, 반응결과를 객관적으로 내는 한, 용어는 이에 한하지 않는다.
생화학 합성과정 재계산의 예는 도 5와 같다.
예컨대, Monooxygenase 효소 (Cytochrome P450)가 작용하는 과정이라면, 시작물질(substrate)에 새로운 산소원자(O)가 이동하여, 최종적으로 OH기를 가지게 되는 결과를 얻게 된다.
따라서 도 6의 예제처럼, coumarin 물질에 OH기가 추가된 최종산물을 예측해낼 수 있다.
이 방법을 통해서, 새로운 물질이 기존에 알려진 패스웨이에 적용되어, 이로부터 얻어질 수 있는 물질을 계산(추적 및 예측)하는 작업을 수행할 수 있다.
이 작업을 위해서는, 각 효소의 특성을 기록한 데이터베이스, 예컨대 InfoBoss Pathway Database를 참조하여 수행할 수 있다.
<예시>
도 1을 참조하면, 입력 패스웨이 A-B-C-D-E-F(각 단계 효소 유전자 a, b, c, d, e)가 입력모듈(10)에 입력되었고, 입력 패스웨이 상의 각 물질, 예컨대 물질 C에 대해 아날로그를 조사하여, 아날로그 C'을 찾아낸다. 그리고 아날로그 C'을 물질로서 포함하는 다른 패스웨이 C'-G-H(각 단계 효소 유전자 c', g)가 검색된다. 그 후, 두 패스웨이 A-B-C-D-E-F(각 단계 효소 유전자 a, b, c, d, e)와 C'-G-H(각 단계 효소 유전자 c', g)가 서로 연관된다. 그리고 연관된 단계, 즉 아날로그 C'을 가지는 단계 이후의 변화된 중간물질 및 종료물질 등 변화물질들이 계산된다. 효소의 특성 등을 저장한 데이터베이스를 활용하여 변화물질들이 모두 계산되면, 입력 패스웨이에 대해 물질 면에서 확장된 확장 패스웨이 A-B-C'-G-H(각 단계 효소 유전자 a, b, c', g)가 생성된다.
<효과>
상기 확장 패스웨이는, 주어진 입력 패스웨이와 다른 패스웨이이고, 입력 패스웨이 상의 각 단계의 물질에 대해 아날로그에 의한 대체를 하고, 그 대체된 단계 이후에 대해 다른 패스웨이 중 그 아날로그를 가지는 패스웨이와 연관을 형성한 후, 그 대체된 단계 이후의 중간물질과 종료물질 등 변화물질을 계산하여 생성된 패스웨이이다. 따라서, 패스웨이 측면에서 새로운 패스웨이이다.
즉, 이러한 확장 패스웨이는, 물질의 아날로그에 의해 물질의 종류를 확장한 것이고, 또한, 그로 인한 중간물질과 종료물질, 즉 2차 대사산물이 확장된 것이며, 식물 샘플로부터 찾아낼 수 있는 패스웨이를 더 다양하게 추론할 수 있게 된다. 이로써, 최종적으로 새로운 종류의 패스웨이를 찾아낼 수 있을 뿐 아니라, 최종 2차 대사산물이 생성되는 과정에 대한 구체적인 정보를 동시에 제공해 줄 수 있게 된다.
이와 같이 함으로써, 주어진 입력 패스웨이들의 시작물질과 종료물질 그 자체로서는 결합성이 제한되고, 또한 최종산물, 즉 종료물질인 2차 대사산물도 그 종류에 한계가 있게 된다 하더라도, 패스웨이 상의 물질들의 아날로그까지 고려하여 패스웨이간 결합성이 확장되는 효과가 있다.
<패스웨이 간 물질 차이도 연산>
입력 패스웨이와 확장 패스웨이는, 그 패스웨이 상의 각 단계의 물질에 있어서 차이가 있을 수밖에 없다. 그런데, 각 단계의 대응되는 물질마다 얼마나 많은 차이가 발생하고 있는지에 대한 정량적 지표가 필요한 경우가 있다. 새로운 확장 패스웨이에 의해 생성될 물질들이, 그에 대응되는 원래의 입력 패스웨이에 의해 생성될 물질들과 유사할수록, 그 패스웨이의 실재성이 높아지기 때문이다. 이러한 정량적 지표를 물질 차이도라 한다. 이러한 물질 차이도는, 그 자체로서도 확장 패스웨이에 대한 평가지표가 될 수 있지만, 후술하는 바와 같이, 확장 패스웨이의 패스웨이 실재성 스코어의 연산에도 이용될 수 있다.
상기 패스웨이 간 물질 차이도를 알기 위해, 본 발명의 방법은, 상기 입력 패스웨이 내의 각 단계의 물질과, 이에 대응하는 상기 확장 패스웨이 내의 각 대응 단계의 물질 사이의 물질 차이도가 산출되는 물질 차이도 산출단계(S50)가 더 포함되어 이루어짐이 바람직하다.
한편, 상기 물질 차이도는, (1 - 물질 유사도)로 정의되고, 상기 물질 유사도는, 물질의 유사성을 수치화하여 나타낸 0 내지 1의 값임이 바람직하다.
일반적으로, 물질 차이도는, 여러가지 방식으로 정의될 수 있겠지만, 기본적으로는 일반적으로 용이하게 착안할 수 있는 물질 유사도를 이용하는 것이 바람직하다. 환언하면, 물질 차이도는 물질 유사도에 대한 반대개념으로서 고려될 수 있다. 즉, 본 작업은, 문헌조사를 통해 얻어진, 화학물질의 유사성(예, 아날로그 상에서 기존 물질과 확장 가능한 물질 사이의 분자 개수 차이, 거울상 이성질체 여부 등)을 수치화하여, 0부터 1 사이의 값으로 환산된 값(화학물질간의 물질 유사도)을 활용할 수 있다. 이 물질 유사도 값을 바탕으로, 시작물질, 중간물질, 종료물질이 변경되었을 때, 각 물질마다 가지고 있는 화학물질간의 물질 유사도로부터 화학물질간의 물질 차이도를 (1 - 화학물질간의 물질 유사도)로 구할 수 있다.
예컨대, 도 1의 예시에 있어서, 물질 C가 아날로그 C'로 연관된 경우에, 물질 C와 C' 사이의 물질 차이도가 0.2, 물질 D와 G 사이의 물질 차이도가 0.4, 물질 E와 H 사이의 물질 차이도가 0.7, 그리고 물질 F는 대응되는 물질이 없으므로 물질 차이도가 1이라고 할 때, 이 입력 패스웨이와 확장 패스웨이의 물질들 사이의 물질 차이도는 0.2 * 0.4 * 0.7 * 1 = 0.056이 된다.
<입력 패스웨이의 실재성 스코어>
한편, 입력 패스웨이는, 실제로 존재하는 패스웨이일 수도 있지만, DNA 실험에서 발생된 조각 패스웨이일 수도 있도, 2 이상의 패스웨이의 결합에 의해 생성된 이론상의 재구성 패스웨이일 수도 있다. 따라서, 입력 패스웨이 자체의 실재성 정도에 따라서, 이 입력 패스웨이를 바탕으로 파생된 확장 패스웨이의 실재성이 좌우된다. 따라서, 입력 패스웨이의 실재성 스코어를 계산할 필요가 있다.
상기 입력 패스웨이의 실재성 스코어는, 상기 입력 패스웨이의 각 단계의 효소 유전자의 적합도 스코어의 연산에 따라 산출됨이 바람직하다. 즉, 실제 존재하는 효소 유전자인 경우에는 높은 스코어를, 실제 존재하지 않을 가능성이 있는 효소 유전자인 경우에는, 그 존재하지 않을 가능성에 따른 스코어를 부여할 수 있다.
이를 위해, 상기 입력 패스웨이의 각 단계마다 매핑된 효소가 다수인 경우에, 효소들의 적합도 스코어 중의 최대값이 선정되고, 상기 입력 패스웨이의 모든 단계에 대해 선정된 적합도 스코어의 합계가 산출되고, 상기 입력 패스웨이의 단계수로 나눈 평균값에 의해 상기 실재성 스코어가 연산되도록 이루어짐이 바람직하다.
예컨대, 도 1의 예시에 있어서, 입력 패스웨이의 각 효소 유전자의 적합도 스코어는 a: 0.7, b: 3.4, c: 2.9, d: 3.9, e: 0.1이라 할 때, 이 입력 패스웨이의 실재성 스코어는 (0.7 + 3.4 + 2.9 + 3.9 + 0.1) / 5 = 2.2가 될 수 있다.
<확장 패스웨이의 실재성 스코어>
다음 단계로, '입력 패스웨이 정보'와 '예측된 입력 패스웨이 실재성 스코어'로부터 '확장 패스웨이 실재성 스코어'를 계산하는 작업을 수행한다. 즉, 상기 입력 패스웨이의 실재성 스코어와 상기 입력 패스웨이 및 상기 확장 패스웨이 사이의 각 단계의 물질 차이도에 근거하여, 상기 확장 패스웨이의 패스웨이 실재성이 판단됨으로써, 상기 확장 패스웨이의 실재성 스코어가 산출되는 확장 패스웨이 실재성 스코어링 단계(S60)가 더 포함되어 이루어짐이 바람직하다.
구체적으로는, 예컨대, 물질 차이도를 구한 후, 전체 패스웨이에 있는 물질에 대한 모든 물질 차이도 값을 곱한 값을 도출할 수 있다. 이 값과 예측된 입력 패스웨이별 점수를 곱하여 '확장 패스웨이 실재성 스코어'를 계산할 수 있다.
이 과정을 거치면, 확인된 입력 패스웨이 및 아날로그에 의한 확장 패스웨이에 의해서 합성 가능성이 있는 새로운 화합물들의 정보를 모두 확보할 수 있게 된다. 또한, 이 가능성을 가지는 물질은 다양한 종류가 될 수 있으므로, 얻어진 물질들을 추가로 점검하는 작업이 필요할 것으로 예상된다. 예를 들면, 최종산물이 실제로 식물에서 확인된 적이 있는 물질인지 점검을 하면, 예측된 2차 대사산물이 실제로 존재하는지에 대한 가능성을 타진해 볼 수 있다. 물론 이 방법은, 기존에 알려지지 않은 새로운 2차 대사산물은 확인이 안되는 단점이 있다.
최종적으로는, 예측된 2차 대사산물을 HPLC, GC 등의 방법으로 확인하는 것이 가장 확실한 방법이 될 것으로 생각된다.
예컨대, 도 1의 예시에 있어서, 입력 패스웨이와 확장 패스웨이 물질간 물질 차이도가 0.056이고, 입력 패스웨이의 실재성 스코어가 2.2이므로, 확장 패스웨이의 실재성 스코어는 2.2 * 0.056 = 0.1232가 된다.
<고득점 확장 패스웨이 필터링>
한편, 확장 패스웨이는, 입력된 입력 패스웨이를 각 단계 물질마다 아날로그에 근거하여 확장한 것이므로, 하나의 입력 패스웨이에 대해서도 다수의 확장 패스웨이가 생성될 수 있고, 그 실제 존재가능성에 있어서도 서로 고저의 차이가 있을 수 있다. 따라서, 실재성이 높은 확장 패스웨이만 추출하여 후속 단계를 진행할 수 있도록 실재성에 근거하는 필터링이 수행될 필요가 있다.
따라서, 상기 확장 패스웨이가 실재 존재할 확률을 나타내는 확장 패스웨이의 실재성 스코어에 의해 상기 확장 패스웨이가 실재성 필터링되어, 기준치보다 높은 고득점의 확장 패스웨이가 추출되는 고득점 확장 패스웨이 추출단계가 더 포함되어 이루어짐이 바람직하다.
<2차 대사산물 실재확률 산출>
그리고, 패스웨이의 종료물질, 즉 최종물질은 2차 대사산물이고, 이 2차 대사산물에 활용성이 많으므로, 많은 관심의 대상이 된다. 그런데, 확장 패스웨이에 의해 생성되는 2차 대사산물이, 반드시 실제로 생성가능하다고 확신할 수는 없다. 확장 패스웨이 상의 각 단계의 물질에 따라서는, 종료물질인 2차 대사산물이 실제로는 생성되지 못할 수도 있기 때문이다. 이런 이유로, 2차 대사산물이 실제로 생성될 수 있을 것인지의 여부를 나타내는 확률을 알아낼 필요가 있다.
따라서, 도 7과 같이, 상기 확장 패스웨이 내의 각 단계의 물질에 대해 물질별 가중치가 부여되고 연산됨으로써, 상기 확장 패스웨이에 의한 종료물질인 2차 대사산물의 실제 존재확률이 산출되는 2차 대사산물 실재확률 산출단계가 더 포함되어 이루어짐이 바람직하다.
본 과정은, 기존에 알려진 '기지 패스웨이의 2차 대사산물' 정보와 확장된 '확장 패스웨이 정보'를 기반으로 하여, 확장 패스웨이들의 최종 2차 대사산물 정보를 도출하는 작업을 의미한다. 추가적으로, 확장 패스웨이에서 얻어지게 될 중간물질 중에서 2차 대사산물로서의 가능성이 있는 물질들 정보도 같이 도출된다.
확장 패스웨이의 각 물질들에 대해 가중치를 부여한다. 예컨대, 확장 패스웨이의 최종산물(종료물질)에는 1점을 부여하고, 중간산물(중간물질)의 경우에는 0.3점을 부여하여, 각 물질이 2차 대사산물(종료물질)로서 만들어질 수 있는 확률을 계산한다. 참고로, 중간산물(중간물질)의 경우는, 일반적으로 다음 화학반응으로 바로 넘어가는 경우가 많으므로, 식물의 2차 대사산물로서 추출될 수 있는 가능성은 낮으므로 0.3점을 할당한 것이지만, 구체적인 수치는 이에 한하지 않는다.
다만, 예컨대, 중간산물(중간물질)중에서 기존에 알려진 기지의 2차 대사산물의 경우는, 0.6점을 부여해도 좋다. 패스웨이를 통합하는 과정에서 알려진 기지의 2차 대사산물이 중간산물로 처리되는 경우도 있을 수 있기 때문이다.
추가적으로, 확장 패스웨이에서 중간산물(중간물질)이 겹치는 경우도 발생할 수 있는데, 이런 경우에는 중간산물(중간물질)의 확률에 반복된 횟수만큼 확률을 누적하여 준다. 예컨대, 2개의 패스웨이에서 관여하는 중간산물(중간물질)은 0.3 + 0.3 = 0.6점을 할당할 수 있다.
최종적으로, 각 물질의 확률이 1을 넘는 경우에는 1로 보정하여, 최종 확률은 0에서 1의 값을 가지도록 한다.
예컨대, 도 1의 예시에 있어서, 확장 패스웨이 A-B-C'-G-H의 물질별 가중치가 B: 0.3, C': 0.3, G: 0.6, H: 1인 경우에, 2차 대사산물인 H의 실제 생성확률은 0.3 * 0.3 * 0.6 * 1 = 0.054로 예측된다.
이렇게 얻어진 물질들 중 확률이 높은 물질부터 실제 물질의 존재유무를 확인하는 대상으로 지정하게 되면, 특정 식물의 유전체에서 얻어진 데이터를 바탕으로 가능성 있는 2차 대사산물을 우선적으로 확보할 수 있게 된다.
<장치>
한편, 본 발명의 일실시예에 따른 생화학 패스웨이 확장장치는, 상기 설명된 본 발명의 방법과 실질적으로 대응되며, 상기 방법의 각 단계가 하드웨어 모듈로 형성되는 하드와이어링의 경우를 포함한다. 본 발명의 장치는, 입력모듈(10)과, 아날로그 조사모듈(20)과, 아날로그 연관모듈(30)과, 변경물질 계산모듈(40)이 포함되어 이루어짐을 특징으로 한다.
상기 입력모듈(10)은, 시작물질, 중간물질 및 종료물질을 포함하는 입력 패스웨이가 입력되도록 하는 모듈이다.
상기 아날로그 조사모듈(20)은, 상기 입력 패스웨이 상의 각 단계의 물질에 대해 유사 기능 다른 구조의 아날로그가 조사되도록 하는 모듈이다.
상기 아날로그 연관모듈(30)은, 상기 아날로그가 포함된 다른 패스웨이에 대해, 상기 아날로그끼리의 연관관계가 설정되도록 하는 모듈이다.
상기 변경물질 계산모듈(40)은, 상기 연관관계가 설정된 단계 이후 단계에 대해, 변경된 중간물질의 재계산 및 신규 종료물질의 계산이 수행되도록 하는 모듈이다.
<프로그램>
한편, 본 발명의 생화학 패스웨이 재구성용 프로그램은, 정보처리기기에 상기된 방법의 각 단계를 실행시키기 위한 프로그램을 기록한, 정보처리기기로 읽을 수 있는 저장매체에 기록된 프로그램으로 구현될 수 있다.
이상 본 발명의 바람직한 실시예에 대해 설명했지만, 본 발명은, 상기 개시되는 실시예들에 한정되는 것이 아니라, 특허청구범위와 발명의 상세한 설명 및 첨부 도면의 범위 안에서 서로 다른 다양한 형태로 변형하여 구현 실시될 수 있고, 균등한 타 실시예가 가능하며, 이 또한 본 발명의 범위에 속하는 것은 당해 분야에서 통상적 지식을 가진 자에게 당연하며, 단지 실시예들은, 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은, 청구항의 범주에 의해 정의될 뿐이다.
생화학 패스웨이 확장의 방법 및 장치, 프로그램의 산업에 이용될 수 있다.
[부호의 설명]
10: 입력모듈
20: 아날로그 조사모듈
30: 아날로그 연관모듈
40: 변경물질 계산모듈
50: 물질 차이도 연산모듈
60: 패스웨이 실재성 스코어링 모듈
70: 실재성 필터링 모듈
80: 2차 대사산물 확률예측 모듈

Claims (9)

  1. 시작물질, 중간물질 및 종료물질을 포함하는 입력 패스웨이가 입력되는 입력단계와,
    상기 입력 패스웨이 상의 각 단계의 물질에 대해 유사 기능 다른 구조의 아날로그가 조사되는 아날로그 조사단계와,
    상기 아날로그가 포함된 다른 패스웨이에 대해, 상기 아날로그끼리의 연관관계가 설정되는 아날로그 연관단계와,
    상기 연관관계가 설정된 단계 이후 단계에 대해, 변경된 중간물질의 재계산 및 신규 종료물질의 계산이 수행되는 변경물질 계산단계
    가 포함되어 이루어짐을 특징으로 하는 생화학 패스웨이 확장방법.
  2. 청구항 1에 있어서,
    상기 변경물질 계산단계의 계산에 의해 확장 패스웨이가 생성되고,
    상기 확장 패스웨이가 실재 존재할 확률을 나타내는 확장 패스웨이의 실재성 스코어에 의해 상기 확장 패스웨이가 실재성 필터링되어, 기준치보다 높은 고득점의 확장 패스웨이가 추출되는 고득점 확장 패스웨이 추출단계
    가 더 포함되어 이루어짐을 특징으로 하는 생화학 패스웨이 확장방법.
  3. 청구항 1 또는 청구항 2에 있어서,
    상기 변경물질 계산단계의 계산에 의해 확장 패스웨이가 생성되고,
    상기 확장 패스웨이 내의 각 단계의 물질에 대해 물질별 가중치가 부여되고 연산됨으로써, 상기 확장 패스웨이에 의한 종료물질인 2차 대사산물의 실제 존재확률이 산출되는 2차 대사산물 실재확률 산출단계
    가 더 포함되어 이루어짐을 특징으로 하는 생화학 패스웨이 확장방법.
  4. 청구항 1 또는 청구항 2에 있어서,
    상기 변경물질 계산단계의 계산에 의해 확장 패스웨이가 생성되고,
    상기 입력 패스웨이 내의 각 단계의 물질과, 이에 대응하는 상기 확장 패스웨이 내의 각 대응 단계의 물질 사이의 물질 차이도가 산출되는 물질 차이도 산출단계가 더 포함되어 이루어지고,
    상기 물질 차이도는, (1 - 물질 유사도)로 정의되고,
    상기 물질 유사도는, 물질의 유사성을 수치화하여 나타낸 0 내지 1의 값임
    을 특징으로 하는 생화학 패스웨이 확장방법.
  5. 청구항 1 또는 청구항 2에 있어서,
    상기 변경물질 계산단계의 계산에 의해 확장 패스웨이가 생성되고,
    상기 입력 패스웨이의 실재성 스코어와 상기 입력 패스웨이 및 상기 확장 패스웨이 사이의 각 단계의 물질 차이도에 근거하여, 상기 확장 패스웨이의 패스웨이 실재성이 판단됨으로써, 상기 확장 패스웨이의 실재성 스코어가 산출되는 확장 패스웨이 실재성 스코어링 단계
    가 더 포함되어 이루어짐을 특징으로 하는 생화학 패스웨이 확장방법.
  6. 청구항 5에 있어서,
    상기 입력 패스웨이의 실재성 스코어는,
    상기 입력 패스웨이의 각 단계의 효소 유전자의 적합도 스코어의 연산에 따라 산출됨
    을 특징으로 하는 생화학 패스웨이 확장방법.
  7. 청구항 6에 있어서,
    상기 입력 패스웨이의 각 단계마다 매핑된 효소가 다수인 경우에, 효소들의 적합도 스코어 중의 최대값이 선정되고, 상기 입력 패스웨이의 모든 단계에 대해 선정된 적합도 스코어의 합계가 산출되고, 상기 입력 패스웨이의 단계수로 나눈 평균값에 의해 상기 실재성 스코어가 연산되도록 이루어짐
    을 특징으로 하는 생화학 패스웨이 확장방법.
  8. 시작물질, 중간물질 및 종료물질을 포함하는 입력 패스웨이가 입력되도록 하는 입력모듈과,
    상기 입력 패스웨이 상의 각 단계의 물질에 대해 유사 기능 다른 구조의 아날로그가 조사되도록 하는 아날로그 조사모듈과,
    상기 아날로그가 포함된 다른 패스웨이에 대해, 상기 아날로그끼리의 연관관계가 설정되도록 하는 아날로그 연관모듈과,
    상기 연관관계가 설정된 단계 이후 단계에 대해, 변경된 중간물질의 재계산 및 신규 종료물질의 계산이 수행되도록 하는 변경물질 계산모듈
    이 포함되어 이루어짐을 특징으로 하는 생화학 패스웨이 확장장치.
  9. 생화학 패스웨이 확장용 프로그램으로서,
    정보처리기기에 청구항 1 또는 청구항 2에 기재된 방법의 각 단계를 실행시키기 위한 프로그램을 기록한, 정보처리기기로 읽을 수 있는 저장매체에 기록된 프로그램.
PCT/KR2020/017475 2020-03-12 2020-12-02 생화학 패스웨이 확장방법, 장치 및 프로그램 WO2021182718A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
EP20924030.8A EP4134961A4 (en) 2020-03-12 2020-12-02 METHOD, DEVICE AND BIOCHEMICAL ROUTE EXTENSION PROGRAM

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0030835 2020-03-12
KR1020200030835A KR102219140B1 (ko) 2020-03-12 2020-03-12 생화학 패스웨이 확장방법, 장치 및 프로그램

Publications (1)

Publication Number Publication Date
WO2021182718A1 true WO2021182718A1 (ko) 2021-09-16

Family

ID=74689128

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/017475 WO2021182718A1 (ko) 2020-03-12 2020-12-02 생화학 패스웨이 확장방법, 장치 및 프로그램

Country Status (3)

Country Link
EP (1) EP4134961A4 (ko)
KR (1) KR102219140B1 (ko)
WO (1) WO2021182718A1 (ko)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060098657A (ko) * 2005-03-03 2006-09-19 한국과학기술연구원 생화학 경로의 모델링과 시뮬레이션 방법 및 시스템
KR20160084275A (ko) * 2015-01-05 2016-07-13 삼성전자주식회사 생화학적 합성의 경로에 대한 평가 방법 및 장치
KR20170049346A (ko) * 2015-10-28 2017-05-10 삼성전자주식회사 화학적 경로의 인실리코 예측을 위한 방법 및 장치
KR20170095711A (ko) * 2016-02-15 2017-08-23 삼성전자주식회사 타겟 화합물의 경로를 선택하는 방법 및 디바이스

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101568399B1 (ko) 2014-12-05 2015-11-12 연세대학교 산학협력단 애기장대 유전자네트워크를 이용한 식물의 복합 형질 관련 유전자 예측 시스템

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060098657A (ko) * 2005-03-03 2006-09-19 한국과학기술연구원 생화학 경로의 모델링과 시뮬레이션 방법 및 시스템
KR20160084275A (ko) * 2015-01-05 2016-07-13 삼성전자주식회사 생화학적 합성의 경로에 대한 평가 방법 및 장치
KR20170049346A (ko) * 2015-10-28 2017-05-10 삼성전자주식회사 화학적 경로의 인실리코 예측을 위한 방법 및 장치
KR20170095711A (ko) * 2016-02-15 2017-08-23 삼성전자주식회사 타겟 화합물의 경로를 선택하는 방법 및 디바이스

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DENOEUD, F.CARRETERO-PAULET, L.DEREEPER, A.DROC, G.GUYOT, R.PIETRELLA, M.ZHENG, C.ALBERTI, A.ANTHONY, F.APREA, G: "The coffee genome provides insight into the convergent evolution of caffeine biosynthesis", SCIENCE, vol. 345, no. 6201, 2014, pages 1181 - 1184, XP055706444, DOI: 10.1126/science.1255274
HOSSAIN GAZI SAKIR, NADARAJAN SARAVANAN PRABHU, ZHANG LEI, NG TEE-KHEANG, FOO JEE LOON, LING HUA, CHOI WON JAE, CHANG MATTHEW WOOK: "Rewriting the Metabolic Blueprint: Advances in Pathway Diversification in Microorganisms", FRONTIERS IN MICROBIOLOGY, vol. 9, 155, 12 February 2018 (2018-02-12), pages 1 - 10, XP055845774, DOI: 10.3389/fmicb.2018.00155 *
See also references of EP4134961A4

Also Published As

Publication number Publication date
EP4134961A1 (en) 2023-02-15
EP4134961A4 (en) 2024-04-10
KR102219140B1 (ko) 2021-02-24

Similar Documents

Publication Publication Date Title
Tahir et al. iDNA6mA (5-step rule): Identification of DNA N6-methyladenine sites in the rice genome by intelligent computational model via Chou's 5-step rule
Calviello et al. Beyond read-counts: Ribo-seq data analysis to understand the functions of the transcriptome
Siguier et al. Exploring bacterial insertion sequences with ISfinder: objectives, uses, and future developments
Jewett et al. Fungal metabolite analysis in genomics and phenomics
US20140129201A1 (en) Validation of genetic tests
Costessi et al. Novel sequencing technologies to support industrial biotechnology
Yang et al. Genomic sequencing analysis reveals copy number variations and their associations with economically important traits in beef cattle
WO2021182718A1 (ko) 생화학 패스웨이 확장방법, 장치 및 프로그램
Solovyev et al. Automatic annotation of bacterial community sequences and application to infections diagnostic
Ludwig et al. The use of rRNA gene sequence data in the classification and identification of prokaryotes
CN113241119A (zh) 一种基于多种DNA序列编码方式和深度学习的6mA甲基化预测框架
Nishi et al. GeneLook: a novel ab initio gene identification system suitable for automated annotation of prokaryotic sequences
Deeds et al. Proteomic traces of speciation
WO2014119914A1 (ko) 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
KR102288439B1 (ko) 생화학 패스웨이 재구성방법, 장치 및 프로그램
Yang et al. Genome-Wide Variation Analysis of Yersinia pestis
KR100458609B1 (ko) 단백질간 상호작용 예측 시스템 및 그 방법
Sahu et al. Role of bioinformatics in genome analysis
Lynn et al. An automated annotation tool for genomic DNA sequences using GeneScan and BLAST
Purkait et al. Pathogen-omics: challenges and prospects in research and clinical settings
Talukdar et al. A new approach to gene prediction, based on the self-organising map
JP2021061829A (ja) ゲノムアセンブリ方法、ゲノムアセンブリプログラム、及び、ゲノムアセンブリ装置
Chou et al. Performing mass spectrometry-based proteomics in organisms with minimal reference protein databases
Dougherty DNA Sequencing and Genomics
Sirangelo et al. Scholars Journal of Agriculture and Veterinary Sciences

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20924030

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020924030

Country of ref document: EP

Effective date: 20221012