KR102288744B1 - 피분석물의 크로마토그래피 분석 시 머무름 시간 예측 장치 및 방법 - Google Patents

피분석물의 크로마토그래피 분석 시 머무름 시간 예측 장치 및 방법 Download PDF

Info

Publication number
KR102288744B1
KR102288744B1 KR1020200189497A KR20200189497A KR102288744B1 KR 102288744 B1 KR102288744 B1 KR 102288744B1 KR 1020200189497 A KR1020200189497 A KR 1020200189497A KR 20200189497 A KR20200189497 A KR 20200189497A KR 102288744 B1 KR102288744 B1 KR 102288744B1
Authority
KR
South Korea
Prior art keywords
retention time
target
target polymer
ert
indexed
Prior art date
Application number
KR1020200189497A
Other languages
English (en)
Inventor
송세준
김성수
신현석
Original Assignee
주식회사 베르티스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 베르티스 filed Critical 주식회사 베르티스
Priority to KR1020200189497A priority Critical patent/KR102288744B1/ko
Priority to PCT/KR2021/005369 priority patent/WO2022145590A1/ko
Priority to US18/270,528 priority patent/US20240053309A1/en
Application granted granted Critical
Publication of KR102288744B1 publication Critical patent/KR102288744B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8693Models, e.g. prediction of retention times, method development and validation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/62Detectors specially adapted therefor
    • G01N30/72Mass spectrometers
    • G01N30/7233Mass spectrometers interfaced to liquid or supercritical fluid chromatograph
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N2030/022Column chromatography characterised by the kind of separation mechanism
    • G01N2030/027Liquid chromatography
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/62Detectors specially adapted therefor
    • G01N30/72Mass spectrometers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/88Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Pathology (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

본 발명은 액체 크로마토그래피 질량 분석(Liquid Chromatograph-Mass Spectrometry; LC-MS)에 있어서 시료의 머무름 시간(retention time)을 예측하고 이를 통해 질량이 인접한 시료들의 신호를 정확하게 분리하여 정량 측정의 다중성(multiplexity)을 향상시키는 기술에 대한 것이다.

Description

피분석물의 크로마토그래피 분석 시 머무름 시간 예측 장치 및 방법 {Apparatus and method for predicting retention time in chromatographic analysis of an analyte}
본 발명은 액체 크로마토그래피 질량 분석(Liquid Chromatograph-Mass Spectrometry; LC-MS)에 있어서 시료의 머무름 시간(retention time)을 예측하고 이를 통해 질량이 인접한 시료들의 신호를 정확하게 분리하여 정량 측정의 다중성(multiplexity)을 향상시키는 기술에 대한 것이다.
액체 크로마토그래프 질량 분석(Liquid Chromatograph-Mass Spectrometry; LC-MS)은, 타겟 물질을 액체 상태에서 컬럼(column) 등에 통과시킴으로써 성분별로 분리하고, 각 성분들을 이온화한 후 질량 분석을 통해 질량 대 전하비가 상이한 물질들을 분리하는 기술로서, 단백질의 정량(identification) 등에 이용될 수 있다. LC-MS에서 질량 분석을 위한 이온화 과정이 탠덤(tandem) 방식으로 이루어지는 경우에는 LC-MS/MS로 지칭한다.
상기 LC-MS/MS 기법 중에는, 질량 대 전하비를 알고 있는 라벨(label) 물질을 타겟 물질에 미리 결합시키고, 질량 분석 결과 얻어진 스펙트럼에서 라벨 물질의 스펙트럼을 특정함으로써 라벨로 표시된 타겟 물질의 정량을 수행하는 방법이 있다. 이때, 라벨로 사용되는 물질이 이온화된 정도에 따라 상기 정량 기법은 전구체(precursor ion)에 해당하는 모분자 기반의 라벨을 이용한(MS1-based) 정량 기법 및 모분자로부터 더 세분화된 조각 분자(product ion) 기반의 라벨을 이용한(MS2-based) 정량 기법으로 구분될 수 있다.
하지만 상기 액체크로마토그래피(LC) 단계에서 분석물(analyte)의 머무름 시간(retention time)은 기계의 종류, 컬럼(column) 규격, 길이, 실험실 온도, 습도 등 매우 다양한 조건에 따라 머무름 시간이 크게 차이가 난다.
또한, 생체시료(혈액, 조직 등) 분석 시 절편화된 특정 펩타이드(peptide)의 질량전하비(m/z)를 통해 질량분석(LC-MS/MS)을 하게 되는데, 이 때 타겟 펩타이드(target peptide) 외 유사한 질량전하비(m/z)를 갖는 수많은 펩타이드들이 함께 크로마토그래피 상에 검출하게 되어, 선택적인 m/z 값을 입력하여도 크로마토그램 상 다수의 peak가 보여, 특정한 머무름 시간에 위치한 target peptide의 peak가 무엇인지 구분할 수 없게 된다.
따라서 상기 펩타이드의 머무름 시간을 알기 위해서는 특정 분자에 동위원소 치환된 표준 펩타이드(standard heavy peptide)를 사용하나, 동위원소 치환된 표준 펩타이드를 사용하기에는 그 비용이 매우 많이 들어 실용성이 떨어지므로 본 발명을 통해 분석물의 물리화학적 정보만으로 정확한 머무름 시간을 예측할 수 있게 한 것이다.
본 발명의 일 목적은 피분석 중합체, 바람직하게는 피분석 펩타이드의 머무름 시간을 계산하는 단계를 포함하는, 머무름 시간을 예측하는 방법에 관한 것이다.
본 발명의 다른 일 목적은 피분석 중합체, 바람직하게는 피분석 펩타이드의 머무름 시간을 계산하는 장치를 포함하는, 머무름 시간을 예측하는 장치에 관한 것이다.
그러나 본 발명이 이루고자 하는 기술적 과제는 이상에서 언급한 과제에 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당 업계에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
이하, 본원에 기재된 다양한 구현예가 도면을 참조로 기재된다. 하기 설명에서, 본 발명의 완전한 이해를 위해서, 다양한 특이적 상세사항, 예컨대, 특이적 형태, 조성물 및 공정 등이 기재되어 있다. 그러나, 특정의 구현예는 이들 특이적 상세 사항 중 하나 이상 없이, 또는 다른 공지된 방법 및 형태와 함께 실행될 수 있다. 다른 예에서, 공지된 공정 및 제조 기술은 본 발명을 불필요하게 모호하게 하지 않게 하기 위해서, 특정의 상세사항으로 기재되지 않는다. "한 가지 구현예" 또는 "구현예"에 대한 본 명세서 전체를 통한 참조는 구현예와 결부되어 기재된 특별한 특징, 형태, 조성 또는 특성이 본 발명의 하나 이상의 구현예에 포함됨을 의미한다. 따라서, 본 명세서 전체에 걸친 다양한 위치에서 표현된 "한 가지 구현예에서" 또는 "구현예"의 상황은 반드시 본 발명의 동일한 구현예를 나타내지는 않는다. 추가로, 특별한 특징, 형태, 조성, 또는 특성은 하나 이상의 구현예에서 어떠한 적합한 방법으로 조합될 수 있다. 본 발명 내 특별한 정의가 없으면 본 명세서에 사용된 모든 과학적 및 기술적인 용어는 본 발명이 속하는 기술분야에서 당 업자에 의하여 통상적으로 이해되는 것과 동일한 의미를 가진다.
본 발명의 일 구현 예에 따르면, 머무름 시간을 예측하는 방법에 관한 것이다.
본 발명에서 상기 "머무름 시간(retention time; RT)"은 크로마토그래피에서 시료를 넣을 때부터 해당 성분의 봉우리(chromatogram peak)가 나타나기까지의 시간을 의미한다.
본 발명의 방법은, 먼저 제1 타겟 중합체(분석하고자 하는 시료) 및 각각 상이한 머무름 시간을 가진 적어도 2개의 제1 참고 물질을 준비하는 단계를 포함할 수 있다.
본 발명에서, 상기 제1 타겟 중합체는 머무름 시간을 예측하고자 하는 타겟 중합체의 정보에 근거하여 머무름 시간을 예측하기 위한 모델을 구축하기 위한 것으로, 그 종류로는 유기 분자, 표적 지질, 표적 탄수화물, 표적 DNA 단편, 표적 RNA 단편 및 펩타이드에서 선택된 어느 하나 이상일 수 있고, 바람직하게는 상기 중합체는 펩타이드일 수 있고, 상기 펩타이드를 구성하는 물질은 아미노산일 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서 상기 제1 타겟 중합체는 적어도 1개 포함될 수 있으나, 추후 학습을 위해서 2개 이상 포함될 수 있고, 바람직하게는 2 내지 10개 포함될 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서, 상기 제1 참고 물질은 중합체의 형태일 수 있으나, 크로마토그래피에서 머무름 시간이 측정 가능한 것이거나, 머무름 시간이 이미 알려져 표준화할 수 있는 것이라면 제한없이 포함될 수 있다.
본 발명에서, 상기 제1 참고 물질은 유기 분자, 표적 지질, 표적 탄수화물, 표적 DNA 단편, 표적 RNA 단편 및 펩타이드에서 선택된 어느 하나 이상일 수 있고, 바람직하게는 상기 제1 참고 물질은 펩타이드 일 수 있으나, 이에 제한되지는 않는다.
본 발명의 목적 상 상기 제1 참고 물질은 적어도 2개가 포함될 수 있고, 바람직하게는 3 내지 20개가 포함될 수 있으나, 이에 제한되는 것은 아니다.
본 발명의 방법은, 제1 타겟 중합체 및 제1 참고 물질의 머무름 시간을 측정하거나 측정된 결과를 수신하는 단계를 포함할 수 있다. 이하, 측정된 제1 타겟 중합체의 실제 머무름 시간은 'eRT1-t'(experienced RT)이라 하고, 측정된 제1 참고 물질의 실제 머무름 시간은 'eRT1-rp'이라 하되, 여기서 상기 p는 제1 참고 물질이 복수 개일 때 이에 따른 일련 번호일 수 있고, 예를 들면 'eRT1-r1', 'eRT1-r2', 'eRT1-r3' 등과 같이 나타낼 수 있다.
본 발명에서, 상기 제1 타겟 중합체 및 상기 제1 참고 물질의 머무름 시간은 제1 조건의 크로마토그래피에 의해 측정할 수 있다. 여기서, 상기 조건이라 함은 크로마토그래피 장치 또는 고정상, 이동상, 온도 또는 압력 등에 따르는 조건일 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서, 상기 제1 타겟 중합체 또는 상기 제1 참고 물질의 머무름 시간은 크로마토그램을 측정하여 얻어질 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서, 상기 제1 타겟 중합체 또는 상기 제1 참고 물질의 머무름 시간은 상기 제1 조건의 크로마토그래피에 질량분석법(MS) 또는 자외선 분석법(UV)을 더 추가하여 측정할 수 있으며, 예를 들면, HPLC-MS 또는 HPLC-UV에 의해 측정할 수 있으나, 이에 제한되는 것은 아니다.
본 발명의 방법은, 상기와 같이 측정된 제1 타겟 중합체의 실제 머무름 시간(eRT1-t)을 임의의 색인된 머무름 시간으로 변환시키는 단계를 포함할 수 있다. 이하, 제1 타겟 중합체의 임의의 색인된 머무름 시간은 'iRT1-t'이라 한다.
본 발명에서 상기 "색인된 머무름 시간(indexed retention time; iRT)"은, 크로마토그래피의 피분석 물질들에 대해 안정된 무차원 수로, 일반적으로는 사전에 결정된 피분석 물질들의 in silico 예측을 통하여 결정되며, 실제 머무름 시간을 예측하는 방법을 사용하는 경우 in silico 알고리즘의 정확성 부족, 크로마토그래피 시스템의 가변성으로 인한 재현성 부족의 제한점이 있으나, 상기 색인된 머무름 시간을 사용할 경우 크로마토그래피 실험이 수행될 때 마다 수치적으로 조정된 안정된 값을 도출할 수 있어 머무름 시간 예측 능력을 향상시킬 수 있다. 본 발명에서 상기 색인된 머무름 시간은 임의의 실수 일 수 있고, 그 값을 특별히 제한하지 않으나, 예를 들면, 0 내지 100의 실수일 수 있다.
본 발명에서, 상기 임의의 색인된 머무름 시간으로 변환하는 단계 시 상기 제1 참고 물질을 하나 이상의 세트를 포함하는 제1 세트로 분류하는 단계를 더 포함할 수 있고, 바람직하게는 상기 제1 세트는 복수 개의 세트를 포함하는 것이 머무름 시간의 예측 정확도를 높일 수 있다. 이하, 도출된 제1 세트는 'set-1(n)'이라 하되, 여기서 상기 n은 제1 세트 별 일련 번호일 수 있으며, 예를 들면, 'set-1(1)', 'set-1(2)', 'set-1(3)' 등과 같이 나타낼 수 있다.
본 발명에서, 상기 제1 세트에 포함되는 각 세트는 복수 개의 참고 물질 중 적어도 일부를 포함할 수 있으나, 바람직하게는 2개 이상의 참고 물질을 포함하는 것일 수 있고, 예를 들면 상기 제1 세트는 각 세트 별 2 내지 20개의 참고 물질을 포함하는 것일 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서, 상기 제1 타겟 중합체의 임의의 색인된 머무름 시간(iRT1-t)의 계산 시 각 세트 별 그에 포함되는 복수 개의 참고 물질의 임의의 색인된 머무름 시간을 선정하는 단계를 포함할 수 있다. 이하, 제1 참고 물질의 임의의 색인된 머무름 시간은 'iRT1-rp'라 하되, 여기서 상기 p는 제1 참고 물질의 수에 따른 일련 번호일 수 있고, 예를 들면 'iRT1-r1', 'iRT1-r2', 'iRT1-r3' 등과 같이 나타낼 수 있다.
본 발명에서, 상기 선정된 복수 개의 제1 참고 물질의 측정된 실제 머무름 시간(eRT1-rp)과 색인된 머무름 시간(iRT1-rp)으로부터 이들 사이의 관계식인 제1 관계식을 도출할 수 있다.
본 발명에서, 상기 제1 관계식은 선형 관계식일 수 있고, 바람직하게는 선형 회귀(linear regression), 서포트 벡터 머신(support vector machine; SVM), 랜덤 포레스트(random forest), 의사 결정 트리(decision tree) 또는 그라데이션 부스트 머신(gradient boost machine; GBM)에 의해 얻어질 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서, 상기 "선형 회귀(linear regression)"는 선형성이라는 기본 가정이 충족된 상태에서 독립변수와 종속변수의 관계를 설명하거나 예측하는 통계방법이다.
본 발명에서, 상기 "서포트 벡터 머신(support vector machine; SVM)"은 데이터의 분류와 회귀가 가능한 이진 선형 분류기법으로 직관적으로 데이터의 모습을 알 수 있는 기법이다.
본 발명에서, 상기 "랜덤 포레스트(random forest)" 앙상블 방법 중 하나로, 많은 의사결정나무에 무작위성을 넣어 입력 변수에 대하여 최대의 예측력을 갖는 하나의 데이터 마이닝 기법이다.
본 발명에서 상기 "의사 결정 트리(decision tree)" 의사 결정 규칙과 그 결과들을 트리 구조로 도식화한 의사 결정 지원 도구의 일종이다.
본 발명에서 상기 "그라데이션 부스트 머신(gradient boost machine; GBM)"은 회귀 및 분류 문제를 위한 기계 학습 기술로, 일반적으로 의사 결정 트리와 같은 약한 예측 함수의 앙상블 형태로 예측 함수를 생성하는 것이다.
본 발명의 일 예시에서, 상기 제1 관계식은 하기 식 1로 표시될 수 있다:
[식 1]
iRT = b1*(eRT1) + c1
상기 식 1에서,
eRT1은 제1 조건의 크로마토그래피에서 측정된 타겟 중합체의 측정된 실제 머무름 시간이고,
iRT는 색인된 머무름 시간이며,
상기 b1 및 c1은 각각 독립적으로 상기 제1 관계식의 상수이다.
본 발명에서, 상기와 같이 얻어진 제1 관계식에 상기 제1 타겟 중합체의 측정된 실제 머무름 시간(eRT1-t)을 대입하여 색인된 머무름 시간(iRT1-t)을 도출할 수 있다.
본 발명에서, 상기 제1 세트가 복수 개인 경우 각 세트 별로 제1 관계식을 얻을 수 있고, 각 세트 별 얻어진 제1 관계식에 제1 타겟 중합체의 측정된 실제 머무름 시간(eRT1-t)을 대입하여 색인된 머무름 시간(iRT1-t)을 도출할 수 있으며, 이때 각 세트 별로 얻어지는 상기 제1 타겟 중합체의 색인된 머무름 시간 값은 서로 동일하거나 상이할 수 있다. 이하, 상기 제1 세트에 있어서 각 세트 별 얻어진 제1 타겟 중합체의 색인된 머무름 시간은 'iRT1-t(n)'이라 하되, 여기서 상기 n은 제1 세트 별 일련 번호일 수 있으며, 예를 들면 'iRT1-t(1)', 'iRT1-t(2)', 'iRT1-t(3)' 등과 같이 나타낼 수 있다.
본 발명의 방법은, 인공 신경망을 통해 상기 제1 타겟 중합체에 대한 정보, 바람직하게는 서열 정보와 도출된 색인된 머무름 시간 사이의 상관 관계를 학습시켜 타겟 중합체의 모노머 서열 정보에 따른 색인된 머무름 시간을 예측하는 예측 모델을 생성하는 단계를 포함할 수 있다.
본 발명에서, 상기 "인공 신경망"은 입력을 받아 보내는 입력 레이어(input layer)와, 여러 개의 노드(node)로 이루어지고 각 노드에서 상기 입력으로부터 자극을 받아 그에 따라 반응하는 은닉 레이어(hidden layer)와, 상기 은닉 레이어로부터 들어온 노드들의 반응을 합하여 내보내는 출력 레이어(output layer)를 포함한다. 상기 인공 신경망은 데이터로부터 학습하기 때문에 특히 성공적이며, 즉, 프로그램은 큰 라벨링 되거나 약하게 라벨링된 훈련(training) 세트를 획득하고, 일부 훈련 페이즈(phase) 이후, 그 프로그램은 새로운 미지의 예들로 일반화할 수 있다. 상기 인공 신경망은 일반적으로, 판단에 이르게 되는 이유 및 방법(예를 들어, 특정 중합체의 모노머 서열이 특정 머무름 시간으로 계산되는 이유)에 대한 정보를 제공하지 않고, 분류 판단을 결정하는 지식 및 관계들은 다소 '암시적'이다.
본 발명의 목적 상, 상기 입력 레이어는 상기 제1 타겟 중합체에 대한 정보로, 바람직하게는 서열 정보이고, 상기 출력 레이어는 색인된 머무름 시간의 예측값일 수 있다. 상기 서열 정보는 상기 제1 타겟 중합체를 구성하는 모노머의 종류, 배열, 중합된 개수 및 물리적 특성일 수 있고, 상기 물리적 특성은 분자량, 구성원소 및 소수성(hydrophobicity)일 수 있으나, 이에 제한되지는 않는다.
본 발명에서, 상기 인공 신경망은 심층 신뢰 신경망(Deep Belief Network; DBN), 합성곱 신경망(Convolutional Neural Network; CNN), 및 순환 신경망(Recurrent Neural Network; RNN) 중 적어도 한 개 이상에 의해 생성되는 것일 수 있으나 이에 제한되지는 않는다.
본 발명에서, 상기 “심층 신뢰 신경망(Deep Belief Network; DBN)” 그래프 생성 모형의 일종으로, 잠재 변수(latent variable)의 다중 레이어를 적층하여 이루어진 것이며, 각 노드가 양방향으로 연결된 제한 볼츠만 머신(Restricted Boltzmann Machine; RBM)을 다중 레이어로 두어 학습하는 것이다.
본 발명의 목적 상, 상기 심층 신뢰 신경망에서 상기 잠재 변수는 상기 제1 타겟 중합체를 구성하는 모노머의 종류, 배열, 중합된 개수 및 물리적 특성일 수 있고, 상기 물리적 특성은 분자량, 구성원소 및 소수성(hydrophobicity)일 수 있으나, 이에 제한되지는 않는다.
본 발명에서, 상기 “합성곱 신경망(Convolutional Neural Network; CNN)”은 입력의 모든 영역을 연결하여 학습하는 다른 인공 신경망들과 달리, 입력 레이어의 파라미터를 추출하여 합성곱 레이어(Convolution Layer), 풀링 레이어(Pooling Layer)를 통하여 출력 레이어를 도출하는 것일 수 있다.
본 발명의 목적 상, 상기 합성곱 신경망에서 추출되는 상기 파라미터는 상기 제1 타겟 중합체를 구성하는 모노머의 종류, 배열, 중합된 개수 및 물리적 특성일 수 있고, 상기 물리적 특성은 분자량, 구성원소 및 소수성(hydrophobicity)일 수 있으나, 이에 제한되지는 않는다.
본 발명에서 상기 "순환 신경망(Recurrent Neural Network; RNN)"은 시계열 데이터나 텍스트 데이터와 같은 순차적인 데이터의 특성을 학습할 수 있는 것으로, 신경망 속 셀의 현재 출력 결과가 이전의 계산 결과에 영향을 받는 것이다. 상기 순환 신경망은 이전 계산 결과에 대한 메모리 정보를 가지고 있어 순차적인 데이터를 학습하는데 장점을 가지고 있다.
본 발명에서, 상기 순환 신경망은 은닉 레이어에 기억을 저장하고 있어, 이를 출력 레이어로 보낸다. 입력 레이어의 s번째 서열에서의 출력 레이어의 값(ys), 은닉 레이어의 값(hs)은 상기 s번째 서열에 해당하는 모노머의 값(xs)과 비선형함수를 이용하여 다음과 같이 표현될 수 있다. s번째 서열에서의 은닉 레이어 값(hs)은 s번째 서열에 해당하는 모노머의 값(xs)과 계수행렬(Wsh), s-1번째 서열에서의 은닉 레이어의 값(h(s-1))과 계수행렬(Whh)의 활성함수(비선형함수로서, 하이퍼볼릭탄젠트 또는 로지스틱 시그모이드 함수)를 통해 압축된다. 현재 상태인 s번째 서열에서 은닉 레이어의 값(hs)은 직전 시점 은닉 레이어의 값(h(s-1))을 받아 갱신되고, 현재 상태의 출력 레이어의 값(ys)은 현재 상태 은닉 레이어의 값(hs)을 전달받아 갱신된다. 이와 같이, 심층 신경망 알고리즘은 현재 시점의 입력 값과 이전 시점의 입력 값을 처리한 결과를 함께 고려하여 현재 시점의 출력 값을 계산한다. 모든 시점에서 순환 신경망 알고리즘은 파라미터(parameter)를 공유하여 그 과정에서 연속적인 신호의 정적인(stationary) 특징을 학습할 수 있다. 상기 데이터를 처리할 때 은닉 레이어(h)에 정보가 저장되기 때문에, 순환 신경망은 기억하는 능력을 가질 수 있다.
본 발명에서, 상기 순환 신경망은 장기 단기 기억 모델(long short-term memory models; LSTM) 및 회로형 순환 유닛(Gated Recurrent Units; GRU)에서 선택된 하나 이상을 포함하는 것일 수 있다. 상기 장기 단기 기억 모델 또는 회로형 순환 유닛은 일반적인 순환 신경망의 기울기 소실 문제를 해결할 수 있다. 상기 기울기 소실 문제는 정보의 입력 시점과 사용 시점이 멀리 떨어져 있을 때, 은닉 레이어의 손실(loss)의 기울기가 역전파되지 않으면서, 계산된 손실의 기울기가 0에 가까워진 결과 모델이 학습되지 않는 것이다.
본 발명에서, 상기 "장기 단기 기억 모델(long short-term memory models; LSTM)"은 각각의 LSTM 블록이 메모리처럼 동작하도록 구성하여 각 시점마다 모델이 어떤 정보를 저장하고 기억할지를 결정하는 것이고, 상기 장기 단기 기억 모델은 여러 개의 레이어로 구성되는 것일 수 있고, 상기 LSTM 블록의 구성, 배치 및 상기 손실이 LSTM 블록으로 반영되는 방식의 변경은 상기 예측 모델에 적절한 학습을 시키기 위하여 변경될 수 있다.
본 발명에서, 상기 "회로형 순환 유닛(Gated Recurrent Units; GRU)"은 상기 장기 단기 기억 모델 과 동일한 게이팅 메커니즘을 사용하지만, 파라이터를 줄여서 리셋 게이트와 업데이트 게이트로 구성되어 상기 리셋 게이트와 업데이트 게이트 간의 상호작용을 통해 학습하는 단위인 것일 수 있고, 상기 회로형 순환 유닛에서 각 GRU의 구성, 배치 및 상기 손실이 GRU로 반영되는 방식의 변경은 상기 예측 모델에 적절한 학습을 시키기 위하여 변경될 수 있다.
본 발명의 목적 상, 상기 순환 신경망에서 학습되어 나온 입력값의 특징정보는 완전히 연결된 네트워크(Full connected network; FCN)에 연결되어 예측하고자 하는 색인된 머무름 시간의 예측값(iRT predict)으로 나오도록 연결될 수 있다. 이렇게 연결된 상기 네트워크는 위에서 획득한 상기 제1 타겟 중합체의 모노머 서열과 색인된 머무름 시간과의 관계에 기반해서 학습될 수 있다. 여기서 상기 데이터 쌍 즉, 입력된 제1 타겟 중합체 서열과 색인된 머무름 시간의 예측값(iRT predict)과 앞서 변환된 상기 임의의 색인된 머무름 시간과의 관계에서 손실(loss)을 구하고, 상기 손실을 통해 상기 네트워크의 가중치를 갱신해가면서 학습을 할 수 있다.
본 발명에서, 상기 손실(loss)은 평균제곱오차(Mean Sqaure Error; MSE)를 사용할 수 있다. 상기 평균제곱오차가 최소화되는 손실에 따라 상기 네트워크의 가중치를 갱신하는 것일 수 있으나, 상기 색인된 머무름 시간과 같은 연속된 값을 추론할 때 사용하는 손실 산출 방법이라면 제한없이 사용할 수 있다.
본 발명에서, 상기 예측 모델은 상기 제1 타겟 중합체의 정보와 각 제1 세트 별 도출된 색인된 머무름 시간 사이의 상관 관계를 학습시켜 얻어진 것일 수 있고, 상기 학습을 통해 얻어진 예측 모델은 복수 개인 것이 머무름 시간의 예측 정확도를 높일 수 있어 바람직하다. 이하, 도출된 각 예측 모델은 'model(n)'이라 하되, 여기서 상기 n은 제1 세트 별 일련 번호로, model(n)은 iRT1-t(n)에 의해 학습된 모델일 수 있으며, 예를 들면, iRT1-t(1)에 의해 학습된 'model(1)', iRT1-t(2)에 의해 학습된 'model(2)', iRT1-t(3)에 의해 학습된 'model(3)' 등과 같이 나타낼 수 있다.
본 발명에서, 상기 학습은 복수 개의 상이한 인공 신경망을 사용하여 이루어지는 것일 수 있다. 상기 학습을 위하여 복수 개의 상이한 인공 신경망을 사용하는 것이 학습 방법을 달리하여 데이터의 다양한 면을 보고 학습되어 예측 모델이 도출될 수 있어, 학습할 때 오버피팅이 되는 것을 방지할 수 있으며, 그 결과 최종적으로 머무름 시간의 예측의 정확도가 향상될 수 있다.
본 발명에서, 상기 인공 신경망의 노드 종류 또는 노드 수와 같은 노드의 구성을 상이하게 하여 상기 학습 방법을 달리할 수 있다. 상기 노드의 구성을 상이하게 할 경우, 상기 예측 모델이 학습할 때 오버피팅이 되는 것을 방지할 수 있고, 그 결과 예측의 정확도가 상승할 수 있다.
본 발명의 방법은, 상기와 같이 학습하여 얻어진 예측 모델을 이용하여 제2 타겟 중합체의 정보, 바람직하게는 서열에 근거해 상기 제2 타겟 중합체의 색인된 머무름 시간(iRT2-t)을 예측하는 단계를 포함할 수 있다.
본 발명에서, 상기 제2 타겟 중합체는 머무름 시간을 예측하고자 하는 목적하는 중합체로, 예를 들면, 작은 유기 분자, 표적 지질, 표적 탄수화물, 표적 DNA 단편, 표적 RNA 단편 및 펩타이드에서 선택된 어느 하나 이상일 수 있고, 바람직하게는 상기 제2 타겟 중합체는 펩타이드일 수 있고, 상기 펩타이드를 구성하는 물질은 아미노산일 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서, 상기 제2 타겟 중합체는 복수 개일 수 있다. 상기 제2 타겟 중합체가 복수 개인 경우, 상기 크로마토그래피 분석 1회로 복수 개의 상기 제2 타겟 중합체의 머무름 시간을 한번에 예측할 수 있다.
본 발명에서, 상기 제2 타겟 중합체는 상기 제1 타겟 중합체와 물리적 특성이 유사한 것일 수 있으나, 이에 제한되는 것은 아니다. 여기서, 상기 물리적 특성은 상기 제2 타겟 중합체를 구성하는 모노머의 개수 또는 상기 중합체의 소수성인 것일 수 있으나, 이에 제한되는 것은 아니다. 상기 제2 타겟 중합체가 상기 제1 타겟 중합체와 물리적 특성이 유사할 경우, 상기 제2 타겟 중합체에 대한 머무름 시간의 예측 정확도가 높아질 수 있다.
본 발명에서, 상기 예측 모델이 복수 개인 경우 각 모델 별로 상기 제2 타겟 중합체의 색인된 머무름 시간(iRT2-t)을 얻을 수 있다. 이하, 도출된 각 제2 타겟 중합체의 색인된 머무름 시간(iRT2-t)은 'iRT2-t(n)'이라 하되, 여기서 상기 n은 제1 세트 별 일련 번호로, 'iRT2-t(n)'은 model(n)에 의해 얻은 머무름 시간일 수 있으며, 예를 들면, model(1)에 의해 얻은'iRT2-t(1)', model(2)에 의해 얻은'iRT2-t(2)', model(3)에 의해 얻은'iRT2-t(3)' 등과 같이 나타낼 수 있다.
본 발명의 방법은, 제2 참고 물질의 머무름 시간(retention time)을 측정하거나 측정된 결과를 수신하는 단계를 더 포함할 수 있다. 이하, 측정된 제2 참고 물질의 머무름 시간은 'eRT2-rq'라 하되, 여기서 상기 q는 제2 참고 물질이 복수 개일 때 이에 따른 일련 번호일 수 있고, 예를 들면 'eRT2-r1', 'eRT2-r2', 'eRT2-r3' 등과 같이 나타낼 수 있다.
본 발명에서, 상기 제2 참고 물질은 중합체의 형태일 수 있으나, 크로마토그래피에서 머무름 시간이 측정 가능한 것이거나, 머무름 시간이 이미 알려져 표준화할 수 있는 것이라면 제한없이 포함될 수 있다.
본 발명에서, 상기 제2 참고 물질은 유기 분자, 표적 지질, 표적 탄수화물, 표적 DNA 단편, 표적 RNA 단편 및 펩타이드에서 선택된 어느 하나 이상일 수 있고, 바람직하게는 상기 제2 참고 물질은 펩타이드 일 수 있으나, 이에 제한되지는 않는다.
본 발명에서, 상기 제2 참고 물질은 제1 참고 물질과 동일한 것이거나 상이한 것일 수 있다.
본 발명의 목적 상 상기 제2 참고 물질은 적어도 2개가 포함될 수 있고, 바람직하게는 3 내지 20개가 포함될 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서, 상기 제2 참고 물질의 머무름 시간은 제2 조건의 크로마토그래피에 의해 측정할 수 있다. 여기서 상기 조건이라 함은 측정에 사용되는 크로마토그래피 장치 또는 고정상, 이동상, 온도 또는 압력 등에 따르는 조건일 수 있으나, 이에 제한되는 것은 아니며, 이때 상기 제2 조건은 상기 제1 조건과 동일하거나 상이할 수 있다.
본 발명에서, 상기 제2 참고 물질의 머무름 시간은 크로마토그램을 측정하여 얻어질 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서, 상기 제2 참고 물질의 머무름 시간은 제2 조건의 크로마토그래피에 질량분석법(MS) 또는 자외선 분석법(UV)을 더 추가하여 측정할 수 있으며, 예를 들면, HPLC-MS 또는 HPLC-UV에 의해 측정할 수 있으나, 이에 제한되는 것은 아니다.
본 발명의 방법은, 상기 예측된 제2 타겟 중합체의 색인된 머무름 시간(iRT2-t)으로부터 제2 타겟 중합체의 실질 머무름 시간을 예측하는 단계를 더 포함할 수 있다. 이하, 제2 타겟 중합체의 실질 머무름 시간은 'eRT2-t'이라 하되, 각 세트 별 도출되는 제2 타겟 중합체의 실질 머무름 시간은 'eRT2-t(n)'이라 한다. 여기서 상기 n은 제1 세트 별 일련 번호로, 'eRT2-t(n)'은 'iRT2-t(n)'에 의해 얻은 머무름 시간일 수 있으며, 예를 들면, 'iRT2-t(1)'에 의해 얻은 'eRT2-t(1)', 'iRT2-t(2)'에 의해 얻은 'eRT2-t(2)', 'iRT2-t(3)'에 의해 얻은 'eRT2-t(3)' 등과 같이 나타낼 수 있다.
본 발명에서, 상기 실질 머무름 시간을 예측하는 단계 시 상기 제2 참고 물질을 하나 이상의 세트를 포함하는 제2 세트로 분류하는 단계를 더 포함할 수 있고, 바람직하게는 상기 제2 세트는 복수 개의 세트를 포함하는 것이 머무름 시간의 예측 정확도를 높일 수 있다. 이하, 도출된 제2 세트는 'set-2(m)'이라 한다. 여기서 상기 m은 제2 세트 별 일련 번호일 수 있으며, 예를 들면, 'set-2(1)', 'set-2(2)', 'set-2(3)' 등과 같이 나타낼 수 있다.
본 발명에서, 상기 제2 세트에 포함되는 각 세트는 복수 개의 참고 물질 중 적어도 일부를 포함할 수 있으나, 바람직하게는 2개 이상의 참고 물질을 포함하는 것일 수 있고, 예를 들면 상기 제2 세트는 각 세트 별 2 내지 20개의 참고 물질을 포함하는 것일 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서 상기 제2 세트에 있어서 각 세트 별 제2 관계식이 도출될 수 있다.
본 발명에서, 상기 제2 타겟 중합체의 실질 머무름 시간(eRT2-t)의 예측 시 각 세트 별 그에 포함되는 복수 개의 참고 물질의 임의의 색인된 머무름 시간을 선정하는 단계를 포함할 수 있다. 이하, 제2 참고 물질의 임의의 색인된 머무름 시간은 'iRT2-rq'라 하되, 여기서 상기 q는 제2 참고 물질의 수에 따른 일련 번호일 수 있고, 예를 들면 'iRT2-r1', 'iRT2-r2', 'iRT2-r3' 등과 같이 나타낼 수 있다.
본 발명에서, 상기 선정된 복수 개의 제2 참고 물질의 측정된 머무름 시간(eRT2-rq)과 색인된 머무름 시간(iRT2-rq)으로부터 이들 사이의 관계식인 제2 관계식을 도출할 수 있다.
본 발명에서, 상기 제2 관계식은 선형 관계식일 수 있고, 바람직하게는 선형 회귀(linear regression), 서포트 벡터 머신(support vector machine; SVM), 랜덤 포레스트(random forest), 의사 결정 트리(decision tree) 또는 그라데이션 부스트 머신(gradient boost machine; GBM)에 의해 얻어질 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서, 상기 제2 관계식은 하기 식 2로 표시될 수 있다:
[식 2]
eRT2 = b2*(iRT) + c2
상기 식 2에서,
eRT2는 상기 제2 조건의 크로마토그래피에서 측정된 머무름 시간이고,
iRT는 색인된 머무름 시간이며,
상기 b2 및 c2는 각각 독립적으로 상기 제2 관계식의 상수이다.
본 발명에서, 상기와 같이 얻어진 제2 관계식에 상기 제2 타겟 중합체의 색인된 머무름 시간(iRT2-t)을 대입하여 상기 제2 조건의 크로마토그래피에서의 제2 타겟 중합체의 실질 머무름 시간의 예측값(eRT2-t)을 도출할 수 있다.
본 발명에서, 상기 제2 세트가 복수 개인 경우 각 세트 별로 제2 관계식을 얻을 수 있고, 각 세트 별 얻어진 제2 관계식에 제2 타겟 중합체의 색인된 머무름 시간(iRT2-t)을 대입하여 실질 머무름 시간의 예측값(eRT2-t)을 도출할 수 있으며, 이때 각 세트 별로 얻어지는 상기 제2 타겟 중합체의 실질 머무름 시간의 예측값은 서로 동일하거나 상이할 수 있다. 이하, 상기 제2 세트에 있어서 각 세트 별 얻어진 제2 타겟 중합체의 실 머무름 시간은 'eRT2-t(m)'이라 하되, 여기서 상기 m은 제2 세트 별 일련 번호일 수 있으며, 예를 들면 'eRT1-t(1)', 'eRT1-t(2)', 'eRT1-t(3)' 등과 같이 나타낼 수 있다.
본 발명의 방법에서, 상기와 같이 각 세트 별로 도출된 복수 개의 제2 타겟 중합체의 실질 머무름 시간의 예측값(eRT2-t)으로부터 하나의 최종 실질 머무름 시간을 얻는 단계를 더 포함할 수 있다. 이하, 제2 타겟 중합체의 실질 머무름 시간의 최종 예측값은 'eRTfinal-t'이라 한다.
본 발명에서 상기 최종 실질 머무름 시간(eRTfinal-t)은 특정값 또는 범위로 얻어질 수 있다.
본 발명에서 상기 최종 실질 머무름 시간(eRTfina-t)은 상기 복수 개의 eRT2-t(m)의 중앙값, 평균값 또는 가중 평균값일 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서 상기 가중 평균값은 하기 식 3에 의해 계산될 수 있으나, 이에 제한되는 것은 아니다:
[식 3]
eRTfinal-t = a1*eRT2-t(1) + a2*eRT2-t(2) + ... + an*eRT2-t(m)
상기 식 3에서,
a1 내지 an은 가중치로, 각각 독립적으로 0 이상 1 이하의 실수이되, a1 + a2 + ... + an = 1이다.
본 발명의 일 예시에서, 상기 가중치는 상기 예측 모델을 생성하는 단계에서 결정된 측정값(metric) 및 검증 데이터의 손실(loss)값 중 적어도 하나를 사용하여 얻어질 수 있으나, 이에 제한되는 것은 아니다.
본 발명의 다른 일 예시에서, 상기 가중치는 상기 제2 타겟 중합체와 상기 제2 참고 물질 간의 물리적 특성의 유사도에 따라 결정될 수 있으나, 이에 제한되는 것은 아니다. 여기서, 상기 물리적 특성은 상기 중합체를 구성하는 모노머의 개수 또는 상기 중합체의 소수성인 것일 수 있으나, 이에 제한되는 것은 아니다.
본 발명의 또 다른 일 예시에서, 상기 가중치는 제2 세트에 있어서 각 세트에 포함되는 제2 참고 물질의 머무름 시간 또는 복수 개의 제2 참고 물질의 머무름 시간(iRT2-rq)의 평균값 또는 복수 개의 제2 참고 물질의 머무름 시간(iRT2-rq)의 중앙값과 해당 세트에서 도출된 제2 타겟 중합체의 색인된 머무름 시간(iRT2-t(m))의 차의 절대 값, 즉, 하기 식 4로 계산되는 값이 작을수록 높은 값으로 부여될 수 있다.
[식 4]
|u(m) - iRT2-t(m)|
상기 식 4에서,
상기 u(m)은 일련 번호 m의 제2 세트에 포함되는 복수 개의 제2 참고 물질의 머무름 시간(iRT2-rq)의 평균값 또는 중앙값일 수 있다.
본 발명에서, 상기 가중치는 모든 제2 세트에 부여할 수 있으나, 제2 세트 중 임의로 선별된 일부의 세트로, 바람직하게는 상기 절대 값이 가장 작은 세트로부터 1 내지 10개의 세트, 또는 1 내지 5개의 세트에 대하여 가중치를 부여할 수 있다.
본 발명의 방법은, 필요에 따라서는 상기와 같이 얻어진 제2 타겟 중합체의 최종 실질 머무름 시간의 예측값(eRTfinal-t)을 상기 제2 조건의 크로마토그래피의 크로마토그램에 표시하는 단계를 더 포함할 수 있다.
본 발명의 다른 구현 예에 따르면, 머무름 시간을 예측하는 장치에 관한 것이다.
본 발명에서, 먼저 제1 타겟 중합체 및 각각 상이한 머무름 시간을 가진 적어도 2개의 제1 참고 물질을 담지하는 시료 준비 모듈을 포함할 수 있다.
본 발명에서, 상기 제1 타겟 중합체는 머무름 시간을 예측하고자 하는 타겟 중합체의 정보에 근거하여 머무름 시간을 예측하기 위한 모델을 구축하기 위한 것으로, 그 종류로는 작은 유기 분자, 표적 지질, 표적 탄수화물, 표적 DNA 단편, 표적 RNA 단편 및 펩타이드에서 선택된 어느 하나 이상일 수 있고, 바람직하게는 상기 중합체는 펩타이드일 수 있고, 상기 펩타이드를 구성하는 물질은 아미노산일 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서 상기 제1 타겟 중합체는 적어도 1개 포함될 수 있으나, 추후 학습을 위해서 2개 이상 포함될 수 있고, 바람직하게는 2 내지 10개 포함될 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서, 상기 제1 참고 물질은 중합체의 형태일 수 있으나, 크로마토그래피에서 머무름 시간이 측정 가능한 것이거나, 머무름 시간이 이미 알려져 표준화할 수 있는 것이라면 제한없이 포함될 수 있다.
본 발명에서, 상기 제1 참고 물질은 유기 분자, 표적 지질, 표적 탄수화물, 표적 DNA 단편, 표적 RNA 단편 및 펩타이드에서 선택된 어느 하나 이상일 수 있고, 바람직하게는 상기 제1 참고 물질은 펩타이드 일 수 있으나, 이에 제한되지는 않는다.
본 발명의 목적 상 상기 제1 참고 물질은 적어도 2개가 포함될 수 있고, 바람직하게는 3 내지 20개가 포함될 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서, 제1 타겟 중합체 및 제1 참고 물질의 머무름 시간을 측정하거나 측정된 결과를 수신하는 제1 수신 모듈을 포함할 수 있다. 이하, 측정된 제1 타겟 중합체의 머무름 시간은 'eRT1-t'이라 하고, 측정된 제1 참고 물질의 머무름 시간은 'eRT1-rp'이라 하되, 여기서 상기 p는 제1 참고 물질이 복수 개일 때 이에 따른 일련 번호일 수 있고, 예를 들면 'eRT1-r1', 'eRT1-r2', 'eRT1-r3' 등과 같이 나타낼 수 있다.
본 발명에서, 상기 제1 타겟 중합체 및 상기 제1 참고 물질의 머무름 시간은 제1 조건의 크로마토그래피에 의해 측정할 수 있다. 여기서, 상기 조건이라 함은 크로마토그래피 장치 또는 고정상, 이동상, 온도 또는 압력 등에 따르는 조건일 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서, 상기 제1 타겟 중합체 또는 상기 제1 참고 물질의 머무름 시간은 크로마토그램을 측정하여 얻어질 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서, 상기 제1 타겟 중합체 또는 상기 제1 참고 물질의 머무름 시간은 상기 제1 조건의 크로마토그래피에 질량분석법(MS) 또는 자외선 분석법(UV)을 더 추가하여 측정할 수 있으며, 예를 들면, HPLC-MS 또는 HPLC-UV에 의해 측정할 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서, 상기와 같이 측정된 제1 타겟 중합체의 실제 머무름 시간(eRT1-t)을 임의의 색인된 머무름 시간으로 변환시키는 제1 연산 모듈을 포함할 수 있다. 이하, 제1 타겟 중합체의 임의의 색인된 머무름 시간은 'iRT1-t'이라 한다.
본 발명에서, 상기 제1 연산 모듈은 상기 제1 참고 물질을 하나 이상의 제1 세트로 분류하는 제1 세트 생성부를 더 포함할 수 있고, 바람직하게는 상기 제1 세트는 복수 개인 것이 머무름 시간의 예측 정확도를 높일 수 있다. 이하, 도출된 각 제1 세트는 'set-1(n)'이라 하되, 여기서 상기 n은 제1 세트 별 일련 번호일 수 있으며, 예를 들면, 'set-1(1)', 'set-1(2)', 'set-1(3)' 등과 같이 나타낼 수 있다.
본 발명에서, 상기 제1 세트는 복수 개의 참고 물질 중 적어도 일부를 포함할 수 있으나, 바람직하게는 2개 이상의 참고 물질을 포함하는 것일 수 있고, 예를 들면 상기 제1 세트는 각 제1 세트 별 2 내지 20개의 참고 물질을 포함하는 것일 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서, 상기 제1 연산 모듈은 각 제1 세트 별 그에 포함되는 복수 개의 참고 물질의 임의의 색인된 머무름 시간을 선정하는 제1 변환부를 포함할 수 있다. 이하, 제1 참고 물질의 임의의 색인된 머무름 시간은 'iRT1-rp'라 하되, 여기서 상기 p는 제1 참고 물질의 수에 따른 일련 번호일 수 있고, 예를 들면 'iRT1-r1', 'iRT1-r2', 'iRT1-r3' 등과 같이 나타낼 수 있고, 제1 참고 물질의 색인된 머무름 시간값의 범위를 0 내지 100으로 놓고, 각 제1 참고 물질에 따라 iRT1-r1 = 10, iRT1-r2 = 50, iRT1-r3 = 90으로 지정하는 것일 수 있다.
본 발명에서, 상기 제1 변환부는 상기 선정된 복수 개의 제1 참고 물질의 측정된 실제 머무름 시간(eRT1-rp)과 색인된 머무름 시간(iRT1-rp)으로부터 제1 조건의 크로마토그래피에서 측정된 실제 머무름 시간(eRT1)과 색인된 머무름 시간(iRT) 사이의 관계식인 제1 관계식을 도출할 수 있다.
본 발명에서, 상기 제1 관계식은 선형 관계식일 수 있고, 바람직하게는 선형 회귀(linear regression), 서포트 벡터 머신(support vector machine; SVM), 랜덤 포레스트(random forest), 의사 결정 트리(decision tree) 또는 그라데이션 부스트 머신(gradient boost machine; GBM)에 의해 얻어질 수 있으나, 이에 제한되는 것은 아니다.
본 발명의 일 예시에서, 상기 제1 관계식은 하기 식 1로 표시될 수 있다:
[식 1]
iRT = b1*(eRT1) + c1
상기 식 1에서,
eRT1은 제1 조건의 크로마토그래피에서 측정된 타겟 중합체의 측정된 머무름 시간이고,
iRT는 색인된 머무름 시간이며,
상기 b1 및 c1은 각각 독립적으로 상기 제1 관계식의 상수이다.
본 발명에서, 상기와 같이 얻어진 제1 관계식에 상기 제1 타겟 중합체의 측정된 실제 머무름 시간(eRT1-t)을 대입하여 색인된 머무름 시간(iRT1-t)을 도출할 수 있다.
본 발명에서, 상기 제1 세트가 복수 개인 경우 각 세트 별로 제1 관계식을 얻을 수 있고, 각 세트 별 얻어진 제1 관계식에 제1 타겟 중합체의 측정된 실제 머무름 시간(eRT1-t)을 대입하여 색인된 머무름 시간(iRT1-t)을 도출할 수 있으며, 이때 각 세트 별로 얻어지는 상기 제1 타겟 중합체의 색인된 머무름 시간 값은 서로 동일하거나 상이할 수 있다. 이하, 상기 제1 세트에 있어서 각 세트 별 얻어진 제1 타겟 중합체의 색인된 머무름 시간은 'iRT1-t(n)' 등과 같이 나타낼 수 있다.
본 발명에서, 인공 신경망을 통해 상기 제1 타겟 중합체에 대한 정보, 바람직하게는 서열 정보와 도출된 색인된 머무름 시간 사이의 상관 관계를 학습시켜 서열 정보에 따른 색인된 머무름 시간을 예측하는 예측 모델을 생성하는 제2 연산 모듈을 포함할 수 있다.
본 발명의 목적 상, 상기 입력 레이어는 상기 제1 타겟 중합체에 대한 정보로, 바람직하게는 서열 정보이고, 상기 출력 레이어는 색인된 머무름 시간의 예측값일 수 있다. 상기 서열 정보는 상기 제1 타겟 중합체를 구성하는 모노머의 종류, 배열, 중합된 개수 및 물리적 특성일 수 있고, 상기 물리적 특성은 분자량, 구성원소 및 소수성(hydrophobicity)일 수 있으나, 이에 제한되지는 않는다.
본 발명에서, 상기 인공 신경망은 심층 신뢰 신경망(Deep Belief Network; DBN), 합성곱 신경망(Convolutional Neural Network; CNN), 및 순환 신경망(Recurrent Neural Network; RNN) 중 적어도 한 개 이상에 의해 생성되는 것일 수 있으나 이에 제한되지는 않는다.
본 발명의 목적 상, 상기 심층 신뢰 신경망에서 상기 잠재 변수는 상기 제1 타겟 중합체를 구성하는 모노머의 종류, 배열, 중합된 개수 및 물리적 특성일 수 있고, 상기 물리적 특성은 분자량, 구성원소 및 소수성(hydrophobicity)일 수 있으나, 이에 제한되지는 않는다.
본 발명의 목적 상, 상기 합성곱 신경망에서 추출되는 상기 파라미터는 상기 제1 타겟 중합체를 구성하는 모노머의 종류, 배열, 중합된 개수 및 물리적 특성일 수 있고, 상기 물리적 특성은 분자량, 구성원소 및 소수성(hydrophobicity)일 수 있으나, 이에 제한되지는 않는다.
본 발명에서, 상기 순환 신경망은 장기 단기 기억 모델(long short-term memory models; LSTM) 및 회로형 순환 유닛(Gated Recurrent Units; GRU)에서 선택된 하나 이상을 포함하는 것일 수 있다.
본 발명의 목적 상, 상기 순환 신경망에서 학습되어 나온 입력값의 특징정보는 완전히 연결된 네트워크(Full connected network; FCN)에 연결되어 예측하고자 하는 색인된 머무름 시간의 예측값(iRT predict)으로 나오도록 연결될 수 있다. 이렇게 연결된 상기 네트워크는 위에서 획득한 상기 제1 타겟 중합체의 모노머 서열과 색인된 머무름 시간과의 관계에 기반해서 학습될 수 있다. 여기서 상기 데이터 쌍 즉, 입력된 제1 타겟 중합체 서열과 색인된 머무름 시간의 예측값(iRT predict)과 앞서 변환된 상기 임의의 색인된 머무름 시간과의 관계에서 손실(loss)을 구하고, 상기 손실을 통해 상기 네트워크의 가중치를 갱신해가면서 학습을 할 수 있다.
본 발명에서, 상기 손실(loss)은 평균제곱오차(Mean Sqaure Error; MSE)를 사용할 수 있다. 상기 평균제곱오차가 최소화되는 손실에 따라 상기 네트워크의 가중치를 갱신하는 것일 수 있으나, 상기 색인된 머무름 시간과 같은 연속된 값을 추론할 때 사용하는 손실 산출 방법이라면 제한없이 사용할 수 있다.
본 발명에서, 상기 예측 모델은 상기 제1 타겟 중합체의 정보와 각 제1 세트 별 도출된 색인된 머무름 시간 사이의 상관 관계를 학습시켜 얻어진 것일 수 있고, 상기 학습을 통해 얻어진 예측 모델은 복수 개인 것이 머무름 시간의 예측 정확도를 높일 수 있어 바람직하다. 이하, 도출된 각 예측 모델은 'model(m)'이라 하되, 여기서 상기 m은 세트 별 일련번호로, model(m)은 iRT1-t(m)에 의해 학습된 모델일 수 있으며, 예를 들면, iRT1-t(1)에 의해 학습된 'model(1)', iRT1-t(2)에 의해 학습된 'model(2)', iRT1-t(3)에 의해 학습된 'model(3)' 등과 같이 나타낼 수 있다.
본 발명에서, 상기 학습을 위하여 복수 개의 인공 신경망을 사용하는 것이 학습 방법을 달리하여 데이터의 다양한 면을 보고 학습되어 예측 모델이 도출될 수 있어, 학습할 때 오버피팅이 되는 것을 방지할 수 있으며, 그 결과 최종적으로 머무름 시간의 예측의 정확도가 향상될 수 있다.
본 발명에서, 상기 인공 신경망의 노드 종류 또는 노드 수와 같은 노드의 구성을 상이하게 하여 상기 학습 방법을 달리할 수 있다. 상기 노드의 구성을 상이하게 할 경우, 상기 예측 모델이 학습할 때 오버피팅이 되는 것을 방지할 수 있고, 그 결과 예측의 정확도가 상승할 수 있다.
본 발명에서, 상기와 같이 학습하여 얻어진 예측 모델을 이용하여 제2 타겟 중합체의 정보, 바람직하게는 서열에 근거해 상기 제2 타겟 중합체의 색인된 머무름 시간(iRT2-t)을 예측하는 제3 연산 모듈을 포함할 수 있다.
본 발명에서, 상기 제2 타겟 중합체는 머무름 시간을 예측하고자 하는 목적하는 중합체로, 예를 들면, 작은 유기 분자, 표적 지질, 표적 탄수화물, 표적 DNA 단편, 표적 RNA 단편 및 펩타이드에서 선택된 어느 하나 이상일 수 있고, 바람직하게는 상기 제2 타겟 중합체는 펩타이드일 수 있고, 상기 펩타이드를 구성하는 물질은 아미노산일 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서, 상기 제2 타겟 중합체는 복수 개일 수 있다. 상기 제2 타겟 중합체가 복수 개인 경우, 상기 크로마토그래피 분석 1회로 복수 개의 상기 제2 타겟 중합체의 머무름 시간을 한번에 예측할 수 있다.
본 발명에서, 상기 제2 타겟 중합체는 상기 제1 타겟 중합체와 물리적 특성이 유사한 것일 수 있으나, 이에 제한되는 것은 아니다. 여기서, 상기 물리적 특성은 상기 제2 타겟 중합체를 구성하는 모노머의 개수 또는 상기 중합체의 소수성인 것일 수 있으나, 이에 제한되는 것은 아니다. 상기 제2 타겟 중합체가 상기 제1 타겟 중합체와 물리적 특성이 유사할 경우, 상기 제2 타겟 중합체에 대한 머무름 시간의 예측 정확도가 높아질 수 있다.
본 발명에서, 상기 예측 모델이 복수 개인 경우 각 모델 별로 상기 제2 타겟 중합체의 색인된 머무름 시간(iRT2-t)을 얻을 수 있다. 이하, 도출된 각 제2 타겟 중합체의 색인된 머무름 시간(iRT2-t)은 'iRT2-t(n)'이라 하되, 여기서 상기 n은 제1 세트 별 일련 번호로, 'iRT2-t(n)'은 model(n)에 의해 얻은 머무름 시간일 수 있으며, 예를 들면, model(1)에 의해 얻은'iRT2-t(1)', model(2)에 의해 얻은'iRT2-t(2)', model(3)에 의해 얻은'iRT2-t(3)' 등과 같이 나타낼 수 있다.
본 발명에서, 제2 참고 물질의 머무름 시간(retention time)을 측정하거나 측정된 결과를 수신하는 제2 수신 모듈을 더 포함할 수 있다. 이하, 측정된 제2 참고 물질의 머무름 시간은 'eRT2-rq'라 하되, 여기서 상기 q는 제2 참고 물질이 복수 개일 때 이에 따른 일련 번호일 수 있고, 예를 들면 'eRT2-r1', 'eRT2-r2', 'eRT2-r3' 등과 같이 나타낼 수 있다.
본 발명에서, 상기 제2 참고 물질은 중합체의 형태일 수 있으나, 크로마토그래피에서 머무름 시간이 측정 가능한 것이거나, 머무름 시간이 이미 알려져 표준화할 수 있는 것이라면 제한없이 포함될 수 있다.
본 발명에서, 상기 제2 참고 물질은 유기 분자, 표적 지질, 표적 탄수화물, 표적 DNA 단편, 표적 RNA 단편 및 펩타이드에서 선택된 어느 하나 이상일 수 있고, 바람직하게는 상기 제2 참고 물질은 펩타이드 일 수 있으나, 이에 제한되지는 않는다.
본 발명에서, 상기 제2 참고 물질은 제1 참고 물질과 동일한 것이거나 상이한 것일 수 있다.
본 발명의 목적 상 상기 제2 참고 물질은 적어도 2개가 포함될 수 있고, 바람직하게는 3 내지 20개가 포함될 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서, 상기 제2 참고 물질의 머무름 시간은 제2 조건의 크로마토그래피에 의해 측정할 수 있다. 여기서 상기 조건이라 함은 측정에 사용되는 크로마토그래피 장치 또는 고정상, 이동상, 온도 또는 압력 등에 따르는 조건일 수 있으나, 이에 제한되는 것은 아니며, 이때 상기 제2 조건은 상기 제1 조건과 동일하거나 상이할 수 있다.
본 발명에서, 상기 제2 참고 물질의 머무름 시간은 크로마토그램을 측정하여 얻어질 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서, 상기 제2 참고 물질의 머무름 시간은 제2 조건의 크로마토그래피에 질량분석법(MS) 또는 자외선 분석법(UV)을 더 추가하여 측정할 수 있으며, 예를 들면, HPLC-MS 또는 HPLC-UV에 의해 측정할 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서, 상기 예측된 제2 타겟 중합체의 색인된 머무름 시간(iRT2-t)으로부터 제2 타겟 중합체의 실질 머무름 시간을 예측하는 제4 연산 모듈을 더 포함할 수 있다. 이하, 제2 타겟 중합체의 실질 머무름 시간은 'eRT2-t'이라 하되, 각 세트 별 도출되는 제2 타겟 중합체의 실질 머무름 시간은 'eRT2-t(n)'이라 한다.
본 발명의 상기 제4 연산 모듈에서, 제2 타겟 중합체의 실질 머무름 시간을 예측하기 위하여, 상기 제2 참고 물질은 복수 개일 수 있고, 상기 복수 개의 제2 참고 물질의 측정된 머무름 시간(eRT2-rq)과 색인된 머무름 시간(iRT2-rq)으로부터 제2 조건의 크로마토그래피에서 측정된 머무름 시간(eRT)과 색인된 머무름 시간(iRT) 사이의 관계식인 제2 관계식을 도출할 수 있다. 이하, 제2 참고 물질의 임의의 색인된 머무름 시간은 'iRT2-rq'라 할 수 있다.
본 발명의 제4 연산 모듈은 상기 제2 참고 물질을 하나 이상의 제2 세트로 분류하는 것을 더 포함할 수 있고, 바람직하게는 상기 제2 세트는 복수 개인 것이 머무름 시간의 예측 정확도를 높일 수 있어 바람직하다. 이하, 도출된 각 제2 세트는 'set-2'이라 하되, 상기 제2 세트 별 도출되는 세트를 'set-2(m)'이라 한다. 여기서 상기 m은 제2 세트 별 일련 번호일 수 있으며, 예를 들면, 'set-2(1)', 'set-2(2)', 'set-2(3)' 등과 같이 나타낼 수 있다.
본 발명에서, 상기 제2 세트는 복수 개의 참고 물질 중 적어도 일부를 포함할 수 있으나, 바람직하게는 2개 이상의 참고 물질을 포함하는 것일 수 있고, 예를 들면 상기 제2 세트는 각 제2 세트 별 2 내지 20개의 참고 물질을 포함하는 것일 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서 상기 제2 세트에 있어서 각 세트 별 제2 관계식이 도출될 수 있다.
본 발명에서, 상기 제2 관계식은 선형 관계식일 수 있고, 바람직하게는 선형 회귀(linear regression), 서포트 벡터 머신(support vector machine; SVM), 랜덤 포레스트(random forest), 의사 결정 트리(decision tree) 또는 그라데이션 부스트 머신(gradient boost machine; GBM)에 의해 얻어질 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서, 상기 제2 관계식은 하기 식 2로 표시될 수 있다:
[식 2]
eRT2 = b2*(iRT) + c2
상기 식 2에서,
eRT2는 상기 제2 조건의 크로마토그래피에서 측정된 머무름 시간이고,
iRT는 색인된 머무름 시간이며, 상기 b2 및 c2는 상기 제2 관계식의 상수이다.
본 발명에서, 상기와 같이 얻어진 제2 관계식에 상기 제2 타겟 중합체의 색인된 머무름 시간(iRT2-t)을 대입하여 상기 제2 조건의 크로마토그래피에서의 제2 타겟 중합체의 실질 머무름 시간의 예측값(eRT2-t)을 도출할 수 있다.
본 발명에서, 상기 도출된 복수 개의 제2 타겟 중합체의 실질 머무름 시간의 예측값(eRT2-t)으로부터 하나의 최종 실질 머무름 시간을 얻는 제5 연산 모듈을 더 포함할 수 있다. 이하, 제2 타겟 중합체의 실질 머무름 시간의 최종 예측값은 'eRTfinal-t'이라 한다.
본 발명에서 상기 최종 실질 머무름 시간(eRTfinal-t)은 특정값 또는 범위로 얻어질 수 있다.
본 발명에서 상기 최종 실질 머무름 시간(eRTfina-t)은 상기 복수 개의 eRT2-t(n)의 중앙값, 평균값 또는 가중 평균값일 수 있으나, 이에 제한되는 것은 아니다.
본 발명에서 상기 가중 평균값은 하기 식 3에 의해 계산될 수 있으나, 이에 제한되는 것은 아니다:
[식 3]
eRTfinal-t = a1*eRT2-t(1) + a2*eRT2-t(2) + ... + an*eRT2-t(n)
상기 식 3에서,
a1 내지 an은 가중치로, 각각 독립적으로 0 이상 1 이하의 실수이되, a1 + a2 + ... + an = 1이다.
본 발명의 일 예시에서, 상기 가중치는 상기 제2 연산 모듈에서 결정된 측정값(metric) 및 검증 데이터의 손실(loss)값 중 적어도 하나를 사용하여 얻어질 수 있으나, 이에 제한되는 것은 아니다.
본 발명의 다른 일 예시에서, 상기 가중치는 상기 제2 타겟 중합체와 상기 제2 참고 물질 간의 물리적 특성의 유사도에 따라 결정될 수 있으나, 이에 제한되는 것은 아니다. 여기서, 상기 물리적 특성은 상기 중합체를 구성하는 모노머의 개수 또는 상기 중합체의 소수성인 것일 수 있으나, 이에 제한되는 것은 아니다.
본 발명의 또 다른 일 예시에서, 상기 가중치는 제2 세트에 있어서 각 세트에 포함되는 제2 참고 물질의 머무름 시간 또는 복수 개의 제2 참고 물질의 머무름 시간(iRT2-rq)의 평균값 또는 복수 개의 제2 참고 물질의 머무름 시간(iRT2-rq)의 중앙값과 해당 세트에서 도출된 제2 타겟 중합체의 색인된 머무름 시간(iRT2-t(m))의 차의 절대 값, 즉, 하기 식 4로 계산되는 값이 작을수록 높은 값으로 부여될 수 있다.
[식 4]
|u(m) - iRT2-t(m)|
상기 식 4에서,
상기 u(m)은 일련 번호 m의 제2 세트에 포함되는 복수 개의 제2 참고 물질의 머무름 시간(iRT2-rq)의 평균값 또는 중앙값일 수 있다.
본 발명에서, 상기 가중치는 모든 제2 세트에 부여할 수 있으나, 제2 세트 중 임의로 선별된 일부의 세트로, 바람직하게는 상기 절대 값이 가장 작은 세트로부터 1 내지 10개의 세트, 또는 1 내지 5개의 세트에 대하여 가중치를 부여할 수 있다.
본 발명에서, 상기와 같이 얻어진 제2 타겟 중합체의 최종 실질 머무름 시간의 예측값(eRTfinal-t)을 상기 제2 조건의 크로마토그래피의 크로마토그램에 표시하는 출력부를 더 포함할 수 있다.
본 발명에 의하는 경우 피분석 중합체의 머무름 시간을 높은 정확도로 예측할 수 있고, 이에 따라 피분석 중합체의 정량의 정확도를 높일 수 있고, 혹은 크로마토그램에서 피분석 중합체 또는 그 외의 분석을 원하는 물질이 존재하는 머무름 시간의 구간 또는 존재하지 않는 머무름 시간의 구간을 결정할 수도 있다.
도 1은 본 발명의 실시예에서 참고 물질과 타겟 중합체가 포함된 시료에 대하여, 크로마토그래피 머무름 시간을 측정하는 것을 나타낸 것이다.
도 2는 본 발명의 실시예 3에서 복수 개의 임의의 색인된 머무름 시간의 예측값을 구하는 과정을 나타낸 것이다.
도 3은 본 발명의 실시예 2에서 제1 타겟 중합체의 임의의 색인된 머무름 시간을 구하는 과정을 나타낸 것이다.
도 4는 본 발명의 실시예 4에서 색인된 머무름 시간을 예측하는 10개의 예측 모델을 생성하는 과정을 나타낸 것이다.
도 5는 본 발명의 실시예 5에서 제2 타겟 중합체가 포함된 시료에 대하여, 크로마토그래피 머무름 시간을 측정하여 색인된 머무름 시간을 얻는 과정을 나타낸 것이다.
도 6은 본 발명의 실시예 5에서 제2 타겟 중합체의 색인된 머무름 시간을 실제 머무름 시간의 예측값으로 재변환하는 과정을 나타낸 것이다.
도 7은 본 발명의 실시예 5에서 제2 타겟 중합체의 색인된 머무름 시간을 실제 머무름 시간의 예측값으로 재변환하는 과정을 나타낸 것이다.
도 8은 본 발명의 실시예 6에서 제2 타겟 중합체의 실제 머무름 시간을 계산하는 과정을 나타낸 것이다.
도 9는 본 발명의 실시예 7에서 제2 타겟 중합체의 머무름 시간을 나타낸 것이다.
도 10은 본 발명의 실시예 7에서 제2 타겟 중합체의 머무름 시간을 나타낸 것이다.
도 11은 본 발명의 실시예 7에서 제2 타겟 중합체의 머무름 시간을 나타낸 것이다.
도 12는 본 발명의 실시예 7에서 제2 타겟 중합체의 머무름 시간을 나타낸 것이다.
도 13은 본 발명의 실시예 9에서 제2 타겟 중합체의 머무름 시간을 예측하는 능력을 산점도로 확인한 결과로 나타낸 것이다.
도 14는 본 발명의 실시예 9에서 제2 타겟 중합체의 머무름 시간을 예측하는 능력을 산점도로 확인한 결과로 나타낸 것이다.
도 15는 본 발명의 실시예 10에서 제2 타겟 중합체의 머무름 시간을 예측하는 능력을 산점도로 확인한 결과로 나타낸 것이다.
이하, 본 발명을 하기의 실시예에 의해 상세히 설명한다. 단, 하기 실시예는 본 발명을 예시하는 것일 뿐, 본 발명의 내용이 하기 실시예에 의해 한정되는 것은 아니다.
실시예
1. 제1 타겟 중합체와 참고 물질의 실질 머무름 시간의 측정
도 1은 제1 타겟 중합체와 참고 물질의 머무름 시간을 측정하기 위한 순서도로, 보다 상세하게는, 우선 서열번호 1로 표시되는 펩타이드를 제1 타겟 중합체로 준비하고, 머무름 시간이 서로 상이한 5개의 참고 물질(ST1, ST2, ST3, ST4 및 ST5)을 준비하였다. 이후, 상기 제1 타겟 중합체와 5개의 참고 물질(ST1, ST2, ST3, ST4 및 ST5)의 제1 조건의 크로마토그래피에서 실질 머무름 시간을 측정하였다(eRT(target), eRT(st1), eRT(st2), eRT(st3), eRT(st4) 및 eRT(st5)).
2. 제1 타겟 중합체의 색인된 머무름 시간으로 변환
다음으로, 측정된 제1 타겟 중합체의 머무름 시간을 색인된 머무름 시간으로 변환하기 위하여 도 2 및 3에 나타낸 순서도에 따라 진행하였다. 먼저 도 3과 같이 5개의 참고 물질(ST1, ST2, ST3, ST4 및 ST5) 각각에 대하여 임의의 색인된 머무름 시간을 선정하였다. 예를 들어, 참고 물질 ST1의 색인된 머무름 시간은 10, 참고 물질 ST2의 색인된 머무름 시간은 90으로 선정할 수 있다. 이후, 5개의 참고 물질(ST1, ST2, ST3, ST4 및 ST5) 중 임의의 2개씩 하나의 세트를 이루도록 총 10개의 세트를 얻은 뒤, 각 세트에 있어서 2개의 참고 물질의 측정된 머무름 시간과 색인된 머무름 시간을 이용하여 각 세트 별로 하기 식 5에 해당하는 제1 관계식을 도출하였다(f1 내지 f10).
[식 5]
iRTn = fn(eRT1) = b1-n*(eRT1) + c1-n
상기 식 5에서,
eRT1은 제1 조건의 크로마토그래피에서 측정된 타겟 중합체의 측정된 머무름 시간이고,
iRTn은 fn에 의해 도출된 색인된 머무름 시간이며,
상기 n은 세트 별 일련번호이고,
상기 b1-n 및 c1-n은 각각 독립적으로 일련번호 n의 세트에서의 제1 관계식의 상수이다.
일 예시로, 참고 물질로 ST1 및 ST2를 포함하는 set-1(1)로부터 도출되는 제1 관계식은 하기 식 6으로 표시될 수 있고, 하기 식 6의 'iRT' 값과 'eRT1' 값에 각각 ST1의 색인된 머무름 시간인 10, ST1의 측정된 머무름 시간을 대입하고, 다음으로 ST2의 색인된 90, ST2의 측정된 머무름 시간을 대입함으로써 b1-1 및 c1-1을 도출하여 하기 식 6을 완성할 수 있다.
[식 6]
iRT1 = f1(eRT1) = b1-1*(eRT1) + c1-1
도면에 도시하지는 않았지만, 각 세트에 3개 이상의 참고 물질이 포함되는 경우, 상기 제1 관계식은 3개의 참고 물질의 측정된 머무름 시간과 색인된 머무름 시간 모두를 이용하여 선형 회귀(linear regression) 방식에 의해 얻어질 수 있다.
다음으로 각 세트 별 얻어진 제1 관계식에 상기 제1 타겟 중합체의 측정된 머무름 시간인 eRT(target)를 대입하여 제1 타겟 중합체의 색인된 머무름 시간(복수 개 iRT1(target) 내지 iRT10(target))을 도출하였다.
3. 인공지능을 이용한 예측 모델의 생성
이후, 타겟 중합체의 서열 정보에 따른 색인된 머무름 시간을 예측할 수 있도록 도 4에 나타낸 순서도에 따라 예측 모델을 생성하였다. 이때 입력된 제1 타겟 중합체의 아미노산 서열에 의해 예측하고자 하는 색인된 머무름 시간 값(iRT predict)과 iRT1(target) 내지 iRT10(target)의 관계에서 구한 손실(loss)을 통해 네트워크의 가중치를 업데이트 해가면서 학습시켰다. 이때 손실은 색인된 머무름 시간값과 같은 연속된 값을 추론할 때 사용하는 평균제곱오차(Mean Sqaure Error; MSE)의 손실을 사용하였다. 다만, 상기 10개의 예측 모델(Model1 내지 Model10)을 획득할 때 각각 모델의 구조를 다르게 하여서 학습할 수 있다. 각각 모델의 구조를 달리할 경우 모델이 데이터의 다양한 면을 보고 학습할 수 있어, 학습할 때 오버피팅이 되는 것을 방지할 수 있고, 그 결과 예측의 정확도가 상승할 수 있다. 이에 대한 일환으로 학습할 때 학습 모델에 있는 노드의 구성을 다르게 하는 방식을 통해서 학습된 모델을 획득할 수도 있다.
4. 제2 타겟 중합체의 색인된 머무름 시간 값의 예측
다음으로 도 5에서와 같이, 제2 타겟 중합체의 서열을 통하여, 제2 타겟 중합체의 색인된 머무름 시간 값을 예측하였다. 구체적으로는 앞서 생성된 예측 모델인 Model1 내지 Model10에 서열번호 2로 표시되는 제2 타겟 중합체의 서열을 입력하여, 10개의 색인된 머무름 시간인 iRT1(target) predict 내지 iRT10(target) predict을 도출하였다.
5. 제2 타겟 중합체의 실질 머무름 시간 값의 예측
다음으로 도 6 및 도 7에서와 같이, 앞서 도출된 상기 iRT1(target) predict 내지 iRT10(target) predict로 실질 크로마토그래피에서의 머무름 시간 값인 eRT1(target) predict 내지 eRT10(target) predict를 예측하였다. 상기 도출 과정은 하기 식 2의 제2 관계식을 생성하여 수행되었다.
[식 2]
eRT2 = b2*(iRT) + c2
상기 식 2에서,
eRT2는 상기 예측하고자 하는 크로마토그래피에서 측정된 머무름 시간이고,
iRT는 색인된 머무름 시간이며, 상기 b2 및 c2는 상기 제2 관계식의 상수이다.
일 예시로, 예측하고자 하는 조건의 크로마토그래피에서 참고 물질 ST1의 측정된 머무름 시간(eRT2-r1)과 참고 물질 ST2의 측정된 머무름 시간(eRT2-r2)이 3.56 및 11.24로 측정되었고, 상기 2.에서와 같이 참고 물질 ST1의 색인된 머무름 시간과 참고 물질 ST2에서의 색인된 머무름 시간을 10 및 90으로 하였을 때, 상기 식 2의 'eRT2' 및 'iRT' 값에 참고 물질 ST1의 측정된 머무름 시간과 색인된 머무름 시간을 대입하고, 다음으로 참고 물질 ST2의 측정된 머무름 시간과 색인된 머무름 시간을 대입함으로써 b2 및 c2를 도출하여 상기 식 2를 완성할 수 있다.
이후, 상기 식 2에, 상기 제2 타겟 중합체의 색인된 머무름 시간인 iRT1(target) predict 내지 iRT10(target) predict을 각각 입력함으로써 제2 타겟 중합체의 실질 머무름 시간의 예측값인 eRT1(target) predict 내지 eRT10(target) predict를 얻을 수 있다.
도면에 도시하지는 않았지만, 상기 제2 관계식은 상기 참고 물질 중 3개 이상의 데이터를 조합하여 생성할 수 있고, 선형 회귀(linear regression), 서포트 벡터 머신(support vector machine; SVM), 랜덤 포레스트(random forest), 의사 결정 트리(decision tree) 및 그라데이션 부스트 머신(gradient boost machine; GBM) 중 적어도 한 개 이상에 의해 상기 참고 물질의 데이터를 학습하여 생성할 수 있다.
6. 제2 타겟 중합체의 최종 실질 머무름 시간 값의 도출(1)
다음으로 도 8에서와 같이, 상기 5.에서 얻은 10개의 제2 타겟 중합체의 실질 머무름 시간 예측값인 eRT1(target) predict 내지 eRT10(target) predict 값으로부터 하나의 최종 실질 머무름 시간 값인 eRT(target)_final predict를 도출하였다.
일 예시로는, 상기 eRT1(target) predict 내지 eRT10(target) predict 값의 평균값이거나, 혹은 중앙값이거나, 혹은 각 모델들의 학습 시 저장된 로스 값들의 최대값과 최소값을 제외한 나머지 값들의 평균으로 최종 예측값을 결정할 수도 있으며, 각 모델들의 예측값의 최대값과 최소값을 제외한 나머지 값들의 평균값 또는 중앙 값을 통해서 최종 실질 머무름 시간 값을 결정할 수도 있다.
다른 예시로는, 하기 식 7에서와 같이, 실시예 5에서 얻은 10개의 제2 타겟 중합체의 머무름 시간값인 eRT1(target) predict 내지 eRT10(target) predict 값을 가중 평균해서 제2 타겟 중합체의 머무름 시간을 예측하는 eRT(target)_final predict를 계산할 수 있다.
[식 7]
eRT(target)_final predict = a1*eRT1(target) predict + a2*eRT2(target) predict + a3*eRT3(target) predict ... + a10*eRT10(target) predict
상기 식 7에서,
a1 + a2 + a3 … + a10 = 1이다.
보다 상세하게는, 상기 식 7에서와 같이 각 예측 모델로부터 얻어진 제2 타겟 중합체의 실질 머무름 시간의 예측값에 가중치를 적용해서 최종 실질 머무름 시간을 획득할 수도 있다. 이때, 상기 가중치는 상기 모델들의 학습된 결정된 측정값(metric) 또는 검증 데이터(validation data)의 손실값(loss) 중 적어도 한 개 이상의 조합을 이용해서 결정할 수 있고, 예를 들면, 상기 제2 타겟 중합체의 서열에 대항하는 소수성(hydrophobicity) 값의 참고 물질의 차이값에 따라서 가중치를 다르게 적용할 수도 있다. 예를 들면, 상기 가중치는 제1 타겟 중합체와 각 예측 모델을 학습할 때 정한 참고 물질들의 소수성 차이 값이 상대적으로 적은 모델에서 예측된 eRT에는 더 높은 가중치를 부여하고, 소수성 차이 값이 상대적으로 큰 모델에서 예측된 eRT에는 더 낮은 가중치를 부여할 수 있다. 혹은, 상기 가중치는 각 예측 모델을 학습할 때 정한 각 세트 별 참고 물질들의 색인된 머무름 시간 으로부터 이들 값의 중앙값인 기준 색인된 머무름 시간(Base_iRT)을 생성한 뒤 이러한 Base_iRT 값과 제2 타겟 중합체의 머무름 시간 예측값의 (Pred_iRT)의 차이에 기반해서 상기 각 모델에서 예측한 제2 타겟 중합체의 Pred_iRT값들에 적용될 가중치를 결정할 수도 있다. 구체적인 예를 들면, 첫번째 예측 모델이 set-1(1)에 포함되는 두 개의 참고 물질의 색인된 머무름 시간을 각각 40 및 50으로 지정한 뒤 이러한 iRT값으로 학습을 수행하였다면, 상기 첫번째 예측 모델의 Base_iRT는 (40+50)/2=45로 정할 수 있다. 같은 방법으로 두번째 예측 모델이 set-1(2)에 포함되는 두 개의 참고 물질의 색인된 머무름 시간을 각각 50 및 70으로 지정한 뒤 이러한 iRT값으로 학습을 수행하였다면, 상기 모델의 Base_iRT는 (50+70)/2=60으로 정할 수 있다. 이러한 방식으로 10개의 예측 모델의 Base_iRT를 45, 50, 52, 54, 55, 60, 61, 64, 66, 71로 지정하였다. 이후, 이러한 예측 모델을 이용하여 제2 타겟 중합체의 서열에 기반한 Pred_iRT는 62로 예측되었고, 각 예측 모델 별 Base_iRT와 상기 Pred_iRT 차이의 절대 값은 17, 12, 10, 8, 7, 2, 1, 3, 4, 9로 계산되었다. 각 예측 모델 별 Base_iRT와 상기 Pred_iRT 차이의 절대 값이 가장 작은 경우를 0으로, 가장 큰 경우를 9로 지정하면 9, 8, 7, 5, 4, 1, 0, 2, 3, 6과 같은 배열을 획득할 수 있다. 이 획득한 배열 중 차이의 절대 값이 가장 작은 상위 3개만을 지정하여 각각 가중치를 0.5, 0.3, 0.2로 설정하였고, 나머지는 가중치를 0으로 설정하였다. 즉 상기 식 7의 수식의 a1 내지 a10 중 일부만 가중치를 부여하여 가중 평균값을 구하였다.
또한, 상기의 방법으로 가중치를 구한 이후에 하나의 대표값을 선정하는 경우에 있어서, 평균 또는 중위값 또는 가장 큰 값과 작은 값을 제외한 중위값 중 적어도 한 개 이상의 조합을 이용해서 구할 수도 있다.
7. 제2 타겟 중합체의 최종 실질 머무름 시간 예측값의 표시
앞서 계산된 제2 타겟 중합체의 실질 머무름 시간을 크로마토그램에 표시하였다. 일 예시로, 도 9에서와 같이, 예측하고자 하는 조건의 크로마토그래피에서 측정한 참고 물질 ST1과 참고 물질 ST2의 머무름 시간인 eRT2-r1 및 eRT2-r2와, 제2 관계식에 따라서 예측된 제2 타겟 중합체의 최종 실질 머무름 시간의 예측값을 스펙트럼 결과 표시부에 표시할 수 있다.
또한, 도 10에서와 같이, 상기 10개의 예측 모델들로부터 얻어진 제2 타겟 중합체의 실질 머무름 시간 예측값들인 eRT1(target) 내지 eRT10(target)를 범위로 하여 스펙트럼 구간으로 표시할 수도 있다. 이때 상기 범위는 예측된 값들인 eRT1(target) 내지 eRT10(target) 중 최소값 내지 최대값의 범위로 나타낼 수 있고, 혹은 상기 eRT1(target) 내지 eRT10(target)의 중앙 값을 기준으로 예측값의 최대값과 최소값 사이의 중심이 예측값의 중위값에 대응되게 해서 표시할 수도 있다.
또한, 도 11에서와 같이, 상기 10개의 예측 모델들로부터 얻어진 제2 타겟 중합체의 실질 머무름 시간 예측값을 범위와 특정값으로 동시에 표시할 수도 있다.
또한, 도 12에서와 같이, 상기 10개의 예측 모델들로부터 얻어진 제2 타겟 중합체의 실질 머무름 시간 예측값을 범위와 특정값을 동시에 표시하되, 각 예측되는 값들을 다른 색깔 또는 선분의 굵기 또는 선분의 형태(점선, 직선 등)중 적어도 한 개 이상의 조합을 이용해서 표시할 수도 있다.
8. 머무름 시간의 예측 성능 평가(1)
본 발명의 머무름 시간 예측 능력을 평가하기 위하여, 제2 타겟 중합체별 실제 머무름 시간 측정값과 모델을 통해 예측한 머무름 시간값(eRT)을 비교하였다. 구체적으로는 상기 1. 내지 6.에서 활용한 제2 타겟 중합체와 다른 타겟 중합체와 크로마토그래피를 사용한 별도의 실험을 실시하여, 각 경우의 머무름 시간 예측값과 실제 머무름 시간 측정값 간의 피어슨 상관계수와 차이의 평균값을 도출한 결과를, 하기 표 1에 나타내었다.
분류 예측값과 정답값 사이의 피어슨상관계수 예측값과 정답값(ERT)의 차이의 평균값(단위: 분)
싱글 모델을 통한 예측값(SINGLE_MODEL) 0.9544082535758929 0.6686682239087796
복수 개의 모델 생성 후 MEAN ENSEMBLE을 시행하여 얻은 예측값 0.9820257126151561 0.3772901068190545
복수 개의 모델 생성 후 WEIGHT MIN DISTANCE MEAN ENSEMBLE을 시행하여 얻은 예측값 0.9810834480736677 0.33677121991309833
상기 표 1에서 나타난 것처럼, 하나의 예측 모델을 생성하는 것보다 복수 개의 예측 모델을 생성하여 머무름 시간을 예측하는 경우가 피어슨 상관계수가 1에 가깝고 오차도 작아, 복수 개의 예측 모델을 사용한 경우들이 예측 능력이 더 높은 것을 알 수 있었다.
9. 머무름 시간 예측 성능 평가(2)
본 발명의 머무름 시간 예측 능력을 평가하기 위하여, 제2 타겟 중합체별 실제 머무름 시간 측정값과 모델을 통해 예측한 머무름 시간값(eRT)을 비교하였다. 구체적으로는 상기 1. 내지 6.에서 활용한 중합체와 다른 별도의 실험을 실시하여, 하나의 예측 모델로 도출한 머무름 시간 예측값과 실제 머무름 시간 측정값 간에 산점도를 확인하여 도 13에 나타내었고, 복수 개의 예측 모델로 도출한 머무름 시간 예측값과 실제 머무름 시간 측정값 간에 산점도를 확인하여 도 14에 나타내었다.
도 13 및 도 14에 나타난 것처럼, 하나의 예측 모델을 생성하는 것보다 복수 개의 예측 모델을 생성하여 머무름 시간을 예측하는 경우가 피어슨 상관계수가 1에 가깝고 오차도 작아, 복수 개의 예측 모델을 사용한 경우들이 예측 능력이 더 높은 것을 알 수 있었다.
10. 머무름 시간 예측 성능 평가(3)
본 발명의 머무름 시간 예측 능력을 평가하기 위하여, 제2 타겟 중합체별 실제 머무름 시간 측정값과 모델을 통해 예측한 머무름 시간값(eRT)을 비교하였다. 구체적으로는 상기 1. 내지 6.에서 활용한 중합체와 다른 별도의 실험을 실시하여, 복수 개의 모델 생성 후 평균 앙상블(MEAN ENSEMBLE)을 시행하여 얻은 예측값 및 복수 개의 모델 생성 후 최소무게거리 앙상블(WEIGHT MIN DISTANCE MEAN ENSEMBLE)을 시행하여 얻은 예측값을 산점도로 표시하여 도 15에 나타내었다.
도 15에 나타난 것처럼, Base_iRT의 거리에 기반해서 가중치를 준 데이터(Weight Median)이 예측 선에 데이터들이 몰려 있어서 좌측 Y값(True_ERT)과 하단 X값(Pred_ERT)의 상관성을 가장 높게 표현하고 있는 것을 확인할 수 있다.
이처럼 본 발명의 머무름 시간 예측 방법을 이용하는 경우 예측하고자 하는 제2 타겟 중합체의 머무름 시간을 높은 정확도로 예측할 수 있었다.
<110> BERTIS Inc. <120> Apparatus and method for predicting retention time in chromatographic analysis of an analyte <130> PDPB204203 <160> 2 <170> KoPatentIn 3.0 <210> 1 <211> 5 <212> PRT <213> Artificial Sequence <220> <223> peptide fragment <400> 1 Glu Ser Ser Thr Arg 1 5 <210> 2 <211> 7 <212> PRT <213> Artificial Sequence <220> <223> peptide fragment <400> 2 Gly Ala Ala Phe Val Ser Lys 1 5

Claims (27)

  1. 제1 타겟 중합체 및 각각 상이한 머무름 시간을 가진 적어도 2개의 제1 참고 물질을 준비하는 단계; 상기 제1 타겟 중합체 및 제1 참고 물질의 머무름 시간을 측정하거나 측정된 결과를 수신하는 단계; 상기 제1 타겟 중합체의 머무름 시간(eRT1-t)을 임의의 색인된 머무름 시간(iRT1-t)으로 변환시키고, 이때 상기 제1 참고 물질로부터 복수 개의 세트로 분류하는 단계; 인공 신경망을 통해 상기 분류된 복수개 세트의 제 1 참고 물질과 상기 제1 타겟 중합체에 대한 정보와 도출된 색인된 머무름 시간 사이의 상관 관계를 학습시켜 상기 제1 타겟 중합체의 정보에 따른 색인된 머무름 시간을 예측하는 복수의 예측 모델을 생성하는 단계;
    상기 복수의 예측 모델을 이용하여 제2 타겟 중합체의 정보에 근거해 상기 제2 타겟 중합체의 색인된 머무름 시간(iRT2-t)을 예측하는 단계;
    및 상기 예측된 제2 타겟 중합체의 색인된 머무름 시간(iRT2-t)으로부터 제2 타겟 중합체의 실질 머무름 시간(eRT2-t)을 예측하는 단계를 포함하고, 상기 복수의 예측 모델 별 도출된 제2 타겟 중합체의 실질 머무름 시간(eRT2-t)의 예측값으로부터 하나의 최종 실질 머무름 시간(eRTfinal-t)을 얻으며, 상기 최종 실질 머무름 시간(eRTfinal-t)은 상기 복수 개의 실질 머무름 시간 예측값의 중앙값, 평균값 또는 상기 복수 개의 실질 머무름 시간 예측값에 가중치를 부여하여 최소무게거리 앙상블(WEIGHT MIN DISTANCE MEAN ENSEMBLE)을 사용하는, 머무름 시간을 예측하는 방법.
  2. 제1항에 있어서,
    상기 제1 타겟 중합체는 유기 분자, 표적 지질, 표적 탄수화물, 표적 DNA 단편, 표적 RNA 단편 및 펩타이드에서 선택된 어느 하나 이상인, 방법.
  3. 제1항에 있어서,
    상기 제1 타겟 중합체는 2개 이상 포함되는 것인, 방법.
  4. 삭제
  5. 제1항에 있어서,
    상기 제1 타겟 중합체의 머무름 시간(eRT1-t)을 임의의 색인된 머무름 시간(iRT1-t)으로 변환시키는 단계 시 상기 적어도 2개의 제1 참고 물질의 측정된 머무름 시간과 색인된 머무름 시간 사이의 상관 관계인 제1 관계식을 도출하는 단계; 및 상기 제1 관계식에 상기 제1 타겟 중합체의 측정된 머무름 시간을 대입하여 색인된 머무름 시간(iRT1-t)을 도출하는 단계를 더 포함하는, 방법.
  6. 제5항에 있어서,
    상기 제1 관계식은 선형 회귀(linear regression), 서포트 벡터 머신(support vector machine; SVM), 랜덤 포레스트(random forest), 의사 결정 트리(decision tree) 및 그라데이션 부스트 머신(gradient boost machine; GBM) 중 적어도 한 개 이상에 의해 생성된 것인, 방법.
  7. 제1항에 있어서,
    상기 인공 신경망은 심층 신뢰 신경망(Deep Belief Network; DBN), 합성곱 신경망(Convolutional Neural Network; CNN), 및 순환 신경망(Recurrent Neural Network; RNN) 중 적어도 하나인, 방법.
  8. 제1항에 있어서,
    상기 학습은 복수 개의 상이한 인공 신경망을 사용하여 이루어지는 것인, 방법.
  9. 제1항에 있어서,
    상기 제2 타겟 중합체는 유기 분자, 표적 지질, 표적 탄수화물, 표적 DNA 단편, 표적 RNA 단편 및 펩타이드에서 선택된 어느 하나 이상인, 방법.
  10. 삭제
  11. 삭제
  12. 제5항에 있어서,
    적어도 2개의 제2 참고 물질의 머무름 시간을 측정하거나 측정된 결과를 수신하는 단계를 더 포함하고,
    상기 실질 머무름 시간(eRT2-t)을 예측하는 단계는 상기 제2 참고 물질의 측정된 머무름 시간과 색인된 머무름 시간 사이의 상관 관계인 제2 관계식을 도출하는 단계; 및 상기 제2 관계식에 상기 제2 타겟 중합체의 색인된 머무름 시간을 대입하여 실질 머무름 시간(eRT2-t)을 예측하는 단계를 더 포함하는, 방법.
  13. 제12항에 있어서,
    상기 제2 관계식을 도출하는 단계에 앞서, 상기 제2 참고 물질을 복수 개의 세트를 포함하는 제2 세트로 분류하는 단계를 포함하고, 각 세트는 제2 참고 물질 중 적어도 일부를 포함하는, 방법.
  14. 삭제
  15. 삭제
  16. 제1 항에 있어서,
    상기 가중치는 상기 예측 모델을 생성하는 단계에서 결정된 측정값(metric) 및 검증 데이터의 손실값(loss) 중 적어도 한 개 이상을 사용하여 얻어지는, 방법.
  17. 제12항에 있어서,
    상기 가중치는 상기 제2 타겟 중합체와 상기 제2 참고 물질 간의 물리적 특성의 유사도에 따라 결정되고,
    상기 물리적 특성은 상기 중합체를 구성하는 모노머의 개수 또는 상기 중합체의 소수성인, 방법.
  18. 제1항에 있어서,
    상기 가중치는 각각의 예측 모델 생성 시 사용된 복수 개의 제1 참고 물질의 머무름 시간(iRT2-rq)의 평균값 또는 중앙값과 해당 예측 모델로부터 도출된 제2 타겟 중합체의 색인된 머무름 시간의 차의 절대 값이 작을수록 높은 값으로 부여되는 것인, 방법.
  19. 제1 타겟 중합체 및 적어도 2개의 제1 참고 물질의 머무름 시간을 측정하거나 측정된 결과를 수신하는 제1 수신 모듈; 상기 제1 타겟 중합체의 머무름 시간(eRT1-t)을 임의의 색인된 머무름 시간(iRT1-t)으로 변환시키고, 변환시키고, 이때 상기 제1 참고 물질로부터 복수 개의 세트로 분류하는 제1 연산 모듈;
    인공 신경망을 통해 상기 분류된 복수개 세트의 제 1 참고 물질과 상기 제1 타겟 중합체에 대한 정보와 도출된 색인된 머무름 시간 사이의 상관 관계를 학습시켜 서열 정보에 따른 색인된 머무름 시간을 예측하는 복수의 예측 모델을 생성하는 제2 연산 모듈;
    상기 복수의 예측 모델을 이용하여 제2 타겟 중합체의 정보에 근거해 상기 제2 타겟 중합체의 색인된 머무름 시간(iRT2-t)을 예측하는 제3 연산 모듈; 및
    상기 예측된 제2 타겟 중합체의 색인된 머무름 시간(iRT2-t)으로부터 제2 타겟 중합체의 실질 머무름 시간을 예측하는 제4 연산 모듈을 포함하고, 상기 제4 연산 모듈로부터 얻어진 복수 개의 제2 타겟 중합체의 실질 머무름 시간(eRT2-t)의 예측값으로 부터 하나의 최종 실질 머무름 시간(eRTfinal-t)을 얻는 제5 연산 모듈을 포함하며, 상기 제5 연산 모듈은 상기 복수 개의 제2 타겟 중합체의 실질 머무름 시간의 예측값의 중앙값, 평균값 또는 상기 복수 개의 제2 타겟 중합체의 실질 머무름 시간의 예측값에 가중치를 부여하여 최소무게거리 앙상블(WEIGHT MIN DISTANCE MEAN ENSEMBLE)을 사용하는 최종 실질 머무름 시간(eRTfinal-t)을 도출하는 장치.
  20. 삭제
  21. 제19항에 있어서,
    상기 제1 연산 모듈은 상기 적어도 2개의 제1 참고 물질을 하나 이상의 세트를 포함하는 제1 세트로 분류하는 제1 세트 생성부를 더 포함하고,
    상기 제1 연산 모듈은 상기 제1 세트의 각 세트 별 상기 적어도 2개의 제1 참고 물질의 측정된 머무름 시간과 색인된 머무름 시간 사이의 상관 관계인 제1 관계식을 도출한 뒤 상기 제1 관계식에 상기 제1 타겟 중합체의 측정된 머무름 시간을 대입하여 색인된 머무름 시간(iRT1-t)을 도출하는 것인, 장치.
  22. 제19항에 있어서,
    상기 인공 신경망은 심층 신뢰 신경망(Deep Belief Network; DBN), 합성곱 신경망(Convolutional Neural Network; CNN) 및 순환 신경망(Recurrent Neural Network; RNN) 중 적어도 한 개 이상인, 장치.
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
  27. 삭제
KR1020200189497A 2020-12-31 2020-12-31 피분석물의 크로마토그래피 분석 시 머무름 시간 예측 장치 및 방법 KR102288744B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020200189497A KR102288744B1 (ko) 2020-12-31 2020-12-31 피분석물의 크로마토그래피 분석 시 머무름 시간 예측 장치 및 방법
PCT/KR2021/005369 WO2022145590A1 (ko) 2020-12-31 2021-04-28 피분석물의 크로마토그래피 분석 시 머무름 시간 예측 장치 및 방법
US18/270,528 US20240053309A1 (en) 2020-12-31 2021-04-28 An apparatus and method for predicting retention time in chromatographic analysis of analyte

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200189497A KR102288744B1 (ko) 2020-12-31 2020-12-31 피분석물의 크로마토그래피 분석 시 머무름 시간 예측 장치 및 방법

Publications (1)

Publication Number Publication Date
KR102288744B1 true KR102288744B1 (ko) 2021-08-12

Family

ID=77314467

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200189497A KR102288744B1 (ko) 2020-12-31 2020-12-31 피분석물의 크로마토그래피 분석 시 머무름 시간 예측 장치 및 방법

Country Status (3)

Country Link
US (1) US20240053309A1 (ko)
KR (1) KR102288744B1 (ko)
WO (1) WO2022145590A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024089143A1 (en) * 2022-10-28 2024-05-02 F. Hoffmann-La Roche Ag Determining hplc method parameters using machine learning

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140236497A1 (en) * 2011-09-28 2014-08-21 BiognoSYS AG Methods and systems for experimental set-up and data analysis in targeted proteomics applications
US20150140593A1 (en) * 2012-03-16 2015-05-21 National Research Council Of Canada Retention index standards for liquid chromatography
KR101958900B1 (ko) * 2017-07-05 2019-03-18 서울대학교산학협력단 액체 크로마토그래프 질량 분석을 이용한 시료의 정량 분석 장치 및 방법
KR20200143551A (ko) * 2019-06-13 2020-12-24 부경대학교 산학협력단 화합물의 크로마토그래피 용출 순서를 예측하는 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140236497A1 (en) * 2011-09-28 2014-08-21 BiognoSYS AG Methods and systems for experimental set-up and data analysis in targeted proteomics applications
US20150140593A1 (en) * 2012-03-16 2015-05-21 National Research Council Of Canada Retention index standards for liquid chromatography
KR101958900B1 (ko) * 2017-07-05 2019-03-18 서울대학교산학협력단 액체 크로마토그래프 질량 분석을 이용한 시료의 정량 분석 장치 및 방법
KR20200143551A (ko) * 2019-06-13 2020-12-24 부경대학교 산학협력단 화합물의 크로마토그래피 용출 순서를 예측하는 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Yi Yang 등, nature communications, 2020.(2020.01.09.)* *

Also Published As

Publication number Publication date
WO2022145590A1 (ko) 2022-07-07
US20240053309A1 (en) 2024-02-15

Similar Documents

Publication Publication Date Title
CN108629365B (zh) 分析数据解析装置以及分析数据解析方法
Laurino et al. Astroinformatics of galaxies and quasars: a new general method for photometric redshifts estimation
Geach Unsupervised self-organized mapping: a versatile empirical tool for object selection, classification and redshift estimation in large surveys
CN110689920A (zh) 一种基于深度学习的蛋白质-配体结合位点预测算法
US20190179874A1 (en) Analysis data processing method and analysis data processing device
CN105158200B (zh) 一种提高近红外光谱定性分析准确度的建模方法
CN110726694A (zh) 光谱变量梯度集成遗传算法的特征波长选择方法和系统
CN104170052A (zh) 用于改进的质谱分析法定量作用的方法和装置
US8010296B2 (en) Apparatus and method for removing non-discriminatory indices of an indexed dataset
KR102288744B1 (ko) 피분석물의 크로마토그래피 분석 시 머무름 시간 예측 장치 및 방법
CN111795944B (zh) 一种改进团队进步算法的近红外光谱波长筛选方法
Wu et al. PB-Net: Automatic peak integration by sequential deep learning for multiple reaction monitoring
Lu et al. DIAmeter: matching peptides to data-independent acquisition mass spectrometry data
CN117461087A (zh) 用于鉴别质谱中的分子种类的方法和装置
Masoum et al. Discrimination of wines based on 2D NMR spectra using learning vector quantization neural networks and partial least squares discriminant analysis
Koo et al. Analysis of Metabolomic Profiling Data Acquired on GC–MS
GB2585258A (en) Mass spectrometric method for determining the presence or absence of a chemical element in an analyte
US20230410947A1 (en) Systems and methods for rapid microbial identification
CN115171790A (zh) 质谱的数据序列在质量评估中的分析方法、装置和存储介质
CN113945537A (zh) 一种高准确度近红外光谱定量模型建立方法
Ballabio et al. Classification of multiway analytical data based on MOLMAP approach
CN112151109A (zh) 用于评价生物分子交联质谱鉴定随机性的半监督学习方法
Gui et al. Application of K-nearest neighbors in protein-protein interaction prediction
CN111595802A (zh) 一种基于nir光谱的忧遁草种源地分类模型的构建方法及应用
Altenburg et al. AHLF: ad hoc learning of fragmentation patterns in mass spectra detects post-translationally modified peptides prior to database search

Legal Events

Date Code Title Description
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant