KR20210110226A - 펩타이드 특성 학습 기반 액체 크로마토그래프 질량 분석에서 펩타이드 생성이온의 스펙트럼 양상을 예측하는 시스템 - Google Patents

펩타이드 특성 학습 기반 액체 크로마토그래프 질량 분석에서 펩타이드 생성이온의 스펙트럼 양상을 예측하는 시스템 Download PDF

Info

Publication number
KR20210110226A
KR20210110226A KR1020210026498A KR20210026498A KR20210110226A KR 20210110226 A KR20210110226 A KR 20210110226A KR 1020210026498 A KR1020210026498 A KR 1020210026498A KR 20210026498 A KR20210026498 A KR 20210026498A KR 20210110226 A KR20210110226 A KR 20210110226A
Authority
KR
South Korea
Prior art keywords
peptide
learning
unit
predicting
peptides
Prior art date
Application number
KR1020210026498A
Other languages
English (en)
Other versions
KR102352444B1 (ko
Inventor
신현석
김성수
Original Assignee
주식회사 베르티스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 베르티스 filed Critical 주식회사 베르티스
Publication of KR20210110226A publication Critical patent/KR20210110226A/ko
Priority to KR1020220005006A priority Critical patent/KR20220012383A/ko
Application granted granted Critical
Publication of KR102352444B1 publication Critical patent/KR102352444B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8693Models, e.g. prediction of retention times, method development and validation
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/62Detectors specially adapted therefor
    • G01N30/72Mass spectrometers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/62Detectors specially adapted therefor
    • G01N30/72Mass spectrometers
    • G01N30/7233Mass spectrometers interfaced to liquid or supercritical fluid chromatograph
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8624Detection of slopes or peaks; baseline correction
    • G01N30/8631Peaks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/86Signal analysis
    • G01N30/8675Evaluation, i.e. decoding of the signal into analytical information
    • G01N30/8679Target compound analysis, i.e. whereby a limited number of peaks is analysed
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/88Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N30/00Investigating or analysing materials by separation into components using adsorption, absorption or similar phenomena or using ion-exchange, e.g. chromatography or field flow fractionation
    • G01N30/02Column chromatography
    • G01N30/88Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86
    • G01N2030/8809Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86 analysis specially adapted for the sample
    • G01N2030/8813Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86 analysis specially adapted for the sample biological materials
    • G01N2030/8831Integrated analysis systems specially adapted therefor, not covered by a single one of the groups G01N30/04 - G01N30/86 analysis specially adapted for the sample biological materials involving peptides or proteins

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Library & Information Science (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

본 발명은 펩타이드의 특성을 기계 학습하여 스펙트럼 양상을 예측하는 학습 데이터를 형성하여 효율인 확인하고자 하는 시료의 스펙트럼을 해석을 수행할 수 있는 펩타이드의 스펙트럼 양상을 예측하는 시스템을 제공한다.

Description

펩타이드 특성 학습 기반 액체 크로마토그래프 질량 분석에서 펩타이드 생성이온의 스펙트럼 양상을 예측하는 시스템{A SYSTEM OF PREDICTING SPECTRUM PROFILE OF PEPTIDE PRODUCT ION FOR LIQUID CHROMATOGRAPH MASS SPECTROMETRY BASED ON PEPTIDE CHARACTERISTIC LEARNING}
본 발명은 펩타이드 특성 학습을 기반으로 한 액체 크로마토그래프 질량 분석(Liquid Chromatograph-Mass Spectrometry; LC-MS)을 이용한 펩타이드 생성이온(product ion)의 스펙트럼 양상을 예측하는 시스템 및 이를 이용한 방법에 관한 것으로, 보다 상세하게는 펩타이드 생성이온 스펙트럼의 피크를 해석하는 방법에 관련된 기술이다.
LC-MS를 이용한 펩타이드(peptide)의 정량기법에는 주로 펩타이드 조각(peptide fragment) 즉 생성이온(product ion) 중, 최고 피크(highest peak)를 가진 조각(fragment)을 포함하는 피크 크로마토그램을 정량화한다. 펩타이드 조각화법(Peptide fragmentation) 중 충돌 유도 해리법(collision-induced dissociation: CID) 은 삼중-사중쌍 질량분석기(triple-quadruple mass spectrometry) 기계에서 많이 사용되며, 질소 가스의 물리적 충격으로 이온화 된 펩타이드들을 조각내는 방법으로 같은 체류시간(retention time(RT))을 가진 물질들과 분리해 낸다. 한편, 한국특허 제 10-2020-0143551호를 보면, 정량적 구조-체류 관계(quantitative structure-retention relationship, QSRR) 관계식을 모델링하는 단계; 및 수리 계획법(mathematical programming)을 이용해 상기 QSRR 관계식으로부터 혼합물 내 화합물의 크로마토그래피 용출 순서를 예측하는 방법이 개시되어 있지만, 펩타이드 조각화법에 대한 내용은 포함되어 있지 않았다.
펩타이드를 LC-MS/MS에서 구분해내기 위해서는 고가의 표준 펩타이드(standard heavy peptide)를 사용하는 경우가 많다. 따라서 다중 바이오마커 개발과 같은 여러 단백질과 그 단백질 유래의 펩타이드들에 대한 연구를 하기 위해서는 각각 표준 펩타이드를 사용해야 하는데 그 비용이 매우 많이 들고 피크의 강도가 약한 경우 노이즈와 섞이는 문제가 있다. 상기 문제를 해결하기 위해, 본 발명의 발명자는 펩타이드가 조각화 또는 분할되는 모든 패턴 또는 프로파일을 예측하여, 한번의 다중 반응 모니터링 (MRM: multiple reaction monitoring) 실행 시 측정할 수 있는 단백질들의 개수를 증가시키고, 노이즈의 원인이 되는 즉 체류시간(RT)과 질량전하비(M/Z) 값이 유사하여 겹치는 다른 펩타이드의 피크들과도 구분할 수 있게 되었다.
본 발명은 펩타이드의 특성을 기계 학습하여 스펙트럼 양상을 예측하는 학습 데이터를 형성하고, 확인하고자 하는 시료의 스펙트럼을 해석을 효율적으로 수행할 수 있는 펩타이드의 스펙트럼 양상을 예측하는 시스템을 제공한다.
일 구체예에서, 펩타이드의 스펙트럼 양상을 예측하는 시스템은 복수개의 학습용 펩타이드 서열 및 상기 복수개의 학습용 펩타이드에 대응되는 스펙트럼 데이터를 획득하는 데이터 획득부;
미리 결정된 복수의 학습 모델을 포함하고, 상기 복수의 학습용 펩타이드 서열의 복수개의 특성을 추출하고, 상기 복수개의 특성 및 상기 복수개의 학습용 펩타이드에 대응되는 스펙트럼을 상기 복수의 학습 모델의 각각의 입력 값으로 이용하여 학습을 수행하고, 상기 복수의 학습 모델이 출력하는 펩타이드 분석 학습 데이터를 획득하는 기계 학습부; 및
상기 펩타이드 분석 학습 데이터를 이용하여 상기 확인하고자 하는 펩타이드에 대응되는 스펙트럼 데이터의 스펙트럼 양상을 예측하는 피크 예측부;를 포함한다.
상기 기계 학습부는, 상기 학습용 펩타이드에 포함된 아미노산 서열 종류 정보를 입력 값으로 학습하는 제1학습 모델;을 포함할 수 있다. 상기 제1학습 모델은, 순환 신경망 (Recurrent Neural network; RNN)으로 구현될 수 있다. 상기 기계 학습부는, 상기 단위 펩타이드의 전하, 질량, 길이 및 상기 단위 펩타이드에 프롤린의 포함 유무를 입력 값으로 학습하는 제2학습 모델;을 포함할 수 있다. 상기 제2학습 모델은, 적어도 하나의 완전연결 레이어(Fully connected layer)로 구현될 수 있다. 상기 기계 학습부는, 상기 2개 이상의 단위 펩타이드에 대응 되는 분할화 정보를 입력 값으로 학습하는 제3학습 모델;을 포함할 수 있다. 상기 제3학습 모델은, 합성곱 신경망(Convolutional Neural Network: CNN)로 구현될 수 있다. 상기 기계 학습부는, 상기 단위 펩타이드의 분열이 시작되는 위치를 기준으로 C방향 및 N방향 각각에 대응되는 상기 복수개의 펩타이드 생성이온의 분할 서열을 예측할 수 있다. 상기 기계 학습부는, 상기 복수의 학습 모델 각각에 미리 결정된 가중치를 부여하여 상기 펩타이드 분석 학습 데이터를 획득할 수 있다.
상기 피크 예측부는, 상기 확인하고자 하는 펩타이드에 대응되는 상기 스펙트럼 양상을 결정할 수 있다.
일 실시예에서, 펩타이드의 스펙트럼 양상을 예측하는 시스템은 복수개의 학습용 펩타이드 서열 및 상기 복수개의 학습용 펩타이드에 대응되는 스펙트럼 데이터를 획득하는 데이터 획득부; 및
미리 결정된 복수의 학습 모델을 포함하고, 상기 복수의 학습용 펩타이드 서열의 복수개의 특성을 추출하고, 상기 복수개의 특성 및 상기 복수개의 학습용 펩타이드에 대응되는 스펙트럼을 상기 복수의 학습 모델의 각각의 입력 값으로 이용하여 학습을 수행하고, 상기 복수의 학습 모델이 출력하는 펩타이드 분석 학습 데이터를 획득하는 기계 학습부;
상기 기계 학습부는 예측된 스펙트럼과 실측 스펙트럼을 비교하여 학습하는 것을 추가로 포함한다.
상기 기계 학습부는, 상기 학습용 펩타이드에 포함된 아미노산 서열 종류 정보를 입력 값으로 학습하는 제1학습 모델;을 포함할 수 있고, 상기 단위 펩타이드의 전하, 질량, 길이 및 상기 단위 펩타이드에 프롤린의 포함 유무를 입력 값으로 학습하는 제2학습 모델;을 포함할 수 있으며, 상기 2개 이상의 단위 펩타이드에 대응 되는 분할화 정보를 입력 값으로 학습하는 제3학습 모델;을 포함할 수 있다.
일 실시예에서, 각 학습 모델은 복수의 학습용 펩타이드를 이용하여 특정 펩타이드의 LC-MS에서 피크를 예측하는 데이터를 학습할 수 있다. 본 발명에서 LC-MS는 액체 크로마토그래피-질량분석(liquid chromatography-Mass Spectrometry, LC-MS), LC-MS/MS(liquid chromatography-Mass Spectrometry/ Mass Spectrometry)를 의미하며, 액체 크로마토그래프(LC)의 검출부에 질량분석기(mass-spectrometry; MS)를 사용하는 분석 시스템을 의미할 수 있다. 본 발명에서 질량분석기(mass-spectrometry; MS)를 이용한 다중 반응 모니터링 (multiple reaction monitoring; MRM) 방법은 특정 분석물질을 선택적으로 분리하여 검출하고 정량하여 그 농도변화를 모니터링할 수 있는 분석기술이다. 본 발명에서 질량분석기는 이온화된 분자의 질량 대 전하비를 측정하는 방법으로 가속된 이온이 선택적으로 질량 대 전하비에 적합한 전기장이나 자기장을 지나게 할 수 있다. 또한 일 실시예에 다른 질량 분석기는 다른 질량 대 전하비를 갖는 분자는 걸러지고 목적한 분자만이 펩타이드의 스펙트럼 양상을 예측하는 시스템에 에너지를 전달하여 전자 신호의 세기로 크로마토그램 피크(peak)를 시각화 시켜 분자의 농도를 파악할 수 있다. 본 발명의 질량분석기는 SRM 또는 MRM일 수 있으나, 이에 제한되는 것은 아니다.
일구체예에서, MRM은 생체 시료 중에 존재하는 미량의 바이오마커와 같은 물질을 정량적으로 정확하게 다중 측정할 수 있는 방법을 의미할 수 있다. MRM은 작은 분자의 정량분석에 활용되어 특정 질환을 진단하는데 쓰이고 있다. MRM 방법은 다수의 펩타이드를 동시에 측정하기에 용이하며, 항체가 없이 정상인과 암환자 사이에서 단백질 진단 마커 후보들의 상대적 농도차를 확인할 수 있다는 장점이 있다. 또한 민감도와 선택성이 탁월하여 특히, 질량분석기를 이용한 단백체(proteome) 분석에서 혈액 내에 있는 복잡한 단백질을 펩타이드로 절편화시키고 특정 단백질을 대표할 수 있는 펩타이드를 선별하여, 선별된 다수의 펩타이드를 동시 분석하기 위해 MRM 분석방법이 도입되고 있다.
일구체예에서, 본 발명은 충돌유도해리를 사용하는 질량분석계에 적용할 수 있다. 본 발명에서 충돌유도해리(Collision-induced dissociation; CID)는 충돌 활성화 해리(collisionally activated dissociation; CAD)라고도 불리며 질량분광 시에 기체상의 분자이온이 생성되는 기전. 질량 분석계에서, CID는 가스상의 분자 이온을 조각내는 메커니즘을 의미할 수 있다. 분자 이온들은 대개 일부 전기 포텐셜에 의해 가속되어 높은 운동 에너지를 가지게 되고 중성 분자(종종 헬륨, 질소, 아르곤)와 충돌하게 된다. 충돌에서 운동에너지의 일부는 내부에너지로 변환되고 결합의 파손을 일으켜 분자 이온을 작은 조각으로 만든다. 이러한 이온 조각은 질량 분석계를 이용하여 분석 할 수 있다. 본 명세서에서 학습용 펩타이드는 학습을 위하여 개체로부터 얻어지거나 개체로부터 유래된 임의의 물질, 생물학적 체액, 조직 또는 세포를 의미할 수 있다.
본 발명에서 "생물학적 시료"는 개체로부터 얻어지거나 개체로부터 유래된 임의의 물질, 생물학적 체액, 조직 또는 세포를 의미하는 것으로, 예를 들면, 전혈(whole blood), 백혈구(leukocytes), 말초혈액 단핵 세포(peripheral blood mononuclear cells), 백혈구 연층(buffy coat), 혈장(plasma), 혈청(serum), 객담(sputum), 눈물(tears), 점액(mucus), 세비액(nasal washes), 비강 흡인물(nasal aspirate), 호흡(breath), 소변(urine), 정액(semen), 침(saliva), 복강 세척액(peritoneal washings), 복수(ascites), 낭종액(cystic fluid), 뇌척수막 액(meningeal fluid), 양수(amniotic fluid), 선액(glandular fluid), 췌장액(pancreatic fluid), 림프액(lymph fluid), 흉수(pleural fluid), 유두 흡인물(nipple aspirate), 기관지 흡인물(bronchial aspirate), 활액(synovial fluid), 관절 흡인물(joint aspirate), 기관 분비물(organ secretions), 세포(cell), 세포 추출물(cell extract) 또는 뇌척수액(cerebrospinal fluid)을 포함할 수 있지만, 바람직하게는 발병 가능성이 높은 환자의 피부를 절개하지 않고 중공침 등을 생체 내 기관에 자입하여 병리조직학적 검사용으로 채취한 액체 생검(예를 들면, 환자의 조직, 세포, 혈액, 혈청, 혈장, 타액, 객담 또는 복수(ascites) 등)일 수 있다.
본 발명에서 “펩타이드”(peptide)는 아미노산 단위체들이 인공적으로 혹은 자연 발생적으로 연결된 중합체이다. 아미노산의 조합에 따라 펩타이드의 기능이 달라지며, 각각의 아미노산은 펩타이드 결합이라는 공유결합으로 연결되어 있다. 펩타이드 결합은 아미노산의 카르복실기(-COOH)와 아미노기(NH2-) 사이에 아마이드 결합(-CO-NH-)의 공유결합이 형성되는 화학 결합이다. 반응 중에 물 분자가 형성되는 탈수 반응이 일어난다. 이와 같은 과정으로 펩타이드는 아미노기가 있는 N말단(amino-terminal)과 카르복실기가 있는 C말단(carboxyl-terminal)을 가지게 되며, 이는 펩타이드의 방향성을 나타내준다. 본 발명에서 펩타이드는 텐덤 질량분석기(tandem mass-spectrometry; MS)에서 이온화 되어 고유한 질량 대 전하비(m/z) 값을 가지게 되며, 충돌 활성화 해리를 통해 펩타이드 조각(peptide fragment)으로 조각화 또는 분할화(fragmentation)되고, 조각화된 펩타이드 이온을 생성이온(product ion)이라 한다. 이때, 펩타이드 특성에 따른 고유의 “조각화” 또는 “분할화” 정보, 즉 생성이온의 정보를 수득할 수 있다. 한편, 펩타이드 조각(peptide fragment)으로 조각화 또는 분할화되기 전 펩타이드 이온을 "전구체이온(precursor ion)"이라고 한다.
본 발명의 “아미노산 또는 펩타이드 특성 또는 특징 정보”란 이에 한정하지는 않지만 아미노산 펩타이드의 서열의 종류, 충돌에너지(collision energy: CE), 전하량, 서열길이 , 이온화도, 친수성, 프롤린의 개수 및 분할화 정보 등의 정보로 특정 아미노산 펩타이드의 고유의 값이다.
본 발명의 일구체예에서 LC-MS는 액상 크로마토그래피-질량분석(liquid chromatography-Mass Spectrometry, LC-MS), LC-MS/MS(liquid chromatography-Mass Spectrometry/ Mass Spectrometry)를 의미하며, 액체 크로마토그래프의 검출부에 질량분석기(mass-spectrometry; MS)를 사용하는 분석 시스템을 말한다.
본 발명의 일 구체예에서 질량분석기는 시료로부터 이온화된 분자나 원자를 질량 대 전하비에 맞는 선별적인 전자기장을 통해, 특정한 질량 전하비를 갖는 분자가 검출부(detector)에서 충돌하면서 발생하는 충돌에너지를 전기에너지로 변환됨에 따라 정량하게 되는 원리를 갖는다. 본 발명의 질량분석기는 SRM 또는 MRM일 수 있으나, 이에 제한되는 것은 아니다. 본 발명에서 질량분석기(mass-spectrometry; MS)를 이용한 다중 반응 모니터링 (MRM) 방법은 특정 분석물질을 선택적으로 분리하여 검출하고 정량하여 그 농도변화를 모니터링할 수 있는 분석기술이다. MRM은 생체 시료 중에 존재하는 미량의 바이오마커와 같은 물질을 정량적으로 정확하게 다중 측정할 수 있는 방법으로 제 1 질량필터 (Q1)를 이용하여 특정 이온 (어미이온(mother ion) 또는 전구체이온(precursor ion)이라 함)을 선별하지만, 더욱 정확한 측정을 위해 선별된 이온을 선택적으로 충돌관으로 전달한다. 이어 충돌관에 도달한 어미이온은 제2 질량 필터(Q2)에서 내부 충돌기체와 충돌하여, 쪼개져 생성이온(product ion, 또는 딸이온(daughter ion))을 생성하고 제3 질량 필터 (Q3)로 보내져, 여기서 여러 개의 생성이온들이 갖는 특정 m/z값에 해당하는 이온들만 검출부(detector)로 전달된다. 이런 방식으로 목적하는 성분의 정보만을 검출할 수 있는 선택성 및 민감도가 높은 분석방법이다. MRM 방법은 다수의 펩타이드를 동시에 측정하기에 용이하며, 항체가 없이 정상인과 암환자 사이에서 단백질 진단 마커 후보들의 상대적 농도차를 확인할 수 있다는 장점이 있다. 또한 민감도와 선택성이 탁월하여 특히, 질량분석기를 이용한 프로테옴 분석에서 혈액 내에 있는 복잡한 단백질과 펩타이드의 분석을 위해 MRM 분석방법이 도입되고 있다(Anderson L. et al., Mol CellProteomics, 5: 375-88, 2006; DeSouza, L. V. et al., Anal. Chem., 81: 3462-70, 2009 참조).
본 발명의 일 구체예에서 4개의 아미노산(amino acid)의 분열화 단위로 분열화에 대한 확률 또는 강도(intensity)를 계산한다.
본 발명의 일 구체예에서, 하기 표 1과 같이, 총 전하, 소수성(hydrophobicity), 질량, M/Z 및 Y 조각화 예측은 하기와 같이 계산할 수 있으나, 이에 한정하지는 않는다.
Figure pat00001
일 실시예에 따른 펩타이드의 스펙트럼 양상을 예측하는 시스템은 펩타이드 및 펩타이드의 스펙트럼을 기계 학습한 스펙트럼 양상을 예측하는 학습 데이터를 형성하여 효율적인 확인하고자 하는 시료의 스펙트럼을 해석을 수행할 수 있다.
일 실시예에 따른 펩타이드의 스펙트럼 양상을 예측하는 시스템은 피크 분석에 방해가 되는 노이즈가 무엇인지를 쉽게 파악할 수 있다.
도 1은 일 실시예에 따른 펩타이드의 스펙트럼 양상을 예측하는 시스템의 블록 도면이다.
도 2는 일 실시예에 따른 펩타이드의 분할 서열을 개략적으로 나타낸 도면이다.
도3 내지 도 5는 펩타이드 분할 서열간 상호 관계를 나타낸 도면이다.
도 6은 일 실시예에 따른 확인하고자 하는 펩타이드의 스펙트럼 및 스펙트럼 양상을 예측하는 동작을 설명하기 위한 도면이다.
도 7은 일 실시예에 따른 펩타이드의 스펙트럼 양상을 예측하는 시스템이 학습 데이터를 생성하는 동작을 설명하기 위한 도면이다.
도 8은 일 실시예에 따른 본 발명의 순서도이다.
이하, 본원에 기재된 다양한 구체예가 도면을 참조로 기재된다. 하기 설명에서, 본 발명의 완전한 이해를 위해서, 다양한 특이적 상세사항, 예컨대, 특이적 형태, 조성물 및 공정 등이 기재되어 있다. 그러나, 특정의 구체예는 이들 특이적 상세 사항 중 하나 이상 없이, 또는 다른 공지된 방법 및 형태와 함께 실행될 수 있다. 다른 예에서, 공지된 공정 및 제조 기술은 본 발명을 불필요하게 모호하게 하지 않게 하기 위해서, 특정의 상세사항으로 기재되지 않는다. "한 가지 구체예" 또는 "구체예"에 대한 본 명세서 전체를 통한 참조는 구체예와 결부되어 기재된 특별한 특징, 형태, 조성 또는 특성이 본 발명의 하나 이상의 구체예에 포함됨을 의미한다. 따라서, 본 명세서 전체에 걸친 다양한 위치에서 표현된 "한 가지 구체예에서" 또는 "구체예"의 상황은 반드시 본 발명의 동일한 구체예를 나타내지는 않는다. 추가로, 특별한 특징, 형태, 조성, 또는 특성은 하나 이상의 구체예에서 어떠한 적합한 방법으로 조합될 수 있다. 따라서 본 출원시점에 있어서 이들을 대체할 수 있는 다양한 변형 예들이 있을 수 있음을 이해하여야 한다.
도 1은 일 실시예에 따른 펩타이드의 스펙트럼 양상을 예측하는 시스템(1)의 블록 도이다. 도 1을 참고하면 일 실시예에 따른 펩타이드의 스펙트럼 양상을 예측하는 시스템(1)은 기계 학습부(100), 피크 예측부(200) 및 데이터 획득부(300)를 포함할 수 있다. 기계 학습부(100)는 제1학습 모델(110), 제2학습 모델(120) 및 제3학습 모델(130)을 포함할 수 있다. 본 발명의 일 구체예에서 한편 기계 학습부(100)는 미리 결정된 복수의 학습 모델을 포함할 수 있다.
도 1에서는 기계 학습부가 제1학습 모델(110), 제2학습 모델(120) 및 제3학습 모델(130)을 포함한 것을 나타내었다. 기계 학습부(100)는 복수의 학습용 펩타이드 서열의 복수개의 특성을 데이트 획득부(300)로부터 전달 받을 수 있다. 복수개의 특성은 원-핫 인코딩 서열(one-hot encoded sequence)과 CE(Collision energy), 전하, 길이, 아미노산 프롤린의 유무, 펩타이드 분할 서열 사이 관계를 의미할 수 있다. 원-핫 인코딩 서열(one-hot encoded sequence)는 아미노산의 종류에 따라서 숫자를 부여 결정된다. 예를 들어, 이에 한정하지는 않지만, 아미노산의 종류를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식을 의미할 수 있다.
한편 제1학습 모델(110)은 학습용 펩타이드에 포함된 아미노산 서열 종류 정보를 입력 값으로 학습을 수행할 수 있다. 이러한 제1학습 모델(110)은 순환 신경망 (Recurrent Neural network; RNN)로 구현될 수 있다. 순환 신경망(Recurrent neural network, RNN)은 인공 신경망의 한 종류로, 유닛 상호간의 연결이 순환적 구조를 갖는 특징을 포함할 수 있다.
한편 제2학습 모델(120)은 단위 펩타이드의 전하, 질량, 길이 및 상기 단위 펩타이드에 프롤린의 포함 유무를 입력 값으로 학습할 수 있다. 이 제2학습 모델(120)은 완전연결 레이어(Fully connected layer)로 구현될 수 있다. 완전 연결 레이어는 후술하는 CNN을 구성하는 레이어의 일부로 네트워크 프로세스의 최종 결과를 취하여 분류 결정에 도달하는 레이어를 의미할 수 있다.
제3학습 모델(130)은 2개 이상의 서열로 구성된 단위 펩타이드의 분할 가능성에 대한 정보를 입력할 수 있다. 여기서 분할 서열은 펩타이드의 N 말단쪽의 조각과 C 말단쪽의 조각으로 나뉘며 본 발명에서 y-site는 분열이 일어나는 위치의 아미노산을 의미하고, 상기 y-site에서 N 방향을 -로, C 방향을 +로 표시될 수 있다. 제3 학습 모델(130)은 복수개의 분할 서열 상호간의 관계를 입력 값으로 학습을 수행할 수 있다. 이러한 제3학습 모델(130)은 합성곱 신경망(Convolutional Neural Network: CNN)로 구현될 수 있다. 합성곱 신경망(Convolutional neural network, CNN)은 데이터를 분석하는 데 사용되는 다층의 피드-포워드적인 인공신경망의 한 종류를 의미할 수 있다.
한편 기계 학습부(100)는 상술한 학습 모델을 이용하여 펩타이드 분석 학습 데이터를 획득할 수 있다. 기계 학습부(100)는 학습 모델 각각에 미리 결정된 가중치를 부여하여 펩타이드 분석 학습 데이터를 획득할 수 있다. 미리 결정된 가중치는 스펙트럼 양상을 예측하는데 더 용이하도록 높은 피크에 대한 오차가 작을수록 손실이 작게 가중치를 의미할 수 있다. 이러한 가중치는 정확도를 평가하는데 여러가지 비율의 수가 나오는 값을 비교하기에 용이한 Pearson Correlation Coefficient (PCC)를 사용할 수 있다.
PCC는 아래 표 1과 같이 적용될 수 있다.
분류 예측 값과 정답 값 사이의 피어슨 상관계수 스펙트럼 양상 예상 정확률
제 1학습 모델에 의한 알고리즘 0.842 67.764%
제 2학습 모델에 의한 알고리즘 0.986 72.551%
제 3학습 모델에 의한 알고리즘 0.987 74.477%
상술한 내용은 PCC를 적용한 일 실시예에 불과하며 피크 예측의 정확도를 향상시키는 동작에는 그 제한이 없다.
한편 피크 예측부(200)는 펩타이드 분석 학습 데이터를 이용하여 확인하고자 하는 펩타이드의 스펙트럼 데이터의 스펙트럼 양상을 예측할 수 있다. 확인하고자 하는 펩타이드는 스펙트럼 양상 예상의 객체가 되는 펩타이드를 의미할 수 있다. 피크 예측부는 상술한 펩타이드 분석 학습 데이터를 저장하는 저장부(220)와 펩타이드 학습 데이터를 기초로 피크 예측을 수행하는 판단부(210)를 포함할 수 있다. 피크 예측부(200)는 펩타이드로부터 분열이 가능한 모든 경우의 수를 계산하여 그 중 가장 확률이 높은 양상(peak profile)을 예측할 수 있다. 피크 예측부(200)가 상술한 기계 학습부가 도출한 데이터를 기초로 해당 확인하고자 하는 펩타이드의 피크를 예측하는 상세한 동작은 아래에서 서술한다.
한편 데이터 획득부(300)는 상술한 복수의 학습용 펩타이드 서열 및 복수개의 학습용 펩타이드에 대응되는 스펙트럼 데이터를 획득할 수 있다. 데이터 획득부(300)는 전하, 길이, 아미노산 프롤린의 유무 등의 정보를 획득하는 펩타이드 정보 획득부(320)와 해당 펩타이드의 스펙트럼 정보를 획득하는 스펙트럼 인식부(310)로 구성될 수 있다. 스펙트럼 인식부(310)는 액체크로마토그래피 장치 등으로 구현될 수 있다. 펩타이드 정보 획득부(320)는 질량 분석기 및 단백질 전기 영동 장치 등으로 마련될 수 있으나 각 구성에 대응되는 장치적 구성에는 그 제한이 없다.
한편 기계 학습부(100), 피크 예측부(200) 및 데이터 획득부(300)는 펩타이드의 스펙트럼 양상을 예측하는 시스템(1) 내 구성요소들의 동작을 제어하기 위한 알고리즘 또는 알고리즘을 재현한 프로그램에 대한 데이터를 저장하는 메모리(미도시), 및 메모리에 저장된 데이터를 이용하여 전술한 동작을 수행하는 프로세서(미도시)로 구현될 수 있다. 이때, 메모리와 프로세서는 각각 별개의 칩으로 구현될 수 있다. 또는, 메모리와 프로세서는 단일 칩으로 구현될 수도 있다.
도 1에 도시된 펩타이드의 스펙트럼 양상을 예측하는 시스템(1)의 구성 요소들의 성능에 대응하여 적어도 하나의 구성요소가 추가되거나 삭제될 수 있다. 또한, 구성 요소들의 상호 위치는 시스템의 성능 또는 구조에 대응하여 변경될 수 있다는 것은 당해 기술 분야에서 통상의 지식을 가진 자에게 용이하게 이해될 것이다.
한편, 도 1에서 도시된 각각의 구성요소는 소프트웨어 및/또는 Field Programmable Gate Array(FPGA) 및 주문형 반도체(ASIC, Application Specific Integrated Circuit)와 같은 하드웨어 구성요소를 의미한다.
도 2는 일 실시예에 따른 펩타이드의 분할 서열을 개략적으로 나타낸 도면이다.
도 2에서는 펩타이드(P2)가 각각 “VCATTSL”로 마련된 펩타이드(P211)와 “GVEDPLK”로 마련된 펩타이드(P212)로 분열된 것을 나타내고 있다. 한편 P211의 펩타이드 말단(S1)에는 “L”의 아미노산이 위치할 수 있고, P22펩타이드 말단(S2)에는 “G”의 아미노산이 위치할 수 있다. 도 2에서 제시한 펩타이드 및 펩타이드를 구성하는 아미노산은 후술하는 본 발명의 내용을 설명하기 위한 일 예시에 불과하며 펩타이드의 구성에 대한 제한은 없다.
도 3내지 도 5는 펩타이드 분할 서열간 상호 관계를 나타낸 도면이다.
도 3은 도 2에서 설명한 펩타이드가 분열된 분할 서열의 길이와 펩타이드 길이 상호간의 상관 관계를 예측 값으로 나타내었다.
기계 학습부(100)는 펩타이드에 포함된 아미노산(amino acid) 조합에 대한 분열(fragmentation) 확률을 계산할 수 있다.
도 3에서는 펩타이드가 분열된 분할 서열의 길이와 펩타이드 길이에 대응되는 분열 확률을 제시하였다.
한편 도 4는 y-site와 y-1 site의 패턴에 의한 펩타이드 분열(fragmentation) 패턴을 나타낸 도면이다.
본 발명에서 펩타이드 조각은 N 말단 쪽의 조각과 C 말단 쪽의 조각으로 분류 될 수 있다.
본 발명에서 y-site는 분열이 일어나는 위치의 아미노산을 의미하고, 상기 y-site에서 N 방향을 -로, C 방향을 +로 표시될 수 있다.
도 2와 도 4를 함께 참고하면 P211에의 말단 S1은 “L”로 마련되고 해당 아미노산은 펩타이드의 C-term말단에 해당하며 y-1 site에 대응될 수 있다.
한편 P212에의 말단 S2은 “G”로 마련되고 해당 아미노산은 펩타이드의 N-term말단에 해당하며 y site에 대응될 수 있다. 이러한 y-site와 y-1 site에 대응되는 아미노산 상호간의 예측값이 도 4와 같이 표현될 수 있다. 한편 기계 학습부(100)는 상술한 바와 같이 N-term 서열, C-term 서열, 펩타이드 길이, 아미노산 순서 등의 확률과 특성을 종합하여 계산할 수 있다. 기계 학습부(100)는 여러가지 특성들의 중요도를 머신러닝(machine learning)및 딥러닝 기법으로 학습을 수행할 수 있다. 한편 기계 학습부(100)는 머신러닝 및 딥러닝 기법으로 예측 정확도가 수렴(saturation) 될 때까지 자동 반복할 수 있다.
도 5는 Y-site 전구물질(precursor)의 전하가 2이며, 분할 서열의 전하도 2로 존재할 경우 y-site, y-site+1, y-site+2, y-site+3 위치의 아미노산의 분포도를 나타낸 일 예시를 제시하고 있다. 도 5를 참고하면, 도 5는 전구 물질의 전하가 2인 경우의 일 실시예를 나타내고 있다. 펩타이드의 분할 서열에서 y-site는 y51에 대응되는 아미노산으로 마련될 수 있다. 펩타이드의 분할 서열에서 y+1-site는 y52에 대응되는 아미노산으로 마련될 수 있다. 펩타이드의 분할 서열에서 y+2-site는 y53에 대응되는 아미노산으로 마련될 수 있다. 펩타이드의 분할 서열에서 y+3-site는 y54에 대응되는 아미노산으로 마련될 수 있다.
한편 도 2 내지 도 5에서 제시하는 내용은 펩타이드의 서열의 펩타이드의 스펙트럼 양상을 예측하는 시스템이 학습에 이용되는 아미노산 서열의 일 예시를 나타낸 것에 불과하여 펩타이드의 스펙트럼 양상을 예측하는 시스템이 이용하는 아미노산 서열의 종류에는 그 제한이 없다.
기계 학습부는 이러한 분할 서열간의 관계도 학습하여 확인하고자 하는 펩타이드의 스펙트럼 피크를 예측하는데 이용할 수 있다.
도 6은 일 실시예에 따른 확인하고자 하는 펩타이드의 스펙트럼 및 스펙트럼 양상을 예측하는 동작을 설명하기 위한 도면이고, 도 7은 일 실시예에 따른 펩타이드의 스펙트럼 양상을 예측하는 시스템이 학습 데이터를 생성하는 동작을 설명하기 위한 도면이다.
도 6과 도 7을 함께 참고하면, 펩타이드의 스펙트럼 양상을 예측하는 시스템(1)은 학습용 대상체의 펩타이드 데이터를 획득할 수 있다(I7).
이렇게 획득한 펩타이드 데이터 중에서 아미노산 서열에 대응되는 데이터는 제1학습 모델에서 RNN을 이용하여 학습을 수행할 수 있다(M71).
또한 제2학습 모델은 펩타이드의 전하, 길이 및 아미노산 프롤린의 유무 등을 기초로 기계 학습을 수행할 수 있다(M72).
또한 제3학습 모델은 상술한 펩타이드 분할 서열과의 관계를 CNN을 통하여 학습을 수행할 수 있다(M73).
또한 도 7에 제시된 기계 학습에서 학습되지 않은 서열이 입력될 것을 예상하고 있기 때문에 이미 계산된 값을 넣는 것이 아닌 서열을 슬라이딩 윈도(sliding window)방식으로 잘라준 조합을 이용할 수 있다.
슬라이딩 윈도는 두 개의 네트워크 호스트간의 패킷의 흐름을 제어하기 위한 방법 중 하나로서 일단 '윈도'에 포함되는 모든 데이터를 전송하고, 그 패킷들의 전달이 확인되는대로 이 윈도를 옆으로 옮김(slide)으로서 그 다음 데이터를 전송하는 방식을 의미할 수 있다. 따라서 입력된 아미노산 서열로부터 각 3개의 다른 종류의 입력 값으로 변환되어 각각의 학습 모델의 입력 값으로 이용될 수 있다.
한편 학습 모델은 각 다른 특성과 수치들을 입력 값으로 이용 할 수 있고 각 수치에 대응되는 가중치를 변경할 수 있다.
일 실시예에 따르면, 이에 제한되지는 않지만, 각 학습 모델의 레이어를 거친 값들은 최종 42개의 패턴에 대한 비율 값으로 표현 되어 출력될 수 있다. 42개의 출력 값들은 입력 서열의 최고 길이가 15개 이하임을 가정하고 분열되는 14개의 분할 서열들의 전하 값 1~3 까지를 포함할 수 있다.
이 중 낮은 수치의 값은 0에 가까운 수를 보여주며, 존재할 수 없는 값은 -1에 가까운 수를 예측하며, 가장 높은 피크의 값은 1 에 가까운 수로 출력될 수 있다. 이 때 존재할 수 없는 값은 -1에 가까운 값으로 출력될 수 있다.
이러한 기계 학습을 통하여 기계 학습부는 학습 데이터(O7)를 출력할 수 있다.
본 발명에서 기계 학습부(100)가 이용하는 학습 모델에는 기억하는 능력을 가진 은닉 레이어 트레이닝의 최적화 능력을 증가시키는 어텐션 메커니즘, 드롭 레이어 등이 포함될 수 있다.
기계 학습부(100)는 상술한 학습 시 각 아미노산 서열과 특성에 대한 가중치를 변화 시킬 수 있다. 기계 학습부(100)는 이러한 동작을 기초로 데이터가 증가하거나, 새로운 중요 특성이 추가될 때 모델의 학습 능력을 증가시킬 수 있다. 또한 기계 학습부(100)는 오차의 감소를 위하여 평균제곱오차 (Mean Square Error, MSE)를 사용할 수 있다. 한편 이러한 평균제곱오차는 후술하는 확인하고자 하는 펩타이드의 스펙트럼 양상을 예측하기 위해, 변경 될 수 있다.
일 실시예에 따르면 스펙트럼 양상을 예측하는데 더 용이하도록 높은 피크에 대한 오차가 작을수록 손실이 작게 가중치를 주는 것이나, 가중치는 갱신될 수 있으며 필요에 따라선 사용되지 않을 수도 있다.
또한 기계 학습부(100)는 학습용 펩타이드의 서열 정보 및 특성 정보와 펩타이드의 분할 서열의 상관 관계를 학습시켜 얻어진 것일 수 있고, 손실 계산법의 가중치가 변경된 복수개의 학습 모델을 사용하여 정확도를 높일 수 있다. 이하에서는 상술한 동작을 기초로 형성된 학습 데이터를 이용하여 확인하고자 하는 펩타이드의 피크를 예측하는 동작에 대하여 설명한다.
도 6을 참고하면 도 6은 확인하고자 하는 물질을을 MRM 크로마토그래피로 분석한 결과를 나타낸 도면이다. 도 6은 리텐션 타임에 대응되는 스펙트럼의 세기를 나타낸 그래프이다. 피크 예측부(200)는 상술한 동작을 기초로 도출된 학습 데이터를 이용하여 확인하고자 하는 펩타이드의 피크를 예측할 수 있다. 이러한 스펙트럼에서 피크가 다수 존재하면 확인하고자 하는 펩타이드에 대한 피크의 패턴을 결정하기 어렵다. 도 6을 참고하면 스펙트럼에서는 P62, P63,P64 및 P61를 포함하는 다수의 피크가 존재하기 때문에 확인하고자 하는 펩타이드의 스펙트럼 양상을 단순한 동작을 통하여 결정하기 어렵다.
여기서 피크 예측부(200)는 상술한 동작을 기초로 획득한 학습데이터(O7)를 이용하여 확인하고자 하는 펩타이드의 서열을 기초로 해당 확인하고자 하는 펩타이드에 대응되는 스펙트럼 양상을 예측할 수 있다. 스펙트럼 양상은 펩타이드에 대응되는 MRM 크로마토그래피에서 표시되는 피크 중 하나를 의미할 수 있다. 피크 예측부(200)는 펩타이드로부터 분열이 가능한 모든 경우의 수를 계산하여 그 중 가장 확률에 대응되는 피크를 스펙트럼 양상으로 예측할 수 있다.
일 실시예에 따르면 피크 예측부(200)는 해당 확인하고자 하는 펩타이드의 스펙트럼 양상을 P61로 예측할 수 있다. 피크 예측부(200)가 피크의 패턴을 예측하여 확인하고자 하는 펩타이드를 선정하고 그 중에서도 스펙트럼 양상을 가진 분할 서열을 예측하여, MRM 정량기법에 이러한 결과가 이용될 수 있다.
이와 같은 동작으로 도 6에서 나타난 바와 같이 피크 예측부(200)가 피크를 예측하면 펩타이드의 스펙트럼 양상과 두번째 피크 또한 계산하여 MRM 액체 생검에 사용할 수 있는 대상 펩타이드의 수를 늘려 분석의 효율성을 높일 수 있다.
한편 도 6및 도 7에서 설명한 학습동작 및 스펙트럼 양상을 예측하는 동작은 본 발명의 일 실시예에 불과하며 학습 및 예측의 동작에는 제한이 없다.
도 8은 일 실시예에 따른 본 발명의 순서도이다.
도 8을 참고하면 펩타이드의 스펙트럼 양상을 예측하는 시스템의 데이터 획득부는 학습용 펩타이드의 특성 및 스펙트럼 정보를 획득할 수 있다(1001).
또한 펩타이드의 스펙트럼 양상을 예측하는 시스템은 학습 모델을 통한 학습 데이터를 획득할 수 있다(1002). 이러한 동작에 있어서 다양한 기계 학습 방법이 이용될 수 있다.
또한 펩타이드의 스펙트럼 양상을 예측하는 시스템은 획득된 학습 데이터를 이용하여 추구 획득되는 확인하고자 하는 펩타이드의 서열을 대응시켜 확인하고자 하는 펩타이드의 스펙트럼 양상을 예측할 수 있다(1003).
한편, 개시된 실시예들은 컴퓨터에 의해 실행 가능한 명령어를 저장하는 기록매체의 형태로 구현될 수 있다. 명령어는 프로그램 코드의 형태로 저장될 수 있으며, 프로세서에 의해 실행되었을 때, 프로그램 모듈을 생성하여 개시된 실시예들의 동작을 수행할 수 있다. 기록매체는 컴퓨터로 읽을 수 있는 기록매체로 구현될 수 있다.
컴퓨터가 읽을 수 있는 기록매체로는 컴퓨터에 의하여 해독될 수 있는 명령어가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있을 수 있다.
이상에서와 같이 첨부된 도면을 참조하여 개시된 실시예들을 설명하였다. 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특성을 변경하지 않고도, 개시된 실시예들과 다른 형태로 본 발명이 실시될 수 있음을 이해할 것이다. 개시된 실시예들은 예시적인 것이며, 한정적으로 해석되어서는 안 된다.
1 : 펩타이드의 스펙트럼 양상을 예측하는 시스템
100 : 기계 학습부
200 : 피크 예측부
300 : 데이터 획득부
310 : 스펙트럼 인식부
320 : 펩타이드 정보 획득부

Claims (13)

  1. 복수개의 학습용 펩타이드 특성 정보 및 상기 복수개의 학습용 펩타이드에 대응되는 스펙트럼 데이터를 획득하는 데이터 획득부;
    미리 결정된 복수의 학습 모델을 포함하고,
    상기 복수의 학습용 펩타이드의 복수개의 특성정보를 추출하고,
    상기 복수개의 특성 정보 및 상기 복수개의 학습용 펩타이드에 대응되는 스펙트럼을 상기 복수의 학습 모델의 각각의 입력 값으로 이용하여 학습을 수행하고,
    상기 복수의 학습 모델이 출력하는 펩타이드 분석 학습 데이터를 획득하는 기계 학습부; 및
    생물학적 시료로부터 수득된 확인하고자 하는 펩타이드의 특성 정보를 획득하면,
    상기 펩타이드 분석 학습 데이터를 이용하여 상기 확인하고자 하는 펩타이드에 대응되는 스펙트럼 데이터의 스펙트럼 양상을 예측하는 피크 예측부;
    를 포함하는 펩타이드의 스펙트럼 양상을 예측하는 시스템.
  2. 제1항에 있어서,
    상기 기계 학습부는,
    상기 학습용 펩타이드에 포함된 아미노산 서열 종류 정보를 입력 값으로 학습하는 제1학습 모델;을 포함하는 펩타이드의 스펙트럼 양상을 예측하는 시스템.
  3. 제2항에 있어서,
    상기 제1학습 모델은,
    순환 신경망 (Recurrent Neural network; RNN)으로 구현되는 펩타이드의 스펙트럼 양상을 예측하는 시스템.
  4. 제1항에 있어서,
    상기 기계 학습부는,
    상기 단위 펩타이드의 전하, 질량, 길이 및 상기 단위 펩타이드에 프롤린의 포함 유무를 입력 값으로 학습하는 제2학습 모델;을 포함하는 펩타이드의 스펙트럼 양상을 예측하는 시스템.
  5. 제4항에 있어서,
    상기 제2학습 모델은,
    적어도 하나의 완전연결 레이어(Fully connected layer)로 구현되는 펩타이드의 스펙트럼 양상을 예측하는 시스템.
  6. 제1항에 있어서,
    상기 기계 학습부는,
    상기 2개 이상의 단위 펩타이드에 대응 되는 분할화 정보를 입력 값으로 학습하는 제3학습 모델;을 포함하는 펩타이드의 스펙트럼 양상을 예측하는 시스템.
  7. 제6항에 있어서,
    상기 제3학습 모델은 합성곱 신경망(Convolutional Neural Network: CNN)로 구현되는 펩타이드의 스펙트럼 양상을 예측하는 시스템.
  8. 제6항에 있어서,
    상기 기계 학습부는,
    상기 단위 펩타이드의 분열이 시작되는 위치를 기준으로 C방향 및 N방향 각각에 대응되는 상기 복수개의 펩타이드 생성이온의 분할 서열을 예측하는 펩타이드의 스펙트럼 양상을 예측하는 시스템.
  9. 제1항에 있어서,
    상기 기계학습부는,
    상기 복수의 학습 모델 각각에 미리 결정된 가중치를 부여하여 상기 펩타이드 분석 학습 데이터를 획득하는 펩타이드의 스펙트럼 양상을 예측하는 시스템.
  10. 복수개의 학습용 펩타이드 특성 정보 및 상기 복수개의 학습용 펩타이드에 대응되는 스펙트럼 데이터를 획득하는 데이터 획득부; 및
    미리 결정된 복수의 학습 모델을 포함하고,
    상기 복수의 학습용 펩타이드의 복수개의 특성정보를 추출하고,
    상기 복수개의 특성 정보 및 상기 복수개의 학습용 펩타이드에 대응되는 스펙트럼을 상기 복수의 학습 모델의 각각의 입력 값으로 이용하여 학습을 수행하고,
    상기 복수의 학습 모델이 출력하는 펩타이드 분석 학습 데이터를 획득하는 기계 학습부;
    상기 기계 학습부는 예측된 스펙트럼과 실측 스펙트럼을 비교하여 학습하는 것을 추가로 포함하는 펩타이드의 스펙트럼 양상을 예측하는 시스템.
  11. 제10항에 있어서,
    상기 기계 학습부는,
    상기 학습용 펩타이드에 포함된 아미노산 서열 종류 정보를 입력 값으로 학습하는 제1학습 모델;을 포함하는 펩타이드의 스펙트럼 양상을 예측하는 시스템.
  12. 제10항에 있어서,
    상기 기계 학습부는,
    상기 단위 펩타이드의 전하, 질량, 길이 및 상기 단위 펩타이드에 프롤린의 포함 유무를 입력 값으로 학습하는 제2학습 모델;을 포함하는 펩타이드의 스펙트럼 양상을 예측하는 시스템.
  13. 제10항에 있어서,
    상기 기계 학습부는,
    상기 2개 이상의 단위 펩타이드에 대응 되는 분할화 정보를 슬라이딩 윈도 방식의 입력 값으로 학습하는 제3학습 모델;을 포함하는 펩타이드의 스펙트럼 양상을 예측하는 시스템.
KR1020210026498A 2020-02-28 2021-02-26 펩타이드 특성 학습 기반 액체 크로마토그래프 질량 분석에서 펩타이드 생성이온의 스펙트럼 양상을 예측하는 시스템 KR102352444B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220005006A KR20220012383A (ko) 2020-02-28 2022-01-13 펩타이드 특성 학습 기반 액체 크로마토그래프 질량 분석에서 펩타이드 생성이온의 스펙트럼 양상을 예측하는 시스템

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20200024713 2020-02-28
KR1020200024713 2020-02-28

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020220005006A Division KR20220012383A (ko) 2020-02-28 2022-01-13 펩타이드 특성 학습 기반 액체 크로마토그래프 질량 분석에서 펩타이드 생성이온의 스펙트럼 양상을 예측하는 시스템

Publications (2)

Publication Number Publication Date
KR20210110226A true KR20210110226A (ko) 2021-09-07
KR102352444B1 KR102352444B1 (ko) 2022-01-19

Family

ID=77491906

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020210026498A KR102352444B1 (ko) 2020-02-28 2021-02-26 펩타이드 특성 학습 기반 액체 크로마토그래프 질량 분석에서 펩타이드 생성이온의 스펙트럼 양상을 예측하는 시스템
KR1020220005006A KR20220012383A (ko) 2020-02-28 2022-01-13 펩타이드 특성 학습 기반 액체 크로마토그래프 질량 분석에서 펩타이드 생성이온의 스펙트럼 양상을 예측하는 시스템

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020220005006A KR20220012383A (ko) 2020-02-28 2022-01-13 펩타이드 특성 학습 기반 액체 크로마토그래프 질량 분석에서 펩타이드 생성이온의 스펙트럼 양상을 예측하는 시스템

Country Status (3)

Country Link
US (1) US20230113788A1 (ko)
KR (2) KR102352444B1 (ko)
WO (1) WO2021172946A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230168942A (ko) * 2022-06-07 2023-12-15 주식회사 베르티스 단백질 정량을 위한 질량분석 피크의 자동 선별 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006510908A (ja) * 2002-12-18 2006-03-30 バッテル メモリアル インスティチュート 液体分離またはクロマトグラフィーを用いてペプチドを予想する場合の精度を増強する方法
KR20080086563A (ko) * 2007-01-26 2008-09-26 주식회사 인실리코텍 수학적 모델을 이용한 펩타이드 서열의 엠 세포 표적 예측시스템 및 방법과 그 프로그램을 저장한 기록매체
US20190018019A1 (en) * 2017-07-17 2019-01-17 Bioinformatics Solutions Inc. Methods and systems for de novo peptide sequencing using deep learning
KR20200143551A (ko) * 2019-06-13 2020-12-24 부경대학교 산학협력단 화합물의 크로마토그래피 용출 순서를 예측하는 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB0212470D0 (en) * 2002-05-30 2002-07-10 Shimadzu Res Lab Europe Ltd Mass spectrometry
US7409296B2 (en) * 2002-07-29 2008-08-05 Geneva Bioinformatics (Genebio), S.A. System and method for scoring peptide matches
WO2005057208A1 (en) * 2003-12-03 2005-06-23 Prolexys Pharmaceuticals, Inc. Methods of identifying peptides and proteins
US11694769B2 (en) * 2017-07-17 2023-07-04 Bioinformatics Solutions Inc. Systems and methods for de novo peptide sequencing from data-independent acquisition using deep learning
US11587644B2 (en) * 2017-07-28 2023-02-21 The Translational Genomics Research Institute Methods of profiling mass spectral data using neural networks

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006510908A (ja) * 2002-12-18 2006-03-30 バッテル メモリアル インスティチュート 液体分離またはクロマトグラフィーを用いてペプチドを予想する場合の精度を増強する方法
KR20080086563A (ko) * 2007-01-26 2008-09-26 주식회사 인실리코텍 수학적 모델을 이용한 펩타이드 서열의 엠 세포 표적 예측시스템 및 방법과 그 프로그램을 저장한 기록매체
US20190018019A1 (en) * 2017-07-17 2019-01-17 Bioinformatics Solutions Inc. Methods and systems for de novo peptide sequencing using deep learning
KR20200143551A (ko) * 2019-06-13 2020-12-24 부경대학교 산학협력단 화합물의 크로마토그래피 용출 순서를 예측하는 방법

Also Published As

Publication number Publication date
US20230113788A1 (en) 2023-04-13
KR20220012383A (ko) 2022-02-03
WO2021172946A1 (ko) 2021-09-02
KR102352444B1 (ko) 2022-01-19

Similar Documents

Publication Publication Date Title
Xu et al. MassMatrix: a database search program for rapid characterization of proteins and peptides from tandem mass spectrometry data
US7538321B2 (en) Method of identifying substances using mass spectrometry
EP1756852B1 (en) Method and apparatus for identifying proteins in mixtures
US8105838B2 (en) Generation and use of a catalog of polypeptide-related information for chemical analyses
US9146213B2 (en) Method and apparatus for performing retention time matching
US8187893B2 (en) Mass spectrometric based assay for presence of a protein without the use of a standard
BRPI0711967A2 (pt) ensaio de biomarcador de espectrometria de massa
JP4857000B2 (ja) 質量分析システム
JP2006518448A (ja) 糖ペプチドの同定および解析
KR102352444B1 (ko) 펩타이드 특성 학습 기반 액체 크로마토그래프 질량 분석에서 펩타이드 생성이온의 스펙트럼 양상을 예측하는 시스템
Nicolardi et al. Ultrahigh resolution profiles lead to more detailed serum peptidome signatures of pancreatic cancer
US20050159902A1 (en) Apparatus for library searches in mass spectrometry
Xu et al. Complexity and scoring function of MS/MS peptide de novo sequencing
Nicole White et al. Quality control for SELDI analysis
GB2575168A (en) Precursor selection for data-dependent tandem mass spectrometry
EP4369345A1 (en) System and method for optimizing analysis of dia data by combining spectrum-centric with peptide-centric analysis
Velstra et al. peptidome signatures of pancreatic cancer
Zelena Application of Ultra Performance Liquid Chromatography Mass Spectrometry to Metabolic Profiling of Human Serum and Plasma
JP2008224636A (ja) 質量分析システム

Legal Events

Date Code Title Description
AMND Amendment
E601 Decision to refuse application
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
X701 Decision to grant (after re-examination)