KR20200050434A - 질량 스펙트럼에 기초한 균주 동정 방법 및 장치 - Google Patents

질량 스펙트럼에 기초한 균주 동정 방법 및 장치 Download PDF

Info

Publication number
KR20200050434A
KR20200050434A KR1020190138557A KR20190138557A KR20200050434A KR 20200050434 A KR20200050434 A KR 20200050434A KR 1020190138557 A KR1020190138557 A KR 1020190138557A KR 20190138557 A KR20190138557 A KR 20190138557A KR 20200050434 A KR20200050434 A KR 20200050434A
Authority
KR
South Korea
Prior art keywords
strain
data
mass spectrum
peak
machine learning
Prior art date
Application number
KR1020190138557A
Other languages
English (en)
Inventor
박형순
노규형
정승희
Original Assignee
주식회사 노스퀘스트
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 노스퀘스트 filed Critical 주식회사 노스퀘스트
Publication of KR20200050434A publication Critical patent/KR20200050434A/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/02Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving viable microorganisms
    • C12Q1/04Determining presence or kind of microorganism; Use of selective media for testing antibiotics or bacteriocides; Compositions containing a chemical indicator therefor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/02Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving viable microorganisms
    • C12Q1/04Determining presence or kind of microorganism; Use of selective media for testing antibiotics or bacteriocides; Compositions containing a chemical indicator therefor
    • C12Q1/14Streptococcus; Staphylococcus
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/34Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving hydrolase
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6848Methods of protein analysis involving mass spectrometry
    • G01N33/6851Methods of protein analysis involving laser desorption ionisation mass spectrometry

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Microbiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Toxicology (AREA)
  • Biomedical Technology (AREA)
  • Hematology (AREA)
  • Urology & Nephrology (AREA)
  • Optics & Photonics (AREA)
  • Cell Biology (AREA)
  • Food Science & Technology (AREA)
  • Medicinal Chemistry (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

일실시예에 따른 프로세서에 의해 수행되는 균주 동정 방법(strain identification method)에 있어서, 균주 데이터베이스에 포함된 복수의 균주 데이터를 균주 별로 분류함으로써 복수의 질량 스펙트럼 데이터 및 각 질량 스펙트럼 데이터에 매핑된 기준 균주 정보를 포함하는 트레이닝 데이터를 생성하는 단계, 상기 생성된 트레이닝 데이터로부터 질량 스펙트럼 데이터를 전처리하는 단계, 상기 전처리된 질량 스펙트럼 데이터로부터 상기 질량 스펙트럼 데이터의 피크값들에 관련된 피크 특성 데이터를 생성하는 단계, 상기 피크 특성 데이터를 이용하여 기계 학습 모델의 파라미터를 업데이트함으로써 상기 기계 학습 모델을 트레이닝시키는 단계, 및 상기 트레이닝된 기계 학습 모델을 이용하여 입력 균주에 대한 동정 결과를 출력하는 단계를 포함할 수 있다.

Description

질량 스펙트럼에 기초한 균주 동정 방법 및 장치{METHOD AND APPARATUS FOR IDENTIFYING STRAIN BASED ON MASS SPECTRUM}
이하, 질량 스펙트럼에 기초하여 균주를 동정하는 방법 및 장치에 관한 기술이 제공된다.
말디토프 질량분석기(MALDI-TOF MS, Matrix-Assisted Laser Desorption Ionization - Time-of-Flight Mass Spectrometer)는 분자량이 비교적 큰 시료와 매트릭스가 혼합된 결정체에 레이저를 조사하여 이온화시킨 후, 전하를 띤 이온들을 비행시간형 질량분석기에 통과시켜 검출기까지의 도달시간을 측정하여 분자량을 분석하는 장치이다. 말디토프 질량분석기를 통해 분자량을 분석한 후, 이를 분자량에 대한 스펙트럼으로 표시할 수 있다.
말디토프를 이용하여 미생물을 동정하는 방법은 개별 미생물들에 대한 질량 스펙트럼 패턴이 균종(species) 별로 차이가 있다는 것에 기반하여 질량 스펙트럼 패턴을 구분할 수 있는 통계적 알고리즘을 적용하여 균종을 동정할 수 있다. 균종 수준에서의 판별이 가능한 결과들이 쌓여 2600종 정도의 균종들을 구별할 수 있고, 균종들을 종 수준(species level)에서 구별하기 위해 2,000 Da ~ 20,000 Da의 데이터를 이용할 수 있다.
종 수준의 동정에 사용되는 유사성 기반 알고리즘은 메티실린 내성 황색포도알균 감염(methicillin-resistant Staphylococcus aureus infection, MRSA) 및 메티실린 감수성 황색포도구균(methicillin-sensitive Staphylococcus aureus infection, MSSA)과 같은 균주 수준(strain level)의 차이를 구별하지 못한다. 양친성 알파-펩타이드 독소의 페놀 가용성 모듈린(PSM) 계열과 같은 특정 피크 마커 및 대리 마커의 유무를 토대로 MRSA 및 MSSA를 판별할 수 있지만, 감도가 낮다.
일본 특허공개공보 제2015-507182호(공개일: 2015년 03월 05일)
일실시예에 따른 프로세서에 의해 수행되는 균주 동정 방법(strain identification method)에 있어서, 균주 데이터베이스에 포함된 복수의 균주 데이터를 균주 별로 분류함으로써 복수의 질량 스펙트럼 데이터 및 각 질량 스펙트럼 데이터에 매핑된 기준 균주 정보를 포함하는 트레이닝 데이터를 생성하는 단계, 상기 생성된 트레이닝 데이터로부터 질량 스펙트럼 데이터를 전처리하는 단계, 상기 전처리된 질량 스펙트럼 데이터로부터 상기 질량 스펙트럼 데이터의 피크값들에 관련된 피크 특성 데이터를 생성하는 단계, 상기 피크 특성 데이터를 이용하여 기계 학습 모델의 파라미터를 업데이트함으로써 상기 기계 학습 모델을 트레이닝시키는 단계, 및 상기 트레이닝된 기계 학습 모델을 이용하여 입력 균주에 대한 동정 결과를 출력하는 단계를 포함할 수 있다.
일측에 따르면, 상기 생성된 피크 특성 데이터에 상기 질량 스펙트럼 데이터에 대응하는 기준 균주 정보를 참값 데이터로 매핑하는 단계를 더 포함하고, 상기 기계 학습 모델을 트레이닝시키는 단계는 상기 피크 특성 데이터 및 상기 피크 특성 데이터에 매핑된 상기 참값 데이터에 기초하여 상기 기계 학습 모델의 파라미터를 업데이트하는 단계를 포함할 수 있다.
일실시예에 따른 균주 동정 방법의 상기 질량 스펙트럼 데이터를 전처리하는 단계는 상기 질량 스펙트럼 데이터가 미리 지정된 기준에 부합하는지 여부를 판단하는 단계, 상기 질량 스펙트럼 데이터가 상기 기준에 부합한다고 판단한 경우, 상기 질량 스펙트럼 데이터를 트레이닝 데이터에 추가하는 단계, 및 상기 질량 스펙트럼 데이터가 상기 기준에 부합하지 않는 경우, 상기 질량 스펙트럼 데이터를 기계 학습 모델의 트레이닝으로부터 배제하는 단계를 포함할 수 있다.
상기 기준은 상기 질량 스펙트럼 데이터의 신호 대 잡음비(SNR, Signal-to-noise ratio)가 임계 비율 이상인지 여부를 포함할 수 있다.
또한, 상기 질량 스펙트럼 데이터를 전처리하는 단계는 상기 질량 스펙트럼 데이터의 잡음을 제거하는 단계, 상기 잡음이 제거된 질량 스펙트럼 데이터의 베이스 라인을 제거하는 단계, 상기 질량 스펙트럼 데이터의 신호 세기를 정규화(normalization)하는 단계, 상기 질량 스펙트럼 데이터의 피크들을 검출하는 단계, 및 미리 설정된 기준에 따라 상기 질량 스펙트럼 데이터에서 상기 검출된 피크들을 정렬하는 단계를 포함할 수 있다.
상기 피크들을 검출하는 단계는 상기 질량 스펙트럼 데이터에서 개별 질량전하비(mass-to-charge ratio)에 대응하는 지점마다 주변 지점들과 스펙트럼 세기를 비교하는 단계 및 상기 스펙트럼 세기의 비교 결과에 기초하여, 상기 질량 스펙트럼 데이터로부터 피크 지점을 검출하는 단계를 포함할 수 있다.
상기 피크 지점을 검출하는 단계는 상기 질량 스펙트럼 데이터에서 복수의 질량전하비들에 대응하는 지점들 중 인접한 지점의 스펙트럼 세기에 비해 임계 비율 이상 큰 지점을 상기 피크 지점으로 검출하는 단계를 포함할 수 있다.
상기 피크들을 정렬하는 단계는 미리 설정된 대표 피크 지점과 상기 검출된 피크의 질량전하비값을 비교하는 단계, 및 상기 검출된 피크의 질량전하비값 및 상기 대표 피크 지점 간의 차이가 임계값 이하인 경우, 상기 질량 스펙트럼 데이터에서 상기 검출된 피크의 질량 전하비값을 상기 대표 피크 지점으로 정렬하는 단계를 포함할 수 있다.
상기 피크들을 정렬하는 단계는 상기 정렬된 피크들의 피크 지점에 대한 대표 피크 값을 결정하는 단계를 포함할 수 있다.
일실시예에 따르면, 상기 피크 특성 데이터를 생성하는 단계는 상기 전처리된 질량 스펙트럼 데이터로부터 복수의 질량전하비 지점들의 각각에 대한 스펙트럼 세기를 지시하는 원소 값(element value)을 포함하는 특성 행렬을 산출하는 단계를 포함할 수 있다.
일측에 따른 상기 특성 행렬을 산출하는 단계는 상기 특성 행렬에서 질량 피크 지점에 대응하는 원소 값을 상기 질량 피크 지점의 피크 값으로 결정하는 단계를 포함할 수 있다.
상기 특성 행렬을 산출하는 단계는 상기 복수의 질량전하비 지점들 중 질량 피크가 검출되지 않는 지점에 대하여 해당 지점에 대응하는 스펙트럼 세기를 상기 특성 행렬로부터 배제하는 단계를 포함할 수 있다.
일실시예에 따르면, 상기 특성 행렬을 산출하는 단계는 상기 복수의 질량전하비 지점들 중 질량 피크가 검출되지 않는 지점에 대하여 해당 지점에 대응하는 스펙트럼 세기를 상기 특성 행렬로부터 배제하는 단계를 포함할 수 있다.
다른 일실시예에 따르면, 상기 특성 행렬을 산출하는 단계는 상기 복수의 질량전하비 지점들 중 질량 피크가 식별되지 않는 지점에 대응하는 원소 값을 해당 지점에서의 스펙트럼 세기로 설정하는 단계를 포함할 수 있다.
일측에 따르면, 상기 기계 학습 모델을 트레이닝시키는 단계는 임시 기계 학습 모델을 이용하여 상기 트레이닝 데이터로부터 출력된 임시 결과 값 및 목적 함수에 기초하여 상기 임시 기계 학습 모델의 파라미터를 업데이트하는 단계를 포함할 수 있다.
또한, 상기 기계 학습 모델은 각각 하나 이상의 노드들을 포함하는 복수의 결정 트리들을 포함하고, 상기 기계 학습 모델을 트레이닝시키는 단계는 상기 복수의 결정 트리들 각각에 상기 생성된 특성 데이터를 입력하는 단계, 상기 복수의 결정 트리들에 대해 독립적으로 기계 학습 모델의 파라미터를 업데이트함으로써 상기 기계 학습 모델을 트레이닝시키는 단계를 포함할 수 있다.
상기 복수의 균주 데이터는 메티실린 감수성 황색포도구균(methicillin-sensitive Staphylococcus aureus infection, MSSA) 균주 및 메티실린 내성 황색포도알균 감염(methicillin-resistant Staphylococcus aureus infection, MRSA) 균주에 관한 균주 데이터를 포함할 수 있다.
아울러, 상기 트레이닝 데이터를 생성하는 단계는 상기 복수의 균주 데이터의 각각에 대해, 두 클래스(two class) 중 해당 균주 데이터에 대응하는 균주가 속하는 클래스를 지시하는 참값(ground truth value)을 해당 균주 데이터에 대한 기준 균주 정보로 매핑하는 단계를 포함하고, 상기 기계 학습 모델을 트레이닝시키는 단계는 각 균주 데이터에 대해 상기 두 클래스 중 한 클래스를 지시하는 상기 기준 균주 정보에 기초하여 상기 기계 학습 모델을 트레이닝시키는 단계를 포함할 수 있다.
또한, 상기 트레이닝 데이터를 생성하는 단계는 상기 복수의 균주 데이터의 각각에 대해, 세 개 이상의 멀티 클래스(multi class) 중 해당 균주 데이터에 대응하는 균주가 속하는 클래스를 지시하는 참값을 해당 균주 데이터에 대한 기준 균주 정보로 매핑하는 단계를 포함하고, 상기 기계 학습 모델을 트레이닝시키는 단계는 각 균주 데이터에 대해 상기 멀티 클래스 중 한 클래스를 지시하는 상기 기준 균주 정보에 기초하여 상기 기계 학습 모델을 트레이닝시키는 단계를 포함할 수 있다.
일측에 따르면, 상기 기준 균주 정보를 매핑하는 단계는 상기 복수의 균주 데이터 중 포도상구균 카세트 염색체 mec (Staphylococcal Cassette Chromosome mec, SCCmec) 타입 II, 타입 III, 및 타입 IVA의 이동 유전 요소(mobile genetic element) 중 적어도 하나를 보유(carry)하는 MRSA 균주 데이터에 대해 MRSA를 지시하는 제1 참값을 상기 기준 균주 정보로서 매핑하는 단계, 상기 복수의 균주 데이터 중 MSSA 균주 데이터에 대해 MSSA를 지시하는 제2 참값을 상기 기준 균주 정보로서 매핑하는 단계, 및 상기 복수의 균주 데이터 중 SCCmec 타입 IV의 이동 유전 요소를 보유하는 MRSA 균주 데이터에 대해 상기 제1 참값 및 상기 제2 참값 사이의 값을 상기 기준 균주 정보로서 매핑하는 단계를 포함할 수 있다.
도 1은 일실시예에 따른 균주 동정 방법을 도시한 흐름도이다.
도 2는 일실시예에 MRSA와 MSSA의 전체 질량 스펙트럼을 도시한 도면이다.
도 3은 일실시예에 따른 MRSA 와 MSSA의 특정 질량 구간에서의 질량 스펙트럼을 비교한 도면이다.
도 4는 일실시예에 따른 가공된 질량 스펙트럼을 도시한 도면이다.
도 5는 일실시예에 따라 피크를 갖는 질량전하비 값을 조정하는 것을 도시한 도면이다.
도 6은 일실시예에 따라 복수의 균주에 대한 특성 행렬을 도시한 테이블이다.
도 7은 일실시예에 따른 다차원 스케일링 분석(Multidimensional Scaling; MDS)의 결과를 도시한 그래프이다.
도 8은 일실시예에 따른 Two sample test의 결과를 도시한 테이블이다.
도 9는 일실시예에 따른 로지스틱 회귀 모델을 도시한 그래프이다.
도 10은 일실시예에 따른 의사결정나무 모델을 도시한 그래프이다.
도 11은 일실시예에 따른 랜덤 포레스트 모델의 결정 트리를 도시한 그래프이다.
도 12는 일실시예에 따라 복수의 결정 트리를 포함하는 랜덤 포레스트 모델을 도시한 그래프이다.
도 13은 일실시예에 따른 랜덤 포레스트 모델의 결과를 나타낸 테이블 및 그래프이다.
도 14는 일실시예에 따른 복수의 타입을 갖는 MRSA의 특성을 도시한 그래프이다.
도 15는 일실시예에 따른 복수의 타입을 갖는 MRSA의 특성을 도시한 그래프이다.
도 16은 일실시예에 따른 균주의 균주 타입을 결정하는 장치를 도시한 흐름도이다.
실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 실시될 수 있다. 따라서, 실시예들은 특정한 개시형태로 한정되는 것이 아니며, 본 명세서의 범위는 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.
단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 1은 일실시예에 따른 균주 동정 방법을 도시한 흐름도이다.
단계(110)에서, 균주 동정 장치의 프로세서는 균주 데이터베이스에 포함된 복수의 균주 데이터를 균주(strain) 별로 분류함으로써 복수의 질량 스펙트럼 데이터 및 각 질량 스펙트럼 데이터에 매핑된 기준 균주 정보를 포함하는 트레이닝 데이터를 생성할 수 있다. 균주의 질량 스펙트럼 데이터는, 말디토프 질량분석기에 의해 미생물 고유의 단백질이 분석된 결과로서, 미생물 고유의 단백질의 질량 값 및 질량전하비 값 중 하나에 대한 스펙트럼을 나타낼 수 있다. 후술하는 질량 스펙트럼은 질량전하비 값에 대한 스펙트럼 세기를 나타낼 수 있다. 다만, 이에 국한되지 않고, 질량 스펙트럼은 질량 값에 대한 스펙트럼 세기를 지시할 수 있다.
균주 데이터는 상술한 말디토프 질량 분석기에 의해 분석된 균주에 대한 질량 스펙트럼 데이터를 포함할 수 있다. 트레이닝 데이터는 트레이닝 입력 및 트레이닝 출력의 쌍들로 구성되는 데이터로서, 기계 학습 모델의 트레이닝에 사용될 수 있다. 트레이닝 입력은 임의의 균주에 대한 균주 데이터를 포함할 수 있다. 임의의 트레이닝 입력에 매핑된 트레이닝 출력은, 해당 트레이닝 입력에 대한 참값(ground truth value)을 포함할 수 있다. 예를 들어, 트레이닝 입력이 임의의 균주에 대한 질량 스펙트럼 데이터인 경우, 그에 매핑된 트레이닝 출력은 해당 균주의 클래스를 지시하는 참값을 포함할 수 있다. 따라서 트레이닝 데이터는 복수의 균주 데이터 및 각 균주 데이터에 매핑된 균주 클래스를 포함할 수 있다.
예시적으로, 상술한 균주 데이터는 메티실린 내성 황색포도알균 감염(methicillin-resistant Staphylococcus aureus infection, MRSA) 및 메티실린 감수성 황색포도구균(methicillin-sensitive Staphylococcus aureus infection, MSSA)에 관한 질량 스펙트럼 데이터를 포함할 수 있다. 예를 들어, 트레이닝 데이터가 두 클래스(two class)로 구성되는 겨우, 트레이닝 출력은 MRSA를 지시하는 제1 참값(예를 들어, 1) 및 MSSA를 지시하는 제2 참값(예를 들어, 0) 중 하나일 수 있다. 다른 예를 들어, 트레이닝 데이터가 멀티 클래스(multi class)로 구성되는 겨우, 트레이닝 출력은 MRSA의 서브 타입들을 지시하는 참값들 및 MSSA를 지시하는 참값 중 하나일 수 있다. 다만, 이는 순전한 예시로서, 트레이닝 출력의 구성을 상술한 바로 한정하는 것은 아니다.
단계(120)에서, 프로세서는 단계(110)에서 생성된 트레이닝 데이터로부터 질량 스펙트럼 데이터를 전처리할 수 있다. 프로세서는 질량 스펙트럼 데이터가 미리 지정된 기준에 부합하는지 여부를 판단할 수 있다. 프로세서는 균주 데이터베이스에서 임의의 질량 스펙트럼 데이터가 기준에 부합한다고 판단한 경우, 해당 질량 스펙트럼 데이터를 트레이닝 데이터에 추가할 수 있다. 일실시예에 따르면, 기준은 질량 스펙트럼 데이터의 신호 대 잡음비(SNR, Signal-to-noise ratio)가 임계 비율 이상인지 여부를 지시할 수 있다. 프로세서는 SNR, 유효 세기(effective intensity) 등에 기초하여 질량 스펙트럼 데이터로부터 트레이닝에 적합한 질량 스펙트럼을 갖는 데이터를 트레이닝 데이터로 선택 및 분류할 수 있다. 상술한 트레이닝 데이터 셋에 의해 트레이닝된 기계 학습 모델은 높은 정확도를 나타낼 수 있다.
프로세서는 질량 스펙트럼 데이터를 전처리하기 위해 질량 스펙트럼 데이터의 잡음을 제거(smoothing)할 수 있다. 프로세서는 제거된 질량 스펙트럼 데이터의 베이스 라인을 제거(baseline correction)할 수 있다. 프로세서는 베이스 라인이 제거된 질량 스펙트럼 데이터의 신호 세기를 정규화(normalization)할 수 있다. 프로세서에 의한 질량 스펙트럼 데이터의 전처리 동작에 대해서는 도 4를 통해 자세히 후술한다.
질량 스펙트럼 데이터가 정규화된 후, 프로세서는 질량 스펙트럼 데이터의 피크들을 검출할 수 있다. 프로세서는 미리 설정된 기준에 따라 질량 스펙트럼 데이터에서 검출된 피크들을 정렬(align)할 수 있다. 프로세서에 의한 피크 검출 및 정렬 동작에 대해서는 도 5를 통해 후술한다.
단계(130)에서, 프로세서는 전처리된 질량 스펙트럼 데이터로부터 피크값들에 관련된 피크 특성 데이터를 생성할 수 있다. 피크 특성 데이터는 일종의 질량 스펙트럼의 피크 프로필 데이터(peak profile data)일 수 있다. 피크 프로필 데이터는 질량별 피크들의 세기(intensity)를 지시하는 데이터 또는 질량전하비별 피크들의 세기를 지시하는 데이터를 나타낼 수 있다. 피크 프로필 데이터의 예시는 하기 도 2에 도시된다. 일실시예에 따르면, 프로세서는 전처리된 질량 스펙트럼 데이터로부터 복수의 질량전하비 지점들의 각각에 대한 스펙트럼 세기를 지시하는 원소 값(element value)을 포함하는 특성 행렬을 산출할 수 있다. 특성 행렬은 기계 학습 모델에 입력되어 기계 학습 모델의 파라미터들을 업데이트하기 위한 기계 학습 모델의 입력 행렬일 수 있다. 특성 행렬의 원소값들은 일정 질량전하비 구간 내의 대표 지점이 지시하는 질량 스펙트럼 세기일 수 있다. 프로세서는 일정 질량전하비 구간 내에 피크 지점이 존재하는 경우 전처리 과정의 피크 정렬에 따라 검출된 피크의 질량전하비값을 대표 지점을 기준으로 정렬할 수 있다.
단계(140)에서, 프로세서는 피크 특성 데이터를 이용하여 기계 학습 모델의 파라미터를 업데이트함으로써 기계 학습 모델을 트레이닝시킬 수 있다. 일실시예에 따르면, 기계 학습 모델은 입력 균주 데이터로부터 균주 동정 결과를 산출하도록 설계된 모델로서, 예를 들어, 균주 동정 모델(strain identification model)이라고도 나타낼 수 있다. 입력 균주 데이터는 말디토프 질량 분석기에 의해 분석된 균주에 대한 질량 스펙트럼 데이터를 포함할 수 있다. 균주 동정 결과는 입력 균주 데이터에 대응하는 균주를 지시하는 데이터를 포함할 수 있다. 기계 학습 모델은 신경망 구조의 뉴럴 네트워크 모델(neural network model), 로지스틱 회귀 모델, 의사결정나무 모델, 및 랜덤 포레스트 모델 중 하나 또는 둘 이상의 조합일 수 있다. 기계 학습 모델은 입력된 피크 특성 데이터에 대해 두 클래스 분류 또는 세 개 이상의 멀티 클래스 분류 결과를 출력 가능한 모델일 수 있다. 파라미터는 상술한 기계 학습 모델의 트레이닝을 통해 입력 균주 데이터에 대한 균주 동정 결과를 산출하기 위해 최적화된 값을 가질 수 있다.
단계(110)에 상술한 바와 같이 프로세서는 피크 특성 데이터에 질량 스펙트럼에 대응하는 기준 균주 정보를 참값(GT value, Ground Truth value) 데이터로 매핑할 수 있고, 피크 특성 데이터 및 참값 데이터를 이용하여 기계 학습 모델의 파라미터를 업데이트할 수 있다. 구체적으로, 프로세서는 피크 특성 데이터를 임시 기계 학습 모델에 입력하고, 임시 기계 학습 모델의 파라미터를 업데이트할 수 있다. 파라미터의 업데이트가 반복될수록, 임시 기계 학습 모델의 출력 결과는 참값 데이터와 유사해질 수 있다. 일실시예에 따르면, 기계 학습 모델의 파라미터는 훈련 목적 함수에 따라 업데이트될 수 있다. 예를 들어, 프로세서는 훈련 목적 함수의 값이 최대가 되도록 복수의 피크 특성 데이터들을 임시 기계 학습 모델(예를 들어, 랜덤 포레스트 모델)에 입력하여 파라미터(예를 들어, 분할 함수(split function)의 파라미터)를 업데이트할 수 있다. 다만, 이로 한정하는 것은 아니고, 훈련 목적 함수가 다르게 설계될 수도 있다. 본 명세서에서 트레이닝 도중의 모델을 임시 기계 학습 모델이라고 나타낼 수 있다.
일실시예에 따르면 프로세서는 훈련 목적 함수에 따른 값이 목적 값에 도달할 때까지 기계 학습 모델에서 분할 함수의 파라미터를 반복적으로 업데이트함으로써, 트레이닝을 수행할 수 있다. 프로세서는 훈련 목적 함수에 따른 값이 목적 값에 도달하는 경우에 응답하여, 트레이닝을 종료하고, 최종 파라미터를 결정할 수 있다. 최종 파라미터가 결정됨으로써 임시 기계 학습 모델의 트레이닝이 완료될수 있다. 트레이닝이 완료된 임시 기계 학습 모델은 기계 학습 모델이라고 나타낼 수 있다.
단계(150)에서, 프로세서는 트레이닝이 완료된 기계 학습 모델을 이용하여 입력 균주에 대한 동정 결과를 출력할 수 있다. 우선, 프로세서는 입력 균주에 관한 균주 데이터에 상술한 단계(120)의 전처리 동작을 적용하고, 단계(130)의 동작을 수행함으로써 입력 균주에 관한 피크 특성 데이터를 생성할 수 있다. 프로세서는 입력 균주에 대한 균주 데이터에 트레이닝이 완료된 기계 학습 모델을 시행(implement)함으로써 균주의 균주 클래스에 관한 동정 결과를 출력할 수 있다. 예를 들어, 프로세서는 입력 균주의 피크 특성 데이터를 기계 학습 모델에 입력시켜 동정 결과를 출력할 수 있다.
일 실시예에 따른 균주 동정 장치는, 후술하는 기계 학습 모델을 이용하여, 균종들을 종 (species) 수준에서 구별하기 위해 측정한 영역인 2,000 Da ~ 20,000 Da의 데이터를 이용하여, 균주(strain) 수준인 MRSA, MSSA까지 구별할 수 있다. 종 수준의 동정에 주로 사용되는 유사성 기반 알고리즘은 MRSA와 MSSA를 구별하지 못하고, 양친성 알파-펩타이드 독소의 페놀 가용성 모듈린(PSM) 계열과 같은 특정 피크 및 대리 마커의 유무를 토대로 MRSA와 MSSA를 판별하는 것은 감도가 낮다는 문제가 있으나, 본 실시예를 통한 동정 방법으로 MRSA와 MSSA를 구별할 수 있다.
도 2는 일실시예에 MRSA와 MSSA의 전체 질량 스펙트럼을 도시한 도면이다.
일실시예에 따르면, 말디토프 질량분석기는 특정 처리된 균주에 펄스레이저를 방사시켜 균주를 구성하는 단백질 등의 구성들을 이온화시킨 후, 이온화된 단백질에 전압을 걸어 이온 소스로부터 검출기까지의 비행시간(time-of-flight, ToF)을 측정할 수 있다. 측정된 비행시간은 단백질의 무게 및 이온화된 전하량에 따라 결정될 수 있다. 비행시간은 속도에 반비례하므로, 균주 단백질의 질량전하비(mass-to-charge ratio)에 비례할 수 있다. 따라서 질량분석기는 비행시간을 이용하여 균주의 질량 스펙트럼 데이터를 생성할 수 있다. 질량전하비의 단위는 m/z일 수 있다. 질량 스펙트럼 데이터는 피크 프로필 데이터 포맷으로 표현될 수 있다. 예를 들어, 도 2는 MRSA 균주의 질량 스펙트럼 데이터(210) 및 MSSA 균주의 질량 스펙트럼 데이터(220)를 도시한다. 질량 스펙트럼 데이터(210, 220)의 x축은 질량전하비, y축은 질량 스펙트럼의 세기를 나타낼 수 있다. 도 2에 도시된 x축에서 질량전하비의 단위는 Da(달톤)일 수 있다. 참고로, 말디토프 질량분석기에 의해 분석 가능한 질량전하비의 범위는 2,000 Da ~ 20,000 Da일 수 있으나, 이로 한정하는 것은 아니다. 도 2에서는 일부 구간만 도시되었다.
도 3은 일실시예에 따른 MRSA 와 MSSA의 특정 질량 구간에서의 질량 스펙트럼을 비교한 도면이다.
일실시예에 따른 균주 MRSA와 MSSA의 2,000 Da부터 3,000 Da까지의 질량 스펙트럼의 차이는 도 3과 같이 나타날 수 있다. MRSA와 MSSA의 질량 스펙트럼 패턴의 유사도는 다른 균주들 간의 유사도에 비해 높은 편으로, 기존 유사도 측정 알고리즘은 MRSA와 MSSA를 구분하기 어려웠다. 아울러, 양친성 알파-펩타이드 독소의 페놀 가용성 모듈린(Phenol-soluble modulin, PSM) 계열과 같은 특정 피크 마커 및 대리 마커의 유무를 토대로 판별하는 기법은 감도가 낮아 MRSA와 MSSA 같이 균주 레벨의 차이를 구별하기 어려웠다.
이에 반해, 일 실시예에 따른 균주 동정 장치는 질량 스펙트럼 데이터를 전처리하고, 미리 트레이닝된 기계 학습 모델을 이용하여 피크 특성 데이터로부터 균주를 동정함으로써 MRSA 균주 및 MSSA 균주를 보다 정확히 동정할 수 있다. 더 나아가, 균주 동정 장치는 MRSA 균주에 보유된 이동 유전 요소(mobile genetic element)의 포도상구균 카세트 염색체 mec (Staphylococcal Cassette Chromosome mec, SCCmec) 타입 별로 동정할 수 있다.
도 4는 일실시예에 따른 가공된 질량 스펙트럼을 도시한 도면이다.
전처리 동작은 평탄화(smoothing), 베이스라인 조정(baseline correction), 세기 정규화(intensity normalization)을 포함할 수 있다.
예를 들어, 프로세서는 질량 스펙트럼 데이터를 평탄화함으로써, 질량 스펙트럼 데이터의 잡음을 제거할 수 있다. 질량 스펙트럼 데이터의 잡음을 제거하는 것은 데이터에서 원치 않는 스파이크, 추세 및 이상값을 제거하는 것으로, 사비츠키-골레이 필터, 이동평균, 이동 중앙값, 선형 회귀 및 2차 회귀 등을 이용하여 잡음을 제거하는 것일 수 있다.
프로세서는 평탄화된 질량 스펙트럼 데이터의 베이스 라인을 제거할 수 있다. 프로세서는 낮은 주파수 시그널을 제거함으로써 베이스 라인을 조정할 수 있다.
프로세서는 베이스 라인이 조정된 질량 스펙트럼 데이터의 측정 세기를 정규화(normalization)할 수 있다. 예를 들어, TIC (Total Ion Current) 총이온전류 정규화는 질량 스펙트럼 데이터의 분석을 원활히 수행하기 위해 전체 스펙트럼 세기의 합을 1로 조정하는 동작을 나타낼 수 있다. 프로세서는 질량 스펙트럼 데이터의 세기 범위를 조정함으로써, 데이터의 분포를 변경할 수 있다. 예를 들어, 프로세서는 질량 스펙트럼 데이터의 최대 세기를 제한할 수 있다.
프로세서는 말디토프 질량분석기를 통해 획득된 질량 스펙트럼 데이터(410)을 전처리함으로써 잡음이 제거되어 데이터 분석에 적합한 스펙트럼 데이터(420)을 생성할 수 있다.
도 5는 일실시예에 따라 피크를 갖는 질량전하비 값을 조정하는 것을 도시한 도면이다.
질량 스펙트럼 데이터를 정규화한 후, 프로세서는 질량 스펙트럼 데이터의 피크들을 검출할 수 있다. 프로세서는 미리 설정된 기준에 따라 질량 스펙트럼 데이터에서 검출된 피크들을 정렬할 수 있다. 피크들이 정렬된 후, 프로세서는 정렬된 스펙트럼 피크를 구간화(binning)할 수 있다.
일실시예에 따르면, 질량 스펙트럼 데이터에서 개별 질량전하비에 대응하는 지점마다 주변 지점들과 스펙트럼 세기를 비교하고, 주변 지점들보다 임계 비율 이상 큰 스펙트럼 세기를 나타내는 질량 전하비를 피크 지점으로 검출할 수 있다. 예시적으로, 임계 비율은 10배로, 개별 질량전하비의 스펙트럼 세기가 주변 지점들의 스펙트럼 세기에 비해 10배이상 차이나는 경우, 해당 질량전하비 지점을 피크 지점으로 검출할 수 있다. 피크 지점은 피크가 검출되는 지점으로 질량 스펙트럼 데이터 그래프에서 x축 값에 대응하는 값일 수 있고, 피크 값은 피크가 지시하는 스펙트럼 세기로 질량 스펙트럼 데이터 그래프에서 y 축 값에 대응하는 값을 의미할 수 있다.
피크가 검출된 후, 프로세서는 피크들을 미리 설정된 대표 피크 지점(521)으로 정렬시킬 수 있다. 프로세서는 대표 피크 지점(521)과 검출된 피크의 질량전하비값을 비교하고, 검출된 피크의 질량전하비값이 대표 피크 지점(521)과 임계값 이하의 오차를 갖는 경우, 질량 스펙트럼 데이터에서 검출된 피크를 대표 피크 지점(521)으로 정렬할 수 있다. 질량 스펙트럼 데이터(510)에서 피크 지점은 소정의 오차가 있을 수 있는데, 프로세서는 오차 범위 내(예를 들어, ±1000 ppm의 단백질 또는 단백질 조각이 같은 종류의 단백질 또는 단백질 조각이라고 판단하기 위해 소정의 오차에 대해 보정을 할 수 있다. 소정의 오차에 대해 보정한 질량 스펙트럼 데이터(520)를 통해 프로세서는 기계 학습 모델을 트레이닝시킴으로써 보다 정확한 기계 학습 모델을 생성할 수 있고, 생성된 기계 학습 모델은 질량 스펙트럼 데이터에 대응하는 균주를 정확히 판단할 수 있다.
피크가 정렬된 후, 프로세서는 정렬된 피크들의 피크 지점에 대한 대표 피크 값을 결정할 수 있다. 일실시예에 따르면, 대표 피크 값은 일정 질량전하비 구간을 대표하는 질량전하비값일 수 있으며, 피크 정렬의 기준이 된 대표 피크 지점(521)일 수 있다. 프로세서는 대표 피크 값에 대응하는 스펙트럼 세기를 기계 학습 모델에 입력할 특성 행렬의 원소 값으로 설정할 수 있다.
도 6은 일실시예에 따라 복수의 균주에 대한 특성 행렬을 도시한 테이블이다.
균주 동정 장치의 프로세서는 전처리된 질량 스펙트럼 데이터로부터 복수의 질량전하비 지점들의 각각에 대한 스펙트럼 세기를 지시하는 원소 값(element value)을 포함하는 특성 행렬(600)을 산출할 수 있다. 특성 행렬(600)의 열은 질량전하비 지점들에 따라 구분될 수 있고, 행은 균주 데이터 별로 구분될 수 있다. 특성 행렬(600)의 각 행은 임의의 균주 데이터에 대응하는 특성 벡터(예를 들어, 행 벡터(row vector))로서, 예를 들어, 전처리된 질량 스펙트럼 데이터일 수 있다. 특성 행렬(600)의 각 특성 벡터에는 기준 균주 정보(610, 620, 630)가 매핑될 수 있다.
일실시예에 따르면, 프로세서는 특성 행렬(600)의 특성 벡터에서 복수의 질량전하비 지점들 중 질량 피크가 검출된 지점에 대응하는 원소 값을, 질량 피크의 피크 값(611, 621, 622, 631)으로 결정할 수 있다. 프로세서는 복수의 질량전하비 지점들 중 질량 피크가 검출되지 않은 지점에 대해서는 스펙트럼 세기를 배제할 수 있다. 예를 들어, 프로세서는 특성 행렬(600)에서 질량 피크가 검출되지 않은 지점의 원소 값을 0으로 설정할 수 있다.
다른 일실시예에 따르면, 도 6에 도시된 바와 달리 프로세서는 질량 피크가 검출되지 않은 지점에 대해서도 대응하는 원소 값을 해당 지점에서의 스펙트럼 세기로 설정할 수 있다. 피크가 검출되지 않은 경우라도, 프로세서가 해당 지점에서의 스펙트럼 세기로 원소 값을 설정할 수 있다. 예를 들어, 프로세서는 질량 스펙트럼 데이터의 스펙트럼 세기들을 가우시안 분포에 기초하여 결정할 수 있다. 가우시안 분포를 가지는 경우 프로세서는 통계 테스트 방법을 적용하여 균주를 분류할 수 있다.
도 7은 일실시예에 따른 다차원 스케일링 분석(Multidimensional Scaling; MDS)의 결과를 도시한 그래프이다.
일실시예에 따르면, 프로세서는 특성 행렬의 열의 개수 N에 대응하는 N차원의 벡터를 생성할 수 있다. 여기서, N은 1이상의 정수이다. 특성 행렬의 열의 개수에 대응하는 N차원 벡터를 시각화하기 어려우므로, 다차원 스케일링(Multidimensional Scaling, MDS) 분석은 도 7과 같이 2차원으로 표현될 수 있다.
MDS 분석 결과에서 볼 수 있듯이 MRSA + 표준 균주인 ATCC43300B (적색에 검은색 테두리), ATCC43300G (청색에 검은색 테두리)는 각각 x = -15인 가상의 선, x = 5인 가상의 선 근방에 있고, MRSA - 표준 균주인 ATCC29213은 (-5, -15) 근처에 위치할 수 있다. 나머지 임상 균주들 - MRSA (적색 원), MSSA (검은색 원)은 위 표준 균주를 중심으로 모여 있는 경향성은 있으나 명확한 경계를 나타내진 않는다.
도 8은 일실시예에 따른 두 표본 검증(Two sample test)의 결과를 도시한 테이블이다.
도 8에 따르면, 어떤 피크들이 두 그룹 MRSA와 MSSA를 구분하는데 있어 큰 영향력을 주는지가 평가될 수 있다. 프로세서는 두 표본 검증(Two sample test)을 이용하여 각 피크 값에 대해 두 그룹의 신호 세기 값이 동일한 분포를 가질 p 값을 계산하고 통계적 유의도가 큰 것을 추출할 수 있다. 도 8의 테이블은 피크 값을 포함하지 않고 있지만, "MRSA", "MSSA"가 지시하는 데이터는 해당 그룹의 평균 값이고, "ratio", "log2ratio"가 지시하는 데이터는 각각 그 평균값의 비, 로그2비일 수 있다. 예를 들어, 첫 행에 따르면 이 피크 값에 대한 MRSA는 3.8, MSSA는 2.3의 값을 주고 있고 MSSA에 대한 MRSA의 비율은 1.7이고 로그비는 0.72일 수 있다.
도 9는 일실시예에 따른 로지스틱 회귀 모델을 도시한 그래프이다.
프로세서는 통계적으로 선발해낸, 두 그룹 MRSA, MSSA를 구별하는 데에 큰 기여를 하는 피크들을 선형 조합한 로지스틱 회귀 모델을 테스트한 결과 두 그룹을 구분할 수 있다. 로지스틱 회귀 모델을 통해 균주를 분류하는 정확도는 82.5% 정도가 된다. 일실시예에 따르면, 두 그룹 간의 비율을 유지하면서 무작위로 선발한 60%의 데이터로 기계학습 모델을 만들고 나머지 40%의 데이터로 평가할 수 있다.
도 10은 일실시예에 따른 의사결정나무 모델을 도시한 그래프이다.
의사결정나무 모델은 데이터의 전체 양상을 파악할 수 있는 해석이 쉬운 모델일 수 있다. 다만 과적합의 가능성이 높고 데이터셋의 작은 변화에 민감하여 일반성이 부족할 수 있다. 트레이닝 데이터셋으로 구성된 의사결정나무 모델로 자체 데이터를 평가한 정확도는 94.4%일 수 있다. 그러나 훈련데이터셋이 확장될 때 생성되는 의사결정나무는 처음의 나무 모델과 큰 차이가 있을 수 있다.
도 11은 일실시예에 따른 랜덤 포레스트 모델의 결정 트리를 도시한 그래프이다.
일실시예에 따르면, 기계 학습 모델은 랜덤 포레스트 모델로 구현될 수 있다. 프로세서는 랜덤 포레스트 모델(random forest model)에 기반한 기계 학습 모델의 파라미터를 업데이트함으로써 기계학습 모델을 트레이닝시킬 수 있다. 랜덤 포레스트 모델은 다수의 결정 트리들이 앙상블된 모델로서, 랜덤 포레스트 모델에 포함된 결정 트리들 각각의 파라미터는 랜덤성에 의해 독립적으로 학습될 수 있다. 테스트 단계에서, 프로세서는 트레이닝이 완료된 랜덤 포레스트 모델에 포함된 다수의 결정 트리들에 따른 동정 결과를 종합하여 입력 군주 데이터에 대한 균주 클래스를 최종적으로 결정할 수 있다.
도 11은 랜덤 포레스트 모델에 포함되는 한 결정 트리를 예시적으로 도시한다. 결정 트리는 계층 구조로 이루어진 노드(node)들과 에지(edge)들의 집합일 수 있다. 노드는 내부 노드(1120, 1130, 1131)와 종단 노드(1140)로 나뉘는데, 프로세서는 노드별로 노드의 파라미터를 업데이트할 수 있다. 파라미터는 예시적으로, 모든 노드의 테스트 파라미터, 종단 노드에서의 파라미터를 포함할 수 있다.
일실시예에 따르면, 프로세서는 피크 특성 데이터를 루트 노드(1110)에 입력하고, 종단 노드에 대한 파라미터와 내부 노드(1120, 1130, 1131)와 관련된 노드 분할 함수(split function)의 파라미터를 최적화할 수 있다. 예를 들어, 프로세서는, 랜덤 포레스트 모델에 트레이닝 입력을 입력하여 출력된 임시 출력에 따른 목적 함수의 값이 최대화되도록, 트리의 파라미터를 업데이트할 수 있다. 트리의 파라미터는 하이퍼 파라미터인 mtry와 split rule을 포함할 수 있다. 하이퍼 파라미터에서 mtry는 분할 함수에서 사용하는 변수 개수(예를 들어, 함수의 차수(order))를 나타낼 수 있다.
도 12는 일실시예에 따라 복수의 결정 트리를 포함하는 랜덤 포레스트 모델을 도시한 그래프이다.
랜덤 포레스트 모델은 복수의 결정 트리(1210, 1220, 1230)를 포함할 수 있는데, 프로세서는 복수의 결정 트리(1210, 1220, 1230)를 서로 독립적으로 트레이닝시킬 수 있다. 따라서, 복수의 결정 트리(1210, 1220, 1230)의 트리구조는 서로 다를 수 있고, 분할 함수 및 파라미터도 서로 다를 수 있다. 프로세서가 테스트 및 판단 과정에서 복수의 결정 트리(1210, 1220, 1230)에 피크 특성 데이터를 입력시키면, 병렬적으로 복수의 결정 트리(1210, 1220, 1230)를 통해 복수의 판단 결과를 출력시킬 수 있다.
프로세서는 복수의 판단 결과를 모두 고려하여 최종 판단 결과를 출력할 수 있다. 예를 들어, 프로세서는 판단 결과를 평균, 곱하기 또는 과반수 투표 방식을 통해 최종 판단 결과를 출력할 수 있다. 프로세서는 제1 결정 트리(1210)에 의한 제1 동정 결과, 제2 결정 트리(1220)에 의한 제2 동정 결과, 및 제3 결정 트리(1230)에 의한 제3 동정 결과에 기초하여 최종 동정 결과를 결정할 수 있다. 예를 들어, 각 동정 결과는 입력 균주가 각 클래스에 속할 확률을 지시할 수 있다. 랜덤 포레스트 모델이 두 클래스로 구성된 트레이닝 데이터에 기초하여 트레이닝된 경우, 각 동정 결과는 입력 균주가 특정 균주(예를 들어, MRSA)일 확률을 지시할 수 있다. 예를 들어, 제1 동정 결과가 0.85, 제2 동정 결과가 0.9, 제3 동정 결과가 0.98인 경우, 프로세서는 동정 결과들의 평균인 0.91을 최종 동정 결과로 결정할 수 있다.
다만, 최종 동정 결과의 결정을 상술한 바로 한정하는 것은 아니다. 예를 들어, 랜덤 포레스트 모델이 멀티 클래스로 구성된 트레이닝 데이터에 기초하여 트레이닝된 경우, 각 동정 결과는 입력 군주가 각 균주 클래스에 속할 확률을 지시할 수 있다. 예를 들어, 동정 결과는 [MRSA 타입II일 확률, MRSA 타입 III일 확률, MRSA 타입 IVA일 확률, MSSA일 확률]로 구성될 수 있고, 프로세서는 각 동정 결과의 대응하는 값들을 이용하여 최종 동정 결과를 결정할 수도 있다. 과반수 방식을 예로 들면, 제1 동정 결과=[0.1, 0.1, 0.2, 0.6], 제2 동정 결과=[0.1, 0.1, 0.8, 0], 제3 동정 결과=[0.1, 0.1, 0.1, 0.7]인 경우, 프로세서는 제1 동정 결과 및 제3 동정 결과에서 MSSA일 확률이 가장 높았으므로, 균주가 MSSA인 것으로 결정할 수 있다.
도 13은 일실시예에 따른 랜덤 포레스트 모델의 결과를 나타낸 테이블 및 그래프이다. 랜덤 포레스트 모델의 구성 요소인 결정 트리는 각 부트스트랩 샘플의 데이터셋을 분할하는 과정을 반복하며 만들어지는데, 분할 전후 대비 정보 엔트로피가 가장 많이 줄어드는 (최대의 정보 이득을 주는) 분할 방식을 택한다. 각 부트스트랩 샘플에 대해 결정 트리를 만들 때 gini를 선택하면 집합에 이질적인 것이 얼마나 섞였는지 측정하는 지표인 지니 불순도(gini impurity)를 이용하여 정보 이득을 계산하는데, 무작위로 선택한 특성 후보 중에서 각 특성마다 정보 이득을 최대로 하는 최적 값을 찾고 그 중에 최적을 선택한다. Extratrees 를 선택하면 특성 후보를 각각 무작위로 분할한 다음 최적의 분할을 선택한다. 이 경우 정규화된 새넌 정보이득을 기준으로 최적을 판단한다.
도 13은 프로세서가 4개의 결정 트리를 포함하는 랜덤 포레스트 모델에 대해 100회 반복하여 트레이닝 시킨 결과를 도시한 그래프이다. 도 13의 그래프에 따르면, 반복 횟수가 증가할수록 정확도가 높아지고, 반복 횟수가 100회 이상 되는 경우, 정확도는 크게 증가하지 않을 수 있다. 프로세서가 100회 반복하여 트레이닝 시킨 결과 MSSA와 MRSA를 구분하는 테스트의 정확도는 94.8%가 될 수 있다.
앞서 랜덤 포레스트 모델을 주로 설명하였으나, 이로 한정하는 것은 아니다. 예를 들어, 복수의 랜덤 포레스트 모델들이 결합될 수 있다. 제1 랜덤 포레스트 모델은 MRSA일 확률을 지시하는 동정 결과를 출력하고, 제2 랜덤 포레스트 모델은 MSSA일 확률을 지시하는 동정 결과를 출력할 수 있다. 더 나아가, MRSA 중 타입 II일 확률을 지시하는 제1 서브 모델, 타입 III일 확률을 지시하는 제2 서브 모델, 타입 IVA를 지시하는 제3 서브 모델 등이 결합될 수도 있다. 각 모델에 의한 동정 결과는 통계적인 방식에 기초하여 최종 동정 결과로 통합될 수 있으나, 이로 한정하는 것은 아니다. 기계 학습 구조의 분류기에 의해 복수의 동정 결과들이 통합될 수도 있다. 또한, 랜덤 포레스트 모델은 다른 타입의 기계 학습 구조와도 결합될 수 있다. 예를 들어, 균주 동정 모델은 하나 이상의 랜덤 포레스트 모델, 하나 이상의 뉴럴 네트워크 모델, 및 하나 이상의 결정 트리 등을 포함할 수 있다. 기계 학습 모델의 구성을 상술한 바로 한정하는 것은 아니고, 설계에 따라 달라질 수 있다.
도 14는 일실시예에 따른 복수의 타입을 갖는 MRSA의 특성을 도시한 그래프이다.
일실시예에 따르면, 프로세서는 기계 학습 모델에 기초하여 분류 결과 확률값을 산출할 수 있다. 예시적으로, 프로세서는 Two class 분류를 통해 MRSA와 MSSA로 균주의 균주를 분류하는 대신 입력된 균주의 균주가 MRSA일 확률 값을 산출할 수 있다. 분류 결과 확률값이 산출되면 프로세서는 확률값에 기초하여 정량 해석을 할 수 있는데, 정량해석에 따른 균주의 서브 타입을 결정할 수 있다.
예시적으로, 프로세서가 균주가 MRSA일 확률값을 산출하는 경우, SCCmec(staphylococcal cassette chromosome mec) type에 따른 MRSA 확률 값을 계산할 수 있다. SCCmec type에 따른 MRSA 확률 값을 도시한 박스플롯(1410) 및 그래프(1420)에 따르면, 같은 MRSA일지라도 SCCmec type에 따라 서로 다른 확률 분포를 가질 수 있다. 프로세서는 SCCmec type을 MRSA의 SCCmec type II, III, IV, IVA 뿐 아니라 MSSA를 함께 비교하기 위해 type O에 대한 확률 값을 산출할 수 있다.
MRSA 중 SCCmec type II, III의 MRSA 확률값의 평균은 1 근처이고, type IVA도 0.8 근처인데 반하여 type IV의 경우는 평균은 0.5 근처이고 넓게 퍼져 있는 양상을 나타낼 수 있다. MSSA를 의미하는 type O의 경우는MRSA 확률값의 평균은 0.2 근처일 수 있다.
일실시예에 따르면, 프로세서는 균주의 타입 구분이 불가능하다고 판단한 경우, 복수의 균주 데이터 중 포도상구균 카세트 염색체 mec (Staphylococcal Cassette Chromosome mec, SCCmec) 타입 II, 타입 III, 및 타입 IVA의 이동 유전 요소(mobile genetic element) 중 적어도 하나를 보유(carry)하는 MRSA 균주 데이터에 대해 MRSA를 지시하는 제1 참값을 기준 균주 정보로서 매핑할 수 있다. 또한, 프로세서는 복수의 균주 데이터 중 MSSA 균주 데이터에 대해 MSSA를 지시하는 제2 참값을 기준 균주 정보로서 매핑할 수 있다. 따라서, 프로세서는 MRSA 확률 값을 도시한 박스플롯(1410)의 SCCmec 타입 IV을 제외한 모든 균주 데이터가 지시하는 참값을 매핑할 수 있다. 이에 따라, 프로세서는 복수의 균주 데이터 중 SCCmec 타입 IV의 이동 유전 요소를 보유하는 MRSA 균주 데이터에 대해 제1 참값 및 제2 참값 사이의 값 (예를 들어, 0.5)을 기준 균주 정보로서 매핑할 수 있다.
일실시예에 따르면, 프로세서는 기계학습 모델에 균주의 질량 스펙트럼 데이터를 입력하여 출력값을 획득할 수 있고, 출력값이 제1 임계범위(예를 들어, 0.6이상), 제2 임계 범위(예를 들어, 0.4 미만), 제3 임계 범위(예를 들어, 0.4 이상 0.6 미만) 중 어느 임계 범위에 속하는지 판단할 수 있다. 각 임계 범위는 균주가 MRSA일 확률을 의미할 수 있다. 제1 임계 범위, 제2 임계 범위, 제3 임계 범위는 중첩되는 범위가 없고, 제1 임계 범위의 하한은 제2, 제3 임계 범위의 하한 보다 높고, 제2 임계 범위의 상한은 제1, 제2 임계 범위보다 낮으며, 제3 임계 범위는 제1 임계 범위의 하한 및 제2 임게 범위의 상한 사이일 수 있다. 프로세서는 출력값이 제1 임계범위인 경우, 균주의 SCCmec 타입이 MRSA의 타입 II, 타입 III, 및 타입 IVA이고, 제2 임계 범위인 경우, 균주의 SCCmec 타입이 MRSA의 타입 IV라 판단할 수 있으며, 제3 임계 범위인 경우, 균주는 MSSA라고 판단할 수 있다.
도 15는 일실시예에 따른 복수의 타입을 갖는 균주의 특성을 도시한 그래프이다.
도 15는 일실시예에 따라 반복실험으로 확률값의 분산을 계산하여 도시한 그래프일 수 있다. MRSA의 SCCmec type II, III, IVA 및 type O의 확률값에 대한 분산 값을 지시하는 그래프(1510, 1520, 1540, 1550)에 따르면, 확률값이 양극단인 1과 0에 인접할수록 분산 값은 작아질 수 있으나, 확률값이 중간값인 0.4 내지 0.6인 경우 분산 값이 0.05 이상으로 큰 경우도 존재할 수 있다.
MRSA의 SCCmec type IV의 그래프에 따르면, MRSA의 SCCmec type IV는 확률값이 중간 영역대에 주로 위치해 있어 일관된 판정하기 어려울 수 있다. 따라서, 프로세서에 의해 산출된 확률값이 0.4 내지 0.6의 중간값에 해당하는 경우 판단을 보류하거나 타입 구분이 불가능하다고 판단할 수 있다.
도 16은 일실시예에 따른 균주의 균주 타입을 결정하는 장치(1600)를 도시한 흐름도이다.
입력 균주의 동정 결과를 출력하는 장치(1600)는 프로세서(1610) 및 메모리(1620)를 포함할 수 있다. 프로세서(1610)는 균주 데이터베이스에 포함된 복수의 균주 데이터를 균주 별로 분류함으로써 복수의 질량 스펙트럼 데이터 및 각 질량 스펙트럼 데이터에 매핑된 기준 균주 정보를 포함하는 트레이닝 데이터를 생성하고, 생성된 트레이닝 데이터로부터 질량 스펙트럼 데이터를 전처리할 수 있다. 또한, 프로세서(1610)는 전처리된 질량 스펙트럼 데이터로부터 질량 스펙트럼 데이터의 피크값들에 관련된 피크 특성 데이터를 생성하고, 피크 특성 데이터를 이용하여 기계 학습 모델의 파라미터를 업데이트함으로써 기계 학습 모델을 트레이닝시키고, 트레이닝된 모델을 이용하여 입력 균주에 대한 동정 결과를 출력할 수 있다.
메모리(1620)는 적어도 일시적으로 프로세서(1610)에 의해 생성된 데이터 및 외부 장치(1600)인 말디토프 질량 분석기(1630)로부터 송신된 질량 스펙트럼 데이터를 저장할 수 있다. 프로세서(1610)에 의해 생성된 데이터는 복수의 트레이닝 데이터, 피크 특성 데이터들, 및 트레이닝된 기계 학습 모델의 파라미터들을 포함할 수 있다.
이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

Claims (21)

  1. 프로세서에 의해 수행되는 균주 동정 방법(strain identification method)에 있어서,
    균주 데이터베이스에 포함된 복수의 균주 데이터를 균주 별로 분류함으로써 복수의 질량 스펙트럼 데이터 및 각 질량 스펙트럼 데이터에 매핑된 기준 균주 정보를 포함하는 트레이닝 데이터를 생성하는 단계;
    상기 생성된 트레이닝 데이터로부터 질량 스펙트럼 데이터를 전처리하는 단계;
    상기 전처리된 질량 스펙트럼 데이터로부터 상기 질량 스펙트럼 데이터의 피크값들에 관련된 피크 특성 데이터를 생성하는 단계;
    상기 피크 특성 데이터를 이용하여 기계 학습 모델의 파라미터를 업데이트함으로써 상기 기계 학습 모델을 트레이닝시키는 단계; 및
    상기 트레이닝된 기계 학습 모델을 이용하여 입력 균주에 대한 동정 결과를 출력하는 단계
    를 포함하는 균주 동정 방법.
  2. 제1항에 있어서,
    상기 생성된 피크 특성 데이터에 상기 질량 스펙트럼 데이터에 대응하는 기준 균주 정보를 참값 데이터로 매핑하는 단계
    를 더 포함하고,
    상기 기계 학습 모델을 트레이닝시키는 단계는,
    상기 피크 특성 데이터 및 상기 피크 특성 데이터에 매핑된 상기 참값 데이터에 기초하여 상기 기계 학습 모델의 파라미터를 업데이트하는 단계
    를 포함하는 균주 동정 방법.
  3. 제1항에 있어서,
    상기 질량 스펙트럼 데이터를 전처리하는 단계는,
    상기 질량 스펙트럼 데이터가 미리 지정된 기준에 부합하는지 여부를 판단하는 단계;
    상기 질량 스펙트럼 데이터가 상기 기준에 부합한다고 판단한 경우, 상기 질량 스펙트럼 데이터를 트레이닝 데이터에 추가하는 단계; 및
    상기 질량 스펙트럼 데이터가 상기 기준에 부합하지 않는 경우, 상기 질량 스펙트럼 데이터를 기계 학습 모델의 트레이닝으로부터 배제하는 단계
    를 포함하는 균주 동정 방법.
  4. 제2항에 있어서,
    상기 기준은,
    상기 질량 스펙트럼 데이터의 신호 대 잡음비(SNR, Signal-to-noise ratio)가 임계 비율 이상인지 여부를 포함하는
    균주 동정 방법.
  5. 제1항에 있어서,
    상기 질량 스펙트럼 데이터를 전처리하는 단계는,
    상기 질량 스펙트럼 데이터의 잡음을 제거하는 단계;
    상기 잡음이 제거된 질량 스펙트럼 데이터의 베이스 라인을 제거하는 단계;
    상기 질량 스펙트럼 데이터의 신호 세기를 정규화(normalization)하는 단계;
    상기 질량 스펙트럼 데이터의 피크들을 검출하는 단계; 및
    미리 설정된 기준에 따라 상기 질량 스펙트럼 데이터에서 상기 검출된 피크들을 정렬하는 단계
    를 포함하는 균주 동정 방법.
  6. 제5항에 있어서,
    상기 피크들을 검출하는 단계는,
    상기 질량 스펙트럼 데이터에서 개별 질량전하비(mass-to-charge ratio)에 대응하는 지점마다 주변 지점들과 스펙트럼 세기를 비교하는 단계; 및
    상기 스펙트럼 세기의 비교 결과에 기초하여, 상기 질량 스펙트럼 데이터로부터 피크 지점을 검출하는 단계;
    를 포함하는 균주 동정 방법.
  7. 제6항에 있어서,
    상기 피크 지점을 검출하는 단계는,
    상기 질량 스펙트럼 데이터에서 복수의 질량전하비들에 대응하는 지점들 중 인접한 지점의 스펙트럼 세기에 비해 임계 비율 이상 큰 지점을 상기 피크 지점으로 검출하는 단계
    를 포함하는 균주 동정 방법.
  8. 제5항에 있어서,
    상기 피크들을 정렬하는 단계는,
    미리 설정된 대표 피크 지점과 상기 검출된 피크의 질량전하비값을 비교하는 단계; 및
    상기 검출된 피크의 질량전하비값 및 상기 대표 피크 지점 간의 차이가 임계값 이하인 경우, 상기 질량 스펙트럼 데이터에서 상기 검출된 피크의 질량 전하비값을 상기 대표 피크 지점으로 정렬하는 단계
    를 포함하는 균주 동정 방법.
  9. 제8항에 있어서,
    상기 피크들을 정렬하는 단계는,
    상기 정렬된 피크들의 피크 지점에 대한 대표 피크 값을 결정하는 단계
    를 포함하는 균주 동정 방법.
  10. 제1항에 있어서,
    상기 피크 특성 데이터를 생성하는 단계는,
    상기 전처리된 질량 스펙트럼 데이터로부터 복수의 질량전하비 지점들의 각각에 대한 스펙트럼 세기를 지시하는 원소 값(element value)을 포함하는 특성 행렬을 산출하는 단계
    를 포함하는 균주 동정 방법.
  11. 제10항에 있어서,
    상기 특성 행렬을 산출하는 단계는,
    상기 특성 행렬에서 질량 피크 지점에 대응하는 원소 값을 상기 질량 피크 지점의 피크 값으로 결정하는 단계
    를 포함하는 균주 동정 방법.
  12. 제10항에 있어서,
    상기 특성 행렬을 산출하는 단계는,
    상기 복수의 질량전하비 지점들 중 질량 피크가 검출되지 않는 지점에 대하여 해당 지점에 대응하는 스펙트럼 세기를 상기 특성 행렬로부터 배제하는 단계
    를 포함하는 균주 동정 방법.
  13. 제10항에 있어서,
    상기 특성 행렬을 산출하는 단계는,
    상기 복수의 질량전하비 지점들 중 질량 피크가 식별되지 않는 지점에 대응하는 원소 값을 해당 지점에서의 스펙트럼 세기로 설정하는 단계
    를 포함하는 균주 동정 방법.
  14. 제1항에 있어서,
    상기 기계 학습 모델을 트레이닝시키는 단계는,
    임시 기계 학습 모델을 이용하여 상기 트레이닝 데이터로부터 출력된 임시 결과 값 및 목적 함수에 기초하여 상기 임시 기계 학습 모델의 파라미터를 업데이트하는 단계
    를 포함하는 균주 동정 방법.
  15. 제1항에 있어서,
    상기 기계 학습 모델은,
    각각 하나 이상의 노드들을 포함하는 복수의 결정 트리들을 포함하고,
    상기 기계 학습 모델을 트레이닝시키는 단계는,
    상기 복수의 결정 트리들 각각에 상기 생성된 특성 데이터를 입력하는 단계;
    상기 복수의 결정 트리들에 대해 독립적으로 기계 학습 모델의 파라미터를 업데이트함으로써 상기 기계 학습 모델을 트레이닝시키는 단계
    를 포함하는 균주 동정 방법.
  16. 제1항에 있어서,
    상기 복수의 균주 데이터는,
    메티실린 감수성 황색포도구균(methicillin-sensitive Staphylococcus aureus infection, MSSA) 균주 및 메티실린 내성 황색포도알균 감염(methicillin-resistant Staphylococcus aureus infection, MRSA) 균주에 관한 균주 데이터를 포함하는,
    균주 동정 방법.
  17. 제1항에 있어서,
    상기 트레이닝 데이터를 생성하는 단계는,
    상기 복수의 균주 데이터의 각각에 대해, 두 클래스(two class) 중 해당 균주 데이터에 대응하는 균주가 속하는 클래스를 지시하는 참값(ground truth value)을 해당 균주 데이터에 대한 기준 균주 정보로 매핑하는 단계
    를 포함하고,
    상기 기계 학습 모델을 트레이닝시키는 단계는,
    각 균주 데이터에 대해 상기 두 클래스 중 한 클래스를 지시하는 상기 기준 균주 정보에 기초하여 상기 기계 학습 모델을 트레이닝시키는 단계
    를 포함하는 균주 동정 방법.
  18. 제1항에 있어서,
    상기 트레이닝 데이터를 생성하는 단계는,
    상기 복수의 균주 데이터의 각각에 대해, 세 개 이상의 멀티 클래스(multi class) 중 해당 균주 데이터에 대응하는 균주가 속하는 클래스를 지시하는 참값을 해당 균주 데이터에 대한 기준 균주 정보로 매핑하는 단계
    를 포함하고,
    상기 기계 학습 모델을 트레이닝시키는 단계는,
    각 균주 데이터에 대해 상기 멀티 클래스 중 한 클래스를 지시하는 상기 기준 균주 정보에 기초하여 상기 기계 학습 모델을 트레이닝시키는 단계
    를 포함하는 균주 동정 방법.
  19. 제18항에 있어서,
    상기 기준 균주 정보를 매핑하는 단계는,
    상기 복수의 균주 데이터 중 포도상구균 카세트 염색체 mec (Staphylococcal Cassette Chromosome mec, SCCmec) 타입 II, 타입 III, 및 타입 IVA의 이동 유전 요소(mobile genetic element) 중 적어도 하나를 보유(carry)하는 MRSA 균주 데이터에 대해 MRSA를 지시하는 제1 참값을 상기 기준 균주 정보로서 매핑하는 단계;
    상기 복수의 균주 데이터 중 MSSA 균주 데이터에 대해 MSSA를 지시하는 제2 참값을 상기 기준 균주 정보로서 매핑하는 단계; 및
    상기 복수의 균주 데이터 중 SCCmec 타입 IV의 이동 유전 요소를 보유하는 MRSA 균주 데이터에 대해 상기 제1 참값 및 상기 제2 참값 사이의 값을 상기 기준 균주 정보로서 매핑하는 단계
    를 포함하는 균주 동정 방법.
  20. 제1항 내지 제19항 중 어느 한 항의 방법을 수행하기 위한 명령어들을 포함하는 하나 이상의 컴퓨터 프로그램을 저장한 컴퓨터 판독 가능 기록 매체.
  21. 균주 데이터베이스에 포함된 복수의 균주 데이터를 균주 별로 분류함으로써 복수의 질량 스펙트럼 데이터 및 각 질량 스펙트럼 데이터에 매핑된 기준 균주 정보를 포함하는 트레이닝 데이터를 생성하고, 상기 생성된 트레이닝 데이터로부터 질량 스펙트럼 데이터를 전처리하며, 상기 전처리된 질량 스펙트럼 데이터로부터 상기 질량 스펙트럼 데이터의 피크값들에 관련된 피크 특성 데이터를 생성하고, 상기 피크 특성 데이터를 이용하여 기계 학습 모델의 파라미터를 업데이트함으로써 상기 기계 학습 모델을 트레이닝시키며, 상기 트레이닝된 기계 학습 모델을 이용하여 입력 균주에 대한 동정 결과를 출력하는 프로세서
    를 포함하는 균주 동정 장치(strain identification apparatus).

KR1020190138557A 2018-11-01 2019-11-01 질량 스펙트럼에 기초한 균주 동정 방법 및 장치 KR20200050434A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20180133032 2018-11-01
KR1020180133032 2018-11-01

Publications (1)

Publication Number Publication Date
KR20200050434A true KR20200050434A (ko) 2020-05-11

Family

ID=70729575

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190138557A KR20200050434A (ko) 2018-11-01 2019-11-01 질량 스펙트럼에 기초한 균주 동정 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20200050434A (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112505133A (zh) * 2020-12-28 2021-03-16 黑龙江莱恩检测有限公司 一种基于深度学习的质谱检测方法
CN112614542A (zh) * 2020-12-29 2021-04-06 北京携云基因科技有限公司 一种微生物鉴定方法、装置、设备及存储介质
CN113484400A (zh) * 2021-07-01 2021-10-08 上海交通大学 基于机器学习的质谱图分子式计算方法
CN114002307A (zh) * 2021-10-20 2022-02-01 山东省分析测试中心 一种鉴别液态奶热处理程度与掺杂的分析方法和系统
CN117169139A (zh) * 2023-11-02 2023-12-05 北京科技大学 一种基于反射高光谱的玻璃幕墙结构胶力学性能识别方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015507182A (ja) 2011-12-19 2015-03-05 オプティカル・ダイアグノスティクス・リミテッド 培養下での微生物を識別するための分光学的な手段および方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015507182A (ja) 2011-12-19 2015-03-05 オプティカル・ダイアグノスティクス・リミテッド 培養下での微生物を識別するための分光学的な手段および方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112505133A (zh) * 2020-12-28 2021-03-16 黑龙江莱恩检测有限公司 一种基于深度学习的质谱检测方法
CN112505133B (zh) * 2020-12-28 2023-09-12 黑龙江莱恩检测有限公司 一种基于深度学习的质谱检测方法
CN112614542A (zh) * 2020-12-29 2021-04-06 北京携云基因科技有限公司 一种微生物鉴定方法、装置、设备及存储介质
CN112614542B (zh) * 2020-12-29 2024-02-20 北京携云启源科技有限公司 一种微生物鉴定方法、装置、设备及存储介质
CN113484400A (zh) * 2021-07-01 2021-10-08 上海交通大学 基于机器学习的质谱图分子式计算方法
CN114002307A (zh) * 2021-10-20 2022-02-01 山东省分析测试中心 一种鉴别液态奶热处理程度与掺杂的分析方法和系统
CN114002307B (zh) * 2021-10-20 2024-02-06 山东省分析测试中心 一种鉴别液态奶热处理程度与掺杂的分析方法和系统
CN117169139A (zh) * 2023-11-02 2023-12-05 北京科技大学 一种基于反射高光谱的玻璃幕墙结构胶力学性能识别方法
CN117169139B (zh) * 2023-11-02 2024-01-26 北京科技大学 一种基于反射高光谱的玻璃幕墙结构胶力学性能识别方法

Similar Documents

Publication Publication Date Title
KR20200050434A (ko) 질량 스펙트럼에 기초한 균주 동정 방법 및 장치
US12091702B2 (en) Method for identifying microorganisms by mass spectrometry and score normalization
Prati et al. Class imbalances versus class overlapping: an analysis of a learning system behavior
Ahmed et al. Multiple feature construction for effective biomarker identification and classification using genetic programming
US20080187207A1 (en) Method and system for robust classification strategy for cancer detection from mass spectrometry data
CN107292350A (zh) 大规模数据的异常检测方法
US7283937B2 (en) Method, apparatus, and program product for distinguishing valid data from noise data in a data set
US8010296B2 (en) Apparatus and method for removing non-discriminatory indices of an indexed dataset
CN106250442A (zh) 一种网络安全数据的特征选择方法及系统
US8543625B2 (en) Methods and systems for analysis of multi-sample, two-dimensional data
CN109886284B (zh) 基于层次化聚类的欺诈检测方法及系统
CN111062425B (zh) 基于c-k-smote算法的不平衡数据集处理方法
Nguyen et al. Mass spectrometry cancer data classification using wavelets and genetic algorithm
Boström Calibrating random forests
US20210350283A1 (en) Data analyzer
JP2016200435A (ja) マススペクトル解析システム,方法およびプログラム
CN113127342B (zh) 基于电网信息系统特征选择的缺陷预测方法及装置
KR20170100710A (ko) 반도체 장치의 결함 모델링 장치 및 방법, 이를 위한 컴퓨터 프로그램과, 이를 이용한 반도체 장치의 결함 검사 시스템
Wojnarski et al. RSCTC’2010 discovery challenge: Mining DNA microarray data for medical diagnosis and treatment
US20170053060A1 (en) Method for predicting prognosis of cancer
CN112382342A (zh) 一种基于集成特征选择的癌症甲基化数据分类方法
Ahmed et al. A new gp-based wrapper feature construction approach to classification and biomarker identification
Cateni et al. Improving the stability of Sequential Forward variables selection
JP2017211762A (ja) データ分類方法、データ分類装置およびデータ分類プログラム
Wang et al. Hypergraph based geometric biclustering algorithm

Legal Events

Date Code Title Description
E601 Decision to refuse application