KR102527149B1 - 질량 분석 및 기계 학습에 기초한 암 진단에 사용하는 분류 모델 최적화 장치 및 그 방법 - Google Patents

질량 분석 및 기계 학습에 기초한 암 진단에 사용하는 분류 모델 최적화 장치 및 그 방법 Download PDF

Info

Publication number
KR102527149B1
KR102527149B1 KR1020190017928A KR20190017928A KR102527149B1 KR 102527149 B1 KR102527149 B1 KR 102527149B1 KR 1020190017928 A KR1020190017928 A KR 1020190017928A KR 20190017928 A KR20190017928 A KR 20190017928A KR 102527149 B1 KR102527149 B1 KR 102527149B1
Authority
KR
South Korea
Prior art keywords
classification model
cancer
model
mass spectrum
classification
Prior art date
Application number
KR1020190017928A
Other languages
English (en)
Other versions
KR20200099816A (ko
Inventor
손종욱
조국래
김은주
이선영
최은숙
Original Assignee
재단법인대구경북과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 재단법인대구경북과학기술원 filed Critical 재단법인대구경북과학기술원
Priority to KR1020190017928A priority Critical patent/KR102527149B1/ko
Publication of KR20200099816A publication Critical patent/KR20200099816A/ko
Application granted granted Critical
Publication of KR102527149B1 publication Critical patent/KR102527149B1/ko

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7271Specific aspects of physiological measurement analysis
    • A61B5/7275Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Molecular Biology (AREA)
  • Psychiatry (AREA)
  • Physiology (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Signal Processing (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Evolutionary Computation (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

질량 분석 및 기계 학습에 기초한 암 진단에 사용하는 분류 모델 최적화 장치 및 그 방법이 개시된다. 분류 모델 최적화 방법은 암 환자의 암 조직으로부터 추출한 질량 스펙트럼 및 정상인의 정상 조직으로부터 추출한 질량 스펙트럼을 포함하는 학습 데이터를 획득하는 단계; 상기 학습 데이터에 포함된 질량 스펙트럼들을 전처리하기 위한 전처리 파라미터를 최적화하는 단계; 최적화된 전처리 파라미터로 상기 학습 데이터에 포함된 질량 스펙트럼들을 전처리하여 질량 스펙트럼들 각각의 특징을 결정하는 단계; 및 상기 질량 스펙트럼들 각각의 특징을 이용하여, 환자의 암 발병 여부를 판단하기 위한 분류 모델을 학습하는 단계를 포함할 수 있다.

Description

질량 분석 및 기계 학습에 기초한 암 진단에 사용하는 분류 모델 최적화 장치 및 그 방법{APPARATUS AND METHOD FOR OPTIMIZING CLASSIFICATION MODELS FOR CANCER DIAGNOSIS BASED ON MASS ANALYSIS AND MACHINE LEARNING}
본 발명은 질량 분석 및 기계 학습에 기초한 암 진단 장치가 암 진단을 위하여 사용하는 분류 모델을 최적화하는 장치 및 방법에 관한 것이다.
대장암의 진단 방법은 대장 내시경을 이용하는 진단 방법 및 대변 잠혈 검사를 이용하는 진단 방법으로 구분된다. 대장 내시경을 이용하여 대장암을 진단하는 경우, 환자가 대장을 청결하게 만들어야 하는 불편함이 있다. 또한, 조직 검사를 통해 암세포를 발견해야만 암을 확진할 수 있다. 조직 검사는, 조직 염색을 통해 관찰되는 세포의 모양과 핵의 크기 및 진하기 등의 정보를 식별한 다음, 병리 전문가가 식별된 정보로부터 직관적으로 암세포의 증식 여부를 판단하는 진단 방법이다. 경미한 세포의 변화는 임상의의 소견에 따라 누락될 수 있다. 이러한 누락은 오진 또는 조기 진단의 어려움을 초래할 수 있다.
암은 초기 발견이 중요하다. 대장암의 경우, 암 진행 이전에 양성 폴립(polyp, 용종)이 생성될 수 있다. 조직 검사를 통해 대장암을 얼마나 정확하게 진단하는지가 환자의 생명에 영향을 줄 수 있다. 대장 내시경을 이용하는 진단 방법 및 대변 잠혈 검사를 이용하는 진단 방법은 환자의 불편함, 조직 검사 과정 또는 병리 전문가 판단에서 발생될 수 있는 오진 가능성 등으로 인해 초기 진단이 어려울 수 있다.
따라서, 분류 모델을 이용하여 암을 진단하는 경우, 분류 모델의 정확도를 높여 암의 진단 확률을 증가시킬 수 있는 방법이 요청되고 있다.
대한민국 등록특허 제10-1993716호 (2014.04.07 공개)
본 발명은 분류 모델의 훈련 과정에서 훈련 데이터의 전처리에 사용될 전처리 파라미터를 최적화함으로써, 전처리를 통하여 결정하는 암 조직에 대응하는 질량 스펙트럼의 특징 및 정상 조직에 대응하는 질량 스펙트럼의 특징의 정확도를 높이는 장치 및 방법을 제공할 수 있다.
또한, 본 발명은 분류 모델의 성능을 평가하고, 평가 결과에 따라 모델 파라미터를 최적화함으로써, 학습된 분류 모델의 성능을 향상시키는 장치 및 방법을 제공할 수 있다.
본 발명의 일실시예에 따른 분류 모델 최적화 방법은 암 환자의 암 조직으로부터 추출한 질량 스펙트럼 및 정상인의 정상 조직으로부터 추출한 질량 스펙트럼을 포함하는 학습 데이터를 획득하는 단계; 상기 학습 데이터에 포함된 질량 스펙트럼들을 전처리하기 위한 전처리 파라미터를 최적화하는 단계; 최적화된 전처리 파라미터로 상기 학습 데이터에 포함된 질량 스펙트럼들을 전처리하여 질량 스펙트럼들 각각의 특징을 결정하는 단계; 및 상기 질량 스펙트럼들 각각의 특징을 이용하여, 환자의 암 발병 여부를 판단하기 위한 분류 모델을 학습하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 분류 모델 최적화 방법의 전처리 파라미터를 최적화하는 단계는, 상기 질량 스펙트럼을 구성하는 분자 물질의 농도의 분포에 포함된 노이즈를 제거하기 위하여 사용하는 SNR(Signal to Noise Ratio)의 값을 변경하며, 변경한 SNR 값들 각각에 대응하는 특징들을 추출하는 단계; 변경한 SNR 값들 각각에 대응하는 특징들을 상기 분류 모델에 적용하여 SNR 값의 변경에 따라 변경된 분류 모델의 성능을 평가하는 단계; 및 상기 분류 모델의 성능을 평가한 결과가 가장 높은 SNR의 값을 최적화된 전처리 파라미터로 결정하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 분류 모델 최적화 방법은 분류 모델을 평가하는 단계; 및 평가 결과에 따라 상기 분류 모델의 모델 파라미터를 최적화하는 단계를 더 포함할 수 있다.
본 발명의 일실시예에 따른 분류 모델 최적화 방법의 분류 모델을 평가하는 단계는, 학습된 분류 모델의 코스트(cost)를 변경하는 단계; 및 코스트가 변경된 분류 모델들 각각의 성능을 평가하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 분류 모델 최적화 방법의 분류 모델의 파라미터를 최적화하는 단계는, 코스트가 변경된 분류 모델들 중에서 가장 성능이 높은 분류 모델의 코스트,또는 최고의 성능을 가지는 분류 모델의 개수가 가장 많은 코스트를 식별하는 단계; 및 식별한 코스트에 따라 상기 모델 파라미터를 최적화하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 분류 모델 최적화 방법은 암 환자의 암 조직으로부터 추출한 질량 스펙트럼 및 정상인의 정상 조직으로부터 추출한 질량 스펙트럼을 포함하는 학습 데이터를 획득하는 단계; 상기 학습 데이터에 포함된 질량 스펙트럼들을 전처리하여 상기 질량 스펙트럼들 각각의 특징을 결정하는 단계; 상기 질량 스펙트럼들 각각의 특징을 이용하여, 환자의 암 발병 여부를 판단하기 위한 분류 모델을 학습하는 단계; 상기 분류 모델을 평가하는 단계; 및 평가 결과에 따라 상기 분류 모델의 모델 파라미터를 최적화하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 분류 모델 최적화 방법의 분류 모델을 평가하는 단계는, 학습된 분류 모델의 코스트(cost)를 변경하는 단계; 및 코스트가 변경된 분류 모델들 각각의 성능을 평가하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 분류 모델 최적화 방법의 모델 파라미터를 최적화하는 단계는, 코스트가 변경된 분류 모델들 중에서 가장 성능이 높은 분류 모델의 코스트를 식별하는 단계; 및 식별한 코스트에 따라 상기 모델 파라미터를 최적화하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 분류 모델 최적화 방법은 상기 식별된 질량 스펙트럼을 전처리하기 위한 전처리 파라미터를 최적화하는 단계를 더 포함하고, 상기 질량 스펙트럼을 전처리하는 단계는, 최적화된 전처리 파라미터를 이용하여 상기 식별된 질량 스펙트럼을 전처리할 수 있다.
본 발명의 일실시예에 따른 분류 모델 최적화 방법의 전처리 파라미터를 최적화하는 단계는, 상기 질량 스펙트럼을 구성하는 분자 물질의 농도의 분포에 포함된 노이즈를 제거하기 위하여 사용하는 SNR의 값을 변경하며, 변경한 SNR 값들 각각에 대응하는 특징들을 추출하는 단계; 변경한 SNR 값들 각각에 대응하는 특징들을 상기 분류 모델에 적용하여 상기 분류 모델의 성능을 평가하는 단계; 및 상기 분류 모델의 성능이 가장 높은 특징에 대응하는 SNR의 값을 최적화된 전처리 파라미터로 결정하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 암 진단 방법은 환자의 암 발병 여부를 판단하기 위한 분류 모델을 획득하는 단계; 상기 환자의 신체 조직으로부터 추출된 질량 스펙트럼을 전처리하여 특징을 추출하는 단계; 및 추출한 특징을 상기 분류 모델에 적용함으로써, 상기 환자의 암 발병 여부를 판단하는 단계를 포함하고, 상기 분류 모델은, 학습 데이터에 포함된 암 환자의 암 조직으로부터 추출한 질량 스펙트럼 및 정상인의 정상 조직으로부터 추출한 질량 스펙트럼을 전처리하기 위한 전처리 파라미터를 최적화하고, 최적화된 전처리 파라미터로 전처리하여 결정한 질량 스펙트럼들 각각의 특징에 기초하여 학습될 수 있다.
본 발명의 일실시예에 따른 암 진단 방법의 분류 모델은, 코스트 별로 성능이 평가되고, 성능의 평가 결과에 따라 최적화된 모델 파라미터를 포함할 수 있다.
본 발명의 일실시예에 따른 암 진단 방법은 환자의 암 발병 여부를 판단하기 위한 분류 모델을 획득하는 단계; 상기 환자의 신체 조직으로부터 추출된 질량 스펙트럼을 전처리하여 특징을 추출하는 단계; 및 추출한 특징을 상기 분류 모델에 적용함으로써, 상기 환자의 암 발병 여부를 판단하는 단계를 포함하고, 상기 분류 모델은, 학습 데이터에 포함된 암 환자의 암 조직으로부터 추출한 질량 스펙트럼 및 정상인의 정상 조직으로부터 추출한 질량 스펙트럼을 전처리하여 결정한 질량 스펙트럼들 각각의 특징에 기초하여 학습되며, 평가에 따라 최적화된 모델 파라미터를 포함할 수 있다.
본 발명의 일실시예에 따른 암 진단 방법의 분류 모델은, SNR 별로 성능이 평가되고, 성능의 평가 결과에 따라 최적화된 전처리 파라미터를 이용하여 전처리될 수 있다.
본 발명의 일실시예에 의하면, 분류 모델의 훈련 과정에서 훈련 데이터의 전처리에 사용될 전처리 파라미터를 최적화함으로써, 전처리를 통하여 결정하는 암 조직에 대응하는 질량 스펙트럼의 특징 및 정상 조직에 대응하는 질량 스펙트럼의 특징의 정확도를 높일 수 있다.
또한, 본 발명의 일실시예에 의하면, 분류 모델의 성능을 평가하고, 평가 결과에 따라 모델 파라미터를 최적화함으로써, 학습된 분류 모델의 성능을 향상시킬 수 있다.
도 1은 본 발명의 일실시예에 따른 분류 모델 최적화 장치를 나타내는 도면이다.
도 2는 본 발명의 일실시예에 따른 분류 모델 최적화 장치와 암 진단 장치의 동작을 나타내는 도면이다.
도 3은 본 발명의 일실시예에 따른 분류 모델 최적화 장치의 전처리부의 상세 구성을 나타내는 도면이다.
도 4는 본 발명의 일실시예에 따른 질량 스펙트럼에서 SNR 값에 따른 피크 검출 정도의 일례이다.
도 5는 본 발명의 일실시예에 따른 분류 모델 최적화 장치에서 SNR을 변경함에 따른 분류 모델의 성능 지표의 변화 일례이다.
도 6은 본 발명의 일실시예에 따른 분류 모델 파라미터 최적화 과정을 나타내는 도면이다.
도 7은 본 발명의 일실시예에 따른 분류 모델 최적화 장치에서 분류 모델 파라미터를 변경함에 따른 분류 모델의 성능 지표의 변화 일례이다.
도 8은 본 발명의 일실시예에 따른 분류 모델의 코스트 각각에서 최고 성능을 가지는 모델의 개수 일례이다.
도 9는 본 발명의 일실시예에 따라 최적화된 분류 모델을 이용한 암 진단 장치의 진단 성능의 일례이다.
도 10은 본 발명의 일실시예에 따라 최적화된 분류 모델을 이용하여 선정한 매스에 대한 정상 조직과 암 조직의 농도 분포 일례이다.
도 11은 본 발명의 일실시예에 따른 분류 모델 최적화 방법을 도시한 플로우차트이다.
도 12은 본 발명의 일실시예에 따라 최적화된 분류 모델을 이용한 암 진단 방법을 도시한 플로우차트이다.
이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.
실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
본 발명의 일실시예에 따른 분류 모델 최적화 방법은 분류 모델 최적화 장치에 의해 수행되고, 암 진단 방법은 암 진단 장치에 의해 수행될 수 있다.
도 1은 본 발명의 일실시예에 따른 분류 모델 최적화 장치를 나타내는 도면이다.
분류 모델 최적화 장치(110)는 도 1에 도시된 바와 같이 전처리부(111)와 모델 학습부(112)를 포함할 수 있다. 또한, 암 진단 장치(120)는 전처리부(121)와 암 진단부(122)를 포함할 수 있다. 이때, 전처리부(111), 모델 학습부(112), 전처리부(121) 및 암 진단부(122)는 서로 다른 프로세서일 수도 있고, 하나의 프로세서에서 수행되는 프로그램에 포함된 각각의 모듈일 수도 있다. 또한, 분류 모델 최적화 장치(110)와 암 진단 장치(120)는 도 1에 도시된 바와 같이 별도의 하드웨어로 구성될 수도 있고, 하나의 하드웨어 내부에 포함된 프로세서들일 수도 있으며, 하나의 프로세서에서 수행되는 프로그램에 포함된 각각의 모듈일 수도 있다.
암 진단 장치(120)는 대장암을 초기 진단하는 것뿐만 아니라, 암의 종류 및 진행 정도를 정확하게 진단하기 위하여, 이차 이온 질량 분석 기술(Secondary ion mass spectrometry, SIMS)을 이용하여 조직 절편의 대사 물질을 분석할 수 있다. 이때, 암 진단 장치(120)는 분류 모델 최적화 장치(110)에서 기계 학습을 활용하여 학습된 분류 모델을 이용하여 대장암을 진단하고 예측할 수 있다.
암 진단 장치(120)에 입력되는 질량 스펙트럼은 환자의 신체 조직의 표면의 고분자 정보를 포함할 수 있다. 예를 들어, 질량 스펙트럼을 획득하기 위해 ToF-SIMS 5(ION-TOF, Munster, Germany)를 수행한 경우, 시료는 (1) Liquid Bi ion source (LMIG)를 이용한 Analysis Beam, (2) 30keV, Bi3+ Positive, Spectrometry mode의 Analysis Energy, (3) 0.45 pA (cycle time: 130 us)의 Beam Current, (4) 100 scan의 Analysis time, (5) 1-1551 u의 Mass range 및 (6) 300X300 um, 64X64 pixels의 Analysis area에서 측정될 수 있다.
전처리기(121)는 질량 스펙트럼을 전처리하여 질량 스펙트럼의 특징(feature)을 결정할 수 있다. 질량 스펙트럼의 특징은 질량 스펙트럼을 획득하기 위하여 사용된 환자의 조직에 포함된 분자 물질의 농도(intensity) 및 분자 물질의 질량 지표(mass)를 포함할 수 있다. 복수의 질량 스펙트럼이 전처리기(111)로 입력되는 경우, 전처리기(111)는 복수의 질량 스펙트럼 각각의 특징 벡터를 결합한 특징 매트릭스를 출력할 수 있다.
암 진단부(122)는 전처리기(121)에서 결정한 질량 스펙트럼의 특징을 분류 모델 최적화 장치(110)로부터 수신한 분류 모델에 적용함으로써, 환자의 암 발명 여부를 판단할 수 있다. 그리고, 암 진단부(122)는 판단 결과에 따라 라벨을 생성한 진단 결과를 출력할 수 있다.
이때, 분류 모델은 특정한 입력 데이터에 대하여 특정한 출력 데이터를 생성하도록 학습되거나 또는 트레이닝된 모델로써, 예를 들어, 뉴럴 네트워크(neural network)를 포함할 수 있다. 뉴럴 네트워크는 연결선에 의해 연결된 복수의 인공 뉴런들을 이용하여 생물학적인 시스템의 계산 능력을 모방하는 인식 모델이다. 뉴럴 네트워크는 생물학적인 뉴런의 기능을 단순화시킨 인공 뉴런들을 이용하고, 인공 뉴런들은 연결 가중치(connection weight)를 가지는 연결선을 통해 상호 연결될 수 있다. 뉴럴 네트워크의 파라미터인 연결 가중치는 연결선이 가지는 값으로써, 연결 강도를 나타낼 수 있다. 뉴럴 네트워크는 인공 뉴런들을 통해 인간의 인지 작용 또는 학습 과정을 수행할 수 있다. 뉴럴 네트워크의 인공 뉴런은 노드(node)라 지칭될 수 있다.
뉴럴 네트워크는 복수의 레이어를 포함할 수 있다. 예를 들어, 뉴럴 네트워크는 입력 레이어, 하나 이상의 히든 레이어 및 출력 레이어를 포함할 수 있다. 입력 레이어는 뉴럴 네트워크의 트레이닝을 위한 입력 데이터를 수신하여 히든 레이어로 전달할 수 있고, 출력 레이어는 히든 레이어의 노드들로부터 수신된 신호에 기초하여 뉴럴 네트워크의 출력 데이터를 생성할 수 있다. 하나 이상의 히든 레이어가 입력 레이어 및 출력 레이어 사이에 위치할 수 있고, 입력 레이어를 통해 전달된 입력 데이터를 예측하기 쉬운 값으로 변환할 수 있다. 입력 레이어 및 하나 이상의 히든 레이어에 포함된 노드들은 연결 가중치를 가지는 연결선을 통해 서로 연결될 수 있고, 히든 레이어 및 출력 레이어에 포함된 노드들도 연결 가중치를 가지는 연결선을 통해 서로 연결될 수 있다. 입력 레이어, 하나 이상의 히든 레이어 및 출력 레이어는 복수의 노드들을 포함할 수 있다. 히든 레이어는 CNN(convolutional neural network)에서의 콘볼루션 필터(convolution filter) 또는 완전 연결 레이어(fully connected layer)이거나, 특별한 기능이나 특징을 기준으로 묶인 다양한 종류의 필터 또는 레이어를 나타낼 수 있다.
뉴럴 네트워크 중에서 복수의 히든 레이어를 포함하는 뉴럴 네트워크를 딥 뉴럴 네트워크(deep neural network)라 한다. 딥 뉴럴 네트워크를 학습 시키는 것을 딥 러닝(deep learning)이라 한다. 뉴럴 네트워크의 노드 중에서, 히든 레이어에 포함된 노드를 가리켜 히든 노드라 한다.
뉴럴 네트워크는 감독 학습(supervised learning)을 통해 학습될 수 있다. 감독 학습이란 입력 데이터를 뉴럴 네트워크에 입력하여 입력 데이터에 대응하는 출력 데이터를 획득하였을 때에, 출력 데이터가 입력 데이터로부터 획득하고자 하는 진리 데이터와 일치하도록 연결선들의 연결 가중치를 업데이트함으로써, 뉴럴 네트워크의 출력 데이터를 진리 데이터에 수렴하게 만드는 방법이다.
분류 모델 최적화 장치(110)는 하나 이상의 질량 스펙트럼들로 구성된 훈련 데이터를 이용하여 분류 모델을 훈련할 수 있다. 이때, 훈련 데이터는 한국 인체 자원 은행으로부터 분양 받은 암 환자(예를 들어, 대장암 환자)의 암 조직(예를 들어, 대장암 조직) 및 정상인의 정상 조직(예를 들어, 대장암 조직과 비교를 위한 대장 조직)으로 만든 슬라이드에 SIMS를 수행함으로써, 획득한 암 조직의 표면의 고분자 정보를 포함하는 질량 스펙트럼 및 정상 조직의 표면의 고분자 정보를 포함하는 질량 스펙트럼을 포함할 수 있다.
그리고, 분류 모델 최적화 장치(110)의 전처리부(111)는 훈련 데이터를 전처리함으로써, 암 조직에 대응하는 질량 스펙트럼의 특징 및 정상 조직에 대응하는 질량 스펙트럼의 특징을 결정할 수 있다. 이때, 전처리부(111)는 훈련 데이터에 포함된 질량 스펙트럼들을 전처리하기 위한 전처리 파라미터를 최적화할 수 있다. 그리고, 전처리부(111)는 최적화된 전처리 파라미터로 훈련 데이터에 포함된 질량 스펙트럼들을 전처리하여 질량 스펙트럼들 각각의 특징을 결정할 수 있다.
구체적으로, 전처리부(111)는 질량 스펙트럼을 구성하는 분자 물질의 농도의 분포를 정규 분포로 변형할 수 있다. 다음으로, 전처리부(111)는 훈련 데이터에 포함된 질량 스펙트럼들을 정규화할 수 있다. 그 다음으로, 전처리부(111)는 정규화된 질량 스펙트럼들에서 분자 물질의 농도의 분포에 포함된 노이즈를 제거하기 위하여 사용하는 SNR(Signal to Noise Ratio)의 값을 변경하고, 변경한 SNR 값들 각각에 대응하는 특징들을 추출할 수 있다.
다음으로, 전처리부(111)는 변경한 SNR 값들 각각에 대응하는 특징들을 모델 학습부(112)로 전달할 수 있다. 이때, 모델 학습부(112)는 변경한 SNR 값들 각각에 대응하는 특징들을 분류 모델에 적용하여 SNR 값의 변경에 따라 변경된 분류 모델의 성능을 평가할 수 있다. 그리고, 모델 학습부(112)는 SNR 값의 변경에 따른 분류 모델의 성능을 평가한 결과가 가장 높은 SNR의 값을 전처리부(111)로 전달할 수 있다. 그리고, 전처리부(111)는 전달받은 SNR 값을 최적화된 전처리 파라미터로 결정할 수 있다.
모델 학습부(112)는 전처리부(111)에서 결정된 질량 스펙트럼의 특징들과 질량 스펙트럼의 특징들이 각각 암 조직에 대응하는지 여부를 분류 모델에 입력함으로써, 분류 모델이 질량 스펙트럼으로부터 암 발병 여부를 판단하도록 분류 모델을 훈련할 수 있다. 예를 들어, 모델 학습부(112)는 분류 모델을, 델타 규칙(delta rule) 및 오류 역전파 학습(back propagation learning) 등을 이용하여 훈련할 수 있다. 이때, 모델 학습부(112)는 분류 모델에 포함된 노드들 사이의 연결 가중치를 업데이트함으로써, 분류 모델을 트레이닝할 수 있다. 이하 뉴럴 네트워크를 훈련하거나 또는 학습시킨다는 것은 뉴럴 네트워크의 파라미터를 학습시키는 것으로 이해될 수 있다. 또한, 학습된 뉴럴 네트워크는 학습된 파라미터가 적용된 뉴럴 네트워크로 이해될 수 있다.
또한, 모델 학습부(112)는 훈련된 분류 모델을 평가할 수 있다. 그리고, 모델 학습부(112)는 분류 모델의 평가 결과에 따라 분류 모델의 모델 파라미터를 최적화할 수 있다. 구체적으로, 모델 학습부(112)는 훈련된 분류 모델의 코스트(cost)를 변경할 수 있다. 다음으로, 모델 학습부(112)는 코스트가 변경된 분류 모델들 각각의 성능을 평가할 수 있다. 그 다음으로, 모델 학습부(112)는 코스트가 변경된 분류 모델들 중에서 가장 성능이 높은 분류 모델의 코스트를 식별할 수 있다. 마지막으로, 모델 학습부(112)는 식별한 코스트에 따라 모델 파라미터를 최적화할 수 있다.
본 발명의 일실시예에 따른 분류 모델 최적화 장치(110)는 분류 모델의 훈련 과정에서 훈련 데이터의 전처리에 사용될 전처리 파라미터를 최적화함으로써, 전처리를 통하여 결정하는 암 조직에 대응하는 질량 스펙트럼의 특징 및 정상 조직에 대응하는 질량 스펙트럼의 특징의 정확도를 높일 수 있다.
또한, 본 발명의 일실시예에 따른 분류 모델 최적화 장치(110)는 분류 모델의 성능을 평가하고, 평가 결과에 따라 모델 파라미터를 최적화함으로써, 학습된 분류 모델의 성능을 향상시킬 수 있다.
도 2는 본 발명의 일실시예에 따른 분류 모델 최적화 장치와 암 진단 장치의 동작을 나타내는 도면이다.
분류 모델 최적화 장치(110)는 도 2에 도시된 바와 같이 학습 데이터(210)를 수신할 수 있다. 이때, 학습 데이터(210)는 복수의 샘플들(복수의 암 환자 각각의 암 조직 및 정상인의 정상 조직)에 SIMS를 수행하여 획득한 질량 스펙트럼 및 질량 스펙트럼에 분류 모델(320)을 적용하여 얻고자 하는 결과(암 발병 여부를 표시하는 라벨, 도 3을 참고하면, 정상인인 경우 'N', 암 환자인 경우 'T'로 표시)를 매칭한 데이터일 수 있다.
이때, 전처리부(111)는 학습 데이터(210)를 전처리하여 암 조직에 대응하는 질량 스펙트럼의 특징 및 정상 조직에 대응하는 질량 스펙트럼의 특징을 추출할 수 있다. 이때, 전처리부(111)가 추출하는 질량 스펙트럼의 특징은 mass, intensity일 수 있다. 그리고, 전처리부(111)는 추출한 특징들을 모델 학습부(112)로 전달할 수 있다.
학습 데이터(210)가 복수의 암 조직들 및 정상 조직들에서 획득한 질량 스펙트럼들인 경우, 전처리부(111)는 암 조직에 대응하는 질량 스펙트럼들의 특징의 결합인 특징 매트릭스 및 정상 조직에 대응하는 질량 스펙트럼들의 특징의 결합인 특징 매트릭스를 모델 학습부(112)로 전달할 수 있다.
모델 학습부(112)는 전처리부(111)로부터 전달받은 데이터에 기초하여 분류 모델(220)을 감독 학습(supervised learning)할 수 있다. 분류 모델(220)은 RF(Random Forest), SVM(Support Vector Machine) 등의 적용 분류 알고리즘을 이용하여 입력된 특징으로부터 암 발병 여부를 표시한 라벨을 출력할 수 있다.
그리고, 모델 학습부(112)는 분류 모델(320)로부터 출력되는 라벨을 이용하여 분류 모델(320)을 평가할 수 있다. 구체적으로, 모델 학습부(112)는 분류 모델(320)로부터 출력되는 라벨 및 훈련 데이터(310)에 포함된 라벨을 비교한 결과에 기초하여, 분류 모델(320)을 평가할 수 있다. 다음으로, 모델 학습부(112)는 평가 결과에 따라 모델 파라미터를 최적화할 수 있다.
또한, 모델 학습부(112)는 SNR 값의 변경에 따른 분류 모델의 성능을 평가한 결과가 가장 높은 SNR의 값을 전처리부(111)로 전달할 수 있다. 그리고, 전처리부(111)는 전달받은 SNR 값을 최적화된 전처리 파라미터로 결정할 수 있다.
암 진단 장치(120)는 대응하는 라벨이 존재하지 않는 테스트 데이터(230)를 입력받을 수 있다. 이때, 테스트 데이터(230)는 암을 진단 받고자 하는 환자의 신체 조직에 SIMS를 수행하여 획득한 질량 스펙트럼을 포함할 수 있다.
전처리부(121)는 테스트 데이터(230)에 전처리를 수행하여 테스트 데이터(330)에 포함된 질량 스펙트럼의 특징(mass, intensity)를 획득할 수 있다. 이때, 전처리부(121)는 전처리부(111)로부터 최적화된 전처리 파라미터를 수신할 수 있다. 그리고, 전처리부(121)는 최적화된 전처리 파라미터를 이용하여 테스트 데이터(230)를 전처리할 수 있다. 또한, 전처리부(111)는 테스트 데이터(330)에 포함된 질량 스펙트럼의 특징을 나타내는 특징 벡터를 암 진단부(122)로 전달할 수 있다.
암 진단부(122)는 전처리부(111)로부터 전달받은 특징 벡터를 분류 모델(220)에 입력하여 환자의 암 발병 여부를 표시한 라벨(240)을 출력할 수 있다. 라벨(240)은 테스트 데이터(330)를 획득하는데 사용된 신체 조직이 암 조직인지 여부를, 확률 또는 미리 설정된 표시자(예를 들어, 정상인인 경우 'N', 암 환자인 경우 'T'로 표시)로 나타낸 데이터일 수 있다.
도 3은 본 발명의 일실시예에 따른 분류 모델 최적화 장치의 전처리부의 상세 구성을 나타내는 도면이다.
전처리부(111)는 도 3에 도시된 바와 같이 질량 지표/농도 변환기(310), 질량 지표/ 농도 교정기(320), 스펙트럼 정렬기(330), 및 노이즈 제거기(340)를 포함할 수 있다.
학습 데이터에 포함된 질량 스펙트럼(300)은 분자 물질의 질량 지표(mass) 및 해당 분자 물질의 농도(intensity)의 쌍을 포함할 수 있다. 이때, 분자 물질은 질량 스펙트럼(300)을 획득하는데 사용된 신체 조직(암 환자의 암 조직 또는 정상인의 정상 조직)에 포함된 분자 물질일 수 있다.
질량 지표/농도 변환기(310)는 질량 스펙트럼(300)의 분석을 위하여, 분자 물질의 농도(intensity)의 분포를 정규 분포로 변형할 수 있다.
질량 지표/ 농도 교정기(320)는 질량 스펙트럼(300)에 포함된 노이즈 성분을 배수(multiplicative) 형태에서 가산(additive) 형태로 변경하기 위하여, 물질의 농도(intensity) 성분을 로그(log) 또는 스퀘어 루트(square root)로 변환할 수 있다. 예를 들어, 질량 지표/ 농도 교정기(320)는 질량 스펙트럼(300)에 LOESS(Local weight scatter plot smoothing) 기법을 수행함으로써, 물질의 농도(intensity)의 RSD(Relative Standard Deviation) 값을 일정 수준 이하로 감소시킬 수 있다.
스펙트럼 정렬기(330), 및 노이즈 제거기(340)는 SNR(Signal to Noise Ratio) 값에 기초하여, 질량 스펙트럼(300)의 노이즈를 제거할 수 있다. 예를 들어, 질량 스펙트럼(300)의 노이즈는 Median Absolute Deviation에 의해 계산될 수 있다. 이때, 스펙트럼 정렬기(330), 및 노이즈 제거기(340)는 허용 범위(tolerance 값) 내의 질량 지표들을 동일한 피크(peak)로 설정할 수 있다. 다음으로, 스펙트럼 정렬기(330), 및 노이즈 제거기(340)는 샘플 간의 질량 스펙트럼(300)의 질량 지표 정렬을 수행할 수 있다. 예를 들어, 상기 SNR은 5로, 상기 허용 범위(tolerance 값)는 0.02로 결정될 수 있다. 또한, 질량 스펙트럼에서 SNR 값에 따른 피크 검출 정도는 도 4화 같은 형상의 그래프로 나타낼 수 있다.
그리고, 노이즈 제거기(340)는 정규화된 질량 스펙트럼들에서 분자 물질의 농도의 분포에 포함된 노이즈를 제거하기 위하여 사용하는 SNR의 값을 변경하며, 변경한 SNR 값들 각각에 대응하는 특징들(341)을 추출할 수 있다.
이때, 노이즈 제거기(340)는 변경한 SNR 값들 각각에 대응하는 특징들(241)을 모델 학습부(112)로 전달할 수 있다. 그리고, 모델 학습부(112)는 특징들(241)을 분류 모델(350)에 적용하여 SNR 값의 변경에 따라 변경된 분류 모델의 성능을 평가할 수 있다.
이때, 모델 학습부(112)는 분류 모델의 성능을 평가한 결과가 가장 높은 SNR의 값을 노이즈 제거기(340)로 전송할 수 있다. 그리고, 노이즈 제거기(340)는 전달받은 SNR 값을 최적화된 전처리 파라미터로 결정할 수 있다.
다음으로, 노이즈 제거기(340)는 최적화된 전처리 파라미터로 결정한 SNR 값을 이용하여 분자 물질의 농도의 분포에 포함된 노이즈를 제거함으로써, 정확도가 향상된 질량 스펙트럼(300)의 특징(342)를 출력할 수 있다.
예를 들어, 노이즈 제거기(340)이 SNR 값을 4 내지 8로 변화시키면서 SNR값들 각각에 대응하는 특징들(241)를 추출한 경우, 모델 학습부(112)가 SNR 값의 변경에 따라 변경된 분류 모델의 성능을 평가한 결과는 도 5와 같을 수 있다. 도 5에 따르면 SNR 값이 8인 경우 분류 모델의 성능이 가장 높을 수 있다. 이때, 노이즈 제거기(340)는 SNR 값 8을 최적화된 전처리 파라미터로 결정할 수 있다.
도 6은 본 발명의 일실시예에 따른 분류 모델 파라미터 최적화 과정을 나타내는 도면이다.
모델 학습부(112)는 분류 모델에 대하여 도 6과 같은 이중 교차 검증(double cross-validation) 기반의 성능 평가를 수행할 수 있다. 분류 모델이 SVM 알고리즘에 따라 학습된 경우, 변수 파라미터는 SVM 변수 파라미터이고, 코스트는 SVM cost일 수 있다.
이때, 내부 루프는 분류 모델의 변수 파라미터를 검출하기 위하여 사용되고, 외부 루프는 내부 루프를 이용하여 검출한 최적의 변수 파라미터의 성능을 검증하기 위하여 사용될 수 있다.
구체적으로, 내부 루프는 부트스트랩 라운드로 구현될 수 있다. 이때, 모델 학습부(112)는 내부 루프에서 학습된 분류 모델의 코스트(cost)를 변경하고, 코스트가 변경된 분류 모델(610)들 각각의 성능을 평가할 수 있다. 예를 들어, 코스트가 변경된 분류 모델(610)들 각각의 성능은 도 7에 도시된 바와 같이 나타날 수 있다.
그리고, 모델 학습부(112)는 코스트가 변경된 분류 모델(610)에서 측정 성공 파라미터(collect success measures)들을 추출할 수 있다. 이때, 모델 학습부(112)는 코스트가 변경된 분류 모델(610)들 중 가장 성능이 높은 분류 모델의 코스트, 또는 최고의 성능을 가지는 분류 모델의 개수가 가장 많은 코스트의 값을 최적의 모델 파라미터(630)로 선택할 수 있다. 예를 들어, 코스트가 변경된 분류 모델(610)들 각각의 성능이 도 7에 도시된 바와 같은 경우, 분류 모델의 코스트 각각에서 최고 성능을 가지는 모델의 개수는 도 8에 도시된 바와 같을 수 있다. 도 8에 따르면 코스트가 2일 때 최고의 성능을 가지는 분류 모델의 개수가 가장 많으므로, 모델 학습부(112)는 코스트 2를 최적의 모델 파라미터(630)로 선택할 수 있다.
그리고, 모델 학습부(112)는 외부 로프를 이용하여 최적의 모델 파라미터(630)가 설정된 분류 모델의 성능을 검증할 수 있다. 예를 들어, 모델 학습부(112)가 외부 로프를 이용하여 최적의 모델 파라미터(630)가 설정된 분류 모델의 성능을 검증한 결과는 도 9에 도시된 바와 같을 수 있다.
도 10은 본 발명의 일실시예에 따라 최적화된 분류 모델을 이용하여 선정한 매스에 대한 정상 조직과 암 조직의 농도 분포 일례이다.
도 10은 일실시예에 따른 암 진단 장치가 분류 모델을 이용하여 식별한 질량 지표로써, 암 발병 여부를 결정하는데 상대적으로 중요한 질량 지표를 설명하기 위한 그래프이다.
그래프를 획득하기 위해 사용된 암 진단 장치(120)는 한국 인체자원은행에서 분양 받은 92개의 대장암 조직 시료 및 정상 조직 시료로부터 획득된 질량 스펙트럼에 기초하여 훈련되었다. 분양 받은 대장암 조직 시료 및 정상 조직 시료는 동결 상태에서 해빙되는 즉시, OCT(optimum cutting temperature) 용액에 담그어 -20℃에서 24시간 이상 방치된 다음, 동결 조직 절편기를 이용하여 4 um 두께의 조직 절편으로 변환되었다.
질량 스펙트럼은 변환된 조직 절편을 ToF-SIMS 5 (ION-TOF, M
Figure 112019016246485-pat00001
unster, Germany)에 적용하여 획득되었다. 질량 스펙트럼은 (1) Liquid Bi ion source (LMIG)를 이용한 Analysis Beam, (2) 30keV, Bi3+ Positive, Spectrometry mode의 Analysis Energy, (3) 0.45 pA (cycle time: 130 us)의 Beam Current, (4) 100 scan의 Analysis time, (5) 1-1551 u의 Mass range 및 (6) 300X300 um, 64X64 pixels의 Analysis area에서 작동하는 ToF-SIMS 5에 의해 획득되었다.
암 진단 장치(120)의 전처리부(121)는 질량 스펙트럼을 전처리함으로써, 질량 스펙트럼의 농도의 RSD 값을 일정 수준 이하로 감소시키고 질량 스펙트럼의 특징을 추출할 수 있다. 이때, 전처리부(121)가 추출, 또는 결정하는 질량 스펙트럼의 특징은 질량 지표(mass) 및 질량 지표에 대응하는 농도(intensity)와 같이 암 발병 여부에 따라 상대적으로 크게 변경되는 데이터를 포함할 수 있다.
암 진단 장치(120)의 암 진단부(122)는 분류 모델 최적화 장치(110)에서 최적화된 전처리 파라미터, 또는 최적화된 모델 파라미터에 이용하여 학습된 분류 모델을 수신할 수 있다.
그리고, 암 진단부(122)는 분류 모델에서, 분류 모델의 변수의 중요도를 계산한 다음, 중요도가 높은 상위 질량 지표를 추출할 수 있다. 암 진단 장치는 모든 질량 지표에 대하여, 질량 지표의 그룹별로 유의 확률(p-value)을 계산한 다음, 미리 설정된 임계치 이하의 유의 확률을 가지는 질량 지표를 선택할 수 있다. 암 진단 장치(120)는 전처리를 수행하여 추출된 특징을 PCA(Principal Component Analysis) 변환한 다음, PCA dimension에 기여하는 변수의 기여도가 높은 순위에 따라 질량 지표를 선택할 수 있다. 암 진단 장치(120)는 상술한 (1) 분류 모델의 변수의 중요도를 계산하여 추출된 상위 질량 지표, (2) 유의 확률을 이용하여 선택된 질량 지표 및 (3) PCA 변환에 기초하여 선택된 질량 지표에 모두 해당되는 질량 지표를, 암 발병 여부를 결정하는데 상대적으로 중요한 질량 지표로 결정할 수 있다.
도 10의 그래프는 상기 질량 지표에서 정상 조직 대비 대장암 조직의 농도의 변화량을 도시한 것이다. 도 10을 참고하면, 결정된 질량 지표에서, 정상 조직의 농도 및 대장암 조직의 농도가 유의한 차이(p-value : 1e-5 이하)를 나타냄을 알 수 있다.
도 11은 분류 모델 최적화 장치(110)에서 수행되는 분류 모델 최적화 방법을 도시한 플로우차트이다.
단계(1110)에서 전처리부(111)는 암 환자의 암 조직으로부터 추출한 질량 스펙트럼 및 정상인의 정상 조직으로부터 추출한 질량 스펙트럼을 포함하는 학습 데이터를 획득할 수 있다.
단계(1120)에서 전처리부(111)는 단계(1110)에서 획득한 학습 데이터에 포함된 질량 스펙트럼들을 전처리하기 위한 전처리 파라미터를 최적화할 수 있다. 이때, 전처리부(111)는 질량 스펙트럼을 구성하는 분자 물질의 농도의 분포에 포함된 노이즈를 제거하기 위하여 사용하는 SNR의 값을 변경하며, 변경한 SNR 값들 각각에 대응하는 특징들을 추출할 수 있다. 그리고, 모델 학습부(112)는 변경한 SNR 값들 각각에 대응하는 특징들을 상기 분류 모델에 적용하여 SNR 값의 변경에 따라 변경된 분류 모델의 성능을 평가할 수 있다. 이때, 전처리부(110)는 분류 모델의 성능을 평가한 결과가 가장 높은 SNR의 값을 최적화된 전처리 파라미터로 결정할 수 있다.
그리고, 전처리부(111)는 최적화된 전처리 파라미터로 상기 학습 데이터에 포함된 질량 스펙트럼들을 전처리하여 질량 스펙트럼들 각각의 특징을 결정할 수 있다.
단계(1130)에서 모델 학습부(112)는 단계(1130)에서 결정된 질량 스펙트럼들 각각의 특징을 이용하여, 환자의 암 발병 여부를 판단하기 위한 분류 모델을 학습할 수 있다.
단계(1140)에서 모델 학습부(112)는 단계(1130)에서 학습한 분류 모델을 평가할 수 있다. 이때, 모델 학습부(112)는 단계(1130)에서 학습된 분류 모델의 코스트(cost)를 변경하고, 코스트가 변경된 분류 모델들 각각의 성능을 평가할 수 있다.
단계(1150)에서 모델 학습부(112)는 단계(1140)의 평가 결과에 따라 분류 모델의 모델 파라미터를 최적화할 수 있다. 이때, 모델 학습부(112)는 코스트가 변경된 분류 모델들 중에서 가장 성능이 높은 분류 모델의 코스트, 또는 최고의 성능을 가지는 분류 모델의 개수가 가장 많은 코스트를 식별하고, 식별한 코스트를 최적화된 모델 파라미터로 결정할 수 있다.
그리고, 모델 학습부(112)는 모델 파라미터를 최적화한 분류 모델을 암 진단 장치(120)로 전송할 수 있다.
또한, 실시예에 따라 분류 모델 최적화 방법은 전처리 파라미터의 최적화 및 모델 파라미터의 최적화 중 하나만 수행될 수도 있다.
도 12은 암 진단 장치(120)가 분류 모델 최적화 장치(110)에서 최적화된 분류 모델을 이용하여 수행하는 암 진단 방법을 도시한 플로우차트이다.
단계(1210)에서 암 진단부(122)는 분류 모델 최적화 장치(110)로부터 환자의 암 발병 여부를 판단하기 위한 분류 모델을 수신할 수 있다.
이때, 분류 모델은 학습 데이터에 포함된 암 환자의 암 조직으로부터 추출한 질량 스펙트럼 및 정상인의 정상 조직으로부터 추출한 질량 스펙트럼을 전처리하기 위한 전처리 파라미터를 최적화하고, 최적화된 전처리 파라미터로 전처리하여 결정한 질량 스펙트럼들 각각의 특징에 기초하여 학습된 모델일 수 있다. 또한, 분류 모델은 학습 데이터에 포함된 암 환자의 암 조직으로부터 추출한 질량 스펙트럼 및 정상인의 정상 조직으로부터 추출한 질량 스펙트럼을 전처리하여 결정한 질량 스펙트럼들 각각의 특징에 기초하여 학습되며, 평가에 따라 최적화된 파라미터를 포함할 수 있다. 그리고, 분류 모델은 최적화된 전처리 파라미터로 전처리하여 결정한 질량 스펙트럼들 각각의 특징에 기초하여 학습되고, 학습 결과에 대한 평가에 따라 최적화된 파라미터를 포함할 수도 있다.
단계(1220)에서 전처리부(121)는 환자의 신체 조직으로부터 추출된 질량 스펙트럼을 테스트 데이터로 획득할 수 있다.
단계(1230)에서 전처리부(121)는 단계(1220)에서 획득한 테스트 데이터를 전처리하여 질량 스펙트럼의 특징을 추출할 수 있다.
단계(1240)에서 암 진단부(122)는 단계(1230)에서 추출한 특징을 단계(1210)에서 수신한 분류 모델에 적용함으로써, 환자의 암 발병 여부를 판단할 수 있다.
본 발명은 분류 모델의 훈련 과정에서 훈련 데이터의 전처리에 사용될 전처리 파라미터를 최적화함으로써, 전처리를 통하여 결정하는 암 조직에 대응하는 질량 스펙트럼의 특징 및 정상 조직에 대응하는 질량 스펙트럼의 특징의 정확도를 높일 수 있다.
또한, 본 발명은 분류 모델의 성능을 평가하고, 평가 결과에 따라 모델 파라미터를 최적화함으로써, 학습된 분류 모델의 성능을 향상시킬 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.
110: 분류 모델 최적화 장치
111: 전처리부
112: 모델 학습부
120: 암 진단 장치
121: 전처리부
122: 암진단부

Claims (14)

  1. 전처리부(111) 및 모델학습부(112)를 포함하는 분류 모델 최적화 장치(110) 및 전처리부(121) 및 암 진단부(122)를 포함하는 암 진단 장치(120)에 의해 구현되는 분류 모델 최적화 방법으로서,
    상기 전처리부(111)가, 암 환자의 암 조직으로부터 추출한 질량 스펙트럼 및 정상인의 정상 조직으로부터 추출한 질량 스펙트럼을 포함하는 학습 데이터를 획득하는 단계;
    상기 전처리부(111)가, 상기 학습 데이터에 포함된 질량 스펙트럼들을 전처리하기 위한 전처리 파라미터를 최적화하는 단계;
    상기 전처리부(111)가, 최적화된 전처리 파라미터로 상기 학습 데이터에 포함된 질량 스펙트럼들을 전처리하여 질량 스펙트럼들 각각의 특징을 결정하는 단계; 및
    상기 모델학습부(112)가, 상기 질량 스펙트럼들 각각의 특징을 이용하여, 환자의 암 발병 여부를 판단하기 위한 분류 모델을 학습하는 단계를 포함하고,
    상기 전처리 파라미터를 최적화하는 단계는,
    상기 전처리부(111)가, 상기 질량 스펙트럼을 구성하는 분자 물질의 농도의 분포를 정규 분포로 변형하고, 상기 질량 스펙트럼을 정규화한 후에, 상기 정규화된 질량 스펙트럼의 상기 정규 분포로 변형된 분자 물질의 농도의 분포에 포함된 노이즈를 제거하기 위하여 사용하는 SNR(Signal to Noise Ratio)의 값을 변경하며, 변경한 SNR 값들 각각에 대응하는 특징들을 추출하는 단계;
    상기 모델학습부(112)가, 변경한 SNR 값들 각각에 대응하는 특징들을 상기 분류 모델에 적용하여 SNR 값의 변경에 따라 변경된 분류 모델의 성능을 평가하는 단계; 및
    상기 전처리부(111)가, 상기 분류 모델의 성능을 평가한 결과가 가장 높은 SNR의 값을 최적화된 전처리 파라미터로 결정하는 단계를 포함하는,
    분류 모델 최적화 장치(110) 및 암 진단 장치(120)에 의해서 구현되는, 분류 모델 최적화 방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 모델학습부(112)가, 상기 분류 모델을 평가하는 단계; 및
    상기 모델학습부(112)가, 평가 결과에 따라 상기 분류 모델의 모델 파라미터를 최적화하는 단계를 더 포함하는 분류 모델 최적화 방법.
  4. 제3항에 있어서,
    상기 분류 모델을 평가하는 단계는,
    상기 모델학습부(112)가, 학습된 분류 모델의 코스트(cost)를 변경하는 단계; 및
    상기 모델학습부(112)가, 코스트가 변경된 분류 모델들 각각의 성능을 평가하는 단계를 포함하는 분류 모델 최적화 방법.
  5. 제4항에 있어서,
    상기 분류 모델의 파라미터를 최적화하는 단계는,
    상기 모델학습부(112)가, 코스트가 변경된 분류 모델들 중에서 가장 성능이 높은 분류 모델의 코스트,또는 최고의 성능을 가지는 분류 모델의 개수가 가장 많은 코스트를 식별하는 단계; 및
    상기 모델학습부(112)가, 식별한 코스트에 따라 상기 모델 파라미터를 최적화하는 단계를 포함하는 분류 모델 최적화 방법.
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 전처리부(111) 및 모델학습부(112)를 포함하는 분류 모델 최적화 장치(110) 및 전처리부(121) 및 암 진단부(122)를 포함하는 암 진단 장치(120)에 의해 구현되는 암 진단 방법으로서,
    상기 암 진단부(122)가, 상기 분류 모델 최적화 장치로부터, 환자의 암 발병 여부를 판단하기 위한 분류 모델을 획득하는 단계;
    상기 전처리부(121)가, 상기 환자의 신체 조직으로부터 추출된 질량 스펙트럼을 전처리하여 특징을 추출하는 단계; 및
    상기 암 진단부(122)가, 추출한 특징을 상기 분류 모델에 적용함으로써, 상기 환자의 암 발병 여부를 판단하는 단계를 포함하고,
    상기 분류 모델은,
    상기 전처리부(111)가, 학습 데이터에 포함된 암 환자의 암 조직으로부터 추출한 질량 스펙트럼 및 정상인의 정상 조직으로부터 추출한 질량 스펙트럼을 전처리하기 위한 전처리 파라미터를 최적화하기 위해서 상기 질량 스펙트럼을 구성하는 분자 물질의 농도의 분포를 정규 분포로 변형하고, 상기 질량 스펙트럼을 정규화한 후에, 상기 정규화된 질량 스펙트럼의 상기 정규 분포로 변형된 분자 물질의 농도의 분포에 포함된 노이즈를 제거하기 위하여 사용하는 SNR(Signal to Noise Ratio)의 값을 변경하며, 변경한 SNR 값들 각각에 대응하는 특징들을 추출하여, 최적화된 전처리 파라미터를 결정하고,
    상기 모델학습부(112)에 의해, 최적화된 전처리 파라미터로 전처리하여 결정한 질량 스펙트럼들 각각의 특징에 기초하여 학습되는 암 진단 방법.
  12. 제11항에 있어서,
    상기 분류 모델은,
    상기 모델학습부(112)에 의해, 코스트 별로 성능이 평가되고, 성능의 평가 결과에 따라 최적화된 모델 파라미터를 포함하는 암 진단 방법.
  13. 삭제
  14. 삭제
KR1020190017928A 2019-02-15 2019-02-15 질량 분석 및 기계 학습에 기초한 암 진단에 사용하는 분류 모델 최적화 장치 및 그 방법 KR102527149B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190017928A KR102527149B1 (ko) 2019-02-15 2019-02-15 질량 분석 및 기계 학습에 기초한 암 진단에 사용하는 분류 모델 최적화 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190017928A KR102527149B1 (ko) 2019-02-15 2019-02-15 질량 분석 및 기계 학습에 기초한 암 진단에 사용하는 분류 모델 최적화 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20200099816A KR20200099816A (ko) 2020-08-25
KR102527149B1 true KR102527149B1 (ko) 2023-04-28

Family

ID=72292794

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190017928A KR102527149B1 (ko) 2019-02-15 2019-02-15 질량 분석 및 기계 학습에 기초한 암 진단에 사용하는 분류 모델 최적화 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR102527149B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4400828A1 (en) * 2022-11-16 2024-07-17 LG Chem, Ltd. Spectral learning-based apparatus and method for measuring concentration of substance

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010066225A (ja) * 2008-09-12 2010-03-25 Nagoya Univ 質量分析法を利用した複数癌腫の血液検出のための方法および生物マーカー
JP2018148925A (ja) * 2011-05-05 2018-09-27 アンパック バイオ−メディカル サイエンス カンパニー リミテッドAnpac Bio−Medical Science Co.,Ltd. 腫瘍細胞を検出するための装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101993716B1 (ko) 2012-09-28 2019-06-27 삼성전자주식회사 카테고리별 진단 모델을 이용한 병변 진단 장치 및 방법
KR101822404B1 (ko) * 2015-11-30 2018-01-26 임욱빈 Dnn 학습을 이용한 세포이상 여부 진단시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010066225A (ja) * 2008-09-12 2010-03-25 Nagoya Univ 質量分析法を利用した複数癌腫の血液検出のための方法および生物マーカー
JP2018148925A (ja) * 2011-05-05 2018-09-27 アンパック バイオ−メディカル サイエンス カンパニー リミテッドAnpac Bio−Medical Science Co.,Ltd. 腫瘍細胞を検出するための装置

Also Published As

Publication number Publication date
KR20200099816A (ko) 2020-08-25

Similar Documents

Publication Publication Date Title
KR100794516B1 (ko) 사례 기반 기계학습 추론을 이용한 질환 진단 및 검사 항목선정 시스템 및 방법
CN111243736B (zh) 一种生存风险评估方法及系统
CN113887397B (zh) 基于海洋捕食者算法的电生理信号的分类方法及分类系统
CN111597991A (zh) 一种基于信道状态信息和BiLSTM-Attention的康复检测方法
WO2020010157A1 (en) Method for diagnosing, predicting, determining prognosis, monitoring, or staging disease based on vascularization patterns
CN112651927A (zh) 一种基于卷积神经网络与支持向量机的拉曼光谱智能识别方法
CN115394426A (zh) 基于迁移学习的青少年IgA肾病的预测分析系统
KR102527149B1 (ko) 질량 분석 및 기계 학습에 기초한 암 진단에 사용하는 분류 모델 최적화 장치 및 그 방법
CN117253625A (zh) 肺癌筛查模型的构建装置、肺癌筛查装置、设备及介质
CN117274185B (zh) 检测方法、检测模型产品、电子设备及计算机存储介质
KR20190081825A (ko) 질량 분석 및 기계 학습을 활용하는 암 결정기 및 암 결정기가 수행하는 방법
Mittal et al. Prediction of Alopecia Areata using CNN
CN115115038B (zh) 一种基于单导联心电信号的模型构建方法及性别识别方法
CN116779176A (zh) 基于神经网络深度特征的移植术后慢性肾病样本增广方法
Swaroop et al. Lung Cancer Classification and Through Deep Learning Model and Localization of Tumor
Haines et al. Machine Learning Models for Histopathological Breast Cancer Image Classification
CN115266583A (zh) 环境光滤除方法、系统、计算机设备及计算机可读存储介质
CN113051809A (zh) 一种基于改进受限玻尔兹曼机的虚拟健康因子构建方法
Gobena A Comparison of Convolutional Neural Networks used in Melanoma Detection: With transfer learning on the PAD-UFES-20 and ISIC datasets
Kandel Deep Learning Techniques for Medical Image Classification
KR102297242B1 (ko) 딥러닝을 이용한 흑색종 진단 방법, 장치 및 프로그램
CN116798611B (zh) 肝硬化结节的良恶性质预测装置、方法、设备及介质
CN117152552A (zh) 用于训练模型的方法、设备和介质
US20240290494A1 (en) Medical data analysis method based on explainable artificial intelligence, program, and device
CN118351396A (zh) 一种基于深度学习的少样本通信辐射源个体识别方法和系统

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant