KR102507489B1 - 진단 분류 장치 및 방법 - Google Patents

진단 분류 장치 및 방법 Download PDF

Info

Publication number
KR102507489B1
KR102507489B1 KR1020200183149A KR20200183149A KR102507489B1 KR 102507489 B1 KR102507489 B1 KR 102507489B1 KR 1020200183149 A KR1020200183149 A KR 1020200183149A KR 20200183149 A KR20200183149 A KR 20200183149A KR 102507489 B1 KR102507489 B1 KR 102507489B1
Authority
KR
South Korea
Prior art keywords
gene
expression level
diagnosis
classification
learning data
Prior art date
Application number
KR1020200183149A
Other languages
English (en)
Other versions
KR20220091930A (ko
Inventor
이재웅
김명신
김용구
조성민
Original Assignee
가톨릭대학교 산학협력단
주식회사 델바인
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 가톨릭대학교 산학협력단, 주식회사 델바인 filed Critical 가톨릭대학교 산학협력단
Priority to KR1020200183149A priority Critical patent/KR102507489B1/ko
Priority to PCT/KR2021/019494 priority patent/WO2022139402A1/ko
Priority to US18/039,566 priority patent/US20240029882A1/en
Publication of KR20220091930A publication Critical patent/KR20220091930A/ko
Application granted granted Critical
Publication of KR102507489B1 publication Critical patent/KR102507489B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Pathology (AREA)
  • Primary Health Care (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 개시는 진단 분류 장치 및 방법에 관한 것으로서, 특히 환자의 유전자 발현량 정보로부터 특이적으로 발현하는 발현 유전자를 추출하고 추출된 발현 유전자의 발현량과 인공 지능을 이용하여 진단명을 분류함으로써, 기존의 유전자 발현량 측정 기술만으로도 정확한 진단을 제공할 수 있는 진단 분류 장치 및 방법을 제공할 수 있다.

Description

진단 분류 장치 및 방법{APPARATUS AND METHOD FOR DIAGNOSIS CLASSIFICATION}
본 실시 예들은 진단 분류 장치 및 방법을 제공한다.
최근에는 정보의 디지털화 및 데이터 저장 기술의 발달에 따라, 대량의 데이터가 축적되어, 다양한 분야에서 인공지능 기술이 도입되어 활용되고 있다. 특히, 인공지능 기술의 한 종류인 머신 러닝은 입력 데이터를 분석하여, 확률적으로 대상을 분류하거나 특정 범위 내의 값을 예측하는 기술로 의료 분야에도 점차 활용되고 있다.
오늘날 백혈병과 같은 복잡한 질병을 진단하는 과정에는 현미경 검경, 염색체 검사, 항원검사, 융합유전자 검사가 종합적으로 필요하고, 여기에 차세대염기서열분석기반 유전자검사(NGS: Next Generation Sequencing)와 같은 새로운 분류 기법이 활용되고 있다. 하지만 감별진단과정에는 다양한 방법이 종합적으로 필요하기 때문에 시간, 노력, 장비, 비용의 요구가 지속적으로 증가하는 문제점이 있다.
또한, 백혈병과 같이 일상적인 방법을 통해 분류체계에서 명확하게 분류되지 않는 모호한 증례가 상당 부분 존재하는 경우에 있어서, 진단을 구체화하기 위해 다양한 검사 기법을 필요로 하는 문제점이 있다. 따라서, 기존의 유전자 발현량 측정 기술만으로도 정확한 진단을 제공할 수 있도록 인공지능을 활용한 감별진단 기술을 필요로 하고 있다.
이러한 배경에서, 본 실시 예들은 인공 지능을 이용하여 유전자 발현량 정보로부터 진단명을 분류할 수 있는 진단 분류 장치 및 방법을 제공할 수 있다.
전술한 목적을 달성하기 위하여, 일 측면에서, 본 실시 예는, 진단 분류 장치에 있어서, 증례 별 진단명에 해당하는 각각의 환자군으로부터 획득한 유전자 발현량 정보를 이용하여 진단명에서 특이적으로 발현하는 각각의 발현 유전자를 추출하고, 진단명에 따른 발현 유전자와 발현 유전자의 발현량을 학습 데이터로 생성하는 학습 데이터 생성부, 학습 데이터를 이용하여 진단명을 분류하는 분류 모델을 학습시키는 모델 학습부 및 신규 유전자 발현량 정보를 분류 모델에 적용하여 진단명으로 분류를 수행하는 분류부를 포함하는 진단 분류 장치를 제공한다.
다른 측면에서, 본 실시 예는 진단 분류 방법에 있어서, 증례 별 진단명에 해당하는 각각의 환자군으로부터 획득한 유전자 발현량 정보를 이용하여 진단명에서 특이적으로 발현하는 각각의 발현 유전자를 추출하고, 진단명에 따른 발현 유전자와 발현 유전자의 발현량을 학습 데이터로 생성하는 학습 데이터 생성 단계, 학습 데이터를 이용하여 진단명을 분류하는 분류 모델을 학습시키는 모델 학습 단계 및 신규 유전자 발현량 정보를 분류 모델에 적용하여 진단명으로 분류를 수행하는 분류 단계를 포함하는 진단 분류 방법을 제공한다.
본 실시 예들에 의하면, 인공 지능 및 유전자 발현 정보를 이용하여 진단명을 분류할 수 있는 진단 분류 장치 및 방법을 제공할 수 있다.
도 1은 본 개시가 적용될 수 있는 시스템 구성을 예시적으로 도시한 도면이다.
도 2는 본 개시의 일 실시 예에 따른 진단 분류 장치의 구성을 도시한 도면이다.
도 3은 본 개시의 일 실시 예에 따른 진단 분류 장치에서 학습 데이터를 생성하는 동작을 설명하기 위한 예시를 도시한 도면이다.
도 4는 본 개시의 일 실시 예에 따른 진단 분류 장치에서 분류 모델을 이용하여 진단명을 분류하는 동작을 설명하기 위한 예시를 도시한 도면이다.
도 5는 본 개시의 일 실시 예에 따른 진단 분류 장치에서 분류 모델을 설명하기 위한 예시를 도시한 도면이다.
도 6은 본 개시의 일 실시 예에 따른 진단 분류 장치에서 분류 모델을 검증하는 동작을 설명하기 위한 예시를 도시한 도면이다.
도 7은 본 개시의 다른 실시 예에 따른 진단 분류 장치에서 분류 모델을 검증하는 동작을 설명하기 위한 예시를 도시한 도면이다.
도 8은 본 개시의 일 실시 예에 따른 진단 분류 방법의 흐름도이다.
본 개시는 진단 분류 장치 및 방법에 관한 것이다.
이하, 본 개시의 일부 실시 예들을 예시적인 도면을 참조하여 상세하게 설명한다. 각 도면의 구성 요소들에 참조부호를 부가함에 있어서, 동일한 구성 요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가질 수 있다. 또한, 본 실시 예들을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 기술 사상의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략할 수 있다. 본 명세서 상에서 언급된 "포함한다", "갖는다", "이루어진다" 등이 사용되는 경우 "~만"이 사용되지 않는 이상 다른 부분이 추가될 수 있다. 구성 요소를 단수로 표현한 경우에 특별한 명시적인 기재 사항이 없는 한 복수를 포함하는 경우를 포함할 수 있다.
또한, 본 개시의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질, 차례, 순서 또는 개수 등이 한정되지 않는다.
구성 요소들의 위치 관계에 대한 설명에 있어서, 둘 이상의 구성 요소가 "연결", "결합" 또는 "접속" 등이 된다고 기재된 경우, 둘 이상의 구성 요소가 직접적으로 "연결", "결합" 또는 "접속" 될 수 있지만, 둘 이상의 구성 요소와 다른 구성 요소가 더 "개재"되어 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다. 여기서, 다른 구성 요소는 서로 "연결", "결합" 또는 "접속" 되는 둘 이상의 구성 요소 중 하나 이상에 포함될 수도 있다.
구성 요소들이나, 동작 방법이나 제작 방법 등과 관련한 시간적 흐름 관계에 대한 설명에 있어서, 예를 들어, "~후에", "~에 이어서", "~다음에", "~전에" 등으로 시간적 선후 관계 또는 흐름적 선후 관계가 설명되는 경우, "바로" 또는 "직접"이 사용되지 않는 이상 연속적이지 않은 경우도 포함할 수 있다.
한편, 구성 요소에 대한 수치 또는 그 대응 정보(예: 레벨 등)가 언급된 경우, 별도의 명시적 기재가 없더라도, 수치 또는 그 대응 정보는 각종 요인(예: 공정상의 요인, 내부 또는 외부 충격, 노이즈 등)에 의해 발생할 수 있는 오차 범위를 포함하는 것으로 해석될 수 있다.
본 명세서에서의 Fold change(FC)는 원래 측정과 후속 측정 간의 수량이 얼마나 변경되는지를 설명하는 측정으로 두 수량 간의 비율을 의미할 수 있다. 구체적으로 Fold change(FC)는 유전자 발현량을 두 조건에 대하여 비교하는 경우에 이용되며, 비교 조건(treatment)의 값을 기준 조건(control)의 값으로 나누는 값을 의미할 수 있다.
이하 첨부된 도면을 참고하여 본 개시를 상세히 설명하기로 한다.
도 1은 본 개시가 적용될 수 있는 시스템 구성을 예시적으로 도시한 도면이다.
도 1을 참조하면, 본 개시는 진단 분류 방법을 제공하는 시스템에 관한 것으로, 진단 분류 장치(110) 및 서버(100)에 구현될 수 있다.
진단 분류 장치(110)는, 일반적인 데스크 탑이나 노트북 등의 일반 PC를 포함하고, 스마트 폰, 태블릿 PC, PDA(Personal Digital Assistants) 및 이동통신 단말기 등의 모바일 단말기 등을 포함할 수 있으며, 이에 제한되지 않고, 서버(100)와 통신 가능한 어떠한 전자 기기로 폭넓게 해석되어야 할 것이다.
서버(100)는 하드웨어적으로는 통상적인 웹 서버(Web Server) 또는 웹 어플리케이션 서버(Web Application Server) 또는 웹 서버(WAP Server)와 동일한 구성을 하고 있다. 그러나, 소프트웨어적으로는, 아래에서 상세하게 설명할 바와 같이, C, C++, Java, PHP, .Net, Python, Ruby 등 여하한 언어를 통하여 구현되어 여러 가지 기능을 하는 프로그램 모듈(Module)을 포함할 수 있다.
또한, 서버(100)는 네트워크를 통하여 불특정 다수 클라이언트(장치(110)를 포함) 및/또는 다른 서버와 연결될 수 있는데, 이에 따라, 서버(100)는 클라이언트 또는 다른 서버의 작업수행 요청을 접수하고 그에 대한 작업 결과를 도출하여 제공하는 컴퓨터 시스템 또는 이러한 컴퓨터 시스템을 위하여 설치되어 있는 컴퓨터 소프트웨어(서버 프로그램)를 뜻하는 것일 수도 있다.
또한, 서버(100)는 전술한 서버 프로그램 이외에도, 서버(100) 상에서 동작하는 일련의 응용 프로그램(Application Program)과, 경우에 따라서는 내부 또는 외부에 구축되어 있는 각종 데이터베이스를 포함하는 넓은 개념으로 이해되어야 할 것이다.
여기서, 데이터베이스는, 서버 또는 다른 장치 등에 의해 사용될 목적으로 정보나 자료 등의 데이터가 구조화되어 관리되는 데이터의 집합체를 의미할 수 있으며, 이러한 데이터의 집합체를 저장하는 저장매체를 의미할 수도 있다.
또한, 이러한 데이터베이스는 데이터의 구조화 방식, 관리 방식, 종류 등에 따라 분류된 복수의 데이터베이스를 포함하는 것일 수도 있다. 경우에 따라서, 데이터베이스는 정보나 자료 등을 추가, 수정, 삭제 등을 할 수 있도록 해주는 소프트웨어인 데이터베이스 관리시스템(Database Management System, DBMS)을 포함할 수도 있다.
또한, 서버(100)는 콘텐츠, 각종 정보 및 데이터를 데이터베이스에 저장시키고 관리할 수 있다. 여기서, 데이터베이스는 서버(100)의 내부 또는 외부에 구현될 수 있다.
또한, 서버(100)는 일반적인 서버용 하드웨어에 도스(DOS), 윈도우(windows), 리눅스(Linux), 유닉스(UNIX), 매킨토시(Macintosh) 등의 운영체제에 따라 다양하게 제공되고 있는 서버 프로그램을 이용하여 구현될 수 있으며, 대표적인 것으로는 윈도우 환경에서 사용되는 웹 사이트(Website), IIS(Internet Information Server)와 유닉스환경에서 사용되는 Apache, Nginx, Light HTTP 등이 이용될 수 있다.
한편, 네트워크(120)는 서버(100)와 진단 분류 장치(110)를 연결해주는 망(Network)으로서, LAN(Local Area Network), WAN(Wide Area Network)등의 폐쇄형 네트워크(120)일 수도 있으나, 인터넷(Internet)과 같은 개방형 네트워크(120)일 수도 있다. 여기서, 인터넷은 TCP/IP 프로토콜 및 그 상위계층에 존재하는 여러 서비스, 즉 HTTP(HyperText Transfer Protocol), Telnet, FTP(File Transfer Protocol), DNS(Domain Name System), SMTP(Simple Mail Transfer Protocol), SNMP(Simple Network Management Protocol), NFS(Network File Service), NIS(Network Information Service)를 제공하는 전 세계적인 개방형 컴퓨터 네트워크 구조를 의미한다.
간략하게 전술한 본 개시의 일 실시 예에 따른 진단 분류 장치 및 방법에 대하여, 이하에서 더욱 상세하게 설명한다.
도 2는 본 개시의 일 실시 예에 따른 진단 분류 장치의 구성을 도시한 도면이다.
도 2를 참조하면, 본 개시의 일 실시 예에 따른 진단 분류 장치(110)는, 증례 별 진단명에 해당하는 각각의 환자군으로부터 획득한 유전자 발현량 정보를 이용하여 진단명에서 특이적으로 발현하는 각각의 발현 유전자를 추출하고, 진단명에 따른 발현 유전자와 발현 유전자의 발현량을 학습 데이터로 생성하는 학습 데이터 생성부(210), 학습 데이터를 이용하여 진단명을 분류하는 분류 모델을 학습시키는 모델 학습부(220) 및 신규 유전자 발현량 정보를 분류 모델에 적용하여 진단명으로 분류를 수행하는 분류부(230)를 포함하는 진단 분류 장치(110)를 제공한다.
학습 데이터 생성부(210)는 증례 별 진단명에 해당하는 각각의 환자군으로부터 획득한 유전자 발현량 정보를 이용하여 진단명 별로 특이적으로 발현하는 각각의 발현 유전자를 추출할 수 있다. 일 예로, 학습 데이터 생성부(210)는 백혈병 세포의 유전형을 반영하는 골수 세포 또는 말초혈액 백혈구의 mRNA를 분석하여 유전자 발현량 정보를 획득할 수 있다. 그리고 학습 데이터 생성부(210)는 AML(Acute myeloid leukemia), ALL(Acute lymphoblastic leukemia) 및 MPAL(Mixed phenotype acute leukemia)에 해당하는 각각의 환자군으로부터 측정된 유전자 발현량 정보를 이용할 수 있다. 예를 들어, 유전자 발현량 정보는 RNA sequencing (RNA-seq) 방식과 마이크로어레이 방식을 활용하여 측정하여 획득할 수 있다. 다만, 이는 일 예로, 유전자 발현량을 측정할 수 있는 검사 방식이라면 이에 한정되지 않는다.
다른 일 예로, 학습 데이터 생성부(210)는 각각의 진단명에 해당하는 유전자 발현량 정보로부터 발현 유전자를 추출하여 학습 데이터를 생성할 수 있다. 예를 들어, 학습 데이터 생성부(210)는 하우스키핑 유전자(housekeeping gene)를 이용하여 진단명에 해당하는 유전자 발현량 정보를 제 1정규화(normalization)하고, 제 1 정규화된 발현량을 비교하여 발현 유전자를 추출할 수 있다. 구체적으로, 학습 데이터 생성부(210)는 진단명에 해당하는 환자의 전체 유전자의 발현량을 하우스키핑 유전자로 나눠서 제 1 정규화를 하고, 제 1 정규화된 발현량을 비교하여 특이적으로 발현하는 발현 유전자를 추출할 수 있다. 이 때, 하우스키핑 유전자는 ABL1(Tyrosine-protein kinase)로 조건에 관계없이 모든 조직에서 일정하게 발현되며 발현량이 잘 변하지 않는 대표적인 유전자일 수 있다. 따라서, 학습 데이터 생성부(210)는 mRNA를 검출할 때에 동시에 검출한 하우스키핑 유전자의 검출값을 이용하여 제 1 정규화함으로써 조건에 관계없이 특이적으로 발현하는 발현 유전자를 추출할 수 있다.
다른 예를 들어, 학습 데이터 생성부(210)는 제 1 정규화된 발현량의 중앙값의 차이가 N fold change(FC) 이상인 유전자를 발현 유전자로 추출할 수 있다. 다만, 학습 데이터 생성부(210)는 제 1 정규화된 발현량이 특정 값 이하인 유전자는 추출된 발현 유전자에서 제외할 수 있다. 구체적으로, 학습 데이터 생성부(210)는 제 1 정규화된 발현량의 중앙값(median)을 기준으로 상대적으로 2 fold change(FC) 이상의 높은 발현량을 보이는 유전자를 발현 유전자로 추출할 수 있다. 또한, 학습 데이터 생성부(210)는 통계적인 차이가 있다하더라도 기술적으로 측정값의 재현성이 낮은 제 1 정규화된 발현량이 특정 값 이하인 유전자를 발현 유전자에서 제외할 수 있다. 이 때, 특정 값은 전체 유전자들의 발현량의 중앙값(median)을 기준으로 임의로 설정할 수 있다.
또한, 학습 데이터 생성부(210)는 증례 별 진단명에 따라 추출된 발현 유전자의 발현량을 학습 데이터로 생성할 수 있다. 일 예로, 학습 데이터 생성부(210)는 발현 유전자의 발현량을 유전자 발현량 정보에 포함된 전체 유전자의 발현 평균값을 이용하여 제 2정규화(normalization)하고, 제 2정규화된 발현량을 학습 데이터로 생성할 수 있다. 구체적으로, 학습 데이터 생성부(210)는 진단명에 따라 특이적으로 발현하는 발현 유전자의 발현량을 전체 유전자의 발현 평균값으로 나누는 방식으로 제 2 정규화하여 학습 데이터를 생성할 수 있다.
모델 학습부(220)는 생성된 학습 데이터를 이용하여 진단명을 분류하는 분류 모델을 학습시킬 수 있다. 일 예로, 모델 학습부(220)는 서포트 벡터 머신(support vector machine, SVM)을 이용하여 진단명 간의 차이를 계산하고, 차이에 기초하여 유전자 발현량 정보로부터 진단명으로 분류를 수행하는 분류 모델을 생성할 수 있다. 예를 들어, 분류 모델은 학습 데이터를 특정 차원 공간의 점으로 플로팅하고, 플로팅된 점을 초평면을 기반으로 분류하는 기계 학습 모델일 수 있다. 구체적으로, 분류 모델은 유전자 발현량이 진단명 분류에 따라 선형으로 분리되지 않기 때문에 kernel 함수를 사용하는 soft margin SVM 모델일 수 있다. 분류 모델에 관한 상세한 내용은 도 5를 참조하여 후술한다.
분류부(230)는 신규 유전자 발현량 정보를 분류 모델에 적용하여 진단명으로 분류를 수행할 수 있다. 일 예로, 분류부(230)는 새로운 증례의 유전자 발현량 정보가 입력되면 학습된 기계학습 모델을 적용하여 진단명의 분류를 수행할 수 있다. 이는 분류체계에 의해서 명확하게 분류되지 않는 모호한 증례가 발생하는 경우에도 분류 모델에 적용하여 진단명을 분류할 수 있는 효과를 제공할 수 있다,
모델 검증부(240)는 분류 모델의 성능을 측정하기 위하여 교차 검증을 수행할 수 있다. 일 예로, 모델 검증부(240)는 학습 데이터를 K개의 그룹으로 구분하고, 각각의 그룹을 다시 K개로 재구분하여 학습 세트와 검증 세트를 지정하여 검증 과정을 수행할 수 있다. 이 때, 각각의 그룹은 학습 세트와 검증 세트를 다르게 지정하여 검증 과정을 반복 수행할 수 있다. 교차 검증에 관한 상세한 내용은 도 6을 참조하여 후술한다.
또한, 모델 검증부(240)는 분류 모델의 성능을 측정하기 위하여 혼동 행렬(confusion matrix)를 생성할 수 있다. 일 예로, 모델 검증부(240)는 검증 세트의 검증 결과와 실제 진단 결과를 비교하여 혼동 행렬을 생성하고, 혼동 행렬의 확률 값을 기반으로 예측도(prediction value)를 산출하여 분류 모델의 신뢰도를 판단할 수 있다. 혼동 행렬에 관한 상세한 내용은 도 7을 참조하여 후술한다.
도 3은 본 개시의 일 실시 예에 따른 진단 분류 장치에서 학습 데이터를 생성하는 동작을 설명하기 위한 예시를 도시한 도면이다.
도 3을 참조하면, 본 개시의 일 실시 예에 따른 진단 분류 장치의 학습 데이터 생성부(210)는 유전자 발현량 정보를 획득할 수 있다(S310). 일 예로, 학습 데이터 생성부(210)는 AML(Acute myeloid leukemia), ALL(Acute lymphoblastic leukemia) 및 MPAL(Mixed phenotype acute leukemia)에 해당하는 각각의 환자군으로부터 측정된 유전자 발현량 정보를 획득할 수 있다. 예를 들어, 학습 데이터 생성부(210)는 AML 치료를 받은 환자, ALL 치료를 받은 환자 및 MPAL 치료를 받은 환자 각각의 혈액에서 분리한 세포 내의 약 30,000개의 mRNA를 측정하여 유전자 발현량 정보를 획득할 수 있다.
또한, 학습 데이터 생성부(210)는 유전자 발현량 정보를 측정하기 위해 마이크로어레이(Microarray)방식 또는 RNA-seq 방식을 사용할 수 있다. 예를 들어, 마이크로 어레이 방식은 수천 개의 유전자의 발현량을 한번에 측정할 수 있는 것으로서, 진단의 종류에 따라 다르게 발현되는 양상을 통계적으로 발견할 수 있다. 또한, RNA-seq 기술은 세포 내의 mRNA를 High-Throughput 시퀀싱(Sequencing)을 사용해서 측정하는 방식으로 mapping되어 있는read의 수를 가지고 진단의 종류에 따른 유전자별 발현 정도를 확인할 수 있다. 다만, 이는 일 예로, 유전자들의 발현량을 측정할 수 있는 방식이면 이에 한정되지 않는다.
학습 데이터 생성부(210)는 각각의 진단명에 따라 획득한 유전자 발현량 정보를 제 1 정규화할 수 있다(S320). 일 예로, 학습 데이터 생성부(210)는 하우스키핑 유전자(housekeeping gene)를 이용하여 진단명에 해당하는 유전자 발현량 정보를 제 1 정규화할 수 있다. 예를 들어, 학습 데이터 생성부(210)는 서로 다른 조건에서 유전자의 상대적 발현정도를 비교하기 위해 각각의 조건에서의 유전자 발현량을 하우스키핑 유전자의 발현량으로 나눠서 정규화한 후에 발현량을 비교할 수 있다. 이 때, 하우스키핑 유전자는 진단명에서 특이적으로 발현하는 발현 유전자와 달리 모든 조직 또는 세포에서 발현되는 유전자로, 발현 조직 또는 세포간의 발현 차이가 2배 이상 나지 않는 유전자로 선택될 수 있다. 구체적인 예를 들어, 하우스키핑 유전자는 ABL1 (Tyrosine-protein kinase), GAPDH (Glyceraldehyde-3-phosphate dehydrogenase) 등일 수 있고, 이에 한정되지 않는다.
학습 데이터 생성부(210)는 제 1 정규화된 발현량을 이용하여 진단명에 따라 특이적으로 발현하는 발현 유전자를 추출할 수 있다(S330). 일 예로, 학습 데이터 생성부(210)는 제 1 정규화된 발현량의 중앙값(median)을 기준으로 차이가 2 fold change(FC) 이상인 유전자를 발현 유전자로 추출할 수 있다. 예를 들어, 제 1 정규화된 발현량들을 중앙값으로 나눈 값을 이용하여 발현 유전자를 추출할 수 있다. 이 때, 전체적인 평균 발현량보다 높은 발현량을 가지는 유전자는 나눈 값이 1보다 높은 수치로 정렬될 수 있다. 다른 일 예로, 학습 데이터 생성부(210)는 제 1 정규화된 발현량이 중앙값을 기준으로 특정 값 이하인 유전자는 추출된 발현 유전자에서 제외할 수 있다. 예를 들어, 제 1 정규화된 발현량들을 중앙값으로 나눈 값이 특정 값 이하인 유전자는 추출된 발현 유전자에서 제외할 수 있다. 이는 발현량이 아주 낮은 유전자의 경우 통계적으로는 차이를 보이더라도 기술적으로 측정값의 재현성이 낮기 때문에 발현 유전자에서 제외하기 위함이다.
학습 데이터 생성부(210)는 추출된 발현 유전자의 발현량을 유전자 발현량 정보에 포함된 전체 유전자의 발현 평균값을 이용하여 제 2정규화할 수 있다(S340). 예를 들어, 학습 데이터 생성부(210)는 각각의 진단에서 특이적으로 발현하는 발현 유전자의 발현량을 해당 진단에 포함된 전체 유전자의 발현 평균값으로 나누는 방식으로 제 2 정규화할 수 있다. 따라서, 학습 데이터 생성부(210)는 추출된 발현 유전자의 발현량을 정규화하여 입력함으로써 분류 모델의 학습 성능을 높일 수 있다. 다만, 해당 단계는 필요에 따라 생략될 수 있다.
학습 데이터 생성부(210)는 진단명에 따른 발현 유전자와 발현 유전자의 발현량을 학습 데이터로 생성할 수 있다(S350). 일 예로, 학습 데이터 생성부(210)는 증례 별 진단명과 각각의 진단명에서 특이적으로 발현하는 발현 유전자 및 해당 발현 유전자의 발현량을 매칭시켜 학습 데이터를 생성할 수 있다.
도 4는 본 개시의 일 실시 예에 따른 진단 분류 장치에서 분류 모델을 이용하여 진단명을 분류하는 동작을 설명하기 위한 예시를 도시한 도면이다.
도 4를 참조하면, 본 개시의 일 실시 예에 따른 진단 분류 장치의 학습 데이터 생성부(210)는 생성된 학습 데이터를 분류 모델에 입력할 수 있다(S410). 일 예로, 학습 데이터는 각각의 증례 별 진단명에 따라 추출된 특이적으로 발현하는 발현 유전자와 해당 발현 유전자의 발현량을 증례 별 진단명과 매칭시켜 구축한 데이터베이스(database, DB)일 수 있다.
모델 학습부(220)는 유전자 발현량 정보로부터 진단명을 분류하는 분류 모델을 생성하고, 학습 데이터를 이용하여 분류 모델을 학습시킬 수 있다(S420). 일 예로, 모델 학습부(220)는 서포트 벡터 머신(support vector machine, SVM)을 이용하여 유전자 발현량 정보로부터 진단명 간의 차이를 계산하여 진단명을 분류하는 분류 모델을 생성할 수 있다. 여기서, 분류 모델은 서포트 벡터 머신으로 이진 분류를 위해 분류 알고리즘을 사용하는 지도 머신 러닝 모델일 수 있다. 예를 들어, 모델 학습부(220)는 각각의 진단명에 따른 발현 유전자의 발현량 정보를 특정 차원 공간의 점으로 플로팅하고, 초평면을 기반으로 클래스를 구분하여 진단명을 분류할 수 있다. 이 때, 특정 차원은 선택한 발현 유전자의 수로 설정할 수 있고, 초평면은 초평면에서 각 클래스의 가장 가까운 점까지의 거리가 최대화되도록 설정할 수 있다.
분류부(230)는 신규 유전자 발현량 정보를 분류 모델에 적용하여 진단명으로 분류를 수행할 수 있다(S430). 일 예로, 분류부(230)는 새로운 증례의 유전자 발현량 정보가 입력되면, 분류 모델에 적용하여 AML, ALL 및 MPAL에 해당하는 진단명으로 분류할 수 있다.
모델 검증부(240)는 교차 검증 또는 혼동 행렬을 이용하여 분류 모델을 검증할 수 있다(S440). 일 예로, 모델 검증부(240)는 분류 모델의 성능을 평가하기 위한 검증 세트의 수가 적은 경우에 교차 검증을 이용하여 분류 모델을 검증할 수 있다. 따라서, 모델 검증부(240)는 증례 별 진단명에 해당하는 유전자 발현 정보의 수가 적은 경우에 교차 검증을 이용하여 분류 모델을 검증할 수 있다 .
다른 일 예로, 모델 검증부(240)는 분류 모델의 예측도를 산출하여 성능을 평가하기 위해 혼동 행렬을 이용하여 분류 모델을 검증할 수 있다. 모델 검증부(240)는 검증 세트의 검증 결과와 실제 진단 결과를 비교하기 위해 혼동 행렬을 생성하고, 확률 값을 기반으로 예측도를 산출하여 분류 모델을 검증할 수 있다. 여기서 예측도(prediction value)는 정확도(Accuracy), 정밀도(Precision), 재현도(Recall)일 수 있다.
도 5는 본 개시의 일 실시 예에 따른 진단 분류 장치에서 분류 모델을 설명하기 위한 예시를 도시한 도면이다.
도 5를 참조하면, 본 개시의 일 실시 예에 따른 진단 분류 장치의 모델 학습부(220)에서 생성되는 분류 모델을 설명할 수 있다. 일 예로, 모델 학습부(220)의 분류 모델은 유전자 발현 정보로부터 생성한 학습 데이터를 특정 차원 공간의 점(510)으로 플로팅할 수 있다. 다만, 유전자 발현 정보가 선형 분리가 어려운 경우에는 학습 데이터를 생성하는 과정에서 특징 추출(Feature extraction)과 커널(kernel) 함수를 활용하여 분류가 최적화되도록 하는 과정이 필요할 수 있다.
예를 들어, 모델 학습부(220)는 학습 데이터가 선형 분리가 가능하다면, class를 분류하는 평행하고 거리가 최대인 2개의 초평면을 이용할 수 있다. 이 때, 마진(margin)의 거리(520)는 2/∥w∥이며, 마진(margin)의 거리(520)를 최대화하는 것이 분류 모델의 목표일 수 있다. 이를 위해, 수학식 1을 사용할 수 있다. 또한, 마진은 진단명 간의 차이를 의미하고 class는 진단명 calss를 의미할 수 있다.
Figure 112020140948743-pat00001
여기서, w, b는 초평면 상수(coefficient of hyperplane)이고, xi는 학습 데이터를 점(observed data point)으로 플로팅한 것일 수 있다. 따라서, 모델 학습부(220)는 예측된 데이터와 기존의 label이 같은 진단명 class로 분류할 수 있다.
다른 예를 들어, 모델 학습부(220)는 학습 데이터가 선형 분리가 불가능하다면, 여유 변수(Slack variables,ζ)를 추가한 소프트 마진 서포트 벡터 머신(soft margin SVM)을 사용할 수 있다. 모델 학습부(220)는 마진(margin)의 거리(520)를 최대화하는 초평면(530)을 찾는 목적 함수에 각 class의 초평면으로부터 반대편 class 영역 방향으로의 거리와 비례하는 값을 추가하고, 이 값을 최소화하는 동시에 마진을 최대화하는 초평면을 찾을 수 있다. 최적의 초평면을 찾는 목적함수는 수학식 2와 같다.
Figure 112020140948743-pat00002
따라서, 모델 학습부(220)는 서포트 벡터 머신에 사용되는 커널 함수로 Sigmoid kernel 중에서 Hyperbolic tangent를 사용할 수 있고, 이 차원 공간에서 특징 데이터를 가지는 점(510)을 변환시켜 최대 마진을 갖는 초평면(530)을 기반으로 분류할 수 있다. Hyperbolic tangent 커널 함수는 수학식 3과 같이 표현할 수 있다.
Figure 112020140948743-pat00003
Figure 112020140948743-pat00004
여기서, xi, xj는 학습 데이터의 좌표이고, a>0 이고, b<0일 수 있다. 또한, Φ(xj)는 변환된 학습 데이터 좌표일 수 있다.
다만, 분류 모델은 서포트 벡터 머신을 이용한 것으로 설명하였으나 이는 일 예로, 로지스틱 회귀법, KNN(K Nearest neighbor), 의사 결정 트리(decision tree) 등 학습 데이터로 학습한 후에 새로 입력된 데이터를 분류하는 모델이면 이에 한정되지 않는다.
도 6은 본 개시의 일 실시 예에 따른 진단 분류 장치에서 분류 모델을 검증하는 동작을 설명하기 위한 예시를 도시한 도면이다.
도 6을 참조하면, 본 개시의 일 실시 예에 따른 진단 분류 장치의 모델 검증부(240)는 분류 모델의 교차 검증(Cross Validation)을 수행할 수 있다. 일 예로, 모델 검증부(240)는 유전자 발현량 정보로부터 생성한 학습 데이터를 K개의 그룹으로 구분하고, 각각의 그룹을 다시 K개로 재구분하여 1개를 검증 세트로 이용하고, 나머지 k-1개는 학습 세트로 이용하는 검증 과정을 수행할 수 있다. 다만, 모델 검증부(240)는 각각의 그룹에서 학습 세트와 검증 세트를 다르게 지정하여 검증 과정을 수행할 수 있다. 모델 검증부(240)는 이러한 검증 과정을 K개의 그룹을 반복하여 나온 결과 값을 평균내어 검증 결과 값으로 사용할 수 있다.
예를 들어, 모델 검증부(240)가 10-fold 검증을 사용하는 경우에 학습 데이터는 10개의 그룹으로 구성될 수 있다. 또한, 모델 검증부(240)는 한정된 학습 데이터를 9:1로 10등분하여 10개의 세트로 구분하고, 그 중 1개의 세트는 검증 세트로 이용하고 나머지 9개의 세트는 학습 세트로 이용할 수 있다. 이 때, 모델 검증부(240)는 각각의 10 그룹의 검증 세트는 겹치지 않도록 설정할 수 있다. 그리고 모델 검증부(240)는 반복되는 검증 과정마다 검증 세트를 구성하는 유전자 발현 정보가 다르기 때문에 각각의 결과 값은 다르게 산출될 수 있다. 따라서 모델 검증부(240)는 10번 반복된 검증 과정을 통해 나온 결과 값들을 평균 내어 분류 모델의 검증 결과 값으로 사용할 수 있다. 다만, 10 fold 검증은 일 예를 설명한 것으로, 교차 검증 방법이 이에 한정되지 않는다.
즉, 모델 검증부(240)는 제한된 학습 데이터를 이용하여 학습(Train)과 검증(validation)을 총 k번 진행하는 효과를 제공할 수 있다.
도 7은 본 개시의 다른 실시 예에 따른 진단 분류 장치에서 분류 모델을 검증하는 동작을 설명하기 위한 예시를 도시한 도면이다.
도 7을 참조하면, 본 개시의 일 실시 예에 따른 진단 분류 장치의 모델 검증부(240)는 혼동 행렬을 생성하여 분류 모델의 신뢰도를 판단할 수 있다. 일 예로, 모델 검증부(240)는 검증 세트의 검증 결과(Predicted class)와 실제 진단 결과(True class)로 이루어진 혼동 행렬을 생성할 수 있다. 이 때, 혼동 행렬의 행과 열에 적힌 라벨은 각각의 진단명을 의미할 수 있다. 구체적으로, 혼동 행렬의 라벨 1은 AML이고, 라벨 2는 ALL이고, 라벨 3은 MPAL으로 설정할 수 있다.
예를 들어, 모델 검증부(240)는 원내 데이터(Local data)로부터 분류 모델을 이용하여 학습한 결과값을 이용하여 혼동 행렬(710)을 생성할 수 있다. 또한, 모델 검증부(240)는 원내 데이터로부터 학습한 분류 모델을 글로벌 데이터(Global data)를 적용한 결과값을 이용하여 혼동 행렬(720)을 생성할 수 있다. 따라서 모델 검증부(240)는 두 혼동 행렬을 비교하여 원내 데이터로 생성된 분류 모델이 글로벌 데이터에서 나타날 수 있는 특성들을 모두 반영하는지 여부를 판단하여 분류 모델의 신뢰도를 판단할 수 있다.
다른 일 예로, 모델 검증부(240)는 생성된 혼동 행렬의 확률 값을 기반으로 예측도를 산출하여 분류 모델의 신뢰도를 판단할 수 있다. 이 때, 예측도는 정확도(Accuracy)일 수 있고, 정확도는 실제로 AML, ALL 또는 MPAL에 각각 해당하는 유전자 발현 정보를 분류 모델이 AML, ALL 또는 MPAL로 정확하게 분류했는지 여부를 평가하는 기준일 수 있다. 예를 들어, 정확도는 검증 세트를 분류 모델에 입력하여 분류한 진단 결과와 실제 진단 결과가 동일한 건 수를 입력한 전체 건 수로 나누는 방식으로 산출할 수 있다.
이하에서는 도 1 내지 도 7을 참조하여 설명한 진단 분류 장치가 수행할 수 있는 진단 분류 방법에 대해서 설명한다.
도 8은 본 개시의 다른 실시 예에 따른 진단 분류 방법의 흐름도이다.
도 8을 참조하면, 본 개시의 진단 분류 방법은 학습 데이터 생성 단계를 포함할 수 있다(S810). 진단 분류 장치는 증례 별 진단명에 해당하는 각각의 환자군으로부터 획득한 유전자 발현량 정보를 이용하여 진단명에서 특이적으로 발현하는 각각의 발현 유전자를 추출할 수 있다. 일 예로, 진단 분류 장치는 백혈병 세포의 유전형을 반영하는 골수 세포 또는 말초혈액 백혈구의 mRNA를 분석하여 유전자 발현량 정보를 획득할 수 있다. 그리고, 진단 분류 장치는 AML(Acute myeloid leukemia), ALL(Acute lymphoblastic leukemia) 및 MPAL(Mixed phenotype acute leukemia)에 해당하는 각각의 환자군으로부터 측정된 유전자 발현량 정보를 이용할 수 있다. 예를 들어, 유전자 발현량 정보는 RNA sequencing (RNA-seq) 방식과 마이크로어레이 방식을 활용하여 측정하여 획득할 수 있다. 다만, 이는 일 예로, 유전자 발현량을 측정할 수 있는 검사 방식이라면 이에 한정되지 않는다.
다른 일 예로, 진단 분류 장치는 각각의 진단명에 해당하는 유전자 발현량 정보로부터 발현 유전자를 추출하여 학습 데이터를 생성할 수 있다. 예를 들어, 진단 분류 장치는 하우스키핑 유전자(housekeeping gene)를 이용하여 진단명에 해당하는 유전자 발현량 정보를 제 1정규화(normalization)하고, 제 1 정규화된 발현량을 비교하여 발현 유전자를 추출할 수 있다. 구체적으로, 진단 분류 장치는 진단명에 해당하는 환자의 전체 유전자의 발현량을 하우스키핑 유전자로 나눠서 제 1 정규화를 하고, 제 1 정규화된 발현량을 비교하여 특이적으로 발현하는 발현 유전자를 추출할 수 있다. 이 때, 하우스키핑 유전자는 ABL1(Tyrosine-protein kinase)로 조건에 관계없이 모든 조직에서 일정하게 발현되며 발현량이 잘 변하지 않는 대표적인 유전자일 수 있다. 다만, ABL1는 하우스키핑 유전자의 일 예로, 하우스키핑 유전자에 해당되면 이에 한정되지 않는다.
다른 예를 들어, 진단 분류 장치는 제 1 정규화된 발현량의 중앙값의 차이가 N fold change(FC) 이상인 유전자를 발현 유전자로 추출할 수 있다. 다만, 진단 분류 장치는 제 1 정규화된 발현량이 특정 값 이하인 유전자는 추출된 발현 유전자에서 제외할 수 있다. 구체적으로, 진단 분류 장치는 제 1 정규화된 발현량의 중앙값(median)을 기준으로 상대적으로 2 fold change(FC) 이상의 높은 발현량을 보이는 유전자를 발현 유전자로 추출할 수 있다. 또한, 진단 분류 장치는 통계적인 차이가 있다하더라도 기술적으로 측정값의 재현성이 낮은 제 1 정규화된 발현량이 특정 값 이하인 유전자를 발현 유전자에서 제외할 수 있다. 이 때, 특정 값은 전체 유전자들의 발현량의 중앙값(median)을 기준으로 임의로 설정할 수 있다.
또한, 진단 분류 장치는 증례 별 진단명에 따라 추출된 발현 유전자의 발현량을 학습 데이터로 생성할 수 있다. 일 예로, 진단 분류 장치는 발현 유전자의 발현량을 유전자 발현량 정보에 포함된 전체 유전자의 발현 평균값을 이용하여 제 2정규화(normalization)하고, 제 2정규화된 발현량을 학습 데이터로 생성할 수 있다. 구체적으로, 진단 분류 장치는 진단명에 따라 특이적으로 발현하는 발현 유전자의 발현량을 전체 유전자의 발현 평균값으로 나누는 방식으로 제 2 정규화하여 학습 데이터를 생성할 수 있다.
진단 분류 방법은 모델 학습 단계를 포함할 수 있다(S820). 일 예로, 진단 분류 장치는 생성된 학습 데이터를 이용하여 진단명을 분류하는 분류 모델을 학습시킬 수 있다. 예를 들어, 진단 분류 장치는 서포트 벡터 머신(support vector machine, SVM)을 이용하여 진단명 간의 차이를 계산하고, 차이에 기초하여 유전자 발현량 정보로부터 진단명으로 분류를 수행하는 분류 모델을 생성할 수 있다. 여기서, 분류 모델은 학습 데이터를 특정 차원 공간의 점으로 플로팅하고, 플로팅된 점을 초평면을 기반으로 분류하는 기계 학습 모델일 수 있다. 구체적으로, 분류 모델은 유전자 발현량이 진단명 분류에 따라 선형으로 분리되지 않기 때문에 kernel 함수를 사용하는 soft margin SVM 모델일 수 있다.
진단 분류 방법은 분류 단계를 포함할 수 있다(S830). 일 예로, 진단 분류 장치는 신규 유전자 발현량 정보를 분류 모델에 적용하여 진단명으로 분류를 수행할 수 있다. 예를 들어, 진단 분류 장치는 새로운 증례의 유전자 발현량 정보가 입력되면 학습된 기계학습 모델을 적용하여 진단명의 분류를 수행할 수 있다. 이는 분류체계에 의해서 명확하게 분류되지 않는 모호한 증례가 발생하는 경우에도 분류 모델에 적용하여 진단명을 분류할 수 있는 효과를 제공할 수 있다,
진단 분류 방법은 모델 검증 단계를 포함할 수 있다(S840). 일 예로, 진단 분류 장치는 분류 모델의 성능을 측정하기 위하여 교차 검증을 수행할 수 있다. 예를 들어, 진단 분류 장치는 학습 데이터를 K개의 그룹으로 구분하고, 각각의 그룹을 다시 K개로 재구분하여 학습 세트와 검증 세트를 지정하여 검증 과정을 수행할 수 있다. 이 때, 각각의 그룹은 학습 세트와 검증 세트를 다르게 지정하여 검증 과정을 반복 수행할 수 있다.
다른 일 예로, 진단 분류 장치는 분류 모델의 성능을 측정하기 위하여 혼동 행렬(confusion matrix)를 생성할 수 있다. 예를 들어, 진단 분류 장치는 검증 세트의 검증 결과와 실제 진단 결과를 비교하여 혼동 행렬을 생성하고, 혼동 행렬의 확률 값을 기반으로 예측도(prediction value)를 산출하여 분류 모델의 신뢰도를 판단할 수 있다
이상에서는 본 개시의 실시 예에 따른 진단 분류 방법이 도8 에서와 같은 절차로 수행되는 것으로 설명되었으나, 이는 설명의 편의를 위한 것일 뿐, 본 개시의 본질적인 개념을 벗어나지 않는 범위 내에서, 구현 방식에 따라 각 단계의 수행 절차가 바뀌거나 둘 이상의 단계가 통합되거나 하나의 단계가 둘 이상의 단계로 분리되어 수행될 수도 있다.
이상의 설명은 본 개시의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 기술 사상의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 또한, 본 실시 예들은 본 개시의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이므로 이러한 실시 예에 의하여 본 기술 사상의 범위가 한정되는 것은 아니다. 본 개시의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 개시의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (16)

  1. 증례 별 진단명에 해당하는 각각의 환자군으로부터 획득한 유전자 발현량 정보를 이용하여 상기 진단명에서 특이적으로 발현하는 각각의 발현 유전자를 추출하고, 상기 진단명에 따른 상기 발현 유전자와 상기 발현 유전자의 발현량을 학습 데이터로 생성하는 학습 데이터 생성부;
    상기 학습 데이터를 이용하여 상기 진단명을 분류하는 분류 모델을 학습시키는 모델 학습부; 및
    신규 유전자 발현량 정보를 상기 분류 모델에 적용하여 상기 진단명으로 분류를 수행하는 분류부;를 포함하되,
    상기 학습 데이터 생성부는,
    하우스키핑 유전자(Housekeeping gene)를 이용하여 상기 진단명에 해당하는 상기 유전자 발현량 정보를 제 1 정규화(Normalization)하여 상기 발현 유전자를 추출하고, 추출된 상기 발현 유전자의 발현량을 유전자 발현량 정보에 포함된 전체 유전자의 발현 평균값을 이용하여 제 2정규화(normalization)하여 상기 진단명과 상기 발현 유전자 및 상기 발현 유전자의 발현량을 매칭시켜 상기 학습 데이터를 생성하며,
    상기 진단명은,
    AML(Acute myeloid leukemia), ALL(Acute lymphoblastic leukemia) 및 MPAL(Mixed phenotype acute leukem)인 것을 특징으로 하는 진단 분류 장치.
  2. 제 1 항에 있어서,
    상기 학습 데이터 생성부는,
    AML(Acute myeloid leukemia), ALL(Acute lymphoblastic leukemia) 및 MPAL(Mixed phenotype acute leukemia)에 해당하는 각각의 환자군으로부터 측정된 상기 유전자 발현량 정보를 획득하는 것을 특징으로 하는 진단 분류 장치.
  3. 삭제
  4. 제 1 항에 있어서,
    상기 학습 데이터 생성부는,
    상기 제 1 정규화된 발현량의 중앙값의 차이가 N fold change(FC) 이상인 유전자를 상기 발현 유전자로 추출하되, 상기 제 1 정규화된 발현량이 특정 값 이하인 유전자는 상기 발현 유전자에서 제외하는 것을 특징으로 하는 진단 분류 장치.
  5. 삭제
  6. 제 1 항에 있어서,
    상기 모델 학습부는,
    서포트 벡터 머신(Support vector machine, SVM)을 이용하여 상기 진단명 간의 차이를 계산하고, 상기 차이에 기초하여 상기 유전자 발현량 정보로부터 상기 진단명으로 분류를 수행하는 분류 모델을 생성하되, 상기 분류 모델은 상기 학습 데이터를 특정 차원 공간의 점으로 플로팅하고, 상기 점을 초평면을 기반으로 분류하는 것을 특징으로 하는 진단 분류 장치.
  7. 제 1 항에 있어서,
    상기 학습 데이터를 K개의 그룹으로 구분하고, 각각의 그룹을 다시 K개로 재구분하여 학습 세트와 검증 세트를 지정하여 검증 과정을 수행하되, 상기 각각의 그룹은 학습 세트와 검증 세트를 다르게 지정하여 상기 검증 과정을 반복 수행하는 모델 검증부를 더 포함하는 것을 특징으로 하는 진단 분류 장치.
  8. 제 7 항에 있어서,
    상기 모델 검증부는,
    상기 검증 세트의 검증 결과와 실제 진단 결과를 비교하여 혼동 행렬(Confusion matrix)을 생성하고, 상기 혼동 행렬의 확률 값을 기반으로 예측도를 산출하여 상기 분류 모델의 신뢰도를 판단하는 것을 특징으로 하는 진단 분류 장치.
  9. 증례 별 진단명에 해당하는 각각의 환자군으로부터 획득한 유전자 발현량 정보를 이용하여 상기 진단명에서 특이적으로 발현하는 각각의 발현 유전자를 추출하고, 상기 진단명에 따른 상기 발현 유전자와 상기 발현 유전자의 발현량을 학습 데이터로 생성하는 학습 데이터 생성 단계;
    상기 학습 데이터를 이용하여 상기 진단명을 분류하는 분류 모델을 학습시키는 모델 학습 단계; 및
    신규 유전자 발현량 정보를 상기 분류 모델에 적용하여 상기 진단명으로 분류를 수행하는 분류 단계;를 포함하되,
    상기 학습 데이터 생성 단계는,
    하우스키핑 유전자(Housekeeping gene)를 이용하여 상기 진단명에 해당하는 상기 유전자 발현량 정보를 제 1 정규화(Normalization)하여 상기 발현 유전자를 추출하고, 추출된 상기 발현 유전자의 발현량을 유전자 발현량 정보에 포함된 전체 유전자의 발현 평균값을 이용하여 제 2정규화(normalization)하여 상기 진단명과 상기 발현 유전자 및 상기 발현 유전자의 발현량을 매칭시켜 상기 학습 데이터를 생성하며,
    상기 진단명은,
    AML(Acute myeloid leukemia), ALL(Acute lymphoblastic leukemia) 및 MPAL(Mixed phenotype acute leukem)인 것을 특징으로 하는 진단 분류 방법.
  10. 제 9 항에 있어서,
    상기 학습 데이터 생성 단계는,
    AML(Acute myeloid leukemia), ALL(Acute lymphoblastic leukemia) 및 MPAL(Mixed phenotype acute leukemia)에 해당하는 각각의 환자군으로부터 측정된 상기 유전자 발현량 정보를 획득하는 것을 특징으로 하는 진단 분류 방법.
  11. 삭제
  12. 제 9 항에 있어서,
    상기 학습 데이터 생성 단계는,
    상기 제 1 정규화된 발현량의 중앙값의 차이가 N fold change(FC) 이상인 유전자를 상기 발현 유전자로 추출하되, 상기 제 1 정규화된 발현량이 특정 값 이하인 유전자는 상기 발현 유전자에서 제외하는 것을 특징으로 하는 진단 분류 방법.
  13. 삭제
  14. 제 9 항에 있어서,
    상기 모델 학습 단계는,
    서포트 벡터 머신(Support vector machine, SVM)을 이용하여 상기 진단명 간의 차이를 계산하고, 상기 차이에 기초하여 상기 유전자 발현량 정보로부터 상기 진단명으로 분류를 수행하는 분류 모델을 생성하되, 상기 분류 모델은 상기 학습 데이터를 특정 차원 공간의 점으로 플로팅하고, 상기 점을 초평면을 기반으로 분류하는 것을 특징으로 하는 진단 분류 방법.
  15. 제 9 항에 있어서,
    상기 학습 데이터를 K개의 그룹으로 구분하고, 각각의 그룹을 다시 K개로 재구분하여 학습 세트와 검증 세트를 지정하여 검증 과정을 수행하되, 상기 각각의 그룹은 학습 세트와 검증 세트를 다르게 지정하여 상기 검증 과정을 반복 수행하는 모델 검증 단계를 더 포함하는 것을 특징으로 하는 진단 분류 방법.
  16. 제 15 항에 있어서,
    상기 모델 검증 단계는,
    상기 검증 세트의 검증 결과와 실제 진단 결과를 비교하여 혼동 행렬(Confusion matrix)를 생성하고, 상기 혼동 행렬의 확률 값을 기반으로 예측도를 산출하여 상기 분류 모델의 신뢰도를 판단하는 것을 특징으로 하는 진단 분류 방법.
KR1020200183149A 2020-12-24 2020-12-24 진단 분류 장치 및 방법 KR102507489B1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020200183149A KR102507489B1 (ko) 2020-12-24 2020-12-24 진단 분류 장치 및 방법
PCT/KR2021/019494 WO2022139402A1 (ko) 2020-12-24 2021-12-21 진단 분류 장치 및 방법
US18/039,566 US20240029882A1 (en) 2020-12-24 2021-12-21 Diagnostic classification device and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200183149A KR102507489B1 (ko) 2020-12-24 2020-12-24 진단 분류 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20220091930A KR20220091930A (ko) 2022-07-01
KR102507489B1 true KR102507489B1 (ko) 2023-03-08

Family

ID=82158134

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200183149A KR102507489B1 (ko) 2020-12-24 2020-12-24 진단 분류 장치 및 방법

Country Status (3)

Country Link
US (1) US20240029882A1 (ko)
KR (1) KR102507489B1 (ko)
WO (1) WO2022139402A1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005025711A (ja) * 2003-07-03 2005-01-27 Riichi Adachi 遺伝子発現データの分類方法
JP2009072111A (ja) * 2007-09-20 2009-04-09 Sysmex Corp がん細胞の存否を判定する方法及び装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2154245B1 (en) * 2005-09-02 2015-11-11 Toray Industries, Inc. Composition and method for diagnosing kidney cancer and for predicting prognosis for kidney cancer patient
US9984201B2 (en) * 2015-01-18 2018-05-29 Youhealth Biotech, Limited Method and system for determining cancer status
KR20200109544A (ko) * 2019-03-13 2020-09-23 울산대학교 산학협력단 공통 유전자 추출에 의한 다중 암 분류 방법
KR102252189B1 (ko) * 2019-06-04 2021-05-13 배재대학교 산학협력단 머신 러닝을 이용한 고장 진단 관리 시스템 및 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005025711A (ja) * 2003-07-03 2005-01-27 Riichi Adachi 遺伝子発現データの分類方法
JP2009072111A (ja) * 2007-09-20 2009-04-09 Sysmex Corp がん細胞の存否を判定する方法及び装置

Also Published As

Publication number Publication date
US20240029882A1 (en) 2024-01-25
WO2022139402A1 (ko) 2022-06-30
KR20220091930A (ko) 2022-07-01

Similar Documents

Publication Publication Date Title
CN111767707B (zh) 雷同病例检测方法、装置、设备及存储介质
US20180082215A1 (en) Information processing apparatus and information processing method
US11568179B2 (en) Selecting an algorithm for analyzing a data set based on the distribution of the data set
CN113392894A (zh) 一种多组学数据的聚类分析方法和系统
JP2023116599A (ja) 距離に基づく学習信頼度モデル
Pakgohar et al. A comparative study of hard clustering algorithms for vegetation data
WO2022008630A1 (en) Training a model to perform a task on medical data
KR102507489B1 (ko) 진단 분류 장치 및 방법
New et al. A precision environment-wide association study of hypertension via supervised cadre models
CN114513374B (zh) 一种基于人工智能的网络安全威胁识别方法及系统
Lakra et al. Improving software maintainability prediction using hyperparameter tuning of baseline machine learning algorithms
Chiari et al. An application of recurrent neural networks for estimating the prognosis of covid-19 patients in northern italy
Peracchio et al. Evaluation of Predictive Reliability to Foster Trust in Artificial Intelligence. A case study in Multiple Sclerosis
Tabatabaei et al. Estimating the F 1 Score for Learning from Positive and Unlabeled Examples
Gao et al. A novel intrusion detection method based on WOA optimized hybrid kernel RVM
KR102522683B1 (ko) 배터리진단방법 및 그 장치
CN111553418B (zh) 神经元重建错误的检测方法、装置和计算机设备
US20230419102A1 (en) Token synthesis for machine learning models
Zannat et al. Disease Prediction Through Syndromes by Clustering Algorithm
CN118015374A (zh) 一种小样本图像识别方法及系统
Velluet et al. Practical Identifiability of Plant Growth Models: A Unifying Framework and Its Specification for Three Local Indices
Baptista A Comprehensive Analysis of Alarm Root Causes in an Optical Fiber Network
Mogarampalli et al. Stroke Disease Classification with help of a ANOVA and Repeated StratiFiedKFold
Wahono et al. Brute Force Detection System Based on Machine Learning Classifier Algorithm in Cloud-Based Infrastructure
Boyko Evaluating Binary Classification Algorithms on Data Lakes Using Machine Learning.

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right