KR102309002B1 - 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치 및 그 동작 방법 - Google Patents

환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치 및 그 동작 방법 Download PDF

Info

Publication number
KR102309002B1
KR102309002B1 KR1020190138354A KR20190138354A KR102309002B1 KR 102309002 B1 KR102309002 B1 KR 102309002B1 KR 1020190138354 A KR1020190138354 A KR 1020190138354A KR 20190138354 A KR20190138354 A KR 20190138354A KR 102309002 B1 KR102309002 B1 KR 102309002B1
Authority
KR
South Korea
Prior art keywords
cancer
genes
prognosis
patient
data
Prior art date
Application number
KR1020190138354A
Other languages
English (en)
Other versions
KR20210052855A (ko
Inventor
안재균
고수현
Original Assignee
인천대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인천대학교 산학협력단 filed Critical 인천대학교 산학협력단
Priority to KR1020190138354A priority Critical patent/KR102309002B1/ko
Publication of KR20210052855A publication Critical patent/KR20210052855A/ko
Application granted granted Critical
Publication of KR102309002B1 publication Critical patent/KR102309002B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Pathology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Organic Chemistry (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Wood Science & Technology (AREA)
  • Immunology (AREA)
  • Public Health (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Zoology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Hospice & Palliative Care (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Oncology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치 및 그 동작 방법이 개시된다. 본 발명은 복수의 유전자들 중 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하고, 선정된 바이오 마커를 기초로 암의 예후를 예측할 수 있는 예측 모델을 구성하는 기술을 제시함으로써, 암환자의 암의 예후를 예측하는데 있어 높은 정확도를 제공할 수 있다.

Description

환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치 및 그 동작 방법{ELECTRONIC DEVICE FOR SELECTING BIOMARKERS FOR PREDICTING CANCER PROGNOSIS BASED ON PATIENT-SPECIFIC GENETIC CHARACTERISTICS AND OPERATING METHOD THEREOF}
본 발명은 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치 및 그 동작 방법에 대한 것이다.
최근, 식생활의 서구화 등으로 인해 암환자가 증가함에 따라 암의 치료를 위한 다양한 방법이 강구되고 있다.
암을 치료하는데 있어서, 환자의 유전자별 특성에 따라 암의 예후를 미리 예측할 수 있다면, 환자에게 암의 예후에 따른 치료 방법을 적절히 적용함으로써, 암 치료의 효과를 극대화할 수 있을 것이다.
최근에는 인공지능 기술의 발전으로 인해 환자의 유전자별 특성에 따라 암의 예후를 예측할 수 있도록 하는 예측 모델의 도입도 고려되고 있다.
관련해서, 암환자들을 암의 예후가 좋은 군과 암의 예후가 나쁜 군으로 구분한 후 암의 예후가 좋은 군으로 분류된 암환자들의 유전자 특성과 암의 예후가 나쁜 군으로 분류된 암환자들의 유전자 특성을 기초로 기계학습을 수행함으로써, 특정 암환자의 유전자 특성을 입력으로 인가하였을 때, 해당 암환자의 암의 예후가 좋을 것인지 나쁠 것인지를 미리 예측할 수 있는 예측 모델의 구성을 고려할 수 있다.
하지만, 사람의 유전자는 그 종류가 너무 많기 때문에 모든 유전자 특성을 고려해서 암의 예후를 예측하는 예측 모델을 구성하는데에 한계가 존재한다. 아울러, 암의 예후에 영향을 크게 미치지 않는 유전자도 있기 때문에 모든 유전자 특성을 기초로 암의 예후를 예측하는 예측 모델을 구성하게 되면, 예측 모델의 정확도가 낮아질 수 있는 문제가 있다.
따라서, 많은 수의 유전자들 중에서 암의 예후에 영향을 미치는 특정 유전자들만을 바이오 마커로 선별하고, 선별된 바이오 마커를 기초로 암의 예후를 예측할 수 있는 예측 모델을 구성함으로써, 암의 예후 예측의 정확도를 높일 수 있는 기술의 연구가 필요하다.
본 발명은 복수의 유전자들 중 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하고, 선정된 바이오 마커를 기초로 암의 예후를 예측할 수 있는 예측 모델을 구성하는 기술을 제시함으로써, 암환자의 암의 예후를 예측하는데 있어 높은 정확도를 제공할 수 있도록 한다.
본 발명의 일실시예에 따른 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치는 복수의 암환자들 각각에 대해서 사전에 설정된 유전자 네트워크 - 상기 유전자 네트워크는 서로 다른 종류의 복수의 유전자들 중 서로 영향을 미치는 유전자 간에 링크가 설정되어 있는 네트워크로, 상기 복수의 암환자들 각각에 대해서 상기 복수의 유전자들 간의 암 발현에 따른 영향도가 사전 측정되어 설정된 암환자별 고유의 유전자 네트워크를 의미함 - 에 대한 데이터가 저장되어 있는 유전자 네트워크 저장부, 상기 복수의 암환자들 각각의 유전자 네트워크에 대한 데이터를 기초로 상기 복수의 암환자들 각각에 대하여, 상기 복수의 유전자들 각각을 표현하는 임베딩 벡터를 생성하는 임베딩 벡터 생성부, 상기 복수의 유전자들 각각에 대하여, 상기 복수의 암환자들 각각의 유전자별 임베딩 벡터를 기초로 K-평균(means) 클러스터링을 수행함으로써, 상기 복수의 유전자들 각각에서의 클러스터링 결과를 생성하는 클러스터링 결과 생성부 및 상기 복수의 유전자들 각각에서 생성된 클러스터링 결과에 대한 성능을 측정한 후 상기 복수의 유전자들 중 클러스터링 결과에 대한 성능이 높은 순으로 기설정된(predetermined) 개수의 유전자들을 암의 예후 예측을 위한 바이오 마커로 결정하는 바이오 마커 결정부를 포함한다.
또한, 본 발명의 일실시예에 따른 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치의 동작 방법은 복수의 암환자들 각각에 대해서 사전에 설정된 유전자 네트워크 - 상기 유전자 네트워크는 서로 다른 종류의 복수의 유전자들 중 서로 영향을 미치는 유전자 간에 링크가 설정되어 있는 네트워크로, 상기 복수의 암환자들 각각에 대해서 상기 복수의 유전자들 간의 암 발현에 따른 영향도가 사전 측정되어 설정된 암환자별 고유의 유전자 네트워크를 의미함 - 에 대한 데이터가 저장되어 있는 유전자 네트워크 저장부를 유지하는 단계, 상기 복수의 암환자들 각각의 유전자 네트워크에 대한 데이터를 기초로 상기 복수의 암환자들 각각에 대하여, 상기 복수의 유전자들 각각을 표현하는 임베딩 벡터를 생성하는 단계, 상기 복수의 유전자들 각각에 대하여, 상기 복수의 암환자들 각각의 유전자별 임베딩 벡터를 기초로 K-평균 클러스터링을 수행함으로써, 상기 복수의 유전자들 각각에서의 클러스터링 결과를 생성하는 단계 및 상기 복수의 유전자들 각각에서 생성된 클러스터링 결과에 대한 성능을 측정한 후 상기 복수의 유전자들 중 클러스터링 결과에 대한 성능이 높은 순으로 기설정된 개수의 유전자들을 암의 예후 예측을 위한 바이오 마커로 결정하는 단계를 포함한다.
본 발명은 복수의 유전자들 중 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하고, 선정된 바이오 마커를 기초로 암의 예후를 예측할 수 있는 예측 모델을 구성하는 기술을 제시함으로써, 암환자의 암의 예후를 예측하는데 있어 높은 정확도를 제공할 수 있다.
도 1은 본 발명의 일실시예에 따른 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치의 구조를 도시한 도면이다.
도 2와 도 3은 본 발명의 일실시예에 따른 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치의 동작을 설명하기 위한 도면이다.
도 4는 본 발명의 일실시예에 따른 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치의 동작 방법을 도시한 순서도이다.
이하에서는 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명하기로 한다. 이러한 설명은 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였으며, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 본 명세서 상에서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 사람에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.
본 문서에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있다는 것을 의미한다. 또한, 본 발명의 다양한 실시예들에 있어서, 각 구성요소들, 기능 블록들 또는 수단들은 하나 또는 그 이상의 하부 구성요소로 구성될 수 있고, 각 구성요소들이 수행하는 전기, 전자, 기계적 기능들은 전자회로, 집적회로, ASIC(Application Specific Integrated Circuit) 등 공지된 다양한 소자들 또는 기계적 요소들로 구현될 수 있으며, 각각 별개로 구현되거나 2 이상이 하나로 통합되어 구현될 수도 있다.
한편, 첨부된 블록도의 블록들이나 흐름도의 단계들은 범용 컴퓨터, 특수용 컴퓨터, 휴대용 노트북 컴퓨터, 네트워크 컴퓨터 등 데이터 프로세싱이 가능한 장비의 프로세서나 메모리에 탑재되어 지정된 기능들을 수행하는 컴퓨터 프로그램 명령들(instructions)을 의미하는 것으로 해석될 수 있다. 이들 컴퓨터 프로그램 명령들은 컴퓨터 장치에 구비된 메모리 또는 컴퓨터에서 판독 가능한 메모리에 저장될 수 있기 때문에, 블록도의 블록들 또는 흐름도의 단계들에서 설명된 기능들은 이를 수행하는 명령 수단을 내포하는 제조물로 생산될 수도 있다. 아울러, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 명령들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 가능한 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 정해진 순서와 달리 실행되는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 실질적으로 동시에 수행되거나, 역순으로 수행될 수 있으며, 경우에 따라 일부 블록들 또는 단계들이 생략된 채로 수행될 수도 있다.
도 1은 본 발명의 일실시예에 따른 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치의 구조를 도시한 도면이다.
도 1을 참조하면, 본 발명에 따른 전자 장치(110)는 유전자 네트워크 저장부(111), 임베딩 벡터 생성부(112), 클러스터링 결과 생성부(113) 및 바이오 마커 결정부(114)를 포함한다.
유전자 네트워크 저장부(111)에는 복수의 암환자들 각각에 대해서 사전에 설정된 유전자 네트워크에 대한 데이터가 저장되어 있다.
여기서, 유전자 네트워크란 서로 다른 종류의 복수의 유전자들 중 서로 영향을 미치는 유전자 간에 링크가 설정되어 있는 네트워크를 의미한다.
관련해서, 유전자 네트워크는 도 2에 도시된 그림과 같이 서로 영향을 미치는 유전자 간에 링크가 설정된 정보를 의미하는 것으로, 이러한 유전자 네트워크는 생물학적 경로, protein-protein interaction(PPI), Gene Ontology(GO) 데이터 등에 의해서 구축될 수 있다.
이때, 유전자 네트워크 저장부(111)에 저장되어 있는 상기 복수의 암환자들 각각에 대한 유전자 네트워크는 상기 복수의 암환자들 각각에 대해서 상기 복수의 유전자들 간의 암 발현에 따른 영향도가 사전 측정되어 설정된 암환자별 고유의 유전자 네트워크를 의미한다.
예컨대, '암환자 1'에 대해서 상기 복수의 유전자들 간의 암 발현에 따른 영향도가 사전 측정됨에 따라 상기 '암환자 1'에 대응하는 고유의 유전자 네트워크인 '유전자 네트워크 1'이 설정되어 있을 수 있으며, '암환자 2'에 대해서 상기 복수의 유전자들 간의 암 발현에 따른 영향도가 사전 측정됨에 따라 상기 '암환자 2'에 대응하는 고유의 유전자 네트워크인 '유전자 네트워크 2'가 설정되어 있을 수 있다.
이러한 암환자별 유전자 네트워크는 환자별로 단일 표본 t검정을 수행하는 등의 검정 실험을 수행함으로써, 구축될 수 있다.
임베딩 벡터 생성부(112)는 상기 복수의 암환자들 각각의 유전자 네트워크에 대한 데이터를 기초로 상기 복수의 암환자들 각각에 대하여, 상기 복수의 유전자들 각각을 표현하는 임베딩(embedding) 벡터를 생성한다.
이때, 본 발명의 일실시예에 따르면, 임베딩 벡터 생성부(112)는 경로 정보 생성부(115) 및 벡터 결정부(116)를 포함할 수 있다.
경로 정보 생성부(115)는 상기 복수의 암환자들 중 어느 한 명인 제1 암환자에 대한 상기 복수의 유전자들 각각을 표현하는 임베딩 벡터를 생성하기 위해, 상기 제1 암환자의 유전자 네트워크에서 n(n은 2이상의 자연수)개의 연속된 링크로 연결되어 있는 n개의 유전자들로 구성된 복수의 경로 정보들을 랜덤하게 생성한다.
벡터 결정부(116)는 상기 복수의 경로 정보들 각각에 대하여, 상기 복수의 경로 정보들 각각을 구성하는 n개의 유전자들 중 경로 상에서 중심에 위치하는 중심 유전자와 상기 중심 유전자를 제외한 n-1개의 주변 유전자들을 선정하고, 상기 중심 유전자를 출력 데이터로, 상기 주변 유전자들을 입력 데이터로 지정한 후 상기 복수의 경로 정보들 각각에서의 상기 중심 유전자와 상기 주변 유전자들을 기초로 CBOW(Continuous Bag of Words) 모델을 학습시킴으로써, 상기 제1 암환자에 대한 상기 복수의 유전자들 각각의 임베딩 벡터를 결정한다.
이때, 본 발명의 일실시예에 따르면, 벡터 결정부(116)는 상기 복수의 유전자들 각각에 대한 원-핫(one-hot) 벡터를 생성하고, 상기 복수의 경로 정보들 각각에 대하여, 상기 중심 유전자의 원-핫 벡터를 출력 데이터로, 상기 주변 유전자들의 원-핫 벡터를 입력 데이터로 지정함으로써, 상기 CBOW 모델의 히든층을 구성하는 가중치 행렬을 학습시키고, 상기 학습된 가중치 행렬을 구성하는 각각의 행 벡터를 상기 복수의 유전자들 각각에 대한 임베딩 벡터로 결정할 수 있다.
관련해서, 도 3을 참조하여 경로 정보 생성부(115)와 벡터 결정부(116)의 동작을 예를 들어 설명하면 다음과 같다.
우선, n을 3이라고 가정하고, 상기 복수의 유전자들을 'G1, G2, G3, G4, G5, G6'으로 가정한 후 상기 복수의 암환자들 중 어느 한 명인 상기 제1 암환자에 대한 상기 6개의 유전자들 각각을 표현하는 임베딩 벡터를 생성하는 상황을 설명하기로 한다.
경로 정보 생성부(115)는 도면부호 311에 도시된 그림과 같이, 상기 제1 암환자의 유전자 네트워크에서 3개의 연속된 링크로 연결되어 있는 3개의 유전자들로 구성된 복수의 경로 정보들을 랜덤하게 생성할 수 있다.
즉, 상기 제1 암환자의 유전자 네트워크에서는 상기 6개의 유전자들 간의 링크가 다양하게 설정되어 있을 수 있는데, 경로 정보 생성부(115)는 상기 제1 암환자의 유전자 네트워크로부터 3개의 연속된 링크로 연결되어 있는 3개의 유전자들로 구성된 복수의 경로 정보들을 랜덤하게 생성할 수 있다.
관련해서, 상기 복수의 경로 정보들로는 '(G1, G3, G5)', '(G2, G3, G6)', '(G3, G6, G4)' 등과 같이 생성될 수 있다.
이때, 경로 정보 생성부(115)는 무작위 행보 알고리즘(Random walk algorithm)을 사용하여 상기 유전자 네트워크로부터 3개의 유전자들로 구성된 상기 복수의 경로 정보들을 랜덤하게 생성할 수 있다.
이렇게, 상기 복수의 경로 정보들이 생성되면, 벡터 결정부(116)는 상기 복수의 경로 정보들 각각에 대하여, 상기 복수의 경로 정보들 각각을 구성하는 3개의 유전자들 중 경로 상에서 중심에 위치하는 중심 유전자와 상기 중심 유전자를 제외한 2개의 주변 유전자들을 선정하고, 상기 중심 유전자를 출력 데이터로, 상기 주변 유전자들을 입력 데이터로 지정한 후 상기 복수의 경로 정보들 각각에서의 상기 중심 유전자와 상기 주변 유전자들을 기초로 CBOW(Continuous Bag of Words) 모델을 학습시킬 수 있다.
CBOW 모델은 자연어 처리에 있어서, 주변에 있는 단어들을 가지고, 중심에 있는 단어를 예측하는 모델을 의미한다. CBOW는 특정 문장들이 있을 때, 중심 단어를 출력으로, 주변 단어들을 입력으로 지정한 후 CBOW의 히든층을 구성하는 가중치 행렬을 학습시키는 방식으로 중심 단어를 예측하는 예측 모델을 만들어 낸다.
이때, 학습된 가중치 행렬을 구성하는 각 행 벡터를 특정 단어의 임베딩 벡터로 사용할 수 있으며, 이러한 임베딩 벡터는 단어 간의 유사도 측정 등에 활용될 수 있다.
본 발명의 벡터 결정부(116)는 복수의 경로 정보들 각각을 구성하는 3개의 유전자들을 3개의 단어들이 나열된 하나의 문장으로 보고 CBOW 모델을 학습시킴으로써, 'G1, G2, G3, G4, G5, G6'이라는 6개의 유전자들 각각의 임베딩 벡터를 결정할 수 있다.
관련해서, 경로 정보 생성부(115)를 통해 '(G1, G3, G5)', '(G2, G3, G6)', '(G3, G6, G4)'라고 하는 경로 정보가 생성되었다고 하는 경우, 벡터 결정부(116)는 '(G1, G3, G5)'에 대해 도면부호 312와 313에 도시된 그림과 같이, 중심 유전자로 G3을, 주변 유전자로 G1과 G5를 선정할 수 있고, '(G2, G3, G6)'에 대해 도면부호 312와 313에 도시된 그림과 같이, 중심 유전자로 G3을, 주변 유전자로 G2와 G6을 선정할 수 있으며, '(G3, G6, G4)'에 대해 도면부호 312와 313에 도시된 그림과 같이, 중심 유전자로 G6을, 주변 유전자로 G3과 G4를 선정할 수 있다.
이렇게, 중심 유전자와 주변 유전자가 선정되면, 벡터 결정부(116)는 도면부호 312와 313에 도시된 그림과 같이, 각 경로 정보에 대해 중심 유전자를 출력으로, 주변 유전자들을 입력으로 지정한 후 이를 기초로 도면부호 314에 도시된 그림과 같이 CBOW 모델을 학습시킬 수 있다.
구체적으로, 벡터 결정부(116)는 'G1, G2, G3, G4, G5, G6'이라는 유전자 각각에 대해 각 유전자를 표현하기 위한 6차원의 원-핫 벡터를 생성한 후 상기 복수의 경로 정보들 각각에 대하여, 상기 중심 유전자의 원-핫 벡터를 출력 데이터로, 상기 주변 유전자들의 원-핫 벡터를 입력 데이터로 지정함으로써, 상기 CBOW 모델의 히든층을 구성하는 가중치 행렬을 학습시킬 수 있다.
이때, 상기 가중치 행렬은 유전자의 개수가 6개라고 가정하였기 때문에 6개의 행 벡터로 구성된 행렬이 사용될 수 있다.
이렇게 상기 가중치 행렬이 결정되면, 벡터 결정부(116)는 도면부호 315에 도시된 그림과 같이, 상기 가중치 행렬을 구성하는 각 행 벡터를 'G1, G2, G3, G4, G5, G6'이라고 하는 유전자 각각의 임베딩 벡터로 결정함으로써, 상기 제1 암환자에 대한 6개의 유전자들 각각의 임베딩 벡터를 결정할 수 있다.
이러한 방식으로, 경로 정보 생성부(115)와 벡터 결정부(116)는 상기 복수의 암환자들 각각에 대해 CBOW 모델의 학습을 수행함으로써, 상기 복수의 암환자들 각각에 대하여, 'G1, G2, G3, G4, G5, G6'이라는 유전자 각각을 표현하는 임베딩 벡터를 생성할 수 있다.
이렇게, 상기 복수의 암환자들 각각에 대해 복수의 유전자들 각각의 임베딩 벡터가 생성되면, 클러스터링 결과 생성부(113)는 상기 복수의 유전자들 각각에 대하여, 상기 복수의 암환자들 각각의 유전자별 임베딩 벡터를 기초로 K-평균(means) 클러스터링을 수행함으로써, 상기 복수의 유전자들 각각에서의 클러스터링 결과를 생성한다.
K-평균 클러스터링이란 다차원 입력 데이터에 대해 해당 데이터가 어떤 그룹에 속하게 될지를 결정하는 클러스터링 기법을 의미하는 것으로, 하기의 수학식 1의 왜곡 측정 함수와 같이, 특정 중심점과 특정 입력 데이터 간의 거리의 제곱합이 최소가 되도록 하는 클러스터 집합을 찾는 알고리즘을 의미한다.
Figure 112019112052487-pat00001
여기서, x는 다차원 입력 데이터,
Figure 112019112052487-pat00002
는 S를 클러스터 집합이라고 할 때 Si 클러스터 집합에서의 중심점을 의미한다.
예컨대, 전술한 예시와 같이, 상기 복수의 유전자들이 'G1, G2, G3, G4, G5, G6'이라고 하는 경우, 클러스터링 결과 생성부(113)는 'G1, G2, G3, G4, G5, G6' 각각에 대해 상기 복수의 암환자들에서의 임베딩 벡터를 기초로 K-평균 클러스터링을 수행할 수 있다.
즉, 클러스터링 결과 생성부(113)는 'G1'에 대해 상기 복수의 암환자들 각각의 임베딩 벡터를 기초로 K-평균 클러스터링을 수행하여 'G1'에 대한 클러스터링 결과를 생성할 수 있고, 'G2'에 대해 상기 복수의 암환자들 각각의 임베딩 벡터를 기초로 K-평균 클러스터링을 수행하여 'G2'에 대한 클러스터링 결과를 생성할 수 있으며, 'G3'에 대해 상기 복수의 암환자들 각각의 임베딩 벡터를 기초로 K-평균 클러스터링을 수행하여 'G3'에 대한 클러스터링 결과를 생성할 수 있고, 'G4'에 대해 상기 복수의 암환자들 각각의 임베딩 벡터를 기초로 K-평균 클러스터링을 수행하여 'G4'에 대한 클러스터링 결과를 생성할 수 있고, 'G5'에 대해 상기 복수의 암환자들 각각의 임베딩 벡터를 기초로 K-평균 클러스터링을 수행하여 'G5'에 대한 클러스터링 결과를 생성할 수 있고, 'G6'에 대해 상기 복수의 암환자들 각각의 임베딩 벡터를 기초로 K-평균 클러스터링을 수행하여 'G6'에 대한 클러스터링 결과를 생성할 수 있다.
이렇게, 상기 복수의 유전자들 각각에서의 클러스터링 결과가 생성되면, 바이오 마커 결정부(114)는 상기 복수의 유전자들 각각에서 생성된 클러스터링 결과에 대한 성능을 측정한 후 상기 복수의 유전자들 중 클러스터링 결과에 대한 성능이 높은 순으로 기설정된(predetermined) 개수의 유전자들을 암의 예후 예측을 위한 바이오 마커로 결정한다.
이때, 본 발명의 일실시예에 따르면, 바이오 마커 결정부(114)는 상기 복수의 유전자들 각각에서 생성된 클러스터링 결과에 대해 정규화 상호정보량(Normalized Mutual Information)을 연산함으로써, 상기 연산된 정규화 상호정보량을 상기 복수의 유전자들 각각에서 생성된 클러스터링 결과에 대한 성능으로 측정할 수 있다.
여기서, 정규화 상호정보량은 특정 클러스터링 결과에 대해 클러스터링이 얼마나 적절하게 잘 되었는지를 평가하는 성능 지표를 의미한다.
본 발명에서의 클러스터링은 특정 유전자에 대해서 상기 복수의 암환자들 각각의 유전자 임베딩 벡터를 기초로 상기 복수의 암환자들을 그룹화하는 것이기 때문에, 특정 유전자에서 클러스터링이 잘되었다는 것은 해당 유전자에 대해 환자별로 특성이 명확하게 구분된다는 의미로 볼 수 있다.
따라서, 바이오 마커 결정부(114)는 상기 복수의 유전자들 중 클러스터링 결과에 대한 성능이 높은 순으로 기설정된 개수의 유전자들을 암의 예후 예측을 위한 바이오 마커로 결정할 수 있다.
본 발명의 일실시예에 따르면, 전자 장치(110)는 상기 바이오 마커의 결정이 완료되면, 상기 바이오 마커를 이용해서 암의 예후 예측을 위한 예측 모델을 만들기 위한 구성으로, 예측 모델 생성부(117)를 더 포함할 수 있다.
예측 모델 생성부(117)는 상기 기설정된 개수의 유전자들이 상기 바이오 마커로 결정된 이후, 사용자에 의해 상기 복수의 암환자들 각각으로부터 사전 수집된 상기 바이오 마커 각각의 유전자 데이터와 상기 복수의 암환자들 각각의 암의 예후 결과 데이터가 트레이닝 세트로 입력되면서, 암의 예후 예측을 위한 모델 생성 명령이 인가되면, 상기 바이오 마커 각각의 유전자 데이터를 입력으로 지정하고, 상기 암의 예후 결과 데이터를 출력으로 지정한 후 지도 학습(supervised learning) 기반의 기계학습을 수행함으로써, 암의 예후 예측 모델을 생성한다.
예컨대, 'G1, G2, G3, G4, G5, G6'이라는 유전자들 중 'G1'과 'G3'이라는 유전자가 바이오 마커로 결정되었다고 하는 경우, 예측 모델 생성부(117)는 상기 복수의 암환자들 각각으로부터 수집된 'G1'과 'G3'이라는 유전자에 대한 유전자 데이터와 상기 복수의 암환자들 각각의 암의 예후 결과 데이터를 트레이닝 세트로 활용해서 암의 예후 예측 모델을 생성할 수 있다.
여기서, 유전자 데이터란 각 유전자의 발현 값이 될 수 있고, 암의 예후 결과 데이터란 각 환자에 대해서 암의 예후가 좋은지, 좋지 않은지 여부를 나타내는 사전 설정된 데이터로 사용자는 암의 예후가 좋은 경우 '1'이라는 데이터를 사용할 수 있고, 암의 예후가 좋지 않은 경우, '0'이라는 데이터를 사용할 수 있다.
이렇게, 상기 복수의 암환자들 각각에 대한 'G1'과 'G3'에 대한 유전자 데이터와 각 환자의 암의 예후 결과 데이터가 존재하는 경우, 예측 모델 생성부(117)는 각 환자의 'G1'과 'G3'에 대한 유전자 데이터를 심층 신경망에 입력으로 인가하고, 그 출력을 해당 환자의 암의 예후 결과 데이터와 비교하여 상기 심층 신경망을 학습시킴으로써, 상기 암의 예후 예측 모델을 생성할 수 있다.
이때, 본 발명의 일실시예에 따르면, 전자 장치(110)는 예측부(118)를 더 포함할 수 있다.
예측부(118)는 상기 암의 예후 예측 모델이 생성된 이후, 상기 사용자에 의해 암의 예후 예측의 대상이 되는 예측 대상 암환자로부터 수집된 상기 바이오 마커 각각에 대한 제1 유전자 데이터가 입력으로 인가되면서, 상기 예측 대상 암환자에 대한 암의 예후 예측 명령이 인가되면, 상기 암의 예후 예측 모델에 상기 예측 대상 암환자로부터 수집된 상기 바이오 마커 각각에 대한 상기 제1 유전자 데이터를 입력으로 인가함으로써, 상기 예측 대상 암환자에 대한 암의 예후 결과 데이터를 출력 정보로 산출할 수 있다.
관련해서, 전술한 예시와 같이, 상기 바이오 마커가 'G1'과 'G3'이라고 하는 경우, 예측부(118)는 상기 예측 대상 암환자의 'G1'과 'G3'에 대한 유전자 데이터를 상기 암의 예후 예측 모델에 입력으로 인가함으로써, 상기 예측 대상 암환자에 대한 암의 예후 결과 데이터를 출력 정보로 산출할 수 있다.
만약, 상기 암의 예후 예측 모델을 생성하는데 있어, 암의 예후가 좋은 경우의 암의 예후 결과 데이터로 '1'이 사용되었고, 암의 예후가 좋지 않은 경우의 암의 예후 결과 데이터로 '0'이라는 데이터가 사용되었다고 하는 경우, 사용자는 예측부(118)에서 '0.5'를 초과하는 결과 데이터가 산출되면, 상기 예측 대상 암환자에 대해 암의 예후가 좋을 것으로 예측할 수 있고, '0.5' 미만인 결과 데이터가 산출되면, 상기 예측 대상 암환자에 대해 암의 예후가 좋지 않을 것으로 예측할 수 있다.
도 4는 본 발명의 일실시예에 따른 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치의 동작 방법을 도시한 순서도이다.
단계(S410)에서는 복수의 암환자들 각각에 대해서 사전에 설정된 유전자 네트워크(상기 유전자 네트워크는 서로 다른 종류의 복수의 유전자들 중 서로 영향을 미치는 유전자 간에 링크가 설정되어 있는 네트워크로, 상기 복수의 암환자들 각각에 대해서 상기 복수의 유전자들 간의 암 발현에 따른 영향도가 사전 측정되어 설정된 암환자별 고유의 유전자 네트워크를 의미함)에 대한 데이터가 저장되어 있는 유전자 네트워크 저장부를 유지한다.
단계(S420)에서는 상기 복수의 암환자들 각각의 유전자 네트워크에 대한 데이터를 기초로 상기 복수의 암환자들 각각에 대하여, 상기 복수의 유전자들 각각을 표현하는 임베딩 벡터를 생성한다.
단계(S430)에서는 상기 복수의 유전자들 각각에 대하여, 상기 복수의 암환자들 각각의 유전자별 임베딩 벡터를 기초로 K-평균 클러스터링을 수행함으로써, 상기 복수의 유전자들 각각에서의 클러스터링 결과를 생성한다.
단계(S440)에서는 상기 복수의 유전자들 각각에서 생성된 클러스터링 결과에 대한 성능을 측정한 후 상기 복수의 유전자들 중 클러스터링 결과에 대한 성능이 높은 순으로 기설정된 개수의 유전자들을 암의 예후 예측을 위한 바이오 마커로 결정한다.
이때, 본 발명의 일실시예에 따르면, 단계(S420)에서는 상기 복수의 암환자들 중 어느 한 명인 제1 암환자에 대한 상기 복수의 유전자들 각각을 표현하는 임베딩 벡터를 생성하기 위해, 상기 제1 암환자의 유전자 네트워크에서 n(n은 2이상의 자연수)개의 연속된 링크로 연결되어 있는 n개의 유전자들로 구성된 복수의 경로 정보들을 랜덤하게 생성하는 단계 및 상기 복수의 경로 정보들 각각에 대하여, 상기 복수의 경로 정보들 각각을 구성하는 n개의 유전자들 중 경로 상에서 중심에 위치하는 중심 유전자와 상기 중심 유전자를 제외한 n-1개의 주변 유전자들을 선정하고, 상기 중심 유전자를 출력 데이터로, 상기 주변 유전자들을 입력 데이터로 지정한 후 상기 복수의 경로 정보들 각각에서의 상기 중심 유전자와 상기 주변 유전자들을 기초로 CBOW 모델을 학습시킴으로써, 상기 제1 암환자에 대한 상기 복수의 유전자들 각각의 임베딩 벡터를 결정하는 단계를 포함할 수 있다.
이때, 본 발명의 일실시예에 따르면, 상기 임베딩 벡터를 결정하는 단계는 상기 복수의 유전자들 각각에 대한 원-핫 벡터를 생성하고, 상기 복수의 경로 정보들 각각에 대하여, 상기 중심 유전자의 원-핫 벡터를 출력 데이터로, 상기 주변 유전자들의 원-핫 벡터를 입력 데이터로 지정함으로써, 상기 CBOW 모델의 히든층을 구성하는 가중치 행렬을 학습시키고, 상기 학습된 가중치 행렬을 구성하는 각각의 행 벡터를 상기 복수의 유전자들 각각에 대한 임베딩 벡터로 결정할 수 있다.
또한, 본 발명의 일실시예에 따르면, 단계(S440)에서는 상기 복수의 유전자들 각각에서 생성된 클러스터링 결과에 대해 정규화 상호정보량을 연산함으로써, 상기 연산된 정규화 상호정보량을 상기 복수의 유전자들 각각에서 생성된 클러스터링 결과에 대한 성능으로 측정할 수 있다.
또한, 본 발명의 일실시예에 따르면, 상기 전자 장치의 동작 방법은 상기 기설정된 개수의 유전자들이 상기 바이오 마커로 결정된 이후, 사용자에 의해 상기 복수의 암환자들 각각으로부터 사전 수집된 상기 바이오 마커 각각의 유전자 데이터와 상기 복수의 암환자들 각각의 암의 예후 결과 데이터가 트레이닝 세트로 입력되면서, 암의 예후 예측을 위한 모델 생성 명령이 인가되면, 상기 바이오 마커 각각의 유전자 데이터를 입력으로 지정하고, 상기 암의 예후 결과 데이터를 출력으로 지정한 후 지도 학습 기반의 기계학습을 수행함으로써, 암의 예후 예측 모델을 생성하는 단계를 더 포함할 수 있다.
이때, 본 발명의 일실시예에 따르면, 상기 전자 장치의 동작 방법은 상기 암의 예후 예측 모델이 생성된 이후, 상기 사용자에 의해 암의 예후 예측의 대상이 되는 예측 대상 암환자로부터 수집된 상기 바이오 마커 각각에 대한 제1 유전자 데이터가 입력으로 인가되면서, 상기 예측 대상 암환자에 대한 암의 예후 예측 명령이 인가되면, 상기 암의 예후 예측 모델에 상기 예측 대상 암환자로부터 수집된 상기 바이오 마커 각각에 대한 상기 제1 유전자 데이터를 입력으로 인가함으로써, 상기 예측 대상 암환자에 대한 암의 예후 결과 데이터를 출력 정보로 산출하는 단계를 더 포함할 수 있다.
이상, 도 4를 참조하여 본 발명의 일실시예에 따른 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치의 동작 방법에 대해 설명하였다. 여기서, 본 발명의 일실시예에 따른 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치의 동작 방법은 도 1 내지 도 3을 이용하여 설명한 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치(110)의 동작에 대한 구성과 대응될 수 있으므로, 이에 대한 보다 상세한 설명은 생략하기로 한다.
본 발명의 일실시예에 따른 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치의 동작 방법은 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다.
또한, 본 발명의 일실시예에 따른 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치의 동작 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
110: 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치
111: 유전자 네트워크 저장부 112: 임베딩 벡터 생성부
113: 클러스터링 결과 생성부 114: 바이오 마커 결정부
115: 경로 정보 생성부 116: 벡터 결정부
117: 예측 모델 생성부 118: 예측부

Claims (14)

  1. 복수의 암환자들 각각에 대해서 사전에 설정된 유전자 네트워크 - 상기 유전자 네트워크는 서로 다른 종류의 복수의 유전자들 중 서로 영향을 미치는 유전자 간에 링크가 설정되어 있는 네트워크로, 상기 복수의 암환자들 각각에 대해서 상기 복수의 유전자들 간의 암 발현에 따른 영향도가 사전 측정되어 설정된 암환자별 고유의 유전자 네트워크를 의미함 - 에 대한 데이터가 저장되어 있는 유전자 네트워크 저장부;
    상기 복수의 암환자들 각각의 유전자 네트워크에 대한 데이터를 기초로 상기 복수의 암환자들 각각에 대하여, 상기 복수의 유전자들 각각을 표현하는 임베딩 벡터를 생성하는 임베딩 벡터 생성부;
    상기 복수의 유전자들 각각에 대하여, 상기 복수의 암환자들 각각의 유전자별 임베딩 벡터를 기초로 K-평균(means) 클러스터링을 수행함으로써, 상기 복수의 유전자들 각각에서의 클러스터링 결과를 생성하는 클러스터링 결과 생성부; 및
    상기 복수의 유전자들 각각에서 생성된 클러스터링 결과에 대한 성능을 측정한 후 상기 복수의 유전자들 중 클러스터링 결과에 대한 성능이 높은 순으로 기설정된(predetermined) 개수의 유전자들을 암의 예후 예측을 위한 바이오 마커로 결정하는 바이오 마커 결정부
    를 포함하고,
    상기 임베딩 벡터 생성부는
    상기 복수의 암환자들 중 어느 한 명인 제1 암환자에 대한 상기 복수의 유전자들 각각을 표현하는 임베딩 벡터를 생성하기 위해, 상기 제1 암환자의 유전자 네트워크에서 n(n은 2이상의 자연수)개의 연속된 링크로 연결되어 있는 n개의 유전자들로 구성된 복수의 경로 정보들을 랜덤하게 생성하는 경로 정보 생성부; 및
    상기 복수의 경로 정보들 각각에 대하여, 상기 복수의 경로 정보들 각각을 구성하는 n개의 유전자들 중 경로 상에서 중심에 위치하는 중심 유전자와 상기 중심 유전자를 제외한 n-1개의 주변 유전자들을 선정하고, 상기 중심 유전자를 출력 데이터로, 상기 주변 유전자들을 입력 데이터로 지정한 후 상기 복수의 경로 정보들 각각에서의 상기 중심 유전자와 상기 주변 유전자들을 기초로 CBOW(Continuous Bag of Words) 모델을 학습시킴으로써, 상기 제1 암환자에 대한 상기 복수의 유전자들 각각의 임베딩 벡터를 결정하는 벡터 결정부
    를 포함하며,
    상기 벡터 결정부는
    상기 복수의 유전자들 각각에 대한 원-핫(one-hot) 벡터를 생성하고, 상기 복수의 경로 정보들 각각에 대하여, 상기 중심 유전자의 원-핫 벡터를 출력 데이터로, 상기 주변 유전자들의 원-핫 벡터를 입력 데이터로 지정함으로써, 상기 CBOW 모델의 히든층을 구성하는 가중치 행렬을 학습시키고, 상기 학습된 가중치 행렬을 구성하는 각각의 행 벡터를 상기 복수의 유전자들 각각에 대한 임베딩 벡터로 결정하는 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치.
  2. 삭제
  3. 삭제
  4. 제1항에 있어서,
    상기 바이오 마커 결정부는
    상기 복수의 유전자들 각각에서 생성된 클러스터링 결과에 대해 정규화 상호정보량(Normalized Mutual Information)을 연산함으로써, 상기 연산된 정규화 상호정보량을 상기 복수의 유전자들 각각에서 생성된 클러스터링 결과에 대한 성능으로 측정하는 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치.
  5. 제1항에 있어서,
    상기 기설정된 개수의 유전자들이 상기 바이오 마커로 결정된 이후, 사용자에 의해 상기 복수의 암환자들 각각으로부터 사전 수집된 상기 바이오 마커 각각의 유전자 데이터와 상기 복수의 암환자들 각각의 암의 예후 결과 데이터가 트레이닝 세트로 입력되면서, 암의 예후 예측을 위한 모델 생성 명령이 인가되면, 상기 바이오 마커 각각의 유전자 데이터를 입력으로 지정하고, 상기 암의 예후 결과 데이터를 출력으로 지정한 후 지도 학습(supervised learning) 기반의 기계학습을 수행함으로써, 암의 예후 예측 모델을 생성하는 예측 모델 생성부
    를 더 포함하는 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치.
  6. 제5항에 있어서,
    상기 암의 예후 예측 모델이 생성된 이후, 상기 사용자에 의해 암의 예후 예측의 대상이 되는 예측 대상 암환자로부터 수집된 상기 바이오 마커 각각에 대한 제1 유전자 데이터가 입력으로 인가되면서, 상기 예측 대상 암환자에 대한 암의 예후 예측 명령이 인가되면, 상기 암의 예후 예측 모델에 상기 예측 대상 암환자로부터 수집된 상기 바이오 마커 각각에 대한 상기 제1 유전자 데이터를 입력으로 인가함으로써, 상기 예측 대상 암환자에 대한 암의 예후 결과 데이터를 출력 정보로 산출하는 예측부
    를 더 포함하는 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치.
  7. 복수의 암환자들 각각에 대해서 사전에 설정된 유전자 네트워크 - 상기 유전자 네트워크는 서로 다른 종류의 복수의 유전자들 중 서로 영향을 미치는 유전자 간에 링크가 설정되어 있는 네트워크로, 상기 복수의 암환자들 각각에 대해서 상기 복수의 유전자들 간의 암 발현에 따른 영향도가 사전 측정되어 설정된 암환자별 고유의 유전자 네트워크를 의미함 - 에 대한 데이터가 저장되어 있는 유전자 네트워크 저장부를 유지하는 단계;
    상기 복수의 암환자들 각각의 유전자 네트워크에 대한 데이터를 기초로 상기 복수의 암환자들 각각에 대하여, 상기 복수의 유전자들 각각을 표현하는 임베딩 벡터를 생성하는 단계;
    상기 복수의 유전자들 각각에 대하여, 상기 복수의 암환자들 각각의 유전자별 임베딩 벡터를 기초로 K-평균(means) 클러스터링을 수행함으로써, 상기 복수의 유전자들 각각에서의 클러스터링 결과를 생성하는 단계; 및
    상기 복수의 유전자들 각각에서 생성된 클러스터링 결과에 대한 성능을 측정한 후 상기 복수의 유전자들 중 클러스터링 결과에 대한 성능이 높은 순으로 기설정된(predetermined) 개수의 유전자들을 암의 예후 예측을 위한 바이오 마커로 결정하는 단계
    를 포함하고,
    상기 임베딩 벡터를 생성하는 단계는
    상기 복수의 암환자들 중 어느 한 명인 제1 암환자에 대한 상기 복수의 유전자들 각각을 표현하는 임베딩 벡터를 생성하기 위해, 상기 제1 암환자의 유전자 네트워크에서 n(n은 2이상의 자연수)개의 연속된 링크로 연결되어 있는 n개의 유전자들로 구성된 복수의 경로 정보들을 랜덤하게 생성하는 단계; 및
    상기 복수의 경로 정보들 각각에 대하여, 상기 복수의 경로 정보들 각각을 구성하는 n개의 유전자들 중 경로 상에서 중심에 위치하는 중심 유전자와 상기 중심 유전자를 제외한 n-1개의 주변 유전자들을 선정하고, 상기 중심 유전자를 출력 데이터로, 상기 주변 유전자들을 입력 데이터로 지정한 후 상기 복수의 경로 정보들 각각에서의 상기 중심 유전자와 상기 주변 유전자들을 기초로 CBOW(Continuous Bag of Words) 모델을 학습시킴으로써, 상기 제1 암환자에 대한 상기 복수의 유전자들 각각의 임베딩 벡터를 결정하는 단계
    를 포함하며,
    상기 임베딩 벡터를 결정하는 단계는
    상기 복수의 유전자들 각각에 대한 원-핫(one-hot) 벡터를 생성하고, 상기 복수의 경로 정보들 각각에 대하여, 상기 중심 유전자의 원-핫 벡터를 출력 데이터로, 상기 주변 유전자들의 원-핫 벡터를 입력 데이터로 지정함으로써, 상기 CBOW 모델의 히든층을 구성하는 가중치 행렬을 학습시키고, 상기 학습된 가중치 행렬을 구성하는 각각의 행 벡터를 상기 복수의 유전자들 각각에 대한 임베딩 벡터로 결정하는 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치의 동작 방법.
  8. 삭제
  9. 삭제
  10. 제7항에 있어서,
    상기 바이오 마커로 결정하는 단계는
    상기 복수의 유전자들 각각에서 생성된 클러스터링 결과에 대해 정규화 상호정보량(Normalized Mutual Information)을 연산함으로써, 상기 연산된 정규화 상호정보량을 상기 복수의 유전자들 각각에서 생성된 클러스터링 결과에 대한 성능으로 측정하는 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치의 동작 방법.
  11. 제7항에 있어서,
    상기 기설정된 개수의 유전자들이 상기 바이오 마커로 결정된 이후, 사용자에 의해 상기 복수의 암환자들 각각으로부터 사전 수집된 상기 바이오 마커 각각의 유전자 데이터와 상기 복수의 암환자들 각각의 암의 예후 결과 데이터가 트레이닝 세트로 입력되면서, 암의 예후 예측을 위한 모델 생성 명령이 인가되면, 상기 바이오 마커 각각의 유전자 데이터를 입력으로 지정하고, 상기 암의 예후 결과 데이터를 출력으로 지정한 후 지도 학습(supervised learning) 기반의 기계학습을 수행함으로써, 암의 예후 예측 모델을 생성하는 단계
    를 더 포함하는 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치의 동작 방법.
  12. 제11항에 있어서,
    상기 암의 예후 예측 모델이 생성된 이후, 상기 사용자에 의해 암의 예후 예측의 대상이 되는 예측 대상 암환자로부터 수집된 상기 바이오 마커 각각에 대한 제1 유전자 데이터가 입력으로 인가되면서, 상기 예측 대상 암환자에 대한 암의 예후 예측 명령이 인가되면, 상기 암의 예후 예측 모델에 상기 예측 대상 암환자로부터 수집된 상기 바이오 마커 각각에 대한 상기 제1 유전자 데이터를 입력으로 인가함으로써, 상기 예측 대상 암환자에 대한 암의 예후 결과 데이터를 출력 정보로 산출하는 단계
    를 더 포함하는 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치의 동작 방법.
  13. 제7항, 제10항, 제11항 또는 제12항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 컴퓨터 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
  14. 제7항, 제10항, 제11항 또는 제12항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램.
KR1020190138354A 2019-11-01 2019-11-01 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치 및 그 동작 방법 KR102309002B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190138354A KR102309002B1 (ko) 2019-11-01 2019-11-01 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치 및 그 동작 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190138354A KR102309002B1 (ko) 2019-11-01 2019-11-01 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치 및 그 동작 방법

Publications (2)

Publication Number Publication Date
KR20210052855A KR20210052855A (ko) 2021-05-11
KR102309002B1 true KR102309002B1 (ko) 2021-10-05

Family

ID=75915040

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190138354A KR102309002B1 (ko) 2019-11-01 2019-11-01 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치 및 그 동작 방법

Country Status (1)

Country Link
KR (1) KR102309002B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023146361A1 (ko) * 2022-01-28 2023-08-03 서울대학교병원 인공지능 기반의 바이오 마커 선별 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Jonghwan Choi 외, G2Vec: Distributed gene representations for identification of cancer prognostic genes, Scientific Reports, 2018.09.13., Vol.8, No.13729, pp1-10.*

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023146361A1 (ko) * 2022-01-28 2023-08-03 서울대학교병원 인공지능 기반의 바이오 마커 선별 장치 및 방법

Also Published As

Publication number Publication date
KR20210052855A (ko) 2021-05-11

Similar Documents

Publication Publication Date Title
Jafari-Marandi et al. An optimum ANN-based breast cancer diagnosis: Bridging gaps between ANN learning and decision-making goals
Sevakula et al. Transfer learning for molecular cancer classification using deep neural networks
Ali et al. An optimally configured and improved deep belief network (OCI-DBN) approach for heart disease prediction based on Ruzzo–Tompa and stacked genetic algorithm
JP6839342B2 (ja) 情報処理装置、情報処理方法およびプログラム
Azzawi et al. Lung cancer prediction from microarray data by gene expression programming
US11455523B2 (en) Risk evaluation method, computer-readable recording medium, and information processing apparatus
CN111352656A (zh) 使用按位运算的神经网络设备和方法
KR102074909B1 (ko) 소프트웨어 취약점 분류 장치 및 방법
US20220230648A1 (en) Method, system, and non-transitory computer readable record medium for speaker diarization combined with speaker identification
CN113139664A (zh) 一种跨模态的迁移学习方法
CN110738362A (zh) 一种基于改进的多元宇宙算法构建预测模型的方法
CN115699041A (zh) 利用专家模型的可扩展迁移学习
CN111079074A (zh) 一种基于改进的正弦余弦算法构建预测模型的方法
KR102309002B1 (ko) 환자별 유전자 특성에 기초하여 암의 예후 예측에 활용할 바이오 마커를 선정하는 전자 장치 및 그 동작 방법
JP7141371B2 (ja) 学習データの精練方法及び計算機システム
KR102208043B1 (ko) 심층신뢰 신경망(Deep Belief Network)과 Dempster-Shafer이론에 기반한 전립선암의 병리학적 병기 예측 시스템 및 방법
KR102188115B1 (ko) 생성적 적대 신경망을 기초로 암의 예후 예측에 사용되는 바이오 마커의 선정이 가능한 전자 장치 및 그 동작 방법
KR20240050309A (ko) 화합물의 타겟 단백질을 결정하는 방법 및 상기 방법을 수행하는 타겟 단백질 결정 장치
US20230252282A1 (en) Method, server, and system for deep metric learning per hierarchical steps of multi-labels and few-shot inference using the same
KR102371183B1 (ko) 가이드에이전트 기반의 복수의 메인에이전트 강화학습 방법을 사용한 특징 선택 방법, 컴퓨팅장치 및 컴퓨터 프로그램
US20220207368A1 (en) Embedding Normalization Method and Electronic Device Using Same
US20210174910A1 (en) Method and apparatus for generating new chemical structure using neural network
KR102273154B1 (ko) 약물에 대한 저항성 여부의 예측 모델을 생성하는 전자 장치 및 그 동작 방법
KR102289396B1 (ko) 군장비 수리부속 품목 수요예측의 고도화를 위한 강화학습 적용
JP2023518789A (ja) 人工知能モジュールを更新するためにデータセットを選択するための方法

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant