KR20200109544A - 공통 유전자 추출에 의한 다중 암 분류 방법 - Google Patents

공통 유전자 추출에 의한 다중 암 분류 방법 Download PDF

Info

Publication number
KR20200109544A
KR20200109544A KR1020190028719A KR20190028719A KR20200109544A KR 20200109544 A KR20200109544 A KR 20200109544A KR 1020190028719 A KR1020190028719 A KR 1020190028719A KR 20190028719 A KR20190028719 A KR 20190028719A KR 20200109544 A KR20200109544 A KR 20200109544A
Authority
KR
South Korea
Prior art keywords
cancer
data
genes
gene
gene expression
Prior art date
Application number
KR1020190028719A
Other languages
English (en)
Inventor
이창환
김봉현
유기진
Original Assignee
울산대학교 산학협력단
재단법인 아산사회복지재단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 울산대학교 산학협력단, 재단법인 아산사회복지재단 filed Critical 울산대학교 산학협력단
Priority to KR1020190028719A priority Critical patent/KR20200109544A/ko
Priority to PCT/KR2019/007135 priority patent/WO2020184782A1/ko
Publication of KR20200109544A publication Critical patent/KR20200109544A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/10Gene or protein expression profiling; Expression-ratio estimation or normalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Abstract

본 발명은 공통 유전자 추출에 의한 다중 암 분류 장치 및 그 방법에 대한 것이다.
본 발명에 따르면, 환자의 암 조직으로부터 생산된 집단세포 유전자 발현 데이터와 단일세포 유전자 발현 데이터를 수집하고 분석가능 한 형태로 정규화하는 데이터 전처리 모듈, 상기 집단세포 유전자 발현 데이터를 기반으로 정상조직보다 각 암 조직에서 특이적으로 발현하는 유전자를 선택하고 13종의 암에서 가장 빈발하는 유전자들로 구성된 셋(set)을 생성하는 유전자 추출모듈, 상기 정규화된 유전자 발현데이터 중에서 정상과 13종의 암에 대해 동일한 수의 샘플을 무작위로 선택하고, 선택된 샘플에 포함된 유전자의 발현량을 나열하여 학습데이터를 생성하는 학습데이터 생성모듈, 상기 정규화된 유전자 발현데이터 중에서 단일세포 데이터를 추출하고, 추출된 단일세포 데이터의 유전자 발현 평균값을 계산하여 단일세포 데이터를 집단화 형태로 변환하는 단일세포 데이터 변환 모듈, 그리고 상기 유전자들로 구성된 셋과 학습데이터를 학습시켜 신경망 모델 기반의 다중 암 분류기를 구축하는 다중 암 분류기 구축 모듈을 포함한다.

Description

공통 유전자 추출에 의한 다중 암 분류 방법{Multi-cancer classification method by common significant genes}
본 발명은 공통 유전자 추출에 의한 다중 암 분류 방법에 관한 것으로서, 더욱 상세하게는13종의 암 모두에서 유의하게 발현되는 공통 유전자를 추출하고, 공통 유전자들의 발현 패턴을 분석하여 공통 유전자 추출에 의한 다중 암 분류 방법에 관한 것이다.
현대 의료기술의 발달에 따른 노령화에 의해, 전체 사망 원인 중 암 발병이 차지하고 있는 비율은 매년 증가하고 있다. 전 세계적으로 5명 또는 6명 중 1명에게 암 (cancer)이 발병하고 남성 8명 중 또는 여성 11명 중 1명이 암에 의해 사망한다고 보고되었다 (Bray et al. 2018). 특히 한국인 사망 원인의 1위는 암 발병에 따른 사망으로, 전체 사망률의 27.8%를 차지한다.
암은 유전적 요인만이 아닌 생활습관 및 환경적인 요인 등에 의한 세포(cell) 내 유전자 (gene)의 이상으로 발생되는 질병이다. 이러한 암은 발생하는 부위에 따라 각각의 발생 원인과 과정이 다르기 때문에, 암의 종류에 따라 해당 암의 원인을 찾는 연구가 주로 이루어져 왔다.
그리고 2003년 인간 유전체 프로젝트 (human genome project)에 의해 유전체 지도가 해독되고, 차세대염기서열분석 (next generation sequencing: NGS) 기술의 급격한 성장 및 비용 하락으로 인하여, 생물학 분야 전반에서 유전체연구는 지속적으로 증가되고 보편화되었다. 그 중, 의학 분야에서는 암의 복잡한 발생 요인과 그들 간의 연관성을 규명하기 위해 대량의 암 유전체 데이터를 생산해 오고 있으며, 이러한 데이터는 예방의학 및 정밀의학분야에서 활발히 활용되고 있다.
그러나 일반적인 정상세포가 소수의 변이에 의해 갑작스럽게 암세포로 발달되는 것이 아닐 뿐만 아니라, 암과 관련된 유전자 (gene)에 위치하는 변이의 종류와 비율 등이 다양하다. 따라서 대량의 암유전체 데이터를 분석하여 각 암의 특이성뿐만 아니라 다중암들 사이의 유사성을 밝히는 연구가 필요하다. 하지만 다중암의 관계를 밝히기 위해 단순한 상호 연계분석보다는 더 복합적인 분석이 가능한 머신러닝 (machine learning) 기법을 적용하는 것이 효율적일 수 있다.
또한 일반적으로 유전자 발현 데이터는 전형적인 방법인 집단 (bulk 또는 population) RNA 시퀀싱을 통해 생산된다. 그러나 환자로부터 분리한 암의 신체조직에는 암을 유발하는 비정상 세포만 있는 것이 아니라 정상 세포도 포함되어 있다. 암이 발생한 세포의 종류도 조직의 위치에 따라 다양하고 환자와 샘플의 상태에 따라 포함된 세포들의 비율도 다르며, 각 세포의 특성에 따라 유전자 발현 양상도 다양하다. 정상세포와 여러 종류의 암세포들의 전체 평균 발현량으로 구성된 일반 유전자 발현정보를 기반으로 개발된 치료약물에 대해 각각의 환자의 반응과 예후가 다를 수 있다. 이러한 한계를 극복하기 위하여 근래에는 집단이 아닌 단일세포 RNA 시퀀싱을 통해 더 정밀한 분석을 실행하고 있지만 고비용의 실험 방법이기 때문에 데이터 생산에 제약이 있다.
본 발명은 다양한 암 종류의 단일세포 유전자 발현 데이터가 부족한 문제를 해결하고 다중 암을 분류하기 위해 단일세포 데이터의 변환하는 방법 및 집단세포 데이터 기반 특이적으로 발현하는 유전자 추출 및 다중암 분류 장치를 제시한다.
본 발명의 배경이 되는 기술은 대한민국 공개특허공보 제10-2018-0072642호(2018.06.29. 공개)에 개시되어 있다.
본 발명이 이루고자 하는 기술적 과제는, 단일세포 데이터를 분류가능한 형태로 변환하는 방법을 제공하고, 13종의 암 모두에서 유의하게 발현되는 공통 유전자 검색하고, 검색된 유전자의 발현 패턴 정보를 기반으로 공통 유전자 추출에 의한 다중 암 분류 방법을 제공하는데 목적이 있다.
이러한 기술적 과제를 이루기 위한 본 발명의 실시예에 따르면, 공통 유전자 추출에 의한 다중 암 분류 장치에 있어서, 환자의 암 조직으로부터 생산된 집단세포와 단일세포에 포함된 유전자의 발현 데이터를 수집하고 분석가능 한 형태로 정규화하는 데이터 전처리 모듈, 상기 집단세포 유전자 발현 데이터를 기반으로 정상조직보다 각 암 조직에서 특이적으로 발현하는 유전자를 선택하고 13종의 암에서 가장 빈발하는 유전자들로 구성된 셋(set)을 생성하는 유전자 추출모듈, 상기 정규화된 유전자 발현데이터 중에서 정상과 13종의 암에 대해 동일한 수의 샘플을 무작위로 선택하고, 선택된 샘플에 포함된 유전자의 발현량을 나열하여 학습데이터를 생성하는 학습데이터 생성모듈, 상기 정규화된 유전자 발현데이터 중에서 단일세포 데이터를 추출하고, 추출된 단일세포 데이터의 유전자 발현 평균값을 계산하여 단일세포 데이터를 집단화 형태로 변환하는 단일세포 데이터 변환 모듈, 그리고 상기 유전자들로 구성된 셋과 학습데이터를 학습시켜 신경망 모델 기반의 다중 암 분류기를 구축하는 다중 암 분류기 구축 모듈을 포함한다.
상기 데이터 전처리 모듈은, 상기 집단세포 유전자 발현 데이터에 포함된 정상 조직 유전자와 암 조직 유전자들 사이의 발현량을 상대적으로 비교하여 데이터를 정규화할 수 있다.
상기 유전자 추출모듈은, 암 13종의 모든 유전자에 대해 정상조직과 발현 이질성을 가지는 유전자를 분산 분석 (analysis of variance)을 통해 추출하고, 분산 분석된 암 유전자 발현 데이터와 정상 데이터를 비교하여 암 조직에서 유의하게 발현하는 유전자를 선택한 다음, 상기 유의한 유전자의 빈발 횟수를 산출하여 13종 암의 공통 유전자들로 구성된 유전자 셋을 생성할 수 있다.
상기 유의한 유전자는, 정상 조직보다 암 조직에서 특이적으로 많거나 적게 발현하는 유전자를 의미할 수 있다.
상기 단일세포 데이터 변환 모듈은. 각 암 종류마다 동일한 개수의 단일세포를 무작위로 추출하고, 추출된 단일 세포에 포함된 복수의 유전자에 대한 발현량을 합산하여 평균값을 산출하는 과정을 여러 번 반복하여 집단화 단일세포 데이터로 변환할 수 있다.
상기 다중 암 분류기 구축 모듈은, 신경망 모델의 노드와 레이어의 개수를 설정한 다음, 상기 유전자들로 구성된 셋과 학습데이터를 학습시켜 다중 암 분류기를 구축하고, 구축된 다중 암 분류기에 입력된 집단화 단일세포 데이터로부터 암을 분류하고 예측할 수 있다.
또한, 본 발명의 실시예에 따르면, 다중암 분류 장치를 이용하여 다중 암을 분류하는 방법에 있어서, 환자의 암 조직으로부터 생산된 집단세포 유전자 발현 데이터와 단일세포 유전자 발현 데이터를 수집하고 분석가능 한 형태로 정규화하는 단계, 상기 집단세포 유전자 발현 데이터를 기반으로 정상조직보다 각 암 조직에서 특이적으로 발현하는 유전자를 선택하고 13종의 암에서 가장 빈발하는 유전자들로 구성된 셋(set)을 생성하는 단계, 상기 정규화된 유전자 발현데이터 중에서 정상과 13종의 암에 대해 동일한 수의 샘플을 무작위로 선택하고, 선택된 샘플에 포함된 유전자의 발현 데이터로 구성된 학습데이터를 생성하는 단계, 그리고 상기 유전자들로 구성된 셋과 학습데이터를 학습시켜 신경망 모델 기반의 다중 암 분류기를 구축하는 단계를 포함한다.
이와 같이 본 발명에 따르면, 공통 유전자 추출에 의한 다중 암 분류 장치는 고비용의 실험을 요구하는 단일세포 데이터 부족문제를 극복하고, 조직 또는 환자별 유전자 발현 특성을 반영하여 단일세포 데이터의 다중 암을 분류할 수 있다.
또한, 본 발명에 따르면, 공통 유전자 추출에 의한 다중 암 분류 장치는 분산 분석 (analysis of variance)을 통해 암 13종으로부터 정상 데이터와 뚜렷한 발현 이질성을 가지는 유전자를 추출하고, 그 유전자들을 조합하여 다중 암을 정확하게 분류할 수 있다.
또한, 본 발명에 따르면, 공통 유전자 추출에 의한 다중 암 분류 장치는 암세포 생성과정에 중요한 역할을 하는 세포 분열과 기능적으로 관련된 유전자들을 추출하고 그들의 발현량을 가시화하여, 13종 암 샘플의 유전자 발현량이 정상 샘플보다 크고 그 발현 레벨이 각 13종 암에 따라 서로 다른 것을 증명하였다. 단일 암이 아닌 다중 암을 타겟으로 치료할 수 있는 약물 개발에 도움이 될 수 있고, 이들의 분석 결과 또는 치료 결과를 서로 다른 암이나 희귀질병에 응용될 수 있다.
또한, 본 발명에 따르면, 공통 유전자 추출에 의한 다중 암 분류 장치는 액체생검(liquid biopsy)으로 환자의 혈액에 존재하는 순환종양세포 (circulating tumor cells)의 유전자 발현 정보를 통해 암을 진단함으로써, 종래의 조직생검 (tissue biopsy)으로 인해 암의 발생 위치 및 상태에 따라 조직을 추출하는데 있어서의 위험부담과 전이된 암의 예측과 암 치료의 예후를 모니터링하지 못하는 문제점을 해결하고, 암 진단 키트 개발 및 상용화를 도모할 수 있다.
도 1은 본 발명의 실시예에 따른 다중 암 분류 장치를 개략적으로 도시한 구성도이다.
도 2는 본 발명의 실시예에 따른 다중 암을 분류하는 방법을 나타내는 순서도이다.
도 3은 도 2에 도시된 S220단계를 개략적으로 도시한 순서도이다.
도 4는 유전자 추출 모듈에서 300개의 유의한 유전자를 추출하는 과정을 개략적으로 도시한 도면이다.
도 5는 도 2에 도시된 S230단계를 개략적으로 도시한 순서도이다.
도 6은 도 5에 도시된 S232단계에서 추출된 14개 클래스에 대한 샘플 수를 개략적으로 도시한 도면이다.
도 7은 도 5에 도시된 S233단계에서 생성된 학습데이터셋을 개략적으로 도시한 도면이다.
도 8은 본 발명의 실시예에 따른 다중 암을 분류하는 방법에 있어서 단일세포 데이터를 집단세포 데이터의 형태로 변환하는 방법을 개략적으로 나타내는 순서도이다.
도 9는 도8에 도시된 S820 단계 내지 S840단계에 따라 생성되는 데이터를 개략적으로 도시한 도면이다.
도 10은 도 8에 도시된 S840단계에서 생성된 집단화 단일세포 데이터를 신경망 다중 암 분류기에 입력하였을 경우 암을 분류하는 정확도를 나타내는 그래프이다.
이하 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다. 이 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.
또한 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서, 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
이하에서는 도1을 이용하여 본 발명의 실시예에 따른 다중 암 분류 장치(100)를 더욱 상세하게 설명한다.
도 1은 본 발명의 실시예에 따른 다중 암 분류 장치를 개략적으로 도시한 구성도이다.
도 1에 도시된 바와 같이, 다중 암 분류 장치(100)는 데이터 전처리 모듈(110), 유전자 추출모듈(120), 학습데이터 생성 모듈(130), 단일세포 데이터 변환 모듈(140) 및 다중 암 분류기 구축 모듈(150)을 포함한다.
먼저, 데이터 전처리 모듈(110)은 환자의 신체로부터 분리된 암 조직에 포함된 집단(bulk)세포와 단일세포에 대한 데이터를 수집한다. 이때, 집단(bulk) 세포는 정상 셀과 종양 셀을 포함한다. 본 발명의 실시예에 따른 다중 암 분류 장치(100)는 유전자의 발현량을 분석하여 다중암을 분류하는 것을 목적으로 한다. 따라서, 데이터 전처리 모듈(110)은 각 환자 또는 조직에 따라 유전자의 발현 레벨이 다르기 때문에 샘플 내 유전자들 사이의 발현량을 상대적으로 비교하여 데이터를 정규화한다. 그 다음, 데이터 전처리 모듈(110)은 정규화한 데이터를 유전자 추출모듈(120) 및 학습데이터 생성 모듈(130)에 전달한다.
유전자 추출모듈(120)은 전달받은 집단(bulk) 세포에 대한 데이터로부터 집단(bulk) RNA 시퀀싱 데이터를 산출하여 유전자 셋을 생성한다. 부연하자면, 유전자 추출모듈(120)은 데이터 전처리 모듈(110)로부터 전달받은 암 13종의 모든 유전자를 이용하여 정상조직과 발현 이질성을 가지는 유전자를 분산 분석 (analysis of variance)한다. 그리고, 유전자 추출모듈(120)은 분산 분석하여 추출된 암 유전자 발현 데이터를 정상 데이터와 비교하여 암 조직에서 유의하게 발현하는 유전자를 선택한다. 그 다음, 유전자 추출모듈(120)은 유의한 유전자의 빈발 횟수를 산출하여 13종 암의 공통 유전자들로 구성된 유전자 셋을 생성한다.
이때, 유의한 유전자는 각 암과 정상 조직의 발현량을 비교하였을 때, 정상 조직보다 암 조직에서 특이적으로 많거나 적게 발현하는 유전자를 의미한다
따라서, 유전자 추출모듈(120)은 암 종류에 따라 유의한 300개의 유전자에 대한 데이터를 획득한다. 즉, 유전자 추출모듈(120)은 각각의 암 조직에 포함된 복수의 유전자에 대한 데이터를 수신하고, 수신된 복수의 유전자의 발형량을 분석하여 13종의 암 조직마다 유의한 300개의 유전자만 추출한다.
그 다음, 유전자 추출모듈(120)은 13종의 암 조직으로부터 각각 추출된 300개의 유의한 유전자들의 추출된 횟수를 계산하여 빈발도가 높은 300개의 유전자가 포함된 유전자 셋(Gene Set)를 생성한다.
학습데이터 생성 모듈(130)은 정상 조직과 13종의 암 조직에 대해 동일한 수의 샘플을 무작위로 선택하고, 선택된 샘플들의 유전자 발현 데이터를 이용하여 학습데이터를 생성한다.
학습데이터 생성 모듈(130)은 다중 암 분류기를 통해 암을 분류할 경우. 과적합을 발생시키는 데이터 불균형 문제를 해결하기 위하여 무작위로 추출한 300개의 샘플을 이용하여 학습 데이터를 생성한다.
이를 상세하게 설명하면, 먼저 학습데이터 생성 모듈(130)은 TCGA(The Cancer Genome Atlas) 데이터베이스에서 13종의 암 조직에 대한 데이터와 21종의 정상 세포에 대한 데이터를 획득한다. 그 다음, 학습데이터 생성 모듈(130)은 획득한 데이터 중에서 각각의 암 종류마다 무작위로 선택된 300명의 집단(bulk) 세포 데이터를 추출한다. 즉, 학습데이터 생성 모듈(130)은 총 4,200명으로부터 집단(bulk) 세포 데이터를 추출한다. 그리고 학습데이터 생성 모듈(130)은 추출된 집단(bulk) 세포 데이터를 이용하여 유전자의 RNA 시퀀스 발현량이 포함된 학습데이터를 생성한다.
단일세포 데이터 변환 모듈(140)은 단일세포 데이터의 유전자 발현 평균값을 계산하여 단일세포 데이터를 집단화 형태로 변환한다. 본 발명의 실시예에 따른 다중 암 분류기는 학습데이터 생성 모듈(130)에서 생성한 학습데이터를 이용하여 학습된다. 이때, 학습데이터는 집단(bulk) 세포 데이터로 구성된다. 따라서, 단일세포 데이터 변환 모듈(140)은 단일세포 데이터를 집단세포 형태로 변환하여 다중 암 분류기에 제공함으로써, 집단세포 데이터로 학습된 다중 암 분류기로 하여금 단일세포 데이터의 암을 예측하게 한다.
다중 암 분류기 구축 모듈(150)은 유전자 추출모듈(120)과 학습데이터 생성 모듈(130)에서 생성된 각각의 데이터셋을 전달받는다. 그리고 다중 암 분류기 구축 모듈(150)은 전달받은 각각의 데이터셋을 이용하여 다중 암 분류기를 학습시킨다. 그 다음 다중 암 분류기 구축 모듈(150)은 임의로 입력받은 집단화 형태로 변환된 단일세포(single cell)의 RNA-시퀀스 데이터를 클래스에 따라 분류하여 암종류를 예측한다.
이하에서는 도 2를 이용하여 본 발명의 실시예에 따른 다중 암을 분류하는 방법에 대한 더욱 상세하게 설명한다.
도 2는 본 발명의 실시예에 따른 다중 암을 분류하는 방법을 나타내는 순서도이다.
도 2에 도시된 바와 같이, 먼저, 다중 암 분류 장치(100)에 포함된 데이터 전처리 모듈(110)은 TCGA 데이터베이스로부터 집단(bulk) 세포 유전자 발현 데이터를 획득하고, GEO(Gene Expression Omnibus)로부터 단일(single) 세포 유전자 발현 데이터를 획득한다. 그 다음 데이터 전처리 모듈(110)은 획득한 집단(bulk) 세포와 단일(single) 세포 유전자 발현 데이터를 전처리한다(S210).
이를 다시 설명하면, 데이터 전처리 모듈(110)은 TCGA 데이터베이스로부터 모든 암 조직에 대한 데이터를 수신한다. 그리고 데이터 전처리 모듈(110)은 각 암 조직 또는 정상 조직에 따라 유전자의 발현 레벨이 다르므로 샘플 내 유전자들 사이의 발현량을 상대적으로 비교하여 데이터를 정규화하고, 14개 클래스 데이터를 추출하여 하나의 파일로 통합한다. 여기서 14개 클래스는 13종류의 암 조직에 관한 데이터와 정상 조직에 대한 데이터를 포함한다.
또한, 데이터 전처리 모듈(110)은 GEO (Gene Expression Omnibus)로부터 유방암과 흑색종 단일세포 데이터를 수신한다. 그리고 데이터 전처리 모듈(110)은 유방암과 흑색종 환자들로부터 추출한 유방암 세포, 흑색종 세포, 그리고 정상 세포들을 3개의 클래스로 나눈 다음, 3개의 클래스로 구성된 테스트데이터를 생성하고 정규화한다.
그리고 데이터 전처리 모듈(110)은 획득된 14개의 클래스 데이터 중에서 정상 조직 데이터를 추출한다. 이때, 정상 조직 데이터는 각 13종의 암 조직에 대한 유전자 발현 차이를 비교하기 위한 것이다.
그 다음, 데이터 전처리 모듈(110)은 획득한 14개의 클래스에 대한 집단(bulk) 세포 유전자 발현 데이터를 유전자 추출모듈(120) 및 학습데이터 생성 모듈(130)에 각각 전달한다.
유전자 추출모듈(120)은 전달받은 14개의 클래스에 대한 데이터를 이용하여 발현량의 차이가 큰 유전자를 분석하여 유전자 셋을 생성한다(S220).
부연하자면, 전체의 유전자를 이용하여 분류모델을 실행할 경우 계산 시간을 상당히 낭비하고 때로는 학습이 전혀 되지 않는 경우가 발생되므로, 유전자 추출모듈(120)은 14개 클래스 간 발현 차이가 없거나 작은 유전자는 필터링하여 제거한다. 그 다음, 유전자 추출모듈(120)은 정상 조직 데이터와 각각의 암 조직 데이터를 비교하여 정상 조직에 비해 암 조직에서 특이적으로 많거나 적게 발현하는 유의한 유전자를 300개 추출한다.
그리고, 유전자 추출모듈(120)은 추출된 유의한 유전자들 중에 빈발도가 높은 300개의 유전자를 선택하여 유전자 셋을 생성한다.
그 다음 학습데이터 생성 모듈(130)은 전달받은 14개의 클래스에 대한 데이터를 이용하여 각각의 클래스마다 무작위로 300개의 샘플을 추출한다. 학습데이터 생성 모듈(130)은 추출된 샘플에 포함된 정상과 13종의 유전자의 발현 데이터를 이용하여 학습 데이터셋을 생성한다(S230).
상기 S220단계와 S230단계를 통해 생성된 각각의 데이터셋은 다중 암 분류기 구축 모듈(150)에 전달된다.
다중 암 분류기 구축 모듈(150)은 전달받은 각각의 데이터셋으로 다중 암 분류기를 학습하여 구축한다(S240).
다중 암 분류기가 구축된 다음에, 다중 암 분류기 구축 모듈(150)은 집단(bluk) 형태의 단일세포(single cell) 데이터를 입력받는다. 그 다음, 다중 암 분류기 구축 모듈(150)은 구축된 신경망 다중 암 분류기를 통해 단일세포 데이터의 암을 예측한다(S250).
즉, 구축된 신경망 다중 암 분류모델은 데이터셋을 통해 13종의 암 모두에서 유의하게 발현되는 공통 유전자를 검색하고, 검색된 공통 유전자의 발현 패턴에 따라 다중 암을 분류하고 예측한다.
이하에서는 도 3 및 도 4를 이용하여 S220단계에 대하여 더욱 상세하게 설명한다.
도 3은 도 2에 도시된 S220단계를 개략적으로 도시한 순서도이고, 도 4는 유전자 추출모듈에서 300개의 유의한 유전자를 추출하는 과정을 개략적으로 도시한 도면이다.
도 3에 도시된 바와 같이, 먼저, 유전자 추출모듈(120)은 데이터 전처리 모듈(110)로부터 14개의 클래스에 대한 데이터를 전달받는다(S221).
그 다음, 유전자 추출모듈(120)은 전달받은 14개의 클래스에 대한 데이터를 이용하여 13종의 암조직에 대해 정상조직과 발현 이질성을 가지는 유전자를 분산 분석 (analysis of variance)한다.
그리고, 유전자 추출모듈(120)은 복수의 유전자 중에서 분산 분석 (analysis of variance)을 통해 추출된 유의한 유전자만을 선택한다(S222).
부연하자면, 전체 유전자를 이용하여 신경망 다중 암 분류기를 구축할 경우, 신경망 다중 암 분류기는 암을 분류하는데 시간을 상당히 낭비하게 되거나, 때로는 학습이 전혀 되지 않는 경우를 발생시킨다. 따라서, 유전자 추출모듈(120)은 14개 클래스 간 발현 차이가 없거나 작은 유전자는 필터링하여 제거한다.
그리고, 유전자 추출모듈(120)은 암 유전자 발현 데이터를 정상 데이터와 비교하여 정상 데이터보다 암 유전자 발현 데이터에서 특이적으로 많게 또는 적게 발현되는 유의한 유전자를 각 암 종류마다 대략 300개씩 추출한다. 그 다음, 유전자 추출모듈(120)은 각 암 종류마다 추출된 300개의 유의한 유전자에 대한 빈발도 (frequency)를 계산한다(S223).
빈발도에 대한 계산이 완료되면, 도 4에 도시된 바와 같이, 유전자 추출모듈(120)은 빈발 횟수가 많은 유의한 유전자 300개로 구성된 유전자 셋을 생성한다(S224).
그리고, 유전자 추출모듈(120)은 생성된 유전자 셋을 다중 암 분류기 구축모듈(150)에 전달하고, 다중 암 분류기 구축 모듈(150)은 전달받은 유전자셋을 다중 암 분류기에 입력하여 학습시킨다.
이하에서는 도 5 내지 도 7을 이용하여 S230단계에 대해 더욱 상세하게 설명한다.
도 5는 도 2에 도시된 S230단계를 개략적으로 도시한 순서도이고, 도 6은 도 5에 도시된 S232단계에서 추출된 14개 클래스에 대한 샘플 수를 개략적으로 도시한 도면이고, 도 7은 도 5에 도시된 S233단계에서 생성된 학습 데이터셋을 개략적으로 도시한 도면이다.
도 5에 도시된 바와 같이, 학습데이터 생성 모듈(130)은 데이터 전처리 모듈(110)로부터 TCGA에서 제공하는 유전자 발현 데이터를 전달받는다(S231).
본 발명의 따른 다중 암 분류 장치(100)는 TCGA로부터 수신된 전체 RNA-시퀀스 데이터를 기반으로 신경망 다중 암 분류기를 구축할 경우, 데이터 불균형으로 인해 과적합을 발생시킬 수 있다. 따라서, 학습데이터 생성 모듈(130)은 전달받은 유전자 발현 데이터 중에서 300명 이하의 환자수를 가지는 암 종류를 대상에서 제외한다.
또한, 결장암 (colon adenocarcinoma: COAD)과 직장암 (rectum adenocarcinoma : READ)을 통합한 대장암 (COADREAD), 혐색소성신세포암 (kidney chromophobe : KICH)과 투명세포암 (kidney renal clear cell carcinoma : KIRC), 유두상형 세포암 (kidney renal papillary cell carcinoma : KIRP)을 종합한 신장암 (KIPAN), 저등급 교종 (brain lower grade glioma : LGG)와 교모세종 (glioblastoma multiforme : GBM)의 뇌종양(GBMLGG), 그리고 위암 (stomach adenocarcinoma : STAD)와 식도암(ESCA)의 위-식도암 (STES)과 같이, 발생한 인체조직을 기준으로 두 개 이상의 암 종류를 통합한 암의 데이터는 대상 샘플이 중복되기 때문에 마찬가지로 대상에서 제외된다.
그 다음, 학습데이터 생성 모듈(130)은 TCGA에서 제공하는 RNA-시퀀스 데이터를 이용하여 300명 이상의 환자 데이터를 가지는 13종 암 클래스와 정상 클래스에 대한 데이터를 추출한다(S232).
도 6에 도시된 바와 같이, 13종 암 클래스는 요로상피세포암종(BLCA), 유방암종(BRCA), 자궁암(CESC), 머리 및 목 편평 세포 암종(HNSC), 신장세포암종(KIRC), 뇌하층 혈종 (LGG), 간세포암(LIHC), 폐부종(LUAD), 폐 편평 세포암(LUSC), 난소 혈청 낭종(OV), 전립선종(PRAD), 피부색종(SKCM), 및 위경막종(STAD)을 포함한다.
이때, 정상 클래스는 정상 조직을 포함하는 TCGA 21종 암 환자에서 추출한 640명의 정상 데이터로 구성된다.
따라서, 학습데이터 생성 모듈(130)은 300명 이상의 환자 데이터를 가지는 13종 암 클래스와 정상 클래스로 구성되고 전체 7,123 샘플을 획득한다.
그 다음, 학습데이터 생성 모듈(130)은 정상과 13종의 암에 대해 동일한 수의 샘플을 무작위로 선택하고, 선택된 샘플의 유전자 발현데이터를 이용하여 학습 데이터셋을 생성한다(S233).
부연하자면, 학습데이터 생성 모듈(130)은 정상 조직과 13종의 암조직으로부터 무작위로 300개의 샘플을 추출한다. 그리고, 학습데이터 생성 모듈(130)은 정상과 13종 암마다 추출된 300개의 샘플에 포함된 유전자 발현 데이터를 이용하여 학습 데이터셋을 생성한다.
도 7에 도시된 바와 같이, 생성된 학습 데이터셋은 다중 암 분류기에 입력하기 위한 것으로 테이블 형태로 형성된다. 먼저, 가로줄은 14종의 클래스에 공통적으로 포함되며 발현량이 발생된 유의한 유전자 300개에 대한 정보를 포함하고, 세로줄은 14종의 클래스에서 각각 추출된 300개의 샘플에 대한 정보를 포함한다.
본원 발명의 실시예에 따른 다중 암 분류기 구축 모듈(150)은 집단 세포 데이터셋을 학습하여 다중암 분류기를 구축한다. 그리고 다중암 분류기는 입력받은 집단화 형태의 단일세포 데이터를 통해 암을 분류한다.
이를 더욱 상세하게 설명하면, 다중 암 분류기 구축 모듈(150)은 유전자 추출모듈(120)에서 생성된 유전자 셋과 학습데이터 생성 모듈(130)에서 생성된 학습 데이터셋을 이용하여 신경망 다중 암 분류기를 구축한다.
그리고, 구축된 신경망 다중 암 분류기는 단일세포 데이터 변환 모듈이 생성한 집단화 단일세포 데이터를 입력받고, 입력된 데이터를 이용하여 암 종류를 예측하고 분류한다.
이때, 집단 세포 유전자 발현 데이터는 암 조직에 분포하는 모든 세포의 유전자 발현량을 측정하는 데이터이다. 환자로부터 분리한 암 조직에는 다양한 종류의 암세포들과 정상세포가 동시에 포함될 수 있으므로, 다중 암 분류기는 집단 세포 데이터를 통해 추출된 평균 유전자 발현양을 기반으로 하여 유전자를 분석한다.
그러나, 집단 세포 유전자 발현 데이터를 이용하여 유전자를 분석할 경우 어느 정도의 오차를 포함할 수 있으므로 본 발명의 실시예에 따른 다중 암 분류 장치(100)는 집단 세포 발현 데이터뿐만 아니라 단일세포 유전자 발현 데이터에 대한 클래스를 분류하여 암을 예측하는 정확성을 높일 수 있도록 한다.
다만, 단일세포 유전자 발현 데이터는 동일한 암세포라고 하더라도 세포의 종류가 다를 수 있고 세포 간의 유전자 발현 차이가 크기 때문에 최종 분류 성능은 대략 40%정도에서 그치는 문제점이 있었다.
따라서, 본 발명의 실시예에 따른 다중 암 분류 장치(100)는 단일세포의 분류성능을 향상시키기 위해, 단일세포 데이터 변환 모듈(140)을 이용하여 단일세포 데이터를 집단세포 데이터의 형태로 변환한다.
이하에서는 도 8 및 도 9를 이용하여 단일세포 데이터를 집단세포 데이터의 형태로 변환하는 방법에 대해 더욱 상세하게 설명한다.
도 8은 본 발명의 실시예에 따른 유전자 추출 방법에 있어서 단일세포 데이터를 집단세포 데이터의 형태로 변환하는 방법을 개략적으로 나타내는 순서도이고, 도 9는 도8에 도시된 S820 단계 내지 S840단계에 따라 생성되는 데이터를 개략적으로 도시한 도면이다.
먼저, 단일세포 데이터 변환 모듈(140)은 데이터 전처리 모듈(110)로부터 3개의 클래스에 대한 단일세포 데이터를 전달받는다(S810).
단일세포 데이터 변환 모듈(140)은 전달받은 3개의 클래스에 대한 데이터 중에서 각 클래스마다 무작위로 200개의 세포를 추출한다(S820).
도 9에 도시된 바와 같이, 예를 들어, 단일세포 데이터 변환 모듈(140)이 데이터 전처리 모듈(110)로부터 수신된 3개의 클래스 중 첫번째 클래스가 유방암에 대한 것이고, 유방암 환자로부터 얻을 수 있는 세포수가 317개라고 가정한다. 그러면, 단일세포 데이터 변환 모듈(140)은 317개의 세포에서 임의로 200개의 세포를 추출하고, 추출된 200개의 세포마다 포함된 300개의 유의한 유전자에 대한 발현량을 획득한다.
그 다음, 단일세포 데이터 변환 모듈(140)은 300개의 유의한 유전자마다 획득한 발현량의 평균값을 계산한다(S830).
단일세포 데이터 변환 모듈(140)은 상기 S820단계와 S830단계를 200번 반복한다(S831).
200번의 반복적인 발현량의 평균값 산출이 완료되면, 단일세포 데이터 변환 모듈(140)은 산출된 발현량 평균 데이터를 이용하여 집단화 단일세포 데이터를 생성한다(S840).
하기에서는 도 10을 이용하여 단일세포 데이터 변환 모듈(140)이 추출하는 각 클래스의 세포수와, 반복하여 생성되는 데이터셋을 각각 200번으로 한정하는 이유에 대하여 더욱 상세하게 설명한다.
도 10은 도 8에 도시된 S840단계에서 생성된 집단화 단일세포 데이터를 다중 암 분류기에 입력하였을 경우 암을 분류하는 정확도를 나타내는 그래프이다.
도 10에 도시된 바와 같이, 단일세포 데이터 변환 모듈(140)은 각 클래스의 세포를 1/5/10/20/30/40/50/100/150/200/250/300개씩 임의 추출하여 유전자 발현량의 평균값을 계산하고, 이 작업을 100/200/300번 반복하여 36개 데이터 셋을 생성한다. 그리고 단일세포 데이터 변환 모듈(140)은 36개의 변환된 단일세포 데이터 셋을 신경망 모델에 적용한 실험결과를 획득하였다.
그 결과, 많은 세포를 이용하여 평균값을 계산한 데이터일수록 분류 모델이 더 정확한 분류를 실행하는 것을 알 수 있었으나, 여러 개의 평균값을 생성하는 반복횟수는 분류 모델의 성능과 무관함을 알 수 있었다.
따라서, 단일세포 데이터 변환 모듈(140)은 도출된 결과에 따라 200개 세포를 랜덤하게 추출하여 유전자 발현 평균값을 계산하는 작업을 200번 반복하여 단일 세포 데이터를 집단화 단일세포 데이터로 변환한다.
본 발명의 실시예에 따른 공통 유전자 추출에 의한 다중 암 분류 장치는 공통 유전자 추출에 의한 다중 암 분류 장치는 고비용의 실험을 요구하는 단일세포 데이터 부족문제를 극복하고, 조직 또는 환자별 유전자 발현 특성을 반영하여 단일세포 데이터의 다중 암을 분류할 수 있다.
또한, 본 발명의 실시예에 따른 공통 유전자 추출에 의한 다중 암 분류 장치는 분산 분석 (analysis of variance)을 통해 암 13종으로부터 정상 데이터와 뚜렷한 발현 이질성을 가지는 유전자를 추출하고, 그 유전자들을 조합하여 다중암을 분류할 수 있다.
또한, 본 발명의 실시예에 따른 공통 유전자 추출에 의한 다중 암 분류 장치는 암세포의 세포 분열과 관련된 유전자들의 발현량을 가시화하여, 13종 암 샘플의 유전자 발현량이 정상 샘플보다 크고 그 발현 레벨이 각 13종 암에 따라 서로 다른 것을 증명함으로써, 단일 암이 아닌 다중 암을 타겟으로 치료할 수 있는 약물 개발에 도움이 될 수 있고, 이들의 분석 결과 또는 치료 결과를 서로 다른 암이나 희귀질병에 응용될 수 있다.
또한, 본 발명의 실시예에 따른 공통 유전자 추출에 의한 다중 암 분류 장치는 액체생검(liquid biopsy)으로 환자의 혈액에 존재하는 순환종양세포 (circulating tumor cells)의 유전자 발현 정보를 통해 암을 진단함으로써, 종래의 조직생검 (tissue biopsy)으로 인해 암의 발생 위치 및 상태에 따라 조직을 추출하는데 있어서의 위험부담과 전이된 암의 예측과 암 치료의 예후를 모니터링하지 못하는 문제점을 해결하고, 암 진단 키트 개발 및 상용화를 도모할 수 있다.
본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나 이는 예시적인 것에 불과하며, 당해 기술이 속하는 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호범위는 아래의 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.
100 : 유전자 추출 장치 110 : 데이터 전처리 모듈
120 : 유전자 추출모듈 130 : 학습데이터 생성 모듈
140 : 단일세포 데이터 변환 모듈 150 : 다중 암 분류기 구축 모듈

Claims (13)

  1. 공통 유전자 추출에 의한 다중 암 분류 장치에 있어서,
    환자의 암 조직으로부터 생산된 집단세포와 단일세포에 포한된 유전자의 발현 데이터를 수집하고 분석가능 한 형태로 정규화하는 데이터 전처리 모듈,
    상기 집단세포 유전자 발현 데이터를 기반으로 정상조직보다 각 암 조직에서 특이적으로 발현하는 유전자를 선택하고 13종의 암에서 가장 빈발하는 유전자들로 구성된 셋(set)을 생성하는 유전자 추출모듈,
    상기 정규화된 유전자 발현데이터 중에서 정상과 13종의 암에 대해 동일한 수의 샘플을 무작위로 선택하고, 선택된 샘플에 포함된 유전자의 발현량을 나열하여 학습데이터를 생성하는 학습데이터 생성모듈,
    상기 정규화된 유전자 발현데이터 중에서 단일세포 데이터를 추출하고, 추출된 단일세포 데이터의 유전자 발현 평균값을 계산하여 단일세포 데이터를 집단화 형태로 변환하는 단일세포 데이터 변환 모듈, 그리고
    상기 유전자들로 구성된 셋과 학습데이터를 학습시켜 신경망 모델 기반의 다중 암 분류기를 구축하는 다중 암 분류기 구축 모듈을 포함하는 다중 암 분류 장치.
  2. 제1항에 있어서,
    상기 데이터 전처리 모듈은,
    상기 집단세포 유전자 발현 데이터에 포함된 정상 조직 유전자와 암 조직 유전자들 사이의 발현량을 상대적으로 비교하여 데이터를 정규화하는 다중 암 분류 장치.
  3. 제1항에 있어서,
    상기 유전자 추출모듈은,
    암 13종의 모든 유전자에 대해 정상조직과 발현 이질성을 가지는 유전자를 분산 분석 (analysis of variance)을 통해 추출하고, 분산 분석된 암 유전자 발현 데이터와 정상 데이터를 비교하여 암 조직에서 유의하게 발현하는 유전자를 선택한 다음, 상기 유의한 유전자의 빈발 횟수를 산출하여 13종 암의 공통 유전자들로 구성된 유전자 셋을 생성하는 다중 암 분류 장치.
  4. 제3항에 있어서,
    상기 유의한 유전자는,
    정상 조직보다 암 조직에서 특이적으로 많거나 적게 발현하는 유전자를 의미 하는 다중 암 분류 장치.
  5. 제1항에 있어서,
    상기 단일세포 데이터 변환 모듈은.
    3개의 클래스마다 동일한 개수의 단일세포를 무작위로 추출하고, 추출된 단일 세포에 포함된 복수의 유전자에 대한 발현량을 합산하여 평균값을 산출하는 과정을 여러 번 반복하여 집단화 단일세포 데이터로 변환하는 다중 암 분류 장치.
  6. 제1항에 있어서,
    상기 다중 암 분류기 구축 모듈은,
    신경망 모델의 노드와 레이어의 개수를 설정한 다음, 상기 유전자들로 구성된 셋과 학습데이터를 학습시켜 다중 암 분류기를 구축하고, 구축된 다중 암 분류기에 입력된 집단화 단일세포 데이터로부터 암을 분류하고 예측하는 다중암 분류 장치.
  7. 다중암 분류 장치를 이용하여 다중 암을 분류하는 방법에 있어서,
    환자의 암 조직으로부터 생산된 집단세포 유전자 발현 데이터와 단일세포 유전자 발현 데이터를 수집하고 분석가능 한 형태로 정규화하는 단계,
    상기 집단세포 유전자 발현 데이터를 기반으로 정상조직보다 각 암 조직에서 특이적으로 발현하는 유전자를 선택하고 13종의 암에서 가장 빈발하는 유전자들로 구성된 셋(set)을 생성하는 단계,
    상기 정규화된 유전자 발현데이터 중에서 정상과 13종의 암에 대해 동일한 수의 샘플을 무작위로 선택하고, 선택된 샘플에 포함된 유전자의 발현 데이터로 구성된 학습데이터를 생성하는 단계, 그리고
    상기 유전자들로 구성된 셋과 학습데이터를 학습시켜 신경망 모델 기반의 다중 암 분류기를 구축하는 단계를 포함하는 다중 암 분류 방법.
  8. 제7항에 있어서,
    상기 정규화된 유전자 발현데이터 중에서 단일세포 데이터를 추출하고, 추출된 단일세포 데이터의 유전자 발현 평균값을 계산하여 단일세포 데이터를 집단화 형태로 변환하고, 변환된 집단화 단일 세포 데이터를 다중 암 분류기에 입력하여 다중 암 분류기를 검증하는 단계를 더 포함하는 다중 암 분류 방법.
  9. 제7항에 있어서,
    상기 정규화하는 단계는,
    상기 집단세포 유전자 발현 데이터에 포함된 정상 조직 유전자와 암 조직 유전자들 사이의 발현량을 상대적으로 비교하여 데이터를 정규화하는 다중 암 분류 방법.
  10. 제7항에 있어서,
    상기 유전자들로 구성된 셋(set)을 생성하는 단계는,
    암 13종의 모든 유전자에 대해 정상조직과 발현 이질성을 가지는 유전자를 분산 분석 (analysis of variance)을 통해 추출하는 단계,
    상기 분산 분석된 암 유전자 발현 데이터와 정상 데이터를 비교하여 암 조직에서 유의하게 발현하는 유전자를 선택하는 단계, 그리고
    상기 유의한 유전자의 빈발 횟수를 산출하여 13종 암의 공통 유전자들로 구성된 유전자 셋을 생성하는 단계를 포함하는 다중 암 분류 방법.
  11. 제10항에 있어서,
    상기 유의한 유전자는,
    정상 조직보다 암 조직에서 특이적으로 많거나 적게 발현하는 유전자를 의미 하는 다중 암 분류 방법.
  12. 제7항에 있어서.
    상기 다중 암 분류기를 구축하는 단계는,
    신경망 모델의 노드와 레이어의 개수를 설정한 다음, 상기 유전자들로 구성된 셋과 학습데이터를 학습시켜 다중 암 분류기를 구축하고, 구축된 다중 암 분류기에 입력된 집단화 단일세포 데이터로부터 암을 분류하고 예측하는 다중 암 분류 방법.
  13. 제8항에 있어서,
    상기 다중 암 분류기를 검증하는 단계는,
    3개의 클래스마다 무작위로 동일한 개수의 단일 세포를 추출하는 단계,
    상기 추출된 단일세포마다 포함된 유의한 유전자에 대한 발현량을 획득하는 단계,
    상기 획득한 유의한 유전자에 대한 발현량의 평균값을 산출하는 단계,
    상기 평균값 산출 과정을 반복하여 다중 암 분류기에 적용 가능한 집단화 단일 세포 데이터를 생성하는 단계, 그리고
    상기 생성된 집단화 단일세포 데이터를 다중 암 분류기에 입력하여 다중 암 분류기를 검증하는 단계를 포함하는 다중 암 분류 방법.
KR1020190028719A 2019-03-13 2019-03-13 공통 유전자 추출에 의한 다중 암 분류 방법 KR20200109544A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190028719A KR20200109544A (ko) 2019-03-13 2019-03-13 공통 유전자 추출에 의한 다중 암 분류 방법
PCT/KR2019/007135 WO2020184782A1 (ko) 2019-03-13 2019-06-13 공통 유전자 추출에 의한 다중 암 분류 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190028719A KR20200109544A (ko) 2019-03-13 2019-03-13 공통 유전자 추출에 의한 다중 암 분류 방법

Publications (1)

Publication Number Publication Date
KR20200109544A true KR20200109544A (ko) 2020-09-23

Family

ID=72427967

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190028719A KR20200109544A (ko) 2019-03-13 2019-03-13 공통 유전자 추출에 의한 다중 암 분류 방법

Country Status (2)

Country Link
KR (1) KR20200109544A (ko)
WO (1) WO2020184782A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022139402A1 (ko) * 2020-12-24 2022-06-30 가톨릭대학교 산학협력단 진단 분류 장치 및 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593640B (zh) * 2021-08-03 2023-07-28 哈尔滨市米杰生物科技有限公司 一种鳞癌组织功能状态与细胞组分评估方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PT2557517T (pt) * 2007-07-23 2023-01-04 Univ Hong Kong Chinese Determinação de um desequilíbrio de sequências de ácido nucleico
EP2732423A4 (en) * 2011-07-13 2014-11-26 Multiple Myeloma Res Foundation Inc METHOD FOR DETECTING AND DISTRIBUTING DATA
EP3161480B1 (en) * 2014-06-25 2020-02-12 Tel HaShomer Medical Research Infrastructure and Services Ltd. Identification of cancer stem cell markers and use of same for diagnosis and treatment
KR101935094B1 (ko) * 2016-06-29 2019-01-03 경북대학교 산학협력단 암유발 유전자를 식별하기 위한 컴퓨팅 시스템 및 방법, 그 방법을 수행하기 위한 기록 매체
KR101990430B1 (ko) * 2017-06-22 2019-06-18 한국과학기술원 암의 재발 예후 예측을 위한 바이오마커 발굴 시스템 및 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022139402A1 (ko) * 2020-12-24 2022-06-30 가톨릭대학교 산학협력단 진단 분류 장치 및 방법
KR20220091930A (ko) * 2020-12-24 2022-07-01 가톨릭대학교 산학협력단 진단 분류 장치 및 방법

Also Published As

Publication number Publication date
WO2020184782A1 (ko) 2020-09-17

Similar Documents

Publication Publication Date Title
US11462325B2 (en) Multimodal machine learning based clinical predictor
Kourou et al. Machine learning applications in cancer prognosis and prediction
JP2003529131A (ja) 生物学的システムにおいてパターンを同定するための方法およびデバイスならびにその使用方法
CN109872776B (zh) 一种基于加权基因共表达网络分析对胃癌潜在生物标志物的筛选方法及其应用
Karim et al. OncoNetExplainer: explainable predictions of cancer types based on gene expression data
CN111161882A (zh) 一种基于深度神经网络的乳腺癌生存期预测方法
CN115295074B (zh) 基因标志物在恶性肺结节筛查中的应用、筛查模型的构建方法和检测装置
WO2023197825A1 (zh) 多癌种早筛模型构建方法以及检测装置
CN115375640A (zh) 一种肿瘤异质性识别方法、装置、电子设备、存储介质
CN108531597A (zh) 一种用于口腔鳞癌早期诊断的检测试剂盒
KR20200109544A (ko) 공통 유전자 추출에 의한 다중 암 분류 방법
CN103186717A (zh) 一种基于启发式宽度优先搜索肿瘤相关基因的方法
CN115881296B (zh) 一种甲状腺乳头状癌(ptc)风险辅助分层系统
CN111944900A (zh) 一种特征lincRNA表达谱组合及子宫内膜癌早期预测方法
CN110942808A (zh) 一种基于基因大数据的预后预测方法及预测系统
Desiani et al. Comparison of support vector machine and K-nearest neighbors in breast cancer classification
Abreu et al. Personalizing breast cancer patients with heterogeneous data
RAHEEM et al. Predication and classification of cancer using sequence alignment and back propagation algorithms in Brca1 and Brca2 Genes
Al-Hagery Classifiers’ Accuracy Based on Breast Cancer Medical Data and Data Mining Techniques
KR20190137012A (ko) 복합 유전 정보 네트워크 분석에 기반한 질병 위험도 진단 방법
CN105243300A (zh) 基于近似化的谱聚类算法预测癌症转移复发的方法
CN105447337B (zh) 一种基于动态网络图分析的时间序列数据处理方法
Mythili et al. CTCHABC-hybrid online sequential fuzzy Extreme Kernel learning method for detection of Breast Cancer with hierarchical Artificial Bee
Khorshed et al. Multi-tissue cancer classification of gene expressions using deep learning
Bolón-Canedo et al. Feature selection in DNA microarray classification

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X601 Decision of rejection after re-examination