KR102376212B1 - 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법 - Google Patents

신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법 Download PDF

Info

Publication number
KR102376212B1
KR102376212B1 KR1020190147762A KR20190147762A KR102376212B1 KR 102376212 B1 KR102376212 B1 KR 102376212B1 KR 1020190147762 A KR1020190147762 A KR 1020190147762A KR 20190147762 A KR20190147762 A KR 20190147762A KR 102376212 B1 KR102376212 B1 KR 102376212B1
Authority
KR
South Korea
Prior art keywords
gene
gene expression
cancer
data set
genes
Prior art date
Application number
KR1020190147762A
Other languages
English (en)
Other versions
KR20200057664A (ko
Inventor
강근수
박성수
신봉근
Original Assignee
단국대학교 천안캠퍼스 산학협력단
디어젠 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 단국대학교 천안캠퍼스 산학협력단, 디어젠 주식회사 filed Critical 단국대학교 천안캠퍼스 산학협력단
Publication of KR20200057664A publication Critical patent/KR20200057664A/ko
Application granted granted Critical
Publication of KR102376212B1 publication Critical patent/KR102376212B1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/158Expression markers

Abstract

본 발명은 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법에 대한 것이다.
본 발명에 따르면, 복수의 환자로부터 각각의 생검 조직을 수집하고, 수집된 각각의 생검 조직으로부터 실험적으로 측정된 복수개의 유전자 발현 정보를 수집하는 단계, 상기 수집된 복수개의 유전자 발현 정보를 기 학습된 신경망 기반의 유전자 선택 알고리즘에 적용하여 각각의 유전자에 대한 차별지수(DI)를 산출하는 단계, 상기 산출된 차별지수(DI)에 따라 유전자를 나열하고, 나열된 유전자 중에서 차별지수(DI)가 큰 복수의 특정 유전자를 선별하는 단계, 그리고, 상기 선별된 복수의 특정 유전자의 발현값을 이용하여 암 발생 여부를 예측하는 단계를 포함한다.
이와 같이 본 발명에 따르면, 정상인 그룹과 암 환자 그룹을 구별하기 위한 분류 능력을 나타내는 차별 지수(DI)에 기초하여 유전자의 순위를 정하고, 차별 지수(DI)로 순위가 매겨진 유전자 목록을 통해 최고 순위의 유전자 중에서 최적의 유전자 세트를 선택하도록 할 수 있다.

Description

신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법 {Gene expression marker screening method using neural network based on gene selection algorithm}
본 발명은 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법에 관한 것으로서, 더욱 상세하게는 신경망 기반의 유전자 선택 알고리즘을 이용하여 유전자 발현 정보로부터 복수의 암과 연관된 유전자 발현 마커를 선별하는 유전자 발현 마커 선별 방법에 관한 것이다.
차세대 염기서열 분석(next-generation sequencing, NGS) 혹은 초병렬 염기서열 분석(massively parallel sequencing)은 염기서열 데이터 생산량을 증가시키기 위해 염기서열 분석법을 대규모로 병렬화한 방법이다.
NGS는 분자의 정보를 수치로 변환할 수 있기 때문에 많은 연구 분야에서 적용되고 있다. 그러나. NGS를 이용한 접근법은 주어진 연구의 다음 단계를 지시하기 위해 적절한 유전자 (또는 유전자좌)를 선택해야 했다. 예를 들어, 인간 게놈의 경우, 약 50,000 개 이상의 유전자 (또는 190,000개까지의 전사체) 이상의 발현 수준 목록에서 합리적인 유전자 (기능)를 선택하는 것은 병목을 발생시키는 주요 요인이 되었다.
많은 연구자들은 여러 테스트에서 조정된 p 값이 0.05 (또는 이하) 인 DEG(differentially expression gene) 식별 알고리즘을 이용하여 차별적으로 발현되는 유전자 목록(DEG)에서 유전자를 선택하였다. 그러나, 샘플 수가 증가함에 따라 DEG의 수는 수천 개까지 증가하는 문제점이 있었다. 따라서, 바이오 마커 후보에 이상적인 유전자 세트를 자동으로 추천하는 방법에 대한 요구가 발생하였다.
본 발명의 실시예에서는 신경망 기반의 유전자 선택 알고리즘을 이용하여 최적의 바이오 마커 선별하고자 한다.
본 발명의 배경이 되는 기술은 대한민국 등록특허공보 제10-1489536호(2015.02.04공고)에 개시되어 있다.
본 발명이 이루고자 하는 기술적 과제는, 신경망 기반의 유전자 선택 알고리즘을 이용하여 유전자 발현 정보로부터 12가지의 암과 연관된 유전자 발현 마커를 선별하는 유전자 발현 마커 선별 방법을 제공하는데 목적이 있다.
이러한 기술적 과제를 이루기 위한 본 발명의 실시예에 따르면, 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법 에 있어서, 복수의 환자로부터 각각의 생검 조직을 수집하고, 수집된 각각의 생검 조직으로부터 실험적으로 측정된 복수개의 유전자 발현 정보를 수집하는 단계, 상기 수집된 복수개의 유전자 발현 정보를 기 학습된 신경망 기반의 유전자 선택 알고리즘에 적용하여 각각의 유전자에 대한 차별지수(DI)를 산출하는 단계, 상기 산출된 차별지수(DI)에 따라 유전자를 나열하고, 나열된 유전자 중에서 차별지수(DI)가 큰 복수의 특정 유전자를 선별하는 단계, 그리고, 상기 선별된 복수의 특정 유전자의 발현값을 이용하여 암 발생 여부를 예측하는 단계를 포함한다.
상기 신경망 기반의 유전자 선택 알고리즘을 구축하여 학습시키는 단계를 더 포함하며, 상기 신경망 기반의 유전자 선택 알고리즘을 구축하여 학습시키는 단계는, 암 게놈 아틀라스(The Cancer Genome Atlas: TCGA) 프로그램으로부터 복수의 암종류에 대한 유전자 발현 정보를 수신하는 단계, 상기 수신된 유전자 발현 정보를 암 환자 그룹과 정상인 그룹으로 그룹핑하고, 각 그룹으로부터 획득한 유전자 정보를 무작위로 추출하여 데이터 셋을 형성하는 단계, 상기 형성된 데이터 셋을 이용하여 정상인 그룹과 암환자 그룹으로 분류하는 복수의 특정 유전자를 추출하는 유전자 선택 알고리즘을 구축하는 단계를 포함할 수 있다.
상기 복수의 암종류는, 방광 요로 암종(BLCA), 유방 침습성 암종(BRCA), 선암(COAD), 머리와 목 편평 상피 세포암(HNSC), 신장 발색단(KICH), 신장 투명 세포 암종(KIRC), 신장 유두 세포 암종(KIRP), 간암(LIHC), 폐선암종(LUAD), 폐 편평 상피 세포 암(LUSC), 전립선암(PRAD) 및 갑상선 암종(THCA)를 포함할 수 있다.
상기 유전자 선택 알고리즘은, 상시 수신된 복수의 암종류에 포함된 모든 발현 유전자에 대한 각각의 차별 지수(DI)값을 산출하고, 상기 산출된 차별 지수(DI)값의 순위를 이용하여 상위 복수개의 특정 유전자를 추출할 수 있다.
상기 차별 지수(DI)값은, 하기의 수학식을 통해 연산될 수 있다.
Figure 112019118121402-pat00001
여기서,
Figure 112019118121402-pat00002
는 j번째 유전자에 대응하는 암조직의 유전자 발현값들의 총합을 나타내고,
Figure 112019118121402-pat00003
는 j번째 유전자에 대응하는 정상 조직의 유전자 발현값들의 총합을 나타내며, W는 가중치를 나타낸다.
상기 데이터 셋을 생성하는 단계는, 상기 복수의 암 종류마다 각각 상이한 암 샘플과 정상 샘플의 비율에 상관없이 무작위로 발현 유전자 정보를 추출하여 데이터 셋을 생성할 수 있다.
상기 데이터 셋을 생성하는 단계는, 전체의 암 유전자 발현 데이터를 이용하여 기 설정된 비율로 학습 데이터 셋, 검증 데이터 셋 및 평가 데이터 셋을 생성하며, 각각 생성된 학습 데이터 셋, 검증 데이터 셋 및 평가 데이터 셋은 암 샘플과 정상 샘플의 비율을 동일하게 형성할 수 있다.
상기 복수개의 특정 유전자는, FN1, ALB, EEF1A1, SFTPC, GAPDH, P4HB, DCN, A2M, MGP, UMOD, GPX3, FTL, ACPP 및 CTSD를 포함할 수 있다.
이와 같이 본 발명에 따르면, 정상인 그룹과 암 환자 그룹을 구별하기 위한 분류 능력을 나타내는 차별 지수(DI)에 기초하여 유전자의 순위를 정하고, 차별 지수(DI)로 순위가 매겨진 유전자 목록을 통해 최고 순위의 유전자 중에서 최적의 유전자 세트를 선택할 수 있도록 한다.
도 1은 본 발명의 실시예에 따른 유전자 발현 마커 선별 장치를 개략적으로 도시한 도면이다.
도 2는 본 발명의 실시예에 따른 신경망 기반의 유전자 선택 알고리즘을 이용하여 특정 유전자를 선별하는 방법을 개략적으로 도시한 순서도이다.
도 3은 도 2에 도시된 S210단계를 설명하기 위한 도면이다.
도 4는 도3에 도시된 S213단계에서 주어진 유전자 수에 따른 분류 정확도를 나타내는 그래프이다.
도 5는 S230 단계에서 유전자마다 차별지수를 산출하는 것을 나타내는 도면이다.
이하 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시예를 상세히 설명하기로 한다. 이 과정에서 도면에 도시된 선들의 두께나 구성요소의 크기 등은 설명의 명료성과 편의상 과장되게 도시되어 있을 수 있다.
또한 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서, 이는 사용자, 운용자의 의도 또는 관례에 따라 달라질 수 있다. 그러므로 이러한 용어들에 대한 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
이하에서는 도1을 이용하여 본 발명의 실시예에 따른 재발 예측 장치를 더욱 상세하게 설명한다.
도 1은 본 발명의 실시예에 따른 유전자 발현 마커 선별 장치를 개략적으로 도시한 도면이다.
도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 유전자 발현 마커 선별 장치(100)는 수집부(110), 알고리즘생성부(120), 차별지수산출부(130), 특정 유전자 선별부(140) 및 예측부(150)을 포함한다.
먼저, 수집부(110)는 복수의 피검자의 조직으로부터 추출된 유전자 정보를 수집한다. 부연하자면, 수집부(110)는 복수의 피검자로부터 채취된 조직의 RNA를 추출한다. 그리고, 수집부(110)는 추출된 RNA를 nCounter®Analysis System에 적용하여 유전자 발현 데이터를 획득한다. 여기서, 획득한 유전자 발현 데이터는 대략 20,000개의 유전자 정보를 포함한다.
그리고, 수집부(110)는 획득한 유전자 발현 데이터를 차별지수산출부(130)에 전달한다.
알고리즘생성부(120)는 수신된 유전자 발현 데이터를 이용하여 유전자 선택 알고리즘을 생성한다. 여기서, 유전자 선택 알고리즘은 발현 유전자 정보 중에서 암환자와 정상인으로 분류하는데 영항을 미치는 특정 유전자를 선별하는 모델이다.
부연하자면, 알고리즘생성부(120)은 암 게놈 아틀라스 (TCGA)에 공개된 12 가지 다른 암 유형에 대한 유전자 발현 데이터를 획득한다. 획득한 유전자 발현데이터는 총 6,226개(5,609 개의 암 샘플 및 617개의 정상샘플)의 샘플로 구성된다.
그리고 알고리즘생성부(120)는 획득한 12가지의 다른 암 유형의 유전자 발현 데이터 중에서 무작위로 n개 선택하여 조합한 복수의 데이터 셋을 생성한다. 알고리즘생성부(120)는 생성된 복수의 데이터 셋을 7:2:1의 비율로 나뉘어, 7에 해당되는 데이터셋은 학습용으로 사용하고, 2에 해당하는 데이터 셋은 평가용으로 사용한다. 또한, 1 에 해당하는 데이터 셋은 최종 평가용으로 사용한다. 즉, 알고리즘생성부(120)는 데이터 셋을 이용하여 학습 및 평가를 거침으로써 유전자에 대한 차별지수(DI)를 산출하는 유전자 선택 알고리즘을 생성한다.
차별지수산출부(130)는 피검자로부터 획득한 발현 유전자 정보를 기 학습된 유전자 선택 알고리즘에 적용한다. 그리고 차별지수산출부(130)는 입력된 발현 유전자 각각의 차별지수(discriminative index: DI) 점수를 획득한다. 여기서 차별지수(DI)는 특정 유전자가 주어진 그룹을 얼마나 잘 구별하는지 분류 능력을 평가하기 위해서 산출되는 값을 나타낸다.
특정 유전자 선별부(140)는 산출된 차별지수(DI)에 따라 모든 유전자를 나열한다. 그리고 특정 유전자 선별부(140)는 나열된 모든 유전자 중에서 상위 14RO에 해당되는 유전자를 선별한다. 그리고, 특정 유전자 선별부(140)는 선별된 상위 14개에 해당되는 유전자를 특정 유전자로 선별한다.
마지막으로, 예측부(150)는 선별된 상위 14개에 해당되는 특정 유전자 정보를 이용하여 암 발생 여부를 판단한다.
이하에서는 도 2 내지 도 5를 이용하여 유전자 발현 마커 선별 장치를 이용하여 특정 유전자를 선별하는 방법에 대해 더욱 상세하게 설명한다.
도 2는 본 발명의 실시예에 따른 신경망 기반의 유전자 선택 알고리즘을 이용하여 특정 유전자를 선별하는 방법을 개략적으로 도시한 순서도이다.
도 2에 도시된 바와 같이, 먼저, 알고리즘생성부(120)는 암 게놈 아틀라스(The Cancer Genome Atlas: TCGA) 프로그램으로부터 복수의 암에 대한 유전자 발현 정보를 수신한다. 그리고 알고리즘생성부(120)는 수신된 12 가지 유형의 암에 대한 유전자 발현 정보를 이용하여 유전자 선택 알고리즘을 구축한다(S210).
이하에서는 도 3 및 도 4를 이용하여 S210단계에 대해 더욱 상세하게 설명한다.
도 3은 도 2에 도시된 S210단계를 설명하기 위한 도면이고, 도 4는 도3에 도시된 S213단계에서 주어진 유전자 수에 따른 분류 정확도를 나타내는 그래프이다.
도 3에 도시된 바와 같이, 알고리즘생성부(120)는 암 게놈 아틀라스(The Cancer Genome Atlas: TCGA) 프로그램에 공개된 12가지 유형의 암에 대한 유전자 발현정보를 수신한다(S211)
Figure 112019118121402-pat00004
상기 표1은 암 게놈 아틀라스(The Cancer Genome Atlas: TCGA) 프로그램을 통해 수신된 12가지의 유형에 암을 나타내고, 각각의 암마다 획득한 암 조직 샘플 및 정상 조직 샘플을 나타낸다.
여기서 12가지 암의 명칭은 방광 요로 암종(BLCA), 유방 침습성 암종(BRCA), 선암(COAD), 머리와 목 편평 상피 세포암(HNSC), 신장 발색단(KICH), 신장 투명 세포 암종(KIRC), 신장 유두 세포 암종(KIRP), 간암(LIHC), 폐선암종(LUAD), 폐 편평 상피 세포 암(LUSC), 전립선암(PRAD) 및 갑상선 암종(THCA)으로 나타낸다.
그 다음, 알고리즘생성부(120)는 획득한 12종류의 암으로부터 암 조직과 정상 조식으로 그룹핑한 다음, 각 그룹으로부터 획득한 유전자 발현 정보를 무작위로 추출하여 데이터 셋을 형성한다(S212).
부연하자면, 상기 표1에 나타난 바와 같이, 수신된 12 종류의 암은 총 6210의 샘플을 포함한다. 여기서 5,609개는 암 조직에 대한 샘플이고, 617개는 정상 조직에 대한 샘플이다.
따라서, 알고리즘생성부(120)는 총 6210을 7:2:1의 비율로 분배하여, 학습 데이터 셋, 평가 데이터 셋 및 최종평가 데이터 셋을 생성한다.
이때, 각각의 암은 상이한 암 샘플과 정상 샘플의 비율로 구성된다. 그러므로 알고리즘생성부(120)는 비율에 상관없이 무작위로 발현 유전자 정보를 추출하여 데이터 셋을 생성한다. 다만, 학습 데이터 셋, 평가 데이터 셋 및 최종평가 데이터 셋은 암 샘플과 정상 샘플의 비율을 유지하면서 생성한다.
그 다음, 알고리즘생성부(120)는 생성된 훈련 데이터 셋을 이용하여 유전자 선택 알고리즘을 학습시킨다(S213).
한편, 유전자 선택 알고리즘은 훈련 데이터 셋을 이용하여 네트워크의 가중치를 훈련시키는 신경망 방법을 기반으로 한다. 이때, 훈련된 가중치는 초기값에 할당된 임의의 값에 크게 의존하므로 결과가 다소 달라질 수 있다. 따라서, 결과에 대한 불규칙성을 줄이기 위해, 유전자 선택 알고리즘을 10,000 번 반복하여 산출된 각 유전자별 차별지수(DI)의 평군값으로 유전자의 순위를 매긴다. 그리고, 가장 높은 차별지수(DI)를 가진 유전자 세트를 특정 유전자로 선별하였다.
한편, 차별지수(DI)의 점수 순위 상 얼마나 많은 유전자를 특정 유전자로 정해야 분류 성능의 저하가 없는지를 계산하기 위해서, 먼저 DI 점수로 정렬한 유전자 목록에서 최적의 유전자 개수를 계산한다. 이를 위해, 1개의 유전자부터 개수를 증가시키면서 1,000개의 유전자까지 각 세트를 하나의 특정 유전자 세트로 설정하여 훈련 데이터 셋의 암 및 정상 샘플 분류 평균 정확도를 계산한다.
그 결과, 도 4에 도시된 바와 같이, 대략 상위 100 개의 유전자를 하나의 특정 유전자 세트로 구성 시 가장 높은 평균 정확도를 보였으며, 더 많은 유전자가 추가된다고 하더라도 평균 정확도가 증가되지는 않았다.
S213단계가 완료되면, 알고리즘생성부(120)는 중간 평가 데이터 셋을 유전자 선택 알고리즘에 입력하여 중간 평가를 수행한다(S214).
이때, 알고리즘생성부(120)는 가중치를 달리하면서 각 유전자별 차별지수(DI)를 산출한다.
그 다음, 알고리즘생성부(120)는 최종 평가 데이터 셋을 유전자 선택 알고리즘에 입력하여 최종 평가를 수행한다(S215).
상기 S213단계 내지 S215단계를 수행한 결과, 알고리즘생성부(120)는 14개의 특정 유전자를 선별하였다.
여기서, 14개의 특정 유전자는 FN1, ALB, EEF1A1, SFTPC, GAPDH, P4HB, DCN, A2M, MGP, UMOD, GPX3, FTL, ACPP 및 CTSD를 포함한다.
S210단계를 통해 유전자 선택 알고리즘이 구축된 상태에서, 수집부(110)는 복수의 피검자로부터 조직을 수집하고, 수집된 조직으로부터 유전자 정보를 획득한다(S220).
여기서 복수의 피검자는 암 환자 그룹와 정상인 그룹을 포함하며, 각각 50명으로 구성된다. 그리고, 수집부(110)는 100명의 피검자로부터 분리된 조직을 획득하고, 획득한 조직으로부터 RNA를 추출한다.
그 다음, 수집부(100)는 추출된 RNA를 nCounter®Analysis System을 통해 분석한다. nCounter®Analysis System은 디지털 분석기가 RNA에 포함된 각 분자의 색을 포착 및 카운팅하여 유전자 정보를 획득한다. 한편, 수집부(100)는 복수의 피검자를 대상으로 대략 20,000개의 유전자 발현 데이터를 획득한다.
그리고, 수집부(100)는 획득한 20,000개의 유전자 발현 데이터를 차별지수산출부(130)에 전달한다.
그 다음, 차별지수산출부(130)는 수신된 20,000개의 유전자 발현 데이터를 기 구축된 유전자 선택 알고리즘에 입력하여 각각의 유전자에 대한 차별지수를 산출한다(S230).
도 5는 S230 단계에서 유전자마다 차별지수를 산출하는 것을 나타내는 도면이다.
도 5에 도시된 바와 같이, 차별지수산출부(130)는 수신된 20,000개의 유전자 발현 데이터마다 암조직의 유전자 발현값의 총합(
Figure 112019118121402-pat00005
)과 정상조직의 유전자 발현값의 총합(
Figure 112019118121402-pat00006
)을 산출한다.
그 다음, 차별지수산출부(130)는 하기의 수학식을 이용하여 차별지수(DI)를 산출한다.
Figure 112019118121402-pat00007
여기서,
Figure 112019118121402-pat00008
는 j번째 유전자의 차별지수이고,
Figure 112019118121402-pat00009
는 j번째 유전자에 대응하는 암조직의 유전자 발현값의 총합을 나타내고,
Figure 112019118121402-pat00010
는 j번째 유전자에 대응하는 정상 조직의 유전자 발현값의 총합을 나타내며, W는 가중치를 나타낸다.
즉, 특정 유전자의 영향력 즉 차별지수(DI)는 입력데이터 중에서 서로 다른 페어의
Figure 112019118121402-pat00011
값을 더하여 산출된다.
여기서 서로 다른 페어는 종양에 대한 유전자 발현 샘플들의 총합이고, 다른 하나는 정상 유전자 발현 샘플들의 총합을 나타낸다.
S230 단계가 완료되면, 특정 유전자 선별부(140)는 산출된 차별지수(DI)가 큰 순서대로 20,000개의 유전자를 나열한다. 그리고, 특정 유전자 선별부(140)는 나열된 유전자 중에서 상위 14개에 해당하는 유전자를 선별한다(S240).
마지막으로 예측부(130)는 기 구축된 유전자 선택 알고리즘을 통해 획득하였던 특정 유전자와 S230단계에서 선별된 유전자를 상호 비교하여 암 발생 여부를 예측한다(S250).
여기서, 특정 유전자는 FN1, ALB, EEF1A1, SFTPC, GAPDH, P4HB, DCN, A2M, MGP, UMOD, GPX3, FTL, ACPP 및 CTSD를 나타낸다.
이하에서는 본 발명의 실시예에 따른 유전자 발현 마커 선별 장치를 통해 추출된 특정 유전자의 분류 정확도에 대해 더욱 상세하게 설명한다.
Figure 112019118121402-pat00012
본 발명의 실시예에서는 차별지수가 높은 상위 14개의 특정 유전자를 유전자 발현 마커로 선택하였다. 표 2에 기재된 바와 같이, 이전 연구(Peng et al. 또는 Martinez-Ledesma et al.)에서의 유전자 발현 마커는 7개 혹은 14개로 구성된다. 다 만, 유전자 선택 알고리즘을 통해 획득한 유전자 발현 마커와 이전 연구에서의 유전자 발현 마커는 상호 겹치지 않는 것을 알 수 있다. 따라서, 유전자 선택 알고리즘을 통해 선택된 유전자 발현 마커가 암을 분류하는데 어느 정도의 정확도를 가지고 있는지 평가를 한 결과, 하기의 표3에 기재된 바와 같이, 7가지의 암 유형 중 5가지에 대해서 높은 분류 정확도를 나타내었다.
Figure 112019118121402-pat00013
이와 같이 본 발명에 따른 유전자 발현 마커 선별 방법은 정상인 그룹과 암 환자 그룹을 구별하기 위한 분류 능력을 나타내는 차별 지수(DI)에 기초하여 유전자의 순위를 정하고, 차별 지수(DI)로 순위가 매겨진 유전자 목록을 통해 최고 순위의 유전자 중에서 최적의 유전자 세트를 선택할 수 있다.
본 발명은 도면에 도시된 실시예를 참고로 하여 설명되었으나 이는 예시적인 것에 불과하며, 당해 기술이 속하는 분야에서 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호범위는 아래의 특허청구범위의 기술적 사상에 의하여 정해져야 할 것이다.
100 : 유전자 발현 마커 선별 장치
110 : 수집부
120 : 알고리즘생성부
130 : 차별지수산출부
140 : 특정 유전자 선별부
150 : 예측부

Claims (8)

  1. 유전자 발현 마커 선별 장치를 이용한 신경망 기반의 유전자 발현 마커 선별 방법에 있어서,
    복수의 환자의 생검 조직으로부터 실험적으로 측정된 복수개의 유전자 발현 정보를 획득하는 단계,
    상기 획득한 복수개의 유전자 발현 정보를 기 학습된 신경망 기반의 유전자 선택 알고리즘에 적용하여 각각의 유전자에 대한 차별지수(DI)를 산출하는 단계, 그리고
    상기 산출된 차별지수(DI)를 큰 값에서부터 작은 값 순으로 나열하고, 나열된 유전자 중에서 차별지수(DI)가 가장 큰 값을 가지는 유전자부터 기 설정된 개수에 해당하는 복수의 특정 유전자를 선별하는 단계를 포함하며,
    상기 복수개의 특정 유전자는,
    FN1, ALB, EEF1A1, SFTPC, GAPDH, P4HB, DCN, A2M, MGP, UMOD, GPX3, FTL, ACPP 및 CTSD를 포함하는 유전자 발현 마커 선별 방법.
  2. 제1항에 있어서,
    상기 신경망 기반의 유전자 선택 알고리즘을 구축하여 학습시키는 단계를 더 포함하며,
    상기 신경망 기반의 유전자 선택 알고리즘을 구축하여 학습시키는 단계는,
    암 게놈 아틀라스(The Cancer Genome Atlas: TCGA) 프로그램으로부터 복수의 암종류에 대한 유전자 발현 정보를 수신하는 단계,
    상기 수신된 유전자 발현 정보를 암 환자 그룹과 정상인 그룹으로 그룹핑하고, 각 그룹으로부터 획득한 유전자 정보를 무작위로 추출하여 데이터 셋을 형성하는 단계, 그리고
    상기 형성된 데이터 셋을 이용하여 정상인 그룹과 암환자 그룹으로 분류하는 복수의 특정 유전자를 추출하는 유전자 선택 알고리즘을 구축하는 단계를 포함하는 유전자 발현 마커 선별 방법.
  3. 제2항에 있어서,
    상기 복수의 암종류는,
    방광 요로 암종(BLCA), 유방 침습성 암종(BRCA), 선암(COAD), 머리와 목 편평 상피 세포암(HNSC), 신장 발색단(KICH), 신장 투명 세포 암종(KIRC), 신장 유두 세포 암종(KIRP), 간암(LIHC), 폐선암종(LUAD), 폐 편평 상피 세포 암(LUSC), 전립선암(PRAD) 및 갑상선 암종(THCA)를 포함하는 유전자 발현 마커 선별 방법.
  4. 제2항에 있어서,
    상기 유전자 선택 알고리즘은,
    상시 수신된 복수의 암종류에 포함된 모든 발현 유전자에 대한 각각의 차별 지수(DI)값을 산출하고,
    상기 산출된 차별 지수(DI)값의 순위를 이용하여 상위 복수개의 특정 유전자를 추출하는 유전자 발현 마커 선별 방법.
  5. 제4항에 있어서,
    상기 차별 지수(DI)값은,
    하기의 수학식을 통해 연산되는 유전자 발현 마커 선별 방법:
    Figure 112019118121402-pat00014

    여기서,
    Figure 112019118121402-pat00015
    는 j번째 유전자에 대응하는 암조직의 유전자 발현값들의 총합을 나타내고,
    Figure 112019118121402-pat00016
    는 j번째 유전자에 대응하는 정상 조직의 유전자 발현값들의 총합을 나타내며, W는 가중치를 나타낸다.
  6. 제2항에 있어서,
    상기 데이터 셋을 생성하는 단계는,
    상기 복수의 암 종류마다 각각 상이한 암 샘플과 정상 샘플의 비율에 상관없이 무작위로 발현 유전자 정보를 추출하여 데이터 셋을 생성하는 유전자 발현 마커 선별 방법.
  7. 제6항에 있어서,
    상기 데이터 셋을 생성하는 단계는,
    전체의 암 유전자 발현 데이터를 이용하여 기 설정된 비율로 학습 데이터 셋, 검증 데이터 셋 및 평가 데이터 셋을 생성하며,
    각각 생성된 학습 데이터 셋, 검증 데이터 셋 및 평가 데이터 셋은 암 샘플과 정상 샘플의 비율을 동일하게 형성하는 유전자 발현 마커 선별 방법.
  8. 제1항에 있어서,
    상기 선별된 복수의 특정 유전자의 발현값을 이용하여 암 발생 여부를 예측하는 단계를 더 포함하는 유전자 발현 마커 선별 방법.
KR1020190147762A 2018-11-16 2019-11-18 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법 KR102376212B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20180141779 2018-11-16
KR1020180141779 2018-11-16

Publications (2)

Publication Number Publication Date
KR20200057664A KR20200057664A (ko) 2020-05-26
KR102376212B1 true KR102376212B1 (ko) 2022-03-21

Family

ID=70915439

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190147762A KR102376212B1 (ko) 2018-11-16 2019-11-18 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법

Country Status (1)

Country Link
KR (1) KR102376212B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102515355B1 (ko) 2020-09-11 2023-03-29 인천대학교 산학협력단 암 유발 유전자의 식별을 위한 전자 장치 및 그 동작 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101860061B1 (ko) * 2015-06-08 2018-05-23 한국과학기술원 심층 신경망 기반 질병 정보 예측 시스템 및 방법

Also Published As

Publication number Publication date
KR20200057664A (ko) 2020-05-26

Similar Documents

Publication Publication Date Title
CN101401101B (zh) 用于通过谱分析鉴定dna模式的方法和系统
CN109994151B (zh) 基于复杂网络与机器学习方法的肿瘤驱动基因预测系统
CN111276252B (zh) 一种肿瘤良恶性鉴别模型的构建方法及装置
CN101923604A (zh) 基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法
CN104040561B (zh) 通过质谱术和分数规整识别微生物的方法
CN106202999B (zh) 基于不同尺度tuple词频的微生物高通量测序数据分析协议
KR102351306B1 (ko) 질환 연관 유전자 변이 분석을 통한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법
Rasheed et al. Metagenomic taxonomic classification using extreme learning machines
CN111748632A (zh) 一种特征lincRNA表达谱组合及肝癌早期预测方法
CN110111840A (zh) 一种体细胞突变检测方法
CN106548041A (zh) 一种基于先验信息和并行二进制微粒群算法的肿瘤关键基因识别方法
Iqbal et al. Mitochondrial organelle movement classification (fission and fusion) via convolutional neural network approach
CN115798730A (zh) 基于带权图注意力和异构图神经网络的环状rna-疾病关联预测方法、设备和介质
CN110010204B (zh) 基于融合网络和多打分策略的预后生物标志物识别方法
CN109801681B (zh) 一种基于改进的模糊聚类算法的snp选择方法
KR102376212B1 (ko) 신경망 기반의 유전자 선택 알고리즘을 이용한 유전자 발현 마커 선별 방법
CN113764034B (zh) 基因组序列中潜在bgc的预测方法、装置、设备及介质
US20020184569A1 (en) System and method for using neural nets for analyzing micro-arrays
CN108460248B (zh) 一种基于Bionano平台检测长串联重复序列的方法
CN111763738A (zh) 一种特征mRNA表达谱组合及肝癌早期预测方法
CN111944902A (zh) 一种基于lincRNA表达谱组合特征的肾乳头状细胞癌早期预测方法
CN110223732A (zh) 多类生物序列注释的整合方法
CN111739581B (zh) 一种基因组变量综合筛选方法
Gong et al. Interpretable single-cell transcription factor prediction based on deep learning with attention mechanism
CN111755074A (zh) 一种酿酒酵母菌中dna复制起点的预测方法

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant