KR101771042B1 - 질병 관련 유전자 탐색 장치 및 그 방법 - Google Patents

질병 관련 유전자 탐색 장치 및 그 방법 Download PDF

Info

Publication number
KR101771042B1
KR101771042B1 KR1020150008040A KR20150008040A KR101771042B1 KR 101771042 B1 KR101771042 B1 KR 101771042B1 KR 1020150008040 A KR1020150008040 A KR 1020150008040A KR 20150008040 A KR20150008040 A KR 20150008040A KR 101771042 B1 KR101771042 B1 KR 101771042B1
Authority
KR
South Korea
Prior art keywords
gene expression
expression amount
gene
disease
sample
Prior art date
Application number
KR1020150008040A
Other languages
English (en)
Other versions
KR20160088663A (ko
Inventor
박상현
김현진
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020150008040A priority Critical patent/KR101771042B1/ko
Publication of KR20160088663A publication Critical patent/KR20160088663A/ko
Application granted granted Critical
Publication of KR101771042B1 publication Critical patent/KR101771042B1/ko

Links

Images

Classifications

    • G06F19/24
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G06F19/20
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression

Abstract

본 발명은 질병 관련 유전자를 탐색하는 장치와 그 방법에 관한 것이다.
본 발명은, 유사한 유전자 발현 패턴을 보이는 샘플들로부터 유전자 발현량을 예측할 때, 서로 다른 두 질병 조건 사이에서 예측되는 유전자 발현량의 정확도 정도의 차이를 점수화하여, 보다 큰 차이를 보이는 유전자를 해당 질병과 관련된 유전자로 선별함으로써, 주어진 샘플 군에서 생물학적 프로세스와 연관된 핵심 질병 관련 유전자를 보다 정확하고 효율적으로 선별하는 질병 관련 유전자 탐색 장치 및 그 방법을 제공한다.
이를 위하여 본 발명에 따른 질병 관련 유전자 탐색 장치는 미리 정해진 일정한 종류의 유전자들에 대하여 복수 개의 샘플들의 유전자 발현량 정보를 포함하는 유전자 발현량 데이터를 입력받고, 상기 샘플의 유전자 발현량 간에 미리 정해진 정도 이상의 상관관계를 가지는 상기 샘플들을 각 상기 샘플의 이웃샘플로 선정하고, 상기 각 샘플 별로 선정된 이웃샘플들의 유전자 발현량을 이용하여 상기 각 샘플의 유전자 발현량을 예측하는 협업 필터링부; 및 상기 협업 필터링부에서 예측된 상기 각 샘플의 유전자 발현량인 유전자 발현량 예측 데이터와 상기 유전자 발현량 데이터를 이용하여, 각 상기 유전자의 질병 관련성 점수를 산출하는 질병 관련성 점수 산출부를 포함한다.

Description

질병 관련 유전자 탐색 장치 및 그 방법{Apparatus and Method for selection of disease associated gene}
본 발명은 질병 관련 유전자를 탐색하는 장치와 그 방법에 관한 것이다.
질병의 진단과 예후를 예측함에 있어서, 바이오마커(Biomarker)라 불리는 지표가 이용되고 있다. 서로 다른 조건 즉 예를 들면 정상인과 특정 질병을 가진 환자 간에서 차등적으로 발현하는 유전자를 바이오마커로 이용함으로써, 암과 같은 질병의 진단과 예후를 판별할 수 있다. 기존의 차등적 발현 유전자를 찾기 위한 방법으로는 특성 선택(Feature selection) 방법이 있다. 이러한 특성 선택 방법은 분류 정확도를 높이고, 데이터 차원을 줄여서 알고리즘을 효율적으로 운용하기 위해 사용된다.
이와 같은 특성 선택 방법으로 샘플들의 조건, 즉 클래스와의 상관 관계를 조사하는 방법이 기존에 대표적으로 활용되었다. 이 방법은 데이터의 클래스에 기반하여 특성과 클래스 사이에서 관측도수와 기대도수의 차이를 이용하여 계산하는 카이제곱 통계로 특성의 중요도를 평가하고, 카이제곱 통계 값이 클수록 특성과 클래스가 의존적이고 강한 연관성이 있다고 판단하는 방법이다.
그러나, 차등적으로 유전자가 발현되는 정도가 반드시 생물학적으로 의미가 있는 것은 아니며, 질병의 생물학적 프로세스와 관련 있는 유전자를 찾아내는 것이 중요하다. 따라서 단순히 차등 발현 유전자에만 기반한 기존 방식은 질병 관련 유전자를 올바르게 찾음에 있어서 한계점이 있다.
등록특허공보 제10-0734430호 (공고일자 : 2007.07.02.)
본 발명이 해결하고자 하는 과제는, 유사한 유전자 발현 패턴을 보이는 샘플들로부터 유전자 발현량을 예측할 때, 서로 다른 두 질병 조건 사이에서 예측되는 유전자 발현량의 정확도 정도의 차이를 점수화하여, 보다 큰 차이를 보이는 유전자를 해당 질병과 관련된 유전자로 선별함으로써, 주어진 샘플 군에서 생물학적 프로세스와 연관된 핵심 질병 관련 유전자를 보다 정확하고 효율적으로 선별하는 질병 관련 유전자 탐색 장치 및 그 방법을 제공하는 것이다.
상기 과제를 해결하기 위한 본 발명의 일 유형에 따른 질병 관련 유전자 장치는, 질병 관련 유전자 탐색 장치에 있어서, 미리 정해진 일정한 종류의 유전자들에 대하여 복수 개의 샘플들의 유전자 발현량 정보를 포함하는 유전자 발현량 데이터를 입력받고, 상기 샘플의 유전자 발현량 간에 미리 정해진 정도 이상의 상관관계를 가지는 상기 샘플들을 각 상기 샘플의 이웃샘플로 선정하고, 상기 각 샘플 별로 선정된 이웃샘플들의 유전자 발현량을 이용하여 상기 각 샘플의 유전자 발현량을 예측하는 협업 필터링부; 및 상기 협업 필터링부에서 예측된 상기 각 샘플의 유전자 발현량인 유전자 발현량 예측 데이터와 상기 유전자 발현량 데이터를 이용하여, 각 상기 유전자의 질병 관련성 점수를 산출하는 질병 관련성 점수 산출부를 포함한다.
여기서, 상기 유전자 발현량 데이터는 상기 샘플들이 포함하는 상기 유전자들의 각 유전자 발현량 값을 나타내는 2차원의 유전자 발현량 행렬로 표현되고, 상기 유전자 발현량 예측 데이터는 상기 샘플들이 포함하는 상기 유전자들에 대하여 상기 협업 필터링부에서 예측된 유전자 발현량 값을 나타내는 2차원의 유전자 발현량 예측 행렬로 표현되는 것을 특징으로 한다.
여기서, 상기 샘플들은 특정 질병 또는 생물학적 특성을 가지는 집단을 나타내는 제1 클래스와, 그 이외의 집단을 나타내는 제2 클래스로 미리 분류되는 것을 특징으로 한다.
여기서, 상기 질병 관련성 점수 산출부에서 산출된 상기 질병 관련성 점수를 기준으로 상기 유전자들 중 질병 관련 유전자를 선별하는 질병 관련 유전자 선별부를 더 포함할 수 있다.
여기서, 상기 협업 필터링부는, 상기 샘플의 유전자 발현량 간의 상관계수(Correlation Coefficient)를 산출하고, 각 상기 샘플에 대하여 미리 정해진 문턱값 이상의 상기 상관계수를 가지는 상기 샘플들을 각 상기 샘플의 상기 이웃샘플로 선정하는 것을 특징으로 한다.
여기서, 상기 상관계수는 피어슨(Pearson) 상관계수인 것을 특징으로 한다.
여기서, 상기 상관계수는 하기 식 1과 같이 산출되는 것을 특징으로 한다.
식 1
Figure 112015004809922-pat00001
(여기서 X는 상기 샘플의 유전자 발현량을 나타내는 행렬이고, j1, j2 는 상기 샘플의 인덱스이고, cov는 공분산, σ 는 분산을 나타내는 연산자이고, P는 상관계수를 산출하는 연산자이다.)
여기서, 상기 협업 필터링부는, 상기 샘플의 유전자 발현량과 상기 이웃샘플의 유전자 발현량 간의 상기 상관계수와, 상기 샘플의 유전자 발현량의 평균값과, 상기 이웃샘플의 유전자 발현량의 평균값을 이용하여, 상기 샘플 별 각 상기 유전자의 유전자 발현량을 예측하는 것을 특징으로 한다.
여기서, 상기 협업 필터링부는, 상기 샘플의 특정 유전자의 유전자 발현량을 예측함에 있어서, 상기 이웃샘플의 상기 특정 유전자의 유전자 발현량과 상기 이웃샘플의 유전자 발현량의 평균값의 차이값에 상기 샘플의 유전자 발현량과 상기 이웃샘플의 유전자 발현량 간의 상기 상관계수를 적용하여 정규화한 값에, 상기 샘플의 유전자 발현량의 평균값을 더한 값으로 상기 특정 유전자의 상기 유전자 발현량 예측 데이터를 산출하는 것을 특징으로 한다.
여기서, 상기 협업 필터링부는, 하기 식 2와 같이 상기 샘플의 상기 특정 유전자의 유전자 발현량을 예측하는 것을 특징으로 한다.
식 2.
Figure 112015004809922-pat00002
(여기서 i 는 상기 특정 유전자의 인덱스이고, j 는 상기 샘플의 인덱스이고, X는 상기 샘플의 유전자 발현량을 나타내는 행렬이고, Y는 상기 이웃샘플의 유전자 발현량을 나타내는 행렬이고, Neighbor는 상기 이웃샘플들의 집합을 나타내고, k는 상기 이웃샘플들의 집합에서의 각 상기 이웃샘플의 인덱스이고, P는 상기 상관계수를 산출하는 연산자이고, PD는 상기 예측된 유전자 발현량 예측 데이터이고,
Figure 112015004809922-pat00003
는 상기 샘플의 유전자 발현량의 평균값이고,
Figure 112015004809922-pat00004
는 상기 이웃샘플의 유전자 발현량의 평균값이다.)
여기서 상기 질병 관련성 점수 산출부는, 상기 제1 클래스의 상기 유전자 발현량 데이터와 상기 제1 클래스의 상기 유전자 발현량 예측 데이터 간의 차이값과, 상기 제2 클래스의 상기 유전자 발현량 데이터와 상기 제2 클래스의 상기 유전자 발현량 예측 데이터 간의 차이값을 이용하여, 상기 질병 관련성 점수를 산출하는 것을 특징으로 한다.
여기서, 상기 질병 관련성 점수 산출부는, 각 상기 유전자 별로, 상기 제1 클래스의 상기 유전자의 상기 유전자 발현량 데이터와 상기 제1 클래스의 상기 유전자의 상기 유전자 발현량 예측 데이터 간의 제1 차이값을 산출하고, 상기 제2 클래스의 상기 유전자의 상기 유전자 발현량 데이터와 상기 제2 클래스의 상기 유전자의 상기 유전자 발현량 예측 데이터 간의 제2 차이값을 산출하고, 상기 제1 차이값과 상기 제2 차이값 간의 차이가 클수록, 상기 유전자의 상기 질병 관련성 점수가 크도록, 상기 질병 관련성 점수를 산출하는 것을 특징으로 한다.
여기서, 상기 질병 관련성 점수 산출부는, 상기 제1 클래스의 상기 유전자의 상기 유전자 발현량 데이터를 나타내는 행렬과 상기 제1 클래스의 상기 유전자의 상기 유전자 발현량 예측 데이터를 나타내는 행렬 간의 차분 행렬의 원소들의 절대값의 합으로 상기 제1 차이값을 산출하고, 상기 제2 클래스의 상기 유전자의 상기 유전자 발현량 데이터를 나타내는 행렬과 상기 제2 클래스의 상기 유전자의 상기 유전자 발현량 예측 데이터를 나타내는 행렬 간의 차분 행렬의 원소들의 절대값의 합으로 상기 제2 차이값을 산출하고, 상기 유전자의 상기 제1 차이값과 상기 제2 차이값 간의 차이의 크기를 상기 질병 관련성 점수로 하는 것을 특징으로 한다.
여기서, 상기 질병 관련성 점수는 하기 식 3과 같이 산출되는 것을 특징으로 한다.
식 3.
Figure 112015004809922-pat00005
(여기서 i 는 상기 유전자의 인덱스이고, j 는 상기 샘플의 인덱스이고, X는 상기 샘플의 유전자 발현량을 나타내는 행렬이고, PD는 상기 샘플의 상기 유전자 발현량 예측 데이터를 나타내는 행렬이고, Class 1은 상기 제1 클래스, Class 2는 상기 제2 클래스에 속하는 각 상기 샘플들의 집합이다.)
여기서, 상기 협업 필터링부는, 상기 샘플의 유전자 발현량 간의 상기 상관계수를 산출하는 상관계수 산출부; 각 상기 샘플 별로, 각 상기 샘플과 미리 정해진 문턱값 이상의 상기 상관계수를 가지는 다른 상기 샘플들을 각 상기 샘플의 상기 이웃샘플로 선정하는 이웃 샘플 선정부; 상기 샘플의 유전자 발현량과 상기 샘플의 상기 이웃샘플의 유전자 발현량 간의 상기 상관계수와, 상기 샘플의 유전자 발현량의 평균값과, 상기 이웃샘플의 유전자 발현량의 평균값을 이용하여, 상기 샘플 별 각 상기 유전자의 유전자 발현량을 예측하는 유전자 발현량 예측부를 포함한다.
상기 과제를 해결하기 위한 본 발명의 또 다른 유형에 따른 질병 관련 유전자 장치는, 미리 정해진 일정한 종류의 유전자들에 대하여 복수 개의 샘플들의 유전자 발현량 정보를 포함하는 유전자 발현량 데이터를 입력받고, 상기 각 샘플 별로 상기 복수 개의 샘플들 중에서 자신의 상기 샘플을 제외한 나머지 상기 샘플들 중 일부 샘플들의 유전자 발현량을 이용하여 상기 각 샘플의 유전자 발현량을 예측하는 협업 필터링부; 상기 협업 필터링부에서 예측된 상기 각 샘플의 유전자 발현량인 유전자 발현량 예측 데이터와 상기 유전자 발현량 데이터를 이용하여, 각 상기 유전자의 질병 관련성 점수를 산출하는 질병 관련성 점수 산출부; 및 상기 질병 관련성 점수 산출부에서 산출된 상기 질병 관련성 점수를 기준으로 상기 유전자들 중 질병 관련 유전자를 선별하는 질병 관련 유전자 선별부를 포함하고, 상기 샘플들은 특정 질병 또는 생물학적 특성을 가지는 집단을 나타내는 제1 클래스와, 그 이외의 집단을 나타내는 제2 클래스로 미리 분류되고, 상기 질병 관련성 점수 산출부는, 상기 제1 클래스의 상기 유전자 발현량 데이터와 상기 제1 클래스의 상기 유전자 발현량 예측 데이터 간의 차이값과, 상기 제2 클래스의 상기 유전자 발현량 데이터와 상기 제2 클래스의 상기 유전자 발현량 예측 데이터 간의 차이값을 이용하여, 상기 질병 관련성 점수를 산출하는 것을 특징으로 한다.
여기서, 상기 질병 관련성 점수 산출부는, 각 상기 유전자 별로, 상기 제1 클래스의 상기 유전자의 상기 유전자 발현량 데이터와 상기 제1 클래스의 상기 유전자의 상기 유전자 발현량 예측 데이터 간의 제1 차이값을 산출하고, 상기 제2 클래스의 상기 유전자의 상기 유전자 발현량 데이터와 상기 제2 클래스의 상기 유전자의 상기 유전자 발현량 예측 데이터 간의 제2 차이값을 산출하고, 상기 제1 차이값과 상기 제2 차이값 간의 차이가 클수록, 상기 유전자의 상기 질병 관련성 점수가 크도록, 상기 질병 관련성 점수를 산출하는 것을 특징으로 한다.
여기서, 상기 과제를 해결하기 위한 본 발명의 또 다른 유형에 따른 질병 관련 유전자 방법은 미리 정해진 일정한 종류의 유전자들에 대하여 복수 개의 샘플들의 유전자 발현량 정보를 포함하는 유전자 발현량 데이터를 입력받고, 상기 샘플의 유전자 발현량 간에 미리 정해진 정도 이상의 상관계수를 가지는 상기 샘플들을 각 상기 샘플의 이웃샘플로 선정하고, 상기 각 샘플 별로 선정된 이웃샘플들의 유전자 발현량을 이용하여 상기 각 샘플의 유전자 발현량을 예측하는 협업 필터링 단계; 상기 예측된 상기 각 샘플의 유전자 발현량인 유전자 발현량 예측 데이터와 상기 유전자 발현량 데이터를 이용하여, 각 상기 유전자의 질병 관련성 점수를 산출하는 질병 관련성 점수 산출 단계; 및 상기 산출된 상기 질병 관련성 점수를 기준으로 상기 유전자들 중 질병 관련 유전자를 선별하는 질병 관련 유전자 선별 단계를 포함하는 것을 특징으로 한다.
여기서, 상기 협업 필터링 단계는, 상기 샘플의 유전자 발현량 간의 피어슨 상관계수를 산출하는 상관계수 산출 단계; 각 상기 샘플에 대하여 미리 정해진 문턱값 이상의 상기 피어슨 상관계수를 가지는 상기 샘플들을 각 상기 샘플의 상기 이웃샘플로 선정하는 이웃 샘플 선정 단계; 및 상기 샘플의 유전자 발현량과 상기 이웃샘플의 유전자 발현량 간의 상기 상관계수와, 상기 샘플의 유전자 발현량의 평균값과, 상기 이웃샘플의 유전자 발현량의 평균값을 이용하여, 상기 샘플 별 각 상기 유전자의 유전자 발현량을 예측하는 유전자 발현량 예측 단계를 포함하는 것을 특징으로 한다.
여기서, 상기 샘플들은 특정 질병 또는 생물학적 특성을 가지는 집단을 나타내는 제1 클래스와, 그 이외의 집단을 나타내는 제2 클래스로 미리 분류되고, 상기 질병 관련성 점수 산출 단계는, 각 상기 유전자 별로, 상기 제1 클래스의 상기 유전자의 상기 유전자 발현량 데이터와 상기 제1 클래스의 상기 유전자의 상기 유전자 발현량 예측 데이터 간의 제1 차이값을 산출하고, 상기 제2 클래스의 상기 유전자의 상기 유전자 발현량 데이터와 상기 제2 클래스의 상기 유전자의 상기 유전자 발현량 예측 데이터 간의 제2 차이값을 산출하고, 상기 제1 차이값과 상기 제2 차이값 간의 차이가 클수록, 상기 유전자의 상기 질병 관련성 점수가 크도록, 상기 질병 관련성 점수를 산출하는 것을 특징으로 한다.
상기 과제를 해결하기 위한 본 발명의 또 다른 유형에 따른 질병 관련 유전자 방법에 관한 컴퓨터프로그램은, 하드웨어와 결합되어 상기 협업 필터링 단계, 상기 질병 관련성 점수 산출 단계, 상기 질병 관련 유전자 선별 단계를 실행시키기 위하여 매체에 저장된 컴퓨터프로그램인 것을 특징으로 한다.
본 발명에 따른 질병 관련 유전자 탐색 장치 및 그 방법에 의하면, 주어진 샘플 군에서 질병 관련 유전자를 찾음에 있어서, 생물학적 프로세스와 연관된 핵심 질병 관련 유전자를 보다 정확하고 효율적으로 선별하는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 질병 관련 유전자 탐색 장치의 블록도이다.
도 2는 본 발명의 또 다른 실시예에 따른 질병 관련 유전자 탐색 장치의 블록도이다.
도 3은 샘플에 포함된 각 유전자들의 유전자 발현량을 나타내는 유전자 발현량 행렬을 설명하기 위한 참고도이다.
도 4는 각 클래스 별 본 발명에 따른 협업 필터링부에서 예측되어 획득되는 유전자 발현량 예측 행렬과 기존에 주어진 유전자 발현량 행렬을 설명하기 위한 참고도이다.
도 5는 본 발명에 따른 협업 필터링부의 세부 블록도이다.
도 6은 본 발명의 또 다른 실시예에 따른 질병 관련 유전자 탐색 방법의 흐름도이다.
도 7은 본 발명에 따른 협업 필터링 단계의 세부 흐름도이다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.
유전자는 유전학적으로 질병의 발현과 밀접한 연관이 있다. 따라서 특정 질병을 진단하고 그에 대한 치료 방법을 개발하기 위하여 특정 질병과 관련성이 있는 유전자를 선별하는 것은 의학적으로 매우 중요한 과제이다.
기존에는 서로 다른 조건 즉 예를 들면 정상인과 특정 질병을 가진 환자 샘플 간에서 유전자의 특징을 탐색하여 차등적으로 발현하는 유전자를 선별하고 이를 기반으로 질병 관련 유전자를 탐색하는 방식이 사용되었다.
그러나, 차등적으로 유전자가 발현되는 정도가 반드시 생물학적으로 의미가 있는 것은 아니다. 이는 질병이 유전학적 이질성을 가지고 있어서 같은 질병이라도 다른 유전자에 의해 진행되었을 수도 있고, 같은 유전자가 서로 다른 질병에 관여할 수도 있기 때문이다, 따라서 단순히 차등 발현 유전자에만 기반한 기존 방식은 한계점이 있으며, 질병의 생물학적 프로세스와 관련 있는 질병 관련 유전자를 찾아내는 것이 중요한 문제라고 할 것이다.
본 발명은 단순히 차등적 특징 발현 여부에 기반한 종래의 질병 관련 유전자 탐색 방법을 개선하여, 특정 질병 군에 대하여 생물학적으로 의미있는 질병 관련 유전자를 탐색하는 방법과 그에 관한 장치를 개시한다.
본 발명에 따른 질병 관련 유전자 탐색 방법은, 질병이 진행될수록 질병의 이질성 정도(Degree of heterogeneity)도 커진다는 가정(Assumed)에 기반을 한다. 따라서 이와 같은 질병의 이질성 정도가 생물학적 프로세스(Biological process)에서 의미 있는 역할을 하는 유전자를 찾을 때도 중요하다고 할 수 있다. 본 발명에 따른 질병 관련 유전자 탐색 방법은 유사한 유전자 발현 패턴을 보이는 샘플들로부터 유전자 발현량(Expression level)을 예측할 때, 특정 질병에 대하여 미리 분류된 두 클래스 사이에서는 유전자 발현량이 예측되는 정확도가 다를 것이라는 전제 하에, 위와 같이 두 클래스 간에 유전자 발현량이 예측되는 정확도의 차이를 점수화하여, 질병 관련 유전자를 선별하는 방법을 제안한다. 이 때 질병의 이질성 정도가 높을수록 위와 같은 유전자 발현량을 예측하는 것이 어려워지고 그에 따라 유전자 발현량이 잘못 예측될 가능성도 높기 때문에, 예측되는 정확도의 차이가 클수록 해당 유전자가 해당 질병에 있어서의 생물학적 프로세스와 관련 있다고 판단할 수 있는 것이다.
다시 말하면, 본 발명에 따른 질병 관련 유전자 탐색 방법은 유사한 유전자 발현 패턴을 보이는 샘플들로부터 유전자 발현량을 예측할 때, 서로 다른 두 질병 조건 사이에서 예측되는 유전자 발현량의 정확도 정도의 차이를 점수화하여, 보다 큰 차이를 보이는 유전자를 해당 질병과 관련된 유전자로 선별함으로써, 주어진 샘플 군에서 생물학적 프로세스와 연관된 핵심 질병 관련 유전자를 보다 정확하고 효율적으로 선별할 수 있다.
아래에서는 위와 같은 기본 원리를 토대로 한 본 발명에 따른 질병 관련 유전자 탐색 장치와 그에 관한 방법의 보다 상세한 구성에 대하여 설명한다.
먼저 이하에서 반복적으로 사용되는 용어인, 유전자 발현(Gene Expression)은 DNA를 구성하는 유전 정보, 즉 유전자에 의해 생물을 구성하는 단백질을 비롯한 기능적인 유전자 생성물이 형성되는 프로세스를 나타내는 용어이고, 유전자 발현량(Gene Expression Level)은 이와 같은 유전자가 발현되는 량을 나타내는 용어로, 유전학 분야에서 널리 사용되는 용어이다.
도 1은 본 발명의 일 실시예에 따른 질병 관련 유전자 탐색 장치의 블록도이다.
본 발명에 따른 질병 관련 유전자 탐색 장치는 협업 필터링부(100)와 질병 관련성 점수 산출부(200)를 포함할 수 있다.
협업 필터링부(100)는 복수 개의 샘플들과 유전자들에 대한 유전자 발현량 데이터를 입력받고, 상기 유전자 발현량 데이터를 토대로 각 샘플 별로 해당 샘플을 제외한 나머지 샘플들 중 일부를 이웃샘플로 선정하고 위와 같이 선정된 이웃샘플을 이용하여 해당 샘플의 유전자 발현량을 예측한다.
여기서 협업 필터링부(100)는 미리 정해진 일정한 종류의 유전자들에 대하여 복수 개의 샘플들의 유전자 발현량 정보를 포함하는 유전자 발현량 데이터를 입력받고, 상기 샘플의 유전자 발현량 간에 미리 정해진 정도 이상의 상관관계를 가지는 상기 샘플들을 각 상기 샘플의 이웃샘플로 선정하고, 상기 각 샘플 별로 선정된 이웃샘플들의 유전자 발현량을 이용하여 상기 각 샘플의 유전자 발현량을 예측하는 것이 바람직하다.
질병 관련성 점수 산출부(200)는 위와 같이 예측된 각 샘플의 유전자들의 유전자 발현량과, 원래의 각 샘플들의 유전자들의 유전자 발현량을 이용하여, 각 유전자 별 질병 관련성 점수를 산출한다.
여기서 질병 관련성 점수 산출부(200)는 협업 필터링부(100)에서 예측된 상기 각 샘플의 유전자 발현량인 유전자 발현량 예측 데이터와 상기 유전자 발현량 데이터를 이용하여, 각 상기 유전자의 질병 관련성 점수를 산출하는 것이 바람직하다.
여기서 본 발명에 따른 질병 관련 유전자 탐색 장치는 필요에 따라 질병 관련 유전자 선별부(300)를 더 포함할 수 있다.
도 2는 본 발명의 또 다른 실시예에 따른 질병 관련 유전자 탐색 장치의 블록도이다.
질병 관련 유전자 선별부(300)는 질병 관련성 점수 산출부(200)에서 산출된 상기 질병 관련성 점수를 기준으로 상기 유전자들 중 질병 관련 유전자를 선별한다.
여기서 질병 관련성 점수가 높을수록 질병과 관련된 유전자인 것이다. 따라서 질병 관련 유전자 선별부(200)는 질병 관련성 점수를 기준으로 각 유전자들을 질병 관련성이 높은 순서대로 정렬할 수 있고, 필요에 따라 일정한 숫자의 질병 관련 유전자를 선별할 수도 있다.
한편 상기 유전자 발현량 데이터는 상기 샘플들이 포함하는 상기 유전자들의 각 유전자 발현량 값을 나타내는 2차원의 유전자 발현량 행렬로 표현될 수 있다.
도 3은 샘플에 포함된 각 유전자들의 유전자 발현량을 나타내는 유전자 발현량 행렬을 설명하기 위한 참고도이다.
도 3과 같이 유전자 발현량 데이터는 미리 정해진 일정한 종류의 유전자들에 대하여 복수 개의 샘플들의 각 유전자 별 유전자 발현량 정보를 포함하는 데이터이다. 이와 같은 유전자 발현량 데이터는 도 3과 같이 2차원의 유전자 발현량 행렬로 표현될 수 있다. 여기서 샘플이라 함은 특정 개체인 생물체 또는 인간으로부터 획득한 유전자 샘플을 지칭한다. 따라서 도 3에서 샘플 1, 샘플 2, ... 샘플 M은 서로 다른 개체에서 획득된 유전자 샘플을 의미한다. 또한 유전자 1, 유전자 2, ... , 유전자 N은 상기 샘플들의 유전자들을 나타내는 것이다.
이하에서 각 샘플의 유전자 발현량이라 함은 도 3의 샘플 j(Sj)와 같이 N개의 유전자에 대한 각 유전자 발현량 정보를 포함하고 있는 데이터를 의미한다. 또한 유전자 발현량 데이터라 함은 이와 같이 유전자 발현량 행렬로 표현되는 데이터를 의미한다. 물론 유전자 발현량 데이터는 필요에 따라 행렬을 비롯한 또 다른 형식으로 표현될 수도 있다.
한편 상기 샘플들은 특정 질병 또는 생물학적 특성을 가지는 집단을 나타내는 제1 클래스와, 그 이외의 집단을 나타내는 제2 클래스로 미리 분류될 수 있다.
예를 들면 제1 클래스는 전립선 암 환자들의 각 유전자 샘플들의 집단이고, 제2 클래서는 전립선 암이 없는 사람들의 각 유전자 샘플들의 집단이 될 수 있다.
도 4는 각 클래스 별 본 발명에 따른 협업 필터링부(100)에서 예측되어 획득되는 유전자 발현량 예측 행렬과 기존에 주어진 유전자 발현량 행렬을 설명하기 위한 참고도이다.
도 4 (a)는 위와 같은 제1 클래스와 제2 클래스를 구분하여 배열한 유전자 발현량 데이터를 나타내는 유전자 발현량 행렬이다. 샘플 S1부터 샘플 Sk까지는 제1 클래스, 샘플 Sk+1부터 샘플 SM까지는 제2 클래스에 포함되는 샘플들이고, 각 샘플들의 유전자 별 유전자 발현량 데이터가 도 4 (a)와 같이 행렬의 형태로 나타나 있다.
도 4 (b)는 협업 필터링부(100)에서 각 상기 샘플들의 이웃샘플들을 이용하여 각 상기 샘플들의 유전자 발현량을 예측하여 획득한 유전자 발현량 예측 데이터를 나타내는 유전자 발현량 예측 행렬이다.
즉 상기 유전자 발현량 예측 데이터는 상기 샘플들이 포함하는 상기 유전자들에 대하여 상기 협업 필터링부(100)에서 예측된 유전자 발현량 값을 나타내는 2차원의 유전자 발현량 예측 행렬로 표현될 수 있다.
이하에서는 협업 필터링부(100)의 동작에 대하여 보다 상세히 설명한다.
먼저 협업 필터링부(100)는 상기 샘플의 유전자 발현량 간의 상관계수를 산출하여 상기 샘플의 유전자 발현량 간의 상관관계를 측정할 수 있다.
협업 필터링부(100)는, 상기 샘플의 유전자 발현량 간의 상관계수(Correlation Coefficient)를 산출한다.
여기서, 상기 상관계수는 피어슨(Pearson) 상관계수가 될 수 있다.
여기서 상기 상관계수는 피어슨 상관계수로 하기 수학식 1과 같이 산출될 수 있다.
Figure 112015004809922-pat00006
(여기서 X는 상기 샘플의 유전자 발현량을 나타내는 행렬이고, j1, j2 는 상기 샘플의 인덱스이고, cov는 공분산, σ 는 분산을 나타내는 연산자이고, P는 상관계수를 산출하는 연산자이다.)
다음으로 협업 필터링부(100)는 각 상기 샘플에 대하여 미리 정해진 문턱값 이상의 상기 상관계수를 가지는 상기 샘플들을 각 상기 샘플의 상기 이웃샘플로 선정한다.
여기서 미리 정해진 문턱값은 사용자가 필요에 따라 설정할 수 있으며 바람직하게는 0.4 내지 0.9 이내의 값을 가지는 것이 바람직하고, 0.8의 값을 사용하는 것이 바람직하다.
도 3을 참조하며 설명하면 협업 필터링부(100)는 상기 유전자 발현량 행렬에 포함된 각 샘플들에 대하여, 각 샘플 별로 자신을 제외한 샘플들 중 일정한 문턱값 이상의 상관계수를 가지는 샘플들을 이웃샘플로 선정할 수 있다. 예를들어 문턱값을 0.8로 하였을 때 각 샘플들 간의 상관계수를 산출하였을 때 샘플 3에 대하여 0.8 이상의 상관계수를 가지는 샘플들로 샘플 5, 샘플 7, 샘플 9가 선정되어 이웃샘플이 될 수 있다. 이와 같이 협업 필터링부(100)는 각 샘플들에 대하여 상관계수를 기준으로 이웃샘플들을 선정한다.
다음으로 협업 필터링부(100)는 상기 선정된 이웃샘플들의 유전자 발현량을 이용하여 각 샘플 별 유전자 발현량을 예측한다. 즉 협업 필터링부(100)는 각 샘플 별로 선정된 이웃샘플들을 이용하여 자기 샘플의 유전자 발현량을 예측한다. 위의 도 3을 참조한 예를 다시 들어 설명하면, 샘플 3에 대하여 샘플 5, 7, 9가 이웃 샘플로 선정된 경우, 협업 필터링부(100)는 샘플 5, 7, 9의 유전자 발현량 정보를 이용하여 샘플 3의 유전자 발현량을 예측할 수 있다. 즉 협업 필터링부(100)는 본인 샘플을 제외한 이웃샘플들을 이용하여 본인 샘플의 유전자 발현량을 예측한다.
여기서 협업 필터링부(100)는, 상기 샘플의 유전자 발현량과 상기 이웃샘플의 유전자 발현량 간의 상기 상관계수와, 상기 샘플의 유전자 발현량의 평균값과, 상기 이웃샘플의 유전자 발현량의 평균값을 이용하여, 상기 샘플 별 각 상기 유전자의 유전자 발현량을 예측하는 것이 바람직하다.
여기서, 협업 필터링부(100)는, 상기 샘플의 특정 유전자의 유전자 발현량을 예측함에 있어서,
상기 이웃샘플의 상기 특정 유전자의 유전자 발현량과 상기 이웃샘플의 유전자 발현량의 평균값의 차이값에 상기 샘플의 유전자 발현량과 상기 이웃샘플의 유전자 발현량 간의 상기 상관계수를 적용하여 정규화한 값에, 상기 샘플의 유전자 발현량의 평균값을 더한 값으로 상기 특정 유전자의 유전자 발현량 예측 데이터를 산출하는 것이 바람직하다.
여기서, 협업 필터링부(100)는, 하기 수학식 2와 같이 상기 샘플의 상기 특정 유전자의 유전자 발현량을 예측하는 것이 바람직하다.
Figure 112015004809922-pat00007
(여기서 i 는 상기 특정 유전자의 인덱스이고, j 는 상기 샘플의 인덱스이고, X는 상기 샘플의 유전자 발현량을 나타내는 행렬이고, Y는 상기 이웃샘플의 유전자 발현량을 나타내는 행렬이고, Neighbor는 상기 이웃샘플들의 집합을 나타내고, k는 상기 이웃샘플들의 집합에서의 각 상기 이웃샘플의 인덱스이고, P는 상기 상관계수를 산출하는 연산자이고, PD는 상기 예측된 유전자 발현량 예측 데이터이고,
Figure 112015004809922-pat00008
는 상기 샘플의 유전자 발현량의 평균값이고,
Figure 112015004809922-pat00009
는 상기 이웃샘플의 유전자 발현량의 평균값이다.)
이상과 같이 예측된 각 샘플의 유전자 발현량은 도 4 (b)와 같이 2차원의 유전자 발현량 예측 행렬로 표현될 수 있다. 즉 상기 수학식 2와 같이 산출된
Figure 112015004809922-pat00010
의 값이 상기 j 번째 샘플의 i 번째 유전자에서의 유전자 발현량 예측 데이터의 값이 되는 것이다. 여기서 도 4 (b)의 P(i, j)의 값이 상기 수학식 2의
Figure 112015004809922-pat00011
값이 된다.
이하에서는 질병 관련성 점수 산출부(200)의 동작에 대하여 보다 상세히 설명한다.
질병 관련성 점수 산출부(200)는 상술한 바와 같이 특정 질병을 기준으로 미리 분류된 제1 클래스와 제2 클래스의 각 샘플들에 대하여 원래 주어진 유전자 발현량 데이터와, 협업 필터링부(100)에서 획득한 유전자 발현량 예측 데이터를 이용하여, 각 유전자가 특정 질병과 관련된 정도를 점수로 측정하여 나타내는 질병 관련성 점수를 산출할 수 있다.
여기서, 질병 관련성 점수 산출부(200)는, 상기 제1 클래스의 상기 유전자 발현량 데이터와 상기 제1 클래스의 상기 유전자 발현량 예측 데이터 간의 차이값과, 상기 제2 클래스의 상기 유전자 발현량 데이터와 상기 제2 클래스의 상기 유전자 발현량 예측 데이터 간의 차이값을 이용하여, 상기 질병 관련성 점수를 산출할 수 있다.
보다 상세하게, 질병 관련성 점수 산출부(200)는, 각 상기 유전자 별로, 상기 제1 클래스의 상기 유전자의 상기 유전자 발현량 데이터와 상기 제1 클래스의 상기 유전자의 상기 유전자 발현량 예측 데이터 간의 제1 차이값을 산출하고, 상기 제2 클래스의 상기 유전자의 상기 유전자 발현량 데이터와 상기 제2 클래스의 상기 유전자의 상기 유전자 발현량 예측 데이터 간의 제2 차이값을 산출하고, 상기 제1 차이값과 상기 제2 차이값 간의 차이가 클수록, 상기 유전자의 상기 질병 관련성 점수가 크도록, 상기 질병 관련성 점수를 산출하는 것이 바람직하다.
여기서, 질병 관련성 점수 산출부(200) 다음과 같은 과정으로 상기 질병 관련성 점수를 산출할 수 있다.
먼저 상기 유전자 별로, 상기 제1 클래스의 상기 유전자의 상기 유전자 발현량 데이터를 나타내는 행렬과 상기 제1 클래스의 상기 유전자의 상기 유전자 발현량 예측 데이터 간를 나타내는 행렬 간의 차분 행렬의 원소들의 절대값의 합으로 상기 제1 차이값을 산출한다.
다음으로 상기 유전자 별로, 상기 제2 클래스의 상기 유전자의 상기 유전자 발현량 데이터를 나타내는 행렬과 상기 제2 클래스의 상기 유전자의 상기 유전자 발현량 예측 데이터 간를 나타내는 행렬 간의 차분 행렬의 원소들의 절대값의 합으로 상기 제2 차이값을 산출한다.
다음으로 상기 질병 관련성 점수를 상기 유전자의 상기 제1 차이값과 상기 제2 차이값 간의 차이값으로 산출한다.
여기서 질병 관련성 점수 산출부(200)는 하기 수학식 3과 같이 상기 질병 관련성 점수를 산출하는 것이 바람직하다.
Figure 112015004809922-pat00012
(여기서 i 는 상기 유전자의 인덱스이고, j 는 상기 샘플의 인덱스이고, X는 상기 샘플의 유전자 발현량을 나타내는 행렬이고, PD는 상기 샘플의 상기 유전자 발현량 예측 데이터를 나타내는 행렬이고, Class 1은 상기 제1 클래스, Class 2는 상기 제2 클래스에 속하는 각 상기 샘플들의 집합이다.)
도 5는 본 발명에 따른 협업 필터링부(100)의 세부 블록도이다.
협업 필터링부(100)는 상관계수 산출부(110), 이웃 샘플 선정부(120), 유전자 발현량 예측부(130)를 포함할 수 있다.
상관계수 산출부(110)는 상기 샘플의 유전자 발현량 간의 상기 상관계수를 산출한다.
이웃 샘플 선정부(120)는 각 상기 샘플 별로, 각 상기 샘플과 미리 정해진 문턱값 이상의 상기 상관계수를 가지는 다른 상기 샘플들을 각 상기 샘플의 상기 이웃샘플로 선정한다.
유전자 발현량 예측부(130)는 상기 샘플의 유전자 발현량과 상기 샘플의 상기 이웃샘플의 유전자 발현량 간의 상기 상관계수와, 상기 샘플의 유전자 발현량의 평균값과, 상기 이웃샘플의 유전자 발현량의 평균값을 이용하여, 상기 샘플 별 각 상기 유전자의 유전자 발현량을 예측한다.
이상과 같은 상관계수 산출부(110), 이웃 샘플 선정부(120), 유전자 발현량 예측부(130)는 위에서 상세히 설명한 협업 필터링부(100)의 동작과 동일한 방식으로 각 부분 동작을 수행할 수 있다.
본 발명의 또 다른 실시예에 따른 질병 관련 유전자 탐색 장치는 협업 필터링부(100), 질병 관련 점수 산출부(200), 질병 관련 유전자 선별부(300)를 상술한 실시예와 동일하게 포함하되, 아래와 같이 동작할 수 있다.
협업 필터링부(100)는 미리 정해진 일정한 종류의 유전자들에 대하여 복수 개의 샘플들의 유전자 발현량 정보를 포함하는 유전자 발현량 데이터를 입력받고, 상기 각 샘플 별로 상기 복수 개의 샘플들 중에서 자신의 상기 샘플을 제외한 나머지 상기 샘플들 중 일부 샘플들의 유전자 발현량을 이용하여 상기 각 샘플의 유전자 발현량을 예측한다.
질병 관련성 점수 산출부(200)는 협업 필터링부(100)에서 예측된 상기 각 샘플의 유전자 발현량인 유전자 발현량 예측 데이터와 상기 유전자 발현량 데이터를 이용하여, 각 상기 유전자의 질병 관련성 점수를 산출한다.
질병 관련 유전자 선별부(300)는 질병 관련성 점수 산출부(200)에서 산출된 상기 질병 관련성 점수를 기준으로 상기 유전자들 중 질병 관련 유전자를 선별한다.
여기서 상기 샘플들은 특정 질병 또는 생물학적 특성을 가지는 집단을 나타내는 제1 클래스와, 그 이외의 집단을 나타내는 제2 클래스로 미리 분류될 수 있다.
또한 질병 관련성 점수 산출부(200)는, 상기 제1 클래스의 상기 유전자 발현량 데이터와 상기 제1 클래스의 상기 유전자 발현량 예측 데이터 간의 차이값과, 상기 제2 클래스의 상기 유전자 발현량 데이터와 상기 제2 클래스의 상기 유전자 발현량 예측 데이터 간의 차이값을 이용하여, 상기 질병 관련성 점수를 산출하는 것이 바람직하다.
여기서, 질병 관련성 점수 산출부(200)는, 각 상기 유전자 별로, 상기 제1 클래스의 상기 유전자의 상기 유전자 발현량 데이터와 상기 제1 클래스의 상기 유전자의 상기 유전자 발현량 예측 데이터 간의 제1 차이값을 산출하고, 상기 제2 클래스의 상기 유전자의 상기 유전자 발현량 데이터와 상기 제2 클래스의 상기 유전자의 상기 유전자 발현량 예측 데이터 간의 제2 차이값을 산출하고, 상기 제1 차이값과 상기 제2 차이값 간의 차이가 클수록, 상기 유전자의 상기 질병 관련성 점수가 크도록, 상기 질병 관련성 점수를 산출하는 것이 바람직하다.
도 6은 본 발명의 또 다른 실시예에 따른 질병 관련 유전자 탐색 방법의 흐름도이다.
본 발명의 또 다른 실시예에 따른 질병 관련 유전자 탐색 방법은 협업 필터링 단계(S100), 질병 관련 점수 산출 단계(S200), 질병 관련 유전자 선별 단계(S300)를 포함할 수 있다. 상기 질병 관련 유전자 탐색 방법의 각 단계는 위에서 도 1 내지 도 5를 참조하면서 상세히 설명한 질병 관련 유전자 탐색 장치와 동일한 방식으로 동작할 수 있다. 이하에서는 중복되는 부분은 생략하고 간략히 서술한다.
협업 필터링 단계(S100)는 미리 정해진 일정한 종류의 유전자들에 대하여 복수 개의 샘플들의 유전자 발현량 정보를 포함하는 유전자 발현량 데이터를 입력받고, 상기 샘플의 유전자 발현량 간에 미리 정해진 정도 이상의 상관계수를 가지는 상기 샘플들을 각 상기 샘플의 이웃샘플로 선정하고, 상기 각 샘플 별로 선정된 이웃샘플들의 유전자 발현량을 이용하여 상기 각 샘플의 유전자 발현량을 예측한다.
질병 관련성 점수 산출 단계(S200)는 상기 예측된 상기 각 샘플의 유전자 발현량인 유전자 발현량 예측 데이터와 상기 유전자 발현량 데이터를 이용하여, 각 상기 유전자의 질병 관련성 점수를 산출한다.
질병 관련 유전자 선별 단계(S300)는 상기 산출된 상기 질병 관련성 점수를 기준으로 상기 유전자들 중 질병 관련 유전자를 선별한다.
도 7은 본 발명에 따른 협업 필터링 단계(S100)의 세부 흐름도이다.
상기 협업 필터링 단계(S100)는 상관계수 산출 단계(S110), 이웃 샘플 선정 단계(S120), 유전자 발현량 예측 단계(S130)를 포함할 수 있다.
상관계수 산출 단계(S110)는 상기 샘플의 유전자 발현량 간의 피어슨 상관계수를 산출한다.
이웃 샘플 선정 단계(S120)는 각 상기 샘플에 대하여 미리 정해진 문턱값 이상의 상기 피어슨 상관계수를 가지는 상기 샘플들을 각 상기 샘플의 상기 이웃샘플로 선정한다.
유전자 발현량 예측 단계(S130)는 상기 샘플의 유전자 발현량과 상기 이웃샘플의 유전자 발현량 간의 상기 상관계수와, 상기 샘플의 유전자 발현량의 평균값과, 상기 이웃샘플의 유전자 발현량의 평균값을 이용하여, 상기 샘플 별 각 상기 유전자의 유전자 발현량을 예측한다.
여기서, 상기 샘플들은 특정 질병 또는 생물학적 특성을 가지는 집단을 나타내는 제1 클래스와, 그 이외의 집단을 나타내는 제2 클래스로 미리 분류된다.
또한 상기 질병 관련성 점수 산출 단계(S200)는, 각 상기 유전자 별로, 상기 제1 클래스의 상기 유전자의 상기 유전자 발현량 데이터와 상기 제1 클래스의 상기 유전자의 상기 유전자 발현량 예측 데이터 간의 제1 차이값을 산출하고, 상기 제2 클래스의 상기 유전자의 상기 유전자 발현량 데이터와 상기 제2 클래스의 상기 유전자의 상기 유전자 발현량 예측 데이터 간의 제2 차이값을 산출하고, 상기 제1 차이값과 상기 제2 차이값 간의 차이가 클수록, 상기 유전자의 상기 질병 관련성 점수가 크도록, 상기 질병 관련성 점수를 산출하는 것이 바람직하다.
본 발명의 또 다른 실시예에 따른 질병 관련 유전자 탐색 방법에 관한 컴퓨터프로그램은, 하드웨어와 결합되어 상기 협업 필터링 단계(S100), 질병 관련성 점수 산출 단계(S200), 질병 관련 유전자 선별 단계(S300)를 실행시키기 위하여 매체에 저장된 컴퓨터프로그램이 될 수 있다.
이상에서 설명한 본 발명의 실시예를 구성하는 모든 구성요소들이 하나로 결합하거나 결합하여 동작하는 것으로 기재되어 있다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.
또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한, 이와 같은 컴퓨터 프로그램은 USB 메모리, CD 디스크, 플래쉬 메모리 등과 같은 컴퓨터가 읽을 수 있는 기록매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 기록매체로서는 자기 기록매체, 광 기록매체 등이 포함될 수 있다.
또한, 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 상세한 설명에서 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.
100 : 협업 필터링부
110 : 상관계수 산출부
120 : 이웃 샘플 선정부
130 : 유전자 발현량 예측부
200 : 질병 관련성 점수 산출부
300 : 질병 관련 유전자 선별부
S100 : 협업 필터링 단계
S200 : 질병 관련성 점수 산출 단계
S300 : 질병 관련 유전자 선별 단계

Claims (21)

  1. 질병 관련 유전자 탐색 장치에 있어서,
    미리 정해진 일정한 종류의 유전자들에 대하여 복수 개의 샘플들의 제1 유전자 발현량 정보를 포함하는 제1 유전자 발현량 데이터를 입력받고, 상기 복수 개의 샘플들 중에서 자신의 상기 샘플을 제외한 나머지 상기 샘플들 중에서 상기 샘플의 제1 유전자 발현량 간에 미리 정해진 정도 이상의 상관관계를 가지는 상기 샘플들을 각 상기 샘플의 이웃샘플로 선정하고, 상기 각 샘플 별로 선정된 이웃샘플들의 제1 유전자 발현량을 이용하여 상기 각 샘플의 제2 유전자 발현량을 예측하는 협업 필터링부; 및
    상기 협업 필터링부에서 예측된 상기 각 샘플의 제2 유전자 발현량에 관한 제2 유전자 발현량 예측 데이터와 상기 제1 유전자 발현량 데이터를 이용하여, 각 상기 유전자의 질병 관련성 점수를 산출하는 질병 관련성 점수 산출부
    를 포함하며,
    상기 제1 유전자 발현량 데이터는 상기 제1 유전자 발현량 값을 나타내는 2차원의 제1 유전자 발현량 행렬로 표현되고, 상기 제2 유전자 발현량 예측 데이터는 상기 제2 유전자 발현량 값을 나타내는 2차원의 제2 유전자 발현량 예측 행렬로 표현되며,
    상기 제2 유전자 발현량 예측 데이터는 상기 이웃샘플의 특정 유전자의 제1 유전자 발현량 및 상기 이웃샘플의 제1 유전자 발현량의 평균값 간의 차이값에 대하여, 상기 샘플의 제1 유전자 발현량 및 상기 이웃샘플의 제1 유전자 발현량로부터 산출한 상관계수를 적용하여 정규화하고, 상기 샘플의 제1 유전자 발현량의 평균값을 더한 값인 것을 특징으로 하는, 질병 관련 유전자 탐색 장치.
  2. 삭제
  3. 제1항에 있어서,
    상기 샘플들은 특정 질병 또는 생물학적 특성을 가지는 집단을 나타내는 제1 클래스와, 그 이외의 집단을 나타내는 제2 클래스로 미리 분류되는 것을 특징으로 하는, 질병 관련 유전자 탐색 장치.
  4. 제1항에 있어서,
    상기 질병 관련성 점수 산출부에서 산출된 상기 질병 관련성 점수를 기준으로 상기 유전자들 중 질병 관련 유전자를 선별하는 질병 관련 유전자 선별부를 더 포함하는 것을 특징으로 하는, 질병 관련 유전자 탐색 장치.
  5. 제1항에 있어서,
    상기 협업 필터링부는,
    상기 샘플의 제1 유전자 발현량 간의 상관계수(Correlation Coefficient)를 산출하고, 각 상기 샘플에 대하여 미리 정해진 문턱값 이상의 상기 상관계수를 가지는 상기 샘플들을 각 상기 샘플의 상기 이웃샘플로 선정하는 것을 특징으로 하는, 질병 관련 유전자 탐색 장치.
  6. 제5항에 있어서,
    상기 상관계수는 피어슨(Pearson) 상관계수인 것을 특징으로 하는, 질병 관련 유전자 탐색 장치.
  7. 제5항에 있어서,
    상기 상관계수는 하기 식 1과 같이 산출되는 것을 특징으로 하는, 질병 관련 유전자 탐색 장치.
    식 1
    Figure 112017040109602-pat00013

    (여기서 X는 상기 샘플의 제1 유전자 발현량을 나타내는 행렬이고, j1, j2 는 상기 샘플의 인덱스이고, cov는 공분산, σ 는 분산을 나타내는 연산자이고, P는 상관계수를 산출하는 연산자이다.)
  8. 삭제
  9. 삭제
  10. 제1항에 있어서,
    상기 협업 필터링부는, 하기 식 2와 같이 상기 샘플의 상기 특정 유전자의 제2 유전자 발현량을 예측하는 것을 특징으로 하는, 질병 관련 유전자 탐색 장치.
    식 2.
    Figure 112017040109602-pat00014

    (여기서 i 는 상기 특정 유전자의 인덱스이고, j 는 상기 샘플의 인덱스이고, X는 상기 샘플의 제1 유전자 발현량을 나타내는 행렬이고, Y는 상기 이웃샘플의 제1 유전자 발현량을 나타내는 행렬이고, Neighbor는 상기 이웃샘플들의 집합을 나타내고, k는 상기 이웃샘플들의 집합에서의 각 상기 이웃샘플의 인덱스이고, P는 상기 상관계수를 산출하는 연산자이고, PD는 상기 예측된 제2 유전자 발현량 예측 데이터이고,
    Figure 112017040109602-pat00015
    는 상기 샘플의 제1 유전자 발현량의 평균값이고,
    Figure 112017040109602-pat00016
    는 상기 이웃샘플의 제1 유전자 발현량의 평균값이다.)
  11. 제3항에 있어서,
    상기 질병 관련성 점수 산출부는,
    상기 제1 클래스의 상기 제1 유전자 발현량 데이터와 상기 제1 클래스의 상기 제2 유전자 발현량 예측 데이터 간의 차이값과, 상기 제2 클래스의 상기 제1 유전자 발현량 데이터와 상기 제2 클래스의 상기 제2 유전자 발현량 예측 데이터 간의 차이값을 이용하여, 상기 질병 관련성 점수를 산출하는 것을 특징으로 하는, 질병 관련 유전자 탐색 장치.
  12. 제11항에 있어서,
    상기 질병 관련성 점수 산출부는,
    각 상기 유전자 별로, 상기 제1 클래스의 상기 유전자의 상기 제1 유전자 발현량 데이터와 상기 제1 클래스의 상기 유전자의 상기 제2 유전자 발현량 예측 데이터 간의 제1 차이값을 산출하고, 상기 제2 클래스의 상기 유전자의 상기 제1 유전자 발현량 데이터와 상기 제2 클래스의 상기 유전자의 상기 제2 유전자 발현량 예측 데이터 간의 제2 차이값을 산출하고,
    상기 제1 차이값과 상기 제2 차이값 간의 차이가 클수록, 상기 유전자의 상기 질병 관련성 점수가 크도록, 상기 질병 관련성 점수를 산출하는 것을 특징으로 하는, 질병 관련 유전자 탐색 장치.
  13. 제12항에 있어서,
    상기 질병 관련성 점수 산출부는, 상기 유전자 별로,
    상기 제1 클래스의 상기 유전자의 상기 제1 유전자 발현량 데이터를 나타내는 행렬과 상기 제1 클래스의 상기 유전자의 상기 제2 유전자 발현량 예측 데이터를 나타내는 행렬 간의 차분 행렬의 원소들의 절대값의 합으로 상기 제1 차이값을 산출하고,
    상기 제2 클래스의 상기 유전자의 상기 제1 유전자 발현량 데이터를 나타내는 행렬과 상기 제2 클래스의 상기 유전자의 상기 제2 유전자 발현량 예측 데이터를 나타내는 행렬 간의 차분 행렬의 원소들의 절대값의 합으로 상기 제2 차이값을 산출하고,
    상기 유전자의 상기 제1 차이값과 상기 제2 차이값 간의 차이의 크기를 상기 질병 관련성 점수로 하는 것을 특징으로 하는, 질병 관련 유전자 탐색 장치.
  14. 제11항에 있어서,
    상기 질병 관련성 점수는 하기 식 3과 같이 산출되는 것을 특징으로 하는, 질병 관련 유전자 탐색 장치.
    식 3.
    Figure 112017040109602-pat00017

    (여기서 i 는 상기 유전자의 인덱스이고, j 는 상기 샘플의 인덱스이고, X는 상기 샘플의 제1 유전자 발현량을 나타내는 행렬이고, PD는 상기 샘플의 상기 제2 유전자 발현량 예측 데이터를 나타내는 행렬이고, Class 1은 상기 제1 클래스, Class 2는 상기 제2 클래스에 속하는 각 상기 샘플들의 집합이다.)
  15. 삭제
  16. 질병 관련 유전자 탐색 장치에 있어서,
    미리 정해진 일정한 종류의 유전자들에 대하여 복수 개의 샘플들의 제1 유전자 발현량 정보를 포함하는 제1 유전자 발현량 데이터를 입력받고, 상기 각 샘플 별로 상기 복수 개의 샘플들 중에서 자신의 상기 샘플을 제외한 나머지 상기 샘플들 중 일부 샘플들의 제1 유전자 발현량을 이용하여 상기 각 샘플의 제2 유전자 발현량을 예측하는 협업 필터링부;
    상기 협업 필터링부에서 예측된 상기 각 샘플의 제2 유전자 발현량에 관한 제2 유전자 발현량 예측 데이터와 상기 제1 유전자 발현량 데이터를 이용하여, 각 상기 유전자의 질병 관련성 점수를 산출하는 질병 관련성 점수 산출부; 및
    상기 질병 관련성 점수 산출부에서 산출된 상기 질병 관련성 점수를 기준으로 상기 유전자들 중 질병 관련 유전자를 선별하는 질병 관련 유전자 선별부를 포함하며,
    상기 제1 유전자 발현량 데이터는 상기 제1 유전자 발현량 값을 나타내는 2차원의 제1 유전자 발현량 행렬로 표현되고, 상기 제2 유전자 발현량 예측 데이터는 상기 제2 유전자 발현량 값을 나타내는 2차원의 제2 유전자 발현량 예측 행렬로 표현되며,
    상기 제2 유전자 발현량 예측 데이터는 상기 이웃샘플의 특정 유전자의 제1 유전자 발현량 및 상기 이웃샘플의 제1 유전자 발현량의 평균값 간의 차이값에 대하여, 상기 샘플의 제1 유전자 발현량 및 상기 이웃샘플의 제1 유전자 발현량로부터 산출한 상관계수를 적용하여 정규화하고, 상기 샘플의 제1 유전자 발현량의 평균값을 더한 값이며,
    상기 샘플들은 특정 질병 또는 생물학적 특성을 가지는 집단을 나타내는 제1 클래스와, 그 이외의 집단을 나타내는 제2 클래스로 미리 분류되고,
    상기 질병 관련성 점수 산출부는, 상기 제1 클래스의 상기 제1 유전자 발현량 데이터와 상기 제1 클래스의 상기 제2 유전자 발현량 예측 데이터 간의 차이값과, 상기 제2 클래스의 상기 제1 유전자 발현량 데이터와 상기 제2 클래스의 상기 제2 유전자 발현량 예측 데이터 간의 차이값을 이용하여, 상기 질병 관련성 점수를 산출하는 것을 특징으로 하는, 질병 관련 유전자 탐색 장치.
  17. 제16항에 있어서,
    상기 질병 관련성 점수 산출부는,
    각 상기 유전자 별로, 상기 제1 클래스의 상기 유전자의 상기 제1 유전자 발현량 데이터와 상기 제1 클래스의 상기 유전자의 상기 제2 유전자 발현량 예측 데이터 간의 제1 차이값을 산출하고, 상기 제2 클래스의 상기 유전자의 상기 제1 유전자 발현량 데이터와 상기 제2 클래스의 상기 유전자의 상기 제2 유전자 발현량 예측 데이터 간의 제2 차이값을 산출하고,
    상기 제1 차이값과 상기 제2 차이값 간의 차이가 클수록, 상기 유전자의 상기 질병 관련성 점수가 크도록, 상기 질병 관련성 점수를 산출하는 것을 특징으로 하는, 질병 관련 유전자 탐색 장치.
  18. 질병 관련 유전자 탐색 장치에 의한 질병 관련 유전자 탐색 방법에 있어서,
    협업 필터링부에 의한, 미리 정해진 일정한 종류의 유전자들에 대하여 복수 개의 샘플들의 제1 유전자 발현량 정보를 포함하는 제1 유전자 발현량 데이터를 입력받고, 상기 복수 개의 샘플들 중에서 자신의 상기 샘플을 제외한 나머지 상기 샘플들 중에서 상기 샘플의 제1 유전자 발현량 간에 미리 정해진 정도 이상의 상관계수를 가지는 상기 샘플들을 각 상기 샘플의 이웃샘플로 선정하고, 상기 각 샘플 별로 선정된 이웃샘플들의 제1 유전자 발현량을 이용하여 상기 각 샘플의 제2 유전자 발현량을 예측하는 협업 필터링 단계;
    질병 관련성 점수 산출부에 의한, 상기 예측된 상기 각 샘플의 제2 유전자 발현량에 관한 제2 유전자 발현량 예측 데이터와 상기 제1 유전자 발현량 데이터를 이용하여, 각 상기 유전자의 질병 관련성 점수를 산출하는 질병 관련성 점수 산출 단계; 및
    질병 관련 유전자 선별부에 의한, 상기 산출된 상기 질병 관련성 점수를 기준으로 상기 유전자들 중 질병 관련 유전자를 선별하는 질병 관련 유전자 선별 단계를 포함하며,
    상기 제1 유전자 발현량 데이터는 상기 제1 유전자 발현량 값을 나타내는 2차원의 제1 유전자 발현량 행렬로 표현되고, 상기 제2 유전자 발현량 예측 데이터는 상기 제2 유전자 발현량 값을 나타내는 2차원의 제2 유전자 발현량 예측 행렬로 표현되며,
    상기 제2 유전자 발현량 예측 데이터는 상기 이웃샘플의 특정 유전자의 제1 유전자 발현량 및 상기 이웃샘플의 제1 유전자 발현량의 평균값 간의 차이값에 대하여, 상기 샘플의 제1 유전자 발현량 및 상기 이웃샘플의 제1 유전자 발현량로부터 산출한 상관계수를 적용하여 정규화하고, 상기 샘플의 제1 유전자 발현량의 평균값을 더한 값인 것을 특징으로 하는 질병 관련 유전자 탐색 방법.
  19. 삭제
  20. 제18항에 있어서,
    상기 샘플들은 특정 질병 또는 생물학적 특성을 가지는 집단을 나타내는 제1 클래스와, 그 이외의 집단을 나타내는 제2 클래스로 미리 분류되고,
    상기 질병 관련성 점수 산출 단계는,
    각 상기 유전자 별로, 상기 제1 클래스의 상기 유전자의 상기 제1 유전자 발현량 데이터와 상기 제1 클래스의 상기 유전자의 상기 제2 유전자 발현량 예측 데이터 간의 제1 차이값을 산출하고, 상기 제2 클래스의 상기 유전자의 상기 제1 유전자 발현량 데이터와 상기 제2 클래스의 상기 유전자의 상기 제2 유전자 발현량 예측 데이터 간의 제2 차이값을 산출하고, 상기 제1 차이값과 상기 제2 차이값 간의 차이가 클수록, 상기 유전자의 상기 질병 관련성 점수가 크도록, 상기 질병 관련성 점수를 산출하는 것을 특징으로 하는, 질병 관련 유전자 탐색 방법.
  21. 프로세서에 의해 실행 가능한 컴퓨터 프로그램 명령어들을 포함하는 컴퓨터 판독 가능한 매체에 기록된 질병 관련 유전자 탐색을 위한 컴퓨터 프로그램으로서, 상기 프로세서에 의해 실행되는 경우에,
    미리 정해진 일정한 종류의 유전자들에 대하여 복수 개의 샘플들의 제1 유전자 발현량 정보를 포함하는 제1 유전자 발현량 데이터를 입력받고, 상기 복수 개의 샘플들 중에서 자신의 상기 샘플을 제외한 나머지 상기 샘플들 중에서 상기 샘플의 제1 유전자 발현량 간에 미리 정해진 정도 이상의 상관계수를 가지는 상기 샘플들을 각 상기 샘플의 이웃샘플로 선정하고, 상기 각 샘플 별로 선정된 이웃샘플들의 제1 유전자 발현량을 이용하여 상기 각 샘플의 제2 유전자 발현량을 예측하는 협업 필터링 단계;
    상기 예측된 상기 각 샘플의 제2 유전자 발현량에 관한 제2 유전자 발현량 예측 데이터와 상기 제1 유전자 발현량 데이터를 이용하여, 각 상기 유전자의 질병 관련성 점수를 산출하는 질병 관련성 점수 산출 단계; 및
    상기 산출된 상기 질병 관련성 점수를 기준으로 상기 유전자들 중 질병 관련 유전자를 선별하는 질병 관련 유전자 선별 단계들을 수행하도록 하는 명령어들을 포함하며,
    상기 제1 유전자 발현량 데이터는 상기 제1 유전자 발현량 값을 나타내는 2차원의 제1 유전자 발현량 행렬로 표현되고, 상기 제2 유전자 발현량 예측 데이터는 상기 제2 유전자 발현량 값을 나타내는 2차원의 제2 유전자 발현량 예측 행렬로 표현되며,
    상기 제2 유전자 발현량 예측 데이터는 상기 이웃샘플의 특정 유전자의 제1 유전자 발현량 및 상기 이웃샘플의 제1 유전자 발현량의 평균값 간의 차이값에 대하여, 상기 샘플의 제1 유전자 발현량 및 상기 이웃샘플의 제1 유전자 발현량로부터 산출한 상관계수를 적용하여 정규화하고, 상기 샘플의 제1 유전자 발현량의 평균값을 더한 값인 것을 특징으로 하는 컴퓨터 프로그램.
KR1020150008040A 2015-01-16 2015-01-16 질병 관련 유전자 탐색 장치 및 그 방법 KR101771042B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150008040A KR101771042B1 (ko) 2015-01-16 2015-01-16 질병 관련 유전자 탐색 장치 및 그 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150008040A KR101771042B1 (ko) 2015-01-16 2015-01-16 질병 관련 유전자 탐색 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20160088663A KR20160088663A (ko) 2016-07-26
KR101771042B1 true KR101771042B1 (ko) 2017-08-24

Family

ID=56680871

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150008040A KR101771042B1 (ko) 2015-01-16 2015-01-16 질병 관련 유전자 탐색 장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR101771042B1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112397141A (zh) * 2019-08-16 2021-02-23 财团法人工业技术研究院 建构数位化疾病模组的方法及装置
CN113362895A (zh) * 2021-06-15 2021-09-07 上海基绪康生物科技有限公司 一种预测抗癌药物反应相关基因的综合分析方法
CN113436681B (zh) * 2021-07-05 2022-02-25 温州谱希医学检验实验室有限公司 低频变异与目标疾病的关联统计检验方法及相关设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100734430B1 (ko) 2006-11-13 2007-07-02 한국정보통신대학교 산학협력단 마이크로어레이 데이터의 클래스 판별 유전자 셋 탐색 방법및 저장 매체
WO2012039484A1 (ja) 2010-09-22 2012-03-29 独立行政法人産業技術総合研究所 遺伝子クラスタ及び遺伝子の探索、同定法およびそのための装置
KR101473341B1 (ko) 2014-02-18 2014-12-16 연세대학교 산학협력단 유전자 클래스 결정 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100734430B1 (ko) 2006-11-13 2007-07-02 한국정보통신대학교 산학협력단 마이크로어레이 데이터의 클래스 판별 유전자 셋 탐색 방법및 저장 매체
WO2012039484A1 (ja) 2010-09-22 2012-03-29 独立行政法人産業技術総合研究所 遺伝子クラスタ及び遺伝子の探索、同定法およびそのための装置
KR101473341B1 (ko) 2014-02-18 2014-12-16 연세대학교 산학협력단 유전자 클래스 결정 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Ganegoda et al. BMC Systems Biology 2014, 8(Suppl 3):S3 (2014)*
Zhao et al., PLoS One. 2011. Vol.6(9):e24306. (2011. 9. 2. 온라인 공개)*

Also Published As

Publication number Publication date
KR20160088663A (ko) 2016-07-26

Similar Documents

Publication Publication Date Title
Yousefi et al. DNA methylation-based predictors of health: applications and statistical considerations
Azadifar et al. Graph-based relevancy-redundancy gene selection method for cancer diagnosis
Yin et al. Using the structure of genome data in the design of deep neural networks for predicting amyotrophic lateral sclerosis from genotype
RU2517286C2 (ru) Классификация данных выборок
Cao et al. ROC curves for the statistical analysis of microarray data
US9940383B2 (en) Method, an arrangement and a computer program product for analysing a biological or medical sample
JP2005531853A (ja) Snp遺伝子型クラスタリングのためのシステムおよび方法
Padmanabhan et al. An active learning approach for rapid characterization of endothelial cells in human tumors
US20220207730A1 (en) Systems and Methods for Automated Image Analysis
KR101771042B1 (ko) 질병 관련 유전자 탐색 장치 및 그 방법
Subtil et al. An enhancement of ROC curves made them clinically relevant for diagnostic-test comparison and optimal-threshold determination
US20140180599A1 (en) Methods and apparatus for analyzing genetic information
JP7197795B2 (ja) 機械学習プログラム、機械学習方法および機械学習装置
Tillinghast Microarrays in the clinic
US20090319450A1 (en) Protein search method and device
KR102124193B1 (ko) 기계 학습을 이용한 우울증 또는 자살 위험 예측용 마커 발굴 방법, 우울증 또는 자살 위험 예측용 마커, 및 기계 학습을 이용한 우울증 또는 자살 위험 예측 방법
KR101990430B1 (ko) 암의 재발 예후 예측을 위한 바이오마커 발굴 시스템 및 방법
CN116525108A (zh) 基于snp数据的预测方法、装置、设备及存储介质
KR102397822B1 (ko) 염색체 구조의 상태 정보를 이용한 세포 분석 장치 및 방법
US20220044762A1 (en) Methods of assessing breast cancer using machine learning systems
Devaux et al. Random survival forests for competing risks with multivariate longitudinal endogenous covariates
US20180181705A1 (en) Method, an arrangement and a computer program product for analysing a biological or medical sample
US20220148178A1 (en) Methods of assessing diseases using image classifiers
AU2019446735B2 (en) Method for discovering marker for predicting risk of depression or suicide using multi-omics analysis, marker for predicting risk of depression or suicide, and method for predicting risk of depression or suicide using multi-omics analysis
US20200105374A1 (en) Mixture model for targeted sequencing

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant