KR101708715B1 - 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 장치 및 방법 - Google Patents

인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 장치 및 방법 Download PDF

Info

Publication number
KR101708715B1
KR101708715B1 KR1020150027484A KR20150027484A KR101708715B1 KR 101708715 B1 KR101708715 B1 KR 101708715B1 KR 1020150027484 A KR1020150027484 A KR 1020150027484A KR 20150027484 A KR20150027484 A KR 20150027484A KR 101708715 B1 KR101708715 B1 KR 101708715B1
Authority
KR
South Korea
Prior art keywords
data
gene
animal
human
standard deviation
Prior art date
Application number
KR1020150027484A
Other languages
English (en)
Other versions
KR20160104439A (ko
Inventor
석준희
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020150027484A priority Critical patent/KR101708715B1/ko
Publication of KR20160104439A publication Critical patent/KR20160104439A/ko
Application granted granted Critical
Publication of KR101708715B1 publication Critical patent/KR101708715B1/ko

Links

Images

Classifications

    • G06F19/20
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G06F19/24
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Molecular Biology (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Genetics & Genomics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Artificial Intelligence (AREA)

Abstract

본 발명의 일 실시예에 따른 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 장치는 동물의 유전자 발현에 관한 사용자 실험 데이터를 입력받고, 상기 입력된 사용자 실험 데이터와 가장 높은 상관 관계를 가지는 동물 실험 데이터, 및 상기 동물 실험 데이터와 매칭된 인간의 반응에 관한 인간 실험 데이터를 질병 데이터베이스로부터 검색하는 프로필 검색부; 상기 동물 실험 데이터 및 상기 인간 실험 데이터 각각에 대한 폴드 체인지(fold change) 및 클래스 내(within-class) 표준편차에 기초하여 해당 유전자에 대한 가상 분산을 계산하는 가상 분산 계산부; 및 상기 가상 분산에 기초하여 상기 유전자에 대한 중요도를 통계적으로 계산하는 유전자 중요도 계산부를 포함한다.

Description

인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 장치 및 방법{DEVICE AND METHOD FOR ANALYZING GENE EXPRESSING RESPONSE DATA OF MODEL EXPERIMENT FOR ACTUAL HUMAN RESPONSE}
본 발명의 실시예들은 유전자 데이터의 분석 기술에 관한 것으로서, 더욱 상세하게는 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 장치 및 방법에 관한 것이다.
인간의 질병에 대한 원리 및 치료법을 찾기 위해 쥐와 같은 동물 모델을 이용한 실험이 많이 이용되고 있다. 이들 실험 중 질병이나 약물에 대한 유전자 발현 반응에 대한 실험은 질병의 발병이나 약물의 효과에 대한 근본적인 원리를 밝히는 주요한 연구 수단이다.
종래의 유전자 발현 데이터의 분석법은 단순히 실험 데이터 내에서 통계적으로 유의미한 유전자를 중요 유전자로 선별하였다. 이는 동물 실험에서 중요한 유전자라는 의미이지, 우리가 실제로 연구하려는 인간에서도 중요한 유전자라는 의미는 아니다.
지난 수십 년간 인간과 동물 모델에 대한 다양한 유전자 발현 반응 실험 데이터가 축적되어 왔고, 이를 자유롭게 이용할 수 있다. 이러한 대규모 데이터의 사용 가능성은 인간과 모델 사이의 차이점을 체계적으로 분석할 수 있는 기회를 제공한다.
관련 선행기술로는 공개특허공보 제10-2008-0063156호(발명의 명칭: 표준 발현 유전자를 발굴하기 위한 유전자 발현 데이터 처리, 분석 방법, 공개일자: 2008년 7월 3일)가 있다.
본 발명의 일 실시예는 질병 데이터베이스를 검색하여 입력된 유전자 발현 데이터와 가장 유사한 프로필을 갖는 기존의 실험을 찾고, 그것으로부터 가상 분산을 계산하여 유전자의 중요도를 통계적으로 계산함으로써, 특정 질병이나 약물 등에 대해 실제 인간의 반응과 비슷한 반응을 보이는, 동물 실험 데이터에서의 유전자를 중요 유전자로 정확히 선별할 수 있는, 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 장치 및 방법을 제공한다.
본 발명이 해결하고자 하는 과제는 이상에서 언급한 과제(들)로 제한되지 않으며, 언급되지 않은 또 다른 과제(들)은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
본 발명의 일 실시예에 따른 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 장치는 동물의 유전자 발현에 관한 사용자 실험 데이터를 입력받고, 상기 입력된 사용자 실험 데이터와 가장 높은 상관 관계를 가지는 동물 실험 데이터, 및 상기 동물 실험 데이터와 매칭된 인간의 반응에 관한 인간 실험 데이터를 질병 데이터베이스로부터 검색하는 프로필 검색부; 상기 동물 실험 데이터 및 상기 인간 실험 데이터 각각에 대한 폴드 체인지(fold change) 및 클래스 내(within-class) 표준편차에 기초하여 해당 유전자에 대한 가상 분산을 계산하는 가상 분산 계산부; 및 상기 가상 분산에 기초하여 상기 유전자에 대한 중요도를 통계적으로 계산하는 유전자 중요도 계산부를 포함한다.
본 발명의 일 실시예에 따른 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 장치는 복수의 유전자 각각에 대한 동물 실험 데이터 및 인간 실험 데이터를 매칭하여 저장하는 상기 질병 데이터베이스를 더 포함할 수 있다.
상기 동물 실험 데이터 및 상기 인간 실험 데이터 각각은 복수의 대조군 샘플 및 복수의 실험군 샘플을 포함하고, 상기 질병 데이터베이스는 상기 복수의 유전자 각각에 대한 발현 정도를 나타내는, 복수의 유전자 발현 데이터를 행으로 하고, 상기 복수의 대조군 샘플 및 실험군 샘플 각각에 대한 프로파일을 열로 하는 매트릭스 형태로 상기 동물 실험 데이터 및 상기 인간 실험 데이터를 가공하여 저장할 수 있다.
상기 프로필 검색부는 상기 질병 데이터베이스 내 동물 실험 데이터에 속하는 유전자들 중에서 상기 사용자 실험 데이터의 유전자와 공통으로 속해있는 공통 유전자를 추출하고, 상기 추출된 공통 유전자에 대하여 상기 동물 실험 데이터 및 상기 사용자 실험 데이터 각각의 폴드 체인지를 계산하여, 상기 사용자 실험 데이터와 가장 높은 상관 관계를 가지는 동물 실험 데이터를 상기 질병 데이터베이스로부터 검색할 수 있다.
상기 프로필 검색부는 상기 사용자 실험 데이터의 폴드 체인지와 상기 동물 실험 데이터의 폴드 체인지 간의 상관 계수를 계산하고, 상기 상관 계수의 계산 결과에 기초하여 상기 사용자 실험 데이터와 가장 높은 상관 관계를 가지는 동물 실험 데이터를 검색할 수 있다.
상기 가상 분산 계산부는 상기 사용자 실험 데이터와 가장 높은 상관 관계를 가지는 동물 실험 데이터의 i번째 유전자(여기서, i는 1이상의 자연수)의 폴드 체인지(fmi) 및 클래스 내 표준편차(smi)를 계산하고, 상기 동물 실험 데이터의 i번째 유전자에 대응되는 인간 실험 데이터의 i번째 유전자의 폴드 체인지(fti) 및 클래스 내 표준편차(sti)를 계산하며, 상기 폴드 체인지(fmi) 및 클래스 내 표준편차(smi)와 상기 폴드 체인지(fti) 및 클래스 내 표준편차(sti)를 이용하여 상기 i번째 유전자에 대한 가상 분산을 계산할 수 있다.
상기 가상 분산 계산부는 상기 폴드 체인지(fmi)의 로그 값과 상기 폴드 체인지(fti)의 로그 값을 곱한 결과가 0보다 큰 제1 조건을 만족하는 i번째 유전자에 대하여, 하기 수학식 3을 이용하여 상기 가상 분산(αi)을 계산할 수 있다.
[수학식 3]
Figure 112015019337788-pat00001
여기서, argmin(x)은 x를 최소화시키는 α값을 나타냄.
상기 가상 분산 계산부는 상기 제1 조건을 만족하지 않는 k번째 유전자(여기서, k는 1이상의 자연수)에 대하여 상기 가상 분산(αk)을 계산하는 경우, 상기 제1 조건을 만족하는 i번째 유전자에 대하여, 하기 수학식 4를 이용하여 제1 중간 값(di)을 산출하고, 상기 제1 중간 값(di), 상기 클래스 내 표준편차(smi), 및 상기 클래스 내 표준편차(sti)를 이용한 하기 수학식 5의 선형 회기 분석을 통해 상기 i번째 유전자의 가상 분산을 근사 계산하며, 상기 동물 실험 데이터의 k번째 유전자의 폴드 체인지(fmk)의 로그 값, 및 상기 인간 실험 데이터의 k번째 유전자의 폴드 체인지(ftk)의 로그 값을 곱한 결과가 0보다 큰 제2 조건을 만족하지 않는 상기 k번째 유전자에 대하여, 하기 수학식 6을 이용하여 제2 중간 값(dk)을 계산하고, 상기 제2 조건을 만족하지 않는 상기 k번째 유전자에 대하여, 상기 제2 중간 값(dk), 클래스 내 표준편차(smk), 및 클래스 내 표준편차(stk)를 이용한 하기 수학식 7을 통해 상기 가상 분산(αk)을 근사 계산할 수 있다.
[수학식 4]
Figure 112015019337788-pat00002
[수학식 5]
Figure 112015019337788-pat00003
[수학식 6]
Figure 112015019337788-pat00004
[수학식 7]
Figure 112015019337788-pat00005
여기서, β0, β1, β2, β3는 상수를 나타냄.
상기 유전자 중요도 계산부는 상기 가상 분산을 이용한 하기 수학식 8에 기초하여 통계량(ti)을 계산하고, 상기 계산된 통계량(ti)에 기초하여 상기 유전자에 대한 중요도(pi)를 계산할 수 있다.
[수학식 8]
Figure 112015019337788-pat00006
여기서, fi는 사용자 실험 데이터에 대한 폴드 체인지(fold change)를 나타내고, si는 사용자 실험 데이터에 대한 클래스 내(within-class) 표준편차를 나타낼 수 있다.
상기 중요도는 0 ~ 1 범위 내의 값으로 계산되며, 상기 유전자 중요도 계산부는 상기 중요도의 값이 0에 가까울수록 상기 동물의 유전자가 상기 인간의 유전자와 가장 유사한 반응을 보이는 것으로 판단할 수 있다.
상기 폴드 체인지는 상기 동물 실험 데이터 내 실험군 샘플들의 평균값을 상기 동물 실험 데이터 내 대조군 샘플들의 평균값으로 나누어 계산한 결과일 수 있다.
상기 클래스 내 표준편차는 상기 동물 실험 데이터 내 실험군 샘플들의 표준편차와, 상기 동물 실험 데이터 내 대조군 샘플들의 표준편차를 합하여 평균한 값일 수 있다.
본 발명의 일 실시예에 따른 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 방법은 동물의 유전자 발현에 관한 사용자 실험 데이터를 입력받는 단계; 상기 입력된 사용자 실험 데이터와 가장 높은 상관 관계를 가지는 동물 실험 데이터, 및 상기 동물 실험 데이터와 매칭된 인간의 반응에 관한 인간 실험 데이터를 질병 데이터베이스로부터 검색하는 단계; 상기 동물 실험 데이터 및 상기 인간 실험 데이터 각각에 대한 폴드 체인지 및 클래스 내 표준편차에 기초하여 해당 유전자에 대한 가상 분산을 계산하는 단계; 및 상기 가상 분산에 기초하여 상기 유전자에 대한 중요도를 통계적으로 계산하는 단계를 포함한다.
본 발명의 일 실시예에 따른 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 방법은 복수의 유전자 각각에 대한 동물 실험 데이터 및 인간 실험 데이터를 매칭하여 상기 질병 데이터베이스에 저장하는 단계를 더 포함할 수 있다.
상기 질병 데이터베이스로부터 검색하는 단계는 상기 질병 데이터베이스 내 동물 실험 데이터에 속하는 유전자들 중에서 상기 사용자 실험 데이터의 유전자와 공통으로 속해있는 공통 유전자를 추출하는 단계; 및 상기 추출된 공통 유전자에 대하여 상기 동물 실험 데이터 및 상기 사용자 실험 데이터 각각의 폴드 체인지를 계산하여, 상기 사용자 실험 데이터와 가장 높은 상관 관계를 가지는 동물 실험 데이터를 상기 질병 데이터베이스로부터 검색하는 단계를 포함할 수 있다.
상기 질병 데이터베이스를 검색하는 단계는 상기 사용자 실험 데이터의 폴드 체인지와 상기 동물 실험 데이터의 폴드 체인지 간의 상관 계수를 계산하는 단계; 및 상기 상관 계수의 계산 결과에 기초하여 상기 사용자 실험 데이터와 가장 높은 상관 관계를 가지는 동물 실험 데이터를 검색하는 단계를 포함할 수 있다.
상기 가상 분산을 계산하는 단계는 상기 사용자 실험 데이터와 가장 높은 상관 관계를 가지는 동물 실험 데이터의 i번째 유전자(여기서, i는 1이상의 자연수)의 폴드 체인지(fmi) 및 클래스 내 표준편차(smi)를 계산하는 단계; 상기 동물 실험 데이터의 i번째 유전자에 대응되는 인간 실험 데이터의 i번째 유전자의 폴드 체인지(fti) 및 클래스 내 표준편차(sti)를 계산하는 단계; 및 상기 폴드 체인지(fmi) 및 클래스 내 표준편차(smi)와 상기 폴드 체인지(fti) 및 클래스 내 표준편차(sti)를 이용하여 상기 i번째 유전자에 대한 가상 분산을 계산하는 단계를 포함할 수 있다.
상기 i번째 유전자에 대한 가상 분산을 계산하는 단계는 상기 폴드 체인지(fmi)의 로그 값과 상기 폴드 체인지(fti)의 로그 값을 곱한 결과가 0보다 큰 제1 조건을 만족하는 i번째 유전자에 대하여, 하기 수학식 3을 이용하여 상기 가상 분산(αi)을 계산하는 단계를 포함할 수 있다.
[수학식 3]
Figure 112015019337788-pat00007
상기 제1 조건을 만족하지 않는 k번째 유전자(여기서, k는 1이상의 자연수)에 대하여 상기 가상 분산(αk)을 계산하는 경우, 상기 가상 분산을 계산하는 단계는 상기 제1 조건을 만족하는 i번째 유전자에 대하여, 하기 수학식 4를 이용하여 제1 중간 값(di)을 산출하는 단계; 상기 제1 중간 값(di), 상기 클래스 내 표준편차(smi), 및 상기 클래스 내 표준편차(sti)를 이용한 하기 수학식 5의 선형 회기 분석을 통해 상기 i번째 유전자의 가상 분산을 근사 계산하는 단계; 상기 동물 실험 데이터의 k번째 유전자의 폴드 체인지(fmk)의 로그 값, 및 상기 인간 실험 데이터의 k번째 유전자의 폴드 체인지(ftk)의 로그 값을 곱한 결과가 0보다 큰 제2 조건을 만족하지 않는 상기 k번째 유전자에 대하여, 하기 수학식 6을 이용하여 제2 중간 값(dk)을 계산하는 단계; 및 상기 제2 조건을 만족하지 않는 상기 k번째 유전자에 대하여, 상기 제2 중간 값(dk), 클래스 내 표준편차(smk), 및 클래스 내 표준편차(stk)를 이용한 하기 수학식 7을 통해 상기 가상 분산(αk)을 근사 계산하는 단계를 더 포함할 수 있다.
[수학식 4]
Figure 112015019337788-pat00008
[수학식 5]
Figure 112015019337788-pat00009
[수학식 6]
Figure 112015019337788-pat00010
[수학식 7]
Figure 112015019337788-pat00011
여기서, β0, β1, β2, β3는 상수를 나타낼 수 있다.
상기 유전자에 대한 중요도를 통계적으로 계산하는 단계는 상기 가상 분산을 이용한 하기 수학식 8에 기초하여 통계량(ti)을 계산하는 단계; 및 상기 계산된 통계량(ti)에 기초하여 상기 유전자에 대한 중요도(pi)를 계산하는 단계를 포함할 수 있다.
[수학식 8]
Figure 112015019337788-pat00012
여기서, fi는 사용자 실험 데이터에 대한 폴드 체인지(fold change)를 나타내고, si는 사용자 실험 데이터에 대한 클래스 내(within-class) 표준편차를 나타낼 수 있다.
상기 중요도는 0 ~ 1 범위 내의 값으로 계산되며, 상기 유전자에 대한 중요도를 통계적으로 계산하는 단계는 상기 중요도의 값이 0에 가까울수록 상기 동물의 유전자가 상기 인간의 유전자와 가장 유사한 반응을 보이는 것으로 판단하는 단계를 더 포함할 수 있다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 첨부 도면들에 포함되어 있다.
본 발명의 일 실시예에 따르면, 질병 데이터베이스를 검색하여 입력된 유전자 발현 데이터와 가장 유사한 프로필을 갖는 기존의 실험을 찾고, 그것으로부터 가상 분산을 계산하여 유전자의 중요도를 통계적으로 계산함으로써, 특정 질병이나 약물 등에 대해 실제 인간의 반응과 비슷한 반응을 보이는, 동물 실험 데이터에서의 유전자를 중요 유전자로 정확히 선별할 수 있다.
도 1은 본 발명의 일 실시예에 따른 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 장치를 설명하기 위해 도시한 블록도이다.
도 2는 본 발명의 일 실시예에 있어서, 실험 데이터를 매트릭스 형태로 가공하여 저장(또는 입력)하는 일례를 도시한 도면이다.
도 3 내지 도 5는 본 발명의 일 실시예에 따른 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 방법을 설명하기 위해 도시한 흐름도이다.
도 6 및 도 7은 본 발명의 방법(EBT)과 기존의 방법(CT)에 따른 전체 반응(overall response)의 일치도를 나타낸 도면이다.
도 8 및 도 9는 본 발명의 방법(EBT)과 기존의 방법(CT)에 따른 실험 고유의 반응(experiment specific response)의 일치도를 나타낸 도면이다.
도 10 및 도 11은 본 발명의 방법(EBT)과 기존의 방법(CT)에 따른 중요 세포 기능 반응(context-level response)의 일치도를 나타낸 도면이다.
본 발명의 이점 및/또는 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성요소를 지칭한다.
이하에서는 첨부된 도면을 참조하여 본 발명의 실시예들을 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 장치를 설명하기 위해 도시한 블록도이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 장치(100)는 질병 데이터베이스(110), 프로필 검색부(120), 가상 분산 계산부(130), 및 유전자 중요도 계산부(140)를 포함할 수 있다.
상기 질병 데이터베이스(110)는 복수의 유전자 각각에 대한 동물 실험 데이터, 및 인간의 반응에 관한 인간 실험 데이터를 매칭하여 저장한다. 여기서, 상기 동물 실험 데이터 및 상기 인간 실험 데이터 각각은 복수의 대조군 샘플 및 복수의 실험군 샘플을 포함할 수 있다.
즉, 상기 질병 데이터베이스(110)는 상기 복수의 유전자 각각에 대한 발현 정도를 나타내는, 복수의 유전자 발현 데이터를 행으로 하고, 상기 복수의 대조군 샘플 및 실험군 샘플 각각에 대한 프로파일을 열로 하는 매트릭스 형태로 상기 동물 실험 데이터 및 상기 인간 실험 데이터를 가공하여 저장할 수 있다.
이하에서는 상기 질병 데이터베이스(110)에 대해 보다 구체적으로 설명한다.
상기 질병 데이터베이스(110)는 기 수행된 유전자 발현 반응 실험으로부터 축적된 대규모의 실험 데이터를 가공하여 구축된다. 이를 위해, 상기 질병 데이터베이스(110)는 유전자 발현 옴니버스(Gene Expression Omnibus)와 같은 공개된 웹사이트로부터 상기 축적된 대규모의 실험 데이터를 수집할 수 있다.
본 발명의 일 실시예에서는 공개된 많은 실험 중에서 다음에 해당하는 동물 모델 실험을 선정하여 상기 질병 데이터베이스(110) 구축에 이용할 수 있다.
(1) 복수의 실험군 샘플이 존재한다.
(2) 실험군에 대한 복수의 대조군 샘플의 데이터가 존재한다.
(3) 해당 동물 실험이 연구하고자 하는 질병 혹은 약물에 대한 인간 반응의 실험 데이터가 존재한다.
(4) (3)의 인간 반응 실험 데이터는 복수의 실험군과 복수의 대조군 샘플을 갖고 있다.
상기 질병 데이터베이스(110)는 위의 조건 (1) ~ (4)에 해당하는 동물 실험 데이터와 인간의 반응에 대한 실험 데이터(인간 실험 데이터)를 수집하여 도 2의 매트릭스 형태로 가공할 수 있다.
하나의 실험에 대한 프로필은 도 2와 같이 하나의 매트릭스로 구성될 수 있다. xij를 i번째 유전자의 j번째 대조군 샘플에서의 유전자 발현 정도라고 하자. 비슷하게 yij를 i번째 유전자의 j번째 실험군 샘플에서의 유전자 발현 정도라고 하자. 하나의 실험 프로필에 관한 데이터에는 모두 n1(여기서, n1은 2이상의 자연수)개의 대조군 샘플과 n2(여기서, n2은 2이상의 자연수)개의 실험군 샘플이 있다고 하자. 이러한 경우, 상기 하나의 실험 프로필은 다음과 같은 정보를 포함할 수 있다.
(1) 실험이 수행된 동물: 쥐와 같은 동물 모델 혹은 인간
(2) 기타 실험에 대한 자세한 정보
(3) 각 유전자에 대한 폴드 체인지(fold change)
- 유전자 i(여기서, i는 1이상의 자연수)에 대한 폴드 체인지 fi는 다음의 수학식 1과 같이 계산될 수 있다.
[수학식 1]
Figure 112015019337788-pat00013
여기서, xij는 i번째 유전자의 j번째 대조군 샘플에서의 유전자 발현 정도(데이터)를 나타내고, yij는 i번째 유전자의 j번째 실험군 샘플에서의 유전자 발현 정도를 나타낸다.
상기 수학식 1에 의하면, 상기 폴드 체인지는 상기 동물 실험 데이터 내 실험군 샘플들의 평균값을 상기 동물 실험 데이터 내 대조군 샘플들의 평균값으로 나누어 계산한 결과로 표현될 수 있다.
(4) 각 유전자에 대한 클래스 내(within-class) 표준편차
- 유전자 i에 대하여 대조군 내에서의 발현 정도의 표준편차를 σi1이라 하고, 실험군 내에서의 표준편차를 σi2라고 하였을 때, within-class 표준편차 si는 다음의 수학식 2와 같이 계산될 수 있다.
[수학식 2]
Figure 112015019337788-pat00014
즉, 상기 클래스 내 표준편차는 상기 동물 실험 데이터 내 실험군 샘플들의 표준편차와, 상기 동물 실험 데이터 내 대조군 샘플들의 표준편차를 합하여 평균한 값으로 표현될 수 있다.
(5) 해당 실험이 동물 모델 실험인 경우, 이 실험이 연구하고자 하는 인간 반응에 대한 실험 프로필
상기 질병 데이터베이스(110)는 위와 같이 수집되고 가공된 동물 모델 실험 및 인간에 대한 다수의 실험 프로필로 구성될 수 있다.
상기 프로필 검색부(120)는 동물의 유전자 발현에 관한 사용자 실험 데이터를 입력받는다. 여기서, 상기 사용자 실험 데이터는 사용자가 분석하려고 하는 실험으로부터 얻어진 유전자 발현 데이터이다.
상기 사용자 실험 데이터는 상기 동물 실험 데이터 및 상기 인간 실험 데이터와 마찬가지로, 도 2와 같이 유전자별 발현 정도를 행으로 하고 샘플별 프로파일을 열로 하는 매트릭스의 형태로 정의될 수 있다.
상기 사용자 실험 데이터는 실험 장비로부터 얻어질 수 있으며, 상기 사용자의 입력 조작에 의해 도 2와 같은 매트릭스 형태로 가공되어 입력될 수 있다. 실험 샘플, 즉 상기 사용자 실험 데이터는 복수의 대조군 샘플(control group sample)과 복수의 실험군 샘플(test group sample)로 이루어질 수 있다.
상기 프로필 검색부(120)는 상기 입력된 사용자 실험 데이터와 가장 높은 상관 관계를 가지는 동물 실험 데이터를 검색한다. 또한, 상기 프로필 검색부(120)는 상기 검색된 동물 실험 데이터와 매칭된 인간 실험 데이터를 상기 질병 데이터베이스(110)로부터 검색한다.
이때, 상기 프로필 검색부(120)는 상기 질병 데이터베이스(110) 내 동물 실험 데이터에 속하는 유전자들 중에서 상기 사용자 실험 데이터의 유전자와 공통으로 속해있는 공통 유전자를 추출할 수 있다. 상기 프로필 검색부(120)는 상기 추출된 공통 유전자에 대하여 상기 동물 실험 데이터 및 상기 사용자 실험 데이터 각각의 폴드 체인지를 계산하여, 상기 사용자 실험 데이터와 가장 높은 상관 관계를 가지는 동물 실험 데이터를 상기 질병 데이터베이스(110)로부터 검색할 수 있다.
여기서, 상기 프로필 검색부(120)는 상기 사용자 실험 데이터와 가장 높은 상관 관계를 가지는 동물 실험 데이터를 검색하기 위해, 상기 사용자 실험 데이터의 폴드 체인지와 상기 동물 실험 데이터의 폴드 체인지 간의 상관 계수를 계산할 수 있다.
즉, 상기 프로필 검색부(120)는 상기 사용자 실험 데이터의 폴드 체인지와 상기 동물 실험 데이터의 폴드 체인지 간의 상관 계수의 계산 결과에 기초하여, 상기 사용자 실험 데이터와 가장 높은 상관 관계를 가지는 동물 실험 데이터를 검색할 수 있다.
이하에서는 상기 프로필 검색부(120)에 대해 보다 구체적으로 설명한다.
상기 프로필 검색부(120)는 입력된 사용자의 유전자 발현 데이터(사용자 실험 데이터)에 대하여 실험 프로필을 구성하고, 다음의 (1) ~ (4) 과정을 거쳐 상기 질병 데이터베이스(110) 내에서, 상기 입력된 사용자 실험 데이터와 가장 비슷한 폴드 체인지(fold change)를 갖는 프로필을 검색할 수 있다.
(1) 상기 프로필 검색부(120)는 상기 입력된 사용자의 유전자 발현 데이터에 대하여 상기 수학식 1을 이용하여 상기 fold change를 계산할 수 있다.
(2) 상기 프로필 검색부(120)는 상기 질병 데이터베이스(110) 내의 어떤 동물 실험에 대한 프로필에 대하여, 해당 프로필과 상기 입력된 유전자 발현 데이터 사이에서 공통적으로 속해있는 유전자를 찾을 수 있다.
(3) 상기 프로필 검색부(120)는 위의 유전자(공통 유전자)에 대하여 상기 질병 데이터베이스(110) 내의 프로필의 fold change와, 상기 입력된 유전자 발현 데이터의 fold change 사이의 상관 계수(correlation coefficient)를 측정할 수 있다.
(4) 상기 프로필 검색부(120)는 상기 질병 데이터베이스(110) 내의 다수의 동물 실험 프로필 중 상기 입력된 유전자 발현 데이터와 가장 높은 상관 계수를 갖는 프로필을 찾을 수 있다.
상기 가상 분산 계산부(130)는 상기 동물 실험 데이터 및 상기 인간 실험 데이터 각각에 대한 폴드 체인지(fold change) 및 클래스 내(within-class) 표준편차에 기초하여 해당 유전자에 대한 가상 분산을 계산한다.
구체적으로, 상기 가상 분산 계산부(130)는 상기 사용자 실험 데이터와 가장 높은 상관 관계를 가지는 동물 실험 데이터의 i번째 유전자의 폴드 체인지(fmi) 및 클래스 내 표준편차(smi)를 계산할 수 있다. 상기 가상 분산 계산부(130)는 상기 동물 실험 데이터의 i번째 유전자에 대응되는 인간 실험 데이터의 i번째 유전자의 폴드 체인지(fti) 및 클래스 내 표준편차(sti)를 계산할 수 있다. 상기 가상 분산 계산부(130)는 상기 폴드 체인지(fmi) 및 클래스 내 표준편차(smi)와 상기 폴드 체인지(fti) 및 클래스 내 표준편차(sti)를 이용하여 상기 i번째 유전자에 대한 가상 분산을 계산할 수 있다.
이때, 상기 가상 분산 계산부(130)는 상기 i번째 유전자에 대하여, 상기 폴드 체인지(fmi)의 로그 값과 상기 폴드 체인지(fti)의 로그 값을 곱한 결과가 0보다 큰 제1 조건(log(fmi)log(fti)>0)을 만족하는지 여부를 판단하고, 상기 판단 결과에 따라 상기 가상 분산을 다른 방식으로 계산할 수 있다.
예를 들면, 상기 가상 분산 계산부(130)는 상기 제1 조건을 만족하는 i번째 유전자에 대하여, 하기 수학식 3을 이용하여 상기 가상 분산(αi)을 계산할 수 있다.
[수학식 3]
Figure 112015019337788-pat00015
다른 예로, 상기 제1 조건을 만족하지 않는 경우, 상기 가상 분산 계산부(130)는 상기 제1 조건을 만족하지 않는 k번째 유전자(여기서, k는 1이상의 자연수)에 대하여 다음과 같이 수학식 4 ~ 7을 이용하여 상기 가상 분산(αk)을 계산할 수 있다.
즉, 상기 가상 분산 계산부(130)는 상기 제1 조건을 만족하는 i번째 유전자에 대하여, 하기 수학식 4를 이용하여 제1 중간 값(di)을 산출할 수 있다.
[수학식 4]
Figure 112015019337788-pat00016
상기 가상 분산 계산부(130)는 상기 제1 중간 값(di), 상기 클래스 내 표준편차(smi), 및 상기 클래스 내 표준편차(sti)를 이용한 하기 수학식 5의 선형 회기 분석을 통해 상기 i번째 유전자의 가상 분산을 근사 계산할 수 있다.
[수학식 5]
Figure 112015019337788-pat00017
여기서, β0, β1, β2, β3는 상수를 나타낸다.
상기 가상 분산 계산부(130)는 상기 동물 실험 데이터의 k번째 유전자의 폴드 체인지(fmk)의 로그 값, 및 상기 인간 실험 데이터의 k번째 유전자의 폴드 체인지(ftk)의 로그 값을 곱한 결과가 0보다 큰 제2 조건(log(fmk)log(ftk)>0)을 만족하지 않는 상기 k번째 유전자에 대하여, 하기 수학식 6을 이용하여 제2 중간 값(dk)을 계산할 수 있다.
[수학식 6]
Figure 112015019337788-pat00018
상기 가상 분산 계산부(130)는 상기 제2 조건을 만족하지 않는 상기 k번째 유전자에 대하여, 상기 제2 중간 값(dk), 클래스 내 표준편차(smk), 및 클래스 내 표준편차(stk)를 이용한 하기 수학식 7을 통해 상기 가상 분산(αk)을 근사 계산할 수 있다.
[수학식 7]
Figure 112015019337788-pat00019
여기서, β0, β1, β2, β3는 상수를 나타낸다.
상기 가상 분산 계산부(130)는 위의 과정을 거쳐 모든 유전자(예: 도 2의 유전자 1 ~ 유전자 m)에 대하여 상기 가상 분산을 계산할 수 있다.
상기 유전자 중요도 계산부(140)는 상기 가상 분산에 기초하여 상기 유전자에 대한 중요도를 통계적으로 계산한다.
즉, 상기 유전자 중요도 계산부(140)는 상기 가상 분산(αi)을 이용한 하기 수학식 8에 기초하여 통계량(ti)을 계산하고, 상기 계산된 통계량(ti)에 기초하여 상기 유전자에 대한 중요도(pi)를 계산할 수 있다.
[수학식 8]
Figure 112015019337788-pat00020
여기서, fi는 사용자 실험 데이터에 대한 fold change를 나타내고, si는 사용자 실험 데이터에 대한 within-class 표준편차를 나타낸다. 또한, 상기 수학식 8에서는 상기 가상 분산으로서 αi가 적용되었지만, αk가 적용될 수도 있다.
본 발명의 일 실시예에서, 상기 중요도는 0 ~ 1 범위 내의 값으로 계산될 수 있다. 이러한 경우, 상기 유전자 중요도 계산부(140)는 상기 중요도의 값이 0에 가까울수록 상기 동물의 유전자가 상기 인간의 유전자와 가장 유사한 반응을 보이는 것으로 판단할 수 있다.
이와 같이, 본 발명의 일 실시예에서는 상기 질병 데이터베이스(110)를 검색하여 입력된 유전자 발현 데이터와 가장 유사한 프로필을 갖는 기존의 실험을 찾고, 그것으로부터 가상 분산을 계산하여 유전자의 중요도를 통계적으로 계산함으로써, 특정 질병이나 약물 등에 대해 실제 인간의 반응과 비슷한 반응을 보이는, 동물 실험 데이터에서의 유전자를 중요 유전자로 정확히 선별할 수 있다.
도 3 내지 도 5는 본 발명의 일 실시예에 따른 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 방법을 설명하기 위해 도시한 흐름도이다. 여기서, 상기 유전자 발현 반응 데이터 분석 방법은 도 1의 유전자 발현 반응 데이터 분석 장치(100)에 의해 수행될 수 있다.
먼저 도 3을 참조하면, 단계(310)에서 상기 유전자 발현 반응 데이터 분석 장치는 복수의 유전자 각각에 대한 동물 실험 데이터 및 인간의 반응에 관한 인간 실험 데이터를 매칭하여 질병 데이터베이스에 저장한다.
여기서, 상기 동물 실험 데이터 및 상기 인간 실험 데이터 각각은 복수의 대조군 샘플 및 복수의 실험군 샘플을 포함할 수 있다.
즉, 상기 유전자 발현 반응 데이터 분석 장치는 상기 복수의 유전자 각각에 대한 발현 정도를 나타내는, 복수의 유전자 발현 데이터를 행으로 하고, 상기 복수의 대조군 샘플 및 실험군 샘플 각각에 대한 프로파일을 열로 하는 매트릭스 형태로 상기 동물 실험 데이터 및 상기 인간 실험 데이터를 가공하여 상기 질병 데이터베이스에 저장할 수 있다.
다음으로, 단계(320)에서 상기 유전자 발현 반응 데이터 분석 장치는 동물의 유전자 발현에 관한 사용자 실험 데이터를 입력받는다.
다음으로, 단계(330)에서 상기 유전자 발현 반응 데이터 분석 장치는 상기 입력된 사용자 실험 데이터와 가장 높은 상관 관계를 가지는 동물 실험 데이터, 및 상기 동물 실험 데이터와 매칭된 인간 실험 데이터를 상기 질병 데이터베이스로부터 검색한다. 이에 대해 도 4를 참조하여 구체적으로 설명하면 다음과 같다.
즉, 도 4를 참조하면, 단계(410)에서 상기 유전자 발현 반응 데이터 분석 장치는 상기 질병 데이터베이스 내 동물 실험 데이터에 속하는 유전자들 중에서 상기 사용자 실험 데이터의 유전자와 공통으로 속해있는 공통 유전자를 추출할 수 있다.
이후, 단계(420)에서 상기 유전자 발현 반응 데이터 분석 장치는 상기 추출된 공통 유전자에 대하여 상기 동물 실험 데이터 및 상기 사용자 실험 데이터 각각의 폴드 체인지를 계산할 수 있다.
이후, 단계(430)에서 상기 유전자 발현 반응 데이터 분석 장치는 상기 사용자 실험 데이터의 폴드 체인지와 상기 동물 실험 데이터의 폴드 체인지 간의 상관 계수를 계산할 수 있다.
이후, 단계(440)에서 상기 유전자 발현 반응 데이터 분석 장치는 상기 상관 계수의 계산 결과에 기초하여 상기 사용자 실험 데이터와 가장 높은 상관 관계를 가지는 동물 실험 데이터를 상기 질병 데이터베이스로부터 검색할 수 있다.
다시 도 3을 참조하면, 단계(340)에서 상기 유전자 발현 반응 데이터 분석 장치는 상기 동물 실험 데이터 및 상기 인간 실험 데이터 각각에 대한 폴드 체인지 및 클래스 내 표준편차에 기초하여 해당 유전자에 대한 가상 분산을 계산한다. 이에 대해 도 5를 참조하여 구체적으로 설명하면 다음과 같다.
즉, 도 5를 참조하면, 단계(510)에서 상기 유전자 발현 반응 데이터 분석 장치는 상기 사용자 실험 데이터와 가장 높은 상관 관계를 가지는 동물 실험 데이터의 i번째 유전자(여기서, i는 1이상의 자연수)의 폴드 체인지(fmi) 및 클래스 내 표준편차(smi)를 계산할 수 있다.
이후, 단계(520)에서 상기 유전자 발현 반응 데이터 분석 장치는 상기 동물 실험 데이터의 i번째 유전자에 대응되는 인간 실험 데이터의 i번째 유전자의 폴드 체인지(fti) 및 클래스 내 표준편차(sti)를 계산할 수 있다.
이후, 단계(530)에서 상기 유전자 발현 반응 데이터 분석 장치는 상기 폴드 체인지(fmi) 및 클래스 내 표준편차(smi)와 상기 폴드 체인지(fti) 및 클래스 내 표준편차(sti)를 이용하여 상기 i번째 유전자에 대한 가상 분산을 계산할 수 있다.
이때, 상기 유전자 발현 반응 데이터 분석 장치는 상기 제1 조건(log(fmi)log(fti)>0)을 만족하는 i번째 유전자에 대하여 상기 가상 분산(αi)을 계산할 수 있다(수학식 3 참조).
또 달리, 상기 유전자 발현 반응 데이터 분석 장치는 상기 제1 조건을 만족하지 않는 k번째 유전자에 대하여 상기 가상 분산(αk)을 계산할 수 있다.
이를 위해, 상기 유전자 발현 반응 데이터 분석 장치는 먼저 상기 제1 조건을 만족하는 i번째 유전자에 대하여 제1 중간 값(di)을 산출할 수 있다(수학식 4 참조).
이어서, 상기 유전자 발현 반응 데이터 분석 장치는 상기 제1 중간 값(di), 상기 클래스 내 표준편차(smi), 및 상기 클래스 내 표준편차(sti)를 이용한 선형 회기 분석을 통해 상기 i번째 유전자의 가상 분산을 근사 계산할 수 있다(수학식 5 참조).
이어서, 상기 유전자 발현 반응 데이터 분석 장치는 상기 제2 조건(log(fmk)log(ftk)>0)을 만족하지 않는 상기 k번째 유전자에 대하여 제2 중간 값(dk)을 계산할 수 있다(수학식 6 참조).
계속하여, 상기 유전자 발현 반응 데이터 분석 장치는 상기 제2 조건을 만족하지 않는 상기 k번째 유전자에 대하여, 상기 제2 중간 값(dk), 클래스 내 표준편차(smk), 및 클래스 내 표준편차(stk)를 이용하여 상기 가상 분산(αk)을 근사 계산할 수 있다(수학식 7 참조).
다시 도 3을 참조하면, 단계(350)에서 상기 유전자 발현 반응 데이터 분석 장치는 상기 가상 분산에 기초하여 상기 유전자에 대한 중요도를 통계적으로 계산한다.
즉, 상기 유전자 발현 반응 데이터 분석 장치는 상기 가상 분산을 이용하여 통계량(ti)을 계산하고, 상기 계산된 통계량(ti)에 기초하여 상기 유전자에 대한 중요도(pi)를 계산할 수 있다(수학식 8 참조).
실시예
본 실시예는 면역 관련 인간 질병을 연구하기 위한 쥐 모델 실험의 데이터를 분석하기 위한 예로 작은 규모로 구현되었다. 본 실시예에서는 제안되는 발명을 통한 분석법은 EBT로 통칭되고, 기존의 분석법은 CT로 통칭된다.
- 질병 데이터베이스를 구축하기 위해 Gene Expression Omnibus로부터 면역 관련 질병을 연구하기 위한 쥐 모델 실험 데이터를 수집하였다. (access number: GSE19492, GSE16387, GSE33341, GSE48200, GSE37069, GSE36809, GSE3824, GSE7404). 이들 실험 데이터로부터 50개의 동물 실험 프로필이 추출되었고, 그 동물 모델 실험에 해당하는 인간의 실제 반응에 대한 프로필 또한 수집되었다.
- 쥐의 모노사이트(monocyte)에 면역반응 유발 인자인 LPS를 투여한 후 유전자 발현 반응에 대한 실험 데이터는, 실제 인간 모노사이트의 LPS(Lipopolysaccharide)에 대한 반응을 연구하기 위한 동물 모델 실험이다. 실제 인간의 반응은 모른다고 가정하고, 쥐 실험의 데이터는 본 실시예에 입력하여 유전자의 중요도를 계산한다. 이 중요도를 바탕으로 중요 유전자를 검출하고, 이들 유전자가 실제 인간의 반응과 얼마나 일치하는지를 측정한다.
- 전체 반응(Overall response): P값이 0.05보다 작은 유전자를 중요 유전자로 선별한 경우, 기존의 분석법에서 검출된 유전자 중 66%만이 실제 인간의 반응과 일치하는데 비해, 본 실시예에서 검출된 유전자는 76%가 인간의 반응과 일치하였다.
- 실험에 대한 선별적 반응(Expreiment-specific response): LPS에 선별적으로 반응하는 유전자의 경우, 본 실시예에서는 30%의 유전자가 일치하는데 비해 기존의 분석법에서는 21%의 유전자만 일치하였다.
- 세포의 기능에 대한 유추(Context-level response): LPS로 인해서 큰 변화가 생기는 상위 20개의 세포 기능 중에서, 본 실시예를 통해서는 13개의 기능을 유추할 수 있었지만 기존의 분석법에서는 8개의 기능만을 유추할 수 있었다.
- 각 동물 모델 실험과 인간 반응의 짝에 대하여 교차 검증(cross-validation)을 통해 성능을 검증한 결과, 전체 반응(overall response)의 일치도는 도 6 및 도 7에 도시된 바와 같이 최대 56% 개선되었고, 실험에 대한 선별적 반응(experiment specific response)의 일치도는 도 8 및 도 9에 도시된 바와 같이 최대 143% 개선되었으며, 세포의 기능에 대한 유추(context-level response)는 도 10 및 도 11에 도시된 바와 같이 최대 100% 개선되었다.
참고로, 도 6 및 도 7은 본 발명의 방법(EBT)과 기존의 방법(CT)에 따른 전체 반응(overall response)의 일치도를 나타낸 도면으로서, 구체적으로는 도 6은 P값(중요도)에 따른 중요 유전자의 일치도를 나타내고, 도 7은 상위 P값을 갖는 정해진 숫자의 유전자들에 대한 일치도를 나타낸다.
도 8 및 도 9는 본 발명의 방법(EBT)과 기존의 방법(CT)에 따른 실험 고유의 반응(experiment specific response)의 일치도를 나타낸 도면으로서, 구체적으로는 도 8은 P값에 따른 중요 유전자의 일치도를 나타내고, 도 9는 상위 P값을 갖는 정해진 숫자의 유전자들에 대한 일치도를 나타낸다.
도 10 및 도 11은 본 발명의 방법(EBT)과 기존의 방법(CT)에 따른 중요 세포 기능 반응(context-level response)의 일치도를 나타낸 도면으로서, 도 10은 P값에 따른 세포 기능의 일치도를 나타내고, 도 11은 하나의 예로 상위 20개의 주요한 인간의 세포 기능 반응에 대하여 EBT와 CT가 올바르게 선별한 기능(진한색)을 나타낸다.
본 발명의 실시예들은 다양한 컴퓨터로 구현되는 동작을 수행하기 위한 프로그램 명령을 포함하는 컴퓨터 판독 가능 매체를 포함한다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광기록 매체, 플롭티컬 디스크와 같은 자기-광 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
지금까지 본 발명에 따른 구체적인 실시예에 관하여 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서는 여러 가지 변형이 가능함은 물론이다. 그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 특허 청구의 범위뿐 아니라 이 특허 청구의 범위와 균등한 것들에 의해 정해져야 한다.
이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 이는 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다. 따라서, 본 발명 사상은 아래에 기재된 특허청구범위에 의해서만 파악되어야 하고, 이의 균등 또는 등가적 변형 모두는 본 발명 사상의 범주에 속한다고 할 것이다.
110: 질병 데이터베이스
120: 프로필 검색부
130: 가상 분산 계산부
140: 유전자 중요도 계산부

Claims (21)

  1. 동물의 유전자 발현에 관한 사용자 실험 데이터를 입력받고, 상기 입력된 사용자 실험 데이터와 가장 높은 상관 관계를 가지는 동물 실험 데이터, 및 상기 동물 실험 데이터와 매칭된 인간의 반응에 관한 인간 실험 데이터를 질병 데이터베이스로부터 검색하는 프로필 검색부;
    상기 동물 실험 데이터 및 상기 인간 실험 데이터 각각에 대한 폴드 체인지(fold change) 및 클래스 내(within-class) 표준편차에 기초하여 해당 유전자에 대한 가상 분산을 계산하는 가상 분산 계산부; 및
    상기 가상 분산에 기초하여 상기 유전자에 대한 중요도를 통계적으로 계산하는 유전자 중요도 계산부
    를 포함하며,
    상기 클래스 내 표준편차는
    상기 동물 실험 데이터 내 실험군 샘플들의 표준편차와, 상기 동물 실험 데이터 내 대조군 샘플들의 표준편차를 합하여 평균한 값인 것을 특징으로 하는 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 장치.
  2. 제1항에 있어서,
    복수의 유전자 각각에 대한 동물 실험 데이터 및 인간 실험 데이터를 매칭하여 저장하는 상기 질병 데이터베이스
    를 더 포함하는 것을 특징으로 하는 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 장치.
  3. 제2항에 있어서,
    상기 동물 실험 데이터 및 상기 인간 실험 데이터 각각은
    복수의 대조군 샘플 및 복수의 실험군 샘플을 포함하고,
    상기 질병 데이터베이스는
    상기 복수의 유전자 각각에 대한 발현 정도를 나타내는, 복수의 유전자 발현 데이터를 행으로 하고, 상기 복수의 대조군 샘플 및 실험군 샘플 각각에 대한 프로파일을 열로 하는 매트릭스 형태로 상기 동물 실험 데이터 및 상기 인간 실험 데이터를 가공하여 저장하는 것을 특징으로 하는 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 장치.
  4. 제1항에 있어서,
    상기 프로필 검색부는
    상기 질병 데이터베이스 내 동물 실험 데이터에 속하는 유전자들 중에서 상기 사용자 실험 데이터의 유전자와 공통으로 속해있는 공통 유전자를 추출하고, 상기 추출된 공통 유전자에 대하여 상기 동물 실험 데이터 및 상기 사용자 실험 데이터 각각의 폴드 체인지를 계산하여, 상기 사용자 실험 데이터와 가장 높은 상관 관계를 가지는 동물 실험 데이터를 상기 질병 데이터베이스로부터 검색하는 것을 특징으로 하는 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 장치.
  5. 제4항에 있어서,
    상기 프로필 검색부는
    상기 사용자 실험 데이터의 폴드 체인지와 상기 동물 실험 데이터의 폴드 체인지 간의 상관 계수를 계산하고, 상기 상관 계수의 계산 결과에 기초하여 상기 사용자 실험 데이터와 가장 높은 상관 관계를 가지는 동물 실험 데이터를 검색하는 것을 특징으로 하는 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 장치.
  6. 제1항에 있어서,
    상기 가상 분산 계산부는
    상기 사용자 실험 데이터와 가장 높은 상관 관계를 가지는 동물 실험 데이터의 i번째 유전자(여기서, i는 1이상의 자연수)의 폴드 체인지(fmi) 및 클래스 내 표준편차(smi)를 계산하고, 상기 동물 실험 데이터의 i번째 유전자에 대응되는 인간 실험 데이터의 i번째 유전자의 폴드 체인지(fti) 및 클래스 내 표준편차(sti)를 계산하며, 상기 폴드 체인지(fmi) 및 클래스 내 표준편차(smi)와 상기 폴드 체인지(fti) 및 클래스 내 표준편차(sti)를 이용하여 상기 i번째 유전자에 대한 가상 분산을 계산하는 것을 특징으로 하는 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 장치.
  7. 제6항에 있어서,
    상기 가상 분산 계산부는
    상기 폴드 체인지(fmi)의 로그 값과 상기 폴드 체인지(fti)의 로그 값을 곱한 결과가 0보다 큰 제1 조건을 만족하는 i번째 유전자에 대하여, 하기 수학식 3을 이용하여 상기 가상 분산(αi)을 계산하는 것을 특징으로 하는 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 장치.
    [수학식 3]
    Figure 112015019337788-pat00021

  8. 제7항에 있어서,
    상기 가상 분산 계산부는
    상기 제1 조건을 만족하지 않는 k번째 유전자(여기서, k는 1이상의 자연수)에 대하여 상기 가상 분산(αk)을 계산하는 경우,
    상기 제1 조건을 만족하는 i번째 유전자에 대하여, 하기 수학식 4를 이용하여 제1 중간 값(di)을 산출하고,
    상기 제1 중간 값(di), 상기 클래스 내 표준편차(smi), 및 상기 클래스 내 표준편차(sti)를 이용한 하기 수학식 5의 선형 회기 분석을 통해 상기 i번째 유전자의 가상 분산을 근사 계산하며,
    상기 동물 실험 데이터의 k번째 유전자의 폴드 체인지(fmk)의 로그 값, 및 상기 인간 실험 데이터의 k번째 유전자의 폴드 체인지(ftk)의 로그 값을 곱한 결과가 0보다 큰 제2 조건을 만족하지 않는 상기 k번째 유전자에 대하여, 하기 수학식 6을 이용하여 제2 중간 값(dk)을 계산하고,
    상기 제2 조건을 만족하지 않는 상기 k번째 유전자에 대하여, 상기 제2 중간 값(dk), 클래스 내 표준편차(smk), 및 클래스 내 표준편차(stk)를 이용한 하기 수학식 7을 통해 상기 가상 분산(αk)을 근사 계산하는 것을 특징으로 하는 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 장치.
    [수학식 4]
    Figure 112015019337788-pat00022

    [수학식 5]
    Figure 112015019337788-pat00023

    [수학식 6]
    Figure 112015019337788-pat00024

    [수학식 7]
    Figure 112015019337788-pat00025

    여기서, β0, β1, β2, β3는 상수를 나타냄.
  9. 제1항에 있어서,
    상기 유전자 중요도 계산부는
    상기 가상 분산을 이용한 하기 수학식 8에 기초하여 통계량(ti)을 계산하고, 상기 계산된 통계량(ti)에 기초하여 상기 유전자에 대한 중요도(pi)를 계산하는 것을 특징으로 하는 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 장치.
    [수학식 8]
    Figure 112015019337788-pat00026

    여기서, fi는 사용자 실험 데이터에 대한 폴드 체인지(fold change)를 나타내고, si는 사용자 실험 데이터에 대한 클래스 내(within-class) 표준편차를 나타냄.
  10. 제9항에 있어서,
    상기 중요도는
    0 ~ 1 범위 내의 값으로 계산되며,
    상기 유전자 중요도 계산부는
    상기 중요도의 값이 0에 가까울수록 상기 동물의 유전자가 상기 인간의 유전자와 가장 유사한 반응을 보이는 것으로 판단하는 것을 특징으로 하는 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 장치.
  11. 제1항에 있어서,
    상기 폴드 체인지는
    상기 동물 실험 데이터 내 실험군 샘플들의 평균값을 상기 동물 실험 데이터 내 대조군 샘플들의 평균값으로 나누어 계산한 결과인 것을 특징으로 하는 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 장치.
  12. 삭제
  13. 동물의 유전자 발현에 관한 사용자 실험 데이터를 입력받는 단계;
    상기 입력된 사용자 실험 데이터와 가장 높은 상관 관계를 가지는 동물 실험 데이터, 및 상기 동물 실험 데이터와 매칭된 인간의 반응에 관한 인간 실험 데이터를 질병 데이터베이스로부터 검색하는 단계;
    상기 동물 실험 데이터 및 상기 인간 실험 데이터 각각에 대한 폴드 체인지 및 클래스 내 표준편차에 기초하여 해당 유전자에 대한 가상 분산을 계산하는 단계; 및
    상기 가상 분산에 기초하여 상기 유전자에 대한 중요도를 통계적으로 계산하는 단계
    를 포함하며,
    상기 클래스 내 표준편차는
    상기 동물 실험 데이터 내 실험군 샘플들의 표준편차와, 상기 동물 실험 데이터 내 대조군 샘플들의 표준편차를 합하여 평균한 값인 것을 특징으로 하는 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 방법.
  14. 제13항에 있어서,
    복수의 유전자 각각에 대한 동물 실험 데이터 및 인간 실험 데이터를 매칭하여 상기 질병 데이터베이스에 저장하는 단계
    를 더 포함하는 것을 특징으로 하는 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 방법.
  15. 제13항에 있어서,
    상기 질병 데이터베이스로부터 검색하는 단계는
    상기 질병 데이터베이스 내 동물 실험 데이터에 속하는 유전자들 중에서 상기 사용자 실험 데이터의 유전자와 공통으로 속해있는 공통 유전자를 추출하는 단계; 및
    상기 추출된 공통 유전자에 대하여 상기 동물 실험 데이터 및 상기 사용자 실험 데이터 각각의 폴드 체인지를 계산하여, 상기 사용자 실험 데이터와 가장 높은 상관 관계를 가지는 동물 실험 데이터를 상기 질병 데이터베이스로부터 검색하는 단계
    를 포함하는 것을 특징으로 하는 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 방법.
  16. 제15항에 있어서,
    상기 질병 데이터베이스를 검색하는 단계는
    상기 사용자 실험 데이터의 폴드 체인지와 상기 동물 실험 데이터의 폴드 체인지 간의 상관 계수를 계산하는 단계; 및
    상기 상관 계수의 계산 결과에 기초하여 상기 사용자 실험 데이터와 가장 높은 상관 관계를 가지는 동물 실험 데이터를 검색하는 단계
    를 포함하는 것을 특징으로 하는 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 방법.
  17. 제13항에 있어서,
    상기 가상 분산을 계산하는 단계는
    상기 사용자 실험 데이터와 가장 높은 상관 관계를 가지는 동물 실험 데이터의 i번째 유전자(여기서, i는 1이상의 자연수)의 폴드 체인지(fmi) 및 클래스 내 표준편차(smi)를 계산하는 단계;
    상기 동물 실험 데이터의 i번째 유전자에 대응되는 인간 실험 데이터의 i번째 유전자의 폴드 체인지(fti) 및 클래스 내 표준편차(sti)를 계산하는 단계; 및
    상기 폴드 체인지(fmi) 및 클래스 내 표준편차(smi)와 상기 폴드 체인지(fti) 및 클래스 내 표준편차(sti)를 이용하여 상기 i번째 유전자에 대한 가상 분산을 계산하는 단계
    를 포함하는 것을 특징으로 하는 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 방법.
  18. 제17항에 있어서,
    상기 i번째 유전자에 대한 가상 분산을 계산하는 단계는
    상기 폴드 체인지(fmi)의 로그 값과 상기 폴드 체인지(fti)의 로그 값을 곱한 결과가 0보다 큰 제1 조건을 만족하는 i번째 유전자에 대하여, 하기 수학식 3을 이용하여 상기 가상 분산(αi)을 계산하는 단계
    를 포함하는 것을 특징으로 하는 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 방법.
    [수학식 3]
    Figure 112015019337788-pat00027

  19. 제18항에 있어서,
    상기 제1 조건을 만족하지 않는 k번째 유전자(여기서, k는 1이상의 자연수)에 대하여 상기 가상 분산(αk)을 계산하는 경우,
    상기 가상 분산을 계산하는 단계는
    상기 제1 조건을 만족하는 i번째 유전자에 대하여, 하기 수학식 4를 이용하여 제1 중간 값(di)을 산출하는 단계;
    상기 제1 중간 값(di), 상기 클래스 내 표준편차(smi), 및 상기 클래스 내 표준편차(sti)를 이용한 하기 수학식 5의 선형 회기 분석을 통해 상기 i번째 유전자의 가상 분산을 근사 계산하는 단계;
    상기 동물 실험 데이터의 k번째 유전자의 폴드 체인지(fmk)의 로그 값, 및 상기 인간 실험 데이터의 k번째 유전자의 폴드 체인지(ftk)의 로그 값을 곱한 결과가 0보다 큰 제2 조건을 만족하지 않는 상기 k번째 유전자에 대하여, 하기 수학식 6을 이용하여 제2 중간 값(dk)을 계산하는 단계; 및
    상기 제2 조건을 만족하지 않는 상기 k번째 유전자에 대하여, 상기 제2 중간 값(dk), 클래스 내 표준편차(smk), 및 클래스 내 표준편차(stk)를 이용한 하기 수학식 7을 통해 상기 가상 분산(αk)을 근사 계산하는 단계
    를 더 포함하는 것을 특징으로 하는 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 방법.
    [수학식 4]
    Figure 112015019337788-pat00028

    [수학식 5]
    Figure 112015019337788-pat00029

    [수학식 6]
    Figure 112015019337788-pat00030

    [수학식 7]
    Figure 112015019337788-pat00031

    여기서, β0, β1, β2, β3는 상수를 나타냄.
  20. 제13항에 있어서,
    상기 유전자에 대한 중요도를 통계적으로 계산하는 단계는
    상기 가상 분산을 이용한 하기 수학식 8에 기초하여 통계량(ti)을 계산하는 단계; 및
    상기 계산된 통계량(ti)에 기초하여 상기 유전자에 대한 중요도(pi)를 계산하는 단계
    를 포함하는 것을 특징으로 하는 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 방법.
    [수학식 8]
    Figure 112015019337788-pat00032

    여기서, fi는 사용자 실험 데이터에 대한 폴드 체인지를 나타내고, si는 사용자 실험 데이터에 대한 클래스 내 표준편차를 나타냄.
  21. 제20항에 있어서,
    상기 중요도는
    0 ~ 1 범위 내의 값으로 계산되며,
    상기 유전자에 대한 중요도를 통계적으로 계산하는 단계는
    상기 중요도의 값이 0에 가까울수록 상기 동물의 유전자가 상기 인간의 유전자와 가장 유사한 반응을 보이는 것으로 판단하는 단계
    를 더 포함하는 것을 특징으로 하는 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 방법.
KR1020150027484A 2015-02-26 2015-02-26 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 장치 및 방법 KR101708715B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020150027484A KR101708715B1 (ko) 2015-02-26 2015-02-26 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150027484A KR101708715B1 (ko) 2015-02-26 2015-02-26 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20160104439A KR20160104439A (ko) 2016-09-05
KR101708715B1 true KR101708715B1 (ko) 2017-02-22

Family

ID=56938859

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150027484A KR101708715B1 (ko) 2015-02-26 2015-02-26 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101708715B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102091790B1 (ko) 2019-09-02 2020-03-20 주식회사 클리노믹스 피검사자와 생물체 간의 유전자 정보를 이용한 유전적 띠 제공 시스템 및 그 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116313131B (zh) * 2023-05-24 2023-09-15 山东大学 基于仿造变量的脑网络差异识别系统、设备及存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006092478A (ja) * 2004-09-27 2006-04-06 National Institute Of Advanced Industrial & Technology 遺伝子発現プロファイル検索装置、遺伝子発現プロファイル検索方法およびプログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006092478A (ja) * 2004-09-27 2006-04-06 National Institute Of Advanced Industrial & Technology 遺伝子発現プロファイル検索装置、遺伝子発現プロファイル検索方法およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
논문(PNAS, 2014)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102091790B1 (ko) 2019-09-02 2020-03-20 주식회사 클리노믹스 피검사자와 생물체 간의 유전자 정보를 이용한 유전적 띠 제공 시스템 및 그 방법

Also Published As

Publication number Publication date
KR20160104439A (ko) 2016-09-05

Similar Documents

Publication Publication Date Title
CN111027069B (zh) 恶意软件家族检测方法、存储介质和计算设备
CN108038352B (zh) 结合差异化分析和关联规则挖掘全基因组关键基因的方法
CN113299346B (zh) 分类模型训练和分类方法、装置、计算机设备和存储介质
CN115440292B (zh) 存储芯片的测试方法、装置、设备及存储介质
Shi et al. Locally-biased spectral approximation for community detection
Fung et al. Automation of QIIME2 metagenomic analysis platform
KR101708715B1 (ko) 인간의 실제 반응을 고려한 동물 모델의 유전자 발현 반응 데이터 분석 장치 및 방법
CN111009290A (zh) 高原适应性检测模型的训练方法、适应性识别方法和装置
CN101517579A (zh) 蛋白质查找方法和设备
CN112259167B (zh) 基于高通量测序的病原体分析方法、装置和计算机设备
KR20110054926A (ko) 생물학적 네트워크 분석을 이용한 마이크로어레이 실험 자료의 작용기작, 실험/처리 조건 특이적 네트워크 생성 및 실험/처리 조건 관계성 해석을 위한 알고리즘을 포함한 시스템 및 방법과 상기 방법을 수행하기 위한 프로그램을 갖는 기록매체
US20170206315A1 (en) Analysis method and information processing device
CN116864011A (zh) 基于多组学数据的结直肠癌分子标志物识别方法及系统
Vilo et al. Regulatory sequence analysis: application to the interpretation of gene expression
CN111048145A (zh) 蛋白质预测模型的生成方法、装置、设备和存储介质
CN116525108A (zh) 基于snp数据的预测方法、装置、设备及存储介质
Zhou et al. Binary classification of floor vibrations for human activity detection based on dynamic mode decomposition
Ciampi et al. Model-based clustering of longitudinal data: Application to modeling disease course and gene expression trajectories
Liu et al. Including probe-level measurement error in robust mixture clustering of replicated microarray gene expression
Taie et al. Clustering of human intestine microbiomes with k-means
JPWO2002048915A1 (ja) 遺伝子間の関連を検出する方法
CN112053741A (zh) 荧光酶抑制剂筛选模型构建方法及荧光酶抑制剂筛选方法
CN107710206B (zh) 用于根据生物学数据的亚群检测的方法、系统和装置
Banos et al. Quality control of national genetic evaluation results using data-mining techniques; a progress report
CN116646010B (zh) 人源性病毒检测方法及装置、设备、存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
FPAY Annual fee payment

Payment date: 20200128

Year of fee payment: 4