KR102032484B1 - 유전자 마커 선별 방법 및 장치, 그리고 이의 시스템 - Google Patents

유전자 마커 선별 방법 및 장치, 그리고 이의 시스템 Download PDF

Info

Publication number
KR102032484B1
KR102032484B1 KR1020180095558A KR20180095558A KR102032484B1 KR 102032484 B1 KR102032484 B1 KR 102032484B1 KR 1020180095558 A KR1020180095558 A KR 1020180095558A KR 20180095558 A KR20180095558 A KR 20180095558A KR 102032484 B1 KR102032484 B1 KR 102032484B1
Authority
KR
South Korea
Prior art keywords
participants
score
repetitions
value
odds ratio
Prior art date
Application number
KR1020180095558A
Other languages
English (en)
Inventor
박혜시
김지혜
김민진
김정민
강병규
Original Assignee
제노플랜코리아 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 제노플랜코리아 주식회사 filed Critical 제노플랜코리아 주식회사
Priority to KR1020180095558A priority Critical patent/KR102032484B1/ko
Priority to PCT/KR2019/003253 priority patent/WO2020036283A1/ko
Application granted granted Critical
Publication of KR102032484B1 publication Critical patent/KR102032484B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biophysics (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

유전자 마커 선별 방법 및 장치, 그리고 유전자 마커 선별 시스템이 제공된다. 본 발명의 일 실시예에 따른 유전자 마커 선별 방법은, 입력된 대상 항목에 관련된 후보 유전자 마커들의 연구 데이터를 추출하되, 상기 후보 유전자 마커들에 관련된 연구 항목에 참여한 인종 정보, 상기 연구 항목에 참여한 참여자수, 상기 연구 항목의 반복횟수, 상기 연구 항목에서의 위험도, 상기 연구 항목과의 연관도를 포함한 연구 데이터를 추출하는 단계; 상기 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도를 포함한 연구 데이터를 기초로 상기 후보 유전자 마커들을 정렬하는 단계; 및 상기 정렬된 후보 유전자 마커들을 순서대로 표시하는 단계를 포함한다.

Description

유전자 마커 선별 방법 및 장치, 그리고 이의 시스템{METHOD AND APPARATUS FOR SELECTING GENETIC MARKERS, AND SYSTEM THEREOF}
본 발명은 유전자 마커 선별 방법 및 장치, 그리고 이의 시스템에 관한 것이다.
최근, 생명 공학의 발달과 함께 DNA 염기서열의 유전자 정보로 다양한 생체 정보를 얻을 수 있다. DNA 염기서열 정보를 해독(Genome Sequencing)하여 유전자 변이와 관련된 질환을 찾기 위한 연구가 활발히 이루어지고 있다.
특히, 전장 유전체 분석(GWAS: Genome-Wide Association Study)과 차세대 시퀀싱(NGS; Next Generation Sequencing) 등 유전체 분석 기술의 발달로 다양한 유전 변이 정보를 분석할 수 있게 되었다.
이에, 다양한 유전자 관련 연구가 진행되고 있고, 다양한 유전자 데이터베이스가 구축되어 있다.
한편, 유전자 정보를 제대로 이용하기 위해서는 지속적으로 업데이트되는 정보들을 실시간으로 분석에 반영할 수 있어야 하고, 다양한 질병에 쉽게 적용할 수 있어야 한다.
그러나, 급속도로 발전한 유전자의 분석 기술에 비해, 정확한 질병의 진단 및 예측을 위해 방대한 데이터를 활용하는 기술은 미비한 실정이다.
대한민국 등록특허 1670967호 (2016.10.25. 등록) 대한민국 등록특허 1325736호 (2013.10.30. 등록)
본 발명은 상기 문제점을 해결하기 위한 것으로, 질병의 진단 및 예측을 정확하게 할 수 있는 적합한 유전자 마커를 선별하여 표시하는 유전자 마커 선별 방법 및 장치, 그리고 이의 시스템을 제공한다.
본 발명이 해결하고자 하는 과제들은 이상에서 언급한 과제들로 제한되지 않으며, 언급되지 않은 또 다른 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 과제를 달성하기 위한 본 발명의 일 실시예에 따른 유전자 마커 선별 방법은, 입력된 대상 항목에 관련된 후보 유전자 마커들의 연구 데이터를 추출하되, 상기 후보 유전자 마커들에 관련된 연구 항목에 참여한 인종 정보, 상기 연구 항목에 참여한 참여자수, 상기 연구 항목의 반복횟수, 상기 연구 항목에서의 위험도, 상기 연구 항목과의 연관도를 포함한 연구 데이터를 추출하는 단계; 상기 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도를 포함한 연구 데이터를 기초로 상기 후보 유전자 마커들을 정렬하는 단계; 및 상기 정렬된 후보 유전자 마커들을 순서대로 표시하는 단계를 포함한다.
또한, 상기 추출하는 단계는, 상기 대상 항목으로 질병명, 유전자명 또는 형질(trait) 중 적어도 하나를 입력하여 상기 후보 유전자 마커들의 연구 데이터를 추출하는 단계를 포함할 수 있다.
또한, 공개 데이터베이스에 공개된 공개 유전자 마커들의 연구 데이터를 전처리 수집하는 단계; 및 상기 수집된 연구 데이터를 학습 데이터 세트로 딥러닝 신경망에 입력하여 학습시켜 상기 대상 항목 및 상기 후보 유전자 마커들의 관련성에 영향을 미치는 요인을 전처리 확인하는 단계를 더 포함할 수 있다.
또한, 상기 전처리 확인하는 단계는, 상기 공개 유전자 마커들에 관련된 연구 항목에 참여한 인종 정보, 상기 연구 항목에 참여한 참여자수, 상기 연구 항목의 반복횟수, 상기 연구 항목에서의 위험도, 상기 연구 항목과의 연관도를 상기 요인으로 확인하는 단계를 포함할 수 있다.
또한, 상기 전처리 확인하는 단계는, 상기 요인으로 확인된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도의 중요도를 전처리 판단하는 단계를 더 포함할 수 있다.
또한, 상기 정렬하는 단계는, 상기 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도의 중요도에 따라 상기 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도의 점수 레벨 및 점수 분포를 결정하는 단계; 상기 결정된 점수 레벨 및 점수 분포에 기초하여 상기 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도에 각각 점수를 부여하는 단계; 상기 부여된 점수를 합산하여 합산 점수를 생성하는 단계; 및 상기 합산 점수의 크기에 따라 상기 후보 유전자 마커들을 정렬하는 단계를 포함할 수 있다.
또한, 상기 점수 레벨 및 점수 분포를 결정하는 단계는, 상기 점수 레벨을 상기 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도에 각각 10, 7, 5, 7, 5로 결정하는 단계; 및 상기 점수 분포를 상기 추출된 인종 정보에 5, 7, 10, 상기 추출된 참여자수에 1, 3, 5, 7, 상기 추출된 반복횟수에 3, 5, 상기 추출된 위험도에 1, 3, 5, 7, 상기 추출된 연관도에 1, 2, 3, 4, 5로 결정하는 단계를 포함할 수 있다.
또한, 상기 합산 점수를 생성하는 단계는, 상기 합산 점수가 동일한 경우, 상기 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도에 부여된 각 점수에 상기 중요도에 따라 각각 가중치를 부여하는 단계를 더 포함할 수 있다.
그리고, 상기 가중치를 부여하는 단계는, 상기 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도에서 인종 정보, 위험도, 참여자수, 연관도, 반복횟수의 순으로 높은 가중치를 부여하는 단계를 포함할 수 있다.
상기 과제를 달성하기 위한 본 발명의 일 실시예에 따른 유전자 마커 선별 장치는, 대상 항목을 입력하는 입력부; 상기 대상 항목에 관련된 후보 유전자 마커들의 연구 데이터를 추출하되, 상기 후보 유전자 마커들에 관련된 연구 항목에 참여한 인종 정보, 상기 연구 항목에 참여한 참여자수, 상기 연구 항목의 반복횟수, 상기 연구 항목에서의 위험도, 상기 연구 항목과의 연관도를 포함한 연구 데이터를 추출하는 추출부; 상기 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도를 포함한 연구 데이터를 기초로 상기 후보 유전자 마커들을 정렬하는 정렬 제어부; 및 상기 정렬된 후보 유전자 마커들을 순서대로 표시하여 출력하는 출력부를 포함한다.
또한, 공개 데이터베이스에 공개된 공개 유전자 마커들의 연구 데이터를 수집하여 저장하는 저장부를 더 포함할 수 있다.
또한, 상기 수집된 연구 데이터를 학습 데이터 세트로 딥러닝 신경망에 입력하여 학습시켜 상기 대상 항목 및 상기 후보 유전자 마커들의 관련성에 영향을 미치는 요인을 전처리 확인하는 전처리부를 더 포함할 수 있다.
또한, 상기 전처리부는, 상기 공개 유전자 마커들에 관련된 연구 항목에 참여한 인종 정보, 상기 연구 항목에 참여한 참여자수, 상기 연구 항목의 반복횟수, 상기 연구 항목에서의 위험도, 상기 연구 항목과의 연관도를 상기 요인으로 확인하며, 상기 요인으로 확인된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도의 중요도를 전처리 판단할 수 있다.
또한, 상기 정렬 제어부는, 상기 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도의 중요도에 따라 상기 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도의 점수 레벨 및 점수 분포를 결정하는 점수 결정모듈; 상기 결정된 점수 레벨 및 점수 분포에 기초하여 상기 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도에 각각 점수를 부여하는 점수 부여모듈; 상기 부여된 점수를 합산하여 합산 점수를 생성하는 점수 생성모듈; 및 상기 합산 점수의 크기에 따라 상기 후보 유전자 마커들을 정렬하는 마커 정렬모듈을 포함할 수 있다.
또한, 상기 점수 결정모듈은, 상기 점수 레벨을 상기 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도에 각각 10, 7, 5, 7, 5로 결정하며, 상기 점수 분포를 상기 추출된 인종 정보에 5, 7, 10, 상기 추출된 참여자수에 1, 3, 5, 7, 상기 추출된 반복횟수에 3, 5, 상기 추출된 위험도에 1, 3, 5, 7, 상기 추출된 연관도에 1, 2, 3, 4, 5로 결정할 수 있다.
또한, 상기 합산 점수가 동일한 경우, 상기 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도에 부여된 각 점수에 상기 중요도에 따라 각각 가중치를 부여하는 가중치 부여모듈을 더 포함할 수 있다.
그리고, 상기 가중치 부여모듈은, 상기 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도에서 인종 정보, 위험도, 참여자수, 연관도, 반복횟수의 순으로 높은 가중치를 부여할 수 있다.
상기 과제를 달성하기 위한 본 발명의 일 실시예에 따른 유전자 마커 선별 시스템은, 공개 데이터베이스에 공개된 공개 유전자 마커들의 연구 데이터를 수집하여 저장하는 데이터베이스 서버; 및 대상 항목을 입력하여 관련된 후보 유전자 마커들의 연구 데이터를 상기 데이터베이스 서버에서 추출하고, 상기 데이터베이스 서버에서 추출된 연구 데이터에서 연구 항목에 참여한 인종 정보, 상기 연구 항목에 참여한 참여자수, 상기 연구 항목의 반복횟수, 상기 연구 항목에서의 위험도, 상기 연구 항목과의 연관도를 추출하여 이를 기초로 상기 후보 유전자 마커들을 정렬하고, 상기 정렬된 후보 유전자 마커들을 순서대로 표시하여 출력하는 유전자 마커 선별 서버를 포함한다.
본 발명의 기타 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명에 따르면, 높은 정확도를 가진 유전자 마커를 찾을 수 있게 됨으로써, 질병을 원인별로 세분화하여 정확하게 예측할 수 있고, 각 개인에게 맞춤형 질병 치료를 제안할 수 있다.
도 1은 본 발명의 일 실시예에 따른 유전자 마커 선별 방법의 순서를 도시한 도면이다.
도 2는 도 1의 유전자 마커 선별 방법의 전처리 과정을 설명하기 위한 도면이다.
도 3은 딥러닝 신경망을 설명하기 위한 도면이다.
도 4는 도 1의 유전자 마커 선별 방법의 정렬 과정을 설명하기 위한 도면이다.
도 5는 도 1의 유전자 마커 선별 방법에서 후보 유전자 마커들을 정렬하기 위해 사용되는 점수 레벨 및 점수 분포를 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 유전자 마커 선별 장치의 구성을 도시한 도면이다.
도 7은 본 발명의 일 실시예에 따른 유전자 마커 선별 시스템의 개념을 도시한 도면이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
비록 제1, 제2 등이 다양한 소자, 구성요소 및/또는 섹션들을 서술하기 위해서 사용되나, 이들 소자, 구성요소 및/또는 섹션들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 소자, 구성요소 또는 섹션들을 다른 소자, 구성요소 또는 섹션들과 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 소자, 제1 구성요소 또는 제1 섹션은 본 발명의 기술적 사상 내에서 제2 소자, 제2 구성요소 또는 제2 섹션일 수도 있음은 물론이다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "이루어지다(made of)"는 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
이때, 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭하며, 처리 흐름도 도면들의 각 구성과 흐름도 도면들의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수 있음을 이해할 수 있을 것이다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 흐름도 구성(들)에서 설명된 기능들을 수행하는 수단을 생성하게 된다.
또, 몇 가지 대체 실시예들에서는 구성들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 구성들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 구성들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
이하, 본 발명에 대하여 첨부된 도면에 따라 보다 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 유전자 마커 선별 방법의 순서를 도시한 도면이다. 또한, 도 2는 도 1의 유전자 마커 선별 방법의 전처리 과정을 설명하기 위한 도면이다. 또한, 도 3은 딥러닝 신경망을 설명하기 위한 도면이다. 또한, 도 4는 도 1의 유전자 마커 선별 방법의 정렬 과정을 설명하기 위한 도면이다. 그리고, 도 5는 도 1의 유전자 마커 선별 방법에서 후보 유전자 마커들을 정렬하기 위해 사용되는 점수 레벨 및 점수 분포를 도시한 도면이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 유전자 마커 선별 방법은, 입력된 대상 항목에 관련된 후보 유전자 마커들의 연구 데이터를 추출하되, 상기 후보 유전자 마커들에 관련된 연구 항목에 참여한 인종 정보, 상기 연구 항목에 참여한 참여자수, 상기 연구 항목의 반복횟수, 상기 연구 항목에서의 위험도, 상기 연구 항목과의 연관도를 포함한 연구 데이터를 추출하며(S110), 상기 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도를 포함한 연구 데이터를 기초로 상기 후보 유전자 마커들을 정렬하고(S120), 상기 정렬된 후보 유전자 마커들을 순서대로 표시한다(S130).
여기에서, 유전자 마커는 유전 변이에 관련된 다양한 정보를 포함할 수 있으며, 일반적으로 단일염기다형성(single nucleotide polymorphism, SNP)을 의미하고, PCR(polymerase chain reaction), Sanger sequencing, real time PCR, 마이크로어레이 기법, NGS(차세대 시퀀싱) 등 다양한 방법을 이용하여 얻을 수 있다.
단일염기다형성(single nucleotide polymorphism, SNP)은 유전적 염기서열이 개인 간의 차이를 보이는 유전 변이의 일종으로, 단일의 염기가 다른 염기서열을 나타내며, 인구집단 내에서 1% 이상의 빈도로 2개의 대립 염기서열(bi-allelic) 변이가 발생하는 위치이다.
즉, 사람의 DNA는 99.9%가 동일한 구조를 갖지만, 남은 0.1% 차이가 머리색, 키, 체질 등의 변화를 가져오며, 개인별로 염기서열의 차이를 분석해 보면, 그 중 90%가 같은 위치에서 한 염기가 다른 염기로 바뀐 것을 알 수 있고, 이렇게 여러 사람들의 DNA 염기 서열에서 다른 염기가 같은 위치에서 발견되는 것을 SNP(단일염기다형성)라고 한다.
먼저, 연구 데이터를 추출하는 경우(S110), 연관성 있는 유전자 마커를 찾고자 하는 대상 항목을 입력한다. 구체적으로, 대상 항목으로 질병명, 유전자명 또는 형질(trait) 중 적어도 하나를 입력할 수 있다. 이때, 형질(trait)은 피부 탄력, 머리카락의 색깔 등 인간의 특질을 나타낼 수 있는 항목을 의미한다.
여기에서, 연구 데이터의 추출은 미리 구축된 서버로부터 이루어질 수도 있고, 외부의 공개 데이터베이스로부터 네트워크를 통해 이루어질 수도 있다.
이때, 외부의 공개 데이터베이스는 dbSNP (NCBI), GWAS (Genome Wide Association Study) catalog, SNPedia, 1000 Genomes, ExAC, gnomAD, ClinVar, CLINVITAE, COSMIC, ExPASy, EBI (European Bioinformatics Institute). GeneSNPs (Public Internet Resource), Genatlas, Gene Cards Database, GVS (Genome Variation Server), HGVbase (the Human Genome Variation database), HOWDY (Human Organised Whole Genome Database), HGMD (Human Gene Mutation Database), jSNP (base A database of Japanese SNPs), Leelab SNP Database, The Human SNP database, OMIM (Online Mendelian Inheritance in Man), NIEHS SNPs, PharmGKB (The Pharmacogenetics & Pharmacogenomics knowledgebase), Seattle SNPs, STACK (Sequence Tag Alignment and Consensus Knowledgebase), TSC (The SNP Consortium Ltd.) Single Nucleotide Polymorphisms in the Human Genome- SNP Database, ALFRED, CGAP SNP index, CHIP Bioinformatics Portal, dbQSNP, FESD II, Forensic SNP Information, F-SNP, Gene Viewer, GeneSNPs, Genome Variation Server. GWAScentral, International HapMap Project, Japanese SNP Database, PhenCode, PolymiRTS Polymorphism in microRNA Target Site, SNAP, SNP@WEB, SNP500Cancer Database, SNPper, Tagger, google scholar, pubmed 중 하나일 수 있다.
또한, 공개 데이터베이스에서 공개된 공개 유전자 마커들의 연구 데이터를 수집하여 전처리할 수 있다. 그리고, 공개 데이터베이스에서 수집된 연구 데이터들을 저장하며, 유전자 마커 정렬을 위한 기초 자료로 사용할 수 있다.
도 2에 도시한 바와 같이, 공개 데이터베이스에 공개된 공개 유전자 마커들의 연구 데이터를 전처리 수집하고(S102), 상기 수집된 연구 데이터를 학습 데이터 세트로 딥러닝 신경망에 입력하여 학습시켜(S104), 대상 항목 및 후보 유전자 마커들의 관련성에 영향을 미치는 요인을 전처리 확인할 수 있다(S106).
전처리 수집하는 경우(S102), SNP의 rs number, 관련 연구 항목, 항목과의 연관도(p_value), 그 항목에서의 위험도(odds ratio, relative risk, beta effect, z-score), 항목에 영향을 미치는 대립형질(allele), 연구에 참여한 사람들 수와 인종에 대한 정보 등을 수집하여 DB(database)로 구축할 수 있다. 이렇게 구축된 대용량 정보는 딥러닝 신경망을 이용하여 학습시킬 수 있게 된다.
딥러닝 신경망에 입력하여 학습시키는 경우(S104), 딥러닝 신경망 모듈(5)에 수집된 연구 데이터를 입력하여 학습시킬 수 있다. 딥러닝 신경망 모듈(5)은 입력층, 은닉층, 출력층으로 이루어진 신경망(6)을 포함할 수 있다. 전처리 수집된 연구 데이터가 신경망(6)의 입력값으로 입력층에 입력되며, 입력 데이터가 학습 데이터가 되고, 학습 데이터에 가중치를 부여하여 딥러닝 신경망은 은닉층에서 학습을 수행할 수 있고, 출력층에서 출력값을 출력한다.
구체적으로, 입력층은 받은 값을 그대로 은닉층에 전달할 수 있다. 은닉층은 다수의 노드들을 포함할 수 있으며, 각 노드는 다수의 입력신호들을 각각 가중치들과 곱한 후, 이를 가산한 가산 신호를 출력할 수 있다. 그리고, 은닉층 및 출력층은 가중치 합 계산 및 활성함수 계산을 수행할 수 있다. 가중치 합 계산은 입력층 또는 은닉층의 마디들을 결합하는 형태가 될 수 있다. 활성함수는 다음의 수학식 1과 같은 시그모이드 함수로써, 입력 변수 또는 은닉 마디의 결합을 변환하는 함수가 될 수 있다.
Figure 112018080969005-pat00001
딥러닝 신경망(6)은 RNN(Recurrent Neural Network)에 의해 생성될 수 있다. RNN은 시간에 따라 순차적인 데이터를 학습하기 위한 심층 신경망(deep neural network)의 구현 방식 중의 하나로써, 시간 t에서 심층 신경망 내 특정 뉴런의 출력이 시간 t+1에서 다른 뉴런의 입력으로 하는 과정의 반복을 통해 신경망을 형성할 수 있다. RNN을 통해 시계열적으로 입력되는 각 SNP의 연구 데이터에 따른 질병명, 유전자명 또는 형질(trait) 등과의 관계를 보다 정확히 알 수 있고, 이에 따라 질병 진단이나 질병 예측에 딱 맞는 유전자 마커의 정보를 딥러닝 신경망을 통해 생성할 수 있다.
딥러닝 신경망(6)은 순차적으로 학습 데이터를 획득할 때마다 가중치를 갱신할 수 있으며, 비용 함수를 이용하여 계산된 딥러닝 신경망(6)의 출력 에러에 기초하여 가중치를 갱신할 수 있다. 딥러닝 신경망(6)의 출력 에러를 계산하고 가중치를 갱신하는 것은 피드백 과정에 해당한다. 피드 포워드 과정에서는 샘플 데이터를 사용하여 가중치 및 하이퍼볼릭 함수 등 여러 함수를 적용하여 딥러닝 신경망의 출력을 계산할 수 있다.
여기에서, 학습 데이터 세트를 두 부류로 선형 분류하기 위한 선형 경계를 찾을 수 있다. 가중치는 선형 경계의 방향성 또는 형태를 나타내는 값이 될 수 있다. 활성함수(activation function)인 시그모이드 함수는 SOP(sum of product)의 값을 특정 연산을 통해서 정규화하거나 트리거(trigger)를 하기 위해서 사용할 수 있다.
SOP(sum of product)가 임계값보다 크면 활성화되면서 1을 출력하고 작으면 비활성화되면서 0을 출력할 수 있으며, 대상 항목 및 후보 유전자 마커들의 관련성에 영향을 미치는 요인을 확인할 수 있다(S106).
구체적으로, 대상 항목 및 후보 유전자 마커들의 관련성에 영향을 미치는 요인으로써, 공개 유전자 마커들에 관련된 연구 항목에 참여한 인종 정보, 상기 연구 항목에 참여한 참여자수, 상기 연구 항목의 반복횟수, 상기 연구 항목에서의 위험도, 상기 연구 항목과의 연관도가 활성화된다. 또한, 선형 경계의 방향성 또는 형태를 나타내는 값을 의미하는 가중치의 크기가 연구 항목에 참여한 인종 정보, 연구 항목에서의 위험도, 연구 항목에 참여한 참여자수, 연구 항목에서의 연관도, 상기 연구 항목의 반복횟수의 순으로 작아지게 된다.
시그모이드 함수를 활성 함수로 하고, 딥러닝 신경망에 적용하여 선형 경계의 방향성 또는 형태를 나타내는 값을 의미하는 가중치의 크기를 도출한 결과, 인종 정보의 가중치를 1로 할 경우에 위험도 중 odds ratio의 가중치가 0.7~0.8, 참여자수의 가중치가 0.5~0.6, 연관도 중 P-value의 가중치가 0.3~0.4, 반복횟수의 가중치가 0.1~0.2 정도를 보였다.
이러한 전처리의 과정을 통해, 입력된 대상 항목에 관련된 후보 유전자 마커들의 연구 데이터를 추출함에 있어서, 상기 후보 유전자 마커들에 관련된 연구 항목에 참여한 인종 정보, 상기 연구 항목에 참여한 참여자수, 상기 연구 항목의 반복횟수, 상기 연구 항목에서의 위험도, 상기 연구 항목과의 연관도를 포함한 연구 데이터를 추출하는 것이 바람직하다.
다음으로, 후보 유전자 마커들을 정렬하는 경우(S120), 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도를 포함한 연구 데이터를 기초로 후보 유전자 마커들을 정렬한다.
구체적으로, 도 4에 도시한 바와 같이, 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도의 중요도에 따라 상기 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도의 점수 레벨 및 점수 분포를 결정하며(S122), 상기 결정된 점수 레벨 및 점수 분포에 기초하여 상기 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도에 각각 점수를 부여하고(S124), 상기 부여된 점수를 합산하여 합산 점수를 생성하고(S126), 상기 합산 점수의 크기에 따라 상기 후보 유전자 마커들을 정렬한다(S128).
여기에서, 점수 레벨 및 점수 분포를 결정하는 경우(S122), 점수 레벨을 상기 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도에 각각 10, 7, 5, 7, 5로 결정할 수 있다. 그리고, 상기 점수 분포를 상기 추출된 인종 정보에 5, 7, 10, 상기 추출된 참여자수에 1, 3, 5, 7, 상기 추출된 반복횟수에 3, 5, 상기 추출된 위험도에 1, 3, 5, 7, 상기 추출된 연관도에 1, 2, 3, 4, 5로 결정할 수 있다.
상술하여 설명한 바와 같이, 대상 항목 및 후보 유전자 마커들의 관련성에 영향을 미치는 요인이 공개 유전자 마커들에 관련된 연구 항목에 참여한 인종 정보, 상기 연구 항목에 참여한 참여자수, 상기 연구 항목의 반복횟수, 상기 연구 항목에서의 위험도, 상기 연구 항목과의 연관도이며, 선형 경계의 방향성 또는 형태를 나타내는 값을 의미하는 가중치의 크기가 연구 항목에 참여한 인종 정보, 연구 항목에서의 위험도, 연구 항목에 참여한 참여자수, 연구 항목에서의 연관도, 상기 연구 항목의 반복횟수의 순으로 작아지는 것을 고려할 때, 점수 레벨을 상기 연구 항목에 참여한 인종 정보, 연구 항목에서의 위험도, 연구 항목에 참여한 참여자수, 연구 항목에서의 연관도, 상기 연구 항목의 반복횟수 순으로 내림 차순할 수 있다. 다만, 연구 항목에서의 위험도 및 연관도는 유전체 분석을 수행한 이후에 산출되는 통계적 해석에 따른 결과적 요인이고, 인종 정보, 참여자수, 반복횟수는 유전체 분석을 수행하기 위한 모집단의 선정에서 결정되는 원인적 요인이라는 점에서 인종 정보, 참여자수, 반복횟수의 점수 레벨을 높이는 것이 바람직하다. 이러한 것을 고려하여 점수 레벨을 상기 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도에 각각 10, 7, 5, 7, 5로 결정할 수 있다.
또한, 점수 분포는 연구 데이터의 특성에 따라 결정되며, 각 연구 데이터의 점수 분포를 결정하기 위해 SVM(Support Vector Machine)을 사용할 수 있다. SVM은 각 데이터 집합의 최외곽에 있는 데이터를 서포트 벡터(support vector)라 하고, 이러한 서포트 벡터로부터 마진이 최대가 되는 최적 초평면(optimal hyperplane)을 구하여 에러 발생을 크게 감소시킨다.
인종 정보는 아시아인, 유럽인, 아프리카인 등으로 구별되며, 특정 유전자에 따른 특정 질병에 가장 큰 영향을 미치고, SVM(Support Vector Machine)을 이용하여 동일한 인종 집단인지를 기준으로 분류되었다. 기본적으로, SVM은 이진분류 문제를 다루며 서포트 벡터(Support Vector)로 정의되는 초평면으로 두개의 클래스로 구분하는 것이며, 이에 영향을 받는 것이다. 또한, 공개 데이터베이스에 공개된 인종 정보는 보통 1개의 인종 집단인 것이 대부분이다. 이에, 1개의 동일한 인종 집단을 기준으로 점수 분포를 결정할 수 있다. 예를 들어, 점수 분포를 아시아인 2개 집단 이상에서 동일한 결과로 연구된 경우에 10, 아시아인 1개 집단에서 동일한 결과로 연구된 경우에 7, 아시아인 집단에 해당하지 않는 경우에 5로 결정할 수 있다.
또한, 위험도는 odds ratio, relative risk, beta effect, z-score 등이 공개 데이터베이스에 공개되며, 이 중에서 odds ratio(OR)는 대부분의 연구 데이터에 함께 공개된다. 이에, 위험도는 통상 odds ratio를 사용하게 된다. 어떠한 사건이 일어날 확률을 p라고 한다면 그 사건에 대한 odds는 p(1-p)로 구할 수 있으며, odds의 비(ratio)를 이용하면 두 개의 특성에 대한 연관 관계를 확인할 수 있다. 豫를 들어, 특정 유전자(A)를 가진 사람의 특정 질병(B)의 odds ratio를 구하면 특정 유전자(A)와 특정 질병(B)의 위험도를 평가할 수 있다. SVM(Support Vector Machine)을 이용하여 공개 데이터베이스에 공개된 odds ratio(OR)는 1.5를 기준으로 두 개의 클래스로 구분되었다. 그리고, odds ratio 1.5 미만 클래스에서는 1.2를 기준으로 다시 두 개의 클래스로 구분되었고, 1.5 초과 클래스에서는 2.0을 기준으로 다시 두 개의 클래스로 구분되었으며, 1.2 미만 및 2.0 초과에서는 분류가 이루어지지 않았다. 결국, 1.2, 1.5, 2.0을 기준으로 크게 네 범주로 분류되었다. 이에, 점수 분포를 2.0초과한 경우에 7, 1.5초과 및 2.0이하인 경우에 5, 1.5이하 및 1.2이상인 경우에 3, 1.2 미만인 경우에 1로 결정할 수 있다.
또한, SVM(Support Vector Machine)을 이용하여 공개 데이터베이스에 공개된 참여자수는 10,000명을 기준으로 두 개의 클래스로 구분되었다. 그리고, 참여자수 10,000명 미만 클래스에서는 5,000명을 기준으로 다시 두 개의 클래스로 구분되었고, 10,000명 초과 클래스에서는 20,000명을 기준으로 다시 두 개의 클래스로 구분되었으며, 5,000명 미만 및 20,000명 초과에서는 분류가 이루어지지 않았다. 결국, 5,000명, 10,000명, 20,000명을 기준으로 크게 네 범주로 분류되었다. 이에, 점수 분포를 20,000명 이상인 경우에 7로, 20,000명 미만 및 10,000명 이상인 경우에 5로, 10,000명 미만 및 5,000명 이상인 경우에 3으로, 5,000명 미만인 경우에 1로 결정할 수 있다.
또한, 통계적 유의수준을 나타내는 P-value가 대부분의 연구 데이터에 함께 공개되며, 상기 P-value를 유전자와의 관계 정도를 나타낼 수 있는 연관도로 사용할 수 있다. SVM(Support Vector Machine)을 이용하여 공개 데이터베이스에 공개된 연관도(P-value)는 1.00E-5를 기준으로 두 개의 클래스로 구분되었다, 그리고, 연관도(P-value) 1.00E-5 미만 클래스에서는 1.00E-8를 기준으로 다시 두 개의 클래스로 구분되었고, 1.00E-5 초과 클래스에서는 1.00E-3를 기준으로 다시 두 개의 클래스로 구분되었다. 또한, 1.00E-8 미만에서는 1.00E-20을 기준으로 다시 두 개의 클래스로 구분되었으나, 1.00E-3 초과에서는 분류가 이루어지지 않았다. 한편, Pak C. Sham, (2014) Nature Reviews에 공개된 "Statistical power and significance testing in large-scale genetic studies"에 따르면, GWAS test가 아닌 경우에 P-value가 0.05 이하를 나타내야 통계적으로 유의미하다는 논문에 따라 최소한 P-value는 0.05 이하를 충족해야 한다. 결국, 1.00E-3(=0.00100), 1.00E-5, 1.00E-8, 1.00E-20을 기준으로 크게 다섯 범주로 분류되었다. 이에, 점수 분포를 1.00E-20 미만인 경우에 5, 1.00E-20 이상 및 1.00E-8 미만인 경우에 4, 1.00E-8 이상 및 1.00E-5 미만인 경우에 3, 1.00E-5 이상 및 1.00E-3 미만인 경우에 2, 1.00E-3 이상 및 5.00E-2 미만인 경우에 1로 결정할 수 있다.
또한, 공개 데이터베이스에 공개된 반복횟수는 연구 결과의 재현성을 나타내는 것으로 두 가지의 경우이다. 구체적으로, 같은 집단 및 다른 집단 모두에서 동일한 결과로 연구된 경우가 하나이며, 다른 하나는 같은 집단에서 동일한 결과로 연구된 경우 또는 다른 집단에서 동일한 결과로 연구된 경우이다. 이에, 점수 분포를 같은 집단 및 다른 집단 모두에서 동일한 결과로 연구된 경우에 5, 같은 집단 혹은 다른 집단에서 동일한 결과로 연구된 경우에 3으로 결정할 수 있다.
도 5에 연구 데이터의 항목에 따른 점수 레벨 및 점수 분포가 도시되어 있다.
이렇게 결정된 점수 레벨 및 점수 분포에 기초하여 입력된 대상 항목에 관련된 후보 유전자 마커들의 연구 데이터에서 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도에 각각 점수를 부여할 수 있고(S124), 부여된 점수에 따라 점수를 합산하여 계산할 수 있다(S126).
예를 들어, 대상 항목으로 비만을 입력할 경우, CLOCK(Clock Circadian Regulator), PLIN(Perilipin 1), FTO(Fat Mass And Obesity Associated), MC4R(Melanocortin 4 Receptor) 등 비만에 관련된 유전자가 대상이 되며, 이러한 비만 유전자에 관련된 유전자 마커들인 rs17782313, rs10938397, rs1558902, rs3101336, rs7138803 등의 연구 데이터를 추출하고, 이에 따라 rs17782313, rs10938397, rs1558902, rs3101336, rs7138803 등의 연구 항목에 참여한 인종 정보, 상기 연구 항목에 참여한 참여자수, 상기 연구 항목의 반복횟수, 상기 연구 항목에서의 위험도, 상기 연구 항목과의 연관도가 추출될 수 있다.
이때, 추출된 rs17782313의 인종 정보가 아시아인 1개 집단에서 동일한 연구 결과인 경우에 7점을 부여하고, OR이 1.3인 경우에 3점을 부여하고, 참여자수가 15,000명인 경우에 5점을 부여하고, P-value가 0.0001인 경우에 2점을 부여하고, 반복횟수가 다른 집단에서 동일한 연구 결과인 경우에 3점을 부여할 수 있고, 합산 점수는 20점이 된다.
만약, 합산 점수가 동일한 경우, 상기 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도에 부여된 각 점수에 상기 중요도에 따라 각각 가중치를 부여할 수 있다.
예를 들어, rs17782313의 인종 정보가 아시아인 1개 집단에서 동일한 연구 결과인 경우에 7점을 부여하고, OR이 1.3인 경우에 3점을 부여하고, 참여자수가 15,000명인 경우에 5점을 부여하고, P-value가 0.0001인 경우에 2점을 부여하고, 반복횟수가 다른 집단에서 동일한 연구 결과인 경우에 3점을 부여할 수 있어 합산 점수는 20점이 되고, rs1558902의 인종 정보가 아시아인 2개 집단에서 동일한 연구 결과인 경우에 10점을 부여하고, OR이 1.0인 경우에 1점을 부여하고, 참여자수가 15,000인 경우에 5점을 부여하고, P-value가 0.04인 경우에 1점을 부여하고, 반복횟수가 다른 집단에서 동일한 연구 결과인 경우에 3점을 부여할 수 있어 합산 점수는 20점이 되어 합산 점수가 동일한 경우에 인종 정보, 참여자수, 반복횟수, 위험도, 연관도에 부여된 각 점수에 중요도에 따라 가중치를 부여하게 된다.
상술한 바와 같이, 시그모이드 함수를 활성 함수로 하고, 딥러닝 신경망에 적용하여 선형 경계의 방향성 또는 형태를 나타내는 값을 의미하는 가중치의 크기를 도출한 결과, 인종 정보의 가중치를 1로 할 경우에 위험도 중 odds ratio의 가중치가 0.7~0.8, 참여자수의 가중치가 0.5~0.6, 연관도 중 P-value의 가중치가 0.3~0.4, 반복횟수의 가중치가 0.1~0.2 정도를 보였는 바, 인종 정보, odds ratio, 참여자수, P-value, 반복횟수의 순으로 가중치를 줄 수 있다.
상기 예시한 rs17782313 및 rs1558902에 각각 인종 정보 1, odds ratio 0.8, 참여자수 0.6, P-value 0.4, 반복횟수 0.2의 가중치를 적용할 경우, rs17782313은 13.8(=1*7+0.8*3+0.6*5+0.4*2+0.2*3)이 되고, 14.8(=1*10+0.8*1+0.6*5+0.4*1+0.2*3)이 되어 유전자 마커 rs17782313를 더 높은 순서로 정렬할 수 있게 된다.
정렬된 후보 유전자 마커들을 순서대로 표시할 경우(S130), 입력된 대상 항목, 유전자 마커 이름, SNP의 rs number, 유전자 마커의 염기서열 변이 정보, 유전자 마커의 연구에 참여한 인종과 총 참여자수, 위험도, 항목과의 연관도, 참고한 논문의 제목 또는 공개 데이터베이스의 이름과 URL(Uniform Resource Locator) 등을 테이블로 정리해서 표시할 수 있다.
이렇게 정렬되어 표시된 유전자 마커들 중 연구자에 의해 선택된 유전자 마커들은 마커의 서열정보 DB로부터 유전자 서열정보를 가져와 유전자 분석용 프라이머(primer)를 디자인하는데 사용될 수 있다.
도 6은 본 발명의 일 실시예에 따른 유전자 마커 선별 장치의 구성을 도시한 도면이다.
도 6을 참조하면, 본 발명의 일 실시예에 따른 유전자 마커 선별 장치(100)는 입력부(110), 추출부(120), 정렬 제어부(130), 출력부(140)를 포함할 수 있다. 또한, 유전자 마커 선별 장치(100)는 저장부(150), 전처리부(160) 등을 더 포함할 수 있다.
입력부(110)는 대상 항목을 입력한다. 여기에서, 대상 항목은 위암 등과 같은 질병명, FTO 등과 같은 유전자명, 피부 탄력 등과 같은 형질(trait)을 의미한다.
추출부(120)는 대상 항목에 관련된 후보 유전자 마커들의 연구 데이터를 추출하되, 상기 후보 유전자 마커들에 관련된 연구 항목에 참여한 인종 정보, 상기 연구 항목에 참여한 참여자수, 상기 연구 항목의 반복횟수, 상기 연구 항목에서의 위험도, 상기 연구 항목과의 연관도를 포함한 연구 데이터를 추출한다. 추출부(120)는 대상 항목에 관련된 후보 유전자 마커들의 연구 데이터를 공개된 공개 데이터베이스에서 수집하여 추출할 수도 있고, 미리 저장되어 구축된 저장부(150)에서 추출할 수도 있다.
정렬 제어부(130)는 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도를 포함한 연구 데이터를 기초로 상기 후보 유전자 마커들을 정렬한다.
구체적으로, 정렬 제어부(130)는 상기 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도의 중요도에 따라 상기 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도의 점수 레벨 및 점수 분포를 결정하는 점수 결정모듈(132), 상기 결정된 점수 레벨 및 점수 분포에 기초하여 상기 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도에 각각 점수를 부여하는 점수 부여모듈(134), 상기 부여된 점수를 합산하여 합산 점수를 생성하는 점수 생성모듈(136), 상기 합산 점수의 크기에 따라 상기 후보 유전자 마커들을 정렬하는 마커 정렬모듈(138)을 포함할 수 있다.
여기에서, 점수 결정모듈(132)은 점수 레벨을 상기 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도에 각각 10, 7, 5, 7, 5로 결정하며, 상기 점수 분포를 상기 추출된 인종 정보에 5, 7, 10, 상기 추출된 참여자수에 1, 3, 5, 7, 상기 추출된 반복횟수에 3, 5, 상기 추출된 위험도에 1, 3, 5, 7, 상기 추출된 연관도에 1, 2, 3, 4, 5로 결정할 수 있다. 이때, 점수 레벨을 결정하기 위해 SVM 등의 분류 알고리즘이 사용될 수 있다.
또한, 도면에는 도시하지 않았으나, 정렬 제어부(130)는 합산 점수가 동일한 경우, 상기 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도에 부여된 각 점수에 중요도에 따라 각각 가중치를 부여하는 가중치 부여모듈(미도시)을 더 포함할 수 있다. 상기 가중치 부여모듈은 상기 추출된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도에서 인종 정보, 위험도, 참여자수, 연관도, 반복횟수의 순으로 높은 가중치를 부여할 수 있다. 이때, 가중치를 부여하는 중요도 및 가중치의 크기 등을 결정하기 위해 딥러닝 신경망 등의 학습 및 추론 기술이 사용될 수 있다.
출력부(140)는 정렬 제어부(130)의 제어에 의해 정렬된 후보 유전자 마커들을 순서대로 표시하여 출력한다. 예를 들어, 출력부(140)에 입력된 대상 항목, 유전자 마커 이름, SNP의 rs number, 유전자 마커의 염기서열 변이 정보, 유전자 마커의 연구에 참여한 인종과 총 참여자수, 위험도, 항목과의 연관도, 참고한 논문의 제목 또는 공개 데이터베이스의 이름과 URL(Uniform Resource Locator) 등이 테이블 형태로 표시될 수 있다.
저장부(150)는 공개 데이터베이스에 공개된 공개 유전자 마커들의 연구 데이터를 수집하여 저장한다. 공개 데이터베이스는 네트워크 등을 통해 연결되어야 하므로, 미리 공개 데이터베이스에서 데이터를 수집하여 DB를 구축할 수 있고, 저장부(150)에 저장된 데이터들을 기초로 딥러닝 신경망을 이용하여 학습시켜 정확한 유전자 마커 선별에 도움을 줄 수 있는 트레이닝 데이터 세트를 미리 준비할 수 있다. 저장부(150)에 공개 유전자 마커들의 연구 데이터를 미리 저장하므로, 외부와 네트워크 등을 통해 연결되지 않더라도 유전자 마커 선별 작업을 수행할 수 있게 된다.
전처리부(160)는 수집된 연구 데이터를 학습 데이터 세트로 딥러닝 신경망에 입력하여 학습시켜 대상 항목 및 후보 유전자 마커들의 관련성에 영향을 미치는 요인을 전처리 확인한다.
상술하여 설명한 바와 같이, 딥러닝 신경망을 이용하여 대상 항목 및 후보 유전자 마커들의 관련성에 영향을 미치는 요인을 판단할 수 있다. 즉, 활성함수(activation function)인 시그모이드 함수는 SOP(sum of product)의 값을 특정 연산을 통해서 정규화하거나 트리거(trigger)를 하기 위해서 사용할 수 있고, SOP가 임계값보다 크면 활성화되면서 1을 출력하고 작으면 비활성화되면서 0을 출력할 수 있으며, 대상 항목 및 후보 유전자 마커들의 관련성에 영향을 미치는 요인을 확인할 수 있다.
구체적으로, 전처리부(160)는 공개 유전자 마커들에 관련된 연구 항목에 참여한 인종 정보, 상기 연구 항목에 참여한 참여자수, 상기 연구 항목의 반복횟수, 상기 연구 항목에서의 위험도, 상기 연구 항목과의 연관도를 상기 대상 항목 및 후보 유전자 마커들의 관련성에 영향을 미치는 요인으로 확인하며, 상기 대상 항목 및 후보 유전자 마커들의 관련성에 영향을 미치는 요인으로 확인된 인종 정보, 참여자수, 반복횟수, 위험도, 연관도의 중요도를 전처리 판단할 수 있다. 딥러닝 신경망에 공개 데이터베이스에서 수집된 연구 데이터들의 인종 정보, 위험도, 연관도, 참여자수, 반복횟수를 입력한 결과, 선형 경계의 방향성 또는 형태를 나타내는 값을 의미하는 가중치의 크기가 연구 항목에 참여한 인종 정보, 연구 항목에서의 위험도, 연구 항목에 참여한 참여자수, 연구 항목에서의 연관도, 상기 연구 항목의 반복횟수의 순으로 작아진다.
도 7은 본 발명의 일 실시예에 따른 유전자 마커 선별 시스템의 개념을 도시한 도면이다.
도 7을 참조하면, 본 발명의 일 실시예에 따른 유전자 마커 선별 시스템은 데이터베이스 서버(10), 유전자 마커 선별 서버(20), 외부 단말(30)을 포함한다. 이러한 데이터베이스 서버(10), 유전자 마커 선별 서버(20), 외부 단말(30)은 네트워크(50)를 통해 서로 연결된다. 네트워크(50)는 네트워크(50)는 유선 네트워크뿐만 아니라 무선 네트워크를 포함함은 물론이다.
데이터베이스 서버(10)는 공개 데이터베이스에 공개된 공개 유전자 마커들의 연구 데이터를 수집하여 저장한다. 이러한 데이터베이스 서버(10)는 정보를 저장하기 위한 논리적 또는 물리적인 저장 서버를 의미하며, 예를 들어, 오라클(Oracle) 사의 Oracle DBMS, 마이크로소프트(Microsoft) 사의 MS-SQL DBMS, 사이베이스(Sybase) 사의 SYBASE DBMS 등의 형태일 수 있으나, 이에만 한정되지 않음은 당업자에게 자명하다 할 것이다.
유전자 마커 선별 서버(20)는 대상 항목을 입력하여 관련된 후보 유전자 마커들의 연구 데이터를 상기 데이터베이스 서버(10)에서 추출하고, 상기 데이터베이스 서버(10)에서 추출된 연구 데이터에서 연구 항목에 참여한 인종 정보, 상기 연구 항목에 참여한 참여자수, 상기 연구 항목의 반복횟수, 상기 연구 항목에서의 위험도, 상기 연구 항목과의 연관도를 추출하여 이를 기초로 상기 후보 유전자 마커들을 정렬하고, 상기 정렬된 후보 유전자 마커들을 순서대로 표시하여 출력한다. 이때, 유전자 마커 선별 서버(20)는 정렬된 후보 유전자 마커들을 순서대로 표시하여 네트워크(50)를 통해 외부 단말(30)에 출력할 수 있다. 즉, 상술하여 설명한 유전자 마커 선별 장치(100)와 다르게 유전자 마커 관련 데이터 수집은 데이터베이스 서버(10)에서 이루어지고, 유전자 마커 관련 결과 출력은 외부 단말(30)에서 이루어진다. 이하, 상술하여 설명한 유전자 마커 선별 장치(100)와 동일한 범위에서의 유전자 마커 선별 서버(20)에 대한 상세한 설명은 생략하도록 한다.
또한, 유전자 마커 선별 서버(20)는 정렬된 유전자 마커들을 외부 단말(30)에 표시하는 것과 함께 실생활에 적용할 수 있는 건강 관련 정보를 외부 단말(30)에 함께 제공할 수 있다. 예를 들어, 정렬된 유전자 마커들과 함께 영양 정보, 식이 정보 등을 제공할 수 있다.
일례로, 유전자 마커 선별 서버(20)가 비만 유전자에 관련된 유전자 마커들인 rs17782313, rs10938397, rs1558902, rs3101336, rs7138803을 정렬하여 외부 단말(30)에 표시하는 경우, 각 유전자 마커에 밀접한 관련이 있는 주의해야 할 음식, 섭취해야 할 음식 등을 관련 정보로 함께 제공할 수 있다. 보다 구체적으로, 유전자 마커 선별 서버(20)는 rs10938397 항목에 주의해야 할 음식, 섭취해야 할 음식에 관한 코멘트를 함께 정리하여 외부 단말(30)에 출력할 수 있다. 이를 통해, 유전자 정보에 기초하여 필요 영양 성분 등이 설정되며, 설정된 영양 성분 등에 기초하여 보다 정확하고 최적의 맞춤형 식이 정보를 제공할 수 있다.
또한, 유전자 마커 선별 서버(20)가 비만 유전자에 관련된 유전자 마커들인 rs17782313, rs10938397, rs1558902, rs3101336, rs7138803을 정렬하여 외부 단말(30)에 표시하는 경우, 각 유전자 마커에 밀접한 관련이 있는 운동 계획 등을 관련 정보로 함께 제공할 수 있다. 보다 구체적으로, 유전자 마커에 따른 적절한 운동의 종류, 운동 방법 등을 함께 정리하여 외부 단말(30)에 출력할 수 있다. 이를 통해, 유전자 정보에 기초하여 필요 보다 정확하고 최적의 맞춤형 운동 정보를 제공할 수 있다.
이를 통해, 유전자 마커 선별 서버(20)에서 입력된 대상 항목에 따른 유전자 마커를 선별하여 제공하는 것에서 나아가, 유전자 기반 맞춤형 건강 관련 정보를 제공할 수 있게 된다.
외부 단말(30)은 HTML, XML 등 웹 페이지의 내용을 표시할 수 있는 웹 브라우저(넷스케이프, 인터넷 익스플로러, 크롬 등)를 가질 수 있으며, 유전자 마커 선별 서버(20)에서 전송되는 정보를 출력하는 역할을 한다. 이러한 외부 단말(30)은 셀룰러폰(Cellular phone), 피씨에스폰(PCS phone: Personal Communications Services phone), 동기식/비동기식 IMT-2000(International Mobile Telecommunication-2000) 등 일반적인 이동 통신 단말, 2G/3G/4G, 와이브로 무선망 서비스가 가능한 단말, 팜 PC(Palm Personal Computer), 개인용 디지털 보조기(PDA: Personal Digital Assistant), 스마트폰(Smart phone), 왑폰(WAP phone: Wireless application protocol phone) 등 네크워크(50)에 접속하기 위한 사용자 인터페이스를 갖는 모든 유무선 가전/통신 장치를 포괄적으로 의미할 수 있으며, IEEE 802.11 무선 랜 네트워크 카드 등의 무선랜 접속을 위한 인터페이스가 구비된 기기일 수 있다. 또한, 외부 단말(30)은 이동 통신 단말 이외에 컴퓨터, 노트북 등의 정보 통신 기기이거나 이를 포함하는 장치일 수도 있다.
또한, 외부 단말(30)이 유전자 마커 선별 서버(20)에 접속한 경우, 유전체 분석 서비스와 관련하여 여러 정보들, 예를 들어 사용자의 개인 정보, 사용자 DNA 정보, 사용자 생체 정보 등 여러 민감한 정보가 노출될 우려가 있으므로, 외부 단말(30)의 인증이 필수적이다. 외부 단말(30)의 인증 단계에서, 텍스트파일 인증모듈(mod_auth), DBM인증모듈 (mod_auth_dbm), Berkeley DB 인증모듈(mod_auth_db), Anonymous 인증모듈(mod_auth_anon), PostgreSQL인증모듈, XNS 인증 서비스 중 적어도 하나의 인증 프로토콜을 이용하여 외부 단말(30)을 인증하게 되나, 이에만 제한되지 않음은 당업자에게 자명하다 할 것이다. 특히, 외부 단말(30)이 최초 접속한 경우 회원 가입을 요청하고, 상기 회원 가입이 완료된 후에 상기 외부 단말의 인증을 수행하는 것이 바람직하다.
한편, 본 발명의 일 실시예에 따른 유전자 마커 선별 방법 및 장치는 소프트웨어 및 하드웨어에 의해 하나의 모듈로 구현 가능하며, 전술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성 가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 컴퓨터에서 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 롬(ROM), 플로피 디스크, 하드 디스크 등의 자기적 매체, CD, DVD 등의 광학적 매체 및 인터넷을 통한 전송과 같은 캐리어 웨이브와 같은 형태로 구현된다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네크워크로 연결된 컴퓨터 시스템에 분산되어 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
그리고, 본 발명의 실시예에서 사용되는 구성요소 또는 '~부'/'~모듈'은 메모리 상의 소정 영역에서 수행되는 태스크, 클래스, 서브 루틴, 프로세스, 오브젝트, 실행 쓰레드, 프로그램과 같은 소프트웨어(software)나, FPGA(field-programmable gate array)나 ASIC(application-specific integrated circuit)과 같은 하드웨어(hardware)로 구현될 수 있으며, 또한 상기 소프트웨어 및 하드웨어의 조합으로 이루어질 수도 있다. 상기 구성요소 또는 '~부'/'~모듈'은 컴퓨터로 판독 가능한 저장 매체에 포함되어 있을 수도 있고, 복수의 컴퓨터에 그 일부가 분산되어 분포될 수도 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
100: 유전자 마커 선별 장치
110: 입력부 120: 추출부
130: 정렬 제어부 140: 출력부
150: 저장부 160: 전처리부

Claims (18)

  1. 입력부, 추출부, 정렬 제어부, 출력부, 저장부, 전처리부를 포함하는 유전자 마커 선별 장치에 의해 유전자 마커를 선별하는 방법에 있어서,
    상기 저장부에 공개 데이터베이스에 공개된 공개 유전자 마커들의 연구 데이터를 전처리 수집하는 단계;
    상기 전처리부에 의해, 시그모이드 함수가 활성 함수이고 RNN(Recurrent Neural Network)에 의해 생성되는 딥러닝 신경망에 상기 수집된 연구 데이터를 학습 데이터 세트로 입력하여 학습시켜 질병명, 유전자명 또는 형질(trait) 중 적어도 하나를 포함하는 대상 항목 및 상기 공개 유전자 마커들의 관련성에 영향을 미치는 요인을 확인하되, 상기 공개 유전자 마커들에 관련된 연구 항목에 참여한 인종 정보, 상기 연구 항목에 참여한 참여자수, 상기 연구 항목의 반복횟수, 상기 연구 항목에서의 odds ratio, 상기 연구 항목과의 P-value를 상기 요인으로 전처리 확인하고, 상기 요인으로 확인된 인종 정보, 참여자수, 반복횟수, odds ratio, P-value의 중요도를 상기 인종 정보, 상기 odds ratio, 상기 참여자수, 상기 P-value, 상기 반복횟수의 순으로 전처리 판단하는 단계;
    상기 입력부에 의해, 상기 대상 항목으로 상기 질병명, 유전자명 또는 형질(trait) 중 적어도 하나를 입력하여, 상기 추출부에 의해, 상기 입력된 대상 항목에 관련된 후보 유전자 마커들의 연구 데이터를 추출하되, 상기 후보 유전자 마커들에 관련된 연구 항목에 참여한 인종 정보, 상기 연구 항목에 참여한 참여자수, 상기 연구 항목의 반복횟수, 상기 연구 항목에서의 odds ratio, 상기 연구 항목과의 P-value를 포함한 연구 데이터를 추출하는 단계;
    상기 정렬 제어부에 의해, 상기 추출된 인종 정보, 참여자수, 반복횟수, odds ratio, P-value를 포함한 연구 데이터를 기초로 상기 후보 유전자 마커들을 정렬하되, 상기 추출된 인종 정보, 참여자수, 반복횟수, odds ratio, P-value의 중요도에 따라 상기 추출된 인종 정보, odds ratio, 참여자수, P-value, 반복횟수의 순으로 점수 레벨을 결정한 후 점수 분포를 결정하며, 상기 결정된 점수 레벨 및 점수 분포에 기초하여 상기 추출된 인종 정보, 참여자수, 반복횟수, odds ratio, P-value에 각각 점수를 부여하고, 상기 부여된 점수를 합산하여 합산 점수를 생성하고, 상기 합산 점수의 크기에 따라 상기 후보 유전자 마커들을 정렬하는 단계; 및
    상기 출력부에 상기 정렬된 후보 유전자 마커들을 순서대로 표시하는 단계를 포함하며,
    상기 점수 레벨을 결정하는 경우, 상기 정렬 제어부에 의해, 상기 인종 정보, 참여자수, 반복횟수의 점수 레벨을 높이되, 상기 참여자수의 점수 레벨을 상기 odds ratio의 점수 레벨로 높이고, 상기 반복횟수의 점수 레벨을 상기 P-value의 점수 레벨로 높임으로써, 상기 점수 레벨을 상기 인종 정보, 참여자수, 반복횟수, odds ratio, P-value에 각각 10, 7, 5, 7, 5로 결정하고,
    상기 점수 분포를 결정하는 경우, 상기 정렬 제어부에 의해, SVM(Support Vector Machine)을 사용하여 상기 odds ratio, 참여자수, P-value의 점수 분포를 결정하되, 상기 odds ratio는 1.2, 1.5, 2.0을 기준으로 네 범주로 분류되고, 상기 참여자수는 상기 참여자수는 5,000명, 10,000명, 20,000명을 기준으로 네 범주로 분류되는, 유전자 마커 선별 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 제 1항에 있어서,
    상기 점수 분포를 결정하는 단계는,
    상기 점수 분포를 상기 추출된 인종 정보에 5, 7, 10, 상기 추출된 참여자수에 1, 3, 5, 7, 상기 추출된 반복횟수에 3, 5, 상기 추출된 odds ratio에 1, 3, 5, 7, 상기 추출된 P-value에 1, 2, 3, 4, 5로 결정하는 단계를 포함하는, 유전자 마커 선별 방법.
  8. 제 1항에 있어서,
    상기 정렬 제어부에 의해, 상기 후보 유전자 마커들을 정렬하는 단계는,
    상기 합산 점수가 동일한 경우, 상기 추출된 인종 정보, 참여자수, 반복횟수, odds ratio, P-value에 부여된 각 점수에 상기 중요도에 따라 각각 가중치를 부여하는 단계를 더 포함하는, 유전자 마커 선별 방법.
  9. 제 8항에 있어서,
    상기 정렬 제어부에 의해, 상기 가중치를 부여하는 단계는,
    상기 추출된 인종 정보, 참여자수, 반복횟수, odds ratio, P-value 에서 인종 정보, odds ratio, 참여자수, P-value, 반복횟수의 순으로 높은 가중치를 부여하는 단계를 포함하는, 유전자 마커 선별 방법.
  10. 공개 데이터베이스에 공개된 공개 유전자 마커들의 연구 데이터를 수집하여 저장하는 저장부;
    시그모이드 함수가 활성 함수이고 RNN(Recurrent Neural Network)에 의해 생성되는 딥러닝 신경망에 상기 저장부에 저장된 연구 데이터를 학습 데이터 세트로 입력하여 학습시켜 질병명, 유전자명 또는 형질(trait) 중 적어도 하나를 포함하는 대상 항목 및 상기 공개 유전자 마커들의 관련성에 영향을 미치는 요인을 전처리 확인하되, 상기 공개 유전자 마커들에 관련된 연구 항목에 참여한 인종 정보, 상기 연구 항목에 참여한 참여자수, 상기 연구 항목의 반복횟수, 상기 연구 항목에서의 odds ratio, 상기 연구 항목과의 P-value를 상기 요인으로 전처리 확인하며, 상기 요인으로 확인된 인종 정보, 참여자수, 반복횟수, odds ratio, P-value의 중요도를 전처리 판단하는 전처리부;
    상기 대상 항목으로 상기 질병명, 유전자명 또는 형질(trait) 중 적어도 하나를 입력하는 입력부;
    상기 대상 항목에 관련된 후보 유전자 마커들의 연구 데이터를 추출하되, 상기 후보 유전자 마커들에 관련된 연구 항목에 참여한 인종 정보, 상기 연구 항목에 참여한 참여자수, 상기 연구 항목의 반복횟수, 상기 연구 항목에서의 odds ratio, 상기 연구 항목과의 P-value를 포함한 연구 데이터를 추출하는 추출부;
    상기 추출된 인종 정보, 참여자수, 반복횟수, odds ratio, P-value를 포함한 연구 데이터를 기초로 상기 후보 유전자 마커들을 정렬하는 정렬 제어부; 및
    상기 정렬된 후보 유전자 마커들을 순서대로 표시하여 출력하는 출력부를 포함하며,
    상기 정렬 제어부는,
    상기 추출된 인종 정보, 참여자수, 반복횟수, odds ratio, P-value의 중요도에 따라 상기 추출된 인종 정보, 참여자수, 반복횟수, odds ratio, P-value의 점수 레벨 및 점수 분포를 결정하되, 상기 점수 레벨을 결정하는 경우에는 상기 인종 정보, 참여자수, 반복횟수의 점수 레벨을 높이되, 상기 참여자수의 점수 레벨을 상기 odds ratio의 점수 레벨로 높이고, 상기 반복횟수의 점수 레벨을 상기 P-value의 점수 레벨로 높임으로써, 상기 참여자수의 점수 레벨을 상기 odds ratio의 점수 레벨로 높이고, 상기 반복횟수의 점수 레벨을 상기 P-value의 점수 레벨로 높임으로써, 상기 점수 레벨을 상기 인종 정보, 참여자수, 반복횟수, odds ratio, P-value에 각각 10, 7, 5, 7, 5로 결정하고, 상기 점수 분포를 결정하는 경우에는 SVM(Support Vector Machine)을 사용하여 상기 odds ratio, 참여자수, P-value의 점수 분포를 결정하되, 상기 odds ratio는 1.2, 1.5, 2.0을 기준으로 네 범주로 분류되고, 상기 참여자수는 상기 참여자수는 5,000명, 10,000명, 20,000명을 기준으로 네 범주로 분류되고, 상기 P-value는 1.00E-3, 1.00E-5, 1.00E-8, 1.00E-20을 기준으로 다섯 범주로 분류하는 점수 결정모듈;
    상기 결정된 점수 레벨 및 점수 분포에 기초하여 상기 추출된 인종 정보, 참여자수, 반복횟수, odds ratio, P-value에 각각 점수를 부여하는 점수 부여모듈;
    상기 부여된 점수를 합산하여 합산 점수를 생성하는 점수 생성모듈; 및
    상기 합산 점수의 크기에 따라 상기 후보 유전자 마커들을 정렬하는 마커 정렬모듈을 포함하는, 유전자 마커 선별 장치.
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 제 10항에 있어서,
    상기 점수 결정모듈은,
    상기 점수 분포를 상기 추출된 인종 정보에 5, 7, 10, 상기 추출된 참여자수에 1, 3, 5, 7, 상기 추출된 반복횟수에 3, 5, 상기 추출된 odds ratio에 1, 3, 5, 7, 상기 추출된 P-value에 1, 2, 3, 4, 5로 결정하는, 유전자 마커 선별 장치.
  16. 제 10항에 있어서,
    상기 합산 점수가 동일한 경우, 상기 추출된 인종 정보, 참여자수, 반복횟수, odds ratio, P-value에 부여된 각 점수에 상기 중요도에 따라 각각 가중치를 부여하는 가중치 부여모듈을 더 포함하는, 유전자 마커 선별 장치.
  17. 제 16항에 있어서,
    상기 가중치 부여모듈은,
    상기 추출된 인종 정보, 참여자수, 반복횟수, odds ratio, P-value에서 인종 정보, odds ratio, 참여자수, P-value, 반복횟수의 순으로 높은 가중치를 부여하는, 유전자 마커 선별 장치.
  18. 공개 데이터베이스에 공개된 공개 유전자 마커들의 연구 데이터를 수집하여 저장하는 데이터베이스 서버; 및
    질병명, 유전자명 또는 형질(trait) 중 적어도 하나를 포함하는 대상 항목을 입력하여 관련된 후보 유전자 마커들의 연구 데이터를 상기 데이터베이스 서버에서 추출하고, 상기 데이터베이스 서버에서 추출된 연구 데이터에서 연구 항목에 참여한 인종 정보, 상기 연구 항목에 참여한 참여자수, 상기 연구 항목의 반복횟수, 상기 연구 항목에서의 odds ratio, 상기 연구 항목과의 P-value를 추출하여 이를 기초로 상기 후보 유전자 마커들을 정렬하되, 상기 추출된 인종 정보, 참여자수, 반복횟수, odds ratio, P-value의 중요도에 따라 상기 추출된 인종 정보, odds ratio, 참여자수, P-value, 반복횟수의 순으로 점수 레벨을 결정한 후 점수 분포를 결정하며, 상기 점수 레벨을 결정하는 경우에는 상기 인종 정보, 참여자수, 반복횟수의 점수 레벨을 높이되, 상기 참여자수의 점수 레벨을 상기 odds ratio의 점수 레벨로 높이고, 상기 반복횟수의 점수 레벨을 상기 P-value의 점수 레벨로 높임으로써, 상기 점수 레벨을 상기 인종 정보, 참여자수, 반복횟수, odds ratio, P-value에 각각 10, 7, 5, 7, 5로 결정하고, 상기 점수 분포를 결정하는 경우에는 SVM(Support Vector Machine)을 사용하여 상기 odds ratio, 참여자수, P-value의 점수 분포를 결정하되, 상기 odds ratio는 1.2, 1.5, 2.0을 기준으로 네 범주로 분류되고, 상기 참여자수는 상기 참여자수는 5,000명, 10,000명, 20,000명을 기준으로 네 범주로 분류되고, 상기 P-value는 1.00E-3, 1.00E-5, 1.00E-8, 1.00E-20을 기준으로 다섯 범주로 분류하고, 상기 결정된 점수 레벨 및 점수 분포에 기초하여 상기 추출된 인종 정보, 참여자수, 반복횟수, odds ratio, P-value에 각각 점수를 부여하고, 상기 부여된 점수를 합산하여 합산 점수를 생성하고, 상기 합산 점수의 크기에 따라 상기 후보 유전자 마커들을 정렬하고, 상기 정렬된 후보 유전자 마커들을 순서대로 표시하여 출력하는 유전자 마커 선별 서버를 포함하는, 유전자 마커 선별 시스템.
KR1020180095558A 2018-08-16 2018-08-16 유전자 마커 선별 방법 및 장치, 그리고 이의 시스템 KR102032484B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180095558A KR102032484B1 (ko) 2018-08-16 2018-08-16 유전자 마커 선별 방법 및 장치, 그리고 이의 시스템
PCT/KR2019/003253 WO2020036283A1 (ko) 2018-08-16 2019-03-20 유전자 마커 선별 방법 및 장치, 그리고 이의 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180095558A KR102032484B1 (ko) 2018-08-16 2018-08-16 유전자 마커 선별 방법 및 장치, 그리고 이의 시스템

Publications (1)

Publication Number Publication Date
KR102032484B1 true KR102032484B1 (ko) 2019-10-15

Family

ID=68209570

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180095558A KR102032484B1 (ko) 2018-08-16 2018-08-16 유전자 마커 선별 방법 및 장치, 그리고 이의 시스템

Country Status (2)

Country Link
KR (1) KR102032484B1 (ko)
WO (1) WO2020036283A1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101325736B1 (ko) 2010-10-27 2013-11-08 삼성에스디에스 주식회사 바이오 마커 추출 장치 및 방법
KR101670967B1 (ko) 2009-10-29 2016-11-09 삼성전자주식회사 유전체 마커의 선택 방법 및 장치

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016094330A2 (en) * 2014-12-08 2016-06-16 20/20 Genesystems, Inc Methods and machine learning systems for predicting the liklihood or risk of having cancer
KR101693504B1 (ko) * 2015-12-28 2017-01-17 (주)신테카바이오 개인 전장 유전체의 유전변이정보를 이용한 질병원인 발굴 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101670967B1 (ko) 2009-10-29 2016-11-09 삼성전자주식회사 유전체 마커의 선택 방법 및 장치
KR101325736B1 (ko) 2010-10-27 2013-11-08 삼성에스디에스 주식회사 바이오 마커 추출 장치 및 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
N-W Chang 외, "Biomarker identification of hepatocellular carcinoma using a methodical Literature mining strategy", Database, Oxford University Press, 2017.* *
T. Taniya 외, "A prioritization analysis of disease association by data-mining of functional annotation of human genes", Genomics, 99권, 2011.10.12.(온라인공개일).* *

Also Published As

Publication number Publication date
WO2020036283A1 (ko) 2020-02-20

Similar Documents

Publication Publication Date Title
Hou et al. DeepSF: deep convolutional neural network for mapping protein sequences to folds
JP7305656B2 (ja) 確率分布をモデル化するためのシステムおよび方法
Pollastri et al. Accurate prediction of protein secondary structure and solvent accessibility by consensus combiners of sequence and structure information
Meyer et al. Industrial methodology for process verification in research (IMPROVER): toward systems biology verification
Zakeri et al. Gene prioritization using Bayesian matrix factorization with genomic and phenotypic side information
Mineeva et al. DeepMAsED: evaluating the quality of metagenomic assemblies
KR102351306B1 (ko) 질환 연관 유전자 변이 분석을 통한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법
Arbet et al. Lessons and tips for designing a machine learning study using EHR data
US20090187420A1 (en) Methods and Systems for Providing Individualized Wellness Profiles
Nasir et al. Single and mitochondrial gene inheritance disorder prediction using machine learning
Krishnagopal et al. Identifying and predicting Parkinson’s disease subtypes through trajectory clustering via bipartite networks
Shukla Feature selection inspired by human intelligence for improving classification accuracy of cancer types
Gutiérrez-Avilés et al. MSL: a measure to evaluate three-dimensional patterns in gene expression data
Rifaioglu et al. Large‐scale automated function prediction of protein sequences and an experimental case study validation on PTEN transcript variants
Bogojeska et al. Dealing with sparse data in predicting outcomes of HIV combination therapies
Karlık et al. Personalized cancer treatment by using naive bayes classifier
Giollo et al. Crohn disease risk prediction—Best practices and pitfalls with exome data
KR102032484B1 (ko) 유전자 마커 선별 방법 및 장치, 그리고 이의 시스템
Verleyen et al. Positive and negative forms of replicability in gene network analysis
KR102389479B1 (ko) 시간 변동 공변량 기반의 prs 모델을 이용한 질환별 위험 유전자 변이 정보 생성 장치 및 그 방법
JP2004030093A (ja) 遺伝子発現データ解析方法
US20210104300A1 (en) Methods and systems for identifying a causal link
Doo et al. Bayesian variable selection in clustering high-dimensional data via a mixture of finite mixtures
Tsai et al. Significance analysis of ROC indices for comparing diagnostic markers: applications to gene microarray data
Jawalkar et al. Early prediction of heart disease with data analysis using supervised learning with stochastic gradient boosting

Legal Events

Date Code Title Description
GRNT Written decision to grant