KR102004177B1 - 질병 유전자 발병 확률 보정 방법 및 그 장치 - Google Patents

질병 유전자 발병 확률 보정 방법 및 그 장치 Download PDF

Info

Publication number
KR102004177B1
KR102004177B1 KR1020170166354A KR20170166354A KR102004177B1 KR 102004177 B1 KR102004177 B1 KR 102004177B1 KR 1020170166354 A KR1020170166354 A KR 1020170166354A KR 20170166354 A KR20170166354 A KR 20170166354A KR 102004177 B1 KR102004177 B1 KR 102004177B1
Authority
KR
South Korea
Prior art keywords
disease
symptom
correlation
gene
delete delete
Prior art date
Application number
KR1020170166354A
Other languages
English (en)
Other versions
KR20190066683A (ko
Inventor
김세환
금창원
Original Assignee
주식회사 쓰리빌리언
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 쓰리빌리언 filed Critical 주식회사 쓰리빌리언
Priority to KR1020170166354A priority Critical patent/KR102004177B1/ko
Publication of KR20190066683A publication Critical patent/KR20190066683A/ko
Application granted granted Critical
Publication of KR102004177B1 publication Critical patent/KR102004177B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Data Mining & Analysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Pathology (AREA)
  • Organic Chemistry (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Zoology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Wood Science & Technology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명에 따른 질병 유전자 발병 확률 보정 방법은 피검자의 증상정보로부터 질병과의 상관도를 분석하는 증상-질병 상관도 분석단계; 피검자의 유전체 서열분석 데이터로부터 질병과의 상관도를 분석하는 유전자-질병 상관도 분석단계; 및 상기 증상-질병 상관도와 상기 유전자-질병 상관도로부터 질병이 발현될 확률을 연산하는 질병 발현 연산단계를 포함한다.

Description

질병 유전자 발병 확률 보정 방법 및 그 장치{Method and Apparatus for correcting probability of disease genes expression}
본 발명은 질병 유전자 발병 확률 보정 방법 및 그 장치에 관한 것이다.
유전체는 게놈(genome)이라고 하는 것으로, 게놈이란 '유전자(gene)'와 '염색체(chromosome)' 두 단어를 합성해 만든 용어이다.
인간 게놈 프로젝트를 통해 한 사람의 게놈을 읽어내는데 3조원의 비용이 들던 것이, NGS(Next Generation Sequencing) 기술의 급격한 발전으로 현재 100만원 정도까지 비용이 낮아져, 인간 게놈을 다양한 용도로 활용할 수 있게 되었다.
현재는 인간 게놈 정보를 활용해 암, 당뇨 등 일반 질환부터, 윌슨병, 파킨슨병 등 유전성 질병까지 다양한 질병을 검사하는 방법이 널리 활용되고 있다.
발전된 NGS 기술을 통해 특정한 하나의 유전자가 아닌, 알려진 모든 유전자를 한번에 검사할 수 있게 되어, 복수개의 질병을 한번에 검사하는 것이 가능해 졌으나, 유전자 검사 과정에서 발견된 모든 질병 유발 유전 변이가 실제 질병으로 발현되지는 않는다.
따라서, 유전자 검사 과정에서 발견된 유전변이가 실제로 질병으로 발현될 가능성이 있는지에 대한 보다 정확한 확률을 제공하는 방법 및 그 장치를 제공할 필요가 있다.
한국특허공개 제10-2017-0012131 (공개, 2017.02.02.)
본 발명이 이루고자 하는 기술적 과제는 피검자의 증상정보와 유전체 서열분석 데이터로부터 질병 유전자 발병 확률을 보정하기 위한 방법 및 그 장치를 제공하고자 한다.
이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 질병 유전자 발병 확률 보정 방법은 피검자의 증상정보로부터 질병과의 상관도를 분석하는 증상-질병 상관도 분석단계; 피검자의 유전체 서열분석 데이터로부터 질병과의 상관도를 분석하는 유전자-질병 상관도 분석단계; 및 상기 증상-질병 상관도와 상기 유전자-질병 상관도로부터 질병이 발현될 확률을 연산하는 질병 발현 연산단계를 포함한다.
상기 증상-질병 상관도 분석단계는, 자연어로 수집된 피검자의 질병 증상정보로부터 정형화된 증상 프로파일을 형성하는 단계; 상기 증상 프로파일을 각 질병에 대해 미리 설정된 기준 증상 프로파일과 비교하여 제1 상관계수를 생성하는 단계; 및 각 질병에 대한 상기 제1 상관계수를 이용하여 증상-질병 상관도를 연산하는 단계를 포함할 수 있다.
상기 정형화된 증상 프로파일을 형성하는 단계는 텍스트 마이닝을 이용할 수 있다.
상기 제1 상관계수는 상기 증상 프로파일이 각 질병에 대한 상기 기준 증상 프로파일과 일치하면 +1로 설정하고, 불일치하면 0으로 설정하는 것을 특징으로 하고, 상기 증상-질병 상관도(PSk)는 하기 식 1과 같이 산출될 수 있다.
식 1
Figure 112017121451523-pat00001
(여기서
Figure 112017121451523-pat00002
, N= 총 질병 개수, Sx = 증상 x를 가진 질병 개수, M= 질병 K에 대해 환자가 가진 모든 증상 개수이다.)
상기 유전자-질병 상관도 분석단계는, 수집된 피검자의 유전체 서열분석 데이터로부터 상기 유전체 서열분석 데이터를 미리 설정된 표준 염기서열과 비교하여 질병 유발 유전자를 추출하는 단계; 상기 질병 유발 유전자가 유발하는 질병에 대한 제2 상관계수를 생성하는 단계; 각 질병에 대한 상기 제2 상관계수를 이용하여 유전자-질병 상관도를 연산하는 단계를 포함할 수 있다.
상기 제2 상관계수(LG)는 하기 식 2와 같이 산출되고, 유전자-질병 상관도는 하기 식 3과 같이 산출될 수 있다.
식 2
Figure 112017121451523-pat00003
(여기서
Figure 112017121451523-pat00004
는 질병 유발 유전자 x가 일반인 집단에서 발생할 확률,
Figure 112017121451523-pat00005
는 질병 유발 유전자 x가 질병 K 환자에게서 발생할 확률이다.)
식 3
Figure 112017121451523-pat00006
(여기서 M은 질병 K에 대해 환자가 가진 질병 유발 유전자 개수이다.)
예를 들어, 피검자의 질병 2에 대한 질병 유발 유전자 2와 질병 유발 유전자 M이라 할 때, 질병 2에 대한 유전자-질병 상관도는 LG2 X LGM 이다.
상기 질병 발현 연산단계에서 질병이 발현될 확률은 하기 식 4와 같이 산출될 수 있다.
식 4
Figure 112017121451523-pat00007
(여기서,
Figure 112017121451523-pat00008
이고,
Figure 112017121451523-pat00009
,
Figure 112017121451523-pat00010
는 질병 K에 대한 유병률(prevalence)이다.)
위에서 언급된 본 발명의 기술적 과제 외에도, 본 발명의 다른 특징 및 이점들이 이하에서 기술되거나, 그러한 기술 및 설명으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
이상과 같은 본 발명에 따르면 다음과 같은 효과가 있다.
본 발명은 피검자의 증상-질병 상관도와 유전자-질병 상관도를 함께 이용하여 질병 발병 확률을 연산함으로써 질병 유발 유전자만을 기준으로 질병 발병 확률을 계산하는 것보다 더 정확한 질병 유전자 발병 확률을 제공할 수 있다.
이 밖에도, 본 발명의 실시 예들을 통해 본 발명의 또 다른 특징 및 이점들이 새롭게 파악될 수도 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 질병 유전자 발병 확률 보정 시스템의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 증상-질병 상관도 분석부의 구성도이다.
도 3은 본 발명에 따른 증상-질병 상관도 분석을 위해 사용되는 유틸리티 매트릭스의 일 예를 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 유전자-질병 상관도 분석부의 구성도이다.
도 5는 본 발명에 따른 유전자-질병 상관도 분석을 위해 사용되는 유틸리티 매트릭스의 일 예를 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 질병 유전자 발병 확률 보정 방법의 순서도이다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 통상의 기술자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.
도 1은 본 발명의 일 실시예에 따른 질병 유전자 발병 확률 보정 장치의 구성도이다.
도 1을 참조하면, 본 실시예에 따른 질병 유전자 발병 확률 보정 장치(1000)는 증상-질병 상관도 분석부(100), 유전자-질병 상관도 분석부(200), 데이터베이스(300), 및 질병 발현 연산부(400)를 포함한다.
질병 유전자 발병 확률 보정 장치(1000)는 네트워크 인터페이스(10)를 통해서 피검자의 증상정보(150)와 피검자의 유전체 서열 분석 데이터(250)를 수득할 수 있다.
피검자의 증상정보(150)는 피검자의 증상 내용을 기술한 데이터로 텍스트, 음성, 영상 정보를 포함할 수 있다. 피검자의 증상정보(150)는 피검자 스스로 호소하는 두통, 복통, 구토, 호흡곤란, 의식 저하, 감각 이상 등의 다양한 신체상의 변화를 자연어로 기술한 정보 뿐만 아니라 피검자에 대한 의사의 검진 자료를 포함할 수 있다.
이러한 피검자의 증상정보(150)는 네트워크 인터페이스(10)를 통해 피검자로부터 직접 입력될 수 있으나, 이에 한정되는 것은 아니고 의사 또는 상담사가 피검자와의 유선 통화, 문자 메시지, 채팅 서비스 등을 통해 연결하여 상담을 통해 수득될 수 있다.
피검자의 유전체 서열 분석 데이터(250)는 질병 유발 유전적 변이를 검출하는 방법에 의해 검출된 유전체 정보로, 대표적인 방법으로 직접 염기서열분석법(direct sequencing), 대립유전자-특이적 증폭법(allele-specific PCR), 제한효소 절편 길이 다형성(Restriction Fragment Length Polymorphism: RFLP), Taqman™ 프로브법, ARMS(amplification refractory mutation system)-PCR, 변성(denaturing) HPLC(dHPLC), 및 실시간 PCR fall short 등이 있다.
이때, 질병 유발 유전적 변이는 유전적 조성의 변환이나 변화에 의하여 일어나는 변이를 말한다. 유전적 변이는 대립 유전자(allele), 단일 뉴클레오티드 다형성(Single Nucleotide Polymorphism: SNP), 돌연변이, 또는 이들의 조합일 수 있다. 대립 유전자는 하나의 염색체에서 같은 위치(locus)에 존재하면서 서로 다른 형질을 나타내는 유전자를 말하고, 상동 염색체에서 같은 유전자 위치에 위치하는 다른 염기서열을 갖는 유전자를 말한다. 돌연변이는 점 돌연변이(point mutation), 전이(transition) 돌연변이, 전환(transversion) 돌연변이, 미스센스 돌연변이, 넌센스 돌연변이, 중복(duplication), 결실(deletion), 삽입(insertion), 전좌(translocation), 역위(inversion), 및 이들의 조합일수 있다. SNP는 게놈 서열 중 개인의 편차를 나타내는 한 개 또는 수십 개의 염기 변이를 말한다.
피검자의 증상정보(150)와 피검자의 유전체 서열 분석 데이터(250)는 각각의 고유한 개인인식번호(personal identification number, PIN)와 암호가 부여될 수 있으며, 이러한 개인인식번호와 암호가 부여된 상태로 데이터베이스(300)에 저장될 수 있다.
증상-질병 상관도 분석부(100)는 피검자의 증상정보(150)로부터 증상에 따른 질병과의 상관도를 연산할 수 있다.
유전자-질병 상관도 분석부(200)는 피검자의 서열 분석 데이터(250)로부터 질병 유발 유전자가 발현될 수 있는 질병과의 상관도를 연산할 수 있다.
질병 발현 연산부(400)는 증상-질병 상관도 분석부(100)로부터 입력된 증상-질병 상관도와 유전자-질병 상관도 분석부(200)로부터 입력된 유전자-질병 상관도를 함께 이용함으로써 질병 유발 유전자만을 기준으로 발병 확률을 계산하는 것보다 더 정확한 질병 유전자 발병 확률을 제공할 수 있다.
데이터베이스(300)에는 증상-질병 상관도와 유전자-질병 상관도를 연산하기 위해 필요한 기준 증상 프로파일, 기준 질병 유발 유전자, 제1 상관계수, 제2 상관계수, 피검자의 증상정보, 피검자의 유전체 서열 분석 데이터, 표준 염기서열 등이 저장될 수 있다.
이하에서는 증상-질병 상관도 분석부(100)의 구성에 대해 설명한다.
도 2는 본 발명의 일 실시예에 따른 증상-질병 상관도 분석부의 구성도이고, 도 3은 본 발명에 따른 증상-질병 상관도 분석을 위해 사용되는 유틸리티 매트릭스의 일 예를 도시한 도면이다.
도 2 및 도 3을 참조하면, 증상-질병 상관도 분석부(100)는 증상 프로파일 생성부(110), 제1 상관계수 생성부(120), 및 증상-질병 상관도 연산부(130)를 포함한다.
증상 프로파일 생성부(110)는 자연어로 입력된 피검자의 증상정보로부터 정형화된 증상 프로파일을 생성할 수 있다. 일 예로, 증상 프로파일 생성부(110)는 자연어로 입력된 피검자의 증상정보에서 텍스트 마이닝(text mining)을 이용하여 추출할 수 있다.
텍스트 마이닝은 데이터 마이닝의 일종으로 데이터마이닝은 대량의 데이터들로부터 유용한 정보를 얻어내는 과정을 의미한다. 이러한 과정은 KDD(Knowledge Discovery in Database) 과정이라고도 표현되며, 거대한 데이터 집합(Database)에서 유용한 지식을 획득(Knowledge Discovery)하는 과정을 표현하는 용어로 사용된다. 이러한 과정은 대량의 데이터에서 선택한 특정 정보가 유용한 지식인지 아닌지를 판단하여 법칙(rule)으로 규정할지를 정해야 하기 때문에, 상호 대화적(interactive)이며 반복적인 특성을 지닌다.
데이터베이스(300)에 미리 저장되어 있는 증상들과 관련된 다양한 표현들을 불러와 입력된 피검자의 증상정보로부터 유용한 정보(표현)를 추출하여 비교함으로써 피검자의 정형화된 증상 프로파일을 생성할 수 있다.
제1 상관계수 생성부(120)는 데이터베이스(300)로부터 기준 증상 프로파일을 불러와서 피검자의 증상정보로부터 추출된 정형화된 증상 프로파일과 비교하여 피검자의 증상 프로파일이 각 질병에 대한 기준 증상 프로파일과 일치하면 제1 상관계수(k)를 +1로 설정하고, 불일치하면 0으로 설정할 수 있다.
보다 구체적으로 예를 들어 설명하면, 피검자의 증상정보로부터 추출된 정형화된 증상 프로파일이 증상 1, 증상 2, 증상 M이라고 가정하고, 질병 1과 관련된 기준 증상 프로파일이 증상 1이고, 질병 2와 관련된 기준 증상 프로파일이 증상 2, 증상 M이라고 가정하자.
이때, (질병 N, 증상 M)에 대응되는 제1 상관계수(k)는 (질병 1, 증상 1)은 +1이고, (질병 1, 증상 2)은 0이고, (질병 1, 증상 M)은 0이고, (질병 2, 증상 1)은 0이고, (질병 2, 증상 2)은 +1이고, (질병 2, 증상 M)은 +1로 설정될 수 있다.
증상-질병 상관도 연산부(130)는 각 질병과 관련되는 제1 상관계수(k)를 이용하여 증상-질병 상관도를 연산할 수 있다.
보다 구체적으로, 증상-질병 상관도는 하기 식 1과 같이 산출될 수 있다.
식 1
Figure 112017121451523-pat00011
(여기서
Figure 112017121451523-pat00012
, N= 총 질병 개수, Sx = 증상 x를 가진 질병 개수, M= 질병 K에 대해 환자가 가진 모든 증상 개수이다.)
이하에서는 유전자-질병 상관도 분석부(200)의 구성에 대해 설명한다.
도 4는 본 발명의 일 실시예에 따른 유전자-질병 상관도 분석부의 구성도이고, 도 5는 본 발명에 따른 유전자-질병 상관도 분석을 위해 사용되는 유틸리티 매트릭스의 일 예를 도시한 도면이다.
도 4 및 도 5를 참조하면, 유전자-질병 상관도 분석부(200)는 질병 유발 유전자 추출부(210), 제2 상관계수 생성부(220), 및 유전자-질병 상관도 연산부(230)를 포함한다.
질병 유발 유전자 추출부(210)는 입력된 피검자의 유전체 서열 분석 데이터(250)를 데이터베이스(300)에 저장되어 있는 미리 설정된 표준 염기서열을 독출한 후, 표준 염기서열과 비교하여 질병 유발 유전자를 추출할 수 있다.
제2 상관계수 생성부(220)는 하기 식 2와 같이 제2 상관계수(LG)를 생성할 수 있다.
식 2
Figure 112017121451523-pat00013
(여기서
Figure 112017121451523-pat00014
는 질병 유발 유전자 x가 일반인 집단에서 발생할 확률,
Figure 112017121451523-pat00015
는 질병 유발 유전자 x가 질병 K 환자에게서 발생할 확률이다.)
유전자-질병 상관도 연산부(230)는 각 질병과 관련되는 제2 상관계수(LG)를 이용하여 하기 식 3과 같이 유전자-질병 상관도를 연산할 수 있다.
식 3
Figure 112017121451523-pat00016
(여기서 M은 질병 K에 대해 환자가 가진 질병 유발 유전자 개수이다.)
질병 발현 연산부(400)는 증상-질병 상관도와 유전자-질병 상관도를 이용하여 아래 식 4와 같이 연산하여 질병 발현 확률을 산출한다.
식 4
Figure 112017121451523-pat00017
(여기서,
Figure 112017121451523-pat00018
이고,
Figure 112017121451523-pat00019
,
Figure 112017121451523-pat00020
는 질병 K에 대한 유병률(prevalence)이다.)
이와 같이, 본 발명의 일 실시예에 따른 질병 유전자 발병 확률 보정 장치(1000)는 피검자의 증상-질병 상관도와 유전자-질병 상관도를 함께 이용하여 질병 발병 확률을 연산함으로써 질병 유발 유전자만을 기준으로 질병 발병 확률을 계산하는 것보다 더 정확한 질병 유전자 발병 확률을 제공할 수 있다
이하, 도 6을 참조하여 본 발명의 일 실시예에 따른 질병 유전자 발병 확률 보정 방법을 설명한다.
도 6은 본 발명의 일 실시예에 따른 질병 유전자 발병 확률 보정 방법의 순서도이다.
도 6을 참조하면, 본 발명에 따른 질병 유전자 발병 확률 보정 방법은 증상-질병 상관도 분석(S110)과 유전자-질병 상관도 분석(S120)을 통해 증상-질병 상관도와 유전자-질병 상관도를 산출하고, 산출된 증상-질병 상관도와 유전자-질병 상관도를 이용하여 질병 발현 확률을 산출(S300)할 수 있다.
증상-질병 상관도 분석(S110)은 피검자의 자연어 증상 정보를 수집하고(S110)고, 텍스트 마이닝을 이용하여 피검자의 자연어 증상 정보로부터 정형화된 증상 프로파일을 생성한다(S120).
다음으로, 데이터베이스에 미리 저장되어 있는 기준 증상 프로파일을 불러와서 피검자의 증상정보로부터 추출된 정형화된 증상 프로파일과 비교하여 제1 상관계수를 생성한다(S120). 이때, 피검자의 증상 프로파일이 각 질병에 대한 기준 증상 프로파일과 일치하면 제1 상관계수(k)를 +1로 설정하고, 불일치하면 0으로 설정될 수 있다.
다음으로, 앞에서 설명한 식 1을 이용하여 증상-질병 상관도를 산출한다(s140).
유전자-질병 상관도 분석(S120)은 피검자의 유전체 서열 분석 데이터를 수득하고(S210), 수득한 유전체 서열 분석 데이터를 데이터베이스에 저장되어 있는 미리 설정된 표준 염기서열과 비교하여 질병 유발 유전자를 추출한다(S22).
다음으로, 앞에서 설명한 식 2를 이용하여 제2상관계수를 생성한다(S230).
다음으로, 앞에서 설명한 식 3을 이용하여 유전자-질병 상관도를 산출한다(S240).
다음으로, 산출된 각각의 증상-질병 상관도와 유전자-질병 상관도를 이용하여 앞에서 설명한 식 4에 의해 각 질병에 대한 질병 발현 확률을 계산한다(S300).
이와 같이, 본 발명의 실시예에 따른 유전자 발병 확률 보정 방법은 피검자의 증상-질병 상관도와 유전자-질병 상관도를 생성하고 이를 함께 이용함으로써 질병 유발 유전자만을 기준으로 질병 발병 확률을 계산하는 것보다 더 정확한 질병 유전자 발병 확률을 제공할 수 있다.
이상에서 설명한 본 발명이 전술한 실시예 및 첨부된 도면에 한정되지 않으며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지로 치환, 변형 및 변경이 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.
100: 증상-질병 상관도 분석부 110: 증상 프로파일 생성부
130: 증상-질병 상관도 연산부 200: 유전자-질병 상관도 분석부
210: 질병 유발 유전자 추출부 220: 제2 상관계수 생성부
230: 유전자-질병 상관도 연산부 300: 데이터베이스
400: 질병 발현 연산부 1000: 질병 유전자 발병 확률 보정 장치

Claims (14)

  1. 피검자의 증상정보로부터 정형화된 증상 프로파일을 생성하는 증상 프로파일 생성부, 상기 증상 프로파일을 각 질병에 대해 미리 설정된 기준 증상 프로파일과 비교하여 상기 증상 프로파일이 각 질병에 대한 상기 기준 증상 프로파일과 일치하면 +1로 설정하고, 불일치하면 0으로 설정하여 제1 상관계수를 생성하는 제1 상관계수 생성부, 및 각 질병에 대한 상기 제1 상관계수를 이용하여 피검자의 증상과 질병 간의 증상-질병 상관도(PSk)를 하기 식 1과 같이 산출하여 연산하는 증상-질병 상관도 연산부를 포함하는 증상-질병 상관도 분석부;
    수집된 피검자의 유전체 서열분석 데이터를 미리 설정된 표준 염기서열과 비교하여 질병 유발 유전자를 추출하는 질병 유발 유전자 추출부, 상기 질병 유발 유전자를 발현될 수 있는 질병과 매칭하여 제2 상관계수(LG)를 하기 식 2와 같이 산출하여 생성하는 제2 상관계수 생성부, 및 각 질병에 대한 상기 제2 상관계수를 이용하여 피검자의 질병 유발 유전자와 질병 간의 유전자-질병 상관도를 하기 식 3과 같이 산출하여 연산하는 유전자-질병 상관도 연산부를 포함하는 유전자-질병 상관도 분석부; 및
    상기 증상-질병 상관도와 상기 유전자-질병 상관도로부터 질병이 발현될 확률을 하기 식 4와 같이 산출하여 연산하는 질병 발현 연산부를 포함하는 질병 유전자 발병 확률 보정 장치.
    식 1
    Figure 112019060781815-pat00047

    (여기서
    Figure 112019060781815-pat00048
    , N= 총 질병 개수, Sx = 증상 x를 가진 질병 개수, M= 질병 K에 대해 환자가 가진 모든 증상 개수이다.)
    식 2
    Figure 112019060781815-pat00049

    (여기서
    Figure 112019060781815-pat00050
    는 질병 유발 유전자 x가 일반인 집단에서 발생할 확률,
    Figure 112019060781815-pat00051
    는 질병 유발 유전자 x가 질병 K 환자에게서 발생할 확률이다.)
    식 3
    Figure 112019060781815-pat00052

    (여기서 M은 질병 K에 대해 환자가 가진 질병 유발 유전자 개수이다.)
    식 4
    Figure 112019060781815-pat00053

    (여기서,
    Figure 112019060781815-pat00054
    이고,
    Figure 112019060781815-pat00055
    ,
    Figure 112019060781815-pat00056
    는 질병 K에 대한 유병률(prevalence)이다.).
  2. 제1항에 있어서,
    상기 증상 프로파일 생성부는 피검자의 질병 증상정보가 자연어로 수집되면 텍스트 마이닝을 이용하여 상기 정형화된 증상 프로파일을 형성하는 것을 특징으로 하는 질병 유전자 발병 확률 보정 장치.
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
KR1020170166354A 2017-12-06 2017-12-06 질병 유전자 발병 확률 보정 방법 및 그 장치 KR102004177B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020170166354A KR102004177B1 (ko) 2017-12-06 2017-12-06 질병 유전자 발병 확률 보정 방법 및 그 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170166354A KR102004177B1 (ko) 2017-12-06 2017-12-06 질병 유전자 발병 확률 보정 방법 및 그 장치

Publications (2)

Publication Number Publication Date
KR20190066683A KR20190066683A (ko) 2019-06-14
KR102004177B1 true KR102004177B1 (ko) 2019-07-26

Family

ID=66846304

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170166354A KR102004177B1 (ko) 2017-12-06 2017-12-06 질병 유전자 발병 확률 보정 방법 및 그 장치

Country Status (1)

Country Link
KR (1) KR102004177B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102223362B1 (ko) * 2020-08-10 2021-03-05 주식회사 쓰리빌리언 증상 연관 유전변이를 이용한 질병 유발 유전변이 발굴 시스템 및 방법
KR102223361B1 (ko) * 2020-09-23 2021-03-05 주식회사 쓰리빌리언 유전자 네트워크를 활용한 유전질병 진단 시스템

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110202486A1 (en) * 2009-07-21 2011-08-18 Glenn Fung Healthcare Information Technology System for Predicting Development of Cardiovascular Conditions
KR101785780B1 (ko) * 2015-06-11 2017-10-16 한국 한의학 연구원 건강 정보 제공 시스템 및 방법
KR20170012131A (ko) 2015-07-24 2017-02-02 주식회사 마크로젠 샘플 풀링을 활용한 다중 샘플 동시 유전성 질환 검사 방법
KR101886493B1 (ko) * 2016-04-29 2018-08-07 연세대학교 산학협력단 구강암 발병 확률 예측 방법 및 장치

Also Published As

Publication number Publication date
KR20190066683A (ko) 2019-06-14

Similar Documents

Publication Publication Date Title
Zeng et al. Signatures of negative selection in the genetic architecture of human complex traits
US20240011074A1 (en) Systems and methods for epigenetic analysis
Yengo et al. Imprint of assortative mating on the human genome
Mallick et al. The Simons genome diversity project: 300 genomes from 142 diverse populations
Daber et al. Understanding the limitations of next generation sequencing informatics, an approach to clinical pipeline validation using artificial data sets
CN108664766B (zh) 拷贝数变异的分析方法、分析装置、设备及存储介质
Major et al. HLA typing from 1000 genomes whole genome and whole exome illumina data
KR102199322B1 (ko) 모체 혈장으로부터의 비침습적 산전 분자 핵형분석
CN107229841B (zh) 一种基因变异评估方法及系统
Nakatsuka et al. ContamLD: estimation of ancient nuclear DNA contamination using breakdown of linkage disequilibrium
Groth et al. Evaluating the quality of Marfan genotype–phenotype correlations in existing FBN1 databases
EP2923292B1 (en) Diagnostic genetic analysis using variant-disease association with patient-specific relevance assessment
CN110268072B (zh) 确定旁系同源基因的方法和系统
CN111883210B (zh) 基于临床特征和序列变异的单基因病名称推荐方法及系统
KR102004177B1 (ko) 질병 유전자 발병 확률 보정 방법 및 그 장치
Renaud et al. Authentication and assessment of contamination in ancient DNA
JP2023510399A (ja) 遺伝子バリアント解釈を生成するためのゲノム情報を取得および処理するためのスクリーニングシステムおよび方法
US20220093211A1 (en) Detecting cross-contamination in sequencing data
Niehus et al. PopDel identifies medium-size deletions simultaneously in tens of thousands of genomes
Cao et al. NGS4THAL, a one-stop molecular diagnosis and carrier screening tool for thalassemia and other hemoglobinopathies by next-generation sequencing
Li et al. Towards a more accurate error model for BioNano optical maps
Cho et al. MR-TRYX: Exploiting horizontal pleiotropy to infer novel causal pathways
Breton et al. Comparison of sequencing data processing pipelines and application to underrepresented African human populations
CN111755066B (zh) 一种拷贝数变异的检测方法和实施该方法的设备
CN108959853B (zh) 一种拷贝数变异的分析方法、分析装置、设备及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant