KR102004177B1

KR102004177B1 - 질병 유전자 발병 확률 보정 방법 및 그 장치

Info

Publication number: KR102004177B1
Application number: KR1020170166354A
Authority: KR
Inventors: 김세환; 금창원
Original assignee: 주식회사 쓰리빌리언
Priority date: 2017-12-06
Filing date: 2017-12-06
Publication date: 2019-07-26
Also published as: KR20190066683A

Abstract

본 발명에 따른 질병 유전자 발병 확률 보정 방법은 피검자의 증상정보로부터 질병과의 상관도를 분석하는 증상-질병 상관도 분석단계; 피검자의 유전체 서열분석 데이터로부터 질병과의 상관도를 분석하는 유전자-질병 상관도 분석단계; 및 상기 증상-질병 상관도와 상기 유전자-질병 상관도로부터 질병이 발현될 확률을 연산하는 질병 발현 연산단계를 포함한다.

Description

질병 유전자 발병 확률 보정 방법 및 그 장치{Method and Apparatus for correcting probability of disease genes expression}

본 발명은 질병 유전자 발병 확률 보정 방법 및 그 장치에 관한 것이다.

유전체는 게놈(genome)이라고 하는 것으로, 게놈이란 '유전자(gene)'와 '염색체(chromosome)' 두 단어를 합성해 만든 용어이다.

인간 게놈 프로젝트를 통해 한 사람의 게놈을 읽어내는데 3조원의 비용이 들던 것이, NGS(Next Generation Sequencing) 기술의 급격한 발전으로 현재 100만원 정도까지 비용이 낮아져, 인간 게놈을 다양한 용도로 활용할 수 있게 되었다.

현재는 인간 게놈 정보를 활용해 암, 당뇨 등 일반 질환부터, 윌슨병, 파킨슨병 등 유전성 질병까지 다양한 질병을 검사하는 방법이 널리 활용되고 있다.

발전된 NGS 기술을 통해 특정한 하나의 유전자가 아닌, 알려진 모든 유전자를 한번에 검사할 수 있게 되어, 복수개의 질병을 한번에 검사하는 것이 가능해 졌으나, 유전자 검사 과정에서 발견된 모든 질병 유발 유전 변이가 실제 질병으로 발현되지는 않는다.

따라서, 유전자 검사 과정에서 발견된 유전변이가 실제로 질병으로 발현될 가능성이 있는지에 대한 보다 정확한 확률을 제공하는 방법 및 그 장치를 제공할 필요가 있다.

한국특허공개 제10-2017-0012131 (공개, 2017.02.02.)

본 발명이 이루고자 하는 기술적 과제는 피검자의 증상정보와 유전체 서열분석 데이터로부터 질병 유전자 발병 확률을 보정하기 위한 방법 및 그 장치를 제공하고자 한다.

이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 질병 유전자 발병 확률 보정 방법은 피검자의 증상정보로부터 질병과의 상관도를 분석하는 증상-질병 상관도 분석단계; 피검자의 유전체 서열분석 데이터로부터 질병과의 상관도를 분석하는 유전자-질병 상관도 분석단계; 및 상기 증상-질병 상관도와 상기 유전자-질병 상관도로부터 질병이 발현될 확률을 연산하는 질병 발현 연산단계를 포함한다.

상기 증상-질병 상관도 분석단계는, 자연어로 수집된 피검자의 질병 증상정보로부터 정형화된 증상 프로파일을 형성하는 단계; 상기 증상 프로파일을 각 질병에 대해 미리 설정된 기준 증상 프로파일과 비교하여 제1 상관계수를 생성하는 단계; 및 각 질병에 대한 상기 제1 상관계수를 이용하여 증상-질병 상관도를 연산하는 단계를 포함할 수 있다.

상기 정형화된 증상 프로파일을 형성하는 단계는 텍스트 마이닝을 이용할 수 있다.

상기 제1 상관계수는 상기 증상 프로파일이 각 질병에 대한 상기 기준 증상 프로파일과 일치하면 +1로 설정하고, 불일치하면 0으로 설정하는 것을 특징으로 하고, 상기 증상-질병 상관도(PS_k)는 하기 식 1과 같이 산출될 수 있다.

식 1

(여기서

, N= 총 질병 개수, S_x = 증상 x를 가진 질병 개수, M= 질병 K에 대해 환자가 가진 모든 증상 개수이다.)

상기 유전자-질병 상관도 분석단계는, 수집된 피검자의 유전체 서열분석 데이터로부터 상기 유전체 서열분석 데이터를 미리 설정된 표준 염기서열과 비교하여 질병 유발 유전자를 추출하는 단계; 상기 질병 유발 유전자가 유발하는 질병에 대한 제2 상관계수를 생성하는 단계; 각 질병에 대한 상기 제2 상관계수를 이용하여 유전자-질병 상관도를 연산하는 단계를 포함할 수 있다.

상기 제2 상관계수(LG)는 하기 식 2와 같이 산출되고, 유전자-질병 상관도는 하기 식 3과 같이 산출될 수 있다.

식 2

(여기서

는 질병 유발 유전자 x가 일반인 집단에서 발생할 확률,

는 질병 유발 유전자 x가 질병 K 환자에게서 발생할 확률이다.)

식 3

(여기서 M은 질병 K에 대해 환자가 가진 질병 유발 유전자 개수이다.)

예를 들어, 피검자의 질병 2에 대한 질병 유발 유전자 2와 질병 유발 유전자 M이라 할 때, 질병 2에 대한 유전자-질병 상관도는 LG₂ X LG_M 이다.

상기 질병 발현 연산단계에서 질병이 발현될 확률은 하기 식 4와 같이 산출될 수 있다.

식 4

(여기서,

이고,

,

는 질병 K에 대한 유병률(prevalence)이다.)

위에서 언급된 본 발명의 기술적 과제 외에도, 본 발명의 다른 특징 및 이점들이 이하에서 기술되거나, 그러한 기술 및 설명으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

이상과 같은 본 발명에 따르면 다음과 같은 효과가 있다.

본 발명은 피검자의 증상-질병 상관도와 유전자-질병 상관도를 함께 이용하여 질병 발병 확률을 연산함으로써 질병 유발 유전자만을 기준으로 질병 발병 확률을 계산하는 것보다 더 정확한 질병 유전자 발병 확률을 제공할 수 있다.

이 밖에도, 본 발명의 실시 예들을 통해 본 발명의 또 다른 특징 및 이점들이 새롭게 파악될 수도 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 질병 유전자 발병 확률 보정 시스템의 구성도이다.
도 2는 본 발명의 일 실시예에 따른 증상-질병 상관도 분석부의 구성도이다.
도 3은 본 발명에 따른 증상-질병 상관도 분석을 위해 사용되는 유틸리티 매트릭스의 일 예를 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 유전자-질병 상관도 분석부의 구성도이다.
도 5는 본 발명에 따른 유전자-질병 상관도 분석을 위해 사용되는 유틸리티 매트릭스의 일 예를 도시한 도면이다.
도 6은 본 발명의 일 실시예에 따른 질병 유전자 발병 확률 보정 방법의 순서도이다.

이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 통상의 기술자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.

도 1은 본 발명의 일 실시예에 따른 질병 유전자 발병 확률 보정 장치의 구성도이다.

도 1을 참조하면, 본 실시예에 따른 질병 유전자 발병 확률 보정 장치(1000)는 증상-질병 상관도 분석부(100), 유전자-질병 상관도 분석부(200), 데이터베이스(300), 및 질병 발현 연산부(400)를 포함한다.

질병 유전자 발병 확률 보정 장치(1000)는 네트워크 인터페이스(10)를 통해서 피검자의 증상정보(150)와 피검자의 유전체 서열 분석 데이터(250)를 수득할 수 있다.

피검자의 증상정보(150)는 피검자의 증상 내용을 기술한 데이터로 텍스트, 음성, 영상 정보를 포함할 수 있다. 피검자의 증상정보(150)는 피검자 스스로 호소하는 두통, 복통, 구토, 호흡곤란, 의식 저하, 감각 이상 등의 다양한 신체상의 변화를 자연어로 기술한 정보 뿐만 아니라 피검자에 대한 의사의 검진 자료를 포함할 수 있다.

이러한 피검자의 증상정보(150)는 네트워크 인터페이스(10)를 통해 피검자로부터 직접 입력될 수 있으나, 이에 한정되는 것은 아니고 의사 또는 상담사가 피검자와의 유선 통화, 문자 메시지, 채팅 서비스 등을 통해 연결하여 상담을 통해 수득될 수 있다.

피검자의 유전체 서열 분석 데이터(250)는 질병 유발 유전적 변이를 검출하는 방법에 의해 검출된 유전체 정보로, 대표적인 방법으로 직접 염기서열분석법(direct sequencing), 대립유전자-특이적 증폭법(allele-specific PCR), 제한효소 절편 길이 다형성(Restriction Fragment Length Polymorphism: RFLP), Taqman™ 프로브법, ARMS(amplification refractory mutation system)-PCR, 변성(denaturing) HPLC(dHPLC), 및 실시간 PCR fall short 등이 있다.

이때, 질병 유발 유전적 변이는 유전적 조성의 변환이나 변화에 의하여 일어나는 변이를 말한다. 유전적 변이는 대립 유전자(allele), 단일 뉴클레오티드 다형성(Single Nucleotide Polymorphism: SNP), 돌연변이, 또는 이들의 조합일 수 있다. 대립 유전자는 하나의 염색체에서 같은 위치(locus)에 존재하면서 서로 다른 형질을 나타내는 유전자를 말하고, 상동 염색체에서 같은 유전자 위치에 위치하는 다른 염기서열을 갖는 유전자를 말한다. 돌연변이는 점 돌연변이(point mutation), 전이(transition) 돌연변이, 전환(transversion) 돌연변이, 미스센스 돌연변이, 넌센스 돌연변이, 중복(duplication), 결실(deletion), 삽입(insertion), 전좌(translocation), 역위(inversion), 및 이들의 조합일수 있다. SNP는 게놈 서열 중 개인의 편차를 나타내는 한 개 또는 수십 개의 염기 변이를 말한다.

피검자의 증상정보(150)와 피검자의 유전체 서열 분석 데이터(250)는 각각의 고유한 개인인식번호(personal identification number, PIN)와 암호가 부여될 수 있으며, 이러한 개인인식번호와 암호가 부여된 상태로 데이터베이스(300)에 저장될 수 있다.

증상-질병 상관도 분석부(100)는 피검자의 증상정보(150)로부터 증상에 따른 질병과의 상관도를 연산할 수 있다.

유전자-질병 상관도 분석부(200)는 피검자의 서열 분석 데이터(250)로부터 질병 유발 유전자가 발현될 수 있는 질병과의 상관도를 연산할 수 있다.

질병 발현 연산부(400)는 증상-질병 상관도 분석부(100)로부터 입력된 증상-질병 상관도와 유전자-질병 상관도 분석부(200)로부터 입력된 유전자-질병 상관도를 함께 이용함으로써 질병 유발 유전자만을 기준으로 발병 확률을 계산하는 것보다 더 정확한 질병 유전자 발병 확률을 제공할 수 있다.

데이터베이스(300)에는 증상-질병 상관도와 유전자-질병 상관도를 연산하기 위해 필요한 기준 증상 프로파일, 기준 질병 유발 유전자, 제1 상관계수, 제2 상관계수, 피검자의 증상정보, 피검자의 유전체 서열 분석 데이터, 표준 염기서열 등이 저장될 수 있다.

이하에서는 증상-질병 상관도 분석부(100)의 구성에 대해 설명한다.

도 2는 본 발명의 일 실시예에 따른 증상-질병 상관도 분석부의 구성도이고, 도 3은 본 발명에 따른 증상-질병 상관도 분석을 위해 사용되는 유틸리티 매트릭스의 일 예를 도시한 도면이다.

도 2 및 도 3을 참조하면, 증상-질병 상관도 분석부(100)는 증상 프로파일 생성부(110), 제1 상관계수 생성부(120), 및 증상-질병 상관도 연산부(130)를 포함한다.

증상 프로파일 생성부(110)는 자연어로 입력된 피검자의 증상정보로부터 정형화된 증상 프로파일을 생성할 수 있다. 일 예로, 증상 프로파일 생성부(110)는 자연어로 입력된 피검자의 증상정보에서 텍스트 마이닝(text mining)을 이용하여 추출할 수 있다.

텍스트 마이닝은 데이터 마이닝의 일종으로 데이터마이닝은 대량의 데이터들로부터 유용한 정보를 얻어내는 과정을 의미한다. 이러한 과정은 KDD(Knowledge Discovery in Database) 과정이라고도 표현되며, 거대한 데이터 집합(Database)에서 유용한 지식을 획득(Knowledge Discovery)하는 과정을 표현하는 용어로 사용된다. 이러한 과정은 대량의 데이터에서 선택한 특정 정보가 유용한 지식인지 아닌지를 판단하여 법칙(rule)으로 규정할지를 정해야 하기 때문에, 상호 대화적(interactive)이며 반복적인 특성을 지닌다.

데이터베이스(300)에 미리 저장되어 있는 증상들과 관련된 다양한 표현들을 불러와 입력된 피검자의 증상정보로부터 유용한 정보(표현)를 추출하여 비교함으로써 피검자의 정형화된 증상 프로파일을 생성할 수 있다.

제1 상관계수 생성부(120)는 데이터베이스(300)로부터 기준 증상 프로파일을 불러와서 피검자의 증상정보로부터 추출된 정형화된 증상 프로파일과 비교하여 피검자의 증상 프로파일이 각 질병에 대한 기준 증상 프로파일과 일치하면 제1 상관계수(k)를 +1로 설정하고, 불일치하면 0으로 설정할 수 있다.

보다 구체적으로 예를 들어 설명하면, 피검자의 증상정보로부터 추출된 정형화된 증상 프로파일이 증상 1, 증상 2, 증상 M이라고 가정하고, 질병 1과 관련된 기준 증상 프로파일이 증상 1이고, 질병 2와 관련된 기준 증상 프로파일이 증상 2, 증상 M이라고 가정하자.

이때, (질병 N, 증상 M)에 대응되는 제1 상관계수(k)는 (질병 1, 증상 1)은 +1이고, (질병 1, 증상 2)은 0이고, (질병 1, 증상 M)은 0이고, (질병 2, 증상 1)은 0이고, (질병 2, 증상 2)은 +1이고, (질병 2, 증상 M)은 +1로 설정될 수 있다.

증상-질병 상관도 연산부(130)는 각 질병과 관련되는 제1 상관계수(k)를 이용하여 증상-질병 상관도를 연산할 수 있다.

보다 구체적으로, 증상-질병 상관도는 하기 식 1과 같이 산출될 수 있다.

식 1

(여기서

이하에서는 유전자-질병 상관도 분석부(200)의 구성에 대해 설명한다.

도 4는 본 발명의 일 실시예에 따른 유전자-질병 상관도 분석부의 구성도이고, 도 5는 본 발명에 따른 유전자-질병 상관도 분석을 위해 사용되는 유틸리티 매트릭스의 일 예를 도시한 도면이다.

도 4 및 도 5를 참조하면, 유전자-질병 상관도 분석부(200)는 질병 유발 유전자 추출부(210), 제2 상관계수 생성부(220), 및 유전자-질병 상관도 연산부(230)를 포함한다.

질병 유발 유전자 추출부(210)는 입력된 피검자의 유전체 서열 분석 데이터(250)를 데이터베이스(300)에 저장되어 있는 미리 설정된 표준 염기서열을 독출한 후, 표준 염기서열과 비교하여 질병 유발 유전자를 추출할 수 있다.

제2 상관계수 생성부(220)는 하기 식 2와 같이 제2 상관계수(LG)를 생성할 수 있다.

식 2

(여기서

는 질병 유발 유전자 x가 일반인 집단에서 발생할 확률,

유전자-질병 상관도 연산부(230)는 각 질병과 관련되는 제2 상관계수(LG)를 이용하여 하기 식 3과 같이 유전자-질병 상관도를 연산할 수 있다.

식 3

질병 발현 연산부(400)는 증상-질병 상관도와 유전자-질병 상관도를 이용하여 아래 식 4와 같이 연산하여 질병 발현 확률을 산출한다.

식 4

(여기서,

이고,

,

는 질병 K에 대한 유병률(prevalence)이다.)

이와 같이, 본 발명의 일 실시예에 따른 질병 유전자 발병 확률 보정 장치(1000)는 피검자의 증상-질병 상관도와 유전자-질병 상관도를 함께 이용하여 질병 발병 확률을 연산함으로써 질병 유발 유전자만을 기준으로 질병 발병 확률을 계산하는 것보다 더 정확한 질병 유전자 발병 확률을 제공할 수 있다

이하, 도 6을 참조하여 본 발명의 일 실시예에 따른 질병 유전자 발병 확률 보정 방법을 설명한다.

도 6은 본 발명의 일 실시예에 따른 질병 유전자 발병 확률 보정 방법의 순서도이다.

도 6을 참조하면, 본 발명에 따른 질병 유전자 발병 확률 보정 방법은 증상-질병 상관도 분석(S110)과 유전자-질병 상관도 분석(S120)을 통해 증상-질병 상관도와 유전자-질병 상관도를 산출하고, 산출된 증상-질병 상관도와 유전자-질병 상관도를 이용하여 질병 발현 확률을 산출(S300)할 수 있다.

증상-질병 상관도 분석(S110)은 피검자의 자연어 증상 정보를 수집하고(S110)고, 텍스트 마이닝을 이용하여 피검자의 자연어 증상 정보로부터 정형화된 증상 프로파일을 생성한다(S120).

다음으로, 데이터베이스에 미리 저장되어 있는 기준 증상 프로파일을 불러와서 피검자의 증상정보로부터 추출된 정형화된 증상 프로파일과 비교하여 제1 상관계수를 생성한다(S120). 이때, 피검자의 증상 프로파일이 각 질병에 대한 기준 증상 프로파일과 일치하면 제1 상관계수(k)를 +1로 설정하고, 불일치하면 0으로 설정될 수 있다.

다음으로, 앞에서 설명한 식 1을 이용하여 증상-질병 상관도를 산출한다(s140).

유전자-질병 상관도 분석(S120)은 피검자의 유전체 서열 분석 데이터를 수득하고(S210), 수득한 유전체 서열 분석 데이터를 데이터베이스에 저장되어 있는 미리 설정된 표준 염기서열과 비교하여 질병 유발 유전자를 추출한다(S22).

다음으로, 앞에서 설명한 식 2를 이용하여 제2상관계수를 생성한다(S230).

다음으로, 앞에서 설명한 식 3을 이용하여 유전자-질병 상관도를 산출한다(S240).

다음으로, 산출된 각각의 증상-질병 상관도와 유전자-질병 상관도를 이용하여 앞에서 설명한 식 4에 의해 각 질병에 대한 질병 발현 확률을 계산한다(S300).

이와 같이, 본 발명의 실시예에 따른 유전자 발병 확률 보정 방법은 피검자의 증상-질병 상관도와 유전자-질병 상관도를 생성하고 이를 함께 이용함으로써 질병 유발 유전자만을 기준으로 질병 발병 확률을 계산하는 것보다 더 정확한 질병 유전자 발병 확률을 제공할 수 있다.

이상에서 설명한 본 발명이 전술한 실시예 및 첨부된 도면에 한정되지 않으며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지로 치환, 변형 및 변경이 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.

100: 증상-질병 상관도 분석부 110: 증상 프로파일 생성부
130: 증상-질병 상관도 연산부 200: 유전자-질병 상관도 분석부
210: 질병 유발 유전자 추출부 220: 제2 상관계수 생성부
230: 유전자-질병 상관도 연산부 300: 데이터베이스
400: 질병 발현 연산부 1000: 질병 유전자 발병 확률 보정 장치

Claims

피검자의 증상정보로부터 정형화된 증상 프로파일을 생성하는 증상 프로파일 생성부, 상기 증상 프로파일을 각 질병에 대해 미리 설정된 기준 증상 프로파일과 비교하여 상기 증상 프로파일이 각 질병에 대한 상기 기준 증상 프로파일과 일치하면 +1로 설정하고, 불일치하면 0으로 설정하여 제1 상관계수를 생성하는 제1 상관계수 생성부, 및 각 질병에 대한 상기 제1 상관계수를 이용하여 피검자의 증상과 질병 간의 증상-질병 상관도(PS_k)를 하기 식 1과 같이 산출하여 연산하는 증상-질병 상관도 연산부를 포함하는 증상-질병 상관도 분석부;
수집된 피검자의 유전체 서열분석 데이터를 미리 설정된 표준 염기서열과 비교하여 질병 유발 유전자를 추출하는 질병 유발 유전자 추출부, 상기 질병 유발 유전자를 발현될 수 있는 질병과 매칭하여 제2 상관계수(LG)를 하기 식 2와 같이 산출하여 생성하는 제2 상관계수 생성부, 및 각 질병에 대한 상기 제2 상관계수를 이용하여 피검자의 질병 유발 유전자와 질병 간의 유전자-질병 상관도를 하기 식 3과 같이 산출하여 연산하는 유전자-질병 상관도 연산부를 포함하는 유전자-질병 상관도 분석부; 및
상기 증상-질병 상관도와 상기 유전자-질병 상관도로부터 질병이 발현될 확률을 하기 식 4와 같이 산출하여 연산하는 질병 발현 연산부를 포함하는 질병 유전자 발병 확률 보정 장치.
식 1

(여기서
, N= 총 질병 개수, S_x = 증상 x를 가진 질병 개수, M= 질병 K에 대해 환자가 가진 모든 증상 개수이다.)
식 2

(여기서
는 질병 유발 유전자 x가 일반인 집단에서 발생할 확률,
는 질병 유발 유전자 x가 질병 K 환자에게서 발생할 확률이다.)
식 3

(여기서 M은 질병 K에 대해 환자가 가진 질병 유발 유전자 개수이다.)
식 4

(여기서,
이고,
,
는 질병 K에 대한 유병률(prevalence)이다.).
제1항에 있어서,
상기 증상 프로파일 생성부는 피검자의 질병 증상정보가 자연어로 수집되면 텍스트 마이닝을 이용하여 상기 정형화된 증상 프로파일을 형성하는 것을 특징으로 하는 질병 유전자 발병 확률 보정 장치.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제