KR102167697B1

KR102167697B1 - 증상 유사도 측정기에 대한 성능 평가 시스템 및 방법

Info

Publication number: KR102167697B1
Application number: KR1020180136481A
Authority: KR
Inventors: 이정설
Original assignee: 주식회사 쓰리빌리언
Priority date: 2018-11-08
Filing date: 2018-11-08
Publication date: 2020-10-19
Also published as: KR20200053185A

Abstract

본 발명은 환자가 가지고 있는 환자 증상 집합과 질병에 대해 알려진 질병 증상 집합 간의 유사도를 측정하는 임의의 증상 유사도 측정기에 대한 성능 평가 시스템에 있어서, 상기 증상 유사도 측정기에 의해 각각의 환자에 대해서 환자 증상 집합과 유전 변이 연관 질병 증상 집합 간의 제1 유사도, 및 환자 증상 집합과 유전 변이 무관 질병 증상 집합 간의 제2 유사도를 산출하는 유사도 산출부; 상기 제1 유사도를 보정하여 제1 보정 유사도를 생성하고, 상기 제2 유사도를 보정하여 제2 보정 유사도를 생성하는 유사도 보정부; 전체 환자에 대하여 상기 제1 보정 유사도를 합한 제1 전체 보정 유사도와 전체 환자에 대하여 상기 제2 보정 유사도를 합한 제2 전체 보정 유사도를 생성하는 전체 유사도 보정부; 및 상기 제1 전체 보정 유사도와 상기 제2 전체 보정 유사도를 서로 비교하여 성능을 검증하는 검증부를 포함하는 증상 유사도 측정기에 대한 성능 평가 시스템을 제공한다.

Description

증상 유사도 측정기에 대한 성능 평가 시스템 및 방법{SYSTEM AND METHOD FOR EVALUATING PERFORMANCE OF SYMPTOM SIMILARITY MEASURE APPARATUS}

본 발명은 환자의 증상들과 질병에 대해 알려진 증상들의 유사도를 측정하는 증상 유사도 측정기에 대한 성능을 평가하는 증상 유사도 측정기에 대한 성능 평가 방법 및 장치에 관한 것이다.

정확한 진단을 위해서는 환자에서 관찰된 증상에 기반하여 유력한 질병을 제시하는 것이 중요하다. 최근에는 각각의 질병에 수반되는 증상 정보가 구축되어 있으므로 각 질병의 알려진 증상과 환자의 증상을 비교하여 진단을 돕는 방법 또는 장치(소프트웨어)가 널리 이용되고 있다.

그러나 각 질병의 증상과 환자의 증상을 어떠한 방법으로 비교할 것인지에 대한 명확한 기준은 존재하지 않는다.

다수의 질병이 동일 증상을 공유하거나 동일 질병에 나타나는 증상들이 항상 같은 빈도로 나타나는 것은 아니기 때문에, 질병의 증상들과 환자의 증상들을 비교하여 정확한 질병을 찾아 내는 것은 어려운 문제이다.

환자에서 관찰된 증상들과 각 질병의 알려진 증상들 중에 공유되는 증상들에 기반하여 환자 증상 집합과 질병 증상 집합의 유사도를 측정하거나, 각 증상에 연관된 단백질 상호 작용 네트워크의 유사성에 기반하여 환자 증상 집합과 질병 증상 집합의 유사도를 측정하는 방법과 그에 따른 증상 유사도 측정기가 이용될 수 있다.

그러나 증상 유사도 측정 방법 및 증상 유사도 측정기의 성능을 평가하는 것에 대한 고찰은 이루어지지 않고 있는 실정이다.

환자 증상 집합과 질병 증상 집합 간의 유사도를 측정하는 방법 및 증상 유사도 측정기의 성능을 평가할 수 있어야 비로소 보다 향상되고 정확한 증상 유사도 측정기의 개발을 기대할 수 있다.

본 발명이 이루고자 하는 기술적 과제는 환자의 증상들과 질병에 대해 알려진 증상들의 유사도를 측정하는 임의의 증상 유사도 측정기에 대한 성능을 평가하는 증상 유사도 측정기에 대한 성능 평가 방법 및 장치를 제공하고자 한다.

이러한 과제를 해결하기 위하여 본 발명의 실시예에 따른 증상 유사도 측정기에 대한 성능 평가 시스템은 환자가 가지고 있는 환자 증상 집합과 질병에 대해 알려진 질병 증상 집합 간의 유사도를 측정하는 임의의 증상 유사도 측정기에 대한 성능 평가 시스템에 있어서, 상기 증상 유사도 측정기에 의해 각각의 환자에 대해서 환자 증상 집합과 유전 변이 연관 질병 증상 집합 간의 제1 유사도, 및 환자 증상 집합과 유전 변이 무관 질병 증상 집합 간의 제2 유사도를 산출하는 유사도 산출부; 상기 제1 유사도를 보정하여 제1 보정 유사도를 생성하고, 상기 제2 유사도를 보정하여 제2 보정 유사도를 생성하는 유사도 보정부; 전체 환자에 대하여 상기 제1 보정 유사도를 합한 제1 전체 보정 유사도와 전체 환자에 대하여 상기 제2 보정 유사도를 합한 제2 전체 보정 유사도를 생성하는 전체 유사도 보정부; 및 상기 제1 전체 보정 유사도와 상기 제2 전체 보정 유사도를 서로 비교하여 성능을 검증하는 검증부를 포함한다.

상기 유사도 산출부는, 성능 평가 대상인 증상 유사도 측정기를 선택하는 선택부; 환자가 가지고 있는 유전 변이 정보를 취득하는 수취부; 상기 유전 변이에 의해 유발되는 유전 변이 연관 질병에 대한 정보와 상기 유전 변이와 무관한 유전 변이 무관 질병에 대한 정보를 탐색하는 질병 정보 탐색부; 상기 유전 변이 연관 질병에 대해 알려진 증상과 상기 유전 변이 무관 질병에 대해 알려진 증상에 대한 정보를 탐색하는 증상 정보 탐색부; 및 상기 증상 유사도 측정기에 의해 환자 증상 집합과 상기 유전 변이 연관 질병 증상 집합 간의 제1 유사도를 측정하고, 상기 증상 유사도 측정기에 의해 유전 변이 무관 질병 증상 집합 간의 제2 유사도를 측정하는 계산부를 포함할 수 있다.

상기 유사도 보정부는 하기 식 1에 의해 상기 제1 보정 유사도를 생성하고, 하기 식 2에 의해 상기 제2 보정 유사도를 생성할 수 있다.

식 1

(상기 제1 유사도 - ave)/stdev

식 2

(상기 제2 유사도 - ave)/stdev)

(ave는 상기 제1 유사도와 상기 제2 유사도 전체의 평균값이고, stdev는 상기 제1 유사도와 상기 제2 유사도 전체의 표준 편차이다.)

상기 검증부는 상기 제1 전체 보정 유사도 분포의 대표값과 상기 제2 전체 보정 유사도 분포의 대표값을 서로 비교할 수 있다.

상기 대표값은 평균 또는 중위수(median)일 수 있다.

상기 검증부는, 상기 제1 전체 보정 유사도 분포의 대표값과 상기 제2 전체 보정 유사도 분포의 대표값의 차이가 클수록 더 성능이 우수하다고 평가할 수 있다.

본 발명의 일 실시예에 따른 증상 유사도 측정기에 대한 성능 평가 방법은 유사도 산출부에서, 임의의 증상 유사도 측정기에 의해 각각의 환자에 대해서 환자 증상 집합과 유전 변이 연관 질병 증상 집합 간의 제1 유사도, 및 환자 증상 집합과 유전 변이 무관 질병 증상 집합 간의 제2 유사도를 산출하는 유산도 산출 단계; 유사도 보정부에서, 상기 제1 유사도를 보정하여 제1 보정 유사도를 생성하고, 상기 제2 유사도를 보정하여 제2 보정 유사도를 생성하는 유사도 보정 단계; 전체 유사도 보정부에서, 전체 환자에 대하여 상기 제1 보정 유사도를 합한 제1 전체 보정 유사도와 전체 환자에 대하여 상기 제2 보정 유사도를 합한 제2 전체 보정 유사도를 생성하는 전체 유사도 보정 단계; 및 검증부에서, 상기 제1 전체 보정 유사도와 상기 제2 전체 보정 유사도를 서로 비교하여 성능을 검증하는 검증 단계를 포함한다.

상기 유사도 측정 단계는, 선택부에서, 성능 평가 대상인 증상 유사도 측정기를 선택하는 단계; 수취부에서, 환자가 가지고 있는 유전 변이 정보를 취득하는 단계; 질병 정보 탐색부에서, 상기 유전 변이에 의해 유발되는 유전 변이 연관 질병에 대한 정보와 상기 유전 변이와 무관한 유전 변이 무관 질병에 대한 정보를 탐색하는 단계; 증상 정보 탐색부에서, 상기 유전 변이 연관 질병에 대해 알려진 증상과 상기 유전 변이 무관 질병에 대해 알려진 증상에 대한 정보를 취득하는 단계; 및 계산부에서, 상기 증상 유사도 측정기에 의해 환자 증상 집합과 상기 유전 변이 연관 질병 증상 집합 간의 제1 유사도를 측정하고, 상기 증상 유사도 측정기에 의해 유전 변이 무관 질병 증상 집합 간의 제2 유사도를 측정하는 단계를 포함할 수 있다.

상기 유사도 보정 단계는, 상기 유사도 보정부를 통해, 하기 식 1에 의해 상기 제1 보정 유사도를 생성되고, 하기 식 2에 의해 상기 제2 보정 유사도를 생성될 수 있다.

식 1

(상기 제1 유사도 - ave)/stdev

식 2

(상기 제2 유사도 - ave)/stdev)

상기 검증 단계는, 상기 검증부를 통해, 상기 제1 전체 보정 유사도 분포의 대표값과 상기 제2 전체 보정 유사도 분포의 대표값을 서로 비교할 수 있다.

상기 대표값은 평균 또는 중위수(median) 일 수 있다.

상기 검증부를 통해, 상기 제1 전체 보정 유사도 분포의 대표값과 상기 제2 전체 보정 유사도 분포의 대표값의 차이가 클수록 더 성능이 우수하다고 평가할 수 있다.

위에서 언급된 본 발명의 기술적 과제 외에도, 본 발명의 다른 특징 및 이점들이 이하에서 기술되거나, 그러한 기술 및 설명으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

이상과 같은 본 발명에 따르면 다음과 같은 효과가 있다.

본 발명은 환자가 가지고 있는 유전 변이와 질병에 대한 연관성을 이용함으로써 환자 증상 집합과 질병 증상 집합 간의 유사도를 평가하는 증상 유사도 측정기의 성능을 검증할 수 있다.

본 발명은 증상 유사도 측정기에 의한 유사도를 환자 전체에 대해서 보정하여 검증함으로써 검증에 대한 신뢰성을 향상시킬 수 있다.

이 밖에도, 본 발명의 실시 예들을 통해 본 발명의 또 다른 특징 및 이점들이 새롭게 파악될 수도 있을 것이다.

도 1은 본 발명의 일 실시예에 따른 증상 유사도 측정기에 대한 성능 평가 시스템의 구성도이다.
도 2는 본 발명에 따른 유사도 산출부의 구성도이다.
도 3은 증상의 계층적 구조를 나타내는 예시도이다.
도 4는 본 발명의 일 실시예에 따른 증상 유사도 측정기에 대한 성능 평가 방법의 순서도다.
도 5는 본 발명에 따른 유사도 산출부의 순서도다.

본 명세서에서 각 도면의 구성요소들에 참조번호를 부가함에 있어서 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 번호를 가지도록 하고 있음에 유의하여야 한다.

한편, 본 명세서에서 서술되는 용어의 의미는 다음과 같이 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 정의하지 않는 한 복수의 표현을 포함하는 것으로 이해되어야 하고, "제1", "제 2" 등의 용어는 하나의 구성요소를 다른 구성요소로부터 구별하기 위한 것으로, 이들 용어들에 의해 권리범위가 한정되어서는 아니 된다.

"포함하다" 또는 "가지다" 등의 용어는 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

이하, 첨부되는 도면을 참고하여 상기 문제점을 해결하기 위해 고안된 본 발명의 바람직한 실시예들에 대해 상세히 설명한다.

도 1은 본 발명의 일 실시예에 따른 증상 유사도 측정기에 대한 성능 평가 시스템의 구성도이고, 도 2는 본 발명에 따른 유사도 산출부의 구성도이다.

도 1 및 도 2를 참조하면, 본 발명의 일 실시예에 따른 증상 유사도 측정기에 대한 성능 평가 시스템(1000)은 유사도 산출부(100), 유사도 보정부(200), 전체 유사도 보정부(300), 및 검증부(400)를 포함한다.

유사도 산출부(100)는 임의의 증상 유사도 측정기에 의해 각각의 환자에 대한 유전 변이 연관 질병 정보에 기반한 제1 유사도와, 유전 변이와 무관한 질병 정보에 기반한 제2 유사도를 산출할 수 있다.

여기서 증상 유사도 측정기는 본 발명의 실시예에 따른 증상 유사도 측정기에 대한 성능 평가 시스템을 통해 성능을 검증하고자 하는 대상이다.

증상 유사도 측정기는 환자에서 관찰된 증상과 질병에 대해 알려진 증상 집합 간의 유사도를 측정하는 장치 또는 알고리즘이다.

일 예로, 임의의 증상 유사도 측정기는 환자에서 관찰된 증상들과 각 질병에 대해 알려진 증상들 중에서 공유되는 증상들에 기반한 환자 증상 집합과 질병 증상 집합의 유사도를 측정하는 증상 유사도 측정기일 수 있고, 각 증상에 연관된 단백질 상호 작용 네트워크의 유사성에 기반하여 환자 증상 집합과 질병 증상 집합의 유사도를 측정하는 증상 유사도 측정기일 수 있다.

유사도 산출부(100)는 증상 유사도 측정기를 선택하는 선택부(110), 환자의 유전 변이 정보를 취득하는 수취부(130), 유전 변이 연관 질병과 유전 변이 무관 질병에 대한 정보를 탐색하는 질병 정보 탐색부(150), 유전 변이 연관 질병 증상과 유전 변이 무관 질병 증상에 대한 정보를 탐색하는 증상 정보 탐색부(170), 및 제1 유사도와 제2 유사도를 측정하는 계산부(190)를 포함할 수 있다.

선택부(110)는 임의의 증상 유사도 측정기 중에서 성능을 검증하고자 하는 증상 유사도 측정기를 선택할 수 있다.

수취부(130)는 각각의 환자가 가지고 있는 유전 변이 정보를 저장하고 있는 데이터베이스(500)로부터 유전 변이 정보를 취득할 수 있다. 이때 환자의 유전 변이는 유전적 조성의 변환이나 변화에 의하여 일어나는 변이를 말한다. 유전적 변이는 대립 유전자(allele), 단일 뉴클레오티드 다형성(Single Nucleotide Polymorphism: SNP), 돌연변이, 또는 이들의 조합일 수 있다. 대립 유전자는 하나의 염색체에서 같은 위치(locus)에 존재하면서 서로 다른 형질을 나타내는 유전자를 말하고, 상동 염색체에서 같은 유전자 위치에 위치하는 다른 염기서열을 갖는 유전자를 말한다. 돌연변이는 점 돌연변이(point mutation), 전이(transition) 돌연변이, 전환(transversion) 돌연변이, 미스센스 돌연변이, 넌센스 돌연변이, 중복(duplication), 결실(deletion), 삽입(insertion), 전좌(translocation), 역위(inversion), 및 이들의 조합일수 있다. SNP는 게놈 서열 중 개인의 편차를 나타내는 한 개 또는 수십 개의 염기 변이를 말한다.

이러한 환자의 유전 변이 정보는 환자 각각의 고유한 개인인식번호(personal identification number, PIN)와 암호가 부여될 수 있으며, 개인인식번호와 암호가 부여된 상태로 데이터베이스(500)에 저장될 수 있다.

질병 정보 탐색부(150)는 각각의 환자에 대하여 유전 변이 연관 질병과 유전 변이 무관 질병에 대한 정보를 탐색할 수 있다.

유전 변이 연관 질병이란 환자에서 관찰되는 유전 변이에 대하여, 그 변이에 의하여 유발되는 것으로 알려진 질병을 의미하고, 유전 변이 무관 질병이란 환자에서 관찰되는 유전 변이에 대하여, 그 변이에 의하여 유발된다고 알려진 질병 이외의 질병을 의미한다.

즉, 질병 정보 탐색부(150)는 각각의 환자에 대해서 환자에서 관찰되는 유전 변이 정보를 데이터베이스(500)로부터 취득하고, 취득된 환자의 유전 변이 중에서 유전 변이 연관 질병 정보와 유전 변이 무관 질병 정보를 구분하여 데이터베이스(500)에 저장할 수 있다

증상 정보 탐색부(170)는 유전 변이 연관 질병 증상과 유전 변이 무관 질병 증상에 대한 정보를 탐색할 수 있다.

여기서, 유전 변이 연관 질병 증상이란 유전 변이 연관 질병에 대해 알려진 증상이고, 유전 변이 무관 질병 증상이란 유전 변이 무관 질병에 대해 알려진 증상이다.

즉, 증상 정보 탐색부(170)는 데이터베이스(500)로부터 각각의 환자에 대해서 각각의 환자가 가지고 있는 유전 변이에 의해 유발될 수 있는 질병들에 나타나는 증상인 유전 변이 연관 질병 증상을 탐색하고, 각각의 환자에 대해서 전체 질병 중에서 유전 변이에 의해 유발 될 수 있는 질병 이외의 질병들에 나타나는 증상인 유전 변이 무관 질병 증상을 탐색할 수 있다. 이때, 전체 질병이란 증상 유사도 측정기에 의해 환자 증상 집합과 질병 증상 집합 간의 유사도를 계산할 수 있을 만큼 증상 정보가 충분히 알려진 질병으로 데이터베이스(500)에 기 저장되어 있다.

계산부(190)는 증상 유사도 측정기에 의해 제1 유사도와 제2 유사도를 측정할 수 있다.

제1 유사도란 증상 유사도 측정기에 의해 계산된 환자의 증상 집합과 환자의 유전 변이 연관 질병 증상 집합 간의 값이고, 제2 유사도란 증상 유사도 측정기에 의해 계산된 환자의 증상 집합과 환자의 유전 변이 무관 질병 증상 집합 간의 값이다.

예를 들어, 계산부(190)는 환자에서 나타나는 환자 증상 집합 A가 있고, 그 환자의 유전 변이 연관 질병 N개에 대한 각각의 증상 집합인 유전 변이 연관 질병 증상 집합 B에 대해서, 증상 유도 측정기를 통하여 증상 집합 A와 유전 변이 연관 질병 집합 B간의 유사도를 측정하여 N개의 제1 증상 유사도 값을 생성할 수 있다.

그리고, 그 환자의 유전 변이 무관 질병 M개에 대한 각각의 증상 집합인 유전 변이 무관 질병 증상 집합 C에 대해서, 증상 유사도 측정기를 통하여 환자 증상 집합 A와 유전 변이 무관 질병 증상 집합 C간의 유사도를 측정하여 M개의 제2 증상 유사도 값을 생성할 수 있다.

유사도 보정부(200)는 제1 유사도를 보정하여 제1 보정 유사도를 생성하고, 제2 유사도를 보정하여 제2 보정 유사도를 생성할 수 있다.

단일 환자에 대하여 제1 보정 유사도와 제2 보정 유사도를 생성 하지 않을 경우 그 환자가 가지고 있는 소수의 증상들의 특성에 의존하는 결과가 나와 증상 유사도 측정기의 성능을 정확히 검증하기 어렵다. 각 환자에 나타나는 증상의 특성에 따라 제1 유사도와 제2 유사도의 분포 특성(평균 및 분산 등)이 결정된다.

따라서 먼저, 각 환자에서 나오는 제1 유사도와 제2 유사도의 분포 특성을 동일하게 한다.

이를 위해, 유사도 보정부(200)는 하기 식 1에 의해 제1 유사도를 보정하여 제1 보정 유사도를 생성하고, 하기 식 2에 의해 제2 유사도를 보정하여 제2 보정 유사도를 생성할 수 있다.

식 1

(상기 제1 유사도 - ave)/stdev

식 2

(상기 제2 유사도 - ave)/stdev)

여기서, ave는 상기 제1 유사도와 상기 제2 유사도 전체의 평균값이고, stdev는 상기 제1 유사도와 상기 제2 유사도 전체의 표준 편차이다.

예를 들어, 유사도 보정부(200)는 환자의 유전 변이 연관 질병이 N개이고, 환자의 유전 변이 무관 질병이 M개이면, 총 M+N개의 증상 유사도 값들에 대하여 그 평균값인 ave를 구하고, 그 표준 편차인 atdev를 구할 수 있다. 그리고, 제1 유사도에 대해 상기 식 1을 적용하여 제1 보정 유사도를 생성하고, 제2 유사도에 대해 상기 식 2를 적용하여 제2 보정 유사도를 생성할 수 있다.

전제 유사도 보정부(300)는 전체 환자에 대하여 제1 보정 유사도를 합한 제1 전체 보정 유사도를 생성하고, 전체 환자에 대하여 제2 보정 유사도를 합한 제2 전체 보정 유사도를 생성할 수 있다.

즉, 제1 전체 보정 유사도란 전체 유사도 보정부(300)에 의해 전체 환자에 대하여 각각의 환자에 대한 제1 보정 유사도를 모은 값들의 분포이고, 제2 전체 보정 유사도란 전체 유사도 보정부(300)에 의해 전체 환자에 대하여 각각의 환자에 대한 제2 보정 유사도를 모은 값들의 분포이다.

검증부(400)는 제1 전체 보정 유사도와 제2 전체 보정 유사도를 서로 비교하여 증상 유사도 측정기의 성능을 검증할 수 있다.

검증부(400)는 제1 전체 보정 유사도 분포의 대표값과 제2 전체 보정 유사도 분포의 대표값을 서로 비교함으로써 증상 유사도 측정기의 성능을 검증할 수 있다. 여기서, 대표값이란 제1 전체 보정 유사도 분포의 평균 또는 중위수(median)이고, 제2 전체 보정 유사도 분포의 평균 또는 중위수(median)일 수 있다.

검증부(400)는 제1 전체 보정 유사도 분포의 대표값이 제2 전체 보정 유사도 분포의 대표값 보다 크면 증상 유사도 측정기의 성능이 우수하다고 평가하고, 제1 전체 보정 유사도 분포의 대표값이 제2 전체 보정 유사도 분포의 대표값 보다 작으면 증상 유사도 측정기의 성능이 나쁜 것으로 평가할 수 있다.

이와 같이, 본 발명의 실시예에 따른 증상 유사도 측정기에 대한 성능 평가 시스템은 환자가 가지고 있는 유전 변이와 질병에 대한 연관성을 이용함으로써 환자 증상 집합과 질병 증상 집합 간의 유사도를 평가하는 증상 유사도 측정기의 성능을 검증할 수 있다.

또한, 본 발명의 실시예에 따른 증상 유사도 측정기에 대한 성능 평가 시스템은 증상 유사도 측정기에 의한 유사도를 환자 전체에 대해서 보정하여 검증함으로써 검증에 대한 신뢰성을 향상시킬 수 있다.

이하, 도 3을 참조하여 본 발명의 일 실시예에 따른 증상 유사도 측정기에 대한 성능 평가 시스템의 적용 예를 설명한다.

도 3은 증상의 계층적 구조를 나타내는 예시도이다.

도 3을 참조하면, 증상의 계층적 구조는 최상위 노드에 표현형의 이상을 의미하는 phenotype abnormality가 있으며, 그 밑으로 각 증상에 해당하는 노드가 계층을 이루어 이루어져 있다. 각 노도의 옆에 쓰여 있는 숫자는 노드의 깊이, 즉 최상위 노드로부터의 거리를 의미한다. 하나의 증상은 다수의 조상 노드에 속할 수 있으며, 증상의 계층적 구조는 시각적 단순화를 위하여 이러한 중복 노드를 표현하지 않게 도시된 예시도이다.

먼저, 본 발명의 일 실시예에 따른 증상 유사도 측정기에 대한 성능 평가 시스템은 성능의 우열을 확실히 알 수 있는 두개의 증상 유사도 측정기를 비교함으로써 성능 평가의 신뢰성을 확인하고자 한다.

먼저, 제1 증상 유사도 측정기는 두 증상에 대하여 공통 조상 노드의 최대 깊이를 증상 간 유사도로 이용하는 양성 대조군(PC, positive control) 알고리즘이고, 제2 증상 유사도 측정기는 두 증상에 대하여 공통 조상 노드의 최대 깊이의 역수를 증상 간 유사도로 이용하는 음성 대조군(NC, negative control) 알고리즘이다. 증상의 계층적 구조에 따라, 서로 다른 두 증상의 공통 조상 노드의 깊이가 깊을수록 두 증상은 구체적인 단위에서 유사한 것을 의미하므로, 상이 예에서 양성 대조군 증상 유사도 측정기의 성능이 음성 대조군 증상 유사도 측정기의 성능보다 뛰어나야 함은 자명하며, 증상 유사도 측정기의 성능 평가 방법은 이것을 올바르게 판단해야 한다.

증상 유사 측정기는 질병에 대하여 알려진 질병 증상 집합과 환자에 나타나는 증상 집합에 대하여 이 두 집합의 유사도를 측정하게 되는데, 한 집합에 있는 증상에 대하여 대응 증상 집합의 증상 중 유사한 증상을 이용하여 계산을 한다.

예를 들어, 질병 증상 집합에 노드 10인 'Absent inner eyelashes'가 있고, 환자가 이 증상을 가지고 있지 않으나 노드 9인 'Sparse eyelashes' 증상을 가지고 있다면 이 두 증상 노드의 공통 조상 노드인 'Sparse or absent eyelashes' 노드의 특성을 두 증상 Absent inner eyelashes'과 'Sparse eyelashes'의 유사도 계산에 이용한다.

여기서, 제1 증상 유사도 측정기는 두 증상의 공통 조상 노드의 최대 깊이를 두 증상의 유사도 값으로 이용하고, 제2 증상 유사도 측정기는 두 증상의 공통 노상 노드의 최대 깊이의 역수를 두 증상의 유사도 값으로 이용한다.

그럼 제1 증상 유사도 측정기와 제2 증상 유사도 측정기를 통해서 속눈썹 부재(absent of inner eyelashes)와 희미한 눈썹(sparse eyelashes)의 유사도와, 속눈썹 부재(absent of inner eyelashes)와 비강 막힘(nasal obstruction)의 유사도를 비교해 보자.

제1 증상 유사도 측정기에 의하면, 속눈썹 부재(absent of inner eyelashes)와 희미한 눈썹(sparse eyelashes)의 공통 조상 노드는 'Sparse or absent eyelashes'이며 이 노드의 깊이는 8이므로, 속눈썹 부재(absent of inner eyelashes)와 희미한 눈썹(sparse eyelashes)의 유사도는 8이다.

속눈썹 부재(absent of inner eyelashes)와 비강 막힘(nasal obstruction)의 공통 조상 노드는 'Abnormality of the face'이며 이 노드의 깊이는 3이므로, 속눈썹 부재(absent of inner eyelashes)와 비강 막힘(nasal obstruction)의 유사도는 3이다.

따라서 제1 증상 유사도 측정기는 속눈썹 부재라는 증상에 대하여 비강 막힘보다 희미한 눈썹이라는 증상이 보다 유사한 증상이라는 사실을 잘 반영해 준다.

제2 증상 유사도 측정기에 의하면, 속눈썹 부재(absent of inner eyelashes)와 희미한 눈썹(sparse eyelashes)의 공통 조상 노드는 'Sparse or absent eyelashes'이며 이 노드의 깊이는 8이므로, 속눈썹 부재(absent of inner eyelashes)와 희미한 눈썹(sparse eyelashes)의 유사도는 1/8이다.

속눈썹 부재(absent of inner eyelashes)와 비강 막힘(nasal obstruction)의 공통 조상 노드는 'Abnormality of the face'이며 이 노드의 깊이는 3이므로, 속눈썹 부재(absent of inner eyelashes)와 비강 막힘(nasal obstruction)의 유사도는 1/3이다.

즉, 제2 증상 유사도 측정기는 속눈썹 부재라는 증상에 대하여 희미한 눈썹이라는 증상보다 비강 막힘이 더 높은 점수를 부여하고, 이는 속눈썹 부재라는 증상에 대하여 비강 막힘보다 희미한 눈썹이라는 증상이 보다 유사한 증상이라는 사실을 잘 반영하지 못하고 있다.

즉, 제1 증상 유사도 측정기가 제2 증상 유사도 측정기 보다 신뢰성이 있는 증상 집합 간 유사도 측정기라는 사실을 단편적으로 알 수 있다.

이에, 본 발명의 일 실시예에 따른 증상 유사도 측정기에 대한 성능 평가 시스템에 의해 제1 증상 유사도 측정기와 제2 증상 유사도 측정기의 성능을 비교함으로써 신뢰성을 검증하고자 한다.

제1 증상 유사도 측정기와 제2 증상 유사도 측정기의 성능 평가를 비교하기 위하여, 총 160명의 유전 변이 정보와 증상 정보를 이용하였고, 7,137개의 질병에 대한 알려진 증상 정보를 HPO(Human Phenotype Ontology)로부터 획득하여 사용하였다.

각 환자에 대하여 그 환자가 가지고 있는 유전 변이에 대하여 그 유전 변이에 연관된 질병과 그렇지 않은 질병의 두 질병 그룹으로 나눈다. 즉, 유전 변이 연관 질병 그룹과 유전 변이 무관 질병 그룹으로 나눈다.

그 후, 각 질병에 해당하는 증상 정보를 이용하여 환자의 증상과 유사도를 제1 증상 유사도 측정기에 의해 총 7,137개의 유사도 값을 생성한다. 이 값의 평균과 표준 편차를 이용하여 각 환자에 대한 7,137개의 유사도 값의 분포를 보정한다. 즉, 유사도 값에서 평균을 뺀 후 표준 편차로 나누어 보정 유사도 값을 생성한다. 이때, 유사도 값은 유전 변이 연관 질병 그룹에서의 제1 유사도와 유전 변이 무관 질병 그룹에서의 제2 유사도를 포함하고, 보정 유사도 값은 유전 변이 연관 질병 그룹에서의 제1 보정 유사도와 유전 변이 무관 질병 그룹에서의 제2 보정 유사도를 포함한다.

그 후, 전체 환자에 대하여 각각 이러한 보정 작업을 수행한다. 그 후, 전체 환자에 대하여, 각 환자의 유전 변이와 연관된 질병에 대한 제1 보정 유사도 값들을 모아 제1 전체 보정 유사도 값을 생성하고, 각 환자의 유전 변이와 무관한 질병에 대한 제2 보정 유사도 값들을 모아 제2 전체 보정 유사도 값을 생성한다. 그 후 두 그룹의 유사도 값들의 분포를 비교한다.

제2 증상 유사도 측정기에 대해서도 본 발명의 일 실시예에 따른 증상 유사도 측정기에 대한 성능 평가 시스템을 통하여 동일한 절차를 수행한다.

그 결과, 제1 증상 유사도 측정기에 의한 제1 전체 보정 유사도의 평균은 0.120605이고, 제2 전체 보정 유사도의 평균은 -0.000301522이다. 제1 증상 유사도 측정기에 의해 제1 전체 보정 유사도의 평균과 제2 전체 보정 유사도의 평균의 차이에 대한 통계적 유의도는 이분산 student's t-test를 수행하였을 경우 p-값이 0.0000000133842 으로 유의 수준 0.05 에서 이 두 분포의 평균은 차이가 남을 알 수 있고, 이 때 제1 전체 보정 유사도 평균이 제2 전체 보정 유사도 평균보다 큰 것을 알 수 있다.

제2 증상 유사도 측정기에 의한 제1 전체 보정 유사도의 평균은 0.112785이고, 제2 전체 보정 유사도의 평균은 0.00028197이다. 제2 증상 유사도 측정기에 의해 제1 전체 보정 유사도의 평균과 제2 전체 보정 유사도의 평균의 차이에 대한 통계적 유의도는 0.0048305이다.

이와 같이 본 발명의 일 실시예에 따른 증상 유사도 측정기에 대한 성능 평가 시스템을 통하여 제1 증상 유사도 측정기의 성능이 우수하고, 제2 증상 유사도의 성능이 제1 증상 유사도 측정기의 성능보다 좋지 않다는 것을 알 수 있다.

이하에서는, 본 발명의 일 실시예에 따른 증상 유사도 측정기에 대한 성능 평가 방법을 설명한다. 이하에서는 설명의 편의를 위해 전술의 도 1 및 도 2에서 언급한 참조번호를 언급하여 설명하고, 앞서 설명한 내용과 중복된 내용은 생략한다.

도 4는 본 발명의 일 실시예에 따른 증상 유사도 측정기에 대한 성능 평가 방법의 순서도이고, 도 5는 본 발명에 따른 유사도 산출부의 순서도다.

도 4 및 도 5를 참조하면, 본 발명의 일 실시예에 따른 증상 유사도 측정기에 대한 성능 평가 방법은 유사도 산출부(100)에서 제1 유사도 및 제2 유사도를 포함하는 유사도를 산출할 수 있다(S100).

유사도 산출(S100)은 선택부(110)에서 성능 평가 대상인 증상 유사도 측정기를 선택하고(S110), 수취부(130)에서 데이터베이스로(500)부터 환자가 가지고 있는 유전 변이 정보를 취득한다(S120). 그 후 질병 정보 탐색부(150)에서 유전 변이에 의해 유발되는 유전 변이 연관 질병에 대한 정보와, 유전 변이와 무관한 유전 변이 무관 질병에 대한 정보를 데이터베이스(500)로부터 탐색한다(S130). 그 후 증상 정보 탐색부(170)에서 유전 변이 연관 질병에 대해 알려진 증상과 유전 변이 무관 질병에 대해 알려진 증상에 대한 정보를 취득한다(S140). 그 후, 계산부(190)에서 증상 유사도 측정기에 의해 환자 증상 집합과 유전 변이 연관 질병 증상 집합 간의 제1 유사도를 측정하고, 증상 유사도 측정기에 의해 유전 변이 무관 질병 증상 집합 간의 제2 유사도를 측정한다(S150).

다음으로, 유사도 보정부(200)에서 상기 제1 유사도를 보정하여 제1 보정 유사도를 생성하고, 상기 제2 유사도를 보정하여 제2 보정 유사도를 생성한다(S200).

다음으로, 전체 유사도 보정부(300)에서, 전체 환자에 대하여 상기 제1 보정 유사도를 합한 제1 전체 보정 유사도와 전체 환자에 대하여 상기 제2 보정 유사도를 합한 제2 전체 보정 유사도를 생성한다(S300).

다음으로, 검증부(400)에서, 상기 제1 전체 보정 유사도와 상기 제2 전체 보정 유사도를 서로 비교하여 성능을 검증한다(S400).

이와 같이, 본 발명의 실시예에 따른 증상 유사도 측정기에 대한 성능 평가 방법은 환자가 가지고 있는 유전 변이와 질병에 대한 연관성을 이용함으로써 환자 증상 집합과 질병 증상 집합 간의 유사도를 평가하는 증상 유사도 측정기의 성능을 검증할 수 있다.

또한, 본 발명의 실시예에 따른 증상 유사도 측정기에 대한 성능 평가 방법은 증상 유사도 측정기에 의한 유사도를 환자 전체에 대해서 보정하여 검증함으로써 검증에 대한 신뢰성을 향상시킬 수 있다

이상에서 설명한 본 발명이 전술한 실시예 및 첨부된 도면에 한정되지 않으며, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지로 치환, 변형 및 변경이 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.

100: 유사도 산출부 110: 선택부
130: 수취부 150: 질병 정보 탐색부
170: 증상 정보 탐색부 190: 계산부
200: 유사도 보정부 300: 전체 유사도 보정부
400: 검증부
1000: 증상 유사도 측정기에 대한 성능 평가 시스템

Claims

환자가 가지고 있는 환자 증상 집합과 질병에 대해 알려진 질병 증상 집합 간의 유사도를 측정하는 임의의 증상 유사도 측정기에 대한 성능 평가 시스템에 있어서,
상기 증상 유사도 측정기에 의해 각각의 환자에 대해서 환자 증상 집합과 유전자 변이 연관 질병 증상 집합 간의 제1 유사도, 및 환자 증상 집합과 유전자 변이 무관 질병 증상 집합 간의 제2 유사도를 산출하는 유사도 산출부;
상기 제1 유사도를 보정하여 제1 보정 유사도를 생성하고, 상기 제2 유사도를 보정하여 제2 보정 유사도를 생성하는 유사도 보정부;
전체 환자에 대하여 상기 제1 보정 유사도를 합한 제1 전체 보정 유사도와 전체 환자에 대하여 상기 제2 보정 유사도를 합한 제2 전체 보정 유사도를 생성하는 전체 유사도 보정부; 및
상기 제1 전체 보정 유사도와 상기 제2 전체 보정 유사도를 서로 비교하여 성능을 검증하는 검증부를 포함하는 증상 유사도 측정기에 대한 성능 평가 시스템.
제1항에 있어서,
상기 유사도 산출부는,
성능 평가 대상인 증상 유사도 측정기를 선택하는 선택부;
환자가 가지고 있는 유전자 변이 정보를 취득하는 수취부;
상기 유전자 변이에 의해 유발되는 유전자 변이 연관 질병에 대한 정보와 상기 유전자 변이와 무관한 유전자 변이 무관 질병에 대한 정보를 탐색하는 질병 정보 탐색부;
상기 유전자 변이 연관 질병에 대해 알려진 증상과 상기 유전자 변이 무관 질병에 대해 알려진 증상에 대한 정보를 탐색하는 증상 정보 탐색부; 및
상기 증상 유사도 측정기에 의해 환자 증상 집합과 상기 유전자 변이 연관 질병 증상 집합 간의 제1 유사도를 측정하고, 상기 증상 유사도 측정기에 의해 유전자 변이 무관 질병 증상 집합 간의 제2 유사도를 측정하는 계산부를 포함하는 증상 유사도 측정기에 대한 성능 평가 시스템.
제1항에 있어서,
상기 유사도 보정부는 하기 식 1에 의해 상기 제1 보정 유사도를 생성하고, 하기 식 2에 의해 상기 제2 보정 유사도를 생성하는 증상 유사도 측정기에 대한 성능 평가 시스템.
식 1
(상기 제1 유사도 - ave)/stdev
식 2
(상기 제2 유사도 - ave)/stdev)
(ave는 상기 제1 유사도와 상기 제2 유사도 전체의 평균값이고, stdev는 상기 제1 유사도와 상기 제2 유사도 전체의 표준 편차이다.)
제3항에 있어서,
상기 검증부는 상기 제1 전체 보정 유사도 분포의 대표값과 상기 제2 전체 보정 유사도 분포의 대표값을 서로 비교하는 것을 특징으로 증상 유사도 측정기에 대한 성능 평가 시스템.
제4항에 있어서,
상기 대표값은 평균 또는 중위수(median)인 것을 특징으로 하는 증상 유사도 측정기에 대한 성능 평가 시스템.
제4항에 있어서, 상기 검증부는 상기 제1 전체 보정 유사도 분포의 대표값과 상기 제2 전체 보정 유사도 분포의 대표값의 차이가 클수록 더 성능이 우수하다고 평가하는 것을 특징으로 하는 증상 유사도 측정기에 대한 성능 평가 시스템.
유사도 산출부에서, 임의의 증상 유사도 측정기에 의해 각각의 환자에 대해서 환자 증상 집합과 유전자 변이 연관 질병 증상 집합 간의 제1 유사도, 및 환자 증상 집합과 유전자 변이 무관 질병 증상 집합 간의 제2 유사도를 산출하는 유산도 산출 단계;
유사도 보정부에서, 상기 제1 유사도를 보정하여 제1 보정 유사도를 생성하고, 상기 제2 유사도를 보정하여 제2 보정 유사도를 생성하는 유사도 보정 단계;
전체 유사도 보정부에서, 전체 환자에 대하여 상기 제1 보정 유사도를 합한 제1 전체 보정 유사도와 전체 환자에 대하여 상기 제2 보정 유사도를 합한 제2 전체 보정 유사도를 생성하는 전체 유사도 보정 단계; 및
검증부에서, 상기 제1 전체 보정 유사도와 상기 제2 전체 보정 유사도를 서로 비교하여 성능을 검증하는 검증 단계를 포함하는 증상 유사도 측정기에 대한 성능 평가 방법.
제7항에 있어서,
상기 유사도 측정 단계는,
선택부에서, 성능 평가 대상인 증상 유사도 측정기를 선택하는 단계;
수취부에서, 환자가 가지고 있는 유전자 변이 정보를 취득하는 단계;
질병 정보 탐색부에서, 상기 유전자 변이에 의해 유발되는 유전자 변이 연관 질병에 대한 정보와 상기 유전자 변이와 무관한 유전자 변이 무관 질병에 대한 정보를 탐색하는 단계;
증상 정보 탐색부에서, 상기 유전자 변이 연관 질병에 대해 알려진 증상과 상기 유전자 변이 무관 질병에 대해 알려진 증상에 대한 정보를 취득하는 단계; 및
계산부에서, 상기 증상 유사도 측정기에 의해 환자 증상 집합과 상기 유전자 변이 연관 질병 증상 집합 간의 제1 유사도를 측정하고, 상기 증상 유사도 측정기에 의해 유전자 변이 무관 질병 증상 집합 간의 제2 유사도를 측정하는 단계를 포함하는 증상 유사도 측정기에 대한 성능 평가 방법.
제7항에 있어서,
상기 유사도 보정 단계는,
상기 유사도 보정부를 통해, 하기 식 1에 의해 상기 제1 보정 유사도를 생성되고, 하기 식 2에 의해 상기 제2 보정 유사도를 생성되는 증상 유사도 측정기에 대한 성능 평가 방법.
식 1
(상기 제1 유사도 - ave)/stdev
식 2
(상기 제2 유사도 - ave)/stdev)
(ave는 상기 제1 유사도와 상기 제2 유사도 전체의 평균값이고, stdev는 상기 제1 유사도와 상기 제2 유사도 전체의 표준 편차이다.)
제9항에 있어서,
상기 검증 단계는,
상기 검증부를 통해, 상기 제1 전체 보정 유사도 분포의 대표값과 상기 제2 전체 보정 유사도 분포의 대표값을 서로 비교하는 것을 특징으로 증상 유사도 측정기에 대한 성능 평가 방법.
제10항에 있어서,
상기 대표값은 평균 또는 중위수(median)인 것을 특징으로 하는 증상 유사도 측정기에 대한 성능 평가 방법.
제10항에 있어서,
상기 검증부를 통해, 상기 제1 전체 보정 유사도 분포의 대표값과 상기 제2 전체 보정 유사도 분포의 대표값의 차이가 클수록 더 성능이 우수하다고 평가하는 것을 특징으로 하는 증상 유사도 측정기에 대한 성능 평가 방법.