KR102370171B1

KR102370171B1 - 문맥적 관련성을 고려한 의료 문서 검색 방법 및 장치

Info

Publication number: KR102370171B1
Application number: KR1020200022687A
Authority: KR
Inventors: 이승룡; 박범주
Original assignee: 경희대학교 산학협력단
Priority date: 2020-02-25
Filing date: 2020-02-25
Publication date: 2022-03-03
Also published as: KR20210108024A

Abstract

본 발명은 문맥적 관련성을 고려한 의료 문서 검색 방법 및 장치에 관한 것으로, 딥러닝 분류기를 사용하여 사용자가 원하는 의료 문서를 검색하는 것을 일 목적으로 한다. 이러한 목적을 달성하기 위한 본 발명은, 적어도 하나의 제1 의료 문서에 대응하는 의료 데이터를 이용하여 질병 정보 분류기 모델을 생성하고, 상기 의료 데이터 및 질병 정보 분류기 모델을 이용하여 상기 제1 의료 문서를 질병 정보에 따라 분류하는 a 단계, 사용자 단말로부터 질병, 유전자 및 환자 정보 중 적어도 하나를 포함하는 검색 토픽을 수신하는 b 단계, 상기 질병 정보를 기반으로 상기 검색 토픽과 유사한 제2 의료 문서를 검색하는 c 단계, 상기 유전자 및/또는 환자 정보를 이용하여 상기 검색 토픽과 상기 제2 의료 문서의 유사도를 연산하는 d 단계, 상기 유사도에 따라 상기 제2 의료 문서를 리스팅하여 제공하는 e 단계를 포함하는 것을 일 특징으로 한다.

Description

문맥적 관련성을 고려한 의료 문서 검색 방법 및 장치{DEVICE AND METHOD TO RETRIEVE MEDICAL DOCUMENTS USING CONTEXTUAL RELEVANCE}

본 발명은 문맥적 관련성을 고려한 의료 문서 검색 방법 및 장치에 관한 것으로, 보다 자세하게는 문맥적 의미를 파악 가능한 벡터를 기반으로 의료 문서를 검색하는 방법 및 장치에 관한 것이다.

최근 병원과 같이 의료 서비스를 제공하는 기관이 증가하고 이에 따라 의료 서비스를 보조하는 기술이 고도화되고 있다. 그 중 하나인 정밀 의학은 유전자, 바이오 마커, 표현형 또는 심리 사회적 특성을 기반으로 환자의 요구에 따른 새로운 진단 및 진료 서비스를 제공하는 것으로, 환자의 요구를 충족시킬 수 있는 진단 및/또는 진료를 수행할 수 있도록 기존에 존재하는 의료 문서를 이용하여야 한다.

그러나 의료 문서는, medline에만 1,300만 개가 저장되어 있으며 매일 2,000 여개가 추가될 정도로 그 양이 방대하다. 이러한 방대한 수의 의료 문서에서 사용자가 필요로 하는 의료 문서를 정확하고 효율적으로 인식하기 위하여, 종래에는 단어를 벡터화 시키고 자연어 처리하는 방법을 사용하고 있다. 그러나 이 경우 검색 쿼리만으로 유사도를 측정하고 워드 임베딩 기법을 통해 단어를 벡터화 시키기 때문에, 원하는 질병에 대한 깊은 고려가 부재하고, 단어의 문맥적 의미를 파악하지 못하여 무관한 의료 문서가 검색되는 문제점이 있다.

삭제

등록특허 제10-1538998호(2015.07.17. 등록)

본 발명은 전술한 문제점을 해결하기 위한 것으로서, 딥러닝 분류기를 사용하여 사용자가 원하는 의료 문서를 검색하는 것을 일 목적으로 한다.

또한 본 발명은 의료 문서를 검색함에 있어서 유전자 정보를 더 이용하여 유전자의 정보가 중요한 질병에 대한 검색의 정확도를 향상시키는 것을 일 목적으로 한다.

또한 본 발명은 검색된 의료 문서 각각에 대한 유사도를 연산하여, 이를 기반으로 정렬된 리스트를 제공하는 것을 일 목적으로 한다.

이러한 목적을 달성하기 위한 본 발명은 서버가 문맥적 관련성을 고려하여 의료 문서를 검색하는 방법에 있어서, 적어도 하나의 제1 의료 문서에 대응하는 의료 데이터를 이용하여 질병 정보 분류기 모델을 생성하고, 상기 의료 데이터 및 질병 정보 분류기 모델을 이용하여 상기 제1 의료 문서를 질병 정보에 따라 분류하는 a 단계, 사용자 단말로부터 질병, 유전자 및 환자 정보 중 적어도 하나를 포함하는 검색 토픽을 수신하는 b 단계, 상기 검색 토픽의 질병 정보를 기반으로 상기 검색 토픽과 유사한 제2 의료 문서를 검색하는 c 단계, 상기 검색 토픽의 유전자 및/또는 환자 정보를 이용하여 상기 검색 토픽과 상기 제2 의료 문서의 유사도를 연산하는 d 단계, 상기 유사도에 따라 상기 제2 의료 문서를 리스팅하여 제공하는 e 단계를 포함하는 것을 일 특징으로 한다.

또한 상기 a 단계는, TREC에서 제1 의료 문서에 대응하는 의료 데이터를 수신하는 단계, 상기 의료 데이터에서 제목, 초록 또는 질병 정보 중 적어도 하나를 추출하여 요소 데이터로 설정하는 단계 및 상기 요소 데이터를 이용하여 딥러닝 학습하여 질병 정보 분류기 모델을 생성하는 단계를 포함하는 것을 일 특징으로 한다.

나아가 상기 질병 정보 분류기 모델은 상기 의료 데이터제1 의료 문서의 제목 및 초록 정보를 상기 질병 정보에 따라 분류하는 것을 일 특징으로 한다.

또한 상기 c 단계는, 상기 제1 의료 문서가 저장된 데이터베이스에서 상기 검색 토픽의 질병 정보와 동일한 질병 정보를 갖는 제2 의료 문서를 검색하는 것을 일 특징으로 한다.

또한 상기 d 단계는, 상기 유전자 정보에 스코어링 알고리즘을 적용하여 상기 검색 토픽과 상기 제2 의료 문서의 제1 유사도를 연산하는 단계, 상기 유전자 및 환자 정보에 문맥을 반영한 워드 임베딩을 적용하여 상기 검색 토픽과 상기 제2 의료 문서의 제2 유사도를 연산하는 단계 및 상기 제1 및 제2 유사도를 더한 값을 상기 검색 쿼리와 상기 제2 의료 문서의 유사도로 설정하는 단계를 포함하는 것을 일 특징으로 한다.

나아가 본 발명은 문맥적 관련성을 고려하여 의료 문서를 검색하는 장치에 있어서, TREC에서 적어도 하나의 제1 의료 문서에 대응하는 의료 데이터를 수신하는 의료 데이터 수신부, 상기 의료 데이터를 이용하여 질병 정보 분류기 모델을 생성하고, 상기 의료 데이터 및 질병 정보 분류기 모델을 이용하여 상기 제1 의료 문서를 질병 정보에 따라 분류하는 분류기 모델 생성부, 사용자 단말로부터 질병, 유전자 및 환자 정보 중 적어도 하나를 포함하는 검색 토픽을 수신하는 토픽 수신부, 상기 질병 정보를 기반으로 상기 검색 토픽과 유사한 제2 의료 문서를 검색하는 의료 문서 검색부, 상기 유전자 및/또는 환자 정보를 이용하여 상기 검색 토픽과 상기 제2 의료 문서의 유사도를 연산하는 유사도 연산부 및 상기 유사도에 따라 상기 제2 의료 문서를 리스팅하는 우선 순위 설정부를 포함하는 것을 일 특징으로 한다.

또한 상기 분류기 모델 생성기는, TREC로부터 상기 제1 의료 문서에 대응하는 의료 데이터를 수신하여, 상기 의료 데이터에서 제목, 초록 또는 질병 정보 중 적어도 하나를 추출하여 요소 데이터로 설정하고, 상기 요소 데이터를 이용하여 딥러닝 학습하여 질병 정보 분류기 모델을 생성하는 것을 일 특징으로 한다.

나아가 상기 질병 정보 분류기 모델은 상기 의료 데이터의 제목 및 초록 정보를 상기 질병 정보에 따라 분류하는 것을 일 특징으로 한다.

또한 상기 의료 문서 검색부는, 상기 제1 의료 문서가 저장된 데이터베이스에서 상기 검색 토픽의 질병 정보와 동일한 질병 정보를 갖는 제2 의료 문서를 검색하는 것을 일 특징으로 한다.

나아가 상기 유사도 연산부는, 상기 유전자 정보에 스코어링 알고리즘을 적용하여 상기 검색 토픽과 상기 제2 의료 문서의 제1 유사도를 연산하는 제1 유사도 연산부 및 상기 유전자 및 환자 정보에 문맥을 반영한 워드 임베딩을 적용하여 상기 검색 토픽과 상기 제2 의료 문서의 제2 유사도를 연산하는 제2 유사도 연산부를 더 포함하여, 상기 제1 및 제2 유사도가 연산되면, 상기 제1 및 제2 유사도를 더한 값을 상기 검색 쿼리와 상기 제2 의료 문서의 유사도로 설정하는 것을 일 특징으로 한다.

전술한 바와 같은 본 발명에 의하면, 딥러닝 분류기를 사용하여 사용자가 원하는 의료 문서를 검색할 수 있다.

또한 본 발명은 의료 문서를 검색함에 있어서 유전자 정보를 더 이용하여 유전자의 정보가 중요한 질병에 대한 검색의 정확도를 향상시킬 수 있다.

또한 본 발명은 검색된 의료 문서 각각에 대한 유사도를 연산하여, 이를 기반으로 정렬된 리스트를 제공할 수 있다.

도 1은 본 발명의 일 실시 예에 의한 문맥적 관련성을 고려하여 의료 문서를 검색하는 예시를 설명하기 위한 도면,
도 2는 본 발명의 일 실시 예에 의한 문맥적 관련성을 고려하여 의료 문서를 검색하는 방법을 설명하기 위한 순서도,
도 3은 본 발명의 일 실시 예에 의한 질병 정보 분류기 모델을 생성하는 방법을 설명하기 위한 순서도,
도 4은 본 발명의 일 실시 예에 의한 TREC로부터 수신한 제1 의료 문서의 예시를 설명하기 위한 도면,
도 5는 본 발병의 일 실시 예에 의한 검색 토픽을 설명하기 위한 도면,
도 6은 본 발명의 일 실시 예에 의한 검색 토픽과 제2 의료 문서의 유사도를 연산하는 방법을 설명하기 위한 알고리즘,
도 7은 본 발명의 일 실시 예에 의한 검색 토픽과 제2 의료 문서의 유사도를 연산하는 방법을 설명하기 위한 순서도,
도 8은 본 발명의 일 실시 예에 의한 검색 토픽을 기반으로 생성된 쿼리를 설명하기 위한 도면,
도 9는 본 발명의 일 실시 예에 의한 문맥적 관련성을 고려한 의료 문서 검색 장치의 사시도이다.

전술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술되며, 이에 따라 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 상세한 설명을 생략한다.

도면에서 동일한 참조부호는 동일 또는 유사한 구성요소를 가리키는 것으로 사용되며, 명세서 및 특허청구의 범위에 기재된 모든 조합은 임의의 방식으로 조합될 수 있다. 그리고 다른 식으로 규정하지 않는 한, 단수에 대한 언급은 하나 이상을 포함할 수 있고, 단수 표현에 대한 언급은 또한 복수 표현을 포함할 수 있음이 이해되어야 한다.

본 명세서에서 사용되는 용어는 단지 특정 예시적 실시 예들을 설명할 목적을 가지고 있으며 한정할 의도로 사용되는 것이 아니다. 본 명세서에서 사용된 바와 같은 단수적 표현들은 또한, 해당 문장에서 명확하게 달리 표시하지 않는 한, 복수의 의미를 포함하도록 의도될 수 있다. 용어 "및/또는," "그리고/또는"은 그 관련되어 나열되는 항목들의 모든 조합들 및 어느 하나를 포함한다. 용어 "포함한다", "포함하는", "포함하고 있는", "구비하는", "갖는", "가지고 있는" 등은 내포적 의미를 갖는 바, 이에 따라 이러한 용어들은 그 기재된 특징, 정수, 단계, 동작, 요소, 및/또는 컴포넌트를 특정하며, 하나 이상의 다른 특징, 정수, 단계, 동작, 요소, 컴포넌트, 및/또는 이들의 그룹의 존재 혹은 추가를 배제하지 않는다. 본 명세서에서 설명되는 방법의 단계들, 프로세스들, 동작들은, 구체적으로 그 수행 순서가 확정되는 경우가 아니라면, 이들의 수행을 논의된 혹은 예시된 그러한 특정 순서로 반드시 해야 하는 것으로 해석돼서는 안 된다. 추가적인 혹은 대안적인 단계들이 사용될 수 있음을 또한 이해해야 한다.

또한, 각각의 구성요소는 각각 하드웨어 프로세서로 구현될 수 있고, 위 구성요소들이 통합되어 하나의 하드웨어 프로세서로 구현될 수 있으며, 또는 위 구성요소들이 서로 조합되어 복수 개의 하드웨어 프로세서로 구현될 수도 있다.

이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시 예에 의한 문맥적 관련성을 고려하여 의료 문서를 검색하는 예시를 설명하기 위한 도면이다.

의료인은 환자를 진료함에 있어서, 환자의 질병이나 상태와 관련된 의료 정보가 궁금할 수 있다. 이 경우, 본 발명의 일 실시 예에 의한 도 1의 예시와 같이 서버는 미리 생성된 질병 정보 분류기 모델을 기반으로 의료인이 궁금해하는 질병 및 상태와 관련된 의료 문서를 검색하고, 검색된 의료 문서의 유사도를 연산하여 이를 기반으로 의료 문서를 리스팅하여 사용자에게 제공할 수 있다.

본 발명의 일 실시 예에 의하면, 본 발명은 의료 문서의 유사도를 연산하기 위하여 유전자 정보 및 환자의 정보를 이용할 수 있다. 구체적으로, 환자의 질병에 대한 적절한 치료는 유전적 정보, 환경적 정보, 그리고 생활 방식에 따라 각각 상이하며, 특정 질병의 경우, 비정상 유전자 또는 특정 유전자가 변이하여 발현되는 것으로 유전자 정보가 매우 중요하기 때문에 이를 추가적으로 고려할 것이다. 이에 기초하여 본 발명은 유전자 정보로 비정상 유전자 또는 특정 유전제의 변이체 정보를 사용하고, 환자 정보로 연령 및 성별을 사용하여 의료 문서를 보다 정밀하게 분류할 수 있다.

도 2는 본 발명의 일 실시 예에 의한 문맥적 관련성을 고려하여 의료 문서를 검색하는 방법을 설명하기 위한 순서도이다. 문맥적 관련성을 고려한 의료 문서 검색 방법의 주체인 의료 문서 검색 장치는 서버로 구현될 수 있는 바, 이하에서는 설명의 편의를 위하여 서버로 명명한다. 도 2를 참고하면, 단계 100에서, 서버는 기존에 존재하는 적어도 하나 이상의 의료 데이터를 이용하여 질병 정보 분류기 모델을 생성할 수 있다. 이 때 생성된 질병 정보 분류기 모델은 데이터베이스에 저장될 수 있다.

도 3은 본 발명의 일 실시 예에 의한 질병 정보 분류기 모델을 생성하는 방법을 설명하기 위한 순서도이다.

단계 310에서, 서버는 TREC(Text Retrieval Conference)에서 제공하는 의료 데이터를 수신할 수 있다. TREC는 약 240,000개의 제1 의료 문서에 대한 의료 데이터를 XML 형식으로 제공하며, 의료 데이터는 제1 의료 문서의 제목, 초록, 질병, 저자, 문서 번호, 출판 연도, 저널 이름 등과 같은 정보를 포함할 수 있다. 서버가 TREC로부터 수신한 의료 데이터의 예시는 도 4와 같다.

단계 320에서, 서버는 TREC에서 제공하는 의료 데이터에서 제목, 초록 및 질병 정보를 추출하여 요소 데이터로 설정할 수 있다. 이는 기본 요소를 식별하기 위해 자연어 처리를 수행할 필요성을 줄이기 위함이다. 이 때 추출된 제목, 초록 및 질병 정보를 포함하는 요소 데이터는 CSV 형식일 것이다.

단계 330에서, 서버는 데이터베이스에서 사용자가 필요로 하는 제2 의료 문서를 검색하기 위하여 단계 320에서 설정된 요소 데이터를 딥러닝 학습하여 질병 정보 분류기 모델을 생성할 수 있다.

보다 구체적으로 설명하면, 서버는 제2 의료 문서를 검색하기 위하여 기존에 존재하는 제1 의료 문서를 질병 정보로 분류할 필요가 있다. 따라서 서버는 제1 의료 문서에 대한 의료 데이터를 질병 정보에 따라 자동으로 분류할 수 있는 질병 정보 분류기 모델을 생성할 수 있다. 서버는 질병 정보 분류기 모델을 기반으로, 의료 데이터의 제목 및 초록 정보를 기준으로 의료 데이터를 질병 정보에 따라 분류함으로써 의료 데이터에 대응하는 제1 의료 문서 또한 질병 정보로 분류할 수 있다.

이를 위해 서버는 TREC로부터 제공받은 의료 데이터에 대한 요소 데이터(제목, 초록 및 질병 정보)를 학습 데이터로 이용하여 딥러닝 모델로 학습함으로써 질병 정보 분류기 모델을 구축할 수 있다.

이후 TREC에 새로운 의료 문서가 입력되면 서버는 TREC로부터 입력된 의료 문서에 대응하는 의료 데이터를 수신하고, 수신된 의료 데이터에 질병 정보 분류기 모델을 적용함으로써, 입력된 의료 문서의 질병 정보를 판단하여 자동 분류할 수 있다.

본 발명의 일 실시 예에 의한 서버는 질병 정보 분류기 모델을 구축함에 있어서, 의료 데이터를 유방암, HIV, 흑색종, 전립선 암, 건강함(Healthy)의 총 5가지 질병에 따라 분류할 것이며, 질병의 종류는 사용자의 설정에 따라 변경될 수 있다.

서버는 질병 정보 분류기 모델을 구축하기 위하여 문맥을 반영한 워드 임베딩(Contextualized Word Embedding)을 사용할 수 있다. 문맥을 반영한 워드 임베딩은 단어를 저차원 공간에서 표현하는 기법으로, 같은 표기의 단어라도 문맥에 따라 다르게 워드 임베딩을 하는 것으로, 동일한 표기를 하는 단어에서 문맥에 따라 다른 벡터 값을 추출할 것이다. 따라서 서버는 문맥을 반영한 워드 임베딩을 이용하여 제1 의료 문서의 요소 데이터를 저차원 벡터로 표현하여 질병 정보 분류기 모델을 구축할 수 있다.

보다 구체적으로 서버는 질병 정보 분류기 모델을 구축하기 위하여 문맥을 반영한 워드 임베딩 중 BERT(Bidirectional Encoder Representations from Transformers) 모델을 이용할 수 있다. 서버는 요소 데이터에 BERT 모델을 적용하여 의료 데이터를 질병 정보에 따라 사전 분류할 수 있다. BERT 모델은 문장을 양방향으로 학습하는 NLP 모델로, 위키피디아의 25억 단어와 북스코퍼스 8억 단어를 이용하여 사전에 비지도 학습을 수행하고 학습된 모델에 본 발명의 문제를 위한 신경망 레이어를 붙여 추가로 파인 튜닝하여 구축된다. BERT 모델은 파인 튜닝 과정을 거침으로써 적은 양의 데이터에서도 높은 정확도를 나타내며, 특정 벡터에 주목하게 만들어 성능을 향상시키는 어텐션 기반 모델로 문장이 길어져도 성능이 떨어지지 않아 긴 문장에서도 정확도를 유지할 수 있다는 장점이 있다.

TREC로부터 제공받은 의료 데이터에 대한 딥러닝 학습을 모두 완료하면, 서버는 사용자로부터 의료 문서를 수신하거나 새로운 의료 문서가 TREC에 수신될 경우 해당 의료 문서에서 추출된 제목 및 초록에 질병 정보 분류기 모델을 적용하여 의료 문서에 대응하는 질병을 분류할 수 있게 된다. 즉, 서버는 상기 과정을 거침으로써 사용자에게 제2 의료 문서를 검색하여 제공할 수 있는 준비가 완료된 것이다.

다시 도 2에 대한 설명으로 복귀하면, 단계 200에서, 서버는 사용자 단말로부터 검색 토픽을 수신할 수 있다. 사용자는 질병, 유전자 및 환자 정보에 관련된 제2 의료 문서를 검색하기 위해 질병, 유전자 및 환자 정보를 포함하는 검색 토픽을 사용자 단말에 입력하여 서버에 전송할 수 있다. 서버는 사용자가 검색 토픽을 보다 용이하게 입력할 수 있도록, 사용자 단말에 검색 인터페이스를 표시할 수 있다. 이에 따라 사용자 단말은 질병, 유전자 및 환자 정보를 입력할 수 있는 텍스트 박스, 라디오 버튼, 체크 박스 등의 입력 위젯을 표시한 검색 인터페이스를 표시할 수 있다.

본 발명의 일 실시 예에 의한 검색 토픽은 도 5에 도시된 바와 같다. 도 5를 참조하면, 본 발병의 일 실시 예에 의한 검색 토픽은 <disease>질병 정보</disease>, <gene>유전자 정보</gene>, <demographic>환자 정보</demographic>과 같이 질병, 유전자 및 환자 정보를 태그 형식으로 표시할 수 있다.

본 발명의 다른 실시 예에 의하면, 서버는 사용자가 제2 의료 문서를 검색하고자 할 경우, 사용자 단말로부터 질병 정보 대신 제3 의료 문서를 수신할 수도 있다. 이를 위해 서버는 검색 인터페이스에 파일 업로드 영역을 더 표시할 수 있다. 서버는 검색 인터페이스에 파일 업로드 영역을 더 표시함에 있어서, 질병 정보에 대응하는 입력 위젯과 파일 업로드 영역 중 하나에서 사용자의 입력이 수신되면 다른 하나는 비활성화할 것이다. 이는 입력 위젯과 파일 업로드 영역이 동시에 사용될 경우 사용자가 입력한 질병 정보와 제3 의료 문서에서 판단된 질병 정보가 서로 상이하여 발생하는 충돌을 예방하기 위함이다.

서버는 사용자 단말로부터 제3 의료 문서를 수신하는 경우, 질병 정보 분류기 모델을 적용하여 제3 의료 문서의 질병 정보를 식별할 수 있다. 다시 말해, 서버는 제3 의료 문서에서 제목 및 초록 정보를 추출하고, 이에 질병 정보 분류기 모델을 적용하여 제3 의료 문서에 대응하는 질병 정보를 식별할 수 있다.

단계 300에서, 서버는 검색 토픽과 유사한 제2 의료 문서를 검색할 수 있다. 서버는 데이터베이스에 검색 토픽에 포함된 질병 정보와 동일한 질병 정보를 갖는 적어도 하나의 제2 의료 문서를 검색할 수 있다. 예를 들어, 검색 토픽에 포함된 질병 정보가 melanoma(흑색종)이면, 서버는 데이터베이스에 저장된 의료 문서 중 melanoma를 질병 정보로 하는 제2 의료 문서를 검색할 수 있다.

단계 400에서, 서버는 사용자 단말로부터 입력 받은 검색 토픽과 유사한 의료 문서를 제공하기 위하여, 검색 토픽과 제2 의료 문서의 유사도를 연산할 수 있다. 서버는 제2 의료 문서를 식별함에 있어서 질병 정보를 기준으로 하였기 때문에 유사도를 연산하기 위하여 유전자 및 환자 정보만을 이용할 수 있다.

도 6은 검색 토픽과 제2 의료 문서의 유사도를 연산하는 알고리즘을 나타낸 것이고, 도 7은 검색 토픽과 제2 의료 문서의 유사도를 연산하는 방법을 설명하기 위한 순서도이다. 서버가 검색 토픽과 제2 의료 문서의 유사도를 연산하는 방법에 대한 설명에 있어서 도 6 및 도 7을 참조할 수 있다.

검색 토픽과 제2 의료 문서의 유사도를 연산하는 방법을 보다 구체적으로 설명하면, 단계 710에서, 서버는 검색 토픽의 유전자 및 환자 정보를 이용하여 쿼리를 생성할 수 있다. 서버는 생성된 쿼리를 이용하여, 쿼리에 포함된 유전자 정보를 이용하여 제1 유사도를 연산하고, 유전자 및 환자 정보를 모두 포함하는 쿼리 자체를 이용하여 제2 유사도를 연산할 수 있다.

도 8은 본 발명의 일 실시 예에 의한 검색 토픽을 기반으로 생성된 쿼리를 설명하기 위한 도면으로, 도 8을 참조하면 서버는 검색 토픽의 유전자 및 환자 정보를 조합하여 쿼리를 생성할 수 있다. 예를 들어, 유전자 정보가 BRAF(K601E)이고 환자 정보가 38세 남성일 경우, 서버는 해당 검색 토픽을 이용하여 BRAF K601E in adult males의 쿼리를 생성할 수 있다. 이 때 환자 정보는 연령 및 성별을 포함하여, 서버는 연령 구간을 설정하여 연령에 따라 adult, middle adult, old adult 등으로 구분할 수 있다.

다시 도 7에 대한 설명으로 복귀하면, 단계 720에서, 서버는 쿼리의 유전자 정보를 이용하여 검색 토픽과 제2 의료 문서의 제1 유사도를 연산할 수 있다.

서버는 제1 유사도를 연산하기 위하여 스코어링 알고리즘을 사용할 수 있다. 본 발명의 일 실시 예에 의하면, 서버는 제1 유사도를 연산하기 위하여 검색 엔진, 추천 시스템 등에서 주로 사용되는 전통적인 스코어링 알고리즘인 BM25를 사용할 수 있다. BM25 알고리즘은 아래 수학식 1과 같은데, IDF(Inverse Document Frequency)는 문서에 자주 등장하는 단어일수록 낮은 가중치를 주는 것이며,

는 문서

에서 용어

의 빈도 수를,

는 용어

의 길이를, avgdl은 평균 필드의 길이를,

과 b는 자유 매개 변수를 의미한다.

일반적으로 문서에 많이 등장하면 유사도가 높다고 생각할 수 있으나, 문서에 많이 등장하는 형용사나 부사의 경우는 큰 의미를 가지지 않을 확률이 높기 때문에 자주 등장하는 단어일수록 낮은 가중치를 부여할 수 있다. 예를 들어, "~다", "~은/는/이/가"와 같은 단어는 모든 문서에서 공통적으로 사용되나 큰 의미를 갖지 않기 때문에 가중치가 낮게 평가될 수 있다.

서버는 BM25를 이용하여 제2 의료 문서의 제목 및 초록 정보에 쿼리의 유전자 정보가 얼마나 포함되어 있는 지를 판단하여 제1 유사도를 측정함으로써, 문헌 내에서 얼마나 희소하고 빈도가 높은 지를 확인할 수 있다.

단계 730에서, 서버는 유전자 및 환자 정보를 이용하여 검색 토픽과 제2 의료 문서의 제2 유사도를 연산할 수 있다.

서버는 제2 유사도를 연산하기 위하여, 앞서 질병 정보 분류기 모델을 생성하는 단계에서 사용한 문맥을 반영한 워드 임베딩(Contextualized Word Embedding)을 사용할 수 있다.

서버는 쿼리에 포함된 유전자 및 환자 정보를 이용하여 제2 의료 문서와의 제2 유사도를 연산할 수 있다. 서버는 제2 유사도를 연산하기 위하여 쿼리에 포함된 유전자 및 환자 정보와 제2 의료 문서의 제목 및 초록 정보를 벡터화 할 것이다. 서버는 벡터화 과정을 거침에 있어서 문맥을 반영한 워드 임베딩을 사용할 수 있으며, 따라서 벡터화 과정을 거친 정보는 저차원 공간의 벡터로 맵핑될 수 있다.

서버는 검색 토픽에서 추출한 쿼리와 제2 의료 문서의 제목 및 초록 정보를 벡터화 하면, 쿼리의 벡터 값, 제2 의료 문서의 제목 정보의 벡터 값, 그리고 제2 의료 문서의 제목 정보의 벡터 값의 최단 거리를 이용하여 제2 의료 문서의 제목 정보에 대한 유사도를 측정할 수 있다. 나아가 서버는 쿼리의 벡터 값, 초록 정보의 벡터 값, 그리고 초록 정보의 벡터 값의 최단 거리를 이용하여 제2 의료 문서의 초록 정보에 대한 유사도를 측정하여, 제목 정보에 대한 유사도와 초록 정보에 대한 유사도를 기반으로 제2 유사도를 연산할 수 있다.

단계 740에서, 서버는 제1 유사도 및 제2 유사도를 모두 연산하면, 제1 유사도와 제2 유사도를 더한 값을 검색 토픽과 제2 의료 문서의 유사도로 설정할 수 있다. 이와 같이 유전자 정보를 이용한 제1 유사도와 유전자 및 환자 정보를 이용한 제2 유사도를 분리하여 연산함으로써, 본 발명은 정밀 의료 검색의 핵심인 유전자 정보를 더 고려하여 의료 문서를 검색하기 때문에 사용자가 필요로 하는 의료 문서를 보다 정확하고 효율적으로 제공할 수 있다.

다시 도 2에 대한 설명으로 복귀하면, 단계 500에서, 서버는 적어도 하나의 제2 의료 문서 각각에 대하여 연산된 유사도를 기반으로 우선 순위를 결정할 수 있다. 서버는 유사도의 값이 가장 큰 제2 의료 문서가 가장 높은 우선 순위를 갖도록 우선 순위를 결정할 수 있다.

단계 600에서, 서버는 결정된 우선 순위에 따라 제2 의료 문서를 리스팅하여 사용자 단말에 제공할 것이다.

이하에서는 도 9를 이용하여, 본 발명의 일 실시 예에 의한 문맥적 관련성을 고려한 의료 문서 검색 장치를 설명한다. 문맥적 관련성을 고려한 의료 문서 검색 장치에 관한 설명에 있어서 전술한 문맥적 관련성을 고려한 의료 문서 검색 방법과 중복되는 세부 실시 예는 생략될 수 있다. 보다 구체적으로 설명하면 의료 문서 검색 장치는 의료 데이터 수신부(100), 분류기 모델 생성부(200), 토픽 수신부(300), 의료 문서 검색부(400), 유사도 연산부(500), 우선 순위 설정부(600), 그리고 출력부(700)를 포함할 수 있다.

의료 데이터 수신부(100)는 기존에 존재하는 적어도 하나 이상의 의료 데이터를 수신할 수 있다. 본 발명의 일 실시 예에 의한 서버는, 의료 문서를 검색함에 있어서 기준이 되는 질병 정보를 구분하기 위한 질병 정보 분류기 모델을 생성하기 위해 의료 데이터 수신부(100)를 통해 서의료 데이터를 수신할 수 있다.

의료 데이터문서 수신부(100)는 TREC에서 제공하는 약 24만개의 제1 의료 문서에 대한 의료 데이터를 수신할 수 있다. TREC에서 제공하는 의료 데이터는 XML 형식의 제목, 초록, 질병, 저자, 문서 번호, 출판 연도, 저널 이름 중 적어도 하나를 포함할 수 있다.

분류기 모델 생성부(200)는 의료 데이터 문서 수신부(100)에서 수신한 의료 데이터제1 의료 문서를 이용하여 질병 정보 분류기 모델을 생성할 수 있다. 분류기 모델 생성부(200)는 질병 정보 분류기 모델을 생성하기 위해 제1 의료 문서의료 데이터에서 제목, 초록 및 질병 정보를 추출하여 요소 데이터로 설정할 수 있다.

분류기 모델 생성부(200)는 요소 데이터를 학습 데이터로 이용하여 딥러닝 모델로 학습함으로써 의료 데이터를 질병 정보에 따라 자동으로 분류할 수 있는 질병 정보 분류기 모델을 생성할 수 있다. 분류기 모델 생성부(200)는 질병 정보 분류기 모델을 기반으로, 제목 및 초록 정보를 질병 정보에 따라 분류하여 의료 데이터 및 그에 대응하는 제1 의료 문서를 질병 정보에 따라 자동으로 분류할 수 있다. 분류기 모델 생성부(200)는 문맥을 반영한 워드 임베딩의 일종인 BERT 모델을 이용할 수 있다.

본 발명의 일 실시 예에 의하여, 질병 정보는 유방암, 건강함(Healthy), HIV, 흑색종, 그리고 전립선 암을 포함할 수 있으며, 이는 사용자의 설정에 따라 변경될 수 있다.

본 발명의 일 실시 예에 의한 서버는 질병 정보 분류기 모델이 구축되면, 이후 TREC에 새로운 의료 문서가 입력될 경우 새로운 의료 문서에 대응하는 의료 데이터를 수신하여 질병 정보 분류기 모델을 적용함으로써, 입력된 새로운 의료 문서의 질병 정보를 판단하여 자동으로 분류할 수 있다.

토픽 수신부(300)는 사용자 단말로부터 검색 토픽을 수신할 수 있다. 사용자는 질병, 유전자 및 환자 정보와 관련된 제2 의료 문서를 검색하기 위해, 사용자 단말을 통해 질병, 유전자 및 환자 정보를 포함하는 검색 토픽을 입력하여 서버에 전송할 수 있다.

도 5를 참조하면, 본 발병의 일 실시 예에 의한 검색 토픽은 <disease>질병 정보</disease>, <gene>유전자 정보</gene>, <demographic>환자 정보</demographic>과 같이 질병, 유전자 및 환자 정보를 태그 형식으로 표시할 수 있다.

의료 문서 검색부(400)는 토픽 수신부(300)에서 수신한 검색 토픽과 유사한 제2 의료 문서를 검색할 수 있다. 의료 문서 검색부(400)는 데이터베이스에서 검색 토픽에 포함된 질병 정보와 동일한 질병 정보를 갖는 적어도 하나의 제2 의료 문서를 검색할 수 있다.

유사도 연산부(500)는 사용자에게 검색 토픽과 유사한 의료 문서를 제공하기 위하여, 검색 토픽과 검색된 제2 의료 문서의 유사도를 연산할 수 있다. 유사도 연산부(500)는 검색 토픽에서 유전자 및 환자 정보를 추출하여 쿼리를 생성하고, 쿼리를 이용하여 유사도를 연산할 수 있다. 보다 구체적으로 유사도 연산부(500)는 제1 유사도 연산부(510)와 제2 유사도 연산부(530)를 포함할 수 있다.

제1 유사도 연산부(510)는 쿼리의 유전자 정보만을 이용하여 검색 토픽과 제2 의료 문서의 제1 유사도를 연산할 수 있다. 제1 유사도 연산부(510)는 제1 유사도를 연산하기 위하여 스코어링 알고리즘을 사용할 수 있다. 본 발명의 일 실시 예에 의하면, 제1 유사도 연산부(510)는 제1 유사도를 연산하기 위하여 검색 엔진, 추천 시스템 등에서 주로 사용되는 전통적인 스코어링 알고리즘인 BM25를 사용할 수 있다.

제1 유사도 연산부(510)는 BM25를 이용하여 제2 의료 문서의 제목 및 초록 정보에 쿼리의 유전자 정보가 얼마나 포함되어 있는 지를 판단하여 제1 유사도를 측정함으로써, 문헌 내에서서 유전자 정보가 얼마나 희소하고 빈도가 높은 지를 확인할 수 있다.

제2 유사도 연산부(530)는 쿼리의 유전자 및 환자 정보를 이용하여 검색 토픽과 제2 의료 문서의 제2 유사도를 연산할 수 있다. 제2 유사도 연산부(530)는 제2 유사도를 연산하기 위하여, 앞서 질병 정보 분류기 모델을 생성하는 단계에서 사용한 문맥을 반영한 워드 임베딩(Contextualized Word Embedding)을 사용할 수 있다.

제2 유사도 연산부(530)는 제2 유사도를 연산하기 위하여 쿼리에 포함된 유전자 및 환자 정보, 그리고 제2 의료 문서의 제목 및 초록 정보를 벡터화 할 것이다. 제2 유사도 연산부(530)는 벡터화 과정을 거침에 있어서 문맥을 반영한 워드 임베딩을 사용할 수 있으며, 따라서 벡터화 과정을 거친 정보는 저차원 공간의 벡터로 맵핑될 수 있다.

제2 유사도 연산부(530)는 검색 토픽에서 추출된 쿼리와 제2 의료 문서의 제목 및 초록 정보를 벡터화 하면, 쿼리의 벡터 값, 제목 정보의 벡터 값, 그리고 제목 정보의 벡터 값의 최단 거리를 이용하여 제2 의료 문서의 제목 정보에 대한 유사도를 측정할 수 있다.

나아가 제2 유사도 연산부(530)는 쿼리의 벡터 값, 초록 정보의 벡터 값, 그리고 초록 정보의 벡터 값의 최단 거리를 이용하여 제2 의료 문서의 초록 정보에 대한 유사도를 측정하여, 제목 정보에 대한 유사도와 초록 정보에 대한 유사도를 기반으로 제2 유사도를 연산할 수 있다.

유사도 연산부(500)는 제1 유사도 및 제2 유사도를 모두 연산하면, 제1 유사도와 제2 유사도를 더한 값을 검색 토픽과 제2 의료 문서의 유사도로 설정할 수 있다. 이와 같이 유전자 정보를 이용한 제1 유사도와 유전자 및 환자 정보를 이용한 제2 유사도를 분리하여 연산함으로써, 본 발명은 정밀 의료 검색의 핵심인 유전자 정보를 더 고려하여 의료 문서를 검색할 수 있게 되어, 사용자가 필요로 하는 의료 문서를 보다 정확하고 효율적으로 제공할 수 있다.

우선 순위 설정부(600)는 적어도 하나의 제2 의료 문서 각각에 대하여 연산된 유사도를 기반으로 우선 순위를 결정할 수 있다. 우선 순위 설정부(600)는 유사도의 값이 가장 큰 제2 의료 문서가 가장 높은 우선 순위를 갖도록 우선 순위를 결정할 수 있다.

출력부(700)는 결정된 우선 순위에 따라 제2 의료 문서를 리스팅하여 사용자 단말에 제공할 것이다.

본 명세서와 도면에 개시된 본 발명의 실시 예들은 본 발명의 기술 내용을 쉽게 설명하고 본 발명의 이해를 돕기 위해 특정 예를 제시한 것뿐이며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 자명한 것이다.

Claims

서버가 문맥적 관련성을 고려하여 의료 문서를 검색하는 방법에 있어서,
적어도 하나의 제1 의료 문서에 대응하는 의료 데이터를 이용하여 제목 및 초록과 질병 정보 간의 관계를 학습한 질병 정보 분류기 모델을 생성하고, 상기 의료 데이터 및 질병 정보 분류기 모델을 이용하여 상기 제1 의료 문서를 질병 정보에 따라 분류하는 a 단계;
사용자 단말로부터 질병, 유전자 및 환자 정보 중 적어도 하나를 포함하는 검색 토픽을 수신하는 b 단계;
상기 검색 토픽의 질병 정보를 기반으로 상기 검색 토픽과 유사한 제2 의료 문서를 검색하는 c 단계;
상기 제2 의료 문서에 상기 검색 토픽의 유전자 정보의 빈도 수를 기반으로 제1 유사도를 연산하고, 상기 제2 의료 문서와 상기 검색 토픽을 벡터화하여 제2 유사도를 연산하여, 상기 제1 및 제2 유사도를 기반으로 상기 검색 토픽과 상기 제2 의료 문서의 유사도를 연산하는 d 단계;
상기 유사도에 따라 상기 제2 의료 문서를 리스팅하여 제공하는 e 단계를 포함하는 문맥적 관련성을 고려한 의료 문서 검색 방법.
제1항에 있어서,
상기 a 단계는,
TREC에서 제1 의료 문서에 대응하는 의료 데이터를 수신하는 단계;
상기 의료 데이터에서 제목, 초록 또는 질병 정보 중 적어도 하나를 추출하여 요소 데이터로 설정하는 단계; 및
상기 요소 데이터를 이용하여 딥러닝 학습하여 질병 정보 분류기 모델을 생성하는 단계를 포함하는 문맥적 관련성을 고려한 의료 문서 검색 방법.
제2항에 있어서,
상기 질병 정보 분류기 모델은 상기 의료 데이터의 제목 및 초록 정보를 상기 질병 정보에 따라 분류하는 것을 특징으로 하는 문맥적 관련성을 고려한 의료 문서 검색 방법.
제1항에 있어서,
상기 c 단계는,
상기 제1 의료 문서가 저장된 데이터베이스에서
상기 검색 토픽의 질병 정보와 동일한 질병 정보를 갖는 제2 의료 문서를 검색하는 것을 특징으로 하는 문맥적 관련성을 고려한 의료 문서 검색 방법.
제1항에 있어서,
상기 d 단계는,
상기 유전자 정보에 스코어링 알고리즘을 적용하여 상기 검색 토픽과 상기 제2 의료 문서의 제1 유사도를 연산하는 단계;
상기 유전자 및 환자 정보에 문맥을 반영한 워드 임베딩을 적용하여 상기 검색 토픽과 상기 제2 의료 문서의 제2 유사도를 연산하는 단계; 및
상기 제1 및 제2 유사도를 더한 값을 상기 검색 토픽과 상기 제2 의료 문서의 유사도로 설정하는 단계를 포함하는 것을 특징으로 하는 문맥적 관련성을 고려한 의료 문서 검색 방법.
문맥적 관련성을 고려하여 의료 문서를 검색하는 장치에 있어서,
TREC에서 적어도 하나의 제1 의료 문서에 대응하는 의료 데이터를 수신하는 의료 데이터 수신부;
상기 의료 데이터를 이용하여 제목 및 초록과 질병 정보 간의 관계를 학습한 질병 정보 분류기 모델을 생성하고, 상기 의료 데이터 및 질병 정보 분류기 모델을 이용하여 상기 제1 의료 문서를 질병 정보에 따라 분류하는 분류기 모델 생성부;
사용자 단말로부터 질병, 유전자 및 환자 정보 중 적어도 하나를 포함하는 검색 토픽을 수신하는 토픽 수신부;
상기 질병 정보를 기반으로 상기 검색 토픽과 유사한 제2 의료 문서를 검색하는 의료 문서 검색부;
상기 제2 의료 문서에 상기 검색 토픽의 유전자 정보의 빈도 수를 기반으로 제1 유사도를 연산하고, 상기 제2 의료 문서와 상기 검색 토픽을 벡터화하여 제2 유사도를 연산하여, 상기 제1 및 제2 유사도를 기반으로 상기 검색 토픽과 상기 제2 의료 문서의 유사도를 연산하는 유사도 연산부; 및
상기 유사도에 따라 상기 제2 의료 문서를 리스팅하는 우선 순위 설정부를 포함하는 문맥적 관련성을 고려한 의료 문서 검색 장치.
제6항에 있어서,
상기 분류기 모델 생성기는,
TREC로부터 상기 제1 의료 문서에 대응하는 의료 데이터를 수신하여, 상기 의료 데이터에서 제목, 초록 또는 질병 정보 중 적어도 하나를 추출하여 요소 데이터로 설정하고, 상기 요소 데이터를 이용하여 딥러닝 학습하여 질병 정보 분류기 모델을 생성하는 것을 특징으로 하는 문맥적 관련성을 고려한 의료 문서 검색 장치.
제7항에 있어서,
상기 질병 정보 분류기 모델은 상기 의료 데이터의 제목 및 초록 정보를 상기 질병 정보에 따라 분류하는 것을 특징으로 하는 문맥적 관련성을 고려한 의료 문서 검색 장치.
제6항에 있어서,
상기 의료 문서 검색부는,
상기 제1 의료 문서가 저장된 데이터베이스에서 상기 검색 토픽의 질병 정보와 동일한 질병 정보를 갖는 제2 의료 문서를 검색하는 것을 특징으로 하는 문맥적 관련성을 고려한 의료 문서 검색 장치.
제6항에 있어서,
상기 유사도 연산부는,
상기 유전자 정보에 스코어링 알고리즘을 적용하여 상기 검색 토픽과 상기 제2 의료 문서의 제1 유사도를 연산하는 제1 유사도 연산부; 및
상기 유전자 및 환자 정보에 문맥을 반영한 워드 임베딩을 적용하여 상기 검색 토픽과 상기 제2 의료 문서의 제2 유사도를 연산하는 제2 유사도 연산부를 더 포함하여,
상기 제1 및 제2 유사도가 연산되면, 상기 제1 및 제2 유사도를 더한 값을 상기 검색 토픽과 상기 제2 의료 문서의 유사도로 설정하는 것을 특징으로 하는 문맥적 관련성을 고려한 의료 문서 검색 장치.