KR20190119275A - 의료 도메인 지식 구조 및 검색 의도를 고려한 질의 확장 기법 - Google Patents

의료 도메인 지식 구조 및 검색 의도를 고려한 질의 확장 기법 Download PDF

Info

Publication number
KR20190119275A
KR20190119275A KR1020180042505A KR20180042505A KR20190119275A KR 20190119275 A KR20190119275 A KR 20190119275A KR 1020180042505 A KR1020180042505 A KR 1020180042505A KR 20180042505 A KR20180042505 A KR 20180042505A KR 20190119275 A KR20190119275 A KR 20190119275A
Authority
KR
South Korea
Prior art keywords
medical domain
query
words
query expansion
word
Prior art date
Application number
KR1020180042505A
Other languages
English (en)
Inventor
맹성현
장경록
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020180042505A priority Critical patent/KR20190119275A/ko
Publication of KR20190119275A publication Critical patent/KR20190119275A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 의료 도메인에 특화된 질의 확장 기술(query expansion)에 관한 것이다. 질의 확장 기술은 사용자가 검색 시스템에서 질의어를 입력할 시, 직접 입력한 질의어에 추가적으로 연관된 질의어를 자동으로 추가하여 검색함으로써 검색 품질을 높이고자 하는 기법이다. 의료 도메인에서 사용자는 자신이 겪고 있는 증상의 원인과 설명, 그리고 치료법에 대해 검색하고자 하는 경우가 많은데, 일반적인 질의 확장에서와 같이 유사어나 단어 간 통계적 공기정보(co-occurrence)를 그대로 사용할 경우, 도메인 특성이나 사용자 의도와는 상관 없지만 단순히 원본 질의어와 비슷하거나 자주 함께 등장하는 질의어를 추가할 가능성이 있다. 가령 "손가락 통증"이라는 질의어에 "발가락"을 추가하는 식으로 오작동할 가능성이 있다는 것이다.
본 발명은 "의료 도메인 지식 구조를 고려한 지식 유형별 공기정보 계산 기법"을 활용하여 의료 도메인 질의 확장 결과물의 품질 향상을 도모하고자 한다. 가령 사용자가 "손가락 통증"을 검색 했다면, 추가할 질의어의 유형을 "부상"등 원본 질의의 의도와 부합하도록 그것과 관련된 증상, 원인, 그리고 치료법과 관련된 것으로 한정하는 것이다.
본 발명을 구현하기 위한 핵심 기술인 "지식 유형별 공기정보 계산에는 1)질의어 유형 자동 분류, 2)질의어 유형 사전 자동 확장이 수반되는데, 이를 위해선 종래기술 및 기 구축된 의료 도메인 사전 및 단어 임베딩 등의 기계학습 기법을 적극 활용한다.

Description

의료 도메인 지식 구조 및 검색 의도를 고려한 질의 확장 기법{MEDICAL DOMAIN OPTIMIZED QUERY EXPANSION}
아래의 설명은 의료 도메인 지식 구조 및 검색 의도를 고려한 질의 확장 기술에 관한 것이다.
질의 확장 기술은 사용자가 입력한 원본 질의어에 새로운 단어를 자동으로 추가하여 검색하는 것을 통해 사용자에게 반환되는 적합한 정보의 양을 늘리고자 하는 목표로 한다. 자동으로 추가할 단어를 선택하는데는 단어간 공기정보(co-occurrence), 즉, 원본 질의어와 통계적으로 자주 함께 등장한 정도를 활용하는데, 이 방식으로 선택된 단어가 사용자 의도에 항상 부합한다는 보장은 없다는 점이 한계점이다. 사용자 의도에 맞지 않게 추가된 질의 확장 단어는 "의미 표류(semantic drift)"문제를 야기할 수 있으며, 학계에서는 이 문제를 해결하기 위한 연구가 활발히 진행되고 있는 상황이다.
참고자료: Kuzi,Saar, et al. "Query Expansion for Email Search." Proceedings of the 40th International ACM SIGIR Conference on Research and Development in Information Retrieval.ACM, 2017.
질의 확장 기술은 범용적인 검색 엔진 및 도메인 검색 엔진에 적용되는 것이 일반적이다. 도메인 검색 엔진에 적용 시, 도메인 지식 구조나 해당 도메인에서의 일반적인 검색 시나리오를 고려하는 것이 질의 확장 성능을 개선하는데 도움이 된다. 본 발명은 의료 도메인 검색에 특화된 질의 확장 기술을 제시하고 있다.
본 연구의 초점은 의료 도메인에서의 검색이지만, 도메인 지식 구조와 해당 도메인에서의 일반적인 검색 시나리오를 고려할 수 있는 모든 도메인에 응용 가능하다.
본 발명은 사용자에게 유용한 의료 정보를 정확하고 풍부하게 가져오는데 기여할 수 있다.
도 1은 본 발명의 일 실시예에 따른 의료 도메인 지식 구조 및 검색 의도를 고려한 질의 확장 기법을 설명하기 위한 개념도이다.
이하, 실시예를 첨부한 도면을 참조하여 상세히 설명한다.
본 발명은 의료 도메인에 특화된 질의 확장 기술(query expansion)에 관한 것이다. 질의 확장 기술은 사용자가 검색 시스템에서 질의어를 입력할 시, 직접 입력한 질의어에 추가적으로 연관된 질의어를 자동으로 추가하여 검색함으로써 검색 품질을 높이고자 하는 기법이다. 의료 도메인에서 사용자는 자신이 겪고 있는 증상의 원인과 설명, 그리고 치료법에 대해 검색하고자 하는 경우가 많은데, 일반적인 질의 확장에서와 같이 유사어나 단어 간 통계적 공기정보(co-occurrence)를 그대로 사용할 경우, 도메인 특성이나 사용자 의도와는 상관 없지만 단순히 원본 질의어와 비슷하거나 자주 함께 등장하는 질의어를 추가할 가능성이 있다. 가령 "손가락 통증"이라는 질의어에 "발가락"을 추가하는 식으로 오작동할 가능성이 있다는 것이다.
본 발명은 "의료 도메인 지식 구조를 고려한 지식 유형별 공기정보 계산 기법"을 활용하여 의료 도메인 질의 확장 결과물의 품질 향상을 도모하고자 한다. 가령 사용자가 "손가락 통증"을 검색 했다면, 추가할 질의어의 유형을 "부상"등 원본 질의의 의도와 부합하도록 그것과 관련된 증상, 원인, 그리고 치료법과 관련된 것으로 한정하는 것이다.
본 발명을 구현하기 위한 핵심 기술인 "지식 유형별 공기정보 계산에는 1)질의어 유형 자동 분류, 2)질의어 유형 사전 자동 확장이 수반되는데, 이를 위해선 종래기술 및 기 구축된 의료 도메인 사전 및 단어 임베딩 등의 기계학습 기법을 적극 활용한다.
질의 확장 기술은 범용적인 검색 엔진 및 도메인 검색 엔진에 적용되는 것이 일반적이다. 도메인 검색 엔진에 적용 시, 도메인 지식 구조나 해당 도메인에서의 일반적인 검색 시나리오를 고려하는 것이 질의 확장 성능을 개선하는데 도움이 된다. 본 발명은 의료 도메인 검색에 특화된 질의 확장 기술을 제시하고 있다.
본 연구의 초점은 의료 도메인에서의 검색이지만, 도메인 지식 구조와 해당 도메인에서의 일반적인 검색 시나리오를 고려할 수 있는 모든 도메인에 응용 가능하다.
종래기술은 이메일 검색을 위한 질의어 확장을 특정 개인이 생성한 데이터에 기반하는 걸 통해 질의 확장의 "개인화"를 구현하고자 하였다. 하지만, 본 발명은 의료 도메인에서의 유용한 질의 확장을 하기 위해선 "도메인 지식 구조" 및 "사용자 의도"를 고려해야 한다는 전제 하에, 이를 고려한 질의 확장 기법을 제안하였다. 종래기술과는 다른 요소를 고려한다는 차별점이 있다.
일반적인 질의어 확장 기술과 마찬가지로 원본 질의어와 통계적으로 자주 등장하는 다른 단어를 추가하는 걸 기본으로 하되, 의료 도메인 상에서의 지식 유형(예: 증상, 치료법)별 단어 공기정보를 따로 계산하고 그에 기반하여 보다 정밀하며 일반적인 검색 시나리오에 적합한 질의어 확장을 수행한다.
본 발명은 사용자에게 유용한 의료 정보를 정확하고 풍부하게 가져오는데 기여할 수 있따.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.
그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims (1)

  1. 의료 도메인 지식 유형별 질의어 확장 단어 사전을 말뭉치로부터 반자동으로 구축하는 단계;
    의료 도메인 질의어와 단어 간 공기정보를 의료 도메인 지식 유형별로 분류하여 계산하는 단계;
    의료 도메인 질의를 도메인에서의 일반적인 검색 시나리오에서 좋은 성능을 발휘하도록 "병명", "증상", "원인", "치료법" 유형의 단어로 균형있게 확장하는 단계; 및
    상기 확장된 단어 간의 연관성(공기정보)를 고려하여 확장 단어를 필터링하는 단계
    를 포함하는 질의 확장 방법.
KR1020180042505A 2018-04-12 2018-04-12 의료 도메인 지식 구조 및 검색 의도를 고려한 질의 확장 기법 KR20190119275A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180042505A KR20190119275A (ko) 2018-04-12 2018-04-12 의료 도메인 지식 구조 및 검색 의도를 고려한 질의 확장 기법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180042505A KR20190119275A (ko) 2018-04-12 2018-04-12 의료 도메인 지식 구조 및 검색 의도를 고려한 질의 확장 기법

Publications (1)

Publication Number Publication Date
KR20190119275A true KR20190119275A (ko) 2019-10-22

Family

ID=68420163

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180042505A KR20190119275A (ko) 2018-04-12 2018-04-12 의료 도메인 지식 구조 및 검색 의도를 고려한 질의 확장 기법

Country Status (1)

Country Link
KR (1) KR20190119275A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111986761A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 多维度并发症信息抽取方法、装置、电子设备及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111986761A (zh) * 2020-09-03 2020-11-24 平安国际智慧城市科技股份有限公司 多维度并发症信息抽取方法、装置、电子设备及介质

Similar Documents

Publication Publication Date Title
AU2017208219B2 (en) Generating a domain ontology using word embeddings
US11321371B2 (en) Query expansion using a graph of question and answer vocabulary
US9805120B2 (en) Query selection and results merging
US8868526B2 (en) Parallel segmented index supporting incremental document and term indexing
JP5616444B2 (ja) 文書インデックス化およびデータクエリングのための方法およびシステム
US9734238B2 (en) Context based passage retreival and scoring in a question answering system
US11232267B2 (en) Proximity information retrieval boost method for medical knowledge question answering systems
US11468050B2 (en) Learning user synonyms from sequenced query sessions
US10832145B2 (en) Techniques for resolving entities in received questions
KR102059743B1 (ko) 딥러닝 기반의 지식 구조 생성 방법을 활용한 의료 문헌 구절 검색 방법 및 시스템
Xue et al. Modeling reformulation using query distributions
US20140258205A1 (en) Inner passage relevancy layer for large intake cases in a deep question answering system
WO2021010203A1 (ja) 推論器、推論方法および推論プログラム
US10216721B2 (en) Specialized language identification
KR20200025779A (ko) 문장 매핑 방법 및 장치
KR20190119275A (ko) 의료 도메인 지식 구조 및 검색 의도를 고려한 질의 확장 기법
KR101656077B1 (ko) 암시적 타임 칼럼값을 이용한 시간 기반 파티셔닝 시스템 및 방법
CN114328905A (zh) 搜索提示方法、装置、计算机设备和存储介质
JP5951729B2 (ja) リアルタイム検索実現方法およびそのシステム
US10311087B1 (en) Systems and methods for determining topics of data artifacts
Pino et al. Simple and efficient model filtering in statistical machine translation
US11520929B2 (en) Methods and systems for securely storing unstructured data in a storage system
KR102346244B1 (ko) 신경망 기반 자동 슬롯 채우기 기술 및 장치
JP7396190B2 (ja) 抽出プログラム、抽出方法及び抽出装置
KR20220109952A (ko) 인공지능 기반의 문장 검색 방법 및 시스템