KR102170206B1

KR102170206B1 - 키워드와 관계 정보를 이용한 정보 검색 시스템 및 방법

Info

Publication number: KR102170206B1
Application number: KR1020180170165A
Authority: KR
Inventors: 이신혁; 현우진; 전수호; 박수정
Original assignee: 에스케이 주식회사
Priority date: 2018-12-27
Filing date: 2018-12-27
Publication date: 2020-10-26
Also published as: KR20200080571A

Abstract

여러 문서에서 키워드와 키워드 간의 관계 정보를 추출하고, 특정 검색어의 연관 키워드 및 관계 정보를 추출하는 정보 검색 시스템 및 방법이 제공된다. 본 발명의 실시예에 따른 키워드와 관계 정보를 이용한 정보 검색 방법은 기설정된 기준 정보에 따라 작성된 학습 데이터를 기반으로 특정 키워드의 연관 키워드와 관계 정보를 추출하는 어노테이션(annotation) 모델을 생성하는 단계; 및 어노테이션 모델을 활용하여 문서에 포함된 비정형 텍스트들의 연관 키워드와 관계 정보를 추출하여 데이터베이스를 구축하는 단계;를 포함한다. 이에 의해, 사용자는 기존의 키워드 기반 검색보다, 더 관련성이 높은 검색 결과를 빠르고 정확하게 얻을 수 있으며, 사용자가 입력한 키워드를 단순 매칭 서비스 수준이 아닌 문맥을 읽는 것과 같은 수준의 관련성 높은 자료 검색이 가능할 수 있다. 또한, 검색된 결과 정보를 이용하여 사용자가 연관 키워드 간의 관계 정보를 직관적으로 파악할 수 있다.

Description

키워드와 관계 정보를 이용한 정보 검색 시스템 및 방법{Information Search System and Method using keyword and relation information}

본 발명은 정보 검색 시스템 및 방법에 관한 것으로, 더욱 상세하게는 여러 문서에서 키워드와 키워드 간의 관계 정보를 추출하고, 특정 검색어의 연관 키워드 및 관계 정보를 추출하는 정보 검색 시스템 및 방법에 관한 것이다.

문서 검색을 위한 일반적인 검색 시스템은 많은 정보 중에서 사용자가 입력한 검색어(키워드)가 포함된 결과를 찾는 것이며, 문맥상에 포함된 키워드 간 관계 요소까지 포함해 검색하는 데는 한계가 있다.

또한, 과거의 검색 시스템에서는 수많은 정보 중에서 가장 일치하는 정보를 찾아내는 것이 가장 중요했다. 그러나 다양한 사람들이 정보를 생산함과 동시에 생산된 정보를 소비하는 현재의 검색 시스템은 단순히 저장된 데이터에서 일치하는 정보를 찾아내는 것이 아니라, 정보 간의 관계 정보까지 추출하고, 가공하여 사용자에게 적합한 정보를 제공하는 것이 요구된다.

그리나 정보량 증가 및 정보의 다양성으로 인해 관계 정보까지 추출하는 검색을 위해서는 많은 검색어, 검색어의 조합을 입력해야 하며, 결과 내 재검색 등으로 인해 많은 시간과 노력이 소요되는 문제점이 존재한다.

본 발명은 상기와 같은 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 분야별 많은 문서를 바탕으로 키워드와 키워드 간 관계 정보를 문맥을 기반으로 정의하고, 이를 데이터베이스로 구축하여, 사용자가 기존 방식대로 검색어를 입력하면, 검색 시스템은 입력된 검색어에서 연관 키워드와 관계 정보를 추출하고, 이를 바탕으로 문서를 검색할 수 있는 키워드와 관계 정보를 이용한 정보 검색 시스템 및 방법을 제공함에 있다.

상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 키워드와 관계 정보를 이용한 정보 검색 방법은 기설정된 기준 정보에 따라 작성된 학습 데이터를 기반으로 특정 키워드의 연관 키워드와 관계 정보를 추출하는 어노테이션(annotation) 모델을 생성하는 단계; 및 어노테이션 모델을 활용하여 문서에 포함된 비정형 텍스트들의 연관 키워드와 관계 정보를 추출하여 데이터베이스를 구축하는 단계;를 포함한다.

또한, 본 발명의 일 실시예에 따른 키워드와 관계 정보를 이용한 정보 검색 방법은 구축된 데이터베이스에서 입력된 검색어의 연관 키워드와 관계 정보를 추출하는 단계;를 더 포함할 수 있다.

그리고 연관 키워드와 관계 정보를 추출하는 단계는, 복수의 연관 키워드 간의 상관성을 산출하되, 복수의 연관 키워드가 함께 추출되는 비율이 높을수록, 상관성 값이 큰 값으로 산출될 수 있다.

또한, 본 발명의 일 실시예에 따른 키워드와 관계 정보를 이용한 정보 검색 방법은 추출된 연관 키워드가 네트워크 다이어그램(network diagram)방식으로 시각화되는 단계;를 더 포함할 수 있다.

그리고 학습 데이터는, 특정 분야의 논문에 포함된 비정형 텍스트들을 추출하여, 분야별로 설정된 기준 정보에 따라 임의의 가중치를 갖는 정형 데이터로 가공처리하고, 가공처리된 정형 데이터의 연관 키워드와 관계 정보를 추출하는 기계학습에 사용될 연관 키워드 샘플과 관계 정보 샘플이 포함될 수 있다.

또한, 기준 정보는, 의약 분야의 논문에 포함된 치료 약물에 관련된 비정형 텍스트들을 추출하는데 이용되는 제1 딕셔너리(dictionary)와 추출된 비정형 텍스트들에 약리 작용효능 또는 약리 부작용과 관련하여 임의의 가중치를 부여하는데 이용되는 제1 룩업 테이블이 포함될 수 있다.

그리고 어노테이션 모델은, 의약 분야의 논문에 포함된 비정형 텍스트들이, 형태소 단위로 분할되어 명사인 형태소가 선별되도록 하고, 제1 딕션너리를 기반으로 선별된 형태소 중 의약 분야와 무관한 불용어가 제거되어 치료 약물에 관련된 제1 정형 데이터가 추출되도록 할 수 있다.

또한, 어노테이션 모델은, 추출된 제1 정형 데이터가 포함된 문장을 구성하는 형태소 중 추출된 비정형 텍스트와 연결된 부사, 형용사, 동사 또는 명사형 전성 어미인 형태소가 함께 고려되어, 치료 약물과의 관련성이 재차 검증되도록 할 수 있다.

그리고 어노테이션 모델은, 추출된 제1 정형 데이터 중 약리 작용효능 또는 약리 부작용과 연관된 제2 정형 데이터가 선별되도록 하고, 제1 룩업 테이블을 활용하여 선별된 제2 정형 데이터에 의약 분야의 논문에 포함된 빈도에 따라 가중치가 부여되도록 할 수 있다.

또한, 기준 정보는, 의약 분야의 논문에 포함된 질병, 병원균에 관련된 비정형 텍스트들을 추출하는데 이용되는 제2 딕셔너리(dictionary)와 추출된 비정형 텍스트들에 치료법 또는 치료 약물과 관련하여 임의의 가중치를 부여하는데 이용되는 제2 룩업 테이블이 포함될 수 있다.

한편, 본 발명의 다른 실시예에 따른, 키워드와 관계 정보를 이용한 정보 검색 시스템은 기설정된 기준 정보에 따라 작성된 학습 데이터를 기반으로 특정 키워드의 연관 키워드와 관계 정보를 추출하는 어노테이션(annotation) 모델을 생성하고, 생성된 어노테이션 모델을 활용하여 문서에 포함된 비정형 텍스트들의 연관 키워드와 관계 정보를 추출하는 프로세서; 및 추출된 연관 키워드와 관계 정보에 대한 데이터베이스를 저장하는 저장부;를 포함한다.

한편, 본 발명의 다른 실시예에 따른, 키워드와 관계 정보를 이용한 정보 검색 방법은 기설정된 기준 정보에 적합한 어노테이션 모델을 선택하는 단계; 및 선택된 어노테이션 모델을 활용하여 문서에 포함된 비정형 텍스트들의 연관 키워드와 관계 정보를 추출하여 데이터베이스를 구축하는 단계;를 포함한다.

한편, 본 발명의 다른 실시예에 따른, 키워드와 관계 정보를 이용한 정보 검색 서버는 기설정된 기준 정보에 적합한 어노테이션 모델을 선택하고, 선택된 어노테이션 모델을 활용하여 문서에 포함된 비정형 텍스트들의 연관 키워드와 관계 정보를 추출하는 프로세서; 및 추출된 비정형 텍스트들의 연관 키워드와 관계 정보에 대한 데이터베이스를 저장하는 저장부;를 포함한다.

이상 설명한 바와 같이, 본 발명의 실시예들에 따르면, 사용자는 기존의 키워드 기반 검색보다, 더 관련성이 높은 검색 결과를 빠르고 정확하게 얻을 수 있으며, 사용자가 입력한 키워드를 단순 매칭 서비스 수준이 아닌 문맥을 읽는 것과 같은 수준의 관련성 높은 자료 검색이 가능할 수 있다. 또한, 검색된 결과 정보를 이용하여 사용자가 연관 키워드 간의 관계 정보를 직관적으로 파악할 수 있다.

도 1은 본 발명의 일 실시예에 따른 키워드와 관계 정보를 이용한 정보 검색 시스템을 설명하기 위해 제공된 도면,
도 2는 본 발명의 일 실시예에 따른 어노테이션(annotation) 모델 생성 과정을 설명하기 위해 제공된 도면,
도 3은 본 발명의 일 실시예에 따른 키워드와 관계 정보를 추출하는 데이터베이스 구축 과정을 설명하기 위해 제공된 흐름도,
도 4는 특정 키워드에 대한, 키워드 검색의 검색결과가 예시된 도면,
도 5는 특정 키워드에 대한, 다면 검색(facet search)의 검색결과로 추출된 연관 키워드와 관계 정보가 네트워크 다이어그램으로 시각화된 모습이 예시된 도면,
도 6은 특정 키워드에 대한, 상관 분석(correlation analysis)의 검색결과가 예시된 도면,
도 7은 도 1에 도시된 정보처리 단말의 상세 블록도,
도 8은 도 1에 도시된 정보 검색 서버의 상세 블록도, 그리고
도 9는 본 발명의 다른 실시예에 따른 키워드와 관계 정보를 추출하는 데이터베이스 구축 과정을 설명하기 위해 제공된 흐름도이다.

이하에서는 도면을 참조하여 본 발명을 보다 상세하게 설명한다.

1. 키워드와 관계 정보를 이용한 정보 검색 시스템

본 발명의 실시예에서는 키워드와 관계 정보를 이용한 정보 검색 시스템과 방법을 제시한다.

도 1은 본 발명의 일 실시예에 따른 키워드와 관계 정보를 이용한 정보 검색 시스템을 설명하기 위해 제공된 도면이다. 본 발명의 일 실시예에 따른 키워드와 관계 정보를 이용한 정보 검색 시스템은, 분야별 많은 문서를 바탕으로 키워드와 키워드 간 관계 정보를 문맥을 기반으로 정의하고, 이를 데이터베이스로 구축하여, 사용자가 기존 방식대로 검색어를 입력하면, 검색 시스템은 입력된 검색어에서 연관 키워드 및 검색어와 연관 키워드 간의 관계 정보 또는 연관 키워드 간의 관계 정보를 추출하고, 이를 바탕으로 문서를 검색할 수 있는 정보 검색 시스템이다.

이를 위하여, 본 발명의 일 실시예에 따른 키워드와 관계 정보를 이용한 정보 검색 시스템은, 도 1에 도시된 바와 같이 정보처리 단말(100)과 정보 검색 서버(200)를 포함한다.

정보처리 단말(100)은 정보 검색 서버(200)가 제공하는 애플리케이션 또는 웹페이지에 접속하여 정보 검색 서버(200)에 분야별 문서를 제공하거나 정보 검색 서비스를 이용할 수 있다.

2. 어노테이션 모델 생성

도 2는 본 발명의 일 실시예에 따른 키워드와 관계 정보를 이용한 정보 검색 방법을 설명하기 위해 제공된 도면이다. 본 발명의 일 실시예에 따른 키워드와 관계 정보를 이용한 정보 검색 방법은 기계학습을 위해 작성된 학습 데이터를 이용하여, 사용자에게 키워드 검색 서비스를 제공하되, 특정 키워드와 일치하는 정보들을 추출하는 것에 그치지 않고, 특정 키워드의 연관 키워드 그리고 키워드와 키워드 간 관계 정보까지 제공할 수 있다.

이를 위해, 본 발명의 일 실시예에 따른 키워드와 관계 정보를 이용한 정보 검색 방법은 정보 검색 서버(200) 또는 별도로 마련되는 어노테이션 모델 생성 서버(미도시)를 통해, 기설정된 기준 정보에 따라 작성된 학습 데이터를 기반으로 특정 키워드의 연관 키워드와 관계 정보를 추출하는 어노테이션(annotation) 모델을 생성할 수 있으며(S210), 정보 검색 서버(200)가 정보처리 단말(100) 또는 별도로 마련되는 문서 수집 수단(미도시)을 통해, 다양한 종류의 문서 수집을 수행(crawling)하여(S220), 어노테이션 모델을 활용하여 문서에 포함된 비정형 텍스트들의 연관 키워드와 관계 정보를 추출하여 데이터베이스를 구축하게 된다(S230).

여기서, 어노테이션 모델은 특정 분야의 논문에 포함된 비정형 텍스트들을 추출하여, 분야별로 설정된 기준 정보에 따라 임의의 가중치를 갖는 정형 데이터로 가공처리하고, 가공처리된 정형 데이터의 연관 키워드와 관계 정보를 추출하는 기계학습에 사용될 연관 키워드 샘플과 관계 정보 샘플이 포함되는 학습 데이터를 이용하여, 기계학습을 수행함으로써, 기설정된 기준 정보에 따라 특정 키워드의 연관 키워드와 관계 정보를 추출할 수 있다.

3. 데이터베이스 구축

정보 검색 서버(200)가 분야별 데이터베이스를 구축하는 과정은 기준 정보에 따라 다양한 알고리즘이 적용된 어노테이션 모델이 생성될 수 있으며, 이하에서는 설명의 편의를 위하여, 의약 분야의 논문에 포함된 치료 약물에 관련된 키워드의 연관 키워드 및 관계 정보를 추출할 수 있는 어노테이션 모델에 대하여 설명하기로 한다.

도 3은 본 발명의 일 실시예에 따른 키워드와 관계 정보를 추출하는 데이터베이스 구축 과정을 설명하기 위해 제공된 흐름도이다. 도 3을 참조하면, 본 발명의 일 실시예에 따른 정보 검색 서버(200)가 키워드와 관계 정보를 이용한 정보 검색 방법을 제공하기 위해, 데이터베이스를 구축하는 과정을 설명하면, 기준 정보가 설정되면(S310), 기설정된 기준 정보에 따라 작성된 학습 데이터를 기반으로 특정 키워드의 연관 키워드와 관계 정보를 추출하는 어노테이션 모델을 생성하고(S320), 정보처리 단말(100) 또는 별도로 마련되는 문서 수집 수단들을 통해, 다양한 종류의 문서를 수집하면, 어노테이션 모델을 활용하여 문서에 포함된 비정형 텍스트들을 추출할 수 있다.

이때, 학습 데이터는, 특정 분야의 논문에 포함된 비정형 텍스트들을 추출하여(S330), 분야별로 설정된 기준 정보에 따라 임의의 가중치를 갖는 정형 데이터로 가공처리하고, 가공처리된 정형 데이터의 연관 키워드와 관계 정보를 추출하는 기계학습에 사용될 연관 키워드 샘플과 관계 정보 샘플이 포함되어, 정보 검색 서버(200)가 특정 키워드의 연관 키워드와 관계 정보를 추출하는 어노테이션 모델을 생성하도록 할 수 있다.

구체적으로 예를 들면, 정보 검색 서버(200)에 설정되는 기준 정보는 어노테이션 모델을 활용하여, 치료 약물에 관련된 키워드의 연관 키워드 및 관계 정보를 추출하게 하기 위해, 의약 분야의 논문에 포함된 치료 약물에 관련된 비정형 텍스트들을 추출하는데 이용되는 제1 딕셔너리(dictionary)와 추출된 비정형 텍스트들에 약리 작용효능 또는 약리 부작용과 관련하여 임의의 가중치를 부여하는데 이용되는 제1 룩업 테이블이 포함되거나 또는 의약 분야의 논문에 포함된 질병, 병원균에 관련된 비정형 텍스트들을 추출하는데 이용되는 제2 딕셔너리(dictionary)와 추출된 비정형 텍스트들에 치료법 또는 치료 약물과 관련하여 임의의 가중치를 부여하는데 이용되는 제2 룩업 테이블이 포함될 수 있다.

즉, 정보 검색 서버(200)는 치료 약물에 관련된 키워드의 연관 키워드 및 관계 정보를 추출하게 하기 위한 기준 정보가 설정되면(S310), 설정된 기준 정보에 따라 특정 키워드의 연관 키워드와 관계 정보를 추출하는 어노테이션 모델을 생성하고(S320), 의약 분야의 논문에 포함된 치료 약물에 관련된 비정형 텍스트들을 추출하여(S330), 추출된 비정형 텍스트들을 형태소 단위로 분할할 수 있다(S340).

그리고 정보 검색 서버(200)는 각각의 형태소들의 품사를 분석하여 명사인 형태소를 선별한 이후(S350), 기준 정보에 포함된 제1 딕션너리를 기반으로 선별된 형태소 중 의약 분야와 무관한 불용어를 제거하여 치료 약물에 관련된 제1 정형 데이터를 추출할 수 있다(S360).

또한, 정보 검색 서버(200)는 제1 정형 데이터가 추출되면, 제1 정형 데이터가 포함된 문장을 구성하는 다른 형태소들을 이용하여 해당 분야와 제1 정형 데이터 간의 상관성을 재차 검증할 수 있다(S370).

즉, 정보 검색 서버(200)는 어노테이션 모델을 이용하여, 추출된 제1 정형 데이터가 포함된 문장을 구성하는 형태소 중 추출된 비정형 텍스트와 연결된 부사, 형용사, 동사 또는 명사형 전성 어미인 형태소가 함께 고려되어, 치료 약물과의 관련성이 재차 검증되도록 할 수 있다.

그리고 정보 검색 서버(200)는, 추출된 제1 정형 데이터 중 치료 약물과의 관련성이 재차 검증된 데이터들은 특정 키워드와 연관된 제2 정형 데이터를 선별하되(S380), 특정 키워드와 긍정적인 관계에 해당하는 약리 작용효능에 관련된 데이터와 특정 키워드와 부정적인 관계에 해당하는 약리 부작용과 관련된 데이터로 분류하여(S385), 각각 긍정적인 제2 정형 데이터와 부정적인 제2 정형 데이터로 선별되도록 하고, 제1 룩업 테이블을 활용하여 선별된 제2 정형 데이터에 의약 분야의 논문에 포함된 빈도에 따라 가중치를 부여할 수 있다(S390).

이때, 가중치는 검색 결과가 출력되는 경우, 가중치가 높은 제2 정형 데이터가 상단에 배치되도록 하거나 또는 시각화 단계에서 크기, 색상, 위치에 있어 서로 다른 조건으로 표현되도록 함으로써, 사용자가 복수의 데이터들 중 상대적으로 관련성이 높은 자료를 쉽게 식별할 수 있도록 한다.

그리고 정보 검색 서버(200)는, 특정 키워드와 연관 키워드 또는 특정 키워드의 복수의 연관 키워드들 간의 상관성을 수치로 산출할 수 있다(S395).

일 예를 들면, 정보 검색 서버(200)는, 복수의 연관 키워드들 간의 상관성을 산출하되, 복수의 연관 키워드가 함께 추출되는 비율이 높을수록, 상관성 값이 큰 값으로 산출할 수 있다.

즉, 복수의 상관성은 수치가 높을수록, 복수의 키워드들이 특정 검색어에 따라 함께 추출되는 비율이 높은 것이고, 수치가 낮을수록 특정 검색어에 따라 함께 추출되는 비율이 낮은 것이다.

일 예를 들면, A 키워드와 B 키워드에 대하여, A 키워드와 B 키워드 간의 상관성(correlation)을 c라고 하고, 검색 대상 수를 U, 검색 대상 중 A 키워드가 있는 문서 수를 A0, 검색 대상 중 B 키워드가 있는 문서 수를 B0, A 키워드와 B 키워드가 함께 추출되는 횟수 AB라고 가정하면, "C ≒ (AB/B0)/(A0/U)"라는 수식으로 A 키워드와 B 키워드 간의 상관성을 산출할 수 있다.

4. 키워드와 관계 정보를 이용한 정보 검색 방법

본 발명의 일 실시예에 따른 키워드와 관계 정보를 이용한 정보 검색 방법은 도 2에 도시된 바와 같이 데이터베이스가 구축되면, 정보처리 단말(100)이 정보 검색 서버(200)에 접속하여 특정 검색어를 입력하여, 특정 검색어에 대한 키워드 검색 및 연관 키워드와 관계 정보를 요청할 수 있다.

즉, 정보 검색 서버(200)는 도 4에 예시된 바와 같이 키워드 검색을 수행하여, 입력된 검색어와 일치하는 키워드가 포함된 정보를 추출하고, 도 5 및 도 6에 예시된 바와 같이 관계 기반 검색을 수행하여, 입력된 검색어의 연관 키워드와 연관 키워드 간의 관계 정보를 추출하여, 정보처리 단말(100)을 통해, 사용자에게 추출된 정보들을 제공할 수 있다(S240).

또한, 데이터베이스로 구축된 정보들 또는 추출된 연관 키워드는 도 5에 예시된 바와 같이 네트워크 다이어그램(network diagram) 방식으로 시각화될 수 있다(S250).

여기서, 도 4 내지 도 6는 "E. coli(Escherichia coli, 대장균) Pneumonia(폐렴)"이라는 검색어를 입력하여, 추출된 검색 결과를 예시한 도면이다.

구체적으로, 정보 검색 서버(200)는, 도 5에 예시된 바와 같이 입력된 검색어에 대하여, 다면 검색을 수행하여, 검색어와 연관 키워드 또는 복수의 연관 키워드들 간의 관계 정보를 추출하고, 추출된 연관 키워드가 네트워크 다이어그램으로 시각화할 수 있다.

여기서, 관계 정보는, 분야별 문서들 중 의약 분야의 논문에 대한 데이터베이스를 구축한 것이라고 가정하고 설명하면, 입력된 키워드가 항생제, 치료법, 치료 약물, 질병 및 병원균 중 어느 하나라면, 입력된 키워드에 따라, 연관 키워드들을 추출하고, 추출된 키워드들과 입력된 키워드 간의 관계가 약리 작용효능과 같은 긍정적 관계를 형성하는 것인지, 아니면, 약리 부작용과 같은 부정적인 관계를 형성하는 것인지 판별할 수 있는 정보를 의미한다.

예를 들면, 정보 검색 서버(200)는 추출된 연관 키워드들과 연관 키워들 간의 관계 정보를 도 5에 예시된 바와 같이 입력된 검색어와 키워드들 중 긍정적인 관계를 형성하는 단어(a)와 부정적인 관계를 형성하는 단어(b)들이 서로 연결되어 형성되는 네트워크 다이어그램으로 시각화시킬 수 있다.

또한, 정보 검색 서버(200)는, 도 6에 예시된 바와 같이 입력된 검색어에 대하여, 검색어와 연관 키워드 또는 복수의 연관 키워드들 간의 상관성을 산출하는 상관 분석(correlation analysis)을 수행할 수 있다.

또한, 정보 검색 서버(200)는, 검색어와 또는 검색어에 따라 추출된 복수의 연관 키워드들을 분야별 기준 정보에 따라 항생제, 치료법, 치료 약물, 질병 또는 병원균 등과 같이 복수의 카테고리로 분류하여, 배열하거나 필터링할 수 있다.

5. 정보처리 단말(100)의 구성

도 7은 도 1에 도시된 정보처리 단말(100)의 상세 블록도이다. 본 발명의 일 실시예에 따른 정보처리 단말(100)은 정보 검색 서버(200)가 제공하는 애플리케이션 또는 웹페이지에 접속하여 정보 검색 서버(200)에 분야별 문서를 제공하거나 정보 검색 서비스를 이용하기 위해, 입력부(110), 통신부(120), 프로세서(130), 출력부(140) 및 저장부(150)로 구성될 수 있다.

입력부(110)는, 사용자의 요청을 입력하기 위한 입력 수단이고, 통신부(120)는, 해당 요청을 정보 검색 서버(200)에 전달하거나, 검색 결과를 수신하기 위한 통신 수단이다.

프로세서(130)는 사용자가 정보처리 단말(100)을 통해, 정보 검색 서버(200)에 접속하여, 정보 검색 서비스를 이용할 수 있게 해준다.

출력부(140)는 정보처리 단말(100)이 출력하고자 하는 정보들이 표시되는 디스플레이 화면이고, 저장부(150)는 프로세서(130)가 동작함에 있어 필요한 저장 공간을 제공하는 저장매체이다.

6. 정보 검색 서버(200)의 구성

도 8은 도 1에 도시된 정보 검색 서버(200)의 상세 블록도이다. 본 발명의 일 실시예에 따른 정보 검색 서버(200)는, 다양한 문서들을 분야별로 수집하여, 키워드와 키워드 간 관계 정보에 대한 데이터베이스를 구축하고, 구축된 데이터베이스를 기반으로 입력된 검색어에서 연관 키워드와 관계 정보를 추출하고, 이를 바탕으로 문서를 검색하기 위해, 제1 통신부(210), 제1 프로세서(220) 및 제1 저장부(230)로 구성될 수 있다.

제1 통신부(210)는, 정보처리 단말(100) 또는 별도로 마련되는 문서 수집 수단에 연결되기 위한 통신 수단이고, 제1 저장부(230)는 프로세서(130)가 동작함에 있어 필요한 저장 공간을 제공하는 저장매체이다.

제1 프로세서(220)는 정보처리 단말(100) 또는 별도로 마련되는 문서 수집 수단들을 통해, 다양한 문서를 분야별로 수집하고, 수집된 문서들을 분야별 분류하여, 키워드와 키워드 간 관계 정보에 대한 데이터베이스를 구축하고, 정보처리 단말(100)을 통하여, 특정 검색어가 입력되며, 입력된 검색어에 대한 키워드 검색, 다면 검색(facet search) 및 상관 분석(correlation analysis)이 요청되면, 구축된 데이터베이스를 기반으로 입력된 검색어에서 연관 키워드와 관계 정보를 추출할 수 있다.

7. 변형예

도 9는 본 발명의 다른 실시예에 따른 키워드와 관계 정보를 추출하는 데이터베이스 구축 과정을 설명하기 위해 제공된 흐름도이다.

위 실시예에서는 기준 정보가 설정되면, 설정된 기준 정보에 따라 어노테이션 모델을 생성하여, 키워드와 관계 정보를 추출하였으나, 이는 예시적인 것에 불과하다.

도 9를 참조하여, 본 발명의 일 실시예에 따른 키워드와 관계 정보를 추출하는 데이터베이스 구축 과정을 설명하면, 정보 검색 서버(200)가 키워드와 관계 정보를 이용한 정보 검색 방법을 제공하기 위해, 기설계된 알고리즘에 따라 다양한 방식으로 특정 키워드를 임의의 가중치를 갖는 정형 데이터로 가공처리하고, 다양한 방식으로 가공처리된 정형 데이터의 연관 키워드와 관계 정보를 추출하는 복수의 어노테이션 모델을 생성하고(S910), 기준 정보가 설정되면(S915), 기설정된 기준 정보에 따라 작성된 학습 데이터를 기반으로 생성된 어노테이션 모델 중 어느 어노테이션 모델을 선택할 수 있다(S920).

이후, 정보 검색 서버(200)가 선택된 어노테이션 모델을 이용하여, 문서에 포함된 비정형 텍스트들을 추출하고, 추출된 비정형 텍스트들을 형태소 단위로 분할하는 방식으로, 특정 키워드와 관계 정보들을 추출하여, 데이터베이스를 구축하는 과정은 도 3을 참조하여 전술한 바와 동일하여, 자세한 설명은 생략하기로 한다.

그리고 본 실시예에 따른 정보 검색 서버(200)는, 제2 통신부(미도시), 기설정된 기준 정보에 따라 작성된 학습 데이터를 기반으로 특정 키워드의 연관 키워드와 관계 정보를 추출하는 어노테이션 모델을 생성하고, 생성된 어노테이션 모델을 활용하여 문서에 포함된 비정형 텍스트들의 연관 키워드와 관계 정보를 추출하는 제2 프로세서(미도시)와 생성된 어노테이션 모델, 추출된 연관 키워드와 관계 정보에 대한 데이터베이스를 저장하는 제2 저장부(미도시)로 구성될 수 있다.

한편, 본 실시예에 따른 장치와 방법의 기능을 수행하게 하는 컴퓨터 프로그램을 수록한 컴퓨터로 읽을 수 있는 기록매체에도 본 발명의 기술적 사상이 적용될 수 있음은 물론이다. 또한, 본 발명의 다양한 실시예에 따른 기술적 사상은 컴퓨터로 읽을 수 있는 기록매체에 기록된 컴퓨터로 읽을 수 있는 코드 형태로 구현될 수도 있다. 컴퓨터로 읽을 수 있는 기록매체는 컴퓨터에 의해 읽을 수 있고 데이터를 저장할 수 있는 어떤 데이터 저장 장치이더라도 가능하다. 예를 들어, 컴퓨터로 읽을 수 있는 기록매체는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광디스크, 하드 디스크 드라이브, 등이 될 수 있음은 물론이다. 또한, 컴퓨터로 읽을 수 있는 기록매체에 저장된 컴퓨터로 읽을 수 있는 코드 또는 프로그램은 컴퓨터간에 연결된 네트워크를 통해 전송될 수도 있다.

또한, 이상에서는 본 발명의 바람직한 실시예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.

100 : 정보처리 단말
110 : 입력부
120 : 통신부
130 : 프로세서
140 : 출력부
150 : 저장부
200 : 정보 검색 서버
210 : 제1 통신부
220 : 제1 프로세서
230 : 제1 저장부

Claims

정보 검색 시스템이, 기설정된 기준 정보에 따라 작성된 학습 데이터를 기반으로 특정 키워드의 연관 키워드와 관계 정보를 추출하는 어노테이션(annotation) 모델을 생성하는 단계; 및
정보 검색 시스템이, 어노테이션 모델을 활용하여 문서에 포함된 비정형 텍스트들의 연관 키워드와 관계 정보를 추출하여 데이터베이스를 구축하는 단계;를 포함하고,
정보 검색 시스템이, 구축된 데이터베이스에서 입력된 검색어의 연관 키워드와 관계 정보를 추출하는 단계; 및
정보 검색 시스템이, 추출된 연관 키워드를 네트워크 다이어그램(network diagram) 방식으로 시각화하는 단계;를 더 포함하고,
연관 키워드와 관계 정보를 추출하는 단계는,
복수의 연관 키워드 간의 상관성을 산출하되, 복수의 연관 키워드가 함께 추출되는 비율이 높을수록, 상관성 값이 큰 값으로 산출하고,
학습 데이터는,
특정 분야의 논문에 포함된 비정형 텍스트들을 추출하여, 분야별로 설정된 기준 정보에 따라 임의의 가중치를 갖는 정형 데이터로 가공처리하고, 가공처리된 정형 데이터의 연관 키워드와 관계 정보를 추출하는 기계학습에 사용될 연관 키워드 샘플과 관계 정보 샘플이 포함되며,
시각화하는 단계는,
추출된 연관 키워드들과 연관 키워들 간의 관계 정보를 입력된 검색어와 키워드들 중 긍정적인 관계를 형성하는 단어와 부정적인 관계를 형성하는 단어들이 각각 연결되어 형성되는 네트워크 다이어그램으로 시각화하고,
기준 정보는,
의약 분야의 논문에 포함된 치료 약물에 관련된 비정형 텍스트들을 추출하는데 이용되는 제1 딕셔너리(dictionary)와 추출된 비정형 텍스트들에 약리 작용효능 또는 약리 부작용과 관련하여 임의의 가중치를 부여하는데 이용되는 제1 룩업 테이블이 포함되며,
어노테이션 모델은,
의약 분야의 논문에 포함된 비정형 텍스트들이, 형태소 단위로 분할되어 명사인 형태소가 선별되도록 하고, 제1 딕션너리를 기반으로 선별된 형태소 중 의약 분야와 무관한 불용어가 제거되어 치료 약물에 관련된 제1 정형 데이터가 추출되도록 하고,
어노테이션 모델은,
추출된 제1 정형 데이터가 포함된 문장을 구성하는 형태소 중 추출된 비정형 텍스트와 연결된 부사, 형용사, 동사 또는 명사형 전성 어미인 형태소가 함께 고려되어, 치료 약물과의 관련성이 재차 검증되도록 하고,
어노테이션 모델은,
추출된 제1 정형 데이터 중 약리 작용효능 또는 약리 부작용과 연관된 제2 정형 데이터가 선별되도록 하고, 제1 룩업 테이블을 활용하여 선별된 제2 정형 데이터에 의약 분야의 논문에 포함된 빈도에 따라 가중치가 부여되도록 하며,
기준 정보는,
의약 분야의 논문에 포함된 질병, 병원균에 관련된 비정형 텍스트들을 추출하는데 이용되는 제2 딕셔너리(dictionary)와 추출된 비정형 텍스트들에 치료법 또는 치료 약물과 관련하여 임의의 가중치를 부여하는데 이용되는 제2 룩업 테이블이 포함되고,
시각화하는 단계는,
복수의 데이터들 중 상대적으로 관련성이 높은 자료를 식별하도록, 가중치가 부여된 제2 정형 데이터가 상단에 배치되도록 하거나 또는 가중치에 따라 크기, 색상, 위치가 서로 다른 조건으로 표현되도록 하는 것을 특징으로 하는 키워드와 관계 정보를 이용한 정보 검색 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
기설정된 기준 정보에 따라 작성된 학습 데이터를 기반으로 특정 키워드의 연관 키워드와 관계 정보를 추출하는 어노테이션(annotation) 모델을 생성하고, 생성된 어노테이션 모델을 활용하여 문서에 포함된 비정형 텍스트들의 연관 키워드와 관계 정보를 추출하는 프로세서; 및
추출된 연관 키워드와 관계 정보에 대한 데이터베이스를 저장하는 저장부;를 포함하고,
프로세서는,
구축된 데이터베이스에서 입력된 검색어의 연관 키워드와 관계 정보를 추출하며,
프로세서는,
추출된 연관 키워드를 네트워크 다이어그램(network diagram) 방식으로 시각화하고,
프로세서는,
연관 키워드와 관계 정보 추출 시, 복수의 연관 키워드 간의 상관성을 산출하되, 복수의 연관 키워드가 함께 추출되는 비율이 높을수록, 상관성 값이 큰 값으로 산출하고,
학습 데이터는,
특정 분야의 논문에 포함된 비정형 텍스트들을 추출하여, 분야별로 설정된 기준 정보에 따라 임의의 가중치를 갖는 정형 데이터로 가공처리하고, 가공처리된 정형 데이터의 연관 키워드와 관계 정보를 추출하는 기계학습에 사용될 연관 키워드 샘플과 관계 정보 샘플이 포함되며,
프로세서는,
추출된 연관 키워드들과 연관 키워들 간의 관계 정보를 입력된 검색어와 키워드들 중 긍정적인 관계를 형성하는 단어와 부정적인 관계를 형성하는 단어들이 각각 연결되어 형성되는 네트워크 다이어그램으로 시각화하고,
기준 정보는,
의약 분야의 논문에 포함된 치료 약물에 관련된 비정형 텍스트들을 추출하는데 이용되는 제1 딕셔너리(dictionary)와 추출된 비정형 텍스트들에 약리 작용효능 또는 약리 부작용과 관련하여 임의의 가중치를 부여하는데 이용되는 제1 룩업 테이블이 포함되며,
어노테이션 모델은,
의약 분야의 논문에 포함된 비정형 텍스트들이, 형태소 단위로 분할되어 명사인 형태소가 선별되도록 하고, 제1 딕션너리를 기반으로 선별된 형태소 중 의약 분야와 무관한 불용어가 제거되어 치료 약물에 관련된 제1 정형 데이터가 추출되도록 하고,
어노테이션 모델은,
추출된 제1 정형 데이터가 포함된 문장을 구성하는 형태소 중 추출된 비정형 텍스트와 연결된 부사, 형용사, 동사 또는 명사형 전성 어미인 형태소가 함께 고려되어, 치료 약물과의 관련성이 재차 검증되도록 하고,
어노테이션 모델은,
추출된 제1 정형 데이터 중 약리 작용효능 또는 약리 부작용과 연관된 제2 정형 데이터가 선별되도록 하고, 제1 룩업 테이블을 활용하여 선별된 제2 정형 데이터에 의약 분야의 논문에 포함된 빈도에 따라 가중치가 부여되도록 하며,
기준 정보는,
의약 분야의 논문에 포함된 질병, 병원균에 관련된 비정형 텍스트들을 추출하는데 이용되는 제2 딕셔너리(dictionary)와 추출된 비정형 텍스트들에 치료법 또는 치료 약물과 관련하여 임의의 가중치를 부여하는데 이용되는 제2 룩업 테이블이 포함되며,
프로세서는,
복수의 데이터들 중 상대적으로 관련성이 높은 자료를 식별하도록, 가중치가 부여된 제2 정형 데이터가 상단에 배치되도록 하거나 또는 가중치에 따라 크기, 색상, 위치가 서로 다른 조건으로 표현되도록 하는 것을 특징으로 하는 키워드와 관계 정보를 이용한 정보 검색 시스템.
정보 검색 시스템이, 기설정된 기준 정보에 따라 어노테이션 모델을 선택하는 단계; 및
정보 검색 시스템이, 선택된 어노테이션 모델을 활용하여 문서에 포함된 비정형 텍스트들의 연관 키워드와 관계 정보를 추출하여 데이터베이스를 구축하는 단계;를 포함하고,
정보 검색 시스템이, 구축된 데이터베이스에서 입력된 검색어의 연관 키워드와 관계 정보를 추출하는 단계; 및
정보 검색 시스템이, 추출된 연관 키워드를 네트워크 다이어그램(network diagram) 방식으로 시각화하는 단계;를 더 포함하고,
선택된 어노테이션 모델은,
기설정된 기준 정보에 따라 작성된 학습 데이터를 기반으로 특정 키워드의 연관 키워드와 관계 정보를 추출하고,
복수의 연관 키워드 간의 상관성을 산출하되, 복수의 연관 키워드가 함께 추출되는 비율이 높을수록, 상관성 값이 큰 값으로 산출하고,
학습 데이터는,
특정 분야의 논문에 포함된 비정형 텍스트들을 추출하여, 분야별로 설정된 기준 정보에 따라 임의의 가중치를 갖는 정형 데이터로 가공처리하고, 가공처리된 정형 데이터의 연관 키워드와 관계 정보를 추출하는 기계학습에 사용될 연관 키워드 샘플과 관계 정보 샘플이 포함되며,
시각화하는 단계는,
추출된 연관 키워드들과 연관 키워들 간의 관계 정보를 입력된 검색어와 키워드들 중 긍정적인 관계를 형성하는 단어와 부정적인 관계를 형성하는 단어들이 각각 연결되어 형성되는 네트워크 다이어그램으로 시각화하고,
기준 정보는,
의약 분야의 논문에 포함된 치료 약물에 관련된 비정형 텍스트들을 추출하는데 이용되는 제1 딕셔너리(dictionary)와 추출된 비정형 텍스트들에 약리 작용효능 또는 약리 부작용과 관련하여 임의의 가중치를 부여하는데 이용되는 제1 룩업 테이블이 포함되며,
선택된 어노테이션 모델은,
의약 분야의 논문에 포함된 비정형 텍스트들이, 형태소 단위로 분할되어 명사인 형태소가 선별되도록 하고, 제1 딕션너리를 기반으로 선별된 형태소 중 의약 분야와 무관한 불용어가 제거되어 치료 약물에 관련된 제1 정형 데이터가 추출되도록 하고,
선택된 어노테이션 모델은,
추출된 제1 정형 데이터가 포함된 문장을 구성하는 형태소 중 추출된 비정형 텍스트와 연결된 부사, 형용사, 동사 또는 명사형 전성 어미인 형태소가 함께 고려되어, 치료 약물과의 관련성이 재차 검증되도록 하고,
선택된 어노테이션 모델은,
추출된 제1 정형 데이터 중 약리 작용효능 또는 약리 부작용과 연관된 제2 정형 데이터가 선별되도록 하고, 제1 룩업 테이블을 활용하여 선별된 제2 정형 데이터에 의약 분야의 논문에 포함된 빈도에 따라 가중치가 부여되도록 하며,
기준 정보는,
의약 분야의 논문에 포함된 질병, 병원균에 관련된 비정형 텍스트들을 추출하는데 이용되는 제2 딕셔너리(dictionary)와 추출된 비정형 텍스트들에 치료법 또는 치료 약물과 관련하여 임의의 가중치를 부여하는데 이용되는 제2 룩업 테이블이 포함되고,
시각화하는 단계는,
복수의 데이터들 중 상대적으로 관련성이 높은 자료를 식별하도록, 가중치가 부여된 제2 정형 데이터가 상단에 배치되도록 하거나 또는 가중치에 따라 크기, 색상, 위치가 서로 다른 조건으로 표현되도록 하는 것을 특징으로 하는 키워드와 관계 정보를 이용한 정보 검색 방법.
기설정된 기준 정보에 따라 어노테이션 모델을 선택하고, 선택된 어노테이션 모델을 활용하여 문서에 포함된 비정형 텍스트들의 연관 키워드와 관계 정보를 추출하는 프로세서; 및
추출된 비정형 텍스트들의 연관 키워드와 관계 정보에 대한 데이터베이스를 저장하는 저장부;를 포함하고,
프로세서는,
구축된 데이터베이스에서 입력된 검색어의 연관 키워드와 관계 정보를 추출하고,
프로세서는,
추출된 연관 키워드를 네트워크 다이어그램(network diagram) 방식으로 시각화하고,
프로세서는,
선택된 어노테이션 모델을 통해, 기설정된 기준 정보에 따라 작성된 학습 데이터를 기반으로 특정 키워드의 연관 키워드와 관계 정보를 추출하고, 복수의 연관 키워드 간의 상관성을 산출하되, 복수의 연관 키워드가 함께 추출되는 비율이 높을수록, 상관성 값이 큰 값으로 산출하고,
학습 데이터는,
특정 분야의 논문에 포함된 비정형 텍스트들을 추출하여, 분야별로 설정된 기준 정보에 따라 임의의 가중치를 갖는 정형 데이터로 가공처리하고, 가공처리된 정형 데이터의 연관 키워드와 관계 정보를 추출하는 기계학습에 사용될 연관 키워드 샘플과 관계 정보 샘플이 포함되며,
프로세서는,
추출된 연관 키워드들과 연관 키워들 간의 관계 정보를 입력된 검색어와 키워드들 중 긍정적인 관계를 형성하는 단어와 부정적인 관계를 형성하는 단어들이 각각 연결되어 형성되는 네트워크 다이어그램으로 시각화하고,
기준 정보는,
의약 분야의 논문에 포함된 치료 약물에 관련된 비정형 텍스트들을 추출하는데 이용되는 제1 딕셔너리(dictionary)와 추출된 비정형 텍스트들에 약리 작용효능 또는 약리 부작용과 관련하여 임의의 가중치를 부여하는데 이용되는 제1 룩업 테이블이 포함되며,
선택된 어노테이션 모델은,
의약 분야의 논문에 포함된 비정형 텍스트들이, 형태소 단위로 분할되어 명사인 형태소가 선별되도록 하고, 제1 딕션너리를 기반으로 선별된 형태소 중 의약 분야와 무관한 불용어가 제거되어 치료 약물에 관련된 제1 정형 데이터가 추출되도록 하고,
선택된 어노테이션 모델은,
추출된 제1 정형 데이터가 포함된 문장을 구성하는 형태소 중 추출된 비정형 텍스트와 연결된 부사, 형용사, 동사 또는 명사형 전성 어미인 형태소가 함께 고려되어, 치료 약물과의 관련성이 재차 검증되도록 하고,
선택된 어노테이션 모델은,
추출된 제1 정형 데이터 중 약리 작용효능 또는 약리 부작용과 연관된 제2 정형 데이터가 선별되도록 하고, 제1 룩업 테이블을 활용하여 선별된 제2 정형 데이터에 의약 분야의 논문에 포함된 빈도에 따라 가중치가 부여되도록 하며,
기준 정보는,
의약 분야의 논문에 포함된 질병, 병원균에 관련된 비정형 텍스트들을 추출하는데 이용되는 제2 딕셔너리(dictionary)와 추출된 비정형 텍스트들에 치료법 또는 치료 약물과 관련하여 임의의 가중치를 부여하는데 이용되는 제2 룩업 테이블이 포함되고,
프로세서는,
복수의 데이터들 중 상대적으로 관련성이 높은 자료를 식별하도록, 가중치가 부여된 제2 정형 데이터가 상단에 배치되도록 하거나 또는 가중치에 따라 크기, 색상, 위치가 서로 다른 조건으로 표현되도록 하는 것을 특징으로 하는 키워드와 관계 정보를 이용한 정보 검색 서버.