KR20230046086A

KR20230046086A - 중요 문장 기반 검색 서비스 제공 장치 및 방법

Info

Publication number: KR20230046086A
Application number: KR1020210129127A
Authority: KR
Inventors: 배용진; 임준호; 김민호; 김현; 김현기; 류지희; 배경만; 이형직; 임수종; 장명길; 최미란; 허정
Original assignee: 한국전자통신연구원
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2023-04-05
Also published as: US11880421B2; US20230105610A1

Abstract

중요 문장 기반 검색 서비스 제공 장치 및 방법이 개시된다. 본 발명의 실시예에 따른 중요 문장 기반 검색 서비스 제공 장치는, 적어도 하나의 프로그램 및 미리 학습된 단어 중요도 측정 모델이 기록된 메모리 및 프로그램을 실행하는 프로세서를 포함하며, 프로그램은, 단어 중요도 측정 모델을 기반으로 입력되는 텍스트에 포함된 복수의 단어들 각각에 대한 해당 텍스트에서의 중요도를 측정하는 단어 중요도 측정부 및 측정된 복수의 단어들 각각에 대한 중요도를 기반으로 텍스트에 포함된 적어도 하나의 문장 각각에 대한 중요도를 측정하는 문장 중요도 측정부를 포함할 수 있다.

Description

중요 문장 기반 검색 서비스 제공 장치 및 방법{Apparatus and Method for Providing Indexing and Searching Service based on Important Sentence}

기재된 실시예는 검색 서비스를 제공하는 기술에 관한 것이다.

검색 기능을 제공하는 다양한 검색 서비스 제공 시스템들이 현존하고 있다. 이러한 검색 기능을 제공하는 서비스 제공자는 사용자가 요구하는 정보의 정확도 또는 검색 편리성 등을 꾸준히 개선하기 위한 노력을 기울이고 있다. 그러나, 이러한 노력에도 불구하고 현존하는 다양한 검색 시스템들은 다음과 같은 공통적인 한계에 부딪히고 있다.

일반적인 검색 시스템에서의 색인 방식에서는 대상 문서 내의 전체 텍스트에 사용된 단어들의 중요도가 동일하다는 가정하에 색인이 이루어진다. 이러한 색인 방식에서는 문서 작성자의 주제나 의도가 파악되어 반영되는 것이 아니므로, 색인을 통해 주제 및 의도를 파악하기가 어렵다는 문제가 있다. 이러한 문제점은 길이가 짧은 문서에서는 크지 않을 수 있으나, 문서의 길이가 길어지면 주제와 직접적으로 관련없는 정보들이 색인 대상에 포함되므로 검색 결과의 품질 저하를 야기할 가능성이 커진다. 즉, 이와 같이 전체 문서를 색인하면 문서의 내용이 길어질수록 불필요한 정보들이 색인에 사용되기 때문에 검색 결과의 질이 낮아진다.

한편, 일반적인 웹 검색(네이버, 구글)의 검색 결과는 전체 텍스트의 처음부터 시작하는 내용이거나, 사용자의 질의어가 매칭된 단어의 앞, 뒤 스니펫(snippet)의 일부일 수 있다. 따라서, 검색 결과가 질의어와 매칭된 어휘가 포함되어 있는 것일 뿐 사용자의 검색 의도에 상응하는 핵심 내용을 포함한 것인지는 확인이 어렵다. 예컨대, '푸카키 호수'를 질의어로 웹 검색을 수행할 경우, '푸카키 호수'에 관한 설명보다 여행 관련 텍스트에서 '푸카키 호수'가 단순히 포함되어 검색된 결과를 제공되는 경우가 많다. 즉, 웹페이지 검색 키워드로 #너구리가족, #뉴질랜드, #퀸즈타운, #트램 등 푸카키 호수가 없음에도 긴 텍스트에 다양한 정보를 포함하고 있어 검색된 가능성이 높을 수 있다. 또한, 검색 결과는 글의 시작부터 사용자에게 제공하기 때문에, 푸카키 호수의 어떤 내용이 포함되어 있는지 알기 어렵다. 사용자는 검색 결과를 일일이 확인하여 보거나, 검색 제시 결과 텍스트의 앞부분만 보고 검색 실패로 간주하고, 검색 서비스를 종료할 가능성이 높다. 즉, 사용자가 필요하는 정보는, 요구 질의에 부합되게 작성된 텍스트이므로, 서비스 제공시에도 텍스트의 중요 내용을 중심으로 사용자에게 제공하는 서비스가 필요하다.

한편, 딥러닝 기술 대두 이후, 검색 분야에서도 다양한 실험과 기술이 소개되고 있고, 문서의 맥락과 의미적 정보를 파악하는 것에 초점을 맞추고 있으나, 실시간으로 검색 결과를 응답하기 위해서는 많은 연산량 때문에 아직 산업현장에서는 사용하기 어렵다.

기재된 실시예는 문서 내 중요 문장을 대상으로 색인하여, 색인을 통해 문서의 주제 및 의도의 파악을 용이하게 하는 데 그 목적이 있다.

기재된 실시예는 사용자의 질의 요구와 텍스트 작성자의 작성 의도를 고려하여 검색 결과의 질을 한단계 높이고, 사용자의 서비스 만족도를 높여주는 검색 서비스를 제공하는 데 그 목적이 있다.

기재된 실시예는 딥러닝 기술을 응용하여 검색 속도를 향상시키는데 그 목적이 있다.

실시예에 따른 중요 문장 기반 검색 서비스 제공 장치는, 적어도 하나의 프로그램 및 미리 학습된 단어 중요도 측정 모델이 기록된 메모리 및 프로그램을 실행하는 프로세서를 포함하며, 프로그램은, 단어 중요도 측정 모델을 기반으로 입력되는 텍스트에 포함된 복수의 단어들 각각에 대한 해당 텍스트에서의 중요도를 측정하는 단어 중요도 측정부 및 측정된 복수의 단어들 각각에 대한 중요도를 기반으로 텍스트에 포함된 적어도 하나의 문장 각각에 대한 중요도를 측정하는 문장 중요도 측정부를 포함할 수 있다.

이때, 단어 중요도 추론 모델은, 텍스트에 포함된 복수의 단어들 각각의 인코딩 값이 문맥에서의 중요도에 따라 '0' 또는 '1'로 레이블된 학습 데이터에 의해 미리 학습된 뉴럴 레이어로 구성된 것일 수 있다.

이때, 레이블은, 텍스트의 형태가 정형화되어 있는지의 여부에 따라, 수동 또는 자동으로 선택적으로 태깅될 수 있다.

이때, 단어 중요도 측정부는, 입력되는 텍스트에 포함된 복수의 단어들 각각에 대한 중요도 점수에 따라 색 또는 음영으로 구분하여 표시된 결과를 출력할 수 있다.

이때, 문장 중요도 측정부는, 문장에 포함된 복수의 단어들의 중요도 점수가 제1 임계치 이상인 단어들을 선별하고, 선별된 단어들을 기반으로 문장 중요도 점수를 산출할 수 있다.

이때, 문장 중요도 측정부는, 문장에 포함된 복수의 단어들의 중요도 점수를 기반으로 적어도 하나 이상의 자질 정보를 추출하는 단계 및 추출된 적어도 하나의 자질 정보 각각에 가중치를 부여하여 문장 중요도 점수를 산출하는 단계를 수행할 수 있다.

이때, 적어도 하나 이상의 자질 정보를 추출하는 단계는, 복수의 단어들의 중요도 점수의 평균을 산출하는 단계, 복수의 단어들에서 소정 제2 임계치 이상의 중요도 점수를 갖는 단어의 수를 산출하는 단계 및 품사 기반으로 내용어에 해당하는 단어들의 수를 산출하는 단계 중 적어도 하나를 포함할 수 있다.

이때, 문장 중요도 측정부는, 산출된 문장 중요도 점수에 따라 복수의 문장들을 순위화할 수 있다.

이때, 중요 문장 기반 검색 서비스 제공 장치는, 문장 중요도 측정부에 의해 측정된 문장 중요도 점수를 기반으로 색인 대상 문장을 추출하고, 추출된 문장에 색인을 수행하는 색인부를 더 포함할 수 있다.

이때, 문장 중요도 측정부는, 산출된 문장 중요도 점수에 따라 복수의 문장들을 순위화하고, 색인부는, 하위 순위의 문장들을 제외하고 색인을 수행할 수 있다.

실시예에 따른 중요 문장 기반 검색 서비스 제공 장치는, 질의 정보가 입력됨에 따라, 질의 정보에 상응하는 텍스트를 검색하여 출력하되, 색인된 중요 문장을 추출하여 출력하는 검색부를 더 포함할 수 있다.

이때, 검색부는, 질의 정보가 문장일 경우, 질의 문장을 단어 중요도 측정부에 의해 입력하여 질의 문장에 포함된 복수의 단어들 각각에 대한 중요도 점수를 획득하고, 중요도 점수가 높은 단어를 기반으로 검색을 수행할 수 있다.

실시예에 따른 중요 문장 기반 색인 방법은, 미리 학습된 단어 중요도 측정 모델을 기반으로 입력되는 텍스트에 포함된 복수의 단어들 각각에 대한 해당 텍스트에서의 중요도를 측정하는 단계, 측정된 복수의 단어들 각각에 대한 중요도를 기반으로 텍스트에 포함된 적어도 하나의 문장 각각에 대한 중요도를 측정하는 단계, 및 측정된 문장 중요도 점수를 기반으로 색인 대상 문장을 추출하고, 추출된 문장에 색인을 수행하는 단계를 포함할 수 있다.

이때, 문장 각각에 대한 중요도를 측정하는 단계는, 문장에 포함된 복수의 단어들의 중요도 점수가 제1 임계치 이상인 단어들을 선별하고, 선별된 단어들을 기반으로 문장 중요도 점수를 산출할 수 있다.

이때, 문장 각각에 대한 중요도를 측정하는 단계는, 문장에 포함된 복수의 단어들의 중요도 점수를 기반으로 적어도 하나 이상의 자질 정보를 추출하는 단계 및 추출된 적어도 하나의 자질 정보 각각에 가중치를 부여하여 문장 중요도 점수를 산출하는 단계를 포함할 수 있다.

이때, 실시예에 따른 중요 문장 기반 색인 방법은, 산출된 문장 중요도 점수에 따라 복수의 문장들을 순위화하는 단계를 더 포함하고, 색인을 수행하는 단계는, 하위 순위의 문장들을 제외하고 색인을 수행할 수 있다.

실시예에 따른 중요 문장 기반 검색 방법은, 질의 정보가 입력됨에 따라, 질의 정보에 상응하는 색인을 가지는 중요 문장을 검색하는 단계 및 검색된 중요 문장을 포함하는 텍스트를 중요 문장과 함께 출력하는 단계를 포함할 수 있다.

이때, 질의 정보가 문장일 경우, 질의 문장에 포함된 복수의 단어들 각각에 대한 중요도 점수를 측정하는 단계를 더 포함하고, 검색하는 단계는, 중요도 점수가 높은 단어를 기반으로 검색을 수행할 수 있다.

기재된 실시예에 따라, 텍스트 내 중요 문장을 중심으로 색인하여, 서비스 사용자의 질의와 텍스트 작성자의 의도에 맞게 작성된 문서가 검색이 가능하다.

또한, 기재된 실시예에 따라, 텍스트 내 중요 문장을 대상으로 색인/검색하면 사용자의 질의 키워드가 텍스트 일부와 부합하더라도, 텍스트 작성자의 의도에 맞지 않는 문서들은 검색 결과로 제공되지 않아 사용자 만족도를 높일 수 있다.

또한, 기재된 실시예에 따라, 딥러닝 기반의 단어 중요도 추론 모델을 사용하여, 검색 결과를 제시할 때 사용자의 정보 요구를 빠르고 정확하게 충족시킬 수 있다.

도 1은 실시예에 따른 중요 문장 기반 색인 및 검색 서비스 제공 장치의 개략적인 블록 구성도이다.
도 2는 실시예에 따라 BERT 언어 모델을 기반으로 단어 중요도 추론 모델의 학습 방법을 설명하기 위한 도면이다.
도 3 및 4는 실시예에 따른 대한 단어 중요도 추론 결과의 예시이다.
도 5는 실시예에 따른 문장 중요도 측정부의 동작을 설명하기 위한 순서도이다.
도 6은 실시예에 따른 중요 문장 기반 색인 방법을 설명하기 위한 순서도이다.
도 7은 실시예에 따른 중요 문장 기반 검색 방법을 설명하기 위한 순서도이다.
도 8은 종래와 실시예에 따른 검색 서비스 결과를 비교하기 위한 예시도이다.
도 9는 실시예에 따른 컴퓨터 시스템 구성을 나타낸 도면이다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

비록 "제1" 또는 "제2" 등이 다양한 구성요소를 서술하기 위해서 사용되나, 이러한 구성요소는 상기와 같은 용어에 의해 제한되지 않는다. 상기와 같은 용어는 단지 하나의 구성요소를 다른 구성요소와 구별하기 위하여 사용될 수 있다. 따라서, 이하에서 언급되는 제1 구성요소는 본 발명의 기술적 사상 내에서 제2 구성요소일 수도 있다.

본 명세서에서 사용된 용어는 실시예를 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 또는 "포함하는(comprising)"은 언급된 구성요소 또는 단계가 하나 이상의 다른 구성요소 또는 단계의 존재 또는 추가를 배제하지 않는다는 의미를 내포한다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 해석될 수 있다. 또한, 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

이하에서는, 도 1 내지 도 9를 참조하여 실시예에 따른 중요 문장 기반 색인 및 검색 서비스 제공 장치 및 방법이 상세히 설명된다.

도 1은 실시예에 따른 중요 문장 기반 색인 및 검색 서비스 제공 장치의 개략적인 블록 구성도이다.

도 1을 참조하면, 실시예에 따른 중요 문장 기반 색인 및 검색 서비스 제공 장치(100)(이하 '장치'로 기재함)는, 문서 내 중요 문장을 색인하고, 검색 서비스 제공함에 있어 중요 문장을 기반으로 검색 결과를 제공한다.

이를 위해, 단어 중요도 측정부(110), 문장 중요도 측정부(120), 색인부(130) 및 검색부(140)를 포함할 수 있다. 추가적으로, 단어 중요도 측정 모델 DB(10) 및 색인 DB(20)를 더 포함할 수 있다.

단어 중요도 측정부(110)는, 단어 중요도 측정 모델(10)을 사용하여 입력되는 텍스트에 포함된 복수의 단어들 각각의 해당 텍스트에서의 중요도를 측정할 수 있다.

이때, 중요도 점수는 '0.0 ~ 1.0' 사이의 값이 될 수 있다.

단어 중요도 측정 모델(10)은 단어 중요도 측정부(110)에 의해 딥러닝 기반으로 미리 학습된 것일 수 있다. 즉, 단어 중요도 측정 모델(10)은 입력되는 텍스트의 문맥을 고려하여 텍스트에 포함된 개별 단어들 각각의 중요도를 추론하도록 학습된다. 단어 중요도 측정 모델(10) 및 단어 중요도 측정 모델(10)에 의한 추론에 대한 상세한 설명은 도 2 내지 도 4를 참조하여 후술하기로 한다.

문장 중요도 측정부(120)는, 측정된 복수의 단어들 각각에 대한 중요도를 기반으로 텍스트에 포함된 적어도 하나의 문장 각각에 대한 중요도를 측정할 수 있다. 문장 중요도 측정부(120)의 상세한 동작 설명은 도 5를 참조하여 후술하기로 한다.

색인부(130)는, 문장 중요도 측정부(110)에 의해 측정된 문장 중요도 점수를 기반으로 색인 대상 문장을 추출하고, 추출된 문장에 색인을 수행한다. 이와 같이 중요 문장들에 수행된 색인에 대한 정보는 색인 DB(20)에 저장된다. 색인부(130)의 상세한 동작 설명은 도 6을 참조하여 후술하기로 한다.

검색부(140)는, 질의 정보가 입력됨에 따라, 질의 정보에 상응하는 텍스트를 검색하여 출력하되, 색인된 중요 문장을 추출하여 출력할 수 있다. 검색부(140)의 상세한 동작 설명은 도 7 및 도 8을 참조하여 후술하기로 한다.

도 2는 실시예에 따라 BERT 언어 모델을 기반으로 단어 중요도 추론 모델의 학습 방법을 설명하기 위한 도면이다.

도 2를 참조하면,

는 텍스트 내 개별 단어들 (Tok1, Tok2,...) 각각이 인코딩된 값들

이 중요한지 판단하기 위해 가중치 파라미터 w를 업데이트하면서 학습하기 위한 수식이다.

단어 중요도 추론 모델은, 텍스트에 포함된 복수의 단어들 각각의 인코딩 값이 문맥에서의 중요도에 따라 '0' 또는 '1'로 레이블된 학습 데이터에 의해 미리 학습된 뉴럴 레이어로 구성된 것일 수 있다.

이때, 일 실시예에 따라, 텍스트에 포함된 개별 단어들 각각에 대한 중요도 레이블은 수 작업으로 태깅될 수 있다. 이는 학습 데이터가 정형화된 형태가 아닌텍스트일 경우 수행될 수 있다.

또한, 다른 실시예에 따라, 텍스트에 포함된 개별 단어들 각각이 소정 기준에 의해 자동 분류되어, 분류된 결과에 따라 레이블이 자동으로 태깅될 수 있다. 이는 학습 데이터가 정형화된 형태의 텍스트일 경우 수행될 수 있다.

예컨대, 텍스트가 뉴스 또는 게시판 글과 같이 제목 및 내용이 구분된 형태일 경우, 제목으로 사용된 단어들은 중요한 단어라 가정하고 레이블 '1'이 태깅되고, 제목에 없는 단어들은 레이블 '0'을 태깅한다. 따라서, 이와 같이 생성된 학습 데이터에 의해 학습된 단어 중요도 측정 모델은 텍스트에서 제목에 포함된 단어의 중요도 점수를 더 높게 측정한다. 이를 통해, 제목과 단락이 구분되어 있는 데이터를 학습 데이터로 사용할 수 있어 딥러닝 기반의 단어 중요도 추론 모델의 구축이 효율적일 수 있다.

단어 중요도 측정부(110)는 전술한 바와 같이 학습된 단어 중요도 측정 모델(10)을 기반으로 입력된 텍스트에 포함된 단어 중요도를 추론한다.

입력되는 텍스트의 예시는 다음의 <표 1>과 같을 수 있다.

[입력 예제1]
. 푸카키 호수.
. 푸카키 호수(Lake Pukaki)는 뉴질랜드 남섬에 있는 호수이다.
. 면적은 178.7km2, 수면의 해발 518.2m~ 532m에 위치한다.

[입력 예제2]
. 러브 크로아티아.
. 프로그램 소개.
. - 대한민국의 유명 방송국 아나운서 출신 오정연, 최송현이 크로아티아로 떠난다! 발칸 반도의 영원한 보석, 유럽인들이 꼭 한 번 방문하고 싶은 휴양지로 손꼽히는 나라 크로아티아! 영화 아바타의 모티브가 된 플리트비체 호수 국립공원이나 ..(생략)..
. 작년 케이블 방송에서의 프로그램을 통해 한국인이 가장 방문하고 싶은 나라로 인기 급상승 중이기도 한데, 대한민국의 유명 방송국 아나운서 출신 오정연, 최송현이 크로아티아로 떠난다.
. 요트를 타고 떠나는 그녀들의 우정 여행! 크로아티아의 대표적인 섬을 돌며 그곳이 숨겨진 매력을 파헤쳐본다.

[입력 예제1]은 푸카키 호수에 관하여 설명하는 예제이고, [입력 예제 2]는 크로아티아로 여행 및 관련 정보를 설명하는 글이다.

도 3 및 4는 실시예에 따른 대한 단어 중요도 추론 결과의 예시이다.

도 3 및 도 4를 참조하면, [입력 예제 1] 및 [입력 예제 2] 모두는 '호수'라는 동일한 단어를 포함한다. 그런데, 푸카키 호수에 관한 설명인 [입력 예제 1]에서는 '호수'의 중요도 점수는 '0.91~0.94'로 높게 측정된 반면, [입력 예제 2]에서의 '호수'의 중요도 점수는 '0.03'으로 낮게 측정되었다.

대신, 크로아티아로 여행 및 관련 정보인 [입력 예제 2]에서는 '여행', '떠나다', '크로아티아' 및 '나라'와 같은 단어들의 중요도 점수가 높게 측정되었다.

즉, 문서의 주요 내용에 따라, 동일한 단어라도 문서마다 그 중요도 점수가 상이하게 추론됨을 알 수 있다. 또한, 동일한 텍스트 내 동일한 단어라도 주변 문맥에 따라 중요도가 다르게 나타날 수도 있다.

한편, 단어 중요도 측정부(110)는, 입력되는 텍스트에 포함된 복수의 단어들 각각에 대한 중요도 점수에 따라 색 또는 음영으로 구분하여 표시된 결과를 출력할 수 있다.

도 3 및 도 4에는 표시되어 있지 않지만, 단어 중요도 추론 결과는 중요도 점수에 따라 색 및 음영으로 구분하여 표시되도록 할 수 있다. 예컨대, 중요도 점수가 높을수록 녹색에 가깝게 표시되고, 중요도 점수가 낮을수록 붉은색에 가깝게 표시될 수 있다.

도 5는 실시예에 따른 문장 중요도 측정부의 동작을 설명하기 위한 순서도이다.

도 5를 참조하면, 문장 중요도 측정부(120)는, 우선 텍스트에 포함된 문장들을 단어 중요도 측정부(110)에 의해 추론된 단어 중요도 점수 결과를 기반으로 필터링한다(S210).

즉, 문장에 포함된 복수의 단어들의 중요도 점수가 제1 임계치 이상인 단어들을 선별하고, 선별된 단어들을 기반으로 문장 중요도 점수를 산출할 수 있다.

예컨대, 문장 필터링하기 위한 단어 중요도 점수의 제1 임계치(threshold)를 '0.2'로 할 경우, <표 1>의 [입력 예제 2]에서 첫째 줄과 둘째 줄의 문장은 각각에 포함된 단어들 각각의 중요도 점수는 다음의 <표 2>와 같이 제1 임계치 미만이므로 필터링된다.

러브/NNG_	-0.0034	크로아티아/NNP	0.1906	./SF_	-0.0040
프로그램/NNG_	0.1041	소개/NNG_	0.0090	./SF_	-0.0068

즉, 중요도 점수가 제1 임계치보다 낮은 단어들로 구성된 문장은 문서에서 서술하는 주요 정보와는 동떨어져 검색시 노이즈로 작용할 확률이 높다. 또한, '크로아티아'라는 단어가 [입력 예제 2]에서 중요한 단어이긴 하나, 이외의 문장에서도 출현하기 때문에 중요한 정보 손실 우려도 적다.

다음으로, 문장 중요도 측정부(120)는, 문장에 포함된 복수의 단어들의 중요도 점수를 기반으로 적어도 하나 이상의 자질 정보를 추출한다(S220~S240).

이때, 적어도 하나 이상의 자질 정보를 추출하는 단계(S220~S240)는, 복수의 단어들의 중요도 점수의 평균을 산출하는 단계를 포함할 수 있다(S220).

즉, 문장 중요도 측정부(120)는, 텍스트에 포함된 문장들을 단어 중요도 측정부(110)에 의해 추론된 단어 중요도 점수 결과를 기반으로 문장들 각각에 대한 점수를 다음의 <수학식 1>과 같이 추출한다.

<수학식 1>과 같이 문장 중요도(sentence_weight_i)는 문장에 포함된 단어들 각각의 중요도 점수(word_context_weight(T_k))의 합으로 산출될 수 있다. 이때, 문장의 길이가 길면 중요도 점수의 합이 커지게 되므로, <수학식 1>과 같이 문장 중요도(sentence_weight)는 문장에 포함된 단어들의 개수(n)를 고려하여 산출된다. 즉, <수학식 1>과 같이 문장 중요도(sentence_weight_i)는 문장을 구성하는 단어들의 중요도 점수의 평균으로 계산된다.

또한, 적어도 하나 이상의 자질 정보를 추출하는 단계(S220~S240)는, 복수의 단어들에서 소정 제2 임계치 이상의 중요도 점수를 갖는 단어의 수의 비율을 고려하여 문장의 중요도 점수를 산출하는 단계(S230)를 포함할 수 있다. 이는 S220에서 산출된 문장 중요도 점수는 그 길이가 짧고, 중요도 점수가 높은 단어들 몇 개만 포함되어 있어도 높은 점수를 받을 가능성이 있어, 이를 보완하기 위함이다.

또한, 적어도 하나 이상의 자질 정보를 추출하는 단계(S220~S240)는, 품사 기반으로 내용어에 해당하는 단어들의 수를 기반으로 문장 점수를 추출하는 단계(S240)를 포함할 수 있다.

이때, 문장 내 단어의 형태소 타입을 고려하여 내용어와 기능어를 구분하고, 내용어 중요도 비율을 측정한다.

이때, 내용어에 해당하는 품사는, 명사, 동사, 형용사, 부사 및 관형사를 포함할 수 있다. 또한, 기능어에 해당하는 품사는, 조사 및 어미를 포함할 수 있다.

이때, 문장 점수는 <수학식 1>과 같이 중요도 점수의 평균으로 환산되거나, S230과 같이 중요 단어 빈도로 계산될 수 있다.

문장 중요도 측정부(130)는, 추출된 적어도 하나의 자질 정보 각각에 가중치를 부여하여 문장 중요도 점수를 산출하는 단계를 수행할 수 있다.

다음으로, 문장 중요도 측정부(120)는, S220 내지 S240에서 산출된 문장 점수들 중 적어도 하나를 기반으로 문장 중요도를 측정한다(S250).

S250에서 문장 중요도 점수는 다음의 <수학식 2>에 의해 산출될 수 있다.

<수학식 2>에서 a, b, c는 각 자질의 가중치일 수 있다.

다음의 <표 3>은 전술한 <표 1>의 [입력 예제 2]에 대한 문장 중요도 측정부(220)의 출력 예제이다.

문장 중요도 측정부(220)는 [입력 예제 2]에 대한 문장 점수를 상기 <수학식 2>를 이용하여 계산할 때, a, b, c의 가중치는 1로 가정하여 계산하였다.

문장 번호	문장	상태	자질1	자질2	자질3	문장 점수
1	러브 크로아티아	필터링
2	프로그램 소개	필터링
3	-대한민국의 유명 방송국 아나운서 출신 오정연, 최송현이 크로아티아로 떠난다! 발칸 반도의 영원한 ..(생략).	유지	0.0415	0.8	2.9999	3.8414
4	작년 케이블 방송에서의 프로그램을 통해 한국인이 가장 방문하고 싶은 나라로 인기 급상승 중이..(생략).	유지	0.0689	0.8	2.8254	3.6943
5	요트를 타고 떠나는 그녀들의 우정 여행! 크로아티아의 대표적인 섬을 돌며 그곳이 숨겨진 매력을 파헤쳐본다.	유지	0.0364	0.2	1.1362	1.3726

<표 3>을 참조하면, 문장 번호 1 및 2에 해당하는 문장은 중요한 단어가 없어 필터링되고, 문장 번호 3 내지 5를 대상으로 전술한 S220 내지 S240이 수행되어 산출된 자질 1 내지 3을 기반으로 <수학식 2>에 의해 문장 점수가 산출된다.

이때, 문장 중요도 측정부(130)는, 산출된 문장 중요도 점수에 따라 복수의 문장들을 순위화할 수 있다. 따라서, 추후 검색에 따라 문장 랭킹에 따라 색인이 수행되거나, 검색 결과를 제공해 줄 수 있다.

이때, 색인부(130)는, 하위 순위의 문장들을 제외하고 색인을 수행할 수 있다. 그리고, 검색에서 문장의 중요도는 검색 수행시 질의에 따라 상대적이므로, 정답 문장은 미리 정하지 않고, 문맥 정보와, 단어 및 문장의 중요도에 따라 순위가 산정될 수 있다.

도 6은 실시예에 따른 중요 문장 기반 색인 방법을 설명하기 위한 순서도이다.

도 7을 참조하면, 실시예에 따른 중요 문장 기반 색인 방법은, 미리 학습된 단어 중요도 측정 모델을 기반으로 입력되는 텍스트에 포함된 복수의 단어들 각각에 대한 해당 텍스트에서의 중요도를 측정하는 단계(S310), 측정된 복수의 단어들 각각에 대한 중요도를 기반으로 텍스트에 포함된 적어도 하나의 문장 각각에 대한 중요도를 측정하는 단계(S320), 및 측정된 문장 중요도 점수를 기반으로 색인 대상 문장을 추출하고, 추출된 문장에 색인을 수행하는 단계(S340)를 포함할 수 있다.

이때, 문장 각각에 대한 중요도를 측정하는 단계(S310)는, 문장에 포함된 복수의 단어들의 중요도 점수가 제1 임계치 이상인 단어들을 선별하고, 선별된 단어들을 기반으로 문장 중요도 점수를 산출할 수 있다.

이때, 문장 각각에 대한 중요도를 측정하는 단계(S320)는, 문장에 포함된 복수의 단어들의 중요도 점수를 기반으로 적어도 하나 이상의 자질 정보를 추출하는 단계 및 추출된 적어도 하나의 자질 정보 각각에 가중치를 부여하여 문장 중요도 점수를 산출하는 단계를 포함할 수 있다.

이때, 실시예에 따른 중요 문장 기반 색인 방법은, 산출된 문장 중요도 점수에 따라 복수의 문장들을 순위화하는 단계(S330)를 더 포함하고, 색인을 수행하는 단계는, 하위 순위의 문장들을 제외하고 색인을 수행할 수 있다.

도 7은 실시예에 따른 중요 문장 기반 검색 방법을 설명하기 위한 순서도이다.

도 7을 참조하면, 실시예에 따른 중요 문장 기반 검색 방법은, 질의 정보가 입력됨에 따라, 질의 정보에 상응하는 색인을 가지는 중요 문장을 검색하는 단계(S410~S430) 및 검색된 중요 문장을 포함하는 텍스트를 중요 문장과 함께 출력하는 단계(S440)를 포함할 수 있다.

이때, 질의 정보가 문장일 경우, 검색하는 단계(S410~S430)는, 질의 문장에 포함된 복수의 단어들 각각에 대한 중요도 점수를 측정하는 단계(S410) 및 중요도 점수를 기반으로 중요 단어를 결정하는 단계(S420)를 더 포함하고, 중요도 점수가 높은 단어를 기반으로 검색을 수행할 수 있다. 즉, 사용자로부터 자연어 질문 또는 질의어를 입력받았을 때, 질문 내에서도 어떤 단어가 중요한 단어인지 판단된다.

예컨대, "걸그룹 에이핑크에서 2013년 탈퇴한 멤버는?"라는 질문이 입력될 경우, 다음의 <표 4>는 생성되는 쿼리의 예제이다.

단어	'걸그룹/NNP', '에이핑크/NNG','에서/JKB', '2013/SN','년/NNB','탈퇴/NNG', '하/XSV','ㄴ/ETM', '멤버/NNG','는/JX', '?/SF',
단어 중요도	0.58717, 0.94542, 0.0001, 0.02035, 0.0644, 0.32756,9e-05, 5e-05, 0.26495, 0.0001, 8e-05,
쿼리 필터링	'에서/JKB','하/XSV','ㄴ/ETM','는/JX', '?/SF'
쿼리 생성	걸그룹^0.587 에이핑크/NNG^0.945 2013/SN^0.020 년/NNB^0.064 탈퇴/NNG^0.327 멤버/NNG^0.264

이때, 단어들은 질의 정보를 형태소 분석한 결과이고, 단어 중요도 점수는 전술한 단어 중요도 측정부(110)에 의해 생성될 수 있다.

이때, 중요 단어를 결정하는 단계(S420)는 S410에서 산출된 중요도 점수를 기반으로 중요도가 낮은 단어들은 필터링한다. 예컨대, <표 4>에서와 같이, 단어의 중요도는 조사, 어미, 특수 문자와 같은 단어들은 중요도가 낮게 추론되고,'에이핑크','걸그룹','탈퇴'순으로 중요도가 높은 단어라 추론될 수 있다.

따라서, 검색하는 단계(S410~S430)는, <표 4>에서와 같이 중요 단어들을 포함하는 쿼리를 생성하고, 생성된 쿼리를 기반으로 검색을 수행하므로, 단어 중요도를 반영하여 검색을 수행할 수 있다..

한편, 출력하는 단계(S440)에서는, 중요 문장 색인 단계에서 선택된 중요 문장들에 대한 검색 결과를 출력한다.

도 8은 실시예에 따른 검색 결과 출력을 종래와 비교하기 위한 예시도이다.

도 8에는 '푸카키 호수'에 대한 검색 결과를 제시하는 예시가 도시되어 있는데, 좌측에는 기존 검색 출력 결과가 도시되고, 우측에는 실시예에 따른 검색 출력 결과를 도시되어 있다.

기존의 검색 결과를 참조하면, 검색된 텍스트의 문장 순서대로 길이를 제한하여 일부 결과를 제시하고 있어, '푸카키 호수'에 대한 내용이 없더라도, 검색 초기 결과로 출력된다. 이럴 경우, 실제 전체 문서 내에는 어떤 내용이 있는지 알기 위해서는 사용자가 '마우스 클릭' 등과 같은 사용자 선택 신호를 입력하여 전체 문서를 열어보아야만 한다. 또한, 전체 문서를 열어서 확인한다고 하더라도 사용자의 질의 내용과 매칭되는 내용이 전체 문서에 어디에 있는지 알기는 용이하지 않다.

반면, 실시예에 따른 검색 결과를 참조하면, 중요 문장의 결과만 길이를 제한하여 일부 제시한다. 이럴 경우, 전체 문서 내에서 중요도가 큰 문장을 우선적으로 검색 결과로 제시하므로, 전체 문서를 일일히 열어볼 필요가 없을 뿐만 아니라 사용자가 요구하는 내용이 문서의 어디에 위치하는지를 알 수 있도록 할 수 있다.

도 9는 실시예에 따른 컴퓨터 시스템 구성을 나타낸 도면이다.

실시예에 따른 중요 문장 기반 색인 및 검색 서비스 제공 장치는 컴퓨터로 읽을 수 있는 기록매체와 같은 컴퓨터 시스템(1000)에서 구현될 수 있다.

컴퓨터 시스템(1000)은 버스(1020)를 통하여 서로 통신하는 하나 이상의 프로세서(1010), 메모리(1030), 사용자 인터페이스 입력 장치(1040), 사용자 인터페이스 출력 장치(1050) 및 스토리지(1060)를 포함할 수 있다. 또한, 컴퓨터 시스템(1000)은 네트워크(1080)에 연결되는 네트워크 인터페이스(1070)를 더 포함할 수 있다. 프로세서(1010)는 중앙 처리 장치 또는 메모리(1030)나 스토리지(1060)에 저장된 프로그램 또는 프로세싱 인스트럭션들을 실행하는 반도체 장치일 수 있다. 메모리(1030) 및 스토리지(1060)는 휘발성 매체, 비휘발성 매체, 분리형 매체, 비분리형 매체, 통신 매체, 또는 정보 전달 매체 중에서 적어도 하나 이상을 포함하는 저장 매체일 수 있다. 예를 들어, 메모리(1030)는 ROM(1031)이나 RAM(1032)을 포함할 수 있다.

이상에서 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

100 : 중요 문장 기반 색인 및 검색 서비스 제공 장치
10 : 단어 중요도 측정 모델 20 : 색인 DB
110 : 단어 중요도 측정부 120 : 문장 중요도 측정부
130 : 색인부 140 : 검색부

Claims

적어도 하나의 프로그램 및 미리 학습된 단어 중요도 측정 모델이 기록된 메모리; 및
프로그램을 실행하는 프로세서를 포함하며,
프로그램은,
단어 중요도 측정 모델을 기반으로 입력되는 텍스트에 포함된 복수의 단어들 각각에 대한 해당 텍스트에서의 중요도를 측정하는 단어 중요도 측정부; 및
측정된 복수의 단어들 각각에 대한 중요도를 기반으로 텍스트에 포함된 적어도 하나의 문장 각각에 대한 중요도를 측정하는 문장 중요도 측정부를 포함하는, 중요 문장 기반 검색 서비스 제공 장치.
제1 항에 있어서, 단어 중요도 추론 모델은,
텍스트에 포함된 복수의 단어들 각각의 인코딩 값이 문맥에서의 중요도에 따라 '0' 또는 '1'로 레이블된 학습 데이터에 의해 미리 학습된 뉴럴 레이어로 구성된 것인, 중요 문장 기반 검색 서비스 제공 장치.
제2 항에 있어서, 레이블은,
텍스트의 형태가 정형화되어 있는지의 여부에 따라, 수동 또는 자동으로 선택적으로 태깅되는, 중요 문장 기반 검색 서비스 제공 장치.
제1 항에 있어서, 단어 중요도 측정부는,
입력되는 텍스트에 포함된 복수의 단어들 각각에 대한 중요도 점수에 따라 색 또는 음영으로 구분하여 표시된 결과를 출력하는, 중요 문장 기반 검색 서비스 제공 장치.
제1 항에 있어서, 문장 중요도 측정부는,
문장에 포함된 복수의 단어들의 중요도 점수가 제1 임계치 이상인 단어들을 선별하고, 선별된 단어들을 기반으로 문장 중요도 점수를 산출하는, 중요 문장 기반 검색 서비스 제공 장치.
제5 항에 있어서, 문장 중요도 측정부는,
문장에 포함된 복수의 단어들의 중요도 점수를 기반으로 적어도 하나 이상의 자질 정보를 추출하는 단계; 및
추출된 적어도 하나의 자질 정보 각각에 가중치를 부여하여 문장 중요도 점수를 산출하는 단계를 수행하는, 중요 문장 기반 검색 서비스 제공 장치.
제6 항에 있어서, 적어도 하나 이상의 자질 정보를 추출하는 단계는,
복수의 단어들의 중요도 점수의 평균을 산출하는 단계;
복수의 단어들에서 소정 제2 임계치 이상의 중요도 점수를 갖는 단어의 수를 산출하는 단계; 및
품사 기반으로 내용어에 해당하는 단어들의 수를 산출하는 단계 중 적어도 하나를 포함하는, 중요 문장 기반 검색 서비스 제공 장치.
제6 항에 있어서, 문장 중요도 측정부는,
산출된 문장 중요도 점수에 따라 복수의 문장들을 순위화하는, 중요 문장 기반 검색 서비스 제공 장치.
제1 항에 있어서,
문장 중요도 측정부에 의해 측정된 문장 중요도 점수를 기반으로 색인 대상 문장을 추출하고, 추출된 문장에 색인을 수행하는 색인부를 더 포함하는, 중요 문장 기반 검색 서비스 제공 장치.
제9 항에 있어서, 문장 중요도 측정부는,
산출된 문장 중요도 점수에 따라 복수의 문장들을 순위화하고,
색인부는,
하위 순위의 문장들을 제외하고 색인을 수행하는, 중요 문장 기반 검색 서비스 제공 장치.
제1 항에 있어서,
질의 정보가 입력됨에 따라, 질의 정보에 상응하는 텍스트를 검색하여 출력하되, 색인된 중요 문장을 추출하여 출력하는 검색부를 더 포함하는, 중요 문장 기반 검색 서비스 제공 장치.
제11 항에 있어서, 검색부는,
질의 정보가 문장일 경우, 질의 문장을 단어 중요도 측정부에 의해 입력하여 질의 문장에 포함된 복수의 단어들 각각에 대한 중요도 점수를 획득하고, 중요도 점수가 높은 단어를 기반으로 검색을 수행하는, 중요 문장 기반 검색 서비스 제공 장치.
미리 학습된 단어 중요도 측정 모델을 기반으로 입력되는 텍스트에 포함된 복수의 단어들 각각에 대한 해당 텍스트에서의 중요도를 측정하는 단계;
측정된 복수의 단어들 각각에 대한 중요도를 기반으로 텍스트에 포함된 적어도 하나의 문장 각각에 대한 중요도를 측정하는 단계; 및
측정된 문장 중요도 점수를 기반으로 색인 대상 문장을 추출하고, 추출된 문장에 색인을 수행하는 단계를 포함하는, 중요 문장 기반 색인 방법.
제13 항에 있어서, 문장 각각에 대한 중요도를 측정하는 단계는,
문장에 포함된 복수의 단어들의 중요도 점수가 제1 임계치 이상인 단어들을 선별하고, 선별된 단어들을 기반으로 문장 중요도 점수를 산출하는, 중요 문장 기반 색인 방법.
제14 항에 있어서, 문장 각각에 대한 중요도를 측정하는 단계는,
문장에 포함된 복수의 단어들의 중요도 점수를 기반으로 적어도 하나 이상의 자질 정보를 추출하는 단계; 및
추출된 적어도 하나의 자질 정보 각각에 가중치를 부여하여 문장 중요도 점수를 산출하는 단계를 포함하는, 중요 문장 기반 색인 방법.
제14 항에 있어서, 적어도 하나 이상의 자질 정보를 추출하는 단계는,
복수의 단어들의 중요도 점수의 평균을 산출하는 단계;
복수의 단어들에서 소정 제2 임계치 이상의 중요도 점수를 갖는 단어의 수를 산출하는 단계; 및
품사 기반으로 내용어에 해당하는 단어들의 수를 산출하는 단계 중 적어도 하나를 포함하는, 중요 문장 기반 색인 방법.
제14 항에 있어서,
산출된 문장 중요도 점수에 따라 복수의 문장들을 순위화하는 단계를 더 포함하고,
색인을 수행하는 단계는,
하위 순위의 문장들을 제외하고 색인을 수행하는, 중요 문장 기반 색인 방법.
질의 정보가 입력됨에 따라, 질의 정보에 상응하는 색인을 가지는 중요 문장을 검색하는 단계;
검색된 중요 문장을 포함하는 텍스트를 중요 문장과 함께 출력하는 단계를 포함하는, 중요 문장 기반 검색 방법.
제18 항에 있어서,
질의 정보가 문장일 경우, 질의 문장에 포함된 복수의 단어들 각각에 대한 중요도 점수를 측정하는 단계를 더 포함하고,
검색하는 단계는,
중요도 점수가 높은 단어를 기반으로 검색을 수행하는, 중요 문장 기반 검색 방법.