KR20110040147A

KR20110040147A - 신뢰도에 기반한 질의응답 장치 및 그 방법

Info

Publication number: KR20110040147A
Application number: KR1020090097306A
Authority: KR
Inventors: 오효정; 이충희; 임수종; 허정; 김현기; 최미란; 윤여찬; 이창기; 황이규; 장명길
Original assignee: 한국전자통신연구원
Priority date: 2009-10-13
Filing date: 2009-10-13
Publication date: 2011-04-20
Also published as: KR101284788B1; US20110087656A1; US8380713B2

Abstract

본 발명의 신뢰도에 기반한 질의응답 장치는, 문서 집합 내에 포함된 문서들 중 문서 신뢰도가 임계치를 만족하는 문서들을 색인하여 지식 저장부에 저장하는 정답 색인부; 사용자 질의에 대한 정답 후보 문서들을 지식 저장부로부터 추출하는 정답후보 추출부; 정답후보 추출부에 의해 추출된 정답 후보 문서들의 비문서 자질(non-textual feature)을 분석하여 각각의 정답 후보 문서에 대한 출처 신뢰도를 측정하는 정답출처신뢰도 측정부; 정답후보 추출부에 의해 추출된 정답 후보 문서들의 추출 전략의 타당성을 분석하여 각각의 정답 후보 문서에 대한 추출전략 신뢰도를 측정하는 정답추출전략신뢰도 측정부; 및 정답 후보 문서들의 문서 신뢰도, 출처 신뢰도, 및 추출전략 신뢰도를 기반으로 정답 후보 문서들을 순위화하여 정답 후보 신뢰도 리스트를 생성하는 신뢰도 통합부를 구비한다.

정답 추출, 신뢰도, 문서, 관리, 출처, 질의, 응답, 품질

Description

신뢰도에 기반한 질의응답 장치 및 그 방법{APPARATUS FOR QUESTION ANSWERING BASED ON ANSWER TRUSTWORTHINESS AND METHOD THEREOF}

본 발명은 신뢰도에 기반한 질의응답 장치 및 그 방법에 관한 것이다. 보다 상세하게는, 정답 후보들의 신뢰도를 품질, 출처, 정답추출전략 등 다양한 측면에서 측정하여 정답 순위화에 사용하는 질의응답 장치 및 그 방법에 관한 것이다.

본 발명은 지식경제부의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2008-S-020-02, 과제명: 웹 QA 기술개발].

월드 와이드 웹은 상상할 수 있는 거의 모든 주제에 관한 상호 연결된 정보 소스(문서, 이미지 및 미디어 컨텐츠를 비롯한 다양한 포맷으로 되어 있음)의 대규모 집합체를 제공한다. 웹이 성장함에 따라, 이 집합체를 검색하고 특정의 주제와 관련된 컨텐츠를 식별할 수 있는 사용자의 능력이 점차적으로 중요하게 되었고, 이 필요를 충족시키기 위해 현재 다수의 검색 서비스 제공자가 존재한다.

일반적으로, 검색 서비스 제공자는 웹 페이지를 게시하며 이를 통해 사용자는 사용자가 무엇에 관심을 가지고 있는지를 나타내는 질의를 전송할 수 있다. 이 질의에 응답하여, 검색 서비스 제공자는, 일반적으로 "검색 결과" 페이지의 형태 로, 그 질의와 관련있는 것으로 생각되는 웹 페이지들 또는 사이트들로의 링크의 리스트를 작성하여 사용자에게 전송한다.

질의 응답은 일반적으로 이하의 단계들을 수반한다.

먼저, 웹 페이지들 또는 사이트들의 사전 작성된 인덱스 또는 데이터베이스가 질의로부터 추출된 하나 이상의 검색어를 사용하여 검색되어 히트들(검색어를 포함하고 있는 또는 다른 방식으로 질의와 관련있는 것으로 식별되는 목표 페이지 또는 사이트, 또는 목표 페이지 또는 사이트에 대한 참조인 것이 보통임)의 리스트를 작성한다. 이어서, 미리 정해진 기준에 따라 이 히트들에 순위가 매겨지고, (이들 기준에 따른) 최상의 결과가 가장 눈에 잘 띄는 곳에, 예를 들어 리스트의 상단에 배치된다.

순위가 매겨진 히트들의 리스트가 보통은 히트 페이지들 또는 사이트들로의 링크의 리스트를 포함하는 "결과" 페이지(또는 일련의 상호 연결된 페이지)의 형태로 사용자에게 전송된다. 스폰서 링크 또는 광고 등의 다른 특징도 역시 결과 페이지 상에 포함될 수 있다.

히트들의 순위 지정이 사용자의 검색이 성공으로 끝났는지 실패로 끝났는지의 중요한 인자인 경우가 많다. 종종, 질의는 사용자가 모든 히트들을 타당한 시간 내에 조사하는 것이 불가능할 정도로 많은 수의 히트를 반환하게 된다. 사용자가 따라가는 처음 몇 개의 링크가 관련있는 컨텐츠로 안내하지 못한 경우, 이 리스트의 훨씬 더 아래에서 관련있는 컨텐츠가 있을 수도 있지만, 사용자는 이 검색 및 이 검색 서비스 제공자에 대해 포기하는 경우가 많다.

따라서, 관련있는 컨텐츠가 눈에 띄는 곳에 배치될 가능성을 최대화하기 위해, 검색 서비스 제공자는 점점 더 복잡한 페이지 순위 지정 기준 및 방법을 개발하였다. 이러한 방법들 중에는 웹 페이지 또는 웹 문성의 신뢰도를 기반으로 질의에 따른 정답을 추출하는 방법들이 있다.

신뢰도에 기반하여 정답을 추출하는 한 방법으로는, 각종 페이지 또는 각종 사이트에 관한 사용자 판단 정보를 통합해서 문서 검색 시스템에 반영한다. 여기서 사용자 판단 정보는 질의하는 사용자로부터의 판단은 물론, 질의하는 사용자에 의해 그의 '신뢰 네트워크'의 멤버들로부터 선택된 다른 사용자들로부터의 판단들을 포함할 수 있다. 그리고, 사용자는 다른 사용자들과 사용자의 관련들을 나타내는 사회적 네트워크 데이터로부터 신뢰 네트워크를 구성할 수 있다. 상기한 알고리즘의 경우, 신뢰 네트워크에 포함된 사용자들의 문서 관련도 평가결과를 이용해서 문서의 신뢰도를 측정하고 이를 기반으로 검색성능을 높이는 방법으로, 문서 신뢰도를 평가함에 있어서 사람들의 수작업 결과를 이용하기 때문에 정확도는 높다. 하지만, 인적 노력 및 시간이 많이 걸리는 단점이 존재한다.

그리고, 신뢰도에 기반하여 정답을 추출하는 다른 방법에서는, 문서 검색의 centralized와 distributed 문서검색 환경에서 품질 순위화를 위해 유사도 기반 적합도 순위를 결합하는 접근방법을 제시한다. 여기에 사용되는 여섯 가지 품질 평가 자질은 currency, availability, information-to-noise ratio, authority, popularity, 그리고 cohesiveness이다. Centralized 검색에서는 currency, availability, information-to-noise ratio와 page cohesiveness metrics가 사용되 었을 검색 효과에 큰 향상이 있었고, 사이트 선택에서는 availability, information-to-noise ratio, popularity와 cohesiveness metrics가 성능 향상에 중요한 역할을 하였다. 정보 융합에서는 popularity metric가 가장 중요한 역할을 하였다. 정리하면, 품질 평가 자질을 사용하는 것이 centralized와 distributed 문서검색 모두에서 성능향상에 도움이 되었다. 상기한 알고리즘의 경우, 단순히 문서 출처의 신뢰도만을 측정해서 검색성능을 높이는 방법이므로 검색 성능 향상에 한계가 있다.

그리고, 신뢰도에 기반하여 정답을 추출하는 또 다른 방법에서는, 문서품질을 측정하기 위해 클릭 카운트와 같은 비문서 자질들을 사용하기 위한 프레임워크를 제안하다. 이 방법은 커뮤니티 기반 질의응답 서비스의 성능향상을 위해서 클릭 카운트, 정답 채택률, 정답의 길이 등 13개의 비문서 자질을 이용해서 정답 신뢰도를 측정하였고, 실험결과, 성능향상에 도움이 됨을 보였다.

하지만, 상기한 종래 방법들에서는, 단순히 수작업에 의한 문서 신뢰도 평가를 사용하거나, 문서 신뢰도만을 자동으로 계산해서 사용하거나, 클릭 카운트, 정답 채택률 등의 비문서 자질만을 사용하였다. 즉, 종래 방법들은 사용자가 입력한 질의의 키워드와 문서 키워드 간 관련도를 기준으로 하기 때문에, 정답 자체의 신뢰도가 고려되지 않는 단점이 존재한다.

본 발명은 상기한 바와 같은 문제점을 해결하기 위해 고안된 것으로서,

사용자 질의에 대한 정답 후보들의 신뢰도를 문서의 품질, 출처, 정답 추출 전략 등 다각도로 평가하고, 이를 통합한 뒤 점수화하여 정답 순위에 반영하여줌으로써, 사용자에게 신뢰도 있는 정답을 제공해주는 것을 목적으로 한다.

본 발명의 실시예에 따른 신뢰도에 기반한 질의응답 장치는, 문서 집합 내에 포함된 문서들 중 문서 신뢰도가 임계치를 만족하는 문서들을 색인하여 지식 저장부에 저장하는 정답 색인부; 사용자 질의에 대한 정답 후보 문서들을 상기 지식 저장부로부터 추출하는 정답후보 추출부; 상기 정답후보 추출부에 의해 추출된 정답 후보 문서들의 비문서 자질(non-textual feature)을 분석하여 각각의 정답 후보 문서에 대한 출처 신뢰도를 측정하는 정답출처신뢰도 측정부; 상기 정답후보 추출부에 의해 추출된 상기 정답 후보 문서들의 추출 전략의 타당성을 분석하여 각각의 정답 후보 문서에 대한 추출전략 신뢰도를 측정하는 정답추출전략신뢰도 측정부; 및 상기 정답 후보 문서들의 문서 신뢰도, 출처 신뢰도, 및 추출전략 신뢰도를 기반으로 정답 후보 문서들을 순위화하여 정답 후보 신뢰도 리스트를 생성하는 신뢰도 통합부를 구비한다.

특히, 상기 문서 집합 내에 포함된 문서들의 문서 자질(textual feature)을 분석하여 각각의 문서에 대한 문서 신뢰도를 측정하는 문서신뢰도 측정부를 더 구비하는 것을 특징으로 한다.

또한, 상기 문서 자질은, 상기 문서 집합 내에 포함된 문서의 정보성 자질, 및 가독성 자질 중 하나 이상을 포함하는 것을 특징으로 한다.

또한, 상기 정보성 자질은, 문서 길이, 단어 수, 첨부문서의 여부, 및 서술 용어 중 하나 이상을 포함하는 것을 특징으로 한다.

또한, 상기 가독성 자질은, 언어 밀도(lexical density), 인터넷 용어 출현 빈도, 비어 출현 빈도, 및 속어 출현 빈도 중 하나 이상을 포함하는 것을 특징으로 한다.

또한, 상기 정답 색인부는, 상기 문서 집합 내에 포함된 문서들 중 스팸 문서, 및 중복 문서를 제외하고 색인하는 것을 특징으로 한다.

또한, 상기 정답출처신뢰도 측정부는, 해당 정답 후보 문서의 출처(source)와 사용자 질의 간의 관련도, 및 해당 정답 후보 문서의 출처 신빙성을 이용하여 상기 각각의 정답 후보 문서에 대한 출처 신뢰도를 측정하는 것을 특징으로 한다.

또한, 상기 비문서 자질은, 상기 정답 후보 문서의 출처 신빙성 자질, 및 상기 정답 후보 문서의 평판 자질 중 하나 이상을 포함하는 것을 특징으로 한다.

또한, 상기 정답 후보 문서의 출처 신빙성 자질은, 상기 정답 후보 문서의 출처(source)와 사용자 질의 간의 관련도 (relatedness)인 것을 특징으로 한다.

또한, 상기 정답 후보 문서의 평판 자질은, 문서 작성 시간, 댓글(reply)의 수, 피드백(feedback) 수, 및 사용자 추천수 중 하나 이상을 포함하는 것을 특징으로 한다.

또한, 상기 정답추출전략신뢰도 측정부는, 사용자 질의와 해당 정답 후보 문서의 추출 전략 간의 적합도를 이용하여 정답 후보 문서에 대한 추출전략 신뢰도를 측정하는 것을 특징으로 한다.

또한, 상기 정답 후보 신뢰도 리스트를 기반으로 상기 추출된 정답 후보 문서들을 재순위화하여 사용자에게 제공하는 정답 관리부를 더 구비하는 것을 특징으로 한다.

한편, 본 발명의 실시예에 따른 신뢰도에 기반한 질의응답 방법은, 문서 집합 내에 포함된 문서들 중 문서 신뢰도가 임계치를 만족하는 문서들을 색인하여 저장수단에 저장하는 단계; 사용자 질의에 대한 정답 후보 문서들을 상기 저장수단으로부터 추출하는 단계; 추출된 정답 후보 문서들의 비문서 자질(non-textual feature)을 분석하여 각각의 정답 후보 문서에 대한 출처 신뢰도를 측정하는 단계; 추출된 상기 정답 후보 문서들의 추출 전략의 타당성을 분석하여 각각의 정답 후보 문서에 대한 추출전략 신뢰도를 측정하는 단계; 및 상기 정답 후보 문서들의 문서 신뢰도, 출처 신뢰도, 및 추출전략 신뢰도를 기반으로 정답 후보 문서들을 순위화하여 정답 후보 신뢰도 리스트를 생성하는 단계를 포함한다.

특히, 상기 문서 집합 내에 포함된 문서들의 문서 자질(textual feature)을 분석하여 각각의 문서에 대한 문서 신뢰도를 측정하는 단계를 더 포함하는 것을 특징으로 한다.

또한, 상기 문서 집합 내에 포함된 문서들 중 문서 신뢰도가 임계치를 만족하는 문서들을 색인하여 저장수단에 저장하는 단계는, 상기 문서 집합 내에 포함된 문서들 중 스팸 문서, 및 중복 문서를 제외하고 색인하는 것을 특징으로 한다.

또한, 상기 정답 후보 문서에 대한 출처 신뢰도를 측정하는 단계는, 해당 정답 후보 문서의 출처(source)와 사용자 질의 간의 관련도, 및 해당 정답 후보 문서의 출처 신빙성을 이용하여 상기 각각의 정답 후보 문서에 대한 출처 신뢰도를 측정하는 것을 특징으로 한다.

또한, 상기 정답 후보 문서에 대한 추출전략 신뢰도를 측정하는 단계는, 사용자 질의와 해당 정답 후보 문서의 추출 전략 간의 적합도를 이용하여 정답 후보 문서에 대한 추출전략 신뢰도를 측정하는 것을 특징으로 한다.

본 발명에 따르면 다음과 같은 효과가 있다.

기존 질의-정답후보 간의 관련도 만을 기준으로 정답후보를 선택하던 방법에서 탈피, 정답 후보의 신뢰도를 품질, 출처, 정답 추출 전략 등 다각도로 평가하고, 이를 통합 점수화하여 정답 순위에 반영해줌으로써, 사용자에게 보다 신뢰도 높은 정답을 제시할 수 있는 효과가 있다.

뿐만 아니라, 색인 과정에서 신뢰도가 떨어지는 문서를 제외해줌으로써, 불필요한 문서를 분석 및 저장하는데 드는 비용 및 시간을 절약할 수 있는 효과가 있고, 정답 추출 과정 시, 검색 대상 문서 수를 줄여줌으로써, 검색 속도를 향상시킬 수 있는 효과가 있다.

이하, 본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.

도 1은 본 발명에 따른 신뢰도에 기반한 질의응답 장치를 설명하기 위한 블럭도이다. 도 2는 도 1의 신뢰도 통합부에서 각각의 신뢰도가 통합되는 과정을 설명하기 위한 도면이다.

도 1 및 도 2를 참조하면, 본 발명의 실시예에 따른 신뢰도에 기반한 질의 응답 장치는, 질의 분석부(10), 정답 색인부(20), 지식 저장부(30), 정답후보 추출부(40), 신뢰도 통합부(50), 및 정답 관리부(60)를 구비한다.

질의 분석부(10)는 사용자로부터 질의를 입력받아(S50) 질의의 주제 및 의도 등을 파악한다(S52). 예를 들어, 질의 분석부(10)는 사용자로부터 입력된 "스타크 래프트 게임 레벨을 올리는 방법?"이라는 질의에 대해, 해당 질의의 주제는 '스타크래프트 게임'에 관한 것이고, 해당 질의의 의도는 '스타크래프트 게임에서 레벨을 올리는 방법'에 관한 것임을 파악한다.

그리고, 질의 분석부(10)는 사용자 질의를 파악한 결과를 정답 후보 추출부(40) 및 신뢰도 통합부(50)에 전달한다.

정답 색인부(20)는 문서 집합 내에 포함된 문서들 중 문서 신뢰도가 임계치를 만족하는 문서들을 색인하여 지식 저장부(30)에 저장한다(S10). 이때 정답 색인부(20)는 문서 집합 내에 포함된 문서들 중 스팸 문서, 및 중복 문서를 제외하고 색인한다. 상기한 문서 집합 내에 포함된 문서들은 커뮤니티(community), 뉴스(news), 블로그(blog), 백과사전, e-book 등에 게시된 문서를 포함하여 검색 대상화할 수 있는 모든 문서를 포함한다.

정답 색인부(20)에서는 색인 과정시 문서 신뢰도에 따라 임계치를 만족하지 못하는 문서들을 제외하고 색인함으로써, 불필요한 문서를 분석 및 저장하는데 드는 비용 및 시간을 절약하는 효과를 얻을 수 있게 할 뿐만 아니라, 정답 추출 과정시 검색 대상 문서 수를 줄여줌으로써 검색 속도를 향상시킬 수 있는 효과가 있다.

정답후보 추출부(40)는 질의 분석부(10)로부터 전달되는 데이터를 기반으로사용자 질의에 대한 정답 후보 문서들(L1)을 지식 저장부(30)로부터 추출한다.

신뢰도 통합부(50)는 정답후보 추출부(40)에 의해 추출된 정답 후보 문서들(L1)의 문서 신뢰도, 출처 신뢰도, 및 추출전략 신뢰도를 기반으로 정답 후보 문서들을 순위화하여 정답 후보 신뢰도 리스트(L2)를 생성한다.

이를 위해, 신뢰도 통합부(50)는 문서신뢰도 측정부(51), 정답출처신뢰도 측정부(53), 및 정답추출전략신뢰도 측정부(55)를 구비한다.

문서신뢰도 측정부(51)는 문서 집합 내에 포함된 문서들의 문서 자질(textual feature)을 분석하여 각각의 문서에 대한 문서 신뢰도를 측정한다. 여기서, 문서 신뢰도는 해당 문서가 얼마나 가독성이 좋은지(readability)를 측정한 값이며, 문서 신뢰도는 문서 집합 내에서 대상 문서의 중복 여부, 스팸 여부, 대상 문서의 신뢰도 값에 의해 종합적으로 판단된다.

문서신뢰도 측정부(51)에서는 문서 집합 내에 중복 문서가 존재하는 경우 원 문서만 남기고 제거하거나, 신뢰도 부여시 가중치를 낮게 부여하여 정답 색인부(20)에서의 색인 과정 시 제거될 수 있도록 한다. 마찬가지로, 문서신뢰도 측정부(51)는 문서 집합 내에 스팸 문서가 존재하는 경우 정보적으로 가치가 없는 문서로 취급하여 제거하거나, 신뢰도 부여시 가중치를 낮게 부여하여 정답 색인부(20)에서의 색인 과정시 제거될 수 있도록 한다.

도 3은 문서 신뢰도가 높은 문서와 낮은 문서를 비교하여 설명하기 위한 예시도이다. 도 3을 참조하면, 도 3의 (a) 문서에는 '스타크래프트'에 관한 개요, 제작사 특징 등이 정문(formal text)으로 기술되어 있어 가독성이 좋은 반면, 도 3의 (b) 문서는 이모티콘, 약자 등과 같은 인터넷 용어들로 기술되어 있어 가독성이 떨어진다.

문서신뢰도 측정부(51)에서 문서의 신뢰도를 측정하기 위한 문서 자질(textual feature)로는 정보성 자질(informativeness feature) 및 가독성 자 질(readability feature)과 같은 것이 있을 수 있으며, 여기서 언급되는 자질들은 적용 도메인에 따라 추가 또는 변경될 수 있음은 물론이다.

상기한 정보성 자질에는 문서 길이, 단어 수, 첨부문서의 여부, 서술 용어 등이 포함될 수 있다. 일반적으로 문서의 길이가 길고, 문서 내에 포함된 단어의 수가 많고(다양한 단어로 기술), 문서에 첨부된 첨부문서(이미지, 비디오 등의 보조 첨부문서)의 수가 많고, 서술 용어가 정문으로 되어 있는 문서일수록 정보성이 좋다고 할 수 있다.

그리고, 상기한 가독성 자질에는 언어 밀도(lexical density), 인터넷 용어(이모티콘, 약자 등) 출현 빈도, 비어 출현 빈도, 및 속어 출현 빈도 등이 포함될 수 있다. 일반적으로 인터넷 용어, 비어, 속어 등이 많이 기재되어 있을수록 가독성이 떨어진다.

정답출처신뢰도 측정부(53)는 정답후보 추출부(40)에 의해 추출된 정답 후보 문서들의 비문서 자질(non-textual feature)을 분석하여 각각의 정답 후보 문서에 대한 출처 신뢰도를 측정한다(S20).

보다 상세하게는, 정답출처신뢰도 측정부(53)는 해당 정답 후보 문서의 출처(source)와 사용자 질의 간의 관련도, 및 해당 정답 후보 문서의 출처 신빙성을 이용하여 각각의 정답 후보 문서에 대한 출처 신뢰도를 측정한다.

상기한 비문서 자질에는 정답 후보 문서의 출처 신빙성 자질, 및 정답 후보 문서의 평판 자질이 있을 수 있다. 여기서 정답 후보 문서의 출처 신빙성 자질에는 정답 후보 문서의 출처와 사용자 질의 간의 관련도가 포함될 수 있다. 그리고, 정 답 후보 문서의 평판 자질은 문서 작성 시간, 댓글(reply)의 수, RSS feed와 같은 피드백(feedback) 수, 및 사용자 추천수 등이 포함될 수 있다. 일반적으로 문서 작성 시간이 최근일수록 신빙성이 더 좋으며, 특정 게시글에 대한 사용자 댓글의 수가 많을수록 사용자들에게 인기가 많은 문서임을 의미한다.

예를 들어, 사용자 어떤 사용자가 '스타크래프트'에서 레벨을 올리는 방법에 관한 질의를 입력한 경우, 이에 대한 정답은 '스타크래프트'를 하는 유저들이 작성한 커뮤니티 게시판 사이트에서 추천수가 가장 높거나, 개인 평판이 높은 사람이 작성한 글에서 찾는 것이 가장 신빙성이 높은 정답 후보가 될 수 있다. 반대로, 사용자가 특정 자연 현상에 대한 원리를 알고 싶어하는 경우, 특정 커뮤니티 게시판 사이트 보다는 백과사전 사이트나 e-book과 같은 출처에서 정답 후보를 추출하여 제시하는 것이 더욱 효과적이다.

정답추출전략신뢰도 측정부(55)는 정답후보 추출부(40)에 의해 추출된 정답 후보 문서들의 추출 전략의 타당성을 분석하여 각각의 정답 후보 문서에 대한 추출전략 신뢰도를 측정한다(S30). 여기서 추출 전략 신뢰도는 사용자 질의에 대한 정답 후보 문서를 정답 후보 추출부(40)에서 추출하는 과정에서, 그 추출 전략이 얼마나 타당한지(appropriate)를 측정한 값이다. 상기한 '추출 전략'은 미리 구축된 데이터베이스에서 정답을 추출하는 방법, 일반 자연어 문장에서 정답을 추출하는 방법, HTML 문서에서 특정 태그로 구별되어 구조화된 정보(예컨대, 테이블)에서 정보를 추출하는 방법 등을 의미하며, 이는 사용자 질의에 따라 추출 전략이 결정된다.

예를 들어, 특정 날짜의 환율을 묻는 질의를 처리하기 위해서는 외환정보를 저장해 놓은 데이터베이스에서 정답 후보 문서를 추출하는 전략으로 선택하고, 어떤 특정 사건을 파악하고 싶은 경우에는 신문 기사와 같이 자연어 문장으로 기술된 문서에서 정답을 추출하는 전략을 선택한다.

또한, 사용자가 "G7에 해당하는 국가가 어디인가요?"를 질의하는 경우, 서로 다른 여러 데이터베이스 또는 문서들에서 'G7'에 해당하는 국가 정보를 부분적으로 추출하고 이를 조합하여 사용자에게 제시하는 것 보다는, 'G7'에 해당하는 국가 정보가 모두 기재되어 있는 하나의 문서를 정답 후보 문서로 추출하는 전략을 선택하는 것이 유리하다. '추출 전략'은 전체 질의응답 시스템에 통합된 다양한 서브 정답 추출 방법론이 추가될 때 마다 갱신될 수 있다.

신뢰도 통합부(50)는 문서신뢰도 측정부(51), 정답출처신뢰도 측정부(53), 정답추출전략신뢰도 측정부(55)를 통해 측정된 정답 후보 문서들의 문서 신뢰도, 출처 신뢰도, 및 추출전략 신뢰도를 기반으로 정답 후보 문서들을 순위화하여 정답 후보 신뢰도 리스트(L2)를 생성한다(S54).

보다 상세하게는, 신뢰도 통합부(50)는 수학식 1에 의해, 측정된 정답 후보 문서들의 문서 신뢰도, 출처 신뢰도, 및 추출전략 신뢰도를 기반으로 정답 후보 문서들을 순위화한다.

여기서 w_i 는 각 정답 후보에 대한 가중치이고 S(a, q_i)는 질문과 정답 후보간의 의미적 관련도를 의미하며, tw_(1~3)i 는 각 단계별(문서 신뢰도, 출처 신뢰도, 및 추출전략 신뢰도) 신뢰도 값을 의미한다. α,β,γ는 상수(constant) 파라미터로, 실험결과에 따라 최적의 값으로 결정된다.

계산 결과, 최종적으로는 수학식 2와 같은 정답 a*을 사용자에게 제시한다.

참고로, 기존 질의응답 방법에서는 신뢰도 판단 부분이 제외된 수학식 3을 사용한다.

마지막으로, 정답 관리부(60)는 생성된 정답 후보 신뢰도 리스트(L2)를 기반으로 추출된 정답 후보 문서들을 재순위화하여 최종적인 정답 리스트(L3)를 사용자에게 제공한다(S56).

도 4는 본 발명에 따른 신뢰도에 기반한 정답 색인 방법을 설명하기 위한 흐름도이다.

도 4를 참조하면, 커뮤니티(community), 뉴스(news), 블로그(blog), 백과사전, e-book 등에 게시된 문서를 포함하여 검색 대상화할 수 있는 모든 문서 집합을 대상으로 해당 문서 집합에 스팸 문서가 포함되어 있는지를 판단한다(S100).

S100 단계에서의 판단결과, 해당 문서 집합에 스팸 문서가 존재하는 경우, 이를 필터링한다(S140).

다음 단계로, 해당 문서 집합에 중복 문서가 포함되어 있는지를 판단한다(S110).

S110 단계에서의 판단결과, 해당 문서 집합에 중복 문서가 포함되어 있는 경우, 원문서 만을 남기고 중복되는 문서들을 필터링한다(S140).

그리고, S140 단계를 통해 스팸 문서와 중복 문서가 모두 필터링된 문서 집합을 대상으로 문서 신뢰도를 측정한다(S120). S120 단계에서의 문서 신뢰도 측정은, 앞서 언급한 방법을 통해서 수행될 수 있다.

해당 문서들의 문서 신뢰도 측정 결과, 문서 신뢰도 값(tw₁)이 임계치를 만족하지 못하는 문서들은 필터링하고(S140), 임계치를 만족하는 문서들을 대상으로 색인을 수행한 뒤(S150), 색인된 문서들을 지식 저장부에 저장한다. 색인 과정시 문서 신뢰도에 따라 임계치를 만족하지 못하는 문서들을 제외하고 색인함으로써, 불필요한 문서를 분석 및 저장하는데 드는 비용 및 시간을 절약하는 효과를 얻을 수 있게 할 뿐만 아니라, 정답 추출 과정시 검색 대상 문서 수를 줄여줌으로써 검색 속도를 향상시킬 수 있는 효과가 있다.

한편, 전술한 설명에서는 문서 신뢰도 측정 단계 이전에 중복 문서 및 스팸 문서 여부를 판단하여 필터링하는 것으로 설명하였다. 하지만, 스팸 문서 및 중복 문서의 경우 S120 단계에서 신뢰도 부여시 가중치를 낮게 부여하여 색인 과정시(S130) 제거되도록 할 수도 있다.

이상에서와 같이 도면과 명세서에서 최적의 실시예가 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로, 본 기술 분야의 통상의 지식을 가진자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.

도 1은 본 발명에 따른 신뢰도에 기반한 질의 응답 장치를 설명하기 위한 블럭도이다.

도 2는 도 1의 신뢰도 통합부에서 각각의 신뢰도가 통합되는 과정을 설명하기 위한 도면이다.

도 3은 문서 신뢰도가 높은 문서와 낮은 문서를 비교하여 설명하기 위한 예시도이다.

<도면의 주요 부분에 대한 부호의 설명>

10 : 질의 분석부 20 : 정답 색인부

30 : 지식 저장부 40 : 정답후보 추출부

50 : 신뢰도 통합부 51 : 문서신뢰도 측정부

53 : 정답출처신뢰도 측정부 55 : 정답추출전략신뢰도 측정부

60 : 정답 관리부

Claims

신뢰도에 기반한 질의응답 장치에 관한 것으로서,

문서 집합 내에 포함된 문서들 중 문서 신뢰도가 임계치를 만족하는 문서들을 색인하여 지식 저장부에 저장하는 정답 색인부;

사용자 질의에 대한 정답 후보 문서들을 상기 지식 저장부로부터 추출하는 정답후보 추출부;

상기 정답후보 추출부에 의해 추출된 정답 후보 문서들의 비문서 자질(non-textual feature)을 분석하여 각각의 정답 후보 문서에 대한 출처 신뢰도를 측정하는 정답출처신뢰도 측정부;

상기 정답후보 추출부에 의해 추출된 상기 정답 후보 문서들의 추출 전략의 타당성을 분석하여 각각의 정답 후보 문서에 대한 추출전략 신뢰도를 측정하는 정답추출전략신뢰도 측정부; 및

상기 정답 후보 문서들의 문서 신뢰도, 출처 신뢰도, 및 추출전략 신뢰도를 기반으로 정답 후보 문서들을 순위화하여 정답 후보 신뢰도 리스트를 생성하는 신뢰도 통합부를 구비하는 신뢰도에 기반한 질의응답 장치.
청구항 1에 있어서,

상기 문서 집합 내에 포함된 문서들의 문서 자질(textual feature)을 분석하 여 각각의 문서에 대한 문서 신뢰도를 측정하는 문서신뢰도 측정부를 더 구비하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 장치.
청구항 2에 있어서,

상기 문서 자질은,

상기 문서 집합 내에 포함된 문서의 정보성 자질, 및 가독성 자질 중 하나 이상을 포함하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 장치.
청구항 3에 있어서,

상기 정보성 자질은,

문서 길이, 단어 수, 첨부문서의 여부, 및 서술 용어 중 하나 이상을 포함하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 장치.
청구항 3에 있어서,

상기 가독성 자질은,

언어 밀도(lexical density), 인터넷 용어 출현 빈도, 비어 출현 빈도, 및 속어 출현 빈도 중 하나 이상을 포함하는 것을 특징으로 하는 신뢰도에 기반한 질 의응답 장치.
청구항 1에 있어서,

상기 정답 색인부는,

상기 문서 집합 내에 포함된 문서들 중 스팸 문서, 및 중복 문서를 제외하고 색인하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 장치.
청구항 1에 있어서,

상기 정답출처신뢰도 측정부는,

해당 정답 후보 문서의 출처(source)와 사용자 질의 간의 관련도, 및 해당 정답 후보 문서의 출처 신빙성을 이용하여 상기 각각의 정답 후보 문서에 대한 출처 신뢰도를 측정하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 장치.
청구항 1에 있어서,

상기 비문서 자질은,

상기 정답 후보 문서의 출처 신빙성 자질, 및 상기 정답 후보 문서의 평판 자질 중 하나 이상을 포함하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 장 치.
청구항 8에 있어서,

상기 정답 후보 문서의 출처 신빙성 자질은,

상기 정답 후보 문서의 출처(source)와 사용자 질의 간의 관련도 (relatedness)인 것을 특징으로 하는 신뢰도에 기반한 질의응답 장치.
청구항 8에 있어서,

상기 정답 후보 문서의 평판 자질은,

문서 작성 시간, 댓글(reply)의 수, 피드백(feedback) 수, 및 사용자 추천수 중 하나 이상을 포함하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 장치.
청구항 1에 있어서,

상기 정답추출전략신뢰도 측정부는,

사용자 질의와 해당 정답 후보 문서의 추출 전략 간의 적합도를 이용하여 정답 후보 문서에 대한 추출전략 신뢰도를 측정하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 장치.
청구항 1에 있어서,

상기 정답 후보 신뢰도 리스트를 기반으로 상기 추출된 정답 후보 문서들을 재순위화하여 사용자에게 제공하는 정답 관리부를 더 구비하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 장치.
신뢰도에 기반한 질의응답 방법에 관한 것으로서,

문서 집합 내에 포함된 문서들 중 문서 신뢰도가 임계치를 만족하는 문서들을 색인하여 저장수단에 저장하는 단계;

사용자 질의에 대한 정답 후보 문서들을 상기 저장수단으로부터 추출하는 단계;

추출된 정답 후보 문서들의 비문서 자질(non-textual feature)을 분석하여 각각의 정답 후보 문서에 대한 출처 신뢰도를 측정하는 단계;

추출된 상기 정답 후보 문서들의 추출 전략의 타당성을 분석하여 각각의 정답 후보 문서에 대한 추출전략 신뢰도를 측정하는 단계; 및

상기 정답 후보 문서들의 문서 신뢰도, 출처 신뢰도, 및 추출전략 신뢰도를 기반으로 정답 후보 문서들을 순위화하여 정답 후보 신뢰도 리스트를 생성하는 단계를 포함하는 신뢰도에 기반한 질의응답 방법.
청구항 13에 있어서,

상기 문서 집합 내에 포함된 문서들의 문서 자질(textual feature)을 분석하여 각각의 문서에 대한 문서 신뢰도를 측정하는 단계를 더 포함하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 방법.
청구항 14에 있어서,

상기 문서 자질은,

상기 문서 집합 내에 포함된 문서의 정보성 자질, 및 가독성 자질 중 하나 이상을 포함하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 방법.
청구항 15에 있어서,

상기 정보성 자질은,

문서 길이, 단어 수, 첨부문서의 여부, 및 서술 용어 중 하나 이상을 포함하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 방법.
청구항 15에 있어서,

상기 가독성 자질은,

언어 밀도(lexical density), 인터넷 용어 출현 빈도, 비어 출현 빈도, 및 속어 출현 빈도 중 하나 이상을 포함하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 방법.
청구항 13에 있어서,

상기 문서 집합 내에 포함된 문서들 중 문서 신뢰도가 임계치를 만족하는 문서들을 색인하여 저장수단에 저장하는 단계는,

상기 문서 집합 내에 포함된 문서들 중 스팸 문서, 및 중복 문서를 제외하고 색인하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 방법.
청구항 13에 있어서,

상기 정답 후보 문서에 대한 출처 신뢰도를 측정하는 단계는,

해당 정답 후보 문서의 출처(source)와 사용자 질의 간의 관련도, 및 해당 정답 후보 문서의 출처 신빙성을 이용하여 상기 각각의 정답 후보 문서에 대한 출처 신뢰도를 측정하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 방법.
청구항 13에 있어서,

상기 정답 후보 문서에 대한 추출전략 신뢰도를 측정하는 단계는,

사용자 질의와 해당 정답 후보 문서의 추출 전략 간의 적합도를 이용하여 정답 후보 문서에 대한 추출전략 신뢰도를 측정하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 방법.