KR20110040147A - 신뢰도에 기반한 질의응답 장치 및 그 방법 - Google Patents

신뢰도에 기반한 질의응답 장치 및 그 방법 Download PDF

Info

Publication number
KR20110040147A
KR20110040147A KR1020090097306A KR20090097306A KR20110040147A KR 20110040147 A KR20110040147 A KR 20110040147A KR 1020090097306 A KR1020090097306 A KR 1020090097306A KR 20090097306 A KR20090097306 A KR 20090097306A KR 20110040147 A KR20110040147 A KR 20110040147A
Authority
KR
South Korea
Prior art keywords
document
reliability
correct
documents
candidate
Prior art date
Application number
KR1020090097306A
Other languages
English (en)
Other versions
KR101284788B1 (ko
Inventor
오효정
이충희
임수종
허정
김현기
최미란
윤여찬
이창기
황이규
장명길
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020090097306A priority Critical patent/KR101284788B1/ko
Priority to US12/814,220 priority patent/US8380713B2/en
Publication of KR20110040147A publication Critical patent/KR20110040147A/ko
Application granted granted Critical
Publication of KR101284788B1 publication Critical patent/KR101284788B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/40Data acquisition and logging

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

본 발명의 신뢰도에 기반한 질의응답 장치는, 문서 집합 내에 포함된 문서들 중 문서 신뢰도가 임계치를 만족하는 문서들을 색인하여 지식 저장부에 저장하는 정답 색인부; 사용자 질의에 대한 정답 후보 문서들을 지식 저장부로부터 추출하는 정답후보 추출부; 정답후보 추출부에 의해 추출된 정답 후보 문서들의 비문서 자질(non-textual feature)을 분석하여 각각의 정답 후보 문서에 대한 출처 신뢰도를 측정하는 정답출처신뢰도 측정부; 정답후보 추출부에 의해 추출된 정답 후보 문서들의 추출 전략의 타당성을 분석하여 각각의 정답 후보 문서에 대한 추출전략 신뢰도를 측정하는 정답추출전략신뢰도 측정부; 및 정답 후보 문서들의 문서 신뢰도, 출처 신뢰도, 및 추출전략 신뢰도를 기반으로 정답 후보 문서들을 순위화하여 정답 후보 신뢰도 리스트를 생성하는 신뢰도 통합부를 구비한다.
정답 추출, 신뢰도, 문서, 관리, 출처, 질의, 응답, 품질

Description

신뢰도에 기반한 질의응답 장치 및 그 방법{APPARATUS FOR QUESTION ANSWERING BASED ON ANSWER TRUSTWORTHINESS AND METHOD THEREOF}
본 발명은 신뢰도에 기반한 질의응답 장치 및 그 방법에 관한 것이다. 보다 상세하게는, 정답 후보들의 신뢰도를 품질, 출처, 정답추출전략 등 다양한 측면에서 측정하여 정답 순위화에 사용하는 질의응답 장치 및 그 방법에 관한 것이다.
본 발명은 지식경제부의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2008-S-020-02, 과제명: 웹 QA 기술개발].
월드 와이드 웹은 상상할 수 있는 거의 모든 주제에 관한 상호 연결된 정보 소스(문서, 이미지 및 미디어 컨텐츠를 비롯한 다양한 포맷으로 되어 있음)의 대규모 집합체를 제공한다. 웹이 성장함에 따라, 이 집합체를 검색하고 특정의 주제와 관련된 컨텐츠를 식별할 수 있는 사용자의 능력이 점차적으로 중요하게 되었고, 이 필요를 충족시키기 위해 현재 다수의 검색 서비스 제공자가 존재한다.
일반적으로, 검색 서비스 제공자는 웹 페이지를 게시하며 이를 통해 사용자는 사용자가 무엇에 관심을 가지고 있는지를 나타내는 질의를 전송할 수 있다. 이 질의에 응답하여, 검색 서비스 제공자는, 일반적으로 "검색 결과" 페이지의 형태 로, 그 질의와 관련있는 것으로 생각되는 웹 페이지들 또는 사이트들로의 링크의 리스트를 작성하여 사용자에게 전송한다.
질의 응답은 일반적으로 이하의 단계들을 수반한다.
먼저, 웹 페이지들 또는 사이트들의 사전 작성된 인덱스 또는 데이터베이스가 질의로부터 추출된 하나 이상의 검색어를 사용하여 검색되어 히트들(검색어를 포함하고 있는 또는 다른 방식으로 질의와 관련있는 것으로 식별되는 목표 페이지 또는 사이트, 또는 목표 페이지 또는 사이트에 대한 참조인 것이 보통임)의 리스트를 작성한다. 이어서, 미리 정해진 기준에 따라 이 히트들에 순위가 매겨지고, (이들 기준에 따른) 최상의 결과가 가장 눈에 잘 띄는 곳에, 예를 들어 리스트의 상단에 배치된다.
순위가 매겨진 히트들의 리스트가 보통은 히트 페이지들 또는 사이트들로의 링크의 리스트를 포함하는 "결과" 페이지(또는 일련의 상호 연결된 페이지)의 형태로 사용자에게 전송된다. 스폰서 링크 또는 광고 등의 다른 특징도 역시 결과 페이지 상에 포함될 수 있다.
히트들의 순위 지정이 사용자의 검색이 성공으로 끝났는지 실패로 끝났는지의 중요한 인자인 경우가 많다. 종종, 질의는 사용자가 모든 히트들을 타당한 시간 내에 조사하는 것이 불가능할 정도로 많은 수의 히트를 반환하게 된다. 사용자가 따라가는 처음 몇 개의 링크가 관련있는 컨텐츠로 안내하지 못한 경우, 이 리스트의 훨씬 더 아래에서 관련있는 컨텐츠가 있을 수도 있지만, 사용자는 이 검색 및 이 검색 서비스 제공자에 대해 포기하는 경우가 많다.
따라서, 관련있는 컨텐츠가 눈에 띄는 곳에 배치될 가능성을 최대화하기 위해, 검색 서비스 제공자는 점점 더 복잡한 페이지 순위 지정 기준 및 방법을 개발하였다. 이러한 방법들 중에는 웹 페이지 또는 웹 문성의 신뢰도를 기반으로 질의에 따른 정답을 추출하는 방법들이 있다.
신뢰도에 기반하여 정답을 추출하는 한 방법으로는, 각종 페이지 또는 각종 사이트에 관한 사용자 판단 정보를 통합해서 문서 검색 시스템에 반영한다. 여기서 사용자 판단 정보는 질의하는 사용자로부터의 판단은 물론, 질의하는 사용자에 의해 그의 '신뢰 네트워크'의 멤버들로부터 선택된 다른 사용자들로부터의 판단들을 포함할 수 있다. 그리고, 사용자는 다른 사용자들과 사용자의 관련들을 나타내는 사회적 네트워크 데이터로부터 신뢰 네트워크를 구성할 수 있다. 상기한 알고리즘의 경우, 신뢰 네트워크에 포함된 사용자들의 문서 관련도 평가결과를 이용해서 문서의 신뢰도를 측정하고 이를 기반으로 검색성능을 높이는 방법으로, 문서 신뢰도를 평가함에 있어서 사람들의 수작업 결과를 이용하기 때문에 정확도는 높다. 하지만, 인적 노력 및 시간이 많이 걸리는 단점이 존재한다.
그리고, 신뢰도에 기반하여 정답을 추출하는 다른 방법에서는, 문서 검색의 centralized와 distributed 문서검색 환경에서 품질 순위화를 위해 유사도 기반 적합도 순위를 결합하는 접근방법을 제시한다. 여기에 사용되는 여섯 가지 품질 평가 자질은 currency, availability, information-to-noise ratio, authority, popularity, 그리고 cohesiveness이다. Centralized 검색에서는 currency, availability, information-to-noise ratio와 page cohesiveness metrics가 사용되 었을 검색 효과에 큰 향상이 있었고, 사이트 선택에서는 availability, information-to-noise ratio, popularity와 cohesiveness metrics가 성능 향상에 중요한 역할을 하였다. 정보 융합에서는 popularity metric가 가장 중요한 역할을 하였다. 정리하면, 품질 평가 자질을 사용하는 것이 centralized와 distributed 문서검색 모두에서 성능향상에 도움이 되었다. 상기한 알고리즘의 경우, 단순히 문서 출처의 신뢰도만을 측정해서 검색성능을 높이는 방법이므로 검색 성능 향상에 한계가 있다.
그리고, 신뢰도에 기반하여 정답을 추출하는 또 다른 방법에서는, 문서품질을 측정하기 위해 클릭 카운트와 같은 비문서 자질들을 사용하기 위한 프레임워크를 제안하다. 이 방법은 커뮤니티 기반 질의응답 서비스의 성능향상을 위해서 클릭 카운트, 정답 채택률, 정답의 길이 등 13개의 비문서 자질을 이용해서 정답 신뢰도를 측정하였고, 실험결과, 성능향상에 도움이 됨을 보였다.
하지만, 상기한 종래 방법들에서는, 단순히 수작업에 의한 문서 신뢰도 평가를 사용하거나, 문서 신뢰도만을 자동으로 계산해서 사용하거나, 클릭 카운트, 정답 채택률 등의 비문서 자질만을 사용하였다. 즉, 종래 방법들은 사용자가 입력한 질의의 키워드와 문서 키워드 간 관련도를 기준으로 하기 때문에, 정답 자체의 신뢰도가 고려되지 않는 단점이 존재한다.
본 발명은 상기한 바와 같은 문제점을 해결하기 위해 고안된 것으로서,
사용자 질의에 대한 정답 후보들의 신뢰도를 문서의 품질, 출처, 정답 추출 전략 등 다각도로 평가하고, 이를 통합한 뒤 점수화하여 정답 순위에 반영하여줌으로써, 사용자에게 신뢰도 있는 정답을 제공해주는 것을 목적으로 한다.
본 발명의 실시예에 따른 신뢰도에 기반한 질의응답 장치는, 문서 집합 내에 포함된 문서들 중 문서 신뢰도가 임계치를 만족하는 문서들을 색인하여 지식 저장부에 저장하는 정답 색인부; 사용자 질의에 대한 정답 후보 문서들을 상기 지식 저장부로부터 추출하는 정답후보 추출부; 상기 정답후보 추출부에 의해 추출된 정답 후보 문서들의 비문서 자질(non-textual feature)을 분석하여 각각의 정답 후보 문서에 대한 출처 신뢰도를 측정하는 정답출처신뢰도 측정부; 상기 정답후보 추출부에 의해 추출된 상기 정답 후보 문서들의 추출 전략의 타당성을 분석하여 각각의 정답 후보 문서에 대한 추출전략 신뢰도를 측정하는 정답추출전략신뢰도 측정부; 및 상기 정답 후보 문서들의 문서 신뢰도, 출처 신뢰도, 및 추출전략 신뢰도를 기반으로 정답 후보 문서들을 순위화하여 정답 후보 신뢰도 리스트를 생성하는 신뢰도 통합부를 구비한다.
특히, 상기 문서 집합 내에 포함된 문서들의 문서 자질(textual feature)을 분석하여 각각의 문서에 대한 문서 신뢰도를 측정하는 문서신뢰도 측정부를 더 구비하는 것을 특징으로 한다.
또한, 상기 문서 자질은, 상기 문서 집합 내에 포함된 문서의 정보성 자질, 및 가독성 자질 중 하나 이상을 포함하는 것을 특징으로 한다.
또한, 상기 정보성 자질은, 문서 길이, 단어 수, 첨부문서의 여부, 및 서술 용어 중 하나 이상을 포함하는 것을 특징으로 한다.
또한, 상기 가독성 자질은, 언어 밀도(lexical density), 인터넷 용어 출현 빈도, 비어 출현 빈도, 및 속어 출현 빈도 중 하나 이상을 포함하는 것을 특징으로 한다.
또한, 상기 정답 색인부는, 상기 문서 집합 내에 포함된 문서들 중 스팸 문서, 및 중복 문서를 제외하고 색인하는 것을 특징으로 한다.
또한, 상기 정답출처신뢰도 측정부는, 해당 정답 후보 문서의 출처(source)와 사용자 질의 간의 관련도, 및 해당 정답 후보 문서의 출처 신빙성을 이용하여 상기 각각의 정답 후보 문서에 대한 출처 신뢰도를 측정하는 것을 특징으로 한다.
또한, 상기 비문서 자질은, 상기 정답 후보 문서의 출처 신빙성 자질, 및 상기 정답 후보 문서의 평판 자질 중 하나 이상을 포함하는 것을 특징으로 한다.
또한, 상기 정답 후보 문서의 출처 신빙성 자질은, 상기 정답 후보 문서의 출처(source)와 사용자 질의 간의 관련도 (relatedness)인 것을 특징으로 한다.
또한, 상기 정답 후보 문서의 평판 자질은, 문서 작성 시간, 댓글(reply)의 수, 피드백(feedback) 수, 및 사용자 추천수 중 하나 이상을 포함하는 것을 특징으로 한다.
또한, 상기 정답추출전략신뢰도 측정부는, 사용자 질의와 해당 정답 후보 문서의 추출 전략 간의 적합도를 이용하여 정답 후보 문서에 대한 추출전략 신뢰도를 측정하는 것을 특징으로 한다.
또한, 상기 정답 후보 신뢰도 리스트를 기반으로 상기 추출된 정답 후보 문서들을 재순위화하여 사용자에게 제공하는 정답 관리부를 더 구비하는 것을 특징으로 한다.
한편, 본 발명의 실시예에 따른 신뢰도에 기반한 질의응답 방법은, 문서 집합 내에 포함된 문서들 중 문서 신뢰도가 임계치를 만족하는 문서들을 색인하여 저장수단에 저장하는 단계; 사용자 질의에 대한 정답 후보 문서들을 상기 저장수단으로부터 추출하는 단계; 추출된 정답 후보 문서들의 비문서 자질(non-textual feature)을 분석하여 각각의 정답 후보 문서에 대한 출처 신뢰도를 측정하는 단계; 추출된 상기 정답 후보 문서들의 추출 전략의 타당성을 분석하여 각각의 정답 후보 문서에 대한 추출전략 신뢰도를 측정하는 단계; 및 상기 정답 후보 문서들의 문서 신뢰도, 출처 신뢰도, 및 추출전략 신뢰도를 기반으로 정답 후보 문서들을 순위화하여 정답 후보 신뢰도 리스트를 생성하는 단계를 포함한다.
특히, 상기 문서 집합 내에 포함된 문서들의 문서 자질(textual feature)을 분석하여 각각의 문서에 대한 문서 신뢰도를 측정하는 단계를 더 포함하는 것을 특징으로 한다.
또한, 상기 문서 자질은, 상기 문서 집합 내에 포함된 문서의 정보성 자질, 및 가독성 자질 중 하나 이상을 포함하는 것을 특징으로 한다.
또한, 상기 정보성 자질은, 문서 길이, 단어 수, 첨부문서의 여부, 및 서술 용어 중 하나 이상을 포함하는 것을 특징으로 한다.
또한, 상기 가독성 자질은, 언어 밀도(lexical density), 인터넷 용어 출현 빈도, 비어 출현 빈도, 및 속어 출현 빈도 중 하나 이상을 포함하는 것을 특징으로 한다.
또한, 상기 문서 집합 내에 포함된 문서들 중 문서 신뢰도가 임계치를 만족하는 문서들을 색인하여 저장수단에 저장하는 단계는, 상기 문서 집합 내에 포함된 문서들 중 스팸 문서, 및 중복 문서를 제외하고 색인하는 것을 특징으로 한다.
또한, 상기 정답 후보 문서에 대한 출처 신뢰도를 측정하는 단계는, 해당 정답 후보 문서의 출처(source)와 사용자 질의 간의 관련도, 및 해당 정답 후보 문서의 출처 신빙성을 이용하여 상기 각각의 정답 후보 문서에 대한 출처 신뢰도를 측정하는 것을 특징으로 한다.
또한, 상기 정답 후보 문서에 대한 추출전략 신뢰도를 측정하는 단계는, 사용자 질의와 해당 정답 후보 문서의 추출 전략 간의 적합도를 이용하여 정답 후보 문서에 대한 추출전략 신뢰도를 측정하는 것을 특징으로 한다.
본 발명에 따르면 다음과 같은 효과가 있다.
기존 질의-정답후보 간의 관련도 만을 기준으로 정답후보를 선택하던 방법에서 탈피, 정답 후보의 신뢰도를 품질, 출처, 정답 추출 전략 등 다각도로 평가하고, 이를 통합 점수화하여 정답 순위에 반영해줌으로써, 사용자에게 보다 신뢰도 높은 정답을 제시할 수 있는 효과가 있다.
뿐만 아니라, 색인 과정에서 신뢰도가 떨어지는 문서를 제외해줌으로써, 불필요한 문서를 분석 및 저장하는데 드는 비용 및 시간을 절약할 수 있는 효과가 있고, 정답 추출 과정 시, 검색 대상 문서 수를 줄여줌으로써, 검색 속도를 향상시킬 수 있는 효과가 있다.
이하, 본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
도 1은 본 발명에 따른 신뢰도에 기반한 질의응답 장치를 설명하기 위한 블럭도이다. 도 2는 도 1의 신뢰도 통합부에서 각각의 신뢰도가 통합되는 과정을 설명하기 위한 도면이다.
도 1 및 도 2를 참조하면, 본 발명의 실시예에 따른 신뢰도에 기반한 질의 응답 장치는, 질의 분석부(10), 정답 색인부(20), 지식 저장부(30), 정답후보 추출부(40), 신뢰도 통합부(50), 및 정답 관리부(60)를 구비한다.
질의 분석부(10)는 사용자로부터 질의를 입력받아(S50) 질의의 주제 및 의도 등을 파악한다(S52). 예를 들어, 질의 분석부(10)는 사용자로부터 입력된 "스타크 래프트 게임 레벨을 올리는 방법?"이라는 질의에 대해, 해당 질의의 주제는 '스타크래프트 게임'에 관한 것이고, 해당 질의의 의도는 '스타크래프트 게임에서 레벨을 올리는 방법'에 관한 것임을 파악한다.
그리고, 질의 분석부(10)는 사용자 질의를 파악한 결과를 정답 후보 추출부(40) 및 신뢰도 통합부(50)에 전달한다.
정답 색인부(20)는 문서 집합 내에 포함된 문서들 중 문서 신뢰도가 임계치를 만족하는 문서들을 색인하여 지식 저장부(30)에 저장한다(S10). 이때 정답 색인부(20)는 문서 집합 내에 포함된 문서들 중 스팸 문서, 및 중복 문서를 제외하고 색인한다. 상기한 문서 집합 내에 포함된 문서들은 커뮤니티(community), 뉴스(news), 블로그(blog), 백과사전, e-book 등에 게시된 문서를 포함하여 검색 대상화할 수 있는 모든 문서를 포함한다.
정답 색인부(20)에서는 색인 과정시 문서 신뢰도에 따라 임계치를 만족하지 못하는 문서들을 제외하고 색인함으로써, 불필요한 문서를 분석 및 저장하는데 드는 비용 및 시간을 절약하는 효과를 얻을 수 있게 할 뿐만 아니라, 정답 추출 과정시 검색 대상 문서 수를 줄여줌으로써 검색 속도를 향상시킬 수 있는 효과가 있다.
정답후보 추출부(40)는 질의 분석부(10)로부터 전달되는 데이터를 기반으로사용자 질의에 대한 정답 후보 문서들(L1)을 지식 저장부(30)로부터 추출한다.
신뢰도 통합부(50)는 정답후보 추출부(40)에 의해 추출된 정답 후보 문서들(L1)의 문서 신뢰도, 출처 신뢰도, 및 추출전략 신뢰도를 기반으로 정답 후보 문서들을 순위화하여 정답 후보 신뢰도 리스트(L2)를 생성한다.
이를 위해, 신뢰도 통합부(50)는 문서신뢰도 측정부(51), 정답출처신뢰도 측정부(53), 및 정답추출전략신뢰도 측정부(55)를 구비한다.
문서신뢰도 측정부(51)는 문서 집합 내에 포함된 문서들의 문서 자질(textual feature)을 분석하여 각각의 문서에 대한 문서 신뢰도를 측정한다. 여기서, 문서 신뢰도는 해당 문서가 얼마나 가독성이 좋은지(readability)를 측정한 값이며, 문서 신뢰도는 문서 집합 내에서 대상 문서의 중복 여부, 스팸 여부, 대상 문서의 신뢰도 값에 의해 종합적으로 판단된다.
문서신뢰도 측정부(51)에서는 문서 집합 내에 중복 문서가 존재하는 경우 원 문서만 남기고 제거하거나, 신뢰도 부여시 가중치를 낮게 부여하여 정답 색인부(20)에서의 색인 과정 시 제거될 수 있도록 한다. 마찬가지로, 문서신뢰도 측정부(51)는 문서 집합 내에 스팸 문서가 존재하는 경우 정보적으로 가치가 없는 문서로 취급하여 제거하거나, 신뢰도 부여시 가중치를 낮게 부여하여 정답 색인부(20)에서의 색인 과정시 제거될 수 있도록 한다.
도 3은 문서 신뢰도가 높은 문서와 낮은 문서를 비교하여 설명하기 위한 예시도이다. 도 3을 참조하면, 도 3의 (a) 문서에는 '스타크래프트'에 관한 개요, 제작사 특징 등이 정문(formal text)으로 기술되어 있어 가독성이 좋은 반면, 도 3의 (b) 문서는 이모티콘, 약자 등과 같은 인터넷 용어들로 기술되어 있어 가독성이 떨어진다.
문서신뢰도 측정부(51)에서 문서의 신뢰도를 측정하기 위한 문서 자질(textual feature)로는 정보성 자질(informativeness feature) 및 가독성 자 질(readability feature)과 같은 것이 있을 수 있으며, 여기서 언급되는 자질들은 적용 도메인에 따라 추가 또는 변경될 수 있음은 물론이다.
상기한 정보성 자질에는 문서 길이, 단어 수, 첨부문서의 여부, 서술 용어 등이 포함될 수 있다. 일반적으로 문서의 길이가 길고, 문서 내에 포함된 단어의 수가 많고(다양한 단어로 기술), 문서에 첨부된 첨부문서(이미지, 비디오 등의 보조 첨부문서)의 수가 많고, 서술 용어가 정문으로 되어 있는 문서일수록 정보성이 좋다고 할 수 있다.
그리고, 상기한 가독성 자질에는 언어 밀도(lexical density), 인터넷 용어(이모티콘, 약자 등) 출현 빈도, 비어 출현 빈도, 및 속어 출현 빈도 등이 포함될 수 있다. 일반적으로 인터넷 용어, 비어, 속어 등이 많이 기재되어 있을수록 가독성이 떨어진다.
정답출처신뢰도 측정부(53)는 정답후보 추출부(40)에 의해 추출된 정답 후보 문서들의 비문서 자질(non-textual feature)을 분석하여 각각의 정답 후보 문서에 대한 출처 신뢰도를 측정한다(S20).
보다 상세하게는, 정답출처신뢰도 측정부(53)는 해당 정답 후보 문서의 출처(source)와 사용자 질의 간의 관련도, 및 해당 정답 후보 문서의 출처 신빙성을 이용하여 각각의 정답 후보 문서에 대한 출처 신뢰도를 측정한다.
상기한 비문서 자질에는 정답 후보 문서의 출처 신빙성 자질, 및 정답 후보 문서의 평판 자질이 있을 수 있다. 여기서 정답 후보 문서의 출처 신빙성 자질에는 정답 후보 문서의 출처와 사용자 질의 간의 관련도가 포함될 수 있다. 그리고, 정 답 후보 문서의 평판 자질은 문서 작성 시간, 댓글(reply)의 수, RSS feed와 같은 피드백(feedback) 수, 및 사용자 추천수 등이 포함될 수 있다. 일반적으로 문서 작성 시간이 최근일수록 신빙성이 더 좋으며, 특정 게시글에 대한 사용자 댓글의 수가 많을수록 사용자들에게 인기가 많은 문서임을 의미한다.
예를 들어, 사용자 어떤 사용자가 '스타크래프트'에서 레벨을 올리는 방법에 관한 질의를 입력한 경우, 이에 대한 정답은 '스타크래프트'를 하는 유저들이 작성한 커뮤니티 게시판 사이트에서 추천수가 가장 높거나, 개인 평판이 높은 사람이 작성한 글에서 찾는 것이 가장 신빙성이 높은 정답 후보가 될 수 있다. 반대로, 사용자가 특정 자연 현상에 대한 원리를 알고 싶어하는 경우, 특정 커뮤니티 게시판 사이트 보다는 백과사전 사이트나 e-book과 같은 출처에서 정답 후보를 추출하여 제시하는 것이 더욱 효과적이다.
정답추출전략신뢰도 측정부(55)는 정답후보 추출부(40)에 의해 추출된 정답 후보 문서들의 추출 전략의 타당성을 분석하여 각각의 정답 후보 문서에 대한 추출전략 신뢰도를 측정한다(S30). 여기서 추출 전략 신뢰도는 사용자 질의에 대한 정답 후보 문서를 정답 후보 추출부(40)에서 추출하는 과정에서, 그 추출 전략이 얼마나 타당한지(appropriate)를 측정한 값이다. 상기한 '추출 전략'은 미리 구축된 데이터베이스에서 정답을 추출하는 방법, 일반 자연어 문장에서 정답을 추출하는 방법, HTML 문서에서 특정 태그로 구별되어 구조화된 정보(예컨대, 테이블)에서 정보를 추출하는 방법 등을 의미하며, 이는 사용자 질의에 따라 추출 전략이 결정된다.
예를 들어, 특정 날짜의 환율을 묻는 질의를 처리하기 위해서는 외환정보를 저장해 놓은 데이터베이스에서 정답 후보 문서를 추출하는 전략으로 선택하고, 어떤 특정 사건을 파악하고 싶은 경우에는 신문 기사와 같이 자연어 문장으로 기술된 문서에서 정답을 추출하는 전략을 선택한다.
또한, 사용자가 "G7에 해당하는 국가가 어디인가요?"를 질의하는 경우, 서로 다른 여러 데이터베이스 또는 문서들에서 'G7'에 해당하는 국가 정보를 부분적으로 추출하고 이를 조합하여 사용자에게 제시하는 것 보다는, 'G7'에 해당하는 국가 정보가 모두 기재되어 있는 하나의 문서를 정답 후보 문서로 추출하는 전략을 선택하는 것이 유리하다. '추출 전략'은 전체 질의응답 시스템에 통합된 다양한 서브 정답 추출 방법론이 추가될 때 마다 갱신될 수 있다.
신뢰도 통합부(50)는 문서신뢰도 측정부(51), 정답출처신뢰도 측정부(53), 정답추출전략신뢰도 측정부(55)를 통해 측정된 정답 후보 문서들의 문서 신뢰도, 출처 신뢰도, 및 추출전략 신뢰도를 기반으로 정답 후보 문서들을 순위화하여 정답 후보 신뢰도 리스트(L2)를 생성한다(S54).
보다 상세하게는, 신뢰도 통합부(50)는 수학식 1에 의해, 측정된 정답 후보 문서들의 문서 신뢰도, 출처 신뢰도, 및 추출전략 신뢰도를 기반으로 정답 후보 문서들을 순위화한다.
Figure 112009062714272-PAT00001
여기서 wi 는 각 정답 후보에 대한 가중치이고 S(a, qi)는 질문과 정답 후보간의 의미적 관련도를 의미하며, tw(1~3)i 는 각 단계별(문서 신뢰도, 출처 신뢰도, 및 추출전략 신뢰도) 신뢰도 값을 의미한다. α,β,γ는 상수(constant) 파라미터로, 실험결과에 따라 최적의 값으로 결정된다.
계산 결과, 최종적으로는 수학식 2와 같은 정답 a*을 사용자에게 제시한다.
Figure 112009062714272-PAT00002
참고로, 기존 질의응답 방법에서는 신뢰도 판단 부분이 제외된 수학식 3을 사용한다.
Figure 112009062714272-PAT00003
마지막으로, 정답 관리부(60)는 생성된 정답 후보 신뢰도 리스트(L2)를 기반으로 추출된 정답 후보 문서들을 재순위화하여 최종적인 정답 리스트(L3)를 사용자에게 제공한다(S56).
도 4는 본 발명에 따른 신뢰도에 기반한 정답 색인 방법을 설명하기 위한 흐름도이다.
도 4를 참조하면, 커뮤니티(community), 뉴스(news), 블로그(blog), 백과사전, e-book 등에 게시된 문서를 포함하여 검색 대상화할 수 있는 모든 문서 집합을 대상으로 해당 문서 집합에 스팸 문서가 포함되어 있는지를 판단한다(S100).
S100 단계에서의 판단결과, 해당 문서 집합에 스팸 문서가 존재하는 경우, 이를 필터링한다(S140).
다음 단계로, 해당 문서 집합에 중복 문서가 포함되어 있는지를 판단한다(S110).
S110 단계에서의 판단결과, 해당 문서 집합에 중복 문서가 포함되어 있는 경우, 원문서 만을 남기고 중복되는 문서들을 필터링한다(S140).
그리고, S140 단계를 통해 스팸 문서와 중복 문서가 모두 필터링된 문서 집합을 대상으로 문서 신뢰도를 측정한다(S120). S120 단계에서의 문서 신뢰도 측정은, 앞서 언급한 방법을 통해서 수행될 수 있다.
해당 문서들의 문서 신뢰도 측정 결과, 문서 신뢰도 값(tw1)이 임계치를 만족하지 못하는 문서들은 필터링하고(S140), 임계치를 만족하는 문서들을 대상으로 색인을 수행한 뒤(S150), 색인된 문서들을 지식 저장부에 저장한다. 색인 과정시 문서 신뢰도에 따라 임계치를 만족하지 못하는 문서들을 제외하고 색인함으로써, 불필요한 문서를 분석 및 저장하는데 드는 비용 및 시간을 절약하는 효과를 얻을 수 있게 할 뿐만 아니라, 정답 추출 과정시 검색 대상 문서 수를 줄여줌으로써 검색 속도를 향상시킬 수 있는 효과가 있다.
한편, 전술한 설명에서는 문서 신뢰도 측정 단계 이전에 중복 문서 및 스팸 문서 여부를 판단하여 필터링하는 것으로 설명하였다. 하지만, 스팸 문서 및 중복 문서의 경우 S120 단계에서 신뢰도 부여시 가중치를 낮게 부여하여 색인 과정시(S130) 제거되도록 할 수도 있다.
이상에서와 같이 도면과 명세서에서 최적의 실시예가 개시되었다. 여기서 특정한 용어들이 사용되었으나, 이는 단지 본 발명을 설명하기 위한 목적에서 사용된 것이지 의미 한정이나 특허청구범위에 기재된 본 발명의 범위를 제한하기 위하여 사용된 것은 아니다. 그러므로, 본 기술 분야의 통상의 지식을 가진자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
도 1은 본 발명에 따른 신뢰도에 기반한 질의 응답 장치를 설명하기 위한 블럭도이다.
도 2는 도 1의 신뢰도 통합부에서 각각의 신뢰도가 통합되는 과정을 설명하기 위한 도면이다.
도 3은 문서 신뢰도가 높은 문서와 낮은 문서를 비교하여 설명하기 위한 예시도이다.
도 4는 본 발명에 따른 신뢰도에 기반한 정답 색인 방법을 설명하기 위한 흐름도이다.
<도면의 주요 부분에 대한 부호의 설명>
10 : 질의 분석부 20 : 정답 색인부
30 : 지식 저장부 40 : 정답후보 추출부
50 : 신뢰도 통합부 51 : 문서신뢰도 측정부
53 : 정답출처신뢰도 측정부 55 : 정답추출전략신뢰도 측정부
60 : 정답 관리부

Claims (20)

  1. 신뢰도에 기반한 질의응답 장치에 관한 것으로서,
    문서 집합 내에 포함된 문서들 중 문서 신뢰도가 임계치를 만족하는 문서들을 색인하여 지식 저장부에 저장하는 정답 색인부;
    사용자 질의에 대한 정답 후보 문서들을 상기 지식 저장부로부터 추출하는 정답후보 추출부;
    상기 정답후보 추출부에 의해 추출된 정답 후보 문서들의 비문서 자질(non-textual feature)을 분석하여 각각의 정답 후보 문서에 대한 출처 신뢰도를 측정하는 정답출처신뢰도 측정부;
    상기 정답후보 추출부에 의해 추출된 상기 정답 후보 문서들의 추출 전략의 타당성을 분석하여 각각의 정답 후보 문서에 대한 추출전략 신뢰도를 측정하는 정답추출전략신뢰도 측정부; 및
    상기 정답 후보 문서들의 문서 신뢰도, 출처 신뢰도, 및 추출전략 신뢰도를 기반으로 정답 후보 문서들을 순위화하여 정답 후보 신뢰도 리스트를 생성하는 신뢰도 통합부를 구비하는 신뢰도에 기반한 질의응답 장치.
  2. 청구항 1에 있어서,
    상기 문서 집합 내에 포함된 문서들의 문서 자질(textual feature)을 분석하 여 각각의 문서에 대한 문서 신뢰도를 측정하는 문서신뢰도 측정부를 더 구비하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 장치.
  3. 청구항 2에 있어서,
    상기 문서 자질은,
    상기 문서 집합 내에 포함된 문서의 정보성 자질, 및 가독성 자질 중 하나 이상을 포함하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 장치.
  4. 청구항 3에 있어서,
    상기 정보성 자질은,
    문서 길이, 단어 수, 첨부문서의 여부, 및 서술 용어 중 하나 이상을 포함하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 장치.
  5. 청구항 3에 있어서,
    상기 가독성 자질은,
    언어 밀도(lexical density), 인터넷 용어 출현 빈도, 비어 출현 빈도, 및 속어 출현 빈도 중 하나 이상을 포함하는 것을 특징으로 하는 신뢰도에 기반한 질 의응답 장치.
  6. 청구항 1에 있어서,
    상기 정답 색인부는,
    상기 문서 집합 내에 포함된 문서들 중 스팸 문서, 및 중복 문서를 제외하고 색인하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 장치.
  7. 청구항 1에 있어서,
    상기 정답출처신뢰도 측정부는,
    해당 정답 후보 문서의 출처(source)와 사용자 질의 간의 관련도, 및 해당 정답 후보 문서의 출처 신빙성을 이용하여 상기 각각의 정답 후보 문서에 대한 출처 신뢰도를 측정하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 장치.
  8. 청구항 1에 있어서,
    상기 비문서 자질은,
    상기 정답 후보 문서의 출처 신빙성 자질, 및 상기 정답 후보 문서의 평판 자질 중 하나 이상을 포함하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 장 치.
  9. 청구항 8에 있어서,
    상기 정답 후보 문서의 출처 신빙성 자질은,
    상기 정답 후보 문서의 출처(source)와 사용자 질의 간의 관련도 (relatedness)인 것을 특징으로 하는 신뢰도에 기반한 질의응답 장치.
  10. 청구항 8에 있어서,
    상기 정답 후보 문서의 평판 자질은,
    문서 작성 시간, 댓글(reply)의 수, 피드백(feedback) 수, 및 사용자 추천수 중 하나 이상을 포함하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 장치.
  11. 청구항 1에 있어서,
    상기 정답추출전략신뢰도 측정부는,
    사용자 질의와 해당 정답 후보 문서의 추출 전략 간의 적합도를 이용하여 정답 후보 문서에 대한 추출전략 신뢰도를 측정하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 장치.
  12. 청구항 1에 있어서,
    상기 정답 후보 신뢰도 리스트를 기반으로 상기 추출된 정답 후보 문서들을 재순위화하여 사용자에게 제공하는 정답 관리부를 더 구비하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 장치.
  13. 신뢰도에 기반한 질의응답 방법에 관한 것으로서,
    문서 집합 내에 포함된 문서들 중 문서 신뢰도가 임계치를 만족하는 문서들을 색인하여 저장수단에 저장하는 단계;
    사용자 질의에 대한 정답 후보 문서들을 상기 저장수단으로부터 추출하는 단계;
    추출된 정답 후보 문서들의 비문서 자질(non-textual feature)을 분석하여 각각의 정답 후보 문서에 대한 출처 신뢰도를 측정하는 단계;
    추출된 상기 정답 후보 문서들의 추출 전략의 타당성을 분석하여 각각의 정답 후보 문서에 대한 추출전략 신뢰도를 측정하는 단계; 및
    상기 정답 후보 문서들의 문서 신뢰도, 출처 신뢰도, 및 추출전략 신뢰도를 기반으로 정답 후보 문서들을 순위화하여 정답 후보 신뢰도 리스트를 생성하는 단계를 포함하는 신뢰도에 기반한 질의응답 방법.
  14. 청구항 13에 있어서,
    상기 문서 집합 내에 포함된 문서들의 문서 자질(textual feature)을 분석하여 각각의 문서에 대한 문서 신뢰도를 측정하는 단계를 더 포함하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 방법.
  15. 청구항 14에 있어서,
    상기 문서 자질은,
    상기 문서 집합 내에 포함된 문서의 정보성 자질, 및 가독성 자질 중 하나 이상을 포함하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 방법.
  16. 청구항 15에 있어서,
    상기 정보성 자질은,
    문서 길이, 단어 수, 첨부문서의 여부, 및 서술 용어 중 하나 이상을 포함하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 방법.
  17. 청구항 15에 있어서,
    상기 가독성 자질은,
    언어 밀도(lexical density), 인터넷 용어 출현 빈도, 비어 출현 빈도, 및 속어 출현 빈도 중 하나 이상을 포함하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 방법.
  18. 청구항 13에 있어서,
    상기 문서 집합 내에 포함된 문서들 중 문서 신뢰도가 임계치를 만족하는 문서들을 색인하여 저장수단에 저장하는 단계는,
    상기 문서 집합 내에 포함된 문서들 중 스팸 문서, 및 중복 문서를 제외하고 색인하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 방법.
  19. 청구항 13에 있어서,
    상기 정답 후보 문서에 대한 출처 신뢰도를 측정하는 단계는,
    해당 정답 후보 문서의 출처(source)와 사용자 질의 간의 관련도, 및 해당 정답 후보 문서의 출처 신빙성을 이용하여 상기 각각의 정답 후보 문서에 대한 출처 신뢰도를 측정하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 방법.
  20. 청구항 13에 있어서,
    상기 정답 후보 문서에 대한 추출전략 신뢰도를 측정하는 단계는,
    사용자 질의와 해당 정답 후보 문서의 추출 전략 간의 적합도를 이용하여 정답 후보 문서에 대한 추출전략 신뢰도를 측정하는 것을 특징으로 하는 신뢰도에 기반한 질의응답 방법.
KR1020090097306A 2009-10-13 2009-10-13 신뢰도에 기반한 질의응답 장치 및 그 방법 KR101284788B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020090097306A KR101284788B1 (ko) 2009-10-13 2009-10-13 신뢰도에 기반한 질의응답 장치 및 그 방법
US12/814,220 US8380713B2 (en) 2009-10-13 2010-06-11 Apparatus for question answering based on answer trustworthiness and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090097306A KR101284788B1 (ko) 2009-10-13 2009-10-13 신뢰도에 기반한 질의응답 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20110040147A true KR20110040147A (ko) 2011-04-20
KR101284788B1 KR101284788B1 (ko) 2013-07-10

Family

ID=43855637

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090097306A KR101284788B1 (ko) 2009-10-13 2009-10-13 신뢰도에 기반한 질의응답 장치 및 그 방법

Country Status (2)

Country Link
US (1) US8380713B2 (ko)
KR (1) KR101284788B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160002162A (ko) * 2014-06-30 2016-01-07 한국전자통신연구원 질의 응답 장치 및 방법
KR20180004960A (ko) * 2016-07-05 2018-01-15 한국전자통신연구원 하이브리드 추론 기반의 자연어 질의응답 시스템 및 그 방법
KR20190064126A (ko) * 2017-11-30 2019-06-10 삼성에스디에스 주식회사 공개 인터페이스를 통해 접수된 답변을 이용한 챗봇 서비스 제공 방법 및 그 장치
KR20210076871A (ko) * 2019-12-16 2021-06-24 부산대학교 산학협력단 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8661029B1 (en) 2006-11-02 2014-02-25 Google Inc. Modifying search result ranking based on implicit user feedback
US9092510B1 (en) 2007-04-30 2015-07-28 Google Inc. Modifying search result ranking based on a temporal element of user feedback
US8909655B1 (en) 2007-10-11 2014-12-09 Google Inc. Time based ranking
US8498974B1 (en) 2009-08-31 2013-07-30 Google Inc. Refining search results
US8972391B1 (en) 2009-10-02 2015-03-03 Google Inc. Recent interest based relevance scoring
US8616896B2 (en) * 2010-05-27 2013-12-31 Qstream, Inc. Method and system for collection, aggregation and distribution of free-text information
US9623119B1 (en) * 2010-06-29 2017-04-18 Google Inc. Accentuating search results
EP2622428A4 (en) 2010-09-28 2017-01-04 International Business Machines Corporation Providing answers to questions using hypothesis pruning
US9047567B2 (en) * 2011-07-15 2015-06-02 International Business Machines Corporation Utilizing failures in question and answer system responses to enhance the accuracy of question and answer systems
CN103797479B (zh) 2011-09-08 2017-02-01 诺基亚技术有限公司 用于混合社交搜索模型的方法和装置
US20130080412A1 (en) * 2011-09-22 2013-03-28 International Business Machines Corporation Short search result along with query suggestions
US10621880B2 (en) 2012-09-11 2020-04-14 International Business Machines Corporation Generating secondary questions in an introspective question answering system
US9342608B2 (en) * 2013-08-01 2016-05-17 International Business Machines Corporation Clarification of submitted questions in a question and answer system
US9965548B2 (en) * 2013-12-05 2018-05-08 International Business Machines Corporation Analyzing natural language questions to determine missing information in order to improve accuracy of answers
US9959315B1 (en) 2014-01-31 2018-05-01 Google Llc Context scoring adjustments for answer passages
US9754207B2 (en) * 2014-07-28 2017-09-05 International Business Machines Corporation Corpus quality analysis
US10019513B1 (en) 2014-08-12 2018-07-10 Google Llc Weighted answer terms for scoring answer passages
US10180964B1 (en) 2014-08-13 2019-01-15 Google Llc Candidate answer passages
US9940367B1 (en) 2014-08-13 2018-04-10 Google Llc Scoring candidate answer passages
US9916348B1 (en) 2014-08-13 2018-03-13 Google Llc Answer facts from structured content
KR102033395B1 (ko) 2014-11-20 2019-10-18 한국전자통신연구원 심층 자연어 질문 분석 기반 구조화된 지식베이스 질의응답 시스템 및 그 방법
US10795921B2 (en) 2015-03-27 2020-10-06 International Business Machines Corporation Determining answers to questions using a hierarchy of question and answer pairs
US9589049B1 (en) * 2015-12-10 2017-03-07 International Business Machines Corporation Correcting natural language processing annotators in a question answering system
US9858336B2 (en) 2016-01-05 2018-01-02 International Business Machines Corporation Readability awareness in natural language processing systems
US9910912B2 (en) 2016-01-05 2018-03-06 International Business Machines Corporation Readability awareness in natural language processing systems
JP6986978B2 (ja) * 2018-01-16 2021-12-22 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
CN109492076B (zh) * 2018-09-20 2022-02-11 西安交通大学 一种基于网络的社区问答网站答案可信评估方法
CN113268566B (zh) * 2021-05-28 2022-06-14 平安国际智慧城市科技股份有限公司 问答对的质量评价方法、装置、设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004510215A (ja) * 2000-05-19 2004-04-02 ネットスケープ コミュニケーションズ コーポレーション 適合化可能なマルチ階層認証システム
JP2003150624A (ja) 2001-11-12 2003-05-23 Mitsubishi Electric Corp 情報抽出装置および情報抽出方法
JP2005092271A (ja) 2003-09-12 2005-04-07 Hitachi Ltd 質問応答方法及び質問応答装置
EP1777633A3 (en) 2003-09-30 2007-12-12 Google, Inc. Document scoring based on query analysis
KR100824091B1 (ko) 2004-03-15 2008-04-21 야후! 인크. 신뢰 네트워크로부터의 사용자 주석들을 통합한 검색시스템 및 방법
KR20090021230A (ko) 2004-10-28 2009-02-27 야후! 인크. 신뢰 네트워크를 포함하는 사용자 판단의 통합을 갖는 검색시스템 및 방법
US8244720B2 (en) * 2005-09-13 2012-08-14 Google Inc. Ranking blog documents
US20070209069A1 (en) * 2006-03-03 2007-09-06 Motorola, Inc. Push-to-ask protocol layer provisioning and usage method
US20070208727A1 (en) * 2006-03-03 2007-09-06 Motorola, Inc. Trust metric-based querying method
WO2008088607A1 (en) * 2007-01-15 2008-07-24 Motorola, Inc. Method and system for facilitating questioning in networks
KR101173556B1 (ko) * 2008-12-11 2012-08-13 한국전자통신연구원 토픽맵 기반 색인 장치, 토픽맵 기반 검색 장치, 토픽맵 기반 검색 시스템 및 그 방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160002162A (ko) * 2014-06-30 2016-01-07 한국전자통신연구원 질의 응답 장치 및 방법
KR20180004960A (ko) * 2016-07-05 2018-01-15 한국전자통신연구원 하이브리드 추론 기반의 자연어 질의응답 시스템 및 그 방법
KR20190064126A (ko) * 2017-11-30 2019-06-10 삼성에스디에스 주식회사 공개 인터페이스를 통해 접수된 답변을 이용한 챗봇 서비스 제공 방법 및 그 장치
KR20210076871A (ko) * 2019-12-16 2021-06-24 부산대학교 산학협력단 테이블 중심의 웹 문서를 위한 기계독해 시스템 및 방법

Also Published As

Publication number Publication date
KR101284788B1 (ko) 2013-07-10
US20110087656A1 (en) 2011-04-14
US8380713B2 (en) 2013-02-19

Similar Documents

Publication Publication Date Title
KR101284788B1 (ko) 신뢰도에 기반한 질의응답 장치 및 그 방법
Jijkoun et al. Retrieving answers from frequently asked questions pages on the web
US9697249B1 (en) Estimating confidence for query revision models
KR101043640B1 (ko) 복수의 질의 정정 모델의 통합
Suryanto et al. Quality-aware collaborative question answering: methods and evaluation
Hassan et al. Beyond clicks: query reformulation as a predictor of search satisfaction
US8010539B2 (en) Phrase based snippet generation
CA2754006C (en) Systems, methods, and software for hyperlinking names
US7870147B2 (en) Query revision using known highly-ranked queries
Weerkamp et al. Credibility improves topical blog post retrieval
US9430533B2 (en) Machine-assisted search preference evaluation
US20130268526A1 (en) Discovery engine
Macdonald et al. High quality expertise evidence for expert search
JPWO2009096523A1 (ja) 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
JP4911599B2 (ja) 風評情報抽出装置及び風評情報抽出方法
Hawking et al. Does topic metadata help with web search?
Oard et al. TREC 2006 at Maryland: Blog, Enterprise, Legal and QA Tracks.
US9305103B2 (en) Method or system for semantic categorization
Akamatsu et al. Measuring comprehensibility of web pages based on link analysis
Sarigil et al. Characterizing, predicting, and handling web search queries that match very few or no results
Pournajaf et al. Long tail query enrichment for semantic job search
Mazieres et al. Toward Google Borders
Hendriksen Extending WASP: providing context to a personal web archive
Strötgen et al. Proximity2-aware Ranking for Textual, Temporal, and Geographic Queries (extended version)
Jatowt et al. Estimating News Coverage of Web Search Results

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20160628

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170627

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20180627

Year of fee payment: 6