KR20150082754A - 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치 및 정보검색 방법 - Google Patents

위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치 및 정보검색 방법 Download PDF

Info

Publication number
KR20150082754A
KR20150082754A KR1020140002033A KR20140002033A KR20150082754A KR 20150082754 A KR20150082754 A KR 20150082754A KR 1020140002033 A KR1020140002033 A KR 1020140002033A KR 20140002033 A KR20140002033 A KR 20140002033A KR 20150082754 A KR20150082754 A KR 20150082754A
Authority
KR
South Korea
Prior art keywords
document
wikipedia
unit
correct answer
index
Prior art date
Application number
KR1020140002033A
Other languages
English (en)
Other versions
KR101787062B1 (ko
Inventor
류법모
김현기
박상규
배용진
허정
오효정
이충희
임수종
장명길
최미란
최윤재
윤여찬
조요한
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020140002033A priority Critical patent/KR101787062B1/ko
Priority to US14/260,828 priority patent/US10037381B2/en
Publication of KR20150082754A publication Critical patent/KR20150082754A/ko
Application granted granted Critical
Publication of KR101787062B1 publication Critical patent/KR101787062B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치 및 정보검색 방법에 관한 것으로, 본 발명에 따른 일 실시예는 위키피디아 원문에서 본문 문서, 섹션제목 문서, 인포박스 문서, 카테고리 문서 및 정의문 문서를 추출하여 하나 이상의 질의응답용 위키피디아 문서를 생성하는 문서 변환부, 상기 질의응답용 위키피디아 문서를 분석하여, 상기 질의응답용 위키피디아 문서에서 품사 단위의 색인어를 추출하고, 질의응답용 위키피디아 문서 색인을 생성하는 문서 색인부, 자연어 질문을 수신하고, 상기 자연어 질문에서 질문유형, 정답유형 및 질문 포커스를 분석하여, 문서 검색 키워드를 추출하는 질문 분석부, 상기 질의응답용 위키피디아 문서색인에서 상기 문서 검색 키워드를 이용하여 문서 검색을 수행하고, 각각의 상기 질의응답용 위키피디아 문서색인으로부터 문서 검색 결과를 생성하는 문서 검색부, 상기 문서 검색 결과로부터 상기 질문유형, 상기 정답유형 및 상기 질문 포커스에 대한 정보를 이용하여, 제 1 정답을 추출하는 정답 추출부 및 상기 제 1 정답을 통합하고, 순위화하여 제 2 정답을 생성하는 정답 통합부를 포함하는 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치를 제공할 수 있다.

Description

위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치 및 정보검색 방법{Apparatus and Method for searching information based on Wikipedia's contents}
본 발명은 위키피디아(Wikipedia)의 콘텐츠를 기반으로 하는 정보검색 장치 및 정보검색 방법에 관한 것이다.
위키피디아(Wikipedia)는 다수의 사용자들이 공동으로 참여하여 구축하는 온라인 백과사전이며, 전 세계적으로 위키피디아 기반의 양질의 콘텐츠가 빠른 속도로 증가하고 있다. 또한, 위키피디아에서 추출한 정보를 다양한 지식서비스 응용에서 활용하고 있다.
YAGO(Yet Another Great Ontology)는 위키피디아의 엔트리 정보, 엔트리의 카테고리 정보, 엔트리의 인포박스 정보를 기반으로 구축한 정형화된 대용량 지식베이스이고, DBPedia는 위키피디아의 각 엔트리에 포함된 인포박스 정보를 기반으로 구축한 정형화된 지식베이스이다. 그리고 NAGA 시스템은 YAGO 지식베이스를 대상으로 사용자의 자연어 질의에 정답을 추출하여 제시하는 질의응답서비스이다. WATSON 질의응답시스템은 위키피디아 뿐 아니라 수많은 텍스트를 분석하여 사용자의 자연어 질문에 정답을 제시한다. WATSON 질의응답시스템은 위키피디아의 본문을 대상으로 정답을 추출하고 있으나, 기타 구조 또는 반구조 정보는 정답추출을 위한 제약정보로 사용한다. 관련특허 “Providing answers to questions using multiple models to score candidate answers (US 20130007055 A1)”에서는 정답후보 생성을 위하여 위키피디아 반구조(semi-structured) 정보 활용에 대한 언급만 있고 구체적인 방법은 제안되지 않고 있다.
위키피디아 기반 질의응답시스템의 문제점은 크게 두 가지로 분류할 수 있다.
첫째, 위키피디아 콘텐츠를 지식베이스로 변환할 때 애매성과 정보의 손실이 발생한다. 위키피디아의 반구조화된 정보(엔트리 정보, 카테고리 정보, 인포박스 정보, 문서 구조)는 비교적 쉽게 구조화된 지식으로 변환할 수 있지만, 위키피디아 본문을 정형화되고 구조화된 지식으로 변환하는 단계에서는 자연어 표현을 지식베이스의 정형화된 클래스(class), 속성(property), 인스턴스(instance)로 맵핑할 때 애매성이 발생하기 때문에, 정보의 왜곡 및 손실이 발생한다. 따라서 위키피디아를 기반으로 구축된 정형화된 지식베이스 기반 질의응답시스템에서는 위키피디아의 일부 정보만을 이용할 수 밖에 없다.
둘째, 위키피디아 콘텐츠를 기반으로 구축된 정형화된 지식베이스에는 클래스, 속성, 인스턴스 등의 이름이 정규화되어 저장되기 때문에, 지식의 애매성이 줄어드는 장점이 있다. 그러나 이를 이용하는 자연어 질의응답서비스는 사용자의 자연어 질문에 포함된 어휘를 지식베이스의 클래스 이름, 속성 이름, 인스턴스 이름으로 정확하게 변환하여야만 지식베이스에서 정답을 추론할 수 있는 문제점이 있다. 자연어 표현을 정형화된 지식베이스 표현으로 변환하는 과정은 또 다른 애매성을 포함하기 때문에 질의응답시스템의 성능을 떨어뜨린다.
대한민국 공개특허 : 제1020110026039호
본 발명의 일 실시예가 해결하고자 하는 과제는 위키피디아의 비구조정보 뿐만 아니라 구조 정보에 대해서도 텍스트 검색 기술을 적용함으로써, 지식베이스 구축 시 발생하는 비용과 정보 손실을 줄일 수 있는 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치 및 정보검색 방법을 제공하는 데 있다.
본 발명의 다른 실시예가 해결하고자 하는 과제는 위키피디아 구조 정보의 특징을 질의응답 시스템의 전체 단계(텍스트 문서변환 단계, 색인단계, 문서검색 단계, 정답추출 단계)에 반영하여, 정확한 정답을 추출할 수 있는 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치 및 정보검색 방법을 제공하는 데 있다.
본 발명의 또 다른 실시예가 해결하고자 하는 과제는 위키피디아 뿐만 아니라 여러 종류의 구조정보와 비구조 정보를 포함하는 다양한 리소스에 대해서도 동일한 방법으로 질의응답 시스템을 구축할 수 있어서, 질의응답시스템의 영역을 손쉽게 넓힐 수 있는 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치 및 정보검색 방법을 제공하는 데 있다.
본 발명에 따른 일 실시예는 위키피디아 원문에서 본문 문서, 섹션제목 문서, 인포박스 문서, 카테고리 문서 및 정의문 문서를 추출하여 하나 이상의 질의응답용 위키피디아 문서를 생성하는 문서 변환부, 상기 질의응답용 위키피디아 문서를 분석하여, 상기 질의응답용 위키피디아 문서에서 품사 단위의 색인어를 추출하고, 질의응답용 위키피디아 문서 색인을 생성하는 문서 색인부, 자연어 질문을 수신하고, 상기 자연어 질문에서 질문유형, 정답유형 및 질문 포커스를 분석하여, 문서 검색 키워드를 추출하는 질문 분석부, 상기 질의응답용 위키피디아 문서색인에서 상기 문서 검색 키워드를 이용하여 문서 검색을 수행하고, 각각의 상기 질의응답용 위키피디아 문서색인으로부터 문서 검색 결과를 생성하는 문서 검색부, 상기 문서 검색 결과로부터 상기 질문유형, 상기 정답유형 및 상기 질문 포커스에 대한 정보를 이용하여, 제 1 정답을 추출하는 정답 추출부 및 상기 제 1 정답을 통합하고, 순위화하여 제 2 정답을 생성하는 정답 통합부를 포함하는 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치를 제공할 수 있다.
일 실시예에 있어서, 상기 질의응답용 위키피디아 문서 색인은 본문 문서 색인, 섹션제목 문서 색인, 인포박스 문서 색인, 카테고리 문서 색인 및 정의문 문서 색인 중 선택되는 어느 하나 이상을 포함할 수 있다.
다른 실시예에 있어서, 상기 질문유형은 단답형 질문, 나열형 질문 및 서술형 질문 중 선택되는 어느 하나일 수 있고, 상기 정답유형은 사람, 조직, 장소, 이벤트 이름, TV 프로그램 이름, 책이름, 정책이름 등 응용시스템에 따라 다양한 정답 중 선택되는 어느 하나일 수 있고, 상기 질문 포커스는 중요 엔티티, 엔티티의 속성 및 엔티티의 이름 중 선택되는 어느 하나일 수 있다.
또 다른 실시예에 있어서, 상기 문서 검색부는 상기 문서 검색 키워드를 이용하여, 상기 질의응답용 위키피디아 문서색인 중 본문 문서 색인에서 검색을 수행하여, 상기 문서 검색 결과를 생성하는 본문 문서 검색부, 상기 문서 검색 키워드를 이용하여, 상기 질의응답용 위키피디아 문서색인 중 섹션제목 문서 색인에서 검색을 수행하여, 상기 문서 검색 결과를 생성하는 섹션제목 문서 검색부, 상기 문서 검색 키워드를 이용하여, 상기 질의응답용 위키피디아 문서색인 중 인포박스 문서 색인에서 검색을 수행하여, 상기 문서 검색 결과를 생성하는 인포박스 문서 검색부, 상기 문서 검색 키워드를 이용하여, 상기 질의응답용 위키피디아 문서색인 중 카테고리 문서 색인에서 검색을 수행하여, 상기 문서 검색 결과를 생성하는 카테고리 문서 검색부 및 상기 문서 검색 키워드를 이용하여, 상기 질의응답용 위키피디아 문서색인 중 정의문 문서 색인에서 검색을 수행하여, 상기 문서 검색 결과를 생성하는 정의문 문서 검색부를 포함할 수 있다.
또 다른 실시예에 있어서, 상기 정답 추출부는 상기 문서 검색부의 본문 문서 검색부로부터 상기 문서 검색 결과를 수신하고, 상기 정답 유형 및 상기 질문 포커스를 기반으로 검색된 문서에서 제 1 정답을 추출하는 본문 기반 정답 추출부, 상기 문서 검색부의 섹션제목 문서 검색부로부터 상기 문서 검색 결과-여기서, 상기 문서 검색 결과는 섹션 내용 문서를 포함함-를 수신하고, 상기 섹션 내용 문서를 제 1 정답으로 제시하는 섹션제목 기반 정답 추출부, 상기 문서 검색부의 인포박스 문서 검색부로부터 상기 문서 검색 결과를 수신하고, 상기 자연어 질문을 인포박스 문서의 엔티티 또는 속성이름에 매칭하여 속성값을 제 1 정답으로 추출하는 인포박스 기반 정답 추출부, 상기 문서 검색부의 카테고리 문서 검색부로부터 상기 문서 검색 결과를 수신하고, 상기 자연어 질문을 페이지가 속한 카테고리 리스트에 매칭하여, 해당 페이지의 제목을 제 1 정답으로 추출하는 카테고리 기반 정답 추출부 및 상기 문서 검색부의 정의문 문서 검색부로부터 상기 문서 검색 결과를 수신하고, 상기 질문 포커스와 위키피디아 페이지 제목을 매칭하여, 상기 위키피디아 페이지의 정의문을 제 1 정답으로 제시하는 정의문 기반 정답 추출부를 포함할 수 있다.
또 다른 실시예에 있어서, 상기 정답 통합부는 상기 정답 추출부로부터 복수의 상기 제 1 정답을 수신하고, 복수의 상기 제 1 정답 중 동일한 정답을 통합하고, 상기 동일한 정답에 우선순위를 부여하여 상기 제 2 정답을 생성할 수 있다.
본 발명의 다른 실실예는 위키피디아 원문에서 본문 문서, 섹션제목 문서, 인포박스 문서, 카테고리 문서 및 정의문 문서를 추출하여 하나 이상의 질의응답용 위키피디아 문서를 생성하는 단계, 상기 질의응답용 위키피디아 문서를 분석하여, 상기 질의응답용 위키피디아 문서에서 품사 단위의 색인어를 추출하고, 질의응답용 위키피디아 문서 색인을 생성하는 단계, 자연어 질문을 수신하고, 상기 자연어 질문에서 질문유형, 정답유형 및 질문 포커스를 분석하여, 문서 검색 키워드를 추출하는 단계, 상기 질의응답용 위키피디아 문서색인에서 상기 문서 검색 키워드를 이용하여 문서 검색을 수행하고, 각각의 상기 질의응답용 위키피디아 문서색인으로부터 문서 검색 결과를 생성하는 단계, 상기 문서 검색 결과로부터 상기 질문유형, 상기 정답유형 및 상기 질문 포커스에 대한 정보를 이용하여, 제 1 정답을 추출하는 단계 및 상기 제 1 정답을 통합하고, 순위화하여 제 2 정답을 생성하는 단계를 포함하는 위키피디아의 콘텐츠를 기반으로 하는 정보검색 방법을 제공할 수 있다.
본 발명의 일 실시예에 따른 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치 및 정보검색 방법은 위키피디아의 비구조정보 뿐만 아니라 구조 정보에 대해서도 텍스트 검색 기술을 적용함으로써, 지식베이스 구축 시 발생하는 비용과 정보 손실을 줄일 수 있다.
본 발명의 다른 실시예에 따른 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치 및 정보검색 방법은 위키피디아 구조 정보의 특징을 질의응답 시스템의 전체 단계(텍스트 문서변환 단계, 색인단계, 문서검색 단계, 정답추출 단계)에 반영하여, 정확한 정답을 추출할 수 있다.
본 발명의 또 다른 실시예에 따른 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치 및 정보검색 방법은 위키피디아 뿐만 아니라 여러 종류의 구조정보와 비구조 정보를 포함하는 다양한 리소스에 대해서도 동일한 방법으로 질의응답 시스템을 구축할 수 있어서, 질의응답시스템의 영역을 손쉽게 넓힐 수 있다.
도 1은 본 발명의 일 실시예에 따른 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치를 나타낸 것이다.
도 2는 본 발명의 일 실시예에 따른 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치의 내부 구성도를 나타낸 것이다.
도 3은 본 발명의 일 실시예에 따른 본문 문서를 나타낸 것이다.
도 4는 본 발명의 일 실시예에 따른 섹션제목 문서를 나타낸 것이다.
도 5는 본 발명의 일 실시예에 따른 인포박스 문서를 나타낸 것이다.
도 6은 본 발명의 일 실시예에 따른 카테고리 문서를 나타낸 것이다.
도 7은 본 발명의 일 실시예에 따른 정의문 문서를 나타낸 것이다.
도 8은 본 발명의 일 실시예에 따른 질문 분석부, 문서 검색부 및 정답 추출부의 내부 구성을 나타낸 것이다.
도 9는 본 발명의 일 실시예에 따른 위키피디아의 콘텐츠를 기반으로 하는 정보검색 방법을 나타낸 순서도이다.
본 발명의 목적 및 효과, 그리고 그것들을 달성하기 위한 기술적 구성들은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다.
그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있다. 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
본 발명은 위키피디아를 정형화된 지식베이스로 변환하고, 질의응답 시에 발생하는 자연어 질의와 지식베이스 구성요소 사이의 맵핑 문제를 해결하기 위하여, 위키피디아의 구조, 비구조 정보를 텍스트 문서 검색을 위한 텍스트 문서로 변환하고, 사용자 질문에 나타난 키워드를 이용하여 연관된 문서를 검색하고, 검색된 문서에서 각 문서의 특징을 이용하여 정답을 추출하는 방법을 제시할 수 있다.
이하, 첨부한 도면들을 참조하여, 본 발명의 실시예들을 보다 상세하게 설명하고자 한다.
도 1은 본 발명의 일 실시예에 따른 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치를 나타낸 것이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치는 문서 변환부(A100), 문서 색인부(A200), 질문 분석부(A300), 문서 검색부(A400), 정답 추출부(A500) 및 정답 통합부(A600)를 포함할 수 있다.
문서 변환부(A100)는 위키피디아 원문(D100)으로부터 질의응답용 위키피디아 문서(D200)를 생성할 수 있다. 도 2를 참조하면, 질의응답용 위키피디아 문서(D200)는 본문 문서(D210), 섹션제목 문서(D220), 인포박스 문서(D230), 카테고리 문서(D240) 및 정의문 문서(D250)를 포함할 수 있다. 질의응답용 위키피디아 문서(D220)는 복수가 될 수 있다. 일 실시예에 있어서, 문서 변환부(A100)는 위키피디아 원문(D100)에서 본문 문서(D210), 섹션제목 문서(D220), 인포박스 문서(D230), 카테고리 문서(D240) 및 정의문 문서(D250)를 추출하고, 추출한 문서로부터 하나 이상의 질의응답용 위키피디아 문서(D200)를 생성할 수 있다.
문서 색인부(A200)는 문서 변환부(A100)로부터 질의응답용 위키피디아 문서(D200)를 수신할 수 있다. 문서 색인부(A200)는 질의응답용 위키피디아 문서(D200)를 분석하여, 질의응답용 위키피디아 문서(D200)에서 품사 단위의 색인어를 추출하고, 질의응답용 위키피디아 문서 색인(D300)을 생성할 수 있다. 도 2를 참조하면, 질의응답용 위키피디아 문서 색인(D300)은 본문 문서 색인(D310), 섹션제목 문서 색인(D320), 인포박스 문서 색인(D330), 카테고리 문서 색인(D340) 및 정의문 문서 색인(D350) 중 선택되는 어느 하나 이상을 포함할 수 있다.
도 3은 본 발명의 일 실시예에 따른 본문 문서를 나타낸 것이다.
도 3을 참조하면, 본 발명의 일 실시예에 따른 문서 변환부(A100)는 한 개의 위키피디아 원문(D100)의 섹션 구조를 기준으로 작은 단락 단위로 분할하여 여러 개의 본문 문서(D210)를 생성할 수 있다.
한 개의 본문 문서(D210)는 DOCID, TITLE, DOCTYPE, DESCRIPTION을 포함할 수 있다. 여기서, DOCID는 문서의 고유 ID를 나타낼 수 있다. 또한, DOCID는 전체 본문 문서(D210)의 집합에서 고유한 값을 가질 수 있다. TITLE에는 첫 섹션의 경우 페이지의 제목을 기록할 수 있다. 나머지 섹션은 페이지제목, 상위 섹션 제목, 현재 섹션 제목과 같이 섹션 구조에 기반하여 계층적으로 섹션 제목을 기록할 수 있다. DOCTYPE에는 PAGE_CONTENT를 기록할 수 있다. DESCRIPTION에는 해당 섹션의 내용을 기록할 수 있다.
문서 색인부(A200)는 본문 문서(D210)의 TITLE, DESCRIPTION을 대상으로 언어분석 후 품사 단위의 색인어를 추출하여 본문 문서 색인(D310)을 생성할 수 있다. 도 3의 첫 번째 문서(D311)는 에펠탑 페이지의 첫 번째 섹션을 질의응답용 위키피디아 문서(D200)로 생성한 결과이다. 도 3의 두 번째 문서(D312)는 에펠탑 페이지에서 디자인-자재 섹션을 질의응답용 위키피디아 문서(D200)로 생성한 결과이다.
도 4는 본 발명의 일 실시예에 따른 섹션제목 문서를 나타낸 것이다.
도 4를 참조하면, 문서 변환부(A100)는 한 개의 위키피디아 원문(D100)의 섹션 구조를 기준으로 작은 단락 단위로 분할하여 페이지 제목과 섹션 제목만을 기록한 섹션제목 문서(D220)를 생성할 수 있다. 한 개의 섹션제목 문서(D220)는 DOCID, TITLE, DOCTYPE, SECTION_CONTENT_DOCID 및 DESCRIPTION을 포함할 수 있다.
DOCID는 문서의 고유 ID를 나타내고, 전체 섹션제목 문서(D220)의 집합에서 고유한 값을 가진다. TITLE에는 페이지의 첫 섹션인 경우 페이지제목을 기록하고, 나머지 섹션의 경우 페이지제목, 상위 섹션 제목, 현재 섹션 제목과 같이 섹션 구조에 기반하여 계층적으로 섹션 제목을 기록할 수 있다.
DOCTYPE에는 SECTION_TITLE를 기록할 수 있다. SECTION_CONTENT_DOCID는 섹션제목 문서(D220)의 내용을 저장하는 본문 문서(D210)의 ID를 기록할 수 있다. DESCRIPTION은 페이지 제목, 상위 섹션 제목 리스트, 현재 섹션 제목을 기록할 수 있다. 문서 색인부(A200)는 섹션제목 문서(D220)의 DESCRIPTION을 대상으로 언어 분석 후 품사 단위의 색인어를 추출하여 섹션제목 문서 색인(D320)을 생성할 수 있다.
도 4는 위키피디아 에펠탑 문서에서 탑의 디자인-자재 섹션에 해당하는 섹션제목 문서(D220)의 예를 나타낸 문서(D321)를 표시한 것이다. 도 3의 본문 문서(D312)는 도 4의 섹션제목 문서(D321)에 대응하는 본문 문서(D210)이다.
도 5는 본 발명의 일 실시예에 따른 인포박스 문서를 나타낸 것이다.
도 5를 참조하면, 문서 변환부(A100)는 한 개의 위키피디아 원문(D100)에서 인포박스를 추출하여 인포박스의 내용만을 기록한 인포박스 문서(D230)을 생성할 수 있다.
인포박스는 해당 페이지의 중요한 정보를 요약한 리스트를 저장하고 있다. 여기서, 중요한 정보는 속성이름 및 속성 값을 포함할 수 있다. 한 개의 인포박스 문서는 DOCID, TITLE, DOCTYPE, DESCRIPTION을 포함할 수 있다. DOCID는 문서의 고유 ID를 나타내고, 전체 인포박스 문서(D230)의 집합에서 고유한 값을 가진다. TITLE에는 페이지 제목을 기록할 수 있다. DOCTYPE에는 INFOBOX를 기록할 수 있다. DESCRIPTION은 페이지이름, 속성이름 및 속성값의 리스트를 저장할 수 있다. 이 때 동일한 의미를 표현하는 속성이름이 서로 다른 문서에서 다른 이름으로 사용되는 경우가 있기 때문에, 한 가지 이름으로 정규화할 수 있다. 예를 들어 “대통령 정보”의 속성이름 “국가”와 “정치인 정보”의 속성이름 “국적”은 동일한 의미를 표현하기 때문에 “국가”로 정규화할 수 있다. 문서 색인부(A200)는 인포박스 문서(D230)의 DESCRIPTION을 대상으로 언어분석 후 품사 단위의 색인어를 추출하여 인포박스 문서 색인(D330)을 생성할 수 있다. 도 5에 위키피디아 “에펠탑” 문서에서 인포박스를 추출하여 생성한 인포박스 문서를 나타냈다.
도 6은 본 발명의 일 실시예에 따른 카테고리 문서를 나타낸 것이다.
도 6을 참조하면, 문서변환부(A100)는 한 개의 위키피디아 원문(D100)에서 카테고리 정보를 추출하여 페이지 제목과 카테고리 내용만을 기록한 카테고리 문서(D240)을 생성할 수 있다. 카테고리 이름은 해당 페이지의 일반화된 정보를 표현하고 있다. 한 개의 카테고리 문서(D240)는 DOCID, TITLE, DOCTYPE, DESCRIPTION을 포함할 수 있다. DOCID는 문서의 고유 ID를 나타내고, 전체 카테고리 문서(D240)의 집합에서 고유한 값을 가진다. TITLE에는 페이지 제목을 기록할 수 있다. DOCTYPE에는 CATEGORY를 기록할 수 있다. DESCRIPTION은 페이지 이름, 카테고리 이름 1 내지 카테고리 이름 n을 한 개의 라인에 나열하여 저장한다. 문서 색인부(A200)는 카테고리 문서(D240)의 DESCRIPTION을 대상으로 언어분석 후 품사 단위의 색인어를 추출하여 카테고리 문서 색인(D340)을 생성할 수 있다. 도 6에 위키피디아 에펠탑 문서에서 카테고리 구조를 추출하여 생성한 카테고리 문서(D341)를 나타냈다.
도 7은 본 발명의 일 실시예에 따른 정의문 문서를 나타낸 것이다.
도 7을 참조하면, 문서 변환부(A100)는 한 개의 위키피디아 원문(D100)에서 정의문을 추출하여 페이지 제목과 정의문만을 기록한 정의문 문서(D250)을 생성할 수 있다. 위키피디아 원문(D100)은 첫 번째 섹션에 해당 문서의 제목을 정의한 설명을 포함할 수 있다. 한 개의 정의문 문서(D250)는 DOCID, TITLE, DOCTYPE, DESCRIPTION을 포함할 수 있다. DOCID는 문서의 고유 ID를 나타내고, 전체 정의문 문서(D250)의 집합에서 고유한 값을 가진다. TITLE에는 페이지 제목을 기록할 수 있다. DOCTYPE에는 DEFINITION을 기록할 수 있다. DESCRIPTION에는 본문 문서(D210)의 첫 번째 섹션을 추출하여 저장할 수 있다. 문서 색인부(A200)는 정의문 문서(D250)의 TITLE을 대상으로 언어분석 후 품사 단위의 색인어를 추출하여 정의문 문서 색인(D350)을 생성할 수 있다. 도 7에 위키피디아 에펠탑 원문에서 첫 번째 섹션을 추출하여 생성한 정의문 문서(D351)를 나타냈다.
도 8은 본 발명의 일 실시예에 따른 질문 분석부, 문서 검색부 및 정답 추출부의 내부 구성을 나타낸 것이다.
도 8을 참조하면, 질문 분석부(A300)는 사용자로부터 자연어 질문을 수신할 수 있다. 또한, 자연어 질문에서 질문유형, 정답유형 및 질문 포커스를 분석하여, 문서 검색 키워드를 추출할 수 있다. 일 실시예에 있어서, 질문유형은 단답형 질문, 나열형 질문 및 서술형 질문 중 선택되는 어느 하나를 포함할 수 있으나, 질문유형의 형태를 특별히 한정하는 것은 아니다. 또한, 정답유형은 사람, 조직 및 장소, 이벤트 이름, TV 프로그램 이름, 책이름, 정책이름 등 응용시스템에 따라 다양한 정답 중 선택되는 어느 하나가 될 수 있고, 질문 포커스는 중요 엔티티, 엔티티의 속성 및 엔티티의 이름 중 선택되는 어느 하나가 될 수 있다.
문서 검색부(A400)는 질의응답용 위키피디아 문서색인(D300)에서 문서 검색 키워드를 이용하여 문서 검색을 수행하고, 각각의 질의응답용 위키피디아 문서색인(D300)으로부터 문서 검색 결과를 생성할 수 있다.
본 발명의 일 실시예에 따른 질문 분석부(A300)는 본문 문서 검색부(A410), 섹션제목 문서 검색부(A420), 인포박스 문서 검색부(A430), 카테고리 문서 검색부(A440) 및 정의문 문서 검색부(A450)를 포함할 수 있다.
본문 문서 검색부(A410)는 문서 검색 키워드를 이용하여, 본문 문서 색인(D310)에서 검색을 수행하여 문서 검색 결과를 생성할 수 있다. 섹션제목 문서 검색부(A420)는 문서 검색 키워드를 이용하여, 섹션제목 문서 색인(D320)에서 검색을 수행하여 문서 검색 결과를 생성할 수 있다. 인포박스 문서 검색부(A430)는 문서 검색 키워드를 이용하여, 인포박스 문서 색인(D330)에서 검색을 수행하여 문서 검색 결과를 생성할 수 있다. 카테고리 문서 검색부(A440)는 문서 검색 키워드를 이용하여, 카테고리 문서 색인(D340)에서 검색을 수행하여 문서 검색 결과를 생성할 수 있다.
정의문 문서 검색부(A450)는 문서 검색 키워드를 이용하여, 정의문 문서 색인(D350)에서 검색을 수행하여, 문서 검색 결과를 생성할 수 있다.
정답 추출부(A500)는 문서 검색 결과로부터 질문유형, 정답유형 및 질문 포커스에 대한 정보를 이용하여 제 1 정답을 추출할 수 있다.
정답 추출부(A500)는 본문 기반 정답 추출부(A510), 섹션제목 기반 정답 추출부(A520), 인포박스 기반 정답 추출부(A530), 카테고리 기반 정답 추출부(A540) 및 정의문 기반 정답 추출부(A550)를 포함할 수 있다.
본문 기반 정답 추출부(A510)는 본문 문서 검색부로(A410)부터 문서 검색 결과를 수신하고, 정답 유형 및 질문 포커스를 기반으로 검색된 문서에서 제 1 정답을 추출할 수 있다.
섹션제목 기반 정답 추출부(A520)는 섹션제목 문서 검색부(A420)로부터 문서 검색 결과-여기서, 상기 문서 검색 결과는 섹션 내용 문서를 포함함-를 수신하고, 섹션 내용 문서를 제 1 정답으로 제시할 수 있다.
인포박스 기반 정답 추출부(A530)는 인포박스 문서 검색부(A430)로부터 문서 검색 결과를 수신하고, 자연어 질문을 인포박스 문서의 엔티티 또는 속성이름에 매칭하여 속성값을 제 1 정답으로 추출할 수 있다.
카테고리 기반 정답 추출부(A540)는 카테고리 문서 검색부(A440)로부터 문서 검색 결과를 수신하고, 자연어 질문을 페이지가 속한 카테고리 리스트에 매칭하여, 해당 페이지의 제목을 제 1 정답으로 추출할 수 있다.
정의문 기반 정답 추출부(A550)는 정의문 문서 검색부(A450)로부터 문서 검색 결과를 수신하고, 질문 포커스와 위키피디아 페이지 제목을 매칭하여, 위키피디아 페이지의 정의문을 제 1 정답으로 제시할 수 있다.
정답 통합부(A600)는 제 1 정답을 통합하고, 순위화하여 제 2 정답을 생성할 수 있다. 일 실시예에 있어서, 정답 통합부(A600)는 정답 추출부(A500)로부터 복수의 제 1 정답을 수신하고, 복수의 제 1 정답 중 동일한 정답을 통합하고, 동일한 정답에 우선순위를 부여하여 제 2 정답을 생성할 수 있다. 여기서, 제 2 정 답을 최종 정답으로 제공할 수 있다.
<실시예 1> 본문 기반 질의응답
본문 기반 질의응답은 사용자의 질문에 대한 정답을 위키피디아의 본문 문서(D210)에서 추출하여 제시한다. 예를 들어 "에펠탑의 위치는?"에 대해서 질문분석기(A300)는 단답형 잘문으로 분류하고, 검색 키워드 "에펠탑" 추출한다. 본문 문서검색부(A410)는 검색 키워드 "에펠탑"을 이용하여 본문 문서 색인(D310)에서 도 3의 첫 번째 문서(D311)를 검색하고, 본문 기반 정답 추출부(A510)는 질문분석기(A300)에서 분석한 정답유형 "지역/지리 엔티티" 정보를 기반으로 검색된 문서에서 추출한 여러 개의 엔티티 중에서 "지역/지리 엔티티"에 해당하는 "파리 마르크스 광장"을 정답으로 제시한다. 또한, 질문 "에펠탑의 무게는?"에 대해서 질문분석기(A300)는 단답형 질문으로 분류하고, 검색키워드 "에펠탑", "무게"를 추출한다. 본문 문서검색부(A410)는 검색키워드 "에펠탑", "무게"를 이용하여 본문 문서색인(D310)에서 도 3의 두 번째 문서(D312)를 검색하고, 본문 기반 정답추출기(A510)는 질문분석기(A300)에서 분석한 정답유형 "수랭 엔티티" 정보를 기반으로 검색된 문서에서 추출한 여러 개의 엔티티 중에서 수량 엔티티에 해당하는 "10,000톤"을 정답으로 제시한다.
<실시예 2> 섹션제목 기반 질의응답
섹션제목 기반 질의응답은 사용자의 질문을 위키피디아 페이지 제목과 섹션 제목에 매칭하여 해당 섹션의 내용을 정답으로 제시한다. 예를 들어, 질문 "에펠탑을 만든 자재는?"이라는 질문에 대해서 질문분석기(A300)는 "질문 유형"을 단답형으로 분석하고, 검색 키워드 "에펠탑", "자재"를 추출한다. 섹션 제목 문서 검색부(A420)는 검색 키워드를 이용하여 섹션제목 문서 색인(D320)에서 섹션 제목 문서(도 4의 D321)을 검색한다. 섹션 제목기반 정답 추출기(A520)는 검색된 섹션제목 문서에 대응하는 섹션 내용 문서(도 3의 D312)의 DESCRIPTION을 정답으로 제시한다. 섹션 제목 문서는 정답유형을 정형화하기 어려운 질문에 대해서 질문의 키워드와 섹션 제목 사이의 어휘 유사도를 이용하여 정답을 제시할 수 있는 장점이 있다.
<실시예 3> 인포박스 기반 질의응답
인포박스 기반 질의응답은 사용자의 질문을 인포박스 문서의 엔티티, 속성이름에 매칭하여 속성값을 정답으로 제시한다. 예를 들어, 질문 "에펠탑의 건축가를 알려주세요"에 대해서 질문분석기(A300)는 주요 엔티티를 "에펠탑"으로, 속성명을 "건출가"로 분석하고, 검색 키워드 "에펠탑, "건축가"를 제시한다. 인포박스 문서 검색부(A430)는 인포박스 색인(D330)을 대상으로 검색 키워드를 이용하여 에펠탑 문서 (도 5의 D331)을 검색한다. 인포박스 정답추출기(A530)는 검색된 문서에서 속성명 "건축가"에 대응하는 속성값 "귀스타브 에펠"을 추출하여 정답으로 제시한다.인포박스 문서는 위키피디아에서 정형화된 속성이름-속성값 정보를 이용하여 질문이 엔티티-속성이름 형식인 경우에 정확한 답을 제시할 수 있는 장점이 있다.
<실시예 4> 카테고리 구조 기반 질의응답
카테고리 구조 기반 질의응답은 사용자의 질문을 페이지가 속한 카테고리 리스트에 매칭하여, 해당 페이지의 제목을 정답으로 제시한다. 예를 들어, 질문 "프랑스의 상징인 건축물은?"에 대해서 질문분석기(A300)는 질문유형을 "나열형"으로 분석하고, 검색 키워드 "프랑스, 상징, 건축물"추출한다. 카테고리 문서검색부(A440)는 카테고리 문서 색인(D340)을 검색하여 카테고리 문서(도 6의 D341)을 제시한다. 카테고리 기반 정답추출기(A540)는 검색된 문서의 본문에서 첫 번째 엔티티 "에펠탑"을 정답으로 추출하여 제시한다. 위키피디아는 동일한 카테고리에 여러 개의 문서가 연결되어 있기 때문에 카테고리 문서는 나열형 질문에 대해서 공통적인 특징을 가지는 여러 개의 엔티티를 제시하는 나열형 질문에 정답을 제시할 수 있는 장점이 있다.
<실시예 5> 정의문 기반 질의응답
정의문 기반 질의응답은 사용자의 질문이 정의형인 경우, 질문 포커스와 위키피디아 페이지 제목을 매칭하여, 해당 페이지의 정의문을 정답으로 제시한다. 예를 들어 "에펠탑에 대해서 알려주세요."에 대해서 질문분석기(A300)는 "정의형" 질문으로 분류하고, 질문 포커스를 "에펠탑"으로 분석한다. 정의문 문서검색부(A450)는 정의문 문서색인(D350)을 대상으로 제목(TITLE)을 매칭하여 정의문 문서(도 7의 D351)을 검색한다. 정의문 정답추출기(A550)는 검색된 문서에서 DESCRIPTION을 추출하여 정답으로 제시한다. 정의형 문서는 정의형 질문에 대해서 별도의 정의문을 본문에서 추출하지 않고 정답을 제시할 수 있는 장점이 있다.
<실시예 6> 정답 통합
정답 통합기(A600)는 여러 개의 정답추출기에서 추출한 정답을 대상으로 동일한 정답을 통합하고 순위화한다. 예를 들어 질문 "에펠탑의 건축가를 알려주세요."에서 "에펠"과 "귀스타브 에펠"이 정답으로 제시된 경우 두 개의 정답이 동일한 것임을 인식하고 더 구체적인 "귀스타브 에펠"을 정답으로 제시하고 가중치를 높인다. 정답 순위화에서는 질문 유형별로 각 정답추출 모듈의 우선순위를 정하고 우선 순위가 높은 모듈에서 추출한 정답에 가중치를 높인다. 예를 들어, "에펠탑의 건축가를 알려주세요"와 같은 "엔티티-속성"형 질문은 인포박스 기반 정답 추출기(A530)의 우선순위를 다른 모듈의 우선 순위보다 높인다.
도 9는 본 발명의 일 실시예에 따른 위키피디아의 콘텐츠를 기반으로 하는 정보검색 방법을 나타낸 순서도이다.
도 9를 참조하면, 단계 S901에서 위키피디아 원문(D100)에서 본문 문서(D210), 섹션제목 문서(D220), 인포박스 문서(D230), 카테고리 문서(D240) 및 정의문 문서(D250)를 추출하여 하나 이상의 질의응답용 위키피디아 문서(D200)를 생성할 수 있다.
단계 S902에서 질의응답용 위키피디아 문서(D200)를 분석하여, 질의응답용 위키피디아 문서(D200)에서 품사 단위의 색인어를 추출하고, 질의응답용 위키피디아 문서 색인(D300)을 생성할 수 있다. 여기서, 질의응답용 위키피디아 문서 색인(D300)은 본문 문서 색인(D310), 섹션제목 문서 색인(D320), 인포박스 문서 색인(D330), 카테고리 문서 색인(D340) 및 정의문 문서 색인(D350) 중 선택되는 어느 하나 이상을 포함할 수 있다.
단계 S903에서 자연어 질문을 수신하고, 자연어 질문에서 질문유형, 정답유형 및 질문 포커스를 분석하여, 문서 검색 키워드를 추출할 수 있다. 여기서, 질문유형은 단답형 질문, 나열형 질문 및 서술형 질문 중 선택되는 어느 하나가 될 수 있고, 정답유형은 사람, 조직, 장소, 이벤트 이름, TV 프로그램 이름, 책이름, 정책이름 등 응용시스템에 따라 다양한 정답 중 선택되는 어느 하나가 될 수 있다. 또한, 질문 포커스는 중요 엔티티, 엔티티의 속성 및 엔티티의 이름 중 선택되는 어느 하나일 수 있다.
단계 S904에서 질의응답용 위키피디아 문서색인(D300)에서 문서 검색 키워드를 이용하여 문서 검색을 수행하고, 각각의 질의응답용 위키피디아 문서색인(D300)으로부터 문서 검색 결과를 생성할 수 있다.
단계 S905에서 문서 검색 결과로부터 질문유형, 정답유형 및 질문 포커스에 대한 정보를 이용하여, 제 1 정답을 추출할 수 있다.
단계 S906에서 제 1 정답을 통합하고, 순위화하여 제 2 정답을 생성할 수 있다. 제 2 정답을 생성하는 단계는 복수의 제 1 정답을 수신하고, 복수의 제 1 정답 중 동일한 정답을 통합한 후 동일한 정답에 우선순위를 부여하여 제 2 정답을 생성할 수 있다.
여기에서 개시된 실시예들과 결합하여 설명된 방법 또는 알고리즘의 단계들은 하드웨어로, 프로세서에 의해서 실행된 소프트웨어 모듈에서, 또는 상기 두 가지의 결합에서 직접 구현될 수 있을 것이다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터들, 하드 디스크, 탈부착 가능 디스크, CD-ROM, 또는 본 발명이 속한 기술분야에서 알려진 어떤 다른 형상의 저장 매체에 상주할 수 있을 것이다. 예시적인 저장 매체는 상기 프로세서와 결합할 수 있을 것이며, 그래서 상기 프로세서가 상기 저장 매체로부터 정보를 읽고 그리고 정보를 그 저장 매체에 쓸 수 있도록 한다. 대안으로, 상기 저장 매체는 상기 프로세서에 통합될 수 있을 것이다. 상기 프로세서 및 상기 저장 매체는 ASIC 내에 상주할 수 있을 것이다. 그 ASIC은 사용자 단말 내에 위치할 수 있을 것이다. 대안으로, 상기 프로세서 및 상기 저장 매체는 사용자 단말 내 별도의 컴포넌트들로서 상주할 수 있을 것이다.
상기에서 설명된 모든 프로세스들은 하나 또는 그 이상의 범용 또는 특수 목적 컴퓨터들이나 프로세서들에 의해서 실행된 소프트웨어 코드 모듈들 내에서 구현될 수 있을 것이며, 그리고 그 소프트웨어 코드 모듈들을 경유하여 완전히 자동화될 수 있을 것이다. 상기 코드 모듈들은 임의 유형의 컴퓨터-독출가능 매체 또는 다른 컴퓨터 저장 디바이스 또는 저장 디바이스들의 집합 상에 저장될 수 있을 것이다. 상기 방법들 중 몇몇 또는 모두는 전문화된 컴퓨터 하드웨어 내에서 대안으로 구현될 수 있을 것이다.
여기에서 설명된 모든 방법들 및 태스크들은 컴퓨터 시스템에 의해서 실행되고 그리고 충분히 자동화될 수 있을 것이다. 상기 컴퓨터 시스템은, 몇몇의 경우들에서, 상기 설명된 기능들을 수행하기 위해서 네트워크를 통해서 통신하고 그리고 상호 동작하는 다중의 개별 컴퓨터들 또는 컴퓨팅 디바이스들 (예를 들면, 물리적인 서버들, 워크스테이션들, 저장 어레이들 등)을 포함할 수 있을 것이다. 그런 컴퓨팅 디바이스 각각은 메모리 또는 다른 비-일시적 컴퓨터-독출가능 저장 매체에 저장된 프로그램 명령어들 또는 모듈들을 실행시키는 프로세서 (또는 다중 프로세서들 또는 회로 또는 회로들의 집합, 예를 들면 모듈)를 포함하는 것이 보통이다. 비록 여기에서 설명된 다양한 기능들 중 몇몇 또는 모두는 컴퓨터 시스템의 애플리케이션-특정 회로 (예를 들면, ASIC들 또는 FPGA들)로 구현될 수 있을 것이지만, 그 설명된 다양한 기능들은 그런 프로그램 명령어들로 구현될 수 있을 것이다. 상기 컴퓨터 시스템이 여러 컴퓨팅 디바이스들을 포함할 때에, 이 디바이스들은 같은 장소에 배치되는 것이 필요한 것은 아니지만, 같이 배치될 수 있을 것이다. 상기 개시된 방법들 및 태스크들의 결과들은 솔리드 스테이트 메모리 칩들 및/또는 자기 디스크들과 같은 변환 물리 저장 디바이스들에 의해서 상이한 상태로 영구적으로 저장될 수 있을 것이다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야에서 통상의 지식을 가진 자라면 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
A100 : 문서 변환부
A200 : 문서 색인부
A300 : 질문 분석부
A310 : 본문 문서 색인
A320 : 섹션 제목 문서 색인
A330 : 인포박스 문서 색인
A340 : 카테고리 문서 색인
A350 : 정의문 문서 색인
A400 : 문석 검색부
A410 : 본문 문서 검색부
A420 : 섹션 제목 검색부
A430 : 인포박스 검색부
A440 : 카테고리 검색부
A450 : 정의문 문서 검색부
A500 : 정답 추출부
A510 : 본문 기반 정답 추출부
A520 : 섹션 제목 기반 정답 추출부
A530 : 인포박스 기반 정답 추출부
A540 : 카테고리 기반 정답 추출부
A550 : 정의문 기반 정답 추출부
A600 : 정답 통합기
D100 : 위키피디아 원문
D200 : 질의 응답용 위키피디아 문서
D300 : 질의 응답용 위키피디아 문서 색인

Claims (14)

  1. 위키피디아 원문에서 본문 문서, 섹션제목 문서, 인포박스 문서, 카테고리 문서 및 정의문 문서를 추출하여 하나 이상의 질의응답용 위키피디아 문서를 생성하는 문서 변환부;
    상기 질의응답용 위키피디아 문서를 분석하고, 상기 질의응답용 위키피디아 문서에서 품사 단위의 색인어를 추출하여 질의응답용 위키피디아 문서 색인을 생성하는 문서 색인부;
    자연어 질문을 수신하고, 상기 자연어 질문에서 질문유형, 정답유형 및 질문 포커스를 분석하여, 문서 검색 키워드를 추출하는 질문 분석부;
    상기 질의응답용 위키피디아 문서색인에서 상기 문서 검색 키워드를 이용하여 문서 검색을 수행하고, 각각의 상기 질의응답용 위키피디아 문서색인으로부터 문서 검색 결과를 생성하는 문서 검색부;
    상기 문서 검색 결과로부터 상기 질문유형, 상기 정답유형 및 상기 질문 포커스에 대한 정보를 이용하여, 제 1 정답을 추출하는 정답 추출부; 및
    상기 제 1 정답을 통합하고, 순위화하여 제 2 정답을 생성하는 정답 통합부;
    를 포함하는 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치.
  2. 제 1 항에 있어서,
    상기 질의응답용 위키피디아 문서 색인은 본문 문서 색인, 섹션제목 문서 색인, 인포박스 문서 색인, 카테고리 문서 색인 및 정의문 문서 색인 중 선택되는 어느 하나 이상을 포함하는 것을 특징으로하는 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치.
  3. 제 1 항에 있어서,
    상기 질문유형은 단답형 질문, 나열형 질문 및 서술형 질문 중 선택되는 어느 하나인 것을 특징으로 하는 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치.
  4. 제 1 항에 있어서,
    상기 정답유형은 사람, 조직 및 장소에 대한 정답 중 선택되는 어느 하나인 것을 특징으로 하는 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치.
  5. 제 1 항에 있어서,
    상기 질문 포커스는 중요 엔티티, 엔티티의 속성 및 엔티티의 이름 중 선택되는 어느 하나인 것을 특징으로 하는 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치.
  6. 제 1 항에 있어서,
    상기 문서 검색부는
    상기 문서 검색 키워드를 이용하여, 상기 질의응답용 위키피디아 문서색인 중 본문 문서 색인에서 검색을 수행하여, 상기 문서 검색 결과를 생성하는 본문 문서 검색부;
    상기 문서 검색 키워드를 이용하여, 상기 질의응답용 위키피디아 문서색인 중 섹션제목 문서 색인에서 검색을 수행하여, 상기 문서 검색 결과를 생성하는 섹션제목 문서 검색부;
    상기 문서 검색 키워드를 이용하여, 상기 질의응답용 위키피디아 문서색인 중 인포박스 문서 색인에서 검색을 수행하여, 상기 문서 검색 결과를 생성하는 인포박스 문서 검색부;
    상기 문서 검색 키워드를 이용하여, 상기 질의응답용 위키피디아 문서색인 중 카테고리 문서 색인에서 검색을 수행하여, 상기 문서 검색 결과를 생성하는 카테고리 문서 검색부; 및
    상기 문서 검색 키워드를 이용하여, 상기 질의응답용 위키피디아 문서색인 중 정의문 문서 색인에서 검색을 수행하여, 상기 문서 검색 결과를 생성하는 정의문 문서 검색부;
    를 포함하는 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치.
  7. 제 1 항에 있어서,
    상기 정답 추출부는
    상기 문서 검색부의 본문 문서 검색부로부터 상기 문서 검색 결과를 수신하고, 상기 정답 유형 및 상기 질문 포커스를 기반으로 검색된 문서에서 제 1 정답을 추출하는 본문 기반 정답 추출부;
    상기 문서 검색부의 섹션제목 문서 검색부로부터 상기 문서 검색 결과-여기서, 상기 문서 검색 결과는 섹션 내용 문서를 포함함-를 수신하고, 상기 섹션 내용 문서를 제 1 정답으로 제시하는 섹션제목 기반 정답 추출부;
    상기 문서 검색부의 인포박스 문서 검색부로부터 상기 문서 검색 결과를 수신하고, 상기 자연어 질문을 인포박스 문서의 엔티티 또는 속성이름에 매칭하여 속성값을 제 1 정답으로 추출하는 인포박스 기반 정답 추출부;
    상기 문서 검색부의 카테고리 문서 검색부로부터 상기 문서 검색 결과를 수신하고, 상기 자연어 질문을 페이지가 속한 카테고리 리스트에 매칭하여, 해당 페이지의 제목을 제 1 정답으로 추출하는 카테고리 기반 정답 추출부; 및
    상기 문서 검색부의 정의문 문서 검색부로부터 상기 문서 검색 결과를 수신하고, 상기 질문 포커스와 위키피디아 페이지 제목을 매칭하여, 상기 위키피디아 페이지의 정의문을 제 1 정답으로 제시하는 정의문 기반 정답 추출부;
    를 포함하는 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치.
  8. 제 1 항에 있어서,
    상기 정답 통합부는 상기 정답 추출부로부터 복수의 상기 제 1 정답을 수신하고, 복수의 상기 제 1 정답 중 동일한 정답을 통합하고, 상기 동일한 정답에 우선순위를 부여하여 상기 제 2 정답을 생성하는 것을 특징으로 하는 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치.
  9. 위키피디아 원문에서 본문 문서, 섹션제목 문서, 인포박스 문서, 카테고리 문서 및 정의문 문서를 추출하여 하나 이상의 질의응답용 위키피디아 문서를 생성하는 단계;
    상기 질의응답용 위키피디아 문서를 분석하여, 상기 질의응답용 위키피디아 문서에서 품사 단위의 색인어를 추출하고, 질의응답용 위키피디아 문서 색인을 생성하는 단계;
    자연어 질문을 수신하고, 상기 자연어 질문에서 질문유형, 정답유형 및 질문 포커스를 분석하여, 문서 검색 키워드를 추출하는 단계;
    상기 질의응답용 위키피디아 문서색인에서 상기 문서 검색 키워드를 이용하여 문서 검색을 수행하고, 각각의 상기 질의응답용 위키피디아 문서색인으로부터 문서 검색 결과를 생성하는 단계;
    상기 문서 검색 결과로부터 상기 질문유형, 상기 정답유형 및 상기 질문 포커스에 대한 정보를 이용하여, 제 1 정답을 추출하는 단계; 및
    상기 제 1 정답을 통합하고, 순위화하여 제 2 정답을 생성하는 단계;
    를 포함하는 위키피디아의 콘텐츠를 기반으로 하는 정보검색 방법.
  10. 제 9 항에 있어서,
    상기 질의응답용 위키피디아 문서 색인은 본문 문서 색인, 섹션제목 문서 색인, 인포박스 문서 색인, 카테고리 문서 색인 및 정의문 문서 색인 중 선택되는 어느 하나 이상을 포함하는 것을 특징으로하는 위키피디아의 콘텐츠를 기반으로 하는 정보검색 방법.
  11. 제 9 항에 있어서,
    상기 질문유형은 단답형 질문, 나열형 질문 및 서술형 질문 중 선택되는 어느 하나이고,
    상기 정답유형은 사람, 조직 및 장소에 대한 정답 중 선택되는 어느 하나이고,
    상기 질문 포커스는 중요 엔티티, 엔티티의 속성 및 엔티티의 이름 중 선택되는 어느 하나인 것을 특징으로 하는 위키피디아의 콘텐츠를 기반으로 하는 정보검색 방법.
  12. 제 9 항에 있어서,
    상기 질의응답용 위키피디아 문서색인으로부터 문서 검색 결과를 생성하는 단계는
    상기 문서 검색 키워드를 이용하여, 상기 질의응답용 위키피디아 문서색인 중 본문 문서 색인에서 검색을 수행하여, 상기 문서 검색 결과를 생성하는 단계;
    상기 문서 검색 키워드를 이용하여, 상기 질의응답용 위키피디아 문서색인 중 섹션제목 문서 색인에서 검색을 수행하여, 상기 문서 검색 결과를 생성하는 단계;
    상기 문서 검색 키워드를 이용하여, 상기 질의응답용 위키피디아 문서색인 중 인포박스 문서 색인에서 검색을 수행하여, 상기 문서 검색 결과를 생성하는 단계;
    상기 문서 검색 키워드를 이용하여, 상기 질의응답용 위키피디아 문서색인 중 카테고리 문서 색인에서 검색을 수행하여, 상기 문서 검색 결과를 생성하는 단계; 및
    상기 문서 검색 키워드를 이용하여, 상기 질의응답용 위키피디아 문서색인 중 정의문 문서 색인에서 검색을 수행하여, 상기 문서 검색 결과를 생성하는 단계;
    를 포함하는 위키피디아의 콘텐츠를 기반으로 하는 정보검색 방법.
  13. 제 9 항에 있어서,
    상기 제 1 정답을 추출하는 단계는
    상기 문서 검색부의 본문 문서 검색부로부터 상기 문서 검색 결과를 수신하고, 상기 정답 유형 및 상기 질문 포커스를 기반으로 검색된 문서에서 제 1 정답을 추출하는 단계;
    상기 문서 검색부의 섹션제목 문서 검색부로부터 상기 문서 검색 결과-여기서, 상기 문서 검색 결과는 섹션 내용 문서를 포함함-를 수신하고, 상기 섹션 내용 문서를 제 1 정답으로 제시하는 단계;
    상기 문서 검색부의 인포박스 문서 검색부로부터 상기 문서 검색 결과를 수신하고, 상기 자연어 질문을 인포박스 문서의 엔티티 또는 속성이름에 매칭하여 속성값을 제 1 정답으로 추출하는 단계;
    상기 문서 검색부의 카테고리 문서 검색부로부터 상기 문서 검색 결과를 수신하고, 상기 자연어 질문을 페이지가 속한 카테고리 리스트에 매칭하여, 해당 페이지의 제목을 제 1 정답으로 추출하는 단계; 및
    상기 문서 검색부의 정의문 문서 검색부로부터 상기 문서 검색 결과를 수신하고, 상기 질문 포커스와 위키피디아 페이지 제목을 매칭하여, 상기 위키피디아 페이지의 정의문을 제 1 정답으로 제시하는 단계;
    를 포함하는 위키피디아의 콘텐츠를 기반으로 하는 정보검색 방법.
  14. 제 9 항에 있어서,
    상기 제 2 정답을 생성하는 단계는
    복수의 상기 제 1 정답을 수신하는 단계;
    복수의 상기 제 1 정답 중 동일한 정답을 통합하는 단계; 및
    상기 동일한 정답에 우선순위를 부여하여 상기 제 2 정답을 생성하는 단계;
    인 것을 포함하는 위키피디아의 콘텐츠를 기반으로 하는 정보검색 방법.




KR1020140002033A 2014-01-07 2014-01-07 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치 및 정보검색 방법 KR101787062B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020140002033A KR101787062B1 (ko) 2014-01-07 2014-01-07 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치 및 정보검색 방법
US14/260,828 US10037381B2 (en) 2014-01-07 2014-04-24 Apparatus and method for searching information based on Wikipedia's contents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140002033A KR101787062B1 (ko) 2014-01-07 2014-01-07 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치 및 정보검색 방법

Publications (2)

Publication Number Publication Date
KR20150082754A true KR20150082754A (ko) 2015-07-16
KR101787062B1 KR101787062B1 (ko) 2017-10-19

Family

ID=53495375

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140002033A KR101787062B1 (ko) 2014-01-07 2014-01-07 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치 및 정보검색 방법

Country Status (2)

Country Link
US (1) US10037381B2 (ko)
KR (1) KR101787062B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200068105A (ko) * 2018-11-28 2020-06-15 주식회사 솔트룩스 기계 독해를 위한 문서를 제공하는 시스템 및 이를 포함하는 질의 응답 시스템
WO2021025854A1 (en) * 2019-08-02 2021-02-11 Spectacles LLC Definition retrieval and display
KR102649918B1 (ko) * 2023-06-05 2024-03-20 (주)복지이십사 대규모 언어 모델 기반 맞춤형 복지 정책 추천 시스템

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US12056131B2 (en) * 2015-05-11 2024-08-06 Microsoft Technology Licensing, Llc Ranking for efficient factual question answering
US10885042B2 (en) * 2015-08-27 2021-01-05 International Business Machines Corporation Associating contextual structured data with unstructured documents on map-reduce
CN111581363B (zh) * 2020-04-30 2023-08-29 北京百度网讯科技有限公司 知识抽取方法、装置、设备及存储介质
CN116796718B (zh) * 2023-06-13 2023-12-19 普瑞纯证医疗科技(广州)有限公司 一种基于人工智能生成内容的产品说明书生成方法及系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8392436B2 (en) * 2008-02-07 2013-03-05 Nec Laboratories America, Inc. Semantic search via role labeling
KR20120009446A (ko) 2009-03-13 2012-01-31 인벤션 머신 코포레이션 자연 언어 텍스트의 자동화 의미적 라벨링 시스템 및 방법
KR101116465B1 (ko) 2009-09-07 2012-03-07 한국과학기술원 광의어를 통한 단어의 온톨로지 매칭 방법
EP2622592A4 (en) * 2010-09-28 2017-04-05 International Business Machines Corporation Providing answers to questions using multiple models to score candidate answers
KR101173561B1 (ko) 2010-10-25 2012-08-13 한국전자통신연구원 질문 형태 및 도메인 인식 장치 및 그 방법
KR101333485B1 (ko) 2010-10-25 2013-11-28 한국전자통신연구원 온라인 사전을 이용한 개체명 사전 구축 방법 및 이를 실행하는 장치
KR101709055B1 (ko) 2010-12-09 2017-02-23 한국전자통신연구원 오픈 웹 질의응답을 위한 질문분석 장치 및 방법
KR101291182B1 (ko) 2011-03-23 2013-07-31 김광래 스프링클러 알람 밸브 및 이를 이용한 소방 시스템
US20130080184A1 (en) * 2011-09-23 2013-03-28 Alliance Health Networks, Inc. Managing healthcare information for members of a social network

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200068105A (ko) * 2018-11-28 2020-06-15 주식회사 솔트룩스 기계 독해를 위한 문서를 제공하는 시스템 및 이를 포함하는 질의 응답 시스템
WO2021025854A1 (en) * 2019-08-02 2021-02-11 Spectacles LLC Definition retrieval and display
US11354501B2 (en) 2019-08-02 2022-06-07 Spectacles LLC Definition retrieval and display
US20220374596A1 (en) * 2019-08-02 2022-11-24 Spectacles LLC Definition retrieval and display
US12099804B2 (en) * 2019-08-02 2024-09-24 Spectacles LLC Definition retrieval and display
KR102649918B1 (ko) * 2023-06-05 2024-03-20 (주)복지이십사 대규모 언어 모델 기반 맞춤형 복지 정책 추천 시스템

Also Published As

Publication number Publication date
US20150193505A1 (en) 2015-07-09
KR101787062B1 (ko) 2017-10-19
US10037381B2 (en) 2018-07-31

Similar Documents

Publication Publication Date Title
KR101787062B1 (ko) 위키피디아의 콘텐츠를 기반으로 하는 정보검색 장치 및 정보검색 방법
CN110147436B (zh) 一种基于教育知识图谱与文本的混合自动问答方法
JP7282940B2 (ja) 電子記録の文脈検索のためのシステム及び方法
KR102094934B1 (ko) 자연어 질의 응답 시스템 및 방법
KR101662450B1 (ko) 다중 소스 하이브리드 질의응답 방법 및 시스템
KR100546743B1 (ko) 언어분석 기반 자동 질문/정답 색인 방법과 그 질의응답방법 및 시스템
CN117290489B (zh) 一种行业问答知识库快速构建方法与系统
US9280535B2 (en) Natural language querying with cascaded conditional random fields
US10503830B2 (en) Natural language processing with adaptable rules based on user inputs
CN111061828B (zh) 一种数字图书馆知识检索方法及装置
RU2010107150A (ru) Идентификация семантических отношений в косвенной речи
US20220083549A1 (en) Generating query answers from a user&#39;s history
Ranjan et al. Question answering system for factoid based question
WO2023122051A1 (en) Contextual clarification and disambiguation for question answering processes
Jayalakshmi et al. Automated question answering system using ontology and semantic role
Lopez et al. Merging and ranking answers in the semantic web: The wisdom of crowds
CN109684357B (zh) 信息处理方法及装置、存储介质、终端
Kim et al. Compact lexicon selection with spectral methods
CN116562280A (zh) 一种基于通用信息抽取的文献分析系统及方法
KR20230055151A (ko) 법률사건 정보 매칭 시스템 및 방법
Achsas Academic Aggregated Search Approach Based on BERT Language Model
Prabhumoye et al. Automated query analysis techniques for semantics based question answering system
KR20190058029A (ko) 질문 자동 완성 기능을 이용한 질의 응답 시스템 및 그 방법
Yang et al. Mathematical formula search using natural language queries
US20230418873A1 (en) Query interpreter training with adversarial table perturbations

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant