KR101173556B1 - 토픽맵 기반 색인 장치, 토픽맵 기반 검색 장치, 토픽맵 기반 검색 시스템 및 그 방법 - Google Patents

토픽맵 기반 색인 장치, 토픽맵 기반 검색 장치, 토픽맵 기반 검색 시스템 및 그 방법 Download PDF

Info

Publication number
KR101173556B1
KR101173556B1 KR1020080125622A KR20080125622A KR101173556B1 KR 101173556 B1 KR101173556 B1 KR 101173556B1 KR 1020080125622 A KR1020080125622 A KR 1020080125622A KR 20080125622 A KR20080125622 A KR 20080125622A KR 101173556 B1 KR101173556 B1 KR 101173556B1
Authority
KR
South Korea
Prior art keywords
community
question
topic
analysis
list
Prior art date
Application number
KR1020080125622A
Other languages
English (en)
Other versions
KR20100067175A (ko
Inventor
이충희
오효정
허정
황이규
윤여찬
최미란
이창기
임수종
김현기
장명길
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020080125622A priority Critical patent/KR101173556B1/ko
Priority to US12/484,651 priority patent/US8554540B2/en
Publication of KR20100067175A publication Critical patent/KR20100067175A/ko
Application granted granted Critical
Publication of KR101173556B1 publication Critical patent/KR101173556B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Abstract

본 발명은 토픽맵을 기반으로 사용자 질문에 대한 답변을 검색하는 기법에 관한 것으로, 이를 위하여 본 발명은, FAQ(Frequently Asked Questions) 리스트 검색과 대화형 DB 검색을 통합적으로 수행하거나, 신뢰도에 따라 커뮤니티를 검색하거나, FAQ 웹 페이지들을 사용해서 자연어 질문에 대해 답변을 검색하는 종래 방법과는 달리, 커뮤니티 Q/A 리스트들을 토픽맵 기반으로 커뮤니티 Q/A 토픽맵으로 저장해 두고, 사용자 질문이 입력되면 사용자 질문에 대한 전처리 및 분석 과정을 통해 질문 분석 정보를 획득하며, 이러한 질문 분석 정보에 따라 커뮤니티 Q/A 토픽맵에서 유사 질문들을 검색하여 이를 순위화하여 그에 대응하는 정답을 추출 및 출력함으로써, 토픽맵 기반의 커뮤니티 Q/A 토픽맵을 이용하여 정확한 답변을 검색할 수 있는 것이다.
토픽맵(Topic Map), 커뮤니티 Q/A(Question/Answer) 리스트

Description

토픽맵 기반 색인 장치, 토픽맵 기반 검색 장치, 토픽맵 기반 검색 시스템 및 그 방법{TOPIC MAP BASED INDEXING APPARATUS, TOPIC MAP BASED SEARCHING APPARATUS, TOPIC MAP BASED SEARCHING SYSTEM AND ITS METHOD}
본 발명은 토픽맵(topic map)을 기반으로 하는 검색 기법에 관한 것으로, 더욱 상세하게는 커뮤니티 Q/A(Question/Answer, 이하‘Q/A’라 함) 리스트를 검출하여 토픽맵 기반으로 저장해 두고, 이를 이용하여 입력된 질문에 대한 답변을 제공하는데 적합한 토픽맵 기반 색인 장치, 토픽맵 기반 검색 장치, 토픽맵 기반 검색 시스템 및 그 방법에 관한 것이다.
본 발명은 지식경제부 및 정보통신연구진흥원의 IT 성장동력 핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2008-S-020-01, 과제명: 웹 QA 기술개발].
잘 알려진 바와 같이, 인터넷 보급이 급격하게 증가됨에 따라 인터넷이라는 동질의 매체를 통하여 전 세계인을 대상으로 하는 전자 상거래가 이루어지고 있으며, 사용자간의 커뮤니케이션 기능도 점점 발달하여 매우 다양한 형태의 커뮤니케 이션이 인터넷을 통하여 이루어지고 있다.
그리고, 인터넷을 이용한 가장 기본적인 커뮤니케이션 형태인 전자 우편이나 파일 전송이외에도, 유선 전화를 대신할 수 있는 인터넷 전화가 사용되고 있으며, 인터넷을 이용하여 이동 전화에 단문 메시지를 전송할 수도 있으며, 인터넷을 이용해 다자간 커뮤니케이션인 채팅도 있으며, 채팅의 경우 문자를 이용한 것 뿐 아니라 음성 채팅이나 화상 채팅 등이 인터넷을 통하여 이루어지고 있다. 이외에도, 동일 주제에 대하여 다수의 사용자들이 모여서 자료나, 의견 등을 주고받을 수 있는 커뮤니티가 활성화되고 있다.
이러한 커뮤니티는 카페, 블로그, 홈페이지, 클럽, 미니 홈피 등 다양한 형태로 이루어지며, 각 커뮤니티에는 다양한 컨텐츠들이 게시되어 있는데, 카페나 클럽에는 회원으로 가입된 각 사용자들이 각 게시판에 소정 주제에 대한 자료 등의 컨텐츠를 게시하여 서로 커뮤니케이션하며, 블로그, 미니 홈피 등에서는 이를 개설한 사용자가 자신의 의견이나 자료 등을 게시한다.
특히, 커뮤니티에 게시된 컨텐츠를 보거나 제공받고자 하는 경우에는 직접 해당 커뮤니티로 접속한 후 컨텐츠를 찾아야 하는 등의 번거로움이 있었으나, 최근에는 검색 기술의 발달에 의하여 웹 브라우저 상에서 사용자가 찾고자 하는 컨텐츠에 해당하는 소정 검색어를 입력하는 동작만으로, 웹 상의 웹 문서, 뉴스, 이미지, 사전 등의 카테고리별로 검색어에 대한 컨텐츠 검색이 수행되고, 카페, 블로그 등의 커뮤니티 중에서 검색어에 해당하는 정보를 가지는 커뮤니티에 대한 검색도 수행된다. 따라서, 사용자에게는 커뮤니티에 개별적으로 접속하지 않아도 커뮤니티에 게시된 소정 컨텐츠를 용이하게 검색할 수 있으며, 검색어에 대한 정보를 가지는 커뮤니티를 용이하게 알 수 있다.
한편, 종래에 사용자 질의에 따라 원하는 콘텐츠를 검색하는 기법에 대해 설명하면, 첫째, 웹사이트 상의 문서 처리뿐만 아니라 FAQ(Frequently Asked Questions, 이하‘FAQ’라 함) 리스트 검색과 대화형 DB 검색이 통합된 검색 시스템을 통해 사용자의 질의를 각 영역으로 분산시켜 최적의 검색된 응답 처리가 가능하도록 대화형 DB 검색, FAQ 리스트 검색, 웹사이트 질의-응답의 3가지 검색 기법을 이용함으로써, 검색 만족도를 높이는 기법이 있다.
둘째, 네트워크를 통하여 사용자로부터 검색어가 제공되면, 검색어와 일치되는 정보를 포함하는 커뮤니티들을 검색하고, 검색된 커뮤니티에 대한 신뢰도를 각각 측정하며, 측정된 신뢰도에 따라 검색된 커뮤니티를 순차적으로 배열하거나, 소정 값 이상의 신뢰도를 가지는 커뮤니티만을 선별하여 사용자에게 제공함으로써, 네트워크 상에서 신뢰성 있는 컨텐츠를 제공하는 커뮤니티를 검색하여 사용자에게 제공할 수 있다.
셋째, 대용량의 FAQ 웹 페이지들을 사용해서 자연어 질문에 대해 답변하는 기술에 대한 것으로, 웹으로부터 FAQ 페이지를 수집하고, 질문/응답 부분을 자동 추출하며, 사용자 질문에 적합한 질문/답변 리스트를 검색해서 정답을 추출하는 기법이 제안되어 있다.
하지만, 종래의 검색 기법에서 첫 번째 기법은 FAQ 리스트 검색이 일반 웹에 무작위로 구축된 소량의 데이터만을 대상으로 하고 있고, 검색 기술에 사용되는 기계적 분석 성능 자체가 떨어지므로 검색 성능 향상에 한계가 있으며, 두 번째 기법은, 웹 상에 산재해 있는 다양한 커뮤니티별 신뢰도를 계산하여 사용자 질문에 가장 적합한 커뮤니티만을 검색하므로 사용자가 원하는 정답을 찾기 위해서는 커뮤니티 콘텐츠를 사용자가 다시 검색해야 하는 문제가 있고, 세 번째 기법은 커뮤니티에 축적된 질문/답변을 대상으로 검색을 하는 것이 아니라 일반 웹에 있는 소량의 FAQ 리스트만을 대상으로 하고 있고, FAQ 리스트도 일반 검색엔진을 통해 자동으로 추출하기 때문에 오류를 내포하고 있다. 또한, 정답 검색 시에도 위치를 고려한 단순 키워드 매칭 기술만을 사용함으로써 검색 성능 향상에 한계가 있다.
이에 따라, 본 발명은 커뮤니티 Q/A 리스트를 검출하여 토픽맵 기반으로 Q/A 리스트를 저장하고, 이를 이용하여 입력된 질문에 대응하는 답변을 제공할 수 있는 토픽맵 기반 색인 장치, 토픽맵 기반 검색 장치, 토픽맵 기반 검색 시스템 및 그 방법을 제공하고자 한다.
제 1 관점에서 본 발명은, 커뮤니티 Q/A 리스트를 단일 형태로 정규화하고, 문법 오류를 수정하며, 무의미한 심볼을 제거하는 Q/A 전처리 블록과, 상기 커뮤니티 Q/A 리스트를 분석하여 Q/A 분석 정보를 획득하는 Q/A 분석 블록과, 상기 Q/A 분석 정보에 따라 중복 답변 제거, 신뢰도 기반으로 무의미한 답변 제거, 답변 리스트 순위화, 최상위 순위의 정답 추출 및 토픽 결정을 통해 상기 커뮤니티 Q/A 리스트 및 Q/A 분석 정보를 포함하는 색인 정보를 커뮤니티 Q/A 토픽맵으로 저장하는 Q/A 저장 블록을 포함하는 토픽맵 기반 색인 장치를 제공한다.
제 2 관점에서 본 발명은, 사용자 질문을 단일 형태로 정규화하고, 문법 오류를 수정하며, 무의미한 심볼을 제거하는 질문 전처리 블록과, 상기 사용자 질문을 분석하여 질문 분석 정보를 획득하는 질문 분석 블록과, 상기 질문 분석 정보에 따라 기 저장된 커뮤니티 Q/A 토픽맵의 특정 토픽 노드로 검색 공간을 한정하고, 상기 한정된 검색 공간에 대응하는 커뮤니티 Q/A 리스트에 대해 유사 질문을 검색하며, 상기 질문 분석 결과에 따라 검색된 상기 유사 질문을 순위화하는 유사 질문 검색 블록과, 순위화된 상기 유사 질문의 답변들 중 중복 답변을 제거하고, 그 답변들을 순위화하여 최상위 순위의 정답을 추출하여 출력하는 답변 추출 블록을 포함하는 토픽맵 기반 검색 장치를 제공한다.
제 3 관점에서 본 발명은, 커뮤니티 Q/A 리스트를 단일 형태로 정규화하며, 오류에 대한 전처리를 수행하고, 상기 커뮤니티 Q/A 리스트를 분석하여 Q/A 분석 정보를 획득하며, 상기 토픽 분류에 따라 상기 커뮤니티 Q/A 리스트 및 Q/A 분석 정보를 포함하는 색인 정보를 전송하는 토픽맵 기반 색인 장치와, 상기 색인 정보가 전송되면 이를 이용하여 커뮤니티 Q/A 토픽맵을 생성 저장하는 토픽맵 저장 장치와, 사용자 질문이 입력되면, 상기 단일 형태로 정규화하며, 상기 오류에 대한 전처리를 수행하고, 상기 사용자 질문을 분석하여 질문 분석 정보를 획득하며, 상 기 질문 분석 정보에 따라 상기 커뮤니티 Q/A 토픽맵에서 유사 질문을 검색하여 순위화하고, 상기 유사 질문에 대응하는 답변을 순위화하여 최상위 순위의 정답을 추출 및 출력하는 토픽맵 기반 검색 장치를 포함하는 토픽맵 기반 검색 시스템을 제공한다.
제 4 관점에서 본 발명은, 커뮤니티 Q/A 리스트를 단일 형태로 정규화하며, 오류에 대한 전처리를 수행하는 단계와, 상기 커뮤니티 Q/A 리스트를 분석하여 Q/A 분석 정보를 획득하는 단계와, 상기 토픽 분류에 따라 상기 커뮤니티 Q/A 리스트 및 Q/A 분석 정보를 포함하는 색인 정보를 이용하여 커뮤니티 Q/A 토픽맵을 생성 저장하는 단계와, 사용자 질문이 입력되면, 상기 단일 형태로 정규화하며, 상기 오류에 대한 전처리를 수행하는 단계와, 상기 사용자 질문을 분석하여 질문 분석 정보를 획득하는 단계와, 상기 질문 분석 정보에 따라 상기 커뮤니티 Q/A 토픽맵에서 유사 질문을 검색하여 순위화하는 단계와, 상기 유사 질문에 대응하는 답변을 순위화하여 최상위 순위의 정답을 추출 및 출력하는 단계를 포함하는 토픽맵 기반 검색 방법을 제공한다.
본 발명은, FAQ 리스트 검색과 대화형 DB 검색을 통합적으로 수행하거나, 신뢰도에 따라 커뮤니티를 검색하거나, FAQ 웹 페이지들을 사용해서 자연어 질문에 대해 답변을 검색하는 종래 방법과는 달리, 커뮤니티 Q/A 리스트들을 토픽맵 기반으로 커뮤니티 Q/A 토픽맵으로 저장해 두고, 사용자 질문이 입력되면 사용자 질문 에 대한 전처리 및 분석 과정을 통해 질문 분석 정보를 획득하며, 이러한 질문 분석 정보에 따라 커뮤니티 Q/A 토픽맵에서 유사 질문들을 검색하여 이를 순위화하여 그에 대응하는 정답을 효과적으로 추출 및 출력함으로써, 사용자 질문을 분석하여 기 저장된 커뮤니티 Q/A 토픽맵을 통해 가장 적합한 정답을 검색할 수 있고, 다양한 질문에 대한 검색 성능을 향상시킬 수 있다.
본 발명의 기술요지는, 검출된 커뮤니티 Q/A 리스트들을 하나의 단위로 인식하여 오류에 대한 전처리를 수행하고, 커뮤니티 Q/A 리스트들에 대한 분석 과정을 수행한 후, 그 Q/A 분석 정보를 포함하는 색인 정보를 통해 커뮤니티 토픽맵을 생성 저장한 후에, 입력된 사용자 질문을 하나의 단위로 인식하여 오류에 대한 전처리를 수행하고, 사용자 질문에 대한 분석 과정을 수행한 후, 질문 분석 정보를 이용하여 커뮤니티 Q/A 토픽맵에서 유사 질문을 검색하며, 검색된 유사 질문을 순위화하고, 이러한 유사 질문에 대응하는 답변을 순위화하여 정답을 추출 및 출력한다는 것이며, 이러한 기술적 수단을 통해 종래 기술에서의 문제점을 해결할 수 있다.
이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예에 대하여 상세하게 설명한다.
도 1은 본 발명의 바람직한 실시 예에 따라 토픽맵 기반으로 질문에 대한 답 변을 제공하는데 적합한 토픽맵 기반 검색 시스템의 블록 구성도로서, 색인 장치(100), 토픽맵 저장 장치(200) 및 검색 장치(300)를 포함한다. 여기에서, 색인 장치(100), 토픽맵 저장 장치(200) 및 검색 장치(300)는 각각 다양한 통신망으로 연결되어 데이터 통신을 수행하는 것으로 하여 이하에서는 설명한다.
도 1을 참조하면, 색인 장치(100)는 다수의 커뮤니티 사이트로부터 커뮤니티 Q/A 리스트들을 검출하여 분석한 후, 그에 따른 커뮤니티 Q/A를 토픽맵 기반으로 색인하는 서버 등을 포함하는 것으로, 검출된 커뮤니티 Q/A 리스트들을 하나의 단위로 인식하여 오류에 대한 전처리를 수행하고, 커뮤니티 Q/A 리스트들에 대한 언어 분석, 도메인 결정, 토픽별 분류, 유형 분석, 키워드 확장, 제약어 추출 등의 분석 과정을 수행한 후, 그 Q/A 분석 정보를 이용하여 그에 대응하는 토픽 노드에 해당 커뮤니티 Q/A 리스트와 Q/A 분석 정보를 포함하는 색인 정보를 각각 토픽맵 저장 장치(200)에 전송한다.
여기에서, 도 2는 본 발명에 따라 커뮤니티 Q/A 리스트들을 분석하여 커뮤니티 Q/A 리스트를 포함하는 색인 정보를 제공하는데 적합한 색인 장치의 블록 구성도로서, 색인 장치(100)는 Q/A 전처리 블록(102), Q/A 분석 블록(104) 및 Q/A 저장 블록(106)을 포함한다.
도 2를 참조하여 색인 장치(100)에 대해 상세히 설명하면, Q/A 전처리 블록(102)은 검출된 커뮤니티 Q/A 리스트들에 대해 하나의 단위로 인식이 가능한 단어들을 단일 형태로 정규화하고, 다양한 문법 오류를 수정하며, 무의미한 심볼들을 제거하여 Q/A 분석 블록(104)으로 전달한다.
그리고, Q/A 분석 블록(104)은 형태소, 개체명, 구문 등의 언어 분석을 수행하고, 커뮤니티 Q/A의 도메인을 결정하며, 토픽별로 커뮤니티 Q/A를 분류하고, 커뮤니티 Q/A의 유형을 분석하며, 중요 키워드를 추출하여 유사어를 확장하고, 검색 시 제약 사항이 되는 제약어를 추출함으로써, 그 Q/A 분석 정보를 획득하여 Q/A 저장 블록(106)으로 전달한다.
다음에, Q/A 저장 블록(104)은 전달되는 Q/A 분석 정보에 따라 커뮤니티 Q/A의 중복 답변을 제거하고, 답변의 내용 및 답변자의 정보에 따른 신뢰도 기반으로 무의미한 답변들을 제거하며, 커뮤니티 Q/A의 답변 리스트를 순위화(랭킹화)한 후에 최상위 순위의 답변을 정답으로 추출한 후에, 분류된 토픽을 결정하고, 결정된 토픽 노드에 정답을 포함하는 해당 커뮤니티 Q/A 리스트와 Q/A 분석 결과를 포함하는 색인 정보를 토픽맵 저장 장치(200)에 저장하도록 전송한다.
다음에, 토픽맵 저장 장치(200)는 토픽맵 기반으로 커뮤니티 Q/A 리스트와 Q/A 분석 정보를 포함하는 색인 정보를 저장 관리하는 데이터베이스를 포함하는 것으로, 색인 장치(100)로부터 커뮤니티 Q/A 리스트와 Q/A 분석 정보를 포함하는 색인 정보가 전송되면 이를 토픽맵 기반으로 커뮤니티 Q/A 토픽맵을 생성 저장하고, 커뮤니티 Q/A 토픽맵으로 저장된 커뮤니티 Q/A 리스트들은 필요에 따라 선택 추출되어 검색 장치(300)로 통신망을 통해 전송된다. 일 예로서, 도 3은 본 발명에 따라 커뮤니티 토픽맵을 나타낸 도면으로, 각각의 토픽 노드(예를 들면, D, D1, D2, D3, T1, T2, T3 등)에 대응하여 토픽맵 기반으로 저장된 커뮤니티 Q/A 리스트를 나타 낸다.
그리고, 검색 장치(300)는 입력된 사용자 질문을 분석한 후, 그에 따른 답변을 토픽맵 기반으로 검출하여 제공하는 단말기, 서버 등을 포함하는 것으로, 입력된 사용자 질문을 하나의 단위로 인식하여 오류에 대한 전처리를 수행하고, 사용자 질문에 대한 언어 분석, 도메인 결정, 토픽별 분류, 유형 분석, 키워드 확장, 제약어 추출 등의 분석 과정을 수행한 후, 질문 분석 정보를 이용하여 토픽맵 저장 장치(200)에 저장된 커뮤니티 Q/A 토픽맵에서 유사 질문을 검색하며, 검색된 유사 질문을 순위화(랭킹화)하고, 이러한 유사 질문에 대응하는 답변을 순위화하여 정답(즉, 최상위 순위의 답변)을 추출 및 출력한다.
여기에서, 도 4는 본 발명에 따라 입력된 사용자 질문에 대응하는 답변을 토픽맵 기반으로 검색하여 출력하는데 적합한 검색 장치의 블록 구성도로서, 검색 장치(300)는 질문 전처리 블록(302), 질문 분석 블록(304), 유사 질문 검색 블록(306) 및 답변 추출 블록(308)을 포함한다.
도 4를 참조하여 검색 장치(300)에 대해 상세히 설명하면, 질문 전처리 블록(302)은 입력된 사용자 질문에 대해 하나의 단위로 인식이 가능한 단어들을 단일 형태로 정규화하고, 다양한 문법 오류를 수정하며, 무의미한 심볼들을 제거하여 질문 분석 블록(304)으로 전달한다.
그리고, 질문 분석 블록(304)은 형태소, 개체명, 구문 등의 언어 분석을 수행하고, 사용자 질문의 도메인을 결정하며, 토픽별로 사용자 질문을 분류하고, 사용자 질문의 유형을 분석하며, 중요 키워드를 추출하여 유사어를 확장하고, 검색 시 제약 사항이 되는 제약어를 추출함으로써, 그 질문 분석 정보를 획득하여 유사 질문 검색 블록(306)으로 전달한다.
다음에, 유사 질문 검색 블록(306)은 질문 분석 정보에 따라 사용자 질문을 검색할 커뮤니티 Q/A 리스트를 토픽맵 저장 장치(200)에 저장된 커뮤니티 Q/A 토픽맵의 특정 토픽 노드로 한정하고, 한정된 커뮤니티 Q/A 리스트를 대상으로 유사 질문을 검색하며, 유사 질문들을 질문 분석 결과에 따라 순위화하여 그 결과를 답변 추출 블록(308)으로 전달한다.
또한, 답변 추출 블록(308)은 순위화된 유사 질문들의 답변들 중 동일 의미의 답변을 제거하고, 유사 질문들의 답변들을 순위화하여 가장 최상위에 위치하는 답변을 정답으로 추출하여 출력한다.
다음에, 상술한 바와 같은 구성을 갖는 토픽맵 기반 검색 시스템에서 색인 장치(100)를 구성하는 Q/A 전처리 블록(102), Q/A 분석 블록(104) 및 Q/A 저장 블록(106)에 대한 각각의 상세 구성에 대해 설명한다.
도 5는 본 발명에 따른 Q/A 전처리 블록의 상세 블록 구성도로서, Q/A 전처리 블록(102)은 제 1 단위 인식부(102a), 제 1 단위 사전 데이터베이스(102b), 제 1 오류 전처리부(102c) 및 제 1 전처리 규칙 데이터베이스(102d)를 포함한다.
도 5를 참조하여 Q/A 전처리 블록(102)에 대해 더욱 상세히 설명하면, 제 1 단위 인식부(102a)는 검출된 커뮤니티 Q/A 리스트들에서 동일한 의미의 이형태 단어들 또는 게임명, 퀘스트명 등으로 나타나는 한 단위로 인식이 가능한 단어들을 제 1 단위 사전 데이터베이스(102b)를 참조하여 단일 형태로 정규화한다. 일 예로 서, ‘던파’,‘던전 앤 파이터’,‘던젼 앤 파이터’등의 이형태 단어들은 ‘던전 앤 파이터’로 정규화할 수 있고, 게임명인‘<천지를 먹다:햇햇10>’의 경우 하나의 단위로 인식하며, 아이템명인‘<천재의 검:힛힛2>’의 경우 하나의 단위로 인식할 수 있으며, 제 1 단위 사전 데이터베이스(102b)에는 이형태 단어, 게임명, 아이템명 등이 데이터베이스화되어 저장되어 있다.
그리고, 제 1 오류 전처리부(102c)는 문법 오류 규칙, 분석 오류 규칙 등이 저장되어 있는 제 1 전처리 규칙 데이터베이스(102d)를 참조하여 띄어쓰기 오류, 오타 등의 다양한 문법 오류를 수정하고, 언어 분석에서 오류 발생 가능한 무의미한 심볼들을 제거한다. 일 예로서, ‘스타2는언제 발매되나?’의 문법 오류는‘스타2는 언제 발매되나?’로 수정되고, ‘리니지가 중간에 죽어요....ㅠㅠㅠㅠㅠ’의경우 무의미한 심볼인‘...ㅠㅠㅠㅠㅠ’가 제거되어‘리니지가 중간에 죽어요.’로 수정된다.
도 6은 본 발명에 따른 Q/A 분석 블록의 상세 블록 구성도로서, Q/A 분석 블록(104)은 제 1 언어 분석부(104a), 제 1 도메인 분류부(104b), 제 1 도메인 분류 데이터베이스(104c), 제 1 토픽 분류부(104d), 제 1 토픽 분류 데이터베이스(104e), 제 1 Q/A 유형 분석부(104f), 제 1 Q/A 유형 데이터베이스(104g), 제 1 키워드 추출 확장부(104h), 제 1 키워드 확장 사전 데이터베이스(104i), 제 1 제약어 추출부(104j) 및 제 1 제약어 추출 규칙 데이터베이스(104k)를 포함한다.
도 6을 참조하여 Q/A 분석 블록(104)에 대해 더욱 상세히 설명하면, 제 1 언어 분석부(104a)는 형태소 분석, 개체명 분석, 부분 구문 분석 등을 통해 커뮤니티 Q/A 리스트에 대한 언어 분석을 수행하여 그 결과를 획득한다.
그리고, 제 1 도메인 분류부(104b)는 장르별 도메인을 데이터베이스화하여 저장하고 있는 제 1 도메인 분류 데이터베이스(104c)를 참조하여 커뮤니티 Q/A 리스트의 도메인(예를 들면, 게임 분야, 영화 분야, 뉴스 분야 등)을 결정하고, 제 1 토픽 분류부(104d)는 계층 구조로 구성된 토픽맵의 다양한 토픽을 분류하여 저장하고 있는 제 1 토픽 분류 데이터베이스(104e)를 참조하여 토픽맵의 다양한 토픽 중에서 어느 하나의 토픽(즉, 토픽별로)에 따라 커뮤니티 Q/A 리스트를 분류한다.
또한, 제 1 Q/A 유형 분석부(104f)는 커뮤니티 Q/A 리스트의 유형에 대한 정보를 저장하고 있는 제 1 Q/A 유형 데이터베이스(104g)를 참조하여 커뮤니티 질문의 의도를 분석하여 원하는 커뮤니티 답변의 유형을 분석하며, 제 1 키워드 추출 확장부(104h)는 각종 키워드와 그에 대응하는 유사어를 저장하고 있는 제 1 키워드 확장 사전 데이터베이스(104i)를 참조하여 커뮤니티 Q/A의 언어 분석 결과에 따라 중요한 키워드를 추출한 후에 그에 대응하는 유사어를 추가 확장한다.
한편, 제 1 제약어 추출부(104j)는 검색 제약 정보를 저장하고 있는 제 1 제약어 추출 규칙 데이터베이스(104k)를 참조하여 시간, 장소 등을 검색할 경우 제약 사항이 되는 제약어를 추출한다.
예를 들면, 커뮤니티 질문이“파판 10에서 티더의 궁극 무기가 뭐야?”에 대한 각 구성부의 분석 결과를 나타내면, 형태소 분석의 경우‘파판/NN+10/NU+에서/JO 티더/NN+의/JO 궁극/NN 무기/NN+가/JO 뭐/NP+야/JO ?/SY’로 나타낼 수 있고, 개체명 인식의 경우 ‘<파판 10:TMIG_SW>에서 <티더:PS_CHARACTER>의 궁극 무기가 뭐야?’로 나타낼 수 있으며, 부분 구문 분석의 경우‘<티더의 궁극 무기:GNP>’로나타낼 수 있고, 도메인 분류는‘게임 분야’로, 토픽 분류는‘아이템’으로, Q/A 유형은‘TMIG_ITEM’으로 분석될 수 있으며, ‘파판 10’,‘티더+궁극 무기’,‘티더’,‘궁극 무기’의 키워드를 추출할 수 있고, 그 유사어로서 ‘파판’은 ‘파이날판타지’,‘파이널판타지’등으로, ‘티더’는 ‘티다’등으로,‘궁극 무기’는 ‘칠요무기’,‘최강무기’등으로 확장될 수 있으며, 제약어는 없는 것으로 알 수 있다. 여기에서, 형태소 분석에서 ‘NN’은 명사, ‘NU’는 숫자, ‘JO’는 조사, ‘NP’는 대명사, ‘SY’는 기호를 나타내며, 개체명 인식에서 ‘TMIG_SW’는 소프트웨어, ‘PS_CHARACTER’은 캐릭터을 나타내며, 부분 구분 분석의 경우‘GNP’는 속격 어구를 나타내며,‘TMIG_ITEM’은 아이템을 나타낸다.
도 7은 본 발명에 따른 Q/A 저장 블록의 상세 블록 구성도로서, Q/A 분석 블록(106)은 제 1 중복 답변 제거부(106a), 오답 필터링부(106b), 필터링 규칙 데이터베이스(106c), 정답 추출부(106d), 정답 추출 규칙 데이터베이스(106e), 토픽 노드 결정부(106f) 및 색인 정보 저장부(106g)를 포함한다.
도 7을 참조하여 Q/A 저장 블록(102)에 대해 더욱 상세히 설명하면, 제 1 중복 답변 제거부(106a)는 커뮤니티 질문에 대한 커뮤니티 답변 리스트 중에서 동일한 의미의 답변들을 제거하여 하나의 답변만을 남긴다.
그리고, 오답 필터링부(106b)는 답변 내용과 답변자에 대한 신뢰도에 따라 설정된 필터링 규칙이 저장되어 있는 필터링 규칙 데이터베이스(106c)를 참조하여 커뮤니티 답변 리스트 중에서 질문과 상관없는 무의미한 답변들을 답변 내용과 답 변자에 따른 신뢰도를 기반으로 하여 제거한다.
다음에, 정답 추출부(106d)는 커뮤니티 답변 리스트를 순위화한 후에, 순위화된 답변 리스트를 이용하여 정답을 추출하기 위한 규칙이 저장되어 있는 정답 추출 규칙 데이터베이스(106e)를 참조하여 최상위 순위의 커뮤니티 답변 리스트를 정답으로 추출한다.
한편, 토픽 노드 결정부(106f)는 Q/A 분석 정보 중 토픽 분류(예를 들면, 아이템 등)에 따라 커뮤니티 질문에 적합한 토픽을 결정하며, 색인 정보 저장부(106g)는 정답이 추출된 커뮤니티 Q/A 리스트와 Q/A 분석 블록(104)을 통해 획득된 Q/A 분석 정보를 포함하는 색인 정보를 생성하여 결정된 토픽에 대응하는 토픽 노드에 저장하도록 토픽맵 저장 장치(200)로 전송한다.
다음에, 상술한 바와 같은 구성을 갖는 토픽맵 기반 검색 시스템에서 검색 장치(300)를 구성하는 질문 전처리 블록(302), 질문 분석 블록(304), 유사 질문 검색 블록(306) 및 답변 추출 블록(308)에 대한 각각의 상세 구성에 대해 설명한다.
도 8은 본 발명에 따른 질문 전처리 블록의 상세 블록 구성도로서, 질문 전처리 블록(302)은 제 2 단위 인식부(302a), 제 2 단위 사전 데이터베이스(302b), 제 2 오류 전처리부(302c) 및 제 2 전처리 규칙 데이터베이스(302d)를 포함한다.
도 8을 참조하여 질문 전처리 블록(302)에 대해 더욱 상세히 설명하면, 제 2 단위 인식부(302a)는 입력된 사용자 질문에서 동일한 의미의 이형태 단어들 또는 게임명, 퀘스트명 등으로 나타나는 한 단위로 인식이 가능한 단어들을 제 2 단위 사전 데이터베이스(302b)를 참조하여 단일 형태로 정규화한다. 여기에서, 제 2 단 위 사전 데이터베이스(302b)에는 이형태 단어, 게임명, 아이템명 등이 데이터베이스화되어 저장되어 있다.
그리고, 제 2 오류 전처리부(302c)는 띄어쓰기 오류, 오타 등의 다양한 문법 오류를 수정하고, 언어 분석에서 오류 발생 가능한 무의미한 심볼들을 제거한다.
여기에서, 질문 전처리 블록(302)은 색인 장치(100)의 Q/A 전처리 블록(102)에서 설명한 예와 같은 동일한 방식으로 사용자 질문에 대한 전처리를 수행할 수 있다.
도 9는 본 발명에 따른 질문 분석 블록의 상세 블록 구성도로서, 질문 분석 블록(304)은 제 2 언어 분석부(304a), 제 2 도메인 분류부(304b), 제 2 도메인 분류 데이터베이스(304c), 제 2 토픽 분류부(304d), 제 2 토픽 분류 데이터베이스(304e), 제 2 Q/A 유형 분석부(304f), 제 2 Q/A 유형 데이터베이스(304g), 제 2 키워드 추출 확장부(304h), 제 2 키워드 확장 사전 데이터베이스(304i), 제 2 제약어 추출부(304j) 및 제 2 제약어 추출 규칙 데이터베이스(304k)를 포함한다.
도 9를 참조하여 질문 분석 블록(104)에 대해 더욱 상세히 설명하면, 제 2 언어 분석부(304a)는 형태소 분석, 개체명 분석, 부분 구문 분석 등을 통해 사용자 질문에 대한 언어 분석을 수행하여 그 결과를 획득한다.
그리고, 제 2 도메인 분류부(304b)는 장르별 도메인을 데이터베이스화하여 저장하고 있는 제 2 도메인 분류 데이터베이스(304c)를 참조하여 사용자 질문의 도메인(예를 들면, 게임 분야, 영화 분야, 뉴스 분야 등)을 결정하고, 제 2 토픽 분류부(304d)는 계층 구조로 구성된 토픽맵의 다양한 토픽을 분류하여 저장하고 있는 제 2 토픽 분류 데이터베이스(304e)를 참조하여 토픽맵의 다양한 토픽 중에서 어느 하나의 토픽(즉, 토픽별로)에 따라 사용자 질문을 분류한다.
또한, 제 2 Q/A 유형 분석부(304f)는 사용자 질문의 유형에 대한 정보를 저장하고 있는 제 2 Q/A 유형 데이터베이스(304g)를 참조하여 사용자 질문의 의도를 분석하여 원하는 답변의 유형을 분석하며, 제 2 키워드 추출 확장부(304h)는 각종 키워드와 그에 대응하는 유사어를 저장하고 있는 제 2 키워드 확장 사전 데이터베이스(304i)를 참조하여 사용자 질문의 언어 분석 결과에 따라 중요한 키워드를 추출한 후에 그에 대응하는 유사어를 추가 확장한다.
한편, 제 2 제약어 추출부(304j)는 검색 제약 정보를 저장하고 있는 제 2 제약어 추출 규칙 데이터베이스(304k)를 참조하여 시간, 장소 등을 검색할 경우 제약 사항이 되는 제약어를 추출한다.
여기에서, 질문 분석 블록(302)은 색인 장치(100)의 Q/A 분석 블록(102)에서 설명한 예와 같은 동일한 방식으로 사용자 질문에 대한 분석 과정을 수행할 수 있다.
도 10은 본 발명에 따른 유사 질문 검색 블록의 상세 블록 구성도로서, 유사 질문 검색 블록(306)은 검색 공간 제약부(306a), 의미 기반 매칭부(306b) 및 유사 질문 랭킹부(306c)를 포함한다.
도 10을 참조하여 유사 질문 검색 블록(306)에 대해 더욱 상세히 설명하면, 검색 공간 제약부(306a)는 질문 분석 정보 중 도메인 분류 및 토픽 분류에 대한 결과를 이용하여 사용자 질문에 대한 답변을 검색할 커뮤니티 Q/A 리스트를 커뮤니티 Q/A 토픽맵의 토픽 분류에 대응하는 토픽 노드에 있는 리스트들로 한정한다.
그리고, 의미 기반 매칭부(306b)는 질문 분석 정보에서 추출된 의미있는 색인어(예를 들면, 키워드, 유사어 등)를 이용하여 토픽맵 저장 장치(200)에서 분류 토픽에 대응하는 토픽 노드에 있는 커뮤니티 Q/A 리스트의 유사 질문들을 모두 검색한다.
다음에, 유사 질문 랭킹부(306c)는 검색된 유사 질문들을 포함하는 커뮤니티 Q/A 리스트들을 토픽맵 저장 장치(200)로부터 검출하여 질문 분석 정보에 따라 순위화(랭킹화)한다.
도 11은 본 발명에 따른 답변 추출 블록의 상세 블록 구성도로서, 답변 추출 블록(308)은 제 2 중복 답변 제거부(308a) 및 정답 랭킹부(308b)를 포함한다.
도 11을 참조하여 답변 추출 블록(308)에 대해 더욱 상세히 설명하면, 제 2 중복 답변 제거부(308a)는 순위화된 커뮤니티 Q/A 리스트에서 유사 질문에 대한 답변 리스트에서 동일한 의미의 답변이 있을 경우 하나의 답변만을 남기고 나머지 답변들은 제거한다.
그리고, 정답 랭킹부(308b)는 순위화된 유사 질문들에 대한 답변들을 순위화하여 그 중에서 최상위에 위치하는 답변을 정답(best answer)으로서 출력한다.
다음에, 상술한 바와 같은 구성을 갖는 토픽맵 기반 검색 시스템에서 검출된 커뮤니티 Q/A 리스트들을 하나의 단위로 인식하여 오류에 대한 전처리를 수행하고, 커뮤니티 Q/A 리스트들에 대한 분석 과정을 수행한 후, 그 Q/A 분석 정보를 포함하는 색인 정보를 통해 커뮤니티 토픽맵을 생성 저장한 후에, 입력된 사용자 질문을 하나의 단위로 인식하여 오류에 대한 전처리를 수행하고, 사용자 질문에 대한 분석 과정을 수행한 후, 질문 분석 정보를 이용하여 커뮤니티 Q/A 토픽맵에서 유사 질문을 검색하며, 검색된 유사 질문을 순위화하고, 이러한 유사 질문에 대응하는 답변을 순위화하여 정답을 추출 및 출력하는 과정에 대해 설명한다.
도 12는 본 발명의 제 1 실시 예에 따라 저장된 커뮤니티 Q/A 토픽맵를 이용하여 사용자 질문에 대한 답변을 검색하는 과정을 도시한 플로우차트이다.
도 12를 참조하면, 색인 장치(100)에서 다수의 커뮤니티 사이트에서 커뮤니티 Q/A 리스트를 검출하면(단계1202), 색인 장치(100)의 Q/A 전처리 블록(102)에서는 검출된 커뮤니티 Q/A 리스트들에 대해 하나의 단위로 인식이 가능한 단어들을 단일 형태로 정규화하고, 문법 오류 수정, 무의미한 심볼 제거 등의 전처리를 수행하여 Q/A 분석 블록(104)으로 전달한다(단계1204).
그리고, 색인 장치(100)의 Q/A 분석 블록(104)에서는 형태소, 개체명, 구문 등의 언어 분석을 수행하고, 커뮤니티 Q/A의 도메인을 결정하며, 토픽별로 커뮤니티 Q/A를 분류하고, 커뮤니티 Q/A의 유형을 분석하며, 중요 키워드를 추출하여 유사어를 확장하고, 검색 시 제약 사항이 되는 제약어를 추출하는 방식으로 커뮤니티 Q/A 리스트들을 분석함으로써, 그 Q/A 분석 정보를 획득하여 Q/A 저장 블록(106)으로 전달한다(단계1206).
다음에, 색인 장치(100)의 Q/A 저장 블록(104)에서는 전달되는 Q/A 분석 정보에 따라 커뮤니티 Q/A 리스트의 중복 답변을 제거하고, 답변의 내용 및 답변자의 정보에 따른 신뢰도 기반으로 무의미한 답변들을 제거하며, 커뮤니티 Q/A 리스트의 답변 리스트를 순위화(랭킹화)한 후에 최상위 순위의 답변을 정답으로 추출한 후에, 분류된 토픽을 결정하고, 결정된 토픽 노드에 정답을 포함하는 해당 커뮤니티 Q/A 리스트와 Q/A 분석 결과를 포함하는 색인 정보를 토픽맵 저장 장치(200)에 저장하도록 전송한다(단계1208).
이에 따라, 토픽맵 저장 장치(200)에서는 토픽맵 기반으로 전송되는 색인 정보를 이용하여 커뮤니티 Q/A 토픽맵을 생성하여 저장한다(단계1210).
한편, 검색 장치(300)에서는 사용자가 원하는 답변을 검색하기 위한 질문을 입력하여 그 사용자 질문이 입력되는지를 체크한다(단계1212).
상기 단계(1212)에서의 체크 결과, 사용자 질문이 입력될 경우 검색 장치(300)의 질문 전처리 블록(302)에서는 입력된 사용자 질문에 대해 하나의 단위로 인식이 가능한 단어들을 단일 형태로 정규화하고, 다양한 문법 오류를 수정하며, 무의미한 심볼들을 제거하는 등의 질문 전처리를 수행하여 질문 분석 블록(304)으로 전달한다(단계1214).
그리고, 검색 장치(300)의 질문 분석 블록(304)에서는 형태소, 개체명, 구문 등의 언어 분석을 수행하고, 사용자 질문의 도메인을 결정하며, 토픽별로 사용자 질문을 분류하고, 사용자 질문의 유형을 분석하며, 중요 키워드를 추출하여 유사어를 확장하고, 검색 시 제약 사항이 되는 제약어를 추출하는 방식으로 사용자 질문을 분석하고, 그 질문 분석 정보를 획득하여 유사 질문 검색 블록(306)으로 전달한다(단계1216).
다음에, 검색 장치(300)의 유사 질문 검색 블록(306)에서는 질문 분석 정보 에 따라 사용자 질문을 검색할 커뮤니티 Q/A 리스트를 토픽맵 저장 장치(200)에 저장된 커뮤니티 토픽맵의 특정 토픽 노드로 한정하고, 한정된 커뮤니티 Q/A 리스트를 대상으로 유사 질문을 검색하며, 유사 질문들을 질문 분석 결과에 따라 순위화하여 그 결과를 답변 추출 블록(308)으로 전달한다(단계1218).
이어서, 검색 장치(300)의 답변 추출 블록(308)에서는 순위화된 유사 질문들의 답변들 중 동일 의미의 답변을 제거하고, 유사 질문들의 답변들을 순위화하여 가장 최상위에 위치하는 답변을 정답(best answer)으로 추출하여 출력한다(단계1220).
따라서, 토픽맵 기반 검색 시스템에서 커뮤니티 Q/A 리스트를 이용하여 전처리 및 분석을 통해 커뮤니티 Q/A 토픽맵을 생성 저장해 두고, 사용자 질문이 입력되면 이에 대한 전처리 및 분석을 통해 유사 질문들을 검색하고, 이에 대응하는 답변들 중에서 정답을 추출하여 효과적으로 출력할 수 있다.
다음에, 상술한 바와 같이 토픽맵 기반으로 하는 색인 장치(100)에서 검출된 커뮤니티 Q/A 리스트들을 하나의 단위로 인식하여 오류에 대한 전처리를 수행하고, 커뮤니티 Q/A 리스트들에 대한 언어 분석, 도메인 결정, 토픽별 분류, 유형 분석, 키워드 확장, 제약어 추출 등의 분석 과정을 수행한 후, 그 Q/A 분석 정보에 대응하는 토픽 노드에 해당 커뮤니티 Q/A 리스트와 Q/A 분석 정보를 포함하는 색인 정보를 각각 전송하여 커뮤니티 토픽맵을 생성 저장하는 과정에 대해 설명한다.
도 13은 본 발명의 제 2 실시 예에 따라 커뮤니티 Q/A 리스트들을 분석하여 커뮤니티 Q/A 토픽맵을 생성하는 과정을 도시한 플로우차트이다.
도 13을 참조하면, 색인 장치(100)에서 다수의 커뮤니티 사이트에서 커뮤니티 Q/A 리스트를 검출하면(단계1302), Q/A 전처리 블록(102)의 제 1 단위 인식부(102a)에서는 검출된 커뮤니티 Q/A 리스트들에서 동일한 의미의 이형태 단어들 또는 게임명, 퀘스트명 등으로 나타나는 한 단위로 인식이 가능한 단어들을 제 1 단위 사전 데이터베이스(102b)를 참조하여 단일 형태로 정규화한다(단계1304).
그리고, Q/A 전처리 블록(102)의 제 1 오류 전처리부(102c)에서는 제 1 전처리 규칙 데이터베이스(102d)를 참조하여 띄어쓰기 오류, 오타 등의 다양한 문법 오류를 수정하고, 언어 분석에서 오류 발생 가능한 무의미한 심볼들을 제거한 후에, 그 커뮤니티 Q/A 리스트를 Q/A 분석 블록(104)으로 전달한다(단계1306).
또한, Q/A 분석 블록(104)의 제 1 언어 분석부(104a)에서는 전달되는 커뮤니티 Q/A 리스트에 대해 형태소 분석, 개체명 분석, 부분 구문 분석 등을 통해 커뮤니티 Q/A에 대한 언어 분석을 수행하여 그 결과를 획득한다(단계1308).
다음에, Q/A 분석 블록(104)의 제 1 도메인 분류부(104b)에서는 제 1 도메인 분류 데이터베이스(104c)를 참조하여 커뮤니티 Q/A의 도메인(예를 들면, 게임 분야, 영화 분야, 뉴스 분야 등)을 결정한다(단계1310).
그리고, Q/A 분석 블록(104)의 제 1 토픽 분류부(104d)에서는 제 1 토픽 분류 데이터베이스(104e)를 참조하여 토픽맵의 다양한 토픽 중에서 어느 하나의 토픽(즉, 토픽별로)에 따라 커뮤니티 Q/A를 분류한다(단계1312).
또한, Q/A 분석 블록(104)의 제 1 Q/A 유형 분석부(104f)에서는 제 1 Q/A 유형 데이터베이스(104g)를 참조하여 커뮤니티 Q/A 리스트에서 커뮤니티 질문의 의도 를 분석하여 원하는 커뮤니티 답변의 유형을 분석한다(단계1314).
다음에, Q/A 분석 블록(104)의 제 1 키워드 추출 확장부(104h)에서는 제 1 키워드 확장 사전 데이터베이스(104i)를 참조하여 커뮤니티 Q/A의 언어 분석 결과에 따라 중요한 키워드를 추출한 후에 그에 대응하는 유사어를 추가 확장한다(단계1316).
그리고, Q/A 분석 블록(104)의 제 1 제약어 추출부(104j)에서는 제 1 제약어 추출 규칙 데이터베이스(104k)를 참조하여 시간, 장소 등을 검색할 경우 제약 사항이 되는 제약어를 추출하는 방식으로 커뮤니티 Q/A 리스트를 분석한 후에, 그 Q/A 분석 정보를 Q/A 저장 블록(106)으로 전달한다(단계1318).
한편, Q/A 저장 블록(106)의 제 1 중복 답변 제거부(106a)에서는 커뮤니티 질문에 대한 커뮤니티 답변 리스트 중에서 동일한 의미의 답변들을 제거하여 하나의 답변만을 남긴다(단계1320).
또한, Q/A 저장 블록(106)의 오답 필터링부(106b)에서는 필터링 규칙 데이터베이스(106c)를 참조하여 커뮤니티 답변 리스트 중에서 질문과 상관없는 무의미한 답변들을 답변 내용과 답변자에 따른 신뢰도를 기반으로 하여 제거한다(단계1322).
다음에, Q/A 저장 블록(106)의 정답 추출부(106d)에서는 커뮤니티 답변 리스트를 순위화(랭킹화)한 후에, 정답 추출 규칙 데이터베이스(106e)를 참조하여 최상위 순위의 커뮤니티 답변 리스트를 정답(best answer)으로 추출한다(단계1324).
한편, Q/A 저장 블록(106)의 토픽 노드 결정부(106f)에서는 Q/A 분석 정보 중 토픽 분류(예를 들면, 아이템 등)에 따라 커뮤니티 질문에 적합한 토픽을 결정 하며, Q/A 저장 블록(106)의 색인 정보 저장부(106g)는 정답이 추출된 커뮤니티 Q/A 리스트와 Q/A 분석 블록(104)을 통해 획득된 Q/A 분석 정보를 포함하는 색인 정보를 생성하여 결정된 토픽에 대응하는 토픽 노드에 저장하도록 토픽맵 저장 장치(200)에 전송 제공한다(단계1326).
이어서, 토픽맵 저장 장치(200)에서는 토픽맵 기반으로 제공되는 색인 정보를 이용하여 커뮤니티 Q/A 토픽맵을 생성하여 저장한다(단계1328).
따라서, 토픽맵 기반 색인 장치를 이용하여 커뮤니티 Q/A 리스트를 검출하고, 이에 대한 전처리 및 분석을 수행한 후에, 결정된 토픽 노드에 저장하도록 커뮤니티 Q/A 리스트와 Q/A 분석 정보가 포함된 색인 정보를 토픽맵 저장 장치에 전송함으로써, 사용자 질문에 따른 답변을 검색하기 위한 커뮤니티 Q/A 토픽맵을 생성하여 저장할 수 있다.
다음에, 상술한 바와 같이 커뮤니티 토픽맵이 저장된 상태에서 입력된 사용자 질문을 하나의 단위로 인식하여 오류에 대한 전처리를 수행하고, 사용자 질문에 대한 언어 분석, 도메인 결정, 토픽별 분류, 유형 분석, 키워드 확장, 제약어 추출 등의 분석 과정을 수행한 후, 질문 분석 정보를 이용하여 저장된 커뮤니티 Q/A 토픽맵에서 유사 질문을 검색하며, 검색된 유사 질문을 순위화하고, 이러한 유사 질문에 대응하는 답변을 순위화하여 정답을 추출 및 출력하는 과정에 대해 설명한다.
도 14는 본 발명의 제 3 실시 예에 따라 사용자 질문을 분석하여 커뮤니티 Q/A 토픽맵에서 그에 대응하는 답변을 검색하는 과정을 도시한 플로우차트이다.
도 14를 참조하면, 토픽맵 저장 장치(200)에 커뮤니티 Q/A 토픽맵이 저장된 상태에서(단계1402), 검색 장치(300)에서는 사용자가 원하는 답변을 검색하기 위한 질문을 입력하여 그 사용자 질문이 입력되는지를 체크한다(단계1404).
상기 단계(1404)에서의 체크 결과, 사용자 질문이 입력될 경우 질문 전처리 블록(302)의 제 2 단위 인식부(302a)에서는 입력된 사용자 질문에서 동일한 의미의 이형태 단어들 또는 게임명, 퀘스트명 등으로 나타나는 한 단위로 인식이 가능한 단어들을 제 2 단위 사전 데이터베이스(302b)를 참조하여 단일 형태로 정규화한다(단계1406).
그리고, 질문 전처리 블록(302)의 제 2 오류 전처리부(302c)에서는 띄어쓰기 오류, 오타 등의 다양한 문법 오류를 수정하고, 언어 분석에서 오류 발생 가능한 무의미한 심볼들을 제거한 후에, 그 사용자 질문을 질문 분석 블록(304)으로 전달한다(단계1408).
한편, 질문 분석 블록(304)의 제 2 언어 분석부(304a)에서는 전달되는 사용자 질문에 대해 형태소 분석, 개체명 분석, 부분 구문 분석 등을 통해 사용자 질문에 대한 언어 분석을 수행하여 그 결과를 획득한다(단계1410).
다음에, 질문 분석 블록(304)의 제 2 도메인 분류부(304b)에서는 제 2 도메인 분류 데이터베이스(304c)를 참조하여 사용자 질문의 도메인(예를 들면, 게임 분야, 영화 분야, 뉴스 분야 등)을 결정한다(단계1412).
그리고, 질문 분석 블록(304)의 제 2 토픽 분류부(304d)에서는 제 2 토픽 분류 데이터베이스(304e)를 참조하여 토픽맵의 다양한 토픽 중에서 어느 하나의 토픽(즉, 토픽별로)에 따라 사용자 질문을 분류한다(단계1414).
또한, 질문 분석 블록(304)의 제 2 Q/A 유형 분석부(304f)에서는 제 2 Q/A 유형 데이터베이스(304g)를 참조하여 사용자 질문의 의도를 분석하여 원하는 답변의 유형을 분석한다(단계1416).
다음에, 질문 분석 블록(304)의 제 2 키워드 추출 확장부(304h)에서는 제 2 키워드 확장 사전 데이터베이스(304i)를 참조하여 사용자 질문의 언어 분석 결과에 따라 중요한 키워드를 추출한 후에 그에 대응하는 유사어를 추가 확장한다(단계1418).
또한, 질문 분석 블록(304)의 제 2 제약어 추출부(304j)에서는 제 2 제약어 추출 규칙 데이터베이스(304k)를 참조하여 시간, 장소 등을 검색할 경우 제약 사항이 되는 제약어를 추출하는 방식으로 사용자 질문에 대한 질문 분석 정보를 획득하여 이를 유사 질문 검색 블록(306)으로 전달한다(단계1420).
한편, 유사 질문 검색 블록(306)의 검색 공간 제약부(306a)에서는 전달되는 질문 분석 정보 중 도메인 분류 및 토픽 분류에 대한 결과를 이용하여 사용자 질문에 대한 답변을 검색할 커뮤니티 Q/A 리스트를 커뮤니티 토픽맵의 토픽 분류에 대응하는 토픽 노드에 있는 리스트들로 한정한다(단계1422).
그리고, 유사 질문 검색 블록(306)의 의미 기반 매칭부(306b)에서는 질문 분석 정보에서 추출된 의미있는 색인어(예를 들면, 키워드, 유사어 등)를 이용하여 토픽맵 저장 장치(200)에서 분류 토픽에 대응하는 토픽 노드에 있는 커뮤니티 Q/A 리스트의 유사 질문들을 모두 검색한다(단계1424).
다음에, 유사 질문 검색 블록(306)의 유사 질문 랭킹부(306c)에서는 검색된 유사 질문들을 포함하는 커뮤니티 Q/A 리스트들을 토픽맵 저장 장치(200)로부터 검출하여 질문 분석 정보에 따라 순위화(랭킹화)한다(단계1426).
한편, 답변 추출 블록(308)의 제 2 중복 답변 제거부(308a)에서는 순위화된 커뮤니티 Q/A 리스트에서 유사 질문에 대한 답변 리스트에서 동일한 의미의 답변이 있을 경우 하나의 답변만을 남기고 나머지 답변들은 제거한다(단계1428).
이어서, 답변 추출 블록(308)의 정답 랭킹부(308b)에서는 순위화된 유사 질문들에 대한 답변들을 순위화하여 그 중에서 최상위에 위치하는 답변을 정답(best answer)으로서 출력한다(단계1430).
따라서, 커뮤니티 Q/A 리스트들을 토픽맵 기반으로 커뮤니티 Q/A 토픽맵으로 저장해 두고, 사용자 질문이 입력되면 사용자 질문에 대한 전처리 및 분석 과정을 통해 질문 분석 정보를 획득하며, 이러한 질문 분석 정보에 따라 커뮤니티 Q/A 토픽맵에서 유사 질문들을 검색하여 이를 순위화하여 그에 대응하는 정답을 효과적으로 추출 및 출력할 수 있다.
이상의 설명에서는 본 발명의 바람직한 실시 예들을 제시하여 설명하였으나 본 발명이 반드시 이에 한정되는 것은 아니며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자라면 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능함을 쉽게 알 수 있을 것이다.
도 1은 본 발명의 바람직한 실시 예에 따라 토픽맵 기반으로 질문에 대한 답변을 제공하는데 적합한 토픽맵 기반 검색 시스템의 블록 구성도,
도 2는 본 발명에 따라 커뮤니티 Q/A 리스트들을 분석하여 커뮤니티 Q/A 리스트를 포함하는 색인 정보를 제공하는데 적합한 색인 장치의 블록 구성도,
도 3은 본 발명에 따라 커뮤니티 토픽맵을 나타낸 도면,
도 4는 본 발명에 따라 입력된 사용자 질문에 대응하는 답변을 토픽맵 기반으로 검색하여 출력하는데 적합한 검색 장치의 블록 구성도,
도 5는 본 발명에 따른 Q/A 전처리 블록의 상세 블록 구성도,
도 6은 본 발명에 따른 Q/A 분석 블록의 상세 블록 구성도,
도 7은 본 발명에 따른 Q/A 저장 블록의 상세 블록 구성도,
도 8은 본 발명에 따른 질문 전처리 블록의 상세 블록 구성도,
도 9는 본 발명에 따른 질문 분석 블록의 상세 블록 구성도,
도 10은 본 발명에 따른 유사 질문 검색 블록의 상세 블록 구성도,
도 11은 본 발명에 따른 답변 추출 블록의 상세 블록 구성도,
도 12는 본 발명의 제 1 실시 예에 따라 저장된 커뮤니티 Q/A 토픽맵를 이용하여 사용자 질문에 대한 답변을 검색하는 과정을 도시한 플로우차트,
도 13은 본 발명의 제 2 실시 예에 따라 커뮤니티 Q/A 리스트들을 분석하여 커뮤니티 Q/A 토픽맵을 생성하는 과정을 도시한 플로우차트,
도 14는 본 발명의 제 3 실시 예에 따라 사용자 질문을 분석하여 커뮤니티 Q/A 토픽맵에서 그에 대응하는 답변을 검색하는 과정을 도시한 플로우차트.
<도면의 주요부분에 대한 부호의 설명>
100 : 색인 장치 200 : 토픽맵 저장 장치
300 : 검색 장치 102 : Q/A 전처리 블록
104 : Q/A 분석 블록 106 : Q/A 저장 블록
302 : 질문 전처리 블록 304 : 질문 분석 블록
306 : 유사 질문 검색 블록 308 : 답변 추출 블록

Claims (20)

  1. 커뮤니티 Q/A 리스트를 단일 형태로 정규화하고, 문법 오류를 수정하며, 무의미한 심볼을 제거하는 Q/A 전처리 블록과,
    상기 Q/A 전처리 블록을 거친 상기 커뮤니티 Q/A 리스트를 분석하여 Q/A 분석 정보를 획득하는 Q/A 분석 블록과,
    상기 Q/A 분석 정보에 따라 중복 답변 제거, 신뢰도 기반으로 무의미한 답변 제거, 답변 리스트 순위화, 최상위 순위의 정답 추출 및 토픽 결정을 통해 상기 커뮤니티 Q/A 리스트 및 Q/A 분석 정보를 포함하는 색인 정보를 커뮤니티 Q/A 토픽맵으로 저장하는 Q/A 저장 블록
    을 포함하는 토픽맵 기반 색인 장치.
  2. 제 1 항에 있어서,
    상기 Q/A 전처리 블록은,
    상기 커뮤니티 Q/A 리스트에서 이형태 단어 또는 한 단위로 인식하는 단어를 단위 사전 데이터베이스를 참조하여 상기 단일 형태로 정규화하는 단위 인식부와,
    상기 커뮤니티 Q/A 리스트에서 전처리 규칙 데이터베이스를 참조하여 상기 문법 오류를 수정하고, 상기 무의미한 심볼들을 제거하는 오류 전처리부
    를 포함하는 토픽맵 기반 색인 장치.
  3. 제 1 항에 있어서,
    상기 Q/A 분석 블록은,
    상기 커뮤니티 Q/A 리스트에 대한 형태소 분석, 개체명 분석 및 부분 구문 분석을 통해 언어 분석을 수행하는 언어 분석부와,
    상기 커뮤니티 Q/A 리스트의 도메인을 도메인 분류 데이터베이스를 참조하여 결정하는 도메인 분류부와,
    상기 커뮤니티 Q/A 리스트를 토픽 분류 데이터베이스를 참조하여 토픽별로 분류하는 토픽 분류부와,
    상기 커뮤니티 Q/A 리스트에서 커뮤니티 질문의 의도에 따라 원하는 커뮤니티 답변의 유형을 Q/A 유형 데이터베이스를 참조하여 분석하는 Q/A 유형 분석부와,
    상기 언어 분석에 따라 상기 커뮤니티 Q/A 리스트에서 키워드 확장 사전 데이터베이스를 참조하여 키워드를 추출하고, 그에 대응하는 유사어를 추가 확장하는 키워드 추출 확장부와,
    상기 커뮤니티 Q/A 리스트에서 시간 및 장소의 검색 시 제약 사항이 되는 제약어를 제약어 추출 규칙 데이터베이스를 참조하여 추출하는 제약어 추출부
    를 포함하는 토픽맵 기반 색인 장치.
  4. 제 1 항에 있어서,
    상기 Q/A 저장 블록은,
    상기 커뮤니티 Q/A 리스트에서 동일한 의미의 답변들 중 하나의 답변을 제외하고 제거하는 중복 답변 제거부와,
    상기 중복 답변 제거부로부터의 상기 커뮤니티 Q/A 리스트에서 상기 신뢰도 기반의 필터링 규칙 데이터베이스를 참조하여 무의미한 답변들을 제거하는 오답 필터링부와,
    상기 오답 필터링부로부터의 상기 커뮤니티 Q/A 리스트의 답변들을 순위화한 후에, 정답 추출 규칙 데이터베이스를 참조하여 상기 최상위 순위의 정답을 추출하는 정답 추출부와,
    상기 Q/A 분석 정보 중 상기 토픽 분류에 따라 커뮤니티 질문에 적합한 상기 토픽을 결정하는 토픽 노드 결정부와,
    상기 최상위 순위의 정답이 추출된 상기 커뮤니티 Q/A 리스트 및 Q/A 분석 정보를 포함하는 상기 색인 정보를 생성하여 결정된 상기 토픽에 대응하는 토픽 노드에 저장하여 상기 커뮤니티 Q/A 토픽맵을 저장하는 색인 정보 저장부
    를 포함하는 토픽맵 기반 색인 장치.
  5. 사용자 질문을 단일 형태로 정규화하고, 문법 오류를 수정하며, 무의미한 심볼을 제거하는 질문 전처리 블록과,
    상기 질문 전처리 블록을 거친 상기 사용자 질문을 분석하여 질문 분석 정보를 획득하는 질문 분석 블록과,
    상기 질문 분석 정보에 따라 기 저장된 커뮤니티 Q/A 토픽맵의 특정 토픽 노드로 검색 공간을 한정하고, 상기 한정된 검색 공간에 대응하는 커뮤니티 Q/A 리스트에 대해 유사 질문을 검색하며, 상기 질문 분석 결과에 따라 검색된 상기 유사 질문을 순위화하는 유사 질문 검색 블록과,
    순위화된 상기 유사 질문의 답변들 중 중복 답변을 제거하고, 그 답변들을 순위화하여 최상위 순위의 정답을 추출하여 출력하는 답변 추출 블록
    을 포함하는 토픽맵 기반 검색 장치.
  6. 제 5 항에 있어서,
    상기 질문 전처리 블록은,
    상기 사용자 질문에서 이형태 단어 또는 한 단위로 인식하는 단어를 단위 사전 데이터베이스를 참조하여 상기 단일 형태로 정규화하는 단위 인식부와,
    상기 사용자 질문에서 전처리 규칙 데이터베이스를 참조하여 상기 문법 오류를 수정하고, 상기 무의미한 심볼들을 제거하는 오류 전처리부
    를 포함하는 토픽맵 기반 검색 장치.
  7. 제 5 항에 있어서,
    상기 질문 분석 블록은,
    상기 사용자 질문에 대한 형태소 분석, 개체명 분석 및 부분 구문 분석을 통해 언어 분석을 수행하는 언어 분석부와,
    상기 사용자 질문의 도메인을 도메인 분류 데이터베이스를 참조하여 결정하는 도메인 분류부와,
    상기 사용자 질문을 토픽 분류 데이터베이스를 참조하여 토픽별로 분류하는 토픽 분류부와,
    상기 사용자 질문에서 질문 의도에 따라 원하는 답변 유형을 Q/A 유형 데이터베이스를 참조하여 분석하는 Q/A 유형 분석부와,
    상기 언어 분석에 따라 상기 사용자 질문에서 키워드 확장 사전 데이터베이스를 참조하여 키워드를 추출하고, 그에 대응하는 유사어를 추가 확장하는 키워드 추출 확장부와,
    상기 사용자 질문에서 시간 및 장소의 검색 시 제약 사항이 되는 제약어를 제약어 추출 규칙 데이터베이스를 참조하여 추출하는 제약어 추출부
    를 포함하는 토픽맵 기반 검색 장치.
  8. 제 5 항에 있어서,
    상기 유사 질문 검색 블록은,
    상기 질문 분석 정보 중 도메인 분류 및 토픽 분류에 따라 상기 사용자 질문에 대한 답변을 검색할 상기 커뮤니티 Q/A 리스트를 상기 특정 토픽 노드에 있는 리스트들로 상기 검색 공간을 한정하는 검색 공간 제약부와,
    상기 질문 분석 정보에 따른 키워드 및 유사어를 이용하여 상기 특정 토픽 노드에 있는 상기 커뮤니티 Q/A 리스트의 유사 질문을 검색하는 의미 기반 매칭부와,
    검색된 상기 유사 질문을 포함하는 상기 커뮤니티 Q/A 리스트를 검출하여 상기 질문 분석 정보에 따라 순위화하는 유사 질문 랭킹부
    를 포함하는 토픽맵 기반 검색 장치.
  9. 제 5 항에 있어서,
    상기 답변 추출 블록은,
    순위화된 상기 커뮤니티 Q/A 리스트에서 상기 유사 질문에 대한 답변 리스트에서 동일한 답변이 있을 경우 중복 답변을 제거하는 중복 답변 제거부와,
    상기 중복 답변이 제거된 상기 유사 질문에 대한 답변들을 순위화하여 그 중에서 상기 최상위 순위의 정답을 출력하는 정답 랭킹부
    를 포함하는 토픽맵 기반 검색 장치.
  10. 커뮤니티 Q/A 리스트를 단일 형태로 정규화하며, 오류에 대한 전처리를 수행하고, 상기 전처리가 수행된 상기 커뮤니티 Q/A 리스트에 대한 언어 분석, 도메인 결정, 토픽 분류, Q/A 유형 분석, 키워드 추출, 유사어 확장 및 제약어 추출을 통해 Q/A 분석 정보를 획득하며, 상기 토픽 분류에 따라 상기 커뮤니티 Q/A 리스트 및 Q/A 분석 정보를 포함하는 색인 정보를 전송하는 토픽맵 기반 색인 장치와,
    상기 색인 정보가 전송되면 이를 이용하여 커뮤니티 Q/A 토픽맵을 생성 저장하는 토픽맵 저장 장치와,
    사용자 질문이 입력되면, 상기 단일 형태로 정규화하며, 상기 오류에 대한 전처리를 수행하고, 상기 오류에 대한 전처리가 수행된 상기 사용자 질문에 대한 상기 언어 분석, 도메인 결정, 토픽 분류, Q/A 유형 분석, 키워드 추출, 유사어 확장 및 제약어 추출을 통해 질문 분석 정보를 획득하며, 상기 질문 분석 정보에 따라 상기 커뮤니티 Q/A 토픽맵에서 유사 질문을 검색하여 순위화하고, 상기 유사 질문에 대응하는 답변을 순위화하여 최상위 순위의 정답을 추출 및 출력하는 토픽맵 기반 검색 장치
    를 포함하는 토픽맵 기반 검색 시스템.
  11. 제 10 항에 있어서,
    상기 토픽맵 기반 색인 장치는,
    상기 커뮤니티 Q/A 리스트를 상기 단일 형태로 정규화하고, 문법 오류를 수정하며, 무의미한 심볼을 제거하는 Q/A 전처리 블록과,
    상기 Q/A 전처리 블록을 거친 상기 커뮤니티 Q/A 리스트에 대한 상기 언어 분석, 도메인 결정, 토픽 분류, Q/A 유형 분석, 키워드 추출, 유사어 확장 및 제약어 추출을 통해 상기 Q/A 분석 정보를 획득하는 Q/A 분석 블록과,
    상기 Q/A 분석 정보에 따라 중복 답변 제거, 신뢰도 기반으로 무의미한 답변 제거, 답변 리스트 순위화, 최상위 순위의 정답 추출 및 토픽 결정을 통해 상기 색인 정보를 커뮤니티 Q/A 토픽맵으로 저장하는 Q/A 저장 블록
    을 포함하는 토픽맵 기반 검색 시스템.
  12. 제 10 항에 있어서,
    상기 토픽맵 기반 검색 장치는,
    상기 사용자 질문을 상기 단일 형태로 정규화하고, 문법 오류를 수정하며, 무의미한 심볼을 제거하는 질문 전처리 블록과,
    상기 질문 전처리 블록을 거친 상기 사용자 질문을 분석에 대한 상기 언어 분석, 도메인 결정, 토픽 분류, Q/A 유형 분석, 키워드 추출, 유사어 확장 및 제약어 추출을 통해 상기 질문 분석 정보를 획득하는 질문 분석 블록과,
    상기 질문 분석 정보에 따라 상기 커뮤니티 Q/A 토픽맵의 특정 토픽 노드로 검색 공간을 한정하고, 상기 한정된 검색 공간에 대응하는 상기 커뮤니티 Q/A 리스트에 대해 상기 유사 질문을 검색하며, 상기 질문 분석 결과에 따라 검색된 상기 유사 질문을 순위화하는 유사 질문 검색 블록과,
    순위화된 상기 유사 질문의 답변들 중 중복 답변을 제거하고, 그 답변들을 순위화하여 상기 최상위 순위의 정답을 추출하여 출력하는 답변 추출 블록
    을 포함하는 토픽맵 기반 검색 시스템.
  13. 커뮤니티 Q/A 리스트를 단일 형태로 정규화하며, 오류에 대한 전처리를 수행하는 단계와,
    상기 전처리가 수행된 상기 커뮤니티 Q/A 리스트를 분석하여 Q/A 분석 정보를 획득하는 단계와,
    토픽 분류에 따라 상기 커뮤니티 Q/A 리스트 및 Q/A 분석 정보를 포함하는 색인 정보를 이용하여 커뮤니티 Q/A 토픽맵을 생성 저장하는 단계와,
    사용자 질문이 입력되면, 상기 단일 형태로 정규화하며, 상기 오류에 대한 전처리를 수행하는 단계와,
    상기 오류에 대한 전처리가 수행된 상기 사용자 질문을 분석하여 질문 분석 정보를 획득하는 단계와,
    상기 질문 분석 정보에 따라 상기 커뮤니티 Q/A 토픽맵에서 유사 질문을 검색하여 순위화하는 단계와,
    상기 유사 질문에 대응하는 답변을 순위화하여 최상위 순위의 정답을 추출 및 출력하는 단계
    를 포함하는 토픽맵 기반 검색 방법.
  14. 제 13 항에 있어서,
    상기 커뮤니티 Q/A 리스트에 대한 상기 전처리를 수행하는 단계는,
    상기 커뮤니티 Q/A 리스트에서 이형태 단어 또는 한 단위로 인식하도록 상기 단일 형태로 정규화하는 단계와,
    상기 커뮤니티 Q/A 리스트에서 문법 오류를 수정하고, 무의미한 심볼들을 제거하는 단계
    를 포함하는 토픽맵 기반 검색 방법.
  15. 제 13 항에 있어서,
    상기 Q/A 분석 정보를 획득하는 단계는,
    상기 커뮤니티 Q/A 리스트에 대한 형태소 분석, 개체명 분석 및 부분 구문 분석 등을 통해 언어 분석을 수행하는 단계와,
    상기 커뮤니티 Q/A 리스트에 대한 도메인을 결정하는 단계와,
    상기 커뮤니티 Q/A 리스트를 토픽별로 분류하는 단계와,
    상기 커뮤니티 Q/A 리스트에서 커뮤니티 질문의 의도에 따라 원하는 커뮤니티 답변의 유형을 분석하는 단계와,
    상기 언어 분석에 따라 상기 커뮤니티 Q/A 리스트에서 키워드를 추출하고, 그에 대응하는 유사어를 추가 확장하는 단계와,
    상기 커뮤니티 Q/A 리스트에서 시간 및 장소의 검색 시 제약 사항이 되는 제약어를 추출하는 단계
    를 포함하는 토픽맵 기반 검색 방법.
  16. 제 13 항에 있어서,
    상기 커뮤니티 Q/A 토픽맵을 생성 저장하는 단계는,
    상기 커뮤니티 Q/A 리스트에서 동일한 의미의 답변들 중 중복 답변을 제거하는 단계와,
    상기 중복 답변이 제거된 상기 커뮤니티 Q/A 리스트에서 신뢰도 기반으로 무의미한 답변을 제거하는 단계와,
    상기 무의미한 답변이 제거된 상기 커뮤니티 Q/A 리스트의 답변들을 순위화한 후에, 최상위의 정답을 추출하는 단계와,
    상기 Q/A 분석 정보 중 상기 토픽 분류에 따라 커뮤니티 질문에 적합한 상기 토픽을 결정하는 단계와,
    상기 최상위의 정답이 추출된 상기 커뮤니티 Q/A 리스트 및 Q/A 분석 정보를 포함하는 상기 색인 정보를 결정된 상기 토픽에 대응하는 토픽 노드에 저장하여 상기 커뮤니티 Q/A 토픽맵을 생성 및 저장하는 단계
    를 포함하는 토픽맵 기반 검색 방법.
  17. 제 13 항에 있어서,
    상기 사용자 질문에 대한 상기 전처리를 수행하는 단계는,
    상기 사용자 질문에서 이형태 단어 또는 한 단위로 인식하도록 상기 단일 형태로 정규화하는 단계와,
    상기 사용자 질문에서 문법 오류를 수정하고, 무의미한 심볼들을 제거하는 단계
    를 포함하는 토픽맵 기반 검색 방법.
  18. 제 13 항에 있어서,
    상기 질문 분석 정보를 획득하는 단계는,
    상기 사용자 질문에 대한 형태소 분석, 개체명 분석 및 부분 구문 분석 등을 통해 언어 분석을 수행하는 단계와,
    상기 사용자 질문에 대한 도메인을 결정하는 단계와,
    상기 사용자 질문을 토픽별로 분류하는 단계와,
    상기 사용자 질문에서 질문 의도에 따라 원하는 답변 유형을 분석하는 단계와,
    상기 언어 분석에 따라 상기 사용자 질문에서 키워드를 추출하고, 그에 대응하는 유사어를 추가 확장하는 단계와,
    상기 사용자 질문에서 시간 및 장소의 검색 시 제약 사항이 되는 제약어를 추출하는 단계
    를 포함하는 토픽맵 기반 검색 방법.
  19. 제 13 항에 있어서,
    상기 유사 질문을 검색하여 순위화하는 단계는,
    상기 질문 분석 정보 중 도메인 분류 및 토픽 분류에 따라 상기 사용자 질문에 대한 답변을 검색할 상기 커뮤니티 Q/A 리스트를 특정 토픽 노드에 있는 리스트들로 상기 검색 공간을 한정하는 단계와,
    상기 질문 분석 정보에 따른 키워드 및 유사어를 이용하여 상기 특정 토픽 노드에 있는 상기 커뮤니티 Q/A 리스트의 유사 질문을 검색하는 단계와,
    검색된 상기 유사 질문을 포함하는 상기 커뮤니티 Q/A 리스트를 검출하여 상기 질문 분석 정보에 따라 순위화하는 단계
    를 포함하는 토픽맵 기반 검색 방법.
  20. 제 13 항에 있어서,
    상기 최상위 순위의 정답을 추출 및 출력하는 단계는,
    순위화된 상기 유사 질문에 대한 답변 리스트에서 중복 답변을 제거하는 단계와,
    상기 중복 답변이 제거된 상기 유사 질문에 대한 답변들을 순위화하여 그 중에서 상기 최상위 순위의 정답을 출력하는 단계
    를 포함하는 토픽맵 기반 검색 방법.
KR1020080125622A 2008-12-11 2008-12-11 토픽맵 기반 색인 장치, 토픽맵 기반 검색 장치, 토픽맵 기반 검색 시스템 및 그 방법 KR101173556B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020080125622A KR101173556B1 (ko) 2008-12-11 2008-12-11 토픽맵 기반 색인 장치, 토픽맵 기반 검색 장치, 토픽맵 기반 검색 시스템 및 그 방법
US12/484,651 US8554540B2 (en) 2008-12-11 2009-06-15 Topic map based indexing and searching apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020080125622A KR101173556B1 (ko) 2008-12-11 2008-12-11 토픽맵 기반 색인 장치, 토픽맵 기반 검색 장치, 토픽맵 기반 검색 시스템 및 그 방법

Publications (2)

Publication Number Publication Date
KR20100067175A KR20100067175A (ko) 2010-06-21
KR101173556B1 true KR101173556B1 (ko) 2012-08-13

Family

ID=42241591

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020080125622A KR101173556B1 (ko) 2008-12-11 2008-12-11 토픽맵 기반 색인 장치, 토픽맵 기반 검색 장치, 토픽맵 기반 검색 시스템 및 그 방법

Country Status (2)

Country Link
US (1) US8554540B2 (ko)
KR (1) KR101173556B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101605430B1 (ko) 2014-02-14 2016-03-22 주식회사 플런티코리아 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100162357A1 (en) * 2008-12-19 2010-06-24 Microsoft Corporation Image-based human interactive proofs
KR101284788B1 (ko) * 2009-10-13 2013-07-10 한국전자통신연구원 신뢰도에 기반한 질의응답 장치 및 그 방법
US9111004B2 (en) 2009-12-17 2015-08-18 International Business Machines Corporation Temporal scope translation of meta-models using semantic web technologies
US9110882B2 (en) * 2010-05-14 2015-08-18 Amazon Technologies, Inc. Extracting structured knowledge from unstructured text
KR101173561B1 (ko) 2010-10-25 2012-08-13 한국전자통신연구원 질문 형태 및 도메인 인식 장치 및 그 방법
US20140351228A1 (en) * 2011-11-28 2014-11-27 Kosuke Yamamoto Dialog system, redundant message removal method and redundant message removal program
US9495666B2 (en) * 2011-12-15 2016-11-15 Accenture Global Services Limited End-user portal system for remote technical support
US20130173523A1 (en) * 2011-12-29 2013-07-04 Spribo, Llc. Method and system for contextual knowledge society network
KR20130098772A (ko) 2012-02-28 2013-09-05 삼성전자주식회사 토픽 기반 커뮤니티 인덱스 생성장치, 토픽 기반 커뮤니티 검색장치, 토픽 기반 커뮤니티 인덱스 생성방법 및 토픽 기반 커뮤니티 검색방법
US9336202B2 (en) * 2012-05-15 2016-05-10 Whyz Technologies Limited Method and system relating to salient content extraction for electronic content
US8577671B1 (en) 2012-07-20 2013-11-05 Veveo, Inc. Method of and system for using conversation state information in a conversational interaction system
US9465833B2 (en) 2012-07-31 2016-10-11 Veveo, Inc. Disambiguating user intent in conversational interaction system for large corpus information retrieval
US9003547B2 (en) * 2012-12-11 2015-04-07 International Business Machines Corporation Using data analytics and crowdsourcing to determine roles for a computer system
DK2994908T3 (da) 2013-05-07 2019-09-23 Veveo Inc Grænseflade til inkrementel taleinput med realtidsfeedback
KR102033435B1 (ko) 2014-11-19 2019-11-11 한국전자통신연구원 자연어 질의응답 시스템과 방법 및 패러프라이즈 모듈
KR102094934B1 (ko) * 2014-11-19 2020-03-31 한국전자통신연구원 자연어 질의 응답 시스템 및 방법
US10565508B2 (en) * 2014-12-12 2020-02-18 International Business Machines Corporation Inferred facts discovered through knowledge graph derived contextual overlays
US9852136B2 (en) 2014-12-23 2017-12-26 Rovi Guides, Inc. Systems and methods for determining whether a negation statement applies to a current or past query
US9854049B2 (en) 2015-01-30 2017-12-26 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms in social chatter based on a user profile
KR102315350B1 (ko) 2015-08-27 2021-10-20 삼성전자주식회사 질의 처리 자동화 장치 및 방법
US10373060B2 (en) 2015-10-17 2019-08-06 International Business Machines Corporation Answer scoring by using structured resources to generate paraphrases
US10380154B2 (en) 2015-10-17 2019-08-13 International Business Machines Corporation Information retrieval using structured resources for paraphrase resolution
US11061974B2 (en) 2015-12-14 2021-07-13 Microsoft Technology Licensing, Llc Facilitating discovery of information items using dynamic knowledge graph
US10740375B2 (en) * 2016-01-20 2020-08-11 Facebook, Inc. Generating answers to questions using information posted by users on online social networks
CN106021463B (zh) 2016-05-17 2019-07-09 北京百度网讯科技有限公司 基于人工智能提供智能服务的方法、智能服务系统及智能终端
CN106021228B (zh) * 2016-05-18 2019-08-20 德稻全球创新网络(北京)有限公司 一种利用知识地形图进行文本分析的方法及系统
US10339168B2 (en) * 2016-09-09 2019-07-02 International Business Machines Corporation System and method for generating full questions from natural language queries
US10339167B2 (en) * 2016-09-09 2019-07-02 International Business Machines Corporation System and method for generating full questions from natural language queries
US10740373B2 (en) * 2017-02-08 2020-08-11 International Business Machines Corporation Dialog mechanism responsive to query context
CN107330557A (zh) * 2017-06-28 2017-11-07 中国石油大学(华东) 一种基于社区划分和熵的舆情热点跟踪及预测方法与装置
JP6791825B2 (ja) * 2017-09-26 2020-11-25 株式会社日立製作所 情報処理装置、対話処理方法及び対話システム
US10558689B2 (en) 2017-11-15 2020-02-11 International Business Machines Corporation Leveraging contextual information in topic coherent question sequences
KR102033175B1 (ko) * 2017-11-15 2019-10-16 (주)페르소나시스템 머신 러닝 기반의 챗봇용 데이터 추가 장치
CN110019733A (zh) * 2017-12-28 2019-07-16 中兴通讯股份有限公司 一种面向社区的智能问答方法及装置
WO2019160791A1 (en) * 2018-02-16 2019-08-22 Mz Ip Holdings, Llc System and method for chat community question answering
US11380305B2 (en) * 2019-01-14 2022-07-05 Accenture Global Solutions Limited System and method for using a question and answer engine
EP3680802A1 (en) * 2019-01-14 2020-07-15 Accenture Global Solutions Limited System and method for using a question and answer engine
US10878008B1 (en) * 2019-09-13 2020-12-29 Intuit Inc. User support with integrated conversational user interfaces and social question answering
US11361165B2 (en) * 2020-03-27 2022-06-14 The Clorox Company Methods and systems for topic detection in natural language communications

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006215753A (ja) 2005-02-02 2006-08-17 Canon Inc 検索装置及びその方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0756933A (ja) * 1993-06-24 1995-03-03 Xerox Corp 文書検索方法
US7925492B2 (en) * 2004-01-06 2011-04-12 Neuric Technologies, L.L.C. Method for determining relationships through use of an ordered list between processing nodes in an emulated human brain
US6314411B1 (en) * 1996-06-11 2001-11-06 Pegasus Micro-Technologies, Inc. Artificially intelligent natural language computational interface system for interfacing a human to a data processor having human-like responses
US6460029B1 (en) * 1998-12-23 2002-10-01 Microsoft Corporation System for improving search text
US6601059B1 (en) * 1998-12-23 2003-07-29 Microsoft Corporation Computerized searching tool with spell checking
KR100434688B1 (ko) 2000-05-25 2004-06-04 주식회사 다이퀘스트 대화형 db, faq리스트, 웹사이트에 대한 통합형 자연어 질의-응답 검색 방법
US6766320B1 (en) * 2000-08-24 2004-07-20 Microsoft Corporation Search engine with natural language-based robust parsing for user query and relevance feedback learning
US7209876B2 (en) * 2001-11-13 2007-04-24 Groove Unlimited, Llc System and method for automated answering of natural language questions and queries
GB2382678A (en) * 2001-11-28 2003-06-04 Symbio Ip Ltd a knowledge database
EP1590742A2 (en) * 2003-01-10 2005-11-02 Cohesive Knowledge Solutions, Inc. Universal knowledge information and data storage system
US7620624B2 (en) * 2003-10-17 2009-11-17 Yahoo! Inc. Systems and methods for indexing content for fast and scalable retrieval
US7433876B2 (en) * 2004-02-23 2008-10-07 Radar Networks, Inc. Semantic web portal and platform
KR20050112883A (ko) 2004-05-28 2005-12-01 엔에이치엔(주) 네트워크를 통한 커뮤니티 검색 시스템 및 그 방법
US7555475B2 (en) * 2005-03-31 2009-06-30 Jiles, Inc. Natural language based search engine for handling pronouns and methods of use therefor
US7454398B2 (en) * 2006-02-17 2008-11-18 Google Inc. Support for object search
US7483894B2 (en) * 2006-06-07 2009-01-27 Platformation Technologies, Inc Methods and apparatus for entity search
US8024280B2 (en) * 2006-12-21 2011-09-20 Yahoo! Inc. Academic filter
KR100887188B1 (ko) 2007-05-15 2009-03-10 충남대학교산학협력단 지능적 웹 서비스 발견을 위해 프로세스 정보를 온톨로지로표현하는 방법
SG148891A1 (en) * 2007-06-21 2009-01-29 Novartis Ag Engineering expert system
US8141030B2 (en) * 2007-08-07 2012-03-20 International Business Machines Corporation Dynamic routing and load balancing packet distribution with a software factory
US8667469B2 (en) * 2008-05-29 2014-03-04 International Business Machines Corporation Staged automated validation of work packets inputs and deliverables in a software factory

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006215753A (ja) 2005-02-02 2006-08-17 Canon Inc 検索装置及びその方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101605430B1 (ko) 2014-02-14 2016-03-22 주식회사 플런티코리아 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법

Also Published As

Publication number Publication date
US8554540B2 (en) 2013-10-08
US20100153094A1 (en) 2010-06-17
KR20100067175A (ko) 2010-06-21

Similar Documents

Publication Publication Date Title
KR101173556B1 (ko) 토픽맵 기반 색인 장치, 토픽맵 기반 검색 장치, 토픽맵 기반 검색 시스템 및 그 방법
US10282389B2 (en) NLP-based entity recognition and disambiguation
Gupta et al. A survey of text question answering techniques
US11182435B2 (en) Model generation device, text search device, model generation method, text search method, data structure, and program
JP5169816B2 (ja) 質問回答装置、質問回答方法および質問回答用プログラム
JP6007088B2 (ja) 大量のコメント文章を用いた質問回答プログラム、サーバ及び方法
CA2774278C (en) Methods and systems for extracting keyphrases from natural text for search engine indexing
US20100287162A1 (en) method and system for text summarization and summary based query answering
US8126897B2 (en) Unified inverted index for video passage retrieval
US20040117352A1 (en) System for answering natural language questions
US20050222973A1 (en) Methods and systems for summarizing information
WO2009059297A1 (en) Method and apparatus for automated tag generation for digital content
WO2008014702A1 (fr) Procédé et système d&#39;extraction de mots nouveaux
KR101709055B1 (ko) 오픈 웹 질의응답을 위한 질문분석 장치 및 방법
US11074281B2 (en) Analogy outcome determination
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
KR102285232B1 (ko) 형태소 기반 ai 챗봇 및 그의 문장의도 결정 방법
US9892112B1 (en) Machine learning to determine analogy outcomes
US20120023119A1 (en) Data searching system
Fareed et al. Syntactic open domain Arabic question/answering system for factoid questions
US10878338B2 (en) Machine learning of analogic patterns
CN111506705B (zh) 一种信息查询方法、装置及电子设备
JP6173958B2 (ja) 複数のハッシュテーブルを用いて検索するプログラム、装置及び方法
US10325025B2 (en) Contextual analogy representation
US10503768B2 (en) Analogic pattern determination

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee