KR20150096295A - 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법 - Google Patents

문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법 Download PDF

Info

Publication number
KR20150096295A
KR20150096295A KR1020140066920A KR20140066920A KR20150096295A KR 20150096295 A KR20150096295 A KR 20150096295A KR 1020140066920 A KR1020140066920 A KR 1020140066920A KR 20140066920 A KR20140066920 A KR 20140066920A KR 20150096295 A KR20150096295 A KR 20150096295A
Authority
KR
South Korea
Prior art keywords
question
answer
informative
questions
user
Prior art date
Application number
KR1020140066920A
Other languages
English (en)
Other versions
KR101605430B1 (ko
Inventor
김강학
이선호
손정훈
Original Assignee
주식회사 플런티코리아
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 플런티코리아 filed Critical 주식회사 플런티코리아
Publication of KR20150096295A publication Critical patent/KR20150096295A/ko
Application granted granted Critical
Publication of KR101605430B1 publication Critical patent/KR101605430B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법이 제공된다. 본 발명의 일 실시예에 따른 문답 데이터베이스 구축 시스템에 따르면, 질문과 답변을 포함하는 대화형 메시지를 수집하는 단계; 및 수집된 대화형 메시지로부터, 답변을 필요로 하는 정보성 질문과 해당 정보성 질문에서 필요로 하는 정보를 제공하는 정보성 답변을 추출하여 문답 데이터베이스에 포함시키는 단계를 포함한다.

Description

문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법{SYSTEM AND METHOD FOR BUINDING Q&As DATABASE, AND SEARCH SYSTEM AND METHOD USING THE SAME}
본 발명은 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법에 관한 것으로, 보다 자세하게는 모바일 검색 또는 음성 검색에 적합한 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법에 관한 것이다.
스마트폰의 보급과 함께, 스마트폰을 통해 접속할 수 있는 네트워크가 질적, 양적으로 발전함에 따라, 스마트폰을 포함한 모바일 장치를 이용하여 정보를 검색하는 것이 보편화되었다.
모바일 장치를 이용하여 정보를 검색하는 방법으로, 포털 사이트(portal site)를 통해 정보를 검색하는 전통적인 방식이 있으며, 사용자의 질문에 자동으로 답변을 하기 위해, 사용자가 원하는 정답이 저장되어 있는 다양한 정보원에 접근하여 정답을 추출하는 기술이 연구되고 있다. 예컨대, 사용자의 질문으로부터 키워드를 추출하고, 검색 엔진을 이용하여 사용자의 질문과 관련된 문서를 검색하고, 검색된 문서를 통해 정답을 추출할 수 있다.
공개번호 제10-2013-0021944호
다만, 최근에는 트위터나 페이스북 등의 SNS(Social Networking Service)의 사용이 활발해졌으며, 이에 따라, SNS를 통해 정보를 공유하고 궁금증을 해결하는 경우가 늘고 있다. 더욱이, SNS는 이용자 사이에 형성된 개인적인 신뢰도에 기반하고 있기 때문에, SNS를 통해 공유되는 정보의 정확도는 높을 수 있다.
그러나, 종래 기술의 경우, 질문을 통해 추출된 키워드에 기초하여 웹 사이트에서 관련 문서를 검색할 뿐이며, SNS 등을 통한 양질의 데이터는 이용하고 있지 못하는 실정이다.
또한, 포털 사이트나 웹 사이트로부터 제공되는 검색 결과는, 상대적으로 내용이 긴 경우가 많으므로, 화면의 크기가 작은 모바일 장치를 통해 검색 결과를 확인하기는 용이하지 않다. 더욱이, 사용자가 음성 검색 서비스를 이용하려는 경우에도, 포털 사이트나 웹 사이트로는 상대적으로 긴 내용의 검색 결과를 제공하기 때문에, 사용자에게 해당 검색 결과에 대한 음성 답변을 제공하기 용이하지 않다.
본 발명이 해결하고자 하는 기술적 과제는, 질문과 답변을 포함하는 대화형 메시지를 이용하여, 문답 데이터베이스를 구축함으로써, SNS 등을 통한 양질의 데이터를 이용할 수 있는 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법을 제공하고자 하는 것이다.
본 발명이 해결하고자 하는 다른 기술적 과제는, 질문과 답변을 포함하는 대화형 메시지를 이용하여, 문답 데이터베이스를 구축함으로써, 대화형 메시지에 포함된 단문형 답변을 제공할 수 있기 때문에, 모바일 검색 및 음성 검색에 적합한 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법을 제공하고자 하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 언급된 기술적 과제들을 해결하기 위한, 본 발명의 일 실시예에 따른 문답 데이터베이스 구축 방법은, 질문과 답변을 포함하는 대화형 메시지를 수집하는 단계; 및 수집된 대화형 메시지로부터, 답변을 필요로 하는 정보성 질문과 해당 정보성 질문에서 필요로 하는 정보를 제공하는 정보성 답변을 추출하여 문답 데이터베이스에 포함시키는 단계를 포함한다.
상기 언급된 기술적 과제를 해결하기 위한, 본 발명의 일 실시예에 따른 문답 데이터베이스 구축 방법은, 질문과 답변을 포함하는 대화형 메시지를 수집하는 대화형 메시지 수집 모듈; 및 수집된 대화형 메시지로부터, 답변을 필요로 하는 정보성 질문과 해당 정보성 질문에서 필요로 하는 정보를 제공하는 정보성 답변을 추출하여 문답 데이터베이스에 포함시키는 정보성 문답 추출 모듈을 포함한다.
상기 언급된 기술적 과제를 해결하기 위한, 본 발명의 일 실시예에 따른 검색 방법은, 문답 데이터베이스를 이용하여 검색하는 방법으로서, 사용자 단말로부터 사용자 질문을 입력받는 단계; 및 상기 사용자 질문에 기초하여 상기 문답 데이터베이스로부터 관련 질문을 검색하고, 검색된 관련 질문에 대한 정보성 답변을 사용자 단말로 제공하는 단계를 포함한다.
상기 언급된 기술적 과제를 해결하기 위한, 본 발명의 일 실시예에 따른 검색 시스템은, 문답 데이터베이스; 사용자 단말로부터 사용자 질문을 입력받는 사용자 질문 입력부; 및 상기 사용자 질문에 기초하여 상기 문답 데이터베이스로부터 관련 질문을 검색하고, 검색된 관련 질문에 대한 정보성 답변을 사용자 단말로 제공하는 검색 엔진부를 포함한다.
상기와 같은 본 발명에 따르면, 질문과 답변을 포함하는 대화형 메시지를 이용하여 문답 데이터베이스를 구축하기 때문에, SNS 등을 통한 양질의 데이터를 이용할 수 있다.
상기와 같은 본 발명에 따르면, 질문과 답변을 포함하는 대화형 메시지를 이용하여 문답 데이터베이스를 구축하기 때문에, 검색 결과로서 대화형 메시지에 포함된 단문형 답변을 제공할 수 있다.
도 1은 본 발명의 일 실시예에 따른 문답 데이터베이스 구축 시스템의 개략도이다.
도 2는 본 발명의 일 실시예에 따른 문답 데이터베이스 구축 방법의 순서도이다.
도 3은 도 2의 단계 S10의 구체적인 순서도이다.
도 4는 도 2의 단계 S20의 구체적인 순서도이다.
도 5는 도 4의 단계 S21의 구체적인 순서도이다.
도 6은 도 5의 단계 S21-1에서 사용될 수 있는 특징을 나타내는 표이다.
도 7은 도 4의 단계 S22의 구체적인 순서도이다.
도 8은 도 5의 단계 S22-1에서 사용될 수 있는 특징을 나타내는 표이다.
도 9는 본 발명의 일 실시예에 따른 검색 시스템의 개략도이다.
도 10은 본 발명의 일 실시예에 따른 검색 방법의 순서도이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.
이하, 도면을 참조하여 본 발명의 실시예들에 따른 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법에 대해 설명하기로 한다. 본 발명의 실시예들에 따른 문답 데이터베이스 구축 시스템 및 검색 시스템에 포함되는 "모듈" 및 "부"는 하드웨어적 또는 소프트웨어적으로 구현될 수 있지만, 이에 제한되지 않는다.
우선, 도 1을 참조하여, 문답 데이터베이스 구축 시스템(1)을 설명한다. 도 1을 참조하면, 본 발명의 일 실시예에 따른 문답 데이터베이스 구축 시스템(1)의 개략도가 개시된다.
문답 데이터베이스 구축 시스템(1)은 대화형 메시지 수집 모듈(10), 대화형 메시지 데이터베이스(15), 정보성 문답 추출 모듈(20) 및 문답 데이터베이스(25)를 포함할 수 있다.
대화형 메시지 수집 모듈(10)은 질문과 답변을 포함하는 대화형 메시지를 수집할 수 있다. 대화형 메시지는 질문과 답변을 포함할 수 있으며, 예컨대, 트위터 메시지와 페이스북 메시지가 대표적인 대화형 메시지일 수 있지만, 이에 제한되지 않으며, 복수의 사용자가 질문과 답변을 주고 받는 구조를 가지는 모든 메시지가 대화형 메시지에 포함될 수 있다.
대화형 메시지 수집 모듈(10)은 웹(web, 5)으로부터 대화형 메시지를 수집할 수 있으며, 예컨대, SNS, 커뮤니티 서비스, 온라인 포럼 서비스 등을 제공하는 서버로부터 대화형 메시지를 수집할 수 있지만, 이에 제한되지 않는다.
구체적으로, 대화형 메시지 수집 모듈(10)은 질문 패턴 정의부(11)와 대화형 메시지 수집부(12)를 포함할 수 있다.
질문 패턴 정의부(11)는 질문임을 확인하는 기준이 되는 문자 패턴을 정의할 수 있다. 본 실시예에 따른 문답 데이터베이스 구축 시스템(1)에서 문답 데이터베이스(25)를 구축하기 위해서는 대화형 메시지에 질문이 포함되는 것이 필수적이기 때문에, 대화형 메시지에 질문이 포함되어 있음을 확인할 수 있는 특정한 문자 패턴이 질문 패턴 정의부(11)에서 정의될 수 있다. 예컨대, "물음표(?)"를 질문임을 확인하는 문자 패턴으로 정의할 수 있지만, 이에 제한되지 않으며, 품사 배열 패턴, 조동사가 문장의 처음에 위치했는지 여부 등이 문자 패턴으로 정의될 수 있다.
대화형 메시지 수집부(12)는 정의된 문자 패턴을 이용하여 질문과 답변을 포함하는 대화형 메시지를 수집할 수 있으며, 구체적으로, 대화형 메시지 수집부(12)는 정의된 문자 패턴이 포함되어 있어 질문을 포함하고 있다고 판단되는 대화형 메시지를 수집하여, 대화형 메시지 데이터베이스(15)에 포함시킬 수 있다. 예컨대, 웹 크롤러(web crawler) 또는 공개 API를 통해, 대화형 메시지를 수집할 수 있지만, 이에 제한되지 않는다.
한편, 대화형 메시지 수집 모듈(10), 즉 대화형 메시지 수집부(12)에 의해 수집된 대화형 메시지는 대화형 메시지 데이터베이스(15)에 저장될 수 있다.
그리고, 정보성 문답 추출 모듈(20)은 수집된 대화형 메시지로부터, 답변을 필요로 하는 정보성 질문과 해당 정보성 질문에서 필요로 하는 정보를 제공하는 정보성 답변을 추출하여 문답 데이터베이스(25)에 포함시킬 수 있다. 즉, 정보성 문답 추출 모듈(20)은 대화형 메시지 데이터베이스(15)에 저장된 대화형 메시지로부터, 질문과 해당 질문에 대한 답을 제공하는 답변을 추출하고, 추출된 질문과 답변을 하나의 문답 데이터로 하여 문답 데이터베이스(25)에 저장시킬 수 있다.
구체적으로, 정보성 문답 추출 모듈(20)은 정보성 질문 분류부(21), 정보성 답변 분류부(22) 및 정보성 문답 필터링부(23)를 포함할 수 있다.
정보성 질문 분류부(21)는, 수집된 대화형 메시지에 포함된 질문에 대하여, 답변을 필요로 하는 정보성 질문과 답변을 필요로 하지않는 비정보성 질문을 분류할 수 있다. 정보성 질문은 상대방으로부터 정보를 확인하기 위한 목적을 내포하고 있으므로, 답변을 필요로 할 수 있다. 따라서, 정보성 질문을 분류하고, 이에 대한 답변을 확인할 수 있다면, 특정 주제의 정보가 공유되고 있는 문답 데이터를 얻을 수 있다.
이에 비해, 비정보성 질문은 예컨대 의문문의 형태를 가지고 있지만, 상대방으로부터 정보를 확인하기 위한 목적을 내포하고 있지 않으므로, 답변을 필요로 하지 않을 수 있다. 따라서, 비정보성 질문과 이에 대한 답변을 통해서는 객관적인 정보를 확인하기가 용이하지 않으므로, 비정보성 질문과 이에 대한 답변을 검색 시스템(100)을 위한 문답 데이터베이스(25)에 포함시키지 않는 것이 바람직할 수 있다.
정보성 질문과 비정보성 질문은 품사 순서, 어조 등에 있어서 차이가 있을 수 있으며, 이러한 차이가 나는 요소를 특징(feature)으로 할 수 있다. 복수의 특징이 모여 n차원의 특징 벡터를 이룰 수 있으며, 이러한 특징 벡터를 이용하여 기계 학습 모델을 생성할 수 있으며, 생성된 기계 학습 모델을 이용하여, 질문을 정보성 질문과 비정보성 질문으로 분류할 수 있다. 기계 학습 모델의 일례로 서포트 벡터 머신 모델(SVM; Support Vector Machine)을 이용할 수 있지만, 기계 학습 모델은 이에 제한되지 않으며, 본 발명의 실시예들에 다양한 기계 학습 모델이 적용될 수 있다.
정보성 답변 분류부(22)는, 수집된 대화형 메시지에 포함된 답변에 대하여, 질문에서 필요로 하는 정보를 제공하는 정보성 답변과 질문에서 필요로 하는 정보를 제공하지 않는 비정보성 답변을 분류할 수 있다. 다만, 몇몇 실시예에서는, 정보성 답변 분류부(22)는, 정보성 질문 분류부(21)에 의해 정보성 질문으로 분류된 질문을 포함하는 대화형 메시지에 대하여, 해당 대화형 메시지에 포함된 답변이 정보성 답변인지 비정보성 답변인지 분류할 수 있지만, 이에 제한되지 않는다.
대화형 메시지에는 하나의 질문에 대해 이와 연계된 복수의 답변이 포함될 수 있으며, 질문과 크게 관련이 없는 내용의 답변도 포함될 수 있기 때문에, 문답 데이터베이스(25)를 만들기 위해, 복수의 답변 중에서 질문에서 필요로 하는 정보를 제공하는 정보성 답변을 추출하는 작업이 필요할 수 있다.
정보성 답변과 비정보성 답변은 질문과 해당 답변 사이의 주제 유사도, 해당 답변에 은어가 포함된 비율 등에 있어서 차이가 있을 수 있으며, 이러한 차이가 나는 요소를 특징으로 할 수 있다. 복수의 특징이 모여 n차원의 특징 벡터를 이룰 수 있으며, 이러한 특징 벡터를 이용하여 기계 학습 모델을 생성할 수 있으며, 생성된 기계 학습 모델을 이용하여, 답변을 정보성 답변과 비정보성 답변으로 분류할 수 있다.
정보성 문답 필터링부(23)는, 수집된 대화형 메시지로부터, 정보성 질문과, 해당 정보성 질문을 포함하는 대화형 메시지의 정보성 답변을 필터링하여 문답 데이터베이스(25)에 포함시킬 수 있다. 즉, 정보성 문답 필터링부(23)는, 정보성 질문 분류부(21)에 의해 정보성 질문으로 분류된 질문과, 해당 질문이 포함된 대화형 메시지에 포함되는 답변 중 정보성 답변으로 분류된 답변을 필터링하여 하나의 문답 데이터로 문답 데이터베이스(25)에 저장시킬 수 있다.
문답 데이터베이스(25)는 정보성 문답 추출 모듈(20)에 의해, 즉 정보성 문답 필터링부(23)에 의해 필터링된 문답 데이터를 저장할 수 있다. 예컨대, 정보성 질문 분류부(21)에 의해 정보성 질문으로 분류된 질문과, 해당 질문이 포함된 대화형 메시지에 포함되는 답변 중 정보성 답변으로 분류된 답변이 대응되어 하나의 문답 데이터로서 문답 데이터베이스(25)에 저장될 수 있다.
본 발명의 문답 데이터베이스 구축 시스템(1)에 따르면, 질문과 답변을 포함하는 대화형 메시지를 이용하여 문답 데이터베이스(25)가 구축하기 때문에, SNS 등을 통한 양질의 데이터를 활용할 수 있다.
이하, 도 2 내지 도 8을 참조하여, 본 발명의 일 실시예에 따른 문답 데이터베이스(25) 구축 방법을 설명한다. 도 2를 참조하면, 본 발명의 일 실시예에 따른 문답 데이터베이스(25) 구축 방법의 순서도가 개시되고, 도 3을 참조하면, 도 2의 단계 S10의 구체적인 순서도가 개시되고, 도 4를 참조하면, 도 2의 단계 S20의 구체적인 순서도가 개시되고, 도 5를 참조하면, 도 4의 단계 S21의 구체적인 순서도가 개시되고, 도 6을 참조하면, 도 5의 단계 S21-1에서 사용될 수 있는 특징을 나타내는 표가 개시되고, 도 7을 참조하면, 도 4의 단계 S22의 구체적인 순서도가 개시되고, 도 8을 참조하면, 도 5의 단계 S22-1에서 사용될 수 있는 특징을 나타내는 표가 개시된다.
우선, 도 2를 참조하여, 질문과 답변을 포함하는 대화형 메시지를 수집할 수 있다(S10). 구체적으로, 도 3을 참조하여, 질문임을 확인하는 기준이 되는 문자 패턴을 정의한 후(S11), 정의된 문자 패턴을 이용하여 질문과 답변을 포함하는 대화형 메시지를 수집할 수 있다.
이어서, 도 2를 참조하여, 수집된 대화형 메시지로부터, 답변을 필요로 하는 정보성 질문과 해당 정보성 질문에서 필요로 하는 정보를 제공하는 정보성 답변을 추출하여 문답 데이터베이스(25)에 포함시킬 수 있다(S20). 구체적으로, 도 4를 참조하여, 수집된 대화형 메시지에 포함된 질문에 대하여, 답변을 필요로 하는 정보성 질문과 답변을 필요로 하지않는 비정보성 질문을 분류하고(S21), 수집된 대화형 메시지에 포함된 답변에 대하여, 질문에서 필요로 하는 정보를 제공하는 정보성 답변과 질문에서 필요로 하는 정보를 제공하지않는 비정보성 답변을 분류할 수 있다(S22). 다만, 몇몇 실시예에서는, 정보성 질문으로 분류된 질문을 포함하는 대화형 메시지에 대하여, 해당 대화형 메시지에 포함된 답변이 정보성 답변인지 비정보성 답변인지 분류할 수 있다. 그리고, 수집된 대화형 메시지로부터, 정보성 질문과, 해당 정보성 질문을 포함하는 대화형 메시지의 정보성 답변을 필터링하여 문답 데이터베이스(25)에 포함시킬 수 있다(S23).
여기에서, 정보성 질문과 비정보성 질문을 분류하는 단계(S21)를 구체적으로 설명한다. 우선, 도 5를 참조하여, 특징 벡터(feature vector)를 이용하여, 해당 질문이 정보성 질문인지 비정보성 질문인지 분류하도록 기계 학습된 기계 학습 모델을 생성할 수 있다(S21-1). 특징 벡터는 복수의 특징(feature)이 모여 형성된 것이며, 각각의 특징이 하나의 차원을 형성할 수 있으므로, 특징 벡터는 예컨대 n차원일 수 있다.
도 6을 참조하면, 질문에 특정한 문자 패턴이 포함되어 있는지 여부가 특징이 될 수 있다. 특정한 문자 패턴이 질문에 포함된 경우, 질문이 정보성 질문이거나 비정보성 질문일 확률이 상당한 경우, 해당되는 특정한 문자 패턴은 질문을 분류하기 위한 척도로 이용될 수 있다.
특정한 문자 패턴은, 예컨대 URL(Uniform Resource Locator), 고유 명사, 강한 어조의 표현, 인용구 및 육하원칙의 구성 요소 중 어느 하나 이상을 포함할 수 있지만, 이에 제한되지 않는다. 또한, 특정한 문자 패턴은 해시태그(#, hash tag), 멘션(@, mention) 및 리트윗(RT, retweet) 중 어느 하나 이상을 더 포함할 수 있지만, 이에 제한되지 않는다. 해시태그, 멘션, 리트윗은 트위터(twitter)에서 사용되는 문자 패턴으로, 질문이 트위터의 메시지인 경우, 유용한 특징으로 이용될 수 있다.
이 밖에, 질문을 구성하는 문장의 품사 시퀀스(POS sequence)가 특징이 될 수 있으며, 질문을 구성하는 문장의 품사 시퀀스는 질문을 구성하는 문장의 품사 출현 순서를 의미할 수 있다.
이어서, 도 5를 참조하여, 생성된 기계 학습 모델에 질문을 입력한 결과에 기초하여, 질문을 정보성 질문 또는 비정보성 질문으로 분류할 수 있다(S21-2).
또한, 정보성 답변과 비정보성 답변을 분류하는 단계(S22)를 구체적으로 설명한다. 우선, 도 7을 참조하여, 특징 벡터를 이용하여, 해당 질문이 정보성 질문인지 비정보성 질문인지 분류하도록 기계 학습된 기계 학습 모델을 생성할 수 있다(S22-1). 특징 벡터는 복수의 특징이 모여 형성된 것이며, 각각의 특징이 하나의 차원을 형성할 수 있으므로, 특징 벡터는 예컨대 n차원일 수 있다.
도 8을 참조하면, 질문과 답변 사이의 관계로부터 도출되는 속성과, 답변 자체의 속성이 정보성 답변과 비정보성 답변을 분류하는 특징이 될 수 있다.
질문과 답변 사이의 관계로부터 도출되는 속성으로, 질문과 해당 답변 사이의 거리가 특징이 될 수 있다. 예컨대, 해당 답변이 질문에 대한 직접적인 답변인 경우가, 해당 답변이 다른 답변에 대한 답변인 경우에 비해, 상대적으로 질문과 해당 답변 사이의 거리가 짧다고 정의될 수 있다.
또한, 질문과 답변 사이의 관계로부터 도출되는 속성으로, 질문의 질문자가 해당 답변에 대해 감사를 표현하는 답변이 대화형 메시지에 포함되어 있는지 여부, 질문의 질문자가 해당 답변을 긍정적으로 평가하는 답변이 대화형 메시지에 포함되어 있는지 여부, 질문의 질문자가 해당 답변을 언급한 답변이 대화형 메시지에 포함되어 있는지 여부, 해당 답변에서 질문의 질문자에 대해 재질문을 하는지 여부 및 해당 답변의 작성자가 질문의 질문자인지 여부가 특징이 될 수 있다.
그리고, 질문과 답변 사이의 관계로부터 도출되는 속성으로, 질문과 해당 답변 사이의 주제 유사도, 질문과 해당 답변 사이의 단어 유사도, 질문이 답변을 필요로 하는 정보성 질문인지 여부 및 대화형 메시지에 포함된 정보의 총량이 특징이 될 수 있다.
답변 자체의 속성으로, 해당 답변에 은어가 포함된 비율, 해당 답변에 속어가 포함된 비율, 해당 답변에 대명사가 포함된 비율, 해당 답변에 감사 표시 문구가 포함되어 있는지 여부, 해당 답변에 질문의 내용이 포함되어 있는지 여부 및 해당 답변이 문법적으로 자연스러운지 여부가 특징이 될 수 있다.
이어서, 도 7를 참조하여, 생성된 기계 학습 모델에 답변을 입력한 결과에 기초하여, 답변을 정보성 답변 또는 비정보성 답변으로 분류할 수 있다(S22-2).
이하, 도 9를 참조하여, 본 발명의 일 실시예에 따른 검색 시스템(100)을 설명한다. 도 9를 참조하면, 본 발명의 일 실시예에 따른 검색 시스템(100)의 개략도가 개시된다.
검색 시스템(100)은 문답 데이터베이스(25), 사용자 단말(7)로부터 사용자 질문을 입력받는 사용자 질문 입력부(31) 및 사용자 질문에 기초하여 문답 데이터베이스(25)로부터 관련 질문을 검색하고, 검색된 관련 질문에 대한 정보성 답변을 사용자 단말(7)로 제공하는 검색 엔진부(33)를 포함할 수 있다. 즉, 검색 시스템(100)은, 문답 데이터베이스 구축 시스템(1)에 사용자 질문 입력부(31), 사용자 질문 분석부(32) 및 검색 엔진부(33)를 포함하는 검색 모듈(30)이 부가된 것일 수 있다.
문답 데이터베이스(25)는 정보성 질문으로 분류된 질문과, 해당 질문이 포함된 대화형 메시지에 포함되는 답변 중 정보성 답변으로 분류된 답변이 대응되어 하나의 문답 데이터로서 저장될 수 있다. 즉, 질문과 해당 질문에 대응되는 답변이 대응되어 문답 데이터베이스(25)에 저장될 수 있다.
사용자 질문 입력부(31)는 사용자 단말(7)로부터 사용자 질문을 입력받을 수 있다. 즉, 사용자 단말(7)로부터 사용자 질문이 사용자 질문 입력부(31)로 전송될 수 있으며, 사용자 질문은 문자 또는 음성의 형태일 수 있다. 사용자 단말(7)은 검색 시스템(100)에 접속할 수 있는 장치이면 제한이 없다. 사용자 질문 입력부(31)는 입력받은 사용자 질문을 사용자 질문 분석부(32)에 전송할 수 있다.
사용자 질문 분석부(32)는 입력받은 사용자 질문을 분석할 수 있다. 예컨대, 사용자 질문을 분석하여 질문 의도 또는 질문 키워드를 도출할 수 있으며, 이를 위해 사용자 질문을 구성하는 문장의 문법적 구조, 단어의 특성 등을 분석하는 방법이 이용될 수 있지만, 이에 제한되지 않는다. 사용자 질문 분석부(32)는 사용자 질문의 분석 결과를 검색 엔진부(33)에 전송할 수 있다.
검색 엔진부(33)는 사용자 질문에 기초하여 문답 데이터베이스(25)로부터 관련 질문을 검색하고, 검색된 관련 질문에 대한 정보성 답변을 사용자 단말(7)로 제공할 수 있다. 예컨대, 사용자 질문에 대한 분석 결과에 기초하여 문답 데이터베이스(25)로부터 관련 질문을 검색할 수 있으며, 사용자 단말(7)로 제공되는 정보성 답변은 문자 또는 음성으로 제공될 수 있다.
즉, 문답 데이터베이스(25)에는 질문과 해당 질문에 대응되는 답변이 대응되어 저장되어 있기 때문에, 사용자 질문과 의도 또는 키워드가 관련된 관련 질문이 문답 데이터베이스(25)로부터 검색될 수 있다. 그리고, 검색된 질문에 대응되는 답변을 사용자 단말(7)로 제공할 수 있다.
본 발명의 검색 시스템(100)에 따르면, 질문과 답변을 포함하는 대화형 메시지로 구축된 문답 데이터베이스(25)를 이용하여 검색하기 때문에, SNS 등을 통한 양질의 데이터를 활용할 수 있다.
또한, 본 발명의 검색 시스템(100)에 따르면, 주로 단문으로 구성되는 대화형 메시지로 구축된 문답 데이터베이스(25)를 이용하여 검색하기 때문에, 사용자 단말(7)에 제공되는 답변 또한 단문 메시지로 제공할 수 있다. 따라서, 사용자는 단문의 답변을 제공받음으로써, 모바일 환경의 사용자 단말(7)에서 확인이 용이할 수 있다. 더욱이, 단문의 답변으로 인해, 음성 답변 제공이 가능할 수 있으며, 제공되는 답변이 대화로부터 추출된 것이기 때문에, 음성 답변을 제공받는 사용자가 느끼는 검색 시스템(100)에 거부감이 완화될 수 있다.
이하, 도 10을 참조하여, 본 발명의 일 실시예에 따른 검색 방법을 설명한다. 도 10을 참조하면, 본 발명의 일 실시예에 따른 검색 방법의 순서도가 개시된다.
우선, 사용자 단말(7)로부터 사용자 질문을 입력받을 수 있고(S31). 이후에, 입력받은 사용자 질문을 분석할 수 있다(S32).
그리고, 사용자 질문에 기초하여 문답 데이터베이스(25)로부터 관련 질문을 검색하고, 검색된 관련 질문에 대한 정보성 답변을 사용자 단말(7)로 제공할 수 있다(S33). 예컨대, 사용자 질문에 대한 분석 결과에 기초하여 문답 데이터베이스(25)로부터 관련 질문을 검색할 수 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
1: 문답 데이터베이스 구축 시스템 5: 웹
7: 사용자 단말 10: 대화형 메시지 수집 모듈
11: 질문 패턴 정의부 12: 대화형 메시지 수집부
15: 대화형 메시지 데이터베이스 20: 정보성 문답 추출 모듈
21: 정보성 질문 분류부 22: 정보성 답변 분류부
23: 정보성 문답 필터링부 25: 문답 데이터베이스
30: 검색 모듈 31: 사용자 질문 입력부
32: 사용자 질문 분석부 33: 검색 엔진부
100: 검색 시스템

Claims (10)

  1. 질문과 답변을 포함하는 대화형 메시지를 수집하는 단계; 및
    수집된 대화형 메시지로부터, 답변을 필요로 하는 정보성 질문과 해당 정보성 질문에서 필요로 하는 정보를 제공하는 정보성 답변을 추출하여 문답 데이터베이스에 포함시키는 단계
    를 포함하는 문답 데이터베이스 구축 방법.
  2. 제1항에 있어서,
    수집된 대화형 메시지로부터, 답변을 필요로 하는 정보성 질문과 해당 정보성 질문에서 필요로 하는 정보를 제공하는 정보성 답변을 추출하여 문답 데이터베이스에 포함시키는 단계는,
    수집된 대화형 메시지에 포함된 질문에 대하여, 답변을 필요로 하는 정보성 질문과 답변을 필요로 하지않는 비정보성 질문을 분류하는 단계와,
    수집된 대화형 메시지에 포함된 답변에 대하여, 질문에서 필요로 하는 정보를 제공하는 정보성 답변과 질문에서 필요로 하는 정보를 제공하지않는 비정보성 답변을 분류하는 단계와,
    수집된 대화형 메시지로부터, 정보성 질문과, 해당 정보성 질문을 포함하는 대화형 메시지의 정보성 답변을 필터링하여 문답 데이터베이스에 포함시키는 단계
    를 포함하는 것인, 문답 데이터베이스 구축 방법.
  3. 제1항에 있어서,
    질문과 답변을 포함하는 대화형 메시지를 수집하는 단계는,
    질문임을 확인하는 기준이 되는 문자 패턴을 정의하는 단계와,
    정의된 문자 패턴을 이용하여 질문과 답변을 포함하는 대화형 메시지를 수집하는 단계
    를 포함하는 것인, 문답 데이터베이스 구축 방법.
  4. 질문과 답변을 포함하는 대화형 메시지를 수집하는 대화형 메시지 수집 모듈; 및
    수집된 대화형 메시지로부터, 답변을 필요로 하는 정보성 질문과 해당 정보성 질문에서 필요로 하는 정보를 제공하는 정보성 답변을 추출하여 문답 데이터베이스에 포함시키는 정보성 문답 추출 모듈
    을 포함하는 문답 데이터베이스 구축 시스템.
  5. 제4항에 있어서,
    상기 정보성 문답 추출 모듈은,
    수집된 대화형 메시지에 포함된 질문에 대하여, 답변을 필요로 하는 정보성 질문과 답변을 필요로 하지않는 비정보성 질문을 분류하는 정보성 질문 분류부와,
    수집된 대화형 메시지에 포함된 답변에 대하여, 질문에서 필요로 하는 정보를 제공하는 정보성 답변과 질문에서 필요로 하는 정보를 제공하지않는 비정보성 답변을 분류하는 정보성 답변 분류부와,
    수집된 대화형 메시지로부터, 정보성 질문과, 해당 정보성 질문을 포함하는 대화형 메시지의 정보성 답변을 필터링하여 문답 데이터베이스에 포함시키는 정보성 문답 필터링부
    를 포함하는 것인, 문답 데이터베이스 구축 시스템.
  6. 제4항에 있어서,
    상기 대화형 메시지 수집 모듈은,
    질문임을 확인하는 기준이 되는 문자 패턴을 정의하는 질문 패턴 정의부와,
    정의된 문자 패턴을 이용하여 질문과 답변을 포함하는 대화형 메시지를 수집하는 대화형 메시지 수집부
    를 포함하는 것인, 문답 데이터베이스 구축 시스템.
  7. 제1항 내지 제3항 중 어느 한 항의 방법에 의해 구축된 문답 데이터베이스를 이용하여 검색하는 방법으로서,
    사용자 단말로부터 사용자 질문을 입력받는 단계; 및
    상기 사용자 질문에 기초하여 상기 문답 데이터베이스로부터 관련 질문을 검색하고, 검색된 관련 질문에 대한 정보성 답변을 사용자 단말로 제공하는 단계
    를 포함하는 검색 방법.
  8. 제7항에 있어서,
    입력받은 사용자 질문을 분석하는 단계를 더 포함하고,
    상기 사용자 질문에 기초하여 상기 문답 데이터베이스로부터 관련 질문을 검색하는 것은, 상기 사용자 질문에 대한 분석 결과에 기초하여 상기 문답 데이터베이스로부터 관련 질문을 검색하는 것인, 검색 방법.
  9. 제1항 내지 제3항 중 어느 한 항의 방법에 의해 구축된 문답 데이터베이스;
    사용자 단말로부터 사용자 질문을 입력받는 사용자 질문 입력부; 및
    상기 사용자 질문에 기초하여 상기 문답 데이터베이스로부터 관련 질문을 검색하고, 검색된 관련 질문에 대한 정보성 답변을 사용자 단말로 제공하는 검색 엔진부
    를 포함하는 검색 시스템.
  10. 제9항에 있어서,
    입력받은 사용자 질문을 분석하는 사용자 질문 분석부를 더 포함하고,
    상기 사용자 질문에 기초하여 상기 문답 데이터베이스로부터 관련 질문을 검색하는 것은, 상기 사용자 질문에 대한 분석 결과에 기초하여 상기 문답 데이터베이스로부터 관련 질문을 검색하는 것인, 검색 시스템.
KR1020140066920A 2014-02-14 2014-06-02 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법 KR101605430B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020140017161 2014-02-14
KR20140017161 2014-02-14

Publications (2)

Publication Number Publication Date
KR20150096295A true KR20150096295A (ko) 2015-08-24
KR101605430B1 KR101605430B1 (ko) 2016-03-22

Family

ID=54058836

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020140066920A KR101605430B1 (ko) 2014-02-14 2014-06-02 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법
KR1020140066916A KR20150096294A (ko) 2014-02-14 2014-06-02 질문 및 답변 분류 방법, 그리고 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020140066916A KR20150096294A (ko) 2014-02-14 2014-06-02 질문 및 답변 분류 방법, 그리고 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체

Country Status (1)

Country Link
KR (2) KR101605430B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190042337A (ko) * 2017-10-16 2019-04-24 한국과학기술원 메신저 단체 채팅방 활성화를 위한 자연어 처리 기반 대화형 챗봇 운용 방법 및 시스템
KR20190081112A (ko) * 2017-12-29 2019-07-09 주식회사 헤르스 딥러닝 기술을 활용한 화학물질 안전관리의 질의응답 관리시스템
CN110175241A (zh) * 2019-05-23 2019-08-27 三角兽(北京)科技有限公司 问答库构建方法、装置、电子设备及计算机可读介质
KR102018819B1 (ko) 2019-01-14 2019-09-04 주식회사 크라우드웍스 특정 주제에 관한 질문-답변 데이터 셋 자동 생성 방법 및 장치

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101999780B1 (ko) 2017-12-11 2019-09-27 주식회사 카카오 가상 챗봇을 이용하여 인스턴트 메시징 서비스를 제공하는 서버, 단말 및 방법
KR20190080599A (ko) 2017-12-28 2019-07-08 주식회사 카카오 챗봇과 상담원을 이용한 반자동 대화제공방법 및 서버
KR102016678B1 (ko) 2017-12-29 2019-08-30 주식회사 카카오 챗봇과 사용자 단말 간의 컨텍스트 정보를 저장하는 서버 및 방법
US12093324B2 (en) * 2018-05-25 2024-09-17 Nec Corporation Scoring device, scoring method, and recording medium
KR20200114173A (ko) 2019-03-27 2020-10-07 주식회사 카카오 자연어 처리 엔진을 관리하는 방법, 서버 및 컴퓨터 프로그램
KR102169397B1 (ko) 2019-08-28 2020-10-23 주식회사 카카오 챗봇과 상담원을 이용한 반자동 대화제공방법 및 서버
EP3828781A1 (en) 2019-11-28 2021-06-02 42 Maru Inc. Method and apparatus for generating question and answer dataset based on input paragraph
US11710046B2 (en) 2019-11-29 2023-07-25 42Maru Inc. Method and apparatus for generating Q and A model by using adversarial learning
KR102355591B1 (ko) 2019-12-27 2022-01-26 주식회사 포티투마루 강화 학습을 통한 질의응답 학습모델의 생성 방법 및 장치
CN111259951A (zh) * 2020-01-13 2020-06-09 北京明略软件系统有限公司 案件检测方法、装置、电子设备及可读存储介质
KR102427085B1 (ko) * 2021-10-06 2022-07-29 이혜정 학습 서비스를 제공하는 전자 장치 및 이의 동작 방법
KR102671570B1 (ko) 2023-02-24 2024-06-05 주식회사 구루미 질문 유형 별 서로 다른 인공지능이 답변하도록 하는 챗봇 대화 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5158635B2 (ja) 2008-02-28 2013-03-06 インターナショナル・ビジネス・マシーンズ・コーポレーション パーソナル・サービス支援のための方法、システム、および装置
KR101173556B1 (ko) 2008-12-11 2012-08-13 한국전자통신연구원 토픽맵 기반 색인 장치, 토픽맵 기반 검색 장치, 토픽맵 기반 검색 시스템 및 그 방법
JP5436152B2 (ja) * 2009-11-10 2014-03-05 日本電信電話株式会社 質問応答装置、質問応答方法、質問応答プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190042337A (ko) * 2017-10-16 2019-04-24 한국과학기술원 메신저 단체 채팅방 활성화를 위한 자연어 처리 기반 대화형 챗봇 운용 방법 및 시스템
KR20190081112A (ko) * 2017-12-29 2019-07-09 주식회사 헤르스 딥러닝 기술을 활용한 화학물질 안전관리의 질의응답 관리시스템
KR102018819B1 (ko) 2019-01-14 2019-09-04 주식회사 크라우드웍스 특정 주제에 관한 질문-답변 데이터 셋 자동 생성 방법 및 장치
CN110175241A (zh) * 2019-05-23 2019-08-27 三角兽(北京)科技有限公司 问答库构建方法、装置、电子设备及计算机可读介质
CN110175241B (zh) * 2019-05-23 2021-08-03 腾讯科技(深圳)有限公司 问答库构建方法、装置、电子设备及计算机可读介质

Also Published As

Publication number Publication date
KR101605430B1 (ko) 2016-03-22
KR20150096294A (ko) 2015-08-24

Similar Documents

Publication Publication Date Title
KR101605430B1 (ko) 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법
Salloum et al. Analysis and classification of Arabic newspapers’ Facebook pages using text mining techniques
CN110209897B (zh) 智能对话方法、装置、存储介质及设备
Szomszor et al. Semantic modelling of user interests based on cross-folksonomy analysis
US10621181B2 (en) System and method for screening social media content
US20220004871A1 (en) Data searching system and method
Fornacciari et al. Social network and sentiment analysis on Twitter: Towards a combined approach.
WO2012011092A1 (en) System, method and device for intelligent textual conversation system
CN107992513B (zh) 一种信息处理系统及其实现信息处理的方法
CN110232126B (zh) 热点挖掘方法及服务器和计算机可读存储介质
Okazaki et al. How to mine brand Tweets: Procedural guidelines and pretest
Lai et al. # brexit: Leave or remain? The role of user’s community and diachronic evolution on stance detection
KR101780237B1 (ko) 온라인 상에 공개된 질의응답 데이터를 기초로 한 사용자 질의에 대한 응답 방법 및 장치
Gunduz et al. Investigating sentimental relation between social media presence and academic success of Turkish universities
Ugheoke et al. Detecting the gender of a tweet sender
US11507593B2 (en) System and method for generating queryeable structured document from an unstructured document using machine learning
Yin et al. Research of integrated algorithm establishment of a spam detection system
Singh et al. What's kooking? characterizing India's emerging social network, Koo
Zolaktaf et al. Modeling community question-answering archives
Kim et al. Unstructured Social Media Data Mining System Based on Emotional Database and Unstructured Information Management Architecture Framework
JP7003481B2 (ja) ソーシャル・メディア・アカウントおよびコンテンツの相互に補強するランキング
Hemalatha et al. Automated sentiment analysis system using machine learning algorithms
Choudhari et al. Opinion Mining and Sentiment Analysis on Big Data
Ranjan et al. A brief survey on text analytics methods and applications
Nguyen et al. Exploiting social networks as a live mass media channel during disasters for reactions

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
N231 Notification of change of applicant
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190227

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20200227

Year of fee payment: 5