KR20150096294A - 질문 및 답변 분류 방법, 그리고 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체 - Google Patents

질문 및 답변 분류 방법, 그리고 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체 Download PDF

Info

Publication number
KR20150096294A
KR20150096294A KR1020140066916A KR20140066916A KR20150096294A KR 20150096294 A KR20150096294 A KR 20150096294A KR 1020140066916 A KR1020140066916 A KR 1020140066916A KR 20140066916 A KR20140066916 A KR 20140066916A KR 20150096294 A KR20150096294 A KR 20150096294A
Authority
KR
South Korea
Prior art keywords
question
answer
machine learning
learning model
informative
Prior art date
Application number
KR1020140066916A
Other languages
English (en)
Inventor
김강학
이선호
손정훈
Original Assignee
주식회사 플런티코리아
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 플런티코리아 filed Critical 주식회사 플런티코리아
Publication of KR20150096294A publication Critical patent/KR20150096294A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

질문 및 답변 분류 시스템 및 방법이 제공된다. 본 발명의 일 실시예에 따른 질문 분류 시스템에 따르면, 답변을 필요로 하는 정보성 질문과 답변을 필요로 하지 않는 비정보성 질문을 분류하는 질문 분류 방법에 있어서, 해당 질문을 구성하는 문장의 품사 시퀀스를 특징으로 하는 특징 벡터(feature vector)를 이용하여, 해당 질문이 정보성 질문인지 비정보성 질문인지 분류하도록 기계 학습된 제1 기계 학습 모델을 생성하는 단계; 특정한 문자 패턴이 해당 질문에 포함되어 있는지 여부와, 상기 제1 기계 학습 모델에 해당 질문을 입력한 결과를 특징으로 하는 특징 벡터를 이용하여, 해당 질문이 정보성 질문인지 비정보성 질문인지 분류하도록 기계 학습된 제2 기계 학습 모델을 생성하는 단계; 및 상기 제2 기계 학습 모델에 테스트 질문을 입력한 결과에 기초하여, 상기 테스트 질문을 정보성 질문 또는 비정보성 질문으로 분류하는 단계를 포함한다.

Description

질문 및 답변 분류 방법, 그리고 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체{METHOD FOR CLASSIFYING QUESTION AND ANSWER, AND COMPUTER-READABLE RECORDING MEDIUM STORING PROGRAM FOR PERFORMING THE METHOD}
본 발명은 질문 및 답변 분류 방법, 그리고 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체에 관한 것으로, 보다 자세하게는 기계 학습 모델을 이용한 질문 및 답변 분류 방법, 그리고 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체에 관한 것이다.
이용자의 질문에 대한 답변을 제공하기 위해, 이용자가 원하는 정답이 저장되어 있는 다양한 정보원, 예컨대 커뮤니티, 블로그, 웹 문서 및 지식인 등에 접근하여 정답을 추출하는 기술이 연구되고 있다. 일례로, 이용자의 질문으로부터 키워드를 추출하고, 추출된 키워드에 기초하여 웹 사이트에서 관련된 문서를 검색하고, 검색된 문서를 답변으로 제공하는 방법이 가능할 수 있다.
공개번호 제10-2013-0021944호
다만, 최근에는 스마트폰의 보급으로 인해 트위터나 페이스북 등의 SNS(Social Networking Service)의 사용이 활발해졌으며, 이에 따라, SNS를 통해 정보를 공유하고 궁금증을 해결하는 것이 보편화되었다. 더욱이, SNS는 이용자 사이에 형성된 개인적인 신뢰도에 기반하고 있기 때문에, SNS를 통해 공유되는 정보의 정확도는 높을 수 있다.
그러나, 종래 기술의 경우, 질문을 통해 추출된 키워드에 기초하여 웹 사이트에서 관련 문서를 검색할 뿐이며, SNS 등에 따른 양질의 데이터를 이용하고 있지는 못하는 실정이다.
위와 같은 문제점으로부터 안출된 본 발명이 해결하고자 하는 기술적 과제는, 질문과 이에 연계된 복수의 답변을 포함하는 대화형 메시지를 데이터베이스화 하기 위해, 대화형 메시지에 포함된 질문이 답변을 필요로 하는 정보성 질문인지 답변을 필요로 하지 않는 비정보성 질문인지 분류할 수 있는 질문 분류 방법, 그리고 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체를 제공하고자 하는 것이다.
본 발명이 해결하고자 하는 다른 기술적 과제는, 질문과 이에 연계된 복수의 답변을 포함하는 대화형 메시지를 데이터베이스화 하기 위해, 대화형 메시지에 포함된 답변이 해당 질문에서 필요로 하는 정보를 제공하는 정보성 답변인지 해당 질문에서 필요로 하는 정보를 제공하지 않는 비정보성 답변인지 분류할 수 있는 답변 분류 방법, 그리고 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체를 제공하고자 하는 것이다.
본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 언급된 기술적 과제들을 해결하기 위한, 본 발명의 일 실시예에 따른 질문 분류 방법은, 답변을 필요로 하는 정보성 질문과 답변을 필요로 하지 않는 비정보성 질문을 분류하는 질문 분류 방법에 있어서, 해당 질문을 구성하는 문장의 품사 시퀀스를 특징으로 하는 특징 벡터(feature vector)를 이용하여, 해당 질문이 정보성 질문인지 비정보성 질문인지 분류하도록 기계 학습된 제1 기계 학습 모델을 생성하는 단계; 특정한 문자 패턴이 해당 질문에 포함되어 있는지 여부와, 상기 제1 기계 학습 모델에 해당 질문을 입력한 결과를 특징으로 하는 특징 벡터를 이용하여, 해당 질문이 정보성 질문인지 비정보성 질문인지 분류하도록 기계 학습된 제2 기계 학습 모델을 생성하는 단계; 및 상기 제2 기계 학습 모델에 테스트 질문을 입력한 결과에 기초하여, 상기 테스트 질문을 정보성 질문 또는 비정보성 질문으로 분류하는 단계를 포함한다.
상기 언급된 기술적 과제를 해결하기 위한, 본 발명의 일 실시예에 따른 답변 분류 방법은, 질문과 이에 연계된 복수의 답변을 포함하는 대화형 메시지에 있어서, 질문에서 필요로 하는 정보를 제공하는 정보성 답변과 질문에서 필요로 하는 정보를 제공하지 않는 비정보성 답변을 분류하는 답변 분류 방법에 있어서, 대화형 메시지에서 질문과 이에 연계된 복수의 답변 사이의 관계를 나타내는 계층 구조로부터 도출되는 질문과 해당 답변 사이의 거리를 특징으로 하는 특징 벡터를 이용하여, 해당 답변이 정보성 답변인지 비정보성 답변인지 분류하도록 기계 학습된 제3 기계 학습 모델을 생성하는 단계; 및 상기 제3 기계 학습 모델에 테스트 답변을 입력한 결과에 기초하여, 상기 테스트 답변을 정보성 답변 또는 비정보성 답변으로 분류하는 단계를 포함한다.
상기와 같은 본 발명에 따르면, 질문이 답변을 필요로 하는 정보성 질문인지 답변을 필요로 하지 않는 비정보성 질문인지 분류할 수 있으므로, 대화형 메시지가 데이터베이스에 이용될 수 있을지 결정할 수 있으며, 답변이 해당 질문에서 필요로 하는 정보를 제공하는 정보성 답변인지 해당 질문에서 필요로 하는 정보를 제공하지 않는 비정보성 답변인지 분류할 수 있으므로, 대화형 메시지 내에서 필요한 답변을 추출할 수 있다. 따라서, 대화형 메시지를 데이터베이스화 할 수 있다.
도 1은 본 발명의 일 실시예에 따른 질문 분류 방법에서 사용될 수 있는 특징을 나타내는 표이다.
도 2는 본 발명의 일 실시예에 따른 질문 분류 방법을 설명하기 위한 순서도이다.
도 3은 본 발명의 일 실시예에 따른 질문 분류 방법에서 사용되는 기계 학습 모델을 생성하는 단계를 구체화한 순서도이다.
도 4는 본 발명의 일 실시예에 따른 답변 분류 방법에서 사용될 수 있는 특징을 나타내는 표이다.
도 5는 도 4의 특징을 설명하기 위한 대화형 메시지의 일례이다.
도 6은 도 5의 대화형 메시지에 대한 계층 구조의 예시이다.
도 7은 본 발명의 일 실시예에 따른 답변 분류 방법을 설명하기 위한 순서도이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 게시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 게시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.
본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소 외에 하나 이상의 다른 구성요소의 존재 또는 추가를 배제하지 않는다.
이하, 도면을 참조하여 본 발명의 실시예들에 따른 질문 및 답변 분류 방법에 대해 설명하기로 한다.
본 발명의 실시예들에 따른 질문 및 답변 분류 방법은 기계 학습 모델을 이용할 수 있다. 기계 학습 모델의 일례로 서포트 벡터 머신 모델(SVM; Support Vector Machine)을 이용할 수 있지만, 기계 학습 모델은 이에 제한되지 않으며, 본 발명의 실시예들에 다양한 기계 학습 모델이 적용될 수 있다.
서포트 벡터 머신 모델은 통계적 학습 이론에 관한 모델로서, 이진 분류를 위해 특징 벡터(feature vector)에 대하여 최적의 분리 경계면(hyperplane)을 제공할 수 있다. 따라서, 질문 및 답변 분류 방법에 따르면, 훈련(training)을 통해 특징 벡터에 대한 서포트 벡터 머신 모델을 생성할 수 있고, 테스트(test) 과정에서 서포트 벡터 머신 모델에 따라 제공되는 분리 경계면을 통해 테스트 질문 또는 테스트 답변이 정보성을 띠는지 비정보성을 띠는지 분류할 수 있다.
그리고, 본 발명의 실시예들에 따른 질문 및 답변 분류 방법은 소프트웨어적으로 구현될 수 있으며, 서버와 같은 컴퓨터에 의해 실행될 수 있지만, 이에 제한되지 않는다.
도 1 내지 도 3을 참조하여, 본 발명의 일 실시예에 따른 질문 분류 방법에 대해 설명한다. 도 1을 참조하면, 본 발명의 일 실시예에 따른 질문 분류 방법에서 사용될 수 있는 특징을 나타내는 표가 개시되고, 도 2를 참조하면, 본 발명의 일 실시예에 따른 질문 분류 방법을 설명하기 위한 순서도가 개시되고, 도 3을 참조하면, 본 발명의 일 실시예에 따른 질문 분류 방법에서 사용되는 기계 학습 모델을 생성하는 단계를 구체화한 순서도가 개시된다.
본 실시예의 질문 분류 방법은 미리 질문으로 분류된 문장에 대해 수행될 수 있으며, 해당 질문이 답변을 필요로 하는 정보성 질문인지 답변을 필요로 하지 않는 비정보성 질문인지 분류하기 위해 수행될 수 있다. 구체적으로, 정보성 질문은 상대방으로부터 정보를 확인하기 위한 목적을 내포하고 있으므로, 답변을 필요로 할 수 있다. 따라서, 정보성 질문을 분류하고, 이에 대한 답변을 확인할 수 있다면, 특정 주제의 정보가 공유되고 있는 문답 데이터를 얻을 수 있다.
이에 비해, 비정보성 질문은 예컨대 의문문의 형태를 가지고 있지만, 상대방으로부터 정보를 확인하기 위한 목적을 내포하고 있지 않으므로, 답변을 필요로 하지 않을 수 있다. 따라서, 비정보성 질문과 이에 대한 답변을 통해서는 정보의 확인이 용이하지 않으므로, 데이터베이스에서 비정보성 질문을 포함하는 문답 데이터를 제외할 필요가 있다.
정보성 질문과 비정보성 질문은 품사 순서, 어조 등에 있어서 차이가 있을 수 있으며, 이러한 차이가 나는 요소를 특징(feature)으로 할 수 있다. 복수의 특징이 모여 n차원의 특징 벡터를 이룰 수 있으며, 이러한 특징 벡터를 이용하여 기계 학습 모델을 생성할 수 있다.
도 1을 참조하여, 본 발명의 일 실시예에 따른 질문 분류 방법에서 기계 학습 모델을 생성하기 위해 사용될 수 있는 특징을 설명한다.
우선, 질문에 특정한 문자 패턴이 포함되어 있는지 여부가 특징이 될 수 있다. 특정한 문자 패턴이 질문에 포함된 경우, 질문이 정보성 질문이거나 비정보성 질문일 확률이 상당한 경우, 해당되는 특정한 문자 패턴은 질문을 분류하기 위한 척도로 이용될 수 있다.
특정한 문자 패턴은, 예컨대 URL(Uniform Resource Locator), 고유 명사, 강한 어조의 표현, 인용구, 육하원칙(5W1H) 및 확장된 육하원칙(extended 5W1H)의 구성 요소 중 어느 하나 이상을 포함할 수 있지만, 이에 제한되지 않는다.
URL은 인터넷 정보의 위치를 나타내는 것으로, 예컨대 URL을 통해 지정된 주소에 접속하여 정보를 확인할 수 있다. 질문에 URL이 포함되어 있다면, 해당 질문에는 URL을 통해 확인할 수 있는 정보에 대해 문의하려는 의도가 내포될 수 있다. 따라서, 질문에 URL이 포함되어 있는지 여부가 정보성 질문과 비정보성 질문을 분류하는 하나의 특징으로 이용될 수 있다.
질문에 고유 명사가 포함되어 있다면, 해당 질문에는 고유 명사와 관련된 정보에 대해 문의하려는 의도가 내포될 수 있다. 따라서, 질문에 고유 명사가 포함되어 있는지 여부가 정보성 질문과 비정보성 질문을 분류하는 하나의 특징으로 이용될 수 있다.
강한 어조의 표현은 작성자의 감정 또는 감탄을 표현하기 위해 이용될 수 있다. 예컨대, "저것 봤어?!!(Did you see that?!!)"와 같이 질문에 강한 어조의 표현이 포함되어 있다면, 해당 질문을 통해 답변이나 정보를 구하려는 의도가 있다기 보다는, 해당 질문을 통해 질문자의 감정 또는 감탄을 표현하려는 의도가 있다고 판단될 수 있다. 따라서, 질문에 강한 어조의 표현이 포함되어 있는지 여부가 정보성 질문과 비정보성 질문을 분류하는 하나의 특징으로 이용될 수 있다.
질문에 인용구가 포함되어 있는 경우, 특히, 질문이 인용된 인용구가 질문에 포함되어 있다면, 해당 질문은 답변이나 정보를 구하려는 의도가 있다기 보다는, 다른 사람의 질문을 인용하면서 그에 대한 코멘트를 하려는 의도가 있다고 판단될 수 있다. 따라서, 질문에 인용구가 포함되어 있는지 여부가 정보성 질문과 비정보성 질문을 분류하는 하나의 특징으로 이용될 수 있다.
육하원칙(5W1H)의 구성요소는 누가(who), 언제(when), 어디서(wherer), 무엇을(what), 왜(why) 및 어떻게(how)이다. 질문에 육하원칙의 구성요소가 포함되어 있다면, 즉, 육하원칙의 구성요소인 누가, 언제, 어디서, 무엇을, 왜 및 어떻게 중 어느 하나 이상을 이용하여 의문문이 구성되어 있다면, 해당 질문은 주체, 시간, 장소, 객체, 이유 및 방법 중 어느 하나에 대해 문의하려는 의도가 내포될 수 있다. 따라서, 질문에 육하원칙의 구성요소가 포함되어 있는지 여부가 정보성 질문과 비정보성 질문을 분류하는 하나의 특징으로 이용될 수 있다.
확장된 육하원칙의 구성요소는, 기존의 육하원칙의 구성요소 이외에 의문문에 주로 사용되는 어느/어떤(which) 및 할 수 있니/해도 되니(can)이다. 질문에 확장된 육하원칙의 구성요소가 포함되어 있다면, 해당 질문은 답변이나 정보를 구하려는 의도가 있는 것으로 볼 수 있으므로, 질문에 확장된 육하원칙의 구성요소가 포함되어 있는지 여부가 정보성 질문과 비정보성 질문을 분류하는 하나의 특징으로 이용될 수 있다.
또한, 특정한 문자 패턴은 해시태그(#, hash tag), 멘션(@, mention) 및 리트윗(RT, retweet) 중 어느 하나 이상을 더 포함할 수 있지만, 이에 제한되지 않는다. 해시태그, 멘션, 리트윗은 트위터(twitter)에서 사용되는 문자 패턴으로, 질문이 트위터의 메시지인 경우, 유용한 특징으로 이용될 수 있다.
해시태그(#)는 해당 메시지의 주제를 나타내기 위해 사용되는 문자 패턴으로, 트위터 이용자는 # 뒤에 특정한 단어를 입력함으로써 해당 메시지의 주제를 나타낼 수 있다. 따라서, 질문에 해시태그(#)가 포함되어 있다면, 해당 질문에는 # 뒤에 기재된 주제에 대해 문의하려는 의도가 내포될 수 있다. 따라서, 질문에 해시태그(#)가 포함되어 있는지 여부는 정보성 질문과 비정보성 질문을 분류하는 하나의 특징으로 이용될 수 있다.
멘션(@)은 해당 메시지를 특정한 트위터 이용자에게 전송하기 위해 사용되는 문자 패턴으로, 트위터 이용자는 @ 뒤에 특정한 트위터 아이디를 입력함으로써 해당 메시지를 특정한 트위터 이용자에게 전송할 수 있다. 따라서, 질문에 멘션(@)이 포함되어 있다면, 해당 질문에는 특정한 트위터 이용자로부터 해당 질문에 대한 답변을 구하려는 의도가 내포될 수 있다. 따라서, 질문에 멘션(@)이 포함되어 있는지 여부는 정보성 질문과 비정보성 질문을 분류하는 하나의 특징으로 이용될 수 있다.
리트윗(RT)은 다른 트위터 이용자의 메시지를 자신의 팔로워(follower)에게 전달하기 위해 이용되는 기능으로써, 리트윗된 메시지에는 리트윗이 되었음을 나타내기 위해 "RT"가 표시될 수 있다. 따라서, 질문에 리트윗(RT)가 포함되어 있다면, 해당 질문에는 다른 트위터 이용자가 해소하지 못한 질문을 다른 사람에게 널리 알려 답변을 구하려는 의도가 내포될 수 있다. 따라서, 질문에 리트윗(RT)가 포함되어 있는지 여부는 정보성 질문과 비정보성 질문을 분류하는 하나의 특징으로 이용될 수 있다.
한편, 질문을 구성하는 문장의 품사 시퀀스(POS sequence)가 특징이 될 수 있다.
질문을 구성하는 문장의 품사 시퀀스는 질문을 구성하는 문장의 품사 출현 순서를 의미할 수 있다. 즉, 질문을 구성하는 문장의 품사 시퀀스는, 질문을 구성하는 문장에 포함되는 단어의 배열에 따라, 해당 단어에 해당하는 품사가 배열된 것을 의미할 수 있다. 예컨대, "Do you know?"라는 질문이 있는 경우, 문장에 포함되는 단어인 "Do", "you" 및 "know"의 배열에 따라, "Do", "you" 및 "know"에 해당하는 품사인 "동사", "명사" 및 "동사"가 배열된 "동사 + 명사 + 동사"가, 질문을 구성하는 문장의 품사 시퀀스일 수 있다. 이러한 문장의 형식, 즉 문장의 품사 시퀀스는, 정보성 질문과 비정보성 질문을 분류하는 하나의 특징으로 이용될 수 있다.
다만, 다양한 품사 시퀀스가 존재할 수 있으며, 각각의 품사 시퀀스가 특징 벡터를 구성하는 특징으로 이용될 수 있다. 예컨대, 질문의 품사 시퀀스가 "동사 + 명사 + 동사"인지 여부가 하나의 특징이 되고, 질문의 품사 시퀀스가 "의문사 + 동사 + 명사"인지 여부 또한 하나의 특징이 될 수 있으며, 이와 같은 식으로, 질문의 품사 시퀀스와 관련하여 n개의 특징을 포함하는 n차원의 특징 벡터가 구성될 수 있다.
이어서, 도 2 및 도 3을 참조하여, 본 발명의 일 실시예에 따른 질문 분류 방법의 순서를 설명한다.
우선, 도 2를 참조하면, 해당 질문을 구성하는 문장의 품사 시퀀스를 특징으로 하는 특징 벡터를 이용하여, 해당 질문이 정보성 질문인지 비정보성 질문인지 분류하도록 기계 학습된 제1 기계 학습 모델을 생성할 수 있다(S10).
제1 기계 학습 모델의 특징과 관련하여, 질문을 구성하는 문장의 품사 시퀀스가 특징 벡터가 될 수 있으며, 전술한 바와 같이, 질문의 품사 시퀀스와 관련하여 n개의 특징을 포함하는 n차원의 특징 벡터가 이용될 수 있지만, 이에 제한되지 않는다.
도 3을 참조하여, 기계 학습된 제1 기계 학습 모델을 생성하는 단계는 구체적으로 설명한다. 다만, 여기서 설명하는 기계 학습 모델을 생성하는 단계은 후술하는 제2 및 제3 기계 학습 모델을 생성하는 단계에서도 동일하게 적용될 수 있다.
우선, 훈련(training)용 데이터를 준비할 수 있다(S11). 구체적으로, 정보성 질문인지 비정보성 질문인지 분류된 복수의 질문을 준비할 수 있다.
이어서, 훈련용 데이터에 대하여 특징 벡터를 검출할 수 있다(S12). 예컨대, 질문을 구성하는 문장의 품사 시퀀스가 특징으로 이용되는 경우, 훈련용 데이터의 품사 시퀀스가, 특징으로 이용되는 각각의 품사 시퀀스에 해당하는지 여부가 수치화된 n차원의 특징 벡터가 검출될 수 있다.
이어서, 복수의 훈련용 데이터를 입력 값으로 하고, 훈련용 데이터로부터 검출된 특징 벡터를 통해 해당 질문이 정보성 질문인지 비정보성 질문인지 분류하도록 기계 학습된 제1 기계 학습 모델을 생성할 수 있다(S13).
전술한 S10 단계에 이어서, 도 2를 참조하여, 특정한 문자 패턴이 해당 질문에 포함되어 있는지 여부와, 제1 기계 학습 모델에 해당 질문을 입력한 결과를 특징으로 하는 특징 벡터를 이용하여, 해당 질문이 정보성 질문인지 비정보성 질문인지 분류하도록 기계 학습된 제2 기계 학습 모델을 생성할 수 있다(S20).
특정한 문자 패턴은, 예컨대 URL(Uniform Resource Locator), 고유 명사, 강한 어조 표현, 인용구 및 육하 원칙의 구성 요소 중 어느 하나 이상을 포함할 수 있으며, 또한, 해시태그(#), 멘션(@) 및 리트윗(RT) 중 어느 하나 이상을 더 포함할 수도 있다. 복수의 특정한 문자 패턴은 각각 하나의 특징이 될 수 있으며, 각각 특징 벡터에서 하나의 차원으로 기능할 수 있다.
그리고, 제1 기계 학습 모델에 해당 질문을 입력한 결과가 특징이 될 수 있으며, 예컨대, 제1 기계 학습 모델에 해당 질문으로부터 검출된 품사 시퀀스에 관한 특징 벡터를 입력한 결과로서, 해당 질문이 정보성 질문인지 비정보성 질문인지가 수치로 표현된 결과가 하나의 특징으로서, 특징 벡터에서 하나의 차원으로 기능할 수 있다.
이어서, 제2 기계 학습 모델에 테스트 질문을 입력한 결과에 기초하여, 테스트 질문을 정보성 질문 또는 비정보성 질문으로 분류할 수 있다(S30).
본 단계는 테스트 단계일 수 있으며, 제2 기계 학습 모델에 테스트 질문을 입력한 결과는, 제2 기계 학습 모델에, 특정한 문자 패턴이 테스트 질문에 포함되어 있는지 여부와, 제1 기계 학습 모델에 테스트 질문을 입력한 결과를 특징 벡터로서 입력한 결과일 수 있다. 제2 기계 학습 모델은 입력된 특징 벡터를 통해, 테스트 질문이 정보성 질문인지 비정보성 질문인에 대한 결과를 나타낼 수 있다.
본 발명의 일 실시예에 따른 질문 분류 방법에 따르면, 질문이 답변을 필요로 하는 정보성 질문인지 답변을 필요로 하지 않는 비정보성 질문인지 분류할 수 있다. 따라서, 검색 시스템을 위한 데이터베이스에서 비정보성 질문을 포함하는 문답 데이터를 제외함으로써, 완성도 높은 검색 시스템 개발할 수 있다.
이하, 도 4 내지 도 7을 참조하여, 본 발명의 일 실시예에 따른 답변 분류 방법을 설명한다. 도 4를 참조하면, 본 발명의 일 실시예에 따른 답변 분류 방법에서 사용될 수 있는 특징을 나타내는 표가 개시되고, 도 5를 참조하면, 도 4의 특징을 설명하기 위한 대화형 메시지의 일례가 도시되고, 도 6을 참조하면, 도 5의 대화형 메시지에 대한 계층 구조의 예시가 도시되고, 도 7을 참조하면, 본 발명의 일 실시예에 따른 답변 분류 방법을 설명하기 위한 순서도가 개시된다.
본 실시예의 답변 분류 방법은 예컨대, 질문과 이에 연계된 복수의 답변을 포함하는 대화형 메시지에 대해 수행될 수 있다. 트위터 메시지와 페이스북 메시지가 대표적인 대화형 메시지일 수 있지만 이에 제한되지 않으며, 복수의 사용자 사이에서 질문과 답변을 주고 받는 구조를 가지는 모든 것이 될 수 있다.
대화형 메시지에는 복수의 답변이 포함될 수 있으며, 질문과 크게 관련이 없는 내용의 답변도 포함될 수 있기 때문에, 문답 데이터를 만들기 위해, 복수의 답변 중에서 질문에서 필요로 하는 정보를 제공하는 정보성 답변을 추출하는 작업이 필요할 수 있다. 이를 위해, 본 실시예의 답변 분류 방법을 통해, 질문에서 필요로 하는 정보를 제공하는 정보성 답변과 질문에서 필요로 하는 정보를 제공하지 않는 비정보성 답변을 분류할 수 있다.
정보성 답변과 비정보성 답변은 질문과 해당 답변 사이의 주제 유사도, 해당 답변에 은어가 포함된 비율 등에 있어서 차이가 있을 수 있으며, 이러한 차이가 나는 요소를 특징으로 할 수 있다. 복수의 특징이 모여 n차원의 특징 벡터를 이룰 수 있으며, 이러한 특징 벡터를 이용하여 기계 학습 모델을 생성할 수 있다.
도 4를 참조하여, 본 발명의 일 실시예에 따른 답변 분류 방법에서 기계 학습 모델을 생성하기 위해 사용될 수 있는 특징을 설명한다.
질문과 답변 사이의 관계로부터 도출되는 속성과, 답변 자체의 속성이 정보성 답변과 비정보성 답변을 분류하는 특징이 될 수 있다.
우선, 질문과 답변 사이의 관계로부터 도출되는 속성으로, 질문과 해당 답변 사이의 거리가 특징이 될 수 있다.
질문과 해당 답변 사이의 거리는 대화형 메시지에서 질문과 이에 연계된 복수의 답변 사이의 관계를 나타내는 계층 구조로부터 도출될 수 있다. 계층 구조는, 답변이 질문에 대한 직접적인 답변인지, 다른 답변에 대한 답변인지에 대한 관계를 나타내는 것이다. 그리고, 해당 답변이 질문에 대한 직접적인 답변인 경우가, 해당 답변이 다른 답변에 대한 답변인 경우에 비해, 상대적으로 질문과 해당 답변 사이의 거리가 짧다고 정의될 수 있다. 따라서, 질문과 해당 답변 사이의 거리가 멀면 멀수록 질문과 해당 답변 사이에 다른 답변이 끼어있을 가능성이 높으므로, 해당 답변이 질문에서 필요로 하는 정보와는 동떨어진 내용을 포함하고 있을 가능성이 높다. 따라서, 질문과 해당 답변 사이의 거리는 정보성 답변과 비정보성 답변을 분류하는 하나의 특징으로 이용될 수 있다.
도 5 및 도 6을 참조하여, 질문과 해당 답변 사이의 거리에 대하여 구체적으로 설명한다. 도 5를 참조하면, 대화형 메시지는 질문(1)과 제1 내지 제6 답변(10, 20, 30, 40, 50, 60)을 포함할 수 있다. 여기서, 제1 내지 제4 답변(10, 20, 30, 40)은 질문(1)에 대한 직접적인 답변이다. 그리고, 제5 답변(50)은 제2 답변(20)에 대한 답변이며, 제6 답변(60)은 제4 답변(40)에 대한 답변이다. 이러한 관계에 기초하여 도 6과 같은 계층 구조가 도출될 수 있다.
도 6을 참조하면, 질문(1)과 제1 내지 제4 답변(10, 20, 30, 40) 사이의 거리는 동일하며, 질문(1)고 제5 및 제6 답변(50, 60) 사이의 거리는 동일할 수 있다. 그리고, 질문(10)에 대한 직접적인 답변인 제1 내지 제4 답변(10, 20, 30, 40)이, 다른 답변에 대한 답변인 제5 및 제6 답변(50, 60)보다 질문(1)과의 거리가 짧을 수 있다.
또한, 질문과 답변 사이의 관계로부터 도출되는 속성으로, 질문의 질문자가 해당 답변에 대해 감사를 표현하는 답변이 대화형 메시지에 포함되어 있는지 여부, 질문의 질문자가 해당 답변을 긍정적으로 평가하는 답변이 대화형 메시지에 포함되어 있는지 여부, 질문의 질문자가 해당 답변을 언급한 답변이 대화형 메시지에 포함되어 있는지 여부, 해당 답변에서 질문의 질문자에 대해 재질문을 하는지 여부 및 해당 답변의 작성자가 질문의 질문자인지 여부가 특징이 될 수 있다.
질문의 질문자가 해당 답변에 대해 감사를 표현하는 답변이 대화형 메시지에 포함되어 있거나, 질문의 질문자가 해당 답변을 긍정적으로 평가하는 답변이 대화형 메시지에 포함되어 있거나, 질문의 질문자가 해당 답변을 언급한 답변이 대화형 메시지에 포함되어 있는 경우, 해당 답변은 질문자가 원하는 정보를 제공하고 있을 확률이 높다. 예컨대, 도 5를 참조하면, 제5 답변(50)에서 질문자(Kate)는 제2 답변(20)에 대하여 감사를 표현하였으며, 제6 답변(60)에서 질문자(Kate)는 제4 답변(40)을 긍정적으로 평가하였으므로, 제2 및 제4 답변(20, 40)이 질문자(Kate)가 원하는 정보를 제공하는 정보성 답변일 확률이 높다.
그리고, 해당 답변에서 질문의 질문자에 대해 재질문을 하거나, 해당 답변의 작성자가 질문의 질문자인 경우, 해당 답변은 질문에서 필요로 하는 정보를 제공할 확률이 낮을 수 있다. 따라서, 상기 언급한 질문과 답변 사이의 관계로부터 도출되는 속성이 정보성 답변과 비정보성 답변을 분류하는 하나의 특징으로 이용될 수 있다.
그리고, 질문과 답변 사이의 관계로부터 도출되는 속성으로, 질문과 해당 답변 사이의 주제 유사도, 질문과 해당 답변 사이의 단어 유사도, 질문이 답변을 필요로 하는 정보성 질문인지 여부 및 대화형 메시지에 포함된 정보의 총량이 특징이 될 수 있다.
질문과 해당 답변 사이의 주제 유사도 및 질문과 해당 답변 사이의 단어 유사도는 수치화될 수 있으며, 유사도가 높을수록 해당 답변이 질문에서 필요로 하는 정보를 제공할 확률이 높을 수 있다. 구체적으로, LDA(Latent Dirichlet Allocation) 또는 PLSA(Probabilistic Latent Semantic Analysis)를 이용하여 질문과 답변에 해당하는 각 메시지의 주제 분포를 구하고, 이후에 JS 다이버전스(Jensen-Shannon Divergence)를 이용하여 두 개의 주제 분포 사이의 유사도를 계산함으로써, 질문과 해당 답변 사이의 주제 유사도를 산출할 수 있다. 단어 유사도 역시 이와 유사한 방식으로 산출할 수 있다.
이 밖에, 질문이 답변을 필요로 하는 정보성 질문인지 여부와 대화형 메시지에 포함된 정보의 총량도 하나의 특징으로 이용될 수 있다. 대화형 메시지에 포함된 정보의 총량과 관련하여, 대화형 메시지에 사용된 단어가 전체 말뭉치(corpus)에서 일반적으로 흔히 쓰이는 단어이거나 일반적으로 흔히 쓰이지 않는 희귀한 단어인 경우, 대화형 메시지에 포함된 정보의 총량이 감소되는 것으로 판단하여, 해당 답변이 질문에서 필요로 하는 정보를 제공할 확률이 낮을 수 있다.
한편, 답변 자체의 속성으로, 해당 답변에 은어가 포함된 비율, 해당 답변에 속어가 포함된 비율, 해당 답변에 대명사가 포함된 비율, 해당 답변에 감사 표시 문구가 포함되어 있는지 여부, 해당 답변에 질문의 내용이 포함되어 있는지 여부 및 해당 답변이 문법적으로 자연스러운지 여부가 특징이 될 수 있다. 이러한 특징에 해당하는 경우, 해당 답변이 질문에서 필요로 하는 정보를 제공할 확률이 낮을 수 있다.
이어서, 도 7을 참조하여, 본 발명의 일 실시예에 따른 답변 분류 방법의 순서를 설명한다.
우선, 도 7을 참조하면, 대화형 메시지에서 질문과 이에 연계된 복수의 답변 사이의 관계를 나타내는 계층 구조로부터 도출되는 질문과 해당 답변 사이의 거리를 특징으로 하는 특징 벡터를 이용하여, 해당 답변이 정보성 답변인지 비정보성 답변인지 분류하도록 기계 학습된 제3 기계 학습 모델을 생성할 수 있다(S110).
몇몇 실시예에서는, 제3 기계 학습 모델의 특징과 관련하여, 질문과 해당 답변 사이의 거리 이외에, 질문의 질문자가 해당 답변에 대해 감사를 표현하는 답변이 상기 대화형 메시지에 포함되어 있는지 여부, 질문의 질문자가 해당 답변을 긍정적으로 평가하는 답변이 상기 대화형 메시지에 포함되어 있는지 여부, 질문의 질문자가 해당 답변을 언급한 답변이 상기 대화형 메시지에 포함되어 있는지 여부, 해당 답변에서 질문의 질문자에 대해 재질문을 하는지 여부, 및 해당 답변의 작성자가 질문의 질문자인지 여부 중 적어도 하나 이상을 특징으로 추가할 수 있다.
또한, 다른 몇몇 실시예에서는, 질문과 해당 답변 사이의 주제 유사도, 질문과 해당 답변 사이의 단어 유사도, 질문이 답변을 필요로 하는 정보성 질문인지 여부 및 상기 대화형 메시지에 포함된 정보의 총량 중 적어도 하나 이상을 특징으로 추가할 수 있다.
그리고, 또 다른 몇몇 실시예어서는, 해당 답변에 은어가 포함된 비율, 해당 답변에 속어가 포함된 비율, 해당 답변에 대명사가 포함된 비율, 해당 답변에 감사 표시 문구가 포함되어 있는지 여부, 해당 답변에 질문의 내용이 포함되어 있는지 여부, 및 해당 답변이 문법적으로 자연스러운지 여부 중 적어도 하나 이상을 특징으로 추가할 수 있다.
이어서, 제3 기계 학습 모델에 테스트 답변을 입력한 결과에 기초하여, 테스트 답변을 정보성 답변 또는 비정보성 답변으로 분류할 수 있다(S120).
본 발명의 일 실시예에 따른 답변 분류 방법에 따르면, 질문에서 필요로 하는 정보를 제공하는 정보성 답변과 질문에서 필요로 하는 정보를 제공하지 않는 비정보성 답변을 분류할 수 있다. 따라서, 대화형 메시지에서 질문에서 필요로 하는 정보를 제공하는 정보성 답변을 추출함으로써, 양질의 문답 데이터를 얻을 수 있다.
도 2 및 도 7을 통해 설명된 실시예에 따른 질문 및 답변 분류 방법은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록매체의 형태로도 구현될 수 있다. 즉, 본 발명의 실시예들에 따른 질문 및 답변 분류 방법을 수행하는 프로그램이 컴퓨터 판독 가능한 기록매체에 기록될 수 있다. 컴퓨터 판독 가능한 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독 가능한 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함할 수 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
1: 질문 10, 20, 30, 40, 50, 60: 제1 내지 제6 답변

Claims (10)

  1. 답변을 필요로 하는 정보성 질문과 답변을 필요로 하지 않는 비정보성 질문을 분류하는 질문 분류 방법에 있어서,
    해당 질문을 구성하는 문장의 품사 시퀀스를 특징으로 하는 특징 벡터(feature vector)를이용하여, 해당 질문이 정보성 질문인지 비정보성 질문인지 분류하도록 기계 학습된 제1 기계 학습 모델을 생성하는 단계;
    특정한 문자 패턴이 해당 질문에 포함되어 있는지 여부와, 상기 제1 기계 학습 모델에 해당 질문을 입력한 결과를 특징으로 하는 특징 벡터를 이용하여, 해당 질문이 정보성 질문인지 비정보성 질문인지 분류하도록 기계 학습된 제2 기계 학습 모델을 생성하는 단계; 및
    상기 제2 기계 학습 모델에 테스트 질문을 입력한 결과에 기초하여, 상기 테스트 질문을 정보성 질문 또는 비정보성 질문으로 분류하는 단계
    를 포함하는 질문 분류 방법.
  2. 제1항에 있어서,
    상기 특정한 문자 패턴은, URL(Uniform Resource Locator), 고유 명사, 인용구 및 육하 원칙의 구성 요소 중 적어도 하나 이상을 포함하는 것인, 질문 분류 방법.
  3. 제2항에 있어서,
    상기 특정한 문자 패턴은 해시태그(#), 멘션(@) 및 리트윗(RT) 중 적어도 하나 이상을 더 포함하는 것인, 질문 분류 방법.
  4. 제1항에 있어서,
    상기 제2 기계 학습 모델에 테스트 질문을 입력한 결과는,
    상기 제2 기계 학습 모델에, 상기 특정한 문자 패턴이 상기 테스트 질문에 포함되어 있는지 여부와, 상기 제1 기계 학습 모델에 상기 테스트 질문을 입력한 결과를 특징 벡터로서 입력한 결과인 것인, 질문 분류 방법.
  5. 질문과 이에 연계된 복수의 답변을 포함하는 대화형 메시지에 있어서, 질문에서 필요로 하는 정보를 제공하는 정보성 답변과 질문에서 필요로 하는 정보를 제공하지 않는 비정보성 답변을 분류하는 답변 분류 방법에 있어서,
    대화형 메시지에서 질문과 이에 연계된 복수의 답변 사이의 관계를 나타내는 계층 구조로부터 도출되는 질문과 해당 답변 사이의 거리를 특징으로 하는 특징 벡터를 이용하여, 해당 답변이 정보성 답변인지 비정보성 답변인지 분류하도록 기계 학습된 제3 기계 학습 모델을 생성하는 단계; 및
    상기 제3 기계 학습 모델에 테스트 답변을 입력한 결과에 기초하여, 상기 테스트 답변을 정보성 답변 또는 비정보성 답변으로 분류하는 단계
    를 포함하는 답변 분류 방법.
  6. 제5항에 있어서,
    해당 답변이 질문에 대한 직접적인 답변인 경우가, 해당 답변이 다른 답변에 대한 답변인 경우에 비해, 상대적으로 질문과 해당 답변 사이의 거리가 짧은 것인, 답변 분류 방법.
  7. 제5항에 있어서,
    상기 제3 기계 학습 모델을 생성하는 단계는,
    질문의 질문자가 해당 답변에 대해 감사를 표현하는 답변이 상기 대화형 메시지에 포함되어 있는지 여부, 질문의 질문자가 해당 답변을 긍정적으로 평가하는 답변이 상기 대화형 메시지에 포함되어 있는지 여부, 질문의 질문자가 해당 답변을 언급한 답변이 상기 대화형 메시지에 포함되어 있는지 여부, 해당 답변에서 질문의 질문자에 대해 재질문을 하는지 여부, 및 해당 답변의 작성자가 질문의 질문자인지 여부 중 적어도 하나 이상을 특징으로 추가하는 특징 벡터를 이용하여, 해당 답변이 정보성 답변인지 비정보성 답변인지 분류하도록 기계 학습된 제3 기계 학습 모델을 생성하는 단계인 것인, 답변 분류 방법.
  8. 제5항에 있어서,
    상기 제3 기계 학습 모델을 생성하는 단계는,
    질문과 해당 답변 사이의 주제 유사도, 질문과 해당 답변 사이의 단어 유사도, 질문이 답변을 필요로 하는 정보성 질문인지 여부 및 상기 대화형 메시지에 포함된 정보의 총량 중 적어도 하나 이상을 특징으로 추가하는 특징 벡터를 이용하여, 해당 답변이 정보성 답변인지 비정보성 답변인지 분류하도록 기계 학습된 제3 기계 학습 모델을 생성하는 단계인 것인, 답변 분류 방법.
  9. 제5항에 있어서,
    상기 제3 기계 학습 모델을 생성하는 단계는,
    해당 답변에 은어가 포함된 비율, 해당 답변에 속어가 포함된 비율, 해당 답변에 대명사가 포함된 비율, 해당 답변에 감사 표시 문구가 포함되어 있는지 여부, 해당 답변에 질문의 내용이 포함되어 있는지 여부, 및 해당 답변이 문법적으로 자연스러운지 여부 중 적어도 하나 이상을 특징으로 추가하는 특징 벡터를 이용하여, 해당 답변이 정보성 답변인지 비정보성 답변인지 분류하도록 기계 학습된 제3 기계 학습 모델을 생성하는 단계인 것인, 답변 분류 방법.
  10. 제1항 내지 제9항 중 어느 하나의 항에 기재된 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체.
KR1020140066916A 2014-02-14 2014-06-02 질문 및 답변 분류 방법, 그리고 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체 KR20150096294A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020140017161 2014-02-14
KR20140017161 2014-02-14

Publications (1)

Publication Number Publication Date
KR20150096294A true KR20150096294A (ko) 2015-08-24

Family

ID=54058836

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020140066916A KR20150096294A (ko) 2014-02-14 2014-06-02 질문 및 답변 분류 방법, 그리고 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
KR1020140066920A KR101605430B1 (ko) 2014-02-14 2014-06-02 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020140066920A KR101605430B1 (ko) 2014-02-14 2014-06-02 문답 데이터베이스 구축 시스템 및 방법, 그리고 이를 이용한 검색 시스템 및 방법

Country Status (1)

Country Link
KR (2) KR20150096294A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111259951A (zh) * 2020-01-13 2020-06-09 北京明略软件系统有限公司 案件检测方法、装置、电子设备及可读存储介质
US20210287563A1 (en) * 2018-05-25 2021-09-16 Nec Corporation Scoring device, scoring method, and recording medium
KR102427085B1 (ko) * 2021-10-06 2022-07-29 이혜정 학습 서비스를 제공하는 전자 장치 및 이의 동작 방법

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102050244B1 (ko) * 2017-10-16 2019-11-29 한국과학기술원 메신저 단체 채팅방 활성화를 위한 자연어 처리 기반 대화형 챗봇 운용 방법 및 시스템
KR101999780B1 (ko) 2017-12-11 2019-09-27 주식회사 카카오 가상 챗봇을 이용하여 인스턴트 메시징 서비스를 제공하는 서버, 단말 및 방법
KR20190080599A (ko) 2017-12-28 2019-07-08 주식회사 카카오 챗봇과 상담원을 이용한 반자동 대화제공방법 및 서버
KR102016678B1 (ko) 2017-12-29 2019-08-30 주식회사 카카오 챗봇과 사용자 단말 간의 컨텍스트 정보를 저장하는 서버 및 방법
KR102005525B1 (ko) * 2017-12-29 2019-07-30 (주)헤르스 딥러닝 기술을 활용한 화학물질 안전관리의 질의응답 관리시스템
KR102018819B1 (ko) 2019-01-14 2019-09-04 주식회사 크라우드웍스 특정 주제에 관한 질문-답변 데이터 셋 자동 생성 방법 및 장치
KR20200114173A (ko) 2019-03-27 2020-10-07 주식회사 카카오 자연어 처리 엔진을 관리하는 방법, 서버 및 컴퓨터 프로그램
CN110175241B (zh) * 2019-05-23 2021-08-03 腾讯科技(深圳)有限公司 问答库构建方法、装置、电子设备及计算机可读介质
KR102169397B1 (ko) 2019-08-28 2020-10-23 주식회사 카카오 챗봇과 상담원을 이용한 반자동 대화제공방법 및 서버
EP3828781A1 (en) 2019-11-28 2021-06-02 42 Maru Inc. Method and apparatus for generating question and answer dataset based on input paragraph
US11710046B2 (en) 2019-11-29 2023-07-25 42Maru Inc. Method and apparatus for generating Q and A model by using adversarial learning
KR102355591B1 (ko) 2019-12-27 2022-01-26 주식회사 포티투마루 강화 학습을 통한 질의응답 학습모델의 생성 방법 및 장치

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5158635B2 (ja) 2008-02-28 2013-03-06 インターナショナル・ビジネス・マシーンズ・コーポレーション パーソナル・サービス支援のための方法、システム、および装置
KR101173556B1 (ko) 2008-12-11 2012-08-13 한국전자통신연구원 토픽맵 기반 색인 장치, 토픽맵 기반 검색 장치, 토픽맵 기반 검색 시스템 및 그 방법
JP5436152B2 (ja) * 2009-11-10 2014-03-05 日本電信電話株式会社 質問応答装置、質問応答方法、質問応答プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210287563A1 (en) * 2018-05-25 2021-09-16 Nec Corporation Scoring device, scoring method, and recording medium
CN111259951A (zh) * 2020-01-13 2020-06-09 北京明略软件系统有限公司 案件检测方法、装置、电子设备及可读存储介质
KR102427085B1 (ko) * 2021-10-06 2022-07-29 이혜정 학습 서비스를 제공하는 전자 장치 및 이의 동작 방법

Also Published As

Publication number Publication date
KR20150096295A (ko) 2015-08-24
KR101605430B1 (ko) 2016-03-22

Similar Documents

Publication Publication Date Title
KR20150096294A (ko) 질문 및 답변 분류 방법, 그리고 이 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체
Silva et al. A survey and comparative study of tweet sentiment analysis via semi-supervised learning
Bontcheva et al. Making sense of social media streams through semantics: a survey
US10318617B2 (en) Methods and apparatus for extraction of content from an email or email threads for use in providing implicit profile attributes and content for recommendation engines
US20160203523A1 (en) Domain generic large scale topic expertise and interest mining across multiple online social networks
US10664759B2 (en) Dynamic business rule creation using scored sentiments
US20090306967A1 (en) Automatic Sentiment Analysis of Surveys
US10621181B2 (en) System and method for screening social media content
US10313476B2 (en) Systems and methods of audit trailing of data incorporation
US9710829B1 (en) Methods, systems, and articles of manufacture for analyzing social media with trained intelligent systems to enhance direct marketing opportunities
Spasojevic et al. Lasta: Large scale topic assignment on multiple social networks
US11769064B2 (en) Onboarding of entity data
US10248644B2 (en) Method and system for transforming unstructured text to a suggestion
US20180330278A1 (en) Processes and techniques for more effectively training machine learning models for topically-relevant two-way engagement with content consumers
US20170200207A1 (en) Systems Methods Circuits and Associated Computer Executable Code for Digital Catalog Augmentation
US20160103835A1 (en) Method and system for ranking suggestions
US10146856B2 (en) Computer-implemented method and system for creating scalable content
Jeong et al. Improving response capability of chatbot using twitter
Saif et al. Sentiment analysis in social streams
Gupta et al. A proposed framework to analyze abusive tweets on the social networks
Shanmukhaa et al. Construction of knowledge graphs for video lectures
Bizhanova et al. Product reputation trend extraction from twitter
SEBASTIAN Sentiment analysis for Twitter
Cole An information diffusion approach for detecting emotional contagion in online social networks
Sharif et al. A scoping review of topic modelling on online data

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
N231 Notification of change of applicant
E701 Decision to grant or registration of patent right