WO2020111329A1

WO2020111329A1 - 유사 사용자 매칭을 이용한 자동 답변 방법 및 시스템

Info

Publication number: WO2020111329A1
Application number: PCT/KR2018/015002
Authority: WO
Inventors: 현성준; 유진혁; 박상환
Original assignee: 주식회사 라이크어로컬
Priority date: 2018-11-29
Filing date: 2018-11-29
Publication date: 2020-06-04

Abstract

본 발명의 일 실시예에 따른, 사용자로부터 입력된 질문을 분석하여 자동으로 답변을 생성하는 자동 답변 시스템은, 수집 데이터에 포함된 질문자 중 상기 사용자와 유사한 유사 사용자를 매칭하는 사용자 매칭부; 상기 수집 데이터에 포함된 질문 중 상기 입력된 질문과 유사한 유사 질문을 매칭하는 질문 매칭부; 및 상기 사용자와 상기 유사 사용자의 유사도를 나타내는 사용자 유사도와 상기 입력된 질문과 상기 유사 질문의 유사도를 나타내는 질문 유사도에 기초하여, 상기 유사 질문에 대한 답변을 상기 입력된 질문에 대한 답변으로 검출하는 답변 검출부; 를 포함할 수 있다.

Description

유사 사용자 매칭을 이용한 자동 답변 방법 및 시스템

본 발명은 유사 사용자 매칭을 이용한 자동 답변 방법 및 그 시스템에 관한 것이다. 보다 자세하게는, 사용자의 성향을 분석하고, 사용자의 성향에 기초하여 질문에 담긴 사용자의 의도에 맞는 답변을 제공하는 방법 및 그 방법을 수행하는 시스템에 관한 것이다.

인터넷 및 각종 네트워크가 널리 보급되면서 웹사이트 상에 각종 검색엔진 및 정보검색 사이트가 제공되고 있으며 사용자들로서는 이를 이용하여 웹상의 각종 문서 등에 존재하는 다양한 정보를 쉽고 빠르게 획득하고 있다. 또한, 최근에는 이와 같이 문서형태로 검색정보를 제공하는 기존의 검색엔진에 진일보하여 사용자의 질문을 분석하여 질문에 해당되는 답변을 제공하는 질의 응답 시스템이 개발되어 시행되고 있다.

이 때, 사용자가 의도하는 정보를 정확하게 획득하기 위해서는 답변의 기초가 되는 데이터가 충분하게 마련되어 체계적으로 정리되어 있어야 하며, 검색엔진을 통한 질문의 분석이 정확해야 이루어져야 한다. 따라서, 자동 답변의 신뢰성을 높이기 위해 질문의 형식을 단순화시키거나 정형화시키고 이를 이용하고자 하는 사용자 니즈가 증가하고 있으며, 데이터를 수집하고 분류하기 위한 여러 가지 방법들이 제시되고 있는 실정이다.

또한 정형화 된 질문과 답변을 통해 사용자에게 정보를 제공하는 과정에 있어서도, 동일한 질문인데도 불구하고 사용자에 따라 원하는 답변이 다른 경우가 종종 있다. 즉 질문에 담긴 사용자의 의도를 파악해서, 사용자가 원하는 정보를 맞춤형으로 제공할 필요가 있다.

본 발명이 해결하고자 하는 기술적 과제는 유사 사용자 매칭을 이용한 자동 답변 방법 및 시스템을 제공하는 것이다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

상기 기술적 과제를 해결하기 위한 본 발명의 일 실시예에 따른, 사용자로부터 입력된 질문을 분석하여 자동으로 답변을 생성하는 자동 답변 시스템은, 수집 데이터에 포함된 질문자 중 상기 사용자와 유사한 유사 사용자를 매칭하는 사용자 매칭부; 상기 수집 데이터에 포함된 질문 중 상기 입력된 질문과 유사한 유사 질문을 매칭하는 질문 매칭부; 및 상기 사용자와 상기 유사 사용자의 유사도를 나타내는 사용자 유사도와 상기 입력된 질문과 상기 유사 질문의 유사도를 나타내는 질문 유사도에 기초하여, 상기 유사 질문에 대한 답변을 상기 입력된 질문에 대한 답변으로 검출하는 답변 검출부; 를 포함할 수 있다.

바람직하게는, 수집 데이터에 포함된 복수의 사용자를 적어도 하나의 사용자 그룹으로 분류하는 사용자 분류부; 를 더 포함하고, 상기 사용자 매칭부는, 상기 분류된 사용자 그룹 중 상기 사용자와 유사한 사용자 그룹을 매칭하고, 상기 유사한 사용자 그룹에 속한 사용자에 대해서 상기 유사 사용자를 매칭할 수 있다.

바람직하게는, 수집 데이터에 포함된 복수의 질문에서 키워드를 제거하여, 정형화 질문을 생성하는 질문/답변 정형화부; 및 상기 사용자로부터 정형화 질문의 이용 여부를 입력받고, 정형화 질문을 이용하는 경우 선택된 정형화 질문에 대응하는 키워드를 입력받는 입력부;를 더 포함할 수 있다.

바람직하게는, 상기 답변 검출부는, 상기 질문 유사도와 상기 사용자 유사도를 합산한 값에 기초하여 답변의 우선 순위를 연산하고, 상기 답변의 우선 순위에 기초하여 상기 입력된 질문에 대한 답변을 검출할 수 있다.

바람직하게는, 상기 답변 검출부는, 상기 사용자의 이력에 기초하여 사용자 유사도 가중치를 산출하고, 상기 사용자 유사도 가중치를 이용하여 상기 우선 순위에 반영되는 상기 사용자 유사도를 보정할 수 있다.

바람직하게는, 상기 답변 검출부는, 상기 사용자의 이력이 많을수록 상기 사용자 유사도 가중치를 높게 적용할 수 있다.

바람직하게는, 상기 답변 검출부는, 상기 입력된 질문의 키워드에 기초하여 질문 유사도 가중치를 산출하고, 상기 질문 유사도 가중치를 이용하여 상기 우선 순위에 반영되는 상기 질문 유사도를 보정할 수 있다.

바람직하게는, 상기 답변 검출부는, 상기 유사한 질문에 대한 답변에 포함된 키워드의 빈도를 연산하고, 상기 키워드의 빈도가 특정 키워드에 편중될수록 상기 질문 유사도 가중치를 높게 적용할 수 있다.

바람직하게는, 상기 질문 매칭부는 상기 수집 데이터에 포함된 질문 중에서 상기 입력된 질문과 동일한 정형화 질문을 갖는 질문으로 상기 유사 질문을 매칭하고, 질문에 포함된 지명, 질문의 제목 및 질문의 내용 중 적어도 하나에 기초하여, 상기 질문 유사도를 산출할 수 있다.

바람직하게는, 상기 질문 매칭부는 상기 입력된 질문에 특정 키워드를 배제하기 위한 표현이 포함되어 있을 때, 상기 유사 질문으로부터 상기 특정 키워드를 포함하는 질문을 배제할 수 있다.

바람직하게는, 상기 질문 매칭부는 상기 질문 유사도를 산출할 때, 상기 질문에 포함된 지명에 대하여 상기 질문의 제목 및 상기 질문의 내용보다 큰 가중치를 부여할 수 있다.

바람직하게는, 상기 사용자 매칭부는 상기 유사 질문을 입력한 복수의 유사 사용자 후보에 대하여, 상기 사용자의 로그 수, 기준 로그 수 및 상기 사용자와 상기 복수의 유사 사용자 후보 간의 피어슨 상관계수에 기초하여, 상기 사용자 유사도를 산출할 수 있다.

상기 기술적 과제를 해결하기 위한 본 발명의 다른 실시예에 따른, 사용자로부터 입력된 질문을 분석하여 자동으로 답변을 생성하는 자동 답변 방법은, 수집 데이터에 포함된 질문자 중 상기 사용자와 유사한 유사 사용자를 매칭하는 사용자 매칭 단계; 상기 수집 데이터에 포함된 질문 중 상기 입력된 질문과 유사한 유사 질문을 매칭하는 질문 매칭 단계; 및 상기 사용자와 상기 유사 사용자의 유사도를 나타내는 사용자 유사도와 상기 입력된 질문과 상기 유사 질문의 유사도를 나타내는 질문 유사도에 기초하여, 상기 유사 질문에 대한 답변을 상기 입력된 질문에 대한 답변으로 검출하는 답변 검출 단계; 를 포함할 수 있다.

바람직하게는, 상기 질문 매칭 단계는 상기 수집 데이터에 포함된 질문 중에서 상기 입력된 질문과 동일한 정형화 질문을 갖는 질문으로 상기 유사 질문을 매칭하고, 질문에 포함된 지명, 질문의 제목 및 질문의 내용 중 적어도 하나에 기초하여, 상기 질문 유사도를 산출할 수 있다.

본 발명에 따른 효과는 다음과 같다.

본 발명에서 제안하는 자동 답변 방법을 이용하면 사용자 분석을 통해 유사 사용자 그룹을 매칭하고, 입력된 사용자 질문과 유사한 유사 질문을 검출하고, 검출된 유사 질문의 답변 내용을 입력된 질문에 대한 답변으로 검출하여 출력함으로써, 사용자가 의도하는 답변을 출력할 가능성이 높아지며, 사용자로 하여금 답변의 만족도 또는 신뢰성을 높일 수 있다.

또한, 유사 사용자 그룹과 유사 질문 및 답변을 이용함으로, 질문에 대한 답변의 획득 시간이 단축될 수 있으며, 실시간 질의 응답 시스템으로의 활용 가능성이 높아진다. 이러한 질의 응답 시스템을 통해서 사용자에게 여행 정보나 공연 정보 등을 제공할 수도 있다. 즉 사용자의 주관적인 평가가 반영되는 정보를 가공해서 맞춤형으로 정보를 제공할 수 있다.

본 발명의 효과들은 이상에서 언급한 효과들로 제한되지 않으며, 언급되지 않은 또 다른 효과들은 아래의 기재로부터 통상의 기술자에게 명확하게 이해될 수 있을 것이다.

도 1은 질의 응답 시스템에서 질문의 종류를 설명하기 위한 도면이다.

도 2는 본 발명의 일 실시예에 따른 자동 답변 시스템을 설명하기 위한 도면이다.

도 3은 본 발명의 일 실시예에 따른 자동 답변 시스템에서 자동으로 제공할 답변을 선택하는 과정을 보다 자세히 설명하기 위한 도면이다.

도 4 내지 도 7은 본 발명의 다른 실시예에 따른 여행 정보 자동 답변 시스템을 설명하기 위한 도면이다.

도 8 내지 도 9는 본 발명의 일 실시예에 따른 자동 답변 제공 방법을 설명하기 위한 순서도이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.

제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.

본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.

도 1을 참고하면 두 종류의 질문과 답변(101, 102)가 도시되어 있다. 하나는 대한민국의 수도를 묻는 질문(101)이며, 다른 하나는 서울 이외에 여행 갈만한 지역을 묻는 질문(102)이다. 두 질문의 답변에서 확인할 수 있듯이, 대한민국의 수도를 묻는 질문(101)은 전반적으로 답변이 유사한 내용이다. 이에 비해서 여행 지역을 묻는 질문(102)은 다양한 답변이 등록된 것을 볼 수 있다.

이 두 질문의 차이점은 하나는 객관적인 사실을 묻는 질문(101)이며, 다른 하나는 주관적인 평가를 묻는 질문(102)이라는 점이다. 객관적인 사실을 묻는 질문(101)는 질문자나 답변자와 무관하게 답변의 내용이 정해지는 경우가 많으나, 주관적인 평가를 묻는 질문(102)은 질문자에 따라서 원하는 답변이 다른 경우가 많다.

"홍대 근처 맛집을 추천해주세요."와 같은 질문이나 "요새 개봉한 영화 중에 볼만한 영화는 뭐가 있나요?"와 같은 질문은 질문자에 따라서 원하는 답변이 다를 수 있기 때문에, 답변에 대한 만족도가 달라질 수 밖에 없다. 그러므로 질의 응답 시스템에서는 고객의 만족도를 높이기 위해서는 사용자의 성향을 파악하고 해당 사용자의 질의에 보다 적절한 답변을 추천할 필요가 있다.

도 2를 참고하면, 본 발명의 일 실시예에 따른 자동 답변 시스템(200)은 질문/답변 수집부(210), 질문/답변 정형화부(220), 질문 매칭부(230), 사용자 정보 수집부(260), 사용자 분류부(270), 사용자 매칭부(280) 및 답변 검출부(290)를 포함할 수 있다.

질문/답변 수집부(210)와 질문/답변 정형화부(220)는 사전에 Q&A 시스템(100)에서 질문과 답변을 수집해서 이를 전처리 하여 정형화 질문을 생성하는 과정을 담당한다. 이하 발명의 이해를 돕기 위해서 Q&A 시스템(100)에서 수집한 질문과 답변을 비정형화 질문이라 칭하기로 한다.

Q&A 시스템(100)이란 사용자들의 질문과 답변이 등록된 시스템이다. 예를 들면, 네이버의 지식인(http://kin.naver.com), 다음의 팁(http://tip.daum.net), 야후의 앤서즈(http://answers.yahoo.com) 등과 같은 서비스가 Q&A 시스템(100)의 일 예이다. 그러나 포털 사이트의 이러한 Q&A 서비스 외에도 Q&A 시스템(100)은 질문과 답변 형태의 정보가 저장된 것을 모두 포함하는 개념이다. 그런 의미에서 SNS(Social network service)도 Q&A 시스템(100)의 일 예가 될 수 있다. 예를 들면 트위터(http://twitter.com)의 트윗(tweet)도 질의/응답 형태로 트윗이 등록된 경우라면 Q&A 시스템(100)이라 볼 수 있다. 그 외에도 블로그나 특정 회사의 홈페이지, 뉴스 등등 다양한 데이터들이 Q&A 시스템(100)의 일 예가 될 수 있다. 즉 질문과 답변의 형태로 추출이 가능한 데이터가 있는 곳이라면 모두 Q&A 시스템(100)의 예가 될 수 있다.

이러한 Q&A 시스템(100)은 자동 답변 시스템(200)을 운영하는 주체가 운영하는 것일 수도 있고 외부의 시스템일 수도 있다. 동일한 운영 주체가 Q&A 시스템(100)과 자동 답변 시스템(200)은 운영하는 경우에는, 한 운영 주체가 사용자가 서로 질문과 답변을 등록할 수 있는 Q&A 시스템(100)을 운영하는 한편, Q&A 시스템(100)에 등록된 질문과 답변을 정형화 한 후, 다른 사용자들이 유사한 질문을 물어보면 자동 답변 시스템(200)을 통해서 정형화 질문의 답변을 매칭해서 다른 사용자들이 답변을 하지 않더라도 자동으로 답변을 제공할 수 있다.

반면에 자동 답변 시스템(200)을 운영하는 주체가 Q&A 시스템(100)의 운영 주체와 다른 경우에는, 질문/답변 수집부(210)에서 외부의 Q&A 시스템(100)의 데이터를 크롤링(crawling) 한 후, 질문/답변 정형화부(220)가 수집한 데이터를 정형화하여 자동 답변 서비스를 제공할 수 있다. 이처럼 내부 시스템 또는 외부 시스템에서 비정형화 질문을 수집한 후에는 이를 정형화 하는 과정이 필요하다.

정형화 질문을 생성하는 과정은 비정형화 질문에서 키워드를 추출하고, 키워드를 제외한 나머지 부분이 유사한 질문을 클러스터링 하여 정형화 질문을 만들 수 있다. 이를 위해서 다양한 자연어 처리 알고리즘이 사용될 수 있다. 질문의 문장에서 형태소 분석기를 통해 단어를 추출하고, 단어의 품사를 판단하고, 그 중에서 명사나 동사와 같은 중요 품사를 기준으로 키워드로 추출할 수 있다.

예를 들면 "홍대역 근처 족발집 맛집 추천해주세요." "강남역 근처 횟집 추천해주세요." 등과 같은 비정형화 질문을 수집하고, 첫번째 문장에서는 "홍대역", "근처", "족발집", "맛집", "추천"을 단어로 추출하고, 두번째 문장에서는 "강남역", "근처", "횟집", "추천"을 단어로 추출하고, 키워드를 제거하고 남은 문장을 클러스터링 하는 과정을 통해 질문을 정형화 하면 "OO 근처의 OO 맛집을 추천해주세요"와 같은 정형화 질문을 생성할 수 있다.

정형화된 질문을 생성하면 사용자에게 질문을 하는 과정에서도 편의성을 제공할 수 있고, 답변을 제공하는 과정에서도 만족도를 높일 수 있다. 키워드를 생략한 정형화 질문을 사용자에게 제공하면 사용자는 정형화 질문에서 입력이 필요한 키워드 부분만 채우는 것만으로도 질문이 가능하다. 즉 사용자가 "OO 근처의 OO 맛집을 추천해주세요"와 같은 정형화 질문을 선택한 후 키워드로 "강남", "스파게티"와 같은 키워드를 입력하는 것만으로도 질문이 가능하다. 또는 동일한 정형화 질문을 선택한 후 키워드로 "홍대", "일식"과 같은 키워드를 입력하는 것 만으로도 간단하게 질문이 완성된다.

또한 정형화 질문을 이용함으로써 질문의 분석의 정확도를 높일 수 있다. 사용자가 비정형 질문을 통해서도 자동 답변 시스템(200)을 이용할 수 있지만, 정형화 질문을 통해서 자동 답변 시스템(200)을 이용하는 경우에는, 질문에 대한 분석의 정확도가 높아짐에 따라 사용자가 의도하는 답변을 제공할 가능성이 높아지며 이를 통해 사용자의 만족도와 신뢰성을 높일 수 있다. 즉 정형화 질문을 이용하는 경우 후술할 질문 유사도가 사전에 어느 정도 연산이 되어 있기 때문에 자동 답변의 정확도가 더 높아지는 효과가 있다.

또한, 기 생성된 정형화 질문을 이용함으로써, 질문을 분석하는데 소요되는 시간을 줄일 수 있으며, 질문에 대한 답변의 획득 시간이 단축될 수 있다. 이를 통해, 실시간 질의 응답 시스템으로의 활용 가능성이 높아질 수 있다.

그리고 비정형화 질문을 이용하여 정형화 질문을 생성할 때, 사용자들이 보다 정형화 질문의 탐색이 용이하도록 정형화 질문을 카테고리로 나누어서 생성할 수 있다. 사용자가 자신이 질문하고 싶은 카테고리를 선택하고, 해당 카테고리에 속한 정형화 질문 중 어느 한 질문을 선택한 후 비어 있는 키워드를 입력하는 방식으로 간단하게 질문을 할 수 있다.

다만, 정형화 질문을 생성하는 과정은 필수적인 것은 아니며, 사용자는 자동 답변 시스템(200)에 "신림역 근처 분위기 좋은 카페 알려주세요"와 같은 비정형화 질문을 직접 입력할 수도 있다. 이렇게 비정형화 질문을 입력하더라도 키워드를 추출하고 자동 답변 시스템(200)에 저장된 질문-답변과 매칭을 하여 사용자에게 자동으로 답변을 제공할 수 있다.

물론 사전에 데이터베이스에 등록된 질문과 자동 답변 시스템(200)에 사용자가 새롭게 입력한 질문 각각에 대해서 n:n 관계로 유사한 질문을 매칭할 수 있으나, 이 경우에는 많은 연산을 필요로 하게 된다. 그러므로 실시간성을 확보하기 위해서 사전에 질문의 그룹을 생성하고, 사용자의 질문과 질문의 그룹을 매칭해서 유사한 질문을 선별할 수 있다. 이때 질문의 그룹이 바로 정형화 질문에 해당한다.

앞서 설명한 것처럼 질문/답변 수집부(210)와 질문/답변 정형화부(220)에서 비정형화 질문을 수집해서 정형화 질문을 생성하는 전처리 과정은 필수적인 과정은 아니기 때문에, 도 2에서 질문/답변 수집부(210)와 질문/답변 정형화부(220)를 점선으로 묶어서 표시하였다. 다만, 자동 답변 시스템(200)의 사용자 편의성과 만족도를 높이기 위해서는 질문을 정형화 하는 과정을 수행하는 것이 바람직하다.

질문/답변 수집부(210)가 내부/외부의 Q&A 시스템(100)으로부터 질문과 답변을 수집하고 이를 자동 답변 시스템(200)의 데이터베이스(미도시)에 저장하면, 추후에 질문자가 단말기(300)를 통해서 정형화 질문 또는 비정형화 질문을 하면 다른 사용자의 답변을 기다리지 않아도 데이터베이스 저장된 기존의 질문과 유사도를 측정하여 자동으로 답변을 제공할 수 있다.

이때 앞서 도 1에서 설명한 것처럼 객관적인 사실을 묻는 질문(101)인지 주관적인 평가를 묻는 질문(102)인지에 따라 동일한 질문에도 사용자가 원하는 답변이 달라질 수 있음을 살펴보았다. 그러므로 데이터베이스에 저장된 질문-답변의 데이터와 질문자가 전체를 입력한 비정형화 질문 또는 키워드만 입력한 정형화 질문을 매칭하여 답변을 자동으로 제공할 때 단순히 질문만 매칭할 것이 아니라 사용자의 성향을 파악하고 답변을 매칭할 필요가 있다.

사용자의 성향을 파악하기 위해서는 사용자 정보 수집부(260)가 사용자의 개인 정보와 사용자의 이력들을 수집할 수 있다. 사용자의 개인 정보는 사용자의 성별, 나이, 주거 지역 등과 같은 정보를 의미하며, 사용자 이력이란 자동 답변 시스템(200)을 이용한 사용자들의 활동 로그일 수 있다. 즉 사용자가 열람한 컨텐츠, 사용자가 조회한 질문과 답변, 사용자가 이전에 다른 사용자에게 답변한 내용 등이 될 수 있다.

사용자 분류부(270)는 수집된 사용자 정보에 기초하여 사용자를 클러스터링하여 사용자 그룹을 생성하고, 동일한 그룹에 속한 사용자들을 비교하여 사용자를 유사한 성향의 사용자들과 매칭할 수 있다. 예를 들면 영화 정보를 제공하는 자동 답변 시스템(200)에서는 사용자들의 영화 관람 이력, 사용자들이 영화에 평점을 남긴 이력 등을 수집하고, 액션 영화를 좋아하는 사용자의 그룹, 멜로 영화를 좋아하는 사용자의 그룹, 스릴러 영화를 좋아하는 사용자의 그룹 등을 분류할 수 있다. 그리고 사용자가 "요즘 볼 만한 영화는 뭐가 있나요?"라는 질문을 하면 각 그룹에 따라 동일한 질문임에도 서로 다른 답변을 제공할 수 있다.

물론 사용자 각각에 대해서 n:n 관계로 유사한 사용자를 매칭할 수 있으나, 이 경우에는 많은 연산을 필요로 하게 된다. 그러므로 실시간성을 확보하기 위해서 사전에 사용자의 그룹을 생성하고, 질문을 한 사용자와 사용자의 그룹을 매칭해서 사용자와 유사한 성향의 사용자를 선별할 수 있다.

앞서 질문/답변을 수집하고 이를 정형화 하는 과정이 전처리 과정인 것처럼, 사용자의 정보를 수집하고 사용자를 분류하는 과정도 전처리 과정으로 수행될 수 있다. 다만, 사용자의 정보를 수집하고 사용자를 분류하는 과정은 필수적인 과정이기 때문에, 도 2에서 사용자 정보 수집부(260)와 사용자 분류부(270)가 실선으로 묶음 처리가 된 것을 볼 수 있다.

이러한 질문에 대한 전처리 과정과 사용자에 대한 전처리 과정을 수행한 후, 질문자 단말기(300)를 통해서 사용자의 질문이 등록되면, 사용자 매칭부(280)에서 질문을 한 사용자와 사전에 분류가 된 사용자 그룹을 매칭하고, 질문 매칭부(230)에서는 사용자가 한 질문과 사전에 수집된 질문을 매칭한다.

질문 매칭부(230)에서 매칭한 질문 유사도와 사용자 매칭부(280)에서 매칭한 사용자 유사도에 기초해서 답변 검출부(290)에서 답변의 우선 순위를 연산한다. 그리고 최종으로 질문자에게 자동으로 제공할 답변을 선별할 수 있다. 이때 우선 순위가 가장 높은 답변을 하나 선정해서 제공할 수도 있고, 또는 복수 개의 답변을 제공하되 우선 순위에 따라 복수 개의 답변을 정렬해서 제공할 수 있다.

이 과정에서 답변의 우선 순위를 연산할 때, 질문 유사도 가중치와 사용자 유사도 가중치에 기초하여, 질문 유사도가 더 많이 반영되도록 조절하거나 사용자 유사도가 더 많이 반영되도록 조절할 수 있다. 각각 어느 경우에 질문 유사도를 더 반영할지 사용자 유사도를 더 반영할지에 대해서는 추후 도 3에서 보다 자세히 설명하기로 한다.

도 2를 통해서 본 발명에서 제안하는 자동 답변 시스템(200)에 대해서 살펴보았다. 본 발명에서 제안하는 자동 답변 시스템(200)은 사전에 Q&A 시스템(100)을 통해서 질문-답변의 데이터를 수집해서 데이터베이스에 저장한다. 이 과정에서 사용자의 편의성과 만족도를 높이기 위해서 질문을 정형화 하는 과정을 선택적으로 수행할 수 있다. 이렇게 질문에 대한 전처리를 수행하는 것과는 별개로 질문을 한 사용자 정보를 수집하고 사용자를 복수 개의 그룹으로 분류할 수 있다.

다음으로 특정 사용자가 질문을 입력하면 입력된 질문과 유사한 질문을 데이터베이스에서 조회하고, 해당 질문자와 유사한 성향의 사용자의 그룹을 조회한다. 그 후 데이터베이스에 저장된 질문과 입력된 질문 사이의 질문 유사도를 연산하고, 데이터베이스에 저장된 질문을 한 사용자와 해당 질문자 사이의 사용자 유사도를 연산한다. 그리고 질문 유사도와 사용자 유사도에 기초하여 답변의 우선 순위를 연산하고 이에 기초해서 자동으로 답변을 제공한다.

이때, 답변을 선택하기 위한 우선 순위를 연산하는 과정이 도 3에 도시되어 있다. 도 3을 참고하면, 주관적 평가를 묻는 질문(102)으로 "서울 말고 여행할 수 있는 지역을 추천해주세요"라는 질문이 사전에 데이터베이스에 저장되어 있다. 데이터베이스에 저장된 해당 질문을 한 사용자는 사용자 A이며, Q&A 시스템(100)에서 사용자 A의 질문에 대해 총 3명의 사용자 B, C, D가 각각 답변을 하였다. 그리고 사용자 A는 각각의 답변 중에서 사용자 C가 한 "춘천이 좋습니다~"라는 답변을 선택한 것을 볼 수 있다.

이와 같은 질문-답변 데이터가 자동 답변을 위해서 데이터베이스에 저장되어 있는 상황에서 사용자 E가 "서울 근교 여행지를 추천해주세요"라는 질문을 했다고 가정해보자. 이 경우 자동 답변 시스템(200)에서는 사용자 E가 속한 그룹과 데이터베이스에 저장된 질문들의 질문자의 그룹을 비교해서 사용자 그룹을 매칭하고, 질문자와 매칭된 사용자 그룹에 속한 질문자를 비교해서 사용자 유사도를 연산하고, 사용자 E가 한 질문과 데이터베이스에 저장된 질문들을 비교해서 질문 유사도를 연산할 수 있다. 다음으로 답변 검출부(290)가 사용자 유사도와 질문 유사도에 기초해서 답변의 우선 순위를 연산한다. 도 3의 예에서는 사용자 유사도와 질문 유사도를 단순히 합산하는 방식으로 우선 순위를 연산하는 경우를 도시하였다.

다만, 도 3의 합산 외에도 다양한 수식에 의해서 우선 순위를 연산할 수 있다. 이 과정에서 사용자 유사도 가중치와 질문 유사도 가중치를 이용하여 우선 순위를 연산할 수도 있다. 이를 수학식으로 표현하면 다음과 같다.

[수학식 1]

답변 우선 순위 = 사용자 유사도 * 사용자 유사도 가중치 + 질문 유사도 * 질문 유사도 가중치

다만, 수학식 1 또한 발명의 이해를 돕기 위한 일 예일뿐, 발명을 제한하고자 하는 것은 아니므로 다른 방식으로 사용자 유사도 가중치와 질문 유사도 가중치를 반영할 수 있다. 예를 들면 사용자 유사도와 사용자 유사도 가중치를 곱하는 방식이 아니라 사용자 유사도에 사용자 유사도 가중치만큼 지수승을 해서 반영할 수도 있다. 그 경우에는 다음의 수학식 2와 같이 표현될 것이다.

[수학식 2]

답변 우선 순위 = 사용자 유사도 ^ 사용자 유사도 가중치 + 질문 유사도 ^ 질문 유사도 가중치

이처럼 다양한 수식에 의해서 사용자 유사도와 질문 유사도에 기초하여 우선 순위를 연산하고 우선 순위에 기초해서 자동으로 답변을 제공할 수 있다. 도 3을 참고하면 "서울 근교 여행지를 추천해주세요"라는 사용자 E의 질문에 대해서 사용자 A가 선택한 답변인 사용자 C의 답변에 기초해서 자동 답변 시스템(200)이 "춘천"이라는 자동 답변을 제공하는 것을 볼 수 있다.

이때 각각 연산된 사용자 유사도와 질문 유사도에 가중치를 적용하여 반영할 수 있다. 사용자 유사도 가중치는 연산된 사용자 유사도의 신뢰성을 나타내는 지표이고, 질문 유사도 가중치는 연산된 질문 유사도의 신뢰성을 나타내는 지표이다.

보다 자세히 설명하면, 앞서 도 1에서 살펴본 것처럼 질문이 객관적인 사실을 묻는 질문(101)인지 주관적인 평가를 묻는 질문(102)인지에 따라 질문 유사도의 가중치를 다르게 적용할 수 있다. 객관적인 사실을 묻는 질문(101)의 경우에는 사용자에 따라 답변이 다를 필요성이 적으므로, 질문 유사도 가중치를 높게 적용하여 자동 답변을 제공할 수 있다.

그리고 사용자 유사도 가중치의 경우에는, 앞서 사용자의 개인 정보나 사용자의 이력에 기초해서 사용자를 그룹으로 나누고 매칭하는 것을 설명하였다. 이때 사용자에 관한 정보가 많으면 많을수록, 사용자의 이력이 많으면 많을수록 매칭에 대한 신뢰성이 높아질 수 있다. 그러므로 사용자의 이력이 많은 경우에는 사용자 유사도 가중치를 높게 적용하여 자동 답변을 제공할 수 있다.

이러한 질문 매칭 및 사용자 매칭과 각각의 가중치를 통해서 사용자가 동일한 질문을 하더라도, 객관적인 사실을 묻는 질문(101)의 경우에는 대부분의 질문자들에게 동일하게 자동 답변을 제공하고, 주관적인 평가를 묻는 질문(102)의 경우에는 각 사용자의 성향에 맞는 서로 다른 답변을 제공하는 것이 가능하다. 이를 통해서 사용자의 서비스 만족도를 높일 수 있다. 특히 기존의 Q&A 시스템(100)이 다른 사용자의 답변을 기다려야 하는 시스템인데 반해서 자동 답변 시스템(200)은 실시간으로 답변의 제공이 가능하다는 장점이 있다.

이상으로 본 발명에서 제안하는 자동 답변 시스템(200)에 대해서 살펴보았다. 특히, 본 발명에서 제안하는 자동 답변 시스템(200)은 객관적 사실을 묻는 질문(101)보다 주관적 평가를 묻는 질문(102)을 자동으로 답변하는데 보다 유용할 수 있다. 다음은 본 발명에서 대해서 보다 자세히 설명하기 위해서 여행 정보 자동 답변 시스템이라는 구체적인 예와 함께 설명을 계속하기로 한다.

여행 정보는 앞서 설명한 주관적인 평가를 묻는 질문(102)이 가장 많이 적용될 수 있는 분야이다. 여행지, 숙박 업소 등 여행과 관련된 질문에는 각 사용자의 성향에 따라 다른 답변이 필요하기 때문이다. 본 발명에서는 그 구체적인 예로 중화권 여행객이 한국을 여행하면서 필요한 여행 정보를 자동 답변을 통해서 제공받는 과정을 살펴보기로 한다.

[규칙 제91조에 의한 정정 07.02.2019]　

[규칙 제91조에 의한 정정 07.02.2019]　
표 1은 중문으로 된 질문/답변을 얻을 수 있는 Q&A 시스템(100)의 예이다. 표 1을 참고하면,
총 7개의 Q&A 시스템(100)을 통해서 질문/답변 수집부(210)가 중문으로 된 한국 여행과 관련된
질문과 답변을 약 28만개 정도 수집한 것을 볼 수 있다. Q&A 시스템(100)이 외부 API를 제공하는
경우에는 해당 API를 통해서, 외부 API를 제공하지 않는 경우에는 웹 크롤러를 통해서 데이터를
수집할 수 있다.

[규칙 제91조에 의한 정정 07.02.2019]　
이렇게 수집된 28만 여개의 빅데이터를 분석하기 위해서는 구글의
BigQuery(https://cloud.google.com/bigquery)와 같은 서비스를 이용할 수 있다. 빅데이터를
분석하여 질문에서 키워드를 추출하고, 유사한 질문을 클러스터링하고, 검색을 위해서 색인을 구축할
수 있다.

[규칙 제91조에 의한 정정 07.02.2019]　
또한 키워드를 제거한 정형화 질문을 생성하여 사용자 편의성을 강화할 수 있다. 도 4의
상단을 참고하면, 질문을 정형화 하는 구체적인 과정을 살펴 볼 수 있다. "홍대 부근에 맵지 않은
맛집 추천해주세요"라는 중문 질문을 자연어 분석해서 주요 키워드와 불필요한 키워드를 분리한다.
그리고, 주요 키워드는 색인을 해서 질문을 조회하고 질문 유사도를 연산할 때 사용하고, 불필요
키워드는 "OO 부근 OO 맛집 추천해주세요"와 같은 정형화 질문을 생성할 때 사용할 수 있다.

[규칙 제91조에 의한 정정 07.02.2019]　
도 4의 하단을 참고하면, 정형화 질문이 카테고리로 나뉘어져 사용자의 단말(300)에
어플리케이션을 통해서 제공되는 것을 볼 수 있다. 여행 정보를 제공하는 서비스이므로 여행지, 맛집,
숙소, 위치, 쇼핑, 뷰티, 문화, 기타 등과 같은 카테고리를 통해 정형화 질문을 분류하고, 사용자는
키워드를 입력하는 것만으로도 간단히 질문을 하도록 편의성을 제공할 수 있다. 이때 정형화 질문은
지속적으로 갱신이 가능하다.

[규칙 제91조에 의한 정정 07.02.2019]　
또한 정형화 질문을 사용자에게 제공할 때 개인화가 가능하다. 자동 답변 시스템(200)을
이용하는 사용자가 주로 관심 있어 하는 카테고리의 정형화 질문을 우선해서 사용자에게 제공할 수
있다. 또한 동일한 카테고리에 속한 정형화 질문이 복수 개 있을 때, 어느 정형화 질문을 우선해서
사용자에게 제공할지도 개인화가 가능하다. 이를 위해서 사용자가 가입을 할 때 관심 분야를 입력
받을 수 있다. 또는 자동 답변 시스템(200)이 단순히 자동 답변 서비스만 제공하는 것이 아니라 여행
정보를 제공하는 포털인 경우에는 사용자가 포털 내에서 어떠한 여행 정보를 주로 열람하였는지를
분석하여 사용자가 관심 있어 하는 분야를 파악할 수 있다. 또는 사용자가 주로 이용한 정형화
질문을 사용자의 관심으로 보고 이를 기준으로 정형화 질문을 정렬해서 제공할 수도 있다. 또는
사용자가 주로 조회한 Q&A 시스템(100)의 질문/답변의 내용을 분석하여 사용자의 관심 분야를 파악할
수 있다.

[규칙 제91조에 의한 정정 07.02.2019]　
다음으로 질문에 관한 전처리 외에 사용자에 관한 전처리를 수행한다. 예를 들어 여행에
관한 정보를 제공하는 자동 답변 시스템(200)은 여행 정보 포털에서 서비스의 일환으로 제공될 수
있다. 이때 여행 정보 포털에 가입한 사용자의 성별, 나이, 주거지역 등과 같은 개인 정보뿐만 아니라,
해당 여행 정보 포털에서 제공하는 컨텐츠 중에서 어떤 컨텐츠를 사용자가 열람하였는지와 같은
이력 정보를 수집할 수 있다. 맛집에 관한 컨텐츠를 주로 검색하고 조회하는 사용자와 쇼핑에 관한
컨텐츠를 주로 검색하고 조회하는 사용자의 성향은 다를 수 있기 때문이다.

[규칙 제91조에 의한 정정 07.02.2019]　
이때 수집할 수 있는 사용자의 정보를 표로 예시하면 다음의 표 2와 같다. 다만, 이는
발명의 이해를 돕기 위한 예시일 뿐이며, 이와 같은 사용자 정보로 제한하고자 하는 것은 아니다. 즉,
표 2의 예시 외에도 사용자의 단말(300)의 운영체제, OA 업데이트 버전 정보 등도 사용자의 성향을
분석하는데 이용할 수 있다.

수집 데이터	데이터 포함 내용
answer	- 작성자의 아이디- 답변작성시간
answer_comment	- 댓글작성자- 댓글 작성 시간
answer_like	- 답변 좋아요한 사람과 답변
answer_modify_log	- 답변 수정 시간
attendance	- 출석 시간
contents	- 콘텐츠 위치- 작성시간
contents_comment	- 댓글 작성 시간
contents_like	- 좋아요한 유저와 콘텐츠
contents_stored	- 저장한 유저와 콘텐츠
contents_view_log	- 콘텐츠 본 유저와 콘텐츠- 본 시간
event_comment	- 댓글 작성 유저와 이벤트- 댓글 작성 시간
event_like	- 이벤트 좋아요한 유저와 이벤트
event_participation	- 이벤트 참가하는 유저와 이벤트- 참가유저 실명- 참가유저 생일- 참가유저 성별- 참가유저 국가- 참가유저 여권번호- 참가유저 폰번호- 참가유저 이메일- 참가신청 일시
event_stored	- 이벤트 저장한 유저와 이벤트
event_view_log	- 이벤트 본 유저와 이벤트- 이벤트 본 시간
exp_log	- 경험치 변동있는 유저- 경험치- 경험치 변동 시간
inquiry	- 문의한 유저- 이메일- 문의내용
point_log	- 포인트 변동 유저와 변동 포인트- 포인트 변동 시간
product_comment	- 댓글 작성 아이디- 댓글 내용- 댓글 작성 시간
question	- 질문 작성자- 작성 질문 디렉토리- 질문 내용- 질문 위치- 작성 시간- 질문 채택 시간- 정형화 타입
question_answer	- 질문 채택 여부
question_detail_1_0	- 정형화 키워드
question_detail_2_0	- 정형화 키워드
question_detail_3_0	- 정형화 키워드
question_detail_4_0	- 정형화 키워드
question_detail_5_0	- 정형화 키워드
question_detail_6_0	- 정형화 키워드
question_detail_7_0	- 정형화 키워드
question_detail_etc	- 질문 제목
question_modify_log	- 수정한 질문과 수정 시간
question_stored	- 저장된 질문과 저장한 유저
question_view_log	- 질문 본 유저와 본 질문- 질문 시간- 질문 볼 당시 해당 질문 채택여부
search_log	- 검색한 유저와 검색 키워드- 검색 시간
user_report	- 신고한 유저와 신고된 답변- 신고 내용- 신고 타입
wenwo_user	- 이름- 닉네임- 프로필 이미지- 레벨- 가입일시- 이메일- 성별- 국적- 자기소개- 안드로이드 ios 여부- 신분
wenwo_user_follow	- 팔로우한 유저와 받은유저
wenwo_user_login_log	- 로그인한 유저와 시간
wenwo_user_title	- 타이틀 획득 유저와 타이틀- 타이틀 획득 시간- 타이틀 설정 여부

표 2에 예시된 사용자의 이력 외에도 사용자에 관한 다양한 정보가 사용자 수집될 수 있음을 물론이다. 사용자 정보 수집부(260)가 사용자 정보를 수집하면 사용자 분류부(270)는 기계학습을 통해서 사용자를 분류할 수 있다. 기계학습을 통해서 표 2에 예시된 다양한 특징(feature) 중에서 사용자 분류에 사용할 특징을 선별할 수 있다.

질문에 대한 전처리 과정과 사용자에 대한 전처리 과정을 마치면, 자동 답변 시스템(200)을 통해서 서비스를 제공할 수 있다. 사용자가 단말(300)에 설치된 어플리케이션을 통해서 정형화 질문을 선택하고 특정 키워드를 입력하면 질문이 완성된다. 또는 정형화 질문을 선택하기 않고 자유롭게 비정형화 질문을 입력할 수도 있다.

이때 도 5를 참고하면, 사용자가 한 질문에서 형태소를 분석하고 키워드를 추출하여 기존에 데이터베이스에 등록된 28만여개의 질문의 키워드와 비교해서 질문 유사도를 연산하는 것을 볼 수 있다. 키워드가 유사할수록 질문이 유사하기 때문에 각 질문과의 키워드를 비교하면 질문 유사도의 연산이 가능하다.

이 과정에서 일래스틱 서치(Elastic Search Server)를 이용할 수 있다. 일래스틱 서치는 루씬 기반의 검색 엔진이다. HTTP 웹 인터페이스와 스키마에서 자유로운 JSON 문서와 함께 분산 멀티테넌트 지원 전문 검색 엔진을 제공한다. 일래스틱 서치는 자바로 개발되어 있으며 아파치 라이선스 조항에 의거하여 오픈 소스로 출시되어 있다. 일래스틱 서치는 로그스태시(Logstash)라는 이름의 데이터 수집 및 로그 파싱 엔진, 그리고 키바나(Kibana)라는 이름의 분석 및 시각화 플랫폼과 함께 개발되어 있다. 이 3개의 제품들은 연동 솔루션으로 사용할 목적으로 설계되어 있으며 이를 "일래스틱 스택"(Elastic Stack, 과거 이름: ELK 스택)으로 부른다.

이 과정에서 키워드의 매칭 외에도 질문 유사도에 다양한 항목들을 반영할 수 있다. 예를 들면 질문의 조회수가 높은 질문은 질문의 조회수가 낮은 경우보다 질문 유사도를 높게 연산할 수 있다. 질문의 조회수가 높다는 것은 양질의 질문과 답변일 확률이 높기 때문이다. 그 외에도 질문과 답변에 사용자들이 남긴 "좋아요"와 같은 공감수, 질문에 달린 댓글 수에 따라서 질문 유사도를 다르게 적용할 수 있다. 또한 질문과 답변이 작성될 일시가 현재 시점으로부터 얼마나 오래되었는지에 따라서 질문 유사도를 다르게 적용할 수 있다. 오래전에 질문-답변이 있었던 경우에는 그 사이에 관련된 여행 정보가 변경될 수도 있기 때문에 오래된 질문-답변일수록 질문 유사도를 낮게 연산할 수 있다. 또한 질문자가 해당 질문을 열람하였는지 여부를 기준으로 질문 유사도를 다르게 적용할 수 있다. 이미 해당 질문을 열람하였음에도 질문을 다시 한 경우라면 해당 질문의 답변은 질문자가 원하는 답변이 아닐 경우가 많기 때문이다.

다음으로 도 6을 참고하면, 사용자 유사도를 연산하는 것을 볼 수 잇다. 구체적으로는 질문을 작성한 사용자의 성별, 국가, 신분, 로그인 정보, 컨텐츠 열람 정보 등을 이용해서 질문 작성자의 그것과 비교한다. 이때 연산의 편의를 위해서 질문자와 데이터베이스 저장된 질문 작성자를 1:1로 비교해서 사용자 유사도를 연산하는 것이 아니라, 우선 사용자 그룹을 먼저 확인하고 질문자와 유사한 성향의 그룹에 속한 질문 작성자만 조회하여 사용자 유사도를 연산할 수 있다. 사용자 그룹을 먼저 비교함으로써, 자동 답변 시스템의 실시간성을 높일 수 있다.

이 과정에서 피어슨 상관 관계 분석을 이용하여 사용자 유사도를 연산할 수 있다. 피어슨 상관 관계 분석은 두 계량형 변수 사이의 선형 관계를 평가한다. 한 변수의 변화가 다른 변수의 변화에 비례적으로 연관되어 있는 경우 선형 관계가 있으므로 이를 이용할 수 있다. 다만, 이는 사용자 유사도를 연산하기 위한 일 예이며, 이 외에도 다른 상관 관계 분석 방법의 적용이 가능하다.

도 5 내지 도 6에 예시된 과정을 통해서 질문 유사도와 사용자 유사도를 연산한 후에는 각각 질문 유사도 가중치와 사용자 유사도 가중치를 반영하여 답변의 우선 순위를 연산할 수 있다. 여기서 사용자 유사도 가중치는 사용자 유사도의 신뢰성을 나타내는 지표이다. 앞서 사용자에 관한 정보를 수집해서 사용자 유사도를 연산하는데 사용하는 것으로 설명하였다. 이때, 사용자의 이력이 많이 쌓인 사용자일수록 연산된 사용자 유사도의 신뢰도가 높다고 볼 수 있다. 그런 의미에서 사용자 유사도 가중치는 다음과 같은 수식에 의해 계산할 수 있다.

[수학식 3]

사용자 유사도 가중치 = 해당 사용자의 로그 수 / 기준 로그 수

여기서 기준 로그 수는 임의의 값일 수 있다. 예를 들면 사용자의 성향을 파악하기에 충분한 로그 수라고 생각되는 값으로, 500과 같은 값을 설정할 수 있다. 그러나 바람직하게는 사용자의 로그 수 분포를 분석하여 통계값을 기준 로그 수로 삼을 수 있다. 예를 들면 사용자의 로그 수 평균값을 기준 로그 수로 정할 수 있다. 여행 정보 포털에 가입한 사용자의 로그 수의 평균이 약 430이고, 해당 질문을 한 사용자의 로그 수는 250인 경우에는, 해당 사용자는 사용자의 성향을 파악할만큼 충분한 사용자 정보가 쌓인 경우가 아니므로 연산된 사용자 유사도에 250/430 = 0.58과 같은 사용자 유사도 가중치를 곱하여 사용자 유사도를 우선 순위에 반영할 수 있다. 수학식 3에서도 볼 수 있듯이 사용자 유사도 가중치는 0~1 사이의 값이 주를 이루나 1을 초과하는 값을 가질 수도 있다.

다음으로 질문 유사도 가중치에 대해서 설명하면, 질문 유사도 가중치도 마찬가지로 질문 유사도의 신뢰성을 나타내는 지표이다. 사용자 유사도가 질문에 대한 주관적인 평가를 반영하기 위해 만든 지표이므로 질문 유사도는 질문이 객관적인 사실은 묻는 질문일수록 답변 우선 순위에 높게 반영되어야 하는 지표이다. 즉 도 1에서 설명한 객관적인 사실을 묻는 질문(101)인지 주관적인 평가를 묻는 질문(102)인지에 따라, 객관적인 사실을 묻는 질문(101)인 경우에는 질문 유사도 가중치가 높은 값을 가진다.

이를 위해서 질문의 성격을 파악할 필요가 있다. 즉 질문이 객관적인 사실을 묻는 질문(101)인지 주관적인 의견을 묻는 질문(102)인지에 따라 질문 유사도 가중치가 결정된다. 질문의 성격을 파악하는 과정은 도 1에서 본 것과 같이 질문에 대한 답변의 분포도를 통해서 파악할 수 있다. 사전에 데이터베이스에 수집된 질문을 분석해서 답변에서 키워드를 추출하고 키워드의 빈도를 구해보면 정규 분포와 같은 양상을 보인다. 이때 특정 키워드에 답변이 편중될수록, 즉 특정 키워드의 빈도가 높고 다른 키워드의 빈도는 낮을수록 객관적인 사실을 묻는 질문이라 볼 수 있다. 이를 수학식으로 표현하면 다음과 같다.

[수학식 4]

질문 유사도 가중치 = 최다 키워드의 빈도 / 전체 답변의 수

도 1의 경우를 살펴보면, "대한민국의 수도는 어디인가요?"라는 질문(101)의 경우 총 3개의 답변 중에서 서울이 3회 나타난 것을 볼 수 있다. 이 경우에는 질문 유사도 가중치는 3/3=100%의 값을 가진다. 이해 비해 "서울말고 여행할 수 잇는 지역을 추천해주세요!"라는 질문(102)의 경우 총 3개의 답변 중에서 강릉, 춘천, 부산은 각각 1회 나타난 것을 볼 수 잇다. 이 경우에는 질문 유사도 가중치는 1/3=33%의 값을 가진다. 객관적인 사실을 묻는 질문(101)일수록 사용자 유사도보다 질문 유사도가 더 반영될 수 있도록 질문 유사도 가중치를 위와 같이 설정할 수 있다. 이때 수학식 4에서도 볼 수 있듯이 질문 유사도 가중치는 0과 1사이의 값을 가진다.

여기서 질문 유사도 가중치는 복수 개의 질문과 복수 개의 답변을 종합해서 설정할 수도 있다. 앞서 질문을 정형화 하는 과정에서 질문을 클러스터링 할 수 있는데, 이 과정에서 유사 질문을 클러스터로 구성하고 각 질문에 대한 답변의 빈도를 분석해서 해당 클러스터에 속한 질문들의 질문 유사도 가중치를 산출할 수 있다. 이 경우에는 질문이 동일 클러스터에 속하면 질문 유사도 가중치도 동일한 값을 가지게 된다.

다만, 질문 유사도 가중치와 사용자 유사도 가중치를 연산하는 구체적인 수식은 발명의 이해를 돕기 위한 것이므로 다른 수식을 통해서도 연산이 가능하다. 본 발명에서 각각의 유사도 가중치는 질문의 성격에 따라 질문 유사도를 더 반영하거나 사용자 유사도를 더 반영하여 답변을 제공하기 위한 것으로, 이를 통해서, 답변에 대한 사용자의 만족도를 높일 수 있다.

한편, 질문 매칭부(230)는 사용자로부터 입력된 질문에 대응되는 정형화 질문에 기초하여, 그 입력된 질문과 유사한 유사 질문에 대한 질문 유사도를 산출할 수 있다.

보다 구체적으로, 질문 매칭부(230)는 수집 데이터에 포함된 질문 중에서, 그 입력된 질문과 동일한 정형화 질문을 갖는 질문을 선별하여, 유사 질문을 매칭할 수 있다. 그 후, 질문 매칭부(230)는 그 질문들에 포함된 지명, 그 질문들의 제목 및 그 질문들의 내용 중 적어도 하나를 이용하여, 그 입력된 질문과 유사 질문 간의 질문 유사도를 산출할 수 있다.

이때, 질문 매칭부(230)는 그 입력된 질문에 특정 키워드를 배제하기 위한 표현이 포함되어 있을 때, 그 특정 키워드를 포함하는 질문이 유사 질문에 포함되지 않도록 할 수 있다. 예컨대, "서울빼고", "강남말고" 및 "홍대 제외하고" 등과 같은 표현은 각각 서울, 강남 및 홍대를 결과로부터 배제하기 위한 표현으로 볼 수 있다.

즉, 질문 매칭부(230)는 미리 결정된 특정 키워드를 배제하기 위한 표현들에 대하여, 그 특정 키워드를 포함하는 질문이 유사 질문에 포함되지 않도록 할 수 있다. 보다 구체적으로, 질문 매칭부(230)는 정형화 질문을 갖는 질문을 선별하여, 유사 질문을 매칭할 때, 그 특정 키워드를 포함하는 질문이 유사 질문에 포함되지 않도록 할 수 있다.

한편, 질문 매칭부(230)는 질문 유사도를 산출할 때, 그 질문들에 포함된 지명에 더 큰 가중치를 부여할 수 있다.

예컨대, 질문 매칭부(230)는 그 입력된 질문에 "홍대"라는 지명이 포함되어 있는 경우에, 매칭된 유사 질문과의 질문 유사도를 산출함에 있어서, 질문의 제목 및 내용보다 지명에 더 큰 가중치를 두어 질문 유사도를 산출할 수 있다.

이때, 질문 유사도는 아래의 수학식 5에 의해 산출될 수 있다.

[수학식 5]

질문 유사도 = (q.p == Q.p) * (30 * (sim1(q.l, Q.l)) + (sim2(q.t, Q.t)))

여기서, q는 그 입력된 질문이고, Q는 유사 질문 중 하나이고, p는 질문에 대응되는 정형화 질문이고, sim1 및 sim2은 0이상 1이하의 값으로 나타나는 유사도 함수이고, l은 질문에 포함된 지명이고, t는 질문의 제목 및 내용이다.

즉, 수학식 5를 참조하면, 질문 매칭부(230)는 그 입력된 질문과 유사 질문이 동일한 정형화 질문을 가질 때에만, 질문 유사도를 산출하게 됨을 알 수 있다. 또한, 질문 매칭부(230)는 질문에 포함된 지명에 질문의 제목 및 내용보다 높은 가중치(30)를 부여함을 알 수 있다.

보다 구체적으로, 질문 매칭부(230)는 질문에 포함된 지명에 관련하여 유사도 측정 함수인 sim1(q.l, Q.l)을 이용하여 q.l과 Q.l이 유사한 정도를 0이상 1이하의 값으로 수치화할 수 있고, 질문의 제목 및 내용에 관련하여 유사도 측정 함수인 sim2(q.t, Q.t)를 이용하여 q.t과 Q.t이 유사한 정도를 0이상 1이하의 값으로 수치화할 수 있다.

이때, 유사도 함수 sim1 및 sim2는 미리 결정된 유사도 판단 기준에 따라 유사도를 산출할 수 있다.

또한, 사용자 매칭부(280)는 유사 질문을 입력한 복수의 유사 사용자 후보에 대하여, 사용자의 로그 수, 기준 로그 수 및 사용자와 복수의 유사 사용자 후보 간의 피어슨 상관계수에 기초하여, 사용자 유사도를 산출할 수 있다.

보다 구체적으로, 사용자 매칭부(280)는 사용자의 로그 수를 기준 로그 수로 나눈값으로 가중치를 산출할 수 있으며, 이 가중치와 사용자와 복수의 유사 사용자 후보 간의 피어슨 상관계수를 이용하여 사용자 유사도를 산출할 수 있다.

예컨대, 사용자 매칭부(280)는 이 가중치와 사용자와 복수의 유사 사용자 후보 간의 피어슨 상관계수를 곱한 값으로 사용자 유사도를 산출할 수 있다.

다음으로 도 7을 참고하면, 자동 답변 시스템(200)을 통해서 질문에 대한 자동 답변을 제공받은 사용자의 피드백에 따라 질문 유사도와 사용자 유사도를 연산하는 기계학습의 훈련 모델을 갱신하는 과정을 볼 수 있다. 예를 들면 자동 답변에 대해서 별점을 통해서 피드백을 받는 기능을 질문자의 단말기(300)에 제공할 수 있다. 이때, 사용자가 별점을 평가하면 그 중에서 자동 답변에 대해서 평점이 3 이상인 경우를 만족으로 판단하고 질문 유사도와 사용자 유사도를 연산하기 위한 기계학습의 훈련 모델을 갱신할 수 있다. 이를 통해서 자동 답변이 보다 사용자의 의도에 맞는 답변을 제공할 수 있도록 성능을 향상시킬 수 있다.

도 8에는 비정형화 질문 또는 정형화 질문을 통해 사용자로부터 질문을 입력 받는 과정이 도시되어 있다. 도 9에는 사용자가 입력한 질문에 대해 사용자 매칭과 질문 매칭을 통해서 자동으로 답변을 제공하는 과정이 도시되어 있다.

도 8을 참고하면, 먼저 정형화 질문의 이용 여부를 판단한다(S1051). 사용자로부터 정형화 질문을 이용하라는 명령을 입력 받았는지 여부를 판단하는 것이며, 이용 명령의 입력 여부에 따라 정형화 질문을 이용하지 않거나 정형화 질문을 이용하는 것이 결정되게 된다.

정형화 질문을 이용하지 않는 것으로 결정되는 경우, 사용자로부터 비정형화 질문을 입력 받는다(S1052). 정형화 질문을 이용하는 것으로 결정되는 경우, 사용자로부터 카테고리를 입력 받는다(S1053). 카테고리는 복수의 카테고리로 마련되며, 사용자는 이와 같은 복수의 카테고리 중 적어도 하나의 카테고리를 입력할 수 있다.

카테고리가 입력되면, 입력된 카테고리에 대응하는 정형화 질문을 출력한다(S1054). 사용자는 출력된 정형화 질문을 확인하고, 정형화 질문에 대응하는 키워드를 입력할 수 있다. 즉, 사용자로부터 정형화 질문에 대응하는 키워드를 입력 받는다(S1055). 정형화 질문을 이용하지 않는 경우, 사용자가 입력한 비정형화 질문을 전체 질문으로 생성하므로, 입력된 비정형화 질문을 이용하여 자동 답변을 제공한다.

다음으로 도 9를 참고하면, 우선 도 8의 과정을 통해서 사용자로부터 질문을 입력 받는다(S1100). 그런 다음, 사용자 분석을 통해 유사 사용자 그룹을 매칭시킨다(S1200). 여기서, 사용자 그룹은 기 구축된 수집 데이터에 포함된 복수의 사용자를 적어도 하나의 사용자 그룹으로 기 분류하여 데이터베이스에 저장되어 있는 것으로 하며, 유사 사용자 그룹은 사용자 분석을 통해 적어도 하나의 사용자 그룹 중 질문을 입력한 사용자와 유사하다고 판단된 사용자 그룹으로써, 질문을 입력한 사용자와 유사 사용자 그룹을 매칭시킨다.

그리고, 매칭된 유사 사용자 그룹의 유사 질문 및 답변을 검출한다(S1300). 질문 분석을 통해 매칭된 유사 사용자 그룹의 질문 중 입력된 질문과 유사한 유사 질문을 검출하고, 검출된 유사 질문에 대응하여 출력되었거나 제출되었던 답변을 입력된 질문에 대한 답변으로 검출할 수 있다. 답변이 검출되면, 검출된 답변을 입력된 질문에 대한 답변으로 출력하여 사용자로 하여금 확인할 수 있도록 한다.

상술한 유사 사용자 매칭을 이용한 자동 답변 시스템 및 방법에 의하면, 사용자 분석을 통해 유사 사용자 그룹을 매칭하고, 매칭된 유사 사용자 그룹의 질문 분석을 통해 입력된 사용자 질문과 유사한 유사 질문을 검출하고, 검출된 유사 질문의 답변 내용을 입력된 질문에 대한 답변으로 검출하여 출력함으로써, 사용자가 의도하는 답변을 출력할 가능성이 높아지며, 사용자로 하여금 답변의 만족도 또는 신뢰성을 높일 수 있다. 또한, 유사 사용자 그룹의 유사 질문 및 답변을 이용함으로, 질문에 대한 답변의 획득 시간이 단축될 수 있으며, 실시간 질의 응답 시스템으로의 활용 가능성이 높아진다.

이 과정에서 자동 답변에 대한 사용자의 만족도를 높이기 위해서 질문 유사도 가중치와 사용자 유사도 가중치를 반영하여 답변의 우선 순위를 연산하고 이에 기초해서 사용자에게 자동 답변을 제공할 수 있다. 이를 통해서 동일한 질문을 하더라도 사용자에 따라 다른 답변을 제공하는 자동 답변 서비스를 제공할 수 있다.

한편, 질문 매칭 단계는 수집 데이터에 포함된 질문 중에서 입력된 질문과 동일한 정형화 질문을 갖는 질문으로 유사 질문을 매칭하고, 질문에 포함된 지명, 질문의 제목 및 질문의 내용 중 적어도 하나에 기초하여, 질문 유사도를 산출할 수 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시 예들을 설명하였지만, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

Claims

사용자로부터 입력된 질문을 분석하여 자동으로 답변을 생성하는 자동 답변 시스템에 있어서,

수집 데이터에 포함된 질문자 중 상기 사용자와 유사한 유사 사용자를 매칭하는 사용자 매칭부;

상기 수집 데이터에 포함된 질문 중 상기 입력된 질문과 유사한 유사 질문을 매칭하는 질문 매칭부; 및

상기 사용자와 상기 유사 사용자의 유사도를 나타내는 사용자 유사도와 상기 입력된 질문과 상기 유사 질문의 유사도를 나타내는 질문 유사도에 기초하여, 상기 유사 질문에 대한 답변을 상기 입력된 질문에 대한 답변으로 검출하는 답변 검출부; 를 포함하는

유사 사용자 매칭을 이용한 자동 답변 시스템.
제1항에 있어서,

수집 데이터에 포함된 복수의 사용자를 적어도 하나의 사용자 그룹으로 분류하는 사용자 분류부; 를 더 포함하고,

상기 사용자 매칭부는,

상기 분류된 사용자 그룹 중 상기 사용자와 유사한 사용자 그룹을 매칭하고, 상기 유사한 사용자 그룹에 속한 사용자에 대해서 상기 유사 사용자를 매칭하는 것인,

유사 사용자 매칭을 이용한 자동 답변 시스템.
제1항에 있어서,

수집 데이터에 포함된 복수의 질문에서 키워드를 제거하여, 정형화 질문을 생성하는 질문/답변 정형화부; 및

상기 사용자로부터 정형화 질문의 이용 여부를 입력받고, 정형화 질문을 이용하는 경우 선택된 정형화 질문에 대응하는 키워드를 입력받는 입력부;를 더 포함하는,

유사 사용자 매칭을 이용한 자동 답변 시스템.
제1항에 있어서,

상기 답변 검출부는,

상기 질문 유사도와 상기 사용자 유사도를 합산한 값에 기초하여 답변의 우선 순위를 연산하고, 상기 답변의 우선 순위에 기초하여 상기 입력된 질문에 대한 답변을 검출하는 것인,

유사 사용자 매칭을 이용한 자동 답변 시스템.
제4항에 있어서,

상기 답변 검출부는,

상기 사용자의 이력에 기초하여 사용자 유사도 가중치를 산출하고,

상기 사용자 유사도 가중치를 이용하여 상기 우선 순위에 반영되는 상기 사용자 유사도를 보정하는 것인,

유사 사용자 매칭을 이용한 자동 답변 시스템.
제5항에 있어서,

상기 답변 검출부는,

상기 사용자의 이력이 많을수록 상기 사용자 유사도 가중치를 높게 적용하는 것인,

유사 사용자 매칭을 이용한 자동 답변 시스템.
제4항에 있어서,

상기 답변 검출부는,

상기 입력된 질문의 키워드에 기초하여 질문 유사도 가중치를 산출하고,

상기 질문 유사도 가중치를 이용하여 상기 우선 순위에 반영되는 상기 질문 유사도를 보정하는 것인,

유사 사용자 매칭을 이용한 자동 답변 시스템.
제7항에 있어서,

상기 답변 검출부는,

상기 유사한 질문에 대한 답변에 포함된 키워드의 빈도를 연산하고, 상기 키워드의 빈도가 특정 키워드에 편중될수록 상기 질문 유사도 가중치를 높게 적용하는 것인,

유사 사용자 매칭을 이용한 자동 답변 시스템.
제1항에 있어서,

상기 질문 매칭부는

상기 수집 데이터에 포함된 질문 중에서 상기 입력된 질문과 동일한 정형화 질문을 갖는 질문으로 상기 유사 질문을 매칭하고,

질문에 포함된 지명, 질문의 제목 및 질문의 내용 중 적어도 하나에 기초하여, 상기 질문 유사도를 산출하는 것인,

유사 사용자 매칭을 이용한 자동 답변 시스템.
제9항에 있어서,

상기 질문 매칭부는

상기 입력된 질문에 특정 키워드를 배제하기 위한 표현이 포함되어 있을 때, 상기 유사 질문으로부터 상기 특정 키워드를 포함하는 질문을 배제하는 것인,

유사 사용자 매칭을 이용한 자동 답변 시스템.
제9항에 있어서,

상기 질문 매칭부는

상기 질문 유사도를 산출할 때, 상기 질문에 포함된 지명에 대하여 상기 질문의 제목 및 상기 질문의 내용보다 큰 가중치를 부여하는 것인,

유사 사용자 매칭을 이용한 자동 답변 시스템.
제9항에 있어서,

상기 사용자 매칭부는

상기 유사 질문을 입력한 복수의 유사 사용자 후보에 대하여,

상기 사용자의 로그 수, 기준 로그 수 및 상기 사용자와 상기 복수의 유사 사용자 후보 간의 피어슨 상관계수에 기초하여, 상기 사용자 유사도를 산출하는 것인,

유사 사용자 매칭을 이용한 자동 답변 시스템.
사용자로부터 입력된 질문을 분석하여 자동으로 답변을 생성하는 자동 답변 방법에 있어서,

수집 데이터에 포함된 질문자 중 상기 사용자와 유사한 유사 사용자를 매칭하는 사용자 매칭 단계;

상기 수집 데이터에 포함된 질문 중 상기 입력된 질문과 유사한 유사 질문을 매칭하는 질문 매칭 단계; 및

상기 사용자와 상기 유사 사용자의 유사도를 나타내는 사용자 유사도와 상기 입력된 질문과 상기 유사 질문의 유사도를 나타내는 질문 유사도에 기초하여, 상기 유사 질문에 대한 답변을 상기 입력된 질문에 대한 답변으로 검출하는 답변 검출 단계; 를 포함하는,

유사 사용자 매칭을 이용한 자동 답변 방법.
제12항에 있어서,

상기 질문 매칭 단계는

상기 수집 데이터에 포함된 질문 중에서 상기 입력된 질문과 동일한 정형화 질문을 갖는 질문으로 상기 유사 질문을 매칭하고,

질문에 포함된 지명, 질문의 제목 및 질문의 내용 중 적어도 하나에 기초하여, 상기 질문 유사도를 산출하는 것인,

유사 사용자 매칭을 이용한 자동 답변 방법.