KR102246130B1

KR102246130B1 - 사용자 음성을 기반으로 한 서비스 제공 방법 및 시스템

Info

Publication number: KR102246130B1
Application number: KR1020200043150A
Authority: KR
Inventors: 양윤호; 홍준성
Original assignee: 와이피랩스 주식회사
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2021-04-29
Also published as: KR102366818B1; KR20210125894A; KR102366817B1; JP7443532B2; US11694690B2; KR20210125895A; JP2023503703A; WO2021206208A1; US20220351730A1

Abstract

일 실시예에 따른 사용자 음성을 기반으로 한 서비스 제공 방법은, 제1사용자의 음성을 추출하는 단계, 상기 제1사용자의 음성을 기초로 텍스트 정보 또는 음성의 파형 정보를 생성하는 단계, 상기 생성된 정보들에 기초하여 상기 제1사용자의 성향을 분석한 후, 상기 분석 결과에 기초하여 상기 제1사용자의 성향에 대응되는 제2사용자를 선정하는 단계 및 상기 제1사용자에게 상기 제2사용자와의 대화 연결 서비스를 제공하는 단계를 포함할 수 있다.

Description

사용자 음성을 기반으로 한 서비스 제공 방법 및 시스템{Method and System Providing Service Based on User Voice}

본 발명은 사용자 음성을 기반으로 한 서비스 제공 방법 및 시스템에 관한 발명으로서, 보다 상세하게는 사용자 음성을 분석하여 사용자의 성향을 분류한 후, 이에 기초하여 사용자와 성향이 맞는 대화 상대방을 연결해주는 기술에 관한 발명이다.

현재 외국 뿐만 아니라 국내의 1인 가구의 수가 점차 증가하는 추세이며, 통계청의 발표에 의하면 2018년을 기준으로 국내 1인 가구가 약 500만을 넘으며, 1인 가구로 생활하는 사람의 어려움은 심리적 불안감과 외로움이 가장 많은 것으로 평가 되었다.

과거에는 이러한 심리적 불안감과 외로움을 실내에서 개인 컴퓨터로 인터넷에 접속하여 온라인 상에서 익명의 상대방과 채팅을 하거나 다양한 커뮤니티 사이트에 가입하여 온라인상에서의 활동을 통해 이를 해소하였으나, 이 역시 혼자만의 공간에서 하는 활동이라 심리적 불안감과 외로움을 해결할 수 있는 근본적인 해결책이 될 수는 없었다.

최근에는 스마트 단말기 기술이 발전함에 따라, 스마트 통신 기기에서 이용될 수 있는 다양한 앱을 사용하여 다른 사람과의 관계를 형성하고 있으며, 이러한 앱은 온라인 상에서 다양한 커뮤니티, 만남 중개, 서비스, 매칭 서비스 등을 제공하고 있다.

그러나 이러한 온라인 상에서의 만남 시스템은 만남을 주선 받기 위해 이용자가 특정 사이트에 가입하여 일정한 수수료를 지불하고 의도적인 만남을 하여야 하며, 이러한 온라인상의 만남 운영 시스템은 온라인 사이트를 운영하는 운영자가 등록된 회원들의 성향을 반영하지 못한 채 무작위로 매칭을 하는 문제가 있었다. 따라서, 상대 회원에 대한 객관적이고 합리적인 정보의 부족으로 인하여 상대방을 완전히 파악하지 못하는 상태에서 실제 만남을 가질 경우가 많아 지속적인 관계를 유지하지 못하는 경우 많았다.

따라서, 최근에는 이러한 오프라인 만남에 대한 부담감을 줄이면서 동시에 단순히 편하게 자신의 생각을 공유하면서 대화를 할 수 있는 사람을 연결해 주는 대화 연결 서비스가 출시되어서 많은 사람들의 호응을 얻고 있다.

그러나, 종래 기술에 따른 이러한 서비스 또한 서비스를 제공하는 운영자가 등록된 회원들 사이에 무작위로 매칭을 하여 대화 상대방을 연결해주었기 때문에 서로 간의 대화 스타일이 맞지 않은 경우 지속적인 대화로 이어지지 않는 문제점이 존재하였다.

더구나, 직접 만나는 이야기를 하는 경우보다 전화로 대화를 하는 경우에는 서로 간의 취향이나 성격 등이 잘 맞아야 대화가 지속될 수가 있는데 종래 기술에 의한 서비스의 경우 사용자의 취향이나, 성향 및 성격 등을 제대로 반영하지 못한 채 대화 상대를 연결해주는 문제가 존재하였다.

대한민국 공개특허공보 10-2001-0109441A

따라서, 일 실시예에 따른 사용자 음성을 기반으로 한 서비스 제공 방법 및 시스템은 상기 설명한 문제점을 해결하기 위해 고안된 발명으로서, 사용자의 음성과 대화를 기초로 사용자의 성향을 분석한 후, 이에 기초하여 성향이 잘 맞는 대화 상대방을 대화 상대방으로 연결해 줌으로써, 보다 대화의 만족도를 높일 수 있는 서비스를 제공하는데 그 목적이 있다.

일 실시예에 따른 사용 음성을 기반으로 한 서비스 제공 방법은, 제1사용자의 음성을 추출하는 단계, 상기 제1사용자의 음성을 기초로 텍스트 정보 또는 음성의 파형 정보를 생성하는 단계, 상기 생성된 정보에 기초하여 상기 제1사용자의 성향을 분석한 후, 상기 분석 결과에 기초하여 상기 제1사용자의 성향에 대응되는 제2사용자를 선정하는 단계 및 상기 제1사용자에게 상기 제2사용자와의 대화 연결 서비스를 제공하는 단계를 포함할 수 있다.

상기 제1사용자의 성향을 분석하는 단계는, 상기 제1사용자의 텍스트 정보에서 특정 단어의 출현 빈도를 기초로 상기 제1사용자의 성향을 분석하는 단계를 포함할 수 있다.

상기 제1사용자와 제2사용자와의 대화 정보를 기초로 취득한 감정 상태 정보, 통화 후 입력되는 평점 정보, 통화 시간 정보, 통화 연장 여부 정보, 대화 중 특정 단어의 출현 빈도 및 유료 결제 여부 정보 중 적어도 하나를 기초로 상기 제1사용자의 성향을 분석하는 단계 및 상기 제2사용자를 선정하는 단계를 피드백하는 단계를 더 포함할 수 있다.

상기 제1사용자의 성향을 분석하는 단계와 상기 제2사용자를 선정하는 단계는, 사용자 음성 정보 및 사용자 프로필 정보 중 적어도 하나를 입력값으로 하고 사용자의 감정 정보 및 성향 정보를 출력값으로 하여, CNN(Convolutional Neural Network) 기반의 음성 감정 인식 모델을 기초로 딥-러닝을 수행하여 상기 제1사용자의 성향을 분석하고 상기 제2사용자를 선정하는 단계를 포함할 수 있다.

상기 CNN 기반의 음성 감정 인식 모델은, 소프트맥스(softmax)층 대신 각각의 신경망의 출력값을 Concatenate 층에서 연결한 후, 다항 로지스틱 회귀(Multinomial logistic regression)를 적용하여 구현된 구조를 적용할 수 있다.

상기 CNN 기반의 음성 감정 인식 모델은, 멜 스펙토그램, MFCC, Roll off, Centroid 중 적어도 하나를 특징값으로 이용할 수 있다.

상기 제1사용자의 성향을 분석하는 단계는, 성향 분석 설문에 대한 상기 제1사용자의 응답 정보를 기초로 상기 제1사용자의 성향을 분석하는 단계를 포함할 수 있다.

상기 제1사용자의 성향을 분석하는 단계는, 상기 제1사용자의 성별, 나이, 음성의 음역대 및 속도 중 적어도 하나를 이용하여 상기 제1사용자의 성향을 분석하는 단계를 포함할 수 있다.

상기 제2사용자를 선정하는 단계는, 상기 제1사용자가 시간대별로 선호하는 대화 종류에 기초하여 제2사용자를 선정하는 단계를 포함할 수 있다.

다른 실시예에 따른 사용자 음성을 기반으로 한 서비스 제공 시스템은 제1사용자 단말기 및 상기 제1사용자 단말기로부터 제1사용자의 음성 정보를 수신하는 통신부, 인공신경망 모듈을 이용하여 상기 1사용자의 음성 정보를 기초로 상기 제1사용자의 성향을 분석한 후, 분석된 결과에 기초하여 상기 제1사용자의 성향에 대응되는 제2사용자를 선정한 후 상기 제1사용자에게 상기 제2사용자와의 대화 연결 서비스를 제공하는 인공신경망부를 포함할 수 있다.

상기 인공신경망부는, 상기 제1사용자의 음성을 기초로 텍스트 정보 또는 음성의 파형 정보를 생성한 후, 생성된 정보에 기초하여 상기 제1사용자의 성향을 분석할 수 있다.

상기 인공신경망부는, 상기 제1사용자의 텍스트 정보에서 특정 단어의 출현 빈도를 기초로 상기 제1사용자의 성향을 분석할 수 있다.

상기 인공신경망부는, 상기 제1사용자와 제2사용자와의 대화 정보를 기초로 취득한 감정 상태 정보, 통화 후 입력되는 평점 정보, 통화 시간 정보, 통화 연장 여부 정보, 대화 중 특정 단어의 출현 빈도 및 유로 결제 여부 정보 중 적어도 하나를 기초로 피드백을 수행하여 상기 제1사용자의 성향을 분석하고 상기 제2사용자를 선정할 수 있다.

상기 인공신경망부는, 사용자 음성 정보 및 사용자 프로필 정보 중 적어도 하나를 입력값으로 하고 사용자의 감정 정보 및 성향 정보를 출력값으로 하여, CNN(Convolutional Neural Network) 기반의 음성 감정 인식 모델을 기초로 딥-러닝을 수행하여 상기 제1사용자의 성향을 분석하고 상기 제2사용자를 선정할 수 있다.

상기 인공신경망부는, 성향 분석 설문에 대한 상기 제1사용자의 응답 정보를 기초로 상기 제1사용자의 성향을 분석할 수 있다.

일 실시예에 따른 사용자 음성을 기반으로 한 서비스 제공 방법 및 시스템은 사용자의 음성 및 대화를 기초로 사용자의 성향을 분석한 후, 분석된 결과에 기초하여 사용자와 대화를 잘 진행해 나갈 수 있는 상대방을 연결해 주므로, 보다 사용자들끼리 대화를 쉽게 지속해 나갈 수 있는 장점이 존재한다.

또한, 대화 상대를 연결함에 있어서 사용자의 취향과 비슷한 취향을 가진 상대방을 연결해주므로, 대화를 진행하기 쉬어 상대방과 쉽게 공감을 형성할 수 있다.

또한, 대화 상대방을 연결함에 있어서 본인의 정보가 많이 노출되는 경우 편하게 대화를 진행할 수 가 없는데, 본 발명의 경우 서로 프로필을 교환하기 전까지는 상대방의 구체적인 정보를 알 수 없어 본인이 가지고 있는 비밀이나 속마음을 쉽게 얘기하고 상대방과 감정을 공유할 수 있어, 대화를 통해 정신적 안정감을 얻을 수 있다.

도 1은 일 실시예에 따른 사용자 음성을 기반으로 한 서비스 제공 시스템에서 대화 연결 서비스 제공 장치와 사용자 단말기와의 관계를 도시한 도면이다.
도 2는 일 실시예에 따른 사용자 단말기의 일부 구성 요소를 도시한 블럭도이다.
도 3은 일 실시예에 따른 대화 연결 서비스 제공 시스템의 일부 구성 요소를 도시한 블럭도이다.
도 4는 인간의 성향을 5가지 성향으로 분류한 일 모델을 도시한 도면이다.
도 5는 일 실시예에 따른 스펙토그램의 두 가지 예시를 도시한 도면이다.
도 6은 일 실시예에 따른 다양한 음성 특징값을 이용한 CNN 기반의 감정 인식 모델을 도시한 도면이다.
도 7은 일 실시예에 따라, 인공신경망 모델에 적용된 합성곱 신경망 구조를 도시한 도면이다.
도 8은 도 7의 합성곱 신경망 구조에 적용된 드롭-아웃(Drop-out)을 설명하기 위한 도면이다.
도 9는 일 실시예에 따라 인공신경망부에 입력되는 인풋 정보와 출력되는 아웃풋 정보를 도시한 도면이다.
도 10은 일 실시예에 따른 사용자 음성을 기반으로 한 서비스 제공 방법의 순서도를 도시한 도면이다.
도 11은 일 실시예에 따라 사용자가 프로필 정보를 입력하는 방법을 도시한 도면이다.
도 12는 일 실시예에 따라 사용자가 대화 상대방을 선택함에 있어서 선택할 수 있는 타입을 도시한 도면이다.
도 13은 일 실시예에 따라 사용자에게 제공되는 대화 상대방의 프로필 정보의 일 예를 도시한 도면이다.

본 명세서에 기재된 실시 예와 도면에 도시된 구성은 개시된 발명의 바람직한 일 예이며, 본 출원의 출원 시점에 있어서 본 명세서의 실시 예와 도면을 대체할 수 있는 다양한 변형 예들이 있을 수 있다.

또한, 본 명세서에서 사용한 용어는 실시 예를 설명하기 위해 사용된 것으로, 개시된 발명을 제한 및/또는 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 명세서에서, "포함하다", "구비하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는다.

또한, 본 명세서에서 사용한 "제 1", "제 2" 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되지는 않는다.

아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략한다.

도 1은 일 실시예에 따른 사용자 음성을 기반으로 한 서비스 제공 시스템(10)에서 서비스 제공 장치(100)와 사용자 단말기(200)간의 관계를 도시한 도면이다.

도 1을 참조하면, 대화 연결 서비스 제공을 위한 전체 시스템은 대화 연결 서비스를 제공하는 서비스 제공 장치(100), 적어도 하나의 사용자 단말기(200) 및 네트워크(400)를 포함할 수 있다.

사용자 단말기(200)는 사용자가 서비스 제공 장치(100)와 연결하여 대화 연결 서비스를 제공받을 수 있는 장치로서, 하나 또는 복수 개 존재할 수 있다. 따라서, 서로 다른 사용자들이 서로 다른 단말기(200)들을 이용하여 서비스 제공 장치(100)와 네트워크(400)를 통해 상호간 연결되어, 상호간 통신을 수행할 수 있다.

따라서, 사용자 단말기(100)는, 고정형 단말이거나 휴대 가능한 이동형 단말일 수 있다. 하나 이상의 단말기(200)로서, 내비게이션(Navigation), 스마트 폰(smart phone), 휴대폰, 컴퓨터, 노트북 컴퓨터(laptop computer), 디지털방송용 단말, PDA(Personal Digital Assistants), PMP(Portable Multimedia Player), MID(Mobile Internet Device), 태블릿 PC(Tablet PC) 등이 이에 해당될 수 있다.

네트워크(400)에서 제공하는 통신은, 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN), 부가가치 통신망(Value Added Network; VAN), 개인 근거리 무선통신(Personal Area Network; PAN), 이동 통신망(mobile radiocommunication network) 또는 위성 통신망 등과 같은 모든 종류의 유/무선 네트워크로 구현될 수 있으며, 예를 들어 이동 통신망, UPnP(Universal Plug and Play), Wi-Fi 등의 통신 방식에 의해 상호 통신할 수 있는 네트워크 망을 제공할 수 있다.

사용자 단말기(200)는 서비스 제공 장치(100)를 거쳐 서로 다른 단말기(200)들과 네트워크(400)를 통한 통신을 수행할 수 있다. 또한, 네트워크(400)에 연결되는 단말기(200)들은 본 발명의 실시 예에 따른 대화 연결 서비스를 위한 프로필 정보를 포함하는 다양한 컨텐츠를 서로 공유할 수 있다.

이를 위해 서비스 제공 장치(100)는 메신저 어플리케이션 네트워크 또는 소셜 네트워크(Social Network)를 구성하거나, 외부의 메신저 어플리케이션 장치 또는 소셜 네트워크 서비스 제공 장치간 통신을 중계할 수 있다. 또한, 서비스 제공 장치(100)는 각각의 사용자 단말기(200)를 통해 본 발명의 실시 예에 따른 대화 연결 서비스가 제공될 수 있도록 사용자 단말기(200)를 간접 또는 직접적으로 제어할 수 있다.

이에 따라, 각 하나 이상의 사용자 단말기(200)들은 네트워크(400)를 통해 서비스 제공 장치(100)에 접속되고, 서비스 제공 장치(100)에 사용자 음성 정보를 포함한 프로필 정보를 등록하거나 메시지를 전송할 수 있다. 본 문서의 기술적 사상은, 메신저 서비스 또는 소셜 네트워크 서비스와 유사하게 구성되는 모든 네트워크 서비스에 대해 적용이 가능하다.

특히, 소셜 네트워크는 웹 상에서 각 노드들 간의 상호 의존적인 관계(tie)에 의해 만들어지는 사회적 관계 구조에 의해 형성될 수 있다. 소셜 네트워크 내에 포함되는 노드들은 네트워크 안에 존재하는 개별적인 주체들을 나타낼 수 있다. 네트워크를 구성하는 각 노드들은 전술한 단말기(200)들일 수 있다.

다시 도 1을 참조하면, 서비스 제공 장치(100)는 대화 연결 서비스에 가입된 사용자(이를 회원이라고 호칭할 수 있다)의 프로필 정보를 검증하고, 검증된 회원간 주기적으로 대화 상대방을 연결해주는 온라인 대화 연결 서비스를 제공할 수 있다.

사용자들은 본인의 사용자 단말기(200)를 통해 대화 연결 서비스를 제공 받을 수 있으며, 매칭이 결정되면, 과금 여부에 따라 대화 연결 서비스를 통한 이용자간 메신저 서비스 등의 추가 기능을 더 제공받을 수 있다.

이와 같은 서비스 제공 장치(100)는 예를 들어, 어플리케이션 서버이거나, 어플리케이션 서버와는 독립적으로 네트워크상에 위치한 관리 서버 장치일 수 있으며, 네트워크(400)를 통해 연결된 각 사용자들의 단말기(200)로 대화 연결 서비스에 대응되는 어플리케이션 설치 데이터를 제공하거나, 상기 어플리케이션을 통해 사용자 등록 처리 및 사용자의 음성 정보를 포함한 프로필 정보를 수집하고, 이에 기초하여 다른 사용자에게 대화 연결 서비스를 제공할 수 있다.

도 2는 일 실시예에 따른 사용자 단말기(200)의 일부 구성 요소를 도시한 블럭도이다.

도 2를 참조하면, 사용자 단말기(200)는 사용자의 프로필 정보를 입력 받 바는 입력부(210), 사용자의 음성을 취득하는 음성 취득부(220), 취득한 사용자의 음성 정보 및 사용자의 프로필 정보를 서비스 제공 장치(100)로 송신하는 통신부(230), 사용자의 음성 정보 및 사용자의 프로필 정보가 저장되는 저장부(240), 대화 연결 서비스에 대한 정보를 포함한 각종 정보가 표시되는 디스플레이부(250) 등을 포함할 수 있다.

입력부(210)는 사용자의 프로필 정보를 포함한 다양한 정보를 입력 받을 수 있다. 사용자의 프로필 정보는 성별, 나이, 거주 지역, 직업, 키, 사진, 취미, 특기, 성향, 스타일, 이상형 정보 등 다양한 정보를 포함할 수 있다. 이렇게 입력된 정보는 저장부(240)에 저장되거나 통신부(230)를 통해 서비스 제공 장치(100)로 송신될 수 있다.

음성 취득부(220)는 사용자의 성향을 분석할 사용자의 음성 정보(파일)를 취득할 수 있다.

구체적으로, 음성 정보는 사용자가 마이크(미도시)를 통해 직접 음성을 녹음한 정보일 수 있으며, 직접 사용자가 음성을 녹음하지 않아도 일정 기간 동안 사용자가 사용자 단말기(100)를 통해 수초 또는 수분 동안 다른 사람들과 통화한 음성일 수 있다.

이렇게 취득된 음성 정보는 음성 취득부(220)에 의해 디지털 음성 파일화를 시키고 사용자 음성임을 식별할 수 있는 식별자를 부여할 수 있다.

음성 취득부(220)에 의해 취득된 음성 파일은 사용자 단말기(200)의 저장부(240) 또는 서비스 제공 장치(100)의 저장부(130)에 저장될 수 있다.

사용자가 직접 음성을 입력하는 경우, 음성 취득부(220)는 특정 문구를 포함하고 있는 음성 샘플을 선택한 후, 사용자에게 선택된 음성 샘플에서 말하는 내용(또는 디스플레이부에 표시되는 내용)과 동일한 내용을 말하도록 하고, 사용자가 말을 하면 이를 사용자 음성으로 취득할 수 있다.

통신부(230)는 사용자 단말기(200)와 서비스 제공 장치(100)와 네트워크(400)를 통해 연결될 수 있도록 하는 역할을 할 수 있다.

따라서, 통신부(230)는 사용자 단말기(200)와 서비스 제공 장치(100) 사이 또는 사용자 단말기(200)와 또 다른 사용자의 사용자 단말기(200)가 위치한 소셜 네트워크 사이의 무선 통신을 가능하게 하는 하나 이상의 모듈을 포함할 수 있다. 예를 들어, 통신부(230)는 이동 통신 모듈, 유선 인터넷 모듈, 무선 인터넷 모듈, 근거리 통신 모듈 등을 포함할 수 있다.

이동 통신 모듈은, 이동 통신망 상에서 기지국, 외부의 단말, 서버 중 적어도 하나와 무선 신호를 송수신한다. 상기 무선 신호는, 음성 호 신호, 화상 통화 호 신호 또는 문자/멀티미디어 메시지 송수신에 따른 다양한 형태의 데이터를 포함할 수 있다.

또한, 무선 인터넷 모듈은 무선 인터넷 접속을 위한 모듈을 말하는 것으로, 사용자 단말기(100)에 내장되거나 외장될 수 있다. 무선 인터넷 기술로는 WLAN(Wireless LAN)(Wi-Fi), Wibro(Wireless broadband), Wimax(World Interoperability for Microwave Access), HSDPA(High Speed Downlink Packet Access) 등이 이용될 수 있다.

근거리 통신 모듈은 근거리 통신을 위한 모듈을 의미할 수 있으며. 근거리 통신(short range communication) 기술로 블루투스(Bluetooth), RFID(Radio Frequency Identification), 적외선 통신(IrDA, infrared Data Association), UWB(Ultra Wideband), ZigBee 등이 이용될 수 있다.

한편, 통신부(230)가 이용할 수 있는 통신 방식은 상술한 통신 방식에 한정되는 것은 아니며, 상술한 통신방식 이외에도 기타 널리 공지되었거나 향후 개발될 모든 형태의 통신 방식을 포함할 수 있다.

저장부(240)에는 입력부(210)를 통해 입력된 사용자의 프로필 정보와 음성 취득부(220)에 의해 취득된 사용자의 음성 정보 및 사용자가 본 서비스를 이용하는 동안 다른 사용자와의 통화 내역 정보 등이 저장될 수 있으며, 이러한 정보는 서비스 제공 장치(100)가 요청하는 경우 통신부(230)를 통해 서비스 제공 장치(100)로 송신될 수 있다.

따라서, 저장부(240)는 플래시 메모리 타입(Flash Memory Type), 하드디스크 타입(Hard Disk Type), 멀티미디어 카드 마이크로 타입(Multimedia Card Micro Type), 카드 타입의 메모리(SD, XD 메모리 등), 램(RAM; Random Access Memory) SRAM(Static Random Access Memory), 롬(ROM; Read-Only Memory), EEPROM(Electrically Erasable Programmable Read-Only Memory), PROM(Programmable Read-Only Memory) 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있으며, 후술할 제어부(260)와 일체의 구성 요소로 구성 될 수 있다.

디스플레이부(250)는 서비스 제공 장치(100)가 송신한 대화 연결 서비스에 관한 각종 정보가 표시될 수 있다.

따라서, 디스플레이부(250)는 일반 디스플레이 패널 예를 들어, LCD(Liquid Crystal Display), LED(Light Emitting Diode), PDP(Plasma Display Panel), OLED(Organic Light Emitting Diode), CRT(Cathode Ray Tube) 등으로 구현될 수 있으며, 더 나아가 영상을 입체적으로 표현할 수 있는 디스플레이 패널 예를 들어, PDLC(polymer dispersed liquid crystal) 또는 SPD(suspended particle devices) 등을 포함할 수 도 있다.

또한, 도 2에서는 입력부(210)와 디스플레이부(250)를 별도의 구성 요소로 도시하였으나, 이에 한정되는 것은 아니고 입력부(210)가 터치 스크린(Touch Screen)으로 구성되는 경우 입력부(210)와 디스플레이부(250)는 하나의 구성 요소로 같이 구성될 수 있다.

제어부(controller, 260)는 대화 연결 서비스를 사용자에게 제공함과 동시에 이와 관련한 사용자 단말기(200)의 전반적인 동작을 제어한다.

예를 들어, 제어부(260)는 정보 수집, 사용자 정보 관리, 스타일 태그 관리, 프로필 정보 제공, 데이터 통신, 메시지 전송, SNS 접속 등의 다양한 정보 처리를 위해, 관련 모듈들간의 전반적인 통신 제어 및 데이터 처리를 수행할 수 있다.

도 2에서는 각각의 구성요소간의 제어를 위해, 제어부(260)가 별도 존재하는 것으로 도시되어 있으나, 제어부(260)가 포함되지 않더라도 제어부(260)의 전부 또는 일부의 기능이 각 구성요소들로 분산 배치 및 동기화되어 동작할 수도 있다.

도 3은 일 실시예에 따른 사용자 음성을 기반으로 한 대화 연결 서비스 제공 시스템(10)의 일부 구성 요소를 도시한 도면이다.

도 3을 참조하면, 대화 연결 서비스 제공 시스템(10)은 도 2에서 설명한 사용자 단말기(200)와 사용자 단말기(200)로부터 수신한 정보를 기초로 음성 분석을 수행하여 사용자에게 가장 적합한 대화 상대가 될 수 있는 다른 사용자를 연결시켜주는 서비스 제공 장치(100)를 포함할 수 있다.

이를 위해, 서비스 제공 장치(100)는 구체적으로 도3에 도시된 바와 같이 사용자 단말기(200)와 통신을 수행하는 통신부(110), 통신부(110)를 통해 수신한 정보를 기초로 사용자의 성향을 분석하는 성향 분석부(121), 분석된 결과에 기초하여 사용자의 성향을 그룹화하는 그룹핑부(123), 그룹핑부(123)의 결과에 기초하여 다른 사용자를 매칭시켜주는 매칭부(125), 실제 매칭된 사용자끼리의 대화 결과를 기초로 피드백을 수행하는 피드백부(127), 사용자의 프로필 정보가 저장되는 프로필 정보부(131), 사용자의 음성 정부가 저장되는 음성 정보부(133), 음성 정보가 변화된 텍스트 정보가 저장되는 텍스트 정보부(135) 등을 포함할 수 있다.

도 3에서는 인공신경망부(120)를 성향 분석부(121), 그룹핑부(123), 매칭부(125), 피드백부(127)로 나누어 도시하였지만, 이에 한정되는 것은 아니고 인공신경망부(120)가 성향 분석부(121), 그룹핑부(123), 매칭부(125), 피드백부(127)가 하는 역할을 한꺼번에 수행할 수 있다. 이하 설명의 편의를 위해 인공신경망부(120)로 통일하여 서술하도록 한다.

통신부(110)는 사용자 단말기(200)와 통신을 수행할 수 있으며, 인공신경망부(120)에 의해 사용자와 매칭된 또 다른 사용자를 서로 통신 연결을 해주는 역할을 할 수 있다.

인공신경망부(120)는 사용자 단말기(200)로부터 수신한 사용자의 음성 정보를 기초로 분석을 수행하여 사용자의 성향을 분석할 수 있다. 음성 정보는 사용자가 직접 녹음한 음성 정보일 수 있으며, 다른 사용자들과 통화한 음성 정보일 수 있다.

인공신경망부(120)는 사용자의 음성 정보를 텍스트 정보를 변환한 후, 변환된 텍스트 정보에 대해 전처리 작업을 수행한 후, 전처리 한 정보를 기초로 분석 모델을 통해 사용자의 성향을 분석할 수 있다.

사용자의 음성 정보를 텍스트 정보로 변환하는 작업(STT, speech-to-text)은 사용자의 음성을 녹음한 후, 녹음한 파일에 대해 변환 작업을 실시하거나, 스트리밍 방식으로 실시간 변환 작업을 수행할 수 있다. 음성 데이터를 텍스트 데이터로 변환하는 기술은 이미 공지된 기술이므로 이에 대한 설명은 생략하도록 한다.

인공신경망부(120)가 수행하는 변환된 텍스트 정보에 대한 전처리 작업은 크게 토큰화(tokenization) 작업과 품사 태깅 작업으로 이루어진다.

컴파일러는 소스 프로그램을 번역할 경우 먼저 워드 해석이라 불리는 기호열로서 입력된 소스 프로그램에서 구문 규칙에 기초하여 이름표, 연산자, 딜리미터 등의 식별을 하고, 내부 데이터의 열로 변환하는데, 이 워드 해석을 하여 식별되는 단위를 실러블(syllable)이라 하며, 그 내부 데이터 표현을 토큰이라 한다.

일 실시예에 따른 인공신경망부(120)가 수행하는 토큰화(tokenization)는 문장 내의 공백을 구분자로 하여 문장을 분할하는 작업으로서, 기본적인 단어 토큰화 작업부터 문장 단위의 토큰화까지 입력되는 문장에 따라 다양한 방법이 적용될 수 있다.

토큰화 작업이 완료되면 인공신경망부(120)는 자체 분석 모델을 통해 토큰화 된 텍스트 정보를 기초로 사용자의 성향을 분류할 수 있다. 사용자의 성향은 이미 분류되어 있는 여러 모델들을 이용하여 분류할 수 있는데, 도 4에 도시된 바와 같이 심리학적으로 가장 객관성과 신뢰성이 높은 다섯 가지 성격 특성(Big Five personality traits) 분류 모델을 사용할 수 있다.

도 4에 도시된 모델은 성격과 학업 행동 사이의 관계를 이해하기 위한 모델로 출발되었다가, 현재는 여러 실험 결과를 거쳐 인간의 성향을 크게 5가지의 영역으로 구분한 모델로 개발되었다.

구체적으로 인간의 5가지 성향 특성은 도 4에 도시된 바와 같이 개방성(11, Openness), 신경성(12, Neuroticism), 우호성(13, Agreeableness), 외향성(14,Extraversion) 및 성실성(15,Conscientiousness)으로 나뉘어질 수 있다.

인공신경망부(120)에 의해 사용자는 5가지 척도에 대해 0~100%까지의 경향성을 부여 받을 수 있으며, 사용자의 성향은 이러한 경향성에 기초하여 분류될 수 있다. 예컨대 개방성이 95% 나온 유저는 5% 나온 유저보다 더 개방성을 보이는 것으로 볼 수 있다.

구체적으로, 개방성(11)은 예술, 감정, 모험, 상상력, 호기심 및 다양한 경험 등에 대해 대한 평가로서, 개방성에서 높은 점수를 받은 사람은 지적으로 호기심이 많고 감정에 개방적이며 아름다움에 민감하며 새로운 것을 기꺼이 시도하는 성격을 가지고 있다고 볼 수 있다.

신경성(12)은 분노, 불안 또는 우울증과 같은 부정적인 감정을 쉽게 느끼는 경향이 의미한다. 따라서, 신경성에서 높은 점수를 받은 사람들은 감정적으로 반응하고 스트레스에 취약하며 감정을 표현하는 방식에 따라 변하는 경향이 있다.

우호성(13)은 사회적인 조화의 개인의 관심사를 조율하려는 특성을 가지고 있는 것을 의미한다. 우호성에서 높은 점수를 받은 사람은 일반적으로 사려 깊고 친절하고 관대하며 신뢰할 수 있는 성격을 가지고 있다. 또한, 이들은 다른 사람들의 관심과 본인의 관심을 타협하려고 하는 성격을 가지고 있다.

외향성(14)은 다양한 활동 또는 외부 환경으로부터 에너지를 생성하는 것을 특징으로 하고 있는데, 외향성에서 높은 점수를 받은 사람은 사람들과 교류하는 것을 좋아하며 열정적이고 행동 지향적인 것을 특성으로 하고 있다.

성실성(50)은 자제력을 의미할 수 있는데, 성실성에서 높은 점수를 받은 사람은 성실하게 행동하며 외부 기대에 대해 성취를 추구 하는 것을 특성으로 하고 있다.

이러한 과정을 거쳐 사용자의 성향이 분석되면, 인공신경망부(120)는 분석된 결과에 기초하여 사용자의 성격을 그룹핑(grouping)할 수 있다.

그룹핑을 하는 것은 비슷한 성격을 가지는 사용자들을 하나의 그룹으로 묶는 작업을 의미하는 것으로서, 그룹핑을 하는 기준은 도4에서 설명된 5가지 성격을 기준으로 할 수 있으나, 이에 한정되는 것은 아니고 공지되어 있는 다양한 모델들을 기준으로 분류할 수 도 있으며, 통화 횟수가 누적되어 사용자의 음성 데이터가 축적되는 경우 이에 따라 사용자가 속한 그룹도 변할 수 있다.

그룹핑 과정에 의해 사용자들의 성격이 분류화된 정보가 쌓이면, 인공신경망부(120)는 대화 연결 서비스를 제공할 사용자들을 서로 매칭할 수 있다.

매칭하는 방법 또한 다양한 방법을 이용하여 사용자들을 매칭할 수 있는데, 예를 들어 같은 그룹에 속하는 사람들끼리 매칭 할 수 도 있으며, 같은 그룹이 아니어도 누적되는 정보에 의해A 그룹과 B그룹의 대화의 지속성이 높다고 판단된 경우, A그룹에 있는 사용자와 B 그룹에 사용자를 연결해 줄 수 있다.

또한, 인공신경망부(120)는 매칭 결과에 따라 대화를 연결시켜준 사용자들끼리의 대화 결과를 기초로 사용자의 성향을 분석하는 방법 및 매칭 방법에 대해 피드백(Feedback)을 수행할 수 있다.

구체적으로 인공신경망부(120)는 사용자들간의 대화 결과 정보를 토대로 매칭이 적합 하였는지 여부를 판단할 수 있다.

예를 들어, 대화 음성 데이터 및 텍스트 데이터에서 취득한 사용자의 감정 상태에 대한 정보, 통화 후 입력하게 되는 상대 사용자에 대한 평점 데이터, 사용자들 간의 통화 시간, 통화 연장 여부 및 통화가 만족하였다면 유저가 재화를 지불하여 보내는 "대화 신청" 여부 중 적어도 하나를 기준으로 피드백을 수행할 수 있다. 다만, 이러한 기준은 매칭이 적합 하였는지 여부를 판단하는 일 기준이 될 뿐, 본 발명의 실시예가 이에 한정되는 것은 아니다. 따라서, 이와 특징이 유사한 기준 또한 본 발명의 실시예에 포함될 수 있다.

즉, 사용자의 감정 상태에 대한 정보에서 긍정적인 정보가 많은 경우, 통화 후 상대 사용자가 입력한 평점이 높은 경우, 통화 시간이 예전 사용자들과의 평균 통화 시간보다 긴 경우, 기본적으로 주어진 시간 보다 더 오래 통화를 한 경우, 통화 후 재화를 지불한 경우 등은 상대방의 대화에 만족한 것으로 볼 수 있다. 따라서, 이러한 경우 사용자들 간의 매칭이 적합했다고 판단할 수 있으므로 매칭 결과에 대해 긍정적인 피드백을 할 수 있다.

그러나, 사용자의 감정 상태에 대한 정보에서 부정적인 정보가 많은 경우, 통화 후 상대 사용자가 입력한 평점이 낮은 경우, 통화 시간이 예전 사용자들과의 평균 통화 시간보다 짧은 경우, 기본적으로 주어진 시간 보다 일찍 통화를 종료를 한 경우, 통화 후 재화를 지불하지 않은 경우 등은 상대방의 대화에 만족한 것으로 볼 수 없으므로 사용자들 간의 매칭이 부적법 했다고 볼 수 있다. 따라서, 이러한 경우에는 부정적인 피드백을 할 수 있다.

또한, 인공신경망부(120)는 인공신경망 모듈을 이용하여 딥러닝을 수행하여 피드백을 수행할 수 있다.

딥 러닝이란, 심층 학습으로 표현되기도 하는데, 여러 비선형 변환 기법의 조합을 통해 높은 수준의 추상화(abstractions, 다량의 데이터나 복잡한 자료들 속에서 핵심적인 내용 또는 기능을 요약하는 작업)를 시도하는 기계 학습(machine learning)에 관한 알고리즘의 집합을 의미한다.

구체적으로, 딥 러닝은 어떠한 학습 데이터를 컴퓨터가 이해할 수 있는 형태(예를 들어 이미지의 경우는 픽셀(Pixel)정보를 열 벡터로 표현하는 등)로 표현(Representation)하고 이를 학습에 적용하기 위해 많은 연구(어떻게 하면 더 좋은 표현기법을 만들고 또 어떻게 이것들을 학습할 모델을 만들지에 대한)에 대한 학습 기법으로 이루어진다.

본 발명의 경우 사용자의 음성 정보로부터 사용자의 감정 정보를 취득하므로, 시간의 흐름에 따라 변하는 음성의 주파수, 파형의 강도, 세기가 변함을 시각적으로 표현한 스펙토그램(spectrogram)을 활용하여 감정 정보를 취득하였다.

구체적으로, 일 실시예에 따른 대화 연결 서비스 및 대화 연결 시스템은 스펙토크르램으로 표현되는 이미지를 효율적으로 인식할 수 있는, 이미지 인식에 특화된 CNN(Convolutional Neutral Network, 합성공신경망)을 기반으로 한 음성 감정 인식 모델을 적용하였다. 이하 CNN을 중심으로 설명하겠지만 본 발명에 적용되는 인공신경망 모델은 CNN으로 한정되는 것은 아니고 RNN(Recurrent Neural Network, 순환신경망)이 적용될 수 있으며, CNN을 중심으로 RNN이 부분적으로 차용된 모델이 적용될 수 도 있다.

기존의 딥러닝을 이용한 음성 기반 감정 인식 연구들은 단일한 음성 특징값으로 모델을 훈련하고 감정을 예측하였는데 음성은 복합적인 요소로 이루어져 있기 때문에 다양한 특징값을 사용한 모델을 설계할 필요가 있다.

따라서 본 실시예에서는 특징값으로 멜 스펙트그램, MFCC, Centroid, Roll off를 이용하였고, 이러한 특징값을 합성곱 신경망(Convolutional neural network, CNN) 모델에 적용하였다.

멜 스펙트로그램은 시간에 대한 각 주파수 대역에서의 진폭 변화를 나타낸 것으로, 음성 처리 분야에서 널리 사용되고 있다. MFCC는 배음 구조의 차이를 나타내는 값으로, 음색에 대한 정보를 얻을 수 있다. Centroid는 주파수 대역에서 에너지 분포의 평균 지점을 가리키는 값으로, 어느 주파수 대역의 소리가 주요하게 사용되었는지를 나타낸다. Roll off는 주파수 대역에서 에너지의 85%가 어느 주파수 대역에서 발생하는지 나타낸 값으로, 음정의 분포 정도를 알 수 있다. 이하 도면을 통해 본 발명에 적용된 인공 신경망 모델에 대해 자세히 알아보도록 한다.

도 5는 일 실시예에 따른 스펙토그램의 두 가지 예시를 도시한 도면이며, 도 6은 일 실시예에 따른 다양한 음성 특징값을 이용한 CNN 기반의 감정 인식 모델을 도시한 도면이다. 도 7은 일 실시예에 적용된 합성곱 신경망 구조를 도시한 도면이고, 도 8은 합성곱 신경망 구조에 적용된 드롭 아웃(Drop out)을 설명하기 위한 도면이다.

스펙토그램은 시간이 변화하면서 소리나 다른 신호의 강도나 세기가 변하는 것을 각각 다른 주파수에 따라 시각으로 표현한 것이다. 스펙토그램의 가로축은 시간을 나타내며 세로축은 주파수를 나타내므로, 소리나 신호의 강도나 세기가 변화함에 따라 스펙토그램에서 표시되는 색도 달라진다.

스펙토그램은 특정 감정을 발화함에 따라 표시되는 색상이 달라진다. 따라서, 도 5에 도시된 바와 같이 화난(anger) 상태의 스펙토그램과 슬픈(sadness) 상태의 스펙토그램은 표시되는 색상이 다름을 알 수 있다.

스펙토그램은 도 5에 도시된 바와 같이 이미지 형태로 나타나기 때문에 이미지 인식에 특화된 CNN(Convolutional Neutral Network)를 사용하여 학습을 진행하는 것이 가장 효율적이다. 학습시 데이터 개수의 불균형에 따른 치우침을 막고자 loss 값 계산 시 weight function을 이용하여 이를 해결하였다. 또한, 파일 별로 작게 나누어진 이미지 각각이 분류되는 정보를 이용하여 하나의 파일로 분류되는 감정을 결정하였다.

일 실시예에 따라 적용되는 인공신경망의 전체 모델의 구성은 도6에 도시된 바와 같다. 사용자의 음원으로부터 각 특징값을 그래프 이미지로 추출하여 이를 합성곱 신경망의 입력값으로 사용하였다. 각 특징값은 서로 다른 정보를 포함하고 있기 때문에 합성곱 신경망을 특징값 별로 별도로 구성하여 학습 단계에서 하나의 합성곱 신경망이 하나의 특징값을 학습하도록 한 후 하나의 신경망으로 통합되는 구조를 취하였다.또한, 본 발명의 또 다른 실시예에 적용되는 인공신경망 모델은 인공신경망 모델의 마지막 층인 소프트맥스(Softmax) 층을 제거한 모델을 활용하였다.

일반적으로 합성곱 신경망은 마지막 층이 소프트맥스(Softmax) 층으로 구성 되어 있다. 그러나 본 발명의 또 다른 실시예에서는 소프트맥스층 대신 각 합성곱 신경망의 출력값을 Concatenate 층에서 연결한 후 아래 식 (1), (2)와 같이 다항 로지스틱 회귀(Multinomial logistic regression)를 적용하여 일종의 앙상블(Ensemble) 학습이 구현되도록 한 모델을 적용하였다.

이러한 기법을 적용하면 모델에 사용한 음성 특징값 전체를 고려하면서도 보다 높은 정확도를 얻을 수 있는 장점이 존재한다.

모델에 사용한 합성곱 신경망의 구조는 도 7에 도시된 바와 같다. 기존 모델과 다르게 세개의 층으로 구성되어 있던 전결합(Fully conn ected)층을 하나의 층으로 변경하고 출력이 1x6 벡터가 되도록 하였다. 또한 과적합(Overfitting)을 방지하기 위해 배치 정규화(Batch normalization) 및 드롭 아웃(Drop out)을 적용하였다.

Drop-out 방식은 도 8에 도시된 바와 같이 매 학습시 은닉층에서 모든 뉴런을 사용하는 것이 아니라 50% 정도의 뉴런을 사용한다. 하나의 딥러닝에서 여러 개의 작은 neural network이 앙상블(ensemble)되어진 효과가 있고, 앙상블은 과적합이 크게 줄어든다고 알려져 있다. 또한, 비슷한 weight를 갖는 뉴런들이 줄어들게 되어서 중복된 판단을 하는 뉴런들이 줄어들게 되어 뉴런을 효율적으로 사용 할 수 있는 장점이 있다.

도 9은 도 6 내지 도 8에서 설명한 인공신경망 모듈에 대해 종합적인 관계를 도시한 도면이다.

도 9를 참고하면, 사용자 음성 정보(20)와 사용자 프로필 정보(30)를 구성하는 각 속성은 x1, x2, x3와 같은 인공신경망 모듈의 입력층(input layer)의 각 노드에 입력될 수 있다. 인풋 데이터로는 도 9에 도시된 바와 같이 사용자 음성 정보(20)와 사용자 프로필 정보(30)가 같이 입력될 수 있으나, 사용자 음성 정보(20) 하나만 또는 사용자 프로필 정보(30) 하나만이 인풋 데이터로 입력될 수 있다.

인풋 데이터가 인공신경망 모듈의 입력층의 각 노드에 입력되면 w1과 같은 weight을 기반으로 h1, h2, h3와 같은 은닉층(hidden layer)을 거쳐 딥 러닝이 이루어지고 이에 따라 사용자의 성향 정보 및 감정 정보(40)가 y1인 출력층(output layer)에서 출력될 수 있으며, 이렇게 출력된 정보는 실제 사용자들의 대화 결과 정보(50)에 기초하여 에러(error, -Sigma(yi*log(pi))를 줄이는 방향으로 은닉층의 weight를 업데이트 시키도록 Back propagation 될 수 있다.

이러한 방법을 통해 인공신경망부(120)는 사용자의 음성 정보에서 사용자의 5가지 감정(화남, 기쁨, 슬픔, 분노, 중립)을 분류해낼 수 있다. 예를 들어, 기쁜 감정에 속하는 파형이 80% 이상 검출되었을 때 양의 가중치를 주고, 화남 또는 분노에 속하는 파형이 80% 이상 검출되었을 경우 음의 가중치를 주는 방식으로 적합도를 계산할 수 있다.

또한, 인공신경망부(120)는 앞서 설명한 바와 같이 음성 정보에서 사용자의 감정 상태 정보를 추출할 수 을 뿐만 아니라 STT 처리 된 텍스트 정보에서도 긍정/부정과 관련된 형용사/부사를 추출하여 이를 기초로 사용자의 감정 상태를 판단할 수 도 있다.

구체적으로, 인공신경망부(120)는 미리 분류해 놓은 긍정을 의미하는 글자/단어와 부정을 의미하는 글자/단어로 구성된 사전 및 어휘 리스트를 기초로 사용자의 감정 정보를 추출할 수 있다. 단어 리스트는 총 6개로 긍정 형용사, 긍정 부사, 부정 형용사, 부정 부사, 그리고 명사와 동사 리스트가 존재한다.

예를 들어, "좋", "재밌", "웃긴" 등과 같은 긍정 형용사가 검출될 경우 긍정적인 통화라고 판단하여 양의 가중치를 주는 방식으로 사용자의 감정 상태를 판단할 수 있으며, 반대로 리스트에 등록된 욕설, 그리고 "재미없" 과 같은 부정 형용사가 검출되거나 발화와 발화 사이의 공백이 전체 평균보다 길 경우 부정적인 통화라고 판단하여 음의 가중치를 주는 방식으로 사용자의 감정 상태를 판단할 수 있다.

또한, 인공신경망부(120)는 사용자의 성향 분석의 정확도를 높이기 위한 보충적인 방법으로 사용자가 직접 선택지를 선택하여 응답하는 형태의 성향 분석 테스트 결과를 활용할 수 있다.

성향 분석 테스트는 사용자의 성향을 분석하기 위해 마련된 문항으로서, 약식 버전과 심화 버전이 있으며 사용자는 최소 12가지 문항, 최대 100가지 문항에 대해 응답을 할 수 있다.

문항에 대한 사용자의 응답 결과는 인공신경망부(120)의 분석에 의해 4가지 척도로 사용자의 성향이 표기될 수 있다. 구체적으로 각 척도는 2가지 극이 되는 성향으로 이루어져 있다. 예를 들어, 외향적인지/내향적인지, 현실적인지/직관적인지, 사고적인지/감정적인지, 판단적인지/인식적인지 등으로 나뉘어 질 수 있다. 따라서, 사용자는 총 16가지 성향으로 분류될 수 있으며, 이러한 결과는 앞서 설명한 기본 그룹핑의 보조적인 수단으로 활용될 수 있다.

또한, 인공신경망부(120)는 사용자가 입력한 정보 중 취미나 관심사에 대한 정보를 기초로 대화 상대방과의 매칭을 수행할 수 도 있다. 일반적으로 같은 취미 관심사를 가진 사용자들은 공감대를 쉽게 형성하여 대화를 어색함 없이 이어나갈 수 있으므로, 이에 기초하여 대화 상대방을 연결해 줄 수 도 있다.

또한, 인공신경망부(120)는 취득한 사용자의 음성 정보를 통해 대화 내용과 관계없이 성별에 따라 보편적인 선호를 보이는 음역대, 빠르기를 추출할 수 있으며 이를 기반으로 사용자의 성향을 분석할 수 있다. 또한, 더 나아가 사용자들에게 이러한 정보를 기초로 가이드 라인을 제시해 줄 수도 있다.

또한, 인공신경망부(120)는 사용자의 시간 대별 감정 정보가 축적된 경우, 사용자가 접속한 시간대별로 적합한 상대를 매칭시켜줄 수 있다.

예를 들어, 제1사용자가 평균적으로 오후 7시~9시 사이에서는 즐겁고 웃긴 통화를 하고 싶은 반면, 새벽 1시 ~ 3시 사이에서는 공감 받고 진지한 통화를 하기를 원하는 경우, 이러한 시간대별 사용자의 감정 정보를 기초로 대화 상대방을 매칭시킬 수 있다.

도 10은 일 실시예에 따른 사용자 음성을 기반으로 한 서비스 제공 방법의 순서도를 도시한 도면이고, 도11은 사용자가 프로필 정보를 입력하는 방법을 도시한 도면이다. 도 12는 사용자가 대화 상대방을 선택함에 있어서 선택할 수 있는 타입을 도시한 도면이고, 도 13은 사용자에게 제공되는 대화 상대방의 프로필 정보의 일 예를 도시한 도면이다.

도 10을 참고하면, 제1사용자 단말기(200)와 제2사용자 단말기(300)는 각각 제1사용자의 정보와 제2사용자의 정보를 수신하고, 수신한 정보를 서비스 제공 장치(100)로 송신할 수 있다.

여기서 사용자 정보는 사용자의 프로필 정보와 음성 정보 2가지를 다 포함할 수 있는데, 프로필 정보는 성별, 나이, 거주 지역, 직업, 키, 사진, 취미, 특기, 성향, 스타일, 이상형 정보 등 다양한 정보를 포함할 수 있으며, 음성 정보는 통화 정보를 포함할 수 있다.

또한, 사용자들을 본인의 정보를 입력함에 있어서 도 11에 도시된 바와 같이 디스플레이부(250) 화면에 표시되는 인터페이스 화면(251)을 통해 입력할 수 있다. 인터페이스 화면(251)에는 사용자가 선택할 수 있는 항목들(252)이 예시로 표시될 수 있다.

서비스 제공 장치(100)는 제1사용자 단말기(200)와 제2사용자 단말기(300)로부터 수신한 사용자 정보를 기초로 인공신경망부(120)를 이용하여 딥러닝을 수행하여 사용자의 성향을 분석할 수 있다.(S30)

도면에서는 지면의 한계상 사용자의 수를 제1사용자와 제2사용자로 한정해서 설명하였지만, 이에 한정되는 것은 아니고 서비스 제공 장치(100)는 더 많은 복수의 사용자에 대한 정보를 수신하고, 수신한 모든 사용자에 대해서 사용자의 성향을 분석할 수 있고 이에 기초하여 많은 사용자들에게 대화 연결 서비스를 제공해 줄 수 있다.

사용자의 성향 분석이 완료된 후에는 사용자는 사용자 단말기를 통해 서비스 제공 장치(100)에 대화 연결 요청을 송신할 수 있다. (S40)

사용자가 대화 연결 요청을 송신함에 있어서, 사용자는 여러 종류의 매칭 중 하나의 매칭을 선택하여 요청을 할 수 있다.

예를 도 12에 도시된 바와 같이 인터페이스(251) 화면에서 서비스 제공 장치(100)에 접속되어 있는 일반 회원 사용자들과 연결해주는 일반 통화 연결 서비스(253a), 선택한 지역권에 사는 사용자와 연결해주는 지역 통화 연결 서비스(253b), 특정 퍼센테이지에 포함되어 있는 인기 사용자와 연결해주는 매력 통화 연결 서비스(253c)중 하나를 선택하여 대화 연결을 요청할 수 있다.

대화 연결 요청이 수신되면. 서비스 제공 장치(100)는 인공신경망부(120)를 이용하여 딥 러닝을 수행한 후, 이에 기초하여 대화 연결 상대를 매칭할 수 있다.(S50) 대화 연결 상대를 매칭하는 방법에 대해서는 앞서 자세히 설명하였는바 생략하도록 한다.

대화 연결 상대가 매칭이 되면 서비스 제공 장치(100)는 매칭 결과 및 사용자에 대한 정보를 사용자 단말기로 송신할 수 있다.

예를 들어, 제1사용자와 제2사용자가 매칭되었다면, 서비스 제공 장치(100)는 제1사용자 단말기(200)로는 제2사용자에 대한 정보를, 제2사용자 단말기(300)로는 제1사용자에 대한 정보를 송신할 수 있으며, 이에 따라 제1사용자와 제2사용자는 대화를 진행해 나갈 수 있다. (S60, S70)

사용자에게 전달되는 대화 상대방의 정보는 도 13에 도시된 바와 같이 사용자가 입력한 프로필에 대한 정보를 포함할 수 있다. 따라서, 사용자는 이러한 정보를 활용하여 상대방과 손쉽게 대화를 진행해 나갈 수 있다.

또한, 도면에는 도시하지 않았지만 서비스 제공 장치(100)는 사용자가 선호하는 대화 주제를 키워드화하여 이를 통화 중 사용자 단말기(200,300)의 화면에 인터페이스로 제공할 수 있다. 이를 통해 사용자는 대화 상대방이 선호하는 대화 주제를 미리 알 수 있어 상호 간 지속적인 통화를 진행해 나갈 수 있는 효과가 존재한다.

예를 들어, 상대방이 대부분의 통화를 영화 얘기로 시간을 보내는 사용자라면, 영화라는 키워드 뿐만 아니라 세부적으로 언급한 영화 이름과 장르를 같이 대화 상대방에게 인터페이스로 제공할 수 있다.

또한, 통화 중 사용자 단말기의 화면에는 기본적으로 상대방이 입력한 취미, 관심사 정보가 띄워져 있다. 따라서, 사용자들은 이를 기반으로 대화를 진행할 수 있어 대화 초반의 어색한 분위기를 쉽게 넘어갈 수 있다.

또한, 통화 중 화면에는 취미, 관심사 정보 외에도 사용자들이 편하게 대화를 이어나갈 수 있도록 "대화팁"이라는 서비스가 인터페이스로 제공될 수 있다.

대화팁은 "나는 일반적으로 모임에 나가면 먼저 대화를 시작하는 편입니다." 와 같이 서로의 성향을 유추할 수 있는 상황문을 의미한다. 따라서 사용자들은 이를 통해 일상적인 대화 뿐만 아니라 사용자들의 개인 가치관을 드러내는 대화문을 수집하고 이를 기초로 대화를 진행해 나갈 수 도 있다.

또한, 사용자는 특정 주제 또는 질문에 대한 답변을 녹음하여 자신의 프로필에 등록할 수 있으므로, 대화 상대방은 상대방의 이러한 음성 정보를 활용하여 대화를 진행해 나갈 수 도 있다. 음성 정보는 일반적인 글보다 더 직접적으로 가치관을 드러내므로 사용자의 성격을 판단하는데 좋은 정보를 활용될 수 도 있다.

대화가 완료되면 대화 결과는 서비스 제공 장치(100)로 송신되며, 서비스 제공 장치(100)는 대화 결과를 기초로 사용자의 성향을 분석하는 피드백 과정을 진행할 수 있다. (S80, S100)

피드백은 인공신경망부(120)를 통해 수행될 수 있으며, 수행된 결과는 사용자 단말기(200,300)로 송신되어 사용자가 본인의 대화 방법 및 스킬을 스스로 피드백 할 수 도 있다. 피드백 하는 방법에 대해서는 자세히 전술하였는바 생략하도록 한다.

또한, 대화 종료 후, 서로의 대화가 마음에 들었을 경우 서로의 프로필 정보를 교환할 수 있다. (S120)

지금까지 도면을 통해 본 발명의 구성 요소 및 작동 원리에 대해 자세히 알아보았다.

최근에는 오프라인 만남 보다는 단순히 편하게 자신의 생각을 공유하면서 대화를 할 수 있는 사람을 연결해주는 대화 연결 서비스가 출시되어서 많은 사람들의 호응을 얻고 있으나, 종래 기술의 경우 서비스를 제공하는 운영자가 등록된 회원들 사이에 무작위로 매칭을 하여 대화 상대방을 연결해주었기 때문에 서로 간의 대화 스타일이 맞지 않은 경우 지속적인 대화로 이어지지 않는 문제점이 존재하였다.

그러나 일 실시예에 따른 사용자 음성을 기반으로 한 서비스 제공 방법 및 시스템은 사용자의 음성 및 대화를 기초로 사용자의 성향을 분석한 후, 이를 기초로 사용자와 대화를 잘 진행해 나갈 수 있는 상대방을 연결해 주기 때문에, 보다 사용자들끼리 대화를 쉽게 지속해 나갈 수 있는 장점이 존재한다.

또한, 대화 상대를 연결함에 있어서 본인의 취향과 비슷한 취향을 가진 상대방을 연결해주므로, 대화를 진행하기 쉬어 상대방으로 공감을 쉽게 얻을 수 있다.

지금까지 실시 예들이 비록 한정된 실시 예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성 요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 실시 예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

10: 서비스 제공 시스템
100: 서비스 제공 장치
120: 인공신경망부
200: 사용자 단말기
210: 입력부
220: 음성 취득부
230: 통신부
240: 저장부
250: 디스플레이부
260: 제어부

Claims

제1사용자의 음성을 추출하는 단계;
상기 제1사용자의 음성을 기초로 텍스트 정보 또는 음성의 파형 정보를 생성하는 단계;
상기 텍스트 정보 및 상기 음성의 파형 정보를 기초로 상기 제1사용자의 성향을 분석한 후, 상기 분석 결과에 기초하여 상기 제1사용자의 성향에 대응되는 제2사용자를 선정하는 단계;
상기 제1사용자에게 상기 제2사용자와의 대화 연결 서비스를 제공하는 단계; 및
상기 제1사용자와 상기 제2사용자의 대화 정보를 기초로 상기 제1사용자의 감정 상태의 변화에 대한 정보를 취득하고, 취득한 상기 제1사용자의 감정 상태의 변화에 대한 정보를 기초로 상기 제1사용자의 성향에 대응되는 상기 제2사용자를 다시 선정하는 단계;를 포함하는 사용자 음성을 기반으로 한 서비스 제공 방법.
제1항에 있어서,
상기 제1사용자의 성향을 분석하는 단계는,
상기 제1사용자의 텍스트 정보에서 특정 단어의 출현 빈도를 기초로 상기 제1사용자의 성향을 분석하는 단계를 포함하는 사용자 음성을 기반으로 한 서비스 제공 방법.
제1항에 있어서,
상기 제1사용자와 제2사용자와의 통화 후 입력되는 평점 정보, 통화 시간 정보, 통화 연장 여부 정보, 대화 중 특정 단어의 출현 빈도 및 유료 결제 여부 정보 중 적어도 하나를 기초로 상기 제1사용자의 성향을 분석하는 단계 및 상기 제2사용자를 선정하는 단계를 피드백하는 단계를 더 포함하는 사용자 음성을 기반으로 한 서비스 제공 방법.
제1항에 있어서,
상기 제1사용자의 성향을 분석하는 단계와 상기 제2사용자를 선정하는 단계는,
사용자 음성 정보 및 사용자 프로필 정보 중 적어도 하나를 입력값으로 하고 사용자의 감정 정보 및 성향 정보를 출력값으로 하여, CNN(Convolutional Neural Network) 기반의 음성 감정 인식 모델을 기초로 딥-러닝을 수행하여 상기 제1사용자의 성향을 분석하고 상기 제2사용자를 선정하는 단계를 포함하는 사용자 음성을 기반으로 한 서비스 제공 방법.
제 4항에 있어서,
상기 CNN 기반의 음성 감정 인식 모델은,
소프트맥스(softmax)층 대신 각각의 신경망의 출력값을 Concatenate 층에서 연결한 후, 다항 로지스틱 회귀(Multinomial logistic regression)를 적용하여 구현된 구조를 적용한 사용자 음성을 기반으로 한 서비스 제공 방법.
제 5항에 있어서,
상기 CNN 기반의 음성 감정 인식 모델은,
멜 스펙토그램, MFCC, Roll off, Centroid 중 적어도 하나를 특징값으로 이용한 사용자 음성을 기반으로 한 서비스 제공 방법.
제1항에 있어서,
상기 제1사용자의 성향을 분석하는 단계는,
성향 분석 설문에 대한 상기 제1사용자의 응답 정보를 기초로 상기 제1사용자의 성향을 분석하는 단계를 포함하는 사용자 음성을 기반으로 한 서비스 제공 방법.
제1항에 있어서,
상기 제1사용자의 성향을 분석하는 단계는,
상기 제1사용자의 성별, 나이, 음성의 음역대 및 속도 중 적어도 하나를 이용하여 상기 제1사용자의 성향을 분석하는 단계를 포함하는 사용자 음성을 기반으로 한 서비스 제공 방법.
제1항에 있어서,
상기 제2사용자를 선정하는 단계는,
상기 제1사용자가 시간대별로 선호하는 대화 종류에 기초하여 제2사용자를 선정하는 단계를 포함하는 사용자 음성을 기반으로 한 서비스 제공 방법.
제1사용자 단말기; 및
상기 제1사용자 단말기로부터 제1사용자의 음성 정보를 수신하는 통신부;
상기 음성 정보를 기초로 상기 제1사용자의 텍스트 정보 및 음성의 파형 정보를 생성한 후, 생성된 정보에 기초하여 상기 제1사용자의 성향을 분석하고, 상기 제1사용자와 다른 사용자와의 대화를 기초로 상기 제1사용자의 감정 상태의 변화에 대한 정보를 취득한 후,
상기 제1사용자의 성향 및 상기 제1사용자의 감정 상태의 변화에 대한 정보를 기초로 상기 제1사용자의 성향에 대응되는 제2사용자를 선정하는 인공신경망부;를 포함하는 사용자 음성을 기반으로 한 서비스 제공 시스템.
삭제
삭제
제10항에 있어서,
상기 인공신경망부는,
상기 제1사용자와 제2사용자와의 통화 후 입력되는 평점 정보, 통화 시간 정보, 통화 연장 여부 정보, 대화 중 특정 단어의 출현 빈도 및 유로 결제 여부 정보 중 적어도 하나를 기초로 피드백을 수행하여 상기 제1사용자의 성향을 분석하고 상기 제2사용자를 선정하는 사용자 음성을 기반으로 한 서비스 제공 시스템.
제10항에 있어서,
상기 인공신경망부는,
사용자 음성 정보 및 사용자 프로필 정보 중 적어도 하나를 입력값으로 하고 사용자의 감정 정보 및 성향 정보를 출력값으로 하여, CNN(Convolutional Neural Network) 기반의 음성 감정 인식 모델을 기초로 딥-러닝을 수행하여 상기 제1사용자의 성향을 분석하고 상기 제2사용자를 선정하는 사용자 음성을 기반으로 한 서비스 제공 시스템.
삭제