KR102605178B1

KR102605178B1 - 가족 관계에 기초하여 음성 데이터를 생성하는 장치, 방법 및 컴퓨터 프로그램

Info

Publication number: KR102605178B1
Application number: KR1020200157946A
Authority: KR
Inventors: 신보라; 박재한
Original assignee: 주식회사 케이티
Priority date: 2020-07-10
Filing date: 2020-11-23
Publication date: 2023-11-24
Also published as: KR20220154655A; KR20220007490A

Abstract

음성 데이터를 생성하는 장치는 가족 구성원의 음성 데이터에 기초하여, 상기 가족 구성원의 가족 관계에 해당하는 복수의 가족 관계 모델을 생성하는 가족 관계 모델 생성부, 음성 데이터를 생성하고자 하는 사용자와 관련된 가족 구성원의 음성 데이터를 입력받는 입력부, 상기 사용자 및 상기 가족 구성원 간의 가족 관계에 기초하여 상기 복수의 가족 관계 모델 중 하나의 가족 관계 모델을 선택하는 선택부 및 상기 선택된 가족 관계 모델에 상기 가족 구성원의 음성 데이터를 입력하여 상기 사용자의 음성 데이터를 생성하는 생성부를 포함한다.

Description

가족 관계에 기초하여 음성 데이터를 생성하는 장치, 방법 및 컴퓨터 프로그램{DEVICE, METHOD AND COMPUTER PROGRAM FOR GENERATING VOICE DATA BASED ON FAMILY RELATIONSHIP}

본 발명은 음성 데이터를 생성하는 장치, 방법 및 컴퓨터 프로그램에 관한 것이다.

음성 합성 기술(TTS, Text-To-Speech)이란 말소리의 음파를 기계가 자동으로 생성하는 기술로, 모델로 선정된 한 사람의 말소리를 녹음하여 일정한 음성 단위로 분할한 후, 부호를 붙여 합성기에 입력한 후 지시에 따라 필요한 음성 단위만을 다시 합쳐 말소리를 인위적으로 만들어내는 기술을 의미한다.

최근에는 음성 합성 기술을 이용하여 원하는 목소리를 학습하여 문맥에 따른 높낮이, 강세, 발음을 학습함으로써, 자연스러운 개인화된 음성 서비스를 제공할 수 있게 되었다.

이러한 개인화된 음성 서비스를 제공하는 기술과 관련하여, 선행기술인 한국공개특허 제 2020-0016516호는 개인화된 가상 음성 합성 장치 및 방법을 개시하고 있다.

그러나 종래의 음성 합성 기술을 이용하여 특정 목소리를 복원하고자 하는 경우, 복원하고자 하는 특정 사용자의 발화 데이터의 수집이 충분한 시간 동안 이루어져야 한다. 그러나 선천적으로 목소리를 내지 못하는 장애를 가진 농아인의 경우, 농아인의 목소리를 충분히 확보할 수 없음에 따라 목소리를 복원하기 어렵다는 단점을 가지고 있다.

복수의 가족 구성원의 음성 데이터에 기초하여 가족 구성원의 가족 관계에 해당하는 복수의 가족 관계 모델을 생성하는 장치, 방법 및 컴퓨터 프로그램을 제공하고자 한다.

음성 데이터를 복원하고자 하는 사용자와 관련된 가족 구성원의 음성 데이터를 입력받고, 사용자 및 가족 구성원 간의 가족 관계에 기초하여 복수의 가족 관계 모델 중 하나의 가족 관계 모델을 선택하고, 선택된 가족 관계 모델에 가족 구성원의 음성 데이터를 입력하여 사용자의 음성 데이터를 생성하는 장치, 방법 및 컴퓨터 프로그램을 제공하고자 한다.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 수단으로서, 본 발명의 일 실시예는, 복수의 가족 구성원의 음성 데이터에 기초하여, 상기 가족 구성원의 가족 관계에 해당하는 복수의 가족 관계 모델을 생성하는 가족 관계 모델 생성부, 음성 데이터를 생성하고자 하는 사용자와 관련된 가족 구성원의 음성 데이터를 입력받는 입력부, 상기 사용자 및 상기 가족 구성원 간의 가족 관계에 기초하여 상기 복수의 가족 관계 모델 중 하나의 가족 관계 모델을 선택하는 선택부 및 상기 선택된 가족 관계 모델에 상기 가족 구성원의 음성 데이터를 입력하여 상기 사용자의 음성 데이터를 생성하는 생성부를 포함하는 음성 데이터 생성 장치를 제공할 수 있다.

본 발명의 다른 실시예는, 목소리 생성 서비스를 이용할 사용자의 식별자 정보를 포함하는 농아인 정보를 등록받는 단계, 상기 등록받은 농아인 정보에 기초하여 상기 목소리 생성 서비스에 대한 인증 프로세스를 수행하는 단계, 상기 인증 프로세스의 결과에 기초하여 타사용자 단말과의 통화 서비스를 수행하는 단계 및 상기 통화 서비스가 수행되는 중에 텍스트 정보 또는 음성을 입력받는 단계를 포함하고, 상기 인증 프로세스의 결과에 따라 상기 통화 서비스가 농아인 모드로 제공되는 경우, 상기 텍스트 정보는 상기 등록받은 농아인 정보와 대응되는 가족 관계 모델에 기초하여 음성 데이터로 변환되고, 상기 변환된 음성 데이터는 상기 타사용자 단말로 전달되는 것인 목소리 생성 서비스 제공 방법을 제공할 수 있다.

본 발명의 또 다른 실시예는, 목소리 생성 서비스를 이용할 사용자 식별자 정보를 포함하는 농아인 정보를 등록받는 등록부, 상기 등록받은 농아인 정보에 기초하여 상기 목소리 생성 서비스에 대한 인증 프로세스를 수행하는 인증 프로세스 수행부, 상기 인증 프로세스의 결과에 기초하여 타사용자 단말과의 통화 서비스를 수행하는 통화 서비스 수행부 및 상기 통화 서비스가 수행되는 중에 텍스트 정보 또는 음성을 입력받는 입력부를 포함하고, 상기 인증 프로세스의 결과에 따라 상기 통화 서비스가 농아인 모드로 제공되는 경우, 상기 텍스트 정보는 상기 등록받은 농아인 정보와 대응되는 가족 관계 모델에 기초하여 음성 데이터로 변환되고, 상기 변환된 음성 데이터는 상기 타사용자 단말로 전달되는 것인 사용자 단말을 제공할 수 있다.

상술한 과제 해결 수단은 단지 예시적인 것으로서, 본 발명을 제한하려는 의도로 해석되지 않아야 한다. 상술한 예시적인 실시예 외에도, 도면 및 발명의 상세한 설명에 기재된 추가적인 실시예가 존재할 수 있다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 종래에는 음성 합성에 활용할 데이터를 많이 확보함으로써 특정 목소리의 데이터를 이용하여 원하는 음성이 발화되도록 합성할 수 있었으나, 본 발명은 특정 목소리의 음성 데이터가 없어도 가족 구성원의 음성 데이터를 이용하여 사용자의 데이터를 생성하는 장치, 방법 및 컴퓨터 프로그램을 제공할 수 있다.

선천적으로 말을 하지 못하는 장애를 가진 사용자에게 자신의 목소리를 가질 수 있도록 사용자 및 가족 구성원 간의 가족 관계에 기초하여 사용자의 목소리를 복원하는 장치, 방법 및 컴퓨터 프로그램을 제공할 수 있다.

자신의 목소리로서 합성된 음성 데이터를 통화를 통해 상대방에게 제공하여 상대방과 대화하는 듯한 상황을 조성할 수 있도록 하는 서비스를 제공하는 장치, 방법 및 컴퓨터 프로그램을 제공할 수 있다

도 1은 본 발명의 일 실시예에 따른 음성 데이터 생성 장치의 구성도이다.
도 2a 및 도 2b는 본 발명의 일 실시예에 따른 복수의 가족 관계에 포함된 가족 구성원의 성별 정보에 기초하여 복수의 가족 관계를 분류하는 전처리 과정을 설명하기 위한 예시적인 도면이다.
도 3은 본 발명의 일 실시예에 따른 복수의 가족 구성원 간의 피치 거리값, 피치 분포도, 나이 차이값에 기초하여 가족 관계를 분류하는 과정을 설명하기 위한 예시적인 도면이다.
도 4a 내지 도 4e는 본 발명의 일 실시예에 따른 가족 관계 모델을 생성하는 과정을 설명하기 위한 예시적인 도면이다.
도 5a 내지 도 5c는 본 발명의 일 실시예에 따른 사용자와 관련된 가족 구성원의 음성 데이터에 기초하여 선택된 가족 관계 모델을 이용하여 사용자의 음성 데이터를 생성하는 과정을 설명하기 위한 예시적인 도면이다.
도 6a 내지 도 6d는 본 발명의 일 실시예에 따른 사용자 단말에서 인증 프로세스를 통해 통화 서비스를 수행하는 과정을 설명하기 위한 예시적인 도면이다.
도 7a 내지 도 7c는 본 발명의 일 실시예에 따른 사용자 단말에서 앱을 통해 사용자의 음성 데이터 서비스를 제공받는 과정을 설명하기 위한 예시적인 도면이다.
도 8a 및 도 8b는 본 발명의 일 실시예에 따른 사용자의 음성 데이터를 생성하여 통화 서비스를 제공하는 과정을 설명하기 위한 예시적인 도면이다.
도 9는 본 발명의 일 실시예에 따른 음성 데이터 생성 장치에서 음성 데이터를 생성하는 방법의 순서도이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1 개의 유닛이 2 개 이상의 하드웨어를 이용하여 실현되어도 되고, 2 개 이상의 유닛이 1 개의 하드웨어에 의해 실현되어도 된다.

본 명세서에 있어서 단말 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말 또는 디바이스에서 수행될 수도 있다.

이하 첨부된 도면을 참고하여 본 발명의 일 실시예를 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 음성 데이터 생성 장치의 구성도이다. 도 1을 참조하면, 음성 데이터 생성 장치(100)는 가족 관계 모델 생성부(110), 입력부(120), 선택부(130) 및 생성부(140)를 포함할 수 있다.

가족 관계 모델 생성부(110)는 복수의 가족 구성원의 음성 데이터에 기초하여 가족 구성원의 가족 관계에 해당하는 복수의 가족 관계 모델을 생성할 수 있다. 여기서, 복수의 가족 관계 모델은 예를 들어, 성별 정보, 피치 거리값, 피치 분포값, 나이 차이값 등에 기초하여 생성될 수 있다. 예를 들어, 가족 관계 모델 생성부(110)는 성별 정보, 피치 거리값, 피치 분포값, 나이 차이값에 기초하여 총 24개의 가족 관계 모델을 생성할 수 있다. 가족 관계 모델을 생성하는 과정에 대해서는 도 2a 내지 도 3을 통해 상세히 설명하도록 한다.

도 2a 및 도 2b는 본 발명의 일 실시예에 따른 복수의 가족 관계에 포함된 가족 구성원의 성별 정보에 기초하여 복수의 가족 관계를 분류하는 전처리 과정을 설명하기 위한 예시적인 도면이다.

가족 관계 모델 생성부(110)는 복수의 가족 관계에 포함된 가족 구성원의 성별 정보에 기초하여 복수의 가족 관계를 분류할 수 있다.

예를 들어, 남성(200)과 여성(210)이 동일한 문자를 발화하였다고 가정하자. 도 2a 및 도 2b를 참조하면, 동일한 조건에서 남성(200)과 여성(210)의 주파수별 특징은 매우 다르게 나타나는 것을 확인할 수 있다.

이는, 사람마다 가지고 있는 고유 목소리인 피치(pitch)가 성대 길이, 크기, 긴장에 따라 달라지는데, 성별에 따른 기본 주파수의 차이가 주로 성대의 크기와 길이의 차이로 인해 발생되기 때문이다. 예를 들어, 사춘기 이전의 남성(200) 및 여성(210)의 피치의 차이는 거의 없으나, 사춘기 이후부터 남성의 후두가 커지고, 성대가 길어지면서, 남성(200)의 주파수가 여성(210)의 주파수보다 낮아지게 된다.

따라서, 가족 관계 모델 생성부(110)는 복수의 가족 관계에 포함된 가족 구성원의 성별 정보에 기초하여 복수의 가족 관계를 모녀 관계, 부자 관계, 자매 관계, 형제 관계 등으로 분류할 수 있다.

도 3은 본 발명의 일 실시예에 따른 복수의 가족 구성원 간의 피치 거리값, 피치 분포도, 나이 차이값에 기초하여 가족 관계를 분류하는 과정을 설명하기 위한 예시적인 도면이다. 도 3을 참조하면, 가족 관계 모델 생성부(110)는 복수의 가족 구성원의 음성 데이터 간의 피치 거리값에 기초하여 가족 관계를 복수의 가족 관계 그룹으로 분류하여 복수의 가족 관계 그룹 모델을 생성할 수 있다. 여기서, 피치(pitch)란 사람 마다 가지고 있는 고유 목소리를 나타내는 것으로, 성대 길이, 크기, 긴장에 따라 다르다.

예를 들어, 가족 관계 모델 생성부(110)는 복수의 가족 구성원의 성별 정보에 기초하여 가족 관계를 자매 관계(300)로 분류한 경우, 자매의 음성 데이터 간의 피치 거리값이 가까운지 여부에 따라 가족 관계를 더 분류할 수 있다.

일반적으로 사람의 음색을 나타내는 가장 큰 지표는 음성의 톤(tone)이며, 음성의 톤(tone)은 목소리를 여성, 남성, 아이, 어른으로 구분할 수 있는 지표이기도 하다. 그러나 가족 관계의 경우, 예를 들어, 자매 관계(300)에 포함된 구성원의 쌍 간의 목소리는 유사하지만, 유사한 정도는 매우 작을 수도 있고, 클 수도 있다. 따라서, 가족 관계 모델 생성부(110)는 피치 거리값에 기초하여 구성원 쌍 간의 목소리 유사 정도에 기초하여 가족 관계를 더 분류할 수 있다. 가족 관계 모델 생성부(110)는, 예를 들어, 다음의 수학식 1을 이용하여 피치 거리값을 산출할 수 있다.

수학식 1을 참조하면, 예를 들어, 가족 관계 모델 생성부(110)는 제 1 음성 데이터 및 제 2 음성 데이터가 서로 가족 관계에 있으므로, 독립적이지 않은 데이터(공분산이 존재하는 경우)로 판단하고, 마할라노비스 거리(Mahalanobis distance)를 이용하여 피치 거리값을 산출할 수 있다.

예를 들어, 가족 관계 모델 생성부(110)는 피치 거리값에 기초하여 가족 관계를 피치 거리값이 임계치 초과(310)인 경우와 피치 거리값이 임계치 미만(320)인 경우로 가족 관계 그룹을 분류할 수 있다. 여기서, 피치 거리값이 임계치 초과(310)인 경우는 피치 거리값이 먼 경우를 의미하고, 피치 거리값이 임계치 미만(320)인 경우는 피치 거리값이 가까운 경우를 의미하는 것일 수 있다.

이 때, 가족 관계 모델 생성부(110)는 피치 거리값에 기초하여 분류된 가족 관계를 피치 분포값에 기초하여 가족 관계 그룹을 더 분류할 수 있다. 이는, 음성 데이터의 스펙트럼을 분석하면 에너지 분포도의 차이가 뚜렷하게 존재하기 때문이다.

예를 들어, 가족 관계 모델 생성부(110)는 피치 거리값이 임계치 미만(320)인 경우에 대해 유사한 두 음성 데이터들의 피치 거리값이 존재하는 주파수 대역에 기초하여 저주파수(low frequency) 대역(322) 또는 고주파수(high frequency) 대역(321)으로 가족 관계 그룹을 더 분류할 수 있다.

이는, 사람의 귀가 로그 스케일(log scale)로 인식하므로, 동일한 주파수 만큼의 차이를 갖는 두 데이터도 저주파수 대역(322)에 존재하는 데이터와 고주파수 대역(321)에 존재하는 데이터를 같은 값으로 변경한 경우, 변경한 데이터를 들었을 때 느끼는 차이는 다를 수 있기 때문이다. 일반적으로 사람의 귀는 저주파수 대역(322)에서 더 민감하다. 만약, 음성 합성을 위해 고주파수 대역(321)의 값을 '2'만큼 변경했을 때와 저주파수 대역(322)의 값을 '2'만큼 변경했을 때, 사람이 듣기에는 저주파수 대역(322)의 값이 더 크게 변화되었다고 생각할 수 있다. 따라서, 가족 관계 모델 생성부(110)는 저주파수 대역(322)에 대해서는 더 민감하게 데이터를 변경하도록 가족 관계 그룹 모델을 생성하도록 할 수 있다.

가족 관계 모델 생성부(110)는 복수의 가족 구성원 간의 나이 차이값에 기초하여 가족 관계를 복수의 가족 관계 그룹으로 분류하고, 복수의 가족 관계 모델을 생성할 수 있다. 이는, 나이가 목소리에 영향을 주는 한 요인이기도 하므로, 목소리의 변환 또는 합성 시 사람의 음성 톤이 비슷하더라도 나이 차이를 고려해야 한다.

예를 들어, 가족 관계 모델 생성부(110)는 자매 관계(300)에 대해 피치 거리값이 임계치 초과(310)인 경우에 대해 나이 차이값에 기초하여 가족 관계를 제 1 그룹(311)(두 가족 구성원 간의 나이 차이값이 임계치를 초과하는 경우) 또는 제 2 그룹(312)(두 가족 구성원 간의 나이 차이값이 임계치 미만인 경우)으로 분류할 수 있다.

다른 예를 들어, 가족 관계 모델 생성부(110)는 자매 관계(300)에 대해 피치 거리값이 고주파 대역(321)으로 분류된 경우, 나이 차이값에 기초하여 제 3 그룹(330) 또는 제 4 그룹(331)으로 분류할 수 있다. 이와 달리, 가족 관계 모델 생성부(110)는 자매 관계(300)에 대해 피치 거리값이 저주파 대역(322)으로 분류된 경우, 나이 차이값에 기초하여 제 5 그룹(340) 또는 제 6 그룹(341)으로 분류할 수 있다.

이와 같이, 가족 관계 모델 생성부(110)는 가족 구성원의 성별 정보에 기초하여 분류된 자매 관계(300)에 대해 피치 거리값, 피치 분포도, 나이 차이값 등에 기초하여 가족 관계를 더 분류함으로써, 복수의 가족 관계 그룹을 총 6개의 가족 관계 그룹으로 분류할 수 있다.

도 4a 내지 도 4d는 본 발명의 일 실시예에 따른 가족 관계 모델을 생성하는 과정을 설명하기 위한 예시적인 도면이다.

도 4a는 본 발명의 일 실시예에 따른 오토인코더를 도시한 예시적인 도면이다. 도 4a를 참조하면, 오토인코더(AutoEncoder)는 인코더(410) 및 디코더(411)를 포함하며, 인코더(410) 및 디코더(411)를 이용하여 입력(400)과 출력(401)의 값을 근사시키기 위한 기술로, 입력(400)과 출력(401)의 차원이 동일하다는 특징을 가지고 있다.

오토인코더는 신경망의 각 층을 단계적으로 학습해나가다, 최종 출력(output)이 최초 입력(input)을 재현하도록 하는 것을 주된 특징으로 하고 있다. 입력(400)과 출력(401) 층의 차원(노드의 개수)은 동일하되, 히든 레이어(hidden layer)가 입력층 및 출력층보다 차원이 낮음으로써, 신경망은 입력 데이터들을 압축하여 특징을 추출하고, 추출한 특징을 기반으로 입력(400)을 최대한 재현한 출력 데이터를 도출할 수 있다.

오토인코더는 히든 레이어를 여러 층으로 쌓아 구현함으로써, 더 의미 있는 특징(feature)을 추출할 수 있게 된다. , 예를 들어, 가장 작은 압축된 특징을 획득할 수 있는 코드(code) 부분은 보틀넥 히든 레이어(bottleneck hidden layer)일 수 있다. 여기서, 오토인코더의 입력벡터는 이면, 히든 레이어를 통해 보틀넥 히든 레이어의 코드로서 로 표현될 수 있다.

이러한 과정은 결정적 매핑(deterministic mapping)이라는 일종의 압축 과정으로, 입력(400)으로부터 의미있는 특징을 추출하는 과정을 의미한다. 결정적 매핑은, 예를 들어, 다음의 수학식 2를 통해 설명될 수 있다.

수학식 2를 참조하면, θ=W, b의 모수를 의미하고, W는 d*D의 가중치 행렬(Weight matrix)이고, b는 bias를 의미할 수 있다.

히든 레이어에서 계산되는 코드 값인 y는 다시 복원된 벡터인 으로 매핑될 수 있다. 이 때, 매핑은, 예를 들어, 다음의 수학식 3을 통해 이루어질 수 있으며, 손실함수는, 예를 들어, 다음의 수학식 4을 통해 도출될 수 있다.

이러한 학습 과정을 통해, 가족 관계 모델 생성부(110)는 예를 들어, wav 파일 형식의 음성 데이터를 입력받으면, 입력된 음성 데이터로부터 음성을 잘 표현할 수 있도록 압축된 특징 벡터로 변환할 수 있다.

도 4b 및 도 4c는 본 발명의 일 실시예에 따른 자매 관계에 해당하는 음성 데이터로부터 코드 변환을 수행하는 과정을 설명하기 위한 예시적인 도면이다.

가족 관계 모델 생성부(110)는 복수의 가족 구성원 중 제 1 가족 구성원의 음성 데이터로부터 제 1 특징 벡터를 도출하고, 제 2 가족 구성원의 음성 데이터로부터 제 2 특징 벡터를 도출하고, 제 1 특징 벡터 및 제 2 특징 벡터에 기초하여 제 1 가족 구성원과 제 2 가족 구성원의 가족 관계에 대응하는 가족 관계 모델을 생성할 수 있다.

가족 관계 모델 생성부(110)는 제 1 특징 벡터 및 제 2 특징 벡터를 통해 목소리 유사성 모델링을 수행하여 가족 관계 모델을 생성할 수 있다.

도 4b를 참조하면, 가족 관계 모델 생성부(110)는 자매 관계 중 언니(420)의 음성 모델을 오토인코더를 이용하여 훈련시킬 수 있다. 예를 들어, 가족 관계 모델 생성부(110)는 언니의 음성 데이터를 입력받으면, 오토인코딩 과정을 통해 보틀넥 레이어(bottleneck layer)로 효과적인 특징(feature)을 추출해낼 수 있도록 훈련시킬 수 있다.

사용자의 음성을 비지도 학습(unsupervised learning)하여 언니의 발화 음성을 가장 효과적으로 표현할 수 있는 특징(feature)을 통한 보틀넥 레이어(bottleneck layer)의 제 1 특징 벡터로 인코딩 부분(421)에서 추출할 수 있다. 이 때, 추출된 언니의 코드는 'c1'일 수 있다.

도 4c를 참조하면, 가족 관계 모델 생성부(110)는 자매 관계 중 여동생(430)의 음성 모델을 오토인코더를 이용하여 훈련시킬 수 있다. 예를 들어, 가족 관계 모델 생성부(110)는 여동생의 음성 데이터를 입력받으면, 출력을 입력에 근사시킬 수 있을 때까지 학습을 반복시킬 수 있다.

가족 관계 모델 생성부(110)는 보틀넥 레이어를 통해 여동생의 음성이 잘 반영된 제 2 특징 벡터를 인코딩 부분(431)에서 추출할 수 있다. 이 때, 추출된 여동생의 코드는 'c2'일 수 있다.

도 4d를 참조하면, 가족 관계 모델 생성부(110)는 언니(420)의 음성 모델로부터 도출된 코드인 'c1'(440)을 여동생(430)의 음성 모델로부터 도출된 코드인 'c2'(450)으로 변환되도록 모델링을 수행할 수 있다. 이는, 자매 관계에 있는 데이터들의 코드 쌍은 유사성을 지니고 있어 모델링이 가능하며, 자매 관계에 있는 데이터 쌍들을 입력과 출력으로 학습시켜 유사 관계를 학습시킴으로써, 자매 관계에 대한 상관 관계 모델링을 수행하여 자매 관계 모델을 생성할 수 있다.

도 4e를 참조하면, 가족 관계 모델 생성부(110)는 자매 관계에 대한 모델링이 수행된 경우, 언니(420)의 인코더 부분(421)과 여동생(430)의 디코더 부분(431)을 연결시킬 수 있다. 예를 들어, 가족 관계 모델 생성부(110)는 입력 데이터를 언니(420)의 인코더 부분(421)에 입력하여 보틀넥 레이어를 통해 특징을 추출하면, 자매 관계 모델이 code2code로 유사한 음성을 추론할 수 있다. 이 때, 해당 음성의 코드(code)로 변환 후, 여동생(430)의 디코딩 부분(431)을 통해 음성이 출력될 수 있다.

입력부(120)는 음성 데이터를 생성하고자 하는 사용자와 관련된 가족 구성원의 음성 데이터를 입력받을 수 있다. 예를 들어, 입력부(120)는 선천적으로 말을 할 수 없는 장애를 가진 농아인과 관련된 가족 구성원(예를 들어, 엄마, 언니 등)의 음성 데이터를 입력받을 수 있다.

선택부(130)는 사용자 및 가족 구성원 간의 가족 관계에 기초하여 복수의 가족 관계 그룹 모델 중 하나의 가족 관계 그룹 모델을 선택할 수 있다. 예를 들어, 선택부(130)는 사용자 및 가족 구성원 간의 가족 관계가 '자매 관계'인 경우, 자매 관계에 해당하는 가족 관계 그룹 모델을 선택할 수 있다,

선택부(130)는 사용자 및 가족 구성원 간의 성별 정보에 더 기초하여 복수의 가족 관계 그룹 모델 중 하나의 가족 관계 그룹 모델을 선택할 수 있다. 예를 들어, 사용자 및 가족 구성원이 모두 남자인 경우, 선택부(130)는 남성들로만 구성된 형제 관계에 해당하는 가족 관계 모델 또는 부자 관계에 해당하는 가족 관계 그룹 모델을 선택할 수 있다.

선택부(130)는 사용자 및 가족 구성원 간의 나이 차이값에 더 기초하여 복수의 가족 관계 그룹 모델 중 하나의 가족 관계 그룹 모델을 선택할 수 있다. 예를 들어, 사용자 및 가족 구성원 간의 가족 관계가 '자매 관계'이고 사용자 및 가족 구성원 간이 나이 차이값이 임계치 초과 또는 임계치 미만인 경우에 따라, 선택부(130)는 자매 관계에 해당하는 가족 관계 그룹 모델 중 나이 차이값이 임계치를 초과하는 가족 관계 그룹 모델 또는 나이 차이값이 임계치 미만인 가족 관계 그룹 모델을 선택할 수 있다.

일 실시예에 따르면, 선택부(130)는 사용자의 목소리 데이터가 일부 존재하는 경우, 사용자의 목소리 데이터 및 가족 구성원의 음성 데이터에 기초하여 복수의 가족 관계 그룹 모델 중 하나의 가족 관계 그룹 모델을 선택할 수 있다. 여기서, 사용자의 목소리 데이터는 사용자의 성대 울림 등을 통해 발성된 목소리 중 음성으로 이용 가능한 정도의 데이터일 수 있다.

선택부(130)는 사용자의 목소리 데이터 및 가족 구성원의 음성 데이터 간의 피치 거리값에 더 기초하여 복수의 가족 관계 그룹 모델 중 하나의 가족 관계 그룹 모델을 선택할 수 있다. 예를 들어, 사용자 및 가족 구성원 간의 가족 관계가 '자매 관계'인 경우, 복원하고자 하는 사용자의 음성의 'f0'값과 가족 구성원의 음성의 'f0'값 간의 피치 거리값에 기초하여 자매 관계에 해당하는 가족 관계 모델 중 피치 거리값이 임계치 미만에 해당하는 가족 관계 그룹 모델 또는 피치 거리값이 임계치 초과에 해당하는 가족 관계 그룹 모델을 선택할 수 있다.

선택부(130)는 사용자의 목소리 데이터 및 가족 구성원의 음성 데이터 간의 피치 분포값에 더 기초하여 복수의 가족 관계 그룹 모델 중 하나의 가족 관계 그룹 모델을 선택할 수 있다. 예를 들어, 사용자 및 가족 구성원 간의 가족 관계가 '자매 관계'이고 사용자 및 가족 구성원의 피치 분포값이 저주파수 대역 또는 고주파수 대역인 경우에 따라, 선택부(130)는 자매 관계에 해당하는 가족 관계 그룹 모델 중 저주파수에 해당하는 가족 관계 그룹 모델 또는 고주파수에 해당하는 가족 관계 그룹 모델을 선택할 수 있다.

생성부(140)는 사용자의 목소리 데이터 및 가족 구성원의 음성 데이터에 기초하여 선택된 가족 관계 모델에 가족 구성원의 음성 데이터를 입력하여 사용자의 음성 데이터를 생성할 수 있다. 여기서, 사용자의 음성 데이터는 사용자 및 상대방 간의 통화 서비스 중에 제공될 수 있다.

다른 실시예에 따르면, 선택부(130)는 사용자의 목소리 데이터가 존재하지 않은 경우, 사용자와 관련된 가족 구성원의 음성 데이터에 기초하여 복수의 가족 관계 그룹 모델 중 하나의 가족 관계 그룹 모델을 선택할 수 있다. 사용자의 목소리 데이터가 존재하지 않은 경우에 가족 관계 그룹 모델을 선택하여 사용자의 음성 데이터를 생성하는 과정에 대해서는 도 5a 내지 도 5c를 통해 상세히 설명하도록 한다.

도 5a 내지 도 5c는 본 발명의 일 실시예에 따른 사용자와 관련된 가족 구성원의 음성 데이터에 기초하여 선택된 가족 관계 그룹 모델을 이용하여 사용자의 음성 데이터를 생성하는 과정을 설명하기 위한 예시적인 도면이다. 이하에서는, 농아인이 언니이고, 건청인이 여동생인 경우를 가정하여 설명하도록 한다.

도 5a를 참조하면, 음성으로 이용 가능한 농아인인 언니의 목소리 데이터가 존재하지 않은 경우, 선택부(130)는 언니 및 여동생 간의 관계에 기초하여 복수의 가족 관계 그룹 모델 중 자매 관계(500)에 해당하는 가족 관계 그룹 모델을 선택할 수 있다.

이후, 선택부(130)는 선택한 자매 관계(500)에 해당하는 가족 관계 그룹 모델 중 농아인인 언니와 건청인인 여동생 간의 나이를 비교하여, 나이 차이값이 임계치 초과 또는 임계치 미만인 경우에 따라, 선택부(130)는 자매 관계(500)에 해당하는 가족 관계 그룹 모델 중 나이 차이값이 임계치를 초과 또는 미만인지 여부에 기초하여 제 1 그룹(510) 또는 제 2 그룹(511)에 해당하는 모델을 선택할 수 있다.

마지막으로, 선택부(130)는 선택된 제 1 그룹 모델(510) 또는 제 2 그룹 모델(511)과 여동생의 음성 데이터와의 유사도에 기초하여 최종적으로 제 3 그룹 모델(520) 내지 제 6 그룹(523) 중 어느 하나에 해당하는 모델을 선택할 수 있다.

도 5b를 참조하면, 생성부(140)는 오토인코더 또는 CNN(Convolution Neural Network)를 이용하여 여동생의 음성 데이터로부터 특징 벡터를 추출할 수 있다. 예를 들어, 10ms단위의 여동생의 음성 데이터로부터 멜 스펙트로그램(Mel Spectrogram)을 40차원(N차원 가능)으로 추출할 수 있다. 이 때, 생성부(140)는 M(음성 데이터의 시간 길이)x40차원의 매트릭스를 생성하고, 생성된 매트릭스를 CNN의 풀링(pooling)을 통해 여동생의 음성에 대한 특징을 추출한 후, 특징 벡터(1x256)를 추출할 수 있다. 여기서, CNN의 풀링은 특성맵을 다운 샘플링하는 역할로, 입력 변수량을 축소시키는 역할을 할 수 있다.

이후, 선택부(130)는 다음의 수학식 5를 이용하여, 여동생의 음성 특징에 해당하는 A와 제 3 그룹(520) 내지 제 6 그룹(523) 중 최종적으로 선택된 어느 하나의 그룹의 기훈련된 가족 데이터인 B간의 비교를 통해 가장 유사한 화자를 선택할 수 있다.

이후, 생성부(140)는 피드 포워드 네트워크(Feed Forward Network) 구조로 구성된 딥러닝 모델을 이용하여 특징 벡터 간의 유사도를 분석할 수 있다. 여기서, 피드 포워드 네트워크는 입력층(input layer)으로 데이터가 입력되고, 1개 이상으로 구성된 은닉층(hidden layer)을 거쳐 마지막의 출력층(output layer)으로 출력값을 내보내는 구조로 구성될 수 있다.

예를 들어, 생성부(140)는 Fully Connected Network를 이용하여 유사도를 분석할 수 있다. 여기서, Fully Connected Network는 딥러닝의 마지막에서 분류를 결정하는 층으로, 1차원 벡터로 변환된 레이어를 하나의 벡터로 연결시키는 역할을 한다.

예를 들어, 여동생의 음성 데이터로부터 출된 특징 벡터는 X(540)와 맵핑될 수 있다. 이 때, Y(541)는 훈련에 이용된 화자의 인덱스가 될 수 있다. 인덱스는 화자의 순번에 따라 '1번 화자: 1', '100번 화자: 100'과 같이 인덱스가 부여될 수 있다. 생성부(140)는 사용자와 관련된 가족 구성원의 음성 데이터에 기초하여 선택된 가족 관계 모델에 가족 구성원의 음성 데이터를 입력하여 사용자의 음성 데이터를 생성할 수 있다. 여기서, 사용자의 음성 데이터는 사용자 및 상대방 간의 통화 서비스 중에 제공될 수 있다.

이러한 음성 데이터 생성 장치(100)는 음성 데이터를 생성하는 명령어들의 시퀀스를 포함하는 매체에 저장된 컴퓨터 프로그램에 의해 실행될 수 있다. 컴퓨터 프로그램은 컴퓨팅 장치에 의해 실행될 경우, 음성 데이터 생성 장치(100)는 복수의 가족 구성원의 음성 데이터에 기초하여 가족 구성원의 가족 관계에 해당하는 복수의 가족 관계 모델을 생성하고, 음성 데이터를 생성하고자 하는 사용자와 관련된 가족 구성원의 음성 데이터를 입력받고, 사용자 및 가족 구성원 간의 가족 관계에 기초하여 복수의 가족 관계 모델 중 하나의 가족 관계 모델을 선택하고, 선택된 가족 관계 모델에 가족 구성원의 음성 데이터를 입력하여 사용자의 음성 데이터를 생성하도록 하는 명령어들의 시퀀스를 포함할 수 있다.

도 6a 내지 도 6d는 본 발명의 일 실시예에 따른 사용자 단말에서 인증 프로세스를 통해 통화 서비스를 수행하는 과정을 설명하기 위한 예시적인 도면이다.

사용자 단말은 목소리 생성 서비스를 이용할 사용자 식별자 정보를 포함하는 농아인 정보를 등록받을 수 있다. 예를 들어, 사용자 단말은 목소리 생성 서비스 제공 앱을 실행시킨 후, 인증 프로세스를 수행하기 위해 필요한 이름 및 전화번호 등을 포함하는 농아인 정보를 등록받을 수 있다.

사용자 단말은 인증 프로세스의 결과에 기초하여 타사용자 단말과의 통화 서비스를 수행할 수 있다. 예를 들어, 인증 프로세스의 수행을 위해 사전에 농아인 데이터베이스에 농아인 등록 정보가 기등록되어 있을 수 있다.

예를 들어, 농아인인 사용자가 사전에 농아인임을 증명하는 증명 서류를 통신사의 오프라인 매장으로 제출함으로써, 서비스 관리자에 의해 제출된 증명 서류가 검토되어 농아인 등록 정보가 농아인 데이터베이스에 등록될 수 있다.

다른 예를 들어, 농아인인 사용자가 농아인임을 증명하는 증명 서류를 목소리 생성 서비스 제공 앱과 연동 가능한 통신사의 앱을 통해 스캔하여 제출함으로써, 서비스 관리자에 의해 제출된 증명 서류가 검토되어 농아인 등록 정보가 농아인 데이터베이스에 등록될 수 있다.

사용자 단말은 등록받은 농아인 정보 및 농아인 데이터베이스에 등록된 농아인 등록 정보 간의 일치 여부에 기초하여 인증 프로세스를 수행할 수 있다. 예를 들어, 사용자 단말은 농아인 정보에 포함된 사용자 단말의 전화번호와 농아인 데이터베이스에 등록된 농아인 등록 정보에 포함된 농아인의 전화번호와 일치하는지 여부에 기초하여 인증 프로세스를 수행할 수 있다.

사용자 단말은 통화 서비스가 수행되는 중에 텍스트 정보 또는 음성을 입력받을 수 있다. 예를 들어, 사용자 단말은 인증 프로세스를 통해 인증이 성공한 경우, '농아인 모드'를 통해 타사용자 단말(미도시)과의 통화 서비스를 수행할 수 있다. 예를 들어, 타사용자 단말(미도시)과의 통화 서비스를 수행하기 위해, 타사용자와 관련된 정보가 건청인 데이터베이스에 건청인 등록 정보로 기등록되어 있을 수 있다.

여기서, 타사용자 단말은 사용자 단말로부터 초대 메시지를 수신함으로써, 건청인 등록 정보가 등록될 수 있다. 예를 들어, 사용자 단말은 통화 서비스를 수행하기 위해 사용자(농아인)로부터 목소리 생성 서비스 제공 앱을 통해 사용자 단말의 주소록에 저장된 복수의 타사용자(건청인) 중 적어도 하나의 타사용자를 선택받고, 선택된 타사용자의 사용자 단말(미도시)로 목소리 생성 서비스 제공 앱의 링크를 포함하는 초대 메시지를 전송할 수 있다. 이 때, 초대 메시지의 전송을 통해 건청인의 건청인 등록 정보(예를 들어, 전화번호)가 건청인 데이터베이스에 등록될 수 있다.

이후, 초대 메시지를 수신한 타사용자(건청인)는 링크를 통해 목소리 생성 서비스 제공 앱을 설치하고, 설치된 앱을 통해 타사용자(건청인)의 사용자 식별 정보(예를 들어, 전화번호)를 인증할 수 있다. 여기서, 인증 프로세스의 결과, 사용자 단말(농아인)의 연락처 목록에 타사용자(건청인)의 연락처가 표시될 수 있고, 타사용자(건청인)는 '건청인 모드'를 통해 통화 서비스를 수행할 수 있다.

사용자 단말은 적어도 하나의 타사용자(건청인)에 대한 정보를 건청인 데이터베이스로부터 수신하고, 수신한 타사용자(건청인)에 대한 정보에 기초하여 통화 서비스를 수행할 수 있다. 예를 들어, 사용자 단말은 사용자(농아인)의 연락처 목록에 통화 서비스를 수행할 적어도 하나의 타사용자(건청인)의 연락처를 표시하고, 표시된 적어도 하나의 타사용자(건청인)의 연락처 중 어느 하나의 타사용자(건청인)의 연락처를 선택하여 선택된 타사용자(건청인)와 통화 서비스를 수행할 수 있다.

이하에서는, 사용자 단말의 목소리 생성 서비스 제공 앱의 UI를 이용하여 설명하도록 한다.

도 6a는 본 발명의 일 실시예에 따른 사용자 단말에서 타사용자 단말을 초대하는 과정을 설명하기 위한 예시적인 도면이다. 도 6a를 참조하면, 사용자 단말(600)은 농아인 정보에 기초하여 목소리 생성 서비스에 대한 인증 프로세스의 수행이 완료되면, 연락처 메뉴(610) 내 '친구 초대 아이콘'(611)을 통해 적어도 하나의 타사용자 단말(미도시)을 초대할 수 있다.

예를 들어, 사용자 단말(600)은 사용자로부터 '친구 초대 아이콘'(611)을 선택받은 경우, 적어도 하나의 타사용자의 연락처를 포함하는 연락처 목록(612)을 표시할 수 있다. 사용자 단말은 적어도 하나의 타사용자 중 초대할 타사용자에 대한 '추가 아이콘'(614)을 선택받음으로써, 연락처 관리 메뉴(615)에 등록시킬 수 있다. 이 때, 사용자 단말은 '검색 버튼'(613)을 이용하여 초대할 타사용자를 보다 용이하게 검색한 후, 초대할 타사용자에 대해 '추가 아이콘'(614)을 선택받음으로써, 연락처 관리 메뉴(615)에 등록시킬 수도 있다.

사용자 단말(600)은 연락처 관리 메뉴(615)에 등록된 적어도 하나의 타사용자 중 사용자로부터 특정 타사용자에 대한 '초대 버튼'(616)을 입력받아 통화 서비스를 함께 이용할 특정 타사용자를 선택할 수 있다. 이 때, 연락처 관리 메뉴(615)에 등록된 타사용자가 기설정된 인원(예를 들어, 4명) 이상인 경우, 사용자 단말(600)은 '친구 삭제 버튼'(617)을 통해 삭제 후 추가 등록을 수행할 수 있다. 예를 들어, 사용자 단말이 사용자로부터 '엄마'의 이름 영역에 포함된 초대 버튼(616)을 선택받은 경우, 목소리 생성 서비스 제공 앱의 설치 링크를 포함하는 초대 메시지가 '엄마'의 사용자 단말로 전송될 수 있다. 이 때, 초대 메시지의 전송을 통해 건청인인 엄마와 관련된 건청인 등록 정보가 건청인 데이터베이스에 등록될 수 있다.

만약, '엄마'의 사용자 단말에 목소리 생성 서비스 제공 앱의 설치가 완료되는 경우, 사용자 단말과 '엄마'의 사용자 단말간의 통화 서비스가 수행될 수 있다.

사용자 단말(600)은 연락처 메뉴(610)에 목소리 생성 서비스 제공 앱의 설치가 완료된 타사용자 목록을 표시하고, 표시된 타사용자 목록 중 어느 하나의 타사용자를 선택하여 통화 서비스를 수행할 수 있다. 이 때, 사용자 단말은 편집 버튼(618)을 통해 타사용자 목록에 포함된 타사용자의 순서를 변경할 수 있으며, 각 타사용자에 대한 별명을 등록할 수도 있다.

도 6b는 본 발명의 일 실시예에 따른 사용자 단말에서 음성 통화 서비스를 수행하는 과정을 설명하기 위한 예시적인 도면이다. 도 6b를 참조하면, 사용자 단말(600)은 사용자로부터 연락처 메뉴(620)에 등록된 적어도 하나의 타사용자 중 음성 통화를 수행할 타사용자를 선택받을 수 있다. 이 때, 사용자 단말(600)이 사용자로부터 타사용자의 이름을 선택받은 경우, 사용자 단말(600)은 선택된 타사용자와의 통화 내역을 표시할 수 있다.

예를 들어, 사용자가 연락처 메뉴(620)에 등록된 적어도 하나의 타사용자 중 '홍길동'과 음성 통화를 수행하고자 하는 경우, 사용자 단말(600)은 사용자로부터 '홍길동'의 연락처 영역 내에 위치한 음성 통화 버튼(621)을 입력받을 수 있다. 이후, 사용자 단말(600)은 통화 준비 화면(622)을 표시하고, 사용자로부터 '통화 버튼'(623)을 입력받을 수 있다. 이 때, 타사용자가 전화를 수락한 경우, 사용자 단말은 사용자와 타사용자 간의 음성 통화 서비스를 수행할 수 있다.

이 때, 음성 통화 서비스의 수행 시, 사용자 단말은 '농아인 모드'로 동작하고, 타사용자 단말(600)은 '건청인 모드'로 동작할 수 있다.

이하에서는, 사용자 단말(600) 및 타사용자 단말(630) 각각에서 음성 통화 서비스가 수행되는 과정을 설명하도록 한다.

사용자 단말(600)이 사용자로부터 입력창(624)을 통해 텍스트를 입력받은 후, 전송 버튼(625)을 입력받음으로써, 입력된 텍스트가 사용자의 음성 데이터로 변환되어 타사용자 단말(630)로 전송될 수 있다.

타사용자 단말(630)은 스피커 모드(632)를 활성화하여 사용자의 음성 데이터를 출력할 수 있다.

타사용자 단말(630)은 마이크 모드의 활성화 여부(633)를 출력할 수 있다.

타사용자 단말(630)은 마이크 모드(631)를 활성화하여 사용자의 음성 데이터에 대한 응답으로 타사용자로부터 발화된 음성을 입력받을 수 있다. 이 때, 발화된 음성은 텍스트로 변환되어 사용자 단말로 전송될 수 있다.

타사용자 단말(630)은 음성 통화 서비스를 수행하는 중 타사용자로부터 영상 통화 버튼(634)을 입력받아, 음성 통화 서비스에서 영상 통화 서비스로 전환시킬 수 있다.

타사용자 단말(630)은 음성 통화 서비스의 종료를 원하는 경우, 타사용자로부터 음성 통화 종료 버튼(635)을 입력받을 수 있다.

도 6c는 본 발명의 일 실시예에 따른 사용자 단말에서 영상 통화 서비스를 수행하는 과정을 설명하기 위한 예시적인 도면이다. 도 6c를 참조하면, 사용자 단말(600)은 영상 통화 서비스를 통해 사용자의 얼굴 및 타사용자의 얼굴을 함께 표시할 수 있다. 사용자 단말(600)은 '농아인 모드'로 동작되며, 사용자로부터 입력창(641)을 통해 텍스트를 입력받은 후, 전송 버튼(642)을 입력받으면, 입력된 텍스트가 사용자의 음성 데이터로 변환되어 타사용자 단말(630)로 전송될 수 있다.

타사용자 단말(630)은 영상 통화 서비스를 통해 타사용자의 얼굴 및 사용자의 얼굴을 함께 표시할 수 있다. 타사용자 단말(630)은 '건청인 모드'로 동작되며, 타사용자가 마이크 모드(644)를 활성화시켜 음성을 발화한 경우, 발화된 음성이 텍스트로 변환되어 사용자 단말로 전송될 수 있다.

타사용자 단말(630)은 영상 통화 서비스를 수행하는 중 타사용자로부터 음성 통화 버튼(643)을 입력받아, 영상 통화 서비스에서 음성 통화 서비스로 전환시킬 수 있다.

타사용자 단말(630)은 영상 통화 서비스의 종료를 원하는 경우, 타사용자로부터 영상 통화 종료 버튼(645)을 입력받을 수 있다.

사용자 단말(600)은 영상 통화 서비스가 수행되는 중 사용자로부터 화면에 대해 스크롤 입력(648)을 입력받을 수 있다. 이 때, 스크롤 입력(648)을 통해 화면이 위/아래로 스크롤됨으로써, 전체 대화 내용이 확장 또는 축소될 수 있다.

사용자 단말(600)은 영상 통화 서비스의 수행 중 앨범 라이브러리(649) 또는 카메라를 통해 촬영된 이미지를 선택받고, 선택된 이미지를 타사용자 단말(630)로 전송할 수 있다. 여기서, 이미지는 기설정된 장수(예를 들어, 5장)까지 전송가능하며, 영상 통화 서비스뿐만 아니라, 음성 통화 서비스의 수행 중에도 전송될 수 있다.

도 6d는 본 발명의 일 실시예에 따른 사용자의 음성 데이터로 변환하는 과정을 설명하기 위한 예시적인 도면이다. 도 6d를 참조하면, 사용자 단말(600)은 사용자로부터 대화 저장함 메뉴(650)를 선택받을 수 있다. 대화 저장함 메뉴(650)를 통해 '실시간 대화하기' 서비스 또는 '내 목소리 만들기' 서비스가 제공될 수 있다.

예를 들어, 사용자 단말(600)은 사용자가 타사용자와 함께 있는 경우 '실시간 대화하기' 서비스를 통해 음성 대화 서비스 기능을 제공할 수 있다.

사용자 단말(600)이 사용자로부터 실시간 대화하기 아이콘(660)을 선택받은 경우, 사용자 단말(600)은 '농아인 모드'(661)를 활성화시킨 후, 사용자로부터 텍스트(662)를 입력받고, 말하기 버튼(663)을 입력받은 경우, 입력된 텍스트가 사용자의 음성 데이터로 변환될 수 있다. 이 때, 사용자 단말(600)은 '건청인 모드'(664)를 활성화시킨 후, 타사용자로부터 발화된 음성을 마이크를 통해 입력받고, 발화 완료 버튼(665)을 입력받은 경우, 입력된 발화가 실시간으로 텍스트로 변환되어 표시할 수 있다.

다른 예를 들어, 사용자 단말(600)은 '내 목소리 만들기' 아이콘(670)을 통해 사용자가 자주 사용하는 텍스트로 구성된 문장을 음성 데이터로 변환되도록 생성하여 저장할 수 있다. 예를 들어, 사용자 단말(600)은 사용자로부터 자주 사용하는 텍스트(671)를 입력받은 후, '말하기' 버튼(672)을 입력받은 경우, 입력된 텍스트(671)를 사용자의 음성 데이터로 변환할 수 있다. 이 때, 사용자 단말(600)은 사용자로부터 '저장 버튼'(673)을 입력받아 입력된 문장 및 문장에 대응하는 음성 데이터를 저장할 수 있다. 이후, 사용자 단말은 저장된 문장에 대해 재생 버튼(674)의 클릭을 통해 간편하게 해당 문장을 음성 데이터로 출력할 수 있다.

도 7a 내지 도 7c는 본 발명의 일 실시예에 따른 사용자 단말에서 앱을 통해 사용자의 음성 데이터 서비스를 제공받는 과정을 설명하기 위한 예시적인 도면이다. 여기서, 음성 데이터 생성 장치(100)는 사용자별 접속 권한을 관리하고, 사용자의 음성 데이터를 생성하고, 음성 데이터 생성 장치(100)는 사용자의 음성 데이터가 생성된 경우, 생성된 음성 데이터의 결과를 체크하는 역할을 수행하고, 생성된 음성 데이터를 제공하기 위한 다양한 서비스 로직을 반영할 수 있다. 또한, 음성 데이터 생성 장치(100)는 사용자 단말(700)과 다른 사용자 단말(미도시)을 중계하는 역할을 수행할 수 있다. 예를 들어, 음성 데이터 생성 장치(100)는 텍스트 및 합성된 목소리 파일을 사용자 단말(700)과 다른 사용자 단말(미도시) 간에 중계를 수행할 수 있으며, 사용자 단말(700)과 다른 사용자 단말(미도시) 간의 영상 및 음성 통화의 요청을 제어할 수 있다.

사용자 단말(700)은 음성 데이터 생성 장치(100)에 의해 생성된 사용자의 음성 데이터를 이용하여 서비스를 제공받을 수 있다.

도 7a를 참조하면, 사용자 단말(700)은 음성 데이터 서비스 제공 앱을 실행시키고, 실행된 앱을 통해 대화를 나누고자 하는 상대(701)를 선택할 수 있다. 여기서, 사용자는 선천적으로 말을 할 수 없는 장애를 가진 농아인일 수 있다.

사용자 단말(700)은 대화를 나누고자 하는 상대(701)를 선택한 후, '내 목소리 대화'(702), '영상 대화'(703), '문자' 중 어느 하나를 선택할 수 있다.

도 7a 및 도 7b를 참조하면, 사용자 단말(700)이 사용자로부터 '내 목소리 대화'(702)를 선택받은 경우, 사용자 단말(700)은 음성 데이터 생성 장치(100)를 통해 대화를 나누고자 하는 상대(701)와 메시지를 주고받을 수 있다. 이 때, 메시지는 텍스트로 표시될 수 있으며, '내 목소리 대화'(711)를 통해 생성된 사용자의 음성으로 출력되도록 할 수 있다. 또는, 사용자로부터 영상 통화(712) 버튼을 입력받은 경우, 사용자 단말(700)은 영상 통화를 진행하기 위한 발신 화면(713)을 출력하고, 음성 데이터 생성 장치(100)를 통해 대화를 나누고자 하는 상대(701)인 '남편'과 영상 통화(714)를 수행할 수 있다.

도 7a 및 도 7c를 참조하면, 사용자 단말(700)이 사용자로부터 '영상 대화'(703)를 선택받은 경우, 사용자 단말(700)은 대화 상대인 '남편'(721)과 영상 통화를 진행하기 위한 발신 화면(720)을 출력하고, 음성 데이터 생성 장치(100)를 통해 대화 상대인 '남편'(721)과 영상 통화(722)를 수행할 수 있다. 이후, 사용자 단말(700)이 사용자로부터 '내 목소리 대화'(723) 버튼을 입력받은 경우, 사용자 단말(700)은 영상 통화 화면으로부터 '내 목소리 대화'가 가능한 채팅 화면으로 전환하고, 음성 데이터 생성 장치(100)를 통해 남편과 메시지를 주고받을 수 있다. 이 때, 메시지는 텍스트로 표시됨과 동시에 '내 목소리 대화'(724)를 통해 음성 데이터 생성 장치(100)에 의해 생성된 사용자의 음성으로 출력될 수 있다.

도 8a 및 도 8b는 본 발명의 일 실시예에 따른 사용자의 음성 데이터를 생성하여 통화 서비스를 제공하는 과정을 설명하기 위한 예시적인 도면이다.

여기서, 음성 데이터 생성 장치(100)는 사용자별 접속 권한을 관리하고, 사용자의 음성 데이터를 생성하고, 음성 데이터 생성 장치(100)는 사용자의 음성 데이터가 생성된 경우, 생성된 음성 데이터의 결과를 체크하는 역할을 수행하고, 생성된 음성 데이터를 제공하기 위한 다양한 서비스 로직을 반영할 수 있다. 또한, 음성 데이터 생성 장치(100)는 제 1 사용자 단말(800, 820)과 제 2 사용자 단말(801, 821)을 중계하는 역할을 수행할 수 있다. 예를 들어, 음성 데이터 생성 장치(100)는 텍스트 및 합성된 목소리 파일을 제 1 사용자 단말(800, 820)과 제 2 사용자 단말(801, 821) 간에 중계를 수행할 수 있으며, 제 1 사용자 단말(800, 820)과 제 2 사용자 단말(801, 821) 간의 영상 및 음성 통화의 요청을 제어할 수 있다.

도 8a는 본 발명의 일 실시예에 따른 농아인인 사용자와 건청인인 가족 구성원 간의 통화 서비스를 제공하는 과정을 설명하기 위한 예시적인 도면이다. 도 8a를 참조하면, 제 1 사용자 단말(800)은 건청인인 딸의 단말이고, 제 2 사용자 단말(801)은 농아인인 엄마의 단말일 수 있다.

제 1 사용자 단말(800)은 건청인인 딸로부터 음성 데이터 서비스 제공 앱(802)의 실행을 입력받아 앱(802)을 실행시킬 수 있다. 이후, 제 1 사용자 단말(800)은 딸로부터 실행된 앱(802)을 통해 대화를 나누고자 하는 상대로 엄마(803)를 선택받을 수 있다. 예를 들어, 제 1 사용자 단말(800)은 딸로부터 통화를 나누고자 하는 대상으로 '엄마'(803)를 선택받은 후, '내 목소리 대화'(804), '영상 대화', '문자' 중 어느 하나를 선택받을 수 있다.

예를 들어, 제 1 사용자 단말(800)이 딸로부터 '내 목소리 대화'(804)를 선택받은 경우, 제 1 사용자 단말(800)은 딸로부터 음성을 입력받아 음성 데이터 생성 장치(100)로 전송하고, 음성 데이터 생성 장치(100)에 의해 입력된 음성으로부터 변환된 텍스트를 메시지(805)로 표시할 수 있다. 예를 들어, 딸이 "엄마 학교 끝났어"라고 발화한 경우, 제 1 사용자 단말(800)은 발화한 음성으로부터 변환된 텍스트를 메시지(805)로 표시할 수 있다.

제 2 사용자 단말(801)은 음성 데이터 생성 장치(100)로부터 변환된 메시지(805)를 수신하여, 수신한 메시지(806)를 채팅창을 통해 표시할 수 있다. 이후, 제 2 사용자 단말(801)은 농아인인 엄마로부터 메시지(806)에 대한 답변 내용을 입력받아 메시지(807)로 표시할 수 있다. 예를 들어, 제 2 사용자 단말(801)은 "그래 큰딸. 엄마는 집이야"와 같이 메시지(806)에 대한 답변 내용을 입력받을 수 있다.

제 1 사용자 단말(800)은 음성 데이터 생성 장치(100)에 의해 제 2 사용자 단말(801)로부터 답변 내용이 P-TTS(Text-to-Speech)로 변환된 농아인인 엄마가 자신의 목소리로 합성된 음성과 함께 텍스트를 포함하는 메시지(808)를 수신하고, 수신한 메시지(808)를 표시할 수 있다.

제 1 사용자 단말(800)이 건청인인 딸로부터 "친구랑 1시간만 놀아도 돼? 집앞 놀이터에서 놀꺼야"라는 음성을 입력받은 경우, 제 1 사용자 단말(800)은 입력된 음성을 음성 데이터 생성 장치(100)로 전송하고, 음성 데이터 생성 장치(100)에 의해 음성으로부터 변환된 텍스트를 메시지(809)로 표시할 수 있다.

제 2 사용자 단말(801)은 음성 데이터 생성 장치(100)로부터 변환된 메시지(809)를 수신하고, 수신한 메시지(810)를 채팅창을 통해 표시할 수 있다. 이후, 제 2 사용자 단말(801)은 농아인인 엄마로부터 메시지(810)에 대한 답변 내용을 입력받아 메시지(811)로 표시할 수 있다. 예를 들어, 제 2 사용자 단말(801)은 "알았어. 4시까지 집에 와."와 같이 메시지(810)에 대한 답변 내용을 입력받을 수 있다. 이 때, 입력된 답변 내용은 음성 데이터 생성 장치(100)로 전송되어 음성 데이터로 생성됨으로써, 농아인인 엄마가 자신의 목소리로 합성된 음성 데이터로 들을 수 있다.

제 1 사용자 단말(800)은 음성 데이터 생성 장치(100)로부터 답변 내용이 P-TTS(Text-to-Speech)로 변환된 텍스트 및 농아인인 엄마가 자신의 목소리로 합성된 음성을 수신하고, 음성과 함께 텍스트를 메시지(812)로 표시할 수 있다.

도 8b는 본 발명의 일 실시예에 따른 농아인인 제 1 사용자와 제 2 사용자 간의 통화 서비스를 제공하는 과정을 설명하기 위한 예시적인 도면이다. 도 8b를 참조하면, 제 1 사용자 단말(820)은 농아인인 딸의 단말이고, 제 2 사용자 단말(821)은 농아인인 엄마의 단말일 수 있다.

제 1 사용자 단말(820)은 농아인인 딸로부터 음성 데이터 서비스 제공 앱(830)의 실행을 입력받아 앱(830)을 실행시킬 수 있다. 이후, 제 1 사용자 단말(820)은 딸로부터 실행된 앱(830)을 통해 대화를 나누고자 하는 상대로 엄마(831)를 선택받을 수 있다. 예를 들어, 제 1 사용자 단말(820)은 딸로부터 대화를 나누고자 하는 대상으로 '엄마'(831)를 선택받은 후, '내 목소리 대화'(832), '영상 대화', '문자' 중 어느 하나를 선택받을 수 있다.

예를 들어, 제 1 사용자 단말(820)이 딸로부터 '내 목소리 대화'(832)를 선택받은 경우, 제 1 사용자 단말(821)은 딸로부터 텍스트를 입력받을 수 있다. 예를 들어, 제 1 사용자 단말(820)은 "엄마 학교 끝났어"라는 텍스트를 입력받아 메시지(833)로 표시할 수 있다.

제 2 사용자 단말(821)은 음성 데이터 생성 장치(100)로부터 제 1 사용자 단말(820)에서 입력한 메시지(833)를 수신한 경우, 메시지 도착 알림(834)을 표시할 수 있다.

이후, 제 2 사용자 단말(821)은 채팅창을 통해 수신한 메시지(835)를 표시하고, 엄마로부터 메시지(835)에 대한 답변 내용을 입력받아 메시지(836)로 표시할 수 있다. 예를 들어, 제 2 사용자 단말(821)은 "그래 큰딸. 엄마는 집이야"와 같이 메시지(835)에 대한 답변 내용을 입력받고, 입력받은 답변 내용을 음성 데이터 생성 장치(100)로 전송할 수 있다. 이 때, 제 2 사용자 단말(821)은 엄마로부터 메시지(835)를 선택받은 경우, 선택된 메시지(835)를 음성 데이터 생성 장치(100)에 의해 농아인인 딸의 음성으로 합성된 음성 데이터를 출력할 수 있다.

제 1 사용자 단말(820)은 음성 데이터 생성 장치(100)로부터 제 2 사용자 단말(821)에서 입력한 메시지(836)를 수신하고, 수신한 메시지(837)를 표시할 수 있다. 이 때, 제 1 사용자 단말(820)은 농아인인 딸로부터 메시지(837)를 선택받은 경우, 선택된 메시지(836)를 음성 데이터 생성 장치(100)에 의해 농아인인 엄마의 음성으로 합성된 음성 데이터를 출력할 수 있다.

이후, 제 1 사용자 단말(820)은 "친구랑 1시간만 놀아도 돼? 집앞 놀이터에서 놀꺼야"라는 텍스트를 입력받을 수 있다.

제 2 사용자 단말(821)은 음성 데이터 생성 장치(100)로부터 제 1 사용자 단말(820)에 의해 입력된 메시지(838)를 표시하고, 메시지(838)에 대한 답변 내용을 입력받아 메시지(839)로 표시할 수 있다.

도 9는 본 발명의 일 실시예에 따른 음성 데이터 생성 장치에서 음성 데이터를 생성하는 방법의 순서도이다. 도 9에 도시된 음성 데이터 생성 장치(100)에서 음성 데이터를 생성하는 방법은 도 1 내지 도 8b에 도시된 실시예엔 따라 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라고 하더라도 도 1 내지 도 8b에 도시된 실시예에 따라 음성 데이터 생성 장치(100)에서 음성 데이터를 생성하는 방법에도 적용된다.

단계 S910에서 음성 데이터 생성 장치(100)는 복수의 가족 구성원의 음성 데이터에 기초하여 가족 구성원의 가족 관계에 해당하는 복수의 가족 관계 모델을 생성할 수 있다.

단계 S920에서 음성 데이터 생성 장치(100)는 음성 데이터를 생성하고자 하는 사용자와 관련된 가족 구성원의 음성 데이터를 입력받을 수 있다.

단계 S930에서 음성 데이터 생성 장치(100)는 사용자 및 가족 구성원 간의 가족 관계에 기초하여 복수의 가족 관계 모델 중 하나의 가족 관계 모델을 선택할 수 있다.

단계 S940에서 음성 데이터 생성 장치(100)는 선택된 가족 관계 모델에 가족 구성원의 음성 데이터를 입력하여 사용자의 음성 데이터를 생성할 수 있다.

상술한 설명에서, 단계 S910 내지 S940은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 전환될 수도 있다.

도 1 내지 도 9를 통해 설명된 음성 데이터 생성 장치에서 음성 데이터를 생성하는 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 또한, 도 1 내지 도 9를 통해 설명된 음성 데이터 생성 장치에서 음성 데이터를 생성하는 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램의 형태로도 구현될 수 있다.

컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 음성 데이터 생성 장치
110: 가족 관계 모델 생성부
120: 입력부
130: 선택부
140: 생성부

Claims

음성 데이터를 생성하는 장치에 있어서,
복수의 가족 구성원의 음성 데이터에 기초하여, 상기 가족 구성원의 가족 관계를 기설정된 복수의 가족 관계 그룹으로 분류하고, 상기 분류된 복수의 가족 관계 그룹 각각에 해당하는 음성 데이터를 이용하여 상기 복수의 가족 관계 그룹 각각에 해당하는 복수의 가족 관계 모델을 생성하는 가족 관계 모델 생성부;
음성 데이터를 생성하고자 하는 사용자와 관련된 가족 구성원의 음성 데이터를 입력받는 입력부;
상기 사용자 및 상기 가족 구성원 간의 가족 관계에 기초하여 상기 복수의 가족 관계 모델 중 하나의 가족 관계 모델을 선택하는 선택부; 및
상기 선택된 가족 관계 모델에 상기 가족 구성원의 음성 데이터를 입력하여 상기 사용자의 음성 데이터를 생성하는 생성부를 포함하고,
상기 가족 관계 모델 생성부는 상기 복수의 가족 구성원의 음성 데이터 간의 피치 거리값에 기초하여 상기 가족 관계를 복수의 가족 관계 그룹으로 분류하고,
상기 가족 관계 모델 생성부는 상기 복수의 가족 구성원 간의 나이 차이 값에 기초하여 상기 가족 관계를 복수의 가족 관계 그룹으로 분류하고, 상기 복수의 가족 관계 그룹 모델을 생성하며,
상기 선택부는 상기 사용자 및 상기 가족 구성원 간의 나이 차이값에 기초하여 상기 복수의 가족 관계 그룹 모델 중 하나의 가족 관계 그룹 모델을 선택하고,
상기 가족 관계 모델 생성부는 인코더 및 디코더를 포함하는 오토인코더를 이용하여 상기 복수의 가족 구성원 중 제 1 가족 구성원에 대한 음성 모델 및 제 2 가족 구성원에 대한 음성 모델을 각각 훈련시키고,
상기 제 1 가족 구성원에 대한 음성 모델의 인코더와 상기 제 2 가족 구성원에 대한 음성 모델의 디코더를 연결하여 상기 제 1 가족 구성원의 음성으로부터 상기 제 2 가족 구성원의 음성이 출력되도록 하는 것인, 음성 데이터 생성 장치.
제 1 항에 있어서,
상기 가족 관계 모델 생성부는 상기 복수의 가족 구성원 중 제 1 가족 구성원의 음성 데이터로부터 제 1 특징 벡터를 도출하고, 제 2 가족 구성원의 음성 데이터로부터 제 2 특징 벡터를 도출하고, 상기 제 1 특징 벡터 및 상기 제 2 특징 벡터에 기초하여 상기 제 1 가족 구성원과 상기 제 2 가족 구성원의 가족 관계에 대응하는 가족 관계 모델을 생성하는 것인, 음성 데이터 생성 장치.
제 2 항에 있어서,
상기 가족 관계 모델 생성부는 상기 제 1 특징 벡터 및 상기 제 2 특징 벡터를 통해 목소리 유사성 모델링을 수행하여 가족 관계 모델을 생성하는 것인, 음성 데이터 생성 장치.
삭제
제 1 항에 있어서,
상기 선택부는 상기 사용자의 목소리 데이터 및 상기 가족 구성원의 음성 데이터 간의 피치 거리값에 기초하여 상기 복수의 가족 관계 그룹 모델 중 하나의 가족 관계 그룹 모델을 선택하는 것인, 음성 데이터 생성 장치.
제 5 항에 있어서,
상기 가족 관계 모델 생성부는 상기 피치 거리값에 기초하여 분류된 상기 복수의 가족 관계 그룹을 피치 분포값에 기초하여 더 분류하고,
상기 선택부는 상기 사용자의 목소리 데이터 및 상기 가족 구성원의 음성 데이터 간의 피치 분포값에 더 기초하여 상기 복수의 가족 관계 그룹 모델 중 하나의 가족 관계 그룹 모델을 선택하는 것인, 음성 데이터 생성 장치.
제 1 항에 있어서,
상기 선택부는 상기 사용자와 관련된 가족 구성원의 음성 데이터에 기초하여 상기 복수의 가족 관계 그룹 모델 중 하나의 가족 관계 그룹 모델을 선택하는 것인, 음성 데이터 생성 장치.
제 1 항에 있어서,
상기 사용자의 음성 데이터는 상기 사용자 및 상대방 간의 통화 서비스 중에 제공되는 것인, 음성 데이터 생성 장치.
삭제
삭제
삭제
삭제
삭제
삭제