KR102221236B1

KR102221236B1 - 음성을 제공하는 방법 및 장치

Info

Publication number: KR102221236B1
Application number: KR1020190036635A
Authority: KR
Inventors: 박지웅; 김인호
Original assignee: 주식회사 엘지유플러스
Priority date: 2019-03-29
Filing date: 2019-03-29
Publication date: 2021-02-26
Also published as: KR20200114606A

Abstract

일 실시예에 따르면, 화자의 발화된 제1 음성을 수신하고, 제1 음성을 기초로 인식한 화자에 대응하는 화자 정보를 획득하고, 제1 음성의 분석 결과를 기초로 제1 음성에 응답하는 제2 음성을 생성하며, 화자 정보를 기초로 제2 음성의 주파수를 보정하여 화자를 위한 제3 음성을 제공하는 음성을 제공하는 방법 및 장치를 제공할 수 있다.

Description

음성을 제공하는 방법 및 장치{METHODE AND APARATUS OF PROVIDING VOICE}

실시예들은 음성을 제공하는 방법 및 장치에 관한 것이다.

인공 지능 기술이 발달함에 따라 AI(Artificial Intelligence) 비서 또는 AI 스피커 등과 같은 스마트 디바이스를 통한 다양한 서비스(예를 들어, 음원 제공, 음성 인식을 통한 제어, 자율 주행, 증강 현실 등)가 제공되고 있다. 이러한 서비스는 주로 음성 또는 영상을 통해 제공되는 것이 일반적이다. 하지만, 선천적 장애 또는 노화로 인해 특정 주파수 대역의 신호를 듣는 데에 어려움을 겪는 사용자들이 존재한다. 이러한 사용자들의 가청 주파수 대역을 벗어나는 음원 또는 음성이 제공되는 경우, 해당 사용자들이 제공되는 음원 또는 음성을 정확하게 인식하기 어렵거나, 또는 전혀 인식할 수 없다는 문제점이 있다.

일 실시예에 따르면, 화자 인식을 통한 개인 별 맞춤 음성 합성(Text-To-Speech; TTS) 서비스를 제공할 수 있다.

일 실시예에 따르면, 스마트 디바이스를 통한 서비스 시에 화자의 가청 주파수 대역을 고려한 음성을 생성하여 제공함으로써 선천적 장애 또는 노화로 인해 가청 주파수가 줄어든 사용자에게 최적의 주파수 대역의 음성 또는 음원을 제공할 수 있다.

일 실시예에 따르면, 음성을 제공하는 방법은 화자의 발화된 제1 음성을 수신하는 단계; 상기 제1 음성을 기초로, 상기 화자를 인식하는 단계; 상기 인식한 화자에 대응하는 화자 정보를 획득 하는 단계; 상기 제1 음성의 분석 결과를 기초로, 상기 제1 음성에 응답하는 제2 음성을 생성하는 단계; 및 상기 화자 정보를 기초로, 상기 제2 음성의 주파수를 보정하여 상기 화자를 위한 제3 음성을 제공하는 단계를 포함한다.

상기 제3 음성을 제공하는 단계는 상기 화자 정보를 기초로, 상기 화자의 가청 주파수 대역을 파악하는 단계; 및 상기 제2 음성의 주파수 대역과 상기 화자의 가청 주파수 대역의 비교 결과를 기초로 상기 제2 음성의 주파수를 보정함으로써 상기 제3 음성을 생성하는 단계를 포함할 수 있다.

상기 비교 결과를 기초로 상기 제3 음성을 생성하는 단계는 상기 제2 음성이 상기 화자의 가청 주파수 대역을 벗어나는 경우, 상기 제2 음성을 상기 화자의 가청 주파수 대역으로 이동시켜 샘플링(sampling) 함으로써 상기 제3 음성을 생성하는 단계를 포함할 수 있다.

상기 비교 결과를 기초로 상기 제3 음성을 생성하는 단계는 상기 제2 음성이 상기 화자의 가청 주파수 대역을 벗어나는 고주파 대역의 신호인지 여부를 판단하는 단계; 및 상기 제2 음성이 상기 고주파 대역의 신호라는 판단에 따라, 상기 제2 음성의 고주파 대역의 에너지를 보강함으로써 상기 제3 음성을 생성하는 단계를 포함할 수 있다.

상기 음성을 제공하는 방법은 상기 제3 음성의 사용 여부에 대한 상기 화자의 선택을 입력받는 단계를 더 포함할 수 있다.

상기 화자를 위한 제3 음성을 제공하는 단계는 상기 화자 정보에 상기 화자의 가청 주파수 대역이 포함되지 않은 경우, 상기 화자의 연령대 별 평균 가청 주파수를 기초로, 상기 제2 음성의 주파수를 보정하여 상기 화자를 위한 제3 음성을 생성하는 단계를 포함할 수 있다.

상기 화자 정보는 상기 화자의 식별 정보, 상기 화자의 연령, 상기 화자의 성별, 상기 화자의 가청 주파수 대역, 상기 화자의 연령대 별 평균 가청 주파수, 상기 화자가 선호하는 음성 주파수 대역 중 적어도 하나를 포함할 수 있다.

상기 제2 음성을 생성하는 단계는 상기 제1 음성의 분석 결과를 기초로, 상기 제1 음성에 응답하는 답변 문장을 생성하는 단계; 및 상기 답변 문장을 기초로, 상기 제1 음성에 응답하는 제2 음성을 생성하는 단계를 포함할 수 있다.

상기 답변 문장을 생성하는 단계는 STT(Speech To Text)에 의해 상기 제1 음성을 제1 텍스트로 변환하는 단계; 및 상기 제1 텍스트에 대한 자연어 처리(Natural Language Processing; NLP)를 통해 상기 제1 텍스트에 응답하는 답변 문장을 생성하는 단계를 포함할 수 있다.

상기 음성을 제공하는 방법은 상기 인식한 화자를 인증하는 단계를 더 포함할 수 있다.

상기 화자를 인식하는 단계는 상기 제1 음성이 미리 정해진 호출어를 포함하는지 여부를 판단하는 단계; 및 상기 제1 음성이 상기 호출어를 포함한다는 판단에 따라 상기 제1 음성을 화자 인식 엔진에 인가함으로써 상기 화자를 인식하는 단계를 포함할 수 있다.

상기 화자를 인식하는 단계는 상기 제1 음성으로부터 특징을 추출하는 단계; 및 상기 특징을 미리 학습된 화자 별 모델에 인가함으로써 상기 화자를 인식하는 단계를 포함할 수 있다.

일 실시예에 따르면, 음성을 제공하는 장치는 화자의 발화된 제1 음성을 수신하는 통신 인터페이스; 상기 제1 음성을 기초로, 상기 화자를 인식하고, 상기 인식한 화자에 대응하는 화자 정보를 획득 하고, 상기 제1 음성의 분석 결과를 기초로, 상기 제1 음성에 응답하는 제2 음성을 생성하고, 상기 화자 정보를 기초로, 상기 제2 음성의 주파수를 보정하여 상기 화자를 위한 제3 음성을 생성하는 프로세서; 및 상기 제3 음성을 제공하는 스피커를 포함한다.

상기 프로세서는 상기 화자 정보를 기초로, 상기 화자의 가청 주파수 대역을 파악하고, 상기 제2 음성의 주파수 대역과 상기 화자의 가청 주파수 대역의 비교 결과를 기초로 상기 제2 음성의 주파수를 보정함으로써 상기 제3 음성을 생성할 수 있다.

상기 프로세서는 상기 제2 음성이 상기 화자의 가청 주파수 대역을 벗어나는 경우, 상기 제2 음성을 상기 화자의 가청 주파수 대역으로 이동시켜 샘플링 함으로써 상기 제3 음성을 생성할 수 있다.

상기 프로세서는 상기 제2 음성이 상기 화자의 가청 주파수 대역을 벗어나는 고주파 대역의 신호인지 여부를 판단하고, 상기 제2 음성이 상기 고주파 대역의 신호라는 판단에 따라, 상기 제2 음성의 고주파 대역의 에너지를 보강함으로써 상기 제3 음성을 생성할 수 있다.

상기 음성을 제공하는 장치는 상기 제3 음성의 사용 여부에 대한 상기 화자의 선택을 입력받는 사용자 인터페이스를 더 포함할 수 있다.

상기 프로세서는 상기 화자 정보에 상기 화자의 가청 주파수 대역이 포함되지 않은 경우, 상기 화자의 연령대 별 평균 가청 주파수를 기초로, 상기 제2 음성의 주파수를 보정하여 상기 화자를 위한 제3 음성을 제공할 수 있다.

상기 프로세서는 상기 제1 음성이 미리 정해진 호출어를 포함하는지 여부를 판단하고, 상기 제1 음성이 상기 호출어를 포함한다는 판단에 따라 상기 제1 음성을 화자 인식 엔진에 인가함으로써 상기 화자를 인식할 수 있다.

일 측에 따르면, 화자 인식을 통한 개인 별 맞춤 음성 합성(Text-To-Speech; TTS) 서비스를 제공할 수 있다.

일 측에 따르면, 스마트 디바이스를 통한 서비스 시에 화자의 가청 주파수 대역을 고려한 음성을 생성하여 제공함으로써 선천적 장애 또는 노화로 인해 가청 주파수가 줄어든 사용자에게 최적의 주파수 대역의 음성 또는 음원을 제공할 수 있다.

도 1은 일 실시예에 따른 음성을 제공하는 방법을 나타낸 흐름도.
도 2는 일 실시예에 따른 음성을 제공하는 장치의 구성을 설명하기 위한 도면.
도 3은 일 실시예에 따른 스마트 디바이스와 화자 인식 서버 간의 동작을 설명하기 위한 도면.
도 4는 일 실시예에 따른 음성 합성(TTS) 장치의 동작을 설명하기 위한 도면.
도 5는 다른 실시예에 따른 음성을 제공하는 방법을 나타낸 흐름도.
도 6은 일 실시예에 따른 음성을 제공하는 장치의 블록도.

이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.

아래 설명하는 실시예들에는 다양한 변경이 가해질 수 있다. 아래 설명하는 실시예들은 실시 형태에 대해 한정하려는 것이 아니며, 이들에 대한 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

실시예에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

도 1은 일 실시예에 따른 음성을 제공하는 방법을 나타낸 흐름도이다. 도 1을 참조하면, 일 실시예에 따른 음성을 제공하는 장치(이하, '제공 장치')는 화자의 발화된 제1 음성을 수신한다(110). '제1 음성'은 예를 들어, 화자가 직접 발화한 음성 또는 화자로부터 녹음된 음성에 해당할 수 있다. 제1 음성은 예를 들어, 스마트 디바이스에 대한 질문, 요청 등을 포함할 수 있다.

제공 장치는 제1 음성을 기초로, 화자를 인식한다(120). 제공 장치는 예를 들어, 제1 음성이 미리 정해진 호출어를 포함하는지 여부를 판단할 수 있다. 미리 정해진 호출어는 예를 들어, "하이 OO"과 같은 통상적인 대화체 언어일 수도 있고, "알렉O"와 같은 호출명일 수도 있다. 제공 장치는 제1 음성이 미리 정해진 호출어를 포함한다는 판단에 따라 제1 음성을 화자 인식 엔진에 인가함으로써 화자를 인식할 수 있다. 제공 장치는 예를 들어, 제1 음성으로부터 특징을 추출하고, 특징을 미리 학습된 화자 별 모델에 인가함으로써 화자를 인식할 수 있다. 제공 장치는 해당 화자가 미리 등록된 화자인지에 대한 화자 인증 또한 수행할 수 있다. 제공 장치는 예를 들어, 아래의 도 2에서 설명하는 화자 인식 엔진(231)에 의해 화자 인식 및/또는 화자 인증을 수행할 수 있다. 화자 인식 엔진에 대하여는 아래의 도 2 및 도 3을 참조하여 구체적으로 설명한다.

제공 장치는 단계(120)에서 인식한 화자에 대응하는 화자 정보를 획득한다(130). 화자 정보는 예를 들어, 화자의 식별 정보, 화자의 연령, 화자의 성별, 화자의 가청 주파수 대역, 화자의 연령대 별 평균 가청 주파수, 화자가 선호하는 음성 주파수 대역 등을 포함할 수 있다. 제공 장치는 인식한 화자에 대한 화자 정보를, 예를 들어, 아래의 도 2에서 설명하는 사용자 데이터베이스(239)로부터 획득할 수 있다.

제공 장치는 제1 음성의 분석 결과를 기초로, 제1 음성에 응답하는 제2 음성을 생성한다(140). 제공 장치는 제1 음성의 분석 결과를 기초로, 제1 음성에 응답하는 답변 문장을 생성할 수 있다. 제공 장치는 예를 들어, STT(Speech To Text) 기술에 의해 제1 음성을 제1 텍스트로 변환할 수 있다. 제공 장치는 제1 텍스트에 대한 자연어 처리(Natural Language Processing; NLP)를 통해 제1 텍스트에 응답하는 답변 문장을 생성할 수 있다. 제공 장치는 답변 문장을 기초로, 제1 음성에 응답하는 제2 음성을 생성할 수 있다. 이하에서, '제2 음성'은 제공 장치, 보다 구체적으로 제공 장치의 음성 합성(TTS) 모듈(도 2의 부재 번호 250 참조)을 통해 생성된 음성으로 이해될 수 있다.

제공 장치는 화자 정보를 기초로, 제2 음성의 주파수를 보정하여 화자를 위한 제3 음성을 제공한다(150). 이하에서, '제3 음성'은 제2 음성을 주파수 보정한 음성일 수 있다. 제공 장치는 예를 들어, 화자 정보를 기초로, 화자의 가청 주파수 대역을 파악할 수 있다. 제공 장치는 제2 음성의 주파수 대역과 화자의 가청 주파수 대역의 비교 결과를 기초로 제2 음성의 주파수를 보정함으로써 제3 음성을 생성할 수 있다. 제공 장치는 예를 들어, 제2 음성이 화자의 가청 주파수 대역을 벗어나는 경우, 제2 음성을 화자의 가청 주파수 대역으로 이동시켜 샘플링(sampling) 함으로써 제3 음성을 생성할 수 있다. 또는 제공 장치는 제2 음성이 화자의 가청 주파수 대역을 벗어나는 고주파 대역의 신호인지 여부를 판단할 수 있다. 제공 장치는 제2 음성이 고주파 대역의 신호라는 판단에 따라, 제2 음성의 고주파 대역의 에너지를 보강함으로써 제3 음성을 생성할 수 있다. 제공 장치는 예를 들어, 고주파수의 에너지 값을 증가시켜서 다른 주파수 대역처럼 들리게 할 수 있다. 예를 들어, 6Khz 주파수 대역을 잘 듣지 못하는 사용자가 있다고 하자. 해당 사용자는 일반 주파수 대역과 같은 음압 레벨(SPL, sound pressure level)로 제공하면 전달되는 내용을 잘 듣지 못할 수 있다. 따라서, 제공 장치는 해당 사용자가 6Khz 주파수 대역도 기존 음압 레벨 수준으로 청취할 수 있게끔 해당 주파수의 에너지 값을 키워 보강할 수 있다.

도 2는 일 실시예에 따른 음성을 제공하는 장치의 구성을 설명하기 위한 도면이다. 도 2를 참조하면, 일 실시예에 따른 스마트 디바이스(210), 및 음성 제공 장치(230)가 도시된다. 이하에서는 설명의 편의를 위해 스마트 디바이스(210) 및 음성 제공 장치(230)가 도 2에 도시된 것과 같이 분리하여 구성된 것으로 예를 들어 설명하지만 반드시 이에 한정되는 것은 아니다. 음성 제공 장치(230)는 스마트 디바이스(210)에 병합된 하나의 장치로 구성될 수도 있다. 음성 제공 장치(230)는 예를 들어, 화자 인식 엔진(231), STT/NLP 모듈(233), 음성 합성(TTS) 모듈(235), 주파수 보정 모듈(237), 및 사용자 데이터베이스(239) 등을 포함할 수 있다. 화자 인식 엔진(231)은 예를 들어, 별도의 화자 인식 서버로 구현될 수도 있다.

스마트 디바이스(210)는 예를 들어, 스마트 폰, AI 스피커, IoT(Internet of Things) 장치, 및 셋탑 박스 등과 같이 AI 비서 기능이 포함된 장치일 수 있다. 스마트 디바이스(210)는 화자가 발화한 제1 음성을 수신할 수 있다(201). 스마트 디바이스(210)는 제1 음성이 포함된 파일을 화자 인식 엔진(231)으로 전달(202)하여 해당 음성의 화자 인식(화자 식별) 및/또는 화자 인증을 요청할 수 있다. 화자 인식 및/또는 화자 인증을 위한 스마트 디바이스(210)와 화자 인식 엔진(231) 간의 동작은 아래의 도 3을 참조하여 구체적으로 설명한다.

예를 들어, 화자 인식 엔진(231)은 제1 음성의 화자를 인식하고, 인식된 화자가 미리 등록된 화자인지를 인증할 수 있다. 해당 화자에 대한 인증이 완료되면, 다시 말해 해당 화자가 인증된 화자라고 판단되면, 화자 인식 엔진(231)은 스마트 디바이스(210)에게 음성 인식을 위한 마이크의 활성화를 요청할 수 있다(203). 화자 인식 엔진(231)은 예를 들어, Wake-up 요청을 통해 스마트 디바이스(210)에게 마이크의 활성화를 요청할 수 있다. 이와 함께, 화자 인식 엔진(231)은 화자 인증을 통해 파악한 사용자 식별자를 바탕으로 해당 사용자의 사용자 정보 및 해당 사용자의 TTS 설정 정보를 음성 합성(TTS) 모듈(235)에게 전달할 수 있다(204). 사용자 정보는 예를 들어, 사용자 ID, 및 해당 사용자의 가청 주파수 정보 등을 포함할 수 있다. 해당 사용자의 사용자 정보 및 해당 사용자의 TTS 설정 정보는 '화자 정보'라고도 불릴 수 있다. TTS 설정 정보는 해당 사용자가 희망하는 주파수 대역에 대한 설정 정보를 포함할 수 있다. 화자 정보는 사용자 데이터베이스(239)에 저장될 수 있다. 이때, 사용자 데이터베이스(239)는 주파수 보정 모듈(237) 내에 포함될 수도 있고, 주파수 보정 모듈(237)과 별도로 구성될 수도 있다.

스마트 디바이스(210)는 마이크의 활성화 이후에 사용자로부터 발화된 발화 음성(예를 들어, "오늘 미세 먼지 어때?")을 STT/NLP 모듈(233)로 전달할 수 있다(205).

STT/NLP 모듈(233)은 예를 들어, 발화 음성의 의도 및/또는 의미를 분석하여 발화 음성에 응답하는 답변 문장(예를 들어, "오늘 미세 먼지는 매우 나쁨 수준입니다. 마스크를 착용하세요")을 텍스트로 생성할 수 있다. 보다 구체적으로, STT/NLP 모듈(233)은 발화 음성의 분석 결과를 기초로, 음성 합성(TTS) 모듈(235)에 의해 발화 음성을 제1 텍스트로 변환할 수 있다. STT/NLP 모듈(233)은 제1 텍스트에 대한 자연어 처리(Natural Language Processing; NLP)를 통해 제1 텍스트에 응답하는 텍스트 형태의 답변 문장을 생성할 수 있다. STT/NLP 모듈(233)은 텍스트 형태의 답변 문장을 음성 합성(TTS) 모듈(235)에게 전달할 수 있다(206).

음성 합성(TTS) 모듈(235)은 텍스트 형태의 답변 문장("오늘 미세 먼지는 매우 나쁨 수준입니다. 마스크를 착용하세요")을 제2 음성으로 생성할 수 있다. 음성 합성(TTS) 모듈(235)이 텍스트를 음성으로 변환하는 과정은 다음과 같다.

예를 들어, "날씨는 어때?"와 같은 텍스트를 음성으로 변환한다고 하자. 이 경우, 음성 합성(TTS) 모듈(235)은 텍스트 전처리를 통해 텍스트에 포함된 용어들 중 사용자 사전에 포함된 고유 명사 등을 구분할 수 있다. 음성 합성(TTS) 모듈(235)은 예를 들어, 품사 사전 데이터베이스를 사용하여 해당 텍스트의 구문을 분석하고, 분석 결과에 따라 각 단어의 품사를 태깅(tagging)할 수 있다. 음성 합성(TTS) 모듈(235)은 예를 들어, 딜리미터(delimiter)를 이용하여 각 단어를 구분하는 경계를 설정하고, 발음 사전 등을 이용하여 문자열과 발음을 변환함으로써 전체 문장을 생성하여 음성으로 제공할 수 있다.

음성 합성(TTS) 모듈(235)이 생성한 제2 음성은 예를 들어, 22.02Khz의 주파수 대역의 신호일 수 있다. 음성 합성(TTS) 모듈(235)은 제2 음성을 주파수 보정 모듈(237)로 전달할 수 있다. 음성 합성(TTS) 모듈(235)의 구성은 아래의 도 4를 참조할 수 있다.

주파수 보정 모듈(237)은 예를 들어, 사용자 데이터베이스(239)에 저장된 화자 정보를 기초로 제2 음성의 주파수를 보정할 수 있다. 예를 들어, 제2 음성의 주파수가 4Khz 대역이고, 화자 정보에 따른 가청 주파수 대역이 3Khz 대역이라고 하자. 이 경우, 주파수 보정 모듈(237)은 4Khz 대역의 주파수를 갖는 제2 음성을 화자가 청취 가능한 3Khz 대역의 신호로 보정하여 제3 음성을 생성할 수 있다. 주파수 보정 모듈(237)은 음성 합성(TTS) 모듈(235)을 통해 스마트 디바이스(210)로 제 3 음성을 제공할 수 있다(207). 스마트 디바이스(210)는 제3 음성("오늘 미세 먼지는 매우 나쁨 수준입니다. 마스크를 착용하세요")을 화자에게 제공할 수 있다.

주파수 보정 모듈(237)은 사용자 데이터베이스(239)에 저장된 화자 정보를 통해 화자 개인 별 가청 주파수를 파악하고, 화자 개인 별로 잘 듣지 못하는 주파수 대역의 음성 신호는 화자가 잘 들을 수 있는 주파수 대역으로 이동시켜 샘플링할 수 있다. 또는 주파수 보정 모듈(237)은 화자가 잘 듣지 못하는 주파수 대역에 에너지를 보강하여 제3 음성을 생성하거나, 또는 화자가 잘 듣지 못하는 주파수 대역에 대한 주파수를 이동시켜 제3 음성을 생성할 수 있다.

제공 장치(230)는 에너지 보강 또는 주파수 이동을 통해 생성된 각각의 제3 음성을 화자에게 들려주고, 화자가 마음에 드는 어느 하나의 제3 음성을 선택하도록 할 수도 있다. 예를 들어, 화자가 가청 주파수 대역에 대한 정보를 입력하지 않거나 또는 가청 주파수와 관련된 별도의 설정을 하지 않은 경우, 제공 장치(230)는 별도의 주파수 보정없이, 음성 합성(TTS) 모듈(235)이 생성한 기본적인 주파수 대역의 제2 음성을 스마트 디바이스(210)에게 제공할 수도 있다.

도 3은 일 실시예에 따른 스마트 디바이스와 화자 인식 서버 간의 동작을 설명하기 위한 도면이다. 도 3을 참조하면, 스마트 디바이스(210)를 통해 입력된 호출명을 기반으로 화자 인식 서버(300)가 화자 별 모델을 학습하여 화자들을 식별하는 과정이 도시된다. 화자 인식 서버(300)는 전술한 화자 인식 엔진(231)에 해당할 수 있다.

예를 들어, 화자가 발화한 호출명 A가 스마트 디바이스(210)에 수신되었다고 하자. 스마트 디바이스(210)는 호출명 A가 예를 들어, 화자 인식 서버(300)의 구동을 트리거(trigger)하는 미리 약속된 호출명인지를 인식할 수 있다. 스마트 디바이스(210)는 호출명 A가 미리 약속된 호출명이라는 판단에 따라 호출명 A를 화자 인식 서버에 전달함으로써 화자 인식 서버(300)를 연동(또는 구동)시킬 수 있다.

예를 들어, 호출명 A가 처음 입력된 경우, 화자 인식 서버(300)는 호출명 A에 해당하는 음성으로 화자 등록(310)을 수행할 수 있다. 화자 인식 서버(300)는 예를 들어, 호출명 A로부터 특징을 추출(311)하고, 추출한 특징을 이용하여 화자 모델을 학습(313)함으로써 최종적인 화자 모델(320)을 생성할 수 있다. 실시예에 따라서, 화자 모델(320)은 화자의 녹음된 음성으로부터 추출한 특징에 의해 화자 모델을 학습함으로써 생성될 수도 있다. 화자의 녹음된 음성은 예를 들어, 녹음 데이터베이스에 저장된 것일 수 있다.

또한, 예를 들어, 화자 등록(310) 이후에 호출명 A가 입력된 경우, 화자 인식 서버(300)는 호출명 A에 의해 화자 인식(330)을 수행할 수 있다. 화자 인식 서버(300)는 호출명 A로부터 특징을 추출(331)하고, 추출한 특징과 화자 모델(320)에 등록된 정보를 비교함으로써 화자 인식(333)을 수행할 수 있다.

도 4는 일 실시예에 따른 음성 합성(TTS) 장치의 동작을 설명하기 위한 도면이다. 도 4를 참조하면, 일 실시예에 따른 음성 합성(TSS) 장치(400)는 엔드-투-엔드(end-to-end) 기반의 심층 신경망(Deep Neural Network; DNN)을 통해 텍스트를 음성으로 합성할 수 있다. 심층 신경망은 예를 들어, 인코더(encoder)(410), 어텐션 모델(attention model)(420), 디코더(decoder)(430) 및 보코더(vocoder)(440)를 포함할 수 있다.

음성 합성(TSS) 장치(400)로 텍스트(text)가 입력되었다고 하자. 이 경우, 인코더(410)는 입력된 텍스트를 해당 텍스트의 특징을 나타내는 숫자 또는 벡터로 변환할 수 있다. 인코더(410)는 입력된 텍스트로부터 텍스트의 특징을 나타내는 특징 벡터를 결정할 수 있다. 인코더(410)는 예를 들어, 1차 컨볼루션 뱅크(convolution bank), 하이웨이(highway) 네트워크, 양방향 GRU(bidirectional gated recurrent unit)을 포함하는 CBHG 네트워크로 구성될 수 있다. 예를 들어, 음성 합성(TSS) 장치(400)를 학습하는 시점에는 텍스트 및 정답 음원이 함께 입력될 수 있다.

어텐션 모델(420)은 인코더(410)에서 결정된 특징 벡터로부터 텍스트의 문맥 정보(context information)를 결정할 수 있다. 어텐션 모델(420)은 텍스트의 문맥 정보로부터 다음(next) 스펙트로그램을 예측할 수 있다. 스펙트로그램은 예를 들어, 소리 스펙트로그램으로써 말(word)의 자극 강도와 주파수의 분포를 나타낼 수 있다.

디코더(430)는 어텐션 모델(420)에서 예측한 다음 스펙트로그램을 기반으로 다음 스펙트로그램을 생성할 수 있다. 어텐션 모델(420) 및 디코더(430)는 예를 들어, 어텐션- RNN(Recurrent Neural Network)으로 구성될 수 있다.

보코더(440)는 각 음소에 대한 파라미터 값들을 음원 또는 음성으로 바꾸어 줄 수 있다. 보코더(440)는 디코더(430)에서 생성된 다음 스펙트로그램을 음원 또는 음성으로 변환할 수 있다. 보코더(440)는 예를 들어, 그리핀 림(Griffin- Lim) 보코더 알고리즘을 포함할 수 있다.

도 5는 다른 실시예에 따른 음성을 제공하는 방법을 나타낸 흐름도이다. 도 5를 참조하면, 일 실시예에 따른 제공 장치는 화자의 발화된 제1 음성을 수신한다(505).

제공 장치는 제1 음성을 기초로, 화자를 인식한다(510).

제공 장치는 인식한 화자에 대응하는 화자 정보를 획득한다(515).

제공 장치는 제1 음성의 분석 결과를 기초로, 제1 음성에 응답하는 제2 음성을 생성한다(520).

제공 장치는 화자 정보에 화자의 가청 주파수 대역에 대한 정보가 포함되어 있는지 여부를 판단할 수 있다(525). 예를 들어, 단계(525)에서, 화자 정보에 화자의 가청 주파수 대역에 대한 정보가 포함된 경우, 제공 장치는 화자 정보를 기초로, 화자의 가청 주파수 대역을 파악할 수 있다(530).

제공 장치는 제2 음성의 주파수 대역과 상기 화자의 가청 주파수 대역의 비교 결과를 기초로 제2 음성의 주파수를 보정함으로써 제3 음성을 생성할 수 있다(535).

제공 장치는 제3 음성의 사용 여부에 대한 화자의 선택을 입력받을 수 있다(540). 제공 장치는 단계(540)에서의 화자의 선택에 따라 제3 음성을 제공할 수 있다(545).

또는 실시예에 따라서, 단계(525)에서, 화자 정보에 화자의 가청 주파수 대역에 대한 정보가 포함되지 않은 경우, 제공 장치는 화자의 연령대 별 평균 가청 주파수를 기초로, 제2 음성의 주파수를 보정하여 화자를 위한 제3 음성을 생성할 수 있다(550). 이후, 제공 장치는 제3 음성의 사용 여부에 대한 화자의 선택을 입력받고(540), 화자의 선택에 따라 제3 음성을 제공할 수 있다(545).

도 6은 일 실시예에 따른 음성을 제공하는 장치의 블록도이다. 도 6을 참조하면, 일 실시예에 따른 음성을 제공하는 장치('제공 장치')(600)는 통신 인터페이스(610), 프로세서(630) 및 스피커(670)를 포함한다. 제공 장치(600)는 녹음기(620), 메모리(650) 및 사용자 인터페이스(미도시)를 더 포함할 수 있다. 통신 인터페이스(610), 녹음기(620), 프로세서(630), 메모리(650) 및 스피커(670)는 통신 버스(605)를 통해 서로 통신할 수 있다.

통신 인터페이스(610)는 화자의 발화된 제1 음성을 수신한다.

녹음기(620)는 화자의 발화된 제1 음성을 녹음할 수 있다.

프로세서(630)는 예를 들어, 통신 인터페이스(610)를 통해 수신하거나, 또는 녹음기(620)에 녹음된 제1 음성을 기초로, 화자를 인식한다. 프로세서(630)는 인식한 화자에 대응하는 화자 정보를 획득한다. 프로세서(630)는 제1 음성의 분석 결과를 기초로, 제1 음성에 응답하는 제2 음성을 생성한다. 프로세서(630)는 화자 정보를 기초로, 제2 음성의 주파수를 보정하여 화자를 위한 제3 음성을 생성한다.

프로세서(630)는 화자 정보를 기초로, 화자의 가청 주파수 대역을 파악한다. 프로세서(630)는 제2 음성의 주파수 대역과 화자의 가청 주파수 대역의 비교 결과를 기초로 제2 음성의 주파수를 보정함으로써 제3 음성을 생성한다.

프로세서(630)는 예를 들어, 제2 음성이 화자의 가청 주파수 대역을 벗어나는 경우, 제2 음성을 화자의 가청 주파수 대역으로 이동시켜 샘플링 함으로써 제3 음성을 생성한다. 또는 프로세서(630)는 제2 음성이 화자의 가청 주파수 대역을 벗어나는 고주파 대역의 신호인지 여부를 판단한다. 프로세서(630)는 제2 음성이 고주파 대역의 신호라는 판단에 따라, 제2 음성의 고주파 대역의 에너지를 보강함으로써 제3 음성을 생성한다. 프로세서(630)는 화자 정보에 화자의 가청 주파수 대역이 포함되지 않는지 여부를 판단할 수 있다. 예를 들어, 화자 정보에 화자의 가청 주파수 대역이 포함되지 않은 경우, 프로세서(630)는 화자의 연령대 별 평균 가청 주파수를 기초로, 제2 음성의 주파수를 보정하여 화자를 위한 제3 음성을 제공한다.

프로세서(630)는 예를 들어, 제1 음성이 미리 정해진 호출어를 포함하는지 여부를 판단할 수 있다. 프로세서(630)는 제1 음성이 호출어를 포함한다는 판단에 따라 제1 음성을 화자 인식 엔진에 인가함으로써 화자를 인식할 수 있다.

메모리(650)는 프로세서(630)가 획득한 화자 정보를 저장할 수 있다.

스피커(670)는 프로세서(630)가 생성한 제3 음성을 제공한다.

제공 장치(600)는 예를 들어, 터치 디스플레이(미도시) 화면에 표시되는 사용자 인터페이스를 통해 제3 음성의 사용 여부에 대한 화자의 선택을 입력받을 수 있다.

또한, 프로세서(630)는 도 1 내지 도 5를 통해 전술한 적어도 하나의 방법 또는 적어도 하나의 방법에 대응되는 알고리즘을 수행할 수 있다. 프로세서(630)는 목적하는 동작들(desired operations)을 실행시키기 위한 물리적인 구조를 갖는 회로를 가지는 하드웨어로 구현된 데이터 처리 장치일 수 있다. 예를 들어, 목적하는 동작들은 프로그램에 포함된 코드(code) 또는 인스트럭션들(instructions)을 포함할 수 있다. 예를 들어, 하드웨어로 구현된 데이터 처리 장치는 마이크로프로세서(microprocessor), 중앙 처리 장치(central processing unit), 프로세서 코어(processor core), 멀티-코어 프로세서(multi-core processor), 멀티프로세서(multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array)를 포함할 수 있다.

프로세서(630)는 프로그램을 실행하고, 제공 장치(600)를 제어할 수 있다. 프로세서(630)에 의하여 실행되는 프로그램 코드는 메모리(650)에 저장될 수 있다.

메모리(650)는 통신 인터페이스(610)를 통해 수신한 다양한 정보를 저장할 수 있다. 메모리(650)는 제1 음성, 제2 음성 및 제3 음성 중 적어도 하나를 저장할 수 있다.

이 밖에도, 메모리(650)는 상술한 프로세서(630)에서의 처리 과정에서 생성되는 다양한 정보들을 저장할 수 있다. 이 밖에도, 메모리(650)는 각종 데이터와 프로그램 등을 저장할 수 있다. 메모리(650)는 휘발성 메모리 또는 비휘발성 메모리를 포함할 수 있다. 메모리(650)는 하드 디스크 등과 같은 대용량 저장 매체를 구비하여 각종 데이터를 저장할 수 있다.

일 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.

600: 제공 장치
605: 통신 버스
610: 통신 인터페이스
620: 녹음기
630: 프로세서
650: 메모리
670: 스피커

Claims

음성을 제공하는 장치가, 화자의 발화된 제1 음성을 수신하는 단계;
상기 음성을 제공하는 장치가, 상기 제1 음성을 기초로, 상기 화자를 인식하는 단계;
상기 음성을 제공하는 장치가, 상기 인식한 화자에 대응하는 화자 정보를 획득하는 단계;
상기 음성을 제공하는 장치가, 상기 제1 음성의 분석 결과를 기초로, 상기 제1 음성에 응답하는 제2 음성을 생성하는 단계; 및
상기 음성을 제공하는 장치가, 상기 화자 정보를 기초로, 상기 제2 음성의 주파수를 보정하여 상기 화자를 위한 제3 음성을 제공하는 단계
를 포함하고,
상기 제2 음성을 생성하는 단계는
상기 음성을 제공하는 장치가, STT(Speech To Text)에 의해 상기 제1 음성을 제1 텍스트로 변환하는 단계;
상기 음성을 제공하는 장치가, 상기 제1 텍스트에 대한 자연어 처리(Natural Language Processing; NLP)를 통해 상기 제1 텍스트에 응답하는 답변 문장을 생성하는 단계; 및
상기 음성을 제공하는 장치가, 상기 답변 문장을 기초로, 상기 제1 음성에 응답하는 제2 음성을 생성하는 단계
를 포함하는, 음성을 제공하는 방법.
제1항에 있어서,
상기 제3 음성을 제공하는 단계는
상기 음성을 제공하는 장치가, 상기 화자 정보를 기초로, 상기 화자의 가청 주파수 대역을 파악하는 단계; 및
상기 음성을 제공하는 장치가, 상기 제2 음성의 주파수 대역과 상기 화자의 가청 주파수 대역의 비교 결과를 기초로 상기 제2 음성의 주파수를 보정함으로써 상기 제3 음성을 생성하는 단계
를 포함하는, 음성을 제공하는 방법.
제2항에 있어서,
상기 비교 결과를 기초로 상기 제3 음성을 생성하는 단계는
상기 음성을 제공하는 장치가, 상기 제2 음성이 상기 화자의 가청 주파수 대역을 벗어나는 경우, 상기 제2 음성을 상기 화자의 가청 주파수 대역으로 이동시켜 샘플링(sampling) 함으로써 상기 제3 음성을 생성하는 단계
를 포함하는, 음성을 제공하는 방법.
제2항에 있어서,
상기 비교 결과를 기초로 상기 제3 음성을 생성하는 단계는
상기 음성을 제공하는 장치가, 상기 제2 음성이 상기 화자의 가청 주파수 대역을 벗어나는 고주파 대역의 신호인지 여부를 판단하는 단계; 및
상기 음성을 제공하는 장치가, 상기 제2 음성이 상기 고주파 대역의 신호라는 판단에 따라, 상기 제2 음성의 고주파 대역의 에너지를 보강함으로써 상기 제3 음성을 생성하는 단계
를 포함하는, 음성을 제공하는 방법.
제2항에 있어서,
상기 음성을 제공하는 장치가, 상기 제3 음성의 사용 여부에 대한 상기 화자의 선택을 입력받는 단계
를 더 포함하는, 음성을 제공하는 방법.
제2항에 있어서,
상기 화자를 위한 제3 음성을 제공하는 단계는
상기 화자 정보에 상기 화자의 가청 주파수 대역이 포함되지 않은 경우,
상기 음성을 제공하는 장치가, 상기 화자의 연령대 별 평균 가청 주파수를 기초로, 상기 제2 음성의 주파수를 보정하여 상기 화자를 위한 제3 음성을 생성하는 단계
를 포함하는, 음성을 제공하는 방법.
제1항에 있어서,
상기 화자 정보는
상기 화자의 식별 정보, 상기 화자의 연령, 상기 화자의 성별, 상기 화자의 가청 주파수 대역, 상기 화자의 연령대 별 평균 가청 주파수, 상기 화자가 선호하는 음성 주파수 대역 중 적어도 하나를 포함하는, 음성을 제공하는 방법.
삭제
삭제
제1항에 있어서,
상기 음성을 제공하는 장치가, 상기 인식한 화자를 인증하는 단계
를 더 포함하는, 음성을 제공하는 방법.
제1항에 있어서,
상기 화자를 인식하는 단계는
상기 음성을 제공하는 장치가, 상기 제1 음성이 미리 정해진 호출어를 포함하는지 여부를 판단하는 단계; 및
상기 음성을 제공하는 장치가, 상기 제1 음성이 상기 호출어를 포함한다는 판단에 따라 상기 제1 음성을 화자 인식 엔진에 인가함으로써 상기 화자를 인식하는 단계
를 포함하는, 음성을 제공하는 방법.
제1항에 있어서,
상기 화자를 인식하는 단계는
상기 음성을 제공하는 장치가, 상기 제1 음성으로부터 특징을 추출하는 단계; 및
상기 음성을 제공하는 장치가, 상기 특징을 미리 학습된 화자 별 모델에 인가함으로써 상기 화자를 인식하는 단계
를 포함하는, 음성을 제공하는 방법.
하드웨어와 결합되어 제1항 내지 제7항, 제10항 내지 제12항 중 어느 하나의 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램.
화자의 발화된 제1 음성을 수신하는 통신 인터페이스;
상기 제1 음성을 기초로, 상기 화자를 인식하고, 상기 인식한 화자에 대응하는 화자 정보를 획득하고, 상기 제1 음성의 분석 결과를 기초로, 상기 제1 음성에 응답하는 제2 음성을 생성하고, 상기 화자 정보를 기초로, 상기 제2 음성의 주파수를 보정하여 상기 화자를 위한 제3 음성을 생성하는 프로세서; 및
상기 제3 음성을 제공하는 스피커
를 포함하고,
상기 프로세서는
STT(Speech To Text)에 의해 상기 제1 음성을 제1 텍스트로 변환하고, 상기 제1 텍스트에 대한 자연어 처리(Natural Language Processing; NLP)를 통해 상기 제1 텍스트에 응답하는 답변 문장을 생성하며, 상기 답변 문장을 기초로, 상기 제1 음성에 응답하는 제2 음성을 생성하는, 음성을 제공하는 장치.
제14항에 있어서,
상기 프로세서는
상기 화자 정보를 기초로, 상기 화자의 가청 주파수 대역을 파악하고, 상기 제2 음성의 주파수 대역과 상기 화자의 가청 주파수 대역의 비교 결과를 기초로 상기 제2 음성의 주파수를 보정함으로써 상기 제3 음성을 생성하는, 음성을 제공하는 장치.
제15항에 있어서,
상기 프로세서는
상기 제2 음성이 상기 화자의 가청 주파수 대역을 벗어나는 경우, 상기 제2 음성을 상기 화자의 가청 주파수 대역으로 이동시켜 샘플링 함으로써 상기 제3 음성을 생성하는, 음성을 제공하는 장치.
제15항에 있어서,
상기 프로세서는
상기 제2 음성이 상기 화자의 가청 주파수 대역을 벗어나는 고주파 대역의 신호인지 여부를 판단하고, 상기 제2 음성이 상기 고주파 대역의 신호라는 판단에 따라, 상기 제2 음성의 고주파 대역의 에너지를 보강함으로써 상기 제3 음성을 생성하는, 음성을 제공하는 장치.
제15항에 있어서,
상기 제3 음성의 사용 여부에 대한 상기 화자의 선택을 입력받는 사용자 인터페이스
를 더 포함하는, 음성을 제공하는 장치.
제15항에 있어서,
상기 프로세서는
상기 화자 정보에 상기 화자의 가청 주파수 대역이 포함되지 않은 경우,
상기 화자의 연령대 별 평균 가청 주파수를 기초로, 상기 제2 음성의 주파수를 보정하여 상기 화자를 위한 제3 음성을 제공하는, 음성을 제공하는 장치.
제15항에 있어서,
상기 프로세서는
상기 제1 음성이 미리 정해진 호출어를 포함하는지 여부를 판단하고, 상기 제1 음성이 상기 호출어를 포함한다는 판단에 따라 상기 제1 음성을 화자 인식 엔진에 인가함으로써 상기 화자를 인식하는, 음성을 제공하는 장치.