KR20210106397A

KR20210106397A - 음성 전환 방법, 장치 및 전자 기기

Info

Publication number: KR20210106397A
Application number: KR1020210105264A
Authority: KR
Inventors: 시레이 왕; 웬푸 왕; 타오 순
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2020-09-25
Filing date: 2021-08-10
Publication date: 2021-08-30
Also published as: KR102484967B1; JP2021103328A; US20210280202A1; CN112259072A; EP3859735A2; EP3859735A3; JP7181332B2

Abstract

본 출원은 음성 전환 방법, 장치 및 전자 기기를 공개하고, 음성 전환, 음성 상호 작용, 자연 언어 처리 및 딥 러닝 기술 분야에 관한 것이다. 구체적인 구현 방법은, 제1 사용자의 소스 음성과 제2 사용자의 참조 음성을 획득하는 단계; 소스 음성에서 제1 음성 콘텐츠 정보와 제1 음향 특징을 추출하는 단계; 참조 음성에서 제2 음향 특징을 추출하는 단계; 제1 음성 콘텐츠 정보, 제1 음향 특징 및 제2 음향 특징을 미리 훈련된 음성 전환 모델에 입력하여 재구성된 제3 음향 특징을 획득하는 단계 - 미리 훈련된 음성 전환 모델은 제3 사용자의 음성에 따라 훈련하여 획득함 -; 및 제3 음향 특징에 따라 타겟 음성을 합성하는 단계를 포함한다. 당해 방법은 소스 음성의 제1 음성 콘텐츠 정보와 제1 음향 특징, 참조 음성의 제2 음향 특징을 미리 훈련된 음성 전환 모델에 입력하여, 획득한 재구성된 제3 음향 특징에 따라 타겟 음성을 합성하였으며 음성 전환 대기 시간을 단축할 수 있다.

Description

음성 전환 방법, 장치 및 전자 기기{VOICE CONVERSION METHOD, ELECTRONIC DEVICE, AND STORAGE MEDIUM}

본 출원은 컴퓨터 기술 분야의 음성 전환, 음성 상호 작용, 자연 언어 처리 및 딥 러닝 기술 분야에 관한 것으로, 특히 음성 전환 방법, 장치, 전자 기기 및 저장 매체에 관한 것이다.

음성 전환 방법은 사용자의 음성 세그먼트를 타겟 사용자의 음색을 가진 음성 세그먼트로 전환하여 타겟 사용자의 음색을 모방할 수 있다. 현재 관련 기술의 음성 전환 방법은 사용자가 음성 클립을 미리 녹음하고 사용자의 음성 클립에 따라 모델의 훈련과 업데이트를 수행한 다음 업데이트된 모델에 따라 음성 전환을 수행해야 한다. 이러한 방법은 사용자의 음성 녹음에 대한 요구가 상대적으로 높고 매번 음성 전환을 수행하기 전에 모델을 업데이트해야 하며 음성 전환 대기 시간이 길고 융통성이 떨어진다.

본 출원은 음성 전환 방법, 장치, 전자 기기 및 저장 매체를 제공한다.

본 출원의 제1 측면에 따르면, 음성 전환 방법을 제공하고. 상기 음성 전환 방법은 제1 사용자의 소스 음성과 제2 사용자의 참조 음성을 획득하는 단계; 상기 소스 음성에서 제1 음성 콘텐츠 정보와 제1 음향 특징을 추출하는 단계; 상기 참조 음성에서 제2 음향 특징을 추출하는 단계; 상기 제1 음성 콘텐츠 정보, 상기 제1 음향 특징 및 상기 제2 음향 특징을 미리 훈련된 음성 전환 모델에 입력하여 재구성된 제3 음향 특징을 획득하는 단계 - 상기 미리 훈련된 음성 전환 모델은 제3 사용자의 음성에 따라 훈련하여 획득함 -; 및 상기 제3 음향 특징에 따라 타겟 음성을 합성하는 단계를 포함한다.

본 출원의 제2 측면에 따르면, 음성 전환 장치를 제공하고. 상기 음성 전환 장치는 제1 사용자의 소스 음성과 제2 사용자의 참조 음성을 획득하는 획득 모듈; 상기 소스 음성에서 제1 음성 콘텐츠 정보와 제1 음향 특징을 추출하는 제1 추출 모듈; 상기 참조 음성에서 제2 음향 특징을 추출하는 제2 추출 모듈; 상기 제1 음성 콘텐츠 정보, 상기 제1 음향 특징 및 상기 제2 음향 특징을 미리 훈련된 음성 전환 모델에 입력하여 재구성된 제3 음향 특징을 획득하며, 여기서 상기 미리 훈련된 음성 전환 모델은 제3 사용자의 음성에 따라 훈련하여 획득하는 전환 모듈; 및 상기 제3 음향 특징에 따라 타겟 음성을 합성하는 합성 모듈을 포함한다.

본 출원의 제3 측면에 따르면, 전자 기기를 제공한다.상기 전자 기기는 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서와 통신 가능하게 연결되는 메모리;를 포함하고, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 전술한 음성 전환 방법을 수행할 수 있도록 한다.

본 출원의 제4 측면에 따르면, 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체를 제공한다, 여기서 상기 컴퓨터 명령은 상기 컴퓨터가 전술한 음성 전환 방법을 수행하도록 한다.

본 출원의 제5 측면에 따르면, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공하는바, 상기 컴퓨터 프로그램중의 명령이 실행될 경우, 전술한 음성 전환 방법이 실행된다.

이해해야 하는 것은 당해 섹션에서 설명된 내용은 본 출원의 공개된 실시예들의 핵심 또는 중요한 특징들을 인식하기 위한 것이 아니며, 본 출원 내용의 범위를 제한하려는 의도가 아니다. 본 출원 내용의 다른 특징은 이하 설명에서 더욱 명확해지어 이해하기 쉬워진다.

첨부된 도면은 본 출원의 기술 방안을 더 잘 이해하기 위한 것으로 본 출원을 제한하지 않은다, 여기서,
도1은 본 출원의 제1 실시예에 따른 음성 전환 방법의 흐름도이고;
도2는 본 출원의 제2 실시예에 따른 음성 전환 방법의 장면 그래프이고;
도3은 본 출원의 제3 실시예에 따른 음성 전환 방법의 장면 그래프이고;
도4는 본 출원의 제4 실시예에 따른 음성 전환 방법에서 재구성된 제3 음향 특징을 획득하는 흐름도이고;
도5는 본 출원의 제4 실시예에 따른 음성 전환 방법에서 미리 훈련된 음성 전환 모델을 획득하는 흐름도이고;
도6은 본 출원의 제1 실시예에 따른 음성 전환 장치의 블록도이고;
도7은 본 출원의 제2 실시예에 따른 음성 전환 장치의 블록도이고;
도8은 본 출원의 실시예에 따른 음성 전환 방법을 구현하기 위한 전자 기기의 블록도이다.

이하에서는 첨부된 도면을 참조하여 본 출원의 예시적인 실시예를 설명하며, 이는 이해를 용이하게하기 위해 본 출원의 실시예들의 다양한 세부 사항을 포함하며, 단지 예시적인 것으로 이해해야한다. 따라서, 당업자는 본 출원의 범위 및 사상을 벗어나지 않고 여기에 설명된 실시예에 대해 다양한 변경 및 수정이 이루어질 수 있음을 인식해야한다. 마찬가지로, 이하의 설명에서는 명확성과 간결성을 위해 잘 알려진 기능 및 구조에 대한 설명은 생략한다.

도1은 본 출원의 제1 실시예에 따른 음성 전환 방법의 흐름도이다.

도1에 도시된 바와 같이, 본 출원 제1 실시예의 음성 전환 방법은 하기와 같은 단계를 포함한다.

S101, 제1 사용자의 소스 음성과 제2 사용자의 참조 음성을 획득한다.

설명해야 하는 바로는, 본 출원 실시예에 따른 음성 인식 방법의 수행 주체는 데이터 정보 처리 기능을 갖춘 하드웨어 기기와 당해 하드웨어 기기를 작동하는 데 필요한 소프트웨어 중의 적어도 하나일 수 있다. 선택적으로, 수행 주체는 워크 스테이션, 서버, 컴퓨터, 사용자 단말기 또는 기타 기기를 포함할 수 있다. 사용자 단말기는 휴대폰, 컴퓨터, 스마트 음성 상호 작용 기기, 스마트 가전제품, 차량용 단말기 등을 포함하지만 이에 제한되지 않는다.

설명해야 하는 바로는, 소스 음성은 제1 사용자가 내어 음색이 전환되지 않은 음성 세그먼트이며, 제1 사용자의 음색 특징을 구비하고, 참조 음성은 제2 사용자가 낸 음성 세그먼트이며, 제2 사용자의 음색 특징을 구비한다. 본 출원 실시예의 음성 전환 방법은 제1 사용자의 소스 음성을 제2 사용자의 참조 음성을 특징짓는 제2 사용자의 음색을 가진 음성 세그먼트로 전환하여, 제2 사용자의 음색을 모방할 수 있다. 제1 사용자, 제2 사용자는 사람, 스마트 음성 상호 작용 기기 등을 포함하지만 이에 제한되지 않는다.

선택적으로, 제1 사용자의 소스 음성, 제2 사용자의 참조 음성은 모두 녹음, 네트워크 전송 등 방식을 통해 획득할 수 있다.

이해 가능한 바로는, 녹음하는 방식으로 제1 사용자의 소스 음성 또는 제2 사용자의 참조 음성 중의 적어도 하나를 획득할 때, 기기에 음성 수집 장치를 구비하며, 음성 수집 장치는 마이크로폰(Microphone), 마이크로폰어레이(Microphone Array) 등일 수 있다.

또는, 네트워크 전송을 통해 제1 사용자의 소스 음성 또는 제2 사용자의 참조 음성 중의 적어도 하나를 획득할 때, 기기에 네트워크 장치를 구비하며, 네트워크 장치를 통해 기타 기기 또는 서버와 네트워크 전송을 진행할 수 있다.

구체적인 실시에서, 본 출원 실시예의 음성 전환 방법은 스마트 음성 상호 작용 기기에 응용될 수 있으며, 당해 스마트 음성 상호 작용 기기는 문장 낭독, 문답과 같은 기능을 구현할 수 있다. 사용자가 스마트 음성 상호 작용 기기가 낭독한 문자 세그먼트의 음색을 자신의 음색으로 교체하려고 하는 경우에 당해 응용 장면에서 스마트 음성 상호 작용 기기가 낭독한 문자 세그먼트의 소스 음성을 획득하고 자신의 참조 음성 세그먼트를 녹음할 수 있다.

구체적인 실시에서, 본 출원 실시예의 음성 전환 방법은 비디오 APP(Application, 응용프로그램)에 응용될 수 있으며, 당해 비디오 APP는 영화와 텔레비전 작품의 이차 창작을 구현할 수 있다, 예를 들어 사용자가 영화와 텔레비전 작품의 음성 세그먼트를 특정 배우의 음색을 가진 어의 다른 음성으로 교체할 수 있으며, 당해 응용 장면에서, 사용자가 자신의 소스 음성을 녹음하고 네트워크에서 특정 배우의 참조 음성을 다운로드할 수 있다.

S102, 소스 음성에서 제1 음성 콘텐츠 정보와 제1 음향 특징을 추출한다.

본 출원 실시예에서, 제1 음성 콘텐츠 정보는 소스 음성의 음성 텍스트, 어의 텍스트를 포함하지만 이에 제한되지 않는다, 제1 음향 특징은 멜(Mel) 특징, 멜 주파수 캡스트럼 계수(Mel-scale Frequency Cepstral Coefficients, MFCC) 특징, 지각 선형 예측(Perceptual Linear Predict, PLP) 특징 등을 포함하지만 이에 제한되지 않는다.

구체적인 실시에서, 음성 인식 모델을 통해 소스 음성에서 제1 음성 콘텐츠 정보를 추출할 수 있고, 또한 음향 모델을 통해 소스 음성에서 제1 음향 특징을 추출할 수 있으므로, 음성 인식 모델, 음향 모델 모두 실제 상황에 따라 미리 설정할 수 있다.

S103, 참조 음성에서 제2 음향 특징을 추출한다.

S103단계의 구체적인 구현 과정과 원리는 전술한 실시예에서 소스 음성에서 제1 음향 특징을 추출하는 내용을 참조하고 여기서 반복하지 않은다.

S104, 제1 음성 콘텐츠 정보, 제1 음향 특징 및 제2 음향 특징을 미리 훈련된 음성 전환 모델에 입력하여 재구성된 제3 음향 특징을 획득하며, 여기서 미리 훈련된 음성 전환 모델은 제3 사용자의 음성 훈련에 따라 획득한다.

본 출원 실시예에서, 제3 사용자의 음성에 따라 음성 전환 모델을 미리 훈련할 수 있으며 미리 훈련된 음성 전환 모델을 획득하고, 이를 제1 음성 콘텐츠 정보, 제1 음향 특징 및 제2 음향 특징에 따라 재구성된 제3 음향 특징을 획득하는 데에 사용될 수 있다.

설명해야 하는 바로는, 제3 음향 특징에 대한 내용은 전술한 실시예에서 제1 음향 특징에 대한 내용을 참조할 수 있으므로 여기서 반복하지 않은다.

선택적으로, 제1 음향 특징, 제2 음향 특징과 제3 음향 특징은 모두 멜 특징일 수 있다.

이해 가능한 바로는, 미리 훈련된 음성 전환 모델은 제1 사용자, 제2 사용자와 모두 무관하여, 매번 음성 전환을 수행하기 전에 사용자가 상대적으로 긴 시간을 소비하여 고품질의 음성을 녹음하고 또한 사용자가 녹음한 음성에 따라 음성 전환 모델을 훈련과 업데이트하는 관련 기술과 비교하면 당해 방법에서는 음성 전환 모델을 미리 구성하여 후속 작업에서 다른 사용자에 따라 훈련과 업데이트할 필요가 없으므로, 융통성이 상대적으로 높고, 컴퓨팅 자원과 스토리지 자원을 절약하는 데 도움이 되어, 실시간 음성 전환을 구현할 수 있고, 음성 전환 대기 시간을 단축하는 데 유리하고, 또한 사용자의 음성 녹음에 대한 요구도 상대적으로 낮다.

이해 가능한 바로는, 본 출원 실시예의 음성 전환 방법은 다중 언어, 다중 음색 전환 등의 응용 장면에 적용 가능하다. 다중 언어 응용 장면은 제1 사용자의 소스 음성에 대응한 언어와 제2 사용자의 참조 음성과 대응한 언어가 다른 상황을 의미하고, 다중 음색 전환 응용 장면은 제1 사용자가 유일하고, 제2 사용자가 다수의 상황을 의미한다.

관련 기술에 따르면 다중 언어, 다중 음색 전환 등의 응용 장면에서 다수의 다른 음성 전환 모델을 구성해야 되고 음성 전환 모델의 훈련과 업데이트가 더욱 번거롭고, 음성 전환의 안정성과 유창성이 상대적으로 낮다, 하지만 본 출원에서는 음성 전환 모델을 미리 구성만 하면 후속 작업에서 다른 사용자에 따라 훈련과 업데이트할 필요가 없으므로, 중국어의 표준어를 포함하는 다중 언어, 다중 음색 전환 등의 응용 장면에서 음성 전환의 안정성과 유창성을 개선할 수 있다.

S105, 제3 음향 특징에 따라 타겟 음성을 합성한다.

본 출원 실시예에서, 타겟 음성에 대응하는 음색 특징은 제2 사용자의 참조 음성에 대응하는 음색 특징일 수 있다, 즉 당해 방법은 제2 사용자의 음색을 모방할 수 있다.

선택적으로, 타겟 음성에 대응하는 음성 콘텐츠 정보는 소스 음성의 제1 음성 콘텐츠 정보일 수 있다, 즉 당해 방법은 제1 사용자의 소스 음성의 음성 콘텐츠 정보를 보존할 수 있다.

선택적으로, 타겟 음성에 대응하는 말하는 속도, 감정, 리듬 등의 특징은 소스 음성에 대응하는 말하는 속도, 감정, 리듬 등의 특징일 수 있다, 즉 당해 방법은 제1 사용자의 소스 음성의 말하는 속도, 감정, 리듬 등의 특징을 보존할 수 있으며 타겟 음성과 소스 음성의 일치성을 개선할 수 있다.

선택적으로, 보코더를 사용하여 제3 음향 모델에 따라 타겟 음성을 합성할 수 있다.

요약하자면 본 출원 실시예의 음성 전환 방법을 따르면 소스 음성의 제1 음성 콘텐츠 정보와 제1 음향 특징, 참조 음성의 제2 음향 특징을 미리 훈련된 음성 전환 모델에 입력할 수 있고, 획득한 재구성된 제3 음향 특징에 따라 타겟 음성을 합성하였으며 음성 전환 모델을 미리 구성하여 후속 작업에서 훈련과 업데이트를 할 필요가 없으므로, 융통성이 상대적으로 높고, 실시간 음성 전환을 구현할 수 있고, 음성 전환 대기 시간을 단축하는 데 유리하고, 또한 다중 언어, 다중 음색 전환 등의 응용 장면에 적용가능하다.

전술한 임의의 실시예를 기반하여 S102단계에서 소스 음성에서 제1 음성 콘텐츠 정보를 추출하는 단계는, 소스 음성을 미리 훈련된 다중 언어 자동 음성 인식 모델에 입력하여 음성 사후확률 행렬을 획득하는 단계, 및 음성 사후확률 행렬을 제1 음성 콘텐츠 정보로 하는 단계를 포함할 수 있다.

설명해야 하는 바로는, 음성 사후확률 행렬(Phonetic Posterior Gram, PPG)은 음성의 음성 콘텐츠 정보를 특성화할 수 있고 음성을 낸 개체와는 관련이 없다.

본 출원 실시예에서, 다중 언어 자동 인식(Automatic Speech Recognition, ASR) 모델을 통해 음성 사후확률 행렬을 획득하고, 음성 사후확률 행렬을 소스 음성의 제1 음성 콘텐츠 정보로 사용한다. 다중 언어 자동 음성 인식 모델은 소스 음성의 언어에 대한 제한이 없으며 다수의 다른 언어의 소스 음성을 인식할 수 있고 음성 사후확률 행렬을 획득할 수 있다.

전술한 임의의 실시예를 기반하여, 도2에 도시된 바와 같이, 소스 음성에서 제1 음성 콘텐츠 정보와 제1 음향 특징을 추출하고, 참조 음성에서 제2 음향 특징을 추출한 다음, 제1 음성 콘텐츠 정보, 제1 음향 특징, 제2 음향 특징을 미리 훈련된 음성 전환 모델에 입력하여 재구성된 제3 음향 특징을 획득하여 제3 음향 특징에 따라 타겟 음성을 합성하고, 음성 전환을 구현할 수 있다.

이해 가능한 바로는, 음성 전환 모델은 다수의 네트워크를 포함할 수 있다. 도3에 도시된 바와 같이, 음성 전환 모델은 암묵적 변수 네트워크, 음색 네트워크와 재구성 네트워크를 포함할 수 있다.

더 나아가, 도4에 도시된 바와 같이 S104단계에서 제1 음성 콘텐츠 정보, 제1 음향 특징 및 제2 음향 특징을 미리 훈련된 음성 전환 모델에 입력하여 재구성된 제3 음향 특징을 획득하는 단계는 하기와 같은 단계를 포함할 수 있다.

S201, 제1 음향 특징을 암묵적 변수 네트워크에 입력하여 기본 주파수 에너지 파라미터를 획득한다.

본 출원 실시예에서, 암묵적 변수 네트워크는 제1 음향 특징에 따라 소스 음성의 기본 주파수(Fundamental Frequency)와 에너지 파라미터를 획득할 수 있다. 실제 상황에 따라 암묵적 변수 네트워크를 설치할 수 있고, 에너지 파라미터는 소스 음성의 주파수, 진폭 등을 포함하지만 이에 제한되지 않는다.

이해 가능한 바로는, 소스 음성의 기본 주파수 에너지 파라미터는 소스 음성의 낮은 차원 파라미터이며, 소스 음성의 기본 주파수, 에너지 등의 낮은 차원 특징을 반영할 수 있다.

선택적으로, 제1 음향 특징을 암묵적 변수 네트워크에 입력하여 기본 주파수 에너지 파라미터를 획득하는 단계는, 제1 음향 특징을 암묵적 변수 네트워크에 입력하고, 암묵적 변수 네트워크는 프레임 스케일에서 제1 음향 특징을 압축하고, 압축한 제1 음향 특징에서 기본 주파수 에너지 파라미터를 추출하는 단계를 포함할 수 있다. 이에 따라, 당해 방볍은 압축하는 방식으로 제1 음향 특징에서 기본 주파수 에너지 파라미터를 획득할 수 있다.

구체적인 실시에서, 소스 음성의 길이를 T초라고 가정 하면 암묵적 변수 네트워크가 제1 음향 특징에 따라 크기가 T*3인 행렬을 획득할 수 있고 행렬에는 소스 음성의 기본 주파수 에너지 파라미터를 포함한다.

S202, 제2 음향 특징을 음색 네트워크에 입력하여 음색 파라미터를 획득한다.

본 출원 실시예에서, 음색 네트워크는 제2 음향 특징에 따라 참조 음성의 음색 파라미터를 획득할 수 있다. 실제 상황에 따라 음색 네트워크를 설치할 수 있고, 예를 들어 음색 네트워크는 딥 뉴럴 네트워크(Deep Neural Networks, DNN), 순환 뉴럴 네트워크(Recurrent Neural Networks, RNN), 컨볼루션 뉴럴 네트워크(Convolutional Neural Networks, CNN) 등을 포함하지만 이에 제한되지 않는다.

이해 가능한 바로는, 참조 음성의 음색 파라미터는 참조 음성의 음색 특징을 반영할 수 있다.

선택적으로, 제2 음향 특징을 음색 네트워크에 입력하여 음색 파라미터를 획득하는 단계는 하기와 같은 단계를 포함할 수 있다, 제2 음향 특징을 음색 네트워크에 입력하고, 음색 네트워크가 딥 순환 뉴럴 네트워크(Deep Recurrent Neural Networks, DRNN)와 베리에이션 오토 인코더(Variational Auto Encoder, VAE)를 사용하여 제2 음향 특징을 추상화하여 음색 파라미터를 획득한다. 이에 따라, 당해 방볍은 추상화하는 방식으로 제2 음향 특징에서 음색 파라미터를 획득할 수 있다.

구체적인 실시에서, 음색 네트워크가 제2 음향 특징에 따라 크기가 1*64인 행렬을 획득할 수 있고 행렬에는 참조 음성의 음색 파라미터를 포함한다.

S203, 제1 음성 콘텐츠 정보, 기본 주파수 에너지 파라미터 및 음색 파라미터를 재구성 네트워크에 입력하여 제3 음향 특징을 획득한다.

본 출원 실시예에서, 재구성 네트워크는 제1 음성 콘텐츠 정보, 기본 주파수 에너지 파라미터 및 음색 파라미터에 따라 제3 음향 특징을 획득할 수 있다. 재구성 네트워크에 대한 내용은 전술한 실시예에서 음색 네트워크에 대한 내용을 참조할 수 있으므로 여기서 반복하지 않은다.

이해 가능한 바로는, 제1 음성 콘텐츠 정보는 소스 음성의 음성 콘텐츠 정보를 반영할 수 있고, 기본 주파수 에너지 파라미터는 소스 음성의 기본 주파수, 에너지 등의 낮은 차원 특징을 반영할 수 있고, 음색 파라미터는 참조 음성의 음색 특징을 반영할 수 있으므로 제1 음성 콘텐츠 정보, 기본 주파수 에너지 파라미터 및 음색 파라미터에 따라 획득한 제3 음향 특징은 소스 음성의 음성 콘텐츠 정보, 소스 음성의 기본 주파수, 에너지 등의 낮은 차원 특징, 및 참조 음성의 음색 특징을 반영할 수 있다, 이에 따라 후속 작업에서 제3 음향 특징에 따라 타겟 음성을 합성할 때 제1 사용자의 소스 음성의 음성 콘텐츠 정보를 보존할 수 있고, 타겟 음성의 기본 주파수와 에너지의 안정성을 유지할 수 있고, 또는 제2 사용자의 참조 음성의 음색 특징을 보존할 수 있다.

선택적으로, 제1 음성 콘텐츠 정보, 기본 주파수 에너지 파라미터 및 음색 파라미터를 재구성 네트워크에 입력하여 제3 음향 특징을 획득하는 단계는, 제1 음성 콘텐츠 정보, 기본 주파수 에너지 파라미터 및 음색 파라미터를 재구성 네트워크에 입력하고 재구성 네트워크가 딥 순환 뉴럴 네트워크를 사용하여 제1 음성 콘텐츠 정보, 기본 주파수 에너지 파라미터 및 음색 파라미터에 대해 음향 특징 재구성을 수행하여 제3 음향 특징을 획득하는 단계를 포함할 수 있다.

이에 따라, 당해 방법에서는 음성 전환 모델은 암묵적 변수 네트워크, 음색 네트워크와 재구성 네트워크를 포함하고, 암묵적 변수 네트워크는 제1 음향 특징에 따라 소스 음성의 기본 주파수 에너지 파라미터를 획득할 수 있고, 음색 네트워크는 제2 음향 특징에 따라 참조 음성의 음색 파라미터를 획득할 수 있고, 재구성 네트워크는 제1 음성 콘텐츠 정보, 기본 주파수 에너지 파라미터 및 음색 파라미터에 따라 제3 음향 특징을 획득할 수 있으므로, 제3 음향 특징에 따라 타겟 음성을 합성할 때 제1 사용자의 소스 음성의 음성 콘텐츠 정보를 보존할 수 있고, 타겟 음성의 기본 주파수와 에너지의 안정성을 유지할 수 있고, 또는 제2 사용자의 참조 음성의 음색 특징을 보존할 수 있다.

전술한 임의의 실시예를 기반하여, 도5에 도시된 바와 같이, 미리 훈련된 음성 전환 모델을 획득하는 단계는 하기와 같은 단계를 포함할 수 있다.

S301, 제3 사용자의 제1 음성과 제2 음성을 획득한다.

본 출원 실시예에서, 제1 음성과 제2 음성은 다르다.

S302, 제1 음성에서 제2 음성 콘텐츠 정보와 제4 음향 특징을 추출한다.

S303, 제2 음성에서 제5 음향 특징을 추출한다.

S304, 제2 음성 콘텐츠 정보, 제4 음향 특징과 제5 음향 특징을 훈련할 음성 전환 모델에 입력하여 재구성된 제6 음향 특징을 획득한다.

S301-S304 단계의 구체적인 구현과정과 원리는 전술한 실시예의 관련된 내용을 참조하고 여기서 반복하지 않은다.

S305, 제6 음향 특징과 제4 음향 특징의 차이에 따라 훈련할 음성 전환 모델 중의 모델 파라미터를 조정하고, 제6 음향 특징과 제4 음향 특징의 차이가 미리 설정된 훈련 종료 조건에 부합할 때까지, 제3 사용자의 제1 음성과 제2 음성을 획득하는 단계로 돌아가고, 마지막으로 모델 파라미터를 조정한 후의 훈련할 음성 전환 모델을 미리 훈련된 음성 전환 모델으로 결정한다.

본 출원 실시예에서, 매번 동일한 사용자의 두개의 다른 음성 세그먼트를 사용하여 훈련할 음성 전환 모델에 대한 훈련을 수행할 수 있으며, 여기서 하나의 음성 세그먼트를 전술한 실시예의 소스 음성으로 사용하고, 다른 하나의 음성 세그먼트를 전술한 실시예의 참조 음성으로 사용하며, 본 출원에서는 제3 사용자의 제1 음성, 제2 음성을 사용하여 훈련할 음성 전환 모델에 대한 훈련을 수행하는 것이 예를 들어 설명된다.

예를 들어, 제3 사용자의 제1 음성을 전술한 실시예의 소스 음성으로 사용하여 제1 음성에서 제2 음성 콘텐츠 정보와 제4 음향 특징을 추출하고, 또한 제3 사용자의 제2 음성을 전술한 실시예의 참조 음성으로 사용하여 제2 음성에서 제5 음향 특징을 추출한 후 제2 음성 콘텐츠 정보, 제4 음향 특징과 제5 음향 특징을 훈련할 음성 전환 모델에 입력하여 재구성된 제6 음향 특징을 획득한다.

이해 가능한 바로는, 제1 음성, 제2 음성이 모두 제3 사용자가 낸 것으로 타겟 음성과 소스 음성의 차이가 크지 않아 재구성된 제6 음향 특징도 제4 음향 특징과의 차이가 크지 않다. 이 경우에, 제6 음향 특징과 제4 음향 특징의 차이에 따라 훈련할 음성 전환 모델 중의 모델 파라미터를 조정하고, 제6 음향 특징과 제4 음향 특징의 차이가 미리 설정된 훈련 종료 조건에 부합할 때까지, 제3 사용자의 제1 음성과 제2 음성을 획득하는 단계와 후속 단계로 돌아가고, 여러 조의 샘플 데이터에 따라 훈련할 음성 전환 모델에 대한 훈련과 업데이트를 수행하고, 마지막으로 모델 파라미터를 조정한 후의 훈련할 음성 전환 모델을 미리 훈련된 음성 전환 모델으로 결정할 수 있다.

미리 설정된 훈련 종료 조건은 실제 상황에 따라 설정할 수 있다, 예를 들어 제6 음향 특징과 제4 음향 특징의 차이가 미리 설정된 임계값 보다 작은 것으로 설치될 수 있다.

이에 따라, 당해 방법은 여러 조의 샘플 데이터에 따라 훈련할 음성 전환 모델에 대한 훈련과 업데이트를 수행하여 미리 훈련된 음성 전환 모델을 획득할 수 있다.

다른 가능한 구현방식으로서, 음성 전환 모델은 다수의 네트워크를 포함할 수 있고, 각각의 네트워크는 각자의 네트워크 파라미터에 대응하고 있으며 여러 조의 샘플 데이터에 따라 훈련할 음성 전환 모델 중에 있는 다수의 네트워크를 연합하여 훈련할 수 있으며 훈련할 음성 전환 모델 중에 있는 각각의 네트워크의 네트워크 파라미터를 별도로 조정하여 미리 훈련된 음성 전환 모델을 획득할 수 있다.

도3에 도시된 바와 같이, 음성 전환 모델은 암묵적 변수 네트워크, 음색 네트워크와 재구성 네트워크를 포함할 수 있고, 여러 조의 샘플 데이터에 따라 훈련할 음성 전환 모델 중에 있는 암묵적 변수 네트워크, 음색 네트워크와 재구성 네트워크를 연합하여 훈련할 수 있으며 훈련할 음성 전환 모델 중에 있는 암묵적 변수 네트워크, 음색 네트워크와 재구성 네트워크의 네트워크 파라미터를 별도로 조정하여 미리 훈련된 음성 전환 모델을 획득할 수 있다.

도6은 본 출원의 제1 실시예에 따른 음성 전환 장치의 블록도이다.

도6에 도시된 바와 같이, 본 출원 실시예에 따른 음성 전환 장치(600)는 획득 모듈(601), 제1 추출 모듈(602), 제2 추출 모듈(603), 전환 모듈(604), 및 합성 모듈(605)을 포함한다.

획득 모듈(601)은 제1 사용자의 소스 음성과 제2 사용자의 참조 음성을 획득하는 데 사용된다.

제1 추출 모듈(602)은 소스 음성에서 제1 음성 콘텐츠 정보와 제1 음향 특징을 추출하는 데 사용된다.

제2 추출 모듈(603)은 참조 음성에서 제2 음향 특징을 추출하는 데 사용된다.

전환 모듈(604)은 제1 음성 콘텐츠 정보, 제1 음향 특징 및 제2 음향 특징을 미리 훈련된 음성 전환 모델에 입력하여 재구성된 제3 음향 특징을 획득하며, 여기서 미리 훈련된 음성 전환 모델은 제3 사용자의 음성에 따라 훈련하여 획득하는 데 사용된다.

합성 모듈(605)은 제3 음향 특징에 따라 타겟 음성을 합성하는 데 사용된다.

본 출원의 실시예에서 제1 추출 모듈(602)은, 소스 음성을 미리 훈련된 다중 언어 자동 음성 인식 모델에 입력하여 음성 사후확률 행렬을 획득하고, 음성 사후확률 행렬을 제1 음성 콘텐츠 정보로 하는데 사용된다.

본 출원의 실시예에서 제1 음향 특징, 제2 음향 특징과 제3 음향 특징은 모두 멜 특징이다.

본 출원의 실시예에서 음성 전환 모델은 암묵적 변수 네트워크, 음색 네트워크와 재구성 네트워크를 포함하고, 전환 모듈(604)은 제1 음향 특징을 암묵적 변수 네트워크에 입력하여 기본 주파수 에너지 파라미터를 획득하는 제1 입력유닛; 제2 음향 특징을 음색 네트워크에 입력하여 음색 파라미터를 획득하는 제2 입력유닛; 및 제1 음성 콘텐츠 정보, 기본 주파수 에너지 파라미터 및 음색 파라미터를 재구성 네트워크에 입력하여 제3 음향 특징을 획득하는 제3 입력유닛을 포함한다.

본 출원의 실시예에서 제1 입력유닛은 다음 단계에서도 사용된다. 제1 음향 특징을 암묵적 변수 네트워크에 입력하고, 암묵적 변수 네트워크는 프레임 스케일에서 제1 음향 특징을 압축하고, 압축한 제1 음향 특징에서 기본 주파수 에너지 파라미터를 추출하는 단계.

본 출원의 실시예에서 제2 입력유닛은 다음 단계에서도 사용된다. 제2 음향 특징을 음색 네트워크에 입력하고, 음색 네트워크가 딥 순환 뉴럴 네트워크와 베리에이션 오토 인코더를 사용하여 제2 음향 특징을 추상화하여 음색 파라미터를 획득하는 단계.

본 출원의 실시예에서 제3 입력유닛은, 제1 음성 콘텐츠 정보, 기본 주파수 에너지 파라미터 및 음색 파라미터를 재구성 네트워크에 입력하고 재구성 네트워크가 딥 순환 뉴럴 네트워크를 사용하여 제1 음성 콘텐츠 정보, 기본 주파수 에너지 파라미터 및 음색 파라미터에 대해 음향 특징 재구성을 수행하여 제3 음향 특징을 획득하는데 사용된다.

본 출원의 실시예에서 도7에 도시된 바와 같이, 음성 전환 장치(600)는 모델 훈련 모듈(606)을 더 포함한다. 모델 훈련 모듈(606)은 다음에 사용된다. 제3 사용자의 제1 음성과 제2 음성을 획득하고; 제1 음성에서 제2 음성 콘텐츠 정보와 제4 음향 특징을 추출하고; 제2 음성에서 제5 음향 특징을 추출하고; 제2 음성 콘텐츠 정보, 제4 음향 특징과 제5 음향 특징을 훈련할 음성 전환 모델에 입력하여 재구성된 제6 음향 특징을 획득하고; 및 제6 음향 특징과 제4 음향 특징의 차이에 따라 훈련할 음성 전환 모델 중의 모델 파라미터를 조정하고, 제6 음향 특징과 제4 음향 특징의 차이가 미리 설정된 훈련 종료 조건에 부합할 때까지, 제3 사용자의 제1 음성과 제2 음성을 획득하는 단계로 돌아가고, 마지막으로 모델 파라미터를 조정한 후의 훈련할 음성 전환 모델을 미리 훈련된 음성 전환 모델으로 결정한다.

요약하자면 본 출원 실시예의 음성 전환 장치에 따르면 소스 음성의 제1 음성 콘텐츠 정보와 제1 음향 특징, 참조 음성의 제2 음향 특징을 미리 훈련된 음성 전환 모델에 입력할 수 있고, 획득한 재구성된 제3 음향 특징에 따라 타겟 음성을 합성하였으며 음성 전환 모델을 미리 구성하여 후속 작업에서 훈련과 업데이트를 할 필요가 없으므로, 융통성이 상대적으로 높고, 실시간 음성 전환을 구현할 수 있고, 음성 전환 대기 시간을 단축하는 데 유리하고, 또한 다중 언어, 다중 음색 전환 등의 응용 장면에 적용가능하다.

본 출원의 실시예에 따르면, 본 출원은 또한 전자 기기 및 판독 가능 저장 매체를 제공한다. 본 출원의 실시예에 따르면, 컴퓨터 판독 가능 매체에 저장되어 있는 컴퓨터 프로그램을 더 제공한다. 당해 컴퓨터 프로그램중의 명령이 실행될 경우, 상기 음성 전환 방법이 실행된다.

도8은 본 출원의 실시예에 따른 음성 전환 방법을 구현하기 위한 전자 기기의 블록도이다. 전자 기기는 다양한 형태의 디지털 컴퓨터를 의미한다, 예를 들어, 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인용 디지털 비서, 서버, 블레이드 서버, 메인 프레임 컴퓨터 및 기타 적합한 컴퓨터. 전자 기기는 또한 다양한 형태의 모바일 장치를 의미할 수 있다, 예를 들어, 스마트 음성 상호 작용 기기, 개인용 디지털 처리, 휴대폰, 스마트 폰, 웨어러블 장치 및 기타 유사한 컴퓨팅 장치. 본 명세서에서 표시된 구성 요소, 이들의 연결 및 관계, 또한 이들의 기능은 단지 예일 뿐이며 여기에 설명 및/또는 수요되는 본 출원의 구현을 제한하려는 것이 아니다.

도8에 도시된 바와 같이, 당해 전자 기기는 하나 또는 하나 이상의 프로세서(801), 메모리(802) 및 고속 인터페이스와 저속 인터페이스를 포함하는 다양한 구성 요소를 연결하기 위한 인터페이스를 포함한다. 각 구성 요소는 서로 다른 버스를 사용하여 서로 연결되며 공통 메인보드에 설치하거나 필요에 따라 다른 방식으로 설치할 수도 있다. 프로세서(801)는 전자 기기 내부에서 수행하는 명령을 처리할 수 있고, 메모리 내에 혹은 메모리 위에 저장한 외부 입력/출력 장치(예를 들어, 인터페이스에 연결된 디스플레이 장비)에 GUI의 그래픽 정보를 표시하기 위한 명령을 포함한다. 다른 실시예에서, 필요한 경우, 다수의 프로세서 및 다수의 버스와 다수의 메모리 중의 적어도 하나가 다수의 메모리와 함께 사용될 수있다. 마찬가지로 다수의 전자 기기를 연결할 수 있으며 각 기기는 필요한 작업의 일부를 제공한다 (예를 들어, 서버 어레이, 블레이드 서버 세트 또는 다중 프로세서 시스템). 도8에서는 프로세서(801)가 예시로 도시되었다.

메모리(802)는 본 출원에 의해 제공되는 비일시적 컴퓨터 판독 가능 저장 매체이다. 메모리는 적어도 하나의 프로세서에 의해 수행 가능한 명령을 저장하므로, 적어도 하나의 프로세서가 본 출원에서 제공되는 음성 전환 방법을 수행한다. 본 출원의 비일시적 컴퓨터 판독 가능 저장 매체는 컴퓨터 명령을 저장하고, 상기 컴퓨터 명령은 컴퓨터가 본 출원에서 제공되는 음성 전환 방법을 수행하도록 한다.

비일시적 컴퓨터 판독 가능 저장 매체로서, 메모리(802)는 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 수행 가능한 프로그램 및 본 출원의 실시예에 따른 음성 전환 방법에 대응하는 프로그램 명령/모듈(예를 들어, 도6에 도시된 획득 모듈(601), 제1 추출 모듈(602), 제2 추출 모듈(603), 전환 모듈(604), 합성 모듈(605))과 같은 모듈을 저장하는데 사용될 수 있다. 프로세서(801)는 메모리(802)에 저장된 비일시적 소프트웨어 프로그램, 명령 및 모듈을 수행함으로써 수행 서버의 다양한 기능적 응용 및 데이터 처리를 수행한다, 즉 전술한 방법 실시예에 따른 음성 전환 방법을 구현한다.

메모리(802)는 저장 프로그램 영역 및 저장 데이터 영역을 포함할 수 있으며, 여기서 저장 프로그램 영역은 운영체제, 적어도 하나의 기능에 필요한 응용 프로그램을 저장할 수 있고, 저장 데이터 영역은 음성 전환 방법에 따른 전자 기기 사용시 창립된 데이터 등을 저장할 수 있다. 또한, 메모리(802)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 또한 비일시적 메모리를 포함할 수도 있다, 예를 들어 적어도 하나의 자기 디스크 메모리 장치, 플래시 메모리 장치 또는 기타 비일시적 솔리드 스테이트 메모리 장치. 일부 실시예에서, 메모리(802)는 프로세서(801)에 대해 원격으로 제공된 메모리를 선택적으로 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 음성 전환 방법을 구현하기 위한 전자 기기에 연결될 수있다. 전술한 네트워크의 예는 인터넷, 기업 인트라넷, 근거리 통신망, 이동 통신 네트워크 및 이들의 조합을 포함하지만 이에 제한되지 않는다.

음성 전환 방법을 구현하기 위한 전자 기기는 입력 장치(803) 및 출력 장치(804)를 더 포함할 수 있다. 프로세서(801), 메모리(802), 입력 장치(803) 및 출력 장치(804)는 버스 또는 다른 방식으로 연결될 수 있고, 도7에서는 버스를 통한 연결을 예시로 도시 되었다.

입력 장치(803)는 입력된 숫자 또는 문자 정보를 수신하고, 음성 전환 방법을 구현하기 위한 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 생성할 수 있다, 예를 들어 터치 스크린, 작은 키보드, 마우스, 트랙 패드, 터치 패드, 명령 스틱, 하나 또는 하나 이상의 마우스 버튼, 트랙볼, 조이스틱 및 기타 입력 장치. 출력 장치(804)는 디스플레이 장비, 보조 조명 장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 디스플레이 장비는 액정 디스플레이(LCD), 발광 다이오드(LED) 디스플레이 및 플라즈마 디스플레이를 포함할 수 있으나 이에 제한되지 않는다. 일부 실시예에서, 디스플레이 장치는 터치 스크린 일 수있다.

본 명세서에 설명된 시스템 및 기술의 다양한 실시 방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 주문형 ASIC(주문형 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및 이들의 조합 중의 적어도 하나으로 구현될 수 있다. 상기 다양한 실시 방식은 다음을 포함할 수 있다. 하나 또는 하나 이상의 컴퓨터 프로그램에서 실시되고, 당해 하나 또는 하나 이상의 컴퓨터 프로그램은 적어도 하나의 프로그래밍 가능한 프로세서를 포함하는 프로그래밍 가능한 시스템에서 수행 및/또는 해석될 수있다, 당해 프로그래밍 가능한 프로세서는 전용 또는 일반용 일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령을 수신하고 또한 데이터 및 명령을 당해 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치에 전송한다.

이러한 계산 프로그램(프로그램, 소프트웨어, 소프트웨어 응용 또는 코드라고도 함)에는 프로그래밍 가능한 프로세서에 대한 기계 명령가 포함되어 있으며, 고급 프로세스 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어를 활용하여 이러한 계산 프로그램을 실시할 수 있다. 본 명세서에서 사용되는 용어 "기계 판독 가능 매체" 및 "컴퓨터 판독 가능 매체"는 기계 명령 및/또는 데이터를 프로그래밍 가능한 프로세서의 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그래밍 가능한 논리 장치(PLD))에 제공하는 것을 의미한고, 기계 판독 가능 신호로 기계 명령을 수신하는 기계 판독 가능 매체도 포함한다. 용어 "기계 판독 가능 신호"는 기계 명령 및/또는 데이터를 프로그래밍 가능한 프로세서에 제공하는데 사용되는 모든 신호를 의미한다.

사용자와의 상호 작용을 제공하기 위해 여기에 설명된 시스템 및 기술은 컴퓨터에서 실시될 수 있다, 당해 컴퓨터는 다음을 포함한다. 사용자에게 정보를 표시하는 디스플레이 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 디스플레이)를 갖춘 모니터); 및 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙볼). 다른 유형의 장치를 사용하여 사용자와의 상호 작용을 제공할 수도 있다, 예를 들어, 사용자에게 제공되는 피드백은 모든 형태의 감지 피드백(예를 들어, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백)이 될 수 있고, 사용자의 입력은 모든 형식(음향 입력, 음성 입력 또는 촉각 입력 포함)으로 받을 수 있다.

여기에 설명된 시스템 및 기술은 다음과 같은 컴퓨팅 시스템에서 실시될 수 있다. 백엔드 구성 요소를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버), 또는 미들웨어 구성 요소를 포함하는 컴퓨팅 시스템(예를 들어, 응용 서버), 또는 프런트 엔드 구성 요소를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 갖춘 사용자 컴퓨터, 사용자가 당해 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 통하여 여기에 설명된 시스템 및 기술의 실시 방식과 상호 작용할 수 있다), 또는 이러한 백엔드 구성 요소, 미들웨어 구성 요소 또는 프런트 엔드 구성 요소의 임의의 조합을 포한하는 컴퓨팅 시스템. 시스템의 구성 요소는 모든 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 서로 연결될 수 있다. 통신 네트워크의 예로는 근거리 통신망(LAN), 광역 통신망(WAN) 및 인터넷이 있다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 멀리 떨어져 있으며 보통은 통신 네트워크를 통해 상호 작용한다. 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 해당 컴퓨터에서 실행되어 클라이언트와 서버 간의 관계를 생성한다. 서버는 클라우드 컴퓨팅 서버 또는 클라우드 호스트라고 도 하는 클라우드 서버 일 수 있고, 기존의 물리적 호스트 및 VPS 서비스("Virtual Private Server", 또는 약자 "VPS")에 존재하고 있는 관리가 어렵고 비즈니스 확장이 약한 결점을 해결하기 위한 것이다.

본 출원 실시예의 기술 방안에 따르면 서버가 스마트 음성 상호 작용 기기가 송신한 사용자의 제1 음성 시그널에 따라 음성 인식과 어의 해석을 수행할 수 있으므로 사용자의 어의 텍스트를 획득하고, 당해 어의 텍스트에 따라 업무 조회 결과를 획득하고 스마트 음성 상호 작용 기기에 피드백한다, 당해 방법은 음성 처리 기술을 이용하여 업무 처리를 자동화할 수 있으며, 사용자는 작업자의 도움 없이도 스스로 업무를 처리할 수 ????있으며 인건비가 적어 업무 처리하는 대기 시간과 처리 시간을 줄일 수 있으며 업무 처리의 효율성을 개선할 수 있다.

이해해야 하는 것은 위에 표시된 다양한 형태의 프로세스를 사용할 수 있음, 단계 재정렬, 추가 또는 삭제를 할 수 있다. 예를 들어, 본 명세서에서 설명된 각 단계들은 본 출원의 기술 방안에 따른 기대한 결과만 얻을 수 있으면 병렬로, 순차적으로 또는 다른 순서로 수행될 수 있으며, 이는 여기에 제한되지 않는다.

전술한 구체적인 실시 방식 들은 본 출원의 보호 범위에 대한 제한을 구성하지 않는다. 본 출원이 소속된 기술분야의 일반 지식을 장악한 당업자라면 본 출원의 설계 요건 및 기타 요인에 따라 다양한 수정, 조합, 하위 조합 및 대체가 이루어질 수 있음을 이해해야한다. 본 출원의 정신과 원칙 내에서 이루어진 모든 수정, 동등한 대체 및 개선은 본 출원의 보호 범위에 포함한다.

Claims

음성 전환 방법에 있어서,
제1 사용자의 소스 음성과 제2 사용자의 참조 음성을 획득하는 단계;
상기 소스 음성에서 제1 음성 콘텐츠 정보와 제1 음향 특징을 추출하는 단계;
상기 참조 음성에서 제2 음향 특징을 추출하는 단계;
상기 제1 음성 콘텐츠 정보, 상기 제1 음향 특징 및 상기 제2 음향 특징을 미리 훈련된 음성 전환 모델에 입력하여 재구성된 제3 음향 특징을 획득하는 단계 - 상기 미리 훈련된 음성 전환 모델은 제3 사용자의 음성에 따라 훈련하여 획득함 -; 및
상기 제3 음향 특징에 따라 타겟 음성을 합성하는 단계를 포함하는 것,
을 특징으로 하는 음성 전환 방법.
제1항에 있어서,
상기 소스 음성에서 제1 음성 콘텐츠 정보를 추출하는 단계는,
상기 소스 음성을 미리 훈련된 다중 언어 자동 음성 인식 모델에 입력하여 음성 사후확률 행렬을 획득하는 단계; 및
상기 음성 사후확률 행렬을 상기 제1 음성 콘텐츠 정보로 하는 단계를 포함하는 것,
을 특징으로 하는 음성 전환 방법.
제1항에 있어서,
상기 제1 음향 특징, 상기 제2 음향 특징과 상기 제3 음향 특징은 모두 멜 특징인 것,
을 특징으로 하는 음성 전환 방법.
제1항에 있어서,
상기 음성 전환 모델은 암묵적 변수 네트워크, 음색 네트워크와 재구성 네트워크를 포함하고, 상기 제1 음성 콘텐츠 정보, 상기 제1 음향 특징 및 상기 제2 음향 특징을 미리 훈련된 음성 전환 모델에 입력하여 재구성된 제3 음향 특징을 획득하는 단계는,
상기 제1 음향 특징을 상기 암묵적 변수 네트워크에 입력하여 기본 주파수 에너지 파라미터를 획득하는 단계;
상기 제2 음향 특징을 상기 음색 네트워크에 입력하여 음색 파라미터를 획득하는 단계; 및
상기 제1 음성 콘텐츠 정보, 상기 기본 주파수 에너지 파라미터 및 상기 음색 파라미터를 상기 재구성 네트워크에 입력하여 상기 제3 음향 특징을 획득하는 단계를 포함하는 것,
을 특징으로 하는 음성 전환 방법.
제4항에 있어서,
상기 제1 음향 특징을 상기 암묵적 변수 네트워크에 입력하여 기본 주파수 에너지 파라미터를 획득하는 단계는,
상기 제1 음향 특징을 상기 암묵적 변수 네트워크에 입력하고, 상기 암묵적 변수 네트워크는 프레임 스케일에서 상기 제1 음향 특징을 압축하고, 압축한 제1 음향 특징에서 기본 주파수 에너지 파라미터를 추출하는 단계를 포함하는 것,
을 특징으로 하는 음성 전환 방법.
제4항에 있어서,
상기 제2 음향 특징을 상기 음색 네트워크에 입력하여 음색 파라미터를 획득하는 단계는,
상기 제2 음향 특징을 상기 음색 네트워크에 입력하고, 상기 음색 네트워크가 딥 순환 뉴럴 네트워크와 베리에이션 오토 인코더를 사용하여 상기 제2 음향 특징을 추상화하여 상기 음색 파라미터를 획득하는 단계를 포함하는 것,
을 특징으로 하는 음성 전환 방법.
제4항에 있어서,
상기 제1 음성 콘텐츠 정보, 상기 기본 주파수 에너지 파라미터 및 상기 음색 파라미터를 상기 재구성 네트워크에 입력하여 상기 제3 음향 특징을 획득하는 단계는,
상기 제1 음성 콘텐츠 정보, 상기 기본 주파수 에너지 파라미터 및 상기 음색 파라미터를 상기 재구성 네트워크에 입력하고 상기 재구성 네트워크가 딥 순환 뉴럴 네트워크를 사용하여 상기 제1 음성 콘텐츠 정보, 상기 기본 주파수 에너지 파라미터 및 상기 음색 파라미터에 대해 음향 특징 재구성을 수행하여 상기 제3 음향 특징을 획득하는 단계를 포함하는 것,
을 특징으로 하는 음성 전환 방법.
제1항에 있어서,
상기 방법은,
상기 제3 사용자의 제1 음성과 제2 음성을 획득하는 단계;
상기 제1 음성에서 제2 음성 콘텐츠 정보와 제4 음향 특징을 추출하는 단계;
상기 제2 음성에서 제5 음향 특징을 추출하는 단계;
상기 제2 음성 콘텐츠 정보, 상기 제4 음향 특징과 상기 제5 음향 특징을 훈련할 음성 전환 모델에 입력하여 재구성된 제6 음향 특징을 획득하는 단계; 및
상기 제6 음향 특징과 상기 제4 음향 특징의 차이에 따라 훈련할 음성 전환 모델 중의 모델 파라미터를 조정하고, 상기 제6 음향 특징과 상기 제4 음향 특징의 차이가 미리 설정된 훈련 종료 조건에 부합할 때까지, 상기 제3 사용자의 제1 음성과 제2 음성을 획득하는 단계로 돌아가고, 마지막으로 모델 파라미터를 조정한 후의 상기 훈련할 음성 전환 모델을 상기 미리 훈련된 음성 전환 모델으로 결정하는 단계를 포함하는 것,
을 특징으로 하는 음성 전환 방법.
음성 전환 장치에 있어서,
제1 사용자의 소스 음성과 제2 사용자의 참조 음성을 획득하는 획득 모듈;
상기 소스 음성에서 제1 음성 콘텐츠 정보와 제1 음향 특징을 추출하는 제1 추출 모듈;
상기 참조 음성에서 제2 음향 특징을 추출하는 제2 추출 모듈;
상기 제1 음성 콘텐츠 정보, 상기 제1 음향 특징 및 상기 제2 음향 특징을 미리 훈련된 음성 전환 모델에 입력하여 재구성된 제3 음향 특징을 획득하며, 여기서 상기 미리 훈련된 음성 전환 모델은 제3 사용자의 음성에 따라 훈련하여 획득하는 전환 모듈; 및
상기 제3 음향 특징에 따라 타겟 음성을 합성하는 합성 모듈을 포함하는 것,
을 특징으로 하는 음성 전환 장치.
제9항에 있어서,
상기 제1 추출 모듈은, 또한
상기 소스 음성을 미리 훈련된 다중 언어 자동 음성 인식 모델에 입력하여 음성 사후확률 행렬을 획득하고;
상기 음성 사후확률 행렬을 상기 제1 음성 콘텐츠 정보로 하는데 사용되는 것,
을 특징으로 하는 음성 전환 장치.
제9항에 있어서,
상기 제1 음향 특징, 상기 제2 음향 특징과 상기 제3 음향 특징은 모두 멜 특징인 것,
을 특징으로 하는 음성 전환 장치.
제9항에 있어서,
상기 음성 전환 모델은 암묵적 변수 네트워크, 음색 네트워크와 재구성 네트워크를 포함하고, 상기 전환 모델은,
상기 제1 음향 특징을 상기 암묵적 변수 네트워크에 입력하여 기본 주파수 에너지 파라미터를 획득하는 제1 입력유닛;
상기 제2 음향 특징을 상기 음색 네트워크에 입력하여 음색 파라미터를 획득하는 제2 입력유닛; 및
상기 제1 음성 콘텐츠 정보, 상기 기본 주파수 에너지 파라미터 및 상기 음색 파라미터를 상기 재구성 네트워크에 입력하여 상기 제3 음향 특징을 획득하는 제3 입력유닛을 포함하는 것,
을 특징으로 하는 음성 전환 장치.
제12항에 있어서,
상기 제1 입력유닛은, 또한,
상기 제1 음향 특징을 상기 암묵적 변수 네트워크에 입력하는데 사용되고, 상기 암묵적 변수 네트워크는 프레임 스케일에서 상기 제1 음향 특징을 압축하고, 압축한 제1 음향 특징에서 기본 주파수 에너지 파라미터를 추출하는 것,
을 특징으로 하는 음성 전환 장치.
제12항에 있어서,
상기 제2 입력유닛은, 또한,
상기 제2 음향 특징을 상기 음색 네트워크에 입력하고, 상기 음색 네트워크가 딥 순환 뉴럴 네트워크와 베리에이션 오토 인코더를 사용하여 상기 제2 음향 특징을 추상화하여 상기 음색 파라미터를 획득하는데 사용되는 것,
을 특징으로 하는 음성 전환 장치.
제12항에 있어서,
상기 제3 입력유닛은, 또한,
상기 제1 음성 콘텐츠 정보, 상기 기본 주파수 에너지 파라미터 및 상기 음색 파라미터를 상기 재구성 네트워크에 입력하고 상기 재구성 네트워크가 딥 순환 뉴럴 네트워크를 사용하여 상기 제1 음성 콘텐츠 정보, 상기 기본 주파수 에너지 파라미터 및 상기 음색 파라미터에 대해 음향 특징 재구성을 수행하여 상기 제3 음향 특징을 획득하는데 사용되는 것,
을 특징으로 하는 음성 전환 장치.
제12항에 있어서,
상기 음성 전환 장치는 모델 훈련 모듈을 더 포함하고,
상기 모델 훈련 모듈은,
상기 제3 사용자의 제1 음성과 제2 음성을 획득하고;
상기 제1 음성에서 제2 음성 콘텐츠 정보와 제4 음향 특징을 추출하며;
상기 제2 음성에서 제5 음향 특징을 추출하고;
상기 제2 음성 콘텐츠 정보, 상기 제4 음향 특징과 상기 제5 음향 특징을 훈련할 음성 전환 모델에 입력하여 재구성된 제6 음향 특징을 획득하며;
상기 제6 음향 특징과 상기 제4 음향 특징의 차이에 따라 훈련할 음성 전환 모델 중의 모델 파라미터를 조정하고, 상기 제6 음향 특징과 상기 제4 음향 특징의 차이가 미리 설정된 훈련 종료 조건에 부합할 때까지, 상기 제3 사용자의 제1 음성과 제2 음성을 획득하는 단계로 돌아가고, 마지막으로 모델 파라미터를 조정한 후의 상기 훈련할 음성 전환 모델을 상기 미리 훈련된 음성 전환 모델으로 결정하는데 사용되는 것,
을 특징으로 하는 음성 전환 장치.
전자 기기에 있어서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 가능하게 연결되는 메모리;
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행되어, 상기 적어도 하나의 프로세서가 제1항 내지 제8항 중 어느 한 항에 따른 음성 전환 방법을 수행하도록 하는 것,
을 특징으로 하는 전자 기기.
컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체에 있어서,
상기 컴퓨터 명령은 컴퓨터가 제1항 내지 제8항 중 어느 한 항에 따른 음성 전환 방법을 수행하도록 하는 것,
을 특징으로 하는 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체.
컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램중의 명령이 실행될 경우, 제1항 내지 제8항 중 어느 한 항에 따른 음성 전환 방법이 실행되는,
것을 특징으로 하는 컴퓨터 판독 가능 저장 매체에 저장되어 있는 컴퓨터 프로그램.