KR102239650B1

KR102239650B1 - 음성 변환 방법, 컴퓨터 장치 및 저장 매체

Info

Publication number: KR102239650B1
Application number: KR1020197013802A
Authority: KR
Inventors: 하오레이 유안; 샤오 메이
Original assignee: 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date: 2017-02-21
Filing date: 2018-01-29
Publication date: 2021-04-12
Also published as: KR20190065408A; US10878803B2; CN106920547B; EP3588490B1; US20190221201A1; JP2020505652A; EP3588490A1; CN106920547A; WO2018153223A1; EP3588490A4; JP6893246B2

Abstract

음성 변환 방법은: 목표 텍스트를 획득하는 단계; 목표 텍스트에 대응하는 제1 기계 음성을 합성하는 단계; 비동기 기계 음성 라이브러리로부터 운율 특징이 제1 기계 음성의 운율 특징과 일치하는 비동기 기계 음성 유닛 시퀀스를 선택하는 단계; 비동기 기계 음성 유닛 시퀀스에 대응하는 동기 기계 음성 유닛 시퀀스를 찾아 동기 기계 음성 라이브러리를 검색하는 단계; 동기 기계 음성 유닛 시퀀스의 운율 특징에 기초하여 목표 텍스트에 대응하는 제2 기계 음성을 합성하는 단계; 동기 기계 음성 라이브러리로부터 제2 기계 음성의 음향 특성에 부합하는 동기 기계 음성 유닛을 선택하는 단계; 및 화자 음성 라이브러리 내의 동기 기계 음성 유닛에 대응하는 화자 음성 유닛을 스플라이싱하여 대상 화자 음성을 획득하는 단계를 포함한다.

Description

음성 변환 방법, 컴퓨터 장치 및 저장 매체

본 출원은 2017년 2월 21일 출원되고 발명의 명칭이 "SPEECH CONVERSION METHOD AND APPARATUS"인 중국특허출원 No. 2017100938608에 대한 우선권을 주장하는 바이며, 상기 문헌의 내용은 본 명세서에 원용되어 포함된다.

본 출원은 컴퓨터 기술 분야에 관한 것이며, 특히 음성 변환 방법, 컴퓨터 장치 및 저장 매체에 관한 것이다.

컴퓨터 기술이 발전함에 따라 음성 내용 변환이 점점 더 폭넓게 적용되고 있으며, 예를 들어, 오디오 픽션 리딩(audio fiction reading) 또는 음성 내비게이션에서 개인화된 사운드를 실현하고 있다. 생활수준이 향상됨에 따라 사람들은 더 이상 음성 콘텐츠 변환에서 음색만 변환하는 것에 만족하지 않으며 변환된 음성이 특정 화자의 음성 습관 및 음성 스타일에 더 잘 부합할 것을 요구하고 있다.

종래의 음성 내용 변환 기술에서는 변환에 의해 대상 화자의 음성을 획득할 필요가 있는 경우, 주로 화자 변환 방법을 이용하여 다른 화자의 음성을 대상 화자의 음성으로 변환한다. 그렇지만, 종래의 음성 변환 방법을 사용하여 획득된 음성은 화자의 음성 스타일을 진정으로 반영할 수 없다. 결과적으로, 음성 변환 효과는 실제 화자와 어느 정도 차이가 난다.

본 출원의 실시예는 음성 변환 방법, 컴퓨터 장치 및 저장 매체를 제공한다.

음성 변환 방법은:

컴퓨터 장치가 목표 텍스트를 획득하는 단계;

상기 컴퓨터 장치가 목표 텍스트에 대응하는 제1 기계 음성을 합성하는 단계;

상기 컴퓨터 장치가 비동기 기계 음성 라이브러리로부터 운율 특징(prosodic feature)이 제1 기계 음성의 운율 특징과 일치하는 비동기 기계 음성 유닛 시퀀스를 선택하는 단계;

상기 컴퓨터 장치가 비동기 기계 음성 유닛 시퀀스에 대응하는 동기 기계 음성 유닛 시퀀스를 찾아 동기 기계 음성 라이브러리를 검색하는 단계;

상기 컴퓨터 장치가 동기 기계 음성 유닛 시퀀스의 운율 특징에 기초하여 목표 텍스트에 대응하는 제2 기계 음성을 합성하는 단계;

상기 컴퓨터 장치가 동기 기계 음성 라이브러리로부터 제2 기계 음성의 음향 특성(acoustic feature)에 부합하는 동기 기계 음성 유닛을 선택하는 단계; 및

상기 컴퓨터 장치가 화자 음성 라이브러리 내의 동기 기계 음성 유닛에 대응하는 화자 음성 유닛을 스플라이싱하여 대상 화자 음성을 획득하는 단계

를 포함하며,

동기 기계 음성 라이브러리의 텍스트 내용, 비동기 기계 음성 라이브러리의 텍스트 내용 및 화자 음성 라이브러리의 텍스트 내용은 동일하고, 화자 음성 라이브러리의 운율 특징은 동기 기계 음성 라이브러리의 운율 특징에 부합한다.

컴퓨터 장치는 메모리 및 프로세서를 포함하며, 상기 메모리는 컴퓨터 판독 가능형 명령을 저장하며, 컴퓨터 판독 가능형 명령이 프로세서에 의해 실행될 때, 컴퓨터 판독 가능형 명령은 프로세서로 하여금 다음의 단계:

목표 텍스트를 획득하는 단계;

목표 텍스트에 대응하는 제1 기계 음성을 합성하는 단계;

비동기 기계 음성 라이브러리로부터 운율 특징이 제1 기계 음성의 운율 특징과 일치하는 비동기 기계 음성 유닛 시퀀스를 선택하는 단계;

비동기 기계 음성 유닛 시퀀스에 대응하는 동기 기계 음성 유닛 시퀀스를 찾아 동기 기계 음성 라이브러리를 검색하는 단계;

동기 기계 음성 유닛 시퀀스의 운율 특징에 기초하여 목표 텍스트에 대응하는 제2 기계 음성을 합성하는 단계;

동기 기계 음성 라이브러리로부터 제2 기계 음성의 음향 특성에 부합하는 동기 기계 음성 유닛을 선택하는 단계; 및

화자 음성 라이브러리 내의, 동기 기계 음성 유닛에 대응하는 화자 음성 유닛을 스플라이싱하여 대상 화자 음성을 획득하는 단계

를 수행하게 하며,

컴퓨터 판독 가능형 명령을 저장하는 하나 이상의 비휘발성 저장 매체가 제공되며, 컴퓨터 판독 가능형 명령이 하나 이상의 프로세서에 의해 실행될 때, 컴퓨터 판독 가능형 명령이 하나 이상의 프로세서로 하여금 다음의 단계:

목표 텍스트를 획득하는 단계;

목표 텍스트에 대응하는 제1 기계 음성을 합성하는 단계;

를 수행하게 하며,

본 출원의 하나 이상의 실시예에 대한 설명은 이하의 첨부 도면 및 상세한 설명에 제공된다. 본 출원의 다른 특징, 목적 및 이점은 명세서, 첨부 도면 및 특허청구범위에서 자명하게 된다.

본 발명의 실시예의 기술적 솔루션을 더 명확하게 설명하기 위해, 이하에서는 본 발명의 실시예를 설명하는 데 필요한 첨부된 도면에 대해 간략하게 설명한다. 당연히, 이하의 실시예의 첨부된 도면은 본 발명의 일부의 실시예에 지나지 않으며, 당업자라면 창조적 노력 없이 첨부된 도면으로부터 다른 도면을 도출해낼 수 있을 것이다.
도 1은 실시예에 따른 음성 변환 방법을 실행하기 위한 컴퓨터 장치에 대한 개략적인 구조도이다.
도 2는 실시예에 따라 단말 상에서 음성 변환 방법을 실행하는 인터페이스에 대한 개략적인 도면이다.
도 3은 실시예에 따른 음성 변환 방법에 대한 개략적인 흐름도이다.
도 4는 실시예에 따라 운율 특징이 비동기 기계 음성 라이브러리로부터의 제1 기계 음성의 운율 특징에 부합하는 비동기 기계 음성 유닛 시퀀스를 선택하는 단계에 대한 개략적인 흐름도이다.
도 5는 실시예에 따라 비동기 기계 음성 라이브러리로부터의 제2 기계 음성의 운율 특징에 부합하는 비동기 기계 음성 유닛을 선택하는 단계에 대한 개략적인 흐름도이다.
도 6은 실시예에 따라 화자 음성 라이브러리 내의 동기 기계 음성 유닛에 대응하는 화자 음성 유닛을 스플라이싱하여 대상 화자 음성을 획득하는 단계에 대한 개략적인 흐름도이다.
도 7은 실시예에 따라 인접 화자 음성 유닛을 스플라이싱하는 개략도이다.
도 8은 실시예에 따라 음성 라이브러리를 구축하는 논리 블록도이다.
도 9는 실시예에 따른 음성 변환 방법의 논리 블록도이다.
도 10은 실시예에 따른 컴퓨터 장치의 블록 구조도이다.
도 11은 다른 실시예에 따른 컴퓨터 장치의 블록 구조도이다.

본 발명의 실시예의 목적, 기술적 솔루션, 및 이점을 더 잘 이해할 수 있도록 하기 위해, 이하에서는 본 발명의 실시예의 첨부된 도면을 참조하여 본 발명의 실시예에 따른 기술적 솔루션에 대해 명확하고 완전하게 설명한다. 여기에 설명된 특정 실시예는 본 출원을 제한하는 대신 본 출원을 설명하는 데 사용될 뿐임을 이해해야 한다.

도 1은 실시예에 따른 음성 변환 방법을 실행하기 위한 컴퓨터 장치에 대한 개략적인 구조도이다. 컴퓨터 장치는 서버 또는 단말일 수 있으며, 단말은 데스크톱 단말 또는 이동 단말일 수 있으며, 이동 단말은 구체적으로 이동 전화, 태블릿 컴퓨터, 노트북 컴퓨터과 같은 것들 중 적어도 하나일 수 있다. 도 1에 도시된 바와 같이, 컴퓨터 장치는 시스템 버스를 이용해서 접속되는 프로세서, 메모리, 및 네트워크 인터페이스를 포함한다. 메모리는 비휘발성 저장 매체 및 내부 메모리를 포함한다. 컴퓨터 장치의 비휘발성 저장 매체는 운영체제 및 컴퓨터 판독 가능형 명령을 저장할 수 있다. 컴퓨터 판독 가능형 명령이 실행될 때, 프로세서는 음성 변환 방법을 수행하도록 되어 있다. 프로세서는 컴퓨팅 및 제어 성능을 제공하도록 구성되고 전체 단말의 운영을 지원한다. 컴퓨터 장치의 내부 메모리는 컴퓨터 판독 가능형 명령을 저장할 수 있으며, 컴퓨터 판독 가능형 명령이 프로세서에 의해 실행될 때, 컴퓨터 판독 가능형 명령은 프로세서로 하여금 음성 변환 방법을 수행하게 한다. 당업자는 도 1에 도시된 구조가 본 출원의 솔루션과 관련된 부분 구조에 대한 블록도에 불과하며 본 출원의 솔루션이 적용되는 컴퓨터 장치를 제한하지 않는다는 것을 이해할 수 있을 것이다. 컴퓨터 장치는 구체적으로 도면에 도시된 구성요소보다 더 많은 또는 더 적은 구성요소를 포함할 수도 있고 일부의 구성요소는 결합될 수도 있으며 서로 다른 구성요소 배치가 사용될 수도 있다.

도 2는 실시예에 따라 단말 상에서 음성 변환 방법을 실행하는 인터페이스에 대한 개략적인 도면이다. 구체적으로, 단말은 음성 변환 방법을 수행하는 데 사용되는 애플리케이션 프로그램을 실행할 수 있다. 도 2의 좌측에 도시된 바와 같이, 사용자는 애플리케이션 프로그램을 실행하고 멀티미디어 데이터를 플레이할 수 있다. 멀티미디어 데이터에 포함된 음성이 콘텐츠 오류를 가지고 있고 정정될 필요가 있을 때, 또는 음성이 비디오 픽처에 기초해서 조정될 필요가 있을 때, 사용자는 재생된 멀티미디어 데이터에서 정정 또는 조정될 필요가 있는 음성을 결정하고 리다이렉션 포털(redirection portal)(210)을 사용해서 도 2의 우측 도면에 도시된 인터페이스로 점프할 수 있다. 사용자는 애플리케이션 프로그램에 의해 제공되는 텍스트 입력 박스(220)에 텍스트 내용을 입력할 수 있다. 텍스트 콘텐츠는 정정 또는 조정될 필요가 있는 음성에 대응하는 정확한 텍스트 콘텐츠이다. 이 방식에서, 애플리케이션 프로그램이 텍스트 입력 박스에서 사용자에 의해 입력된 텍스트 콘텐츠를 음성으로 변환한 후, 변환에 의해 획득된 음성은 정정 또는 조정될 필요가 있는 음성을 대체할 수 있다.

다른 시나리오에서, 예를 들어, 애플리케이션 프로그램은 구체적으로 소셜 애플리케이션 프로그램일 수 있다. 소셜 애플리케이션 프로그램을 이용해서 사회적 대화 동안 대상 화자 음성을 보내려 할 때, 사용자는 소셜 애플리케이션 프로그램에서 제공하는 텍스트 입력 박스에 텍스트 내용을 입력할 수 있다. 텍스트 내용은 사용자가 합성하려고 하는 음성에 대응하는 텍스트 내용이다. 이 방식에서, 사용자가 텍스트 입력 박스에 입력하는 텍스트 내용을 음성으로 변환한 후, 소셜 애플리케이션 프로그램은 대화에 의해 획득된 음성을 송신할 수 있다.

구체적으로, 사용자에 의해 입력된 텍스트 내용을 획득한 후, 단말은 텍스트 내용을 목표 텍스트로 사용하고 목표 텍스트에 대응하는 제1 기계 음성을 합성하고, 비동기 기계 음성 라이브러리로부터 운율 특징(prosodic feature)이 제1 기계 음성의 운율 특징과 일치하는 비동기 기계 음성 유닛 시퀀스를 선택하며, 비동기 기계 음성 유닛 시퀀스에 대응하는 동기 기계 음성 유닛 시퀀스를 찾아 동기 기계 음성 라이브러리를 검색하여 화자의 음성 유형에 부합하는 운율 특징을 획득한다.

또한, 동기 기계 음성 유닛 시퀀스의 운율 특징에 기초하여 목표 텍스트에 대응하는 제2 기계 음성을 합성하고, 동기 기계 음성 라이브러리로부터 제2 기계 음성의 음향 특성(acoustic feature)에 부합하는 동기 기계 음성 유닛을 선택하며, 화자 음성 라이브러리 내의 동기 기계 음성 유닛에 대응하는 화자 음성 유닛을 스플라이싱하여 대상 화자 음성(target speaker speech)을 획득할 수 있다. 대상 화자 음성을 획득한 후, 단말은 그 획득된 목표 텍스트를 현재의 대화 중에 다른 대화 사용자에 대응하는 단말에 송신할 수 있다.

동기 기계 음성 라이브러리의 텍스트 내용, 비동기 기계 음성 라이브러리의 텍스트 내용, 및 화자 음성 라이브러리의 텍스트 내용은 같으며, 화자 음성 라이브러리의 운율 특징 및 동기 기계 음성 라이브러리의 운율 특징은 서로 부합한다. 다른 실시예에서, 단말은 비동기 기계 음성 라이브러리, 동기 기계 음성 라이브러리 및 화자 음성 라이브러리를 서버에 업로드하며, 이에 따라 서버 역시 비동기 기계 음성 라이브러리, 동기 기계 음성 라이브러리 및 화자 음성 라이브러리에 기초하여 음성 변환 방법을 실행할 수 있다.

도 3에 도시된 바와 같이, 실시예는 음성 변환 방법을 제공하며, 본 실시예는 이 방법이 도 1의 단말에 적용되는 예를 사용해서 설명한다. 방법은 구체적으로 다음의 단계를 포함한다:

S302: 목표 텍스트를 획득한다.

목표 텍스트는 변환될 대상 화자 음성에 대응하는 텍스트 내용이다. 텍스트 내용은 하나 이상의 문자가 순서대로 형성되는 캐릭터 스트링이다. 본 실시예에서, 변환될 대상 화자 음성에 대응하는 텍스트 내용은 화자가 말한 내용이 아니다.

구체적으로, 단말은 사용자가 입력 인터페이스를 사용해서 입력하고 음성 변환을 요구하는 텍스트 내용을 획득하며, 그 획득된 텍스트 내용을 목표 텍스트로 사용한다.

S304: 목표 텍스트에 대응하는 제1 기계 음성을 합성한다.

기계 음성은 프로세싱에 의해 자동 음성 합성 시스템에 의해 획득되고 이 자동 음성 합성 시스템의 음성 유형에 부합하는 오디오 데이터이다. 제1 기계 음성은 음색 및 운율 특징이 모두 자동 음성 합성 시스템의 음성 유형에 부합하는 기계 음성이다. 음색은 음원에 의해 만들어진 소리의 특성을 말하고 다른 음원에 의해 만들어진 소리의 음색은 다른 자료 및 구조로 인해 다르다. 음색은 물리학에서 스펙트럼 파라미터로 나타내어진다. 운율 특징은 음원에 의해 만들어진 소리의 기본적인 톤과 리듬이고 물리학에서 기본 주파수 파라미터, 지속시간 분포 및 신호 강도에 의해 나타내어진다. 자동 음성 합성 시스템은 음성 합성에 사용되는 시스템이고, 구체적으로 텍스트 대 음성(text to speech, TTS) 파라미터 합성 시스템일 수 있다.

구체적으로, 목표 텍스트를 획득한 후, 단말은 TTS 파라미터 합성 시스템에 기초하여 음성을 합성할 수 있다. 단말은 먼저 목표 텍스트에 대해 언어학 분석을 수행하여, 텍스트의 문장 분할, 단어 분할, 다성 문자 처리, 디지트 처리, 단축 처리 등을 포함하여 각 단어의 문장 및 음소 구성의 계층 구조를 결정할 수 있다. 단말은 그런 다음 자동 음성 합성 시스템을 사용해서 처리된 텍스트에 대해 소리 합성을 수행하고, TTS 운율 특징에 기초해서 처리된 텍스트를 음성 파형으로 변환하여 제1 기계 음성을 획득한다.

S306: 운율 특징이 제1 기계 음성의 운율 특징에 부합하는 비동기 기계 음성 유닛 시퀀스를 비동기 기계 음성 라이브러리로부터 선택한다. 동기 기계 음성 라이브러리의 텍스트 내용, 비동기 기계 음성 라이브러리의 텍스트 내용, 화자 음성 라이브러리의 텍스트 내용은 같고, 화자 음성 라이브러리의 운율 특징 및 동기 기계 음성 라이브러리의 운율 특징은 서로 부합한다.

화자 음성 라이브러리는 수 개의 화자 음성 유닛 시퀀스를 포함한다. 화자 음성 유닛 시퀀스는 적어도 하나의 화자 음성 유닛에 의해 순서대로 형성된 시퀀스이다. 화자 음성 라이브러리 내의 화자 음성 유닛 시퀀스는 모두 화자의 내력 음성으로부터 선택된다. 음색 및 운율 특징은 모두 화자의 음성 유형에 부합한다.

화자 음성 라이브러리 내의 각각의 화자 음성 유닛 시퀀스는 화자 음성 유닛 시퀀스와 동일한 텍스트 내용을 가지는 기계 음성 유닛을 가진다. 기계 음성 유닛 시퀀스의 운율 특징은 화자의 운율 특징에 부합하지 않기 때문에, 기계 음성 유닛 시퀀스를 비동기 기계 음성 유닛 시퀀스라 한다. 비동기 기계 음성 유닛 시퀀스는 비동기 기계 음성 라이브러리를 형성한다.

화자 음성 라이브러리 내의 각각의 화자 음성 유닛 시퀀스는 화자 음성 유닛 시퀀스와 동일한 텍스트 내용을 가지며 그리고 부합하는 운율 특징을 가지는 기계 음성 유닛을 가진다. 기계 음성 유닛 시퀀스의 운율 특징은 화자의 운율 특징에 부합하기 때문에, 기계 음성 유닛 시퀀스를 동기 기계 음성 유닛 시퀀스라 한다. 동기 기계 음성 유닛 시퀀스는 동기 기계 음성 라이브러리를 형성한다.

또한, 비동기 기계 음성 라이브러리, 동기 기계 음성 라이브러리 및 화자 음성 라이브러리는 텍스트 내용에 기초해서 정렬될 수 있고, 병렬 음성 라이브러리로 결합될 수 있다. 비동기 기계 음성 라이브러리, 동기 기계 음성 라이브러리 및 화자 음성 라이브러리는 모두 파일, 데이터베이스, 또는 캐시에 저장될 수 있고, 필요에 따라 파일, 데이터베이스, 또는 캐시로부터 획득될 수 있다.

구체적으로, 단말은 열거를 통해 비동기 기계 음성 라이브러리 내의 비동기 기계 음성 유닛 시퀀스를 순서대로 획득하고, 획득된 비동기 기계 음성 라이브러리의 운율 특징과 제1 기계 음성의 운율 특징을 비교하고, 비동기 기계 음성 라이브러리와 제1 기계 음성에 포함된 각각의 비동기 기계 음성 유닛 시퀀스를 비교를 완료한 후, 운율 특징이 제1 기계 음성의 운율 특징과 대부분 유사한 비동기 기계 음성 유닛 시퀀스를 부합된 비동기 기계 음성 유닛 시퀀스로서 선택할 수 있다.

운율 특징을 비교하는 단계는 각각의 비동기 기계 음성 유닛 시퀀스에 대응하는 기본 주파수 파라미터와 제1 기계 음성을 비교하는 단계, 및 각각의 비동기 기계 음성 유닛 시퀀스에 대응하는 지속시간 분포와 제1 기계 음성을 비교하는 단계를 포함한다.

S308: 비동기 기계 음성 유닛 시퀀스에 대응하는 동기 기계 음성 유닛 시퀀스를 찾아 동기 기계 음성 라이브러리를 검색한다.

음성 유닛은 단말에 의해 정의되는 시간 차원이다. 이 실시예에서, 단말은 중국어 병음 구축 방식에 기초해서 내력 화자 음성에 대해 음성 유닛 분할을 수행한다. 중국어 "unit"의 병음은 "danyuan"이고, 4개의 음성 유닛이 중국어 병음 구축 방식에 기초해서 분할을 통해 획득될 수 있으며, 각각 "d", "an", "y", 및 "uan"이다. 다른 실시예에서, 단말은 대안으로 문자, 음소 등에 기초해서 음성 유닛 분할을 수행할 수 있다.

구체적으로, 단말은 비동기 기계 음성 유닛 시퀀스와의 대응관계가 텍스트 내용을 사용해서 구축되는 동기 기계 음성 유닛 시퀀스를 찾아 동기 기계 음성 라이브러리를 검색하여 동기 기계 음성 유닛 시퀀스를 획득한다.

S310: 동기 기계 음성 유닛 시퀀스의 운율 특징에 기초하여 목표 텍스트에 대응하는 제2 기계 음성을 합성한다.

제2 기계 음성은 음색이 자동 음성 합성 시스템의 음성 유형에 부합하지만 운율 특징은 화자 음성 유형에 부합하는 기계 음성이다. 제2 기계 음성 및 제1 기계 음성 모두는 기계 음성이지만 서로 다른 기계 음성이다.

구체적으로, 단말은 동기 기계 음성 유닛 시퀀스의 운율 특징에 기초하여 자동 음성 합성 시스템을 사용함으로써 화자의 운율 특징에 부합하는 제2 기계 음성을 합성할 수 있다.

예를 들어, 목표 텍스트 내용 "xiao qiao liu shui ren jia"인 것으로 가정하면, TTS 파라미터 합성 시스템 및 TTS 운율 특징에 기초해서 합성된 제1 기계 음성은 "xiao qiao liu-shui-ren jia"이고, 동기 기계 음성 라이브러리로부터 찾아낸 동기 기계 음성 유닛 시퀀스는 "kuteng-laoshu-hunya"이고, TTS 파라미터 합성 시스템 및 동기 기계 음성 유닛 시퀀스의 운율 특징에 기초해서 합성된 제2 기계 음성은 "xiao qiao-liu shui-ren jia"이고, 여기서 "-"는 일시중지를 나타낸다.

S312: 동기 기계 음성 라이브러리로부터 제2 기계 음성의 음향 특성에 부합하는 동기 기계 음성 유닛을 선택한다.

음향 특성은 물리학에서 음원의 진동에 의해 발생되는 소리 파형의 특성이다. 음향 파라미터는 음향 특성을 나타내는 데 사용되는 파라미터이고, 구체적으로 기본 주파수 파라미터, 스펙트럼 파라미터, 비주기적 신호 파라미터 등을 포함한다.

구체적으로, 단말은 생성 단계에서 제2 기계 음성의 유닛 분할에 기초해서 대응하는 기계 음성 유닛 시퀀스를 획득하고, 생성 단계에서 각각의 음성 유닛의 발음 주석에 기초하여 후보 동기 기계 음성 유닛과 동일한 발음을 가지는 동기 기계 음성 유닛에 대한 동기 기계 음성 라이브러리를 검색한다.

그런 다음 단말은 동기 기계 음성 라이브러리에 저장되어 있고 후보 동기 기계 음성 유닛에 대응하는 유닛 음향 파라미터를 검색하고, 찾아낸 유닛 음향 파라미터와 제2 기계 음성 내의 음성 유닛의 대응하는 유닛 음향 파라미터를 일대일로 비교하며, 제2 기계 음성의 음향 파라미터와 대부분 유사한 후보 동기 기계 음성 유닛을 부합된 음향 특성을 가지는 화자 음성으로 선택한다.

S314: 화자 음성 라이브러리 내의 동기 기계 음성 유닛 시퀀스에 대응하는 화자 음성 유닛을 스플라이싱하여 목표 화자 음성을 획득한다.

구체적으로, 단말은 동기 기계 음성 유닛 시퀀스와의 대응관계가 텍스트 내용을 사용해서 구축되는 화자 음성 유닛에 대한 화자 음성 라이브러리를 검색하고, 찾아낸 화자 음성 유닛을 스플라이싱하여 목표 화자 음성을 획득한다.

음성 변환 방법에서, 스플라이싱을 통해 목표 화자 음성을 획득하는 데 사용되는 음성 유닛을 화자 음성 라이브러리로부터 선택하고, 스플라이싱되고 변환된 음성은 화자의 음색을 유지한다. 또한, 비동기 기계 음성 라이브러리 내의 기계 운율 특징에 부합하는 비동기 기계 음성 유닛 시퀀스와 동기 기계 음성 라이브러리 내의 화자의 운율 특징에 부합하는 동기 기계 음성 유닛 시퀀스 간의 대응관계가 사용된다. 기계 운율 특징에 부합하는 제1 기계 음성이 합성된 후, 화자의 음성 유형에 부합하는 운율 특징을 대응관계에 기초하여 결정한다. 그런 다음 운율 특징에 기초하여 제2 기계 음성을 합성하고, 제2 기계 음성의 운율 특징에 부합하는 동기 기계 음성 유닛을 제2 기계 음성의 운율 특징에 기초하여 동기 기계 음성 라이브러리로부터 선택한다. 화자 음성 라이브러리 내의 선택된 동기 기계 음성 유닛에 대응하는 화자 음성 유닛을 스플라이싱하여 목표 화자 음성을 획득하고 이에 의해 화자의 운율 특징을 유지한다. 이 방식에서, 화자의 음색 및 화자의 운율 특징이 유지되므로 변환에 의해 획득된 음성은 더 자연스럽고 화자의 요구된 음성 유형에 더 잘 부합하므로 음성 변환 효과를 향상시킨다.

도 4에 도시된 바와 같이, 일 실시예에서, 단계 S306은 다음의 단계를 포함한다:

S402: 제1 기계 음성에 기초하여 비동기 기계 음성 라이브러리로부터 후보 비동기 기계 음성 유닛 시퀀스를 획득한다.

구체적으로, 단말은 비동기 기계 음성 유닛 시퀀스에 포함된 비동기 기계 음성 유닛의 수량에 기초하여 비동기 기계 음성 라이브러리 내의 비동기 기계 음성 유닛 시퀀스를 미리 분류할 수 있다. 제1 기계 음성을 합성한 후, 단말은 제1 기계 음성의 생성 동안 음성 유닛 분할에 기초하여 분할을 통해 획득된 기계 음성 유닛의 수량에 대한 통계를 수집하고, 비동기 기계 음성 라이브러리로부터 통계 수집을 통해 획득된 수량보다 크거나 같은 비동기 기계 음성 유닛의 수량을 포함하는 비동기 기계 음성 유닛 시퀀스를 획득하여 후보 음성 유닛 시퀀스로서 서비스한다.

일 실시예에서, 단계 S402는 구체적으로: 제1 기계 음성에 포함된 기계 음성 유닛의 수량을 결정하는 단계, 및 결정된 수량과 동일한 수량의 비동기 기계 음성 유닛을 포함하는 후보 비동기 기계 음성 유닛 시퀀스를 비동기 기계 음성 라이브러리로부터 획득하는 단계를 포함한다.

구체적으로, 단말은 비동기 기계 음성 유닛 시퀀스를 선택하는 데 사용되는 후보 조건을 미리 구성할 수 있다. 후보 조건은 포함된 비동기 기계 음성 유닛의 수량이 제1 기계 음성에 포함된 기계 음성 유닛의 수량과 같다는 것이다. 비동기 기계 음성 유닛 시퀀스에 포함된 비동기 기계 음성 유닛의 수량이 제1 기계 음성에 포함된 기계 음성 유닛의 수량보다 크거나 같을 때, 후보 조건이 충족되는 것으로 결정되며, 비동기 기계 음성 유닛 시퀀스 또는 비동기 기계 음성 유닛 시퀀스에 포함된 비동기 기계 음성 유닛 서브시퀀스는 후보 비동기 기계 음성 유닛 시퀀스로 사용된다.

이 실시예에서, 후보 비동기 기계 음성 유닛 시퀀스는 제1 기계 음성에 포함된 기계 음성 유닛의 수량에 기초하여 선택되어 운율 특징 차이를 계산하며, 이에 의해 운율 특징 차리의 후보 결과의 신뢰도를 향상시킨다.

일 실시예에서, 결정된 수량과 동일한 수량의 비동기 기계 음성 유닛을 포함하는 후보 비동기 기계 음성 유닛 시퀀스를 비동기 기계 음성 라이브러리로부터 획득하는 단계는 구체적으로: 비동기 기계 음성 라이브러리에 포함된 비동기 기계 음성 유닛 시퀀스를 검색하는 단계; 검색되는 비동기 기계 음성 유닛 시퀀스에 포함된 비동기 기계 음성 유닛의 수량이 상기 결정된 수량보다 작을 때, 계속 검색하는 단계; 검색되는 비동기 기계 음성 유닛 시퀀스에 포함된 비동기 기계 음성 유닛의 수량이 상기 결정된 수량과 같을 때, 검색되는 비동기 기계 음성 유닛 시퀀스를 후보 비동기 기계 음성 유닛 시퀀스로 사용하는 단계; 및 검색되는 비동기 기계 음성 유닛 시퀀스에 포함된 비동기 기계 음성 유닛의 수량이 상기 결정된 수량보다 클 때, 상기 포함된 비동기 기계 음성 유닛의 시퀀스 및 상기 결정된 수량에 기초하여 검색되는 비동기 기계 음성 유닛 시퀀스를 분할하여 후보 비동기 기계 음성 유닛 시퀀스를 획득하는 단계를 포함한다.

이 실시예에서, 제2 기계 음성에 포함된 기계 음성 유닛의 수량보다 큰 비동기 기계 음성 유닛의 수량을 포함하는 비동기 기계 음성 유닛 시퀀스는 포함된 비동기 기계 음성 유닛의 시퀀스 및 결정된 수량에 기초하여 비동기 기계 음성 유닛 서브시퀀스를 후보 비동기 기계 음성 유닛 시퀀스로 획득하기 위해 분할되며, 이에 의해 자연스런 언어 일관성에 부합하고, 운율 특징 차이의 계산 결과의 신뢰도를 보장하며, 비동기 기계 음성 라이브러리의 말뭉치 사용(corpus usage)을 향상시킨다.

예를 들어, 제1 기계 음성을 분할하여 3개의 음성 유닛: a-b-c를 획득하는 것으로 가정하면, 단말이 비동기 기계 음성 라이브러리에 포함된 비동기 기계 음성 유닛 시퀀스를 횡단할 때, 횡단되는 비동기 기계 음성 유닛 시퀀스가 d-e일 때, 비동기 기계 음성 유닛 시퀀스는 2개의 비동기 기계 음성 유닛을 포함한다. 이것은 후보 조건 및 횡단 조건에 부합하지 않는다. 횡단되는 비동기 기계 음성 유닛 시퀀스가 f-g-h일 때, 비동기 기계 음성 유닛 시퀀스는 3개의 비동기 기계 음성 유닛을 포함한다. 이것은 후보 조건에 부합하고, 단말은 후보 비동기 기계 음성 유닛 시퀀스로서 "f-g-h"로 직접 사용할 수 있다.

횡단되는 비동기 기계 음성 유닛 시퀀스가 i-j-k-l일 때, 비동기 기계 음성 유닛 시퀀스는 4개의 비동기 기계 음성 유닛을 포함하고, 이것은 후보 조건에 부합한다. 그렇지만, 비동기 기계 음성 유닛 시퀀스에 포함된 비동기 기계 음성 유닛의 수량이 제1 기계 음성에 포함된 기계 음성 유닛의 수량보다 크기 때문에, 비동기 기계 음성 유닛 시퀀스는 제1 기계 음성에 포함된 기계 음성 유닛의 수량과 같은 비동기 기계 음성 유닛의 수량을 포함하는 비동기 기계 음성 유닛 서브시퀀스를 획득하기 위해 분할될 필요가 있다. 비동기 기계 음성 유닛 시퀀스가 단방향이 때문에, 단말은 비동기 기계 음성 유닛 서브시퀀스 "i-j-k", "j-k-l", "i-k-l", 및 "i-j-l"을 후보 비동기 기계 음성 유닛 시퀀스로 사용할 수 있다.

S404: 후보 비동기 기계 음성 유닛 시퀀스와 제1 기계 음성 간의 운율 특징 차이를 결정한다.

구체적으로, 후보 비동기 기계 음성 유닛 시퀀스(들)를 선택한 후, 단말은 후보 비동기 기계 음성 유닛 시퀀스와 제1 기계 음성 간의 운율 특징 차이를 순서대로 계산할 수 있다.

일 실시예에서, 단계 S404는 구체적으로: 제1 기계 음성을 분할하여 기계 음성 유닛을 획득하는 단계; 후보 비동기 기계 음성 유닛 시퀀스에 포함된 각각의 비동기 기계 음성 유닛과 분할에 의해 획득된 각각의 대응하는 기계 음성 유닛 간의 운율 파라미터 차이에 기초하여 후보 비동기 기계 음성 유닛 시퀀스와 제1 기계 음성 간의 운율 특징 차이를 생성하는 단계를 포함하며, 운율 파라미터 차이는 지속시간 차이, 기본 주파수 변화율 차이, 음향 파라미터의 지속시간 분포 차이 및 기본 주파수 변화율의 확률 분포 차이 중 적어도 하나를 포함한다.

구체적으로, 단말은 제1 기계 음성의 합성화 동안 획득되는 제1 기계 음성의 운율 파라미터 및 대응하는 기계 음성 유닛 분할을 사용해서 유닛 운율 파라미터를 획득할 수 있다. 단말은 후보 비동기 기계 음성 유닛 시퀀스에 포함된 각각의 비동기 기계 음성 유닛에 대응하는 유닛 운율 파라미터를 추가로 획득하고, 비동기 기계 음성 유닛에 대응하는 유닛 운율 파라미터와 분할된 기계 음성 유닛에 대응하는 유닛 운율 파라미터 간의 차이를 계산하여 후보 비동기 기계 음성 유닛 시퀀스와 제1 기계 음성 간의 운율 특징 차이를 계산할 수 있다.

이 실시예에서, 운율 특징 차이는 후보 비동기 기계 음성 유닛 시퀀스에 포함된 각각의 비동기 기계 음성 유닛과 분할에 의해 획득된 대응하는 기계 음성 유닛 간의 운율 특징 차이를 사용해서 계산되며, 운율 특징에 영향을 주는 파라미터는 계산에 사용되며, 이에 의해 운율 특징의 부합 정확도가 향상된다.

비동기 기계 음성 유닛 시퀀스와 제1 기계 음성 간의 운율 특징 차이는 이하의 식을 사용해서 계산될 수 있다:

는 후보 비동기 기계 음성 유닛 시퀀스 A의 운율 특징 파라미터를 나타내고,

는 제1 기계 음성 B의 운율 특징 파라미터를 나타내고, N은 운율 특징 특징의 계산 동안 선택된 운율 특징의 수량을 니타내고,

은 n번째 운율 특징의 가중치를 나타내고,

는 운율 특징 차이를 나타내며,

의 작은 값은 후보 비동기 기계 음성 유닛 시퀀스 A의 운율 특징 및 제1 기계 음성 B의 운율 특징이 서로 더 잘 부합한다는 것을 나타낸다. 후보 비동기 기계 음성 유닛 시퀀스 A와 제1 기계 음성 B의 운율 특징 차이

는 지속시간 차이, 기본 주파수 변화율 차이, 음향 파라미터의 지속시간 분포 차이 및 기본 주파수 변화율의 확률 분포 차이 중 적어도 하나를 포함한다.

지속시간 차이는 비동기 기계 음성 유닛 이전의 음성 일시 중지 지속시간과 분할에 의해 획득된 대응하는 기계 음성 유닛 이전의 음성 일시 중지 지속시간 간의 차이

, 비동기 기계 음성 유닛 이전의 발음 지속시간과 분할에 의해 획득된 대응하는 기계 음성 유닛 이전의 발음 지속시간 간의 차이

, 및 비동기 기계 음성 유닛 이후의 발음 지속시간과 분할에 의해 획득된 대응하는 기계 음성 유닛 이후의 발음 지속시간 간의 차이

를 포함한다.

는 후보 비동기 기계 음성 유닛 시퀀스 A의 기본 주파수 변화율을 나타내고,

는 제1 기계 음성 B의 기본 주파수 변화율을 나타낸다. 기본 주파수 변화율은 기본 주파수의 제1 도함수이다.

는 후보 비동기 기계 음성 유닛 시퀀스 A와 제1 기계 음성 B 간의 기본 주파수 변화율 차이를 나타낸다.

는 후보 비동기 기계 음성 유닛 시퀀스 A에 대응하는 음향 파라미터의 지속시간 분포를 나타내고,

는 제1 기계 음성 B에 대응하는 음향 파라미터의 지속시간 분포를 나타내고,

는 후보 비동기 기계 음성 유닛 시퀀스 A에 대응하는 음향 파라미터의 지속시간 분포와 제1 기계 음성 B에 대응하는 음향 파라미터의 지속시간 분포 간의 쿨백-라이블러 발산(kullback-leibler divergence, KLD)을 푸는 것을 나타낸다. 이 실시예에서, 가우시안 분포를 이용해서 음향 파라미터의 지속시간 분포에 대해 모델링을 수행하고,

는 후보 비동기 기계 음성 유닛 시퀀스 A의 지속시간 분포의 평균값 및 분산과 같고,

는 제1 기계 음성 B의 지속시간 분포의 평균값 및 분산과 같다.

는 후보 비동기 기계 음성 유닛 시퀀스 A에 대응하는 기본 주파수 변화율의 확률 분포를 나타내고,

는 제1 기계 음성 B에 대응하는 기본 주파수 변화율의 확률 분포를 나타내며,

는 후보 비동기 기계 음성 유닛 시퀀스 A에 대응하는 기본 주파수 변화율의 확률 분포와 제1 기계 음성 B에 대응하는 기본 주파수 변화율의 확률 분포 간의 KL 발산을 푸는 것을 나타낸다. 이 실시예에서,

가우시안 분포를 이용해서 기분 주파수 변화율의 확률 분포에 대해 모델링을 수행하고,

는 후보 비동기 기계 음성 유닛 시퀀스 A의 기본 주파수 변화율의 평균값 및 및 확률 분산과 같고,

는 제1 기계 음성 B의 기본 주파수 변화율의 확률 분포의 평균값 및 분산과 같다.

일차원 단일 가우시안 모델에서, KLD는 구체적으로 다음과 같이 정의된다:

는 후보 비동기 기계 음성 유닛 시퀀스 A의 운율 파라미터가

의 평균값 및

의 분산을 가우시안 분포에 부합한다는 것을 나타낸다.

는 제1 기계 음성 B의 운율 파라미터가

의 평균값 및

의 분산을 가우시안 분포에 부합한다는 것을 나타낸다.

S406: 최소 음율 특징 차이에 대응하는 후보 비동기 기계 음성 유닛 시퀀스를 운율 특징이 제1 기계 음성의 운율 특징에 부합하는 비동기 기계 음성 유닛 시퀀스로 사용한다.

이 실시예에서, 비동기 기계 음성 라이브러리 내의 비동기 기계 음성 유닛 시퀀스와 제1 기계 음성 간의 운율 특징 차이가 계산되고 제1 기계 음성의 운율 특징에 부합하는 비동기 기계 음성 유닛 시퀀스를 선택하기 위한 제한 조건으로 사용되며, 이에 의해 운율 특징을 선택하는 정확도가 향상되므로 변환에 의해 획득된 음성은 더 자연스럽고 화자의 요구된 음성 유형에 더 잘 부합한다.

도 5에 도시된 바와 같이, 일 실시예에서, 단계 S312는 구체적으로 이하의 단계를 포함한다:

S502: 제2 기계 음성을 분할하여 기계 음성 유닛을 획득한다.

S504: 분할에 의해 획득된 기계 음성 유닛의 발음 특성을 결정한다.

S506: 발음 특성이 분할에 의해 획득된 기계 음성 유닛의 발음 특성에 부합하는 동기 기계 음성 유닛 부분집합을 동기 기계 음성 라이브러리로부터 선택한다.

구체적으로, 단말은 동기 기계 음성 라이브러리 내의 동기 기계 음성 유닛을 횡단하고, 횡단된 동기 기계 음성 유닛의 발음과 횡단 도중의 제2 기계 음성의 주석이 달린 발음과 비교하며, 횡단된 동기 기계 음성 유닛의 발음이 제2 기계 음성의 주석이 달린 발음과 일치할 때, 동기 기계 음성 유닛을 선택하여 발음 특징이 분할에 의해 획득된 기계 음성 유닛의 발음 특징에 부합하는 동기 기계 음성 유닛 부분집합을 획득한다.

S508: 각각의 동기 기계 음성 유닛 부분집합 내의 각각의 동기 기계 음성 유닛과 분할에 의해 획득된 대응하는 기계 음성 유닛 간의 음향 특성 차이를 결정한다.

구체적으로, 단말은 각각의 동기 기계 음성 유닛 부분집합 내의 동기 기계 음성 유닛을 횡단하고, 횡단 도중에 횡단된 동기 기계 음성 유닛에 대응하는 음향 파라미터를 획득하며, 획득된 음향 파라미터와 분할에 의해 획득된 대응하는 기계 음성 유닛에 대응하는 음향 파라미터 간의 음향 특성 차이를 하나씩 계산한다.

일 실시예에서, 단계 S508은 구체적으로 이하의 단계: 각각의 동기 기계 음성 유닛 부분집합 내의 각각의 동기 기계 음성 유닛의 음향 파라미터를 결정하는 단계; 분할에 의해 획득된 기계 음성 유닛의 음향 파라미터를 결정하는 단계; 각각의 동기 기계 음성 유닛과 분할에 의해 획득된 대응하는 기계 음성 유닛 간의 대응하는 음향 파라미터 차이를 계산하는 단계; 및 계산된 차이에 기초하여 그 차이와의 양의 상관관계에 있는 음향 특성 차이를 생성한다.

구체적으로, 동기 기계 음성 유닛에 대응하는 유닛 음향 파라미터에 대한 동기 기계 음성 라이브러리를 검색할 수 있다. 단말은 대안으로 제2 기계 음성이 합성될 때 음향 모델을 사용해서 출력되는 제1 기계 음성의 각각의 음성 유닛에 대응하는 유닛 음향 파라미터를 획득할 수 있다.

동기 기계 음성 유닛과 분할에 의해 획득된 대응하는 분할된 기계 음성 유닛 간의 음향 특성 차이는 이하의 식을 사용해서 계산될 수 있다:

는 음향 특성 차이이고, N은 음향 특성 차이가 계산될 때 음향 파라미터의 수량을 나타내고,

는 동기 기계 음성 유닛 a에 대응하는 음향 파라미터를 나타내고,

는 분할에 의해 획득된 대응하는 기계 음성 유닛 b에 대응하는 음향 파라미터를 나타내고,

은 n번째 음향 특성의 가중치를 나타내고,

의 작은 값은 동기 기계 음성 유닛 a의 음향 특성과 분할에 의해 획득된 대응하는 기계 음성 유닛 b의 음향 특성이 서로 더 잘 부합하는 것을 나타낸다.

이 실시예에서, 음향 특성 차이는 동기 기계 음성 유닛과 분할에 의해 획득된 대응하는 기계 음성 유닛 간의 음향 파라미터 차이를 이용해서 계산되고, 음향 특성에 영향을 주는 파라미터는 계산에 사용되며, 이에 의해 음향 특성의 부합 정확도가 향상된다.

S510: 최소 음향 특성 차이에 대응하는 동기 기계 음성 유닛을 음향 특성이 제2 기계 음성의 음향 특성에 부합하는 동기 기계 음성 유닛으로 선택한다.

이 실시예에서, 동기 기계 음성 라이브러리 내의 동기 기계 음성 유닛과 제2 기계 음성에 포함된 기계 음성 유닛 간의 음향 특성 차이가 계산되며, 제2 기계 음성의 음향 특성에 부합하는 동기 기계 음성 유닛을 선택하기 위한 제한 조건으로 사용되며, 이에 의해 음향 특성을 선택하는 정확도가 향상되므로 변환에 의해 획득된 음성은 더 자연스럽고 화자의 요구된 음성 유형에 더 잘 부합한다.

도 6에 도시된 바와 같이, 일 실시예에서, 단계 S314는 구체적으로 이하의 단계를 포함한다:

S602: 대응하는 목표 텍스트 내의 발음 시퀀스에 기초하여 선택된 동기 기계 음성 유닛을 분류한다.

구체적으로, 동기 기계 음성 라이브러리를 구축할 때, 단말은 이에 상응해서 동기 기계 음성 라이브러리 내의 각각의 동기 기계 음성 유닛과 동기 기계 음성 유닛의 유닛 발음 간의 대응관계를 구축한다. 동기 기계 음성 유닛을 선택한 후, 단말은 동기 기계 음성 유닛에 대응하는 유닛 발음에 기초하여 목표 텍스트 내의 발음 시퀀스 내의 선택된 동기 기계 음성 유닛을 분류할 수 있다.

S604: 분류된 동기 기계 음성 유닛의 인접 동기 기계 음성 유닛의 스플라이싱 위치를 결정한다.

구체적으로, 단말은 인접 동기 기계 음성 유닛에 대응하는 유닛 음향 파라미터를 동기 기계 음성 라이브러리로부터 획득하고, 동기 기계 음성 유닛의 인접 동기 기계 음성 유닛에 대응하는 유닛 음향 파라미터 간의 유사도를 계산하며, 계산된 유사도에 기초하여 분류된 동기 기계 음성 유닛의 인접 동기 기계 음성 유닛의 스플라이싱 위치를 결정한다.

일 실시예에서, 단계 S604는 구체적으로: 선택된 동기 기계 음성 유닛을 분할함으로써 획득된 음성 프레임을 획득하는 단계; 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임의 수량을 결정하는 단계 - 중첩된 스플라이싱 음성 프레임의 수량에 대응하는 인접 동기 기계 음성 유닛의 음성 프레임은 최소 차이를 가짐 - ; 및 중첩된 스플라이싱 음성 프레임의 수량에 기초하여 분류된 동기 기계 음성 유닛의 인접 동기 기계 음성 유닛의 스플라이싱 위치를 결정하는 단계를 포함한다.

구체적으로, 단말은 음성 프레임의 지속시간, 예를 들어, 5 ms 또는 10 ms를 미리 설정할 수 있다. 단말은 미리 설정된 지속시간에 기초하여 시간 도메인에서 동기 기계 음성 유닛을 추가로 분할하여 복수의 음성 프레임을 획득할 수 있다. 이 실시예에서, 단말은 열거를 통해 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임의 수량을 순서대로 증가시키고, 중첩된 스플라이싱 음성 프레임의 수량의 증가에 기초하여 중첩된 스플라이싱 음성 프레임의 수량에 대응하는 인접 동기 기계 음성 유닛의 음성 프레임 간의 차이를 하나씩 계산하며, 최소 차이에 대응하는 중첩된 스플라이싱 음성 프레임의 수량을 중첩된 스플라이싱 음성 프레임의 결정된 수량으로 선택한다.

또한, 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임의 수량을 결정한 후, 단말은 미리 구성된 스플라이싱 기능을 획득하고, 스플라이싱 기능에 기초하여 전면에서 분류된 동기 기계 음성 유닛에 의해 포함된 중첩된 스플라이싱 음성 프레임의 요구된 유지되는 부분과 후면에서 분류된 동기 기계 음성 유닛에 의해 포함된 중첩된 스플라이싱 음성 프레임의 요구된 유지되는 부분을 결정하며, 이에 따라 음향 파라미터 천이는 스플라이싱 후에 자연스런 음성에 더 잘 부합한다.

이 실시예에서, 중첩된 스플라이싱 음성 프레임의 수량에 대응하는 인접 동기 기계 음성 유닛의 음성 프레임 간의 차이는 인접 동기 기계 음성 유닛의 스플라이싱 위치를 선택하기 위한 제한 조건으로 사용되며, 이에 의해 스플라이싱 위치를 선택하는 정확도가 향상되므로 변환에 의해 획득된 음성은 더 자연스럽고 화자의 요구된 음성 유형에 더 잘 부합한다.

다른 실시예에서, 단말은 숨겨진 마르코프 모델(hidden Markov model, HMM)에 기초하여 선택된 동기 기계 음성 유닛으로부터 분할된 음성 상태를 획득하고, 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 상태의 수량을 결정하며 - 중첩된 스플라이싱 음성 프레임의 수량에 대응하는 인접 동기 기계 음성 유닛의 음성 상태 간의 차이는 최소임 - , 중첩된 스플라이싱 음성 상태의 수량에 기초하여 분류된 동기 기계 음성 유닛의 인접 동기 기계 음성 유닛의 스플라이싱 위치를 결정한다.

일 실시예에서, 단말은 이하의 식에 기초하여 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임의 수량을 결정할 수 있다:

T는 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임의 수량을 나타내고, t는 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임 중 t번째 프레임을 나타내고,

는 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임 중 t번째 프레임의 음성 프레임 차이를 나타내며,

는

가 최소가 되도록 T를 푸는 것을 나타낸다.

일 실시예에서,

는 이하의 식을 사용해서 계산될 수 있다:

는 인접 동기 기계 음성 유닛이 T개의 중첩된 스플라이싱 음성 프레임을 가질 때의 차이를 나타낸다.

는 인접 동기 기계 음성 유닛에서 전면에서 분류된 음성 유닛에 의해 포함된 중첩된 스플라이싱 음성 프레임 중 t번째 프레임의 음향 파라미터를 나타내고,

는 인접 동기 기계 음성 유닛에서 후면에서 분류된 음성 유닛에 의해 포함된 중첩된 스플라이싱 음성 프레임 중 t번째 프레임의 음향 파라미터를 나타낸다. N은 음성 프레임 차이가 계산될 때 선택된 음향 파라미터의 수량을 나타내고,

은 각각의 선택된 음향 파라미터에 할당된 가중치를 나타내며,

는 각각의 음성 프레임에 할당된 가중치를 나타낸다.

이 실시예는 중첩된 스플라이싱 음성 프레임의 수량에 대응하는 인접 동기 기계 음성 유닛의 음성 프레임 간의 최소 차이를 보장하는 중첩된 스플라이싱 프레임의 수량을 푸는 데 구체적으로 사용되는 방법을 제공하여 스플라이싱 위치를 더 정확하게 선택할 수 있게 한다.

S606: 동기 기계 음성 유닛에 대응하는 화자 음성 유닛에 대한 화자 음성 라이브러리를 검색한다.

S608: 인접 동기 기계 음성 유닛의 결정된 스플라이싱 위치에 기초하여 대응하는 화자 음성 유닛을 스플라이싱하여 목표 화자 음성을 획득한다.

구체적으로, 각각의 동기 기계 음성 유닛의 스플라이싱 위치를 결정한 후, 단말은 이 스플라이싱 위치를 대응하는 화자 음성 유닛의 스플라이싱 위치로서 사용하고 화자 음성 유닛을 스플라이싱하여 목표 화자 음성을 획득한다.

이 실시예에서, 인접 화자 음성 유닛은 결정된 스플라이싱 위치에 기초하여 스플라이싱되므로 스플라이싱 천이가 더 자연스럽고, 변환에 의해 획득된 음성은 더 자연스럽고 화자의 요구된 음성 유형에 더 잘 부합한다.

도 7은 실시예에 따라 인접 화자 음성 유닛을 스플라이싱하는 개략도이다. 도 7에 도시된 바와 같이, 개략도는 정면에서 분류된 화자 음성 유닛(710) 및 후면에서 분류된 화자 음성 유닛(720)을 포함한다. 화자 음성 유닛(710)은 중첩된 스플라이싱된 부분(711)을 포함하고, 중첩된 스플라이싱된 부분(711)은 T개의 음성 프레임을 포함하고, 음성 프레임(712)은 화자 음성 유닛(710)의 중첩된 스플라이싱 된 부분의 t번째 프레임이다. 화자 음성 유닛(720)은 중첩된 스플라이싱된 부분(721)을 포함하고, 중첩된 스플라이싱된 부분(721)은 T개의 음성 프레임을 포함하고, 음성 프레임(722)은 화자 음성 유닛(720)의 중첩된 스플라이싱된 부분의 t번째 프레임이다. 음성 유닛(710)의 중첩된 스플라이싱된 부분의 t번째 프레임은 음성 프레임(722)인 화자 음성 유닛(720)의 중첩된 스플라이싱된 부분의 t번째 프레임과 중첩한다.

일 실시예에서, 각각의 동기 기계 음성 유닛 부분집합 내의 각각의 동기 기계 음성 유닛과 분할에 의해 획득된 대응하는 기계 음성 유닛 간의 음향 특성 차이를 결정한 후, 단말은 화자 음성 라이브러리로부터 각각의 동기 기계 음성 유닛에 대응하는 화자 음성 유닛을 획득할 수 있다. 단말은 대응하는 목표 텍스트 내의 발음 시퀀스에 기초하여 획득된 화자 음성 유닛을 추가로 배열 및 결합하여 복수의 스플라이싱될 화자 음성 시퀀스를 획득하고, 각각의 스플라이싱될 화자 음성 유닛 시퀀스 내의 인접 동기 기계 음성 유닛 간의 차이를 결정하고, 각각의 동기 기계 음성 유닛과 분할에 의해 획득된 대응하는 기계 음성 유닛 간의 음향 특성 차이를 대응하는 기계 음성 유닛과 분할에 의해 획득된 대응하는 기계 음성 유닛 간의 음향 특성 차이로 사용할 수 있다.

단말은 각각의 스플라이싱될 스피커의 음성 유닛 시퀀스와 분할에 의해 획득된 대응하는 기계 음성 유닛 간의 음향 특성 차이에 대한 가중치 합산을 수행하여 각각의 스플라이싱될 화자 음성 유닛 시퀀스에 대응하는 목표 비용을 획득할 수 있다. 또한, 단말은 각각의 스플라이싱될 화자 음성 유닛 시퀀스에서의 인접 화자 음성 유닛 간의 차이에 대한 가중 합산을 수행하여, 각각의 스플라이싱될 화자 음성 유닛 시퀀스에 대응하는 스플라이싱 비용을 획득한다.

단말은 각각의 스플라이싱될 화자 음성 유닛 시퀀스에 대응하는 목표 비용 및 스플라이싱 비용을 획득한 후, 동적 계획 방법을 사용하여 목표 비용과 스플라이싱 비용의 최소 합을 보장하는 스플라이싱 방식을 결정한다. 동적 계획은 데이터 계산 방법으로 최적의 솔루션을 해결하는 방법이다.

일 실시예에서, 음성 변환 방법은 비동기 기계 음성 라이브러리 및 동기 기계 음성 라이브러리를 구축하는 프로세스를 포함하며, 구체적으로: 내력 화자 음성을 수집하는 단계; 내력 화자 음성에 대응하는 텍스트 내용을 인식하는 단계; 인식된 텍스트 내용에 기초하여 비동기 기계 음성 유닛 시퀀스를 생성하는 단계; 생성된 비동기 기계 음성 유닛 시퀀스에 기초하여 비동기 기계 음성 라이브러리를 구축하는 단계; 수집된 내력 화자 음성의 운율 특징을 획득하는 단계; 인식된 텍스트 콘텐츠 및 획득된 운율 특징에 기초하여 동기 기계 음성 유닛 시퀀스를 생성하는 단계; 및 생성된 동기 기계 음성 유닛 시퀀스에 기초하여 동기 기계 음성 라이브러리를 구축하는 단계를 포함한다. 비동기 기계 음성 라이브러리 및 동기 기계 음성 라이브러리를 구축하는 프로세스는 S302 이전에 수행될 수 있다.

도 8은 실시예에 따라 음성 라이브러리를 구축하는 논리 블록도이다. 구체적으로, 단말은 내력 화자 음성을 미리 수집할 수 있으며, 수집된 내력 화자 음성은 소리 수집 장치를 사용해서 수집된 음성 파형일 수 있다. 단말은 음성 인식 시스템을 사용해서 각각의 내력 음성 파형에 대한 음성 유닛 분할을 수행하여 대응하는 화자 음성 유닛 시퀀스 및 각각의 유닛 파형을 획득하고, 음성 인식 시스템을 사용해서 각각의 화자 음성 유닛 시퀀스에 대응하는 텍스트 내용을 인식하고, 각각의 화자 음성 유닛 시퀀스 내의 각각의 음성 유닛의 발음 및 지속시간 분포에 대한 주석을 달아 각각의 음성 유닛의 유닛 발음을 획득한다. 단말은 획득되는 유닛 발음, 각각의 유닛 파형 및 각각의 화자 음성 유닛 시퀀스에 기초하여 화자 음성 라이브러리를 구축할 수 있다.

단말은 자동 음성 합성 시스템을 사용하여 각각의 음성 유닛의 발음 주석에 기초하여 각각의 음성 유닛의 발음과 같은 발음을 가지는 비동기 기계 음성 유닛 시퀀스를 합성하고, 비동기 기계 음성 유닛 시퀀스에 대응하는 음성 파형을 획득하며, 음향 모델을 사용함으로써 비동기 기계 음성 유닛 시퀀스에 대응하는 음향 파라미터를 출력한다. 또한, 단말은 비동기 기계 음성 유닛에 기초하여 비동기 기계 음성 유닛 시퀀스에 대응하는 음성 파형 및 음향 파라미터를 분류하여 각각 비동기 기계 음성 유닛에 대응하는 유닛 음향 파라미터 및 유닛 파형을 획득하며, 유닛 발음, 각각의 유닛 파형, 각각의 유닛 음향 파라미터 및 각각의 비동기 기계 음성 유닛 시퀀스에 기초하여 비동기 기계 음성 라이브러리를 구축한다.

단말은 자동 음성 합성 시스템을 사용하여 각각의 음성 유닛의 발음 주석 및 지속시간 분포 주석에 기초하여 각각의 음성 유닛의 발음 및 지속시간 분배와 모두 동일한 발음 및 지속시간 분배를 가지는 동기 기계 음성 유닛 시퀀스를 합성하고, 동기 기계 음성 유닛 시퀀스에 대응하는 음성 파형을 획득하며, 음향 모델을 사용함으로써 비동기 기계 음성 유닛 시퀀스에 대응하는 음향 파라미터를 출력한다. 또한, 단말은 비동기 기계 음성 유닛에 기초하여 비동기 기계 음성 유닛 시퀀스에 대응하는 음성 파형 및 음향 파라미터를 분류하여 각각 비동기 기계 음성 유닛에 대응하는 유닛 음향 파라미터 및 유닛 파형을 획득하며, 유닛 발음, 각각의 유닛 파형, 각각의 유닛 음향 파라미터 및 각각의 동기 기계 음성 유닛 시퀀스에 기초하여 동기 기계 음성 라이브러리를 구축한다.

또한, 단말은 대응하는 텍스트 내용에 기초하여 화자 음성 라이브러리 내의 화자 음성 유닛 시퀀스, 비동기 기계 음성 라이브러리 내의 비동기 기계 음성 유닛 시퀀스, 및 동기 기계 음성 라이브러리 내의 동기 기계 음성 유닛 시퀀스를 정렬하고, 결합을 통해 병렬 음성 라이브러리를 구축할 수 있다.

예를 들어, 내력 화자 음성(광둥 강세)은: "ta-zai hui ji shang-na zhe yi duo-xian fa"이고, 인식된 텍스트 내용은: "ta zai fei ji shang na zhe yi duo xian hua"이다. 합성된 비동기 기계 음성 유닛 시퀀스는: "ta zai-fei ji shang-na zhe- yi duo xian hua"이다. 이 경우, 발음은 텍스트 내용의 발음과 같고, 운율 특징은 기계 운율 특징에 부합한다. 합성된 동기 기계 음성 유닛 시퀀스는: "ta-zai fei ji shang-na zhe yi duo-xian hua"이다. 이 경우, 발음은 텍스트 내용의 발음과 같다. "-"는 음성 간의 운율 일시중지를 나타낸다.

이 실시예에서, 화자 음성 라이브러리 내의 화자 음성 유닛 시퀀스의 텍스트 내용과 동일한 텍스트 내용을 가지는 비동기 기계 음성 유닛 시퀀스를 포함하는 비동기 기계 음성 라이브러리가 구축되고, 화자 음성 유형과 기계 음성 유형 간의 대응관계가 구축되므로 목표 텍스트의 운율 특징이 더 정확하게 선택된다. 화자 음성 라이브러리 내의 화자 음성 유닛 시퀀스의 텍스트 내용 및 운율 특징과 동일한 텍스트 내용 및 운율 특징을 가지는 동기 기계 음성 유닛 시퀀스를 포함하는 동기 기계 음성 라이브러리가 구축되고, 동일한 운율 특징을 가지는 화자 음성과 기계 음성 간의 대응관계가 구축되므로 스플라이싱을 통해 목표 화자 음성을 획득하는 데 사용되는 화자 음성 유닛이 더 정확하게 선택된다.

도 9는 실시예에 따른 음성 변환 방법의 논리 블록도이다. 도 9에 도시된 바와 같이, 내력 화자 음성을 미리 수집하고, 내력 화자 음성에 대한 음성 인식을 수행하여 화자 음성 라이브러리를 획득할 수 있다. 단말은 각각의 음성 유닛의 발음 및 지속시간 분포에 대해 주석을 달고 TTS 파라미터 합성 시스템을 사용함으로써 발음 주석에 기초하여 비동기 기계 음성 유닛 시퀀스를 합성하여 비동기 기계 음성 라이브러리를 구축하며, TTS 파라미터 합성 시스템을 사용함으로써 발음 주석 및 지속시간 분포에 기초하여 동기 기계 음성 유닛 시퀀스를 합성하여 동기 기계 음성 라이브러리를 구축한다.

단말은 목표 텍스트를 획득하고, 목표 텍스트에 기초하여 제1 기계 음성을 합성하고, 운율 특징이 제1 기계 음성의 운율 특징에 부합하는 비동기 기계 음성 유닛 시퀀스를 비동기 기계 음성 라이브러리로부터 선택한다. 단말은 비동기 기계 음성 유닛 시퀀스에 대응하는 동기 기계 음성 유닛 시퀀스를 찾아 동기 기계 음성 라이브러리를 검색하고, 동기 기계 음성 유닛 시퀀스의 운율 특징에 기초하여 목표 텍스트에 대응하는 제2 기계 음성을 합성한다. 단말은 제2 기계 음성의 음향 특성에 기초하여 제2 기계 음성의 음향 특성에 부합하는 동기 기계 음성 유닛을 동기 기계 음성 라이브러리로부터 추가로 선택하고, 화자 음성 라이브러리로부터 동기 기계 음성 유닛에 대응하는 화자 음성 유닛을 선택하며, 선택된 화자 음성 유닛을 스플라이싱하여 목표 화자 음성을 획득한다. 동기 기계 음성 유닛 시퀀스와 화자 유닛 음성 시퀀스는 동일한 지속기간 분포를 가지기 때문에, 동기 기계 음성 유닛 시퀀스의 운율 특징은 화자 음성 유닛 시퀀스의 운율 특징으로 사용될 수 있다.

이 출원의 실시예에서의 단계들은 단계 번호로 지시된 순서로 반드시 수행되지 않아도 된다는 것을 이해해야 한다. 본 명세서에 달리 설명되지 않으면, 단계를 수행하는 순서는 엄격하게 제한되지 않으며, 단계는 다른 순서로 수행될 수도 있다. 또한, 실시예에서의 일부의 단계는 복수의 하위단계 또는 복수의 스테이지를 포함할 수 있다. 하위단계 또는 스테이지는 반드시 같은 순간에 수행되지 않아도 되며, 대신 다른 순간에 수행될 수도 있다. 하위단계 또는 스테이지는 반드시 순서대로 수행되지 않아도 되며 대신에 하위단계 또는 스테이지 및 하위단계의 다른 단계 또는 다른 단계의 스테이지 중 적어도 일부가 차례로 또는 대안으로 수행될 수도 있다.

도 10에 도시된 바와 같이, 실시예는 컴퓨터 장치(1000)를 제공한다. 컴퓨터 장치(1000)의 내부 구조에 대해서는 도 1에 도시된 구조를 참조한다. 이하의 모듈 중 일부 또는 전부는 소프트웨어, 하드웨어, 또는 이것들의 조합으로 실행될 수 있다. 도 10을 참조하면, 컴퓨터 장치(1000)는: 획득 모듈(1001), 제1 합성 모듈(1002), 제1 선택 모듈(1003), 검색 모듈(1004), 제2 합성 모듈(1005), 제2 선택 모듈(1006), 및 스플라이싱 모듈(1007)을 포함한다.

획득 모듈(1001)은 목표 텍스트를 획득하도록 구성된다.

제1 합성 모듈(1002)은 목표 텍스트에 대응하는 제1 기계 음성을 합성하도록 구성된다.

제1 선택 모듈(1003)은 비동기 기계 음성 라이브러리로부터 운율 특징이 제1 기계 음성의 운율 특징과 일치하는 비동기 기계 음성 유닛 시퀀스를 선택하도록 구성된다.

검색 모듈(1004)은 비동기 기계 음성 유닛 시퀀스에 대응하는 동기 기계 음성 유닛 시퀀스를 찾아 동기 기계 음성 라이브러리를 검색하도록 구성된다.

제2 합성 모듈(1005)은 동기 기계 음성 유닛 시퀀스의 운율 특징에 기초하여 목표 텍스트에 대응하는 제2 기계 음성을 합성하도록 구성된다.

제2 선택 모듈(1006)은 동기 기계 음성 라이브러리로부터 제2 기계 음성의 음향 특성에 부합하는 동기 기계 음성 유닛을 선택하도록 구성된다.

스플라이싱 모듈(1007)은 화자 음성 라이브러리 내의 동기 기계 음성 유닛에 대응하는 화자 음성 유닛을 스플라이싱하여 대상 화자 음성(target speaker speech)을 획득하도록 구성된다.

동기 기계 음성 라이브러리의 텍스트 내용, 비동기 기계 음성 라이브러리의 텍스트 내용 및 화자 음성 라이브러리의 텍스트 내용은 동일하고, 화자 음성 라이브러리의 운율 특징 및 동기 기계 음성 라이브러리의 운율 특징은 서로 부합한다.

이 실시예에서, 동기 기계 음성 라이브러리 내의 동기 기계 음성 유닛과 제2 기계 음성에 포함된 기계 음성 유닛 간의 음향 특성이 계산되며, 제2 기계 음성의 음향 특성에 부합하는 동기 기계 음성 유닛을 선택하기 위한 제한 조건으로 사용되며, 이에 의해 음향 특성을 선택하는 정확도가 향상되므로 변환에 의해 획득된 음성은 더 자연스럽고 화자의 요구된 음성 유형에 더 잘 부합한다.

일 실시예에서, 제2 선택 모듈(1006)은: 각각의 동기 기계 음성 유닛 부분집합 내의 각각의 동기 기계 음성 유닛의 음향 파라미터를 결정하고, 분할에 의해 획득된 기계 음성 유닛의 음향 파라미터를 결정하고, 분할에 의해 획득된 대응하는 기계 음성 유닛과 각각의 동기 기계 음성 유닛 간의 대응하는 음향 파라미터 차이를 계산하며, 그 차이에 기초하여 그 차이와 양의 상관관계에 있는 음향 특성 차이를 생성하도록 추가로 구성되어 있다.

제1 선택 모듈(1006)은: 제1 기계 음성에 포함된 기계 음성 유닛의 수량을 결정하고, 결정된 수량과 동일한 수량의 비동기 기계 음성 유닛을 포함하는 후보 비동기 기계 음성 유닛 시퀀스를 비동기 기계 음성 라이브러리로부터 획득하도록 추가로 구성되어 있다.

이 실시예에서, 후보 비동기 기계 음성 유닛 시퀀스는 음향 특성 차이를 계산하기 위해 제1 기계 음성에 포함된 기계 음성 유닛의 수량에 기초하여 선택되며, 이에 의해 음향 특성 차이의 계산 결과의 신뢰도가 향상된다.

일 실시예에서, 제1 선택 모듈(1006)은: 비동기 기계 음성 라이브러리에 포함된 비동기 기계 음성 유닛 시퀀스를 횡단하고, 횡단되는 비동기 기계 음성 유닛 시퀀스에 포함된 비동기 기계 음성 유닛의 수량이 상기 결정된 수량보다 작을 때, 계속 횡단하고, 횡단되는 비동기 기계 음성 유닛 시퀀스에 포함된 비동기 기계 음성 유닛의 수량이 상기 결정된 수량과 같을 때, 횡단되는 비동기 기계 음성 유닛 시퀀스를 후보 비동기 기계 음성 유닛 시퀀스로 사용하고, 횡단되는 비동기 기계 음성 유닛 시퀀스에 포함된 비동기 기계 음성 유닛의 수량이 상기 결정된 수량보다 클 때, 상기 포함된 비동기 기계 음성 유닛의 시퀀스 및 상기 결정된 수량에 기초하여 횡단되는 비동기 기계 음성 유닛 시퀀스를 분할하여 후보 비동기 기계 음성 유닛 시퀀스를 획득하도록 추가로 구성되어 있다.

이 실시예에서, 제1 기계 음성에 포함된 기계 음성 유닛의 수량보다 큰 비동기 기계 음성 유닛의 수량을 포함하는 비동기 기계 음성 유닛 시퀀스는 포함된 비동기 기계 음성 유닛의 시퀀스 및 결정된 수량에 기초하여 비동기 기계 음성 유닛 서브시퀀스를 후보 비동기 기계 음성 유닛 시퀀스로 획득하기 위해 분할되며, 이에 의해 자연스런 언어 일관성에 부합하고, 운율 특징 차이의 계산 결과의 신뢰도를 보장하며, 비동기 기계 음성 라이브러리의 말뭉치 사용을 향상시킨다.

일 실시예에서, 제1 선택 모듈(1006)은: 제1 기계 음성을 분할하여 기계 음성 유닛을 획득하고, 후보 비동기 기계 음성 유닛 시퀀스에 포함된 각각의 비동기 기계 음성 유닛과 분할에 의해 획득된 각각의 대응하는 기계 음성 유닛 간의 운율 파라미터 차이에 기초하여 후보 비동기 기계 음성 유닛 시퀀스와 제1 기계 음성 간의 운율 특징 차이를 생성하도록 추가로 구성되어 있으며, 운율 파라미터 차이는 지속시간 차이, 기본 주파수 변화율 차이, 음향 파라미터의 지속시간 분포 차이 및 기본 주파수 변화율의 확률 분포 차이 중 적어도 하나를 포함한다.

일 실시예에서, 제2 선택 모듈(1006)은: 제2 기계 음성을 분할하여 기계 음성 유닛을 획득하고, 분할에 의해 획득된 기계 음성 유닛의 발음 특성을 결정하고, 발음 특성이 분할에 의해 획득된 기계 음성 유닛의 발음 특성에 부합하는 동기 기계 음성 유닛 부분집합을 동기 기계 음성 라이브러리로부터 선택하고, 각각의 동기 기계 음성 유닛 부분집합 내의 각각의 동기 기계 음성 유닛과 분할에 의해 획득된 대응하는 기계 음성 유닛 간의 음향 특성 차이를 결정하며, 최소 음향 특성 차이에 대응하는 동기 기계 음성 유닛을 음향 특성이 제2 기계 음성의 운율 특성에 부합하는 동기 기계 음성 유닛으로 선택하도록 추가로 구성되어 있다.

일 실시예에서, 제2 선택 모듈(1006)은: 각각의 동기 기계 음성 유닛 부분집합 내의 각각의 동기 기계 음성 유닛의 음향 파라미터를 결정하고, 분할에 의해 획득된 기계 음성 유닛의 음향 파라미터를 결정하고, 각각의 동기 기계 음성 유닛과 분할에 의해 획득된 대응하는 기계 음성 유닛 간의 대응하는 음향 파라미터 차이를 계산하며, 대응하는 음향 파라미터 차이에 기초하여 대응하는 음향 파라미터 차이와 양의 상관관계(positive correlation)에 있는 음향 특성 차이를 생성하도록 추가로 구성되어 있다.

일 실시예에서, 스플라이싱 모듈(1007)은: 대응하는 목표 텍스트 내의 발음 시퀀스에 기초하여 선택된 동기 기계 음성 유닛을 분류하고, 분류된 동기 기계 음성 유닛의 인접 동기 기계 음성 유닛의 스플라이싱 위치를 결정하고, 동기 기계 음성 유닛에 대응하는 화자 음성 유닛에 대한 화자 음성 라이브러리를 검색하며, 인접 동기 기계 음성 유닛의 결정된 스플라이싱 위치에 기초하여 대응하는 화자 음성 유닛을 스플라이싱하여 대상 화자 음성을 획득하도록 추가로 구성되어 있다.

일 실시예에서, 스플라이싱 모듈(1007)은: 선택된 동기 기계 음성 유닛을 분할함으로써 획득된 음성 프레임을 획득하고, 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임의 수량을 결정하며 - 중첩된 스플라이싱 음성 프레임의 수량에 대응하는 인접 동기 기계 음성 유닛의 음성 프레임은 최소 차이를 가짐 - , 그리고 중첩된 스플라이싱 음성 프레임의 수량에 기초하여 분류된 동기 기계 음성 유닛의 인접 동기 기계 음성 유닛의 스플라이싱 위치를 결정하도록 추가로 구성되어 있다.

일 실시예에서, 스플라이싱 모듈(1007)은 다음의 식에 기초하여 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임의 수량을 결정하도록 추가로 구성되어 있다:

.

T는 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임의 수량을 나타내고, t는 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임의 수량 중 t번째 프레임을 나타내고,

는 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임의 수량 중 t번째 프레임의 음성 프레임 차이를 나타내며,

는

가 최소가 되도록 T를 푸는 것을 나타낸다.

도 11에 도시된 바와 같이, 일 실시예에서, 컴퓨터 장치(1000)는 음성 라이브러리 생성 모듈(1008)을 더 포함한다.

음성 라이브러리 생성 모듈(1008)은: 내력 화자 음성을 수집하고, 내력 화자 음성에 대응하는 텍스트 내용을 인식하고, 인식된 텍스트 내용에 기초하여 비동기 기계 음성 유닛 시퀀스를 생성하고, 생성된 비동기 기계 음성 유닛 시퀀스에 기초하여 비동기 기계 음성 라이브러리를 구축하고, 수집된 내력 화자 음성의 운율 특징을 획득하고, 인식된 텍스트 콘텐츠 및 획득된 운율 특징에 기초하여 동기 기계 음성 유닛 시퀀스를 생성하며, 생성된 동기 기계 음성 유닛 시퀀스에 기초하여 동기 기계 음성 라이브러리를 구축하도록 추가로 구성되어 있다.

당업자는 실시예에서의 방법의 프로세스 중 일부 또는 전부는 관련 하드웨어에 명령을 내리는 컴퓨터 프로그램에 의해 실행될 수 있다는 것을 이해할 수 있을 것이다. 프로그램은 비휘발성 컴퓨터 판독 가능형 저장 매체에 저장될 수 있다. 프로그램이 실행될 때, 방법의 실시예에서의 프로세스가 수행될 수 있다. 본 출원의 실시예에서의 메모리, 스토리지, 데이터베이스 또는 그 외 매체에 대한 어떠한 인용도 비휘발성 메모리 및/또는 휘발성 메모리를 포함할 수 있다. 비휘발성 메모리는 리드-온리 메모리(read-only memory, ROM), 프로그래머블 ROM(PROM), 전기적 프로그래머블 ROM(EPROM), 전기적으로 소거 가능한 프로그래머블 ROM(EEPROM), 또는 플래시를 포함할 수 있다. 휘발성 메모리는 랜덤 액세스 메모리(random access memory, RAM) 또는 외부 캐시 메모리를 포함할 수 있다. 제한하려는 것이 아닌 설명의 목적상, RAM은 다양한 형태로 획득될 수 있는데, 예를 들어, 정적 RAM(SRAM), 동적 RAM(DRAM), 동기 DRAM(SDRAM), 이중 데이터 레이트 SDRAM(DDRSDRAM), 강화된 SDRAM(ESDRAM), 동기 링크(Synchlink) DRAM(SLDRAM), 램버스(Rambus) 다이렉트 RAM(RDRAM), 다이렉트 램버스 동적 RAM(DRDRAM), 및 램버스 동적 RAM(RDRAM)로 획득될 수 있다.

전술한 실시예의 기술적 특징은 무작위로 결합될 수 있다. 설명을 간결하게 하기 위해, 전술한 실시예의 기술적 특징의 모든 가능한 결합을 설명하지 않고, 기술적 특징의 조합이 서로 충돌하지 않는 한, 기술적 특징의 조합은 본 명세서의 범위 내에 있는 것으로 간주되어야 한다.

전술한 실시예는 본 출원의 몇몇 실시일 뿐이고 상세히 설명되었으나, 본 개시의 특허 범위를 제한하는 것으로 이해되어서는 안 된다. 당업자는 본 출원의 개념을 벗어남이 없이 추가의 변형 및 개선을 할 수도 있으며, 변형 또는 개선은 모두 본 출원의 보호 범위 내에 있다는 것에 유의해야 한다. 그러므로 본 출원의 특허 범위는 첨부된 특허청구범위 내에 있어야 한다.

Claims

음성 변환 방법으로서,
컴퓨터 장치가 목표 텍스트(target text)를 획득하는 단계;
상기 컴퓨터 장치가 상기 목표 텍스트에 대응하는 제1 기계 음성을 합성하는 단계 - 상기 제1 기계 음성을 합성하는 단계는, 자동 음성 합성 시스템을 통해 상기 목표 텍스트에 대해 소리 합성을 수행하는 단계, 및 상기 자동 음성 합성 시스템의 텍스트 대 음성(text-to-speech) 운율 특징(prosodic feature)에 기초해서 상기 목표 텍스트를 음성 파형으로 변환하여 상기 제1 기계 음성의 운율 특징을 가진 상기 제1 기계 음성을 획득하는 단계를 포함하고, 운율 특징은 소리의 기본 톤(basic tone)과 리듬임 - ;
상기 컴퓨터 장치가 비동기 기계 음성 라이브러리로부터, 운율 특징이 상기 제1 기계 음성의 운율 특징과 일치하는 비동기 기계 음성 유닛 시퀀스를 선택하는 단계 - 상기 비동기 기계 음성 라이브러리는 상기 자동 음성 합성 시스템을 통해 합성된 복수의 비동기 기계 음성 유닛 시퀀스를 포함하고, 상기 복수의 비동기 기계 음성 유닛 시퀀스의 운율 특징은 대상 화자(target speaker)의 운율 특징에 부합하지 않으나, 상기 복수의 비동기 기계 음성 유닛 시퀀스의 텍스트 내용은 상기 대상 화자의 음성 유닛 시퀀스의 텍스트 내용에 부합함 - ;
상기 컴퓨터 장치가 비동기 기계 음성 유닛 시퀀스에 대응하는 동기 기계 음성 유닛 시퀀스를 찾아 동기 기계 음성 라이브러리를 검색하는 단계 - 상기 동기 기계 음성 라이브러리는 상기 자동 음성 합성 시스템을 통해 합성된 복수의 동기 기계 음성 유닛 시퀀스를 포함하고, 상기 복수의 동기 기계 음성 유닛 시퀀스의 운율 특징은 대상 화자의 운율 특징에 부합하고, 상기 복수의 동기 기계 음성 유닛 시퀀스의 텍스트 내용은 상기 대상 화자의 음성 유닛 시퀀스의 텍스트 내용에 부합함 - ;
상기 컴퓨터 장치가, 동기 기계 음성 유닛 시퀀스의 운율 특징에 기초하여 상기 목표 텍스트에 대응하는 제2 기계 음성을 합성하는 단계;
상기 컴퓨터 장치가 상기 동기 기계 음성 라이브러리로부터 상기 제2 기계 음성의 음향 특성(acoustic feature)에 부합하는 복수의 동기 기계 음성 유닛을 선택하는 단계 - 음향 특성은 소리 파형의 특성임 - ; 및
상기 컴퓨터 장치가, 상기 대상 화자의 음성 유닛 시퀀스를 포함하는 화자 음성 라이브러리 내의 복수의 동기 기계 음성 유닛에 대응하는 복수의 화자 음성 유닛을 스플라이싱하여 대상 화자 음성(target speaker speech)을 획득하는 단계를 포함하는,
음성 변환 방법.
제1항에 있어서,
상기 컴퓨터 장치가 비동기 기계 음성 라이브러리로부터, 운율 특징이 상기 제1 기계 음성의 운율 특징과 일치하는 비동기 기계 음성 유닛 시퀀스를 선택하는 단계는,
상기 컴퓨터 장치가 상기 제1 기계 음성에 기초해서 상기 비동기 기계 음성 라이브러리로부터 후보 비동기 기계 음성 유닛 시퀀스를 획득하는 단계;
상기 컴퓨터 장치가 후보 비동기 기계 음성 유닛 시퀀스와 상기 제1 기계 음성 간의 운율 특징 차이를 결정하는 단계; 및
상기 컴퓨터 장치가 최소 음율 특징 차이에 대응하는 후보 비동기 기계 음성 유닛 시퀀스를, 운율 특징이 상기 제1 기계 음성의 운율 특징에 부합하는 비동기 기계 음성 유닛 시퀀스로 사용하는 단계
를 포함하는, 음성 변환 방법.
제2항에 있어서,
상기 컴퓨터 장치가 상기 제1 기계 음성에 기초해서 상기 비동기 기계 음성 라이브러리로부터 후보 비동기 기계 음성 유닛 시퀀스를 획득하는 단계는,
상기 컴퓨터 장치가 상기 제1 기계 음성에 포함된 기계 음성 유닛의 수량을 결정하는 단계; 및
상기 컴퓨터 장치가 결정된 수량과 동일한 수량의 비동기 기계 음성 유닛을 포함하는 후보 비동기 기계 음성 유닛 시퀀스를 상기 비동기 기계 음성 라이브러리로부터 획득하는 단계
를 포함하는, 음성 변환 방법.
제3항에 있어서,
상기 컴퓨터 장치가 상기 결정된 수량과 동일한 수량의 비동기 기계 음성 유닛을 포함하는 후보 비동기 기계 음성 유닛 시퀀스를 상기 비동기 기계 음성 라이브러리로부터 획득하는 단계는,
상기 컴퓨터 장치가 상기 비동기 기계 음성 라이브러리에 포함된 비동기 기계 음성 유닛 시퀀스를 검색하는 단계(searching);
검색되는 비동기 기계 음성 유닛 시퀀스에 포함된 비동기 기계 음성 유닛의 수량이 상기 결정된 수량보다 작을 때, 상기 컴퓨터 장치가 계속 검색하는 단계;
검색되는 비동기 기계 음성 유닛 시퀀스에 포함된 비동기 기계 음성 유닛의 수량이 상기 결정된 수량과 같을 때, 상기 컴퓨터 장치가 검색되는 비동기 기계 음성 유닛 시퀀스를 상기 후보 비동기 기계 음성 유닛 시퀀스로 사용하는 단계; 및
검색되는 비동기 기계 음성 유닛 시퀀스에 포함된 비동기 기계 음성 유닛의 수량이 상기 결정된 수량보다 클 때, 상기 컴퓨터 장치가 포함된 비동기 기계 음성 유닛의 시퀀스 및 상기 결정된 수량에 기초하여 검색되는 비동기 기계 음성 유닛 시퀀스를 분할하여 상기 후보 비동기 기계 음성 유닛 시퀀스를 획득하는 단계
를 포함하는, 음성 변환 방법.
제2항에 있어서,
상기 컴퓨터 장치가 후보 비동기 기계 음성 유닛 시퀀스와 상기 제1 기계 음성 간의 운율 특징 차이를 결정하는 단계는,
상기 컴퓨터 장치가 상기 제1 기계 음성을 분할하여 기계 음성 유닛을 획득하는 단계; 및
상기 컴퓨터 장치가 상기 후보 비동기 기계 음성 유닛 시퀀스에 포함된 각각의 비동기 기계 음성 유닛과 분할에 의해 획득된 각각의 대응하는 기계 음성 유닛 간의 운율 파라미터 차이에 기초하여 상기 후보 비동기 기계 음성 유닛 시퀀스와 상기 제1 기계 음성 간의 운율 특징 차이를 생성하는 단계
를 포함하며,
운율 파라미터 차이는 지속시간 차이, 기본 주파수 변화율 차이, 음향 파라미터의 지속시간 분포 차이 및 기본 주파수 변화율의 확률 분포 차이 중 적어도 하나를 포함하는, 음성 변환 방법.
제1항에 있어서,
상기 컴퓨터 장치가 상기 동기 기계 음성 라이브러리로부터 상기 제2 기계 음성의 음향 특성에 부합하는 복수의 동기 기계 음성 유닛을 선택하는 단계는,
상기 컴퓨터 장치가 상기 제2 기계 음성을 분할하여 기계 음성 유닛을 획득하는 단계;
상기 컴퓨터 장치가 분할에 의해 획득된 기계 음성 유닛의 발음 특성을 결정하는 단계;
상기 컴퓨터 장치가 발음 특성이 분할에 의해 획득된 기계 음성 유닛의 발음 특성에 부합하는 동기 기계 음성 유닛 부분집합을 상기 동기 기계 음성 라이브러리로부터 선택하는 단계;
상기 컴퓨터 장치가 각각의 동기 기계 음성 유닛 부분집합 내의 각각의 동기 기계 음성 유닛과 분할에 의해 획득된 대응하는 기계 음성 유닛 간의 음향 특성 차이를 결정하는 단계; 및
상기 컴퓨터 장치가 최소 음향 특성 차이에 대응하는 복수의 동기 기계 음성 유닛을, 음향 특성이 제2 기계 음성의 음향 특성에 부합하는 복수의 동기 기계 음성 유닛으로 선택하는 단계
를 포함하는, 음성 변환 방법.
제6항에 있어서,
상기 컴퓨터 장치가 각각의 동기 기계 음성 유닛 부분집합 내의 각각의 동기 기계 음성 유닛과 분할에 의해 획득된 대응하는 기계 음성 유닛 간의 음향 특성 차이를 결정하는 단계는,
상기 컴퓨터 장치가 각각의 동기 기계 음성 유닛 부분집합 내의 각각의 동기 기계 음성 유닛의 음향 파라미터를 결정하는 단계;
상기 컴퓨터 장치가 분할에 의해 획득된 기계 음성 유닛의 음향 파라미터를 결정하는 단계;
상기 컴퓨터 장치가 각각의 동기 기계 음성 유닛과 분할에 의해 획득된 대응하는 기계 음성 유닛 간의 대응하는 음향 파라미터 차이를 계산하는 단계; 및
상기 컴퓨터 장치가 대응하는 음향 파라미터 차이에 기초하여 대응하는 음향 파라미터 차이와 양의 상관관계(positive correlation)에 있는 음향 특성 차이를 생성하는 단계
를 포함하는, 음성 변환 방법.
제1항에 있어서,
상기 컴퓨터 장치가, 화자 음성 라이브러리 내의 복수의 동기 기계 음성 유닛에 대응하는 복수의 화자 음성 유닛을 스플라이싱하여 대상 화자 음성을 획득하는 단계는,
상기 컴퓨터 장치가 대응하는 목표 텍스트 내의 발음 시퀀스에 기초하여 선택된 동기 기계 음성 유닛을 분류하는 단계;
상기 컴퓨터 장치가 분류된 동기 기계 음성 유닛의 인접 동기 기계 음성 유닛의 스플라이싱 위치를 결정하는 단계;
상기 컴퓨터 장치가 동기 기계 음성 유닛에 대응하는 화자 음성 유닛을 찾아 상기 화자 음성 라이브러리를 검색하는 단계; 및
상기 컴퓨터 장치가 인접 동기 기계 음성 유닛의 결정된 스플라이싱 위치에 기초하여 대응하는 화자 음성 유닛을 스플라이싱하여 상기 대상 화자 음성을 획득하는 단계
를 포함하는, 음성 변환 방법.
제8항에 있어서,
상기 컴퓨터 장치가 분류된 동기 기계 음성 유닛의 인접 동기 기계 음성 유닛의 스플라이싱 위치를 결정하는 단계는,
상기 컴퓨터 장치가 선택된 동기 기계 음성 유닛을 분할함으로써 획득된 음성 프레임을 획득하는 단계;
상기 컴퓨터 장치가 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임의 수량을 결정하는 단계 - 중첩된 스플라이싱 음성 프레임의 수량에 대응하는 인접 동기 기계 음성 유닛의 음성 프레임은 최소 차이를 가짐 - ; 및
상기 컴퓨터 장치가 중첩된 스플라이싱 음성 프레임의 수량에 기초하여 분류된 동기 기계 음성 유닛의 인접 동기 기계 음성 유닛의 스플라이싱 위치를 결정하는 단계
를 포함하는, 음성 변환 방법.
제9항에 있어서,
상기 컴퓨터 장치가 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임의 수량을 결정하는 단계는,

를 포함하고, 여기서 T는 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임의 수량을 나타내고, t는 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임 중 t번째 프레임을 나타내고,
는 인접 동기 기계 음성 유닛의 중첩된 스플라이싱 음성 프레임 중 t번째 프레임의 음성 프레임 차이를 나타내며,
는
가 최소가 되도록 T를 푸는 것을 나타내는, 음성 변환 방법.
제1항에 있어서,
상기 컴퓨터 장치가 내력(history) 화자 음성을 수집하는 단계;
상기 컴퓨터 장치가 내력 화자 음성에 대응하는 텍스트 내용을 인식하는 단계;
상기 컴퓨터 장치가 인식된 텍스트 내용에 기초하여 비동기 기계 음성 유닛 시퀀스를 생성하는 단계;
상기 컴퓨터 장치가 생성된 비동기 기계 음성 유닛 시퀀스에 기초하여 비동기 기계 음성 라이브러리를 구축하는 단계;
상기 컴퓨터 장치가 수집된 내력 화자 음성의 운율 특징을 획득하는 단계;
상기 컴퓨터 장치가 인식된 텍스트 콘텐츠 및 획득된 운율 특징에 기초하여 동기 기계 음성 유닛 시퀀스를 생성하는 단계; 및
상기 컴퓨터 장치가 생성된 동기 기계 음성 유닛 시퀀스에 기초하여 동기 기계 음성 라이브러리를 구축하는 단계
를 더 포함하는 음성 변환 방법.
컴퓨터 장치로서,
메모리 및 프로세서를 포함하며, 상기 메모리는 컴퓨터 판독 가능형 명령을 저장하며,
컴퓨터 판독 가능형 명령이 프로세서에 의해 실행될 때, 컴퓨터 판독 가능형 명령은 프로세서로 하여금 제1항 내지 제11항 중 어느 한 항에서의 방법을 수행하게 하는, 컴퓨터 장치.
컴퓨터 판독 가능형 명령을 저장하는 하나 이상의 비휘발성 저장 매체로서,
컴퓨터 판독 가능형 명령이 하나 이상의 프로세서에 의해 실행될 때, 컴퓨터 판독 가능형 명령이 하나 이상의 프로세서로 하여금 제1항 내지 제11항 중 어느 한 항에서의 방법을 수행하게 하는, 하나 이상의 비휘발성 저장 매체.
삭제
삭제
삭제
삭제
삭제
삭제
삭제