KR102584299B1

KR102584299B1 - 음성 합성 방법 및 장치, 저장 매체

Info

Publication number: KR102584299B1
Application number: KR1020227010595A
Authority: KR
Inventors: 지젱 우; 웨이 송
Original assignee: 베이징 징동 샹케 인포메이션 테크놀로지 씨오. 엘티디.; 베이징 징동 센츄리 트레이딩 씨오., 엘티디.
Priority date: 2019-09-17
Filing date: 2020-03-18
Publication date: 2023-09-27
Also published as: JP2022539914A; WO2021051765A1; CN111816158B; JP7238204B2; CN111816158A; US20220270587A1; KR20220054655A

Abstract

본 발명의 실시예는 음성 합성 방법 및 장치, 저장 매체를 개시하고, 상기 음성 합성 방법은, 합성할 어구의 심볼 시퀀스를 획득하는 단계 - 합성할 어구는 타깃 객체를 특성화하는 녹음 어구 및 타깃 객체에 대한 쿼리 결과 어구를 포함함 - ; 사전 설정 인코딩 모델을 이용하여, 심볼 시퀀스에 대해 인코딩 처리를 수행하여, 특징 벡터 세트를 획득하는 단계; 녹음 어구에 대응되는 녹음 음향 특징을 획득하는 단계; 사전 설정 디코딩 모델, 특징 벡터 세트, 사전 설정 주의력 모델 및 녹음 음향 특징에 기반하여, 합성할 어구에 대응되는 음향 특징을 예측하여, 합성할 어구에 대응되는 예측 음향 특징을 획득하는 단계 - 사전 설정 주의력 모델은 특징 벡터 세트를 이용하여 디코딩을 위한 컨텍스트 벡터를 생성하는 모델이고, 예측 음향 특징은 서로 연관되는 적어도 하나의 음향 특징으로 구성됨 - ; 및 예측 음향 특징에 대해 특징 전환 및 합성을 수행하여, 합성할 어구에 대응되는 음성을 획득하는 단계를 포함한다.

Description

음성 합성 방법 및 장치, 저장 매체

관련 출원의 상호 참조

본 발명은 출원번호가 201910878228.3이고, 출원일이 2019년 09월 17일인 중국 특허 출원을 기반으로 제출되고, 해당 중국 특허 출원의 우선권을 주장하는 바, 해당 중국 특허 출원의 모든 내용은 참조로서 본 발명에 인용된다.

본 발명의 실시예는 전자 응용 분야의 음성 처리 기술에 관한 것으로, 특히 음성 합성 방법 및 장치, 저장 매체에 관한 것이다.

현재, 음성 합성 기술은 스마트 스피커, 전화 발신 시스템 및 번호 호출 시스템과 같은 많은 스마트 기기에 응용되고 있으며, 스마트 기기는 사용자가 발송한 타깃 객체에 대한 쿼리 요청을 수신한 후, 쿼리 요청에 따라 타깃 객체 및 쿼리 결과를 나타내는 합성할 어구를 생성하고, 합성할 어구를 완전한 음성으로 변환하고 재생하여, 타깃 객체에 관한 쿼리 결과를 사용자에게 알린다. 합성할 어구를 완전한 음성으로 변환할 경우, 합성할 어구 중의 고정된 타깃 객체에 대해, 타깃 객체의 녹음을 미리 녹음하고, 합성할 어구 중의 동적으로 업데이트되는 쿼리 결과에 대해, 음성 합성 방식으로 쿼리 결과에 대응되는 합성 음성을 합성한 후, 녹음 및 합성 음성을 접합하여, 합성할 어구의 완전한 음성을 획득한다.

그러나, 녹음을 생성하는 과정과 합성 음성을 생성하는 과정은 독립적이기 때문에, 녹음 및 합성 음성의 음성 속도 및 음높이 등이 상이하여, 녹음 및 합성 음성으로 조합된 완전한 음성의 운율이 일치하지 않게 되어, 녹음 및 합성 음성 사이의 과도 시간 길이도 불확실하게 되며, 음성 품질이 좋지 않다.

본 발명의 주요한 목적은 합성된 음성의 운율 일치를 구현하고, 합성된 음성의 품질을 향상시키는 음성 합성 방법 및 장치, 저장 매체를 제공하는 것이다.

본 발명의 기술적 해결수단은 하기와 같이 구현된다.

본 발명의 실시예는 음성 합성 방법을 제공하고, 상기 음성 합성 방법은,

합성할 어구의 심볼 시퀀스를 획득하는 단계 - 상기 합성할 어구는 타깃 객체를 특성화하는 녹음 어구 및 상기 타깃 객체에 대한 쿼리 결과 어구를 포함함 - ;

사전 설정 인코딩 모델을 이용하여, 상기 심볼 시퀀스에 대해 인코딩 처리를 수행하여, 특징 벡터 세트를 획득하는 단계;

상기 녹음 어구에 대응되는 녹음 음향 특징을 획득하는 단계;

사전 설정 디코딩 모델, 상기 특징 벡터 세트, 사전 설정 주의력 모델 및 상기 녹음 음향 특징에 기반하여, 상기 합성할 어구에 대응되는 음향 특징을 예측하여, 상기 합성할 어구에 대응되는 예측 음향 특징을 획득하는 단계 - 상기 사전 설정 주의력 모델은 상기 특징 벡터 세트를 이용하여 디코딩을 위한 컨텍스트 벡터를 생성하는 모델이고, 상기 예측 음향 특징은 서로 연관되는 적어도 하나의 음향 특징으로 구성됨 - ; 및

상기 예측 음향 특징에 대해 특징 전환 및 합성을 수행하여, 상기 합성할 어구에 대응되는 음성을 획득하는 단계를 포함한다.

상기 수단에서, 상기 사전 설정 디코딩 모델, 상기 특징 벡터 세트, 사전 설정 주의력 모델 및 상기 녹음 음향 특징에 기반하여, 상기 합성할 어구에 대응되는 음향 특징을 예측하여, 상기 합성할 어구에 대응되는 예측 음향 특징을 획득하는 단계는,

i가 1과 같을 때, i번째 디코딩 시각에 초기 음향 특징을 획득하고, 상기 초기 음향 특징, 상기 사전 설정 디코딩 모델, 상기 특징 벡터 세트 및 상기 사전 설정 주의력 모델에 기반하여, 첫 번째 음향 특징을 예측하는 단계 - i는 0보다 큰 정수임 - ;

i가 1보다 클 경우, 상기 i번째 디코딩 시각이 상기 녹음 어구의 디코딩 시각일 때, 상기 녹음 음향 특징에서 제j 프레임의 음향 특징을 추출하고, 상기 제j 프레임의 음향 특징을 제i-1 프레임의 음향 특징으로 사용하며, 상기 제i-1 프레임의 음향 특징, 상기 사전 설정 디코딩 모델, 상기 특징 벡터 세트 및 상기 사전 설정 주의력 모델에 기반하여, i번째 음향 특징을 예측하는 단계 - j는 0보다 큰 정수임 - ;

상기 i번째 디코딩 시각이 상기 쿼리 결과 어구의 디코딩 시각일 때, i-1번째 음향 특징 중의 한 프레임의 음향 특징을 제i-1 프레임의 음향 특징으로 사용하고, 상기 제i-1 프레임의 음향 특징, 상기 사전 설정 디코딩 모델, 상기 특징 벡터 세트 및 상기 사전 설정 주의력 모델에 기반하여, i번째 음향 특징을 예측하는 단계;

상기 합성할 어구의 디코딩이 종료될 때까지 i+1번째 디코딩 시각의 예측 과정을 계속 수행하여, n번째 음향 특징을 획득하는 단계 - n은 상기 합성할 어구의 디코딩 시각의 총 프레임 수이며 1보다 큰 정수임 - ; 및

획득된 상기 i번째 음향 특징 내지 상기 n번째 음향 특징을 상기 예측 음향 특징으로 사용하는 단계를 포함한다.

상기 수단에서, 상기 사전 설정 디코딩 모델은 제1 순환 신경망 및 제2 순환 신경망을 포함하고; 상기 제i-1 프레임의 음향 특징, 상기 사전 설정 디코딩 모델, 상기 특징 벡터 세트 및 상기 사전 설정 주의력 모델에 기반하여, i번째 음향 특징을 예측하는 단계는,

상기 제i-1 프레임의 음향 특징에 대해 비선형 변화를 수행하여, 중간 특징 벡터를 획득하는 단계;

상기 제1 순환 신경망을 이용하여, 상기 중간 특징 벡터에 대해 행렬 연산 및 비선형 변환을 수행하여, i번째 중간 잠재변수를 획득하는 단계;

상기 사전 설정 주의력 모델을 이용하여, 상기 특징 벡터 세트 및 상기 i번째 중간 잠재변수에 대해 컨텍스트 벡터 산출을 수행하여, i번째 컨텍스트 벡터를 획득하는 단계;

상기 제2 순환 신경망을 이용하여, 상기 i번째 컨텍스트 벡터 및 상기 i번째 중간 잠재변수에 대해 행렬 연산 및 비선형 변환을 수행하여, i번째 잠재변수를 획득하는 단계; 및

사전 설정 프레임 수에 따라, 상기 i번째 잠재변수에 대해 선형 변환을 수행하여, 상기 i번째 음향 특징을 획득하는 단계를 포함한다.

상기 수단에서, 상기 특징 벡터 세트는 상기 심볼 시퀀스 중 각각의 심볼에 대응되는 특징 벡터를 포함하고; 상기 사전 설정 주의력 모델을 이용하여, 상기 특징 벡터 세트 및 상기 i번째 중간 잠재변수에 대해 컨텍스트 벡터 산출을 수행하여, i번째 컨텍스트 벡터를 획득하는 단계는,

상기 사전 설정 주의력 모델을 이용하여, 상기 심볼 시퀀스 중 각각의 심볼에 대응되는 특징 벡터 및 상기 i번째 중간 잠재변수에 대해 주의력 산출을 수행하여, 제i 그룹의 주의력 수치를 획득하는 단계; 및

상기 제i 그룹의 주의력 수치에 따라, 상기 특징 벡터 세트에 대해 가중 합산을 수행하여, 상기 i번째 컨텍스트 벡터를 획득하는 단계를 포함한다.

상기 수단에서, 상기 제i-1 프레임의 음향 특징, 상기 사전 설정 디코딩 모델, 상기 특징 벡터 세트 및 상기 사전 설정 주의력 모델에 기반하여, i번째 음향 특징을 예측하는 단계 후, 상기 i+1번째 디코딩 시각의 예측 과정을 계속 수행하는 단계 전에,

상기 음성 합성 방법은, 상기 제i 그룹의 주의력 수치에서 최대 주의력 수치에 대응되는 i번째 타깃 심볼을 결정하는 단계; 및

상기 i번째 타깃 심볼이 상기 녹음 어구의 비종료 심볼일 때, 상기 i+1번째 디코딩 시각이 상기 녹음 어구의 디코딩 시각임을 결정하는 단계;

상기 i번째 타깃 심볼이 상기 쿼리 결과 어구의 비종료 심볼일 때, 상기 i+1번째 디코딩 시각이 상기 쿼리 결과 어구의 디코딩 시각임을 결정하는 단계;

상기 i번째 타깃 심볼이 상기 녹음 어구의 종료 심볼이고 상기 녹음 어구의 종료 심볼이 상기 합성할 어구의 종료 심볼이 아닐 때, 상기 i+1번째 디코딩 시각이 상기 쿼리 결과 어구의 디코딩 시각임을 결정하는 단계;

상기 i번째 타깃 심볼이 상기 쿼리 결과 어구의 종료 심볼이고 상기 쿼리 결과 어구의 종료 심볼이 상기 합성할 어구의 종료 심볼이 아닐 때, 상기 i+1번째 디코딩 시각이 상기 녹음 어구의 디코딩 시각임을 결정하는 단계; 및

상기 i번째 타깃 심볼이 상기 합성할 어구의 종료 심볼일 때, 상기 i+1번째 디코딩 시각이 상기 합성할 어구의 디코딩 종료 시각임을 결정하는 단계; 중 적어도 하나의 단계를 더 포함한다.

상기 수단에서, 상기 사전 설정 인코딩 모델을 이용하여, 상기 심볼 시퀀스에 대해 인코딩 처리를 수행하여, 특징 벡터 세트를 획득하는 단계는,

상기 사전 설정 인코딩 모델을 이용하여, 상기 심볼 시퀀스에 대해 벡터 전환을 수행하여, 초기 특징 벡터 세트를 획득하는 단계; 및

상기 초기 특징 벡터 세트에 대해 비선형 변화 및 특징 추출을 수행하여, 상기 특징 벡터 세트를 획득하는 단계를 포함한다.

상기 수단에서, 상기 예측 음향 특징에 대해 특징 전환 및 합성을 수행하여, 상기 합성할 어구에 대응되는 음성을 획득하는 단계는,

상기 예측 음향 특징에 대해 특징 전환을 수행하여, 선형 스펙트럼을 획득하는 단계; 및

상기 선형 스펙트럼에 대해 재구성 합성을 수행하여, 상기 음성을 획득하는 단계를 포함한다.

상기 수단에서, 상기 심볼 시퀀스는 자모 시퀀스 또는 음소 시퀀스이다.

상기 수단에서, 상기 합성할 어구의 심볼 시퀀스를 획득하는 단계 전에, 상기 음성 합성 방법은,

적어도 하나의 샘플 합성 어구 각각에 대응되는 샘플 심볼 시퀀스를 획득하는 단계 - 상기 각각의 샘플 합성 어구는 샘플 객체 및 상기 샘플 객체에 대한 참고 쿼리 결과를 특성화함 - ;

초기 음성 합성 모델, 초기 음향 특징 및 상기 샘플 합성 어구에 대응되는 샘플 음향 특징을 획득하는 단계 - 상기 초기 음성 합성 모델은 인코딩 처리 및 예측을 위한 모델임 - ; 및

상기 샘플 심볼 시퀀스, 상기 초기 음향 특징 및 상기 샘플 음향 특징을 이용하여, 상기 초기 음성 합성 모델을 트레이닝하여, 상기 사전 설정 인코딩 모델, 상기 사전 설정 디코딩 모델 및 상기 사전 설정 주의력 모델을 획득하는 단계를 더 포함한다.

본 발명의 실시예는 음성 합성 장치를 제공하며, 상기 음성 합성 장치는 시퀀스 생성 모듈, 음성 합성 모듈 및 획득 모듈을 포함하고;

상기 시퀀스 생성 모듈은 합성할 어구의 심볼 시퀀스를 획득하도록 구성되며, 상기 합성할 어구는 타깃 객체를 특성화하는 녹음 어구 및 상기 타깃 객체에 대한 쿼리 결과 어구를 포함하고;

상기 음성 합성 모듈은 사전 설정 인코딩 모델을 이용하여, 상기 심볼 시퀀스에 대해 인코딩 처리를 수행하여, 특징 벡터 세트를 획득하도록 구성되며;

상기 획득 모듈은 상기 녹음 어구에 대응되는 녹음 음향 특징을 획득하도록 구성되고;

상기 음성 합성 모듈은 또한, 사전 설정 디코딩 모델, 상기 특징 벡터 세트, 사전 설정 주의력 모델 및 상기 녹음 음향 특징에 기반하여, 상기 합성할 어구에 대응되는 음향 특징을 예측하여, 상기 합성할 어구에 대응되는 예측 음향 특징을 획득하며, 상기 사전 설정 주의력 모델은 상기 특징 벡터 세트를 이용하여 디코딩을 위한 컨텍스트 벡터를 생성하는 모델이고, 상기 예측 음향 특징은 서로 연관되는 적어도 하나의 음향 특징으로 구성되며; 상기 예측 음향 특징에 대해 특징 전환 및 합성을 수행하여, 상기 합성할 어구에 대응되는 음성을 획득하도록 구성된다.

상기 수단에서, 상기 음성 합성 모듈은, i가 1과 같을 때, i번째 디코딩 시각에 초기 음향 특징을 획득하고, 상기 초기 음향 특징, 상기 사전 설정 디코딩 모델, 상기 특징 벡터 세트 및 상기 사전 설정 주의력 모델에 기반하여, 첫 번째 음향 특징을 예측하며, i는 0보다 큰 정수이고;

i가 1보다 클 경우, 상기 i번째 디코딩 시각이 상기 녹음 어구의 디코딩 시각일 때, 상기 녹음 음향 특징에서 제j 프레임의 음향 특징을 추출하고, 상기 제j 프레임의 음향 특징을 제i-1 프레임의 음향 특징으로 사용하며, 상기 제i-1 프레임의 음향 특징, 상기 사전 설정 디코딩 모델, 상기 특징 벡터 세트 및 상기 사전 설정 주의력 모델에 기반하여, i번째 음향 특징을 예측하고, j는 0보다 큰 정수이며;

상기 i번째 디코딩 시각이 상기 쿼리 결과 어구의 디코딩 시각일 때, i-1번째 음향 특징 중의 한 프레임의 음향 특징을 제i-1 프레임의 음향 특징으로 사용하고, 상기 제i-1 프레임의 음향 특징, 상기 사전 설정 디코딩 모델, 상기 특징 벡터 세트 및 상기 사전 설정 주의력 모델에 기반하여, i번째 음향 특징을 예측하며;

상기 합성할 어구의 디코딩이 종료될 때까지 i+1번째 디코딩 시각의 예측 과정을 계속 수행하여, n번째 음향 특징을 획득하고, n은 상기 합성할 어구의 디코딩 시각의 총 프레임 수이며 1보다 큰 정수이고;

획득된 상기 i번째 음향 특징 내지 상기 n번째 음향 특징을 상기 예측 음향 특징으로 사용하도록 구성된다.

상기 수단에서, 상기 사전 설정 디코딩 모델은 제1 순환 신경망 및 제2 순환 신경망을 포함하고;

상기 음성 합성 모듈은, 상기 제i-1 프레임의 음향 특징에 대해 비선형 변화를 수행하여, 중간 특징 벡터를 획득하고; 상기 제1 순환 신경망을 이용하여, 상기 중간 특징 벡터에 대해 행렬 연산 및 비선형 변환을 수행하여, i번째 중간 잠재변수를 획득하며; 상기 사전 설정 주의력 모델을 이용하여, 상기 특징 벡터 세트 및 상기 i번째 중간 잠재변수에 대해 컨텍스트 벡터 산출을 수행하여, i번째 컨텍스트 벡터를 획득하고; 상기 제2 순환 신경망을 이용하여, 상기 i번째 컨텍스트 벡터 및 상기 i번째 중간 잠재변수에 대해 행렬 연산 및 비선형 변환을 수행하여, i번째 잠재변수를 획득하며; 사전 설정 프레임 수에 따라, 상기 i번째 잠재변수에 대해 선형 변환을 수행하여, 상기 i번째 음향 특징을 획득하도록 구성된다.

상기 수단에서, 상기 특징 벡터 세트는 상기 심볼 시퀀스 중 각각의 심볼에 대응되는 특징 벡터를 포함하고;

상기 음성 합성 모듈은, 상기 사전 설정 주의력 모델을 이용하여, 상기 심볼 시퀀스 중 각각의 심볼에 대응되는 특징 벡터 및 상기 i번째 중간 잠재변수에 대해 주의력 산출을 수행하여, 제i 그룹의 주의력 수치를 획득하고; 상기 제i 그룹의 주의력 수치에 따라, 상기 특징 벡터 세트에 대해 가중 합산을 수행하여, 상기 i번째 컨텍스트 벡터를 획득하도록 구성된다.

상기 수단에서, 상기 음성 합성 모듈은 또한, 상기 제i-1 프레임의 음향 특징, 상기 사전 설정 디코딩 모델, 상기 특징 벡터 세트 및 상기 사전 설정 주의력 모델에 기반하여, i번째 음향 특징을 예측한 후, 상기 i+1번째 디코딩 시각의 예측 과정을 계속 수행하기 전에, 상기 제i 그룹의 주의력 수치에서 최대 주의력 수치에 대응되는 i번째 타깃 심볼을 결정하고;

상기 i번째 타깃 심볼이 상기 녹음 어구의 비종료 심볼일 때, 상기 i+1번째 디코딩 시각이 상기 녹음 어구의 디코딩 시각임을 결정하는 것;

상기 i번째 타깃 심볼이 상기 쿼리 결과 어구의 비종료 심볼일 때, 상기 i+1번째 디코딩 시각이 상기 쿼리 결과 어구의 디코딩 시각임을 결정하는 것;

상기 i번째 타깃 심볼이 상기 녹음 어구의 종료 심볼이고 상기 녹음 어구의 종료 심볼이 상기 합성할 어구의 종료 심볼이 아닐 때, 상기 i+1번째 디코딩 시각이 상기 쿼리 결과 어구의 디코딩 시각임을 결정하는 것;

상기 i번째 타깃 심볼이 상기 쿼리 결과 어구의 종료 심볼이고 상기 쿼리 결과 어구의 종료 심볼이 상기 합성할 어구의 종료 심볼이 아닐 때, 상기 i+1번째 디코딩 시각이 상기 녹음 어구의 디코딩 시각임을 결정하는 것; 및

상기 i번째 타깃 심볼이 상기 합성할 어구의 종료 심볼일 때, 상기 i+1번째 디코딩 시각이 상기 합성할 어구의 디코딩 종료 시각임을 결정하는 것; 중 적어도 하나를 결정하도록 구성된다.

상기 수단에서, 상기 음성 합성 모듈은, 상기 심볼 시퀀스에 대해 벡터 전환을 수행하여, 초기 특징 벡터 세트를 획득하고; 상기 초기 특징 벡터 세트에 대해 비선형 변화 및 특징 추출을 수행하여, 상기 특징 벡터 세트를 획득하도록 구성된다.

상기 수단에서, 상기 음성 합성 모듈은, 상기 예측 음향 특징에 대해 특징 전환을 수행하여, 선형 스펙트럼을 획득하고; 상기 선형 스펙트럼에 대해 재구성 합성을 수행하여, 상기 음성을 획득하도록 구성된다.

상기 수단에서, 상기 음성 합성 장치는 트레이닝 모듈을 더 포함하고;

상기 트레이닝 모듈은, 상기 합성할 어구의 심볼 시퀀스를 획득하기 전에, 적어도 하나의 샘플 합성 어구 각각에 대응되는 샘플 심볼 시퀀스를 획득하고, 상기 각각의 샘플 합성 어구는 샘플 객체 및 상기 샘플 객체에 대한 참고 쿼리 결과를 특성화하며; 초기 음성 합성 모델, 초기 음향 특징 및 상기 샘플 합성 어구에 대응되는 샘플 음향 특징을 획득하고, 상기 초기 음성 합성 모델은 인코딩 처리 및 예측을 위한 모델이며; 상기 샘플 심볼 시퀀스, 상기 초기 음향 특징 및 상기 샘플 음향 특징을 이용하여, 상기 초기 음성 합성 모델을 트레이닝하여, 상기 사전 설정 인코딩 모델, 상기 사전 설정 디코딩 모델 및 상기 사전 설정 주의력 모델을 획득하도록 구성된다.

본 발명의 실시예는 음성 합성 장치를 제공하며, 상기 음성 합성 장치는 프로세서, 메모리 및 통신 버스를 포함하고, 상기 메모리는 상기 통신 버스를 통해 상기 프로세서와 통신하며, 상기 메모리는 상기 프로세서에 의해 실행 가능한 하나 또는 다수의 프로그램을 저장하고, 상기 하나 또는 다수의 프로그램이 실행될 때, 상기 프로세서를 통해 상기 임의의 하나에 따른 음성 합성 방법의 단계가 수행된다.

본 발명의 실시예는 컴퓨터 판독 가능 저장 매체를 제공하며, 상기 컴퓨터 판독 가능 저장 매체에는 프로그램이 저장되고, 상기 프로그램이 적어도 하나의 프로세서에 의해 실행될 때, 상기 적어도 하나의 프로세서로 하여금 상기 임의의 하나에 따른 음성 합성 방법의 단계를 수행하도록 한다.

본 발명의 실시예는 음성 합성 방법 및 장치, 저장 매체를 제공하며, 상기 기술적 해결수단을 사용하여, 사전 설정 디코딩 모델, 특징 벡터 세트, 사전 설정 주의력 모델 및 녹음 음향 특징에 기반하여, 합성할 어구에 대응되는 예측 음향 특징을 예측하여 획득하고, 합성할 어구가 녹음 어구 및 쿼리 결과 어구를 포함하기 때문에, 다시 말해서, 녹음 어구 및 쿼리 결과 어구에 대해, 모두 예측을 통해 대응되는 예측 음향 특징을 획득하고, 예측 음향 특징은 서로 연관되는 다수의 음향 특징으로 구성되므로, 녹음 및 합성 음성의 음성 속도, 음높이 등이 상이한 문제를 해결함으로써, 예측 음향 특징을 이용하여 획득된 음성 운율이 일치하다. 다음, 합성할 어구에 대응되는 예측 음향 특징에 대해 특징 전환 및 합성을 수행하여 음성을 획득함으로써, 녹음 및 합성 음성 접합 시 존재하는 과도 시간 길이가 불확실한 문제를 피하고, 합성된 음성의 품질을 향상시킨다.

도 1은 본 발명의 실시예에서 제공되는 음성 합성 장치의 구조 모식도 1이다.
도 2는 본 발명의 실시예에서 제공되는 Tacotron모델의 구조 모식도이다.
도 3은 본 발명의 실시예에서 제공되는 음성 합성 방법의 흐름도 1이다.
도 4는 본 발명의 실시예에서 제공되는 음성 합성 방법의 흐름도 2이다.
도 5는 본 발명의 실시예에서 제공되는 음소 시퀀스 및 주의력 수치의 대응 관계 모식도이다.
도 6은 본 발명의 실시예에서 제공되는 음성 합성 장치의 구조 모식도 2이다.
도 7은 본 발명의 실시예에서 제공되는 음성 합성 장치의 구조 모식도 3이다.

이하, 본 발명의 실시예의 도면을 결합하여, 본 발명의 실시예의 기술적 해결수단을 명확하고 완전하게 설명하기로 한다.

후속되는 설명에서, 소자를 표시하는 “모듈”, “부재”, “유닛” 등의 접미사를 사용하는 것은 단지 본 발명에 대한 설명을 위한 것으로, 그 자체는 특정된 의미가 없다. 따라서, “모듈”, “부재” 또는 “유닛”은 혼합되어 사용될 수 있다.

도 1을 참조하면, 이는 본 발명의 각 실시예를 구현하는 음성 합성 장치(1)의 모식도이고, 상기 음성 합성 장치(1)는 시퀀스 생성 모듈(11), 음성 합성 모듈(12) 및 플레이 모듈(13)을 포함할 수 있으며, 시퀀스 생성 모듈(11)은 사용자가 발송한 타깃 객체에 대한 쿼리 요청을 수신하고, 쿼리 요청에 따라 합성할 어구를 결정하며, 합성할 어구는 타깃 객체에 관한 쿼리 결과의 텍스트이며, 합성할 어구의 심볼 시퀀스를 음성 합성 모듈(12)에 전송한다. 음성 합성 모듈(12)은 심볼 시퀀스에 대해 음성 합성을 수행하여, 합성할 음성에 대응되는 음성을 획득하고, 음성을 플레이 모듈(13)에 전송한다. 플레이 모듈(13)은 음성을 플레이한다.

일부 실시예에서, 음성 합성 모듈(12)은 주의력 모델 및 인코더-디코더(Encoder-Decoder) 모델로 구축된 모듈이고, 예를 들어, 음성 합성 모듈(12)은 Tacotron 모델이며, Tacotron 모델은 딥 러닝에 기반한 텍스트 음성 변환(TTS, Text to speech) 모델이고, 도 2에 도시된 바와 같이, Tacotron 모델은 주로 인코딩 모델(21), 주의력(Attention) 모델(22) 및 디코딩 모델(23)을 포함하며, 인코딩 모델(21)은 문자 부호 임베딩 모델(211), Pre-net 모델(212) 및 CBHG 모델(213)을 포함하고, 디코딩 모델(23)은 Pre-net 모델(231), 제1 순환 신경망(RNN, Recurrent Neural Network)(232), 제2 순환 신경망(233), 선형 변환 모델(234), CBHG 모델(235) 및 음성 재구성 모델(236)을 포함한다. 여기서, CBHG 모델(213)과 CBHG 모델(235)의 구조는 동일하며, 모두 컨볼루션 세트(convolution bank), 하이웨이 신경망(highway network) 및 게이트 순환 유닛(GRU, Gated Recurrent Unit)으로 구성된다. 음성 재구성 모델(236)은 Griffin-Lim 알고리즘을 사용하여 생성된 모델을 포함한다.

예시적으로, Tacotron 모델은 합성할 어구의 심볼 시퀀스를 수신하고, 코딩 과정을 수행하기 시작하며, 그 과정은 하기와 같다. 문자 부호 임베딩 모델(211)이 심볼 시퀀스에 대해 벡터 전환을 수행하여, 전환된 벡터 세트를 획득하고, 전환된 벡터 세트를 Pre-net 모델(212)에 전송하며, Pre-net 모델(212)이 전환된 벡터 세트에 대해 비선형 변화를 수행하여, 중간 특징 벡터 세트를 획득하고, 중간 특징 벡터 세트를 CBHG 모델(213)에 전송하며, CBHG 모델(213)이 중간 특징 벡터 세트에 대해 일련의 행렬 연산 및 비선형 변환을 수행하여, 특징 벡터 세트를 획득하고, 인코딩이 종료된다.

또한, 인코딩 과정이 종료된 후, 예측 과정을 수행하기 시작하며, 그 과정은 하기와 같다. 현재 디코딩 시각에 Pre-net 모델(231)이 현재 프레임의 음향 특징에 대해 비선형 변환을 수행하여, 중간 특징 벡터를 획득하고, 중간 특징 벡터를 제1 순환 신경망(232)에 전송하며, 제1 순환 신경망(232)이 중간 특징 벡터에 대해 일련의 행렬 연산 및 비선형 변환을 수행하여, 현재 중간 잠재변수(은닉 상태, Hidden State)를 획득하고, 현재 중간 잠재변수를 주의력 모델(22) 및 제2 순환 신경망(233)에 전송하며, 제1 순환 신경망(232)은 또한 현재 중간 잠재변수를 저장하여, 다음 프레임의 인터페이스 시각에 사용한다. 주의력 모델(22)이 현재 중간 잠재변수 및 인코딩하여 획득된 특징 벡터 세트에 대해 컨텍스트 벡터 산출을 수행하여, 현재 컨텍스트 벡터를 획득하고, 현재 컨텍스트 벡터를 제2 순환 신경망(233)에 전송하며, 제2 순환 신경망(233)이 현재 컨텍스트 벡터 및 현재 중간 은닉 상태에 대해 일련의 행렬 연산 및 비선형 변환을 수행하여, 현재 잠재변수를 획득하고, 현재 잠재변수를 선형 변환 모델(234)에 전송하며, 선형 변환 모델(234)이 현재 잠재변수에 대해 선형 변환을 수행하여, 현재 음향 특징을 획득하고, 현재 음향 특징을 CBHG 모델(235)에 전송한다. 합성할 어구 디코딩이 종료될 때까지 다음 디코딩 시각의 예측 과정을 계속 수행하여, 마지막 음향 특징을 획득하고, CBHG 모델(235)이 첫 번째 음향 특징 내지 마지막 음향 특징에 대해 모두 특징 전환을 수행하여, 선형 스펙트럼을 획득하고, 선형 스펙트럼을 음성 재구성 모델(236)에 전송하며, 음성 재구성 모델(236)이 선형 스펙트럼에 대해 재구성 합성을 수행하여, 음성을 생성한다.

설명해야 할 것은, 도 2의 점선은 예측 과정에서 디코딩 모델(23)이 자기회귀 방식을 사용하여 예측 과정을 수행할 수 있음을 나타내며, 즉 현재 디코딩 시각에 획득된 현재 음향 특징 중의 한 프레임의 음향 특징을 다음 디코딩 시각의 입력으로 사용한다. 또한, 자기회귀 방식을 사용하지 않고 예측 과정을 수행할 수도 있으며, 즉 다음 디코딩 시각의 입력이 현재 디코딩 시각에 획득된 현재 음향 특징 중의 한 프레임의 음향 특징이 아니다. 도 2에서는 3개의 디코딩 시각으로만 예를 들어 설명하였고, 본 발명의 실시예는 디코딩 시각에 대해 제한하지 않는다.

본 기술분야의 통상의 기술자라면 도 1 또는 도 2에 도시된 음성 합성 장치의 구조가 음성 합성 장치에 대한 한정을 구성하지 않으며, 음성 합성 장치가 도면에 도시된 것보다 많거나 적은 부재를 포함하거나, 일부 부재들을 조합하거나, 또는 상이한 부재의 배치를 이해할 수 있다.

설명해야 할 것은, 본 발명의 실시예는 도 1 또는 도 2에 도시된 음성 합성 장치에 의해 구현될 수 있고, 이하, 도 1 또는 도 2에 기반하여 음성 합성의 구체적인 실시예를 설명한다.

실시예 1

본 발명의 실시예는 음성 합성 방법을 제공하고, 도 3에 도시된 바와 같이, 상기 음성 합성 방법은 하기와 같은 단계를 포함한다.

단계 S301에서, 합성할 어구의 심볼 시퀀스를 획득하고, 합성할 어구는 타깃 객체를 특성화하는 녹음 어구 및 타깃 객체에 대한 쿼리 결과 어구를 포함한다.

음성 합성 장치에 타깃 객체에 대한 쿼리 요청이 수신될 경우, 쿼리 요청에 따라 합성할 어구를 생성한 다음, 합성할 어구의 심볼 시퀀스를 획득하고, 심볼 시퀀스는 자모 시퀀스 또는 음소 시퀀스이다.

일부 실시예에서, 음성 합성 장치는, 쿼리 요청에서 쿼리 결과 정보를 획득하는 방식, 쿼리 요청에 따라 저장 모듈에서 쿼리 결과 정보를 획득하는 방식, 외부 기기에 요청하여 쿼리 결과 정보를 획득하는 방식 중 하나를 통해 쿼리 결과 정보를 획득한다. 다음, 쿼리 결과 정보 중의 텍스트를 정리하여, 쿼리 결과 어구를 획득하고, 이 밖에, 또한 사전 설정 녹음 어구 라이브러리에서 타깃 객체에 매칭되는 녹음 어구를 획득하며, 화술 모드에 따라, 쿼리 결과 어구 및 녹음 어구를 접합하여, 합성할 어구를 획득하고, 나아가 합성할 어구의 심볼 시퀀스를 생성한다.

일부 실시예에서, 사전 설정 녹음 어구 라이브러리에는 일대일로 대응되는 녹음, 녹음 어구 및 녹음 멜 스펙트럼이 저장된다. 단계 S301 전에, 음성 합성 장치는 각각의 녹음에 대해, 프레임에 따라 적어도 한 프레임의 멜 스펙트럼을 미리 추출해내고, 녹음, 녹음 어구 및 적어도 한 프레임의 멜 스펙트럼을 사전 설정 녹음 어구 라이브러리에 대응되게 저장하며, 한 프레임의 시간 길이는 10ms 또는 15ms일 수 있다.

일부 실시예에서, 화술 모드는 주로 3가지로 나뉘는데, 첫 번째는 쿼리 결과 어구가 녹음 어구의 중간 위치에 위치하는 것인바, 예를 들어, 존경하는 X 선생님의 경우, “X”가 쿼리 결과 어구이다. 두 번째는 쿼리 결과 어구가 녹음 어구의 종료 위치에 위치하는 것인바, 예를 들어, 오늘 베이징 날씨는 맑음 뒤 흐림의 경우, “맑음 뒤 흐림”이 쿼리 결과 어구이다. 세 번째는 쿼리 결과 어구가 녹음 어구의 시작 위치에 위치하는 것인바, 예를 들어, XX 이 노래의 경우, “XX”가 쿼리 결과 어구이다.

일부 실시예에서, 합성할 어구 중의 녹음 어구는 제1 서브 녹음 어구 및 제2 서브 녹음 어구로 나뉘고, 제1 서브 녹음 어구는 제2 서브 녹음 어구의 앞에 위치한다.

예시적으로, 음성 합성 장치가 스마트 스피커인 것을 예로 들면, 사용자가 오늘 베이징 날씨에 대한 쿼리 요청을 발송하면, 스마트 스피커는 날씨 쿼리 기기에 오늘 베이징 날씨 쿼리 요청을 송신하고, 날씨 쿼리 기기에 의해 반환된 맑음 뒤 흐림을 쿼리 결과 정보로 수신하며, 맑음 뒤 흐림을 쿼리 결과 어구로 사용한다. 스마트 스피커는 또한 사전 설정 녹음 어구 라이브러리에서 오늘 베이징 날씨의 녹음 어구를 획득하고, 오늘 베이징 날씨는 맑음 뒤 흐림을 합성할 어구로 접합하여 획득한다.

일부 실시예에서, 합성할 어구의 발음 순서에 따라, 합성할 어구의 음소 시퀀스를 생성하거나; 또는, 합성할 어구의 자모 철자 순서에 따라, 합성할 어구를 생성한다.

예시적으로, 합성할 어구가 HelloEverybody일 경우, 대응되는 자모 시퀀스는 {h, e, l, l, o, e, v, e, r, y, b, o, d, y}이다.

단계 S302에서, 사전 설정 인코딩 모델을 이용하여, 심볼 시퀀스에 대해 인코딩 처리를 수행하여, 특징 벡터 세트를 획득한다.

음성 합성 장치 중의 인코딩 모델은 심볼 시퀀스에 대해 인코딩 처리를 수행하여, 특징 벡터 세트를 획득하고, 특징 벡터 세트는 심볼 시퀀스 중 각각의 심볼의 특징 벡터로 구성되며, 인코딩 모델은 사전 설정 인코딩 모델이다.

일부 실시예에서, 음성 합성 장치는 심볼 시퀀스에 대해 벡터 전환을 수행하여, 초기 특징 벡터 세트를 획득하고, 초기 특징 벡터 세트에 대해 비선형 변화 및 특징 추출을 수행하여, 특징 벡터 세트를 획득한다.

음성 합성 장치는 심볼 시퀀스 중 각각의 심볼을 벡터로 전환하여, 초기 특징 벡터 세트를 획득하고, 나아가 특징 벡터 세트를 획득한다.

단계 S303에서, 녹음 어구에 대응되는 녹음 음향 특징을 획득한다.

음성 합성 장치는 사전 설정 녹음 어구 라이브러리에서, 녹음 어구에 대응되는 녹음 음향 특징을 획득하고, 여기서, 녹음 음향 특징은 상기 녹음 어구에 대응되는 적어도 한 프레임의 멜 스펙트럼이다.

일부 실시예에서, 녹음 음향 특징은 녹음 어구의 심볼 시퀀스의 순서에 따라 정렬된 복수 개 프레임의 음향 특징을 특성화한다.

단계 S304에서, 사전 설정 디코딩 모델, 특징 벡터 세트, 사전 설정 주의력 모델 및 녹음 음향 특징에 기반하여, 합성할 어구에 대응되는 음향 특징을 예측하여, 합성할 어구에 대응되는 예측 음향 특징을 획득하며, 사전 설정 주의력 모델은 특징 벡터 세트를 이용하여 디코딩을 위한 컨텍스트 벡터를 생성하는 모델이고, 예측 음향 특징은 서로 연관되는 적어도 하나의 음향 특징으로 구성된다.

음성 합성 장치는 사전 설정 디코딩 모델 및 사전 설정 주의력 모델을 통해, 합성할 어구에 대응되는 음향 특징을 예측하여, 예측 음향 특징을 획득한다. 예측 과정에서, 사전 설정 디코딩 모델은 또한 녹음 음향 특징에서 한 프레임의 음향 특징을 추출하여, 예측 과정의 입력으로 사용할 수 있으며, 여기서, 사전 설정 디코딩 모델은 디코딩 모델이고, 사전 설정 주의력 모델은 주의력 모델이다.

일부 실시예에서, 음성 합성 장치는, i가 1과 같을 때, i번째 디코딩 시각에 초기 음향 특징을 획득하고, 초기 음향 특징, 사전 설정 디코딩 모델, 특징 벡터 세트 및 사전 설정 주의력 모델에 기반하여, 첫 번째 음향 특징을 예측하며, i는 0보다 큰 정수이고; i가 1보다 클 경우, i번째 디코딩 시각이 녹음 어구의 디코딩 시각일 때, 녹음 음향 특징에서 제j 프레임의 음향 특징을 추출하고, 제j 프레임의 음향 특징을 제i-1 프레임의 음향 특징으로 사용하며, 제i-1 프레임의 음향 특징, 사전 설정 디코딩 모델, 특징 벡터 세트 및 사전 설정 주의력 모델에 기반하여, i번째 음향 특징을 예측하고, j는 0보다 큰 정수이며; i번째 디코딩 시각이 쿼리 결과 어구의 디코딩 시각일 때, i-1번째 음향 특징 중의 한 프레임의 음향 특징을 제i-1 프레임의 음향 특징으로 사용하고, 제i-1 프레임의 음향 특징, 사전 설정 디코딩 모델, 특징 벡터 세트 및 사전 설정 주의력 모델에 기반하여, i번째 음향 특징을 예측하며; 합성할 어구의 디코딩이 종료될 때까지 i+1번째 디코딩 시각의 예측 과정을 계속 수행하여, n번째 음향 특징을 획득하고, n은 상기 합성할 어구의 디코딩 시각의 총 프레임 수이며 1보다 큰 정수이고; 획득된 i번째 음향 특징 내지 n번째 음향 특징을 예측 음향 특징으로 사용한다.

음성 합성 장치는 i를 1로 하고, 첫 번째 디코딩 시각에 사전 설정 녹음 어구 라이브러리에서 초기 음향 특징을 획득하며, 초기 음향 특징은 한 프레임의 음향 특징이고; 초기 음향 특징 및 특징 벡터 세트를 입력으로 사용하며, 사전 설정 디코딩 모델 및 사전 설정 주의력 모델을 이용하여, 첫 번째 음향 특징을 예측한다. 다음, i를 2로 하고, 두 번째 디코딩 시각부터 시작하여 우선 두 번째 디코딩 시각의 유형을 판정하며, 유형은 녹음 어구의 디코딩 시각, 쿼리 결과 어구의 디코딩 시각, 및 합성할 어구의 디코딩 종료 시각을 포함하고; 두 번째 디코딩 시각의 유형에 따라 제1 프레임의 음향 특징을 추출하며, 제1 프레임의 음향 특징을 입력으로 사용하고, 사전 설정 디코딩 모델, 특징 벡터 세트 및 사전 설정 주의력 모델을 이용하여, 두 번째 음향 특징을 예측하며; 합성할 어구 디코딩이 종료될 때까지 세 번째 디코딩 시각의 유형을 계속 판정한다.

일부 실시예에서, 음성 합성 장치는 크기가 1 프레임인 올 0 벡터를 초기 음향 특징으로 설정할 수 있다.

설명해야 할 것은, 녹음 어구에 실제 사람 녹음에서 추출해낸 녹음 음향 특징이 존재하는 것을 고려하면, i번째 디코딩 시각의 유형을 판정하여, 녹음 어구의 디코딩 시각임이 결정될 때, 녹음 음향 특징에서 한 프레임의 음향 특징을 추출하여, i번째 음향 특징을 예측하는데 사용할 수 있으며, 실제 사람 녹음 중의 한 프레임의 음향 특징을 이용하여 예측하기 때문에, 획득된 i번째 음향 특징에 대응되는 음질이 보다 사실적이다.

일부 실시예에서, i번째 음향 특징 내지 n번째 음향 특징 중의 각각의 음향 특징은 한 프레임의 음향 특징 또는 적어도 두 개 프레임의 음향 특징을 포함하고, i번째 음향 특징에 대응되는 음향 특징의 프레임 수는 설정될 수 있으며, 적어도 두 개 프레임의 음향 특징은 중첩되지 않고 시간이 연속적인 복수 개 프레임의 음향 특징이고, 이로써, 각각의 디코딩 시각에 복수 개 프레임의 음향 특징을 예측하여, 디코딩 시간 길이를 줄이고 디코딩 모델의 복잡도를 낮출 수 있다.

일부 실시예에서, i-1번째 음향 특징 중의 마지막 프레임의 음향 특징을 제i-1 프레임의 음향 특징으로 사용할 수 있고, 상응하게, i번째 음향 특징은 k개 프레임의 음향 특징을 포함하며, j의 값은 k*(i-1)이고, k는 각각의 음향 특징에 대응되는 총 프레임 수이며, k는 0보다 큰 양의 정수이다.

예시적으로, k=3일 때, j의 값은 3, 6, 9…이다.

일부 실시예에서, 음성 합성 장치는 i번째 디코딩 시각의 예측 과정에서, 녹음 음향 특징에서 제k*i 프레임의 음향 특징을 추출하고, 제k*i 프레임의 음향 특징을 제i-1 프레임의 음향 특징으로 사용하며, i+1번째 디코딩 시각의 예측 과정에서, 녹음 음향 특징에서 제k*(i+1) 프레임의 음향 특징을 추출하고, 제k*(i+1) 프레임의 음향 특징을 제i 프레임의 음향 특징으로 사용한다. 여기서, 제k*i 프레임의 음향 특징 및 제k*(i+1) 프레임의 음향 특징은 녹음 어구에 부합되는 심볼 시퀀스의 순서에 따라 추출된 음향 특징이다.

일부 실시예에서, 사전 설정 디코딩 모델은 제1 순환 신경망 및 제2 순환 신경망을 포함하고; 음성 합성 장치는, 제i-1 프레임의 음향 특징에 대해 비선형 변화를 수행하여, 중간 특징 벡터를 획득하며; 제1 순환 신경망을 이용하여, 중간 특징 벡터에 대해 행렬 연산 및 비선형 변환을 수행하여, i번째 중간 잠재변수를 획득하고; 사전 설정 주의력 모델을 이용하여, 특징 벡터 세트 및 i번째 중간 잠재변수에 대해 컨텍스트 벡터 산출을 수행하여, i번째 컨텍스트 벡터를 획득하며; 제2 순환 신경망을 이용하여, i번째 컨텍스트 벡터 및 i번째 중간 잠재변수에 대해 행렬 연산 및 비선형 변환을 수행하여, i번째 잠재변수를 획득하고; 사전 설정 프레임 수에 따라, i번째 잠재변수에 대해 선형 변환을 수행하여, i번째 음향 특징을 획득한다.

음성 합성 장치는 i번째 디코딩 시각에 제i-1 프레임의 음향 특징을 사전 설정 디코딩 모델에 전송하고, 사전 설정 디코딩 모델은 제i-1 프레임의 음향 특징을 이용하여, i번째 음향 특징을 예측한다.

일부 실시예에서, 음성 합성 장치는 i번째 디코딩 시각에 제i-1 프레임의 음향 특징을 디코딩 모델 중의 Pre-net 모델에 전송하고, Pre-net 모델은 제i-1 프레임의 음향 특징에 대해 비선형 변화를 수행하여, 중간 특징 벡터를 획득하며, 중간 특징 벡터를 제1 순환 신경망에 전송하고, 제1 순환 신경망은 중간 특징 벡터에 대해 행렬 연산 및 비선형 변환을 수행하여, i번째 중간 잠재변수를 획득하며, i번째 중간 잠재변수를 주의력 모델 및 제2 순환 신경망에 전송하고, 주의력 모델은 특징 벡터 세트 및 i번째 중간 잠재변수에 대해 컨텍스트 벡터 산출을 수행하여, i번째 컨텍스트 벡터를 획득하며, i번째 컨텍스트 벡터를 제2 순환 신경망에 전송하고, 제2 순환 신경망은 i번째 컨텍스트 벡터 및 i번째 중간 잠재변수에 대해 행렬 연산 및 비선형 변환을 수행하여, i번째 잠재변수를 획득하며, i번째 잠재변수를 선형 변환 모듈에 전송하고, 선형 변환 모듈은 사전 설정 프레임 수에 따라, i번째 잠재변수에 대해 선형 변환을 수행하여, i번째 음향 특징을 획득한다.

설명해야 할 것은, 음성 합성 장치는 예측 과정에서 제1 순환 신경망 및 제2 순환 신경망을 사용하여 i번째 음향 특징을 획득하고, 순환 신경망은 노드를 고정 방향으로 연결하여 루프가 형성된 인공 신경망이기 때문에, 현재까지 이미 산출된 잠재변수를 이용하여 현재 시계열의 입력을 처리함으로써, 하나의 시퀀스 위치의 출력 및 이전의 모든 시퀀스의 입력이 모두 연계되도록 하고, 이로써, 제1 순환 신경망 및 제2 순환 신경망을 이용하여, 획득된 예측 음향 특징 중의 모든 음향 특징 사이는 서로 연관되며, 나아가, 예측 음향 특징을 이용하여 획득된 음성 과도가 보다 자연스럽다.

일부 실시예에서, 제1 순환 신경망은 제1 장단기 기억망(LSTM, Long Short Term Memory Network)으로 대체될 수 있고, 대응되게, 제2 순환 신경망은 제2 LSTM으로 대체된다. 이를 제외하고, 제1 순환 신경망 및 제2 순환 신경망을 다른 신경망으로 대체할 수도 있으며, 본 발명의 실시예는 이에 대해 제한하지 않는다.

일부 실시예에서, 특징 벡터 세트는 심볼 시퀀스 중 각각의 심볼에 대응되는 특징 벡터를 포함하고; 음성 합성 장치는, 사전 설정 주의력 모델을 이용하여, 심볼 시퀀스 중 각각의 심볼(자모 또는 음소)에 대응되는 특징 벡터 및 i번째 중간 잠재변수에 대해 주의력 산출을 수행하여, 제i 그룹의 주의력 수치를 획득하며; 제i 그룹의 주의력 수치에 따라, 특징 벡터 세트에 대해 가중 합산을 수행하여, i번째 컨텍스트 벡터를 획득한다.

음성 합성 장치는, i번째 중간 잠재변수를 주의력 모델에 전송하고, 주의력 모델은 심볼 시퀀스 중 각각의 심볼에 대응되는 특징 벡터 및 i번째 중간 잠재변수 사이의 주의력 수치(유사도)를 산출하며, 각각의 심볼 및 주의력 수치를 대응되게 저장하여, 제i 그룹의 주의력 수치를 획득하고, 주의력 수치의 값의 범위는 0~1이며; 각각의 심볼에 대응되는 주의력 수치를 각각의 심볼에 대응되는 특징 벡터의 가중치로 사용하며, 특징 벡터 세트 중의 모든 특징 벡터에 대해 가중 합산을 수행하여, i번째 컨텍스트 벡터를 획득한다.

설명해야 할 것은, i번째 디코딩 시각에 제i-1 프레임의 음향 특징에 기반하여 i번째 중간 잠재변수를 생성하고, i번째 중간 잠재변수는 i번째 디코딩 시각에 예측해야 하는 심볼을 나타내며, 주의력 모델은 심볼 시퀀스 중 각각의 심볼에 대응되는 특징 벡터 및 i번째 중간 잠재변수 사이의 주의력 수치를 산출하며, 주의력 수치의 크기는 각각의 심볼에 대응되는 특징 벡터 및 예측이 필요한 심볼의 관련 정도를 나타내고, i번째 디코딩 시각에서 예측해야 하는 심볼은 주요 발음 심볼을 제외하고도, 발음이 주요 발음 심볼과 밀접하게 연결된 이차 조음 심볼도 포함하므로, 심볼 시퀀스에서 다수의 심볼은 대응되는 주의력 수치가 0이 아니며, 또한, 주의력 수치가 가장 큰 심볼은 주요 발음 심볼이다.

일부 실시예에서, 음성 합성 장치는, 제i-1 프레임의 음향 특징, 사전 설정 디코딩 모델, 특징 벡터 세트 및 사전 설정 주의력 모델에 기반하여, i번째 음향 특징을 예측한 후, i+1번째 디코딩 시각의 예측 과정을 계속 수행하기 전에, 제i 그룹의 주의력 수치에서 최대 주의력 수치에 대응되는 i번째 타깃 심볼을 결정하고; i번째 타깃 심볼이 녹음 어구의 비종료 심볼일 때, i+1번째 디코딩 시각이 녹음 어구의 디코딩 시각임을 결정하며; 및/또는, i번째 타깃 심볼이 쿼리 결과 어구의 비종료 심볼일 때, i+1번째 디코딩 시각이 쿼리 결과 어구의 디코딩 시각임을 결정하고; 및/또는, i번째 타깃 심볼이 녹음 어구의 종료 심볼이고 녹음 어구의 종료 심볼이 합성할 어구의 종료 심볼이 아닐 때, i+1번째 디코딩 시각이 쿼리 결과 어구의 디코딩 시각임을 결정하며; 및/또는, i번째 타깃 심볼이 쿼리 결과 어구의 종료 심볼이고 쿼리 결과 어구의 종료 심볼이 합성할 어구의 종료 심볼이 아닐 때, i+1번째 디코딩 시각이 녹음 어구의 디코딩 시각임을 결정하고; 및/또는, i번째 타깃 심볼이 합성할 어구의 종료 심볼일 때, i+1번째 디코딩 시각이 합성할 어구의 디코딩 종료 시각임을 결정한다.

음성 합성 장치는, i번째 타깃 심볼의 유형을 판정하기 전에, 합성할 어구의 심볼 시퀀스를 생성할 경우, 심볼 시퀀스에서 특수 심볼을 결정해내고, 특수 심볼은 녹음 어구의 비종료 심볼, 녹음 어구의 종료 심볼, 쿼리 결과 어구의 비종료 심볼, 쿼리 결과 어구의 종료 심볼, 및 합성할 어구의 종료 심볼 중 적어도 하나를 포함하며; 제i 그룹의 주의력 수치 중 최대 주의력 수치에 대응되는 심볼을 i번째 타깃 심볼로 사용하고, i번째 타깃 심볼은 i번째 디코딩 시각의 주요 발음 심볼이며; i번째 타깃 심볼의 유형을 결정해낼 때까지 i번째 타깃 심볼을 특수 심볼과 차례대로 비교한다.

설명해야 할 것은, 음성 합성 장치는 i를 2로 하고, 제i-1 프레임의 음향 특징, 사전 설정 디코딩 모델, 특징 벡터 세트 및 사전 설정 주의력 모델에 기반하여, i번째 음향 특징을 예측하기 전에, i+1번째 디코딩 시각의 유형을 판정하는 과정과 마찬가지로, i-1번째 타깃 심볼을 이용하여, i번째 디코딩 시각의 유형을 판정한다.

일부 실시예에서, 음성 합성 장치는 i번째 디코딩 시각의 유형을 판정하기 전에, 합성할 어구의 심볼 시퀀스를 생성할 경우, 심볼 시퀀스에서 녹음 어구의 시단 심볼과 종료 심볼, 쿼리 결과 어구의 시단 심볼과 종료 심볼, 및 합성할 어구의 종료 심볼을 결정한다. 여기서, 녹음 어구의 시단 심볼과 종료 심볼은 일대일로 대응되고, 쿼리 결과 어구의 시단 심볼과 종료 심볼은 일대일로 대응되며, 녹음 어구의 시단 심볼 또는 쿼리 결과 어구의 시단 심볼은 합성할 어구의 시단 심볼이고, 녹음 어구의 종료 심볼 또는 쿼리 결과 어구의 종료 심볼은 합성할 어구의 종료 심볼이다.

또한, 음성 합성 장치는, 제i 그룹의 주의력 수치 중 최대 주의력 수치에 대응되는 심볼을 i번째 타깃 심볼로 사용하고; i번째 타깃 심볼을 녹음 어구의 시단 심볼, 합성할 어구의 시단 심볼, 및 쿼리 결과 어구의 시단 심볼과 차례대로 비교하며; i번째 타깃 심볼과 녹음 어구의 시단 심볼이 같을 때, i+1번째 디코딩 시각이 녹음 어구의 디코딩 시각임을 결정하고, i+1번째 디코딩 시각의 예측 과정에서, i+1번째 타깃 심볼을 녹음 어구의 종료 심볼, 합성할 어구의 종료 심볼과 차례대로 비교하며; i+1번째 타깃 심볼과 녹음 어구의 종료 심볼, 및 합성할 어구의 종료 심볼이 모두 같지 않을 때, i+1번째 타깃 심볼이 녹음 어구의 비종료 심볼임을 결정하고, 나아가 i+2번째 디코딩 시각이 녹음 어구의 디코딩 시각임을 결정하며; i번째 타깃 심볼과 쿼리 결과 어구의 시단 심볼이 같을 때, i+1번째 디코딩 시각이 쿼리 결과 어구의 디코딩 시각임을 결정하고, i+1번째 디코딩 시각의 예측 과정에서, i+1번째 타깃 심볼을 쿼리 결과 어구의 종료 심볼, 합성할 어구의 종료 심볼과 차례대로 비교하며; i+1번째 타깃 심볼과 쿼리 결과 어구의 종료 심볼, 및 합성할 어구의 종료 심볼이 모두 일치하지 않을 때, i+1번째 타깃 심볼이 쿼리 결과 어구의 비종료 심볼임을 결정하고, 나아가 i+2번째 디코딩 시각이 녹음 어구의 디코딩 시각임을 결정한다.

일부 실시예에서, 음성 합성 장치는 i번째 타깃 심볼이 녹음 어구의 종료 심볼이고 합성할 어구의 종료 심볼이 아님을 결정할 때, 녹음 어구의 종료 심볼의 유지 시간 길이에 한 프레임의 디코딩 시간 길이를 추가하고, i번째 타깃 심볼의 유지 시간 길이가 사전 설정 시간 길이보다 작은지 여부를 판정하며; i번째 타깃 심볼의 유지 시간 길이가 사전 설정 시간 길이보다 크거나 같을 때, i+1번째 디코딩 시각이 쿼리 결과 어구의 디코딩 시각임을 결정하며, i번째 타깃 심볼의 유지 시간 길이가 사전 설정 시간 길이보다 작을 때, i+1번째 디코딩 시각이 녹음 어구의 디코딩 시각임을 결정하고, m번째 디코딩 시각에 녹음 어구의 종료 심볼의 유지 시간 길이가 사전 설정 시간 길이보다 크거나 같다고 결정될 때까지, i+1번째 타깃 심볼을 계속 판정하여 m+1번째 디코딩 시각이 쿼리 결과 어구의 디코딩 시각임을 결정하며, m은 상기 녹음 어구의 디코딩 시각의 총 프레임 수이고 1보다 큰 정수이다. 여기서, 사전 설정 시간 길이는 일반적으로 한 프레임의 디코딩 시간 길이 또는 두 개 프레임의 디코딩 시간 길이로 설정되며, 본 발명의 실시예는 이에 대해 제한하지 않는다.

일부 실시예에서, 음성 합성 장치는 i번째 타깃 심볼이 쿼리 결과 어구의 종료 심볼이고 합성할 어구의 종료 심볼이 아님을 결정할 때, 쿼리 결과 어구의 종료 심볼의 유지 시간 길이에 한 프레임의 디코딩 시간 길이를 추가하고, i번째 타깃 심볼의 유지 시간 길이가 사전 설정 시간 길이보다 작은지 여부를 판정하며; i번째 타깃 심볼의 유지 시간 길이가 사전 설정 시간 길이보다 크거나 같을 때, i+1번째 디코딩 시각이 녹음 어구의 디코딩 시각임을 결정하고, i번째 타깃 심볼의 유지 시간 길이가 사전 설정 시간 길이보다 작을 때, i+1번째 디코딩 시각이 쿼리 결과 어구의 디코딩 시각임을 결정하며, h번째 디코딩 시각에 쿼리 결과 어구의 종료 심볼의 유지 시간 길이가 사전 설정 시간 길이보다 크거나 같다고 결정될 때까지, i+1번째 타깃 심볼을 계속 판정하여, h+1번째 디코딩 시각이 녹음 어구의 디코딩 시각임을 결정하고, h는 상기 쿼리 결과 어구의 디코딩 시각의 총 프레임 수이며 1보다 큰 정수이다.

설명해야 할 것은, 음성 합성 장치는 현재 디코딩 시각에 타깃 심볼을 결정하고, 타깃 심볼을 특징 심볼과 차례대로 비교하여, 다음 디코딩 시각의 유형을 결정함으로써, 합성할 어구 중의 녹음 어구 또는 쿼리 결과 어구에 대해 특수 표기 또는 심볼 정렬 동작 등을 수행하지 않고도 각각의 디코딩 시각의 유형을 획득할 수 있다. 또한, 하나의 어구의 종료 심볼의 유지 시간 길이를 판정하여, 유지 시간 길이가 사전 설정 시간 길이보다 크거나 같을 때에만 다른 어구의 디코딩을 시작하여, 하나의 어구의 종료 심볼이 완전히 발음될 수 있도록 한다.

일부 실시예에서, 합성할 어구 중 녹음 어구가 쿼리 결과 어구의 앞에 위치하는 상황의 경우, 획득된 예측 음향 특징에서 녹음 어구의 종료 심볼이 지연됨이 발견되는데, 이는 녹음 어구의 예측 과정 및 쿼리 결과 어구의 예측 과정이 너무 밀접하게 연결되어 있기 때문일 수 있으므로, 녹음 어구 중의 종료 심볼 바로 앞의 심볼을 녹음 어구의 종료 어구로 설정함으로써, 녹음 어구의 종료 심볼이 지연되는 문제를 해결하고, 합성하여 획득된 음성 중의 녹음 어구의 음성 및 쿼리 결과 어구의 음성 사이의 과도도 보다 부드럽다.

단계 S305에서, 예측 음향 특징에 대해 특징 전환 및 합성을 수행하여, 합성할 어구에 대응되는 음성을 획득한다.

음성 합성 장치는 예측 음향 특징 중 각각의 음향 특징에 대해 특징 전환을 수행하여, 선형 스펙트럼을 획득하고, 획득된 모든 선형 스펙트럼에 대해 재구성 합성을 수행하여, 합성할 어구에 대응되는 음성을 획득하며, 음성을 플레이 모듈에 전송하고, 플레이 모듈을 통해 음성을 플레이하여, 사용자로 하여금 음성을 듣고 타깃 객체에 대한 쿼리 결과를 획득하도록 한다.

일부 실시예에서, 음성 합성 장치는 예측 음향 특징에 대해 특징 전환을 수행하여, 선형 스펙트럼을 획득하고, 선형 스펙트럼에 대해 재구성 합성을 수행하여, 음성을 획득한다.

음성 합성 장치는 Griffin-Lim 알고리즘으로 선형 스펙트럼에 대해 재구성 합성을 수행하여, 음성을 획득할 수 있다.

설명해야 할 것은, 녹음 어구는 실제 사람 녹음에서 추출해낸 녹음 음향 특징을 이용하여 예측되므로, 예측 음향 특징에 대해 특징 전환 및 합성을 수행한 후, 획득된 음성 중의 녹음 어구에 대응되는 음성의 음질이 더욱 좋다.

일부 실시예에서, 단계 S301 전에, 음성 합성 방법은 하기와 같은 단계를 더 포함한다.

단계 S3001에서, 적어도 하나의 샘플 합성 어구 각각에 대응되는 샘플 심볼 시퀀스를 획득하고, 각각의 샘플 합성 어구는 샘플 객체 및 샘플 객체에 대한 참고 쿼리 결과를 특성화한다.

음성 합성 장치는 적어도 하나의 샘플 합성 어구 중 각각의 샘플 합성 어구에 대해, 샘플 심볼 시퀀스를 생성하여, 적어도 하나의 샘플 심볼 시퀀스를 획득한다. 여기서, 적어도 하나의 샘플 합성 어구 중의 샘플 객체는 타깃 객체를 포함하고, 적어도 하나의 샘플 합성 어구는 쿼리 결과 어구를 더 포함할 수 있다.

단계 S3002에서, 초기 음성 합성 모델, 초기 음향 특징 및 샘플 합성 어구에 대응되는 샘플 음향 특징을 획득하고, 초기 음성 합성 모델은 인코딩 처리 및 예측을 위한 모델이다.

음성 합성 장치는 초기 음성 합성 모델, 초기 음향 특징 및 각각의 샘플 합성 어구에 대응되는 샘플 음향 특징을 획득한다. 여기서, 각각의 샘플 합성 어구에 대응되는 샘플 음향 특징은 각각의 샘플 합성 어구의 녹음에서 획득된다.

단계 S3003에서, 샘플 심볼 시퀀스, 초기 음향 특징 및 샘플 음향 특징을 이용하여, 초기 음성 합성 모델을 트레이닝하여, 사전 설정 인코딩 모델, 사전 설정 디코딩 모델 및 사전 설정 주의력 모델을 획득한다.

음성 합성 장치는, 샘플 심볼 시퀀스를 사전 설정 음성 합성 모델의 입력으로 사용하고, 사전 설정 음성 합성 모델은 샘플 심볼 시퀀스에 대해 인코딩 처리를 수행하여, 샘플 특징 벡터 세트를 획득하며; 초기 음향 특징을 사전 설정 음성 합성 모델의 입력으로 사용하고, 사전 설정 음성 합성 모델은 샘플 특징 벡터 세트 및 초기 음향 특징에 기반하여, 참고 음향 특징을 예측하며; 사전 설정 손실 함수를 이용하여 참고 음향 특징 및 샘플 음향 특징을 산출하여, 오차값을 획득하고; 오차값이 사전 설정 오차 임계값보다 클 때, 오차값이 사전 설정 오차 임계값보다 작거나 같을 때까지 계속하여 샘플 특징 벡터 세트 및 초기 디코딩 모델에 기반하여 예측한다.

일부 실시예에서, 사전 설정 오차 함수는 절대 손실 함수(L1 Loss)를 포함한다.

설명해야 할 것은, 사전 설정 음성 합성 모델이 샘플 특징 벡터 세트 및 초기 음향 특징에 기반하여, 참고 음향 특징을 예측하는 과정은, 제i-1 프레임의 음향 특징 및 특징 벡터 세트를 입력으로 사용하고, 사전 설정 디코딩 모델 및 사전 설정 주의력 모델을 이용하여, i번째 음향 특징을 예측하는 과정과 마찬가지이며, 여기서 상세한 설명을 생략한다.

일부 실시예에서, 전화 발신 시스템을 예로 들면, 도 4에 도시된 음성 합성 방법은 하기와 같은 단계를 포함한다.

단계 S401에서, 전화 발신 시스템은 특정 전화번호에 “TV 같이 보자”라는 메시지를 남겨달라는 쿼리 요청을 수신할 경우, “TV 같이 보자”의 음소 시퀀스를 획득하고, 음소 시퀀스에서 녹음 어구의 시작 음소와 종료 음소, 쿼리 결과 어구의 시작 음소와 종료 음소, 및 합성할 어구의 종료 음소를 결정한다.

전화 발신 시스템은 “TV 같이 보자”의 쿼리 요청에서, 타깃 객체의 녹음 어구가 “같이”이고 쿼리 결과 어구가 “TV 보자”임을 결정하며; “TV 같이 보자”가 화술 모드에 부합되는 것임을 결정하고, “TV 같이 보자”를 합성할 어구로 사용하며, 음소 시퀀스가 {n, a4, ss, z, an2, i, ia3, ss, i4, q, i3, ss, k, an4, d, ian4, sh, iii4, ss, b, a5, ss, sil}임을 획득하고; 녹음 어구의 시작 음소와 종료 음소가 각각 ‘n’ 및 ‘q’이고, 쿼리 결과 어구의 시작 음소와 종료 음소가 각각 ‘k’ 및 ‘b’이며, 합성할 어구의 종료 음소 및 쿼리 결과 어구의 종료 음소가 모두 ‘b’임을 결정한다.

설명해야 할 것은, 상기 음소 시퀀스 중의 ‘ss’은 합성할 어구의 음성 운율을 제어하는 심볼이고, 상기 심볼은 다른 음소 또는 자모 등일 수 있으며, 음소 시퀀스에는 상기 심볼이 포함되거나 포함되지 않을 수 있고, 본 발명의 실시예는 이에 대해 모두 제한하지 않는다.

단계 S402에서, 전화 발신 시스템이 음소 시퀀스에 대해 인코딩 처리를 수행하여, 특징 벡터 세트를 획득한다.

전화 발신 시스템은 음소 시퀀스 중 각각의 음소에 대응되는 특징 벡터를 획득하고, 모든 음소의 특징 벡터로 특징 벡터 결합을 구성한다.

단계 S403에서, 전화 발신 시스템이 하나의 올 0 벡터를 초기 음향 특징으로 획득하고, 사전 설정 녹음 어구 라이브러리에서 “같이”의 녹음 멜 스펙트럼을 획득한다.

단계 S404에서, 전화 발신 시스템이 올 0 벡터, 사전 설정 디코딩 모델, 특징 벡터 세트, 사전 설정 주의력 모델 및 녹음 음향 특징에 기반하여, “TV 같이 보자”에 대응되는 예측 음향 특징을 예측한다.

예시적으로, 도 5에 도시된 것은 음소 시퀀스 및 주의력 수치의 대응 관계 모식도이고, 도 5의 세로 좌표는 “TV 같이 보자”의 음소 시퀀스이며, 가로 좌표는 디코딩 시각이고, 우측의 표시 51은 주의력 수치 및 컬러의 대응 관계를 나타내며, 컬러가 옅을 수록 주의력 수치가 더 크다는 것을 나타내고, 표시 51 중의 0.2, 0.4, 0.6 및 0.8은 주의력 수치이며, 도 5로부터 보아낼 수 있다시피, 12번째 디코딩 시각에 획득된 제12 그룹의 주의력 수치에서, 주의력 수치가 가장 큰 12번째 타깃 음소가 ‘q’, 즉 녹음 어구의 종료 음소임이 결정되고, 13번째 디코딩 시각이 쿼리 결과 어구의 디코딩 시각임을 나타낸다.

단계 S405에서, 전화 발신 시스템이 예측 음향 특징에 대해 특징 전환 및 합성을 수행하여, “TV 같이 보자”에 대응되는 음성을 획득한다.

단계 S406에서, 전화 발신 시스템이 특정 전화번호로 전화를 걸고, 사용자가 연결된 후, 음성을 사용자에게 플레이한다.

이해할 수 있는 것은, 음성 합성 장치는 사전 설정 디코딩 모델, 특징 벡터 세트, 사전 설정 주의력 모델 및 녹음 음향 특징에 기반하여, 합성할 어구에 대응되는 예측 음향 특징을 예측하여 획득하고, 합성할 어구가 녹음 어구 및 쿼리 결과 어구를 포함하기 때문에, 다시 말해서, 녹음 어구 및 쿼리 결과 어구에 대해, 모두 예측을 통해 대응되는 예측 음향 특징을 획득하고, 예측 음향 특징은 서로 연관되는 다수의 음향 특징으로 구성되므로, 녹음 및 합성 음성의 음성 속도, 음높이 등이 상이한 문제를 해결함으로써, 예측 음향 특징을 이용하여 획득된 음성 운율이 일치하다. 다음, 합성할 어구에 대응되는 예측 음향 특징에 대해 특징 전환 및 합성을 수행하여 음성을 획득함으로써, 녹음 및 합성 음성 접합 시 존재하는 과도 시간 길이가 불확실한 문제를 피하고, 합성된 음성의 품질을 향상시킨다.

실시예 2

본 발명의 실시예 1과 동일한 발명 구상에 기반하여, 추가적으로 설명한다.

본 발명의 실시예는 음성 합성 장치(6)를 제공하며, 상기 음성 합성 장치(6)는 시퀀스 생성 모듈(61), 음성 합성 모듈(62) 및 획득 모듈(63)을 포함하고;

시퀀스 생성 모듈(61)은 합성할 어구의 심볼 시퀀스를 획득하도록 구성되며, 합성할 어구는 타깃 객체를 특성화하는 녹음 어구 및 타깃 객체에 대한 쿼리 결과 어구를 포함하고;

음성 합성 모듈(62)은 사전 설정 인코딩 모델을 이용하여, 심볼 시퀀스에 대해 인코딩 처리를 수행하여, 특징 벡터 세트를 획득하도록 구성되며;

획득 모듈(63)은 녹음 어구에 대응되는 녹음 음향 특징을 획득하도록 구성되고;

음성 합성 모듈(62)은 또한, 사전 설정 디코딩 모델, 특징 벡터 세트, 사전 설정 주의력 모델 및 녹음 음향 특징에 기반하여, 합성할 어구에 대응되는 음향 특징을 예측하여, 합성할 어구에 대응되는 예측 음향 특징을 획득하며, 사전 설정 주의력 모델은 특징 벡터 세트를 이용하여 디코딩을 위한 컨텍스트 벡터를 생성하는 모델이고, 예측 음향 특징은 서로 연관되는 적어도 하나의 음향 특징으로 구성되며; 예측 음향 특징에 대해 특징 전환 및 합성을 수행하여, 합성할 어구에 대응되는 음성을 획득하도록 구성된다.

일부 실시예에서, 음성 합성 모듈(62)은, i가 1과 같을 때, i번째 디코딩 시각에 초기 음향 특징을 획득하고, 초기 음향 특징, 사전 설정 디코딩 모델, 특징 벡터 세트 및 사전 설정 주의력 모델에 기반하여, 첫 번째 음향 특징을 예측하며, i는 0보다 큰 정수이고;

i가 1보다 클 경우, i번째 디코딩 시각이 녹음 어구의 디코딩 시각일 때, 녹음 음향 특징에서 제j 프레임의 음향 특징을 추출하고, 제j 프레임의 음향 특징을 제i-1 프레임의 음향 특징으로 사용하며, 제i-1 프레임의 음향 특징, 사전 설정 디코딩 모델, 특징 벡터 세트 및 사전 설정 주의력 모델에 기반하여, i번째 음향 특징을 예측하고, j는 0보다 큰 정수이며;

i번째 디코딩 시각이 쿼리 결과 어구의 디코딩 시각일 때, i-1번째 음향 특징 중의 한 프레임의 음향 특징을 제i-1 프레임의 음향 특징으로 사용하고, 제i-1 프레임의 음향 특징, 사전 설정 디코딩 모델, 특징 벡터 세트 및 사전 설정 주의력 모델에 기반하여, i번째 음향 특징을 예측하며;

합성할 어구의 디코딩이 종료될 때까지 i+1번째 디코딩 시각의 예측 과정을 계속 수행하여, n번째 음향 특징을 획득하고, n은 합성할 어구의 디코딩 시각의 총 프레임 수이며 1보다 큰 정수이고;

획득된 i번째 음향 특징 내지 n번째 음향 특징을 예측 음향 특징으로 사용하도록 구성된다.

일부 실시예에서, 사전 설정 디코딩 모델은 제1 순환 신경망 및 제2 순환 신경망을 포함하고;

음성 합성 모듈(62)은, 제i-1 프레임의 음향 특징에 대해 비선형 변화를 수행하여, 중간 특징 벡터를 획득하고; 제1 순환 신경망을 이용하여, 중간 특징 벡터에 대해 행렬 연산 및 비선형 변환을 수행하여, i번째 중간 잠재변수를 획득하며; 사전 설정 주의력 모델을 이용하여, 특징 벡터 세트 및 i번째 중간 잠재변수에 대해 컨텍스트 벡터 산출을 수행하여, i번째 컨텍스트 벡터를 획득하고; 제2 순환 신경망을 이용하여, i번째 컨텍스트 벡터 및 i번째 중간 잠재변수에 대해 행렬 연산 및 비선형 변환을 수행하여, i번째 잠재변수를 획득하며; 사전 설정 프레임 수에 따라, i번째 잠재변수에 대해 선형 변환을 수행하여, i번째 음향 특징을 획득하도록 구성된다.

일부 실시예에서, 특징 벡터 세트는 심볼 시퀀스 중 각각의 심볼에 대응되는 특징 벡터를 포함하고;

음성 합성 모듈(62)은, 사전 설정 주의력 모델을 이용하여, 심볼 시퀀스 중 각각의 심볼에 대응되는 특징 벡터 및 i번째 중간 잠재변수에 대해 주의력 산출을 수행하여, 제i 그룹의 주의력 수치를 획득하고; 제i 그룹의 주의력 수치에 따라, 특징 벡터 세트에 대해 가중 합산을 수행하여, i번째 컨텍스트 벡터를 획득하도록 구성된다.

일부 실시예에서, 음성 합성 모듈(62)은 또한, 제i-1 프레임의 음향 특징, 사전 설정 디코딩 모델, 특징 벡터 세트 및 사전 설정 주의력 모델에 기반하여, i번째 음향 특징을 예측한 후, i+1번째 디코딩 시각의 예측 과정을 계속 수행하기 전에, 제i 그룹의 주의력 수치에서 최대 주의력 수치에 대응되는 i번째 타깃 심볼을 결정하고;

i번째 타깃 심볼이 녹음 어구의 비종료 심볼일 때, i+1번째 디코딩 시각이 녹음 어구의 디코딩 시각임을 결정하며;

및/또는, i번째 타깃 심볼이 쿼리 결과 어구의 비종료 심볼일 때, i+1번째 디코딩 시각이 쿼리 결과 어구의 디코딩 시각임을 결정하고;

및/또는, i번째 타깃 심볼이 녹음 어구의 종료 심볼이고 녹음 어구의 종료 심볼이 합성할 어구의 종료 심볼이 아닐 때, i+1번째 디코딩 시각이 쿼리 결과 어구의 디코딩 시각임을 결정하며;

및/또는, i번째 타깃 심볼이 쿼리 결과 어구의 종료 심볼이고 쿼리 결과 어구의 종료 심볼이 합성할 어구의 종료 심볼이 아닐 때, i+1번째 디코딩 시각이 녹음 어구의 디코딩 시각임을 결정하며;

및/또는, i번째 타깃 심볼이 합성할 어구의 종료 심볼일 때, i+1번째 디코딩 시각이 합성할 어구의 디코딩 종료 시각임을 결정하도록 구성된다.

일부 실시예에서, 음성 합성 모듈(62)은, 심볼 시퀀스에 대해 벡터 전환을 수행하여, 초기 특징 벡터 세트를 획득하고; 초기 특징 벡터 세트에 대해 비선형 변화 및 특징 추출을 수행하여, 특징 벡터 세트를 획득하도록 구성된다.

일부 실시예에서, 음성 합성 모듈(62)은, 예측 음향 특징에 대해 특징 전환을 수행하여, 선형 스펙트럼을 획득하고; 선형 스펙트럼에 대해 재구성 합성을 수행하여, 음성을 획득하도록 구성된다.

일부 실시예에서, 심볼 시퀀스는 자모 시퀀스 또는 음소 시퀀스이다.

일부 실시예에서, 장치(6)는 트레이닝 모듈60을 더 포함하고;

트레이닝 모듈은, 합성할 어구의 심볼 시퀀스를 획득하기 전에, 적어도 하나의 샘플 합성 어구 각각에 대응되는 샘플 심볼 시퀀스를 획득하고, 각각의 샘플 합성 어구는 샘플 객체 및 샘플 객체에 대한 참고 쿼리 결과를 특성화하며; 초기 음성 합성 모델, 초기 음향 특징 및 샘플 합성 어구에 대응되는 샘플 음향 특징을 획득하고, 초기 음성 합성 모델은 인코딩 처리 및 예측을 위한 모델이며; 샘플 심볼 시퀀스, 초기 음향 특징 및 샘플 음향 특징을 이용하여, 초기 음성 합성 모델을 트레이닝하여, 사전 설정 인코딩 모델, 사전 설정 디코딩 모델 및 사전 설정 주의력 모델을 획득하도록 구성된다.

설명해야 할 것은, 실제 응용에서, 상기 트레이닝 모듈(60), 시퀀스 생성 모듈(61), 음성 합성 모듈(62) 및 획득 모듈(63)은, 음성 합성 장치(7)에 위치하는 프로세서(74)에 의해 구현될 수도 있으며, 구체적으로 CPU(Central Processing Unit, 중앙 처리 장치), MPU(Microprocessor Unit, 마이크로 프로세서), DSP(Digital Signal Processing, 디지털 신호 프로세서) 또는 필드 프로그램 가능 게이트 어레이(FPGA, Field Programmable Gate Array) 등으로 구현된다.

본 발명의 실시예는 음성 합성 장치(7)를 더 제공하고, 도 7에 도시된 바와 같이, 상기 음성 합성 장치(70)는 프로세서(74), 메모리(75) 및 통신 버스(76)를 포함하며, 메모리(75)는 통신 버스(76)를 통해 프로세서(74)와 통신하고, 메모리(75)는 프로세서(74)에 의해 실행 가능한 하나 또는 다수의 음성 합성 프로그램을 저장하며, 하나 또는 다수의 음성 합성 프로그램이 실행될 때, 프로세서(74)를 통해 전술한 실시예에 따른 임의의 하나의 음성 합성 방법이 수행된다.

실제 응용에서, 메모리(75)는 프로세서(74)에 프로그램 및 데이터를 제공하기 위한, 랜덤 액세스 제1 메모리(Random-Access Memory, RAM)와 같은 휘발성 제1 메모리(volatile memory); 또는 판독 제1 메모리(Read-Only Memory, ROM), 플래시 제1 메모리(flash memory), 하드디스크(Hard Disk Drive, HDD) 또는 솔리드 스테이트 드라이브(Solid-State Drive, SSD)와 같은 비휘발성 제1 메모리(non-volatile memory); 또는 상기 종류의 제1 메모리의 조합일 수 있다.

본 발명의 실시예는 컴퓨터 판독 가능 저장 매체를 제공하고, 컴퓨터 판독 가능 저장 매체에는 음성 합성 프로그램이 저장되며, 상기 음성 합성 프로그램이 프로세서(74)에 의해 실행될 때, 상기 프로세서(74)로 하여금 전술한 실시예에 따른 임의의 하나의 음성 합성 방법을 수행하도록 구현한다.

본 기술분야의 통상의 기술자라면 본 발명의 실시예가 방법, 시스템, 또는 컴퓨터 프로그램 제품으로서 제공될 수 있음을 이해해야 한다. 따라서, 본 발명은 하드웨어 실시예, 소프트웨어 실시예, 또는 소프트웨어와 하드웨어를 결합한 실시예 형식을 사용할 수 있다. 또한, 본 발명은 컴퓨터 사용 가능 프로그램 코드가 포함된 하나 또는 다수의 컴퓨터 사용 가능 저장 매체(자기 디스크 메모리와 광 메모리 등을 포함하지만 이에 제한되지 않음)에서 구현되는 컴퓨터 프로그램 제품의 형식을 사용할 수 있다.

본 발명은 본 발명의 실시예의 방법, 기기(시스템) 및 컴퓨터 프로그램 제품의 흐름도 및/또는 블록도를 참조하여 설명된다. 컴퓨터 프로그램 명령에 의해 흐름도 및/또는 블록도의 각 흐름 및/또는 블록, 및 흐름도 및/또는 블록도의 흐름 및/또는 블록의 조합이 구현될 수 있음을 이해해야 한다. 이러한 컴퓨터 프로그램 명령은 범용 컴퓨터, 전용 컴퓨터, 임베디드 프로세서 또는 다른 프로그램 가능 음성 합성 기기의 프로세서에 제공되어 하나의 기계를 생성할 수 있어, 컴퓨터 또는 다른 프로그램 가능 음성 합성 기기의 프로세서에 의해 실행되는 명령을 통해, 흐름도의 하나 또는 다수의 흐름 및/또는 블록도의 하나 또는 다수의 블록에 지정된 기능을 구현하는 장치가 생성되도록 한다.

이러한 컴퓨터 프로그램 명령은 컴퓨터 또는 다른 프로그램 가능 음성 합성 기기가 특정된 방식으로 작업하도록 하는 컴퓨터 판독 가능 메모리에 저장될 수도 있어, 상기 컴퓨터 판독 가능 메모리에 저장된 명령이 흐름도의 하나의 흐름 또는 다수의 흐름 및/또는 블록도의 하나의 블록 또는 다수의 블록에 지정된 기능을 구현하는 명령 장치를 포함하는 제조품을 생성하도록 한다.

이러한 컴퓨터 프로그램 명령은 컴퓨터 또는 다른 프로그램 가능 음성 합성 기기에 로딩되어, 컴퓨터 또는 다른 프로그램 가능 기기에서 일련의 동작의 단계가 수행되도록 하여, 컴퓨터에 의해 구현되는 프로세스가 생성되도록 함으로써, 컴퓨터 또는 다른 프로그램 가능 기기에서 실행되는 명령은 흐름도의 하나의 흐름 또는 다수의 흐름 및/또는 블록도의 하나의 블록 또는 다수의 블록에 지정된 기능을 구현하는 단계를 제공할 수 있다.

본 발명에서 제공되는 각 방법 실시예에 개시된 방법은 충돌하지 않는 한 임의로 조합되어 새로운 방법 실시예를 얻을 수 있다.

본 발명에서 제공되는 각 제품 실시예에 개시된 특징은 충돌하지 않는 한 임의로 조합되어 새로운 제품 실시예를 얻을 수 있다.

본 발명에서 제공되는 각 방법 또는 기기 실시예에 개시된 특징은 충돌하지 않는 한 임의로 조합되어 새로운 방법 실시예 또는 기기 실시예를 얻을 수 있다.

상기 내용은 본 발명의 바람직한 실시예일 뿐, 본 발명의 보호범위를 제한하기 위한 것이 아니다.

본 발명의 실시예는 음성 합성 방법 및 장치, 저장 매체를 제공하여, 사전 설정 디코딩 모델, 특징 벡터 세트, 사전 설정 주의력 모델 및 녹음 음향 특징에 기반하여, 합성할 어구에 대응되는 예측 음향 특징을 획득하고, 합성할 어구가 녹음 어구 및 쿼리 결과 어구를 포함하기 때문에, 다시 말해서, 녹음 어구 및 쿼리 결과 어구에 대해, 모두 예측을 통해 대응되는 예측 음향 특징을 획득하고, 예측 음향 특징은 서로 연관되는 다수의 음향 특징으로 구성되므로, 녹음 및 합성 음성의 음성 속도, 음높이 등이 다른 문제를 해결함으로써, 예측 음향 특징을 이용하여 획득된 음성 운율이 일치하다. 다음, 합성할 어구에 대응되는 예측 음향 특징에 대해 특징 전환 및 합성을 수행하여 음성을 획득함으로써, 녹음 및 합성 음성을 접합할 때 존재하는 과도 시간 길이가 불확실한 문제를 피하고, 합성된 음성의 품질을 향상시킨다.

Claims

음성 합성 방법으로서,
합성할 어구의 심볼 시퀀스를 획득하는 단계 - 상기 합성할 어구는 타깃 객체를 특성화하는 녹음 어구 및 상기 타깃 객체에 대한 쿼리 결과 어구를 포함함 - ;
사전 설정 인코딩 모델을 이용하여, 상기 심볼 시퀀스에 대해 인코딩 처리를 수행하여, 특징 벡터 세트를 획득하는 단계;
상기 녹음 어구에 대응되는 녹음 음향 특징을 획득하는 단계;
사전 설정 디코딩 모델, 상기 특징 벡터 세트, 사전 설정 주의력 모델 및 상기 녹음 음향 특징에 기반하여, 상기 합성할 어구에 대응되는 음향 특징을 예측하여, 상기 합성할 어구에 대응되는 예측 음향 특징을 획득하는 단계 - 상기 사전 설정 주의력 모델은 상기 특징 벡터 세트를 이용하여 디코딩을 위한 컨텍스트 벡터를 생성하는 모델이고, 상기 예측 음향 특징은 서로 연관되는 적어도 하나의 음향 특징으로 구성됨 - ; 및
상기 예측 음향 특징에 대해 특징 전환 및 합성을 수행하여, 상기 합성할 어구에 대응되는 음성을 획득하는 단계를 포함하며,
상기 사전 설정 디코딩 모델, 상기 특징 벡터 세트, 사전 설정 주의력 모델 및 상기 녹음 음향 특징에 기반하여, 상기 합성할 어구에 대응되는 음향 특징을 예측하여, 상기 합성할 어구에 대응되는 예측 음향 특징을 획득하는 단계는,
i가 1과 같을 때, i번째 디코딩 시각에 초기 음향 특징을 획득하고, 상기 초기 음향 특징, 상기 사전 설정 디코딩 모델, 상기 특징 벡터 세트 및 상기 사전 설정 주의력 모델에 기반하여, 첫 번째 음향 특징을 예측하는 단계 - i는 0보다 큰 정수임 - ;
i가 1보다 클 경우, 상기 i번째 디코딩 시각이 상기 녹음 어구의 디코딩 시각일 때, 상기 녹음 음향 특징에서 제j 프레임의 음향 특징을 추출하고, 상기 제j 프레임의 음향 특징을 제i-1 프레임의 음향 특징으로 사용하며, 상기 제i-1 프레임의 음향 특징, 상기 사전 설정 디코딩 모델, 상기 특징 벡터 세트 및 상기 사전 설정 주의력 모델에 기반하여, i번째 음향 특징을 예측하는 단계 - j는 0보다 큰 정수임 - ;
상기 i번째 디코딩 시각이 상기 쿼리 결과 어구의 디코딩 시각일 때, i-1번째 음향 특징 중의 한 프레임의 음향 특징을 제i-1 프레임의 음향 특징으로 사용하고, 상기 제i-1 프레임의 음향 특징, 상기 사전 설정 디코딩 모델, 상기 특징 벡터 세트 및 상기 사전 설정 주의력 모델에 기반하여, i번째 음향 특징을 예측하는 단계;
상기 합성할 어구의 디코딩이 종료될 때까지 i+1번째 디코딩 시각의 예측 과정을 계속 수행하여, n번째 음향 특징을 획득하는 단계 - n은 상기 합성할 어구의 디코딩 시각의 총 프레임 수이며 1보다 큰 정수임 - ; 및
획득된 상기 i번째 음향 특징 내지 상기 n번째 음향 특징을 상기 예측 음향 특징으로 사용하는 단계를 포함하는 음성 합성 방법.
삭제
제1항에 있어서,
상기 사전 설정 디코딩 모델은 제1 순환 신경망 및 제2 순환 신경망을 포함하고; 상기 제i-1 프레임의 음향 특징, 상기 사전 설정 디코딩 모델, 상기 특징 벡터 세트 및 상기 사전 설정 주의력 모델에 기반하여, i번째 음향 특징을 예측하는 단계는,
상기 제i-1 프레임의 음향 특징에 대해 비선형 변화를 수행하여, 중간 특징 벡터를 획득하는 단계;
상기 제1 순환 신경망을 이용하여, 상기 중간 특징 벡터에 대해 행렬 연산 및 비선형 변환을 수행하여, i번째 중간 잠재변수를 획득하는 단계;
상기 사전 설정 주의력 모델을 이용하여, 상기 특징 벡터 세트 및 상기 i번째 중간 잠재변수에 대해 컨텍스트 벡터 산출을 수행하여, i번째 컨텍스트 벡터를 획득하는 단계;
상기 제2 순환 신경망을 이용하여, 상기 i번째 컨텍스트 벡터 및 상기 i번째 중간 잠재변수에 대해 행렬 연산 및 비선형 변환을 수행하여, i번째 잠재변수를 획득하는 단계; 및
사전 설정 프레임 수에 따라, 상기 i번째 잠재변수에 대해 선형 변환을 수행하여, 상기 i번째 음향 특징을 획득하는 단계를 포함하는 음성 합성 방법.
제3항에 있어서,
상기 특징 벡터 세트는 상기 심볼 시퀀스 중 각각의 심볼에 대응되는 특징 벡터를 포함하고; 상기 사전 설정 주의력 모델을 이용하여, 상기 특징 벡터 세트 및 상기 i번째 중간 잠재변수에 대해 컨텍스트 벡터 산출을 수행하여, i번째 컨텍스트 벡터를 획득하는 단계는,
상기 사전 설정 주의력 모델을 이용하여, 상기 심볼 시퀀스 중 각각의 심볼에 대응되는 특징 벡터 및 상기 i번째 중간 잠재변수에 대해 주의력 산출을 수행하여, 제i 그룹의 주의력 수치를 획득하는 단계; 및
상기 제i 그룹의 주의력 수치에 따라, 상기 특징 벡터 세트에 대해 가중 합산을 수행하여, 상기 i번째 컨텍스트 벡터를 획득하는 단계를 포함하는 음성 합성 방법.
제4항에 있어서,
상기 제i-1 프레임의 음향 특징, 상기 사전 설정 디코딩 모델, 상기 특징 벡터 세트 및 상기 사전 설정 주의력 모델에 기반하여, i번째 음향 특징을 예측하는 단계 후, 상기 i+1번째 디코딩 시각의 예측 과정을 계속 수행하는 단계 전에,
상기 음성 합성 방법은, 상기 제i 그룹의 주의력 수치에서 최대 주의력 수치에 대응되는 i번째 타깃 심볼을 결정하는 단계; 및
상기 i번째 타깃 심볼이 상기 녹음 어구의 비종료 심볼일 때, 상기 i+1번째 디코딩 시각이 상기 녹음 어구의 디코딩 시각임을 결정하는 단계;
상기 i번째 타깃 심볼이 상기 쿼리 결과 어구의 비종료 심볼일 때, 상기 i+1번째 디코딩 시각이 상기 쿼리 결과 어구의 디코딩 시각임을 결정하는 단계;
상기 i번째 타깃 심볼이 상기 녹음 어구의 종료 심볼이고 상기 녹음 어구의 종료 심볼이 상기 합성할 어구의 종료 심볼이 아닐 때, 상기 i+1번째 디코딩 시각이 상기 쿼리 결과 어구의 디코딩 시각임을 결정하는 단계;
상기 i번째 타깃 심볼이 상기 쿼리 결과 어구의 종료 심볼이고 상기 쿼리 결과 어구의 종료 심볼이 상기 합성할 어구의 종료 심볼이 아닐 때, 상기 i+1번째 디코딩 시각이 상기 녹음 어구의 디코딩 시각임을 결정하는 단계; 및
상기 i번째 타깃 심볼이 상기 합성할 어구의 종료 심볼일 때, 상기 i+1번째 디코딩 시각이 상기 합성할 어구의 디코딩 종료 시각임을 결정하는 단계; 중 적어도 하나의 단계를 더 포함하는 음성 합성 방법.
제1항에 있어서,
상기 사전 설정 인코딩 모델을 이용하여, 상기 심볼 시퀀스에 대해 인코딩 처리를 수행하여, 특징 벡터 세트를 획득하는 단계는,
상기 사전 설정 인코딩 모델을 이용하여, 상기 심볼 시퀀스에 대해 벡터 전환을 수행하여, 초기 특징 벡터 세트를 획득하는 단계;
상기 초기 특징 벡터 세트에 대해 비선형 변화 및 특징 추출을 수행하여, 상기 특징 벡터 세트를 획득하는 단계를 포함하는 음성 합성 방법.
제1항에 있어서,
상기 예측 음향 특징에 대해 특징 전환 및 합성을 수행하여, 상기 합성할 어구에 대응되는 음성을 획득하는 단계는,
상기 예측 음향 특징에 대해 특징 전환을 수행하여, 선형 스펙트럼을 획득하는 단계; 및
상기 선형 스펙트럼에 대해 재구성 합성을 수행하여, 상기 음성을 획득하는 단계를 포함하는 음성 합성 방법.
제1항에 있어서,
상기 심볼 시퀀스는 자모 시퀀스 또는 음소 시퀀스인 음성 합성 방법.
제1항에 있어서,
상기 합성할 어구의 심볼 시퀀스를 획득하는 단계 전에, 상기 음성 합성 방법은,
적어도 하나의 샘플 합성 어구 각각에 대응되는 샘플 심볼 시퀀스를 획득하는 단계 - 상기 각각의 샘플 합성 어구는 샘플 객체 및 상기 샘플 객체에 대한 참고 쿼리 결과를 특성화함 - ;
초기 음성 합성 모델, 초기 음향 특징 및 상기 샘플 합성 어구에 대응되는 샘플 음향 특징을 획득하는 단계 - 상기 초기 음성 합성 모델은 인코딩 처리 및 예측을 위한 모델임 - ; 및
상기 샘플 심볼 시퀀스, 상기 초기 음향 특징 및 상기 샘플 음향 특징을 이용하여, 상기 초기 음성 합성 모델을 트레이닝하여, 상기 사전 설정 인코딩 모델, 상기 사전 설정 디코딩 모델 및 상기 사전 설정 주의력 모델을 획득하는 단계를 더 포함하는 음성 합성 방법.
음성 합성 장치로서,
상기 음성 합성 장치는 시퀀스 생성 모듈, 음성 합성 모듈 및 획득 모듈을 포함하고;
상기 시퀀스 생성 모듈은 합성할 어구의 심볼 시퀀스를 획득하도록 구성되며, 상기 합성할 어구는 타깃 객체를 특성화하는 녹음 어구 및 상기 타깃 객체에 대한 쿼리 결과 어구를 포함하고;
상기 음성 합성 모듈은 사전 설정 인코딩 모델을 이용하여, 상기 심볼 시퀀스에 대해 인코딩 처리를 수행하여, 특징 벡터 세트를 획득하도록 구성되며;
상기 획득 모듈은 상기 녹음 어구에 대응되는 녹음 음향 특징을 획득하도록 구성되고;
상기 음성 합성 모듈은 또한, 사전 설정 디코딩 모델, 상기 특징 벡터 세트, 사전 설정 주의력 모델 및 상기 녹음 음향 특징에 기반하여, 상기 합성할 어구에 대응되는 음향 특징을 예측하여, 상기 합성할 어구에 대응되는 예측 음향 특징을 획득하며, 상기 사전 설정 주의력 모델은 상기 특징 벡터 세트를 이용하여 디코딩을 위한 컨텍스트 벡터를 생성하는 모델이고, 상기 예측 음향 특징은 서로 연관되는 적어도 하나의 음향 특징으로 구성되며; 상기 예측 음향 특징에 대해 특징 전환 및 합성을 수행하여, 상기 합성할 어구에 대응되는 음성을 획득하도록 구성되며,
상기 음성 합성 모듈은 또한,
i가 1과 같을 때, i번째 디코딩 시각에 초기 음향 특징을 획득하고, 상기 초기 음향 특징, 상기 사전 설정 디코딩 모델, 상기 특징 벡터 세트 및 상기 사전 설정 주의력 모델에 기반하여, 첫 번째 음향 특징을 예측하고, i는 0보다 큰 정수이며;
i가 1보다 클 경우, 상기 i번째 디코딩 시각이 상기 녹음 어구의 디코딩 시각일 때, 상기 녹음 음향 특징에서 제j 프레임의 음향 특징을 추출하고, 상기 제j 프레임의 음향 특징을 제i-1 프레임의 음향 특징으로 사용하며, 상기 제i-1 프레임의 음향 특징, 상기 사전 설정 디코딩 모델, 상기 특징 벡터 세트 및 상기 사전 설정 주의력 모델에 기반하여, i번째 음향 특징을 예측하고, j는 0보다 큰 정수이며;
상기 i번째 디코딩 시각이 상기 쿼리 결과 어구의 디코딩 시각일 때, i-1번째 음향 특징 중의 한 프레임의 음향 특징을 제i-1 프레임의 음향 특징으로 사용하고, 상기 제i-1 프레임의 음향 특징, 상기 사전 설정 디코딩 모델, 상기 특징 벡터 세트 및 상기 사전 설정 주의력 모델에 기반하여, i번째 음향 특징을 예측하고;
상기 합성할 어구의 디코딩이 종료될 때까지 i+1번째 디코딩 시각의 예측 과정을 계속 수행하여, n번째 음향 특징을 획득하고, n은 상기 합성할 어구의 디코딩 시각의 총 프레임 수이며 1보다 큰 정수이며;
획득된 상기 i번째 음향 특징 내지 상기 n번째 음향 특징을 상기 예측 음향 특징으로 사용하도록 구성되는 음성 합성 장치.
음성 합성 장치로서,
상기 음성 합성 장치는 프로세서, 메모리 및 통신 버스를 포함하고, 상기 메모리는 상기 통신 버스를 통해 상기 프로세서와 통신하며, 상기 메모리는 상기 프로세서에 의해 실행 가능한 하나 또는 다수의 프로그램을 저장하고, 상기 하나 또는 다수의 프로그램이 실행될 때, 상기 프로세서를 통해 제1항, 제3항 내지 제9항 중 어느 한 항에 따른 방법이 수행되는 음성 합성 장치.
컴퓨터 판독 가능 저장 매체로서,
상기 컴퓨터 판독 가능 저장 매체에는 프로그램이 저장되고, 상기 프로그램이 적어도 하나의 프로세서에 의해 실행될 때, 상기 적어도 하나의 프로세서로 하여금 제1항, 제3항 내지 제9항 중 어느 한 항에 따른 방법을 수행하도록 하는 컴퓨터 판독 가능 저장 매체.