KR20210036883A

KR20210036883A - 모델 트레이닝 방법, 음성 합성 방법, 장치, 기기 및 저장 매체

Info

Publication number: KR20210036883A
Application number: KR1020210034326A
Authority: KR
Inventors: 정쿤 가오; 쥔텅 장; 웬푸 왕; 타오 쑨
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2020-06-15
Filing date: 2021-03-16
Publication date: 2021-04-05
Also published as: US11769480B2; EP3879525A1; JP7259197B2; US20210390943A1; CN111667816B; KR102496817B1; JP2021196598A; CN111667816A; EP3879525B1

Abstract

본 출원은 자연 언어 처리 및 딥러닝 기술 분야에 관한 것으로, 모델 트레이닝 방법, 음성 합성 방법, 장치, 기기 및 저장 매체를 개시한다. 모델 트레이닝 단계에서, 구체적인 구현 수단은, 샘플 텍스트 데이터의 음소 특징 및 운율 단어 경계 특징을 결정하고; 상기 운율 단어 경계 특징에 따라, 상기 음소 특징에 휴지부를 삽입하여, 상기 샘플 텍스트 데이터의 조합 특징을 획득하며; 상기 샘플 텍스트 데이터의 조합 특징에 따라, 초기 음성 합성 모델을 트레이닝하여 타깃 음성 합성 모델을 획득하는 것이다. 본 출원의 기술은 음성 합성의 유창성을 향상시킨다.

Description

모델 트레이닝 방법, 음성 합성 방법, 장치, 기기 및 저장 매체{METHOD AND APPARATUS FOR TRAINING MODEL, METHOD AND APPARATUS FOR SYNTHESIZING SPEECH, DEVICE AND STORAGE MEDIUM}

본 출원은 음성 기술 분야에 관한 것으로, 특히 자연 언어 처리 및 딥러닝 기술 분야에 관한 것이며, 구체적으로 모델 트레이닝 방법, 음성 합성 방법, 장치, 기기 및 저장 매체에 관한 것이다.

인공 지능 기술의 발전에 따라, 지능형 음성 인터랙션은 작업 생활의 다양한 분야에 널리 사용되고 있으며, 예를 들어 AI(Artificial Intelligence, 인공 지능) 합성 앵커를 통해, 뉴스를 방송하고, 지능형 스피커 박스를 통해 음성 메시지 등을 방송한다.

음성 합성은 문자 특징을 음성으로 변환하는 지능형 음성 인터랙션의 기초이다. 합성 음성의 유창성은 지능형 음성 인터랙션의 핵심이다.

본 출원은 모델 트레이닝 방법, 음성 합성 방법, 장치, 기기 및 저장 매체를 제공한다.

본 출원의 제1 양태에 따르면, 음성 합성 모델의 트레이닝 방법을 제공하며, 상기 방법은,

샘플 텍스트 데이터의 음소 특징 및 운율 단어 경계 특징을 결정하는 단계;

상기 운율 단어 경계 특징에 따라, 상기 음소 특징에 휴지부를 삽입하여, 상기 샘플 텍스트 데이터의 조합 특징을 획득하는 단계; 및

상기 샘플 텍스트 데이터의 조합 특징에 따라, 초기 음성 합성 모델을 트레이닝하여 타깃 음성 합성 모델을 획득하는 단계를 포함한다.

본 출원의 제2 양태에 따르면, 음성 합성 방법을 제공하며, 상기 방법은,

타깃 텍스트 데이터의 음소 특징 및 운율 단어 경계 특징을 결정하는 단계;

상기 운율 단어 경계 특징에 따라, 상기 음소 특징에 휴지부를 삽입하여, 상기 타깃 텍스트 데이터의 조합 특징을 획득하는 단계; 및

타깃 음성 합성 모델에 기반하여, 상기 타깃 텍스트 데이터의 조합 특징에 따라 음향학 특징을 획득하고, 상기 음향학 특징을 사용하여 타깃 음성을 합성하는 단계를 포함한다.

본 출원의 제3 양태에 따르면, 음성 합성 모델의 트레이닝 장치를 제공하며, 상기 장치는,

샘플 텍스트 데이터의 음소 특징 및 운율 단어 경계 특징을 결정하는 샘플 음소 경계 모듈;

상기 운율 단어 경계 특징에 따라, 상기 음소 특징에 휴지부를 삽입하여, 상기 샘플 텍스트 데이터의 조합 특징을 획득하는 샘플 특징 조합 모듈; 및

상기 샘플 텍스트 데이터의 조합 특징에 따라, 초기 음성 합성 모델을 트레이닝하여 타깃 음성 합성 모델을 획득하는 모델 트레이닝 모듈을 포함한다.

본 출원의 제4 양태에 따르면, 음성 합성 장치를 제공하며, 상기 장치는,

타깃 텍스트 데이터의 음소 특징 및 운율 단어 경계 특징을 결정하는 타깃 음소 경계 모듈;

상기 운율 단어 경계 특징에 따라, 상기 음소 특징에 휴지부를 삽입하여, 상기 타깃 텍스트 데이터의 조합 특징을 획득하는 타깃 특징 조합 모듈; 및

타깃 음성 합성 모델에 기반하여, 상기 타깃 텍스트 데이터의 조합 특징에 따라 음향학 특징을 획득하고, 상기 음향학 특징을 사용하여 타깃 음성을 합성하는 음성 합성 모듈을 포함한다.

본 출원의 제5 양태에 따르면, 전자 기기를 제공하며, 상기 전자 기기는,

적어도 하나의 프로세서; 및

상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하되;

상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되고, 상기 명령어가 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서가 본 출원의 실시예 중 어느 한 항에 따른 음성 합성 모델의 트레이닝 방법 또는 음성 합성 방법을 수행할 수 있도록 한다.

본 출원의 제6 양태에 따르면, 컴퓨터 명령어가 저장된 비일시적 컴퓨터 판독 가능 저장 매체를 제공하며, 상기 컴퓨터 명령어는 컴퓨터가 본 출원의 실시예 중 어느 한 항에 따른 음성 합성 모델의 트레이닝 방법 또는 음성 합성 방법을 수행하도록 한다.

본 출원의 제6 양태에 따르면, 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램을 제공하며, 상기 컴퓨터 프로그램은 프로세서에 의해 실행될 경우 본 출원의 실시예 중 어느 한 항에 따른 음성 합성 모델의 트레이닝 방법 또는 음성 합성 방법을 수행하도록 한다.

본 출원에 따른 기술은 음성 합성의 유창성을 향상시킨다.

본 부분에서 설명된 내용은 본 출원의 실시예의 핵심 또는 중요한 특징을 식별하기 위한 것이 아니며, 본 출원의 범위를 한정하려는 의도도 아님을 이해해야 할 것이다. 본 출원의 다른 특징은 아래 명세서에 의해 쉽게 이해될 것이다.

도면은 본 해결수단을 더 잘 이해하기 위한 것으로, 본 출원에 대해 한정하는 것으로 구성되지 않는다. 여기서,
도 1a는 본 출원의 실시예에 따라 제공된 본 출원의 실시예에 따라 제공된 음성 합성 모델의 트레이닝 방법의 흐름 개략도이다.
도 1b는 본 출원의 실시예에 따라 제공된 운율 단어 경계의 개략도이다.
도 2는 본 출원의 실시예에 따라 제공된 음성 합성 모델의 트레이닝 방법의 흐름 개략도이다.
도 3은 본 출원의 실시예에 따라 제공된 음성 합성 방법의 흐름 개략도이다.
도 4는 본 출원의 실시예에 따라 제공된 음성 합성 방법의 흐름 개략도이다.
도 5는 본 출원의 실시예에 따라 제공된 음성 합성 처리 방법의 흐름 개략도이다.
도 6은 본 출원의 실시예에 따라 제공된 음성 합성 모델 처리 장치의 구조 개략도이다.
도 7은 본 출원의 실시예에 따라 제공된 음성 합성 장치의 구조 개략도이다.
도 8은 본 출원의 실시예의 음성 합성 모델의 트레이닝 방법 또는 음성 합성 방법을 구현하기 위한 전자 기기의 블록도이다.

이하 첨부된 도면을 결부하여 본 출원의 예시적 실시예를 설명하되, 여기에는 이해를 돕기 위한 본 출원의 실시예의 다양한 세부 사항이 포함되어 있으며, 이는 단지 예시적인 것으로 간주되어야 한다. 따라서, 본 기술분야의 통상의 기술자는 본 출원의 범위와 사상을 벗어나지 않는 한, 여기서 설명되는 실시예에 대한 다양한 변경과 수정이 이루어질 수 있음을 이해해야 한다. 마찬가지로, 명확하고 간결한 설명을 위해, 아래의 설명에서 주지 기능과 구조에 대한 설명을 생략한다.

도 1a는 본 출원의 실시예에 따라 제공된 본 출원의 실시예에 따라 제공된 음성 합성 모델의 트레이닝 방법의 흐름 개략도이다. 본 실시예는 음성 합성 모델에 대해 트레이닝하는 경우에 적용될 수 있다. 본 실시예에서 개시된 음성 합성 모델의 트레이닝 방법은 전자 기기에 의해 수행될 수 있고, 구체적으로 음성 합성 모델의 트레이닝 장치에 의해 수행될 수 있으며, 상기 장치는 소프트웨어 및/또는 하드웨어의 방식으로 구현될 수 있고, 전자 기기에 구성된다. 도 1a를 참조하면, 본 실시예에서 제공된 음성 합성 모델의 트레이닝 방법은 하기와 같은 단계를 포함한다.

단계 S110에서, 샘플 텍스트 데이터의 음소 특징 및 운율 단어 경계 특징을 결정한다.

여기서, 음소는 음성의 자연 속성에 따라 나뉘어진 최소 음성 단위이고, 음절의 발음 동작에 따라 나뉘어지며, 하나의 동작은 하나의 음소를 구성한다. 음소는 모음과 자음 두 분류로 나뉜다. 음소 특징은 샘플 텍스트 데이터의 음소 시퀀스일 수 있다. 구체적으로, 샘플 텍스트 데이터의 병음을 결정하고, 음소 입도에 따라 병음을 분할하여 샘플 텍스트 데이터의 음소 특징을 획득한다. "san ge hao ren(三介好人)"을 예로, 음소 특징은 s, an, g, e, h, ao, r 및 en일 수 있다.

여기서, 텍스트 데이터에 나타나는 휴지의 음절 위치는 운율 단어 경계이고, 운율 단어, 운율 구 및 억양 구 중 적어도 하나를 포함할 수 있다. 구체적으로, 미리 트레이닝하여 획득된 운율 경계 감지 모델에 기반하여, 샘플 텍스트 데이터에 대해 운율 단어 경계 예측을 수행하여, 샘플 텍스트 데이터의 운율 단어 경계 특징을 획득할 수 있다. 도 1b를 참조하면, 여전히 "san ge hao ren(三介好人)"을 예로, 운율 경계 특징은 운율 단어 "san ge(三介)" 및 운율 단어 "hao ren(好人)", 운율 구 "san ge hao ren(三介好人)"일 수 있으며, 즉 "ge(介)" 이후 휴지 위치는 운율 단어이고, "ren(人)" 이후 휴지 위치는 운율 구이다.

단계 S120에서, 상기 운율 단어 경계 특징에 따라, 상기 음소 특징에 휴지부를 삽입하여, 상기 샘플 텍스트 데이터의 조합 특징을 획득한다.

여기서, 휴지부는 음절 사이에 휴지가 구비되는 것을 특성화한다. 운율 단어 경계 특징은 상이하고, 휴지부는 동일하다. 운율 단어 경계 특징과 관련된 휴지부를 특수한 음소로서 음소 특징에 삽입하여, 샘플 텍스트 데이터의 조합 특징을 획득한다.

운율 단어 및 운율 구가 각각 휴지부 bk와 연관되는 것을 예로, 음소 특징 s, an, g, e, h, ao, r 및 en에 휴지부 bk를 삽입하여, 조합 특징 s, an, g, e, bk, h, ao, r, en 및 bk를 획득한다.

단계 S130에서, 상기 샘플 텍스트 데이터의 조합 특징에 따라, 초기 음성 합성 모델을 트레이닝하여 타깃 음성 합성 모델을 획득한다.

여기서, 초기 음성 합성 모델은 신경망에 기반한 음성 합성 모델일 수 있고, 음향학 특징을 출력하는데 사용된다. 본 출원의 실시예는 음향 스펙트럼 예측 네트워크와 같은 신경망 구조에 대해 구체적으로 한정하지 않는다. 구체적으로, 조합 특징의 벡터 표현을 결정하고, 조합 특징의 벡터 표현을 초기 음성 합성 모델의 입력으로 사용하여, 초기 음성 합성 모델을 트레이닝한다.

음소 특징에 운율 단어 경계를 나타내는 휴지부를 삽입하여, 휴지부를 특수한 음소 특징으로 사용함으로써, 음성 합성 모델 트레이닝 과정에서 음소 특징을 학습할 뿐만 아니라, 운율 단어 경계 특징도 학습하도록 하며, 즉 음성 합성 모델에 운율 정보가 융합되어 후속의 합성된 음서이 보다 유창하도록 한다. 또한, 조합 특징이 음소 입도의 특징이므로, 모델 트레이닝 과정에서 문구, 단어 입도의 음성 합성에 비해, 보다 세밀한 입도의 처리를 통해, 합성 음성의 자연도를 향상시킨다. 또한, 음소는 중국어, 영어 등 다양한 언어 유형이 갖는 공통 특징이므로, 음소 입도에 기반한 음성 합성 모델은 중국어, 영어 등 단일한 언어 상황에 적용되어 양호한 성능을 가질 뿐만 아니라, 특히 중국어와 영어가 혼합된 상황과 같은 다양한 언어 유형의 혼합용 상황에서 양호한 성능을 갖는다.

일 선택 가능한 실시형태에서, 단계 S120은 상기 운율 단어 경계 특징에 따라, 상기 음소 특징 중 운율 단어 위치를 결정하는 단계; 및 상기 운율 단어 위치에 상기 휴지부를 삽입하여, 상기 샘플 텍스트 데이터의 조합 특징을 획득하는 단계를 포함한다.

운율 단어 경계 예측 과정에서, 운율 단어의 정확도가 운율 구 및 억양 구의 정확도보다 높고, 또한 운율 구 및 억양 구의 휴지 위치가 마찬가지로 운율 단어의 휴지 위치이므로, 조합 특징에 운율 단어 휴지부를 도입하고, 운율 구 및 억양 구 휴지부를 도입하지 않으며, 즉 운율 구 및 억양 구를 운율 단어로 간주하면, 운율 구 및 억양 구 예측 정확도가 낮음으로 인한 모델 성능이 감소되는 것을 방지할 수 있다.

선택 가능하게, 초기 음성 합성 모델을 트레이닝하여 타깃 음성 합성 모델을 획득하는 단계 이후에, 상기 초기 음성 합성 모델의 출력 및 샘플 오디오 데이터를 사용하여, 초기 보코더에 대해 트레이닝하여 타깃 보코더를 획득하는 단계를 더 포함한다. 본 출원의 실시예는 보코더 구조에 대해 구체적으로 한정하지 않으며, 예를 들어 RNN(Cyclic neural network, 순환 신경망) 보코더일 수 있다. 음성 합성 모델과 보코더를 함께 트레이닝하여, 음성 합성 모델과 보코더의 견고성을 향상시킬 수 있다.

본 출원의 실시예의 기술적 해결수단에서, 음소 특징에 운율 단어 경계 특징을 나타내는 휴지부를 삽입하여 조합 특징을 획득하고, 샘플 텍스트 데이터의 조합 특징에 기반하여 초기 음성 합성 모델을 트레이닝함으로써, 타깃 음성 합성 모델이 운율 정보를 갖도록 하여, 후속의 합성된 음성이 보다 유창해지도록 한다. 또한, 음소 입도에 기반한 음성 합성 모델은 일반성이 강하고, 특히 다국어 혼합 상황에서 양호한 성능을 갖는다.

도 2는 본 출원의 실시예에 따라 제공된 음성 합성 모델의 트레이닝 방법의 흐름 개략도이다. 본 실시예는 상기 실시예의 기초상에서 제출된 일 선택 가능한 수단이다. 도 2를 참조하면, 본 실시예에서 제공된 음성 합성 모델의 트레이닝 방법은 하기와 같은 단계를 포함한다.

단계 S210에서, 샘플 텍스트 데이터의 음소 특징 및 운율 단어 경계 특징을 결정한다.

단계 S220에서, 상기 운율 단어 경계 특징에 따라, 상기 음소 특징에 휴지부를 삽입하여, 상기 샘플 텍스트 데이터의 조합 특징을 획득한다.

단계 S230에서, 상기 조합 특징 및 샘플 오디오 데이터의 음향학 특징에 따라, 휴지 암묵적 특징 분포를 결정한다.

여기서, 샘플 오디오 데이터는 샘플 텍스트 데이터와 연관되고, 즉 샘플 오디오 데이터는 유창성이 요구를 충족시키는 샘플 텍스트 데이터의 오디오 데이터이다. 음향학 특징은 멜 스펙트럼 특징, 에너지 특징 등일 수 있다. 암묵적 특징은, 직접 획득할 수 없는 열성 특징을 의미하고, 직접 획득할 수 있는 우성 특징에 대해 상대적인 의미를 가지며, 휴지 암묵적 특징 분포는 가우스 분포일 수 있다. 예를 들어, 휴지는 운율 단어 경계의 우성 특징으로, 운율 단어 경계 부분에 휴지가 있음을 직접 획득할 수 있지만, 운율 단어 경계와 음향학 특징 사이의 관계는 직접 획득할 수 없으며, 운율 단어 경계의 열성 특징이다.

구체적으로, 조합 특징 및 샘플 오디오 데이터의 음향학 특징을 처리하여, 오디오 및 휴지부의 음향학 특징을 획득하고, 휴지부의 암묵적 특징이 가우스 분포를 따른다고 가정하면, 휴지부의 음향학 특징에 따라 휴지 암묵적 특징 분포를 피팅한다.

일 선택 가능한 실시형태에서, 단계 S230은 상기 조합 특징 및 상기 샘플 오디오 데이터의 음향학 특징을 정렬하여, 상기 조합 특징 중 휴지부의 음향학 특징을 획득하는 단계; 및 변분 오토인코더를 통해 상기 휴지부의 음향학 특징을 처리하여, 상기 휴지 암묵적 특징 분포를 획득하는 단계를 포함한다.

여기서, 변분 오토인코더(Variational Auto-Encoder: VAE)는 휴지부의 음향학 특징을 사후 분포에 매핑하고; 사후 분포는 가우스 분포일 수 있다. 구체적으로, 정렬 도구를 통해, 조합 특징 중 음소 및 휴지부와 연관된 오디오 프레임을 결정함으로써, 음소 및 휴지부의 음향학 특징을 획득하고, 변분 오토인코더를 통해 휴지부의 음향학 특징을 처리하여 휴지 암묵적 특징 분포를 획득한다. 여기서, 정렬 도구는 인코딩 레이어와 어텐션 레이어를 포함할 수 있으며, 조합 특징 중 음소 및 휴지부를 인코딩 레이어의 입력으로 사용하고, 인코딩 레이어에서 출력된 의미 벡터 및 샘플 오디오 데이터의 음향학 특징을 어텐션 레이어의 입력으로 사용하여, 음소 및 휴지부의 음향학 특징을 획득한다. 샘플 중 각 휴지부의 음향학 특징을 피팅하여, 음향학 특징과 휴지부 사이의 관계, 즉 휴지 암묵적 특징 분포를 획득한다.

설명해야 할 것은, 정렬 도구는 휴지부와 연관된 오디오 프레임을 획득할 수 있으므로, 휴지부와 연관된 휴지 지속 시간을 획득할 수 있다. 휴지 암묵적 특징 분포에 따라 휴지부의 암묵적 특징을 획득할 수 있어, 휴지 지속 시간과 암묵적 특징 사이의 연관 관계를 획득할 수 있으므로, 후속의 모델 사용 단계에서 휴지 지속 시간과 암묵적 특징 사이의 연관 관계에 따라 수요에 따라 상이한 체류 지속 시간의 음성을 합성하는데 편이하다.

단계 S240에서, 상기 조합 특징 및 상기 휴지 암묵적 특징 분포에 따라, 초기 음성 합성 모델에 대해 비지도(unsupervised) 트레이닝을 수행하여, 타깃 음성 합성 모델을 획득한다.

휴지 암묵적 특징 분포와 결합하여, 초기 음성 합성 모델을 트레이닝함으로써, 모델이 휴지 암묵적 특징을 학습할 수 있도록 할 뿐만 아니라, 모델의 성능도 향상시키고, 이로써 합성 음성의 품질을 향상시킨다. 또한, 변분 오토인코더를 통해, 휴지 암묵적 특징 분포를 획득함으로써, 음성 합성 모델이 상이한 체류 지속 시간의 휴지부의 암묵적 특징을 학습할 수 있도록 하여, 음성 합성 과정에서 수요에 따라 상이한 체류 지속 시간의 오디오를 합성하는 것을 지지한다.

일 선택 가능한 실시형태에서, 단계 S240은 상기 조합 특징에 따라, 조합 특징 벡터 표현을 결정하는 단계; 상기 휴지 암묵적 특징 분포에 대해 샘플링을 수행하여 휴지 암묵적 특징을 획득하는 단계; 상기 조합 특징 벡터 표현을 상기 초기 음성 합성 모델 중 디코더의 입력으로 사용하고, 상기 디코더의 출력과 상기 휴지 암묵적 특징을 스티칭하여 콘텍스트 벡터를 획득하는 단계; 및 상기 초기 음성 합성 모델 중 인코더를 통해, 상기 콘텍스트 벡터에 대해 인코딩을 수행하여, 상기 초기 음성 합성 모델에 의해 출력된 음향학 특징을 획득하는 단계를 포함한다.

구체적으로, 후보 음소 특징과 벡터 표현 사이의 제1 연관 관계, 휴지부와 벡터 표현 사이의 제2 연관 관계를 미리 구축할 수 있으며, 예를 들어 음소 특징 및 휴지부의 벡터 표현은 고정 길이의 벡터 표현일 수 있고, 상이한 후보 음소 특징의 벡터 표현은 상이하며, 상이한 휴지부의 벡터 표현은 상이하다. 조합 특징 중 음속 특징, 휴지부를 제1 연관 관계 및 제2 연관 관계와 매칭하여, 조합 특징 벡터 표현을 획득한다.

상기 조합 특징 벡터 표현을 초기 음성 합성 모델 중 디코더의 입력으로 사용하고, 상기 디코더의 출력과 상기 휴지 암묵적 특징을 스티칭하여 디코더의 최종 출력을 획득한다. 디코더의 최종 출력에 따라 인코딩을 수행하여, 조합 특징 중 음소 및 휴지부의 음향학 특징을 획득한다. 휴지 암묵적 특징과 디코더 출력을 스티칭하여, 음성 합성 모델 트레이닝 과정에서 휴지 암묵적 특징을 학습할 수 있도록 할 뿐만 아니라, 또한 비지도 트레이닝을 통해 인위적 라벨링에 의존하지 않아, 모델 트레이닝의 효율 및 정확도를 더 향상시킨다.

이밖에, 또한 트레이닝 과정에서 상기 초기 음성 합성 모델에 의해 출력된 음소 및 휴지부의 음향학 특징, 및 샘플 오디오 데이터에 따라, 초기 보코더에 대해 트레이닝을 수행하여 타깃 보코더를 획득한다.

본 출원의 실시예의 기술적 해결수단에서, 휴지 암묵적 특징을 도입하여, 초기 음성 합성 모델을 트레이닝함으로써, 모델이 휴지 암묵적 특징을 학습할 수 있도록 하고, 모델의 성능을 향상시키며, 이로써 합성 음성의 품질을 향상시킨다. 또한, 변분 오토인코더를 통해, 휴지 암묵적 특징 분포를 획득함으로써, 음성 합성 모델이 상이한 체류 지속 시간의 휴지부의 암묵적 특징을 학습할 수 있도록 하여, 음성 합성 과정에서 수요에 따라 상이한 체류 지속 시간의 오디오를 합성하는 것을 지지한다.

도 3은 본 출원의 실시예에 따라 제공된 음성 합성 방법의 흐름 개략도이다. 본 실시예는 음성 합성 경우에 적용될 수 있다. 본 실시예에서 개시된 음성 합성 방법은 전자 기기에 의해 수행될 수 있고, 구체적으로 음성 합성 장치에 의해 수행될 수 있으며, 상기 장치는 소프트웨어 및/또는 하드웨어의 방식으로 구현될 수 있고, 전자 기기에 구성된다. 도 3을 참조하면, 본 실시예에서 제공된 음성 합성 방법은 하기와 같은 단계를 포함한다.

단계 S310에서, 타깃 텍스트 데이터의 음소 특징 및 운율 단어 경계 특징을 결정한다.

여기서, 타깃 텍스트 데이터는 합성될 음성의 텍스트 데이터이다. 구체적으로, 타깃 텍스트 데이터의 병음을 결정하고, 음소 입도에 따라 병음을 분할하여 타깃 텍스트 데이터의 음소 특징을 획득한다. 텍스트 데이터에서 휴지가 나타나는 음절 위치가 운율 단어 경계이고, 운율 단어 경계 특징은 운율 단어, 운율 구 및 억양 구 중 적어도 하나를 포함할 수 있다. 구체적으로, 미리 트레이닝하여 획득된 운율 경계 감지 모델에 기반하여 타깃 텍스트 데이터에 대해 운율 단어 경계 예측을 수행하여, 타깃 텍스트 데이터의 운율 단어 경계 특징을 획득할 수 있다.

단계 S320에서, 상기 운율 단어 경계 특징에 따라, 상기 음소 특징에 휴지부를 삽입하여, 상기 타깃 텍스트 데이터의 조합 특징을 획득한다.

여기서, 휴지부는 음절 사이에 휴지가 구비되는 것을 특성화한다. 운율 단어 경계 특징은 상이하고, 휴지부는 상이할 수 있다. 운율 단어 경계 특징과 관련된 휴지부를 특수한 음소로서 음소 특징에 삽입하여, 타깃 텍스트 데이터의 조합 특징을 획득한다.

일 선택 가능한 실시형태에서, 단계 S320은 상기 운율 단어 경계 특징에 따라, 상기 음소 특징 중 운율 단어 위치를 결정하는 단계; 및 상기 운율 단어 위치에 상기 휴지부를 삽입하여, 상기 타깃 텍스트 데이터의 조합 특징을 획득하는 단계를 포함한다.

조합 특징에 운율 구 및 억양 구 휴지부를 도입하지 않고, 운율 단어 휴지부를 도입하여, 운율 구 및 억양 구의 부정확한 예측으로 인한, 모델 트레이닝 과정에서 운율 경계 특징 학습에 오류가 발생하는 것을 방지할 수 있으며, 음성 합성 모델의 정확도를 향상시킨다.

단계 S330에서, 타깃 음성 합성 모델에 기반하여, 상기 타깃 텍스트 데이터의 조합 특징에 따라 음향학 특징을 획득하고, 상기 음향학 특징을 사용하여 타깃 음성을 합성한다.

구체적으로, 타깃 텍스트 데이터의 조합 특징을 타깃 음성 합성 모델의 입력으로 사용하여, 타깃 음성 합성 모델에 의해 출력된 조합 특징 중 음소 및 휴지부의 음향학 특징을 획득한다. 타깃 텍스트 데이터의 음향학 특징을 보코더의 입력으로 사용하여, 보코더에 의해 합성된 타깃 음성을 획득한다.

본 출원의 실시예의 기술적 해결수단에서, 음소 특징에 운율 단어 경계 특징을 나타내는 휴지부를 삽입하여 조합 특징을 획득하고, 타깃 음성 합성 모델에 기반하여 타깃 텍스트 데이터의 조합 특징을 처리함으로써, 타깃 텍스트 데이터의 음향학 특징을 획득하며, 타깃 텍스트 데이터의 음향학 특징에 따라 타깃 음성을 합성하여, 타깃 음성의 유창성을 향상시킨다. 또한, 음소 입도에 기반한 음성 합성 모델은 일반성이 강하고, 특히 다국어 혼합 상황에서 양호한 성능을 갖는다.

도 4는 본 출원의 실시예에 따라 제공된 음성 합성 방법의 흐름 개략도이다. 본 실시예는 상기 실시예의 기초상에서 제출된 일 선택 가능한 수단이다. 도 4를 참조하면, 본 실시예에서 제공된 음성 합성 방법은 하기와 같은 단계를 포함한다.

단계 S410에서, 타깃 텍스트 데이터의 음소 특징 및 운율 단어 경계 특징을 결정한다.

단계 S420에서, 상기 운율 단어 경계 특징에 따라, 상기 음소 특징에 휴지부를 삽입하여, 상기 타깃 텍스트 데이터의 조합 특징을 획득한다.

단계 S430에서, 사용자가 원하는 타깃 휴지 지속 시간, 및 휴지 지속 시간과 휴지 암묵적 특징 사이의 연관 관계에 따라, 타깃 휴지 암묵적 특징을 결정한다.

여기서, 휴지 지속 시간과 휴지 암묵적 특징 사이의 연관 관계는 상기 타깃 음성 합성 모델의 트레이닝 단계에서 획득되며, 적어도 2개의 이미 알려진 휴지 지속 시간과 이미 알려진 휴지 암묵적 특징 사이의 연관 관계를 포함할 수 있다. 타깃 휴지 지속 시간은, 타깃 음성의 휴지 길고짧음에 대한 사용자의 요구를 의미하고, 사용자가 직접 입력하는 구체적인 지속 시간 값일 수 있으며, 사용자에 의해 선택된 휴지 레벨에 따라 결정될 수도 있다.

구체적으로, 타깃 휴지 지속 시간이 어느 하나의 이미 알려진 휴지 지속 시간이면, 상기 이미 알려진 휴지 지속 시간과 관련된 이미 알려진 휴지 암묵적 특징을 직접 타깃 휴지 암묵적 특징으로 사용할 수 있고; 이미 알려진 정지 지속 시간에 타깃 휴지 지속 시간이 포함되지 않으면, 타깃 휴지 지속 시간과 이미 알려진 휴지 지속 시간 사이의 수치 관계에 따라, 이미 알려진 휴지 암묵적 특징을 보간하여, 타깃 휴지 암묵적 특징을 획득할 수 있다. 타깃 음성 합성 모델이 트레이닝 단계에서 휴지 암묵적 특징을 학습하였고, 휴지 지속 시간과 휴지 암묵적 특징 사이의 연관 관계가 이미 구축되었으므로, 사용자가 수요에 따라 상이한 체류 지속 시간의 음성을 합성하는 것을 지지할 수 있다.

단계 S440에서, 상기 타깃 음성 합성 모델에 기반하여, 상기 타깃 텍스트 데이터의 조합 특징 및 상기 타깃 휴지 암묵적 특징에 따라 음향학 특징을 획득한다.

구체적으로, 타깃 텍스트 데이터의 조합 특징 벡터 표현을 결정하고, 상기 조합 특징 벡터 표현을 타깃 음성 합성 모델 중 디코더의 입력으로 사용하며, 디코더의 출력과 타깃 휴지 암묵적 특징을 디코더의 최종 출력으로서 스티칭하고, 디코더의 최종 출력을 타깃 음성 합성 모델 중 어텐션 레이어의 입력으로 사용하며, 또한 타깃 음성 합성 모델 중 인코더 처리에 의해, 타깃 텍스트 데이터의 음향학 특징을 획득한다. 타깃 텍스트 데이터의 음향학 특징을 보코더의 입력으로 사용하여, 타깃 음성을 획득한다.

본 출원의 실시예의 기술적 해결수단에서, 사용자가 원하는 타깃 휴지 지속 시간, 및 트레이닝 단계에서 음성 합성 모델에 의해 구축된 휴지 지속 시간과 휴지 암묵적 특징 사이의 연관 관계에 따라, 타깃 휴지 암묵적 특징을 결정하고, 또한 타깃 텍스트 데이터의 조합 특징 및 타깃 휴지 암묵적 특징에 따라 타깃 음성을 합성하여, 사용자 수요에 따라 상이한 체류 지속 시간의 음성을 합성하는 것을 구현한다.

도 5는 본 출원의 실시예에 따라 제공된 음성 합성 처리 방법의 흐름 개략도이다. 도 5를 참조하면, 본 출원의 실시예에서 제공된 음성 합성 모델의 처리 방법은 음성 합성 모델의 트레이닝 단계 및 음성 합성 모델의 사용 단계, 즉 음성 합성 방법을 포함한다.

음성 합성 모델의 트레이닝 단계에서, 샘플 텍스트 데이터에 대해 특징 추출을 수행하고, 사용 단계에서 타깃 텍스트 데이터에 대해 특징 추출을 수행한다. 구체적으로, 전단 분석에 의해, 텍스트 데이터의 음소 특징 및 운율 단어 경계 특징을 각각 결정한다. 운율 단어 경계 특징에 따라 운율 단어 위치를 결정하고, 음소 특징의 운율 단어 위치 부분에 휴지부를 삽입하여 조합 특징을 획득한다. 텍스트 데이터가 "san ge hao ren(三介好人)"이고, 운율 단어 휴지부가 bk인 것을 예로, 조합 특징은 s, an, g, e, bk, h, ao, r, en 및 bk이다.

모델 트레이닝 단계에서, 샘플 텍스트 데이터의 조합 특징 표현을 제1 디코더 encoder1의 입력으로 사용하고, encoder1의 출력 및 샘플 텍스트 데이터와 연관된 샘플 오디오 데이터의 스펙트럼 특징을 어텐션 레이어의 입력으로 사용하여, 조합 특징 중 각 음소 및 휴지부의 스펙트럼 특징을 획득한다. 모든 샘플 텍스트 데이터 중 휴지부의 스펙트럼 특징을 각각 변분 오토인코더 encoder2의 입력으로 사용하여, 휴지 암묵적 특징 분포를 획득하고, 구체적으로, 휴지부의 암묵적 특징 분포가 가우스 분포에 부합되면, 휴지부의 스펙트럼에 따라 휴지 암묵적 특징 분포를 피팅한다. 휴지 암묵적 특징 분포에 대해 샘플링을 수행하여 암묵적 특징을 획득한다. 샘플 텍스트 데이터의 조합 특징 표현을 음성 합성 모델 중 디코더 encoder3의 입력으로 사용하고, encoder3의 출력과 샘플링된 암묵적 특징을 encoder3의 최종 출력으로서 스티칭하며, 어텐션 레이어 및 인코더에 의해 음향학 특징을 획득하고, 음성 합성 모델에 의해 출력된 음향학 특징을 샘플링하여 보코더에 대해 트레이닝을 수행한다.

이밖에, 샘플 텍스트 데이터 및 샘플 오디오 데이터의 소리 특징을 정렬하여 휴지부와 연관된 오디오 프레임을 획득할 수 있으므로, 휴지부와 연관된 휴지 지속 시간을 획득할 수 있다. 휴지 암묵적 특징 분포에 따라 휴지부의 암묵적 특징을 획득할 수 있어, 휴지 지속 시간과 암묵적 특징 사이의 연관 관계를 획득할 수 있으므로, 후속의 모델 사용 단계에서 휴지 지속 시간과 암묵적 특징 사이의 연관 관계에 따라 수요에 따라 상이한 체류 지속 시간의 음성을 합성하는데 편이하다.

음성 합성 단계에서, 사용자가 원하는 타깃 휴지 지속 시간을 획득하고, 휴지 지속 시간과 암묵적 특징 사이의 연관 관계에 따라, 타깃 휴지 지속 시간과 관련된 타깃 휴지 암묵적 특징을 결정하며; 합성될 타깃 텍스트 데이터의 조합 특징을 음성 합성 모델 중 디코더 encoder3의 입력으로 사용하고, encoder3의 출력과 타깃 암묵적 특징을 encoder3의 최종 출력으로서 스티칭하며, 어텐션 레이어 및 인코더에 의해 음향학 특징을 획득하고, 음성 합성 모델에 의해 출력된 음향학 특징을 보코더에 입력하여 타깃 음성을 획득한다.

상기 기술적 해결수단은 음소 특징에 운율 단어 경계 특징을 나타내는 휴지부를 삽입하여 조합 특징을 획득하고, 타깃 음성의 유창성을 향상시키며; 또한, 음소 입도에 기반한 음성 합성 모델은 일반성이 강하고, 특히 다국어 혼합 상황에서 양호한 성능을 갖는다. 휴지 암묵적 특징을 도입하여 초기 음성 합성 모델을 트레이닝함으로써, 모델이 휴지 암묵적 특징을 학습할 수 있도록 하고, 모델의 성능을 향상시키며, 이로써 합성 음성의 품질을 향상시킨다. 이밖에, 음성 합성 과정에서 수요에 따라 상이한 체류 지속 시간의 오디오를 합성하는 것을 지지한다.

도 6은 본 출원의 실시예에 따라 제공된 음성 합성 모델 처리 장치의 구조 개략도이다. 도 6을 참조하면, 본 출원의 실시예는 음성 합성 모델의 트레이닝 장치(500)를 개시하며, 상기 장치(500)는,

샘플 텍스트 데이터의 음소 특징 및 운율 단어 경계 특징을 결정하는 샘플 음소 경계 모듈(501);

상기 운율 단어 경계 특징에 따라, 상기 음소 특징에 휴지부를 삽입하여, 상기 샘플 텍스트 데이터의 조합 특징을 획득하는 샘플 특징 조합 모듈(502); 및

상기 샘플 텍스트 데이터의 조합 특징에 따라, 초기 음성 합성 모델을 트레이닝하여 타깃 음성 합성 모델을 획득하는 모델 트레이닝 모듈(503)을 포함한다.

선택 가능하게, 상기 샘플 특징 조합 모듈(502)은,

상기 운율 단어 경계 특징에 따라, 상기 음소 특징 중 운율 단어 위치를 결정하는 샘플 운율 단어 위치 유닛; 및

상기 운율 단어 위치에 상기 휴지부를 삽입하여, 상기 샘플 텍스트 데이터의 조합 특징을 획득하는 샘플 휴지부 삽입 유닛을 포함한다.

선택 가능하게, 상기 모델 트레이닝 모듈(503)은 아래와 같은 유닛을 포함한다.

암묵적 특징 분포 유닛은 상기 조합 특징 및 샘플 오디오 데이터의 음향학 특징에 따라, 휴지 암묵적 특징 분포를 결정하되, 상기 샘플 오디오 데이터는 상기 샘플 텍스트 데이터와 연관되고;

모델 트레이닝 유닛은 상기 조합 특징 및 상기 휴지 암묵적 특징 분포에 따라, 초기 음성 합성 모델에 대해 비지도 트레이닝을 수행한다.

선택 가능하게, 상기 암묵적 특징 분포 유닛은,

상기 조합 특징 및 상기 샘플 오디오 데이터의 음향학 특징을 정렬하여, 상기 조합 특징 중 휴지부의 음향학 특징을 획득하는 음향학 특징 서브 유닛; 및

변분 오토인코더를 통해 상기 휴지부의 음향학 특징을 처리하여, 상기 휴지 암묵적 특징 분포를 획득하는 암묵적 특징 분포 서브 유닛을 포함한다.

선택 가능하게, 상기 모델 트레이닝 유닛은,

상기 조합 특징에 따라, 조합 특징 벡터 표현을 결정하는 특징 표현 서브 유닛;

상기 휴지 암묵적 특징 분포에 대해 샘플링을 수행하여 휴지 암묵적 특징을 획득하는 암묵적 특징 샘플링 서브 유닛;

상기 조합 특징 벡터 표현을 상기 초기 음성 합성 모델 중 디코더의 입력으로 사용하고, 상기 디코더의 출력과 상기 휴지 암묵적 특징을 스티칭하여 콘텍스트 벡터를 획득하는 디코딩 서브 유닛; 및

상기 초기 음성 합성 모델 중 인코더를 통해, 상기 콘텍스트 벡터에 대해 인코딩을 수행하여, 상기 초기 음성 합성 모델에 의해 출력된 음향학 특징을 획득하는 인코딩 서브 유닛을 포함한다.

선택 가능하게, 상기 장치는 보코더 모듈을 더 포함하고, 구체적으로,

상기 초기 음성 합성 모델의 출력 및 샘플 오디오 데이터를 사용하여, 초기 보코더에 대해 트레이닝하여 타깃 보코더를 획득한다.

도 7은 본 출원의 실시예에 따라 제공된 음성 합성 장치의 구조 개략도이다. 도 7을 참조하면, 본 출원의 실시예는 음성 합성 장치(600)를 개시하며, 상기 장치(600)는,

타깃 텍스트 데이터의 음소 특징 및 운율 단어 경계 특징을 결정하는 타깃 음소 경계 모듈(601);

상기 운율 단어 경계 특징에 따라, 상기 음소 특징에 휴지부를 삽입하여, 상기 타깃 텍스트 데이터의 조합 특징을 획득하는 타깃 특징 조합 모듈(602); 및

타깃 음성 합성 모델에 기반하여, 상기 타깃 텍스트 데이터의 조합 특징에 따라 음향학 특징을 획득하고, 상기 음향학 특징을 사용하여 타깃 음성을 합성하는 음성 합성 모듈(603)을 포함한다.

선택 가능하게, 상기 타깃 특징 조합 모듈(602)은,

상기 운율 단어 경계 특징에 따라, 상기 음소 특징 중 운율 단어 위치를 결정하는 타깃 운율 단어 위치 유닛; 및

상기 운율 단어 위치에 상기 휴지부를 삽입하여, 상기 타깃 텍스트 데이터의 조합 특징을 획득하는 타깃 휴지부 삽입 유닛을 포함한다.

선택 가능하게, 상기 음성 합성 모듈(603)은 아래와 같은 유닛을 포함한다.

암묵적 특징 결정 유닛은 사용자가 원하는 타깃 휴지 지속 시간, 및 휴지 지속 시간과 휴지 암묵적 특징 사이의 연관 관계에 따라, 타깃 휴지 암묵적 특징을 결정하되, 상기 연관 관계는 상기 타깃 음성 합성 모델의 트레이닝 단계에서 획득되고;

음성 합성 유닛은 상기 타깃 음성 합성 모델에 기반하여, 상기 타깃 텍스트 데이터의 조합 특징 및 상기 타깃 휴지 암묵적 특징에 따라 음향학 특징을 획득한다.

본 출원의 실시예의 기술적 해결수단에서, 음소 특징에 운율 단어 경계 특징을 나타내는 휴지부를 삽입하여 조합 특징을 획득하고, 타깃 음성의 유창성을 향상시키며; 또한, 음소 입도에 기반한 음성 합성 모델은 일반성이 강하고, 특히 다국어 혼합 상황에서 양호한 성능을 갖는다. 이밖에, 사용자 수요에 따라 상이한 체류 지속 시간의 음성을 합성하는 것을 더 지지한다.

본 출원의 실시예에 따르면, 본 출원은 전자 기기 및 판독 가능 저장 매체를 더 제공한다.

도 8에 도시된 바와 같이, 본 출원의 실시예의 음성 합성 모델의 트레이닝 방법 또는 음성 합성 방법에 따른 전자 기기의 블록도이다. 전자 기기는 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크 스테이션, 개인용 정보 단말기, 서버, 블레이드 서버, 메인프레임 컴퓨터, 및 기타 적합한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타내기 위한 것이다. 전자 기기는 개인용 디지털 처리, 셀룰러 폰, 스마트 폰, 웨어러블 기기, 및 기타 유사한 컴퓨팅 장치와 같은 다양한 형태의 모바일 장치를 나타낼 수도 있다. 본문에 표시된 부재, 이들의 연결 및 관계, 및 이들의 기능은 단지 예시적인 것으로서, 본문에서 설명되거나 및/또는 요구되는 본 출원의 구현을 한정하려는 의도가 아니다.

도 8에 도시된 바와 같이, 상기 전자 기기는, 하나 또는 다수의 프로세서(701), 메모리(702), 및 고속 인터페이스 및 저속 인터페이스를 포함하는 각 부재를 연결하기 위한 인터페이스를 포함한다. 각각의 부재는 상이한 버스를 사용하여 상호 연결되고, 또한 공통 마더보드에 설치되거나 수요에 따라 다른 방식으로 설치될 수 있다. 프로세서는 전자 기기 내에서 실행되는 명령어를 처리할 수 있고, 상기 명령어는, 외부 입력/출력 장치(예를 들어, 인터페이스에 결합된 디스플레이 기기)에 GUI의 그래픽 정보를 디스플레이하기 위해 메모리 내 또는 메모리에 저장되는 명령어를 포함한다. 다른 실시형태에서, 수요되면, 다수의 프로세서 및/또는 다수의 버스를 다수의 메모리와 함께 사용할 수 있다. 마찬가지로, 다수의 전자 기기를 연결할 수 있으며, 각각의 기기는 일부 필요한 동작(예를 들어, 서버 어레이, 한 그룹의 블레이드 서버, 또는 다중 프로세서 시스템으로 사용됨)을 제공한다. 도 8에서는 하나의 프로세서(701)를 예로 한다.

메모리(702)는 본 출원에서 제공된 비일시적 컴퓨터 판독 가능 저장 매체이다. 여기서, 상기 메모리에는 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되어, 상기 적어도 하나의 프로세서가 본 출원에서 제공된 운율 레벨 라벨링 방법을 수행하도록 한다. 본 출원의 비일시적 컴퓨터 판독 가능 저장 매체는 컴퓨터 명령어를 저장하며, 상기 컴퓨터 명령어는 컴퓨터가 본 출원에서 제공된 운율 레벨 라벨링 방법을 수행하도록 한다.

메모리(702)는 비일시적 컴퓨터 판독 가능 저장 매체로서, 본 출원의 실시예에서의 운율 레벨 라벨링 방법에 대응되는 프로그램 명령어/모듈(예를 들어, 도 6에 도시된 샘플 음소 경계 모듈(501), 샘플 특징 조합 모듈(502) 및 모델 트레이닝 모듈(503); 또한, 도 7에 도시된 타깃 음소 경계 모듈(601), 타깃 특징 조합 모듈(602) 및 음성 합성 모듈(603))과 같은 비일시적 소프트웨어 프로그램, 비일시적 컴퓨터 실행 가능 프로그램 및 모듈을 저장하는데 사용될 수 있다. 프로세서(701)는 메모리(702)에 저장된 비일시적 소프트웨어 프로그램, 명령어 및 모듈을 실행함으로써, 서버의 다양한 기능 애플리케이션 및 데이터 처리를 수행하며, 즉 상기 방법의 실시예에서의 운율 레벨 라벨링 방법을 구현한다.

메모리(702)는 프로그램 저장 영역 및 데이터 저장 영역을 포함할 수 있는 바, 여기서 프로그램 저장 영역은 운영 체제, 적어도 하나의 기능에 필요한 애플리케이션 프로그램을 저장할 수 있고; 데이터 저장 영역은 운율 레벨 라벨링에 따른 전자 기기를 사용하여 구축된 데이터 등을 저장할 수 있다. 이밖에, 메모리(702)는 고속 랜덤 액세스 메모리를 포함할 수 있고, 적어도 하나의 자기 디스크 저장 소자, 플래시 소자, 또는 다른 비일시적 솔리드 스테이트 저장 소자와 같은 비일시적 메모리를 더 포함할 수 있다. 일부 실시예에서, 메모리(702)는 프로세서(701)에 대해 원격으로 설치되는 메모리를 선택적으로 포함할 수 있고, 이러한 원격 메모리는 네트워크를 통해 온라인 예측 모델의 트레이닝 방법의 전자 기기에 연결될 수 있다. 상기 네트워크의 구현예는 인터넷, 기업 인트라넷, 근거리 통신망, 이동 통신망, 및 이들의 조합을 포함하지만 이에 한정되지 않는다.

운율 레벨 라벨링 방법의 전자 기기는, 입력 장치(703) 및 출력 장치(704)를 더 포함할 수 있다. 프로세서(701), 메모리(702), 입력 장치(703) 및 출력 장치(704)는 버스 또는 다른 방식을 통해 연결될 수 있고, 도 8에서는 버스를 통한 연결을 예로 한다.

입력 장치(703)는 입력된 숫자 또는 캐릭터 정보를 수신할 수 있고, 운율 레벨 라벨링의 전자 기기의 사용자 설정 및 기능 제어와 연관된 키 신호 입력을 생성할 수 있으며, 예를 들어 터치 스크린, 키패드, 마우스, 트랙 패드, 터치 패드, 포인팅 스틱, 하나 또는 다수의 마우스 버튼, 트랙볼, 조이스틱 등 입력 장치일 수 있다. 출력 장치(704)는 디스플레이 기기, 보조 조명 장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할 수 있다. 상기 디스플레이 기기는 액정 디스플레이 장치(LCD), 발광 다이오드(LED) 디스플레이 장치 및 플라즈마 디스플레이 장치를 포함할 수 있으나 이에 한정되지 않는다. 일부 실시형태에서, 디스플레이 기기는 터치 스크린일 수 있다.

여기서 설명된 시스템 및 기술의 다양한 실시형태는 디지털 전자 회로 시스템, 집적 회로 시스템, 주문형 ASIC(주문형 집적 회로), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합에서 구현될 수 있다. 이러한 다양한 실시형태는 하나 또는 다수의 컴퓨터 프로그램에서의 구현을 포함할 수 있고, 상기 하나 또는 다수의 컴퓨터 프로그램은 적어도 하나의 프로그램 가능 프로세서를 포함하는 프로그램 가능 시스템에서 실행 및/또는 해석될 수 있으며, 상기 프로그램 가능 프로세서는 주문형 또는 일반 프로그램 가능 프로세서일 수 있고, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령어를 수신할 수 있으며, 또한, 데이터 및 명령어를 상기 저장 시스템, 상기 적어도 하나의 입력 장치 및 상기 적어도 하나의 출력 장치에 전송할 수 있다.

이러한 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드로 지칭되기도 함)은 프로그램 가능 프로세서의 기계 명령어를 포함하고, 또한 고급 프로세스 및/또는 객체 지향 프로그래밍 언어, 및/또는 어셈블리/기계 언어를 사용하여 이러한 컴퓨팅 프로그램을 실행할 수 있다. 본문에 사용된 바와 같이, 용어 "기계 판독 가능 매체" 및 "컴퓨터 판독 가능 매체"는 기계 명령어 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 컴퓨터 프로그램 제품, 기기 및/또는 장치(예를 들어, 자기 디스크, 광 디스크, 메모리, 프로그램 가능 논리 장치(PLD))를 의미하고, 기계 판독 가능 신호인 기계 명령어를 수신하는 기계 판독 가능 매체를 포함한다. 용어 "기계 판독 가능 신호"는 기계 명령어 및/또는 데이터를 프로그램 가능 프로세서에 제공하기 위한 임의의 신호를 의미한다.

사용자와의 인터랙션을 제공하기 위해, 컴퓨터에서 여기에 설명된 시스템 및 기술을 구현할 수 있고, 상기 컴퓨터는 사용자에게 정보를 디스플레이하기 위한 디스플레이 장치(예를 들어, CRT(음극선관) 또는 LCD(액정 표시 장치) 모니터); 및 키보드 및 포인팅 장치(예를 들어, 마우스 또는 트랙 볼)를 구비하며, 사용자는 상기 키보드 및 상기 포인팅 장치를 통해 컴퓨터에 입력을 제공한다. 다른 타입의 장치는 또한 사용자와의 인터랙션을 제공할 수 있는데, 예를 들어, 사용자에게 제공된 피드백은 임의의 형태의 센서 피드백(예를 들어, 예를 들어, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백)일 수 있고; 임의의 형태(소리 입력, 음성 입력, 또는 촉각 입력)로 사용자로부터의 입력을 수신할 수 있다.

여기서 설명된 시스템 및 기술은 백엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버로 사용됨), 또는 미들웨어 부재를 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버), 또는 프론트 엔드 부재를 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비하는 사용자 컴퓨터인 바, 사용자는 상기 그래픽 사용자 인터페이스 또는 상기 네트워크 브라우저를 통해 여기서 설명된 시스템 및 기술의 실시형태와 인터랙션할 수 있음), 또는 이러한 백엔드 부재, 미들웨어 부재, 또는 프론트 엔드 부재의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통해 시스템의 부재를 서로 연결시킬 수 있다. 통신 네트워크의 예는, 근거리 통신망(LAN), 광역망(WAN), 인터넷을 포함한다.

컴퓨터 시스템은 클라이언트 및 서버를 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 멀리 떨어져 있고, 일반적으로 통신 네트워크를 통해 서로 인터랙션한다. 대응되는 컴퓨터에서 실행되고 또한 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램을 통해 클라이언트 및 서버의 관계를 생성한다. 서버는 클라우드 컴퓨팅 서버 또는 클라우드 호스트로도 지칭되는 클라우드 서버일 수 있으며, 기존의 물리적 호스트와 VPS 서비스에서 존재하는 관리가 어렵고, 비즈니스 확장성이 약한 결함을 해결하기 위한 클라우드 컴퓨팅 서비스 시스템 중 하나의 호스트 제품이다.

본 출원의 실시예의 기술적 해결수단에서, 음소 특징에 운율 단어 경계 특징을 나타내는 휴지부를 삽입하여 조합 특징을 획득하고, 타깃 음성의 유창성을 향상시키며; 또한, 음소 입도에 기반한 음성 합성 모델은 일반성이 강하고, 특히 다국어 혼합 상황에서 양호한 성능을 갖는다. 휴지 암묵적 특징을 도입하여 초기 음성 합성 모델을 트레이닝함으로써, 모델이 휴지 암묵적 특징을 학습할 수 있도록 하고, 모델의 성능을 향상시키며, 이로써 합성 음성의 품질을 향상시킨다. 이밖에, 음성 합성 과정에서 수요에 따라 상이한 체류 지속 시간의 오디오를 합성하는 것을 지지한다.

위에서 설명된 다양한 형태의 프로세스를 사용하여 단계를 재배열, 추가 또는 삭제할 수 있음을 이해해야 한다. 예를 들어, 본 출원에 기재된 각 단계는 동시에, 순차적으로, 또는 상이한 순서로 수행될 수 있으며, 본 출원에 개시된 기술적 해결수단이 이루고자 하는 결과를 구현할 수 있는 한, 본문은 여기서 한정되지 않는다.

상기 구체적인 실시형태는 본 출원의 보호 범위를 한정하지 않는다. 본 기술분야의 통상의 기술자는, 설계 요구 및 다른 요소에 따라 다양한 수정, 조합, 서브 조합 및 대체를 진행할 수 있음을 이해해야 한다. 본 출원의 정신 및 원칙 내에서 이루어진 임의의 수정, 등가 교체 및 개선 등은 모두 본 출원의 보호 범위 내에 포함되어야 한다.

Claims

음성 합성 모델의 트레이닝 방법으로서,
샘플 텍스트 데이터의 음소 특징 및 운율 단어 경계 특징을 결정하는 단계;
상기 운율 단어 경계 특징에 따라, 상기 음소 특징에 휴지부를 삽입하여, 상기 샘플 텍스트 데이터의 조합 특징을 획득하는 단계; 및
상기 샘플 텍스트 데이터의 조합 특징에 따라, 초기 음성 합성 모델을 트레이닝하여 타깃 음성 합성 모델을 획득하는 단계
를 포함하는, 음성 합성 모델의 트레이닝 방법.
제1항에 있어서,
상기 운율 단어 경계 특징에 따라, 상기 음소 특징에 휴지부를 삽입하여, 상기 샘플 텍스트 데이터의 조합 특징을 획득하는 단계는,
상기 운율 단어 경계 특징에 따라, 상기 음소 특징 중 운율 단어 위치를 결정하는 단계; 및
상기 운율 단어 위치에 상기 휴지부를 삽입하여, 상기 샘플 텍스트 데이터의 조합 특징을 획득하는 단계를 포함하는, 음성 합성 모델의 트레이닝 방법.
제1항에 있어서,
상기 샘플 텍스트 데이터의 조합 특징에 따라, 초기 음성 합성 모델을 트레이닝하는 단계는,
상기 조합 특징 및 샘플 오디오 데이터의 음향학 특징에 따라, 휴지 암묵적 특징 분포를 결정하는 단계로서, 상기 샘플 오디오 데이터는 상기 샘플 텍스트 데이터와 연관되는, 상기 휴지 암묵적 특징 분포를 결정하는 단계; 및
상기 조합 특징 및 상기 휴지 암묵적 특징 분포에 따라, 초기 음성 합성 모델에 대해 비지도 트레이닝을 수행하는 단계를 포함하는, 음성 합성 모델의 트레이닝 방법.
제3항에 있어서,
상기 조합 특징 및 샘플 오디오 데이터의 음향학 특징에 따라, 휴지 암묵적 특징 분포를 결정하는 단계는,
상기 조합 특징 및 상기 샘플 오디오 데이터의 음향학 특징을 정렬하여, 상기 조합 특징 중 휴지부의 음향학 특징을 획득하는 단계; 및
변분 오토인코더(Variational autoencoder)를 통해 상기 휴지부의 음향학 특징을 처리하여, 상기 휴지 암묵적 특징 분포를 획득하는 단계를 포함하는, 음성 합성 모델의 트레이닝 방법.
제3항에 있어서,
상기 조합 특징 및 상기 휴지 암묵적 특징 분포에 따라, 초기 음성 합성 모델에 대해 비지도 트레이닝을 수행하는 단계는,
상기 조합 특징에 따라, 조합 특징 벡터 표현을 결정하는 단계;
상기 휴지 암묵적 특징 분포에 대해 샘플링을 수행하여 휴지 암묵적 특징을 획득하는 단계;
상기 조합 특징 벡터 표현을 상기 초기 음성 합성 모델 중 디코더의 입력으로 사용하고, 상기 디코더의 출력과 상기 휴지 암묵적 특징을 스티칭하여 콘텍스트 벡터를 획득하는 단계; 및
상기 초기 음성 합성 모델 중 인코더를 통해, 상기 콘텍스트 벡터에 대해 인코딩을 수행하여, 상기 초기 음성 합성 모델에 의해 출력된 음향학 특징을 획득하는 단계를 포함하는, 음성 합성 모델의 트레이닝 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 초기 음성 합성 모델의 출력 및 샘플 오디오 데이터를 사용하여, 초기 보코더(vocoder)에 대해 트레이닝하여 타깃 보코더를 획득하는 단계를 더 포함하는, 음성 합성 모델의 트레이닝 방법.
음성 합성 방법으로서,
타깃 텍스트 데이터의 음소 특징 및 운율 단어 경계 특징을 결정하는 단계;
상기 운율 단어 경계 특징에 따라, 상기 음소 특징에 휴지부를 삽입하여, 상기 타깃 텍스트 데이터의 조합 특징을 획득하는 단계; 및
타깃 음성 합성 모델에 기반하여, 상기 타깃 텍스트 데이터의 조합 특징에 따라 음향학 특징을 획득하고, 상기 음향학 특징을 사용하여 타깃 음성을 합성하는 단계
를 포함하는, 음성 합성 방법.
제7항에 있어서,
상기 운율 단어 경계 특징에 따라, 상기 음소 특징에 휴지부를 삽입하여, 상기 타깃 텍스트 데이터의 조합 특징을 획득하는 단계는,
상기 운율 단어 경계 특징에 따라, 상기 음소 특징 중 운율 단어 위치를 결정하는 단계; 및
상기 운율 단어 위치에 상기 휴지부를 삽입하여, 상기 타깃 텍스트 데이터의 조합 특징을 획득하는 단계를 포함하는, 음성 합성 방법.
제7항에 있어서,
상기 타깃 음성 합성 모델에 기반하여, 상기 타깃 텍스트 데이터의 조합 특징에 따라 음향학 특징을 획득하는 단계는,
사용자가 원하는 타깃 휴지 지속 시간, 및 휴지 지속 시간과 휴지 암묵적 특징 사이의 연관 관계에 따라, 타깃 휴지 암묵적 특징을 결정하는 단계로서, 상기 연관 관계는 상기 타깃 음성 합성 모델의 트레이닝 단계에서 획득되는, 상기 타깃 휴지 암묵적 특징을 결정하는 단계; 및
상기 타깃 음성 합성 모델에 기반하여, 상기 타깃 텍스트 데이터의 조합 특징 및 상기 타깃 휴지 암묵적 특징에 따라 음향학 특징을 획득하는 단계를 포함하는, 음성 합성 방법.
음성 합성 모델의 트레이닝 장치로서,
샘플 텍스트 데이터의 음소 특징 및 운율 단어 경계 특징을 결정하는 샘플 음소 경계 모듈;
상기 운율 단어 경계 특징에 따라, 상기 음소 특징에 휴지부를 삽입하여, 상기 샘플 텍스트 데이터의 조합 특징을 획득하는 샘플 특징 조합 모듈; 및
상기 샘플 텍스트 데이터의 조합 특징에 따라, 초기 음성 합성 모델을 트레이닝하여 타깃 음성 합성 모델을 획득하는 모델 트레이닝 모듈
을 포함하는, 음성 합성 모델의 트레이닝 장치.
제10항에 있어서,
상기 샘플 특징 조합 모듈은,
상기 운율 단어 경계 특징에 따라, 상기 음소 특징 중 운율 단어 위치를 결정하는 샘플 운율 단어 위치 유닛; 및
상기 운율 단어 위치에 상기 휴지부를 삽입하여, 상기 샘플 텍스트 데이터의 조합 특징을 획득하는 샘플 휴지부 삽입 유닛을 포함하는, 음성 합성 모델의 트레이닝 장치.
제10항에 있어서,
상기 모델 트레이닝 모듈은,
상기 조합 특징 및 샘플 오디오 데이터의 음향학 특징에 따라, 휴지 암묵적 특징 분포를 결정하는 암묵적 특징 분포 유닛으로서, 상기 샘플 오디오 데이터는 상기 샘플 텍스트 데이터와 연관되는, 상기 암묵적 특징 분포 유닛; 및
상기 조합 특징 및 상기 휴지 암묵적 특징 분포에 따라, 초기 음성 합성 모델에 대해 비지도 트레이닝을 수행하는 모델 트레이닝 유닛을 포함하는, 음성 합성 모델의 트레이닝 장치.
제12항에 있어서,
상기 암묵적 특징 분포 유닛은,
상기 조합 특징 및 상기 샘플 오디오 데이터의 음향학 특징을 정렬하여, 상기 조합 특징 중 휴지부의 음향학 특징을 획득하는 음향학 특징 서브 유닛; 및
변분 오토인코더를 통해 상기 휴지부의 음향학 특징을 처리하여, 상기 휴지 암묵적 특징 분포를 획득하는 암묵적 특징 분포 서브 유닛을 포함하는, 음성 합성 모델의 트레이닝 장치.
제12항에 있어서,
상기 모델 트레이닝 유닛은,
상기 조합 특징에 따라, 조합 특징 벡터 표현을 결정하는 특징 표현 서브 유닛;
상기 휴지 암묵적 특징 분포에 대해 샘플링을 수행하여 휴지 암묵적 특징을 획득하는 암묵적 특징 샘플링 서브 유닛;
상기 조합 특징 벡터 표현을 상기 초기 음성 합성 모델 중 디코더의 입력으로 사용하고, 상기 디코더의 출력과 상기 휴지 암묵적 특징을 스티칭하여 콘텍스트 벡터를 획득하는 디코딩 서브 유닛; 및
상기 초기 음성 합성 모델 중 인코더를 통해, 상기 콘텍스트 벡터에 대해 인코딩을 수행하여, 상기 초기 음성 합성 모델에 의해 출력된 음향학 특징을 획득하는 인코딩 서브 유닛을 포함하는, 음성 합성 모델의 트레이닝 장치.
제10항 내지 제14항 중 어느 한 항에 있어서,
보코더 모듈을 더 포함하되, 상기 보코더 모듈은 구체적으로,
상기 초기 음성 합성 모델의 출력 및 샘플 오디오 데이터를 사용하여, 초기 보코더에 대해 트레이닝하여 타깃 보코더를 획득하는, 음성 합성 모델의 트레이닝 장치.
음성 합성 장치로서,
타깃 텍스트 데이터의 음소 특징 및 운율 단어 경계 특징을 결정하는 타깃 음소 경계 모듈;
상기 운율 단어 경계 특징에 따라, 상기 음소 특징에 휴지부를 삽입하여, 상기 타깃 텍스트 데이터의 조합 특징을 획득하는 타깃 특징 조합 모듈; 및
타깃 음성 합성 모델에 기반하여, 상기 타깃 텍스트 데이터의 조합 특징에 따라 음향학 특징을 획득하고, 상기 음향학 특징을 사용하여 타깃 음성을 합성하는 음성 합성 모듈
을 포함하는, 음성 합성 장치.
제16항에 있어서,
상기 타깃 특징 조합 모듈은,
상기 운율 단어 경계 특징에 따라, 상기 음소 특징 중 운율 단어 위치를 결정하는 타깃 운율 단어 위치 유닛; 및
상기 운율 단어 위치에 상기 휴지부를 삽입하여, 상기 타깃 텍스트 데이터의 조합 특징을 획득하는 타깃 휴지부 삽입 유닛을 포함하는, 음성 합성 장치.
제16항에 있어서,
상기 음성 합성 모듈은,
사용자가 원하는 타깃 휴지 지속 시간, 및 휴지 지속 시간과 휴지 암묵적 특징 사이의 연관 관계에 따라, 타깃 휴지 암묵적 특징을 결정하는 암묵적 특징 결정 유닛으로서, 상기 연관 관계는 상기 타깃 음성 합성 모델의 트레이닝 단계에서 획득되는, 상기 암묵적 특징 결정 유닛; 및
상기 타깃 음성 합성 모델에 기반하여, 상기 타깃 텍스트 데이터의 조합 특징 및 상기 타깃 휴지 암묵적 특징에 따라 음향학 특징을 획득하는 음성 합성 유닛을 포함하는, 음성 합성 장치.
전자 기기로서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하되;
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되고, 상기 명령어는 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서가 제1항 또는 제7항에 따른 방법을 수행할 수 있도록 하는, 전자 기기.
컴퓨터 명령어가 저장된 비일시적 컴퓨터 판독 가능 저장 매체로서,
상기 컴퓨터 명령어는 컴퓨터가 제1항 또는 제7항에 따른 방법을 수행하도록 하는, 비일시적 컴퓨터 판독 가능 저장 매체.
컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램으로서,
상기 컴퓨터 프로그램은 프로세서에 의해 실행될 경우 제1항 또는 제7항에 따른 방법을 수행하도록 하는, 컴퓨터 프로그램.