KR20230003056A

KR20230003056A - 비음성 텍스트 및 스피치 합성을 사용한 스피치 인식

Info

Publication number: KR20230003056A
Application number: KR1020227041313A
Authority: KR
Inventors: 제후아이 첸; 앤드류 로젠버그; 부바나 라마바드란; 멘기바 페드로 제이. 모레노
Original assignee: 구글 엘엘씨
Priority date: 2020-05-07
Filing date: 2021-04-27
Publication date: 2023-01-05
Also published as: US20220068255A1; US20210350786A1; US11605368B2; JP2023525002A; CN115516552A; JP7436709B2; US20230197057A1; US11222620B2; US11837216B2; JP2024050850A; EP4118641A1; WO2021225829A1

Abstract

생성적 적대 네트워크(GAN, Generative Adversarial Network) 기반 TTS(text-to-speech) 모델(310) 및 스피치 인식 모델(200)을 동시에 트레이닝하기 위한 방법(500)은 복수의 트레이닝 텍스트 발화들(305)을 획득하는 단계 및 상기 GAN 기반 TTS 모델에 의한 출력을 위해, 상기 대응하는 트레이닝 텍스트 발화의 합성 스피치 표현을 생성하는 단계 및 적대적 판별기(318)를 사용하여, 대응하는 트레이닝 텍스트 발화의 대응하는 합성 스피치 표현에 대한 비합성 스피치 표현(304)에서 음향 노이즈 디스패리티의 양을 나타내는 적대적 손실 항(320)을 결정하는 단계를 포함한다. 이 방법은 또한 적대적 손실 항에 기초하여 GAN 기반 TTS 모델의 파라미터들을 업데이트하는 단계를 포함한다.

Description

비음성 텍스트 및 스피치 합성을 사용한 스피치 인식

본 개시는 비음성 텍스트 및 스피치 합성을 사용한 스피치 인식에 관한 것이다.

오디오 입력을 받아 그것을 텍스트로 전사하는 ASR(Automatic Speech Recognition)은 모바일 디바이스 및 기타 디바이스에 사용되는 매우 중요한 기술이었다. 일반적으로, 자동 스피치 인식은 오디오 입력(예: 음성 발화)을 취하고 오디오 입력을 텍스트로 전사하여 사람이 말한 것의 정확한 전사를 제공하려고 시도한다. 최신 ASR 모델은 심층 신경망의 지속적인 개발에 기초하여 정확도(예: 낮은 단어 오류율(WER))와 지연(예: 사용자 말하기와 전사 사이의 지연) 모두에서 계속해서 개선되고 있다. 그러나 딥러닝 기반 ASR 모델을 개발하는데 있어 한 가지 문제는 ASR 모델의 파라미터가 트레이닝 데이터에 과적합되는 경향이 있어, 트레이닝 데이터가 충분히 광범위하지 않을 때 ASR 모델이 보이지 않는 데이터를 일반화하는데 어려움을 겪을 수 있다는 것이다. 결과적으로 더 큰 트레이닝 데이터세트에서 ASR 모델을 트레이닝하면 ASR 모델의 정확도가 향상된다. 합성된 스피치 및/또는 데이터 증강 스피치를 통합하여 ASR 모델을 트레이닝하는데 사용되는 트레이닝 데이터의 양을 늘릴 수 있을 뿐만 아니라 스피치가 ASR 모델의 실시간 트레이닝을 위해 쉽고 저렴하게 획득될 수 있는 비음성 텍스트로부터 합성될 때 언어적 다양성을 증가시킬 수 있다.

본 개시의 일 양태는 GAN(Generative Adversarial Network) 기반 TTS(text-to-speech) 모델과 스피치 인식 모델을 동시에 트레이닝하기 위한 방법을 제공한다. 방법은 데이터 프로세싱 하드웨어에 의해, 복수의 트레이닝 텍스트 발화들을 획득하는 단계를 포함하고, 상기 복수의 트레이닝 텍스트 발화들의 제1 부분은 비음성 텍스트 발화를 포함하고 그리고 상기 복수의 트레이닝 텍스트 발화의 나머지 제2 부분은 음성 트레이닝 발화들의 세트의 전사를 포함한다. 각 비음성 텍스트 발화는 대응하는 음성 발화와 페어링되지 않는다. 각 음성 트레이닝 발화는 대응하는 음성 트레이닝 발화의 대응하는 비합성 스피치 표현과 페어링된 대응하는 전사를 포함한다. 상기 방법은 상기 복수의 트레이닝 텍스트 발화들의 각각의 트레이닝 텍스트 발화에 대한 복수의 출력 단계들 중 각각의 출력 단계에서: 데이터 프로세싱 하드웨어에 의해, 상기 GAN 기반 TTS 모델에 의한 출력을 위해, 상기 대응하는 트레이닝 텍스트 발화의 합성 스피치 표현을 생성하는 단계; 및 데이터 프로세싱 하드웨어에 의해, 상기 GAN의 적대적 판별기를 사용하여, 대응하는 트레이닝 텍스트 발화의 대응하는 합성 스피치 표현에 대한 음성 트레이닝 발화들의 세트로부터 선택된 비합성 스피치 표현들 중 하나에서 음향 노이즈 디스패리티의 양을 나타내는 적대적 손실 항을 결정하는 단계를 포함한다. 또한 방법은 데이터 프로세싱 하드웨어에 의해, 상기 복수의 트레이닝 텍스트 발화들 중 각각의 트레이닝 텍스트 발화에 대한 상기 복수의 출력 단계들 중 각각의 출력 단계에서 결정된 상기 적대적 손실 항에 기초하여, 상기 GAN 기반 TTS 모델의 파라미터들을 업데이트하는 단계를 포함한다. 또한 방법은 데이터 프로세싱 하드웨어에 의해, 상기 복수의 트레이닝 텍스트 발화들 중 각각의 트레이닝 텍스트 발화에 대한 상기 복수의 출력 단계들 중 각각의 출력 단계에서 생성된 상기 합성 스피치 표현에 대한 스피치 인식 모델을 트레이닝하는 단계를 포함한다.

본 개시의 구현예는 다음 구성들 중 하나 이상을 포함할 수 있다. 일부 구현예에서, 스피치 인식 모델을 트레이닝하는 것은 트레이닝 발화 배치들에 대해 스피치 인식 모델을 트레이닝하는 것을 더 포함한다. 여기서, 각 트레이닝 발화 배치는 상기 대응하는 트레이닝 텍스트 발화들의 생성된 합성 스피치 표현의 부분; 및 음성 트레이닝 발화들의 세트에서 비합성 스피치 표현의 부분을 포함한다. 각각의 트레이닝 발화 배치에서 생성된 합성 스피치 표현의 부분 대 비합성 스피치 표현의 부분의 비율은 스피치 인식 모델을 트레이닝하는 동안 시간이 지남에 따라 증가한다.

스피치 인식 모델이 트레이닝 발화 배치들에 대해 트레이닝되는 구현예에서, 방법은 또한 선택적으로, 각 트레이닝 발화 배치에 대해 스피치 인식 모델을 트레이닝하는 동안: 데이터 프로세싱 하드웨어에 의해, 상기 대응하는 트레이닝 발화 배치에 대한 비-합성 스피치 표현의 부분에서 각각의 비-합성 스피치 표현에 대한 각각의 비-합성 스피치 손실 항을 생성하는 단계; 및 데이터 프로세싱 하드웨어에 의해, 스피치 인식 모델에 의해 생성된 각 개별 비합성 스피치 손실 항에 조정가능한 손실 가중치를 적용하는 단계를 포함할 수 있다. 여기서, 상기 조정가능한 손실 가중치는 상기 대응하는 트레이닝 발화 배치에서 상기 생성된 스피치 표현의 부분 대 비합성 스피치 표현의 부분의 비율에 비례하는 크기를 갖는다.

더욱이, 각각의 트레이닝 발화 배치에 대해 스피치 인식 모델을 트레이닝하는 동안, 방법은 또한 상기 대응하는 트레이닝 발화 배치와 연관된 상기 생성된 합성 스피치 표현의 부분에서 각각의 생성된 합성 스피치 표현에 대한 복수의 출력 단계들 중 각각의 출력 단계에서: 데이터 프로세싱 하드웨어에 의해, 상기 스피치 인식 모델에 의한 출력을 위해, 상기 대응하는 합성 스피치 표현에 대한 가능한 합성 스피치 인식 가설에 대한 제1 확률 분포를 결정하는 단계; 및 데이터 프로세싱 하드웨어에 의해, 상기 대응하는 합성 스피치 표현에 대한 가능한 합성 스피치 인식 가설에 대한 제1 확률 분포 및 상기 대응하는 합성 스피치 표현이 생성되는 상기 대응하는 트레이닝 텍스트 발화에 기초하여 합성 스피치 손실 항을 생성하는 단계를 더 포함할 수 있다. 동시에, 방법은 상기 대응하는 트레이닝 발화 배치와 연관된 상기 비합성 스피치 표현의 부분에서 각각의 비합성 스피치 표현에 대한 복수의 출력 단계들 중 각각의 출력 단계에서: 데이터 프로세싱 하드웨어에 의해, 상기 스피치 인식 모델에 의한 출력을 위해, 상기 대응하는 합성 스피치 표현에 대한 가능한 비합성 스피치 인식 가설에 대한 제2 확률 분포를 결정하는 단계; 및 데이터 프로세싱 하드웨어에 의해, 상기 대응하는 비합성 스피치 표현에 대한 가능한 비합성 스피치 인식 가설에 대한 제2 확률 분포 및 상기 대응하는 비합성 스피치 표현과 페어링되는 음성 트레이닝 발화들의 세트의 전사에 기초하여 비합성 스피치 손실 항을 생성하는 단계를 포함한다.

일부 예시에서 상기 복수의 트레이닝 텍스트 발화들 중 각각의 트레이닝 텍스트 발화에 대한 상기 복수의 출력 단계들 중 각각의 출력 단계에서, 음성 트레이닝 발화들의 세트로부터 선택된 상기 비합성 스피치 표현들 중 하나는: 상기 대응하는 트레이닝 텍스트 발화가 상기 복수의 트레이닝 텍스트 발화들의 제1 부분에 상기 비음성 텍스트 발화들 중 하나를 포함하는 경우, 상기 음성 트레이닝 발화들의 세트로부터 무작위로 선택된 비합성 스피치 표현; 또는 상기 대응하는 트레이닝 텍스트 발화가 상기 복수의 트레이닝 텍스트 발화들의 제2 부분의 전사들 중 하나를 포함하는 경우, 상기 전사들 중 대응하는 전사와 페어링된 상기 음성 트레이닝 발화들의 세트로부터의 비합성 스피치 표현을 포함한다. 추가적 예에서, 각각의 트레이닝 텍스트 발화는 발화 임베딩들의 세트로부터 선택된 발화 임베딩 및 화자 임베딩들의 세트로부터 선택된 화자 임베딩에 대해 조절된다. 화자 임베딩들의 세트의 각 화자 임베딩은 화자 특성을 나타내고, 발화 임베딩들의 세트의 각 발화 임베딩은 의도된 운율을 나타낸다. 각 트레이닝 텍스트 발화는 대응하는 음소 시퀀스로 표현되며, 상기 발화 임베딩들의 세트의 각 발화 임베딩은 VAE(variational autoencoder)에 의해 음성 트레이닝 발화들의 세트의 전사들 중 대응하는 전사로부터 추출될 수 있고, 그리고 상기 화자 임베딩들의 세트의 각 화자 임베딩은 상기 음성 트레이닝 발화들의 세트에서 비합성 스피치 표현들 중 대응하는 비합성 스피치 표현으로부터 추출될 수 있다.

일부 구현예에서, 방법은 상기 복수의 트레이닝 텍스트 발화들의 각각의 트레이닝 텍스트 발화에 대한 복수의 출력 단계들 중 각각의 출력 단계에서 상기 적대적 손실 항을 결정하기 전에, 데이터 프로세싱 하드웨어에 의해, 상기 대응하는 트레이닝 텍스트 발화의 대응하는 생성된 합성 스피치 표현에 데이터 증강을 적용하는 단계를 더 포함한다. 이들 구현예에서, 상기 적용된 데이터 증강은 노이즈 추가, 잔향 추가 또는 타이밍 조작 중 적어도 하나를 포함할 수 있다. 추가 구현예에서, 방법은 또한 상기 복수의 트레이닝 텍스트 발화들의 각각의 트레이닝 텍스트 발화에 대한 복수의 출력 단계들 중 각각의 출력 단계에서: 데이터 프로세싱 하드웨어에 의해, 상기 참조 TTS 모델에 의한 출력을 위해, 상기 대응하는 트레이닝 텍스트 발화의 참조 합성 스피치 표현을 생성하는 단계; 및 데이터 프로세싱 하드웨어에 의해, 상기 GAN 기반 TTS 모델에 의해 출력된 상기 대응하는 트레이닝 텍스트 발화의 상기 합성 스피치 표현 및 상기 참조 TTS 모델. 에 의해 출력된 상기 대응하는 트레이닝 텍스트 발화의 참조 합성 스피치 표현에 기초하여 일관성 손실 항을 결정하는 단계를 포함한다. 여기서, 상기 GAN 기반 TTS 모델의 파라미터를 업데이트하는 단계는 상기 복수의 비음성 트레이닝 발화들의 각각의 트레이닝 텍스트 발화에 대한 복수의 출력 단계들 중 각각의 출력 단계에서 결정된 일관성 손실 항 및 적대적 손실 항에 기초한다. 상기 참조 TTS 모델(322)의 파라미터들은 상기 복수의 트레이닝 텍스트 발화들(305)의 각각의 트레이닝 텍스트 발화에 대한 복수의 출력 단계들 중 각각의 출력 단계에서 고정된 상태로 유지된다.

방법은 또한 데이터 프로세싱 하드웨어에 의해, 복수의 트레이닝 텍스트 발화의 제1 부분에서 비음성 텍스트 발화를 획득하기 위해 비음성 텍스트 선택 프로세스를 실행하는 단계를 포함할 수 있다. 텍스트 선택 프로세스는 비음성 텍스트 발화들의 코퍼스를 획득하고, 그리고 비음성 텍스트 발화들의 코퍼스에서 각각의 비음성 텍스트 발화에 대해: 도메인 특정 언어 모델에 나타나는 상기 비음성 텍스트 발화와 연관된 제1 확률을 결정하고, 상기 도메인 특정 언어 모델은 상기 음성 트레이닝 발화들의 세트의 각 전사에 대해 트레이닝되며; 배경 언어 모델에 나타나는 비음성 텍스트 발화와 연관된 제2 확률을 결정하고, 상기 배경 언어 모델은 비음성 텍스트 발화들의 코퍼스에서 모든 비음성 텍스트 발화에 대해 트레이닝되며; 그리고 상기 제1 확률, 상기 제2 확률 및 상기 대응하는 비음성 텍스트 발화에 나타나는 단어들의 수에 기초하여 점수를 결정하도록 구성된다. 텍스트 선택 프로세스는 비음성 텍스트 발화들의 코퍼스에서 N-최고 발화 점수를 갖는 비음성 텍스트 발화들을 상기 복수의 트레이닝 텍스트 발화들의 제1 부분에서 상기 비음성 텍스트 발화들로서 선택하도록 구성된다.

일부 예시에서, 스피치 인식 모델을 트레이닝하는 단계는 상기 복수의 트레이닝 텍스트 발화들의 각각의 트레이닝 텍스트 발화에 대한 복수의 출력 단계들 중 각각의 출력 단계에서: 스피치 인식 모델에 의해, 상기 GAN 기반 TTS 모델에 의해 출력된 상기 대응하는 트레이닝 텍스트 발화의 합성 스피치 표현을 인코딩하는 단계; 스피치 인식 모델에 의해, 음성 트레이닝 발화들의 세트로부터 선택된 상기 비합성 스피치 표현들 중 하나를 인코딩하는 단계; 다른 적대적 판별기를 사용하여, 상기 인코딩된 합성 스피치 표현과 상기 비합성 스피치 표현들 중 인코딩된 비합성 스피치 표현 사이의 다른 적대적 손실 항을 결정하는 단계; 및 상기 복수의 트레이닝 텍스트 발화들 중 각각의 트레이닝 텍스트 발화에 대한 상기 복수의 출력 단계들 중 각각의 출력 단계에서 결정된 상기 다른 적대적 손실 항에 기초하여, 상기 스피치 인식 모델의 파라미터들을 업데이트하는 단계를 포함한다. 이들 예에서, 상기 복수의 트레이닝 텍스트 발화들의 각각의 트레이닝 텍스트 발화에 대한 복수의 출력 단계들 중 각각의 출력 단계에서, 대응하는 텍스트 발화 및 다른 적대적 판별기는 각각 화자 임베딩들의 세트로부터 선택된 동일한 화자 임베딩에 대해 조절된다. 화자 임베딩들의 세트의 각 화자 임베딩은 화자 특성을 나타낸다. 또한, 상기 음성 트레이닝 발화들의 세트로부터 선택된 상기 비합성 스피치 표현들 중 하나는 상기 대응하는 트레이닝 텍스트 발화가 상기 복수의 트레이닝 텍스트 발화들의 제1 부분에 상기 비음성 텍스트 발화들 중 하나를 포함하는 경우, 상기 음성 트레이닝 발화들의 세트로부터 무작위로 선택된 비합성 스피치 표현 및 상기 대응하는 트레이닝 텍스트 발화가 상기 복수의 트레이닝 텍스트 발화들의 제2 부분의 전사들 중 하나를 포함하는 경우, 상기 전사들 중 대응하는 전사와 페어링된 상기 음성 트레이닝 발화들의 세트로부터의 비합성 스피치 표현을 포함할 수 있다.

본 개시의 다른 양태는 GAN(Generative Adversarial Network) 기반 TTS(text-to-speech) 모델과 스피치 인식 모델을 동시에 트레이닝하기 위한 시스템을 제공한다. 시스템은 데이터 프로세싱 하드웨어와 상기 데이터 프로세싱 하드웨어와 통신하는 메모리 하드웨어를 포함한다. 메모리 하드웨어는 데이터 프로세싱 하드웨어에서 실행될 때 상기 데이터 프로세싱 하드웨어로 하여금 동작들을 수행하게 하는 명령어들을 저장한다. 동작들은 복수의 트레이닝 텍스트 발화들을 획득하는 동작을 포함하고, 복수의 트레이닝 텍스트 발화들의 제1 부분은 비음성 텍스트 발화를 포함하고 그리고 상기 복수의 트레이닝 텍스트 발화의 나머지 제2 부분은 음성 트레이닝 발화들의 세트의 전사를 포함한다. 각 비음성 텍스트 발화는 대응하는 음성 발화와 페어링되지 않는다. 각 음성 트레이닝 발화는 대응하는 음성 트레이닝 발화의 대응하는 비합성 스피치 표현과 페어링된 대응하는 전사를 포함한다. 상기 동작들은 상기 복수의 트레이닝 텍스트 발화들의 각각의 트레이닝 텍스트 발화에 대한 복수의 출력 단계들 중 각각의 출력 단계에서: 상기 GAN 기반 TTS 모델에 의한 출력을 위해, 상기 대응하는 트레이닝 텍스트 발화의 합성 스피치 표현을 생성하는 동작 및 상기 GAN의 적대적 판별기를 사용하여, 대응하는 트레이닝 텍스트 발화의 대응하는 합성 스피치 표현에 대한 음성 트레이닝 발화들의 세트로부터 선택된 비합성 스피치 표현들 중 하나에서 음향 노이즈 디스패리티의 양을 나타내는 적대적 손실 항을 결정하는 동작을 포함한다. 또한 동작들은 상기 복수의 트레이닝 텍스트 발화들 중 각각의 트레이닝 텍스트 발화에 대한 상기 복수의 출력 단계들 중 각각의 출력 단계에서 결정된 상기 적대적 손실 항에 기초하여, 상기 GAN 기반 TTS 모델의 파라미터들을 업데이트하는 동작을 포함한다.

본 양태는 다음 구성들 중 하나 이상을 포함할 수 있다. 일부 구현예에서, 스피치 인식 모델을 트레이닝하는 것은 트레이닝 발화 배치들에 대해 스피치 인식 모델을 트레이닝하는 것을 더 포함한다. 여기서, 각 트레이닝 발화 배치는 상기 대응하는 트레이닝 텍스트 발화들의 생성된 합성 스피치 표현의 부분; 및 음성 트레이닝 발화들의 세트에서 비합성 스피치 표현의 부분을 포함한다. 각각의 트레이닝 발화 배치에서 생성된 합성 스피치 표현의 부분 대 비합성 스피치 표현의 부분의 비율은 스피치 인식 모델을 트레이닝하는 동안 시간이 지남에 따라 증가한다.

스피치 인식 모델이 트레이닝 발화 배치들에 대해 트레이닝되는 구현예에서, 동작들은 또한 선택적으로, 각 트레이닝 발화 배치에 대해 스피치 인식 모델을 트레이닝하는 동안: 상기 대응하는 트레이닝 발화 배치에 대한 비-합성 스피치 표현의 부분에서 각각의 비-합성 스피치 표현에 대한 각각의 비-합성 스피치 손실 항을 생성하는 동작; 및 스피치 인식 모델에 의해 생성된 각 개별 비합성 스피치 손실 항에 조정가능한 손실 가중치를 적용하는 동작을 포함할 수 있다. 여기서, 상기 조정가능한 손실 가중치는 상기 대응하는 트레이닝 발화 배치에서 상기 생성된 스피치 표현의 부분 대 비합성 스피치 표현의 부분의 비율에 비례하는 크기를 갖는다.

더욱이, 각각의 트레이닝 발화 배치에 대해 스피치 인식 모델을 트레이닝하는 동안, 동작들은 또한 상기 대응하는 트레이닝 발화 배치와 연관된 상기 생성된 합성 스피치 표현의 부분에서 각각의 생성된 합성 스피치 표현에 대한 복수의 출력 단계들 중 각각의 출력 단계에서: 상기 스피치 인식 모델에 의한 출력을 위해, 상기 대응하는 합성 스피치 표현에 대한 가능한 합성 스피치 인식 가설에 대한 제1 확률 분포를 결정하는 동작; 및 상기 대응하는 합성 스피치 표현에 대한 가능한 합성 스피치 인식 가설에 대한 제1 확률 분포 및 상기 대응하는 합성 스피치 표현이 생성되는 상기 대응하는 트레이닝 텍스트 발화에 기초하여 합성 스피치 손실 항을 생성하는 동작을 더 포함할 수 있다. 동시에, 동작들은 상기 대응하는 트레이닝 발화 배치와 연관된 상기 비합성 스피치 표현의 부분에서 각각의 비합성 스피치 표현에 대한 복수의 출력 단계들 중 각각의 출력 단계에서: 상기 스피치 인식 모델에 의한 출력을 위해, 상기 대응하는 합성 스피치 표현에 대한 가능한 비합성 스피치 인식 가설에 대한 제2 확률 분포를 결정하는 동작; 및 상기 대응하는 비합성 스피치 표현에 대한 가능한 비합성 스피치 인식 가설에 대한 제2 확률 분포 및 상기 대응하는 비합성 스피치 표현과 페어링되는 음성 트레이닝 발화들의 세트의 전사에 기초하여 비합성 스피치 손실 항을 생성하는 동작을 포함한다.

일부 예시에서 상기 복수의 트레이닝 텍스트 발화들 중 각각의 트레이닝 텍스트 발화에 대한 상기 복수의 출력 단계들 중 각각의 출력 단계에서, 음성 트레이닝 발화들의 세트로부터 선택된 상기 비합성 스피치 표현들 중 하나는: 상기 대응하는 트레이닝 텍스트 발화가 상기 복수의 트레이닝 텍스트 발화들의 제1 부분에 상기 비음성 텍스트 발화들 중 하나를 포함하는 경우, 상기 음성 트레이닝 발화들의 세트로부터 무작위로 선택된 비합성 스피치 표현; 또는 상기 대응하는 트레이닝 텍스트 발화가 상기 복수의 트레이닝 텍스트 발화들의 제2 부분의 전사들 중 하나를 포함하는 경우, 상기 전사들 중 대응하는 전사와 페어링된 상기 음성 트레이닝 발화들의 세트로부터의 비합성 스피치 표현을 포함할 수 있다. 추가적 예에서, 각각의 트레이닝 텍스트 발화는 발화 임베딩들의 세트로부터 선택된 발화 임베딩 및 화자 임베딩들의 세트로부터 선택된 화자 임베딩에 대해 조절된다. 화자 임베딩들의 세트의 각 화자 임베딩은 화자 특성을 나타내고, 발화 임베딩들의 세트의 각 발화 임베딩은 의도된 운율을 나타낸다. 각 트레이닝 텍스트 발화는 대응하는 음소 시퀀스로 표현되며, 상기 발화 임베딩들의 세트의 각 발화 임베딩은 VAE(variational autoencoder)에 의해 음성 트레이닝 발화들의 세트의 전사들 중 대응하는 전사로부터 추출될 수 있고, 그리고 상기 화자 임베딩들의 세트의 각 화자 임베딩은 상기 음성 트레이닝 발화들의 세트에서 비합성 스피치 표현들 중 대응하는 비합성 스피치 표현으로부터 추출될 수 있다.

일부 구현예에서, 동작들은 상기 복수의 트레이닝 텍스트 발화들의 각각의 트레이닝 텍스트 발화에 대한 복수의 출력 단계들 중 각각의 출력 단계에서 상기 적대적 손실 항을 결정하기 전에 상기 대응하는 트레이닝 텍스트 발화의 대응하는 생성된 합성 스피치 표현에 데이터 증강을 적용하는 동작을 더 포함한다. 이들 구현예에서, 상기 적용된 데이터 증강은 노이즈 추가, 잔향 추가 또는 타이밍 조작 중 적어도 하나를 포함할 수 있다. 추가 실시예에서, 상기 동작들은, 상기 복수의 트레이닝 텍스트 발화들의 각각의 트레이닝 텍스트 발화에 대한 복수의 출력 단계들 중 각각의 출력 단계에서: 상기 참조 TTS 모델에 의한 출력을 위해, 상기 대응하는 트레이닝 텍스트 발화의 참조 합성 스피치 표현을 생성하는 동작; 및 상기 GAN 기반 TTS 모델에 의해 출력된 상기 대응하는 트레이닝 텍스트 발화의 상기 합성 스피치 표현 및 상기 참조 TTS 모델. 에 의해 출력된 상기 대응하는 트레이닝 텍스트 발화의 참조 합성 스피치 표현에 기초하여 일관성 손실 항을 결정하는 동작을 포함한다. 여기서, 상기 GAN 기반 TTS 모델의 파라미터를 업데이트하는 단계는 상기 복수의 비음성 트레이닝 발화들의 각각의 트레이닝 텍스트 발화에 대한 복수의 출력 단계들 중 각각의 출력 단계에서 결정된 일관성 손실 항 및 적대적 손실 항에 기초한다. 상기 참조 TTS 모델(322)의 파라미터들은 상기 복수의 트레이닝 텍스트 발화들(305)의 각각의 트레이닝 텍스트 발화에 대한 복수의 출력 단계들 중 각각의 출력 단계에서 고정된 상태로 유지된다.

동작들은 또한 복수의 트레이닝 텍스트 발화의 제1 부분에서 비음성 텍스트 발화를 획득하기 위해 비음성 텍스트 선택 프로세스를 실행하는 동작을 포함할 수 있다. 텍스트 선택 프로세스는 비음성 텍스트 발화들의 코퍼스를 획득하고, 그리고 비음성 텍스트 발화들의 코퍼스에서 각각의 비음성 텍스트 발화에 대해: 도메인 특정 언어 모델에 나타나는 상기 비음성 텍스트 발화와 연관된 제1 확률을 결정하고, 상기 도메인 특정 언어 모델은 상기 음성 트레이닝 발화들의 세트의 각 전사에 대해 트레이닝되며; 배경 언어 모델에 나타나는 비음성 텍스트 발화와 연관된 제2 확률을 결정하고, 상기 배경 언어 모델은 비음성 텍스트 발화들의 코퍼스에서 모든 비음성 텍스트 발화에 대해 트레이닝되며; 그리고 상기 제1 확률, 상기 제2 확률 및 상기 대응하는 비음성 텍스트 발화에 나타나는 단어들의 수에 기초하여 점수를 결정하도록 구성된다. 텍스트 선택 프로세스는 비음성 텍스트 발화들의 코퍼스에서 N-최고 발화 점수를 갖는 비음성 텍스트 발화들을 상기 복수의 트레이닝 텍스트 발화들의 제1 부분에서 상기 비음성 텍스트 발화들로서 선택하도록 구성된다.

일부 예시에서, 스피치 인식 모델을 트레이닝하는 동작은 상기 복수의 트레이닝 텍스트 발화들의 각각의 트레이닝 텍스트 발화에 대한 복수의 출력 단계들 중 각각의 출력 단계에서: 스피치 인식 모델에 의해, 상기 GAN 기반 TTS 모델에 의해 출력된 상기 대응하는 트레이닝 텍스트 발화의 합성 스피치 표현을 인코딩하는 동작; 스피치 인식 모델에 의해, 음성 트레이닝 발화들의 세트로부터 선택된 상기 비합성 스피치 표현들 중 하나를 인코딩하는 동작; 다른 적대적 판별기를 사용하여, 상기 인코딩된 합성 스피치 표현과 상기 비합성 스피치 표현들 중 인코딩된 비합성 스피치 표현 사이의 다른 적대적 손실 항을 결정하는 동작; 및 상기 복수의 트레이닝 텍스트 발화들 중 각각의 트레이닝 텍스트 발화에 대한 상기 복수의 출력 단계들 중 각각의 출력 단계에서 결정된 상기 다른 적대적 손실 항에 기초하여, 상기 스피치 인식 모델의 파라미터들을 업데이트하는 동작을 포함한다. 이들 예에서, 상기 복수의 트레이닝 텍스트 발화들의 각각의 트레이닝 텍스트 발화에 대한 복수의 출력 단계들 중 각각의 출력 단계에서, 대응하는 텍스트 발화 및 다른 적대적 판별기는 각각 화자 임베딩들의 세트로부터 선택된 동일한 화자 임베딩에 대해 조절된다. 화자 임베딩들의 세트의 각 화자 임베딩은 화자 특성을 나타낸다. 또한, 상기 음성 트레이닝 발화들의 세트로부터 선택된 상기 비합성 스피치 표현들 중 하나는 상기 대응하는 트레이닝 텍스트 발화가 상기 복수의 트레이닝 텍스트 발화들의 제1 부분에 상기 비음성 텍스트 발화들 중 하나를 포함하는 경우, 상기 음성 트레이닝 발화들의 세트로부터 무작위로 선택된 비합성 스피치 표현 및 상기 대응하는 트레이닝 텍스트 발화가 상기 복수의 트레이닝 텍스트 발화들의 제2 부분의 전사들 중 하나를 포함하는 경우, 상기 전사들 중 대응하는 전사와 페어링된 상기 음성 트레이닝 발화들의 세트로부터의 비합성 스피치 표현을 포함할 수 있다.

본 개시의 하나 이상의 구현예의 세부 내용이 첨부 도면과 아래의 설명에서 기술된다. 다른 양태, 구성, 객체 및 이점은 아래의 설명, 도면 및 청구항으로부터 명백해질 것이다.

도 1은 스피치 인식 모델을 포함하는 예시적 스피치 인식 시스템의 개략도이다.
도 2a는 RNN-T(Recurrent Neural Network-Transducer) 모델 아키텍처의 개략도이다.
도 2b는 AED(Attention-Based Encoder-Decoder) 모델 아키텍처의 개략도이다.
도 3a는 GAN(Generative Adversarial Network) 기반 TTS(text-to-speech) 모델 및 스피치 인식 모델을 병렬로 트레이닝하기 위한 예시적 트레이닝 프로세스의 개략도이다.
도 3b는 비합성 스피치와 합성 스피치 둘 모두에 대한 일관적 예측을 학습하기 위한 도 1의 스피치 인식 모델을 촉진하기 위한 예시적 트레이닝 프로세스의 개략도이다.
도 3c는 도 1의 스피치 인식 모델에 의해 도메인 불변 학습을 촉진하기 위한 예시적 트레이닝 프로세스의 개략도이다.
도 4는 도 1의 GAN 기반 TTS 모델 및 스피치 인식 모델을 트레이닝하기 위한 비음성 텍스트 발화를 선택하기 위한 예시적 선택 프로세스의 개략도이다.
도 5 는 GAN(Generative Adversarial Network) 기반 TTS(text-to-speech) 모델 및 스피치 인식 모델을 병렬로 트레이닝하기 위한 방법의 동작들의 예시적 구성의 흐름도이다.
도 6는 본 명세서에 기술된 시스템 및 방법을 구현하는데 사용될 수 있는 예시적 컴퓨팅 디바이스의 개략도이다.
다양한 도면들에서 기호들은 동일한 엘리먼트를 표시한다.

자동 스피치 인식은 오디오에서 문자 시퀀스로 매핑되는 시퀀스 대 시퀀스(Seq2Seq) 모델의 도입으로 엄청난 발전을 이루었다. 엔드-투-엔드(E2E) 딥러닝 기반 ASR 모델을 개발하는데 있어 한 가지 문제는 ASR 모델의 파라미터가 트레이닝 데이터에 과적합되는 경향이 있어, 트레이닝 데이터가 충분히 광범위하지 않을 때 ASR 모델이 보이지 않는 데이터를 일반화하는데 어려움을 겪을 수 있다는 것이다. 또한, E2E ASR 모델은 길고 시끄러운 스피치 오디오에서 기존 스피치 인식 시스템보다 성능이 떨어지는 경향이 있다. 결과적으로, 전사된 스피치 데이터의 더 큰 트레이닝 데이터세트에서 ASR 모델을 트레이닝하면 ASR 모델의 정확도가 향상된다.

TTS(텍스트-투-스피치) 또는 스피치 합성 시스템은 Seq2Seq 모델을 성공적으로 적용하여 사람의 스피치를 사람의 귀로 구별할 수 없는 자연스럽고 사실적으로 들리는 합성 스피치를 얻는다. 유리하게는, ASR 모델의 트레이닝을 개선하기 위한 합성 스피치를 생성하기 위해 비음성 텍스트 발화 또는 텍스트 전용 데이터를 쉽고 저렴하게 얻을 수 있다. 예를 들어, 비음성 텍스트 발화는 트레이닝 데이터 세트의 양을 늘리는 데 사용될 수 있을 뿐만 아니라 비음성 텍스트 발화는 전사된 스피치(예: 사람이 말한 오디오 및 해당 전사)를 획득하는 어려움 없이 트레이닝 데이터에서 언어적 다양성을 증가시킬 수 있다. 현대의 TTS 시스템에 의해 생성된 합성된 스피치의 총 품질은 상당히 높지만, 합성된 스피치는 합성되지 않은(실제/인간) 스피치보다 노이즈 변화가 훨씬 적으며 스피치 왜곡도 최소화된다. 결과적으로, 합성된 스피치 데이터에 대해서만 ASR 모델을 트레이닝하는 것은 추론하는 동안 실제 스피치 발화를 일반화하는데 어려움이 있다.

본 명세서의 구현예는 ASR 모델을 병렬로 트레이닝하기 위해 TTS 모델에 의해 생성된 합성 스피치에서 음향 다양성을 증가시키기 위해 생성적 적대 네트워크(GAN) 및 데이터 증강 기법을 결합하는 것에 관한 것이다. 명백해지는 바와 같이, GAN 기반 TTS 모델의 파라미터는 불리한 음향 환경에서 기록된 비합성 스피치 표현과 유사한 음향을 갖는 합성 스피치 표현을 생성하도록 업데이트될 수 있다. 여기에서, 합성된 스피치는 모델을 트레이닝하는데 필요한 레이블링된 인간 스피치의 양을 크게 제한하는 동시에 ASR 모델을 여러 도메인으로 이동할 수 있는 유연성을 제공할 가능성이 있다.

추가적으로, 데이터 증강 기법은 GAN 기반 TTS 모델로부터 출력된 합성 스피치 표현에 적용되어 실제/인간 스피치와 연관된 음향 노이즈 디스패리티를 밀접하게 일치시킬 수 있다. 데이터 증강 기법은 (예를 들어, 다중 스타일 트레이닝(MTR)을 통해) 노이즈를 추가/주입하고, 잔향을 추가하고 및/또는 (예를 들어, 스펙트럼 증강(SpecAugment)을 통해) 타이밍을 조작하는 것을 포함할 수 있다. 여기에서 구현예는 ASR 트레이닝에 사용하기 위해 비음성 텍스트 발화를 선택하기 위한 대조 언어 모델을 생성하는 것에 관한 것이다. 즉, 대조 언어 모델의 사용은 대규모 비음성 텍스트 발화 학습의 효율성을 향상시킬 수 있다.

도 1은 사용자(104)의 사용자 디바이스(102) 및/또는 사용자 디바이스(102)와 통신하는 원격 컴퓨팅 디바이스(201)(예를 들어, 클라우드 컴퓨팅 환경에서 실행되는 분산 시스템의 하나 이상의 서버)에 상주하는 ASR 모델(200)을 구현하는 자동 스피치 인식(ASR) 시스템(100)을 도시한다. 사용자 디바이스(102)가 모바일 컴퓨팅 디바이스(예: 스마트폰)로 도시되어 있지만, 사용자 디바이스(102)는 제한 없이 태블릿 디바이스, 랩톱/데스크톱 컴퓨터, 웨어러블 디바이스, 디지털 어시스턴트 디바이스, 스마트 스피커/디스플레이, 스마트 기기, 자동차 인포테인먼트 시스템 또는 사물 인터넷(IoT) 디바이스와 같은 임의의 유형의 컴퓨팅 디바이스에 대응할 수 있다.

사용자 디바이스(102)는 사용자(104)가 말한 발화(106)을 수신하고(예를 들어, 사용자 디바이스(102)는 음성 발화(106)를 기록하기 위한 하나 이상의 마이크로폰을 포함할 수 있음), 상기 발화(106)를 ASR 시스템(100)에 의해 프로세싱될 수 있는 입력 음향 프레임(110)과 연관된 대응하는 디지털 형식으로 변환하도록 구성된 오디오 서브시스템(108)을 포함한다. 도시된 예에서, 사용자는 각각의 발화(106)를 "What is the weather in New York City?"라는 영어 자연어 문구로 말하고, 오디오 서브시스템(108)은 ASR 시스템(100)에 대한 입력을 위해 발화(106)를 대응하는 음향 프레임들(110)로 변환한다. 그 후, ASR 모델(200)은 발화(106)에 대응하는 음향 프레임(110)을 입력으로 수신하고, 발화(106)의 대응하는 전사(예를 들어, 인식 결과/가설)(120)를 출력으로서 생성/예측한다. 도시된 예에서, 사용자 디바이스(102) 및/또는 원격 컴퓨팅 디바이스(201)는 또한 사용자 디바이스(102)의 사용자(104)에게 발화(106)에 대한 전사(120)의 표현을 제시하도록 구성된 사용자 인터페이스 생성기(107)를 실행한다. 일부 구성에서, ASR 시스템(100)으로부터 출력된 전사(120)는 예를 들어 사용자 명령을 실행하기 위해 사용자 디바이스(102) 또는 원격 컴퓨팅 디바이스(201) 상에서 실행되는 자연어 이해(NLU) 모듈에 의해 프로세싱된다. 추가적으로 또는 대안적으로, 텍스트-투-스피치 시스템(예를 들어, 사용자 디바이스(104) 또는 원격 컴퓨팅 디바이스(201)의 임의의 조합에서 실행)은 상기 전사를 다른 사용자 디바이스에 의한 가청 출력을 위한 합성 스피치로 변환할 수 있다. 예를 들어, 원본 발화(106)는 전사(120)가 원본 발화(106)에서 전달된 메시지를 듣기 위해 친구에게 가청 출력을 위해 합성된 스피치로 변환되는 사용자(104)가 친구에게 보내는 메시지에 대응할 수 있다.

도 2a 및 도 2b를 참조하면, ASR 모델(200)은 프레임 정렬 기반 변환기 모델(200a)(도 2a)과 같은 엔드-투-엔드(E2E) 시퀀스 대 시퀀스 모델 또는 어텐션 기반 인코더-디코더(AED) 모델(200b)(도 2b)을 포함할 수 있다. ASR 모델(200)은 음향, 발음 및 언어 모델을 하나의 신경망으로 통합하여 E2E 스피치 인식을 제공할 수 있으며, 사전이나 별도의 텍스트 정규화 컴포넌트가 필요하지 않다. 다양한 구조와 최적화 메커니즘을 통해 정확도를 높이고 모델 트레이닝 시간을 줄일 수 있다.

도 2a를 참조하면, 예시적 프레임 정렬 기반 변환기 모델(200a)은 인터렉티브 애플리케이션과 연관된 지연 제약을 준수하는 RNN-T(Recurrent Neural Network-Transducer) 모델 아키텍처를 포함한다. RNN-T 모델(200a)은 작은 계산 공간을 제공하고 기존의 ASR 아키텍처보다 적은 메모리 요구사항을 활용하여, RNN-T 모델 아키텍처를 사용자 디바이스(102)에서 완전히 스피치 인식을 수행하는데 적합하게 한다(예를 들어, 원격 서버와의 통신이 필요하지 않다). RNN-T 모델(200a)은 인코더 네트워크(210), 예측 네트워크(220) 및 조인트 네트워크(230)를 포함한다. 종래의 ASR 시스템의 음향 모델(AM)과 대략 유사 인코더 네트워크(210)는 적층된 LSTM(Long Short-Term Memory) 레이어(216)의 순환 네트워크를 포함한다. 예를 들어, 인코더는 d-차원 피처 벡터의 시퀀스(예를 들어, 음향 프레임(110)(도 1)) x = (x ₁ , x ₂ , · · · , x _T )를 판독하고, 여기서 x _t ∈ R_d이고 각 시간 단계에서 고차 피처 표현을 생성한다. 이 고차 피처 표현은

로 표시될 수 있다.

유사하게, 예측 네트워크(220)는 또한 언어 모델(LM)과 유사하고, 지금까지 최종 소프트맥스 레이어(240)에 의해 출력된 비-공백 심볼의 시퀀스, y ₀ , . . . , y _ui-1 를 조밀한 표현

으로 프로세싱하는 LSTM 네트워크이다. 마지막으로, RNN-T 모델 아키텍처에서, 인코더 및 예측 네트워크(210, 220)에 의해 생성된 표현은 조인트 네트워크(230)에 의해 결합된다. 그 다음, 조인트 네트워크는 다음 출력 심볼에 대한 분포인

를 예측한다. 달리 말하면, 조인트 네트워크(230)는 각각의 출력 단계(예를 들어, 시간 단계)에서 가능한 스피치 인식 가설에 대한 확률 분포를 생성한다. 여기서, "가능한 스피치 인식 가설"은 지정된 자연어에서 기호/문자를 각각 나타내는 출력 레이블의 세트에 대응한다. 예를 들어, 자연어가 영어인 경우, 출력 레이블의 세트는 27개의 기호, 예를 들어 영어 알파벳의 26자 각각에 대한 하나의 레이블과 공백을 지정하는 하나의 레이블을 포함할 수 있다. 따라서, 조인트 네트워크(230)는 미리 결정된 출력 레이블 세트 각각의 발생 가능성을 나타내는 값 세트를 출력할 수 있다. 이 값 세트는 벡터가 될 수 있으며, 출력 레이블 세트에 대한 확률 분포를 나타낼 수 있다. 일부 경우에, 출력 레이블이 자소(예: 개별 문자, 잠재적으로 구두점 및 기타 기호)이지만, 출력 레이블 세트는 그렇게 제한되지 않다. 예를 들어, 출력 레이블 세트는 자소에 추가로 또는 대신에 단어 조각 및/또는 전체 단어를 포함할 수 있다. 조인트 네트워크(230)의 출력 분포는 상이한 출력 레이블들 각각에 대한 사후 확률 값을 포함할 수 있다. 따라서, 상이한 자소 또는 다른 기호를 나타내는 100개의 상이한 출력 레이블이 있는 경우, 조인트 네트워크(230)의 출력 yi는 각 출력 레이블에 대해 하나씩 100개의 상이한 확률 값을 포함할 수 있다. 그 다음, 확률 분포는 전사(120)를 결정하기 위한 빔 검색 프로세스(예를 들어, 소프트맥스 레이어(240)에 의해)에서 후보 정법 엘리먼트(예를 들어, 자소, 단어 조각 및/또는 단어)에 점수를 선택하고 할당하는데 사용될 수 있다.

소프트맥스 레이어(240)는 대응하는 출력 단계에서 모델(200a)에 의해 예측된 다음 출력 심볼로서 분포에서 가장 높은 확률을 갖는 출력 레이블/심볼을 선택하기 위해 임의의 기법을 사용할 수 있다. 이와 같이, RNN-T 모델(200a)은 조건부 독립 가정을 하지 않고, 각 심볼의 예측은 음향뿐만 아니라 지금까지 출력된 레이블들의 시퀀스에 따라 조절된다. RNN-T 모델(200a)은 출력 심볼이 미래의 음향 프레임(110)과 독립적이라고 가정하며, 이는 RNN-T 모델이 스트리밍 방식으로 사용될 수 있게 한다.

일부 예에서, RNN-T 모델(200a)의 인코더 네트워크(210)는 8개의 2,048-차원 LSTM 레이어들로 구성되고, 그 각각은 640-차원 투영 레이어가 뒤따른다. 예측 네트워크(220)는 2개의 2,048-차원 LSTM 레이어들을 가질 수 있고, 이들 각각은 또한 640-차원 투영 레이어가 뒤따른다. 마지막으로, 조인트 네트워크(230)는 또한 640개의 히든 유닛을 가질 수 있다. 소프트맥스 레이어(240)는 복수의 트레이닝 텍스트 발화들(302)(도 3a)에서 모든 고유한 단어 조각 또는 자소를 사용하여 생성되는 통합된 단어 조각 또는 자소 세트로 구성될 수 있다.

도 2b를 참조하면, 예시적 AED 모델(200b)은 종래의 음향 모델과 유사한 리스너 인코딩 모듈(211), 정렬 모델로서 역할을 하는 어텐더 모델(221) 및 종래 시스템의 언어 모델과 유사한 디코더(231)를 포함하는 단일 신경망을 제공하는 LAS(Listen, Attend and Spell) 모델 아키텍처와 연관된다. 구체적으로, 리스너 인코더 모듈(211)은 입력 피처들(예를 들어, 음향 프레임들(110)(도 1))x를 취하고, 더 높은 수준의 피처 표현 h ^enc 에 매핑한다. 따라서 인코딩된 피처 표현 h ^enc 를 생성하는 이 프로세스는 서로 다른 입력 시간 단계를 나타내는 다수의 입력 프레임 각각에 대해 수행될 수 있다. 이러한 시간단계는 아래 첨자 u로 표시된다. 따라서 프레임 세트 {f₁, f₂, f₃, ... f_u}에 대해 인코딩된 출력 {h₁, h₂, h₃, ...h_u}의 대응 세트가 있을 수 있다.

인코더(211)의 출력은 DTW(Dynamic Time Warping) 정렬 모듈과 유사하게 다음 출력 심볼 y _i 를 예측하기 위해 h ^enc 에 어떤 인코더 피처들이 주의를 기울여야 하는지를 결정하는 어텐더 모델(221)로 전달된다. 일부 예에서, 어텐더(221)는 본 명세서에서 어텐더 신경망 또는 어텐션 모듈(221)로 지칭된다. 어텐더(221)는 다수의 출력 단계 i의 각각에 대한 컨텍스트 출력 c _i 를 생성할 수 있다. 각각의 컨텍스트 출력 벡터 c _i 에 대해, 어텐더(221)는 하나 이상의 입력 단계 u에 대한 인코딩, 예를 들어 현재 입력 단계에 대한 인코딩 및 이전 입력 단계에 대한 인코딩에 기초하여 어텐션을 계산할 수 있다. 예를 들어, 어텐더(221)는 발화의 모든 인코더 출력 세트, 예를 들어 전체 세트 {h₁, h₂, h₃, ... h_u}에 대해 어텐션 컨텍스트 출력 c _i 를 생성할 수 있다. 어텐션 컨텍스트 벡터는 인식되는 발화의 프레임(예를 들어, 부분)에 대한 현재 및 이전 인코딩의 가중 요약을 나타내는 벡터일 수 있다.

마지막으로, 어텐더(221)의 출력은 디코더(231)로 전달되고, 디코더 출력을 생성하기 위해 디코더(231)는 어텐더(221)에 의해 출력된 어텐션 컨텍스트(예를 들어, 컨텍스트 벡터 또는 어텐션 분포), c _i 및 이전 예측의 임베딩 y _i -1을 취한다. 디코더 출력은 이전 단위 {y _i-1 , . . . , y ₀ } 및 입력 x에 대해 현재 서브-단어 유닛 y _i 에 대한 확률 분포 P (y _i |y _i-1 , . . . , y ₀ , x)일 수 있다. 따라서, 디코더(231)는 각 출력 단계에서 가능한 스피치 인식 가설에 대한 확률 분포를 생성한다. 도 2a를 참조하여 위에서 논의된 RNN-T 모델(200a)에서와 같이, "가능한 스피치 인식 가설"은 지정된 자연어에서 기호/문자를 각각 나타내는 출력 기호의 세트에 대응한다.

도시되지는 않았지만, 모델(200)은 디코더(231)의 출력을 수신하는 소프트맥스 레이어를 포함할 수 있다. 일부 구현예에서, 소프트맥스 레이어는 디코더(231)와 별개이고 디코더(231)로부터의 출력 y _i 를 프로세싱하고, 소프트맥스 레이어의 출력은 그 다음 직교 엘리먼트들을 선택하기 위해 빔 검색 프로세스에서 사용된다. 일부 구현예에서, 소프트맥스 레이어는 디코더(231)와 통합되어, 디코더(231)의 출력 y _i 는 소프트맥스 레이어의 출력을 나타낸다.

디코더(231) 및/또는 연관된 소프트맥스 레이어는 미리 결정된 출력 레이블 세트 각각의 발생 가능성을 나타내는 값 세트를 출력하도록 트레이닝될 수 있다. 이 값 세트는 벡터가 될 수 있으며, 출력 레이블 세트에 대한 확률 분포를 나타낼 수 있다. 일부 경우에, 출력 레이블이 자소(예: 개별 문자, 잠재적으로 구두점 및 기타 기호)이지만, 출력 레이블 세트는 그렇게 제한되지 않다. 예를 들어, 출력 레이블 세트는 자소에 추가로 또는 대신에 단어 조각 및/또는 전체 단어를 포함할 수 있다. 디코더(231) 및/또는 소프트맥스 레이어의 출력 분포는 상이한 출력 레이블들 각각에 대한 사후 확률 값을 포함할 수 있다. 따라서, 서로 다른 자소 또는 기타 기호를 나타내는 100개의 서로 다른 출력 레이블이 있는 경우, 디코더의 출력 y _i 또는 출력 y _i 를 수신하고 프로세싱하는 소프트맥스 레이어의 출력은 각 출력 레이블에 대해 하나씩 100개의 서로 다른 확률 값을 포함할 수 있다. 그 다음, 확률 분포는 전사(120)를 결정하기 위한 빔 검색 프로세스에서 후보 정법 엘리먼트(예를 들어, 자소, 단어 조각 및/또는 단어)에 점수를 선택하고 할당하는데 사용될 수 있다.

도 3a-3c는 GAN(Generative Adversarial Network) 기반 TTS(text-to-speech) 모델(310)과 스피치 인식 모델(200)을 동시에 트레이닝하기 위한 예시적 트레이닝 프로세스(300, 300a-300c)를 도시한다. 트레이닝 프로세스(300)는 도 1의 원격 컴퓨팅 디바이스(201)에서 실행될 수 있다. 스피치 인식 모델(200)은 ASR 모델(200)로 지칭될 수 있다. GAN 기반 TTS 모델(310)의 트레이닝은 불리한 음향 환경에서 기록된 비합성 스피치 표현(304)과 유사한 음향을 갖는 합성 스피치 표현(306)을 생성하기 위해 모델(310)에 의한 학습을 촉진한다. 여기에서, 합성된 스피치는 ASR 모델(200)을 트레이닝하는데 필요한 레이블링된 인간 스피치의 양을 크게 제한하는 동시에 ASR 모델(200)을 여러 도메인으로 이동할 수 있는 유연성을 제공할 가능성이 있다. 또한, 트레이닝 프로세스(300)는 ASR 모델(200)을 촉진하여 비합성 스피치(예: 실제/인간의 스피치), 전사된 스피치에서 생성된 합성 스피치 및 어떤 대응하는 오디오/스피치와도 페어링되지 않은 비음성 텍스트 발화들로부터 생성된 합성 스피치 각각에 대한 일관된 예측을 학습한다.

도 3a를 참조하면, 예시적 트레이닝 프로세스(300a)는 초기에 GAN 기반 TTS 모델(310)이 ASR 모델(200)을 트레이닝하기 위한 합성 스피치 표현(306)으로 변환하는 복수의 트레이닝 텍스트 발화들(302, 302A-N)을 획득한다. 복수의 트레이닝 텍스트 발화들(302)의 제1 부분은 비음성 텍스트 발화(302a)를 포함하고, 복수의 트레이닝 텍스트 발화들(302)의 제2 나머지 부분은 음성 트레이닝 발화들(305, 305a-n) 세트의 전사(302b)를 포함한다. 여기서, 각각의 비음성 텍스트 발화(302a)는 텍스트 전용 데이터, 즉 페어링되지 않은 데이터이므로, 비음성 텍스트 발화(302)는 대응하는 음성 발화 또는 가청 스피치와 페어링되지 않는다. 한편, 음성 트레이닝 발화들(305)의 세트의 각 음성 트레이닝 발화(305)는 대응하는 음성 트레이닝 발화(305)의 대응하는 비합성 스피치 표현(304)과 페어링되는 대응하는 전사(302b)를 포함한다. 예를 들어, 각각의 비합성 스피치 표현(304)은 인간 청취자에 의해 손으로 전사될 수 있다. 따라서, 각각의 전사(302b)는 대응하는 비합성 스피치 표현(304)의 전사된 스피치에 대응할 수 있어서, 각각의 음성 트레이닝 발화(305)는 각각의 "페어링된 데이터"(302b, 304)를 포함한다.

음성 트레이닝 발화들(305)의 세트는 시스템(예를 들어, 도 1의 원격 컴퓨팅 디바이스(201))의 메모리 하드웨어에 상주하는 데이터 저장소(XX)에 저장될 수 있다. 일부 예에서, 음성 트레이닝 발화들의 세트(305)의 각각의 음성 트레이닝 발화(305)은 ASR 모델(200)을 트레이닝하기 위한 특정 도메인과 연관된다. 예를 들어, ASR 모델(200)은 음악, 내비게이션, 날씨, 직업 분야, 교육 분야, 뿐만 아니라 언어 특정 및/또는 다국어 도메인과 같은 도메인에서 스피치를 인식하도록 트레이닝될 수 있다.

GAN 기반 TTS 모델(310)의 각 트레이닝 텍스트 발화(302) 입력은 화자 임베딩 z과 연관된 특정 말하기 스타일 및 화자 임베딩 u와 연관된 의도된 운율을 갖는 합성 스피치(306)로의 변환을 위해 화자 임베딩 z와 발화 임베딩 u에 따라 조절될 수 있다. 발화 임베딩 u는 각각 의도된 운율을 나타내는 발화 임베딩들의 세트로부터 선택될 수 있다. 예를 들어, 각각의 화자 임베딩 u는 음절 길이, 음높이 윤곽 및 에너지 윤곽의 운율적 피처를 인코딩할 수 있다. 일부 예에서, 대응하는 트레이닝 텍스트 발화(302)가 음성 트레이닝 발화(305)의 전사(302b)를 포함하는 경우, 발화 임베딩 u는 변형 자동 인코더(VAE)를 사용하여 대응하는 비합성 스피치 표현(304)으로부터 잠재 피처로서 추출된다. VAE는 계층 구조를 통합할 수 있다. 추가적인 예에서, 대응하는 트레이닝 텍스트 발화(302)가 비음성 텍스트 발화(302a)를 포함하는 경우, 비음성 텍스트 발화(302a)는 VAE를 사용하여 음성 트레이닝 발화들의 세트의 비합성 스피치 표현들(304) 중 하나로부터 이전에 추출된 무작위로 할당된 발화 임베딩 u에 따라 조절된다.

각각의 화자 임베딩 z은 별도로 트레이닝된 화자 인코더(도시되지 않음)를 사용하여 음성 트레이닝 발화들의 세트(305)로부터 사전 추출된 D-벡터를 포함할 수 있다. 여기서, D-벡터는 화자 인코더 신경망을 사용하여 음성 트레이닝 발화(305)의 비합성 스피치 표현(304)로부터 추출되어, D-벡터가 음성 트레이닝 발화(304)를 말하는 화자의 화자 특성을 고정 길이 벡터로 인코딩하도록 한다. 따라서, 각각의 화자 임베딩 z는 (예를 들어, 데이터 저장소(202)에서) 이전에 추출 및 저장된 화자 임베딩들 z의 세트로부터 선택될 수 있다. 화자 임베딩들의 세트에서 각각의 화자 임베딩 z은 대응하는 음성 트레이닝 발화(305)를 말한 화자의 화자 특성을 나타낸다. 사전 추출된 화자 임베딩 z는 각각의 트레이닝 텍스트 발화(302)에 무작위로 할당될 수 있다. 일부 예에서, 대응하는 트레이닝 텍스트 발화(302)가 음성 트레이닝 발화(305)의 전사(302b)를 포함하는 경우, 전사(302b)는 대응하는 비합성 스피치 표현(304)으로부터 사전 추출된 화자 임베딩 z에 따라 조절된다.

일부 구현예에서, TTS 모델(310)은 인코더(312), 디코더(314) 및 시간-도메인 오디오 파형들을 생성하기 위해 트레이닝 텍스트 발화들(302)을 프로세싱하도록 협력하는 포스트-네트(316)를 포함한다. 시간 영역 오디오 파형은 시간에 따른 오디오 신호의 진폭을 정의하는 오디오 파형이다.

인코더(312)는 문자들의 시퀀스로서 트레이닝 텍스트 발화(302)를 수신하고 디코더(314)가 나중에 생성할 각각의 멜-주파수 스펙트로그램(315)에 대한 고정 길이 컨텍스트 벡터(313)를 생성하도록 구성된 인코더 신경망(312)일 수 있다. 일부 예에서, 트레이닝 텍스트 발화(302)의 문자는 발음 모델에 기초한 음소를 포함한다. 예를 들어, 각각의 트레이닝 텍스트 발화(302)는 미국 영어 발음 모델에 기초한 음소 입력의 시퀀스로서 표현될 수 있다. 여기서, 고정 길이 컨텍스트 벡터(313)(예: 음소 인코딩)는 문자 시퀀스(예: 음소 시퀀스)의 특정 포지션에 나타나는 피처를 정의한다. 피처는 문자 시퀀스의 각 문자가 각 트레이닝 텍스트 발화(302)에 나타나는 컨텍스트를 모델링한다.

일부 구성에서, 인코더 신경망(312)은 양방향 장단기 메모리("LSTM") 레이어가 뒤따르는 하나 이상의 컨볼루션 레이어들을 포함한다. 각 컨볼루션 레이어는 배치 정규화 및 수정된 선형 유닛("ReLU")이 뒤따를 수 있으며 양방향 LSTM 레이어는 최종 컨볼루션 레이어에 의해 생성된 히든 피처들을 프로세싱하여 문자들의 시퀀스의 순차적 피처 표현을 생성하도록 구성될 수 있다. 순차적 피처 표현은 특정 문자 주변의 문자들의 시퀀스의 로컬 구조를 나타낸다. 순차적 피처 표현은 피처 벡터의 시퀀스를 포함할 수 있다.

인코더 신경망(312)은 또한 어텐션 네트워크를 포함할 수 있다. 어텐션 네트워크는 인코더 신경망(312)의 다른 컴포넌트, 예를 들어 양방향 LSTM 레이어로부터 순차적 피처 표현을 수신하고, 디코더(314)의 각 출력 단계에 대한 고정 길이 컨텍스트 벡터(313)를 생성하기 위해 순차적 피처 표현을 프로세싱하도록 구성될 수 있다. 즉, 어텐션 네트워크는 디코더(314)가 나중에 생성할 멜-주파수 스펙트로그램(315)의 각 프레임에 대해 고정 길이 컨텍스트 벡터(313)를 생성할 수 있다. 프레임은 입력 신호의 작은 부분(예: 입력 신호의 10밀리초 샘플)에 기초하는 멜 주파수 스펙트로그램의 단위이다.

일부 구현예에서, 디코더(314)는 인코더 신경망(312)에 의해 생성된 고정 길이 컨텍스트 벡터(313)를 입력으로서 수신하고 각각의 고정 길이 컨텍스트 벡터(313)에 대한 출력으로서 멜 주파수 스펙트로그램(315)의 대응하는 프레임을 생성하도록 구성된 디코더 신경망(314)을 포함한다. 멜 주파수 스펙트로그램은 소리의 주파수 영역 표현이다. 멜-주파수 스펙트로그램은 음성 명료도에 중요한 낮은 주파수를 강조하는 반면 마찰음 및 기타 노이즈 버스트에 의해 지배되고 일반적으로 높은 충실도로 모델링할 필요가 없는 높은 주파수는 강조하지 않는다. 일부 구현예에서, 디코더 신경망(314)이 생성하는 멜-주파수 스펙트로그램(315)은 12.5밀리초의 프레임 길이를 갖는다.

포스트-네트(316)는 디코더 신경망(314)의 컴포넌트일 수 있고, 디코더 신경망(314)에 의해 생성된 멜-주파수 스펙트로그램(315)의 음향 특성을 개선하도록 구성될 수 있다. 일부 예에서, 포스트-네트(316)는 예측된 멜-주파수 스펙트로그램(315)에 추가할 잔차를 예측하기 위해 각각의 출력 단계에 대해 예측된 멜-주파수 스펙트로그램(315)을 프로세싱하는 하나 이상의 컨볼루션 레이어를 갖는 컨볼루션 포스트-네트(316)이다. 최종 컨볼루션 레이어를 제외한 각 컨볼루션 레이어는 배치 정규화 및 tanh 활성화가 뒤따를 수 있다. 컨볼루션 레이어는 확률 0.5의 드롭아웃을 사용하여 정규화될 수 있다. 잔차는 각각의 대응하는 트레이닝 텍스트 발화(302)의 결과 합성 스피치 표현(306)을 생성하기 위해 예측된 멜-주파수 스펙트로그램(315)에 추가된다.

도 3a에 도시된 바와 같이, ASR 모델(200)을 트레이닝하는데 사용되는 GAN 기반 TTS 모델(310)은 입력 트레이닝 텍스트 발화(302)를 대응하는 합성 스피치 표현(306)으로 변환할 수 있도록 사전 트레이닝된다. 그러나, 여기에서의 구현예는 불리한 음향 환경에서 실제 인간이 말한 비합성 스피치 표현(304)에서 발견되는 음향 노이즈 디스패리티와 일치하도록 결과 합성 스피치 표현(306)을 "노이즈화"하기 위해 포스트-네트(316)의 파라미터를 미세 조정하는 트레이닝 프로세스(300a)에 관한 것이다. 따라서, 사전 트레이닝된 GAN 기반 TTS 모델(310)은 대응하는 합성 스피치 표현(306)을 생성/예측하기 위해 트레이닝 프로세스(300a) 동안 유사 추론 단계로서 실행되는 반면, 트레이닝 프로세스(300a)는 비합성 스피치 표현(304)의 음향과 일치하는 음향으로 합성 스피치 표현(306)을 생성하기 위한 포스트-네트(316) 파라미터를 미세 조정하는 것을 목표로 한다. GAN 기반 TTS 모델(310), GAN의 적대적 판별기(318) 및 도 1에 도시된 ASR 모델(200)에서 포스트-네트(316)의 셰이딩은 이것이 트레이닝 프로세스(300a)에 의해 트레이닝된 유일한 컴포넌트임을 나타낸다.

상기 복수의 트레이닝 텍스트 발화들(302)의 각각의 트레이닝 텍스트 발화(302)에 대한 복수의 출력 단계들 중 각각의 출력 단계에서, 트레이닝 프로세스(300a)는 상기 GAN 기반 TTS 모델(310)에 의한 출력을 위해, 상기 대응하는 트레이닝 텍스트 발화(302)의 합성 스피치 표현(306)을 생성하고, 적대적 판별기(318)를 사용하여, 대응하는 트레이닝 텍스트 발화(302)의 대응하는 합성 스피치 표현(306)에 대한 비합성 스피치 표현(304)에서 음향 노이즈 디스패리티의 양을 나타내는 적대적 손실 항(320)을 결정한다. 여기서, 적대적 판별기(318)는 출력 단계에서 GAN 기반 TTS 모델(310)에 의해 출력된 합성 스피치 표현(306)에 대한 비합성 스피치 표현(304)의 음향 노이즈 특성을 비교한다. 달리 말하면, 적대적 판별기(318)는 비합성 스피치 표현(304)(예를 들어, 실제/인간 가청 음성)과 합성 스피치 표현(306)을 구별함으로써 일반 현실주의 관점에서 합성 스피치 표현(306)을 분석하는 임무를 맡는다. 트레이닝 프로세스(300a)은 상기 복수의 트레이닝 텍스트 발화들 중 각각의 트레이닝 텍스트 발화(302)에 대한 상기 복수의 출력 단계들 중 각각의 출력 단계에서 결정된 상기 적대적 손실 항(320)에 기초하여, 상기 GAN 기반 TTS 모델의 파라미터들을 업데이트하도록 구성된다. 특히, 트레이닝 프로세스(300a)는 포스트-네트(316)에 교시하기 위해 포스트-네트(316)를 통해 적대적 손실 항(들)(320)을 역전파함으로써 포스트-네트(316)의 파라미터를 업데이트하여 결과 합성 스피치 표현(306)이 음성 트레이닝 발화들의 세트(305)에서 비합성 스피치 표현(304)과 유사한 음향을 갖도록 구동한다.

각각의 출력 단계에서 합성 스피치 표현(306)과 비교하기 위해 적대적 판별기(318)에 입력되는 비합성 스피치 표현(304)은 음성 트레이닝 발화들(305)의 세트로부터 선택될 수 있다. 예를 들어, 적대적 판별기(318)에 입력된 합성 스피치 표현(306)이 비음성 텍스트 발화들(302a) 중 하나를 포함하는 트레이닝 텍스트 발화(302)로부터 생성되는 경우, 비합성 음성 표현(304)은 비음성 텍스트 발언(302a)이 초기에 임의의 대응하는 음성 오디오와 페어링되지 않기 때문에 적대적 판별기(318)에서의 비교를 위해 음성 트레이닝 발언들(305)의 세트로부터 무작위로 선택된다. 반면에, 적대적 판별기(318)에 입력된 합성 스피치 표현(306)이 음성 트레이닝 발화들(305)의 전사(302b) 중 하나를 포함하는 트레이닝 텍스트 발화(302)로부터 생성되는 경우, 트레이닝 프로세스(300a)는 적대적 판별기(318)에서의 비교를 위해 대응하는 전사(302b)와 페어링된 음성 트레이닝 발화들(305)의 세트로부터 비합성 스피치 표현(304)을 선택할 수 있다.

일부 예에서, 트레이닝 프로세스(300a)는 복수의 출력 단계들 중 각각의 출력 단계에서 적대적 손실 항(320)을 결정하기 전에 GAN 기반 TTS 모델(310)에 의해 생성된 합성 스피치 표현들(306)에 데이터 증강을 추가로 적용한다. 데이터 증강의 목적은 불리한 음향 환경에서 비합성 스피치와 일치하는 오디오를 사용하여 합성 스피치의 생성을 더욱 용이하게 하여, 비합성 및 합성 스피치 표현(304, 306) 사이의 음향 불일치로 인한 과적합을 방지함으로써 합성 스피치 표현(306)에 대한 ASR 모델(200)의 트레이닝을 정규화하는 것이다. 일부 예에서, TTS 모델(310)의 포스트-네트(316)는 음성 트레이닝 발화들(305)의 비합성 스피치 표현(304)의 음향을 매칭하기 위해 합성 스피치 표현에 배경 노이즈를 주입한다. 다시 말해서, 데이터 증강은 TTS 모델(310)이 비합성 스피치 표현(304)과 일치할 것으로 예상되는 합성 스피치 표현(306)을 생성하도록 한다. 데이터 증강은 노이즈 추가/주입, 잔향 추가 또는 합성 스피치 표현(306)의 타이밍 조작 중 적어도 하나를 포함할 수 있다. 하나의 데이터 증강 기법은 다양한 환경 노이즈를 합성 스피치 표현(304)에 주입하기 위해 다중 스타일 트레이닝(MTR)을 사용하는 것을 포함한다. 트레이닝 프로세스(300a)가 MTR에 추가하여 또는 MTR 대신에 적용할 수 있는 또 다른 데이터 증강 기법은 스펙트럼 증강(SpecAugment)을 사용하여 합성 스피치 표현(306)의 음향을 음성 트레이닝 발화들(305)의 비합성 스피치 표현의 불리한 음향에 더 가깝게 만드는 것을 포함한다. 조합하여, MTR 및 SpecAugment는 합성 스피치 표현(304)에 노이즈를 주입하고, 시간에 따라 무작위 외부 노이즈 소스를 타일링하고 표현(304) 이전에 삽입되고 중첩되며, ASR 모델(200)을 트레이닝하기 전에 노이즈 주입 합성 스피치 표현(304)을 필터링할 수 있다.

추가적인 구현예에서, 각각의 트레이닝 텍스트 발화(302)에 대한 복수의 출력 단계들 중 각각의 출력 단계에서, 트레이닝 프로세스(300a)는 참조 TTS 모델(322)에 의한 출력을 위해, 상기 대응하는 트레이닝 텍스트 발화(302)의 참조 합성 스피치 표현(306ref)을 생성하고, 상기 GAN 기반 TTS 모델(310)에 의해 출력된 상기 대응하는 트레이닝 텍스트 발화(302)의 상기 합성 스피치 표현(306) 및 상기 참조 TTS 모델(322)에 의해 출력된 상기 대응하는 트레이닝 텍스트 발화(302)의 참조 합성 스피치 표현(306ref)에 기초하여 일관성 손실 항(324)을 결정한다. 예를 들어, 도 3a는 GAN 기반 TTS 모델(310)에 의해 출력된 합성 스피치 표현(306) 및 주어진 시간 단계에서 동일한 트레이닝 텍스트 발화(302)에 대한 참조 TTS 모델(322)에 의해 출력된 참조 합성 스피치 표현(306ref)을 수신하고 2개의 스피치 표현(306, 306ref) 사이의 평균 제곱 오차(MSE) 손실(324)을 생성하는 일관성 모듈(326)을 도시한다. 적대적 손실 항(320)에서와 같이, 트레이닝 프로세스(300a)은 상기 복수의 트레이닝 텍스트 발화들 중 각각의 트레이닝 텍스트 발화(302)에 대한 상기 복수의 출력 단계들 중 각각의 출력 단계에서 결정된 상기 일관성 손실 항(324)에 기초하여, 상기 GAN 기반 TTS 모델의 파라미터들을 업데이트하도록 구성된다. 특히, 트레이닝 프로세스(300a)는 포스트-네트(316)에 교시하기 위해 포스트-네트(316)를 통해 적대적 손실 항(320) 및 일관성 손실 항(예: MSE 손실)(324) 둘 모두를 역전파함으로써 포스트-네트(316)의 파라미터를 업데이트하여 결과 합성 스피치 표현(306)이 음성 트레이닝 발화들의 세트(305)에서 비합성 스피치 표현(304)과 유사한 음향을 갖도록 구동한다.

GAN 기반 TTS 모델(310)의 포스트-네트(316)를 통해 일관성 손실 항(324)을 역전파함으로써, 트레이닝 프로세스(300a)는 그들의 언어 정보를 유지하는 GAN 기반 TTS 모델(310)에 의해 출력된 합성 스피치 표현(306)을 생성하도록 제한된다. 그렇지 않으면, 적대적 손실(320) 단독에 기초하여 음향 다양성을 촉진하기 위해 포스트-네트(316)의 파라미터를 업데이트하는 것은 합성 스피치 표현(306)에 걸쳐 언어 다양성의 손실을 초래할 수 있다. 비음성 텍스트 발화(302a)의 사용은 음성 트레이닝 발화(305)에 존재하지 않는 보이지 않는 단어 및 시퀀스에 대한 ASR 모델(200)의 트레이닝을 가능하게 하기 위해 언어적 다양성의 증가를 촉진하는 것이다. 특히, 참조 TTS 모델(322)의 파라미터는 참조 TTS 모델(320)이 언어적 다양성을 유지하는 합성 스피치 표현(306)을 일관되게 생성할 수 있도록 고정된 상태로 유지된다. 참조 TTS 모델(322)은 GAN 기반 TTS 모델(310)과 동일한 아키텍처를 포함할 수 있다. 예를 들어, 트레이닝 프로세스(300a)가 초기화될 때, TTS 모델(310)은 동일한 트레이닝 데이터 세트에 대해 트레이닝된 레플리카일 수 있다.

일부 예에서, GAN 기반 TTS 모델(310) 및 ASR 모델(200)을 동시에 트레이닝하는데 사용되는 비음성 텍스트 발화(302a)를 포함하는 복수의 트레이닝 텍스트 발화(302)의 제1 부분은 도 3a-3c의 트레이닝 프로세스(300)를 최적화하는 방식으로 선택된다. 즉, 비음성 텍스트 발화는 쉽고 저렴하게 얻을 수 있지만, 일부 비음성 텍스트 발화(302a)는 다른 것보다 ASR 모델(200) 트레이닝에 더 적합하다. 일부 예에서, 비음성 텍스트 발화들(302a)은 ASR 모델(200)이 트레이닝되고 있는 도메인과 연관되는 것으로 선택된다. 이 예에서, ASR 모델(200)이 음악 영역에서 스피치를 인식하도록 트레이닝된 경우, 의료 용어에서 사용되는 비음성 텍스트 발화(302a)는 ASR 모델(200)을 트레이닝하는데 사용하기에 적합하지 않을 것이다. 도 4는 복수의 트레이닝 텍스트 발화들(302)의 제1 부분에서 비음성 텍스트 발화들(302a)을 획득하기 위한 예시적 비음성 텍스트 선택 프로세스(400)를 제공한다. 구체적으로, 비음성 텍스트 선택 프로세스(400)는 비음성 텍스트(402)의 코퍼스로부터 비음성 텍스트 발화들(302a)을 선택하도록 구성된다. 비음성 텍스트(402)의 코퍼스는 넓은 범위의 도메인에 걸친 다수의 비음성 텍스트 발화들(302)을 포함하고, 음성 트레이닝 발화들(305)의 세트의 전사(302b)보다 훨씬 더 큰 언어적 다양성을 포함한다. 이전에 언급된 바와 같이, 음성 트레이닝 발화들(305)의 세트는 ASR 모델(200)이 트레이닝되고 있는 동일한 도메인에 속한다는 점에서 도메인 특정적일 수 있다. 비음성 텍스트(402)의 코퍼스는 음성 트레이닝 발화들(305)과 동일하거나 상이한 데이터 저장소(202)에 저장될 수 있다. 비음성 텍스트(402)의 코퍼스는 새로운 비음성 텍스트 발화들(302a)을 통합하도록 동적으로 변경될 수 있다. 비음성 텍스트 코퍼스(402)(도 4)에서 모든 비음성 텍스트 발화(302a)를 단순히 사용하는 것은 다음과 같은 이유로 실현 가능하지 않다: i) 각각의 문장에 대해, 스피치 양식은 텍스트보다 훨씬 더 많은 메모리를 인코딩해야 하므로 코퍼스(402)의 모든 텍스트를 변환하는 것을 실용적이지 않게 하며; ii) TTS 추론 및 ASR 트레이닝에서 스피치와 텍스트 양식 간의 변환에도 많은 계산이 필요하고; iii) 음성 트레이닝 발화들(305)의 전사(302b)와 비음성 텍스트 코퍼스(402)의 비음성 텍스트 발화(302a) 사이의 엄청난 양의 차이는 기여도의 균형을 맞추는 지능형 전략을 필요로 한다.

비음성 텍스트 선택 프로세스(400)는 TTS 합성을 위한 데이터로서 비음성 텍스트 코퍼스(402)로부터 사용 가능한 비음성 텍스트 발화(302a)의 서브세트를 선택하는 것을 목표로 한다. 특히, 프로세스(400)는 사용가능한 비음성 텍스트 발화(302a)의 선택된 서브세트와 목표 도메인 사이의 매칭을 개선하는 것을 목표로 하고, 이는 결국 많은 양의 비-도메인-특정 데이터를 이용하는데 필요한 계산 리소스를 감소시킨다. 따라서, 프로세스(400)는 ASR 모델(200)이 학습하도록 트레이닝되고 있는 특정 도메인과 가장 잘 일치하는 비음성 텍스트 발화(302a)를 선택함으로써 계산 및 메모리 비용을 감소시킨다.

제1 단계(단계 1) 동안, 비음성 텍스트 선택 프로세스(400)는 비음성 텍스트 발화(302a)의 대조적인 선택을 가능하게 하기 위해 2개의 언어 모델(410, 420)을 구축한다. 여기서, 도메인 특정 언어 모델(LM)(410)은 음성 트레이닝 발화들(305)의 세트의 각 전사(302b)에 대해 트레이닝된다. 음성 트레이닝 발화들(305)의 세트는 ASR 모델(200)이 트레이닝되고 있는 특정 도메인에 속하는 것으로 가정된다. 한편, 배경 LM(420)은 전체 비음성 텍스트 코퍼스(402)의 각 비음성 텍스트 발화(302a)에 대해 트레이닝된다. 이전에 언급한 바와 같이, 비음성 텍스트 코퍼스(402)는 다수의 서로 다른 도메인에 걸쳐 있다. 일부 예에서, 제1 단계는 n-gram 언어 모델 트레이닝을 사용하여 두 가지 언어 모델들(410, 420)을 구축한다. 다른 예에서, 제1 단계는 두 개의 언어 모델(410, 420)을 구축하기 위해 신경망 언어 모델 트레이닝을 사용한다.

제2 상태(단계 2) 동안, 비음성 텍스트 선택 프로세스(400)는 2개의 대조적 LM(410, 420)을 사용하여 도메인 특정 LM(410)에 나타나는 비음성 텍스트 발화(302a)의 각 단어와 연관된 제1 확률

을 결정하고, 배경 LM(420)에 나타나는 비음성 텍스트 발화(302a)의 각 단어와 관련된 제2 확률

을 결정함으로써 비음성 텍스트 코퍼스(402)의 각 비음성 텍스트 발화(302a)를 평가한다. 그 후, 비음성 텍스트 코퍼스(402)의 각 비음성 텍스트 발화(302a)에 대해, 프로세스(400)는 점수화기(430)에서 제1 확률, 제2 확률 및 대응하는 비음성 텍스트 발화(302a)에서 나타나는 단어들의 수

에 기초하여 점수 S를 결정한다. 예를 들어, 각 비음성 텍스트 발화(302a)에 대한 점수 S는 다음과 같이 계산될 수 있다.

(1)

점수를 결정한 후, 비음성 텍스트 선택 프로세스(400)는 N-최상의 발화 점수 S를 갖는 비음성 텍스트 발화(302a)를 선택하는데, 이러한 비음성 텍스트 발화(302a)가 특정 도메인과 가장 일치하기 때문이다. 비음성 텍스트 선택 프로세스(400)를 사용하는 대신에, 비음성 텍스트 발화(302a)는 대안적으로 사용 가능한 텍스트 코퍼스(402)를 사용하는 대형 최대 엔트로피 언어 모델과 같은 잘 트레이닝된 언어 모델로부터 샘플링될 수 있다. 이 모델이 데이터 분포를 학습한다는 가정 하에, 비음성 텍스트에 대해 특정 수의 텍스트 발화(302a)가 샘플링될 수 있다.

도 3b에 도시된 바와 같이, 트레이닝 프로세스(300b)는 (예를 들어, 도 4의 비음성 텍스트 선택 프로세스(400)에 의해 선택되었던) 복수의 비음성 텍스트 발화들(302) 중 각각의 비음성 트레이닝 텍스트 발화(302)에 대해 복수의 출력 단계들 중 각각의 출력 단계에서 생성된 합성 스피치 표현(306)에 대해 ASR 모델(200)을 트레이닝한다. 트레이닝 프로세스(300b)는 또한 음성 트레이닝 발화들의 세트(305)에서 각각의 비합성 스피치 표현(304)에 대한 복수의 출력 단계들 중 각각의 출력 단계에서 ASR 모델(200)을 트레이닝한다. 합성 스피치 표현(306)은 페어링되지 않은 합성 스피치 표현(306a)과 페어링된 합성 스피치 표현(306b)을 포함한다. 페어링되지 않은 합성 스피치 표현(306a)은 비음성 텍스트 발화들(302a)로부터 GAN 기반 TTS 모델(310)에 의해 변환된 TTS 오디오를 포함하고(즉, 임의의 대응하는 음성 발화와 페어링되지 않은 트레이닝 텍스트 발화(302)의 부분), 페어링된 합성 스피치 표현(306b)은 음성 트레이닝 발화들(305)의 세트의 전사(302b)로부터 GAN 기반 TTS 모델(310)에 의해 변환된 TTS 오디오를 포함한다(즉, 음성 트레이닝 텍스트 발화들(305)의 대응하는 비합성 스피치 표현(304)와 페어링된 트레이닝 텍스트 발화들(302)의 부분).

따라서, 각각의 페어링된 합성 스피치 표현(306b)는 동일한 대응하는 음성 트레이닝 발화(305)의 대응하는 비합성 스피치 표현(304)와 페어링되고, 대응하는 트레이닝 발화(305)의 비합성 스피치 표현(304)와 초기에 페어링된 전사(302b)는 (1) 대응 트레이닝 발화(305)의 페어링된 합성 스피치 표현(306b)을 생성하기 위한 GAN 기반 TTS 모델(310)에 대한 입력; 및 (2) 실측 전사(302b)와 ASR 모델(200)에 의해 출력된 비합성 음성 인식 가설(311)과 ASR 모델(200)에 의해 출력된 페어링된 합성 음성 인식 가설(312b) 각각과의 사이의 지도 손실 항(342, 344b)를 생성하는 트레이닝 프로세스(300b)에 대한 실측 전사(302b) 둘 모두로서 역할을 한다. 반면에, 트레이닝 프로세스(300b)는 대응하는 비음성 텍스트 발화(302a)와 ASR 모델(200)에 의해 출력된 페어링되지 않은 합성 스피치 인식 가설(312a) 사이의 지도 손실 항(344b)을 생성하기 위해 GAN 기반 TTS 모델(310)에 의해 대응하는 페어링되지 않은 합성 스피치 표현(306a)으로 변환된 각각의 비음성 텍스트 발화(302a)를 사용한다.

ASR 모델(200)은 피처/벡터(예를 들어, 멜-주파수 스펙트로그램 프레임)(예를 들어, 도 1의 음향 프레임(110))의 시퀀스로서 각각의 대응하는 음성 트레이닝 발화(305)에 대한 비합성 스피치 표현(x)(304)을 입력으로서 수신하고, 대응하는 음성 트레이닝 발화(305)의 대응하는 비합성 스피치 표현(x)(304)에 대한 가능한 비합성 스피치 인식 가설(y)에 대한 제1 확률 분포(311)를 복수의 출력 단계들 중 각각의 출력 단계에 대해 출력으로서 생성한다. 단순화를 위해, "비합성 스피치 인식 결과(311)"라는 용어는 대응하는 비합성 스피치 표현(x)(304)에 대한 가능한 비합성 스피치 인식 가설(y)에 대한 제1 확률 분포(311)를 지칭하는데 사용될 수 있다. ASR 모델(200)은 피처/벡터(예를 들어, 멜-주파수 스펙트로그램 프레임)(예를 들어, 도 1의 음향 프레임(110))의 시퀀스로서 각각의 트레이닝 텍스트 발화(302, 302a-b)에 대한 합성 스피치 표현(

)(306, 306a-b)을 입력으로서 수신하고, 대응하는 음성 발화의 대응하는 합성 스피치 표현(

)(306)에 대한 가능한 비합성 스피치 인식 가설(y)에 대한 제2 확률 분포(312, 312a-b)를 복수의 출력 단계들 중 각각의 출력 단계에 대해 출력으로서 생성한다. 단순화를 위해, "합성 스피치 인식 결과(312)"라는 용어는 대응하는 합성 스피치 표현(

)(306)에 대한 가능한 합성 스피치 인식 가설(y)에 대한 제2 확률 분포(312)를 지칭하는데 상호교환적으로 사용될 수 있다. 마지막으로, ASR 모델(200)은 피처/벡터(예를 들어, 멜-주파수 스펙트로그램 프레임)(예를 들어, 도 1의 음향 프레임(110))의 시퀀스로서 각각의 비음성 텍스트 발화(302a)에 대한 합성 스피치 표현(

)(306a)을 입력으로서 수신하고, 대응하는 음성 발화의 대응하는 합성 스피치 표현(

)(306)에 대한 가능한 비합성 스피치 인식 가설(y)에 대한 제3 확률 분포(312a)를 복수의 출력 단계들 중 각각의 출력 단계에 대해 출력으로서 생성한다. 단순화를 위해, "합성 스피치 인식 결과(312b)"라는 용어는 대응하는 합성 스피치 표현(

)(306)에 대한 가능한 합성 스피치 인식 가설(y)에 대한 제2 확률 분포(312b)를 지칭하는데 상호교환적으로 사용될 수 있다.

종래의 엔드-투-엔드 시퀀스-투-시퀀스 ASR 모델을 트레이닝하는 것과 같이, 트레이닝 프로세스(300b)는 복수의 출력 단계들 중 각각의 출력 단계에서 ASR 모델(200)에 의한 출력을 위해, 실측 전사(302b) 및 대응하는 음성 트레이닝 발화(305)의 대응하는 비합성 스피치 표현(x)(304)에 대한 비합성 스피치 인식 결과(311(y))에 기초하여 비합성 스피치 손실 항(J _real (θ))(342)을 포함하는 제1 지도 손실 항을 생성한다. 도시된 예에서, 트레이닝 프로세스(300b)는 실측 전사(120b) 및 제1 확률 분포(311)를 수신하고 비합성 스피치 손실 항(J _real (θ))(342)을 출력하도록 구성된 지도 손실 항 모듈(340)을 실행한다.

더욱이, 트레이닝 프로세스(300b)는 복수의 출력 단계들 중 각각의 출력 단계에서, 비음성 텍스트 발화(302a) 또는 실측 전사(302b) 중 대응하는 하나와 대응하는 발화의 대응하는 합성 스피치 표현(

)(306, 306a-b)에 대한 가능한 합성 스피치 인식 가설(y)에 대한 제2 확률 분포(312, 312a-b)에 기초하여 합성 스피치 손실 항(J _tts (θ))(344, 344a-b)을 포함하는 제2 지도 손실 항을 생성한다. 도시된 예에서, 페어링되지 않은 합성 스피치 손실 항(344a)은 각각의 페어링되지 않은 합성 스피치 표현(306a) 및 대응하는 비음성 텍스트 발화(302a)와 연관되며, 페어링된 합성 스피치 손실 항(344b)은 각각의 페어링된 합성 스피치 표현(306b) 및 대응하는 실측 전사(302b)와 연관된다. 도시된 예에서, 트레이닝 프로세스(300b)는 비음성 텍스트 발화(120a), 실측 전사(120b) 및 제2 확률 분포(312, 312a-b)를 수신하고 합성 스피치 손실 항(J _tts (θ))(344, 344a-b)을 출력하도록 구성된 지도 손실 항 모듈(340)을 실행한다.

지도 손실 항 모듈(340)은 비합성 스피치 손실 항(J _real (θ))(342), 페어링되지 않은 합성 스피치 손실 항(J _tts (θ))(344a) 및 페어링되지 않은 합성 스피치 손실 항(J _tts (θ))(344b) 각각을 다시 ASR 모델(200)에 제공한다. 예를 들어, 트레이닝 프로세스(300b)는 역전파(backpropagation)를 통해 모델(200)을 트레이닝하기 위해 확률적 경사 하강과 같은 확률 최적화 알고리즘을 사용하여 ASR 모델(200)을 트레이닝할 수 있다. 여기서, 확률적 최적화 알고리즘은 손실 항(342, 344a, 344b)을 사용하여 신경망의 실제 출력(예: 비합성 스피치 인식 및 합성 스피치 인식 결과(311, 312a, 312b))와 원하는 출력(예를 들어, 비음성 텍스트 발화(302a) 및 실측 전사(302b))사이의 차이에 기초하여 각각의 손실 함수(예: 교차 엔트로피 손실 함수)를 정의한다. 예를 들어, 손실 함수는 트레이닝 예시들의 배치에 대해 계산되고, 모델(200)의 각 가중치에 대해 미분된다. 배치 트레이닝에서, 비-합성 스피치 손실 항(J _real (θ))(342)은 비-합성 스피치 표현(304)의 각각의 배치에 대해 획득된 평균 손실에 대응할 수 있고, 각각의 합성 스피치 손실 항(J _tts (θ))(344, 344a-b)은 합성 스피치 표현(306a, 306b)의 각각의 배치에 대해 획득된 평균 손실에 대응할 수 있다. 또한, 모델(200)은 지도 손실 항 모듈(340)이 대응하는 비합성 및 합성 스피치 손실 항(342, 344a, 344b)을 병렬로 출력하도록 비합성 및 합성 스피치 표현(304, 306a, 306b)의 대응하는 배치들에 대해 병렬로 트레이닝될 수 있다.

일부 구성에서, 트레이닝 프로세스(300b)는 동일한 대응하는 음성 트레이닝 발화(305)의 대응하는 비합성 스피치 표현(304)과 페어링된, 페어링된 합성 스피치 표현(306b)의 각각의 트레이닝 발화 페어링(304, 306b)에 대해, 가능한 비합성 스피치 인식 가설에 대한 제1 확률 분포(311) 및 가능한 합성 스피치 인식 가설에 대한 제2 확률 분포(312b)에 기초하여 대응하는 트레이닝 발화 페어링(304, 306b)에 대한 일관성 손실 항(J _cons (θ))(352)을 결정한다. 예를 들어, 트레이닝 프로세스(300b)는 복수의 출력 단계들 중 각각의 출력 단계에서 ASR 모델(200)에 의해 출력된 대응하는 비합성 스피치 및 합성 스피치 인식 결과(311, 312b)를 수신하고, 출력 단계에서 대응하는 트레이닝 발화 페어링(304, 306b)에 대한 일관성 손실 항(352)을 결정하도록 구성된 일관성 손실 항 모듈(350)을 이용할 수 있다.

일부 예에서, 트레이닝 프로세스(300b)는 가능한 합성 스피치 인식 가설들에 대한 제1 확률 분포(311)와 대응하는 페어링된 합성 스피치 표현(306b)과 연관된 가능한 합성 스피치 인식 가설에 대한 제2 확률 분포(312b) 사이의 Kullback-Leibler divergence(D _KL)에 기초하여 일관성 손실 항(352)을 결정한다. 따라서, 각각의 트레이닝 발화 페어링(304, 306b)에 대해 결정된 일관성 손실 항(352)은 ASR 모델(200)의 정확도와 무관한(예를 들어, 지도 손실 항(342, 344)과 무관한) "비지도" 손실 항을 제공하고, 따라서, 동일한 음성 트레이닝 발화(305)의 비합성 및 합성 스피치 표현(304, 306b) 간의 일관성을 촉진하기 위해 ASR 모델(200)의 파라미터를 업데이트하기 위해 이용될 수 있다. 다시 말해서, 일관성 손실 항(352)은 ASR 모델(200)이 음성 트레이닝 발화(305)가 비합성 스피치에 속하는지 합성 스피치에 속하는지에 관계없이, 동일하게 행동하는 것을 학습하게 하며, 예를 들어 비합성 스피치(예를 들어, 실제/인간 음성) 및 동일한 음성 트레이닝 발화(305)의 합성 스피치(예를 들어, 합성 스피치) 모두에 대해 일관된 예측을 하게 한다. 도시된 예에서, 트레이닝 프로세스(300b)는 지도 손실 항 모듈(340)로부터 대응하는 비합성 및 합성 스피치 손실 항(342, 344a-b)을 출력하고 비감독 손실 항 모듈(350)로부터 일관된 손실 항(352)을 병렬로 출력하도록 구성된다.

일부 예에서, 트레이닝 프로세스(300b)는 복수의 트레이닝 발화 배치들에 대해 ASR 모델(200)을 트레이닝함으로써 ASR 모델(200)을 트레이닝하기 위해 배치 트레이닝을 사용한다. 이러한 예에서, 각각의 트레이닝 발화 배치는 생성된 합성 스피치 표현(306)의 부분 및 음성 트레이닝 발화들(305)의 세트의 비합성 스피치 표현(304)의 부분을 포함한다. 생성된 합성 스피치 표현(306)의 부분은 페어링되지 않은 합성 스피치 표현(306a)과 페어링된 합성 스피치 표현(306b)으로 더 나누어질 수 있으며, 여기서 주어진 트레이닝 발화 배치의 각 페어링된 합성 스피치 표현(306b)은 동일한 대응하는 음성 트레이닝 발화(305)의 비합성 스피치 표현들(304) 중 대응하는 하나와 페어링될 수 있다. 각각의 트레이닝 발화 배치는 비합성 스피치 표현보다 생성된 합성 스피치 표현(306)의 더 큰 비율을 포함할 수 있다.

전술한 데이터 증강 기법은 합성 스피치 표현(306)에 적용될 수 있어 그들의 음향이 불리한 음향 환경 하에서 비합성 스피치 표현(304)의 음향과 일치하도록 할 수 있다. 더욱이, 트레이닝 프로세스(300b)는 각각의 트레이닝 발화 배치에서 비합성 및 합성 스피치 표현(304, 306)을 섞을 수 있다.

일부 구현예에서, 트레이닝 프로세스(300b)는 커리큘럼 배치 트레이닝을 사용하여, 각각의 트레이닝 발화 배치에서 생성된 합성 스피치 표현(306)의 부분 대 비합성 스피치 표현의 부분의 비율은 스피치 인식 모델을 트레이닝하는 동안 시간이 지남에 따라 증가한다. 이들 구현예에서, 비율은 각각의 트레이닝 배치에서 페어링되지 않은 합성 스피치 표현(306a)의 수, 즉 비음성 텍스트 발화(302a)로부터 생성된 수를 증가시킴으로써 증가한다. 트레이닝 프로세스(300b)가 각 트레이닝 발화 배치에 대해 ASR 모델(200)을 트레이닝하는 동안, 트레이닝 프로세스(300b)는 지도 손실 항 모듈(340)에서 트레이닝 발화 배치에 대한 비합성 스피치 표현의 부분의 각 비합성 스피치 표현(304)에 대한 각각의 비합성 스피치 손실 항(342)을 생성한다.

일부 예에서, 지도 손실 항 모듈(340)은 상기 조정가능한 손실 가중치는 상기 대응하는 트레이닝 발화 배치에서 상기 생성된 스피치 표현의 부분 대 비합성 스피치 표현의 부분의 비율에 비례하는 크기를 갖는 조정가능한 가중치를 각 개별 비합성 손실 항(342)에 적용한다. 유사하게, 트레이닝 프로세스(300b)는 지도 손실 항 모듈(340)에서, 대응하는 트레이닝 발화 배치의 각각의 합성 스피치 표현(306a, 306b)에 대한 각각의 합성 스피치 손실 항(344a, 344b)을 추가로 생성한다. 비합성 손실 항(342)과 같이, 지도 손실 항 모듈(340)은 상기 대응하는 트레이닝 발화 배치에서 상기 생성된 스피치 표현의 부분 대 비합성 스피치 표현의 부분의 비율에 비례하는 크기를 갖는 조정가능한 가중치를 각 개별 페어링된 비합성 스피치 손실 항(342b)에 더 적용할 수 있다. 따라서, 각각의 트레이닝 발화 배치에서 생성된 합성 스피치 표현(306)의 부분 대 비합성 스피치 표현의 부분의 비율이 각 후속 트레이닝 발화 배치에서 점진적으로 증가하는 커리큘럼 배치 트레이닝 동안, 트레이닝 발화 페어링(304, 306b)과 연관된 손실 항(342, 344b)에 적용된 가중치는 모델(200)에 의해 과적합을 허용하기 위해 각 후속 트레이닝 발화에서 점진적으로 증가한다. 유사하게, 이 크기에 비례하는 크기를 갖는 조정가능한 가중치는 각각의 트레이닝 발화 배치에서 일관성 손실 항(352)에 유사하게 적용될 수 있다. 특히, 지도 손실 항(350)은 각각의 후속 트레이닝 발화 배치에서 증가하는 페어링되지 않은 합성 스피치 표현(306a)의 비율에도 불구하고 커리큘럼 배치 트레이닝 동안 각 개별 페어링되지 않은 비합성 스피치 손실 항(342b)에 고정 가중치를 적용할 수 있다.

도 3c를 참조하면, 일부 구현예에서, 트레이닝 프로세스(300c)는 ASR 모델(200)을 트레이닝하기 위해 조건부 GAN 기반 도메인 불변 트레이닝을 적용한다. 트레이닝 프로세스(300c)는 적대적 및 일관성 손실 항(320, 324)에 기초하여 GAN 기반 TTS 모델(310)의 포스트 네트(316)의 파라미터를 미세 조정하기 위해 도 3a에 설명된 기술에 추가로 또는 그 대신에 도메인 불변 트레이닝을 적용할 수 있다. 도시된 예에서, 도 1의 복수의 트레이닝 텍스트 발화들(302)의 각각의 트레이닝 텍스트 발화(302)에 대한 복수의 출력 단계들 중 각각의 출력 단계에서, ASR 모델(200)에서 인코더(410)(예: 도 2a의 인코더(210) 또는 도 2b의 인코더(211)는 TTS 모델(310)에 의해 출력된 대응하는 트레이닝 텍스트 발화(302)의 합성 스피치 표현(306)을 대응하는 인코딩된 합성 스피치 표현 TTS_enc(예: 합성 입베딩)로; 및 음성 트레이닝 발화들(305)의 세트로부터 선택된 비합성 스피치 표현(304) 중 하나를 대응하는 인코딩된 비합성 스피치 표현 Real_enc(예: 비합성 임베딩)로 인코딩한다. 대응하는 트레이닝 텍스트 발화(302)가 비음성 텍스트 발화들(302a) 중 하나를 포함하는 출력 단계의 경우, 인코더(410)에 입력된 비합성 스피치 표현(304) 중 하나는 비음성 텍스트 발화(302a)가 임의의 음성 발화와 초기적으로 페어링되지 않으므로 음성 트레이닝 발화들(305)의 세트로부터 무작위로 선택된다. 대조적으로, 대응하는 트레이닝 텍스트 발화(302)가 음성 트레이닝 발화들(305)의 세트의 전사(302b) 중 하나를 포함하는 출력 단계의 경우, 전사(302b) 중 대응하는 전사와 페어링된 음성 트레이닝 발화들(305)의 세트에서 비합성 스피치 표현(304)을 포함할 수 있다.

트레이닝 프로세스(300c)는 적대적 판별기(358)를 사용하여 인코딩된 합성 스피치 표현 TTS_enc와 인코딩된 비합성 스피치 표현 Real_enc 사이의 적대적 손실 항(360)을 결정한다. 이후, 트레이닝 프로세스(300c)는 복수의 트레이닝 텍스트 발화(302) 중 각 트레이닝 텍스트 발화(302)에 대한 복수의 출력 단계들 중 각각의 출력 단계에서 결정된 적대적 손실 항(360)에 기초하여 ASR 모델(200)의 파라미터를 업데이트하여 도메인 불변 트레이닝을 적용한다. 일부 구현예에서, 각각의 트레이닝 텍스트 발화(302)에 대한 복수의 출력 단계들 중 각각의 출력 단계에서, 대응하는 트레이닝 텍스트 발화(302) 및 적대적 판별기(358)는 대응하는 트레이닝 텍스트 발화(302)와 동일한 화자 임베딩 z에 따라 조절된다. 각각의 화자 임베딩 z에 대해 대응하는 트레이닝 텍스트 발화(302)를 조절하는 것은 도 3a와 관련하여 위에서 논의되었다.

디코더(420)(예를 들어, 도 2a의 디코더/소프트맥스(240) 또는 도 2b의 디코더(231))는 합성 스피치 표현(306) 및 비합성 스피치 표현(304)을 도 2b를 참조하여 위에서 논의된 바와 같이 대응하는 확률 분포(311, 312)로 디코딩한다. 도 3c에 도시된 GAN의 ASR 모델(200) 및 다른 적대적 판별기(358)에서 인코더(410)의 음영은 이것이 트레이닝 프로세스(300c)에 의해 적용된 도메인 불변 트레이닝 양태에 의해 트레이닝된 유일한 컴포넌트임을 나타낸다.

도 5 는 GAN(Generative Adversarial Network) 기반 TTS(text-to-speech) 모델(310) 및 스피치 인식 모델(200)을 병렬로 트레이닝하기 위한 방법(500)의 동작들의 예시적 구성의 흐름도이다. 흐름도는 도 3a-3c의 트레이닝 프로세스(300, 300a-c)를 참조하여 설명될 수 있다. 동작(502)에서, 방법(500)은 복수의 트레이닝 텍스트 발화들(302, 302A-N)을 획득한다. 상기 복수의 트레이닝 텍스트 발화들(302)의 제1 부분은 임의의 대응하는 음성 발화와 페어링되지 않은 비음성 텍스트 발화들(302a)을 포함한다. 비음성 텍스트 발화들(302a)은 예를 들어 도 4에 설명된 비음성 텍스트 선택 프로세스(400)를 사용하여 큰 비음성 텍스트 코퍼스(402)로부터 선택될 수 있다. 복수의 트레이닝 텍스트 발화들(302)의 나머지 제2 부분은 음성 트레이닝 발화들(305)의 세트의 전사(302b)를 포함한다. 상기 세트의 각 음성 트레이닝 발화(305)는 대응하는 음성 트레이닝 발화(305)의 대응하는 비합성 스피치 표현(304)과 페어링되는 대응하는 전사(302b)를 포함한다.

상기 복수의 트레이닝 텍스트 발화들(302)의 각각의 트레이닝 텍스트 발화(302)에 대한 복수의 출력 단계들 중 각각의 출력 단계에 대해, 방법(500)은 동작(504)에서, 상기 GAN 기반 TTS 모델(310)에 의한 출력을 위해, 상기 대응하는 트레이닝 텍스트 발화(302 302)의 합성 스피치 표현(306)을 생성하고, 방법(500)은 동작(506)에서, 상기 GAN의 적대적 판별기(318)를 사용하여, 대응하는 트레이닝 텍스트 발화(302)의 대응하는 합성 스피치 표현(306)에 대한 음성 트레이닝 발화들(305)의 세트로부터 선택된 비합성 스피치 표현들(304) 중 하나에서 음향 노이즈 디스패리티의 양을 나타내는 적대적 손실 항(320)을 결정한다. 비음성 텍스트 발화(302a)를 포함하는 트레이닝 텍스트 발화들(302)의 제1 부분으로부터 도출된 페어링되지 않은 합성 스피치 표현(306a)에 대해, 비합성 스피치 표현(304) 중 선택된 하나가 무작위로 선택된다. 음성 트레이닝 발화 세트들(305)의 세트의 전사(302b)를 포함하는 트레이닝 텍스트 발화들(302)의 제2 부분으로부터 도출된 페어링된 합성 스피치 표현(306b)에 대해, 비합성 스피치 표현(304) 중 선택된 하나는 대응하는 전사(302b)와 페어링된 음성 트레이닝 발화들(305)의 세트의 비합성 스피치 표현(304)이다.

방법(500)은 동작(508)에서, 상기 복수의 트레이닝 텍스트 발화들 중 각각의 트레이닝 텍스트 발화(302)에 대한 상기 복수의 출력 단계들 중 각각의 출력 단계에서 결정된 상기 적대적 손실 항(320)에 기초하여, 상기 GAN 기반 TTS 모델의 파라미터들을 업데이트하도록 구성된다. 여기서, GAN 기반 TTS 모델(310)의 파라미터를 업데이트하는 것은 TTS 모델(310)의 포스트-네트(316)의 파라미터를 업데이트/미세 조정하여 음향을 비합성 스피치 표현의 음향과 일치시키는 합성 스피치 표현(306)을 생성하는 것을 포함할 수 있다. 특히, 데이터 증강은 TTS 모델(510)로부터 출력된 각각의 합성 스피치 표현(306)에 적용되어, 비합성 스피치 표현(304)의 음향을 매칭하기 위해 노이즈를 더 추가할 수 있다. 참조 TTS 모델(322)은 합성 스피치 표현(306)에 걸쳐 언어적 디스패리티를 유지하기 위해 포스트-네트(316)를 제한하기 위한 MSE 손실(324)을 결정하기 위해 합성 스피치 표현(306)과 비교될 수 있는 참조 합성 스피치 표현(306ref)을 생성하기 위해 이용될 수 있다. 동작(510)에서, 방법(500)은 상기 복수의 트레이닝 텍스트 발화들(302) 중 각각의 트레이닝 텍스트 발화(302)에 대한 상기 복수의 출력 단계들 중 각각의 출력 단계에서 생성된 상기 합성 스피치 표현(306)에 대한 스피치 인식 모델(200)을 트레이닝한다.

소프트웨어 애플리케이션(즉, 소프트웨어 리소스)은 컴퓨팅 디바이스가 작업을 수행하게 하는 컴퓨터 소프트웨어를 지칭할 수 있다. 일부 예에서, 소프트웨어 애플리케이션은 "애플리케이션", "앱" 또는 "프로그램"으로 지칭될 수 있다. 예시적 애플리케이션은 시스템 진단 애플리케이션, 시스템 관리 애플리케이션, 시스템 유지보수 애플리케이션, 워드 프로세싱 애플리케이션, 스프레드시트 애플리케이션, 메시징 애플리케이션, 미디어 스트리밍 애플리케이션, 소셜 네트워킹 애플리케이션 및 게임 애플리케이션을 포함하지만 이에 한정되지는 않는다.

비일시적 메모리는 컴퓨팅 디바이스에 의해 사용하기 위해 일시적 또는 영구적으로 프로그램(예를 들어, 명령어 시퀀스) 또는 데이터(예를 들어, 프로그램 상태 정보)를 저장하는데 사용되는 물리적 디바이스일 수 있다. 비일시적 메모리는 휘발성 및/또는 비휘발성 주소 지정가능 반도체 메모리일 수 있다. 비휘발성 메모리의 예는 플래시 메모리 및 읽기 전용 메모리(ROM)/프로그래밍 가능한 읽기 전용 메모리(PROM)/지울 수 있는 프로그램 가능한 읽기 전용 메모리(EPROM)/전자적으로 지울 수 있는 프로그래밍 가능한 읽기 전용 메모리(EEPROM)(예: 일반적으로 부팅 프로그램과 같은 펌웨어에 사용됨)를 포함하지만, 이에 한정되지 않는다. 휘발성 메모리의 예는 RAM(Random Access Memory), DRAM(Dynamic Random Access Memory), SRAM(Static Random Access Memory), PCM(Phase Change Memory), 디스크 또는 테이프 등을 포함하지만, 이에 한정되지 않는다.

도 6는 본 문서에 기술된 시스템 및 방법을 구현하는데 사용될 수 있는 예시적 컴퓨팅 디바이스(600)의 개략도이다. 컴퓨팅 디바이스(600)는 랩톱, 데스크톱, 워크 스테이션, 개인 휴대 정보 단말기, 서버, 블레이드 서버, 메인 프레임 및 다른 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터들을 나타내기 위한 것이다. 여기에 도시된 컴포넌트들, 그들의 연결 및 관계, 및 그들의 기능은 단지 예시적인 것을 의미하며, 본 명세서에 기술된 및/또는 청구된 발명의 구현을 제한하는 것을 의미하지는 않는다.

컴퓨팅 디바이스(600)는 프로세서(610), 메모리(620), 저장 디바이스(630), 메모리(620) 및 고속 확장 포트(660)에 연결되는 고속 인터페이스/제어기(640) 및 저속 버스(670) 및 저장 디바이스(630)에 연결되는 저속 인터페이스/제어기(660)를 포함한다. 컴포넌트들(610, 620, 630, 640, 660 및 660) 각각은 다양한 버스들을 사용하여 상호 연결되고, 공통 마더 보드 상에 또는 적절한 다른 방식으로 장착될 수 있다. 프로세서(610)는 메모리(620) 또는 저장 디바이스(630)에 저장된 명령어들을 포함하는, 컴퓨팅 디바이스(600) 내에서 실행하기 위한 명령어들을 프로세싱하여, 고속 인터페이스(640)에 연결된 디스플레이(680)와 같은 외부 입/출력 디바이스상에 그래픽 사용자 인터페이스(GUI)에 대한 그래픽 정보를 디스플레이할 수 있다. 다른 구현예에서, 다수의 프로세서들 및/또는 다수의 버스들이 다수의 메모리들 및 다수의 유형의 메모리와 함께, 적절하게 사용될 수 있다. 또한, 다수의 컴퓨팅 디바이스들(600)은 필요한 동작의 부분들을 제공하는 각 디바이스와 연결될 수 있다(예를 들어, 서버 뱅크, 블레이드 서버 그룹 또는 멀티 프로세서 시스템).

메모리(620)는 컴퓨팅 디바이스(600) 내에 비일시적으로 정보를 저장한다. 메모리(620)는 컴퓨터 판독가능 매체, 휘발성 메모리 유닛(들), 비휘발성 메모리 유닛(들)일 수 있다. 비일시적 메모리(620)는 컴퓨팅 디바이스(600)에 의해 사용하기 위해 일시적 또는 영구적으로 프로그램(예를 들어, 명령어 시퀀스) 또는 데이터(예를 들어, 프로그램 상태 정보)를 저장하는데 사용되는 물리적 디바이스일 수 있다. 비휘발성 메모리의 예는 플래시 메모리 및 읽기 전용 메모리(ROM)/프로그래밍 가능한 읽기 전용 메모리(PROM)/지울 수 있는 프로그램 가능한 읽기 전용 메모리(EPROM)/전자적으로 지울 수 있는 프로그래밍 가능한 읽기 전용 메모리(EEPROM)(예: 일반적으로 부팅 프로그램과 같은 펌웨어에 사용됨)를 포함하지만, 이에 한정되지 않는다. 휘발성 메모리의 예는 RAM(Random Access Memory), DRAM(Dynamic Random Access Memory), SRAM(Static Random Access Memory), PCM(Phase Change Memory), 디스크 또는 테이프 등을 포함하지만, 이에 한정되지 않는다.

저장 디바이스(630)는 컴퓨팅 디바이스(600)에 대한 대형 스토리지를 제공할 수 있다. 일부 구현예에서, 저장 디바이스(630)는 컴퓨터 판독가능 매체이다. 다양한 상이한 구현예에서, 저장 디바이스(630)는 플로피 디스크 디바이스, 하드 디스크 디바이스, 광 디스크 디바이스 또는 테이프 디바이스, 플래시 메모리 또는 다른 유사한 고체 상태 메모리 디바이스, 또는 저장 영역 네트워크 또는 다른 구성의 디바이스를 포함하는 디바이스의 어레이일 수 있다. 일 구현예에서, 컴퓨터 프로그램 제품은 정보 캐리어에 유형적으로 수록된다. 컴퓨터 프로그램 제품은 또한 실행될 때 상기 기술된 바와 같은 하나 이상의 방법을 수행하는 명령어들을 포함한다. 정보 캐리어는 메모리(620), 저장 디바이스(630) 또는 프로세서(610)상의 메모리와 같은 컴퓨터 또는 기계 판독가능 매체이다.

고속 제어기(640)는 컴퓨팅 디바이스(600)에 대한 대역폭 집중 동작들을 관리하는 반면, 저속 제어기(660)는 낮은 대역폭 집중 동작들을 관리한다. 이러한 기능들의 할당은 단지 예시적인 것이다. 일부 구현예에서, 고속 제어기(640)는 메모리(620), 디스플레이(680)(예를 들어, 그래픽 프로세서 또는 가속기를 통해) 및 다양한 확장 카드(도시되지 않음)를 수용할 수 있는 고속 확장 포트(650)에 연결된다. 일부 구현예에서, 저속 제어기(660)는 저장 디바이스(630) 및 저속 확장 포트(690)에 연결된다. 다양한 통신 포트(예를 들어, USB, 블루투스, 이더넷, 무선 이더넷)를 포함할 수 있는 저속 확장 포트(690)는 키보드, 포인팅 디바이스, 스캐너와 같은 하나 이상의 입력/출력 디바이스 또는 예를 들어 네트워크 어댑터를 통해 스위치 또는 라우터와 같은 네트워킹 디바이스에 결합될 수 있다.

컴퓨팅 디바이스(600)는 도면에 도시된 바와 같이 다수의 상이한 형태로 구현될 수 있다. 예를 들어, 표준 서버(600a)로서 또는 그러한 서버(600a)의 그룹에서 여러 번, 랩톱 컴퓨터(600b)로서 또는 랙 서버 시스템(600c)의 일부로서 구현될 수 있다.

본 명세서에 기술된 시스템들 및 기법들의 다양한 구현예들은 디지털 전자 및/또는 광학 회로, 집적 회로, 특수하게 설계된 ASIC들(application specific integrated circuits), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합으로 구현될 수 있다. 이들 다양한 구현예들은 적어도 하나의 프로그래머블 프로세서를 포함하는 프로그래머블 시스템 상에서 실행가능하고 및/또는 인터프리트가능한 하나 이상의 컴퓨터 프로그램들에서의 구현예를 포함할 수 있고, 이는 전용 또는 범용일 수 있고, 저장 시스템, 적어도 하나의 입력 디바이스 및 적어도 하나의 출력 디바이스로부터 데이터 및 명령어들을 수신하고 그에 데이터 및 명령어들을 전송하기 위해 연결될 수 있다.

이들 컴퓨터 프로그램들(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드로도 알려짐)은 프로그래머블 프로세서에 대한 기계 명령어들을 포함하며, 하이레벨 절차어 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계어에서 구현될 수 있다. 본 명세서에서 사용된 바와 같이, 용어 "기계 판독가능 매체", "컴퓨터 판독가능 매체"는 기계 판독가능 신호로서 기계 명령어들을 수신하는 기계 판독가능 매체를 포함하여, 기계 명령어들 및/또는 데이터를 프로그래머블 프로세서에 제공하는데 사용되는 임의의 컴퓨터 프로그램 물, 장치 및/또는 디바이스 예를 들어, 자기 디스크, 광학 디스크, 메모리, 비일시적 컴퓨터 판독가능 매체, 프로그래머블 로직 디바이스(PLD)를 지칭한다. 용어 "기계 판독가능 신호"는 기계 명령어들 및/또는 데이터를 프로그래머블 프로세서에 제공하는데 사용되는 임의의 신호를 지칭한다.

본 명세서에 기술된 프로세스들 및 논리 흐름들은 입력 데이터를 동작하고 출력을 생성함으로써 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램들을 실행하는 데이터 프로세싱 하드웨어로도 지칭되는 하나 이상의 프로그래머블 프로세서들에 의해 수행될 수 있다. 프로세스들 및 논리 흐름들은 또한 FPGA 또는 ASIC와 같은 특수 목적 논리 회로에 의해 수행될 수 있다. 컴퓨터 프로그램의 실행에 적절한 프로세서들은, 예시로서, 범용 및 전용 마이크로프로세서들과 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 읽기-전용 메모리 또는 랜덤 액세스 메모리 또는 둘 모두로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 필수 엘리먼트들은 명령어들을 수행하기 위한 프로세서 및 명령어들 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스들이다. 일반적으로, 컴퓨터는 데이터를 저장하기 위한 하나 이상의 대형 저장 디바이스들 예를 들면, 자기적, 자기-광학 디스크들 또는 광학적 디스크들 또한 포함하거나 또는 그로부터 데이터를 수신하거나 그에 데이터를 전송하기 위해 동작적으로 결합될 수 있다. 그러나, 컴퓨터는 상기 디바이스들을 반드시 가져야하는 것은 아니다. 컴퓨터 프로그램 명령어들 및 데이터를 저장하기에 적합한 컴퓨터 판독가능 매체는 예를 들어, EPROM, EEPROM 및 플래시 메모리 디바이스들과 같은 반도체 메모리 디바이스들; 예를 들어, 내부 하드 디스크들 또는 이동식 디스크들과 같은 자기 디스크들; 및 CD-ROM 및 DVD-ROM 디스크들을 포함하는 모든 형태의 비휘발성 메모리, 매체 및 메모리 디바이스들을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로에 의해 보충되거나 그 안에 통합될 수 있다.

사용자와의 인터렉션을 제공하기 위해, 본 개시의 하나 이상의 양태는 사용자에게 정보를 디스플레이하기 위해 예를 들어, CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터 또는 터치 스크린과 같은 디스플레이 디바이스 및 선택적으로 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 디바이스 예를 들어, 마우스 또는 트랙볼을 갖는 컴퓨터에서 구현될 수 있다. 다른 종류의 디바이스들도 사용자와의 인터렉션을 제공하는데 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 시각 피드백, 청각 피드백 또는 촉각 피드백과 같은 임의의 형태의 감각적 피드백일 수 있고, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다. 추가로, 컴퓨터는 사용자에 의해 사용되는 디바이스에 문서를 송수신함으로써 예를 들어, 웹브라우저로부터 수신된 요청에 응답하여, 사용자의 사용자 디바이스상의 웹브라우저에 웹페이지를 전송함으로써 사용자와 인터렉션할 수 있다.

다수의 구현예들이 기술되었다. 그럼에도 불구하고, 다양한 수정들이 본 발명의 정신과 범위로부터 벗어나지 않고 이루어질 수 있다는 것이 이해될 것이다. 따라서, 다른 구현예들도 다음의 청구항들의 범위 내에 있다.

Claims

생성적 적대 네트워크(GAN, Generative Adversarial Network) 기반 TTS(text-to-speech) 모델(310) 및 스피치 인식 모델(200)을 동시에 트레이닝하기 위한 방법(500)으로서,
데이터 프로세싱 하드웨어(610)에 의해, 복수의 트레이닝 텍스트 발화들(302)을 획득하는 단계,
상기 복수의 트레이닝 텍스트 발화들(302)의 제1 부분은 비음성 텍스트 발화(302a)를 포함하고, 각각의 비음성 텍스트 발화(302a)는 대응하는 음성 발화와 페어링되지 않으며; 및
상기 복수의 트레이닝 텍스트 발화(302)의 나머지 제2 부분은 음성 트레이닝 발화들(305)의 세트의 전사(302b)를 포함하고, 각각의 음성 트레이닝 발화(305)는 상기 대응하는 음성 트레이닝 발화(305)의 대응하는 비합성 스피치 표현과 페어링되는 대응하는 전사(302b)를 포함하며;
상기 복수의 트레이닝 텍스트 발화들(302)의 각각의 트레이닝 텍스트 발화(302)에 대한 복수의 출력 단계들 중 각각의 출력 단계에서:
데이터 프로세싱 하드웨어(610)에 의해, 상기 GAN 기반 TTS 모델(310)에 의한 출력을 위해, 상기 대응하는 트레이닝 텍스트 발화(302)의 합성 스피치 표현(306)을 생성하는 단계; 및
데이터 프로세싱 하드웨어(610)에 의해, 상기 GAN의 적대적 판별기(318)를 사용하여, 대응하는 트레이닝 텍스트 발화(302)의 대응하는 합성 스피치 표현(306)에 대한 음성 트레이닝 발화들(305)의 세트로부터 선택된 비합성 스피치 표현들(304) 중 하나에서 음향 노이즈 디스패리티의 양을 나타내는 적대적 손실 항(320)을 결정하는 단계;
데이터 프로세싱 하드웨어(610)에 의해, 상기 복수의 트레이닝 텍스트 발화들(302) 중 각각의 트레이닝 텍스트 발화에 대한 상기 복수의 출력 단계들 중 각각의 출력 단계에서 결정된 상기 적대적 손실 항(320)에 기초하여, 상기 GAN 기반 TTS 모델(310)의 파라미터들을 업데이트하는 단계; 및
데이터 프로세싱 하드웨어(610)에 의해, 상기 복수의 트레이닝 텍스트 발화들(302) 중 각각의 트레이닝 텍스트 발화(302)에 대한 상기 복수의 출력 단계들 중 각각의 출력 단계에서 생성된 상기 합성 스피치 표현(306)에 대한 스피치 인식 모델(200)을 트레이닝하는 단계를 포함하는, 방법.
청구항 1에 있어서,
상기 스피치 인식 모델(200)을 트레이닝는 단계는 트레이닝 발화 배치들에 대해 상기 스피치 인식 모델(200)을 트레이닝하는 단계를 더 포함하고, 각각의 트레이닝 발화 배치는:
상기 대응하는 트레이닝 텍스트 발화들(302)의 생성된 합성 스피치 표현(306)의 부분; 및
음성 트레이닝 발화들(305)의 세트에서 비합성 스피치 표현(304)의 부분을 포함하는, 방법.
청구항 2에 있어서,
각각의 트레이닝 발화 배치에서 생성된 합성 스피치 표현(306)의 부분 대 비합성 스피치 표현(304)의 부분의 비율은 스피치 인식 모델(200)을 트레이닝하는 동안 시간이 지남에 따라 증가하는, 방법.
청구항 3에 있어서,
각각의 트레이닝 발화 배치에 대해 상기 스피치 인식 모델(200)을 트레이닝하는 동안:
데이터 프로세싱 하드웨어(610)에 의해, 상기 대응하는 트레이닝 발화 배치에 대한 비-합성 스피치 표현(304)의 부분에서 각각의 비-합성 스피치 표현(304)에 대한 각각의 비-합성 스피치 손실 항(344)을 생성하는 단계; 및
데이터 프로세싱 하드웨어(610)에 의해, 스피치 인식 모델(200)에 의해 생성된 각 개별 비합성 스피치 손실 항(344)에 조정가능한 손실 가중치를 적용하는 단계를 더 포함하고, 상기 조정가능한 손실 가중치는 상기 대응하는 트레이닝 발화 배치에서 상기 생성된 스피치 표현의 부분 대 비합성 스피치 표현의 부분(304)의 비율에 비례하는 크기를 갖는, 방법.
청구항 2 내지 4 중 어느 한 항에 있어서,
각각의 트레이닝 발화 배치에 대해 스피치 인식 모델(200)을 트레이닝하는 동안:
상기 대응하는 트레이닝 발화 배치와 연관된 상기 생성된 합성 스피치 표현(306)의 부분에서 각각의 생성된 합성 스피치 표현(306)에 대한 복수의 출력 단계들 중 각각의 출력 단계에서:
데이터 프로세싱 하드웨어(610)에 의해, 상기 스피치 인식 모델(200)에 의한 출력을 위해, 상기 대응하는 합성 스피치 표현(306)에 대한 가능한 합성 스피치 인식 가설에 대한 제1 확률 분포(311)를 결정하는 단계; 및
데이터 프로세싱 하드웨어(610)에 의해, 상기 대응하는 합성 스피치 표현(306)에 대한 가능한 합성 스피치 인식 가설에 대한 제1 확률 분포(311) 및 상기 대응하는 합성 스피치 표현(306)이 생성되는 상기 대응하는 트레이닝 텍스트 발화(302)에 기초하여 합성 스피치 손실 항(344)을 생성하는 단계; 및
상기 대응하는 트레이닝 발화 배치와 연관된 상기 비합성 스피치 표현(304)의 부분에서 각각의 비합성 스피치 표현(304)에 대한 복수의 출력 단계들 중 각각의 출력 단계에서:
데이터 프로세싱 하드웨어(610)에 의해, 상기 스피치 인식 모델(200)에 의한 출력을 위해, 상기 대응하는 합성 스피치 표현(304)에 대한 가능한 비합성 스피치 인식 가설에 대한 제2 확률 분포(312)를 결정하는 단계; 및
데이터 프로세싱 하드웨어(610)에 의해, 상기 대응하는 비합성 스피치 표현(304)에 대한 가능한 비합성 스피치 인식 가설에 대한 제2 확률 분포(312) 및 상기 대응하는 비합성 스피치 표현(304)과 페어링되는 음성 트레이닝 발화들(305)의 세트의 전사(302b)에 기초하여 비합성 스피치 손실 항(344)을 생성하는 단계를 포함하는, 방법.
청구항 1 내지 5 중 어느 한 항에 있어서,
상기 복수의 트레이닝 텍스트 발화들(302) 중 각각의 트레이닝 텍스트 발화(302)에 대한 상기 복수의 출력 단계들 중 각각의 출력 단계에서, 음성 트레이닝 발화들(305)의 세트로부터 선택된 상기 비합성 스피치 표현들(304) 중 하나는:
상기 대응하는 트레이닝 텍스트 발화(302)가 상기 복수의 트레이닝 텍스트 발화들(302)의 제1 부분에 상기 비음성 텍스트 발화들(302a) 중 하나를 포함하는 경우, 상기 음성 트레이닝 발화들(305)의 세트로부터 무작위로 선택된 비합성 스피치 표현(304); 또는
상기 대응하는 트레이닝 텍스트 발화(302)가 상기 복수의 트레이닝 텍스트 발화들(302)의 제2 부분의 전사들(302b) 중 하나를 포함하는 경우, 상기 전사들(302b) 중 대응하는 전사와 페어링된 상기 음성 트레이닝 발화들(305)의 세트로부터의 비합성 스피치 표현(304)을 포함하는, 방법.
청구항 1 내지 6 중 어느 한 항에 있어서,
각각의 트레이닝 텍스트 발화(302)는:
발화 임베딩들의 세트로부터 선택된 발화 임베딩, 상기 발화 임베딩들의 세트에서 각 발화 임베딩은 의도된 운율을 나타내며; 및
화자 임베딩들의 세트로부터 선택된 화자 임베딩에 따라 조절되며, 상기 화자 임베딩들의 세트에서 각 화자 임베딩은 화자 특성을 나타내는, 방법.
청구항 7에 있어서,
각 트레이닝 텍스트 발화(302)는 대응하는 음소 시퀀스로 표현되며;
상기 발화 임베딩들의 세트의 각 발화 임베딩은 VAE(variational autoencoder)에 의해 음성 트레이닝 발화들(305)의 세트의 전사들(302b) 중 대응하는 전사로부터 추출되며; 그리고
상기 화자 임베딩들의 세트의 각 화자 임베딩은 상기 음성 트레이닝 발화들(305)의 세트에서 비합성 스피치 표현들(304) 중 대응하는 비합성 스피치 표현으로부터 추출되는, 방법.
청구항 1 내지 8 중 어느 한 항에 있어서,
상기 복수의 트레이닝 텍스트 발화들(302)의 각각의 트레이닝 텍스트 발화(302)에 대한 복수의 출력 단계들 중 각각의 출력 단계에서 상기 적대적 손실 항(320)을 결정하기 전에, 데이터 프로세싱 하드웨어(610)에 의해, 상기 대응하는 트레이닝 텍스트 발화(302)의 대응하는 생성된 합성 스피치 표현(306)에 데이터 증강을 적용하는 단계를 더 포함하는, 방법.
청구항 9에 있어서,
상기 적용된 데이터 증강은 노이즈 추가, 잔향 추가 또는 타이밍 조작 중 적어도 하나를 포함하는, 방법.
청구항 1 내지 10 중 어느 한 항에 있어서,
상기 복수의 트레이닝 텍스트 발화들(302)의 각각의 트레이닝 텍스트 발화(302)에 대한 복수의 출력 단계들 중 각각의 출력 단계에서:
데이터 프로세싱 하드웨어(610)에 의해, 상기 참조 TTS 모델(322)에 의한 출력을 위해, 상기 대응하는 트레이닝 텍스트 발화(302)의 참조 합성 스피치 표현(306)을 생성하는 단계; 및
데이터 프로세싱 하드웨어(610)에 의해, 상기 GAN 기반 TTS 모델(310)에 의해 출력된 상기 대응하는 트레이닝 텍스트 발화(302)의 상기 합성 스피치 표현(306) 및 상기 참조 TTS 모델(322)에 의해 출력된 상기 대응하는 트레이닝 텍스트 발화(302)의 참조 합성 스피치 표현(306)에 기초하여 일관성 손실 항(324)을 결정하는 단계를 더 포함하며,
상기 GAN 기반 TTS 모델(310)의 파라미터를 업데이트하는 단계는 상기 복수의 비음성 트레이닝 발화들(305)의 각각의 트레이닝 텍스트 발화(302)에 대한 복수의 출력 단계들 중 각각의 출력 단계에서 결정된 일관성 손실 항(324) 및 적대적 손실 항(320)에 기초하는, 방법.
청구항 11에 있어서,
상기 참조 TTS 모델(322)의 파라미터들은 상기 복수의 트레이닝 텍스트 발화들(305)의 각각의 트레이닝 텍스트 발화(302)에 대한 복수의 출력 단계들 중 각각의 출력 단계에서 고정된 상태로 유지되는, 방법.
청구항 1 내지 12 중 어느 한 항에 있어서,
데이터 프로세싱 하드웨어(610)에 의해, 상기 복수의 트레이닝 텍스트 발화들(302)의 제1 부분에서 상기 비음성 텍스트 발화(302a)를 획득하기 위해 비음성 텍스트 선택 프로세스(400)를 실행하는 단계를 더 포함하고, 상기 텍스트 선택 프로세스(400)는:
비음성 텍스트 발화들(302a)의 코퍼스(402)를 획득하고;
비음성 텍스트 발화들(302a)의 코퍼스(402)에서 각각의 비음성 텍스트 발화(302a)에 대해:
도메인 특정 언어 모델(410)에 나타나는 상기 비음성 텍스트 발화(302a)와 연관된 제1 확률을 결정하고, 상기 도메인 특정 언어 모델(410)은 상기 음성 트레이닝 발화들의 세트(305)의 각 전사(302b)에 대해 트레이닝되며;
배경 언어 모델(420)에 나타나는 비음성 텍스트 발화(302a)와 연관된 제2 확률을 결정하고, 상기 배경 언어 모델(420)은 비음성 텍스트 발화들(302a)의 코퍼스(402)에서 모든 비음성 텍스트 발화(302a)에 대해 트레이닝되며; 그리고
상기 제1 확률, 상기 제2 확률 및 상기 대응하는 비음성 텍스트 발화(302a)에 나타나는 단어들의 수에 기초하여 점수를 결정하고; 그리고
비음성 텍스트 발화들(302a)의 코퍼스에서 N-최고 발화 점수를 갖는 비음성 텍스트 발화들(302a)을 상기 복수의 트레이닝 텍스트 발화들(302)의 제1 부분에서 상기 비음성 텍스트 발화들(302a)로서 선택하도록 구성되는, 방법.
청구항 1 내지 13 중 어느 한 항에 있어서,
상기 복수의 트레이닝 텍스트 발화들(302)의 각각의 트레이닝 텍스트 발화(302)에 대한 복수의 출력 단계들 중 각각의 출력 단계에서, 상기 스피치 인식 모델(200)을 트레이닝하는 단계는:
스피치 인식 모델(200)에 의해, 상기 GAN 기반 TTS 모델(310)에 의해 출력된 상기 대응하는 트레이닝 텍스트 발화(302)의 합성 스피치 표현(306)을 인코딩하는 단계;
스피치 인식 모델(200)에 의해, 음성 트레이닝 발화들(305)의 세트로부터 선택된 상기 비합성 스피치 표현들(304) 중 하나를 인코딩하는 단계;
다른 적대적 판별기(358)를 사용하여, 상기 인코딩된 합성 스피치 표현(306)과 상기 비합성 스피치 표현들(304) 중 인코딩된 비합성 스피치 표현 사이의 다른 적대적 손실 항(360)을 결정하는 단계; 및
상기 복수의 트레이닝 텍스트 발화들(302) 중 각각의 트레이닝 텍스트 발화에 대한 상기 복수의 출력 단계들 중 각각의 출력 단계에서 결정된 상기 다른 적대적 손실 항(320)에 기초하여, 상기 스피치 인식 모델(200)의 파라미터들을 업데이트하는 단계를 포함하는, 방법.
청구항 14에 있어서,
상기 복수의 트레이닝 텍스트 발화들(302)의 각각의 트레이닝 텍스트 발화(302)에 대한 복수의 출력 단계들 중 각각의 출력 단계에서:
상기 대응하는 텍스트 발화 및 상기 다른 적대적 판별기(358)는 각각 화자 임베딩들의 세트로부터 선택된 동일한 화자 임베딩에 대해 조절되며, 상기 화자 임베딩들의 세트에서 각 화자 임베딩은 화자 특성을 나타내며; 그리고
상기 음성 트레이닝 발화들의 세트(305)로부터 선택된 상기 비합성 스피치 표현들(304) 중 하나는:
상기 대응하는 트레이닝 텍스트 발화(302)가 상기 복수의 트레이닝 텍스트 발화들(302)의 제1 부분에 상기 비음성 텍스트 발화들(302a) 중 하나를 포함하는 경우, 상기 음성 트레이닝 발화들(305)의 세트로부터 무작위로 선택된 비합성 스피치 표현(304); 또는
상기 대응하는 트레이닝 텍스트 발화(302)가 상기 복수의 트레이닝 텍스트 발화들(302)의 제2 부분의 전사들(302b) 중 하나를 포함하는 경우, 상기 전사들(302b) 중 대응하는 전사와 페어링된 상기 음성 트레이닝 발화들(305)의 세트로부터의 비합성 스피치 표현(304)을 포함하는, 방법.
생성적 적대 네트워크(GAN, Generative Adversarial Network) 기반 TTS(text-to-speech) 모델 및 스피치 인식 모델(200)을 동시에 트레이닝하기 위한 시스템(600)으로서,
데이터 프로세싱 하드웨어(610); 및
상기 데이터 프로세싱 하드웨어(610)와 통신하는 메모리 하드웨어(620)를 포함하며, 상기 메모리 하드웨어(620)는 상기 데이터 프로세싱 하드웨어(610)에 의해 실행될 때 상기 데이터 프로세싱 하드웨어(610)로 하여금 동작들을 수행하게 하는 명령어들을 저장하며, 상기 동작들은:
복수의 트레이닝 텍스트 발화를 획득하는 동작(302), 여기서:
상기 복수의 트레이닝 텍스트 발화들(302)의 제1 부분은 비음성 텍스트 발화(302a)를 포함하고, 각각의 비음성 텍스트 발화(302a)는 대응하는 음성 발화와 페어링되지 않으며; 및
상기 복수의 트레이닝 텍스트 발화(302)의 나머지 제2 부분은 음성 트레이닝 발화들(305)의 세트의 전사(302b)를 포함하고, 각각의 음성 트레이닝 발화(305)는 상기 대응하는 음성 트레이닝 발화(305)의 대응하는 비합성 스피치 표현과 페어링되는 대응하는 전사(302b)를 포함하며;
상기 복수의 트레이닝 텍스트 발화들(302)의 각각의 트레이닝 텍스트 발화(302)에 대한 복수의 출력 단계들 중 각각의 출력 단계에서:
상기 GAN 기반 TTS 모델(310)에 의한 출력을 위해, 상기 대응하는 트레이닝 텍스트 발화(302)의 합성 스피치 표현(306)을 생성하는 동작; 및
상기 GAN의 적대적 판별기(318)를 사용하여, 대응하는 트레이닝 텍스트 발화(302)의 대응하는 합성 스피치 표현(306)에 대한 음성 트레이닝 발화들(305)의 세트로부터 선택된 비합성 스피치 표현들(304) 중 하나에서 음향 노이즈 디스패리티의 양을 나타내는 적대적 손실 항(320)을 결정하는 동작;
상기 복수의 트레이닝 텍스트 발화들(302) 중 각각의 트레이닝 텍스트 발화에 대한 상기 복수의 출력 단계들 각각에서 결정된 상기 적대적 손실 항(320)에 기초하여, 상기 GAN 기반 TTS 모델(310)의 파라미터들을 업데이트하는 동작; 및
상기 복수의 트레이닝 텍스트 발화들(302) 중 각각의 트레이닝 텍스트 발화(302)에 대한 상기 복수의 출력 단계들 중 각각의 출력 단계에서 생성된 상기 합성 스피치 표현(306)에 대한 스피치 인식 모델(200)을 트레이닝하는 동작을 포함하는, 시스템.
청구항 16에 있어서,
상기 스피치 인식 모델(200)을 트레이닝는 단계는 트레이닝 발화 배치들에 대해 상기 스피치 인식 모델(200)을 트레이닝하는 동작을 더 포함하고, 각각의 트레이닝 발화 배치는:
상기 대응하는 트레이닝 텍스트 발화들(302)의 생성된 합성 스피치 표현(306)의 부분; 및
음성 트레이닝 발화들(305)의 세트에서 비합성 스피치 표현(304)의 부분을 포함하는, 시스템.
청구항 17에 있어서,
각각의 트레이닝 발화 배치에서 생성된 합성 스피치 표현(306)의 부분 대 비합성 스피치 표현(304)의 부분의 비율은 스피치 인식 모델(200)을 트레이닝하는 동안 시간이 지남에 따라 증가하는, 시스템.
청구항 18에 있어서,
각각의 트레이닝 발화 배치에 대해 상기 스피치 인식 모델(200)을 트레이닝하는 동안:
상기 대응하는 트레이닝 발화 배치에 대한 비-합성 스피치 표현(304)의 부분에서 각각의 비-합성 스피치 표현(304)에 대한 각각의 비-합성 스피치 손실 항(344)을 생성하는 동작; 및
스피치 인식 모델(200)에 의해 생성된 각 개별 비합성 스피치 손실 항(344)에 조정가능한 손실 가중치를 적용하는 동작을 더 포함하고, 상기 조정가능한 손실 가중치는 상기 대응하는 트레이닝 발화 배치에서 상기 생성된 스피치 표현의 부분 대 비합성 스피치 표현의 부분(304)의 비율에 비례하는 크기를 갖는, 시스템.
청구항 17 내지 19 중 어느 한 항에 있어서,
상기 동작들은, 각각의 트레이닝 발화 배치에 대해 상기 스피치 인식 모델(200)을 트레이닝하는 동안:
상기 대응하는 트레이닝 발화 배치와 연관된 상기 생성된 합성 스피치 표현(306)의 부분에서 각각의 생성된 합성 스피치 표현(306)에 대한 복수의 출력 단계들 중 각각의 출력 단계에서:
상기 스피치 인식 모델(200)에 의한 출력을 위해, 상기 대응하는 합성 스피치 표현(306)에 대한 가능한 합성 스피치 인식 가설에 대한 제1 확률 분포(311)를 결정하는 동작; 및
상기 대응하는 합성 스피치 표현(306)에 대한 가능한 합성 스피치 인식 가설에 대한 제1 확률 분포(311) 및 상기 대응하는 합성 스피치 표현(306)이 생성되는 상기 대응하는 트레이닝 텍스트 발화(302)에 기초하여 합성 스피치 손실 항(344)을 생성하는 동작; 및
상기 대응하는 트레이닝 발화 배치와 연관된 상기 비합성 스피치 표현(304)의 부분에서 각각의 비합성 스피치 표현(304)에 대한 복수의 출력 단계들 중 각각의 출력 단계에서:
상기 스피치 인식 모델(200)에 의한 출력을 위해, 상기 대응하는 합성 스피치 표현(304)에 대한 가능한 비합성 스피치 인식 가설에 대한 제2 확률 분포(312)를 결정하는 동작; 및
상기 대응하는 비합성 스피치 표현(304)에 대한 가능한 비합성 스피치 인식 가설에 대한 제2 확률 분포(312) 및 상기 대응하는 비합성 스피치 표현(304)과 페어링되는 음성 트레이닝 발화들(305)의 세트의 전사(302b)에 기초하여 비합성 스피치 손실 항(344)을 생성하는 동작을 포함하는, 시스템.
청구항 16 내지 20중 어느 한 항에 있어서,
상기 복수의 트레이닝 텍스트 발화들(302) 중 각각의 트레이닝 텍스트 발화(302)에 대한 상기 복수의 출력 단계들 중 각각의 출력 단계에서, 음성 트레이닝 발화들(305)의 세트로부터 선택된 상기 비합성 스피치 표현들(304) 중 하나는:
상기 대응하는 트레이닝 텍스트 발화(302)가 상기 복수의 트레이닝 텍스트 발화들(302)의 제1 부분에 상기 비음성 텍스트 발화들(302a) 중 하나를 포함하는 경우, 상기 음성 트레이닝 발화들(305)의 세트로부터 무작위로 선택된 비합성 스피치 표현(304); 또는
상기 대응하는 트레이닝 텍스트 발화(302)가 상기 복수의 트레이닝 텍스트 발화들(302)의 제2 부분의 전사들(302b) 중 하나를 포함하는 경우, 상기 전사들(302b) 중 대응하는 전사와 페어링된 상기 음성 트레이닝 발화들(305)의 세트로부터의 비합성 스피치 표현(304)을 포함하는, 시스템.
청구항 16 내지 21 어느 한 항에 있어서,
각각의 트레이닝 텍스트 발화(302)는:
발화 임베딩들의 세트로부터 선택된 발화 임베딩, 상기 발화 임베딩들의 세트에서 각 발화 임베딩은 의도된 운율을 나타내며; 및
화자 임베딩들의 세트로부터 선택된 화자 임베딩에 따라 조절되며, 상기 화자 임베딩들의 세트에서 각 화자 임베딩은 화자 특성을 나타내는, 시스템.
청구항 22에 있어서,
각 트레이닝 텍스트 발화(302)는 대응하는 음소 시퀀스로 표현되며;
상기 발화 임베딩들의 세트의 각 발화 임베딩은 VAE(variational autoencoder)에 의해 음성 트레이닝 발화들(305)의 세트의 전사들(302b) 중 대응하는 전사로부터 추출되며; 그리고
상기 화자 임베딩들의 세트의 각 화자 임베딩은 상기 음성 트레이닝 발화들(305)의 세트에서 비합성 스피치 표현들(304) 중 대응하는 비합성 스피치 표현으로부터 추출되는, 시스템.
청구항 16 내지 23 어느 한 항에 있어서,
상기 복수의 트레이닝 텍스트 발화들(302)의 각각의 트레이닝 텍스트 발화(302)에 대한 복수의 출력 단계들 중 각각의 출력 단계에서 상기 적대적 손실 항(320)을 결정하기 전에, 상기 대응하는 트레이닝 텍스트 발화(302)의 대응하는 생성된 합성 스피치 표현(306)에 데이터 증강을 적용하는 단계를 더 포함하는, 시스템.
청구항 24에 있어서,
상기 적용된 데이터 증강은 노이즈 추가, 잔향 추가 또는 타이밍 조작 중 적어도 하나를 포함하는, 시스템.
청구항 16 내지 25 어느 한 항에 있어서,
상기 복수의 트레이닝 텍스트 발화들(302)의 각각의 트레이닝 텍스트 발화(302)에 대한 복수의 출력 단계들 중 각각의 출력 단계에서:
상기 참조 TTS 모델(322)에 의한 출력을 위해, 상기 대응하는 트레이닝 텍스트 발화(302)의 참조 합성 스피치 표현(306)을 생성하는 동작; 및
상기 GAN 기반 TTS 모델(310)에 의해 출력된 상기 대응하는 트레이닝 텍스트 발화(302)의 상기 합성 스피치 표현(306) 및 상기 참조 TTS 모델(322)에 의해 출력된 상기 대응하는 트레이닝 텍스트 발화(302)의 참조 합성 스피치 표현(306)에 기초하여 일관성 손실 항(324)을 결정하는 동작을 더 포함하며,
상기 GAN 기반 TTS 모델(310)의 파라미터를 업데이트하는 동작은 상기 복수의 비음성 트레이닝 발화들(305)의 각각의 트레이닝 텍스트 발화(302)에 대한 복수의 출력 단계들 중 각각의 출력 단계에서 결정된 일관성 손실 항(324) 및 적대적 손실 항(320)에 기초하는, 시스템.
청구항 26에 있어서,
상기 참조 TTS 모델(322)의 파라미터들은 상기 복수의 트레이닝 텍스트 발화들(305)의 각각의 트레이닝 텍스트 발화(302)에 대한 복수의 출력 단계들 중 각각의 출력 단계에서 고정된 상태로 유지되는, 시스템.
청구항 16 내지 27 중 어느 한 항에 있어서,
상기 복수의 트레이닝 텍스트 발화들(302)의 제1 부분에서 상기 비음성 텍스트 발화(302a)를 획득하기 위해 비음성 텍스트 선택 프로세스(400)를 실행하는 동작을 더 포함하고, 상기 텍스트 선택 프로세스(400)는:
비음성 텍스트 발화들(302a)의 코퍼스(402)를 획득하고;
비음성 텍스트 발화들(302a)의 코퍼스(402)에서 각각의 비음성 텍스트 발화(302a)에 대해:
도메인 특정 언어 모델(410)에 나타나는 상기 비음성 텍스트 발화(302a)와 연관된 제1 확률을 결정하고, 상기 도메인 특정 언어 모델(410)은 상기 음성 트레이닝 발화들의 세트(305)의 각 전사(302b)에 대해 트레이닝되며;
배경 언어 모델(420)에 나타나는 비음성 텍스트 발화(302a)와 연관된 제2 확률을 결정하고, 상기 배경 언어 모델(420)은 비음성 텍스트 발화들(402)의 코퍼스(402)에서 모든 비음성 텍스트 발화(302a)에 대해 트레이닝되며; 그리고
상기 제1 확률, 상기 제2 확률 및 상기 대응하는 비음성 텍스트 발화(302a)에 나타나는 단어들의 수에 기초하여 점수를 결정하고; 그리고
비음성 텍스트 발화들(302a)의 코퍼스에서 N-최고 발화 점수를 갖는 비음성 텍스트 발화들(302a)을 상기 복수의 트레이닝 텍스트 발화들(302)의 제1 부분에서 상기 비음성 텍스트 발화들(302a)로서 선택하도록 구성되는, 시스템.
청구항 16 내지 28 중 어느 한 항에 있어서,
상기 복수의 트레이닝 텍스트 발화들(302)의 각각의 트레이닝 텍스트 발화(302)에 대한 복수의 출력 단계들 중 각각의 출력 단계에서, 상기 스피치 인식 모델(200)을 트레이닝하는 동작은:
스피치 인식 모델(200)에 의해, 상기 GAN 기반 TTS 모델(310)에 의해 출력된 상기 대응하는 트레이닝 텍스트 발화(302)의 합성 스피치 표현(306)을 인코딩하는 동작;
스피치 인식 모델(200)에 의해, 음성 트레이닝 발화들(305)의 세트로부터 선택된 상기 비합성 스피치 표현들(304) 중 하나를 인코딩하는 동작;
다른 적대적 판별기(358)를 사용하여, 상기 인코딩된 합성 스피치 표현(306)과 상기 비합성 스피치 표현들(304) 중 인코딩된 비합성 스피치 표현 사이의 다른 적대적 손실 항(360)을 결정하는 동작; 및
상기 복수의 트레이닝 텍스트 발화들(302) 중 각각의 트레이닝 텍스트 발화에 대한 상기 복수의 출력 단계들 중 각각의 출력 단계에서 결정된 상기 다른 적대적 손실 항(320)에 기초하여, 상기 스피치 인식 모델(200)의 파라미터들을 업데이트하는 동작을 포함하는, 시스템.
청구항 29에 있어서,
상기 복수의 트레이닝 텍스트 발화들(302)의 각각의 트레이닝 텍스트 발화(302)에 대한 복수의 출력 단계들 중 각각의 출력 단계에서:
상기 대응하는 텍스트 발화 및 상기 다른 적대적 판별기(358)는 각각 화자 임베딩들의 세트로부터 선택된 동일한 화자 임베딩에 대해 조절되며, 상기 화자 임베딩들의 세트에서 각 화자 임베딩은 화자 특성을 나타내며; 그리고
상기 음성 트레이닝 발화들의 세트(305)로부터 선택된 상기 비합성 스피치 표현들(304) 중 하나는:
상기 대응하는 트레이닝 텍스트 발화(302)가 상기 복수의 트레이닝 텍스트 발화들(302)의 제1 부분에 상기 비음성 텍스트 발화들(302a) 중 하나를 포함하는 경우, 상기 음성 트레이닝 발화들(305)의 세트로부터 무작위로 선택된 비합성 스피치 표현(304); 또는
상기 대응하는 트레이닝 텍스트 발화(302)가 상기 복수의 트레이닝 텍스트 발화들(302)의 제2 부분의 전사들(302b) 중 하나를 포함하는 경우, 상기 전사들(302b) 중 대응하는 전사와 페어링된 상기 음성 트레이닝 발화들(305)의 세트로부터의 비합성 스피치 표현(304)을 포함하는, 시스템.