KR20230056741A - 목소리 변환 및 스피치 인식 모델을 사용한 합성 데이터 증강 - Google Patents

목소리 변환 및 스피치 인식 모델을 사용한 합성 데이터 증강 Download PDF

Info

Publication number
KR20230056741A
KR20230056741A KR1020237010082A KR20237010082A KR20230056741A KR 20230056741 A KR20230056741 A KR 20230056741A KR 1020237010082 A KR1020237010082 A KR 1020237010082A KR 20237010082 A KR20237010082 A KR 20237010082A KR 20230056741 A KR20230056741 A KR 20230056741A
Authority
KR
South Korea
Prior art keywords
speech
text
training
utterances
model
Prior art date
Application number
KR1020237010082A
Other languages
English (en)
Inventor
파디 비아디시
리양 지앙
멘지바 페드로 제이. 모레노
앤드류 로젠버그
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20230056741A publication Critical patent/KR20230056741A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/057Time compression or expansion for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • G10L13/047Architecture of speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/057Time compression or expansion for improving intelligibility
    • G10L2021/0575Aids for the handicapped in speaking
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Quality & Reliability (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

스피치 변환 모델(300)을 트레이닝하는 방법(380)은 음성 트레이닝 발화들(305)의 세트에서 복수의 전사들(302)을 획득하는 단계 및 복수의 비음성 트레이닝 텍스트 발화들을 획득하는 단계를 포함한다. 각각의 음성 트레이닝 발화는 비전형 스피치와 연관된 타겟 화자(104)가 말한 것이고, 대응하는 비합성 스피치 표현(304)과 페어링된 대응하는 전사를 포함한다. 또한 방법은 음성 트레이닝 발화들의 세트를 사용하여, 타겟 화자의 목소리로 그리고 비전형 스피치를 캡처하는 스피치를 합성하기 위한 TTS 모델(210)을 적응시키는 단계를 포함한다. 각각의 비음성 트레이닝 텍스트 발화에 대해, 또한 방법은 타겟 화자의 목소리르 포함하고 비전형 스피치를 캡처하는 합성 스피치 표현(306)을 적응된 TTS 모델로부터의 출력으로서 생성하는 단계를 포함한다. 또한 방법은 합성 스피치 표현에 기초하여 스피치 변환 모델을 트레이닝하는 단계를 포함한다.

Description

목소리 변환 및 스피치 인식 모델을 사용한 합성 데이터 증강
본 발명은 목소리 변환 및 스피치 인식 모델을 사용하는 합성 데이터 증강에 관한 것이다.
오디오 입력을 받아 그것을 텍스트로 전사하는 ASR(Automatic Speech Recognition)은 모바일 디바이스 및 기타 디바이스에 사용되는 매우 중요한 기술이었다. 일반적으로, 자동 스피치 인식은 오디오 입력(예: 음성 발화)을 취하고 오디오 입력을 텍스트로 전사하여 사람이 말한 것의 정확한 전사를 제공하려고 시도한다.
딥러닝 기반 스피치 변환 모델과 ASR 모델을 개발하는데 있어 한 가지 과제는 이러한 모델들의 파라미터들이 트레이닝 데이터에 과적합되는 경향이 있어, 트레이닝 데이터가 충분히 광범위하지 않을 때 보이지 않는 데이터를 일반화하는데 어려움을 겪을 수 있다는 것이다. 더 큰 트레이닝 데이터 세트에 대해 스피치 변환 모델 및 ASR 모델을 트레이닝하면 정확도가 향상되지만, 이러한 모델에 의해 허용 가능한 정확도를 달성하기 위해 비전형 스피치 패턴(즉, 음향 다양성)을 가진 화자가 말하는 특정 도메인(즉, 언어 다양성)을 대상으로 하는 발화를 포함하여 충분한 트레이닝 데이터가 부족하다.
본 개시의 일 양태는 비전형 스피치와 연관된 타겟 화자에 대해 개인화된 스피치 변환 모델을 트레이닝하기 위한 방법을 제공한다. 방법은 데이터 프로세싱 하드웨어에 의해, 복수의 트레이닝 텍스트 발화들을 획득하는 단계를 포함한다. 상기 복수의 트레이닝 텍스트 발화의 제1 부분은 음성 트레이닝 발화들의 세트의 복수의 전사들을 포함한다. 각각의 음성 트레이닝 발화는 비전형 스피치와 연관된 타겟 화자가 말한 것이고, 대응하는 음성 트레이닝 발화의 대응하는 비합성 스피치 표현과 페어링된 대응하는 전사를 포함한다. 복수의 트레이닝 텍스트 발화들의 제2 부분은 스피치 변환 모델이 학습하도록 트레이닝되는 특정 도메인에 관한 복수의 비음성의 트레이닝 텍스트 발화들을 포함한다. 각 비음성 트레이닝 텍스트 발화는 대응하는 음성 발화와 페어링되지 않는다. 또한 방법은 상기 데이터 프로세싱 하드웨어에 의해, 음성 트레이닝 발화들의 세트를 사용하여, 타겟 화자의 목소리로 그리고 타겟 화자와 연관된 비전형 스피치를 캡처하는 스피치를 합성하기 위한 텍스트-투-스피치(TTS) 모델을 적응시키는 단계를 포함한다. 복수의 비음성 트레이닝 텍스트 발화들 중 각각의 비음성 트레이닝 텍스트 발화에 대해, 방법은 데이터 프로세싱 하드웨어에 의해, 상기 적응된 TTS 모델로부터의 출력으로서, 상기 대응하는 비음성 트레이닝 텍스트 발화의 합성 스피치 표현을 생성하는 단계를 포함한다. 합성 스피치 표현은 타겟 화자의 목소리를 포함하며, 타겟 화자와 연관된 비전형 스피치를 캡처한다. 또한 방법은 상기 데이터 프로세싱 하드웨어에 의해, 상기 복수의 비음성 트레이닝 텍스트 발화들 중 각 비음성 트레이닝 텍스트 발화에 대한 상기 적응된 TTS 모델에 의해 생성된 상기 합성 스피치 표현에 기초하여 상기 스피치 변환 모델을 트레이닝하는 단계를 포함한다.
본 개시의 구현예는 다음 구성들 중 하나 이상을 포함할 수 있다. 일부 구현예에서, 상기 적응된 TTS 모델에 의해 생성된 각각의 합성 스피치 표현에 대해, 상기 방법은 상기 데이터 프로세싱 하드웨어에 의해, 상기 스피치 변환 모델로부터의 출력으로서, 상기 타겟 화자, 목소리로 합성된 표준의 유창한 스피치의 대응 오디오 파형을 생성하는 단계, 상기 데이터 프로세싱 하드웨어에 의해, 텍스트 디코더로부터의 출력으로서, 스피치 변환 모델로부터의 출력으로서 생성된 합성된 표준의 유창한 스피치의 대응 오디오 파형에 대한 텍스트 표현을 생성하는 단계; 및 상기 데이터 프로세싱 하드웨어에 의해, 상기 대응하는 합성 스피치 표현과 연관된 단어 오류율 손실을 결정하는 단계를 더 포함한다. 단어 오류율 손실은 상기 합성된 표준의 유창한 스피치의 대응하는 오디오 파형에 대한 텍스트 디코더로부터의 출력으로서 생성된 텍스트 표현 및 대응하는 비음성 트레이닝 텍스트 발화에 기초한다. 이러한 구현예에서, 방법은 또한 데이터 프로세싱 하드웨어에 의해, 합성 스피치 표현들의 필터링된 세트를 식별하는 단계를 포함한다. 합성 스피치 표현들의 각 필터링된 세트는 단어 오류율 손실 임계치를 만족하는 단어 오류율 손실을 갖는 스피치 변환 모델로부터의 출력으로서 생성된 합성 스피치 표현들 중 각각의 합성 스피치 표현에 각각 대응한다. 이러한 구현예에서, 상기 복수의 비음성 텍스트 발화들 중 각 비음성 텍스트 발화에 대한 상기 적응된 TTS 모델에 의해 생성된 상기 합성 스피치 표현에 기초하여 상기 스피치 변환 모델을 트레이닝하는 단계는 합성 스피치 표현의 필터링된 세트에 대해 스피치 변환 모델을 트레이닝하는 단계를 포함한다. 스피치 변환 모델은 단어 오류율 손실 임계치를 만족하지 않는 단어 오류율 손실을 갖는 스피치 변환 모델의 출력으로서 생성된 합성 스피치 표현들 중 어느 것도 트레이닝하지 않는다.
일부 구현예에서, 상기 방법은 스피치 변환 모델이 상기 타겟 화자와 연관된 비전형 스피치와 동일한 유형의 비전형 스피치를 갖는 화자들이 말한 입력 발화들의 오디오 파형들을 변환하기 위해 이전에 트레이닝되지 않은 경우: 상기 데이터 프로세싱 하드웨어에 의해, 음성 트레이닝 발화들의 세트를 사용하여, 비전형 스피치를 갖는 타겟 화자가 말한 입력 발화들의 오디오 파형들을 합성된 표준의 유창한 스피치의 오디오 파형들로 변환하기 위해 상기 스피치 변환 모델을 적응시키는 단계를 더 포함한다. 여기서, 상기 합성된 표준의 유창한 스피치의 대응하는 오디오 파형을 생성하는 단계는 상기 적응된 스피치 변환 모델로부터의 출력으로서, 상기 타겟 화자의 목소리로 상기 합성된 표준의 유창한 스피치의 대응하는 오디오 파형을 생성하는 단계를 포함한다. 일부 예에서, 텍스트 디코더는 스피치 변환 모델에 상주한다. 다른 예에서, 텍스트 디코더는 스피치 변환 모델과는 별개인 참조 자동 스피치 인식 모델에 상주한다.
일부 구현예에서, 스피치 변환 모델은 입력 오디오 파형들을 대응하는 출력 오디오 파형들로 직접 변환하도록 구성된 엔드-투-엔드 신경 네트워크를 포함한다. 이러한 구현예에서, 스피치 변환 모델을 트레이닝한 후, 방법은 또한 상기 데이터 프로세싱 하드웨어에서, 비전형 스피치와 연관된 상기 타겟 화자가 말한 발화에 대응하는 입력 오디오 파형을 수신하는 단계; 및 상기 데이터 프로세싱 하드웨어에 의해, 상기 트레이닝된 스피치 변환 모델을 사용하여, 비전형 스피치와 연관된 타겟 화자가 말한 상기 발화에 대응하는 상기 입력 오디오 파형을 상기 타겟 화자가 말한 상기 발화의 합성된 표준의 유창한 스피치 표현에 대응하는 출력 오디오 파형으로 변환하는 단계를 포함한다.
다른 구현예에서, 스피치 변환 모델은 스피치를 대응하는 텍스트로 변환하도록 구성된 자동 스피치 인식 모델을 포함한다. 이러한 구현예에서, 스피치 변환 모델을 트레이닝한 후, 방법은 또한 상기 데이터 프로세싱 하드웨어에 의해, 비전형 스피치와 연관된 상기 타겟 화자가 말한 발화에 대응하는 오디오 데이터를 수신하는 단계; 및 상기 데이터 프로세싱 하드웨어에 의해, 상기 트레이닝된 스피치 변환 모델을 사용하여, 비전형 스피치와 연관된 타겟 화자가 말한 상기 발화에 대응하는 상기 오디오 데이터를 상기 타겟 화자가 말한 상기 발화의 표준 텍스트 표현으로 변환하는 단계를 포함한다.
상기 복수의 트레이닝 텍스트 발화들의 제2 부분에 있는 상기 복수의 비음성 트레이닝 텍스트 발화들의 적어도 일부는 특정 도메인에 관한 특정 문구들을 대상으로 하는 수동으로 작성된 텍스트를 포함할 수 있다. 선택적으로, 방법은 또한 데이터 프로세싱 하드웨어에 의해, 복수의 트레이닝 텍스트 발화들의 제2 부분에서 비음성 텍스트 발화들을 획득하기 위해 비음성 텍스트 선택 프로세스를 실행하는 단계를 포함할 수 있다. 텍스트 선택 프로세스는 비음성의 텍스트 발화들의 코퍼스를 획득하도록 구성된다. 비음성 텍스트 발화들의 코퍼스에서 각각의 비음성 텍스트 발화에 대해, 텍스트 선택 프로세스는 도메인-특정 언어 모델에 나타나는 상기 비음성 텍스트 발화와 연관된 제1 확률을 결정하고 그리고 배경 언어 모델에 나타나는 상기 비음성 텍스트 발화와 연관된 제2 확률을 결정하도록 구성된다. 배경 언어 모델은 비음성의 텍스트 발화들의 코퍼스에 있는 모든 비음성의 텍스트 발화에 대해 트레이닝된다. 비음성 텍스트 발화의 코퍼스의 각 비음성 텍스트 발화에 대해, 텍스트 선택 프로세스는 제1 확률, 제2 확률 및 대응하는 비음성 텍스트 발화에 나타나는 단어들의 수에 기초하여 점수를 결정하도록 구성된다. 최종적으로, 텍스트 선택 프로세스는 비음성 텍스트 발화들의 코퍼스에서 N-최고 점수를 갖는 비음성 텍스트 발화들을 상기 복수의 트레이닝 텍스트 발화들의 제2 부분에서 상기 비음성 트레이닝 텍스트 발화들로서 선택하도록 구성된다.
일부 구현예에서, TTS 모델은 인코더 부분과 디코더 부분을 포함하는 사전 트레이닝된 참조 TTS 모델을 포함한다. 이러한 구현예에서, 상기 TTS 모델을 적응시키는 단계는 상기 인코더 부분의 파라미터들이 고정된 상태로 유지되는 동안 상기 디코더 부분의 파라미터들을 튜닝함으로써 상기 사전-트레이닝된 참조 TTS 모델을 적응시키는 단계를 포함한다.
본 개시의 다른 양태는 비전형 스피치와 연관된 타겟 화자에 대해 개인화된 스피치 변환 모델을 트레이닝하기 위한 시스템을 제공한다. 시스템은 데이터 프로세싱 하드웨어와 상기 데이터 프로세싱 하드웨어와 통신하는 메모리 하드웨어를 포함한다. 메모리 하드웨어는 데이터 프로세싱 하드웨어에서 실행될 때 상기 데이터 프로세싱 하드웨어로 하여금 동작들을 수행하게 하는 명령어들을 저장한다. 동작들은 복수의 트레이닝 텍스트 발화들을 획득하는 동작을 포함한다. 상기 복수의 트레이닝 텍스트 발화의 제1 부분은 음성 트레이닝 발화들의 세트의 복수의 전사들을 포함한다. 각각의 음성 트레이닝 발화는 비전형 스피치와 연관된 타겟 화자가 말한 것이고, 대응하는 음성 트레이닝 발화의 대응하는 비합성 스피치 표현과 페어링된 대응하는 전사를 포함한다. 복수의 트레이닝 텍스트 발화들의 제2 부분은 스피치 변환 모델이 학습하도록 트레이닝되는 특정 도메인에 관한 복수의 비음성의 트레이닝 텍스트 발화들을 포함한다. 각 비음성 트레이닝 텍스트 발화는 대응하는 음성 발화와 페어링되지 않는다. 또한 상기 동작들은 상기 음성 트레이닝 발화들의 세트를 사용하여, 타겟 화자의 목소리로 그리고 타겟 화자와 연관된 비전형 스피치를 캡처하는 스피치를 합성하기 위한 텍스트-투-스피치(TTS) 모델을 적응시키는 동작을 포함한다. 복수의 비음성 트레이닝 텍스트 발화들 중 각각의 비음성 트레이닝 텍스트 발화에 대해, 상기 동작들은 상기 적응된 TTS 모델로부터의 출력으로서, 상기 대응하는 비음성 트레이닝 텍스트 발화의 합성 스피치 표현을 생성하는 동작을 포함한다. 합성 스피치 표현은 타겟 화자의 목소리를 포함하며, 타겟 화자와 연관된 비전형 스피치를 캡처한다. 또한 동작들은 상기 복수의 비음성 트레이닝 텍스트 발화들 중 각 비음성 트레이닝 텍스트 발화에 대한 상기 적응된 TTS 모델에 의해 생성된 상기 합성 스피치 표현에 기초하여 상기 스피치 변환 모델을 트레이닝하는 동작을 포함한다.
본 개시의 구현예는 다음 구성들 중 하나 이상을 포함할 수 있다. 일부 구현예에서, 상기 적응된 TTS 모델에 의해 생성된 각각의 합성 스피치 표현에 대해, 상기 동작들은 상기 스피치 변환 모델로부터의 출력으로서, 상기 타겟 화자의 목소리로 합성된 표준의 유창한 스피치의 대응 오디오 파형을 생성하는 동작; 텍스트 디코더로부터의 출력으로서, 스피치 변환 모델로부터의 출력으로서 생성된 합성된 표준의 유창한 스피치의 대응 오디오 파형에 대한 텍스트 표현을 생성하는 동작; 및 상기 대응하는 합성 스피치 표현과 연관된 단어 오류율 손실을 결정하는 동작을 더 포함한다. 단어 오류율 손실은 상기 합성된 표준의 유창한 스피치의 대응하는 오디오 파형에 대한 텍스트 디코더로부터의 출력으로서 생성된 텍스트 표현 및 대응하는 비음성 트레이닝 텍스트 발화에 기초한다. 이러한 구현예에서 동작들은 또한 합성 스피치 표현들의 필터링된 세트를 식별하는 동작을 포함한다. 합성 스피치 표현들의 각 필터링된 세트는 단어 오류율 손실 임계치를 만족하는 단어 오류율 손실을 갖는 스피치 변환 모델로부터의 출력으로서 생성된 합성 스피치 표현들 중 각각의 합성 스피치 표현에 각각 대응한다. 이러한 구현예에서, 상기 복수의 비음성 텍스트 발화들 중 각 비음성 텍스트 발화에 대한 상기 적응된 TTS 모델에 의해 생성된 상기 합성 스피치 표현에 기초하여 상기 스피치 변환 모델을 트레이닝하는 동작은 합성 스피치 표현의 필터링된 세트에 대해 스피치 변환 모델을 트레이닝하는 동작을 포함한다. 스피치 변환 모델은 단어 오류율 손실 임계치를 만족하지 않는 단어 오류율 손실을 갖는 스피치 변환 모델의 출력으로서 생성된 합성 스피치 표현들 중 어느 것도 트레이닝하지 않는다.
이러한 예에서, 상기 동작들은 스피치 변환 모델이 상기 타겟 화자와 연관된 비전형 스피치와 동일한 유형의 비전형 스피치를 갖는 화자들이 말한 입력 발화들의 오디오 파형들을 변환하기 위해 이전에 트레이닝되지 않은 경우: 음성 트레이닝 발화들의 세트를 사용하여, 비전형 스피치를 갖는 타겟 화자가 말한 입력 발화들의 오디오 파형들을 합성된 표준의 유창한 스피치의 오디오 파형들로 변환하기 위해 상기 스피치 변환 모델을 적응시키는 동작을 더 포함한다. 여기서, 상기 합성된 표준의 유창한 스피치의 대응하는 오디오 파형을 생성하는 단계는 상기 적응된 스피치 변환 모델로부터의 출력으로서, 상기 타겟 화자의 목소리로 상기 합성된 표준의 유창한 스피치의 대응하는 오디오 파형을 생성하는 단계를 포함한다. 일부 예에서, 텍스트 디코더는 스피치 변환 모델에 상주한다. 다른 예에서, 텍스트 디코더는 스피치 변환 모델과는 별개인 참조 자동 스피치 인식 모델에 상주한다.
일부 구현예에서, 스피치 변환 모델은 입력 오디오 파형들을 대응하는 출력 오디오 파형들로 직접 변환하도록 구성된 엔드-투-엔드 신경 네트워크를 포함한다. 이러한 구현예에서, 스피치 변환 모델을 트레이닝한 후 상기 동작들은 비전형 스피치와 연관된 상기 타겟 화자(104)가 말한 발화에 대응하는 입력 오디오 파형을 수신하는 동작; 및 상기 데이터 프로세싱 하드웨어에 의해, 상기 트레이닝된 스피치 변환 모델을 사용하여, 비전형 스피치와 연관된 타겟 화자가 말한 상기 발화에 대응하는 상기 입력 오디오 파형을 상기 타겟 화자가 말한 상기 발화의 합성된 표준의 유창한 스피치 표현에 대응하는 출력 오디오 파형으로 변환하는 동작을 포함한다.
다른 구현에서, 스피치 변환 모델은 스피치를 대응하는 텍스트로 변환하도록 구성된 자동 스피치 인식 모델을 포함한다. 이러한 구현예에서, 스피치 변환 모델을 트레이닝한 후, 동작들은 또한 비전형 스피치와 연관된 상기 타겟 화자가 말한 발화에 대응하는 오디오 데이터를 수신하는 동작; 및 상기 트레이닝된 스피치 변환 모델을 사용하여, 비전형 스피치와 연관된 타겟 화자가 말한 상기 발화에 대응하는 상기 오디오 데이터를 상기 타겟 화자가 말한 상기 발화의 표준 텍스트 표현으로 변환하는 동작을 포함한다.
상기 복수의 트레이닝 텍스트 발화들의 제2 부분에 있는 상기 복수의 비음성 트레이닝 텍스트 발화들의 적어도 일부는 특정 도메인에 관한 특정 문구들을 대상으로 하는 수동으로 작성된 텍스트를 포함할 수 있다. 선택적으로, 동작들은 복수의 트레이닝 텍스트 발화들의 제2 부분에서 비음성 트레이닝 텍스트 발화를 획득하기 위해 비음성 텍스트 선택 프로세스를 실행하는 동작을 포함할 수 있다. 텍스트 선택 프로세스는 비음성의 텍스트 발화들의 코퍼스를 획득하도록 구성된다. 비음성 텍스트 발화들의 코퍼스에서 각각의 비음성 텍스트 발화에 대해, 텍스트 선택 프로세스는 도메인-특정 언어 모델에 나타나는 상기 비음성 텍스트 발화와 연관된 제1 확률을 결정하고 그리고 배경 언어 모델에 나타나는 상기 비음성 텍스트 발화와 연관된 제2 확률을 결정하도록 구성된다. 배경 언어 모델은 비음성의 텍스트 발화들의 코퍼스에 있는 모든 비음성의 텍스트 발화에 대해 트레이닝된다. 비음성 텍스트 발화의 코퍼스의 각 비음성 텍스트 발화에 대해, 텍스트 선택 프로세스는 제1 확률, 제2 확률 및 대응하는 비음성 텍스트 발화에 나타나는 단어들의 수에 기초하여 점수를 결정하도록 구성된다. 최종적으로, 텍스트 선택 프로세스는 비음성 텍스트 발화들의 코퍼스에서 N-최고 점수를 갖는 비음성 텍스트 발화들을 상기 복수의 트레이닝 텍스트 발화들의 제2 부분에서 상기 비음성 트레이닝 텍스트 발화들로서 선택하도록 구성된다.
일부 구현예에서, TTS 모델은 인코더 부분과 디코더 부분을 포함하는 사전 트레이닝된 참조 TTS 모델을 포함한다. 이러한 구현예에서, 상기 TTS 모델을 적응시키는 단계는 상기 인코더 부분의 파라미터들이 고정된 상태로 유지되는 동안 상기 디코더 부분의 파라미터들을 튜닝함으로써 상기 사전-트레이닝된 참조 TTS 모델을 적응시키는 단계를 포함한다.
본 개시의 하나 이상의 구현예의 세부 내용이 첨부 도면과 아래의 설명에서 기술된다. 다른 양태, 구성, 객체 및 이점은 아래의 설명, 도면 및 청구항으로부터 명백해질 것이다.
도 1a는 스피치-투-스피치 변환 모델을 포함하는 예시적 스피치 변환 시스템의 개략도이다.
도 1b는 스피치-투-텍스트 변환 모델을 포함하는 예시적 스피치 변환 시스템의 개략도이다.
도 2a는 타겟 화자가 말한 음성 트레이닝 발화들의 세트를 획득하기 위한 개인화된 시드 데이터 수집 단계의 개략도이다.
도 2b는 복수의 비음성 트레이닝 텍스트 발화들을 획득하기 위한 데이터 생성 단계의 개략도이다.
도 2c는 참조 텍스트-투-스피치(TTS, text-to-speech) 모델 적응시키고 참조 스피치-투-스피치 변환 모델을 적응시키기 위한 적응 단계의 개략도이다.
도 2d는 적응된 TTS 모델로부터 출력된 합성 스피치 표현들의 필터링된 세트를 식별하기 위한 검증 및 필터링 단계의 개략도이다.
도 2e는 스피치 변환 모델을 트레이닝하기 위한 최종 트레이닝 단계의 개략도이다.
도 3는 스피치 변환 모델을 트레이닝하는 방법의 예시적 동작 구성의 흐름도이다.
도 4는 본 명세서에 기술된 시스템 및 방법을 구현하는데 사용될 수 있는 예시적 컴퓨팅 디바이스의 개략도이다.
다양한 도면들에서 기호들은 동일한 엘리먼트를 표시한다.
ASR(Automated Speech Recognition)은 E2E(End-to-End) 딥러닝 기반 모델을 도입하여 비전형 스피치 패턴을 가진 화자의 스피치를 인식하여 정확한 전사로 변환함으로써 엄청난 발전을 이루었다. 예를 들어, 비전형 언어 패턴은, 제한 없이, 신체적 또는 신경학적 상태(예: 근위축성 측삭 경화증(ALS) 질환이 있는 화자)로 인한 스피치 장애, 억양이 심한 스피치 및 난청 스피치를 포함할 수 있다. 유사한 딥러닝 기반 모델을 스피치-투-스피치 변환 시스템에 적용하여 비전형 스피치 패턴을 가진 스피치를 표준의 유창한 출력 스피치로 변환할 수 있다. 본 명세서에서 사용되는 바와 같이, 달리 명시되지 않는 한, "스피치 변환 시스템" 및 "스피치 변환 모델"이라는 용어는 입력된 비전형 스피치를 인식하고 대응하는 텍스트(예: 전사)로 변환하는 ASR 시스템/모델 또는 입력된 비전형 스피치가 스피치 인식을 수행하지 않고 표준의 유창한 합성 스피치로 직접 변환되는 스피치-투-스피치 변환 시스템/모델을 지칭할 수 있다. 달리 말하면, 스피치-투-스피치 변환 시스템/모델은 비전형 스피치에 대응하는 입력 오디오 파형 또는 스펙트로그램을 입력 오디오 파형을 중간 표현(예: 텍스트 또는 음소)으로 변환하지 않고 표준의 유창한 스피치에 대응하는 출력 오디오 파형 또는 스펙트로그램으로 직접 변환하도록 구성된다. 명백해질 바와 같이, 스피치 변환 모델과 스피치 변환 모델을 트레이닝하기 위한 기법은 사용자의 의도된 스피치의 인식 및/또는 재생산을 가능하게 함으로써 비전형 스피치를 가진 사용자가 다른 사람 및 스피치 인터페이스(예: 디지털 어시스턴트)에 말하거나 그들에 의해 이해되게 할 수 있다.
딥러닝 기반 스피치 변환 모델과 ASR 모델을 개발하는데 있어 한 가지 과제는 이러한 모델들의 파라미터들이 트레이닝 데이터에 과적합되는 경향이 있어, 트레이닝 데이터가 충분히 광범위하지 않을 때 보이지 않는 데이터를 일반화하는데 어려움을 겪을 수 있다는 것이다. 더 큰 트레이닝 데이터세트에서 스피치 변환 모델 및 ASR 모델을 트레이닝하면 정확도가 향상되지만, 특정 타겟 도메인에서 비전형적 스피치를 가진 타겟 화자를 향한 개인화에 충분한 언어적 다양성과 음향적 다양성을 모두 제공하는 트레이닝 데이터가 부족하다. 예를 들어, 충분한 음향적 다양성을 가진 학습 데이터를 얻기 위해 비전형적 스피치를 가진 타겟 화자는 각각 대응하는 전사와 페어링된 몇 시간 동안의 음성 발화를 기록해야 한다. 또한, 특정 타겟 도메인에 대해 충분한 언어적 다양성을 얻으려면 특정 타겟 도메인과 연관된 용어를 포함하기 위해 화자로부터 녹음된 발화들이 필요하다. 예를 들어, 특정 타겟 도메인은, 제한 없이, 직업 분야(예, 망막 전문의), 교육 분야(예, 심리학 강사), 음악, 내비게이션, 날씨 등을 포함할 수 있다. 특정 타겟 도메인은 유사하게 타겟 화자와 연관된 개인화된 도메인일 수 있으며, 여기서 개인화된 도메인과 연관된 특정 용어는 가족 구성원의 이름, 연락처 이름, 타겟 화자와 연관된 음악 라이브러리의 음악가/앨범/노래 등을 포함할 수 있다.
TTS(텍스트-투-스피치) 또는 스피치 합성 시스템은 Seq2Seq 모델을 성공적으로 적용하여 사람의 스피치를 사람의 귀로 구별할 수 없는 자연스럽고 사실적으로 들리는 합성 스피치를 얻는다. 유리하게는, 스피치 변환 모델의 트레이닝을 개선하기 위한 합성 스피치를 생성하기 위해 비음성 텍스트 발화 또는 텍스트 전용 데이터를 쉽고 저렴하게 얻을 수 있다. 예를 들어, 비음성 텍스트 발화는 트레이닝 데이터 세트의 양을 늘리는 데 사용될 수 있을 뿐만 아니라 비음성 텍스트 발화는 전사된 스피치(예: 사람이 말한 오디오 및 해당 전사)를 획득하는 어려움 없이 트레이닝 데이터에서 언어적 다양성을 증가시킬 수 있다.
본 명세서에서의 구현예는 비전형 스피치를 갖는 타겟 화자에 대해 개인화되고 타겟 화자의 특정 관심 영역을 대상으로 하는 스피치 변환 모델(즉, ASR 또는 스피치-투-스피치 변환)을 트레이닝하는데 사용되는 트레이닝 데이터를 개선하는 것에 관한 것이다. 구체적으로, 구현예는 비전형 스피치로 타겟 화자가 말한 녹음된 발화들의 전사된 음향 데이터에 대응하는 초기적인 개인화된 시드 데이터를 샘플링하고 샘플링된 시드 데이터를 사용하여 기본 TTS(텍스트-투-스피치) 모델을 적응/튜닝하는 것을 포함한다. 여기서, "기본 TTS 모델"은 단순히 하나 이상의 미리 정의된 화자의 목소리로 입력 텍스트를 합성된 표준 스피치로 변환하도록 이전에 트레이닝된 참조/기존 TTS 모델을 지칭한다. 여기서, 타겟 화자로부터 샘플링된 개인화된 시드 데이터는 기본 TTS 모델을 튜닝/적응시켜 입력 텍스트를 타겟 화자의 목소리로 타겟 화자의 비전형적인 스피치 패턴을 갖는 출력 합성 스피치로 변환한다. 사전-트레이닝된 기본 TTS 모델은 인코더 부분과 디코더 부분을 포함하며, 이에 의해 TTS 모델을 적응시키는 것은 인코더 부분의 파라미터들이 고정된 상태로 유지되는 동안 디코더 부분의 파라미터들을 튜닝/재트레이닝하는 것을 포함할 수 있다. 이러한 방식으로 TTS 모델을 적응시키기 위해 개인화된 시드 데이터를 사용함으로써, 적응된 TTS 모델은 특정 도메인과 연관된 용어 또는 문구를 포함하는 텍스트 발화들을 타겟 화자의 목소리로 타겟 화자의 비전형적인 스피치 패턴을 갖는 합성 스피치를 포함하는 합성 트레이닝 발화로 변환하는데 사용될 수 있다. 명백해질 바와 같이, 적응된 TTS 모델은 특정 도메인을 대상으로 하고 타겟 화자의 목소리(즉, 합성된 목소리)의 비전형 스피치를 갖는 다수의 합성 트레이닝 발화를 생성하여, 스피치 변환 모델을 트레이닝하는데 있어서 언어 다양성과 음향 다양성을 모두 증가시킬 수 있다.
적응된 TTS 모델에 의해 생산된 합성 트레이닝 발화 및 대응하는 전사는 기준선 스피치 변환 모델을 적응/튜닝하는데 사용된다. 여기서, "기준 스피치 변환 모델"은 전형적인/표준의 스피치를 인식하기 위해 전사된 음향 데이터의 일반 코퍼스에 대해 사전 트레이닝된 참조/기존 ASR 모델 또는 다양한 화자 및 녹음 조건에 걸친 코퍼스로부터의 복수의 발화들 각각에 대한 입력 오디오 파형(또는 스펙트로그램)을 미리 정의된 표준적 화자의 목소리로 대응하는 출력 오디오 파형(또는 스펙트로그램)에 매핑하도록 트레이닝된 참조/기존 스피치-투-스피치 변환 모델을 지칭한다. 따라서, 합성 트레이닝 발화는 특정 도메인을 대상으로 타겟 화자가 말하는 비전형 스피치를 인식 및/또는 표준 텍스트 및/또는 표준의 유창한 합성 스피치로 변환하기 위해 일반적 스피치 변환 모델을 조정/튜닝하기 위해 충분한 언어적 다양성 및 음향적 다양성을 제공한다. 이러한 구현예에서, 타겟 화자가 말한 녹음된 발화들의 전사된 음향 데이터에 대응하는 샘플링된 시드 데이터는 기본 스피치 변환 모델을 적응/튜닝하는데 추가로 사용될 수 있다. 다른 구현예에서, 적응된 TTS 모델에 의해 생산된 합성 트레이닝 발화와 샘플링된 시드 데이터의 조합은 처음부터 스피치 변환 모델을 트레이닝하는데 사용된다.
도 1a는 비전형 스피치와 연관된 타겟 화자(104)가 말한 발화(108)에 대응하는 입력 오디오 데이터(102)를 타겟 화자(104)가 말한 동일한 발화(114)의 합성된 표준의 유창한 스피치 표현에 대응하는 출력 오디오 데이터(106)로 변환하도록 구성된 스피치 변환 모델(300, 300a)을 도시한다. 스피치 변환 시스템(100a)의 연관된 스피치 변환 모델(300)은 스피치 인식을 수행하지 않거나 입력 오디오 데이터(102)로부터 임의의 중간 이산 표현(예를 들어, 텍스트 또는 음소)의 생성을 요구하지 않고 입력 오디오 데이터(102)(예를 들어, 입력 스펙트로그램)를 출력 오디오 데이터(106)(예를 들어, 출력 스펙트로그램)로 직접 변환하도록 구성된 스피치-투-스피치(S2S) 변환 모델(300a)을 포함한다. S2S 변환 모델(300a)은 입력 오디오 데이터(102)를 히든 피처 표현(예를 들어, 일련의 벡터들)으로 인코딩하도록 구성된 스펙트로그램 인코더(310) 및 히든 표현을 합성된 표준의 유창한 스피치 표현에 대응하는 출력 오디오 데이터(106)로 디코딩하도록 구성된 스펙트로그램 디코더(320)를 포함한다. 예를 들어, 스펙트로그램 인코더(310)가 발화(108)의 입력 오디오 데이터(102)를 수신함에 따라, 스펙트로그램 인코더(310)는 5개의 오디오 프레임을 프로세싱하고 이들 5개의 오디오 프레임을 10개의 벡터로 변환할 수 있다. 벡터는 오디오 데이터(102) 프레임의 전사가 아니라 오디오 데이터(102) 프레임의 수학적 표현이다. 차례로, 스펙트로그램 디코더(320)는 스펙트로그램 인코더(310)로부터 수신된 벡터에 기초하여 합성된 표준의 유창한 스피치 표현에 대응하는 출력 오디오 데이터(106)를 생성할 수 있다. 예를 들어, 스펙트로그램 디코더(320)는 스펙트로그램 인코더(310)로부터 5개의 오디오 프레임을 나타내는 10개의 벡터를 수신할 수 있다. 여기서, 스펙트로그램 디코더(320)는 입력 오디오 데이터(102)의 5개 프레임으로서 의도된 단어 또는 단어의 일부를 포함하지만, 비전형 스피치의 비유창함은 없는 발화(114)의 합성된 표준의 유창한 스피치 표현에 대응하는 출력 오디오 데이터(106)의 5개 프레임을 생성할 수 있다.
일부 예에서, S2S 변환 모델(300a)은 또한 히든 표현을 텍스트 표현, 예를 들어 음소 또는 자소로 디코딩하는 텍스트 디코더(도 2d)(250)를 포함한다. 이러한 예에서, 스펙트로그램 디코더(320) 및 텍스트 디코더(250)는 각각 스펙트로그램 인코더(310)에 의해 인코딩된 히든 표현을 수신하고 출력 오디오 데이터(106) 또는 텍스트 표현 중 각각의 하나를 병렬로 방출하는 S2S 변환 모델(300a)의 병렬 디코딩 브랜치에 대응할 수 있다. S2S 변환 시스템(100a)은 출력 오디오 데이터(106)를 유창한 표준의 유창한 스피치의 동일한 발화(114)로서 청각적 출력을 위한 시간-도메인 파형으로 합성하기 위한 합성기(375)를 더 포함할 수 있다. 시간-도메인 오디오 파형은 시간에 따른 오디오 신호의 진폭을 정의하는 오디오 파형이다. 합성기(375)는 출력 오디오 데이터(106)를 합성된 표준의 유창한 스피치의 시간-도메인 파형으로 합성하기 위한 유닛 선택 모듈 또는 WaveNet 모듈을 포함할 수 있다. 일부 구현예에서, 합성기(375)는 보코더 네트워크, 즉, 시간-도메인 오디오 파형으로의 변환을 위해 멜 주파수 스펙트로그램에 대해 개별적으로 트레이닝되고 조절되는 신경 보코더를 포함한다.
도시된 예에서, 타겟 화자(104)는 타겟 화자(104)가 이해하기 어려울 수 있는 비전형 스피치 패턴으로 말하는 비전형 스피치와 연관된다. 비전형 언어 패턴은, 제한 없이, 신체적 또는 신경학적 상태(예: 근위축성 측삭 경화증(ALS) 질환이 있는 화자)로 인한 스피치 장애 심한 스피치 및 난청 스피치를 포함할 수 있다. 예로서, 타겟 화자(104)는 ALS 질병을 갖고 ALS 질병으로 인한 비전형 스피치와 연관된다. 그에 따라 스피치-투-스피치 변환 시스템(100a)은 ALS 스피치와 연관된 타겟 화자(104)가 말한 발화(108)에 대응하는 입력 오디오 데이터(102)를 동일한 발화(108)의 합성된 표준의 유창한 스피치 표현에 대응하는 출력 오디오 데이터(106)로 직접 변환하도록 트레이닝된다. 따라서, 출력 오디오 데이터(106)에 의해 제공되는 합성된 표준의 유창한 스피치 표현은 타겟 화자(104)가 말한 ALS 스피치의 명료도를 향상시킨다. 본 발명의 범위를 벗어나지 않으면서, S2S 변환 모델(300a)은 제1 언어의 비전형 스피치와 연관된 발화(108)에 대응하는 입력 오디오 데이터(102)를 동일한 목소리로 하지만 다른 제2 언어로 된 동일한 발화(108)의 합성된 표준의 유창한 스피치 표현에 대응하는 출력 오디오 데이터(106)로 직접 변환하도록 트레이닝될 수 있다.
타겟 화자(104)와 연관된 컴퓨팅 디바이스(110)는 타겟 화자(104)가 말한 발화(108)를 캡처하고 대응하는 입력 오디오 데이터(102)를 출력 오디오 데이터(106)로의 변환을 위해 스피치-투-스피치 변환 시스템(100a)에 전송할 수 있다. 그 후, 스피치-투-스피치 변환 시스템(100a)은 타겟 화자(104)가 말한 동일한 발화(114)의 합성된 표준의 유창한 스피치 표현에 대응하는 출력 오디오 데이터(106)를 사용자(118)와 연관된 다른 컴퓨팅 디바이스(116)에 전송할 수 있고, 이에 의해 다른 컴퓨팅 디바이스(116)는 타겟 화자(104)가 말한 발화(108)의 합성된 표준의 유창한 스피치 표현을 청각적으로 출력한다. 이 예에서, 타겟 화자(104)와 사용자(118)는 전화 통화 또는 다른 유형의 음성 통신 프로토콜, 예를 들어 인터넷 프로토콜을 통한 음성과 같은 각각의 컴퓨팅 디바이스(110, 116)를 통해 서로에게 말하고 있다. 타겟 화자(104)와 다른 사용자(118)는 동일한 언어를 말할 수 있지만, 타겟 화자(104)는 ALS 질병으로 인해 비전형적인 스피치를 가지고 있기 때문에 다른 사용자(118)가 타겟 화자(104)를 이해하기 어려울 수 있다. 따라서, 타겟 화자(104)가 이해하기 어려울 수 있는 비전형적 스피치(예를 들어, ALS 스피치)로 말하는 동안, 합성된 표준의 유창한 스피치 표현을 듣는 다른 사용자(118)는 타겟 화자(104)가 의도한 발화(108)를 더 쉽게 이해할 것이다. 다르게 말하면, 합성된 표준의 유창한 스피치 표현은 타겟 화자가 비전형적 스피치로 말한 원래 발화(108)보다 다른 사용자가 이해하기 더 쉬울 수 있는 더 일관된 케이던스를 제공한다. 특히, 합성된 표준의 유창한 스피치 표현은 타겟 화자(104)의 목소리이다.
일부 다른 예에서, S2S 변환 시스템(100a)은 그 대신 타겟 화자(104)가 말한 발화의 합성된 표준 유창 스피치 표현에 대응하는 출력 오디오 데이터(106)를 합성된 표준 유창 스피치 표현을 타겟 화자(104)의 목소리로 청자에게 청각적으로 출력하기 위한 출력 오디오 디바이스에 전달할 수 있다 예를 들어, 타겟 화자(104)는 학급 학생들에게 강의를 제공하는 심리학 교수일 수 있으며, 타겟 화자(104)가 말한 발화는 심리학과 같은 특정한 특정 도메인에 속하는 의학 용어를 포함한다. 명백하게 될 바와 같이, 스피치-투-스피치 변환 모델(300a)은 특정 도메인과 연관된 언어적 다양성을 학습할 뿐만 아니라 타겟 화자(104)와 연관된 특정 유형의 비전형 스피치와 연관된 음향적 다양성을 학습하도록 트레이닝된다.
대안적으로, 다른 컴퓨팅 디바이스(116)는 스피치-투-스피치 변환 시스템(100a)이 합성된 표준의 유창한 스피치 표현에 대응하는 출력 오디오 데이터(106)를 인식된 텍스트로의 변환을 위한 ASR 시스템에 대한 입력으로서 제공하기 위해 프런트 엔드로서 기능하는 다운스트림 자동 스피치 인식(ASR) 시스템과 연관될 수 있다. 인식된 텍스트는 다른 사용자(118)에게 제시될 수 있고 및/또는 추가 프로세싱을 위해 자연어 이해(NLU) 시스템에 제공될 수 있다. 스피치-투-스피치 변환 시스템(100a)의 기능은 원격 서버(112), 컴퓨팅 디바이스(110, 116) 중 하나 또는 둘 모두, 또는 원격 서버와 컴퓨팅 디바이스(110, 116)의 임의의 조합에 상주할 수 있다. 일부 구현예에서, S2S 변환 모델(300a)은 타겟 화자(104)가 발화의 대응하는 부분을 비전형 스피치로서 말함에 따라 발화의 합성된 표준의 유창한 스피치 표현에 대응하는 출력 오디오 데이터(106)를 연속적으로 생성한다. 타겟 화자(104)말한 발화(108) 부분의 합성된 표준의 유창한 스피치 표현에 대응하는 출력 오디오 데이터(106)를 연속적으로 생성함으로써, 타겟 화자(104)와 사용자(118)(또는 청자) 사이의 대화가 보다 자연스럽게 진행될 수 있다. 일부 추가 구현예에서, S2S 변환 모델(300a)은 비전형 스피치로 된 발화(108)의 대응하는 입력 오디오 데이터를 동일한 발화(114)의 합성된 표준의 유창한 스피치 표현에 대응하는 대응 출력 오디오 데이터(106)로 변환하기 전에, 음성 활동 감지, 엔드 포인팅, 쿼리 종료 검출 등과 같은 기법을 사용하여, 타겟 화자(104)가 말하기를 멈출 때를 결정/검출하기 위해 대기한다.
이제 도 1b를 참조하면, 일부 구현예에서, 스피치 변환 시스템(100, 100b)은 비전형 스피치와 연관된 타겟 화자(104)가 말한 발화(108)에 대응하는 입력 오디오 데이터(102)를 발화(108)의 표준 텍스트 표현(즉, 전사)(120)으로 변환하도록 구성된 스피치-투-텍스트 변환 시스템(100b)을 포함한다. 도 1a의 S2S 변환 시스템(100a)과 마찬가지로, 스피치-투-텍스트 변환 시스템(100b)은 타겟 화자(104)와 연관된 특정 유형의 비전형 스피치(예를 들어, ALS 스피치)를 인식하도록 구성될 뿐만 아니라, 특정 도메인과 연관된 특정 단어 및/또는 문구도 인식하도록 구성된다. 이러한 특정 단어 및/또는 문구는 일반/기준 스피치-투-텍스트 시스템을 트레이닝하는데 사용되는 일반 트레이닝 코퍼스에 일반적으로 존재하지 않거나 충분히 표현되지 않는 고유 명사 또는 기타 용어를 포함할 수 있다.
따라서, 스피치-투-텍스트 변환 시스템(100b)은 특정 도메인에 대한 언어 정보뿐만 아니라, 타겟 화자의 특정 유형의 비전형 스피치 패턴도 인식할 수 있는 타겟 화자(104)를 위한, 비전형 스피치와 연관된 타겟 화자(104)가 말한 원래 발언(108)의 의도를 캡처하는 대응하는 표준 텍스트 표현(120)으로의 변환을 위한 개인화된 자동 스피치 인식(ASR) 시스템에 대응할 수 있다. 또 다른 사용자(118)(도 1a) 발화(108)의 표준 텍스트 표현(120)을 얻을 수 있다. 일부 구성에서, 시스템(100b)으로부터 출력된 표준 텍스트 전사(120)는 예를 들어 사용자 명령을 실행하기 위해 사용자 디바이스(110) 또는 원격 서버(112) 상에서 실행되는 자연어 이해(NLU) 모듈에 의해 프로세싱된다. 추가적으로 또는 대안적으로, 텍스트-투-스피치 시스템(예를 들어, 사용자 디바이스(110) 또는 원격 서버(112)의 임의의 조합에서 실행)은 상기 전사를 다른 사용자 디바이스에 의한 가청 출력을 위한 합성 스피치로 변환할 수 있다. 스피치-투-텍스트 변환 시스템(100b)의 기능은 원격 서버(112), 컴퓨팅 디바이스(110) 중 하나 또는 둘 모두, 또는 원격 서버(112)와 컴퓨팅 디바이스(110)의 임의의 조합에 상주할 수 있다.
스피치-투-텍스트 변환 시스템(100b)과 연관된 스피치 변환 모델(300)은 입력 오디오 데이터(102)를 발화(108)의 표준 텍스트 표현(즉, 전사)(120)으로 변환함으로써 비전형 스피치의 발화(108)에 대해 스피치 인식을 수행하도록 구성된 스피치-투-텍스트 변환 모델(300b)(상호 교환적으로 자동 스피치 인식(ASR) 모델(300b)로 지칭됨)을 포함할 수 있다. S2S 변환 모델(300a)은 입력 오디오 데이터(102)를 히든 피처 표현(예를 들어, 일련의 벡터들)으로 인코딩하도록 구성된 인코더(350) 및 히든 표현을 표준 전사(120)로 디코딩하도록 구성된 디코더(250)를 포함한다. 예를 들어, 텍스트 인코더(350)가 발화(108)의 입력 오디오 데이터(102)를 수신함에 따라, 인코더(350)는 5개의 오디오 프레임을 프로세싱하고 이들 5개의 오디오 프레임을 10개의 벡터로 변환할 수 있다. 벡터는 오디오 데이터(102) 프레임의 전사가 아니라 오디오 데이터(102) 프레임의 수학적 표현이다. 차례로, 텍스트 디코더(250)는 인코더(350)로부터 수신된 벡터에 기초하여 표준 전사(120)를 생성할 수 있다. 예를 들어, 텍스트 디코더(250)는 입력 오디오 데이터(102)의 5개 프레임에서 의도된 단어 또는 단어의 일부를 포함하는 발화(180)의 표준 전사(120)에 대응하는 단어들의 시퀀스를 생성할 수 있다. 본 발명의 범위를 벗어나지 않으면서, ASR 모델(300b)은 제1 언어의 비전형 스피치와 연관된 발화(108)에 대응하는 입력 오디오 데이터(102)를 상이한 제2 언어의 발화(108a)의 대응하는 표준 전사로 변환하도록 트레이닝될 수 있다.
도 1a 및 도 1b를 참조하면, 스피치 변환 시스템(100)은 스피치 변환 모델(300), 즉 도 1a의 S2S 변환 모델(300a) 및/또는 도 1b의 스피치-투-텍스트 변환 모델(300b)을 트레이닝하도록 구성된 트레이닝 프로세스(200)를 실행한다. 도 2a-2e를 참조하여 아래에 더 상세히 설명될 바와 같이, 필터링 프로세스(200)는 개인화된 시드 데이터 수집 단계(200a)(도 2a), 데이터 생성 단계(200b)(도 2b), 적응 스테이지(200c)(도 2c), 검증 및 필터링 단계(200d)(도 2d), 최종 트레이닝 단계(200e)(도 2e)를 포함한다.
도 2a를 참조하면, 트레이닝 프로세스(200)의 개인화된 시드 데이터 수집 단계(200a)는 비전형 스피치와 연관된 타겟 화자(104)에 대한 음성 트레이닝 발화들(305, 305a-n)의 세트를 획득하는 것을 포함한다. 여기서, 각 음성 트레이닝 발화(305)는 타겟 화자(104)가 말한 것이고, 대응하는 음성 트레이닝 발화(305)의 대응하는 비합성 스피치 표현(304)과 페어링되는 대응하는 전사(302a)를 포함한다. 이와 같이, 비합성 스피치 표현(304)은 타겟 화자(104)의 목소리이고, 타겟 화자(104)와 연관된 비전형 스피치의 유형(예를 들어, ALS 스피치)에 대한 비전형 스피치 패턴을 포함한다. 음성 트레이닝 발화들(305)의 세트의 전사(302a)는 복수의 트레이닝 텍스트 발화들(302)의 제1 부분을 형성할 수 있다. 각각의 전사(302a)는 타겟 화자(104)의 모국어로 된 표준 전사일 수 있다. 일부 예에서, 음성 트레이닝 발화들(305)의 일부 또는 전부는 스피치 변환 모델(300)이 학습하도록 트레이닝되는 특정 도메인에 속하는 단어 및/또는 문구를 포함한다.
일부 구현예에서, 개인화된 시드 데이터 수집 단계(200a)는 타겟 화자(104)가 각각의 음성 트레이닝 발화(305)를 말하도록 프롬프트하고 상기 발화를 기록하여 대응하는 비합성 스피치 표현(304)을 획득한다. 타겟 화자(104)에 대해 획득된 각각의 비합성 스피치 표현(304)은 음성 트레이닝 발화(305)의 대응하는 전사(302a)와 페어링될 수 있다. 이와 같이, 각각의 음성 트레이닝 발화(305)는 타겟 화자(104)가 말한 수동적으로 전사된 음향 데이터(302a, 304)를 포함한다. 도시된 예에서, 개인화된 시드 데이터 수집 단계(200a)는 타겟 화자(104)와 연관된 컴퓨팅 디바이스(110)의 그래픽 사용자 인터페이스 상에 대응하는 전사(302a)를 디스플레이함으로써 사용자가 각각의 음성 트레이닝 발화(305)를 말하도록 프롬프트한다. 이는 각 음성 트레이닝 발화에 대한 별도의 프롬프트를 포함할 수 있거나 타겟 화자가 한 번에 여러 개의 연속적인 음성 트레이닝 발화를 말하도록 프롬프트하는 것을 포함할 수 있다. 추가로 또는 대안적으로, 컴퓨팅 디바이스(110)는 타겟 화자가 각각의 트레이닝 발화를 말하라는 프롬프트(예를 들어, "다음 문구를 말하세요")를 청각적으로 출력할 수 있다. 음성 트레이닝 발화들(305)의 세트는 메모리 하드웨어(도 4) 상의 데이터 저장소(202)에 저장될 수 있다. 일부 예에서, 개인화된 시드 데이터 수집 단계(200a)는 약 오백(500)개의 음성 트레이닝 발화들(305)을 수집한다.
도 2b를 참조하면, 트레이닝 프로세스(200)의 데이터 생성 단계(200b)는 스피치 변환 모델(300)이 학습하도록 트레이닝되는 특정 도메인에 속하는 복수의 비음성 트레이닝 텍스트 발화들(302b)을 획득하는 것을 포함한다. 예를 들어, 타겟 화자(104)는 특정 도메인이 대학 수준의 심리학 과정을 위한 심리학 용어를 포함하는 심리학 교수일 수 있다. 각 비음성 텍스트 발화(302b)는 대응하는 음성 발화와 페어링되지 않는다. 복수의 비음성 트레이닝 텍스트 발화들(302b)은 복수의 트레이닝 텍스트 발화들(302)의 제2 부분을 형성할 수 있다.
일부 구현예에서, 데이터 생성 단계(200b)는 비음성 텍스트(402)의 코퍼스로부터 비음성 트레이닝 텍스트 발화들(302a)을 선택하도록 구성된다. 비음성 텍스트(402)의 코퍼스는 넓은 범위의 도메인에 걸친 다수의 비음성 트레이닝 텍스트 발화들(302)을 포함하고, 스피치 변환 모델(300)이 학습하도록 트레이닝되는 특정 도메인보다 훨씬 더 큰 언어적 다양성을 포함한다. 이전에 언급된 바와 같이, 음성 트레이닝 발화들(305)의 세트는 그들이 특정 도메인에 속하므로 도메인 특정적일 수 있다. 비음성 텍스트(402)의 코퍼스는 음성 트레이닝 발화들(305)과 동일하거나 상이한 데이터 저장소(202)에 저장될 수 있다. 비음성 텍스트(402)의 코퍼스는 새로운 비음성 트레이닝 텍스트 발화들(302b)을 통합하도록 동적으로 변경될 수 있다. 비음성 텍스트 코퍼스(402)에서 모든 비음성 텍스트 발화들(302a)을 단순히 사용하는 것은 다음과 같은 이유로 실현 가능하지 않다: i) 각각의 문장에 대해, 스피치 양식은 텍스트보다 훨씬 더 많은 메모리를 인코딩해야 하므로 코퍼스(402)의 모든 텍스트를 변환하는 것을 실용적이지 않게 하며; ii) TTS 추론 및 스피치 변환 모델 트레이닝에서 스피치와 텍스트 양식 간의 변환에도 많은 계산이 필요하고; 그리고 iii) 음성 트레이닝 발화들(305)의 전사(302a)와 비음성 텍스트 코퍼스(402)의 비음성 트레이닝 텍스트 발화(302b) 사이의 엄청난 양의 차이는 기여도의 균형을 맞추는 지능형 전략을 필요로 한다.
데이터 생성 단계(200b)는 비음성 텍스트 코퍼스(402)로부터 사용 가능한 비음성 트레이닝 텍스트 발화들(302b)의 서브세트를 TTS 합성을 위한 데이터로서 선택하는 것을 목표로 하며, 도 2d 및 도 2e를 참조하여 아래에서 더 상세히 설명된다. 특히, 데이터 생성 단계(200b)는 사용가능한 비음성 텍스트 발화들(302a)의 선택된 서브세트와 대상이 되는 특정 도메인 사이의 일치를 개선하는 것을 목표로 하고, 이는 결국 많은 양의 비-도메인-특정 데이터를 이용하는데 필요한 계산 리소스를 감소시킨다. 따라서, 데이터 생성 단계(200b)는 스피치 변환 모델(300)이 학습하도록 트레이닝되는 특정 도메인과 가장 잘 일치하는 비음성 텍스트 발화들(302a)을 선택함으로써 계산 및 메모리 비용을 감소시킨다.
일부 예에서, 데이터 생성 단계(200b)는 특정 도메인과 연관된 도메인 식별자(도시되지 않음)를 전체 비음성 텍스트 코퍼스(402)에 대해 이전에 트레이닝된 배경 언어 모델(LM)(406)에 대한 입력으로 단순히 제공함으로써 특정 도메인에 가장 잘 일치하는 코퍼스(402)로부터 사용 가능한 비음성 트레이닝 텍스트 발화들(302b)의 서브세트를 선택한다. 이전에 언급한 바와 같이, 비음성 텍스트 코퍼스(402)는 다수의 서로 다른 도메인에 걸쳐 있다. 이러한 예에서, 배경 LM(406)은 2014년 2월 12일에 출원된 미국 특허 번호 9,842,592에 설명된 바와 같이 입력으로서 도메인 식별자를 선택적으로 수용할 수 있는 최대 엔트로피(MaxEnt LM)를 포함할 수 있으며, 그 내용은 전체로서 본 명세서에 통합된다. 여기서, 특정 도메인과 연관된 도메인 식별자는 MaxEnt LM이 특정 도메인에 속하는 단어 및/또는 문구를 포함할 가능성이 있는 코퍼스(402)로부터의 사용 가능한 비음성 트레이닝 텍스트 발화들(302b)의 서브세트를 출력하게 할 수 있다. 일부 구성에서, 단어의 가능성을 평가하는 대신, 통계적 언어 모델이 역 모드로 작동하여 특정 도메인에 속하는 단어의 통계적 분포와 일치하는 텍스트 구문을 무작위로 생성한다.
추가 예에서, 그리고 도 2a에 도시된 바와 같이, 데이터 생성 단계(200b)는 특정 도메인과 가장 잘 일치하는 코퍼스(402)로부터 사용 가능한 비음성의 트레이닝 텍스트 발화들(302b)의 서브세트를 선택하기 위해 타겟 화자(104)로부터 획득된 음성 트레이닝 발화들(305)의 세트에서 전사(302a)를 사용하는 비음성 텍스트 선택 프로세스를 실행한다. 여기서, 타겟 화자(104)가 말한 음성 트레이닝 발화들(305)은 단어, 문구, 및/또는 특정 도메인에 속하는 다른 용어를 포함한다. 선택적으로, 음성 트레이닝 발화들의 세트(305)의 전사(302a)에 추가하여 또는 그 대신에, 특정 도메인에 속하는 상이한 전사된 발화들의 세트가 비음성 트레이닝 텍스트 발화들(302b)을 선택하는데 사용될 수 있다. 이것은 모든 음성 트레이닝 발화들(305)이 특정 도메인에 속할 것을 요구하지 않는 이점을 제공할 것이다.
비음성 텍스트 선택 프로세스(400)의 제1 단계(단계 A) 동안, 데이터 생성 단계(200b)는 비음성 트레이닝 텍스트 발화들(302b)의 대조적인 선택을 가능하게 하기 위해 2개의 언어 모델들(404, 406)을 구축한다. 여기서, 도메인 특정 언어 모델(LM)(404)은 음성 트레이닝 발화들(305)의 세트의 각 전사(302b)에 대해 트레이닝된다. 음성 트레이닝 발화들(305)의 세트는 스피치 변환 모델(300)이 트레이닝되고 있는 특정 도메인에 속하는 것으로 가정된다. 한편, 배경 LM(406)은 전체 비음성 텍스트 코퍼스(402)의 각 비음성 트레이닝 텍스트 발화(302b)에 대해 트레이닝된다. 이전에 언급한 바와 같이, 비음성 텍스트 코퍼스(402)는 다수의 서로 다른 도메인에 걸쳐 있다. 일부 예에서, 제1 단계는 n-gram 언어 모델 트레이닝을 사용하여 두 가지 언어 모델들(404, 406)을 구축한다. 다른 예에서, 제1 단계는 두 개의 언어 모델(404, 406)을 구축하기 위해 신경망 언어 모델 트레이닝을 사용한다.
비음성 텍스트 선택 프로세스(400)의 제2 상태(단계 B) 동안, 데이터 생성 단계(200b)는 2개의 대조적 LM(404, 406)을 사용하여 도메인 특정 LM(404)에 나타나는 비음성 트레이닝 텍스트 발화(302b)의 각 단어와 연관된 제1 확률을 결정하고, 배경 LM(406)에 나타나는 비음성 트레이닝 텍스트 발화(302b)의 각 단어와 연관된 제2 확률을 결정함으로써 비음성 텍스트 코퍼스(402)의 각 비음성 트레이닝 텍스트 발화(302a)를 평가한다. 그 후, 비음성 텍스트 코퍼스(402)의 각 비음성 트레이닝 텍스트 발화(302b)에 대해, 프로세스(200)는 점수화기(408)에서 제1 확률, 제2 확률 및 대응하는 비음성 트레이닝 텍스트 발화(302b)에서 나타나는 단어들의 수에 기초하여 점수 S를 결정한다. 예를 들어, 각 비음성 트레이닝 텍스트 발화(302b)에 대한 점수 S는 다음과 같이 계산될 수 있다.
(1)
점수를 결정한 후, 데이터 생성 프로세스(200b)는 N-최상의 점수 S를 갖는 비음성 트레이닝 텍스트 발화(302b)를 선택하는데, 이러한 비음성 트레이닝 텍스트 발화(302b)가 특정 도메인과 가장 일치하기 때문이다. 텍스트 코퍼스(402)는 수십억 개의 텍스트 발화들(302b)을 포함할 수 있다. 사용 가능한 텍스트 코퍼스(402)에서 선택하는 대신에 또는 이에 더하여, 비음성의 트레이닝 텍스트 발화(302b)는 특정 문구/부적절한 명사(예: 가족 구성원 이름, 연락처 이름, 게임 등)를 타겟팅하기 위해 LM으로부터 생성되지 않은 수동적으로 작성된 텍스트를 포함할 수 있고 및/또는 비음성의 트레이닝 텍스트 발화(302b)는 특정 도메인과 연관된 주제 분류기를 사용하여 관심 있는 특정 주제로부터 파생될 수 있다. 데이터 생성 단계(200b) 동안 생성된 비음성의 트레이닝 텍스트 발화(302b)는 수백만 개의 발화들을 포함할 수 있고, 따라서 화자로부터 수집된 음성 트레이닝 발화들(305)의 수를 훨씬 초과할 수 있다. 명백해질 바와 같이, 비음성의 트레이닝 텍스트 발화들(302b)의 콘텐츠는 스피치 변환 모델(300)이 학습하도록 트레이닝되고 있는 특정 도메인에 대한 언어적 다양성을 증가시키는 반면, 비음성의 트레이닝 텍스트 발화들(302b)로부터 생성된 대응하는 합성 스피치 표현은 스피치 변환 모델(300)이 변환하고 있는 비전형 스피치에 대한 음향 다양성을 증가시킨다.
도 2c를 참조하면, 트레이닝 프로세스(200)의 적응 단계(200c)는 도 2a의 개인화된 시드 데이터 수집 단계(200a) 동안 수집된 음성 트레이닝 발화들(305)의 세트를 사용하는 것을 포함하여, 타겟 화자(104)의 목소리로 그리고 타겟 화자(104)와 연관된 비전형 스피치(예를 들어, ALS 스피치)을 캡처하는 스피치를 합성하기 위해 TTS(text-to-speech) 모델(210) 및 참조 S2S 변환 모델(301) 둘 모두를 적응시킨다. 적응 단계(200c)는 도 2b의 데이터 생성 단계(200b) 이전, 이후 또는 동시에 발생할 수 있다.
TTS 모델(210)은 하나 이상의 사전 정의된 화자의 목소리로 합성된 표준의 유창한 스피치를 생성하기 위해 입력 텍스트에 대해 사전 트레이닝될 수 있다. 이와 같이, TTS 모델(210)을 트레이닝하는데 사용되는 실측 음성 샘플은 전형적인 스피치를 가진 화자로부터 획득될 수 있다.
유사하게, 참조 S2S 변환 모델(301)은 다양한 상이한 화자들이 말한 다수의 발화들에 대응하는 입력 오디오 데이터를 사전 정의된 단일의 화자의 목소리로 동일한 콘텐츠를 캡처하는 대응하는 출력 오디오 데이터로 변환하는 것에 대해 사전 트레이닝된다. 특히, 다양한 상이한 화자들로부터의 발화는 배경 잡음뿐만 아니라 전형적 스피치 패턴, 다양한 상이한 유형의 비전형 스피치 패턴(예를 들어, 상이한 방언에 걸친 강한 악센트, 상이한 신경학적 상태에 걸친 불규칙한 스피치)을 포함할 수 있다. 예를 들어, 참조 S2S 변환 모델(301)은 Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing- Impaired Speech and Speech Separation, https://arxiv.org/pdf/1904.04169.pdf에 기술된 엔드-투-엔드 트레이닝된 스피치-투-스피치 변환 모델을 포함할 수 있고, 참조로서 본 명세서에 통합된다. 참조 S2S 변환 모델(301)은 잠재적으로 배경 잡음을 포함하는 임의의 스피치를 정규화하기 위해 시퀀스-투-시퀀스를 사용할 수 있고, 사전 정의된 단일의 타겟 화자의 목소리로 동일한 콘텐츠를 생성할 수 있다. 소스 스피치는 모든 화자 또는 억양으로부터 나올 수 있으며, 복잡한 운율 패턴, 불완전성, 비전형 스피치 및 배경 소음을 포함할 수 있고, 그 모두는 제1 오디오 데이터가 고정된 억양 및 일관된 조음 및 운율을 갖는 깨끗한 제2 오디오 데이터로 변환됨에 따라 정규화 프로세스를 통해 모두 제거된다. 즉, 이 시스템은 화자의 특성을 포함한 모든 비언어적 정보를 투영하고 말한 내용만 유지하고 누가, 어떻게 또는 어디서 말했는지는 유지하지 않는데 사용될 수 있다.
TTS 모델(210)은 타겟 화자(104)가 아닌 목소리로 합성된 표준의 유창한 스피치를 생성하도록 사전 트레이닝되고, 참조 S2S 변환 모델(301)은 전형적 스피치 및 다양한 비전형 스피치의 유형 둘 모두와 연관된 다양한 상이한 화자들로부터의 발화에 대해 사전 트레이닝되기 때문에, 적응 단계(200c)는 타겟 화자(104)의 목소리 및 타겟 화자(104)와 연관된 특정 유형의 비전형 스피치(예를 들어, ALS 스피치) 모두에 대해 모델(210, 301)을 적응시키는 것을 목표로 한다. 그러나 일부 예에서, 참조 S2S 변환 모델이 타겟 화자(104)와 연관된 비전형 스피치의 특정 유형과 연관된 입력 오디오 데이터를 변환하도록 미리 트레이닝되는 경우, 모델(301)은 타겟 화자(104)와 연관된 비전형 스피치의 동일한 유형을 표준의 유창한 스피치로 변환하도록 이미 트레이닝되어 있으므로 적응 단계(200c)는 참조 S2S 변환 모델(301)을 적응시키는 것을 포기한다.
적응 단계(200c)는 음성 트레이닝 발화들(305)의 세트의 전사(302a)를 타겟 화자(104)의 목소리로 되어 있고 타겟 화자(104)와 연관된 비전형 스피치를 캡처하는 대응하는 합성 스피치(306)로 변환하도록 TTS 모델(210)을 적응시킨다. 일부 구현예에서, TTS 모델(210)은 타겟 화자(104)의 목소리로 합성된 스피치(306)의 시간-도메인 오디오 파형을 생성하기 위해 TTS 모델(210)을 적응시키기 위해 전사(302a)를 프로세싱하도록 협동하는 인코더(312) 및 디코더(314)를 포함하고, 타겟 화자(104)와 연관된 비전형 스피치를 캡처한다. 시간 영역 오디오 파형은 시간에 따른 오디오 신호의 진폭을 정의하는 오디오 파형이다.
인코더(212)는 문자들의 시퀀스로서 전사(304)를 수신하고 디코더(214)가 나중에 생성할 각각의 멜-주파수 스펙트로그램에 대한 고정 길이 컨텍스트 벡터(213)를 생성하도록 구성된 인코더 신경망(212)일 수 있다. TTS 모델(210)이 타겟 화자(104)의 목소리로 비전형 스피치를 캡처하는 합성된 스피치를 생성하도록 적응되고 있기 때문에, 적응 단계(200c)는 인코더(212)의 파라미터들이 고정된 상태로 유지되는 동안 디코더(214)의 튜닝/재트레이닝 파라미터들을 포함할 수 있다. 디코더(214)는 인코더 신경 네트워크(212)에 의해 생성된 고정 길이 컨텍스트 벡터(213)를 입력으로서 수신하고 각각의 고정 길이 컨텍스트 벡터(213)에 대한 출력으로서 멜 주파수 스펙트로그램(315)의 대응하는 프레임을 생성하도록 구성된 신경 네트워크일 수 있다. 멜 주파수 스펙트로그램은 소리의 주파수 영역 표현이다. 멜-주파수 스펙트로그램은 음성 명료도에 중요한 낮은 주파수를 강조하는 반면 마찰음 및 기타 노이즈 버스트에 의해 지배되고 일반적으로 높은 충실도로 모델링할 필요가 없는 높은 주파수는 강조하지 않는다. 합성된 스피치(306)는 디코더(214)로부터의 출력된 멜-주파수 스펙트로그램 출력과 연관된 합성된 스피치 표현을 포함할 수 있거나, 합성된 스피치(306)는 디코더(214)로부터의 멜-주파수 스펙트로그램 출력에 기초하여 보코더(미도시)에 의해 생성된 시간-도메인 오디오 파형일 수 있다. 디코더(214)는 타겟 화자(104)와 연관된 목소리 및 비전형 스피치를 더 잘 일치시키기 위해 디코더에 의해 생성된 멜-주파수 스펙트로그램의 음향 특성을 정제함으로써 타겟 화자(104)에 적응될 수 있는 포스트-네트를 포함할 수 있다.
적응 단계(200c)는 참조 S2S 변환 모델(301)을 적응시켜 음성 트레이닝 발화들(305)의 세트로부터의 비합성 스피치 표현(304)을 타겟 화자(104)의 목소리로 합성된 표준의 유창한 스피치로 변환한다. 이전에 언급된 바와 같이, 비합성 스피치 표현(304)은 타겟 화자(104)가 말한 발화와 연관되고, 따라서 타겟 화자(104)와 연관된 비전형 스피치를 캡처한다. 여기서, 적응 단계(200c)는 입력 비합성 스피치 표현(304)의 의도된 콘텐츠를 전달하는 합성된 표준의 유창한 스피치(316)를 정확하게 디코딩/발산하기 위해 스펙트로그램 디코더(320)에 대한 실측(ground truth)로서 대응하는 전사(302a)를 사용할 수 있다.
도 2d를 참조하면, 도 2b의 데이터 생성 단계(200b) 동안 획득된 복수의 비음성 트레이닝 텍스트 발화들의 각 비음성 트레이닝 텍스트 발화(302b)에 대해, 검증 및 필터링 단계(200d)는 적응된 TTS 모델(210)로부터의 출력으로서 대응하는 비음성의 트레이닝 텍스트 발화(302b)의 합성 스피치 표현(306)을 생성한다. 음성 트레이닝 발화들(305)이 TTS 모델(210)을 적응시키는데 사용되었기 때문에, 각각의 합성 스피치 표현(306)은 타겟 화자의 목소리를 포함하고 타겟 화자(104)와 연관된 비전형 스피치를 캡처한다. 이와 같이, 적응된 TTS 모델(210)로부터 출력된 각각의 합성 스피치 표현(306)은 복수의 비음성 트레이닝 텍스트 발화들(302b) 중 대응하는 것과 페어링된다.
도시된 예에서, 검증 및 필터링 단계(200d)는 적응된 S2S 변환 모델(301)을 더 사용하여 적응된 TTS 모델(210)로부터 출력된 각각의 합성 스피치 표현(306)에 대해, 타겟 화자(104)의 목소리로 합성된 표준의 유창한 스피치(316)의 대응하는 오디오 파형을 생성하고, 그 후 텍스트 디코더(250)를 사용하여 적응된 S2S 변환 모델(301)로부터의 출력으로서 생성된 합성된 표준의 유창한 스피치(316)의 대응하는 오디오 파형에 대한 텍스트 표현(318)을 생성한다. 이전에 언급된 바와 같이, 참조 S2S 스피치 변환 모델(301)이 동일한 유형의 비전형 스피치를 변환하기 위해 이전에 트레이닝된 경우, 참조 S2S 스피치 변환 모델(301)은 합성 스피치 표현(306)으로부터 합성된 표준의 유창한 스피치의 오디오 파형을 생성하기 전에 적응될 필요가 없다(그러나 여전히 가능하다). 일부 예에서, 텍스트 디코더(250)는 S2S 스피치 변환 모델(301)이 텍스트 디코더(250)로부터 텍스트 표현(318)을 방출하는 것과 병행하여 스펙트로그램 디코더(320)로부터 합성된 표준의 유창한 스피치(316)의 대응하는 오디오 파형을 방출하는 적응형 S2S 스피치 변환 모델(301) 상에 상주한다. 다른 예에서, 텍스트 디코더(250)는 스피치 변환 모델과는 별개인 참조 자동 스피치 인식 모델에 상주한다.
그 후, 적응된 TTS 모델(210)로부터의 각각의 합성 스피치 표현(306) 출력에 대해, 검증 및 필터링 스테이지(200d)는 대응하는 합성 스피치 표현(306)과 연관된 단어 오류율 손실(342)을 결정하기 위해 지도 손실 용어 모듈(340)을 적용한다. 구체적으로, 단어 오류율 손실(342)은 합성된 표준의 유창한 스피치(306) 및 대응하는 비음성 트레이닝 텍스트 발화(302b)에 대한 텍스트 디코더(250)로부터 출력된 텍스트 표현(318)에 기초한다. 특히, 비음성의 트레이닝 텍스트 발화(302b)는 결과적인 합성 스피치 표현(306)으로의 변환을 위해 적응된 TTS 모델(210)에 대한 입력으로서, 그리고 디코더(250)로부터 출력되는 대응하는 텍스트 표현(318)을 검증하기 위한 실측(ground-truth)으로서 역할을 한다. 도시된 예에서, 검증 및 필터링 단계(200d)는 대응하는 단어 오류율 손실(342)이 단어 오류율 손실 임계치를 만족하는지 여부를 결정함으로써 적응된 TTS 모델(210)로부터의 각각의 합성 스피치 표현(306) 출력을 검증한다. 대응하는 단어 오류율 손실(342)이 단어 오류율 손실 임계치를 만족할 때, 대응하는 합성 스피치 표현(306)은 스피치 변환 모델(300)을 트레이닝하는데 사용하기 위해 합성 스피치 표현(306A)의 필터링된 세트에 저장된다. 대응하는 단어 오류율 손실(342)이 단어 오류율 손실 임계치를 충족하지 못하는 경우, 대응하는 합성 스피치 표현(306)은 폐기되고 스피치 변환 모델(300)을 트레이닝하는데 사용되지 않는다.
도시된 예에서, 지도(supervised) 손실 용어 모듈(340)은 대응하는 텍스트 표현(318)과 실측 역할을 하는 대응하는 비음성의 트레이닝 텍스트 발화(302b) 사이의 잘못 인식된 단어의 수에 기초하여 단어 오류율 손실(342)을 결정한다. 예를 들어, 60%의 단어 오류율 손실은 대응하는 텍스트 표현(318)의 단어 중 40%가 대응하는 합성된 표준의 유창한 스피치(316)으로부터 텍스트 디코더(250)에 의해 잘못 인식되었음을 나타낸다. 단어 오류율 손실 임계치는 임의의 값으로 설정될 수 있으며 필요에 따라 조정될 수 있다. 일 예에서, 단어 오류율 손실 임계치는 70%이며, 이는 대응하는 합성 스피치 표현(306)이 단어 오류율 손실 임계치를 만족시키기 위해 대응하는 텍스트 표현(318)에 있는 단어의 적어도 70%가 정확하게 인식되어야 함을 나타내며, 따라서 합성 스피치 표현의 필터링된 세트(306A)에서 허용된다. 단어 오류율 손실(342) 및 단어 오류율 손실 임계치에 대한 값 세트는 스피치 변환 모델(300)을 트레이닝하기에 적합한 합성 스피치 표현(306)(즉, 합성 스피치 표현(306A)의 필터링된 세트)만을 식별하기 위한 프록시 역할을 하며, 트레이닝에 적합하지 않은 임의의 합성 스피치 표현(306)을 폐기한다. 폐기된 합성 스피치 표현(306)은 적응된 S2S 변환 모델(301)이 단어 오류율 손실 임계치를 만족하지 못하는 단어 오류율 손실(342)를 갖는 대응하는 텍스트 표현(318)을 생성하는 텍스트 디코더(250)로 인해 이해할 수 있는 합성된 표준의 유창한 스피치(316)로 정확하게 변환할 수 없는 입력 오디오 파형(또는 스펙트로그램)을 나타낸다. 간단히 말해서, 폐기된 합성 스피치 표현(306)은 콘텐츠 및 스타일의 품질 측면에서 이해할 수 없거나 이상적이지 않음을 나타내는 적응된 TTS 모델(210)에 의해 생성된 합성 스피치 표현(306)의 전체 수의 작은 비율과 연관된다.
적응된 S2S 변환 모델(301)을 사용하여 각각의 비전형 합성 스피치 표현(306)으로부터 합성된 표준의 유창한 스피치(316)를 생성하고, 텍스트 인코더(250)에 의해 합성된 표준의 유창한 스피치(316)에 스피치 인식을 적용하여 텍스트 표현(318)을 생성하는 단계가 스피치 변환 모델(300)을 트레이닝하기 위해 합성 스피치 표현(306)을 검증하는데 도움이 되지만, 이들 단계는 선택적일 수 있다. 예를 들어, 적응된 TTS 모델(210)은 각각의 페어링되지 않은 비음성 트레이닝 텍스트 발화(302b)에 대한 대응하는 합성 스피치 표현(306)을 생성하는데 사용될 수 있고, 모든 합성 스피치 표현(306)은 합성 스피치 표현의 필터링된 세트(306A)를 식별하기 위해 적응된 S2S 변환 모델(301), 텍스트 디코더(250) 및 지도 손실 항 모듈(340)에 적용되지 않고 스피치 변환 모델(300)을 트레이닝하는데 사용될 수 있다.
이제 도 2e를 참조하면, 최종 트레이닝 단계(200e)는 또한 상기 복수의 비음성 트레이닝 텍스트 발화들(302b) 중 각 비음성 트레이닝 텍스트 발화(302b)에 대한 상기 적응된 TTS 모델(210)에 의해 생성된 합성 스피치 표현(306)에 기초하여 상기 스피치 변환 모델(300)을 트레이닝하는 것을 포함한다. 보다 구체적으로, 트레이닝 프로세스(200)의 최종 트레이닝 단계(200e)는 합성 스피치 표현(306A)의 필터링된 세트에 대해 스피치 변환 모델(300)을 트레이닝하고, 도 2d의 검증 및 필터링 단계(200d)에서 전술한 바와 같이 단어 오류율 손실 임계치를 만족하지 않는 단어 오류율 손실(342)을 갖는 폐기된 합성 스피치 표현(306)에 대해 스피치 변환 모델(300)을 트레이닝하지 않는다.
일부 구현예에서, 스피치 변환 모델(300)을 트레이닝하는 것은 타겟 화자(104)에 대해 개인화된 S2S 스피치 변환 모델(300a)을 트레이닝하여 화자의 비전형 스피치와 연관된 입력 오디오 파형을 타겟 화자의 목소리로 된 표준의 유창한 스피치의 대응하는 출력 파형으로 직접 변환하는 것을 포함한다. 합성 스피치 표현의 필터링된 세트(306A)의 합성 스피치 표현(306A)의 수는 타겟 화자(104)의 목소리 및 타겟 화자(104)와 연관된 비전형 스피치의 유형 모두를 학습하기 위해 S2S 스피치 변환 모델(300a)을 트레이닝하기에 충분한 음향 다양성을 제공한다. 또한, S2S 변환 모델(300a)을 트레이닝하는데 사용되는 각각의 합성 스피치 표현(306)이 특정 도메인에 속하기 때문에, 합성 스피치 표현의 필터링된 세트(306A)의 합성 스피치 표현(306A)의 수는 또한 타겟 화자(104)가 말한 비전형 스피치 발화(108)에 존재하는 것과 같은 특정 도메인과 연관된 특정 단어, 이름, 문구 또는 기타 용어를 학습하기 위해 S2S 스피치 변환 모델(300a)을 트레이닝하기에 충분한 언어적 다양성을 제공한다.
일부 예에서, S2S 변환 모델(300a)을 트레이닝하는 것은 참조 S2S 변환 모델(301)을 비음성의 트레이닝 텍스트 발화(302b) 중 대응하는 것과 각각 페어링된 합성 스피치 표현(306A)의 필터링된 세트에 대해 적응시키는 것을 포함한다(도 2c). 이전에 언급된 바와 같이, 참조 S2S 변환 모델(301)은 미리 정의된 화자의 목소리로 표준적인 유창한 스피치를 생성하기 위해 서로 다른 말하기 스타일 및 서로 다른 목소리를 가진 다양한 서로 다른 화자가 말한 발화를 사용하여 이전에 트레이닝되었다. 이와 같이, 합성 스피치 표현의 필터링된 세트(306A)에 대한 참조 S2S 변환 모델(301)을 적응하는 것은 특정 유형의 비전형 스피치와 연관된 타겟 화자(104)가 말한 발화에 대응하는 임의의 입력 오디오 파형(예: 도 1a의 입력 오디오 데이터(102))을 타겟 화자가 말한 동일한 발화의 합성된 표준의 유창한 스피치 표현(316)에 대응하는 출력 오디오 파형(예: 도 1a의 출력 오디오 데이터(106))으로 변환하기 위해 타겟 화자(104)에 대해 개인화된 트레이닝된 S2S 변환 모델(300a)을 제공한다. 이들 예에서, 트레이닝된 S2S 스피치 변환 모델(300a)은 도 2a의 개인화된 시드 데이터 수집 단계(200a) 동안 타겟 화자(104)로부터 수집된 음성 트레이닝 발화들(305)의 세트로부터의 비합성 스피치 표현(304)에 대해 추가로 적응/튜닝될 수 있다.
다른 예에서, S2S 변환 모델(300a)을 트레이닝하는 것은 처음부터 S2S 변환 모델(300a)을 트레이닝하는 것을 포함한다. 처음부터 S2S 변환 모델(300a)을 트레이닝하는 것은 각각 비음성의 트레이닝 텍스트 발화들(302b) 중 대응하는 것과 페어링된 합성 스피치 표현의 필터링된 세트(306A) 및 각각 대응하는 전사(302a)와 페어링된 음성 트레이닝 텍스트 발화들(305)의 세트의 비합성 스피치 표현(304)의 혼합에 대한 트레이닝을 포함할 수 있다. 여기서, 모델(300)은 모델(300a)이 대응하는 합성된 표준의 유창한 표현(316)을 병렬로 출력하도록 비합성 및 합성 스피치 표현(304, 306)의 대응하는 배치들에 대해 병렬로 트레이닝될 수 있다.
S2S 변환 모델(300a)을 트레이닝할 때, 참조 S2S 변환 모델(301)을 적응시킴으로써 또는 처음부터, 트레이닝 프로세스(200)의 최종 트레이닝 단계(200e)는 역전파를 통한 모델(300a)을 트레이닝하기 위해 확률적 경사 하강과 같은 확률적 최적화 알고리즘을 사용할 수 있다. 예를 들어, 자동화된 스피치 인식기(예를 들어, 도 2d의 텍스트 디코더(250))는 S2S 변환 모델(300a)로부터 출력되는 각각의 대응하는 합성된 표준의 유창한 스피치 표현(316)에 대한 텍스트 표현(318)을 생성할 수 있으며, 이는 단어 오류율 손실(342)(도 2d)을 얻기 위해 실측으로서 작용하는 대응하는 트레이닝 텍스트 발화(302a, 302b)와 비교될 수 있다. 자동 스피치 인식기는 개별적으로 트레이닝된 자동 스피치 인식기일 수 있지만, 자동 스피치 인식기는 S2S 변환 모델(300a)의 텍스트 디코더를 포함할 수 있으며, 이는 스펙트로그램 디코더(320)에 의해 방출되는 대응하는 합성된 표준의 유창한 스피치 표현(316)과 병렬로 텍스트 표현(318)을 방출한다. 결과적인 텍스트 표현(318)이 생성되는 위치에 상관없이, 확률적 최적화 알고리즘은 실제 출력(예를 들어, 텍스트 표현(318))과 타겟 출력(전사 및 비음성의 트레이닝 텍스트 발화(302a, 302b)) 사이의 차이에 기초하여 각각의 손실 함수(예를 들어, 교차 엔트로피 손실 함수)를 정의하기 위해 단어 오류율 손실(342)을 사용할 수 있다. 예를 들어, 손실 함수는 트레이닝 예시들의 각 배치에 대해 계산되고, 모델(200)의 각 가중치에 대해 미분된다.
일부 추가적 구현예에서, 스피치 변환 모델(300)을 트레이닝하는 것은 부가적으로 또는 대안적으로 화자의 비전형 스피치와 연관된 입력 오디오 파형을 타겟 화자(104)가 말한 발화의 표준 전사(120)를 포함하는 대응하는 텍스트로 변환하기 위해 타겟 화자(104)에 대해 개인화된 스피치-투-텍스트 변환 모델(300b)('ASR 모델'로 상호교환적으로 지칭됨)을 트레이닝하는 것을 포함한다. 합성 스피치 표현의 필터링된 세트(306A)의 합성 스피치 표현(306A)의 수는 ASR 모델(300b)이 타겟 화자(104)와 연관된 비전형 스피치 유형으로 말해지는 발화(108) 인식을 학습하기 위한 충분한 음향 다양성을 제공한다. 또한, ASR 모델(300b)을 트레이닝하는데 사용되는 각각의 합성 스피치 표현(306)이 특정 도메인에 속하기 때문에, 합성 스피치 표현의 필터링된 세트(306A)의 합성 스피치 표현(306A)의 수는 또한 타겟 화자(104)가 말한 비전형 스피치 발화(108)에 존재하는 것과 같은 특정 도메인과 연관된 특정 단어, 이름, 문구 또는 기타 용어 인식을 학습하기 위해 ASR 모델(300b)을 트레이닝하기에 충분한 언어적 다양성을 제공한다.
S2S 스피치 변환 모델(300a)에서와 같이, ASR 모델(300b)을 트레이닝하는 것은 상이한 말하기 스타일을 가진 다양한 상이한 화자들이 말한 트레이닝 발화들의 일반 코퍼스에 대해 이전에 트레이닝된 참조 ASR 모델(300b)을 적응하는 것을 포함할 수 있다. 여기서, 참조 ASR 모델(300b)은 비음성의 트레이닝 텍스트 발화(302b) 중 대응하는 발화와 각각 페어링된 합성 스피치 표현의 필터링된 세트(306A)에 대해 적응된 다음, 도 2a의 개인화된 시드 데이터 수집 단계(200a) 동안 타겟 화자(104)로부터 수집된 음성 트레이닝 발화들(305)의 세트로부터의 비합성 스피치 표현(304)에 대해 추가로 적응/튜닝된다. 다른 한편으로, ASR 모델(300b)은 각각 비음성의 트레이닝 텍스트 발화들(302b) 중 대응하는 것과 페어링된 합성 스피치 표현의 필터링된 세트(306A) 및 각각 대응하는 전사(302a)와 페어링된 음성 트레이닝 텍스트 발화들(305)의 세트의 비합성 스피치 표현(304)의 혼합을 사용하여 처음부터 트레이닝될 수 있다.
다른 예에서, S2S 변환 모델(300a)을 트레이닝하는 것은 처음부터 S2S 변환 모델(300a)을 트레이닝하는 것을 포함한다. 처음부터 S2S 변환 모델(300a)을 트레이닝하는 것은 각각 비음성의 트레이닝 텍스트 발화들(302b) 중 대응하는 것과 페어링된 합성 스피치 표현의 필터링된 세트(306A) 및 각각 대응하는 전사(302a)와 페어링된 음성 트레이닝 텍스트 발화들(305)의 세트의 비합성 스피치 표현(304)의 혼합에 대한 트레이닝을 포함할 수 있다. 여기서, 모델(300)은 모델(300a)이 대응하는 합성된 표준의 유창한 표현(316)을 병렬로 출력하도록 비합성 및 합성 스피치 표현(304, 306)의 대응하는 배치들에 대해 병렬로 트레이닝될 수 있다.
트레이닝 프로세스(200)의 최종 트레이닝 단계(200e)는 역전파를 통해 ASR 모델(300b)을 트레이닝하기 위해 확률적 경사 하강과 같은 확률적 최적화 알고리즘을 사용할 수 있다. ASR 모델(300b)을 트레이닝하기 위해 확률적 최적화 알고리즘을 사용하는 것에 대한 세부사항은 S2S 변환 모델(300a)을 트레이닝하는 것과 관련하여 위에서 논의되었다.
도 3는 비전형 스피치와 연관된 타겟 화자에 대해 개인화된 스피치 변환 모델을 트레이닝하는 방법(380)의 예시적 동작 구성의 흐름도이다. 흐름도는 도 1a, 1b 및 도 2a-2e의 트레이닝 프로세스(200)를 참조하여 설명될 수 있다. 데이터 프로세싱 하드웨어(410)(도 4)는 데이터 프로세싱 하드웨어(410)와 통신하는 메모리 하드웨어(420)(도 4)에 저장된 명령어들을 실행함으로써 방법(380)에 대한 동작들을 수행할 수 있다. 데이터 프로세싱 하드웨어(410) 및 메모리 하드웨어(420)는 도 1a 및 1b의 원격 서버(112) 및/또는 사용자 컴퓨팅 디바이스(110)와 같은 컴퓨팅 디바이스(400)(도 4)에 상주할 수 있다. 동작(382)에서, 방법(380)은 복수의 트레이닝 텍스트 발화들(302a, 302b)을 획득한다. 여기서, 상기 복수의 트레이닝 텍스트 발화의 제1 부분은 음성 트레이닝 발화들(305, 305a-n)의 세트의 복수의 전사들(302a)을 포함한다. 각각의 음성 트레이닝 발화(305)는 비전형 스피치와 연관된 타겟 화자(104)가 말한 것이고, 대응하는 음성 트레이닝 발화(305)의 대응하는 비합성 스피치 표현(304)과 페어링된 대응하는 전사(302a)를 포함한다. 음성 트레이닝 발화들(305)의 세트는 도 2a의 개인화된 시드 데이터 수집 단계(200a) 동안 획득될 수 있다. 복수의 트레이닝 텍스트 발화들의 제2 부분은 스피치 변환 모델(300)이 학습하도록 트레이닝되는 특정 도메인에 관한 복수의 비음성의 트레이닝 텍스트 발화들(302b)을 포함한다. 각 비음성 텍스트 발화(302b)는 대응하는 음성 발화와 페어링되지 않는다. 복수의 비음성 트레이닝 텍스트 발화들(302b)은 도 2b의 데이터 생성 단계(200b) 동안 획득될 수 있다.
동작(384)에서, 방법(380)은 상기 음성 트레이닝 발화들(305)의 세트를 사용하여, 타겟 화자의 목소리로 스피치를 합성하기 위한 그리고 타겟 화자와 연관된 비전형 스피치를 캡처하는 텍스트-투-스피치(TTS) 모델(210)을 적응시키는 것을 포함한다. TTS 모델(210)의 적응에 대한 자세한 내용은 도 2c의 적응 단계(200c)를 참조하여 설명된다.
동작(386)에서, 복수의 비음성 트레이닝 텍스트 발화들 중 각각의 비음성 트레이닝 텍스트 발화(302b)에 대해, 방법(380)은 상기 적응된 TTS 모델(210)로부터의 출력으로서, 상기 대응하는 비음성 트레이닝 텍스트 발화(302b)의 합성 스피치 표현(306)을 생성하는 것을 포함한다. 여기서, 적응된 TTS 모델(210)로부터 출력된 각각의 합성 스피치 표현(306)은 타겟 화자(104)의 목소리이고, 타겟 화자(104)와 관련된 비전형 스피치를 캡처한다. 동작(388)에서, 방법(380)은 또한 상기 복수의 비음성 트레이닝 텍스트 발화들 중 각 비음성 트레이닝 텍스트 발화(302b)에 대한 상기 적응된 TTS 모델(210)에 의해 생성된 상기 합성 스피치 표현(306)에 기초하여 상기 스피치 변환 모델(300)을 트레이닝하는 것을 포함한다. 스피치 변환 모델(300)을 트레이닝하는 것은 S2S 변환 모델(300a) 또는 스피치-투-텍스트(예를 들어, ASR) 모델(300b) 중 적어도 하나를 트레이닝하는 것을 포함한다.
소프트웨어 애플리케이션(즉, 소프트웨어 리소스)은 컴퓨팅 디바이스가 작업을 수행하게 하는 컴퓨터 소프트웨어를 지칭할 수 있다. 일부 예에서, 소프트웨어 애플리케이션은 "애플리케이션", "앱" 또는 "프로그램"으로 지칭될 수 있다. 예시적 애플리케이션은 시스템 진단 애플리케이션, 시스템 관리 애플리케이션, 시스템 유지보수 애플리케이션, 워드 프로세싱 애플리케이션, 스프레드시트 애플리케이션, 메시징 애플리케이션, 미디어 스트리밍 애플리케이션, 소셜 네트워킹 애플리케이션 및 게임 애플리케이션을 포함하지만 이에 한정되지는 않는다.
비일시적 메모리는 컴퓨팅 디바이스에 의해 사용하기 위해 일시적 또는 영구적으로 프로그램(예를 들어, 명령어 시퀀스) 또는 데이터(예를 들어, 프로그램 상태 정보)를 저장하는데 사용되는 물리적 디바이스일 수 있다. 비일시적 메모리는 휘발성 및/또는 비휘발성 주소 지정가능 반도체 메모리일 수 있다. 비휘발성 메모리의 예는 플래시 메모리 및 읽기 전용 메모리(ROM)/프로그래밍 가능한 읽기 전용 메모리(PROM)/지울 수 있는 프로그램 가능한 읽기 전용 메모리(EPROM)/전자적으로 지울 수 있는 프로그래밍 가능한 읽기 전용 메모리(EEPROM)(예: 일반적으로 부팅 프로그램과 같은 펌웨어에 사용됨)를 포함하지만, 이에 한정되지 않는다. 휘발성 메모리의 예는 RAM(Random Access Memory), DRAM(Dynamic Random Access Memory), SRAM(Static Random Access Memory), PCM(Phase Change Memory), 디스크 또는 테이프 등을 포함하지만, 이에 한정되지 않는다.
도 4는 본 문서에 기술된 시스템 및 방법을 구현하는데 사용될 수 있는 예시적 컴퓨팅 디바이스(400)의 개략도이다. 컴퓨팅 디바이스(400)는 랩톱, 데스크톱, 워크 스테이션, 개인 휴대 정보 단말기, 서버, 블레이드 서버, 메인 프레임 및 다른 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터들을 나타내기 위한 것이다. 여기에 도시된 컴포넌트들, 그들의 연결 및 관계, 및 그들의 기능은 단지 예시적인 것을 의미하며, 본 명세서에 기술된 및/또는 청구된 발명의 구현을 제한하는 것을 의미하지는 않는다.
컴퓨팅 디바이스(400)는 프로세서(410), 메모리(420), 저장 디바이스(430), 메모리(420) 및 고속 확장 포트(450)에 연결되는 고속 인터페이스/제어기(440) 및 저속 버스(470) 및 저장 디바이스(430)에 연결되는 저속 인터페이스/제어기(460)를 포함한다. 컴포넌트들(410, 420, 430, 440, 450 및 460) 각각은 다양한 버스들을 사용하여 상호 연결되고, 공통 마더 보드 상에 또는 적절한 다른 방식으로 장착될 수 있다. 프로세서(410)는 메모리(420) 또는 저장 디바이스(430)에 저장된 명령어들을 포함하는, 컴퓨팅 디바이스(400) 내에서 실행하기 위한 명령어들을 프로세싱하여, 고속 인터페이스(440)에 연결된 디스플레이(480)와 같은 외부 입/출력 디바이스상에 그래픽 사용자 인터페이스(GUI)에 대한 그래픽 정보를 디스플레이할 수 있다. 다른 구현예에서, 다수의 프로세서들 및/또는 다수의 버스들이 다수의 메모리들 및 다수의 유형의 메모리와 함께, 적절하게 사용될 수 있다. 또한, 다수의 컴퓨팅 디바이스들(400)은 필요한 동작의 부분들을 제공하는 각 디바이스와 연결될 수 있다(예를 들어, 서버 뱅크, 블레이드 서버 그룹 또는 멀티 프로세서 시스템).
메모리(420)는 컴퓨팅 디바이스(400) 내에 비일시적으로 정보를 저장한다. 메모리(420)는 컴퓨터 판독가능 매체, 휘발성 메모리 유닛(들), 비휘발성 메모리 유닛(들)일 수 있다. 비일시적 메모리(420)는 컴퓨팅 디바이스(400)에 의해 사용하기 위해 일시적 또는 영구적으로 프로그램(예를 들어, 명령어 시퀀스) 또는 데이터(예를 들어, 프로그램 상태 정보)를 저장하는데 사용되는 물리적 디바이스일 수 있다. 비휘발성 메모리의 예는 플래시 메모리 및 읽기 전용 메모리(ROM)/프로그래밍 가능한 읽기 전용 메모리(PROM)/지울 수 있는 프로그램 가능한 읽기 전용 메모리(EPROM)/전자적으로 지울 수 있는 프로그래밍 가능한 읽기 전용 메모리(EEPROM)(예: 일반적으로 부팅 프로그램과 같은 펌웨어에 사용됨)를 포함하지만, 이에 한정되지 않는다. 휘발성 메모리의 예는 RAM(Random Access Memory), DRAM(Dynamic Random Access Memory), SRAM(Static Random Access Memory), PCM(Phase Change Memory), 디스크 또는 테이프 등을 포함하지만, 이에 한정되지 않는다.
저장 디바이스(430)는 컴퓨팅 디바이스(400)에 대한 대형 스토리지를 제공할 수 있다. 일부 구현예에서, 저장 디바이스(430)는 컴퓨터 판독가능 매체이다. 다양한 상이한 구현예에서, 저장 디바이스(430)는 플로피 디스크 디바이스, 하드 디스크 디바이스, 광 디스크 디바이스 또는 테이프 디바이스, 플래시 메모리 또는 다른 유사한 고체 상태 메모리 디바이스, 또는 저장 영역 네트워크 또는 다른 구성의 디바이스를 포함하는 디바이스의 어레이일 수 있다. 일 구현예에서, 컴퓨터 프로그램 제품은 정보 캐리어에 유형적으로 수록된다. 컴퓨터 프로그램 제품은 또한 실행될 때 상기 기술된 바와 같은 하나 이상의 방법을 수행하는 명령어들을 포함한다. 정보 캐리어는 메모리(420), 저장 디바이스(430) 또는 프로세서(410)상의 메모리와 같은 컴퓨터 또는 기계 판독가능 매체이다.
고속 제어기(440)는 컴퓨팅 디바이스(400)에 대한 대역폭 집중 동작들을 관리하는 반면, 저속 제어기(460)는 낮은 대역폭 집중 동작들을 관리한다. 이러한 기능들의 할당은 단지 예시적인 것이다. 일부 구현예에서, 고속 제어기(440)는 메모리(420), 디스플레이(480)(예를 들어, 그래픽 프로세서 또는 가속기를 통해) 및 다양한 확장 카드(도시되지 않음)를 수용할 수 있는 고속 확장 포트(450)에 연결된다. 일부 구현예에서, 저속 제어기(460)는 저장 디바이스(430) 및 저속 확장 포트(490)에 연결된다. 다양한 통신 포트(예를 들어, USB, 블루투스, 이더넷, 무선 이더넷)를 포함할 수 있는 저속 확장 포트(490)는 키보드, 포인팅 디바이스, 스캐너와 같은 하나 이상의 입력/출력 디바이스 또는 예를 들어 네트워크 어댑터를 통해 스위치 또는 라우터와 같은 네트워킹 디바이스에 결합될 수 있다.
컴퓨팅 디바이스(400)는 도면에 도시된 바와 같이 다수의 상이한 형태로 구현될 수 있다. 예를 들어, 표준 서버(400a)로서 또는 그러한 서버(400a)의 그룹에서 여러 번, 랩톱 컴퓨터(400b)로서 또는 랙 서버 시스템(400c)의 일부로서 구현될 수 있다.
본 명세서에 기술된 시스템들 및 기법들의 다양한 구현예들은 디지털 전자 및/또는 광학 회로, 집적 회로, 특수하게 설계된 ASIC들(application specific integrated circuits), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합으로 구현될 수 있다. 이들 다양한 구현예들은 적어도 하나의 프로그래머블 프로세서를 포함하는 프로그래머블 시스템 상에서 실행가능하고 및/또는 인터프리트가능한 하나 이상의 컴퓨터 프로그램들에서의 구현예를 포함할 수 있고, 이는 전용 또는 범용일 수 있고, 저장 시스템, 적어도 하나의 입력 디바이스 및 적어도 하나의 출력 디바이스로부터 데이터 및 명령어들을 수신하고 그에 데이터 및 명령어들을 전송하기 위해 연결될 수 있다.
이들 컴퓨터 프로그램들(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드로도 알려짐)은 프로그래머블 프로세서에 대한 기계 명령어들을 포함하며, 하이레벨 절차어 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계어에서 구현될 수 있다. 본 명세서에서 사용된 바와 같이, 용어 "기계 판독가능 매체", "컴퓨터 판독가능 매체"는 기계 판독가능 신호로서 기계 명령어들을 수신하는 기계 판독가능 매체를 포함하여, 기계 명령어들 및/또는 데이터를 프로그래머블 프로세서에 제공하는데 사용되는 임의의 컴퓨터 프로그램 물, 장치 및/또는 디바이스 예를 들어, 자기 디스크, 광학 디스크, 메모리, 비일시적 컴퓨터 판독가능 매체, 프로그래머블 로직 디바이스(PLD)를 지칭한다. 용어 "기계 판독가능 신호"는 기계 명령어들 및/또는 데이터를 프로그래머블 프로세서에 제공하는데 사용되는 임의의 신호를 지칭한다.
본 명세서에 기술된 프로세스들 및 논리 흐름들은 입력 데이터를 동작하고 출력을 생성함으로써 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램들을 실행하는 데이터 프로세싱 하드웨어로도 지칭되는 하나 이상의 프로그래머블 프로세서들에 의해 수행될 수 있다. 프로세스들 및 논리 흐름들은 또한 FPGA 또는 ASIC와 같은 특수 목적 논리 회로에 의해 수행될 수 있다. 컴퓨터 프로그램의 실행에 적절한 프로세서들은, 예시로서, 범용 및 전용 마이크로프로세서들과 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 읽기-전용 메모리 또는 랜덤 액세스 메모리 또는 둘 모두로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 필수 엘리먼트들은 명령어들을 수행하기 위한 프로세서 및 명령어들 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스들이다. 일반적으로, 컴퓨터는 데이터를 저장하기 위한 하나 이상의 대형 저장 디바이스들 예를 들면, 자기적, 자기-광학 디스크들 또는 광학적 디스크들 또한 포함하거나 또는 그로부터 데이터를 수신하거나 그에 데이터를 전송하기 위해 동작적으로 결합될 수 있다. 그러나, 컴퓨터는 상기 디바이스들을 반드시 가져야 하는 것은 아니다. 컴퓨터 프로그램 명령어들 및 데이터를 저장하기에 적합한 컴퓨터 판독가능 매체는 예를 들어, EPROM, EEPROM 및 플래시 메모리 디바이스들과 같은 반도체 메모리 디바이스들; 예를 들어, 내부 하드 디스크들 또는 이동식 디스크들과 같은 자기 디스크들; 및 CD-ROM 및 DVD-ROM 디스크들을 포함하는 모든 형태의 비휘발성 메모리, 매체 및 메모리 디바이스들을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로에 의해 보충되거나 그 안에 통합될 수 있다.
사용자와의 인터렉션을 제공하기 위해, 본 개시의 하나 이상의 양태는 사용자에게 정보를 디스플레이하기 위해 예를 들어, CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터 또는 터치 스크린과 같은 디스플레이 디바이스 및 선택적으로 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 디바이스 예를 들어, 마우스 또는 트랙볼을 갖는 컴퓨터에서 구현될 수 있다. 다른 종류의 디바이스들도 사용자와의 인터렉션을 제공하는데 사용될 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 시각 피드백, 청각 피드백 또는 촉각 피드백과 같은 임의의 형태의 감각적 피드백일 수 있고, 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하는 임의의 형태로 수신될 수 있다. 추가로, 컴퓨터는 사용자에 의해 사용되는 디바이스에 문서를 송수신함으로써 예를 들어, 웹브라우저로부터 수신된 요청에 응답하여, 사용자의 사용자 디바이스상의 웹브라우저에 웹페이지를 전송함으로써 사용자와 인터렉션할 수 있다.
다수의 구현예들이 기술되었다. 그럼에도 불구하고, 다양한 수정들이 본 발명의 정신과 범위로부터 벗어나지 않고 이루어질 수 있다는 것이 이해될 것이다. 따라서, 다른 구현예들도 다음의 청구항들의 범위 내에 있다.

Claims (24)

  1. 스피치 변환 모델(300)을 트레이닝하기 위한 방법(380)으로서, 상기 방법(380)은:
    데이터 프로세싱 하드웨어(410)에 의해, 복수의 트레이닝 텍스트 발화들(302)을 획득하는 단계,
    상기 복수의 트레이닝 텍스트 발화들(302)의 제1 부분은 음성 트레이닝 발화들(305)의 세트에 복수의 전사들을 포함하며, 타겟 화자(104)가 말한 각 음성 트레이닝 발화(spoken training utterance)(305)는 비전형 스피치와 연관되며, 대응하는 음성 트레이닝 발화(305)의 대응하는 비합성 스피치 표현(304)과 페어링된 대응하는 전사를 포함하며; 그리고
    상기 복수의 트레이닝 텍스트 발화들(302)의 제2 부분은 스피치 변환 모델(300)이 학습하도록 트레이닝되는 특정 도메인에 속하는 복수의 비음성 트레이닝 텍스트 발화들(unspoken training text utterances)(302)을 포함하고, 각 비음성 트레이닝 텍스트 발화(302)는 어떠한 대응하는 음성 발화와도 페어링되지 않으며;
    상기 데이터 프로세싱 하드웨어(410)에 의해, 음성 트레이닝 발화들(305)의 세트를 사용하여, 타겟 화자(104)의 목소리로 그리고 타겟 화자(104)와 연관된 비전형 스피치를 캡처하는 스피치를 합성하기 위한 텍스트-투-스피치(TTS) 모델(210)을 적응시키는 단계;
    상기 복수의 비음성 트레이닝 텍스트 발화들(302)의 각 비음성 트레이닝 텍스트 발화(302)에 대해, 상기 데이터 프로세싱 하드웨어(410)에 의해, 적응된 TTS 모델(210)로부터의 출력으로서, 대응하는 비음성 트레이닝 텍스트 발화(302)의 합성 스피치 표현(306)을 생성하는 단계, 상기 합성 스피치 표현(306)은 상기 타겟 화자(104)의 목소리를 포함하고, 상기 타겟 화자(104)와 연관된 비전형 스피치를 캡처하며; 및
    상기 데이터 프로세싱 하드웨어(410)에 의해, 상기 복수의 비음성 트레이닝 텍스트 발화들(302) 중 각 비음성 트레이닝 텍스트 발화(302)에 대한 상기 적응된 TTS 모델(210)에 의해 생성된 상기 합성 스피치 표현(306)에 기초하여 상기 스피치 변환 모델(300)을 트레이닝하는 단계를 포함하는, 방법.
  2. 청구항 1에 있어서,
    상기 적응된 TTS 모델(210)에 의해 생성된 각각의 합성 스피치 표현(306)에 대해:
    상기 데이터 프로세싱 하드웨어(410)에 의해, 상기 스피치 변환 모델(300)로부터의 출력으로서, 상기 타겟 화자(104)의 목소리로 합성된 표준의 유창한 스피치의 대응 오디오 파형을 생성하는 단계;
    상기 데이터 프로세싱 하드웨어(410)에 의해, 텍스트 디코더(250)로부터의 출력으로서, 스피치 변환 모델(300)로부터의 출력으로서 생성된 합성된 표준의 유창한 스피치의 대응 오디오 파형에 대한 텍스트 표현(318)을 생성하는 단계; 및
    상기 데이터 프로세싱 하드웨어(410)에 의해, 상기 합성된 표준의 유창한 스피치의 대응하는 오디오 파형에 대한 텍스트 디코더(250)로부터의 출력으로서 생성된 텍스트 표현(318) 및 대응하는 비음성 트레이닝 텍스트 발화(302)에 기초하여 상기 대응하는 합성 스피치 표현(306)과 연관된 단어 오류율 손실(342)을 결정하는 단계; 및
    상기 데이터 프로세싱 하드웨어(410)에 의해, 단어 오류율 손실 임계치를 만족하는 단어 오류율 손실(342)을 갖는 스피치 변환 모델(300)로부터의 출력으로서 생성된 합성 스피치 표현들(306) 중 각각의 합성 스피치 표현에 각각 대응하는 합성 스피치 표현들(306)의 필터링된 세트를 식별하는 단계를 포함하며,
    상기 복수의 비음성 트레이닝 텍스트 발화들(302)의 각 비음성 트레이닝 텍스트 발화(302)에 대해 상기 적응된 TTS 모델(210)에 의해 생성된 합성 스피치 표현(306)에 기초하여 스피치 변환 모델(300)을 트레이닝하는 단계는 상기 합성 스피치 표현(306)의 필터링된 세트에 대한 스피치 변환 모델(300)을 트레이닝하는 것과 상기 단어 오류율 손실 임계치를 만족하지 않는 단어 오류율 손실(342)을 갖는 스피치 변환 모델(300)로부터의 출력으로서 생성된 합성 스피치 표현들(306) 중 임의의 것에 대해 상기 스피치 변환 모델(300)을 트레이닝하지 않는 것을 포함하는, 방법.
  3. 청구항 2에 있어서, 스피치 변환 모델(300)이 상기 타겟 화자와 연관된 비전형 스피치와 동일한 유형의 비전형 스피치를 갖는 화자들이 말한 입력 발화들의 오디오 파형들을 변환하기 위해 이전에 트레이닝되지 않은 경우:
    상기 데이터 프로세싱 하드웨어(410)에 의해, 음성 트레이닝 발화들(305)의 세트를 사용하여, 비전형 스피치를 갖는 타겟 화자(104)가 말한 입력 발화들의 오디오 파형들을 합성된 표준의 유창한 스피치의 오디오 파형들로 변환하기 위해 상기 스피치 변환 모델(300)을 적응시키는 단계,
    상기 합성된 표준의 유창한 스피치의 대응하는 오디오 파형을 생성하는 단계는 상기 적응된 스피치 변환 모델(300)로부터의 출력으로서, 상기 타겟 화자(104)의 목소리로 상기 합성된 표준의 유창한 스피치의 대응하는 오디오 파형을 생성하는 단계를 포함하는, 방법.
  4. 청구항 2 또는 3에 있어서, 상기 텍스트 디코더(250)는 상기 스피치 변환 모델(300)에 상주하는, 방법.
  5. 청구항 2 내지 4 중 어느 한 항에 있어서, 상기 텍스트 디코더(250)는 상기 스피치 변환 모델(300)과는 별개인 참조 자동 스피치 인식 모델에 상주하는, 방법.
  6. 청구항 1 내지 5 중 어느 한 항에 있어서, 상기 스피치 변환 모델(300)은 입력 오디오 파형들을 대응하는 출력 오디오 파형들로 직접 변환하도록 구성된 엔드-투-엔드 신경 네트워크를 포함하는, 방법.
  7. 청구항 6에 있어서, 상기 스피치 변환 모델(300)을 트레이닝한 후:
    상기 데이터 프로세싱 하드웨어(410)에서, 비전형 스피치와 연관된 상기 타겟 화자(104)가 말한 발화에 대응하는 입력 오디오 파형을 수신하는 단계; 및
    상기 데이터 프로세싱 하드웨어(410)에 의해, 상기 트레이닝된 스피치 변환 모델(300)을 사용하여, 비전형 스피치와 연관된 타겟 화자(104)가 말한 상기 발화에 대응하는 상기 입력 오디오 파형을 상기 타겟 화자(104)가 말한 상기 발화의 합성된 표준의 유창한 스피치 표현(316)에 대응하는 출력 오디오 파형으로 변환하는 단계를 더 포함하는, 방법.
  8. 청구항 1 내지 7 중 어느 한 항에 있어서, 상기 스피치 변환 모델(300)은 스피치를 대응하는 텍스트로 변환하도록 구성된 자동 스피치 인식 모델을 포함하는, 방법.
  9. 청구항 8에 있어서, 상기 스피치 변환 모델(300)을 트레이닝한 후:
    상기 데이터 프로세싱 하드웨어(410)에서, 비전형 스피치와 연관된 상기 타겟 화자(104)가 말한 발화에 대응하는 오디오 데이터(102)를 수신하는 단계; 및
    상기 데이터 프로세싱 하드웨어(410)에 의해, 상기 트레이닝된 스피치 변환 모델(300)을 사용하여, 비전형 스피치와 연관된 타겟 화자(104)가 말한 상기 발화에 대응하는 상기 오디오 데이터(102)를 상기 타겟 화자(104)가 말한 상기 발화의 표준 텍스트 표현(318)으로 변환하는 단계를 더 포함하는, 방법.
  10. 청구항 1 내지 9 중 어느 한 항에 있어서, 상기 복수의 트레이닝 텍스트 발화들(302)의 제2 부분에 있는 상기 복수의 비음성 트레이닝 텍스트 발화들(302)의 적어도 일부는 특정 도메인에 관한 특정 문구들을 대상으로 하는 수동으로 작성된 텍스트를 포함하는, 방법.
  11. 청구항 1 내지 10 중 어느 한 항에 있어서, 상기 데이터 프로세싱 하드웨어(410)에 의해, 상기 복수의 트레이닝 텍스트 발화들(302)의 제2 부분에서 상기 비음성 트레이닝 텍스트 발화들(302)을 획득하기 위해 비음성 텍스트 선택 프로세스를 실행하는 단계를 더 포함하고, 상기 텍스트 선택 프로세스는:
    비음성 텍스트 발화들의 코퍼스(402)를 획득하고;
    상기 비음성 텍스트 발화들의 코퍼스(402)에서 각각의 비음성 텍스트 발화(302)에 대해:
    도메인-특정 언어 모델(404)에 나타나는 상기 비음성 텍스트 발화(302)와 연관된 제1 확률을 결정하고;
    배경 언어 모델(406)에 나타나는 비음성 텍스트 발화(302a)와 연관된 제2 확률을 결정하고, 상기 배경 언어 모델(406)은 비음성 텍스트 발화들의 코퍼스(402)에서 모든 비음성 텍스트 발화(302)에 대해 트레이닝되며; 그리고
    상기 제1 확률, 상기 제2 확률 및 상기 대응하는 비음성 텍스트 발화(302)에 나타나는 단어들의 수에 기초하여 점수를 결정하고; 그리고
    비음성 텍스트 발화들(302)의 코퍼스에서 N-최고 점수를 갖는 비음성 텍스트 발화들(402)을 상기 복수의 트레이닝 텍스트 발화들(302)의 제2 부분에서 상기 비음성 트레이닝 텍스트 발화들(302)로서 선택하도록 구성되는, 방법.
  12. 청구항 1 내지 11 중 어느 한 항에 있어서,
    상기 TTS 모델(210)은 인코더 부분(350) 및 디코더 부분(250)을 포함하는 사전-트레이닝된 참조 TTS 모델(210)을 포함하고; 그리고
    상기 TTS 모델(210)을 적응시키는 단계(210)는 상기 인코더 부분(350)의 파라미터들이 고정된 상태로 유지되는 동안 상기 디코더 부분(250)의 파라미터들을 튜닝함으로써 상기 사전-트레이닝된 참조 TTS 모델(210)을 적응시키는 단계를 포함하는, 방법.
  13. 시스템(100)으로서,
    데이터 프로세싱 하드웨어(410); 및
    상기 데이터 프로세싱 하드웨어(410)와 통신하는 메모리 하드웨어(420)를 포함하며, 상기 메모리 하드웨어(420)는 상기 데이터 프로세싱 하드웨어(410)에 의해 실행될 때 상기 데이터 프로세싱 하드웨어(410)로 하여금 동작들을 수행하게 하는 명령어들을 저장하며, 상기 동작들은:
    복수의 트레이닝 텍스트 발화를 획득하는 동작(302), 여기서:
    상기 복수의 트레이닝 텍스트 발화들(302)의 제1 부분은 음성 트레이닝 발화들(305)의 세트에 복수의 전사들을 포함하며, 타겟 화자(104)가 말한 각 음성 트레이닝 발화(spoken training utterance)(305)는 비전형 스피치와 연관되며, 대응하는 음성 트레이닝 발화(305)의 대응하는 비합성 스피치 표현(304)과 페어링된 대응하는 전사를 포함하며; 그리고
    상기 복수의 트레이닝 텍스트 발화들(302)의 제2 부분은 스피치 변환 모델(300)이 학습하도록 트레이닝되는 특정 도메인에 속하는 복수의 비음성 트레이닝 텍스트 발화들(unspoken training text utterances)(302)을 포함하고, 각 비음성 트레이닝 텍스트 발화(302)는 어떠한 대응하는 음성 발화와도 페어링되지 않으며;
    음성 트레이닝 발화들(305)의 세트를 사용하여, 타겟 화자(104)의 목소리로 그리고 타겟 화자(104)와 연관된 비전형 스피치를 캡처하는 스피치를 합성하기 위한 텍스트-투-스피치(TTS) 모델(210)을 적응시키는 동작;
    상기 복수의 비음성 트레이닝 텍스트 발화들(302)의 각 비음성 트레이닝 텍스트 발화(302)에 대해, 적응된 TTS 모델(210)로부터의 출력으로서, 대응하는 비음성 트레이닝 텍스트 발화(302)의 합성 스피치 표현(306)을 생성하는 동작, 상기 합성 스피치 표현(306)은 상기 타겟 화자(104)의 목소리를 포함하고, 상기 타겟 화자(104)와 연관된 비전형 스피치를 캡처하며; 및
    상기 복수의 비음성 트레이닝 텍스트 발화들(302) 중 각 비음성 트레이닝 텍스트 발화(302)에 대한 상기 적응된 TTS 모델(210)에 의해 생성된 상기 합성 스피치 표현(306)에 기초하여 상기 스피치 변환 모델(300)을 트레이닝하는 동작을 포함하는, 시스템.
  14. 청구항 13에 있어서,
    상기 적응된 TTS 모델(210)에 의해 생성된 각각의 합성 스피치 표현(306)에 대해:
    상기 스피치 변환 모델(300)로부터의 출력으로서, 상기 타겟 화자(104)의 목소리로 합성된 표준의 유창한 스피치의 대응 오디오 파형을 생성하는 동작;
    텍스트 디코더(250)로부터의 출력으로서, 스피치 변환 모델(300)로부터의 출력으로서 생성된 합성된 표준의 유창한 스피치의 대응 오디오 파형에 대한 텍스트 표현(318)을 생성하는 동작; 및
    상기 합성된 표준의 유창한 스피치의 대응하는 오디오 파형에 대한 텍스트 디코더(250)로부터의 출력으로서 생성된 텍스트 표현(318) 및 대응하는 비음성 트레이닝 텍스트 발화(302)에 기초하여 상기 대응하는 합성 스피치 표현(306)과 연관된 단어 오류율 손실(342)을 결정하는 동작; 및
    단어 오류율 손실 임계치를 만족하는 단어 오류율 손실(342)을 갖는 스피치 변환 모델(300)로부터의 출력으로서 생성된 합성 스피치 표현들(306) 중 각각의 합성 스피치 표현에 각각 대응하는 합성 스피치 표현들(306)의 필터링된 세트를 식별하는 동작을 포함하며,
    상기 복수의 비음성 트레이닝 텍스트 발화들(302)의 각 비음성 트레이닝 텍스트 발화(302)에 대해 상기 적응된 TTS 모델(210)에 의해 생성된 합성 스피치 표현(306)에 기초하하여 스피치 변환 모델(300)을 트레이닝하는 동작은 상기 합성 스피치 표현(306)의 필터링된 세트에 대한 스피치 변환 모델(300)을 트레이닝하는 것과 상기 단어 오류율 손실 임계치를 만족하지 않는 단어 오류율 손실(342)을 갖는 스피치 변환 모델(300)로부터의 출력으로서 생성된 합성 스피치 표현들(306) 중 임의의 것에 대해 상기 스피치 변환 모델(300)을 트레이닝하지 않는 것을 포함하는, 시스템.
  15. 청구항 14에 있어서, 스피치 변환 모델(300)이 상기 타겟 화자와 연관된 비전형 스피치와 동일한 유형의 비전형 스피치를 갖는 화자들이 말한 입력 발화들의 오디오 파형들을 변환하기 위해 이전에 트레이닝되지 않은 경우:
    음성 트레이닝 발화들(305)의 세트를 사용하여, 비전형 스피치를 갖는 타겟 화자(104)가 말한 입력 발화들의 오디오 파형들을 합성된 표준의 유창한 스피치의 오디오 파형들로 변환하기 위해 상기 스피치 변환 모델(300)을 적응시키는 동작,
    상기 합성된 표준의 유창한 스피치의 대응하는 오디오 파형을 생성하는 동작은 상기 적응된 스피치 변환 모델(300)로부터의 출력으로서, 상기 타겟 화자(104)의 목소리로 상기 합성된 표준의 유창한 스피치의 대응하는 오디오 파형을 생성하는 동작을 포함하는, 시스템.
  16. 청구항 14 또는 15에 있어서, 상기 텍스트 디코더(250)는 상기 스피치 변환 모델(300)에 상주하는, 시스템.
  17. 청구항 14 내지 16 중 어느 한 항에 있어서, 상기 텍스트 디코더는 상기 스피치 변환 모델(300)과는 별개인 참조 자동 스피치 인식 모델에 상주하는, 시스템.
  18. 청구항 13 내지 17 중 어느 한 항에 있어서, 상기 스피치 변환 모델(300)은 입력 오디오 파형들을 대응하는 출력 오디오 파형들로 직접 변환하도록 구성된 엔드-투-엔드 신경 네트워크를 포함하는, 시스템.
  19. 청구항 18에 있어서, 상기 스피치 변환 모델(300)을 트레이닝한 후:
    비전형 스피치와 연관된 상기 타겟 화자(104)가 말한 발화에 대응하는 입력 오디오 파형을 수신하는 동작; 및
    상기 트레이닝된 스피치 변환 모델(300)을 사용하여, 비전형 스피치와 연관된 타겟 화자(104)가 말한 상기 발화에 대응하는 상기 입력 오디오 파형을 상기 타겟 화자(104)가 말한 상기 발화의 합성된 표준의 유창한 스피치 표현(316)에 대응하는 출력 오디오 파형으로 변환하는 동작을 더 포함하는, 시스템.
  20. 청구항 13 내지 19 중 어느 한 항에 있어서, 상기 스피치 변환 모델(300)은 스피치를 대응하는 텍스트로 변환하도록 구성된 자동 스피치 인식 모델을 포함하는, 시스템.
  21. 청구항 20에 있어서, 상기 스피치 변환 모델(300)을 트레이닝한 후:
    비전형 스피치와 연관된 상기 타겟 화자(104)가 말한 발화에 대응하는 오디오 데이터(102)를 수신하는 동작; 및
    상기 트레이닝된 스피치 변환 모델(300)을 사용하여, 비전형 스피치와 연관된 타겟 화자(104)가 말한 상기 발화에 대응하는 상기 오디오 데이터(102)를 상기 타겟 화자(104)가 말한 상기 발화의 표준 텍스트 표현(318)으로 변환하는 동작을 더 포함하는, 시스템.
  22. 청구항 13 내지 21 중 어느 한 항에 있어서, 상기 복수의 트레이닝 텍스트 발화들(302)의 제2 부분에 있는 상기 복수의 비음성 트레이닝 텍스트 발화들(302)의 적어도 일부는 특정 도메인에 관한 특정 문구들을 대상으로 하는 수동으로 작성된 텍스트를 포함하는, 시스템.
  23. 청구항 13 내지 22 중 어느 한 항에 있어서, 상기 복수의 트레이닝 텍스트 발화들(302)의 제2 부분에서 상기 비음성 트레이닝 텍스트 발화들(302)을 획득하기 위해 비음성 텍스트 선택 프로세스를 실행하는 동작을 더 포함하고, 상기 텍스트 선택 프로세스는:
    비음성 텍스트 발화들의 코퍼스(402)를 획득하고;
    상기 비음성 텍스트 발화들의 코퍼스(402)에서 각각의 비음성 텍스트 발화(302)에 대해:
    도메인-특정 언어 모델(404)에 나타나는 상기 비음성 텍스트 발화(302)와 연관된 제1 확률을 결정하고;
    배경 언어 모델(406)에 나타나는 비음성 텍스트 발화(302a)와 연관된 제2 확률을 결정하고, 상기 배경 언어 모델(406)은 비음성 텍스트 발화들의 코퍼스(402)에서 모든 비음성 텍스트 발화(302)에 대해 트레이닝되며; 그리고
    상기 제1 확률, 상기 제2 확률 및 상기 대응하는 비음성 텍스트 발화(302)에 나타나는 단어들의 수에 기초하여 점수를 결정하고; 그리고
    비음성 텍스트 발화들(302)의 코퍼스에서 N-최고 점수를 갖는 비음성 텍스트 발화들(402)을 상기 복수의 트레이닝 텍스트 발화들(302)의 제2 부분에서 상기 비음성 트레이닝 텍스트 발화들(302)로서 선택하도록 구성되는, 시스템.
  24. 청구항 13 내지 23 중 어느 한 항에 있어서,
    상기 TTS 모델(210)은 인코더 부분(350) 및 디코더 부분(250)을 포함하는 사전-트레이닝된 참조 TTS 모델(210)을 포함하고; 그리고
    상기 TTS 모델(210)을 적응시키는 동작(210)은 상기 인코더 부분(350)의 파라미터들이 고정된 상태로 유지되는 동안 상기 디코더 부분(250)의 파라미터들을 튜닝함으로써 상기 사전-트레이닝된 참조 TTS 모델(210)을 적응시키는 동작을 포함하는, 시스템.
KR1020237010082A 2020-08-31 2021-08-19 목소리 변환 및 스피치 인식 모델을 사용한 합성 데이터 증강 KR20230056741A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US17/008,278 2020-08-31
US17/008,278 US11335324B2 (en) 2020-08-31 2020-08-31 Synthesized data augmentation using voice conversion and speech recognition models
PCT/US2021/046781 WO2022046526A1 (en) 2020-08-31 2021-08-19 Synthesized data augmentation using voice conversion and speech recognition models

Publications (1)

Publication Number Publication Date
KR20230056741A true KR20230056741A (ko) 2023-04-27

Family

ID=77726567

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237010082A KR20230056741A (ko) 2020-08-31 2021-08-19 목소리 변환 및 스피치 인식 모델을 사용한 합성 데이터 증강

Country Status (6)

Country Link
US (1) US11335324B2 (ko)
EP (1) EP4205109A1 (ko)
JP (1) JP2023539888A (ko)
KR (1) KR20230056741A (ko)
CN (1) CN116018638A (ko)
WO (1) WO2022046526A1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11676571B2 (en) * 2021-01-21 2023-06-13 Qualcomm Incorporated Synthesized speech generation
TWI766575B (zh) * 2021-02-05 2022-06-01 國立陽明交通大學 提升構音患者語音轉換效益之系統及方法
US20230098315A1 (en) * 2021-09-30 2023-03-30 Sap Se Training dataset generation for speech-to-text service
US20230267925A1 (en) * 2022-02-22 2023-08-24 Samsung Electronics Co., Ltd. Electronic device for generating personalized automatic speech recognition model and method of the same
US20230298607A1 (en) * 2022-03-15 2023-09-21 Soundhound, Inc. System and method for voice unidentifiable morphing
US11848005B2 (en) * 2022-04-28 2023-12-19 Meaning.Team, Inc Voice attribute conversion using speech to speech
US11880645B2 (en) 2022-06-15 2024-01-23 T-Mobile Usa, Inc. Generating encoded text based on spoken utterances using machine learning systems and methods
WO2024009890A1 (ja) * 2022-07-04 2024-01-11 日本電気株式会社 学習データ生成装置、音声認識モデル生成装置、学習データ生成方法、音声認識モデル生成方法、および記録媒体

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070118372A1 (en) 2005-11-23 2007-05-24 General Electric Company System and method for generating closed captions
JP5238205B2 (ja) * 2007-09-07 2013-07-17 ニュアンス コミュニケーションズ,インコーポレイテッド 音声合成システム、プログラム及び方法
US8751239B2 (en) * 2007-10-04 2014-06-10 Core Wireless Licensing, S.a.r.l. Method, apparatus and computer program product for providing text independent voice conversion
US20180247640A1 (en) * 2013-12-06 2018-08-30 Speech Morphing Systems, Inc. Method and apparatus for an exemplary automatic speech recognition system
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US10186251B1 (en) * 2015-08-06 2019-01-22 Oben, Inc. Voice conversion using deep neural network with intermediate voice training
GB2551499B (en) 2016-06-17 2021-05-12 Toshiba Kk A speech processing system and speech processing method
US10810993B2 (en) * 2018-10-26 2020-10-20 Deepmind Technologies Limited Sample-efficient adaptive text-to-speech
EP3895159A4 (en) * 2018-12-11 2022-06-29 Microsoft Technology Licensing, LLC Multi-speaker neural text-to-speech synthesis
US20220122579A1 (en) * 2019-02-21 2022-04-21 Google Llc End-to-end speech conversion
TWI754804B (zh) * 2019-03-28 2022-02-11 國立中正大學 改善構音異常語音理解度之系統與方法
US10930263B1 (en) * 2019-03-28 2021-02-23 Amazon Technologies, Inc. Automatic voice dubbing for media content localization
KR20190080833A (ko) 2019-06-18 2019-07-08 엘지전자 주식회사 음성 정보 기반 언어 모델링 시스템 및 방법
TWI749447B (zh) * 2020-01-16 2021-12-11 國立中正大學 同步語音產生裝置及其產生方法

Also Published As

Publication number Publication date
US11335324B2 (en) 2022-05-17
WO2022046526A1 (en) 2022-03-03
EP4205109A1 (en) 2023-07-05
CN116018638A (zh) 2023-04-25
JP2023539888A (ja) 2023-09-20
US20220068257A1 (en) 2022-03-03

Similar Documents

Publication Publication Date Title
US11335324B2 (en) Synthesized data augmentation using voice conversion and speech recognition models
US10140973B1 (en) Text-to-speech processing using previously speech processed data
US10163436B1 (en) Training a speech processing system using spoken utterances
KR20230003056A (ko) 비음성 텍스트 및 스피치 합성을 사용한 스피치 인식
O’Shaughnessy Automatic speech recognition: History, methods and challenges
US10176809B1 (en) Customized compression and decompression of audio data
CN114203147A (zh) 用于文本到语音的跨说话者样式传递以及用于训练数据生成的系统和方法
JPH09500223A (ja) 多言語音声認識システム
WO2010025460A1 (en) System and method for speech-to-speech translation
US20090240499A1 (en) Large vocabulary quick learning speech recognition system
US11676572B2 (en) Instantaneous learning in text-to-speech during dialog
Kumar et al. Machine learning based speech emotions recognition system
Grewal et al. Isolated word recognition system for English language
JP6330069B2 (ja) 統計的パラメトリック音声合成のためのマルチストリームスペクトル表現
KR20220134347A (ko) 다화자 훈련 데이터셋에 기초한 음성합성 방법 및 장치
Sharma et al. Soft-Computational Techniques and Spectro-Temporal Features for Telephonic Speech Recognition: an overview and review of current state of the art
Ajayi et al. Systematic review on speech recognition tools and techniques needed for speech application development
Dalva Automatic speech recognition system for Turkish spoken language
US11335321B2 (en) Building a text-to-speech system from a small amount of speech data
Khalifa et al. Statistical modeling for speech recognition
JP7146038B2 (ja) 音声認識システム及び方法
KR20180057315A (ko) 자연어 발화 음성 판별 시스템 및 방법
Yadava et al. Development of Small Vocabulary Continuous Speech-to-Text System for Kannada Language/Dialects
Salimbajevs Modelling latvian language for automatic speech recognition
Bansal et al. Articulation error detection techniques and tools: A review

Legal Events

Date Code Title Description
E902 Notification of reason for refusal