KR20240024960A - 견고한 다이렉트 스피치-투-스피치 번역 - Google Patents

견고한 다이렉트 스피치-투-스피치 번역 Download PDF

Info

Publication number
KR20240024960A
KR20240024960A KR1020247002341A KR20247002341A KR20240024960A KR 20240024960 A KR20240024960 A KR 20240024960A KR 1020247002341 A KR1020247002341 A KR 1020247002341A KR 20247002341 A KR20247002341 A KR 20247002341A KR 20240024960 A KR20240024960 A KR 20240024960A
Authority
KR
South Korea
Prior art keywords
representation
speech
model
s2st
utterance
Prior art date
Application number
KR1020247002341A
Other languages
English (en)
Inventor
예 지아
미셸 태드모어 라마노비치
탈 레메즈
로이 포메란츠
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20240024960A publication Critical patent/KR20240024960A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

다이렉트 스피치-투-스피치 번역(S2ST) 모델(200)은 소스 화자(104)에 의해 제1 언어로 발화된 발화(108)에 대한 입력 스피치 표현(102)을 수신하고 입력 스피치 표현을 히든(hidden) 피처 표현(215)으로 인코딩하도록 구성된 인코더(210)를 포함한다. S2ST 모델은 또한 인코딩된 히든 표현에 주의를 기울이는 컨텍스트 벡터(225)를 생성하도록 구성된 어텐션(attention) 모듈(220)을 포함한다. S2ST 모델은 또한 어텐션 모듈에 의해 생성된 컨텍스트 벡터를 수신하고 상이한 제2 언어로 된 발화의 번역에 대응하는 음소 표현(235)을 예측하도록 구성된 디코더(230)를 포함한다. S2ST 모델은 또한 컨텍스트 벡터 및 음소 표현을 수신하고 상이한 제2 언어로 발화된 발화의 번역에 대응하는 번역된 합성 스피치 표현(355)을 생성하도록 구성된 합성기(300)를 포함한다.

Description

견고한 다이렉트 스피치-투-스피치 번역
본 개시는 견고한(robust) 다이렉트 스피치-투-스피치(speech-to-speech) 번역에 관한 것이다.
스피치-투-스피치 번역(S2ST)은 공통 언어를 공유하지 않는 사람들 사이의 의사소통 장벽을 허무는 데 매우 유익하다. 일반적으로, S2ST 시스템은: 자동 스피치 인식(ASR); 텍스트-투-텍스트 기계 번역(MT) 및 텍스트-투-스피치(TTS) 합성의 세 가지 구성요소들로 구성된 캐스케이드(cascade)로 구성된다. 최근 다이렉트 스피치-투-텍스트 변환(ST)의 발전은 ASR 및 MT의 캐스케이드 성능을 능가하여 ST 및 TTS의 두 구성요소 캐스케이드를 S2ST로 실현가능하게 만들었다.
본 개시의 일 측면은 소스 화자에 의해 제1 언어로 발화된 발화에 대응하는 입력 스피치 표현을 수신하고 그 입력 스피치 표현을 히든(hidden) 피처 표현으로 인코딩하도록 구성된 인코더를 포함하는 다이렉트 스피치-투-스피치 번역(S2ST) 모델을 제공한다. S2ST 모델은 또한 인코더에 의해 인코딩된 히든 표현에 주의를 기울이는 컨텍스트 벡터를 생성하도록 구성된 어텐션(attention) 모듈을 포함한다. S2ST 모델은 또한 어텐션 모듈에 의해 생성된 컨텍스트 벡터를 수신하고 상이한 제2 언어로 된 발화의 번역에 대응하는 음소 표현을 예측하도록 구성된 디코더를 포함한다. S2ST 모델은 또한 컨텍스트 벡터와 음소 표현을 수신하고 상이한 제2 언어로 발화된 발화의 번역에 대응하는 번역된 합성 스피치 표현을 생성하도록 구성된 합성기를 포함한다.
본 개시의 구현예는 다음의 선택적인 특징 중 하나 이상을 포함할 수 있다. 일부 구현예에서, 인코더는 컨포머(conformer) 블록들의 스택을 포함한다. 다른 구현예에서, 인코더는 트랜스포머 블록들 또는 경량(lightweight) 컨벌루션 블록들 중 하나의 스택을 포함한다. 일부 예에서, 합성기는 음소 표현에 의해 표현되는 음소들의 시퀀스에서 각 음소의 지속시간을 예측하도록 구성된 지속시간 모델 네트워크를 포함한다. 이러한 예에서, 합성기는 각 음소의 예측된 지속시간에 기초하여 음소의 시퀀스를 업샘플링함으로써 번역된 합성 스피치 표현을 생성하도록 구성될 수 있다. 번역된 합성 스피치 표현은 소스 화자의 말하기 스타일/운율에 따라 구성될 수 있다.
일부 구현예에서, S2ST 모델은 각각 소스 발화에서 발화되는 보이스를 포함하는 병렬 소스 언어 및 타겟 언어 발화들의 쌍들에 대해 트레이닝된다. 이러한 구현예에서, 소스 언어 발화 또는 타겟 언어 발화 중 적어도 하나는 소스 발화의 보이스로 합성 스피치를 생성하도록 트레이닝된 텍스트-투-스피치 모델에 의해 합성된 스피치를 포함한다. 일부 예에서, S2ST 모듈은 번역된 합성 스피치표현을 수신하고 번역된 합성 스피치표현을 번역된 합성 스피치표현의 가청 출력으로 합성하도록 구성된 보코더를 더 포함한다. 선택적으로, 음소 표현은 번역된 합성 스피치표현에 대응하는 음소 시퀀스 내의 가능한 음소들의 확률 분포를 포함할 수 있다.
본 개시의 또 다른 측면은 데이터 프로세싱 하드웨어에서 실행될 때 데이터 프로세싱 하드웨어로 하여금 다이렉트 스피치-투-스피치 번역을 위한 동작들을 수행하게 하는 컴퓨터 구현 방법을 제공한다. 동작들은 다이렉트 스피치-투-스피치 번역(S2ST) 모델에 대한 입력으로서, 소스 화자에 의해 제1 언어로 발화된 발화에 대응하는 입력 스피치 표현을 수신하는 동작을 포함한다. 동작들은 또한 S2ST 모델의 인코더에 의해 입력 스피치 표현을 히든 피처 표현으로 인코딩하는 동작을 포함한다. 동작들은 또한 S2ST 모델의 디코더에 의해 인코더에 의해 인코딩된 히든 피처 표현에 주의를 기울이는 컨텍스트 벡터를 생성하는 동작을 포함한다. 동작들은 또한 S2ST 모델의 디코더에서 어텐션 모듈에 의해 생성된 컨텍스트 벡터를 수신하는 동작을 포함한다. 동작들은 또한 디코더에 의해 상이한 제2 언어로 된 발화의 번역에 대응하는 음소 표현을 예측하는 동작을 포함한다. 동작들은 또한 S2ST 모델의 합성기에서 컨텍스트 벡터와 음소 표현을 수신하는 동작을 포함한다. 동작들은 또한 합성기에 의해 상이한 제2 언어로 발화된 발화의 번역에 대응하는 번역된 합성 스피치 표현을 생성하는 동작을 포함한다.
본 개시의 구현예는 다음의 선택적인 특징 중 하나 이상을 포함할 수 있다. 일부 구현예에서, 인코더는 컨포머 블록들의 스택을 포함한다. 다른 구현예에서, 인코더는 트랜스포머 블록들 또는 경량 컨벌루션 블록들 중 하나의 스택을 포함한다. 일부 예에서, 합성기는 음소 표현에 의해 표현되는 음소들의 시퀀스에서 각 음소의 지속시간을 예측하도록 구성된 지속시간 모델 네트워크를 포함한다. 이러한 예에서, 이들 예에서, 번역된 합성 스피치 표현을 생성하는 동작은 각 음소의 예측된 지속시간에 기초하여 음소들의 시퀀스를 업샘플링하는 동작을 포함할 수 있다.
번역된 합성 스피치 표현은 소스 화자의 말하기 스타일/운율에 따라 구성될 수 있다. 일부 구현예에서, S2ST 모델은 각각 소스 발화에서 발화되는 보이스를 포함하는 병렬 소스 언어 및 타겟 언어 발화들의 쌍들에 대해 트레이닝된다. 이러한 구현예에서, 소스 언어 발화 또는 타겟 언어 발화 중 적어도 하나는 소스 발화의 보이스로 합성 스피치를 생성하도록 트레이닝된 텍스트-투-스피치 모델에 의해 합성된 스피치를 포함할 수 있다. 일부 예에서, 동작들은 S2ST 모델의 보코더에서 번역된 합성 스피치표현을 수신하는 동작 및 보코더에 의해 번역된 합성 스피치표현을 번역된 합성 스피치표현의 가청 출력으로 합성하는 동작을 더 포함한다. 선택적으로, 음소 표현은 번역된 합성 스피치표현에 대응하는 음소 시퀀스 내의 가능한 음소들의 확률 분포를 포함할 수 있다.
본 개시의 하나 이상의 구현예의 세부사항은 첨부 도면 및 아래의 설명에서 설명된다. 다른 측면, 특징 및 장점은 설명, 도면, 청구범위로부터 명백해질 것이다.
도 1은 다이렉트 스피치-투-스피치 번역(S2ST) 모델을 포함하는 예시적인 스피치 환경의 개략도이다.
도 2는 S2ST 모델의 개략도이다.
도 3은 S2ST 모델의 합성기의 개략도이다.
도 4는 예시적인 컨포머(Conformer) 블록의 개략도이다.
도 5는 다이렉트 스피치-투-스피치 번역을 수행하는 방법에 대한 동작들의 예시적인 배열의 흐름도이다.
도 6은 본 명세서에 설명된 시스템 및 방법을 구현하는 데 사용될 수 있는 예시적인 컴퓨팅 장치의 개략도이다.
다양한 도면의 유사한 참조 기호는 유사한 요소를 나타낸다.
스피치-투-스피치 번역(S2ST)은 공통 언어를 공유하지 않는 사람들 사이의 의사소통 장벽을 허무는 데 매우 유익하다. 일반적으로, S2ST 시스템은: 자동 스피치 인식(ASR); 텍스트-투-텍스트 기계 번역(MT) 및 텍스트-투-스피치(TTS) 합성의 세 가지 구성요소들로 구성된 캐스케이드로 구성된다. 최근 다이렉트 스피치-투-텍스트 변환(ST)의 발전은 ASR 및 MT의 캐스케이드 성능을 능가하여 ST 및 TTS의 두 구성요소 캐스케이드를 S2ST로 실현가능하게 만들었다.
다이렉트 S2ST는 한 언어의 스피치를 다른 언어의 스피치로 직접 번역하는 것을 포함한다. 달리 말하면, 다이렉트 S2ST 시스템/모델은 입력 오디오 파형을 중간 표현(예: 텍스트 또는 음소들)으로 변환하지 않고, 인간 화자에 의해 제1 언어로 발화된 스피치에 대응하는 입력 오디오 파형 또는 스펙트로그램을 제1 언어와 상이한 제2 언어로 합성된 스피치에 대응하는 출력 오디오 파형 또는 스펙트로그램으로 직접 변환하도록 구성된다. 명백해지듯이, 다이렉트 S2ST 모델과 다이렉트 S2ST 모델을 트레이닝하는 기술은, 사용자의 스피치를 상이한 언어로 합성된 오디오로 인식 및/또는 재생성할 수 있게 함으로써, 사용자는 자신의 모국어(native language)로 말하고 다른 인간 및 스피치 인터페이스(예: 디지털 어시스턴트) 모두에 의해 이해될 수 있게 해줄 것이다. 최근 다이렉트 S2ST 모델은 번역 품질 측면에서 캐스케이드 S2ST 시스템보다 성능이 낮았으며, 베블링(babbling) 및 긴 일시 정지 측면에서 출력 합성 스피치의 견고성(robustness) 문제로 어려움을 겪었다. 이러한 문제는 스피치 합성을 위한 어텐션 기반 접근 방식의 사용으로 인해 발생한다.
본 명세서의 구현예는 엔드-투-엔드(end-to-end) 트레이닝되고, 기존의 다이렉트 S2ST 시스템보다 성능이 뛰어나며, 번역 품질, 스피치 자연스러움(naturalness) 및 스피치 견고성 측면에서 캐스케이드 시스템과 비교할 수 있는 견고한 다이렉트 S2ST 모델을 지향한다. 특히 캐스케이드 시스템과 비교하여, 다이렉트 S2ST 시스템/모델은: 번역 중에 화자의 보이스 및 운율과 같은 준언어적(paralinguistic) 및 비언어적(non-linguistic) 정보를 유지하고, 서면 형식 없이 언어 작업을 하고, 계산 요구 사항 및 추론 레이턴시를 줄이고, 하위 시스템 전반에 걸쳐 오류가 복합적으로 발생하는 것을 방지하고, 그리고 이름, 기타 고유명사 등 번역이 필요하지 않은 내용을 쉽게 처리할 수 있는 잠재력을 가지고 있다. 본 문서의 구현예는 명시적인 화자 임베딩 또는 식별자에 의존하지 않는 S2ST의 보이스 유지 기술에 관한 것이다. 구체적으로, 트레이닝된 S2ST 모델은 소스 화자와 상이한 보이스로 스피치를 생성하는 능력 없이 입력 스피치에 제공되는 소스 화자의 보이스만 유지하도록 트레이닝된다. 특히, 소스 화자의 보이스를 유지하는 능력은 스푸핑(spoofing) 오디오 아티팩트 생성을 위한 오용(misuse)을 사전에 완화함으로써 프로덕션 환경에 유용하다.
도 1은 소스 화자가 제1 언어로 말한 입력 발화들을 상이한 제2 언어의 대응하는 출력 발화들로 직접 번역하거나 그 반대로 번역하도록 구성된 다이렉트 스피치-투-스피치 번역(S2ST) 모델(200)을 사용하는 스피치 변환 환경(100)을 도시한다. 명백해지듯이, 다이렉트 S2ST 모델(200)은 엔드-투-엔드 트레이닝된다. 특히, 다이렉트 S2ST 모델(200)은 자동 스피치 인식(ASR) 구성요소, 텍스트-투-텍스트 기계 번역(MT) 구성요소 및 텍스트-투-스피치(TTS) 합성 구성요소의 별도 조합을 사용하는 캐스케이드 S2ST 시스템, 또는 다이렉트 스피치-투-텍스트 번역(ST) 구성요소에 이어 TTS 구성요소를 사용하는 다른 캐스케이드 S2ST 시스템과 구별된다.
도시된 예에서, 다이렉트 S2ST 모델(200)은 소스 화자(104)가 제1/소스 언어(예를 들어, 스페인어)로 말한 발화(108)에 대응하는 입력 오디오 데이터(102)를 소스 화자(104)가 상이한 제2 언어(예를 들어, 영어)로 말한 번역된 발화(114)의 번역된 합성 스피치 표현에 대응하는 출력 오디오 데이터(예를 들어, 멜-스펙트로그램)(106)로 변환하도록 구성된다. 다이렉트 S2ST 모델(200)은 스피치 인식 및 텍스트-투-텍스트 기계 번역을 수행하지 않고, 또는 입력 데이터(102)로부터 임의의 중간 이산 표현들(예를 들어, 텍스트 또는 음소들)의 생성을 요구하지 않고, 입력 오디오 데이터(102)에 대응하는 입력 스펙트로그램을 출력 오디오 데이터(102)에 대응하는 출력 스펙트로그램으로 직접 변환할 수 있다. 도 2 및 도 3을 참조하여 더 자세히 설명되지만, 다이렉트 S2ST 모델(200)은 스펙트로그램 인코더(210), 어텐션 모듈(220), 디코더(230) 및 합성기(예를 들어, 스펙트로그램 디코더)(300)를 포함한다.
보코더(375)는 다이렉트 S2ST 모델(200)로부터 출력된 출력 오디오 데이터(106)를 제2 언어 및 소스 화자의 보이스로 발화되는 번역된 발화(114)로서 가청 출력을 위한 시간 영역(time-domain) 파형으로 합성할 수 있다. 시간 영역 오디오 파형은 시간에 따른 오디오 신호의 진폭을 정의하는 오디오 파형을 포함한다. 보코더(375) 대신, 단위 선택 모듈 또는 웨이브넷(WaveNet) 모듈이 출력 오디오 데이터(106)를 번역된 제2 언어 및 소스 화자(104)의 보이스로 합성된 스피치의 시간 영역 파형으로 합성할 수 있다. 일부 구현예에서, 보코더(375)는 보코더 네트워크, 즉 신경 보코더를 포함하며, 이는 시간 영역 오디오 파형으로 변환하기 위해 멜-주파수 스펙트로그램에 대해 별도로 트레이닝되고 조정된다.
도시된 예에서, 소스 화자(104)는 스페인어의 제1/소스 언어의 원어민 화자이다. 이에 따라 다이렉트 S2ST(200)는 소스 화자(104)가 스페인어로 말한 발화들(108)에 대응하는 입력 오디오 데이터(102)를 영어(예를 들어, 제2/타겟 언어)로 번역된 발화(114)에 대응하는 번역된 합성 스피치 표현에 대응하는 출력 오디오 데이터(106)로 직접 변환하도록 트레이닝된다. 즉, 영어로 번역된 발화(114)(예를 들어, “Hi, what are your plans this afternoon?")는 소스 화자(104)가 스페인어로 말한 입력 발화(108)(예를 들어, "Hola, cuales son tus planes esta tarde?")의 번역된 버전에 대한 합성 오디오를 포함한다. 따라서, 영어로 된 출력 오디오 데이터(106)에 의해 제공되는 번역된 합성 표현은 스페인어 원어민이 영어를 원어로 말하는 수신자 사용자(118)에게 스페인어로 말한 발화(108)를 전달할 수 있게 해준다. 일부 예에서, 소스 화자(104)는 영어를 말하지 않고, 수신자 화자(118)는 스페인어를 말하거나 이해하지 못한다. 일부 구현예에서, 다이렉트 S2ST 모델(200)은 다국어이며 화자(118)가 영어로 말한 입력 발화들을 스페인어로 번역된 발화들로 번역하도록 트레이닝된다. 이러한 구현예에서, 다이렉트 S2ST 모델(200)은 스페인어와 영어에 추가로, 또는 대신하여 하나 이상의 다른 언어 쌍 사이에서 스피치를 변환하도록 구성될 수 있다.
특히, 다이렉트 S2ST 모델(200)은 합성된 스피치 표현에 대응하는 출력 오디오 데이터(106) 및 그에 따른 번역된 발화(114)가 소스 화자의 보이스를 전달하지만, 상이한 제2 언어로 전달하도록 소스 화자의 보이스 특성들을 유지하도록 트레이닝된다. 다르게 말하면, 번역된 발화(114)는 소스 화자(104)가 실제로 상이한 제2 언어를 말할 때 소스 화자(104)의 보이스 특성들(예를 들어, 말하기 스타일/운율)을 전달한다. 일부 예에서 그리고 아래에 더 자세히 설명되어 있는 다이렉트 S2ST 모델(200)은 출력 오디오 데이터(106)에서 소스 화자의 보이스 특성들을 유지할 뿐만 아니라, 스푸핑 오디오 아티팩트를 생성하기 위한 모델(200)의 오용을 완화하기 위해 소스 화자와 상이한 보이스로 스피치를 생성하는 능력을 방지하도록 트레이닝된다.
소스 화자(104)와 연관된 컴퓨팅 장치는 소스/제1 언어(예를 들어, 스페인어)로 소스 화자(104)가 말한 발화(108)를 캡처하고 대응하는 입력 오디오 데이터(102)를 출력 오디오 데이터(106)로 변환하기 위해 다이렉트 S2ST 모델(200)로 전송할 수 있다. 그 후, 다이렉트 S2ST 모델(200)은 번역된 발화(114)의 번역된 합성 스피치 표현에 대응하는 출력 오디오 데이터(106)를 수신자 사용자(118)와 연관된 다른 컴퓨팅 장치(116)로 전송할 수 있으며, 이에 따라 다른 컴퓨팅 장치(116)는 번역된 합성 스피치 표현을 상이한 제2 언어(예를 들어, 영어)의 번역된 발화(114)로서 청각적으로 출력한다. 이 예에서, 소스 화자(104)와 사용자(118)는 오디오/비디오 통화(예를 들어, 화상 회의/채팅) 전화 통화 또는 다른 유형의 보이스 통신 프로토콜, 예를 들어, 인터넷 프로토콜을 통한 보이스 통신 프로토콜을 통해 각자의 컴퓨팅 장치(110, 116)를 통해 서로 대화하고 있다.
특히, 다이렉트 S2ST 모델(200)은 소스 화자(104)에 의해 발화된 발화(108)에 대응하는 입력 오디오 데이터(102)에 사용되었던 번역된 합성 스피치 표현에 대응하는 출력 오디오 데이터(106)에서 동일한 말하기 스타일/운율을 유지하도록 트레이닝될 수 있다. 예를 들어, 도시된 예에서, 스페인어 발화(108)에 대한 입력 오디오 데이터(102)는 질문 말하기와 연관된 스타일/운율을 전달하므로, S2ST 모델(200)은 질문 말하기와 연관된 스타일/운율을 갖는 번역된 합성 스피치 표현에 대응하는 출력 오디오 데이터(106)를 생성한다.
일부 다른 예에서, S2ST 변환 모델(200)은 대신 소스 화자(104)의 보이스로 번역된 합성 스피치 표현을 청중에게 청각적으로 출력하기 위해 소스 화자(104)가 말한 발화의 번역된 합성 스피치 표현에 대응하는 출력 오디오 데이터(106)를 출력 오디오 장치에 전송한다. 예를 들어, 스페인어를 모국어로 말하는 화자(104)는 영어권 청중에게 강의를 하는 강사일 수 있고, 여기서 소스 화자(104)가 스페인어로 말한 발화들은 영어로 번역된 발화들로서 오디오 장치로부터 영어권 청중에게 청각적으로 출력되는 번역된 합성 스피치 표현들로 변환된다.
대안적으로, 다른 컴퓨팅 장치(116)는 인식된 텍스트로의 변환을 위해 ASR 시스템에 대한 입력으로서 합성 스피치 표현에 대응하는 출력 오디오 데이터(106)를 제공하기 위해 S2ST 모델(200)이 프런트 엔드로서 기능하는 다운스트림 자동 스피치 인식(ASR) 시스템과 연관될 수 있다. 인식된 텍스트는 다른 사용자(118)에게 제시될 수 있고/있거나 추가 프로세싱을 위해 자연어 이해(NLU) 시스템에 제공될 수 있다.
S2ST 모델(200)의 기능은 원격 서버(112), 컴퓨팅 장치(110, 116) 중 하나 또는 둘 다, 또는 원격 서버와 컴퓨팅 장치(110, 116)의 임의의 조합에 상주할 수 있다. 특히, 컴퓨팅 장치(110, 116)의 데이터 프로세싱 하드웨어는 S2ST 모델(200)을 실행할 수 있다. 일부 구현예에서, S2ST 모델(200)은 소스 화자(104)가 발화의 대응하는 부분들을 제1/소스 언어로 말할 때 발화들의 합성된 스피치 표현들에 대응하는 출력 오디오 데이터(106)를 연속적으로 생성한다. 소스 화자(104)가 말한 발화(108) 부분들의 합성 스피치 표현들에 대응하는 출력 오디오 데이터(106)를 연속적으로 생성함으로써, 소스 화자(104)와 사용자(118)(또는 청중) 사이의 대화의 속도가 더욱 자연스럽게 진행될 수 있다. 일부 추가 구현예에서, S2ST 모델(200)은 제1 언어로 된 발화(108)의 대응하는 입력 오디오 데이터(102)를 동일한 발화(114)이지만 상이한 제2 언어로 된 번역된 합성 스피치 표현에 대응하는 대응하는 출력 오디오 데이터(106)로 변환하기 전에, 보이스 활동 검출, 종료 포인팅, 쿼리의 종료 검출 등과 같은 기술을 사용하여 소스 화자(104)가 말하기를 중지하는 시기를 결정/검출하기 위해 대기한다.
도 2는 인코더(210), 어텐션 모듈(220), 디코더(230) 및 합성기(300)를 포함하는 도 1의 다이렉트 S2ST 모델(200)을 도시한다. 인코더(210)는 입력 오디오 데이터(102)를 히든(hidden) 피처 표현(예를 들어, 일련의 벡터들)(215)으로 인코딩하도록 구성된다. 여기서, 입력 오디오 데이터(102)는 소스/제1 언어(예를 들어, 스페인어)로 소스 화자(104)가 말한 발화(108)에 대응하는 입력 스펙트로그램의 시퀀스를 포함한다. 입력 음소들의 시퀀스는 80채널 멜-스펙트로그램 시퀀스를 포함할 수 있다. 일부 구현예에서, 인코더(210)는 컨포머 레이어들의 스택을 포함한다. 이러한 구현예에서, 인코더는 컨벌루션 레이어를 사용하여 입력 멜-스펙트로그램 시퀀스를 포함하는 입력 오디오 데이터(102)를 서브샘플링한 다음 컨포머 블록들의 스택으로 입력 멜-스펙트로그램 시퀀스를 프로세싱한다. 각 컨포머 블록은 피드-포워드 레이어, 셀프-어텐션 레이어, 컨벌루션 레이어, 제2 피드-포워드 레이어를 포함할 수 있다. 일부 예에서, 컨포머 블록들의 스택은 차원이 144이고 서브샘플링 인자가 4인 컨포머 블록들의 16개 레이어들을 포함한다. 도 4는 예시적인 컨포머 블록의 개략도를 제공한다. 인코더(210)는 컨포머 블록들 대신에 트랜스포머 블록들 또는 경량 컨벌루션 블록들의 스택을 사용할 수 있다.
어텐션 모듈(220)은 인코더(210)에 의해 인코딩된 히든 피처 표현(215)에 주의를 기울이는 컨텍스트 벡터(225)를 생성하도록 구성된다. 어텐션 모듈(220)은 멀티-헤드 어텐션 메커니즘을 포함할 수 있다. 디코더(230)는 입력으로서 어텐션을 위한 소스 값들로 히든 피처 표현(215)을 나타내는 컨텍스트 벡터(225)를 수신하고, 출력으로서 오디오 데이터(예를 들어, 타겟 번역 합성 스피치 표현)(106)에 대응하는 음소 시퀀스(245) 내의 가능한 음소들의 확률 분포를 나타내는 음소 표현(235)을 예측하도록 구성된다. 즉, 음소 표현(235)은 상이한 제2 발화(예를 들어, 제2 언어)로 된 발화(108)의 번역에 대응한다. 완전-연결된(fully-connected) 네트워크와 소프트맥스(240) 레이어는 복수의 출력 단계 각각에서, 음소 표현(235)으로 표현되는 가능한 음소들의 확률 분포에서 가장 높은 확률을 가진 음소를 사용하는 것에 기초하여 음소들의 시퀀스(245)(예를 들어, 영어 음소들) 내의 음소를 선택할 수 있다. 도시된 예에서, 디코더(230)는 자기회귀적(autoregressive)이며, 각각의 출력 단계에서, 각각의 이전 출력 단계 동안 소프트맥스(240)에 의해 선택된 음소 시퀀스(245) 내의 각 이전 음소에 기초하여 주어진 출력 단계에 대한 가능한 음소들의 확률 분포를 생성한다. 일부 구현예에서, 디코더(230)는 어텐션 모듈(220)에 의해 어시스트되는 장단기 메모리(LSTM) 셀들의 스택을 포함한다. 특히, 인코더(210), 어텐션 모듈(220) 및 디코더(230)의 조합은 캐스케이드 S2ST 시스템에서 통상적으로 발견되는 다이렉트 스피치-투-텍스트 변환(ST) 구성요소와 유사하다.
합성기(300)는 복수의 출력 단계 각각 동안 입력으로서, 대응하는 출력 단계에서 음소 표현(235)(또는 음소 시퀀스(245))과 컨텍스트 벡터(225)의 연결(concatenation)을 수신하고, 복수의 출력 단계 각각에서의 출력으로서, 타겟/제2 언어 및 소스 화자(104)의 보이스로 번역된 합성 스피치 표현에 대응하는 출력 오디오 데이터(106)를 생성한다. 대안적으로, 합성기(300)는 음소 표현(235) 및 컨텍스트 벡터(225)를 (예를 들어, 임의의 연결 없이) 수신할 수 있다. 합성기(300)는 스펙트로그램 디코더(spectrogram decoder)라고도 불릴 수 있다. 일부 예에서, 합성기는 예측된 각 출력 스펙트로그램이 이전에 예측된 스펙트로그램들의 시퀀스를 기초로 하는 자기회귀적이다. 다른 예에서, 합성기(300)는 병렬적이고 비자기회귀적이다.
도 3은 도 1의 합성기(300)의 일 예를 제공한다. 여기서, 합성기(300)는 음소 지속시간 모델링 네트워크(즉, 지속시간 예측기)(310), 업샘플러 모듈(320), 순환 신경 네트워크(RNN)(330) 및 컨벌루션 레이어(340)를 포함할 수 있다. 지속시간 모델링 네트워크는 디코더(230)로부터 음소 표현(235)을 수신하고 어텐션 모듈(220)로부터 컨텍스트 벡터(224)를 입력으로 수신한다. 또한, 지속시간 모델링 네트워크(310)는 타겟/제2 언어로 번역된 합성 스피치 표현을 나타내는 출력 오디오 데이터(106)에 대응하는 음소 표현(235) 내의 각 음소에 대한 지속시간(315)을 예측하는 태스크를 수행한다. 트레이닝 동안, 각 음소에 대한 개별 타겟 지속시간(315)은 알려지지 않았으므로, 지속시간 모델 네트워크(310)는 전체 레퍼런스 멜-주파수 스펙트로그램 시퀀스의 T개의 총 프레임 지속시간과 레퍼런스 멜-주파수 스펙트로그램 시퀀스에 대응하는 레퍼런스 음소 시퀀스 내의 K개의 총 음소들(예를 들어, 토큰들) 수의 비율에 기초하여 타겟 평균 지속시간을 결정한다. 즉, 타겟 평균 지속시간은 트레이닝 중에 사용된 레퍼런스 멜-주파수 스펙트로그램 시퀀스와 레퍼런스 음소 시퀀스를 사용한 모든 음소의 평균 지속시간이다. 트레이닝 중에 손실 항(예: L2 손실 항)은 예측된 음소 지속시간들과 타겟 평균 지속시간 사이에서 결정된다. 따라서, 지속시간 모델 네트워크(310)는 외부 정렬기(aligner)로부터 제공되는 지도(supervised) 음소 지속시간 레이블들을 사용하지 않고 비지도(unsupervised) 방식으로 음소 지속시간들을 예측하는 방법을 학습한다. 외부 정렬기는 음소들과 멜-스펙트럼 프레임들 사이에 합리적인 정렬들을 제공할 수 있지만, 길이 조절기에서는 해당 지속시간에 따라 레퍼런스 음소 시퀀스 내의 음소들을 업샘플링하기 위해 음소 지속시간 반올림(rounding)이 필요하며 이로 인해 지속될 수 있는 반올림 오류들이 발생한다. 일부 예에서, 트레이닝 동안 외부 정렬기로부터의 지도 지속시간 레이블들을 사용하고 추론 동안 예측된 지속시간들을 사용하는 것은 S2ST 모델(200)의 트레이닝과 S2ST 모델(200)의 추론 사이에 음소 지속시간 불일치를 발생시킨다. 또한, 이러한 반올림 연산은 미분가능하지(differentiable) 않으므로 오류 그래디언트(gradient)는 지속시간 모델 네트워크를 통해 전파될 수 없다.
업샘플러(320)는 예측된 지속시간들(315), 컨텍스트 벡터(225) 및 음소 표현을 입력으로 수신하고 출력(235)을 생성한다. 특히, 업샘플러(320)는 지속시간 모델 네트워크(315)로부터의 예측된 지속시간들(315)에 기초하여 입력 시퀀스(예를 들어, 음소 표현(235) 또는 음소 시퀀스(245))를 업샘플링하도록 구성된다. RNN(330)은 출력(335)을 수신하고 오디오 데이터(106)(예를 들어, 타겟/제2 언어로 된 번역된 타겟 합성 스피치 표현)에 대응하는 타겟 멜-스펙트로그램(335)을 자기회귀적으로 예측하도록 구성된다. RNN(330)은 타겟 멜-스펙트로그램(335)을 컨벌루션 레이어(340)와 연결기(350)에 제공한다. 컨벌루션 레이어(340)는 타겟 멜-스펙트로그램(335)을 더욱 세분화하고 출력(345)을 생성하도록 구성된 잔차 컨벌루션 포스트-넷(post-net)을 제공한다. 즉, 컨벌루션 레이어(340)는 제2 언어에서 예측된 번역된 합성 스피치 표현을 더욱 세분화한다. 연결기(350)는 출력(345)과 타겟 멜-스펙트로그램(335)을 연결하여 상이한 제2 언어로 발화되는 발화(108)의 번역에 대응하는 번역된 합성 스피치 표현(355)을 생성한다. 따라서, 번역된 합성 스피치 표현(355)은 오디오 데이터(106)(도 2)에 대응할 수 있다. 특히, 번역된 합성 스피치 표현(355)은 소스 화자(104)의 말하기 스타일/운율을 유지한다.
본 명세서의 구현예는 추가로 상이한 화자의 보이스로 합성된 스피치를 생성하는 능력 없이 소스 화자의 보이스만 유지하도록 트레이닝된 S2ST 모델(200)을 한정하는 보이스 유지 기술에 관한 것이다. 이 기술은 제1 언어의 입력 발화와 제2 언어의 출력 발화 모두에 대해 동일한 화자의 보이스를 사용한 병렬 발화들에 대한 트레이닝을 포함한다. 유창한 이중 언어 화자가 보편화되어 있지 않기 때문에, 교차 언어 TTS 모델을 사용하여 소스 화자의 보이스를 포함하는 타겟 제2 언어로 트레이닝 발화를 합성할 수 있다. 따라서, S2ST 모델(200)은 제1 언어의 소스 화자(104)로부터의 발화와 타겟 제2 언어의 소스 화자(104)의 합성된 트레이닝 발화를 이용하여 트레이닝할 수 있다. S2ST 모델(200)은 화자가 바뀌는 동안 각 소스 화자에 대해 번역된 합성 스피치에서 소스 화자 보이스를 유지하도록 추가로 트레이닝될 수 있다.
도 4는 인코더(210)의 컨포머 레이어들의 스택으로부터의 컨포머 블록(400)의 예를 제공한다. 컨포머 블록(400)은 제1 하프(half) 피드-포워드 레이어(410), 제2 하프 피드-포워드 레이어(440), 멀티-헤드 셀프 어텐션 블록(420) 및 제1 및 제2 하프 피드-포워드 레이어들(410, 440) 사이에 배치된 컨벌루션 레이어(430)와 연결 연산자(operator)들(405)을 포함한다. 제1 하프 피드-포워드 레이어(410)는 입력 멜-스펙트로그램 시퀀스를 포함하는 입력 오디오 데이터(102)를 프로세싱한다. 이어서, 멀티-헤드 셀프 어텐션 블록(420)은 제1 하프 피드-포워드 레이어(410)의 출력과 연결된 입력 오디오 데이터(102)를 수신한다. 직관적으로, 멀티-헤드 셀프 어텐션 블록(420)의 역할은 향상될 각 입력 프레임에 대해 별도로 노이즈 컨텍스트를 요약하는 것이다. 컨벌루션 레이어(430)는 제1 하프 피드-포워드 레이어(410)의 출력과 연결된 멀티-헤드 셀프 어텐션 블록(420)의 출력을 서브샘플링한다. 그 후, 제2 하프 피드-포워드 레이어(440)는 컨벌루션 레이어(430) 출력과 멀티-헤드 셀프 어텐션 블록(420)의 연결을 수신한다. 레이어놈(layernorm) 모듈은 제2 하프 피드-포워드 레이어(440)로부터의 출력을 프로세싱한다. 수학적으로, 컨포머 블록(400)은 변조(modulation) 피처 m을 사용하여 입력 피처 x를 변환하여 다음과 같이 출력 피처 y를 생성한다.
(1).
도 5는 다이렉트 스피치-투-스피치 번역을 수행하기 위한 컴퓨터 구현 방법(500)에 대한 예시적인 동작 배열의 흐름도이다. 동작(502)에서, 방법(500)은 제1 언어로 소스 화자(104)에 의해 발화된 발화(108)에 대응하는 입력 스피치 표현(102)을 수신하는 것을 포함한다. 동작(504)에서, 방법(500)은 입력 스피치 표현(102)을 히든 피처 표현(215)으로 인코딩하는 S2ST 모델(200)의 인코더(210)를 포함한다. 동작(506)에서, 방법(500)은 인코더(210)에 의해 인코딩된 히든 피처 표현(215)에 주의를 기울이는 컨텍스트 벡터(225)를 생성하는 S2ST 모델(200)의 어텐션 모듈(220)을 포함한다. 동작(508)에서, 방법(500)은 S2ST 모델(200)의 디코더(230)에서 컨텍스트 벡터(225)를 수신하는 것을 포함한다. 동작(510)에서, 방법(500)은 디코더(230)가 상이한 제2 언어로 된 발화(108)의 번역에 대응하는 음소 표현(235)을 예측하는 것을 포함한다. 동작(512)에서, 방법(500)은 S2ST 모델(200)의 합성기(300)에서 컨텍스트 벡터(225) 및 음소 표현(235)을 수신하는 것을 포함한다. 동작(514)에서, 방법(500)은 합성기(300)에 의해, 상이한 제2 언어로 발화된 발화(108)의 번역에 대응하는 번역된 스피치 표현(355)을 생성하는 것을 포함한다.
소프트웨어 애플리케이션(즉, 소프트웨어 리소스)은 컴퓨팅 장치로 하여금 태스크를 수행하게 하는 컴퓨터 소프트웨어를 의미할 수 있다. 일부 예에서, 소프트웨어 애플리케이션은 "애플리케이션", "앱" 또는 "프로그램"으로 지칭될 수 있다. 예시적인 애플리케이션은 시스템 진단 애플리케이션, 시스템 관리 애플리케이션, 시스템 유지 관리 애플리케이션, 워드 프로세싱 애플리케이션, 스프레드시트 애플리케이션, 메시징 애플리케이션, 미디어 스트리밍 애플리케이션, 소셜 네트워킹 애플리케이션 및 게임 애플리케이션이 포함되지만 이에 국한되지는 않는다.
비일시적 메모리는 컴퓨팅 장치에 의해 사용되기 위해 임시 또는 영구적으로 프로그램(예를 들어, 명령어들의 시퀀스) 또는 데이터(예를 들어, 프로그램 상태 정보)를 저장하는 데 사용되는 물리적 장치일 수 있다. 비일시적 메모리는 휘발성 및/또는 비휘발성 주소 지정가능 반도체 메모리일 수 있다. 비휘발성 메모리의 예로는 플래시 메모리 및 읽기 전용 메모리(ROM) / 프로그램가능 읽기 전용 메모리(PROM) / 지울 수 있는 프로그램가능 읽기 전용 메모리(EPROM) / 전자적으로 지울 수 있는 프로그램가능 읽기 전용 메모리(EEPROM)(예: 일반적으로 부팅 프로그램과 같은 펌웨어에 사용됨)가 포함되지만, 이에 국한되지는 않는다. 휘발성 메모리의 예로는 랜덤 액세스 메모리(RAM), 동적 랜덤 액세스 메모리(DRAM), 정적 랜덤 액세스 메모리(SRAM), 위상 변화 메모리(PCM) 및 디스크나 테이프가 포함되지만, 이에 국한되지는 않는다.
도 6은 본 문서에 설명된 시스템 및 방법을 구현하는 데 사용될 수 있는 예시적인 컴퓨팅 장치(600)의 개략도이다. 컴퓨팅 장치(600)는 랩탑, 데스크탑, 워크스테이션, 퍼스널 디지털 어시스턴트, 서버, 블레이드 서버, 메인프레임 및 기타 적절한 컴퓨터와 같은 다양한 형태의 디지털 컴퓨터를 나타내도록 의도된다. 여기에 표시된 구성요소, 해당 연결 및 관계, 해당 기능은 단지 예시일 뿐이며 이 문서에 설명 및/또는 청구된 발명의 구현예를 제한하려는 의미는 아니다.
컴퓨팅 장치(600)는 프로세서(610), 메모리(620), 저장 장치(630), 메모리(620) 및 고속 확장 포트(650)를 연결하는 고속 인터페이스/컨트롤러(640), 및 저속 버스(670) 및 저장 장치(630)를 연결하는 저속 인터페이스/컨트롤러(660)를 포함한다. 구성요소들(610, 620, 630, 640, 650, 660) 각각은 다양한 버스를 사용하여 상호 연결되고, 공통 마더보드에 장착되거나 적절한 다른 방식으로 장착될 수 있다. 프로세서(610)는 고속 인터페이스(640)에 결합된 디스플레이(680)와 같은 외부 입/출력 장치에 그래픽 사용자 인터페이스(GUI)에 대한 그래픽 정보를 디스플레이하기 위해 메모리(620) 또는 저장 장치(630)에 저장된 명령어들을 포함하여 컴퓨팅 장치(600) 내에서 실행하기 위한 명령어들을 프로세싱할 수 있다. 다른 구현예에서, 다중 메모리 및 메모리 유형과 함께 다중 프로세서 및/또는 다중 버스가 적절하게 사용될 수 있다. 또한, 다수의 컴퓨팅 장치(600)는 필요한 동작의 부분을 제공하는 각 장치(예를 들어, 서버 뱅크, 블레이드 서버 그룹, 또는 다중 프로세서 시스템)와 연결될 수 있다.
메모리(620)는 컴퓨팅 장치(600) 내에 정보를 비일시적으로 저장한다. 메모리(620)는 컴퓨터 판독가능 매체, 휘발성 메모리 장치(들), 또는 비휘발성 메모리 장치(들)일 수 있다. 비일시적 메모리(620)는 컴퓨팅 장치(600)에 의해 사용되기 위해 임시 또는 영구적으로 프로그램(예를 들어, 명령어들의 시퀀스) 또는 데이터(예를 들어, 프로그램 상태 정보)를 저장하는 데 사용되는 물리적 장치일 수 있다. 비휘발성 메모리의 예로는 플래시 메모리 및 읽기 전용 메모리(ROM) / 프로그램가능 읽기 전용 메모리(PROM) / 지울 수 있는 프로그램가능 읽기 전용 메모리(EPROM) / 전자적으로 지울 수 있는 프로그램가능 읽기 전용 메모리(EEPROM)(예: 일반적으로 부팅 프로그램과 같은 펌웨어에 사용됨)가 포함되지만, 이에 국한되지는 않는다. 휘발성 메모리의 예로는 랜덤 액세스 메모리(RAM), 동적 랜덤 액세스 메모리(DRAM), 정적 랜덤 액세스 메모리(SRAM), 위상 변화 메모리(PCM) 및 디스크나 테이프가 포함되지만, 이에 국한되지는 않는다.
저장 장치(630)는 컴퓨팅 장치(600)에 대용량 저장 장치를 제공할 수 있다. 일부 구현예에서, 저장 장치(630)는 컴퓨터 판독가능 매체이다. 다양한 다른 구현예에서, 저장 장치(630)는 플로피 디스크 장치, 하드 디스크 장치, 광 디스크 장치, 또는 테이프 장치, 플래시 메모리 또는 다른 유사한 고체 상태 메모리 장치, 또는 저장 영역 네트워크 또는 다른 구성의 장치를 포함하는 장치의 어레이일 수 있다. 추가적인 구현예에서, 컴퓨터 프로그램 제품은 정보 매체에 유형적으로 구현된다. 컴퓨터 프로그램 제품에는 실행 시 위에 설명된 것과 같은 하나 이상의 방법을 수행하는 명령어들이 포함되어 있다. 정보 매체는 메모리(620), 저장 장치(630), 또는 프로세서(610)의 메모리와 같은 컴퓨터 또는 기계 판독가능 매체이다.
고속 컨트롤러(640)는 컴퓨팅 장치(600)에 대한 대역폭 집약적 동작을 관리하는 반면, 저속 컨트롤러(660)는 낮은 대역폭 집약적 동작을 관리한다. 이러한 업무 할당은 예시일 뿐이다. 일부 구현예에서, 고속 컨트롤러(640)는 메모리(620), 디스플레이(680)(예를 들어, 그래픽 프로세서 또는 가속기를 통해) 및 다양한 확장 카드(도시되지 않음)를 수용할 수 있는 고속 확장 포트(650)에 결합된다. 일부 구현예에서, 저속 컨트롤러(660)는 저장 장치(630) 및 저속 확장 포트(690)에 결합된다. 저속 확장 포트(690)는 다양한 통신 포트(예: USB, 블루투스, 이더넷, 무선 이더넷 등)를 포함할 수 있으며, 예를 들어 네트워크 어댑터를 통해 키보드, 포인팅 장치, 스캐너 또는 스위치나 라우터와 같은 네트워킹 장치와 같은 하나 이상의 입출력 장치와 결합될 수 있다.
컴퓨팅 장치(600)는 도면에 도시된 바와 같이 다수의 다른 형태로 구현될 수 있다. 예를 들어, 이는 표준 서버(600a)로서 또는 이러한 서버(600a) 그룹에서 여러 번, 랩탑 컴퓨터(600b)로서 또는 랙 서버 시스템(600c)의 일부로서 구현될 수 있다.
본 명세서에 설명된 시스템 및 기술의 다양한 구현예는 디지털 전자 및/또는 광학 회로, 집적 회로, 특별히 설계된 ASIC(애플리케이션 특정 집적 회로)들, 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현예는 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치로부터 데이터 및 명령어들을 수신하고 데이터 및 명령어들을 전송하기 위해 결합되는, 특수 또는 범용일 수 있는, 적어도 하나의 프로그래밍가능 프로세서를 포함하는 프로그래밍가능 시스템에서 실행가능 및/또는 해석가능한 하나 이상의 컴퓨터 프로그램에서의 구현을 포함할 수 있다.
이러한 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드라고도 함)은 프로그래밍가능 프로세서를 위한 기계 명령어들을 포함하고, 고급 절차적 및/또는 객체 지향 프로그래밍 언어 및 어셈블리/기계 언어로 구현될 수 있다. 본 문서에 사용된 용어 "기계 판독가능 매체" 및 "컴퓨터 판독가능 매체"는 기계 판독가능 신호로서 기계 명령어들을 수신하는 기계 판독가능 매체를 포함하여, 기계 명령어들 및/또는 데이터를 프로그래밍가능 프로세서에 제공하는 데 사용되는 모든 컴퓨터 프로그램 제품, 비일시적 컴퓨터 판독가능 매체, 기기 및/또는 장치(예: 자기 디스크, 광 디스크, 메모리, 프로그래밍가능 로직 장치(PLD))를 의미한다. "기계 판독가능 신호"라는 용어는 기계 명령어들 및/또는 데이터를 프로그래밍가능 프로세서에 제공하는 데 사용되는 모든 신호를 의미한다.
본 명세서에 설명된 프로세스 및 로직 흐름은 입력 데이터에 대해 동작하고 출력을 생성함으로써 기능을 수행하는 하나 이상의 컴퓨터 프로그램을 실행하는 데이터 프로세싱 하드웨어라고도 하는 하나 이상의 프로그래밍가능 프로세서들에 의해 수행될 수 있다. 프로세스 및 로직 흐름은 FPGA(필드 프로그래밍가능 게이트 어레이) 또는 ASIC(애플리케이션 특정 집적 회로)와 같은 특수 목적 로직 회로에 의해 수행될 수도 있다. 컴퓨터 프로그램의 실행에 적합한 프로세서에는 예를 들어 범용 및 특수 목적 마이크로프로세서, 그리고 모든 종류의 디지털 컴퓨터의 하나 이상의 프로세서가 포함된다. 일반적으로, 프로세서는 읽기 전용 메모리나 랜덤 액세스 메모리 또는 둘 다로부터 명령어들과 데이터를 수신한다. 컴퓨터의 필수 요소는 명령어들을 수행하는 프로세서와 명령어들 및 데이터를 저장하는 하나 이상의 메모리 장치이다. 일반적으로, 컴퓨터는 또한 데이터를 저장하기 위한 하나 이상의 대용량 저장 장치, 예를 들어 자기, 광자기 디스크 또는 광 디스크로부터 데이터를 수신하거나 전송하거나 둘 모두를 포함하거나 동작가능하게 결합될 것이다. 그러나 컴퓨터에 그러한 장치가 있을 필요는 없다. 컴퓨터 프로그램 명령어들 및 데이터를 저장하는 데 적합한 컴퓨터 판독가능 매체는 EPROM, EEPROM 및 플래시 메모리 장치와 같은 반도체 메모리 장치; 내부 하드 디스크 또는 이동식 디스크와 같은 자기 디스크; CD ROM 및 DVD-ROM 디스크를 포함하는 모든 형태의 비휘발성 메모리, 매체 및 메모리 장치를 포함한다. 프로세서와 메모리는 특수 목적 로직 회로로 보완되거나 통합될 수 있다.
사용자와의 상호작용을 제공하기 위해, 본 개시의 하나 이상의 측면은 사용자에게 정보를 디스플레이하기 위한 예를 들어 CRT(음극선관), LCD(액정 디스플레이) 모니터 또는 터치 스크린과 같은 디스플레이 장치 및 선택적으로 사용자가 컴퓨터에게 입력을 제공할 수 있는 키보드 및 포인팅 디바이스, 예를 들어 마우스 또는 트랙볼을 갖는 컴퓨터에서 구현될 수 있다. 다른 종류의 장치도 사용자와의 상호작용을 제공하는 데 사용될 수 있으며; 예를 들어, 사용자에게 제공되는 피드백은 시각적 피드백, 청각적 피드백 또는 촉각적 피드백과 같은 임의의 형태의 감각 피드백일 수 있으며; 사용자로부터의 입력은 음향, 스피치 또는 촉각적 입력을 포함한 모든 형태로 수신될 수 있다. 또한 컴퓨터는 사용자가 사용하는 장치와 문서를 주고받는 방식으로 사용자와 상호 작용할 수 있으며; 예를 들어, 웹 브라우저에서 받은 요청에 대한 응답으로 사용자의 클라이언트 장치에 있는 웹 브라우저로 웹 페이지를 보낸다.
다수의 구현예가 설명되었다. 그럼에도 불구하고, 본 개시의 사상 및 범위를 벗어나지 않고 다양한 수정이 이루어질 수 있음이 이해될 것이다. 따라서, 다른 구현예는 다음 청구범위의 범위 내에 있다.

Claims (20)

  1. 다이렉트 스피치-투-스피치 번역(S2ST) 모델(200)에 있어서, 상기 S2ST 모델(200)은:
    인코더(210), 상기 인코더(210)는:
    소스 화자(104)에 의해 제1 언어로 발화된 발화(108)에 대응하는 입력 스피치 표현(102)을 수신하고; 그리고
    입력 스피치 표현(102)을 히든(hidden) 피처 표현(215)으로 인코딩하도록 구성되며;
    어텐션(attention) 모듈(220), 상기 어텐션 모듈(220) 상기 인코더(210)에 의해 인코딩된 히든 피처 표현(215)에 주의를 기울이는 컨텍스트 벡터(225)를 생성하도록 구성되며;
    디코더(230), 상기 디코더(230)는:
    상기 어텐션 모듈(220)에 의해 생성된 컨텍스트 벡터(225)를 수신하고; 그리고
    상이한 제2 언어로 된 발화(108)의 번역에 대응하는 음소 표현(235)을 예측하도록 구성되며; 및
    합성기(300)를 포함하고, 상기 합성기(300)는:
    컨텍스트 벡터(225) 및 음소 표현(235)을 수신하고; 그리고
    상이한 제2 언어로 발화된 발화(108)의 번역에 대응하는 번역된 합성 스피치 표현(355)을 생성하도록 구성되는, S2ST 모델(200).
  2. 제1항에 있어서,
    상기 인코더(210)는 컨포머(conformer) 블록들(400)의 스택을 포함하는, S2ST 모델(200).
  3. 제1항 또는 제2항에 있어서,
    상기 인코더(210)는 트랜스포머 블록들 또는 경량(lightweight) 컨벌루션 블록들 중 하나의 스택을 포함하는, S2ST 모델(200).
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 합성기(300)는 음소 표현(235)에 의해 표현되는 음소들의 시퀀스에서 각 음소의 지속시간(315)을 예측하도록 구성된 지속시간 모델 네트워크(310)를 포함하는, S2ST 모델(200).
  5. 제4항에 있어서,
    상기 합성기(300)는 각 음소의 예측된 지속시간(315)에 기초하여 음소들의 시퀀스를 업샘플링함으로써 번역된 합성 스피치 표현(102)을 생성하도록 구성되는, S2ST 모델(200).
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    번역된 합성 스피치 표현(102)은 소스 화자(104)의 말하기 스타일/운율로 구성되는, S2ST 모델(200).
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 S2ST 모델(200)은 병렬 소스 언어 및 타겟 언어 발화들의 쌍들에 대해 트레이닝되고, 각 쌍은 소스 발화에서 발화되는 보이스를 포함하는, S2ST 모델(200).
  8. 제7항에 있어서,
    소스 언어 발화(108) 또는 타겟 언어 발화 중 적어도 하나는 소스 발화(108)의 보이스로 합성 스피치를 생성하도록 트레이닝된 텍스트-투-스피치 모델에 의해 합성된 스피치를 포함하는, S2ST 모델(200).
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    보코더(375)는:
    번역된 합성 스피치 표현(355)을 수신하고; 그리고
    번역된 합성 스피치 표현(355)을 번역된 합성 스피치 표현(355)의 가청 출력으로 합성하도록 구성되는, S2ST 모델(200).
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,
    음소 표현(235)은 번역된 합성 스피치 표현(355)에 대응하는 음소 시퀀스 내의 가능한 음소들의 확률 분포를 포함하는, S2ST 모델(200).
  11. 데이터 프로세싱 하드웨어에서 실행될 때 상기 데이터 프로세싱 하드웨어로 하여금 동작들을 수행하게 하는 컴퓨터 구현 방법(500)에 있어서, 상기 동작들은:
    다이렉트 스피치-투-스피치 번역(S2ST) 모델(200)에 대한 입력으로서, 소스 화자(104)에 의해 제1 언어로 발화된 발화(108)에 대응하는 입력 스피치 표현(102)을 수신하는 동작;
    상기 S2ST 모델(200)의 인코더(210)에 의해, 입력 스피치 표현(102)을 히든(hidden) 피처 표현(215)으로 인코딩하는 동작;
    상기 S2ST 모델(200)의 어텐션(attention) 모듈(220)에 의해, 상기 인코더(210)에 의해 인코딩된 히든 피처 표현(215)에 주의를 기울이는 컨텍스트 벡터(225)를 생성하는 동작;
    상기 S2ST 모델(200)의 디코더(230)에서, 상기 어텐션 모듈(220)에 의해 생성된 컨텍스트 벡터(225)를 수신하는 동작;
    상기 디코더(230)에 의해, 상이한 제2 언어로 된 발화(108)의 번역에 대응하는 음소 표현(235)을 예측하는 동작;
    상기 S2ST 모델(200)의 합성기(300)에서, 컨텍스트 벡터(225) 및 음소 표현(235)을 수신하는 동작; 및
    상기 합성기(300)에 의해, 상이한 제2 언어로 발화된 발화(108)의 번역에 대응하는 번역된 합성 스피치 표현(355)을 생성하는 동작을 포함하는, 컴퓨터 구현 방법(500).
  12. 제11항에 있어서,
    상기 인코더(210)는 컨포머(conformer) 블록들(400)의 스택을 포함하는, 컴퓨터 구현 방법(500).
  13. 제11항 또는 제12항에 있어서,
    상기 인코더(210)는 트랜스포머 블록들 또는 경량(lightweight) 컨벌루션 블록들 중 하나의 스택을 포함하는, 컴퓨터 구현 방법(500).
  14. 제11항 내지 제13항 중 어느 한 항에 있어서,
    상기 합성기(300)는 음소 표현(235)에 의해 표현되는 음소들의 시퀀스에서 각 음소의 지속시간(315)을 예측하도록 구성된 지속시간 모델 네트워크(310)를 포함하는, 컴퓨터 구현 방법(500).
  15. 제14항에 있어서,
    번역된 합성 스피치 표현(355)을 생성하는 동작은 각 음소의 예측된 지속시간(315)에 기초하여 음소들의 시퀀스를 업샘플링하는 동작을 포함하는, 컴퓨터 구현 방법(500).
  16. 제11항 내지 제15항 중 어느 한 항에 있어서,
    번역된 합성 스피치 표현(355)은 소스 화자(104)의 말하기 스타일/운율로 구성되는, 컴퓨터 구현 방법(500).
  17. 제11항 내지 제16항 중 어느 한 항에 있어서,
    상기 S2ST 모델(200)은 병렬 소스 언어 및 타겟 언어 발화들의 쌍들에 대해 트레이닝되고, 각 쌍은 소스 발화에서 발화되는 보이스를 포함하는, 컴퓨터 구현 방법(500).
  18. 제17항에 있어서,
    소스 언어 발화(108) 또는 타겟 언어 발화 중 적어도 하나는 소스 발화(108)의 보이스로 합성 스피치를 생성하도록 트레이닝된 텍스트-투-스피치 모델에 의해 합성된 스피치를 포함하는, 컴퓨터 구현 방법(500).
  19. 제11항 내지 제18항 중 어느 한 항에 있어서,
    상기 동작들은:
    보코더(375)에서, 번역된 합성 스피치 표현(355)을 수신하는 동작; 및
    보코더(375)에 의해, 번역된 합성 스피치 표현(355)을 번역된 합성 스피치 표현(355)의 가청 출력으로 합성하는 동작을 더 포함하는, 컴퓨터 구현 방법(500).
  20. 제11항 내지 제19항 중 어느 한 항에 있어서,
    음소 표현(235)은 번역된 합성 스피치 표현(355)에 대응하는 음소 시퀀스 내의 가능한 음소들의 확률 분포를 포함하는, 컴퓨터 구현 방법(500).
KR1020247002341A 2021-07-16 2021-12-15 견고한 다이렉트 스피치-투-스피치 번역 KR20240024960A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163203329P 2021-07-16 2021-07-16
US63/203,329 2021-07-16
PCT/US2021/063429 WO2023287446A1 (en) 2021-07-16 2021-12-15 Robust direct speech-to-speech translation

Publications (1)

Publication Number Publication Date
KR20240024960A true KR20240024960A (ko) 2024-02-26

Family

ID=80112112

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020247002341A KR20240024960A (ko) 2021-07-16 2021-12-15 견고한 다이렉트 스피치-투-스피치 번역

Country Status (5)

Country Link
US (1) US11960852B2 (ko)
EP (1) EP4360085A1 (ko)
KR (1) KR20240024960A (ko)
CN (1) CN117642814A (ko)
WO (1) WO2023287446A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116741149B (zh) * 2023-06-08 2024-05-14 北京家瑞科技有限公司 跨语言语音转换方法、训练方法及相关装置
CN117727306A (zh) * 2023-12-21 2024-03-19 青岛润恒益科技有限公司 一种基于原生声纹特征的拾音翻译方法、设备及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8594993B2 (en) 2011-04-04 2013-11-26 Microsoft Corporation Frame mapping approach for cross-lingual voice transformation
US20220020355A1 (en) * 2018-12-13 2022-01-20 Microsoft Technology Licensing, Llc Neural text-to-speech synthesis with multi-level text information
US20210209315A1 (en) * 2019-03-29 2021-07-08 Google Llc Direct Speech-to-Speech Translation via Machine Learning
US11562734B2 (en) * 2021-01-04 2023-01-24 Kwai Inc. Systems and methods for automatic speech recognition based on graphics processing units
US20220327292A1 (en) * 2021-04-13 2022-10-13 Universitat Politècnica De Catalunya Multilingual translator
US11694674B1 (en) * 2021-05-26 2023-07-04 Amazon Technologies, Inc. Multi-scale spectrogram text-to-speech
US20230169281A1 (en) * 2021-11-23 2023-06-01 Baidu Usa Llc Fused acoustic and text encoding for multimodal bilingual pretraining and speech translation

Also Published As

Publication number Publication date
CN117642814A (zh) 2024-03-01
US20230013777A1 (en) 2023-01-19
WO2023287446A1 (en) 2023-01-19
US11960852B2 (en) 2024-04-16
EP4360085A1 (en) 2024-05-01

Similar Documents

Publication Publication Date Title
US20210209315A1 (en) Direct Speech-to-Speech Translation via Machine Learning
US20200226327A1 (en) System and method for direct speech translation system
KR20220004737A (ko) 다국어 음성 합성 및 언어간 음성 복제
KR102625184B1 (ko) 고유 음성 사운드를 생성하기 위한 음성 합성 트레이닝
KR20220035180A (ko) E2E(End-to-end) 음성 합성 시스템에서 표현력 제어
KR20230156121A (ko) 비지도 병렬 타코트론 비-자기회귀 및 제어 가능한 TTS(text-to-speech)
US11842728B2 (en) Training neural networks to predict acoustic sequences using observed prosody info
KR20230084229A (ko) 병렬 타코트론: 비-자동회귀 및 제어 가능한 tts
KR20240024960A (ko) 견고한 다이렉트 스피치-투-스피치 번역
US20230178067A1 (en) Method of training speech synthesis model and method of synthesizing speech
JP2024505076A (ja) 多様で自然なテキスト読み上げサンプルを生成する
JP7502561B2 (ja) 言語間音声合成を改良するための音声認識の使用
AU2022203531B1 (en) Real-time speech-to-speech generation (rssg) apparatus, method and a system therefore
JP2024512605A (ja) 柔軟なストリーミングおよび非ストリーミング自動音声認識のための混合モデルアテンション
KR20220128401A (ko) 어텐션-기반 조인트 음향 및 텍스트 온-디바이스 E2E(End-To-End) 모델
Shankarappa et al. A faster approach for direct speech to speech translation
CN114373445B (zh) 语音生成方法、装置、电子设备及存储介质
Bhajikhaye et al. Language Translation by Stand-Alone Voice Cloning: A Multispeaker Text-To-Speech Synthesis Approach based on Transfer Learning
Vuppala et al. Outcomes of Speech to Speech Translation for Broadcast Speeches and Crowd Source Based Speech Data Collection Pilot Projects
KR20240022598A (ko) 셀프 지도 스피치 사전 트레이닝에서 텍스트 삽입하기
KR20240096867A (ko) 2-레벨 스피치 운율 전송
CN115695943A (zh) 数字人视频生成方法、装置、设备及存储介质
Roque Seamless: In-Depth Walkthrough of Meta’s New Open-Source Suite of Translation Models Meta’s open-source Seamless models: A deep dive into translation model architectures and a Python implementation guide using HuggingFace

Legal Events

Date Code Title Description
A201 Request for examination