KR20230116877A - 분리된 스피치 콘텐츠 및 스타일 표현의 비지도 학습 - Google Patents

분리된 스피치 콘텐츠 및 스타일 표현의 비지도 학습 Download PDF

Info

Publication number
KR20230116877A
KR20230116877A KR1020237022112A KR20237022112A KR20230116877A KR 20230116877 A KR20230116877 A KR 20230116877A KR 1020237022112 A KR1020237022112 A KR 1020237022112A KR 20237022112 A KR20237022112 A KR 20237022112A KR 20230116877 A KR20230116877 A KR 20230116877A
Authority
KR
South Korea
Prior art keywords
style
content
input speech
encoder
potential
Prior art date
Application number
KR1020237022112A
Other languages
English (en)
Inventor
루오밍 팡
안드로스 티얀드라
유 장
시게키 카리타
Original Assignee
구글 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 구글 엘엘씨 filed Critical 구글 엘엘씨
Publication of KR20230116877A publication Critical patent/KR20230116877A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • G10L2021/0135Voice conversion or morphing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

언어적 콘텐츠 및 스피킹 스타일 분리 모델(100)은 콘텐츠 인코더(110), 스타일 인코더(130) 및 디코더(150)를 포함한다. 콘텐츠 인코더는 입력 스피치(102)를 입력으로 수신하고 입력 스피치에 대한 언어적 콘텐츠의 잠재적 표현(120)을 출력으로 생성하도록 구성된다. 콘텐츠 인코더는 언어적 콘텐츠의 잠재적 표현으로부터 스피킹 스타일 정보를 분리하도록 트레이닝된다. 스타일 인코더는 입력 스피치를 입력으로 수신하고 입력 스피치에 대한 스피킹 스타일(140)의 잠재적 표현을 출력으로 생성하도록 구성된다. 스타일 인코더는 스피킹 스타일의 잠재적 표현으로부터 언어적 콘텐츠 정보를 분리하도록 트레이닝된다. 디코더는 입력 스피치에 대한 언어적 콘텐츠의 잠재적 표현 및 동일하거나 상이한 입력 스피치에 대한 스피킹 스타일의 잠재적 표현에 기반하여 출력 스피치(152)을 생성하도록 구성된다.

Description

분리된 스피치 콘텐츠 및 스타일 표현의 비지도 학습
본 개시는 분리된(disentangled) 스피치 콘텐츠 및 스타일 표현의 비지도(unsupervised) 학습에 관한 것이다.
스피치 파형들은 여러 기본 요소들의 영향을 받는 복잡하고, 고차원적인 형태의 데이터이며, 언어적 콘텐츠들 및 스피킹 스타일들로 크게 분류할 수 있다. 스피치에서 분리된 잠재적 표현들을 학습하는 것은 스피치 합성, 데이터 증강, 보이스 전송 및 스피치 압축을 포함하는 생성 태스크들에서 광범위한 애플리케이션들을 가지고 있다.
본 개시의 일 양태는 콘텐츠 인코더, 스타일 인코더 및 디코더를 포함하는 언어적 콘텐츠 및 스피킹 스타일 분리 모델을 제공한다. 콘텐츠 인코더는 입력으로서, 입력 스피치를 수신하고, 출력으로서, 입력 스피치에 대한 언어적 콘텐츠의 잠재적 표현을 생성하도록 구성된다. 콘텐츠 인코더는 언어적 콘텐츠의 잠재적 표현으로부터 스피킹 스타일 정보를 분리하도록 트레이닝된다. 스타일 인코더는 입력으로서, 동일하거나 상이한 입력 스피치를 수신하고, 출력으로서, 동일하거나 상이한 입력 스피치에 대한 스피킹 스타일의 잠재적 표현을 생성하도록 구성된다. 스타일 인코더는 스피킹 스타일의 잠재적 표현으로부터 언어적 콘텐츠 정보를 분리하도록 트레이닝된다. 디코더는 입력 스피치에 대한 언어적 콘텐츠의 잠재 표현 및 동일하거나 다른 입력 스피치에 대한 스피킹 스타일의 잠재적 표현에 기반하여 출력 스피치를 생성하도록 구성된다.
본 개시의 구현 예들은 다음의 선택적 특징들 중 하나 이상을 포함할 수 있다. 일부 구현예들에서, 콘텐츠 인코더는 입력 스피치에서 스피킹 스타일 변이들을 폐기하는 언어적 콘텐츠의 개별 타임스텝별 잠재적 표현으로서 언어적 콘텐츠의 잠재적 표현을 생성한다. 콘텐츠 인코더는: 입력 스피치를 입력으로서 수신하고 언어적 콘텐츠의 초기 개별 타임스텝별 잠재적 표현을 생성하도록 구성된 하나 이상의 콘벌루션 레이어들; 및 입력 스피치를 형성하는 언어적 콘텐츠를 나타내는 잠재적 변수들의 시퀀스로서 언어적 콘텐츠의 잠재적 표현을 생성하기 위해 언어적 콘텐츠의 각 초기 개별 타임스텝별 잠재적 표현에 직선 기울기들을 갖는 정보 버틀넥(bottleneck)을 적용하도록 구성된 벡터 양자화(VQ) 레이어를 포함할 수 있다. 여기서, 콘텐츠 인코더는 각 타임스텝에 대해 생성된 언어적 콘텐츠의 잠재적 표현에 기반한 콘텐츠 VQ 손실을 사용하여 트레이닝될 수 있으며, VQ 손실은 콘텐츠 인코더가 출력과 가장 가까운 코드북 사이의 거리를 최소화하도록 한다.
일부 예들에서, 스타일 인코더는 입력 스피치를 입력으로서 수신하도록 구성된 하나 이상의 컨벌루션 레이어들; 및 스피킹 스타일의 잠재적 표현에 대응하는 글로벌 잠재적 스타일 변수를 추출하기 위해 시간 축에 걸쳐 글로벌 평균 풀링(pooling) 동작을 사용하여 하나 이상의 컨볼루션 레이어들로부터의 출력을 요약하도록 구성된 가우시안 포스테리어(Gaussian posterior)를 갖는 변이 레이어를 포함한다. 이 예들에서, 트레이닝 동안, 글로벌 잠재적 스타일 변수는 스타일 인코더에 의해 예측된 스타일 잠재적 변수들의 평균 및 분산에서 샘플링될 수 있고, 추론 동안, 글로벌 잠재적 스타일 변수는 스타일 인코더에 의해 예측된 글로벌 잠재적 스타일 변수들의 평균에서 샘플링될 수 있다. 추가적으로 또는 대안적으로, 스타일 인코더는 스타일 인코더에 의해 예측된 스타일 잠재적 변수들의 평균 및 분산에 기반한 스타일 정규화 손실을 사용하여 트레이닝될 수 있고, 여기서 스타일 인코더는 유닛 가우시안 프라이어(Gaussian prior)를 갖는 가우시안 포스테리어 사이의 쿨백-라이블러(Kullback-Leibler) 다이버전스를 최소화하기 위해 스타일 정규화 손실을 사용한다.
일부 구현예들에서, 디코더는: 입력 스피치에 대한 언어적 콘텐츠의 잠재적 표현 및 동일한 입력 스피치에 대한 스피킹 스타일의 잠재적 표현을 입력으로서 수신하고; 그리고 입력 스피치의 재구성을 포함하는 출력 스피치를 출력으로서 생성하도록 구성된다. 모델은 입력 스피치와 디코더로부터 출력된 입력 스피치의 재구성 사이의 재구성 손실을 사용하여 트레이닝될 수 있다.
일부 추가 구현예들에서, 디코더는: 입력 스피치에 대한 언어적 콘텐츠의 잠재적 표현 및 상이한 입력 스피치에 대한 스피킹 스타일의 잠재적 표현을 입력으로서 수신하고; 그리고 입력 스피치에 의해 지정된 언어적 콘텐츠 정보 및 상이한 입력 스피치에 의해 지정된 스피킹 스타일 정보를 포함하는 출력 스피치를 출력으로서 생성하도록 구성된다. 콘텐츠 인코더 및 스타일 인코더는 언어적 콘텐츠 및 스피킹 스타일의 잠재적 표현들에서 캡처된 상호 정보를 최소화하기 위해 상호 정보 손실을 사용하여 트레이닝될 수 있다.
본 개시의 또 다른 양태는 데이터 프로세싱 하드웨어에서 실행될 때, 데이터 프로세싱 하드웨어로 하여금 동작들을 수행하게 하는 컴퓨터 구현 방법을 제공하고, 동작들은 입력 스피치를 수신하는 동작 및 콘텐츠 인코더를 사용하여, 입력 스피치에 대한 언어적 콘텐츠의 잠재적 표현을 생성하기 위해 입력 스피치를 프로세싱하는 동작을 포함한다. 콘텐츠 인코더는 언어적 콘텐츠의 잠재적 표현으로부터 스피킹 스타일 정보를 분리하도록 트레이닝된다. 동작들은 또한 스타일 인코더를 사용하여, 동일하거나 상이한 입력 스피치에 대한 스피킹 스타일의 잠재적 표현을 생성하기 위해 동일하거나 상이한 입력 스피치를 프로세싱하는 동작, 및 디코더를 사용하여, 출력 스피치를 생성하기 위해 입력 스피치에 대한 언어적 콘텐츠의 잠재적 표현 및 동일하거나 상이한 입력 스피치에 대한 스피킹 스타일의 잠재적 표현을 프로세싱하는 동작을 포함한다. 스타일 인코더는 스피킹 스타일의 잠재적 표현으로부터 언어적 콘텐츠 정보를 분리하도록 트레이닝된다.
이 양태는 다음과 같은 선택적 특징들 중 하나 이상을 포함할 수 있다. 일부 구현예들에서, 언어적 콘텐츠의 잠재적 표현을 생성하기 위해 입력 스피치를 프로세싱하는 동작은 입력 스피치에서 스피킹 스타일 변이들을 폐기하는 언어적 콘텐츠의 개별 타임스텝별(per-timestep) 잠재적 표현으로서 언어적 콘텐츠의 잠재적 표현을 생성하기 위해 입력 스피치를 프로세싱하는 동작을 포함한다. 콘텐츠 인코더는: 입력 스피치를 입력으로서 수신하고 언어적 콘텐츠의 초기 개별 타임스텝별 잠재적 표현을 생성하도록 구성된 하나 이상의 콘볼루션 레이어들; 및 입력 스피치를 형성하는 언어적 콘텐츠를 나타내는 잠재적 변수들의 시퀀스로서 언어적 콘텐츠의 잠재적 표현을 생성하기 위해 언어적 콘텐츠의 각 초기 개별 타임스텝별 잠재적 표현에 직선 기울기들을 갖는 정보 버틀넥을 적용하도록 구성된 벡터 양자화(VQ) 레이어를 포함한다. 여기서, 콘텐츠 인코더는 각 타임스텝에 대해 생성된 언어적 콘텐츠의 잠재적 표현에 기반한 콘텐츠 VQ 손실을 사용하여 트레이닝될 수 있으며, VQ 손실은 상기 콘텐츠 인코더가 출력과 가장 가까운 코드북 사이의 거리를 최소화하도록 한다.
일부 예들에서, 스타일 인코더는: 입력 스피치를 입력으로서 수신하도록 구성된 하나 이상의 콘볼루션 레이어들; 및 스피킹 스타일의 잠재적 표현에 대응하는 글로벌 잠재적 스타일 변수를 추출하기 위해 시간 축에 걸쳐 글로벌 평균 풀링(pooling) 동작을 사용하여 하나 이상의 콘볼루션 레이어들로부터의 출력을 요약하도록 구성된 가우시안 포스테리어(Gaussian posterior)를 갖는 변이 레이어를 포함한다. 이 예들에서, 동작들은 트레이닝 동안, 스타일 인코더에 의해 예측된 스타일 잠재적 변수들의 평균 및 분산에서 글로벌 스타일 잠재적 변수를 샘플링하는 동작; 및 추론 동안, 스타일 인코더에 의해 예측된 글로벌 잠재적 스타일 변수들의 평균에서 글로벌 스타일 잠재적 변수를 샘플링하는 동작을 더 포함할 수 있다. 추가적으로 또는 대안적으로, 스타일 인코더는 스타일 인코더에 의해 예측된 스타일 잠재적 변수들의 평균 및 분산에 기반한 스타일 정규화 손실을 사용하여 트레이닝될 수 있으며, 여기서 스타일 인코더는 유닛 가우시안 프라이어(Gaussian prior)를 갖는 가우시안 포스테리어 사이의 쿨백-라이블러(Kullback-Leibler) 다이버전스를 최소화하기 위해 스타일 정규화 손실을 사용한다.
일부 구현예들에서, 디코더는: 입력으로서, 입력 스피치에 대한 언어적 콘텐츠의 잠재적 표현 및 동일한 입력 스피치에 대한 스피킹 스타일의 잠재적 표현을 수신하고; 그리고 출력으로서, 입력 스피치의 재구성을 포함하는 출력 스피치를 생성하기 위해 입력 스피치에 대한 언어적 콘텐츠의 잠재적 표현 및 동일한 입력 스피치에 대한 스피킹 스타일의 잠재적 표현을 프로세싱하도록 구성된다. 모델은 입력 스피치와 디코더로부터 출력된 입력 스피치의 재구성 사이의 재구성 손실을 사용하여 트레이닝될 수 있다.
일부 추가 구현예들에서, 디코더는: 입력으로서, 입력 스피치에 대한 언어적 콘텐츠의 잠재적 표현 및 상이한 입력 스피치에 대한 스피킹 스타일의 잠재적 표현을 수신하고; 그리고 출력으로서, 입력 스피치에 의해 지정된 언어적 콘텐츠 정보 및 상이한 입력 스피치에 의해 지정된 스피킹 스타일 정보를 포함하는 출력 스피치를 생성하도록 구성된다. 콘텐츠 인코더 및 스타일 인코더는 언어적 콘텐츠 및 스피킹 스타일의 잠재적 표현들에서 캡처된 상호 정보를 최소화하기 위해 상호 정보 손실을 사용하여 트레이닝될 수 있다.
본 발명의 하나 이상의 구현예들에 대한 세부사항들은 첨부된 도면들 및 아래의 설명에서 설명된다. 다른 양태들, 특징들 및 이점들은 설명, 도면 및 청구범위로부터 명백할 것이다.
도 1은 입력 스피치로부터 언어적 콘텐츠 및 스피킹 스타일의 잠재적 표현들을 분리하기 위한 예시적인 시스템의 개략도이다.
도 2는 스타일 인코더, 콘텐츠 인코더 및 디코더를 포함하는 언어적 콘텐츠 및 스피킹 스타일 분리 모델 모델의 개략도이다.
도 3은 다양한 코드북 크기에 대한 콘텐츠 화자 ID 및 스타일 화자 ID와 비교한 top-k 화자 정확도의 플롯이다.
도 4a는 도 1 및 도 2의 언어적 콘텐츠 및 스피킹 스타일 분리 모델로부터 스타일 인코더를 구현하는 예시적인 화자 인식 모델의 개략도이다.
도 4b는 도 1 및 도 2의 언어적 콘텐츠 및 스피킹 스타일 분리 모델로부터 콘텐츠 인코더를 구현하는 예시적인 스피치 인식 모델의 개략도이다.
도 5는 출력 스피치를 생성하기 위한 동작들의 예시적인 배열 흐름도이다.
도 6은 본 명세서에 기술된 시스템들 및 방법들을 구현하는 데 사용될 수 있는 예시적인 컴퓨팅 디바이스의 개략도이다.
다양한 도면들에서 유사한 참조 기호들은 유사한 요소들을 나타낸다.
스피치 파형들은 여러 기본 요소들의 영향을 받는 복잡하고, 고차원적인 형태의 데이터이며, 언어적 콘텐츠들(예: 음소들) 및 스피킹 스타일들로 크게 분류할 수 있다. 스피치에서 언어적 콘텐츠 및 스피킹 스타일의 분리된 잠재적 표현들을 학습하는 것은 스피치 합성, 데이터 증강, 보이스 전송 및 스피치 압축을 포함하는 생성 태스크들에서 광범위한 애플리케이션들을 가지고 있다. 스피치에서 잠재적 표현들을 분리하면 자동화된 스피치 인식 및 화자 분류와 같은 다운스트림 태스크들에 도움이 될 수 있다.
스피치에 대한 비지도 잠재적 표현 학습 기법들은 레이블이 지정된 스피치 데이터 수집과 관련된 비용, 복잡성 및 프라이버시 문제로 인해 관심을 받고 있다. 특히, 비지도 데이터에서 스피킹 스타일의 잠재적 표현들을 학습하는 것은 인간 레이블들로 스피치 운율을 설명할 수 없기 때문에 특히 관심이 있다. 운율 레이블들이 없는 스피치의 임베딩 사전에서 글로벌 스타일 토큰들을 학습하면 전체 스피치 시퀀스들에서 글로벌 표현들을 학습할 수 있다. 추가적으로, 레이블이 지정되지 않은 스피치 데이터에 자체 지도 학습을 적용하고 스피치 인식을 위해 미세 조정될 수 있는 로컬화된 잠재적 표현들을 추출함으로써 세분화된 로컬화된 스피치 표현들을 학습할 수 있다.
여기에서의 구현예들은 글로벌 표현들과 로컬화된 표현들을 모두 학습함으로써 스피치에 대한 비지도 표현 학습에 관한 것이다. 특히, 구현예들은 콘텐츠 인코더, 스타일 인코더 및 디코더를 포함하는 오토인코더 모델을 사용하여 스피치에서 언어적 콘텐츠 및 스피킹 스타일의 잠재적 표현들을 분리하는 것에 관한 것이다. 오토인코더 모델은 언어적 콘텐츠 및 스피킹 스타일 분리 모델이라고도 한다. 콘텐츠 인코더는 입력 스피치로부터 언어적 콘텐츠를 캡처하는 개별 타임스텝별(per-timestep)(예: 프레임별) 잠재적 표현들을 학습하도록 구성된 벡터 양자화(VQ) 레이어를 포함하는 로컬 인코더와 연관되는 반면, 스타일 인코더는 입력 스피치로부터 스피킹 스타일을 캡처하는 발화별(per-utterance) 잠재적 표현들을 추출하도록 구성된 변이 오토인코더(VAE)와 연관된다. 트레이닝 중에, 디코더는 콘텐츠 및 스타일 인코더들에서 출력되는 언어적 콘텐츠 및 스피킹 스타일의 잠재적 표현들을 사용하여 콘텐츠 및 스타일 인코더들에 대한 입력 스피치 샘플을 재구성한다. 추론하는 동안, 디코더는 제1 스피치 샘플로부터 추출된 언어적 콘텐츠의 잠재적 표현과 상이한 제2 스피치 샘플로부터 추출된 스피킹 스타일의 잠재적 표현을 결합함으로써 새로운 스피치 피처를 생성할 수 있다.
추가 구현예들에서는, 상호 정보 손실이 콘텐츠 및 스타일 인코더들에 적용되어 콘텐츠 및 스타일 인코더들로부터 출력되는 언어적 콘텐츠 및 스피킹 스타일의 잠재적 표현들에서 상호 정보를 최소화한다. 명백해지는 바와 같이, 각각의 출력들에서 상호 정보 추출을 최소화하도록 콘텐츠 및 스타일 인코더들을 트레이닝하는 것은 스피치에서 언어적 콘텐츠의 잠재적 표현들(예: 로컬 표현들) 및 스피킹 스타일의 잠재적 표현들(예: 글로벌 표현들)을 더 분리한다.
오토인코더 모델은 콘텐츠 인코더, 스타일 인코더(130) 및 디코더를 포함한다. 디코더는 콘텐츠 및 스타일 잠재적 표현들을 모두 입력으로 수신하고, 스피치 피처들을 출력으로 생성하도록 구성된다. 즉, 디코더는 입력 스피치를 출력 스피치 피처들로 재구성하도록 구성된다. 일부 애플리케이션들에서, 트레이닝된 오토인코더 모델은 디코더 사용을 생략할 수 있다.
도 1은 입력 스피치(102)로부터 언어적 콘텐츠(120) 및 스피킹 스타일(140)의 잠재적 표현을 분리하기 위해 오토인코더 모델(예: 언어 언어적 및 스피킹 스타일 분리 모델)(100)을 트레이닝하기 위한 예시적인 시스템(10)을 도시한다. 입력 스피치(102)는 스피치 피처들의 시퀀스를 포함할 수 있다. 일부 예들에서, 입력 스피치(102)를 나타내는 스피치 피처들의 시퀀스는 로그-멜-필터뱅크(log- Mel-filterbank) 피처들을 포함한다. 시스템(10)은 데이터 프로세싱 하드웨어(22) 및 데이터 프로세싱 하드웨어(22)와 통신하고 데이터 프로세싱 하드웨어(22)로 하여금 동작들을 수행하게 하는 명령어들을 저장하는 메모리 하드웨어(24)를 포함한다. 일부 구현예들에서, 컴퓨팅 시스템(20)(예: 데이터 프로세싱 하드웨어(22))은 하나 이상의 상이한 화자들이 말하는 발화들에 대응하는 입력 스피치(102)의 복수의 샘플들에 대해 오토인코더 모델(100)을 트레이닝하기 위한 트레이닝 프로세스를 실행한다. 트레이닝 프로세스는 입력 스피치(102)에서 추출되고 결합되어 대응하는 스피치 피처들(152)을 생성하기 위해 언어적 콘텐츠(120) 및 스피킹 스타일(140)의 잠재적 표현들을 디코딩함으로써 입력 스피치(102)의 각 샘플을 재구성하는 것을 목표로 한다. 트레이닝 프로세스는 입력 스피치(102)의 각 샘플로부터 추출된 언어적 콘텐츠(120) 및 스피킹 스타일(140)의 잠재적 표현들 및 대응하는 출력 스피치 피처들(152)을 메모리 하드웨어(24) 상의 데이터 스토리지(185)에 저장할 수 있다.
추론하는 동안, 컴퓨팅 시스템(20)(예: 데이터 프로세싱 하드웨어(22)) 또는 사용자 컴퓨팅 디바이스(미도시)는 콘텐츠 인코더(110), 스타일 인코더(130) 및 디코더(150)를 포함하는 트레이닝된 오토인코더 모델(100)을 실행하여 제1 스피치 샘플(50, 50a)로부터 추출된 언어적 콘텐츠를 전달하고 제2 스피치 샘플(50, 50b)로부터 추출된 스피킹 스타일을 갖는 합성 스피치로서 새로운 스피치 피처들(152)을 생성한다. 여기서, 콘텐츠 인코더(110)는 제1 화자에 의해 발화된 제1 스피치 샘플(50a)로부터 언어적 콘텐츠(120)의 타임스텝별 잠재적 표현들을 예측하도록 구성되는 반면, 스타일 인코더(130)는 상이한 화자에 의해 발화된 제2 스피치 샘플(50b)로부터 스피킹 스타일(140)의 발화별 잠재적 표현을 추출하도록 구성된 변이 오토인코더(VAE)와 연관된다. 특히, 상이한 화자들에 의해 발화되는 제1 및 제2 스피치 샘플들(50a, 50b)은 상이한 언어적 콘텐츠를 포함할 수 있고 제1 및 제2 화자들은 상이한 스피킹 스타일들(예: 운율/악센트)로 말할 수 있다. 이 시나리오에서, 트레이닝된 오토인코더 모델(100)은 합성된 스피치로 생성된 새로운 스피치 피처들(152)이 제1 화자에 의해 발화된 제1 스피치 샘플(50a)의 언어적 콘텐츠를 제2 화자의 보이스 및 스피킹 스타일로 보존하는 보이스 전송 애플리케이션(예: "Say it like this")에서 사용하도록 조정된다. 일부 예들에서, 제1 스피치 샘플(50a)은 제2 스피치 샘플(50b)과 상이한 언어로 발화된다. 트레이닝된 오토인코더 모델(100)은 데이터 증강 애플리케이션들에 유사하게 적용될 수 있는데, 여기서 스피킹 스타일(140)의 잠재적 표현들은 동일한 언어적 콘텐츠에 대해 합성된 스피치의 상이한 증강들을 전달하는 디코더(150)로부터 새로운 스피치 피처들(152)을 생성하기 위해 상이한 사용자들에 의해 발화되고 상이한 스피킹 스타일을 전달하는 스피치 샘플로부터 추출된다.
디코더(150)는 콘텐츠 인코더(110)에 의해 출력된 언어적 콘텐츠(120)의 잠재적 표현들과 스타일 인코더(130)에 의해 출력된 스피킹 스타일(140)의 잠재적 표현들을 결합함으로써 출력으로서 스피치 피처들(152)을 생성하도록 구성된다. 출력(190)은 디코더(150)로부터 출력 스피치 피처들(152)을 수신할 수 있다. 출력(190)은 출력 스피치 피처들(152)에 대해 트레이닝된 스피치 인식 모델 또는 화자 식별 모델을 포함할 수 있다. 선택적으로, 출력(190)은 스피치 피처들(152)을 수신하지 않고 대신 콘텐츠 및 스타일 인코더들(110, 130)로부터 각각 언어적 콘텐츠(120) 및 스피킹 스타일(140)의 잠재적 표현들을 수신할 수 있다.
도 2는 입력 스피치(102), 로부터 언어적 콘텐츠(120) 및 스피킹 스타일(140)의 잠재적 표현들을 분리하기 위한 오토인코더 모델(100)의 예를 도시한다. 오토인코더 모델은 콘텐츠 인코더(110), 스타일 인코더(130) 및 디코더(150)를 포함한다. 디코더(150)는 콘텐츠 및 스타일 잠재적 표현들(120, 140) 모두를 입력으로 수신하고 스피치 피처들(152)을 출력으로 생성하도록 구성된다. 일부 애플리케이션들 동안, 트레이닝된 오토인코더 모델(100)은 디코더(150)의 사용을 생략할 수 있다.
콘텐츠 인코더(110)는 하나 이상의 콘볼루션 레이어들(112) 및 벡터 양자화(VQ) 레이어(114)를 갖는 신경 네트워크를 포함할 수 있다. 일부 예들에서, 콘텐츠 인코더(110)는 잔여(residual) 연결들을 갖는 10개의 1차원 컨벌루션 레이어들을 포함한다. 제3 콘볼루션 레이어들에는 최종 출력 길이를 반으로 줄이기 위해 (예: T에서 T/2로) 2개의 타임 스트라이드(stride)가 적용될 수 있다. 콘텐츠 인코더(110)의 하나 이상의 컨벌루션 레이어들(112)은 입력 스피치(102)를 수신하여 스피치(102)로부터 초기 잠재적 표현(113)을 생성하고, VQ 레이어(114)는 초기 잠재적 표현(113)에 직선 기울기들을 갖는 정보 버틀넥(bottleneck)을 적용하여 음소 또는 하위 단어와 같은 잠재적 표현들과 같은 필요한 로컬화된 정보를 캡처하고 스피킹 스타일 변이(variation)들을 폐기한다. 따라서, VQ 레이어(114)는 입력 스피치(102)로부터 언어적 콘텐츠를 나타내는 잠재적 변수들의 시퀀스, 를 추출한다. 따라서, 콘텐츠 인코더(110)는 입력 스피치(102)에서 스피킹 스타일 변이들을 폐기하거나 그렇지 않으면 분리되는 언어적 콘텐츠(120)(c1,...,cT)의 개별 타임스텝별(예: 프레임별) 잠재적 표현들을 예측하도록 트레이닝된다.
일부 구현예들에서, 트레이닝 동안, VQ 손실 모듈(122)은 각 타임스텝에 대해 예측된 언어적 콘텐츠(120)의 잠재적 표현들에 기반하여 콘텐츠 인코더(110)에 대한 콘텐츠 VQ 손실(124)을 결정한다. 콘텐츠 VQ 손실(124)은 콘텐츠 인코더 출력 z가 자신과 가장 가까운 코드북 E i 사이의 거리를 최소화하도록 권장한다. VQ 손실 모듈(122)은 다음 방정식을 사용하여 콘텐츠 VQ 손실(124)을 결정할 수 있다.
(1)
여기서 sg(·)는 기울기 동작들 중지를 나타낸다. 콘텐츠 VQ 손실(124)은 모델이 연속 데이터 포인트들을 클러스터링하고 다른 데이터 포인트들을 클러스터들에 가깝게 이동하도록 장려되는 클러스터링 손실과 유사한 자체 지도 손실에 대응한다.
스타일 인코더(130)는 하나 이상의 컨볼루션 레이어들(132) 및 시간 축에 걸쳐 글로벌 평균 풀링 동작으로 컨볼루션 레이어(132)로부터의 출력을 요약하도록 구성된 가우시안 포스테리어(Gaussian posterior)를 갖는 변이 레이어(134)를 포함하는 신경 네트워크를 포함할 수 있다. 일부 예들에서, 스타일 인코더(130)는 3개의 상이한 레이어들 상에서 타임 스트라이드가 2인 6개의 잔여 1차원 컨벌루션 레이어들을 사용하여 입력 스피치(102)를 프로세싱하여 8 x 타임 길이 감소를 초래한다. 글로벌 평균 풀링 동작은 입력 스피치(102)로부터 스피킹 스타일(140)을 나타내는 글로벌 잠재적 스타일 변수, 를 추출한다. 트레이닝 동안, 스피킹 스타일(140)의 잠재적 표현에 대응하는 글로벌 잠재적 스타일 변수 s는 다음과 같이 샘플링된다.
(2)
여기서 는 스타일 인코더(130)에 의해 예측된 스타일 변수들의 평균이고 는 스타일 인코더에 의해 예측된 스타일 변수들의 분산을 나타낸다. 추론하는 동안, 글로벌 잠재적 스타일 변수 s는 단순히 입력 스피치(102)로부터 스타일 인코더(130)에 의해 예측된 스타일 변수들의 평균 에 대응할 수 있다. 따라서, 스타일 인코더(130)는 입력 스피치(102)의 언어적 콘텐츠(120)로부터 분리된 스피킹 스타일(140)의 발화별 잠재적 표현을 추출하는 것을 학습하도록 트레이닝된다.
트레이닝 동안, 스타일 손실 모듈(142)는 스타일 인코더(130)에 의해 예측된 스타일 변수들의 평균 과 분산 에 기반하여, 스타일 정규화 손실(144), 을 결정할 수 있다. 스타일 인코더(130)는 유닛 가우시안 프라이어(Gaussian prior) 를 갖는 가우시안 포스테리어 사이의 쿨백-라이블러(Kullback-Leibler)(KL) 다이버전스를 최소화하기 위해 스타일 정규화 손실(144)을 사용한다. 스타일 손실 모듈(142)은 다음 방정식을 사용하여 스타일 정규화 손실(144)을 결정할 수 있다.
(3)
일부 구현예들에서, 디코더(150)는 각각, 콘텐츠 및 스타일 인코더들(110, 130)로부터 출력되는 언어적 콘텐츠 및 스피킹 스타일(120, 140)의 잠재적 표현들 모두를 입력으로서 수신하고, 트레이닝 동안 피처들(152), 을 재구성하도록 구성된다. 트레이닝 동안, 재구성 손실 모듈(162)은 X
Figure pct00016
사이의 L1 및 L2-표준(norm) 제곱 거리를 모두 최소화하기 위해 모델(100)을 최적화하는 데 사용하기 위해 실측값(ground truth) 역할을 하는 입력 스피치(102), X와 재구성된 스피치(152),
Figure pct00017
사이의 재구성 손실(162)을 생성한다. 일부 구성들에서는, 디코더(150)는 {1, 3, 5, 7}번째 레이어들의 채널 축에서, 스피킹 스타일(140), s의 잠재적 표현을 연결함으로써 스피킹 스타일 정보를 공급하는 잔여 연결들을 갖는 10개의 1차원 컨볼루션 레이어들을 포함한다.
콘텐츠 인코더(110) 및 스타일 인코더(130)는 각각 언어적 콘텐츠(120) 및 스피킹 스타일(140)의 잠재적 표현들이 서로 분리되는 각각의 잠재적 표현들을 예측하도록 최적화되는 반면, 입력 스피치(120)로부터의 언어적 콘텐츠(120)를 나타내는 양자화 변수들 c1, ...,cT은 본질적으로 스피킹 스타일 정보와 같은 비콘텐츠 정보를 캡처할 수 있다. 트레이닝 중에 명시적인 레이블들을 사용하지 않고, 모델(100)은 콘텐츠 및 스타일 인코더들(110, 130)로부터 출력된 언어적 콘텐츠(c1, ...,cT)(120) 및 스피킹 스타일(들)(140)의 각각의 잠재적 표현들로부터 최소 상호 정보(MI)를 추정할 수 있다. 따라서, 인코더 출력들 사이의 상관 관계를 줄이기 위해 상호 정보를 최소화하는 것은 모델(100)을 최적화하여 언어적 콘텐츠 및 스피킹 스타일의 로컬 및 글로벌 표현들을 더 분리한다.
일부 구현예들에서, 2개의 인코더 출력들 사이의 상호 정보를 측정하기 위해, 노이즈 대비 추정 (I NCE ) 기반 손실은 다음과 같이 콘텐츠 및 스타일 사이의 하한(low bound) MI를 추정하기 위해 사용된다.
(4)
(5)
(6)
여기서 K는 상이한 발화들의 샘플들의 수이고, Sc(·,·)는 신경 네트워크 스코어러, C i 는 양자화 이전에 콘텐츠 인코더(110)로부터의 초기 잠재적 표현이고, 그리고 S i 는 스타일 인코더(130)로부터 출력되는 스피킹 스타일(140)의 잠재적 표현이다.
이후, 다음 방정식을 사용하여 I NCE Sc에 대해 최대화되고 I NCE 는 모델(100)에 대한 최종 손실 에 대해 최소화된다.
(7)
모델에 대한 최종 손실 은 콘텐츠 VQ 손실(124), 스타일 정규화 손실(144), 및 재구성 손실(162)의 결합된 합 ) 에 기반하여 결정된다. 마지막으로, MI를 측정하기 위해, 다음과 같이 각 타입스텝에서 모델 파라미터들을 업데이트함으로써 방정식(7)의 손실을 안정화하기 위해 적응형 기울기 스케일링이 적용된다.
(8)
(9)
(8)
(10)
상호 정보 손실은 로컬 및 글로벌 표현들을 더 분리하기 위해 적용될 수 있다. 특히, 글로벌 VAE에 의해 캡처된 글로벌 스타일 표현은 화자 분류 모델을 획득하기 위해 글로벌 스타일 표현 위에 선형 프로젝션 레이어를 트레이닝할 수 있도록 화자별 하나의 예에서만 충분한 화자 정보를 제공한다.
실험들은 콘텐츠 인코더(110)의 VQ-VAE 코드북 크기를 증가시키는 것이 입력 스피치(102)로부터 언어적 콘텐츠를 보존하기 위해 모델(100)을 최적화한다는 것을 보여준다. 또한, 콘텐츠 및 스타일 인코더(110, 130)에 의해 캡처된 상호 정보를 최소화하기 위해 상호 정보 손실을 적용하면 언어적 콘텐츠 보존이 더욱 향상된다. 모델(100)이 스피치를 얼마나 잘 압축하는지 측정하기 위해 최적화된, 제1 비셔플(non-shuffle) 시나리오에서, 콘텐츠 및 스타일 인코더(110, 130)는 각각 동일한 입력 스피치(102), X i 를 수신하고, 디코더(150)는 입력 스피치의 재구성에 대응하는 스피치 피처들(152),
Figure pct00030
을 예측한다. VQ-VAE 코드북에 의한 언어적 콘텐츠 보존을 측정하기 위해 최적화된, 제2 셔플(shuffle) 시나리오에서, 콘텐츠 인코더(110)는 입력 스피치(102), X i 를 수신하고 스타일 인코더(130)는 상이한 입력 스피치(102), X j 를 수신하고, 그리고 디코더(150)는 스피치 피처들
Figure pct00031
이 오리지널 스피치 X i 의 언어적 콘텐츠를 얼마나 잘 보존하는지를 결정하기 위해 스피치 피처들(152),
Figure pct00032
을 예측한다. 입력 스피치의 오리지널 언어적 콘텐츠와 비교하여 디코더에서 출력되는 예측된 스피치 피처들이 얼마나 잘 출력되는지 평가하기 위해, 자동화된 스피치 인식기는 예측된 스피치 피처들
Figure pct00033
을 전사하고 콘텐츠 인코더(110)에 공급된 오리지널 입력 스피치 X i 에 대한 실측 텍스트로 전사에 대한 단어 오류율을 계산한다. 아래의 표 1은 상호 정보 손실이 있거나 없는 다양한 코드북 크기를 가진 셔플 및 비셔플 시나리오 모두에 대해 계산된 단어 오류율을 보여준다.
실험들은 스타일 인코더가 입력 스피치(102)로부터 오리지널 스피킹 스타일을 얼마나 잘 추출하고 보존하는지 추가로 측정한다. 이러한 실험들에서, 콘텐츠 및 스타일 인코더(110, 130)는 상이한 입력 스피치 X i , X j 를 수신하고, 디코더(150)는 인코더(110, 130)로부터 출력되는 언어적 콘텐츠 및 스피킹 스타일(130, 140)의 잠재적 표현들에 기반하여 생성된 스피치에 대응하는 스피치 피처들
Figure pct00035
을 예측한다. 생성된 스피치와 상이한 입력 스피치 X i , X j 사이의 화자 유사도를 평가하기 위해, 화자 인식 모델은 입력 스피치 X i , X j 에 대해 실측 화자 레이블들을 사용하여 트레이닝되고, 소프트맥스 출력은 디코더(150)에 의해 예측된 스피치 피처들
Figure pct00036
에 대해 예측된다. 소프트맥스 출력 예측들은 스타일 인코더(130)에 공급되는 입력 스피치 X j 의 실측 화자와 비교한 평균 순위, 상위 1위, 상위 3위 및 상위 5위 정확도와 같은 메트릭들을 계산하는 데 사용된다. 도 3은 MI 손실로 트레이닝된 모델에 대한 다양한 코드북 크기에 대한 콘텐츠(SRC) 화자 ID 및 스타일(TGT) 화자 ID와 비교한 top-k 화자 정확도의 플롯(300)을 묘사한다. 플롯(200)은 생성된 스피치가 콘텐츠 인코더(110)에 공급된 입력 스피치 X i 보다 스타일 인코더(130)에 공급된 입력 스피치 X j 에 훨씬 더 가까운 화자 스타일을 캡처했음을 보여준다. 아래의 표 2는 또한 MI 손실을 적용하거나 적용하지 않고 다양한 코드북 크기에 대해 스타일 인코더(130)에 공급되는 입력 스피치 X j 에 대한 화자 스타일 정확도가 어떻게 변하는지를 보여준다. 구체적으로, 표 2는 코드북 크기가 증가함에 따라 스타일 및 콘텐츠 정보가 더 분리되는 것을 보여주며, MI 손실을 적용하면 특히 더 작은 코드북 크기에 대한 분리가 개선된다. 따라서 표 1과 2는 코드북 크기를 고려할 때 콘텐츠 재구성과 스타일 분리 간의 장단점을 보여준다.
모델(100)을 트레이닝하여 스피치로부터 언어적 콘텐츠 및 스피킹 스타일의 분리된 잠재적 표현들을 학습한 후, 트레이닝된 모델(100)은 스피치 합성, 데이터 증강, 보이스 전송 및 스피치 압축을 포함하는 생성 태스크들의 광범위한 애플리케이션들의 세트에서 사용될 수 있다. 트레이닝된 모델(100)이 이러한 잠재적인 표현들을 스피치로부터 분리할 수 있는 능력은 자동 스피치 인식 및/또는 화자 인식/분류 모델들의 트레이닝과 같은 다운스트림 태스크들에도 도움이 될 수 있다. 일반적으로 트레이닝된 모델(100)은 두 가지 애플리케이션들의 그룹들: 인코더 전용 애플리케이션들 및 인코더-디코더 애플리케이션에서 사용될 수 있다. 보이스 전송 애플리케이션들 및 데이터 증강 애플리케이션들과 같은 인코더-디코더 애플리케이션들은 도 1을 참조하여 위에서 논의되었다.
도 4a는 화자 인식 태스크들을 위한 화자 인식 모델(400)로서 트레이닝된 스타일 인코더(130)를 사용하는 것을 포함하는 주목할 만한 인코더 전용 애플리케이션을 도시한다. 여기서, 트레이닝된 스타일 인코더(130)는 하나 이상의 화자들이 말하는 발화들에 대응하는 입력 스피치를 포함하는 레이블이 지정되지 않은 많은 양의 데이터에 대해 스타일 인코더(130)를 사전 트레이닝함으로써 화자 인식 애플리케이션에 적합하다. 그런 다음, 레이블이 지정된 소량의 데이터가 사전 트레이닝된 스타일 인코더를 미세 조정하여 퓨샷(few-shot) 화자 인식 태스크를 수행한다. 레이블이 지정된 데이터는 "1-샷" 및 "3-샷"으로 지칭되는 화자별 스피치 예시들(402)의 수를 변경할 수 있다. 화자 인식 태스크의 경우, 선형 프로젝션 레이어(예: 소프트맥스 레이어)는 주어진 입력 스피치에 대해 스타일 인코더(130)로부터 출력되는 스피킹 스타일(140)의 잠재적 표현들에 기반하여 화자 분류를 위한 로짓(logit)들을 계산하기 위해 스타일 인코더 위에 오버레이된다. 미세 조정 중에는, 프로젝션 레이어를 제외한 모든 파라미터들이 고정된다. 스타일 인코더(130) 및 프로젝션 레이어(450)는 화자 인식 모델(400)을 형성할 수 있다. 화자 인식 모델(400a)은 상이한 화자들 검출(예: 다이어라이제이션), 화자 ID 계산, 및/또는 등록/검증을 위한 보이스 매칭과 같은, 이에 제한되지 않는, 다양한 화자 인식 태스크들을 수행하는 데 사용될 수 있다.
도 4b는 입력 스피치(402)에 대한 스피치 인식 결과를 생성하기 위한 스피치 인식 모델(400b)로서 트레이닝된 콘텐츠 인코더(110)를 사용하는 것을 포함하는 또 다른 인코더 전용 애플리케이션을 보여준다. 콘텐츠 인코더(110)는 언어적 콘텐츠(120)의 잠재적 표현들을 사용하고 비지도 데이터를 활용함으로써 자동 스피치 인식(ASR) 트레이닝을 부트스트래핑하는 데 사용하기 위한 로컬 정보를 제공하기 위해 언어적 콘텐츠(120)의 잠재적 표현들을 추출하는 데 활용될 수 있다. 도시된 예에서, 신경 네트워크(470)는 스피치 인식 모델(400b)을 제공하기 위해 콘텐츠 인코더(110) 위에 오버레이된다. 일부 구현예들에서, 콘텐츠 인코더(110) 및 신경 네트워크(470)는 입력 스피치 예시들(402)의 레이블이 지정된 데이터 및 대응하는 전사들을 사용하여 리트레이닝된다. 이러한 구성에서, 콘텐츠 인코더(110)는 스피치 인식 정확도를 향상시키기 위해 스피치로부터 언어적 콘텐츠를 인코딩하는 피처 추출기로서 기능한다.
주목할 만한 인코더-디코더 애플리케이션들에는 보이스 전송 애플리케이션들(예: "Say it like this") 및 데이터 증강 애플리케이션들이 포함된다. 일반적인 보이스 전송 애플리케이션에서, 콘텐츠 인코더(110)는 제1 화자로부터 스피치를 수신하고 스타일 인코더(130)는 제2 화자로부터 상이한 스피치를 수신할 것이다. 제1 및 제2 화자들에 의해 발화되는 스피치에는 상이한 콘텐츠가 포함될 수 있다. 이 시나리오에서, 디코더(150)는 제1 화자로부터의 스피치의 언어적 콘텐츠를 제2 화자의 보이스로 전달하는 합성된 스피치 표현을 생성할 수 있다. 즉, 디코더(150)는 입력으로서, 제1 화자로부터의 스피치에 대해 콘텐츠 인코더(110)에 의해 인코딩된 언어적 콘텐츠(120)의 잠재적 표현 및 제2 화자로부터의 스피치에 대해 스타일 인코더(130)에 의해 인코딩된 스피킹 스타일의 잠재적 표현(140)을 수신하고, 출력으로서, 제1 화자로부터의 스피치의 언어적 콘텐츠 및 제2 화자로부터의 스피킹 스타일을 보존하는 합성 스피치를 생성한다. 데이터 증강 애플리케이션들에서, 동일한 언어적 콘텐츠에 대해 디코더로부터 합성된 스피치의 상이한 증강들을 생성하기 위해 스피킹 스타일의 잠재적 표현들이 변경될 수 있다.
도 5는 출력 스피치를 생성하는 방법(500)에 대한 동작들의 예시적인 배열의 흐름도이다. 데이터 프로세싱 하드웨어(22)는 메모리 하드웨어(24)에 저장된 명령어들을 실행하여 데이터 프로세싱 하드웨어로 하여금 방법(500)에 대한 동작들을 수행하게 할 수 있다. 동작(502)에서, 방법(500)은 입력 스피치(102)를 수신하는 단계를 포함하고, 동작(504)에서, 방법(500)은 콘텐츠 인코더(110)를 사용하여, 입력 스피치(102)에 대한 언어적 콘텐츠(120)의 잠재적 표현을 생성하기 위해 입력 스피치(102)를 프로세싱하는 단계를 포함한다. 콘텐츠 인코더(110)는 언어적 콘텐츠(120)의 잠재적 표현으로부터 스피킹 스타일 정보를 분리하도록 트레이닝된다.
동작(506)에서, 방법(500)은 스타일 인코더(130)를 사용하여, 동일하거나 상이한 스피치에 대한 스피킹 스타일(140)의 잠재적 표현을 생성하기 위해 동일하거나 상이한 입력 스피치를 프로세싱하는 단계를 포함한다. 스타일 인코더(130)는 스피킹 스타일(140)의 잠재적 표현으로부터 언어적 콘텐츠 정보를 분리하도록 트레이닝된다. 동작(508)에서, 방법(500)은 디코더(150)를 사용하여, 입력 스피치(102)에 대한 언어적 콘텐츠(120)의 잠재적 표현 및 동일하거나 상이한 스피치에 대한 스피킹 스타일(140)의 잠재적 표현을 프로세싱하여 출력 스피치를 생성하는 단계를 포함한다.
소프트웨어 애플리케이션(즉, 소프트웨어 리소스)은 컴퓨팅 디바이스로 하여금 태스크를 수행하게 하는 컴퓨터 소프트웨어를 의미할 수 있다. 일부 예들에서, 소프트웨어 애플리케이션은 "애플리케이션", "앱" 또는 "프로그램"으로 지칭될 수 있다. 예시적인 애플리케이션들에는 시스템 진단 애플리케이션, 시스템 관리 애플리케이션, 시스템 유지 보수 애플리케이션, 워드 프로세싱 애플리케이션, 스프레드시트 애플리케이션, 메시징 애플리케이션, 미디어 스트리밍 애플리케이션, 소셜 네트워킹 애플리케이션 및 게임 애플리케이션이 포함되지만 이에 국한되지는 않는다.
비일시적 메모리는 컴퓨팅 디바이스에 의한 사용을 위해 일시적 또는 영구적으로 프로그램(예: 명령어들의 시퀀스들) 또는 데이터(예: 프로그램 상태 정보)를 저장하는 데 사용되는 물리적 디바이스들일 수 있다. 비일시적 메모리는 휘발성 및/또는 비휘발성 어드레서블 반도체 메모리일 수 있다. 비휘발성 메모리의 예로는 플래시 메모리 및 읽기 전용 메모리(ROM) / 프로그래밍 가능한 읽기 전용 메모리(PROM) / 지울 수 있는 프로그래밍 가능한 읽기 전용 메모리(EPROM) / 전자적으로 지울 수 있는 프로그래밍 가능한 읽기 전용 메모리(EEPROM)(예: 부트 프로그램과 같은 펌웨어에 일반적으로 사용됨)가 포함되지만 이에 국한되지 않는다. 휘발성 메모리의 예에는 랜덤 액세스 메모리(RAM), 동적 랜덤 액세스 메모리(DRAM), 정적 랜덤 액세스 메모리(SRAM), 위상 변경 메모리(PCM) 및 디스크나 테이프가 포함되지만 이에 국한되지 않는다.
도 6은 본 문서에 기술된 시스템들 및 방법들을 구현하는 데 사용될 수 있는 예시적인 컴퓨팅 디바이스(600)의 개략도이다. 컴퓨팅 디바이스(600)는 랩탑, 데스크탑, 워크스테이션, 퍼스널 디지털 어시스턴트, 서버, 블레이드 서버, 메인프레임 및 기타 적절한 컴퓨터와 같은 다양한 형태들의 디지털 컴퓨터들을 나타내도록 의도된다. 여기에 표시된 구성요소들, 연결들 및 관계들, 기능들은 예시일 뿐이며 이 문서에서 설명 및/또는 청구된 발명의 구현을 제한하지 않는다.
컴퓨팅 디바이스(600)는 프로세서(610), 메모리(620), 스토리지 디바이스(630), 메모리(620) 및 고속 확장 포트(650)에 연결되는 고속 인터페이스/컨트롤러(640), 및 저속 버스(670) 및 스토리지 디바이스(630)에 연결되는 저속 인터페이스/컨트롤러(660)를 포함한다. 구성요소들(610, 620, 630, 640, 650 및 660) 각각은 다양한 버스들을 사용하여 상호 연결되며, 공통 마더보드 또는 적절한 다른 방식으로 장착될 수 있다. 프로세서(610)는 고속 인터페이스(640)에 결합된 디스플레이(680)와 같은, 외부 입력/출력 디바이스에 그래픽 사용자 인터페이스(GUI)에 대한 그래픽 정보를 디스플레이하기 위해 메모리(620) 또는 스토리지 디바이스(630)에 저장된 명령어들을 포함하여, 컴퓨팅 디바이스(600) 내에서 실행하기 위한 명령어들을 프로세싱할 수 있다. 다른 구현예들에서, 다수의 프로세서들 및/또는 다수의 버스들은 다수의 메모리들 및 메모리 유형과 함께 적절하게 사용될 수 있다. 또한, 다수의 컴퓨팅 디바이스들(600)이 연결될 수 있으며, 각각의 디바이스는 필요한 동작들의 일부를 제공한다(예: 서버 뱅크, 블레이드 서버 그룹 또는 멀티 프로세서 시스템).
메모리(620)는 컴퓨팅 디바이스(600) 내에 비일시적으로 정보를 저장한다. 메모리(620)는 컴퓨터 판독가능 매체, 휘발성 메모리 유닛(들) 또는 비휘발성 메모리 유닛(들)일 수 있다. 비일시적 메모리(620)는 컴퓨팅 디바이스(600)에 의한 사용을 위해 일시적 또는 영구적으로 프로그램(예: 명령어들의 시퀀스들) 또는 데이터(예: 프로그램 상태 정보)를 저장하는 데 사용되는 물리적 디바이스들일 수 있다. 비휘발성 메모리의 예로는, 플래시 메모리 및 읽기 전용 메모리(ROM) / 프로그래밍 가능한 읽기 전용 메모리(PROM) / 지울 수 있는 프로그래밍 가능한 읽기 전용 메모리(EPROM) / 전자적으로 지울 수 있는 프로그래밍 가능한 읽기 전용 메모리(EEPROM)(예: 부트 프로그램과 같은 펌웨어에 일반적으로 사용됨)가 포함되지만 이에 국한되지 않는다. 휘발성 휘발성 메모리의 예에는 랜덤 액세스 메모리(RAM), 동적 랜덤 액세스 메모리(DRAM), 정적 랜덤 액세스 메모리(SRAM), 위상 변경 메모리(PCM) 및 디스크나 테이프가 포함되지만 이에 국한되지 않는다.
스토리지 디바이스(630)는 컴퓨팅 디바이스(600)를 위한 대용량 스토리지를 제공할 수 있다. 일부 구현예들에서, 스토리지 디바이스(630)는 컴퓨터 판독가능 매체이다. 다양한 상이한 구현예들에서, 스토리지 디바이스(630)는 플로피 디스크 디바이스, 하드 디스크 디바이스, 광학 디스크 디바이스 또는 테이프 디바이스, 플래시 메모리 또는 기타 유사한 솔리드 스테이트 메모리 디바이스, 스토리지 영역 네트워크(SAN) 또는 기타 구성의 디바이스들을 포함하는 디바이스들의 배열일 수 있다. 추가 구현예들에서, 컴퓨터 프로그램 제품은 정보 캐리어에 유형적으로 구현된다. 컴퓨터 프로그램 제품은 실행될 때 위에서 설명한 것과 같은 하나 이상의 방법들을 수행하는 명령어들을 포함한다. 정보 캐리어는 메모리(620), 스토리지 디바이스(630) 또는 프로세서(610) 상의 메모리와 같은 컴퓨터 또는 기계 판독가능 매체이다.
고속 컨트롤러(640)는 컴퓨팅 디바이스(600)에 대한 대역폭 집중 동작들을 관리하는 반면, 저속 컨트롤러(660)는 낮은 대역폭 집중 동작들을 관리한다. 이러한 의무 할당은 예시일 뿐이다. 일부 구현예들에서, 고속 컨트롤러(640)는 메모리(620), 디스플레이(680)(예: 그래픽 프로세서 또는 가속기를 통해) 및 다양한 확장 카드(미도시)를 수용할 수 있는 고속 확장 포트(650)에 결합된다. 일부 구현예들에서, 저속 컨트롤러(660)는 스토리지 디바이스(630) 및 저속 확장 포트(690)에 결합된다. 저속 확장 포트(690)는 다양한 통신 포트(예: USB, 블루투스, 이더넷, 무선 이더넷)를 포함할 수 있으며, 예를 들어 네트워크 어댑터를 통해 키보드, 포인팅 디바이스, 스캐너 또는 스위치나 라우터와 같은 네트워킹 디바이스와 같은 하나 이상의 입력/출력 디바이스에 결합될 수 있다.
컴퓨팅 디바이스(600)는 도면에 도시된 바와 같이, 다수의 상이한 형태로 구현될 수 있다. 예를 들어, 표준 서버(600a)로 구현되거나 이러한 서버들(600a)의 그룹에서 여러 번, 랩탑 컴퓨터(600b) 또는 랙 서버 시스템(600c)의 일부로 구현될 수 있다.
여기에 설명된 시스템들 및 기법들의 다양한 구현예들은 디지털 전자 및/또는 광학 회로, 집적 회로, 특별히 설계된 ASIC(애플리케이션 특정 집적 회로)들, 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합으로 실현될 수 있다. 이러한 다양한 구현예들은 적어도 하나의 프로그래밍 가능한 프로세서를 포함하는 프로그래밍가능한 시스템 상에서 실행가능 및/또는 해석가능한 하나 이상의 컴퓨터 프로그램들에서의 구현을 포함할 수 있으며, 이는 스토리지 시스템, 적어도 하나의 입력 디바이스 및 적어도 하나의 출력 디바이스로부터 데이터 및 명령어들을 수신하고 데이터 및 명령어들을 전송하도록 결합된 특수 또는 범용일 수 있다.
이러한 컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 애플리케이션 또는 코드라고도 함)은 프로그래밍가능한 프로세서에 대한 기계 명령어들을 포함하며, 고급 절차 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어로 구현될 수 있다. 본 명세서에서 사용되는 바와 같이, "기계 판독가능 매체" 및 "컴퓨터 판독가능 매체"라는 용어들은 기계 판독가능 신호로서 기계 명령어들을 수신하는 기계 판독가능 매체를 포함하여, 프로그램가능한 프로세서에 기계 명령어들 및/또는 데이터를 제공하는 데 사용되는 모든 컴퓨터 프로그램 제품, 비일시적 컴퓨터 판독가능 매체, 장치 및/또는 디바이스((예: 자기 디스크, 광 디스크, 메모리, 프로그램가능 로직 디바이스(PLD)들)를 의미한다. "기계 판독가능 신호"라는 용어는 프로그램가능한 프로세서에 기계 명령어들 및/또는 데이터를 제공하는 데 사용되는 모든 신호를 의미한다.
본 명세서에 기술된 프로세스 및 논리 흐름은 데이터 프로세싱 하드웨어라고도 지칭되는, 하나 이상의 프로그래밍 가능한 프로세서들에 의해 수행될 수 있으며, 하나 이상의 컴퓨터 프로그램들을 실행하여 입력 데이터에 대해 동작하고 출력을 생성함으로써 기능들을 수행할 수 있다. 프로세스 및 논리 흐름들은 특수 목적 논리 회로, 예를 들어 FPGA(필드 프로그래밍가능 게이트 어레이) 또는 ASIC(애플리케이션 특정 집적 회로)에 의해 수행될 수도 있다. 컴퓨터 프로그램 실행에 적합한 프로세서에는 예를 들어, 범용 및 특수 목적 마이크로프로세서 모두와 모든 종류의 디지털 컴퓨터의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 읽기 전용 메모리나 랜덤 액세스 메모리 또는 둘 다에서 명령어들과 데이터를 수신한다. 컴퓨터의 필수 요소들은 명령어들을 수행하기 위한 프로세서와 명령어들과 데이터를 저장하기 위한 하나 이상의 메모리 디바이스들이다. 일반적으로, 컴퓨터는 또한 데이터를 저장하기 위한 하나 이상의 대용량 스토리지 디바이스들, 예를 들어 자기, 광자기 디스크 또는 광 디스크로부터 데이터를 수신하거나 데이터를 전송하거나 둘 모두를 포함하거나 작동가능하게 결합될 것이다. 그러나 컴퓨터에는 이러한 디바이스들이 필요하지 않다. 컴퓨터 프로그램 명령어들 및 데이터를 저장하기에 적합한 컴퓨터 판독가능 매체는 예를 들어 EPROM, EEPROM 및 플래시 메모리 디바이스와 같은 반도체 메모리 디바이스; 자기 디스크, 예를 들어 내부 하드 디스크 또는 이동식 디스크; 광자기 디스크; 그리고 CD ROM 및 DVD-ROM 디스크를 포함하는 모든 형태의 비휘발성 메모리, 매체 및 메모리 디바이스를 포함한다. 프로세서와 메모리는 특수 목적 논리 회로에 의해 보완되거나 통합될 수 있다.
사용자와의 상호작용을 제공하기 위해, 본 발명의 하나 이상의 양태들은 사용자에게 정보를 디스플레이하기 위한 디스플레이 디바이스, 예를 들어 CRT(음극선관), LCD(액정 디스플레이) 모니터 또는 터치 스크린 및 선택적으로 키보드 및 포인팅 디바이스, 예를 들어 마우스 또는 트랙볼을 갖는 컴퓨터에서 구현될 수 있으며, 이를 통해 사용자는 컴퓨터에 입력을 제공할 수 있다. 다른 종류의 디바이스들을 사용하여 사용자와의 상호작용도 제공할 수 있다; 예를 들어, 사용자에게 제공되는 피드백은 시각적 피드백, 청각적 피드백 또는 촉각적 피드백과 같은 임의의 형태의 감각 피드백일 수 있다; 그리고 사용자로부터의 입력은 음향, 스피치 또는 촉각적 입력을 포함한 모든 형태로 수신될 수 있다. 또한 컴퓨터는 사용자가 사용하는 디바이스와 문서를 주고받음으로써 사용자와 상호작용할 수 있다; 예를 들어, 웹 브라우저에서 받은 요청에 대한 응답으로 사용자 클라이언트 디바이스의 웹 브라우저에 웹 페이지를 보낼 수 있다.
다수의 구현예들이 설명되었다. 그럼에도 불구하고, 본 발명의 사상 및 범위를 벗어나지 않고 다양한 수정이 이루어질 수 있음이 이해될 것이다. 따라서, 다른 구현예들은 다음 청구 범위 내에 있다.

Claims (22)

  1. 언어적 콘텐츠(120) 및 스피킹 스타일(140) 분리 모델(100)에 있어서, 상기 모델(100)은:
    콘텐츠 인코더(110), 상기 콘텐츠 인코더(110)는:
    입력으로서, 입력 스피치(102)를 수신하고; 그리고
    출력으로서, 입력 스피치(102)에 대한 언어적 콘텐츠(120)의 잠재적 표현을 생성하도록 구성되고, 상기 콘텐츠 인코더(110)는 언어적 콘텐츠(120)의 잠재적 표현으로부터 스피킹 스타일 정보를 분리하도록 트레이닝되며,
    스타일 인코더(130), 상기 스타일 인코더(130)는:
    입력으로서, 동일하거나 상이한 입력 스피치(102)를 수신하고; 그리고
    출력으로서, 동일하거나 상이한 입력 스피치(102)에 대한 스피킹 스타일(140)의 잠재적 표현을 생성하도록 구성되고, 상기 스타일 인코더(130)는 스피킹 스타일(140)의 잠재적 표현으로부터 언어적 콘텐츠 정보를 분리하도록 트레이닝되며, 및
    디코더(150)를 포함하고, 상기 디코더(150)는 입력 스피치(102)에 대한 언어적 콘텐츠(120)의 잠재적 표현 및 동일하거나 상이한 입력 스피치(102)에 대한 스피킹 스타일의 잠재적 표현에 기반하여 출력 스피치를 생성하도록 구성된, 모델(100).
  2. 제1항에 있어서,
    상기 콘텐츠 인코더(110)는 입력 스피치(102)에서 스피킹 스타일 변이들을 폐기하는 언어적 콘텐츠(120)의 개별 타임스텝별(per-timestep) 잠재적 표현으로서 언어적 콘텐츠(120)의 잠재적 표현을 생성하는, 모델(100).
  3. 제1항 또는 제2항에 있어서,
    상기 콘텐츠 인코더(110)는:
    입력 스피치(102)를 입력으로서 수신하고 언어적 콘텐츠(120)의 초기 개별 타임스텝별 잠재적 표현을 생성하도록 구성된 하나 이상의 콘볼루션 레이어들(112), 및
    입력 스피치(102)를 형성하는 언어적 콘텐츠(120)를 나타내는 잠재적 변수들의 시퀀스로서 언어적 콘텐츠(120)의 잠재적 표현을 생성하기 위해 언어적 콘텐츠(120)의 각 초기 개별 타임스텝별 잠재적 표현에 직선 기울기들을 갖는 정보 버틀넥(bottleneck)을 적용하도록 구성된 벡터 양자화(VQ) 레이어를 포함하는, 모델(100).
  4. 제3항에 있어서,
    상기 콘텐츠 인코더(110)는 각 타임스텝에 대해 생성된 언어적 콘텐츠(120)의 잠재적 표현에 기반한 콘텐츠 VQ 손실(124)을 사용하여 트레이닝되고, 상기 콘텐츠 VQ 손실(124)은 상기 콘텐츠 인코더(110)가 출력과 가장 가까운 코드북 사이의 거리를 최소화하도록 하는, 모델(100).
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 스타일 인코더(130)는:
    입력 스피치(102)를 입력으로서 수신하도록 구성된 하나 이상의 콘볼루션 레이어들(132); 및
    스피킹 스타일(140)의 잠재적 표현에 대응하는 글로벌 잠재적 스타일 변수를 추출하기 위해 시간 축에 걸쳐 글로벌 평균 풀링(pooling) 동작을 사용하여 상기 하나 이상의 콘볼루션 레이어들(132)로부터의 출력을 요약하도록 구성된 가우시안 포스테리어(Gaussian posterior)를 갖는 변이 레이어(134)를 포함하는, 모델(100).
  6. 제5항에 있어서,
    트레이닝 동안, 글로벌 스타일 잠재적 변수는 상기 스타일 인코더(130)에 의해 예측된 스타일 잠재적 변수들의 평균 및 분산에서 샘플링되고; 그리고
    추론 동안, 글로벌 스타일 잠재적 변수는 상기 스타일 인코더(130)에 의해 예측된 글로벌 잠재적 스타일 변수들의 평균에서 샘플링되는, 모델(100).
  7. 제5항 또는 제6항에 있어서,
    상기 스타일 인코더(130)는 상기 스타일 인코더(130)에 의해 예측된 스타일 잠재적 변수들의 평균 및 분산에 기반한 스타일 정규화 손실(144)을 사용하여 트레이닝되고, 상기 스타일 인코더(130)는 유닛 가우시안 프라이어(Gaussian prior)를 갖는 가우시안 포스테리어 사이의 쿨백-라이블러(Kullback-Leibler) 다이버전스를 최소화하기 위해 상기 스타일 정규화 손실(144)을 사용하는, 모델(100).
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 디코더(150)는:
    입력으로서, 입력 스피치(102)에 대한 언어적 콘텐츠(120)의 잠재적 표현 및 동일한 입력 스피치(102)에 대한 스피킹 스타일(140)의 잠재적 표현을 수신하고; 그리고
    출력으로서, 입력 스피치(102)의 재구성을 포함하는 출력 스피치를 생성하는, 모델(100).
  9. 제8항에 있어서,
    상기 모델(100)은 입력 스피치(102)와 상기 디코더(150)로부터 출력된 입력 스피치(102)의 재구성 사이의 재구성 손실(162)을 사용하여 트레이닝되는, 모델(100).
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,
    입력으로서, 입력 스피치(102)에 대한 언어적 콘텐츠(120)의 잠재적 표현 및 상이한 입력 스피치(102)에 대한 스피킹 스타일(140)의 잠재적 표현을 수신하고; 그리고
    출력으로서, 입력 스피치(102)에 의해 지정된 언어적 콘텐츠 정보 및 상이한 입력 스피치(102)에 의해 지정된 스피킹 스타일 정보를 포함하는 출력 스피치를 생성하는, 모델(100).
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,
    상기 콘텐츠 인코더(110) 및 상기 스타일 인코더(130)는 언어적 콘텐츠(120) 및 스피킹 스타일(140)의 잠재적 표현들에서 캡처된 상호 정보를 최소화하기 위해 상호 정보 손실을 사용하여 트레이닝되는, 모델(100).
  12. 컴퓨터 구현 방법(500)으로서, 상기 컴퓨터 구현 방법(500)은 데이터 프로세싱 하드웨어(22)에서 실행될 때, 데이터 프로세싱 하드웨어(22)로 하여금 동작들을 수행하게 하고, 상기 동작들은:
    입력 스피치(102)를 수신하는 동작;
    콘텐츠 인코더(110)를 사용하여, 입력 스피치(102)에 대한 언어적 콘텐츠(120)의 잠재적 표현을 생성하기 위해 입력 스피치(102)를 프로세싱하는 동작, 상기 콘텐츠 인코더(110)는 언어적 콘텐츠(120)의 잠재적 표현으로부터 스피킹 스타일 정보를 분리하도록 트레이닝되고;
    스타일 인코더(130)를 사용하여, 동일하거나 상이한 입력 스피치(102)에 대한 스피킹 스타일(140)의 잠재적 표현을 생성하기 위해 동일하거나 상이한 입력 스피치(102)를 프로세싱하는 동작, 상기 스타일 인코더(130)는 스피킹 스타일(140)의 잠재적 표현으로부터 언어적 콘텐츠 정보를 분리하도록 트레이닝되며; 및
    디코더(150)를 사용하여, 출력 스피치를 생성하기 위해 입력 스피치(102)에 대한 언어적 콘텐츠(120)의 잠재적 표현 및 동일하거나 상이한 입력 스피치(102)에 대한 스피킹 스타일(140)의 잠재적 표현(140)을 프로세싱하는 동작을 포함하는, 컴퓨터 구현 방법(500).
  13. 제12항에 있어서,
    언어적 콘텐츠(120)의 잠재적 표현을 생성하기 위해 입력 스피치(102)를 프로세싱하는 동작은 입력 스피치(102)에서 스피킹 스타일 변이들을 폐기하는 언어적 콘텐츠(120)의 개별 타임스텝별(per-timestep) 잠재적 표현으로서 언어적 콘텐츠(120)의 잠재적 표현을 생성하기 위해 입력 스피치(102)를 프로세싱하는 동작을 포함하는, 컴퓨터 구현 방법(500).
  14. 제12항 또는 제13항에 있어서,
    상기 콘텐츠 인코더(110)는:
    입력 스피치(102)를 입력으로서 수신하고 언어적 콘텐츠(120)의 초기 개별 타임스텝별 잠재적 표현을 생성하도록 구성된 하나 이상의 콘볼루션 레이어들(112), 및
    입력 스피치(102)를 형성하는 언어적 콘텐츠(120)를 나타내는 잠재적 변수들의 시퀀스로서 언어적 콘텐츠(120)의 잠재적 표현을 생성하기 위해 언어적 콘텐츠(120)의 각 초기 개별 타임스텝별 잠재적 표현에 직선 기울기들을 갖는 정보 버틀넥(bottleneck)을 적용하도록 구성된 벡터 양자화(VQ) 레이어를 포함하는, 컴퓨터 구현 방법(500).
  15. 제14항에 있어서,
    상기 콘텐츠 인코더(110)는 각 타임스텝에 대해 생성된 언어적 콘텐츠(120)의 잠재적 표현에 기반한 콘텐츠 VQ 손실(124)을 사용하여 트레이닝되고, 상기 콘텐츠 VQ 손실(124)은 상기 콘텐츠 인코더(110)가 출력과 가장 가까운 코드북 사이의 거리를 최소화하도록 하는, 컴퓨터 구현 방법(500).
  16. 제12항 내지 제15항 중 어느 한 항에 있어서,
    상기 스타일 인코더(130)는:
    입력 스피치(102)를 입력으로서 수신하도록 구성된 하나 이상의 콘볼루션 레이어들(132); 및
    스피킹 스타일(140)의 잠재적 표현에 대응하는 글로벌 잠재적 스타일 변수를 추출하기 위해 시간 축에 걸쳐 글로벌 평균 풀링(pooling) 동작을 사용하여 상기 하나 이상의 콘볼루션 레이어들(132)로부터의 출력을 요약하도록 구성된 가우시안 포스테리어(Gaussian posterior)를 갖는 변이 레이어(134)를 포함하는, 컴퓨터 구현 방법(500).
  17. 제16항에 있어서,
    상기 동작들은:
    트레이닝 동안, 상기 스타일 인코더(130)에 의해 예측된 스타일 잠재적 변수들의 평균 및 분산에서 글로벌 스타일 잠재적 변수를 샘플링하는 동작; 및
    추론 동안, 상기 스타일 인코더(130)에 의해 예측된 글로벌 잠재적 스타일 변수들의 평균에서 글로벌 스타일 잠재적 변수를 샘플링하는 동작을 더 포함하는, 컴퓨터 구현 방법(500).
  18. 제16항 또는 제17항에 있어서,
    상기 스타일 인코더(130)는 상기 스타일 인코더(130)에 의해 예측된 스타일 잠재적 변수들의 평균 및 분산에 기반한 스타일 정규화 손실(144)을 사용하여 트레이닝되고, 상기 스타일 인코더(130)는 유닛 가우시안 프라이어(Gaussian prior)를 갖는 가우시안 포스테리어 사이의 쿨백-라이블러(Kullback-Leibler) 다이버전스를 최소화하기 위해 상기 스타일 정규화 손실(144)을 사용하는, 컴퓨터 구현 방법(500).
  19. 제12항 내지 제18항 중 어느 한 항에 있어서,
    상기 디코더(150)는:
    입력으로서, 입력 스피치(102)에 대한 언어적 콘텐츠(120)의 잠재적 표현 및 동일한 입력 스피치(102)에 대한 스피킹 스타일(140)의 잠재적 표현을 수신하고; 그리고
    출력으로서, 입력 스피치(102)의 재구성을 포함하는 출력 스피치를 생성하기 위해 입력 스피치(102)에 대한 언어적 콘텐츠(120)의 잠재적 표현 및 동일한 입력 스피치(102)에 대한 스피킹 스타일(140)의 잠재적 표현을 프로세싱하도록 구성되는, 컴퓨터 구현 방법(500).
  20. 제19항에 있어서,
    상기 모델(100)은 입력 스피치(102)와 상기 디코더(150)로부터 출력된 입력 스피치(102)의 재구성 사이의 재구성 손실(162)을 사용하여 트레이닝되는, 컴퓨터 구현 방법(500).
  21. 제12항 내지 제20항 중 어느 한 항에 있어서,
    상기 디코더는:
    입력으로서, 입력 스피치(102)에 대한 언어적 콘텐츠(120)의 잠재적 표현 및 상이한 입력 스피치(102)에 대한 스피킹 스타일(140)의 잠재적 표현을 수신하고; 그리고
    출력으로서, 입력 스피치(102)에 의해 지정된 언어적 콘텐츠 정보 및 상이한 입력 스피치(102)에 의해 지정된 스피킹 스타일 정보를 포함하는 출력 스피치를 생성하기 위해 입력 스피치(102)에 대한 언어적 콘텐츠(120)의 잠재적 표현 및 상이한 입력 스피치(102)에 대한 스피킹 스타일(140)의 잠재적 표현인, 컴퓨터 구현 방법(500).
  22. 제12항 내지 제21항 중 어느 한 항에 있어서,
    상기 콘텐츠 인코더(110) 및 상기 스타일 인코더(130)는 언어적 콘텐츠(120) 및 스피킹 스타일(140)의 잠재적 표현들에서 캡처된 상호 정보를 최소화하기 위해 상호 정보 손실을 사용하여 트레이닝되는, 컴퓨터 구현 방법(500).
KR1020237022112A 2020-12-11 2021-11-18 분리된 스피치 콘텐츠 및 스타일 표현의 비지도 학습 KR20230116877A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063124379P 2020-12-11 2020-12-11
US63/124,379 2020-12-11
PCT/US2021/059991 WO2022125290A1 (en) 2020-12-11 2021-11-18 Unsupervised learning of disentangled speech content and style representation

Publications (1)

Publication Number Publication Date
KR20230116877A true KR20230116877A (ko) 2023-08-04

Family

ID=78822351

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237022112A KR20230116877A (ko) 2020-12-11 2021-11-18 분리된 스피치 콘텐츠 및 스타일 표현의 비지도 학습

Country Status (6)

Country Link
US (1) US20220189456A1 (ko)
EP (1) EP4244854A1 (ko)
JP (1) JP2023553993A (ko)
KR (1) KR20230116877A (ko)
CN (1) CN116635934A (ko)
WO (1) WO2022125290A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB201718756D0 (en) * 2017-11-13 2017-12-27 Cambridge Bio-Augmentation Systems Ltd Neural interface
US11551668B1 (en) * 2020-12-30 2023-01-10 Meta Platforms, Inc. Generating representations of speech signals using self-supervised learning
US11804214B2 (en) * 2021-02-26 2023-10-31 Walmart Apollo, Llc Methods and apparatuses for discriminative pre-training for low resource title compression
US11599972B1 (en) * 2021-12-22 2023-03-07 Deep Render Ltd. Method and system for lossy image or video encoding, transmission and decoding
CN114822495B (zh) * 2022-06-29 2022-10-14 杭州同花顺数据开发有限公司 声学模型训练方法、装置及语音合成方法
CN115472167A (zh) * 2022-08-17 2022-12-13 南京龙垣信息科技有限公司 基于大数据自监督的声纹识别模型训练方法、系统
CN117727288B (zh) * 2024-02-07 2024-04-30 翌东寰球(深圳)数字科技有限公司 一种语音合成方法、装置、设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3834137A1 (en) * 2018-09-27 2021-06-16 DeepMind Technologies Limited Committed information rate variational autoencoders
US11854562B2 (en) * 2019-05-14 2023-12-26 International Business Machines Corporation High-quality non-parallel many-to-many voice conversion
CN113470615B (zh) * 2020-03-13 2024-03-12 微软技术许可有限责任公司 跨讲话者风格转移语音合成
US11735156B1 (en) * 2020-08-31 2023-08-22 Amazon Technologies, Inc. Synthetic speech processing

Also Published As

Publication number Publication date
US20220189456A1 (en) 2022-06-16
EP4244854A1 (en) 2023-09-20
JP2023553993A (ja) 2023-12-26
CN116635934A (zh) 2023-08-22
WO2022125290A1 (en) 2022-06-16

Similar Documents

Publication Publication Date Title
KR20230116877A (ko) 분리된 스피치 콘텐츠 및 스타일 표현의 비지도 학습
US10127904B2 (en) Learning pronunciations from acoustic sequences
Tirumala et al. A review on deep learning approaches in speaker identification
WO2018118442A1 (en) Acoustic-to-word neural network speech recognizer
KR102625184B1 (ko) 고유 음성 사운드를 생성하기 위한 음성 합성 트레이닝
KR20230147685A (ko) 서브 워드 엔드-투-엔드 자동 스피치 인식을 위한 워드 레벨 신뢰도 학습
US11961515B2 (en) Contrastive Siamese network for semi-supervised speech recognition
US20230377564A1 (en) Proper noun recognition in end-to-end speech recognition
KR20220130699A (ko) 심의 모델 기반 2패스 종단간 음성 인식
US20230186901A1 (en) Attention-Based Joint Acoustic and Text On-Device End-to-End Model
Padi et al. Towards relevance and sequence modeling in language recognition
JP2024505076A (ja) 多様で自然なテキスト読み上げサンプルを生成する
Prudnikov et al. Improving acoustic models for Russian spontaneous speech recognition
KR20230158608A (ko) 종단 간 자동 음성 인식 신뢰도 및 삭제 추정을 위한 멀티태스크 학습
US20220122581A1 (en) Using Speech Recognition to Improve Cross-Language Speech Synthesis
KR20230156425A (ko) 자체 정렬을 통한 스트리밍 asr 모델 지연 감소
US11804212B2 (en) Streaming automatic speech recognition with non-streaming model distillation
EP4128219B1 (en) Emitting word timings with end-to-end models
Doetsch et al. Inverted HMM-a Proof of Concept
Zweig et al. Speech recognition with segmental conditional random fields: final report from the 2010 JHU summer workshop
US20230360632A1 (en) Speaker Embeddings for Improved Automatic Speech Recognition
Ahmed et al. Efficient feature extraction and classification for the development of Pashto speech recognition system
Mittal et al. An Ensemble Approach for Speaker Recognition using Deep Neural Networks
Bhagat et al. Enhancing Performance of Noise-Robust Gujarati Language ASR Utilizing the Hybrid Acoustic Model and Combined MFCC+ GTCC Feature
Dib Speaker Diarization Using Improved SincNet Models to Extract Speaker Embeddings