KR20220105043A - 음성 변환 방법 및 장치 - Google Patents

음성 변환 방법 및 장치 Download PDF

Info

Publication number
KR20220105043A
KR20220105043A KR1020210007607A KR20210007607A KR20220105043A KR 20220105043 A KR20220105043 A KR 20220105043A KR 1020210007607 A KR1020210007607 A KR 1020210007607A KR 20210007607 A KR20210007607 A KR 20210007607A KR 20220105043 A KR20220105043 A KR 20220105043A
Authority
KR
South Korea
Prior art keywords
voice
speaker
decoder
original
conversion
Prior art date
Application number
KR1020210007607A
Other languages
English (en)
Inventor
육동석
유인철
장형필
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020210007607A priority Critical patent/KR20220105043A/ko
Publication of KR20220105043A publication Critical patent/KR20220105043A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Audible-Bandwidth Dynamoelectric Transducers Other Than Pickups (AREA)
  • Input Circuits Of Receivers And Coupling Of Receivers And Audio Equipment (AREA)

Abstract

본 발명은 임의의 음성 신호에서 발화된 내용은 유지하면서 화자의 발화 특성 (성별, 연령 등)을 변환시킬 수 있는 음성 변환 방법 및 장치에 관한 것이다.
본 발명의 일실시예에 의한 음성 변환 방법은 원본 화자 및 변환 대상 음성 데이터를 수집하는 단계; VAE(variational autoencoder)의 인코더 및 디코더를 이용하여 원본 화자 음성(A)을 변환 대상 화자 음성(B’)으로 변환하는 단계; 상기 인코더 및 디코더를 이용하여 상기 변환 대상 화자 음성(B’)을 복원 음성(A’)으로 변환하는 단계; 및 상기 원본 음성(A)과 상기 복원 음성(A’)을 비교하여 상기 원본 음성(A)과 상기 복원 음성(A’)의 차이가 줄어들도록 상기 디코더를 학습시키는 단계를 포함할 수 있다.

Description

음성 변환 방법 및 장치{Method And Apparatus for voice conversion}
본 발명은 음성 신호 처리에 관한 것으로, 보다 상세하게는 임의의 음성 신호에서 발화된 내용은 유지하면서 화자의 발화 특성 (성별, 연령 등)을 변환시킬 수 있는 음성 변환 방법 및 장치에 관한 것이다.
음성 변환 기술은 주어진 음성에서 발화된 내용은 유지하면서 화자의 발화 특성을 변환시키는 기술이다.
일반적인 음성 변환 알고리즘은 여러 화자가 동일한 문장을 발화한 음성 데이터, 즉 병렬 데이터 (parallel training data)를 필요로 한다. 이러한 병렬 데이터는 구축에 비용이 많이 들기에, 병렬 데이터 없이 학습 가능한 음성 변환 알고리즘이 연구되고 있다.
Variational autoencoder(VAE) 알고리즘을 이용한 음성 변환 기술은 이러한 병렬 데이터 없이 음성 변환을 가능케 하며, 단일 모델로 다수 화자 간의 음성을 서로 변환시키는 다대다(many-to-many) 음성 변환이 가능한 알고리즘이다.
Generative adversarial network(GAN) 알고리즘을 이용한 음성 변환 기술은 일대일(one-to-one) 음성 변환만 가능하고 학습 속도가 상대적으로 느린 대신 변환된 음성의 품질이 VAE에 비해 좋다.
따라서 음성의 품질을 높이면서도 학습 속도가 빠른 음성 변환 기술에 대한 연구가 필요한 실정이다.
대한민국 등록특허 10-1666930 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치
본 발명의 목적은 복수 화자 음성 변환이 가능하고 학습 속도가 빠르고, 변환된 음성의 품질을 높일 수 있는 음성 변환 방법 및 장치를 제공하는 데 있다.
본 발명의 목적은 CycleVAE(Cycle-Consistent Variational Autoencoder)를 이용하여 고품질의 변환 화자 음성을 출력하면서도 학습 속도가 빠른 음성 변환 방법 및 장치를 제공하는 데 있다.
상기 목적을 달성하기 위해 본 발명의 일실시예에 의하면, 원본 화자 및 변환 대상 음성 데이터를 수집하는 단계; VAE(variational autoencoder)의 인코더 및 디코더를 이용하여 원본 화자 음성(A)을 변환 대상 화자 음성(B’)으로 변환하는 단계; 상기 인코더 및 디코더를 이용하여 상기 변환 대상 화자 음성(B’)을 복원 음성(A’)으로 변환하는 단계; 및 상기 원본 음성(A)과 상기 복원 음성(A’)을 비교하여 상기 원본 음성(A)과 상기 복원 음성(A’)의 차이가 줄어들도록 상기 디코더를 학습시키는 단계를 포함하는 음성 변환 방법이 개시된다.
상기 목적을 달성하기 위해 본 발명의 일실시예에 의하면, 원본 화자 및 변환 대상 음성 데이터를 수집하는 음성 수집부; 원본 화자 음성(A)을 입력으로 하여 변환 대상 화자 음성(B’)으로 변환하고, 상기 변환 대상 화자 음성(B’)을 복원 음성(A’)으로 변환하는 VAE(variational autoencoder)의 인코더 및 디코더; 상기 원본 음성(A)과 상기 복원 음성(A’)을 비교하여 상기 원본 음성(A)과 상기 복원 음성(A’)의 차이가 줄어들도록 상기 디코더를 학습시키는 학습부; 및 상기 음성 수집부, 상기 인코더 및 디코더, 상기 학습부를 제어하는 제어부를 포함하는 음성 변환 장치가 개시된다.
본 발명의 일실시예에 의한 음성 변환 방법 및 장치는 음성 인식 시스템의 학습을 위해 기존에 보유하고 있던 음성 데이터를 여러 화자로 변환시켜가며 학습시켜 음성 인식 시스템의 성능을 끌어올릴 수 있다.
또한, 본 발명의 일실시예에 의하면, 외국어 구사자의 발음을 원어민의 것으로 변환하거나, 그 반대의 변환을 수행하여 상호 의사소통을 돕는데 활용될 수 있다.
본 발명의 일실시예에 의하면, 청각 장애 등으로 발음이 자연스럽지 못한 화자의 음성을 자연스러운 화자의 것으로 변환하여 편리하게 일상생활을 영위할 수 있게 도울 수 있다.
본 발명의 일실시예에 의하면, 오디오 북을 청취자가 원하는 유명인의 목소리로 선택해 청취하는 서비스가 가능해진다.
본 발명의 일실시예에 의하면, 현재는 외국 영화 및 드라마의 경우 자막판이나 모국 성우의 모국어 더빙판 만이 관람 가능한데, 음성 변환 기술을 이용하면 원작의 외국인 배우 목소리 그대로 유지한 채 관람자의 모국어 더빙판 관람이 가능해질 수 있다.
본 발명의 일실시예에 의하면, 음성 변환 기술로 화자의 발화 특성을 제거함으로써 개인 정보를 보호할 수 있다.
도 1은 본 발명의 일실시예와 관련된 음성 변환 장치의 블록도이다.
도 2는 본 발명의 일실시예와 관련된 CycleVAE(Cycle-Consistent Variational Autoencoder)를 이용하여 음성 변환 방법을 설명하기 위한 도면이다.
도 3은 본 발명의 일실시예와 관련된 다중 디코더가 구비된 CycleVAE(Cycle-Consistent Variational Autoencoder)를 이용하여 음성 변환 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 일실시예와 관련된 음성 변환 방법과 기존의 음성 변환 방법과의 차이점을 나타내는 그래프이다.
이하, 본 발명의 일실시예와 관련된 음성 변환 방법 및 장치에 대해 도면을 통해 설명하도록 하겠다.
본 명세서에서 사용되는 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "구성된다" 또는 "포함한다" 등의 용어는 명세서상에 기재된 여러 구성 요소들, 또는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.
도 1은 본 발명의 일실시예와 관련된 음성 변환 장치의 블록도이다.
도시된 바와 같이, 음성 변환 장치(100)는 음성 수집부(110), 인코더(120), 학습부(130), 디코더(140), 제어부(150)를 포함할 수 있다.
상기 음성 수집부(110)는 마이크(미도시)가 구비되어 원본 화자의 음성을 변환의 대상이 되는 화자의 음성으로 변환하기 위해 원본 화자의 음성 데이터 및 변환의 대상이 되는 화자의 음성 데이터(이하, '변환 대상 음성 데이터'라 함)를 마이크 등을 통하여 수집할 수 있다.
상기 인코더(120) 및 상기 디코더(140)는 VAE(variational autoencoder)의 인코더 및 디코더로 쌍으로 이루어질 수 있다. 상기 인코더(120)로 입력되어 상기 디코더(140)로 출력된 변환 음성은 다시 상기 인코더(120)로 입력되어 상기 디코더(140)로 출력될 수 있다.
본 발명의 일실시예에 의하면, 다수 화자 음성 변환이 가능한 인코더(120)와 디코더(140)의 쌍으로 이루어진 VAE(variational autoencoder) 기반으로 순환시킴으로써, 병렬 학습 데이터 없이 음성 변환 경로를 명시적으로 학습할 수 있는 CycleVAE(Cycle-Consistent Variational Autoencoder)를 구비할 수 있다. 상기 CycleVAE(Cycle-Consistent Variational Autoencoder)를 통해 변환되는 음성의 품질을 향상시킬 수 있다.
상기 학습부(130)는 변환된 음성(B')을 변환 전 원본 음성으로 다시 복원(A')한 뒤 원본 음성(A)과의 손실을 측정한다. 이 손실을 줄이는 방향으로 다양한 파라미터를 조정하여 변환된 음성의 품질을 높일 수 있다. 또한, 학습부(130)의 상기 다양한 파라미터 조정을 통해 디코더(140)가 학습될 수도 있다.
상기 제어부(150)는 음성 수집부(110), 인코더(120), 학습부(130), 디코더(140)를 전반적으로 제어할 수 있다.
도 2는 본 발명의 일실시예와 관련된 CycleVAE(Cycle-Consistent Variational Autoencoder)를 이용하여 음성 변환 방법을 설명하기 위한 도면이다.
먼저, 음성 수집부(110)에서 수집된 원본 화자 음성(A)이 인코더(120)로 입력되어 압축될 수 있다. 상기 원본 화자 음성(A)이 복수 화자 음성일 경우, 상기 복수 화자 음성이 각각 입력되어 압축될 수 있다. 상기 압축된 원본 화자 음성은 잠재 벡터(z) 형태로 생성될 수 있다.
상기 잠재 벡터는 상기 디코더(140)로 주입되어 변환 대상 화자 음성(B’)으로 변환될 수 있다.
상기 인코더(120) 및 상기 디코더(140)는 VAE(variational autoencoder)의 인코더 및 디코더로 쌍으로 이루어져 있다.
그리고, 상기 디코더(140)를 통해 출력된 변환 대상 화자 음성(B’)은 다시 인코더(120) 및 디코더(140)로 주입될 수 있다. 다시 인코더(120) 및 디코더(140)로 주입된 변환 대상 화자 음성(B’)은 변환 전의 원본 화자 음성(A')으로 복원될 수 있다.
이 경우, 상기 학습부(130)는 상기 원본 음성(A)과 상기 복원 음성(A’)을 비교하여 그 차이를 측정하고, 상기 원본 음성(A)과 상기 복원 음성(A’)의 차이가 줄어들도록 다양한 파라미터 조정을 통해 상기 디코더를 학습시킬 수 있다.
또한, 상기 원본 화자 음성(A) 및 변환 대상 화자 음성(B’)은 복수 화자의 음성에 대한 병렬 데이터 일 수 있다.
이하에서는 다대다 음성 변환 방법에 대해 설명하도록 하겠다.
도 3은 본 발명의 일실시예와 관련된 다중 디코더가 구비된 CycleVAE(Cycle-Consistent Variational Autoencoder)를 이용하여 음성 변환 방법을 설명하기 위한 도면이다.
먼저, 음성 수집부(110)에서 수집된 원본 화자 음성(A)이 인코더(120)로 입력되어 압축될 수 있다. 상기 원본 화자 음성(A)은 복수 화자 음성이다. 이 경우, 상기 복수 화자 음성이 각각 입력되어 압축될 수 있다. 상기 압축된 원본 화자 음성은 잠재 벡터(z) 형태로 생성될 수 있다.
상기 잠재 벡터는 상기 디코더(140)로 주입되어 변환 대상 화자 음성(B’)으로 변환될 수 있다.
그리고, 상기 디코더(140)를 통해 출력된 복수 화자의 변환 대상 화자 음성(B’)은 다시 인코더(120) 및 디코더(140)로 주입될 수 있다. 다시 인코더(120) 및 디코더(140)로 주입된 변환 대상 화자 음성(B’)은 변환 전의 원본 화자 음성(A')으로 복원될 수 있다.
이 경우, 상기 학습부(130)는 상기 원본 음성(A)과 상기 복원 음성(A’)을 비교하여 그 차이를 측정학고, 상기 원본 음성(A)과 상기 복원 음성(A’)의 차이가 줄어들도록 다양한 파라미터 조정을 통해 상기 디코더를 학습시킬 수 있다. 상기 디코더(140)는 변환의 대상이 되는 복수 화자에 일대일로 대응될 수 있도록 다중 디코더(디코더 a, 디코더 b, ..)로 이루어질 수 있고, 각 디코더는 각 화자에 대한 전용 디코더이다. 그리고 각 디코더는 서로 독립적이다. 각 디코더는 대응되는 화자의 특징을 각각 학습한다.
또한, 상기 원본 화자 음성(A) 및 변환 대상 화자 음성(B’)은 복수 화자의 음성에 대한 병렬 데이터 일 수 있다.
한편, 도시된 실시예에서는 단일 인코더와 다중 디코더에 대해서만 설명했지만, 상기 인코더(120)는 복수 화자에 일대일로 대응될 수 있도록 다중 인코더로 이루어질 수 있다.
도 4는 본 발명의 일실시예와 관련된 음성 변환 방법과 기존의 음성 변환 방법과의 차이점을 나타내는 그래프이다.
도시된 그래프에서 MCC는 Mel-cepstral coefficients를 나타내고, GV는 global variance를 나타낸다. CycleVAE는 본 발명의 일실시예에 의한 음성 변환 방법이고, VAE는 Variational Autoencoder를 이용한 음성 변환 방법이고, Real은 실제 음성을 나타낸다. 도시된 그래프를 통해 확인할 수 있듯이, CycleVAE가 VAE보다 실제 음성에 더 근접해 있음을 알 수 있다.
전술한 바와 같이, 본 발명의 일실시예에 의한 음성 변환 방법 및 장치는 음성 인식 시스템의 학습을 위해 기존에 보유하고 있던 음성 데이터를 여러 화자로 변환시켜가며 학습시켜 음성 인식 시스템의 성능을 끌어올릴 수 있다.
또한, 본 발명의 일실시예에 의하면, 외국어 구사자의 발음을 원어민의 것으로 변환하거나, 그 반대의 변환을 수행하여 상호 의사소통을 돕는데 활용될 수 있다.
본 발명의 일실시예에 의하면, 청각 장애 등으로 발음이 자연스럽지 못한 화자의 음성을 자연스러운 화자의 것으로 변환하여 편리하게 일상생활을 영위할 수 있게 도울 수 있다.
본 발명의 일실시예에 의하면, 오디오 북을 청취자가 원하는 유명인의 목소리로 선택해 청취하는 서비스가 가능해진다.
본 발명의 일실시예에 의하면, 현재는 외국 영화 및 드라마의 경우 자막판이나 모국 성우의 모국어 더빙판 만이 관람 가능한데, 음성 변환 기술을 이용하면 원작의 외국인 배우 목소리 그대로 유지한 채 관람자의 모국어 더빙판 관람이 가능해질 수 있다.
본 발명의 일실시예에 의하면, 음성 변환 기술로 화자의 발화 특성을 제거함으로써 개인 정보를 보호할 수 있다.
상기와 같이 설명된 음성 변환 방법 및 장치는 상기 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.
100: 영상 변환 장치
110: 음성 수집부
120: 인코더
130: 학습부
140: 디코더
150: 제어부

Claims (8)

  1. 원본 화자 및 변환 대상 음성 데이터를 수집하는 단계;
    VAE(variational autoencoder)의 인코더 및 디코더를 이용하여 원본 화자 음성(A)을 변환 대상 화자 음성(B’)으로 변환하는 단계;
    상기 인코더 및 디코더를 이용하여 상기 변환 대상 화자 음성(B’)을 복원 음성(A’)으로 변환하는 단계; 및
    상기 원본 음성(A)과 상기 복원 음성(A’)을 비교하여 상기 원본 음성(A)과 상기 복원 음성(A’)의 차이가 줄어들도록 상기 디코더를 학습시키는 단계를 포함하는 것을 특징으로 하는 음성 변환 방법.
  2. 제1항에 있어서,
    상기 원본 화자 음성(A)은 복수 화자 음성에 대한 병렬 데이터이고, 상기 변환 대상 화자 음성(B’)은 복수 화자의 음성에 각각 대응되는 복수의 변환 대상 화자 음성에 대한 병렬 데이터인 것을 특징으로 하는 음성 변환 방법.
  3. 제2항에 있어서, 상기 디코더는
    복수 화자에 일대일로 대응될 수 있도록 다중 디코더로 이루어진 것을 특징으로 하는 음성 변환 방법.
  4. 제3항에 있어서, 상기 인코더는
    복수 화자에 일대일로 대응될 수 있도록 다중 인코더로 이루어진 것을 특징으로 하는 음성 변환 방법.
  5. 원본 화자 및 변환 대상 음성 데이터를 수집하는 음성 수집부;
    원본 화자 음성(A)을 입력으로 하여 변환 대상 화자 음성(B’)으로 변환하고, 상기 변환 대상 화자 음성(B’)을 복원 음성(A’)으로 변환하는 VAE(variational autoencoder)의 인코더 및 디코더;
    상기 원본 음성(A)과 상기 복원 음성(A’)을 비교하여 상기 원본 음성(A)과 상기 복원 음성(A’)의 차이가 줄어들도록 상기 디코더를 학습시키는 학습부; 및
    상기 음성 수집부, 상기 인코더 및 디코더, 상기 학습부를 제어하는 제어부를 포함하는 것을 특징으로 하는 음성 변환 장치.
  6. 제5항에 있어서,
    상기 원본 화자 음성(A)은 복수 화자 음성에 대한 병렬 데이터이고, 상기 변환 대상 화자 음성(B’)은 복수 화자의 음성에 각각 대응되는 복수의 변환 대상 화자 음성에 대한 병렬 데이터인 것을 특징으로 하는 음성 변환 장치.
  7. 제6항에 있어서, 상기 디코더는
    복수 화자에 일대일로 대응될 수 있도록 다중 디코더로 이루어진 것을 특징으로 하는 음성 변환 장치.
  8. 제7항에 있어서, 상기 인코더는
    복수 화자에 일대일로 대응될 수 있도록 다중 인코더로 이루어진 것을 특징으로 하는 음성 변환 장치.
KR1020210007607A 2021-01-19 2021-01-19 음성 변환 방법 및 장치 KR20220105043A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020210007607A KR20220105043A (ko) 2021-01-19 2021-01-19 음성 변환 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210007607A KR20220105043A (ko) 2021-01-19 2021-01-19 음성 변환 방법 및 장치

Publications (1)

Publication Number Publication Date
KR20220105043A true KR20220105043A (ko) 2022-07-26

Family

ID=82609454

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210007607A KR20220105043A (ko) 2021-01-19 2021-01-19 음성 변환 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20220105043A (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116030792A (zh) * 2023-03-30 2023-04-28 澳克多普有限公司 用于转换语音音色的方法、装置、电子设备和可读介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101666930B1 (ko) 2015-04-29 2016-10-24 서울대학교산학협력단 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101666930B1 (ko) 2015-04-29 2016-10-24 서울대학교산학협력단 심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
심화 학습 모델을 이용한 목표 화자의 적응형 목소리 변환 방법 및 이를 구현하는 음성 변환 장치

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116030792A (zh) * 2023-03-30 2023-04-28 澳克多普有限公司 用于转换语音音色的方法、装置、电子设备和可读介质
CN116030792B (zh) * 2023-03-30 2023-07-25 深圳市玮欧科技有限公司 用于转换语音音色的方法、装置、电子设备和可读介质

Similar Documents

Publication Publication Date Title
US10475467B2 (en) Systems, methods and devices for intelligent speech recognition and processing
US9547642B2 (en) Voice to text to voice processing
CN103124165B (zh) 自动增益控制
US20240144945A1 (en) Signal processing apparatus and method, training apparatus and method, and program
US11528568B1 (en) Assisted hearing aid with synthetic substitution
CN114902688B (zh) 内容流处理方法和装置、计算机系统和介质
Araki et al. Meeting recognition with asynchronous distributed microphone array using block-wise refinement of mask-based MVDR beamformer
US20160210982A1 (en) Method and Apparatus to Enhance Speech Understanding
CN112530400A (zh) 基于深度学习的文本生成语音的方法、系统、装置及介质
KR20220105043A (ko) 음성 변환 방법 및 장치
EP3113175A1 (en) Method for converting text to individual speech, and apparatus for converting text to individual speech
US11715457B1 (en) Real time correction of accent in speech audio signals
US11948550B2 (en) Real-time accent conversion model
US11455984B1 (en) Noise reduction in shared workspaces
Xie et al. Pitch transformation in neural network based voice conversion
Lian et al. ARVC: An Auto-Regressive Voice Conversion System Without Parallel Training Data.
WO2024024872A1 (ja) 声質変換装置、声質変換方法、声質変換ニューラルネットワーク、プログラム、および記録媒体
US11783813B1 (en) Methods and systems for improving word discrimination with phonologically-trained machine learning models
JP2015187738A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
WO2018179209A1 (ja) 電子機器、音声制御方法、およびプログラム
Saito et al. Conversion of speaker's face image using PCA and animation unit for video chatting
US20230186925A1 (en) Feature domain bandwidth extension and spectral rebalance for asr data augmentation
JP6169526B2 (ja) 特定音声抑圧装置、特定音声抑圧方法及びプログラム
EP4348642A1 (en) Method of operating an audio device system and audio device system
Seki et al. W2N-AVSC: Audiovisual Extension For Whisper-To-Normal Speech Conversion

Legal Events

Date Code Title Description
E601 Decision to refuse application