KR20210036883A - 모델 트레이닝 방법, 음성 합성 방법, 장치, 기기 및 저장 매체 - Google Patents
모델 트레이닝 방법, 음성 합성 방법, 장치, 기기 및 저장 매체 Download PDFInfo
- Publication number
- KR20210036883A KR20210036883A KR1020210034326A KR20210034326A KR20210036883A KR 20210036883 A KR20210036883 A KR 20210036883A KR 1020210034326 A KR1020210034326 A KR 1020210034326A KR 20210034326 A KR20210034326 A KR 20210034326A KR 20210036883 A KR20210036883 A KR 20210036883A
- Authority
- KR
- South Korea
- Prior art keywords
- feature
- speech synthesis
- target
- combination
- text data
- Prior art date
Links
- 238000012549 training Methods 0.000 title claims abstract description 78
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000002194 synthesizing effect Effects 0.000 title claims description 10
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 151
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 151
- 238000001308 synthesis method Methods 0.000 claims abstract description 18
- 230000000284 resting effect Effects 0.000 claims description 22
- 230000015654 memory Effects 0.000 claims description 19
- 230000008569 process Effects 0.000 claims description 16
- 238000012545 processing Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 238000003780 insertion Methods 0.000 claims 1
- 230000037431 insertion Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 8
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 17
- 238000002372 labelling Methods 0.000 description 8
- 230000003993 interaction Effects 0.000 description 5
- 238000002156 mixing Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/06—Elementary speech units used in speech synthesisers; Concatenation rules
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
- G10L13/10—Prosody rules derived from text; Stress or intonation
- G10L2013/105—Duration
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Theoretical Computer Science (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Signal Processing (AREA)
- Probability & Statistics with Applications (AREA)
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
Abstract
Description
도 1a는 본 출원의 실시예에 따라 제공된 본 출원의 실시예에 따라 제공된 음성 합성 모델의 트레이닝 방법의 흐름 개략도이다.
도 1b는 본 출원의 실시예에 따라 제공된 운율 단어 경계의 개략도이다.
도 2는 본 출원의 실시예에 따라 제공된 음성 합성 모델의 트레이닝 방법의 흐름 개략도이다.
도 3은 본 출원의 실시예에 따라 제공된 음성 합성 방법의 흐름 개략도이다.
도 4는 본 출원의 실시예에 따라 제공된 음성 합성 방법의 흐름 개략도이다.
도 5는 본 출원의 실시예에 따라 제공된 음성 합성 처리 방법의 흐름 개략도이다.
도 6은 본 출원의 실시예에 따라 제공된 음성 합성 모델 처리 장치의 구조 개략도이다.
도 7은 본 출원의 실시예에 따라 제공된 음성 합성 장치의 구조 개략도이다.
도 8은 본 출원의 실시예의 음성 합성 모델의 트레이닝 방법 또는 음성 합성 방법을 구현하기 위한 전자 기기의 블록도이다.
Claims (21)
- 음성 합성 모델의 트레이닝 방법으로서,
샘플 텍스트 데이터의 음소 특징 및 운율 단어 경계 특징을 결정하는 단계;
상기 운율 단어 경계 특징에 따라, 상기 음소 특징에 휴지부를 삽입하여, 상기 샘플 텍스트 데이터의 조합 특징을 획득하는 단계; 및
상기 샘플 텍스트 데이터의 조합 특징에 따라, 초기 음성 합성 모델을 트레이닝하여 타깃 음성 합성 모델을 획득하는 단계
를 포함하는, 음성 합성 모델의 트레이닝 방법. - 제1항에 있어서,
상기 운율 단어 경계 특징에 따라, 상기 음소 특징에 휴지부를 삽입하여, 상기 샘플 텍스트 데이터의 조합 특징을 획득하는 단계는,
상기 운율 단어 경계 특징에 따라, 상기 음소 특징 중 운율 단어 위치를 결정하는 단계; 및
상기 운율 단어 위치에 상기 휴지부를 삽입하여, 상기 샘플 텍스트 데이터의 조합 특징을 획득하는 단계를 포함하는, 음성 합성 모델의 트레이닝 방법. - 제1항에 있어서,
상기 샘플 텍스트 데이터의 조합 특징에 따라, 초기 음성 합성 모델을 트레이닝하는 단계는,
상기 조합 특징 및 샘플 오디오 데이터의 음향학 특징에 따라, 휴지 암묵적 특징 분포를 결정하는 단계로서, 상기 샘플 오디오 데이터는 상기 샘플 텍스트 데이터와 연관되는, 상기 휴지 암묵적 특징 분포를 결정하는 단계; 및
상기 조합 특징 및 상기 휴지 암묵적 특징 분포에 따라, 초기 음성 합성 모델에 대해 비지도 트레이닝을 수행하는 단계를 포함하는, 음성 합성 모델의 트레이닝 방법. - 제3항에 있어서,
상기 조합 특징 및 샘플 오디오 데이터의 음향학 특징에 따라, 휴지 암묵적 특징 분포를 결정하는 단계는,
상기 조합 특징 및 상기 샘플 오디오 데이터의 음향학 특징을 정렬하여, 상기 조합 특징 중 휴지부의 음향학 특징을 획득하는 단계; 및
변분 오토인코더(Variational autoencoder)를 통해 상기 휴지부의 음향학 특징을 처리하여, 상기 휴지 암묵적 특징 분포를 획득하는 단계를 포함하는, 음성 합성 모델의 트레이닝 방법. - 제3항에 있어서,
상기 조합 특징 및 상기 휴지 암묵적 특징 분포에 따라, 초기 음성 합성 모델에 대해 비지도 트레이닝을 수행하는 단계는,
상기 조합 특징에 따라, 조합 특징 벡터 표현을 결정하는 단계;
상기 휴지 암묵적 특징 분포에 대해 샘플링을 수행하여 휴지 암묵적 특징을 획득하는 단계;
상기 조합 특징 벡터 표현을 상기 초기 음성 합성 모델 중 디코더의 입력으로 사용하고, 상기 디코더의 출력과 상기 휴지 암묵적 특징을 스티칭하여 콘텍스트 벡터를 획득하는 단계; 및
상기 초기 음성 합성 모델 중 인코더를 통해, 상기 콘텍스트 벡터에 대해 인코딩을 수행하여, 상기 초기 음성 합성 모델에 의해 출력된 음향학 특징을 획득하는 단계를 포함하는, 음성 합성 모델의 트레이닝 방법. - 제1항 내지 제5항 중 어느 한 항에 있어서,
상기 초기 음성 합성 모델의 출력 및 샘플 오디오 데이터를 사용하여, 초기 보코더(vocoder)에 대해 트레이닝하여 타깃 보코더를 획득하는 단계를 더 포함하는, 음성 합성 모델의 트레이닝 방법. - 음성 합성 방법으로서,
타깃 텍스트 데이터의 음소 특징 및 운율 단어 경계 특징을 결정하는 단계;
상기 운율 단어 경계 특징에 따라, 상기 음소 특징에 휴지부를 삽입하여, 상기 타깃 텍스트 데이터의 조합 특징을 획득하는 단계; 및
타깃 음성 합성 모델에 기반하여, 상기 타깃 텍스트 데이터의 조합 특징에 따라 음향학 특징을 획득하고, 상기 음향학 특징을 사용하여 타깃 음성을 합성하는 단계
를 포함하는, 음성 합성 방법. - 제7항에 있어서,
상기 운율 단어 경계 특징에 따라, 상기 음소 특징에 휴지부를 삽입하여, 상기 타깃 텍스트 데이터의 조합 특징을 획득하는 단계는,
상기 운율 단어 경계 특징에 따라, 상기 음소 특징 중 운율 단어 위치를 결정하는 단계; 및
상기 운율 단어 위치에 상기 휴지부를 삽입하여, 상기 타깃 텍스트 데이터의 조합 특징을 획득하는 단계를 포함하는, 음성 합성 방법. - 제7항에 있어서,
상기 타깃 음성 합성 모델에 기반하여, 상기 타깃 텍스트 데이터의 조합 특징에 따라 음향학 특징을 획득하는 단계는,
사용자가 원하는 타깃 휴지 지속 시간, 및 휴지 지속 시간과 휴지 암묵적 특징 사이의 연관 관계에 따라, 타깃 휴지 암묵적 특징을 결정하는 단계로서, 상기 연관 관계는 상기 타깃 음성 합성 모델의 트레이닝 단계에서 획득되는, 상기 타깃 휴지 암묵적 특징을 결정하는 단계; 및
상기 타깃 음성 합성 모델에 기반하여, 상기 타깃 텍스트 데이터의 조합 특징 및 상기 타깃 휴지 암묵적 특징에 따라 음향학 특징을 획득하는 단계를 포함하는, 음성 합성 방법. - 음성 합성 모델의 트레이닝 장치로서,
샘플 텍스트 데이터의 음소 특징 및 운율 단어 경계 특징을 결정하는 샘플 음소 경계 모듈;
상기 운율 단어 경계 특징에 따라, 상기 음소 특징에 휴지부를 삽입하여, 상기 샘플 텍스트 데이터의 조합 특징을 획득하는 샘플 특징 조합 모듈; 및
상기 샘플 텍스트 데이터의 조합 특징에 따라, 초기 음성 합성 모델을 트레이닝하여 타깃 음성 합성 모델을 획득하는 모델 트레이닝 모듈
을 포함하는, 음성 합성 모델의 트레이닝 장치. - 제10항에 있어서,
상기 샘플 특징 조합 모듈은,
상기 운율 단어 경계 특징에 따라, 상기 음소 특징 중 운율 단어 위치를 결정하는 샘플 운율 단어 위치 유닛; 및
상기 운율 단어 위치에 상기 휴지부를 삽입하여, 상기 샘플 텍스트 데이터의 조합 특징을 획득하는 샘플 휴지부 삽입 유닛을 포함하는, 음성 합성 모델의 트레이닝 장치. - 제10항에 있어서,
상기 모델 트레이닝 모듈은,
상기 조합 특징 및 샘플 오디오 데이터의 음향학 특징에 따라, 휴지 암묵적 특징 분포를 결정하는 암묵적 특징 분포 유닛으로서, 상기 샘플 오디오 데이터는 상기 샘플 텍스트 데이터와 연관되는, 상기 암묵적 특징 분포 유닛; 및
상기 조합 특징 및 상기 휴지 암묵적 특징 분포에 따라, 초기 음성 합성 모델에 대해 비지도 트레이닝을 수행하는 모델 트레이닝 유닛을 포함하는, 음성 합성 모델의 트레이닝 장치. - 제12항에 있어서,
상기 암묵적 특징 분포 유닛은,
상기 조합 특징 및 상기 샘플 오디오 데이터의 음향학 특징을 정렬하여, 상기 조합 특징 중 휴지부의 음향학 특징을 획득하는 음향학 특징 서브 유닛; 및
변분 오토인코더를 통해 상기 휴지부의 음향학 특징을 처리하여, 상기 휴지 암묵적 특징 분포를 획득하는 암묵적 특징 분포 서브 유닛을 포함하는, 음성 합성 모델의 트레이닝 장치. - 제12항에 있어서,
상기 모델 트레이닝 유닛은,
상기 조합 특징에 따라, 조합 특징 벡터 표현을 결정하는 특징 표현 서브 유닛;
상기 휴지 암묵적 특징 분포에 대해 샘플링을 수행하여 휴지 암묵적 특징을 획득하는 암묵적 특징 샘플링 서브 유닛;
상기 조합 특징 벡터 표현을 상기 초기 음성 합성 모델 중 디코더의 입력으로 사용하고, 상기 디코더의 출력과 상기 휴지 암묵적 특징을 스티칭하여 콘텍스트 벡터를 획득하는 디코딩 서브 유닛; 및
상기 초기 음성 합성 모델 중 인코더를 통해, 상기 콘텍스트 벡터에 대해 인코딩을 수행하여, 상기 초기 음성 합성 모델에 의해 출력된 음향학 특징을 획득하는 인코딩 서브 유닛을 포함하는, 음성 합성 모델의 트레이닝 장치. - 제10항 내지 제14항 중 어느 한 항에 있어서,
보코더 모듈을 더 포함하되, 상기 보코더 모듈은 구체적으로,
상기 초기 음성 합성 모델의 출력 및 샘플 오디오 데이터를 사용하여, 초기 보코더에 대해 트레이닝하여 타깃 보코더를 획득하는, 음성 합성 모델의 트레이닝 장치. - 음성 합성 장치로서,
타깃 텍스트 데이터의 음소 특징 및 운율 단어 경계 특징을 결정하는 타깃 음소 경계 모듈;
상기 운율 단어 경계 특징에 따라, 상기 음소 특징에 휴지부를 삽입하여, 상기 타깃 텍스트 데이터의 조합 특징을 획득하는 타깃 특징 조합 모듈; 및
타깃 음성 합성 모델에 기반하여, 상기 타깃 텍스트 데이터의 조합 특징에 따라 음향학 특징을 획득하고, 상기 음향학 특징을 사용하여 타깃 음성을 합성하는 음성 합성 모듈
을 포함하는, 음성 합성 장치. - 제16항에 있어서,
상기 타깃 특징 조합 모듈은,
상기 운율 단어 경계 특징에 따라, 상기 음소 특징 중 운율 단어 위치를 결정하는 타깃 운율 단어 위치 유닛; 및
상기 운율 단어 위치에 상기 휴지부를 삽입하여, 상기 타깃 텍스트 데이터의 조합 특징을 획득하는 타깃 휴지부 삽입 유닛을 포함하는, 음성 합성 장치. - 제16항에 있어서,
상기 음성 합성 모듈은,
사용자가 원하는 타깃 휴지 지속 시간, 및 휴지 지속 시간과 휴지 암묵적 특징 사이의 연관 관계에 따라, 타깃 휴지 암묵적 특징을 결정하는 암묵적 특징 결정 유닛으로서, 상기 연관 관계는 상기 타깃 음성 합성 모델의 트레이닝 단계에서 획득되는, 상기 암묵적 특징 결정 유닛; 및
상기 타깃 음성 합성 모델에 기반하여, 상기 타깃 텍스트 데이터의 조합 특징 및 상기 타깃 휴지 암묵적 특징에 따라 음향학 특징을 획득하는 음성 합성 유닛을 포함하는, 음성 합성 장치. - 전자 기기로서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 연결되는 메모리를 포함하되;
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령어가 저장되고, 상기 명령어는 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서가 제1항 또는 제7항에 따른 방법을 수행할 수 있도록 하는, 전자 기기. - 컴퓨터 명령어가 저장된 비일시적 컴퓨터 판독 가능 저장 매체로서,
상기 컴퓨터 명령어는 컴퓨터가 제1항 또는 제7항에 따른 방법을 수행하도록 하는, 비일시적 컴퓨터 판독 가능 저장 매체. - 컴퓨터 판독 가능 저장 매체에 저장된 컴퓨터 프로그램으로서,
상기 컴퓨터 프로그램은 프로세서에 의해 실행될 경우 제1항 또는 제7항에 따른 방법을 수행하도록 하는, 컴퓨터 프로그램.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010546704.4A CN111667816B (zh) | 2020-06-15 | 2020-06-15 | 模型训练方法、语音合成方法、装置、设备和存储介质 |
CN202010546704.4 | 2020-06-15 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210036883A true KR20210036883A (ko) | 2021-04-05 |
KR102496817B1 KR102496817B1 (ko) | 2023-02-06 |
Family
ID=72387761
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020210034326A KR102496817B1 (ko) | 2020-06-15 | 2021-03-16 | 모델 트레이닝 방법, 음성 합성 방법, 장치, 기기 및 저장 매체 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11769480B2 (ko) |
EP (1) | EP3879525B1 (ko) |
JP (1) | JP7259197B2 (ko) |
KR (1) | KR102496817B1 (ko) |
CN (1) | CN111667816B (ko) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114299918A (zh) * | 2021-12-22 | 2022-04-08 | 标贝(北京)科技有限公司 | 声学模型训练与语音合成方法、装置和系统及存储介质 |
WO2023068480A1 (ko) * | 2021-10-18 | 2023-04-27 | 삼성전자주식회사 | 전자 장치, 단말 장치 및 그 제어 방법 |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112331176B (zh) * | 2020-11-03 | 2023-03-10 | 北京有竹居网络技术有限公司 | 语音合成方法、装置、存储介质及电子设备 |
CN112331177B (zh) * | 2020-11-05 | 2024-07-02 | 携程计算机技术(上海)有限公司 | 基于韵律的语音合成方法、模型训练方法及相关设备 |
US11521594B2 (en) * | 2020-11-10 | 2022-12-06 | Electronic Arts Inc. | Automated pipeline selection for synthesis of audio assets |
CN112071300B (zh) * | 2020-11-12 | 2021-04-06 | 深圳追一科技有限公司 | 语音会话方法、装置、计算机设备和存储介质 |
CN112289305B (zh) * | 2020-11-23 | 2024-08-20 | 北京有竹居网络技术有限公司 | 韵律预测方法、装置、设备以及存储介质 |
CN112786005B (zh) * | 2020-12-30 | 2023-12-01 | 科大讯飞股份有限公司 | 信息合成方法、装置、电子设备和计算机可读存储介质 |
CN112735379B (zh) * | 2020-12-30 | 2023-06-13 | 北京大米科技有限公司 | 语音合成方法、装置、电子设备和可读存储介质 |
CN112786012B (zh) * | 2020-12-31 | 2024-05-31 | 科大讯飞股份有限公司 | 一种语音合成方法、装置、电子设备和存储介质 |
CN112927674B (zh) * | 2021-01-20 | 2024-03-12 | 北京有竹居网络技术有限公司 | 语音风格的迁移方法、装置、可读介质和电子设备 |
CN112863484B (zh) * | 2021-01-25 | 2024-04-09 | 中国科学技术大学 | 韵律短语边界预测模型训练方法和韵律短语边界预测方法 |
CN113129862B (zh) * | 2021-04-22 | 2024-03-12 | 合肥工业大学 | 一种基于world-tacotron的语音合成方法、系统及服务器 |
CN113362836B (zh) * | 2021-06-02 | 2024-06-11 | 腾讯音乐娱乐科技(深圳)有限公司 | 训练声码器方法、终端及存储介质 |
CN113506562B (zh) * | 2021-07-19 | 2022-07-19 | 武汉理工大学 | 基于声学特征与文本情感特征融合的端到端语音合成方法及系统 |
CN115831089B (zh) * | 2021-12-27 | 2023-12-01 | 北京百度网讯科技有限公司 | 声学特征的确定方法、装置、设备、介质及产品 |
US20230298566A1 (en) * | 2022-03-15 | 2023-09-21 | Microsoft Technology Licensing, Llc | End-to-end streaming speech translation with neural transducer |
CN114970666B (zh) * | 2022-03-29 | 2023-08-29 | 北京百度网讯科技有限公司 | 一种口语处理方法、装置、电子设备及存储介质 |
CN114678002A (zh) * | 2022-03-31 | 2022-06-28 | 美的集团(上海)有限公司 | 文本的切分方法和文本的切分装置 |
CN114678001A (zh) * | 2022-03-31 | 2022-06-28 | 美的集团(上海)有限公司 | 语音合成方法和语音合成装置 |
CN115171725B (zh) * | 2022-06-15 | 2024-12-17 | 厦门快商通科技股份有限公司 | 一种基于自监督的防语音合成攻击方法和系统 |
CN115116427B (zh) * | 2022-06-22 | 2023-11-14 | 马上消费金融股份有限公司 | 标注方法、语音合成方法、训练方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110534089A (zh) * | 2019-07-10 | 2019-12-03 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
JP2020034883A (ja) * | 2018-08-27 | 2020-03-05 | 日本放送協会 | 音声合成装置及びプログラム |
Family Cites Families (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1995010832A1 (en) | 1993-10-15 | 1995-04-20 | At & T Corp. | A method for training a system, the resulting apparatus, and method of use thereof |
US7136816B1 (en) | 2002-04-05 | 2006-11-14 | At&T Corp. | System and method for predicting prosodic parameters |
KR100959494B1 (ko) * | 2003-03-06 | 2010-05-26 | 주식회사 케이티 | 미등록어 합성 기능을 이용한 음성합성기 및 그 방법 |
CN1320482C (zh) * | 2003-09-29 | 2007-06-06 | 摩托罗拉公司 | 标识文本串中的自然语音停顿的方法 |
JP2005345846A (ja) | 2004-06-04 | 2005-12-15 | Advanced Telecommunication Research Institute International | 入力テキストのポーズ位置予測装置 |
CN101051458B (zh) * | 2006-04-04 | 2011-02-09 | 中国科学院自动化研究所 | 基于组块分析的韵律短语预测方法 |
CN101051459A (zh) | 2006-04-06 | 2007-10-10 | 株式会社东芝 | 基频和停顿预测及语音合成的方法和装置 |
CN101000764B (zh) * | 2006-12-18 | 2011-05-18 | 黑龙江大学 | 基于韵律结构的语音合成文本处理方法 |
CN102194454B (zh) * | 2010-03-05 | 2012-11-28 | 富士通株式会社 | 用于检测连续语音中的关键词的设备和方法 |
JP5754141B2 (ja) * | 2011-01-13 | 2015-07-29 | 富士通株式会社 | 音声合成装置および音声合成プログラム |
CN102881282B (zh) * | 2011-07-15 | 2014-08-20 | 富士通株式会社 | 一种获取韵律边界信息的方法及系统 |
TWI573129B (zh) * | 2013-02-05 | 2017-03-01 | 國立交通大學 | 編碼串流產生裝置、韻律訊息編碼裝置、韻律結構分析裝置與語音合成之裝置及方法 |
CN105185373B (zh) * | 2015-08-06 | 2017-04-05 | 百度在线网络技术(北京)有限公司 | 韵律层级预测模型的生成及韵律层级预测方法和装置 |
CN107039034B (zh) * | 2016-02-04 | 2020-05-01 | 科大讯飞股份有限公司 | 一种韵律预测方法及系统 |
US10475438B1 (en) * | 2017-03-02 | 2019-11-12 | Amazon Technologies, Inc. | Contextual text-to-speech processing |
CN107564511B (zh) * | 2017-09-25 | 2018-09-11 | 平安科技(深圳)有限公司 | 电子装置、语音合成方法和计算机可读存储介质 |
US10796686B2 (en) * | 2017-10-19 | 2020-10-06 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
JP7110055B2 (ja) | 2018-10-09 | 2022-08-01 | 株式会社日立ソリューションズ・テクノロジー | 音声合成システム、及び音声合成装置 |
CN110444191B (zh) * | 2019-01-22 | 2021-11-26 | 清华大学深圳研究生院 | 一种韵律层级标注的方法、模型训练的方法及装置 |
EP3966804A1 (en) * | 2019-05-31 | 2022-03-16 | Google LLC | Multilingual speech synthesis and cross-language voice cloning |
CN110534087B (zh) * | 2019-09-04 | 2022-02-15 | 清华大学深圳研究生院 | 一种文本韵律层级结构预测方法、装置、设备及存储介质 |
CN110782870B (zh) * | 2019-09-06 | 2023-06-16 | 腾讯科技(深圳)有限公司 | 语音合成方法、装置、电子设备及存储介质 |
-
2020
- 2020-06-15 CN CN202010546704.4A patent/CN111667816B/zh active Active
- 2020-12-03 US US17/111,238 patent/US11769480B2/en active Active
- 2020-12-04 JP JP2020201661A patent/JP7259197B2/ja active Active
-
2021
- 2021-03-12 EP EP21162416.8A patent/EP3879525B1/en active Active
- 2021-03-16 KR KR1020210034326A patent/KR102496817B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020034883A (ja) * | 2018-08-27 | 2020-03-05 | 日本放送協会 | 音声合成装置及びプログラム |
CN110534089A (zh) * | 2019-07-10 | 2019-12-03 | 西安交通大学 | 一种基于音素和韵律结构的中文语音合成方法 |
Non-Patent Citations (1)
Title |
---|
Chen-Yu Yang et al., ‘Unsupervised prosodic phrase boundary labeling of Mandarin speech synthesis database using context-dependent HMM’, ICASSP 2013, May 2013.* * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023068480A1 (ko) * | 2021-10-18 | 2023-04-27 | 삼성전자주식회사 | 전자 장치, 단말 장치 및 그 제어 방법 |
CN114299918A (zh) * | 2021-12-22 | 2022-04-08 | 标贝(北京)科技有限公司 | 声学模型训练与语音合成方法、装置和系统及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US11769480B2 (en) | 2023-09-26 |
EP3879525A1 (en) | 2021-09-15 |
JP7259197B2 (ja) | 2023-04-18 |
US20210390943A1 (en) | 2021-12-16 |
CN111667816B (zh) | 2024-01-23 |
KR102496817B1 (ko) | 2023-02-06 |
JP2021196598A (ja) | 2021-12-27 |
CN111667816A (zh) | 2020-09-15 |
EP3879525B1 (en) | 2023-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102496817B1 (ko) | 모델 트레이닝 방법, 음성 합성 방법, 장치, 기기 및 저장 매체 | |
US11373049B2 (en) | Cross-lingual classification using multilingual neural machine translation | |
JP6802005B2 (ja) | 音声認識装置、音声認識方法及び音声認識システム | |
JP7066349B2 (ja) | 翻訳方法、翻訳装置及びコンピュータプログラム | |
US11450313B2 (en) | Determining phonetic relationships | |
CN107077841B (zh) | 用于文本到语音的超结构循环神经网络 | |
CN111754978B (zh) | 韵律层级标注方法、装置、设备和存储介质 | |
JP7170920B2 (ja) | トリガードアテンションを用いたエンドツーエンド音声認識のためのシステムおよび方法 | |
US11488577B2 (en) | Training method and apparatus for a speech synthesis model, and storage medium | |
KR20210154705A (ko) | 시맨틱 매칭 방법, 장치, 기기 및 저장 매체 | |
US11978434B2 (en) | Developing an automatic speech recognition system using normalization | |
KR102619408B1 (ko) | 음성 합성 방법, 장치, 전자 기기 및 저장 매체 | |
US20240233732A1 (en) | Alphanumeric sequence biasing for automatic speech recognition | |
US20220068265A1 (en) | Method for displaying streaming speech recognition result, electronic device, and storage medium | |
KR20200140171A (ko) | 전자 장치 및 이의 제어 방법 | |
EP3712886A1 (en) | Automatic speech recognition device and method | |
US11972758B2 (en) | Enhancing ASR system performance for agglutinative languages | |
US20230395061A1 (en) | Streaming Speech-to-speech Model With Automatic Speaker Turn Detection | |
US20240420680A1 (en) | Simultaneous and multimodal rendering of abridged and non-abridged translations | |
Gupta et al. | Web based multilingual real time speech transcription transliteration and translation system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20210316 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20220628 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20230112 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20230202 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20230202 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |