KR20180041114A - 스피치 합성에서 푸어 얼라인먼트를 제거하기 위한 아웃라이어 식별 시스템 및 방법 - Google Patents

스피치 합성에서 푸어 얼라인먼트를 제거하기 위한 아웃라이어 식별 시스템 및 방법 Download PDF

Info

Publication number
KR20180041114A
KR20180041114A KR1020187000773A KR20187000773A KR20180041114A KR 20180041114 A KR20180041114 A KR 20180041114A KR 1020187000773 A KR1020187000773 A KR 1020187000773A KR 20187000773 A KR20187000773 A KR 20187000773A KR 20180041114 A KR20180041114 A KR 20180041114A
Authority
KR
South Korea
Prior art keywords
speech
audio file
text
phoneme
identifying
Prior art date
Application number
KR1020187000773A
Other languages
English (en)
Other versions
KR102051235B1 (ko
Inventor
이. 비라 라가벤드라
아라빈드 가나페티라주
Original Assignee
인터랙티브 인텔리전스 그룹, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인터랙티브 인텔리전스 그룹, 인코포레이티드 filed Critical 인터랙티브 인텔리전스 그룹, 인코포레이티드
Publication of KR20180041114A publication Critical patent/KR20180041114A/ko
Application granted granted Critical
Publication of KR102051235B1 publication Critical patent/KR102051235B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • G10L2025/906Pitch tracking

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Telephonic Communication Services (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

스피치 합성에서 푸어 얼라인먼트를 제거하기 위한 아웃라이어 식별을 위한 시스템 및 방법이 개시된다.  텍스트 - 투 - 스피치 시스템의 출력 품질은 스피치 발화의 얼라인먼트 정확도에 직접적으로 의존한다.  자동화된 얼라인먼트로부터 미스얼라인먼트 및 오발음에 대한 식별은 기본 주파수 방법 및 그룹 지연 기반 아웃라이어 방법을 기반으로 이루어질 수 있다.  이러한 아웃라이어의 식별은 제거를 허용하여, 텍스트 - 투 - 스피치 시스템의 합성 품질을 향상한다.

Description

스피치 합성에서 푸어 얼라인먼트를 제거하기 위한 아웃라이어 식별 시스템 및 방법
본 발명은 일반적으로 원격 통신 시스템 및 방법뿐만 아니라 스피치 합성(speech synthesis) 시스템 및 방법에 관한 것이다. 보다 상세하게는, 본 발명은 텍스트 - 투 - 스피치(text-to-speech) 시스템에 관한 것이다.
스피치 합성에서 푸어 얼라인먼트(poor alignments)를 제거하기 위한 아웃라이어(outlier) 식별을 위한 시스템 및 방법이 제시된다.   텍스트 - 투 - 스피치 시스템의 출력의 품질은 스피치 발화(speech atterance)의 얼라인먼트 정확도에 직접적으로 의존한다.  자동화된 얼라인먼트에서 미스 얼라인먼트(mis-alignments) 및 오발음(mis-pronuncaitions)에 대한 식별은 기본 주파수 방법(fundamental frequency methods) 및 그룹 지연 기반 아웃라이어 방법(group delay based outlier methods)을 기반으로 이루어질 수 있다.  이러한 아웃라이어의 식별은 제거를 허용하여 텍스트 - 투 - 스피치 시스템의 합성 품질을 향상시킨다.
일 실시 예에서, 텍스트 - 투 - 스피치 시스템에서, 기본 주파수를 적용하여, 모델 트레이닝에 사용되는 오디오 파일의 외적 결과를 식별하는 방법에 있어서, 상기 방법은, 상기 오디오 파일로부터 상기 기본 주파수의 값을 추출하는 단계; 상기 오디오 파일로부터 상기 추출된 값을 사용하여 얼라인먼트를 생성하는 단계; 음소의 인스턴스를 분리하는 단계; 각 분리된 인스턴스에 대해 평균 기본 주파수 값 및 평균 지속시간 값을 결정하는 단계; 인스턴스를 아웃라이어로 식별하는 단계, 여기서 아웃라이어가, 상기 음소는 모음이고; 인스턴스의 상기 평균 기본 주파수가 선결정된 값보다 작고; 인스턴스의 상기 지속시간은 음소의 상기 평균 지속시간의 두 배보다 크고; 및 인스턴스의 상기 지속시간은 음소의 상기 평균 지속시간의 절반보다 작은; 것으로 식별되고, 및 상기 오디오 파일 내의 각 센텐스에 대한 아웃라이어의 합을 식별하는 단계, 여기서 상기 센텐스가 아웃라이어의 수 보다 많은 경우, 상기 모델 파일로부터 상기 오디오 파일 내의 상기 센텐스를 폐기함; 를 포함할 수 있다.
다른 실시 예에서, 텍스트 - 투 - 스피치 시스템에서 그룹 지연 알고리즘을 적용하는, 모델 트레이닝에 사용되는 오디오 파일의 외적 결과를 식별하는 방법에 있어서, 상기 방법은, 음소 레벨에서 상기 오디오 파일의 얼라인먼트를 생성하는 단계; 음절 레벨에서 상기 오디오 파일의 얼라인먼트를 생성하는 단계; 그룹 지연 알고리즘을 사용하여 상기 음절 레벨에서 상기 얼라인먼트를 조정하는 단계; 각각의 음절을 상기 오디오 파일로부터 분리된 오디오 파일로 분리하는 단계; 분리된 오디오 파일 각각에 대해, 각 음절에 대한 음소 경계 및 기존 음소 모델을 사용하여 상기 분리된 오디오 파일의 음소를 생성하는 단계; 생성된 각각의 음소의 우도 값을 결정하는 단계, 여기서 상기 우도값이 기준을 충족시키는 경우, 상기 생성된 음소를 아웃라이어로서 식별하고; 및 상기 오디오 파일 내의 각 센텐스에 대한 아웃라이어의 합을 식별하는 단계, 여기서 상기 센텐스가 아웃라이어 수 보다 많은 경우, 모델 트레이닝에서 상기 모델 파일의 상기 센텐스를 폐기함;을 포함할 수 있다.
다른 실시 예에서, 텍스트 - 투 - 스피치 시스템에서 스피치를 합성하는 방법에 있어서, 상기 시스템은 적어도 하나의 스피치 데이터 베이스, 데이터베이스는 히든 마르코프 모델을 저장할 수 있고, 및 합성 필터를 포함하고, 상기 방법은, 상기 스피치 데이터베이스로부터의 오디오 파일들에서의 외적 결과를 식별하고 상기 모델 트레이닝 이전에 상기 외적 결과를 제거하는 단계; 상기 스피치 데이터베이스로부터의 스피치 시그널을 파라미터로 변환하고 상기 스피치 시그널로부터 상기 파라미터를 추출하는 단계; 상기 스피치 시그널로부터 상기 추출된 파라미터를 사용하고 상기 스피치 데이터베이스로부터의 상기 레이블을 사용하여 컨텍스트 의존형 히든 마르코프 모델을 생산하기 위하여 히든 마르코프 모델을 트레이닝하는 단계; 히든 마르코프 모델을 저장할 수 있는 상기 데이터베이스에 상기 컨텍스트 의존형 히든 마르코프 모델을 저장하는 단계; 텍스트를 입력하고 상기 텍스트를 분석하는 단계, 여기서 상기 분석은 상기 텍스트로부터 레이블을 추출하는 단계를 포함함; 상기 콘텍스트 의존형 히든 마르코프 모델로부터 파라미터를 생성하기 위하여 상기 레이블을 이용하는 단계; 상기 파라미터로부터 다른 시그널를 생성하는 단계; 상기 다른 시그널 및 상기 파라미터를 상기 합성 필터에 입력하는 단계; 및 상기 다른 시그널이 상기 합성 필터를 통과함으로써 합성된 스피치를 생산하는 단계;를 포함할 수 있다.
도 1a는 미스얼라인먼트의 일 실시예를 도시한 도면이다.
도 1b는 미스얼라인먼트의 일 실시예를 도시한 도면이다.
도 1c는 오발음의 일 실시예를 도시한 도면이다.
도 2a는 평균 F0 및 지속시간 그래프의 일 실시예를 도시한 도면이다.
도 2b는 평균 F0 및 지속시간 플롯의 일 실시예를 도시한 도면이다.
도 2c는 평균 F0 및 지속시간 플롯의 일 실시예를 도시한 도면이다.
도 2d는 평균 F0 및 지속시간 플롯의 일 실시예를 도시한 도면이다.
도 3은 HMM 기반의 TTS 시스템의 일 실시예를 도시한 도면이다.
도 4는 F0에 기초한 아웃라이어의 검출을 위한 일 실시예의 프로세스를 예시하는 흐름도이다.
도 5는 음소 경계의 일 실시예를 나타내는 도면이다.
도 6은 그룹 지연에 기반한 아웃라이어의 검출을 위한 일 실시예의 프로세스를 예시하는 흐름도이다.
본 발명의 원리에 대한 이해를 촉진하기 위해 도면에 도시된 실시예에 대한 참조가 이루어질 것이며, 특정 언어가 동일한 것을 설명하기 위해 사용될 것이다.그럼에도 불구하고, 본 발명의 범위를 제한하려는 의도는 없다는 것이 이해될 것이다.  기술된 실시예들에서의 임의의 변경들 및 추가 수정들, 및 본원에 기술된 바와 같은 본 발명의 원리들의 임의의 추가 적용들은 본 발명이 관련된 당업자에게 통상적으로 일어날 것으로 예상된다.
프로세싱 메모리와 스토리지 기능이 향상됨에 따라 휴대폰 및 핸드 헬드(hand-held) 장치에서도 스피치 애플리케이션에 대한 수요가 증가하고 있다. 스피치 인터페이스에 대한 요청도 또한 상업용 애플리케이션에서 증가하고 있다.  애플리케이션을 위한 스피치 인터페이스의 개발은 일반적으로 텍스트 - 투 - 스피치 합성 그리고, 특히, 통계적 파라메트릭 스피치 합성과 같은 HMMs (Hidden Markov Models) 기반 접근법의 사용에 중점을 두고 있다. 
HMM 기반 접근법은 자연스러운 발음의 합성된 스피치를 생성하는 것이 가능하다는 것을 보여 주었다. 합성된 스피치가 덜 로봇적이며 더 인간적으로 들리기 때문에 이것은 매우 바람직하다. 통계적 파라미터 접근법에서, 지속시간, 기본 주파수 (F0) 및 멜 - 셉스트럴 계수 (Mel-cepstral coefficiests, MCEPs)와 같은 메트릭스가 스피치 시그널에서 추출되어 모델링된다. 합성 과정에서 트레이닝된 모델을 사용하여 센텐스 HMM에서 일련의 파라미터를 생성한다.
지속시간, F0 및 MCEPs에 대한 모델을 생성하는 것은 음소에 대한 오디오의 얼라인먼트에 의존한다. 매우 정확한 얼라인먼트는 더 높은 합성 품질을 제공하고 푸어 얼라인먼트(poor alignments)는 합성된 스피치의 품질을 감소시킨다. 시스템에 의해 생성된 얼라인먼트는 컨텍스트 레이블(context labels)을 생성하는데 사용되지만 불일치가 발생하면 문제가 발생한다.  생성된 얼라인먼트는 오디오와 녹음 및 스피커 변동성의 불일치로 인해 미스얼라인먼트(mis-alignments)될 수 있다. 잘못된 얼라인먼트(Wrong alignments)는 잘못된 운율 및 임의의 주파수 또는 스펙트럼 변화를 유발하여 스피치 합성의 품질을 크게 감소시킨다.
도 1a-1c는 잘못된 발음과 잘못된 얼라인먼트 및 스피치 합성에 대한 효과의 일반적인 예를 보여준다. 일례에서, 도 1(a)는 모든 음소가 시간이 지나면서 더 이동되었고 "the"라는 단어가 [dh][ax]로 발음되었음을 보여준다. 실제 발음은 [dh][iy]를 보여준다. 또 다른 예에서, 도 1(b)는 음소[iy]의 미스얼라인먼트를 나타낸다. 또 다른 예에서, 도 1(c)는 "or"라는 단어를 [ow]로 발음하는 스피커의 예를 도시한다.  미스얼라인먼트와 오발음의 이러한 예는 잘못된 모델을 생성하며, 결과적으로 모델은 합성 중에 잘못 예측하게 된다.  이러한 이슈들을 회피하기 위해, 아웃라이어 식별을 위한 텍스트-투-스피치 시스템에서 푸어 얼라인먼트를 제거하기 위한 시스템 및 방법이 제시된다.
기본 주파수 기반 아웃라이어 탐지
기본 주파수 (F0)는 사람의 스피치 주파수를 결정하는 데 사용될 수 있다. F0 는 성대의 진동 주파수를 나타낸다. 일반적인 예에서, 성인 여성 스피커는 165 Hz에서 225 Hz의 범위의 F0 를 갖는 경향이 있다. 여성 스피커에 대해 이 범위를 벗어나는 F0 값은 아웃라이어를 나타낼 수 있다.  성인 여성 연설자의 일반적인 예를 사용하면, 도 2a-2d는 미스얼라인먼트 및 / 또는 오발음을 나타내는 장모음에 대한 평균 F0 및 지속시간 플롯을 표시한다.  이들 도면에서, 음소의 평균 F0 스코어는 플롯의 수직축 상에 표시되는 반면, 지속시간은 수평축에 표시된다.  도 2a는 장모음 [aa], 도 2b는 [ao], 도 2c는 [iy], 도 2d는 [uw]를 도시하고 있다.  도 2a-2d 각각에서 볼 수 있듯이 많은 인스턴스의 평균 F0 값은 165 미만 이다. 165 Hz 미만의 F0 값의 발생은 모음에서 무성음 자음으로의 전환 또는 그 반대의 경우로 인해 발생할 수 있다.  몇몇의 인스턴스에서, 음소의 지속시간은 250 ms를 넘으며, 이것은 도 2a-2d 각각에서 볼 수 있다.
도 3은 일반적으로 도면 부호 300으로 나타낸 히든 마르코프 모델 (Hidden Markov Model)(HMM) 기반 텍스트 - 투 - 스피치 (Text to Speech)(TTS) 시스템의 일 실시예를 도시하는 도면이다. 예시적인 시스템의 일 실시예는 두 개의 페이즈(phases), 예를 들어 트레이닝 페이즈(training phase) 및 합성 페이즈(synthesis phase)를 포함할 수 있다.
스피치 데이터베이스(Speech Database) (305)는 스피치 합성에 사용하기 위한 스피치 데이터의 양을 포함할 수 있다. 트레이닝 페이즈동안, 스피치 시그널(peech signal) (306)은 파라미터로 변환된다. 파라미터(parameters)는 엑사이테이션 파라미터(excitation parameters) 및 스펙트럼 파라미터(spectral parameters)로 구성될 수 있다.  엑사이테이션 파라미터 추출(Excitation Parameter Extraction) (310) 및 스펙트럼 파라미터 추출(Spectral Parameter Extraction) (315)은 스피치 데이터베이스 (305)로부터 이동하는 스피치 시그널 (306)로부터 발생한다. 히든 마르코프 모델(Hidden Markov Model) (320)은 이러한 추출된 파라미터 및 스피치 데이터베이스(Speech Database) (305)의 레이블 (Labels) (307)을 사용하여 학습될 수 있다. 임의의 수의 HMM 모델들이 트레이닝으로부터 유래할 수 있고, 이러한 컨텍스트 의존 HMM들은 데이터베이스 (325)에 저장된다.
합성 페이즈는 컨텍스트 의존형 HMMs (325)이 파라미터 (340)를 생성하는데 사용된다. 파라미터 생성 (340) 은 스피치가 합성될 텍스트 (330) 의 코퍼스 (corpus)로부터의 입력을 이용할 수 있다. 텍스트 (330)는 분석 (335)을 겪을 수 있고 추출된 레이블 (336)은 파라미터 (340) 의 생성에 사용된다. 일 실시예에서, 엑사이테이션 및 스펙트럼 파라미터가 340 에서 생성될 수 있다.
엑사이테이션 파라미터는 스펙트럼 파라미터와 함께 합성 필터 (350)에 입력되는 엑사이테이션 시그널 (345) 생성하는데 사용될 수 있다. 필터 파라미터는 일반적으로 멜 주파수 셉 스트럴 계수 (MFCC)이며 HMMs을 사용하여 통계적 시계열로 모델화된다.  필터의 예측된 값 및 시계열 값으로서의 기본 주파수는 필터를 형성하는데 사용된 기본 주파수 값 및 MFCC 값으로부터 엑사이테이션 시그널을 생성하여 필터를 합성하는데 사용될 수 있다. 
합성된 시그널 (Synthesized Speech) (355)는 엑사이테이션 시그널이 필터를 통과할 때 생성된다. 엑사이테이션 시그널 (345) 의 형성은 출력 또는 합성된, 스피치 (355)의 품질에 필수적이다.
일 실시예에서, 아웃라이어 검출은 트레이닝 페이즈 동안 HMM (320)의 트레이닝 이전에 발생한다. 스피치 데이터베이스의 데이터는 데이터베이스 내의 아웃라이어의 검출과 함께 최적화되므로, HMM (320)의 트레이닝은 더 큰 정확성을 가져온다.  도 4 및 도 6은 아웃라이어를 검출하는 프로세스, 특히 기본 주파수 기반 아웃라이어의 검출 및 그룹 지연 기반 아웃라이어의 검출에 대한 실시예를 보다 상세하게 각각 설명한다.
도 4는 일반적으로 400 으로 표시된, 기본 주파수에 기반한 아웃라이어의 검출을 위한 실시예의 프로세스를 도시하는 흐름도이다.
동작 405 에서 기본 주파수가 추출된다. 예를 들어, 시그널 분석을 수행하기 위해 피치 트래킹 툴(pitch tracking tool)(예 : ESPS)을 사용할 수 있다. 제어는 동작 410 로 진행되고, 프로세스 400 은 계속된다.
동작 410 에서, 얼라인먼트가 생성된다. 예를 들어, 스피치 인식 시스템(speech recognition system) (예 : HTK)이 얼라인먼트 생성 프로세스를 수행하는데 사용될 수 있다. 제어는 동작 415 로 진행되고, 프로세스 400 은 계속된다.
동작 415 에서, 인스턴스(instances)가 분리된다. 예를 들어, 음소의 인스턴스는 완전히 분리된다. 인스턴스는 오디오 파일 내의 음소의 발생을 기술할 수 있다.  제어는 동작 420 로 진행되고, 프로세스 400 은 계속된다.
동작 420 에서, 기본 주파수 및 지속 기간이 결정된다. 예를 들어, 평균 기본 주파수 값 및 평균 지속시간 값은 각각의 분리된 인스턴스에 대해 결정될 수 있다. 제어는 동작 425 로 진행되고, 프로세스 400은 계속된다.
동작 425에서, 아웃라이어가 인스턴스에 대해 식별된다. 예를 들어 아웃라이어를 확인하려면, 기준(criteria)이 충족되어야 한다.  기준의 몇몇 비 제한적인 예들은 모음으로서 제시되는 음소, 인스턴스의 평균 F0 가 선결정된 값(predetermined value)보다 작은 경우, 인스턴스의 지속시간이 음소의 평균 지속 기간의 두 배보다 큰 경우 및 음소의 평균 지속시간의 절반 이하로 나타나는 인스턴스를 포함할 수 있다. 선결정된 값은 푸어 얼라인먼트로 인해 발생하는 의사 F0 추정치가 식별될 수 있도록 경험적으로 선택될 수있다. 일 예시에서, 40 의 선결정된 값이 사용되는데, 여기서 40 은 특정 인스턴스에 대해 경험적으로 선택된 값을 나타낸다. 제어는 동작 430 으로 진행되고, 프로세스 400 은 계속된다.
동작 430 에서, 아웃라이어는 센텐스(sentences)에 대해 식별된다. 예를 들어, 센텐스 내의 인스턴스의 아웃라이어의 총 수가 결정된다. 제어는 동작 435 로 진행되고, 프로세스 400 은 계속된다.
동작 435 에서, 아웃라이어의 합이 임계치(threshold)를 만족시키는지의 여부가 결정된다. 아웃라이어의 합이 임계치를 만족하는 것으로 결정되면, 제어는 동작 440 으로 넘어 가고 프로세스 400 은 계속된다.아웃라이어의 합이 임계치를 만족하지 않는다고 결정되면, 제어는 동작 445 로 진행되고 프로세스 400 은 계속된다.
동작 435에서의 결정은 임의의 적합한 기준에 기초하여 이루어질 수 있다. 예를 들어, 아웃라이어 수에 대한 임계치는 푸어 얼라인먼트로 너무 많은 레코딩을 보유하는 대신 폐기된 레코딩의 균형을 제공하는 경험적으로 선택된 값일 수 있다. 일례에서, 임계치는 5 개의 아웃라이어를 나타낼 수 있고, 동작 430에서 결정된 아웃라이어의 총 수가 임계치를 만족하면, 센텐스는 모델 트레이닝으로부터 제거될 것이다.
동작 440에서, 센텐스는 모델 트레이닝으로부터 제거되고 프로세스 400 은 종료한다.
동작 445에서, 문장은 모델 트레이닝을 위해 유지되고 프로세스 400 은 종료한다.
그룹 지연 기반 아웃라이어 탐지
그룹 지연 접근법은 그룹 지연 도메인에서 피크(peaks) 및 밸리(valleys)를 사용하여 연속적인 스피치를 음절 경계(syllable boundaries)로 세분화하는 것을 돕는다. 음소 경계(phoneme boundaries)는 오디오 얼라인먼트 툴(audio alignment tool) (예 : HVite)를 사용하여 그룹 지연 기반 음절과 정렬할 수 있다. 음소의 가능성이 매우 낮거나 더 큰 빔 폭(beam width))과 정렬될 수 없다면, 그 음소는 아웃라이어로 간주될 수 있다.  도 5는 "ultimately"라는 단어에 대한 음소 경계의 예시도이다. 그러나 스피커는 "automately"로 발음했다.  음소 [ah],[l]이 음절 [al-l]과 정렬되면, 음소[l]의 가능성은 매우 낮아지고 경계를 조정하지 못하게 된다.
도 6은 일반적으로 600 으로 표시된 그룹 지연 기반 아웃라이어를 검출하기 위한 일 실시예의 프로세스를 나타내는 흐름도이다.
동작 605 에서, 음소 레벨 얼라인먼트가 생성된다. 예를 들어, 스피치 인식 시스템 (예 : HTK)이 얼라인먼트 생성 프로세스를 수행하는 데 사용될 수 있다. 제어는 동작 610 으로 진행되고, 프로세스 600는 계속된다.
동작 610 에서, 그룹 지연을 사용하여 음절 레벨 얼라인먼트가 생성된다. 예를 들어, 스피치 인식 시스템 (예 : HTK)은 음소 모델과 함께 얼라인먼트 생성 프로세스를 수행하는데 사용될 수 있다. 음소 모델은 트레이닝 날짜를 사용하여 이전에 트레이닝된 음향 모델을 포함할 수 있다.  제어는 동작 615 로 진행되고, 프로세스 600 은 계속된다.
동작 615 에서, 얼라인먼트 조정이 수행된다. 예를 들어, 그룹 지연 알고리즘을 사용하여 음절 얼라인먼트를 조정할 수 있다. 제어는 동작 620 으로 진행되고, 프로세스 600은 계속된다.
동작 620 에서, 음절들이 분할된다. 예를 들어, 음절은 별도의 오디오 파일로 분리될 수 있다. 이러한 개별 파일은 다른 음절로부터 정보를 풀링(pooling)하는 것과 같은 추가 분석에 사용될 수 있다.  제어는 동작 625 로 진행되고, 프로세스 600 은 계속된다.
동작 625 에서, 음소 경계가 생성된다. 예를 들어, 음소 경계는 기존의 음소 모델을 사용하여 동작 620 에서 생성된 각 오디오 파일에 대해 생성될 수 있으며, 여기서 기존의 음소 모델은 트레이닝 데이터를 사용한 이전에 트레이닝된 음향 모델을 포함한다. 제어는 동작 620 으로 진행되고, 프로세스 600 은 계속된다.
동작 630 에서, 우도 값(likelihood values)들이 결정된다. 예를 들어, 생성된 각 음소에 대해 우도 값이 결정된다.  우도는 로그 우도 (log-likelihood) 값을 포함할 수 있다.  제어는 동작 635 로 진행되고, 프로세스 600은 계속된다.
동작 635 에서 얼라인먼트 실패했는지 또는 우도 값이 작은지 여부를 판단한다. 얼라인먼트가 실패했거나 우도의 값이 작은 것으로 결정되면, 제어는 동작 640 으로 진행하고 프로세스 600 은 계속된다. 얼라인먼트가 실패하지 않았거나 우도의 값이 작지 않은 것으로 결정되면, 제어는 동작 645로 넘어가고 프로세스 600 은 계속된다.
동작 635 에서의 결정은 임의의 적합한 기준에 따라 행해질 수 있다. 예를 들어, 이는 매우 특수한 도구일 수 있으며 경험적으로 선택된다.
동작 640 에서, 아웃라이어는 선언되고 센텐스는 트레이닝으로부터 제거되고 프로세스는 종료된다.
동작 645 에서, 아웃라이어의 합이 식별된다. 예를 들어, 센텐스에서 아웃라이어의 합이 결정된다. 제어는 동작 650 으로 넘어가고 프로세스 600 은 계속된다. 
동작 650 에서, 아웃라이어의 합이 임계치를 만족시키는지가 결정된다. 아웃라이어의 합이 임계치를 만족하지 않는다고 결정되면, 제어는 동작 650 으로 진행되고 프로세스 600 이 계속된다. 아웃라이어들의 합이 임계치를 만족하는 것으로 결정되면, 제어는 동작 640 으로 되돌려지고 프로세스 600은 계속된다.
동작 650 에서의 결정은 임의의 적합한 기준에 기반하여 이루어질 수 있다. 예를 들어, 임계치는 보존된 기록과 폐기된 기록의 균형을 제공하기 위해 경험적으로 선택한 값일 수 있다.  일 실시 예에서, 임계치는 3 이다.  따라서 문장에 3 개 이상의 아웃라이어가 있다고 판단되면 센텐스는 모델 트레이닝에 사용되지 않는다.
동작 655 에서, 센텐스는 모델 트레이닝을 위해 유지되고 프로세스 600 은 종료된다.
스피치 합성에서 아웃라이어 검출의 사용
이전에 기술된 아웃라이어 검출의 실시예들은 도 4에서 설명된 HMM 기반 스피치 합성 시스템에 적용될 수 있다. HMM 모델 트레이닝 페이즈동안, 스펙트럼 및 엑사이테이션 파라미터는 스피치 데이터베이스로부터 추출되고 컨텍스트 의존형 HMMs에 의해 모델링된다. 합성 단계에서 컨텍스트 의존형 HMM은 합성될 텍스트에 따라 연결된다.
HMM 모델은 HMM-기반 스피치 합성 시스템 (HTS) 프레임 워크를 사용하여 학습된다. HTS는 히든 마르코프 모델 툴 킷(Hidden Markov Model Tool Kit) 과 시그널 프로세싱 툴 킷(Signal Processing Tool Kit:SPTK)과 같은 시그널 프로세싱 툴의 수정된 버전이다. 트레이닝하는 동안, 스펙트럼 및 엑사이테이션 파라미터는 주석된(annotated) 스피치 데이터베이스로부터 추출되고, 대응하는 HMM 시퀀스에 의해 모델링된 관찰된 특징 벡터(observed feature vectors)의 시퀀스로 변환된다. 각각의 HMM은 레프트 - 투 - 라이트 노 - 스킵(left-to-right no-skip) 모델에 해당하며, 여기서 각 출력 벡터(output vector)는 스펙트럼(spectrum) 및 엑사이테이션(exicitation)의 두 스트림(two streams)으로 구성된다.  스펙트럼 스트림은 에너지 계수 및 관련 델타(delta) 및 델타 - 델타 계수를 포함하는 멜 - 셉스트럴 계수로 표현된다.  엑사이테이션 스트림은 로그 F0 및 관련 델타 및 델타 - 델타 계수로 표시된다.
HMMs는 스피치의 시간 구조를 모델링하기 위해 상태 지속시간 밀도를 갖는다. 결과적으로, HTS 모델은 스펙트럼 파라미터뿐만 아니라 HMM의 통일된 프레임 워크에서 F0 및 지속시간을 활용한다.  멜 - 셉스트럴 계수는 연속 HMMs에 의해 모델화되며 F0s는 다중 공간 확률 분포 HMM (MSD-HMM)에 의해 모델링된다. 
음성(phonetic) 및 운율 공동 조음 현상(prosody co-articulation phenomena)을 포착하기 위해 컨텍스트 의존형 폰 모델(context-dependent phone model)을 사용할 수 있다. 결정 트리(decision-tree) 및 최소 디스크립션 길이 기준(minimum description length criterion)에 기반한 스테이트 타잉(State tying)은 트레이닝에서 데이터 희소성 문제를 극복하기 위해 적용된다. 스트림 의존형 모델(stream-dependent models)은 스펙트럼, 운율 및 지속시간 기능을 분리된 결정 트리로 클러스터(cluster)하기 위해 제작되었다.
합성 중에, 임의로 주어진 합성된 텍스트는 컨텍스트 - 기반 레이블 시퀀스(context-based label sequence)로 변환된다. 레이블 시퀀스에 따라, 센텐스 HMM은 컨텍스트 의존형 HMM을 연쇄(concatenating)시킴으로써 구성된다. 센텐스 HMM의 스테이트 지속시간은 스테이트 지속시간의 출력 확률을 최대화하도록 결정된다.  유성음 / 무성음 결정을 포함하는 멜 - 셉스트럴 계수 및 로그 F0 값의 시퀀스는 HMM에 대한 출력 확률이 스피치 파라미터 생성 알고리즘을 사용하여 최대가 되도록 결정된다.
시스템의 주요 특징은 동적 계수를 특징 벡터에 포함하는 것에 의한 동적 특징의 사용이다. 합성에서 생성된 스피치 파라미터 시퀀스는 HMM의 통계 파라미터에 의해 정의된 바와 같이 현실적으로 제한된다.  스피치 파형은 생성된 멜 - 셉스트럴 계수 및 F0 값으로부터 직접 합성되며, 여기서 합성은 MLSA 필터를 이용한다. 
멜 - 셉스트럴 왜곡(Mel-cepstral distortion, MCD)은 스피치 합성을 평가하는데 사용될 수 있다. MCD는 원래의 합성된 MCEPs와 F0 값 사이의 셉스트럴 왜곡을 계산하는데 사용되는 객관적인 오류 측정이다. 낮은 MCD 값은 고품질의 합성된 스피치를 나타낸다.  MCD는 다음의 수학식을 사용하여 유클리드 거리 측정(Euclidean Distance measure)으로 정의될 수 있다.
Figure pct00001
 
여기서
Figure pct00002
Figure pct00003
는 표적(target) 및 추정된 F0 및 MCEPs를 각각 나타낸다.
본 발명은 도면 및 상기 설명에서 상세히 도시되고 설명되었지만, 이는 예시적인 것으로 고려되어야 하며 제한적인 것으로 고려되어서는 안되며, 바람직한 실시예만이 도시되고 기술되었으며 본 명세서 및 / 또는 하기 청구범위에 기재된 본 발명의 사상 내에 있는 모든 등가물, 변화 및 수정이 보호되기를 바란다는 것을 이해해야 한다.
따라서, 본 발명의 적절한 범위는 첨부된 특허 청구 범위의 가장 넓은 해석에 의해서만 결정되어야 하며, 이러한 모든 수정뿐만 아니라 도면에 예시되고 명세서에 기술된 것과 동일한 모든 관계를 포함해야 한다.

Claims (31)

  1. 텍스트 - 투 - 스피치 (text-to-speech) 시스템에서, 기본 주파수(fundamental frequency)를 적용하여, 모델 트레이닝(model training)에 사용되는 오디오 파일의 외적 결과(outlying results)를 식별하는 방법에 있어서, 상기 방법은
    a. 상기 오디오 파일로부터 상기 기본 주파수의 값을 추출하는 단계;
    b. 상기 오디오 파일로부터 상기 추출된 값을 사용하여 얼라인먼트(alignments)를 생성하는 단계;
    c. 음소의 인스턴스(instances)를 분리하는 단계;
    d. 각 분리된 인스턴스에 대해 평균 기본 주파수 값 및 평균 지속시간 값을 결정하는 단계;
    e. 인스턴스를 아웃라이어(outlier)로 식별하는 단계, 여기서 아웃라이어가
    i. 상기 음소는 모음이고;
    ii. 인스턴스의 상기 평균 기본 주파수가 선결정된(predetermined) 값보다 작고;
    iii. 인스턴스의 상기 지속시간은 음소의 상기 평균 지속시간의 두 배보다 크고; 및
    iv. 인스턴스의 상기 지속시간은 음소의 상기 평균 지속시간의 절반보다 작은; 것으로 식별되고, 및
    f. 상기 오디오 파일 내의 각 센텐스에 대한 아웃라이어의 합을 식별하는 단계, 여기서, 상기 센텐스가 아웃라이어의 수보다 많은 경우, 상기 모델 파일로부터 상기 오디오 파일 내의 상기 센텐스를 폐기함; 를 포함하는,
    모델 트레이닝에 사용되는 오디오 파일의 외적 결과를 식별하는 방법.
  2. 제 1 항에 있어서, 상기 추출하는 단계는 피치 추적 툴(pitch tracking tool)을 사용하여 수행되는,
    모델 트레이닝에 사용되는 오디오 파일의 외적 결과를 식별하는 방법.
  3. 제 1 항에 있어서, 상기 생성하는 단계는 스피치 인식(시스템을 이용하여 수행되는,
    모델 트레이닝에 사용되는 오디오 파일의 외적 결과를 식별하는 방법. 
  4. 제 1 항에 있어서, 상기 얼라인먼트는 음소 레벨에서 발생되는,
    모델 트레이닝에 사용되는 오디오 파일의 외적 결과를 식별하는 방법.
  5. 제 1 항에 있어서, 상기 선결정된 값은 경험적으로 선택되는,
    모델 트레이닝에 사용되는 오디오 파일의 외적 결과를 식별하는 방법.
  6. 제 5 항에 있어서, 상기 선결정된 값은 40 인,
    모델 트레이닝에 사용되는 오디오 파일의 외적 결과를 식별하는 방법.
  7. 제 1 항에 있어서, 상기 (f) 단계의 상기 아웃라이어의 수는 경험적으로 선택되는,
    모델 트레이닝에 사용되는 오디오 파일의 외적 결과를 식별하는 방법.
  8. 제 7 항에 있어서, 상기 아웃라이어의 수는 5 인,
    모델 트레이닝에 사용되는 오디오 파일의 외적 결과를 식별하는 방법.
  9. 텍스트 - 투 - 스피치 (text-to-speech) 시스템에서, 그룹 지연 알고리즘(group delay algorithms)을 적용하는, 모델 트레이닝(model training)에 사용되는 오디오 파일의 외적 결과(outlying results)를 식별하는 방법에 있어서, 상기 방법은
    a. 음소 레벨에서 상기 오디오 파일의 얼라인먼트를 생성하는 단계;
    b. 음절 레벨에서 상기 오디오 파일의 얼라인먼트를 생성하는 단계;
    c. 그룹 지연 알고리즘을 사용하여 상기 음절 레벨에서 상기 얼라인먼트를 조정하는 단계;
    d. 각각의 음절을 상기 오디오 파일로부터 분리된 오디오 파일로 분리하는 단계;
    e. 분리된 오디오 파일 각각에 대해, 각 음절에 대한 음소 경계(phoneme boundaries) 및 기존 음소 모델(existing phoneme model)을 사용하여 상기 분리된 오디오 파일의 음소를 생성하는 단계;
    f. 생성된 각각의 음소의 우도 값(likelihood value)을 결정하는 단계, 여기서 상기 우도 값이 기준(criteria)을 충족시키는 경우, 상기 생성된 음소를 아웃라이어로서 식별하고; 및
    g. 상기 오디오 파일 내의 각 센텐스에 대한 아웃라이어의 합을 식별하는 단계, 여기서 상기 센텐스가 아웃라이어의 수보다 많은 경우, 모델 트레이닝으로부터 상기 센텐스를 폐기하는 단계; 를 포함하는,
    모델 트레이닝에 사용되는 오디오 파일의 외적 결과를 식별하는 방법.
  10. 제 9 항에 있어서, 상기 (a) 생성하는 단계는 스피치 인식 시스템을 이용하여 수행되는,
    모델 트레이닝에 사용되는 오디오 파일의 외적 결과를 식별하는 방법.
  11. 제 9 항에 있어서, 상기 (b) 생성하는 단계는 스피치 인식 시스템 및 음소 모델 중 적어도 하나를 이용하여 수행되는,
    모델 트레이닝에 사용되는 오디오 파일의 외적 결과를 식별하는 방법.
  12. 제 9 항에 있어서, 상기 기준은 작은 값을 포함하는,
    모델 트레이닝에 사용되는 오디오 파일의 외적 결과를 식별하는 방법.
  13. 제 9 항에 있어서, 상기 기준은 페일 얼라인먼트(failed alignment)를 포함하는,
    모델 트레이닝에 사용되는 오디오 파일의 외적 결과를 식별하는 방법.
  14. 제 9 항에 있어서, 상기 단계 (g)의 상기 아웃라이어의 수는 3을 포함하는,
    모델 트레이닝에 사용되는 오디오 파일의 외적 결과를 식별하는 방법.
  15. 텍스트 - 투 - 스피치(text-to-speech) 시스템에서 스피치를 합성하는 방법에 있어서, 상기 시스템은 적어도 하나의 스피치 데이터베이스(speech database), 데이터베이스는 히든 마르코프 모델(Hidden Markov Models)을 저장할 수 있고, 및 합성 필터를 포함하고, 상기 방법은
    a. 상기 스피치 데이터베이스로부터의 오디오 파일에서 외적 결과(outlying results)를 식별하고 상기 모델 트레이닝(model training) 이전에 상기 외적 결과를 제거하는 단계;
    b. 상기 스피치 데이터베이스로부터의 스피치 시그널(speech signal)을 파라미터로 변환하고 상기 스피치 시그널로부터 상기 파라미터(parameters)를 추출하는 단계;
    c. 상기 스피치 시그널로부터 상기 추출된 파라미터를 사용하고 상기 스피치 데이터베이스로부터의 상기 레이블을 사용하여 컨텍스트 의존형(context dependent) 히든 마르코프 모델(Hidden Markov Models)을 생산하기 위하여 히든 마르코프 모델을 트레이닝하는 단계;
    d. 히든 마르코프 모델을 저장할 수 있는 상기 데이터베이스에 상기 컨텍스트 의존형 히든 마르코프 모델을 저장하는 단계;
    e. 텍스트를 입력하고 상기 텍스트를 분석하는 단계, 여기서 상기 분석은 상기 텍스트로부터 레이블을 추출하는 단계를 포함함;
    f. 상기 컨텍스트 의존형 히든 마르코프 모델로부터 파라미터를 생성하기 위하여 상기 레이블을 이용하는 단계;
    g. 상기 파라미터로부터 다른 시그널을 생성하는 단계;
    h. 상기 다른 시그널 및 상기 파라미터를 상기 합성 필터에 입력하는 단계; 및
    i. 상기 다른 시그널이 상기 합성 필터를 통과함으로써 합성된 스피치(synthesized speech)를 생산하는 단계;를 포함하는,
    텍스트 - 투 - 스피치 시스템에서 스피치를 합성하는 방법.
  16. 제 15 항에 있어서, 상기 (b)단계의 상기 파라미터는 엑사이테이션(exciation) 및 스펙트럼(spectral) 중 하나 이상을 포함하는,
    텍스트 - 투 - 스피치 시스템에서 스피치를 합성하는 방법.
  17. 제 15 항에 있어서, 상기 (f)단계의 상기 파라미터는 엑사이테이션 및 스펙트럼 중 하나 이상을 포함하는,
    텍스트 - 투 - 스피치 시스템에서 스피치를 합성하는 방법.
  18. 제 15 항에 있어서, 상기 오디오 파일에서 기본 주파수를 적용하는 외적 결과를 상기 식별하는 단계는,
    a. 상기 오디오 파일로부터 상기 기본 주파수의 값을 추출하는 단계;
    b. 상기 오디오 파일로부터 상기 추출된 값을 이용하여 얼라인먼트를 생성하는 단계;
    c. 음소의 인스턴스를 분리하는 단계;
    d. 각 분리된 인스턴스에 대해, 평균 기본 주파수 값 및 평균 지속시간 값을 결정하는 단계;
    e. 인스턴스를 아웃라이어 (outlier)로 식별하고, 여기서 아웃라이어가
    i.상기 음소는 모음이고;
    ii.인스턴스의 상기 평균 기본 주파수가 선결정된 값보다 작고;
    iii.인스턴스의 상기 지속시간은 음소의 상기 평균 지속시간의 두 배보다 크고; 및
    iv.상기 인스턴스의 상기 지속시간은 음소의 상기 평균 지속시간의 절반보다 작은; 것으로 식별되고, 및
    f. 상기 오디오 파일 내의 각 센텐스에 대한 아웃라이어들의 합을 식별하는 단계, 여기서 상기 센텐스가 아웃라이어 수보다 많은 경우, 상기 모델 트레이닝으로부터 상기 오디오 파일 내의 센텐스를 폐기함; 를 포함하는,
    텍스트 - 투 - 스피치 시스템에서 스피치를 합성하는 방법.
  19. 제 18 항에 있어서, 상기 추출하는 단계는 피치 추적 툴(pitch tracking tool)을 사용하여 수행되는,
    텍스트 - 투 - 스피치 시스템에서 스피치를 합성하는 방법.
  20. 제 18 항에 있어서, 상기 생성하는 단계는 스피치 인식 시스템을 사용하여 수행되는,
    텍스트 - 투 - 스피치 시스템에서 스피치를 합성하는 방법. 
  21. 제 18 항에 있어서, 상기 얼라인먼트는 음소 레벨에서 생성되는,
    텍스트 - 투 - 스피치 시스템에서 스피치를 합성하는 방법.
  22. 제 18 항에있어서, 상기 선결정된 값은 경험적으로 선택되는,
    텍스트 - 투 - 스피치 시스템에서 스피치를 합성하는 방법.
  23. 제 22 항에 있어서, 상기 선결정된 값은 40 인,
    텍스트 - 투 - 스피치 시스템에서 스피치를 합성하는 방법.
  24. 제 18 항에 있어서, 상기 단계 (f)의 상기 아웃라이어의 수는 경험적으로 선택되는,
    텍스트 - 투 - 스피치 시스템에서 스피치를 합성하는 방법.
  25. 제 24 항에 있어서, 상기 아웃라이어의 수는 5 인,
    텍스트 - 투 - 스피치 시스템에서 스피치를 합성하는 방법.
  26. 제 15 항에 있어서, 오디오 파일에서 그룹 지연 알고리즘(group delay algorithms)을 적용하는 외적 결과를 상기 식별하는 단계는,
    a. 음소 레벨에서 상기 오디오 파일의 얼라인먼트를 생성하는 단계;
    b. 음절 레벨에서 상기 오디오 파일의 얼라인먼트를 생성하는 단계;
    c. 그룹 지연 알고리즘을 사용하여 상기 음절 레벨에서 상기 얼라인먼트를 조정하는 단계;
    d. 오디오 파일로부터 각각의 음절을 분리된 상기 오디오 파일로 분리하는 단계;
    e. 분리된 오디오 파일 각각에 대해, 각 음절에 대한 음소 경계(phoneme boundaries) 및 기존 음소 모델(existing phoneme model)을 사용하여 상기 분리된 오디오 파일의 음소를 생성하는 단계;
    f. 생성된 각각의 음소의 우도 값(likilihood value)을 결정하는 단계, 여기서 우도 값이 기준(creteria)을 충족시키는 경우, 상기 생성된 음소를 아웃라이어로서 식별하고; 및
    g. 상기 오디오 파일 내의 각 센텐스에 대한 아웃라이어의 합을 식별하는 단계, 여기서 상기 센텐스가 아웃라이어 수보다 많은 경우 모델 트레이닝으로부터 상기 센텐스를 폐기함; 를 포함하는,
    텍스트 - 투 - 스피치 시스템에서 스피치를 합성하는 방법.
  27. 제 26 항에 있어서, 상기 (a) 생성하는 단계는 스피치 인식 시스템을 이용하여 수행되는,
    텍스트 - 투 - 스피치 시스템에서 스피치를 합성하는 방법.
  28. 제 26 항에 있어서, 상기 (b) 생성하는 단계는 스피치 인식 시스템 및 음소 모델 중 적어도 하나를 이용하여 수행되는,
    텍스트 - 투 - 스피치 시스템에서 스피치를 합성하는 방법.
  29. 제 26 항에 있어서, 상기 기준은 작은 값을 포함하는,
    텍스트 - 투 - 스피치 시스템에서 스피치를 합성하는 방법.
  30. 제 26 항에 있어서, 상기 기준은 페일 얼라인먼트(failed alignment)를 포함하는,
    텍스트 - 투 - 스피치 시스템에서 스피치를 합성하는 방법.
  31. 제 26 항에 있어서, 상기 (g) 단계의 상기 아웃라이어의 수는 3을 포함하는,
    텍스트 - 투 - 스피치 시스템에서 스피치를 합성하는 방법.
KR1020187000773A 2015-06-11 2015-06-11 스피치 합성에서 푸어 얼라인먼트를 제거하기 위한 아웃라이어 식별 시스템 및 방법 KR102051235B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2015/035342 WO2016200391A1 (en) 2015-06-11 2015-06-11 System and method for outlier identification to remove poor alignments in speech synthesis

Publications (2)

Publication Number Publication Date
KR20180041114A true KR20180041114A (ko) 2018-04-23
KR102051235B1 KR102051235B1 (ko) 2019-12-02

Family

ID=57503937

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187000773A KR102051235B1 (ko) 2015-06-11 2015-06-11 스피치 합성에서 푸어 얼라인먼트를 제거하기 위한 아웃라이어 식별 시스템 및 방법

Country Status (6)

Country Link
EP (1) EP3308378B1 (ko)
KR (1) KR102051235B1 (ko)
CN (1) CN107924677B (ko)
AU (3) AU2015397951B2 (ko)
CA (1) CA2991913C (ko)
WO (1) WO2016200391A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200048620A (ko) * 2018-10-30 2020-05-08 주식회사 셀바스에이아이 음성 합성 모델의 학습용 데이터 생성 방법 및 음성 합성 모델의 학습 방법

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111968616A (zh) * 2020-08-19 2020-11-20 浙江同花顺智能科技有限公司 一种语音合成模型的训练方法、装置、电子设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090061920A (ko) * 2007-12-12 2009-06-17 한국전자통신연구원 음성 합성 방법 및 장치

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0248593A1 (en) * 1986-06-06 1987-12-09 Speech Systems, Inc. Preprocessing system for speech recognition
JP2000075878A (ja) * 1998-08-31 2000-03-14 Canon Inc 音声合成装置およびその方法ならびに記憶媒体
US8315871B2 (en) * 2009-06-04 2012-11-20 Microsoft Corporation Hidden Markov model based text to speech systems employing rope-jumping algorithm
CN101710488B (zh) * 2009-11-20 2011-08-03 安徽科大讯飞信息科技股份有限公司 语音合成方法及装置
CN102122505A (zh) * 2010-01-08 2011-07-13 王程程 一种提高语音合成系统表现力的建模方法
JP5717097B2 (ja) * 2011-09-07 2015-05-13 独立行政法人情報通信研究機構 音声合成用の隠れマルコフモデル学習装置及び音声合成装置
US10453479B2 (en) * 2011-09-23 2019-10-22 Lessac Technologies, Inc. Methods for aligning expressive speech utterances with text and systems therefor
CN102496363B (zh) * 2011-11-11 2013-07-17 北京宇音天下科技有限公司 一种用于汉语语音合成的音调修正方法
WO2014021318A1 (ja) * 2012-08-01 2014-02-06 独立行政法人産業技術総合研究所 音声分析合成のためのスペクトル包絡及び群遅延の推定システム及び音声信号の合成システム
ES2549953T3 (es) * 2012-08-27 2015-11-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para la reproducción de una señal de audio, aparato y método para la generación de una señal de audio codificada, programa de ordenador y señal de audio codificada
JP6496030B2 (ja) * 2015-09-16 2019-04-03 株式会社東芝 音声処理装置、音声処理方法及び音声処理プログラム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090061920A (ko) * 2007-12-12 2009-06-17 한국전자통신연구원 음성 합성 방법 및 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Norbert Braunschweiler et al., ‘Automatic sentence selection from speech corpora including diverse speech for improved HMM-TTS synthesis quality’, INTERSPEECH 2011, pp.1821~1824, August 2011.* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200048620A (ko) * 2018-10-30 2020-05-08 주식회사 셀바스에이아이 음성 합성 모델의 학습용 데이터 생성 방법 및 음성 합성 모델의 학습 방법

Also Published As

Publication number Publication date
AU2015397951B2 (en) 2019-04-04
EP3308378A1 (en) 2018-04-18
AU2020205275B2 (en) 2021-12-09
KR102051235B1 (ko) 2019-12-02
EP3308378A4 (en) 2018-06-27
CA2991913C (en) 2020-06-02
EP3308378B1 (en) 2019-09-11
CA2991913A1 (en) 2016-12-15
AU2020205275A1 (en) 2020-08-06
AU2019202146A1 (en) 2019-05-02
WO2016200391A1 (en) 2016-12-15
CN107924677A (zh) 2018-04-17
AU2019202146B2 (en) 2020-08-13
CN107924677B (zh) 2022-01-25
AU2015397951A1 (en) 2018-02-01

Similar Documents

Publication Publication Date Title
US10497362B2 (en) System and method for outlier identification to remove poor alignments in speech synthesis
Fan et al. TTS synthesis with bidirectional LSTM based recurrent neural networks
US5682501A (en) Speech synthesis system
US9043213B2 (en) Speech recognition and synthesis utilizing context dependent acoustic models containing decision trees
Chen et al. Strategies for Vietnamese keyword search
KR100932538B1 (ko) 음성 합성 방법 및 장치
Oh et al. Acoustic model adaptation based on pronunciation variability analysis for non-native speech recognition
AU2020205275B2 (en) System and method for outlier identification to remove poor alignments in speech synthesis
US10446133B2 (en) Multi-stream spectral representation for statistical parametric speech synthesis
Banerjee et al. Application of triphone clustering in acoustic modeling for continuous speech recognition in Bengali
Deka et al. Development of assamese text-to-speech system using deep neural network
Toledano et al. Initialization, training, and context-dependency in HMM-based formant tracking
JP6000326B2 (ja) 音声合成モデル学習装置、音声合成装置、音声合成モデル学習方法、音声合成方法、およびプログラム
Takaki et al. Overview of NIT HMM-based speech synthesis system for Blizzard Challenge 2012
Reddy et al. Transcription of Telugu TV news using ASR
Gulić et al. A digit and spelling speech recognition system for the croatian language
Chitturi et al. Multi-stream dialect classification using SVM-GMM hybrid classifiers
Louw Neural speech synthesis for resource-scarce languages
Shah et al. Influence of various asymmetrical contextual factors for TTS in a low resource language
Phan et al. Extracting MFCC, F0 feature in Vietnamese HMM-based speech synthesis
Ali et al. Automatic segmentation of Arabic speech
Kacur et al. Automatic labeling schemes for concatenative speech synthesis
Chanjaradwichai et al. Tree-based context clustering using speech recognition features for acoustic model training of speech synthesis
RU160585U1 (ru) Система распознавания речи с моделью вариативности произношения
Shah et al. Deterministic annealing EM algorithm for developing TTS system in Gujarati

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant