KR100769033B1 - 스피치 합성 방법 - Google Patents

스피치 합성 방법 Download PDF

Info

Publication number
KR100769033B1
KR100769033B1 KR1020067006170A KR20067006170A KR100769033B1 KR 100769033 B1 KR100769033 B1 KR 100769033B1 KR 1020067006170 A KR1020067006170 A KR 1020067006170A KR 20067006170 A KR20067006170 A KR 20067006170A KR 100769033 B1 KR100769033 B1 KR 100769033B1
Authority
KR
South Korea
Prior art keywords
speech
rhyme
pitch
match
segment
Prior art date
Application number
KR1020067006170A
Other languages
English (en)
Other versions
KR20060066121A (ko
Inventor
팡 첸
기-린 첸
Original Assignee
모토로라 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 모토로라 인코포레이티드 filed Critical 모토로라 인코포레이티드
Publication of KR20060066121A publication Critical patent/KR20060066121A/ko
Application granted granted Critical
Publication of KR100769033B1 publication Critical patent/KR100769033B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules
    • G10L13/07Concatenation rules
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • G10L13/10Prosody rules derived from text; Stress or intonation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/06Elementary speech units used in speech synthesisers; Concatenation rules

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

다수의 스피치 샘플들(140)을 포함하는 발화 파형 코퍼스(60)와 텍스트 세그먼트(120)를 비교하는 것을 포함하는 스피치 합성 수행 방법. 이 방법은 하나의 스피치 샘플(140)과 텍스트 세그먼트(120) 사이의 문맥상 최상의 매칭이 존재하는지 여부를 결정한다. 문맥상 최상의 매칭이 존재하지 않는 경우, 이 방법은 텍스트 세그먼트(120)와 스피치 샘플(140) 사이에 문맥 표음 혼성 매칭이 존재하는지 여부를 결정한다. 문맥 표음 혼성 매칭은 규정된 운율 특징 그룹(220)내의 모든 내재적 운율 특징들(210)의 매칭을 필요로 한다. 이 매칭이 여전히 발견되지 않는 경우, 운율 특징 그룹(220)은 운율 특징 그룹(220)으로부터 내재적 운율 특징들(210) 중 하나를 삭제함으로써 재규정된다. 운율 특징 그룹(220)은 입력 텍스트 세그먼트(120)와 스피치 샘플(140) 사이에 매칭이 발견될 때까지, 운율 특징 그룹(220)으로부터 하나의 내재적 운율 특징(210)을 제거함으로써 연속적으로 재규정된다. 매칭이 발견될 대, 매칭된 스피치 샘플(140)이 연쇄 스피치(110)를 생성하기 위해 사용된다.
텍스트 메모리 모듈, 스피치 합성기, 병음, 음조 문맥, 동시조음

Description

스피치 합성 방법{Method for synthesizing speech}
본 발명은 일반적으로 텍스트-스피치(Text to Speech; TTS) 합성에 관한 것이다. 본 발명은 특히, 비-총망라 발화 코퍼스(non-exhaustive utterance corpus)를 사용하여 텍스트 세그먼트의 적절한 합성 발음을 결정하는 데 유용하지만, 이에 한정되는 것은 아니다.
종종 연쇄적 텍스트-스피치 합성(concatenated text to speech synthesis)으로 지칭되는 텍스트-스피치(TTS) 변환은 전자 디바이스가 입력 텍스트 스트링을 수신하여 합성된 스피치 형태로 변환된 스트링 표현을 제공할 수 있게 한다. 그러나, 디바이스가 비-결정적(non-deterministic) 수의 수신된 텍스트 스트링들로부터 발생하는 스피치를 합성해야 하면, 고품질의 현실적인 합성 스피치를 제공하기 어려울 수 있다. 이는 합성될 각 단어 또는 음절(중국 문자들 등에 대하여)의 발음이 문맥 및 위치 의존적이기 때문이다. 예로서, 문장(입력 텍스트 스트링)의 시작부에서는 단어의 발음이 끌리거나(drawn out), 늘어질(lengthened) 수 있다. 동일 단어의 발음은 그것이 강조될 필요가 있는 문장의 중간에서는 훨씬 더 장음화될 수 있다.
대부분의 언어들에서, 단어의 발음은 적어도 음조(피치), 음량 및 지속 기간에 의존한다. 또한, 다수의 언어들은 개별 음절들의 다수의 가능한 발음들을 포함한다. 통상적으로, 중국 문자(또는 다른 유사한 문자 기반 스크립트)에 의해 표현되는 단일 음절은 6개까지의 서로 다른 발음들을 가질 수 있다. 또한, 각 발음의 현실적 합성된 발화를 제공하기 위해서, 문장들의 방대한 사전기록된 발화 파형 코퍼스가 요구된다. 이 코퍼스는 통상 현실적 스피치 합성이 달성되는 경우, 각 발음의 평균 약 500개 변형들을 필요로 한다. 따라서, 매 문자를 위한 모든 발음들의 발화 파형 코퍼스는 불가능한 수준으로 방대하다. 대부분의 TTS 시스템들에서, 제한된 크기의 발화 파형 코퍼스와의 비교들에 기초하여 입력 텍스트 스트링의 적절한 발음을 결정할 필요가 있다. 발화 파형 코퍼스의 크기는 퍼스널 디지털 어시스턴트 또는 무선 전화 같은 낮은 메모리 용량을 갖는 소형 전자 디바이스에 임베딩될 때, 특히 제한될 수 있다. 입력 텍스트 스트링들을 오디오 데이터베이스와 비교하기 위해 사용되는 알고리즘은 또한 결과적인 합성되고 연쇄된 스피치가 자연스럽게 그리고, 매끄럽게 흐르도록 효율적이고 신속할 필요가 있다. 메모리 및 처리 속도 제한들 때문에, 임베딩된 어플리케이션들을 위한 현존하는 TTS 방법들은 종종 부자연스럽거나 로봇 목소리 같은 스피치를 가져온다. 따라서, 비-총망라 발화 코퍼스를 사용하면서 자연스러운 음향의 합성된 스피치를 제공하기 위한 TTS 수행을 위한 개선된 방법이 필요하다.
본 발명은 다수의 스피치 샘플들을 포함하는 발화 파형 코퍼스와 입력 텍스트 세그먼트를 비교하는 단계를 포함하는 스피치 합성 수행 방법이다. 본 방법은 텍스트 세그먼트와, 발화 파형 코퍼스에 포함된 하나의 스피치 샘플 사이에 문맥상 최상의 매칭이 존재하는지 여부를 결정한다. 문맥상 최상의 매칭이 존재하지 않는 경우, 이 방법은 텍스트 세그먼트와 발화 파형 코퍼스내에 포함된 스피치 샘플 사이에 문맥 표음적 혼성 매칭이 존재하는지 여부를 결정한다. 문맥 표음적 혼성 매칭은 규정된 운율 특징 그룹내의 모든 내재적 운율 특징들(implicit prosodic features)의 매칭을 필요로 한다. 매칭이 여전히 발견되지 않는 경우, 운율 특징 그룹은 운율 특징 그룹을 재규정하도록 운율 특징 그룹으로부터의 내재적 운율 특징들 중 하나를 삭제함으로써 재규정된다. 운율 특징 그룹은 입력 텍스트 세그먼트와 스피치 샘플 사이에 매칭이 발견될 때까지 그룹으로부터 하나의 내재적 운율 특징을 삭제함으로써 연속적으로 재규정된다. 매칭이 발견될 때, 매칭된 스피치 샘플이 연쇄적 스피치를 생성하기 위해 사용된다.
본 발명의 다른 양태들은 도면 전반에 걸쳐 유사 참조 번호들이 유사 또는 대응 엘리먼트들 또는 단계들을 지시하고 있는 도면들과 함께 하기의 상세한 설명으로부터 명백해질 것이다.
도 1은 본 발명이 구현되는 전자 디바이스의 블록도.
도 2는 중국 언어의 연쇄적 스피치를 생성하기 위해 사용되는 본 발명의 특정 실시예를 예시하는 플로우차트.
도 3은 매칭을 규정하기 위해 사용되는 제약들을 연속적으로 완화시킴으로써 문맥 표음적 혼성 매칭이 존재하는지 여부를 결정하는 프로세스를 예시하는 플로우 차트.
도 1을 참조하면, 본 발명이 구현되는 전자 디바이스(10)의 블록도가 예시되어 있다. 디바이스(10)는 공용 버스(15)에 의해 텍스트 메모리 모듈(20), 판독 전용 메모리(ROM)(40), 임의 접근 메모리(RAM)(50) 및 파형 코퍼스(60)에 동작가능하게 연결되는 프로세서(30)를 포함한다. 프로세서(30)는 또한 스피치 합성기(70)의 입력 및 터치 스크린 디스플레이(90)에 동작가능하게 연결된다. 스피치 합성기(70)의 출력은 스피커(80)에 동작가능하게 연결된다. 본 기술분야 숙련자에게 명백한 바와 같이, 텍스트 메모리 모듈은 가능하게는, 무선 수신, 인터넷 또는 플러그 인 휴대용 메모리 카드와 같은 임의의 수신 수단에 의해 얻어진 텍스트를 저장하기 위한 저장부이다. ROM은 도 2 및 도 3에 설명된 바와 같이 본 발명을 수행하기 위한 동작 코드를 저장한다. 또한, 코퍼스(60)는 스피치 합성기(70) 및 스피커(80) 같이 실질적으로 종래의 코퍼스이며, 터치 스크린 디스플레이(90)는 사용자 인터페이스이고, 텍스트 메모리 모듈(20)에 저장된 텍스트의 디스플레이를 가능하게 한다.
도 2는 중국 언어의 입력 텍스트 세그먼트(120)로부터 연쇄적 스피치(110)를 생성하기 위해 사용되는 본 발명의 특정 실시예를 예시하는 플로우 차트이다. 텍스트 세그먼트(120)는 문맥상 최상의 매칭이 존재하는지 여부를 결정하기 위해 복수의 스피치 샘플들(140)을 포함하는 발화 파형 코퍼스(60)와 비교된다(단계 S110). 문맥상 최상의 매칭이 텍스트 세그먼트(120)와 특정 스피치 샘플(140) 사이에서 발견되는 경우, 특정 스피치 샘플(140)이 연쇄적 스피치(110)를 생성하기 위해 연쇄 알고리즘(150)으로 전송된다.
텍스트 세그먼트(120)와 특정 스피치 샘플(140) 사이에 문맥상 어떠한 최상의 매칭도 발견되지 않는 경우, 그후, 텍스트 세그먼트(120)가 다시 발화 파형 코퍼스(130)와 비교되어 문맥 표음 혼성 매칭이 존재하는지 여부를 결정한다(단계 S120).
도 3은 문맥 표음 혼성 매칭이 존재하는지 여부를 매칭을 규정하기 위해 사용되는 제약들을 연속적으로 완화시킴으로써 결정하는 프로세스를 예시하는 플로우차트이다. 문맥 표음 혼성 매칭은 텍스트 세그먼트(120)와 규정된 운율 특징 그룹(220)내에 포함된 내재적 운율 특징들(210) 모두 사이의 매칭을 필요로 한다. 어떠한 매칭도 발견되지 않는 경우, 내재적 운율 특징(210) 중 하나가 규정된 운율 특징 그룹(220)으로부터 삭제되고, 그룹(220)이 삭제된 특징(210)이 없는 이전에 포함된 특징들(210) 모두를 포함하는 것으로서 재규정된다(예로서, 단계 S130). 재규정된 운율 특징 그룹(220)은 그후 매칭이 존재하는지 여부를 결정하기 위해 텍스트 세그먼트(120)와 비교된다. 내재적 운율 특징(210)의 삭제, 운율 특징 그룹(220)의 재규정 및 그후 문맥 표음 혼성 매칭 존재 여부를 재결정하는 프로세스가 매칭이 발견될 때까지 계속된다(단계들 S130, S140 등 S170까지). 문맥 표음 혼성 매칭이 발견될 때, 텍스트 세그먼트(120)와 매칭하는 매칭된 스피치 샘플(140)이 연쇄적 스피치(110)를 생성하기 위해 연쇄 알고리즘(150)으로 전송된다.
도 3에 도시된 바와 같이, 병음을 제외한 내재적 운율 특징들(210) 모두가 운율 특징 그룹(220)으로부터 연속적으로 삭제되고, 여전히 어떠한 매칭도 발견되지 않는 경우, 그후, 기본 표음 매칭이 수행되어 병음만을 매칭시킨다(단계 S180). 본 발명의 일 실시예에서, 발화 파형 코퍼스(60)는 모든 가능한 입력 텍스트 세그먼트들(120)을 매칭시키도록 정확한 병음과 함께 포함된 적어도 하나의 음절이 항상 존재하도록 설계된다. 이 기본 표음 매칭은 그후 연쇄 알고리즘(150)에 입력된다. 따라서, 본 발명은 결과적인 합성된 연쇄적 스피치(110)의 운율(리듬 및 어조)를 제어하기 위한 다층, 데이터-구동 방법이다. 여기서, 이 방법의 각 층은 재규정된 운율 특징 그룹(220)을 포함한다. 본 발명의 목적상, 텍스트 세그먼트(120)는 임의의 유형의 입력 텍스트 스트링 또는 코팅된 언어의 세그먼트를 의미한다. 스캔되거나 다른 방식으로 TTS 시스템에 입력된 가시적인 텍스트에만 제한되는 것은 아니다.
본 발명의 발화 파형 코퍼스(130)에는 코퍼스(130)내에 포함된 각 스피치 샘플(140)(일반적으로 단어)에 관한 정보가 주해되어 있다. 스피치 샘플들(140) 자체는 일반적으로, 실제 인간 스피치의 기록들이며, 일반적으로, 디지털 또는 아날로그 파형들이다. 따라서, 샘플들(140)을 식별하기 위해 주해들이 필요하다. 이런 주해들은 특정 문자들 또는 캐릭터들(언어에 의존)을 포함할 수 있으며, 이는 스피치 샘플(140)의 내재적 운율 특징들(210)과 샘플(140)을 규정한다. 내재적 운율 특징들(210)은 스피치 샘플(140)이 문장에 사용되는 방식에 관한 문맥 정보를 포함한다.
예로서, 중국 언어의 스피치 샘플(140)은 하기의 내재적 운율 특징들(210)을 포함할 수 있다 :
텍스트 문맥 : 스피치 샘플(140)의 주해된 텍스트 직전 및 직후의 중국 문자들.
병음 : 스피치 샘플(140)의 표음적 표현. 병음은 웨스턴 알파벳을 사용하는 중국 언어의 표준화된 로마자 기재이다.
음조 문맥 : 스피치 샘플(140)의 주해된 텍스트 직전 및 직후의 중국 문자들의 음조 문맥.
동시조음 : 음소 또는 서브 음절들 같은 스피치 샘플(140)의 주해된 텍스트직전 및 직후의 표음적 레벨 표본들.
음절 위치 : 운율 어구내의 음절의 위치.
어구 위치 : 문장내의 음절 어구의 위치. 일반적으로, 어구 위치는 문장 초기, 문장 중간 및 문장 끝의 3개 위치들 중 하나로 식별된다.
캐릭터 심볼 : 스피치 샘플(140)을 규정하는 중국 문자를 나타내는 코드(예로서, ASCII 코드).
어구 길이 : 운율 어구에 포함된 중국 문자들의 수.
상기 내재적 운율 특징들(210)의 특정 값들의 예로서, 하기의 중국어 문장을 고려한다 : "
Figure 112006022209959-pct00001
". 이 문장의 발음된 오디오 기록이 발화 파형 코퍼스(130)에 저장되어 있는 경우, 각 문자의 음향은 스피치 샘플(140)을 나타내고, 상기 내재적 운율 특징들(210)로 주해될 수 있다. 예로서, 상기 문장에서 발견되는 바와 같은 문자 "國"은 하기와 같이 주해될 수 있다:
텍스트 문맥 : 中,
Figure 112006022209959-pct00002
;
병음 : guo2;
음조 문맥 : 1,3;
동시조음 : ong, h;
음절 위치 : 2;
어구 위치 : 1;
캐릭터 심볼 : 國을 위한 ASCII 코드; 및
어구 길이 : 2.
도 2에서, 단계 S110은 텍스트 세그먼트(120)와 스피치 샘플(140) 사이에 문맥상 최상의 매칭이 존재하는지 여부를 결정한다. 문맥상 최상의 매칭은 일반적으로, 1) 주해된 스피치 샘플(140)의 대응 문자들 또는 캐릭터들과 입력 텍스트 세그먼트(120)의 문자들 또는 캐릭터들(언어에 의존) 및 2) 주해된 스피치 샘플(140)의 내재적 운율 특징들(210)과 입력 텍스트 세그먼트(120)의 내재적 운율 특징들(210) 양자 모두의 가장근접한 또는 정확한 매칭로서 규정된다. 보다 일반적인 용어로, 최상의 매칭은 파형 코퍼스(60)내의 각 파형 발화들(스피치 샘플들)의 속성들 및 속성 위치들과 일치하는 입력 텍스트 세그먼트 내의 최대수의 연쇄적 음절들을 식별함으로써 결정된다. 단지, 문자들 또는 캐릭터들과 내재적 운율 특징들(210) 양자 모두가 정확하게 매칭할 때에만 연쇄 알고리즘(150)에 사용하기 위한 엘리먼트로서 바로 스피치 샘플(140)이 선택된다.
문맥상 최상의 매칭이 발견되지 않을 때, 본 발명의 방법은 그후 스피치 샘플(140)과 입력 텍스트 세그먼트(120) 사이에 문맥 표음 혼성 매칭이 존재하는지 여부를 결정한다. 상술된 바와 같이, 문맥 표음 혼성 매칭은 규정된 운율 특징 그룹(220)에 포함된 내재적 운율 특징들(210) 모두와 텍스트 세그먼트(120) 사이의 매칭을 필요로한다. 도 3에 도시된 바와 같이, 중국 언어의 스피치를 합성하기 위해 사용되는 본 발명의 일 실시예는 제1 규정된 운율 특징 그룹(220)을 사용하며, 이는 병음, 음조 문맥, 동시조음, 음절 위치, 어구 위치, 캐릭터 심볼 및 어구 길이의 내재적 운율 특징들(210)을 포함한다(단계 S120). 발화 파형 코퍼스(130)내에서 발견되는 주해된 스피치 샘플들(140) 중 어떠한 것도 입력 텍스트 세그먼트(120)에서 발견되는 바와 같은 상기 특징들(210) 각각에 대하여 동일한 값을 갖지 않는 경우, 그후, 코퍼스(130)는 단계 S120에서 적용된 바와 같은 매칭 규칙들에 기초한 입력 텍스트 세그먼트(120)에 충분히 근접한 스피치 샘플(140)을 포함하지 않는다. 따라서, 매칭 규칙들의 제약들이 완화되어야만 하며, 따라서, 입력 텍스트 세그먼트(120)에서 발견되는 차순위 가장 바람직한 특징들(210)을 소유하는 다른 스피치 샘플들(140)을 포함하도록 확장되어야 한다. 달리 말해서, 입력 텍스트 세그먼트(120)의 자연적 운율에 영향을 줄 가능성이 가장 작은 규정된 운율 특징 그룹(220)내에서 발견되는 하나의 특징(210)을 삭제함으로써 매칭 규칙들이 확장된다. 예로서, 도 2 및 도 3 양자 모두에서, 단계 S130에 도시된 바와 같이, 본 발명의 예시된 실시예에서 발견되는 차순위 가장 바람직한 특징들(210)은 어구 길이 특징(210)을 제외한 위에 규정된 특징들(210) 모두를 포함한다.
규정된 운율 특징 그룹(220)으로부터 내재적 운율 특징들(210)이 삭제되는 순서는 경험적으로 결정된다. 특징(210)이 적절한 순서로 삭제될 때, 본 발명의 방법은 효율적이고 신속한 스피치 합성을 초래한다. 따라서, 출력 스피치는 발화 파형 코퍼스(130)가 비교적 제한된 크기일 수 있다 하더라도 보다 자연스러운 음향을 생성한다.
본 발명에 따라서, 발화 파형 코퍼스(130)가 특정 규정된 운율 특징 그룹(220)을 사용하여 텍스트 세그먼트(120)와 비교된 이후, 다수의 스피치 샘플들(140)의 주해들이 분석된 텍스트 세그먼트(120)와 매칭하는 것으로 발견될 수 있다. 이런 경우에, 최적의 문맥 표음 혼성 매칭은 하기의 수학식을 사용하여 선택될 수 있다 :
Figure 112006022209959-pct00003
여기서, Wp = 텍스트 세그먼트(120)의 피치의 가중치
Wd = 텍스트 세그먼트(120)의 지속 기간의 가중치
diff = 최적의 문맥 표음 혼성 매칭을 선택하기 위한 미분값
pitch = 텍스트 세그먼트(120)의 피치
BestPitch = 이상적 텍스트 세그먼트(120)의 피치
dur = 텍스트 세그먼트(120)의 지속 기간
BestDur = 이상적 텍스트 세그먼트(120)의 지속 기간
상기 수학식 1에서, 변수 BestPitch는 발화 파형 코퍼스(130)의 통계적 분석에 기초하여 결정될 수 있다. 예로서, 코퍼스(130)는 평균 피치를 각각 가지는 5개 음조들을 포함할 수 있다. 코퍼스(130)내의 각 주해된 스피치 샘플(140)은 또한, 피치, 지속 기간 및 에너지의 값들에 의해 표현되는 개별 운율 정보를 포함할 수도 있다. 그래서, 전체 코퍼스(130)의 피치, 지속 기간 및 에너지의 평균값들이 가용하다. 특정 문맥을 위한 최상의 피치는 그후, 하기의 수학식을 사용하여 결정될 수 있다.
Figure 112006022209959-pct00004
여기서, pitchtone = 발화 파형 코퍼스의 음조를 포함하는 평균 피치
nIndex = 운율 어구의 텍스트 세그먼트(120)의 인덱스
empircalvalue = 발화 파형 코퍼스에 기초한 경험값. 중국 언어를 합성하는 본 발명의 일 특정 실시예에서 4의 경험값이 사용되지만, 이 수는 특정 발화 파형 코퍼스(130)의 문맥에 따라 변할 수 있다.
유사하게, 이상적 텍스트 세그먼트(120)의 지속 기간은 하기의 수학식을 사용하여 결정될 수 있다.
Figure 112006022209959-pct00005
여기서, durs = 음조가 없는 텍스트 세그먼트(120)의 평균 지속 기간
nIndex = 운율 어구의 텍스트 세그먼트(120)의 인덱스
fs = 운율 위치의 계수
empircalvalue = 상기 발화 파형 코퍼스에 기초한 경험값. 역시, 중국 언어 를 합성하는 본 발명의 일 특정 실시예에서 4의 경험값이 사용되지만, 이 수는 특정 발화 파형 코퍼스(130)의 문맥에 따라 변할 수 있다.
단어를 위한 미분값(diffW)은 단어의 각 음절을 위한 미분값들의 합계일 수 있다. 이는 하기의 수학식에 의해 수학적 항들로 표현될 수 있다.
Figure 112006022209959-pct00006
상술된 바와 같이, 다수의 스피치 샘플들(140)이 특정 텍스트 세그먼트(120)와 매칭하는 것으로 발견되는 경우, 이 시스템은 그 미분값이 가장 작은 스피치 샘플(140)을 선택한다. 이는 하기의 수학식에 의해 수학적 항들로 표현될 수 있다.
Figure 112006022209959-pct00007
또한, 본 발명의 방법은 미분값(diffW)을 위한 지정된 임계값들을 사용하는 것을 포함할 수 있다. 매칭된 스피치 샘플(140)을 위한 미분값이 특정 임계값 미만인 경우, 방법은 매칭된 스피치 샘플(140)을 연쇄적 스피치(110)를 생성하기 위해 연쇄 알고리즘(150)으로 라우팅한다. 그렇지 않으면, 방법은 필요한 내재적 운율 특징들(210) 중 하나를 삭제함으로써, 문맥 표음 혼성 매칭에 대한 제약들을 완화시키고, 매칭에 대한 검색을 지속할 필요가 있다.
비록, 상기 설명이 중국 언어에 대한 본 발명의 방법의 특정 예에 관련하지만, 본 발명은 다수의 언어들에 적합하다. 소정 언어들에 대하여, 내재적 운율 특징들(210)은 상술된 예들로부터 삭제 또는 재규정될 필요가 있다. 예로서, 음조 문맥으로서 상술된 특징(210)은 영어에 대한 본 발명의 적용시 삭제되며, 그 이유는 영어는 표음 언어이기 때문이다. 또한, 유사하게, 병음으로서 상술된 특징(210)은 본 발명이 영어에 적용될 때, 단순히 표음 심볼로서 재규정될 필요가 있다.
따라서, 본 발명은 발화 파형 코퍼스(130)의 내재적 운율 정보를 활용하는 다층, 데이터 구동 운율 제어 체계이다. 주어진 입력 텍스트 세그먼트(120)와의 매칭을 위해 적절한 스피치 샘플(140)을 검색할 때, 본 발명의 방법은 다층 매칭에 기초한 전략을 사용하며, 여기서, 충분히 양호한 매칭이 발견될 때까지 각층이 순차적으로 시도된다. 각 층의 제약들을 연속적으로 완화시킴으로써, 본 방법은 발화 파형 코퍼스(130)가 매칭을 포함하는지 여부를 효과적으로 결정한다. 따라서, 본 방법은 시스템의 처리 파워 및 발화 파형 코퍼스(130)의 크기가 제한될 수 있는 임베딩된 TTS 시스템들에 특히 적합하다.
비록, 본 발명의 방법의 예시적 실시예들을 첨부 도면에 예시하고, 상기 설명에서 상술하였지만, 본 발명은 설명된 실시예들에 한정되지 않으며, 오히려, 본 발명은 특히, 중국어 이외의 언어들에 대한 응용들에 관하여 다수의 방식들로 변형될 수 있다는 것을 이해할 것이다. 따라서, 본 발명은 하기의 청구범위의 범주에 의해서만 한정되어야 한다는 것을 주의하여야 한다.

Claims (12)

  1. 전자 디바이스 상에서, 텍스트 세그먼트에 대해 스피치 합성(speech synthesis)을 수행하기 위한 방법에 있어서,
    복수의 스피치 파형 샘플들을 포함하는 발화 파형 코퍼스(utterance waveform corpus)와 텍스트 세그먼트를 비교하는 단계,
    상기 텍스트 세그먼트 내의 연속 음절들(consecutive syllables)과 샘플링된 스피치 파형 발화들과 관련된 속성들 사이의 최상의 매칭을 결정하는 단계로서, 상기 최상의 매칭은 상기 파형 발화들 각각의 속성들 및 속성 위치들과 일치하는 최대 수의 연속 음절을 식별함으로써 결정되는, 상기 최상 매칭 결정 단계;
    상기 텍스트 세그먼트 내의 매칭되지 않은 각 음절에 대한 적절한 매칭을 확인하는 단계로서, 매칭되지 않은 각 음절은 상기 연속 음절들 중 하나가 아닌 음절이며, 상기 적절한 매칭은 샘플링된 스피치 파형 발화들과 관련된 상기 속성들을 운율 특징 그룹(prosodic features group)의 운율 특징들과 비교하여 결정되고, 상기 확인 단계는 상기 적절한 매칭이 존재할 때까지 상기 운율 특징 그룹으로부터 상기 운율 특징들을 연속적으로 제거하는 것을 특징으로 하는, 상기 적절한 매칭 확인 단계, 및
    상기 코퍼스 내의 상기 스피치 파형 샘플들을 사용함으로써 상기 텍스트 세그먼트를 위한 연쇄 합성 스피치를 생성하는 단계로서, 상기 스피치 파형 샘플들은 매칭되지 않은 각 음절들에 대한 적절한 매칭과 연속 음절들 사이의 최상의 매칭으로부터 선택되는, 상기 생성 단계를 포함하는, 스피치 합성 방법.
  2. 제 1 항에 있어서, 상기 운율 특징들은 텍스트 문맥(text context), 병음(pinyin), 음조 문맥(tone context), 동시조음(co-articulation), 음절 위치(syllable position), 어구 위치(phrase position), 캐릭터 심볼(character symbol) 및 어구 길이(length of phrase)로 구성되는 그룹으로부터 선택된 특징들을 포함하는, 스피치 합성 방법.
  3. 제 1 항에 있어서, 상기 운율 특징들은 음조 문맥, 동시조음, 음절 위치, 어구 위치 및 캐릭터 심볼을 포함하는, 스피치 합성 방법.
  4. 제 1 항에 있어서, 상기 모든 다른 운율 특징들이 연속적으로 제거된 이후에 병음에만 기초한 기본 표음 매칭(basic phonetic match)을 수행하는 단계를 더 포함하는, 스피치 합성 방법.
  5. 제 1 항에 있어서, 상기 결정 단계는 수학식
    Figure 112007028812518-pct00008
    에 의해 다수의 최상의 매칭들이 발견될 때, 최적의 문맥 표음 혼성 매칭을 선택하는 단계를 포함하고,
    여기서, Wp = 상기 스피치 세그먼트의 피치(pitch)의 가중치;
    Wd = 상기 스피치 세그먼트의 지속 기간의 가중치;
    diff = 상기 최적의 문맥 표음 혼성 매칭을 선택하기 위한 미분값;
    pitch = 상기 스피치 세그먼트의 피치;
    BestPitch = 이상적 스피치 세그먼트의 피치;
    dur = 상기 스피치 세그먼트의 지속 기간;
    BestDur = 상기 이상적 스피치 세그먼트의 지속 기간인, 스피치 합성 방법.
  6. 제 5 항에 있어서, 상기 BsetPitch는 수학식
    BestPitch = pitchtone - nIndex x empiricalvalue
    을 사용하여 결정되고,
    여기서, pitchtone = 상기 발화 파형 코퍼스의 음조를 포함하는 평균 피치;
    nIndex = 운율 어구의 상기 스피치 세그먼트의 인덱스;
    empircalvalue = 상기 발화 파형 코퍼스에 기초한 경험값인, 스피치 합성 방법.
  7. 제 5 항에 있어서, 상기 BestDur은 수학식
    BestDur = durs x fs - nIndex x empiricalvalue
    을 사용하여 결정되고,
    여기서, durs = 음조가 없는 상기 스피치 세그먼트의 평균 지속 기간;
    nIndex = 운율 어구의 상기 스피치 세그먼트의 인덱스;
    fs = 운율 위치를 위한 계수; 및
    empircalvalue = 상기 발화 파형 코퍼스에 기초한 경험값인, 스피치 합성 방법.
  8. 제 1 항에 있어서, 상기 결정 단계는 수학식
    Figure 112007028812518-pct00009
    을 사용하여 다수의 적절한 매칭들이 발견될 때, 최적의 문맥 표음 혼성 매칭을 선택하는 단계를 포함하고,
    여기서, Wp = 상기 스피치 세그먼트의 피치의 가중치;
    Wd = 상기 스피치 세그먼트의 지속 기간의 가중치;
    diff = 상기 최적의 문맥 표음 혼성 매칭을 선택하기 위한 미분값;
    pitch = 상기 스피치 세그먼트의 피치;
    BestPitch = 이상적 스피치 세그먼트의 피치;
    dur = 상기 스피치 세그먼트의 지속 기간; 및
    BestDur = 상기 이상적 스피치 세그먼트의 지속 기간인, 스피치 합성 방법.
  9. 제 8 항에 있어서, 상기 최적의 문맥 표음 혼성 매칭은 최저 미분값(diff)을 갖는 매칭인 스피치 합성 방법.
  10. 제 8 항에 있어서, 상기 최적의 문맥 표음 혼성 매칭을 선택하기 위한 상기 미분값(diff)은 미리 설정된 임계값과 비교되는, 스피치 합성 방법.
  11. 제 8 항에 있어서, 상기 BsetPitch는 수학식
    BestPitch = pitchtone - nIndex x empiricalvalue
    을 사용하여 결정되고,
    여기서, pitchtone = 상기 발화 파형 코퍼스의 음조를 포함하는 평균 피치;
    nIndex = 운율 어구의 상기 스피치 세그먼트의 인덱스;
    empircalvalue = 상기 발화 파형 코퍼스에 기초한 경험값인, 스피치 합성 방법.
  12. 제 8 항에 있어서, 상기 BestDur은 수학식
    BestDur = durs x fs - nIndex x empiricalvalue
    을 사용하여 결정되고,
    여기서, durs = 음조가 없는 상기 스피치 세그먼트의 평균 지속 기간;
    nIndex = 운율 어구의 상기 스피치 세그먼트의 인덱스;
    fs = 운율 위치를 위한 계수; 및
    empircalvalue = 상기 발화 파형 코퍼스에 기초한 경험값인, 스피치 합성 방법.
KR1020067006170A 2003-09-29 2004-09-17 스피치 합성 방법 KR100769033B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN03132698.6 2003-09-29
CNB031326986A CN1260704C (zh) 2003-09-29 2003-09-29 语音合成方法

Publications (2)

Publication Number Publication Date
KR20060066121A KR20060066121A (ko) 2006-06-15
KR100769033B1 true KR100769033B1 (ko) 2007-10-22

Family

ID=34398359

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020067006170A KR100769033B1 (ko) 2003-09-29 2004-09-17 스피치 합성 방법

Country Status (5)

Country Link
EP (1) EP1668628A4 (ko)
KR (1) KR100769033B1 (ko)
CN (1) CN1260704C (ko)
MX (1) MXPA06003431A (ko)
WO (1) WO2005034082A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210109222A (ko) 2020-02-27 2021-09-06 주식회사 케이티 음성을 합성하는 장치, 방법 및 컴퓨터 프로그램

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
TWI421857B (zh) * 2009-12-29 2014-01-01 Ind Tech Res Inst 產生詞語確認臨界值的裝置、方法與語音辨識、詞語確認系統
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
KR20140008870A (ko) * 2012-07-12 2014-01-22 삼성전자주식회사 컨텐츠 정보 제공 방법 및 이를 적용한 방송 수신 장치
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
CN105989833B (zh) * 2015-02-28 2019-11-15 讯飞智元信息科技有限公司 多语种混语文本字音转换方法及系统
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
CN106157948B (zh) * 2015-04-22 2019-10-18 科大讯飞股份有限公司 一种基频建模方法及系统
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
CN105096934B (zh) * 2015-06-30 2019-02-12 百度在线网络技术(北京)有限公司 构建语音特征库的方法、语音合成方法、装置及设备
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
CN106534528A (zh) * 2016-11-04 2017-03-22 广东欧珀移动通信有限公司 一种文本信息的处理方法、装置及移动终端
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
CN107481713B (zh) * 2017-07-17 2020-06-02 清华大学 一种混合语言语音合成方法及装置
CN109948124B (zh) * 2019-03-15 2022-12-23 腾讯科技(深圳)有限公司 语音文件切分方法、装置及计算机设备
CN110942765B (zh) * 2019-11-11 2022-05-27 珠海格力电器股份有限公司 一种构建语料库的方法、设备、服务器和存储介质
CN111128116B (zh) * 2019-12-20 2021-07-23 珠海格力电器股份有限公司 一种语音处理方法、装置、计算设备及存储介质
US20210350788A1 (en) * 2020-05-06 2021-11-11 Samsung Electronics Co., Ltd. Electronic device for generating speech signal corresponding to at least one text and operating method of the electronic device
CN112530406A (zh) * 2020-11-30 2021-03-19 深圳市优必选科技股份有限公司 一种语音合成方法、语音合成装置及智能设备
CN113393829B (zh) * 2021-06-16 2023-08-29 哈尔滨工业大学(深圳) 一种融合韵律和个人信息的中文语音合成方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6449622A (en) * 1987-08-19 1989-02-27 Jsp Corp Resin foaming particle containing crosslinked polyolefin-based resin and manufacture thereof
KR19990033536A (ko) * 1997-10-24 1999-05-15 정선종 텍스트/음성변환기에서의 최적 합성단위열 선정 방법
KR20010020871A (ko) * 1999-05-21 2001-03-15 팔머 카알 알. 개선된 어구 저장, 사용, 변환, 전달 및 인식을 갖춘 음성제어된 디바이스를 위한 방법 및 장치
KR20030074473A (ko) * 2002-03-15 2003-09-19 소니 가부시끼 가이샤 스피치 합성 방법 및 장치, 프로그램, 기록 매체, 억제정보 생성 방법 및 장치, 및 로봇 장치
KR20030079460A (ko) * 2002-04-04 2003-10-10 삼성전자주식회사 텍스트/음성 변환 장치 및 방법
WO2003088208A1 (en) * 2002-04-02 2003-10-23 Canon Kabushiki Kaisha Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof
WO2003094150A1 (en) * 2002-05-01 2003-11-13 Seiko Epson Corporation A method of encoding text data to include enhanced speech data for use in a text to speech (tts) system, a method of decoding, a tts system and a mobile phone including said tts system
KR20060056403A (ko) * 2003-09-29 2006-05-24 모토로라 인코포레이티드 텍스트 문자열에서 자연 스피치 포즈 식별

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5970454A (en) * 1993-12-16 1999-10-19 British Telecommunications Public Limited Company Synthesizing speech by converting phonemes to digital waveforms
US5704007A (en) * 1994-03-11 1997-12-30 Apple Computer, Inc. Utilization of multiple voice sources in a speech synthesizer
US6134528A (en) * 1997-06-13 2000-10-17 Motorola, Inc. Method device and article of manufacture for neural-network based generation of postlexical pronunciations from lexical pronunciations

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6449622A (en) * 1987-08-19 1989-02-27 Jsp Corp Resin foaming particle containing crosslinked polyolefin-based resin and manufacture thereof
KR19990033536A (ko) * 1997-10-24 1999-05-15 정선종 텍스트/음성변환기에서의 최적 합성단위열 선정 방법
KR20010020871A (ko) * 1999-05-21 2001-03-15 팔머 카알 알. 개선된 어구 저장, 사용, 변환, 전달 및 인식을 갖춘 음성제어된 디바이스를 위한 방법 및 장치
KR20030074473A (ko) * 2002-03-15 2003-09-19 소니 가부시끼 가이샤 스피치 합성 방법 및 장치, 프로그램, 기록 매체, 억제정보 생성 방법 및 장치, 및 로봇 장치
WO2003088208A1 (en) * 2002-04-02 2003-10-23 Canon Kabushiki Kaisha Text structure for voice synthesis, voice synthesis method, voice synthesis apparatus, and computer program thereof
KR20030079460A (ko) * 2002-04-04 2003-10-10 삼성전자주식회사 텍스트/음성 변환 장치 및 방법
WO2003094150A1 (en) * 2002-05-01 2003-11-13 Seiko Epson Corporation A method of encoding text data to include enhanced speech data for use in a text to speech (tts) system, a method of decoding, a tts system and a mobile phone including said tts system
KR20060056403A (ko) * 2003-09-29 2006-05-24 모토로라 인코포레이티드 텍스트 문자열에서 자연 스피치 포즈 식별

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
10-2006-0056403
특0149622
특2001-0020871
특2003-0074473
특2003-0079460

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210109222A (ko) 2020-02-27 2021-09-06 주식회사 케이티 음성을 합성하는 장치, 방법 및 컴퓨터 프로그램

Also Published As

Publication number Publication date
CN1260704C (zh) 2006-06-21
MXPA06003431A (es) 2006-06-20
EP1668628A4 (en) 2007-01-10
EP1668628A1 (en) 2006-06-14
WO2005034082A1 (en) 2005-04-14
KR20060066121A (ko) 2006-06-15
CN1604182A (zh) 2005-04-06

Similar Documents

Publication Publication Date Title
KR100769033B1 (ko) 스피치 합성 방법
US6029132A (en) Method for letter-to-sound in text-to-speech synthesis
US5949961A (en) Word syllabification in speech synthesis system
US6823309B1 (en) Speech synthesizing system and method for modifying prosody based on match to database
KR900009170B1 (ko) 규칙합성형 음성합성시스템
US6505158B1 (en) Synthesis-based pre-selection of suitable units for concatenative speech
JP3481497B2 (ja) 綴り言葉に対する複数発音を生成し評価する判断ツリーを利用する方法及び装置
EP1168299A2 (en) Method and system for preselection of suitable units for concatenative speech
EP1221693A2 (en) Prosody template matching for text-to-speech systems
WO1996023298A2 (en) System amd method for generating and using context dependent sub-syllable models to recognize a tonal language
US6477495B1 (en) Speech synthesis system and prosodic control method in the speech synthesis system
JP2008134475A (ja) 入力された音声のアクセントを認識する技術
US20080147405A1 (en) Chinese prosodic words forming method and apparatus
WO2004012183A2 (en) Concatenative text-to-speech conversion
JP2005257954A (ja) 音声検索装置、音声検索方法および音声検索プログラム
JP3576066B2 (ja) 音声合成システム、および音声合成方法
JP6998017B2 (ja) 音声合成用データ生成装置、音声合成用データ生成方法及び音声合成システム
Akinwonmi Development of a prosodic read speech syllabic corpus of the Yoruba language
JP3366253B2 (ja) 音声合成装置
Hendessi et al. A speech synthesizer for Persian text using a neural network with a smooth ergodic HMM
JP3758241B2 (ja) 音声情報検索装置
Kaur et al. BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE
JP2005534968A (ja) 漢字語の読みの決定
JP2000172286A (ja) 中国語音声合成のための同時調音処理装置
KR100932643B1 (ko) 한국어 tts 시스템을 위한 형태소, 구문 분석 없는음소열-발음열 변환방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Publication of correction
FPAY Annual fee payment

Payment date: 20120927

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20130927

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20141007

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20151006

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20161011

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20181010

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20191002

Year of fee payment: 13