KR20030085075A - 음성-음성 변환 생성 시스템 및 방법 - Google Patents
음성-음성 변환 생성 시스템 및 방법 Download PDFInfo
- Publication number
- KR20030085075A KR20030085075A KR10-2003-7012731A KR20037012731A KR20030085075A KR 20030085075 A KR20030085075 A KR 20030085075A KR 20037012731 A KR20037012731 A KR 20037012731A KR 20030085075 A KR20030085075 A KR 20030085075A
- Authority
- KR
- South Korea
- Prior art keywords
- speech
- expressive
- language
- parameter
- text
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 54
- 238000013507 mapping Methods 0.000 claims abstract description 37
- 238000013519 translation Methods 0.000 claims abstract description 22
- 238000001514 detection method Methods 0.000 claims abstract description 8
- 238000006243 chemical reaction Methods 0.000 claims description 39
- 230000014509 gene expression Effects 0.000 claims description 13
- 230000015572 biosynthetic process Effects 0.000 claims description 5
- 238000003786 synthesis reaction Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 2
- 239000000284 extract Substances 0.000 claims 6
- 230000009466 transformation Effects 0.000 claims 2
- 230000002194 synthesizing effect Effects 0.000 claims 1
- 239000011295 pitch Substances 0.000 description 26
- 238000010586 diagram Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 206010003402 Arthropod sting Diseases 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Abstract
본 발명은 표현적(expressive) 음성-음성 변환 생성 시스템 및 방법을 나타낸다. 본 시시스템 및 방법은 표준 TTS 시스템을 구동하기 위해 본래의 음성신호에서 추출된 표현적 파라미터를 이용함으로써 표현적 음성 출력을 생성할 수 있다. 시스템은 음성 인식 수단, 기계 번역 수단, 언어 A의 음성으로부터 표현적 파라미터를 추출하기 위한 표현적 파라미터 검출 수단, 및 표현적 파라미터 검출 수단에 의해 추출된 표현적 파라미터를 언어 A에서 언어 B로 매핑하고, 표현적 음성을 합성하기 위해 매핑 결과로 텍스트-음성 변환 생성 수단을 구동하는 표현적 파라미터 매핑 수단을 포함한다. 시스템 및 방법은 번역 시스템 또는 TTS시스템의 음성 출력에 대한 품질을 개선할 수 있다.
Description
기계 번역은 컴퓨터를 이용함으로써 어떤 언어의 텍스트 또는 음성을 다른 언어의 텍스트 또는 음성으로 변환하기 위한 기술이다. 바꾸어 말하면, 기계 번역은 언어형태 및 구조 분석 이론에 근거하여 사전과 구문을 수학적인 방법으로 생성하기 위해 컴퓨터의 디지털 처리능력 및 거대한 메모리 용량을 이용함으로써 인간의 노력(human labor)없이 하나의 언어를 다른 하나의 언어로 자동적으로 번역하는 것이다.
일반적으로 말하면, 현재 기계 번역 시스템은 어떤 언어의 텍스트를 다른 언어의 텍스트로 번역하는 텍스트-기반형 번역 시스템이다. 그러나, 사회가 발전함에 따라, 음성 기반형 번역 시스템을 필요로 한다. 현재의 음성 인식 기술, 텍스트-기반형 번역 기술 및 텍스트-음성 변환(text-to-speech:TTS)기술을 이용함으로써, 제1언어 음성은 음성 인식 기술로 인식되어 그 언어의 텍스트로 변환될 수 있다. 그 다음, 제1언어 텍스트는 제2 언어의 텍스트로 번역되며, 그에 근거하여TTS 기술을 이용함으로써 제2 언어의 음성이 생성된다.
그러나, 기존의 TTS시스템은 일반적으로 의미없는 단순한 음성을 제공한다. 현재 이용할 수 있는 전형적인 TTS시스템의 경우에, 우선 (음절로 된) 모든 단어의 표준 발음이 기록되어 분석되며, 그 다음 단어 수준에서의 표준 "표현"에 대한 적절한 파라미터가 사전에 저장된다. 합성된 단어는 사전에 정의된 표준 제어 파라미터로써 성분 음절(component syllables)로부터 생성되며, 구성성분을 합치기(stich) 위해 통상의 평활(smoothing) 기술을 이용한다. 이러한 음성 생성은 문장의 의미 및 화자의 감성에 근거한 표현들로 가득찬 음성을 생성할 수 없다.
본 발명은 일반적으로 기계 번역 분야에 관한 것이며, 보다 구체적으로는 표현적(expressive) 음성-음성 변환 생성 시스템 및 방법에 관한 것이다.
도 1은 본 발명에 따른 표현적 음성-음성 변환 시스템의 블럭도이다.
도 2는 본 발명의 실시예에 따른 도 1내의 표현적 파라미터 검출 수단에 대한 블럭도이다.
도 3은 본 발명의 다른 실시예에 따른 도 1에서의 표현적 파라미터 매핑 수단을 도시하는 블럭도이다.
도 4는 본 발명의 다른 실시예에 따른 표현적 음성-음성 변환 시스템을 도시하는 블럭도이다.
도 5는 본 발명의 실시예에 따른 표현적 음성-음성 변환 번역의 진행과정을 도시하는 흐름도이다.
도 6은 본 발명의 실시예에 따른 표현적 파라미터를 검출하는 진행과정을 도시하는 흐름도이다.
도 7은 본 발명의 실시예에 따른 표현적 파라미터를 검출하고 TTS파라미터를 조정하는 매핑 진행과정을 도시하는 흐름도이다.
도 8은 본 발명의 다른 실시예에 따른 표현적 음성-음성 변환 번역에 대한 진행과정을 도시하는 흐름도이다.
그러므로, 본 발명의 실시예는 표현적 음성-음성 변환 시스템 및 방법을 제공한다.
본 발명의 실시예에 따라, 표현적 음성-음성 변환 시스템 및 방법은 표현적 음성을 생성하기 위하여 본래의 음성 신호로부터 얻어진 표현적 파라미터를 이용하여 표준 TTS시스템을 구동한다(drive).
본 발명의 제1측면에 따르면, 청구항 제1항에 개시된 바와 같은 음성-음성 변환 생성 시스템이 제공된다.
본 발명의 제2측면에 따르면, 청구항 제6항에 개시된 바와 같은 음성-음성 변환 생성 시스템이 제공된다.
본 발명의 제3측면에 따르면, 청구항 제10항에 개시된 바와 같은 음성-음성변환 생성 방법이 제공된다.
본 발명의 제4측면에 따르면, 청구항 제16항에 개시된 바와 같은 음성-음성 변환 생성 방법이 제공된다.
본 실시예의 표현적 음성-음성 변환 시스템 및 방법은 번역 시스템 또는 TTS시스템의 음성 품질을 개선할 수 있다.
본 발명의 전술한 목적 및 다른 목적은 첨부하는 도면과 함께 이하 상세한 설명으로 더 구체적으로 설명될 수 있다. 상세한 설명 및 실시예는 본 발명의 실시예일 뿐이다.
도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 표현적 음성-음성 변환 시스템은 음성 인식 수단(speech recognition means:101), 기계 번역 수단(machine translation means:102), 텍스트-음성 변환 생성 수단(text-speech generation means:103), 표현적 파라미터 검출 수단(expressive parameter detection means: 104) 및 표현적 파라미터 매핑 수단(expressive parameter maping means:104)을 포함한다. 음성 인식 수단(101)은 언어 A의 음성을 인식하여 이에 대응하는 언어 A의 텍스트를 생성하기 위해 이용되며, 기계 번역 수단(102)은 언어 A에서 언어 B로 텍스트를 번역하기 위해 이용되고, 텍스트-음성 변환 생성 수단(103)은 언어 B의 텍스트에 따라 언어 B의 음성을 생성하기 위해 이용되며, 표현적 파라미터 검출 수단(104)은 언어 A의 음성으로부터 표현적 파라미터를 추출하는데 이용되고, 표현적 파라미터 매핑 수단(105)은 표현적 파라미터 검출 수단에 의해 추출된 표현적 파라미터를 언어 A에서 언어 B로 매핑하는데 이용되고, 표현적 음성을 합성하기 위해 매핑결과에 의해 텍스트-음성 변환 생성 수단을 구동한다.
당업자에 의해 공지된 바와 같이, 음성 인식 수단, 기계 번역 수단 및 TTS수단을 달성하기 위한 종래 기술은 많이 있다. 그래서 도 2 및 도 3에 본 발명의 실시예에 따른 표현적 파라미터 검출 수단 및 표현적 파라미터 매핑 수단만을 개시한다.
우선, 음성 표현을 반영하는 핵심 파라미터(key parameter)가 소개된다.
음성에 대한 핵심 파라미터는 표현을 제어하며, 상이한 수준(level)들로 정의될 수 있다.
1. 단어 수준(word lwvel)에서, 해결 표현 파라미터는 속도(지속시간), 볼륨(에너지 레벨) 및 피치(pitch)(범위 및 톤을 포함함)이다. 일반적으로 단어는 몇몇의 문자/음절(중국어에서 대부분 단어는 두개이상의 문자/음절을 구비함)로 이루어지기 때문에, 이러한 표현 파라미터는 또한 벡터 또는 시간 순서(time sequence)의 형태로 음절 수준으로 정의되어야 한다. 예를 들면, 사람이 화가나서 말하는 경우, 단어 볼륨은 아주 높으며, 단어 피치는 기준 조건보다 더 높어지고 그것의 포락선(envelope)은 완만하지 않으며, 심지어 많은 피치 표시점(mark point)은 없어진다. 그리고 그와 동시에 지속시간은 더 짧아지게 된다. 다른 예는 우리가 표준 방법로 문장을 말하는 경우를 나타내며, 아마도 사람들은 문장내의 일부 단어들의 피치, 에너지 및 지속시간을 변화시키며, 이들 단어를 강조한다.
2. 문장수준에서, 사람들은 강세에 중점을 둔다. 예를 들면, 감탄문(exclamatory sentence )의 포락선은 서술문(declarative statement)의 포락선과 다르다.
이하는 본 발명에 따른 표현적 파라미터 검출 수단과 표현적 파라미터 매핑수단이 어떻게 동작하는지를 도 2 및 도 3에 개시한다. 즉, 어떻게 표현적 파라미터를 추출하는 지와, 표현적 음성 합성을 위한 텍스트-음성 변환 생성 수단을 구동하기 위해 상기 추출된 표현적 파라미터를 어떻게 이용하는 지에 관한 것이다.
도 2에 도시된 바와 같이, 본 발명의 표현적 파라미터 검출 수단은 이하 구성요소들을 포함한다.
파트 A(part A) : 화자의 피치, 지속시간 및 볼륨을 분석한다. 파트 A에서, 음성과 단어(또는 문자) 사이의 정렬(alignment) 결과를 얻기 위해 음성 인식 결과를 이용한다. 그리고, 그것을 다음 구조로 기록한다.
Sentence Content
{
Word Number;
Word Content
{Text;
Soundslike;
Word position;
Word property;
Speech start time;
Speech end time;
*Speech wave;
Speech parameters Content
{ *absolute parameter;
*relative parameter;
}
}
}
그 다음 이하 파라미터들을 얻기 위해 단시간 분석방법(short time anaysis method)을 이용한다.
1. 단시간 윈도우(Short Time Window) 각각에 대한 단시간 에너지(Short time energy)
2. 단어의 피치 윤곽(pitch contour)을 검출함
3. 단어의 지속시간
이 파라미터들에 따라, 다음의 파라미터들을 얻기위한 단계를 진행한다.
1. 단어내의 단시간 에너지를 평균함.
2. 단어내의 상위 N개의 시간에너지
3. 단어내의 피치 범위, 최대 피치, 최소 피치, 및 피치값
4. 단어의 지속시간
파트 B : 음성인식의 결과 텍스트에 따라, 표준 언어 A TTS 시스템을 이용하여 표현없는 언어 A의 음성을 생성한 후에, 표현적 TTS의 파라미터를 분석한다. 파라미터는 표현적 음성 분석에 대한 레프런스(reference)이다.
파트 C : 문장내의 이들 단어들에 대한 파라미터 변화를 분석하여 의미있는 표준음성을 형성한다. 그 이유는 다른 사람은 다른 속도로 다른 볼륨 및 피치로 말을 하기 때문이다. 심지어 같은 사람에 대해서도, 그가 다른 시간에 동일한 문장을 말하는 경우, 파라미터들은 동일하지 않다. 그래서, 레프런스 음성에 따라 문장내의 단어의 역할을 분석하기 위하여, 상대적(relative) 파라미터들을 이용한다.
절대적 파라미터로부터 상대적 파라미터를 얻기 위하여 정규화된 파라미터 방법을 이용한다. 상대적 파라미터들은 다음과 같다.
1. 단어내의 상대적 평균 단시간 에너지
2. 단어내의 상대적 상부 N개의 단시간 에너지
3. 단어내의 상대적 피치 범위, 상대적 최대 피치, 상대적 최소 피치
4. 단어의 상대적 지속기간
파트 D : 표준 음성 파라미터로부터 발생한 레프런스에 따라 단어 수준 및 문장수준에서 표현적 음성 파라미터를 분석한다.
1. 단어수준에서, 단어의 어느 파라미터가 격렬하게 변화하는지를 보기 위해 표현적 음성의 상대적 파라미터들과 레프런스 음성의 그것들을 비교한다.
2. 문장수준에서, 단어의 변동 레벨 및 단어 특성에 따라 단어를 분류하고, 문장내에서 표현적 핵심 단어(kwy word)를 얻는다.
파트 E : 파라미터 비교결과 및 어떤 표현이; 파라미터의 변화를 일으킬 수 있는 지에 대한 지식에 따라, 문장의 표현적 정보를 얻어서, 즉, 표현적 파라미터를 검출하여, 이하 구조에 따라 파라미터를 기록한다.
Expressive information
{
Sentence expressive type;
Words content
{Text;
Expressive type;
Expressive level;
*Expressive parameters;
};
}
예를 들면, 우리가 중국어로 화가나서 "i·¡"라고 말할 때, 많은 피치들이 사라지며, 절대 볼륨은 레프런스보다 더 높으며 동시에 상대적 볼륨은 매우 날카로우며, 지속시간은 레프런스보다 더 짧다. 그러므로, 문장수준에서의 표현은 화난다고 결론지을 수 있다. 표현적 핵심단어는 "is{"이다.
이하는 도 3a 및 도 3b를 참조하여, 본 발명의 실시예에 따른 표현적 파라미터 매핑수단이 어떻게 구조화되는 지를 설명한다. 표현적 파라미터 매핑수단은 다음을 포함한다.
파트 A : 기계 번역 결과에 따라 언어 A에서 언어 B로 표현적 파라미터의 구조를 매핑한다. 핵심 방법은 언어 A의 단어에 언어 B내의 어떠한 단어가 대응하는지를 찾는 것이며, 이는 표현을 나타내는데 중요하다.
이하는 매핑결과이다.
Sentence content for language B
{
Sentence Expressive type;
Word content of language B
{ Text;
Soundslike;
Position in sentence;
Word expressive information in language A;
Word expressive information in language B;
}
}
Word expressive of lanuage A
{Text;
Expressive type;
Expressive level;
*Expressive parameters;
}
Word expressive of language B
{
Expressive type;
Expressive level;
*Expressive parameters;
}
파트 B : 표현적 정보의 매핑결과에 근거하여, 언어용 TTS를 구동할 수 있는 조정 파라미터(adjustment parameter)가 생성된다. 이에 의해, 표현적 파라미터에 따라 어떤한 단어가 어떠한 파라미터 집합을 이용하는 지를 제공하는 언어 B의 표현적 파라미터 테이블을 이용한다. 테이블내의 파라미터는 상대적 조정파라미터이다.
프로세스는 도 3b에 도시된다. 표현적 파라미터는 두 수준의 테이블(단어 수준 변환 테이블 및 문장 수준 변환 테이블)을 변환함으로써 변환되어, 텍스트-음성 변환 생성수단을 조정하기 위한 파라미터로 된다.
두 수준의 변환 테이블들은 다음과 같다.
1. 단어 수준 변환 테이블은 표현적 파라미터를 TTS를 조정하는 파라미터로 변환하기 위한 것이다.
이하는 테이블의 구조이다.
Structure of Word TTS adjusting patameters table
{
Expressive_Type;
Expressive_Para;
TTS adjusting parameters;
}
Structure of TTS adjusting parameters
{
float Fsen_P_rate;
float Fsen_am_rate;
float Fph_t_rate;
Struct Equation Expressive_equat;(for changing the curve characteristic of pitch contour)
};
2. 문장 수준 변환 테이블은 단어 수준 조정 TTS에서 파라미터를 조정하기 위해 문장의 감정적 유형에 따라 문장 수준의 운율 파라미터(prosody parameter)를제공하기 위한 것이다.
Structure of Word TTS adjusting parameters table
{
Emotion_Type;
Words_Position;
Words_property;
TTS adjusting parameters;
};
Structure of TTS adjusting parameters
{
float Fsen_P_rate;
float Fsen_am_rate;
float Fph_t_rate;
struct Equation Expressive_equat;(for changing the curve characteristic of pitch contour)
본 발명에 따른 음성-음성 변환 시스템은 상기 실시예와 관련하여 설명되었다. 당업자에 의해 공지된 바와 같이, 또한 본 발명은 동일한 언어의 다른 방언(dialect)으로 번역하는데 이용될 수 있다. 도 4에 도시된 바와 같이, 시스템은 도 1내의 시스템과 유사하다. 유일한 차이는 동일한 언어의 다른 방언들 간의번역은 기계 번역 수단을 필요로 하지 않는다는 것이다. 구체적으로, 음성 인식 수단(101)은 언어 A의 음성을 인식하기 위해 이용되고, 대응하는 언어 A 텍스트를 생성하고, 텍스트-음성 변환 생성 수단(103)은 언어 B의 텍스트에 따라 언어 B의 음성을 생성하기 위해 이용되며, 표현적 파라미터 검출수단(104)은 방언 A의 음성으로부터 표현적 파라미터를 추출하기 위해 이용되며; 표현적 파라미터 매핑수단(105)은 표현적 파라미터 검출 수단(104)에 의해 추출된 표현적 파라미터를 방언 A에서 방언 B로 매핑하는데 이용되며, 표현적 음성을 합성하기 위해 상기 매핑결과를 가지고 텍스트-음성 변환 생성 수단을 구동한다.
본 발명에 따른 표현적 음성-음성 변환 시스템은 도 1 내지 도 4를 참조하여 설명된다. 시스템은 표준 TTS시스템을 구동하기 위해 본래의 음성 신호로부터 추출된 표현적 파라미터를 이용함으로써 표현적 음성 출력을 생성한다.
또한 본 발명은 표현적 음성-음성 변환 방법을 제공한다. 이하는 본 발명에 따른 음성-음성 번역 프로세스의 실시예를 도 5 내지 도 8을 참조하여 설명한다.
도 5에 도시된 바와 같이, 본 발명의 실시예에 따른 표현적 음성-음성 변환 방법은 언어 A의 음성을 인식하여 언어 A에 대응하는 텍스트를 생성하는 단계(501)와, 텍스트를 언어 A에서 언어 B로 번역하는 단계(502)와, 언어 B의 텍스트에 따라 언어 B의 음성을 생성하는 단계(503), 언어 A의 음성으로부터 표현적 파라미터를 검출하는 단계(504), 및 언어 A에서 언어 B로 검출단계들에 의해 추출된 표현적 파라미터를 매핑하고, 표현적 음성을 합성하기 위해 매핑 결과에 의해 텍스트-음성 변환 생성 프로세스를 구동하는 단계(505)를 포함한다.
이하는 본 발명의 실시예에 따라 표현적 검출 프로세스 및 표현적 매핑 프로세스를 도 6 및 도 7을 참조하여 설명한다. 그것은 표현적 파라미터를 어떻게 추출하는지 그리고 추출된 표현적 파라미터를 표현적 음성을 합성하기 위해 기존의 TTS프로세스를 구동하기 위해 이용한다. 도 6에 도시된 바와 같이, 표현적 검출수단은 다음 단계들을 포함한다.
단계 (601) : 화자의 피치, 지속시간 및 볼륨을 분석한다. 단계(601)에서 음성과 단어(또는 문자)간의 정렬 결과를 얻기 위해 음성 인식결과를 이용한다(exploit). 그 다음, 이하 파라미터들를 얻기 위해 단시간 분석 방법을 이용한다.
1. 단시간 윈도우 각각에 대한 단시간 에너지
2. 단어의 피치 윤곽을 검출함.
3. 단어의 지속시간
이 파라미터들에 따라, 다음의 파라미터들을 얻기 위한 단계를 진행한다.
1. 단어내의 상대적 평균 단시간 에너지
2. 단어내의 상대적 상부 N개의 단시간 에너지
3. 단어내의 상대적 피치 범위, 상대적 최대 피치, 상대적 최소 피치
4. 단어의 상대적 지속시간
단계 (602) : 음성 인식 결과 텍스트에 따라, 표준언어 A TTS시스템을 이용하여 표현없는 언어 A의 음성을 생성한다. 그 다음 표현적 TTS의 파라미터를 분석한다. 파라미터는 표현적 언어의 분석에 대한 레프런스이다.
단계 (603) : 문장내의 이 단어들에 대한 파라미터의 변화를 분석하여 의미있는 표준 음성을 형성한다. 그 이유는 다른 사람은 다른 볼륨, 다른 피치, 다른 속도로 말을 하기 때문이다. 심지어 같은 사람에 대해서도, 그가 다른 시간에 동일한 문장을 말하는 경우, 파라미터들은 동일하지 않다. 그래서, 레프런스 음성에 따라 문장내의 단어의 역할을 분석하기 위하여, 상대적 파라미터들을 이용한다.
절대적 파라미터로부터 상대적 파라미터를 얻기 위하여 정규화된 파라미터 방법을 이용한다. 상대적 파라미터들은 다음과 같다.
1. 단어내의 상대적 평균 단시간 에너지
2. 단어내의 상대적 상부 N개의 단시간 에너지
3. 단어내의 상대적 피치 범위, 상대적 최대 피치, 상대적 최소 피치
4. 단어의 상대적 지속시간
단계 (604) : 표준 음성 파라미터로부터 발생한 레프런스에 따라 단어 수준 및 문장 수준에서 표현적 음성 파라미터를 분석한다.
1. 단어수준에서, 단어의 어느 파라미터가 강제적으로 변화하는지를 인지하기 위해 표현적 음성의 상대적 파라미터들과 레프런스 음성의 그것들을 비교한다.
2. 문장수준에서, 단어의 변동 레벨 및 단어 특성에 따라 단어를 분류하고, 문장내에서 표현적 핵심단어를 얻는다.
단계 (605) : 파라미터 비교결과 및 어떤 표현이 파라미터의 변화를 일으키는 지에 대한 지식에 따라, 문장 또는 다른 단어내에서 표현적 정보를 얻어서, 표현적 파라미터를 검출한다.
다음, 도 7과 관련한 본 발명의 실시예에 따라 표현적 매핑 프로세스를 설명한다. 프로세스는 다음 단게를 포함한다.
단계 (701) : 기계 번역 결과에 따라 언어 A에서 언어 B로 표현적 파라미터의 구조를 매핑한다. 핵심방법은 표현 전환을 위해 중요한 언어 A의 단어에 단어 B내의 어떠한 단어가 대응하는 지를 찾는 것이다.
단계 (702)는 표현적 정보의 매핑결과에 따라, 언어 B TTS를 구동할 수 있는 조정 파라미터를 생성한다. 이에 의해, 단어 또는 음절 합성 파라미터가 제공됨에 따라, 언어 B의 표현적 파라미터를 이용한다.
본 발명에 따른 음성-음성 변환 방법은 실시예와 관련되어 설명되었다. 당업자들에 의해 공지된 바와 같이, 본 발명은 또한 동일한 언어의 다른 방언을 번역하는데 이용될 수 있다. 도 8에 도시된 바와 같이, 프로세스는 도 5내의 프로세스와 유사하다. 유일한 차이는 동일한 언어에 대한 다른 상이한 방언들간의 번역은텍스트 번역 프로세스를 필요로 하지 않는다는 것이다. 구체적으로, 프로세스는 방언 A의 음성을 인식하여, 대응하는 텍스트를 생성하는 단계(801)와, 언어 B의 텍스트에 따라 언어 B의 음성을 생성하는 단계(802)와, 방언 A의 음성에서 표현적 파라미터를 추출하는 단계(803), 및 방언 A에서 방언 B로 추출단계에 의해 추출된 표현적 파라미터를 매핑하고, 표현적 음성을 합성하기 위해 텍스트-음성 변환 생성 프로세스에 대한 매핑 결과를 적용하는 단계(804)를 포함한다.
바람직한 실시예에 따른 표현적 음성-음성 변환 시스템 및 방법은 도면과 관련하여 설명되었다. 당업자들은 본발명의 정신 및 범주를 벗어남이 없는 대안적인 실시예를 고안할 수 있다. 본 발명은 모든 변경 및 대안적인 실시예를 포함한다. 본 발명의 범주는 첨부한 청구범위에 의해 제한될 수 있다.
Claims (20)
- 음성-음성 변환 생성 시스템에 있어서,언어 A의 음성을 인식하고 이에 대응하는 상기 언어 A의 텍스트를 생성하기 위한 음성 인식 수단과,상기 언어 A의 텍스트를 언어 B의 텍스트로 번역하기 위한 기계 번역 수단과,상기 언어 B의 텍스트에 따라 언어 B의 음성을 생성하기 위한 텍스트-음성 변환 생성 수단을 포함하며, 상기 음성-음성 변환 시스템은상기 언어 A의 음성으로부터 표현적(expressive) 파라미터를 추출하기 위한 표현적 파라미터 검출 수단과,상기 표현적 파라미터 검출 수단에 의해 추출된 표현적 파라미터를 상기 언어 A에서 상기 언어 B로 매핑하고, 표현적 음성 합성을 위해 상기 매핑 결과에 의해 텍스트-음성 변환 생성 수단을 구동시키기 위한 표현적 파라미터 매핑수단을 더 포함하는 것을 특징으로 하는 음성-음성 변환 생성시스템.
- 제1항에 있어서, 상기 표현적 파라미터 검출 수단은 여러 수준에서 표현적 파라미터를 추출하는 것을 특징으로 하는 음성-음성 변환 생성 시스템.
- 제2항에 있어서, 상기 표현적 파라미터 검출수단은 단어 수준에서 상기 표현적 파라미터를 추출하는 것을 특징으로 하는 음성-음성 변환 생성 시스템.
- 제2항에 있어서, 상기 표현적 파라미터 검출수단은 문장 수준에서 상기 표현적 파라미터를 추출하는 것을 특징으로 하는 음성-음성 변환 생성 시스템.
- 제1항 내지 제4항 중 어느 한항에 있어서, 상기 표현적 파라미터 매핑 수단은 표현적 파라미터를 언어 A에서 언어 B로 매핑한 다음에, 상기 언어 B의 표현적 파라미터를 단어 수준 변환 및 문장 수준 변환에 의해 텍스트-음성 변환 생성 수단을 조정하기 위한 파라미터로 음성-음성 변환 생성 시스템.
- 음성-음성 변환 생성 시스템에 있어서,방언 A의 음성을 인식하고 이에 대응하는 텍스트를 생성하기 위한 음성 인식 수단과,상기 텍스트에 따라 또 다른 방언 B의 음성을 생성하기 위한 텍스트-음성 변환 생성 수단을 포함하며, 상기 음성-음성 변환 생성 시스템은상기 방언 A의 음성으로부터 표현적 파라미터를 추출하기 위한 표현적 파라미터 검출수단, 및상기 표현적 파라미터 검출 수단에 의해 추출된 상기 표현적 파라미터를 상기 방언 A에서 상기 방언 B로 매핑하고, 표현적 음성의 합성을 위해 상기 매핑결과에 의해 상기 텍스트-음성 변환 생성 수단을 구동시키기 위한 표현적 파라미터 매핑수단을 더 포함하는 것을 특징으로 하는 음성-음성 변환 생성 시스템.
- 제6항에 있어서, 상기 표현적 파라미터 검출수단은 여러 수준에서 상기 표현적 파라미터를 추출하는 것을 특징으로 하는 음성-음성 변환 생성 시스템.
- 제7항에 있어서, 상기 표현적 파라미터 검출수단은 단어 수준에서 상기 표현적 파라미터를 추출하는 것을 특징으로 하는 음성-음성 변환 생성 시스템.
- 제7항에 있어서, 상기 표현적 파라미터 검출수단은 문장수준에서 상기 표현적 파라미터를 추출하는 것을 특징으로 하는 음성-음성 변환 생성 시스템.
- 제6항 내지 제9항 중 어느 한항에 있어서, 상기 표현적 매핑 수단은 상기 표현적 파라미터를 상기 방언 A에서 상기 방언 B로 매핑한 다음, 상기 방언 B의 표현적 파라미터를 상기 단어 수준 변환 및 상기 문장 수준 변환에 의해 상기 텍스트-음성 변환 생성 수단을 조정하기 위한 파라미터로 변환하는 것을 특징으로 하는 음성-음성 변환 생성 시스템.
- 음성-음성 변환 생성 방법에 있어서,언어 A의 음성을 인식하여 이에 대응하는 상기 언어 A의 텍스트를 생성하는 단계와,상기 언어 A에서 상기 언어 B로 텍스트를 번역하는 단계와,상기 언어 B의 텍스트에 따라 상기 언어 B의 음성을 생성하는 단계를 포함하고, 상기 표현적 음성-음성 변환 방법은,상기 언어 A의 음성으로부터 상기 표현적 파라미터를 추출하는 단계와,상기 검출단계에 의해 추출된 표현적 파라미터를 매핑하고, 상기 언어 A에서 상기 언어 B로 표현적 언어의 합성을 위해 상기 매핑결과에 의해 텍스트-음성 변환 생성 공정을 구동하는 단계를 더 포함하는 것을 특징으로 하는 음성-음성 변환 생성 방법.
- 제11항에 있어서, 상기 표현적 파라미터 추출단계는 여러 수준에서 수행되는 것을 특징으로 하는 음성-음성 변환 생성 방법.
- 제12항에 있어서, 상기 다른 수준은 단어 수준을 포함하는 것을 특징으로 하는 음성-음성 변환 생성 방법.
- 제12항에 있어서, 상기 다른 수준은 문장 수준을 포함하는 것을 특징으로 하는 음성-음성 변환 생성 방법.
- 제11항 내지 제14항 중 어느 한항에 있어서, 상기 표현적 파라미터를 상기 언어 A에서 상기 언어 B로 매핑하는 단계는 상기 언어 B의 표현적 파라미터를 상기 단어 수준 변환과 상기 문장 수준 변환에 의해 상기 텍스트-음성 변환 생성 수단을 조정하기 위한 파라미터로 변환하는 단계를 더 포함하는 것을 특징으로 하는 음성-음성 변환 생성 방법.
- 음성-음성 변환 생성 방법에 있어서,방언 A의 음성을 인식하고 이에 대응하는 텍스트를 생성하는 단계와,상기 텍스트에 따라 또 다른 방언 B의 음성을 생성하는 단계를 포함하고, 상기 음성-음성 변환 생성 방법은,상기 방언 A의 음성으로부터 표현적 파라미터를 추출하는 단계,및상기 추출단계에 의해 추출된 상기 표현적 파라미터를 상기 방언 A에서 상기 방언 B로 매핑하고, 표현적 음성 합성을 위해 상기 매핑결과에 의해 상기 텍스트-음성 변환 생성 프로세스를 구동시키는 단계를 더 포함하는 것을 특징으로 하는 음성-음성 변환 생성 방법.
- 제16항에 있어서, 상기 표현적 파라미터를 추출하는 단계는 여러 수준에서 수행되는 것을 특징으로 하는 음성-음성 변환 생성 방법.
- 제17항에 있어서, 상기 다른 수준은 단어 수준을 포함하는 것을 특징으로 하는 음성-음성 변환 생성 방법.
- 제17항에 있어서, 상기 다른 수준은 문장 수준을 포함하는 것을 특징으로 하는 음성-음성 변환 생성방법.
- 제16항 내지 제19항에 있어서, 상기 표현적 파라미터를 상기 방언 A에서 상기 방언 B로 매핑하는 단계는, 상기 방언 B의 표현적 파라미터를 상기 단어 수준 변환 및 상기 문장 수준변환에 의해 상기 텍스트-음성 변환 생성 수단을 조정하기 위한 파라미터로 변환하는 단계를 더 포함하는 것을 특징으로 하는 음성-음성 변환 생성방법.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN01116524.3 | 2001-04-11 | ||
CNB011165243A CN1159702C (zh) | 2001-04-11 | 2001-04-11 | 具有情感的语音-语音翻译系统和方法 |
PCT/GB2002/001277 WO2002084643A1 (en) | 2001-04-11 | 2002-03-15 | Speech-to-speech generation system and method |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20030085075A true KR20030085075A (ko) | 2003-11-01 |
Family
ID=4662524
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2003-7012731A KR20030085075A (ko) | 2001-04-11 | 2002-03-15 | 음성-음성 변환 생성 시스템 및 방법 |
Country Status (8)
Country | Link |
---|---|
US (2) | US7461001B2 (ko) |
EP (1) | EP1377964B1 (ko) |
JP (1) | JP4536323B2 (ko) |
KR (1) | KR20030085075A (ko) |
CN (1) | CN1159702C (ko) |
AT (1) | ATE345561T1 (ko) |
DE (1) | DE60216069T2 (ko) |
WO (1) | WO2002084643A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101101233B1 (ko) * | 2010-07-07 | 2012-01-05 | 선린전자 주식회사 | 교통카드 기능을 구비한 휴대폰 충전용 젠더 |
Families Citing this family (63)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7805307B2 (en) | 2003-09-30 | 2010-09-28 | Sharp Laboratories Of America, Inc. | Text to speech conversion system |
KR100953902B1 (ko) | 2003-12-12 | 2010-04-22 | 닛본 덴끼 가부시끼가이샤 | 정보 처리 시스템, 정보 처리 방법, 정보 처리용 프로그램을 기록한 컴퓨터로 읽을 수 있는 매체, 단말 및 서버 |
US7865365B2 (en) * | 2004-08-05 | 2011-01-04 | Nuance Communications, Inc. | Personalized voice playback for screen reader |
US8024194B2 (en) * | 2004-12-08 | 2011-09-20 | Nuance Communications, Inc. | Dynamic switching between local and remote speech rendering |
TWI281145B (en) * | 2004-12-10 | 2007-05-11 | Delta Electronics Inc | System and method for transforming text to speech |
US20080249776A1 (en) * | 2005-03-07 | 2008-10-09 | Linguatec Sprachtechnologien Gmbh | Methods and Arrangements for Enhancing Machine Processable Text Information |
US8224647B2 (en) | 2005-10-03 | 2012-07-17 | Nuance Communications, Inc. | Text-to-speech user's voice cooperative server for instant messaging clients |
US20070174326A1 (en) * | 2006-01-24 | 2007-07-26 | Microsoft Corporation | Application of metadata to digital media |
US7983910B2 (en) * | 2006-03-03 | 2011-07-19 | International Business Machines Corporation | Communicating across voice and text channels with emotion preservation |
US20080003551A1 (en) * | 2006-05-16 | 2008-01-03 | University Of Southern California | Teaching Language Through Interactive Translation |
US8706471B2 (en) * | 2006-05-18 | 2014-04-22 | University Of Southern California | Communication system using mixed translating while in multilingual communication |
US8032355B2 (en) * | 2006-05-22 | 2011-10-04 | University Of Southern California | Socially cognizant translation by detecting and transforming elements of politeness and respect |
US8032356B2 (en) * | 2006-05-25 | 2011-10-04 | University Of Southern California | Spoken translation system using meta information strings |
US9685190B1 (en) * | 2006-06-15 | 2017-06-20 | Google Inc. | Content sharing |
JP4085130B2 (ja) * | 2006-06-23 | 2008-05-14 | 松下電器産業株式会社 | 感情認識装置 |
US8510113B1 (en) * | 2006-08-31 | 2013-08-13 | At&T Intellectual Property Ii, L.P. | Method and system for enhancing a speech database |
US7860705B2 (en) * | 2006-09-01 | 2010-12-28 | International Business Machines Corporation | Methods and apparatus for context adaptation of speech-to-speech translation systems |
US20080147409A1 (en) * | 2006-12-18 | 2008-06-19 | Robert Taormina | System, apparatus and method for providing global communications |
JP4213755B2 (ja) * | 2007-03-28 | 2009-01-21 | 株式会社東芝 | 音声翻訳装置、方法およびプログラム |
US20080300855A1 (en) * | 2007-05-31 | 2008-12-04 | Alibaig Mohammad Munwar | Method for realtime spoken natural language translation and apparatus therefor |
JP2009048003A (ja) * | 2007-08-21 | 2009-03-05 | Toshiba Corp | 音声翻訳装置及び方法 |
CN101226742B (zh) * | 2007-12-05 | 2011-01-26 | 浙江大学 | 基于情感补偿的声纹识别方法 |
CN101178897B (zh) * | 2007-12-05 | 2011-04-20 | 浙江大学 | 利用基频包络剔除情感语音的说话人识别方法 |
US20090157407A1 (en) * | 2007-12-12 | 2009-06-18 | Nokia Corporation | Methods, Apparatuses, and Computer Program Products for Semantic Media Conversion From Source Files to Audio/Video Files |
JP2009186820A (ja) * | 2008-02-07 | 2009-08-20 | Hitachi Ltd | 音声処理システム、音声処理プログラム及び音声処理方法 |
JP2009189797A (ja) * | 2008-02-13 | 2009-08-27 | Aruze Gaming America Inc | ゲーミングマシン |
CN101685634B (zh) * | 2008-09-27 | 2012-11-21 | 上海盛淘智能科技有限公司 | 一种儿童语音情感识别方法 |
KR101589433B1 (ko) * | 2009-03-11 | 2016-01-28 | 삼성전자주식회사 | 동시 통역 시스템 |
US8515749B2 (en) * | 2009-05-20 | 2013-08-20 | Raytheon Bbn Technologies Corp. | Speech-to-speech translation |
US20100049497A1 (en) * | 2009-09-19 | 2010-02-25 | Manuel-Devadoss Smith Johnson | Phonetic natural language translation system |
CN102054116B (zh) * | 2009-10-30 | 2013-11-06 | 财团法人资讯工业策进会 | 情绪分析方法、情绪分析系统及情绪分析装置 |
US8566078B2 (en) * | 2010-01-29 | 2013-10-22 | International Business Machines Corporation | Game based method for translation data acquisition and evaluation |
US8412530B2 (en) * | 2010-02-21 | 2013-04-02 | Nice Systems Ltd. | Method and apparatus for detection of sentiment in automated transcriptions |
US20120330643A1 (en) * | 2010-06-04 | 2012-12-27 | John Frei | System and method for translation |
US8775156B2 (en) | 2010-08-05 | 2014-07-08 | Google Inc. | Translating languages in response to device motion |
JP2012075039A (ja) * | 2010-09-29 | 2012-04-12 | Sony Corp | 制御装置、および制御方法 |
JP5066242B2 (ja) * | 2010-09-29 | 2012-11-07 | 株式会社東芝 | 音声翻訳装置、方法、及びプログラム |
US8566100B2 (en) | 2011-06-21 | 2013-10-22 | Verna Ip Holdings, Llc | Automated method and system for obtaining user-selected real-time information on a mobile communication device |
US9213695B2 (en) * | 2012-02-06 | 2015-12-15 | Language Line Services, Inc. | Bridge from machine language interpretation to human language interpretation |
US9390085B2 (en) | 2012-03-23 | 2016-07-12 | Tata Consultancy Sevices Limited | Speech processing system and method for recognizing speech samples from a speaker with an oriyan accent when speaking english |
CN103543979A (zh) * | 2012-07-17 | 2014-01-29 | 联想(北京)有限公司 | 一种输出语音的方法、语音交互的方法及电子设备 |
US20140058879A1 (en) * | 2012-08-23 | 2014-02-27 | Xerox Corporation | Online marketplace for translation services |
CN103714048B (zh) * | 2012-09-29 | 2017-07-21 | 国际商业机器公司 | 用于校正文本的方法和系统 |
JP2015014665A (ja) * | 2013-07-04 | 2015-01-22 | セイコーエプソン株式会社 | 音声認識装置及び方法、並びに、半導体集積回路装置 |
JP6320982B2 (ja) | 2014-11-26 | 2018-05-09 | ネイバー コーポレーションNAVER Corporation | 翻訳文エディタ提供装置、並びに翻訳文エディタ提供方法 |
CN105139848B (zh) * | 2015-07-23 | 2019-01-04 | 小米科技有限责任公司 | 数据转换方法和装置 |
CN105208194A (zh) * | 2015-08-17 | 2015-12-30 | 努比亚技术有限公司 | 语音播报装置及方法 |
CN105551480B (zh) * | 2015-12-18 | 2019-10-15 | 百度在线网络技术(北京)有限公司 | 方言转换方法及装置 |
CN105635452B (zh) * | 2015-12-28 | 2019-05-10 | 努比亚技术有限公司 | 移动终端及其联系人标识方法 |
CN105931631A (zh) * | 2016-04-15 | 2016-09-07 | 北京地平线机器人技术研发有限公司 | 语音合成系统和方法 |
US9747282B1 (en) | 2016-09-27 | 2017-08-29 | Doppler Labs, Inc. | Translation with conversational overlap |
CN106782521A (zh) * | 2017-03-22 | 2017-05-31 | 海南职业技术学院 | 一种语音识别系统 |
CN106910514A (zh) * | 2017-04-30 | 2017-06-30 | 上海爱优威软件开发有限公司 | 语音处理方法及系统 |
US11328130B2 (en) * | 2017-11-06 | 2022-05-10 | Orion Labs, Inc. | Translational bot for group communication |
US10565994B2 (en) * | 2017-11-30 | 2020-02-18 | General Electric Company | Intelligent human-machine conversation framework with speech-to-text and text-to-speech |
CN108363377A (zh) * | 2017-12-31 | 2018-08-03 | 广州展讯信息科技有限公司 | 一种应用于驾考系统的数据采集装置及方法 |
EP3864575A4 (en) * | 2018-10-09 | 2021-12-01 | Magic Leap, Inc. | VIRTUAL AND AUGMENTED REALITY SYSTEMS AND PROCESSES |
US11159597B2 (en) * | 2019-02-01 | 2021-10-26 | Vidubly Ltd | Systems and methods for artificial dubbing |
US11202131B2 (en) | 2019-03-10 | 2021-12-14 | Vidubly Ltd | Maintaining original volume changes of a character in revoiced media stream |
CN109949794B (zh) * | 2019-03-14 | 2021-04-16 | 山东远联信息科技有限公司 | 一种基于互联网技术的智能语音转换系统 |
CN110956950A (zh) * | 2019-12-02 | 2020-04-03 | 联想(北京)有限公司 | 一种数据处理方法、装置和电子设备 |
CN112562733A (zh) * | 2020-12-10 | 2021-03-26 | 平安普惠企业管理有限公司 | 媒体数据处理方法及装置、存储介质、计算机设备 |
US11361780B2 (en) * | 2021-12-24 | 2022-06-14 | Sandeep Dhawan | Real-time speech-to-speech generation (RSSG) apparatus, method and a system therefore |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4352634A (en) | 1980-03-17 | 1982-10-05 | United Technologies Corporation | Wind turbine blade pitch control system |
JPS56164474A (en) | 1981-05-12 | 1981-12-17 | Noriko Ikegami | Electronic translating machine |
GB2165969B (en) | 1984-10-19 | 1988-07-06 | British Telecomm | Dialogue system |
JPH01206463A (ja) | 1988-02-14 | 1989-08-18 | Kenzo Ikegami | 電子翻訳装置 |
JPH02183371A (ja) | 1989-01-10 | 1990-07-17 | Nec Corp | 自動通訳装置 |
JPH04141172A (ja) | 1990-10-01 | 1992-05-14 | Toto Ltd | 蒸気及び冷気発生切換装置 |
JPH04355555A (ja) | 1991-05-31 | 1992-12-09 | Oki Electric Ind Co Ltd | 音声伝送方法 |
JPH0772840B2 (ja) | 1992-09-29 | 1995-08-02 | 日本アイ・ビー・エム株式会社 | 音声モデルの構成方法、音声認識方法、音声認識装置及び音声モデルの訓練方法 |
SE9301596L (sv) | 1993-05-10 | 1994-05-24 | Televerket | Anordning för att öka talförståelsen vid översätttning av tal från ett första språk till ett andra språk |
SE516526C2 (sv) | 1993-11-03 | 2002-01-22 | Telia Ab | Metod och anordning vid automatisk extrahering av prosodisk information |
SE504177C2 (sv) | 1994-06-29 | 1996-12-02 | Telia Ab | Metod och anordning att adaptera en taligenkänningsutrustning för dialektala variationer i ett språk |
SE9600959L (sv) * | 1996-03-13 | 1997-09-14 | Telia Ab | Metod och anordning vid tal-till-talöversättning |
SE506003C2 (sv) * | 1996-05-13 | 1997-11-03 | Telia Ab | Metod och system för tal-till-tal-omvandling med extrahering av prosodiinformation |
JPH10187178A (ja) | 1996-10-28 | 1998-07-14 | Omron Corp | 歌唱の感情分析装置並びに採点装置 |
US5933805A (en) * | 1996-12-13 | 1999-08-03 | Intel Corporation | Retaining prosody during speech analysis for later playback |
SE520065C2 (sv) | 1997-03-25 | 2003-05-20 | Telia Ab | Anordning och metod för prosodigenerering vid visuell talsyntes |
SE519679C2 (sv) | 1997-03-25 | 2003-03-25 | Telia Ab | Metod vid talsyntes |
JPH11265195A (ja) | 1998-01-14 | 1999-09-28 | Sony Corp | 情報配信システム、情報送信装置、情報受信装置、情報配信方法 |
JP3884851B2 (ja) | 1998-01-28 | 2007-02-21 | ユニデン株式会社 | 通信システムおよびこれに用いられる無線通信端末装置 |
-
2001
- 2001-04-11 CN CNB011165243A patent/CN1159702C/zh not_active Expired - Lifetime
-
2002
- 2002-03-15 EP EP02708485A patent/EP1377964B1/en not_active Expired - Lifetime
- 2002-03-15 WO PCT/GB2002/001277 patent/WO2002084643A1/en active IP Right Grant
- 2002-03-15 JP JP2002581513A patent/JP4536323B2/ja not_active Expired - Lifetime
- 2002-03-15 AT AT02708485T patent/ATE345561T1/de not_active IP Right Cessation
- 2002-03-15 DE DE60216069T patent/DE60216069T2/de not_active Expired - Lifetime
- 2002-03-15 KR KR10-2003-7012731A patent/KR20030085075A/ko not_active Application Discontinuation
-
2003
- 2003-10-10 US US10/683,335 patent/US7461001B2/en not_active Expired - Fee Related
-
2008
- 2008-08-23 US US12/197,243 patent/US7962345B2/en not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101101233B1 (ko) * | 2010-07-07 | 2012-01-05 | 선린전자 주식회사 | 교통카드 기능을 구비한 휴대폰 충전용 젠더 |
Also Published As
Publication number | Publication date |
---|---|
US7461001B2 (en) | 2008-12-02 |
DE60216069T2 (de) | 2007-05-31 |
US20040172257A1 (en) | 2004-09-02 |
CN1159702C (zh) | 2004-07-28 |
CN1379392A (zh) | 2002-11-13 |
EP1377964B1 (en) | 2006-11-15 |
ATE345561T1 (de) | 2006-12-15 |
DE60216069D1 (de) | 2006-12-28 |
WO2002084643A1 (en) | 2002-10-24 |
US7962345B2 (en) | 2011-06-14 |
JP4536323B2 (ja) | 2010-09-01 |
EP1377964A1 (en) | 2004-01-07 |
JP2005502102A (ja) | 2005-01-20 |
US20080312920A1 (en) | 2008-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4536323B2 (ja) | 音声−音声生成システムおよび方法 | |
US6751592B1 (en) | Speech synthesizing apparatus, and recording medium that stores text-to-speech conversion program and can be read mechanically | |
KR102525209B1 (ko) | 원시 발화자의 목소리와 유사한 특성을 갖는 합성음을 생성하는 자동 통역 시스템 및 그 동작 방법 | |
Isewon et al. | Design and implementation of text to speech conversion for visually impaired people | |
US7124082B2 (en) | Phonetic speech-to-text-to-speech system and method | |
CN106486121B (zh) | 应用于智能机器人的语音优化方法及装置 | |
US20070088547A1 (en) | Phonetic speech-to-text-to-speech system and method | |
Mache et al. | Review on text-to-speech synthesizer | |
Kayte et al. | Di-phone-based concatenative speech synthesis systems for marathi language | |
US11817079B1 (en) | GAN-based speech synthesis model and training method | |
KR100373329B1 (ko) | 음운환경과 묵음구간 길이를 이용한 텍스트/음성변환 장치 및그 방법 | |
JPH0887297A (ja) | 音声合成システム | |
JP7406418B2 (ja) | 声質変換システムおよび声質変換方法 | |
JPH08335096A (ja) | テキスト音声合成装置 | |
Iyanda et al. | Development of a Yorúbà Textto-Speech System Using Festival | |
Nair et al. | Indian text to speech systems: A short survey | |
Adeeba et al. | Comparison of Urdu text to speech synthesis using unit selection and HMM based techniques | |
Al-Said et al. | An Arabic text-to-speech system based on artificial neural networks | |
Dessai et al. | Development of Konkani TTS system using concatenative synthesis | |
Das | Syllabic Speech Synthesis for Marathi Language | |
Kaufman et al. | Using Deepfake Technologies for Word Emphasis Detection | |
Davaatsagaan et al. | Diphone-based concatenative speech synthesis system for mongolian | |
Hosn et al. | New resources for brazilian portuguese: Results for grapheme-to-phoneme and phone classification | |
Ibrahim et al. | Graphic User Interface for Hausa Text-to-Speech System | |
Gopal et al. | A simple phoneme based speech recognition system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |