KR101120710B1 - 텍스트 처리 시스템 및 방법과, 컴퓨터 판독 가능 저장 매체 - Google Patents
텍스트 처리 시스템 및 방법과, 컴퓨터 판독 가능 저장 매체 Download PDFInfo
- Publication number
- KR101120710B1 KR101120710B1 KR1020040019902A KR20040019902A KR101120710B1 KR 101120710 B1 KR101120710 B1 KR 101120710B1 KR 1020040019902 A KR1020040019902 A KR 1020040019902A KR 20040019902 A KR20040019902 A KR 20040019902A KR 101120710 B1 KR101120710 B1 KR 101120710B1
- Authority
- KR
- South Korea
- Prior art keywords
- module
- language
- text
- analysis
- speech
- Prior art date
Links
- 230000001419 dependent effect Effects 0.000 claims abstract description 40
- 238000004458 analytical method Methods 0.000 claims abstract description 36
- 238000012545 processing Methods 0.000 claims abstract description 36
- 238000000034 method Methods 0.000 claims description 23
- 230000015572 biosynthetic process Effects 0.000 claims description 19
- 238000003786 synthesis reaction Methods 0.000 claims description 19
- 238000010606 normalization Methods 0.000 claims description 10
- 238000003672 processing method Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000004048 modification Effects 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 4
- 230000000877 morphologic effect Effects 0.000 claims description 4
- 230000033764 rhythmic process Effects 0.000 claims description 4
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000006855 networking Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 230000010354 integration Effects 0.000 description 4
- 230000002093 peripheral effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000001020 rhythmical effect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- CDFKCKUONRRKJD-UHFFFAOYSA-N 1-(3-chlorophenoxy)-3-[2-[[3-(3-chlorophenoxy)-2-hydroxypropyl]amino]ethylamino]propan-2-ol;methanesulfonic acid Chemical compound CS(O)(=O)=O.CS(O)(=O)=O.C=1C=CC(Cl)=CC=1OCC(O)CNCCNCC(O)COC1=CC=CC(Cl)=C1 CDFKCKUONRRKJD-UHFFFAOYSA-N 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/08—Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F7/00—Indoor games using small moving playing bodies, e.g. balls, discs or blocks
- A63F7/02—Indoor games using small moving playing bodies, e.g. balls, discs or blocks using falling playing bodies or playing bodies running on an inclined surface, e.g. pinball games
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07F—COIN-FREED OR LIKE APPARATUS
- G07F17/00—Coin-freed apparatus for hiring articles; Coin-freed facilities or services
- G07F17/32—Coin-freed apparatus for hiring articles; Coin-freed facilities or services for games, toys, sports, or amusements
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F7/00—Indoor games using small moving playing bodies, e.g. balls, discs or blocks
- A63F7/22—Accessories; Details
- A63F7/34—Other devices for handling the playing bodies, e.g. bonus ball return means
- A63F2007/341—Ball collecting devices or dispensers
-
- A—HUMAN NECESSITIES
- A63—SPORTS; GAMES; AMUSEMENTS
- A63F—CARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
- A63F2250/00—Miscellaneous game characteristics
- A63F2250/14—Coin operated
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
음성 합성기용 다국어 텍스트를 처리하기 위한 텍스트 처리 시스템은, 제1 언어를 포함하는 입력 텍스트의 일부에 대해 텍스트와 음율 분석 중 적어도 하나를 수행하기 위한 제1 언어 종속형 모듈을 포함한다. 제2 언어 종속형 모듈은 제2 언어를 포함하는 입력 텍스트의 제2 부분에 대해 텍스트와 음율 분석 중 적어도 하나를 수행한다. 제3 모듈은 제1 및 제2 언어 종속형 모듈로부터의 출력들을 수신하고, 다국어 텍스트에 기초한 상기 출력들에 대해 음율 및 음성 문맥 추상화를 수행하기 위한 것이다.
음성 합성기, 텍스트 정규화 모듈, 언어 종속형 모듈, 언어 식별자 모듈
Description
도 1은 본 발명이 실시될 수 있는 일반적인 컴퓨팅 환경의 블럭도.
도 2는 본 발명이 실시될 수 있는 휴대용 장치의 블럭도.
도 3a는 종래 기술의 음성 합성 시스템의 제1 실시예의 블럭도.
도 3b는 종래 기술의 음성 합성 시스템의 제2 실시예의 블럭도.
도 3c는 종래 기술의 음성 합성 시스템의 프론트-엔드부의 블럭도.
도 4는 음성 합성기용의 텍스트 처리 시스템을 포함하는 본 발명의 제1 실시예의 블럭도.
도 5는 음성 합성기용의 텍스트 처리 시스템을 포함하는 본 발명의 제2 실시예의 블럭도.
<도면의 주요 부분에 대한 부호의 설명>
400 : 텍스트 및 운율 분석 시스템
406 : 언어 식별자 모듈
410 : 통합 조정기
412 : 텍스트 정규화 모듈
418 : 전환부
420 : 중국어 모듈
422 : 영어 모듈
본 발명은 음성 합성에 관한 것이다. 특히, 본 발명은 다국어의 음성 합성 시스템에 관한 것이다.
텍스트-음성 변환 시스템(text-to-speech system)은, 컴퓨터에 의해 처리되는 시스템이, 합성된 음성을 통해 사용자와 통신할 수 있도록 하기 위해 개발되었다. 어떤 애플리케이션은 대화형 시스템(spoken dialog system), 콜 센터 서비스, 음성 제공(voice-enabled) 웹 ·이메일 서비스 등을 포함한다. 텍스트-음성 변환 시스템은 지난 몇 년간 개선되어 왔지만, 여전히 몇몇 결점들이 존재한다. 예를 들면, 많은 텍스트-음성 변환 시스템들은 단지 1개국의 언어에 관하여 설계되어 있다. 그러나, 여러 언어들의 단어들을 음성 합성할 수 있는 시스템, 특히 2개국 이상의 언어의 단어가 한 문장 내에 포함된 경우에도 음성 합성을 제공할 수 있는 시스템을 필요로 하는 애플리케이션이 상당수 존재한다.
다국어의 단어를 발성할 수 있는 음성 합성을 제공할 수 있도록 개발되어 온 시스템은, 발성될 개별 언어들 각각의 단어들을 합성하기 위한 개별 텍스트-음성 변환 엔진들을 사용한다. 엔진들 각각은 합성된 단어들에 대한 파형들을 생성한다. 다음으로, 완전한 발성으로 합성하기 위해, 파형들이 결합되거나 연속적으로 출력된다. 이러한 방식의 중요한 결점은, 일반적으로 2개의 엔진으로부터 나오는 음색이 서로 다르게 들린다는 것이다. 사용자는 이러한 음색의 발성을 들었을 경우에 일반적으로 불쾌하다고 느끼는데, 이는 2명의 사람이 말하는 것처럼 여겨지기 때문이다. 또한, 전체 문장의 억양이 없어져서, 이해를 감하게 된다.
따라서, 앞서 설명한 단점들 중 적어도 일부를 처리한 다국어의 음성 합성 시스템이 유리할 것이며, 다국어의 음성 합성을 개선시킬 것이다.
음성 합성 시스템의 텍스트 처리 시스템은 적어도 2개국의 언어가 혼합된 입력 텍스트를 수신하고, 음성 합성기의 백-엔드(back-end)부에서 사용하기에 적절한 출력을 제공한다. 일반적으로, 텍스트 처리 시스템은 텍스트 처리를 수행하는 언어 독립형 모듈과 언어 종속형 모듈을 포함한다. 이러한 아키텍처는 언어들 간의 원활한 전환 및 언어들이 혼합된 문장에 대한 유창한 억양을 유지하는 장점을 갖는다.
본 발명의 특징들을 설명하기 이전에, 본 발명을 위한 예시적인 컴퓨터 환경을 먼저 설명하는 것이 도움이 될 것이다. 도 1은 본 발명이 구현될 수 있는 적절한 컴퓨팅 시스템 환경(100)의 예를 도시한다. 이 컴퓨팅 시스템 환경(100)은 단지 적절한 컴퓨팅 환경의 일례일 뿐이며, 본 발명의 사용이나 기능의 범위에 어떠한 제한을 가하고자 의도된 것이 아니다. 본 컴퓨팅 시스템 환경(100)은 예시적인 동작 환경(100)에 나타나 있는 컴포넌트들 중 임의의 하나 혹은 그 조합에 관하여 어떠한 종속 관계이거나 요건을 갖는 것으로 해석되어서는 안 된다.
본 발명은 여러 다른 범용 또는 전용 컴퓨팅 시스템 환경 또는 구성과 함께 동작될 수 있다. 본 발명과 함께 사용하기에 적합할 수 있는 잘 알려진 컴퓨팅 시스템, 환경, 및/또는 구성의 예로는, 퍼스널 컴퓨터, 서버 컴퓨터, 핸드헬드(hand-held) 또는 랩탑 장치, 멀티프로세서 시스템, 마이크로프로세서-기반 시스템, 셋 탑 박스, 프로그램 가능 가전 제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 상기의 시스템이나 장치들 중 임의의 것을 포함하는 분산형 컴퓨팅 환경 등이 포함될 수 있지만, 이에 한정되지는 않는다.
본 발명은, 컴퓨터에 의해 실행되는, 프로그램 모듈과 같은 컴퓨터 실행 가능 명령어(instruction)들과 일반적으로 관련하여 설명될 수 있다. 일반적으로, 프로그램 모듈은 특정한 태스크를 수행하거나 특정한 추상 데이터 타입을 구현하는 루틴, 프로그램, 오브젝트, 컴포넌트, 데이터 구조 등을 포함한다. 또한, 본 발명은 통신 네트워크를 통해 링크된 원격 프로세싱 장치에 의해 태스크를 수행하는 분산형 컴퓨팅 환경에서 실시될 수도 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은, 메모리 저장 장치를 포함하는 로컬 컴퓨터 저장 매체 및 원격 컴퓨터 저장 매체의 양측 모두에 위치할 수 있다. 프로그램 및 모듈에 의해 수행되는 태스크는 도면을 참조하여 이하 설명될 것이다. 본 기술 분야에서 숙련된 기술을 가진 자라면, 본 명세서의 설명과 도면을, 임의의 형태의 컴퓨터 판독 가능 매체 상에 기록될 수 있는 프로세서 실행 가능 명령어들로 구현해 낼 수 있다.
도 1을 참조하면, 본 발명을 구현하기 위한 예시적인 시스템은 컴퓨터(110) 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(110)의 컴포넌트들로는, 프로세싱 유닛(120), 시스템 메모리(130), 및 시스템 메모리를 포함한 각종 시스템 컴포넌트들을 프로세싱 유닛(120)에 연결시키는 시스템 버스(121)가 포함될 수 있지만, 이에 한정되는 것은 아니다. 시스템 버스(121)는 다양한 버스 아키텍처 중 임의의 것을 사용하는 로컬 버스, 주변 버스, 및 메모리 버스 또는 메모리 컨트롤러를 포함하는 몇 가지 유형의 버스 구조 중 임의의 것일 수 있다. 예로서, 이러한 아키텍처로는, ISA(Industry Standard Architecture) 버스, MCA(Micro Channel Architecture) 버스, EISA(Enhanced ISA) 버스, VESA(Video Electronics Standards Associates) 로컬 버스, 및 (메자닌(Mezzanine) 버스로도 알려진) PCI(Peripheral Component Interconnect) 버스를 포함하지만, 이에 한정되는 것은 아니다.
통상적으로, 컴퓨터(110)는 다양한 컴퓨터 판독 가능 매체를 포함한다. 컴퓨터 판독 가능 매체는, 컴퓨터(110)에 의해 액세스될 수 있는 임의의 이용 가능한 매체일 수 있으며, 휘발성 및 비휘발성, 분리형(removable) 및 비분리형(non-removable) 매체를 모두 포함한다. 예로서, 컴퓨터 판독 가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있지만, 이에 한정되는 것은 아니다. 컴퓨터 저장 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈 또는 그 외의 데이터 등의 정보의 저장을 위한 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래쉬 메모리 또는 기타 메모리 기술, CD-ROM, DVD(digital versatile disk) 또는 기타 광 디스크 저장 장치, 자기 카세트, 자기 테이프, 자기 디스크 저 장 장치 또는 기타 자기 저장 장치, 또는 컴퓨터(110)에 의해 액세스될 수 있고 원하는 정보를 저장하는 데 사용될 수 있는 임의의 다른 매체를 포함할 수 있지만, 이에 한정되지는 않는다.
통상적으로, 통신 매체는 반송파 또는 기타 전송 메커니즘 등의 변조된 데이터 신호에 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈, 또는 기타 데이터를 구현하며, 임의의 정보 전달 매체를 포함한다. "변조된 데이터 신호"라 함은, 신호 내에 정보를 인코딩하는 방식으로 설정 또는 변환된 특성을 하나 이상 갖는 신호를 뜻한다. 예로서, 통신 매체는 유선 네트워크 또는 직접 유선(direct-wired) 접속 등의 유선 매체와, 음향, FR, 적외선, 및 기타 무선 매체 등의 무선 매체를 포함하지만, 이에 한정되지는 않는다. 또한, 상술한 것들 중 임의의 조합도 컴퓨터 판독 가능 매체의 범위 내에 포함되어야 한다.
시스템 메모리(130)는 ROM(read only memory)(131), RAM(random access memory)(132) 등의 휘발성 및/또는 비휘발성 메모리 형태의 컴퓨터 저장 매체를 포함한다. 시동(start-up) 시와 같은 때에 컴퓨터(110) 내의 구성 요소들 간의 정보 전송을 돕는 기본 루틴을 포함하는 BIOS(basic input/output system)(133)는 일반적으로 ROM(131)에 저장되어 있다. RAM(132)은 일반적으로 프로세싱 유닛(120)에 즉시 액세스될 수 있고/있거나, 프로세싱 유닛(120)에 의해 현재 동작되고 있는 프로그램 모듈 및/또는 데이터를 포함한다. 예로서, 도 1은 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 다른 프로그램 모듈들(136), 및 프로그램 데이터(137)를 도시하지만, 이에 한정되는 것은 아니다.
또한, 컴퓨터(110)는 기타 분리형/비분리형 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수 있다. 예로서, 도 1에는 비분리형 비휘발성 자기 매체로부터 판독하거나 그 자기 매체에 기록하는 하드디스크 드라이브(141), 분리형 비휘발성 자기 디스크(152)로부터 판독하거나 그 자기 디스크에 기록하는 자기 디스크 드라이브(151), 및 CD-ROM이나 기타 광학 매체 등의 분리형 비휘발성 광 디스크(156)로부터 판독하거나 그 광 디스크에 기록하는 광 디스크 드라이브(155)가 도시되어 있다. 본 동작 환경예에서 사용될 수 있는 다른 분리형/비분리형 휘발성/비휘발성 컴퓨터 저장 매체로는, 자기 테이프 카세트, 플래쉬 메모리 카드, DVD, 디지털 비디오 테이프, 고체(solid state) RAM, 고체 ROM 등을 포함하지만, 이에 한정되지는 않는다. 하드디스크 드라이브(141)는 일반적으로 인터페이스(140)와 같은 비분리형 메모리 인터페이스를 통해 시스템 버스(121)에 접속되고, 자기 디스크 드라이브(151) 및 광 디스크 드라이브(155)는 일반적으로 인터페이스(150)와 같은 분리형 메모리 인터페이스에 의해 시스템 버스(121)에 접속된다.
앞서 설명되고 도 1에 도시된 드라이브 및 그에 관련된 컴퓨터 저장 매체는 컴퓨터 판독 가능 명령어, 데이터 구조, 프로그램 모듈, 및 컴퓨터(110)를 위한 기타 데이터의 저장을 제공한다. 예컨대, 도 1에서 하드디스크 드라이브(141)는 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 다른 프로그램 모듈들(146), 및 프로그램 데이터(147)를 저장하는 것으로 도시되어 있다. 이 컴포넌트들은 오퍼레이팅 시스템(134), 애플리케이션 프로그램(135), 다른 프로그램 모듈들(136), 및 프로그램 데이터(137)와 동일할 수도 있고 상이할 수도 있다. 본 명세서에서는 오퍼레이팅 시스템(144), 애플리케이션 프로그램(145), 다른 프로그램 모듈들(146), 및 프로그램 데이터(147)가 최소한 별개의 복사본(copy)임을 나타내기 위하여 다른 참조 번호를 부여하였다.
사용자는 키보드(162), 마이크로폰(163), 및 마우스, 트랙볼, 터치 패드 등의 포인팅 디바이스(161)와 같은 입력 장치를 통해 컴퓨터(110)에 명령(command)과 정보를 입력할 수 있다. (도시되지 않은) 기타 입력 장치로는, 조이스틱, 게임 패드, 위성 수신용 접시형 안테나, 스캐너 등을 포함할 수 있다. 상기 입력 장치와 그 외의 입력 장치는 시스템 버스에 연결된 사용자 입력 인터페이스(160)를 통해 프로세싱 유닛(120)에 접속되곤 하지만, 병렬 포트, 게임 포트, USB(universal serial bus) 등의 기타 인터페이스 및 버스 구조에 의해 접속될 수도 있다. 또한, 모니터(191) 또는 다른 종류의 디스플레이 장치가 비디오 인터페이스(190) 등의 인터페이스를 통해 시스템 버스(121)에 접속된다. 또한, 모니터 외에도, 컴퓨터는, 출력 주변 인터페이스(195)를 통해 접속될 수 있는 스피커(197), 프린터(196) 등의 기타 주변 출력 장치를 포함할 수 있다.
컴퓨터(110)는 원격 컴퓨터(180) 등의 하나 이상의 원격 컴퓨터로의 논리적 접속(logical connections)을 이용한 네트워킹 환경에서 동작할 수 있다. 원격 컴퓨터(180)는 퍼스널 컴퓨터, 핸드헬드 장치, 서버, 라우터, 네트워크 PC, 피어(peer) 장치, 또는 기타 일반적인 네트워크 노드일 수 있으며, 일반적으로는 컴퓨터(110)에 관하여 상술한 구성 요소 중 다수 또는 전부를 포함할 수도 있다. 도 1에 도시된 논리적 접속은 LAN(local area network)(171)과 WAN(wide area network)(173)을 포함하지만, 그 외의 네트워크를 포함할 수도 있다. 이러한 네트워킹 환경은 관공서, 기업형 컴퓨터 네트워크, 인트라넷, 및 인터넷에서는 일반적인 것이다.
LAN 네트워킹 환경에서 사용될 경우, 컴퓨터(110)는 네트워크 인터페이스 또는 어댑터(170)를 통해 LAN(171)에 접속된다. WAN 네트워킹 환경에서 사용될 경우, 컴퓨터(110)는 일반적으로 인터넷 등의 WAN(173)을 통해 통신을 설정하기 위한 모뎀(172) 또는 기타 수단을 포함한다. 내장형 또는 외장형일 수 있는 모뎀(172)은 사용자 입력 인터페이스(160) 또는 기타 적절한 메커니즘을 통해 시스템 버스(121)에 접속될 수 있다. 네트워킹 환경에서, 컴퓨터(110)에 관하여 설명된 프로그램 모듈들 또는 그 일부는 원격 메모리 저장 장치에 저장될 수도 있다. 예로서, 도 1은 원격 컴퓨터(180)에 상주하는 원격 애플리케이션 프로그램(185)을 도시하지만, 이에 한정되는 것은 아니다. 도시된 네트워크 접속은 예시적인 것으로서, 컴퓨터들 간의 통신 링크를 설정하는 그 외의 수단이 사용될 수도 있음을 알 수 있다.
도 2는 휴대용 장치(200)의 블럭도로서, 휴대용 장치의 예시적인 컴퓨팅 환경을 나타낸다. 휴대용 장치(200)는 마이크로프로세서(202), 메모리(204), I/O 컴포넌트(206), 및 원격 컴퓨터나 다른 휴대용 장치들과의 통신을 위한 통신 인터페이스(208)를 포함한다. 일 실시예에서, 상술된 컴포넌트들은 상호 통신을 위해 적절한 버스(210)를 통해 연결되어 있다.
메모리(204)는 배터리 백업 모듈(도시되지 않음)을 구비한 RAM 등의 비휘발성 메모리로서 구현되어, 휴대용 장치(200)로의 주전원이 차단되는 경우에도 메모리(204)에 저장된 정보가 손실되지 않는다. 메모리(204)의 일부는 바람직하게는 프로그램을 실행하기 위한 주소 지정 가능 메모리로서 지정되는 한편, 메모리(204)의 다른 일부는 바람직하게는 디스크 드라이브의 저장 상태를 시뮬레이팅하는 등의 저장용으로 사용된다.
메모리(204)는 오퍼레이팅 시스템(212), 애플리케이션 프로그램(214), 및 오브젝트 저장소(216)를 포함한다. 동작 시, 오퍼레이팅 시스템(212)은 바람직하게는 프로세서(202)에 의해 메모리(204)로부터 실행된다. 바람직한 일 실시예에서, 오퍼레이팅 시스템(212)은 마이크로소프트사로부터 구입할 수 있는 WINDOWS CE 브랜드의 오퍼레이팅 시스템이다. 오퍼레이팅 시스템(212)은 바람직하게는 휴대용 장치 용도로 설계되며, 공지된 애플리케이션 프로그래밍 인터페이스 및 방법 등을 이용하여 애플리케이션(214)이 사용할 수 있는 데이터베이스 특징들을 구현한다. 오브젝트 저장소(216)의 오브젝트들은, 공지된 애플리케이션 프로그래밍 인터페이스 및 방법 호출에 적어도 일부 응답하여, 애플리케이션(214) 및 오퍼레이팅 시스템(212)에 보유된다.
통신 인터페이스(208)는 휴대용 장치(200)가 정보를 송수신할 수 있게 하는 다양한 장치와 기술들을 나타낸 것이다. 이러한 장치로는, 유/무선 모뎀, 위성 송수신기, 방송용 튜너 등이 포함된다. 또한, 휴대용 장치(200)는 컴퓨터에 직접 접 속되어 컴퓨터와 데이터를 교환할 수도 있다. 이러한 경우, 통신 인터페이스(208)는 적외선 송수신기나 직렬 또는 병렬 통신 접속일 수 있으며, 이들 모두는 스트리밍 정보를 전송할 수도 있다.
I/O 컴포넌트(206)는 터치 감응형 스크린(touch-sensitive screen), 버튼, 롤러, 마이크로폰 등의 다양한 입력 디바이스와, 오디오 발생기, 진동 디바이스, 디스플레이를 포함한 다양한 출력 디바이스를 포함한다. 위에 열거된 디바이스들은 예시적인 것일 뿐, 이들 모두가 휴대용 장치(200)에 제공되어야 할 필요는 없다. 또한, 본 발명의 사상을 벗어나지 않는 범위 내에서, 기타 I/O 디바이스들이 휴대용 장치(200)에 부착되거나 제공되어도 좋다.
본 발명의 이해를 더욱 돕기 위해서, 도 3a 및 도 3b에 각각 도시된 종래의 음성 합성기(300) 또는 엔진(302)의 개략적인 설명을 제공하는 것이 도움이 될 것이다. 도 3a를 참조하면, 음성 합성기(300)는, 일반적으로 참조번호 306으로 수신되는 입력 텍스트를 처리하고 모듈(303)에서 텍스트 분석과 운율 분석을 수행하는 프론트-엔드(front-end)부 즉, 텍스트 처리 시스템(304)을 포함한다. 모듈(303)의 출력(308)은 입력 텍스트(306)에 대한 운율의 기호적 표현(symbolic description)을 포함한다. 출력(308)은 엔진(300)의 백-엔드부 즉, 합성 모듈(312)의 단위 선택 및 연결(unit selection and concatenation) 모듈(310)에 제공된다. 단위 선택 및 연결 모듈(310)은, 샘플링된 음성 단위로 저장된 코퍼스(corpus)(316)를 이용하여, 합성된 음성 파형(314)을 생성한다. 합성된 음성 파형(314)은 음성 단위들을 직접 연결함으로써 생성되는 것으로서, 음성 코퍼스(316)가 모든 합성 단위들에 대 하여 충분한 운율적 변형 및 스펙트럼 변형(prododic and spectral varieties)을 포함하고 적절한 분절(segment)들을 항상 찾을 수 있다는 가정 하에, 피치(pitch)나 지속 기간(duration)의 변경없이 행해지는 것이 일반적이다.
또한, 음성 합성기(302)는, 입력 텍스트(306)를 수신하여, 운율의 기호적 표현을 출력(308)에 제공하는 텍스트 및 운율 분석 모듈(303)을 포함한다. 그러나, 도시된 바와 같이, 프론트-엔드부(304)는, 운율의 기호적 표현을 수신하여(308) 운율의 수치적 표현(numerical description)을 출력(322)에 제공하는 운율 예측 모듈(320)도 포함한다. 공지된 바와 같이, 운율 예측 모듈(320)은 입력으로서 품사(part-of-speech), 구절화(phrasing), 액센트(accent), 강조(emphasizes) 등의 몇 가지 높은 수준의 운율적 제한을 취하고, 피치, 지속 기간, 에너지 등에 대한 예측을 행하여, 출력(322)을 포함한 상기 모듈들에 대한 결정치(deterministic value)들을 산출한다. 출력(322)은 백-엔드부(312)에 제공되며, 백-엔드부는 도시된 바와 같이, 합성된 음성 파형(314)을 생성하는 음성 생성 모듈(326)을 포함하고, 상기 음성 파형(314)은 입력되는 운율의 수치적 표현(322)과 일치하는 운율 특성을 갖는다. 이는, 포먼트(formant) 기반 또는 LPC 기반의 백-엔드에서의 대응 파라미터들을 설정하거나, 연쇄적 백-엔드(concatenative back-end)에서의 PSOLA나 HNM 등의 운율 스케일링(prosody scaling) 알고리즘을 적용함으로써 달성될 수 있다.
도 3c는, 음성 합성기(300 및 302)의 프론트-엔드부(304)에, 운율의 기호적 표현(308)을 제공하는 텍스트 및 운율 분석 모듈(303)을 형성할 수 있는 다양한 모 듈들을 도시한다. 통상적으로, 이러한 프로세싱 모듈은 입력 텍스트(306)를 수신하고 입력 텍스트(306)의 통용 기간(currency), 날짜, 또는 기타 부분들을 판독 가능한 단어로 변환하는 텍스트 정규화 모듈(340)이 포함된다.
정규화에 있어서는, 형태소 분석(morphological analysis) 모듈(342)이 사용되어, 입력 텍스트에서의 복수형, 과거 시제 등을 확인하는 형태소 분석이 수행될 수 있다. 그리고, 모듈(344)에서는 구문/의미 분석(syntactic/semantic analysis)을 수행하며, 필요한 경우에는 단어들의 품사(parts of speech : POS)를 확인하거나, 문장의 구문/의미 구조를 예측할 수 있다. 원하는 경우에는, 모듈(344)로부터의 입력(즉, POS 태깅(POS tagging) 또는 구문/의미 구조)에 따라, 또는 쉼표, 마침표 등에 의해 간단하게, 단어들을 구로 분화하는 프로세싱을 모듈(346)에서 수행할 수 있다. 강세(stress), 액센트, 및/또는 강조어(focus)를 포함하는 의미론적 특징들이 모듈(348)에서 예측된다. 자소-음소 변환(grapheme-to-phoneme conversion) 모듈(350)은 단어들을 적절한 발음에 대응하는 음성학적 기호들로 변환한다. 참조 번호 303의 출력은, 운율의 기호적 표현(308)에 의한 음성학적 단위 스트링들이다.
텍스트 및 운율 분석부(303)를 형성하는 모듈들은 단지 예시적인 것이고, 필요에 따라 포함되는 것이며, 도 3a나 도 3b에 도시된 백-엔드부(312)가 사용하게 될, 프론트-엔드부(304)로부터의 바람직한 출력을 생성한다는 점에 유의하여야 한다.
다국어 텍스트의 경우에는, 합성될 상기 텍스트의 각 언어에 대한 음성 엔진(300 또는 302)이 제공될 것이다. 상기 텍스트에서의 각 개별 언어에 대응하는 부분들은 각각의 단일국어 음성 합성기에 제공되어 개별적으로 처리되고, 그 출력(314)은 결합되거나, 혹은 적절한 하드웨어를 사용하여 연속적으로 출력된다. "발명이 속하는 기술분야 및 그 분야의 종래기술"에서 논의된 바와 같이, 한 문장에서 전체 문장의 억양과 그 문장의 일부가 손실되어 2명 이상의 다른 화자가 말하는 것처럼 들리는 단점을 포함하게 된다.
도 4는 음성 합성 시스템용 텍스트 및 운율 분석 시스템(400)의 제1 실시예를 나타내는 것으로, 이 시스템(400)은, 1개국의 언어로 된, 혹은 적어도 2개국 이상의 언어가 혼합된 문장을 포함하는 입력 텍스트(402)를 수신하고, 통상적으로 도 3a 또는 도 3b에 도시된 바와 같은 형태의 음성 합성기의 백-엔드부에서 사용하기에 적합한 출력(432)을 제공한다. 일반적으로, 프론트-엔드부(400)는 도 3c에 도시된 소정의 기능들을 수행하는 언어 독립형 모듈과 언어 종속형 모듈을 포함한다. 이러한 아키텍처는 언어들 간의 원활한 전환 및 언어들이 혼합된 문장에 대한 유창한 억양을 유지하는 장점이 있다. 도 4에서, 본 처리 방법은 위에서 아래로 진행한다.
본 실시예에서, 텍스트 및 운율 분석부(400)는 언어 식별자 모듈(406)과 통합 조정기(410)를 포함하는 언어 디스패치(langauge dispatch) 모듈을 포함한다. 언어 식별자 모듈(406)은 입력 텍스트(402)를 수신하고, 문장들 및/또는 단어들의 사용 언어를 적절히 나타내는 언어 식별자(Id) 또는 태그를 상기 문장들 및/또는 단어들에 포함시키거나 연관시킨다. 도시된 실시예에서, 중국어 문자와 영어 문자 는 서로 구별되는 다른 코드들을 사용하여 입력 텍스트(402)를 형성하므로, 입력 텍스트(402) 중 해당 부분이 중국어에 대응하는지 혹은 영어에 대응하는지를 식별하는 것은 비교적 용이하다. 프랑스어, 독일어, 스페인어 등의 언어들의 경우에는, 그 언어들 각각에 공통의 문자들이 존재하므로, 그 이상의 처리가 요구된다.
그 후, 적절한 언어 식별자를 갖는 입력 텍스트는 통합 조정기 모듈(410)에 제공된다. 일반적으로, 통합 조정기 모듈(410)은 언어 독립형 모듈과 언어 종속형 모듈 간의 데이터 흐름을 관리하고, 단일화된 데이터 흐름을 유지하여 각 모듈로부터의 출력을 수신할 경우에 대한 적절한 처리를 보장한다. 통상적으로, 통합 조정기 모듈(410)은 우선, 언어 식별자를 갖는 입력 텍스트를 텍스트 정규화 모듈(412)에 전달한다. 도시된 실시예에서, 텍스트 정규화 모듈(412)은 언어 독립형 규칙 해석기이다. 이 모듈(412)은 2개의 컴포넌트를 포함한다. 그 하나는 패턴 식별기이고, 다른 하나는 패턴 해석기로서, 일치하는 패턴을 규칙에 따라 판독 가능한 텍스트 스트링으로 변환한다. 각각의 규칙은 2가지로 나뉘는데, 그 하나는 패턴에 대한 정의이고, 다른 하나는 패턴에 대한 변환 규칙이다. 정의 부분은 2개국어 모두에 의해 공유되거나 2개국어 중 어느 하나로 특정될 수 있다. 변환 규칙은 통상적으로 언어에 따라 다르다. 새로운 언어가 추가되면, 규칙 해석 모듈이 변경될 필요는 없고, 그 새로운 언어에 대한 새로운 규칙들만이 추가되면 된다. 당업자라면 이해할 수 있듯이, 입력 텍스트의 언어 단어들을 식별하기에 적절한 처리가 텍스트 정규화 모듈(412)에서 제공되는 경우에는, 텍스트 정규화 모듈(412)이 언어 식별자 모듈(406)보다 선행될 수 있다.
텍스트 정규화 모듈(412)로부터 출력을 수신하면, 통합 조정기(410)는 텍스트 및 운율 분석에 적합한 단어들 및/또는 구를 적절한 언어 종속형 모듈에 전달한다. 도시된 실시예에서는, 표준 중국어 모듈(420)과 영어 모듈(422)이 제공되어 있다. 중국어 모듈(420)과 영어 모듈(422)은, 양측 언어에 대한 구절화 및 자소-음소 변환과 같은 모든 언어에 공통되는 처리와, 중국어에 대한 분절화(segmentation) 및 영어에 대한 약어 전개(abbreviation expansion) 등을 처리한다. 도 4에서, 전환부(418)는 입력 텍스트의 일부를, 언어 식별자가 표시하는 대로, 적절한 언어 종속형 모듈에 전달하는 통합 조정기(410)의 기능을 개략적으로 나타낸 것이다.
언어 식별자 외에도, 입력 텍스트(402)의 분절(segment)들은 입력 텍스트에서의 위치를 나타내는 식별자들을 포함하거나 이와 관련되어 있다. 이와 같이 하면, 모든 분절들이 동일한 모듈에서 처리되는 것은 아니므로, 여러 언어 독립형 모듈과 언어 종속형 모듈로부터의 출력을 수신할 경우에도, 통합 조정기(410)는 분절들을 적절한 순서로 재구성할 수 있다. 이는, 입력 텍스트(402)의 병렬 처리를 가능하게 하고, 따라서 보다 고속의 처리를 가능하게 한다. 물론, 입력 텍스트(402)의 처리는 분절별로 입력 텍스트(402)에서 구해지는 순서대로 이루어질 수 있다.
언어 종속형 모듈들로부터의 출력은, 단일화된 특징 추출 모듈(430)에 의해 운율적 ·음성적 문맥(prosody and phonetic context)에 관하여 처리된다. 이러한 방식에서는, 중국어 및 영어의 분절에 대해 모듈들(420 및 422)에서 텍스트 및 운율 분석이 적절히 행해진 후, 전체 문장에 대하여 운율적 ·음성적 문맥이 분석될 것이기 때문에, 전체적인 문장의 억양이 손실되지 않는다. 도시된 실시예에서, 텍스트 및 운율 분석부(400)의 출력(432)은 운율적 ·음성적 문맥을 포함하는 단일화된 특징 벡터들을 갖는 (영어 및 표준 중국어 양측의 단위를 포함하는) 순차 단위 리스트이다. 그 후, 도 3a에 도시된 바와 같이, 백-엔드부에 단위 연결(unit concatenation)이 제공되는데, 그 실시예는 이하에 보다 상세히 설명할 것이다. 대안으로는, 희망하는 경우에, 텍스트 및 운율 분석부(400)에서 (모듈(320)과 유사한) 운율 예측을 수행하여, 출력으로서 운율의 수치적 표현을 제공하는 적절한 언어 독립형 모듈이 부가될 수 있다. 운율의 수치적 표현은 도 3b에 도시된 바와 같이 백-엔드부(312)에 제공될 수 있다.
도 5는 본 발명의 2개국어 텍스트 및 운율 분석 시스템(450)의 다른 실시예로서, 텍스트 및 운율 분석은 형태소 분석(452), 분열화 분석(breaking analysis)( 454), 강세/액센트 분석(456), 및 자소-음소 변환(458)을 포함한 4가지의 독립 모듈들로 구성된다. 이 기능들 각각은 영어와 표준 중국어를 각각 지원하는 2개의 모듈을 갖는다. 도 4와 마찬가지로, 입력 텍스트에 대한 처리 순서는 도면에서 위에서 아래로 진행한다. 비록 영어와 표준 중국어의 2개국어로 예시하였지만, 텍스트 및 음율 분석부(400, 450)의 아키텍처는 희망에 따라 수개국어를 수용하기에 용이하게 적응될 수 있다는 점을 유의해야 한다. 또한, 기타 언어 종속형 모델 및/또는 언어 독립형 모듈이 희망에 따라 텍스트 처리 시스템 아키텍처에 용이하게 통합될 수 있다는 점을 유의해야 한다.
일 실시예에 따르면, 백-엔드부(312)는, 단위 연결이 제공되는, 도 3a에 도 시된 바와 같은 형태를 취할 수 있다. 표준 중국어와 영어를 포함하는 다국어 시스템의 경우, 표준 중국어에서는 음절이 최소 단위이고, 영어에서는 음소가 최소 단위이다. 단위 선택 알고리즘은, 가능한 한 많고, 자연스러우며, 편안한 스플라이싱(splicing)을 달성하기 위해, 음율적으로 적합한 단위 후보들의 풀(pool)에서 일련의 분절들을 선택해야 한다. 7가지의 음율 제약을 고려할 수 있는데, 그 제약들로는 구 위치, 단어 위치, 음절 위치, 좌 성조(left tone), 우 성조(rifht tone), 단어의 액센트 레벨, 및 구의 강조 레벨이 포함된다. 이들 중에서, 음절 위치 및 단어의 액센트 레벨은 영어에만 유효한 반면, 좌/우 성조는 표준 중국어에만 유효하다.
CART(classification and regression tree)를 이용하여 음율 제약들에 관한 질의를 행함으로써 기본 단위의 모든 인스턴스들을 클러스터링한다. CART의 스플라이싱 기준은 평균 f0와 평균 f0의 동적 범위와 지속 기간의 3가지 특징의 MSE(mean squared error)의 가중된 합의 감소를 극대화시키는 것이다. 각 특징의 MSE는 모든 인스턴스의 특징값에서부터 그들의 호스트 리프(host leaf)의 평균값까지의 거리들의 제곱의 평균으로서 정의된다. 트리들이 성장된 후에는, 동일 리프 노드 상에 있는 인스턴스들은 유사한 음율 특징을 갖는다. 단위들 간의 연쇄의 연속성을 보장하기 위해, 2가지 음성 제약인 좌/우 음성 문맥과, 평활 코스트(smoothness cost)가 이용된다. 연쇄 코스트(concatenative cost)는 7가지의 음율 제약, 2가지의 음성 제약, 평활 코스트의 소스-타겟 거리들의 가중된 합으 로서 정의된다. 먼저, 각 음율/음성 제약과 모든 컴포넌트에 대한 가중치에 대한 거리 테이블이 수동으로 할당되고 난 후, H. Peng, Y. Zhao, M. Chu가 ICSLP' 2002, Denver의 회보의 "Perpetually optimizing the cost function for unit selection in a TTS system for one single run of MOS evaluation"에서 제안한 방법에 의해 자동적으로 조율된다. 발성을 합성할 경우, 먼저 음율 제약을 이용하여 각 단위마다 인스턴스의 클러스터(CART 트리에서의 리프 노드)를 찾고 나서, 비터비 검색법(Viterbe search)을 이용하여 각 단위마다 최소한의 전체 연쇄 코스트를 발생시킬 최적의 인스턴스를 찾아낸다. 그 후, 선택된 분절들을 하나씩 연결시켜 합성 발성을 형성한다. 바람직하게는, 2개국어의 단일 스피커로부터 단위 코퍼스를 얻는다. 비록 2개국의 언어들이 서로 상이한 크기의 단위를 채용하더라도, 이 언어들은 동일한 단위 선택 알고리즘과 단위에 대한 동일한 특징 집합을 공유한다. 그러므로, 음성 합성기의 백-엔드부는 1개국어로 된 혹은 2개국어가 혼합된 단위 시퀀스들을 처리할 수 있다. 상술된 바에 따른 단위 인스턴스에 대한 선택은, 2002년 7월 25일자로 발행되고 발명의 명칭이 "Method and Apparatus for Speech Synthesis without Prosody Modification"인 미국특허출원 제20020099547A1호에 보다 상세히 기술되어 있으며, 이 출원의 내용 전부는 참조 문헌으로서 본 명세서에 포함되는 것으로 한다.
비록 본 발명을 특정 실시예에 대해서만 기술 및 도시하였지만, 당업자라면 본 발명의 사상 및 범주를 벗어 나지 않는 한, 상기 실시예에 대한 수정 및 변형 실시예가 가능하다는 것을 충분히 인식할 수 있을 것이다.
본 발명에 따르면, 언어들 간의 원활한 전환 및 여러 언어가 혼합된 문장에 대한 유창한 억양을 유지하는 장점을 갖는 음성 합성기용 텍스트 처리 시스템이 제공된다.
Claims (23)
- 음성 합성기용 다국어 텍스트의 문장을 처리하기 위한 텍스트 처리 시스템에 있어서,제1 언어 및 제2 언어의 샘플링된 음성 단위들을 갖는 데이터베이스;상기 제1 언어를 포함하는 상기 문장의 제1 부분에 대해 텍스트 분석과 음율 분석 중 적어도 하나를 수행하기 위한 제1 언어 종속형 모듈;상기 제2 언어를 포함하는 상기 문장의 제2 부분에 대해 텍스트 분석과 음율 분석 중 적어도 하나를 수행하기 위한 제2 언어 종속형 모듈;상기 제1 및 제2 언어 종속형 모듈로부터의 출력들을 수신하고, 상기 문장 전체에 대한 억양(intonation)에 기초하여 상기 출력들에 대해 음율 및 음성 문맥 수정을 수행하도록 적합화된 제3 모듈 - 상기 제3 모듈은 출력 문장을 생성함 - ; 및상기 출력 문장을 수신하고, 상기 출력 문장에 대응하는 상기 데이터베이스로부터의 음성 단위들을 선택하고, 및 상기 출력 문장의 어조(utterance)를 형성하도록 상기 음성 단위들을 연결하기 위한 음성 단위 연결(concatenation) 모듈을 포함하는 텍스트 처리 시스템.
- 제1항에 있어서,상기 제1 언어 종속형 모듈 및 상기 제2 언어 종속형 모듈에서 처리할 텍스트를 정규화시키는 텍스트 정규화 모듈을 더 포함하는 텍스트 처리 시스템.
- 제1항에 있어서,다국어 텍스트를 수신하여, 상기 제1 언어를 포함하는 부분 및 상기 제2 언어를 포함하는 부분에 대한 식별자를 연관시키도록 적합화된 언어 식별자 모듈을 더 포함하는 텍스트 처리 시스템.
- 제3항에 있어서,상기 각 모듈로부터의 출력들을 수신하고, 처리할 상기 출력들을 다른 모듈에 전달하도록 적합화된 통합 조정기 모듈(integrator module)을 더 포함하는 텍스트 처리 시스템.
- 제4항에 있어서,상기 통합 조정기 모듈은, 상기 출력들을 상기 제1 언어 종속형 모듈 및 상기 제2 언어 종속형 모듈에, 연관된 식별자의 함수로서 전달하는 텍스트 처리 시스템.
- 제5항에 있어서,상기 제1 언어 종속형 모듈 및 상기 제2 언어 종속형 모듈은 형태소(morphological) 분석을 수행하도록 적합화된 텍스트 처리 시스템.
- 제5항에 있어서,상기 제1 언어 종속형 모듈 및 상기 제2 언어 종속형 모듈은 분열화(breaking) 분석을 수행하도록 적합화된 텍스트 처리 시스템.
- 제5항에 있어서,상기 제1 언어 종속형 모듈 및 상기 제2 언어 종속형 모듈은 강세 분석을 수행하도록 적합화된 텍스트 처리 시스템.
- 제5항에 있어서,상기 제1 언어 종속형 모듈 및 상기 제2 언어 종속형 모듈은 자소-음소(grapheme-to-phoneme) 변환을 수행하도록 적합화된 텍스트 처리 시스템.
- 음성 합성기용 다국어 텍스트를 처리하기 위한 텍스트 처리 방법에 있어서,데이터베이스에 제1 언어 및 제2 언어의 샘플링된 음성 단위들을 저장하는 단계;문장을 형성하는 입력 텍스트를 수신하여 상기 제1 언어를 포함하는 부분들과 상기 제2 언어를 포함하는 부분들을 식별하는 단계;상기 제1 언어를 포함하는 부분들에 대해 제1 언어 종속형 모듈에 의해 텍스트 분석과 음율 분석 중 적어도 하나를 수행하고, 상기 제2 언어를 포함하는 부분들에 대해 제2 언어 종속형 모듈에 의해 텍스트 분석과 음율 분석 중 적어도 하나를 수행하는 단계;상기 제1 언어 종속형 모듈 및 상기 제2 언어 종속형 모듈로부터의 출력들을 수신하는 단계;각 부분의 상기 문장 내 위치에 기초하여 상기 출력들에 대해 음율 및 음성 문맥 분석을 함께 수행하고 출력 문장을 생성하는 단계 - 각 부분의 상기 위치는 상기 문장 내의 다른 부분들에 대한 상대적인 위치임 -;상기 출력 문장에 대응하는 상기 데이터베이스로부터의 음성 단위들을 선택하는 단계; 및상기 출력 문장의 어조를 형성하도록 선택된 상기 음성 단위들을 연결하는 단계를 포함하는 텍스트 처리 방법.
- 제10항에 있어서,상기 입력 텍스트를 정규화시키는 단계를 더 포함하는 텍스트 처리 방법.
- 제10항에 있어서,상기 부분들을 식별하는 단계는상기 부분들 각각에 식별자들을 연관시키는 단계를 포함하는 텍스트 처리 방법.
- 제12항에 있어서,상기 부분들을 상기 제1 언어 종속형 모듈 및 상기 제2 언어 종속형 모듈에 상기 부분들에 연관된 식별자의 함수로서 전달하는 단계를 더 포함하는 텍스트 처리 방법.
- 제10항에 있어서,상기 텍스트의 일부분들을 상기 텍스트에서의 순서의 함수로서 식별하는 단계를 더 포함하는 텍스트 처리 방법.
- 제10항에 있어서,상기 음율 및 음성 문맥 분석을 수행하는 것은상기 다국어 텍스트에 대한 음율의 기호적 표현을 출력하는 것을 포함하는 텍스트 처리 방법.
- 제10항에 있어서,상기 음율 및 음성 문맥 분석을 수행하는 것은상기 다국어 텍스트에 대한 음율의 수치적 표현을 출력하는 것을 포함하는 텍스트 처리 방법.
- 프로세서에 의해 실행될 때 음성 합성을 수행하는 명령어들이 저장되어 있는 컴퓨터 판독 가능 저장 매체에 있어서,상기 명령어들은,제1 언어 및 제2 언어로 된 샘플링된 음성 단위들을 갖는 데이터베이스;상기 제1 언어를 포함하는 문장으로부터의 입력 텍스트의 제1 부분에 대해 텍스트 분석과 음율 분석 중 적어도 하나를 수행하기 위한 제1 언어 종속형 모듈과, 상기 제2 언어를 포함하는 상기 문장으로부터의 입력 텍스트의 제2 부분에 대해 텍스트 분석과 음율 분석 중 적어도 하나를 수행하기 위한 제2 언어 종속형 모듈과, 상기 제1 및 제2 언어 종속형 모듈로부터의 출력들을 수신하고 상기 입력 텍스트의 제1 부분 및 제2 부분의 조합을 이용한 상기 문장에 대한 억양에 기초하여 상기 출력들에 대해 대해 음율 및 음성 문맥 수정을 수행하도록 적합화된 제3 모듈을 포함하는 텍스트 처리 모듈; 및상기 제3 모듈로부터의 출력을 수신하고, 상기 제3 모듈로부터의 상기 출력에 대응하는 상기 데이터베이스로부터 음성 단위들을 선택하고, 상기 제3 모듈로부터 상기 출력의 어조를 형성하도록, 선택된 상기 음성 단위들을 연결하고, 상기 어조의 합성된 음성 파형들을 생성하도록 적합화된, 음성 단위 연결 및 합성 모듈을 포함하는 컴퓨터 판독 가능 저장 매체.
- 제17항에 있어서, 상기 제3 모듈은 상기 출력에 대한 음율의 기호적(symbolic) 표현을 제공하고, 상기 합성 모듈은 연결 모듈을 포함하는 컴퓨터 판독 가능 저장 매체.
- 제17항에 있어서, 상기 제3 모듈은 상기 출력에 대한 음율의 수치적 표현을 제공하고, 상기 합성 모듈은 생성 모듈을 포함하는 컴퓨터 판독 가능 저장 매체.
- 제17항에 있어서, 상기 제1 언어 종속형 모듈 및 상기 제2 언어 종속형 모듈에서 처리하기 위해 텍스트를 정규화하기 위한 텍스트 정규화 모듈을 더 포함하는 컴퓨터 판독 가능 저장 매체.
- 제17항에 있어서,다국어 텍스트를 수신하여, 상기 제1 언어를 포함하는 부분 및 상기 제2 언어를 포함하는 부분에 대한 식별자를 연관시키도록 적합화된 언어 식별자 모듈을 더 포함하는 컴퓨터 판독 가능 저장 매체.
- 제21항에 있어서, 각 모듈로부터의 출력들을 수신하고 처리할 상기 출력들을 다른 모듈에 전달하도록 적합화된 통합 조정기 모듈을 더 포함하는 컴퓨터 판독 가능 저장 매체.
- 제22항에 있어서, 상기 통합 조정기 모듈은 상기 출력들을 상기 제1 언어 종속형 모듈 및 상기 제2 언어 종속형 모듈에, 연관된 식별자의 함수로서 전달하는 컴퓨터 판독 가능 저장 매체.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/396,944 US7496498B2 (en) | 2003-03-24 | 2003-03-24 | Front-end architecture for a multi-lingual text-to-speech system |
US10/396,944 | 2003-03-24 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20040084753A KR20040084753A (ko) | 2004-10-06 |
KR101120710B1 true KR101120710B1 (ko) | 2012-06-27 |
Family
ID=32824965
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020040019902A KR101120710B1 (ko) | 2003-03-24 | 2004-03-24 | 텍스트 처리 시스템 및 방법과, 컴퓨터 판독 가능 저장 매체 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7496498B2 (ko) |
EP (1) | EP1463031A1 (ko) |
JP (1) | JP2004287444A (ko) |
KR (1) | KR101120710B1 (ko) |
CN (1) | CN1540625B (ko) |
BR (1) | BRPI0400306A (ko) |
Families Citing this family (283)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU6630800A (en) * | 1999-08-13 | 2001-03-13 | Pixo, Inc. | Methods and apparatuses for display and traversing of links in page character array |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
CN1813285B (zh) * | 2003-06-05 | 2010-06-16 | 株式会社建伍 | 语音合成设备和方法 |
DE10334400A1 (de) * | 2003-07-28 | 2005-02-24 | Siemens Ag | Verfahren zur Spracherkennung und Kommunikationsgerät |
US8666746B2 (en) * | 2004-05-13 | 2014-03-04 | At&T Intellectual Property Ii, L.P. | System and method for generating customized text-to-speech voices |
CN100592385C (zh) * | 2004-08-06 | 2010-02-24 | 摩托罗拉公司 | 用于对多语言的姓名进行语音识别的方法和系统 |
US7869999B2 (en) * | 2004-08-11 | 2011-01-11 | Nuance Communications, Inc. | Systems and methods for selecting from multiple phonectic transcriptions for text-to-speech synthesis |
US8249873B2 (en) * | 2005-08-12 | 2012-08-21 | Avaya Inc. | Tonal correction of speech |
JP2007058509A (ja) * | 2005-08-24 | 2007-03-08 | Toshiba Corp | 言語処理システム |
US20070050188A1 (en) * | 2005-08-26 | 2007-03-01 | Avaya Technology Corp. | Tone contour transformation of speech |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7633076B2 (en) * | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
US20080059190A1 (en) * | 2006-08-22 | 2008-03-06 | Microsoft Corporation | Speech unit selection using HMM acoustic models |
US8234116B2 (en) * | 2006-08-22 | 2012-07-31 | Microsoft Corporation | Calculating cost measures between HMM acoustic models |
US8510112B1 (en) * | 2006-08-31 | 2013-08-13 | At&T Intellectual Property Ii, L.P. | Method and system for enhancing a speech database |
US8510113B1 (en) | 2006-08-31 | 2013-08-13 | At&T Intellectual Property Ii, L.P. | Method and system for enhancing a speech database |
US7912718B1 (en) | 2006-08-31 | 2011-03-22 | At&T Intellectual Property Ii, L.P. | Method and system for enhancing a speech database |
US7860705B2 (en) * | 2006-09-01 | 2010-12-28 | International Business Machines Corporation | Methods and apparatus for context adaptation of speech-to-speech translation systems |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US20080129520A1 (en) * | 2006-12-01 | 2008-06-05 | Apple Computer, Inc. | Electronic device with enhanced audio feedback |
US8862988B2 (en) * | 2006-12-18 | 2014-10-14 | Semantic Compaction Systems, Inc. | Pictorial keyboard with polysemous keys for Chinese character output |
US8165879B2 (en) * | 2007-01-11 | 2012-04-24 | Casio Computer Co., Ltd. | Voice output device and voice output program |
JP2008171208A (ja) * | 2007-01-11 | 2008-07-24 | Casio Comput Co Ltd | 音声出力装置及び音声出力プログラム |
US9208783B2 (en) * | 2007-02-27 | 2015-12-08 | Nuance Communications, Inc. | Altering behavior of a multimodal application based on location |
US8938392B2 (en) * | 2007-02-27 | 2015-01-20 | Nuance Communications, Inc. | Configuring a speech engine for a multimodal application based on location |
JP4213755B2 (ja) * | 2007-03-28 | 2009-01-21 | 株式会社東芝 | 音声翻訳装置、方法およびプログラム |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8175879B2 (en) * | 2007-08-08 | 2012-05-08 | Lessac Technologies, Inc. | System-effected text annotation for expressive prosody in speech synthesis and recognition |
US8244534B2 (en) * | 2007-08-20 | 2012-08-14 | Microsoft Corporation | HMM-based bilingual (Mandarin-English) TTS techniques |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8620662B2 (en) * | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
KR101300839B1 (ko) * | 2007-12-18 | 2013-09-10 | 삼성전자주식회사 | 음성 검색어 확장 방법 및 시스템 |
US10002189B2 (en) * | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) * | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US8355919B2 (en) | 2008-09-29 | 2013-01-15 | Apple Inc. | Systems and methods for text normalization for text to speech synthesis |
US20100082328A1 (en) * | 2008-09-29 | 2010-04-01 | Apple Inc. | Systems and methods for speech preprocessing in text to speech synthesis |
US8396714B2 (en) * | 2008-09-29 | 2013-03-12 | Apple Inc. | Systems and methods for concatenation of words in text to speech synthesis |
US8352272B2 (en) * | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for text to speech synthesis |
US8712776B2 (en) * | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8352268B2 (en) * | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US8321225B1 (en) | 2008-11-14 | 2012-11-27 | Google Inc. | Generating prosodic contours for synthesized speech |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
US8862252B2 (en) * | 2009-01-30 | 2014-10-14 | Apple Inc. | Audio user interface for displayless electronic device |
US8380507B2 (en) * | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US9761219B2 (en) * | 2009-04-21 | 2017-09-12 | Creative Technology Ltd | System and method for distributed text-to-speech synthesis and intelligibility |
US10540976B2 (en) | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
WO2010142928A1 (en) | 2009-06-10 | 2010-12-16 | Toshiba Research Europe Limited | A text to speech method and system |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
JP5343293B2 (ja) * | 2009-07-08 | 2013-11-13 | 株式会社日立製作所 | 音声編集合成装置及び音声編集合成方法 |
US20110066438A1 (en) * | 2009-09-15 | 2011-03-17 | Apple Inc. | Contextual voiceover |
US20110110534A1 (en) * | 2009-11-12 | 2011-05-12 | Apple Inc. | Adjustable voice output based on device status |
US8682649B2 (en) * | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US8600743B2 (en) * | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8949128B2 (en) * | 2010-02-12 | 2015-02-03 | Nuance Communications, Inc. | Method and apparatus for providing speech output for speech-enabled applications |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9798653B1 (en) * | 2010-05-05 | 2017-10-24 | Nuance Communications, Inc. | Methods, apparatus and data structure for cross-language speech adaptation |
US8639516B2 (en) | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
US8327261B2 (en) * | 2010-06-08 | 2012-12-04 | Oracle International Corporation | Multilingual tagging of content with conditional display of unilingual tags |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
US8731932B2 (en) | 2010-08-06 | 2014-05-20 | At&T Intellectual Property I, L.P. | System and method for synthetic voice generation and modification |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US8688435B2 (en) | 2010-09-22 | 2014-04-01 | Voice On The Go Inc. | Systems and methods for normalizing input media |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
TWI413105B (zh) | 2010-12-30 | 2013-10-21 | Ind Tech Res Inst | 多語言之文字轉語音合成系統與方法 |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
KR101401427B1 (ko) * | 2011-06-08 | 2014-06-02 | 이해성 | 전자책 데이터 음성 합성 장치 및 그 방법 |
WO2012169844A2 (ko) * | 2011-06-08 | 2012-12-13 | 주식회사 내일이비즈 | 전자책 데이터 음성 합성 장치 및 그 방법 |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US20120330644A1 (en) * | 2011-06-22 | 2012-12-27 | Salesforce.Com Inc. | Multi-lingual knowledge base |
US20130030789A1 (en) * | 2011-07-29 | 2013-01-31 | Reginald Dalce | Universal Language Translator |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8660847B2 (en) * | 2011-09-02 | 2014-02-25 | Microsoft Corporation | Integrated local and cloud based speech recognition |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
US9195648B2 (en) * | 2011-10-12 | 2015-11-24 | Salesforce.Com, Inc. | Multi-lingual knowledge base |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) * | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
US10019994B2 (en) | 2012-06-08 | 2018-07-10 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US8452603B1 (en) * | 2012-09-14 | 2013-05-28 | Google Inc. | Methods and systems for enhancement of device accessibility by language-translated voice output of user-interface items |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US9959270B2 (en) | 2013-01-17 | 2018-05-01 | Speech Morphing Systems, Inc. | Method and apparatus to model and transfer the prosody of tags across languages |
US9418655B2 (en) * | 2013-01-17 | 2016-08-16 | Speech Morphing Systems, Inc. | Method and apparatus to model and transfer the prosody of tags across languages |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
CN112230878B (zh) | 2013-03-15 | 2024-09-27 | 苹果公司 | 对中断进行上下文相关处理 |
CN105190607B (zh) | 2013-03-15 | 2018-11-30 | 苹果公司 | 通过智能数字助理的用户培训 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
AU2014233517B2 (en) | 2013-03-15 | 2017-05-25 | Apple Inc. | Training an at least partial voice command system |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
EP3008964B1 (en) | 2013-06-13 | 2019-09-25 | Apple Inc. | System and method for emergency calls initiated by voice command |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
JP6249760B2 (ja) * | 2013-08-28 | 2017-12-20 | シャープ株式会社 | テキスト読み上げ装置 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9582295B2 (en) | 2014-03-18 | 2017-02-28 | International Business Machines Corporation | Architectural mode configuration |
US9916185B2 (en) | 2014-03-18 | 2018-03-13 | International Business Machines Corporation | Managing processing associated with selected architectural facilities |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9606986B2 (en) | 2014-09-29 | 2017-03-28 | Apple Inc. | Integrated word N-gram and class M-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US9865251B2 (en) * | 2015-07-21 | 2018-01-09 | Asustek Computer Inc. | Text-to-speech method and multi-lingual speech synthesizer using the method |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
CN106528535B (zh) * | 2016-11-14 | 2019-04-26 | 北京赛思信安技术股份有限公司 | 一种基于编码和机器学习的多语种识别方法 |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
US10521945B2 (en) * | 2016-12-23 | 2019-12-31 | International Business Machines Corporation | Text-to-articulatory movement |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
US10872598B2 (en) * | 2017-02-24 | 2020-12-22 | Baidu Usa Llc | Systems and methods for real-time neural text-to-speech |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10896669B2 (en) | 2017-05-19 | 2021-01-19 | Baidu Usa Llc | Systems and methods for multi-speaker neural text-to-speech |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US11017761B2 (en) | 2017-10-19 | 2021-05-25 | Baidu Usa Llc | Parallel neural text-to-speech |
US10796686B2 (en) | 2017-10-19 | 2020-10-06 | Baidu Usa Llc | Systems and methods for neural text-to-speech using convolutional sequence learning |
US10872596B2 (en) | 2017-10-19 | 2020-12-22 | Baidu Usa Llc | Systems and methods for parallel wave generation in end-to-end text-to-speech |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
JP7142333B2 (ja) | 2018-01-11 | 2022-09-27 | ネオサピエンス株式会社 | 多言語テキスト音声合成方法 |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
US11076039B2 (en) | 2018-06-03 | 2021-07-27 | Apple Inc. | Accelerated task performance |
WO2020012813A1 (ja) * | 2018-07-09 | 2020-01-16 | ソニー株式会社 | 情報処理装置、および情報処理方法、並びにプログラム |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
EP3662467B1 (en) * | 2018-10-11 | 2021-07-07 | Google LLC | Speech generation using crosslingual phoneme mapping |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
WO2020101263A1 (en) | 2018-11-14 | 2020-05-22 | Samsung Electronics Co., Ltd. | Electronic apparatus and method for controlling thereof |
KR102679375B1 (ko) * | 2018-11-14 | 2024-07-01 | 삼성전자주식회사 | 전자 장치 및 이의 제어 방법 |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
CN111798832B (zh) * | 2019-04-03 | 2024-09-20 | 北京汇钧科技有限公司 | 语音合成方法、装置和计算机可读存储介质 |
CN111858837B (zh) * | 2019-04-04 | 2024-09-24 | 北京嘀嘀无限科技发展有限公司 | 一种文本处理方法及装置 |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
WO2021056255A1 (en) | 2019-09-25 | 2021-04-01 | Apple Inc. | Text detection using global geometry estimators |
TWI725608B (zh) | 2019-11-11 | 2021-04-21 | 財團法人資訊工業策進會 | 語音合成系統、方法及非暫態電腦可讀取媒體 |
CN111179904B (zh) * | 2019-12-31 | 2022-12-09 | 出门问问创新科技有限公司 | 混合文语转换方法及装置、终端和计算机可读存储介质 |
CN111292720B (zh) * | 2020-02-07 | 2024-01-23 | 北京字节跳动网络技术有限公司 | 语音合成方法、装置、计算机可读介质及电子设备 |
CN112397050B (zh) * | 2020-11-25 | 2023-07-07 | 北京百度网讯科技有限公司 | 韵律预测方法、训练方法、装置、电子设备和介质 |
KR102583764B1 (ko) | 2022-06-29 | 2023-09-27 | (주)액션파워 | 외국어가 포함된 오디오의 음성 인식 방법 |
Family Cites Families (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4718094A (en) | 1984-11-19 | 1988-01-05 | International Business Machines Corp. | Speech recognition system |
US5146405A (en) | 1988-02-05 | 1992-09-08 | At&T Bell Laboratories | Methods for part-of-speech determination and usage |
JPH0225973A (ja) * | 1988-07-15 | 1990-01-29 | Casio Comput Co Ltd | 機械翻訳装置 |
JPH02110600A (ja) * | 1988-10-20 | 1990-04-23 | Matsushita Electric Ind Co Ltd | 音声規則合成装置 |
JPH03196198A (ja) * | 1989-12-26 | 1991-08-27 | Matsushita Electric Ind Co Ltd | 音声規則合成装置 |
JPH03245192A (ja) * | 1990-02-23 | 1991-10-31 | Oki Electric Ind Co Ltd | 外国語単語の発音決定方法 |
US5384893A (en) * | 1992-09-23 | 1995-01-24 | Emerson & Stern Associates, Inc. | Method and apparatus for speech synthesis based on prosodic analysis |
US5440481A (en) | 1992-10-28 | 1995-08-08 | The United States Of America As Represented By The Secretary Of The Navy | System and method for database tomography |
CA2119397C (en) | 1993-03-19 | 2007-10-02 | Kim E.A. Silverman | Improved automated voice synthesis employing enhanced prosodic treatment of text, spelling of text and rate of annunciation |
JPH06289889A (ja) * | 1993-03-31 | 1994-10-18 | Matsushita Electric Ind Co Ltd | 音声合成装置 |
JP2522154B2 (ja) | 1993-06-03 | 1996-08-07 | 日本電気株式会社 | 音声認識システム |
JPH0728825A (ja) * | 1993-07-12 | 1995-01-31 | Matsushita Electric Ind Co Ltd | 音声合成装置 |
US5592585A (en) | 1995-01-26 | 1997-01-07 | Lernout & Hauspie Speech Products N.C. | Method for electronically generating a spoken message |
DE69613338T2 (de) | 1995-08-28 | 2002-05-29 | Koninklijke Philips Electronics N.V., Eindhoven | Verfahren und system zur mustererkennung mittels baumstrukturierten wahrscheinlichkeitsdichten |
EP0788648B1 (en) | 1995-08-28 | 2000-08-16 | Koninklijke Philips Electronics N.V. | Method and system for pattern recognition based on dynamically constructing a subset of reference vectors |
JP2871561B2 (ja) | 1995-11-30 | 1999-03-17 | 株式会社エイ・ティ・アール音声翻訳通信研究所 | 不特定話者モデル生成装置及び音声認識装置 |
US5905972A (en) | 1996-09-30 | 1999-05-18 | Microsoft Corporation | Prosodic databases holding fundamental frequency templates for use in speech synthesis |
US6172675B1 (en) | 1996-12-05 | 2001-01-09 | Interval Research Corporation | Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data |
US5937422A (en) | 1997-04-15 | 1999-08-10 | The United States Of America As Represented By The National Security Agency | Automatically generating a topic description for text and searching and sorting text by topic using the same |
KR100238189B1 (ko) * | 1997-10-16 | 2000-01-15 | 윤종용 | 다중 언어 tts장치 및 다중 언어 tts 처리 방법 |
US6064960A (en) | 1997-12-18 | 2000-05-16 | Apple Computer, Inc. | Method and apparatus for improved duration modeling of phonemes |
US6230131B1 (en) | 1998-04-29 | 2001-05-08 | Matsushita Electric Industrial Co., Ltd. | Method for generating spelling-to-pronunciation decision tree |
US6076060A (en) | 1998-05-01 | 2000-06-13 | Compaq Computer Corporation | Computer method and apparatus for translating text to sound |
US6101470A (en) | 1998-05-26 | 2000-08-08 | International Business Machines Corporation | Methods for generating pitch and duration contours in a text to speech system |
US6401060B1 (en) | 1998-06-25 | 2002-06-04 | Microsoft Corporation | Method for typographical detection and replacement in Japanese text |
US6151576A (en) * | 1998-08-11 | 2000-11-21 | Adobe Systems Incorporated | Mixing digitized speech and text using reliability indices |
JP2000075878A (ja) | 1998-08-31 | 2000-03-14 | Canon Inc | 音声合成装置およびその方法ならびに記憶媒体 |
AU772874B2 (en) | 1998-11-13 | 2004-05-13 | Scansoft, Inc. | Speech synthesis using concatenation of speech waveforms |
JP2000206982A (ja) | 1999-01-12 | 2000-07-28 | Toshiba Corp | 音声合成装置及び文音声変換プログラムを記録した機械読み取り可能な記録媒体 |
US6185533B1 (en) | 1999-03-15 | 2001-02-06 | Matsushita Electric Industrial Co., Ltd. | Generation and synthesis of prosody templates |
JP3711411B2 (ja) * | 1999-04-19 | 2005-11-02 | 沖電気工業株式会社 | 音声合成装置 |
JP2000305585A (ja) | 1999-04-23 | 2000-11-02 | Oki Electric Ind Co Ltd | 音声合成装置 |
JP2001022375A (ja) * | 1999-07-06 | 2001-01-26 | Matsushita Electric Ind Co Ltd | 音声認識合成装置 |
CN1160699C (zh) | 1999-11-11 | 2004-08-04 | 皇家菲利浦电子有限公司 | 语音识别系统 |
GB2357943B (en) | 1999-12-30 | 2004-12-08 | Nokia Mobile Phones Ltd | User interface for text to speech conversion |
US7010489B1 (en) | 2000-03-09 | 2006-03-07 | International Business Mahcines Corporation | Method for guiding text-to-speech output timing using speech recognition markers |
US6910007B2 (en) * | 2000-05-31 | 2005-06-21 | At&T Corp | Stochastic modeling of spectral adjustment for high quality pitch modification |
JP2001350490A (ja) * | 2000-06-09 | 2001-12-21 | Fujitsu Ltd | テキスト音声変換装置及び方法 |
US6505158B1 (en) | 2000-07-05 | 2003-01-07 | At&T Corp. | Synthesis-based pre-selection of suitable units for concatenative speech |
US7069216B2 (en) * | 2000-09-29 | 2006-06-27 | Nuance Communications, Inc. | Corpus-based prosody translation system |
US6990450B2 (en) | 2000-10-19 | 2006-01-24 | Qwest Communications International Inc. | System and method for converting text-to-voice |
US6871178B2 (en) | 2000-10-19 | 2005-03-22 | Qwest Communications International, Inc. | System and method for converting text-to-voice |
US6978239B2 (en) | 2000-12-04 | 2005-12-20 | Microsoft Corporation | Method and apparatus for speech synthesis without prosody modification |
-
2003
- 2003-03-24 US US10/396,944 patent/US7496498B2/en not_active Expired - Fee Related
-
2004
- 2004-03-23 EP EP04006985A patent/EP1463031A1/en not_active Withdrawn
- 2004-03-23 JP JP2004085665A patent/JP2004287444A/ja active Pending
- 2004-03-23 BR BR0400306-3A patent/BRPI0400306A/pt not_active IP Right Cessation
- 2004-03-24 CN CN2004100326318A patent/CN1540625B/zh not_active Expired - Fee Related
- 2004-03-24 KR KR1020040019902A patent/KR101120710B1/ko not_active IP Right Cessation
Non-Patent Citations (4)
Title |
---|
Nick Campbell, 'Foreign-language speech synthesis', Proceedings 3rd ESCA-COCOSDA Int. Workshop in Speech Synthesis, November 1998 * |
Nick Campbell, 'Foreign-language speech synthesis', Proceedings 3rd ESCA-COCOSDA Int. Workshop in Speech Synthesis, November 1998* |
R. Sproat et al. 'EMU: An e-mail preprocessor for text-to-speech', Multimedia signal processing, December 1998 * |
R. Sproat et al. 'EMU: An e-mail preprocessor for text-to-speech', Multimedia signal processing, December 1998* |
Also Published As
Publication number | Publication date |
---|---|
EP1463031A1 (en) | 2004-09-29 |
KR20040084753A (ko) | 2004-10-06 |
BRPI0400306A (pt) | 2005-01-04 |
US20040193398A1 (en) | 2004-09-30 |
US7496498B2 (en) | 2009-02-24 |
JP2004287444A (ja) | 2004-10-14 |
CN1540625B (zh) | 2010-06-09 |
CN1540625A (zh) | 2004-10-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101120710B1 (ko) | 텍스트 처리 시스템 및 방법과, 컴퓨터 판독 가능 저장 매체 | |
US9218803B2 (en) | Method and system for enhancing a speech database | |
US6823309B1 (en) | Speech synthesizing system and method for modifying prosody based on match to database | |
US9761219B2 (en) | System and method for distributed text-to-speech synthesis and intelligibility | |
US7013278B1 (en) | Synthesis-based pre-selection of suitable units for concatenative speech | |
US8566099B2 (en) | Tabulating triphone sequences by 5-phoneme contexts for speech synthesis | |
Lu et al. | Implementing prosodic phrasing in chinese end-to-end speech synthesis | |
Watts | Unsupervised learning for text-to-speech synthesis | |
Macchi | Issues in text-to-speech synthesis | |
WO2009021183A1 (en) | System-effected text annotation for expressive prosody in speech synthesis and recognition | |
Hamza et al. | The IBM expressive speech synthesis system. | |
US7912718B1 (en) | Method and system for enhancing a speech database | |
KR101097186B1 (ko) | 대화체 앞뒤 문장정보를 이용한 다국어 음성합성 시스템 및 방법 | |
Stöber et al. | Speech synthesis using multilevel selection and concatenation of units from large speech corpora | |
US8510112B1 (en) | Method and system for enhancing a speech database | |
Kishore et al. | Building Hindi and Telugu voices using festvox | |
Polyákova et al. | Introducing nativization to spanish TTS systems | |
JP2001117583A (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
Kaur et al. | BUILDING AText-TO-SPEECH SYSTEM FOR PUNJABI LANGUAGE | |
Spiegel et al. | Synthesis of names by a demisyllable-based speech synthesizer (Spokesman) | |
Narupiyakul et al. | A stochastic knowledge-based Thai text-to-speech system | |
Malcangi et al. | Toward languageindependent text-to-speech synthesis | |
Wilson et al. | Enhancing phonological representations for multilingual speech technology | |
Kordi et al. | Multilingual speech processing (recognition and synthesis) | |
Khalifa et al. | SMaTTS: Standard malay text to speech system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |