KR100378898B1 - 발음 설정 방법, 컴퓨터 판독가능 매체를 포함하는 제조 물품 및, 그래픽 사용자 인터페이스 시스템 - Google Patents
발음 설정 방법, 컴퓨터 판독가능 매체를 포함하는 제조 물품 및, 그래픽 사용자 인터페이스 시스템 Download PDFInfo
- Publication number
- KR100378898B1 KR100378898B1 KR10-2000-0023242A KR20000023242A KR100378898B1 KR 100378898 B1 KR100378898 B1 KR 100378898B1 KR 20000023242 A KR20000023242 A KR 20000023242A KR 100378898 B1 KR100378898 B1 KR 100378898B1
- Authority
- KR
- South Korea
- Prior art keywords
- pronunciation
- user
- string
- characters
- word
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
Abstract
본 발명은, 사용자가 널리 공지된 발음을 갖는 평범한 단어와 오디오 신호에 따른 단어들 및 단어들의 일부를 발음하는 방식을 결정할 수 있도록 하는 방법 및 사용자 인터페이스에 관한 것이다. 사용자는 발음을 설정하거나 수정하기를 원하는 단어들을 입력하거나 선택한다. 단어에서 주어진 문자나 문자의 조합의 발음을 설정하기 위해, 사용자는 문자들을 선택하며, 평범한 단어들의 리스트를 제공받고, 이 단어의 발음 또는 그 일부의 발음은 선택된 문자들의 발음과 실질적으로 동일하다. 샘플의 리스트, 즉 평범한 단어들은 통상적인 사용량에 대한 상호관계의 빈도, 즉 디폴트 샘플 단어로써 지정되는 가장 평범한 단어에 근거하여 순위가 정해지며, 사용자는 가장 쉽게 선택되는 리스트내의 단어의 서브세트를 먼저 제공받는다. 또한, 본 발명은 문맥상의 차이점이나 개인의 선호도를 허용하기 위해 동일한 단어에 대한 몇 가지의 다른 발음들을 사전에 기억시킬 수 있도록 한다.
Description
본 발명은 사용자 인터페이스, 특히, 텍스트-대-스피치 및 자동 스피치 인식 시스템들에 사용되는 그래픽 사용자 인터페이스에 관한 것이다.
음성 또는 스피치 인식 및 생성 기술은 다른, 종래의 입출력 장치들에 추가하거나 대체함으로써 그 중요성이 증가하고 있다. 처리 및 기억 요청을 지원하는 하드웨어 구성요소들 및 사용된 중요한 소프트웨어 방법론의 개선 및 진보가 계속되는 것은 사실이다. 이러한 기술이 거대한 시장에서 일반적으로 많이 이용될 수 있으며 또한 사용되기 때문에, 스피치 인식 및 생성 시스템을 초기화하고 수정할 때 사용되는 기술에 대한 개선이 필요하게 되었다.
소수의 기존 제품은 사용자가 텍스트 파일을 합성 및 기록 스피치 기술에 의해 음독되도록 처리하는 것을 허용한다. 또한, 입력된 음성 언어를 처리하며, 단어 및 명령어를 식별하고, 동작이나 사건 등을 유발하는데 사용되는 소프트웨어 제품들이 있다. 일부 기존 제품들은 사용자가 사전에 단어들을 부가하는 것을 허용하며, 사전에 있는 단어의 발음을 수정하거나, 텍스트-대-스피치 엔진에 의해 생성된 사운드를 수정하도록 한다.
그러나, 이들 제품들을 사용하는 사용자들은 단어 파일들이 생성될 각각의 언어의 문법, 발음 및 언어학상의 규칙에 대한 특정 정보를 이해하여 이용해야한다. 더욱이, 이들 제품들 중 일부에서는, 발음을 나타내는 수단은 다른 지역에서 일반적으로 사용되지 않는 특정 발음키를 갖는 마크-업 언어를 숙달할 것을 요구한다.
그 결과, 이러한 제품들은 텍스트-대-스피치 및 자동 스피치 인식 기술에 대한 호환성 및 통상의 기술과의 액세싱이 잘 되지 않는다. 또한 이 제품들을 사용하려면, 사용자들은 언어학상의 규칙이나 프로그래밍 기술에서 전문가가 되어야 한다. 방언 형태의 지리학적인 문맥 또는 이름과 같은 임의의 단어의 발음에 대한 개인의 선호도 등, 문맥에 관계없이 발음을 결정할 때 이러한 제품들은 언어의 일반적인 규칙을 사용하기 때문에, 호환성에 있어서 부분적으로 저하된다.
또한, 기존의 제품들은 일반적으로, 발음 또는 발음에 대한 번역이 만족스럽지 못하였다. 이 제품들은 두문자어, 적절한 이름, 기술 용어, 상표 또는 다른 언어에서 유래된 단어 등을 포함하는 많은 형태의 단어에 대해서는 잘 실행하지 못하였다. 뿐만 아니라, 이러한 제품들은 문구나 문맥상의 위치(즉, 단어 "어드레스"는 명사 또는 동사로 사용될 때는 다르게 발음됨)에 의존하는 단어들의 발음의 변화에 대해서는 잘 실행하지 못하였다.
결과적으로, 비 전문적인 사용자가 텍스트-대-스피치 및 스피치 인식 기술의 장점을 더욱 많이 이용할 수 있도록, 단순한 방법으로 발음 규칙과 선택을 표현하는 사용자 인터페이스 방법 및 시스템이 필요하게 되었다.
본 발명의 목적은 기존의 텍스트-대-스피치 및 스피치 인식 시스템으로 상술된 문제들을 해결하는 것이다.
본 발명의 다른 목적은 단어들의 발음을 설정하여 수정하기 위한 간단하고도 직관적인 사용자 인터페이스를 제공하는 것이다.
본 발명의 또 다른 목적은 통상적으로 사용되지 않거나 심지어 언어의 일반적인 규칙을 따르지 않는 문자 군이나 사운드를 텍스트-대-스피치 및 스피치 인식 시스템에서 사용되도록 하는 것이다.
본 발명의 이러한 목적들 및 그 밖의 목적들은, 사용자가 널리 알려진 발음을 갖는 평범한 단어나 오디오 신호에 근거하여 단어 및 단어의 일부에 대한 발음 방식을 결정하도록 하는 사용자 인터페이스 및 방법에 의해 달성된다.
따라서, 일부 실시예들에 있어서, 사용자는 자신이 발음의 설정 또는 수정을 원하는 단어를 입력하거나 선택한다. 주어진 문자나 단어의 문자 조합의 발음을 설정하기 위해, 사용자는 문자(들)를 선택하며, 평범한 단어의 발음 또는 그 일부의 리스트를 제공받으며, 이 단어의 발음 또는 그 일부는 선택된 문자들의 가능한 발음과 실질적으로 동일하다. 바람직하게는. 샘플의 리스트, 즉 평범한 단어들은 통상적인 사용량에 대한 상호관계의 빈도, 즉 디폴트 샘플 단어로써 지정되는 가장 평범한 단어에 근거하여 순위가 정해지며, 사용자는 가장 쉽게 선택되는 리스트내의 단어의 서브세트를 먼저 제공받는다.
또한, 본 발명의 실시예들은 문맥상의 차이점과 개인적인 선호도를 위해, 동일한 단어에 대한 몇몇의 다른 발음을 사전에 저장하는 것을 허용한다.
다른 실시예들은 다른 언어에 대한 복합 사전들의 저장을 제공하지만, 사용자가 특정 단어들, 단어들의 일부분 및 번역에 대하여 다양한 사전으로부터 발음을 선택하도록 한다. 그 결과, 심지어, 사운드가 언어의 규칙에 따라 문자나 문자군이 일반적으로 일치하지 않을때에도, 사용자는 시스템에서 사용할 수 있는 사운드를 가진 단어를 생성하여 저장할 수 있다.
또한, 단어의 문자들의 발음들을 수정하는 것에 부가하여, 주어진 언어의 규칙이 음절로써 그룹으로 제공되지 않더라도, 본 발명의 실시예는 사용자가 단어를 음절들이나, 음절들과 같은 문자군 또는 단어의 구성성분으로 쉽게 분리하도록 하며, 또한, 이러한 음절들이 강조되어야 하는 것을 특정화 할 수 있다. 여기에 사용된 바와 같이, 단어 음절은 통상의 음절 뿐만아니라 다른 그룹들로 언급하였다.
도 1은 본 발명의 실시예에 따른 시스템을 도시하는 블록도.
도 2는 본 발명에 따른 도 1의 시스템을 사용하는 본 발명에 따른, 사용자가 단어 발음들을 수정할 수 있게 하는 전반적인 과정을 도시하는 흐름도
도 3a 및 3b는 본 발명의 실시예에 따른, 사용자가 단어 발음들을 수정할 수 있게 하는 과정을 보다 상세히 도시하는 흐름도.
도 4는 단어의 발음을 테스트하는 과정을 도시하는 흐름도.
도 5 내지 9는 본 발명의 일실시예의 그래픽 사용자 인터페이스를 나타내는 스크린 디스플레이의 다이어그램을 도시하는 도면.
* 도면의 주요 부분에 대한 부호의 설명 *
10: TTS 및 ASR 시스템 12: 컴퓨터 장치 및 시스템
14: 마이크로제어기 또는 마이크로프로세서 16: 메모리 장치
18: 디스플레이 장치 20: 스피커
22: 입력 장치 24: 마이크로폰
26: 발음 선택 프로그램 28: 사전 데이터베이스
30: 발음 데이터베이스 32: TTS 모듈
지금부터, 본 발명의 실시예들을 도면을 참조하여 설명한다.
텍스트-대-스피치("TTS") 및 자동 스피치 인식("ASR") 시스템(10)을 도 1에 도시하였다. 이 시스템(10)은 마이크로 제어기 또는 마이크로프로세서(14)와 하나 또는 그 이상의 메모리 장치(16)들을 가진 컴퓨터 장치 또는 시스템(12)을 포함한다. 또한, 상기 시스템(10)은 하나 이상의 디스플레이 장치(18), 스피커(20), 하나 이상의 입력 장치(22) 및 마이크로폰(24)을 포함한다. 이러한 모든 구성품들은 종래의 것이며, 본 기술분야의 통상의 지식을 가진 사람들에게는 이미 공지되어 있으므로, 더 이상의 설명을 생략한다.
메모리 장치 또는 장치들(16)은 도시된 바와 같이, 상기 컴퓨터 장치(12)에 합체될 수 있고, 또는 컴퓨터(12)로부터 떨어져 위치될 수 있으며, 네트워크나 다른 접속장치를 통해서 접속될 수 있으며, 본 발명에 따라 몇몇의 프로그램들 및 데이터 파일들을 저장할 수 있다. 발음 선택 프로그램(26)은, 사용자 인터페이스 생성용 마이크로 제어기(14)에서 실행될 때, 사용자 입력의 처리 및 데이터 베이스(28, 30)로부터 데이터의 검색을 가능하게 한다. 사전 데이터베이스(28)는 많은 데이터베이스 또는 데이터 파일로서, 시스템에 의해 처리되는 각각의 언어 중 하나이고, 관련된 하나 이상의 발음 및 문자열을 저장한다. 발음 데이터베이스(30)들은 많은 데이터베이스 또는 데이터 파일들이며, 각각의 언어들중 하나이고, 관련된 많은 샘플 단어 및 문자 그룹 또는 문자를 각각 갖는 발음 기록 즉 발음 데이터를 포함하며, 발음될 수 있는 문자를 실질적으로 동일한 방식으로 발음되는 문자를 포함한다. 이러한 샘플 단어는 발은 데이터베이스(30)에서 언어에 대한 문법 및 언어학 규칙에 근거하여 선택된다. 바람직하게는, 각 문자 또는 문자 그룹(예를 들면, dipthong)에 대한 샘플 단어는 일반적으로 문자의 발음에 있어서 사용빈도가 많은 것으로부터 적은 것으로 배열된다.
두 개의 데이터베이스를 도시하였지만, 사전 데이터베이스(28) 및 발음 데이터베이스(30)는 주어진 장비 또는 사용량의 필요를 만족시키거나 본원에 기재된바와 같은 발음 데이터의 검색을 설정하는 하나의 데이터 파일 도는 다른 형태로 구성될 수 있다.
시스템(10)은 메모리(16)에 저장된 TTS 모듈(32) 및 ASR 모듈(34)을 더 포함한다. 이러한 모듈들은 종래 기술이며, 본 기술분야의 통상의 지식을 가진 사람들에게는 이미 공지되어 있으며, 예를 들면, IBM 으로부터 이용가능한 ViaVoice소프트웨어 프로그램이 있다. 이러한 모듈(32, 34)은 디지털 데이터로 저장된 텍스트를 스피커 출력용 오디오 신호로 전환하며, 마이크로폰(24)으로부터 수신된 오디오 신호를 디지털 데이터로 전환한다. 이 모듈은 사전 데이터베이스(28)에 저장된 발음 데이터를 검색하여 이용한다.
발음 선택 프로그램(26)에 의해 실행될 때, 사용자로 하여금 사전 데이터베이스(28)들에 저장된 발음 데이터를 쉽게 수정할 수 있게 하는 방법이 도 2에 도시되며, 보다 상세하게는 도 3a 및 3b에 도시되어 있다. 도 2를 참조하면, 본 발명에 따라서, 단어 또는 이름 등이 될 수 있는 문자열은 단계(50)에서 디스플레이 장치(18)상에 표시된다. 이해하는 바와 같이, 발음들의 변화는 모음 또는 "ou", "ch", "th", 또는 "gh"등의 문자군이나 모음들과 같은 개별적인 문자들에 연결될 수 있다. 단계(54)에서, 프로그램(26)은 선택된 문자 또는 문자군에 관련된 샘플 단어를 검색하도록 발음 데이터베이스(30)에 요구한다. 문자 또는 문자군이 발음 데이터베이스(30)에 없는 경우, 에러 메시지가 전송되거나, 문자들 중 하나의 문자에 대한 샘플 워드가 검색될 수 있다. 일부 또는 모든 샐플 워드는 단계(56)에서 디스플레이되며, 사용자는 단계(58)에서 단어 중 하나의 단어를 선택한다. 이어서, 단계(60)에서, 프로그램(26)은 선택된 문자(들)의 발음을 제공하기 위해, 샘플 단어를 사용하여 문자열에 대한 발음 데이터를 생성한다. 이 열과 발음 데이터는 단계(62)에서 사전 데이터베이스(28)에 저장되며, 이 열은 TTS 모듈(32)의 출력에 의해 가청 출력되거나, 스피커 확인 또는 ASR 모듈(34)에 대한 발음을 생성하기 위해 사용될 수 있다.
프로그램(26)에 의해 실행되는 처리 과정은 도 3a 및 3b 에 보다 상세히 도시하였다. 이 처리 과정동안 사용된 사용자 인터페이스의 예시적인 실시예는 도 5 내지 도9에 도시되어 있다. 도 5에 도시된 바와 같이, 디스플레이 장치(18)에 디스플레이된 인터페이스(190)는, 수동 입력 또는 선택된 문자의 디스플레이에 대한 입력 박스(200), 단어가 선택될 때 까지 동작하지 않는 테스트 버튼(202), 단어가 선택될 때까지 비슷하게 동작하지 않는 수정 버튼(204), "사운드", "엑센트" 및 "음절"(또는 "군") 선택으로 구성된 선택 리스트(206), 및 워크스페이스(208)을 포함한다.
상술한 바와 같이, 시스템(10)은 바람직하게는, 복합 사전 및 다양한 언어들을 나타내는 발음 데이터베이스들을 포함한다. 도 3a를 참조하면, 사용자는 단계(70)에서 언어들 중 하나의 언어를 선택하며, 프로그램(26)은 단계(72)에서 선택된 언어에 대한 사전을 개방한다. 단어 또는 다른 문자열을 선택하기 위해, 사용자가 데이터베이스(76)로부터 기존의 단어를 선택하는 경우에, 사용자는 단계(74)에서 선택된 사전을 브라우저하기 위해 선택할 수 있다. 또는, 사용자는 단계(78)에서 타이핑 등에 의해 단어를 입력 박스(200)에 입력할 수 있다.
그 다음, 단계(80)에서, 사용자는 단어의 발음을 테스트 버튼(202)을 선택하여 테스트할 것인지를 선택할 수 있다. 단어 발음을 테스트하는 과정은 도 4를 참조하여 이하 설명한다.
단계(82)에서, 사용자는 수정 버튼(204)를 선택하여, 단어의 발음을 선택하여 수정할 수 있다. 그렇지 않으면, 사용자는 단계(84)에서 다이알로그(190)의 "OK" 버튼을 선택하여 단어 및 현재의 발음을 저장할 수 있다. 상기 단어가 단계(86)에서 상기 사전 데이터베이스(28)에 존재하는 단어가 아니면, 상기 단어 및 발음 데이터는 단계(88)에서 사전에 저장된다. 도 4를 참조하여 이하 설명하면, 수정되지 않은 단어에 대한 발음 데이터는 선택된 언어의 규칙에 근거하여 디폴트 발음을 사용하여 생성된다. 이 단어가 이미 존재하면, 단계(90)에서, 새로운 발음 데이터가 사전에 저장되며, 대체 발음들은 문맥상의 전후관계로부터 참조될 수 있다.
사용자가 상기 발음을 수정하기를 원하는 경우, 선택 리스트(206)의 3개의 선택이 이용될 수 있다.
입력 박스(200)에 현재에 나타나는 선택된 워드는 개별적인 문자들로 분리되어 워크스페이스(208)로 복제된다. 도 6을 보면, 워크스페이스(208)는 단어 조각(워크스페이스(208)내의 점선)을 보여주며, 현재의 발음에 대한 엑센트 마크(워크스페이스(208)내의 아포스트로피)를 도시한다.
도 7을 보면, 단계(92)에서, 사용자가 음절 조각을 수정하기 위해 선택하는 경우, 심볼(210)의 분리 지점이 디스플레이된다. 단계(94)에서, 심볼(210)은 소망의 음절 분리 지점을 식별하기 위해 사용자에 의해 이동될 수 있다. 단계(96)에서, 프로그램(26)은 선택된 분리 지점에서 임의의 존재하는 음절을 2 개의 음절로 분리할 수 있다.
사용자가 단계(98)에서, 엑센트를 수정하기 위해 선택하는 경우, 엑센트 형 선택 아이콘 그룹(212)은 인터페이스(190)에 디스플레이된다(도 8 참조). 이 그룹(212)은 3 개의 아이콘 즉, 제 1 엑센트(또는 큰 강세) 아이콘(212a), 제 2 엑센트(작은 강세) 아이콘(212b) 및 무 엑센트(강세 없음) 아이콘(212c)등이다. 사용자는 단계(100)에서, 아이콘들 중 하나를 클릭하여 엑센트 레벨을 선택한다. 그 뒤 사용자는 단계(102)에서, 음절 뒤를 뒤따르는 워크스페이스(208)내의 박스를 선택함으로써 음절을 선택한다. 프로그램(26)은 단계(104)에서, 선택된 엑센트 레벨을 갖는 선택된 음절을 식별하고, 선택된 언어 규칙에 따라 나머지 엑센트를 조절할 수도 있다. 예를 들면, 이 언어가 임의의 하나의 제 1 엑센트 음절을 가지며, 사용자가 제 1 엑센트에 대한 제 2 엑센트를 선택하는 경우, 프로그램은 제 1 엑센트를 제 2 엑센트로 변경할 수 있고, 나머지 엑센트를 전반적으로 삭제할 수 있다.
지금부터, 도 3b를 참조하면, 사용자가 단계(106)에서, 리스트(206)의 문자 사운드를 수정하기 위해 선택하는 경우, 사용자는 단계(108)에서, 워크스페이스(208)의 하나 이상의 문자를 선택한다. 프로그램(26)은 선택된 언어에 대한 발음 데이터베이스(30)로부터 샘플 단어를 검색하며, 상기 선택된 언어의 발음 또는 그 일부분은 단계(100)에서, 선택된 문자(들)와 합체되거나 연결된다. 도 9를 보면, 샘플 단어 "buy"는 선택된 문자"i"의 발음에 대해 단어 리스트(214)에서 강조된다. 사용자는 샘플 단어의 발음을 청취할 수도 있다. 도 9에 도시된 바와 같이, 샘플 단어의 2 또는 3개만이, 사용자가 부가의 단어를 보거나 청취하도록 선택할 수 있는 단어 리스트(214)에 도시될 수 있다.
단계(114)에서, 사용자가 하나의 샘플 단어, 발음 데이터 또는 그 일부를 선택하는 경우, 단계(116)에서, 선택된 단어를 워크스페이스(208)에 포함된 선택된 단어내에서 선택된 문자(들)에 관계된다. 그 뒤, 수정된 단어는 상술된 처리과정에 따라 수정되어 저장되며, 후술되는 바와 같이 테스트될 수 있다.
본 발명의 특징에 따르면, 영어를 포함하는 대부분의 언어들은 다른 언어로부터 파생된 단어를 포함한다. 그러므로, 단계(118)에서, 사용자에게는 다른 언어로부터 선택된 문자에 대한 발음을 선택할 수 있는 선택권이 주어진다(예를 들면, "more"를 선택한 이후의 단어 리스트(214)). 그 뒤, 사용자는 단계(120)에서, 소망의 언어를 선택하고, 상기 프로그램(26)은 단계(122)에서, 선택된 언어에 대한 발음 데이터베이스 파일(30)로부터 선택된 문자(들)에 관련되는 샘플 단어들을 검색한다. 이 샘플 단어들은 상술된 바와 같이, 사용자의 선택을 위해 제공된다.
그 결과, 간단하고도 호환성이 있는 처리 과정이 달성되어, 사용자가 단어의 발음을 수정하도록 할 수 있다. 이 과정의 호환성에 대해 예를 들면, 도 9에서 선택된 단어 "michael"는 영어 발음 "Mik'-el"로부터 히브리 이름 "Mee-cha'-el"까지, "a"와 "e" 및 "i"와 "ch" 사이의 음절 분리를 부가하고, 새로운 음절 "cha"에서의 제 1 엑센트를 대신하고, 평범한 단어에 근거하여 "i", "ch", "a" 및 "e"에 대한 적절한 발음(예를 들면, 히브리 언어 사전으로부터)을 선택함으로써, 수정될 수 있다. 따라서, 문법 또는 언어학에 대한 전문성이 요구되지 않는다.
단어의 발음을 테스트하는 과정이 도 4에 도시되어 있다. 단계(140)에서, 단어가 이미 사전 데이터베이스(28)에 포함되어 있는 경우, 저장된 발음이 단계(142)에서 검색된다. 상기 단어에 대하여 하나 이상의 발음이 존재하는 경우, 사용자는 하나를 선택하거나 사용된 디폴트값을 선택하도록 촉구될 수 있고, 사용자가 단계(144)에서, 프로그램(26)을 사용하여 발음을 선택하는 경우, 그 발음 데이터는 단계(146)에서 검색되고, 반면에, 디폴트 발음은 단계(148)에서 선택될 수 있다.모든 문자들이 단계(150)에서 검토될 때, 프로그램(26)은 단계(152)에서 수신된 문자 발음을 이용하여 단어에 대한 발음을 생성한다. 마지막으로, TTS 모듈은 단계(154)에서, 수신되거나 생성된 단어 발음을 가청 출력으로 출력한다.
상술된 시스템은 단일 단어에 대한 여러개의 복합 발음을 허용하기 때문에, TTS 모듈은 그 단어에 대하여 어떤 발음이 의도되었는지를 식별하여야 한다. TTS 모듈은 사용된 단어의 내용에 근거하여 발음을 식별할 수 있다. 예를 들면, 발음들이 네트워크상의 사용자처럼 오브젝트와 관련될 수 있으므로, 특정 사용자에 대하여 의도된 메시지가 발음의 정확한 선택을 유발한다. 다른 예를 들면, TTS 모듈은 명사 또는 동사로써 사용된 단어를 식별하여, 적절한 발음을 선택할 수 있다.
본 발명에 대해 양호한 실시예를 참조하여 설명하였지만, 본 발명의 정신 및 범위를 벗어나지 않고서, 후술되는 청구범위의 범주 내에서 본 기술분야의 숙련된 자들에 의해 많은 변화 및 수정이 이루어질 수 있다.
Claims (23)
- 사용자가 문자열의 발음을 설정할 수 있도록 허용하는, 컴퓨터 상에서 구현될 발음 설정 방법에 있어서,상기 사용자가 상기 열에서 하나 이상의 문자들을 선택하도록 허용하는 단계,상기 선택된 하나 이상의 문자들의 가능한 발음들을 나타내는 단어들 또는 단어들의 일부의 복수의 샘플들을 상기 컴퓨터에 의해 액세스할 수 있는 데이터베이스로부터 검색하여, 상기 검색된 샘플들을 디스플레이하는 단계,상기 사용자가 상기 디스플레이된 샘플들 중 하나를 선택하도록 허용하는 단계 및,상기 사용자가 선택한 샘플과 관련된 발음이 할당되는 상기 선택된 하나 이상의 문자들을 갖는 문자열을 포함하는 제 1 발음 데이터를 저장하는 단계를 포함하는, 발음 설정 방법.
- 제 1 항에 있어서,상기 선택된 하나 이상의 문자들에 대한 발음으로써 사용자가 선택한 샘플에 의해 표시되는 발음을 사용하여 상기 문자열의 발음을 생성하는 단계 및, 이 생성된 발음을 가청 출력으로 출력하는 단계를 더 포함하는, 발음 설정 방법.
- 제 2 항에 있어서,상기 사용자가 상기 생성된 발음을 가청 출력한 후, 상기 디스플레이된 샘플 들중 다른 샘플을 선택하도록 하는 단계를 더 포함하는, 발음 설정 방법.
- 제 1 항에 있어서,상기 사용자가 디스플레이된 제 2 샘플을 선택하도록 하는 단계 및,상기 사용자가 선택한 상기 제 2 샘플에 의해 표시되는 발음이 할당되는 상기 선택된 하나 이상의 문자들을 갖는 문자열을 포함하는 제 2 발음 데이터를 저장하는 단계를 더 포함하는, 발음 설정 방법.
- 제 4 항에 있어서,상기 문자열을 포함하는 텍스트 파일의 가청 출력을 생성하는 텍스트-대-스피치 처리 과정 동안, 상기 제 1 및 제 2 발음 데이터 중 하나의 데이터를 선택하는 단계를 더 포함하는, 발음 설정 방법.
- 제 5 항에 있어서,상기 제 1 및 제 2 발음 데이터를 각각 제 1 및 제 2 오브젝트에 합체시키는 단계 및, 상기 제 1 및 제 2 오브젝트 중에서 하나의 오브젝트를 선택하는 단계를 더 포함하며;상기 제 1 및 제 2 발음 데이터 중 하나의 데이터를 선택하는 단계는 상기 선택된 오브젝트에 관련된 발음 데이터를 선택하는 단계를 포함하는, 발음 설정 방법.
- 제 4 항에 있어서,스피치 인식 처리 과정 동안, 사용자에 의해 문자열의 발음을 인식하는 단계 및, 이 인식된 발음과 가장 밀접하게 정합하는 상기 제 1 및 제 2 발음 데이터 중 하나의 데이터를 선택하는 단계를 더 포함하는, 발음 설정 방법.
- 제 7 항에 있어서,상기 제 1 및 제 2 발음 데이터를 각각 상기 제 1 및 제 2 오브젝터에 합체시키는 단계 및, 상기 선택된 발음 데이터에 관련된 상기 제 1 및 제 2 오브텍트중 하나의 오브젝트를 선택하는 단계를 더 포함하는, 발음 설정 방법.
- 제 1 항에 있어서,상기 사용자가 분리된 음절로써 상기 문자열의 일부를 식별하도록 하는 단계를 더 포함하며;상기 제 1 발음 데이터를 저장하는 단계는 이 식별된 분리 음절을 표시하는 데이터를 저장하는 단계를 포함하는, 발음 설정 방법.
- 제 1 항에 있어서,상기 사용자가 엑센트에 관련된 상기 문자열의 일부를 식별하도록 하는 단계를 더 포함하며;상기 제 1 발음 데이터를 저장하는 단계는 상기 식별된 엑센트를 표시하는 데이터를 저장하는 단계를 포함하는, 발음 설정 방법.
- 제 1 항에 있어서,상기 문자열은 상기 사용자로부터 입력으로서 수신되는, 발음 설정 방법.
- 제 1 항에 있어서,상기 문자열은 사용자에 의해, 상기 컴퓨터에 엑세싱 가능한 사전 데이터베이스로부터 선택되는, 발음 설정 방법.
- 제 1 항에 있어서,상기 사용자가 선호하는 언어를 선택하도록 하는 단계를 더 포함하며;상기 선택된 하나 이상의 문자들의 가능한 발음들을 표시하는 샘플들을 검색하는 단계는, 복수의 언어 데이터베이스들로부터 상기 선호하는 언어에 대한 데이터베이스를 선택하는 단계 및 상기 선택된 데이터베이스로부터 상기 샘플들을 검색하는 단계를 포함하는, 발음 설정 방법.
- 제 13 항에 있어서,상기 사용자가 상기 선택된 하나 이상의 문자들에 대한 제 2 언어를 선택하도록 하는 단계 및, 이 선택된 제 2 언어에 대응하는 제 2 데이터베이스로부터 부가의 단어 샘플들을 검색하는 단계를 더 포함하는, 발음 설정 방법.
- 실행시, 사용자가 문자열의 발음을 설정하도록 허용하는 그래픽 사용자 인터페이스 방법을 컴퓨터가 실행하도록 하는 프로그램 코드를 저장하는 컴퓨터 판독가능 매체를 포함하는 제조 물품에 있어서,상기 방법은,상기 사용자가 상기 열에서 하나 이상의 문자를 선택하도록 허용하는 단계,상기 선택된 하나 이상의 문자들의 가능한 발음들을 표시하는 단어들 또는 단어의 일부의 복수의 샘플을 컴퓨터에 의해 액세스할 수 있는 데이터베이스로부터 검색하여, 상기 검색된 샘플들을 디스플레이하는 단계,상기 사용자가 상기 디스플레이된 샘플들 중 하나의 샘플을 선택하도록 허용하는 단계 및,상기 사용자에 의해 선택된 샘플과 관련된 발음이 할당되는 상기 선택된 하나 이상의 문자들을 갖는 문자열을 포함하는 제 1 발음 데이터를 저장하는 단계를 포함하는, 제조 물품.
- 제 15 항에 있어서,상기 프로그램 코드는 상기 컴퓨터를 통해, 상기 선택된 하나 이상의 문자들에 대한 발음으로써 상기 사용자가 선택한 샘플에 의해 표시된 발음을 이용하여 상기 문자열의 발음을 생성하고, 이 생성된 발음을 가청 출력으로 출력하는, 제조 물품.
- 제 16 항에 있어서,상기 프로그램 코드는 상기 컴퓨터를 통해, 상기 생성된 발음을 가청 출력한 이후, 상기 사용자가 상기 디스플레이된 샘플들 중 다른 샘플을 선택하도록 하는, 제조 물품.
- 제 15 항에 있어서,상기 프로그램 코드는 상기 컴퓨터를 통해, 상기 사용자가 상기 디스플레이된 샘플들 중 제 2 샘플을 선택하도록 하고, 상기 사용자가 선택한 제 2 샘플에 의해 표시된 발음이 할당되는 상기 선택된 하나 이상의 문자들을 갖는 문자열을 포함하는 제 2 발음 데이터를 저장하는, 제조 물품.
- 제 18 항에 있어서,상기 프로그램 코드는 상기 컴퓨터를 통해, 상기 문자열을 포함하는 텍스트 파일의 가청 출력을 생성하는 텍스트-대-스피치 처리 과정동안, 상기 제 1 및 제 2 발음 데이터 중 하나의 데이터를 선택하는, 제조 물품.
- 제 19 항에 있어서,상기 프로그램 코드는 상기 컴퓨터를 통해, 상기 제 1 및 제 2 발음 데이터를 각각 제 1 및 제 2 오브젝트에 합체시키고, 상기 제 1 및 제 2 오브젝트 중 하나의 오브젝트를 선택하며;상기 제 1 및 제 2 발음 데이터 중 하나의 데이터를 선택하는 단계는 상기 선택된 오브젝트에 관련된 발음 데이터를 선택하는 단계를 포함하는, 제조 물품.
- 제 18 항에 있어서,상기 프로그램 코드는 컴퓨터를 통해, 스피치 인식 처리 과정 동안, 사용자에 의해 상기 문자열의 발음을 인식시키고, 이 인식된 발음에 가장 밀접하게 정합하는 상기 제 1 및 제 2 발음 데이터들 중 하나의 데이터를 선택하는, 제조 물품.
- 삭제
- 사용자가 문자열의 발음을 수정하도록 허용하는 그래픽 사용자 인터페이스 시스템에 있어서,복수의 제 1 문자열과 관련된 발음 데이터을 포함하는 메모리 장치에 저장된 사전 데이터베이스,하나 이상의 문자들을 각각 포함하고 복수의 단어들과 각각 관련된 복수의 제 2 문자열을 포함하는 메모리 장치에 저장된 발음 데이터베이스로서, 상기 각각의 단어는 상기 관련된 제 2 문자열이 발음될 수 있는 하나의 방식에 실질적으로 동일한 패션으로 상기 단어에서 발음되는 하나 이상의 문자들을 가지는, 상기 발음 데이터베이스,사용자가 상기 사전 데이터베이스로부터 제 1 문자열들 중 하나의 문자열을 선택하고, 상기 선택된 열로부터 하나 이상의 문자들을 선택하며, 상기 발음 데이터베이스에서의 상기 단어들중 하나를 선택하도록 허용하는 입력/출력 시스템 및,상기 사용자에 의해 선택된 단어 샘플에 관련된 발음이 할당되는 상기 선택된 하나 이상의 문자들을 갖는 상기 선택된 제 1 문자열을 포함하는 발음 데이터를 생성하는 프로그래밍할 수 있는 제어기를 포함하는, 그래픽 사용자 인터페이스 시스템.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US09/303,057 US7292980B1 (en) | 1999-04-30 | 1999-04-30 | Graphical user interface and method for modifying pronunciations in text-to-speech and speech recognition systems |
US09/303,057 | 1999-04-30 | ||
US9/303,057 | 1999-04-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20000077120A KR20000077120A (ko) | 2000-12-26 |
KR100378898B1 true KR100378898B1 (ko) | 2003-04-07 |
Family
ID=23170358
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR10-2000-0023242A KR100378898B1 (ko) | 1999-04-30 | 2000-05-01 | 발음 설정 방법, 컴퓨터 판독가능 매체를 포함하는 제조 물품 및, 그래픽 사용자 인터페이스 시스템 |
Country Status (6)
Country | Link |
---|---|
US (1) | US7292980B1 (ko) |
EP (1) | EP1049072B1 (ko) |
JP (1) | JP4237915B2 (ko) |
KR (1) | KR100378898B1 (ko) |
CA (1) | CA2306527A1 (ko) |
DE (1) | DE60020773T2 (ko) |
Families Citing this family (101)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7149690B2 (en) | 1999-09-09 | 2006-12-12 | Lucent Technologies Inc. | Method and apparatus for interactive language instruction |
KR100464019B1 (ko) * | 2000-12-29 | 2004-12-30 | 엘지전자 주식회사 | 음성 인식기의 발음 사전 편집시 발음열 디스플레이 방법 |
KR100352748B1 (ko) * | 2001-01-05 | 2002-09-16 | (주) 코아보이스 | 온라인 학습형 음성합성 장치 및 그 방법 |
US6513008B2 (en) * | 2001-03-15 | 2003-01-28 | Matsushita Electric Industrial Co., Ltd. | Method and tool for customization of speech synthesizer databases using hierarchical generalized speech templates |
GB2388286A (en) * | 2002-05-01 | 2003-11-05 | Seiko Epson Corp | Enhanced speech data for use in a text to speech system |
GB2393369A (en) * | 2002-09-20 | 2004-03-24 | Seiko Epson Corp | A method of implementing a text to speech (TTS) system and a mobile telephone incorporating such a TTS system |
US7389228B2 (en) * | 2002-12-16 | 2008-06-17 | International Business Machines Corporation | Speaker adaptation of vocabulary for speech recognition |
CA2501888C (en) | 2003-03-14 | 2014-05-27 | Nippon Telegraph And Telephone Corporation | Optical node device, network control device, maintenance-staff device, optical network, and 3r relay implementation node decision method |
CN101699505B (zh) | 2003-04-25 | 2016-02-17 | 苹果公司 | 一种基于网络的媒体系统 |
US9406068B2 (en) | 2003-04-25 | 2016-08-02 | Apple Inc. | Method and system for submitting media for network-based purchase and distribution |
US7805307B2 (en) | 2003-09-30 | 2010-09-28 | Sharp Laboratories Of America, Inc. | Text to speech conversion system |
US7844548B2 (en) | 2003-10-15 | 2010-11-30 | Apple Inc. | Techniques and systems for electronic submission of media for network-based distribution |
US20060277044A1 (en) * | 2005-06-02 | 2006-12-07 | Mckay Martin | Client-based speech enabled web content |
JP2009525492A (ja) * | 2005-08-01 | 2009-07-09 | 一秋 上川 | 英語音、および他のヨーロッパ言語音の表現方法と発音テクニックのシステム |
US8249873B2 (en) | 2005-08-12 | 2012-08-21 | Avaya Inc. | Tonal correction of speech |
US20070050188A1 (en) * | 2005-08-26 | 2007-03-01 | Avaya Technology Corp. | Tone contour transformation of speech |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US7827162B2 (en) | 2006-05-15 | 2010-11-02 | Apple Inc. | Media package format for submission to a media distribution system |
US7962634B2 (en) | 2006-05-15 | 2011-06-14 | Apple Inc. | Submission of metadata content and media content to a media distribution system |
US8015237B2 (en) | 2006-05-15 | 2011-09-06 | Apple Inc. | Processing of metadata content and media content received by a media distribution system |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US7873517B2 (en) * | 2006-11-09 | 2011-01-18 | Volkswagen Of America, Inc. | Motor vehicle with a speech interface |
JP4894533B2 (ja) * | 2007-01-23 | 2012-03-14 | 沖電気工業株式会社 | 音声ラベリング支援システム |
US8719027B2 (en) * | 2007-02-28 | 2014-05-06 | Microsoft Corporation | Name synthesis |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US20090259502A1 (en) * | 2008-04-10 | 2009-10-15 | Daniel David Erlewine | Quality-Based Media Management for Network-Based Media Distribution |
US9076176B2 (en) * | 2008-05-05 | 2015-07-07 | Apple Inc. | Electronic submission of application programs for network-based distribution |
US9342287B2 (en) | 2008-05-05 | 2016-05-17 | Apple Inc. | Software program ratings |
US8990087B1 (en) * | 2008-09-30 | 2015-03-24 | Amazon Technologies, Inc. | Providing text to speech from digital content on an electronic device |
US8655660B2 (en) * | 2008-12-11 | 2014-02-18 | International Business Machines Corporation | Method for dynamic learning of individual voice patterns |
US20100153116A1 (en) * | 2008-12-12 | 2010-06-17 | Zsolt Szalai | Method for storing and retrieving voice fonts |
US8160881B2 (en) * | 2008-12-15 | 2012-04-17 | Microsoft Corporation | Human-assisted pronunciation generation |
US8775184B2 (en) * | 2009-01-16 | 2014-07-08 | International Business Machines Corporation | Evaluating spoken skills |
US20100235254A1 (en) * | 2009-03-16 | 2010-09-16 | Payam Mirrashidi | Application Products with In-Application Subsequent Feature Access Using Network-Based Distribution System |
GB2470606B (en) * | 2009-05-29 | 2011-05-04 | Paul Siani | Electronic reading device |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US9729609B2 (en) | 2009-08-07 | 2017-08-08 | Apple Inc. | Automatic transport discovery for media submission |
KR101217653B1 (ko) * | 2009-08-14 | 2013-01-02 | 오주성 | 영어 학습 시스템 |
US8935217B2 (en) | 2009-09-08 | 2015-01-13 | Apple Inc. | Digital asset validation prior to submission for network-based distribution |
CN102117614B (zh) * | 2010-01-05 | 2013-01-02 | 索尼爱立信移动通讯有限公司 | 个性化文本语音合成和个性化语音特征提取 |
WO2011089651A1 (ja) * | 2010-01-22 | 2011-07-28 | 三菱電機株式会社 | 認識辞書作成装置、音声認識装置及び音声合成装置 |
US20110184736A1 (en) * | 2010-01-26 | 2011-07-28 | Benjamin Slotznick | Automated method of recognizing inputted information items and selecting information items |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9640175B2 (en) * | 2011-10-07 | 2017-05-02 | Microsoft Technology Licensing, Llc | Pronunciation learning from user correction |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
RU2510954C2 (ru) * | 2012-05-18 | 2014-04-10 | Александр Юрьевич Бредихин | Способ переозвучивания аудиоматериалов и устройство для его осуществления |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8990188B2 (en) | 2012-11-30 | 2015-03-24 | Apple Inc. | Managed assessment of submitted digital content |
US9087341B2 (en) | 2013-01-11 | 2015-07-21 | Apple Inc. | Migration of feedback data to equivalent digital assets |
US10319254B2 (en) * | 2013-03-15 | 2019-06-11 | Joel Lane Mayon | Graphical user interfaces for spanish language teaching |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
KR101487005B1 (ko) * | 2013-11-13 | 2015-01-29 | (주)위버스마인드 | 문장입력을 통해 발음교정을 실시하는 외국어 학습장치 및 그 학습방법 |
JP6336749B2 (ja) * | 2013-12-18 | 2018-06-06 | 株式会社日立超エル・エス・アイ・システムズ | 音声合成システム及び音声合成方法 |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9953631B1 (en) | 2015-05-07 | 2018-04-24 | Google Llc | Automatic speech recognition techniques for multiple languages |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10102203B2 (en) | 2015-12-21 | 2018-10-16 | Verisign, Inc. | Method for writing a foreign language in a pseudo language phonetically resembling native language of the speaker |
US9947311B2 (en) * | 2015-12-21 | 2018-04-17 | Verisign, Inc. | Systems and methods for automatic phonetization of domain names |
US10102189B2 (en) | 2015-12-21 | 2018-10-16 | Verisign, Inc. | Construction of a phonetic representation of a generated string of characters |
US9910836B2 (en) | 2015-12-21 | 2018-03-06 | Verisign, Inc. | Construction of phonetic representation of a string of characters |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179588B1 (en) | 2016-06-09 | 2019-02-22 | Apple Inc. | INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN111968619A (zh) * | 2020-08-26 | 2020-11-20 | 四川长虹电器股份有限公司 | 控制语音合成发音的方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06176023A (ja) * | 1992-12-08 | 1994-06-24 | Toshiba Corp | 音声合成システム |
JPH09171392A (ja) * | 1995-10-20 | 1997-06-30 | Ricoh Co Ltd | 発音情報作成方法およびその装置 |
JPH09325787A (ja) * | 1996-05-30 | 1997-12-16 | Internatl Business Mach Corp <Ibm> | 音声合成方法、音声合成装置、文章への音声コマンド組み込み方法、及び装置 |
JPH1031498A (ja) * | 1996-07-15 | 1998-02-03 | Toshiba Corp | 辞書登録装置及び辞書登録方法 |
US5787231A (en) * | 1995-02-02 | 1998-07-28 | International Business Machines Corporation | Method and system for improving pronunciation in a voice control system |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0372734B1 (en) | 1988-11-23 | 1994-03-09 | Digital Equipment Corporation | Name pronunciation by synthesizer |
US5027406A (en) * | 1988-12-06 | 1991-06-25 | Dragon Systems, Inc. | Method for interactive speech recognition and training |
JPH05204389A (ja) | 1992-01-23 | 1993-08-13 | Matsushita Electric Ind Co Ltd | 音声規則合成用ユーザー辞書登録システム |
US5393236A (en) * | 1992-09-25 | 1995-02-28 | Northeastern University | Interactive speech pronunciation apparatus and method |
US6101468A (en) * | 1992-11-13 | 2000-08-08 | Dragon Systems, Inc. | Apparatuses and methods for training and operating speech recognition systems |
US5799267A (en) * | 1994-07-22 | 1998-08-25 | Siegel; Steven H. | Phonic engine |
JPH0895587A (ja) | 1994-09-27 | 1996-04-12 | Oki Electric Ind Co Ltd | テキスト音声合成方法 |
WO1996010795A1 (en) * | 1994-10-03 | 1996-04-11 | Helfgott & Karas, P.C. | A database accessing system |
US5697789A (en) * | 1994-11-22 | 1997-12-16 | Softrade International, Inc. | Method and system for aiding foreign language instruction |
JPH08320864A (ja) | 1995-05-26 | 1996-12-03 | Fujitsu Ltd | 音声合成用の辞書登録装置 |
US5999895A (en) * | 1995-07-24 | 1999-12-07 | Forest; Donald K. | Sound operated menu method and apparatus |
US5799276A (en) * | 1995-11-07 | 1998-08-25 | Accent Incorporated | Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals |
US5845238A (en) * | 1996-06-18 | 1998-12-01 | Apple Computer, Inc. | System and method for using a correspondence table to compress a pronunciation guide |
US5850629A (en) * | 1996-09-09 | 1998-12-15 | Matsushita Electric Industrial Co., Ltd. | User interface controller for text-to-speech synthesizer |
JPH10153998A (ja) * | 1996-09-24 | 1998-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 補助情報利用型音声合成方法、この方法を実施する手順を記録した記録媒体、およびこの方法を実施する装置 |
US5950160A (en) | 1996-10-31 | 1999-09-07 | Microsoft Corporation | Method and system for displaying a variable number of alternative words during speech recognition |
JP3573907B2 (ja) * | 1997-03-10 | 2004-10-06 | 株式会社リコー | 音声合成装置 |
US5933804A (en) | 1997-04-10 | 1999-08-03 | Microsoft Corporation | Extensible speech recognition system that provides a user with audio feedback |
US6226614B1 (en) * | 1997-05-21 | 2001-05-01 | Nippon Telegraph And Telephone Corporation | Method and apparatus for editing/creating synthetic speech message and recording medium with the method recorded thereon |
JPH10336354A (ja) | 1997-06-04 | 1998-12-18 | Meidensha Corp | マルチメディア公衆電話システム |
US6016471A (en) * | 1998-04-29 | 2000-01-18 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus using decision trees to generate and score multiple pronunciations for a spelled word |
US6185535B1 (en) | 1998-10-16 | 2001-02-06 | Telefonaktiebolaget Lm Ericsson (Publ) | Voice control of a user interface to service applications |
US6275789B1 (en) * | 1998-12-18 | 2001-08-14 | Leo Moser | Method and apparatus for performing full bidirectional translation between a source language and a linked alternative language |
US6389394B1 (en) * | 2000-02-09 | 2002-05-14 | Speechworks International, Inc. | Method and apparatus for improved speech recognition by modifying a pronunciation dictionary based on pattern definitions of alternate word pronunciations |
US6865533B2 (en) * | 2000-04-21 | 2005-03-08 | Lessac Technology Inc. | Text to speech |
-
1999
- 1999-04-30 US US09/303,057 patent/US7292980B1/en not_active Expired - Fee Related
-
2000
- 2000-04-20 DE DE60020773T patent/DE60020773T2/de not_active Expired - Lifetime
- 2000-04-20 EP EP00303371A patent/EP1049072B1/en not_active Expired - Lifetime
- 2000-04-25 CA CA002306527A patent/CA2306527A1/en not_active Abandoned
- 2000-04-28 JP JP2000130595A patent/JP4237915B2/ja not_active Expired - Fee Related
- 2000-05-01 KR KR10-2000-0023242A patent/KR100378898B1/ko not_active IP Right Cessation
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH06176023A (ja) * | 1992-12-08 | 1994-06-24 | Toshiba Corp | 音声合成システム |
US5787231A (en) * | 1995-02-02 | 1998-07-28 | International Business Machines Corporation | Method and system for improving pronunciation in a voice control system |
JPH09171392A (ja) * | 1995-10-20 | 1997-06-30 | Ricoh Co Ltd | 発音情報作成方法およびその装置 |
JPH09325787A (ja) * | 1996-05-30 | 1997-12-16 | Internatl Business Mach Corp <Ibm> | 音声合成方法、音声合成装置、文章への音声コマンド組み込み方法、及び装置 |
JPH1031498A (ja) * | 1996-07-15 | 1998-02-03 | Toshiba Corp | 辞書登録装置及び辞書登録方法 |
Also Published As
Publication number | Publication date |
---|---|
EP1049072B1 (en) | 2005-06-15 |
CA2306527A1 (en) | 2000-10-30 |
KR20000077120A (ko) | 2000-12-26 |
EP1049072A2 (en) | 2000-11-02 |
US7292980B1 (en) | 2007-11-06 |
DE60020773T2 (de) | 2006-05-11 |
JP2000352989A (ja) | 2000-12-19 |
DE60020773D1 (de) | 2005-07-21 |
EP1049072A3 (en) | 2003-10-15 |
JP4237915B2 (ja) | 2009-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100378898B1 (ko) | 발음 설정 방법, 컴퓨터 판독가능 매체를 포함하는 제조 물품 및, 그래픽 사용자 인터페이스 시스템 | |
US7881928B2 (en) | Enhanced linguistic transformation | |
US6446041B1 (en) | Method and system for providing audio playback of a multi-source document | |
JP3142803B2 (ja) | テキストを音声に変換するシンセサイザ | |
US6499013B1 (en) | Interactive user interface using speech recognition and natural language processing | |
US8396714B2 (en) | Systems and methods for concatenation of words in text to speech synthesis | |
US6363342B2 (en) | System for developing word-pronunciation pairs | |
JP4833313B2 (ja) | 中国語方言判断プログラム | |
US20100082344A1 (en) | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis | |
US20100082348A1 (en) | Systems and methods for text normalization for text to speech synthesis | |
US20020143535A1 (en) | Method of providing concise forms of natural commands | |
JP2000137596A (ja) | 対話型音声応答システム | |
JP2002117026A (ja) | 確率的入力方法によって生成された候補リストからフィルタリングおよび選択を行うための方法およびシステム | |
US7099828B2 (en) | Method and apparatus for word pronunciation composition | |
JP2003162524A (ja) | 言語処理装置 | |
JP3762300B2 (ja) | テキスト入力処理装置及び方法並びにプログラム | |
JP3589972B2 (ja) | 音声合成装置 | |
JP2007086404A (ja) | 音声合成装置 | |
JP3284976B2 (ja) | 音声合成装置及びコンピュータ可読記録媒体 | |
JPH08221095A (ja) | 文章読み上げ方法 | |
JP2001166790A (ja) | 書き起こしテキスト自動生成装置、音声認識装置および記録媒体 | |
JP3280729B2 (ja) | 発音記号作成装置 | |
JP2006098552A (ja) | 音声情報生成装置、音声情報生成プログラム及び音声情報生成方法 | |
JP2000330998A (ja) | 発音電子辞書 | |
JP4086034B2 (ja) | 形態素解析システムと形態素解析プログラムおよび形態素解析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20130315 Year of fee payment: 11 |
|
FPAY | Annual fee payment |
Payment date: 20140314 Year of fee payment: 12 |
|
FPAY | Annual fee payment |
Payment date: 20150312 Year of fee payment: 13 |
|
LAPS | Lapse due to unpaid annual fee |