KR20010051903A - 음성인식에 기초한 무선장치용 사용자 인터페이스 - Google Patents
음성인식에 기초한 무선장치용 사용자 인터페이스 Download PDFInfo
- Publication number
- KR20010051903A KR20010051903A KR1020000070088A KR20000070088A KR20010051903A KR 20010051903 A KR20010051903 A KR 20010051903A KR 1020000070088 A KR1020000070088 A KR 1020000070088A KR 20000070088 A KR20000070088 A KR 20000070088A KR 20010051903 A KR20010051903 A KR 20010051903A
- Authority
- KR
- South Korea
- Prior art keywords
- wireless communication
- user
- network
- voice recognition
- data file
- Prior art date
Links
- 238000004891 communication Methods 0.000 claims abstract description 105
- 238000000034 method Methods 0.000 claims abstract description 92
- 238000012545 processing Methods 0.000 claims abstract description 36
- 230000006870 function Effects 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 25
- 230000005540 biological transmission Effects 0.000 claims description 19
- 230000001413 cellular effect Effects 0.000 claims description 8
- 230000004048 modification Effects 0.000 claims description 5
- 238000010295 mobile communication Methods 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 4
- 238000012552 review Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims 12
- 238000013519 translation Methods 0.000 abstract description 2
- 230000008901 benefit Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000015654 memory Effects 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000003936 working memory Effects 0.000 description 3
- 230000003213 activating effect Effects 0.000 description 2
- 238000013479 data entry Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000013506 data mapping Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 239000002023 wood Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04B—TRANSMISSION
- H04B1/00—Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
- H04B1/38—Transceivers, i.e. devices in which transmitter and receiver form a structural unit and in which at least one part is used for functions of transmitting and receiving
- H04B1/40—Circuits
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/50—Centralised arrangements for answering calls; Centralised arrangements for recording messages for absent or busy subscribers ; Centralised arrangements for recording messages
- H04M3/53—Centralised arrangements for recording incoming messages, i.e. mailbox systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/26—Devices for calling a subscriber
- H04M1/27—Devices whereby a plurality of signals may be stored simultaneously
- H04M1/271—Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/60—Medium conversion
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2207/00—Type of exchange or network, i.e. telephonic medium, in which the telephonic communication takes place
- H04M2207/18—Type of exchange or network, i.e. telephonic medium, in which the telephonic communication takes place wireless networks
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Networks & Wireless Communication (AREA)
- Telephonic Communication Services (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
본 발명의 무선 통신 시스템은 원격 음성 인식 서버 시스템을 이용해서, 서비스되는 이동 장치로부터 수신된 음성 입력을, 그 이동 장치에 의해 처리될 수 있는 기호 데이터 파일(예컨대, 문자·숫자 겸용 또는 제어 캐릭터)로 변환한다. 변환 처리는 서비스되는 이동 장치와 음성 인식 서버 간의 음성 통신 채널을 형성하면서부터 시작된다. 이어서, 이동 장치의 사용자는 음성 인식 서버 시스템에 의해 검출될 수 있는 형식으로 말하기 시작한다. 사용자의 음성 검출시, 음성 인식 서버 시스템은 그 음성을 소정의 기호 데이터 파일로 변환하고, 이어서 분리된 데이터 통신 채널을 통해 그 사용자에게 전송된다. 이동 장치에서 기호 데이터 파일을 수신할 때, 사용자는 그 내용을 재검토하고 편집하여 그 파일을 원하는 대로 더 이용한다.
Description
본 발명은 일반적으로 데이터 통신, 특히 음성 인식 자원을 기초로 한 네트워크를 이용하여 국지 사용자 인터페이스를 증가시키는 양방향 무선 통신 장치에 관한 것이다.
하이퍼텍스트를 기초로 한 기술의 이용은 무선 통신 시스템의 영역까지 확산되어 왔다. 본 명세서에서는 이동 장치라고도 하는 양방향 무선 통신 장치와 무선 네트워크 프로토콜은 다양한 유무선 네트워크, 특히 인터넷과 사설 네트워크를 통해 원격 정보 서비스(예컨대, 상용 데이터베이스, e메일, 온라인 쇼핑)에 대화식 접속이 가능하게 설계되어 왔다.
다수의 이동 장치(예컨대, 셀룰러 전화기)가 대중 시장의 소비자 지향 장치들이다. 따라서, 그 장치의 사용자 인터페이스는 장치의 기능에 제한 없이 간단하고 쉽게 사용할 수 있어야 한다. 현재, 대부분의 이동 장치에 있어서 주요한 데이터 엔트리 방법에는, 문자·숫자의 캐릭터 문자열을 길게 입력해서 사용하는 경우, 상대적으로 불편한 키패드가 있다. 크기의 제약과 비용 측면으로 인해, 이들 이동 장치의 키패드는 사용자 입력이 상당히 많이 필요한 메시지(예컨대, e메일 메시지)를 작성하는 경우에 특히 사용자 지향의 인터페이스가 아니다. 이러한 형태의 키패드에는 대개 12개 내지 24개의 키가 있어, 숫자 입력에는 충분한 수이지만, 네트워크형 장치에 필요한 문자·숫자 데이터 엔트리를 다룰 때는 매우 부족하다.
인터넷에서 정보를 얻고자 하는 사용자는 일반적으로 브라우저를 이용하여 월드 와이드 웹을 항해한다. 예컨대, 검색 엔진으로서 InfoseekTM를 이용하여 스탠포드 대학에 관한 정보를 얻고자 하는 사용자는 다음의 문자열을 입력해야 한다.
"http://www.infoseek.com"을 입력한 후 "Stanford University"
상기 검색 문자열은 글자가 40자 이상이다. 표준형 데스크탑 컴퓨터의 키보드와 브라우저(예컨대, 넷스케이프 또는 익스플로러)를 이용하면, 사용자는 이러한 문자열을 입력하는데 문제가 없을 것이다. 그러나, 동일한 사용자가 동일한 문자열을 입력하기 위해 이동 장치의 키패드를 조작하면, 밀집된 키패드와 키 간의 좁은 공간 때문에 심하게 방해받을 것이다.
인터넷의 일반적인 용도 중 하나는 e메일이다. 사용자가 상기 문장 크기의 e메일 메시지를 송신하고 싶다면 400자 이상을 입력해야 한다. 데스크탑 컴퓨터의 표준형 키보드를 이용해서, 사용자는 2분 이내로 그 수만큼의 캐릭터를 입력할 수 있다(사용자는 평균의 숙련도를 지닌 자라고 가정함). 이동 장치의 키패드로 동일한 수만큼의 키스트로크를 입력하면 상당히 더 긴 시간이 걸리고 매우 지루하며 에러가 나기 쉬워질 수 있다.
최근의 음성 인식(VR) 기술의 발전과 하드웨어 능력의 향상으로, 데스크탑 시스템에 있어서 음성 인식을 기초로 한 사용자 인터페이스의 진보가 상업적으로 존립할 수 있게 되었다. VR 기술이란 구두 언어를 듣고 그것을 소정의 포맷으로 변환해서, 디지털 시스템이 쉽게 조작하고 디스플레이할 수 있는 기술이다. 이제까지 VR 기술에 의해 콤팩트한 이동 장치를 장착하려는 노력이 있어 왔지만, 이들 노력은 대개 추가의 구성 요소와 같은 고비용의 장치 변종(예컨대, DSP 칩)을 필요로 하거나 처리와 기억 용량을 증대해 왔다. 통상의 셀룰러 전화기는 계산적 자원이 통상의 데스크탑 또는 휴대용 컴퓨터에 제공되는 계산적 자원의 1% 이하 정도이다. 축소된 VR 애플리케이션을 수행하는 이러한 형태의 전화기는 장치의 구성 요소를 변형시키지 않고서는 미리 정의된 몇 마디 그룹의 구두 언어만을 인식할 수 있을 뿐이다.
현재 데스크탑 및 랩탑 컴퓨터에 사용할 수 있는 음성 인식 소프트웨어(예컨대, 드래곤 시스템사의 Naturally Speaking, 애플 컴퓨터의 PlainTalkTM, IBM사의 ViaVoice 98TM 및 필립스 토크의 FreeSpeech 98TM)의 가격은 대개 라이센스당 $39.00 내지 수백 달러이다. 이것은 호환성 소프트웨어 애플리케이션가 장착된 이동 장치의 가격 중 상당 부분을 차지함을 뜻한다.
각 이동 장치에 음성 인식 소프트웨어 애플리케이션을 탑재하여 그 애플리케이션을 실행하도록 그의 하드웨어 구성 요소를 변형시키는 것은 VR 특징을 그들의 장치에 실장하려는 핸드셋 제조업자에게 금융적 부담을 야기시킨다. 이러한 변형은 이동 장치의 최종 가격에 상당한 비용을 추가시켜서, 대개 대중 시장의 이동 장치(예컨대, 셀룰러 전화기)에 의해 점유되는 목표 가격 범위($150.00)를 아마도 벗어나게 할 것이다.
하드웨어 자원에 의해서, 이들 애플리케이션은 지원되는 언어마다 최고 60 메가바이트의 메모리를 필요로 한다. 더욱이, 대부분의 상용화 가능한 음성 인식 소프트웨어 애플리케이션은 상대적으로 고속인 프로세서(예컨대, 133 MHz 펜티엄 프로세서)를 장착한 시스템 상에서 기능하도록 설계된다.
따라서, 이동 장치가 보다 효율적으로 디지털 컴퓨터 네트워크와 대화할 수 있게 하는 장치 및 방법이 상당히 필요하다. 하드웨어 자원 또는 비용을 상당히 변형하지 않고서도, 표준 이동 장치의 사용자 인터페이스(예컨대, 전화기의 키패드)와 함께 음성 인식 서비스를 이용할 수 있는 능력은 이동 장치가 제한된 자원을 가질 수 있는 네트워크의 활용도와 상업적 생존 가능성을 극적으로 개선할 것이다.
도 1은 본 발명이 실시될 수 있는 개략적인 구성도.
도 2a는 대표적인 음성형 이동 장치의 디스플레이 및 사용자 인터페이스를 묘사한 도면.
도 2b는 예시적인 음성형 이동 장치의 기능적인 블럭도.
도 3은 본 발명의 양호한 실시예에 의한 링크 서버 장치의 기능적인 블럭도.
도 4는 본 발명의 예시적인 실시예에 따라서 음성 인식 서버를 위한 예시적인 처리 단계를 도시하는 개략도.
도 5는 이동 장치와 음성 인식 서버 시스템 간의 대화에 관한 동작을 설명하는 대표적인 스크린 디스플레이를 도시하는 도면.
도 6은 본 발명의 일 실시예에 의한 이동 장치의 상관 관계를 도시하는 처리 흐름도.
도 7은 본 발명의 일 실시예에 의한 음성 인식 서버의 상관 관계를 도시하는 처리 흐름도.
* 도면의 주요 부분에 대한 부호의 설명 *
104: 무선 캐리어망 106: 링크 서버
109: 음성 인식 서버 시스템 112: 사용자 지정 파일
113: 네트워크 서버 140: 멀티미디어 컴퓨터
104: 무선망 250: 이동 장치
252: WCP 인터페이스 254: 장치 ID 기억 장치
256: 크라이언트 모듈 258: 작업 메모리
260: 디스플레이 262: 키패드
264: 부호화기/복호화기 266: 음성 회로
268: 프로세서 300: 유선망
310: 서버 모듈 312: 계정 관리자
314: 계정 인터페이스 316: 메시지 프로세서
318: 프로세서 320: 기억 장치
320: 무선 캐리어망 322: 제어 엔진
340: 링크 서버 장치 341: WCP 인터페이스
358: LCP 인터페이스 460: 음성 인식 서버
462: 음성 검출 464: 음성 분석
466: 패턴 일치 468: 텍스트 생성기
480: 사용자 지정 파일
본 발명은 무선 통신 시스템에 관한 것으로서, 본 발명의 무선 통신 시스템은 원격 음성 인식 서버 시스템을 이용해서, 이동 장치로부터 수신된 음성 입력을 이동 장치가 처리할 수 있는 소정의 기호 데이터 파일(예컨대, 문자·숫자 또는 제어 캐릭터)로 변환한다. 변환 처리는 이동 장치와 음성 인식 서버 사이에 음성 통신 채널을 형성하는 것으로부터 시작한다. 이어서, 이동 장치의 사용자는 음성 인식 서버 시스템에 의해 검출될 수 있게 말하기 시작한다. 사용자 음성의 검출시, 음성 인식 서버 시스템은 그 사용자 음성을 소정의 기호 데이터 파일로 변환하고, 이어서 분리된 데이터 통신 채널을 통해 사용자에게 전송(forward)된다. 이동 장치가 상기 기호 데이터 파일을 수신할 때, 사용자는 상기 기호 데이터 파일의 내용을 재검토 및 편집하여 그 파일을 원하는 대로 더 이용한다. 예컨대, 사용자는 상기 데이터 파일을 이용하여 e메일의 필드 또는 브라우저 요구 필드에 기입할 수 있을 것이다.
본 발명은 소정의 방법, 소정의 기기 또는 장치, 소정의 사용자 인터페이스, 소정의 컴퓨터 판독 메모리 및 소정의 시스템을 비롯해서 수많은 방법으로 적용될 수 있다. 본 발명의 몇 가지 실시예에 관해서는 후술된다.
일 실시예에 의하면, 본 발명은 그 자원들을 갖지 않는 이동 장치에 관한 음성 인식 서비스 및/또는 음성 인식 서비스를 국지적으로 수행하는 소프트웨어를 얻는 방법이다. 그 방법은 해당 이동 장치와, 소정의 음성 인식 애플리케이션을 실행하는 원격 서버 시스템(본 명세서에서는 음성 인식 서버 시스템이라고 칭함) 간의 음성 채널을 형성하고 조정하도록 이동 장치 내에 상주하는 국지 애플리케이션을 사용하는 단계를 구비한다.
상기 음성 채널이 형성될 때, 해당 이동 장치의 사용자는 그 이동 장치(예컨대, 셀룰러 전화기)의 마이크에 대고 말하기 시작할 수 있게 대기하고 있다. 음성 인식 서버 시스템에서 수신된 음성 입력은 이 대화의 결과로서 소정의 기호 데이터 파일로 전환된다. 이 처리는 미리 기억된 사용자 특정 데이터 파일에 의해 원조될 수 있다. 이어서, 상기 기호 데이터 파일은 분리 형성되고 조정된 데이터 통신 채널을 통해 다시 발신 이동 장치로 또는 지정된 제3 자 장치로 전송된다.기호 데이터 파일은 이동 장치 상의 국지 애플리케이션과 대화하거나 네트워크 자원(예컨대, 인터넷 상의 서버 또는 사설 네트워크)과 대화하게 사용될 수 있다.
전술한 것과 함께, 다른 목적 및 이점은 다음의 상세한 설명과 첨부 도면에 있는 본 발명의 예제에 포함되어 있다.
본 발명의 다음의 상세한 설명에 있어서, 여러 가지의 특정한 세부 설명은 본 발명의 전반적인 이해를 돕기 위해 제공되고 있다. 그러나, 당해 기술 분야의 숙련자에게는 본 발명이 이들 특정의 세부 설명 없이도 실시될 수 있음이 분명해질 것이다. 다른 예에서는 본 발명의 특징들을 불필요하게 흐리지 않도록 하기 위해, 공지된 방법, 절차, 구성 요소 및 회로를 상세하게 설명하지 않았다. 다음에서의 본 발명의 상세한 설명은 주로 절차, 단계, 논리 블럭, 처리, 및 네트워크에 결합된 데이터 처리 장치와 유사한 기타의 기호 묘사 방법에 의해 제공된다. 이들 처리의 설명과 묘사는 당해 기술 분야의 경력자들 또는 숙련자들에 의해 사용되어 그들의 동작의 실체를 당해 기술 분야의 다른 숙련자들에게 가장 효과적으로 전달하기 위한 수단이다.
본 발명은 이동 장치가, 네트워크되어 있는 음성 인식 서버 시스템의 음성 인식 서비스에 접속할 수 있게 하는 시스템 및 방법에 속한다. 본 발명의 일 실시예에 의하면, 음성 인식 서비스는 음성 인식 서비스를 원하는 이동 장치의 사용자와, 네트워크되어 있는 음성 인식 서버 시스템 사이에 음성 채널을 형성함으로써 접속된다.
일단 음성 채널이 형성되면, 이동 장치의 사용자는, 음성 인식 서버 시스템이 음성 신호를 수신할 준비가 되었을 때, 말하기 시작하도록 대기한다. 그 수신된 음성 신호는 당해 기술 분야에 공지된 음성 인식 기술[예컨대, 템플리트 일치 방법, 푸리에 변환 방법 또는 선형 예측 부호화 방법(LPC)]을 이용하여 음성 인식 서버 시스템에 의해 처리되고, 소정의 기호 데이터 파일이 생성된다.
기호 데이터 파일이란, 복수 개의 문자(letter), 음소, 단어, 그림, 오브젝트, 기능, 제어 캐릭터 또는, 소정의 오브젝트, 량, 조작(operation), 기능, 음소, 단어, 구 또는 음성 인식 시스템에 의해 해독되는 수신 음성 신호에 대한 소정의 관계를 갖는 그들의 임의의 조합을 지정하는 기타의 종래의 마크를 포함하는 파일이다. 음성 인식 시스템은 대개 음성 템플리트, 푸리에 변환 부호화 방법, 또는 선형 예측 부호화 방법을 이용하여 음성 입력 성분을 미리 기억된 기호 형성 블럭에 사상(寫像: map)한다. 기호 데이터 파일의 예로는 ASCII 파일과 이진 데이터 파일이 있다.
본 발명의 설명을 용이하게 하기 위해, 본 발명이 실시될 수 있는 통신 시스템의 몇 가지 특징을 상술하는 것이 유용하다. 도 1 내지 도 4는 원리적인 시스템 구성 요소의 개요를 나타내고 있다.
도 1에는 본 발명의 일 실시예에 의한 통상의 통신 시스템 블럭도가 도시되어 있다. 이동 장치(102 및 103)는, 음성 통신 채널을 통해서는 전화 호출과, 링크 서버 장치(106)와 단문 메시지 서비스 센터(SMSC)(107)를 포함할 수 있는 광대역 및 협대역(예컨대, SMS) 데이터 통신 채널을 통해서는 원격 서버 서비스로부터의 하이퍼미디어 정보[예컨대, 하이퍼 텍스트 마크업 언어(HTML) 문서, 콤팩트 하이퍼텍스트 송신 프로토콜(cMTML) 문서, 확장형 마크업 언어(XML) 문서, 휴대용 장치 마크업 언어(HDML) 문서, 또는 무선 마크업 언어(WML) 문서, 또는 기타의 유사 데이터 유형]를 수신한다.
이동 장치(102 및 103)는 각각 디스플레이와 사용자 인터페이스를 구비한다. 더욱이, 이동 장치(102 및 103)는 그 이동 장치가 원격 서비스 장치로부터 수신된 하이퍼미디어 정보를 처리할 수 있게 하는 국지 메모리(클라이언트 모듈이라고도 칭함)에 기억된 마이크로 브라우저(예컨대, 미국 캘리포니아 94063, 레드우드 시티, 체사피크 드라이브 800에 소재하는 Phone.com사의 마이크로 브라우저)를 구비할 수 있다.
도 1에 도시된 바와 같이, 이동 장치(102 및 103)는 소정의 그룹으로부터 선택될 수 있고, 이에는 음성의 송신 및/또는 수신 능력이 있는 이동 전화기, 손바닥 크기의 컴퓨터 장치 및 개인 정보 이동 단말기를 포함한다. 음성 능력은 사용자가 음성 기반의 정보를 원격 목적지와(예컨대, 다른 사용자 또는 소정의 장치와) 토신할 수 있게 하는 이동 장치 내에 장착되는 능력으로서 정의된다.
음성 통신 채널에의 접속은 일반적으로 사용자 및/또는 장치가 무선 캐리어 네트워크(104)에 의해 인식되는 것을 필요로 한다. 네트워크 인식 방법은 해당 이동 장치와 무선 캐리어 네트워크(104) 간의 식별 정보 교환 단계를 포함한다. 일반적으로, 대상이 되는 사용자 및/또는 이동 장치에 관한 식별 정보는 그 장치의 메모리 내에 기억되고, 사용자가 네트워크에 접속하려고 할 때 자동으로 송신된다.
무선 캐리어 네트워크(104)는 공지된 무선 통신 네트워크[예컨대, 셀룰러 디지털 패킷 데이터(CDPD) 네트워크, 이동 통신 세계화 시스템(GSM) 네트워크, 부호 분할 다중 접속(CDMA) 네트워크, 개인용 휴대 전화기 시스템(PHS) 또는 시분할 다중 접속(TDMA) 네트워크] 중 어느 하나이어도 된다. 링크 서버 장치(106)는 음성 인식 서버 시스템(109)과, 네트워크(113)으로 표시되어 있는 복수 개의 네트워크 연결된 서버가 결합되어 있는 유선망(108)에 더 결합된다.
음성 인식 서버 시스템(109)은 서버 장치(110)와 기억 장치(112)로 구성되어, 그들 중에서 캐리어 엔터티에 의해 서비스되는 복수의 사용자와 관련된 사용자 지정 파일을 기억할 수 있다. 사용자 지정 파일은 음성 인식 처리와 관련하여 이용되고, 일 실시예에서는 본 발명의 부분에 속한다.
사용자 지정 파일의 예로서는 사용자 특정 음성 템플리트, 하나 이상의 사용자 특정 언어 사전(예컨대, 불어, 영어, 독어 또는 광동어) 및 특정 개인이 자주 사용하는 단어의 하나 이상의 사용자 특정 사전 또는 리스트를 포함할 수 있다. 이들 파일은 네트워크 연결된 멀티미디어 컴퓨터[예컨대, 멀티미디어 컴퓨터(140)]를 이용하여 또는 서비스받은 이동 장치의 사용자 인터페이스를 통해 업로드되고 관리될 수 있다. 예컨대, 음성 템플리트는 사용자가 미리 결정된 스크립트를 음성형 장치로 독입(讀入)할 수 있게 함으로써 형성된다. 사용자의 취향(예컨대, 선택 언어)은 유선망을 통해 음성 인식 서버 시스템에 연결되는 이동 장치 또는 다른 장치의 디스플레이 상에서 사용자에게 제공되는 매뉴 선택 스크린을 이용하여 입력된다.
편의상, 안테나(121)는 일반적으로 기지국과 운용 유지 센터를 구비하는 무선 캐리어 기반을 나타낸다. 기지국은 이동 장치(102 및 103)과의 무선파 또는 전기 통신 링크를 제어한다. 운용 유지 센터는 이동 교환 센터를 구비하여, 이동 장치와 기타의 고정 또는 이동 네트워크 사용자 사이를 교환한다. 또한, 운용 유지 센터는 인증과 같은 이동 계정 서비스를 관리하고, 적절한 운용을 감독하며, 무선 네트워크를 셋업한다. 캐리어 기반 시설(121)의 하드웨어 구성 요소와 처리는 당해 기술 분야의 숙련자에게 공지되어 있어, 본 명세서에서는 본 발명의 특징을 불필요하게 흐리지 않기 위해 설명되지 않을 것이다.
공중망(104)에 의해 사용되는 통신 프로토콜은 예컨대 무선 접속 프로토콜 (WAP) 또는 휴대용 장치 송신 프로토콜(HDTP)일 수 있다. 무선망(108)은 인터넷, 사설 네트워크 또는 임의의 사설 네트워크의 데이터 네트워크일 수 있는 지상 네트워크이다. 통상, 통신 프로토콜 지원 지상망(118)은 송신 제어 프로토콜(TCP/IP), 하이퍼텍스트 송신 프로토콜(HTTP), 또는 보안 하이퍼텍스트 송신 프로토콜(sHPPT)일 수 있다.
링크 서버 장치(106) 및 네트워크 서버(113)는 통상 컴퓨터 워크 스테이션, 예컨대 네트워킹 라이브러리 및 인터넷 연결 능력을 갖는 선 마이크로시스템사 (http://www.sun.com)의 SPARC 스테이션이다. 네트워크 서버(113)는 지상망(108)에 결합되는 복수 개의 네트워크 연결된 서버를 나타내고, 이동 장치(102 및 103)에 관한 정보를 포함하는 하이퍼미디어 정보에 접속할 수 있다.
링크 서버 장치(106)는 스탠드 얼론형 장치로서 묘사되어 있고, 따라서 흔히 네트워크 게이트웨이 또는 무선 데이터 서버라고 부른다. 링크 서버 장치(106)는 무선망(104)과 유선망(106) 사이의 브리지로서 동작하게 구성될 수 있다. 링크 서버 장치(106)의 기능은 무선망(104)과 유선망(108) 사이를 연결하는, 당해 기술 분야에서 공지되어 있는, 하드웨어를 갖는 유선망(108)에 연결된 기타의 서버 장치에 의해 수행될 수 있다.
전술된 음성 통신 채널은 대개 음성 채널(126)로 표현된다. 이 통신 채널은 대개 기반 시설과, 전화 호출을 설정하기 위해 당해 기술 분야에 대개 공지되어 있는 절차를 이용하여 형성되고 조정된다.
대개, 이동 장치(102 및 103)에 서비스를 제공하는 통신 채널의 유형에는 2 가지가 있다. 데이터 통신 채널(128)은 광대역 데이터 통신 채널을 나타낸다. 데이터 통신 채널(130)은 협대역 통신 채널[예컨대, 단문 메시지 통신(SMS) 서비스 채널]을 나타낸다. 데이터를 이동 장치(102 및 103)로(부터) 전달하기 위해서는 이들 데이터 통신로 중 어느 하나가 사용된다.
본 발명의 일 실시예에 의하면, 음성 인식 서버 시스템(109)로부터 음성 인식 서비스를 수신하고자 하는 이동 장치[예컨대, 이동 장치(102 및 103)]는 우선 음성 채널(126)으로 표현된 음성 채널을 형성한다. 음성 인식 서버 시스템(109)의 접촉 내용[예컨대, 전화 번호 또는 균일 자원 표시기(URI)]은 이동 장치에 적재 (load)된 소프트웨어에 의해 실장될 수 있고, 링크 서버 장치(106)으로부터 검색되며, 또는 사용자에 의해 직접 입력되어도 된다.
일단 요구하는 이동 장치와 음성 인식 서버 시스템(109) 사이에 음성 채널이 형성되면, 사용자 정보는 음성 인식 서버 시스템에 전송된다. 이에 의해, 요구하는 이동 장치에 관해 미리 기억된 사용자 지정 파일이 접속되어 사용될 수 있게 된다. 사용자 정보는 분리된 통신 채널[예컨대, 데이터 통신 채널(128 또는 130)]을 통해 송신되거나 사용자에 의해 입력될 수 있다. 사용자 지정 파일은 특수한 사용자 계정에 특정한 기능을 제공한다. 예컨대, 사용자는 음성 인식 처리를 위해 하나 이상의 언어를 지정할 수 있다.
일단 해당 이동 장치/사용자에 관한 사용자 지정 파일이 검색되면, 사용자는 음성 입력을 즉시 입력(예컨대, 말하기 시작)한다. 이점에서, 음성 인식 서비스를 이용하는 동안, 사용자가 이동 장치의 사용자 인터페이스(예컨대, 전화기 키패드)를 이용할 수 있음을 주목하는 것이 중요하다. 사용자가 이동 장치와의 입력 대화(음성 및 물리적 입력)을 완료했을 때, 입력 세션을 끝맺기 위해 사용자는 소정의 표시를 제공(음성 또는 키 입력)할 수 있다. 이어서, 음성 인식 서버 시스템(109)은 그 음성 입력을 소정의 기호 데이터 파일로 전환하여, 링크 서버(106)를 거쳐서 요구하는 이동 장치에 전송될 수 있다.
전술된 바와 같이, 기호 데이터 파일은 복수 개의 문자(letter), 음소, 단어, 그림, 오브젝트, 기능, 제어 캐릭터 또는, 소정의 오브젝트, 량, 조작 (operation), 기능, 음소, 단어, 구 또는 음성 인식 시스템에 의해 해독되는 수신 음성 신호에 대한 소정의 관계를 갖는 그들의 임의의 조합을 지정하는 기타의 종래의 마크를 포함하는 파일이다. 음성 인식 시스템은 대개 음성 템플리트, 푸리에 변환 부호화 방법, 또는 선형 예측 부호화 방법을 이용하여 음성 입력 성분을 미리 기억된 기호 형성 블럭에 사상한다. 기호 데이터 파일의 예로는 ASCII 파일과 이진 데이터 파일이 있다.
기호 데이터 파일은 초기에 링크 서버 장치(106)에 전송되어, 추가의 처리를 수행한 후에 광대역 채널(128) 또는 협대역 채널(130)을 거쳐서 기호 데이터 파일을 상기 요구하는 이동 장치에 전송할 수 있다. 이어서, 이동 장치의 사용자는 수신된 기호 데이터 파일을 재검토하여 원하는 대로 그 신호를 이용할 수 있다.
음성 인식 서버 시스템(109)에 의해 사용되는 음성 인식 애프리케이션의 정확도는 사용된 변환 방법과 사용된 언어 사전의 크기 및 언어에 따라 다를 것이다. 일반적으로, 화자 의존형 방법(예컨대, 템플리트 일치 방법)은 정확도가 98% 정도이고, 화자 독립형 방법[예컨대, 푸리에 변환 방법 및 선형 예측 부호화 방법 (LPC)]은 정확도가 90 내지 95%의 범위이다(www.hitl.washington.edu - 음성 인식, 짐 바우만).
본 발명의 원리에 의하면, 이동 장치[예컨대, 이동 장치(102 및 103)]의 사용자는, 만일 음성 인식 애플리케이션이 그 장치에 의해 수행되었다면 요구될 수 있을 수도 있는 중요한 하드웨어 또는 소프트웨어의 변형 없이도 그들 이동 장치 상의 음성 인식 서비스에 접속할 수 있다. 더욱이, 음성 인식 처리를 수행하는 소프트웨어는 (이동 장치의 처리 속도에 비해) 고속의 처리 속도와 큰 기억 용량을 갖는 접속 가능한 이동 서버 장치 상에 상주하기 때문에, 장치의 사용자에게는 완전 사양의 음성 인식 애플리케이션과 관련된 기능과 자원이 제공될 수 있다. 예컨대, 음성 인식 애플리케이션은 대형 언어 사전, 복수 언어에 대해 선택 가능한 언어 사전 및 사용자 지정 파일(예컨대, 음성 템플리트와 사용자 커스텀화된 사전 및 리스트)에 접속할 수 있다.
도 2a는 도 1에서의 이동 장치 중 한 이동 장치에 상응하는 예시적인 이동 장치(200)를 묘사하고 있다. 이동 장치(200)는 디스플레이 스크린(204), 확장된 전화기형 키패드(210), 커서 이동 키(222 및 224), 한 쌍의 소프트키(208A 및 208B), 수화갑(212A) 및 마이크(212B)를 포함하고 있다. 스크린 디스플레이(204)는 토앙 문자 정보와 소정의 그래픽을 디스플레이할 수 있는 액정 디스플레이(LCD) 스크린이다. 확장된 전화기형 키패드(210)는 양호하게는 부가의 캐릭터(예컨대, 스페이스)와 기능(예컨대, 역방향 또는 지움)을 제공하는 부가의 키들을 갖는 정규의 전화기 키패드를 포함한다.
커서 이동 키(222 및 224)에 의해, 사용자는 커서 또는 요소 표시기(216)를 재배치하여, 예컨대 스크린 디스플레이(204) 상에 디스플레이되는 애플리케이션들 중 한 애플리케이션을 기동시킬 수 있다. 상위 키(208A 및 208B)는 통상 소프트키 기능 식별자(214 및 215)에 의해 표시되는 애플리케이션 지정 기능을 수행하는데 사용된다. 당해 기술 분야의 숙련자에게는, 정규의 전화기 키패드를 갖는 것은 본 발명을 실시하기 위한 필요 조건이 아님이 이해되어야 한다. 때로는, 일부 이동 장치는 물리적인 키, 예컨대 입력 기구로서 소프트 키 또는 아이콘을 사용하는 손바닥 크기의 계산 장치를 전혀 갖지 않는다.
관련된 링크 서버 장치[예컨대, 도 1의 링크 서버 장치(106)]와의 통신 세션 형성시, 이동 장치(200)는 통상 하나 이상의 마크업 언어 카드 데크를 수신하여 사용자가 장치와 대화하게 한다. 사용의 취향에 따라, 스크린 설명형 명령 파일이라고도 칭하는 마크업 언어 카드 데크는, 휴대용 장치 마크업 언어(HDML), 하이퍼텍스트 마크업 언어(HTML), 콤팩트 HTML, 무선 마크업 언어(WML), 표준형 일반 마크업 언어(HGML) 또는 확장형 마크업 언어(XML)를 포함하지만 이에 한정되지는 않는 마크업 언어 내에 있을 수 있다. 이와 달리, 데이터 파일은 스트립, 압축 컴파일 또는 전환된 버전의 상응하는 마크업 파일일 수 있다.
도 2a의 LCD 스크린 상에 나타나는 텍스트는 이러한 디스플레이 스크린의 일 예이다. 이 예에서, 사용자는 다음의 선택 항목 중에서 한 가지를 고를 수 있다.
1) 북마크
2) 인터넷 검색
3) e메일
4) 뉴스
각 선택 항목은 통상 네트워크 상의 자원 또는 국지 소프트웨어 애플리케이션이 링크된다. 사용자는 요소 표시기(216)에 의해 표시되는 사용자 선택 항목을 갖는 이동 키(222 및 224)를 이용하여 상기 메뉴 중에서 하나를 선택할 수 있다. 이 같은 방법은 원격 서버 장치[예컨대, 도 1의 음성 인식 서버 시스템(109)]와 대화하기 위한 사용자 프롬프트를 제공하는데 사용될 수 있다.
도 2b에 있어서는 도 1의 이동 장치(102 또는 103) 및 도 2a의 이동 장치 (200)일 수 있는 이동 장치(250)에 관해 보다 상세하게 설명한다. 미동 장치(250)는 입중계 신호와 출중계 신호를 수신하기 위해 캐리어 무선망(104)에 결합하는 무선 제어 프로토콜(WCP) 인터페이스(252)를 포함한다. 장치 식별자(ID) 기억 장치 (254)는 외부 엔터티[예컨대, 도 1의 링크 서버 장치(106)]에 대한 이동 장치(250)를 식별할 목적으로 장치 ID를 기억하고 그를 WCP 인터페이스(252)에 공급한다. 장치 ID는 지정 코드로서, 이 지정 코드는 이동 장치(250)와 관련되고, 해당 링크 서버 장치(예컨대, 도 1의 106)에 통상 제공되는 해당 사용자 계정에서의 장치 ID에 직접 상응한다.
이동 장치(250)는 프로세서(268), 부호화기/복호화기 회로(264), 작업 회로 (258) 및 클라이언트 모듈(256)을 포함한다. 클라이언트 모듈(256)은 장치 메모리 자원에 적재되는 소프트웨어 구성 요소를 나타내고, 모듈 장치(250)에 의해 수행되는 여러 가지 처리 작업, 즉 무선 캐리어 네트워크(104)를 통해 링크 서버 장치와의 통신 세션을 형성하는 단계, 국지 애플리케이션을 운용하고 유지하는 단계, 이동 장치(250)의 디스플레이 스크린(260) 상에 정보를 디스플레이하는 단계 및 키패드(262)로부터 사용자 입력을 수신하는 단계를 수행한다. 클라이언트 모듈(256)은 소프트웨어가 계산 장치에 적재되는 것과 상당히 동일하게 이동 장치(250)의 메모리에 적재될 수 있다.
더욱이, 이동 장치(250)는 음성의 가변량을, 디지털 통신 시스템과 아날로그 통신 시스템 상에서 송수신될 수 있는 전기 임펄스로 전환하는 음성 회로(266)를 포함한다. 이들 구성 요소와 그들의 기능은 당해 기술 분야에서 공지되어 있어, 더 이상 설명되지 않을 것이다.
본 발명의 원리에 의하면, 이동 장치(200) 상에 적재되는 소프트웨어는 음성 인식 애플리케이션을 실행하는 서버 장치와의 대화과 관련하여 사용자에게 보조 기능을 제공하는 구성 요소를 포함한다. 이 보조 기능을 제공하는 소프트웨어는 마이크로브라우저 또는 다른 애플리케이션의 일부로서, 또는 스탠드 얼론형 애플리케이션으로서 적재될 수 있다. 이 애플리케이션은 서비스를 서버 장치에 관한 접촉 정보, 수신된 기호 데이터 파일의 관리, 및 사용자 취향의 입력/변경을 검색하고 기억하는 것과 같은 작업를 담당할 수 있다. 사용자 보조 기능은 예컨대, 스크린 디스플레이된 정보, 가청 또는 접촉 프롬프트 및/또는 소프트키 사상된 기능의 형태일 수 있다.
예컨대, 소정의 애플리케이션(예컨대, e메일 메시지)과 관련하여 음성 인식 서비스를 이용하고자 하는 사용자는 해당하는 애플리케이션에 접속하여 음성 인식 서비스에 접속하는 소프트키를 가동할 수 있다. 이어서, 소프트키와 관련된 기능은, 아직 기억되어 있지 않다면, 그 음성 인식 애플리케이션을 실행하는 서버 장치에 관한 접촉 정보를 검색하고, 그 처리는 후술하는 바와 같이 처리할 것이다. 이 예는 예시적인 목적으로 설명된 것이고, 본 발명의 범주를 제한하는 것으로 해석되어서는 안된다.
도 3은 링크 서버 장치(340)의 원리적인 구성 요소를 개략적으로 설명하고 있고, 도 1의 링크 서버 장치(106)에 상응한다. 링크 서버 장치(340)는 유선망 (340)과 무선망(320) 사이의 네트워크 게이트웨이로서 동작하는 서버 컴퓨터이다. 본 발명의 원리적인 특징을 흐리게 하지 않기 위해, 링크 서버 장치(340)에서의 공지된 방법, 절차, 구성 요소 및 회로는 상세하게 설명되지 않는다.
링크 서버 장치(340)에는 유선망(300)에 결합하는 육상 제어 프로토콜(LCP) 인터페이스(358)와, 무선망(320)에 결합하는 무선 제어 프로토콜(341)이 포함된다. 서버 모듈(310)은 LCP 인터페이스(358)와 WCP 인터페이스(341) 사이에 결합된다.
서버 모듈(310)은 하나의 통신 프로토콜에서 다른 통신 프로토콜로의 종래의 서버 처리(프로세싱) 및 프로토콜 전환 처리를 수행한다. 메시지 프로세서(316)는 프로토콜 전환과 관련 작업에 상당하는 구성 요소이다. (예컨대, HDTP와 HTTP 간의) 프로토콜 전환의 경우, 그 전환은 일반적으로 데이터 사상(mapping) 처리이다. 당해 기술 분야의 숙련자는 WCP 인터페이스(341)가 무선망과 사용된 프로토콜에 따라 다른 인터페이스 모듈로 대체될 수 있음이 이해될 것이다. 무선망과 프로토콜의 형태가 변하는 경우에는 LCP 인터페이스(358)도 마찬가지이다.
또한, 서버 모듈(310)은 계정 관리자(312)와 계정 인터페이스(314)를 포함한다. 계정 관리자(312)는 복수 개의 사용자 계정을 관리하고, 각 통상 이동 장치의 계정은 링크 서버 장치(340)에 의해 서비스된다. 사용자 계정 정보는 링크 서버 장치(340)에 결합되는 다른 네트워크 서버에 기억될 수 있음이 이해되어야 한다. 환언하면, 사용자 계정은 유선망을 통해 링크 서버 장치(340)에 결합되는 임의의 계산 장치에 물리적으로 배치되는 데이터베이스에 유지될 수 있다.
링크 서버 장치(340)에 의해 서비스되는 각 모듈 장치에는 소정의 식별부 (ID) 및 장치 ID가 할당된다. 장치 ID는 그 장치의 전화 번호 또는 IP 어드레스, 또는 IP 어드레스와 포트 번호의 조합, 예컨대 204.163.165.132:01905(204.163. 165.132는 IP 어드레스이고, 01905는 포트 번호임)일 수 있다. 장치 ID는 가입자 ID와 더 관련되는데, 이 가입자 ID는 이동 장치의 가입자 계정을 가동함에 있어서 포함되는 절차들의 일부분으로서 링크 서버 장치(340)를 제어하는 캐리어에 의해 생성되고 관리된다. 가입자 ID는 특정 사용자 또는 장치와 관련된 사용자 지정 파일(예컨대, 도 1의 112)에 접속하는 것과 관련되고 그를 이용할 수 있다.
가입자 ID는 예컨대 AT&T 무선 서비스사의 861234567-10900_pn.mobile.att. net의 형태를 가질 수 있고, 이동 장치에 대한 유일한 식별부이다. 계저 관리자 (312)는 링크 서버 장치(340)와의 보안 통신을 허용하는 이동 장치에 관한 사용자 계정의 생성을 담당한다. 이 경우, 계정 관리자(312)는 링크 서버 장치(340)가 제공하는 서비스를 받는 이동 장치에 관한 적절한 수준의 보안 접속을 보장한다.
또한, 링크 서버 장치(340)는 주요 하드웨어 구성 요소로서 프로세서(318)와 기억 장치 자원(320)을 포함한다. 프로세서(318)는 서버 모듈(310)의 제어 하에서 동작을 수행한다. 당해 기술 분야의 숙련자에게는 링크 서버 장치(340)가 하나 이상의 프로세서[예컨대, 프로세서(318)], 작업 메모리[예컨대, 기억 장치 자원 (320)], 버스, 인터페이스, 및 기타의 구성 요소를 포함하는 것과, 서버 모듈(310)이 지시된 기능을 수행하기 위해 링크 서버 장치(340)의 작업 메모리에 적재된 하나 이상의 소프트웨어 모듈을 나타내는 것이 이해될 것이다. 동일한 특성이 클라이언트 모듈과, 해당 이동 장치의 하드웨어 구성 요소에도 동등하게 적용 가능하다.
통상, 지상망(300)에서 지원되는 지상망 통신 프로토콜(LCP)에는 송신 제어 프로토콜(TCP), 하이퍼텍스트 송신 프로토콜(HTTP) 또는 보안 하이퍼텍스트 송신 프로토콜(HTTPS)이 포함될 수 있고, 무선 통신 프로토콜(WCP)에는 송신 제어 프로토콜(TCP), 하이퍼텍스트 송신 프로토콜(HTTP) 또는 보안 하이퍼텍스트 송신 프로토콜(HTTPS), 휴대용 장치 송신 프로토콜(HDTP) 또는 무선 세션 프로토콜(WSP)이 포함될 수 있다. LCP가 WCP와 다른 경우, 서버 모듈(310)은 하나의 프로토콜에서 다른 프로토콜로의 사상을 담당하여 무선망(320)에 결합된 모듈 장치가 유선망 (300)에 결합된 장치와 통신하게 하는 사상 모듈[즉, 사상 장치(mapper)]를 포함한다.
일단 수신된 음성 신호가 음성 인식 서버 시스템(도시되지 않음)에 의해 처리되면, 기호 데이터 파일이 생성되어 링크 서버 장치(340)로 전송된다. 그 기호 데이터 파일은 LCP 인터페이스(358)를 통해 메시지 프로세서(316)에 의해 수신된다. 메시지 프로세서(316)는 그 기호 데이터 파일을, (무선망의 필요 조건과 요구하는 이동 장치의 장치 특성에 의해) 무선망(320)을 통해 최적하게 송신될 수 있는 데이터 포맷으로 전환한다. 그 기호 데이터 파일은, 음성 인식 서버 시스템으로부터 수신될 때, 예컨대 마크업 언어(예컨대, HTML) 또는 텍스트 파일(예컨대, ASCII)에서 메시지 프로세서(316)에 의해 이해될 수 있는 포맷으로 존재할 수 있다. 이어서, 그 처리된 기호 데이터 파일(이는 요구하는 이동 장치와의 호환성을 보다 좋게 하기 위해 재포맷될 수도 있음)는 요구하는 이동 장치 또는 지시된 제3자 장지로 전송된다.
도 4에는 다음의 처리, 즉 1) 음성 검출, 2) 음성 분석, 3) 패턴 일치 작업 및 4) 기호 파일 생성을 수행하는 예시적인 음성 인식 서버 시스템(460)[도 1의 음성 인식 서버 시스템(109)에 상응할 수 있음)의 기능적 모듈을 도시하고 있다. 음성 검출(462) 중에, 음성 인식 서버 시스템(460)은 그의 입력에서 음성 신호의 존재를 검출한다. 검출시, 그 수신된 음성 신호는 음성 분석 처리(464)를 통과하고, 그것은 패턴 일치 작업에 적합한 정량적 지표로 감소된다. 패턴 일치 단계(466) 중에, 정량적 지표는 다양한 언어 사전과 복수 개의 사용자 지정 파일을 포함할 수 있는 기억 장치(480)에 기억되어 있는 사용자 음성 템플리트(만일 템플리트 기반의 음성 인식 처리 방법을 이용한다면)와 비교된다. 기호 데이터 파일은 전술한 바와 같이 유선망(300)(도 3을 참조)을 통해 링크 서버 장치(340)로 전송된다. 당해 기술 분야의 통상의 지식을 가진 자는 본 발명의 범주를 벗어나지 않고서도 다른 음성 인식 구조[예컨대, 푸리에 변환 방법 또는 선형 예측 부호화 방법[LPC)]이 사용될 수 있음을 이해할 것이다. 또한, 당해 기술 분야의 통상의 지식을 가진 자는 링크 서버 장치(예컨대, 도 1의 106)가 음성 인식 서버 시스템(예컨대, 도 1의 109)의 기능을 수행할 수 있음을 이해할 것이다.
도 5는 음성 인식 서비스를 요구하는 이동 장치와 음성 인식 서버 시스템의 대화에 관한 예시적인 스크린 디스플레이를 도시하고 있다. 초기에는, 스크린 디스플레이(500)에 의해 사용자가 수동 엔트리(504)와 VR(음성 인식) 지원형 엔트리 (508) 사이를 선택할 수 있다. 사용자의 선택은 선택 표시기(512)에 의해 표시된다. 이 예에서, VR 지원형 엔트리(512)는 소프트키 기능 식별자(516)와 관련된 소프트키를 가동시킴으로써 선택될 수 있다. 이 선택은 서비스를 제공하는 음성 인식 서버 시스템에 관한 접촉 정보를 검색한다. 이 예에서, 접촉 정보는 전화 번호(예컨대, 650-555-7272)로 이루어진다. 당해 기술 분야에서 통상의 지식을 가진 자는 그 접촉 정보가 균일 자원 식별자(URI) 또는 유사한 단일의 식별자로 이루어질 수도 있음을 이해할 것이다. 사용자 지정 파일에 접속하는데 이용되는, 관련된 사용자 및/또는 장치 식별 정보는 배경에서 (예컨대 분리된 데이터 통신 채널 또는 음성 통신 채널을 이용하여) 송신되거나 사용자에 의해 입력될 수 있다.
스크린 디스플레이(520)에 도시된 바와 같이, 음성 인식 서버 시스템 접촉 정보의 검색시, 음성 채널은 소프트키 기능 식별자(524)("OK")와 관련된 소프트키를 가동함으로써 형성될 수 있다. 스크린 디스플레이(530)는 요구하는 이동 장치의 사용자에게 제공될 수 있는 정보의 유형을 나타내고 있다. 캐릭터 문자열(532)은 사용자에게 서비스를 제공하는 음성 인식 서버 시스템과 통신 세션을 형성하는 상태에 관한 정보를 제공한다. 캐릭터 문자열(534)은 사용자에게 사용자의 요구를 처리하는데 이용되는 설정값들에 관한 정보를 제공한다. 이것은 간단한 캐릭터 문자열(예컨대, "디폴트 설정값들의 초기화") 또는 사용자가 선택 항목(예컨대, 선택하는 언어)을 입력할 수 있는 복수 개의 대화식 및 비대화식 디스플레이로 이루어질 수 있을 것이다. 서비스 중인 음성 인식 서버 시스템이 입력을 수신할 준비가 되어 있을 때, 프롬프트(536)("말하기 시작")가 사용자에게 제공된다. 사용자는 소프트키 기능 식별자(538)와 관련된 소프트키를 가동함으로써 입력 세션을 종료할 수 있다.
음성 인식 서비스는 요구하는 이동 장치 상에 상주하는 특정 애플리케이션과 대화하게 구성될 수 있다. 예컨대, 처리된 기호 데이터 파일은 e메일과 같은 애플리케이션에서의 지정 필드에 관한 입력으로서 기능하도록 생성될 수 있다. 더욱이, 일단 음성 인식 서비스에 대해서 소정의 활성 음성 채널이 형성되었다면, 사용자는 음성 인식 통신 채널을 고정해서 재형성하지 않고서도 그 서비스를 이용하여 애플리케이션을 변경시킬 수 있다. 예컨대, 사용자는 e메일 프로그램과 개인용 구성기 (organizer) 사이를 전환할 수 있다. 이 특성은 사용자의 비용과 네트워크의 정체를 감소시킨다.
도 6 및 도 7에 있어서, 본 발명의 일 실시예에 의한 이동 장치와 음성 인식 서버의 동작에 관해 설명하는 처리 흐름도가 각각 나타나 있다. 도 6과 도 7 모두는 도 1과 관련하여 이해되어야 한다.
본 발명의 양호한 실시예에 의하면, 음성 인식 서비스를 원하는 사용자는 국지 사용자 인터페이스를 이용하여(예컨대, 소정의 키를 누름으로써) 서비스에 관한 요구를 개시할 것이다. 일반적으로, 사용자는 상주 애플리케이션(예컨대, e메일 또는 웹 브라우저)을 이용하여 수행되고 있는 원하는 작업과 관련하여 그렇게 할 것이다. 요구의 결과로서 이동 장치에 복귀되는 정보는 수행되고 있는 작업과 관련된 문서 내에 합체되어 있을 수 있다.
요구 처리로 인해, 서비스를 요구하는 이동 장치와 그 서비스를 제공하는 음성 인식 서버 시스템 사이에는 음성 채널이 형성되게 된다. 일단 음성 채널이 형성되고 사용자가 말하기 시작하도록 대기하고 있으면, 사용자는 음성 입력에 더하여 국지 사용자 인터페이스(예컨대, 전화기 키패드)를 이용하여 물리적 입력을 포함할 수 있는 이동 장치와의 입력 대화을 시작할 수 있다. 이동 장치와의 초기 입력 대화의 완성시, 사용자는 음성 채널 개방의 개방 상태를 유지하도록 선택하여 다른 작업을 수행하거나 그 음성 채널을 종료한다.
도 6은 프로세서(600)를 설명하는 흐름도로서, 상기 프로세서(600)는 이동 장치[예컨대, 이동 장치(102 및 103)]에 의해 이용되어 이동 장치의 시각으로부터 원격 음성 인식 서버 시스템[예컨대, 음성 인식 서버 시스템(109)]과 대화한다. 단계(604)에서는 해당 이동 장치와 서비스를 제공하는 음성 인식 서버 시스템 간의 활성 음성 채널이 있는지의 여부를 결정한다. 이 처리는 대개 소프트웨어 제어 하에 배경에서 발생한다.
활성 음성 채널이 있다면, 사용자는 그 활성 음성 채널이 디스에이블되기를 원하는지의 여부를 나타내는 단계(608)에서 입력을 제공하도록 프롬프트된다. 이것은 이동 장치와의 계획된 입력 대화을 위한 VR 서비스를 필요로 하지 않는 경우일 것이다.
만일 사용자가 그 음성 채널을 디스에이블하기로 결정한다면, 그것은 단계 (612)에서 디스에이블된다. 이어서, 사용자는 장치의 사용자 인터페이스(예컨대, 키패드)를 이용하여 물리적 입력(628)을 시작한다. 단계(622)에서, 사용자 입력[예컨대, 물리적 입력(628)]이 등록되었는지(예컨대, 그 장치에 의해 수용되는 입력)의 여부를 판단한다. 만일 사용자 입력이 등록되어 있다면, 단계(632)에서 처리하여 사용자는 입력 세션을 계속하거나 그것을 종료할지의 여부를 나타내는 단계 (636)에서 입력을 제공하도록 프롬프트된다. 만일 사용자가 종료를 선택하면, 단계(640)에서 형성된 음성 채널/회로(즉, 음성 채널/회로가 활성임)의 상태에 관해 결정이 행해진다. 전술했던 바와 같이, 이 검사는 대개 배경에서 발생한다. 전술한 순서에서, 활성 음성 채널은 없고, 따라서 순서는 종료될 것이다.
만일 단계(608)에서, 사용자가 이동 장치 입력 대화에 관한 음성 인식 서비스를 이용하고자 하는 경우에서와 같이, 사용자가 음성 채널을 디스에이블하지 않기로 결정한다면, 사용자는 음성 입력(624)과 물리적 입력(628)을 제공하여, 단계 (622)에서 사용자의 입력이 등록되었는지의 여부를 결정한다. 만일 사용자 입력이 등록되었다면, 그것은 단계(632)에서 처리되고, 사용자는 사용자가 그 입력 세션을 계속할지 또는 종료할지의 여부에 관해 단계(636)에서 소정의 표시를 제공하도록 프롬프트된다. 만일 사용자가 종료를 선택하면, 단계(640)에서 임의의 형성된 음성 채널/회로의 상태에 관해 결정이 행해진다. 종료시, 활성 음성 채널/회로는 고정된다. 이어서, 처리를 종료된다.
만일 사용자가 단계(636)에서 입력 세션을 종료하지 않기로 결정하면, 처리은 처리(600)의 개시부로 복귀한다.
만일 단계(604)에서 활성 음성 채널이 없다고 결정되면, 사용자는 그 사용자가 소정의 활성 채널이 형성되기를 원하는지의 여부에 관해 단계(614)에서 소정의 표시를 제공하도록 프롬프트된다. 이것은 사용자가 이동 장치와의 입력 대화을 위해 음성 인식 서비스를 필요로 하는 경우일 것이다.
만일 단계(614)에서 사용자가 입력 대화을 위해 음성 채널을 요구한다면, 단계(618)에서 형성된다. 이어서, 사용자는 음성 입력(624)과 물리적 입력(628)을 제공하고, 사용자의 입력이 등록되었는지의 여부에 관해 단계(622)에서 결정이 행해진다. 만일 사용자의 입력이 등록되었다면, 그것은 단계(632)에서 처리되고, 사용자는 입력 세션을 계속할지 또는 종료할지의 여부에 관해 단계(636)에서 소정의 표시를 제공하도록 프롬프트된다. 만일 사용자가 종료를 선택하면, 단계(640)에서 임의의 형성된 음성 채널/회로의 상태에 관해 전술된 바와 같이 결정이 행해진다. 종료시, 활성 음성 채널/회로는 고정된다. 이어서, 처리는 종료된다.
만일 단계(614)에서 사용자가 음성 인식 서비스를 필요로 하지 않는 경우에서와 같이 임박한 입력 대화을 위해 음성 채널을 필요로 하지 않는다면, 사용자는 이동 장치 사용자 인터페이스(예컨대, 키패드)를 이용하여 물리적 입력(628)을 시작한다. 단계(622)에서, 사용자 입력[예컨대, 물리적 입력(628)]은 등록되었는 지의 여부에 관해 결정한다. 만일 사용자 입력이 등록되었다면, 그것은 단계(632)에서 처리되고, 입력 세션을 계속할지 또는 종료할지의 여부에 관해서는 단계(636)에서 판단된다.
만일 사용자가 단계(636)에서 입력 세션을 종료하지 않는다고 판단하면, 기 처리는 처리(600)의 개시부로 복귀한다.
만일, 전술된 이들 예시적인 대화들 중 임의의 하나에 있어서, 사용자 입력이 단계(622)에서 등록되어 있지 않다면, 사용자는 그들이 음성 인식 서버 시스템과의 세션을 종료하고자 하는지의 여부에 관해 단계(636)에서 소정의 표시를 제공하도록 프롬프트된다.
일단 서비스를 제공하는 음성 인식 시스템과 서비스를 요구하는 이동 장치간의 음성 채널이 형성되면, 음성 인식 서버 시스템은 이동 장치(예컨대, 언어 취향, 템플리트 파일 등)의 사용자와 관련된 임의의 사용자 지정 파일을 검색하고 이들을 이용하여 입중계 음성 입력을 처리할 수 있다. 이어서, 음성 인식 서버 시스템은 서비스 요구와 관련된 입중계 음성 신호를 검출하고 처리한다. 입중계 음성 신호는 템플리트 일치 처리, 푸리에 변환 방법, 선형 예측 부호화 구조 또는 임의의 적당한 음성 인식 부호화 구조를 이용하여 소정의 기호 데이터 파일로 전환되고, 중간 서버 장치[예컨대, 도 1의 링크 서버 장치(106)]를 포함할 수 있는 데이터 통신 채널을 이용하여 요구하는 이동 장치(또는 지시된 제3자 장치)로 전송된다.
기호 데이터 파일은 요구하는 이동 장치에 의해 처리하기에 적당한 포맷(예컨대, cHTML, WML 또는 HDML)으로 존재하거나, 또는 중간 서버 장치에 의해 처리하기에 적당한 포맷(예컨대, HTML, WML, XML, ASCII 등)으로 존재할 수 있다. 후자의 경우, 중간 서버 장치는 필요하다면 요구되는 임의의 전환 처리를 수행할 수 있다.
본 발명의 원리에 의하면, 이동 장치와 대화하는 사용자는 음성 인식 애플리케이션을 실행하는 서버 장치(예컨대, 음성 인식 서버 시스템)에 기초하여 원격으로 사용하는 음성 인식 서비스에 접속할 수 있을 것이다. 전화기 상에 기억되어 있는 소프트웨어(예컨대, 마이크로브라우저)는 서버 장치에 관한 접촉 정보를 검색하고 관리함으로써, 그리고 프롬프트를 제공하고 음성 인식 서버 시스템과의 대화에 관련있는 기능들을 수행함으로써 이 대화에 있어서 사용자를 보조한다. 이 시스템과 방법을 이용하여, 제한된 처리와 기억 용량을 갖는 이동 장치는 강력한 컴퓨터 워크스테이션 상에서 실행하는 모든 특성이 지원되는 음성 인식 애플리케이션에 접속한다.
도 7은 프로세서(700)를 도시하는 흐름도로서, 이 프로세서(700)는 음성 인식 서버 시스템[예컨대, 음성 인식 서버 시스템(109)]에 의해 이용되어, 음성 인식 서버 시스템의 시각으로부터 이동 장치[예컨대, 이동 장치(109)]와 대화한다. 단계 (704)에서는 음성 회로/채널이 음성 인식 서버 시스템[예컨대, 음성 인식 서버 시스템(109)]과 서비스를 요구하는 이동 장치[예컨대, 이동 장치(102)] 사이에 형성되었는지의 여부에 관해 결정이 행해진다.
만일 단계(704)에서 음성 회로/채널이 서비스를 요구하는 이동 장치와 형성되었다면, 단계(708)에서는 음성 신호가 검출되었는지의 여부에 관해 다른 결정이 행해진다. 만일 음성 신호가 단계(708)에서 검출되면, 그 수신된 음성 입력(716)은 단계(712)에서 기호 데이터 파일을 생성하도록 이용된다.
전술된 바와 같이, 기호 데이터 파일은 복수 개의 문자(letter), 음소, 단어, 그림, 오브젝트, 기능, 제어 캐릭터 또는, 소정의 오브젝트, 량, 조작 (operation), 기능, 음소, 단어, 구 또는 음성 인식 시스템에 의해 해독되는 수신 음성 신호에 대한 소정의 관계를 갖는 그들의 임의의 조합을 지정하는 기타의 종래의 마크를 포함하는 파일이다. 음성 인식 시스템은 대개 음성 템플리트, 푸리에 변환 부호화 방법, 또는 선형 예측 부호화 방법을 이용하여 음성 입력 성분을 미리 기억된 기호 형성 블럭에 사상한다. 기호 데이터 파일의 예로는 ASCII 파일과 이진 데이터 파일이 있다.
이어서, 기호 데이터 파일은 단계(720)에서 요구하는 이동 장치(또는 지시된 제3자 장치)로 전송된다. 단계(724)에서, 종료 명령이 서비스를 요구하는 이동 장치로부터 수신되었는지의 여부가 결정이 행해진다. 만일 종료 명령이 수신된다면, 처리는 끝난다. 만일 종료 명령이 수신되지 않는다면, 처리는 단계(708)에서 입중계 음성 신호를 계속 찾는다. 만일 음성 신호가 미리 결정된 시간 주기 내에 수신되지 않는다면, 단계(728)에서 종료 명령이 수신되었는지의 여부에 관해 결정이 행해진다. 만일 종료 명령이 수신되었다면, 처리는 종료된다. 물론, 종료 명령이 수신되지 않았다고 하더라도, 시스템은 처리 종료가 될 수 있는 타임 아웃 또는 주기 제한을 미리 결정했을 수도 있다.
만일 단계(704)에서 음성 회로/채널이 서비스를 요구하는 이동 장치와 형성되지 않았다고 결정되면, 음성 인식 서버 시스템은 음성 인식 서비스를 원하는 이동 장치와의 활성 음성 채널 형성을 대기한다.
본 발명의 원리에 의하면, 음성 인식 서버 시스템은 이동 장치의 사용자 인터페이스의 확장으로서 기능을 수행한다. 예컨대, 사용자는, 통상적인 환경 하에서는 상당한 시간을 필요로 하고 국지 사용자 인터페이스를 이용하여 입력하는데도 노력이 필요할 장시간의 대화 도중 음성 인식 서비스를 이용하도록 선택할 수 있다. 더욱이, 이동 장치의 자원은 사용된 음성 인식 애플리케이션을 한정하지 않기 때문에, 사용자는 방대한 단어집에 접속할 수 있다.
본 발명의 이점은 여러 가지가 있다. 각각의 사용예는 다음의 이점들 중 하나 이상의 이점을 구현할 수 있다. 본 발명의 한 가지 이점은, 임의의 이동 장치(예커대, 제한된 처리와 기억 용량을 갖는 장치)의 사용자가 표준 장치의 사용자 인터페이스를 증가하도록 원격 서버 장치를 실행하는 모든 기능의 음성 인식 애플리케이션을 이용할 수 있게 되는 것이다.
본 발명의 다른 이점은, 이용되는 음성 인식 애플리케이션은 이동 장치의 처리와 기억의 제한에 의해 제약받지 않기 때문에, 사용자에게는 보다 강력한 컴퓨터 상에서 실행하는 모든 특징이 제공되는 음성 인식 애플리케이션의 기능이 제공될 수 있다는 것이다. 이 기능과 관련된 이점에서는 대용량의 단어집과 개인화된 사전을 갖는 복수 개의 언어 사전이 사용자에게 제공되는 단계를 포함한다. 더욱이, 음성 인식 애플리케이션은 이동 장치 상에 기억되어 있지 않기 때문에, 이동 장치의 대당 가격에 영향이 적거나 거의 없다. 본 발명의 또 다른 이점은 이 서비스를 제공하는 캐리어가 사용자에게 서비스에 접속하는데 서비스료가 적게 청구될 수 있다는 것이다.
본 발명의 또 다른 이점은 사용자가 음성 인식 서비스와 국지 사용자 인터페이스(예컨대, 전화기 키패드)를 이용할 수 있고, 따라서 사용자에게 최대의 유연성을 제공한다는 것이다. 예컨대, 사용자는 음성 신호를 입력하고 국지 사용자 인터페이스로부터의 기호들을 혼합할 수 있다.
본 발명의 많은 특징과 이점은 기재된 설명으로부터 명확하고, 따라서 첨부된 특허 청구 범위에 의해 본 발명의 이러한 모든 특징을 포괄하고자 한다. 게다가, 당해 기술 분야의 숙련자에게는 여러 가지 변형과 변경이 쉽게 이루어질 것이기 때문에, 본 발명을 도시되고 설명된 정확한 구성과 동작에 한정하고 싶지 않다. 따라서, 모든 적당한 변형과 균등물은 특허의 범주 내에 속하도록 재분류될 수 있을 것이다.
Claims (48)
- 디스플레이 스크린과 이용자 인터페이스를 갖는 무선 통신 장치에 음성 인식 서비스를 제공하는 방법에 있어서,음성 인식 애플리케이션을 실행하는 서버 장치에서 음성 인식 서비스를 위해 상기 무선 통신 장치로부터 요구 신호를 수신하는 단계와,상기 요구 신호와 관련된 음성 입력 신호를 제 1 통신로로부터 검색하는 단계와,상기 음성 인식 애플리케이션을 이용하여 상기 음성 입력 신호를 기호 데이터 파일로 전환하는 단계와,제 2 통신로를 이용하여 상기 기호 데이터 파일을 상기 무선 통신 장치로 전송하는 단계를 구비하는 음성 인식 서비스 제공 방법.
- 제 1 항에 있어서, 상기 제 1 통신로는 무선 통신망 상에서 구성되는 음성 인식 서비스 제공 방법.
- 제 2 항에 있어서, 상기 무선 통신망은 셀룰러 디지털 패킷 데이터(CDPD) 네트워크, 이동 통신 세계화 시스템(GSM) 네트워크, 부호 분할 다중 접속(CDMA) 네트워크, 개인 휴대 통신 시스템(PHS) 네트워크 및 시분할 다중 접속(TDMA) 네트워크로 이루어진 그룹 중에서 선택되는 음성 인식 서비스 제공 방법.
- 제 1 항에 있어서, 상기 기호 데이터 파일은 마크업 언어 파일인 음성 인식 서비스 제공 방법.
- 제 4 항에 있어서, 상기 마크업 언어 파일은 휴대용 장치 마크업 언어 (HDML), 하이퍼텍스트 마크업 언어(HTML), 콤팩트 HTML(cHTML), 무선 마크업 언어 (WML), 표준 범용 마크업 언어(SGML) 및 확장 마크업 언어(XML)로 이루어진 그룹 중에서 선택되는 음성 인식 서비스 제공 방법.
- 제 1 항에 있어서, 상기 기호 데이터 파일은 이진 데이터 파일인 음성 인식 서비스 제공 방법.
- 제 1 항에 있어서, 상기 기호 데이터 파일은 ASCII 포맷의 데이터 파일인 음성 인식 서비스 제공 방법.
- 제 1 항에 있어서, 상기 제2 통신로는 링크 서버 장치를 포함하는데, 상기 링크 서버 장치는 제1 통신 프로토콜을 이용하여 유선망에 의해 상기 음성 인식 애플리케이션을 실행하는 상기 서버 장치에 연결되고 또한 제2 통신 프로토콜을 이용하여 무선망에 의해 상기 무선 통신 장치에 연결되는 음성 인식 서비스 제공 방법.
- 제 8 항에 있어서, 상기 제1 통신로는 송신 제어 프로토콜-인터넷 프로토콜 (TCP/IP), 하이퍼텍스트 송신 프로토콜(HTTP) 및 보안 하이퍼텍스트 송신 프로토콜 (sHTTP)로 이루어진 그룹 중에서 선택되는 음성 인식 서비스 제공 방법.
- 제 8 항에 있어서, 상기 제2 통신 프로토콜은 무선 통신 프로토콜인 음성 인식 서비스 제공 방법.
- 제 10 항에 있어서, 상기 무선 통신 프로토콜은 무선 접속 프로토콜(WAP) 및 휴대용 장치 송신 프로토콜(HDTP)로 이루어진 그룹 중에서 선택되는 음성 인식 서비스 제공 방법.
- 제 1 항에 있어서, 상기 무선 통신 장치로부터 수신되는 상기 요구 신호는 이용자 특정 식별 정보를 포함하는 음성 인식 서비스 제공 방법.
- 제 12 항에 있어서, 상기 이용자 특정 식별 정보는 이용자 지정 파일을 검색해서 음성 인식 서비스에 관한 상기 요구 신호를 처리하도록 이용되는 음성 인식 서비스 제공 방법.
- 제 1 항에 있어서, 상기 무선 통신 장치로부터 수신되는 상기 요구 신호는 장치 특정 식별 정보를 포함하는 음성 인식 서비스 제공 방법.
- 제 14 항에 있어서, 상기 장치 특정 식별 정보는 이용자 지정 파일을 검색해서 음성 인식 서비스에 관한 상기 요구 신호를 처리하도록 이용되는 음성 인식 서비스 제공 방법.
- 제 14 항에 있어서, 상기 장치 특정 식별 정보는 전화 번호와 균일 자원 식별자(URI)로 이루어진 그룹 중에서 선택되는 음성 인식 서비스 제공 방법.
- 제 1 항에 있어서, 상기 무선 통신 장치는 이동 전화기인 음성 인식 서비스 제공 방법.
- 제 17 항에 있어서, 상기 이동 전화기는 마이크로프로세서와 소프트웨어용 기억 영역을 포함하는 음성 인식 서비스 제공 방법.
- 제 18 항에 있어서, 상기 마이크로프로세서는 상기 기억 영역에 저장되어 있는 소프트웨어를 이용하여 전화 기능과 국지(local) 애플리케이션을 제어하는 음성 인식 서비스 제공 방법.
- 제 19 항에 있어서, 상기 국지 애플리케이션은 음성 인식 서비스를 구현하는 것에 관한 기능을 지원하는 음성 인식 서비스 제공 방법.
- 디스플레이 스크린과 이용자 인터페이스를 갖는 무선 통신 장치에 음성 인식 서비스를 제공하는 방법에 있어서,음성 인식 애플리케이션을 실행하는 서버 장치에 관한 접촉 정보를 검색하는 단계와,상기 검색된 접촉 정보와 관련된 서버 장치로부터 음성 인식 서비스에 관한 요구 신호를 생성하는 단계와,음성 인식 서비스에 관한 상기 요구 신호를, 상기 검색된 접촉 정보와 관련된 서버 장치로 전송하는 단계와,상기 무선 통신 장치와, 상기 검색된 접촉 정보에 관련된 서버 장치 간에 음성 통신 채널을 형성하는 단계와,상기 무선 통신 장치를 이용하여 사용자로부터의 입력을 수신하는 단계와,상기 음성 인식 애플리케이션으로 처리하기 위해 상기 사용자의 입력을 상기 서버 장치로 송신하는 단계를 구비하고,상기 입력의 적어도 일부는 음성 성분을 포함하는 음성 인식 서비스 제공 방법.
- 제 21 항에 있어서, 상기 접촉 정보는 전화 번호와 균일 자원 식별자(URI)로 이루어진 그룹 중에서 선택되는 음성 인식 서비스 제공 방법.
- 제 21 항에 있어서, 상기 음성 통신 채널은 무선망 상에서 형성되는 음성 인식 서비스 제공 방법.
- 제 23 항에 있어서, 상기 무선 통신망은 셀룰러 디지털 패킷 데이터(CDPD) 네트워크, 이동 통신 세계화 시스템(GSM) 네트워크, 부호 분할 다중 접속(CDMA) 네트워크, 개인 휴대 통신 시스템(PHS) 네트워크 및 시분할 다중 접속(TDMA) 네트워크로 이루어진 그룹 중에서 선택되는 음성 인식 서비스 제공 방법.
- 제 21 항에 있어서,상기 검색된 접촉 정보와 관련된 서버 장치로부터 기호 데이터 파일을 수신하는 단계와,상기 무선 통신 장치를 이용하여 상기 수신된 기호 데이터 파일을 처리하는 단계와,재검토와 변경을 위해 상기 처리된 기호 데이터 파일 중 적어도 일 부분을 상기 사용자에게 디스플레이하는 단계를 더 구비하고,상기 기호 데이터 파일은 상기 서버 장치에 의해 상기 사용자 입력의 음성 인식 처리의 상기 처리된 출력을 포함하는 음성 인식 서비스 제공 방법.
- 제 25 항에 있어서, 상기 수신된 기호 데이터 파일은 마크업 언어 파일인 음성 인식 서비스 제공 방법.
- 제 26 항에 있어서, 상기 마크업 언어 파일은 휴대용 장치 마크업 언어 (HDML), 하이퍼텍스트 마크업 언어(HTML), 콤팩트 HTML(cHTML), 무선 마크업 언어 (WML), 표준 범용 마크업 언어(SGML) 및 확장 마크업 언어(XML)로 이루어진 그룹 중에서 선택되는 음성 인식 서비스 제공 방법.
- 제 25 항에 있어서, 상기 기호 데이터 파일은 이진 데이터 파일인 음성 인식 서비스 제공 방법.
- 제 25 항에 있어서, 상기 기호 데이터 파일은 ASCII 포맷의 데이터 파일인 음성 인식 서비스 제공 방법.
- 무선 통신 장치에 대해서 음성 인식 서비스에 관한 요구 신호를 생성하는 컴퓨터 프로그램 코드가 부호화되어 실리는 컴퓨터 판독 매체에 있어서,음성 인식 서비스를 제공하는 서버 장치에 관한 접촉 정보를 검색하는 컴퓨터 프로그램 코드와,상기 검색된 접촉 정보와 관련된 서버 장치로부터 음성 인식 서비스에 관한 요구 신호를 생성하는 컴퓨터 프로그램 코드와,상기 무선 통신 장치로부터, 음성 인식 서비스에 관한 상기 요구 신호와 관련된 음성 입력을 수신하는 컴퓨터 프로그램 코드와,음성 인식 처리를 위해 소정의 음성 신호를 상기 서버 장치에 송신할 목적으로, 상기 무선 통신 장치와 상기 서버 장치 간의 음성 통신 세션을 형성하는 컴퓨터 프로그램 코드를 구비하는 컴퓨터 판독 매체.
- 제 30 항에 있어서, 상기 접촉 정보는 전화 번호와 균일 자원 식별자(URI)로 이루어진 그룹 중에서 선택되는 컴퓨터 판독 매체.
- 음성 인식 서비스를 무선 통신 장치에 제공하는 컴퓨터 프로그램 코드가 부호화되어 실리는 컴퓨터 판독 매체에 있어서,이동 장치로부터 수신된 음성 인식 서비스에 관한 요구 신호를 처리하는 컴퓨터 프로그램 코드와,음성 인식 서비스를 위한 상기 요구 신호와 관련된 음성 입력을 수신하는 컴퓨터 프로그램 코드와,상기 수신된 음성 입력을 기호 데이터 파일로 전환하는 컴퓨터 프로그램 코드와,상기 기호 데이터 파일을, 상기 요구 신호를 발신하는 상기 이동 장치로 전송하는 컴퓨터 프로그램 코드를 구비하는 컴퓨터 판독 매체.
- 제 32 항에 있어서, 상기 기호 데이터 파일은 마크업 언어 파일인 컴퓨터 판독 매체.
- 제 33 항에 있어서, 상기 마크업 언어 파일은 휴대용 장치 마크업 언어 (HDML), 하이퍼텍스트 마크업 언어(HTML), 콤팩트 HTML(cHTML), 무선 마크업 언어 (WML), 표준 범용 마크업 언어(SGML) 및 확장 마크업 언어(XML)로 이루어진 그룹 중에서 선택되는 컴퓨터 판독 매체.
- 제 32 항에 있어서,상기 요구 신호와 관련된 사용자 지정 파일을 검색하는 컴퓨터 프로그램 코드와,상기 전환 처리에서의 상기 사용자 지정 파일을 이용하여 상기 음성 입력을 소정의 기호 데이터 파일로 전환하는 컴퓨터 프로그램 코드를 더 구비하는 컴퓨터 판독 매체.
- 제 35 항에 있어서, 상기 사용자 지정 파일은 사용자 즐겨찾기(preferences)를 포함하는 컴퓨터 판독 매체.
- 제 35 항에 있어서, 상기 사용자 지정 파일은 사용자 음성 템플릿을 포함하는 컴퓨터 판독 매체.
- 음성 인식 서비스를 제공하는 무선 통신 시스템에 있어서,제1 통신로 상에서의 음성 인식 처리를 위해 음성 입력을 제공하고 상기 처리된 음성 입력을 제2 통신로 상에서 표현하는 기호 데이터 파일을 수신하는 무선 통신 장치와,상기 무선 통신 장치로부터의 음성 입력을 상기 제1 통신로 상에서 수신하고, 상기 수신된 음성 입력을 소정의 기호 데이터 파일로 전환하며, 상기 제2 통신로를 이용하여 상기 기호 데이터 파일을 상기 무선 장치로 전송하는 음성 인식 애플리케이션을 실행하는 서버 장치를 구비하는 무선 통신 시스템.
- 제 38 항에 있어서, 상기 제1 통신로는 무선망 상에서 형성되는 음성 인식 서비스를 제공하는 무선 통신 시스템.
- 제 39 항에 있어서, 상기 무선 통신망은 셀룰러 디지털 패킷 데이터(CDPD) 네트워크, 이동 통신 세계화 시스템(GSM) 네트워크, 부호 분할 다중 접속(CDMA) 네트워크, 개인 휴대 통신 시스템(PHS) 네트워크 및 시분할 다중 접속(TDMA) 네트워크로 이루어진 그룹 중에서 선택되는 음성 인식 서비스를 제공하는 무선 통신 시스템.
- 제 40 항에 있어서, 상기 제2 통신로는 링크 서버 장치를 포함하는데, 상기 링크 서버 장치는 제1 통신 프로토콜을 이용하여 유선망에 의해 상기 음성 인식 애플리케이션을 실행하는 상기 서버 장치에 연결되고 또한 제2 통신 프로토콜을 이용하여 무선망에 의해 상기 무선 통신 장치에 연결되는 음성 인식 서비스를 제공하는 무선 통신 시스템.
- 제 41 항에 있어서, 상기 제1 통신로는 송신 제어 프로토콜-인터넷 프로토콜 (TCP/IP), 하이퍼텍스트 송신 프로토콜(HTTP) 및 보안 하이퍼텍스트 송신 프로토콜 (sHTTP)로 이루어진 그룹 중에서 선택되는 음성 인식 서비스를 제공하는 무선 통신 시스템.
- 제 41 항에 있어서, 상기 제2 통신 프로토콜은 무선 통신 프로토콜인 음성 인식 서비스를 제공하는 무선 통신 시스템.
- 제 43 항에 있어서, 상기 무선 통신 프로토콜은 무선 접속 프로토콜(WAP) 및 휴대용 장치 송신 프로토콜(HDTP)로 이루어진 그룹 중에서 선택되는 음성 인식 서비스를 제공하는 무선 통신 시스템.
- 제 38 항에 있어서, 상기 무선 통신 장치는 이동 전화기인 음성 인식 서비스를 제공하는 무선 통신 시스템.
- 제 45 항에 있어서, 상기 이동 전화기는 마이크로프로세서와 소프트웨어용 기억 영역을 포함하는 음성 인식 서비스를 제공하는 무선 통신 시스템.
- 제 46 항에 있어서, 상기 마이크로프로세서는 상기 기억 영역에 저장되어 있는 소프트웨어를 이용하여 전화 기능과 국지 애플리케이션을 제어하는 음성 인식 서비스를 제공하는 무선 통신 시스템.
- 제 47 항에 있어서, 상기 국지 애플리케이션은 음성 인식 서비스를 구현하는 것에 관한 기능을 지원하는 음성 인식 서비스를 제공하는 무선 통신 시스템.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16729099P | 1999-11-24 | 1999-11-24 | |
US60/167,290 | 1999-11-24 | ||
US9/643,558 | 2000-08-21 | ||
US09/643,558 US6532446B1 (en) | 1999-11-24 | 2000-08-21 | Server based speech recognition user interface for wireless devices |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20010051903A true KR20010051903A (ko) | 2001-06-25 |
Family
ID=26863029
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020000070088A KR20010051903A (ko) | 1999-11-24 | 2000-11-23 | 음성인식에 기초한 무선장치용 사용자 인터페이스 |
Country Status (5)
Country | Link |
---|---|
US (1) | US6532446B1 (ko) |
EP (1) | EP1104155A3 (ko) |
JP (1) | JP2001222294A (ko) |
KR (1) | KR20010051903A (ko) |
CN (1) | CN1298249A (ko) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100392283B1 (ko) * | 2000-03-15 | 2003-07-23 | 닛폰 덴키(주) | 무선 휴대용 단말기를 사용하는 정보 검색 시스템 |
KR20030097347A (ko) * | 2002-06-20 | 2003-12-31 | 삼성전자주식회사 | 휴대용 단말기의 음성인식을 이용한 문자메시지 전송 방법 |
KR100414064B1 (ko) * | 2001-04-12 | 2004-01-07 | 엘지전자 주식회사 | 음성인식에 의한 이동통신 단말기 제어시스템 및 방법 |
KR100958961B1 (ko) * | 2006-12-28 | 2010-05-20 | 인텔 코오퍼레이션 | Nfc 애플리케이션들에 대한 음성 인터페이스 |
Families Citing this family (361)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001013255A2 (en) * | 1999-08-13 | 2001-02-22 | Pixo, Inc. | Displaying and traversing links in character array |
US7203721B1 (en) * | 1999-10-08 | 2007-04-10 | At Road, Inc. | Portable browser device with voice recognition and feedback capability |
JP2001197379A (ja) * | 2000-01-05 | 2001-07-19 | Matsushita Electric Ind Co Ltd | 機器設定装置、機器設定システムおよび機器設定処理プログラムを記録した記録媒体 |
US8645137B2 (en) | 2000-03-16 | 2014-02-04 | Apple Inc. | Fast, language-independent method for user authentication by voice |
US8355912B1 (en) * | 2000-05-04 | 2013-01-15 | International Business Machines Corporation | Technique for providing continuous speech recognition as an alternate input device to limited processing power devices |
US7134073B1 (en) * | 2000-06-15 | 2006-11-07 | International Business Machines Corporation | Apparatus and method for enabling composite style sheet application to multi-part electronic documents |
JP2002074188A (ja) * | 2000-06-16 | 2002-03-15 | Sony Computer Entertainment Inc | 会員情報登録方法および装置、会員認証方法および装置、サーバコンピュータ |
JP2004505322A (ja) * | 2000-07-28 | 2004-02-19 | シーメンス ヴィディーオー オートモーティヴ コーポレイション | 遠隔操作系のユーザーインターフェイス |
US7114077B2 (en) * | 2000-08-23 | 2006-09-26 | Ryan Miller | Verification system for confidential data input |
FI20001918A (fi) | 2000-08-30 | 2002-03-01 | Nokia Corp | Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä |
JP2002073561A (ja) * | 2000-09-01 | 2002-03-12 | Toyota Motor Corp | 通信網を介してアクセスするユーザの認証方法及び認証システム、並びに、これらを利用した情報処理システム |
WO2002023389A1 (en) * | 2000-09-15 | 2002-03-21 | Robert Fish | Systems and methods for translating an item of information using a distal computer |
US20110213869A1 (en) * | 2000-09-25 | 2011-09-01 | Yevgeny Korsunsky | Processing data flows with a data flow processor |
US20110231564A1 (en) * | 2000-09-25 | 2011-09-22 | Yevgeny Korsunsky | Processing data flows with a data flow processor |
US9800608B2 (en) * | 2000-09-25 | 2017-10-24 | Symantec Corporation | Processing data flows with a data flow processor |
US20110238855A1 (en) * | 2000-09-25 | 2011-09-29 | Yevgeny Korsunsky | Processing data flows with a data flow processor |
US20070192863A1 (en) * | 2005-07-01 | 2007-08-16 | Harsh Kapoor | Systems and methods for processing data flows |
JP4135307B2 (ja) * | 2000-10-17 | 2008-08-20 | 株式会社日立製作所 | 音声通訳サービス方法および音声通訳サーバ |
US7181508B1 (en) * | 2000-11-09 | 2007-02-20 | Oki Data Americas, Inc. | System and method for communicating, monitoring and configuring a device operatively connected to a network |
US7496510B2 (en) * | 2000-11-30 | 2009-02-24 | International Business Machines Corporation | Method and apparatus for the automatic separating and indexing of multi-speaker conversations |
US20020097692A1 (en) * | 2000-12-29 | 2002-07-25 | Nokia Mobile Phones Ltd. | User interface for a mobile station |
GB0108044D0 (en) * | 2001-03-30 | 2001-05-23 | British Telecomm | Application synchronisation |
US20020178003A1 (en) * | 2001-03-09 | 2002-11-28 | Motorola, Inc. | Method and apparatus for providing voice recognition service to a wireless communication device |
CA2440807A1 (en) * | 2001-03-30 | 2002-10-10 | British Telecommunications Public Limited Company | Multi-modal interface |
US6832196B2 (en) * | 2001-03-30 | 2004-12-14 | International Business Machines Corporation | Speech driven data selection in a voice-enabled program |
US6931463B2 (en) * | 2001-09-11 | 2005-08-16 | International Business Machines Corporation | Portable companion device only functioning when a wireless link established between the companion device and an electronic device and providing processed data to the electronic device |
US6901364B2 (en) * | 2001-09-13 | 2005-05-31 | Matsushita Electric Industrial Co., Ltd. | Focused language models for improved speech input of structured documents |
US7158499B2 (en) * | 2001-09-19 | 2007-01-02 | Mitsubishi Electric Research Laboratories, Inc. | Voice-operated two-way asynchronous radio |
US6865532B2 (en) * | 2001-09-19 | 2005-03-08 | Mitsubishi Electric Research Laboratories, Inc. | Method for recognizing spoken identifiers having predefined grammars |
ITFI20010199A1 (it) | 2001-10-22 | 2003-04-22 | Riccardo Vieri | Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico |
GB2382749B (en) * | 2001-11-28 | 2005-12-07 | Nokia Mobile Developments | Call routing |
US20030125959A1 (en) * | 2001-12-31 | 2003-07-03 | Palmquist Robert D. | Translation device with planar microphone array |
WO2003058879A1 (en) | 2002-01-08 | 2003-07-17 | Seven Networks, Inc. | Secure transport for mobile communication network |
US20030157959A1 (en) * | 2002-01-11 | 2003-08-21 | Jakke Makela | Method, system, apparatus and computer program product for portable networking of multi-user applications |
KR20020024045A (ko) * | 2002-01-22 | 2002-03-29 | 배성윤 | 셀룰러폰을 이용한 외국어 회화학습과 통역지원 시스템 |
US7286993B2 (en) * | 2002-01-31 | 2007-10-23 | Product Discovery, Inc. | Holographic speech translation system and method |
FR2835999B1 (fr) * | 2002-02-13 | 2004-04-02 | France Telecom | Edition et consultation de services vocaux telephoniques interactifs |
AU2003229879A1 (en) * | 2002-03-28 | 2003-10-13 | British Telecommunications Public Limited Company | Synchronisation in multi-modal interfaces |
JP2003308283A (ja) * | 2002-04-18 | 2003-10-31 | Mitsubishi Electric Corp | 通信装置、通信方法及び車載用ナビゲーション装置 |
US7376701B2 (en) * | 2002-04-29 | 2008-05-20 | Cisco Technology, Inc. | System and methodology for control of, and access and response to internet email from a wireless device |
US7509117B2 (en) * | 2002-05-31 | 2009-03-24 | Nokia Corporation | Apparatus, and associated method, for notifying a user in a radio communication system of a commercially-related transaction |
SE0202058D0 (sv) * | 2002-07-02 | 2002-07-02 | Ericsson Telefon Ab L M | Voice browsing architecture based on adaptive keyword spotting |
US7809578B2 (en) | 2002-07-17 | 2010-10-05 | Nokia Corporation | Mobile device having voice user interface, and a method for testing the compatibility of an application with the mobile device |
US7421390B2 (en) * | 2002-09-13 | 2008-09-02 | Sun Microsystems, Inc. | Method and system for voice control of software applications |
US20040107250A1 (en) * | 2002-10-21 | 2004-06-03 | Guillermo Marciano | Methods and systems for integrating communication resources using the internet |
US7873390B2 (en) | 2002-12-09 | 2011-01-18 | Voice Signal Technologies, Inc. | Provider-activated software for mobile communication devices |
US7917468B2 (en) | 2005-08-01 | 2011-03-29 | Seven Networks, Inc. | Linking of personal information management data |
US8468126B2 (en) | 2005-08-01 | 2013-06-18 | Seven Networks, Inc. | Publishing data in an information community |
US7853563B2 (en) | 2005-08-01 | 2010-12-14 | Seven Networks, Inc. | Universal data aggregation |
EP1611504B1 (en) * | 2003-04-07 | 2009-01-14 | Nokia Corporation | Method and device for providing speech-enabled input in an electronic device having a user interface |
US7669134B1 (en) * | 2003-05-02 | 2010-02-23 | Apple Inc. | Method and apparatus for displaying information during an instant messaging session |
EP1489596B1 (en) * | 2003-06-17 | 2006-09-13 | Sony Ericsson Mobile Communications AB | Device and method for voice activity detection |
US7089604B2 (en) * | 2003-11-05 | 2006-08-15 | Wright Glenn H | Toilet support device and method |
DE10353068A1 (de) * | 2003-11-13 | 2005-06-23 | Voice Trust Ag | Verfahren zur Authentifizierung eines Benutzers anhand dessen Stimmprofils |
US20050131685A1 (en) * | 2003-11-14 | 2005-06-16 | Voice Signal Technologies, Inc. | Installing language modules in a mobile communication device |
FI115274B (fi) * | 2003-12-19 | 2005-03-31 | Nokia Corp | Puhekäyttöliittymällä varustettu elektroninen laite ja menetelmä elektronisessa laitteessa käyttöliittymäkieliasetuksien suorittamiseksi |
US20050171781A1 (en) * | 2004-01-08 | 2005-08-04 | Poploskie Jon M. | Speech information system |
US8954325B1 (en) * | 2004-03-22 | 2015-02-10 | Rockstar Consortium Us Lp | Speech recognition in automated information services systems |
US20060009974A1 (en) * | 2004-07-09 | 2006-01-12 | Matsushita Electric Industrial Co., Ltd. | Hands-free voice dialing for portable and remote devices |
WO2006045102A2 (en) | 2004-10-20 | 2006-04-27 | Seven Networks, Inc. | Method and apparatus for intercepting events in a communication system |
US8010082B2 (en) | 2004-10-20 | 2011-08-30 | Seven Networks, Inc. | Flexible billing architecture |
US7706781B2 (en) | 2004-11-22 | 2010-04-27 | Seven Networks International Oy | Data security in a mobile e-mail service |
FI117152B (fi) | 2004-12-03 | 2006-06-30 | Seven Networks Internat Oy | Sähköpostiasetusten käyttöönotto matkaviestimelle |
US7529677B1 (en) | 2005-01-21 | 2009-05-05 | Itt Manufacturing Enterprises, Inc. | Methods and apparatus for remotely processing locally generated commands to control a local device |
DE602005001048T2 (de) * | 2005-01-31 | 2008-01-03 | Harman Becker Automotive Systems Gmbh | Erweiterung der Bandbreite eines schmalbandigen Sprachsignals |
US7877703B1 (en) | 2005-03-14 | 2011-01-25 | Seven Networks, Inc. | Intelligent rendering of information in a limited display environment |
US8438633B1 (en) | 2005-04-21 | 2013-05-07 | Seven Networks, Inc. | Flexible real-time inbox access |
US7796742B1 (en) | 2005-04-21 | 2010-09-14 | Seven Networks, Inc. | Systems and methods for simplified provisioning |
WO2006136660A1 (en) | 2005-06-21 | 2006-12-28 | Seven Networks International Oy | Maintaining an ip connection in a mobile network |
US8069166B2 (en) | 2005-08-01 | 2011-11-29 | Seven Networks, Inc. | Managing user-to-user contact with inferred presence information |
US20070038455A1 (en) * | 2005-08-09 | 2007-02-15 | Murzina Marina V | Accent detection and correction system |
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US8635073B2 (en) * | 2005-09-14 | 2014-01-21 | At&T Intellectual Property I, L.P. | Wireless multimodal voice browser for wireline-based IPTV services |
US7633076B2 (en) | 2005-09-30 | 2009-12-15 | Apple Inc. | Automated response to and sensing of user activity in portable devices |
CN100426377C (zh) * | 2005-10-21 | 2008-10-15 | 华为技术有限公司 | 一种实现语音识别功能的方法 |
CN1953447B (zh) * | 2005-10-21 | 2010-09-15 | 华为技术有限公司 | 媒体资源处理方法 |
US20070112571A1 (en) * | 2005-11-11 | 2007-05-17 | Murugappan Thirugnana | Speech recognition at a mobile terminal |
WO2007070842A2 (en) * | 2005-12-15 | 2007-06-21 | Josef Berger | System and methods for initiating, maintaining, and delivering personalized information by communication server |
US7769395B2 (en) | 2006-06-20 | 2010-08-03 | Seven Networks, Inc. | Location-based operations and messaging |
US8370141B2 (en) * | 2006-03-03 | 2013-02-05 | Reagan Inventions, Llc | Device, system and method for enabling speech recognition on a portable data device |
US7761293B2 (en) * | 2006-03-06 | 2010-07-20 | Tran Bao Q | Spoken mobile engine |
US8117268B2 (en) * | 2006-04-05 | 2012-02-14 | Jablokov Victor R | Hosted voice recognition system for wireless devices |
US8510109B2 (en) * | 2007-08-22 | 2013-08-13 | Canyon Ip Holdings Llc | Continuous speech transcription performance indication |
US9436951B1 (en) | 2007-08-22 | 2016-09-06 | Amazon Technologies, Inc. | Facilitating presentation by mobile device of additional content for a word or phrase upon utterance thereof |
US20090124272A1 (en) * | 2006-04-05 | 2009-05-14 | Marc White | Filtering transcriptions of utterances |
DE602006019646D1 (de) * | 2006-04-27 | 2011-02-24 | Mobiter Dicta Oy | Verfahren, system und einrichtung zur umsetzung von sprache |
US8204748B2 (en) * | 2006-05-02 | 2012-06-19 | Xerox Corporation | System and method for providing a textual representation of an audio message to a mobile device |
US9208785B2 (en) * | 2006-05-10 | 2015-12-08 | Nuance Communications, Inc. | Synchronizing distributed speech recognition |
US9086737B2 (en) * | 2006-06-15 | 2015-07-21 | Apple Inc. | Dynamically controlled keyboard |
EP2044804A4 (en) | 2006-07-08 | 2013-12-18 | Personics Holdings Inc | PERSONAL HEARING AID AND METHOD |
US11450331B2 (en) | 2006-07-08 | 2022-09-20 | Staton Techiya, Llc | Personal audio assistant device and method |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US7912828B2 (en) * | 2007-02-23 | 2011-03-22 | Apple Inc. | Pattern searching methods and apparatuses |
US8996379B2 (en) * | 2007-03-07 | 2015-03-31 | Vlingo Corporation | Speech recognition text entry for software applications |
US20080221900A1 (en) * | 2007-03-07 | 2008-09-11 | Cerra Joseph P | Mobile local search environment speech processing facility |
US8886545B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Dealing with switch latency in speech recognition |
US8949266B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Multiple web-based content category searching in mobile search application |
US10056077B2 (en) | 2007-03-07 | 2018-08-21 | Nuance Communications, Inc. | Using speech recognition results based on an unstructured language model with a music system |
US8635243B2 (en) * | 2007-03-07 | 2014-01-21 | Research In Motion Limited | Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application |
US8838457B2 (en) * | 2007-03-07 | 2014-09-16 | Vlingo Corporation | Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility |
US8949130B2 (en) | 2007-03-07 | 2015-02-03 | Vlingo Corporation | Internal and external speech recognition use with a mobile communication facility |
US8886540B2 (en) * | 2007-03-07 | 2014-11-11 | Vlingo Corporation | Using speech recognition results based on an unstructured language model in a mobile communication facility application |
US20090030691A1 (en) * | 2007-03-07 | 2009-01-29 | Cerra Joseph P | Using an unstructured language model associated with an application of a mobile communication facility |
US8515728B2 (en) | 2007-03-29 | 2013-08-20 | Microsoft Corporation | Language translation of visual and audio input |
US8977255B2 (en) * | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8326636B2 (en) * | 2008-01-16 | 2012-12-04 | Canyon Ip Holdings Llc | Using a physical phenomenon detector to control operation of a speech recognition engine |
US8352261B2 (en) * | 2008-03-07 | 2013-01-08 | Canyon IP Holdings, LLC | Use of intermediate speech transcription results in editing final speech transcription results |
US9973450B2 (en) * | 2007-09-17 | 2018-05-15 | Amazon Technologies, Inc. | Methods and systems for dynamically updating web service profile information by parsing transcribed message strings |
US8352264B2 (en) * | 2008-03-19 | 2013-01-08 | Canyon IP Holdings, LLC | Corrective feedback loop for automated speech recognition |
US20090076917A1 (en) * | 2007-08-22 | 2009-03-19 | Victor Roditis Jablokov | Facilitating presentation of ads relating to words of a message |
US8611871B2 (en) | 2007-12-25 | 2013-12-17 | Canyon Ip Holdings Llc | Validation of mobile advertising from derived information |
US8693494B2 (en) | 2007-06-01 | 2014-04-08 | Seven Networks, Inc. | Polling |
US8805425B2 (en) | 2007-06-01 | 2014-08-12 | Seven Networks, Inc. | Integrated messaging |
EP2156335A1 (en) * | 2007-06-04 | 2010-02-24 | TomTom International B.V. | Location data processing apparatus and method of importing location information |
US9053489B2 (en) | 2007-08-22 | 2015-06-09 | Canyon Ip Holdings Llc | Facilitating presentation of ads relating to words of a message |
US8335830B2 (en) * | 2007-08-22 | 2012-12-18 | Canyon IP Holdings, LLC. | Facilitating presentation by mobile device of additional content for a word or phrase upon utterance thereof |
US20090070109A1 (en) * | 2007-09-12 | 2009-03-12 | Microsoft Corporation | Speech-to-Text Transcription for Personal Communication Devices |
US9053089B2 (en) | 2007-10-02 | 2015-06-09 | Apple Inc. | Part-of-speech tagging using latent analogy |
US8065152B2 (en) | 2007-11-08 | 2011-11-22 | Demand Media, Inc. | Platform for enabling voice commands to resolve phoneme based domain name registrations |
US8620662B2 (en) * | 2007-11-20 | 2013-12-31 | Apple Inc. | Context-aware unit selection |
US8364181B2 (en) | 2007-12-10 | 2013-01-29 | Seven Networks, Inc. | Electronic-mail filtering for mobile devices |
US8793305B2 (en) | 2007-12-13 | 2014-07-29 | Seven Networks, Inc. | Content delivery to a mobile device from a content service |
US9002828B2 (en) | 2007-12-13 | 2015-04-07 | Seven Networks, Inc. | Predictive content delivery |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US8327272B2 (en) | 2008-01-06 | 2012-12-04 | Apple Inc. | Portable multifunction device, method, and graphical user interface for viewing and managing electronic calendars |
US8067701B2 (en) * | 2008-01-07 | 2011-11-29 | Apple Inc. | I/O connectors with extendable faraday cage |
US8107921B2 (en) | 2008-01-11 | 2012-01-31 | Seven Networks, Inc. | Mobile virtual network operator |
US8862657B2 (en) | 2008-01-25 | 2014-10-14 | Seven Networks, Inc. | Policy based content service |
US20090193338A1 (en) | 2008-01-28 | 2009-07-30 | Trevor Fiatal | Reducing network and battery consumption during content delivery and playback |
US8065143B2 (en) | 2008-02-22 | 2011-11-22 | Apple Inc. | Providing text input using speech data and non-speech data |
US9886231B2 (en) | 2008-03-28 | 2018-02-06 | Kopin Corporation | Head worn wireless computer having high-resolution display suitable for use as a mobile internet device |
US8676577B2 (en) * | 2008-03-31 | 2014-03-18 | Canyon IP Holdings, LLC | Use of metadata to post process speech recognition output |
US8996376B2 (en) | 2008-04-05 | 2015-03-31 | Apple Inc. | Intelligent text-to-speech conversion |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8464150B2 (en) | 2008-06-07 | 2013-06-11 | Apple Inc. | Automatic language identification for dynamic text processing |
US8787947B2 (en) | 2008-06-18 | 2014-07-22 | Seven Networks, Inc. | Application discovery on mobile devices |
US8078158B2 (en) | 2008-06-26 | 2011-12-13 | Seven Networks, Inc. | Provisioning applications for a mobile device |
US8700008B2 (en) | 2008-06-27 | 2014-04-15 | Microsoft Corporation | Providing data service options in push-to-talk using voice recognition |
US9128981B1 (en) | 2008-07-29 | 2015-09-08 | James L. Geer | Phone assisted ‘photographic memory’ |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8110744B2 (en) * | 2008-08-19 | 2012-02-07 | Apple Inc. | Flexible shielded cable |
US8301454B2 (en) | 2008-08-22 | 2012-10-30 | Canyon Ip Holdings Llc | Methods, apparatuses, and systems for providing timely user cues pertaining to speech recognition |
US8768702B2 (en) | 2008-09-05 | 2014-07-01 | Apple Inc. | Multi-tiered voice feedback in an electronic device |
US8898568B2 (en) | 2008-09-09 | 2014-11-25 | Apple Inc. | Audio user interface |
US9129291B2 (en) | 2008-09-22 | 2015-09-08 | Personics Holdings, Llc | Personalized sound management and method |
US8352268B2 (en) * | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for selective rate of speech and speech preferences for text to speech synthesis |
US8352272B2 (en) * | 2008-09-29 | 2013-01-08 | Apple Inc. | Systems and methods for text to speech synthesis |
US8712776B2 (en) | 2008-09-29 | 2014-04-29 | Apple Inc. | Systems and methods for selective text to speech synthesis |
US8583418B2 (en) | 2008-09-29 | 2013-11-12 | Apple Inc. | Systems and methods of detecting language and natural language strings for text to speech synthesis |
US20100082328A1 (en) * | 2008-09-29 | 2010-04-01 | Apple Inc. | Systems and methods for speech preprocessing in text to speech synthesis |
US8355919B2 (en) * | 2008-09-29 | 2013-01-15 | Apple Inc. | Systems and methods for text normalization for text to speech synthesis |
US8396714B2 (en) * | 2008-09-29 | 2013-03-12 | Apple Inc. | Systems and methods for concatenation of words in text to speech synthesis |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US8909759B2 (en) | 2008-10-10 | 2014-12-09 | Seven Networks, Inc. | Bandwidth measurement |
WO2010067118A1 (en) | 2008-12-11 | 2010-06-17 | Novauris Technologies Limited | Speech recognition involving a mobile device |
CA2748695C (en) * | 2008-12-31 | 2017-11-07 | Bce Inc. | System and method for unlocking a device |
US8380507B2 (en) | 2009-03-09 | 2013-02-19 | Apple Inc. | Systems and methods for determining the language to use for speech generated by a text to speech engine |
US10241644B2 (en) | 2011-06-03 | 2019-03-26 | Apple Inc. | Actionable reminder entries |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US9858925B2 (en) | 2009-06-05 | 2018-01-02 | Apple Inc. | Using context information to facilitate processing of commands in a virtual assistant |
US10241752B2 (en) | 2011-09-30 | 2019-03-26 | Apple Inc. | Interface for a virtual digital assistant |
US10540976B2 (en) * | 2009-06-05 | 2020-01-21 | Apple Inc. | Contextual voice commands |
US9431006B2 (en) | 2009-07-02 | 2016-08-30 | Apple Inc. | Methods and apparatuses for automatic speech recognition |
US20110010179A1 (en) * | 2009-07-13 | 2011-01-13 | Naik Devang K | Voice synthesis and processing |
US20110111800A1 (en) * | 2009-11-11 | 2011-05-12 | Temar Harper | Cellular Phone Memory Card With Voice Activated Component |
US8682649B2 (en) | 2009-11-12 | 2014-03-25 | Apple Inc. | Sentiment prediction from textual data |
US20110110534A1 (en) * | 2009-11-12 | 2011-05-12 | Apple Inc. | Adjustable voice output based on device status |
US9875671B2 (en) * | 2009-12-17 | 2018-01-23 | Google Llc | Cloud-based user interface augmentation |
US8600743B2 (en) | 2010-01-06 | 2013-12-03 | Apple Inc. | Noise profile determination for voice-related feature |
US8381107B2 (en) | 2010-01-13 | 2013-02-19 | Apple Inc. | Adaptive audio feedback system and method |
US8311838B2 (en) | 2010-01-13 | 2012-11-13 | Apple Inc. | Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts |
US10705794B2 (en) | 2010-01-18 | 2020-07-07 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10553209B2 (en) | 2010-01-18 | 2020-02-04 | Apple Inc. | Systems and methods for hands-free notification summaries |
US10679605B2 (en) | 2010-01-18 | 2020-06-09 | Apple Inc. | Hands-free list-reading by intelligent automated assistant |
DE202011111062U1 (de) | 2010-01-25 | 2019-02-19 | Newvaluexchange Ltd. | Vorrichtung und System für eine Digitalkonversationsmanagementplattform |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9043731B2 (en) | 2010-03-30 | 2015-05-26 | Seven Networks, Inc. | 3D mobile user interface with configurable workspace management |
US8639516B2 (en) | 2010-06-04 | 2014-01-28 | Apple Inc. | User-specific noise suppression for voice quality improvements |
US8713021B2 (en) | 2010-07-07 | 2014-04-29 | Apple Inc. | Unsupervised document clustering using latent semantic density analysis |
GB2495877B (en) | 2010-07-26 | 2013-10-02 | Seven Networks Inc | Distributed implementation of dynamic wireless traffic policy |
US8838783B2 (en) | 2010-07-26 | 2014-09-16 | Seven Networks, Inc. | Distributed caching for resource and mobile network traffic management |
JP5620578B2 (ja) | 2010-07-26 | 2014-11-05 | セブン ネットワークス インコーポレイテッド | 複数のアプリケーションにわたるモバイルネットワークトラフィック調整 |
WO2012018556A2 (en) | 2010-07-26 | 2012-02-09 | Ari Backholm | Mobile application traffic optimization |
US8719006B2 (en) | 2010-08-27 | 2014-05-06 | Apple Inc. | Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis |
US10013976B2 (en) | 2010-09-20 | 2018-07-03 | Kopin Corporation | Context sensitive overlays in voice controlled headset computer displays |
US8719014B2 (en) | 2010-09-27 | 2014-05-06 | Apple Inc. | Electronic device with text error correction based on voice recognition data |
WO2012061430A2 (en) | 2010-11-01 | 2012-05-10 | Michael Luna | Distributed management of keep-alive message signaling for mobile network resource conservation and optimization |
WO2012061437A1 (en) | 2010-11-01 | 2012-05-10 | Michael Luna | Cache defeat detection and caching of content addressed by identifiers intended to defeat cache |
WO2012060995A2 (en) | 2010-11-01 | 2012-05-10 | Michael Luna | Distributed caching in a wireless network of content delivered for a mobile application over a long-held request |
US9330196B2 (en) | 2010-11-01 | 2016-05-03 | Seven Networks, Llc | Wireless traffic management system cache optimization using http headers |
US8843153B2 (en) | 2010-11-01 | 2014-09-23 | Seven Networks, Inc. | Mobile traffic categorization and policy for network use optimization while preserving user experience |
US8903954B2 (en) | 2010-11-22 | 2014-12-02 | Seven Networks, Inc. | Optimization of resource polling intervals to satisfy mobile device requests |
US9060032B2 (en) | 2010-11-01 | 2015-06-16 | Seven Networks, Inc. | Selective data compression by a distributed traffic management system to reduce mobile data traffic and signaling traffic |
US8166164B1 (en) | 2010-11-01 | 2012-04-24 | Seven Networks, Inc. | Application and network-based long poll request detection and cacheability assessment therefor |
US8484314B2 (en) | 2010-11-01 | 2013-07-09 | Seven Networks, Inc. | Distributed caching in a wireless network of content delivered for a mobile application over a long-held request |
CN103620576B (zh) | 2010-11-01 | 2016-11-09 | 七网络公司 | 适用于移动应用程序行为和网络条件的缓存 |
CA2798523C (en) | 2010-11-22 | 2015-02-24 | Seven Networks, Inc. | Aligning data transfer to optimize connections established for transmission over a wireless network |
US10762293B2 (en) | 2010-12-22 | 2020-09-01 | Apple Inc. | Using parts-of-speech tagging and named entity recognition for spelling correction |
US10515147B2 (en) | 2010-12-22 | 2019-12-24 | Apple Inc. | Using statistical language models for contextual lookup |
US8818797B2 (en) * | 2010-12-23 | 2014-08-26 | Microsoft Corporation | Dual-band speech encoding |
EP2661697B1 (en) | 2011-01-07 | 2018-11-21 | Seven Networks, LLC | System and method for reduction of mobile network traffic used for domain name system (dns) queries |
US8781836B2 (en) | 2011-02-22 | 2014-07-15 | Apple Inc. | Hearing assistance system for providing consistent human speech |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
WO2012145541A2 (en) | 2011-04-19 | 2012-10-26 | Seven Networks, Inc. | Social caching for device resource sharing and management |
EP2702500B1 (en) | 2011-04-27 | 2017-07-19 | Seven Networks, LLC | Detecting and preserving state for satisfying application requests in a distributed proxy and cache system |
EP2556441B8 (en) | 2011-04-27 | 2015-11-25 | Seven Networks, LLC | System and method for making requests on behalf of a mobile device based on atomic processes for mobile network traffic relief |
WO2012154938A1 (en) | 2011-05-10 | 2012-11-15 | Kopin Corporation | Headset computer that uses motion and voice commands to control information display and remote devices |
US10672399B2 (en) | 2011-06-03 | 2020-06-02 | Apple Inc. | Switching between text data and audio data based on a mapping |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US8812294B2 (en) | 2011-06-21 | 2014-08-19 | Apple Inc. | Translating phrases from one language into another using an order-based set of declarative rules |
US9239800B2 (en) | 2011-07-27 | 2016-01-19 | Seven Networks, Llc | Automatic generation and distribution of policy information regarding malicious mobile traffic in a wireless network |
US8706472B2 (en) | 2011-08-11 | 2014-04-22 | Apple Inc. | Method for disambiguating multiple readings in language conversion |
US8994660B2 (en) | 2011-08-29 | 2015-03-31 | Apple Inc. | Text correction processing |
US8762156B2 (en) | 2011-09-28 | 2014-06-24 | Apple Inc. | Speech recognition repair using contextual information |
CN102496364A (zh) * | 2011-11-30 | 2012-06-13 | 苏州奇可思信息科技有限公司 | 基于云端网络的交互式语音识别方法 |
US8918503B2 (en) | 2011-12-06 | 2014-12-23 | Seven Networks, Inc. | Optimization of mobile traffic directed to private networks and operator configurability thereof |
EP2789138B1 (en) | 2011-12-06 | 2016-09-14 | Seven Networks, LLC | A mobile device and method to utilize the failover mechanisms for fault tolerance provided for mobile traffic management and network/device resource conservation |
US9277443B2 (en) | 2011-12-07 | 2016-03-01 | Seven Networks, Llc | Radio-awareness of mobile device for sending server-side control signals using a wireless network optimized transport protocol |
EP2788889A4 (en) | 2011-12-07 | 2015-08-12 | Seven Networks Inc | FLEXIBLE AND DYNAMIC INTEGRATION SCHEMES OF A TRAFFIC MANAGEMENT SYSTEM WITH VARIOUS NETWORK OPERATORS TO REDUCE NETWORK TRAFFIC |
US9832095B2 (en) | 2011-12-14 | 2017-11-28 | Seven Networks, Llc | Operation modes for mobile traffic optimization and concurrent management of optimized and non-optimized traffic |
US8861354B2 (en) | 2011-12-14 | 2014-10-14 | Seven Networks, Inc. | Hierarchies and categories for management and deployment of policies for distributed wireless traffic optimization |
EP2792188B1 (en) | 2011-12-14 | 2019-03-20 | Seven Networks, LLC | Mobile network reporting and usage analytics system and method using aggregation of data in a distributed traffic optimization system |
WO2013103988A1 (en) | 2012-01-05 | 2013-07-11 | Seven Networks, Inc. | Detection and management of user interactions with foreground applications on a mobile device in distributed caching |
WO2013116856A1 (en) | 2012-02-02 | 2013-08-08 | Seven Networks, Inc. | Dynamic categorization of applications for network access in a mobile network |
WO2013116852A1 (en) | 2012-02-03 | 2013-08-08 | Seven Networks, Inc. | User as an end point for profiling and optimizing the delivery of content and data in a wireless network |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US9483461B2 (en) | 2012-03-06 | 2016-11-01 | Apple Inc. | Handling speech synthesis of content for multiple languages |
US8812695B2 (en) | 2012-04-09 | 2014-08-19 | Seven Networks, Inc. | Method and system for management of a virtual network connection without heartbeat messages |
WO2013155208A1 (en) | 2012-04-10 | 2013-10-17 | Seven Networks, Inc. | Intelligent customer service/call center services enhanced using real-time and historical mobile application and traffic-related statistics collected by a distributed caching system in a mobile network |
US9507772B2 (en) * | 2012-04-25 | 2016-11-29 | Kopin Corporation | Instant translation system |
US9280610B2 (en) | 2012-05-14 | 2016-03-08 | Apple Inc. | Crowd sourcing information to fulfill user requests |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US8775442B2 (en) | 2012-05-15 | 2014-07-08 | Apple Inc. | Semantic search using a single-source semantic model |
WO2013185109A2 (en) | 2012-06-08 | 2013-12-12 | Apple Inc. | Systems and methods for recognizing textual identifiers within a plurality of words |
US9721563B2 (en) | 2012-06-08 | 2017-08-01 | Apple Inc. | Name recognition system |
EP2862163A4 (en) * | 2012-06-18 | 2015-07-29 | Ericsson Telefon Ab L M | METHOD AND NODE FOR ACTIVATING AND MANUFACTURING INPUTS FOR APPLICATION |
US9495129B2 (en) | 2012-06-29 | 2016-11-15 | Apple Inc. | Device, method, and user interface for voice-activated navigation and browsing of a document |
WO2014011216A1 (en) | 2012-07-13 | 2014-01-16 | Seven Networks, Inc. | Dynamic bandwidth adjustment for browsing or streaming activity in a wireless network based on prediction of user behavior when interacting with mobile applications |
US9576574B2 (en) | 2012-09-10 | 2017-02-21 | Apple Inc. | Context-sensitive handling of interruptions by intelligent digital assistant |
US9547647B2 (en) | 2012-09-19 | 2017-01-17 | Apple Inc. | Voice-based media searching |
US8935167B2 (en) | 2012-09-25 | 2015-01-13 | Apple Inc. | Exemplar-based latent perceptual modeling for automatic speech recognition |
US9161258B2 (en) | 2012-10-24 | 2015-10-13 | Seven Networks, Llc | Optimized and selective management of policy deployment to mobile clients in a congested network to prevent further aggravation of network congestion |
US9307493B2 (en) | 2012-12-20 | 2016-04-05 | Seven Networks, Llc | Systems and methods for application management of mobile device radio state promotion and demotion |
WO2014094859A1 (en) | 2012-12-20 | 2014-06-26 | Widex A/S | Hearing aid and a method for audio streaming |
CN203134112U (zh) * | 2012-12-28 | 2013-08-14 | 吴玉胜 | 一种信号传送装置及基于智能设备的家电控制系统 |
US9922639B1 (en) * | 2013-01-11 | 2018-03-20 | Amazon Technologies, Inc. | User feedback for speech interactions |
US9241314B2 (en) | 2013-01-23 | 2016-01-19 | Seven Networks, Llc | Mobile device with application or context aware fast dormancy |
US8874761B2 (en) | 2013-01-25 | 2014-10-28 | Seven Networks, Inc. | Signaling optimization in a wireless network for traffic utilizing proprietary and non-proprietary protocols |
DE212014000045U1 (de) | 2013-02-07 | 2015-09-24 | Apple Inc. | Sprach-Trigger für einen digitalen Assistenten |
US8750123B1 (en) | 2013-03-11 | 2014-06-10 | Seven Networks, Inc. | Mobile device equipped with mobile network congestion recognition to make intelligent decisions regarding connecting to an operator network |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US9368114B2 (en) | 2013-03-14 | 2016-06-14 | Apple Inc. | Context-sensitive handling of interruptions |
US10572476B2 (en) | 2013-03-14 | 2020-02-25 | Apple Inc. | Refining a search based on schedule items |
US9977779B2 (en) | 2013-03-14 | 2018-05-22 | Apple Inc. | Automatic supplementation of word correction dictionaries |
US10642574B2 (en) | 2013-03-14 | 2020-05-05 | Apple Inc. | Device, method, and graphical user interface for outputting captions |
US9733821B2 (en) | 2013-03-14 | 2017-08-15 | Apple Inc. | Voice control to diagnose inadvertent activation of accessibility features |
KR102057795B1 (ko) | 2013-03-15 | 2019-12-19 | 애플 인크. | 콘텍스트-민감성 방해 처리 |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
CN105190607B (zh) | 2013-03-15 | 2018-11-30 | 苹果公司 | 通过智能数字助理的用户培训 |
WO2014144579A1 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | System and method for updating an adaptive speech recognition model |
KR101759009B1 (ko) | 2013-03-15 | 2017-07-17 | 애플 인크. | 적어도 부분적인 보이스 커맨드 시스템을 트레이닝시키는 것 |
US20140297709A1 (en) * | 2013-03-27 | 2014-10-02 | Xiaomi Inc. | Method and mobile terminal for creating a contact |
US9582608B2 (en) | 2013-06-07 | 2017-02-28 | Apple Inc. | Unified ranking with entropy-weighted information for phrase-based semantic auto-completion |
WO2014197334A2 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197336A1 (en) | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for detecting errors in interactions with a voice-based digital assistant |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
JP6259911B2 (ja) | 2013-06-09 | 2018-01-10 | アップル インコーポレイテッド | デジタルアシスタントの2つ以上のインスタンスにわたる会話持続を可能にするための機器、方法、及びグラフィカルユーザインタフェース |
KR101809808B1 (ko) | 2013-06-13 | 2017-12-15 | 애플 인크. | 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법 |
US9065765B2 (en) | 2013-07-22 | 2015-06-23 | Seven Networks, Inc. | Proxy server associated with a mobile carrier for enhancing mobile traffic management in a mobile network |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
KR102155482B1 (ko) * | 2013-10-15 | 2020-09-14 | 삼성전자 주식회사 | 디스플레이장치 및 그 제어방법 |
CN103617795A (zh) * | 2013-10-31 | 2014-03-05 | 广东好帮手电子科技股份有限公司 | 一种车载语音识别控制方法及系统 |
KR102345611B1 (ko) * | 2013-11-18 | 2021-12-31 | 삼성전자주식회사 | 디스플레이 장치 및 제어 방법 |
US9449602B2 (en) * | 2013-12-03 | 2016-09-20 | Google Inc. | Dual uplink pre-processing paths for machine and human listening |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9620105B2 (en) | 2014-05-15 | 2017-04-11 | Apple Inc. | Analyzing audio input for efficient speech and music recognition |
US10592095B2 (en) | 2014-05-23 | 2020-03-17 | Apple Inc. | Instantaneous speaking of content on touch devices |
KR102225404B1 (ko) | 2014-05-23 | 2021-03-09 | 삼성전자주식회사 | 디바이스 정보를 이용하는 음성인식 방법 및 장치 |
US9502031B2 (en) | 2014-05-27 | 2016-11-22 | Apple Inc. | Method for supporting dynamic grammars in WFST-based ASR |
US10078631B2 (en) | 2014-05-30 | 2018-09-18 | Apple Inc. | Entropy-guided text prediction using combined word and character n-gram language models |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9734193B2 (en) | 2014-05-30 | 2017-08-15 | Apple Inc. | Determining domain salience ranking from ambiguous words in natural speech |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US9842101B2 (en) | 2014-05-30 | 2017-12-12 | Apple Inc. | Predictive conversion of language input |
US9760559B2 (en) | 2014-05-30 | 2017-09-12 | Apple Inc. | Predictive text input |
US10289433B2 (en) | 2014-05-30 | 2019-05-14 | Apple Inc. | Domain specific language for encoding assistant dialog |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
WO2015184186A1 (en) | 2014-05-30 | 2015-12-03 | Apple Inc. | Multi-command single utterance input method |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9785630B2 (en) | 2014-05-30 | 2017-10-10 | Apple Inc. | Text prediction using combined word N-gram and unigram language models |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US10659851B2 (en) | 2014-06-30 | 2020-05-19 | Apple Inc. | Real-time digital assistant knowledge updates |
US10446141B2 (en) | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10789041B2 (en) | 2014-09-12 | 2020-09-29 | Apple Inc. | Dynamic thresholds for always listening speech trigger |
US9886432B2 (en) | 2014-09-30 | 2018-02-06 | Apple Inc. | Parsimonious handling of word inflection via categorical stem + suffix N-gram language models |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US9646609B2 (en) | 2014-09-30 | 2017-05-09 | Apple Inc. | Caching apparatus for serving phonetic pronunciations |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US9741344B2 (en) * | 2014-10-20 | 2017-08-22 | Vocalzoom Systems Ltd. | System and method for operating devices using voice commands |
WO2016075781A1 (ja) * | 2014-11-12 | 2016-05-19 | 富士通株式会社 | ウェアラブルデバイス、表示制御方法、及び表示制御プログラム |
US10552013B2 (en) | 2014-12-02 | 2020-02-04 | Apple Inc. | Data detection |
US9711141B2 (en) | 2014-12-09 | 2017-07-18 | Apple Inc. | Disambiguating heteronyms in speech synthesis |
TWI621340B (zh) * | 2015-02-26 | 2018-04-11 | 默科資訊股份有限公司 | 偵測空氣波動的控制系統與其控制方法 |
US9865280B2 (en) | 2015-03-06 | 2018-01-09 | Apple Inc. | Structured dictation using intelligent automated assistants |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US9899019B2 (en) | 2015-03-18 | 2018-02-20 | Apple Inc. | Systems and methods for structured stem and suffix language models |
US9842105B2 (en) | 2015-04-16 | 2017-12-12 | Apple Inc. | Parsimonious continuous-space phrase representations for natural language processing |
US9953631B1 (en) | 2015-05-07 | 2018-04-24 | Google Llc | Automatic speech recognition techniques for multiple languages |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US10127220B2 (en) | 2015-06-04 | 2018-11-13 | Apple Inc. | Language identification from short strings |
US10101822B2 (en) | 2015-06-05 | 2018-10-16 | Apple Inc. | Language input correction |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US10186254B2 (en) | 2015-06-07 | 2019-01-22 | Apple Inc. | Context-based endpoint detection |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US10255907B2 (en) | 2015-06-07 | 2019-04-09 | Apple Inc. | Automatic accent detection using acoustic models |
KR101642918B1 (ko) * | 2015-08-03 | 2016-07-27 | 서치콘주식회사 | 코드네임 프로토콜을 이용한 네트워크 접속 제어 방법, 이를 수행하는 네트워크 접속 제어 서버 및 이를 저장하는 기록매체 |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US9697820B2 (en) | 2015-09-24 | 2017-07-04 | Apple Inc. | Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks |
US11010550B2 (en) | 2015-09-29 | 2021-05-18 | Apple Inc. | Unified language modeling framework for word prediction, auto-completion and auto-correction |
US10366158B2 (en) | 2015-09-29 | 2019-07-30 | Apple Inc. | Efficient word encoding for recurrent neural network language models |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
DE102015222956A1 (de) | 2015-11-20 | 2017-05-24 | Robert Bosch Gmbh | Verfahren zum Betreiben eines Serversystems und zum Betreiben eines Aufnahmegeräts zum Aufnehmen eines Sprachbefehls, Serversystem, Aufnahmegerät und Sprachdialogsystem |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10446143B2 (en) | 2016-03-14 | 2019-10-15 | Apple Inc. | Identification of voice inputs providing credentials |
US9934775B2 (en) | 2016-05-26 | 2018-04-03 | Apple Inc. | Unit-selection text-to-speech synthesis based on predicted concatenation parameters |
US9972304B2 (en) | 2016-06-03 | 2018-05-15 | Apple Inc. | Privacy preserving distributed evaluation framework for embedded personalized systems |
US10249300B2 (en) | 2016-06-06 | 2019-04-02 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
DK179309B1 (en) | 2016-06-09 | 2018-04-23 | Apple Inc | Intelligent automated assistant in a home environment |
US10192552B2 (en) | 2016-06-10 | 2019-01-29 | Apple Inc. | Digital assistant providing whispered speech |
US10509862B2 (en) | 2016-06-10 | 2019-12-17 | Apple Inc. | Dynamic phrase expansion of language input |
US10490187B2 (en) | 2016-06-10 | 2019-11-26 | Apple Inc. | Digital assistant providing automated status report |
US10067938B2 (en) | 2016-06-10 | 2018-09-04 | Apple Inc. | Multilingual word prediction |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179049B1 (en) | 2016-06-11 | 2017-09-18 | Apple Inc | Data driven natural language event detection and classification |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179343B1 (en) | 2016-06-11 | 2018-05-14 | Apple Inc | Intelligent task discovery |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
US10560974B2 (en) | 2016-09-11 | 2020-02-11 | Lg Electronics Inc. | Method and apparatus for connecting device by using Bluetooth technology |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US10593346B2 (en) | 2016-12-22 | 2020-03-17 | Apple Inc. | Rank-reduced token representation for automatic speech recognition |
KR20180101926A (ko) * | 2017-03-06 | 2018-09-14 | 삼성전자주식회사 | 전자 장치 및 전자 장치의 어플리케이션 제어 방법 |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK179549B1 (en) | 2017-05-16 | 2019-02-12 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
CN107342083B (zh) * | 2017-07-05 | 2021-07-20 | 百度在线网络技术(北京)有限公司 | 用于提供语音服务的方法和装置 |
US10586537B2 (en) * | 2017-11-30 | 2020-03-10 | International Business Machines Corporation | Filtering directive invoking vocal utterances |
CN109508171A (zh) * | 2018-12-19 | 2019-03-22 | 上海龙旗科技股份有限公司 | 一种基于四通道的语音处理方法及设备 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0637711A (ja) * | 1992-07-20 | 1994-02-10 | Nec Corp | 自動車電話機 |
US5335276A (en) * | 1992-12-16 | 1994-08-02 | Texas Instruments Incorporated | Communication system and methods for enhanced information transfer |
ZA948426B (en) | 1993-12-22 | 1995-06-30 | Qualcomm Inc | Distributed voice recognition system |
US5651056A (en) * | 1995-07-13 | 1997-07-22 | Eting; Leon | Apparatus and methods for conveying telephone numbers and other information via communication devices |
US6456974B1 (en) | 1997-01-06 | 2002-09-24 | Texas Instruments Incorporated | System and method for adding speech recognition capabilities to java |
US5928325A (en) * | 1997-02-24 | 1999-07-27 | Motorola, Inc. | Method of dynamically establishing communication of incoming messages to one or more user devices presently available to an intended recipient |
GB2323693B (en) | 1997-03-27 | 2001-09-26 | Forum Technology Ltd | Speech to text conversion |
USH1895H (en) * | 1997-09-26 | 2000-10-03 | Dsc/Celcore, Inc. | Application provider and method for communication |
US6167251A (en) * | 1998-10-02 | 2000-12-26 | Telespree Communications | Keyless portable cellular phone system having remote voice recognition |
US6351523B1 (en) * | 1999-03-22 | 2002-02-26 | Sharp Laboratories Of America, Inc. | Method and apparatus for management of EMail originated by thin client devices |
JP3452250B2 (ja) * | 2000-03-15 | 2003-09-29 | 日本電気株式会社 | 無線携帯端末通信システム |
-
2000
- 2000-08-21 US US09/643,558 patent/US6532446B1/en not_active Expired - Lifetime
- 2000-11-22 JP JP2000356405A patent/JP2001222294A/ja active Pending
- 2000-11-23 KR KR1020000070088A patent/KR20010051903A/ko not_active Application Discontinuation
- 2000-11-24 EP EP00310429A patent/EP1104155A3/en not_active Withdrawn
- 2000-11-24 CN CN00128488A patent/CN1298249A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100392283B1 (ko) * | 2000-03-15 | 2003-07-23 | 닛폰 덴키(주) | 무선 휴대용 단말기를 사용하는 정보 검색 시스템 |
KR100414064B1 (ko) * | 2001-04-12 | 2004-01-07 | 엘지전자 주식회사 | 음성인식에 의한 이동통신 단말기 제어시스템 및 방법 |
KR20030097347A (ko) * | 2002-06-20 | 2003-12-31 | 삼성전자주식회사 | 휴대용 단말기의 음성인식을 이용한 문자메시지 전송 방법 |
KR100958961B1 (ko) * | 2006-12-28 | 2010-05-20 | 인텔 코오퍼레이션 | Nfc 애플리케이션들에 대한 음성 인터페이스 |
Also Published As
Publication number | Publication date |
---|---|
JP2001222294A (ja) | 2001-08-17 |
US6532446B1 (en) | 2003-03-11 |
EP1104155A2 (en) | 2001-05-30 |
EP1104155A3 (en) | 2002-11-27 |
CN1298249A (zh) | 2001-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR20010051903A (ko) | 음성인식에 기초한 무선장치용 사용자 인터페이스 | |
US6594347B1 (en) | Speech encoding in a client server system | |
US6424945B1 (en) | Voice packet data network browsing for mobile terminals system and method using a dual-mode wireless connection | |
US7151763B2 (en) | Retrieving voice-based content in conjunction with wireless application protocol browsing | |
US7254384B2 (en) | Multi-modal messaging | |
US6263202B1 (en) | Communication system and wireless communication terminal device used therein | |
US7272564B2 (en) | Method and apparatus for multimodal communication with user control of delivery modality | |
US7400712B2 (en) | Network provided information using text-to-speech and speech recognition and text or speech activated network control sequences for complimentary feature access | |
US20040054539A1 (en) | Method and system for voice control of software applications | |
US20060064499A1 (en) | Information retrieval system including voice browser and data conversion server | |
US20050138131A1 (en) | Method and system for creating pervasive computing environments | |
GB2371949A (en) | Enhancement of communication capabilities | |
WO2003063137A1 (en) | Multi-modal information delivery system | |
JP2002528804A (ja) | サービスアプリケーションに対するユーザインタフェースの音声制御 | |
KR20010076464A (ko) | 음성을 통한 인터넷 서비스 시스템 | |
US20050272415A1 (en) | System and method for wireless audio communication with a computer | |
US20080147409A1 (en) | System, apparatus and method for providing global communications | |
US7062297B2 (en) | Method and system for accessing a network using voice recognition | |
WO2002050504A2 (en) | Distributed speech recognition system | |
GB2427500A (en) | Mobile telephone text entry employing remote speech to text conversion | |
JP2003316803A (ja) | 携帯端末装置およびサービス提供システム | |
KR20020073357A (ko) | 음성인식을 통한 무선인터넷 사이트 접속 시스템 및 방법 | |
US20040258217A1 (en) | Voice notice relay service method and apparatus | |
KR20020086321A (ko) | 온라인을 이용한 광고 방법 10 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITN | Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid |