KR20010051903A

KR20010051903A - 음성인식에 기초한 무선장치용 사용자 인터페이스

Info

Publication number: KR20010051903A
Application number: KR1020000070088A
Authority: KR
Inventors: 킹피터에프.
Original assignee: 스테븐 디.피터스; 폰.컴,인코포레이티드
Priority date: 1999-11-24
Filing date: 2000-11-23
Publication date: 2001-06-25
Also published as: CN1298249A; JP2001222294A; EP1104155A3; US6532446B1; EP1104155A2

Abstract

본 발명의 무선 통신 시스템은 원격 음성 인식 서버 시스템을 이용해서, 서비스되는 이동 장치로부터 수신된 음성 입력을, 그 이동 장치에 의해 처리될 수 있는 기호 데이터 파일(예컨대, 문자·숫자 겸용 또는 제어 캐릭터)로 변환한다. 변환 처리는 서비스되는 이동 장치와 음성 인식 서버 간의 음성 통신 채널을 형성하면서부터 시작된다. 이어서, 이동 장치의 사용자는 음성 인식 서버 시스템에 의해 검출될 수 있는 형식으로 말하기 시작한다. 사용자의 음성 검출시, 음성 인식 서버 시스템은 그 음성을 소정의 기호 데이터 파일로 변환하고, 이어서 분리된 데이터 통신 채널을 통해 그 사용자에게 전송된다. 이동 장치에서 기호 데이터 파일을 수신할 때, 사용자는 그 내용을 재검토하고 편집하여 그 파일을 원하는 대로 더 이용한다.

Description

음성인식에 기초한 무선장치용 사용자 인터페이스{VOICE RECOGNITION BASED USER INTERFACE FOR WIRELESS DEVICES}

본 발명은 일반적으로 데이터 통신, 특히 음성 인식 자원을 기초로 한 네트워크를 이용하여 국지 사용자 인터페이스를 증가시키는 양방향 무선 통신 장치에 관한 것이다.

하이퍼텍스트를 기초로 한 기술의 이용은 무선 통신 시스템의 영역까지 확산되어 왔다. 본 명세서에서는 이동 장치라고도 하는 양방향 무선 통신 장치와 무선 네트워크 프로토콜은 다양한 유무선 네트워크, 특히 인터넷과 사설 네트워크를 통해 원격 정보 서비스(예컨대, 상용 데이터베이스, e메일, 온라인 쇼핑)에 대화식 접속이 가능하게 설계되어 왔다.

다수의 이동 장치(예컨대, 셀룰러 전화기)가 대중 시장의 소비자 지향 장치들이다. 따라서, 그 장치의 사용자 인터페이스는 장치의 기능에 제한 없이 간단하고 쉽게 사용할 수 있어야 한다. 현재, 대부분의 이동 장치에 있어서 주요한 데이터 엔트리 방법에는, 문자·숫자의 캐릭터 문자열을 길게 입력해서 사용하는 경우, 상대적으로 불편한 키패드가 있다. 크기의 제약과 비용 측면으로 인해, 이들 이동 장치의 키패드는 사용자 입력이 상당히 많이 필요한 메시지(예컨대, e메일 메시지)를 작성하는 경우에 특히 사용자 지향의 인터페이스가 아니다. 이러한 형태의 키패드에는 대개 12개 내지 24개의 키가 있어, 숫자 입력에는 충분한 수이지만, 네트워크형 장치에 필요한 문자·숫자 데이터 엔트리를 다룰 때는 매우 부족하다.

인터넷에서 정보를 얻고자 하는 사용자는 일반적으로 브라우저를 이용하여 월드 와이드 웹을 항해한다. 예컨대, 검색 엔진으로서 InfoseekTM를 이용하여 스탠포드 대학에 관한 정보를 얻고자 하는 사용자는 다음의 문자열을 입력해야 한다.

"http://www.infoseek.com"을 입력한 후 "Stanford University"

상기 검색 문자열은 글자가 40자 이상이다. 표준형 데스크탑 컴퓨터의 키보드와 브라우저(예컨대, 넷스케이프 또는 익스플로러)를 이용하면, 사용자는 이러한 문자열을 입력하는데 문제가 없을 것이다. 그러나, 동일한 사용자가 동일한 문자열을 입력하기 위해 이동 장치의 키패드를 조작하면, 밀집된 키패드와 키 간의 좁은 공간 때문에 심하게 방해받을 것이다.

인터넷의 일반적인 용도 중 하나는 e메일이다. 사용자가 상기 문장 크기의 e메일 메시지를 송신하고 싶다면 400자 이상을 입력해야 한다. 데스크탑 컴퓨터의 표준형 키보드를 이용해서, 사용자는 2분 이내로 그 수만큼의 캐릭터를 입력할 수 있다(사용자는 평균의 숙련도를 지닌 자라고 가정함). 이동 장치의 키패드로 동일한 수만큼의 키스트로크를 입력하면 상당히 더 긴 시간이 걸리고 매우 지루하며 에러가 나기 쉬워질 수 있다.

최근의 음성 인식(VR) 기술의 발전과 하드웨어 능력의 향상으로, 데스크탑 시스템에 있어서 음성 인식을 기초로 한 사용자 인터페이스의 진보가 상업적으로 존립할 수 있게 되었다. VR 기술이란 구두 언어를 듣고 그것을 소정의 포맷으로 변환해서, 디지털 시스템이 쉽게 조작하고 디스플레이할 수 있는 기술이다. 이제까지 VR 기술에 의해 콤팩트한 이동 장치를 장착하려는 노력이 있어 왔지만, 이들 노력은 대개 추가의 구성 요소와 같은 고비용의 장치 변종(예컨대, DSP 칩)을 필요로 하거나 처리와 기억 용량을 증대해 왔다. 통상의 셀룰러 전화기는 계산적 자원이 통상의 데스크탑 또는 휴대용 컴퓨터에 제공되는 계산적 자원의 1% 이하 정도이다. 축소된 VR 애플리케이션을 수행하는 이러한 형태의 전화기는 장치의 구성 요소를 변형시키지 않고서는 미리 정의된 몇 마디 그룹의 구두 언어만을 인식할 수 있을 뿐이다.

현재 데스크탑 및 랩탑 컴퓨터에 사용할 수 있는 음성 인식 소프트웨어(예컨대, 드래곤 시스템사의 Naturally Speaking, 애플 컴퓨터의 PlainTalkTM, IBM사의 ViaVoice 98TM 및 필립스 토크의 FreeSpeech 98TM)의 가격은 대개 라이센스당 $39.00 내지 수백 달러이다. 이것은 호환성 소프트웨어 애플리케이션가 장착된 이동 장치의 가격 중 상당 부분을 차지함을 뜻한다.

각 이동 장치에 음성 인식 소프트웨어 애플리케이션을 탑재하여 그 애플리케이션을 실행하도록 그의 하드웨어 구성 요소를 변형시키는 것은 VR 특징을 그들의 장치에 실장하려는 핸드셋 제조업자에게 금융적 부담을 야기시킨다. 이러한 변형은 이동 장치의 최종 가격에 상당한 비용을 추가시켜서, 대개 대중 시장의 이동 장치(예컨대, 셀룰러 전화기)에 의해 점유되는 목표 가격 범위($150.00)를 아마도 벗어나게 할 것이다.

하드웨어 자원에 의해서, 이들 애플리케이션은 지원되는 언어마다 최고 60 메가바이트의 메모리를 필요로 한다. 더욱이, 대부분의 상용화 가능한 음성 인식 소프트웨어 애플리케이션은 상대적으로 고속인 프로세서(예컨대, 133 MHz 펜티엄 프로세서)를 장착한 시스템 상에서 기능하도록 설계된다.

따라서, 이동 장치가 보다 효율적으로 디지털 컴퓨터 네트워크와 대화할 수 있게 하는 장치 및 방법이 상당히 필요하다. 하드웨어 자원 또는 비용을 상당히 변형하지 않고서도, 표준 이동 장치의 사용자 인터페이스(예컨대, 전화기의 키패드)와 함께 음성 인식 서비스를 이용할 수 있는 능력은 이동 장치가 제한된 자원을 가질 수 있는 네트워크의 활용도와 상업적 생존 가능성을 극적으로 개선할 것이다.

도 1은 본 발명이 실시될 수 있는 개략적인 구성도.

도 2a는 대표적인 음성형 이동 장치의 디스플레이 및 사용자 인터페이스를 묘사한 도면.

도 2b는 예시적인 음성형 이동 장치의 기능적인 블럭도.

도 3은 본 발명의 양호한 실시예에 의한 링크 서버 장치의 기능적인 블럭도.

도 4는 본 발명의 예시적인 실시예에 따라서 음성 인식 서버를 위한 예시적인 처리 단계를 도시하는 개략도.

도 5는 이동 장치와 음성 인식 서버 시스템 간의 대화에 관한 동작을 설명하는 대표적인 스크린 디스플레이를 도시하는 도면.

도 6은 본 발명의 일 실시예에 의한 이동 장치의 상관 관계를 도시하는 처리 흐름도.

도 7은 본 발명의 일 실시예에 의한 음성 인식 서버의 상관 관계를 도시하는 처리 흐름도.

* 도면의 주요 부분에 대한 부호의 설명 *

104: 무선 캐리어망 106: 링크 서버

109: 음성 인식 서버 시스템 112: 사용자 지정 파일

113: 네트워크 서버 140: 멀티미디어 컴퓨터

104: 무선망 250: 이동 장치

252: WCP 인터페이스 254: 장치 ID 기억 장치

256: 크라이언트 모듈 258: 작업 메모리

260: 디스플레이 262: 키패드

264: 부호화기/복호화기 266: 음성 회로

268: 프로세서 300: 유선망

310: 서버 모듈 312: 계정 관리자

314: 계정 인터페이스 316: 메시지 프로세서

318: 프로세서 320: 기억 장치

320: 무선 캐리어망 322: 제어 엔진

340: 링크 서버 장치 341: WCP 인터페이스

358: LCP 인터페이스 460: 음성 인식 서버

462: 음성 검출 464: 음성 분석

466: 패턴 일치 468: 텍스트 생성기

480: 사용자 지정 파일

본 발명은 무선 통신 시스템에 관한 것으로서, 본 발명의 무선 통신 시스템은 원격 음성 인식 서버 시스템을 이용해서, 이동 장치로부터 수신된 음성 입력을 이동 장치가 처리할 수 있는 소정의 기호 데이터 파일(예컨대, 문자·숫자 또는 제어 캐릭터)로 변환한다. 변환 처리는 이동 장치와 음성 인식 서버 사이에 음성 통신 채널을 형성하는 것으로부터 시작한다. 이어서, 이동 장치의 사용자는 음성 인식 서버 시스템에 의해 검출될 수 있게 말하기 시작한다. 사용자 음성의 검출시, 음성 인식 서버 시스템은 그 사용자 음성을 소정의 기호 데이터 파일로 변환하고, 이어서 분리된 데이터 통신 채널을 통해 사용자에게 전송(forward)된다. 이동 장치가 상기 기호 데이터 파일을 수신할 때, 사용자는 상기 기호 데이터 파일의 내용을 재검토 및 편집하여 그 파일을 원하는 대로 더 이용한다. 예컨대, 사용자는 상기 데이터 파일을 이용하여 e메일의 필드 또는 브라우저 요구 필드에 기입할 수 있을 것이다.

본 발명은 소정의 방법, 소정의 기기 또는 장치, 소정의 사용자 인터페이스, 소정의 컴퓨터 판독 메모리 및 소정의 시스템을 비롯해서 수많은 방법으로 적용될 수 있다. 본 발명의 몇 가지 실시예에 관해서는 후술된다.

일 실시예에 의하면, 본 발명은 그 자원들을 갖지 않는 이동 장치에 관한 음성 인식 서비스 및/또는 음성 인식 서비스를 국지적으로 수행하는 소프트웨어를 얻는 방법이다. 그 방법은 해당 이동 장치와, 소정의 음성 인식 애플리케이션을 실행하는 원격 서버 시스템(본 명세서에서는 음성 인식 서버 시스템이라고 칭함) 간의 음성 채널을 형성하고 조정하도록 이동 장치 내에 상주하는 국지 애플리케이션을 사용하는 단계를 구비한다.

상기 음성 채널이 형성될 때, 해당 이동 장치의 사용자는 그 이동 장치(예컨대, 셀룰러 전화기)의 마이크에 대고 말하기 시작할 수 있게 대기하고 있다. 음성 인식 서버 시스템에서 수신된 음성 입력은 이 대화의 결과로서 소정의 기호 데이터 파일로 전환된다. 이 처리는 미리 기억된 사용자 특정 데이터 파일에 의해 원조될 수 있다. 이어서, 상기 기호 데이터 파일은 분리 형성되고 조정된 데이터 통신 채널을 통해 다시 발신 이동 장치로 또는 지정된 제3 자 장치로 전송된다.기호 데이터 파일은 이동 장치 상의 국지 애플리케이션과 대화하거나 네트워크 자원(예컨대, 인터넷 상의 서버 또는 사설 네트워크)과 대화하게 사용될 수 있다.

전술한 것과 함께, 다른 목적 및 이점은 다음의 상세한 설명과 첨부 도면에 있는 본 발명의 예제에 포함되어 있다.

본 발명의 다음의 상세한 설명에 있어서, 여러 가지의 특정한 세부 설명은 본 발명의 전반적인 이해를 돕기 위해 제공되고 있다. 그러나, 당해 기술 분야의 숙련자에게는 본 발명이 이들 특정의 세부 설명 없이도 실시될 수 있음이 분명해질 것이다. 다른 예에서는 본 발명의 특징들을 불필요하게 흐리지 않도록 하기 위해, 공지된 방법, 절차, 구성 요소 및 회로를 상세하게 설명하지 않았다. 다음에서의 본 발명의 상세한 설명은 주로 절차, 단계, 논리 블럭, 처리, 및 네트워크에 결합된 데이터 처리 장치와 유사한 기타의 기호 묘사 방법에 의해 제공된다. 이들 처리의 설명과 묘사는 당해 기술 분야의 경력자들 또는 숙련자들에 의해 사용되어 그들의 동작의 실체를 당해 기술 분야의 다른 숙련자들에게 가장 효과적으로 전달하기 위한 수단이다.

본 발명은 이동 장치가, 네트워크되어 있는 음성 인식 서버 시스템의 음성 인식 서비스에 접속할 수 있게 하는 시스템 및 방법에 속한다. 본 발명의 일 실시예에 의하면, 음성 인식 서비스는 음성 인식 서비스를 원하는 이동 장치의 사용자와, 네트워크되어 있는 음성 인식 서버 시스템 사이에 음성 채널을 형성함으로써 접속된다.

일단 음성 채널이 형성되면, 이동 장치의 사용자는, 음성 인식 서버 시스템이 음성 신호를 수신할 준비가 되었을 때, 말하기 시작하도록 대기한다. 그 수신된 음성 신호는 당해 기술 분야에 공지된 음성 인식 기술[예컨대, 템플리트 일치 방법, 푸리에 변환 방법 또는 선형 예측 부호화 방법(LPC)]을 이용하여 음성 인식 서버 시스템에 의해 처리되고, 소정의 기호 데이터 파일이 생성된다.

기호 데이터 파일이란, 복수 개의 문자(letter), 음소, 단어, 그림, 오브젝트, 기능, 제어 캐릭터 또는, 소정의 오브젝트, 량, 조작(operation), 기능, 음소, 단어, 구 또는 음성 인식 시스템에 의해 해독되는 수신 음성 신호에 대한 소정의 관계를 갖는 그들의 임의의 조합을 지정하는 기타의 종래의 마크를 포함하는 파일이다. 음성 인식 시스템은 대개 음성 템플리트, 푸리에 변환 부호화 방법, 또는 선형 예측 부호화 방법을 이용하여 음성 입력 성분을 미리 기억된 기호 형성 블럭에 사상(寫像: map)한다. 기호 데이터 파일의 예로는 ASCII 파일과 이진 데이터 파일이 있다.

본 발명의 설명을 용이하게 하기 위해, 본 발명이 실시될 수 있는 통신 시스템의 몇 가지 특징을 상술하는 것이 유용하다. 도 1 내지 도 4는 원리적인 시스템 구성 요소의 개요를 나타내고 있다.

도 1에는 본 발명의 일 실시예에 의한 통상의 통신 시스템 블럭도가 도시되어 있다. 이동 장치(102 및 103)는, 음성 통신 채널을 통해서는 전화 호출과, 링크 서버 장치(106)와 단문 메시지 서비스 센터(SMSC)(107)를 포함할 수 있는 광대역 및 협대역(예컨대, SMS) 데이터 통신 채널을 통해서는 원격 서버 서비스로부터의 하이퍼미디어 정보[예컨대, 하이퍼 텍스트 마크업 언어(HTML) 문서, 콤팩트 하이퍼텍스트 송신 프로토콜(cMTML) 문서, 확장형 마크업 언어(XML) 문서, 휴대용 장치 마크업 언어(HDML) 문서, 또는 무선 마크업 언어(WML) 문서, 또는 기타의 유사 데이터 유형]를 수신한다.

이동 장치(102 및 103)는 각각 디스플레이와 사용자 인터페이스를 구비한다. 더욱이, 이동 장치(102 및 103)는 그 이동 장치가 원격 서비스 장치로부터 수신된 하이퍼미디어 정보를 처리할 수 있게 하는 국지 메모리(클라이언트 모듈이라고도 칭함)에 기억된 마이크로 브라우저(예컨대, 미국 캘리포니아 94063, 레드우드 시티, 체사피크 드라이브 800에 소재하는 Phone.com사의 마이크로 브라우저)를 구비할 수 있다.

도 1에 도시된 바와 같이, 이동 장치(102 및 103)는 소정의 그룹으로부터 선택될 수 있고, 이에는 음성의 송신 및/또는 수신 능력이 있는 이동 전화기, 손바닥 크기의 컴퓨터 장치 및 개인 정보 이동 단말기를 포함한다. 음성 능력은 사용자가 음성 기반의 정보를 원격 목적지와(예컨대, 다른 사용자 또는 소정의 장치와) 토신할 수 있게 하는 이동 장치 내에 장착되는 능력으로서 정의된다.

음성 통신 채널에의 접속은 일반적으로 사용자 및/또는 장치가 무선 캐리어 네트워크(104)에 의해 인식되는 것을 필요로 한다. 네트워크 인식 방법은 해당 이동 장치와 무선 캐리어 네트워크(104) 간의 식별 정보 교환 단계를 포함한다. 일반적으로, 대상이 되는 사용자 및/또는 이동 장치에 관한 식별 정보는 그 장치의 메모리 내에 기억되고, 사용자가 네트워크에 접속하려고 할 때 자동으로 송신된다.

무선 캐리어 네트워크(104)는 공지된 무선 통신 네트워크[예컨대, 셀룰러 디지털 패킷 데이터(CDPD) 네트워크, 이동 통신 세계화 시스템(GSM) 네트워크, 부호 분할 다중 접속(CDMA) 네트워크, 개인용 휴대 전화기 시스템(PHS) 또는 시분할 다중 접속(TDMA) 네트워크] 중 어느 하나이어도 된다. 링크 서버 장치(106)는 음성 인식 서버 시스템(109)과, 네트워크(113)으로 표시되어 있는 복수 개의 네트워크 연결된 서버가 결합되어 있는 유선망(108)에 더 결합된다.

음성 인식 서버 시스템(109)은 서버 장치(110)와 기억 장치(112)로 구성되어, 그들 중에서 캐리어 엔터티에 의해 서비스되는 복수의 사용자와 관련된 사용자 지정 파일을 기억할 수 있다. 사용자 지정 파일은 음성 인식 처리와 관련하여 이용되고, 일 실시예에서는 본 발명의 부분에 속한다.

사용자 지정 파일의 예로서는 사용자 특정 음성 템플리트, 하나 이상의 사용자 특정 언어 사전(예컨대, 불어, 영어, 독어 또는 광동어) 및 특정 개인이 자주 사용하는 단어의 하나 이상의 사용자 특정 사전 또는 리스트를 포함할 수 있다. 이들 파일은 네트워크 연결된 멀티미디어 컴퓨터[예컨대, 멀티미디어 컴퓨터(140)]를 이용하여 또는 서비스받은 이동 장치의 사용자 인터페이스를 통해 업로드되고 관리될 수 있다. 예컨대, 음성 템플리트는 사용자가 미리 결정된 스크립트를 음성형 장치로 독입(讀入)할 수 있게 함으로써 형성된다. 사용자의 취향(예컨대, 선택 언어)은 유선망을 통해 음성 인식 서버 시스템에 연결되는 이동 장치 또는 다른 장치의 디스플레이 상에서 사용자에게 제공되는 매뉴 선택 스크린을 이용하여 입력된다.

편의상, 안테나(121)는 일반적으로 기지국과 운용 유지 센터를 구비하는 무선 캐리어 기반을 나타낸다. 기지국은 이동 장치(102 및 103)과의 무선파 또는 전기 통신 링크를 제어한다. 운용 유지 센터는 이동 교환 센터를 구비하여, 이동 장치와 기타의 고정 또는 이동 네트워크 사용자 사이를 교환한다. 또한, 운용 유지 센터는 인증과 같은 이동 계정 서비스를 관리하고, 적절한 운용을 감독하며, 무선 네트워크를 셋업한다. 캐리어 기반 시설(121)의 하드웨어 구성 요소와 처리는 당해 기술 분야의 숙련자에게 공지되어 있어, 본 명세서에서는 본 발명의 특징을 불필요하게 흐리지 않기 위해 설명되지 않을 것이다.

공중망(104)에 의해 사용되는 통신 프로토콜은 예컨대 무선 접속 프로토콜 (WAP) 또는 휴대용 장치 송신 프로토콜(HDTP)일 수 있다. 무선망(108)은 인터넷, 사설 네트워크 또는 임의의 사설 네트워크의 데이터 네트워크일 수 있는 지상 네트워크이다. 통상, 통신 프로토콜 지원 지상망(118)은 송신 제어 프로토콜(TCP/IP), 하이퍼텍스트 송신 프로토콜(HTTP), 또는 보안 하이퍼텍스트 송신 프로토콜(sHPPT)일 수 있다.

링크 서버 장치(106) 및 네트워크 서버(113)는 통상 컴퓨터 워크 스테이션, 예컨대 네트워킹 라이브러리 및 인터넷 연결 능력을 갖는 선 마이크로시스템사 (http://www.sun.com)의 SPARC 스테이션이다. 네트워크 서버(113)는 지상망(108)에 결합되는 복수 개의 네트워크 연결된 서버를 나타내고, 이동 장치(102 및 103)에 관한 정보를 포함하는 하이퍼미디어 정보에 접속할 수 있다.

링크 서버 장치(106)는 스탠드 얼론형 장치로서 묘사되어 있고, 따라서 흔히 네트워크 게이트웨이 또는 무선 데이터 서버라고 부른다. 링크 서버 장치(106)는 무선망(104)과 유선망(106) 사이의 브리지로서 동작하게 구성될 수 있다. 링크 서버 장치(106)의 기능은 무선망(104)과 유선망(108) 사이를 연결하는, 당해 기술 분야에서 공지되어 있는, 하드웨어를 갖는 유선망(108)에 연결된 기타의 서버 장치에 의해 수행될 수 있다.

전술된 음성 통신 채널은 대개 음성 채널(126)로 표현된다. 이 통신 채널은 대개 기반 시설과, 전화 호출을 설정하기 위해 당해 기술 분야에 대개 공지되어 있는 절차를 이용하여 형성되고 조정된다.

대개, 이동 장치(102 및 103)에 서비스를 제공하는 통신 채널의 유형에는 2 가지가 있다. 데이터 통신 채널(128)은 광대역 데이터 통신 채널을 나타낸다. 데이터 통신 채널(130)은 협대역 통신 채널[예컨대, 단문 메시지 통신(SMS) 서비스 채널]을 나타낸다. 데이터를 이동 장치(102 및 103)로(부터) 전달하기 위해서는 이들 데이터 통신로 중 어느 하나가 사용된다.

본 발명의 일 실시예에 의하면, 음성 인식 서버 시스템(109)로부터 음성 인식 서비스를 수신하고자 하는 이동 장치[예컨대, 이동 장치(102 및 103)]는 우선 음성 채널(126)으로 표현된 음성 채널을 형성한다. 음성 인식 서버 시스템(109)의 접촉 내용[예컨대, 전화 번호 또는 균일 자원 표시기(URI)]은 이동 장치에 적재 (load)된 소프트웨어에 의해 실장될 수 있고, 링크 서버 장치(106)으로부터 검색되며, 또는 사용자에 의해 직접 입력되어도 된다.

일단 요구하는 이동 장치와 음성 인식 서버 시스템(109) 사이에 음성 채널이 형성되면, 사용자 정보는 음성 인식 서버 시스템에 전송된다. 이에 의해, 요구하는 이동 장치에 관해 미리 기억된 사용자 지정 파일이 접속되어 사용될 수 있게 된다. 사용자 정보는 분리된 통신 채널[예컨대, 데이터 통신 채널(128 또는 130)]을 통해 송신되거나 사용자에 의해 입력될 수 있다. 사용자 지정 파일은 특수한 사용자 계정에 특정한 기능을 제공한다. 예컨대, 사용자는 음성 인식 처리를 위해 하나 이상의 언어를 지정할 수 있다.

일단 해당 이동 장치/사용자에 관한 사용자 지정 파일이 검색되면, 사용자는 음성 입력을 즉시 입력(예컨대, 말하기 시작)한다. 이점에서, 음성 인식 서비스를 이용하는 동안, 사용자가 이동 장치의 사용자 인터페이스(예컨대, 전화기 키패드)를 이용할 수 있음을 주목하는 것이 중요하다. 사용자가 이동 장치와의 입력 대화(음성 및 물리적 입력)을 완료했을 때, 입력 세션을 끝맺기 위해 사용자는 소정의 표시를 제공(음성 또는 키 입력)할 수 있다. 이어서, 음성 인식 서버 시스템(109)은 그 음성 입력을 소정의 기호 데이터 파일로 전환하여, 링크 서버(106)를 거쳐서 요구하는 이동 장치에 전송될 수 있다.

전술된 바와 같이, 기호 데이터 파일은 복수 개의 문자(letter), 음소, 단어, 그림, 오브젝트, 기능, 제어 캐릭터 또는, 소정의 오브젝트, 량, 조작 (operation), 기능, 음소, 단어, 구 또는 음성 인식 시스템에 의해 해독되는 수신 음성 신호에 대한 소정의 관계를 갖는 그들의 임의의 조합을 지정하는 기타의 종래의 마크를 포함하는 파일이다. 음성 인식 시스템은 대개 음성 템플리트, 푸리에 변환 부호화 방법, 또는 선형 예측 부호화 방법을 이용하여 음성 입력 성분을 미리 기억된 기호 형성 블럭에 사상한다. 기호 데이터 파일의 예로는 ASCII 파일과 이진 데이터 파일이 있다.

기호 데이터 파일은 초기에 링크 서버 장치(106)에 전송되어, 추가의 처리를 수행한 후에 광대역 채널(128) 또는 협대역 채널(130)을 거쳐서 기호 데이터 파일을 상기 요구하는 이동 장치에 전송할 수 있다. 이어서, 이동 장치의 사용자는 수신된 기호 데이터 파일을 재검토하여 원하는 대로 그 신호를 이용할 수 있다.

음성 인식 서버 시스템(109)에 의해 사용되는 음성 인식 애프리케이션의 정확도는 사용된 변환 방법과 사용된 언어 사전의 크기 및 언어에 따라 다를 것이다. 일반적으로, 화자 의존형 방법(예컨대, 템플리트 일치 방법)은 정확도가 98% 정도이고, 화자 독립형 방법[예컨대, 푸리에 변환 방법 및 선형 예측 부호화 방법 (LPC)]은 정확도가 90 내지 95%의 범위이다(www.hitl.washington.edu - 음성 인식, 짐 바우만).

본 발명의 원리에 의하면, 이동 장치[예컨대, 이동 장치(102 및 103)]의 사용자는, 만일 음성 인식 애플리케이션이 그 장치에 의해 수행되었다면 요구될 수 있을 수도 있는 중요한 하드웨어 또는 소프트웨어의 변형 없이도 그들 이동 장치 상의 음성 인식 서비스에 접속할 수 있다. 더욱이, 음성 인식 처리를 수행하는 소프트웨어는 (이동 장치의 처리 속도에 비해) 고속의 처리 속도와 큰 기억 용량을 갖는 접속 가능한 이동 서버 장치 상에 상주하기 때문에, 장치의 사용자에게는 완전 사양의 음성 인식 애플리케이션과 관련된 기능과 자원이 제공될 수 있다. 예컨대, 음성 인식 애플리케이션은 대형 언어 사전, 복수 언어에 대해 선택 가능한 언어 사전 및 사용자 지정 파일(예컨대, 음성 템플리트와 사용자 커스텀화된 사전 및 리스트)에 접속할 수 있다.

도 2a는 도 1에서의 이동 장치 중 한 이동 장치에 상응하는 예시적인 이동 장치(200)를 묘사하고 있다. 이동 장치(200)는 디스플레이 스크린(204), 확장된 전화기형 키패드(210), 커서 이동 키(222 및 224), 한 쌍의 소프트키(208A 및 208B), 수화갑(212A) 및 마이크(212B)를 포함하고 있다. 스크린 디스플레이(204)는 토앙 문자 정보와 소정의 그래픽을 디스플레이할 수 있는 액정 디스플레이(LCD) 스크린이다. 확장된 전화기형 키패드(210)는 양호하게는 부가의 캐릭터(예컨대, 스페이스)와 기능(예컨대, 역방향 또는 지움)을 제공하는 부가의 키들을 갖는 정규의 전화기 키패드를 포함한다.

커서 이동 키(222 및 224)에 의해, 사용자는 커서 또는 요소 표시기(216)를 재배치하여, 예컨대 스크린 디스플레이(204) 상에 디스플레이되는 애플리케이션들 중 한 애플리케이션을 기동시킬 수 있다. 상위 키(208A 및 208B)는 통상 소프트키 기능 식별자(214 및 215)에 의해 표시되는 애플리케이션 지정 기능을 수행하는데 사용된다. 당해 기술 분야의 숙련자에게는, 정규의 전화기 키패드를 갖는 것은 본 발명을 실시하기 위한 필요 조건이 아님이 이해되어야 한다. 때로는, 일부 이동 장치는 물리적인 키, 예컨대 입력 기구로서 소프트 키 또는 아이콘을 사용하는 손바닥 크기의 계산 장치를 전혀 갖지 않는다.

관련된 링크 서버 장치[예컨대, 도 1의 링크 서버 장치(106)]와의 통신 세션 형성시, 이동 장치(200)는 통상 하나 이상의 마크업 언어 카드 데크를 수신하여 사용자가 장치와 대화하게 한다. 사용의 취향에 따라, 스크린 설명형 명령 파일이라고도 칭하는 마크업 언어 카드 데크는, 휴대용 장치 마크업 언어(HDML), 하이퍼텍스트 마크업 언어(HTML), 콤팩트 HTML, 무선 마크업 언어(WML), 표준형 일반 마크업 언어(HGML) 또는 확장형 마크업 언어(XML)를 포함하지만 이에 한정되지는 않는 마크업 언어 내에 있을 수 있다. 이와 달리, 데이터 파일은 스트립, 압축 컴파일 또는 전환된 버전의 상응하는 마크업 파일일 수 있다.

도 2a의 LCD 스크린 상에 나타나는 텍스트는 이러한 디스플레이 스크린의 일 예이다. 이 예에서, 사용자는 다음의 선택 항목 중에서 한 가지를 고를 수 있다.

1) 북마크

2) 인터넷 검색

3) e메일

4) 뉴스

각 선택 항목은 통상 네트워크 상의 자원 또는 국지 소프트웨어 애플리케이션이 링크된다. 사용자는 요소 표시기(216)에 의해 표시되는 사용자 선택 항목을 갖는 이동 키(222 및 224)를 이용하여 상기 메뉴 중에서 하나를 선택할 수 있다. 이 같은 방법은 원격 서버 장치[예컨대, 도 1의 음성 인식 서버 시스템(109)]와 대화하기 위한 사용자 프롬프트를 제공하는데 사용될 수 있다.

도 2b에 있어서는 도 1의 이동 장치(102 또는 103) 및 도 2a의 이동 장치 (200)일 수 있는 이동 장치(250)에 관해 보다 상세하게 설명한다. 미동 장치(250)는 입중계 신호와 출중계 신호를 수신하기 위해 캐리어 무선망(104)에 결합하는 무선 제어 프로토콜(WCP) 인터페이스(252)를 포함한다. 장치 식별자(ID) 기억 장치 (254)는 외부 엔터티[예컨대, 도 1의 링크 서버 장치(106)]에 대한 이동 장치(250)를 식별할 목적으로 장치 ID를 기억하고 그를 WCP 인터페이스(252)에 공급한다. 장치 ID는 지정 코드로서, 이 지정 코드는 이동 장치(250)와 관련되고, 해당 링크 서버 장치(예컨대, 도 1의 106)에 통상 제공되는 해당 사용자 계정에서의 장치 ID에 직접 상응한다.

이동 장치(250)는 프로세서(268), 부호화기/복호화기 회로(264), 작업 회로 (258) 및 클라이언트 모듈(256)을 포함한다. 클라이언트 모듈(256)은 장치 메모리 자원에 적재되는 소프트웨어 구성 요소를 나타내고, 모듈 장치(250)에 의해 수행되는 여러 가지 처리 작업, 즉 무선 캐리어 네트워크(104)를 통해 링크 서버 장치와의 통신 세션을 형성하는 단계, 국지 애플리케이션을 운용하고 유지하는 단계, 이동 장치(250)의 디스플레이 스크린(260) 상에 정보를 디스플레이하는 단계 및 키패드(262)로부터 사용자 입력을 수신하는 단계를 수행한다. 클라이언트 모듈(256)은 소프트웨어가 계산 장치에 적재되는 것과 상당히 동일하게 이동 장치(250)의 메모리에 적재될 수 있다.

더욱이, 이동 장치(250)는 음성의 가변량을, 디지털 통신 시스템과 아날로그 통신 시스템 상에서 송수신될 수 있는 전기 임펄스로 전환하는 음성 회로(266)를 포함한다. 이들 구성 요소와 그들의 기능은 당해 기술 분야에서 공지되어 있어, 더 이상 설명되지 않을 것이다.

본 발명의 원리에 의하면, 이동 장치(200) 상에 적재되는 소프트웨어는 음성 인식 애플리케이션을 실행하는 서버 장치와의 대화과 관련하여 사용자에게 보조 기능을 제공하는 구성 요소를 포함한다. 이 보조 기능을 제공하는 소프트웨어는 마이크로브라우저 또는 다른 애플리케이션의 일부로서, 또는 스탠드 얼론형 애플리케이션으로서 적재될 수 있다. 이 애플리케이션은 서비스를 서버 장치에 관한 접촉 정보, 수신된 기호 데이터 파일의 관리, 및 사용자 취향의 입력/변경을 검색하고 기억하는 것과 같은 작업를 담당할 수 있다. 사용자 보조 기능은 예컨대, 스크린 디스플레이된 정보, 가청 또는 접촉 프롬프트 및/또는 소프트키 사상된 기능의 형태일 수 있다.

예컨대, 소정의 애플리케이션(예컨대, e메일 메시지)과 관련하여 음성 인식 서비스를 이용하고자 하는 사용자는 해당하는 애플리케이션에 접속하여 음성 인식 서비스에 접속하는 소프트키를 가동할 수 있다. 이어서, 소프트키와 관련된 기능은, 아직 기억되어 있지 않다면, 그 음성 인식 애플리케이션을 실행하는 서버 장치에 관한 접촉 정보를 검색하고, 그 처리는 후술하는 바와 같이 처리할 것이다. 이 예는 예시적인 목적으로 설명된 것이고, 본 발명의 범주를 제한하는 것으로 해석되어서는 안된다.

도 3은 링크 서버 장치(340)의 원리적인 구성 요소를 개략적으로 설명하고 있고, 도 1의 링크 서버 장치(106)에 상응한다. 링크 서버 장치(340)는 유선망 (340)과 무선망(320) 사이의 네트워크 게이트웨이로서 동작하는 서버 컴퓨터이다. 본 발명의 원리적인 특징을 흐리게 하지 않기 위해, 링크 서버 장치(340)에서의 공지된 방법, 절차, 구성 요소 및 회로는 상세하게 설명되지 않는다.

링크 서버 장치(340)에는 유선망(300)에 결합하는 육상 제어 프로토콜(LCP) 인터페이스(358)와, 무선망(320)에 결합하는 무선 제어 프로토콜(341)이 포함된다. 서버 모듈(310)은 LCP 인터페이스(358)와 WCP 인터페이스(341) 사이에 결합된다.

서버 모듈(310)은 하나의 통신 프로토콜에서 다른 통신 프로토콜로의 종래의 서버 처리(프로세싱) 및 프로토콜 전환 처리를 수행한다. 메시지 프로세서(316)는 프로토콜 전환과 관련 작업에 상당하는 구성 요소이다. (예컨대, HDTP와 HTTP 간의) 프로토콜 전환의 경우, 그 전환은 일반적으로 데이터 사상(mapping) 처리이다. 당해 기술 분야의 숙련자는 WCP 인터페이스(341)가 무선망과 사용된 프로토콜에 따라 다른 인터페이스 모듈로 대체될 수 있음이 이해될 것이다. 무선망과 프로토콜의 형태가 변하는 경우에는 LCP 인터페이스(358)도 마찬가지이다.

또한, 서버 모듈(310)은 계정 관리자(312)와 계정 인터페이스(314)를 포함한다. 계정 관리자(312)는 복수 개의 사용자 계정을 관리하고, 각 통상 이동 장치의 계정은 링크 서버 장치(340)에 의해 서비스된다. 사용자 계정 정보는 링크 서버 장치(340)에 결합되는 다른 네트워크 서버에 기억될 수 있음이 이해되어야 한다. 환언하면, 사용자 계정은 유선망을 통해 링크 서버 장치(340)에 결합되는 임의의 계산 장치에 물리적으로 배치되는 데이터베이스에 유지될 수 있다.

링크 서버 장치(340)에 의해 서비스되는 각 모듈 장치에는 소정의 식별부 (ID) 및 장치 ID가 할당된다. 장치 ID는 그 장치의 전화 번호 또는 IP 어드레스, 또는 IP 어드레스와 포트 번호의 조합, 예컨대 204.163.165.132:01905(204.163. 165.132는 IP 어드레스이고, 01905는 포트 번호임)일 수 있다. 장치 ID는 가입자 ID와 더 관련되는데, 이 가입자 ID는 이동 장치의 가입자 계정을 가동함에 있어서 포함되는 절차들의 일부분으로서 링크 서버 장치(340)를 제어하는 캐리어에 의해 생성되고 관리된다. 가입자 ID는 특정 사용자 또는 장치와 관련된 사용자 지정 파일(예컨대, 도 1의 112)에 접속하는 것과 관련되고 그를 이용할 수 있다.

가입자 ID는 예컨대 AT＆T 무선 서비스사의 861234567-10900_pn.mobile.att. net의 형태를 가질 수 있고, 이동 장치에 대한 유일한 식별부이다. 계저 관리자 (312)는 링크 서버 장치(340)와의 보안 통신을 허용하는 이동 장치에 관한 사용자 계정의 생성을 담당한다. 이 경우, 계정 관리자(312)는 링크 서버 장치(340)가 제공하는 서비스를 받는 이동 장치에 관한 적절한 수준의 보안 접속을 보장한다.

또한, 링크 서버 장치(340)는 주요 하드웨어 구성 요소로서 프로세서(318)와 기억 장치 자원(320)을 포함한다. 프로세서(318)는 서버 모듈(310)의 제어 하에서 동작을 수행한다. 당해 기술 분야의 숙련자에게는 링크 서버 장치(340)가 하나 이상의 프로세서[예컨대, 프로세서(318)], 작업 메모리[예컨대, 기억 장치 자원 (320)], 버스, 인터페이스, 및 기타의 구성 요소를 포함하는 것과, 서버 모듈(310)이 지시된 기능을 수행하기 위해 링크 서버 장치(340)의 작업 메모리에 적재된 하나 이상의 소프트웨어 모듈을 나타내는 것이 이해될 것이다. 동일한 특성이 클라이언트 모듈과, 해당 이동 장치의 하드웨어 구성 요소에도 동등하게 적용 가능하다.

통상, 지상망(300)에서 지원되는 지상망 통신 프로토콜(LCP)에는 송신 제어 프로토콜(TCP), 하이퍼텍스트 송신 프로토콜(HTTP) 또는 보안 하이퍼텍스트 송신 프로토콜(HTTPS)이 포함될 수 있고, 무선 통신 프로토콜(WCP)에는 송신 제어 프로토콜(TCP), 하이퍼텍스트 송신 프로토콜(HTTP) 또는 보안 하이퍼텍스트 송신 프로토콜(HTTPS), 휴대용 장치 송신 프로토콜(HDTP) 또는 무선 세션 프로토콜(WSP)이 포함될 수 있다. LCP가 WCP와 다른 경우, 서버 모듈(310)은 하나의 프로토콜에서 다른 프로토콜로의 사상을 담당하여 무선망(320)에 결합된 모듈 장치가 유선망 (300)에 결합된 장치와 통신하게 하는 사상 모듈[즉, 사상 장치(mapper)]를 포함한다.

일단 수신된 음성 신호가 음성 인식 서버 시스템(도시되지 않음)에 의해 처리되면, 기호 데이터 파일이 생성되어 링크 서버 장치(340)로 전송된다. 그 기호 데이터 파일은 LCP 인터페이스(358)를 통해 메시지 프로세서(316)에 의해 수신된다. 메시지 프로세서(316)는 그 기호 데이터 파일을, (무선망의 필요 조건과 요구하는 이동 장치의 장치 특성에 의해) 무선망(320)을 통해 최적하게 송신될 수 있는 데이터 포맷으로 전환한다. 그 기호 데이터 파일은, 음성 인식 서버 시스템으로부터 수신될 때, 예컨대 마크업 언어(예컨대, HTML) 또는 텍스트 파일(예컨대, ASCII)에서 메시지 프로세서(316)에 의해 이해될 수 있는 포맷으로 존재할 수 있다. 이어서, 그 처리된 기호 데이터 파일(이는 요구하는 이동 장치와의 호환성을 보다 좋게 하기 위해 재포맷될 수도 있음)는 요구하는 이동 장치 또는 지시된 제3자 장지로 전송된다.

도 4에는 다음의 처리, 즉 1) 음성 검출, 2) 음성 분석, 3) 패턴 일치 작업 및 4) 기호 파일 생성을 수행하는 예시적인 음성 인식 서버 시스템(460)[도 1의 음성 인식 서버 시스템(109)에 상응할 수 있음)의 기능적 모듈을 도시하고 있다. 음성 검출(462) 중에, 음성 인식 서버 시스템(460)은 그의 입력에서 음성 신호의 존재를 검출한다. 검출시, 그 수신된 음성 신호는 음성 분석 처리(464)를 통과하고, 그것은 패턴 일치 작업에 적합한 정량적 지표로 감소된다. 패턴 일치 단계(466) 중에, 정량적 지표는 다양한 언어 사전과 복수 개의 사용자 지정 파일을 포함할 수 있는 기억 장치(480)에 기억되어 있는 사용자 음성 템플리트(만일 템플리트 기반의 음성 인식 처리 방법을 이용한다면)와 비교된다. 기호 데이터 파일은 전술한 바와 같이 유선망(300)(도 3을 참조)을 통해 링크 서버 장치(340)로 전송된다. 당해 기술 분야의 통상의 지식을 가진 자는 본 발명의 범주를 벗어나지 않고서도 다른 음성 인식 구조[예컨대, 푸리에 변환 방법 또는 선형 예측 부호화 방법[LPC)]이 사용될 수 있음을 이해할 것이다. 또한, 당해 기술 분야의 통상의 지식을 가진 자는 링크 서버 장치(예컨대, 도 1의 106)가 음성 인식 서버 시스템(예컨대, 도 1의 109)의 기능을 수행할 수 있음을 이해할 것이다.

도 5는 음성 인식 서비스를 요구하는 이동 장치와 음성 인식 서버 시스템의 대화에 관한 예시적인 스크린 디스플레이를 도시하고 있다. 초기에는, 스크린 디스플레이(500)에 의해 사용자가 수동 엔트리(504)와 VR(음성 인식) 지원형 엔트리 (508) 사이를 선택할 수 있다. 사용자의 선택은 선택 표시기(512)에 의해 표시된다. 이 예에서, VR 지원형 엔트리(512)는 소프트키 기능 식별자(516)와 관련된 소프트키를 가동시킴으로써 선택될 수 있다. 이 선택은 서비스를 제공하는 음성 인식 서버 시스템에 관한 접촉 정보를 검색한다. 이 예에서, 접촉 정보는 전화 번호(예컨대, 650-555-7272)로 이루어진다. 당해 기술 분야에서 통상의 지식을 가진 자는 그 접촉 정보가 균일 자원 식별자(URI) 또는 유사한 단일의 식별자로 이루어질 수도 있음을 이해할 것이다. 사용자 지정 파일에 접속하는데 이용되는, 관련된 사용자 및/또는 장치 식별 정보는 배경에서 (예컨대 분리된 데이터 통신 채널 또는 음성 통신 채널을 이용하여) 송신되거나 사용자에 의해 입력될 수 있다.

스크린 디스플레이(520)에 도시된 바와 같이, 음성 인식 서버 시스템 접촉 정보의 검색시, 음성 채널은 소프트키 기능 식별자(524)("OK")와 관련된 소프트키를 가동함으로써 형성될 수 있다. 스크린 디스플레이(530)는 요구하는 이동 장치의 사용자에게 제공될 수 있는 정보의 유형을 나타내고 있다. 캐릭터 문자열(532)은 사용자에게 서비스를 제공하는 음성 인식 서버 시스템과 통신 세션을 형성하는 상태에 관한 정보를 제공한다. 캐릭터 문자열(534)은 사용자에게 사용자의 요구를 처리하는데 이용되는 설정값들에 관한 정보를 제공한다. 이것은 간단한 캐릭터 문자열(예컨대, "디폴트 설정값들의 초기화") 또는 사용자가 선택 항목(예컨대, 선택하는 언어)을 입력할 수 있는 복수 개의 대화식 및 비대화식 디스플레이로 이루어질 수 있을 것이다. 서비스 중인 음성 인식 서버 시스템이 입력을 수신할 준비가 되어 있을 때, 프롬프트(536)("말하기 시작")가 사용자에게 제공된다. 사용자는 소프트키 기능 식별자(538)와 관련된 소프트키를 가동함으로써 입력 세션을 종료할 수 있다.

음성 인식 서비스는 요구하는 이동 장치 상에 상주하는 특정 애플리케이션과 대화하게 구성될 수 있다. 예컨대, 처리된 기호 데이터 파일은 e메일과 같은 애플리케이션에서의 지정 필드에 관한 입력으로서 기능하도록 생성될 수 있다. 더욱이, 일단 음성 인식 서비스에 대해서 소정의 활성 음성 채널이 형성되었다면, 사용자는 음성 인식 통신 채널을 고정해서 재형성하지 않고서도 그 서비스를 이용하여 애플리케이션을 변경시킬 수 있다. 예컨대, 사용자는 e메일 프로그램과 개인용 구성기 (organizer) 사이를 전환할 수 있다. 이 특성은 사용자의 비용과 네트워크의 정체를 감소시킨다.

도 6 및 도 7에 있어서, 본 발명의 일 실시예에 의한 이동 장치와 음성 인식 서버의 동작에 관해 설명하는 처리 흐름도가 각각 나타나 있다. 도 6과 도 7 모두는 도 1과 관련하여 이해되어야 한다.

본 발명의 양호한 실시예에 의하면, 음성 인식 서비스를 원하는 사용자는 국지 사용자 인터페이스를 이용하여(예컨대, 소정의 키를 누름으로써) 서비스에 관한 요구를 개시할 것이다. 일반적으로, 사용자는 상주 애플리케이션(예컨대, e메일 또는 웹 브라우저)을 이용하여 수행되고 있는 원하는 작업과 관련하여 그렇게 할 것이다. 요구의 결과로서 이동 장치에 복귀되는 정보는 수행되고 있는 작업과 관련된 문서 내에 합체되어 있을 수 있다.

요구 처리로 인해, 서비스를 요구하는 이동 장치와 그 서비스를 제공하는 음성 인식 서버 시스템 사이에는 음성 채널이 형성되게 된다. 일단 음성 채널이 형성되고 사용자가 말하기 시작하도록 대기하고 있으면, 사용자는 음성 입력에 더하여 국지 사용자 인터페이스(예컨대, 전화기 키패드)를 이용하여 물리적 입력을 포함할 수 있는 이동 장치와의 입력 대화을 시작할 수 있다. 이동 장치와의 초기 입력 대화의 완성시, 사용자는 음성 채널 개방의 개방 상태를 유지하도록 선택하여 다른 작업을 수행하거나 그 음성 채널을 종료한다.

도 6은 프로세서(600)를 설명하는 흐름도로서, 상기 프로세서(600)는 이동 장치[예컨대, 이동 장치(102 및 103)]에 의해 이용되어 이동 장치의 시각으로부터 원격 음성 인식 서버 시스템[예컨대, 음성 인식 서버 시스템(109)]과 대화한다. 단계(604)에서는 해당 이동 장치와 서비스를 제공하는 음성 인식 서버 시스템 간의 활성 음성 채널이 있는지의 여부를 결정한다. 이 처리는 대개 소프트웨어 제어 하에 배경에서 발생한다.

활성 음성 채널이 있다면, 사용자는 그 활성 음성 채널이 디스에이블되기를 원하는지의 여부를 나타내는 단계(608)에서 입력을 제공하도록 프롬프트된다. 이것은 이동 장치와의 계획된 입력 대화을 위한 VR 서비스를 필요로 하지 않는 경우일 것이다.

만일 사용자가 그 음성 채널을 디스에이블하기로 결정한다면, 그것은 단계 (612)에서 디스에이블된다. 이어서, 사용자는 장치의 사용자 인터페이스(예컨대, 키패드)를 이용하여 물리적 입력(628)을 시작한다. 단계(622)에서, 사용자 입력[예컨대, 물리적 입력(628)]이 등록되었는지(예컨대, 그 장치에 의해 수용되는 입력)의 여부를 판단한다. 만일 사용자 입력이 등록되어 있다면, 단계(632)에서 처리하여 사용자는 입력 세션을 계속하거나 그것을 종료할지의 여부를 나타내는 단계 (636)에서 입력을 제공하도록 프롬프트된다. 만일 사용자가 종료를 선택하면, 단계(640)에서 형성된 음성 채널/회로(즉, 음성 채널/회로가 활성임)의 상태에 관해 결정이 행해진다. 전술했던 바와 같이, 이 검사는 대개 배경에서 발생한다. 전술한 순서에서, 활성 음성 채널은 없고, 따라서 순서는 종료될 것이다.

만일 단계(608)에서, 사용자가 이동 장치 입력 대화에 관한 음성 인식 서비스를 이용하고자 하는 경우에서와 같이, 사용자가 음성 채널을 디스에이블하지 않기로 결정한다면, 사용자는 음성 입력(624)과 물리적 입력(628)을 제공하여, 단계 (622)에서 사용자의 입력이 등록되었는지의 여부를 결정한다. 만일 사용자 입력이 등록되었다면, 그것은 단계(632)에서 처리되고, 사용자는 사용자가 그 입력 세션을 계속할지 또는 종료할지의 여부에 관해 단계(636)에서 소정의 표시를 제공하도록 프롬프트된다. 만일 사용자가 종료를 선택하면, 단계(640)에서 임의의 형성된 음성 채널/회로의 상태에 관해 결정이 행해진다. 종료시, 활성 음성 채널/회로는 고정된다. 이어서, 처리를 종료된다.

만일 사용자가 단계(636)에서 입력 세션을 종료하지 않기로 결정하면, 처리은 처리(600)의 개시부로 복귀한다.

만일 단계(604)에서 활성 음성 채널이 없다고 결정되면, 사용자는 그 사용자가 소정의 활성 채널이 형성되기를 원하는지의 여부에 관해 단계(614)에서 소정의 표시를 제공하도록 프롬프트된다. 이것은 사용자가 이동 장치와의 입력 대화을 위해 음성 인식 서비스를 필요로 하는 경우일 것이다.

만일 단계(614)에서 사용자가 입력 대화을 위해 음성 채널을 요구한다면, 단계(618)에서 형성된다. 이어서, 사용자는 음성 입력(624)과 물리적 입력(628)을 제공하고, 사용자의 입력이 등록되었는지의 여부에 관해 단계(622)에서 결정이 행해진다. 만일 사용자의 입력이 등록되었다면, 그것은 단계(632)에서 처리되고, 사용자는 입력 세션을 계속할지 또는 종료할지의 여부에 관해 단계(636)에서 소정의 표시를 제공하도록 프롬프트된다. 만일 사용자가 종료를 선택하면, 단계(640)에서 임의의 형성된 음성 채널/회로의 상태에 관해 전술된 바와 같이 결정이 행해진다. 종료시, 활성 음성 채널/회로는 고정된다. 이어서, 처리는 종료된다.

만일 단계(614)에서 사용자가 음성 인식 서비스를 필요로 하지 않는 경우에서와 같이 임박한 입력 대화을 위해 음성 채널을 필요로 하지 않는다면, 사용자는 이동 장치 사용자 인터페이스(예컨대, 키패드)를 이용하여 물리적 입력(628)을 시작한다. 단계(622)에서, 사용자 입력[예컨대, 물리적 입력(628)]은 등록되었는 지의 여부에 관해 결정한다. 만일 사용자 입력이 등록되었다면, 그것은 단계(632)에서 처리되고, 입력 세션을 계속할지 또는 종료할지의 여부에 관해서는 단계(636)에서 판단된다.

만일 사용자가 단계(636)에서 입력 세션을 종료하지 않는다고 판단하면, 기 처리는 처리(600)의 개시부로 복귀한다.

만일, 전술된 이들 예시적인 대화들 중 임의의 하나에 있어서, 사용자 입력이 단계(622)에서 등록되어 있지 않다면, 사용자는 그들이 음성 인식 서버 시스템과의 세션을 종료하고자 하는지의 여부에 관해 단계(636)에서 소정의 표시를 제공하도록 프롬프트된다.

일단 서비스를 제공하는 음성 인식 시스템과 서비스를 요구하는 이동 장치간의 음성 채널이 형성되면, 음성 인식 서버 시스템은 이동 장치(예컨대, 언어 취향, 템플리트 파일 등)의 사용자와 관련된 임의의 사용자 지정 파일을 검색하고 이들을 이용하여 입중계 음성 입력을 처리할 수 있다. 이어서, 음성 인식 서버 시스템은 서비스 요구와 관련된 입중계 음성 신호를 검출하고 처리한다. 입중계 음성 신호는 템플리트 일치 처리, 푸리에 변환 방법, 선형 예측 부호화 구조 또는 임의의 적당한 음성 인식 부호화 구조를 이용하여 소정의 기호 데이터 파일로 전환되고, 중간 서버 장치[예컨대, 도 1의 링크 서버 장치(106)]를 포함할 수 있는 데이터 통신 채널을 이용하여 요구하는 이동 장치(또는 지시된 제3자 장치)로 전송된다.

기호 데이터 파일은 요구하는 이동 장치에 의해 처리하기에 적당한 포맷(예컨대, cHTML, WML 또는 HDML)으로 존재하거나, 또는 중간 서버 장치에 의해 처리하기에 적당한 포맷(예컨대, HTML, WML, XML, ASCII 등)으로 존재할 수 있다. 후자의 경우, 중간 서버 장치는 필요하다면 요구되는 임의의 전환 처리를 수행할 수 있다.

본 발명의 원리에 의하면, 이동 장치와 대화하는 사용자는 음성 인식 애플리케이션을 실행하는 서버 장치(예컨대, 음성 인식 서버 시스템)에 기초하여 원격으로 사용하는 음성 인식 서비스에 접속할 수 있을 것이다. 전화기 상에 기억되어 있는 소프트웨어(예컨대, 마이크로브라우저)는 서버 장치에 관한 접촉 정보를 검색하고 관리함으로써, 그리고 프롬프트를 제공하고 음성 인식 서버 시스템과의 대화에 관련있는 기능들을 수행함으로써 이 대화에 있어서 사용자를 보조한다. 이 시스템과 방법을 이용하여, 제한된 처리와 기억 용량을 갖는 이동 장치는 강력한 컴퓨터 워크스테이션 상에서 실행하는 모든 특성이 지원되는 음성 인식 애플리케이션에 접속한다.

도 7은 프로세서(700)를 도시하는 흐름도로서, 이 프로세서(700)는 음성 인식 서버 시스템[예컨대, 음성 인식 서버 시스템(109)]에 의해 이용되어, 음성 인식 서버 시스템의 시각으로부터 이동 장치[예컨대, 이동 장치(109)]와 대화한다. 단계 (704)에서는 음성 회로/채널이 음성 인식 서버 시스템[예컨대, 음성 인식 서버 시스템(109)]과 서비스를 요구하는 이동 장치[예컨대, 이동 장치(102)] 사이에 형성되었는지의 여부에 관해 결정이 행해진다.

만일 단계(704)에서 음성 회로/채널이 서비스를 요구하는 이동 장치와 형성되었다면, 단계(708)에서는 음성 신호가 검출되었는지의 여부에 관해 다른 결정이 행해진다. 만일 음성 신호가 단계(708)에서 검출되면, 그 수신된 음성 입력(716)은 단계(712)에서 기호 데이터 파일을 생성하도록 이용된다.

이어서, 기호 데이터 파일은 단계(720)에서 요구하는 이동 장치(또는 지시된 제3자 장치)로 전송된다. 단계(724)에서, 종료 명령이 서비스를 요구하는 이동 장치로부터 수신되었는지의 여부가 결정이 행해진다. 만일 종료 명령이 수신된다면, 처리는 끝난다. 만일 종료 명령이 수신되지 않는다면, 처리는 단계(708)에서 입중계 음성 신호를 계속 찾는다. 만일 음성 신호가 미리 결정된 시간 주기 내에 수신되지 않는다면, 단계(728)에서 종료 명령이 수신되었는지의 여부에 관해 결정이 행해진다. 만일 종료 명령이 수신되었다면, 처리는 종료된다. 물론, 종료 명령이 수신되지 않았다고 하더라도, 시스템은 처리 종료가 될 수 있는 타임 아웃 또는 주기 제한을 미리 결정했을 수도 있다.

만일 단계(704)에서 음성 회로/채널이 서비스를 요구하는 이동 장치와 형성되지 않았다고 결정되면, 음성 인식 서버 시스템은 음성 인식 서비스를 원하는 이동 장치와의 활성 음성 채널 형성을 대기한다.

본 발명의 원리에 의하면, 음성 인식 서버 시스템은 이동 장치의 사용자 인터페이스의 확장으로서 기능을 수행한다. 예컨대, 사용자는, 통상적인 환경 하에서는 상당한 시간을 필요로 하고 국지 사용자 인터페이스를 이용하여 입력하는데도 노력이 필요할 장시간의 대화 도중 음성 인식 서비스를 이용하도록 선택할 수 있다. 더욱이, 이동 장치의 자원은 사용된 음성 인식 애플리케이션을 한정하지 않기 때문에, 사용자는 방대한 단어집에 접속할 수 있다.

본 발명의 이점은 여러 가지가 있다. 각각의 사용예는 다음의 이점들 중 하나 이상의 이점을 구현할 수 있다. 본 발명의 한 가지 이점은, 임의의 이동 장치(예커대, 제한된 처리와 기억 용량을 갖는 장치)의 사용자가 표준 장치의 사용자 인터페이스를 증가하도록 원격 서버 장치를 실행하는 모든 기능의 음성 인식 애플리케이션을 이용할 수 있게 되는 것이다.

본 발명의 다른 이점은, 이용되는 음성 인식 애플리케이션은 이동 장치의 처리와 기억의 제한에 의해 제약받지 않기 때문에, 사용자에게는 보다 강력한 컴퓨터 상에서 실행하는 모든 특징이 제공되는 음성 인식 애플리케이션의 기능이 제공될 수 있다는 것이다. 이 기능과 관련된 이점에서는 대용량의 단어집과 개인화된 사전을 갖는 복수 개의 언어 사전이 사용자에게 제공되는 단계를 포함한다. 더욱이, 음성 인식 애플리케이션은 이동 장치 상에 기억되어 있지 않기 때문에, 이동 장치의 대당 가격에 영향이 적거나 거의 없다. 본 발명의 또 다른 이점은 이 서비스를 제공하는 캐리어가 사용자에게 서비스에 접속하는데 서비스료가 적게 청구될 수 있다는 것이다.

본 발명의 또 다른 이점은 사용자가 음성 인식 서비스와 국지 사용자 인터페이스(예컨대, 전화기 키패드)를 이용할 수 있고, 따라서 사용자에게 최대의 유연성을 제공한다는 것이다. 예컨대, 사용자는 음성 신호를 입력하고 국지 사용자 인터페이스로부터의 기호들을 혼합할 수 있다.

본 발명의 많은 특징과 이점은 기재된 설명으로부터 명확하고, 따라서 첨부된 특허 청구 범위에 의해 본 발명의 이러한 모든 특징을 포괄하고자 한다. 게다가, 당해 기술 분야의 숙련자에게는 여러 가지 변형과 변경이 쉽게 이루어질 것이기 때문에, 본 발명을 도시되고 설명된 정확한 구성과 동작에 한정하고 싶지 않다. 따라서, 모든 적당한 변형과 균등물은 특허의 범주 내에 속하도록 재분류될 수 있을 것이다.

Claims

디스플레이 스크린과 이용자 인터페이스를 갖는 무선 통신 장치에 음성 인식 서비스를 제공하는 방법에 있어서,

음성 인식 애플리케이션을 실행하는 서버 장치에서 음성 인식 서비스를 위해 상기 무선 통신 장치로부터 요구 신호를 수신하는 단계와,

상기 요구 신호와 관련된 음성 입력 신호를 제 1 통신로로부터 검색하는 단계와,

상기 음성 인식 애플리케이션을 이용하여 상기 음성 입력 신호를 기호 데이터 파일로 전환하는 단계와,

제 2 통신로를 이용하여 상기 기호 데이터 파일을 상기 무선 통신 장치로 전송하는 단계를 구비하는 음성 인식 서비스 제공 방법.
제 1 항에 있어서, 상기 제 1 통신로는 무선 통신망 상에서 구성되는 음성 인식 서비스 제공 방법.
제 2 항에 있어서, 상기 무선 통신망은 셀룰러 디지털 패킷 데이터(CDPD) 네트워크, 이동 통신 세계화 시스템(GSM) 네트워크, 부호 분할 다중 접속(CDMA) 네트워크, 개인 휴대 통신 시스템(PHS) 네트워크 및 시분할 다중 접속(TDMA) 네트워크로 이루어진 그룹 중에서 선택되는 음성 인식 서비스 제공 방법.
제 1 항에 있어서, 상기 기호 데이터 파일은 마크업 언어 파일인 음성 인식 서비스 제공 방법.
제 4 항에 있어서, 상기 마크업 언어 파일은 휴대용 장치 마크업 언어 (HDML), 하이퍼텍스트 마크업 언어(HTML), 콤팩트 HTML(cHTML), 무선 마크업 언어 (WML), 표준 범용 마크업 언어(SGML) 및 확장 마크업 언어(XML)로 이루어진 그룹 중에서 선택되는 음성 인식 서비스 제공 방법.
제 1 항에 있어서, 상기 기호 데이터 파일은 이진 데이터 파일인 음성 인식 서비스 제공 방법.
제 1 항에 있어서, 상기 기호 데이터 파일은 ASCII 포맷의 데이터 파일인 음성 인식 서비스 제공 방법.
제 1 항에 있어서, 상기 제2 통신로는 링크 서버 장치를 포함하는데, 상기 링크 서버 장치는 제1 통신 프로토콜을 이용하여 유선망에 의해 상기 음성 인식 애플리케이션을 실행하는 상기 서버 장치에 연결되고 또한 제2 통신 프로토콜을 이용하여 무선망에 의해 상기 무선 통신 장치에 연결되는 음성 인식 서비스 제공 방법.
제 8 항에 있어서, 상기 제1 통신로는 송신 제어 프로토콜-인터넷 프로토콜 (TCP/IP), 하이퍼텍스트 송신 프로토콜(HTTP) 및 보안 하이퍼텍스트 송신 프로토콜 (sHTTP)로 이루어진 그룹 중에서 선택되는 음성 인식 서비스 제공 방법.
제 8 항에 있어서, 상기 제2 통신 프로토콜은 무선 통신 프로토콜인 음성 인식 서비스 제공 방법.
제 10 항에 있어서, 상기 무선 통신 프로토콜은 무선 접속 프로토콜(WAP) 및 휴대용 장치 송신 프로토콜(HDTP)로 이루어진 그룹 중에서 선택되는 음성 인식 서비스 제공 방법.
제 1 항에 있어서, 상기 무선 통신 장치로부터 수신되는 상기 요구 신호는 이용자 특정 식별 정보를 포함하는 음성 인식 서비스 제공 방법.
제 12 항에 있어서, 상기 이용자 특정 식별 정보는 이용자 지정 파일을 검색해서 음성 인식 서비스에 관한 상기 요구 신호를 처리하도록 이용되는 음성 인식 서비스 제공 방법.
제 1 항에 있어서, 상기 무선 통신 장치로부터 수신되는 상기 요구 신호는 장치 특정 식별 정보를 포함하는 음성 인식 서비스 제공 방법.
제 14 항에 있어서, 상기 장치 특정 식별 정보는 이용자 지정 파일을 검색해서 음성 인식 서비스에 관한 상기 요구 신호를 처리하도록 이용되는 음성 인식 서비스 제공 방법.
제 14 항에 있어서, 상기 장치 특정 식별 정보는 전화 번호와 균일 자원 식별자(URI)로 이루어진 그룹 중에서 선택되는 음성 인식 서비스 제공 방법.
제 1 항에 있어서, 상기 무선 통신 장치는 이동 전화기인 음성 인식 서비스 제공 방법.
제 17 항에 있어서, 상기 이동 전화기는 마이크로프로세서와 소프트웨어용 기억 영역을 포함하는 음성 인식 서비스 제공 방법.
제 18 항에 있어서, 상기 마이크로프로세서는 상기 기억 영역에 저장되어 있는 소프트웨어를 이용하여 전화 기능과 국지(local) 애플리케이션을 제어하는 음성 인식 서비스 제공 방법.
제 19 항에 있어서, 상기 국지 애플리케이션은 음성 인식 서비스를 구현하는 것에 관한 기능을 지원하는 음성 인식 서비스 제공 방법.
디스플레이 스크린과 이용자 인터페이스를 갖는 무선 통신 장치에 음성 인식 서비스를 제공하는 방법에 있어서,

음성 인식 애플리케이션을 실행하는 서버 장치에 관한 접촉 정보를 검색하는 단계와,

상기 검색된 접촉 정보와 관련된 서버 장치로부터 음성 인식 서비스에 관한 요구 신호를 생성하는 단계와,

음성 인식 서비스에 관한 상기 요구 신호를, 상기 검색된 접촉 정보와 관련된 서버 장치로 전송하는 단계와,

상기 무선 통신 장치와, 상기 검색된 접촉 정보에 관련된 서버 장치 간에 음성 통신 채널을 형성하는 단계와,

상기 무선 통신 장치를 이용하여 사용자로부터의 입력을 수신하는 단계와,

상기 음성 인식 애플리케이션으로 처리하기 위해 상기 사용자의 입력을 상기 서버 장치로 송신하는 단계를 구비하고,

상기 입력의 적어도 일부는 음성 성분을 포함하는 음성 인식 서비스 제공 방법.
제 21 항에 있어서, 상기 접촉 정보는 전화 번호와 균일 자원 식별자(URI)로 이루어진 그룹 중에서 선택되는 음성 인식 서비스 제공 방법.
제 21 항에 있어서, 상기 음성 통신 채널은 무선망 상에서 형성되는 음성 인식 서비스 제공 방법.
제 23 항에 있어서, 상기 무선 통신망은 셀룰러 디지털 패킷 데이터(CDPD) 네트워크, 이동 통신 세계화 시스템(GSM) 네트워크, 부호 분할 다중 접속(CDMA) 네트워크, 개인 휴대 통신 시스템(PHS) 네트워크 및 시분할 다중 접속(TDMA) 네트워크로 이루어진 그룹 중에서 선택되는 음성 인식 서비스 제공 방법.
제 21 항에 있어서,

상기 검색된 접촉 정보와 관련된 서버 장치로부터 기호 데이터 파일을 수신하는 단계와,

상기 무선 통신 장치를 이용하여 상기 수신된 기호 데이터 파일을 처리하는 단계와,

재검토와 변경을 위해 상기 처리된 기호 데이터 파일 중 적어도 일 부분을 상기 사용자에게 디스플레이하는 단계를 더 구비하고,

상기 기호 데이터 파일은 상기 서버 장치에 의해 상기 사용자 입력의 음성 인식 처리의 상기 처리된 출력을 포함하는 음성 인식 서비스 제공 방법.
제 25 항에 있어서, 상기 수신된 기호 데이터 파일은 마크업 언어 파일인 음성 인식 서비스 제공 방법.
제 26 항에 있어서, 상기 마크업 언어 파일은 휴대용 장치 마크업 언어 (HDML), 하이퍼텍스트 마크업 언어(HTML), 콤팩트 HTML(cHTML), 무선 마크업 언어 (WML), 표준 범용 마크업 언어(SGML) 및 확장 마크업 언어(XML)로 이루어진 그룹 중에서 선택되는 음성 인식 서비스 제공 방법.
제 25 항에 있어서, 상기 기호 데이터 파일은 이진 데이터 파일인 음성 인식 서비스 제공 방법.
제 25 항에 있어서, 상기 기호 데이터 파일은 ASCII 포맷의 데이터 파일인 음성 인식 서비스 제공 방법.
무선 통신 장치에 대해서 음성 인식 서비스에 관한 요구 신호를 생성하는 컴퓨터 프로그램 코드가 부호화되어 실리는 컴퓨터 판독 매체에 있어서,

음성 인식 서비스를 제공하는 서버 장치에 관한 접촉 정보를 검색하는 컴퓨터 프로그램 코드와,

상기 검색된 접촉 정보와 관련된 서버 장치로부터 음성 인식 서비스에 관한 요구 신호를 생성하는 컴퓨터 프로그램 코드와,

상기 무선 통신 장치로부터, 음성 인식 서비스에 관한 상기 요구 신호와 관련된 음성 입력을 수신하는 컴퓨터 프로그램 코드와,

음성 인식 처리를 위해 소정의 음성 신호를 상기 서버 장치에 송신할 목적으로, 상기 무선 통신 장치와 상기 서버 장치 간의 음성 통신 세션을 형성하는 컴퓨터 프로그램 코드를 구비하는 컴퓨터 판독 매체.
제 30 항에 있어서, 상기 접촉 정보는 전화 번호와 균일 자원 식별자(URI)로 이루어진 그룹 중에서 선택되는 컴퓨터 판독 매체.
음성 인식 서비스를 무선 통신 장치에 제공하는 컴퓨터 프로그램 코드가 부호화되어 실리는 컴퓨터 판독 매체에 있어서,

이동 장치로부터 수신된 음성 인식 서비스에 관한 요구 신호를 처리하는 컴퓨터 프로그램 코드와,

음성 인식 서비스를 위한 상기 요구 신호와 관련된 음성 입력을 수신하는 컴퓨터 프로그램 코드와,

상기 수신된 음성 입력을 기호 데이터 파일로 전환하는 컴퓨터 프로그램 코드와,

상기 기호 데이터 파일을, 상기 요구 신호를 발신하는 상기 이동 장치로 전송하는 컴퓨터 프로그램 코드를 구비하는 컴퓨터 판독 매체.
제 32 항에 있어서, 상기 기호 데이터 파일은 마크업 언어 파일인 컴퓨터 판독 매체.
제 33 항에 있어서, 상기 마크업 언어 파일은 휴대용 장치 마크업 언어 (HDML), 하이퍼텍스트 마크업 언어(HTML), 콤팩트 HTML(cHTML), 무선 마크업 언어 (WML), 표준 범용 마크업 언어(SGML) 및 확장 마크업 언어(XML)로 이루어진 그룹 중에서 선택되는 컴퓨터 판독 매체.
제 32 항에 있어서,

상기 요구 신호와 관련된 사용자 지정 파일을 검색하는 컴퓨터 프로그램 코드와,

상기 전환 처리에서의 상기 사용자 지정 파일을 이용하여 상기 음성 입력을 소정의 기호 데이터 파일로 전환하는 컴퓨터 프로그램 코드를 더 구비하는 컴퓨터 판독 매체.
제 35 항에 있어서, 상기 사용자 지정 파일은 사용자 즐겨찾기(preferences)를 포함하는 컴퓨터 판독 매체.
제 35 항에 있어서, 상기 사용자 지정 파일은 사용자 음성 템플릿을 포함하는 컴퓨터 판독 매체.
음성 인식 서비스를 제공하는 무선 통신 시스템에 있어서,

제1 통신로 상에서의 음성 인식 처리를 위해 음성 입력을 제공하고 상기 처리된 음성 입력을 제2 통신로 상에서 표현하는 기호 데이터 파일을 수신하는 무선 통신 장치와,

상기 무선 통신 장치로부터의 음성 입력을 상기 제1 통신로 상에서 수신하고, 상기 수신된 음성 입력을 소정의 기호 데이터 파일로 전환하며, 상기 제2 통신로를 이용하여 상기 기호 데이터 파일을 상기 무선 장치로 전송하는 음성 인식 애플리케이션을 실행하는 서버 장치를 구비하는 무선 통신 시스템.
제 38 항에 있어서, 상기 제1 통신로는 무선망 상에서 형성되는 음성 인식 서비스를 제공하는 무선 통신 시스템.
제 39 항에 있어서, 상기 무선 통신망은 셀룰러 디지털 패킷 데이터(CDPD) 네트워크, 이동 통신 세계화 시스템(GSM) 네트워크, 부호 분할 다중 접속(CDMA) 네트워크, 개인 휴대 통신 시스템(PHS) 네트워크 및 시분할 다중 접속(TDMA) 네트워크로 이루어진 그룹 중에서 선택되는 음성 인식 서비스를 제공하는 무선 통신 시스템.
제 40 항에 있어서, 상기 제2 통신로는 링크 서버 장치를 포함하는데, 상기 링크 서버 장치는 제1 통신 프로토콜을 이용하여 유선망에 의해 상기 음성 인식 애플리케이션을 실행하는 상기 서버 장치에 연결되고 또한 제2 통신 프로토콜을 이용하여 무선망에 의해 상기 무선 통신 장치에 연결되는 음성 인식 서비스를 제공하는 무선 통신 시스템.
제 41 항에 있어서, 상기 제1 통신로는 송신 제어 프로토콜-인터넷 프로토콜 (TCP/IP), 하이퍼텍스트 송신 프로토콜(HTTP) 및 보안 하이퍼텍스트 송신 프로토콜 (sHTTP)로 이루어진 그룹 중에서 선택되는 음성 인식 서비스를 제공하는 무선 통신 시스템.
제 41 항에 있어서, 상기 제2 통신 프로토콜은 무선 통신 프로토콜인 음성 인식 서비스를 제공하는 무선 통신 시스템.
제 43 항에 있어서, 상기 무선 통신 프로토콜은 무선 접속 프로토콜(WAP) 및 휴대용 장치 송신 프로토콜(HDTP)로 이루어진 그룹 중에서 선택되는 음성 인식 서비스를 제공하는 무선 통신 시스템.
제 38 항에 있어서, 상기 무선 통신 장치는 이동 전화기인 음성 인식 서비스를 제공하는 무선 통신 시스템.
제 45 항에 있어서, 상기 이동 전화기는 마이크로프로세서와 소프트웨어용 기억 영역을 포함하는 음성 인식 서비스를 제공하는 무선 통신 시스템.
제 46 항에 있어서, 상기 마이크로프로세서는 상기 기억 영역에 저장되어 있는 소프트웨어를 이용하여 전화 기능과 국지 애플리케이션을 제어하는 음성 인식 서비스를 제공하는 무선 통신 시스템.
제 47 항에 있어서, 상기 국지 애플리케이션은 음성 인식 서비스를 구현하는 것에 관한 기능을 지원하는 음성 인식 서비스를 제공하는 무선 통신 시스템.