KR20070006759A

KR20070006759A - 컴퓨터와의 오디오 통신

Info

Publication number: KR20070006759A
Application number: KR1020067017633A
Authority: KR
Inventors: 크리스토퍼 에프 맥코넬; 토마스 에이 플리트만
Original assignee: 아돈도 코포레이션
Priority date: 2004-02-03
Filing date: 2005-02-03
Publication date: 2007-01-11
Also published as: EP1763943A4; US20050180464A1; WO2005074634A2; JP2007529916A; EP1763943A2; WO2005074634A3; CA2559409A1

Abstract

일 실시예에서, 유저와의 제1 통신 채널이 확립되고, 상대방과의 통신을 가능하게 하도록 제2 통신 채널을 확립하기 위해 오디오 유저 요구(audio user request)가 수신된다. 오디오 유저 요구가 인식되고, 제2 통신 채널이 확립된다. 다른 실시예에서, 컴퓨터와 유저 통신 장치 사이의 통신 채널이 확립되고, 오디오 요구를 갖는 유저 입력이 검출되어 저장된다. 유저 프로파일이 액세스되고, 그 유저 프로파일에 기초하여 제1 그래머(grammar)가 선택된다. 활성인 제1 그래머를 사용하여 오디오 요구를 인식하는 시도가 이루어진다. 오디오 요구가 인식되지 않은 경우, 제1 그래머는 비활성화되고, 제2 그래머가 활성화되며, 제2 그래머를 사용하여 오디오 요구를 인식하기 위한 시도가 이루어진다.

음성 인식 시스템, 전화 호출, 오디오 통신, 그래머, 스피치

Description

컴퓨터와의 오디오 통신{AUDIO COMMUNICATION WITH A COMPUTER}

본 발명은 컴퓨터 애플리케이션과 상호작용하기 위해서 오디오 입력을 수신하고 그러한 오디오 입력을 사용하는 음성 인식 시스템 및 방법에 관한 것이다. 특히, 본 발명은 복수의 하드웨어 구성과 연계하여 사용될 수 있으며, 그 복수의 하드웨어 구성 사이에서 전환가능한 음성 인식 시스템 및 방법에 관한 것이다. 더욱 상세하게는, 본 발명은 음성 인식 결과를 최적화기 위해서 한정된 음성 인식 어휘를 선택적으로 사용하는 음성 인식 시스템 및 방법에 관한 것이다. 더욱더 상세하게는, 본 발명은 각종 통신 채널을 통하여 전화 호출을 접속하고 전송하는 음성 인식 시스템 및 방법에 관한 것이다.

자신의 일상 생활에 영향을 끼치는 정보를 저장하고 액세스하는 컴퓨터를 사용하고 있는 공중이 증가하고 있다. 약속, 태스크(task) 및 컨택(contact)과 같은 개인 정보뿐만 아니라 스프레드 시트, 데이터베이스, 워드 프로세싱 문서 등과 같은 기업 데이터는, 갱신, 구성 및 액세스가 용이하기 때문에, 컴퓨터에 저장하기 위해 특별하게 수정할 수 있는 모든 유형의 정보이다. 또한, 컴퓨터는 주식 시세, 날씨 리포트 등과 같은 시간에 민감한 정보를 실시간 또는 실시간에 근접한 베이스로 인터넷 또는 다른 네트워크를 통하여 원격 액세스할 수 있다. 그들에게 요구되 는 모든 태스크를 수행하기 위해서, 컴퓨터는 매우 복잡하고 연산적으로는 강력하게 되었다. 또한, 컴퓨터는 그것들이 실행될 수 있는 방식에서는 더욱 휘발성이 되었다. 예컨대, 고도로 진보된 자동차에는 온-보드 컴퓨터가 장착될 수 있고, 컴퓨터는 제품이 통상적인 장치 이상의 향상된 기능을 갖게 하도록 소비재 등의 다른 제품에 내장될 수 있다. 그리하여, 유저가 자신의 컴퓨터에 액세스하는 동안에, 다시 말해서, 유저가 집이나 사무실에 있는 동안(또는 가능하게는 고도로 진보된 자동차에서), 유저는 희망하는 태스크를 수행하기 위해서 그러한 연산 능력에 용이하게 액세스할 수 있다.

그러나, 여러 상황에서, 유저는 여행하는 동안이나 단순히 자신의 컴퓨터로부터 떨어져 있는 동안에 그러한 정보에 액세스하는 것을 필요로 할 것이다. 불행히도, 컴퓨터의 전체 연산 능력은 대부분(고도로 진보된 자동차의 경우를 제외하고) 이동이 불가능하다. 예컨대, 데스크톱 컴퓨터는 고정된 위치에 배치되도록 설계되고, 그리하여, 이동 애플리케이션에는 적합하지 않다. 유사하게, 컴퓨터가 내장된 소비재는 대부분 이동이 불가능하다. 랩톱 컴퓨터는 데스크톱 컴퓨터보다는 더 수송 가능하고, 필적할만한 연산 능력을 갖지만, 고가이고 여전히 상당한 부담이 된다. 또한, 장거리 무선 인터넷 접속(무선 WAN)은 고가이며 여전히 폭넓게 이용할 수 없으며, 랩톱과 같은 이동 전화 접속은 현재의 인터넷 표준에서는 느리다. 또한, 원격 인터넷 접속을 갖는 것은 중복적인 인터넷 접속이며, 유저는 이중 비용을 지급하여 자신의 집이나 사무실에서 인터넷 접속을 가질 것이다.

통상적으로, PDA(personal digital assistant)가 유저의 정보에 액세스하기 위해 사용될 수 있다. 그러한 PDA는 크래들(cradle) 또는 IR 빔을 통하여 컴퓨터에 간헐적으로 접속하고, 그것에 의해 자신의 컴퓨터와 정보를 업로드 또는 다운로드할 것이다. 일부 PDA는 무선 접속을 통하여 정보에 액세스할 수 있고, 이동 전화기로서의 이중 기능도 할 것이다. 그러나, PDA는 수많은 단점을 갖는다. 예컨대, PDA는 고가이며, 자신의 컴퓨터에 이미 존재하는 연산 능력의 일부와 중복적이며, 때때로 고가의 서비스에 대한 가입이 요구되며, 종종 기지국 또는 퍼스널 컴퓨터와의 동기화가 요구되고, PDA 사용 성향의 관점에서 그리고 PDA의 작은 스크린 및 양손 이용을 요구하는 입력 장치의 관점에서 사용하기가 어렵고, 유저의 컴퓨터에 비하여 한정된 기능을 갖는다. 이동 연산 능력의 양이 커짐에 따라, PDA의 비용 및 복잡도 또한 커진다. 또한, 통상적인 PDA는 유저의 정보를 내장 저장하기 때문에, PDA는 PDA의 도난 또는 소실로 인한 데이터의 손실의 위험을 갖는다.

이동 전화기의 사이즈, 비용 및 휴대성이 개선됨에 따라, 이동 전화기의 이용이 거의 보편적이 되었다. 그러한 통상적인 무선 전화기는 특정 개인의 전화(전화 번호는 무선 전화기에 저장된다)에 호출하는 등과 같이 오디오 명령을 이용한 단순한 태스크의 수행에는 한정된 음성 활성 능력을 갖는다. 유사하게, 일부 자동차 및 진보된 이동 전화기는 간단한 명령을 수신하는 문맥 내의 사운드를 인식할 수 있다. 그러한 통상적인 시스템에서, 포함된 소프트웨어는 원하는 사람에게 호출하는 것과 같이, 원하는 기능이 수행되게 하는 알려진 명령(즉, 사운드)을 간단히 식별할 것이다. 다시 말해서, 통상적인 시스템은 구두 단어의 의미를 판단하지 않고 사운드를 원하는 기능에 매치시킨다.

유사하게, e-메일 메시지를 무선 전화기에 의해 유저에게 이야기해 주는 통상적인 소프트웨어 애플리케이션이 있다. 그러한 애플리케이션에서, 무선 전화기는 명령을 소프트웨어에 단순히 중계하고, 그 소프트웨어는 그 후 메시지를 재생한다. 스피치를 인식할 수 있는 통상적인 소프트웨어는 서버 기반이거나, 컴퓨터와 같은 장소에 위치된 유저를 위해 우선적으로 사용된다. 예컨대, 호출 센터를 위한 음성 인식 시스템은 시스템의 큰 사이즈 및 복잡도로 인하여 강력한 서버상에서 구동될 필요가 있다. 그러한 시스템은 각종 억양 및 스피치 패턴을 갖는 스피커로부터의 스피치를 인식할 수 있어야 하기 때문에 크고 부분적으로 복잡하다. 복잡한 특성에도 그러한 시스템은 여전히 메뉴 방식 응답에는 여전히 통상적으로 한정된다. 다시 말해서, 통상적인 음성 인식 소프트웨어 패키지로의 호출자는, 원하는 요구를 간단히 말하고 그 시스템이 그 요구를 인식할 수 있게 하기보다는, 원하는 기능을 얻기 위해 1 이상 계층의 메뉴를 통하여 진행해야 한다. 복잡한 명령을 인식하기 위해 소프트웨어 능력을 향상시키기 위한 통상적인 방법은 구두 명령과의 매치를 시도하기 위해서 소프트웨어를 위한 많은 스피치 어휘를 제공하는 것을 통상적으로 포함한다. 그러나, 많은 어휘를 사용하는 것은 많은 어휘 내의 사운드, 단어 및 문구를 구두 명령과 매치시키기 위해서 여러 비교가 이루어져야 하기 때문에, 역시 강력한 연산 장치를 필요로 한다. 퍼스널 컴퓨터상에서 구동하도록 설계된 통상적인 음성 인식 소프트웨어는 우선적으로 받아쓰기하도록 지시되고, 그러한 소프트웨어는 유저가 컴퓨터 앞에서 있는 동안 사용되는 것과, 소프트웨어에 의해서 결정된 단순한 메뉴 아이템에 액세스하는데 추가의 한계가 있다. 그리하여, 통 상적인 음성 인식 소프트웨어는 단지 키보드 또는 마우스와 같은 통상적인 입력 장치의 대체 또는 보조물로서의 기능을 한다.

또한, 통상적인 PDA, 이동 전화기 및 랩톱 컴퓨터는 각각 다른 것의 기능을 대부분 수행할 수 없다는 단점을 갖는다. 진보된 무선 장치는 PDA 및 이동 전화기의 기능을 겸비그러나, 매우 고가이다. 그리하여, 유저는 PDA, 무선 전화기 및 가능하게는 심지어 (고가의) 랩톱의 기능을 수행할 수 있는 장치를 구매하든가, 유저는 개인용 이동 전화기, PDA 및/또는 랩톱을 구매할 것이다.

따라서, 컴퓨터의 유형(또는 실행) 및 유저의 위치에 관계없이 컴퓨터와 통신하기 위한 휴대 수단이 필요하다. 특히, 저렴한 이동 장치에 의해 정보를 얻기 위해 구두 통신하는 시스템 및 방법이 필요하다. 또한, 그러한 시스템 및 방법 내에서 향상된 음성 인식을 갖는 것이 이로울 것이다. 또한, 임의의 통신 채널을 통해서 전화 호출에서 2 이상의 상대방과 연결할 수 있는 시스템 및 방법이 소망 될 것이다.

전술한 결점 및 단점의 견지에서, 컴퓨터와 통신을 가능하게 하는 방법, 시스템 및 컴퓨터 판독가능 매체가 개시된다. 일 실시예에서, 유저와의 제1 통신 채널이 확립되고, 상대방과의 통신을 가능하게 하도록 제2 통신 채널을 확립하기 위해 오디오 유저 요구(audio user request)가 수신된다. 오디오 유저 요구가 인식되어, 제2 통신 채널이 확립된다.

다른 실시예에서, 컴퓨터와 유저 통신 장치 사이의 통신 채널이 확립된다. 오디오 요구를 갖는 유저 입력이 검출되어 저장된다. 유저 프로파일이 액세스 되고, 그 유저 프로파일에 기초하여 제1 그래머(grammar)가 선택된다. 활성인 제1 그래머를 사용하여 오디오 요구를 인식하는 시도가 이루어진다. 오디오 요구가 인식되지 않은 경우, 제1 그래머는 비활성화되고, 제2 그래머가 활성화되며, 제2 그래머를 사용하여 오디오 요구를 인식하기 위한 시도가 이루어진다.

도 1은 본 발명의 양태가 실시될 수 있는 예시적인 통상적인 데스크톱 컴퓨터의 다이어그램이다.

도 2a 내지 도 2c는 본 발명의 양태가 실시될 수 있는 예시적인 통상적인 데스크톱 컴퓨터의 다이어그램이다.

도 3은 본 발명의 실시예에 따른 예시적인 소프트웨어 구성의 블록도이다.

도 4a 내지 도 4c는 본 발명의 일 실시예에 따른 유저-개시 트랜잭션(transaction)의 예시적 방법의 흐름도이다.

도 5는 유저 구두 명령(user spoken command)을 인식하는 예시적 방법을 설명하는 흐름도이다.

도 6은 본 발명의 일 실시예에 따른 컴퓨터-개시 트랜잭션의 예시적 방법을 설명하는 흐름도이다.

도 7은 본 발명의 태양이 실시될 수 있는 예시적 소프트웨어 및 하드웨어 구성을 도시하는 다이어그램이다.

도 8은 본 발명의 일 실시예에 따라 유저를 제3 자에게 접속하는 예시적 방 법을 설명하는 흐름도이다.

본 발명의 주제는 법정 요건을 충족시키기 위해 특정하게 기술된다. 그러나, 그 기술 자체는 본 특허의 범주를 한정하도록 의도되지는 않는다. 오히려, 본 발명자들은 청구된 주제가, 현재 또는 미래의 기술과 연계하여, 본 명세서에서 기술된 것들과 상이한 스텝 또는 요소를 포함하도록 다른 방식으로도 유사하게 실시될 수 있다는 것을 예의주시하였다. 또한, 용어 "스텝"은 채택된 방법의 다른 태양을 설명하기 위해 여기에 사용될지라도, 그 용어는 개별 스텝의 순서가 명시적으로 기술되지 않는 경우 또는 명시적으로 기술되는 경우를 제외하고는 각종 스텝 사이의 특정 순서를 의미하는 것으로 해석되어서는 안 된다.

본 논의의 목적을 위해, 용어 "유선 오디오" 통신 또는 전송은 전적으로 유선을 통해 진행하는 통신 또는 전송을 의미한다. 유사하게, 본 논의의 목적을 위해, "무선 오디오" 통신 또는 전송은 적어도 일부의 포인트에서 무선으로 즉, 공기 또는 공간(또는 일부 다른 확장 매체)을 통한 전자기 복사(electromagnetic radiation)를 이용하여 진행하는 통신 또는 전송을 의미하며, 적어도 일부의 포인트는 사람 유저(human user)에 의해서 구두 및/또는 청취가능한 포맷(format)이다.

오디오 명령에 의해 원격 통신 장치와 컴퓨터를 작동가능하게 접속하는 방법 및 시스템을 여기에 기술한다. 본 발명의 일 실시예에서, 이동 전화기, 무선 송수신기, 마이크로폰, 유선 전화기 등과 같은 원격 통신 장치는 오디오 또는 구두 명령을 유저의 컴퓨터에 전송하는데 사용된다. 다른 실시예에서, 유저의 컴퓨터는 구두의 공표 등을 유저에게 동일한 원격 통신 장치에 의해 개시한다. 유저의 컴퓨터상에서 구동되는 인터페이스 프로그램은 예컨대, 유저의 구두 발성을 인식하기 위한 음성 인식 소프트웨어와, 유저와 통신하기 위한 텍스트-투-스피치(text-to-speech) 소프트웨어, 오디오 소프트웨어, 및/또는 비디오 소프트웨어와, 약속 및/또는 e-메일 소프트웨어와, 스프레드시트와, 데이터베이스와, 인터넷 또는 다른 네트워크 등을 작동가능하게 상호 접속한다. 인터페이스 프로그램은 액추에이터(actuator), 센서, 팩스 기기, 전화기, 스테레오, 가전, 자동차 등과 같은 외부 전자 장치와 통신하기 위해서 컴퓨터 I/O 포트와 인터페이스로 접속할 수 있다. 컴퓨터는 자동차, 스테레오, 가전 또는 임의의 다른 장치 등에 내장될 수 있다. 또한, 인터페이스 프로그램은 유저의 구두 명령을 효율적으로 인식하기 위해서 적극적으로 시도할 수 있다. 또한, 인터페이스 프로그램은 유저를 예컨대, VoIP(Voice over Internet Protocol) 및/또는 SIP(Session Initiation Protocol) 표준에 의해서 제3 자에게 연결할 수 있다. 따라서, 실시예는 유저가 임의의 위치로부터 자신의 컴퓨터와 통신하도록 휴대 가능한 통신 장치를 사용할 수 있게 한다.

예컨대, 일 실시예에서, 유저는 자신의 컴퓨터에 전화하기 위해 이동 전화기를 작동시킬 수 있다. 통신이 확립되면, 유저는 소프트웨어 컴포넌트가 액세스하도록 구성된 임의의 유형의 정보를 요구할 것이다. 다른 실시예에서, 컴퓨터는 예컨대, 유저에게 약속 등을 통지하기 위해 이동 전화기 등을 통하여 유저와 컨택할 것이다. 이동 전화기는 임의의 음성 인식을 수행하거나, 유저가 액세스하기를 원 하는 임의의 유저 정보를 포함할 필요가 없다는 것은 이해될 것이다. 사실, 통상적인 "오프 더 셀프(off-the-self)" 이동 전화기, 소프트폰(softphone) 등은 일 실시예에 따른 컴퓨터 구동 소프트웨어에 의해 사용될 수 있다. 그 결과, 실시예는 유저가 임의의 위치로부터 임의의 각종 통신 장치를 사용하여 자신의 컴퓨터의 확장 연산 능력을 이용할 수 있게 한다.

후술하는 설명에서, 그러한 소프트웨어 및/또는 하드웨어 컴포넌트와, 통신 장치의 실시의 상세사항뿐만 아니라, 상호운용의 기술적 양태는 당업자에게는 알려진 것임이 이해될 것이고, 그리하여 그러한 문제에 대하여는 간결성을 위해서 여기에서 생략한다.

도 1을 참조하면, 본 발명의 양태는 실시될 수 있는 예시적인 컴퓨터(100)가 도시된다. 컴퓨터(100)는 여기에 기술되는 방법을 수행할 수 있는 임의의 범용 또는 특수 연산 장치일 수 있다. 일 실시예에서, 컴퓨터(100)는 CPU 하우징(102), 키보드(104), 디스플레이 장치(104) 및 마우스(108)를 포함한다. 컴퓨터(100)는 실시예와 일관성을 유지하는 한 임의의 방식으로 구성될 수 있다. 예컨대, 랩톱 컴퓨터의 경우에서와 같이, 일체형의 디스플레이 장치(106)와 CPU 하우징(102)을 가질 수 있다. 다른 실시예에서, 컴퓨터(100)는 키보드(104) 및/또는 마우스(108) 대신에 또는 그것과 연계하여 유저 입력을 수신하는 다른 수단을 가질 수 있다. 일 실시예에서, 인터페이스 프로그램과 같은 프로그램(130), 소프트웨어 컴포넌트 등이 디스플레이 장치(106) 상에 표시된다. 다른 실시예에서, 컴퓨터(100)는 자동차, 가전, 소비재 등에 내장되는 CPU 및 관련 메모리, I/O 등일 수 있다. 따라서, "컴퓨터" 및 "컴퓨터(100)"는 여기에 개시된 임의의 방법을 수행할 수 있는 연산 장치를 칭하는 것이며, 배타적으로 퍼스널 컴퓨터 등을 의미하는 것이 아님을 이해해야 한다.

또 다른 실시예에서, 컴퓨터(100)는 예컨대, 인터넷, 인트라넷 등과 같은 네트워크(120)에 작동가능하게 연결된다(유선이나 무선, 또는 그 양자를 통하여). 컴퓨터(100)는 데이터 처리를 위한 프로세서(112), 데이터를 저장하기 위한 메모리(110), 네트워크(120) 및/또는 전화선 등의 다른 통신 매체와 통신하기 위한 입력/출력(I/O)(114)을 더 포함한다. 컴퓨터(100)의 프로세서(112)는 단일 프로세서이거나, 복수의 접속된 프로세서일 수 있다는 것을 이해해야 한다. 예컨대, 메모리(110)는 RAM, ROM, 하드 드라이브, CD-ROM, USB 저장 장치 등 일 수 있거나, 그러한 메모리 유형의 조합일 수 있다. 또한, 메모리(110)는 컴퓨터(100)의 내부나 외부에 위치될 수 있다. I/O(114)는 유저 또는 외부 장치가 컴퓨터(100)와 통신할 수 있게 하는 임의의 하드웨어 및/또는 소프트웨어 컴포넌트일 수 있다. I/O(114)는 내부 및/또는 외부에 위치되는 복수의 장치일 수 있다.

도 2a 내지 도 2c를 참조하면, 본 발명의 양태가 실시될 수 있는 예시적인 컴퓨터 구성의 다이어그램이 도시된다. 도 2a에서, 도 1에서 기술한 바와 같은 하우징(102), 키보드(104), 디스플레이 장치(106) 및 마우스(108)를 갖는 컴퓨터(100)가 도시된다. 또한, 마이크로폰(202) 및 스피커(203)가 컴퓨터(100)에 작동가능하게 접속된다. 이해할 수 있는 바와 같이, 마이크로폰(202)은 음파를 수신하고 그 음파를 컴퓨터(100)에 의해서 해석될 수 있는 전기 신호로 변환하도록 채 택된다. 스피커(203)는 그 반대의 기능을 수행함으로써, 컴퓨터(100)로부터의 전기 신호는 음파로 변환된다. 이해할 수 있는 바와 같이, 유저는 컴퓨터(100)에 명령이나 요구를 하기 위해 마이크로폰(102)을 통해 말할 수 있고, 컴퓨터(100)는 스피커(203)에 의해 응답할 수 있다. 반대로, 컴퓨터(100)는 스피커(203) 등에 의해 디스플레이 장치(106) 상에 메시지를 표시함으로써 말을 하거나 소리를 냄으로써 유저와의 "대화"를 개시할 수 있다. 도 2a에 도시된 바와 같이, 임의의 키보드(104), 마우스(108), 마이크로폰(202) 및/또는 스피커(203)에 부가하거나 그것에 대체하여, 유선이나 무선 전화기 또는 예컨대, 캘리포니아주 서니베일의 "Actiontec Electronics, Inc"에 의해 제조된 인터넷폰 위저드(InternetPhone Wizard)와 같은 스피커폰이, 컴퓨터(100)에 접속된 전화 게이트웨이에 의해 컴퓨터(100)에 접속될 수 있다. 이해할 수 있는 바와 같이, 통상적인 유선 또는 무선전화기나 스피커폰과 같은 일 실시예에서의 전화기(210)는 원격 버전의 마이크로폰(202) 및 스피커(203)로서 역할을 하여 컴퓨터(100)와의 원격 상호작용을 허용한다. 컴퓨터(100)에 접속하기 위해서 특정하게 설계된 전화기(210)의 일 예는 일리노이주 소재의 엘크 그루브의 "Clarysis"의 "Clarisys i750"이다.

도 2b에서, 도 1과 관련하여 기술한 것과 같은 하우징(102), 키보드(104), 디스플레이 장치(106) 및 마우스(108)를 갖는 컴퓨터(100)가 다시 도시된다. 또한, 컴퓨터(100)는 로컬 전화기(206)에 작동가능하게 접속된다. 이해할 수 있는 바와 같이, 일 실시예에서, 컴퓨터(100)는 외부 전화기를 필요로 하지 않고 전화선에 직접 접속된다. 컴퓨터(100)는 예컨대 I/O(114)(로컬 전화기(206) 대신, 명료 성을 위해 도 2b에는 도시 생략)에 의해 전화선으로부터의 신호를 수신하도록 채택된다. 그러한 실시예에서, I/O(114)는 음성 모뎀이나 그것의 등가 장치이다. 선택적인 원격 전화기(204) 및/또는 이동 전화기(208)는 또한 로컬 전화기(206) 또는 음성 모뎀에 작동가능하게 접속될 수 있다. 또 다른 실시예에서, 로컬 전화기(206)는 이동 전화기이고, 컴퓨터(100)와의 통신은 이동 전화 네트워크를 통해 일어난다.

예컨대, 일 실시예에서, 유저는 원격 전화기(208) 또는 이동 전화기(208)에 의해 로컬 전화기(206)에 대응하는 전화 번호를 호출할 수 있다. 그러한 실시예에서, 컴퓨터(100)는 소정의 신호 등을 위해 모든 걸려오는 전화를 모니터하고, 그러한 신호 검출시, 컴퓨터(100)는 그 호출로부터의 그러한 정보를 인터페이스 프로그램이나 다른 소프트웨어 컴포넌트에 전송한다. 이와 같은 방식에서, 컴퓨터는 그러한 호출에 접속시 유저로부터의 구두의 명령이나 요구를 수신하여 응답한다. 반대로, 컴퓨터(100)는 원격 전화기(204) 또는 이동 전화기(208)에서 유저에 호출함으로써 유저와의 대화를 개시할 수 있다. 이해할 수 있는 바와 같이, 컴퓨터(100)는 전화-다이얼링 능력을 가질 수 있거나, 동일한 기능을 달성하기 위해서 있다면 로컬 전화기(206)를 사용할 수도 있다.

전화기(204-208)는 음성을 전기 임펄스(아날로그 또는 디지털 포맷의)로 변환하여 예컨대, 셀룰러 네트워크 등의 유선이나 무선에 의해 전송되는 거리에서 사운드를 재생하는 임의의 유형의 도구일 수 있다. 이해할 수 있는 바와 같이, 컴퓨터(100)에 원격 접속하기 위해 전화기의 실시예의 이용은 비교적 저비용 사용자를 위한 핸드세트의 준비된 능력을 보증한다. 또한, 주변 장치의 임의의 유형 또는 주변 장치의 수는 전화기와 관련하여 채택될 수 있고, 그러한 유형의 주변 장치는 실시예와 동일하게 일관적이다. 또한, 임의 유형의 필터링 또는 노이즈 상쇄 하드웨어나 소프트웨어가 전화기(204-208)와 같은 전화기 또는 컴퓨터(100)에서 사용되어, 그러한 전화기(204-208)로부터 수신된 신호의 신호 강도 및/또는 선명성을 증가시킬 수 있다.

예컨대, 로컬 전화기(206)는 가정 환경을 유지한 채 컴퓨터(100)로부터의 원격 위치에서 사용하기 위한 유선 또는 무선 전화기일 수 있다. 예컨대, 사무실 환경, 다중-라인 및/또는 장거리 이동 전화기와 같은 다른 실시예에서, 본 발명과 연계하여 사용될 수 있다. 실시예는 단일 전화기(204-208)를 작동하는 단일 유저의 관계로 여기에 기술되지만, 임의 수의 유저 및 전화기(204-208)가 사용될 수 있고, 임의의 그러한 수는 실시예와 일관된다. 전술한 바와 같이, 로컬 전화기(206)는 이동 전화기 또는 이동 전화 네트워크를 통하여 통신할 수 있는 다른 장치일 수도 있다.

다른 실시예에서, 전화기(206)는 예컨대, "EnGenius"에 의해 제조된 것과 같은 장거리 전화 장비일 수 있다. 장거리 이동 전화기가 상업 환경 등에서는 바람직할 것이라는 것은 이해할 수 있을 것이다. 실시예에서, 유저는 매우 장거리(예를 들어, 도시 전체 또는 전국을 여행하는 동안)인 컴퓨터(100)에 즉각적으로 액세스할 수 있는 것이 바람직할 것이다. 그러한 실시예에서, "Nextel technology"로 부터의 "Direct Connect^TM" 등이 오디오 포맷의 정보를 컴퓨터(100)와 송수신하도록 사용될 수 있다. 예컨대, 유저는 하나의 집적 접속 전화기를 갖고, 컴퓨터(100)는 직접 접속 전화기 또는 다른 유형의 통신 장치인 제 2 전화기에 접속될 수 있다.

페이저(pager), 푸쉬-투-토크(push-to-talk) 라디오 등과 같은 장치가 전화기(204-208) 대신에 또는 그것에 부가하여 컴퓨터(100)에 접속될 수 있다. 이해할 수 있는 바와 같이, 모든 또는 대부분의 유저 정보는 컴퓨터(100)에 저장된다. 따라서, 예컨대, 전화기(204-208)와 같은 원격 통신 장치가 분실되면, 유저는 데이터의 손실 없이 그 장치를 신속하고 저비용으로 교체할 수 있다.

도 2c를 참조하면, 도 1과 관련하여 전술한 바와 같이, 하우징(102), 키보드(104), 디스플레이 장치(106) 및 마우스(108)를 갖는 컴퓨터(100)가 다시 도시된다. 도 2b와 관련하여 전술한 실시예와 대조적으로, 컴퓨터(100)는 원격 전화기(204) 및/또는 이동 전화기(208)에 네트워크(120)에 의해 작동가능하게 접속된다. 이해할 수 있는 바와 같이, 컴퓨터(100)는 예컨대, 다이얼-업(dial-up) 모뎀, DSL, 케이블 모뎀, 위성 접속, T1 접속 등에 의해서 네트워크(120)에 작동가능하게 접속된다. 예컨대, 유저는 네트워크(120)에 의해 컴퓨터(100)에 접속하기 위해서, "웹 전화" 번호, IP 어드레스, 또는 컴퓨터(100)에 할당된 통상적인 전화 번호 등을 호출할 수 있다. 유사하게, 컴퓨터(100)는 네트워크(120)에 의해 원격 전화기(204) 및/또는 이동 전화기(208)에 접속할 수 있다. 그러한 실시예에서, 컴퓨터(100)는 네트워크(120)에 접속하기 위해서 내장된 전화 다이얼링 기능을 갖거나 전화 다이얼링 기능과 작동가능하게 통신한다는 것을 이해할 수 있을 것이다. 그러한 기능은 하드웨어 또는 소프트웨어 컴포넌트에 의해서, 또는 그 조합에 의해서 제공될 수 있으며, 도 4b와 관련하여 더 상세히 설명한다.

그러한 전화 통신이 어떻게 구성될 수 있는지의 일 예는 VoIP 접속에 의한다. 그러한 실시예에서, 임의의 원격 전화기가 컴퓨터(100)에 직접적으로 다이얼링 할 수 있고, 네트워크(120)의 일 양태에 의해서 인터페이스 프로그램에 접속될 수 있다. 예컨대, 컴퓨터(100)는 광역 인터넷 접속 등을 이용하여 걸려오는 VoIP 전화 호출을 취급하기 위해 제공될 수 있다. 또한, 다른 원격 컴퓨터(100)로부터의 USB 인터넷 전화는 예컨대, 컴퓨터(100)에 의해서 직접적으로 응답할 수 있는 VoIP 전화 호출을 개시할 수 있다. 일 실시예에서 SIP 전화 또는 심지어 즉각적인 메시지 기술 등이 컴퓨터(100)와 통신하기 위해 사용될 수 있다는 것은 이해될 것이다.

그리하여, 본 발명의 양태는 실시될 수 있는 유저 컴퓨터(100)의 몇몇 구성예가 제공된다. 이해할 수 있는 바와 같이, 유저를 컴퓨터(100)에 작동 가능하게 접속시키고, 그것에 의해 유저가 그러한 컴퓨터(100)와 구두로 통신할 수 있는 방식은 실시예와 동일하게 일관된다.

따라서, 이해할 수 있는 바와 같이, 컴퓨터(100)와 원격 통신하는 수단은 실시예와 동일하게 일관된다. 채택된 통신 매체의 유형에 따라, 그러한 컴퓨터가 그러한 원격 통신 장치와 효율적으로 통신하기 위해서는 부가적인 장비가 필요할 수 있다. 예컨대, 음성 인식 소프트웨어 엔진으로의 입력은 일반적으로 마이크로폰과 같은 표준 입력으로부터 수신된다. 유사하게, 텍스트-투-스피치(text-to-speech) 엔진으로부터의 출력은 스피커와 같은 표준 출력 장치에 일반적으로 전송된다. 동일한 방식에서, 이동 전화기와 같은 통신 장치는 (헤드셋)마이크로폰으로부터의 입력을 수신하고 (헤드셋)스피커에 출력할 수 있다. 따라서, 실시예는 스피치 엔진과, 컴퓨터에 직접적으로 접속된 통신 장치(예컨대, 도 2b에 도시된 바와 같은 전화기(206)) 사이의 접속을 제공하여서, 일반적으로 스피커로 가는 그 장치로부터의 출력은 스피치 엔진의 입력(일반적으로 마이크로폰으로부터 오는)에 전송된다. 유사하게, 텍스트-투-스피치 엔진으로부터의 출력(통상적으로 스피커로 가는)과 장치의 입력 사이에서 장치가 오디오 출력을 원격 호출자에게 전송하는 방식으로 접속된다.

기본적인 실시예에서, 그러한 전송은 외부에 있는 전화기(206)와 패치-코드(patch-cord)를 사용하는 컴퓨터 사이에서 (도 2b에 도시된 바와 같이) 달성될 수 있다. 그러나, 일부 실시예에서, 신호는 전송뿐만 아니라, 조정을 요구한다. 예컨대, 오디오 신호가 아날로그인 경우, 일 실시예는 가변 레지스터에 의해서 행해질 수 있는 임피던스 정합, 볼륨 제어 등을 요구할 것이다. 오디오 신호가 디지털인 경우, 포맷(예컨대, 샘플 속도, 샘플 비트(블록 사이즈) 및 채널의 수)은 조정되어야 한다.

그러한 신호 전송 및 조정의 다른 실시예는 인터페이스 프로그램과 연계하여 컴퓨터(100)에서 작동하는 "소프트폰" 소프트웨어를 포함할 수 있다. 그러한 소프트웨어는 전술한 SIP 표준 또는 H.323과 같은 다른 프로토콜을 사용하여 컴퓨 터(100) 상에서 전화 호출을 신청하고 수신하는 VoIP 전화 통신을 조장한다. 그러한 소프트웨어의 일 예는 캐나다 브리티시 콜롬비아주 버너베(Burnaby) 소재의 "Xten Networks, Inc."에 의해서 제조되는 X-PRO이다. 소프트폰 소프트웨어는 전화 음성 신호를 로컬 스피커 또는 헤드셋에 의해 유저에게 송신하고, 일반적으로 전화 음성을 로컬 마이크로폰에 의해 수신한다. 때때로, 컴퓨터(100)가 이용가능한 다중 오디오 장치를 갖는 경우, 소프트폰 소프트웨어에 의해서 사용될 수 있는 특정 오디오 장치는 종종 유저 세팅으로서 선택될 수 있다. 전술한 바와 같이, 텍스트-투-스피치 소프트웨어는 일반적으로 그것의 로컬 유저에게 사운드(출력)를 로컬 스피커 또는 헤드셋에 의해 송신하고, 음성 인식 소프트웨어는 일반적으로 로컬 마이크로폰에 의해 음성(입력)을 수신한다. 따라서, 소프트폰 소프트웨어는 실시예에 의해 텍스트-투-스피치 소프트웨어 및 음성 인식 소프트웨어에 링크될 수 있다. 그러한 링크는 하드웨어나 소프트웨어, 또는 그 조합을 포함하는 다수의 방식에 의해서 달성될 수 있다. 일 실시예에서, 하드웨어 오디오 장치는 각각의 애플리케이션에 할당될 수 있고, 그 후 적절한 출력 포트 및 입력 포트가 패치 케이블을 사용하여 링크된다. 그러한 배열은 오디오가 소프트폰으로부터 음성 인식 소프트웨어로 그리고 텍스트-투-스피치 소프트웨어로부터 소프트폰 소프트웨어로 흘러가게 한다. 이해할 수 있는 바와 같이, 그러한 배열은 스피커 출력 포트를 마이크로폰 입력 포트에 연결하는 것을 수반할 수 있고, 그리하여 일 실시예에서 패치 케이블에서의 임피던스 매칭이 사운드 왜곡을 완화시키는데 사용될 수 있다.

다른 실시예는 애플리케이션 사이의 음성 신호를 링크하기 위해서 특수 소프 트웨어를 사용할 수 있다. 그러한 소프트웨어의 예는 오디오 신호를 전송하고 수신하는 소프트웨어 프로그램이 용이하게 연결될 수 있도록 오디오 케이블을 전적으로 소프트웨어 내에서 에뮬레이트하는 가상 오디오 케이블(Eugene V. Muzychenko가 작성한 소프트웨어)일 수 있다. 그러한 실시예에서, 한 쌍의 가상 오디오 케이블은 오디오가 소프트폰으로부터 음성 인식 소프트웨어로 그리고 텍스트-투-스피치 소프트웨어로부터 소프트폰 소프트웨어로 흐르도록 한다. 또 다른 실시예에서, 소프트폰 소프트웨어, 텍스트-투-스피치 소프트웨어 및 음성 인식 소프트웨어는 변형되거나 일체화되어서, 외부 오디오 전달 장치에의 요건이 전체적으로 제거된다.

도 3을 참조하면, 일 실시예에 따른 예시적인 소프트웨어 및/또는 소프트웨어 구성의 블록도가 도시된다. 이해할 수 있는 바와 같이, 일 실시예에서, 그러한 소프트웨어는 컴퓨터(100)에 의해서 구동된다. 그러한 방식에서, 예컨대, 도 2a 내지 도 2c와 관련하여 전술한 바와 같은 전화기(204-210)(도 3에서는 명료성을 위해 도시생략)와 같은 원격 통신 장치상에서 그러한 소프트웨어를 실행시키는 시도 대신에, 그러한 컴퓨터(100)의 연산 능력이 활용된다.

도 3에 도시된 각각의 소프트웨어 및/또는 하드웨어 컴포넌트는 적어도 하나의 다른 소프트웨어 및/또는 하드웨어 컴포넌트에 작동가능하게 접속된다(점선으로 도시된 바와 같이). 또한, 도 3은 일 실시예만을 도시하는 것이며, 소프트웨어 및/또는 하드웨어 컴포넌트의 다른 구성이 실시예와 역시 일치한다는 것을 이해할 수 있을 것이다. 도 3에 도시된 소프트웨어 컴포넌트는 독립형(stand-alone) 프로그램, 애플리케이션 프로그램 인터페이스(API) 등 일 수 있다는 것을 이해할 수 있을 것이다. 또한, 그러한 소프트웨어 컴포넌트는 컴퓨터 판독 가능 매체 상에서 컴퓨터 실행 가능 명령어로서 실행될 수 있으며, 그 명령어는 후술하는 바와 같은 스텝을 수행하기 위해서 컴퓨터 등에 의해서 실행될 수 있다. 컴퓨터 판독 가능 매체는 예컨대, CD-ROM 디스크, DVD 디스크, USB 드라이브 등을 포함할 수 있다. 일부 소프트웨어 컴포넌트는 컴퓨터 내에 존재할 수 있고, 그리하여 실질적으로 비용을 줄이고, 복잡도를 저감시키며, 저장 공간을 절약하고, 효율을 개선한다.

전화 입력(302)은 유저가 구두 발성이나 오디오 명령(DTMF 신호를 포함하나, 그것에 한정되는 것은 아님)에 의해서 예컨대, 도 2a 내지 도 2c와 관련하여 전술한 바와 같은 입력 장치를 통하여 컴퓨터(100)와 통신하게 한다. 마찬가지로, 전화 출력(304)은 전기적 신호를 유저가 청취할 수 있는 사운드로서 출력하도록 제공된다. 전화 입력(302) 및 전화 출력(304) 양자는 예컨대, 전화 또는 네트워크(120)에 의해 접속을 확립하는데 필요한 기능을 갖는 전화 또는 네트워크(120)에 신호를 수신하고 전송하는 것과 같은 다른 목적을 위해 채택될 수 있다. 전화 입력(302) 및 출력(304)은 컴퓨터(100)에 내적이거나 외적인 하드웨어일 수 있고, 소프트폰 애플리케이션 및 관련 네트워크 인터페이스 카드와 같은 소프트웨어일 수 있다.

이름이 암시하는 바와 같이, 구두 발성을 나타내는 신호인, 전화 입력(302)에 의해서 수신되는 신호와 같은 전자 신호를 수신하고 그러한 발성을 해석하도록 채택되는 음성 인식 소프트웨어(310)가 또한 제공된다. 음성 인식 소프트웨어(310)는 예컨대, 특수 또는 오프 더 쉘프(off-the-shelf) 음성 인식 소프트웨어, 또는 음성 인식 소프트웨어(310) 엔진과 같은 그러한 소프트웨어의 요소일 수 있다. 그러한 인식 소프트웨어(310)는 더욱 최적인 음성 인식을 위한 유저 트레이닝을 포함할 수 있다. 또한, 유저와의 통신을 위한 텍스트-투-스피치 엔진(315)이 도시된다. 실시예에서의 그러한 텍스트-투-스피치 엔진(315)은 전자 데이터로부터 유저에게 전송되는 구두 진술을 생성한다. 도 3에 도시된 바와 같은 실시예에서, 자연 언어 처리 모듈(325) 및 자연 언어 합성 모듈(330)은 구두 진술을 각각 해석하고 구축하기 위해서 제공된다.

유저 데이터(320)는 컴퓨터(100)에 저장되거나 접속가능하며, 실시예에 따라 접속되거나 사용될 수 있는 임의 종류의 정보를 포함한다. 예컨대, 개인 정보 데이터 파일(322)은 임의 유형의 정보를 포함하는 임의 유형의 컴퓨터 파일일 수 있다. e-메일, 약속 파일, 개인 정보 등이 개인용 정보 데이터베이스에 저장되는 정보 유형의 예이다. 또한, 그러한 개인 정보 데이터 파일(322)은 예컨대, 스프레드시트, 데이터베이스, 문서 파일, e-메일 데이터 등과 같은 파일 유형일 수 있다. 또한, 그러한 데이터 파일(322)(아래의 데이터 파일(324)뿐만 아니라)은 유저의 방향에서, 예컨대, 차고 문을 열거나, 문서를 인쇄하거나, 팩스를 전송하거나, e-메일을 전송하거나, 가전을 턴 온 및/또는 제어하거나, 텔레비전 또는 라디오 프로그램을 기록 또는 재생시키거나, 통신 장치 및/또는 시스템과의 인터페이스로 접속하는 것 등과 같은 태스크(task)를 수행할 수 있다. 그러한 기능은 데이터 파일(322-324) 내에 포함될 수 있거나, 예컨대, 전화 입력(322) 및 출력(304), 입력/출력(350) 등에 의해서 그러한 데이터 파일(322-324)에 접속할 수 있다. 인터페이 스 프로그램(300)은 컴퓨터(100)의 내부에 있는, 전술한 바와 같은 요소를 사용하여 그러한 태스크를 수행할 수 있거나, 프로그램(300)은 전화 입력(302) 및 출력(304), 입력/출력(350) 등을 이용하여 컴퓨터(100)의 외부 장치와 인터페이스로 접속할 수 있다.

유저를 대신하여 컴퓨터(100)에 의해서 접속될 수 있는 추가적인 파일은 네트워크 기반 데이터 파일(324)이다. 그러한 데이터 파일(324)은 매크로, XML 태그, 또는 유저를 위한 최신 정보를 획득하기 위해 인터넷과 같은 네트워크(120)에 접속하는 다른 기능을 포함한다. 그러한 정보는 예컨대, 주식 가격, 날씨 리포트, 뉴스, 교통 리포트 등일 수 있다. 예시적인 파일은 개인 정보 관리(PIM) 파일 또는 메시지 애플리케이션 프로그래밍 인터페이스(MAPI, 예컨대, e-메일)일 수 있다. 그러한 파일은 Microsoft® Outlook® 또는 Lotus Notes®와 같은 프로그램과 연계하여 사용될 수 있다. 다르게는, 인터페이스 프로그램(300)은 예컨대, 인터롭(interlop) 방법에 의해 각종 컴퓨터 프로그램과 직접적으로 상호 작용할 수 있다(컴퓨터 프로그래밍에 정통한 사람들에게 이해될 수 있는 바와 같이).

그러한 데이터 파일(324)의 다른 예는 도 7a 및 도 7b의 인터넷-가능 스프레드시트의 문맥에서 후술할 것이다. 이해할 수 있는 바와 같이, 여기에 사용된 용어인 유저 데이터(320)는 데이터 파일(322 및/또는 324)을 포함하는 임의 유형의 데이터 파일을 칭한다. 데이터 파일 인터페이스(335)는 인터페이스 프로그램(300)이 유저 데이터(320)에 접속하는 것을 허용하도록 제공된다. 이해할 수 있는 바와 같이, 단일 데이터 파일 인터페이스(335), 또는 특정 파일 또는 파일 유형과만 인 터페이스로 접속하는 복수의 인터페이스(335)가 있을 수 있다. 또한, 일 실시예에서, 시스템 클록(340)은 인터페이스 프로그램(300)이 시간 및 데이터 정보를 결정할 수 있게 하도록 제공된다. 또한, 일 실시예에서, 입력/출력(350)은 외부 장치, 컴포넌트 등과 인터페이스로 접속하도록 제공된다. 예컨대, 입력/출력(350)은 1 이상의 프린터 포트, 시리얼 포트, USB 포트 등을 포함할 수 있다.

전술한 하드웨어 및 소프트웨어 컴포넌트에 작동가능하게 접속되는(점선으로 지시된 바와 같이) 것은 인터페이스 프로그램(300)이다. 그러나, 인터페이스 프로그램(300) 자체는 독립형 프로그램이거나, 실시예에 따라서 태스크의 수행을 조정하는 소프트웨어 컴포넌트이다. 예컨대, 인터페이스 프로그램(300)은 다른 소프트웨어 컴포넌트를 제어하고, 또한 어느 유저 데이터(320)가 오픈되고, 어느 "그래머(grammar)"(유저에 의해 발성될 기대 문구)가 정취 되는지를 제어한다.

인터페이스 프로그램(300) 자체는 유저가 흥미있는 유저 데이터(320)를 포함할 필요는 없다. 그러한 방식에서, 인터페이스 프로그램(300)은 전술한 바와 같은 임의의 유저 데이터(320) 또는 다른 소프트웨어 컴포넌트와 독립적으로 변형 및 갱신될 수 있는 비교적 작고 효율적인 프로그램으로 유지된다. 또한, 그러한 모듈식 구성은 인터페이스 프로그램(300)이 임의 유형의 소프트웨어 컴포넌트를 구동하는 임의의 컴퓨터(100) 내에서 사용될 수 있게 한다. 그 결과, 호환성 문제가 경감된다. 또한, 퍼스널 컴퓨터와 같은 컴퓨터(100) 상에서 작동하도록 디자인된 프로그램 및 컴포넌트의 인터페이스 프로그램(300)의 이용은, 복잡한 음성 인식이 비-서버 연산 환경에서 발생할 수 있게 한다는 것은 이해될 것이다. 따라서, 인터페이 스 프로그램(300)은 서버와 대조적인 컴퓨터(100) 상에서 구동하도록 디자인된 프로그램과 인터페이스로 접속하고, 컴퓨터(100) 유저와 친숙하다. 예컨대, 그러한 프로그램은 컴퓨터(100)의 구동 시스템의 일부이거나 그것에 접속할 수 있는 사전-존재하는 소프트웨어 애플리케이션일 수 있다. 이해할 수 있는 바와 같이, 그러한 프로그램은 독립형 애플리케이션, 하드웨어 인터페이스 등일 수 있다.

실시예의 모듈식 특성은 임의의 음성 인식 소프트웨어(310)의 가상적 이용을 허용한다. 그러나, 인간 스피치 패턴에서의 큰 편차 및 방언은 그러한 인식 소프트웨어(310)의 정확도를 제한한다. 그리하여, 일 실시예에서, 그러한 소프트웨어(310)의 정확도는 소프트웨어(310)가 인식하는 구두 자료의 내용을 한정시킴으로써 개선된다. 예컨대, 소프트웨어(310)가 특정 지역으로부터의 단어를 인식하도록 한정되는 경우, 소프트웨어(310)는 임의의 수의 관련되지 않은 단어와 유사하게 발음될 수 있는 발성을 소망하는 지역과 관련된 단어로서 더욱 정확하게 인식할 것이다. 그러한 문맥 한정을 이용하여 유저 음성 명령을 분석하는 방법이 도 5와 관련하여 후술된다.

일 실시예에서, 인터페이스 프로그램(300)에 의해서 접속되는 유저 데이터(320)는 그러한 한정을 수행하기 위한 방식으로 구성되고 조직될 수 있다. 그러한 구성은 도 3에 도시된 바와 같은 인터페이스 프로그램(300) 또는 다른 소프트웨어 컴포넌트에의 변경을 요구하기보다는 유저 데이터(320) 자체에서 행해질 수 있다. 예컨대, Microsoft® Excel 등과 같은 스프레드시트 애플리케이션은 인터페이스 프로그램(300)과 사용하기에 적합한 방식으로 데이터를 저장하고 액세스하는 수 단을 제공한다. 스크립(script) 파일, 알람 파일, 룩-업(look-up) 파일, 명령 파일, 솔버(solver) 파일 등이 실시예에서 사용에 이용될 수 있는 스프레드시트 파일의 모든 유형이다.

또한, 음성 인식 소프트웨어(310)는 "프로파일(profile)"을 구성하는 하나 이상의 세팅(setting)을 가질 수 있다. 음성 인식 소프트웨어(310) 프로파일은 인터페이스 프로그램(300)과 통신하도록 유저에 의해서 사용되는 통신 채널 등의 유형을 포함하는 임의 수의 이유를 위해 생성될 수 있지만, 그러한 것에 한정되는 것은 아니다.

스크립 파일은 유저와 컴퓨터(100) 사이의 구두 대화를 제공하는 스프레드시트이다. 예컨대, 일 실시예에서, 스프레드시트의 1 이상의 열(또는 행)은 유저에 의해 이야기될 수 있는 그래머를 나타내며, 스프레드시트의 1 이상의 열(또는 행)은 컴퓨터(100)의 응답을 나타낸다. 따라서, 유저가 예컨대, "헬로우" 하고 말하면, 컴퓨터(100)는 "하이" 또는 "굿 모닝" 등을 말할 수 있다. 그러한 스크립 파일은 컴퓨터(100)와 유저가 보다 친숙한 상호작용을 할 수 있게 한다.

일 실시예에서, 알람 파일은 희망하는 기능에 대응하는 스프레드시트의 1 이상의 열(또는 행)에 엔트리(entry)를 갖는다. 예컨대, 스프레드시트 내의 엔트리는 유저가 약물을 섭취하고, 미팅에 참석하게 하는 등에 대하여 특정 데이터 및/또는 시간을 위해 설정된 리마인더에 대응할 수 있다. 그리하여, 인터페이스 프로그램(300)은 유저와 연락하고 자신에게 나머지를 통지하도록 전화 출력(304)과 같은 요소와 인터페이스로 접속한다. 그리하여, 일 실시예에서, 알람 파일은 소정의 상 태에서 액션을 생성하도록 구동되어야 하기 때문에 항상 활동적이다.

일 실시예에서, 룩-업 파일은 정보를 포함하거나 정보에 교차-참조된다. 일 실시예에서, 정보는 전체적으로 룩-업 파일 내에 포함되고, 다른 실시예에서, 룩-업 파일은 룩-업 파일 외부의 데이터 소스로부터 정보를 참조한다. 예컨대, 스프레드시트는 인터넷상에서 이용가능한 데이터를 참조하는 셀을 포함할 수 있고(예컨대, "스마트 태그", 웹 질의, 데이터베이스 질의 등을 이용하여), 정보가 최신이 되는 것을 보장하기 위해 소정 간격에서 "리프레시(refresh)"될 수 있다. 따라서, 룩-업 파일은 예컨대, 주식 시세, 스포츠 스코어, 날씨 상태 등과 같은 유저를 위한 정보를 찾는데 사용될 수 있다. 그러한 정보는 컴퓨터(100)에 국부적으로 또는 원격적으로 저장될 수 있다.

일 실시예에서, 명령 파일은 유저가 명령을 컴퓨터(100)에 입력하게 허용하고, 인터페이스 프로그램(300)이 명령을 수행하기 위해 적절한 컴포넌트와 인터페이스로 접속하게 야기하는 스프레드시트이다. 예컨대, 유저는 노래 청취를 희망할 수 있고, 그리하여 인터페이스 프로그램(300)은 노래를 연주하도록 뮤직 프로그램과 인터페이스로 접속한다. 일 실시예에서 솔버 파일(solver file)은 유저가 수학적 및 다른 분석적 문제를 컴퓨터(100)에 구두 질의함으로써 해결하도록 허용한다. 그러한 유형의 파일에서, 거기에 포함된 데이터는 유저가 참조하는 데이터를 결정할 수 있도록 음성 인식 소프트웨어(310)가 인식해야 하는 "그래머" 또는 그래머에의 링크를 포함하는 일련의 행 및/또는 열로 조직화된다.

전술한 바와 같이, 스크립 파일은 소망의 정보를 유저에게 제공하거나 소망 의 태스크를 수행하도록 인터페이스 프로그램(300)에 의해서 영향받을 수 있는 스프레드시트 기술의 단순한 애플리케이션을 나타낸다. 실시예에서 사용되는 특정 음성 인식 소프트웨어(310)에 따라서, 그러한 스크립의 구문은 어느 소프트웨어가 유저로부터의 구두 발성의 견지에서 청취 되는지에 영향을 미친다.

실시예는, 유저에 의해서 요구되었을 때 예컨대, 룩-업 파일만을 오픈하도록 구성된다. 그러한 방식에서, 컴퓨터(100)가 잠재적으로 해석해야 하는 그래머의 수는 감소되고, 그리하여 임의의 그와 같은 음성 인식의 속도 및 신뢰성을 증가시킨다. 또한, 그러한 구성은 또한 다른 활동을 위해 컴퓨터(100) 리소스를 프리하게 한다. 유저가 그러한 파일을 오픈하기를 희망할 때, 유저는 예컨대, "주식 가격 조회"와 같은 구두 명령을 발할 것이다. 그 후, 컴퓨터(100)는 어느 데이터 파일(322-324) 등이 구두 발성에 대응하는지를 결정하고 그것을 오픈한다. 그 후, 컴퓨터(100)는 유저에게 구두 큐(verbal cue)에 의해 그 데이터가 지금 접속가능하다는 것을 통지한다.

다른 실시예에서, 유저는 표준 스프레드시트 기술을 이용하여 스프레드시트 등을 완성하지 않을 것이다. 대신에, 위저드, API 등이 예컨대, 표준 템플릿 파일(template file)을 기입하도록 사용될 수 있다. 다른 실시예에서, 전술한 음성 인식 기술은 키보드(104) 등을 이용하는 대신에 그러한 템플릿 파일을 기입하도록 사용될 수 있다. 또 다른 실시예에서, 인터페이스 프로그램(300)은 유저가 자신의 대답을 하는 일련의 구두 질문을 유저에게 프롬프트할 수 있다. 그러한 방식에서, 컴퓨터(100)는 더욱 상세한 질문을 하거나, 유저 데이터(320)를 생성하거나 수정하 는 등을 행할 수 있다. 또한, 또 다른 실시예에서, 위저드는 존재하는 스프레드시트 또는 인터넷 등으로부터 다운로드 된 것을 인터페이스 프로그램(300)에 접속될 수 있고 이해될 수 있는 포맷으로 변환한다.

도 2a 내지 도 2c와 관련하여 전술한 바와 같이, 단일 유저는 유저에 의해서 채택된 통신 채널에 따라서 상이한 소프트웨어 구성(또는 "모드")을 또한 필요로 할 수 있다. 예컨대, 유저가 이동 전화기(208)에 의해 컴퓨터에 접속하는 경우, 컴퓨터(100)는 매체에 의해서 제공된 비교적 낮은 사운드 품질로부터의 스피치를 인식하도록 조정된 음성 인식 소프트웨어(310) 프로파일을 사용하는 것을 필요로 할 것이다. 그리하여, 음성 인식 소프트웨어(310) 프로파일은 이동 전화기(108)에 의해 수신된 유저 명령을 인식하도록 존재할 수 있다. 또한, 컴퓨터(100)는 유저에 의해서 채택된 통신 채널에 따라서 유저에게 이용가능한 상이한 데이터 파일(322) 등을 만드는 것을 필요로 할 수 있다. 예컨대, 마이크로폰(202)을 사용할 때 유저가 희망하지 않는(예컨대, 유저가 컴퓨터 앞에 있고 다른 수단에 의해 그러한 정보에 접근할 수 있기 때문에) 이동 전화기(208)로부터 호출될 때, 유저는 특정 정보에 접속하기를 항상 희망할 것이다(예컨대, 유저가 도로상에 있고 그러한 정보를 희망하기 때문에). 또한, 컴퓨터(100)의 다중 유저는 각종 통신 채널을 위해 각각 상이한 구성 세팅을 가질 것이다. 그리하여, 후술하는 설명에서는, 구성 변화가 일어날 수 있는 수단을 제공하는 실시예의 양태가 기술된다.

상술한 바와 같이, 유저는 컴퓨터(100)와 상호작용하기 위해서 상이한 통신 채널을 사용할 수 있다. 각각의 통신 채널에 포함된 하드웨어는 상이한 오디오 품 질을 가질 수 있다. 예컨대, 상이한 통신 채널은 예컨대, 상이한 샘플링 속도(예컨대, 전화 장비를 위한 8 kHZ, 스피커를 위한 16 kHZ, 마이크로폰을 위한 22.05 kHZ, CD를 위한 44.1 kHZ, DVD를 위한 48 kHZ, DVD-오디오를 위한 96 kHZ 등)를 가질 수 있다. 그리하여, 전술한 바와 같이, 포함된 하드웨어에 따라서 모드 변경 등이 이루어질 필요가 있을 수 있다. 예컨대, 유저가 컴퓨터(100)에 접속하는 각각의 통신 채널을 위한 프로파일을 음성 인식 소프트웨어(310)가 생성하도록 유저는 그 음성 인식 소프트웨어(310)를 트레이닝시키기를 희망할 수 있다. 유저는 상이한 통신 채널을 사용할 때 여러 세팅 및/또는 소프트웨어 변경이 발생하기를 희망한다는 것은 이해할 수 있을 것이다. 예컨대, 유저는 실시예가 출력 장치를 자동 변경하고, 입력 이득 및 출력 볼륨을 이전에 저장된 설정으로 조정하고, 음성 인식 소프트웨어(310) 세팅 또는 엔진을 변경하고(예컨대, 최적화된 16 kHZ에 최적화된 8 kHZ), 음성 인식 소프트웨어(310) 프로파일을 변경하고(예컨대, 이동 전화기 상의 유저 1을 마이크로폰 상의 유저 1로), 오디오 포맷 변환 파라미터를 변경하고, 백그라운드 노이즈 필터링 우선순위/프로파일을 변경하고, "히스토리" 및/또는 "콘텍스트" 파일을 변경하고, 다른 우선순위 또는 셋업 파라미터를 변경하고, 이용가능한 데이터 파일(322) 또는 기능 세트를 데이터 프로파일(322) 내에서 변경하고, 또는 각종 기능을 위한 우선순위 등을 희망할 것이다.

일 실시예에서, 그러한 변경은 하드웨어 장치 사이의 자동 전환을 허용하도록 일부 또는 모든 파라미터에 의해 미리 구성될 수 있다. 예컨대, 인터페이스 프로그램(300)은 마이크로폰 및 스피커 구성에 따라 설정될 수 있지만(예컨대, "로 컬" 모드), VoIP로부터의 전화 호출과 같이, 다른 장치에서는 "청취"일 수 있다. "청취"는 인터페이스 프로그램(300)이 예컨대, 전화 입력(302) 또는 입력/출력(350)에 의해 걸려오는 전화 호출 등과 같은 새로운 장치 접속을 인식할 수 있는 것을 의미한다는 것을 이해할 수 있을 것이다. 그러한 전화 호출이 걸려오는 것인 경우, 인터페이스 프로그램(300)은 모드를 자동적으로 전환하고, 새로운 모드(예컨대, VoIP)의 성능을 향상시키기 위해 모든 필요한 파라미터를 조정할 수 있다. VoIP 접속이 더 이상 작동하지 않는 경우, 실시예에서 인터페이스 프로그램(300)은 로컬 모드로 다시 자동적으로 전환한다.

전술한 VoIP 모드에 계속하여, VoIP 전화 호출을 수용하기 위해서, 인터페이스 프로그램(300)은 전화 입력(302), 전화 출력(304), 입력/출력(350) 등에 의해 컴퓨터(100)를 VoIP 호출에 접속하기 위해서 사용될 수 있는 하드웨어 및/또는 소프트웨어 등에 일부 형태의 오디오 브리지를 요구할 수 있다. 또한, 일부 전화 장비는 아날로그 신호를 다른 오디오 장비와 상이한 방식 및 상이한 샘플 속도로 압축하여 디지털화한다. 그리하여, 그러한 파라미터는 유저가 로컬에서 VoIP로 전환할 수 있도록 인터페이스 프로그램(300)에 의해서 자동적으로 전환될 수 있다. 예컨대, 인터페이스 프로그램(300)이 로컬 모드에 있고, VoIP 호출을 수신하기 위해서 입력/출력(350)에 의해서 링크될 수 있는 소프트폰으로부터의 걸러오는 호출을 검출할 때, 인터페이스 프로그램(300)은 로컬 오디오 장치를 "포기하고", 소프트폰과의 통신을 확립한다. 일반적으로, 가상 오디오 케이블(전술한 바와 같은) 등에 의해서 제공되는 것과 같은 부가적 소프트웨어를 필요로 할 것이다. 또한, 소프트 폰 상의 파라미터는 인터페이스 프로그램(300)과의 통신을 최적화하기 위해 변경되는 것이 필요할 것이다. 또한, 인터페이스 프로그램(300)은 사용자의 VoIP 음성 인식 소프트웨어(310) 프로파일(존재하는 경우)을 전환하는 것을 필요로 할 것이다. VoIP 호출이 종료될 때, 인터페이스 프로그램(300)은 로컬 오디오 장치를 재요구하고, 가상 오디오 케이블과의 통신을 종료할 것이다.

임의 유형의 소프트웨어 및/또는 하드웨어 변경(또는 그것의 부족)은 실시예와 일치하는 것을 이해할 수 있을 것이다. 예컨대, 실시예는 유저가 컴퓨터(100) 및 인터페이스 프로그램(300)과 통신하기 위해 사용할 수 있는 각 유형의 하드웨어에 대하여 상이한 음성 인식 소프트웨어(310) 프로파일 및/또는 엔진을 사용할 수 있다. 1 이상의 모드가 한번에 활성화될 수 있고, 그리하여 다중 하드웨어 및/또는 소프트웨어 구성이 동시에 지원될 수 있다는 것을 이해해야 한다.

전술한 바와 같이, 인터페이스 프로그램은 상이한 유저를 위한 프로파일을 가질 수 있다. 예컨대, 특정 유저의 음성은 특정 통신 채널에 의해 도착시 인식될 수 있고, 그 후 인터페이스 소프트웨어는 사용되고 있는 특정 통신 채널을 위해 사용자의 프로파일로 전환할 수 있다.

일 실시예에서, 인터페이스 프로그램(300)은 "안전한" 원격 유저에게만 컴퓨터(100)에 접속하는 것을 허용할 수 있다. 그러한 실시예에서, 예컨대, 일단 인터페이스 프로그램(300)이 원격 유저를 위해 올바른 하드웨어 세팅을 확립하면, 인터페이스 프로그램(300)은 구두 프롬프트(prompt) 등에 의해(예컨대, 텍스트-투-스피치 엔진(315)에 의해) 호출에 응답하여 유저가 보안 코드, 듀얼 톤 다중-주파 수(DTMF) 코드, 구두 코드 문구 등을 제공하게 유도할 것이다. 올바른 응답이 수신되지 않으면, 인터페이스 프로그램(300)은 올바른 응답을 제공하기 위해서 추가적인 시도에 대하여 프롬프트할 것이다. 궁극적으로, 올바른 응답이 수신되지 않으면, 인터페이스 프로그램은 컴퓨터(100)에의 접속을 방지하고 및/또는 호출을 종료할 것이다.

전술한 바와 같이, 실시예는 상이한 소프트웨어 프로파일이 컴퓨터(100)의 복수 유저를 위해서 유지되는 것을 제공한다. 그러한 실시예에서, 예컨대, 인터페이스 프로그램(300)은 컴퓨터(100)와 통신하는데 사용되는 장치 유형, 입력 코드 등으로부터 특정 유저를 인식할 것이다. 응답에서, 인터페이스 프로그램(300)은 적절한 유저 프로파일의 로딩 및/또는 필요한 경우 다른 세팅 변경을 할 수 있다.

예컨대, 인터페이스 프로그램(300)은 유저로부터의 입력 신호가 특정 유형의 하드웨어 장치에 의해 수신되는지 여부를 결정하고, 인터페이스 프로그램(300)은 텍스트-투-스피치 엔진(315)으로부터의 스피치를 유저에게 적절한 장치에 의해 출력할 것이다. 예컨대, 지정된 마이크로폰 또는 마이크로폰들에 의해 인터페이스 프로그램(300)과 통신하는 경우, 인터페이스 프로그램(300)은 텍스트-투-스피치 엔진(315)으로부터의 출력을 특정 스피커 또는 스피커들에 전송할 것이다.

전술한 바와 같이, 다중 유저는 컴퓨터(100) 상의 상이한 유저 프로파일을 가질 수 있다. 인터페이스 프로그램(300)은 하드웨어 및/또는 소프트웨어 컴포넌트를 적절하게 구성하기 위해서 그러한 유저 프로파일을 사용할 수 있다. 하기하는 표 1은 각각의 유저에게 이용가능하게 될 수 있는 각종 구성 세팅을 포함하는 예시적인 유저 프로파일을 나타낸다. 표 1에 나타낸 세팅은 모든 것을 망라하거나 요구되는 리스트가 결코 아니다는 것을 이해해야 한다.

예시적인 유저 프로파일

예컨대, 표 1에서, 1 이상의 SIP 프록시 및 다수의 로컬 오디오 장치가 각각의 유저에게 할당될 수 있다. 그러한 구성 세팅은 준수사항은 아니지만, 프로파일은 입력 장치에 링크된 1 이상의 출력 장치를 가질 수 있다. 따라서, 인터페이스 프로그램(300)은 유저와 통신하기 위해 각종 구성으로 작동될 수 있다는 것을 이해할 수 있을 것이다. 그러한 구성 사이의 전환을 기술하였지만, 이제 도 4a 내지 도 4c를 참조하면, 실시예에 따른 유저 개시 트랜잭션의 예시적 방법의 흐름도가 도시된다. 도 3과 관련하여 알람 스크립의 설명에서 기술한 바와 같이, 일 실시예에서, 인터페이스 프로그램(300)은 전화 출력(304)에 의해서 트랜잭션을 또한 개시할 수 있다는 것을 이해할 수 있을 것이다. 그러한 상황은 도 6과 관련하여 후술한다.

스텝 405에서, 유저는 컴퓨터(100)와의 통신을 확립한다. 그러한 확립은, 예컨대, 도 2b 내지 도 2c와 관련하여 전술한 바와 같이 이동 전화기(208)에 의해 유저가 컴퓨터(100)를 호출함으로써 일어날 수 있다. 그러한 확립은 예컨대, 유저 데이터(320) 등에 액세스하기 위한 비밀 취급 인가(security clearance)를 확립하는 중간 스텝을 또한 가질 수 있다는 것을 이해해야 한다. 선택적인 스텝(410)에서, "구두" 프롬프트가 유저에게 제공된다. 그러한 프롬프트는 컴퓨터(100)가 구두 발성을 청취할 준비가 된 것을 유저에게 간단히 지시할 수 있거나, 그러한 프롬프트는 데이터, 시간 등과 같은 다른 정보를 포함할 수 있다.

스텝 415에서, 유저 요구는 예컨대, 전화 입력(302) 등에 의해 수신될 수 있다. 스텝 420에서, 유저 요구는 요구의 내용을 결정하기 위해 구문분석 및/또는 분석된다. 그러한 구문분석 및/또는 분석은 예컨대, 음성 인식 모듈(310) 및/또는 자연 언어 처리 모듈(325)에 의해서 수행된다. 스텝 425에서, 유저의 요구에 대응하는 원하는 기능이 결정된다. 스텝 410-425는 예컨대, 음성 인식 소프트웨어(310)가 유저 요구를 인식하는데 필요한 만큼 여러 번 반복될 수 있다. 그러한 반복은 예컨대, 유저에 의해 컴퓨터(100)와 통신하고 있는 통신 채널이 열악한 품질일 때, 유저가 불명료하게 말할 때, 또는 임의의 다른 이유에 의해서 필요할 것이다.

스텝 425의 결정이, 유저가 존재하는 정보를 요구하고 있거나 컴퓨터(100)가 액션을 취하기를 요구하고 있는 것인 경우, 방법은 도 4b의 스텝 430으로 진행한다. 예컨대, 유저는 컴퓨터(100)가 다음날의 자신의 약속을 판독하게 하기를 희망할 수 있다. 대신에, 스텝 425의 결정이, 유저 요구에 대응하는 희망하는 기능이 데이터를 부가하거나 생성하는 것인 경우, 방법은 도 4c의 스텝 450으로 진행한다. 예컨대, 유저는 메시지를 기록하거나, 현존하거나 새로운 컨택을 위해 새로운 전화 번호를 입력하거나 하는 것 등을 희망할 수 있다.

그리하여, 도 4b를 참조하면, 스텝 430에서, 요구된 유저 데이터(320)는 인터페이스 프로그램(300)에 의해서 선택되고 검색된다. 도 3과 관련하여 전술한 바와 같이, 적절한 데이터 파일 인터페이스(335)는 인터페이스 프로그램(300)에 의해서 활성화되어 유저 데이터(320)와 상호 작용하고 요구된 정보를 액세스한다. 다르게는, 그러한 인터페이스(335)는 예컨대, 입력/출력(350)을 이용하여 요구된 액션을 수행하도록 채택될 수 있다. 스텝 432에서, 인터페이스 프로그램(300)은 텍스트-투-스피치 엔진(315) 및/또는 자연 언어 합성 요소(330)가 유저 데이터(320)로부터 검색된 정보에 기초하여 구두 응답을 생성하게 하고, 및/또는 희망하는 액션이 일어나게 야기한다. 선택적인 스텝 434에서, 요구된 데이터가 그것을 요구하는 경우, 추가적인 유저 데이터(320)를 요구하거나 원래의 요구를 더욱 명확히 하기 위해 구두 프롬프트가 다시 유저에게 제공된다. 선택적인 스텝 436에서, 유저 응답이 수신되고, 선택적인 스텝 438에서, 응답은 다시 구문분석 및/또는 분석된다. 그러한 선택적인 스텝 434-438은 도 4a의 스텝 410-420과 관련하여 전술한 바와 같이 수행된다는 것은 이해할 수 있을 것이다. 희망하는 기능이 인터페이스 프로그램(300)이 액션(예컨대, 차고 문을 열거나, 팩스를 전송하거나, 문서를 인쇄하거나 하는 등)을 수행하게 하는 것인 경우, 응답이 어떻게든 생성될 수 있을지라도(예컨대, 액션에 성공적으로 수행되었다는 것을 유저에게 통보하는 것), 응답이 필요하지 않을 수 있기 때문에, 그러한 스텝 434-438은 선택적이다는 것을 이해할 수 있을 것이다. 스텝 440에서, 추가의 액션이 필요한지에 대하여 결정이 이루어진다. 그러한 경우, 추가의 유저 데이터(320) 검색을 위해 스텝 430으로 되돌아간다. 추가의 액션이 필요하지 않은 경우, 스텝 442에서, 대화가 종료되거나(예컨대, 유저가 전화를 끊는 경우) 추가의 유저 입력을 대기하기 위해서 스탠바이 모드가 된다.

스텝 425는 특정 액션이 수행되기를 유저가 요구하는 결정에 이를 수 있다. 예컨대, 유저는 전화 호출을 개시하기를 희망할 수 있다. 그러한 실시예에서, 인터페이스 프로그램(300)은 SIP 소프트폰 소프트웨어가 전화 입력 및 출력(302 및 304), 입력/출력(350)(명료성을 위해 도 4b에는 도시 생략) 등에 의해 유저에 의해서 지시된 바와 같은 전화 번호에 전화 통화를 신청하게 할 수 있다. 다른 실시예에서, 유저는 Microsoft® Outlook® 또는 다른 데이터베이스에 상주하는 전화 번호로의 호출을 요구할 수 있다. 그러한 실시예에서, 유저는 프로그램(300)이 특정 이름 또는 컨택 데이터베이스 내의 다른 엔트리를 호출하고, 프로그램(300)이 그 이름이나 그 컨택 데이터베이스 내의 다른 엔트리와 관련된 전화 번호를 SIP 소프트폰이 다이얼링 하게 하는 것을 요구한다. 본 설명은 단일 전화 호출에 관련되는 것이지만, 임의 수의 호출이 신청되거나 접속될 수 있어서, 전화 회의를 허용할 수 있다는 것을 이해해야 한다.

그러한 실시예에서, 호출을 신청할 때, 프로그램(300)은 예컨대, SIP 전화를 이용하여 전화 회의를 개시하여서, 유저 및 한 명 이상의 다른 유저가 동일한 라인에 서로 접속되고, 또한, 구두로 발행 명령을 할 수 있고 프로그램으로부터 정보를 요구하는 능력을 갖는다. 특정 그래머는 프로그램(300)이 정보를 제공하거나 및/또는 특정 활동을 수행하기를 구체적으로 요구할 때까지, 프로그램이 유저 사이의 대화를 조용하게 "청취"하게 할 것이다. 다르게는, 프로그램이 다른 유저로의 호출 또는 복수 유저 사이의 전화 회의를 개시한 직 후, 프로그램(300)은 유저로부터 "접속 해제"한다.

도 4a와 관련하여 전술한 바와 같이, 유저는 그러한 데이터의 검색 또는 특정 액션을 취하기를 단순히 요구하는 대신에 데이터를 부가 또는 생성하기를 희망할 수 있다. 그리하여, 도 4c를 참조하면, 스텝 450에서, 새로운 데이터베이스, 스프레드시트 등의 형태 또는 현존 파일 내의 새로운 엔트리로서의 유저 데이터(320)가 전술한 도 4a와 관련하여 수신된 유저 지시에 따라 선택되거나 생성된다. 스텝 452에서, 구두 프롬프트가 유저에게 제공되어, 유저는 새로운 데이터 또는 지시를 이야기하도록 지시된다. 스텝 454에서, 유저 응답이 수신되고, 스텝 456에서, 응답은 구문분석 및/또는 분석된다. 스텝 458에서, 구두 데이터 또는 필드(오디오 기록의 형태를 취할 수 있는)가 스텝 450에서 생성되거나 선택된 유저 데이터(320)에 부가된다. 선택적인 스텝(460)에서, 필요한 경우, 추가적인 새로운 데이터를 요구하기 위해 구두 프롬프트가 다시 유저에게 제공된다. 선택적인 스텝 462에서, 그러한 데이터는 유저의 구두 응답의 형태로 수신되고, 선택적인 스텝 464에서, 그러한 응답은 구문분석 및/또는 분석된다. 스텝 466에서 추가의 액션이 필요한지에 대한 결정이 이루어진다. 그러한 경우, 방법은 구두 데이터 또는 필드를 유저 데이터(320)에 부가하기 위해서 스텝 458로 되돌아간다. 추가의 조치가 필요한 경우, 스텝 468에서, 대화가 종료하거나, 추가의 유저 입력을 대기하기 위해 스탠바이 모드가 된다. 그러한 프롬프팅 및 유저 발성의 수신은 도 4a 및 도 4b와 관련하여 저술한 바와 같이 일어난다.

도 3과 관련하여 전술한 바와 같이, 인터페이스 프로그램(300)은 성능을 향상시키기 위해서 음성 인식 소프트웨어(310)에 의해서 유저 구두 명령을 인식하는데 사용될 수 있는 단어 및/또는 문구의 전체 어휘의 특정 서브세트로 그래머의 사이즈를 제한한다. 일 실시예에서, 그래머는 유저가 구두 명령을 발하기를 기대하는 특정 문맥으로 한정된다. 그리하여, 도 5를 참조하여, 그러한 문맥 한정을 이용하는 유저 음성 명령을 인식하는 예시적 방법(500)을 이하 기술한다. 스텝 502에서, 유저의 구두 입력이 검출되어 사운드 파일로서 저장된다. 임의의 사운드 파일 포맷은 예컨대, 웨이프 파일(wav file), MP3 파일 등과 같이 실시예와 일관된다는 것을 이해할 수 있을 것이다. 스텝 504에서, 인터페이스 프로그램(300) 및/또는 음성 인식 소프트웨어(310)는 활성(active) 그래머를 이용하여 입력을 인식하려고 시도한다. 활성 그래머는 예컨대, 유저에 의해서 사용되는 하드웨어의 유형, 시간, 날씨 상태, 캘린더 또는 약속 정보, 이전 유저 요구, 유저 구성 세팅 등과 같은 임의의 수 또는 임의 유형의 인자에 기초하여 선택될 수 있다. 활성 그래머의 선택은 전술한 바와 같은 이전의 요구 및/또는 각종 문맥적 인자와 상관 활성 그래머(즉, 현재 요구의 주안점)의 통계적 접근에 의해서 더 강화될 수 있다. 예컨대, 약속과 관련한 요구는 가능한 계속되는 요구가 시간 또는 미팅 장소의 위치(즉, 특정 컨택의 사무실 주소)와 관한 것일 수 있다는 것을 제안할 수 있다. 또한 임의의 수의 그래머는 임의로 주어진 시간에서 활성화 될 수 있다.

스텝 506에서, 유저 입력이 인식되는지에 관한 결정이 이루어진다. 그러한 경우, 방법(500)은 인식 데이터를 처리하기 위해서 스텝 508로 진행한다. 그러한 처리는 예컨대, 요구된 태스크를 수행하고, 유저가 컴퓨터(100) 등에 액세스하는 것을 인정하는 것일 수 있다. 스텝 510에서, 방법(500)은 예컨대, 텍스트-투-스피치 엔진(315)에 의해 유저와 통신한다. 유저의 명령이 인터페이스 프로그램(300) 및/또는 음성 인식 소프트웨어(310)로부터의 구두 응답을 요구하지 않는 경우에는, 스텝 510은 선택적이다. 최종적으로, 스텝 512에서, 유저 입력을 포함하는 사운드 파일은 예컨대, 메모리 공간을 유지하기 위해 삭제된다.

스텝 506의 결정이 유저 입력이 인식되지 않는다는 것이면, 활성 그래머는 스텝 514에서 비활성화된다. 스텝 516에서, 임의의 그래머(예컨대, 스텝 504-506 동안에 활동적이지 않음)가 이용가능한지에 관한 결정이 이루어진다. 그러한 경우, 그러한 그래머는 스텝 518에서 활성화되고, 방법(500)은 유저 입력의 인식을 시도하기 위해서 스텝 504로 되돌아간다. 스텝 516의 판정이, 이용가능한 부가적 그래머가 없다는 것이면, 방법(500)은 스텝 520에서 유저에게 에러를 전송한다. 스텝 520의 에러 전송은 유저가 명령을 반복하게 프롬프트하고, 명령이 나오는 다른 설명 또는 카테고리를 유저가 제공하게 프롬프트하는 등을 포함할 수 있다. 마지막으로, 스텝 522에서, 사운드 파일은 예컨대, 메모리 공간을 유지하기 위해서 삭제된다. 방법(500)은 유저 입력을 인식하기 위해서 임의 횟수로 발생할 수 있다. 예컨대, 스텝 518에서, 방법(500)은 이전에 활성적이지 않았던 모든 그래머를 활성화시킬 필요는 없다. 대신에, 실시예는 유저 입력과의 매치를 제공하는 가장 높은 가능성을 갖도록 하나 이상의 그래머가 지능적으로 선택되는 것을 제공할 수 있다.

인터페이스 프로그램(300) 및/또는 음성 인식 소프트웨어(310)는 유저의 다음 입력을 인식할 가능성을 증가시키기 위해서 유저는 인터페이스 프로그램(300)이 특정 그래머를 활성화시키게 할 수 있다는 것을 이해할 수 있을 것이다. 예컨대, "나의 컨택을 조회"라는 유저 입력은 컨택 자체를 오픈할뿐만 아니라, 유저의 컨택과 관련된 그래머를 오픈하도록 인터페이스 프로그램(300)을 프롬프트할 수 있다. 또한, 일반적인 그래머가 실시예에 의해서 제공될 수 있고, 일반적인 그래머는 유저로부터 수신될 수 있는 가장 공통의 명령을 가질 수 있다. 그러한 방식에서, 유저가 사용하는 문맥과 관련이 없는 명령을 유저가 하는 경우에도, 유저는 인터페이스 프로그램(300)에 의해 이해되는 명령을 가질 수 있다.

유저 입력을 인식하는 방법을 기술하였고, 도 6의 방법은 실시예에 따른 컴퓨터(100)-개시 트랜잭션의 방법의 일례이다. 따라서, 도 6을 참조하면, 스텝 600에서, 유저 데이터(320)가 감시된다. 이해할 수 있는 바와 같이, 유저 데이터(320)의 복수의 인스턴스(instance)는 예컨대, 알람 파일, 약속 데이터베이스, e-메일/스케쥴링 프로그램 파일 등과 같은 인터페이스 프로그램(300)에 의해서 감시될 수 있다. 스텝 605에서, 감시되는 유저 데이터(320)가 액선 항목을 포함하는지에 대한 결정이 이루어진다. 인터페이스 프로그램(300)의 실시예는 예컨대, 데이터베이스 내의 엔트리를 리뷰하고 현재 발생하는 어느 아이템이 액션을 요구하는지를 결정하도록 시스템 클록(340)을 이용하도록 채택된다. 액선 항목이 검출되지 않으면, 인터페이스 프로그램(300)은 스텝 600에서 유저 데이터(300)를 감시를 계속한다. 유저 데이터(320)가 액션 항목을 포함하지 않으면, 인터페이스 프로그램(300)은 스텝 610에서 유저와의 대화를 개시한다. 그러한 개시는 예컨대, 전화기(204) 또는 무선 전화기(208)에 의해서 소프트웨어 컴포넌트가 유저와 컨택하도록 야기하는 인터페이스 프로그램(300)에 의해서 일어난다. 도 2a 내지 도 2c와 관련하여 전술한 임의의 하드웨어 구성은 그러한 기능을 수행할 수 있다.

스텝 615에서, 구두 프롬프트가 유저에게 발해진다. 예컨대, 유저가 자신의 이동 전화기(208)에 응답시, 인터페이스 프로그램(300)은 텍스트-투-스피치 엔진(315)이 액션 아이템과 관련된 진술을 생성하게 야기한다. 보안 점검, 농담과 같은 다른 비-액션 아이템 관련 진술이 그러한 때에 유저에게 이야기될 수 있다. 스텝 620에서, 유저 응답이 수신되고, 스텝 625에서 그 응답은 도 4a 및 도 4b와 관련하여 전술한 바와 같이 구문분석 및/또는 분석된다. 스텝 630에서, 구두 발성에 기초하여 추가의 액션이 필요한지에 대한 결정이 이루어진다. 그러한 경우, 방법은 스텝 615로 되돌아간다. 추가의 액션이 필요하지 않은 경우, 선택적인 스텝 635에서, 인터페이스 프로그램(300)은 예컨대, 데이터베이스 인터페이스(320)가 변경이나 세팅을 저장하고, 알람을 설정하게 하는 등의 유저 요구를 완료하기 위해 유저 데이터(320)에게 이루어질 필요가 있는 임의의 조정을 한다. 그 후, 인터페이스 프로그램(300)은 유저 데이터(320) 감시를 계속하기 위해 스텝 600으로 되돌아간다. 유저는 컴퓨터(100)로부터 접속 해제하거나, 다른 태스크를 수행하기 위해서 접속을 유지할 수 있다는 것은 이해할 수 있을 것이다. 실재, 유저는 예컨대, 도 4a 내지 도 4c와 관련하여 전술한 방법에 따라 처리되는 지시를 발부할 수 있다.

그리하여, 인터페이스 프로그램(300)은 컴퓨터(100)에 저장되거나 액세스가능한 유저 데이터(320)에 대하여 유저로부터의 컨택을 개시하고 수신할 수 있다는 것을 이해할 수 있을 것이다. 일부 실시예에서, 인터페이스 프로그램(300)은 유저가 컴퓨터(100)에 원격 접속하는 경우, 유저에 의해 보이지 않으면서 구동한다는 것은 이해할 수 있을 것이다. 그러나, 유저는 그러한 프로그램(300)이 유저의 선호에 따라 구동하게 하도록 인터페이스 프로그램(300)을 구성 또는 변형할 것이다. 전술한 바와 같이, 당업자는 컴퓨터(100)의 디스플레이 상에 표시하기 위한 유저 인터페이스의 프로그래밍 또는 구성에 친숙할 것이며, 그리하여 그러한 구성은 명료성을 위해 여기에서는 생략한다.

전술한 바와 같이, 실시예에서의 인터페이스 프로그램(300)은 발신 전화 호출을 할 수 있다. 그러한 발신 전화 호출에 의해서, 인터페이스 프로그램(300)은 유저에게 다가오는 약속, 긴급 e-메일 등을 알릴 것이다. 또한, 유저로의 전화 호출이 확립되고 알림이 수행된 직 후, 유저는 추가적인 태스크를 수행하도록 추가적인 정보에 대하여 인터페이스 프로그램(300)을 계속 질의할 수 있다.

아웃바운드(outbound) 호출을 포함하는 다른 실시예는 "폰 브리징(phone bridging)"에 의해 유저 대신에 전화 호출을 신청하고 연결하는 것에 관한 것이다. 전화 브리징에 의해, 유저는 인터페이스 프로그램(300)이 발신 호출을 신청하고 접속하게 지시한다. 원격-액세스 특성상, 전화 브리징은 예컨대, 여행 또는 출근중인 유저에게 이득이 있을 것이다. 다르게는, 유저는 유저가 컴퓨터(100)를 국부적으로 작동하고 있을 때에도, 유저가 넘버를 조회하거나, 전화기를 찾거나 넘버를 다이얼링 할 필요가 없도록 인터페이스 프로그램(300)이 전화 브리지를 갖기를 희망할 것이다. 예컨대, 유저는 마이크로폰에 "존 스미쓰에게 통화"를 말할 수 있고, 인터페이스 프로그램(300)은 전화 브리징 소프트웨어를 자동적으로 개시할 것이다. 그리하여, 유저가 원격 전화 또는 로컬 마이크로폰을 작동하든, 인터페이스 프로그램(300) 소프트웨어는 IP 전화(예컨대, VoIP)를 위해 사용 편이 및 유연한 "프론트 엔드(front end)"를 제공할 것이다. 인터페이스 프로그램(300)으로 및 그것으로부터의 전화 호출이 VoIP 기술을 사용할 수 있기 때문에, 장거니 사용 요금은 매우 낮을 것이고, 또는 심지어 무시할 수 있을 것이고, 그리하여 유저가 제3 자와 통신하게 하는 더욱 경제적인 수단을 제공한다. 경제적인 이유로 인하여, 원격 유저는 다이렉트 다이얼링에 비하여 VoIP 전화 브리징을 특별히 선호할 것이다.

따라서, 도 7은 그러한 실시예가 VoIP를 사용하여 실행될 수 있는 예시적인 소프트웨어 및 하드웨어를 도시하는 다이어그램이다. 그리하여, 실시예에서, 원격 유저(710)는 SIP 서비스 제공자(712A)에 의해 인터페이스 프로그램과 통신한다. 원격 유저(710)가 제3 자와 통신하기를 희망하는 경우, 인터페이스 프로그램(300)은 SIP 서비스 제공자(712B)와 통신하고, SIP 서비스 제공자(712B)는 제3 자(714)와 통신한다. 그러한 통신을 확립하는 방법은 도 8과 관련하여 후술된다. 유저가 인터페이스 프로그램(300)이 접속 해제하도록 지시하는 경우, SIP 서비스 제공자(712A 및 712B)는 유저와 제3 자 사이의 대화를 계속하기 위해서 서로 통신한다. SIP 제공자(712A 및 712B)는 동일한 제공자일 수 있으며, 심지어 하나의 동일한 VoIP 서버일 수 있다.

도 8은 본 발명의 실시예에 따라서 유저를 제3 자에게 연결하는 예시적 방법(800)을 도시하는 흐름도이다. 스텝 802 이전에, 인터페이스 프로그램(300)은 디폴트 모드 등으로 작동될 수 있어서, 유저로부터의 통신 시도를 수용할 수 있다. 스텝 802에서, 유저와의 통신이 확립된다. 그러한 통신은 전술한 바와 같은 임의의 통신 채널에 의할 수 있다. 유저와의 통신 확립의 일부로서, 인터페이스 프로그램은 적절한 하드웨어 입력 및 출력(예컨대, X-라이트(Lite)와 같은 소프트폰과의 가상 오디오 케이블 오디오 장치)으로 전환할 수 있고, 도 3과 관련하여 전술한 바와 같이, 그러한 원격 장치를 위해 유저 프로파일을 정정할 수 있다. 그리하여, 유저 및 인터페이스 프로그램(300)은 통신할 수 있고, 유저는 인터페이스 프로그램(300)이 희망하는 태스크를 수행하게 지시할 수 있다.

스텝 804에서, 유저를 제3 자에게 접속하기 위한 요구가 수신된다. 그러한 요구는 일단 유저와 제3 자가 접속되면, 회의를 유지하는 대신 인터페이스 프로그램이 호출로부터 단락하게 하는 유저로부터의 요구를 포함할 수 있다. 다른 실시예에서, 인터페이스 프로그램은 라인 상에 유지되도록 지시될 수 있다. 마찬가지로, 인터페이스 프로그램(300)은 그러한 정보를 위해 유저를 프롬프트할 수 있다. 다른 실시예에서, 인터페이스 프로그램(300)은 인터페이스 프로그램이 라인 상에 유지되는지 단락되는지를 지시하는 디폴트 세팅 등을 갖는 유저 프로파일을 가질 수 있다. 인터페이스 프로그램(300)이 라인 상에 유지되도록 하는 것은 유저가 호출의 완료시 추가적인 태스크를 수행할 수 있게 그러나, 인터페이스 프로그램(300) 접속 해제는 유저와 제3 자 사이의 신호 품질을 향상시킬 수 있다는 것을 이해할 수 있을 것이다. 유저가 인터페이스 프로그램(300)이 접속 유지되는 것을 희망하지 않는 실시예에서, 인터페이스 프로그램(300)은 소프트폰 등이 걸려오는 호출을 발신 번호로 전달하도록 지시할 수 있다. 그리하여, 두 상대방은 중간에 인터페이스 프로그램(300)을 갖지 않고 SIP 브리지에서 직접 연결된다. 또한, 하나 또는 양쪽의 SIP 제공자는 회의를 주최하도록 지시될 수 있으며(예컨대, 소프트폰으로부터 SIP 브리지로의 명령을 통하여), 그리하여 인터페이스 프로그램(300)을 포함하는 모든 상대방과의 접속을 유지하는 동안에 접속 품질을 향상시킬 수 있다.

스텝 806에서, 인터페이스 프로그램(300)은 유저를 제3 자에게 접속시킨다. 이해할 수 있는 바와 같이, 접속은 전술한 바와 같은 임의의 통신 채널에 의해 이루어질 수 있다. 스텝 808에서, 인터페이스 프로그램(300)이 라인 상에 유지되어야 하는지 접속 해제되어야 하는지에 대하여 결정이 이루어진다. 수신 호출을 발신 번호로 전달하도록 소프트폰 등에게 인터페이스 프로그램(300)이 지시하는 실시예에서, 스텝 808은 선택적일 수 있다. 스텝 808의 결정은 예컨대, 스텝 804와 관련하여 전술한 요구 및/또는 프로파일 정보 등을 이용하여 이루어질 수 있다. 스텝 808의 결정은 인터페이스 프로그램이 라인 상에 유지되지 않아야 한다는 것인 경우, 스텝 814에서 프로그램(300)은 호출로부터 접속 해제되고, 유저와 제3 자가 그들의 대화를 유지하게 한다.

스텝 808에서의 결정이 인터페이스 프로그램(300)이 라인 상에 유지되는 것인 경우, 인터페이스 프로그램(300)은 제3 자가 접속 해제하기를 기다릴 것이다. 일 실시예에서, 음성 인식 소프트웨어(310)는 유저와 제3 자 사이의 대화의 나머지 동안에는 대화를 의도하지 않게 간섭하는 것을 피하기 위해 비활성화된다. 제3 자가 호출로부터 접속 해제된 것을 검출한 경우, 인터페이스 프로그램(300)은 음성 인식 소프트웨어(310)를 재활성화시키고, 스텝 812에서 유저의 명령을 기다리거나 그러한 명령을 유저에게 프롬프트한다. 다른 실시예에서, 인터페이스 프로그램(300)은 대화 동안에 활성 상태를 유지하여, 유저에게 응답할 수 있다. 그러한 실시예는 인터페이스 프로그램(300)이 특정 키워드 등을 인식하도록만 시도하게 할 것이다. 실시예에서, 유저가 호출로부터 접속 해제된 경우, 인터페이스 프로그램(300)은 자신을 비활성화시키거나 이전의 및/또는 디폴트 상태로 되돌아갈 것이다. 그렇게 하는 동안에, 인터페이스 프로그램(300)은, 도 3과 관련하여 기술한 바와 같이, 그러한 상태를 위한 적절한 유저 프로파일(하드웨어 및/또는 소프트웨어 구성 세팅을 포함하는)을 야기할 것이다.

전술한 예시적인 실시예들은 단순히 설명 목적으로 제공된 것이며, 본 발명을 한정하도록 구성된 것이 아니라는 것을 이해해야 한다. 여기에 사용된 용어는 한정을 위한 것이라기보다는 설명 및 예시를 위한 용어이다. 또한, 여기에 기술한 장점 및 목적은 본 발명을 실시하는 각각 및 모든 실시예에 의해서 실현되지 않을 수 있다. 또한, 특정 구조, 컴포넌트 및/또는 실시예를 참조하여 본 발명을 기술하였지만, 본 발명은 여기에 개시된 특정 사항에 한정되도록 의도된 것은 아니다. 오히려, 본 발명은 모든 기능적으로 등가인 구조, 방법까지 확장하며, 첨부된 청구의 범위의 범주 내에 있는 것을 사용할 수 있다. 당업자는 수많은 변형 및 변경이 본 발명의 범주 및 정신을 이탈하지 않고 이루어지게 영향을 끼칠 수 있을 것이다.

Claims

유저와의 제1 통신 채널을 확립하는 단계와;

상대방과의 통신을 가능하게 하기 위해 제2 통신 채널을 확립하게 하는 오디오 유저 요구(audio user request)를 수신하는 단계와;

상기 오디오 유저 요구를 인식하는 단계와;

상기 제2 통신 채널을 확립하는 단계

를 포함하는 통신을 가능하게 하는 방법.
제1항에 있어서, 상기 제1 통신 채널은 상기 유저에 의해서 개시되는 것인 통신을 가능하게 하는 방법.
제1항에 있어서,

상기 제1 통신 채널을 확립하는 단계는 상기 제1 통신 채널의 유형을 결정하는 단계와, 그 유형에 따라 적어도 하나의 입력/출력(Input/Output) 파라미터를 설정하는 단계를 포함하는 것인 통신을 가능하게 하는 방법.
제3항에 있어서,

보안 코드(security code)를 제공하기 위해 상기 유저에게 구두 프롬프트(spoken prompt)를 제공하는 단계와,

상기 유저로부터 입력을 수신하는 단계

를 더 포함하는 것인 통신을 가능하게 하는 방법.
제4항에 있어서, 상기 입력은 구두 응답(spoken response) 또는 DTMF 신호 중 하나인 것인 통신을 가능하게 하는 방법.
제4항에 있어서,

상기 입력이 상기 보안 코드와 매칭되는지 여부를 결정하는 단계와,

상기 입력이 상기 보안 코드와 매칭되지 않는 경우 상기 제1 통신 채널을 종료하는 단계

를 더 포함하는 것인 통신을 가능하게 하는 방법.
제1항에 있어서, 상기 제1 또는 제2 통신 채널은 IP(Internet Protocol) 접속을 통한 음성(voice)에 의한 것인 통신을 가능하게 하는 방법.
제1항에 있어서, 상기 제1 또는 제2 통신 채널은 SIP(Session Initiation Protocol) 표준을 사용하는 것인 통신을 가능하게 하는 방법.
제1항에 있어서, 상기 오디오 유저의 요구는 상기 유저의 음성을 포함하는 것인 통신을 가능하게 하는 방법.
제1항에 있어서, 상기 오디오 유저 요구는 상기 상대방에 관한 정보를 포함하는 것인 통신을 가능하게 하는 방법.
제10항에 있어서, 상기 정보와 상기 상대방의 전화 번호를 관련시키는 단계를 더 포함하는 것인 통신을 가능하게 하는 방법.
제10항에 있어서, 상기 정보는 상기 제2 통신 채널에 관계되는 것인 통신을 가능하게 하는 방법.
제10항에 있어서, 상기 관련시키는 단계는 유저 프로파일(user profile)에 액세스하기 위해 상기 정보를 사용하는 것인 통신을 가능하게 하는 방법.
제1항에 있어서, 상기 제2 통신 채널이 확립된 직후, 상기 제1 및 상기 제2 통신 채널로부터 접속을 해제하는 단계를 더 포함하는 것인 통신을 가능하게 하는 방법.
제14항에 있어서, 상기 제1 및 제2 통신 채널은 상기 유저와 상기 상대방 사이의 통신을 가능하게 하는 것인 통신을 가능하게 하는 방법.
제15항에 있어서, 상기 제1 및 제2 통신 채널은 적어도 하나의 SIP 서비스 제공자에 의해 조장되는 것인 통신을 가능하게 하는 방법.
제1항에 있어서, 상기 제2 통신 채널이 확립된 직후, 활성 상태(active state)로부터 비활성 상태(inactive state)로 진입하는 단계를 더 포함하는 것인 통신을 가능하게 하는 방법.
제17항에 있어서, 상기 제2 통신 채널의 종료를 검출하는 단계를 더 포함하는 것인 통신을 가능하게 하는 방법.
제18항에 있어서, 상기 활성 상태로 재진입하는 단계를 더 포함하는 것인 통신을 가능하게 하는 방법.
제19항에 있어서,

상기 오디오 유저 요구는 제1 요구이며,

제2 오디오 유저 요구를 수신하는 단계를 더 포함하는 것인 통신을 가능하게 하는 방법.
제1항에 있어서,

상기 제1 통신 채널의 종료를 검출하는 단계와,

비활성 상태로 진입하는 단계를 더 포함하는 것인 통신을 가능하게 하는 방법.
제1항에 있어서, 상기 오디오 유저 요구는 상기 제2 통신 채널이 종료하는 직후, 활성 상태를 유지하도록 하는 지시를 포함하는 것인 통신을 가능하게 하는 방법.
전화 호출에 접속하는 방법을 실행하기 위한 컴퓨터 실행가능 지시를 갖는 컴퓨터 판독가능 매체로서, 상기 방법은,

유저와의 제1 통신 채널을 확립하는 단계와;

상대방과의 통신을 가능하게 하기 위해 제2 통신 채널을 확립하게 하는 오디오 유저 요구(audio user request)를 수신하는 단계와;

상기 오디오 유저 요구를 인식하는 단계와,

상기 제2 통신 채널을 확립하는 단계

를 포함하는 것인 컴퓨터 판독가능 매체.
컴퓨터와 유저 통신 장치 사이의 통신 채널을 확립하는 단계와;

오디오 요구를 갖는 유저 입력을 검출하고 그 오디오 요구를 저장하는 단계와;

유저 프로파일을 액세스하고, 상기 유저 프로파일에 기초하여 제1 그래 머(grammar)를 선택하는 단계와;

활성 상태인 상기 제1 그래머를 사용하여, 상기 오디오 요구 인식을 시도하는 단계와;

상기 오디오 요구가 인식되지 않은 경우, 상기 제1 그래머를 비활성화시키고, 제2 그래머를 활성화시키며, 상기 제2 그래머를 사용하여 상기 오디오 요구 인식을 시도하는 단계

를 포함하는 것인 오디오 요구를 인식하는 방법.
제24항에 있어서, 상기 유저 프로파일은 유저 특성(user characteristic)을 사용하여 선택되는 것인 오디오 요구를 인식하는 방법.
제24항에 있어서, 상기 유저 프로파일을 갱신하는 단계를 더 포함하는 것인 오디오 요구를 인식하는 방법.
제26항에 있어서, 상기 갱신하는 단계는 상기 오디오 요구에 기초하는 것인 오디오 요구를 인식하는 방법.
제26항에 있어서, 상기 갱신하는 단계는 입력 소스로부터의 정보에 기초하는 것인 오디오 요구를 인식하는 방법.
제26항에 있어서, 상기 갱신하는 단계는 이용가능한 데이터 내의 변화에 기초하는 것인 오디오 요구를 인식하는 방법.
제25항에 있어서, 상기 유저 특성은 유저 식별(identity)인 것인 오디오 요구를 인식하는 방법.
제25항에 있어서, 상기 유저 특성은 유저 통신 장치 유형인 것인 오디오 요구를 인식하는 방법.
제25항에 있어서, 상기 유저 특성은 통신 채널 유형인 것인 오디오 요구를 인식하는 방법.
제24항에 있어서,

상기 확립 단계는 통신 채널 유형을 결정하기 위해 상기 유저 프로파일에 액세스하는 단계와, 상기 유저 프로파일에 기초하여 파라미터를 설정하는 단계를 포함하는 것인 오디오 요구를 인식하는 방법.
제33항에 있어서, 상기 파라미터는 입력 설정 또는 출력 설정인 것인 오디오 요구를 인식하는 방법.
제33항에 있어서, 상기 입력 설정 또는 출력 설정은 상기 유저 통신 장치와의 통신이 가능하게 하는 것인 오디오 요구를 인식하는 방법.
제33항에 있어서, 상기 통신 채널 유형은 상기 유저 통신 장치에 기초하여 결정되는 것인 오디오 요구를 인식하는 방법.
제33항에 있어서, 상기 파라미터는 상기 오디오 요구의 인식을 향상시키도록 설정되는 것인 오디오 요구를 인식하는 방법.
제24항에 있어서, 상기 제1 그래머 및 제2 그래머는 복수의 가능한 오디오 요구를 갖는 전체 어휘의 서브세트(subset)인 것인 오디오 요구를 인식하는 방법.
제24항에 있어서, 상기 오디오 요구를 인식하는 단계는 상기 오디오 요구를 상기 제1 그래머 및 제2 그래머 내에 포함된 가능한 오디오 요구와 매칭시키는 단계를 포함하는 것인 오디오 요구를 인식하는 방법.
제24항에 있어서,

상기 유저 프로파일에 기초하여 상기 제1 그래머를 선택하는 단계는, 상기 오디오 입력 인식이 이루어지는 문맥(context)을 결정하기 위해서 상기 유저 프로파일을 액세스하는 단계와, 상기 문맥에 기초하여 상기 유저 프로파일을 선택하는 단계를 더 포함하는 것인 오디오 요구를 인식하는 방법.
제40항에 있어서, 상기 문맥은 유저-희망 태스크(task)와 관련된 것인 오디오 요구를 인식하는 방법.
제40항에 있어서, 상기 문맥은 유저 식별과 관련된 것인 오디오 요구를 인식하는 방법.
제40항에 있어서, 상기 문맥은 유저 통신 장치 유형과 관련된 것인 오디오 요구를 인식하는 방법.
제24항에 있어서, 상기 오디오 요구는 ".mp3" 또는 ".wav file" 중 하나로서 저장되는 것인 오디오 요구를 인식하는 방법.
제24항에 있어서, 상기 오디오 요구가 인식되는 경우, 상기 오디오 요구를 처리하는 단계를 더 포함하는 것인 오디오 요구를 인식하는 방법.
제45항에 있어서, 상기 저장된 오디오 요구를 삭제하는 단계를 더 포함하는 것인 오디오 요구를 인식하는 방법.
제45항에 있어서, 상기 오디오 요구를 처리하는 단계는 상기 오디오 요구에 관련된 태스크를 수행하는 단계를 포함하는 것인 오디오 요구를 인식하는 방법.
제45항에 있어서, 상기 유저와 통신하는 단계를 더 포함하는 것인 오디오 요구를 인식하는 방법.
제48항에 있어서, 상기 통신은 구두 출력(spoken output)에 의한 것인 오디오 요구를 인식하는 방법.
제24항에 있어서, 상기 오디오 요구가 상기 제2 그래머에 의해 인식되지 않은 경우, 상기 제2 그래머를 비활성화시키는 단계를 더 포함하는 것인 오디오 요구를 인식하는 방법.
제50항에 있어서,

제3 그래머가 이용가능한지를 결정하는 단계와,

상기 제3 그래머가 이용가능하지 않은 경우 상기 유저에게 구두 에러 메시지를 전송하는 단계를 더 포함하는 것인 오디오 요구를 인식하는 방법.
제24항에 있어서, 상기 통신 채널은 VoIP(voice over internet protocol) 접속인 것인 오디오 요구를 인식하는 방법.
오디오 명령을 인식하기 위한 컴퓨터 실행가능 지시를 갖는 컴퓨터 판독가능 매체로서, 상기 방법은,

컴퓨터와 유저 통신 장치 사이의 통신 채널을 확립하는 단계와;

오디오 요구를 갖는 유저 입력을 검출하고, 그 오디오 요구를 저장하는 단계와;

유저 프로파일을 액세스하고, 상기 유저 프로파일에 기초하여 제1 그래머를 선택하는 단계와;

활성화 상태인 상기 제1 그래머를 사용하여 상기 오디오 요구 인식을 시도하는 단계와;

상기 오디오 요구가 인식되지 않은 경우, 상기 제1 그래머를 비활성화시키고, 제2 그래머를 활성화시키며, 상기 제2 그래머를 사용하여 상기 오디오 요구 인식을 시도하는 단계

를 포함하는 컴퓨터 판독가능 기록 매체.
컴퓨터에의 액세스를 제공하는 시스템으로서,

통신 채널과 관련된 유형을 결정하고, 상기 채널 유형에 따라 적어도 하나의 입력/출력 파라미터를 설정하며, 상기 컴퓨터와 원격 통신 장치 사이의 상기 통신을 확립하는 통신 요소와;

오디오 입력을 수신하고, 그 입력을 디지털 형태로 변환하는 사운드 인식 요 소와;

텍스트 데이터(textual data)를 구두 형태(spoken form)로 변환하는 텍스트-투-보이스(text-to-voice) 요소와;

저장된 데이터를 갖는 파일과 상호작용하는 파일 인터페이스와;

인터페이스 프로그램

을 포함하며,

상기 인터페이스 프로그램은 상기 통신 채널에 의해 상기 입력을 수신하고, 상기 음성 인식 컴포넌트가 희망하는 기능을 결정하기 위해서 상기 입력을 변환하게 하고, 요소가 상기 희망하는 기능을 수행하게 하도록 채택되는 것인 컴퓨터에 액세스를 제공하는 시스템.
제54항에 있어서,

상기 인터페이스 프로그램은 상기 파일 인터페이스가 상기 희망하는 기능에 따라 상기 파일과 상호작용하게 하고, 상기 텍스트-투-보이스 요소가 구두 형태로 상기 희망하는 기능의 결과를 상기 원격 통신 장치에 제공하게 하도록 추가로 채택되는 것인 컴퓨터에 액세스를 제공하는 시스템.
제54항에 있어서,

상기 통신 채널은 이동 전화기, 무선 전화기, 유선 전화기, 스피커폰, 전화 소프트웨어를 갖는 제2 컴퓨터, VoIP 전화, 소프트폰(softphone), 또는 인스턴트 메시지 소프트웨어(instant messaging software)를 갖는 제2 컴퓨터 중 하나에 의해서 원격 통신 장치에서 확립되는 것인 컴퓨터에 액세스를 제공하는 시스템.
제54항에 있어서, 상기 통신 채널은 PSTN 네트워크, 셀룰러 네트워크, VoIP 네트워크, SIP 서비스 제공자 또는 무선 네트워크 중 하나에 의해서 확립되는 것인 컴퓨터에 액세스를 제공하는 시스템.
제57항에 있어서, 상기 통신 채널은 복수의 네트워크에 의해서 확립되는 것인 컴퓨터에 액세스를 제공하는 시스템.
제54항에 있어서, 상기 사운드 인식 요소는 음성 인식 모듈인 것인 컴퓨터에 액세스를 제공하는 시스템.
제54항에 있어서, 상기 사운드 인식 컴포넌트는 DTMF 디코더인 것인 컴퓨터에 액세스를 제공하는 시스템.
제54항에 있어서, 상기 사운드 인식 요소, 텍스트-투-보이스 요소 및 파일 인터페이스 요소는 애플리케이션 프로그램 인터페이스인 것인 컴퓨터에 액세스를 제공하는 시스템.
제54항에 있어서,

상기 사운드 인식 요소, 텍스트-투-보이스 요소 및 파일 인터페이스 요소는 소프트웨어 애플리케이션인 것인 컴퓨터에 액세스를 제공하는 시스템.
제54항에 있어서, 상기 파일은 스프레드시트(spreadsheet), e-메일 서버, e-메일 클라이언트, 데이터베이스, 모니터, 센서, 워드 프로세싱 파일, 또는 기업 애플리케이션 데이터 중 하나인 것인 컴퓨터에 액세스를 제공하는 시스템.