KR101881985B1

KR101881985B1 - 컨텍스트에 기초한 음성 인식 문법 선택

Info

Publication number: KR101881985B1
Application number: KR1020177018264A
Authority: KR
Inventors: 데이비드 피. 싱글톤; 데바지트 고쉬
Original assignee: 구글 엘엘씨
Priority date: 2008-03-07
Filing date: 2009-03-06
Publication date: 2018-08-24
Also published as: KR20150097816A; CN102016502A; US8255224B2; US20140195234A1; US20090228281A1; EP2260264A4; CN107331389B; KR20180043405A; US20200043472A1; KR20100126796A; CN107331389A; US8527279B2; US20230112412A1; WO2009111721A3; US20170092267A1; JP2011513795A; US10510338B2; KR101758302B1; WO2009111721A2; KR101605147B1

Abstract

본 발명의 주제는, 특히 제 1 컴퓨팅 디바이스와 연관되는 비-음성적 사용자 행동으로부터 얻어지는 지리 정보를 수신하는 단계를 포함하는 방법으로 구체화될 수 있다. 이 비-음성적 사용자 행동은 지리 위치 내 사용자의 관심을 내포한다. 또한, 이 방법은 얻어진 지리 정보를 사용하여 지리 위치와 연관된 문법을 식별하는 단계와, 사용자로부터의 음성 입력을 음성 인식 처리하기 위한 식별된 문법을 선택하는데 이용하기 위한 문법 지시자를 출력하는 단계를 포함한다.

Description

컨텍스트에 기초한 음성 인식 문법 선택{VOICE RECOGNITION GRAMMAR SELECTION BASED ON CONTEXT}

본 명세서는 음성 인식에 관한 것이다.

다중 모드(multimodal) 애플리케이션은 입력의 다양한 타입, 또는 모드를 수용할 수 있다. 예를 들면, 다중 모드 애플리케이션은 타이프된 명령어 또는 마우스 클릭과 같은 사용자로부터 입력을 수용할 수 있고, 다른 한편으로는 다중 모드 애플리케이션은 음성 입력과 같은 다른 형태의 입력을 또한 수용할 수 있다. 음성 인식 시스템은 특정 어휘를 포함하는 문법(grammar)을 사용하여 음성 입력을 해석할 수 있다.

일부 다중 모드 애플리케이션은 한 애플리케이션의 다른 입력 필드들이 다른 문법들과 연관되는 양식-기입 모델(form-filling model)을 구현한다. 예를 들어, 다중 모드 애플리케이션은 성명들의 어휘를 포함하는 "성명" 문법을, 개인의 성명을 수용하는 "성명" 필드에 연관시킬 수 있다. 한 개인이 자신의 마우스로 "성명" 필드를 선택하면, 다중 모드 애플리케이션은 "성명" 필드에 연관된 "성명" 문법을 선택할 수 있다.

일반적으로, 본 명세서는 음성 인식에서 사용하기 위한 문법을 선택하는 방법을 설명하며, 이 문법은 하나 이상의 사용자 행동에 기초한 함축적 컨텍스트 정보(implicit context information)에 기초하여 선택된다.

제 1 전형적 양태에서는, 컴퓨터 구현 방법이 설명된다. 이 방법은 제 1 컴퓨팅 디바이스와 연관된 비-언어적 사용자 행동(non-verbal user action)으로부터 얻어지는 지리 정보(geographical information)를 수신한다. 비-언어적 사용자 행동은 지리 위치(geographic location)내에서 사용자의 관심을 내포한다. 또한, 이 방법은 얻어진 지리 정보를 사용하여 지리 위치와 연관되는 문법을 식별하는 단계와, 식별된 문법을 사용자로부터의 음성 입력을 음성 인식 처리하기 위하여 선택하는데 사용하기 위한 문법 지시자(grammar indicator)를 출력하는 단계를 포함한다.

제 2 전형적 양태에서는, 컴퓨팅 디바이스에 연관되는 사용자 행동에 기초한 컨텍스트 정보(context information)를 수신하는 단계 - 여기서, 상기 사용자 행동은 음성 인식 프로세서에 의해 입력 촉구되지 않음(unprompted) - 를 포함하는 컴퓨터 구현 방법이 설명된다. 이 방법은 컨텍스트 정보에 기초하여 지리 위치를 얻어내는 단계, 그 지리 위치에 연관된 문법을 식별하는 단계, 및 사용자로부터의 음성 입력을 처리하는데 사용할 문법을 선택하는데 사용하기 위한 문법 식별자(grammar identifier)를 출력하는 단계를 포함한다.

다른 전형적 양태에서는, 시스템이 설명된다. 이 시스템은 제 1 컴퓨팅 디바이스와 연관된 비-언어적 사용자 행동에 기초한 컨텍스트 정보를 수신하는 인터페이스를 포함한다. 비-언어적 사용자 행동은 지리면에서 사용자의 관심을 내포한다. 또한, 시스템은 수신된 컨텍스트 정보로부터 얻어진 지리 위치와 연관된 문법을 식별하는 수단과, 식별된 문법을 사용자로부터 수신된 음성 입력을 해석하기 위해 사용하도록 구성된 음성 인식 서버를 포함한다.

본 명세서에서 설명된 시스템들과 기술들은 하나 이상의 후술하는 이점을 제공할 수 있다. 첫째, 시스템은 광범위한 일반 문법(larger general grammar)을 사용하는 것 대신에 문법의 적절한 부분 집합(an appropriate subset of grammars)을 식별함으로써 음성 입력이 인식되는 속도를 증가시킬 수 있다. 부가적으로, 문법의 부분 집합을 선택함으로써, 그 부분 집합과 연관된 특정 컨텍스트 내에 주어진 음성 명령에 대한 음성 인식의 정확도를 향상시킬 수 있다. 또한, 이 시스템은 음성 인식 프로세스 내에서 사용자 상호 작용의 양을 감소시킬 수 있다. 이에 더하여, 부가적 문법 또는 새로운 문법들은 사용자에게 투명한 방식(예를 들어, 음성 인식 시스템에 의한 입력 촉구에 대한, 명시적인 사용자 응답에 기초하는 것 대신에 소프트웨어 애플리케이션과의 사용자 상호 작용에 기초함)으로 선택될 수 있다.

하나 이상의 실시형태는 첨부 도면과 아래의 상세한 설명에 상세히 기재된다. 다른 특징과 이점은 상세한 설명과 도면, 및 청구항으로부터 명백하게 된다.

본 명세서는 언어 인식(speech recognition)에서 사용할 문법을 선택하는 시스템과 기술들을 설명한다. 보다 구체적으로, 애플리케이션은 사용자가 애플리케이션을 실행하고 있는 디바이스와 상호 작용하는 정도에 기초하여 컨텍스트 정보를 생성할 수 있다. 디바이스는 컨텍스트 정보를 음성 인식 시스템으로 전송할 수 있다. 음성 인식 시스템은 그 컨텍스트 정보와 연관되는 특정 문법을 식별할 수 있고, 후속적으로 디바이스로부터 수신된 음성 입력(예를 들어, 디바이스 사용자로부터의 음성 명령)의 오디오 인식에서 그 식별된 문법을 사용할 수 있다.

도 1은 컴퓨터 구현 음성 인식에 사용되는 문법을 선택하는 예시적 시스템의 다이어그램이다.
도 2는 음성 인식을 위한 문법의 선택에 사용되는 예시적 오디오 처리 시스템과 예시적 클라이언트의 다이어그램이다.
도 3은 컨텍스트 정보에 기초하여 문법을 선택하는 예시적 방법의 플로우차트이다.
도 4는 오디오 처리 시스템과 상호 작용하는 클라이언트를 위한 사용자 인터페이스의 예시적 스크린샷을 도시한다.
도 5는 설명된 시스템과 방법을 구현하기 위해 사용될 수 있는 컴퓨팅 디바이스의 블록도이다.
여러 도면에서의 유사한 참조 번호는 유사한 구성요소를 지시한다.

일부 구현예에서, 컨텍스트 정보는 지리 정보를 포함한다. 사용자가 셀룰러 폰 상의 모바일 브라우저를 사용하여 지도를 보는 경우에는, 셀룰러 폰은 지도에 의해 디스플레이되는 지리 위치에 대한 정보를 음성 인식 시스템으로 전송할 수 있다. 이 음성 인식 시스템은 수신된 정보에 기초하여 지리 위치를 식별할 수 있고, 이 지리 위치에 연관된 단어들의 어휘(vocabulary of words), 구문(syntax) 등을 포함하는 문법을 선택할 수 있다. 이어서, 음성 인식 시스템은 셀룰러 폰으로부터 수신된 음성 입력을 그 선택된 문법을 사용하여 해석할 수 있다.

사용자는 자신과 연관(예를 들어, 사용자에게 할당된 쿠키와 같은 고유 식별자를 통함)된 디바이스가 음성 인식 시스템과 컨텍스트 정보를 공유하도록 허용하는 것을 선택할 수 있다. 사용자가 컨텍스트 정보 공유를 선택하지 않으면, 음성 인식 시스템은 기본 문법(default grammar)을 사용하거나, 또는 음성 인식 처리에서 사용할 특정 문법을 선택하는데 사용하기 위한 지리 또는 그 밖의 컨텍스트 정보에 대하여 사용자에게 명시적으로 입력 촉구할 수 있다.

도 1은 컴퓨터 구현 음성 인식에 사용되는 문법을 선택하는 예시적 시스템(100)의 다이어그램이다. 일부 구현예에서, 예시적 시스템(100)은 사용자 행동의 결과로서 생성되는 함축적 컨텍스트 정보에 기초하여 문법을 선택한다. 시스템(100)은 클라이언트 디바이스(102), 문법 선택 서버(104), 및 음성 인식 서버(106)를 포함한다.

도 1의 구현예에서, 클라이언트 디바이스(102)는 컨텍스트 정보를 문법 선택 서버(104)로 전송하고, 그 문법 선택 서버(14)는 컨텍스트 정보를 사용하여 문법을 선택한다. 문법 선택 서버는 선택된 문법에 대한 정보를 음성 인식 서버(106)로 전송하고, 음성 인식 서버(106)는 클라이언트 디바이스(102)로부터 수신된 오디오 입력을 해석하는데 그 선택된 문법을 사용한다.

예를 들면, 클라이언트 디바이스(102)는 모바일 브라우저(108)를 실행하고 있는 셀룰러 폰 일 수 있다. 사용자는 모바일 브라우저에 "ice huts"를 판매하는 상점을 식별하기 위한 탐색을 입력할 수 있다. 브라우저는 캐나다, 북 및 남 다코타, 및 미네소타에 있는 관련 상점을 보여주는 지도를 디스플레이할 수 있다. 사용자는, 우편 번호와 같은 위치 식별자(location identifier)를 미리 입력했을 수 있으며, 그 위치 식별자는 지도상에 나타낼 위치를 식별하기 위하여 브라우저에 의해 사용된다. 사용자는 이전 세션에서 위치 식별자를 입력할 수 있고, 브라우저는 입력된 식별자를 후속 세션에서 사용을 위하여 저장할 수 있다(예를 들어, 위치 식별자는 클라이언트 디바이스 상에 쿠키로서 저장될 수 있음).

다른 구현예에서, 셀룰러 폰은 모바일 브라우저(108) 대신에 전용 애플리케이션(108)을 실행할 수 있다. 예를 들어, 전용 애플리케이션(108)은 웹 페이지의 브라우징을 할 수 없지만, 온라인 지도 애플리케이션과 같은 특정 원격 애플리케이션과 인터페이스하도록 구성될 수 있다.

셀룰러 폰(102) 상에서 실행중인 모바일 브라우저 또는 다른 애플리케이션은, "1"로 라벨이 부여된 화살표로 지시되는 것처럼, 함축적 지리 정보(114)를 문법 선택 서버로 전송한다. 일부 구현예에서, 컨텍스트 정보는 모바일 브라우저(108)에 의해 디스플레이되는 지도에 기초하는 함축적 지리 정보(114)를 포함한다. 예를 들어, 함축적 지리 정보(114)는 디스플레이된 지도의 중심을 식별하는 좌표를 포함할 수 있다. 이 실시예에서, 지도의 중심은 미네소타의 중심부와 일치한다.

문법 선택 서버(104)는 수신된 컨텍스트 정보에 기초하여 문법을 선택(116)할 수 있다. 일부 구현예에서, 컨텍스트 정보가 지리 정보(114)를 포함하면, 문법 선택 서버는 지리 위치와 연관되는 문법(112)을 식별하는 데이터 저장소(110)를 액세스할 수 있다. 특정 문법은 특정 지리 위치와 연관될 수 있다.

각 문법(112)은 상응하는 지리 위치에 연관된 어휘에 상응하는 어휘를 포함할 수 있다. 예를 들어, 미네소타주의 미네아폴리스와 연관되는 문법은 미네아폴리스에 연관되어 위치되거나 발생하는 상점, 관심 지역(points of interest), 이벤트, 뉴스 등을 설명하는 단어 또는 구(phrase)를 포함할 수 있다.

도 1에서, 함축적 지리 정보(114)는 미네소타의 중심부에 배치된 위치에 대한 좌표를 포함한다. 문법 선택 서버는 미네소타의 중심부에 가장 근접한 위치에 고착되거나 중심이 있는 문법을 식별한다. 문법 선택 서버는 "2A"와 "2B"로 라벨이 부여된 화살표로 지시된 것처럼, 문법을 식별하는 정보(118)를 생성할 수 있다.

이어서, 일부 구현예에서, 문법 선택 서버(104)는 "3"으로 라벨이 부여된 화살표로 지시된 것처럼, 식별된 문법 정보(118)를 음성 인식 서버(106)에 전송한다.

사용자는 셀룰러 폰(102)에 말할 수 있고, 셀룰러 폰은, "4"로 라벨이 부여된 화살표로 지시된 것처럼, 음성 입력(120)을 음성 인식 서버(106)로 전송한다. 음성 인식 서버(106)는 문법 선택 서버(104)에 의해 식별된 문법을 사용하여 음성 입력(120)을 해석할 수 있다.

음성 인식 서버(106)는 음성 입력에 기초하여 하나 이상의 동작을 수행한다. 일부 구현예에서, 음성 인식 서버(106)는, "5"로 라벨이 부여된 화살표로 지시된 것처럼, 음성 입력에 기초한 응답을 셀룰러 폰(102)에 되돌려준다. 예를 들어, 셀룰러 폰(12)의 사용자는 "Pual Bunyan"에 대한 신규 탐색을 청취가능하게(audibly) 요청할 수 있다. 셀룰러 폰(102)은 음성 탐색 요청을 음성 인식 서버(106)로 전송할 수 있다. 모바일 브라우저(108) 상에서 현재 사용자가 보고 있는(또는 이미 본) 지도가 미네소타를 중심으로 하고 있기 때문에, 음성 인식 서버(106)는 미네소타의 중심에 근접한 위치에 고착되거나 중심이 있는 문법을 사용한다. 음성 인식 서버(106)는 음성 입력 "Pual Bunyan"에 상응하는 음향, 단어, 구를 탐색하기 위하여 이 문법을 사용한다. 일부 구현예에서, 미네소타 내 또는 근접 지역에 고착된 문법은 성명 "Pual Bunyan"을 해석하기 위해 사용되는 정보를 포함할 수 있는데, 이 용어가 세계의 다른 부분과 비교하여 미네소타에 연관된 정보에 더욱 빈번하게 연관되기 때문이다.

음성 인식 서버(106)는 셀룰러 폰(102)으로부터의 음성 입력에 상응하는 텍스트 "Pual Bunyan"을 전송할 수 있다. 셀룰러 폰(102)은 수신된 텍스트를 모바일 브라우저(108) 상에 디스플레이할 수 있다. 만약 사용자가 음성 인식 서버(106)에 의해 수행된 번역을 승인하면, 브라우저는 탐색 용어로서 텍스트 "Pual Bunyan"을 탐색 엔진에 제출함으로써 새로운 탐색을 개시한다. 다른 구현예에서, 음성 인식 서버(106)는 셀룰러 폰(102)의 사용자로부터의 승인없이 용어 "Pual Bunyan"을 사용하여 탐색을 개시할 수 있다. 음성 인식 서버(106)는 음성 입력으로부터 인식된 텍스트를 셀룰러 폰(102)에 미리 전송하지 않고, 탐색으로부터의 결과를 셀룰러 폰(102)에 전송할 수 있다.

도 1의 라벨이 부여된 화살표는 시스템(100)에서 발생하는 이벤트의 예시적 시퀀스를 나타낸다. 그러나, 이벤트의 발생은 도시된 시퀀스로 제한되지 않는다. 예를 들어, 시퀀스에서 하나 이상의 단계가 병렬적으로 발생할 수 있다.

도 2는 음성 인식을 위한 문법의 선택에 사용되는 예시적 클라이언트(200)와 예시적 오디오 처리 시스템(202)의 다이어그램이다. 클라이언트(200)와 오디오 처리 시스템(202)은, 일부 구현예에서 인터넷과 셀룰러 네트워크를 포함할 수 있는 네트워크(204)를 사용하여 통신할 수 있다. 클라이언트(200)는, 애플리케이션 환경(208)을 포함하는 셀룰러 폰 또는 그 밖의 다른 모바일 디바이스(206)를 포함할 수 있다. 애플리케이션 환경(208)은 인터넷 브라우저(210), 마이크로폰 인터페이스(212), 및 GPS 트랜스시버 인터페이스(214)를 포함할 수 있다. 오디오 처리 시스템(202)은 클라이언트(200)와 오디오 처리 시스템(202) 사이의 인터페이스로서 기능하는 다중 모드 서버(216), 문법 선택 서버(218), 및 음성 인식 서버(220)를 포함할 수 있다.

애플리케이션 환경(208) 내 애플리케이션은 지리 컨텍스트 정보(222)를 생성 또는 식별하고, 그 정보를 다중 모드 서버(216)에 전송할 수 있다. 예를 들어, GPS 트랜스시버 인터페이스(214)는 셀 폰(206)의 위치에 기초하여 GPS 트랜스시버로부터 GPS 좌표를 수신할 수 있다. GPS 트랜스시버 인터페이스(214)는 GPS 좌표 정보를 다중 모드 서버(216)에 전송할 수 있다.

일부 구현예에서, GPS 좌표 정보는 브라우저(210)에 의해 다중 모드 서버(216)에 제출되는 HTTP(Hypertext Transport Protocol) POST 명령에 포함되는 URI(Uniform Resource Identifier)의 일부로서 부가될 수 있다. 브라우저가 아닌 애플리케이션을 사용하는 다른 구현예에서는, 애플리케이션이 HTTP GET 명령을 생성할 수 있고, 이 명령어 내 URI는 GPS 좌표 정보(또는 다른 컨텍스트 정보)를 포함한다. 다른 구현예에서는, GPS 좌표 또는 다른 컨텍스트 정보가 URI 내에 부가되지 않지만, 그 대신에 HTTP 요청(예를 들어, GET 또는 POST)의 본문 내에 2진 정보로서 포함된다.

다른 실시예에서, 브라우저(210)는 브라우저(210)에 의해 디스플레이되는 아이템에 대한 지리 컨텍스트 정보를 전송할 수 있다. 예를 들어, 사용자가 버뮤다 섬의 여러가지 언급(mention)이 포함된 웹 페이지를 본다면, 브라우저(210)는 버뮤다 섬을 명시하는 지리 컨텍스트 정보를 전송할 수 있다.

다중 모드 서버(216)는 그 지리 컨텍스트 정보(222)를 수신하고, 그 정보를 문법 선택 서버(218)로 전달할 수 있다. 문법 선택 서버(218)는 역 지리코더(224; reverse geocoder)를 포함할 수 있고, 그 역 지리코더는 위치를 식별하기 위하여 지리 컨텍스트 정보(222)를 사용한다. 예를 들어, 지리 컨텍스트 정보(222)가 GPS 좌표를 포함하면, 역 지리코더(224)는 좌표와 지리 위치 간의 저장된 매핑을 사용하여 GPS 좌표에 상응하는 위치를 판단할 수 있다.

일부 구현예에서, 문법 선택 서버는 특정 문법들과 특정 지역들을 연관짓는 문법 인덱스(226)를 포함한다. 예를 들어, 문법 인덱스(226)는 "버뮤다 섬" 위치를 그 위치와 연관되는 어휘, 구문 등을 포함하는 머뮤다 문법과 연관짓는다.

문법 선택 서버(218)는 문법 인덱스(226)를 사용하는 문법을, 역 지리코더(224)에 의해 식별된 위치와 연관된 문법을 식별함으로써 선택한다. 문법 인덱스는 문법 ID를 사용하여 문법 각각을 식별할 수 있다.

문법 선택 서버(218)는 선택된 문법 ID(228)를 다중 모드 서버(216)에 전송하고, 이어 다중 모드 서버(216)는 문법 ID(228)를 음성 인식 시스템에 전송할 수 있다. 도 2에 도시되지 않은 다른 구현예에서, 역 지리코더(224)는 식별된 위치에 가장 근접한 위치와 연관된 문법을 식별하여 반환하고, 그 문법에 대한 선택된 문법 ID(228)를 다중 모드 서버(216)에 전송할 수 있다.

음성 인식 시스템은 후속 오디오 처리에 사용하기 위해 식별된 문법을 로드하는데 그 문법 ID를 사용할 수 있다. 예를 들어, 음성 인식 서버는 문법에 대한 요청(232)을 데이터 저장소(230)에 전송할 수 있으며, 그 요청(232)은 문법 ID(228)을 포함한다. 데이터 저장소는 문법 ID(228)에 의해 명시된 문법(228)을 반환할 수 있다.

음성 인식 서버는 후속해서 셀룰러 폰(206)으로부터 수신된 오디오를 해석하기 위하여 문법(234)을 사용할 수 있다. 예를 들어, 사용자는 탐색 용어를 말할 수 있고, 그 탐색 용어는 셀룰러 폰(206) 내에 있는 마이크로폰을 통해 수신된다. 마이크로폰 인터페이스(212)는 마이크로폰으로부터의 오디오(236)를 다중 모드 서버(216)에 전송할 수 있다.

다중 모드 서버(216)는 오디오(236)를 음성 인식 서버(220)에 전송하고, 음성 인식 서버(220)는 오디오(236)를 해석하기 위하여 오디오 디코더(238)를 사용할 수 있다. 예를 들어, 오디오 디코더(238)는 오디오(236)를 텍스트 표현(text representation)으로 처리하기 위하여 문법(234)을 로드할 수 있다. 음성 인식 서버(220)는, 예를 들어, 탐색 엔진(도시되지 않음)으로 탐색을 개시하기 위하여, 텍스트 표현을 사용할 수 있다. 다른 실시예에서, 해석된 오디오는 텍스트(240)로서 다중 모드 서버(216)에 전달될 수 있다. 다중 모드 서버(216)는 텍스트(240)를 셀룰러 폰(206)에 되돌려줄 수 있다. 셀룰러 폰(106)은 애플리케이션 환경(208) 내 브라우저(201) 또는 다른 애플리케이션을 사용하여 텍스트를 디스플레이할 수 있다.

일부 구현예에서, 클라이언트(200)는 새로운 사용자 상호 작용에 기초하여 새로운 지리 컨텍스트 정보를 제출한다. 예를 들어, 사용자가 위치를 변경하면, 셀룰러 폰(206) 내에 있는 GPS 트랜스시버는 새로운 GPS 좌표를 다중 모드 서버(216)로 전송할 수 있다. 다른 실시예에서, 사용자는 다른 위치와 연관된 지도를 볼 수 있다. 브라우저(210)는 새로운 지도 위치를 다중 모드 서버(216)로 전송할 수 있다. 오디오 처리 시스템은 새로운 지리 컨텍스트 정보에 기초하여 새로운 문법을 선택하고, 수신된 오디오를 그 새로운 문법에 기초하여 해석할 수 있다.

다중 모드 서버(216), 문법 선택 서버(218), 및 음성 인식 서버(22)가 분리된 디바이스로서 예시되지만, 이 서버들은 단일 디바이스로 조합되거나, 또는 단일 서버가 여러 개의 디바이스를 사용하여 구현될 수 있다.

도 3은 컨텍스트 정보에 기초하여 문법을 선택하는 예시적 방법(300)의 플로우차트이다. 시스템(200, 202)은 방법(300)의 예시적 구현예에서 사용된다. 그러나, 시스템(100)을 포함하는 다른 시스템들이 방법(300)을 구현할 수 있다.

단계(302)에서, 클라이언트(200)와 오디오 처리 시스템(202) 사이에 세션이 생성된다. 예를 들어, 셀룰러 폰(206)은 다중 모드 서버(216)와 통신 세션(예를 들어, HTTP 프로토콜에 기초함)을 설정할 수 있다. 이 세션은, 예를 들어 브라우저가 탐색 엔진을 위한 웹 인터페이스(예를 들어, 탐색 웹 페이지, 대화형 지도(interactive map), 사용자들이 사이트 상에서 운용되는 프로파일을 탐색할 수 있는 사회 네트워킹 사이트 등)를 액세스할 때 설정될 수 있다. 다른 구현예에서는, 셀룰러 폰(206) 상에서 특정 애플리케이션이 시작될 때 세션이 설정된다. 예를 들어, 셀룰러 폰(206) 상에서 전용 지도 프로그램이 시작될 때 세션이 개시될 수 있다.

선택적 단계(304)에서 사용자 ID가 수신된다. 예를 들어, 셀룰러 폰(206)은 셀룰러 폰의 메모리 내에 쿠키들을 저장하는 모바일 브라우저를 포함할 수 있다. 이 쿠키들은 셀룰러 폰의 사용자를 식별하는 식별자를 포함할 수 있다. 모바일 브라우저와, 오디오 처리 시스템(202) 또는 이 오디오 처리 시스템(202)이 액세스할 수 있는 다른 서버 간의 이전 상호 작용에 응답하여, 오디오 처리 시스템(202)은 사용자 ID를 브라우저에 이전에 전송했을 수 있다. 예를 들어, 사용자는 탐색 엔진을 위한 인터페이스를 포함하는 웹 페이지를 방문할 수 있다. 이 탐색 엔진은 고유한 식별자를 사용자에게 발행할 수 있다. 오디오 처리 시스템(202)은 탐색 엔진이 저장하고 있는 식별자 목록을 액세스할 수 있다.

단계(306)에서 컨텍스트 정보가 수신된다. 예를 들어, 다중 모드 서버(206)는 모바일 디바이스(206)의 현재 위치를 명시하는 GPS 좌표와 같은 지리 컨텍스트 정보를 수신한다.

일부 구현예에서, 다중 모드 서버(216)는 애플리케이션-특정 컨텍스트 정보(application-specific context information)와 같은 다른 컨텍스트 정보를 수신할 수 있다. 클라이언트(202)는 사용자에 의해 액세스된 애플리케이션을 명시하는 정보를 전송할 수 있다. 예를 들어, 정보는 사용자가 브라우저 애플리케이션과 상호 작용하고 있음을 명시할 수 있다. 이에 더하여, 이 정보는 과거 네비게이션 이력, 또는 애플리케이션의 사용자에 의해 이전에 수행된 다른 행동을 포함할 수 있다. 예를 들어, 컨텍스트 정보는 사용자가 우편 번호를 명시함으로써 지도를 요청하고, 그 지도상에서 줌 아웃(zoom out)하고, 그 지도의 서쪽으로 200 마일 정보를 네비게이트하고, 그 지도의 항공 사진을 요청하고, 그 지도상에 관심 지점의 디스플레이를 요청하는 것 등을 명시할 수 있다.

다른 구현예에서, 다중 모드 서버(216)는 데스크톱 컴퓨터일 수 있는 클라이언트(200) 상에서 실행중인 애플리케이션에 의해 디스플레이되는 아이템에 대한 컨텍스트 정보를 수신할 수 있다. 예를 들어, 사용자는 경제 뉴스 콘텐츠, 연예 뉴스 콘텐츠, 기술 콘텐츠 등과 같은 여러 타입의 콘텐츠를 포함하는 포탈 웹 페이지를 볼 수 있다. 사용자의 커서가 경제 뉴스 콘텐츠 상에 위를 머무르면, 컴퓨팅 디바이스는 커서 주변의 영역으로부터 정보를 추출(예를 들어, 커서를 중심으로 소정 반경 내에 있는 텍스트가 추출될 수 있음)할 수 있다. 추출된 정보의 일부 또는 전부는 다중 모드 서버에 전송되는 컨텍스트 정보 내에 포함될 수 있다.

단계(308)에서는, 수신된 컨텍스트 정보에 기초하여 문법이 선택된다. 예를 들어, 문법 선택 서버(218)는 사용자의 마우스가 웹 페이지 상에서 경제 정보를 설명하는 콘텐츠 상에 머무르고 있다는 것을 수신된 컨텍스트 정보가 가르키는 경우 경제 어휘를 포함하는 문법을 선택할 수 있다. 보다 자세하게, 문법 선택 서버(218) 내에 있는 분류 모듈(도시되지 않음)은 추출된 콘텐츠를 분류할 수 있다. 문법 선택 서버(218)는 추출된 콘텐츠의 분류로부터 얻은 하나 이상의 키워드와 문법 인텍스(226)에 의해 문법과 연관되는 키워드를 매칭할 수 있다.

다른 실시예에서, 문법 선택 서버(218)는 특정 지역에 연관되는 문법을 선택할 수 있으며, 그 특정 지역은 셀룰러 폰(206)의 현재 위치를 나타내는 GPS 좌표에 상응한다.

또 다른 실시예에서, 문법 선택 서버(218)는, 사용자가 특정 애플리케이션과 상호 작용하고 있음을 수신된 컨텍스트 정보가 것을 명시하면, 애플리케이션-특정 어휘(application-specific vocabulary)를 포함하는 문법을 선택할 수 있다. 예를 들어, 사용자가 달력 애플리케이션(예를 들어, 클라이언트(200)에 상주하거나, 또는 브라우저(210)를 통해 서비스되고 액세스됨)과 상호 작용하고 있으면, 문법 선택 서버(218)는 달력-특정 어휘와 달력-특정 문법 규칙을 포함하는 문법을 선택할 수 있다.

또한, 문법 선택 서버(218)는 수신된 사용자 ID를 사용하여 문법을 선택할 수 있다. 일부 구현예에서는, 사용자의 과거 웹 탐색 이력에 기초하여 문법이 구축될 수 있다. 예를 들어, 사용자가 고고학에 연관된 웹 탐색 쿼리를 과거에 자주 수행하였다면, 문법 구축기(도시되지 않음)는 그 사용자를 위해 고고학과 연관된 어휘, 구문 등을 포함하는 맞춤형 문법을 구축할 수 있다.

일부 구현예에서는, 하나 이상 유형의 컨텍스트 정보를 사용하여 둘 이상의 문법이 선택될 수 있다. 예를 들어, 사용자가 본 아이템으로부터 얻은 컨텍스트 정보는 2개 이상의 문법에 관련될 수 있다. 이 경우, 문법 선택 서버는 음성 인식에서 사용을 위하여 다중 문법을 선택할 수 있다.

단계(310)에서 오디오가 수신될 수 있다. 예를 들어, 디바이스(206)의 사용자는 디바이스(206)의 마이크로폰에 말할 수 있다. 마이크로폰 인터페이스(212)는 마이크로폰에 의해 획득된 발화(speech)를 음성 인식 서버(220)에 전송할 수 있다.

단계(312)에서 수신된 오디오는 이미 선택된 문법을 사용하여 해석될 수 있다. 예를 들면, 음성 인식 서버(220)는 문법 선택 서버(218)가 식별한 문법을 선택하기 위하여 문법들을 저장하는 데이터 구조를 액세스할 수 있다. 오디오 디코더(238)는 수신된 오디오를 해석하기 위하여, 선택된 문법을 사용할 수 있다.

단계(314)에서 세션의 시간 경과 여부가 판단된다. 예를 들어, 단계(302)에서 클라이언트(200)와 오디오 처리 시스템(220) 간에 설정된 세션에는 제한 시간이 있을 수 있다. 만약 제한 시간이 초과되면, 방법(300)은 종료할 수 있다. 다른 구현예에서는, 만약 세션 시간이 경과하면, 오디오 처리 시스템(202)는 클라이언트(200)에게 신규 세션을 설정하도록 촉구한다. 일부 구현예에서, 세션 시간을 제한함으로써, 특히 사용자가 오랜 기간 동안 아무런 동작을 하지 않음에도, 그 사용자가 오디오 처리 시스템을 독점하는 것을 방지할 수 있다.

단계(316)에서 컨텍스트의 변경 여부가 판단된다. 예를 들어, 사용자는 위치를 변경할 수 있다. 만약 사용자가 새로운 위치로 이동하면, GPS 트랜스시버는 새로운 위치를 반영하기 위한 응답으로 GPS 좌표를 업데이트할 수 있다. 단계(306)와 후속 단계들과 연관되어 앞서 설명된 것처럼, 이 새로운 컨텍스트 정보가 수신되어 처리될 수 있다. 다른 실시예에서, 사용자는 다른 애플리케이션을 액세스하거나, 또는 동일한 애플리케이션을 사용하여 다른 데이터를 볼 수도 있다. 애플리케이션 또는 애플리케이션 사용의 변경은, 새로운 컨텍스트 정보의 전송을 개시할 수 있다.

만약 컨텍스트 정보가 변경되지 않으면, 방법(300)은 단계(310)에서 시작하는 단계를 반복할 수 있다. 예를 들면, 오디오 처리 시스템(202)은 임의의 수신된 오디오를 해석하기 위해 이미 선택된 문법을 계속해서 사용할 수 있다.

도 4는 컨텍스트 정보에 기초하여 문법을 선택하는 오디오 처리 시스템과 상호 작용하는 클라이언트를 위한 사용자 인터페이스의 예시적 스크린샷을 나타낸다. 스크린샷(400)은 지도(402)를 포함한다. 사용자는 클라이언트용 브라우저를 실행시키고, 구글 지도(GOOGLE Maps) 또는 야후! 지도(YAHOO! Maps)와 같은 온라인 대화형 지도 서비스에 로그 온할 수 있다. 사용자는 우편 번호, 지역 코드, 도시와 주, 또는 그 밖의 지역 식별자를 입력함으로써, 위치를 지도 상에 지정할 수 있다. 예를 들면, 사용자는 우편 번호 95661을 입력할 수 있다. 이어, 지도 서비스는 브라우저상에 디스플레이를 위하여 캘리포니아 로즈벨리에 해당하는 지도를 전송할 수 있다.

브라우저(또는 브라우저에 의해 디스플레이되는 웹 페이지)는 탐색 옵션 윈도우(404)를 나타낼 수 있다. 사용자는 상점, 관심 지점, 위치 등에 대한 탐색을 개시하기 위하여 탐색 옵션 윈도우(404)와 상호 작용할 수 있다. 이 탐색 옵션 윈도우(404)는 옵션(406)으로 표시된 것처럼, "입력된(entered)" 탐색들을 허용할 수 있다. 예를 들어, 사용자는 키패드를 사용하여 옵션(406)을 선택할 수 있다. 대안적으로, 사용자는 선택 "새로운 탐색 입력"를 말할 수 있다. 이어서, 사용자는 키패드를 통해 탐색을 입력할 수 있다.

또한, 탐색 옵션 윈도우는 옵션(408)으로 표시된 것처럼, 발화 탐색(spoken searches)을 수용할 수 있다. 예를 들어, 사용자는 키패드를 사용하거나 또는 선택을 말함으로써 옵션(408)을 선택할 수 있다.

스크린샷(410)은 사용자가 새로운 탐색을 말하고자 한다는 것을 나타내는 옵션(408)을 선택한 후 디스플레이되는 예시적 인터페이스를 나타낸다. 이 실시예에서, 클라이언트는 사용자에게 업종이나 상호를 말할 것을 시각적으로 촉구한다. 다이어그램(412)은 탐색 용어 "Fry's"를 말하는 사용자를 예시한다.

다른 구현예에서, 클라이언트는 사용자에게 관심 지점, 지리 위치 등과 같은 다른 용어를 말할 것을 촉구한다.

또 다른 구현예에서, 사용자는 탐색을 말하도록 시각적으로 촉구받지 않지만, 자발적으로 탐색을 개시할 수 있다. 예를 들어, 브라우저는 기술 관련 뉴스를 디스플레이하는 웹 페이지를 디스플레이할 수 있다. 사용자는 "AJAX에 대해 탐색"이라고 말할 수 있다. 또 다른 구현예에서는, 클라이언트는 사용자에게 탐색 또는 다른 음성 입력을 말하거나 입력할 것을 청각적으로 촉구할 수 있다.

다른 구현예에서, 사용자는, 음성 탐색을 개시하고 싶다는 것을 표시하기 위하여, 셀룰러 폰 상에 있는 "호 응답(answer call)" 키와 같은 디바이스 상의 임의 키를 누를 수 있다. 사용자는 말할 때 키를 홀드할 수 있고, 미리 설정된 시간 동안 키를 홀딩함으로써 탐색을 개시할 수 있다. 후자의 구현예에서, 음성 탐색은 음성 신호가 검출되지 않은 상태로 미리 정해진 시간이 경과한 후에 종료할 수 있다.

앞서 설명한 스크린샷에는 나타나지 않았지만, 클라이언트는 자신이 디스플레이하는 지도(402)에 대한 지리 정보를 전송할 수 있다. 오디오 처리 시스템은 이 지리 정보에 연관되는 문법을 스크린샷(410) 내 디스플레이된 촉구에 응답하여 수신된 오디오를 해석하는데 사용하기 위해 선택할 수 있다.

스크린샷(416)은 발화 탐색 용어 "Fry's"에 기초하여 해석된 오디오를 보여준다. 사용자는 가능한 해석들 중 하나를, 키패드를 사용하거나 또는 예컨대, 각 해석과 연관된 번호를 말함으로써 선택할 수 있다. 스크린샷(418)은 Fry's 전자제품 스토어의 위치를 식별하는 푸시핀 아이콘(420)이 표시된 캘리포니아 로즈빌의 지도(402)를 보여준다.

도 5는 본 명세서에서 설명된 시스템과 방법을, 클라이언트 또는 단일 서버 또는 복수 서버 중 어느 하나로서 구현하기 위해 사용될 수 있는 컴퓨팅 디바이스(500, 550)의 블록도이다. 컴퓨팅 시스템(500)은 랩탑, 데스크탑, 워크스테이션, PDA(Personal Digital Assistant), 서버, 블레이드(blade) 서버, 메인프레임, 및 그 밖의 적절한 컴퓨터들과 같은 다양한 형태의 디지털 컴퓨터를 나타내기 위해 사용된다. 컴퓨팅 디바이스(550)는 PDA, 셀룰라 전화, 스마트폰, 및 그 밖의 유사한 컴퓨팅 디바이스와 같은 다양한 형태의 모바일 디바이스를 나타내기 위해 사용된다. 부가적으로 컴퓨팅 디바이스(500 또는 550)는 USB(Universal Serial Bus) 플래시 드라이브를 포함할 수 있다. USB 플래시 드라이버는 운영 체계와 그 밖의 애플리케이션를 저장할 수 있다. USB 플래시 드라이브는 다른 컴퓨팅 디바이스의 USB 포트에 삽입할 수 있는 USB 커넥터 또는 무선 트랜스미터와 같은 입/출력 구성요소를 포함할 수 있다. 본 명세서에서 나타낸 구성요소, 그들의 접속 및 관계, 및 그들의 기능들은 단지 예시적인 것을 의미하고, 본 명세서에서 설명하거나 또는 청구된 발명의 구현예를 제한하는 것을 의미하지 않는다.

컴퓨팅 디바이스(500)는 프로세서(502), 메모리(504), 저장 디바이스(506), 메모리(504)와 고속 확장 포트(510)에 접속하는 고속 인터페이스(508), 및 저속 버스(514)와 저장 디바이스(506)에 접속하는 저속 인터페이스(512)를 포함한다. 각 구성요소(502, 504, 506, 508, 510, 및 512)는 다양한 버스들을 사용하여 서로 접속되고, 공통 마더보드에 탑재되거나 또는 적절한 경우 다른 방식으로 탑재될 수 있다. 프로세서(502)는 컴퓨팅 디바이스(500) 내에서 실행하기 위한 명령어를 처리할 수 있으며, 이러한 명령어에는, 고속 인터페이스(508)에 연결된 디스플레이(516)와 같은 외장 입/출력 디바이스상에서 GUI용 그래픽 정보를 디스플레이하기 위해, 메모리(504) 또는 저장 디바이스(506)에 저장되는 명령어가 포함된다. 다른 구현예에서, 다중 프로세서 및/또는 다중 버스는 적절한 경우, 다중 메모리 및 메모리 타입과 함께 사용될 수 있다. 또한, 다중 컴퓨팅 디바이스(500)는 각 디바이스가 필요 동작의 부분을 제공하는 형태(예를 들어, 서버 뱅크, 블레이드 서버의 그룹, 또는 다중 프로세서 시스템)로 접속될 수 있다.

메모리(504)는 컴퓨팅 디바이스(500) 내에 정보를 저장한다. 일 구현예에서, 메모리(504)는 휘발성 메모리 유닛 또는 유닛들이다. 또 다른 구현에서, 메모리(504)는 비휘발성 메모리 유닛 또는 유닛들이다. 또한, 메모리(504)는 마그네틱 또는 광 디스크와 같은 다른 형태의 컴퓨터 판독가능 매체일 수 있다.

저장 디바이스(506)는 컴퓨팅 디바이스(500)를 위한 대용량 저장소(mass storage)를 제공할 수 있다. 일 구현예에서, 저장 디바이스(506)는 플로피 디스크 디바이스, 하드 디스크 디바이스, 광 디스크 디바이스, 또는 테입 디바이스, 플래쉬 메모리 또는 다른 유사한 고체 상태 메모리 디바이스, 또는 저장 영역 네트워크 또는 다른 구성에 존재하는 디바이스를 포함하는 디바이스 어레이일 수 있다. 또한, 컴퓨터 프로그램 제품은 실행될 때, 상술한 것과 같은 하나 이상의 방법을 수행하는 명령어를 포함할 수 있다.

저속 제어부(512)가 저대역-집약적 동작(lower bandwidth-intensive operations)을 관리하는 반면, 고속 제어부(508)는 컴퓨팅 디바이스(900)에 대한 대역-집약적 동작을 관리한다. 이러한 기능들의 배치는 단지 예시적인 것이다. 일 구현예에서, 고속 제어부(508)는 메모리(504), 디스플레이(516)(예를 들어, 그래픽 프로세서 또는 가속기를 통함)에 연결되고, 다양한 확장 카드(도시되지 않음)을 수용할 수 있는 고속 확장 포트(510)에 연결된다. 일부 구현예에서는, 저속 제어부(512)는 저장 디바이스(506) 및 저속 확장 포트(514)에 연결된다. 다양한 통신 포트(예를 들어, USB, 블루투스, 이더넷, 무선 이더넷)를 포함할 수 있는 저속 확장 포트는 키보드, 포인팅 디바이스, 스캐너와 같은 하나 이상의 입/출력 디바이스들에 연결되거나, 또는 예컨대 네트워크 어댑터를 통하여, 스위치나 라우터와 같은 네트워킹 디바이스에 연결될 수 있다.

컴퓨팅 디바이스(500)는 도면에 도시된 바와 같이, 복수의 다른 형태로 구현될 수 있다. 예를 들어, 컴퓨팅 디바이스(500)는 표준 서버(520)로 구현되거나 이러한 서버들의 그룹에서 여러 번(multiple time) 구현될 수 있다. 또한, 컴퓨팅 디바이스(500)는 랙 서버 시스템(524)의 부분으로서 구현될 수 있다. 이에 더하여, 컴퓨팅 디바이스(500)는 랩탑 컴퓨터(522)와 같은 개인용 컴퓨터내에 구현될 수 있다. 선택적으로, 컴퓨팅 디바이스(500)로부터의 구성요소는 디바이스(550)와 같은 모바일 디바이스(도시되지 않음) 내 다른 구성요소와 조합될 수 있다. 이러한 디바이스 각각은 하나 이상의 컴퓨팅 디바이스(500, 550)를 포함하고, 전체 시스템은 서로 통신하는 다중 컴퓨팅 디바이스(900, 950)로 구성될 수 있다.

컴퓨팅 디바이스(550)는 여러 구성요소 중에서 프로세서(552), 메모리(564), 디스플레이(554)와 같은 입/출력 디바이스, 통신 인터페이스(566), 및 트랜스시버(568) 등을 포함한다. 또한, 디바이스(550)에는 추가적인 저장소를 제공하기 위하여, 마이크로 드라이브 또는 다른 디바이스와 같은 저장 디바이스가 제공될 수 있다. 구성요소(550, 552, 564, 554, 566, 및 568) 각각은 다양한 버스를 이용하여 서로 접속되고, 구성요소의 몇몇은 공통의 마더보스에 탑재되거나 적절한 다른 방법으로 탑재될 수 있다.

프로세서(552)는 컴퓨팅 디바이스(550) 내에서 명령어를 실행하며, 이 명령어에는 메모리(564)에 저장된 명령어가 포함된다. 프로세서는 개별적이고 다중의 아날로그 및 디지털 프로세서를 포함하는 칩들의 칩 세트로서 구현될 수 있다. 부가적으로, 프로세서는 복수의 아키텍처 중 임의의 아키텍처를 사용하여 구현될 수 있다. 예를 들어, 프로세서(552)는 CISC(Complex Instruction Set Computers) 프로세서, RISC(Reduced Instruction Set Computer) 프로세서, 또는 MISC(Minimal Instruction Set Computer) 프로세서일 수 있다. 프로세서는, 예를 들어, 사용자 인터페이스의 컨트롤, 디바이스(550)에 의해 실행되는 애플리케이션, 및 컴퓨팅 디바이스(550)에 의한 무선 통신과 같은 디바이스(550)의 다른 구성요소들 사이에 조정을 제공할 수 있다.

프로세서(552)는 제어 인터페이스(558) 및 디스플레이(554)에 연결된 디스플레이 인터페이스(556)를 통해 사용자와 통신할 수 있다. 디스플레이(554)는, 예를 들어, TFT LCD(Thin-Film-Tansistor Liquid Crystal Display) 디스플레이 또는 OLED(Organic Light Emitting Diode) 디스플레이, 또는 다른 적절한 디스플레이 기술일 수 있다. 디스플레이 인터페이스(556)는 그래픽 및 다른 정보를 사용자에게 나타내기 위해 디스플레이(554)를 구동하는 적절한 회로를 포함할 수 있다. 제어 인터페이스(558)는 사용자로부터 명령들을 수신하고, 프로세서(552)에 제출하기 위해 그 명령들을 변환한다. 더욱이, 확장 인터페이스(562)는 디바이스(550)와 다른 디바이스들 간에 근거리 통신이 가능하도록 하기 위해, 프로세서(552)와의 통신에 제공될 수 있다. 확장 인터페이스(562)는, 예를 들어, 일부 구현예에서는 유선 통신을 제공하고 다른 구현예에서 무선 통신을 제공하며, 또한 다중 인터페이스가 사용될 수 있다.

메모리(564)는 컴퓨팅 디바이스(550) 내에 정보를 저장한다. 메모리(564)는 컴퓨터 판독가능 매체 또는 미디어, 휘발성 메모리 유닛 또는 유닛들, 또는 비휘발성 메모리 유닛 또는 유닛들 중 하나 이상으로서 구현될 수 있다. 또한, 확장 메모리(574)가 제공되어, 예를 들어 SIMM(Single In Line Memory Module) 카드 인터페이스를 포함하는 확장 인터페이스(574)를 통해 디바이스(550)에 접속될 수 있다. 이러한 확장 메모리(574)는 디바이스(550)를 위한 여분의 저장 공간을 제공할 수 있고, 또한 애플리케이션 또는 디바이스(550)를 위한 다른 정보를 저장할 수 있다. 특히, 확장 메모리(574)는 상술된 프로세스를 실행하거나 보조하기 위한 명령어를 포함하고, 또한 보안 정보를 포함할 수 있다. 따라서, 예를 들어, 확장 메모리(574)는 디바이스(550)용 보안 모듈(security module)로서 제공될 수 있고, 디바이스(550)의 안전한 사용을 가능하게 하는 명령어로 프로그램될 수 있다. 더욱이, 보안 애플리케이션은, 해킹할 수 없는 방식(non-hackable manner)으로 SIMM 카드 상에 식별 정보를 위치시킨 것과 같은 추가적 정보와 함께 SIMM 카드를 통해 제공될 수 있다.

메모리는 아래에서 논의되는 것과 같이 예를 들어, 플래시 메모리 및/또는 NVRAM 메모리를 포함할 수 있다. 컴퓨터 프로그램 제품은 실행될 때, 상술된 것과 같은 하나 이상의 방법을 수행하는 명령어를 포함한다.

디바이스(550)는 디지털 신호 처리 회로를 필요에 따라 포함하는 통신 인터페이스(566)를 통해 무선으로 통신할 수 있다. 통신 인터페이스(566)는 GSM 음성 호, SMS, EMS, 또는 MMS 메시징, CDMA, TDMA, PDC, WCDMA, CDMA2000, 또는 GPRS 등과 같은 다양한 모드 또는 프로토콜 하에서의 통신을 제공할 수 있다. 이러한 통신은 예를 들어, 무선-주파수 트랜스시버(568)를 통해 수행될 수 있다. 또한, 단거리(short range) 통신은 예를 들어, 블루투스, WiFi, 또는 다른 이러한 트랜스시버(도시되지 않음)를 사용하여 수행될 수 있다. 이에 더하여, GPS(Global Position System) 수신기 모듈(570)은 추가적인 네비게이션- 및 위치- 관련 무선 데이터를 디바이스(550)에 제공할 수 있으며, 이 무선 데이터는 디바이스(550)에서 실행중인 애플리케이션에 의해 적절하게 사용될 수 있다.

또한, 디바이스(550)는 사용자로부터의 발화 정보(spoken information)를 수신하고, 그 발화 정보를 사용가능한 디지털 정보로 변환하는 오디오 코덱(560)을 이용하여, 청취가능하게(audibly) 통신할 수 있다. 또한, 오디오 코덱(560)은 예를 들어, 디바이스(550)의 핸드셋 내의 스피커를 통하는 것과 같이 해서, 사용자가 들을 수 있는 음성을 생성한다. 이러한 음성은 음성 전화 호로부터의 음성을 포함할 수 있고, 녹음된 음성(예를 들어, 음성 메시지, 음악 파일 등)은 포함할 수 있고, 또한 디바이스(550)상에서 동작하는 애플리케이션에 의해 생성된 음성을 포함할 수 있다.

컴퓨팅 디바이스(550)는 도면에 도시된 바와 같이, 복수의 다양한 형태로 구현될 수 있다. 예를 들어, 컴퓨팅 디바이스(550)는 셀룰러 전화(580)로서 구현될 수 있다. 또한, 컴퓨팅 디바이스(550)는 스마트폰(582), PDA, 또는 다른 유사한 모바일 디바이스의 일부로서 구현될 수 있다.

본 명세서에 기재된 시스템의 다양한 구현예와 기술은 디지털 전자 회로, 집적 회로, 특별하게 설계된 ASICs(Application Specific Intergrated Circuit), 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 그것의 조합물로 실현될 수 있다. 이러한 다양한 구현예는 하나 이상의 컴퓨터 프로그램으로 된 구현예를 포함하며, 이 컴퓨터 프로그램은 적어도 하나의 프로그램 가능한 프로세서를 포함하는 프로그램 가능한 시스템에서 실행가능하고 및/또는 해석가능하다. 또한, 전용 또는 범용 프로세서일 수 있는 이 프로그램 가능한 프로세서는 데이터와 명령어를 송수신하기 위해, 저장 시스템, 적어도 하나의 입력 디바이스 및 적어도 하나의 수신 디바이스에 연결된다.

컴퓨터 프로그램(또한 프로그램, 소프트웨어, 소프트웨어 애플리케이션, 또는 코드로 알려짐)은 프로그램 가능한 프로세서를 위한 기계 명령어를 포함하고, 고레벨 절차 및/또는 객체 지향 프로그램 언어(object-oriented programming language) 및/또는 어셈블리/기계 언어로 구현될 수 있다. 본 명세서에서 사용되는 바와 같이, 용어 "기계 판독가능 매체(machine-readable medium)"와 "컴퓨터 판독가능 매체(computer-readable medium)"는 기계 명령어 및/또는 데이터를 프로그램 가능한 프로세서에 제공하기 위해 이용되는 임의의 컴퓨터 프로그램 제품, 장치, 및/또는 디바이스(예를 들어, 마그네틱 디스크, 광학 디스크, 메모리, PLDs(Programmable Logic Devices))를 가리키며, 기계 판독가능 신호와 같은 기계 명령어를 수신하는 기계 판독가능 매체를 포함한다. 용어 "기계 판독가능 신호(machine-readable signal)"는 기계 명령어 및/또는 데이터를 프로그램 가능한 프로세서에 제공하기 위해 사용되는 임의의 신호를 가리킨다.

사용자와의 상호 작용을 제공하기 위하여, 본 명세서에 기술된 시스템과 기술은, 정보를 사용자에게 디스플레이하기 위한 디스플레이 디바이스(예를 들어, CRT(cathode ray tube) 또는 LCD 모니터)와 사용자가 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 디바이스(예를 들어, 마우스 또는 트랙볼)를 구비한 컴퓨터상에서 구현될 수 있다. 사용자와의 상호 작용을 제공하기 위하여 다른 종류의 디바이스가 또한 사용될 수 있다; 예를 들어, 사용자에게 제공되는 피드백(feedback)은 임의 형태의 감각 피드백(예를 들어, 시각 피드백, 청각 피드백 또는 촉각 피드백)일 수 있고, 사용자로부터의 입력은 음향(acoustic), 음성(speech) 또는 촉각(tactile) 입력을 포함하는 임의의 형태로 수신될 수 있다.

본 명세서에서 설명한 시스템과 기술은, 백 엔드(back end) 구성요소(예를 들어, 데이터 서버와 같은), 또는 미들웨어 구성요소(예를 들어, 애플리케이션 서버), 또는 프론트 엔드(front end) 구성요소(예를 들어, 본 명세서에서 설명된 시스템 및 기술의 구현예와 사용자가 상호 작용할 수 있는 그래픽 사용자 인터페이스 또는 웹브라우저를 구비한 클라이언트 컴퓨터), 또는 이러한 백 엔드, 미들웨어, 또는 프론트 엔드 구성요소들의 임의 조합을 포함하는 컴퓨팅 시스템으로 구현될 수 있다. 시스템의 구성요소는 디지털 데이터 통신의 임의 형태 또는 매체(예를 들어, 통신 네트워크)에 의해 상호 접속될 수 있다. 통신 네트워크의 예로서, 근거리 네트워크(LAN), 광역 네트워크(WAN), 및 인터넷이 있다.

컴퓨팅 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 보통 서로 떨어져 있으며, 일반적으로는 통신 네트워크를 통하여 상호 작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터상에서 실행되고 상호 클라이언트-서버 관계를 갖는 컴퓨터 프로그램에 의하여 발생한다.

여러 개의 구현예가 상세히 설명되었지만, 다른 변형도 가능하다. 예를 들어, 지리 위치를 선택하기 위해 사용된 지리 정보는 사용자가 보는 텍스트에 기초하여 얻어질 수 있다. 예를 들어, 사용자는 오클라호마 주를 설명하는 웹 사이트를 방문할 수 있다. 웹 브라우저(또는 다른 애플리케이션)은 사용자가 오클라호마에 관심을 갖는다는 것을 나타내는 지리 정보는 전송할 수 있다. 일부 구현예에서, 웹 브라우저(또는 다른 애플리케이션)은 오클라호마와 관련된 임계 개수의 단어가 발생하는 경우에만 지리 정보를 전송한다.

다른 구현예에서는, 지리 위치를 선택하기 위하여 사용된 지리 정보는 사용자에 의해 입력된 텍스트에 기초한다. 예를 들어, 사용자는 "산불" 과 "캘리포니아"와 같은 탐색 용어를 탐색 엔진 인터페이스에 입력할 수 있다. 또한, 문법 선택기는 캘리포니아 내 특정 위치를 식별하기 위하여 이 용어들을 상관시킬 수 있다. 예를 들어, 탐색 엔진 사용자의 집합된 그룹으로부터의 최근 탐색 결과는, 결과가 캘리포니아의 샌디에고에 대한 언급을 자주 포함하고 있음을 나타낼 수 있다. 문법 선택기는 샌디에고 부근에 고착된 문법을 최근 탐색 결과에 기초하여 식별할 수 있다.

부가적으로, 디바이스의 현재 위치를 결정하는 것은 셀룰러 폰이나 다른 휴대용 디바이스 내 GPS 성능을 참조하여 설명되었지만, 다른 위치 기반 검출 시스템이 사용될 수 있다. 예를 들어, 모바일 디바이스의 위치는 COO(Cell Of Origin) 모바일 측위 기술, 도착 시간 차이(TDOA; Time Difference Of Arrival) 신호 검출 기술, 도착 시간(TOA:Time OF Arrival) 기술, 도래각(AoA; Angle of Arrival) 측정 기술, 개량된 시간 차 측위(EOTD;enhanced observed time difference ) 기술 등을 통해 탐지될 수 있다.

다른 구현예에서, 문법 구축기는 사용자가 송수신하는 이메일에 기초하여 사용자를 위한 맞춤형 문법을 컴파일할 수 있다. 문법 선택 서버는 사용할 맞춤형 문법을 클라이언트로부터 수신된 사용자 ID에 기초하여 선택할 수 있다.

더욱이, 도면에서 묘사된 로직 흐름은 희망하는 결과를 달성하기 위해, 도시된 특정 순서 또는 시계열적 순서일 필요는 없다. 다른 단계들이 제공되거나, 그로부터 단계들이 제거될 수 있으며, 다른 구성요소들이 설명된 시스템에 추가되거나 그로부터 제거될 수 있다. 따라서 다른 구현예들은 후술하는 청구범위의 범위 내에 속한다.

104: 문법 선택 서버 106: 음성 인식 서버
108: 모바일 브라우저 208: 애플리케이션 환경
216: 다중 모드 서버 218: 문법 선택 서버
220: 음성 인식 서버

Claims

컴퓨터에 의해 구현되는 방법에 있어서,
컴퓨팅 디바이스 상에 디스플레이를 위해 지리적 영역의 지도를 제공하는 단계와;
상기 컴퓨팅 디바이스 상에 디스플레이된 상기 지리적 영역의 지도에 근거하여 음성 인식을 위한 문법(grammar)을 선택하는 단계와;
상기 컴퓨팅 디바이스가 상기 지리적 영역의 지도를 디스플레이하는 동안, 탐색을 개시하기 위해 발화에 대응하는 음성 데이터를 수신하는 단계와;
상기 컴퓨팅 디바이스 상에 디스플레이된 상기 지리적 영역의 지도에 근거하여 선택된 상기 문법을 사용하여 상기 발화에 대한 음성 인식을 수행함으로써 상기 발화의 전사를 생성하는 단계와; 그리고
상기 발화의 상기 전사와 관련된 위치를 식별하는 시각 표시자를 제공하기 위해 상기 지도를 업데이트하는 단계를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 전사는 상기 지리적 영역의 지도로부터 도출되는 지리 정보(geographical information)를 더 근거로 생성되는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 전사는 디스플레이를 위해 이전에 제공된 콘텐츠로부터 도출된 지리 정보를 더 근거로 생성되는 것을 특징으로 하는 방법.
삭제
제1항에 있어서,
상기 발화는 위치를 식별하는 것을 특징으로 하는 방법.
제1항에 있어서,
상기 전사는 사용자와 관련된 하나 이상의 컴퓨팅 디바이스에 의해 하나 이상의 탐색 서비스에 이전 제출된 하나 이상의 탐색 쿼리를 식별하는 탐색 이력을 더 근거로 생성되는 것을 특징으로 하는 방법.
삭제
제1항에 있어서,
상기 문법은 지리적 위치를 더 근거로 선택되고, 상기 지리적 위치는 이전에 제출된 하나 이상의 탐색 쿼리와 관련된 탐색 결과에 기초하여 식별되는 것을 특징으로 하는 방법.
시스템으로서,
데이터를 저장하기 위한 메모리와;
하드웨어 프로세서를 포함하며,
상기 하드웨어 프로세서는:
컴퓨팅 디바이스 상에 디스플레이를 위해 지리적 영역의 지도를 제공하는 동작과;
상기 컴퓨팅 디바이스 상에 디스플레이된 상기 지리적 영역의 지도에 근거하여 음성 인식을 위한 문법(grammar)을 선택하는 동작과;
상기 컴퓨팅 디바이스가 상기 지리적 영역의 지도를 디스플레이하는 동안, 탐색을 개시하기 위해 발화에 대응하는 음성 데이터를 수신하는 동작과;
상기 컴퓨팅 디바이스 상에 디스플레이된 상기 지리적 영역의 지도에 근거하여 선택된 상기 문법을 사용하여 상기 발화에 대한 음성 인식을 수행함으로써 상기 발화의 전사를 생성하는 동작과; 그리고
상기 발화의 상기 전사와 관련된 위치를 식별하는 시각 표시자를 제공하기 위해 상기 지도를 업데이트하는 동작을 수행하도록 동작가능한 것을 특징으로 하는 시스템.
제9항에 있어서,
상기 전사는 상기 지리적 영역의 지도로부터 도출되는 지리 정보를 더 근거로 생성되는 것을 특징으로 하는 시스템.
제9항에 있어서,
상기 전사는 디스플레이를 위해 이전에 제공된 콘텐츠로부터 도출된 지리 정보를 더 근거로 생성되는 것을 특징으로 하는 시스템.
삭제
제9항에 있어서,
상기 발화는 위치를 식별하는 것을 특징으로 하는 시스템.
제9항에 있어서,
상기 전사는 사용자와 관련된 하나 이상의 컴퓨팅 디바이스에 의해 하나 이상의 탐색 서비스에 이전 제출된 하나 이상의 탐색 쿼리를 식별하는 탐색 이력을 더 근거로 생성되는 것을 특징으로 하는 시스템.
삭제
제9항에 있어서,
상기 문법은 지리적 위치를 더 근거로 선택되고, 상기 지리적 위치는 이전에 제출된 하나 이상의 탐색 쿼리와 관련된 탐색 결과에 기초하여 식별되는 것을 특징으로 하는 시스템.
실행시 하나 이상의 프로세서에 의해 동작들을 수행하도록 하는 명령어들이 저장된 컴퓨터 판독가능 매체로서,
상기 동작들은:
컴퓨팅 디바이스 상에 디스플레이를 위해 지리적 영역의 지도를 제공하는 동작과;
상기 컴퓨팅 디바이스 상에 디스플레이된 상기 지리적 영역의 지도에 근거하여 음성 인식을 위한 문법(grammar)을 선택하는 동작과;
상기 컴퓨팅 디바이스가 상기 지리적 영역의 지도를 디스플레이하는 동안, 탐색을 개시하기 위해 발화에 대응하는 음성 데이터를 수신하는 동작과;
상기 컴퓨팅 디바이스 상에 디스플레이된 상기 지리적 영역의 지도에 근거하여 선택된 상기 문법을 사용하여 상기 발화에 대한 음성 인식을 수행함으로써 상기 발화의 전사를 생성하는 동작과; 그리고
상기 발화의 상기 전사와 관련된 위치를 식별하는 시각 표시자를 제공하기 위해 상기 지도를 업데이트하는 동작을 포함하는 것을 특징으로 하는 컴퓨터 판독가능 매체.
제17항에 있어서,
상기 전사는 상기 지리적 영역의 지도로부터 도출되는 지리 정보를 더 근거로 생성되는 것을 특징으로 하는 컴퓨터 판독가능 매체.
제17항에 있어서,
상기 전사는 디스플레이를 위해 이전에 제공된 콘텐츠로부터 도출된 지리 정보를 더 근거로 생성되는 것을 특징으로 하는 컴퓨터 판독가능 매체.
삭제