KR20080086465A

KR20080086465A - 음성 개시 네트워크 동작 방법 및 컴퓨터 판독가능 매체

Info

Publication number: KR20080086465A
Application number: KR1020087015106A
Authority: KR
Inventors: 쿠엔틴 밀러; 존 제이. 오스트룬트; 아난드 라마크리슈나
Original assignee: 마이크로소프트 코포레이션
Priority date: 2005-12-22
Filing date: 2006-11-17
Publication date: 2008-09-25
Also published as: EP1963991A4; JP2009521745A; WO2007075238A1; CN101341482A; US7996228B2; US20070150286A1; EP1963991A1

Abstract

음성 개시 네트워크 동작들의 실시예들이 제공된다.

휴대용 전자 장치, 음성 개시 네트워크 동작, 음성 커맨드 변환, 그래픽 응답

Description

음성 개시 네트워크 동작 방법 및 컴퓨터 판독가능 매체{VOICE INITIATED NETWORK OPERATIONS}

본 발명은 음성 개시 네트워크 동작들에 관한 것이다.

랩탑 컴퓨터, 무선 전화, 개인 휴대 단말기, 무선 장치, 게임 시스템, 및 오디오 플레이어와 같은 휴대형 전자 장치들은 점차 대중화되고 있다. 사용자들은 이메일, 인스턴트 메시징 등을 이용하여 서로 통신하는 것과 같은 다양한 활동을 위해 이러한 장치들 중 하나 이상을 사용할 수 있다. 또한, 사용자들은 네트워크를 통해 다양한 콘텐츠에 액세스하기 위해 이들 장치 중 하나 이상을 사용할 수 있다. 그러나, 작은 크기의 휴대형 전자 장치들은 사용자 활동들을 방해할 수 있다.

예를 들어, 소형의 휴대형 전자 장치들은 텍스트 입력에 적합하지 않다. 또한, 운전이나 여행을 하는 있는 동안과 같이 "바쁜" 중에 정보를 휴대형 전자 장치들에 입력하는 것은 어렵고, 안전하지 않고, 그리고/또는 불편할 수 있다.

<발명의 요약>

다른 입력 메커니즘들이 바람직하지 않거나, 불편하거나, 불가능할 때와 같이 사용자가 동작들을 수행하는 것을 돕는 데 사용될 수 있는 동작들의 음성 개시가 설명된다. 사용자는 스피치를 클라이언트 장치에 제공한다. 스피치는 텍스트 로 변환된다. 텍스트는 동작들을 수행하고 결과들을 얻는 데 사용된다. 동작의 결과들을 클라이언트 장치로 전달하기 위해 응답이 형성된다. 응답은 텍스트는 물론, 비 텍스트 부분들(예를 들어, 그래픽, 오디오 등)을 통합하는 것과 같은 다양한 방식으로 포맷팅될 수 있다. 예를 들어, 검색 엔진에 의해 수행되는 검색 동작은 사용자 스피치에 의해 개시될 수 있다. 검색의 결과들은 사용자에게 제공된다. 이어서, 사용자는 검색 결과들을 이용한 추가 스피치로 추가 동작들을 개시할 수 있다.

본 요약은 아래의 상세한 설명에서 더 설명되는 개념들의 선택을 간단한 형태로 소개하기 위해 제공된다. 본 요약은 청구 내용의 중요한 특징들 또는 필수적인 특징들을 식별하고자 하는 의도도 없고, 청구 내용의 범위를 결정할 때 보조물로서 사용하고자 하는 의도도 없다.

도 1은 음성 개시 동작 기술들을 이용하기 위해 동작 가능한 일 실시예의 환경을 나타내는 도면.

도 2는 도 1의 예시적인 클라이언트들 및 서비스를 더 상세히 나타내는 일 실시예의 시스템의 도면.

도 3은 음성 개시 동작들이 수행되고 응답이 생성되는 일 실시예의 프로시저를 나타내는 흐름도.

도 4는 스피치에 의해 웹 검색이 개시되는 일 실시예의 프로시저를 나타내는 흐름도.

도 5는 음성 개시 동작들이 수행되고 응답이 생성되는 다른 실시예의 프로시저를 나타내는 흐름도.

도 6은 음성 개시 동작들을 위해 PoC(push to talk over cellular) 세션이 이용되는 일 실시예의 프로시저를 나타내는 흐름도.

도 7은 음성 개시 검색의 결과들이 추가 음성 개시 동작들을 위해 이용되는 일 실시예의 프로시저를 나타내는 흐름도.

설명의 사례들에서 동일 참조 번호들은 동일 구조들 및 컴포넌트들을 참조하는 데 사용된다.

개요

소정의 환경들에서, 컴퓨팅 장치, 핸드헬드 또는 이동 장치로의 (예를 들어, 손에 의한) 수동 입력은 불편하거나, 안전하지 않거나, 불가능할 수 있다. 다양한 구현에서, 구두 커맨드들 또는 용어들과 같은 스피치를 통해 동작들을 개시하는 데 이용될 수 있는 기술들이 설명된다.

예를 들어, 사용자는 이동 전화, 컴퓨팅 장치, 개인 휴대 단말기(PDA) 등과 같은 클라이언트 장치에 스피치를 제공할 수 있다. 이어서, 스피치는 텍스트로 변환된다. 이어서, 변환된 텍스트는 변환된 텍스트에 기초하여 하나 이상의 동작을 수행하기 위해 서비스에 의해 사용될 수 있다. 다양한 동작이 고려된다.

예를 들어, 텍스트는 검색을 수행하기 위해 인터넷 검색 엔진에 제공되는 검색 용어들로서 사용될 수 있다. 동작들의 결과들이 얻어진다. 결과들을 포함하는 응답이 형성된 후, 사용자를 위해 클라이언트 장치로 제공된다. 응답은 이메일, 하이퍼 텍스트 마크업 언어(HTML), 인스턴트 메시징, 오디오 등을 통하는 것과 같은 다양한 방식으로 제공될 수 있다. 예를 들어, 사용자는 가장 가까운 식당에 대한 구두 요청에 응답하여 식당들의 지도 및 리스트를 갖는 HTML 문서를 제공받을 수 있다. 일 구현에서, 동작은 클라이언트 장치의 위치에 의해 자동으로 정교화될 수 있다. 따라서, 식당들에 대한 검색은 클라이언트 장치의 위치에 기초하여 5개의 가장 가까운 식당을 자동으로 반환할 수 있다.

아래의 설명에서는, 스피치 개시 동작들을 제공하는 기술들을 이용하도록 동작 가능한 예시적인 환경이 먼저 설명된다. 이어서, 스피치 개시 동작 기술들을 제공하기 위해 예시적인 환경에서는 물론, 다른 환경들에서 동작 가능한 예시적인 프로시저들 및 사용자 인터페이스들이 설명된다.

예시적인 환경

도 1은 음성 개시 동작 기술들을 이용하도록 동작 가능한 일 실시예의 환경(100)의 도면이다. 환경(100)은 네트워크(104)에 통신 결합되는 복수의 클라이언트 102(1), 102(2), 102(3),... 102(N)을 포함하는 것으로 도시되어 있다. 아래의 설명에서 복수의 클라이언트 102(1) 내지 102(N)은 클라이언트들 102(n)(여기서, n은 1에서 "N"까지의 임의 정수일 수 있다)로도 지칭될 수 있다. 복수의 클라이언트 102(n)는 다양한 방식으로 구성될 수 있다. 예를 들어, 클라이언트들 102(n) 중 하나 이상은 데스크탑 컴퓨터, 이동국, 게임 콘솔, 오락 기구, 표시 장치에 통신 결합되는 셋톱 박스, 무선 전화 등과 같이 네트워크(104)를 통해 통신할 수 있는 컴퓨터로서 구성될 수 있다. 클라이언트들 102(n)은 랩탑, 이동 전화 102(2), PDA 102(3), 오디오 플레이어 등과 같은 휴대형 전자 장치들일 수도 있다. 클라이언트들 102(n)은 무선 접속, 유선 접속 등을 통해 네트워크(104)에 액세스하도록 구성될 수 있다. 클라이언트들 102(n)은 풍부한 메모리 및 프로세서 자원들을 갖는 충분 자원 장치들(예를 들어, 개인용 컴퓨터, 하드 디스크를 구비한 텔레비전 레코더, 게임 콘솔)에서 제한된 메모리 및/또는 프로세싱 자원들을 갖는 저 자원 장치들(예를 들어, 통상의 셋톱 박스)까지의 범위에 이를 수 있다. 아래의 설명에서, 클라이언트들 102(n)은 클라이언트를 조작하는 개인 및/또는 엔티티와 관련될 수도 있다. 즉, 클라이언트들 102(n)은 사용자 및/또는 기계를 포함하는 논리적 클라이언트를 기술할 수 있다.

또한, 네트워크(104)는 인터넷으로 도시되어 있지만, 다양한 구성을 취할 수 있다. 예를 들어, 네트워크(104)는 원거리 네트워크(WAN), 근거리 네트워크(LAN), 무선 네트워크, 공중 전화 네트워크, 인트라넷 등을 포함할 수 있다. 또한, 단일 네트워크(104)가 도시되어 있지만, 네트워크(104)는 다수의 네트워크를 포함하도록 구성될 수 있다. 예를 들어, 복수의 클라이언트 102(n)는 무선 네트워크를 통해 서로 통신하도록 결합될 수 있다. 이들 클라이언트 각각은 인터넷을 통해 도 1에 도시된 복수의 서비스 106(s)(여기서 "s"는 1에서 "S"까지의 임의의 정수일 수 있다) 중 하나 이상에 통신 결합될 수 있다. 다양한 다른 예도 고려된다.

도 1에 도시된 바와 같이, 복수의 서비스 106(s)는 네트워크(104)를 통해 클라이언트들 102(n)에 액세스할 수 있다. 서비스들 106(s)은 다양한 방식으로 구성될 수 있다. 서비스들 106(s)은 일반적으로 네트워크(104)를 통해 클라이언트들 102(n)에게 자원들(예를 들어, 서비스들 및 콘텐츠)을 제공한다. 자원들은 웹 페이지, 음악, 비디오, 이미지, 사용자 포럼, 템플릿, 애드-인, 웹 로그(블로그) 등과 같은 다양한 콘텐츠로서 구성될 수 있다. 또한, 서비스들 106(s)은 인스턴트 메시징 서비스, 이메일 서비스, 검색 서비스, 온라인 쇼핑, 금융 서비스 등과 같은 서비스들인 자원들을 제공할 수 있다. 클라이언트는 통신, 검색, 계정 액세스, 파일 관리, 소비자 활동 등과 같은 다양한 활동을 개시하기 위해 서비스 106(s)에 액세스할 수 있다.

복수의 클라이언트 102(n) 각각은 복수의 통신 모듈 108(n) 중 각각의 하나를 포함하는 것으로 도시되어 있다. 도시된 구현에서, 복수의 통신 모듈 108(n) 각각은 복수의 클라이언트 102(n) 사이, 클라이언트(102)와 하나 이상의 서비스 106(s) 사이 등에 통신 모드들을 제공하기 위해 복수의 클라이언트 102(n) 중 각각의 하나 상에서 실행될 수 있다. 따라서, 통신 모듈 108(n)은 네트워크(104)를 통해 정보, 음성 데이터, 메시지 등을 송수신하기 위해 클라이언트 102(n)에 제공되는 기능을 나타낸다.

예를 들어, 통신 모듈들 108(n) 중 하나 이상은 이메일을 송수신하도록 구성될 수 있다. 이메일은 이메일이 라우터, 다른 컴퓨팅 장치(예를 들어, 이메일 서버) 등과 같은 복수의 장치를 이용하여 네트워크(104)를 통해 전달될 수 있도록 하기 위해 어드레싱 및 라우팅을 위한 표준들 및 규약들을 이용한다. 이와 같이, 이메일들은 인트라넷을 통해 회사 내에서, 인터넷을 이용하여 전 세계에 등등으로 전송될 수 있다. 이메일은 예를 들어 헤더, 및 텍스트 및 첨부물, 예를 들어 문서, 컴퓨터 실행 가능 파일 등과 같은 사용자 지정 페이로드를 포함할 수 있다. 헤더는 소스에 관한 기술 정보를 포함하고, 종종 송신자에서 수신자로 메시지가 이동하는 경로를 기술할 수 있다.

통신 모듈 108(n)은 셀룰러 또는 무선 음성 서비스를 제공하도록 구성될 수도 있다. 무선 음성 서비스는 복수의 클라이언트 102(n) 및/또는 클라이언트 102(n)와 서비스 106(s) 간에 음성 데이터를 전달하기 위한 메커니즘을 제공한다. 예를 들어, 클라이언트 102(n)는 음성 데이터를 실시간으로 또는 거의 실시간으로 다른 클라이언트에게 전달할 수 있다. 따라서, 복수의 클라이언트 102(n)는 무선 네트워크를 통해 대화에 참여할 수 있다. 클라이언트 102(n)는 음성 데이터를 서비스들 106(s) 중 하나 이상에 전달할 수도 있다.

또한, 통신 모듈 108(n)은 PoC 기능을 제공하도록 구성될 수 있다. PoC는 하나 이상의 클라이언트 102(n) 및/또는 서비스들(106) 사이의 거의 즉석 통신을 허가하는 양방향 형태의 통신이다. 통신 모듈 108(n)은 PoC 세션을 개시하기 위해 선택될 수 있는 PoC 콘택들 또는 그룹들의 리스트를 제공할 수 있다. 클라이언트 102(n)는 PoC 세션 동안 이야기하기 위해 누를 수 있는 PoC 버튼을 갖도록 구성될 수 있다. PoC 세션을 통해, 수신 콘택 또는 그룹은 그들 파트에서의 어떠한 액션 없이도 송신자의 음성을 들을 수 있다. 따라서, PoC는 "워키토키" 또는 인터컴을 이용하는 것과 유사하다. PoC는 무선 음성 네트워크, 피어 대 피어 네트워크, 인터넷 등을 통해 구현될 수 있다. 명칭은 "셀룰러"를 지시하지만, PoC는 이동 전화, 랩탑, 핸드헬드 장치, 데스크탑 컴퓨팅 장치 등을 포함하는 다양한 방식으로 구성된 클라이언트 102(n) 상에서 이용될 수 있다. 예를 들어, PoC 세션은 인터넷을 통해 데스크탑 컴퓨팅 장치와 서비스 106(n) 사이에 설정될 수 있다.

다른 예에서, 통신 모듈들 108(n) 중 하나 이상은 인스턴트 메시지들을 송수신하도록 구성될 수 있다. 인스턴트 메시징은 클라이언트들 102(n) 각각이 인스턴트 메시징 세션에 참여할 때 텍스트 메시지들을 서로에게 전송할 수 있도록 하는 메커니즘을 제공한다. 인스턴트 메시징은 또한 인스턴트 메시징 세션을 통해 음성 데이터가 교환될 수 있도록 하는 음성 인스턴트 메시징 기능을 제공할 수 있다. 인스턴트 메시지들은 통상적으로 실시간으로 통신되지만, 클라이언트들 102(n) 중 하나가 이용가능하지 않을 때, 예를 들어 오프라인 상태일 때 텍스트 메시지들을 로깅하는 것 등에 의해 지연 전달이 이용될 수도 있다. 따라서, 인스턴트 메시징은 메시지 교환을 지원하고 양방향 라이브 채팅을 위해 설계된다는 점에서 이메일과 인터넷 채팅의 조합으로 간주될 수 있다. 따라서, 인스턴트 메시징은 동기 통신에 이용될 수 있다. 예를 들어, 음성 전화 호출과 같이, 인스턴트 메시징 세션은 인스턴트 메시지들이 수신될 때 각각의 사용자가 각각의 다른 사용자에게 응답할 수 있도록 실시간으로 수행될 수 있다.

PoC, 무선 음성 서비스, 인스턴트 메시징 및 이메일이 설명되었지만, 통신 모드들은 그의 사상 및 범위를 벗어나지 않고 다양한 다른 구성을 취할 수 있다. 또한, 개별 클라이언트 102(n)(및 구체적으로 클라이언트 102(n)의 통신 모듈)는 인스턴트 메시징 및 무선 음성 양자를 제공하는 것과 같은 다양한 상이한 통신 모드들의 조합을 제공하도록 구성될 수 있다.

통신 모듈 108(n)은 구두 커맨드들을 수신하고 서비스 106(s)와 통신하는 기능을 더 제공할 수 있다. 도 1은 복수의 클라이언트 102(n) 중 하나 이상을 사용할 수 있는 다양한 사용자를 대표하는 사용자(110)를 도시한다. 사용자(110)는 클라이언트 102(1)에 스피치(112)를 제공하는 것으로 도시된다. 스피치(112)는 서비스 106(s)에 의해 수행될 동작들을 지정할 수 있는 사용자(110)와 같은 사용자의 구두 단어들을 나타낸다. 스피치(112)는 클라이언트 102(1)에 의해 수신되고, 통신 모듈 108(1)에 의해 네트워크(104)를 통해 서비스 106(s)로 전달될 수 있다. 후술하는 바와 같이, 스피치(112)는 음성 데이터로서 또는 변환된 음성 데이터(예를 들어, 텍스트)로서 서비스(106)에 전달될 수 있다.

서비스들 106(s) 각각은 하나 이상의 동작 모듈 114(s)을 포함한다. 동작 모듈들 114(s)은 사용자(110)의 스피치(112)에 의해 지정되는 하나 이상의 동작을 수행하도록 실행될 수 있는 기능을 나타낸다. 따라서, 스피치(112)는 동작 모듈 114(s)에 의해 동작들을 개시하는 데 사용될 수 있다. 동작 모듈 114(s)은 또한 스피치(112)에 의해 지정되는 동작들의 결과들을 포함하는 응답을 포맷팅하는 기능을 나타낸다. 동작 모듈들 114(s)은 다양한 동작을 제공하도록 구성될 수 있다. 동작 모듈 114(s)에 의해 수행될 수 있는 동작들은 검색, 항목 구매, 서비스 예약(예를 들어, 식당, 살롱, 자동차 정비사 등), 여행 예약, 계정 액세스, 콘텐츠 액세스, 저장 콘텐츠 검색, 항목 다운로드 등을 포함하지만, 이에 한정되지 않는다.

일 구현에서, 동작 모듈 114(s)은 동작 모듈 114(s)에 의해 수행된 동작들의 결과들을 포함하는 응답 116(p)을 클라이언트 102(n)에게 제공하도록 구성될 수 있다. 응답 116(p)은 다양한 텍스트 및/또는 비 텍스트 부분들(예를 들어, 그래픽 메시지, 오디오 메시지 등)을 포함하는 것과 같은 다양한 방식으로 구성될 수 있다. 다양한 응답 116(p)에 대한 추가 설명은 도 2와 관련하여 발견될 수 있다.

일 구현에서, 서비스 106(s)는 스피치(112)를 음성 데이터로서 수신할 수 있다. 그러나, 소정의 사례들에서 동작 모듈 114(s)은 지정된 동작들을 수행하기 위한 음성 데이터를 이해하지 못할 수도 있다. 따라서, 변환이 수행될 수 있다. 예를 들어, 각각의 서비스 106(s)는 각각의 변환 모듈 118(s)을 갖는 것으로 도시된다. 변환 모듈 118(s)은 서비스 106(s)의 동작 모듈 114(s)과 같이 원하는 동작들을 수행하도록 구성되는 모듈이 이해할 수 있도록 음성 데이터와 텍스트 커맨드들 간의 변환을 행하는 기능을 나타낸다. 예를 들어, 음성 데이터로서 수신된 스피치(112)는 변환 모듈 118(s)에 의해 동작 모듈 114(s)이 이해할 수 있는 텍스트로 변환될 수 있다. 이어서, 동작 모듈 114(s)은 변환된 스피치(예를 들어, 텍스트)를 이용하여 스피치(112)에 의해 지정되는 동작들을 수행할 수 있다. 일 구현에서, 변환 모듈 118(s)은 또한 클라이언트 102(n)에게 전달하기 위해 응답 116(p)을 음성 데이터로 변환하도록 구성될 수 있다.

서비스 106(s) 상의 변환 모듈 118(s)의 실행이 설명되었지만, 클라이언트 102(n)는 유사한 기능을 이용할 수도 있다. 예를 들어, 도 1은 각각의 클라이언트 102(10)-102(N)가 각각의 변환 모듈 118(1)-118(N)을 갖는 것으로 도시한다. 일 구현에서, 클라이언트 102(n)에 의해 수신된 스피치(112)는 클라이언트에서 텍스트로 변환될 수 있다. 이어서, 서비스 106(s), 구체적으로 동작 모듈 114(s)은 수행할 동작들을 지정하는, 동작 모듈 114(s)이 이해할 수 있는 텍스트를 수신한다. 또한, 클라이언트 102(n)에게 제공되는 비 가청 응답 116(p) 또는 그 일부는 클라이언트 102(n)에 의해 스피치로 변환될 수 있다. 변환 모듈들(118)을 통한 음성 데이터 변환의 추가 설명은 도 2와 관련하여 발견될 수 있다.

일 구현에서, 단일 서비스 106(s)가 다수의 동작을 수행할 수 있다. 예를 들어, 사용자(110)는 서비스 106(s)가 웹 페이지, 비디오, 오디오 등과 같은 이용 가능 콘텐츠에 대한 검색을 수행하게 하는 스피치(112)를 제공할 수 있다. 사용자(110)는 콘텐츠에 미리 가입하였거나 구매했을 수 있거나, 콘텐츠를 구매하기를 원할 수 있다. 콘텐츠는 네트워크(104)를 통해 클라이언트 102(n)가 액세스할 수 있는 저장 장치 등에 사용자에 의해 유지되는 항목들일 수도 있다. 검색은 클라이언트 102(n)에게 제공되는 이용 가능 콘텐츠를 리스트하는 검색 결과들을 생성한다. 이어서, 사용자(110)는 이용 가능 콘텐츠를 볼 수 있고, 검색 결과들에 포함된 콘텐츠 항목을 클라이언트에게 스트리밍하는 동작, 콘텐츠를 다운로드하는 동작, 콘텐츠를 구매하는 동작 등과 같은 추가 동작들을 개시하도록 추가 스피치(112)를 제공할 수 있다.

대안으로, 복수의 서비스 106(s)는 다수의 동작을 수행하기 위해 조합하여 사용될 수 있다. 따라서, 동일 서비스(106) 또는 다른 서비스 106(s)에 의해 추가 동작들이 수행될 수 있다. 다른 예에서, 사용자(110)는 복수의 서비스 106(s) 중 하나를 이용하여 이용 가능 항공편들과 같은 여행 옵션들에 대한 검색을 개시하기 위하여 스피치(112)를 이용할 수 있다. 이어서, 검색 결과를 수신한 때, 사용자(110)는 복수의 서비스 106(s) 중 다른 하나를 통해 검색 결과들에서 지시되는 특정 항공편을 예약하기 위한 동작을 개시하기 위해 추가 스피치를 이용할 수 있다. 스피치에 응답하는 동작 수행의 추가 설명은 도 3-7과 관련하여 발견될 수 있다.

일반적으로, 여기에 설명되는 임의의 기능은 소프트웨어, 펌웨어(예를 들어, 고정 로직 회로), 수동 처리, 또는 이러한 구현들의 조합을 이용하여 구현될 수 있다. 여기서 사용되는 바와 같은 "모듈" 및 "로직"이라는 용어는 일반적으로 소프트웨어, 펌웨어 또는 소프트웨어와 펌웨어의 조합을 나타낸다. 소프트웨어 구현의 경우에, 모듈, 기능, 또는 로직은 프로세서(예를 들어, CPU 또는 CPU들) 상에서 실행될 때 지정된 태스크들을 수행하는 프로그램 코드를 나타낸다. 프로그램 코드는 하나 이상의 컴퓨터 판독 가능 메모리 장치에 저장될 수 있으며, 이에 대한 추가 설명은 도 2와 관련하여 발견될 수 있다. 후술하는 스피치 기술들의 특징들은 플랫폼 독립적이며, 이는 이 기술들이 다양한 프로세서를 구비하는 다양한 상용 컴퓨팅 플랫폼 상에서 구현될 수 있음을 의미한다.

도 2는 도 1의 예시적인 클라이언트 102(n) 및 서비스 106(s)를 더 상세히 나타내는 일 실시예의 시스템(200)의 도면이다. 서비스 106(s)는 복수의 서버 202(a)("a"는 1에서 "A"까지의 임의 정수일 수 있다)에 의해 구현되는 것으로 도시되며, 클라이언트 102(n)는 클라이언트 장치로서 도시되어 있다. 서버들 202(a) 및 클라이언트 102(n)는 각각의 프로세서 204(a), 206(n) 및 각각의 메모리 208(a), 210(n)를 구비하는 것으로 각각 도시되어 있다.

프로세서들은 이들이 형성되는 재료들 또는 그 안에서 이용되는 처리 메커니즘들에 의해 한정되지 않는다. 예를 들어, 프로세서들은 반도체(들) 및/또는 트랜지스터들(예를 들어, 전자 집적 회로(IC)들)을 포함할 수 있다. 이러한 상황에서, 프로세서 실행 가능 명령들은 전자적으로 실행 가능한 명령들일 수 있다. 대안으로, 프로세서들의 또는 프로세서들을 위한, 따라서 컴퓨팅 장치의 또는 컴퓨팅 장치를 위한 메커니즘들은 양자 컴퓨팅, 광학 컴퓨팅, 기계 컴퓨팅(예를 들어, 나노기술을 이용함) 등을 포함할 수 있지만 이에 한정되지 않는다. 또한, 서버들 202(a) 및 클라이언트 102(n)에 대해 각각 단일 메모리 208(a), 210(n)가 도시되어 있지만, 랜덤 액세스 메모리(RAM), 하드 디스크 메모리, 이동식 매체 메모리 등과 같은 다양한 메모리 타입 및 조합이 이용될 수 있다.

동작 모듈들 114(a) 및 변환 모듈 118(a)은 서버 202(a)의 프로세서 204(a) 상에서 실행되는 것으로 도시된다. 물론, 동작 모듈 114(a) 및 변환 모듈 118(a)은 동일 서비스 106(s) 내의, 또는 도 1에 도시된 복수의 서비스(106) 중 상이한 서비스들 내의 상이한 각각의 서버들 상에서도 제공될 수 있다. 여기에 설명되는 다양한 모듈과 연관된 기능들은 그의 사상 및 범위를 벗어나지 않고 더 조합되거나 분할될 수 있다는 점에 유의한다. 예를 들어, 동작 모듈들 114(a) 및 변환 모듈 118(a)이 별개로 도시되어 있지만, 각각의 기능은 단일 모듈 내에 제공될 수도 있다.

변환 모듈 118(a)은 또한 스피치/텍스트 모듈(212) 및 텍스트/스피치 모듈(214)을 구비하는 것으로 도시되어 있다. 스피치/텍스트 모듈(212)은 스피치 데이터로서 클라이언트 102(2)에 의해 제공되는 스피치(112)를, 동작들을 수행하기 위해 동작 모듈 114(a)에 의해 사용될 수 있는 텍스트로 변환하는 기능을 나타낸다. 텍스트/스피치 모듈(214)은 동작들의 결과들(예를 들어, 응답 116(p) 또는 그 일부)을 음성 데이터(예를 들어, 가청 사운드)로 변환할 수 있는 기능을 나타낸다. 텍스트/스피치 모듈(214)은 실시간 가청 결과들을 클라이언트 102(n)에게 전달하도록 구성될 수 있다. 대안으로, 텍스트/스피치 모듈(214)은 클라이언트 102(n)가 액세스할 수 있는 음성 이메일, 오디오 파일 등과 같은 오디오 기록으로서 저장될 가청 결과들을 생성할 수 있다.

일 구현에서, 하나 이상의 서비스 106(s)는 음성 개시 검색 동작들을 제공할 수 있다. 도 2에 도시된 바와 같은 동작 모듈 114(a)은 검색 동작들을 제공하도록 구성된다. 검색 엔진(216)은 동작 모듈 114(a) 내의 프로세서 204(a) 상에서 실행되는 것으로 도시되며, 메모리 208(a)에 저장 가능하다. 검색 엔진(216)은 다양한 검색을 수행하는 데 사용될 수 있다. 이들은 일반적인 웹 또는 인터넷, 개인용 데스크탑, 비디오, 오디오, 기업, 포토 및/또는 로컬 검색을 포함하지만 이에 한정되지 않는다. 검색들은 사용자(110)에 의해 클라이언트 102(n)에게 스피치로서 제공되는 키워드들에 기초할 수 있다. 대안으로, 사용자(110)의 스피치는 검색 엔진(216)에 검색 용어들을 제공하는 저장된 검색을 식별할 수 있다. 물론, 검색 동작들은 단일 동작 모듈 114(a) 내의 다른 동작들과 조합될 수 있다. 즉, 검색들을 제공하도록 구성되는 동작 모듈 114(a)은 검색 제공으로 한정되지 않을 수 있다.

일 구현에서, 동작 모듈 114(a)은 응답 모듈(218)을 포함한다. 응답 모듈(218)은 서비스 106(s)에 의해 수행되는 동작들의 결과들을 포함하는 응답 116(p)을 형성하는 기능을 나타낸다. 응답 116(p)은 네트워크(114)를 통해 클라이언트 102(n)에게 전달되도록 구성된다. 대안으로, 결과는 원격 저장되고, 클라이언트 102(n)에 의해, 또는 클라이언트 102(n) 또는 다른 장치를 통해 사용자(110)에 의해 액세스될 수 있다. 물론, 응답 116(p) 내의 결과들은 단일 동작 모듈 114(a), 단일 서비스 106(s)의 다수의 동작, 복수의 서비스 106(s)에 의해 공동으로 수행되는 다수의 동작의 집합 등으로부터 유래할 수 있다.

응답 116(p)은 다양한 방식으로 구성될 수 있다. 다양한 응답 116(p)이 서버 202(a)의 메모리 208(a) 내의 저장 장치(220) 내에 도시되어 있다. 응답 116(p)은 텍스트와 그래픽을 조합한 그래픽 응답일 수 있다. 따라서, 가청 입력(예를 들어, 스피치 112)에 응답하여, 사용자(110)는 클라이언트 102(n)를 통해 예를 들어 가청 응답이 아닌 다른 포맷으로 응답 116(p)을 수신할 수 있다. 대안으로, 사용자(110)는 가청 부분들을 텍스트 및 그래픽 부분들과 조합한 응답을 수신할 수 있다. 따라서, 응답들 116(p)은 텍스트, 그래픽, 비디오, 오디오 등의 조합을 포함할 수 있다.

예를 들어, 도 2에 도시된 바와 같이, 응답 116(p)은 이메일 116(1), HTML 문서 116(2), 인스턴트 메시지 116(3), 비디오 응답 116(4), 컴퓨터 판독 가능 파일 116(5) 등으로 구성될 수 있다. 또한, 다양한 응답 116(p)이 단독으로 또는 서로 조합하여 사용될 수 있다. 예를 들어, 이메일 및 인스턴트 메시지 116(3) 양자가 클라이언트 102(2)에게 반환될 수 있다. 또한, 인스턴트 메시지 116(3)는 첨부된 워드 프로세싱 파일 또는 다른 컴퓨터 판독 가능 파일 116(5)을 갖도록 형성될 수 있다. 다양한 다른 조합도 고려된다.

또한, 단독으로 또는 다른 응답들 116(p)과 조합하여 사용될 수 있는 가청 응답들 116(6)이 도 2에 도시되어 있다. 가청 응답 116(6)은 클라이언트가 예를 들어 스피치로서 들을 수 있도록 클라이언트 102(2)에게 제공되는 응답 또는 응답의 일부를 나타낸다. 예를 들어, HTML 문서 116(2)는 스피치(112)에 의해 개시되는 검색에 응답하여 생성될 수 있다. HTML 응답 116(2)은 클라이언트 102(n)에게 전송된다. 또한, 텍스트/스피치 모듈(2140은 HTML 116(2) 또는 그의 부분들을 가청 스피치로 변환하여 가청 응답 116(6)을 반환할 수 있다. 가청 응답은 예를 들어 HTML 문서가 텍스트/스피치 모듈(214)에 의해 변환될 때 실시간으로 또는 거의 실시간으로 반환될 수 있다. 따라서, 가청 입력(예를 들어, 스피치 112)에 응답하여, 사용자(110)는 클라이언트 102(n)를 통해 완전히 또는 부분적으로 가청 응답 116(6)인 응답 116(p)을 수신할 수 있다. 대안으로 클라이언트 102(n)에서 변환이 이루어질 수 있다는 점에 유의한다. 따라서, 클라이언트 102(n)는 텍스트/스피치 및 스피치/텍스트 변환 양자를 수행하도록 구성될 수 있는 각각의 변환 모듈 118(n)을 구비하는 것으로 도시된다.

검색 엔진(216)에 의해 수행되는 검색의 경우에, 응답(116)은 검색 결과들(222)을 포함할 수 있다. 복수의 검색 결과 222(m)가 서버 202(a)의 메모리 208(a) 내의 저장 장치(224) 내에 도시되어 있다. 검색 결과들 222(m)은 검색 엔진(216)의 실행에 의해 얻어질 수 있다.

동작 모듈 114(a)은 다양한 방식으로 검색 결과들 222(m)을 정제하도록 구성될 수 있다. 동작 모듈 114(a)은 클라이언트 102(n) 또는 사용자(110)에 관한 정보를 이용하여 검색들을 자동 정제할 수 있다. 정보는 클라이언트 102(n)의 위치, 사용자(110)의 프로파일, 사용자(110)와 연관된 검색 이력, 사용자 선호 또는 기호 등을 포함할 수 있다. 정보는 클라이언트 장치 102(n)에 의해 동작 모듈에 제공될 수 있다. 대안으로, 서비스 106(s)가 정보를 유지하거나, 클라이언트 102(n), 서비스 106(s)의 복수의 서버 202(a) 중 하나, 또는 다른 서비스 등으로부터 정보를 검색할 수 있다.

예를 들어, 검색 결과들 222(m)은 요청 클라이언트 102(n)의 위치에 기초하여 필터링될 수 있다. 따라서, 동작 모듈 114(a)은 검색을 요청하는 클라이언트 102(n)의 위치를 결정하도록 구성될 수 있다. 예를 들어, 클라이언트 위치는 클라이언트 102(n)와 서비스 106(s) 간의 통신에서 제공되는 식별자에 의해 결정될 수 있다. 식별자는 클라이언트 장치 102(n), 통신을 라우팅하는 장비 등과 연관된 식별자일 수 있다. 일례로, 동작 모듈 114(a)은 식별자를 이용하여, 클라이언트 102(n)가 "시카고"에 위치하는 것으로 결정할 수 있다. 따라서, 식당, 호텔, 방향 등에 대한 검색들에 응답하는 검색 결과들 222(m)은 "시카고"로 자동 제한될 수 있다. 위치를 결정하기 위한 다양한 다른 기술도 이용될 수 있다.

예시적인 프로시저

아래의 설명은 전술한 시스템들 및 장치들을 이용하여 구현될 수 있는 음성 개시 동작들을 설명한다. 프로시저들 각각의 양태들은 하드웨어, 펌웨어, 또는 소프트웨어, 또는 이들의 조합으로 구현될 수 있다. 프로시저들은 하나 이상의 장치에 의해 수행되는 동작들을 지정하는 블록들의 세트로서 도시되며, 각각의 블록에 의해 동작들을 수행하기 위해 도시된 순서들로 제한될 필요는 없다. 아래의 설명의 부분들에서는 도 1의 환경(110) 및 도 2의 시스템(200)을 참조한다.

도 3은 서비스가 클라이언트로부터의 스피치 데이터에 기초하여 동작들을 실행하고 응답을 생성하는 프로시저(300)를 나타낸다. 서비스는 네트워크를 통해 클라이언트로부터 스피치 데이터를 수신한다(블록 302). 예를 들어, 도 1에 도시된 서비스 106(s)는 클라이언트 102(1)에게 스피치(112)로서 입력되는 음성 데이터를 수신할 수 있다. 클라이언트 102(1)는 네트워크(104)에 접속되는 무선 인에이블드 랩탑과 같은 이동 컴퓨팅 장치로서 구성될 수 있다. 클라이언트 102(2)의 각각의 통신 모듈 108(1)은 클라이언트 102(2)와 서비스 106(1) 간의 음성 인스턴트 메시징 세션을 제공하도록 실행될 수 있다. 따라서, 스피치(112)는 클라이언트 102(2)에 의해 네트워크(104) 상에서 음성 인스턴트 메시징 세션을 통해 전송될 수 있으며, 서비스 106(s)는 스피치(112)를 수신할 수 있다(예를 들어, "들을" 수 있다).

변환 모듈 118(s)은 스피치 데이터를 텍스트 스트링으로 변환하도록 실행된다(블록 304). 예를 들어, 위의 예에서 수신된 스피치(112)는 텍스트(306)로 변환될 수 있다. 도 1에 도시된 변환 모듈 118(s)은 스피치(112)를 변환하도록 실행될 수 있다. 스피치(112)는 "1", "FOOD", "RUN", "BUY" 등과 같은 간단한 커맨드들을 지정할 수 있거나, 스피치(112)는 예를 들어 "이태리 식당을 찾는다"와 같은 구 또는 문장일 수 있다. 따라서, 변환 모듈 118(s)은 하나 이상의 동작을 개시하기 위해 서비스 106(s)에 의해 사용될 수 있는 명령, 커맨드, 용어 등의 형태로 스피치(112)를 텍스트(306)로 변환한다.

텍스트는 동작 모듈에 제공되며, 동작 모듈은 텍스트를 이용하여 동작들을 수행하고 결과들을 얻는다(블록 308). 이 예를 계속하면서, 이제 텍스트(306)는 예를 들어 "항목 2를 구매한다"라는 커맨드인 것으로 가정한다. 도 1의 동작 모듈 114(s)은 텍스트(306)를 수신한다. 동작 모듈 114(s)은 텍스트(306)를 이용하여 구매 동작을 수행하도록 구성될 수 있다. 예를 들어, 서비스 106(s)는 사용자(110)에게 이메일, 인터넷 등을 통해 음성 인스턴트 메시징 세션 동안 판매 항목들의 리스트를 미리 제공했을 수 있다. 사용자(110)는 리스트를 검토한 후에 리스트 상에서 항목 2를 구매하기로 결정한다. 사용자(110)는 클라이언트 102(1)(예를 들어, 무선 랩탑)를 통해 "항목 2를 구매한다"라는 문구를 스피치로서 클라이언트 102(1)에게 제공하여 원하는 항목의 구매를 개시한다.

동작 모듈 114(s)은 변환된 커맨드를 텍스트(306)로서 수신하고, 구매 동작들을 개시한다. 동작의 결과들(310)이 얻어진다. 예를 들어, 이 예에서 결과는 완료된 트랜잭션, 영수증, 정보 구매를 위한 프롬프트 등일 수 있다. 동작 모듈은 도 1에 도시된 서비스 106(s) 또는 서비스들 106(s) 중 어느 하나 이상에 의해 수행될 수 있는 구매 시퀀스를 개시할 수 있다는 점에 유의해야 한다. 따라서, 서비스 106(s)는 전체 동작을 처리하거나, 원격으로(예를 들어, 특정 서비스 106(s) 내에서가 아니라) 수행될 수 있는 동작을 개시하고 결과들을 얻도록 구성될 수 있다. 물론, 전술한 바와 같은 다양한 동작이 스피치(112)에 응답하여 수행될 수 있다.

동작 모듈은 클라이언트로 전달하기 위해 결과들을 포함하는 응답을 생성한다(블록 312). 위의 예에서, 동작 모듈 114(s)은 예를 들어 "항목 2를 구매한다"라는 커맨드와 같은 구매 동작의 결과들(310)을 포함하는 응답 116(p)을 형성한다. 결과들(310)은 예를 들어 구매 확인일 수 있다. 확인을 포함하는 텍스트 인스턴트 메시지가 형성될 수 있다. 확인을 포함하는 인스턴트 메시지는 클라이언트 102(1)와 서비스 106(s) 간의 인스턴트 메시징 세션을 통해 전달될 수 있다. 따라서, 음성 구매 커맨드에 응답하여, 사용자(110)는 원하는 항목의 구매를 확인하는 텍스트 인스턴트 메시지 응답을 수신한다. 상이한 입력 및 응답 모드들을 갖는 능력은 소정의 클라이언트 장치들 상에서, 또는 소정의 시간들에 텍스트 또는 그래픽 요청을 형성하는 것이 텍스트 또는 그래픽 응답을 읽는 것보다 어려운 사례들에서 바람직할 수 있다. 따라서, 요청들을 구두로 입력하고 응답들을 상이한 또는 다수의 모드(예를 들어, 텍스트, 그래픽, 오디오 등)로 수신하는 능력은 소정의 사례들에서 소정의 사용자들에게 이로울 수 있다.

다른 예에서, 동작 모듈은 가청 응답을 형성할 수 있다. 예를 들어, 구매 확인을 갖는 텍스트 인스턴트 메시지는 변환 모듈 118(s)을 통해 텍스트에서 스피치로 변환될 수 있다. 변환된 확인은 예를 들어 음성 인스턴트 메시징 세션을 통해 실시간으로 전달될 수 있으며, 따라서 사용자(110)는 구매의 가청 확인을 제공받게 된다. 변환된 응답은 합성된 스피치, 기록된 스피치 등일 수 있다. 이 가청 응답은 다른 응답에 더하여, 또는 그 대신에 제공될 수 있다. 전술한 바와 같이, 소정 시간들에서, 가청 응답들은 "바쁘거나", 운전 등 동안에 사용자들에게 보다 편리하거나 안전할 수 있다.

다른 사례에서, 구매 확인을 갖는 텍스트 인스턴트 메시지와 같은 그래픽 응답이 간단한 가청 응답과 함께 제공될 수 있다. 예를 들어, "완료", "성공", "결과 전송" 또는 "다시 시도"와 같은 간단한 가청 응답이 제공될 수 있다. 변환 모듈 118(s)은 간단한 가청 응답을 형성하도록 구성될 수 있다. 이 사례에서, 사용자(110)는 원하는 구매의 가청 및 텍스트 정보 양자를 제공받는다. 이메일, 인스턴트 메시지, 이미지, 비디오, 오디오, 파일, HTML 문서 등 중 하나 이상을 포함할 수 있는 다양한 다른 응답 모드 조합도 고려된다.

도 4는 스피치가 서비스에서 검색을 개시하는 데 사용되는 예시적인 프로시저(400)를 나타낸다. 스피치로서 수신되는 검색 용어들은 웹 검색을 개시하기 위해 서비스로 전달된다(블록 402). 예를 들어, 도 2에 도시된 사용자(110)는 이동 전화로서 구성된 클라이언트 장치 102(n)를 통해 검색을 개시할 수 있다. 따라서, 통신 모듈 108(n)은 네트워크(104)를 통해 무선 음성 서비스를 제공하도록 구성될 수 있으며, 따라서 클라이언트 102(n)는 음성 데이터를 하나 이상의 서비스 106(s)에 전달할 수 있다. 이 예에서, 이동 전화로서 구성된 클라이언트 장치 102(n)의 사용자는 일리노이, 시카고에서 여행하고 있으며, 이태리 음식을 먹기를 원한다. 사용자(110)는 이동 전화를 이용하여, 예를 들어 검색 서비스들을 제공하도록 구성된 도 2의 서비스 106(s)를 호출할 수 있다. 사용자(110)는 번호를 다이얼하고, 콘택들의 리스트로부터 서비스 106(s)를 선택하는 것 등(예를 들어, 음성 활성화 다이얼링)에 의해 서비스와의 상호작용을 개시한다.

따라서, 무선 음성 호출이 서비스 106(s)와 클라이언트 장치 102(n) 간에 개시된다. 사용자(110)는 검색을 개시하기 위해 스피치(112)를 클라이언트 장치 102(n)(이동 전화)에 제공한다. 스피치(112)는 "이태리 식당 시카고"와 같은 검색 용어들을 포함할 수 있다. 클라이언트 장치 102(n)는 검색 용어들(예를 들어, 스피치 112)을 서비스 106(s)로 전달한다. 스피치(112)는 텍스트로 변환될 수 있다. 이어서, 서비스 106(s)는 웹 검색을 개시하기 위해 텍스트 용어들을 검색 엔진(216)에 제공할 수 있다.

웹 검색의 결과들을 포함하는 응답이 서비스로부터 수신된다(블록 404). 최종 예에서, 예를 들어 서비스 106(s)는 구두 용어들 "이태리 식당 시카고"에 의해 개시된 웹 검색의 결과로서 이태리 식당들의 리스트를 얻을 수 있다. 서비스 106(s) 및 구체적으로 응답 모듈(218)은 이태리 식당들의 리스트를 포함하는 응답 116(p)을 형성한다. 응답은 식당들의 이메일 리스트와 같은 간단한 리스트일 수 있다. 응답은 또한 식당들의 리스트, 시카고 지도 및 리스트된 식당들이 위치하는 지도 상의 표시를 갖는 HTML 문서와 같은 텍스트와 그래픽(예를 들어, 그래픽 응답)의 조합을 가질 수 있다. 클라이언트 102(2)는 사용자(110)에 의해 이후 사용될 수 있는 응답을 서비스 106(s)로부터 수신한다. 텍스트, 그래픽, 오디오 등을 조합한 다양한 다른 응답 116(p)도 고려된다.

일 구현에서, 서비스 106(s)는 검색 또는 검색 결과들을 다양한 방식으로 정제하도록 구성될 수 있다. 이전 예에서 서비스 106(s)는 서비스 106(s)에 의해 결정된 클라이언트 102(n)의 위치를 이용하여 검색을 자동 정제할 수 있다. 서비스 106(s)는 예를 들어 무선 음성 호출이 시카고에서 발생하였다거나, 클라이언트 장치 102(n)가 현재 시카고에 있다는 것을 결정할 수 있다. 이 사례에서는, 검색을 개시하기 위한 스피치(112)가 간략화될 수 있다. 사용자(110)는 "이태리 식당 시카고"를 말하는 대신에 "이태리 식당"이라고 말하면 된다. 검색은 서비스 106(s)에 의해 결정되는 클라이언트 위치에 기초하여 자동으로 정제된다. 따라서, 클라이언트 장치 102(n)에 스피치로서 입력된 "이태리 식당"이라는 검색 용어들에 응답하여, 사용자는 그의 현재 위치, 이 예에서는 시카고에서 또는 그 근처에서 이태리 식당에 대한 검색 결과들을 수신할 수 있다.

도 5는 음성에 의해 개시된 동작의 결과들을 포함하는 응답이 형성되는 예시적인 프로시저(500)를 나타낸다. 클라이언트에서 스피치로서 수신된 음성 데이터에 의해 지정된 동작들이 수행된다(블록 502). 이제, 도 1에 도시된 사용자(110)가 도 1에 도시된 PDA 102(3)와 같은 핸드헬드 컴퓨팅 장치를 이용하여 파일을 전송하기를 원하는 것을 가정한다. 파일은 프리젠테이션, 텍스트 문서, 오디오 기록 등과 같은 임의의 컴퓨터 판독 가능 파일일 수 있다. 이 사례에서, 사용자는 파일 "file.txt"를 하나 이상의 동료와 공유하기를 원한다. 파일은 PDA 102(3) 상에 물리적으로 위치하거나, 네트워크(104), 피어 대 피어 네트워크 등을 통해 사용자에 의해 원격 저장 장치에서 액세스될 수 있다. 이 예에서, 사용자(110)는 음성을 이용하여, PDA 102(3)로부터, 또는 원격 위치로부터 하나 이상의 동료가 액세스할 수 있는 네트워크 저장 장치와 같은 다른 위치로의 파일 전송을 개시할 수 있다. 사용자(110)는 PDA 102(3)를 이용하여, 네트워크(104)를 통해 스피치(112)를 서비스 106(s)로 전달한다. 예를 들어, 사용자(110)는 스피치(112)로서 PDA에 의해 수신되는 "전송 file.txt"와 같은 커맨드 또는 구를 말할 수 있다. 스피치(112)에 의해 지정되는 동작들이 서비스 106(s)로 전달된다. 일 구현에서, 스피치(112)는 음성 데이터로서 전달된다. 스피치(112)는, 이후에 지정 동작들을 수행할 수 있는 동작 모듈 114(s)이 이해할 수 있는 명령들로 변환될 수 있다. 예를 들어, 변환 모듈 118(s)은 스피치(112)를 스피치에서 텍스트 명령들로 변환할 수 있다. 대안으로, PDA 102(3)와 같은 클라이언트(102)는 서비스 106(s)로의 전달을 위해 음성 데이터를 텍스트로 변환하도록 구성될 수 있다. PDA 102(3)에 포함된 변환 모듈 118(n)은 스피치에서 텍스트로의 스피치(112)의 변환을 수행하고, 이어서 텍스트 명령들이 서비스 106(s)로 전송된다.

서비스 106(s)는 스피치(112)에 의해 지정된 동작들을 수행한다. 예를 들어, 동작 모듈 114(s)은 PDA 102(3)와 네트워크 저장 위치 간에 파일 "file.txt"를 전송하도록 실행될 수 있다. 이와 같이, 사용자(110)는 다른 사용자들(예를 들어, 하나 이상의 동료)이 파일에 액세스할 수 있는 위치로 파일을 이동시킬 수 있다. 물론, 파일은 다른 방향으로, 예를 들어 서비스 102(s) 또는 다른 네트워크 저장 장치에서 PDA 102(3)로 전송될 수도 있다.

클라이언트로의 전달을 위해 동작의 결과들을 포함하는 응답이 형성된다(블록 504). 위의 예에서, 결과들은 파일의 전송이 성공적이었는지를 지시할 수 있다. 예를 들어, "완료"라고 말하는 가청 응답 116(p)이 형성될 수 있다. 응답 116(p)은 전송 위치 내의 파일들의 리스트를 제공하는 텍스트 메시지, HTML 메시지 등일 수도 있다. "성공"과 같은 가청 응답과 함께 전송을 확인하는 인스턴트 메시지와 같은 응답들 116(s)의 조합이 형성될 수도 있다. 변환 모듈 118(s)이 실시간 스피치 응답들을 PDA 102(3)에 제공하도록 실행될 수 있다.

물론, 프로시저는 파일 검색, 메시지 전송, 계정 액세스, 항목 구매, 파일을 하나 이상의 수신자에게 전송하기, 원격 컴퓨팅 장치 상에서 실행 가능 명령들을 개시하기 등과 같은 다양한 다른 동작을 수행하는 데 이용될 수 있다.

도 6은 PoC가 음성 개시 동작들을 수행하는 데 사용되는 예시적인 프로시저(600)를 나타낸다. PoC 세션이 설정된다(블록 602). 예를 들어, 도 2에 도시된 클라이언트 장치 102(n)는 PoC 인에이블드 이동 전화로서 구성될 수 있다. 이동 전화 클라이언트 102(n)는 PoC 콘택들의 리스트를 유지할 수 있다. 하나 이상의 서비스 106(s)가 PoC 콘택일 수 있다. 사용자(110)가 서비스 106(s)로부터 콘텐츠를 원하는 것으로 가정한다. 서비스 106(s)는 네트워크(104)를 통해 오디오, 비디오, 웹 페이지 등과 같은 다양한 콘텐츠를 제공하도록 구성될 수 있다. 이 사례에서, 사용자(110)는 서비스 106(s)로부터 오디오 콘텐츠를 구한다. 사용자는 PoC 콘택을 선택하고 PoC 세션을 개시한다. 예를 들어, 사용자는 콘텍들로부터 서비스 106(s)를 선택하고 PoC 버튼을 쳐서 세션을 개시할 수 있다. 이동 전화 클라이언트 102(n)와 서비스 106(s) 간에 PoC 세션이 설정된다. 서비스 106(s)는 PoC 세션을 통해 이동 전화 클라이언트 102(n)로부터 즉시 스피치를 들을 수 있다.

스피치 데이터가 PoC 세션을 통해 클라이언트로부터 수신된다(블록 604). 예를 들어, 도 2의 사용자(110)는 스피치(112)를 이동 전화 클라이언트 102(n)에게 제공하며, 이는 PoC 세션을 통해 서비스 106(s)에서 즉시(또는 거의 즉시) 듣게 된다. 스피치(112)는 원하는 오디오 콘텐츠에 대한 요청일 수 있다. 예를 들어, 사용자 스피치(112)는 노래 제목, 아티스트, 플레이 리스트, 위치 등을 포함할 수 있다.

스피치 데이터가 텍스트로 변환된다(블록 606). 이전 예를 계속하면, 원하는 오디오 콘텐츠에 대한 요청은 서비스 106(s)에 의해, 구체적으로는 원하는 동작들을 개시하는 동작 모듈 114(a)에 의해 즉시 이해되지 못할 수 있다. 따라서, 요청은 스피치에서 텍스트, 예를 들어 동작 모듈 114(a)에 의해 이해될 수 있는 명령들로 변환될 수 있다. 도 2에 도시된 바와 같이, 변환 모듈 118(a)은 수신된 스피치(112)를 텍스트로 변환하기 위해 서비스 106(s)의 프로세서 204(a) 상에서 실행될 수 있다. 이 예에서, 스피치(112)에서 지정된 오디오 콘텐츠의 검색을 개시하는 명령들을 제공하는 텍스트가 생성될 수 있다.

텍스트를 이용하여 동작들이 수행된다(블록 608). 예를 들어, 변환 모듈 118(a)에 의해 생성된 텍스트(예를 들어, 명령들)가 동작 모듈 114(a)에 제공되고, 동작 모듈은 텍스트를 이용하여 동작들, 이 사례에서는 오디오 콘텐츠의 검색을 수행할 수 있다. 원하는 오디오 콘텐츠는 서버 202(a), 서비스 106(s)의 복수의 서버(202) 중 하나, 또는 네트워크를 통해 액세스 가능한 다른 서비스(106) 또는 원격 위치를 포함하는 다양한 위치로부터 검색될 수 있다.

클라이언트로의 전달을 위해 동작들의 결과들을 포함하는 응답이 형성된다(블록 610). 예를 들어, 선택된 오디오 콘텐츠에 대한 하이퍼링크를 제공하는 HTML 문서로서 구성된 응답 116(p)이 형성될 수 있다. 응답 116(p)의 수신시, 사용자(110)는 하이퍼링크를 이용하여 콘텐츠에 액세스할 수 있다. 콘텐츠는 스트리밍 또는 비 스트리밍 방식으로 제공될 수 있다. 응답 116(p)은 원하는 콘텐츠 자체의 반환을 포함할 수도 있다. 예를 들어, 응답 116(p)은 오디오 파일을 단독으로 또는 인스턴트 메시징, 이메일 등과 같은 그래픽 응답과 함께 비 스트리밍 방식으로 이동 전화 클라이언트 102(n)에게 제공할 수 있다.

일 구현에서, 설정된 PoC 세션은 가청 응답을 클라이언트에게 전달하는 데 사용될 수 있다. 예를 들어, 가청 응답은 원하는 콘텐츠가 이용가능하거나 이용가능하지 않다는 것, 그래픽 응답이 전송되었다는 것, 콘텐츠를 입수할 수 있는 위치 등을 지시할 수 있다. 따라서, 도 2의 응답 모듈(218)은 응답 116(p)을 형성하는 데 사용될 수 있다. 응답은 변환 모듈 118(a)을 통해 텍스트에서 스피치로 변환될 수 있다. 변환의 결과들은 PoC 세션을 통해 이동 전화 클라이언트 102(n)로 실시간 전송될 수 있다. 다른 구현에서, 원하는 오디오 콘텐츠는 PoC 세션 또는 다른 PoC 세션을 통해 클라이언트에게 스트리밍될 수 있다. PoC를 통한 가청 응답이 다른 응답 모드들에 더하여, 또는 그 대신에 이루어질 수 있다. 예를 들어, 인스턴트 메시지, HTML, 텍스트, 이메일 및 가청 응답이 전술한 바와 같은 다양한 조합으로 형성될 수 있다.

도 7은 음성 개시 검색 결과들이 추가적인 음성 개시 동작들을 수행하는 데 이용되는 프로시저(700)를 나타낸다. 스피치로서 클라이언트에 입력된 용어들을 이용하여 검색이 수행된다(블록 702). 예를 들어, 사용자(110)는 항공편 등에 대한 예약을 행하기를 원할 수 있다. 사용자(110)는 도 1에 도시된 클라이언트 장치들 102(n) 중 하나를 이용하여, 네트워크(104)를 통해 예약을 제공하도록 구성된 서비스 106(n)와 통신할 수 있다. 사용자(110)는 이용 가능한 항공편들에 대한 검색을 개시하기 위해 스피치(112)를 제공할 수 있다. 예를 들어, 사용자가 4월 1일자 오레곤, 포틀랜드와 일리노이, 시카고 간의 항공편들을 찾고자 하는 경우, 사용자(110)는 "항공편, PDX에서 ORD로, 4월 1일"과 같은 검색 용어들을 갖는 스피치(112)를 제공할 수 있다. 스피치(112)에 의해 지정된 검색을 수행하기 위해 검색 엔진(216)이 서비스 106(s) 상에서 실행될 수 있다. 검색 엔진(216)은 변환 모듈 118(a)에 의한 스피치(112)의 변환으로부터 생성된 텍스트 검색 용어들을 제공받을 수 있다. 변환 모듈 118(a)은 검색 엔진(216)과 동일한 서버 상에 도시되어 있지만, 변환은 상이한 서버(202), 클라이언트(102)의 변환 모듈(118) 등에서 수행될 수도 있다.

검색의 결과들이 클라이언트로 전달된다(블록 704). 위의 항공편 검색 예에 응답하여, 사용자(110)는 4월 1일자 오레곤, 포틀랜드와 일리노이, 시카고 간의 5개의 항공편의 리스트를 포함하는 응답 116(p)을 수신할 수 있다. 응답은 HTML 문서, 인스턴트 메시지, 이메일 등과 같은 전술한 다양한 방식으로 포맷팅될 수 있다.

검색 결과들과 연관되고 클라이언트에게 스피치로서 입력되는 명령들에 기초하여 추가 동작들이 수행된다(블록 706). 이전 예의 사용자(110)는 예를 들어 5개의 가능한 항공편을 포함하는 검색의 결과들을 수신하여 본다. 사용자(110)는 이제 항공편들 중 하나를 예약하기를 원할 수 있다. 따라서, 사용자는 검색 결과들과 관련된 추가 스피치(112)를 제공할 수 있다. 예를 들어, 추가 사용자 스피치(112)는 검색 결과들에 리스트된 항공편들 중 하나에 대응하는 "항공편 99 예약"을 지시할 수 있다. 일 구현에서, 사용자는 검색 결과들을 이용하여 추가 동작들을 어떻게 개시할지에 관해 프롬프트될 수도 있다. 예를 들어, 검색 결과들 내의 항목 1이 "이 항공편을 예약하기 위해 1 예약이라고 말한다"를 지시할 수 있다. 추가 스피치(112)에 의해 지정된 동작들은 서비스 106(s)로 전달된다. 서비스는 검색을 수행한 동일 서비스 106(s) 또는 상이한 서비스(106)일 수 있다. 이어서, 서비스는 이전에 제공된 검색 결과들과 관련된 추가 동작들을 수행한다.

따라서, 스피치에 의해 개시된 검색의 결과들은 스피치에 의해 개시된 추가 동작들을 수행하는 데 이용될 수 있다. 물론, 스피치 개시 검색 결과들의 이용은 파일 전송, 파일 검색, 구매 트랜잭션, 여행 예약, 호텔 및 식당 예약 등과 같은 다양한 동작을 수행하는 데 이용될 수 있다. 추가 동작들은 추가 검색 또는 검색 결과들의 정제일 수도 있다.

결론

본 발명은 구조적 특징들 및/또는 방법 동작들에 고유한 언어로 설명되었지만, 첨부된 청구범위에 정의되는 본 발명은 설명된 특정 특징들 또는 동작들로 한정될 필요는 없다는 것을 이해해야 한다. 오히려, 특정 특징들 및 동작들은 청구 발명을 구현하는 예시적인 형태들로서 개시된다.

Claims

네트워크를 통해 수신된 음성 커맨드를 변환하는 단계;

변환된 커맨드를 수행하여 그래픽 응답을 형성하는 단계; 및

상기 네트워크를 통해 상기 음성 커맨드의 송신자에게 전달할 상기 그래픽 응답을 포함하는 통신을 형성하는 단계

를 포함하는 방법.
제1항에 있어서, 상기 그래픽 응답은 이메일인 방법.
제1항에 있어서, 상기 그래픽 응답은 하이퍼텍스트 마크업 언어(HTML) 문서인 방법.
제1항에 있어서, 상기 그래픽 응답은 인스턴트 메시지인 방법.
제1항에 있어서, 상기 음성 커맨드는 PoC(push to talk over cellular) 세션을 통해 수신되는 방법.
제1항에 있어서, 상기 음성 커맨드는 핸드헬드 클라이언트 장치로부터 수신되는 방법.
제1항에 있어서, 상기 음성 커맨드는 음성 인스턴트 메시징 세션을 통해 수신되는 방법.
제1항에 있어서, 상기 음성 커맨드는 검색; 금융 트랜잭션; 구매 트랜잭션; 파일 전송; 예약 및 다운로드로 이루어진 그룹으로부터 선택되어 수행될 적어도 하나의 동작을 지정하는 방법.
클라이언트에서 스피치로서 수신된 음성 데이터에 의해 지정된 검색을 수행하는 단계; 및

상기 음성 데이터를 생성한 클라이언트에게 네트워크를 통해 전달할 검색 결과들을 포함하는 응답을 형성하는 단계

를 포함하는 방법.
제9항에 있어서, 상기 음성 데이터를 텍스트 검색 용어들로 변환하는 단계를 더 포함하는 방법.
제9항에 있어서, 상기 변환된 음성 데이터는 상기 검색을 수행하는 모듈에 의해 이해될 수 있고, 상기 음성 데이터는 상기 모듈에 의해 이해될 수 없는 방법.
제9항에 있어서, 상기 응답은 이메일; 텍스트; html 문서; 인스턴트 메시지; 이미지 및 가청 사운드로 이루어진 그룹으로부터 선택되는 하나 이상의 항목을 포함하는 방법.
제9항에 있어서, 상기 검색 결과들은 상기 클라이언트의 위치에 기초하여 자동 정제되는 방법.
제9항에 있어서, 상기 검색 결과들을 텍스트에서 가청 응답으로 변환하는 단계를 더 포함하는 방법.
제9항에 있어서, 상기 응답은 실시간 가청 응답인 방법.
제9항에 있어서, 상기 검색 결과들과 연관되고 상기 클라이언트에게 스피치로서 입력되는 추가 음성 데이터에 기초하여 동작을 수행하는 단계를 더 포함하는 방법.
컴퓨터 상에서 실행될 때, 인터넷 검색 엔진으로의 입력을 위해 이동 장치를 통해 입력된 음성 데이터를 텍스트 검색 스트링으로 변환하도록 상기 컴퓨터에게 지시하는 컴퓨터 실행 가능 명령들을 포함하는 하나 이상의 컴퓨터 판독 가능 매체.
제17항에 있어서, 상기 음성 데이터는 PoC 세션을 통해 상기 인터넷 검색 엔진으로 전달되는 하나 이상의 컴퓨터 판독 가능 매체.
제17항에 있어서, 상기 음성 데이터의 송신자에게 검색 결과들을 제공하는 명령들을 더 포함하는 하나 이상의 컴퓨터 판독 가능 매체.
제18항에 있어서, 상기 송신자에게 제공되는 검색 결과들은 들을 수 없는 것인 하나 이상의 컴퓨터 판독 가능 매체.