KR20080086465A - 음성 개시 네트워크 동작 방법 및 컴퓨터 판독가능 매체 - Google Patents

음성 개시 네트워크 동작 방법 및 컴퓨터 판독가능 매체 Download PDF

Info

Publication number
KR20080086465A
KR20080086465A KR1020087015106A KR20087015106A KR20080086465A KR 20080086465 A KR20080086465 A KR 20080086465A KR 1020087015106 A KR1020087015106 A KR 1020087015106A KR 20087015106 A KR20087015106 A KR 20087015106A KR 20080086465 A KR20080086465 A KR 20080086465A
Authority
KR
South Korea
Prior art keywords
response
speech
client
search
text
Prior art date
Application number
KR1020087015106A
Other languages
English (en)
Inventor
쿠엔틴 밀러
존 제이. 오스트룬트
아난드 라마크리슈나
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20080086465A publication Critical patent/KR20080086465A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/4061Push-to services, e.g. push-to-talk or push-to-video
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/10Architectures or entities
    • H04L65/1016IP multimedia subsystem [IMS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/40Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2201/00Electronic components, circuits, software, systems or apparatus used in telephone systems
    • H04M2201/60Medium conversion

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)

Abstract

음성 개시 네트워크 동작들의 실시예들이 제공된다.
휴대용 전자 장치, 음성 개시 네트워크 동작, 음성 커맨드 변환, 그래픽 응답

Description

음성 개시 네트워크 동작 방법 및 컴퓨터 판독가능 매체{VOICE INITIATED NETWORK OPERATIONS}
본 발명은 음성 개시 네트워크 동작들에 관한 것이다.
랩탑 컴퓨터, 무선 전화, 개인 휴대 단말기, 무선 장치, 게임 시스템, 및 오디오 플레이어와 같은 휴대형 전자 장치들은 점차 대중화되고 있다. 사용자들은 이메일, 인스턴트 메시징 등을 이용하여 서로 통신하는 것과 같은 다양한 활동을 위해 이러한 장치들 중 하나 이상을 사용할 수 있다. 또한, 사용자들은 네트워크를 통해 다양한 콘텐츠에 액세스하기 위해 이들 장치 중 하나 이상을 사용할 수 있다. 그러나, 작은 크기의 휴대형 전자 장치들은 사용자 활동들을 방해할 수 있다.
예를 들어, 소형의 휴대형 전자 장치들은 텍스트 입력에 적합하지 않다. 또한, 운전이나 여행을 하는 있는 동안과 같이 "바쁜" 중에 정보를 휴대형 전자 장치들에 입력하는 것은 어렵고, 안전하지 않고, 그리고/또는 불편할 수 있다.
<발명의 요약>
다른 입력 메커니즘들이 바람직하지 않거나, 불편하거나, 불가능할 때와 같이 사용자가 동작들을 수행하는 것을 돕는 데 사용될 수 있는 동작들의 음성 개시가 설명된다. 사용자는 스피치를 클라이언트 장치에 제공한다. 스피치는 텍스트 로 변환된다. 텍스트는 동작들을 수행하고 결과들을 얻는 데 사용된다. 동작의 결과들을 클라이언트 장치로 전달하기 위해 응답이 형성된다. 응답은 텍스트는 물론, 비 텍스트 부분들(예를 들어, 그래픽, 오디오 등)을 통합하는 것과 같은 다양한 방식으로 포맷팅될 수 있다. 예를 들어, 검색 엔진에 의해 수행되는 검색 동작은 사용자 스피치에 의해 개시될 수 있다. 검색의 결과들은 사용자에게 제공된다. 이어서, 사용자는 검색 결과들을 이용한 추가 스피치로 추가 동작들을 개시할 수 있다.
본 요약은 아래의 상세한 설명에서 더 설명되는 개념들의 선택을 간단한 형태로 소개하기 위해 제공된다. 본 요약은 청구 내용의 중요한 특징들 또는 필수적인 특징들을 식별하고자 하는 의도도 없고, 청구 내용의 범위를 결정할 때 보조물로서 사용하고자 하는 의도도 없다.
도 1은 음성 개시 동작 기술들을 이용하기 위해 동작 가능한 일 실시예의 환경을 나타내는 도면.
도 2는 도 1의 예시적인 클라이언트들 및 서비스를 더 상세히 나타내는 일 실시예의 시스템의 도면.
도 3은 음성 개시 동작들이 수행되고 응답이 생성되는 일 실시예의 프로시저를 나타내는 흐름도.
도 4는 스피치에 의해 웹 검색이 개시되는 일 실시예의 프로시저를 나타내는 흐름도.
도 5는 음성 개시 동작들이 수행되고 응답이 생성되는 다른 실시예의 프로시저를 나타내는 흐름도.
도 6은 음성 개시 동작들을 위해 PoC(push to talk over cellular) 세션이 이용되는 일 실시예의 프로시저를 나타내는 흐름도.
도 7은 음성 개시 검색의 결과들이 추가 음성 개시 동작들을 위해 이용되는 일 실시예의 프로시저를 나타내는 흐름도.
설명의 사례들에서 동일 참조 번호들은 동일 구조들 및 컴포넌트들을 참조하는 데 사용된다.
개요
소정의 환경들에서, 컴퓨팅 장치, 핸드헬드 또는 이동 장치로의 (예를 들어, 손에 의한) 수동 입력은 불편하거나, 안전하지 않거나, 불가능할 수 있다. 다양한 구현에서, 구두 커맨드들 또는 용어들과 같은 스피치를 통해 동작들을 개시하는 데 이용될 수 있는 기술들이 설명된다.
예를 들어, 사용자는 이동 전화, 컴퓨팅 장치, 개인 휴대 단말기(PDA) 등과 같은 클라이언트 장치에 스피치를 제공할 수 있다. 이어서, 스피치는 텍스트로 변환된다. 이어서, 변환된 텍스트는 변환된 텍스트에 기초하여 하나 이상의 동작을 수행하기 위해 서비스에 의해 사용될 수 있다. 다양한 동작이 고려된다.
예를 들어, 텍스트는 검색을 수행하기 위해 인터넷 검색 엔진에 제공되는 검색 용어들로서 사용될 수 있다. 동작들의 결과들이 얻어진다. 결과들을 포함하는 응답이 형성된 후, 사용자를 위해 클라이언트 장치로 제공된다. 응답은 이메일, 하이퍼 텍스트 마크업 언어(HTML), 인스턴트 메시징, 오디오 등을 통하는 것과 같은 다양한 방식으로 제공될 수 있다. 예를 들어, 사용자는 가장 가까운 식당에 대한 구두 요청에 응답하여 식당들의 지도 및 리스트를 갖는 HTML 문서를 제공받을 수 있다. 일 구현에서, 동작은 클라이언트 장치의 위치에 의해 자동으로 정교화될 수 있다. 따라서, 식당들에 대한 검색은 클라이언트 장치의 위치에 기초하여 5개의 가장 가까운 식당을 자동으로 반환할 수 있다.
아래의 설명에서는, 스피치 개시 동작들을 제공하는 기술들을 이용하도록 동작 가능한 예시적인 환경이 먼저 설명된다. 이어서, 스피치 개시 동작 기술들을 제공하기 위해 예시적인 환경에서는 물론, 다른 환경들에서 동작 가능한 예시적인 프로시저들 및 사용자 인터페이스들이 설명된다.
예시적인 환경
도 1은 음성 개시 동작 기술들을 이용하도록 동작 가능한 일 실시예의 환경(100)의 도면이다. 환경(100)은 네트워크(104)에 통신 결합되는 복수의 클라이언트 102(1), 102(2), 102(3),... 102(N)을 포함하는 것으로 도시되어 있다. 아래의 설명에서 복수의 클라이언트 102(1) 내지 102(N)은 클라이언트들 102(n)(여기서, n은 1에서 "N"까지의 임의 정수일 수 있다)로도 지칭될 수 있다. 복수의 클라이언트 102(n)는 다양한 방식으로 구성될 수 있다. 예를 들어, 클라이언트들 102(n) 중 하나 이상은 데스크탑 컴퓨터, 이동국, 게임 콘솔, 오락 기구, 표시 장치에 통신 결합되는 셋톱 박스, 무선 전화 등과 같이 네트워크(104)를 통해 통신할 수 있는 컴퓨터로서 구성될 수 있다. 클라이언트들 102(n)은 랩탑, 이동 전화 102(2), PDA 102(3), 오디오 플레이어 등과 같은 휴대형 전자 장치들일 수도 있다. 클라이언트들 102(n)은 무선 접속, 유선 접속 등을 통해 네트워크(104)에 액세스하도록 구성될 수 있다. 클라이언트들 102(n)은 풍부한 메모리 및 프로세서 자원들을 갖는 충분 자원 장치들(예를 들어, 개인용 컴퓨터, 하드 디스크를 구비한 텔레비전 레코더, 게임 콘솔)에서 제한된 메모리 및/또는 프로세싱 자원들을 갖는 저 자원 장치들(예를 들어, 통상의 셋톱 박스)까지의 범위에 이를 수 있다. 아래의 설명에서, 클라이언트들 102(n)은 클라이언트를 조작하는 개인 및/또는 엔티티와 관련될 수도 있다. 즉, 클라이언트들 102(n)은 사용자 및/또는 기계를 포함하는 논리적 클라이언트를 기술할 수 있다.
또한, 네트워크(104)는 인터넷으로 도시되어 있지만, 다양한 구성을 취할 수 있다. 예를 들어, 네트워크(104)는 원거리 네트워크(WAN), 근거리 네트워크(LAN), 무선 네트워크, 공중 전화 네트워크, 인트라넷 등을 포함할 수 있다. 또한, 단일 네트워크(104)가 도시되어 있지만, 네트워크(104)는 다수의 네트워크를 포함하도록 구성될 수 있다. 예를 들어, 복수의 클라이언트 102(n)는 무선 네트워크를 통해 서로 통신하도록 결합될 수 있다. 이들 클라이언트 각각은 인터넷을 통해 도 1에 도시된 복수의 서비스 106(s)(여기서 "s"는 1에서 "S"까지의 임의의 정수일 수 있다) 중 하나 이상에 통신 결합될 수 있다. 다양한 다른 예도 고려된다.
도 1에 도시된 바와 같이, 복수의 서비스 106(s)는 네트워크(104)를 통해 클라이언트들 102(n)에 액세스할 수 있다. 서비스들 106(s)은 다양한 방식으로 구성될 수 있다. 서비스들 106(s)은 일반적으로 네트워크(104)를 통해 클라이언트들 102(n)에게 자원들(예를 들어, 서비스들 및 콘텐츠)을 제공한다. 자원들은 웹 페이지, 음악, 비디오, 이미지, 사용자 포럼, 템플릿, 애드-인, 웹 로그(블로그) 등과 같은 다양한 콘텐츠로서 구성될 수 있다. 또한, 서비스들 106(s)은 인스턴트 메시징 서비스, 이메일 서비스, 검색 서비스, 온라인 쇼핑, 금융 서비스 등과 같은 서비스들인 자원들을 제공할 수 있다. 클라이언트는 통신, 검색, 계정 액세스, 파일 관리, 소비자 활동 등과 같은 다양한 활동을 개시하기 위해 서비스 106(s)에 액세스할 수 있다.
복수의 클라이언트 102(n) 각각은 복수의 통신 모듈 108(n) 중 각각의 하나를 포함하는 것으로 도시되어 있다. 도시된 구현에서, 복수의 통신 모듈 108(n) 각각은 복수의 클라이언트 102(n) 사이, 클라이언트(102)와 하나 이상의 서비스 106(s) 사이 등에 통신 모드들을 제공하기 위해 복수의 클라이언트 102(n) 중 각각의 하나 상에서 실행될 수 있다. 따라서, 통신 모듈 108(n)은 네트워크(104)를 통해 정보, 음성 데이터, 메시지 등을 송수신하기 위해 클라이언트 102(n)에 제공되는 기능을 나타낸다.
예를 들어, 통신 모듈들 108(n) 중 하나 이상은 이메일을 송수신하도록 구성될 수 있다. 이메일은 이메일이 라우터, 다른 컴퓨팅 장치(예를 들어, 이메일 서버) 등과 같은 복수의 장치를 이용하여 네트워크(104)를 통해 전달될 수 있도록 하기 위해 어드레싱 및 라우팅을 위한 표준들 및 규약들을 이용한다. 이와 같이, 이메일들은 인트라넷을 통해 회사 내에서, 인터넷을 이용하여 전 세계에 등등으로 전송될 수 있다. 이메일은 예를 들어 헤더, 및 텍스트 및 첨부물, 예를 들어 문서, 컴퓨터 실행 가능 파일 등과 같은 사용자 지정 페이로드를 포함할 수 있다. 헤더는 소스에 관한 기술 정보를 포함하고, 종종 송신자에서 수신자로 메시지가 이동하는 경로를 기술할 수 있다.
통신 모듈 108(n)은 셀룰러 또는 무선 음성 서비스를 제공하도록 구성될 수도 있다. 무선 음성 서비스는 복수의 클라이언트 102(n) 및/또는 클라이언트 102(n)와 서비스 106(s) 간에 음성 데이터를 전달하기 위한 메커니즘을 제공한다. 예를 들어, 클라이언트 102(n)는 음성 데이터를 실시간으로 또는 거의 실시간으로 다른 클라이언트에게 전달할 수 있다. 따라서, 복수의 클라이언트 102(n)는 무선 네트워크를 통해 대화에 참여할 수 있다. 클라이언트 102(n)는 음성 데이터를 서비스들 106(s) 중 하나 이상에 전달할 수도 있다.
또한, 통신 모듈 108(n)은 PoC 기능을 제공하도록 구성될 수 있다. PoC는 하나 이상의 클라이언트 102(n) 및/또는 서비스들(106) 사이의 거의 즉석 통신을 허가하는 양방향 형태의 통신이다. 통신 모듈 108(n)은 PoC 세션을 개시하기 위해 선택될 수 있는 PoC 콘택들 또는 그룹들의 리스트를 제공할 수 있다. 클라이언트 102(n)는 PoC 세션 동안 이야기하기 위해 누를 수 있는 PoC 버튼을 갖도록 구성될 수 있다. PoC 세션을 통해, 수신 콘택 또는 그룹은 그들 파트에서의 어떠한 액션 없이도 송신자의 음성을 들을 수 있다. 따라서, PoC는 "워키토키" 또는 인터컴을 이용하는 것과 유사하다. PoC는 무선 음성 네트워크, 피어 대 피어 네트워크, 인터넷 등을 통해 구현될 수 있다. 명칭은 "셀룰러"를 지시하지만, PoC는 이동 전화, 랩탑, 핸드헬드 장치, 데스크탑 컴퓨팅 장치 등을 포함하는 다양한 방식으로 구성된 클라이언트 102(n) 상에서 이용될 수 있다. 예를 들어, PoC 세션은 인터넷을 통해 데스크탑 컴퓨팅 장치와 서비스 106(n) 사이에 설정될 수 있다.
다른 예에서, 통신 모듈들 108(n) 중 하나 이상은 인스턴트 메시지들을 송수신하도록 구성될 수 있다. 인스턴트 메시징은 클라이언트들 102(n) 각각이 인스턴트 메시징 세션에 참여할 때 텍스트 메시지들을 서로에게 전송할 수 있도록 하는 메커니즘을 제공한다. 인스턴트 메시징은 또한 인스턴트 메시징 세션을 통해 음성 데이터가 교환될 수 있도록 하는 음성 인스턴트 메시징 기능을 제공할 수 있다. 인스턴트 메시지들은 통상적으로 실시간으로 통신되지만, 클라이언트들 102(n) 중 하나가 이용가능하지 않을 때, 예를 들어 오프라인 상태일 때 텍스트 메시지들을 로깅하는 것 등에 의해 지연 전달이 이용될 수도 있다. 따라서, 인스턴트 메시징은 메시지 교환을 지원하고 양방향 라이브 채팅을 위해 설계된다는 점에서 이메일과 인터넷 채팅의 조합으로 간주될 수 있다. 따라서, 인스턴트 메시징은 동기 통신에 이용될 수 있다. 예를 들어, 음성 전화 호출과 같이, 인스턴트 메시징 세션은 인스턴트 메시지들이 수신될 때 각각의 사용자가 각각의 다른 사용자에게 응답할 수 있도록 실시간으로 수행될 수 있다.
PoC, 무선 음성 서비스, 인스턴트 메시징 및 이메일이 설명되었지만, 통신 모드들은 그의 사상 및 범위를 벗어나지 않고 다양한 다른 구성을 취할 수 있다. 또한, 개별 클라이언트 102(n)(및 구체적으로 클라이언트 102(n)의 통신 모듈)는 인스턴트 메시징 및 무선 음성 양자를 제공하는 것과 같은 다양한 상이한 통신 모드들의 조합을 제공하도록 구성될 수 있다.
통신 모듈 108(n)은 구두 커맨드들을 수신하고 서비스 106(s)와 통신하는 기능을 더 제공할 수 있다. 도 1은 복수의 클라이언트 102(n) 중 하나 이상을 사용할 수 있는 다양한 사용자를 대표하는 사용자(110)를 도시한다. 사용자(110)는 클라이언트 102(1)에 스피치(112)를 제공하는 것으로 도시된다. 스피치(112)는 서비스 106(s)에 의해 수행될 동작들을 지정할 수 있는 사용자(110)와 같은 사용자의 구두 단어들을 나타낸다. 스피치(112)는 클라이언트 102(1)에 의해 수신되고, 통신 모듈 108(1)에 의해 네트워크(104)를 통해 서비스 106(s)로 전달될 수 있다. 후술하는 바와 같이, 스피치(112)는 음성 데이터로서 또는 변환된 음성 데이터(예를 들어, 텍스트)로서 서비스(106)에 전달될 수 있다.
서비스들 106(s) 각각은 하나 이상의 동작 모듈 114(s)을 포함한다. 동작 모듈들 114(s)은 사용자(110)의 스피치(112)에 의해 지정되는 하나 이상의 동작을 수행하도록 실행될 수 있는 기능을 나타낸다. 따라서, 스피치(112)는 동작 모듈 114(s)에 의해 동작들을 개시하는 데 사용될 수 있다. 동작 모듈 114(s)은 또한 스피치(112)에 의해 지정되는 동작들의 결과들을 포함하는 응답을 포맷팅하는 기능을 나타낸다. 동작 모듈들 114(s)은 다양한 동작을 제공하도록 구성될 수 있다. 동작 모듈 114(s)에 의해 수행될 수 있는 동작들은 검색, 항목 구매, 서비스 예약(예를 들어, 식당, 살롱, 자동차 정비사 등), 여행 예약, 계정 액세스, 콘텐츠 액세스, 저장 콘텐츠 검색, 항목 다운로드 등을 포함하지만, 이에 한정되지 않는다.
일 구현에서, 동작 모듈 114(s)은 동작 모듈 114(s)에 의해 수행된 동작들의 결과들을 포함하는 응답 116(p)을 클라이언트 102(n)에게 제공하도록 구성될 수 있다. 응답 116(p)은 다양한 텍스트 및/또는 비 텍스트 부분들(예를 들어, 그래픽 메시지, 오디오 메시지 등)을 포함하는 것과 같은 다양한 방식으로 구성될 수 있다. 다양한 응답 116(p)에 대한 추가 설명은 도 2와 관련하여 발견될 수 있다.
일 구현에서, 서비스 106(s)는 스피치(112)를 음성 데이터로서 수신할 수 있다. 그러나, 소정의 사례들에서 동작 모듈 114(s)은 지정된 동작들을 수행하기 위한 음성 데이터를 이해하지 못할 수도 있다. 따라서, 변환이 수행될 수 있다. 예를 들어, 각각의 서비스 106(s)는 각각의 변환 모듈 118(s)을 갖는 것으로 도시된다. 변환 모듈 118(s)은 서비스 106(s)의 동작 모듈 114(s)과 같이 원하는 동작들을 수행하도록 구성되는 모듈이 이해할 수 있도록 음성 데이터와 텍스트 커맨드들 간의 변환을 행하는 기능을 나타낸다. 예를 들어, 음성 데이터로서 수신된 스피치(112)는 변환 모듈 118(s)에 의해 동작 모듈 114(s)이 이해할 수 있는 텍스트로 변환될 수 있다. 이어서, 동작 모듈 114(s)은 변환된 스피치(예를 들어, 텍스트)를 이용하여 스피치(112)에 의해 지정되는 동작들을 수행할 수 있다. 일 구현에서, 변환 모듈 118(s)은 또한 클라이언트 102(n)에게 전달하기 위해 응답 116(p)을 음성 데이터로 변환하도록 구성될 수 있다.
서비스 106(s) 상의 변환 모듈 118(s)의 실행이 설명되었지만, 클라이언트 102(n)는 유사한 기능을 이용할 수도 있다. 예를 들어, 도 1은 각각의 클라이언트 102(10)-102(N)가 각각의 변환 모듈 118(1)-118(N)을 갖는 것으로 도시한다. 일 구현에서, 클라이언트 102(n)에 의해 수신된 스피치(112)는 클라이언트에서 텍스트로 변환될 수 있다. 이어서, 서비스 106(s), 구체적으로 동작 모듈 114(s)은 수행할 동작들을 지정하는, 동작 모듈 114(s)이 이해할 수 있는 텍스트를 수신한다. 또한, 클라이언트 102(n)에게 제공되는 비 가청 응답 116(p) 또는 그 일부는 클라이언트 102(n)에 의해 스피치로 변환될 수 있다. 변환 모듈들(118)을 통한 음성 데이터 변환의 추가 설명은 도 2와 관련하여 발견될 수 있다.
일 구현에서, 단일 서비스 106(s)가 다수의 동작을 수행할 수 있다. 예를 들어, 사용자(110)는 서비스 106(s)가 웹 페이지, 비디오, 오디오 등과 같은 이용 가능 콘텐츠에 대한 검색을 수행하게 하는 스피치(112)를 제공할 수 있다. 사용자(110)는 콘텐츠에 미리 가입하였거나 구매했을 수 있거나, 콘텐츠를 구매하기를 원할 수 있다. 콘텐츠는 네트워크(104)를 통해 클라이언트 102(n)가 액세스할 수 있는 저장 장치 등에 사용자에 의해 유지되는 항목들일 수도 있다. 검색은 클라이언트 102(n)에게 제공되는 이용 가능 콘텐츠를 리스트하는 검색 결과들을 생성한다. 이어서, 사용자(110)는 이용 가능 콘텐츠를 볼 수 있고, 검색 결과들에 포함된 콘텐츠 항목을 클라이언트에게 스트리밍하는 동작, 콘텐츠를 다운로드하는 동작, 콘텐츠를 구매하는 동작 등과 같은 추가 동작들을 개시하도록 추가 스피치(112)를 제공할 수 있다.
대안으로, 복수의 서비스 106(s)는 다수의 동작을 수행하기 위해 조합하여 사용될 수 있다. 따라서, 동일 서비스(106) 또는 다른 서비스 106(s)에 의해 추가 동작들이 수행될 수 있다. 다른 예에서, 사용자(110)는 복수의 서비스 106(s) 중 하나를 이용하여 이용 가능 항공편들과 같은 여행 옵션들에 대한 검색을 개시하기 위하여 스피치(112)를 이용할 수 있다. 이어서, 검색 결과를 수신한 때, 사용자(110)는 복수의 서비스 106(s) 중 다른 하나를 통해 검색 결과들에서 지시되는 특정 항공편을 예약하기 위한 동작을 개시하기 위해 추가 스피치를 이용할 수 있다. 스피치에 응답하는 동작 수행의 추가 설명은 도 3-7과 관련하여 발견될 수 있다.
일반적으로, 여기에 설명되는 임의의 기능은 소프트웨어, 펌웨어(예를 들어, 고정 로직 회로), 수동 처리, 또는 이러한 구현들의 조합을 이용하여 구현될 수 있다. 여기서 사용되는 바와 같은 "모듈" 및 "로직"이라는 용어는 일반적으로 소프트웨어, 펌웨어 또는 소프트웨어와 펌웨어의 조합을 나타낸다. 소프트웨어 구현의 경우에, 모듈, 기능, 또는 로직은 프로세서(예를 들어, CPU 또는 CPU들) 상에서 실행될 때 지정된 태스크들을 수행하는 프로그램 코드를 나타낸다. 프로그램 코드는 하나 이상의 컴퓨터 판독 가능 메모리 장치에 저장될 수 있으며, 이에 대한 추가 설명은 도 2와 관련하여 발견될 수 있다. 후술하는 스피치 기술들의 특징들은 플랫폼 독립적이며, 이는 이 기술들이 다양한 프로세서를 구비하는 다양한 상용 컴퓨팅 플랫폼 상에서 구현될 수 있음을 의미한다.
도 2는 도 1의 예시적인 클라이언트 102(n) 및 서비스 106(s)를 더 상세히 나타내는 일 실시예의 시스템(200)의 도면이다. 서비스 106(s)는 복수의 서버 202(a)("a"는 1에서 "A"까지의 임의 정수일 수 있다)에 의해 구현되는 것으로 도시되며, 클라이언트 102(n)는 클라이언트 장치로서 도시되어 있다. 서버들 202(a) 및 클라이언트 102(n)는 각각의 프로세서 204(a), 206(n) 및 각각의 메모리 208(a), 210(n)를 구비하는 것으로 각각 도시되어 있다.
프로세서들은 이들이 형성되는 재료들 또는 그 안에서 이용되는 처리 메커니즘들에 의해 한정되지 않는다. 예를 들어, 프로세서들은 반도체(들) 및/또는 트랜지스터들(예를 들어, 전자 집적 회로(IC)들)을 포함할 수 있다. 이러한 상황에서, 프로세서 실행 가능 명령들은 전자적으로 실행 가능한 명령들일 수 있다. 대안으로, 프로세서들의 또는 프로세서들을 위한, 따라서 컴퓨팅 장치의 또는 컴퓨팅 장치를 위한 메커니즘들은 양자 컴퓨팅, 광학 컴퓨팅, 기계 컴퓨팅(예를 들어, 나노기술을 이용함) 등을 포함할 수 있지만 이에 한정되지 않는다. 또한, 서버들 202(a) 및 클라이언트 102(n)에 대해 각각 단일 메모리 208(a), 210(n)가 도시되어 있지만, 랜덤 액세스 메모리(RAM), 하드 디스크 메모리, 이동식 매체 메모리 등과 같은 다양한 메모리 타입 및 조합이 이용될 수 있다.
동작 모듈들 114(a) 및 변환 모듈 118(a)은 서버 202(a)의 프로세서 204(a) 상에서 실행되는 것으로 도시된다. 물론, 동작 모듈 114(a) 및 변환 모듈 118(a)은 동일 서비스 106(s) 내의, 또는 도 1에 도시된 복수의 서비스(106) 중 상이한 서비스들 내의 상이한 각각의 서버들 상에서도 제공될 수 있다. 여기에 설명되는 다양한 모듈과 연관된 기능들은 그의 사상 및 범위를 벗어나지 않고 더 조합되거나 분할될 수 있다는 점에 유의한다. 예를 들어, 동작 모듈들 114(a) 및 변환 모듈 118(a)이 별개로 도시되어 있지만, 각각의 기능은 단일 모듈 내에 제공될 수도 있다.
변환 모듈 118(a)은 또한 스피치/텍스트 모듈(212) 및 텍스트/스피치 모듈(214)을 구비하는 것으로 도시되어 있다. 스피치/텍스트 모듈(212)은 스피치 데이터로서 클라이언트 102(2)에 의해 제공되는 스피치(112)를, 동작들을 수행하기 위해 동작 모듈 114(a)에 의해 사용될 수 있는 텍스트로 변환하는 기능을 나타낸다. 텍스트/스피치 모듈(214)은 동작들의 결과들(예를 들어, 응답 116(p) 또는 그 일부)을 음성 데이터(예를 들어, 가청 사운드)로 변환할 수 있는 기능을 나타낸다. 텍스트/스피치 모듈(214)은 실시간 가청 결과들을 클라이언트 102(n)에게 전달하도록 구성될 수 있다. 대안으로, 텍스트/스피치 모듈(214)은 클라이언트 102(n)가 액세스할 수 있는 음성 이메일, 오디오 파일 등과 같은 오디오 기록으로서 저장될 가청 결과들을 생성할 수 있다.
일 구현에서, 하나 이상의 서비스 106(s)는 음성 개시 검색 동작들을 제공할 수 있다. 도 2에 도시된 바와 같은 동작 모듈 114(a)은 검색 동작들을 제공하도록 구성된다. 검색 엔진(216)은 동작 모듈 114(a) 내의 프로세서 204(a) 상에서 실행되는 것으로 도시되며, 메모리 208(a)에 저장 가능하다. 검색 엔진(216)은 다양한 검색을 수행하는 데 사용될 수 있다. 이들은 일반적인 웹 또는 인터넷, 개인용 데스크탑, 비디오, 오디오, 기업, 포토 및/또는 로컬 검색을 포함하지만 이에 한정되지 않는다. 검색들은 사용자(110)에 의해 클라이언트 102(n)에게 스피치로서 제공되는 키워드들에 기초할 수 있다. 대안으로, 사용자(110)의 스피치는 검색 엔진(216)에 검색 용어들을 제공하는 저장된 검색을 식별할 수 있다. 물론, 검색 동작들은 단일 동작 모듈 114(a) 내의 다른 동작들과 조합될 수 있다. 즉, 검색들을 제공하도록 구성되는 동작 모듈 114(a)은 검색 제공으로 한정되지 않을 수 있다.
일 구현에서, 동작 모듈 114(a)은 응답 모듈(218)을 포함한다. 응답 모듈(218)은 서비스 106(s)에 의해 수행되는 동작들의 결과들을 포함하는 응답 116(p)을 형성하는 기능을 나타낸다. 응답 116(p)은 네트워크(114)를 통해 클라이언트 102(n)에게 전달되도록 구성된다. 대안으로, 결과는 원격 저장되고, 클라이언트 102(n)에 의해, 또는 클라이언트 102(n) 또는 다른 장치를 통해 사용자(110)에 의해 액세스될 수 있다. 물론, 응답 116(p) 내의 결과들은 단일 동작 모듈 114(a), 단일 서비스 106(s)의 다수의 동작, 복수의 서비스 106(s)에 의해 공동으로 수행되는 다수의 동작의 집합 등으로부터 유래할 수 있다.
응답 116(p)은 다양한 방식으로 구성될 수 있다. 다양한 응답 116(p)이 서버 202(a)의 메모리 208(a) 내의 저장 장치(220) 내에 도시되어 있다. 응답 116(p)은 텍스트와 그래픽을 조합한 그래픽 응답일 수 있다. 따라서, 가청 입력(예를 들어, 스피치 112)에 응답하여, 사용자(110)는 클라이언트 102(n)를 통해 예를 들어 가청 응답이 아닌 다른 포맷으로 응답 116(p)을 수신할 수 있다. 대안으로, 사용자(110)는 가청 부분들을 텍스트 및 그래픽 부분들과 조합한 응답을 수신할 수 있다. 따라서, 응답들 116(p)은 텍스트, 그래픽, 비디오, 오디오 등의 조합을 포함할 수 있다.
예를 들어, 도 2에 도시된 바와 같이, 응답 116(p)은 이메일 116(1), HTML 문서 116(2), 인스턴트 메시지 116(3), 비디오 응답 116(4), 컴퓨터 판독 가능 파일 116(5) 등으로 구성될 수 있다. 또한, 다양한 응답 116(p)이 단독으로 또는 서로 조합하여 사용될 수 있다. 예를 들어, 이메일 및 인스턴트 메시지 116(3) 양자가 클라이언트 102(2)에게 반환될 수 있다. 또한, 인스턴트 메시지 116(3)는 첨부된 워드 프로세싱 파일 또는 다른 컴퓨터 판독 가능 파일 116(5)을 갖도록 형성될 수 있다. 다양한 다른 조합도 고려된다.
또한, 단독으로 또는 다른 응답들 116(p)과 조합하여 사용될 수 있는 가청 응답들 116(6)이 도 2에 도시되어 있다. 가청 응답 116(6)은 클라이언트가 예를 들어 스피치로서 들을 수 있도록 클라이언트 102(2)에게 제공되는 응답 또는 응답의 일부를 나타낸다. 예를 들어, HTML 문서 116(2)는 스피치(112)에 의해 개시되는 검색에 응답하여 생성될 수 있다. HTML 응답 116(2)은 클라이언트 102(n)에게 전송된다. 또한, 텍스트/스피치 모듈(2140은 HTML 116(2) 또는 그의 부분들을 가청 스피치로 변환하여 가청 응답 116(6)을 반환할 수 있다. 가청 응답은 예를 들어 HTML 문서가 텍스트/스피치 모듈(214)에 의해 변환될 때 실시간으로 또는 거의 실시간으로 반환될 수 있다. 따라서, 가청 입력(예를 들어, 스피치 112)에 응답하여, 사용자(110)는 클라이언트 102(n)를 통해 완전히 또는 부분적으로 가청 응답 116(6)인 응답 116(p)을 수신할 수 있다. 대안으로 클라이언트 102(n)에서 변환이 이루어질 수 있다는 점에 유의한다. 따라서, 클라이언트 102(n)는 텍스트/스피치 및 스피치/텍스트 변환 양자를 수행하도록 구성될 수 있는 각각의 변환 모듈 118(n)을 구비하는 것으로 도시된다.
검색 엔진(216)에 의해 수행되는 검색의 경우에, 응답(116)은 검색 결과들(222)을 포함할 수 있다. 복수의 검색 결과 222(m)가 서버 202(a)의 메모리 208(a) 내의 저장 장치(224) 내에 도시되어 있다. 검색 결과들 222(m)은 검색 엔진(216)의 실행에 의해 얻어질 수 있다.
동작 모듈 114(a)은 다양한 방식으로 검색 결과들 222(m)을 정제하도록 구성될 수 있다. 동작 모듈 114(a)은 클라이언트 102(n) 또는 사용자(110)에 관한 정보를 이용하여 검색들을 자동 정제할 수 있다. 정보는 클라이언트 102(n)의 위치, 사용자(110)의 프로파일, 사용자(110)와 연관된 검색 이력, 사용자 선호 또는 기호 등을 포함할 수 있다. 정보는 클라이언트 장치 102(n)에 의해 동작 모듈에 제공될 수 있다. 대안으로, 서비스 106(s)가 정보를 유지하거나, 클라이언트 102(n), 서비스 106(s)의 복수의 서버 202(a) 중 하나, 또는 다른 서비스 등으로부터 정보를 검색할 수 있다.
예를 들어, 검색 결과들 222(m)은 요청 클라이언트 102(n)의 위치에 기초하여 필터링될 수 있다. 따라서, 동작 모듈 114(a)은 검색을 요청하는 클라이언트 102(n)의 위치를 결정하도록 구성될 수 있다. 예를 들어, 클라이언트 위치는 클라이언트 102(n)와 서비스 106(s) 간의 통신에서 제공되는 식별자에 의해 결정될 수 있다. 식별자는 클라이언트 장치 102(n), 통신을 라우팅하는 장비 등과 연관된 식별자일 수 있다. 일례로, 동작 모듈 114(a)은 식별자를 이용하여, 클라이언트 102(n)가 "시카고"에 위치하는 것으로 결정할 수 있다. 따라서, 식당, 호텔, 방향 등에 대한 검색들에 응답하는 검색 결과들 222(m)은 "시카고"로 자동 제한될 수 있다. 위치를 결정하기 위한 다양한 다른 기술도 이용될 수 있다.
예시적인 프로시저
아래의 설명은 전술한 시스템들 및 장치들을 이용하여 구현될 수 있는 음성 개시 동작들을 설명한다. 프로시저들 각각의 양태들은 하드웨어, 펌웨어, 또는 소프트웨어, 또는 이들의 조합으로 구현될 수 있다. 프로시저들은 하나 이상의 장치에 의해 수행되는 동작들을 지정하는 블록들의 세트로서 도시되며, 각각의 블록에 의해 동작들을 수행하기 위해 도시된 순서들로 제한될 필요는 없다. 아래의 설명의 부분들에서는 도 1의 환경(110) 및 도 2의 시스템(200)을 참조한다.
도 3은 서비스가 클라이언트로부터의 스피치 데이터에 기초하여 동작들을 실행하고 응답을 생성하는 프로시저(300)를 나타낸다. 서비스는 네트워크를 통해 클라이언트로부터 스피치 데이터를 수신한다(블록 302). 예를 들어, 도 1에 도시된 서비스 106(s)는 클라이언트 102(1)에게 스피치(112)로서 입력되는 음성 데이터를 수신할 수 있다. 클라이언트 102(1)는 네트워크(104)에 접속되는 무선 인에이블드 랩탑과 같은 이동 컴퓨팅 장치로서 구성될 수 있다. 클라이언트 102(2)의 각각의 통신 모듈 108(1)은 클라이언트 102(2)와 서비스 106(1) 간의 음성 인스턴트 메시징 세션을 제공하도록 실행될 수 있다. 따라서, 스피치(112)는 클라이언트 102(2)에 의해 네트워크(104) 상에서 음성 인스턴트 메시징 세션을 통해 전송될 수 있으며, 서비스 106(s)는 스피치(112)를 수신할 수 있다(예를 들어, "들을" 수 있다).
변환 모듈 118(s)은 스피치 데이터를 텍스트 스트링으로 변환하도록 실행된다(블록 304). 예를 들어, 위의 예에서 수신된 스피치(112)는 텍스트(306)로 변환될 수 있다. 도 1에 도시된 변환 모듈 118(s)은 스피치(112)를 변환하도록 실행될 수 있다. 스피치(112)는 "1", "FOOD", "RUN", "BUY" 등과 같은 간단한 커맨드들을 지정할 수 있거나, 스피치(112)는 예를 들어 "이태리 식당을 찾는다"와 같은 구 또는 문장일 수 있다. 따라서, 변환 모듈 118(s)은 하나 이상의 동작을 개시하기 위해 서비스 106(s)에 의해 사용될 수 있는 명령, 커맨드, 용어 등의 형태로 스피치(112)를 텍스트(306)로 변환한다.
텍스트는 동작 모듈에 제공되며, 동작 모듈은 텍스트를 이용하여 동작들을 수행하고 결과들을 얻는다(블록 308). 이 예를 계속하면서, 이제 텍스트(306)는 예를 들어 "항목 2를 구매한다"라는 커맨드인 것으로 가정한다. 도 1의 동작 모듈 114(s)은 텍스트(306)를 수신한다. 동작 모듈 114(s)은 텍스트(306)를 이용하여 구매 동작을 수행하도록 구성될 수 있다. 예를 들어, 서비스 106(s)는 사용자(110)에게 이메일, 인터넷 등을 통해 음성 인스턴트 메시징 세션 동안 판매 항목들의 리스트를 미리 제공했을 수 있다. 사용자(110)는 리스트를 검토한 후에 리스트 상에서 항목 2를 구매하기로 결정한다. 사용자(110)는 클라이언트 102(1)(예를 들어, 무선 랩탑)를 통해 "항목 2를 구매한다"라는 문구를 스피치로서 클라이언트 102(1)에게 제공하여 원하는 항목의 구매를 개시한다.
동작 모듈 114(s)은 변환된 커맨드를 텍스트(306)로서 수신하고, 구매 동작들을 개시한다. 동작의 결과들(310)이 얻어진다. 예를 들어, 이 예에서 결과는 완료된 트랜잭션, 영수증, 정보 구매를 위한 프롬프트 등일 수 있다. 동작 모듈은 도 1에 도시된 서비스 106(s) 또는 서비스들 106(s) 중 어느 하나 이상에 의해 수행될 수 있는 구매 시퀀스를 개시할 수 있다는 점에 유의해야 한다. 따라서, 서비스 106(s)는 전체 동작을 처리하거나, 원격으로(예를 들어, 특정 서비스 106(s) 내에서가 아니라) 수행될 수 있는 동작을 개시하고 결과들을 얻도록 구성될 수 있다. 물론, 전술한 바와 같은 다양한 동작이 스피치(112)에 응답하여 수행될 수 있다.
동작 모듈은 클라이언트로 전달하기 위해 결과들을 포함하는 응답을 생성한다(블록 312). 위의 예에서, 동작 모듈 114(s)은 예를 들어 "항목 2를 구매한다"라는 커맨드와 같은 구매 동작의 결과들(310)을 포함하는 응답 116(p)을 형성한다. 결과들(310)은 예를 들어 구매 확인일 수 있다. 확인을 포함하는 텍스트 인스턴트 메시지가 형성될 수 있다. 확인을 포함하는 인스턴트 메시지는 클라이언트 102(1)와 서비스 106(s) 간의 인스턴트 메시징 세션을 통해 전달될 수 있다. 따라서, 음성 구매 커맨드에 응답하여, 사용자(110)는 원하는 항목의 구매를 확인하는 텍스트 인스턴트 메시지 응답을 수신한다. 상이한 입력 및 응답 모드들을 갖는 능력은 소정의 클라이언트 장치들 상에서, 또는 소정의 시간들에 텍스트 또는 그래픽 요청을 형성하는 것이 텍스트 또는 그래픽 응답을 읽는 것보다 어려운 사례들에서 바람직할 수 있다. 따라서, 요청들을 구두로 입력하고 응답들을 상이한 또는 다수의 모드(예를 들어, 텍스트, 그래픽, 오디오 등)로 수신하는 능력은 소정의 사례들에서 소정의 사용자들에게 이로울 수 있다.
다른 예에서, 동작 모듈은 가청 응답을 형성할 수 있다. 예를 들어, 구매 확인을 갖는 텍스트 인스턴트 메시지는 변환 모듈 118(s)을 통해 텍스트에서 스피치로 변환될 수 있다. 변환된 확인은 예를 들어 음성 인스턴트 메시징 세션을 통해 실시간으로 전달될 수 있으며, 따라서 사용자(110)는 구매의 가청 확인을 제공받게 된다. 변환된 응답은 합성된 스피치, 기록된 스피치 등일 수 있다. 이 가청 응답은 다른 응답에 더하여, 또는 그 대신에 제공될 수 있다. 전술한 바와 같이, 소정 시간들에서, 가청 응답들은 "바쁘거나", 운전 등 동안에 사용자들에게 보다 편리하거나 안전할 수 있다.
다른 사례에서, 구매 확인을 갖는 텍스트 인스턴트 메시지와 같은 그래픽 응답이 간단한 가청 응답과 함께 제공될 수 있다. 예를 들어, "완료", "성공", "결과 전송" 또는 "다시 시도"와 같은 간단한 가청 응답이 제공될 수 있다. 변환 모듈 118(s)은 간단한 가청 응답을 형성하도록 구성될 수 있다. 이 사례에서, 사용자(110)는 원하는 구매의 가청 및 텍스트 정보 양자를 제공받는다. 이메일, 인스턴트 메시지, 이미지, 비디오, 오디오, 파일, HTML 문서 등 중 하나 이상을 포함할 수 있는 다양한 다른 응답 모드 조합도 고려된다.
도 4는 스피치가 서비스에서 검색을 개시하는 데 사용되는 예시적인 프로시저(400)를 나타낸다. 스피치로서 수신되는 검색 용어들은 웹 검색을 개시하기 위해 서비스로 전달된다(블록 402). 예를 들어, 도 2에 도시된 사용자(110)는 이동 전화로서 구성된 클라이언트 장치 102(n)를 통해 검색을 개시할 수 있다. 따라서, 통신 모듈 108(n)은 네트워크(104)를 통해 무선 음성 서비스를 제공하도록 구성될 수 있으며, 따라서 클라이언트 102(n)는 음성 데이터를 하나 이상의 서비스 106(s)에 전달할 수 있다. 이 예에서, 이동 전화로서 구성된 클라이언트 장치 102(n)의 사용자는 일리노이, 시카고에서 여행하고 있으며, 이태리 음식을 먹기를 원한다. 사용자(110)는 이동 전화를 이용하여, 예를 들어 검색 서비스들을 제공하도록 구성된 도 2의 서비스 106(s)를 호출할 수 있다. 사용자(110)는 번호를 다이얼하고, 콘택들의 리스트로부터 서비스 106(s)를 선택하는 것 등(예를 들어, 음성 활성화 다이얼링)에 의해 서비스와의 상호작용을 개시한다.
따라서, 무선 음성 호출이 서비스 106(s)와 클라이언트 장치 102(n) 간에 개시된다. 사용자(110)는 검색을 개시하기 위해 스피치(112)를 클라이언트 장치 102(n)(이동 전화)에 제공한다. 스피치(112)는 "이태리 식당 시카고"와 같은 검색 용어들을 포함할 수 있다. 클라이언트 장치 102(n)는 검색 용어들(예를 들어, 스피치 112)을 서비스 106(s)로 전달한다. 스피치(112)는 텍스트로 변환될 수 있다. 이어서, 서비스 106(s)는 웹 검색을 개시하기 위해 텍스트 용어들을 검색 엔진(216)에 제공할 수 있다.
웹 검색의 결과들을 포함하는 응답이 서비스로부터 수신된다(블록 404). 최종 예에서, 예를 들어 서비스 106(s)는 구두 용어들 "이태리 식당 시카고"에 의해 개시된 웹 검색의 결과로서 이태리 식당들의 리스트를 얻을 수 있다. 서비스 106(s) 및 구체적으로 응답 모듈(218)은 이태리 식당들의 리스트를 포함하는 응답 116(p)을 형성한다. 응답은 식당들의 이메일 리스트와 같은 간단한 리스트일 수 있다. 응답은 또한 식당들의 리스트, 시카고 지도 및 리스트된 식당들이 위치하는 지도 상의 표시를 갖는 HTML 문서와 같은 텍스트와 그래픽(예를 들어, 그래픽 응답)의 조합을 가질 수 있다. 클라이언트 102(2)는 사용자(110)에 의해 이후 사용될 수 있는 응답을 서비스 106(s)로부터 수신한다. 텍스트, 그래픽, 오디오 등을 조합한 다양한 다른 응답 116(p)도 고려된다.
일 구현에서, 서비스 106(s)는 검색 또는 검색 결과들을 다양한 방식으로 정제하도록 구성될 수 있다. 이전 예에서 서비스 106(s)는 서비스 106(s)에 의해 결정된 클라이언트 102(n)의 위치를 이용하여 검색을 자동 정제할 수 있다. 서비스 106(s)는 예를 들어 무선 음성 호출이 시카고에서 발생하였다거나, 클라이언트 장치 102(n)가 현재 시카고에 있다는 것을 결정할 수 있다. 이 사례에서는, 검색을 개시하기 위한 스피치(112)가 간략화될 수 있다. 사용자(110)는 "이태리 식당 시카고"를 말하는 대신에 "이태리 식당"이라고 말하면 된다. 검색은 서비스 106(s)에 의해 결정되는 클라이언트 위치에 기초하여 자동으로 정제된다. 따라서, 클라이언트 장치 102(n)에 스피치로서 입력된 "이태리 식당"이라는 검색 용어들에 응답하여, 사용자는 그의 현재 위치, 이 예에서는 시카고에서 또는 그 근처에서 이태리 식당에 대한 검색 결과들을 수신할 수 있다.
도 5는 음성에 의해 개시된 동작의 결과들을 포함하는 응답이 형성되는 예시적인 프로시저(500)를 나타낸다. 클라이언트에서 스피치로서 수신된 음성 데이터에 의해 지정된 동작들이 수행된다(블록 502). 이제, 도 1에 도시된 사용자(110)가 도 1에 도시된 PDA 102(3)와 같은 핸드헬드 컴퓨팅 장치를 이용하여 파일을 전송하기를 원하는 것을 가정한다. 파일은 프리젠테이션, 텍스트 문서, 오디오 기록 등과 같은 임의의 컴퓨터 판독 가능 파일일 수 있다. 이 사례에서, 사용자는 파일 "file.txt"를 하나 이상의 동료와 공유하기를 원한다. 파일은 PDA 102(3) 상에 물리적으로 위치하거나, 네트워크(104), 피어 대 피어 네트워크 등을 통해 사용자에 의해 원격 저장 장치에서 액세스될 수 있다. 이 예에서, 사용자(110)는 음성을 이용하여, PDA 102(3)로부터, 또는 원격 위치로부터 하나 이상의 동료가 액세스할 수 있는 네트워크 저장 장치와 같은 다른 위치로의 파일 전송을 개시할 수 있다. 사용자(110)는 PDA 102(3)를 이용하여, 네트워크(104)를 통해 스피치(112)를 서비스 106(s)로 전달한다. 예를 들어, 사용자(110)는 스피치(112)로서 PDA에 의해 수신되는 "전송 file.txt"와 같은 커맨드 또는 구를 말할 수 있다. 스피치(112)에 의해 지정되는 동작들이 서비스 106(s)로 전달된다. 일 구현에서, 스피치(112)는 음성 데이터로서 전달된다. 스피치(112)는, 이후에 지정 동작들을 수행할 수 있는 동작 모듈 114(s)이 이해할 수 있는 명령들로 변환될 수 있다. 예를 들어, 변환 모듈 118(s)은 스피치(112)를 스피치에서 텍스트 명령들로 변환할 수 있다. 대안으로, PDA 102(3)와 같은 클라이언트(102)는 서비스 106(s)로의 전달을 위해 음성 데이터를 텍스트로 변환하도록 구성될 수 있다. PDA 102(3)에 포함된 변환 모듈 118(n)은 스피치에서 텍스트로의 스피치(112)의 변환을 수행하고, 이어서 텍스트 명령들이 서비스 106(s)로 전송된다.
서비스 106(s)는 스피치(112)에 의해 지정된 동작들을 수행한다. 예를 들어, 동작 모듈 114(s)은 PDA 102(3)와 네트워크 저장 위치 간에 파일 "file.txt"를 전송하도록 실행될 수 있다. 이와 같이, 사용자(110)는 다른 사용자들(예를 들어, 하나 이상의 동료)이 파일에 액세스할 수 있는 위치로 파일을 이동시킬 수 있다. 물론, 파일은 다른 방향으로, 예를 들어 서비스 102(s) 또는 다른 네트워크 저장 장치에서 PDA 102(3)로 전송될 수도 있다.
클라이언트로의 전달을 위해 동작의 결과들을 포함하는 응답이 형성된다(블록 504). 위의 예에서, 결과들은 파일의 전송이 성공적이었는지를 지시할 수 있다. 예를 들어, "완료"라고 말하는 가청 응답 116(p)이 형성될 수 있다. 응답 116(p)은 전송 위치 내의 파일들의 리스트를 제공하는 텍스트 메시지, HTML 메시지 등일 수도 있다. "성공"과 같은 가청 응답과 함께 전송을 확인하는 인스턴트 메시지와 같은 응답들 116(s)의 조합이 형성될 수도 있다. 변환 모듈 118(s)이 실시간 스피치 응답들을 PDA 102(3)에 제공하도록 실행될 수 있다.
물론, 프로시저는 파일 검색, 메시지 전송, 계정 액세스, 항목 구매, 파일을 하나 이상의 수신자에게 전송하기, 원격 컴퓨팅 장치 상에서 실행 가능 명령들을 개시하기 등과 같은 다양한 다른 동작을 수행하는 데 이용될 수 있다.
도 6은 PoC가 음성 개시 동작들을 수행하는 데 사용되는 예시적인 프로시저(600)를 나타낸다. PoC 세션이 설정된다(블록 602). 예를 들어, 도 2에 도시된 클라이언트 장치 102(n)는 PoC 인에이블드 이동 전화로서 구성될 수 있다. 이동 전화 클라이언트 102(n)는 PoC 콘택들의 리스트를 유지할 수 있다. 하나 이상의 서비스 106(s)가 PoC 콘택일 수 있다. 사용자(110)가 서비스 106(s)로부터 콘텐츠를 원하는 것으로 가정한다. 서비스 106(s)는 네트워크(104)를 통해 오디오, 비디오, 웹 페이지 등과 같은 다양한 콘텐츠를 제공하도록 구성될 수 있다. 이 사례에서, 사용자(110)는 서비스 106(s)로부터 오디오 콘텐츠를 구한다. 사용자는 PoC 콘택을 선택하고 PoC 세션을 개시한다. 예를 들어, 사용자는 콘텍들로부터 서비스 106(s)를 선택하고 PoC 버튼을 쳐서 세션을 개시할 수 있다. 이동 전화 클라이언트 102(n)와 서비스 106(s) 간에 PoC 세션이 설정된다. 서비스 106(s)는 PoC 세션을 통해 이동 전화 클라이언트 102(n)로부터 즉시 스피치를 들을 수 있다.
스피치 데이터가 PoC 세션을 통해 클라이언트로부터 수신된다(블록 604). 예를 들어, 도 2의 사용자(110)는 스피치(112)를 이동 전화 클라이언트 102(n)에게 제공하며, 이는 PoC 세션을 통해 서비스 106(s)에서 즉시(또는 거의 즉시) 듣게 된다. 스피치(112)는 원하는 오디오 콘텐츠에 대한 요청일 수 있다. 예를 들어, 사용자 스피치(112)는 노래 제목, 아티스트, 플레이 리스트, 위치 등을 포함할 수 있다.
스피치 데이터가 텍스트로 변환된다(블록 606). 이전 예를 계속하면, 원하는 오디오 콘텐츠에 대한 요청은 서비스 106(s)에 의해, 구체적으로는 원하는 동작들을 개시하는 동작 모듈 114(a)에 의해 즉시 이해되지 못할 수 있다. 따라서, 요청은 스피치에서 텍스트, 예를 들어 동작 모듈 114(a)에 의해 이해될 수 있는 명령들로 변환될 수 있다. 도 2에 도시된 바와 같이, 변환 모듈 118(a)은 수신된 스피치(112)를 텍스트로 변환하기 위해 서비스 106(s)의 프로세서 204(a) 상에서 실행될 수 있다. 이 예에서, 스피치(112)에서 지정된 오디오 콘텐츠의 검색을 개시하는 명령들을 제공하는 텍스트가 생성될 수 있다.
텍스트를 이용하여 동작들이 수행된다(블록 608). 예를 들어, 변환 모듈 118(a)에 의해 생성된 텍스트(예를 들어, 명령들)가 동작 모듈 114(a)에 제공되고, 동작 모듈은 텍스트를 이용하여 동작들, 이 사례에서는 오디오 콘텐츠의 검색을 수행할 수 있다. 원하는 오디오 콘텐츠는 서버 202(a), 서비스 106(s)의 복수의 서버(202) 중 하나, 또는 네트워크를 통해 액세스 가능한 다른 서비스(106) 또는 원격 위치를 포함하는 다양한 위치로부터 검색될 수 있다.
클라이언트로의 전달을 위해 동작들의 결과들을 포함하는 응답이 형성된다(블록 610). 예를 들어, 선택된 오디오 콘텐츠에 대한 하이퍼링크를 제공하는 HTML 문서로서 구성된 응답 116(p)이 형성될 수 있다. 응답 116(p)의 수신시, 사용자(110)는 하이퍼링크를 이용하여 콘텐츠에 액세스할 수 있다. 콘텐츠는 스트리밍 또는 비 스트리밍 방식으로 제공될 수 있다. 응답 116(p)은 원하는 콘텐츠 자체의 반환을 포함할 수도 있다. 예를 들어, 응답 116(p)은 오디오 파일을 단독으로 또는 인스턴트 메시징, 이메일 등과 같은 그래픽 응답과 함께 비 스트리밍 방식으로 이동 전화 클라이언트 102(n)에게 제공할 수 있다.
일 구현에서, 설정된 PoC 세션은 가청 응답을 클라이언트에게 전달하는 데 사용될 수 있다. 예를 들어, 가청 응답은 원하는 콘텐츠가 이용가능하거나 이용가능하지 않다는 것, 그래픽 응답이 전송되었다는 것, 콘텐츠를 입수할 수 있는 위치 등을 지시할 수 있다. 따라서, 도 2의 응답 모듈(218)은 응답 116(p)을 형성하는 데 사용될 수 있다. 응답은 변환 모듈 118(a)을 통해 텍스트에서 스피치로 변환될 수 있다. 변환의 결과들은 PoC 세션을 통해 이동 전화 클라이언트 102(n)로 실시간 전송될 수 있다. 다른 구현에서, 원하는 오디오 콘텐츠는 PoC 세션 또는 다른 PoC 세션을 통해 클라이언트에게 스트리밍될 수 있다. PoC를 통한 가청 응답이 다른 응답 모드들에 더하여, 또는 그 대신에 이루어질 수 있다. 예를 들어, 인스턴트 메시지, HTML, 텍스트, 이메일 및 가청 응답이 전술한 바와 같은 다양한 조합으로 형성될 수 있다.
도 7은 음성 개시 검색 결과들이 추가적인 음성 개시 동작들을 수행하는 데 이용되는 프로시저(700)를 나타낸다. 스피치로서 클라이언트에 입력된 용어들을 이용하여 검색이 수행된다(블록 702). 예를 들어, 사용자(110)는 항공편 등에 대한 예약을 행하기를 원할 수 있다. 사용자(110)는 도 1에 도시된 클라이언트 장치들 102(n) 중 하나를 이용하여, 네트워크(104)를 통해 예약을 제공하도록 구성된 서비스 106(n)와 통신할 수 있다. 사용자(110)는 이용 가능한 항공편들에 대한 검색을 개시하기 위해 스피치(112)를 제공할 수 있다. 예를 들어, 사용자가 4월 1일자 오레곤, 포틀랜드와 일리노이, 시카고 간의 항공편들을 찾고자 하는 경우, 사용자(110)는 "항공편, PDX에서 ORD로, 4월 1일"과 같은 검색 용어들을 갖는 스피치(112)를 제공할 수 있다. 스피치(112)에 의해 지정된 검색을 수행하기 위해 검색 엔진(216)이 서비스 106(s) 상에서 실행될 수 있다. 검색 엔진(216)은 변환 모듈 118(a)에 의한 스피치(112)의 변환으로부터 생성된 텍스트 검색 용어들을 제공받을 수 있다. 변환 모듈 118(a)은 검색 엔진(216)과 동일한 서버 상에 도시되어 있지만, 변환은 상이한 서버(202), 클라이언트(102)의 변환 모듈(118) 등에서 수행될 수도 있다.
검색의 결과들이 클라이언트로 전달된다(블록 704). 위의 항공편 검색 예에 응답하여, 사용자(110)는 4월 1일자 오레곤, 포틀랜드와 일리노이, 시카고 간의 5개의 항공편의 리스트를 포함하는 응답 116(p)을 수신할 수 있다. 응답은 HTML 문서, 인스턴트 메시지, 이메일 등과 같은 전술한 다양한 방식으로 포맷팅될 수 있다.
검색 결과들과 연관되고 클라이언트에게 스피치로서 입력되는 명령들에 기초하여 추가 동작들이 수행된다(블록 706). 이전 예의 사용자(110)는 예를 들어 5개의 가능한 항공편을 포함하는 검색의 결과들을 수신하여 본다. 사용자(110)는 이제 항공편들 중 하나를 예약하기를 원할 수 있다. 따라서, 사용자는 검색 결과들과 관련된 추가 스피치(112)를 제공할 수 있다. 예를 들어, 추가 사용자 스피치(112)는 검색 결과들에 리스트된 항공편들 중 하나에 대응하는 "항공편 99 예약"을 지시할 수 있다. 일 구현에서, 사용자는 검색 결과들을 이용하여 추가 동작들을 어떻게 개시할지에 관해 프롬프트될 수도 있다. 예를 들어, 검색 결과들 내의 항목 1이 "이 항공편을 예약하기 위해 1 예약이라고 말한다"를 지시할 수 있다. 추가 스피치(112)에 의해 지정된 동작들은 서비스 106(s)로 전달된다. 서비스는 검색을 수행한 동일 서비스 106(s) 또는 상이한 서비스(106)일 수 있다. 이어서, 서비스는 이전에 제공된 검색 결과들과 관련된 추가 동작들을 수행한다.
따라서, 스피치에 의해 개시된 검색의 결과들은 스피치에 의해 개시된 추가 동작들을 수행하는 데 이용될 수 있다. 물론, 스피치 개시 검색 결과들의 이용은 파일 전송, 파일 검색, 구매 트랜잭션, 여행 예약, 호텔 및 식당 예약 등과 같은 다양한 동작을 수행하는 데 이용될 수 있다. 추가 동작들은 추가 검색 또는 검색 결과들의 정제일 수도 있다.
결론
본 발명은 구조적 특징들 및/또는 방법 동작들에 고유한 언어로 설명되었지만, 첨부된 청구범위에 정의되는 본 발명은 설명된 특정 특징들 또는 동작들로 한정될 필요는 없다는 것을 이해해야 한다. 오히려, 특정 특징들 및 동작들은 청구 발명을 구현하는 예시적인 형태들로서 개시된다.

Claims (20)

  1. 네트워크를 통해 수신된 음성 커맨드를 변환하는 단계;
    변환된 커맨드를 수행하여 그래픽 응답을 형성하는 단계; 및
    상기 네트워크를 통해 상기 음성 커맨드의 송신자에게 전달할 상기 그래픽 응답을 포함하는 통신을 형성하는 단계
    를 포함하는 방법.
  2. 제1항에 있어서, 상기 그래픽 응답은 이메일인 방법.
  3. 제1항에 있어서, 상기 그래픽 응답은 하이퍼텍스트 마크업 언어(HTML) 문서인 방법.
  4. 제1항에 있어서, 상기 그래픽 응답은 인스턴트 메시지인 방법.
  5. 제1항에 있어서, 상기 음성 커맨드는 PoC(push to talk over cellular) 세션을 통해 수신되는 방법.
  6. 제1항에 있어서, 상기 음성 커맨드는 핸드헬드 클라이언트 장치로부터 수신되는 방법.
  7. 제1항에 있어서, 상기 음성 커맨드는 음성 인스턴트 메시징 세션을 통해 수신되는 방법.
  8. 제1항에 있어서, 상기 음성 커맨드는 검색; 금융 트랜잭션; 구매 트랜잭션; 파일 전송; 예약 및 다운로드로 이루어진 그룹으로부터 선택되어 수행될 적어도 하나의 동작을 지정하는 방법.
  9. 클라이언트에서 스피치로서 수신된 음성 데이터에 의해 지정된 검색을 수행하는 단계; 및
    상기 음성 데이터를 생성한 클라이언트에게 네트워크를 통해 전달할 검색 결과들을 포함하는 응답을 형성하는 단계
    를 포함하는 방법.
  10. 제9항에 있어서, 상기 음성 데이터를 텍스트 검색 용어들로 변환하는 단계를 더 포함하는 방법.
  11. 제9항에 있어서, 상기 변환된 음성 데이터는 상기 검색을 수행하는 모듈에 의해 이해될 수 있고, 상기 음성 데이터는 상기 모듈에 의해 이해될 수 없는 방법.
  12. 제9항에 있어서, 상기 응답은 이메일; 텍스트; html 문서; 인스턴트 메시지; 이미지 및 가청 사운드로 이루어진 그룹으로부터 선택되는 하나 이상의 항목을 포함하는 방법.
  13. 제9항에 있어서, 상기 검색 결과들은 상기 클라이언트의 위치에 기초하여 자동 정제되는 방법.
  14. 제9항에 있어서, 상기 검색 결과들을 텍스트에서 가청 응답으로 변환하는 단계를 더 포함하는 방법.
  15. 제9항에 있어서, 상기 응답은 실시간 가청 응답인 방법.
  16. 제9항에 있어서, 상기 검색 결과들과 연관되고 상기 클라이언트에게 스피치로서 입력되는 추가 음성 데이터에 기초하여 동작을 수행하는 단계를 더 포함하는 방법.
  17. 컴퓨터 상에서 실행될 때, 인터넷 검색 엔진으로의 입력을 위해 이동 장치를 통해 입력된 음성 데이터를 텍스트 검색 스트링으로 변환하도록 상기 컴퓨터에게 지시하는 컴퓨터 실행 가능 명령들을 포함하는 하나 이상의 컴퓨터 판독 가능 매체.
  18. 제17항에 있어서, 상기 음성 데이터는 PoC 세션을 통해 상기 인터넷 검색 엔진으로 전달되는 하나 이상의 컴퓨터 판독 가능 매체.
  19. 제17항에 있어서, 상기 음성 데이터의 송신자에게 검색 결과들을 제공하는 명령들을 더 포함하는 하나 이상의 컴퓨터 판독 가능 매체.
  20. 제18항에 있어서, 상기 송신자에게 제공되는 검색 결과들은 들을 수 없는 것인 하나 이상의 컴퓨터 판독 가능 매체.
KR1020087015106A 2005-12-22 2006-11-17 음성 개시 네트워크 동작 방법 및 컴퓨터 판독가능 매체 KR20080086465A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/275,324 US7996228B2 (en) 2005-12-22 2005-12-22 Voice initiated network operations
US11/275,324 2005-12-22

Publications (1)

Publication Number Publication Date
KR20080086465A true KR20080086465A (ko) 2008-09-25

Family

ID=38195040

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087015106A KR20080086465A (ko) 2005-12-22 2006-11-17 음성 개시 네트워크 동작 방법 및 컴퓨터 판독가능 매체

Country Status (6)

Country Link
US (1) US7996228B2 (ko)
EP (1) EP1963991A4 (ko)
JP (1) JP2009521745A (ko)
KR (1) KR20080086465A (ko)
CN (1) CN101341482A (ko)
WO (1) WO2007075238A1 (ko)

Families Citing this family (252)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10304450B2 (en) 2016-05-10 2019-05-28 Google Llc LED design language for visual affordance of voice user interfaces
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
EP1781053B1 (en) * 2005-10-28 2012-05-02 TELEFONAKTIEBOLAGET LM ERICSSON (publ) Methods and apparatus for push to talk type service
US8200268B2 (en) * 2006-06-27 2012-06-12 Alcatel Lucent Home intercom / push-to-talk interface
US11049175B2 (en) * 2006-07-07 2021-06-29 Joseph R. Dollens Method and system for managing and displaying product images with progressive resolution display with audio commands and responses
US11481834B2 (en) 2006-07-07 2022-10-25 Joseph R. Dollens Method and system for managing and displaying product images with progressive resolution display with artificial realities
US11450331B2 (en) 2006-07-08 2022-09-20 Staton Techiya, Llc Personal audio assistant device and method
US20080031475A1 (en) 2006-07-08 2008-02-07 Personics Holdings Inc. Personal audio assistant device and method
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US9569587B2 (en) 2006-12-29 2017-02-14 Kip Prod Pi Lp Multi-services application gateway and system employing the same
WO2008085207A2 (en) 2006-12-29 2008-07-17 Prodea Systems, Inc. Multi-services application gateway
US11316688B2 (en) 2006-12-29 2022-04-26 Kip Prod P1 Lp Multi-services application gateway and system employing the same
US9602880B2 (en) 2006-12-29 2017-03-21 Kip Prod P1 Lp Display inserts, overlays, and graphical user interfaces for multimedia systems
US20170344703A1 (en) 2006-12-29 2017-11-30 Kip Prod P1 Lp Multi-services application gateway and system employing the same
US11783925B2 (en) 2006-12-29 2023-10-10 Kip Prod P1 Lp Multi-services application gateway and system employing the same
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US7805131B2 (en) * 2007-05-03 2010-09-28 Sonus Networks, Inc. Personal service integration on a network
US8630840B1 (en) * 2007-09-11 2014-01-14 United Services Automobile Association (Usaa) Systems and methods for communication with foreign language speakers
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US10013986B1 (en) 2016-12-30 2018-07-03 Google Llc Data structure pooling of voice activated data packets
US11017428B2 (en) 2008-02-21 2021-05-25 Google Llc System and method of data transmission rate adjustment
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US8700008B2 (en) 2008-06-27 2014-04-15 Microsoft Corporation Providing data service options in push-to-talk using voice recognition
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
KR20210152028A (ko) 2008-11-10 2021-12-14 구글 엘엘씨 멀티센서 음성 검출
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8862252B2 (en) 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US8554831B2 (en) * 2009-06-02 2013-10-08 Ford Global Technologies, Llc System and method for executing hands-free operation of an electronic calendar application within a vehicle
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US20120311585A1 (en) 2011-06-03 2012-12-06 Apple Inc. Organizing task items that represent tasks to perform
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8788267B2 (en) 2009-09-10 2014-07-22 Mitsubishi Electric Research Laboratories, Inc. Multi-purpose contextual control
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
DE112011100329T5 (de) 2010-01-25 2012-10-31 Andrew Peter Nelson Jerram Vorrichtungen, Verfahren und Systeme für eine Digitalkonversationsmanagementplattform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
JP2012215673A (ja) * 2011-03-31 2012-11-08 Toshiba Corp 音声処理装置、及び音声処理方法
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
US8515766B1 (en) 2011-09-30 2013-08-20 Google Inc. Voice application finding and user invoking applications related to a single entity
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US10255914B2 (en) 2012-03-30 2019-04-09 Michael Boukadakis Digital concierge and method
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US20130311276A1 (en) * 2012-05-18 2013-11-21 Stan Wei Wong, JR. Methods for voice activated advertisement compression and devices thereof
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US10019994B2 (en) 2012-06-08 2018-07-10 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
DE102013001219B4 (de) * 2013-01-25 2019-08-29 Inodyn Newmedia Gmbh Verfahren und System zur Sprachaktivierung eines Software-Agenten aus einem Standby-Modus
DE212014000045U1 (de) 2013-02-07 2015-09-24 Apple Inc. Sprach-Trigger für einen digitalen Assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US11151899B2 (en) 2013-03-15 2021-10-19 Apple Inc. User training by intelligent digital assistant
WO2014144949A2 (en) 2013-03-15 2014-09-18 Apple Inc. Training an at least partial voice command system
KR101904293B1 (ko) 2013-03-15 2018-10-05 애플 인크. 콘텍스트-민감성 방해 처리
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9197336B2 (en) 2013-05-08 2015-11-24 Myine Electronics, Inc. System and method for providing customized audio content to a vehicle radio system using a smartphone
US9430465B2 (en) * 2013-05-13 2016-08-30 Facebook, Inc. Hybrid, offline/online speech translation system
US20140362024A1 (en) * 2013-06-07 2014-12-11 Barnesandnoble.Com Llc Activating voice command functionality from a stylus
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
DE112014002747T5 (de) 2013-06-09 2016-03-03 Apple Inc. Vorrichtung, Verfahren und grafische Benutzerschnittstelle zum Ermöglichen einer Konversationspersistenz über zwei oder mehr Instanzen eines digitalen Assistenten
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105265005B (zh) 2013-06-13 2019-09-17 苹果公司 用于由语音命令发起的紧急呼叫的系统和方法
AU2014306221B2 (en) 2013-08-06 2017-04-06 Apple Inc. Auto-activating smart responses based on activities from remote devices
US10229450B2 (en) * 2013-10-02 2019-03-12 Paypal, Inc. Generating sale transactions from voice data input by a user
JP2015106203A (ja) * 2013-11-28 2015-06-08 Necパーソナルコンピュータ株式会社 情報処理装置、情報処理方法、及びプログラム
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
RU2580431C2 (ru) 2014-03-27 2016-04-10 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер для обработки поискового запроса и машиночитаемый носитель
CN103973544B (zh) 2014-04-02 2017-10-24 小米科技有限责任公司 语音通话方法、语音播放方法及装置
CN103929540A (zh) * 2014-04-25 2014-07-16 浙江翼信科技有限公司 一种消息操作方法及装置
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
CN106034063A (zh) * 2015-03-13 2016-10-19 阿里巴巴集团控股有限公司 一种在通信软件中通过语音启动业务的方法及相应装置
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN105683963A (zh) * 2016-01-07 2016-06-15 马岩 网络链接的搜索方法及系统
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
EP3757753A1 (en) 2016-05-13 2020-12-30 Google LLC Initiating by voice play of media content
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10600418B2 (en) * 2016-12-07 2020-03-24 Google Llc Voice to text conversion based on third-party agent content
WO2018117565A1 (en) * 2016-12-19 2018-06-28 Samsung Electronics Co., Ltd. Methods and apparatus for managing control data
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11593668B2 (en) 2016-12-27 2023-02-28 Motorola Solutions, Inc. System and method for varying verbosity of response in a group communication using artificial intelligence
US10051442B2 (en) * 2016-12-27 2018-08-14 Motorola Solutions, Inc. System and method for determining timing of response in a group communication using artificial intelligence
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US10341824B1 (en) * 2018-06-11 2019-07-02 Motorola Solutions, Inc. Method for real-time authorization within a push to talk for the internet of things system
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5870454A (en) * 1997-04-01 1999-02-09 Telefonaktiebolaget L M Ericsson Telecommunications speech/text conversion and message delivery system
WO1999063425A1 (fr) * 1998-06-02 1999-12-09 Sony Corporation Procede et appareil de traitement d'informations et support de fourniture d'informations
US6480819B1 (en) 1999-02-25 2002-11-12 Matsushita Electric Industrial Co., Ltd. Automatic search of audio channels by matching viewer-spoken words against closed-caption/audio content for interactive television
US6434527B1 (en) * 1999-05-17 2002-08-13 Microsoft Corporation Signalling and controlling the status of an automatic speech recognition system for use in handsfree conversational dialogue
US6339706B1 (en) 1999-11-12 2002-01-15 Telefonaktiebolaget L M Ericsson (Publ) Wireless voice-activated remote control device
US7047196B2 (en) * 2000-06-08 2006-05-16 Agiletv Corporation System and method of voice recognition near a wireline node of a network supporting cable television and/or video delivery
WO2002009395A2 (en) * 2000-07-07 2002-01-31 Science Applications International Corporation A system or method for calling a vanity number using speech recognition
JP2002215670A (ja) * 2001-01-15 2002-08-02 Omron Corp 音声応答装置、音声応答方法、音声応答プログラム、音声応答プログラムを記録した記録媒体および予約システム
JP3998933B2 (ja) * 2001-08-15 2007-10-31 旭化成株式会社 情報検索システム、情報検索サーバ、情報提供方法及びプログラム
JP3997459B2 (ja) * 2001-10-02 2007-10-24 株式会社日立製作所 音声入力システムおよび音声ポータルサーバおよび音声入力端末
US20030120626A1 (en) * 2001-12-20 2003-06-26 Koninklijke Philips Electronics N.V. Voice-enabled, consumer transaction system
US6877001B2 (en) * 2002-04-25 2005-04-05 Mitsubishi Electric Research Laboratories, Inc. Method and system for retrieving documents with spoken queries
FI114358B (fi) * 2002-05-29 2004-09-30 Nokia Corp Menetelmä digitaalisessa verkkojärjestelmässä päätelaitteen lähetyksen ohjaamiseksi
JP2004038252A (ja) * 2002-06-28 2004-02-05 Toshiba Solutions Corp 情報提供支援システム及び情報提供支援方法
JP2004265217A (ja) * 2003-03-03 2004-09-24 Nec Corp 音声認識機能を有する移動通信端末とその端末を利用したキーワード検索方法
US7548858B2 (en) * 2003-03-05 2009-06-16 Microsoft Corporation System and method for selective audible rendering of data to a user based on user input
JP2004297548A (ja) * 2003-03-27 2004-10-21 Nippon Telegr & Teleph Corp <Ntt> 情報検索配信方法およびシステム
US7107017B2 (en) * 2003-05-07 2006-09-12 Nokia Corporation System and method for providing support services in push to talk communication platforms
US7558736B2 (en) * 2003-12-31 2009-07-07 United States Cellular Corporation System and method for providing talker arbitration in point-to-point/group communication
JP2005210157A (ja) * 2004-01-20 2005-08-04 Nec Corp 情報配信システム、その方法、サーバ、端末装置およびプログラム
US7197502B2 (en) * 2004-02-18 2007-03-27 Friendly Polynomials, Inc. Machine-implemented activity management system using asynchronously shared activity data objects and journal data items
JP2005275925A (ja) * 2004-03-25 2005-10-06 Railway Technical Res Inst サーバシステム
JP4003753B2 (ja) * 2004-03-26 2007-11-07 日本電気株式会社 会話サーバ
US20060075429A1 (en) * 2004-04-30 2006-04-06 Vulcan Inc. Voice control of television-related information
JP2005352776A (ja) * 2004-06-10 2005-12-22 Nippon Telegr & Teleph Corp <Ntt> 会話情報適応型情報サービス提供方法および会話情報適応型情報サービス提供システム、ならびにそのための装置とプログラム
JP2005004782A (ja) * 2004-07-02 2005-01-06 Sony Corp 情報処理システム、情報処理装置および情報処理方法、並びに携帯型情報端末装置
US7155207B2 (en) * 2004-09-09 2006-12-26 Nextel Communications Inc. System and method of analyzing communications between a calling party and a called party
US20060136224A1 (en) * 2004-12-22 2006-06-22 Eaton William C Communications devices including positional circuits and methods of operating the same
US20060167676A1 (en) * 2005-01-26 2006-07-27 Research In Motion Limited Method and apparatus for correction of spelling errors in text composition
US20060182236A1 (en) * 2005-02-17 2006-08-17 Siemens Communications, Inc. Speech conversion for text messaging
US7949529B2 (en) * 2005-08-29 2011-05-24 Voicebox Technologies, Inc. Mobile systems and methods of supporting natural language human-machine interactions
US20080214151A1 (en) * 2005-09-14 2008-09-04 Jorey Ramer Methods and systems for mobile coupon placement
US20070112571A1 (en) * 2005-11-11 2007-05-17 Murugappan Thirugnana Speech recognition at a mobile terminal
US7991895B2 (en) * 2005-12-09 2011-08-02 Nokia Corporation Limiting access to network functions based on personal characteristics of the user

Also Published As

Publication number Publication date
EP1963991A4 (en) 2010-05-05
JP2009521745A (ja) 2009-06-04
WO2007075238A1 (en) 2007-07-05
CN101341482A (zh) 2009-01-07
US7996228B2 (en) 2011-08-09
US20070150286A1 (en) 2007-06-28
EP1963991A1 (en) 2008-09-03

Similar Documents

Publication Publication Date Title
US7996228B2 (en) Voice initiated network operations
US8239461B2 (en) Method and system for accessing search services via messaging services
US7590699B2 (en) Instant messaging with built-in search
US10152964B2 (en) Audio output of a document from mobile device
US8209385B2 (en) Multimedia mood messages
US20050266884A1 (en) Methods and systems for conducting remote communications
US8316052B2 (en) Method, computer program product and apparatus for providing media sharing services
US20090181702A1 (en) Multi-mode communication
US9329832B2 (en) Voice internet system and method
US20100246784A1 (en) Conversation support
KR20120027461A (ko) 가상 유니버셜 플러그-앤-플레이 시스템을 생성하는 시스템 및 방법
KR20070049009A (ko) 통신 시스템에서 멀티미디어 포탈 컨텐츠 제공 방법 및시스템
EP2223244A1 (en) Method and system of accessing information
US9094354B2 (en) Facilitating real-time communications in electronic message boards
WO2011074180A1 (ja) 音声入力システムおよび音声入力プログラム
CN105408887A (zh) 逆向号码查找
US20240056552A1 (en) Systems and methods for instant serverless video chat with pre-loaded content
US20040098488A1 (en) Network-assisted communication method and system therefor
KR102527067B1 (ko) 복수의 채널을 이용하는 통합형 통화 연결 서비스를 제공하는 시스템
JP2006228087A (ja) マルチメディアデータ検索システム、マルチメディアデータ検索方法および携帯端末装置
WO2006112825A2 (en) Methods and systems for conducting remote communications
KR20060026181A (ko) 통화 도중 일방의 정보를 상대방에게 전달하기 위한 방법및 그 시스템
JP2005149447A (ja) 電子メール変換返信システム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application