KR20050100608A - 통신 시스템용 보이스 브라우저 다이얼로그 인에이블러 - Google Patents

통신 시스템용 보이스 브라우저 다이얼로그 인에이블러 Download PDF

Info

Publication number
KR20050100608A
KR20050100608A KR1020057012829A KR20057012829A KR20050100608A KR 20050100608 A KR20050100608 A KR 20050100608A KR 1020057012829 A KR1020057012829 A KR 1020057012829A KR 20057012829 A KR20057012829 A KR 20057012829A KR 20050100608 A KR20050100608 A KR 20050100608A
Authority
KR
South Korea
Prior art keywords
voice
voice browser
browser
markup
speech
Prior art date
Application number
KR1020057012829A
Other languages
English (en)
Other versions
KR101027548B1 (ko
Inventor
제임스 페란스
조나단 엥겔스마
마이클 피어스
마크 란돌프
제롬 보게데스
Original Assignee
모토로라 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 모토로라 인코포레이티드 filed Critical 모토로라 인코포레이티드
Publication of KR20050100608A publication Critical patent/KR20050100608A/ko
Application granted granted Critical
Publication of KR101027548B1 publication Critical patent/KR101027548B1/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72445User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for supporting Internet browser applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2207/00Type of exchange or network, i.e. telephonic medium, in which the telephonic communication takes place
    • H04M2207/40Type of exchange or network, i.e. telephonic medium, in which the telephonic communication takes place terminals with audio html browser
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Telephonic Communication Services (AREA)

Abstract

멀티모드 다이얼로그를 위한 보이스 브라우저 다이얼로그 인에이블러는 각 필드와 관련된 마크업 기반 폼 필드를 구비하고 프래그먼트(45)를 정의하는 멀티모드 마크업 문서(22)를 사용한다. 보이스 브라우저 드라이버(43)는 통신 장치(10) 상에 상주하고 프래그먼트(45) 및 프래그먼트(45)를 식별하는 식별자(48)를 제공한다. 보이스 브라우저 임플리멘테이션(46)은 원격 보이스 서버(38)에 상주하고 상기 드라이버(43)으로부터 프래그먼트를 수신하며, 복수의 스피치 문법을 다운로드한다. 입력 스피치는 인식 요구시에 보이스 브라우저 드라이버(43)로부터 수신된 대응 식별자와 관련된 이러한 스피치 문법에 매칭된다.

Description

통신 시스템용 보이스 브라우저 다이얼로그 인에이블러{VOICE BROWSER DIALOG ENABLER FOR A COMMUNICATION SYSTEM}
본 발명은 무선 통신 장치의 동작 모드의 제어에 관한 것이다. 특히, 본 발명은 상이한 시스템상에서 다중 무선 통신 장치(a multiple radio communication device)를 동작하는 방법에 관한 것이다.
셀룰러 폰과 같은 무선 통신 장치는 계속 커지는 처리 능력과 후속하여 무선 통신 장치상에서 구동하는 소프트웨어 어플리케이션을 구비한다. 그러나, 장치의 크기로 인해, 가령 통상적으로 이용가능한 사용자 인터페이스 하드웨어를 컴퓨터에 부착하는 것이 어렵다. 셀룰러 폰은 작은 키보드 및 디스플레이를 구비한다. 그러나, 셀룰러 폰에 내재된 기본적 음성 통신 능력을 이용하도록 하는 기술이 개발되었다. 스피치 인식 기술은 이제 무선 통신 장치에 공통적으로 사용된다. 이제는 보이스 활성 다이얼링(voice activated dialing)도 쉽게 이용가능하다. 인터넷 사용을 포함하는 데이터 서비스의 출현으로, 스피치 가능 서비스(speech-enabled service)가 통신 장치의 기능성을 매우 향상시킬 수 있다는 것이 명백해졌다. 이를 위해, 무선 통신 장치에 대해 스피치 가능 서비스를 용이하게 하는 VoiceXML(Voice Extensible Markup Language)이 개발되었다. 그러나, 소비자에게 이용가능한 스피치 가능 서비스의 출현으로, 휴대형 통신 장치에는 몇몇 심각한 문제가 발생하였다.
스피치 가능 서비스는 멀티모드 서비스(multimodal services)와 공동으로 사용될 경우, 어려운 문제를 제공한다. 멀티모드 다이얼로그에서, 입력은 음성, 키보드, 마우스 및 다른 입력 형식으로부터 입력될 수 있는 반면, 출력은 스피커, 디스플레이 및 다른 출력 형식일 수 있다. 표준 웹 브라우저(standard web browser)는 키보드 및 마우스 입력과 디스플레이 출력을 구현할 수 있다. 표준 보이스 브라우저는 음성 입력 및 오디오 출력을 구현할 수 있다. 멀티모드 시스템은 두 개의 브라우저(및 가능하다면 다른 것들)가 어떤 형식으로 결합될 것을 요구한다. 전형적으로, 이는 상이한 모드를 갖는 어플리케이션을 적절하게 동기화하는 다양한 기술을 요구한다. 이러한 어플리케이션 중 일부는 3GPP TR22.977, 3rd General Partnership Project; Technical Specification Group Services and Systems Aspects; Feasibility study for speech enabled services; (Release 6), v2.0.0(2002-09)에 기술되어 있다.
제1 해결 방법으로서, "로컬 스피치 리소스(local speech resources)를 구비한 팻 클라리언트(a fat client)" 해결 방법은 웹(비쥬얼) 브라우저, 보이스 브라우저, 내재적 스피치 인식(underlying speech recognition) 및 스피치 합성(텍스트 투 스피치) 엔진(speech synthesis (text-to-speech) engines)을 동일한 장치(컴퓨터, 모바일 폰, 셋톱 박스 등) 상에 두는 것이다. 이러한 해결 방법은, 많은 양의 소프트웨어 및 필요한 프로세싱 전력(processing power)으로 인해, 무선 통신 장치에 구현하는 것이 블가능할 것이다. 제2 해결 방법은 "서버 기반 스피치 리소스를 구비한 팻 클라이언트"로서, 여기서 스피치 엔진은 네트워크상에 상주하지만, 비쥬얼 브라우저 및 보이스 브라우저는 여전히 장치상에 상주할 것이다. 이는, 소형 장치에 있어서 제1 해결 방법보다는 어느 정도 보다 실질적이지만, 모발일 폰과 같은 소형 장치상에 구현하기에는 여전히 매우 어렵다. 제3 해결 방법은 "신 클라이언트(thin client)"인데, 여기서 장치는 단지 비쥬얼 브라우저만을 구비하며, 이는 네트워크상에 위치한 보이스 브라우저 및 스피치 엔진과 통합되어야 한다. 이러한 해결 방법은 모바일 폰과 같은 장치에 적합하지만, 두 브라우저가 통합되도록 유지하는데 필요한 동기화(synchronization)는 전체 시스템을 매우 복잡하게 만든다. 이러한 모든 해결 방법에서도 문제는 여전히 존재하는데, 즉, 해결 방법은 보다 작은 장치에 제공하기에는 실질적이지 못하거나, 보다 복잡한 동기화를 필요로 한다는 점이다.
그러므로, 보이스 브라우저 기술 및 멀티모드 기술을 무선 통신 장치 내에 통합하 것에 대한 문제를 제거할 필요성이 존재한다. 또한, 확장된 프로세싱 능력을 확장할 필요 없이, 통신 장치 내에 문제에 대한 해결 방법을 제공하는 것이 유리할 것이다. 또한, 통신 장치에 어떤 상당한 부가적 하드웨어 또는 비용이 없도록 하여 복잡성을 피하는 것이 유리할 것이다.
도 1은 제1 종래 기술의 멀티모드 통신 시스템의 블럭 다이아그램이다.
도 2는 제2 종래 기술의 멀티모드 통신 시스템의 블럭 다이아그램이다.
도 3은 제3 종래 기술의 멀트모드 통신 시스템의 블럭 다디아그램이다.
도 4는 본 발명에 따른 개선된 보이스 브라우저를 구비한 멀티모드 통신 시스템의 블럭 다이아그램이다.
도 5는 본 발명의 바람직한 실시예에 따른 멀티모드 다이얼로그의 단계를 도시한 플로우 차트이다.
본 발명은 보이스 브라우저 어플리케이션을 단일체로 다루기보다는 보이스 브라우저 어플리케이션을 두 개의 구성 요소로 나눈다. 이런 방법에서는, 장치상의 소프트웨어의 양이 매우 감소되며, 멀티모드 다이얼로그가 적은 비용으로 보다 더 작은 장치에서 구동되게 한다. 상기 장치상에서 브라우저 동기화를 행함으로써, 종래 기술의 해결 방법의 많은 복잡성이 회피된다. 또한, 공통 보이스 브라우저 드라이버를 구비함으로써, 멀티모드 어플리케이션이 브라우저 어플리케이션 대신에 자립형 프로그램(stand-alone program)으로서 기록될 수 있다. 이러한 개선은 통신 장치에 있어서 매우 작은 비용으로 달성된다. 본 발명은, 비용을 부가하고 장치 크기를 증가시키는 프로세싱 전력을 부가하는 대신에, 소프트웨어 멀티모드 다이얼로그에 필요한 보이스 브라우저용 소프트웨어 솔루션과 함께 통신 장치의 기존의 프로세싱 전력을 유리하게 이용한다.
도 1을 참조하면, 멀티모드 통신에 대한 대부분의 또는 모든 프로세싱이 (신(thin)) 통신 장치에서 행해지는 종래 기술의 아키텍쳐가 제공된다. 간단히 하기 위해, 도시되지 않은 멀티모드 다이얼로그(multimodal dialog)의 적절한 동작에 요구되는 많은 상호접속들(interconnections)이 존재한다는 것이 이해되어야 한다. 도시된 예에서, 클라이언트 통신 장치(10)는 어플리케이션 서버(18)에 상주하는 멀티모드 어플리케이션에 액세스하기를 원한다. 전형적으로, 어플리케이션 서버(18)는 인터넷(16) 상에서 통신하기 위해 현행 상주 웹 서버(an existing, resident web sever)(20)를 사용한다. 예를 들어, 서비스 제공자의, 통신 시스템 내의 멀티모드/보이스 서버(14)는 인터넷에 연결되며, 후속하여 클라이언트 통신 장치(10)에 연결되는 셀룰러 네트워크(12)에 서비스를 제공한다. 웹 서버는, 사용자에게 인터페이스를 제공하기 위해 비쥬얼(XHTML) 마크업 및 보이스(VoiceXML) 마크업을 포함하는 멀티모드 마크업 문서(multimodal markup document)(22)를 제공한다. 공지된 바와 같이, XTHML 마크업 파일은 정보 상호작용(information interaction)을 위한 몇몇 필드(fields)를 사용자에게 제공할 수 있는 비쥬얼 폼(visual form)이다. 예를 들어, 사용자는 선택을 나타내기 위해 "라디오 버튼(radio button)" 필드 위를 지정 및 클릭할 수 있거나, 정보를 기입하기 위해 빈 필드 안에 텍스트를 타이핑할 수 있다. VoiceXML은 마크업 문서의 필드 내에 정보를 입력하기 위한 보이스 인터페이스를 제공하기 위해 XHTML과 연계하여 작동한다. 예를 들어, VoiceXML 마크업은 사용자에게 정보를 필드 내에 기입할 것을 요구하는 오디오 프롬프트(audio prompt)를 명시할 수 있다. 그러면, 사용자는 무언가를 말할 수 있고(또는 원하는 경우 텍스트를 기입할 수 있고), 보이스 브라우저 VoiceXML은 이러한 말을 듣거나 변환하여 프롬프트에 대해 허용가능한 응답(acceptable responses)을 정의한 VoiceXML 마크업에 의해 특정된 또는 참조된 문법(grammers)에 대해 이를 비교할 수 있다. VoiceXML 마크업은 문서의 어떤 필드, 즉 포커스의 필드와 연관될 수 있다. XHTML 및 VoiceXML을 포함하는 마크업 문서의 동작은 이미 현재의 표준 내에 제공되어 있다.
셀룰러 네트워크(12)는, 본 기술 분야에 공지되어 있는 바와 같이, RTP 또는 유사한 전송 프로토콜 내에서 표준화되어 있는 오디오 패킷을 이용하며 DSR(Distributed Speech Recognition)을 포함하는 코덱(codec)(28)을 통해 클라이언트 장치(10)에 표준 오디오 입력 및 출력을 제공한다. 또한, 네트워크(12)는 멀티모드 정보를 클라이언트 장치의 비쥬얼 브라우저(26)에 제공하기 위해 사용되는 채널을 제공한다. 멀티모드 정보는 XHTML 파일(24)로서 전송된다. 본 예에서, 멀티모드/보이스 서버(14)는 클라이언트(10) 및 웹 서버(20) 사이의 통신의 보이스(VoiceXML) 및 비쥬얼(XHTML) 부분들을 분할 및 결합한다. 분할 및 결합은, 클라이언트 장치가 정보의 보이스 부분과 함께 통합된 방식으로 멀티모드 정보를 수신 및 제공하도록, 멀티모드 문서(22)의 보이스 및 비쥬얼 부분의 멀티모드 동기화에 의해 제공되는 통합(coordination)을 요한다. 클라이언트 장치는 상주하는 비쥬얼 브라우저(26)를 통해 멀티모드 정보(24)를 처리한다. 보이스 및 비쥬얼 정보의 개별적 처리는, 사용자에게 적절한 동작을 제공하기를 원하는 경우, 로컬 인터록(local interlock)의 사용을 필요로 하는 몇몇 통합 문제를 야기할 수 있다. 예를 들어, 사용자는 필드 포커스가 확립되기 전에 버튼을 누르고 있을 수 있다. 로컬 인터록은 필드 포커스가 확립될 때까지 스크린을 멈추게 할 수 있다. 다른 예로서, XHTML 폼이 클라이언트 장치상에 나타난 경우, 그리고 보이스 정보가 입력된 경우, 로컬 장치는 보이스 정보가 승인될 때까지 장치의 스크린을 잠글(lock out) 수 있다. 스크린을 잠그는 것은 사용자가 폼의 동일 필드 내에 텍스트 정보를 제공하지 못하도록 하는데, 이는 멀티모드/보이스 서버(14)를 통해 충돌하는 보이스 및 텍스트 정보의 경쟁을 초래한다.
멀티모드/보이스 서버(14)는 멀티모드 정보를 클라이언트 서버(10)와 교환하는 대부분의 또는 모든 처리를 포함한다. 그러한 처리는 동기화 매니저(30)에 의해 제어된다. 동기화 매니저(30)는 문서(22)를 보이스 다이얼로그 정보(32)(가령, VoiceXML) 및 멀티모드 정보(XHTML)로 분할 및 분리하고, 이 정보를 전술한 바와 같이 동기화한다. 보이스 다이얼로그 정보는 클라이언트 장치(10)에 적절하게 포맷팅된 오디오 정보를 제공하기 위해 서버(14) 상에 스피치 엔진(36)과 인터페이스된 보이스 브라우저(34)에 전송된다. 불행히도, 두 개의 브라우저(26, 34)가 통합되도록 하는데 필요한 동기화는 전체 시스템을 매우 복잡하게 만들고, 클라이언트 장치(10)에 대한 로컬 록아웃 여전히 요구한다. 더욱이, 특정 목적의 멀티모드 서버(14)는 브라우저를 동기화하기 위한 특정 프로토콜도 필요로 한다.
스피치 엔진(36)은, 본 기술 분야에 공지되어 있는 바와 같이, 오디오를 재생하고 스피치 인식을 제공한다. 스피치 엔진은 계산적으로 막대하며 많은 양의 RAM(rnadom access memory)를 요한다. 그러한 리소스는 전형적으로 무선 전화와 같은 클라이언트 장치에 이용불가능한데, 이것이 개별 멀티모드/보이스 서버(14)가 본 예에 사용되는 이유이다. 보이스 브라우저(34)는 다이얼로그를 다루며, 마크업 문서의 관련 이벤트를 취하며 스피치 엔진에 오디오 프롬프트를 재생하고 보이스 응답을 듣도록 지시하는 상위 레벨의 프로세서이다. 그런 다음, 스피치 엔진은 소정의 보이스 응답(voiced response)을 보이스 브라우저 매치 폼 필드(voice browser match form field)에 전송한다. 보이스 브라우저는 스피치 엔진으로부터의 응답에 어울리는 허용가능한 문법에 대한 사전저장된 리스트(pre-stored list)를 유지하는 메모리를 포함한다. 예를 들어, XHTML 문서상의 필드는 허용가능한 응답으로서, "예" 또는 "아니오"라는 응답만을 요구할 수 있다. 스피치 엔진은 들어오는 보이스 입력(incoming voice input)을, 현재 문법에 의해 허용될 수 있는 인식된 발성(recognized utterance) 또는 에러 코드(error code) 중 어느 하나를 지정할 수 있는 인식 결과(recognition result)에 맵핑할 수 있다. 그런 다음, 이후 각각의 필드에 발성(utterance)을 할당함으로써, 상기 결과를 반영하기 위해 그 내부 상태를 업데이트할 보이스 브라우저에 상기 인식 결과를 전송할 것이다. 보이스 브라우저는 후속하여 상기 인식 결과를 동기화 매니져에 통보할 것이다. 이 경우, 스피치 엔진은 보이스 응답을 허용가능한 문법 리스트 내의 "예" 또는 "아니오"라는 응답 중 어느 하나에 매칭하고자 할 것이며, 상기 결과를 예/아니오 결과를 적절한 필드에 할당하고 동기화 매니져에게 통보하는 보이스 브라우저에 포워딩할 것이다.
동기화 매니져(30)는, 응답을 조정하기 위해 위해 문서 내의 무슨 필드가 현재 행해지는 지를 웹 및 보이스 브라우저에 알린다. 달리 말하면, 동기화 매니져는 브라우저의 포커스의 필드를 결정한다. 비록 이것이 문자 그대로 동기화는 아니더라도, 효과는 동일하다. 정의에 의하면, 멀티모드 다이얼로그는 코덱(28)을 통하는 오디오 또는 비쥬얼 브라우저(26)를 통하는 키 스트로크 텍스트 엔트리(key stroke text entry) 중 어느 하나일 수 있는 유효 응답(valid response)을 포함할 수 있다. 동기화 매니져는, 멀티모드 정보의 통합 전송을 제공하기 위해, 이러한 이벤트들 모두의 가능성을 처리한다.
도 2는 멀티모드 통신에 대한 대부분의 또는 모든 처리가 (팻) 통신 장치((fat) communication device) 상에서 행해지는 종래 기술의 아키텍쳐를 나타낸다. 이전과 같이, 클라이언트 통신 장치(10)는 어플리케이션 서버(18) 상에 존재하는 멀티모드 어플리케이션에 액세스하기를 원하는데, 여기서 어플리케이션 서버(18)는 통신하기 위해 상주 웹 서버(resident web server)(20)를 사용한다. 웹 서버(20)는 (전형적으로 셀룰러 네트워크(12)를 통해 서버 제공자, 가령, GPRS(General Packet Radio Service)를 통해 인터넷 접속을 제공함으로써) 클라이언트 장치(10)에 직접적으로 멀티모드 마크업 문서(22) 교환을 제공한다. 이전 예의 모든 멀티미디어/비쥬얼 서버 프로세스는 이제 클라이언트 장치(10) 상에 상주하며, 전술한 바와 동일하게 동작한다. 불행히도, (팻) 장치(10)는 이제 매우 확장된 프로세싱 전력 및 메모리를 요구하는데, 이는 비용을 많이 들게 한다.
도 3은 멀티모드 통신의 프로세싱 중 몇몇이 통신 장치(10) 상에서 제한된 프로세싱 및 메모리 제한을 수용하기 위해 원격으로 행해지는 종래 기술의 아키텍쳐를 나타낸다. 이전과 같이, 클라이언트 통신 장치(10)는 어플리케이션 서버(18) 상에 존재하는 멀티모드 어플리케이션에 액세스하기를 원하는데, 여기서, 어플리케이션 서버(18)는 통신하기 위해 상주 웹 서버(20)를 사용한다. 웹 서버(20)는 (전형적으로 셀룰러 네트워크(12)를 통해 서버 제공자를 통한 인터넷 접속을 제공함으로써) 클라이언트 서버(10)에 직접적으로 멀티모드 파일(20) 교환을 제공한다. 이전 예의 대부분의 멀티모드/보이스 서버 프로세스는 여전히 클라이언트 서버(10) 상에 상주하며, 전술한 바와 동일하게 동작한다. 그러나, 이제 원격 보이스 서버(38)에는 그 내부에 상주하는 스피치 엔진(36)이 제공된다. 원격 보이스 서버(38)는, 현재에도 존재하는 것처럼, 서버 제공자 또는 기업에 의해 공급될 수 있다. 보이스 브라우저(34)는 정의된 MRCP(Media Resource Control Protocol)를 통해 스피치 엔진(36)과 통신한다. 불행히도, 원격 리소스를 구비한 (팻) 장치(10)는 여전히 실질적으로 확장된 프로세싱 전력 및 메모리를 요구하며, 이는 여전히 비용이 많이 들게 한다. 더욱이, 보이스 브라우저 및 스피치 엔진 사이에 전송될 많은 양의 코드가 존재하는데, 이는 네트워크에 부담을 주며 통신을 느리게 할 것이다.
가장 간단한 실시예로서, 본 발명은 통신 시스템용 보이스 브라우저 다이얼로그 인에이블러(voice browser dialog enabler)이다. 보이스 브라우저 인에이블러는 복수의 어플리케이션 상호작용 유닛(units of application interaction)을 포함하는 스피치 인식 어플리케이션을 포함하는데, 이는 복수의 관련 사용자 인터페이스 입력 엘리먼트(related user input elements)이다. 예를 들어, 어드레스 북(address book)에서, 사용자가 새로운 어드레스 엔트리를 생성하기를 원하는 경우에는 이름 및 전화 번호를 입력하는 것이 필요할 것이다. 이 경우, 어플리케이션 상호작용 유닛은 밀접하게 관련된 두 개의 입력 필드(즉, 이름 필드 및 어드레스 필드)일 것이다. 각각의 어플리케이션 상호작용 유닛은 프래그먼트(fragments)를 정의하는 보이스 다이얼로그 포맷(voice dialog formats)을 연관시킬 것이다. 예를 들어, 스피치 인식 어플리케이션은 XHTML+VoiceXML 문서를 처리하는 멀티모드 브라우징 어플리케이션일 수 있다. 각각의 XHTML+VoiceXML 문서는 단일 어플리케이션 상호작용 유닛을 구성할 수 있고 하나 이상의 필드와 연관된 하나 이상의 VoiceXML 폼을 포함할 수 있다. 각각의 VoiceXML 폼은 프래그먼트를 정의한다. 통신 장치상에 상주하는 보이스 브라우저 드라이버(voice browser driver)는 어플리케이션으로부터 프래그먼트를 제공하며 프래그먼트를 식별하는 식별자를 생성한다. 원격 보이스 서버 상에 상주하는 보이스 브라우저 임플리멘테이션은, 보이스 브라우저 드라이버로부터 프래그먼트를 수신하고 복수의 스피치 문법을 다운로드하는데, 여기서 후속하는 입력 스피치는, 보이스 브라우저 드라이버로부터 스피치 인식 요구로 수신된, 대응하는 식별자와 관련된 이들 스피치 문법에 대해 매칭된다.
도 4는 본 발명에 따른, 멀티모드 다이얼로그를 용이하게 하기 위해 보이스 브라우저 인에이블러를 사용하는 보이스 브라우저의 실질적인 구성을 나타낸다. 이 예에서, 어플리케이션 서버(18), 웹 서버(20), 인터넷 접속(16) 및 마크업 문서(22)는 전술한 바와 동일하지만, 본 발명을 설명하기 위해 보다 상세히 도시되어 있는데, 여기서 보이스 브라우저의 기능은 분할되어 있다. 예를 들어, 마크업 문서(22)는 스피치 문법 및 오디오 파일에 대한 방향을 나타내는 URLs도 포함한다. 게다가, 스피치 엔진(36)은 전술한 바와 동일하지만, 보다 상세하다. 예를 들어, 스피치 엔진(26)은 어플리케이션 서버에 의해 제공되는 스피치 문법에 사용하기 위한 스피치 인식 유닛(40), 및 기록된 오디오 URL로부터 오디오 프롬프트를 제공할 수 있거나 TTS(Text-To-Speech)를 사용할 수 있는 미디어 서버(42)를 포함하는데, 이는 본 기술 분야에 공지되어 있는 것이다.
본 발명의 새로운 특징은 본 발명이 통신 장치상의 보이스 브라우저를 "스터브(stub)(44)" 및 원격 보이스 서버(38) 상의 보이스 브라우저 "임플리멘테이션(implementation)(46)"으로 분할된다는 것이다. 바람직한 실시예에서, 보이스 브라우저 스터브(44)는 보이스 브라우저 임플리멘테이션(46)과 인터페이스되는 보이스 브라우저 드라이버(43)와, 보이스 브라우저 스터브(44) 및 비쥬얼 브라우저(26)를 통합하는 싱크로나이져(synchronizer)(47)로 재분할된다. 또한 싱크로나이져(47)는, 사용자가 코덱(28)에 말하고 있는지 여부에 기초하여 비쥬얼 브라우저(27)에 대한 입력을 선택적으로 인에이블 및 디스에이블시킨다(입력 동기화). 이러한 보이스 브라우저 스터브의 재분할은 클라이언트 장치(가령, J2ME 머플리케이션)를 구동하는 자립형 어플리케이션(stand-alone applications)이 비쥬얼 브라우저(27) 및/또는 싱크로나이져(47) 대신에 사용되도록 하며, 보이스 브라우저 스터브(44)의 나머지의 능력을 재사용하도록 한다.
본 발명의 또 다른 새로운 특징은 비쥬얼 브라우저(27)가 이제는 전체 마크업 문서(full markup document), 보이스 및 오디오 상에서 동작하는데, 이는 원격 동기화에 대한 필요성을 제거한다. 결과적으로, 싱크로나이져(47)는 종래 기술의 동기화 매니져(종래 기술의 도면에 30으로 나타나 있음) 보다 작고 간단한 임플리멘테이션을 갖는다. 또한, 보이스 브라우저(43, 46)는 종래 기술과 같이 입력 필드 및 값을 사용하지 않는다. 대신 음성 브라우저는 포커스 필드(focused field)와 함께 동작한다. 이는 보이스 브라우저 임플리멘테이션(46)을 단순화하는 것을 돕는데, 이에 대해서는 이하에서 설명하기로 한다.
동작에 있어서, 멀티모드 마크업 문서(22)가 웹 서버(20)로부터 페치된 후, 비쥬얼 브라우저는 그 카피(copy)를 보이스 브라우저 스터브에 전송한다. 비쥬얼 브라우저는 그 카피를 보이스 브라우저 스터브에 전송한다. 보이스 브라우저 스터브(44)는 보이스 브라우저 마크업(가령, VoiceXML)을 문서에서 분리 또는 분할하여, 디스플레이가능한 마크업(가령, XHTML) 및 보이스 브라우저 마크업(가령, VoiceXML)으로 만든다. 그런 다음, 보이스 브라우저 스터브(44)는, 전술한 바와 같은 클라이언트 장치상에서와 같이 프로세싱 및 디스플레이하기 위해 비쥬얼 마크업을 비쥬얼 브라우저에 전송한다. 그러나, 보이스 브라우저 스터브(44)의 보이스 브라우저 드라이버(43)는 보이스 브라우저 마크업에 대해 종래 기술에서 행해지는 것과는 다르게 동작한다. 본 발명에서, 보이스 브라우저 드라이버는 프래그먼트 마크업 문서의 프래그먼트에 대해 동작한다. 프래그먼트는 단일 VoiceXML 폼이며(XHTML 폼과 혼돈되지 않음; XHTML과 유사하나 그들 사이에 1대1 관계가 없음), 큰 XHTML+VoiceXML 문서의 개별 조각(individual piece)으로 간주될 수 있다. 폼은 단지 VoiceXML 내의 다이얼로그 유닛인데, 그 목적은 사용자에게 프롬프트하고 전형적으로는 그 폼 내의 하나 이상의 필드를 기입하는 것이다. XHTML 내의 하나의 입력 필드 폼은 하나의 VoiceXML 폼 또는 그와 관련된 프래그먼트를 가질 수 있다. 또한, 밀접하게 연관된 XHTML 폼 입력의 세트가 XHTML 폼 입력 모두를 기입할 수 있는 단일 VoicXML을 가지도록 하는 것이 가능하다. 보이스 브라우저 드라이버는, 전체 문서 폼 및 값에 대해 동작하는 종래 기술의 보이스 브라우저 대신, 마크업 문서의 하나의 포커스 필드 또는 프래그먼트에 대해 한번에 동작한다.
또한, 이러한 폼/프래그먼트는 이미 문서의 헤드 섹션 내에 함께 모여있으므로, XHTML+VoiceXML 문서로부터 VoiceXML 폼/프래그먼트를 생성하는 것이 어렵지 않기 때문에 보이스 브라우저 드라이버는 종래 기술의 보이스 브라우저보다 적은 프로세싱을 사용한다. 보이스 브라우저 드라이버가 할 필요가 있는 모든 것은 프래그먼트/폼을 찾고, 유일한 식별자를 그들과 연관시키며, 보이스 브라우저 임플리멘테이션으로의 전송을 위해 보이스 브라우저 스터브가 그들을 랩업(wrap up)하는 것이다. 식별자는 단지 단일 VoiceXML 폼(여기서 유일함은, 단일 멀티모드 마크업 문서로부터 생성된 것처럼, 보이스 브라우저에 주어진 프래그먼트의 세트의 범주 내에서만 요구됨)을 유일하게 식별하는 스트링(string)이다. 프래그먼트 및 식별자의 사용은 네트워크(12)를 통한 클라이언트 장치(10) 및 원격 서버(38) 사이의 데이터 전송량을 줄인다.
특히, 포커스 필드에 있어서, 프래그먼트가 연관되어 있다. 보이스 브라우저 드라이버는 필드가 XHTML 또는 VoiceXML인지 여부에 독립적으로 동작할 수 있다는 점이 유의되어야 한다. 예를 들어, XHTML 폼은 사용자에게 스트리트 어드레스(street address)에 대하여 물을 수 있다. 이 경우, 스트리트 어드레스(숫자 및 거리)에 대한 텍스트 필드, (선택적인) 아파트 번호에 대한 또 다른 텍스트 필드, 도시에 대한 또 다른 텍스트 필드, 주(state)에 대한 팝업 메뉴 및 집코드(zipcode)에 대한 마지막 텍스트 필드가 존재할 것이다. 이제, 이러한 XHTML 폼이 주어진 경우, 이 필드를 기입하기 위해 함께 동작하는 VoiceXML 폼의 세트가 존재할 수 있다. 예를 들어, 하나의 VoiceXML 폼은 스트리트 어드레스 및 아파트 번호 필드 모두를 기입할 수 있을 것이며, 또 다른 VoiceXML 폼은 집 코드만 기입할 수 있을 것이다. 이러한 폼들은 페이지의 프래그먼트로 정의된다.
이러한 세 개의 VoiceXML 폼 각각은 자신의 유일한 식별자(즉, 명명된 VoiceXML 폼)를 갖는다. 예를 들어, 이러한 식별자는 "스트리트+아파트", "시(city)+주(state)" 및 "집코드"로 각각 불릴 수 있다. "스트리트+아파트" VoiceXML 폼은, 활성화되었을 경우, 사용자가 "스트리트 어드레스 및 아파트 번호를 말하시오."를 듣도록 하는 오디오 프롬프트를 포함할 것이다. 또한, 스트리트 어드레스 및 선택적인 아파트 번호를 이해하는 것이 가능하게 되어 있는 문법이 존재할 것이다. "시+주" VoiceXML 폼은 "시 이름과 주를 말하시오."와 같은 오디오 프롬프트 및 그에 대한 적절한 문법을 포함할 것이다. 집코드에 대해서도 유사하게 적용될 수 있다.
보이스 브라우저 스터브는 관련 VoiceXML 프래그먼트(45)의 페이지를 보이스 브라우저 임플리멘테이션(46)에 전송한다. 그런 다음, 보이스 브라우저 스터브(44)가 사용자 입력에 대해 들을 필요가 있을 경우에는 인식 요구(48)를, 인식을 위한 사용을 위해 폼에 대한 이름 및 식별자를 알리는 보이스 브라우저 임플리멘테이션(46)에 전송한다. 이전과 같이, 보이스 서버(38)는 스피치 문법을 포함하지만, 본 실시예에서, 식별자는 이미 전송된 보이스 프래그먼트와의 매칭을 찾기 위해 단지 "스트리트+아파트", "시+주", "집코드" 문법을 보기 위해서 보이스 브라우저 임플리멘테이션을 코드화하는 식별자가 전송될 수 있다. VoiceXML 폼은 보이스 서버(38)에 한번 전송, 처리 및 그 후 캐쉬될(cached) 수 있다. 후속하는 요구는 그들의 식별자에 의해 캐쉬된 VoiceXML 폼을 식별할 수 있다. 이는 VoiceXML을 매 요구마다 전송 및 처리할 필요성을 제거한다. 그 결과, 문법 조사(grammar search)는 단순화되어, 프로세싱 전원 및 시간이 절약된다. 문서의 스트리트+아파트 필드에 대한 폼/프래그먼트를 위한 식별자가 보이스 브라우저 임플리멘테이션에 인식 요구(48)로서 전송되는 경우, 보이스 브라우저 임플리멘테이션은 스피치를 입력할 것이며, 보이스 브라우저(46)는, 가령, "메인 스트리트"의 입력 스피치에 대한 매치와 같은, 매치에 조사에 대한 적절한 문법으로 스피치 인식기(40)를 활성화할 것이다. 매치가 발견되고 나면, 보이스 브라우저 임플리멘테이션은 사용자가 텍스트로 말한 것("M-a-i-n-S-t-r-e-t")을, 보이스 브라우저 드라이버(43)에 인식 결과(49)로서 다시 전달하는데, 이는 종래 기술과 유사하다. 다음으로, 보이스 브라우저 스터브(44)는 결과를 취하고 결과를 디스플레이하기 위해 비쥬얼 브라우저(27)를 업데이트한다. 보이스 브라우저 임플리멘테이션(46)은 보이스 브라우저 스터브(44)를 위한 인터페이스를 구비한 종래 기술의 보이스 브라우저와 동일할 수 있으나, 본 발명은, 보이스 브라우저가 이제 단순한 VoiceXML 마크업의 작은 프래그먼트만을 처리하기 때문에, VoiceXML 언어 내에서 많은 태그 및 특징을 이용하지 않는, 보다 단순한 임플리멘테이션을 제공한다.
실제로, 보이스 브라우저 스터브(44)는 페이지의 모든 필드에 대해 관련 프래그먼트(45)를 한번에 보이스 브라우저 임플리멘테이션(46)에 전송할 수 있다. 이후, 보이스 브라우저 스터브(44)는 임의의 포커스 필드에 대한 멀티모드 상호작용의 보이스 부분을 통합하고, 보이스 브라우저 임플리멘테이션(46)에 필요한 임의의 스피치 인식 요구 식별자(48)를 전송하며, 그 프래그먼트에 대응하는 인식 결과(49)를 획득한다. 바람직하게, 인식 요구(48) 및 인식 결과(49)를, 종래 기술에서 사용되는 것과 같이 MRCP처럼 하위 레벨의 API를 사용하는 것보다는 오히려, 마크업 기반(가령, XML)으로 만드는 것이 요구된다.
도 5는 도 4와 함께, 본 발명에 따른, 멀티모드 다이얼로그의 상호작용을 설명하기 위해 사용될 수 있다. 도 5는 마크업 문서 내에 두 개의 텍스트 필드, 즉, 보이스에 의해 기입되는 필드(A)와 텍스트로서 기입되는 필드(B)를 구비한 단순화된 상호작용을 나타낸다. 다수의 보이스 필드 또는 텍스트 필드가 멀티모드 다이얼로그에 사용될 수 있다는 것이 인식되어야 한다. 사용자는, 가령, 인터넷 어드레스를 클릭함으로써 다이얼로그를 개시한다. 이는 비쥬얼 브라우저에 HTTP 입수/포스트(GET/POST) 요구(50)를 어플리케이션 웹 서버(20)에 전송하도록 지시하여, 원하는 마크업 문서(22)를 얻게 한다(51). 또한, 문서는 문서에 대해 허용가능한 문법에 대한 URL을 포함하는데, 이는 보이스 서버(38)에 다운로드될 수 있다. 일단 수신되고 나면, 비쥬얼 브라우저(27)가 구동되어 클라이언트 장치(10)의 스크린 상에 문서를 만든다(52). 다음으로, 오디오 및 비쥬얼 문서는 보이스 브라우저 스터브(44)에 전송되는데, 이는 보이스(VoiceXML) 마크업을 문서에서 분할된다. 또한, 보이스 브라우저 스터브는 마크업의 VoiceXML 폼(프래그먼트)을 식별하며 이 프래그먼트를 보이스 서버(38)에 전송한다. 이 시점에서, 보이스 서버(36)의 보이스 브라우저 임플리멘테이션(46) 및 스피치 엔진(36)은 문서가 잘 형성되었는지에 대한 선택적 백그라운드 검사(optional background check)를 할 수 있고, 문서를 전처리(즉, 컴파일)도 할 수 있으며, 어떤 외부 스피치 문법 또는 문서가 참조할 수 있는 오디오 프롬프트를 페치/전처리(즉, 컴파일, 디코딩/인코딩)하고, 텍스트를 스피치에 통합할 수 있다.
다음으로, 사용자는 포커스(53)를 정의하는 디스플레이된 마크업 문서의 필드를 선택할 수 있다. 비쥬얼 브라우저(27)는 포커스 변화(focus change)를 수신하고, 포커스 필드 우측으로 점프하며, 필드 포커스를 보이스 브라우저 스터브(44)로 옮긴다. 다음으로, 보이스 브라우저 스터브(44)의 보이스 브라우저 드라이버(43)는 인식 요구(48)로서 폼의 그 필드 포커스에 대한 식별자를 보이스 서버(38)에 전송하는데(54), 이는 요구를 승인한다(55). 이 시점에서, 보이스 서버(38)는 하나 이상의 오디오 프롬프트를 RTP(real time streaming protocol) 오디오 패킷(57)으로서 사용자에게 전송함으로써(56), 스피치 입력에 대해 사용자에게 선택적으로 프롬프트할 수 있다. 오디오는 클라이언트 장치의 스피커(41) 오디오 리소스로 전달된다. 다음으로, 사용자는 PTT(push-to-talk) 버튼을 누르고 클라이언트 장치의 코덱(28) 오디오 리소스를 통해 보이스 서버(38)에 전송함으로써 보이스에 의해 응답할 수 있다. 코덱은 RTP DSR 패킷(59)으로서의 스피치를 보이스 서버의 스피치 엔진에 전송 - 이는 스피치를 허용가능한 그 폼 및 필드와 관련된 관련 식별자에 따른 문법에 매칭시킴 - 하고, 인식 결과로서의 텍스트 응답을 보이스 브라우저 스터브(44)의 보이스 브라우저 드라이버(43)에 전송한다. 보이스 브라우저 스터브는 장치상의 디스플레이 스크린과 필드 및 값의 맵(map)을 업데이트하기 위해 비쥬얼 브라우저(27)와 인터페이스된다.
또한, 사용자는 텍스트를 기입하기 위해 포커스(61)를 정의하는 디스플레이된 마크업 문서의 필드를 선택한다. 이전과 같이, 비쥬얼 브라우저(27)는 포커스 변화를 수신하고, 포커스된 필드의 우측으로 점프하며, 필드 포커스를 보이스 브라우저 스터브(44)로 전송한다(62). 다음으로, 보이스 브라우저 스터브(44)의 보이스 브라우저 드라이버(43)는 인식 요구(48)로서 포커스의 그 필드에 대해 폼(63)을 보이스 서버(44)에 구동하는데, 이는 요구(64)를 승인한다. 여기서 어떠한 오디오 프롬프트가 사용되지 않는다고 가정하면(비록 전술한 바와 같이 사용된다 하더라도), 사용자는, 필드 및 값의 맵을 집적적으로 업데이트하는 텍스트를 기입하는 것(65)에 응답할 수 있다. 또한, 폼 데이터(이는 필드 및 값의 맵 내에 유지됨)를 웹 서버(20)에 제출(66) 시, 비쥬얼 브라우저는, 보이스 서버에 문법에 대한 듣기를 멈추도록 지시하기 위해, 보이스 브라우저 스터브(44)를 통해 보이스 서버에 취소 커맨드(67)를 전송한다. 다음으로, 다이얼로그 프로세스는 반복될 수 있다.
본 발명은 멀티보드 다이얼로그를 제한된 리소스에 제공하는 솔루션을 제공한다. 본 발명은 동기화된 멀티모드 통신을 유지함에 있어서 특별한 어플리케이션을 발견한다. 본 발명의 방법은 통신 장치상에 최소한의 프로세서 및 메모리 요구를 이용하여, 보이스 브라우저의 프로세싱 요구를 분할하는 프로세스를 제공한다. 이는 단지 최소한의 소프트웨어 변형으로 달성되며, 여기서 외부 동기화 또는 특정된 멀티모드 서버에 대한 필요성은 존재하지 않는다.
본 발명이 상기 설명 및 도면으로 기술 및 설명되었지만, 이러한 설명은 단지 예에 의한 것이며, 본 발명의 범주 및 사상 내에서 수많은 변형 빛 변경이 당업자에 의해 이루어질 수 있다. 본 발명이 휴대형 셀룰러 무선 전화에서의 특정 사용을 찾았지만, 본 발명은, 페이져, 전자 오거나이져 및 컴퓨터를 포함하는 임의의 통신 장치에서의 멀티모드 다이얼로그에 적용될 수 있다. 출원인의 발명은 청구범위로 한정된다.

Claims (10)

  1. 통신 시스템용 보이스 브라우저 다이얼로그 인에이블러(voice browser dialog enabler)에 있어서,
    각각이 프래그먼트를 정의하는 관련 보이스 다이얼로그 폼(forms)을 가지는 복수의 어플리케이션 상호작용 유닛(unit of application interaction)을 포함하는 스피치 인식 어플리케이션(speech recognition application)과,
    통신 장치상에 상주하고, 상기 어플리케이션으로부터 상기 프래그먼트를 제공하며, 상기 프래그먼트를 식별하는 식별자를 생성하는 보이스 브라우저 드라이버와,
    원격 보이스 서버상에 상주하고, 상기 보이스 브라우저 드라이버로부터 상기 프래그먼트를 수신하며, 복수의 스피치 문법을 다운로드하는 보이스 브라우저 임플리멘테이션을 포함하고,
    후속하는 입력 스피치는 상기 보이스 브라우저 드라이버로부터 스피치 인식 요구시 수신되는 대응 식별자와 관련된 상기 복수의 스피치 문법에 대해 매치되는 인에이블러.
  2. 제1항에 있어서,
    상기 스피치 인식 요구 및 후속하는 스피치 인식 결과는 마크업 기반(mark-based)인 인에이블러.
  3. 제1항에 있어서,
    상기 프래그먼트는 식별된 폼의 VoiceXML 페이지로 구성된 인에이블러.
  4. 제1항에 있어서,
    상기 스피치 인식 어플리케이션은 멀티모드 마크업 문서를 처리하는 멀티모드 브라우저이고, 상기 보이스 브라우저 드라이버는 멀티모드 마크업 문서 상에서 이를 디스플레이가능한 마크업 부분 및 보이스 마크업 부분으로 분할하도록 동작하는 보이스 브라우저 스터브 내에 상주하며, 상기 보이스 브라우저 드라이버 및 상기 보이스 브라우저 임플리멘테이션은 상기 보이스 마크업 부분에 대해 동작가능한 인에이블러.
  5. 제4항에 있어서,
    상기 멀티모드 마크업 문서 및 상기 스피치 문법을 포함하는 웹 서버를 구비한 인터넷 어플리케이션 서버를 더 포함하며,
    상기 멀티모도 마크업 문서의 상기 디스플레이가능한 마크업 부분 및 보이스 마크업 부분 모두에 대해 동작가능한 상기 통신 장치 내에 비쥬얼 브라우저를 더 포함하는 인에이블러.
  6. 통신 시스템용 보이스 브라우저와의 다이얼로그를 인에이블시키는 방법에 있어서,
    통신 장치 상에 상주하는 보이스 브라우저 드라이버 및 원격 보이스 서버 상에 상주하는 복수의 스피치 문법을 포함하는 보이스 브라우저 임플리멘테이션을 제공하는 단계와,
    각각이 프래그먼트를 정의하는 보이스 다이얼로그 폼을 갖는 복수의 어플리케이션 상호작용 유닛을 포함하는 스피치 인식 어플리케이션을 구동하는 단계와,
    각각의 프래그먼트와 관련된 식별자를 정의하는 단계와,
    상기 프래그먼트를 상기 보이스 브라우저 임플리멘테이션에 제공하는 단계와,
    상기 어플리케이션 상호작용 유닛 중 하나 내의 필드에 포커싱하는 단계와,
    상기 포커싱된 필드와 관련된 상기 폼의 식별자를 포함하는 스피치 인식 요구를 상기 보이스 브라우저 드라이버로부터 상기 보이스 브라우저 임플리멘테이션으로 전송하는 단계와,
    스피치를 입력 및 인식하는 단계와,
    상기 스피치를 상기 식별자와 관련된 상기 허용가능한 스피치 문법에 매칭하는 단계와,
    스피치 인식 결과를 취득하는 단계를 포함하는 방법.
  7. 제6항에 있어서,
    상기 전송 단계의 상기 스피치 인식 요구 및 상기 취득 단계의 상기 스피치 인식 결과는 마크업 기반이고, 상기 제공 단계는 상기 보이스 브라우저 임플리멘테이션에 식별 폼의 VoiceXML 페이지를 제공하는 단계를 포함하는 방법.
  8. 제6항에 있어서,
    상기 제공 단계는 싱크로나이져를 이용하여 상기 통신 장치 상의 상기 보이스 브라우저 임플리멘테이션 및 비쥬얼 브라우저와 인터페이스되는 보이스 브라우저 스터브에 통합된 상기 보이스 브라우저 드라이버를 포함하는 방법.
  9. 제6항에 있어서,
    상기 구동 단계는 멀티모드 마크업 문서를 상기 스피치 인식 어플리케이션 문서로서 다운로드하는 단계를 포함하는 방법.
  10. 제6항에 있어서,
    상기 구동 단계 후, 상기 멀티모드 마크업 문서를, 상호 작용 유닛을 포함하는 디스플레이가능한 마크업 부분 및 보이스 마크업 부분으로 분할하는 단계를 더 포함하고, 상기 후속하는 단계들은 상기 문서의 상기 보이스 마크업 부분에 대해서만 동작할 수 있으며, 상기 제공 단계는 상기 멀티모드 마크업 문서의 상기 디스플레이가능한 마크업 부분 및 보이스 마크업 부분 모두에 대해 동작할 수 있는 상기 통신 장치 내에 비쥬얼 브라우저를 제공하는 단계를 포함하는 방법.
KR1020057012829A 2003-01-09 2004-01-08 통신 시스템용 보이스 브라우저 다이얼로그 인에이블러 KR101027548B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/339,067 US7003464B2 (en) 2003-01-09 2003-01-09 Dialog recognition and control in a voice browser
US10/339,067 2003-01-09

Publications (2)

Publication Number Publication Date
KR20050100608A true KR20050100608A (ko) 2005-10-19
KR101027548B1 KR101027548B1 (ko) 2011-04-08

Family

ID=32711032

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057012829A KR101027548B1 (ko) 2003-01-09 2004-01-08 통신 시스템용 보이스 브라우저 다이얼로그 인에이블러

Country Status (8)

Country Link
US (1) US7003464B2 (ko)
EP (1) EP1588353B1 (ko)
KR (1) KR101027548B1 (ko)
CN (1) CN1333385C (ko)
MY (1) MY137374A (ko)
RU (1) RU2349970C2 (ko)
TW (1) TWI249729B (ko)
WO (1) WO2004064299A2 (ko)

Families Citing this family (365)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7409349B2 (en) 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
US7610547B2 (en) * 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US7506022B2 (en) * 2001-05-04 2009-03-17 Microsoft.Corporation Web enabled recognition architecture
US8229753B2 (en) * 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
US7711570B2 (en) * 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US6910911B2 (en) 2002-06-27 2005-06-28 Vocollect, Inc. Break-away electrical connector
US7260535B2 (en) * 2003-04-28 2007-08-21 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting for call controls
US20040230637A1 (en) * 2003-04-29 2004-11-18 Microsoft Corporation Application controls for speech enabled recognition
US20050010418A1 (en) * 2003-07-10 2005-01-13 Vocollect, Inc. Method and system for intelligent prompt control in a multimodal software application
US8311835B2 (en) * 2003-08-29 2012-11-13 Microsoft Corporation Assisted multi-modal dialogue
GB0328035D0 (en) * 2003-12-03 2004-01-07 British Telecomm Communications method and system
US7660400B2 (en) * 2003-12-19 2010-02-09 At&T Intellectual Property Ii, L.P. Method and apparatus for automatically building conversational systems
US7552055B2 (en) 2004-01-10 2009-06-23 Microsoft Corporation Dialog component re-use in recognition systems
US8160883B2 (en) * 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
US7552225B2 (en) * 2004-04-28 2009-06-23 International Business Machines Corporation Enhanced media resource protocol messages
US20060015335A1 (en) * 2004-07-13 2006-01-19 Ravigopal Vennelakanti Framework to enable multimodal access to applications
GB0415928D0 (en) * 2004-07-16 2004-08-18 Koninkl Philips Electronics Nv Communication method and system
GB0415925D0 (en) * 2004-07-16 2004-08-18 Koninkl Philips Electronics Nv Communication system and method
US20060036770A1 (en) * 2004-07-30 2006-02-16 International Business Machines Corporation System for factoring synchronization strategies from multimodal programming model runtimes
US20060047511A1 (en) * 2004-09-01 2006-03-02 Electronic Data Systems Corporation System, method, and computer program product for content delivery in a push-to-talk communication system
US7739117B2 (en) * 2004-09-20 2010-06-15 International Business Machines Corporation Method and system for voice-enabled autofill
US8024194B2 (en) * 2004-12-08 2011-09-20 Nuance Communications, Inc. Dynamic switching between local and remote speech rendering
US9083798B2 (en) * 2004-12-22 2015-07-14 Nuance Communications, Inc. Enabling voice selection of user preferences
US20060136870A1 (en) * 2004-12-22 2006-06-22 International Business Machines Corporation Visual user interface for creating multimodal applications
US7751431B2 (en) * 2004-12-30 2010-07-06 Motorola, Inc. Method and apparatus for distributed speech applications
US20060219663A1 (en) * 2005-03-31 2006-10-05 Applied Materials, Inc. Metal CMP process on one or more polishing stations using slurries with oxidizers
US20060235694A1 (en) * 2005-04-14 2006-10-19 International Business Machines Corporation Integrating conversational speech into Web browsers
US20060253272A1 (en) * 2005-05-06 2006-11-09 International Business Machines Corporation Voice prompts for use in speech-to-speech translation system
US8090584B2 (en) * 2005-06-16 2012-01-03 Nuance Communications, Inc. Modifying a grammar of a hierarchical multimodal menu in dependence upon speech command frequency
US7917365B2 (en) * 2005-06-16 2011-03-29 Nuance Communications, Inc. Synchronizing visual and speech events in a multimodal application
US20060287865A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Establishing a multimodal application voice
US20060287858A1 (en) * 2005-06-16 2006-12-21 Cross Charles W Jr Modifying a grammar of a hierarchical multimodal menu with keywords sold to customers
US20070043868A1 (en) * 2005-07-07 2007-02-22 V-Enable, Inc. System and method for searching for network-based content in a multi-modal system using spoken keywords
KR100724868B1 (ko) 2005-09-07 2007-06-04 삼성전자주식회사 다수의 합성기를 제어하여 다양한 음성 합성 기능을제공하는 음성 합성 방법 및 그 시스템
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US8073700B2 (en) 2005-09-12 2011-12-06 Nuance Communications, Inc. Retrieval and presentation of network service results for mobile device using a multimodal browser
US8015304B2 (en) * 2005-12-12 2011-09-06 International Business Machines Corporation Method to distribute speech resources in a media server
US8140695B2 (en) * 2005-12-12 2012-03-20 International Business Machines Corporation Load balancing and failover of distributed media resources in a media server
US7848314B2 (en) * 2006-05-10 2010-12-07 Nuance Communications, Inc. VOIP barge-in support for half-duplex DSR client on a full-duplex network
US9208785B2 (en) * 2006-05-10 2015-12-08 Nuance Communications, Inc. Synchronizing distributed speech recognition
US20070274297A1 (en) * 2006-05-10 2007-11-29 Cross Charles W Jr Streaming audio from a full-duplex network through a half-duplex device
US20070276651A1 (en) * 2006-05-23 2007-11-29 Motorola, Inc. Grammar adaptation through cooperative client and server based speech recognition
US7676371B2 (en) * 2006-06-13 2010-03-09 Nuance Communications, Inc. Oral modification of an ASR lexicon of an ASR engine
US8332218B2 (en) * 2006-06-13 2012-12-11 Nuance Communications, Inc. Context-based grammars for automated speech recognition
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8374874B2 (en) * 2006-09-11 2013-02-12 Nuance Communications, Inc. Establishing a multimodal personality for a multimodal application in dependence upon attributes of user interaction
US8145493B2 (en) * 2006-09-11 2012-03-27 Nuance Communications, Inc. Establishing a preferred mode of interaction between a user and a multimodal application
US8073697B2 (en) 2006-09-12 2011-12-06 International Business Machines Corporation Establishing a multimodal personality for a multimodal application
US8086463B2 (en) 2006-09-12 2011-12-27 Nuance Communications, Inc. Dynamically generating a vocal help prompt in a multimodal application
US7957976B2 (en) * 2006-09-12 2011-06-07 Nuance Communications, Inc. Establishing a multimodal advertising personality for a sponsor of a multimodal application
US7827033B2 (en) * 2006-12-06 2010-11-02 Nuance Communications, Inc. Enabling grammars in web page frames
US8204182B2 (en) * 2006-12-19 2012-06-19 Nuance Communications, Inc. Dialect translator for a speech application environment extended for interactive text exchanges
CN101207585B (zh) * 2006-12-22 2011-04-27 国际商业机器公司 向文本交换形态添加上下文的方法和系统
US7680816B2 (en) * 2006-12-22 2010-03-16 Verizon Patent And Licensing Inc. Method, system, and computer program product providing for multimodal content management
US7962963B2 (en) * 2006-12-22 2011-06-14 Verizon Patent And Licensing Inc. Multimodal resource management system
US8417529B2 (en) 2006-12-27 2013-04-09 Nuance Communications, Inc. System and methods for prompting user speech in multimodal devices
US8612230B2 (en) 2007-01-03 2013-12-17 Nuance Communications, Inc. Automatic speech recognition with a selection list
US8069047B2 (en) * 2007-02-12 2011-11-29 Nuance Communications, Inc. Dynamically defining a VoiceXML grammar in an X+V page of a multimodal application
US7801728B2 (en) 2007-02-26 2010-09-21 Nuance Communications, Inc. Document session replay for multimodal applications
US8150698B2 (en) 2007-02-26 2012-04-03 Nuance Communications, Inc. Invoking tapered prompts in a multimodal application
US20080208589A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Presenting Supplemental Content For Digital Media Using A Multimodal Application
US20080208586A1 (en) * 2007-02-27 2008-08-28 Soonthorn Ativanichayaphong Enabling Natural Language Understanding In An X+V Page Of A Multimodal Application
US9208783B2 (en) * 2007-02-27 2015-12-08 Nuance Communications, Inc. Altering behavior of a multimodal application based on location
US7822608B2 (en) * 2007-02-27 2010-10-26 Nuance Communications, Inc. Disambiguating a speech recognition grammar in a multimodal application
US7840409B2 (en) * 2007-02-27 2010-11-23 Nuance Communications, Inc. Ordering recognition results produced by an automatic speech recognition engine for a multimodal application
US8713542B2 (en) * 2007-02-27 2014-04-29 Nuance Communications, Inc. Pausing a VoiceXML dialog of a multimodal application
US8938392B2 (en) * 2007-02-27 2015-01-20 Nuance Communications, Inc. Configuring a speech engine for a multimodal application based on location
US20080208594A1 (en) * 2007-02-27 2008-08-28 Cross Charles W Effecting Functions On A Multimodal Telephony Device
US7809575B2 (en) * 2007-02-27 2010-10-05 Nuance Communications, Inc. Enabling global grammars for a particular multimodal application
US20090030697A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using contextual information for delivering results generated from a speech recognition facility using an unstructured language model
US20090030688A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Tagging speech recognition results based on an unstructured language model for use in a mobile communication facility application
US20110054897A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Transmitting signal quality information in mobile dictation application
US20110060587A1 (en) * 2007-03-07 2011-03-10 Phillips Michael S Command and control utilizing ancillary information in a mobile voice-to-speech application
US20110054898A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Multiple web-based content search user interface in mobile search application
US8635243B2 (en) 2007-03-07 2014-01-21 Research In Motion Limited Sending a communications header with voice recording to send metadata for use in speech recognition, formatting, and search mobile search application
US20110054899A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Command and control utilizing content information in a mobile voice-to-speech application
US10056077B2 (en) * 2007-03-07 2018-08-21 Nuance Communications, Inc. Using speech recognition results based on an unstructured language model with a music system
US20080221880A1 (en) * 2007-03-07 2008-09-11 Cerra Joseph P Mobile music environment speech processing facility
US20090030687A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Adapting an unstructured language model speech recognition system based on usage
US20110054895A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Utilizing user transmitted text to improve language model in mobile dictation application
US8949130B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Internal and external speech recognition use with a mobile communication facility
US8886540B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Using speech recognition results based on an unstructured language model in a mobile communication facility application
US20090030685A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using speech recognition results based on an unstructured language model with a navigation system
US8949266B2 (en) 2007-03-07 2015-02-03 Vlingo Corporation Multiple web-based content category searching in mobile search application
US8886545B2 (en) 2007-03-07 2014-11-11 Vlingo Corporation Dealing with switch latency in speech recognition
US20090030691A1 (en) * 2007-03-07 2009-01-29 Cerra Joseph P Using an unstructured language model associated with an application of a mobile communication facility
US8838457B2 (en) * 2007-03-07 2014-09-16 Vlingo Corporation Using results of unstructured language model based speech recognition to control a system-level function of a mobile communications facility
US8996379B2 (en) 2007-03-07 2015-03-31 Vlingo Corporation Speech recognition text entry for software applications
US20110054896A1 (en) * 2007-03-07 2011-03-03 Phillips Michael S Sending a communications header with voice recording to send metadata for use in speech recognition and formatting in mobile dictation application
US8843376B2 (en) 2007-03-13 2014-09-23 Nuance Communications, Inc. Speech-enabled web content searching using a multimodal browser
US7945851B2 (en) * 2007-03-14 2011-05-17 Nuance Communications, Inc. Enabling dynamic voiceXML in an X+V page of a multimodal application
US8670987B2 (en) * 2007-03-20 2014-03-11 Nuance Communications, Inc. Automatic speech recognition with dynamic grammar rules
US8515757B2 (en) 2007-03-20 2013-08-20 Nuance Communications, Inc. Indexing digitized speech with words represented in the digitized speech
US8909532B2 (en) * 2007-03-23 2014-12-09 Nuance Communications, Inc. Supporting multi-lingual user interaction with a multimodal application
US20080235029A1 (en) * 2007-03-23 2008-09-25 Cross Charles W Speech-Enabled Predictive Text Selection For A Multimodal Application
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8788620B2 (en) * 2007-04-04 2014-07-22 International Business Machines Corporation Web service support for a multimodal client processing a multimodal application
US8862475B2 (en) * 2007-04-12 2014-10-14 Nuance Communications, Inc. Speech-enabled content navigation and control of a distributed multimodal browser
US8725513B2 (en) * 2007-04-12 2014-05-13 Nuance Communications, Inc. Providing expressive user interaction with a multimodal application
US8060371B1 (en) 2007-05-09 2011-11-15 Nextel Communications Inc. System and method for voice interaction with non-voice enabled web pages
US20090100340A1 (en) * 2007-10-10 2009-04-16 Microsoft Corporation Associative interface for personalizing voice data access
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US8370160B2 (en) * 2007-12-31 2013-02-05 Motorola Mobility Llc Methods and apparatus for implementing distributed multi-modal applications
US8386260B2 (en) 2007-12-31 2013-02-26 Motorola Mobility Llc Methods and apparatus for implementing distributed multi-modal applications
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
USD626949S1 (en) 2008-02-20 2010-11-09 Vocollect Healthcare Systems, Inc. Body-worn mobile device
US20090216534A1 (en) * 2008-02-22 2009-08-27 Prakash Somasundaram Voice-activated emergency medical services communication and documentation system
CN101257538B (zh) * 2008-03-25 2010-09-29 华为技术有限公司 一种在浏览器中处理请求的方法、装置
US8837465B2 (en) 2008-04-02 2014-09-16 Twilio, Inc. System and method for processing telephony sessions
CN104902113B (zh) 2008-04-02 2018-10-19 特维里奥公司 处理电话会话的系统和方法
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8543404B2 (en) * 2008-04-07 2013-09-24 Nuance Communications, Inc. Proactive completion of input fields for automated voice enablement of a web page
US9047869B2 (en) * 2008-04-07 2015-06-02 Nuance Communications, Inc. Free form input field support for automated voice enablement of a web page
US8831950B2 (en) * 2008-04-07 2014-09-09 Nuance Communications, Inc. Automated voice enablement of a web page
US8121837B2 (en) 2008-04-24 2012-02-21 Nuance Communications, Inc. Adjusting a speech engine for a mobile computing device based on background noise
US8229081B2 (en) * 2008-04-24 2012-07-24 International Business Machines Corporation Dynamically publishing directory information for a plurality of interactive voice response systems
US8214242B2 (en) * 2008-04-24 2012-07-03 International Business Machines Corporation Signaling correspondence between a meeting agenda and a meeting discussion
US8082148B2 (en) * 2008-04-24 2011-12-20 Nuance Communications, Inc. Testing a grammar used in speech recognition for reliability in a plurality of operating environments having different background noise
US9349367B2 (en) * 2008-04-24 2016-05-24 Nuance Communications, Inc. Records disambiguation in a multimodal application operating on a multimodal device
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
WO2010040010A1 (en) 2008-10-01 2010-04-08 Twilio Inc Telephony web event system and method
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8386261B2 (en) 2008-11-14 2013-02-26 Vocollect Healthcare Systems, Inc. Training/coaching system for a voice-enabled work environment
CA2789942C (en) 2009-03-02 2017-05-23 Jeffrey Lawson Method and system for a multitenancy telephone network
US8509415B2 (en) 2009-03-02 2013-08-13 Twilio, Inc. Method and system for a multitenancy telephony network
US8380513B2 (en) * 2009-05-19 2013-02-19 International Business Machines Corporation Improving speech capabilities of a multimodal application
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US8290780B2 (en) 2009-06-24 2012-10-16 International Business Machines Corporation Dynamically extending the speech prompts of a multimodal application
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8510117B2 (en) * 2009-07-09 2013-08-13 Nuance Communications, Inc. Speech enabled media sharing in a multimodal application
US8416714B2 (en) * 2009-08-05 2013-04-09 International Business Machines Corporation Multimodal teleconferencing
US20110083179A1 (en) * 2009-10-07 2011-04-07 Jeffrey Lawson System and method for mitigating a denial of service attack using cloud computing
US9210275B2 (en) 2009-10-07 2015-12-08 Twilio, Inc. System and method for running a multi-module telephony application
US8582737B2 (en) * 2009-10-07 2013-11-12 Twilio, Inc. System and method for running a multi-module telephony application
TWI413938B (zh) * 2009-12-02 2013-11-01 Phison Electronics Corp 情感引擎、情感引擎系統及電子裝置的控制方法
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
CN102804700B (zh) * 2010-01-19 2015-04-15 特维里奥公司 用于保持通话会话状态的方法和系统
US8977584B2 (en) 2010-01-25 2015-03-10 Newvaluexchange Global Ai Llp Apparatuses, methods and systems for a digital conversation management platform
US8594280B1 (en) 2010-02-03 2013-11-26 Zvi Or-Bach Systems and methods for visual presentation and selection of IVR menu
US8572303B2 (en) 2010-02-03 2013-10-29 Tal Lavian Portable universal communication device
US8625756B1 (en) 2010-02-03 2014-01-07 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US8553859B1 (en) 2010-02-03 2013-10-08 Tal Lavian Device and method for providing enhanced telephony
US8548131B1 (en) 2010-02-03 2013-10-01 Tal Lavian Systems and methods for communicating with an interactive voice response system
US8537989B1 (en) 2010-02-03 2013-09-17 Tal Lavian Device and method for providing enhanced telephony
US8879698B1 (en) 2010-02-03 2014-11-04 Tal Lavian Device and method for providing enhanced telephony
US8903073B2 (en) 2011-07-20 2014-12-02 Zvi Or-Bach Systems and methods for visual presentation and selection of IVR menu
US8681951B1 (en) 2010-02-03 2014-03-25 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US9001819B1 (en) 2010-02-18 2015-04-07 Zvi Or-Bach Systems and methods for visual presentation and selection of IVR menu
US8687777B1 (en) 2010-02-03 2014-04-01 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US8548135B1 (en) 2010-02-03 2013-10-01 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US8406388B2 (en) 2011-07-18 2013-03-26 Zvi Or-Bach Systems and methods for visual presentation and selection of IVR menu
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CN102237087B (zh) * 2010-04-27 2014-01-01 中兴通讯股份有限公司 语音控制方法和语音控制装置
US9459925B2 (en) 2010-06-23 2016-10-04 Twilio, Inc. System and method for managing a computing cluster
US9590849B2 (en) 2010-06-23 2017-03-07 Twilio, Inc. System and method for managing a computing cluster
US9459926B2 (en) 2010-06-23 2016-10-04 Twilio, Inc. System and method for managing a computing cluster
US20120208495A1 (en) 2010-06-23 2012-08-16 Twilio, Inc. System and method for monitoring account usage on a platform
US8416923B2 (en) 2010-06-23 2013-04-09 Twilio, Inc. Method for providing clean endpoint addresses
US9338064B2 (en) 2010-06-23 2016-05-10 Twilio, Inc. System and method for managing a computing cluster
US8838707B2 (en) 2010-06-25 2014-09-16 Twilio, Inc. System and method for enabling real-time eventing
US8659397B2 (en) 2010-07-22 2014-02-25 Vocollect, Inc. Method and system for correctly identifying specific RFID tags
USD643400S1 (en) 2010-08-19 2011-08-16 Vocollect Healthcare Systems, Inc. Body-worn mobile device
USD643013S1 (en) 2010-08-20 2011-08-09 Vocollect Healthcare Systems, Inc. Body-worn mobile device
US9600135B2 (en) 2010-09-10 2017-03-21 Vocollect, Inc. Multimodal user notification system to assist in data capture
US8649268B2 (en) 2011-02-04 2014-02-11 Twilio, Inc. Method for processing telephony sessions of a network
CN102088696B (zh) * 2011-03-15 2015-04-29 广州市动景计算机科技有限公司 一种移动终端从目标服务器下载大文件的方法和系统
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
CN102781075B (zh) * 2011-05-12 2016-08-24 中兴通讯股份有限公司 一种降低移动终端通话功耗的方法及移动终端
US20140044123A1 (en) 2011-05-23 2014-02-13 Twilio, Inc. System and method for real time communicating with a client application
WO2012162397A1 (en) 2011-05-23 2012-11-29 Twilio, Inc. System and method for connecting a communication to a client
US9648006B2 (en) 2011-05-23 2017-05-09 Twilio, Inc. System and method for communicating with a client application
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US10182147B2 (en) 2011-09-21 2019-01-15 Twilio Inc. System and method for determining and communicating presence information
US9336500B2 (en) 2011-09-21 2016-05-10 Twilio, Inc. System and method for authorizing and connecting application developers and users
EP3200185A1 (en) * 2011-09-30 2017-08-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
CN102629246B (zh) * 2012-02-10 2017-06-27 百纳(武汉)信息技术有限公司 识别浏览器语音命令的服务器及浏览器语音命令识别方法
US9495227B2 (en) 2012-02-10 2016-11-15 Twilio, Inc. System and method for managing concurrent events
US8731148B1 (en) 2012-03-02 2014-05-20 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US8867708B1 (en) 2012-03-02 2014-10-21 Tal Lavian Systems and methods for visual presentation and selection of IVR menu
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9602586B2 (en) 2012-05-09 2017-03-21 Twilio, Inc. System and method for managing media in a distributed communication network
US20130304928A1 (en) 2012-05-09 2013-11-14 Twilio, Inc. System and method for managing latency in a distributed telephony network
US9240941B2 (en) 2012-05-09 2016-01-19 Twilio, Inc. System and method for managing media in a distributed communication network
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9247062B2 (en) 2012-06-19 2016-01-26 Twilio, Inc. System and method for queuing a communication session
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US8737962B2 (en) 2012-07-24 2014-05-27 Twilio, Inc. Method and system for preventing illicit use of a telephony platform
US8738051B2 (en) 2012-07-26 2014-05-27 Twilio, Inc. Method and system for controlling message routing
US9292252B2 (en) * 2012-08-02 2016-03-22 Nuance Communications, Inc. Methods and apparatus for voiced-enabling a web application
US10157612B2 (en) 2012-08-02 2018-12-18 Nuance Communications, Inc. Methods and apparatus for voice-enabling a web application
US9292253B2 (en) * 2012-08-02 2016-03-22 Nuance Communications, Inc. Methods and apparatus for voiced-enabling a web application
US9781262B2 (en) 2012-08-02 2017-10-03 Nuance Communications, Inc. Methods and apparatus for voice-enabling a web application
US9400633B2 (en) * 2012-08-02 2016-07-26 Nuance Communications, Inc. Methods and apparatus for voiced-enabling a web application
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8948356B2 (en) 2012-10-15 2015-02-03 Twilio, Inc. System and method for routing communications
US8938053B2 (en) 2012-10-15 2015-01-20 Twilio, Inc. System and method for triggering on platform usage
CN104240707A (zh) * 2012-11-26 2014-12-24 北京奇虎科技有限公司 用于浏览器的语音识别处理方法和浏览器
CN102968992B (zh) * 2012-11-26 2014-11-05 北京奇虎科技有限公司 用于浏览器的语音识别处理方法和浏览器
US9253254B2 (en) 2013-01-14 2016-02-02 Twilio, Inc. System and method for offering a multi-partner delegated platform
CN113470640B (zh) 2013-02-07 2022-04-26 苹果公司 数字助理的语音触发器
US9282124B2 (en) 2013-03-14 2016-03-08 Twilio, Inc. System and method for integrating session initiation protocol communication in a telecommunications platform
US9001666B2 (en) 2013-03-15 2015-04-07 Twilio, Inc. System and method for improving routing in a distributed communication platform
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN110442699A (zh) 2013-06-09 2019-11-12 苹果公司 操作数字助理的方法、计算机可读介质、电子设备和系统
US9225840B2 (en) 2013-06-19 2015-12-29 Twilio, Inc. System and method for providing a communication endpoint information service
US9338280B2 (en) 2013-06-19 2016-05-10 Twilio, Inc. System and method for managing telephony endpoint inventory
US9240966B2 (en) 2013-06-19 2016-01-19 Twilio, Inc. System and method for transmitting and receiving media messages
US9483328B2 (en) 2013-07-19 2016-11-01 Twilio, Inc. System and method for delivering application content
US9137127B2 (en) 2013-09-17 2015-09-15 Twilio, Inc. System and method for providing communication platform metadata
US9274858B2 (en) 2013-09-17 2016-03-01 Twilio, Inc. System and method for tagging and tracking events of an application platform
US9338018B2 (en) 2013-09-17 2016-05-10 Twilio, Inc. System and method for pricing communication of a telecommunication platform
US9553799B2 (en) 2013-11-12 2017-01-24 Twilio, Inc. System and method for client communication in a distributed telephony network
US9325624B2 (en) 2013-11-12 2016-04-26 Twilio, Inc. System and method for enabling dynamic multi-modal communication
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9344573B2 (en) 2014-03-14 2016-05-17 Twilio, Inc. System and method for a work distribution service
US9226217B2 (en) 2014-04-17 2015-12-29 Twilio, Inc. System and method for enabling multi-modal communication
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9251371B2 (en) 2014-07-07 2016-02-02 Twilio, Inc. Method and system for applying data retention policies in a computing platform
US9774687B2 (en) 2014-07-07 2017-09-26 Twilio, Inc. System and method for managing media and signaling in a communication platform
US9246694B1 (en) 2014-07-07 2016-01-26 Twilio, Inc. System and method for managing conferencing in a distributed communication network
US9516101B2 (en) 2014-07-07 2016-12-06 Twilio, Inc. System and method for collecting feedback in a multi-tenant communication platform
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
WO2016065080A1 (en) 2014-10-21 2016-04-28 Twilio, Inc. System and method for providing a miro-services communication platform
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9959129B2 (en) * 2015-01-09 2018-05-01 Microsoft Technology Licensing, Llc Headless task completion within digital personal assistants
RU2646350C2 (ru) * 2015-01-27 2018-03-02 Общество С Ограниченной Ответственностью "Яндекс" Способ ввода данных в электронное устройство, способ обработки голосового запроса, машиночитаемый носитель (варианты), электронное устройство, сервер и система
US9508339B2 (en) * 2015-01-30 2016-11-29 Microsoft Technology Licensing, Llc Updating language understanding classifier models for a digital personal assistant based on crowd-sourcing
US9477975B2 (en) 2015-02-03 2016-10-25 Twilio, Inc. System and method for a media intelligence platform
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10419891B2 (en) 2015-05-14 2019-09-17 Twilio, Inc. System and method for communicating through multiple endpoints
US9948703B2 (en) 2015-05-14 2018-04-17 Twilio, Inc. System and method for signaling through data storage
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10659349B2 (en) 2016-02-04 2020-05-19 Twilio Inc. Systems and methods for providing secure network exchanged for a multitenant virtual private cloud
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10372804B2 (en) 2016-05-17 2019-08-06 Bruce HASSEL Interactive audio validation/assistance system and methodologies
US10686902B2 (en) 2016-05-23 2020-06-16 Twilio Inc. System and method for a multi-channel notification service
US10063713B2 (en) 2016-05-23 2018-08-28 Twilio Inc. System and method for programmatic device connectivity
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
DK179549B1 (en) 2017-05-16 2019-02-12 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US11776059B1 (en) 2018-02-19 2023-10-03 State Farm Mutual Automobile Insurance Company Voice analysis systems and methods for processing digital sound data over a communications network
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
US5915001A (en) * 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
US6157705A (en) * 1997-12-05 2000-12-05 E*Trade Group, Inc. Voice control of a server
US6662163B1 (en) * 2000-03-30 2003-12-09 Voxware, Inc. System and method for programming portable devices from a remote computer system
US20020003547A1 (en) * 2000-05-19 2002-01-10 Zhi Wang System and method for transcoding information for an audio or limited display user interface
FI20001918A (fi) 2000-08-30 2002-03-01 Nokia Corp Monimodaalinen sisältö ja automaattinen puheen tunnistus langattomassa tietoliikennejärjestelmässä
US6745163B1 (en) * 2000-09-27 2004-06-01 International Business Machines Corporation Method and system for synchronizing audio and visual presentation in a multi-modal content renderer
US6934756B2 (en) * 2000-11-01 2005-08-23 International Business Machines Corporation Conversational networking via transport, coding and control conversational protocols
US7028306B2 (en) * 2000-12-04 2006-04-11 International Business Machines Corporation Systems and methods for implementing modular DOM (Document Object Model)-based multi-modal browsers
US20020097692A1 (en) * 2000-12-29 2002-07-25 Nokia Mobile Phones Ltd. User interface for a mobile station
AU2002251205A1 (en) 2001-03-30 2002-10-15 British Telecommunications Public Limited Company Multi-modal interface
US7409349B2 (en) * 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
US7174006B2 (en) * 2001-06-18 2007-02-06 Nms Communications Corporation Method and system of VoiceXML interpreting
US8229753B2 (en) * 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
US7711570B2 (en) * 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose

Also Published As

Publication number Publication date
EP1588353B1 (en) 2018-03-07
EP1588353A4 (en) 2012-01-25
WO2004064299A2 (en) 2004-07-29
RU2005125208A (ru) 2006-01-10
MY137374A (en) 2009-01-30
TW200426780A (en) 2004-12-01
EP1588353A2 (en) 2005-10-26
US7003464B2 (en) 2006-02-21
CN1333385C (zh) 2007-08-22
US20040138890A1 (en) 2004-07-15
WO2004064299A3 (en) 2005-07-07
TWI249729B (en) 2006-02-21
RU2349970C2 (ru) 2009-03-20
CN1735929A (zh) 2006-02-15
KR101027548B1 (ko) 2011-04-08

Similar Documents

Publication Publication Date Title
KR101027548B1 (ko) 통신 시스템용 보이스 브라우저 다이얼로그 인에이블러
JP3936718B2 (ja) インターネットコンテンツのアクセスに関するシステム及び方法
KR101237622B1 (ko) 분산된 멀티모드 애플리케이션을 구현하기 위한 방법 및 장치
EP1143679B1 (en) A conversational portal for providing conversational browsing and multimedia broadcast on demand
US7382770B2 (en) Multi-modal content and automatic speech recognition in wireless telecommunication systems
EP1125279B1 (en) System and method for providing network coordinated conversational services
US7272564B2 (en) Method and apparatus for multimodal communication with user control of delivery modality
US7953597B2 (en) Method and system for voice-enabled autofill
US20070043868A1 (en) System and method for searching for network-based content in a multi-modal system using spoken keywords
US20090287477A1 (en) System and method for providing network coordinated conversational services
US20050132023A1 (en) Voice access through web enabled portlets
JP4725512B2 (ja) 音声処理システム、音声処理方法、音声処理サーバ装置、およびプログラム
JP2002132646A (ja) コンテンツインタポレーティングウェブプロキシサーバ
US20020077814A1 (en) Voice recognition system method and apparatus
US8073930B2 (en) Screen reader remote access system
Kleindienst et al. Loosely-coupled approach towards multi-modal browsing
JP4082249B2 (ja) コンテンツ配信システム
KR100432373B1 (ko) 독립적 음성처리를 위한 음성인식 시스템
Demesticha et al. Aspects of design and implementation of a multi-channel and multi-modal information system
JP2004246865A (ja) 音声応答ウェブシステム及びその入出力制御方法
KR20020023197A (ko) 자연음 처리를 이용한 데이터 제공 방법과 이를 위한 시스템
JP2002182684A (ja) 音声認識用データ配信システム、方法および音声認識用データ配信サーバ
KR20100075271A (ko) 이동통신단말기를 위한 멀티모달 서비스 제공 시스템 및 그방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
N231 Notification of change of applicant
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20140227

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20150310

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160311

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20170320

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20180312

Year of fee payment: 8