KR19980070352A - 프로세서 기준의 호스트 시스템을 제어하기 위한무선 음성 기동 장치 - Google Patents

프로세서 기준의 호스트 시스템을 제어하기 위한무선 음성 기동 장치 Download PDF

Info

Publication number
KR19980070352A
KR19980070352A KR1019980000108A KR19980000108A KR19980070352A KR 19980070352 A KR19980070352 A KR 19980070352A KR 1019980000108 A KR1019980000108 A KR 1019980000108A KR 19980000108 A KR19980000108 A KR 19980000108A KR 19980070352 A KR19980070352 A KR 19980070352A
Authority
KR
South Korea
Prior art keywords
host system
voice
speech recognition
operable
grammar
Prior art date
Application number
KR1019980000108A
Other languages
English (en)
Inventor
쓰리프트필립알.
헴필찰스티.
Original Assignee
윌리엄비.켐플러
텍사스인스트루먼츠인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 윌리엄비.켐플러, 텍사스인스트루먼츠인코포레이티드 filed Critical 윌리엄비.켐플러
Publication of KR19980070352A publication Critical patent/KR19980070352A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/72Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
    • H04M1/724User interfaces specially adapted for cordless or mobile telephones
    • H04M1/72403User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
    • H04M1/72445User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for supporting Internet browser applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/487Arrangements for providing information services, e.g. recorded voice services or time announcements
    • H04M3/493Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
    • H04M3/4938Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/271Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)
  • Arrangements For Transmission Of Measured Signals (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

WWW(World Wide Web)에 접속된 컴퓨터 등과 같은 호스트 시스템(11)을 제어하기 위한 핸드 헬드형 무선 기동 장치(10)를 제공한다. 상기 장치(10)는 표시기(10a), 마이크로폰(10b), 및 무선의 전송기(10g) 및 수신기(10h)를 구비한다. 또한 음성 인식을 수행하기 위한 프로세서(10e)와 메모리(10f)를 구비한다. 장치(20)는 음성 인식 및 상기 음성 인식의 결과의 인터프리테이션을 수행할 수 있는 프로세서(20e)와 메모리(20f)를 구비함으로써 특히, 웹 브라우징(Web browsing)용으로 설계될 수 있다.

Description

프로세서 기준의 호스트 시스템을 제어하기 위한 무선 음성 기동 장치
본 발명은 일반적으로 음성 인식 장치에 관한 것으로, 특히, 사용자로 하여금 음성 명령들로 월드 와이드 웹(World Wide Web)과 같은 하이퍼미디어 네트워크(hypermedia network)를 주사 검색(browsing)할 수 있도록 하는 무선의 음성 제어 장치에 관한 것이다.
본 특허 출원은 텍사스 인스트루먼트사가 양수인인 다음의 특허 출원, 미국 특허 출원 번호 08/419, 226호이고, 그 명칭이 Speaker-Independent Dynamic Vocabulary and Grammar in Speech Recognition 및 미국 특허 출원 번호 08/419, 229호이고, 그 명칭이 Voice Activated Hypermedia Systems Using Grammatical Metabase과 관련있다.
인터넷(Internet)은 월드-와이드 컴퓨터 네트워크 또는 더 정확히, 네트워크들중 월드-와이드 네트워크이다. 이는 정보 교환을 제공하고 광범위한 서비스를 제공한다. 오늘날, 인터넷은 모든 종류의 기관, 비지니스, 및 심지어 각 가정의 개인들 조차 포함하도록 성장하였다.
월드-와이드 웹(WWW 또는 Web)은 인터넷상에서 이용가능한 서비스중 하나이다. 이는 도큐먼트가 그의 다른 부분들 또는 다른 도큐먼트들에 대한 링크를 갖는 하이퍼텍스트(hypertext)로 알려진 기술에 기초를 둔다. 하이퍼텍스트는 화상과 사운드을 조합하여 컴퓨터상에 저장될 수 있는 어떤 종류의 정보에 대한 링크를 포함하도록 확장되어 왔다. 예를 들어, 웹을 사용하여 도큐먼트내로 부터 중요한 워드(word) 또는 어구(phrase)를 선택함으로써 세계 도처에 저장된 정의, 소스, 또는 관련 도큐먼트들을 얻을 수 있다. 이러한 이유로, 웹은 하이퍼미디어 네트워크로서 설명될 수 있다.
웹의 기본 유닛은 페이지(page)로, (통상적으로) 다른 페이지들에 대한 링크들로된 텍스트-플러스-그래픽(text-plus-graphics) 도큐먼트이다. 웹을 navigating 한다는 것은 기본적으로 페이지에서 페이지로 이동하는 것을 의미한다.
웹에 대한 개념은 모든 종류의 소스들로 부터 모든 종류의 데이타를 수집하고, 훌륭한 서버(server)와 훌륭한 클라이언트 프로그램으로 하여 데이타 포맷을 처리할 수 있도록 함으로써 불일치의 문제점들을 피하는데 있다. 이와 같이 포맷들을 처리할 수 있는 능력으로 일단 적절한 트랜슬레이션 코드(translation code)가 서버들과 클라이언트들에게 부가되면, 웹은 멀티미디어 포맷을 포함한 모든 종류의 데이타를 수용할 수 있다. 웹 클라이언트는 웹 서버들상에 위치한 웹 리소스들에 접속되곤 하여 웹 리소스들을 이용하는데 사용된다.
웹을 액세스하고 사용하기 위해 이용되는 일형태의 클라이언트 소프트웨어를 웹 브라우저 소프트웨어 라고 한다. 이 소프트웨어를 사용자 컴퓨터에 설치하여, 링크들이 두드러지거나 또는 마우스 또는 다른 지시 장치로 쉽게 선택할 수 있도록 표시하는 그래픽 인터페이스를 제공할 수 있다.
본 발명의 일 양태로 월드 와이드 웹에 접속된 컴퓨터와 같은 프로세서 기준 호스트 시스템을 제어하기 위한 무선 음성 기동되는 제어 유닛을 제공한다. 소형 핸드 헬드형 유닛은 마이크로폰, 무선 오디오 입력 전송기, 무선 데이타 수신기, 및 표시기를 구비한다. 마이크로폰은 사용자로 부터 음성 입력을 수신함으로써 오디어 입력 신호를 제공한다. 오디오 전송기는 상기 오디오 신호로 부터 파생한 데이타를 호스트 시스템에 무선으로 전송한다. 상기 호스트가 오디오 입력에 따라 기동된 다음, 화상 데이타 형태의 임의 종류의 응답을 수신기에 무선으로 전송한다. 표시기는 화상 데이타로 표시된 화상을 발생 및 표시한다.
장치를 변형시켜 오디오 출력 정보용 스피커를 포함할 수 있다. 또한 장치는 전치(front-end) 음성 인식 프로세스 또는 심지어 모든 음성 인식 조차 수행하기 위한 프로세서와 메모리를 구비할 수 있다.
본 발명의 장점은 정보를 웹상의 정보를 좀더 액세스 가능하고 유용하게 만드는데 있다. 스피치 제어는 웹 인터페이스에 유연성과 파워를 부가하여 좀더 자연스럽게 정보를 액세스하게 한다.
도 1은 본 발명에 따라 무선 음성으로 기동되는 제어 유닛의 일실시예를 도시하는 도면.
도 2는 특히, 사용자로 부터의 오디오 입력을 트랜슬레이팅 및 인터프리팅하기 위해 구성되는 무선 음성으로 기동되는 제어 유닛의 다른 실시예를 도시하는 도면.
도 3은 스피커블 명령 프로세스에 의해 제공된 표시기의 예를 도시하는 도면.
도 4는 웹 페이지의 일부 및 그의 스피커블 링크들을 도시하는 도면.
도 5는 도 1 및 도 2의 음성 인식기에 의해 사용할 문법(grammar)을 동적으로 생성하는 프로세스를 도시하는 도면.
도면의 주요 부분에 대한 부호의 설명
10a: 표시기
10b: 마이크로폰
10e: 프로세서
10f: 메모리
10g:무선 송신기
본 발명은 프로세서 기준 호스트 시스템을 제어하기 위한 무선 음성으로 기동되는 장치에 관한 것이다. 즉, 상기 장치는 음성으로 기동되는 원격 제어 장치이다. 이 설명의 실시예에서, 호스트 시스템은 월드-와이드 웹에 접속된 컴퓨터이고 상기 장치는 음성 제어된 웹 브라우징(web browsing)용으로 사용된다. 그러나, 예를 들어 TV와 같이, 표시 또는 오디오 정보를 제공하는 어떤 프로세서 기준의 시스템을 제어하기 위한 음성 제어된 장치에 동일한 개념을 적용할 수 있다.
장치에 내장된 지능에 따라 다른 장치의 다양한 실시예들이 있다. 본 발명은 오디오 입력을 인식한 다음 상기 오디오 입력을 인터프리트하도록 사용되는 프로그래밍을 상기 내장형 프로그래밍의 범위를 설계 및 비용이 문제가 되는 범위까지 확장시키는 방법으로 모듈화시킴으로써 종래의 웹 브라우저 소프트웨어에 의해 사용할 수 있다는데 그 목적이 있다.
도 1은 본 발명에 따른 무선 음성 기동되는 제어 유닛(10)의 일실시예를 도시한다. 이는 호스트 시스템(11)과 통신한다. 상술한 바와 같은 목적을 위해, 호스트 시스템(11)이 컴퓨터로서 월드-와이드 웹과 데이타 통신한다.
제어 유닛(10)은 표시기(10a)와 마이크로폰(10b)을 구비한다. 표시기(10a)는 소형화 및 휴대용으로 디자인된 LCD일 수 있다. 마이크로폰(10b)은 사용자로 부터 음성 입력을 수신한다. 이는 뮤트 스위치(10c)를 구비하여, 제어 유닛(10)이 화상을 표시할 수 있고 심지어 키패드(도시되지 않음)와 같은 대체 입력 장치를 통하여 비오디오 입력 조차도 수신할 수 있으나, 음성 인식을 수행할 수는 없다. 마이크로폰(10b)은 마이크로폰 어레이일 수 있으며, 사용자의 음성과는 다른 사운드를 구별하는 능력을 증가시킨다.
도 1의 실시예에서, 제어 유닛(10)은 모든 또는 일부 음성 인식 프로세스를 실행하고 음성 데이타를 전송기(10g)를 통하여 호스트 컴퓨터(11)에 전달한다. 호스트 컴퓨터(11)는 다양한 음성 제어 인터프리테이션 프로세스를 실행하고 또한 웹 브라우저(Web browser)를 실행한다. 그러나, 초단순형 제어 유닛은 마이크로폰(10b)으로 부터의 오디오 데이타를 직접 호스트 시스템(11)에 전송하여, 모든 처리를 실행할 것이다.
제어 유닛(10)이 모든 또는 일부의 음성 인식 프로세스를 실행하는 경우에서, 제어 유닛(120)은 프로세서(10e)를 구비한다. 메모리(10f)는 프로세서(10e)에 의해 실행되는 음성 인식 프로그래밍을 저장한다. 음성 인식을 위한 적합한 프로세서(10a)의 예로 Texas Instruments Incorporated에 의해 제조된 것들과 같은 신호 프로세서가 있다. 마이크로폰(110b)이 마이크로폰 어레이일 경우, 프로세서(10a)는 사용자의 음성을 타깃으로 하기 위해 계산을 실행할 수 있다.
만약 제어 유닛이 임의의 음성 프로세싱만을 실행한다면, 선형의 예보 코딩(LPC) 분석 또는 스피치 엔드 포인팅(speech end pointing)과 같은 하나 이상의 전치 프로세스를 실행할 수 있다.
만약 제어 유닛(10)이 모든 음성 인식 프로세스들을 수행한다면, 메모리(10f)는 문법 파일(grammar file)뿐 아니라 이들 프로세스들(음성 인식자로서)을 저장한다. 동작시, 음성 인식기는 마이크로폰(10b)으로 부터 오디오 입력을 수신한 다음 적절한 문법 파일을 액세스한다. 문법 파일 핸들러는 문법을 스피치-레디(speech-ready) 형태로 변환시켜 구두점 문법(punctuation grammar)을 발생한 다음, 문법을 음성 인식기(voice recognizer)로 로딩시킨다. 음성 인식기는 문법 파일을 사용하여 오디오 입력을 텍스트 트랜슬레이션(text translation)으로 변환시킨다.
메모리(10f)내의 문법 파일들은 미리 정의 및 저장될 수 있거나 또는 동적으로 발생될 수 있거나 또는 두가지 형태의 문법 파일들의 결합일 수 있다. 동적 문법 파일 발생의 예를 도 5와 연관하여 이하에서 기술할 것이다. 문법들은 문맥 자유(context-free) 문법인 Backus-Naur 형태로 쓰여질 수 있으며 커스터마이즈(customized)될 수 있다.
도 1의 실시예에서, 유닛(10)은 웹 브라우징용으로 사용되고, 호스트 컴퓨터(11)는 현재 표시된 웹 페이지용 HTML(hypertext markup language)을 유닛(10)에 전달한다. 메모리(10f)는 문법을 동적으로 발생하기 위한 문법 파일 발생기를 저장한다. 다른 웹 브라우징의 실시예에서, 호스트(11)는 문법을 동적으로 발생하고 문법 파일을 제어 유닛(10)에 다운로드시킬 수 있었다.
음성 인식기의 출력은 스피치 데이타(speech data)이다. 스피치 데이타는 호스트 시스템(11)에 전송되어 음성 제어 인터프레테이션 프로세스를 실행한다. 참조로 음성 제어된 웹 브라우징에 대한 다양한 음성 제어 인터프리테이션 프로세스가 텍사스 인스투르먼트사가 양수인이고 US. 특허 출원 번호 08/419, 229에 기술되고 그 명칭이 Voice Activated Hypermedia Systems Using Grammatical Metadata에서 구체화 되어 있다. 인터프리테이션의 결과로, 호스트 시스템(11)이 명령을 수행하거나 하이퍼미디어(Web) 링크를 제공함으로써 제어 유닛(10)에 대한 음성 입력에 반응할 수 있다.
웹 브라우징과는 다른 음성 제어 인터프리테이션의 예가 TV에 대한 명령으로, 호스트 시스템(11)이 프로세서-기준 TV 시스템이다. 예를 들어, What's on TV tonight? 라는 음성 명령이 TV 스케쥴에 표시되게 된다. 웹 브라우징과는 다른 음성 제어 인터프레테이션의 다른 예가 컴퓨터-기준 하우스홀드 제어용 명령이다. 그 결과 Show me the sprinkler schedule 이라는 음성 명령이 적절히 표시되게 된다.
호스트 시스템(11)이 적절한 액션을 취한 다음, 무선 수신기(10h)가 호스트 시스템(11)으로 부터 데이타를 표시기(10a)상에 표시하거나 또는 스피커(10d)에 의해 출력할 목적으로 데이타를 수신한다. 그리하여, 호스트 시스템(11)으로 부터 수신된 데이타는 도식적(본문, 그래픽, 화상, 및 영상을 포함)이거나 또는 오디오적일 수 있다.
도 2는 본 발명의 다른 실시예를 도시하는 것으로, 무선의 음성으로 기동된 제어 유닛(20)이 음성 인식뿐 아니라 음성 제어 인터프레테이션을 수행한다. 음성 제어 인터프리테이션은 웹과 같은 하이퍼미디어 리소스를 주사 검색하는데 효과가 있다. 호스트 시스템(21)은 하이퍼미디어 리소스에 연결된다.
제어 유닛(20)은 제어 유닛(10)의 것들과 유사한 구성 요소들을 갖는다. 그러나, 프로세서(20e)는 메모리(20f)에 저장된 특별한 프로그래밍을 실행한다. 상세히는, 음성 제어 인터프리테이션 프로세스들은 스피커블 명령 프로세스, 스피커블 핫 리스트 프로세스, 또는 스피커블 링크 프로세스를 포함한다. 이들 프로세스들 및 그에 관련된 문법 파일들은 제어 유닛(20)에 상주한다.
스피커블 명령 프로세스는 표시기(20a)상에 명령 인터페이스를 표시하고 다양한 웹 브라우징 명령을 수용한다. 프로세스는 사용자에 의해 말해질 수 있는 워드와 어구(phrase)에 대한 관련 문법 파일을 가진다.
도 3은 음성 제어 인터프리테이션 프로세스에 의해 제공된 표시기(30)의 예를 도시한다. 말할 수 있는 일 명령으로 help 명령이 있으며, 이는 버튼(31)을 누름으로써 기동된다. 이에 반응하여, help page를 표시하는 명령 프로세스는 음성 제어된 브라우징을 사용하는 방법을 기술한다.
다른 말할 수 있는 명령으로 Show me my speakable command list 가 있다. 이 명령은 각각이 스피커블 명령을 나타내는 한 셋트의 문법을 리스팅하는 페이지를 표시한다. pagedown_command , back_command, 및 help_command 들이 그 예들이다. 명령 프로세스가 이들 명령들중 하나의 트랜슬레이션을 수신할때 적절한 액션을 취하게 된다.
또한 도 3은 웹 브라우징용으로 특히 유용한 음성 인식기의 특성을 설명한다. 사용자가 What is the value of XYZ stock? 이라는 말을 하면, 일단 음성 인식기가 발음을 식별하여, 시간과 메모리 사용에 대한 스코어(score) 및 다양한 특성들을 결정한다. 아래에 설명되는 바와 같이, 스톡값(stock value)에 대한 요구는 핫리스트 아이템(hotlist item)일수 있으며, 사용자로 하여금 정보가 위치한 웹 사이트를 확인하지 않고 상기 요구를 단순히 말로 표현하기만을 허가한 것이다.
다른 스피커블 명령으로 Show me my speakable hotlist가 있는데 버튼(33)에 의해 동작된다. hotlist는 자주 사용되는 것들과 같은 선택된 균일 리소스 위치자(Uniform Resource Locators(URLs))의 저장된 리스트이다. 또한, 핫 리스트들은 서표(bookmarks)로서 알려져 있다. URLs는 잘 알려진 특성의 웹으로, 인터넷상의 어떤 리소스의 명명을 간단하고 시종일관한 방식으로 제공한다. 전형적인 URL은 다음의 형태를 가진다:
http://ww.ncsa. uiic. edu/General/NCSAHome. html
URL의 다양한 부분들은 전송 프로토콜, 컴퓨터 어드레스, 및 그 어드레스에서의 디렉토리 경로를 식별한다. 또한 URLs는 links 및 anchors 로 알려져 있다.
스피커블 핫리스트 프로세스는 사용자로 하여금 각 핫리스트 아이템당 문법을 구성하고 URL과 문법을 결합시킨다. 문법을 생성하기 위해, 사용자는 BNF 구문을 사용하여 ASCII 문법 파일을 편집하고 문법을 인쇄할 수 있다. 예를 들어, 날씨 정보를 검색하기 위한 문법은 How does the weather look today? 및 Give me the weather와 같은 어구를 정의할 수 있었다. 그런다음 사용자는 상기 문법에 적당한 URL을 결합시킨다.
핫리스트 문법 파일은 음성으로 변경될 수 있다. 예를 들어, 현재 페이지는 핫리스트 아이템으로써 부가될 수 있다. Add this page to my hotlist 라는 어구를 말할 때, 페이지의 제목을 문법에 부가하고 현재의 URL에 문법을 결합시킨다. Edit my speakable hotlist 라는 어구를 말할때, 음성에 의해 페이지를 검색시키도록 야기하는 특별한 구들을 부가함으로써 사용자로 하여금 문법을 편집할 수 있게 한다.
음성 인식기가 핫리스트 문법 파일로 부터 핫리스트 트랜슬레이션을 인식하여 상기 트랜슬레이션을 핫리스트 프로세스에 전달할때 스피커블 핫리스트 프로그램이 기동된다. 핫리스트 프로세스는 관련 URL을 조사한다. 웹 페이지가 복구되어 표시기(10a)상에 표시하기 위해 음성 제어 유닛(10)으로 전송될 수 있도록, URL을 호스트 컴퓨터(11)상에 상주하는 브라우저에 전달(무선통신을 통하여)한다.
스피커블 명령과 스피커블 힛리스트들에 대한 문법 파일들이 항상 기동한다. 이는 사용자로 하여금 어떤 문맥에서도 명령 또는 핫리스트 링크를 말할 수 있도록허가한다. 또한 스피커블 링크 프로세스는 음성 제어 유닛(20)의 메모리(20e)에 상주할 수 있다. 웹 페이지에 선택된 정보는 다른 웹 페이지에 액세스하기 위한 링크를 제공할 수 있다. 링크들은 밑줄을 긋거나, 하이라이트하거나, 다르게 색칠하거나 그림의 경우에서와 같이 아웃라인되거나, 다르게 표시하는 방식으로 나타난다.
링크를 선택하기 위해 마우스 또는 다른 지시 장치를 사용하는 대신, 음성 제어 유닛(10)의 사용자가 표시기(10a)상에 표시할 페이지로 부터 링크를 말할 수 있다.
도 4는 웹 페이지(40)와 그의 링크들의 부분을 설명한다. 예를 들어, 제2 헤드라인(41)은 링크이다.
스피커블 링크들에 대한 문법은 변수뿐 아니라 전체 어구를 포함한다. 전체 어구를 말하는데 부가하여 화자는 Diana in N period Y period(문자 그대로의 변형), Diana in NY, 또는 Diana in New York을 말할 수 있다.
링크를 스피커블하게 만드는 것은 일단 그의 웹 페이지로 부터 링크/URL쌍을 구하는 것을 요구한다. HTML(hypertext markup language) 포맷의 웹 페이지는 소정의 길이를 가질 수 있기 때문에, 인식기가 탐색할 수 있는 지원자 링크/URL 쌍의 수는 표시기(20a)의 현재 스크린상에 도시될 수 있는 것들로 제한될 수 있다. Scroll down과 같은 명령은 지원자 링크/URL쌍을 갱신한다. 일단, 스크린용 링크/URL 쌍이 구해지면, 현재 스크린상의 모든 링크들에 대한 문법이 생성된다. 다음, 링크들에서의 토큰을 식별하여 토큰당 문법들을 생성한다. 이들 문법들을 인식기의 문법 파일에 부가한다. 링크 포맷들이 광범위하게 변할 수 있기 때문에 정확한 표시(tokenization)를 요구한다. 링크들은 수, 두문자어(acronyms), 발명된 워드, 및 새로운 구두점의 사용을 포함할 수 있다.
스피커블 링크들을 설명하기 위한 것으로, 링크들의 길이, 동일 페이지에서의 링크들의 모호성, 및 비트-맵 링크를 포함하는 그래픽 등이 있다. 긴 링크들인 경우, 스피커블 링크 프로세스는 사용자로 하여금 N 워드후 어느때라도 링크에서 워드를 말하는 것을 중지시킬 수 있게 한다. 모호성의 경우, 제1 URL에 디폴트이거나 또는 사용자에게 URLs을 선택할 수 있는 기회를 제공할 수 있다. 비트-맵 링크의 경우, 프로세스는 링크 정보를 찾기 위해〈ALT〉 태그를 사용한다.
스피커블 링크들에 대한 문법들은 동적으로 생성되어 현재 표시되는 문법만이 기동하고 현재 표시가 새로이 발생할때 갱신된다. 또한 동적 문법 생성은 요구된 메모리(10f)의 양을 줄인다.
도 5는 문법 파일을 동적으로 생성하는 적합한 프로세스를 도시한다. 이는 도 1 및 도 2의 동적 문법 발생기에 의해 실행되는 프로세스이다. 상술한 바와 같이, 동적 문법 파일들은 현재 웹 페이지로 부터 생성되어 스피커블 링크들을 인식할 수 있다. 미국 특허 출원 번호 08/419, 226를 참조로 음성 제어 호스트 시스템(11) 즉, 분리된 원격 제어 장치(10)가 배제된 음성 제어에 적용함으로써 이 방법을 좀더 구체적으로 설명한다.
도 4의 표시기(40)와 같은 표시는 문법 제약(52)들에 영향을 미친다. 문법 제약(52)는 어휘(vocabulary)(54)와 사용자 에지전트(64)내로 입력된다. 차례로, 어휘(54)는 온 라인 사전(56)에 공급되어 발음 모듈(58)내로 입력된다. 화자 독립 연속 스피치 음성학 모델 모듈(Speaker Independent Continuous Speech Phonetic Models modules)(60) 뿐 아니라 발음 모듈(58)이 사용자 에이전트(64)내로 입력된다. 더욱이, 스피치 모듈(66)은 사용자의 음성을 사용자 에지전트(64)내로 입력한다. 동시에, 문맥 모듈(68)은 스크린(40)으로 부터 입력을 가지고 사용자 에이전트(64)내로 입력한다.
현존하는 RGDAG(Regular Grammar Directed Acyclic Graph)는 새 구문과 어휘를 동적으로 수용할 수 있다. 스크린(40)이 변할때 마다, 사용자 에이전트(64)는 현재 보일 수 있는 밑줄 그은 구(링크)를 포함하는 문법을 생성한다. 이 문법으로 부터, 어구들을 사용자 에이전트(64)는 예를 들어, 임의 문자 철자법과 삭제된/임의 구두점을 포함할 수 있는 어구 문법으로 표시할 수 있다. 상기 표시들로 부터, 사용자 에이전트(64)는 온라인 사전과 텍스트-투-음소(text-to-phoneme) 매핑의 결합을 사용한다. 그런 다음 음성 인식 프로세스는 문법들을 부가하여 생성된다. 이는 word를 표시하는 심볼을 식별하여 출력하는 것을 포함하는 수개의 간단한 음성 인식기용 북 키핑 동작을 의미한다. 결국, 새로운/변경된 문법들을 조합하기 위해 범용적인 변화를 실행시킨다. 이를 위해, 문법들이 RGDAG 관계에 연결된다. 더욱이, 각 심볼에 대한 최대 깊이를 계산한다. 또한 음성 인식기가 출력과 함께 앤세스터 심볼을 조사함으로써 파스(parse) 정보를 요구하는지 어떤지를 결정한다. 그러면 효율적인 구문 해석용 문법의 구조를 식별한다.
비록 본 발명이 특정의 실시예를 참조하여 기술되었다 하더라도, 이 기술은 제한된 의미로 추론되어선 안된다. 본 분야에 숙련된 자들에게는 공개된 실시예 뿐아니라 대안적인 실시예들의 다양한 변경이 가능하다. 그러므로, 첨부된 청구항이 본 발명의 범주내에 모든 변경을 포함할 것이다.
상술한 바와 같이 사용자로 하여금 음성 명령들로 월드 와이드 웹과 같은 하이퍼미디어 네트워크를 주사 검색할 수 있도록 하는 본 발명의 무선 음성 제어 장치는 웹 인터페이스에 유연성과 파워를 부가하여 스피치 제어함으로써 좀더 자연스럽게 정보를 액세스하게 한다.

Claims (17)

  1. 프로세서 기준 호스트 시스템을 제어하기 위한 무선 음성 기동 제어 유닛(Wireless Voice-activated Control Unit)에 있어서,
    사용자로 부터 음성 입력을 수신할 수 있도록 동작함으로써 오디오 입력 신호를 제공하는 마이크로폰,
    상기 오디오 입력 신호로 부터 파생된 데이타를 상기 호스트 시스템으로 무선 전송할 수 있도록 동작하는 오디오 전송기,
    상기 호스트 시스템으로 부터 화상 데이타를 무선 수신할 수 있도록 동작하는 데이타 수신기, 및
    상기 화상 데이타에 의해 표시된 화상들을 발생 및 표시할 수 있도록 동작하는 표시기를 포함하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
  2. 제1항에 있어서,
    상기 마이크로폰은 상기 표시기와는 별도로 온 또는 오프 상태로 스위치 가능한 것을 특징으로 하는 무선 음성 기동 제어 유닛.
  3. 제1항에 있어서,
    상기 마이크로폰은 멀티 소자 마이크로폰 어레이인 것을 특징으로 하는 무선 음성 기동 제어 유닛.
  4. 제1항에 있어서,
    음성 인식 프로세스를 수행할 수 있도록 동작하는 프로세서와, 상기 음성 인식 프로세스와 문법 파일들을 저장하는 메모리를 더 포함하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
  5. 제4항에 있어서,
    상기 음성 인식 프로세스는 선형 예측 코딩 해석(Linear predictive coding analysis)을 포함하고, 상기 전송기는 상기 해석의 결과를 전송할 수 있도록 동작하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
  6. 제4항에 있어서,
    상기 음성 인식 프로세스는 스피치 엔드 포인팅(speech end pointing) 해석을 포함하고, 상기 전송기는 상기 해석의 결과를 전송할 수 있도록 동작하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
  7. 제4항에 있어서,
    상기 문법 파일들은 동적으로 생성되고, 또한 상기 프로세서는 동적 문법 생성 프로세스를 실행할 수 있도록 동작하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
  8. 하이퍼미디어 리소스(Hypermedia resource)와의 데이타 통신에서 호스트 시스템을 음성 제어하기 위한 무선 음성 기동 제어 유닛에 있어서,
    사용자로 부터 음성 입력을 수신할 수 있도록 동작함으로써 오디오 입력 신호를 발생하는 마이크로폰,
    상기 오디오 입력 신호로 부터 파생된 데이타를 상기 호스트 시스템으로 무선 전송할 수 있도록 동작하는 오디오 전송기,
    상기 호스트 시스템으로 부터 화상 데이타를 무선으로 수신할 수 있도록 동작하는 데이타 수신기, 및
    상기 호스트 시스템에 의해 상기 하이퍼미디어 리소스로 부터 검색되고 상기 화상 데이타에 의해 표시된 화상들을 발생 및 표시할 수 있도록 동작하는 표시기를 포함하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
  9. 제8항에 있어서,
    음성 인식 프로세스를 수행할 수 있도록 동작하는 프로세서와, 상기 음성 인식 프로세스와 문법 파일을 저장하는 메모리를 더 포함하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
  10. 제9항에 있어서,
    상기 음성 인식 프로세스는 선형 예측 코딩 해석(linear predictive coding analysis)을 포함하고, 상기 전송기는 상기 해석의 결과를 전송할 수 있도록 동작하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
  11. 제9항에 있어서,
    상기 음성 인식 프로세스는 스피치 엔드 포인팅(speech end pointing) 해석을 포함하고, 상기 전송기는 상기 해석의 결과들을 전송할 수 있도록 동작하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
  12. 제9항에 있어서,
    상기 문법 파일들은 동적으로 생성되고, 상기 프로세서는 또한 동적 문법 발생 프로세스를 실행할 수 있도록 동작하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
  13. 제8항에 있어서,
    음성 제어 프로세스를 수행할 수 있도록 동작하는 프로세서와, 상기 음성 제어 프로세스를 저장하는 메모리를 더 포함하는 무선 음성 기동 제어 유닛.
  14. 제13항에 있어서,
    상기 음성 제어 프로세스는 상기 사용자가 상기 호스트 시스템의 동작을 음성으로 지시할 수 있는 스피커블 명령 프로세스를 포함하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
  15. 제13항에 있어서,
    상기 음성 제어 프로세스는 상기 사용자가 상기 호스트 시스템에 의해 검색되는 상기 리소스들중 특정의 하나를 음성으로 요구할 수 있는 스피커블 핫리스트 프로세스를 포함하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
  16. 제13항에 있어서,
    상기 음성 제어 프로세스들은 상기 사용자가 상기 표시기상에 표시되는 현재 페이지상의 링크를 상기 호스트 시스템에 의해 검색하도록 음성으로 요구할 수 있는 스피커블 링크 프로세스를 포함하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
  17. 제8항에 있어서,
    음성 인식 프로세스를 수행하고 동적 문법 생성 프로세스를 수행할 수 있도록 동작하는 프로세서와, 상기 프로세스를 저장하는 메모리를 더 포함하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
KR1019980000108A 1997-01-06 1998-01-06 프로세서 기준의 호스트 시스템을 제어하기 위한무선 음성 기동 장치 KR19980070352A (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US3468597P 1997-01-06 1997-01-06
US60/034,685 1997-01-06
US08/943,795 US6188985B1 (en) 1997-01-06 1997-10-03 Wireless voice-activated device for control of a processor-based host system
US8/943,795 1997-10-03

Publications (1)

Publication Number Publication Date
KR19980070352A true KR19980070352A (ko) 1998-10-26

Family

ID=26711249

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980000108A KR19980070352A (ko) 1997-01-06 1998-01-06 프로세서 기준의 호스트 시스템을 제어하기 위한무선 음성 기동 장치

Country Status (6)

Country Link
US (1) US6188985B1 (ko)
EP (1) EP0854417A3 (ko)
JP (1) JPH10275162A (ko)
KR (1) KR19980070352A (ko)
SG (1) SG72780A1 (ko)
TW (1) TW497044B (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101221172B1 (ko) * 2005-02-03 2013-01-11 뉘앙스 커뮤니케이션즈, 인코포레이티드 이동 통신 장치의 음성 어휘를 자동으로 확장하는 방법 및장치

Families Citing this family (141)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6965864B1 (en) * 1995-04-10 2005-11-15 Texas Instruments Incorporated Voice activated hypermedia systems using grammatical metadata
KR20010022493A (ko) * 1998-06-03 2001-03-15 이데이 노부유끼 정보처리장치 및 정보처리방법
US7937260B1 (en) * 1998-06-15 2011-05-03 At&T Intellectual Property Ii, L.P. Concise dynamic grammars using N-best selection
US6499013B1 (en) * 1998-09-09 2002-12-24 One Voice Technologies, Inc. Interactive user interface using speech recognition and natural language processing
JP4067276B2 (ja) * 1998-09-22 2008-03-26 ノキア コーポレイション スピーチ認識システムを構成する方法及びシステム
CA2395040A1 (en) * 1998-09-30 2000-04-06 Lernout & Hauspie Speech Products N.V. Graphic user interface for navigation in speech recognition system grammars
US7003463B1 (en) 1998-10-02 2006-02-21 International Business Machines Corporation System and method for providing network coordinated conversational services
US6587822B2 (en) * 1998-10-06 2003-07-01 Lucent Technologies Inc. Web-based platform for interactive voice response (IVR)
AU2600900A (en) * 1999-01-07 2000-07-24 Inviso Transcription method using virtual image display
WO2000041025A1 (en) * 1999-01-07 2000-07-13 Inviso Transcription device with virtual image display
US6606280B1 (en) * 1999-02-22 2003-08-12 Hewlett-Packard Development Company Voice-operated remote control
US6349283B1 (en) * 1999-03-05 2002-02-19 Glenn Sanders Remote control and processing of wireless digital receiver
AU3165000A (en) * 1999-03-26 2000-10-16 Koninklijke Philips Electronics N.V. Client-server speech recognition
EP1088299A2 (en) * 1999-03-26 2001-04-04 Scansoft, Inc. Client-server speech recognition
US7283964B1 (en) 1999-05-21 2007-10-16 Winbond Electronics Corporation Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition
US6584439B1 (en) 1999-05-21 2003-06-24 Winbond Electronics Corporation Method and apparatus for controlling voice controlled devices
US6543052B1 (en) * 1999-07-09 2003-04-01 Fujitsu Limited Internet shopping system utilizing set top box and voice recognition
DE19938535A1 (de) * 1999-08-13 2001-02-15 Christoph Bueltemann Vorrichtung zur Umwandlung von Sprachkommandos und/oder Sprachtexte in Tastatur- und/oder Mausbewegungen und/oder Texte
DE19943875A1 (de) * 1999-09-14 2001-03-15 Thomson Brandt Gmbh System zur Sprachsteuerung mit einem Mikrofonarray
US7174293B2 (en) * 1999-09-21 2007-02-06 Iceberg Industries Llc Audio identification system and method
US7194752B1 (en) 1999-10-19 2007-03-20 Iceberg Industries, Llc Method and apparatus for automatically recognizing input audio and/or video streams
US6526381B1 (en) * 1999-09-30 2003-02-25 Intel Corporation Remote control with speech recognition
US7330815B1 (en) 1999-10-04 2008-02-12 Globalenglish Corporation Method and system for network-based speech recognition
US7219123B1 (en) * 1999-10-08 2007-05-15 At Road, Inc. Portable browser device with adaptive personalization capability
CA2387079C (en) * 1999-10-19 2011-10-18 Sony Electronics Inc. Natural language interface control system
WO2001035390A1 (en) * 1999-11-09 2001-05-17 Koninklijke Philips Electronics N.V. Speech recognition method for activating a hyperlink of an internet page
US9076448B2 (en) * 1999-11-12 2015-07-07 Nuance Communications, Inc. Distributed real time speech recognition system
US20030182113A1 (en) * 1999-11-22 2003-09-25 Xuedong Huang Distributed speech recognition for mobile communication devices
US6978475B1 (en) 1999-11-24 2005-12-20 Ecable, Llc Method and apparatus for internet TV
US6424945B1 (en) * 1999-12-15 2002-07-23 Nokia Corporation Voice packet data network browsing for mobile terminals system and method using a dual-mode wireless connection
US6397186B1 (en) * 1999-12-22 2002-05-28 Ambush Interactive, Inc. Hands-free, voice-operated remote control transmitter
US8578439B1 (en) * 2000-01-28 2013-11-05 Koninklijke Philips N.V. Method and apparatus for presentation of intelligent, adaptive alarms, icons and other information
AU2001236861A1 (en) * 2000-02-10 2001-08-20 Randolphrand.Com Llp Recorder adapted to interface with internet browser
US20020055844A1 (en) * 2000-02-25 2002-05-09 L'esperance Lauren Speech user interface for portable personal devices
GB2362017A (en) * 2000-03-29 2001-11-07 John Pepin Network access
US6662163B1 (en) * 2000-03-30 2003-12-09 Voxware, Inc. System and method for programming portable devices from a remote computer system
US7096185B2 (en) * 2000-03-31 2006-08-22 United Video Properties, Inc. User speech interfaces for interactive media guidance applications
KR20010025230A (ko) * 2000-11-09 2001-04-06 차정만 음성도메인에 의한 인터넷접속 매개장치와 매개방법 및음성도메인의 데이터 베이스 생성방법
FR2810125B1 (fr) * 2000-06-08 2004-04-30 Interactive Speech Technologie Systeme de commande vocale d'une page stockee sur un serveur et telechargeable en vue de sa visualisation sur un dispositif client
GB2365262B (en) 2000-07-21 2004-09-15 Ericsson Telefon Ab L M Communication systems
JP2002041277A (ja) * 2000-07-28 2002-02-08 Sharp Corp 情報処理装置およびWebブラウザ制御プログラムを記録した記録媒体
US8200485B1 (en) 2000-08-29 2012-06-12 A9.Com, Inc. Voice interface and methods for improving recognition accuracy of voice search queries
US6529233B1 (en) 2000-09-29 2003-03-04 Digeo, Inc. Systems and methods for remote video and audio capture and communication
US6944880B1 (en) 2000-09-29 2005-09-13 Digeo, Inc. Methods for audio capture and communication during television broadcasts
US6397388B1 (en) * 2000-09-29 2002-05-28 Digeo, Inc. Systems and devices for audio capture and communication during television broadcasts
US20020054206A1 (en) * 2000-11-06 2002-05-09 Allen Paul G. Systems and devices for audio and video capture and communication during television broadcasts
WO2002039425A1 (fr) * 2000-11-10 2002-05-16 Cai Co., Ltd. Systeme et procede de conversation en mode vocal faisant appel a un telephone portable, et centre en mode vocal
US6629077B1 (en) * 2000-11-22 2003-09-30 Universal Electronics Inc. Universal remote control adapted to receive voice input
ATE391986T1 (de) * 2000-11-23 2008-04-15 Ibm Sprachnavigation in webanwendungen
US6973429B2 (en) * 2000-12-04 2005-12-06 A9.Com, Inc. Grammar generation for voice-based searches
JP4240807B2 (ja) 2000-12-25 2009-03-18 日本電気株式会社 移動通信端末装置、音声認識方法、およびそのプログラムを記録した記録媒体
US20050039214A1 (en) * 2001-02-21 2005-02-17 Lorenz Kim E. System and method for providing direct, context-sensitive customer support in an interactive television system
US20040244056A1 (en) * 2001-02-21 2004-12-02 Lorenz Kim E. System and method for providing direct, context-sensitive customer support in an interactive television system
US6658414B2 (en) * 2001-03-06 2003-12-02 Topic Radio, Inc. Methods, systems, and computer program products for generating and providing access to end-user-definable voice portals
US20060265397A1 (en) * 2001-03-06 2006-11-23 Knowledge Vector, Inc. Methods, systems, and computer program products for extensible, profile-and context-based information correlation, routing and distribution
US20020138269A1 (en) * 2001-03-20 2002-09-26 Philley Charles F. Voice recognition maintenance inspection program
US7039590B2 (en) * 2001-03-30 2006-05-02 Sun Microsystems, Inc. General remote using spoken commands
US20020188447A1 (en) * 2001-04-10 2002-12-12 Coon Bradley S. Generation of grammars from dynamic data structures
US8108509B2 (en) * 2001-04-30 2012-01-31 Sony Computer Entertainment America Llc Altering network transmitted content data based upon user specified characteristics
US7610547B2 (en) * 2001-05-04 2009-10-27 Microsoft Corporation Markup language extensions for web enabled recognition
US7506022B2 (en) * 2001-05-04 2009-03-17 Microsoft.Corporation Web enabled recognition architecture
US7409349B2 (en) 2001-05-04 2008-08-05 Microsoft Corporation Servers for web enabled speech recognition
US7366712B2 (en) * 2001-05-31 2008-04-29 Intel Corporation Information retrieval center gateway
US7366673B2 (en) * 2001-06-15 2008-04-29 International Business Machines Corporation Selective enablement of speech recognition grammars
US20030046710A1 (en) * 2001-09-05 2003-03-06 Moore John F. Multi-media communication system for the disabled and others
US8229753B2 (en) * 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
US7711570B2 (en) * 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US20030078775A1 (en) * 2001-10-22 2003-04-24 Scott Plude System for wireless delivery of content and applications
US7013275B2 (en) * 2001-12-28 2006-03-14 Sri International Method and apparatus for providing a dynamic speech-driven control and remote service access system
US7203644B2 (en) * 2001-12-31 2007-04-10 Intel Corporation Automating tuning of speech recognition systems
US20030139929A1 (en) * 2002-01-24 2003-07-24 Liang He Data transmission system and method for DSR application over GPRS
US7062444B2 (en) * 2002-01-24 2006-06-13 Intel Corporation Architecture for DSR client and server development platform
US20030144846A1 (en) * 2002-01-31 2003-07-31 Denenberg Lawrence A. Method and system for modifying the behavior of an application based upon the application's grammar
US7873900B2 (en) * 2002-03-22 2011-01-18 Inet Spch Property Hldg., Limited Liability Company Ordering internet voice content according to content density and semantic matching
US7712020B2 (en) * 2002-03-22 2010-05-04 Khan Emdadur R Transmitting secondary portions of a webpage as a voice response signal in response to a lack of response by a user
US7016849B2 (en) * 2002-03-25 2006-03-21 Sri International Method and apparatus for providing speech-driven routing between spoken language applications
US6910911B2 (en) 2002-06-27 2005-06-28 Vocollect, Inc. Break-away electrical connector
US7421389B2 (en) * 2002-11-13 2008-09-02 At&T Knowledge Ventures, L.P. System and method for remote speech recognition
AU2002359142A1 (en) * 2002-12-12 2004-06-30 Abb Research Ltd A control system controlling a plurality of real world objects, and a method for hanling messages from a mobile user connected to the control system
US9369775B2 (en) * 2003-01-31 2016-06-14 At&T Intellectual Property I, L.P. Methods and systems for delivering signals from cable networks to telecommunications networks
US7729913B1 (en) 2003-03-18 2010-06-01 A9.Com, Inc. Generation and selection of voice recognition grammars for conducting database searches
JP2004302300A (ja) * 2003-03-31 2004-10-28 Canon Inc 情報処理方法
EP1611504B1 (en) * 2003-04-07 2009-01-14 Nokia Corporation Method and device for providing speech-enabled input in an electronic device having a user interface
US7275032B2 (en) * 2003-04-25 2007-09-25 Bvoice Corporation Telephone call handling center where operators utilize synthesized voices generated or modified to exhibit or omit prescribed speech characteristics
US7260535B2 (en) * 2003-04-28 2007-08-21 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting for call controls
US20040230637A1 (en) * 2003-04-29 2004-11-18 Microsoft Corporation Application controls for speech enabled recognition
US20050027539A1 (en) * 2003-07-30 2005-02-03 Weber Dean C. Media center controller system and method
US8311835B2 (en) * 2003-08-29 2012-11-13 Microsoft Corporation Assisted multi-modal dialogue
US7552055B2 (en) 2004-01-10 2009-06-23 Microsoft Corporation Dialog component re-use in recognition systems
US8160883B2 (en) * 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
US7739117B2 (en) * 2004-09-20 2010-06-15 International Business Machines Corporation Method and system for voice-enabled autofill
TWI287787B (en) * 2004-12-14 2007-10-01 Delta Electronics Inc A remote control device and method with speech control
US8873768B2 (en) * 2004-12-23 2014-10-28 Motorola Mobility Llc Method and apparatus for audio signal enhancement
US20060227946A1 (en) * 2005-03-31 2006-10-12 Xerox Corporation Voice activated printer
US7548859B2 (en) * 2005-08-03 2009-06-16 Motorola, Inc. Method and system for assisting users in interacting with multi-modal dialog systems
US9152982B2 (en) 2005-08-19 2015-10-06 Nuance Communications, Inc. Method of compensating a provider for advertisements displayed on a mobile phone
US8073700B2 (en) 2005-09-12 2011-12-06 Nuance Communications, Inc. Retrieval and presentation of network service results for mobile device using a multimodal browser
US7672852B2 (en) * 2005-09-29 2010-03-02 Microsoft Corporation Localization of prompts
US7477909B2 (en) * 2005-10-31 2009-01-13 Nuance Communications, Inc. System and method for conducting a search using a wireless mobile device
US20070266162A1 (en) * 2005-12-07 2007-11-15 Microsoft Corporation Session initiation protocol redirection for process recycling
US20070136752A1 (en) * 2005-12-12 2007-06-14 John Sanders Personalized electronic programming guide
US8417185B2 (en) 2005-12-16 2013-04-09 Vocollect, Inc. Wireless headset and method for robust voice data communication
US20070156682A1 (en) * 2005-12-28 2007-07-05 Microsoft Corporation Personalized user specific files for object recognition
US7693267B2 (en) * 2005-12-30 2010-04-06 Microsoft Corporation Personalized user specific grammars
US7773767B2 (en) 2006-02-06 2010-08-10 Vocollect, Inc. Headset terminal with rear stability strap
US7885419B2 (en) 2006-02-06 2011-02-08 Vocollect, Inc. Headset terminal with speech functionality
US20080086311A1 (en) * 2006-04-11 2008-04-10 Conwell William Y Speech Recognition, and Related Systems
US8843376B2 (en) 2007-03-13 2014-09-23 Nuance Communications, Inc. Speech-enabled web content searching using a multimodal browser
EP2211689A4 (en) * 2007-10-08 2013-04-17 Univ California Ucla Office Of Intellectual Property VOICE CONTROLLED DASHBOARD WITH CLINICAL INFORMATION
USD626949S1 (en) 2008-02-20 2010-11-09 Vocollect Healthcare Systems, Inc. Body-worn mobile device
USD605629S1 (en) 2008-09-29 2009-12-08 Vocollect, Inc. Headset
US9497322B2 (en) * 2008-10-16 2016-11-15 Troy Barnes Remote control of a web browser
US8386261B2 (en) 2008-11-14 2013-02-26 Vocollect Healthcare Systems, Inc. Training/coaching system for a voice-enabled work environment
US9390167B2 (en) 2010-07-29 2016-07-12 Soundhound, Inc. System and methods for continuous audio matching
US8160287B2 (en) 2009-05-22 2012-04-17 Vocollect, Inc. Headset with adjustable headband
TWI399935B (zh) * 2009-08-18 2013-06-21 Chia Yi Hsu Portable digital radio group navigation system
US8438659B2 (en) 2009-11-05 2013-05-07 Vocollect, Inc. Portable computing device and headset interface
US9183560B2 (en) 2010-05-28 2015-11-10 Daniel H. Abelow Reality alternate
US8659397B2 (en) 2010-07-22 2014-02-25 Vocollect, Inc. Method and system for correctly identifying specific RFID tags
US9047371B2 (en) 2010-07-29 2015-06-02 Soundhound, Inc. System and method for matching a query against a broadcast stream
USD643400S1 (en) 2010-08-19 2011-08-16 Vocollect Healthcare Systems, Inc. Body-worn mobile device
USD643013S1 (en) 2010-08-20 2011-08-09 Vocollect Healthcare Systems, Inc. Body-worn mobile device
JP5771002B2 (ja) * 2010-12-22 2015-08-26 株式会社東芝 音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機
US8898065B2 (en) 2011-01-07 2014-11-25 Nuance Communications, Inc. Configurable speech recognition system using multiple recognizers
US9035163B1 (en) 2011-05-10 2015-05-19 Soundbound, Inc. System and method for targeting content based on identified audio and multimedia
US8954334B2 (en) * 2011-10-15 2015-02-10 Zanavox Voice-activated pulser
US9244924B2 (en) * 2012-04-23 2016-01-26 Sri International Classification, search, and retrieval of complex video events
KR101309794B1 (ko) * 2012-06-27 2013-09-23 삼성전자주식회사 디스플레이 장치, 디스플레이 장치의 제어 방법 및 대화형 시스템
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
WO2014039828A2 (en) * 2012-09-06 2014-03-13 Simmons Aaron M A method and system for reading fluency training
KR101330671B1 (ko) * 2012-09-28 2013-11-15 삼성전자주식회사 전자장치, 서버 및 그 제어방법
WO2014055076A1 (en) 2012-10-04 2014-04-10 Nuance Communications, Inc. Improved hybrid controller for asr
KR20140060040A (ko) 2012-11-09 2014-05-19 삼성전자주식회사 디스플레이장치, 음성취득장치 및 그 음성인식방법
US9507849B2 (en) 2013-11-28 2016-11-29 Soundhound, Inc. Method for combining a query and a communication command in a natural language computer system
US9292488B2 (en) 2014-02-01 2016-03-22 Soundhound, Inc. Method for embedding voice mail in a spoken utterance using a natural language processing computer system
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
US9564123B1 (en) 2014-05-12 2017-02-07 Soundhound, Inc. Method and system for building an integrated user profile
US10971157B2 (en) 2017-01-11 2021-04-06 Nuance Communications, Inc. Methods and apparatus for hybrid speech recognition processing
JP7057647B2 (ja) * 2017-11-17 2022-04-20 キヤノン株式会社 音声制御システム、制御方法及びプログラム
US11627012B2 (en) 2018-10-09 2023-04-11 NewTekSol, LLC Home automation management system
US11594218B2 (en) * 2020-09-18 2023-02-28 Servicenow, Inc. Enabling speech interactions on web-based user interfaces

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5247580A (en) * 1989-12-29 1993-09-21 Pioneer Electronic Corporation Voice-operated remote control system
KR940019171A (ko) * 1993-01-04 1994-08-19 최광주 음성인식 원격제어장치
JPH06274194A (ja) * 1993-03-22 1994-09-30 Hitachi Ltd 携帯型音声入力モニタ・制御装置
JPH08186654A (ja) * 1994-12-22 1996-07-16 Internatl Business Mach Corp <Ibm> 携帯端末装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59100659A (ja) * 1982-11-30 1984-06-09 Sharp Corp ワイヤレスフオン
JPH03203794A (ja) * 1989-12-29 1991-09-05 Pioneer Electron Corp 音声リモートコントロール装置
US5890122A (en) * 1993-02-08 1999-03-30 Microsoft Corporation Voice-controlled computer simulateously displaying application menu and list of available commands
JPH07168851A (ja) * 1993-12-16 1995-07-04 Canon Inc 画像表示方法及び装置
US5774628A (en) * 1995-04-10 1998-06-30 Texas Instruments Incorporated Speaker-independent dynamic vocabulary and grammar in speech recognition
US5890123A (en) * 1995-06-05 1999-03-30 Lucent Technologies, Inc. System and method for voice controlled video screen display
US5636211A (en) * 1995-08-15 1997-06-03 Motorola, Inc. Universal multimedia access device
US6075575A (en) * 1995-10-02 2000-06-13 Starsight Telecast, Inc. Remote control device and method for using television schedule information
JPH09134319A (ja) * 1995-10-03 1997-05-20 Sony Electron Inc パーソナル通信ルーティングシステムのユーザインターフェース及びルール処理
US5802526A (en) * 1995-11-15 1998-09-01 Microsoft Corporation System and method for graphically displaying and navigating through an interactive voice response menu
US5737491A (en) * 1996-06-28 1998-04-07 Eastman Kodak Company Electronic imaging system capable of image capture, local wireless transmission and voice recognition

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5247580A (en) * 1989-12-29 1993-09-21 Pioneer Electronic Corporation Voice-operated remote control system
KR940019171A (ko) * 1993-01-04 1994-08-19 최광주 음성인식 원격제어장치
JPH06274194A (ja) * 1993-03-22 1994-09-30 Hitachi Ltd 携帯型音声入力モニタ・制御装置
JPH08186654A (ja) * 1994-12-22 1996-07-16 Internatl Business Mach Corp <Ibm> 携帯端末装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101221172B1 (ko) * 2005-02-03 2013-01-11 뉘앙스 커뮤니케이션즈, 인코포레이티드 이동 통신 장치의 음성 어휘를 자동으로 확장하는 방법 및장치

Also Published As

Publication number Publication date
SG72780A1 (en) 2000-05-23
EP0854417A3 (en) 2005-10-05
TW497044B (en) 2002-08-01
US6188985B1 (en) 2001-02-13
EP0854417A2 (en) 1998-07-22
JPH10275162A (ja) 1998-10-13

Similar Documents

Publication Publication Date Title
US6188985B1 (en) Wireless voice-activated device for control of a processor-based host system
KR101359715B1 (ko) 모바일 음성 웹 제공 방법 및 장치
US8781840B2 (en) Retrieval and presentation of network service results for mobile device using a multimodal browser
EP2824596B1 (en) Speech- Enabled Web Content Searching Using a Multimodal Browser
KR100661687B1 (ko) 대화형 음성 응답 애플리케이션 구현 장치 및 방법, 머신 판독가능 매체 및 대화형 음성 응답 시스템
KR100653862B1 (ko) 언어 독립적 음성-기반 검색 시스템
US6965864B1 (en) Voice activated hypermedia systems using grammatical metadata
US5819220A (en) Web triggered word set boosting for speech interfaces to the world wide web
TWI353585B (en) Computer-implemented method,apparatus, and compute
US20080133215A1 (en) Method and system of interpreting and presenting web content using a voice browser
KR100237385B1 (ko) 웹 브라우저 상의 음성 인식기 구현방법
JP7231190B2 (ja) 情報提供システム、及び、情報提供制御方法
JP2004334409A (ja) データ閲覧支援装置、データ閲覧方法及びデータ閲覧プログラム
Hemphill et al. Speech-aware multimedia
KR20010064061A (ko) 음성 인식 기능을 갖는 검색 엔진
KR100519748B1 (ko) 연속어 음성 명령을 통한 인터넷 네비게이션 시스템 및 그방법
JP2001075968A (ja) 情報検索方法及びそれを記録した記録媒体
WO2002099786A1 (en) Method and device for multimodal interactive browsing
KR20050040983A (ko) 음성을 이용한 웹 브라우징 시스템 및 제어방법
EP1729284A1 (en) Method and systems for a accessing data by spelling discrimination letters of link names
Amoli et al. Chromium Navigator Extension: Voice-Activated Assist for Disabled
Srisa-an et al. Putting voice into wireless communications
KR20020058386A (ko) 검색하는 웹 문서의 구조와 요소 객체의 특징을 음색으로자동 표현하는 음성 브라우저
KR20050035784A (ko) 에이치.티.엠.엘 컨텐츠 변환을 통한 음성지원 웹브라우저 및 음성지원 방법
Chandon WebVoice: Speech Access to Traditional Web Content for Blind Users

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application