KR19980070352A - 프로세서 기준의 호스트 시스템을 제어하기 위한무선 음성 기동 장치 - Google Patents
프로세서 기준의 호스트 시스템을 제어하기 위한무선 음성 기동 장치 Download PDFInfo
- Publication number
- KR19980070352A KR19980070352A KR1019980000108A KR19980000108A KR19980070352A KR 19980070352 A KR19980070352 A KR 19980070352A KR 1019980000108 A KR1019980000108 A KR 1019980000108A KR 19980000108 A KR19980000108 A KR 19980000108A KR 19980070352 A KR19980070352 A KR 19980070352A
- Authority
- KR
- South Korea
- Prior art keywords
- host system
- voice
- speech recognition
- operable
- grammar
- Prior art date
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/72—Mobile telephones; Cordless telephones, i.e. devices for establishing wireless links to base stations without route selection
- H04M1/724—User interfaces specially adapted for cordless or mobile telephones
- H04M1/72403—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality
- H04M1/72445—User interfaces specially adapted for cordless or mobile telephones with means for local support of applications that increase the functionality for supporting Internet browser applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/487—Arrangements for providing information services, e.g. recorded voice services or time announcements
- H04M3/493—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals
- H04M3/4938—Interactive information services, e.g. directory enquiries ; Arrangements therefor, e.g. interactive voice response [IVR] systems or voice portals comprising a voice browser which renders and interprets, e.g. VoiceXML
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M1/00—Substation equipment, e.g. for use by subscribers
- H04M1/26—Devices for calling a subscriber
- H04M1/27—Devices whereby a plurality of signals may be stored simultaneously
- H04M1/271—Devices whereby a plurality of signals may be stored simultaneously controlled by voice recognition
Landscapes
- Engineering & Computer Science (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
- Computer And Data Communications (AREA)
- Arrangements For Transmission Of Measured Signals (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
WWW(World Wide Web)에 접속된 컴퓨터 등과 같은 호스트 시스템(11)을 제어하기 위한 핸드 헬드형 무선 기동 장치(10)를 제공한다. 상기 장치(10)는 표시기(10a), 마이크로폰(10b), 및 무선의 전송기(10g) 및 수신기(10h)를 구비한다. 또한 음성 인식을 수행하기 위한 프로세서(10e)와 메모리(10f)를 구비한다. 장치(20)는 음성 인식 및 상기 음성 인식의 결과의 인터프리테이션을 수행할 수 있는 프로세서(20e)와 메모리(20f)를 구비함으로써 특히, 웹 브라우징(Web browsing)용으로 설계될 수 있다.
Description
본 발명은 일반적으로 음성 인식 장치에 관한 것으로, 특히, 사용자로 하여금 음성 명령들로 월드 와이드 웹(World Wide Web)과 같은 하이퍼미디어 네트워크(hypermedia network)를 주사 검색(browsing)할 수 있도록 하는 무선의 음성 제어 장치에 관한 것이다.
본 특허 출원은 텍사스 인스트루먼트사가 양수인인 다음의 특허 출원, 미국 특허 출원 번호 08/419, 226호이고, 그 명칭이 Speaker-Independent Dynamic Vocabulary and Grammar in Speech Recognition 및 미국 특허 출원 번호 08/419, 229호이고, 그 명칭이 Voice Activated Hypermedia Systems Using Grammatical Metabase과 관련있다.
인터넷(Internet)은 월드-와이드 컴퓨터 네트워크 또는 더 정확히, 네트워크들중 월드-와이드 네트워크이다. 이는 정보 교환을 제공하고 광범위한 서비스를 제공한다. 오늘날, 인터넷은 모든 종류의 기관, 비지니스, 및 심지어 각 가정의 개인들 조차 포함하도록 성장하였다.
월드-와이드 웹(WWW 또는 Web)은 인터넷상에서 이용가능한 서비스중 하나이다. 이는 도큐먼트가 그의 다른 부분들 또는 다른 도큐먼트들에 대한 링크를 갖는 하이퍼텍스트(hypertext)로 알려진 기술에 기초를 둔다. 하이퍼텍스트는 화상과 사운드을 조합하여 컴퓨터상에 저장될 수 있는 어떤 종류의 정보에 대한 링크를 포함하도록 확장되어 왔다. 예를 들어, 웹을 사용하여 도큐먼트내로 부터 중요한 워드(word) 또는 어구(phrase)를 선택함으로써 세계 도처에 저장된 정의, 소스, 또는 관련 도큐먼트들을 얻을 수 있다. 이러한 이유로, 웹은 하이퍼미디어 네트워크로서 설명될 수 있다.
웹의 기본 유닛은 페이지(page)로, (통상적으로) 다른 페이지들에 대한 링크들로된 텍스트-플러스-그래픽(text-plus-graphics) 도큐먼트이다. 웹을 navigating 한다는 것은 기본적으로 페이지에서 페이지로 이동하는 것을 의미한다.
웹에 대한 개념은 모든 종류의 소스들로 부터 모든 종류의 데이타를 수집하고, 훌륭한 서버(server)와 훌륭한 클라이언트 프로그램으로 하여 데이타 포맷을 처리할 수 있도록 함으로써 불일치의 문제점들을 피하는데 있다. 이와 같이 포맷들을 처리할 수 있는 능력으로 일단 적절한 트랜슬레이션 코드(translation code)가 서버들과 클라이언트들에게 부가되면, 웹은 멀티미디어 포맷을 포함한 모든 종류의 데이타를 수용할 수 있다. 웹 클라이언트는 웹 서버들상에 위치한 웹 리소스들에 접속되곤 하여 웹 리소스들을 이용하는데 사용된다.
웹을 액세스하고 사용하기 위해 이용되는 일형태의 클라이언트 소프트웨어를 웹 브라우저 소프트웨어 라고 한다. 이 소프트웨어를 사용자 컴퓨터에 설치하여, 링크들이 두드러지거나 또는 마우스 또는 다른 지시 장치로 쉽게 선택할 수 있도록 표시하는 그래픽 인터페이스를 제공할 수 있다.
본 발명의 일 양태로 월드 와이드 웹에 접속된 컴퓨터와 같은 프로세서 기준 호스트 시스템을 제어하기 위한 무선 음성 기동되는 제어 유닛을 제공한다. 소형 핸드 헬드형 유닛은 마이크로폰, 무선 오디오 입력 전송기, 무선 데이타 수신기, 및 표시기를 구비한다. 마이크로폰은 사용자로 부터 음성 입력을 수신함으로써 오디어 입력 신호를 제공한다. 오디오 전송기는 상기 오디오 신호로 부터 파생한 데이타를 호스트 시스템에 무선으로 전송한다. 상기 호스트가 오디오 입력에 따라 기동된 다음, 화상 데이타 형태의 임의 종류의 응답을 수신기에 무선으로 전송한다. 표시기는 화상 데이타로 표시된 화상을 발생 및 표시한다.
장치를 변형시켜 오디오 출력 정보용 스피커를 포함할 수 있다. 또한 장치는 전치(front-end) 음성 인식 프로세스 또는 심지어 모든 음성 인식 조차 수행하기 위한 프로세서와 메모리를 구비할 수 있다.
본 발명의 장점은 정보를 웹상의 정보를 좀더 액세스 가능하고 유용하게 만드는데 있다. 스피치 제어는 웹 인터페이스에 유연성과 파워를 부가하여 좀더 자연스럽게 정보를 액세스하게 한다.
도 1은 본 발명에 따라 무선 음성으로 기동되는 제어 유닛의 일실시예를 도시하는 도면.
도 2는 특히, 사용자로 부터의 오디오 입력을 트랜슬레이팅 및 인터프리팅하기 위해 구성되는 무선 음성으로 기동되는 제어 유닛의 다른 실시예를 도시하는 도면.
도 3은 스피커블 명령 프로세스에 의해 제공된 표시기의 예를 도시하는 도면.
도 4는 웹 페이지의 일부 및 그의 스피커블 링크들을 도시하는 도면.
도 5는 도 1 및 도 2의 음성 인식기에 의해 사용할 문법(grammar)을 동적으로 생성하는 프로세스를 도시하는 도면.
도면의 주요 부분에 대한 부호의 설명
10a: 표시기
10b: 마이크로폰
10e: 프로세서
10f: 메모리
10g:무선 송신기
본 발명은 프로세서 기준 호스트 시스템을 제어하기 위한 무선 음성으로 기동되는 장치에 관한 것이다. 즉, 상기 장치는 음성으로 기동되는 원격 제어 장치이다. 이 설명의 실시예에서, 호스트 시스템은 월드-와이드 웹에 접속된 컴퓨터이고 상기 장치는 음성 제어된 웹 브라우징(web browsing)용으로 사용된다. 그러나, 예를 들어 TV와 같이, 표시 또는 오디오 정보를 제공하는 어떤 프로세서 기준의 시스템을 제어하기 위한 음성 제어된 장치에 동일한 개념을 적용할 수 있다.
장치에 내장된 지능에 따라 다른 장치의 다양한 실시예들이 있다. 본 발명은 오디오 입력을 인식한 다음 상기 오디오 입력을 인터프리트하도록 사용되는 프로그래밍을 상기 내장형 프로그래밍의 범위를 설계 및 비용이 문제가 되는 범위까지 확장시키는 방법으로 모듈화시킴으로써 종래의 웹 브라우저 소프트웨어에 의해 사용할 수 있다는데 그 목적이 있다.
도 1은 본 발명에 따른 무선 음성 기동되는 제어 유닛(10)의 일실시예를 도시한다. 이는 호스트 시스템(11)과 통신한다. 상술한 바와 같은 목적을 위해, 호스트 시스템(11)이 컴퓨터로서 월드-와이드 웹과 데이타 통신한다.
제어 유닛(10)은 표시기(10a)와 마이크로폰(10b)을 구비한다. 표시기(10a)는 소형화 및 휴대용으로 디자인된 LCD일 수 있다. 마이크로폰(10b)은 사용자로 부터 음성 입력을 수신한다. 이는 뮤트 스위치(10c)를 구비하여, 제어 유닛(10)이 화상을 표시할 수 있고 심지어 키패드(도시되지 않음)와 같은 대체 입력 장치를 통하여 비오디오 입력 조차도 수신할 수 있으나, 음성 인식을 수행할 수는 없다. 마이크로폰(10b)은 마이크로폰 어레이일 수 있으며, 사용자의 음성과는 다른 사운드를 구별하는 능력을 증가시킨다.
도 1의 실시예에서, 제어 유닛(10)은 모든 또는 일부 음성 인식 프로세스를 실행하고 음성 데이타를 전송기(10g)를 통하여 호스트 컴퓨터(11)에 전달한다. 호스트 컴퓨터(11)는 다양한 음성 제어 인터프리테이션 프로세스를 실행하고 또한 웹 브라우저(Web browser)를 실행한다. 그러나, 초단순형 제어 유닛은 마이크로폰(10b)으로 부터의 오디오 데이타를 직접 호스트 시스템(11)에 전송하여, 모든 처리를 실행할 것이다.
제어 유닛(10)이 모든 또는 일부의 음성 인식 프로세스를 실행하는 경우에서, 제어 유닛(120)은 프로세서(10e)를 구비한다. 메모리(10f)는 프로세서(10e)에 의해 실행되는 음성 인식 프로그래밍을 저장한다. 음성 인식을 위한 적합한 프로세서(10a)의 예로 Texas Instruments Incorporated에 의해 제조된 것들과 같은 신호 프로세서가 있다. 마이크로폰(110b)이 마이크로폰 어레이일 경우, 프로세서(10a)는 사용자의 음성을 타깃으로 하기 위해 계산을 실행할 수 있다.
만약 제어 유닛이 임의의 음성 프로세싱만을 실행한다면, 선형의 예보 코딩(LPC) 분석 또는 스피치 엔드 포인팅(speech end pointing)과 같은 하나 이상의 전치 프로세스를 실행할 수 있다.
만약 제어 유닛(10)이 모든 음성 인식 프로세스들을 수행한다면, 메모리(10f)는 문법 파일(grammar file)뿐 아니라 이들 프로세스들(음성 인식자로서)을 저장한다. 동작시, 음성 인식기는 마이크로폰(10b)으로 부터 오디오 입력을 수신한 다음 적절한 문법 파일을 액세스한다. 문법 파일 핸들러는 문법을 스피치-레디(speech-ready) 형태로 변환시켜 구두점 문법(punctuation grammar)을 발생한 다음, 문법을 음성 인식기(voice recognizer)로 로딩시킨다. 음성 인식기는 문법 파일을 사용하여 오디오 입력을 텍스트 트랜슬레이션(text translation)으로 변환시킨다.
메모리(10f)내의 문법 파일들은 미리 정의 및 저장될 수 있거나 또는 동적으로 발생될 수 있거나 또는 두가지 형태의 문법 파일들의 결합일 수 있다. 동적 문법 파일 발생의 예를 도 5와 연관하여 이하에서 기술할 것이다. 문법들은 문맥 자유(context-free) 문법인 Backus-Naur 형태로 쓰여질 수 있으며 커스터마이즈(customized)될 수 있다.
도 1의 실시예에서, 유닛(10)은 웹 브라우징용으로 사용되고, 호스트 컴퓨터(11)는 현재 표시된 웹 페이지용 HTML(hypertext markup language)을 유닛(10)에 전달한다. 메모리(10f)는 문법을 동적으로 발생하기 위한 문법 파일 발생기를 저장한다. 다른 웹 브라우징의 실시예에서, 호스트(11)는 문법을 동적으로 발생하고 문법 파일을 제어 유닛(10)에 다운로드시킬 수 있었다.
음성 인식기의 출력은 스피치 데이타(speech data)이다. 스피치 데이타는 호스트 시스템(11)에 전송되어 음성 제어 인터프레테이션 프로세스를 실행한다. 참조로 음성 제어된 웹 브라우징에 대한 다양한 음성 제어 인터프리테이션 프로세스가 텍사스 인스투르먼트사가 양수인이고 US. 특허 출원 번호 08/419, 229에 기술되고 그 명칭이 Voice Activated Hypermedia Systems Using Grammatical Metadata에서 구체화 되어 있다. 인터프리테이션의 결과로, 호스트 시스템(11)이 명령을 수행하거나 하이퍼미디어(Web) 링크를 제공함으로써 제어 유닛(10)에 대한 음성 입력에 반응할 수 있다.
웹 브라우징과는 다른 음성 제어 인터프리테이션의 예가 TV에 대한 명령으로, 호스트 시스템(11)이 프로세서-기준 TV 시스템이다. 예를 들어, What's on TV tonight? 라는 음성 명령이 TV 스케쥴에 표시되게 된다. 웹 브라우징과는 다른 음성 제어 인터프레테이션의 다른 예가 컴퓨터-기준 하우스홀드 제어용 명령이다. 그 결과 Show me the sprinkler schedule 이라는 음성 명령이 적절히 표시되게 된다.
호스트 시스템(11)이 적절한 액션을 취한 다음, 무선 수신기(10h)가 호스트 시스템(11)으로 부터 데이타를 표시기(10a)상에 표시하거나 또는 스피커(10d)에 의해 출력할 목적으로 데이타를 수신한다. 그리하여, 호스트 시스템(11)으로 부터 수신된 데이타는 도식적(본문, 그래픽, 화상, 및 영상을 포함)이거나 또는 오디오적일 수 있다.
도 2는 본 발명의 다른 실시예를 도시하는 것으로, 무선의 음성으로 기동된 제어 유닛(20)이 음성 인식뿐 아니라 음성 제어 인터프레테이션을 수행한다. 음성 제어 인터프리테이션은 웹과 같은 하이퍼미디어 리소스를 주사 검색하는데 효과가 있다. 호스트 시스템(21)은 하이퍼미디어 리소스에 연결된다.
제어 유닛(20)은 제어 유닛(10)의 것들과 유사한 구성 요소들을 갖는다. 그러나, 프로세서(20e)는 메모리(20f)에 저장된 특별한 프로그래밍을 실행한다. 상세히는, 음성 제어 인터프리테이션 프로세스들은 스피커블 명령 프로세스, 스피커블 핫 리스트 프로세스, 또는 스피커블 링크 프로세스를 포함한다. 이들 프로세스들 및 그에 관련된 문법 파일들은 제어 유닛(20)에 상주한다.
스피커블 명령 프로세스는 표시기(20a)상에 명령 인터페이스를 표시하고 다양한 웹 브라우징 명령을 수용한다. 프로세스는 사용자에 의해 말해질 수 있는 워드와 어구(phrase)에 대한 관련 문법 파일을 가진다.
도 3은 음성 제어 인터프리테이션 프로세스에 의해 제공된 표시기(30)의 예를 도시한다. 말할 수 있는 일 명령으로 help 명령이 있으며, 이는 버튼(31)을 누름으로써 기동된다. 이에 반응하여, help page를 표시하는 명령 프로세스는 음성 제어된 브라우징을 사용하는 방법을 기술한다.
다른 말할 수 있는 명령으로 Show me my speakable command list 가 있다. 이 명령은 각각이 스피커블 명령을 나타내는 한 셋트의 문법을 리스팅하는 페이지를 표시한다. pagedown_command , back_command, 및 help_command 들이 그 예들이다. 명령 프로세스가 이들 명령들중 하나의 트랜슬레이션을 수신할때 적절한 액션을 취하게 된다.
또한 도 3은 웹 브라우징용으로 특히 유용한 음성 인식기의 특성을 설명한다. 사용자가 What is the value of XYZ stock? 이라는 말을 하면, 일단 음성 인식기가 발음을 식별하여, 시간과 메모리 사용에 대한 스코어(score) 및 다양한 특성들을 결정한다. 아래에 설명되는 바와 같이, 스톡값(stock value)에 대한 요구는 핫리스트 아이템(hotlist item)일수 있으며, 사용자로 하여금 정보가 위치한 웹 사이트를 확인하지 않고 상기 요구를 단순히 말로 표현하기만을 허가한 것이다.
다른 스피커블 명령으로 Show me my speakable hotlist가 있는데 버튼(33)에 의해 동작된다. hotlist는 자주 사용되는 것들과 같은 선택된 균일 리소스 위치자(Uniform Resource Locators(URLs))의 저장된 리스트이다. 또한, 핫 리스트들은 서표(bookmarks)로서 알려져 있다. URLs는 잘 알려진 특성의 웹으로, 인터넷상의 어떤 리소스의 명명을 간단하고 시종일관한 방식으로 제공한다. 전형적인 URL은 다음의 형태를 가진다:
http://ww.ncsa. uiic. edu/General/NCSAHome. html
URL의 다양한 부분들은 전송 프로토콜, 컴퓨터 어드레스, 및 그 어드레스에서의 디렉토리 경로를 식별한다. 또한 URLs는 links 및 anchors 로 알려져 있다.
스피커블 핫리스트 프로세스는 사용자로 하여금 각 핫리스트 아이템당 문법을 구성하고 URL과 문법을 결합시킨다. 문법을 생성하기 위해, 사용자는 BNF 구문을 사용하여 ASCII 문법 파일을 편집하고 문법을 인쇄할 수 있다. 예를 들어, 날씨 정보를 검색하기 위한 문법은 How does the weather look today? 및 Give me the weather와 같은 어구를 정의할 수 있었다. 그런다음 사용자는 상기 문법에 적당한 URL을 결합시킨다.
핫리스트 문법 파일은 음성으로 변경될 수 있다. 예를 들어, 현재 페이지는 핫리스트 아이템으로써 부가될 수 있다. Add this page to my hotlist 라는 어구를 말할 때, 페이지의 제목을 문법에 부가하고 현재의 URL에 문법을 결합시킨다. Edit my speakable hotlist 라는 어구를 말할때, 음성에 의해 페이지를 검색시키도록 야기하는 특별한 구들을 부가함으로써 사용자로 하여금 문법을 편집할 수 있게 한다.
음성 인식기가 핫리스트 문법 파일로 부터 핫리스트 트랜슬레이션을 인식하여 상기 트랜슬레이션을 핫리스트 프로세스에 전달할때 스피커블 핫리스트 프로그램이 기동된다. 핫리스트 프로세스는 관련 URL을 조사한다. 웹 페이지가 복구되어 표시기(10a)상에 표시하기 위해 음성 제어 유닛(10)으로 전송될 수 있도록, URL을 호스트 컴퓨터(11)상에 상주하는 브라우저에 전달(무선통신을 통하여)한다.
스피커블 명령과 스피커블 힛리스트들에 대한 문법 파일들이 항상 기동한다. 이는 사용자로 하여금 어떤 문맥에서도 명령 또는 핫리스트 링크를 말할 수 있도록허가한다. 또한 스피커블 링크 프로세스는 음성 제어 유닛(20)의 메모리(20e)에 상주할 수 있다. 웹 페이지에 선택된 정보는 다른 웹 페이지에 액세스하기 위한 링크를 제공할 수 있다. 링크들은 밑줄을 긋거나, 하이라이트하거나, 다르게 색칠하거나 그림의 경우에서와 같이 아웃라인되거나, 다르게 표시하는 방식으로 나타난다.
링크를 선택하기 위해 마우스 또는 다른 지시 장치를 사용하는 대신, 음성 제어 유닛(10)의 사용자가 표시기(10a)상에 표시할 페이지로 부터 링크를 말할 수 있다.
도 4는 웹 페이지(40)와 그의 링크들의 부분을 설명한다. 예를 들어, 제2 헤드라인(41)은 링크이다.
스피커블 링크들에 대한 문법은 변수뿐 아니라 전체 어구를 포함한다. 전체 어구를 말하는데 부가하여 화자는 Diana in N period Y period(문자 그대로의 변형), Diana in NY, 또는 Diana in New York을 말할 수 있다.
링크를 스피커블하게 만드는 것은 일단 그의 웹 페이지로 부터 링크/URL쌍을 구하는 것을 요구한다. HTML(hypertext markup language) 포맷의 웹 페이지는 소정의 길이를 가질 수 있기 때문에, 인식기가 탐색할 수 있는 지원자 링크/URL 쌍의 수는 표시기(20a)의 현재 스크린상에 도시될 수 있는 것들로 제한될 수 있다. Scroll down과 같은 명령은 지원자 링크/URL쌍을 갱신한다. 일단, 스크린용 링크/URL 쌍이 구해지면, 현재 스크린상의 모든 링크들에 대한 문법이 생성된다. 다음, 링크들에서의 토큰을 식별하여 토큰당 문법들을 생성한다. 이들 문법들을 인식기의 문법 파일에 부가한다. 링크 포맷들이 광범위하게 변할 수 있기 때문에 정확한 표시(tokenization)를 요구한다. 링크들은 수, 두문자어(acronyms), 발명된 워드, 및 새로운 구두점의 사용을 포함할 수 있다.
스피커블 링크들을 설명하기 위한 것으로, 링크들의 길이, 동일 페이지에서의 링크들의 모호성, 및 비트-맵 링크를 포함하는 그래픽 등이 있다. 긴 링크들인 경우, 스피커블 링크 프로세스는 사용자로 하여금 N 워드후 어느때라도 링크에서 워드를 말하는 것을 중지시킬 수 있게 한다. 모호성의 경우, 제1 URL에 디폴트이거나 또는 사용자에게 URLs을 선택할 수 있는 기회를 제공할 수 있다. 비트-맵 링크의 경우, 프로세스는 링크 정보를 찾기 위해〈ALT〉 태그를 사용한다.
스피커블 링크들에 대한 문법들은 동적으로 생성되어 현재 표시되는 문법만이 기동하고 현재 표시가 새로이 발생할때 갱신된다. 또한 동적 문법 생성은 요구된 메모리(10f)의 양을 줄인다.
도 5는 문법 파일을 동적으로 생성하는 적합한 프로세스를 도시한다. 이는 도 1 및 도 2의 동적 문법 발생기에 의해 실행되는 프로세스이다. 상술한 바와 같이, 동적 문법 파일들은 현재 웹 페이지로 부터 생성되어 스피커블 링크들을 인식할 수 있다. 미국 특허 출원 번호 08/419, 226를 참조로 음성 제어 호스트 시스템(11) 즉, 분리된 원격 제어 장치(10)가 배제된 음성 제어에 적용함으로써 이 방법을 좀더 구체적으로 설명한다.
도 4의 표시기(40)와 같은 표시는 문법 제약(52)들에 영향을 미친다. 문법 제약(52)는 어휘(vocabulary)(54)와 사용자 에지전트(64)내로 입력된다. 차례로, 어휘(54)는 온 라인 사전(56)에 공급되어 발음 모듈(58)내로 입력된다. 화자 독립 연속 스피치 음성학 모델 모듈(Speaker Independent Continuous Speech Phonetic Models modules)(60) 뿐 아니라 발음 모듈(58)이 사용자 에이전트(64)내로 입력된다. 더욱이, 스피치 모듈(66)은 사용자의 음성을 사용자 에지전트(64)내로 입력한다. 동시에, 문맥 모듈(68)은 스크린(40)으로 부터 입력을 가지고 사용자 에이전트(64)내로 입력한다.
현존하는 RGDAG(Regular Grammar Directed Acyclic Graph)는 새 구문과 어휘를 동적으로 수용할 수 있다. 스크린(40)이 변할때 마다, 사용자 에이전트(64)는 현재 보일 수 있는 밑줄 그은 구(링크)를 포함하는 문법을 생성한다. 이 문법으로 부터, 어구들을 사용자 에이전트(64)는 예를 들어, 임의 문자 철자법과 삭제된/임의 구두점을 포함할 수 있는 어구 문법으로 표시할 수 있다. 상기 표시들로 부터, 사용자 에이전트(64)는 온라인 사전과 텍스트-투-음소(text-to-phoneme) 매핑의 결합을 사용한다. 그런 다음 음성 인식 프로세스는 문법들을 부가하여 생성된다. 이는 word를 표시하는 심볼을 식별하여 출력하는 것을 포함하는 수개의 간단한 음성 인식기용 북 키핑 동작을 의미한다. 결국, 새로운/변경된 문법들을 조합하기 위해 범용적인 변화를 실행시킨다. 이를 위해, 문법들이 RGDAG 관계에 연결된다. 더욱이, 각 심볼에 대한 최대 깊이를 계산한다. 또한 음성 인식기가 출력과 함께 앤세스터 심볼을 조사함으로써 파스(parse) 정보를 요구하는지 어떤지를 결정한다. 그러면 효율적인 구문 해석용 문법의 구조를 식별한다.
비록 본 발명이 특정의 실시예를 참조하여 기술되었다 하더라도, 이 기술은 제한된 의미로 추론되어선 안된다. 본 분야에 숙련된 자들에게는 공개된 실시예 뿐아니라 대안적인 실시예들의 다양한 변경이 가능하다. 그러므로, 첨부된 청구항이 본 발명의 범주내에 모든 변경을 포함할 것이다.
상술한 바와 같이 사용자로 하여금 음성 명령들로 월드 와이드 웹과 같은 하이퍼미디어 네트워크를 주사 검색할 수 있도록 하는 본 발명의 무선 음성 제어 장치는 웹 인터페이스에 유연성과 파워를 부가하여 스피치 제어함으로써 좀더 자연스럽게 정보를 액세스하게 한다.
Claims (17)
- 프로세서 기준 호스트 시스템을 제어하기 위한 무선 음성 기동 제어 유닛(Wireless Voice-activated Control Unit)에 있어서,사용자로 부터 음성 입력을 수신할 수 있도록 동작함으로써 오디오 입력 신호를 제공하는 마이크로폰,상기 오디오 입력 신호로 부터 파생된 데이타를 상기 호스트 시스템으로 무선 전송할 수 있도록 동작하는 오디오 전송기,상기 호스트 시스템으로 부터 화상 데이타를 무선 수신할 수 있도록 동작하는 데이타 수신기, 및상기 화상 데이타에 의해 표시된 화상들을 발생 및 표시할 수 있도록 동작하는 표시기를 포함하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
- 제1항에 있어서,상기 마이크로폰은 상기 표시기와는 별도로 온 또는 오프 상태로 스위치 가능한 것을 특징으로 하는 무선 음성 기동 제어 유닛.
- 제1항에 있어서,상기 마이크로폰은 멀티 소자 마이크로폰 어레이인 것을 특징으로 하는 무선 음성 기동 제어 유닛.
- 제1항에 있어서,음성 인식 프로세스를 수행할 수 있도록 동작하는 프로세서와, 상기 음성 인식 프로세스와 문법 파일들을 저장하는 메모리를 더 포함하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
- 제4항에 있어서,상기 음성 인식 프로세스는 선형 예측 코딩 해석(Linear predictive coding analysis)을 포함하고, 상기 전송기는 상기 해석의 결과를 전송할 수 있도록 동작하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
- 제4항에 있어서,상기 음성 인식 프로세스는 스피치 엔드 포인팅(speech end pointing) 해석을 포함하고, 상기 전송기는 상기 해석의 결과를 전송할 수 있도록 동작하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
- 제4항에 있어서,상기 문법 파일들은 동적으로 생성되고, 또한 상기 프로세서는 동적 문법 생성 프로세스를 실행할 수 있도록 동작하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
- 하이퍼미디어 리소스(Hypermedia resource)와의 데이타 통신에서 호스트 시스템을 음성 제어하기 위한 무선 음성 기동 제어 유닛에 있어서,사용자로 부터 음성 입력을 수신할 수 있도록 동작함으로써 오디오 입력 신호를 발생하는 마이크로폰,상기 오디오 입력 신호로 부터 파생된 데이타를 상기 호스트 시스템으로 무선 전송할 수 있도록 동작하는 오디오 전송기,상기 호스트 시스템으로 부터 화상 데이타를 무선으로 수신할 수 있도록 동작하는 데이타 수신기, 및상기 호스트 시스템에 의해 상기 하이퍼미디어 리소스로 부터 검색되고 상기 화상 데이타에 의해 표시된 화상들을 발생 및 표시할 수 있도록 동작하는 표시기를 포함하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
- 제8항에 있어서,음성 인식 프로세스를 수행할 수 있도록 동작하는 프로세서와, 상기 음성 인식 프로세스와 문법 파일을 저장하는 메모리를 더 포함하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
- 제9항에 있어서,상기 음성 인식 프로세스는 선형 예측 코딩 해석(linear predictive coding analysis)을 포함하고, 상기 전송기는 상기 해석의 결과를 전송할 수 있도록 동작하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
- 제9항에 있어서,상기 음성 인식 프로세스는 스피치 엔드 포인팅(speech end pointing) 해석을 포함하고, 상기 전송기는 상기 해석의 결과들을 전송할 수 있도록 동작하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
- 제9항에 있어서,상기 문법 파일들은 동적으로 생성되고, 상기 프로세서는 또한 동적 문법 발생 프로세스를 실행할 수 있도록 동작하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
- 제8항에 있어서,음성 제어 프로세스를 수행할 수 있도록 동작하는 프로세서와, 상기 음성 제어 프로세스를 저장하는 메모리를 더 포함하는 무선 음성 기동 제어 유닛.
- 제13항에 있어서,상기 음성 제어 프로세스는 상기 사용자가 상기 호스트 시스템의 동작을 음성으로 지시할 수 있는 스피커블 명령 프로세스를 포함하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
- 제13항에 있어서,상기 음성 제어 프로세스는 상기 사용자가 상기 호스트 시스템에 의해 검색되는 상기 리소스들중 특정의 하나를 음성으로 요구할 수 있는 스피커블 핫리스트 프로세스를 포함하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
- 제13항에 있어서,상기 음성 제어 프로세스들은 상기 사용자가 상기 표시기상에 표시되는 현재 페이지상의 링크를 상기 호스트 시스템에 의해 검색하도록 음성으로 요구할 수 있는 스피커블 링크 프로세스를 포함하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
- 제8항에 있어서,음성 인식 프로세스를 수행하고 동적 문법 생성 프로세스를 수행할 수 있도록 동작하는 프로세서와, 상기 프로세스를 저장하는 메모리를 더 포함하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US3468597P | 1997-01-06 | 1997-01-06 | |
US60/034,685 | 1997-01-06 | ||
US08/943,795 US6188985B1 (en) | 1997-01-06 | 1997-10-03 | Wireless voice-activated device for control of a processor-based host system |
US8/943,795 | 1997-10-03 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR19980070352A true KR19980070352A (ko) | 1998-10-26 |
Family
ID=26711249
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1019980000108A KR19980070352A (ko) | 1997-01-06 | 1998-01-06 | 프로세서 기준의 호스트 시스템을 제어하기 위한무선 음성 기동 장치 |
Country Status (6)
Country | Link |
---|---|
US (1) | US6188985B1 (ko) |
EP (1) | EP0854417A3 (ko) |
JP (1) | JPH10275162A (ko) |
KR (1) | KR19980070352A (ko) |
SG (1) | SG72780A1 (ko) |
TW (1) | TW497044B (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101221172B1 (ko) * | 2005-02-03 | 2013-01-11 | 뉘앙스 커뮤니케이션즈, 인코포레이티드 | 이동 통신 장치의 음성 어휘를 자동으로 확장하는 방법 및장치 |
Families Citing this family (141)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6965864B1 (en) * | 1995-04-10 | 2005-11-15 | Texas Instruments Incorporated | Voice activated hypermedia systems using grammatical metadata |
KR20010022493A (ko) * | 1998-06-03 | 2001-03-15 | 이데이 노부유끼 | 정보처리장치 및 정보처리방법 |
US7937260B1 (en) * | 1998-06-15 | 2011-05-03 | At&T Intellectual Property Ii, L.P. | Concise dynamic grammars using N-best selection |
US6499013B1 (en) * | 1998-09-09 | 2002-12-24 | One Voice Technologies, Inc. | Interactive user interface using speech recognition and natural language processing |
JP4067276B2 (ja) * | 1998-09-22 | 2008-03-26 | ノキア コーポレイション | スピーチ認識システムを構成する方法及びシステム |
CA2395040A1 (en) * | 1998-09-30 | 2000-04-06 | Lernout & Hauspie Speech Products N.V. | Graphic user interface for navigation in speech recognition system grammars |
US7003463B1 (en) | 1998-10-02 | 2006-02-21 | International Business Machines Corporation | System and method for providing network coordinated conversational services |
US6587822B2 (en) * | 1998-10-06 | 2003-07-01 | Lucent Technologies Inc. | Web-based platform for interactive voice response (IVR) |
AU2600900A (en) * | 1999-01-07 | 2000-07-24 | Inviso | Transcription method using virtual image display |
WO2000041025A1 (en) * | 1999-01-07 | 2000-07-13 | Inviso | Transcription device with virtual image display |
US6606280B1 (en) * | 1999-02-22 | 2003-08-12 | Hewlett-Packard Development Company | Voice-operated remote control |
US6349283B1 (en) * | 1999-03-05 | 2002-02-19 | Glenn Sanders | Remote control and processing of wireless digital receiver |
AU3165000A (en) * | 1999-03-26 | 2000-10-16 | Koninklijke Philips Electronics N.V. | Client-server speech recognition |
EP1088299A2 (en) * | 1999-03-26 | 2001-04-04 | Scansoft, Inc. | Client-server speech recognition |
US7283964B1 (en) | 1999-05-21 | 2007-10-16 | Winbond Electronics Corporation | Method and apparatus for voice controlled devices with improved phrase storage, use, conversion, transfer, and recognition |
US6584439B1 (en) | 1999-05-21 | 2003-06-24 | Winbond Electronics Corporation | Method and apparatus for controlling voice controlled devices |
US6543052B1 (en) * | 1999-07-09 | 2003-04-01 | Fujitsu Limited | Internet shopping system utilizing set top box and voice recognition |
DE19938535A1 (de) * | 1999-08-13 | 2001-02-15 | Christoph Bueltemann | Vorrichtung zur Umwandlung von Sprachkommandos und/oder Sprachtexte in Tastatur- und/oder Mausbewegungen und/oder Texte |
DE19943875A1 (de) * | 1999-09-14 | 2001-03-15 | Thomson Brandt Gmbh | System zur Sprachsteuerung mit einem Mikrofonarray |
US7174293B2 (en) * | 1999-09-21 | 2007-02-06 | Iceberg Industries Llc | Audio identification system and method |
US7194752B1 (en) | 1999-10-19 | 2007-03-20 | Iceberg Industries, Llc | Method and apparatus for automatically recognizing input audio and/or video streams |
US6526381B1 (en) * | 1999-09-30 | 2003-02-25 | Intel Corporation | Remote control with speech recognition |
US7330815B1 (en) | 1999-10-04 | 2008-02-12 | Globalenglish Corporation | Method and system for network-based speech recognition |
US7219123B1 (en) * | 1999-10-08 | 2007-05-15 | At Road, Inc. | Portable browser device with adaptive personalization capability |
CA2387079C (en) * | 1999-10-19 | 2011-10-18 | Sony Electronics Inc. | Natural language interface control system |
WO2001035390A1 (en) * | 1999-11-09 | 2001-05-17 | Koninklijke Philips Electronics N.V. | Speech recognition method for activating a hyperlink of an internet page |
US9076448B2 (en) * | 1999-11-12 | 2015-07-07 | Nuance Communications, Inc. | Distributed real time speech recognition system |
US20030182113A1 (en) * | 1999-11-22 | 2003-09-25 | Xuedong Huang | Distributed speech recognition for mobile communication devices |
US6978475B1 (en) | 1999-11-24 | 2005-12-20 | Ecable, Llc | Method and apparatus for internet TV |
US6424945B1 (en) * | 1999-12-15 | 2002-07-23 | Nokia Corporation | Voice packet data network browsing for mobile terminals system and method using a dual-mode wireless connection |
US6397186B1 (en) * | 1999-12-22 | 2002-05-28 | Ambush Interactive, Inc. | Hands-free, voice-operated remote control transmitter |
US8578439B1 (en) * | 2000-01-28 | 2013-11-05 | Koninklijke Philips N.V. | Method and apparatus for presentation of intelligent, adaptive alarms, icons and other information |
AU2001236861A1 (en) * | 2000-02-10 | 2001-08-20 | Randolphrand.Com Llp | Recorder adapted to interface with internet browser |
US20020055844A1 (en) * | 2000-02-25 | 2002-05-09 | L'esperance Lauren | Speech user interface for portable personal devices |
GB2362017A (en) * | 2000-03-29 | 2001-11-07 | John Pepin | Network access |
US6662163B1 (en) * | 2000-03-30 | 2003-12-09 | Voxware, Inc. | System and method for programming portable devices from a remote computer system |
US7096185B2 (en) * | 2000-03-31 | 2006-08-22 | United Video Properties, Inc. | User speech interfaces for interactive media guidance applications |
KR20010025230A (ko) * | 2000-11-09 | 2001-04-06 | 차정만 | 음성도메인에 의한 인터넷접속 매개장치와 매개방법 및음성도메인의 데이터 베이스 생성방법 |
FR2810125B1 (fr) * | 2000-06-08 | 2004-04-30 | Interactive Speech Technologie | Systeme de commande vocale d'une page stockee sur un serveur et telechargeable en vue de sa visualisation sur un dispositif client |
GB2365262B (en) | 2000-07-21 | 2004-09-15 | Ericsson Telefon Ab L M | Communication systems |
JP2002041277A (ja) * | 2000-07-28 | 2002-02-08 | Sharp Corp | 情報処理装置およびWebブラウザ制御プログラムを記録した記録媒体 |
US8200485B1 (en) | 2000-08-29 | 2012-06-12 | A9.Com, Inc. | Voice interface and methods for improving recognition accuracy of voice search queries |
US6529233B1 (en) | 2000-09-29 | 2003-03-04 | Digeo, Inc. | Systems and methods for remote video and audio capture and communication |
US6944880B1 (en) | 2000-09-29 | 2005-09-13 | Digeo, Inc. | Methods for audio capture and communication during television broadcasts |
US6397388B1 (en) * | 2000-09-29 | 2002-05-28 | Digeo, Inc. | Systems and devices for audio capture and communication during television broadcasts |
US20020054206A1 (en) * | 2000-11-06 | 2002-05-09 | Allen Paul G. | Systems and devices for audio and video capture and communication during television broadcasts |
WO2002039425A1 (fr) * | 2000-11-10 | 2002-05-16 | Cai Co., Ltd. | Systeme et procede de conversation en mode vocal faisant appel a un telephone portable, et centre en mode vocal |
US6629077B1 (en) * | 2000-11-22 | 2003-09-30 | Universal Electronics Inc. | Universal remote control adapted to receive voice input |
ATE391986T1 (de) * | 2000-11-23 | 2008-04-15 | Ibm | Sprachnavigation in webanwendungen |
US6973429B2 (en) * | 2000-12-04 | 2005-12-06 | A9.Com, Inc. | Grammar generation for voice-based searches |
JP4240807B2 (ja) | 2000-12-25 | 2009-03-18 | 日本電気株式会社 | 移動通信端末装置、音声認識方法、およびそのプログラムを記録した記録媒体 |
US20050039214A1 (en) * | 2001-02-21 | 2005-02-17 | Lorenz Kim E. | System and method for providing direct, context-sensitive customer support in an interactive television system |
US20040244056A1 (en) * | 2001-02-21 | 2004-12-02 | Lorenz Kim E. | System and method for providing direct, context-sensitive customer support in an interactive television system |
US6658414B2 (en) * | 2001-03-06 | 2003-12-02 | Topic Radio, Inc. | Methods, systems, and computer program products for generating and providing access to end-user-definable voice portals |
US20060265397A1 (en) * | 2001-03-06 | 2006-11-23 | Knowledge Vector, Inc. | Methods, systems, and computer program products for extensible, profile-and context-based information correlation, routing and distribution |
US20020138269A1 (en) * | 2001-03-20 | 2002-09-26 | Philley Charles F. | Voice recognition maintenance inspection program |
US7039590B2 (en) * | 2001-03-30 | 2006-05-02 | Sun Microsystems, Inc. | General remote using spoken commands |
US20020188447A1 (en) * | 2001-04-10 | 2002-12-12 | Coon Bradley S. | Generation of grammars from dynamic data structures |
US8108509B2 (en) * | 2001-04-30 | 2012-01-31 | Sony Computer Entertainment America Llc | Altering network transmitted content data based upon user specified characteristics |
US7610547B2 (en) * | 2001-05-04 | 2009-10-27 | Microsoft Corporation | Markup language extensions for web enabled recognition |
US7506022B2 (en) * | 2001-05-04 | 2009-03-17 | Microsoft.Corporation | Web enabled recognition architecture |
US7409349B2 (en) | 2001-05-04 | 2008-08-05 | Microsoft Corporation | Servers for web enabled speech recognition |
US7366712B2 (en) * | 2001-05-31 | 2008-04-29 | Intel Corporation | Information retrieval center gateway |
US7366673B2 (en) * | 2001-06-15 | 2008-04-29 | International Business Machines Corporation | Selective enablement of speech recognition grammars |
US20030046710A1 (en) * | 2001-09-05 | 2003-03-06 | Moore John F. | Multi-media communication system for the disabled and others |
US8229753B2 (en) * | 2001-10-21 | 2012-07-24 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting |
US7711570B2 (en) * | 2001-10-21 | 2010-05-04 | Microsoft Corporation | Application abstraction with dialog purpose |
US20030078775A1 (en) * | 2001-10-22 | 2003-04-24 | Scott Plude | System for wireless delivery of content and applications |
US7013275B2 (en) * | 2001-12-28 | 2006-03-14 | Sri International | Method and apparatus for providing a dynamic speech-driven control and remote service access system |
US7203644B2 (en) * | 2001-12-31 | 2007-04-10 | Intel Corporation | Automating tuning of speech recognition systems |
US20030139929A1 (en) * | 2002-01-24 | 2003-07-24 | Liang He | Data transmission system and method for DSR application over GPRS |
US7062444B2 (en) * | 2002-01-24 | 2006-06-13 | Intel Corporation | Architecture for DSR client and server development platform |
US20030144846A1 (en) * | 2002-01-31 | 2003-07-31 | Denenberg Lawrence A. | Method and system for modifying the behavior of an application based upon the application's grammar |
US7873900B2 (en) * | 2002-03-22 | 2011-01-18 | Inet Spch Property Hldg., Limited Liability Company | Ordering internet voice content according to content density and semantic matching |
US7712020B2 (en) * | 2002-03-22 | 2010-05-04 | Khan Emdadur R | Transmitting secondary portions of a webpage as a voice response signal in response to a lack of response by a user |
US7016849B2 (en) * | 2002-03-25 | 2006-03-21 | Sri International | Method and apparatus for providing speech-driven routing between spoken language applications |
US6910911B2 (en) | 2002-06-27 | 2005-06-28 | Vocollect, Inc. | Break-away electrical connector |
US7421389B2 (en) * | 2002-11-13 | 2008-09-02 | At&T Knowledge Ventures, L.P. | System and method for remote speech recognition |
AU2002359142A1 (en) * | 2002-12-12 | 2004-06-30 | Abb Research Ltd | A control system controlling a plurality of real world objects, and a method for hanling messages from a mobile user connected to the control system |
US9369775B2 (en) * | 2003-01-31 | 2016-06-14 | At&T Intellectual Property I, L.P. | Methods and systems for delivering signals from cable networks to telecommunications networks |
US7729913B1 (en) | 2003-03-18 | 2010-06-01 | A9.Com, Inc. | Generation and selection of voice recognition grammars for conducting database searches |
JP2004302300A (ja) * | 2003-03-31 | 2004-10-28 | Canon Inc | 情報処理方法 |
EP1611504B1 (en) * | 2003-04-07 | 2009-01-14 | Nokia Corporation | Method and device for providing speech-enabled input in an electronic device having a user interface |
US7275032B2 (en) * | 2003-04-25 | 2007-09-25 | Bvoice Corporation | Telephone call handling center where operators utilize synthesized voices generated or modified to exhibit or omit prescribed speech characteristics |
US7260535B2 (en) * | 2003-04-28 | 2007-08-21 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting for call controls |
US20040230637A1 (en) * | 2003-04-29 | 2004-11-18 | Microsoft Corporation | Application controls for speech enabled recognition |
US20050027539A1 (en) * | 2003-07-30 | 2005-02-03 | Weber Dean C. | Media center controller system and method |
US8311835B2 (en) * | 2003-08-29 | 2012-11-13 | Microsoft Corporation | Assisted multi-modal dialogue |
US7552055B2 (en) | 2004-01-10 | 2009-06-23 | Microsoft Corporation | Dialog component re-use in recognition systems |
US8160883B2 (en) * | 2004-01-10 | 2012-04-17 | Microsoft Corporation | Focus tracking in dialogs |
US7739117B2 (en) * | 2004-09-20 | 2010-06-15 | International Business Machines Corporation | Method and system for voice-enabled autofill |
TWI287787B (en) * | 2004-12-14 | 2007-10-01 | Delta Electronics Inc | A remote control device and method with speech control |
US8873768B2 (en) * | 2004-12-23 | 2014-10-28 | Motorola Mobility Llc | Method and apparatus for audio signal enhancement |
US20060227946A1 (en) * | 2005-03-31 | 2006-10-12 | Xerox Corporation | Voice activated printer |
US7548859B2 (en) * | 2005-08-03 | 2009-06-16 | Motorola, Inc. | Method and system for assisting users in interacting with multi-modal dialog systems |
US9152982B2 (en) | 2005-08-19 | 2015-10-06 | Nuance Communications, Inc. | Method of compensating a provider for advertisements displayed on a mobile phone |
US8073700B2 (en) | 2005-09-12 | 2011-12-06 | Nuance Communications, Inc. | Retrieval and presentation of network service results for mobile device using a multimodal browser |
US7672852B2 (en) * | 2005-09-29 | 2010-03-02 | Microsoft Corporation | Localization of prompts |
US7477909B2 (en) * | 2005-10-31 | 2009-01-13 | Nuance Communications, Inc. | System and method for conducting a search using a wireless mobile device |
US20070266162A1 (en) * | 2005-12-07 | 2007-11-15 | Microsoft Corporation | Session initiation protocol redirection for process recycling |
US20070136752A1 (en) * | 2005-12-12 | 2007-06-14 | John Sanders | Personalized electronic programming guide |
US8417185B2 (en) | 2005-12-16 | 2013-04-09 | Vocollect, Inc. | Wireless headset and method for robust voice data communication |
US20070156682A1 (en) * | 2005-12-28 | 2007-07-05 | Microsoft Corporation | Personalized user specific files for object recognition |
US7693267B2 (en) * | 2005-12-30 | 2010-04-06 | Microsoft Corporation | Personalized user specific grammars |
US7773767B2 (en) | 2006-02-06 | 2010-08-10 | Vocollect, Inc. | Headset terminal with rear stability strap |
US7885419B2 (en) | 2006-02-06 | 2011-02-08 | Vocollect, Inc. | Headset terminal with speech functionality |
US20080086311A1 (en) * | 2006-04-11 | 2008-04-10 | Conwell William Y | Speech Recognition, and Related Systems |
US8843376B2 (en) | 2007-03-13 | 2014-09-23 | Nuance Communications, Inc. | Speech-enabled web content searching using a multimodal browser |
EP2211689A4 (en) * | 2007-10-08 | 2013-04-17 | Univ California Ucla Office Of Intellectual Property | VOICE CONTROLLED DASHBOARD WITH CLINICAL INFORMATION |
USD626949S1 (en) | 2008-02-20 | 2010-11-09 | Vocollect Healthcare Systems, Inc. | Body-worn mobile device |
USD605629S1 (en) | 2008-09-29 | 2009-12-08 | Vocollect, Inc. | Headset |
US9497322B2 (en) * | 2008-10-16 | 2016-11-15 | Troy Barnes | Remote control of a web browser |
US8386261B2 (en) | 2008-11-14 | 2013-02-26 | Vocollect Healthcare Systems, Inc. | Training/coaching system for a voice-enabled work environment |
US9390167B2 (en) | 2010-07-29 | 2016-07-12 | Soundhound, Inc. | System and methods for continuous audio matching |
US8160287B2 (en) | 2009-05-22 | 2012-04-17 | Vocollect, Inc. | Headset with adjustable headband |
TWI399935B (zh) * | 2009-08-18 | 2013-06-21 | Chia Yi Hsu | Portable digital radio group navigation system |
US8438659B2 (en) | 2009-11-05 | 2013-05-07 | Vocollect, Inc. | Portable computing device and headset interface |
US9183560B2 (en) | 2010-05-28 | 2015-11-10 | Daniel H. Abelow | Reality alternate |
US8659397B2 (en) | 2010-07-22 | 2014-02-25 | Vocollect, Inc. | Method and system for correctly identifying specific RFID tags |
US9047371B2 (en) | 2010-07-29 | 2015-06-02 | Soundhound, Inc. | System and method for matching a query against a broadcast stream |
USD643400S1 (en) | 2010-08-19 | 2011-08-16 | Vocollect Healthcare Systems, Inc. | Body-worn mobile device |
USD643013S1 (en) | 2010-08-20 | 2011-08-09 | Vocollect Healthcare Systems, Inc. | Body-worn mobile device |
JP5771002B2 (ja) * | 2010-12-22 | 2015-08-26 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識装置を搭載したテレビ受像機 |
US8898065B2 (en) | 2011-01-07 | 2014-11-25 | Nuance Communications, Inc. | Configurable speech recognition system using multiple recognizers |
US9035163B1 (en) | 2011-05-10 | 2015-05-19 | Soundbound, Inc. | System and method for targeting content based on identified audio and multimedia |
US8954334B2 (en) * | 2011-10-15 | 2015-02-10 | Zanavox | Voice-activated pulser |
US9244924B2 (en) * | 2012-04-23 | 2016-01-26 | Sri International | Classification, search, and retrieval of complex video events |
KR101309794B1 (ko) * | 2012-06-27 | 2013-09-23 | 삼성전자주식회사 | 디스플레이 장치, 디스플레이 장치의 제어 방법 및 대화형 시스템 |
US10957310B1 (en) | 2012-07-23 | 2021-03-23 | Soundhound, Inc. | Integrated programming framework for speech and text understanding with meaning parsing |
WO2014039828A2 (en) * | 2012-09-06 | 2014-03-13 | Simmons Aaron M | A method and system for reading fluency training |
KR101330671B1 (ko) * | 2012-09-28 | 2013-11-15 | 삼성전자주식회사 | 전자장치, 서버 및 그 제어방법 |
WO2014055076A1 (en) | 2012-10-04 | 2014-04-10 | Nuance Communications, Inc. | Improved hybrid controller for asr |
KR20140060040A (ko) | 2012-11-09 | 2014-05-19 | 삼성전자주식회사 | 디스플레이장치, 음성취득장치 및 그 음성인식방법 |
US9507849B2 (en) | 2013-11-28 | 2016-11-29 | Soundhound, Inc. | Method for combining a query and a communication command in a natural language computer system |
US9292488B2 (en) | 2014-02-01 | 2016-03-22 | Soundhound, Inc. | Method for embedding voice mail in a spoken utterance using a natural language processing computer system |
US11295730B1 (en) | 2014-02-27 | 2022-04-05 | Soundhound, Inc. | Using phonetic variants in a local context to improve natural language understanding |
US9564123B1 (en) | 2014-05-12 | 2017-02-07 | Soundhound, Inc. | Method and system for building an integrated user profile |
US10971157B2 (en) | 2017-01-11 | 2021-04-06 | Nuance Communications, Inc. | Methods and apparatus for hybrid speech recognition processing |
JP7057647B2 (ja) * | 2017-11-17 | 2022-04-20 | キヤノン株式会社 | 音声制御システム、制御方法及びプログラム |
US11627012B2 (en) | 2018-10-09 | 2023-04-11 | NewTekSol, LLC | Home automation management system |
US11594218B2 (en) * | 2020-09-18 | 2023-02-28 | Servicenow, Inc. | Enabling speech interactions on web-based user interfaces |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5247580A (en) * | 1989-12-29 | 1993-09-21 | Pioneer Electronic Corporation | Voice-operated remote control system |
KR940019171A (ko) * | 1993-01-04 | 1994-08-19 | 최광주 | 음성인식 원격제어장치 |
JPH06274194A (ja) * | 1993-03-22 | 1994-09-30 | Hitachi Ltd | 携帯型音声入力モニタ・制御装置 |
JPH08186654A (ja) * | 1994-12-22 | 1996-07-16 | Internatl Business Mach Corp <Ibm> | 携帯端末装置 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59100659A (ja) * | 1982-11-30 | 1984-06-09 | Sharp Corp | ワイヤレスフオン |
JPH03203794A (ja) * | 1989-12-29 | 1991-09-05 | Pioneer Electron Corp | 音声リモートコントロール装置 |
US5890122A (en) * | 1993-02-08 | 1999-03-30 | Microsoft Corporation | Voice-controlled computer simulateously displaying application menu and list of available commands |
JPH07168851A (ja) * | 1993-12-16 | 1995-07-04 | Canon Inc | 画像表示方法及び装置 |
US5774628A (en) * | 1995-04-10 | 1998-06-30 | Texas Instruments Incorporated | Speaker-independent dynamic vocabulary and grammar in speech recognition |
US5890123A (en) * | 1995-06-05 | 1999-03-30 | Lucent Technologies, Inc. | System and method for voice controlled video screen display |
US5636211A (en) * | 1995-08-15 | 1997-06-03 | Motorola, Inc. | Universal multimedia access device |
US6075575A (en) * | 1995-10-02 | 2000-06-13 | Starsight Telecast, Inc. | Remote control device and method for using television schedule information |
JPH09134319A (ja) * | 1995-10-03 | 1997-05-20 | Sony Electron Inc | パーソナル通信ルーティングシステムのユーザインターフェース及びルール処理 |
US5802526A (en) * | 1995-11-15 | 1998-09-01 | Microsoft Corporation | System and method for graphically displaying and navigating through an interactive voice response menu |
US5737491A (en) * | 1996-06-28 | 1998-04-07 | Eastman Kodak Company | Electronic imaging system capable of image capture, local wireless transmission and voice recognition |
-
1997
- 1997-10-03 US US08/943,795 patent/US6188985B1/en not_active Expired - Lifetime
-
1998
- 1998-01-05 SG SG1998000027A patent/SG72780A1/en unknown
- 1998-01-06 EP EP98300092A patent/EP0854417A3/en not_active Withdrawn
- 1998-01-06 JP JP10031975A patent/JPH10275162A/ja active Pending
- 1998-01-06 KR KR1019980000108A patent/KR19980070352A/ko not_active Application Discontinuation
- 1998-02-13 TW TW087100101A patent/TW497044B/zh not_active IP Right Cessation
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5247580A (en) * | 1989-12-29 | 1993-09-21 | Pioneer Electronic Corporation | Voice-operated remote control system |
KR940019171A (ko) * | 1993-01-04 | 1994-08-19 | 최광주 | 음성인식 원격제어장치 |
JPH06274194A (ja) * | 1993-03-22 | 1994-09-30 | Hitachi Ltd | 携帯型音声入力モニタ・制御装置 |
JPH08186654A (ja) * | 1994-12-22 | 1996-07-16 | Internatl Business Mach Corp <Ibm> | 携帯端末装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101221172B1 (ko) * | 2005-02-03 | 2013-01-11 | 뉘앙스 커뮤니케이션즈, 인코포레이티드 | 이동 통신 장치의 음성 어휘를 자동으로 확장하는 방법 및장치 |
Also Published As
Publication number | Publication date |
---|---|
SG72780A1 (en) | 2000-05-23 |
EP0854417A3 (en) | 2005-10-05 |
TW497044B (en) | 2002-08-01 |
US6188985B1 (en) | 2001-02-13 |
EP0854417A2 (en) | 1998-07-22 |
JPH10275162A (ja) | 1998-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6188985B1 (en) | Wireless voice-activated device for control of a processor-based host system | |
KR101359715B1 (ko) | 모바일 음성 웹 제공 방법 및 장치 | |
US8781840B2 (en) | Retrieval and presentation of network service results for mobile device using a multimodal browser | |
EP2824596B1 (en) | Speech- Enabled Web Content Searching Using a Multimodal Browser | |
KR100661687B1 (ko) | 대화형 음성 응답 애플리케이션 구현 장치 및 방법, 머신 판독가능 매체 및 대화형 음성 응답 시스템 | |
KR100653862B1 (ko) | 언어 독립적 음성-기반 검색 시스템 | |
US6965864B1 (en) | Voice activated hypermedia systems using grammatical metadata | |
US5819220A (en) | Web triggered word set boosting for speech interfaces to the world wide web | |
TWI353585B (en) | Computer-implemented method,apparatus, and compute | |
US20080133215A1 (en) | Method and system of interpreting and presenting web content using a voice browser | |
KR100237385B1 (ko) | 웹 브라우저 상의 음성 인식기 구현방법 | |
JP7231190B2 (ja) | 情報提供システム、及び、情報提供制御方法 | |
JP2004334409A (ja) | データ閲覧支援装置、データ閲覧方法及びデータ閲覧プログラム | |
Hemphill et al. | Speech-aware multimedia | |
KR20010064061A (ko) | 음성 인식 기능을 갖는 검색 엔진 | |
KR100519748B1 (ko) | 연속어 음성 명령을 통한 인터넷 네비게이션 시스템 및 그방법 | |
JP2001075968A (ja) | 情報検索方法及びそれを記録した記録媒体 | |
WO2002099786A1 (en) | Method and device for multimodal interactive browsing | |
KR20050040983A (ko) | 음성을 이용한 웹 브라우징 시스템 및 제어방법 | |
EP1729284A1 (en) | Method and systems for a accessing data by spelling discrimination letters of link names | |
Amoli et al. | Chromium Navigator Extension: Voice-Activated Assist for Disabled | |
Srisa-an et al. | Putting voice into wireless communications | |
KR20020058386A (ko) | 검색하는 웹 문서의 구조와 요소 객체의 특징을 음색으로자동 표현하는 음성 브라우저 | |
KR20050035784A (ko) | 에이치.티.엠.엘 컨텐츠 변환을 통한 음성지원 웹브라우저 및 음성지원 방법 | |
Chandon | WebVoice: Speech Access to Traditional Web Content for Blind Users |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E601 | Decision to refuse application |