KR19980070352A

KR19980070352A - 프로세서 기준의 호스트 시스템을 제어하기 위한무선 음성 기동 장치

Info

Publication number: KR19980070352A
Application number: KR1019980000108A
Authority: KR
Inventors: 쓰리프트필립알.; 헴필찰스티.
Original assignee: 윌리엄비.켐플러; 텍사스인스트루먼츠인코포레이티드
Priority date: 1997-01-06
Filing date: 1998-01-06
Publication date: 1998-10-26
Also published as: SG72780A1; EP0854417A3; TW497044B; US6188985B1; EP0854417A2; JPH10275162A

Abstract

WWW(World Wide Web)에 접속된 컴퓨터 등과 같은 호스트 시스템(11)을 제어하기 위한 핸드 헬드형 무선 기동 장치(10)를 제공한다. 상기 장치(10)는 표시기(10a), 마이크로폰(10b), 및 무선의 전송기(10g) 및 수신기(10h)를 구비한다. 또한 음성 인식을 수행하기 위한 프로세서(10e)와 메모리(10f)를 구비한다. 장치(20)는 음성 인식 및 상기 음성 인식의 결과의 인터프리테이션을 수행할 수 있는 프로세서(20e)와 메모리(20f)를 구비함으로써 특히, 웹 브라우징(Web browsing)용으로 설계될 수 있다.

Description

프로세서 기준의 호스트 시스템을 제어하기 위한 무선 음성 기동 장치

본 발명은 일반적으로 음성 인식 장치에 관한 것으로, 특히, 사용자로 하여금 음성 명령들로 월드 와이드 웹(World Wide Web)과 같은 하이퍼미디어 네트워크(hypermedia network)를 주사 검색(browsing)할 수 있도록 하는 무선의 음성 제어 장치에 관한 것이다.

본 특허 출원은 텍사스 인스트루먼트사가 양수인인 다음의 특허 출원, 미국 특허 출원 번호 08/419, 226호이고, 그 명칭이 Speaker-Independent Dynamic Vocabulary and Grammar in Speech Recognition 및 미국 특허 출원 번호 08/419, 229호이고, 그 명칭이 Voice Activated Hypermedia Systems Using Grammatical Metabase과 관련있다.

인터넷(Internet)은 월드-와이드 컴퓨터 네트워크 또는 더 정확히, 네트워크들중 월드-와이드 네트워크이다. 이는 정보 교환을 제공하고 광범위한 서비스를 제공한다. 오늘날, 인터넷은 모든 종류의 기관, 비지니스, 및 심지어 각 가정의 개인들 조차 포함하도록 성장하였다.

월드-와이드 웹(WWW 또는 Web)은 인터넷상에서 이용가능한 서비스중 하나이다. 이는 도큐먼트가 그의 다른 부분들 또는 다른 도큐먼트들에 대한 링크를 갖는 하이퍼텍스트(hypertext)로 알려진 기술에 기초를 둔다. 하이퍼텍스트는 화상과 사운드을 조합하여 컴퓨터상에 저장될 수 있는 어떤 종류의 정보에 대한 링크를 포함하도록 확장되어 왔다. 예를 들어, 웹을 사용하여 도큐먼트내로 부터 중요한 워드(word) 또는 어구(phrase)를 선택함으로써 세계 도처에 저장된 정의, 소스, 또는 관련 도큐먼트들을 얻을 수 있다. 이러한 이유로, 웹은 하이퍼미디어 네트워크로서 설명될 수 있다.

웹의 기본 유닛은 페이지(page)로, (통상적으로) 다른 페이지들에 대한 링크들로된 텍스트-플러스-그래픽(text-plus-graphics) 도큐먼트이다. 웹을 navigating 한다는 것은 기본적으로 페이지에서 페이지로 이동하는 것을 의미한다.

웹에 대한 개념은 모든 종류의 소스들로 부터 모든 종류의 데이타를 수집하고, 훌륭한 서버(server)와 훌륭한 클라이언트 프로그램으로 하여 데이타 포맷을 처리할 수 있도록 함으로써 불일치의 문제점들을 피하는데 있다. 이와 같이 포맷들을 처리할 수 있는 능력으로 일단 적절한 트랜슬레이션 코드(translation code)가 서버들과 클라이언트들에게 부가되면, 웹은 멀티미디어 포맷을 포함한 모든 종류의 데이타를 수용할 수 있다. 웹 클라이언트는 웹 서버들상에 위치한 웹 리소스들에 접속되곤 하여 웹 리소스들을 이용하는데 사용된다.

웹을 액세스하고 사용하기 위해 이용되는 일형태의 클라이언트 소프트웨어를 웹 브라우저 소프트웨어 라고 한다. 이 소프트웨어를 사용자 컴퓨터에 설치하여, 링크들이 두드러지거나 또는 마우스 또는 다른 지시 장치로 쉽게 선택할 수 있도록 표시하는 그래픽 인터페이스를 제공할 수 있다.

본 발명의 일 양태로 월드 와이드 웹에 접속된 컴퓨터와 같은 프로세서 기준 호스트 시스템을 제어하기 위한 무선 음성 기동되는 제어 유닛을 제공한다. 소형 핸드 헬드형 유닛은 마이크로폰, 무선 오디오 입력 전송기, 무선 데이타 수신기, 및 표시기를 구비한다. 마이크로폰은 사용자로 부터 음성 입력을 수신함으로써 오디어 입력 신호를 제공한다. 오디오 전송기는 상기 오디오 신호로 부터 파생한 데이타를 호스트 시스템에 무선으로 전송한다. 상기 호스트가 오디오 입력에 따라 기동된 다음, 화상 데이타 형태의 임의 종류의 응답을 수신기에 무선으로 전송한다. 표시기는 화상 데이타로 표시된 화상을 발생 및 표시한다.

장치를 변형시켜 오디오 출력 정보용 스피커를 포함할 수 있다. 또한 장치는 전치(front-end) 음성 인식 프로세스 또는 심지어 모든 음성 인식 조차 수행하기 위한 프로세서와 메모리를 구비할 수 있다.

본 발명의 장점은 정보를 웹상의 정보를 좀더 액세스 가능하고 유용하게 만드는데 있다. 스피치 제어는 웹 인터페이스에 유연성과 파워를 부가하여 좀더 자연스럽게 정보를 액세스하게 한다.

도 1은 본 발명에 따라 무선 음성으로 기동되는 제어 유닛의 일실시예를 도시하는 도면.

도 2는 특히, 사용자로 부터의 오디오 입력을 트랜슬레이팅 및 인터프리팅하기 위해 구성되는 무선 음성으로 기동되는 제어 유닛의 다른 실시예를 도시하는 도면.

도 3은 스피커블 명령 프로세스에 의해 제공된 표시기의 예를 도시하는 도면.

도 4는 웹 페이지의 일부 및 그의 스피커블 링크들을 도시하는 도면.

도 5는 도 1 및 도 2의 음성 인식기에 의해 사용할 문법(grammar)을 동적으로 생성하는 프로세스를 도시하는 도면.

도면의 주요 부분에 대한 부호의 설명

10a: 표시기

10b: 마이크로폰

10e: 프로세서

10f: 메모리

10g:무선 송신기

본 발명은 프로세서 기준 호스트 시스템을 제어하기 위한 무선 음성으로 기동되는 장치에 관한 것이다. 즉, 상기 장치는 음성으로 기동되는 원격 제어 장치이다. 이 설명의 실시예에서, 호스트 시스템은 월드-와이드 웹에 접속된 컴퓨터이고 상기 장치는 음성 제어된 웹 브라우징(web browsing)용으로 사용된다. 그러나, 예를 들어 TV와 같이, 표시 또는 오디오 정보를 제공하는 어떤 프로세서 기준의 시스템을 제어하기 위한 음성 제어된 장치에 동일한 개념을 적용할 수 있다.

장치에 내장된 지능에 따라 다른 장치의 다양한 실시예들이 있다. 본 발명은 오디오 입력을 인식한 다음 상기 오디오 입력을 인터프리트하도록 사용되는 프로그래밍을 상기 내장형 프로그래밍의 범위를 설계 및 비용이 문제가 되는 범위까지 확장시키는 방법으로 모듈화시킴으로써 종래의 웹 브라우저 소프트웨어에 의해 사용할 수 있다는데 그 목적이 있다.

도 1은 본 발명에 따른 무선 음성 기동되는 제어 유닛(10)의 일실시예를 도시한다. 이는 호스트 시스템(11)과 통신한다. 상술한 바와 같은 목적을 위해, 호스트 시스템(11)이 컴퓨터로서 월드-와이드 웹과 데이타 통신한다.

제어 유닛(10)은 표시기(10a)와 마이크로폰(10b)을 구비한다. 표시기(10a)는 소형화 및 휴대용으로 디자인된 LCD일 수 있다. 마이크로폰(10b)은 사용자로 부터 음성 입력을 수신한다. 이는 뮤트 스위치(10c)를 구비하여, 제어 유닛(10)이 화상을 표시할 수 있고 심지어 키패드(도시되지 않음)와 같은 대체 입력 장치를 통하여 비오디오 입력 조차도 수신할 수 있으나, 음성 인식을 수행할 수는 없다. 마이크로폰(10b)은 마이크로폰 어레이일 수 있으며, 사용자의 음성과는 다른 사운드를 구별하는 능력을 증가시킨다.

도 1의 실시예에서, 제어 유닛(10)은 모든 또는 일부 음성 인식 프로세스를 실행하고 음성 데이타를 전송기(10g)를 통하여 호스트 컴퓨터(11)에 전달한다. 호스트 컴퓨터(11)는 다양한 음성 제어 인터프리테이션 프로세스를 실행하고 또한 웹 브라우저(Web browser)를 실행한다. 그러나, 초단순형 제어 유닛은 마이크로폰(10b)으로 부터의 오디오 데이타를 직접 호스트 시스템(11)에 전송하여, 모든 처리를 실행할 것이다.

제어 유닛(10)이 모든 또는 일부의 음성 인식 프로세스를 실행하는 경우에서, 제어 유닛(120)은 프로세서(10e)를 구비한다. 메모리(10f)는 프로세서(10e)에 의해 실행되는 음성 인식 프로그래밍을 저장한다. 음성 인식을 위한 적합한 프로세서(10a)의 예로 Texas Instruments Incorporated에 의해 제조된 것들과 같은 신호 프로세서가 있다. 마이크로폰(110b)이 마이크로폰 어레이일 경우, 프로세서(10a)는 사용자의 음성을 타깃으로 하기 위해 계산을 실행할 수 있다.

만약 제어 유닛이 임의의 음성 프로세싱만을 실행한다면, 선형의 예보 코딩(LPC) 분석 또는 스피치 엔드 포인팅(speech end pointing)과 같은 하나 이상의 전치 프로세스를 실행할 수 있다.

만약 제어 유닛(10)이 모든 음성 인식 프로세스들을 수행한다면, 메모리(10f)는 문법 파일(grammar file)뿐 아니라 이들 프로세스들(음성 인식자로서)을 저장한다. 동작시, 음성 인식기는 마이크로폰(10b)으로 부터 오디오 입력을 수신한 다음 적절한 문법 파일을 액세스한다. 문법 파일 핸들러는 문법을 스피치-레디(speech-ready) 형태로 변환시켜 구두점 문법(punctuation grammar)을 발생한 다음, 문법을 음성 인식기(voice recognizer)로 로딩시킨다. 음성 인식기는 문법 파일을 사용하여 오디오 입력을 텍스트 트랜슬레이션(text translation)으로 변환시킨다.

메모리(10f)내의 문법 파일들은 미리 정의 및 저장될 수 있거나 또는 동적으로 발생될 수 있거나 또는 두가지 형태의 문법 파일들의 결합일 수 있다. 동적 문법 파일 발생의 예를 도 5와 연관하여 이하에서 기술할 것이다. 문법들은 문맥 자유(context-free) 문법인 Backus-Naur 형태로 쓰여질 수 있으며 커스터마이즈(customized)될 수 있다.

도 1의 실시예에서, 유닛(10)은 웹 브라우징용으로 사용되고, 호스트 컴퓨터(11)는 현재 표시된 웹 페이지용 HTML(hypertext markup language)을 유닛(10)에 전달한다. 메모리(10f)는 문법을 동적으로 발생하기 위한 문법 파일 발생기를 저장한다. 다른 웹 브라우징의 실시예에서, 호스트(11)는 문법을 동적으로 발생하고 문법 파일을 제어 유닛(10)에 다운로드시킬 수 있었다.

음성 인식기의 출력은 스피치 데이타(speech data)이다. 스피치 데이타는 호스트 시스템(11)에 전송되어 음성 제어 인터프레테이션 프로세스를 실행한다. 참조로 음성 제어된 웹 브라우징에 대한 다양한 음성 제어 인터프리테이션 프로세스가 텍사스 인스투르먼트사가 양수인이고 US. 특허 출원 번호 08/419, 229에 기술되고 그 명칭이 Voice Activated Hypermedia Systems Using Grammatical Metadata에서 구체화 되어 있다. 인터프리테이션의 결과로, 호스트 시스템(11)이 명령을 수행하거나 하이퍼미디어(Web) 링크를 제공함으로써 제어 유닛(10)에 대한 음성 입력에 반응할 수 있다.

웹 브라우징과는 다른 음성 제어 인터프리테이션의 예가 TV에 대한 명령으로, 호스트 시스템(11)이 프로세서-기준 TV 시스템이다. 예를 들어, What's on TV tonight? 라는 음성 명령이 TV 스케쥴에 표시되게 된다. 웹 브라우징과는 다른 음성 제어 인터프레테이션의 다른 예가 컴퓨터-기준 하우스홀드 제어용 명령이다. 그 결과 Show me the sprinkler schedule 이라는 음성 명령이 적절히 표시되게 된다.

호스트 시스템(11)이 적절한 액션을 취한 다음, 무선 수신기(10h)가 호스트 시스템(11)으로 부터 데이타를 표시기(10a)상에 표시하거나 또는 스피커(10d)에 의해 출력할 목적으로 데이타를 수신한다. 그리하여, 호스트 시스템(11)으로 부터 수신된 데이타는 도식적(본문, 그래픽, 화상, 및 영상을 포함)이거나 또는 오디오적일 수 있다.

도 2는 본 발명의 다른 실시예를 도시하는 것으로, 무선의 음성으로 기동된 제어 유닛(20)이 음성 인식뿐 아니라 음성 제어 인터프레테이션을 수행한다. 음성 제어 인터프리테이션은 웹과 같은 하이퍼미디어 리소스를 주사 검색하는데 효과가 있다. 호스트 시스템(21)은 하이퍼미디어 리소스에 연결된다.

제어 유닛(20)은 제어 유닛(10)의 것들과 유사한 구성 요소들을 갖는다. 그러나, 프로세서(20e)는 메모리(20f)에 저장된 특별한 프로그래밍을 실행한다. 상세히는, 음성 제어 인터프리테이션 프로세스들은 스피커블 명령 프로세스, 스피커블 핫 리스트 프로세스, 또는 스피커블 링크 프로세스를 포함한다. 이들 프로세스들 및 그에 관련된 문법 파일들은 제어 유닛(20)에 상주한다.

스피커블 명령 프로세스는 표시기(20a)상에 명령 인터페이스를 표시하고 다양한 웹 브라우징 명령을 수용한다. 프로세스는 사용자에 의해 말해질 수 있는 워드와 어구(phrase)에 대한 관련 문법 파일을 가진다.

도 3은 음성 제어 인터프리테이션 프로세스에 의해 제공된 표시기(30)의 예를 도시한다. 말할 수 있는 일 명령으로 help 명령이 있으며, 이는 버튼(31)을 누름으로써 기동된다. 이에 반응하여, help page를 표시하는 명령 프로세스는 음성 제어된 브라우징을 사용하는 방법을 기술한다.

다른 말할 수 있는 명령으로 Show me my speakable command list 가 있다. 이 명령은 각각이 스피커블 명령을 나타내는 한 셋트의 문법을 리스팅하는 페이지를 표시한다. pagedown_command , back_command, 및 help_command 들이 그 예들이다. 명령 프로세스가 이들 명령들중 하나의 트랜슬레이션을 수신할때 적절한 액션을 취하게 된다.

또한 도 3은 웹 브라우징용으로 특히 유용한 음성 인식기의 특성을 설명한다. 사용자가 What is the value of XYZ stock? 이라는 말을 하면, 일단 음성 인식기가 발음을 식별하여, 시간과 메모리 사용에 대한 스코어(score) 및 다양한 특성들을 결정한다. 아래에 설명되는 바와 같이, 스톡값(stock value)에 대한 요구는 핫리스트 아이템(hotlist item)일수 있으며, 사용자로 하여금 정보가 위치한 웹 사이트를 확인하지 않고 상기 요구를 단순히 말로 표현하기만을 허가한 것이다.

다른 스피커블 명령으로 Show me my speakable hotlist가 있는데 버튼(33)에 의해 동작된다. hotlist는 자주 사용되는 것들과 같은 선택된 균일 리소스 위치자(Uniform Resource Locators(URLs))의 저장된 리스트이다. 또한, 핫 리스트들은 서표(bookmarks)로서 알려져 있다. URLs는 잘 알려진 특성의 웹으로, 인터넷상의 어떤 리소스의 명명을 간단하고 시종일관한 방식으로 제공한다. 전형적인 URL은 다음의 형태를 가진다:

http://ww.ncsa. uiic. edu/General/NCSAHome. html

URL의 다양한 부분들은 전송 프로토콜, 컴퓨터 어드레스, 및 그 어드레스에서의 디렉토리 경로를 식별한다. 또한 URLs는 links 및 anchors 로 알려져 있다.

스피커블 핫리스트 프로세스는 사용자로 하여금 각 핫리스트 아이템당 문법을 구성하고 URL과 문법을 결합시킨다. 문법을 생성하기 위해, 사용자는 BNF 구문을 사용하여 ASCII 문법 파일을 편집하고 문법을 인쇄할 수 있다. 예를 들어, 날씨 정보를 검색하기 위한 문법은 How does the weather look today? 및 Give me the weather와 같은 어구를 정의할 수 있었다. 그런다음 사용자는 상기 문법에 적당한 URL을 결합시킨다.

핫리스트 문법 파일은 음성으로 변경될 수 있다. 예를 들어, 현재 페이지는 핫리스트 아이템으로써 부가될 수 있다. Add this page to my hotlist 라는 어구를 말할 때, 페이지의 제목을 문법에 부가하고 현재의 URL에 문법을 결합시킨다. Edit my speakable hotlist 라는 어구를 말할때, 음성에 의해 페이지를 검색시키도록 야기하는 특별한 구들을 부가함으로써 사용자로 하여금 문법을 편집할 수 있게 한다.

음성 인식기가 핫리스트 문법 파일로 부터 핫리스트 트랜슬레이션을 인식하여 상기 트랜슬레이션을 핫리스트 프로세스에 전달할때 스피커블 핫리스트 프로그램이 기동된다. 핫리스트 프로세스는 관련 URL을 조사한다. 웹 페이지가 복구되어 표시기(10a)상에 표시하기 위해 음성 제어 유닛(10)으로 전송될 수 있도록, URL을 호스트 컴퓨터(11)상에 상주하는 브라우저에 전달(무선통신을 통하여)한다.

스피커블 명령과 스피커블 힛리스트들에 대한 문법 파일들이 항상 기동한다. 이는 사용자로 하여금 어떤 문맥에서도 명령 또는 핫리스트 링크를 말할 수 있도록허가한다. 또한 스피커블 링크 프로세스는 음성 제어 유닛(20)의 메모리(20e)에 상주할 수 있다. 웹 페이지에 선택된 정보는 다른 웹 페이지에 액세스하기 위한 링크를 제공할 수 있다. 링크들은 밑줄을 긋거나, 하이라이트하거나, 다르게 색칠하거나 그림의 경우에서와 같이 아웃라인되거나, 다르게 표시하는 방식으로 나타난다.

링크를 선택하기 위해 마우스 또는 다른 지시 장치를 사용하는 대신, 음성 제어 유닛(10)의 사용자가 표시기(10a)상에 표시할 페이지로 부터 링크를 말할 수 있다.

도 4는 웹 페이지(40)와 그의 링크들의 부분을 설명한다. 예를 들어, 제2 헤드라인(41)은 링크이다.

스피커블 링크들에 대한 문법은 변수뿐 아니라 전체 어구를 포함한다. 전체 어구를 말하는데 부가하여 화자는 Diana in N period Y period(문자 그대로의 변형), Diana in NY, 또는 Diana in New York을 말할 수 있다.

링크를 스피커블하게 만드는 것은 일단 그의 웹 페이지로 부터 링크/URL쌍을 구하는 것을 요구한다. HTML(hypertext markup language) 포맷의 웹 페이지는 소정의 길이를 가질 수 있기 때문에, 인식기가 탐색할 수 있는 지원자 링크/URL 쌍의 수는 표시기(20a)의 현재 스크린상에 도시될 수 있는 것들로 제한될 수 있다. Scroll down과 같은 명령은 지원자 링크/URL쌍을 갱신한다. 일단, 스크린용 링크/URL 쌍이 구해지면, 현재 스크린상의 모든 링크들에 대한 문법이 생성된다. 다음, 링크들에서의 토큰을 식별하여 토큰당 문법들을 생성한다. 이들 문법들을 인식기의 문법 파일에 부가한다. 링크 포맷들이 광범위하게 변할 수 있기 때문에 정확한 표시(tokenization)를 요구한다. 링크들은 수, 두문자어(acronyms), 발명된 워드, 및 새로운 구두점의 사용을 포함할 수 있다.

스피커블 링크들을 설명하기 위한 것으로, 링크들의 길이, 동일 페이지에서의 링크들의 모호성, 및 비트-맵 링크를 포함하는 그래픽 등이 있다. 긴 링크들인 경우, 스피커블 링크 프로세스는 사용자로 하여금 N 워드후 어느때라도 링크에서 워드를 말하는 것을 중지시킬 수 있게 한다. 모호성의 경우, 제1 URL에 디폴트이거나 또는 사용자에게 URLs을 선택할 수 있는 기회를 제공할 수 있다. 비트-맵 링크의 경우, 프로세스는 링크 정보를 찾기 위해〈ALT〉 태그를 사용한다.

스피커블 링크들에 대한 문법들은 동적으로 생성되어 현재 표시되는 문법만이 기동하고 현재 표시가 새로이 발생할때 갱신된다. 또한 동적 문법 생성은 요구된 메모리(10f)의 양을 줄인다.

도 5는 문법 파일을 동적으로 생성하는 적합한 프로세스를 도시한다. 이는 도 1 및 도 2의 동적 문법 발생기에 의해 실행되는 프로세스이다. 상술한 바와 같이, 동적 문법 파일들은 현재 웹 페이지로 부터 생성되어 스피커블 링크들을 인식할 수 있다. 미국 특허 출원 번호 08/419, 226를 참조로 음성 제어 호스트 시스템(11) 즉, 분리된 원격 제어 장치(10)가 배제된 음성 제어에 적용함으로써 이 방법을 좀더 구체적으로 설명한다.

도 4의 표시기(40)와 같은 표시는 문법 제약(52)들에 영향을 미친다. 문법 제약(52)는 어휘(vocabulary)(54)와 사용자 에지전트(64)내로 입력된다. 차례로, 어휘(54)는 온 라인 사전(56)에 공급되어 발음 모듈(58)내로 입력된다. 화자 독립 연속 스피치 음성학 모델 모듈(Speaker Independent Continuous Speech Phonetic Models modules)(60) 뿐 아니라 발음 모듈(58)이 사용자 에이전트(64)내로 입력된다. 더욱이, 스피치 모듈(66)은 사용자의 음성을 사용자 에지전트(64)내로 입력한다. 동시에, 문맥 모듈(68)은 스크린(40)으로 부터 입력을 가지고 사용자 에이전트(64)내로 입력한다.

현존하는 RGDAG(Regular Grammar Directed Acyclic Graph)는 새 구문과 어휘를 동적으로 수용할 수 있다. 스크린(40)이 변할때 마다, 사용자 에이전트(64)는 현재 보일 수 있는 밑줄 그은 구(링크)를 포함하는 문법을 생성한다. 이 문법으로 부터, 어구들을 사용자 에이전트(64)는 예를 들어, 임의 문자 철자법과 삭제된/임의 구두점을 포함할 수 있는 어구 문법으로 표시할 수 있다. 상기 표시들로 부터, 사용자 에이전트(64)는 온라인 사전과 텍스트-투-음소(text-to-phoneme) 매핑의 결합을 사용한다. 그런 다음 음성 인식 프로세스는 문법들을 부가하여 생성된다. 이는 word를 표시하는 심볼을 식별하여 출력하는 것을 포함하는 수개의 간단한 음성 인식기용 북 키핑 동작을 의미한다. 결국, 새로운/변경된 문법들을 조합하기 위해 범용적인 변화를 실행시킨다. 이를 위해, 문법들이 RGDAG 관계에 연결된다. 더욱이, 각 심볼에 대한 최대 깊이를 계산한다. 또한 음성 인식기가 출력과 함께 앤세스터 심볼을 조사함으로써 파스(parse) 정보를 요구하는지 어떤지를 결정한다. 그러면 효율적인 구문 해석용 문법의 구조를 식별한다.

비록 본 발명이 특정의 실시예를 참조하여 기술되었다 하더라도, 이 기술은 제한된 의미로 추론되어선 안된다. 본 분야에 숙련된 자들에게는 공개된 실시예 뿐아니라 대안적인 실시예들의 다양한 변경이 가능하다. 그러므로, 첨부된 청구항이 본 발명의 범주내에 모든 변경을 포함할 것이다.

상술한 바와 같이 사용자로 하여금 음성 명령들로 월드 와이드 웹과 같은 하이퍼미디어 네트워크를 주사 검색할 수 있도록 하는 본 발명의 무선 음성 제어 장치는 웹 인터페이스에 유연성과 파워를 부가하여 스피치 제어함으로써 좀더 자연스럽게 정보를 액세스하게 한다.

Claims

프로세서 기준 호스트 시스템을 제어하기 위한 무선 음성 기동 제어 유닛(Wireless Voice-activated Control Unit)에 있어서,

사용자로 부터 음성 입력을 수신할 수 있도록 동작함으로써 오디오 입력 신호를 제공하는 마이크로폰,

상기 오디오 입력 신호로 부터 파생된 데이타를 상기 호스트 시스템으로 무선 전송할 수 있도록 동작하는 오디오 전송기,

상기 호스트 시스템으로 부터 화상 데이타를 무선 수신할 수 있도록 동작하는 데이타 수신기, 및

상기 화상 데이타에 의해 표시된 화상들을 발생 및 표시할 수 있도록 동작하는 표시기를 포함하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
제1항에 있어서,

상기 마이크로폰은 상기 표시기와는 별도로 온 또는 오프 상태로 스위치 가능한 것을 특징으로 하는 무선 음성 기동 제어 유닛.
제1항에 있어서,

상기 마이크로폰은 멀티 소자 마이크로폰 어레이인 것을 특징으로 하는 무선 음성 기동 제어 유닛.
제1항에 있어서,

음성 인식 프로세스를 수행할 수 있도록 동작하는 프로세서와, 상기 음성 인식 프로세스와 문법 파일들을 저장하는 메모리를 더 포함하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
제4항에 있어서,

상기 음성 인식 프로세스는 선형 예측 코딩 해석(Linear predictive coding analysis)을 포함하고, 상기 전송기는 상기 해석의 결과를 전송할 수 있도록 동작하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
제4항에 있어서,

상기 음성 인식 프로세스는 스피치 엔드 포인팅(speech end pointing) 해석을 포함하고, 상기 전송기는 상기 해석의 결과를 전송할 수 있도록 동작하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
제4항에 있어서,

상기 문법 파일들은 동적으로 생성되고, 또한 상기 프로세서는 동적 문법 생성 프로세스를 실행할 수 있도록 동작하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
하이퍼미디어 리소스(Hypermedia resource)와의 데이타 통신에서 호스트 시스템을 음성 제어하기 위한 무선 음성 기동 제어 유닛에 있어서,

사용자로 부터 음성 입력을 수신할 수 있도록 동작함으로써 오디오 입력 신호를 발생하는 마이크로폰,

상기 오디오 입력 신호로 부터 파생된 데이타를 상기 호스트 시스템으로 무선 전송할 수 있도록 동작하는 오디오 전송기,

상기 호스트 시스템으로 부터 화상 데이타를 무선으로 수신할 수 있도록 동작하는 데이타 수신기, 및

상기 호스트 시스템에 의해 상기 하이퍼미디어 리소스로 부터 검색되고 상기 화상 데이타에 의해 표시된 화상들을 발생 및 표시할 수 있도록 동작하는 표시기를 포함하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
제8항에 있어서,

음성 인식 프로세스를 수행할 수 있도록 동작하는 프로세서와, 상기 음성 인식 프로세스와 문법 파일을 저장하는 메모리를 더 포함하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
제9항에 있어서,

상기 음성 인식 프로세스는 선형 예측 코딩 해석(linear predictive coding analysis)을 포함하고, 상기 전송기는 상기 해석의 결과를 전송할 수 있도록 동작하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
제9항에 있어서,

상기 음성 인식 프로세스는 스피치 엔드 포인팅(speech end pointing) 해석을 포함하고, 상기 전송기는 상기 해석의 결과들을 전송할 수 있도록 동작하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
제9항에 있어서,

상기 문법 파일들은 동적으로 생성되고, 상기 프로세서는 또한 동적 문법 발생 프로세스를 실행할 수 있도록 동작하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
제8항에 있어서,

음성 제어 프로세스를 수행할 수 있도록 동작하는 프로세서와, 상기 음성 제어 프로세스를 저장하는 메모리를 더 포함하는 무선 음성 기동 제어 유닛.
제13항에 있어서,

상기 음성 제어 프로세스는 상기 사용자가 상기 호스트 시스템의 동작을 음성으로 지시할 수 있는 스피커블 명령 프로세스를 포함하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
제13항에 있어서,

상기 음성 제어 프로세스는 상기 사용자가 상기 호스트 시스템에 의해 검색되는 상기 리소스들중 특정의 하나를 음성으로 요구할 수 있는 스피커블 핫리스트 프로세스를 포함하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
제13항에 있어서,

상기 음성 제어 프로세스들은 상기 사용자가 상기 표시기상에 표시되는 현재 페이지상의 링크를 상기 호스트 시스템에 의해 검색하도록 음성으로 요구할 수 있는 스피커블 링크 프로세스를 포함하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.
제8항에 있어서,

음성 인식 프로세스를 수행하고 동적 문법 생성 프로세스를 수행할 수 있도록 동작하는 프로세서와, 상기 프로세스를 저장하는 메모리를 더 포함하는 것을 특징으로 하는 무선 음성 기동 제어 유닛.