KR20010080522A

KR20010080522A - 음성 인식 장치 및 가전 시스템

Info

Publication number: KR20010080522A
Application number: KR1020017006392A
Authority: KR
Inventors: 파울 아. 페. 카우프홀츠
Original assignee: 요트.게.아. 롤페즈; 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 1999-09-23
Filing date: 2000-09-14
Publication date: 2001-08-22
Also published as: US7050971B1; EP1133768B1; CN1322348A; WO2001022404A1; EP1133768A1; JP2003510645A; JP4897169B2; CN1134767C; DE60042313D1

Abstract

음성 인식 장치(speech recognition apparatus)는 오디오 소거 모듈(100)을 포함한다. 이 모듈은 마이크로폰(microphone)으로부터 오디오 신호를 수신하기 위해서 오디오 입력(110)을 포함한다. 이 모듈은 각각의 독립적인 오디오 소스들로부터 오디오 신호들을 수신하기 위한 적어도 두 개의 오디오 입력(120, 130)을 포함한다. 오디오 소거 모듈은 상기 마이크로폰 신호로부터 상기 적어도 두 개의 독립적인 오디오 소스 신호들을 소거함으로써 음성 신호를 발생시킨다. 음성 인식기가 적어도 상기 음성 신호의 일부분을 인식하기 위해서 사용된다.

Description

음성 인식 장치 및 가전 시스템{SPEECH RECOGNITION APPARATUS AND CONSUMER ELECTRONICS SYSTEM}

미국 특허 출원(US 5,255,326 호)은, 사운드의 재생을 위해 서라운드(surround) 사운드 증폭기에 연결되는 수 개의 오디오/비디오 장치를 갖는 가전 시스템을 개시한다. 상기 증폭기는, TV, 테이프 플레이어, 디스크 플레이어 및 라디오와 같은 각각 가능한 독립적인 오디오/비디오 소스를 위한 오디오 입력들을 갖는다. 전형적으로, 오디오 입력은 스테레오 오디오 신호를 수신할 수 있다.사용자는, 오디오 신호가 재생되는 오디오 소스를 선택한다. 이렇게 선택된 신호는 증폭기의 서라운드 사운드 처리기에 의해 처리된다. 처리된 신호는 증폭되어, 증폭기에 연결된 확성기(loudspeaker)를 통해서 재생된다. 또한, 처리된 신호는 마이크로프로세서 또는 개인용 컴퓨터에 전달된다. 마이크로폰은 사용자로부터 음성을 얻는데 사용된다. 마이크로폰 신호는 음성 이외에도 재생된 오디오를 포함한다. 컴퓨터는, 음성 신호를 얻기 위해서 마이크로폰 신호로부터 처리된 오디오 신호를 뺀다. 이 음성 신호는 음성 인식기에 의해 인식된다. 인식의 결과는 시스템을 제어하는데 사용된다.

최근에, 음성 인식은, 특정한 조건이 충족되기만 하면 적절한 정확도로 가능하게 되었다. 예컨대, 마이크로폰을 통해서 수신된 신호에 높은 레벨의 오디오/잡음이 존재하는 경우에 인식의 정확도는 상당히 떨어진다. 알려진 시스템은 증폭기에 의해서 생성된 오디오 컨트리뷰션(contribution)을 제거한다. 실제로, 그러나, 대부분의 사용자들은 사운드 또는 잡음을 생성할 수 있는 하나 초과의 장치를 가지고 있다. 예컨대, 만약 알려진 시스템에서 사용자가 TV를 시청하며, 사운드를 재생하기 위해서 외부 서라운드 사운드 증폭기 대신에 TV 증폭기를 사용한다면, TV의 사운드는 컴퓨터에 의해 제거되지 않을 것이며, 이것은 인식의 심각한 열화를 야기할 것이다.

본 발명은, 마이크로폰(microphone)으로부터 오디오 신호를 수신하기 위한 오디오 입력과; 오디오 소스로부터 오디오 신호를 수신하기 위한 오디오 입력을 포함하며, 상기 마이크로폰 신호로부터 상기 오디오 소스 신호를 소거함으로써 음성 신호를 발생시키도록 동작하는 오디오 소거(cancellation) 모듈과, 적어도 상기 음성 신호의 일부분을 인식하기 위한 음성 인식기를 포함하는 음성 인식 장치에 관한 것이다.

나아가, 본 발명은, 적어도 두 개의 오디오 소스 장치, 오디오 소거 모듈 및 음성 인식기를 포함하는 가전 시스템에 관한 것이다.

나아가, 본 발명은 오디오 소거 모듈에 관한 것이다.

도 1은 본 발명에 따른 오디오 소거 모듈(100)의 블록도.

도 2는 복수의 마이크로폰을 사용하여 예시한 도면.

도 3은 음성 인식기를 병합하는 실시예를 도시한 도면.

도 4는 본 발명에 따른 시스템을 도시한 도면.

본 발명의 목적은, 음성 인식에 영향을 미치는 오디오 신호들을 제거하는데 좀더 융통성을 갖는 앞에서 언급한 종류의 음성 인식 장치, 가전 시스템 및 오디오소거 모듈을 제공하는 것이다.

본 발명의 목적을 충족하기 위해서, 오디오 소거 모듈은, 각각 독립된 오디오 소스들로부터 오디오 신호들을 수신하기 위한 적어도 두 개의 오디오 입력들을 포함하며, 마이크로폰 신호로부터 상기 적어도 두 개의 독립된 오디오 소스 신호들을 소거함으로써 음성 신호를 발생시키도록 동작한다.

이처럼, 음성 인식 장치는, 서라운드 사운드 증폭기와 같은 하나의 사운드(오디오/잡음) 발생 장치에 더 이상 엄밀하게(strictly) 연결되지 않지만, 임의의 원하는 개수의 사운드 발생 장치들과 함께 동작할 수 있다. 예컨대, 인식 장치는, 독립된 오디오 증폭기(예컨대, 라디오 또는 CD로부터 오디오 신호를 재생하기 위한), TV 증폭기, 핸즈-프리(hands-free) 전화의 증폭기 등을 위해 동작할 수 도 있을 것이다. 게다가, 독립된 마이크로폰은, 통풍기(ventilator)(예컨대, 거실이나 PC 등에 있는), 진공 청소기, 차량과 같은 디바이스들에 의해서 발생된 방해(disturbing) 사운드(예컨대, 잡음) 신호들을 얻기 위해서 사용될 수 도 있을 것이다. 이러한 접근법은, 다수의 사용자들이 동시에 말을 할 수 도 있는{예컨대, PC상에 구술하거나(dictating), 전화 통화를 하는 것) 개방형 사무실 디자인에서 또한 사용되는 것이 바람직하다. 이때, 이러한 "방해" 음성들에 대한 마이크로폰 신호(들)는 음성 인식 장치에 유입되어 제거된다. 다른 사용자들의 음성 이외에, 이러한 마이크로폰들은, 예컨대 윈도우즈(Windows) 사운드 신호들과 같은 그러한 PC들에 의해 생성되는 사운드나 게임과 같은 프로그램들에 의해서 생성되는 사운드와 같은 다른 사운드를 또한 레코딩할 수 도 있다. 바람직하게, 이러한 마이크로폰들은 가능한 한 "깔끔하게(clean)" 방해 사운드를 얻기 위해서 이러한 방해 소스 가까이에 놓인다. 대안적으로, 마이크로폰 어레이들이 사용될 수 도 있다. 마이크로폰 신호들은 임의의 적절한 방식으로 음성 인식 장치에 전송될 수 있을 것이다. 예컨대, 독립된 선들을 사용하거나, 무선 송신(예컨대, RF)을 사용하거나 또는 주 배선(the mains wiring) 을 통하는 것이 이러한 적절한 방식의 예이다.

음성 인식 장치는 음성-문자(speech-to-text) 변환(구술)을 위해서 사용될 수 도 있다. 이것은 사용자가 음악을 들으면서, 동시에 문자를 구술하는 가능성을 제공한다. 이것은 또한 예컨대 인식을 위해 사용되는 PC에서의 팬(fans) 또는 디스크에 의해 생성되는 것과 같은 잡음을 제거하게 한다.

종속 청구항 2에서 한정되는 바람직한 실시예에서, 음성 인식 장치는 인식 장치 그 자체 이외의 장치들을 포함하는 장치들의 음성을 제어하는데 사용된다. 바람직하게, 이러한 장치들은, 컴퓨터 관련 제품(예컨대, 프린터, 스캐너 등), 보안 제품, 가정용 기구들 및 온도 제어 장비와 같은 가정용 네트워크에서 볼 수 있는 다른 장치들뿐만 아니라 오디오/비디오 장비{예컨대, TV, 디스크 플레이어/레코더, 테이프 플레이어/레코더, 오디오 튜너, 셋 톱 박스(set top boxes) 등}를 포함한다. 이러한 장치들에 제어 메시지를 통보하기 위한 적절한 수단들은 충분히 알려져 있다.

종속 청구항 3에 따라서, 장치는 원격 제어 메시지를 사용하여 제어된다. 이처럼, 장치에서는, 모든 제어되는 장치들에 음성 인식을 채용할 필요 없이 간단하면서 비용-효율적인 방식으로 음성이 제어될 수 있다. 이것은 또한 음성 제어 성능을 가지고 있지 않은 기존의 장치들을 제어할 수 있게 한다. 바람직하게, 음성 인식 장치는, 범용으로 사전에 프로그래밍되거나 학습된(learning) 원격 제어들로부터 알려진 방식으로 많은 다른 장치들을 제어할 수 있으며, 여기서 명령의 활성화는 키누름(keystroke) 대신에 음성을 통해서 제공된다. 이것은 장치의 많은 다른 유형 및 구성 제어를 가능하게 한다.

종속 청구항 4에 한정된 바와 같이, 오디오 통신 네트워크는 외부 오디오 소스로부터 오디오를 수신하기 위해 사용된다. 이러한 네트워크는 유선 또는 무선일 수 있다. 이것은 직통 방식(point-to-point) 연결에 기초할 수 있을 것이다. 바람직하게, 직렬 버스가 사용되어, 수 개의 소스들이 음성 인식 장치에 비용-효율적으로 연결되게 한다. 지배적인 PC 환경에서의 구술을 위해서, 바람직하게는 USB 또는 이와 유사한 네트워크가 사용된다. 지배적인 오디오/비디오 환경에서의 음성 제어를 위해서 바람직하게는 IEEE 1394가 사용된다.

종속 청구항 5에 한정된 바와 같이, 명령 메시지를 음성 인식 장치들로부터 시스템의 다른 장치들로 발급 할 때와 동일한 통신 네트워크가 오디오를 음성 인식 장치에 전송하는데 사용된다. 바람직하게, IEEE 1394에 기초한 네트워크가 사용된다. IEEE 1394는 수 개의 독립적인 등시성 데이터 스트림들을 지원하며, 이러한 데이터 스트림들은 오디오를 이송하는데 사용될 수 있다. 오디오는 이러한 네트워크를 통해서 방송되거나 음성 인식 장치에 직접 전달될 수 도 있을 것이다. 게다가, IEEE 1394는 명령 메시지들을 전송할 수 있으며, 이러한 명령 메시지들은 HAVi 프로토콜에 따를 것이다.

종속 청구항 6에 한정된 바와 같이, 음성 인식 장치는, 음성 인식 장치에 공급된 오디오 신호(들)를 재생할 수 있을 필요는 없다. 이처럼, 융통성을 더 얻는다. 예컨대, 음성 인식 장치는 시스템의 다른 장치들을 제어하기 위한 독립형(stand-alone) 제어 디바이스일 수 있다. 이러한 구성에서, 장치는, 장치의 동작 또는 시스템의 제어시에 사용자에게 가청의 피드백(feedback)을 아마도 제공하는 경우 이외에 임의의 오디오 출력을 발생시킬 수 없을 것이다. 이처럼, 외부 소스들에 대한 오디오를 수신하기 위한 오디오 입력은 오로지 소거를 위한 것이다. 예컨대, 유리하게, 음성 인식 장치는, TV, DVD 플레이어 및 오디오 시스템과 같은 독립형 디바이스들을 홈 시네마 시스템에 통합하기 위해서 사용될 수 도 있다. 이러한 통합된 시스템에서, 음성 인식 장치는 개별적인 디바이스들의 기능들을 시스템 동작에 통합시키기 위한 추가적인 제어 지능(intelligence)을 포함할 수 도 있을 것이다. 예컨대, "DVD 플레이"와 같은 음성 명령은, 결국 음성 인식 장치가 DVD 플레이어뿐만 아니라 TV와 증폭기를 활성화하여 원하는 신호 연결들을 수립하게 할 수 있을 것이다.

또한, 장치는 TV에 통합될 수 있을 것이며, 이 경우, 많은 시스템에서 TV는 오디오 시스템에 의해 발생된 오디오를 나타내는 오디오 출력 신호를 수신하기 위한 하나의 여분의 입력을 가지는 것으로 충분할 것이다. TV는, 보통 임의의 소스 신호를 오디오 시스템으로부터 재생하는데 사용되지 않을 것이다. 따라서, 이러한 신호를 수신하는 주요한 기능은 이러한 신호를 마이크로폰 신호로부터 소거할 수 있다는 것이다. 심지어 이러한 오디오 신호를 재생할 수 없을 것이다. 외부 소스로부터 오디오를 소거할 수 있음으로써, 예컨대, 사용자가 CD(오디오 시스템의 일부인 외부 소스)를 들으면서 TV 상에서 텔레텍스트(Teletext) 또는 웹TV(WebTV)-유형의 기능들을 시청하며 음성을 통해서 이러한 기능들을 제어하는 것이 가능하게 될 것이다. 이와 유사하게, 사용자는 TV의 음성 제어 유닛을 통해서 CD를 제어할 수 도 있을 것이다.

본 발명의 목적을 충족하기 위해서, 가전 시스템은:

적어도 두 개의 오디오 소스 장치와;

오디오 소거 모듈로서, 마이크로폰으로부터 오디오 신호를 수신하기 위한 오디오 입력과, 상기 오디오 소스 장치들 각각으로부터 독립적인 오디오 신호들을 수신하기 위한 적어도 두 개의 오디오 입력을 포함하며, 상기 마이크로폰 신호로부터 상기 적어도 두 개의 독립적인 오디오 소스 신호들을 소거함으로써 음성 신호를 발생시키도록 동작하는, 오디오 소거 모듈과;

상기 음성 신호의 적어도 일부분을 인식하기 위한 음성 인식기를 포함한다.

본 발명의 목적을 충족하기 위해서, 오디오 소거 모듈은:

마이크로폰으로부터 오디오 신호를 수신하기 위한 오디오 입력과;

각 독립적인 오디오 소스들로부터 오디오 신호들을 수신하기 위한 적어도 두 개의 오디오 입력을 포함하며, 상기 마이크로폰 신호로부터 상기 적어도 두 개의 독립적인 오디오 소스 신호들을 소거함으로써 음성 신호를 발생시키도록 동작한다.

본 발명의 이러한 양상 및 다른 양상들은 도면에 도시된 실시예들로부터 명백해지며, 이들을 참조하여 설명될 것이다.

도 1은 본 발명에 따른 오디오 소거 모듈(100)의 블록도를 도시한다. 모듈(100)은 마이크로폰으로부터 신호를 수신하기 위한 오디오 입력(110)을 포함한다. 음성 인식용으로 적합한 마이크로폰은 잘 알려져 있다. 일반적으로, 마이크로폰은 모노(mono) 오디오 신호를 제공한다. 구술하기 위해서, 바람직하게, 머리에 착용하는(head-worn) 마이크로폰이 사용되며, 또는 상대적으로 사용자 근처에 위치한(예컨대, 0.5 미터) 마이크로폰이 사용된다. 음성 제어를 위해서, 마이크로폰은 훨씬 더 멀리 떨어져 있을 수 있다(예컨대, 수 미터). 모듈(100)은 각 독립 오디오 소스들로부터 오디오 신호들을 수신하기 위한 수 개의 오디오 입력들을 포함한다. 두 개의 오디오 입력(120 및 130)이 도시되어 있다. 오디오 입력은 하나의 소스의 관련된 모든 오디오 신호들을 수신하기 위해서 사용된다. 보통, 오디오 신호는 스테레오 신호이며, 그러한 경우, 입력은 스테레오 신호를 수신하기 위해서 두 개의 독립된 입력 연결기를 가질 수 있을 것이다. 서라운드 사운드로 인코딩된 신호는 심지어 5개 또는 6개의 독립된 연결기를 가질 수 있을 것이다{예컨대, 전방 좌측, 전방 우측, 후방 좌측, 후방 우측, 중앙, 서브-우퍼(sub-woofer)}. 본 발명을 위해서, 이러한 신호는 하나의 신호로 간주된다. 오디오 소거 모듈(100)은 마이크로폰 신호로부터 적어도 두 개의 독립적인 오디오 소스 신호들을 소거함으로서 음성 신호를 발생시키도록 동작한다. 원래, 오디오 신호의 소거는 잘 알려져 있으며, 일반적으로 오디오 에코(echo) 소거로 지칭된다. 오디오 신호의 소거는, 예컨대 마이크로폰 신호로부터 오디오 신호를 빼는 것을 포함한다. 마이크로폰 신호에 존재하는 오디오 신호의 시간 지연 및 진폭은, 오디오 입력들 중 하나를 통해서 수신된 오디오 신호에 대해서 평가될 수 있다. 이러한 평가는, 예컨대 잘 알려진 통계적 상관관계 기법(statistical correlation technique)을 사용하여 수행될 수 있을 것이다. 본 발명에 따른 오디오 소거 모듈은, 순차적으로 각 신호를 차례로 소거함으로써 수 개의 오디오 신호들에 대한 소거를 수행할 것이다. 따라서, 모듈(100)은 차례로 수 개의 소거 유닛들을 포함할 것이며, 여기서 제 1 유닛은 마이크로폰 신호로부터 제 1 오디오 신호를 소거하며, 제 2 유닛은 제 1 유닛의 출력으로부터 제 2 오디오 신호를 소거하며, 이후의 소거 유닛들도 이러한 방식으로 오디오 신호를 소거한다. 특히, 모든 소거 유닛들이 동일한 모듈 내에 위치하므로, 이점은 각 소거 유닛에 유도된 지연에 대한 손쉬운 보상을 가능케 한다. 예컨대, 시퀀스에서 N번인 소거 유닛에 대한 마이크로폰 입력은 소거 유닛 내의 지연에서 N-1번 지연된다{버퍼링(buffering)을 통해서}. 바람직하게, 모듈(100)은 하나의 통합된 방법으로 몇 개의 신호들을 소거한다. 다수의 신호들을 소거하는 바람직한 방법이 미공개 특허 출원{EP 9920206.3 호(PHN 17514)}에 기술되며, 이러한 알고리즘의 상세한 사항들은 본 명세서에서 참조로서 병합된다.

도 2에 도시된 실시예에서, 하나의 마이크로폰을 사용하는 대신에, 독립된 마이크로폰으로부터 입력을 얻는 가능성이 제공된다. 마이크로폰들은 종래의 마이크로폰 어레이에 위치할 수 있을 것이며, 여기서 각 마이크로폰은 다른 방향을 담당할 것이다. 바람직하게, 오디오 소거 모듈(100)은 가전 시스템에서 사용되며, 여기서 이 시스템 내의 수 개의 장치들은 마이크로폰을 갖는다. 도 2는 이러한 시스템을 도시한다. 이 시스템에서, 오디오 세트(200)는 내장된 마이크로폰(202)(또는 마이크로폰 입력)과 마이크로폰 신호 출력(204)을 갖는다. 이와 유사하게, TV(210)는 내장된 마이크로폰(212)(또는 마이크로폰 입력)과 마이크로폰 신호 출력(214)을 갖는다. 오디오 소거 모듈(100)은 이 시스템의 다른 장치(220)에 위치한다. 이 예에서, 이 장치(220)는 내장된 마이크로폰(222)(또는 마이크로폰 입력)을 또한 갖는다. 장치(220)는 각 출력(204 및 214)으로부터 마이크로폰 신호들을 수신하기 위한 두 개의 마이크로폰 입력(224 및 226)을 갖는다. 모든 마이크로폰 신호들(이 예에서, 두 개의 외부 마이크로폰 신호들과 하나의 내부 마이크로폰 신호)은 빔 형성기(beam former)(240)에 공급된다. 빔 형성기는 마이크로폰 신호들을 결합하여, 더 높은 성능과 분해능을 갖는 최종 마이크로폰 신호를 야기한다. 빔 형성기는 또한 오디오 소스를 선택하거나 심지어 '추적'할 수 있을 것이다. 전형적으로, 가장 큰 사운드를 갖는(loudest) 소스 신호가 식별되며(일반적으로 사람의 말), 이러한 소스 신호는 여러 마이크로폰 입력 신호들 중에서 추적된다. 빔 형성기의 출력 신호는 오디오 소거 유닛(100)의 마이크로폰 입력(110)에 제공된다. 각각의 외부 장치들로부터 오디오 신호를 수신하는데 기여하는 장치(220)의 두 오디오 입력(228및 230)이 또한 도시되어 있다. 도시된 시스템에서, 외부 오디오 입력(228 및 230)은 오디오 세트(200) 및 TV(210)의 각 오디오 라인 출력(206 및 216)에 연결된다. 장치(220) 내부에서, 외부 오디오 입력(228 및 230)은 오디오 소거 모듈(100)의 각 오디오 입력(120 및 130)에 연결된다.

도 3은, 오디오 소거 모듈(100)에 의해 발생된 음성 신호(140)가 음성 인식기(300)에 공급되는 추가적인 실시예를 도시한다. 바람직하게, 음성 인식기는 모듈(100)과 동일한 장치에 위치된다. 원한다면, 인식기(300)는 독립된 장치에 위치될 수 도 있을 것이다. 예컨대, 독립된 오디오 소거 모듈이 수 개의 방에 위치될 수 있을 것이며, 여기서 모듈들중 임의의 모듈로부터 수신된 음성을 인식할 수 있는 단 하나의 중앙 인식기가 사용된다. 인식의 결과는, 구술(음성-문자 변환), 제어 또는 정보 검색과 같은 수 개의 응용에 사용될 수 있을 것이다. 인식된 명령에 응답하여 제어 동작을 수행하는 제어기(310)가 도시되어 있다. 제어 동작은 제어기(310)가 위치한 장치의 동작으로 제한될 것이다. 특히, 만약 제어 유닛이 도 3에 도시된 바와 같이 더 큰 시스템의 일부를 형성하는 장치에 있다면, 바람직하게 제어 유닛은 다른 장치들의 동작도 제어한다. 이 때문에, 제어기는 점선으로 도시된 명령 메시지(들)를 제어 통신 네트워크를 통해서 시스템의 다른 장치에 발급할 수 있다. 이러한 네트워크는 여러 방법들로 형성될 수 있을 것이다. 예컨대, 전용 제어 링크들이, 제어기(310)를 포함하고 있는 장치(220)를 다른 장치들(200 및 210)에 연결하는데 사용될 수 있을 것이다. 이러한 링크는 하나 이상의 제어 신호 선들을 통해서 유효하게 될 것이다. 간단한 제어 링크를 수립하기 위해서, 원격 제어 메시지의 형태로 제어 메시지를 발급하는 것이 바람직하며, 이러한 제어 메시지는 전형적으로 적외선 신호들을 통해서 송신된다. 원칙적으로, 단방향 원격 제어 시스템은 메시지들을 제어 장치(220)로부터 다른 장치들로 전송할 수 있도록 사용될 것이다. 좀더 정교한 제어를 위해서, 양방향 원격 제어 시스템이 또한 사용될 수 있을 것이다. 원래, 원격 제어 시스템은 잘 알려져 있으며, 더 상세하게 기술되지 않을 것이다. 바람직하게, 제어기(310)는, 특정한 원격 제어 시스템 및 이러한 장치들의 메시지에 따라서 시스템의 장치들을 제어할 수 있도록 사용자에 의해 "프로그래밍"될 수 있다. 이 때문에, 제어기는 범용으로 사전에 프로그래밍되거나 학습된 원격 제어의 논리와 유사한 논리를 병합한다. 바람직하게, 사용자는 제어기(310)에 의해 발급되는 특정한 명령 메시지들을 위한 음성 명령을 명시할 수 있다. 이것은, 예컨대 사용자가 사전에 결정된 음성 명령(예컨대, '플레이' 또는 '시작') 목록으로부터 주어진 제어 메시지(예컨대, 테이프를 플레이하기 위한 VCR 지시)를 위해서 선택하게 함으로써 이뤄질 것이다. 이러한 사전에 결정된 음성 명령들은 스피커와는 독립된(speaker-independent) 인식을 사용하여 인식될 수 있다. 대안적으로, 사용자는 사용자 자신의 음성 명령을 명시할 수 있을 것이며, 이 경우, 바람직하게 스피커에 의존적인 인식이 사용된다. 본래, 음성 인식 및 음성 명령에 대한 명시는 알려져 있다.

도 4에 도시된 실시예에서, 장치(200, 210, 220)는 통신 네트워크(400)를 통해서 연결된다. 이러한 네트워크는 여러 데이터 유형을 전송하는데 사용될 수 있을 것이며, 이러한 데이터 유형의 예로:

- 오디오 신호(전형적으로, 디지털 형태이며, 등시성 데이터 스트림으로서 전송됨)

- 마이크로폰 신호(전형적으로, 전송을 위한 오디오 신호로 취급됨)

- 제어 지시/메시지가 있다.

바람직하게, 동일한 네트워크는 이러한 이송의 형태중 수 개 또는 심지어 모두를 제공한다. 도 4에 도시된 예에서, 오디오 신호 및 제어 신호는 이 네트워크를 통해서 전송된다. 이 때문에, 음성 인식 장치(220)는, 이 네트워크를 통해서 송신된 데이터로부터 오디오 신호들을 검색하여 이 오디오 신호들을 오디오 소거 모듈에 공급하기 위한 통신 인터페이스(410)를 포함하며, 이 통신 인터페이스(410)는 본래 잘 알려져 있다. 제어기(310)에 의해 생성된 명령 메시지들은 동일한 통신 인터페이스(410)를 통해서 송신된다.

오디오/비디오 장비 또는 가정용 기구들과 같은 CE 장치에 대한 음성 제어는, 사용자에게 있어서 어떠한 명령들이 사용될 수 있는지가 종종 분명하지 않다는 점에서 일반적으로 어렵다. 특히, 크거나 고성능(advanced) 시스템에서, 제어 가능한 기능의 개수는 많아지며, 다양할 것이다. PC에 대한 음성 제어를 위해서 사용자는 모든 가능한 음성 명령들에 대한 개요를 얻기 위해서 도움 기능을 사용할 수 있는 반면에, CE 장비의 사용자 인터페이스 가능성은 좀더 제한되기 쉽다. 이러한 문제들을 극복하기 위해서, 제어기가 사용자에게 그 순간에 어떠한 명령들이 구두로 명령될 수 있는지에 대한 정보를 제공하도록 동작하는 것이 바람직하다. 이러한 소위 피드-포워드(feed-forward)에서, 명령의 목록은, 시스템 또는 포함되는 장치의상태에 의해서 또는 주어진 제어 계층(hierarchy)/시퀀스에 의해서 또는 컨텍스트(context)에 의해서 결정되어 수행될 수 있는 이러한 명령들로 제한된다. 일예로, 만약 중앙집중된 제어기가 시스템의 일부 장치 또는 모든 장치를 제어하기 위해서 사용된다면, 초기의 피드-포워드 목록은 디바이스 선택 명령들('TV', 'VCR', 'CD'와 같은)만을 포함할 수 있을 것이며, 이러한 디바이스 선택 명령들은 사용자가 어떠한 장치를 제어하려고 하는지를 제어기에게 통보한다. 그 다음에, 피드-포워드 목록은, 제어 계층/시퀀스 또는 선택된 장치의 상태를 고려하여 상기 장치에 의해 수행될 수 있는 선택된 장치의 이러한 명령들만을 포함할 것이다.

제어 계층/시퀀스에 관해, 요즘의 일부 장치들은, 그 순간에 제어될 수 있는 모든 기능들에 대한 직접 액세스를 제공하지 않는다. 전형적으로, TV의 오디오, 비디오 및 튜닝(tuning)에 대한 개선된 세팅은 계층적인 메뉴들을 통해서만 발생할 수 있다. 최상위(top) 메뉴에서, 사용자는 제어될 기능의 그룹을 선택한다. 제 2 레벨에서, 일반적으로 사용자는 선택된 그룹의 특정한 기능들을 제어할 수 있다. 때때로, 훨씬 더 많은 메뉴 레벨들이 사용된다. 음성으로 제어되는 장치의 경우, 상당히 가능한 많은 기능들에 대한 직접 액세스를 제공하는 것이 바람직하다. 본 발명에 따라서, 고도의 기능을 갖는 장치들에 대해서, 계층적인 접근법이 음성 제어에 또한 사용된다. 이것은 가능한 음성 명령의 개수를 제한하며(현재 선택된 음성 명령 그룹의 명령들로만), 인식의 안정도를 증가시킴과 동시에 이때 구두로 명령될 수 있는(speakable) 음성 명령들의 효과적인 피드-포워드를 가능하게 한다.

규정된 음성 명령의 계층/시퀀스를 사용하는 것 이외에 또는 그 대신에, 구두로 명령될 수 있는 명령들의 목록은 포함된 장치의 상태 또는 시스템의 상태를 고려하여 수행될 수 있는 이러한 음성 명령들만을 허용함으로써 또한 제한될 수 있다. 예컨대, 만약 CD 플레이어가 어떠한 디스크도 포함하지 않는다면, 피드 포워드 목록은 명령("배출" 및 "대기")만을 포함할 것이며, 반면에 만약 디스크가 로딩(loading)되어 있다면 더 큰 명령의 목록이 가능할 것이다. 본 발명에 따른 다른 실시예에서, 피드-포워드 목록은 장치의 고정된 상태 동작에 의해서 결정될 뿐만 아니라 가변적인 컨텍스트 정보에 의해서도 결정된다. 예컨대, 만약 TV가 인터넷 또는 전자 프로그래밍 안내(EPG : Electronic Programming Guide)로부터 예컨대 검색된 정보를 디스플레이한다면, 정보는 그 자체로 어떠한 음성 명령들이 가능한지에 영향을 미칠 것이다. 인터넷 페이지의 경우, 링크가 구두로 명령될 수 있을 것이며, EPG 페이지의 경우 프로그램들이 시청 또는 레코딩을 위해 선택될 수 있을 것이다. 브라우징(browsing) 명령들이 또한 구두로 명령될 수 있을 것이다. 내용이 피드 포워드 목록을 결정할 수 있는 또 다른 예는 디스크 내용의 기능이 바뀌는 상황이다. 예컨대, 만약 디스크가 하나의 인덱스(index)만으로 로딩된다면, 피드-포워드 목록은 인덱스 선택 명령을 포함하지 않을 것이다. 만약 디스크가 8개의 트랙을 포함한다면, 단지 처음 8개의 트랙만이 음성을 통해 선택될 수 있다. 이와 유사하게, 만약 복사 방지된 테이프가 VCR에 로딩된다면, "레코딩" 명령은 사용될 수 없으며, 피드-포워드 목록에 있을 필요가 없다.

제어기는 장치의 제어 계층에 관한 정보로 사전에 프로그래밍될 수 있을 것이다. 특히, 만약 제어기가 제어되고 있는 장치의 일부분이라면, 제어기는 계층의어느 부분이 동작 중인지를 쉽게 관리할 수 있으며, 그에 따라 피드-포워드 목록을 로딩하거나 컴파일(compile)할 수 있다. 만약 제어기가 제어되고 있는 장치의 일부분이 아니라면, 바람직하게 제어기는 제어되고 있는 제품으로부터 관련된 정보를 얻는다. 이러한 정보는 통신 네트워크를 통해서 얻어질 수 있을 것이다. 정보는 여러 방식으로 얻을 수 있다. 예를 들면, 제어기는 포함된 장치로부터 전체 제어 계층을 얻을 수 있다. 그리하여, 제어기는 계층의 어떤 부분이 동작 중인지를 예컨대 사용자의 입력에 기초하여(음성 명령 또는 원격 제어를 통한) 자체적으로 관리할 수 있다. 또한, 제어기는 어떤 부분이 사용자로부터 입력을 수신하는 순간에 동작 중인지를 검사할 수 있다. 대안적으로, 제어되고 있는 장치는 제어기가 장치의 현재의 상태를 계속 통보 받게 할 수 있다. 상태 모니터링(monitoring) 또는 자동 상태 업데이팅(updating)을 수행하기 위한 통신 프로토콜은 잘 알려져 있다. 제어기가 전체 제어 계층/시퀀스를 얻는 대신에, 제어기는 제어 계층의 당시에 동작중인 부분에 의해 형성되거나 장치의 당시에 동작중인 상태에 의해 허용되는 명령 세트의 부분만을 또한 검색할 것이다.

피드-포워드 목록의 실제 표시는, 예컨대 구두로 명령될 수 있는 명령들을 시각적으로 또는 청각적으로 표시하는 것과 같은 임의의 적절한 형태로 수행될 것이다.

상술한 바와 같이, 본 발명은 음성 인식 장치, 가전 시스템 및 오디오 소거 모듈에 이용된다.

Claims

마이크로폰(microphone)으로부터 오디오 신호를 수신하기 위한 오디오 입력과, 오디오 소스로부터 오디오 신호를 수신하기 위한 오디오 입력을 포함하는 오디오 소거 모듈로서, 상기 마이크로폰 신호로부터 상기 오디오 소스 신호를 소거(cancel)함으로써 음성 신호를 발생하도록 동작하는 오디오 소거 모듈과;

적어도 상기 음성 신호의 일부분을 인식하기 위한 음성 인식기(speech recognizer)를

포함하는 음성 인식 장치로서,

상기 오디오 소거 모듈은 각각 독립적인 오디오 소스들로부터 오디오 신호들을 수신하기 위해서 적어도 두 개의 오디오 입력을 포함하며, 상기 오디오 소거 모듈은 상기 마이크로폰 신호로부터 상기 적어도 두 개의 독립적인 오디오 소스 신호들을 소거함으로써 상기 음성 신호를 발생시키도록 동작하는 것을 특징으로 하는, 음성 인식 장치.
제 1항에 있어서, 상기 음성 인식 장치는, 상기 음성 인식기에 의해 인식되는 사용자의 구두의 지시에 응답하여 적어도 하나의 명령 메시지를 제어 통신 네트워크를 통해서 추가적인 장치에 발급하기 위한 제어기를 포함하는, 음성 인식 장치.
제 2항에 있어서, 상기 제어기는 상기 추가적인 장치와 관련된 원격 제어 메시지들에 따라서 상기 적어도 하나의 명령 메시지를 발급하도록 동작하는, 음성 인식 장치.
제 1항에 있어서, 상기 적어도 하나의 오디오 신호는, 상기 음성 인식 장치의 외부에 있는 오디오 소스로부터 오디오 통신 네트워크를 통해서 수신되는, 음성 인식 장치.
제 3항 또는 제 4항에 있어서, 상기 오디오 통신 네트워크는 상기 제어 통신 네트워크와 같은 것인, 음성 인식 장치.
제 1항에 있어서, 상기 음성 인식 장치는, 상기 음성 인식 장치의 외부에 있는 오디오 소스로부터 오디오 신호를 수신하기 위한 적어도 하나의 오디오 입력을 포함하며, 여기서 상기 오디오 신호는, 상기 마이크로폰 신호로부터 상기 오디오 신호를 소거할 목적으로 대체로(substantially) 수신되는, 음성 인식 장치.
적어도 두 개의 오디오 소스 장치와;

마이크로폰으로부터 오디오 신호를 수신하기 위한 오디오 입력과, 상기 오디오 소스 장치 각각으로부터 독립적인 오디오 신호들을 수신하기 위한 적어도 두 개의 오디오 입력을 포함하는 오디오 소거 모듈로서, 상기 마이크로폰 신호로부터 상기 적어도 두 개의 독립적인 오디오 소스 신호들을 소거함으로써 음성 신호를 발생하도록 동작하는 오디오 소거 모듈과;

적어도 상기 음성 신호의 일부분을 인식하기 위한 음성 인식기를,

포함하는 가전 시스템.
제 7항에 있어서, 상기 시스템은, 상기 음성 인식기에 의해 인식되는 사용자의 구두의 지시에 응답하여 적어도 하나의 명령 메시지를 통신 네트워크를 통해서 상기 시스템의 장치에 발급하기 위한 제어 유닛을 포함하는, 가전 시스템.
제 8항에 있어서, 상기 적어도 하나의 오디오 신호는 상기 통신 네트워크를 통해서 상기 관련된 오디오 소스 장치로부터 수신되는, 가전 시스템.
제 9항에 있어서, 상기 오디오 소거 모듈은 상기 시스템의 장치에 위치하며, 여기서 상기 장치는 상기 장치의 외부에 있는 오디오 소스 장치로부터 오디오 신호를 수신하기 위한 적어도 하나의 오디오 입력을 포함하며, 상기 오디오 신호는, 상기 마이크로폰 신호로부터 이러한 오디오 신호를 소거할 목적으로 대체로 수신되는, 가전 시스템.
마이크로폰으로부터 오디오 신호를 수신하기 위한 오디오 입력과;

각 독립적인 오디오 소스들로부터 오디오 신호들을 수신하기 위한 적어도 두개의 오디오 입력을 포함하는 오디오 소거 모듈로서,

상기 마이크로폰 신호로부터 상기 적어도 두 개의 독립적인 오디오 소스 신호를 소거함으로서 음성 신호를 발생시키도록 동작하는, 오디오 소거 모듈.