KR20020040850A

KR20020040850A - 공통 에코 소거가 있는 다중-디바이스 오디오-비디오

Info

Publication number: KR20020040850A
Application number: KR1020027004598A
Authority: KR
Inventors: 파울 아. 페. 카우프홀쯔
Original assignee: 요트.게.아. 롤페즈; 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2000-08-15
Filing date: 2001-08-02
Publication date: 2002-05-30
Also published as: EP1312078A1; CN1190775C; US20020021799A1; JP2004506944A; CN1388956A; WO2002015169A1

Abstract

다중-디바이스 오디오-비디오 시스템은 음성 인식 설비와 에코 소거 설비를 포함한다. 특히, 복수의 그리고 기능상 분리된 그러한 음성 인식 설비 및 에코 소거 설비가 존재한다. 이제, 상기 에코 소거 설비는 그것의 하나 이상으로써 하나 이상의 서로 독특한 소거 가능한 음성 엔티티(entity)를 소거하기 위하여 그리고 상기 시스템에 의해 전반적으로 인식되지 않은 그러한 소거된 엔티티를 결합하기 위하여 자체의 힘을 결합한다.

Description

공통 에코 소거가 있는 다중-디바이스 오디오-비디오{MULTI-DEVICE AUDIO-VIDEO WITH COMMON ECHO CANCELING}

이제, 음성 인식은 널리 사용되고 있는데, 그러한 것은 일반 시장을 위한 소비자 시스템으로의 적용을 포함한다. 이 점에서 상기 에코 소거는 특정 디바이스가 자체적으로 현재 생성하고 있는 음성은 인식하지 않을 것이므로 작동 레벨 상에서 기능을 한다. 그럼에도 불구하고, 인간 혹은 다른 외부 사용자는 상기 디바이스에 의해 생성되고 있는 전체 스펙트럼의 소리를 수신하여야 한다. 따라서, 상기 소거는 상기 디바이스에서 내부적으로 실행되며, 그로 인해, 상기 디바이스 자체가 방출한 소리는 고려 대상에서 기능상 차단된다. 오늘날, 시스템은 사용자에게서 나온 특정한 음성 항목을 각각 인식할 수 있는 여러 디바이스로 구성될 수 있는데, 그렇지만, 어느 항목이 인식되어서는 않되는 지를 예측하는 것은 불가능하다. 특히, 특정 시스템의 여러 디바이스가 서로 다른 제조사에서 생산될 수 있다는 점에서 문제는 더 악화된다. 다른 경우에서는, 결코 결합체(combination)로 작동하리라 의도된적이 없는 디바이스가 결합될 수 있다. 같은 제조사에서 나온 디바이스 또는 다른 제조사에서 나온 디바이스는 여러 오디오 소스를 포함할 수 있다.

본 발명은 음성 인식 및 에코 소거 설비를 포함하는 다중-디바이스 오디오-비디오 시스템을 작동시키는 방법에 관한 것이다. 더 특별히, 본 발명은 청구항 1의 전제부에 언급된 방법에 관한 것이다.

도 1은 본 발명으로 사용하기 위한 일반적인 음성-강화된 디바이스를 도시한 도면.

도 2는 분산된 자동 음성 인식(ASR) 및 분산된 자동 에코 소거(AEC)가 있는 다중-디바이스 음성-강화된 시스템을 도시한 도면.

도 3은 별표(star) 구성으로 분산된 ASR 및 분산된 AEC가 있는 다중-디바이스 음성-강화된 시스템을 도시한 도면.

도 4는 분산된 ASR과 집중된(centralized) AEC가 있는 다중-디바이스 음성-강화된 시스템을 도시한 도면.

도 5는 집중된 ASR과 집중된 AEC가 있는 다중-디바이스 음성-강화된 시스템을 도시한 도면.

도 6은 집중된 ASR과 분산된 AEC가 있는 다중-디바이스 음성-강화된 시스템을 도시한 도면.

도 7은 진보된 셋업으로 분산된 ASR과 분산된 AEC가 있는 다중-디바이스 음성-강화된 시스템을 도시한 도면.

결과적으로, 다른 것들 중에서도, 본 발명의 목적은 에코 소거가 여러 디바이스 레벨에서 고안되어 있으나, 종합(comprehensive) 시스템 레벨에서 작동하는

다중-디바이스 시스템을 작동시키는 방법을 제공하는 것이다.

따라서, 이제, 본 발명의 일 양상에 따라, 본 발명은 청구항 1의 특징부에 따라 특징지어 진다.

본 발명은 또한, 청구항 8에 주장된 바와 같이 작동하는 다중-디바이스 시스템에 관한 것이다. 또한, 본 발명은 청구항 15에 주장된 바와 같이, 본 발명에 따른 시스템에서 사용하기 위한 음성-강화된 디바이스에 관한 것이다. 본 발명의 추가 장점이 있는 양상은 종속항에 언급되어 있다.

본 발명의 이와 같은 그리고 추가인 양상 및 장점은 바람직한 실시예의 개시를 참조하여, 그리고 특히 첨부된 도면을 참조하여 다음에 더 상세히 논의될 것이다.

도 1은 본 발명으로 사용하기 위한 일반적인 음성-강화된 디바이스(20)를 예시한다. 단순하게 하기 위해, 가장 중요한 사용자 지시 기능이 도시되었다. 이러한 기능은, 명시되거나 암시된 어떠한 제한 없이, 오디오 또는 오디오-비디오 튜너와, 오디오 재생기와, 오디오 녹음기 또는 오디오-비디오 녹음기 또는 오디오 컴포우저 또는 오디오-비디오 컴포우저(composer)를 나타낸다. 대조적으로, 도 1의 상세 사항은 제어 기능으로 제한되었다. 일반적으로, 사용자 제어 입력은 이를테면 양방향 라인 쌍(46)의 입력 라인으로 상징된 바와 같이 직접적(immediate)이며, 이러한 제어는 사용자 버튼 등을 통해 기계적으로 또는 IR 신호 등을 통해 원격으로 될 수 있다. 제어 신호 보낸 것의 출력은 램프나 다른 시각적 디스플레이 표시기를 통해서, 문자 디스플레이, 버저(buzzers) 및 다른 것을 통해서 된다. 게다가, 제어 신호 보내기는 라인(46) 쌍을 통해 다른 연결되어 있는 오디오-비디오 디바이스와 주고 받아질 수 있다.

항목(30)은 일반적인 음성이 강화된 디바이스(General Speech Enhanced Device)의 사용자 기능을 나타낸 것으로, 라인(46)으로부터 외부의 제어를 수신하여, 출력(46)에서는 일반적인 용도 용으로 오디오, 이를테면, 방송된 오디오를, 라인(38)에서는 본 명세서에서 다음에 논의하겠지만 다른 용도 용으로 오디오를 선택적으로 생성한다. 덧셈 메커니즘(32)을 통한 위의 내용 중 나중의 오디오는 스피커(48)로 보내진다. 항목(22)은 음성-제어되는 라인(34) 상에 덧셈 메커니즘(32)으로의 피드백을 생성할 수 있어서, 그로 인해 피드백 소리가 스피커(48) 상에 출력되는 것을 소거하도록 하는 사용자 인터페이스(Voice-Controlled User Interface)를 나타낸다. 다른 방법으로는, 항목(22)은 외부의 사용을 위한, 또는 디바이스(30)를 제어하기 위한 인터페이스(46) 상에서 비-오디오 출력을 생성할 수 있다.

오퍼레이터가 상기 디바이스로 음성을 입력하는 것은 마이크로폰(28)에서 이루어질 수 있다. 그렇게 수신된 음성은 라인 쌍(42)의 나가는 라인 상으로 출력될 수 있다. 상기 음성은 AEC(Automatic Echo Canceller: 자동 에코 소거기) 블록(26)에 전달(communicating)하도록 라인 쌍(42)의 입력 라인 상에 수신된 음성에 대안으로서 사용될 수도 있다. 상기 AEC 블록은 양방향 채널(40)의 나가는 채널 상에 음성 신호를 출력할 것이다. 이 같은 음성 신호는 마이크로폰(28) 상에서 수신된음성 신호와 근접하게 일치(correspond)하는데, 그러나, 상기 마이크로폰으로부터의 음성 신호는 도 1에 도시된 항목(48)을 통해 상기 디바이스에 의해 출력된 어떠한 오디오 신호도 큰 폭으로 삭제(deleted)되었다. 그러한 음성 신호는 도 1에서 참조 번호 60으로 표시된 전용 채널에 수신되었다. 상기 디바이스 자체의 오디오 출력을 위해 그렇게 교정한 음성 신호는 양방향 음성 채널(40)의 나가는 채널 상에 출력되거나, 혹은 음성 인식 항목(24)의 입력으로 보내지거나, 이 둘 중의 하나가 될 수 있다. 상기 음성 인식 항목은 양방향 음성 채널(40)의 입력 채널 상에서 수신된 외부에서 송신된 음성 수신을 양자택일로 선택할 수 있다. 항목(24)은 한정하지 않고 종래의 것일 수 있는 전략에 따라 그렇게 수신된 음성을 인식할 것이다. 상기 인식 결과는 양방향 채널 쌍(44)의 나가는 채널 상에 문자(text)로서 출력될 수 있거나, VCUI(Voice-Controlled User Interface: 음성-제어된 사용자 인터페이스) 항목(22)으로 전송될 수 있다. 상기 VCUI 항목은 양방향 채널 쌍(44)의 입력 채널을 따라 외부에서 입력된 문자를 양자택일로 수신할 수 있다. 상기 VCUI 모듈(22)은 이전에 논의한 바와 같이 추가의 제어 신호를 생성할 수 있거나, 스피커 박스(48)로 공급(feeding)하기 위한 오디오 출력을 생성할 수 있거나, 비디오 디스플레이를 출력할 수 있는데, 이는 간결하게 하기 위하여 논의되지 않았다. 더 추가로, VCUI 모듈은 캐스케이드 구조에 응용하기 위해 모듈(24,26,28,48) 중 임의의 것 또는 전부를 위한 라인(36) 상에 선택적 디스에이블(disable) 신호를 생성할 수 있다. 그것의 쓰임새는 본 명세서에서 다음에 더 상세히 논의될 것이다.

여러 실시예에서, 도 1의 디바이스의 특정 요소는 생략될 수 있다. 특히, 라인 쌍(44)은 옵션이며, 라인 쌍(42)에서 밖으로 나가는 라인은 생략될 수 있는데, 반면에, 특정의 다른 요소는 본 명세서에서 다음에 도시된 실시예 중 하나 이상에서 정말 꼭 필요한 것은 아니다. 그러나, 라인 쌍(42) 안의 라인에 있는 마이크로폰은 도 6, 도7에서{참조: 특히 접속(100)} 큰 쓰임새가 있을 것이다.

도 2는 분산된 자동 음성 인식(ASR) 및 분산된 자동 에코 소거(AEC)가 있는 다중-디바이스 음성-강화된 시스템을 예시한다. 상기 시스템은 오디오 세트와 TV의 조합으로 예시되어 있는데, 그럼에도 불구하고, 여러 다른 다중-디바이스 시스템이 구성될 수 있으며, 그러한 시스템은 두 개 이상의 디바이스 사용을 포함한다. 이어지는 모든 도면에서, 스테레오 오디오 용인 것과 같은 두 개의 채널 병렬 셋업 또는 서라운드 사운드에서 사용하기 위한 것과 같은 다중-채널 셋업 및 다른 정교한 재생 테크닉이 사용될 수 있는데, 여러 채널로 된 상기 도면에서는 별도의 표시가 없다. 이제, 각 디바이스는 VC 사용자 인터페이스 용으로 자체만의 소프트웨어 층이 필요할 것이다. 그러나, 여러 독자적 디바이스에 내장된 그와 같은 기능으로, 음성 제어는 양쪽 디바이스를 동시에 틀 때 사실상 실패할 수 있다. 스테레오 애플리케이션을 위한 폭력 교정법(brute-force remedy)은 각 디바이스에 두 개씩, 네 개 채널 모두를 가지게 될 것이며, 각 디바이스에서 별도로 에코 소거를 실행한다. 그 때에, 만약 마이크로폰 채널 역시 필요로 한다면, 내부적으로 상기 디바이스에서 이것에 적어도 다섯개의 채널을 필요로 한다. 만약 채널 수가 더 올라가면, 문제점은 지수적으로 커진다. 게다가, 상기 디바이스는 적어도 4중 에코 소거를 실행하기에 충분한 처리력을 가져야 한다. 서로 다른 디바이스들은 더군다나 서로 연결되어 있어야 한다. 분명히, 이와 같이 설명한 해결책은 하드웨어, 소프트웨어 집약적 양쪽 모두이며, 그러한 것으로서 둘 다 비싸며 에러를 일으키고 제대로 작동하지 않기 일쑤이다.

이 점에서, 도 3은 별 모양의 구성인 상호 연결 패턴이 강화된 도 2의 구성을 예시한다. 필요 조건(requirements)은 네트워크 상호 연결, 오디오 아웃(audio out), 및 다중 채널 자동 에코 소거이다. 만약 두 개 이상의 디바이스가 시스템을 구성하고 있다면, 혹은 이를테면 HIFI 이상의 품질을 실행하도록 오디오 렌더링(rendering)과 관련한 오디오 채널의 수가 늘어난다면, 상기 필요 조건은 지수적으로 증가할 것이라는 점에 주의하기 바란다. 많은 상태에서, 이와 같이 요구되는 기술적 설비는 과도하다고 증명되리라는 것을 알게 된다.

이제, 더 수월한(straightforward) 해결책에서는 단지 하나의 스피커만이 사용되는데, 상기 해결책에서 단 하나의 디바이스만이, 상기 시스템에서 상기 디바이스 중의 임의의 것에 의해 생성된 사운드 모두를 출력할 것이다.

추가의 도면은 본 발명에 따른 시스템의 여러 비 한정적인 실시예를 예시한다. 이 점에서, 도 4는 분산된 ASR 및 집중된 AEC가 있는 시스템을 도시한다. 이제, 단일의 n-채널 오디오 신호의 소거만이 필요한데, 여기서, n은 임의의 실수의 정수값을 가질 수 있다. 배선(wiring)은 흔히 아주 간단할 수 있는데, 이를테면 TV 오디오-아웃을, 오디오 세트 상에 흔히 나타나는 보조 오디오 입력에 연결함으로써 그렇게 될 수 있다. 그러나, 덧붙여, AEC 이후에, 음성 신호는 다른 디바이스(들)의 "라인 입력(line-in)"으로 전달되어, 클린업된(cleaned-up) 신호를 인식하여야한다. 음성 UI는 사실, 각 디바이스에서 단독으로 남아 있는다. 덧붙여, 복수의 마이크로폰 및 연계된 추가의 입력 채널을 필요로 하는 미래의 빔 형성 테크놀로지에 추가의 입력 채널이 사용될 수 있다. 도 3에 도시된 시스템은 텔레비전 세트와 연결된(hooked up)된 VCR 환경에 있다. 이 같은 접근법을 위한 필요 조건은 다음과 같다: 에코 소거 후에 음성 나감, 자동 음성 인식 전에 음성 입력, AEC 디스에이블 함, 마이크로폰 디스에이블 함, 두 개의 채널 오디오 나감. 상기 VCR 박스에서, 상기 VCR에 병합된 바와 같이, 그리고 자체의 광 프린팅(printing)에 의해 표시된 바와 같이 도 1의 디바이스에서의 선택적인 차단을 통해 하부 시스템 AEC, 마이크로폰, 및 스피커가 작동하지 않는다는 것에 주목하기 바란다.

도 5는 집중된 ASR 및 집중된 AEC가 있는 시스템을 예시하는데, 이는 요약하면, 중앙 음성 제어 박스를 사용하는 것이 될 수 있다. 어울리는(possible) 플랫폼(platform)은 셋톱 박스 안에 실현될 수 있다. 상기 조직은 도 4의 구성의 모든 장점을 실현한다. 게다가, 오직 한 개의 음성 인식기 메커니즘만이 필요하다. 사용자 환경에 있어서 가장 뚜렷한 장점은 단일의 공간에 다수의 인식기가 본래부터 부재(absence)한다는 점이며, 게다가, 여러 개의 서로 다른 디바이스 제어 향상이 가능하다는 점과 및 더 강력한 시스템으로 확장이 가능하다는 점이다. 간단히 하기 위해, 도 5는 단 두 개의 디바이스로 국한시키는데, 각 디바이스에는 2-채널 AEC가 있다. 이제, 필요 조건은 다음과 같다: 각 디바이스에 대한 양방향 제어 링크, 이는 HAVi 네트워크를 통해 즉각 실행될 수 있는 것이고, 오디오 아웃, 그리고 될 수 있는 한(possibly) 그 위에(still) 또 다른 오디오 디바이스에 대한 부가적오디오 입력이다. 오디오 세트 및 TV 디바이스에 존재하는 한, 도 1에 묘사된 요소 모두는. 오디오 세트의 스피커를 제외하고, 도 5에서 자체가 제외된 것으로 표시된 바와 같이, 디스에이블 될 것이다.

이제, 도 5의 셋업에서, 연결된 디바이스 중 하나는 2-채널 출력을 통해 여전히 최종 오디오를 틀 것인데, 이는 대개 오디오 디바이스 자체에 의해 실행된다. 이것은 사용자로 하여금 다른 모든 디바이스를 즉각 단일의 오디오 출력 디바이스로 연결하게 강제할 것이다. 분산된 AEC로, 이 같은 옵션은 서로 다른 음성-강화된 오디오 디바이스로 하여금 자체 개개 고유의 오디오를 각각 틀게 해 줄 상기 SCB 구조에 중요치 않은 변화만으로서 눈에 보일 수 있다. 음향적 에코 소거는 분산된 방식으로 모든 디바이스에 대해 이루어지며, 그리하여, 각 개개의 디바이스에서 잇달아 이루어진다.

기술적으로는, 이제 두 개 이상의 오디오 채널을 소거하기 위하여 각각 두 개의 채널을 지닌 두 개 이상의 ASR-AEC 디바이스를 사용하고 있다. 예컨대, 음성-강화된 오디오 세트 및 음성-강화된 텔레비전 세트는 각각 자체 고유의 오디오 출력을 가질 수 있는 반면에, 여러 스테레오 채널은 차례로 에코-소거될 것이다. 최종의, 클린업된 음성 신호는 여러 디바이스를 제어하기 위하여 중앙 SCB에서 사용된다. 이제, 여러 개의 서로 다른 음성 신호가 존재하는데, 그것들 모두가 왜곡(distorted)될 수 있다. 게다가, 여러 단계를 차례로 실행하면서 초래된 지연 또한 문제를 일으킬 수 있다.

이 점에서, 도 6은 오디오, TV, 및 SCB를 포함하고, 집중된 ASR 및 분산된AEC를 지녀서, 상기 단점들 중 몇 가지를 완화시키는 또 다른 시스템 실시예를 예시한다. 이제 특별 필요 조건은: 에코 소거 이후에 음성 나감, ASR 디스에이블 함, AEC 디스에이블 함, 마이크로폰 디스에이블 함, 입력 라인, 그리고 각 디바이스에 대해 양방향 제어 링크-이는 네트워크를 통해 다시 실현될 수 있다-를 포함한다. 도시된 바와 같이, 오디오 디바이스에서, ASR은 선택적으로 디스에이블 되었다. 게다가, TV에서, ASR 및 마이크로폰은 선택적으로 디스에이블 되었다. 더 추가로, SCB 디바이스에서, 마이크로폰 및 AEC는 디스에이블 되었다. 이 셋업에서, 오디오 디바이스 및 텔레비전 세트 둘 모두는 도시된 바와 같이, 자체의 스피커를 사용할 수 있다.

특히, SCB는 상기 연결된 디바이스들에 의해서만 대체될 수 있는데, 여기서 상기 클린업된 음성 신호는 다른 모든 디바이스에 역연결(retrocoupled)된다. 이것은 사실, 시스템이 도 2의 옵션을 닮도록 하는데, 상기 도 2의 옵션은 아마도 덜 명확한 선택이긴 하겠지만, 그럼에도 불구하고 매우 실용적이다. 패키지 관점에서 볼 때, 중요한 착상(idea)은 모든 디바이스를 연결하는 것을 즉각적으로 필요로 하지 않고서, 그리고 사운드를 출력하기 위해 오디오 디바이스를 지나치게 사용하는 의무 없이, 탄탄한 ASR 테크놀로지를 도입한다는 것이다. 이는 사실, 진보한 셋업 안에 분산된 ASR과 분산된 AEC를 지닌 도 7의 옵션을 초래한다. 이 같은 방식은 다음의 기능적 필요 조건을 갖는다: 자동 에코 소거 이후에 음성 나감, 마이크로폰 디스에이블 함, 그리고 입력 라인. 도시된 바와 같이, TV 세트는 자체의 마이크로폰이 선택적으로 디스에이블 되었다.

상술한 바와 같이, 본 발명은 음성 인식 및 에코 소거 설비를 포함하는 다중-디바이스 오디오-비디오 시스템을 작동시키는 방법에 관한 것이다. 더 특별히, 본 발명은 청구항 1의 에 언급된 방법에 이용된다.

Claims

사용자 음성 인식 설비 및 시스템으로부터의 음성 출력이 사용자 음성이라고 인식하는 것을 피하기 위한 에코 소거(echo canceling) 설비를 포함하는 사용자 대화식(user-interactive) 다중-디바이스 오디오-비디오 시스템을 작동하는 방법으로서,

복수의 그리고 기능상 분리된 그러한 음성 인식 설비 및 에코 소거 설비의 존재 시, 상기 에코 소거 설비를 구동하여, 이들의 힘(force) 중 하나 이상으로써 하나 이상의 서로 독특하고 소거 가능한 음성 엔티티(entity)를 소거하기 위하여, 그리고 상기 시스템에 의해 전반적으로 인식되지 않은 그러한 소거된 엔티티를 결합하기 위하여 자체의 힘을 결합하는 것을

특징으로 하는, 사용자 대화식 다중-디바이스 오디오-비디오 시스템 작동 방법.
제 1 항에 있어서, 상기 결합은 여러 에코 소거 설비를 직렬로 배열(도 6, 도 7)하여 작동하는, 사용자 대화식 다중-디바이스 오디오-비디오 시스템 작동 방법.
제 2 항에 있어서, 상기 직렬 배열로부터 상기 음성 인식 설비를 집중된 방식(도 6)으로 공급(feeding)하는, 사용자 대화식 다중-디바이스 오디오-비디오 시스템 작동 방법.
제 2 항에 있어서, 상기 직렬 배열로부터 여러 음성 인식 설비를 분산된 방식(도 7)으로 공급하는, 사용자 대화식 다중-디바이스 오디오-비디오 시스템 작동 방법.
제 1 항에 있어서, 상기 결합은 상기 시스템에 상기 에코 소거 설비를 집중함으로써 그리고 그로부터 여러 음성 인식 설비를 분산된 방식(도 4)으로 공급함으로써 작동하는, 사용자 대화식 다중-디바이스 오디오-비디오 시스템 작동 방법.
제 1 항에 있어서, 상기 결합은 상기 에코 소거 설비와 음성 인식 설비를 접합(joint) 제어 설비(도 5)에 집중함으로써 작동하는, 사용자 대화식 다중-디바이스 오디오-비디오 시스템 작동 방법.
제 1 항에 있어서, 상기 결합은 여러 에코 소거 설비를 집중된 제어 디바이스(도 4)에 배열함으로써 그리고 그로부터 여러 음성 인식 설비를 병렬로 공급함으로써 작동하는, 사용자 대화식 다중-디바이스 오디오-비디오 시스템 작동 방법.
음성 인식 설비 및 시스템으로부터의 음성 출력을 사용자 음성으로 인식하는 것을 피하기 위한 에코 소거 설비를 포함하는 다중-디바이스 오디오-비디오 시스템으로서,

복수의 그리고 기능상 분리된 상기 음성 인식 설비 및 에코 소거 설비의 존재 시, 상기 에코 소거 설비는 하나 이상의 상호 독특하고 소거 가능한 음성 엔티티를 소거하기 위한 접합 소거 수단 및 상기 시스템에 의해 전반적으로 인식되지 않은 상기 소거된 엔티티를 결합하기 위한 결합 수단을 통해 자체의 힘을 결합하도록 배열되는 것을 특징으로 하는,

다중-디바이스 오디오-비디오 시스템.
제 8 항에 있어서, 상기 결합 수단은 여러 에코 소거 설비를 직렬로(도 6, 도 7) 배열하는 직렬 배열을 포함하는, 다중-디바이스 오디오-비디오 시스템.
제 9 항에 있어서, 상기 직렬 배열로부터 상기 음성 인식 설비를 집중된 방식(도 6)으로 공급하도록 배열되는, 다중-디바이스 오디오-비디오 시스템.
제 9 항에 있어서, 상기 직렬 배열로부터 여러 음성 인식 설비가 분산된 방식(도 7)으로 공급되도록 배열되는, 다중-디바이스 오디오-비디오 시스템.
제 8 항에 있어서, 상기 결합 수단은 제어 디바이스 안에 집중된 상기 에코 소거 설비를 가지며 여러 음성 인식 설비를 분산된 방식(도 4)으로 공급하도록 배열되는, 다중-디바이스 오디오-비디오 시스템.
제 8 항에 있어서, 상기 결합 수단은 상기 에코 소거 설비 및 음성 인식 설비를 접합 제어 설비(도 5) 안에 집중시키도록 배열되는, 다중-디바이스 오디오-비디오 시스템.
제 8 항에 있어서, 상기 결합 수단은 여러 에코 소거 설비를 집중시키도록 배열되며(도 4) 그로부터 여러 음성 인식 설비를 병렬로 공급하는, 다중-디바이스 오디오-비디오 시스템.
제 8 항에 기재된 시스템에서 사용하기 위한 그리고 음성 인식 설비 및 디바이스로부터의 음성 출력을 사용자 음성으로 인식하는 것을 피하기 위한 에코 소거 설비를 구비한 음성 강화된 디바이스로서,

상기 상호 연결된 음성 인식 및 에코 소거 설비 사이에 삽입되고, 또 다른 그러한 디바이스를 상호 연결하기 위한 음성 입력/출력 수단을 구비하는 것을

특징으로 하는, 음성 강화된 디바이스.
제 15 항에 있어서, 상기 음성-인식 설비 중 하나 이상과, 상기 에코 소거 설비 및 상기 디바이스의 오디오 출력 설비를 선택적으로 디스에이블(disabling)하기 위한 제어 수단을 구비하는, 음성 강화된 디바이스.
제 15 항에 있어서, 마이크로폰 탈락(out) 수단과, 추가로, 상기 음성 인식 설비 중 하나 이상과, 상기 에코 소거 설비와, 상기 마이크로폰 탈락 수단을 선택적으로 제어하기 위한 제어 수단을 구비한, 음성 강화된 디바이스.