KR20020040850A - 공통 에코 소거가 있는 다중-디바이스 오디오-비디오 - Google Patents

공통 에코 소거가 있는 다중-디바이스 오디오-비디오 Download PDF

Info

Publication number
KR20020040850A
KR20020040850A KR1020027004598A KR20027004598A KR20020040850A KR 20020040850 A KR20020040850 A KR 20020040850A KR 1020027004598 A KR1020027004598 A KR 1020027004598A KR 20027004598 A KR20027004598 A KR 20027004598A KR 20020040850 A KR20020040850 A KR 20020040850A
Authority
KR
South Korea
Prior art keywords
echo cancellation
facility
voice
facilities
speech recognition
Prior art date
Application number
KR1020027004598A
Other languages
English (en)
Inventor
파울 아. 페. 카우프홀쯔
Original Assignee
요트.게.아. 롤페즈
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 요트.게.아. 롤페즈, 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 요트.게.아. 롤페즈
Publication of KR20020040850A publication Critical patent/KR20020040850A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Abstract

다중-디바이스 오디오-비디오 시스템은 음성 인식 설비와 에코 소거 설비를 포함한다. 특히, 복수의 그리고 기능상 분리된 그러한 음성 인식 설비 및 에코 소거 설비가 존재한다. 이제, 상기 에코 소거 설비는 그것의 하나 이상으로써 하나 이상의 서로 독특한 소거 가능한 음성 엔티티(entity)를 소거하기 위하여 그리고 상기 시스템에 의해 전반적으로 인식되지 않은 그러한 소거된 엔티티를 결합하기 위하여 자체의 힘을 결합한다.

Description

공통 에코 소거가 있는 다중-디바이스 오디오-비디오{MULTI-DEVICE AUDIO-VIDEO WITH COMMON ECHO CANCELING}
이제, 음성 인식은 널리 사용되고 있는데, 그러한 것은 일반 시장을 위한 소비자 시스템으로의 적용을 포함한다. 이 점에서 상기 에코 소거는 특정 디바이스가 자체적으로 현재 생성하고 있는 음성은 인식하지 않을 것이므로 작동 레벨 상에서 기능을 한다. 그럼에도 불구하고, 인간 혹은 다른 외부 사용자는 상기 디바이스에 의해 생성되고 있는 전체 스펙트럼의 소리를 수신하여야 한다. 따라서, 상기 소거는 상기 디바이스에서 내부적으로 실행되며, 그로 인해, 상기 디바이스 자체가 방출한 소리는 고려 대상에서 기능상 차단된다. 오늘날, 시스템은 사용자에게서 나온 특정한 음성 항목을 각각 인식할 수 있는 여러 디바이스로 구성될 수 있는데, 그렇지만, 어느 항목이 인식되어서는 않되는 지를 예측하는 것은 불가능하다. 특히, 특정 시스템의 여러 디바이스가 서로 다른 제조사에서 생산될 수 있다는 점에서 문제는 더 악화된다. 다른 경우에서는, 결코 결합체(combination)로 작동하리라 의도된적이 없는 디바이스가 결합될 수 있다. 같은 제조사에서 나온 디바이스 또는 다른 제조사에서 나온 디바이스는 여러 오디오 소스를 포함할 수 있다.
본 발명은 음성 인식 및 에코 소거 설비를 포함하는 다중-디바이스 오디오-비디오 시스템을 작동시키는 방법에 관한 것이다. 더 특별히, 본 발명은 청구항 1의 전제부에 언급된 방법에 관한 것이다.
도 1은 본 발명으로 사용하기 위한 일반적인 음성-강화된 디바이스를 도시한 도면.
도 2는 분산된 자동 음성 인식(ASR) 및 분산된 자동 에코 소거(AEC)가 있는 다중-디바이스 음성-강화된 시스템을 도시한 도면.
도 3은 별표(star) 구성으로 분산된 ASR 및 분산된 AEC가 있는 다중-디바이스 음성-강화된 시스템을 도시한 도면.
도 4는 분산된 ASR과 집중된(centralized) AEC가 있는 다중-디바이스 음성-강화된 시스템을 도시한 도면.
도 5는 집중된 ASR과 집중된 AEC가 있는 다중-디바이스 음성-강화된 시스템을 도시한 도면.
도 6은 집중된 ASR과 분산된 AEC가 있는 다중-디바이스 음성-강화된 시스템을 도시한 도면.
도 7은 진보된 셋업으로 분산된 ASR과 분산된 AEC가 있는 다중-디바이스 음성-강화된 시스템을 도시한 도면.
결과적으로, 다른 것들 중에서도, 본 발명의 목적은 에코 소거가 여러 디바이스 레벨에서 고안되어 있으나, 종합(comprehensive) 시스템 레벨에서 작동하는
다중-디바이스 시스템을 작동시키는 방법을 제공하는 것이다.
따라서, 이제, 본 발명의 일 양상에 따라, 본 발명은 청구항 1의 특징부에 따라 특징지어 진다.
본 발명은 또한, 청구항 8에 주장된 바와 같이 작동하는 다중-디바이스 시스템에 관한 것이다. 또한, 본 발명은 청구항 15에 주장된 바와 같이, 본 발명에 따른 시스템에서 사용하기 위한 음성-강화된 디바이스에 관한 것이다. 본 발명의 추가 장점이 있는 양상은 종속항에 언급되어 있다.
본 발명의 이와 같은 그리고 추가인 양상 및 장점은 바람직한 실시예의 개시를 참조하여, 그리고 특히 첨부된 도면을 참조하여 다음에 더 상세히 논의될 것이다.
도 1은 본 발명으로 사용하기 위한 일반적인 음성-강화된 디바이스(20)를 예시한다. 단순하게 하기 위해, 가장 중요한 사용자 지시 기능이 도시되었다. 이러한 기능은, 명시되거나 암시된 어떠한 제한 없이, 오디오 또는 오디오-비디오 튜너와, 오디오 재생기와, 오디오 녹음기 또는 오디오-비디오 녹음기 또는 오디오 컴포우저 또는 오디오-비디오 컴포우저(composer)를 나타낸다. 대조적으로, 도 1의 상세 사항은 제어 기능으로 제한되었다. 일반적으로, 사용자 제어 입력은 이를테면 양방향 라인 쌍(46)의 입력 라인으로 상징된 바와 같이 직접적(immediate)이며, 이러한 제어는 사용자 버튼 등을 통해 기계적으로 또는 IR 신호 등을 통해 원격으로 될 수 있다. 제어 신호 보낸 것의 출력은 램프나 다른 시각적 디스플레이 표시기를 통해서, 문자 디스플레이, 버저(buzzers) 및 다른 것을 통해서 된다. 게다가, 제어 신호 보내기는 라인(46) 쌍을 통해 다른 연결되어 있는 오디오-비디오 디바이스와 주고 받아질 수 있다.
항목(30)은 일반적인 음성이 강화된 디바이스(General Speech Enhanced Device)의 사용자 기능을 나타낸 것으로, 라인(46)으로부터 외부의 제어를 수신하여, 출력(46)에서는 일반적인 용도 용으로 오디오, 이를테면, 방송된 오디오를, 라인(38)에서는 본 명세서에서 다음에 논의하겠지만 다른 용도 용으로 오디오를 선택적으로 생성한다. 덧셈 메커니즘(32)을 통한 위의 내용 중 나중의 오디오는 스피커(48)로 보내진다. 항목(22)은 음성-제어되는 라인(34) 상에 덧셈 메커니즘(32)으로의 피드백을 생성할 수 있어서, 그로 인해 피드백 소리가 스피커(48) 상에 출력되는 것을 소거하도록 하는 사용자 인터페이스(Voice-Controlled User Interface)를 나타낸다. 다른 방법으로는, 항목(22)은 외부의 사용을 위한, 또는 디바이스(30)를 제어하기 위한 인터페이스(46) 상에서 비-오디오 출력을 생성할 수 있다.
오퍼레이터가 상기 디바이스로 음성을 입력하는 것은 마이크로폰(28)에서 이루어질 수 있다. 그렇게 수신된 음성은 라인 쌍(42)의 나가는 라인 상으로 출력될 수 있다. 상기 음성은 AEC(Automatic Echo Canceller: 자동 에코 소거기) 블록(26)에 전달(communicating)하도록 라인 쌍(42)의 입력 라인 상에 수신된 음성에 대안으로서 사용될 수도 있다. 상기 AEC 블록은 양방향 채널(40)의 나가는 채널 상에 음성 신호를 출력할 것이다. 이 같은 음성 신호는 마이크로폰(28) 상에서 수신된음성 신호와 근접하게 일치(correspond)하는데, 그러나, 상기 마이크로폰으로부터의 음성 신호는 도 1에 도시된 항목(48)을 통해 상기 디바이스에 의해 출력된 어떠한 오디오 신호도 큰 폭으로 삭제(deleted)되었다. 그러한 음성 신호는 도 1에서 참조 번호 60으로 표시된 전용 채널에 수신되었다. 상기 디바이스 자체의 오디오 출력을 위해 그렇게 교정한 음성 신호는 양방향 음성 채널(40)의 나가는 채널 상에 출력되거나, 혹은 음성 인식 항목(24)의 입력으로 보내지거나, 이 둘 중의 하나가 될 수 있다. 상기 음성 인식 항목은 양방향 음성 채널(40)의 입력 채널 상에서 수신된 외부에서 송신된 음성 수신을 양자택일로 선택할 수 있다. 항목(24)은 한정하지 않고 종래의 것일 수 있는 전략에 따라 그렇게 수신된 음성을 인식할 것이다. 상기 인식 결과는 양방향 채널 쌍(44)의 나가는 채널 상에 문자(text)로서 출력될 수 있거나, VCUI(Voice-Controlled User Interface: 음성-제어된 사용자 인터페이스) 항목(22)으로 전송될 수 있다. 상기 VCUI 항목은 양방향 채널 쌍(44)의 입력 채널을 따라 외부에서 입력된 문자를 양자택일로 수신할 수 있다. 상기 VCUI 모듈(22)은 이전에 논의한 바와 같이 추가의 제어 신호를 생성할 수 있거나, 스피커 박스(48)로 공급(feeding)하기 위한 오디오 출력을 생성할 수 있거나, 비디오 디스플레이를 출력할 수 있는데, 이는 간결하게 하기 위하여 논의되지 않았다. 더 추가로, VCUI 모듈은 캐스케이드 구조에 응용하기 위해 모듈(24,26,28,48) 중 임의의 것 또는 전부를 위한 라인(36) 상에 선택적 디스에이블(disable) 신호를 생성할 수 있다. 그것의 쓰임새는 본 명세서에서 다음에 더 상세히 논의될 것이다.
여러 실시예에서, 도 1의 디바이스의 특정 요소는 생략될 수 있다. 특히, 라인 쌍(44)은 옵션이며, 라인 쌍(42)에서 밖으로 나가는 라인은 생략될 수 있는데, 반면에, 특정의 다른 요소는 본 명세서에서 다음에 도시된 실시예 중 하나 이상에서 정말 꼭 필요한 것은 아니다. 그러나, 라인 쌍(42) 안의 라인에 있는 마이크로폰은 도 6, 도7에서{참조: 특히 접속(100)} 큰 쓰임새가 있을 것이다.
도 2는 분산된 자동 음성 인식(ASR) 및 분산된 자동 에코 소거(AEC)가 있는 다중-디바이스 음성-강화된 시스템을 예시한다. 상기 시스템은 오디오 세트와 TV의 조합으로 예시되어 있는데, 그럼에도 불구하고, 여러 다른 다중-디바이스 시스템이 구성될 수 있으며, 그러한 시스템은 두 개 이상의 디바이스 사용을 포함한다. 이어지는 모든 도면에서, 스테레오 오디오 용인 것과 같은 두 개의 채널 병렬 셋업 또는 서라운드 사운드에서 사용하기 위한 것과 같은 다중-채널 셋업 및 다른 정교한 재생 테크닉이 사용될 수 있는데, 여러 채널로 된 상기 도면에서는 별도의 표시가 없다. 이제, 각 디바이스는 VC 사용자 인터페이스 용으로 자체만의 소프트웨어 층이 필요할 것이다. 그러나, 여러 독자적 디바이스에 내장된 그와 같은 기능으로, 음성 제어는 양쪽 디바이스를 동시에 틀 때 사실상 실패할 수 있다. 스테레오 애플리케이션을 위한 폭력 교정법(brute-force remedy)은 각 디바이스에 두 개씩, 네 개 채널 모두를 가지게 될 것이며, 각 디바이스에서 별도로 에코 소거를 실행한다. 그 때에, 만약 마이크로폰 채널 역시 필요로 한다면, 내부적으로 상기 디바이스에서 이것에 적어도 다섯개의 채널을 필요로 한다. 만약 채널 수가 더 올라가면, 문제점은 지수적으로 커진다. 게다가, 상기 디바이스는 적어도 4중 에코 소거를 실행하기에 충분한 처리력을 가져야 한다. 서로 다른 디바이스들은 더군다나 서로 연결되어 있어야 한다. 분명히, 이와 같이 설명한 해결책은 하드웨어, 소프트웨어 집약적 양쪽 모두이며, 그러한 것으로서 둘 다 비싸며 에러를 일으키고 제대로 작동하지 않기 일쑤이다.
이 점에서, 도 3은 별 모양의 구성인 상호 연결 패턴이 강화된 도 2의 구성을 예시한다. 필요 조건(requirements)은 네트워크 상호 연결, 오디오 아웃(audio out), 및 다중 채널 자동 에코 소거이다. 만약 두 개 이상의 디바이스가 시스템을 구성하고 있다면, 혹은 이를테면 HIFI 이상의 품질을 실행하도록 오디오 렌더링(rendering)과 관련한 오디오 채널의 수가 늘어난다면, 상기 필요 조건은 지수적으로 증가할 것이라는 점에 주의하기 바란다. 많은 상태에서, 이와 같이 요구되는 기술적 설비는 과도하다고 증명되리라는 것을 알게 된다.
이제, 더 수월한(straightforward) 해결책에서는 단지 하나의 스피커만이 사용되는데, 상기 해결책에서 단 하나의 디바이스만이, 상기 시스템에서 상기 디바이스 중의 임의의 것에 의해 생성된 사운드 모두를 출력할 것이다.
추가의 도면은 본 발명에 따른 시스템의 여러 비 한정적인 실시예를 예시한다. 이 점에서, 도 4는 분산된 ASR 및 집중된 AEC가 있는 시스템을 도시한다. 이제, 단일의 n-채널 오디오 신호의 소거만이 필요한데, 여기서, n은 임의의 실수의 정수값을 가질 수 있다. 배선(wiring)은 흔히 아주 간단할 수 있는데, 이를테면 TV 오디오-아웃을, 오디오 세트 상에 흔히 나타나는 보조 오디오 입력에 연결함으로써 그렇게 될 수 있다. 그러나, 덧붙여, AEC 이후에, 음성 신호는 다른 디바이스(들)의 "라인 입력(line-in)"으로 전달되어, 클린업된(cleaned-up) 신호를 인식하여야한다. 음성 UI는 사실, 각 디바이스에서 단독으로 남아 있는다. 덧붙여, 복수의 마이크로폰 및 연계된 추가의 입력 채널을 필요로 하는 미래의 빔 형성 테크놀로지에 추가의 입력 채널이 사용될 수 있다. 도 3에 도시된 시스템은 텔레비전 세트와 연결된(hooked up)된 VCR 환경에 있다. 이 같은 접근법을 위한 필요 조건은 다음과 같다: 에코 소거 후에 음성 나감, 자동 음성 인식 전에 음성 입력, AEC 디스에이블 함, 마이크로폰 디스에이블 함, 두 개의 채널 오디오 나감. 상기 VCR 박스에서, 상기 VCR에 병합된 바와 같이, 그리고 자체의 광 프린팅(printing)에 의해 표시된 바와 같이 도 1의 디바이스에서의 선택적인 차단을 통해 하부 시스템 AEC, 마이크로폰, 및 스피커가 작동하지 않는다는 것에 주목하기 바란다.
도 5는 집중된 ASR 및 집중된 AEC가 있는 시스템을 예시하는데, 이는 요약하면, 중앙 음성 제어 박스를 사용하는 것이 될 수 있다. 어울리는(possible) 플랫폼(platform)은 셋톱 박스 안에 실현될 수 있다. 상기 조직은 도 4의 구성의 모든 장점을 실현한다. 게다가, 오직 한 개의 음성 인식기 메커니즘만이 필요하다. 사용자 환경에 있어서 가장 뚜렷한 장점은 단일의 공간에 다수의 인식기가 본래부터 부재(absence)한다는 점이며, 게다가, 여러 개의 서로 다른 디바이스 제어 향상이 가능하다는 점과 및 더 강력한 시스템으로 확장이 가능하다는 점이다. 간단히 하기 위해, 도 5는 단 두 개의 디바이스로 국한시키는데, 각 디바이스에는 2-채널 AEC가 있다. 이제, 필요 조건은 다음과 같다: 각 디바이스에 대한 양방향 제어 링크, 이는 HAVi 네트워크를 통해 즉각 실행될 수 있는 것이고, 오디오 아웃, 그리고 될 수 있는 한(possibly) 그 위에(still) 또 다른 오디오 디바이스에 대한 부가적오디오 입력이다. 오디오 세트 및 TV 디바이스에 존재하는 한, 도 1에 묘사된 요소 모두는. 오디오 세트의 스피커를 제외하고, 도 5에서 자체가 제외된 것으로 표시된 바와 같이, 디스에이블 될 것이다.
이제, 도 5의 셋업에서, 연결된 디바이스 중 하나는 2-채널 출력을 통해 여전히 최종 오디오를 틀 것인데, 이는 대개 오디오 디바이스 자체에 의해 실행된다. 이것은 사용자로 하여금 다른 모든 디바이스를 즉각 단일의 오디오 출력 디바이스로 연결하게 강제할 것이다. 분산된 AEC로, 이 같은 옵션은 서로 다른 음성-강화된 오디오 디바이스로 하여금 자체 개개 고유의 오디오를 각각 틀게 해 줄 상기 SCB 구조에 중요치 않은 변화만으로서 눈에 보일 수 있다. 음향적 에코 소거는 분산된 방식으로 모든 디바이스에 대해 이루어지며, 그리하여, 각 개개의 디바이스에서 잇달아 이루어진다.
기술적으로는, 이제 두 개 이상의 오디오 채널을 소거하기 위하여 각각 두 개의 채널을 지닌 두 개 이상의 ASR-AEC 디바이스를 사용하고 있다. 예컨대, 음성-강화된 오디오 세트 및 음성-강화된 텔레비전 세트는 각각 자체 고유의 오디오 출력을 가질 수 있는 반면에, 여러 스테레오 채널은 차례로 에코-소거될 것이다. 최종의, 클린업된 음성 신호는 여러 디바이스를 제어하기 위하여 중앙 SCB에서 사용된다. 이제, 여러 개의 서로 다른 음성 신호가 존재하는데, 그것들 모두가 왜곡(distorted)될 수 있다. 게다가, 여러 단계를 차례로 실행하면서 초래된 지연 또한 문제를 일으킬 수 있다.
이 점에서, 도 6은 오디오, TV, 및 SCB를 포함하고, 집중된 ASR 및 분산된AEC를 지녀서, 상기 단점들 중 몇 가지를 완화시키는 또 다른 시스템 실시예를 예시한다. 이제 특별 필요 조건은: 에코 소거 이후에 음성 나감, ASR 디스에이블 함, AEC 디스에이블 함, 마이크로폰 디스에이블 함, 입력 라인, 그리고 각 디바이스에 대해 양방향 제어 링크-이는 네트워크를 통해 다시 실현될 수 있다-를 포함한다. 도시된 바와 같이, 오디오 디바이스에서, ASR은 선택적으로 디스에이블 되었다. 게다가, TV에서, ASR 및 마이크로폰은 선택적으로 디스에이블 되었다. 더 추가로, SCB 디바이스에서, 마이크로폰 및 AEC는 디스에이블 되었다. 이 셋업에서, 오디오 디바이스 및 텔레비전 세트 둘 모두는 도시된 바와 같이, 자체의 스피커를 사용할 수 있다.
특히, SCB는 상기 연결된 디바이스들에 의해서만 대체될 수 있는데, 여기서 상기 클린업된 음성 신호는 다른 모든 디바이스에 역연결(retrocoupled)된다. 이것은 사실, 시스템이 도 2의 옵션을 닮도록 하는데, 상기 도 2의 옵션은 아마도 덜 명확한 선택이긴 하겠지만, 그럼에도 불구하고 매우 실용적이다. 패키지 관점에서 볼 때, 중요한 착상(idea)은 모든 디바이스를 연결하는 것을 즉각적으로 필요로 하지 않고서, 그리고 사운드를 출력하기 위해 오디오 디바이스를 지나치게 사용하는 의무 없이, 탄탄한 ASR 테크놀로지를 도입한다는 것이다. 이는 사실, 진보한 셋업 안에 분산된 ASR과 분산된 AEC를 지닌 도 7의 옵션을 초래한다. 이 같은 방식은 다음의 기능적 필요 조건을 갖는다: 자동 에코 소거 이후에 음성 나감, 마이크로폰 디스에이블 함, 그리고 입력 라인. 도시된 바와 같이, TV 세트는 자체의 마이크로폰이 선택적으로 디스에이블 되었다.
상술한 바와 같이, 본 발명은 음성 인식 및 에코 소거 설비를 포함하는 다중-디바이스 오디오-비디오 시스템을 작동시키는 방법에 관한 것이다. 더 특별히, 본 발명은 청구항 1의 에 언급된 방법에 이용된다.

Claims (17)

  1. 사용자 음성 인식 설비 및 시스템으로부터의 음성 출력이 사용자 음성이라고 인식하는 것을 피하기 위한 에코 소거(echo canceling) 설비를 포함하는 사용자 대화식(user-interactive) 다중-디바이스 오디오-비디오 시스템을 작동하는 방법으로서,
    복수의 그리고 기능상 분리된 그러한 음성 인식 설비 및 에코 소거 설비의 존재 시, 상기 에코 소거 설비를 구동하여, 이들의 힘(force) 중 하나 이상으로써 하나 이상의 서로 독특하고 소거 가능한 음성 엔티티(entity)를 소거하기 위하여, 그리고 상기 시스템에 의해 전반적으로 인식되지 않은 그러한 소거된 엔티티를 결합하기 위하여 자체의 힘을 결합하는 것을
    특징으로 하는, 사용자 대화식 다중-디바이스 오디오-비디오 시스템 작동 방법.
  2. 제 1 항에 있어서, 상기 결합은 여러 에코 소거 설비를 직렬로 배열(도 6, 도 7)하여 작동하는, 사용자 대화식 다중-디바이스 오디오-비디오 시스템 작동 방법.
  3. 제 2 항에 있어서, 상기 직렬 배열로부터 상기 음성 인식 설비를 집중된 방식(도 6)으로 공급(feeding)하는, 사용자 대화식 다중-디바이스 오디오-비디오 시스템 작동 방법.
  4. 제 2 항에 있어서, 상기 직렬 배열로부터 여러 음성 인식 설비를 분산된 방식(도 7)으로 공급하는, 사용자 대화식 다중-디바이스 오디오-비디오 시스템 작동 방법.
  5. 제 1 항에 있어서, 상기 결합은 상기 시스템에 상기 에코 소거 설비를 집중함으로써 그리고 그로부터 여러 음성 인식 설비를 분산된 방식(도 4)으로 공급함으로써 작동하는, 사용자 대화식 다중-디바이스 오디오-비디오 시스템 작동 방법.
  6. 제 1 항에 있어서, 상기 결합은 상기 에코 소거 설비와 음성 인식 설비를 접합(joint) 제어 설비(도 5)에 집중함으로써 작동하는, 사용자 대화식 다중-디바이스 오디오-비디오 시스템 작동 방법.
  7. 제 1 항에 있어서, 상기 결합은 여러 에코 소거 설비를 집중된 제어 디바이스(도 4)에 배열함으로써 그리고 그로부터 여러 음성 인식 설비를 병렬로 공급함으로써 작동하는, 사용자 대화식 다중-디바이스 오디오-비디오 시스템 작동 방법.
  8. 음성 인식 설비 및 시스템으로부터의 음성 출력을 사용자 음성으로 인식하는 것을 피하기 위한 에코 소거 설비를 포함하는 다중-디바이스 오디오-비디오 시스템으로서,
    복수의 그리고 기능상 분리된 상기 음성 인식 설비 및 에코 소거 설비의 존재 시, 상기 에코 소거 설비는 하나 이상의 상호 독특하고 소거 가능한 음성 엔티티를 소거하기 위한 접합 소거 수단 및 상기 시스템에 의해 전반적으로 인식되지 않은 상기 소거된 엔티티를 결합하기 위한 결합 수단을 통해 자체의 힘을 결합하도록 배열되는 것을 특징으로 하는,
    다중-디바이스 오디오-비디오 시스템.
  9. 제 8 항에 있어서, 상기 결합 수단은 여러 에코 소거 설비를 직렬로(도 6, 도 7) 배열하는 직렬 배열을 포함하는, 다중-디바이스 오디오-비디오 시스템.
  10. 제 9 항에 있어서, 상기 직렬 배열로부터 상기 음성 인식 설비를 집중된 방식(도 6)으로 공급하도록 배열되는, 다중-디바이스 오디오-비디오 시스템.
  11. 제 9 항에 있어서, 상기 직렬 배열로부터 여러 음성 인식 설비가 분산된 방식(도 7)으로 공급되도록 배열되는, 다중-디바이스 오디오-비디오 시스템.
  12. 제 8 항에 있어서, 상기 결합 수단은 제어 디바이스 안에 집중된 상기 에코 소거 설비를 가지며 여러 음성 인식 설비를 분산된 방식(도 4)으로 공급하도록 배열되는, 다중-디바이스 오디오-비디오 시스템.
  13. 제 8 항에 있어서, 상기 결합 수단은 상기 에코 소거 설비 및 음성 인식 설비를 접합 제어 설비(도 5) 안에 집중시키도록 배열되는, 다중-디바이스 오디오-비디오 시스템.
  14. 제 8 항에 있어서, 상기 결합 수단은 여러 에코 소거 설비를 집중시키도록 배열되며(도 4) 그로부터 여러 음성 인식 설비를 병렬로 공급하는, 다중-디바이스 오디오-비디오 시스템.
  15. 제 8 항에 기재된 시스템에서 사용하기 위한 그리고 음성 인식 설비 및 디바이스로부터의 음성 출력을 사용자 음성으로 인식하는 것을 피하기 위한 에코 소거 설비를 구비한 음성 강화된 디바이스로서,
    상기 상호 연결된 음성 인식 및 에코 소거 설비 사이에 삽입되고, 또 다른 그러한 디바이스를 상호 연결하기 위한 음성 입력/출력 수단을 구비하는 것을
    특징으로 하는, 음성 강화된 디바이스.
  16. 제 15 항에 있어서, 상기 음성-인식 설비 중 하나 이상과, 상기 에코 소거 설비 및 상기 디바이스의 오디오 출력 설비를 선택적으로 디스에이블(disabling)하기 위한 제어 수단을 구비하는, 음성 강화된 디바이스.
  17. 제 15 항에 있어서, 마이크로폰 탈락(out) 수단과, 추가로, 상기 음성 인식 설비 중 하나 이상과, 상기 에코 소거 설비와, 상기 마이크로폰 탈락 수단을 선택적으로 제어하기 위한 제어 수단을 구비한, 음성 강화된 디바이스.
KR1020027004598A 2000-08-15 2001-08-02 공통 에코 소거가 있는 다중-디바이스 오디오-비디오 KR20020040850A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP00202856.1 2000-08-15
EP00202856 2000-08-15
PCT/EP2001/008929 WO2002015169A1 (en) 2000-08-15 2001-08-02 Multi-device audio-video with common echo canceling

Publications (1)

Publication Number Publication Date
KR20020040850A true KR20020040850A (ko) 2002-05-30

Family

ID=8171920

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020027004598A KR20020040850A (ko) 2000-08-15 2001-08-02 공통 에코 소거가 있는 다중-디바이스 오디오-비디오

Country Status (6)

Country Link
US (1) US20020021799A1 (ko)
EP (1) EP1312078A1 (ko)
JP (1) JP2004506944A (ko)
KR (1) KR20020040850A (ko)
CN (1) CN1190775C (ko)
WO (1) WO2002015169A1 (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100556365B1 (ko) * 2003-07-07 2006-03-03 엘지전자 주식회사 음성 인식장치 및 방법
CN1314000C (zh) * 2004-10-12 2007-05-02 上海大学 基于盲信号分离的语音增强装置
US8223959B2 (en) * 2007-07-31 2012-07-17 Hewlett-Packard Development Company, L.P. Echo cancellation in which sound source signals are spatially distributed to all speaker devices
US8433058B2 (en) * 2008-08-08 2013-04-30 Avaya Inc. Method and system for distributed speakerphone echo cancellation
CN102131014A (zh) * 2010-01-13 2011-07-20 歌尔声学股份有限公司 时频域联合回声消除装置及方法
US9245254B2 (en) 2011-12-01 2016-01-26 Elwha Llc Enhanced voice conferencing with history, language translation and identification
US9053096B2 (en) 2011-12-01 2015-06-09 Elwha Llc Language translation based on speaker-related information
US9159236B2 (en) 2011-12-01 2015-10-13 Elwha Llc Presentation of shared threat information in a transportation-related context
US8934652B2 (en) 2011-12-01 2015-01-13 Elwha Llc Visual presentation of speaker-related information
US9368028B2 (en) 2011-12-01 2016-06-14 Microsoft Technology Licensing, Llc Determining threats based on information from road-based devices in a transportation-related context
US8811638B2 (en) * 2011-12-01 2014-08-19 Elwha Llc Audible assistance
US10875525B2 (en) 2011-12-01 2020-12-29 Microsoft Technology Licensing Llc Ability enhancement
US9064152B2 (en) 2011-12-01 2015-06-23 Elwha Llc Vehicular threat detection based on image analysis
US9107012B2 (en) 2011-12-01 2015-08-11 Elwha Llc Vehicular threat detection based on audio signals
CN107396158A (zh) * 2017-08-21 2017-11-24 深圳创维-Rgb电子有限公司 一种声控交互装置、声控交互方法和电视机
US11849291B2 (en) * 2021-05-17 2023-12-19 Apple Inc. Spatially informed acoustic echo cancelation

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5548681A (en) * 1991-08-13 1996-08-20 Kabushiki Kaisha Toshiba Speech dialogue system for realizing improved communication between user and system
US5657425A (en) * 1993-11-15 1997-08-12 International Business Machines Corporation Location dependent verbal command execution in a computer based control system
US5583965A (en) * 1994-09-12 1996-12-10 Sony Corporation Methods and apparatus for training and operating voice recognition systems
US5761638A (en) * 1995-03-17 1998-06-02 Us West Inc Telephone network apparatus and method using echo delay and attenuation
DE19533541C1 (de) * 1995-09-11 1997-03-27 Daimler Benz Aerospace Ag Verfahren zur automatischen Steuerung eines oder mehrerer Geräte durch Sprachkommandos oder per Sprachdialog im Echtzeitbetrieb und Vorrichtung zum Ausführen des Verfahrens
US6006108A (en) * 1996-01-31 1999-12-21 Qualcomm Incorporated Digital audio processing in a dual-mode telephone
US5765130A (en) * 1996-05-21 1998-06-09 Applied Language Technologies, Inc. Method and apparatus for facilitating speech barge-in in connection with voice recognition systems
US5867495A (en) * 1996-11-18 1999-02-02 Mci Communications Corporations System, method and article of manufacture for communications utilizing calling, plans in a hybrid network
JPH10257583A (ja) * 1997-03-06 1998-09-25 Asahi Chem Ind Co Ltd 音声処理装置およびその音声処理方法
DE59803137D1 (de) * 1997-06-06 2002-03-28 Bsh Bosch Siemens Hausgeraete Haushaltsgerät, insbesondere elektrisch betriebenes haushaltsgerät
US6505057B1 (en) * 1998-01-23 2003-01-07 Digisonix Llc Integrated vehicle voice enhancement system and hands-free cellular telephone system
US6061653A (en) * 1998-07-14 2000-05-09 Alcatel Usa Sourcing, L.P. Speech recognition system using shared speech models for multiple recognition processes
US6587822B2 (en) * 1998-10-06 2003-07-01 Lucent Technologies Inc. Web-based platform for interactive voice response (IVR)
US6665645B1 (en) * 1999-07-28 2003-12-16 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus for AV equipment
US6219645B1 (en) * 1999-12-02 2001-04-17 Lucent Technologies, Inc. Enhanced automatic speech recognition using multiple directional microphones

Also Published As

Publication number Publication date
EP1312078A1 (en) 2003-05-21
CN1190775C (zh) 2005-02-23
US20020021799A1 (en) 2002-02-21
JP2004506944A (ja) 2004-03-04
CN1388956A (zh) 2003-01-01
WO2002015169A1 (en) 2002-02-21

Similar Documents

Publication Publication Date Title
KR20020040850A (ko) 공통 에코 소거가 있는 다중-디바이스 오디오-비디오
JP4792156B2 (ja) マイクロホンアレイを有するボイス制御システム
EP2587481B1 (en) Controlling an apparatus based on speech
EP1133768B1 (en) Consumer electronics system with speech recognizer
WO2003107327A1 (en) Controlling an apparatus based on speech
US9905125B2 (en) Remote control with microphone used for pairing the remote control to a system and method of using the same
WO2011084287A1 (en) Method and apparatus for controlling an electronic system
JPS63171071A (ja) 音声制御装置
KR20030019814A (ko) 무선 서라운드 스피커를 갖는 오디오비디오 기기의 음향출력장치
JP2006148548A (ja) 放送装置
JPH117232A (ja) 光通信学習セット
KR100529469B1 (ko) 모스트 프로토콜 기반의 엠펙 디비디 플레이어
US11507341B1 (en) Voiceover device
JP2005094112A (ja) 演奏モニタ−装置、調整室通話ユニット、信号分配装置、及びスタジオ通話システム
JPH0314397A (ja) リモートコントロール装置
JPH04167695A (ja) 遠隔制御システム
JPH0815288B2 (ja) 音声伝送方式
US20040230433A1 (en) Microphone system
KR960002397Y1 (ko) 티브이 수상기의 외부 음성 출력 스위칭 장치
KR0138211B1 (ko) 비디오 콤팩트 디스크 플레이어 제어기
KR19980030839U (ko) 오디오 믹서 루터
JPH07226701A (ja) リモートミキシング装置
KR0135820B1 (ko) 다기능복합제품의 기능키제어장치
JPH0923389A (ja) テレビジョン受信機、テレビジョン受信機用リモコン送信機およびテレビジョン受信機システム
JPH05244665A (ja) 電子機器の遠隔制御システム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application