KR101648203B1 - 스피치 캡처링 및 스피치 렌더링 - Google Patents

스피치 캡처링 및 스피치 렌더링 Download PDF

Info

Publication number
KR101648203B1
KR101648203B1 KR1020117017092A KR20117017092A KR101648203B1 KR 101648203 B1 KR101648203 B1 KR 101648203B1 KR 1020117017092 A KR1020117017092 A KR 1020117017092A KR 20117017092 A KR20117017092 A KR 20117017092A KR 101648203 B1 KR101648203 B1 KR 101648203B1
Authority
KR
South Korea
Prior art keywords
signals
speech
circuit
speakers
peripheral
Prior art date
Application number
KR1020117017092A
Other languages
English (en)
Other versions
KR20110099750A (ko
Inventor
코르넬리스 빼. 얀세
레온 세. 아. 판 스타위펜베르흐
하름 예. 베. 벨트
바하 에. 사라우크
마흐디 트리키
Original Assignee
코닌클리케 필립스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 엔.브이. filed Critical 코닌클리케 필립스 엔.브이.
Publication of KR20110099750A publication Critical patent/KR20110099750A/ko
Application granted granted Critical
Publication of KR101648203B1 publication Critical patent/KR101648203B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • H04M1/6033Substation equipment, e.g. for use by subscribers including speech amplifiers for providing handsfree use or a loudspeaker mode in telephone sets
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation

Abstract

본 발명은 마이크로폰들에 의해 캡처된 사운드 신호들로부터 하나 이상의 주변 신호들(131) 뿐만 아니라, 추출 하나 이상의 스피치 신호들(151 ~ 154)를 제안하며 스피치 신호들 각각은 상이한 화자에 대응한다. 본 발명은 스피치 신호들만을 보내는 것과는 반대로, 렌더링 측에 하나 이상의 스피치 신호들(151 ~ 154) 및 하나 이상의 주변 신호들(131) 양쪽 모두를 송신하는 것을 제안한다. 이것은 렌더링 측에서 공간적으로 다른 방식으로 스피치 및 주변 신호들을 재생할 수 있게 한다. 주변 신호들을 재생함으로써 "함께 있다"는 느낌이 생성된다. 실시예에서, 본 발명은 주변 신호들이 있더라도 스피치 인지성이 증가되게 서로 그리고 주변 신호들과는 공간적으로 다른 2 이상의 스피치 신호들을 재생할 수 있게 한다.

Description

스피치 캡처링 및 스피치 렌더링{SPEECH CAPTURING AND SPEECH RENDERING}
본 발명은 예를 들면, 핸즈프리 오디오 또는 오디오비주얼 회의 단말에서 이용하기 위한 스피치 캡처링 방법 및 디바이스에 관한 것이다. 또한, 본 발명은 예를 들면, 핸즈프리 오디오 또는 오디오비주얼 회의 단말에서 이용하기 위한 스피치 렌더링 방법 및 디바이스에 관한 것이다. 또한, 본 발명은 통신 시스템, 핸즈프리 오디오 또는 오디오비주얼 회의 단말에 관한 것이다.
최근에 (핸즈프리) 1 대 1 통신 시스템들에서, 스피치(speech)의 송신은 특히 대역폭 제한에 기인하여 모노포닉(monophonic) 송신 채널에 의해 실현된다. 결국, 재생측에서, 모든 사운드들은 동일 방향(또는 복수의 스피커들이 이용된다면 다수 방향들)에서 오며 따라서 양이청취(binaural hearing)에 기초하여 사운드 소스들을 분리해 내는 사람의 능력은 이용될 수 없다. 결국 잡음 및/또는 서로 말하는 화자들로 혼합된 스피치를 경청하는 것은 어려우며 감소된 스피치 인지성 및 청취자의 피로에 이르게 한다. 이러한 이유로 핸즈프리 전화 시스템들에 있어 송신되는 원하는 스피치 신호는 가능한 한 "명료"한데, 즉, 원하는 직접적인 스피치만을 포함한다. 핸즈프리 통신에서는 변동이 없는 잡음 억제를 반드시 갖추어야만 한다. 스피치를 더욱 향상시키기 위해서 추가의 처리와 더울어 마이크로폰 어레이 빔-포밍(beam-forming)이 이용될 수 있다. 그러나, 알려진 시스템들은 통신 동안에서 대면한 느낌을 제공하지 못하며, 스피치(메시지) 뿐만 아니라, 함께 있다는 느낌도 중요한 일상적 상황들에서 특히 그러하다.
본 발명의 목적은 함께 있다는 느낌이 있는 실생활과 같은 통신을 제공하는 것이다. 본 발명은 독립 청구항들에 의해 규정된다. 종속 청구항들은 이점이 있는 실시예들을 정의한다.
본 발명에 따른 스피치 캡처링 디바이스는:
- 복수의 사운드 신호들을 캡처하기 위해 복수의 마이크로폰들을 포함하는 캡처링 회로,
- 각각이 복수의 사운드 신호들로부터 각각의 화자에 대응하는 각각의 스피치 신호를 도출하기 위한 하나 이상의 추출 회로들,
- 각각이 하나 이상의 추출 회로들에 의해 도출된 하나 이상의 스피치 신호들에 의해 감소된 하나 이상의 주변 신호들을 복수의 사운드 신호들로부터 도출하기 위한 잔차 추출 회로, 및
하나 이상의 스피치 신호들 및 하나 이상의 주변 신호들을 송신하기 위한 송신 회로를 포함한다.
이에 따라 하나 이상의 스피치 신호들은 캡처링 회로에 의해 캡처된 사운드 신호들로부터 추출될 수 있다. 추출 회로는 화자에 대응하는 스피치 신호를 제공한다. 이 스피치 신호는 원하는 화자 전방에 하나 이상의 클로즈 토크 마이크로폰들에 의해 제공되는 신호로서 간주될 수 있다. 잔차 추출 회로는 주변 정보(즉, 원하는 화자들이 없이 사운드 신호들에 포함된 정보)를 포함하는 주변 신호를 도출한다. 이들 스피치 및 주변 신호들을 개별적으로 송신할 때, 렌더링 측은 스피치 및 주변 신호들을 공간적으로 서로 다르게 재생할 수 있다. 주변 신호를 재생함으로써, "함께 있다는" 느낌이 생성된다. 또한, 실시예에서 본 발명은 주변 신호들이 있더라도 스피치 인지성이 증가되고 청취자들의 피로가 감소되도록 서로 그리고 주변 신호들과는 공간적으로 다른 2 이상의 스피치 신호들를 재생할 수 있게 한다.
실시예에서, 스피치 캡처링 디바이스는 화자들의 하나 이상의 위치들을 결정하기 위한 오디오비주얼 로케이터를 추가로 포함하고, 각각의 추출 회로는 화자들 각각의 위치에 지향된다. 오디오비주얼 로케이터를 이용하는 이점은 추출 회로들의 견고성을 더욱 개선한다. 추출 회로는 한 동일 화자가 이동하면서 말하고 있지 않을지라도, 이 화자에 계속하여 집중될 수 있다. 이렇게 하여 일단 화자가 (다시) 말하기를 시작하면 추출 회로는 이미 집중되어 있고 또한 첫마디가 고품질로 캡처된다. 그렇지 않다면, 추출 회로는 첫마디 동안 다시 집중해야 하는데, 이것은 첫마디에 대해 떨어지는 품질을 초래한다.
다른 실시예에서, 송신 회로는 화자들의 위치들을 포함하는 공간 정보를 더욱 송신한다. 화자(들)의 위치에 관한 이러한 공간 정보는 캡처하는 측에서 청각적 현장을 기술한다. 이러한 공간 정보로 렌더링 측에서 캡처측에서와 동일한 청각적 현장을 재생성하는 것이 가능하다. 이 특성은 오디오가 비디어에 대응해야 하는 오디오비주얼 회의에 있어 특히 중요하다. 예를 들면, 시각적 현장이 좌측, 중간, 및 우측의 위치에 위치한 3 화자들을 포함할 때, 위치 정보는 렌더링 측에서 이들 3 위치들에 화자들을 재생하기 위해(근사적으로) 이용될 수 있다.
다른 실시예에서, 각각의 추출 회로는 스피치 신호를 도출하기 위한 일반형 사이드-로드 캔슬러를 포함한다. 일반형 사이드-로드 캔슬러는 적응형 빔-포밍에 특히 적합한 빔-포밍 구현이다. 이러한 캔슬러에서 빔은 원하는 화자에 집중된다.
다른 실시예에서, 각각의 추출 회로는 스피치 신호에서 더욱 잡음을 감소시키기 위한 포스트-프로세서 회로를 추가로 포함한다. 포스트-프로세서는 잡음을 더욱 제거하므로 송신 회로에 의해 송신된 스피치 신호엔 잡음이 더 적어진다. 이것은 원하는 화자들이 더 잘 분리될 수 있고 임의의 원하는 위치에 렌더링 측에서 원하는 화자들을 위치시키는 더 많은 자유도가 생성되는 이점이 있다.
다른 실시예에서, 잔차 추출 회로는 각각이 하나 이상의 추출 회로들에 의해 도출된 스피치 신호들에 의해 감소되는 복수의 사운드 신호들로부터 하나 이상의 주변 신호들을 도출하기 위한 다중-채널 적응형 필터를 추가로 포함한다. 다중-채널 적응형 필터는 사운드 신호들에 내포된 스피치 신호들을 추정한다. 이들 스피치 신호들은 사운드 신호들로부터 감하여져, 이에 따라 주변 신호들을 제공한다.
다른 실시예에서, 다중-채널 적응형 필터는 마이크로폰들 중 하나에 의해 캡처된 사운드 신호를 기준 신호로서 수신하도록 결합된다. 이렇게 하여, 한 주변 신호가 비교적 낮은 복잡도로 생성된다.
본 발명의 또 다른 양태에 따라서,
스피치 렌더링 디바이스는:
- 각각이 상이한 화자에 대응하는 하나 이상의 스피치 신호들 및 하나 이상의 주변 신호들을 수신하기 위한 수신 회로, 및
- 하나 이상의 스피치 신호들이 하나 이상의 주변 신호들과는 다른 방향들로부터 오는 것으로 인지되도록 하나 이상의 스피치 신호들 및 하나 이상의 주변 신호들을 공간적으로 재생하기 위한 렌더링 회로를 포함한다. 렌더링 측에서 주변 신호들을 재생함으로써 "함께 있다는" 느낌이 생성된다. 2 이상의 스피치 신호들이 서로 그리고 주변 신호들과는 공간적으로 다르게 재생되는 실시예에서 스피치 인지성이 유지되며 주변 신호들이 있더라도 증가된다.
실시예에서, 렌더링 회로는 스피치 신호들이 상호 서로 다른 방향들로부터 오는 것으로 인지되도록 2 이상의 스피치 신호들을 공간적으로 재생하도록 구성된다. 공간적으로 다르게 스피치 신호들을 재생함으로써, 렌더링 측에서 청취자들이 서로 다른 화자들 간을 구별하고 이들이 동시에 말할지라도 화자들 중 하나에 집중하기가 더 쉬워진다. 이것은 청취자의 피로가 덜하게 하고 스피치 인지성을 개선시킨다.
다른 실시예에서, 수신 회로는 또한 화자들의 위치들에 관한 공간 정보를 수신하기 위해 구성되고, 렌더링 회로는 스피치 신호들이 공간 정보에 의해 표현된 위치들로부터 오는 것으로 인지되게 스피치 신호들을 공간적으로 재생하도록 구성된다. 이렇게 하여, 렌더링 측에서 캡처측에서와 동일한 동일한 청각적 현장이 생성될 수 있는데, 이것은 사운드 및 비디오가 일치되어야 하는 오디오비주얼 통신 시스템들에서 특히 중요하다.
다른 실시예에서, 스피치 신호가 인지되는 방향은 화자의 시각화에서 화자의 위치에 정렬된다. 이 실시예에서 같은 화자에 대응하는 오디오 및 비디오 대상들은 한 오디오비주얼 대상으로서 인지되는데, 이것은 청취자가 인지하기가 자연스럽고, 스피치가 비디오 대상의 스피치와는 다른 방향에서 올 경우 발생하게 되는 피로를 감소시킨다.
다른 실시예에서, 하나 이상의 주변 신호들의 진폭들은 감소된다. 이렇게 하여 청취자는 자신의 환경에서 렌더링을 제어하고 이를 자신의 환경에서 발생하는 다른 주변 신호들에 맞게 수정할 수 있다.
본 발명의 또 다른 양태에 따라서, 스피치 신호들, 및 핸즈프리 오디오 또는 오디오비주얼 회의 단말을 전달하기 위한 통신 시스템이 제공된다.
본 발명의 이들 및 다른 면들, 특징들 및 이점들은 이하 기술되는 실시예(들)로부터 명백해질 것이며 이에 관련하여 기술될 것이다.
도 1은 본 발명에 따른 스피치 캡처링 디바이스의 실시예를 도시한 도면.
도 2는 오디오비주얼 로케이터를 포함하는 스피치 캡처링 디바이스의 실시예를 도시한 도면.
도 3은 포스트-프로세서 회로를 포함하는 추출 회로의 실시예를 도시한 도면.
도 4는 추출 회로가 포스트-프로세서 회로를 포함하는 스피치 캡처링 디바이스의 실시예를 도시한 도면.
도 5는 주변 신호를 도출하기 위한 다중-채널 적응형 필터를 포함하는 잔차 추출 회로의 실시예를 도시한 도면.
도 6은 본 발명에 따른 스피치 렌더링 디바이스의 실시예를 도시한 도면.
도 7은 본 발명에 따른 스피치 캡처링 디바이스 및 스피치 렌더링 디바이스를 포함하는, 스피치 신호들을 전달하기 위한 통신 시스템의 예를 도시한 도면.
도 1은 본 발명에 따른 스피치 캡처링 디바이스(100)의 실시예를 도시한 것이다. 스피치 캡처링 디바이스(100)는 핸즈프리 오디오 또는 오디오비주얼 회의 단말에서 이용될 수 있다. 핸즈프리 오디오 또는 오디오비주얼 회의 단말은 2개의 서로 다른 위치에 있는 화자들, 예를 들면 실내에서 서로 통신하는 1대1 통신 어플리케이션을 구현하기 위해 이용된다. 그 위치에서 화자들의 수는 하나 내지는 복수의 화자들로 다양할 수 있다. 실내에서 화자들의 위치도 다양할 수 있다.
디바이스(100)는 복수의 사운드 신호들(111, 112 ~ 116)를 캡처하기 위한 캡처링 회로(110)를 포함한다. 캡처링 회로(110)는 복수의 마이크로폰들(101, 102 ~ 106)을 포함한다. 이들 마이크로폰들은 되도록 마이크로폰들의 어레이 형태로 배열된다. 이 예에서 6개의 마이크로폰들만이 도시되었을지라도, 마이크로폰들 의 수는 이러한 개수로 제약되지 않는다.
스피치 캡처링 디바이스(100)는 하나 이상의 추출 회로들(121, 122 ~ 124)을 추가로 포함한다. 추출 회로들 각각은 화자들 중 하나에 대응한다. 예로, 추출 회로(121)는 제 1 화자에 대응하며, 추출 회로(122)는 제 2 화자에 대응한다, 등등. 추출 회로들 각각은 다른 화자에 대응한다. 추출 회로들 각각은 예로 신호들(151, 152 또는 154) 중 하나인 화자에 대응하는 스피치 신호를 도출한다. 신호(151)는, 예로, 제 1 화자에 대응하며, 신호(152)는 제 2 화자에 대응한다. 등등. 스피치 신호들(151 ~ 154) 각각은 캡처링 회로(110)에 의해 캡처되는 복수의 사운드 신호들(101, 102 ~ 106)로부터 도출된다. 스피치 캡처링 디바이스(100)는 복수의 사운드 신호들로부터 하나 이상의 주변 신호들(131)를 도출하기 위한 잔차 추출 회로(130)를 추가로 포함한다. 주변 신호들은 사운드 신호들로부터 도출되는, 신호 번들(160)로서 도시된, 스피치 신호들의 보완을 나타낸다. 즉, 주변 신호는 하나 이상의 추출 회로들에 의해 도출되는 스피치 신호들(151, 152 ~ 154)(스피치 신호들은 사운드 신호로부터 감해진다)에 의해 감소된 사운드 신호들로부터 도출된다.
스피치 캡처링 디바이스(100)는 하나 이상의 스피치 신호들(151, 152 ~ 154) 및 하나 이상의 주변 신호들(131)을 송신하기 위한 송신 회로(150)를 추가로 포함한다. 송신 회로(150)는 스피치 신호들 및 주변 신호들을 단일의 출력 신호(181)로 합체하며, 이는 스피치 렌더링 디바이스(500)에 송신된다. 합체는 예를 들면, 알려진 종속(concatenating) 또는 멀티플렉싱 방법들에 의해 행해질 수 있음이 당업자에게 명백하다.
도 2는 오디오비주얼 로케이터(140)를 포함하는 스피치 캡처링 디바이스(100)의 실시예를 도시한 것이다. 오디오비주얼 로케이터(140)는 하나 이상의 화자들의 위치를 검출한다. 특정 화자의 위치에 추출 회로를 지향시키기 위해서 화자들의 위치에 관한 정보가 추출 회로들에 공급된다. 오디오비주얼 로케이터는 많은 방법들로 실현될 수 있다. 오디오비주얼 로케이터들의 알려진 예들은 예를 들면, US6850265B1 또는 N. Strobel, S. Spors, 및 R. Rabenstein, Joint audio-video object localization and tracking, IEEE Signal Processing Magazine, vol. 18, no. 1, pp. 22-31, Jan. 2001이다. 공간 정보는 예를 들면, US6850265B1에 개시된 바와 같이 각도 또는 N. Strobel, S. Spors, 및 R. Rabenstein, Joint audio-video object localization and tracking, IEEE Signal Processing Magazine, vol. 18, no. 1, pp. 22-31, Jan. 2001에 개시된 바와 같이 위치를 포함할 수도 있을 것이다.
도 2에 도시된 스피치 캡처링 디바이스(100)는 오디오비주얼 로케이터(140)에 의해 확장된 도 1의 디바이스이다. 예에서, 제 1 화자(141)의 위치에 관한 정보는 추출 회로(121)에 공급되며, 제 2 화자(142)의 위치에 관한 정보는 추출 회로(122)에 공급된다. 두 화자들만이 있기 때문에 도 2에는 2개의 추출 회로들만이 도시되었지만, 더 많은 추출 회로들이 이용될 수 있고 추출 회로들의 수는 화자들의 수와 일치한다. 송신 회로(150)는 화자들의 위치에 관한 정보를 송신하게 수정된다. 이것은 스피치 신호들(151, 152)을 렌더링할 때 화자들(141, 142)의 위치에 관한 정보를 스피치 렌더링 디바이스(500)가 이용할 수 있게 한다.
실시예에서, 추출 회로(121 또는 122)는 빔-포머(beam-former) 회로를 포함한다. 빔-포머 회로의 예들 중 하나는 WO2005/050618 또는 WO2005/106841에 기술된 바와 같은 일반형 사이드-로드 캔슬러(generalized side-lobe canceller)이다. 일반형 사이드-로드 캔슬러는 예를 들면, US7146012에 개시된 바와 같은 필터 합 빔포머(Filtered Sum Beamformer), 및 이에 이어 예를 들면, US7058185에 개시된 바와 같은 다중-채널 잡음 캔슬러(multi-channel noise canceller)를 포함할 수도 있을 것이다.
도 3은 예를 들면, US6546099에 기술된 바와 같은 포스트-프로세서(post-processor) 회로(220)를 포함하는 추출 회로(121)의 실시예를 도시한 것이다. 사운드 신호들(111 ~ 116)은 출력에서 스피치 신호(151)를 제공하는 일반형 사이드-로드 캔슬러(210)에 공급된다. 이 스피치 신호(151)는 잔차 추출 회로(130)로의 입력으로서 제공된다. 스피치 신호(151)는 또한 포스트-프로세서(220)에 제공되며, 포스트-프로세서(220)는 스피치 신호(151) 내 잡음을 더욱 감소시킨다. 따라서, 포스트-프로세서(220)는 그 출력에서 스피치 신호(151)보다 더 명료한 다른 스피치 신호(161)를 생성한다. 포스트-프로세서 회로(220)는 송신 회로(150)에 의해 송신하기 위한 다른 스피치 신호(161)를 제공하며, 이것은 도 1 및 도 2에 도시된 바와 같은 스피치 신호(151)를 대신한다.
도 4는 추출 회로들(121, 122 ~ 124)가 포스트-프로세서 회로(220)를 포함하는 스피치 캡처링 디바이스(100)의 실시예를 도시한 것이다. 추출 회로들(121 ~ 124) 각각은 2개의 출력들을 가지며, 제 1 출력에서 스피치 신호, 예를 들면, 회로(121)를 위한 스피치 신호(151)가 제공되며, 제 2 출력에서 다른 스피치 신호, 예를 들면, 회로(121)를 위한 다른 스피치 신호(161)가 제공된다. 신호들(161, 162 ~ 164)은 이제 신호들(151, 152 ~ 154) 대신 송신 회로에 제공된다.
도 1과 도 2를 비교하면, 잔차 추출 회로(130)는 한 출력 신호(131A)만을 갖는다. 잔차 추출 회로는 2개의 스테이지들을 갖는다. 인입되는 사운드 신호 각각(신호들(11, 112 ~ 116) 중 하나)을 위한 제 1 스테이지에서, 스피치 신호들(151, 152 ~ 154)이 감해진다. 결국, 추출 회로들에 의해 추출된 스피치 신호들에 관계된 스피치 성분들 중 어느 것도 포함하지 않는 수정된 사운드 신호가 얻어진다. 잔차 추출 회로(130)의 출력에 어떤 신호들이 제공될 것인지에 대한 다양한 선택들이 있다. 예를 들면, 수정된 사운드 신호들은 그대로 회로(130)의 출력에 제공될 수도 있을 것이다. 또 다른 예는 모든 수정된 사운드 신호들에 대한 평균 신호가 회로(130)의 출력에 제공될 수도 있을 것이라는 것이다. 또 다른 대안은 회로(130)의 출력에 제공될 수정된 사운드 신호들 중 하나를 선택하는 것이다. 또 다른 대안이 도 5에 설명된다.
도 5는 주변 신호(131A)을 도출하기 위해, 예를 들면, US 7058185에 기술된 바와 같이, 다중-채널 적응형 필터를 포함하는 잔차 추출 회로(130)의 실시예를 도시한 것이다. 이 특정의 실시예에서, 다중-채널 적응형 필터는 간략하게 하기 위해서 2-채널이다. 그러나, 이것은 4-채널일 수도 있을 것이며, 각각의 채널은 추출 회로들(121 ~ 124) 중 하나에 대응한다.
도 5의 실시예에서, 마이크로폰(101)에 의해 캡처된 사운드 신호(111)는 기준 신호로 선택된다. 스피치 신호들(151, 152)는 각각 2개의 적응형 필터들(310, 320)에 공급된다. 적응형 필터들(310, 320)은 각각 입력 신호들(151, 152)을 필터링하며, 적응형 필터들(310, 320)는 잔차 신호(131A)에 의해 제어된다. 잔차 신호(131A)는 사운드 신호(111)와 적응형 필터들(310, 320)의 출력 신호들 간에 차이를 산출하는 감산 회로(400)에 의해 제공된다. 적응형 필터들(310, 320)는 잔차 신호(131A)의 에너지가 최소가 되게 이들의 계수들을 조절한다. 필터의 적응을 위해서 S. Haykin, Adaptive Filter Theory, Englewood Cliffs (NJ, USA): Prentice-Hall, 1986, ISBN 0-13-004052-5 025에 기술된 바와 같은 정규화된 최소평균제곱(NLMS) 필터가 이용될 수 있다. 대안은 US 7058185에 기술된 바와 같이 주파수 영역 적응형 필터들을 이용하는 것이다. 잔차 신호(131A)는 또한 회로(130)의 출력 신호이다.
도 6은 본 발명에 따른 스피치 렌더링 디바이스(500)의 실시예를 도시한 것이다. 스피치 렌더링 디바이스(500)는 각각의 스피치 신호는 다른 화자에 대응하는 것으로서:
- 하나 이상의 스피치 신호들(151 ~ 154) 및 하나 이상의 주변 신호들(신호 번들)(131)을 수신하기 위한 수신 회로(510), 및
- 하나 이상의 스피치 신호들이 하나 이상의 주변 신호들과는 다른 방향들로부터 오는 것으로 인지되게, 하나 이상의 스피치 신호들(151 ~ 154) 및 하나 이상의 주변 신호들(신호 번들)(131)을 공간적으로 재생하기 위한 렌더링 회로(520)를 포함한다.
수신 회로(510)는 입력 신호(181)로부터 스피치 신호들(151 ~ 154) 및 주변 신호들(131)을 추출한다. 수신 회로(510)은 송신 회로(150)에서 실행되는 동작을 반대로 하는 알려진 동작을 기능적으로 실행한다. 수신 회로(510)는 입력 신호(181)로부터 스피치 신호들 및 주변 신호들을 추출한다. 추출은 예를 들면, 알려진 비-종속(de-concatenating) 또는 디멀티플렉싱 방법들에 의해 행해질 수 있음이 당업자 에게 명백하다.
선택적으로 화자들의 위치들에 관한 공간 정보(171)도 입력 신호(181)에 있을 때, 이것은 수신 회로(510)에 의해 추출되어 렌더링 회로(520)에 제공된다.
렌더링 회로(520)는 스피치 신호들 및 주변 신호들을 재생 회로(530)에 매핑한다. 재생 회로는 스피커들로 구성될 수도 있을 것이다. 예에서, 재생 회로(530)는 5.1 구성으로 5개의 스피커들(531 ~ 535)을 포함한다. 스피커(532)는 센터 채널 신호를 재생하며, 스피커(533)는 우측 전방 채널 신호를 재생하며, 스피커(531)는 좌측 전방 채널 신호를 재생하며, 스피커(535)는 우측 후방 채널 신호를 재생하며, 스피커(534)는 좌측 후방 채널 신호를 재생한다. 두 화자들만이 있는 경우에, 제 1 화자의 스피치 신호(151)는 스피커(531)에 의해 재생될 수도 있을 것이며, 제 2 화자의 스피치 신호(152)는 스피커(532)에 의해 재생될 수도 있을 것이다. 이때 주변 신호들은 스피커들(535, 534)에 의해 재생될 수 있다. 복수의 스피치 신호들의 경우에, 이들 신호들은 전방 스피커들(531, 532, 533)에 의해 재생될 수 있어 스피치 신호들이 서로 다른 방향들로부터 오는 것으로 인지되는 환상을 줄 수도 있을 것이다. 이러한 인지 효과는 진폭 패닝(panning), 시간 지연 패닝, 및 웨이브-필드 합성 기술들과 같은 많은 방법들로 달성될 수도 있을 것이다.
대안적으로, 스피커들 대신에, 헤드폰들이 이용될 수도 있을 것이다. 이러한 경우에, 가상 공간에서 스피치 신호들 및 주변 신호들을 재생하기 위해 HRTFs (Chapter 13 "3D Audio and Virtual Acoustical Environment Synthesis" by Jiashu Chen in the book Acoustical Signal Processing For Telecommunication by Steven L. Gay and Jakob Benesty (Editors) Kluwer Academic Publishers: 2000 ISBN 0-7923-7814-8)이 이용될 수 있다.
다른 실시예에서, 수신 회로(510)는 화자들의 위치들에 관한 공간 정보(171)를 더욱 수신하며, 렌더링 회로(520)는 스피치 신호들(151 ~ 154)이 공간 정보(171)로 표현된 위치들로부터 오는 것으로 인지되게 스피치 신호들을 공간적으로 재생한다. 이것은 예를 들면, 진폭 패닝을 이용하여 행해진다. 진폭 패닝으로 화자가 2개의 스피커 위치들 사이에 위치된 것으로 인지되게 스피치 신호를 가상으로 위치시키는 것이 가능하다.
다른 실시예에서, 스피치 신호가 인지되는 방향은 화자의 시각화에서 화자의 위치에 정렬된다.
다른 실시예에서, 하나 이상의 주변 신호들의 진폭들이 감소된다.
도 7은 본 발명에 따른 스피치 캡처링 디바이스(100) 및 스피치 렌더링 디바이스(500)를 포함하는 스피치 신호들을 전달하기 위한 통신 시스템의 예를 도시한 것이다.
통신은 2개의 단말들(700, 800)을 포함한다. 이들 단말들 각각은 스피치 캡처링 디바이스(100) 및 스피치 렌더링 디바이스(500)을 포함한다. 이들 단말들은 2개의 서로 다른 위치들, 예를 들면, 다수 실내에 위치된 화자들은 서로 통신하고 있는 1 대 1 통신 어플리케이션을 가진다. 단말(800)에 포함된 스피치 캡처링 디바이스(100)는 단말(700)에 포함된 렌더링 디바이스(500)에 송신되는 스피치 신호들 및 주변 신호들을 포함하는 출력 신호(181A)를 생성한다. 각각, 단말(700)에 포함된 스피치 캡처링 디바이스(100)는 단말(800)에 포함된 렌더링 디바이스(500)에 송신되는 스피치 신호들 및 주변 신호들을 포함하는 출력 신호(181B)를 생성한다.
본 발명이 일부 실시예들에 관련하여 기술되었을지라도, 여기에 개시된 특정 형태로 제한되게 한 것은 아니다. 그보다는, 본 본 발명의 범위는 동반된 청구항들에 의해서만 제한된다. 또한, 특징이 특정 실시예들에 관련하여 기술된 것으로 보일 수 있을지라도, 당업자는 기술된 실시예들의 여러 특징들이 본 발명에 따라 조합될 수 있음을 알 것이다. 청구항들에서, 포함하다라는 용어는 다른 요소들 또는 단계들의 존재를 배제하지 않는다.
또한, 개별적으로 열거되었을지라도, 복수의 회로, 요소들 또는 방법의 단계들은 예를 들면, 단일의 유닛 또는 프로세서에 의해 구현될 수 있다. 또한, 개개의 특징들이 서로 다른 청구항들에 포함될 수 있을지라도, 이들은 아마도 이점이 있게 조합될 수 있으며, 서로 다른 청구항들에 포함은 특징들의 조합이 가능하지 않고/않거나 이점이 없다는 것을 의미하지 않는다. 또한, 청구항들의 한 카테고리에 특징의 포함은 이 카테고리로의 한정을 의미하지 않으며 그보다는 특징은 동등하게 적합할 때 다른 청구항 카테고리들에 적용될 수 있음을 나타낸다. 또한, 단수 표현들은 복수를 배제하지 않는다. 따라서, "a", "an", "제 1", "제 2" 등의 언급들은 복수를 배제하지 않는다. 청구항들에 참조부호들은 단지 명확하게 하려는 예로서만 제공되며 어떠한 식으로든 청구항들의 범위를 제한하는 것으로서 해석되지 않을 것이다. 본 발명은 몇개의 서로 구별되는 요소들을 포함하는 하드웨어의 회로에 의해서, 그리고 적합하게 프로그래밍된 컴퓨터 또는 다른 프로그램가능한 디바이스의 회로에 의해 구현될 수 있다.
100: 스피치 캡처링 디바이스 101, 102 ~ 106: 마이크로폰
110: 캡처링 회로 121, 122 ~ 124: 추출 회로
130: 잔차 추출 회로 140: 오디오비주얼 로케이터
150: 송신 회로 220: 포스트-프로세서 회로
310, 320: 적응형 필터 500: 스피치 렌더링 디바이스
510: 수신 회로 520: 렌더링 회로
530: 재생 회로 700, 800: 단말

Claims (16)

  1. 스피치 캡처링 디바이스(speech capturing device)에 있어서:
    - 상이한 공간적 위치들로부터 발생한 복수의 사운드 신호들을 캡처하기 위해 복수의 마이크로폰들을 포함하는 캡처링 회로,
    - 각각이 상기 복수의 상기 사운드 신호들로부터 각각의 화자(speaker)에 대응하는 각각의 스피치 신호를 도출하기 위한 하나 이상의 추출 회로들,
    - 상기 하나 이상의 추출 회로들에 의해 도출된 하나 이상의 스피치 신호들에 의해 감소된 하나 이상의 주변 신호들을 상기 복수의 사운드 신호들로부터 도출하기 위한 잔차 추출 회로,
    - 상기 하나 이상의 스피치 신호들 및 상기 하나 이상의 주변 신호들을 송신하기 위한 송신 회로, 및
    - (i) 하나 이상의 상기 화자들의 위치들을 결정하고 (ii) 상기 화자들의 위치들에 대한 공간 정보의 하나 이상의 출력 신호들을 하나 이상의 추출 회로들에 제공하기 위한 오디오비주얼 로케이터(audiovisual locator)를 포함하고,
    각각의 추출 회로는 상기 화자들 각각의 위치에 지향되는 공간 정보의 각각의 출력 신호에 응답하여 각각의 스피치 신호를 추가로 추출하는, 스피치 캡처링 디바이스.
  2. 삭제
  3. 제 1 항에 있어서,
    상기 송신 회로는 상기 화자들의 하나 이상의 위치들의 공간 정보의 출력 신호들을 송신하기 위해 추가로 구성되는, 스피치 캡처링 디바이스.
  4. 제 1 항에 있어서,
    각각의 추출 회로는 대응하는 스피치 신호를 도출하기 위한 일반형 사이드-로브 캔슬러(generalized side-lobe canceller)를 포함하는, 스피치 캡처링 디바이스.
  5. 제 1 항에 있어서,
    각각의 추출 회로는 대응하는 스피치 신호에서 추가 잡음 감소를 수행하기 위한 포스트-프로세서(post-processor) 회로를 추가로 포함하는, 스피치 캡처링 디바이스.
  6. 제 1 항에 있어서,
    상기 잔차 추출 회로는 다중-채널 적응형 필터를 추가로 포함하는, 스피치 캡처링 디바이스.
  7. 제 6 항에 있어서,
    상기 다중-채널 적응형 필터는 상기 마이크로폰들 중 하나에 의해 캡처된 사운드 신호를 기준 신호로서 수신하도록 결합되는, 스피치 캡처링 디바이스.
  8. 스피치 렌더링 디바이스에 있어서:
    - 하나 이상의 스피치 신호들 및 하나 이상의 주변 신호들을 수신하기 위한 수신 회로로서, 각각의 스피치 신호는 상이한 공간적 위치에서 각각이 상이한 화자에 대응하고, 상기 상이한 화자들의 위치들에 대한 공간 정보를 추가로 수신하기 위한, 상기 수신 회로, 및
    - (i) 상기 하나 이상의 스피치 신호들 및 (ii) 상기 하나 이상의 주변 신호들을 공간적으로 재생하기 위한 렌더링 회로로서, 공간 정보에 응답하여 청자에 의해 인지되는 하나 이상의 스피치 신호들로부터 각각의 방향들이 (a) 화자의 시각화에서 상이한 화자들의 화자의 공간 정보에 의해 표현되는 각각의 상이한 공간 정보에 정렬되고 (b) 공간적으로 재생된 하나 이상의 주변 신호들의 인지되는 방향들과 상이한 방향들을 포함하도록 하나 이상의 스피치 신호들을 공간적으로 재생하는, 상기 렌더링 회로를 포함하는, 스피치 렌더링 디바이스.
  9. 제 8 항에 있어서,
    상기 렌더링 회로는 2 이상의 스피치 신호들을 공간적으로 재생하도록 구성되고, 상기 청자에 의해 인지되는 공간적으로 재생된 2 이상의 스피치 신호들의 각각의 방향들은 상호 상이한 방향들을 포함하는, 스피치 렌더링 디바이스.
  10. 삭제
  11. 삭제
  12. 제 8 항에 있어서,
    상기 렌더링 회로는 상기 하나 이상의 주변 신호들의 진폭들을 감소시키기 위해 추가로 구성되는, 스피치 렌더링 디바이스.
  13. 스피치 신호들을 전달하기 위한 통신 시스템에 있어서:
    - 제 1 항에 따른 스피치 캡처링 디바이스, 및
    - 스피치 렌더링 디바이스로서,
    하나 이상의 스피치 신호들 및 하나 이상의 주변 신호들을 수신하기 위한 수신회로로서, 각각의 스피치 신호는 상이한 화자에 대응하는, 상기 수신회로를 포함하고,
    상기 하나 이상의 스피치 신호들 및 상기 하나 이상의 주변 신호들을 공간적으로 재생하기 위한 렌더링 회로로서, 청자에 의해 인지되는 하나 이상의 스피치 신호들로부터 각각의 방향들이 (a) 상이한 화자들의 화자의 각각의 공간적 위치에 정렬되고 (b) 공간적으로 재생된 하나 이상의 주변 신호들의 인지되는 방향들과 상이한 방향들을 포함하도록 하나 이상의 스피치 신호들을 공간적으로 재생하는, 상기 렌더링 회로를 포함하는, 상기 스피치 렌더링 디바이스를 포함하는, 스피치 신호들을 전달하기 위한 통신 시스템.
  14. 핸즈프리 회의 단말에 있어서,
    제 1 항에 따른 상기 스피치 캡처링 디바이스 및
    스피치 렌더링 디바이스로서,
    하나 이상의 스피치 신호들 및 하나 이상의 주변 신호들을 수신하기 위한 수신회로로서, 각각의 스피치 신호는 상이한 화자에 대응하는, 상기 수신회로를 포함하고,
    상기 하나 이상의 스피치 신호들 및 상기 하나 이상의 주변 신호들을 공간적으로 재생하기 위한 렌더링 회로로서, 청자에 의해 인지되는 하나 이상의 스피치 신호들로부터 각각의 방향들이 (a) 상이한 화자들의 화자의 각각의 공간적 위치에 정렬되고 (b) 공간적으로 재생된 하나 이상의 주변 신호들의 인지되는 방향들과 상이한 방향들을 포함하도록 하나 이상의 스피치 신호들을 공간적으로 재생하는, 상기 렌더링 회로를 포함하는, 상기 스피치 렌더링 디바이스를 포함하는, 핸즈프리 회의 단말.
  15. 스피치 캡처링 방법에 있어서:
    - 복수의 마이크로폰을 통해 상이한 공간적 위치로부터 발생하는 복수의 사운드 신호들을 캡처하는 단계,
    - 하나 이상의 추출 회로들을 통해 상기 복수의 상기 사운드 신호들로부터 하나 이상의 각각의 화자들에 대응하는 하나 이상의 스피치 신호들을 도출하는 단계,
    - 잔차 추출 회로를 통해 각각이 상기 하나 이상의 스피치 신호들에 의해 감소된 상기 복수의 사운드 신호들로부터 하나 이상의 주변 신호들을 도출하는 단계, 및
    - 송신 회로를 통해 상기 하나 이상의 스피치 신호들 및 상기 하나 이상의 주변 신호들을 송신하는 단계,
    - 오디오비주얼 로케이터를 통해 하나 이상의 화자들의 위치들을 결정하는 단계, 및
    - 오디오비주얼 로케이터를 통해 화자들의 위치들에 대한 공간 정보의 하나 이상의 출력 신호들을 하나 이상의 추출 회로에 제공하는 단계를 포함하고,
    상기 스피치 신호들을 도출하는 단계는 상기 화자들 각각의 위치에 지향되는 공간 정보의 각각의 출력 신호에 응답하여 도출하는 단계를 포함하는, 스피치 캡처링 방법.
  16. 스피치 렌더링 방법에 있어서:
    - 수신 회로를 통해 상이한 공간적 위치에서 각각이 상이한 화자에 대응하는 하나 이상의 스피치 신호들, 및 하나 이상의 주변 신호들을 수신하는 단계, 및
    - 렌더핑 회로를 통해 상기 하나 이상의 스피치 신호들 및 상기 하나 이상의 주변 신호들을 공간적으로 재생하는 단계로서, 청자에 의해 인지되는 하나 이상의 스피치 신호들로부터 각각의 방향들이 (a) 상이한 화자들의 화자의 각각의 공간적 위치에 정렬되고 (b) 공간적으로 재생된 하나 이상의 주변 신호들의 인지되는 방향들과 상이한 방향들을 포함하도록 하나 이상의 스피치 신호들을 공간적으로 재생하는, 상기 재생하는 단계를 포함하는, 스피치 렌더링 방법.
KR1020117017092A 2008-12-23 2009-12-17 스피치 캡처링 및 스피치 렌더링 KR101648203B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP08172683.8 2008-12-23
EP08172683 2008-12-23

Publications (2)

Publication Number Publication Date
KR20110099750A KR20110099750A (ko) 2011-09-08
KR101648203B1 true KR101648203B1 (ko) 2016-08-12

Family

ID=41728204

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117017092A KR101648203B1 (ko) 2008-12-23 2009-12-17 스피치 캡처링 및 스피치 렌더링

Country Status (6)

Country Link
US (1) US8781818B2 (ko)
EP (1) EP2382799A1 (ko)
JP (2) JP5538425B2 (ko)
KR (1) KR101648203B1 (ko)
CN (1) CN102265643B (ko)
WO (1) WO2010073193A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140278380A1 (en) * 2013-03-14 2014-09-18 Dolby Laboratories Licensing Corporation Spectral and Spatial Modification of Noise Captured During Teleconferencing
KR102003462B1 (ko) 2013-04-10 2019-07-24 노키아 테크놀로지스 오와이 오디오 레코딩 및 재생 장치
CN108235192B (zh) * 2013-04-10 2021-10-15 诺基亚技术有限公司 音频记录和回放装置
EP3251116A4 (en) * 2015-01-30 2018-07-25 DTS, Inc. System and method for capturing, encoding, distributing, and decoding immersive audio
GB2540175A (en) * 2015-07-08 2017-01-11 Nokia Technologies Oy Spatial audio processing apparatus
EP3534596B1 (en) * 2018-03-02 2022-10-26 Nokia Technologies Oy An apparatus and associated methods for telecommunications
EP3870991A4 (en) 2018-10-24 2022-08-17 Otto Engineering Inc. DIRECTIONAL AUDIO COMMUNICATION SYSTEM
GB201818959D0 (en) * 2018-11-21 2019-01-09 Nokia Technologies Oy Ambience audio representation and associated rendering
GB2586126A (en) * 2019-08-02 2021-02-10 Nokia Technologies Oy MASA with embedded near-far stereo for mobile devices
US11750745B2 (en) 2020-11-18 2023-09-05 Kelly Properties, Llc Processing and distribution of audio signals in a multi-party conferencing environment
GB2622386A (en) * 2022-09-14 2024-03-20 Nokia Technologies Oy Apparatus, methods and computer programs for spatial processing audio scenes

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030129956A1 (en) * 2001-12-20 2003-07-10 Nokia Corporation Teleconferencing arrangement

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4104659B2 (ja) 1996-05-31 2008-06-18 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 入力信号の妨害成分を抑圧するための装置
US5991385A (en) * 1997-07-16 1999-11-23 International Business Machines Corporation Enhanced audio teleconferencing with sound field effect
JP4216364B2 (ja) * 1997-08-29 2009-01-28 株式会社東芝 音声符号化/復号化方法および音声信号の成分分離方法
US7146012B1 (en) 1997-11-22 2006-12-05 Koninklijke Philips Electronics N.V. Audio processing arrangement with multiple sources
JPH11308591A (ja) * 1998-04-21 1999-11-05 Fujitsu Ltd 情報通信システム
US6122611A (en) 1998-05-11 2000-09-19 Conexant Systems, Inc. Adding noise during LPC coded voice activity periods to improve the quality of coded speech coexisting with background noise
US6327567B1 (en) * 1999-02-10 2001-12-04 Telefonaktiebolaget L M Ericsson (Publ) Method and system for providing spatialized audio in conference calls
US6782361B1 (en) 1999-06-18 2004-08-24 Mcgill University Method and apparatus for providing background acoustic noise during a discontinued/reduced rate transmission mode of a voice transmission system
JP2001069597A (ja) * 1999-06-22 2001-03-16 Yamaha Corp 音声処理方法及び装置
KR100723283B1 (ko) * 1999-06-24 2007-05-30 코닌클리케 필립스 일렉트로닉스 엔.브이. 음향 에코 및 잡음 제거 적응성 필터
EP1139337A1 (en) 2000-03-31 2001-10-04 Telefonaktiebolaget L M Ericsson (Publ) A method of transmitting voice information and an electronic communications device for transmission of voice information
US6850265B1 (en) * 2000-04-13 2005-02-01 Koninklijke Philips Electronics N.V. Method and apparatus for tracking moving objects using combined video and audio information in video conferencing and other applications
US6850496B1 (en) * 2000-06-09 2005-02-01 Cisco Technology, Inc. Virtual conference room for voice conferencing
US7206421B1 (en) 2000-07-14 2007-04-17 Gn Resound North America Corporation Hearing system beamformer
US6937295B2 (en) 2001-05-07 2005-08-30 Junaid Islam Realistic replication of a live performance at remote locations
US7668317B2 (en) 2001-05-30 2010-02-23 Sony Corporation Audio post processing in DVD, DTV and other audio visual products
AUPR647501A0 (en) * 2001-07-19 2001-08-09 Vast Audio Pty Ltd Recording a three dimensional auditory scene and reproducing it for the individual listener
FI114129B (fi) 2001-09-28 2004-08-13 Nokia Corp Konferenssipuhelujärjestely
US6812956B2 (en) * 2001-12-21 2004-11-02 Applied Minds, Inc. Method and apparatus for selection of signals in a teleconference
US7391877B1 (en) * 2003-03-31 2008-06-24 United States Of America As Represented By The Secretary Of The Air Force Spatial processor for enhanced performance in multi-talker speech displays
US7343289B2 (en) * 2003-06-25 2008-03-11 Microsoft Corp. System and method for audio/video speaker detection
US7190775B2 (en) * 2003-10-29 2007-03-13 Broadcom Corporation High quality audio conferencing with adaptive beamforming
KR20060113714A (ko) * 2003-11-24 2006-11-02 코닌클리케 필립스 일렉트로닉스 엔.브이. 비상관된 잡음에 대해 내성을 갖는 적응형 빔포머
EP1743323B1 (en) 2004-04-28 2013-07-10 Koninklijke Philips Electronics N.V. Adaptive beamformer, sidelobe canceller, handsfree speech communication device
US7464029B2 (en) * 2005-07-22 2008-12-09 Qualcomm Incorporated Robust separation of speech signals in a noisy environment
US8139787B2 (en) * 2005-09-09 2012-03-20 Simon Haykin Method and device for binaural signal enhancement
US20070109977A1 (en) * 2005-11-14 2007-05-17 Udar Mittal Method and apparatus for improving listener differentiation of talkers during a conference call
EP1971183A1 (en) * 2005-11-15 2008-09-17 Yamaha Corporation Teleconference device and sound emission/collection device
US8180067B2 (en) 2006-04-28 2012-05-15 Harman International Industries, Incorporated System for selectively extracting components of an audio input signal
US9088855B2 (en) * 2006-05-17 2015-07-21 Creative Technology Ltd Vector-space methods for primary-ambient decomposition of stereo audio signals
DE102006048295B4 (de) * 2006-10-12 2008-06-12 Andreas Max Pavel Verfahren und Vorrichtung zur Aufnahme, Übertragung und Wiedergabe von Schallereignissen für Kommunikationsanwendungen
DE102006050068B4 (de) * 2006-10-24 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Umgebungssignals aus einem Audiosignal, Vorrichtung und Verfahren zum Ableiten eines Mehrkanal-Audiosignals aus einem Audiosignal und Computerprogramm
US8559646B2 (en) 2006-12-14 2013-10-15 William G. Gardner Spatial audio teleconferencing
US7792674B2 (en) * 2007-03-30 2010-09-07 Smith Micro Software, Inc. System and method for providing virtual spatial sound with an audio visual player
KR101572894B1 (ko) * 2007-09-06 2015-11-30 엘지전자 주식회사 오디오 신호의 디코딩 방법 및 장치
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
WO2010040408A1 (en) * 2008-10-09 2010-04-15 Telefonaktiebolaget L M Ericsson (Publ) A common scene based conference system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030129956A1 (en) * 2001-12-20 2003-07-10 Nokia Corporation Teleconferencing arrangement

Also Published As

Publication number Publication date
CN102265643A (zh) 2011-11-30
WO2010073193A1 (en) 2010-07-01
EP2382799A1 (en) 2011-11-02
CN102265643B (zh) 2014-11-19
JP2012513701A (ja) 2012-06-14
JP5538425B2 (ja) 2014-07-02
KR20110099750A (ko) 2011-09-08
US20110264450A1 (en) 2011-10-27
US8781818B2 (en) 2014-07-15
JP5859600B2 (ja) 2016-02-10
JP2014180008A (ja) 2014-09-25

Similar Documents

Publication Publication Date Title
KR101648203B1 (ko) 스피치 캡처링 및 스피치 렌더링
US6931123B1 (en) Echo cancellation
US8503655B2 (en) Methods and arrangements for group sound telecommunication
CA2153171C (en) Sound localization system for teleconferencing using self-steering microphone arrays
JP6092151B2 (ja) 空間的に信号を強調する補聴器
US8073125B2 (en) Spatial audio conferencing
US20050265558A1 (en) Method and circuit for enhancement of stereo audio reproduction
KR20060041736A (ko) 음향 재생 장치 및 음향 재생 방법
EP1700465B1 (en) System and method for enchanced subjective stereo audio
KR20170100582A (ko) 카메라 선택에 기초한 오디오 처리
JP6404354B2 (ja) 多くの拡声器信号を生成するための装置及び方法、並びにコンピュータ・プログラム
JP2010506519A (ja) 通信分野用のサウンドイベントを取得し、伝送し、および、再生するための処理および装置
JP2645731B2 (ja) 音像定位再生方式
JPH0974446A (ja) 音声通信制御装置
US20050069140A1 (en) Method and device for reproducing a binaural output signal generated from a monaural input signal
WO2017211448A1 (en) Method for generating a two-channel signal from a single-channel signal of a sound source
JP6972858B2 (ja) 音響処理装置、プログラム及び方法
Gamper et al. Instant BRIR acquisition for auditory events in audio augmented reality using finger snaps
Lee et al. Reduction of sound localization error for non-individualized HRTF by directional weighting function
Tsakostas Binaural Simulation applied to standard stereo audio signals aiming to the enhancement of the listening experience
KR20060081966A (ko) 원격회의를 위한 음상 정위 시스템
JPS63217865A (ja) 会議通話装置

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190801

Year of fee payment: 4