KR20140032354A - 동적 마이크로폰 신호 믹서 - Google Patents
동적 마이크로폰 신호 믹서 Download PDFInfo
- Publication number
- KR20140032354A KR20140032354A KR1020137013771A KR20137013771A KR20140032354A KR 20140032354 A KR20140032354 A KR 20140032354A KR 1020137013771 A KR1020137013771 A KR 1020137013771A KR 20137013771 A KR20137013771 A KR 20137013771A KR 20140032354 A KR20140032354 A KR 20140032354A
- Authority
- KR
- South Korea
- Prior art keywords
- signals
- channel
- preprocessed
- noise
- program code
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 44
- 230000009467 reduction Effects 0.000 claims abstract description 42
- 230000003595 spectral effect Effects 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 17
- 238000012545 processing Methods 0.000 claims description 17
- 238000007781 pre-processing Methods 0.000 claims description 15
- 230000004913 activation Effects 0.000 claims description 14
- 238000001914 filtration Methods 0.000 claims description 14
- 238000001514 detection method Methods 0.000 claims description 13
- 238000003672 processing method Methods 0.000 claims description 9
- 230000007704 transition Effects 0.000 abstract description 5
- 230000001419 dependent effect Effects 0.000 abstract description 4
- 230000000694 effects Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000009499 grossing Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004040 coloring Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004549 pulsed laser deposition Methods 0.000 description 2
- 238000003860 storage Methods 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011960 computer-aided design Methods 0.000 description 1
- 238000006880 cross-coupling reaction Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/3005—Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/005—Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R9/00—Transducers of moving-coil, moving-strip, or moving-wire type
- H04R9/08—Microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/01—Aspects of volume control, not necessarily automatic, in sound systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2430/00—Signal processing covered by H04R, not provided for in its groups
- H04R2430/03—Synergistic effects of band splitting and sub-band processing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
- Soundproofing, Sound Blocking, And Sound Damping (AREA)
Abstract
잡음 환경에서 서로 다른 화자들을 지원하는 신호 결합 시스템 및 방법이 제공된다. 특히, 채널들 사이에서의 잡음 특징들의 편차를 위하여, 다양한 실시예들은 화자가 변경될 때 배경 잡음의 매끄러운 천이(transition)를 보장한다. 수정된 잡음 감소(noise reduction; NR)는 동적, 채널 특정 및 주파수 의존 최대 감쇠(attenuation)를 적용하여 모든 채널들에 대하여 동등한 배경 잡음 특징들을 달성할 수 있다. 배경 잡음을 조절하기 위한 기준 특징들은 지배적 화자 채널에 의해 특정될 수 있다. 다양한 실시예들에서, 동작 목표 레벨을 가진 자동 이득 제어(automatic gain control; AGC)가 모든 채널들에서 유사한 음성 신호 레벨을 보장할 수 있다.
Description
본 발명은 동적 신호 믹서 시스템 및 방법에 관한 것으로, 보다 구체적으로 서로 다른 음성(speech) 레벨들 및/또는 서로 다른 배경 잡음(background noise)들을 보상하는 스펙트럼 전처리(spectral preprocessing)를 포함하는 동적 마이크로폰 신호 믹서(dynamic microphone signal mixer)에 관한 것이다.
디지털 신호 처리에서, 2 이상의 마이크로폰 신호들이 결합되어야만 하는 다중-마이크로폰 배치(multi-microphone arrangement)들이 다수 존재한다. 예를 들어, 이러한 적용 예들은 원격 회의(teleconferencing)와 관련된 생중계 믹싱 상황에서 차량 환경에서의 핸즈-프리 전화(hands-free telephony)까지 다양할 수 있다. 한편, 신호 품질은 마이크로폰의 위치, 마이크로폰의 타입, 배경 잡음의 종류 및 화자 스스로에 따라 다양한 화자 채널들 사이에서 매우 다를 수 있다. 예를 들어, 차량에 다수의 화자들이 존재하는 핸즈-프리 전화 시스템의 경우, 각 화자마다 음성(speech)을 획득하는 전용 마이크로폰을 가질 수 있다. 열려진 창문과 같은 서로 다른 영향을 미치는 요인들에 기인하여, 마이크로폰 신호들을 서로 비교하면 배경 잡음이 매우 다를 수 있다. 실제(active) 화자들 사이에서 하드 스위칭(hard switching)이 수행되거나, 소프트 믹싱(soft mixing) 기능들이 보다 높은 잡음 레벨을 포함하여 결과적인 잡음 레벨을 증가시키는 경우, 잡음 점프(jump) 및/또는 서로 다른 착색효과(coloration)가 뚜렷할 수 있다.
자동 마이크로폰 믹서의 개념이 다중 마이크로폰 라이브 사운드 상황에서 "자동 믹싱(automatic mixing)"을 사용하는 D. Dugan의 "오디오 콘솔에 대한 자동 믹싱 기술의 적용(Application of Automatic Mixing Techniques to Audio Consoles)"(SMPTE Television Conference, vol. 101, 19-27, New York, NY, 1992)에서 제안되었고, 이는 전체로서 여기에 참조로 인용된다. 그러나, Dugan에서는 배경 잡음의 효과가 고려되지 않았다. S. P. Chandra, K. M. Senthil 및 M. P. P. Bala의 "VoIP 다자 회의를 위한 오디오 믹서(Audio Mixer for Multi-party Conferencing in VoIP"(Proceedings of the 3rd IEEE International Conference on Internet Multimedia Services Architecture and Applications (IMSAA'09), 31-36, IEEE Press, Piscataway, NJ, USA, 2009)에는 잡음 신호들을 스위칭하기 위한 각 채널의 고정 방식의 잡음 감소가 개시되어 있으나, 믹서 기준 자체에 대하여 잡음이 고려되어 있지 않고, 이는 전체로서 여기에 참조로 인용된다. 다른 방안들은 신호대 잡음비(signal-to-noise ratio; SNR)의 최대화에 기반을 둔다(예를 들어, J. Freudenberger, S. Stenzel 및 B. Venditti의 "Spectral Combining for Microphonediversity Systems", 17th European Signal Processing Conference (EUSIPCO-2009), Glasgow, 2009; 및 W. Kellermann의 "Sprachverarbeitungseinrichtung", DE 4330243을 참조. 이들은 전체로서 여기에 참조로 인용됨). 여기서, 차량 환경에서와 같은 고 배경 잡음 상황들이 고려되나, 다수의 전용 마이크로폰들을 가지는 오직 한 명의 화자에 대해서만 고려되었다. Freudenberger에서는, 모든 마이크로폰 채널들에서 유사한 잡음 레벨들을 가정하는 다이버시티(diversity) 기술이 개시되어 있으나, 동위상에서 신호들을 가산한다. 다이버시티 효과들을 이용하고 서로 다른 잡음들을 처리하는 다른 방법이 T. Gerkmann 및 R. Martin의 "듀얼 채널 잡음 감소를 위한 소프트 판정 결합(Soft decision combining for dual channel noise reduction)"(9. Int. Conference on Spoken Language Processing (Interspeech ICSLP), Pittsburgh, Pennsylvania, Sept. 2006, pp. 2134-2137)에 개시되어 있고, 이는 전체로서 여기에 참조로 인용된다. 여기서, 위상차(phase difference)들이 음성 구간(speech period)들 동안 추정된다.
상술한 방식들은 서로 다른 잡음 레벨들 및 착색효과들이 발생하는 것을 고려하지 않았고, 배경 잡음을 고려하여 서로 다른 화자들 사이에서 활성화 스위칭이 표시되지 않아야함을 고려하지 않았다. 또한, 잡음 레벨이 믹싱 기능에 의해 증가되지 않아야 한다.
본 발명의 일 목적은 서로 다른 음성(speech) 레벨들 및/또는 서로 다른 배경 잡음(background noise)들을 보상할 수 있는 신호 처리 시스템, 신호 처리 방법 및 컴퓨터 프로그램 제품을 제공하는 것이다.
본 발명의 일 실시예에 따라, 신호 처리 시스템은 복수의 신호들을 수신하고, 실질적으로 동등한 잡음 특성들을 가지는 전처리된 신호들을 생성하는 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 전처리 모듈(preprocessing module)을 포함한다. 믹서는 상기 전처리된 신호들 중 적어도 두 개를 결합한다.
본 발명의 관련 실시예들에 따라, 상기 신호 처리 시스템은 상기 복수의 신호들을 제공하는 복수의 마이크로폰들을 더 포함할 수 있다. 상기 마이크로폰들 중 적어도 두 개는 운송 수단, 예를 들어 자동차 또는 보트의 서로 다른 승객 칸들(passenger compartments)에 위치할 수 있다. 다른 실시예들에서, 상기 2 이상의 마이크로폰들은 전화 회의를 위하여 원격의 서로 다른 장소들에 위치할 수 있다.
본 발명의 다른 관련 실시예들에 따라, 상기 잡음 감소 알고리즘은, 상기 복수의 신호들의 배경 잡음이 스펙트럼 형태 또는 파워 중 적어도 하나에 대하여 실질적으로 동등하도록, 상기 복수의 신호들 각각을 구동할 수 있다. 상기 잡음 감소 알고리즘은, 상기 복수의 신호들의 신호대 잡음비가 실질적으로 동등하도록, 상기 복수의 신호들 각각을 구동할 수 있다. 상기 복수의 신호들 각각은 채널에 연관되고, 상기 잡음 감소 알고리즘은 잡음 파워 스펙트럼 밀도(noise power spectral density)에 적어도 일부 기초하여 각 채널에 대한 동적 스펙트럼 플로어(dynamic spectral floor)를 결정하는 것을 포함할 수 있다.
본 발명의 또 다른 관련 실시예들에 따라, 상기 전처리 모듈은 상기 복수의 신호들 각각의 신호 레벨을 동적으로 조절하는 이득 제어 모듈을 포함할 수 있다. 상기 이득 제어 모듈은 상기 복수의 신호들 각각의 상기 신호 레벨을 목표 레벨로 동적으로 조절할 수 있다. 상기 복수의 신호들 각각은 채널에 연관되고, 상기 전처리 모듈은 각 채널에 대한 지배 가중치(dominance weight)를 결정하는 음성 활성화 검출 모듈을 더 포함하고, 상기 이득 제어 모듈은 상기 복수의 신호들에 연관된 채널들의 상기 지배 가중치에 적어도 일부 기초하여 상기 복수의 신호들 각각의 상기 신호 레벨을 조절할 수 있다.
본 발명의 또 다른 관련 실시예들에 따라, 상기 복수의 신호들 각각은 채널에 연관되고, 상기 전처리 모듈은 각 채널에 대한 지배 가중치(dominance weight)를 결정하는 음성 활성화 검출 모듈을 포함하고, 상기 잡음 감소 알고리즘은 연관된 상기 지배 가중치에 적어도 일부 기초하여 각 채널에 대한 상기 전처리된 신호들을 생성할 수 있다. 상기 믹서는 상기 전처리된 신호들에 가중치를 부여하기 위한 동적 가중치들을 포함하고, 상기 동적 가중치들은 상기 전처리 모듈에 연관된 상기 지배 가중치와 상이할 수 있다.
본 발명의 다른 실시예에 따라, 신호 처리 방법은 복수의 신호들을 수신하는 단계를 포함한다. 상기 복수의 신호들 각각은 실질적으로 동등한 잡음 특성들을 가지는 전처리된 신호들을 생성하는 잡음 감소 알고리즘에 따라 동적으로 필터링된다. 상기 전처리된 신호들 중 적어도 두 개가 결합된다.
본 발명의 관련 실시예들에 따라, 상기 신호 처리 방법은 복수의 마이크로폰들이 상기 복수의 신호들을 제공하는 단계를 더 포함하고, 상기 마이크로폰들 중 적어도 두 개는 운송 수단의 서로 다른 승객 칸들(passenger compartments)에 위치할 수 있다. 다른 실시예들에서, 상기 2 이상의 마이크로폰들은 전화 회의를 위하여 원격의 서로 다른 장소들에 위치할 수 있다.
본 발명의 관련 실시예들에 따라, 상기 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 단계는, 상기 복수의 신호들의 배경 잡음이 스펙트럼 형태 또는 파워 중 적어도 하나에 대하여 실질적으로 동등하도록, 상기 복수의 신호들 각각을 구동하는 단계를 포함할 수 있다. 상기 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 단계는, 상기 복수의 신호들의 신호대 잡음비가 실질적으로 동등하도록, 상기 복수의 신호들 각각을 구동하는 단계를 포함할 수 있다. 상기 복수의 신호들 각각은 채널에 연관되고, 상기 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 단계는, 잡음 파워 스펙트럼 밀도(noise power spectral density)에 적어도 일부 기초하여 각 채널에 대한 동적 스펙트럼 플로어(dynamic spectral floor)를 결정하는 단계를 포함할 수 있다.
본 발명의 다른 관련 실시예들에 따라, 상기 신호 처리 방법은 상기 전처리된 신호들을 생성함에 있어서 상기 복수의 신호들 각각의 신호 레벨을 동적으로 조절하는 단계를 더 포함할 수 있다. 상기 복수의 신호들 각각의 상기 신호 레벨을 동적으로 조절하는 단계는, 상기 복수의 신호들 각각의 상기 신호 레벨을 목표 레벨로 동적으로 조절하는 단계를 포함할 수 있다. 상기 복수의 신호들 각각은 채널에 연관되고, 상기 신호 처리 방법은 각 채널에 대한 지배 가중치(dominance weight)를 결정하는 음성 활성화 검출 모듈을 적용하는 단계를 더 포함할 수 있다. 상기 전처리된 신호들을 생성함에 있어서 상기 복수의 신호들 각각의 상기 신호 레벨을 동적으로 조절하는 단계는, 연관된 상기 지배 가중치에 적어도 일부 기초하여 각 채널에 대한 상기 전처리된 신호들을 생성하는 단계를 포함할 수 있다.
본 발명의 또 다른 관련 실시예들에 따라, 상기 복수의 신호들 각각은 채널에 연관되고, 상기 신호 처리 방법은 각 채널에 대한 지배 가중치(dominance weight)를 결정하는 음성 활성화 검출 모듈을 적용하는 단계를 더 포함할 수 있다. 상기 전처리된 신호들을 생성하는 상기 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각에 동적으로 가중 부여하는 단계는, 연관된 상기 지배 가중치에 적어도 일부 기초하여 각 채널에 대한 상기 전처리된 신호들을 생성하는 단계를 포함할 수 있다. 상기 전처리된 신호들 중 적어도 두 개를 결합하는 단계는, 상기 전처리된 신호들에 가중치를 부여하기 위한 동적 가중 인자들을 이용하는 단계를 포함할 수 있다. 상기 전처리된 신호들을 결합하는 것에 연관된 상기 동적 가중 인자들은 상기 전처리된 신호들을 생성하는 것에 연관된 상기 지배 가중치와 상이할 수 있다.
본 발명의 다른 실시예에 따라, 복수의 신호들을 동적으로 결합하기 위한 컴퓨터 프로그램 제품이 제공된다. 상기 컴퓨터 프로그램 제품은 컴퓨터로 판독 가능한 프로그램 코드가 기록된 컴퓨터로 이용 가능한 매체를 포함하고, 상기 컴퓨터로 판독 가능한 프로그램 코드는 실질적으로 동등한 잡음 특성들을 가지는 전처리된 신호들을 생성하는 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 프로그램 코드를 포함한다. 상기 전처리된 신호들 중 적어도 두 개가 결합된다.
본 발명의 관련 실시예들에 따라, 상기 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 프로그램 코드는, 상기 복수의 신호들의 배경 잡음이 스펙트럼 형태 또는 파워 중 적어도 하나에 대하여 실질적으로 동등하도록, 상기 복수의 신호들 각각을 구동하는 프로그램 코드를 포함할 수 있다. 상기 복수의 신호들 각각은 채널에 연관되고, 상기 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 프로그램 코드는, 잡음 파워 스펙트럼 밀도(noise power spectral density)에 적어도 일부 기초하여 각 채널에 대한 동적 스펙트럼 플로어(dynamic spectral floor)를 결정하는 프로그램 코드를 포함할 수 있다.
본 발명의 다른 관련 실시예들에 따라, 상기 컴퓨터 프로그램 제품은 상기 전처리된 신호들을 생성함에 있어서 상기 복수의 신호들 각각의 신호 레벨을 동적으로 조절하는 프로그램 코드를 더 포함할 수 있다. 상기 복수의 신호들 각각은 채널에 연관된다. 상기 컴퓨터 프로그램 제품은 각 채널에 대한 지배 가중치(dominance weight)를 결정하는 음성 활성화 검출 모듈을 적용하는 프로그램 코드를 더 포함한다. 상기 전처리된 신호들을 생성함에 있어서 상기 복수의 신호들 각각의 상기 신호 레벨을 동적으로 조절하는 프로그램 코드는, 연관된 상기 지배 가중치에 적어도 일부 기초하여 각 채널에 대한 상기 전처리된 신호들을 생성하는 프로그램 코드를 포함할 수 있다.
본 발명의 다른 관련 실시예들에 따라, 상기 복수의 신호들 각각은 채널에 연관되고, 상기 컴퓨터 프로그램 제품은 각 채널에 대한 지배 가중치(dominance weight)를 결정하는 음성 활성화 검출 모듈을 적용하는 프로그램 코드를 더 포함하며, 상기 전처리된 신호들을 생성하는 상기 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각에 동적으로 가중 부여하는 프로그램 코드는, 연관된 상기 지배 가중치에 적어도 일부 기초하여 각 채널에 대한 상기 전처리된 신호들을 생성하는 프로그램 코드를 포함할 수 있다. 상기 전처리된 신호들 중 적어도 두 개를 결합하는 프로그램 코드는, 상기 전처리된 신호들에 가중치를 부여하기 위한 동적 가중 인자들을 이용하는 프로그램 코드를 포함할 수 있다. 상기 전처리된 신호들을 결합하는 것에 연관된 상기 동적 가중 인자들은 상기 전처리된 신호들을 생성하는 것에 연관된 상기 지배 가중치와 상이할 수 있다.
본 발명의 실시예들에 따른 신호 처리 시스템, 신호 처리 방법 및 컴퓨터 프로그램 제품은 서로 다른 음성(speech) 레벨들 및/또는 서로 다른 배경 잡음(background noise)들을 보상할 수 있다.
본 개시의 하나 이상의 실시예들에 대한 구체적인 설명이 첨부된 도면들 및 아래의 상세한 설명에 개시되어 있다. 본 개시의 다른 특징들, 목적들, 및 장점들이 상세한 설명 및 도면들로부터, 또한 특허청구범위로부터 명백하게 될 것이다.
상술한 실시예들의 특징들이 첨부된 도면들 및 아래의 상세한 설명을 참조하여 보다 용이하게 이해될 것이고, 첨부된 도면들에서,
도 1은 본 발명의 일 실시예에 따른 신호들의 동적 믹싱을 위한 신호 처리 시스템의 시스템 개요를 나타내고,
도 2a는 본 발명의 일 실시예에 따른 다양한 채널들에 연관된 예시적인 카운터들()을 나타내며, 도 2b는 본 발명의 일 실시예에 따른 화자의 지배를 나타내는 화자 지배 가중치()에 매핑된 상기 카운터들을 나타내고,
도 3은 본 발명의 일 실시예에 따른 자동 이득 조절(Automatic Gain Control; AGC)의 블록도를 나타내며,
도 4는 본 발명의 일 실시예에 따른 잡음 감소(Noise Reduction; NR)의 블록도를 나타내고,
도 5a는 (NR 없는) 채널간 스위칭(inter channel switching) 후 처리된 출력 신호를 나타내며, 도 5b는 본 발명의 일 실시예에 따른 0.4의 bref를 가지는 결과적으로 처리된 신호를 나타내고,
도 6a는 다양한 믹싱 시스템 방법론들의 평가의 평균 투표 결과들을 나타내며, 도 6b는 상기 서로 다른 방법들에 대한 순위 분포를 나타낸다.
도 1은 본 발명의 일 실시예에 따른 신호들의 동적 믹싱을 위한 신호 처리 시스템의 시스템 개요를 나타내고,
도 2a는 본 발명의 일 실시예에 따른 다양한 채널들에 연관된 예시적인 카운터들()을 나타내며, 도 2b는 본 발명의 일 실시예에 따른 화자의 지배를 나타내는 화자 지배 가중치()에 매핑된 상기 카운터들을 나타내고,
도 3은 본 발명의 일 실시예에 따른 자동 이득 조절(Automatic Gain Control; AGC)의 블록도를 나타내며,
도 4는 본 발명의 일 실시예에 따른 잡음 감소(Noise Reduction; NR)의 블록도를 나타내고,
도 5a는 (NR 없는) 채널간 스위칭(inter channel switching) 후 처리된 출력 신호를 나타내며, 도 5b는 본 발명의 일 실시예에 따른 0.4의 bref를 가지는 결과적으로 처리된 신호를 나타내고,
도 6a는 다양한 믹싱 시스템 방법론들의 평가의 평균 투표 결과들을 나타내며, 도 6b는 상기 서로 다른 방법들에 대한 순위 분포를 나타낸다.
본 발명의 예시적인 실시예에서, 잡음 환경에서 서로 다른 화자들을 지원하는 신호 결합 시스템 및 방법이 제공된다. 특히, 채널들 사이에서의 잡음 특징들의 편차를 위하여, 다양한 실시예들은 화자가 변경될 때 배경 잡음의 매끄러운 천이(transition)를 보장한다. 수정된 잡음 감소(noise reduction; NR)는 동적, 채널 특정 및 주파수 의존 최대 감쇠(attenuation)를 적용하여 모든 채널들에 대하여 동등한 배경 잡음 특징들을 달성할 수 있다. 배경 잡음을 조절하기 위한 기준 특징들은 지배적 화자 채널에 의해 특정될 수 있다. 다양한 실시예들에서, 동작 목표 레벨을 가진 자동 이득 제어(automatic gain control; AGC)가 모든 채널들에서 유사한 음성 신호 레벨을 보장할 수 있다. 이하, 보다 상세히 설명된다.
도 1은 본 발명의 일 실시예에 따른 신호들의 동적 믹싱을 위한 신호 처리 시스템의 시스템 개요를 나타낸다. 상기 시스템의 적용은 원격 회의(teleconferencing) 시스템들에 관한 생중계 믹싱 상황에서 차량 환경에서의 핸즈-프리 전화(hands-free telephony)까지 매우 다양할 수 있다. 상기 시스템은, 마이크로폰 지수(microphone index) m을 가지고, 이에 한정되지 않으나 M 개의 입력 신호들에 연관된 입력 M 개의 마이크로폰들(100)을 포함한다. 상기 M 개의 입력 신호들은 하나의 (또는 그 이상의) 출력 신호(Y)를 형성하도록 결합된다.
일반적으로, 이에 한정되지 않으나 화자 변경을 포함하는 음향 상황의 변경에 기인하여, 마이크로폰 신호 레벨들은 시간에 따라 변경된다. 또한, 다양한 마이크로폰들(100)이, 이에 한정되지 않으나, 서로 이격된 서로 다른 화자들에 위치함으로써 다양한 노이즈 특징들을 가질 수 있다. 예를 들어, 다양한 화자들이 자동차 또는 보트와 같은 운송 수단의 서로 다른 승객 칸들(passenger compartments)에 위치하거나, 전화 회의를 위한 서로 다른 장소에 위치할 수 있다.
도시된 실시예에서, 전처리 모듈(preprocessing module)(110)은 마이크로폰들(100)로부터의 신호들을 수신하고, 잡음 감소 알고리즘에 다라 상기 신호들 각각을 동적으로 필터링하여 실질적으로 동등한 잡음 특징들(noise characteristics)을 가지는 전처리된 신호들(Y1 내지 YM)을 생성한다. 전처리 모듈(110)은, 이에 한정되지 않으나, 각 마이크로폰 및/또는 화자의 지배를 결정하는 음성 활성화 검출(Voice Activity Detection, VAD)(112)을 포함하고, 그 결과로서 지배 가중치(Dominance Weight; DW)들이 계산되며(118), 이들에 기초하여 AGC(114)를 조절하기 위한 목표 값들(120) 및 NR(116)의 최대 감쇠(maximum attenuation)가 계산된다. 이러한 전처리 단계들 이후, 각 채널의 신호들은 유사한 사운드 레벨 및 잡음 특징들로 구동되고, 예를 들어 믹서(122)에서 결합된다.
상기 처리는 주파수 도메인 또는 부대역(subband) 도메인에서 수행될 수 있고, 여기서 이 프레임 지수(frame index)를 나타내고, k가 주파수 지수(frequency index)를 나타낸다. 단시간 퓨리에(Fourier) 변환은 Hann 윈도우 및, 이에 한정되지 않으나, 11025 Hz의 샘플링 주파수에서 75%의 중첩(overlap)을 가지는 256 개의 샘플들을 이용할 수 있다. 예를 들어, 각 마이크로폰 신호는 음성(speech)과 잡음 신호 성분의 중첩(superposition)에 의해 다음과 같이 모델링될 수 있다.
화자 지배(Speaker Dominance)
본 발명의 다양한 실시예들에 따라, 목표 레벨들(120)을 계산할 때, 종종 시간 인스턴스(time instance)에서 어느 화자/마이크로폰이 지배적인 것인지를 파악하는 것이 중요하다. 지배 가중치들(DW)(118)은 화자가 말하고 있는 기간(duration)을 평가함으로써 결정될 수 있다. DW(118)는 이후 목표 값들(120)을 설정하는 데에 이용될 수 있다. 오직 한 명의 화자만이 활성화된 경우, 상기 목표 값들은 소정의 시간 후 이러한 구체적인 채널에 의해 제어될 수 있다. 모든 화자들이 유사한 방식으로 활성화된 경우, 상기 목표 값들은, 이에 한정되지 않으나, 모든 채널 특징들의 평균에 상응할 수 있다. DW의 빠른 변화는 배경 잡음의 레벨 점프(jump) 또는 변조(modulation)를 초래할 수 있다. 그러므로, 이러한 가중치들의 느린 적용(예를 들어, 확실한 시간적 평활화에 의해 실현)이 바람직하다.
각 채널에 대한 필요한 전대역(fullband) VAD()를 위한 값들을 결정하도록, 다양한 방법들이 사용될 수 있고, 이러한 방법의 일예가 T. Matheja 및 M. Buck의 "파워 비율들의 모델링을 통한 분산된 마이크로폰들에 대한 강건한 음성 활성화 검출(Robust Voice Activity Detection for Distributed Microphones by Modeling of Power Ratios)"(9. ITG-Fachtagung Sprachkommunikation, Bochum, Oct. 2010)에 개시되어 있고, 이는 전체로서 여기에 참조로 인용된다. 예를 들어, 특정한 카운터들()이, 이에 한정되지 않으나, 특정한 화자들이 활성화된() 각 시간 프레임 및 각 채널에서 증가되고, 그렇지 않은 경우 상기 카운터들은 감소되거나 변하지 않는다.
또는 에 의한 상기 카운터들의 제한들은 화자의 최대(full) 또는 최소(minimal) 지배를 각각 정의한다. 다양한 실시예들에서, 상기 카운터들의 증가 간격()은 현재 화자가 발언하고 초 후 지배적이 되는 방식으로 설정될 수 있다. 두 개의 연속된 타임 프레임들 사이의 업데이트 시간이 일 때 다음과 같다.
채널(m)에 대하여, 임의의 다른 채널()의 다른 화자가 활성화되면, 감소 상수가 재계산될 수 있다. 본 실시예에서, 단독 발언(single-talk)이 가정된다. 이러한 실시예들에서, 새로 활성화된 화자가 에 도달하고 이와 함께 완전한 지배(full dominance)에 도달한 후 이전 화자의 지배 카운터는 이 될 수 있다. 0으로 나눠지는 것을 방지하는 매우 낮은 값의 상수()를 포함하여, 은 다음과 같이 결정될 수 있다.
예시적으로, 도 2a는 (이 0이고, 가 100인) 예시적인 카운터들을 나타내고, 이는, 도 2b에 도시된 바와 같이, 화자의 지배를 나타내는 화자 지배 가중치들()에 매핑될 수 있다.
동적 신호 조절(Dynamic Signal Adjustment)
상술한 음성 및/또는 잡음 레벨 차이들을 보상하도록, 본 발명의 다양한 실시예들에 따라 기본적 마이크로폰 신호들로부터 계산된 적응적 목표 레벨들로의 조정(adaptation)을 수행하는 AGC(114) 및 동적 NR(116)이 이하 개시된다.
자동 이득 제어(Automatic Gain Control)
도 3은 본 발명의 일 실시예에 따른 AGC의 블록도를 나타낸다. 본 발명의 다양한 실시예들에서, 입력 신호()에 기초하여, AGC(302)는, 이에 한정되지 않으나, m번째 마이크로폰 신호(304)에서 피크 레벨()을 추정하고, 상기 추정된 피크 레벨을 목표 피크 레벨()로 조정하도록 전대역 증폭 인자(fullband amplification factor)(, 306)를 결정한다.
피크 레벨 추정의 예시적인 방법이 E. Hansler 및 G. Schmidt의 "음향 반향 및 잡음 제어: 실질적 접근법(Acoustic Echo and Noise Control: A Practical Approach)"(Hoboken, NJ, USA: John Wiley & Sons, 2004, vol. 1)에서 제안되어 있고, 이는 전체로서 여기에 참조로 인용된다. 피크 추적을 위한 시간 도메인 신호의 이용을 대신하여, 모든 부대역들에 걸쳐서 제곱 평균(root-mean-square) 측정이 적용될 수 있다. AGC(114)는 주파수 무관 이득 인자(frequency independent gain factor)들을 가지고 각 채널에서 AGC(114)가 처리될 수 있다. 그 결과는 다음과 같다.
여기서, 재귀적으로 평균화되는 이득 인자들은 다음과 같다.
여기서, 는 평활화(smoothing) 상수를 나타낸다. 의 범위는, 이에 한정되지 않으나, 0<<1일 수 있다. 예를 들어, 가 0.9로 설정될 수 있다. 목표, 더 정확히 말하면, 기준 피크 레벨()은 모든 피크 레벨들의 가중 합(weighted sum)이고, 이는 다음과 같이 결정된다.
따라서, 본 발명의 예시적인 실시예들에서, 기준 음성 레벨은 주로 지배적 채널에 의해 특정될 수 있고, 다른 음성 신호 레벨들은 대략적으로 동일한 신호 파워로 조정될 수 있다.
동적 잡음 감소(Dynamic Noise Reduction)
예시적으로, 동적 NR(116)은 모든 채널들에 대한 배경 잡음의 동등한 파워 및 스펙트럼 형태를 목표로 한다. 도 4는 본 발명의 일 실시예에 따른 NR(402)의 블록도를 나타낸다. NR(402)은 입력되는 신호의 필터링(410)에 대한 필터 특징들(408)을 결정하는 파워 및 잡음 추정기들(404, 406) 각각을 모두 포함할 수 있다. 최대 감쇠(maximum attenuation)는 각 마이크로폰 및 각 부대역에 대하여 가변될 수 있다. m번째 마이크로폰 채널의 추정된 잡음 파워 스펙트럼 밀도(power spectral density; PSD)를 나타내는 를 이용하여, AGC(114) 후 잡음 PSD을 나타내면 다음과 같다.
NR(116)에 대하여, 스펙트럼 가중(spectral weighting)에 기초한 서로 다른 특징들이 선택될 수 있다. 예를 들어, NR 필터 계수들()은 고정된 과대추정(overestimation) 인자(), 최대 과대추정() 및 재귀적 평활화를 통해 추정된 전체 신호 PSD()를 가지고 재귀적 위너(Wiener) 특징(E. Hansler등 참조)에 의해 다음과 같이 계산될 수 있다.
여기서, 목표 잡음 PSD는 지배 가중치들에 의한 수식 (8)의 목표 레벨과 유사하게 적응적으로 계산될 수 있다.
잡음 레벨들의 차이들 및 모든 채널들에 대한 착색효과들은, 이에 한정되지 않으나, 동적 스펙트럼 플로어()에 의해 보상될 수 있다. 도 5a는 (NR 없는) 채널간 스위칭(inter channel switching) 후의 출력 신호를 나타내고, 도 5b는 본 발명의 일 실시예에 따른 0.4의 bref를 가지는 결과적으로 처리된 신호의 스펙토그램(spectogram)을 나타낸다. 다양한 실시예들에서, 가능한 많은 잡음 감소를 수행하는 것이 필수적이지 않고, 상술한 서로 다른 잡음 특징들을 보상하는 만큼 수행하는 것이 바람직하다. 예시적으로, NR(116)의 적당한 성능과 관련하여, 다음과 같이 제한을 도입하는 것이 바람직하다.
AGC 가중치들이 범위 내인 경우,
상기 처리는 일반적으로 잘 동작할 것이나, 그렇지 않은 경우 잔여 스위칭 효과가 가청될 수 있다. 상기 처리된 신호들을 획득하도록, 수식 (11)로부터의 상기 필터 계수들이 주파수 도메인의 복소수 값 신호에 적용될 수 있다.
결과적으로, 모든 신호들이, 유사한 잡음 특징들(예를 들어, 동등한 파워 및/또는 스펙트럼 형태)을 나타내고, 특정한 활성화된 화자 채널들 사이의 매끄러운 천이(smooth transition) 구간을 나타내도록, 구동된다. 상기 잡음 신호들의 세기의 차이들은, 예를 들어 오직 한 화자가 지배적인 경우, 일정 시간 후 뚜렷해질 때만 용인된다.
신호 결합(Signal Combining)
상기 처리된 신호들은, 이에 한정되지는 않으나 하나의 출력 신호를 획득하도록, 믹서(122)에서 결합된다. 다양한 실시예들에서, 복수의 출력들이 상기 처리된 신호들의 임의의 조합에 의해 구현될 수 있다. 물론, 상기 신호들의 결합에 대한 가중치들은 상기 지배 가중치들과 독립적으로 선택될 수 있고, 여러 가지의 서로 다른 방법들이 적용될 수 있다. 상기 믹서 가중치들은, 이에 한정되지는 않으나, 예를 들어 VAD(112)의 출력을 이용한 음성 활성화(speech activity)에 기반을 둘 수 있다. 하드 스위칭(hard switching) 방법들은 이산 값들(discrete values)을 가진 실수 값 가중치들을 적용할 수 있다. 이와 달리, 채널들 사이의 스위칭은 음성 활성화에 따른 어떠한 속도로 증가 및 감소되는 소프트 가중치들에 의해 보다 매끄럽게 구현될 수 있다. 보다 정교한 믹싱 방법들은 입력 신호들에 따라 동적으로 할당되는 주파수 의존 가중치들을 이용할 수 있다. 이러한 방법들은 또한 상기 입력 신호들의 음성 성분들의 위상들을 정렬하도록 복소수 값 가중치들을 포함할 수 있다. 이 경우, 상기 출력 신호는 상기 원하는 신호의 가산적(constructive) 중첩에 기인하여 향상된 SNR을 산출할 수 있다.
다양한 실시예들에 따라, 예를 들어, 단일 발언 상황이 가정되고, 단일한 화자만이 동일한 시간에 활성화된 경우, 다음과 같이 실수 값 전대역 가중치들()을 이용하는 것이 바람직하다.
모든 채널들에서 서로 다른 신호 특징들의 조정에 기인하여, 어떠한 스위칭 효과들을 인지하지 못하면서 활성화된 화자들 사이의 스위칭이 수행될 수 있다(도 3 참조). 가중치들()은 VAD(112)에 의해 결정될 수 있고, 다른 화자가 활성화될 때까지 유지될 수 있다. 믹싱을 위한 소프트 가중치들을 이용할 때, 믹서 가중치들()은 고속으로 변경되어야 한다. 예를 들어, 새로운 (현재까지 비활성화되었던) 화자의 개시(onset)는 많은 음성을 놓치지 않기 위하여 상응하는 가중치의 고속 증가(엄습(attack))를 요구한다. 쇠퇴(완화(release))는, 활성화된 화자가 발언을 계속할 수 있으므로, 보통 보다 천천히 수행된다.
일반적으로, 본 발명의 기술분야에서 알려진 임의의 믹싱 방법론이 적용될 수 있다. 예를 들어, 주파수 의존 가중치들(예를 들어, 다이버시티 기술들) 또는 심지어 복소수 값 가중치들(예를 들어, SNR 최적화 기술들)을 적용하는 믹싱 방법론들이 사용될 수 있으나, 이에 한정되지 않는다.
계산적으로 효율적인 방안(Computational efficient solution)
계산상의 노력을 절약하도록, 다양한 실시예들에서, 모든 채널들이 완전히 처리되지는 않을 수 있다. 예를 들어, 잡음 감소 및/또는 AGC가 N 개의 가장 활성화된 채널들에 대하여만 계산될 수 있다. 예시적으로, 최고 믹서 가중치들()을 가진 채널들을 취할 수 있다(1 ≤ N < M). 다른 채널들은 처리되지 않고, 상응하는 믹서 가중치들은 0으로 설정된다. 이들은 일절 상기 출력 신호에 기여하지 않는다. N 이상의 화자들이 동시에 활성화된 경우, 적어도 하나의 화자가 최적으로 다뤄지지 않는 문제가 존재할 수 있다. 그러나, 차량 환경에서는, 이러한 화자의 음성 신호는 상기 믹서의 상기 출력 신호에 교차 결합(cross-coupling)을 통해 반영될 수 있다. 따라서, 그는 완전히 억제되지는 않는다. 실제적인 상황들에서, 이는 자주 또는 영구히 발생되지 않는다.
평가(Evaluation)
각각이 전용 마이크로폰을 가진 네 명의 번갈아 발언하는 사람들, 즉 앞좌석의 두 명 및 뒷좌석의 두 명이 승차하고, 대략적으로 90 km/h 및 130 km/h로 이동하는 자동차에서 측정된 신호들로 상술한 시스템이 평가되었다. 열린 창문의 불리한 잡음 상황이 고려되었다. 주관적 청취 실험으로 다음의 세 가지 결합 방법들이 비교되었다: 고정된 스펙트럼 플로어()를 가진 잡음 감소 채널 신호들 사이의 하드 스위칭; 본 발명의 다양한 실시예들에 따른 동적 신호 결합 방법(, , ); 및 다이버시티 방식(Freudenberger 등 참조). 열 명의 실험 참가자들이 17 개의 음성 신호 세트들을 청취하였다. 각 세트에서, 하나의 신호가 상기 세 개의 서로 다른 방법들 각각에 의해 처리되었다. 상기 시도는 이들의 품질에 의해 최상(지수 1)에서부터 최악(지수 3)까지 결과들이 분류되었다. 상기 피험자들은 그들이 원하는 만큼 상기 신호들을 자주 청취하였다. 음성 품질, 잡음 소리 및 전체 인상이 평가되었다.
도 6a 및 도 6b는 상기 실험의 결과를 나타낸다. 도 6a는 평균 투표 결과들을 나타낸다. 도 6b는 상기 서로 다른 방법들에 대한 순위 분포를 나타낸다. 상기 채널들 사이의 단순한 하드 스위칭은 좋지 못한 결과를 보였고, 이는 성가신 잡음 점프들에 기인할 수 있다. 상기 다른 방법들에서 실질적으로 변함없는 배경 잡음이 발생되었으나, 본 발명의 다양한 실시예들에 따른 상기 동적 신호 결합 방법은 최상의 결과를 산출하였다. 음성 품질은 모든 세 개의 방식들에서 유사한 순위를 나타내었다. 상기 다이버시티 방법은, 이것이 본래 좋은 음성 품질을 달성하도록 고안되었으므로, 부자연스럽게 소리 나는 배경 잡음을 나타냈다. 전체적인 인상에 있어서, 상기 배경 잡음은 또한 결정적인 것으로 나타났다. 따라서, 본 발명의 상술한 실시예들에 따른 방법은, 자연스러운 사운드 및 부드러운 잡음 천이를 가져 유리하다.
결론(Conclusion)
잡음 환경들에서 다수의 화자들을 지원하는 새로운 동적 신호 결합 시스템 및 방법이 제안된다. 두 개의 서로 다른 가중치 세트들이 이용될 수 있고, 이들은 독립적으로 제어될 수 있다. 믹서 가중치들은 화자가 변경된 후 음성 개시를 포획하도록 매우 빠르게 변경될 수 있는 반면, 지배 가중치들은 결과 신호에 대한 원하는 신호 특징들을 특정하도록 보다 느리게 조절될 수 있다. 따라서, 배경 잡음 또는 음성 레벨이 채널들 사이에서 크게 다르더라도, 서로 다른 화자들의 마이크로폰 신호들 사이에서 부드러운 천이가 달성될 수 있다. 또한, 개시된 시스템 및 방법은 이러한 가중치들 사이의 완전한 독립에 기인하여 소프트 또는 복소수 값 가중치들을 가지는 다른 믹싱 방식들에 대한 전처리기(preprocessor)로서 이용될 수 있다.
예를 들어, 본 발명의 전처리 모듈(110) 및/또는 믹서(122)는, 이에 한정되지 않으나, 프로세서(예를 들어, 마이크로프로세서, 마이크로컨트롤러, 디지털 신호 처리기, 또는 범용 컴퓨터)에서 사용되는 컴퓨터 프로그램 로직, 프로그래머블 로직 장치(예를 들어, 필드 프로그래머블 게이트 어레이(Field Programmable Gate Array; FPGA) 또는 다른 PLD)에서 사용되는 프로그래머블 로직, 별개의 컴포넌트들, 집적 회로(예를 들어, 주문형 집적 회로(Application Specific Integrated Circuit; ASIC)), 또는 이들의 조합을 포함하는 임의의 다른 수단을 포함하는 다수의 서로 다른 형태로 구현될 수 있다.
상술한 기능들의 전부 또는 일부를 구현하는 컴퓨터 프로그램 로직은, 이에 한정되지 않으나, 소스 코드 형태, 컴퓨터로 실행 가능한 형태 및 다양한 중간 형태들(예를 들어, 어셈블러, 컴파일러, 링커 또는 로케이터에 의해 생성된 형태들)을 포함하여 다양한 형태들로 구현될 수 있다. 소스 코드는 다양한 운영 체제들 또는 운영 환경들에서 사용되는 임의의 다양한 프로그래밍 언어들(예를 들어, 목적 코드, 어셈블리 언어, 또는 포트란, C, C++, JAVA 또는 HTML과 같은 고레벨 언어)로 구현될 수 있다. 소스 코드는 다양한 데이터 구조들 및 통신 메시지들을 정의 및 이용할 수 있다. 소스 코드는 (예를 들어, 인터프리터를 통하여) 컴퓨터로 실행 가능한 형태이거나, 소스 코드가 (예를 들어, 트랜슬레이터, 어셈블러, 또는 컴파일러를 통하여) 컴퓨터로 실행 가능한 형태로 변환될 수 있다.
상기 컴퓨터 프로그램은 유형의 저장 매체, 예를 들어 반도체 메모리 장치(예를 들어, RAM, ROM, PROM, EEPROM, 또는 플래시-프로그래머블 RAM), 자기 메모리 장치(예를 들어, 디스켓 또는 고정 디스크), 광 메모리 장치(예를 들어, CD-ROM), PC 카드(예를 들어, PCMCIA 카드), 또는 다른 메모리 장치에 영구적으로, 비일시적으로 또는 일시적으로 임의의 형태(예를 들어, 소스 코드 형태, 컴퓨터로 실행 가능한 형태, 또는 중간 형태)로 마련될 수 있다. 상기 컴퓨터 프로그램은, 이에 한정되지 않으나, 아날로그 기술들, 디지털 기술들, 광 기술들, 무선 기술들, 네트워크 기술들, 및 인터넷작업 기술들을 포함하는 임의의 다양한 통신 기술들을 이용하여 컴퓨터로 송신 가능한 신호 내에 임의의 형태로 마련될 수 있다. 상기 컴퓨터 프로그램은 첨부된 인쇄 또는 전자 문서를 가진 제거 가능한 저장 매체(예를 들어, 개별 포장된(shrink wrapped) 소프트웨어 또는 자기 테이프)의 형태로 배포되거나, 컴퓨터 시스템(예를 들어, 시스템 ROM 또는 고정 디스크)에 미리 로딩되거나, 또는 통신 시스템(인터넷 또는 월드 와이드 웹)을 통하여 서버로부터 또는 전자 게시판으로부터 배포될 수 있다.
상술한 기능들의 전부 또는 일부를 구현하는 (프로그래머블 로직 장치에서 이용되는 프로그래머블 로직을 포함하는) 하드웨어 로직은 전통적인 수동 방법들에 의해 설계되거나, 다양한 도구들, 예를 들어 컴퓨터 이용 설계(Computer Aided Design; CAD), 하드웨어 기술 언어(예를 들어, VHDL 또는 AHDL), 또는 PLD 프로그래밍 언어(예를 들어, PALASM, ABEL, 또는 CUPL)를 이용하여 설계, 획득, 모의실험 또는 무선화될 수 있다.
상술한 본 발명의 실시예들은 단지 예시적인 목적을 가지고, 본 발명의 기술분야의 통상의 지식을 가진 자는 다양한 변형 및 수정들이 가능함을 알 수 있을 것이다. 모든 이러한 변형 및 수정들은 첨부된 특허청구범위에서 정의된 본 발명의 범위 내에서 이루어진다.
Claims (29)
- 복수의 신호들을 수신하고, 실질적으로 동등한 잡음 특성들을 가지는 전처리된 신호들을 생성하는 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 전처리 모듈(preprocessing module); 및
상기 전처리된 신호들 중 적어도 두 개를 결합하는 믹서를 포함하는 신호 처리 시스템. - 제 1 항에 있어서,
상기 복수의 신호들을 제공하는 복수의 마이크로폰들을 더 포함하고,
상기 마이크로폰들 중 적어도 두 개는 운송 수단의 서로 다른 승객 칸들(passenger compartments)에 위치한 것을 특징으로 하는 신호 처리 시스템. - 제 1 항에 있어서, 상기 잡음 감소 알고리즘은, 상기 복수의 신호들의 배경 잡음이 스펙트럼 형태 또는 파워 중 적어도 하나에 대하여 실질적으로 동등하도록, 상기 복수의 신호들 각각을 구동하는 것을 특징으로 하는 신호 처리 시스템.
- 제 1 항에 있어서, 상기 잡음 감소 알고리즘은, 상기 복수의 신호들의 신호대 잡음비가 실질적으로 동등하도록, 상기 복수의 신호들 각각을 구동하는 것을 특징으로 하는 신호 처리 시스템.
- 제 1 항에 있어서, 상기 복수의 신호들 각각은 채널에 연관되고, 상기 잡음 감소 알고리즘은 잡음 파워 스펙트럼 밀도(noise power spectral density)에 적어도 일부 기초하여 각 채널에 대한 동적 스펙트럼 플로어(dynamic spectral floor)를 결정하는 것을 포함하는 것을 특징으로 하는 신호 처리 시스템.
- 제 1 항에 있어서, 상기 전처리 모듈은 상기 복수의 신호들 각각의 신호 레벨을 동적으로 조절하는 이득 제어 모듈을 포함하는 것을 특징으로 하는 신호 처리 시스템.
- 제 6 항에 있어서, 상기 이득 제어 모듈은 상기 복수의 신호들 각각의 상기 신호 레벨을 목표 레벨로 동적으로 조절하는 것을 특징으로 하는 신호 처리 시스템.
- 제 6 항에 있어서, 상기 복수의 신호들 각각은 채널에 연관되고, 상기 전처리 모듈은 각 채널에 대한 지배 가중치(dominance weight)를 결정하는 음성 활성화 검출 모듈을 더 포함하고, 상기 이득 제어 모듈은 상기 복수의 신호들에 연관된 채널들의 상기 지배 가중치에 적어도 일부 기초하여 상기 복수의 신호들 각각의 상기 신호 레벨을 조절하는 것을 특징으로 하는 신호 처리 시스템.
- 제 1 항에 있어서, 상기 복수의 신호들 각각은 채널에 연관되고, 상기 전처리 모듈은 각 채널에 대한 지배 가중치(dominance weight)를 결정하는 음성 활성화 검출 모듈을 포함하고, 상기 잡음 감소 알고리즘은 연관된 상기 지배 가중치에 적어도 일부 기초하여 각 채널에 대한 상기 전처리된 신호들을 생성하는 것을 특징으로 하는 신호 처리 시스템.
- 제 9 항에 있어서, 상기 믹서는 상기 전처리된 신호들에 가중치를 부여하기 위한 동적 가중치들을 포함하고, 상기 동적 가중치들은 상기 전처리 모듈에 연관된 상기 지배 가중치와 상이한 것을 특징으로 하는 신호 처리 시스템.
- 복수의 신호들을 수신하는 단계;
실질적으로 동등한 잡음 특성들을 가지는 전처리된 신호들을 생성하는 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 단계; 및
상기 전처리된 신호들 중 적어도 두 개를 결합하는 단계를 포함하는 신호 처리 방법. - 제 11 항에 있어서,
복수의 마이크로폰들이 상기 복수의 신호들을 제공하는 단계를 더 포함하고,
상기 마이크로폰들 중 적어도 두 개는 운송 수단의 서로 다른 승객 칸들(passenger compartments)에 위치한 것을 특징으로 하는 신호 처리 방법. - 제 11 항에 있어서, 상기 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 단계는,
상기 복수의 신호들의 배경 잡음이 스펙트럼 형태 또는 파워 중 적어도 하나에 대하여 실질적으로 동등하도록, 상기 복수의 신호들 각각을 구동하는 단계를 포함하는 것을 특징으로 하는 신호 처리 방법. - 제 11 항에 있어서, 상기 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 단계는,
상기 복수의 신호들의 신호대 잡음비가 실질적으로 동등하도록, 상기 복수의 신호들 각각을 구동하는 단계를 포함하는 것을 특징으로 하는 신호 처리 방법. - 제 11 항에 있어서, 상기 복수의 신호들 각각은 채널에 연관되고, 상기 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 단계는,
잡음 파워 스펙트럼 밀도(noise power spectral density)에 적어도 일부 기초하여 각 채널에 대한 동적 스펙트럼 플로어(dynamic spectral floor)를 결정하는 단계를 포함하는 것을 특징으로 하는 신호 처리 방법. - 제 11 항에 있어서,
상기 전처리된 신호들을 생성함에 있어서 상기 복수의 신호들 각각의 신호 레벨을 동적으로 조절하는 단계를 더 포함하는 것을 특징으로 하는 신호 처리 방법. - 제 16 항에 있어서, 상기 복수의 신호들 각각의 상기 신호 레벨을 동적으로 조절하는 단계는,
상기 복수의 신호들 각각의 상기 신호 레벨을 목표 레벨로 동적으로 조절하는 단계를 포함하는 것을 특징으로 하는 신호 처리 방법. - 제 16 항에 있어서, 상기 복수의 신호들 각각은 채널에 연관되고,
각 채널에 대한 지배 가중치(dominance weight)를 결정하는 음성 활성화 검출 모듈을 적용하는 단계를 더 포함하며,
상기 전처리된 신호들을 생성함에 있어서 상기 복수의 신호들 각각의 상기 신호 레벨을 동적으로 조절하는 단계는, 연관된 상기 지배 가중치에 적어도 일부 기초하여 각 채널에 대한 상기 전처리된 신호들을 생성하는 단계를 포함하는 것을 특징으로 하는 신호 처리 방법. - 제 11 항에 있어서, 상기 복수의 신호들 각각은 채널에 연관되고,
각 채널에 대한 지배 가중치(dominance weight)를 결정하는 음성 활성화 검출 모듈을 적용하는 단계를 더 포함하며,
상기 전처리된 신호들을 생성하는 상기 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각에 동적으로 가중 부여하는 단계는, 연관된 상기 지배 가중치에 적어도 일부 기초하여 각 채널에 대한 상기 전처리된 신호들을 생성하는 단계를 포함하는 것을 특징으로 하는 신호 처리 방법. - 제 19 항에 있어서, 상기 전처리된 신호들 중 적어도 두 개를 결합하는 단계는,
상기 전처리된 신호들에 가중치를 부여하기 위한 동적 가중 인자들을 이용하는 단계를 포함하는 신호 처리 방법. - 제 20 항에 있어서, 상기 전처리된 신호들을 결합하는 것에 연관된 상기 동적 가중 인자들은 상기 전처리된 신호들을 생성하는 것에 연관된 상기 지배 가중치와 상이한 것을 특징으로 하는 신호 처리 방법.
- 복수의 신호들을 동적으로 결합하기 위한 컴퓨터 프로그램 제품에 있어서, 상기 컴퓨터 프로그램 제품은 컴퓨터로 판독 가능한 프로그램 코드가 기록된 컴퓨터로 이용 가능한 매체를 포함하고, 상기 컴퓨터로 판독 가능한 프로그램 코드는,
실질적으로 동등한 잡음 특성들을 가지는 전처리된 신호들을 생성하는 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 프로그램 코드; 및
상기 전처리된 신호들 중 적어도 두 개를 결합하는 프로그램 코드를 포함하는 것을 특징으로 하는 컴퓨터 프로그램 제품. - 제 22 항에 있어서, 상기 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 프로그램 코드는, 상기 복수의 신호들의 배경 잡음이 스펙트럼 형태 또는 파워 중 적어도 하나에 대하여 실질적으로 동등하도록, 상기 복수의 신호들 각각을 구동하는 프로그램 코드를 포함하는 것을 특징으로 하는 컴퓨터 프로그램 제품.
- 제 22 항에 있어서, 상기 복수의 신호들 각각은 채널에 연관되고, 상기 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 프로그램 코드는, 잡음 파워 스펙트럼 밀도(noise power spectral density)에 적어도 일부 기초하여 각 채널에 대한 동적 스펙트럼 플로어(dynamic spectral floor)를 결정하는 프로그램 코드를 포함하는 것을 특징으로 하는 컴퓨터 프로그램 제품.
- 제 22 항에 있어서,
상기 전처리된 신호들을 생성함에 있어서 상기 복수의 신호들 각각의 신호 레벨을 동적으로 조절하는 프로그램 코드를 더 포함하는 것을 특징으로 하는 컴퓨터 프로그램 제품. - 제 25 항에 있어서, 상기 복수의 신호들 각각은 채널에 연관되고,
상기 컴퓨터 프로그램 제품은 각 채널에 대한 지배 가중치(dominance weight)를 결정하는 음성 활성화 검출 모듈을 적용하는 프로그램 코드를 더 포함하며,
상기 전처리된 신호들을 생성함에 있어서 상기 복수의 신호들 각각의 상기 신호 레벨을 동적으로 조절하는 프로그램 코드는, 연관된 상기 지배 가중치에 적어도 일부 기초하여 각 채널에 대한 상기 전처리된 신호들을 생성하는 프로그램 코드를 포함하는 것을 특징으로 하는 컴퓨터 프로그램 제품. - 제 22 항에 있어서, 상기 복수의 신호들 각각은 채널에 연관되고,
상기 컴퓨터 프로그램 제품은 각 채널에 대한 지배 가중치(dominance weight)를 결정하는 음성 활성화 검출 모듈을 적용하는 프로그램 코드를 더 포함하며,
상기 전처리된 신호들을 생성하는 상기 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각에 동적으로 가중 부여하는 프로그램 코드는, 연관된 상기 지배 가중치에 적어도 일부 기초하여 각 채널에 대한 상기 전처리된 신호들을 생성하는 프로그램 코드를 포함하는 것을 특징으로 하는 컴퓨터 프로그램 제품. - 제 27 항에 있어서, 상기 전처리된 신호들 중 적어도 두 개를 결합하는 프로그램 코드는,
상기 전처리된 신호들에 가중치를 부여하기 위한 동적 가중 인자들을 이용하는 프로그램 코드를 포함하는 컴퓨터 프로그램 제품. - 제 28 항에 있어서, 상기 전처리된 신호들을 결합하는 것에 연관된 상기 동적 가중 인자들은 상기 전처리된 신호들을 생성하는 것에 연관된 상기 지배 가중치와 상이한 것을 특징으로 하는 신호 처리 방법.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/US2010/058168 WO2012074503A1 (en) | 2010-11-29 | 2010-11-29 | Dynamic microphone signal mixer |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20140032354A true KR20140032354A (ko) | 2014-03-14 |
KR101791444B1 KR101791444B1 (ko) | 2017-10-30 |
Family
ID=46172182
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020137013771A KR101791444B1 (ko) | 2010-11-29 | 2010-11-29 | 동적 마이크로폰 신호 믹서 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20130325458A1 (ko) |
EP (1) | EP2647223B1 (ko) |
JP (1) | JP5834088B2 (ko) |
KR (1) | KR101791444B1 (ko) |
CN (1) | CN103299656B (ko) |
WO (1) | WO2012074503A1 (ko) |
Families Citing this family (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9641933B2 (en) * | 2012-06-18 | 2017-05-02 | Jacob G. Appelbaum | Wired and wireless microphone arrays |
EP2765787B1 (en) * | 2013-02-07 | 2019-12-11 | Sennheiser Communications A/S | A method of reducing un-correlated noise in an audio processing device |
CN105229737B (zh) * | 2013-03-13 | 2019-05-17 | 寇平公司 | 噪声消除麦克风装置 |
WO2015065362A1 (en) | 2013-10-30 | 2015-05-07 | Nuance Communications, Inc | Methods and apparatus for selective microphone signal combining |
US10623854B2 (en) * | 2015-03-25 | 2020-04-14 | Dolby Laboratories Licensing Corporation | Sub-band mixing of multiple microphones |
US10923132B2 (en) | 2016-02-19 | 2021-02-16 | Dolby Laboratories Licensing Corporation | Diffusivity based sound processing method and apparatus |
EP3312838A1 (en) | 2016-10-18 | 2018-04-25 | Fraunhofer Gesellschaft zur Förderung der Angewand | Apparatus and method for processing an audio signal |
WO2018121972A1 (en) * | 2016-12-30 | 2018-07-05 | Harman Becker Automotive Systems Gmbh | Acoustic echo canceling |
US10491179B2 (en) * | 2017-09-25 | 2019-11-26 | Nuvoton Technology Corporation | Asymmetric multi-channel audio dynamic range processing |
CN107910012B (zh) * | 2017-11-14 | 2020-07-03 | 腾讯音乐娱乐科技(深圳)有限公司 | 音频数据处理方法、装置及系统 |
FR3103618B1 (fr) * | 2019-11-21 | 2021-10-22 | Psa Automobiles Sa | Dispositif pour mettre en œuvre un assistant personnel virtuel dans un véhicule automobile avec contrôle par la voix d’un utilisateur, et véhicule automobile l’incorporant |
EP4428859A1 (en) * | 2023-03-10 | 2024-09-11 | Goodix Technology (HK) Company Limited | System and method for mixing microphone inputs |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5598466A (en) * | 1995-08-28 | 1997-01-28 | Intel Corporation | Voice activity detector for half-duplex audio communication system |
US6411927B1 (en) * | 1998-09-04 | 2002-06-25 | Matsushita Electric Corporation Of America | Robust preprocessing signal equalization system and method for normalizing to a target environment |
US6473733B1 (en) * | 1999-12-01 | 2002-10-29 | Research In Motion Limited | Signal enhancement for voice coding |
US6674865B1 (en) * | 2000-10-19 | 2004-01-06 | Lear Corporation | Automatic volume control for communication system |
US8934382B2 (en) * | 2001-05-10 | 2015-01-13 | Polycom, Inc. | Conference endpoint controlling functions of a remote device |
JP4119328B2 (ja) * | 2003-08-15 | 2008-07-16 | 日本電信電話株式会社 | 収音方法、その装置、そのプログラム、およびその記録媒体。 |
DE602004004503D1 (de) * | 2004-04-02 | 2007-03-15 | Suisse Electronique Microtech | HF-Mehrbandempfänger mit Vorrichtung zur Reduzierung des Energieverbrauches |
ATE405925T1 (de) * | 2004-09-23 | 2008-09-15 | Harman Becker Automotive Sys | Mehrkanalige adaptive sprachsignalverarbeitung mit rauschunterdrückung |
US8543390B2 (en) * | 2004-10-26 | 2013-09-24 | Qnx Software Systems Limited | Multi-channel periodic signal enhancement system |
BRPI0607303A2 (pt) * | 2005-01-26 | 2009-08-25 | Matsushita Electric Ind Co Ltd | dispositivo de codificação de voz e método de codificar voz |
US8175874B2 (en) * | 2005-11-17 | 2012-05-08 | Shaul Shimhi | Personalized voice activity detection |
EP1830348B1 (en) * | 2006-03-01 | 2016-09-28 | Nuance Communications, Inc. | Hands-free system for speech signal acquisition |
US8068619B2 (en) * | 2006-05-09 | 2011-11-29 | Fortemedia, Inc. | Method and apparatus for noise suppression in a small array microphone system |
US8249271B2 (en) * | 2007-01-23 | 2012-08-21 | Karl M. Bizjak | Noise analysis and extraction systems and methods |
US8447044B2 (en) * | 2007-05-17 | 2013-05-21 | Qnx Software Systems Limited | Adaptive LPC noise reduction system |
JP4580409B2 (ja) * | 2007-06-11 | 2010-11-10 | 富士通株式会社 | 音量制御装置および方法 |
JP4455614B2 (ja) * | 2007-06-13 | 2010-04-21 | 株式会社東芝 | 音響信号処理方法及び装置 |
JP4850191B2 (ja) * | 2008-01-16 | 2012-01-11 | 富士通株式会社 | 自動音量制御装置及びそれを用いた音声通信装置 |
US8374854B2 (en) * | 2008-03-28 | 2013-02-12 | Southern Methodist University | Spatio-temporal speech enhancement technique based on generalized eigenvalue decomposition |
JP5087476B2 (ja) * | 2008-06-12 | 2012-12-05 | ルネサスエレクトロニクス株式会社 | 受信装置およびその動作方法 |
GB2461082A (en) * | 2008-06-20 | 2009-12-23 | Ubidyne Inc | Antenna array calibration with reduced interference from a payload signal |
US8503694B2 (en) * | 2008-06-24 | 2013-08-06 | Microsoft Corporation | Sound capture system for devices with two microphones |
US8811537B2 (en) * | 2008-12-03 | 2014-08-19 | Electronics And Telecommunications Research Institute | Signal receiving apparatus and method for wireless communication system using multiple antennas |
US8660281B2 (en) * | 2009-02-03 | 2014-02-25 | University Of Ottawa | Method and system for a multi-microphone noise reduction |
JP5207479B2 (ja) * | 2009-05-19 | 2013-06-12 | 国立大学法人 奈良先端科学技術大学院大学 | 雑音抑圧装置およびプログラム |
-
2010
- 2010-11-29 CN CN201080070994.4A patent/CN103299656B/zh active Active
- 2010-11-29 EP EP10860321.8A patent/EP2647223B1/en active Active
- 2010-11-29 US US13/990,176 patent/US20130325458A1/en not_active Abandoned
- 2010-11-29 JP JP2013540940A patent/JP5834088B2/ja not_active Expired - Fee Related
- 2010-11-29 KR KR1020137013771A patent/KR101791444B1/ko active IP Right Grant
- 2010-11-29 WO PCT/US2010/058168 patent/WO2012074503A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN103299656A (zh) | 2013-09-11 |
JP2014502471A (ja) | 2014-01-30 |
KR101791444B1 (ko) | 2017-10-30 |
EP2647223A1 (en) | 2013-10-09 |
EP2647223A4 (en) | 2017-01-04 |
JP5834088B2 (ja) | 2015-12-16 |
WO2012074503A1 (en) | 2012-06-07 |
US20130325458A1 (en) | 2013-12-05 |
CN103299656B (zh) | 2016-08-10 |
EP2647223B1 (en) | 2019-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101791444B1 (ko) | 동적 마이크로폰 신호 믹서 | |
JP5288723B2 (ja) | マルチチャネルの反響補償 | |
EP3053356B1 (en) | Methods and apparatus for selective microphone signal combining | |
EP3040984B1 (en) | Sound zone arrangment with zonewise speech suppresion | |
US5400409A (en) | Noise-reduction method for noise-affected voice channels | |
US8930186B2 (en) | Speech enhancement with minimum gating | |
KR101210313B1 (ko) | 음성 향상을 위해 마이크로폰 사이의 레벨 차이를 활용하는시스템 및 방법 | |
US9992572B2 (en) | Dereverberation system for use in a signal processing apparatus | |
KR100860805B1 (ko) | 음성 강화 시스템 | |
RU2546717C2 (ru) | Многоканальное акустическое эхоподавление | |
EP2238592B1 (en) | Method for reducing noise in an input signal of a hearing device as well as a hearing device | |
JP4423300B2 (ja) | 雑音抑圧装置 | |
US8682006B1 (en) | Noise suppression based on null coherence | |
EP2463856B1 (en) | Method to reduce artifacts in algorithms with fast-varying gain | |
Schmidt et al. | Signal processing for in-car communication systems | |
US9454956B2 (en) | Sound processing device | |
JP2002541753A (ja) | 固定フィルタを用いた時間領域スペクトラル減算による信号雑音の低減 | |
US8543390B2 (en) | Multi-channel periodic signal enhancement system | |
KR101182017B1 (ko) | 휴대 단말기에서 복수의 마이크들로 입력된 신호들의잡음을 제거하는 방법 및 장치 | |
JP2006243644A (ja) | 雑音低減方法、装置、プログラム及び記録媒体 | |
JP2002541529A (ja) | 時間領域スペクトラル減算による信号雑音の低減 | |
CN112437957A (zh) | 用于全面收听的强加间隙插入 | |
EP4428859A1 (en) | System and method for mixing microphone inputs | |
Matheja et al. | Dynamic signal combining for distributed microphone systems in car environments | |
Kaps | Acoustic noise reduction using a multiple-input single-output kalman filter |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |