KR20140032354A - 동적 마이크로폰 신호 믹서 - Google Patents

동적 마이크로폰 신호 믹서 Download PDF

Info

Publication number
KR20140032354A
KR20140032354A KR1020137013771A KR20137013771A KR20140032354A KR 20140032354 A KR20140032354 A KR 20140032354A KR 1020137013771 A KR1020137013771 A KR 1020137013771A KR 20137013771 A KR20137013771 A KR 20137013771A KR 20140032354 A KR20140032354 A KR 20140032354A
Authority
KR
South Korea
Prior art keywords
signals
channel
preprocessed
noise
program code
Prior art date
Application number
KR1020137013771A
Other languages
English (en)
Other versions
KR101791444B1 (ko
Inventor
마커스 벅
티모 마테야
아힘 아이헨토프
Original Assignee
뉘앙스 커뮤니케이션즈, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 뉘앙스 커뮤니케이션즈, 인코포레이티드 filed Critical 뉘앙스 커뮤니케이션즈, 인코포레이티드
Publication of KR20140032354A publication Critical patent/KR20140032354A/ko
Application granted granted Critical
Publication of KR101791444B1 publication Critical patent/KR101791444B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R9/00Transducers of moving-coil, moving-strip, or moving-wire type
    • H04R9/08Microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/01Aspects of volume control, not necessarily automatic, in sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/03Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

잡음 환경에서 서로 다른 화자들을 지원하는 신호 결합 시스템 및 방법이 제공된다. 특히, 채널들 사이에서의 잡음 특징들의 편차를 위하여, 다양한 실시예들은 화자가 변경될 때 배경 잡음의 매끄러운 천이(transition)를 보장한다. 수정된 잡음 감소(noise reduction; NR)는 동적, 채널 특정 및 주파수 의존 최대 감쇠(attenuation)를 적용하여 모든 채널들에 대하여 동등한 배경 잡음 특징들을 달성할 수 있다. 배경 잡음을 조절하기 위한 기준 특징들은 지배적 화자 채널에 의해 특정될 수 있다. 다양한 실시예들에서, 동작 목표 레벨을 가진 자동 이득 제어(automatic gain control; AGC)가 모든 채널들에서 유사한 음성 신호 레벨을 보장할 수 있다.

Description

동적 마이크로폰 신호 믹서{DYNAMIC MICROPHONE SIGNAL MIXER}
본 발명은 동적 신호 믹서 시스템 및 방법에 관한 것으로, 보다 구체적으로 서로 다른 음성(speech) 레벨들 및/또는 서로 다른 배경 잡음(background noise)들을 보상하는 스펙트럼 전처리(spectral preprocessing)를 포함하는 동적 마이크로폰 신호 믹서(dynamic microphone signal mixer)에 관한 것이다.
디지털 신호 처리에서, 2 이상의 마이크로폰 신호들이 결합되어야만 하는 다중-마이크로폰 배치(multi-microphone arrangement)들이 다수 존재한다. 예를 들어, 이러한 적용 예들은 원격 회의(teleconferencing)와 관련된 생중계 믹싱 상황에서 차량 환경에서의 핸즈-프리 전화(hands-free telephony)까지 다양할 수 있다. 한편, 신호 품질은 마이크로폰의 위치, 마이크로폰의 타입, 배경 잡음의 종류 및 화자 스스로에 따라 다양한 화자 채널들 사이에서 매우 다를 수 있다. 예를 들어, 차량에 다수의 화자들이 존재하는 핸즈-프리 전화 시스템의 경우, 각 화자마다 음성(speech)을 획득하는 전용 마이크로폰을 가질 수 있다. 열려진 창문과 같은 서로 다른 영향을 미치는 요인들에 기인하여, 마이크로폰 신호들을 서로 비교하면 배경 잡음이 매우 다를 수 있다. 실제(active) 화자들 사이에서 하드 스위칭(hard switching)이 수행되거나, 소프트 믹싱(soft mixing) 기능들이 보다 높은 잡음 레벨을 포함하여 결과적인 잡음 레벨을 증가시키는 경우, 잡음 점프(jump) 및/또는 서로 다른 착색효과(coloration)가 뚜렷할 수 있다.
자동 마이크로폰 믹서의 개념이 다중 마이크로폰 라이브 사운드 상황에서 "자동 믹싱(automatic mixing)"을 사용하는 D. Dugan의 "오디오 콘솔에 대한 자동 믹싱 기술의 적용(Application of Automatic Mixing Techniques to Audio Consoles)"(SMPTE Television Conference, vol. 101, 19-27, New York, NY, 1992)에서 제안되었고, 이는 전체로서 여기에 참조로 인용된다. 그러나, Dugan에서는 배경 잡음의 효과가 고려되지 않았다. S. P. Chandra, K. M. Senthil 및 M. P. P. Bala의 "VoIP 다자 회의를 위한 오디오 믹서(Audio Mixer for Multi-party Conferencing in VoIP"(Proceedings of the 3rd IEEE International Conference on Internet Multimedia Services Architecture and Applications (IMSAA'09), 31-36, IEEE Press, Piscataway, NJ, USA, 2009)에는 잡음 신호들을 스위칭하기 위한 각 채널의 고정 방식의 잡음 감소가 개시되어 있으나, 믹서 기준 자체에 대하여 잡음이 고려되어 있지 않고, 이는 전체로서 여기에 참조로 인용된다. 다른 방안들은 신호대 잡음비(signal-to-noise ratio; SNR)의 최대화에 기반을 둔다(예를 들어, J. Freudenberger, S. Stenzel 및 B. Venditti의 "Spectral Combining for Microphonediversity Systems", 17th European Signal Processing Conference (EUSIPCO-2009), Glasgow, 2009; 및 W. Kellermann의 "Sprachverarbeitungseinrichtung", DE 4330243을 참조. 이들은 전체로서 여기에 참조로 인용됨). 여기서, 차량 환경에서와 같은 고 배경 잡음 상황들이 고려되나, 다수의 전용 마이크로폰들을 가지는 오직 한 명의 화자에 대해서만 고려되었다. Freudenberger에서는, 모든 마이크로폰 채널들에서 유사한 잡음 레벨들을 가정하는 다이버시티(diversity) 기술이 개시되어 있으나, 동위상에서 신호들을 가산한다. 다이버시티 효과들을 이용하고 서로 다른 잡음들을 처리하는 다른 방법이 T. Gerkmann 및 R. Martin의 "듀얼 채널 잡음 감소를 위한 소프트 판정 결합(Soft decision combining for dual channel noise reduction)"(9. Int. Conference on Spoken Language Processing (Interspeech ICSLP), Pittsburgh, Pennsylvania, Sept. 2006, pp. 2134-2137)에 개시되어 있고, 이는 전체로서 여기에 참조로 인용된다. 여기서, 위상차(phase difference)들이 음성 구간(speech period)들 동안 추정된다.
상술한 방식들은 서로 다른 잡음 레벨들 및 착색효과들이 발생하는 것을 고려하지 않았고, 배경 잡음을 고려하여 서로 다른 화자들 사이에서 활성화 스위칭이 표시되지 않아야함을 고려하지 않았다. 또한, 잡음 레벨이 믹싱 기능에 의해 증가되지 않아야 한다.
본 발명의 일 목적은 서로 다른 음성(speech) 레벨들 및/또는 서로 다른 배경 잡음(background noise)들을 보상할 수 있는 신호 처리 시스템, 신호 처리 방법 및 컴퓨터 프로그램 제품을 제공하는 것이다.
본 발명의 일 실시예에 따라, 신호 처리 시스템은 복수의 신호들을 수신하고, 실질적으로 동등한 잡음 특성들을 가지는 전처리된 신호들을 생성하는 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 전처리 모듈(preprocessing module)을 포함한다. 믹서는 상기 전처리된 신호들 중 적어도 두 개를 결합한다.
본 발명의 관련 실시예들에 따라, 상기 신호 처리 시스템은 상기 복수의 신호들을 제공하는 복수의 마이크로폰들을 더 포함할 수 있다. 상기 마이크로폰들 중 적어도 두 개는 운송 수단, 예를 들어 자동차 또는 보트의 서로 다른 승객 칸들(passenger compartments)에 위치할 수 있다. 다른 실시예들에서, 상기 2 이상의 마이크로폰들은 전화 회의를 위하여 원격의 서로 다른 장소들에 위치할 수 있다.
본 발명의 다른 관련 실시예들에 따라, 상기 잡음 감소 알고리즘은, 상기 복수의 신호들의 배경 잡음이 스펙트럼 형태 또는 파워 중 적어도 하나에 대하여 실질적으로 동등하도록, 상기 복수의 신호들 각각을 구동할 수 있다. 상기 잡음 감소 알고리즘은, 상기 복수의 신호들의 신호대 잡음비가 실질적으로 동등하도록, 상기 복수의 신호들 각각을 구동할 수 있다. 상기 복수의 신호들 각각은 채널에 연관되고, 상기 잡음 감소 알고리즘은 잡음 파워 스펙트럼 밀도(noise power spectral density)에 적어도 일부 기초하여 각 채널에 대한 동적 스펙트럼 플로어(dynamic spectral floor)를 결정하는 것을 포함할 수 있다.
본 발명의 또 다른 관련 실시예들에 따라, 상기 전처리 모듈은 상기 복수의 신호들 각각의 신호 레벨을 동적으로 조절하는 이득 제어 모듈을 포함할 수 있다. 상기 이득 제어 모듈은 상기 복수의 신호들 각각의 상기 신호 레벨을 목표 레벨로 동적으로 조절할 수 있다. 상기 복수의 신호들 각각은 채널에 연관되고, 상기 전처리 모듈은 각 채널에 대한 지배 가중치(dominance weight)를 결정하는 음성 활성화 검출 모듈을 더 포함하고, 상기 이득 제어 모듈은 상기 복수의 신호들에 연관된 채널들의 상기 지배 가중치에 적어도 일부 기초하여 상기 복수의 신호들 각각의 상기 신호 레벨을 조절할 수 있다.
본 발명의 또 다른 관련 실시예들에 따라, 상기 복수의 신호들 각각은 채널에 연관되고, 상기 전처리 모듈은 각 채널에 대한 지배 가중치(dominance weight)를 결정하는 음성 활성화 검출 모듈을 포함하고, 상기 잡음 감소 알고리즘은 연관된 상기 지배 가중치에 적어도 일부 기초하여 각 채널에 대한 상기 전처리된 신호들을 생성할 수 있다. 상기 믹서는 상기 전처리된 신호들에 가중치를 부여하기 위한 동적 가중치들을 포함하고, 상기 동적 가중치들은 상기 전처리 모듈에 연관된 상기 지배 가중치와 상이할 수 있다.
본 발명의 다른 실시예에 따라, 신호 처리 방법은 복수의 신호들을 수신하는 단계를 포함한다. 상기 복수의 신호들 각각은 실질적으로 동등한 잡음 특성들을 가지는 전처리된 신호들을 생성하는 잡음 감소 알고리즘에 따라 동적으로 필터링된다. 상기 전처리된 신호들 중 적어도 두 개가 결합된다.
본 발명의 관련 실시예들에 따라, 상기 신호 처리 방법은 복수의 마이크로폰들이 상기 복수의 신호들을 제공하는 단계를 더 포함하고, 상기 마이크로폰들 중 적어도 두 개는 운송 수단의 서로 다른 승객 칸들(passenger compartments)에 위치할 수 있다. 다른 실시예들에서, 상기 2 이상의 마이크로폰들은 전화 회의를 위하여 원격의 서로 다른 장소들에 위치할 수 있다.
본 발명의 관련 실시예들에 따라, 상기 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 단계는, 상기 복수의 신호들의 배경 잡음이 스펙트럼 형태 또는 파워 중 적어도 하나에 대하여 실질적으로 동등하도록, 상기 복수의 신호들 각각을 구동하는 단계를 포함할 수 있다. 상기 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 단계는, 상기 복수의 신호들의 신호대 잡음비가 실질적으로 동등하도록, 상기 복수의 신호들 각각을 구동하는 단계를 포함할 수 있다. 상기 복수의 신호들 각각은 채널에 연관되고, 상기 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 단계는, 잡음 파워 스펙트럼 밀도(noise power spectral density)에 적어도 일부 기초하여 각 채널에 대한 동적 스펙트럼 플로어(dynamic spectral floor)를 결정하는 단계를 포함할 수 있다.
본 발명의 다른 관련 실시예들에 따라, 상기 신호 처리 방법은 상기 전처리된 신호들을 생성함에 있어서 상기 복수의 신호들 각각의 신호 레벨을 동적으로 조절하는 단계를 더 포함할 수 있다. 상기 복수의 신호들 각각의 상기 신호 레벨을 동적으로 조절하는 단계는, 상기 복수의 신호들 각각의 상기 신호 레벨을 목표 레벨로 동적으로 조절하는 단계를 포함할 수 있다. 상기 복수의 신호들 각각은 채널에 연관되고, 상기 신호 처리 방법은 각 채널에 대한 지배 가중치(dominance weight)를 결정하는 음성 활성화 검출 모듈을 적용하는 단계를 더 포함할 수 있다. 상기 전처리된 신호들을 생성함에 있어서 상기 복수의 신호들 각각의 상기 신호 레벨을 동적으로 조절하는 단계는, 연관된 상기 지배 가중치에 적어도 일부 기초하여 각 채널에 대한 상기 전처리된 신호들을 생성하는 단계를 포함할 수 있다.
본 발명의 또 다른 관련 실시예들에 따라, 상기 복수의 신호들 각각은 채널에 연관되고, 상기 신호 처리 방법은 각 채널에 대한 지배 가중치(dominance weight)를 결정하는 음성 활성화 검출 모듈을 적용하는 단계를 더 포함할 수 있다. 상기 전처리된 신호들을 생성하는 상기 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각에 동적으로 가중 부여하는 단계는, 연관된 상기 지배 가중치에 적어도 일부 기초하여 각 채널에 대한 상기 전처리된 신호들을 생성하는 단계를 포함할 수 있다. 상기 전처리된 신호들 중 적어도 두 개를 결합하는 단계는, 상기 전처리된 신호들에 가중치를 부여하기 위한 동적 가중 인자들을 이용하는 단계를 포함할 수 있다. 상기 전처리된 신호들을 결합하는 것에 연관된 상기 동적 가중 인자들은 상기 전처리된 신호들을 생성하는 것에 연관된 상기 지배 가중치와 상이할 수 있다.
본 발명의 다른 실시예에 따라, 복수의 신호들을 동적으로 결합하기 위한 컴퓨터 프로그램 제품이 제공된다. 상기 컴퓨터 프로그램 제품은 컴퓨터로 판독 가능한 프로그램 코드가 기록된 컴퓨터로 이용 가능한 매체를 포함하고, 상기 컴퓨터로 판독 가능한 프로그램 코드는 실질적으로 동등한 잡음 특성들을 가지는 전처리된 신호들을 생성하는 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 프로그램 코드를 포함한다. 상기 전처리된 신호들 중 적어도 두 개가 결합된다.
본 발명의 관련 실시예들에 따라, 상기 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 프로그램 코드는, 상기 복수의 신호들의 배경 잡음이 스펙트럼 형태 또는 파워 중 적어도 하나에 대하여 실질적으로 동등하도록, 상기 복수의 신호들 각각을 구동하는 프로그램 코드를 포함할 수 있다. 상기 복수의 신호들 각각은 채널에 연관되고, 상기 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 프로그램 코드는, 잡음 파워 스펙트럼 밀도(noise power spectral density)에 적어도 일부 기초하여 각 채널에 대한 동적 스펙트럼 플로어(dynamic spectral floor)를 결정하는 프로그램 코드를 포함할 수 있다.
본 발명의 다른 관련 실시예들에 따라, 상기 컴퓨터 프로그램 제품은 상기 전처리된 신호들을 생성함에 있어서 상기 복수의 신호들 각각의 신호 레벨을 동적으로 조절하는 프로그램 코드를 더 포함할 수 있다. 상기 복수의 신호들 각각은 채널에 연관된다. 상기 컴퓨터 프로그램 제품은 각 채널에 대한 지배 가중치(dominance weight)를 결정하는 음성 활성화 검출 모듈을 적용하는 프로그램 코드를 더 포함한다. 상기 전처리된 신호들을 생성함에 있어서 상기 복수의 신호들 각각의 상기 신호 레벨을 동적으로 조절하는 프로그램 코드는, 연관된 상기 지배 가중치에 적어도 일부 기초하여 각 채널에 대한 상기 전처리된 신호들을 생성하는 프로그램 코드를 포함할 수 있다.
본 발명의 다른 관련 실시예들에 따라, 상기 복수의 신호들 각각은 채널에 연관되고, 상기 컴퓨터 프로그램 제품은 각 채널에 대한 지배 가중치(dominance weight)를 결정하는 음성 활성화 검출 모듈을 적용하는 프로그램 코드를 더 포함하며, 상기 전처리된 신호들을 생성하는 상기 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각에 동적으로 가중 부여하는 프로그램 코드는, 연관된 상기 지배 가중치에 적어도 일부 기초하여 각 채널에 대한 상기 전처리된 신호들을 생성하는 프로그램 코드를 포함할 수 있다. 상기 전처리된 신호들 중 적어도 두 개를 결합하는 프로그램 코드는, 상기 전처리된 신호들에 가중치를 부여하기 위한 동적 가중 인자들을 이용하는 프로그램 코드를 포함할 수 있다. 상기 전처리된 신호들을 결합하는 것에 연관된 상기 동적 가중 인자들은 상기 전처리된 신호들을 생성하는 것에 연관된 상기 지배 가중치와 상이할 수 있다.
본 발명의 실시예들에 따른 신호 처리 시스템, 신호 처리 방법 및 컴퓨터 프로그램 제품은 서로 다른 음성(speech) 레벨들 및/또는 서로 다른 배경 잡음(background noise)들을 보상할 수 있다.
본 개시의 하나 이상의 실시예들에 대한 구체적인 설명이 첨부된 도면들 및 아래의 상세한 설명에 개시되어 있다. 본 개시의 다른 특징들, 목적들, 및 장점들이 상세한 설명 및 도면들로부터, 또한 특허청구범위로부터 명백하게 될 것이다.
상술한 실시예들의 특징들이 첨부된 도면들 및 아래의 상세한 설명을 참조하여 보다 용이하게 이해될 것이고, 첨부된 도면들에서,
도 1은 본 발명의 일 실시예에 따른 신호들의 동적 믹싱을 위한 신호 처리 시스템의 시스템 개요를 나타내고,
도 2a는 본 발명의 일 실시예에 따른 다양한 채널들에 연관된 예시적인 카운터들(
Figure pct00001
)을 나타내며, 도 2b는 본 발명의 일 실시예에 따른 화자의 지배를 나타내는 화자 지배 가중치(
Figure pct00002
)에 매핑된 상기 카운터들을 나타내고,
도 3은 본 발명의 일 실시예에 따른 자동 이득 조절(Automatic Gain Control; AGC)의 블록도를 나타내며,
도 4는 본 발명의 일 실시예에 따른 잡음 감소(Noise Reduction; NR)의 블록도를 나타내고,
도 5a는 (NR 없는) 채널간 스위칭(inter channel switching) 후 처리된 출력 신호를 나타내며, 도 5b는 본 발명의 일 실시예에 따른 0.4의 bref를 가지는 결과적으로 처리된 신호를 나타내고,
도 6a는 다양한 믹싱 시스템 방법론들의 평가의 평균 투표 결과들을 나타내며, 도 6b는 상기 서로 다른 방법들에 대한 순위 분포를 나타낸다.
본 발명의 예시적인 실시예에서, 잡음 환경에서 서로 다른 화자들을 지원하는 신호 결합 시스템 및 방법이 제공된다. 특히, 채널들 사이에서의 잡음 특징들의 편차를 위하여, 다양한 실시예들은 화자가 변경될 때 배경 잡음의 매끄러운 천이(transition)를 보장한다. 수정된 잡음 감소(noise reduction; NR)는 동적, 채널 특정 및 주파수 의존 최대 감쇠(attenuation)를 적용하여 모든 채널들에 대하여 동등한 배경 잡음 특징들을 달성할 수 있다. 배경 잡음을 조절하기 위한 기준 특징들은 지배적 화자 채널에 의해 특정될 수 있다. 다양한 실시예들에서, 동작 목표 레벨을 가진 자동 이득 제어(automatic gain control; AGC)가 모든 채널들에서 유사한 음성 신호 레벨을 보장할 수 있다. 이하, 보다 상세히 설명된다.
도 1은 본 발명의 일 실시예에 따른 신호들의 동적 믹싱을 위한 신호 처리 시스템의 시스템 개요를 나타낸다. 상기 시스템의 적용은 원격 회의(teleconferencing) 시스템들에 관한 생중계 믹싱 상황에서 차량 환경에서의 핸즈-프리 전화(hands-free telephony)까지 매우 다양할 수 있다. 상기 시스템은, 마이크로폰 지수(microphone index) m을 가지고, 이에 한정되지 않으나 M 개의 입력 신호들에 연관된 입력 M 개의 마이크로폰들(100)을 포함한다. 상기 M 개의 입력 신호들은 하나의 (또는 그 이상의) 출력 신호(Y)를 형성하도록 결합된다.
일반적으로, 이에 한정되지 않으나 화자 변경을 포함하는 음향 상황의 변경에 기인하여, 마이크로폰 신호 레벨들은 시간에 따라 변경된다. 또한, 다양한 마이크로폰들(100)이, 이에 한정되지 않으나, 서로 이격된 서로 다른 화자들에 위치함으로써 다양한 노이즈 특징들을 가질 수 있다. 예를 들어, 다양한 화자들이 자동차 또는 보트와 같은 운송 수단의 서로 다른 승객 칸들(passenger compartments)에 위치하거나, 전화 회의를 위한 서로 다른 장소에 위치할 수 있다.
도시된 실시예에서, 전처리 모듈(preprocessing module)(110)은 마이크로폰들(100)로부터의 신호들을 수신하고, 잡음 감소 알고리즘에 다라 상기 신호들 각각을 동적으로 필터링하여 실질적으로 동등한 잡음 특징들(noise characteristics)을 가지는 전처리된 신호들(Y1 내지 YM)을 생성한다. 전처리 모듈(110)은, 이에 한정되지 않으나, 각 마이크로폰 및/또는 화자의 지배를 결정하는 음성 활성화 검출(Voice Activity Detection, VAD)(112)을 포함하고, 그 결과로서 지배 가중치(Dominance Weight; DW)들이 계산되며(118), 이들에 기초하여 AGC(114)를 조절하기 위한 목표 값들(120) 및 NR(116)의 최대 감쇠(maximum attenuation)가 계산된다. 이러한 전처리 단계들 이후, 각 채널의 신호들은 유사한 사운드 레벨 및 잡음 특징들로 구동되고, 예를 들어 믹서(122)에서 결합된다.
상기 처리는 주파수 도메인 또는 부대역(subband) 도메인에서 수행될 수 있고, 여기서
Figure pct00003
이 프레임 지수(frame index)를 나타내고, k가 주파수 지수(frequency index)를 나타낸다. 단시간 퓨리에(Fourier) 변환은 Hann 윈도우 및, 이에 한정되지 않으나, 11025 Hz의 샘플링 주파수에서 75%의 중첩(overlap)을 가지는 256 개의 샘플들을 이용할 수 있다. 예를 들어, 각 마이크로폰 신호는 음성(speech)과 잡음 신호 성분의 중첩(superposition)에 의해 다음과 같이 모델링될 수 있다.
Figure pct00004
(1)
화자 지배(Speaker Dominance)
본 발명의 다양한 실시예들에 따라, 목표 레벨들(120)을 계산할 때, 종종 시간 인스턴스(time instance)에서 어느 화자/마이크로폰이 지배적인 것인지를 파악하는 것이 중요하다. 지배 가중치들(DW)(118)은 화자가 말하고 있는 기간(duration)을 평가함으로써 결정될 수 있다. DW(118)는 이후 목표 값들(120)을 설정하는 데에 이용될 수 있다. 오직 한 명의 화자만이 활성화된 경우, 상기 목표 값들은 소정의 시간 후 이러한 구체적인 채널에 의해 제어될 수 있다. 모든 화자들이 유사한 방식으로 활성화된 경우, 상기 목표 값들은, 이에 한정되지 않으나, 모든 채널 특징들의 평균에 상응할 수 있다. DW의 빠른 변화는 배경 잡음의 레벨 점프(jump) 또는 변조(modulation)를 초래할 수 있다. 그러므로, 이러한 가중치들의 느린 적용(예를 들어, 확실한 시간적 평활화에 의해 실현)이 바람직하다.
각 채널에 대한 필요한 전대역(fullband) VAD(
Figure pct00005
)를 위한 값들을 결정하도록, 다양한 방법들이 사용될 수 있고, 이러한 방법의 일예가 T. Matheja 및 M. Buck의 "파워 비율들의 모델링을 통한 분산된 마이크로폰들에 대한 강건한 음성 활성화 검출(Robust Voice Activity Detection for Distributed Microphones by Modeling of Power Ratios)"(9. ITG-Fachtagung Sprachkommunikation, Bochum, Oct. 2010)에 개시되어 있고, 이는 전체로서 여기에 참조로 인용된다. 예를 들어, 특정한 카운터들(
Figure pct00006
)이, 이에 한정되지 않으나, 특정한 화자들이 활성화된(
Figure pct00007
) 각 시간 프레임 및 각 채널에서 증가되고, 그렇지 않은 경우 상기 카운터들은 감소되거나 변하지 않는다.
Figure pct00008
(2)
Figure pct00009
또는
Figure pct00010
에 의한 상기 카운터들의 제한들은 화자의 최대(full) 또는 최소(minimal) 지배를 각각 정의한다. 다양한 실시예들에서, 상기 카운터들의 증가 간격(
Figure pct00011
)은 현재 화자가 발언하고
Figure pct00012
초 후 지배적이 되는 방식으로 설정될 수 있다. 두 개의 연속된 타임 프레임들 사이의 업데이트 시간이
Figure pct00013
일 때 다음과 같다.
Figure pct00014
(3)
채널(m)에 대하여, 임의의 다른 채널(
Figure pct00015
)의 다른 화자가 활성화되면, 감소 상수가 재계산될 수 있다. 본 실시예에서, 단독 발언(single-talk)이 가정된다. 이러한 실시예들에서, 새로 활성화된 화자가
Figure pct00016
에 도달하고 이와 함께 완전한 지배(full dominance)에 도달한 후 이전 화자의 지배 카운터는
Figure pct00017
이 될 수 있다. 0으로 나눠지는 것을 방지하는 매우 낮은 값의 상수(
Figure pct00018
)를 포함하여,
Figure pct00019
은 다음과 같이 결정될 수 있다.
Figure pct00020
(4)
예시적으로, 도 2a는 (
Figure pct00021
이 0이고,
Figure pct00022
가 100인) 예시적인 카운터들을 나타내고, 이는, 도 2b에 도시된 바와 같이, 화자의 지배를 나타내는 화자 지배 가중치들(
Figure pct00023
)에 매핑될 수 있다.
Figure pct00024
(5)
동적 신호 조절(Dynamic Signal Adjustment)
상술한 음성 및/또는 잡음 레벨 차이들을 보상하도록, 본 발명의 다양한 실시예들에 따라 기본적 마이크로폰 신호들로부터 계산된 적응적 목표 레벨들로의 조정(adaptation)을 수행하는 AGC(114) 및 동적 NR(116)이 이하 개시된다.
자동 이득 제어(Automatic Gain Control)
도 3은 본 발명의 일 실시예에 따른 AGC의 블록도를 나타낸다. 본 발명의 다양한 실시예들에서, 입력 신호(
Figure pct00025
)에 기초하여, AGC(302)는, 이에 한정되지 않으나, m번째 마이크로폰 신호(304)에서 피크 레벨(
Figure pct00026
)을 추정하고, 상기 추정된 피크 레벨을 목표 피크 레벨(
Figure pct00027
)로 조정하도록 전대역 증폭 인자(fullband amplification factor)(
Figure pct00028
, 306)를 결정한다.
피크 레벨 추정의 예시적인 방법이 E. Hansler 및 G. Schmidt의 "음향 반향 및 잡음 제어: 실질적 접근법(Acoustic Echo and Noise Control: A Practical Approach)"(Hoboken, NJ, USA: John Wiley & Sons, 2004, vol. 1)에서 제안되어 있고, 이는 전체로서 여기에 참조로 인용된다. 피크 추적을 위한 시간 도메인 신호의 이용을 대신하여, 모든 부대역들에 걸쳐서 제곱 평균(root-mean-square) 측정이 적용될 수 있다. AGC(114)는 주파수 무관 이득 인자(frequency independent gain factor)들을 가지고 각 채널에서 AGC(114)가 처리될 수 있다. 그 결과는 다음과 같다.
Figure pct00029
(6)
여기서, 재귀적으로 평균화되는 이득 인자들은 다음과 같다.
Figure pct00030
(7)
여기서,
Figure pct00031
는 평활화(smoothing) 상수를 나타낸다.
Figure pct00032
의 범위는, 이에 한정되지 않으나, 0<
Figure pct00033
<1일 수 있다. 예를 들어,
Figure pct00034
가 0.9로 설정될 수 있다. 목표, 더 정확히 말하면, 기준 피크 레벨(
Figure pct00035
)은 모든 피크 레벨들의 가중 합(weighted sum)이고, 이는 다음과 같이 결정된다.
Figure pct00036
(8)
따라서, 본 발명의 예시적인 실시예들에서, 기준 음성 레벨은 주로 지배적 채널에 의해 특정될 수 있고, 다른 음성 신호 레벨들은 대략적으로 동일한 신호 파워로 조정될 수 있다.
동적 잡음 감소(Dynamic Noise Reduction)
예시적으로, 동적 NR(116)은 모든 채널들에 대한 배경 잡음의 동등한 파워 및 스펙트럼 형태를 목표로 한다. 도 4는 본 발명의 일 실시예에 따른 NR(402)의 블록도를 나타낸다. NR(402)은 입력되는 신호의 필터링(410)에 대한 필터 특징들(408)을 결정하는 파워 및 잡음 추정기들(404, 406) 각각을 모두 포함할 수 있다. 최대 감쇠(maximum attenuation)는 각 마이크로폰 및 각 부대역에 대하여 가변될 수 있다. m번째 마이크로폰 채널의 추정된 잡음 파워 스펙트럼 밀도(power spectral density; PSD)를 나타내는
Figure pct00037
를 이용하여, AGC(114) 후 잡음 PSD을 나타내면 다음과 같다.
Figure pct00038
(9)
NR(116)에 대하여, 스펙트럼 가중(spectral weighting)에 기초한 서로 다른 특징들이 선택될 수 있다. 예를 들어, NR 필터 계수들(
Figure pct00039
)은 고정된 과대추정(overestimation) 인자(
Figure pct00040
), 최대 과대추정(
Figure pct00041
) 및 재귀적 평활화를 통해 추정된 전체 신호 PSD(
Figure pct00042
)를 가지고 재귀적 위너(Wiener) 특징(E. Hansler등 참조)에 의해 다음과 같이 계산될 수 있다.
Figure pct00043
(10)
각 채널의 최대 감쇠를 구현하도록, 필터 계수들이 개별 동적 스펙트럼 플로어(
Figure pct00044
)에 의해 다음과 같이 제한될 수 있다.
Figure pct00045
(11)
전체 잡음 감소를 특정하는 기준 플로어(
Figure pct00046
)를 설정한 후 및 공통 목표 잡음 PSD(
Figure pct00047
)를 추정한 후, 스펙트럼 플로어들이 다음과 같이 결정될 수 있다.
Figure pct00048
(12)
여기서, 목표 잡음 PSD는 지배 가중치들에 의한 수식 (8)의 목표 레벨과 유사하게 적응적으로 계산될 수 있다.
Figure pct00049
(13)
잡음 레벨들의 차이들 및 모든 채널들에 대한 착색효과들은, 이에 한정되지 않으나, 동적 스펙트럼 플로어(
Figure pct00050
)에 의해 보상될 수 있다. 도 5a는 (NR 없는) 채널간 스위칭(inter channel switching) 후의 출력 신호를 나타내고, 도 5b는 본 발명의 일 실시예에 따른 0.4의 bref를 가지는 결과적으로 처리된 신호의 스펙토그램(spectogram)을 나타낸다. 다양한 실시예들에서, 가능한 많은 잡음 감소를 수행하는 것이 필수적이지 않고, 상술한 서로 다른 잡음 특징들을 보상하는 만큼 수행하는 것이 바람직하다. 예시적으로, NR(116)의 적당한 성능과 관련하여, 다음과 같이 제한을 도입하는 것이 바람직하다.
Figure pct00051
(14)
AGC 가중치들이 범위 내인 경우,
Figure pct00052
(15)
상기 처리는 일반적으로 잘 동작할 것이나, 그렇지 않은 경우 잔여 스위칭 효과가 가청될 수 있다. 상기 처리된 신호들을 획득하도록, 수식 (11)로부터의 상기 필터 계수들이 주파수 도메인의 복소수 값 신호에 적용될 수 있다.
Figure pct00053
(16)
결과적으로, 모든 신호들이, 유사한 잡음 특징들(예를 들어, 동등한 파워 및/또는 스펙트럼 형태)을 나타내고, 특정한 활성화된 화자 채널들 사이의 매끄러운 천이(smooth transition) 구간을 나타내도록, 구동된다. 상기 잡음 신호들의 세기의 차이들은, 예를 들어 오직 한 화자가 지배적인 경우, 일정 시간 후 뚜렷해질 때만 용인된다.
신호 결합(Signal Combining)
상기 처리된 신호들은, 이에 한정되지는 않으나 하나의 출력 신호를 획득하도록, 믹서(122)에서 결합된다. 다양한 실시예들에서, 복수의 출력들이 상기 처리된 신호들의 임의의 조합에 의해 구현될 수 있다. 물론, 상기 신호들의 결합에 대한 가중치들은 상기 지배 가중치들과 독립적으로 선택될 수 있고, 여러 가지의 서로 다른 방법들이 적용될 수 있다. 상기 믹서 가중치들은, 이에 한정되지는 않으나, 예를 들어 VAD(112)의 출력을 이용한 음성 활성화(speech activity)에 기반을 둘 수 있다. 하드 스위칭(hard switching) 방법들은 이산 값들(discrete values)을 가진 실수 값 가중치들을 적용할 수 있다. 이와 달리, 채널들 사이의 스위칭은 음성 활성화에 따른 어떠한 속도로 증가 및 감소되는 소프트 가중치들에 의해 보다 매끄럽게 구현될 수 있다. 보다 정교한 믹싱 방법들은 입력 신호들에 따라 동적으로 할당되는 주파수 의존 가중치들을 이용할 수 있다. 이러한 방법들은 또한 상기 입력 신호들의 음성 성분들의 위상들을 정렬하도록 복소수 값 가중치들을 포함할 수 있다. 이 경우, 상기 출력 신호는 상기 원하는 신호의 가산적(constructive) 중첩에 기인하여 향상된 SNR을 산출할 수 있다.
다양한 실시예들에 따라, 예를 들어, 단일 발언 상황이 가정되고, 단일한 화자만이 동일한 시간에 활성화된 경우, 다음과 같이 실수 값 전대역 가중치들(
Figure pct00054
)을 이용하는 것이 바람직하다.
Figure pct00055
(17)
모든 채널들에서 서로 다른 신호 특징들의 조정에 기인하여, 어떠한 스위칭 효과들을 인지하지 못하면서 활성화된 화자들 사이의 스위칭이 수행될 수 있다(도 3 참조). 가중치들(
Figure pct00056
)은 VAD(112)에 의해 결정될 수 있고, 다른 화자가 활성화될 때까지 유지될 수 있다. 믹싱을 위한 소프트 가중치들을 이용할 때, 믹서 가중치들(
Figure pct00057
)은 고속으로 변경되어야 한다. 예를 들어, 새로운 (현재까지 비활성화되었던) 화자의 개시(onset)는 많은 음성을 놓치지 않기 위하여 상응하는 가중치의 고속 증가(엄습(attack))를 요구한다. 쇠퇴(완화(release))는, 활성화된 화자가 발언을 계속할 수 있으므로, 보통 보다 천천히 수행된다.
일반적으로, 본 발명의 기술분야에서 알려진 임의의 믹싱 방법론이 적용될 수 있다. 예를 들어, 주파수 의존 가중치들(예를 들어, 다이버시티 기술들) 또는 심지어 복소수 값 가중치들(예를 들어, SNR 최적화 기술들)을 적용하는 믹싱 방법론들이 사용될 수 있으나, 이에 한정되지 않는다.
계산적으로 효율적인 방안(Computational efficient solution)
계산상의 노력을 절약하도록, 다양한 실시예들에서, 모든 채널들이 완전히 처리되지는 않을 수 있다. 예를 들어, 잡음 감소 및/또는 AGC가 N 개의 가장 활성화된 채널들에 대하여만 계산될 수 있다. 예시적으로, 최고 믹서 가중치들(
Figure pct00058
)을 가진 채널들을 취할 수 있다(1 ≤ N < M). 다른 채널들은 처리되지 않고, 상응하는 믹서 가중치들은 0으로 설정된다. 이들은 일절 상기 출력 신호에 기여하지 않는다. N 이상의 화자들이 동시에 활성화된 경우, 적어도 하나의 화자가 최적으로 다뤄지지 않는 문제가 존재할 수 있다. 그러나, 차량 환경에서는, 이러한 화자의 음성 신호는 상기 믹서의 상기 출력 신호에 교차 결합(cross-coupling)을 통해 반영될 수 있다. 따라서, 그는 완전히 억제되지는 않는다. 실제적인 상황들에서, 이는 자주 또는 영구히 발생되지 않는다.
평가(Evaluation)
각각이 전용 마이크로폰을 가진 네 명의 번갈아 발언하는 사람들, 즉 앞좌석의 두 명 및 뒷좌석의 두 명이 승차하고, 대략적으로 90 km/h 및 130 km/h로 이동하는 자동차에서 측정된 신호들로 상술한 시스템이 평가되었다. 열린 창문의 불리한 잡음 상황이 고려되었다. 주관적 청취 실험으로 다음의 세 가지 결합 방법들이 비교되었다: 고정된 스펙트럼 플로어(
Figure pct00059
)를 가진 잡음 감소 채널 신호들 사이의 하드 스위칭; 본 발명의 다양한 실시예들에 따른 동적 신호 결합 방법(
Figure pct00060
,
Figure pct00061
,
Figure pct00062
); 및 다이버시티 방식(Freudenberger 등 참조). 열 명의 실험 참가자들이 17 개의 음성 신호 세트들을 청취하였다. 각 세트에서, 하나의 신호가 상기 세 개의 서로 다른 방법들 각각에 의해 처리되었다. 상기 시도는 이들의 품질에 의해 최상(지수 1)에서부터 최악(지수 3)까지 결과들이 분류되었다. 상기 피험자들은 그들이 원하는 만큼 상기 신호들을 자주 청취하였다. 음성 품질, 잡음 소리 및 전체 인상이 평가되었다.
도 6a 및 도 6b는 상기 실험의 결과를 나타낸다. 도 6a는 평균 투표 결과들을 나타낸다. 도 6b는 상기 서로 다른 방법들에 대한 순위 분포를 나타낸다. 상기 채널들 사이의 단순한 하드 스위칭은 좋지 못한 결과를 보였고, 이는 성가신 잡음 점프들에 기인할 수 있다. 상기 다른 방법들에서 실질적으로 변함없는 배경 잡음이 발생되었으나, 본 발명의 다양한 실시예들에 따른 상기 동적 신호 결합 방법은 최상의 결과를 산출하였다. 음성 품질은 모든 세 개의 방식들에서 유사한 순위를 나타내었다. 상기 다이버시티 방법은, 이것이 본래 좋은 음성 품질을 달성하도록 고안되었으므로, 부자연스럽게 소리 나는 배경 잡음을 나타냈다. 전체적인 인상에 있어서, 상기 배경 잡음은 또한 결정적인 것으로 나타났다. 따라서, 본 발명의 상술한 실시예들에 따른 방법은, 자연스러운 사운드 및 부드러운 잡음 천이를 가져 유리하다.
결론(Conclusion)
잡음 환경들에서 다수의 화자들을 지원하는 새로운 동적 신호 결합 시스템 및 방법이 제안된다. 두 개의 서로 다른 가중치 세트들이 이용될 수 있고, 이들은 독립적으로 제어될 수 있다. 믹서 가중치들은 화자가 변경된 후 음성 개시를 포획하도록 매우 빠르게 변경될 수 있는 반면, 지배 가중치들은 결과 신호에 대한 원하는 신호 특징들을 특정하도록 보다 느리게 조절될 수 있다. 따라서, 배경 잡음 또는 음성 레벨이 채널들 사이에서 크게 다르더라도, 서로 다른 화자들의 마이크로폰 신호들 사이에서 부드러운 천이가 달성될 수 있다. 또한, 개시된 시스템 및 방법은 이러한 가중치들 사이의 완전한 독립에 기인하여 소프트 또는 복소수 값 가중치들을 가지는 다른 믹싱 방식들에 대한 전처리기(preprocessor)로서 이용될 수 있다.
예를 들어, 본 발명의 전처리 모듈(110) 및/또는 믹서(122)는, 이에 한정되지 않으나, 프로세서(예를 들어, 마이크로프로세서, 마이크로컨트롤러, 디지털 신호 처리기, 또는 범용 컴퓨터)에서 사용되는 컴퓨터 프로그램 로직, 프로그래머블 로직 장치(예를 들어, 필드 프로그래머블 게이트 어레이(Field Programmable Gate Array; FPGA) 또는 다른 PLD)에서 사용되는 프로그래머블 로직, 별개의 컴포넌트들, 집적 회로(예를 들어, 주문형 집적 회로(Application Specific Integrated Circuit; ASIC)), 또는 이들의 조합을 포함하는 임의의 다른 수단을 포함하는 다수의 서로 다른 형태로 구현될 수 있다.
상술한 기능들의 전부 또는 일부를 구현하는 컴퓨터 프로그램 로직은, 이에 한정되지 않으나, 소스 코드 형태, 컴퓨터로 실행 가능한 형태 및 다양한 중간 형태들(예를 들어, 어셈블러, 컴파일러, 링커 또는 로케이터에 의해 생성된 형태들)을 포함하여 다양한 형태들로 구현될 수 있다. 소스 코드는 다양한 운영 체제들 또는 운영 환경들에서 사용되는 임의의 다양한 프로그래밍 언어들(예를 들어, 목적 코드, 어셈블리 언어, 또는 포트란, C, C++, JAVA 또는 HTML과 같은 고레벨 언어)로 구현될 수 있다. 소스 코드는 다양한 데이터 구조들 및 통신 메시지들을 정의 및 이용할 수 있다. 소스 코드는 (예를 들어, 인터프리터를 통하여) 컴퓨터로 실행 가능한 형태이거나, 소스 코드가 (예를 들어, 트랜슬레이터, 어셈블러, 또는 컴파일러를 통하여) 컴퓨터로 실행 가능한 형태로 변환될 수 있다.
상기 컴퓨터 프로그램은 유형의 저장 매체, 예를 들어 반도체 메모리 장치(예를 들어, RAM, ROM, PROM, EEPROM, 또는 플래시-프로그래머블 RAM), 자기 메모리 장치(예를 들어, 디스켓 또는 고정 디스크), 광 메모리 장치(예를 들어, CD-ROM), PC 카드(예를 들어, PCMCIA 카드), 또는 다른 메모리 장치에 영구적으로, 비일시적으로 또는 일시적으로 임의의 형태(예를 들어, 소스 코드 형태, 컴퓨터로 실행 가능한 형태, 또는 중간 형태)로 마련될 수 있다. 상기 컴퓨터 프로그램은, 이에 한정되지 않으나, 아날로그 기술들, 디지털 기술들, 광 기술들, 무선 기술들, 네트워크 기술들, 및 인터넷작업 기술들을 포함하는 임의의 다양한 통신 기술들을 이용하여 컴퓨터로 송신 가능한 신호 내에 임의의 형태로 마련될 수 있다. 상기 컴퓨터 프로그램은 첨부된 인쇄 또는 전자 문서를 가진 제거 가능한 저장 매체(예를 들어, 개별 포장된(shrink wrapped) 소프트웨어 또는 자기 테이프)의 형태로 배포되거나, 컴퓨터 시스템(예를 들어, 시스템 ROM 또는 고정 디스크)에 미리 로딩되거나, 또는 통신 시스템(인터넷 또는 월드 와이드 웹)을 통하여 서버로부터 또는 전자 게시판으로부터 배포될 수 있다.
상술한 기능들의 전부 또는 일부를 구현하는 (프로그래머블 로직 장치에서 이용되는 프로그래머블 로직을 포함하는) 하드웨어 로직은 전통적인 수동 방법들에 의해 설계되거나, 다양한 도구들, 예를 들어 컴퓨터 이용 설계(Computer Aided Design; CAD), 하드웨어 기술 언어(예를 들어, VHDL 또는 AHDL), 또는 PLD 프로그래밍 언어(예를 들어, PALASM, ABEL, 또는 CUPL)를 이용하여 설계, 획득, 모의실험 또는 무선화될 수 있다.
상술한 본 발명의 실시예들은 단지 예시적인 목적을 가지고, 본 발명의 기술분야의 통상의 지식을 가진 자는 다양한 변형 및 수정들이 가능함을 알 수 있을 것이다. 모든 이러한 변형 및 수정들은 첨부된 특허청구범위에서 정의된 본 발명의 범위 내에서 이루어진다.

Claims (29)

  1. 복수의 신호들을 수신하고, 실질적으로 동등한 잡음 특성들을 가지는 전처리된 신호들을 생성하는 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 전처리 모듈(preprocessing module); 및
    상기 전처리된 신호들 중 적어도 두 개를 결합하는 믹서를 포함하는 신호 처리 시스템.
  2. 제 1 항에 있어서,
    상기 복수의 신호들을 제공하는 복수의 마이크로폰들을 더 포함하고,
    상기 마이크로폰들 중 적어도 두 개는 운송 수단의 서로 다른 승객 칸들(passenger compartments)에 위치한 것을 특징으로 하는 신호 처리 시스템.
  3. 제 1 항에 있어서, 상기 잡음 감소 알고리즘은, 상기 복수의 신호들의 배경 잡음이 스펙트럼 형태 또는 파워 중 적어도 하나에 대하여 실질적으로 동등하도록, 상기 복수의 신호들 각각을 구동하는 것을 특징으로 하는 신호 처리 시스템.
  4. 제 1 항에 있어서, 상기 잡음 감소 알고리즘은, 상기 복수의 신호들의 신호대 잡음비가 실질적으로 동등하도록, 상기 복수의 신호들 각각을 구동하는 것을 특징으로 하는 신호 처리 시스템.
  5. 제 1 항에 있어서, 상기 복수의 신호들 각각은 채널에 연관되고, 상기 잡음 감소 알고리즘은 잡음 파워 스펙트럼 밀도(noise power spectral density)에 적어도 일부 기초하여 각 채널에 대한 동적 스펙트럼 플로어(dynamic spectral floor)를 결정하는 것을 포함하는 것을 특징으로 하는 신호 처리 시스템.
  6. 제 1 항에 있어서, 상기 전처리 모듈은 상기 복수의 신호들 각각의 신호 레벨을 동적으로 조절하는 이득 제어 모듈을 포함하는 것을 특징으로 하는 신호 처리 시스템.
  7. 제 6 항에 있어서, 상기 이득 제어 모듈은 상기 복수의 신호들 각각의 상기 신호 레벨을 목표 레벨로 동적으로 조절하는 것을 특징으로 하는 신호 처리 시스템.
  8. 제 6 항에 있어서, 상기 복수의 신호들 각각은 채널에 연관되고, 상기 전처리 모듈은 각 채널에 대한 지배 가중치(dominance weight)를 결정하는 음성 활성화 검출 모듈을 더 포함하고, 상기 이득 제어 모듈은 상기 복수의 신호들에 연관된 채널들의 상기 지배 가중치에 적어도 일부 기초하여 상기 복수의 신호들 각각의 상기 신호 레벨을 조절하는 것을 특징으로 하는 신호 처리 시스템.
  9. 제 1 항에 있어서, 상기 복수의 신호들 각각은 채널에 연관되고, 상기 전처리 모듈은 각 채널에 대한 지배 가중치(dominance weight)를 결정하는 음성 활성화 검출 모듈을 포함하고, 상기 잡음 감소 알고리즘은 연관된 상기 지배 가중치에 적어도 일부 기초하여 각 채널에 대한 상기 전처리된 신호들을 생성하는 것을 특징으로 하는 신호 처리 시스템.
  10. 제 9 항에 있어서, 상기 믹서는 상기 전처리된 신호들에 가중치를 부여하기 위한 동적 가중치들을 포함하고, 상기 동적 가중치들은 상기 전처리 모듈에 연관된 상기 지배 가중치와 상이한 것을 특징으로 하는 신호 처리 시스템.
  11. 복수의 신호들을 수신하는 단계;
    실질적으로 동등한 잡음 특성들을 가지는 전처리된 신호들을 생성하는 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 단계; 및
    상기 전처리된 신호들 중 적어도 두 개를 결합하는 단계를 포함하는 신호 처리 방법.
  12. 제 11 항에 있어서,
    복수의 마이크로폰들이 상기 복수의 신호들을 제공하는 단계를 더 포함하고,
    상기 마이크로폰들 중 적어도 두 개는 운송 수단의 서로 다른 승객 칸들(passenger compartments)에 위치한 것을 특징으로 하는 신호 처리 방법.
  13. 제 11 항에 있어서, 상기 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 단계는,
    상기 복수의 신호들의 배경 잡음이 스펙트럼 형태 또는 파워 중 적어도 하나에 대하여 실질적으로 동등하도록, 상기 복수의 신호들 각각을 구동하는 단계를 포함하는 것을 특징으로 하는 신호 처리 방법.
  14. 제 11 항에 있어서, 상기 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 단계는,
    상기 복수의 신호들의 신호대 잡음비가 실질적으로 동등하도록, 상기 복수의 신호들 각각을 구동하는 단계를 포함하는 것을 특징으로 하는 신호 처리 방법.
  15. 제 11 항에 있어서, 상기 복수의 신호들 각각은 채널에 연관되고, 상기 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 단계는,
    잡음 파워 스펙트럼 밀도(noise power spectral density)에 적어도 일부 기초하여 각 채널에 대한 동적 스펙트럼 플로어(dynamic spectral floor)를 결정하는 단계를 포함하는 것을 특징으로 하는 신호 처리 방법.
  16. 제 11 항에 있어서,
    상기 전처리된 신호들을 생성함에 있어서 상기 복수의 신호들 각각의 신호 레벨을 동적으로 조절하는 단계를 더 포함하는 것을 특징으로 하는 신호 처리 방법.
  17. 제 16 항에 있어서, 상기 복수의 신호들 각각의 상기 신호 레벨을 동적으로 조절하는 단계는,
    상기 복수의 신호들 각각의 상기 신호 레벨을 목표 레벨로 동적으로 조절하는 단계를 포함하는 것을 특징으로 하는 신호 처리 방법.
  18. 제 16 항에 있어서, 상기 복수의 신호들 각각은 채널에 연관되고,
    각 채널에 대한 지배 가중치(dominance weight)를 결정하는 음성 활성화 검출 모듈을 적용하는 단계를 더 포함하며,
    상기 전처리된 신호들을 생성함에 있어서 상기 복수의 신호들 각각의 상기 신호 레벨을 동적으로 조절하는 단계는, 연관된 상기 지배 가중치에 적어도 일부 기초하여 각 채널에 대한 상기 전처리된 신호들을 생성하는 단계를 포함하는 것을 특징으로 하는 신호 처리 방법.
  19. 제 11 항에 있어서, 상기 복수의 신호들 각각은 채널에 연관되고,
    각 채널에 대한 지배 가중치(dominance weight)를 결정하는 음성 활성화 검출 모듈을 적용하는 단계를 더 포함하며,
    상기 전처리된 신호들을 생성하는 상기 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각에 동적으로 가중 부여하는 단계는, 연관된 상기 지배 가중치에 적어도 일부 기초하여 각 채널에 대한 상기 전처리된 신호들을 생성하는 단계를 포함하는 것을 특징으로 하는 신호 처리 방법.
  20. 제 19 항에 있어서, 상기 전처리된 신호들 중 적어도 두 개를 결합하는 단계는,
    상기 전처리된 신호들에 가중치를 부여하기 위한 동적 가중 인자들을 이용하는 단계를 포함하는 신호 처리 방법.
  21. 제 20 항에 있어서, 상기 전처리된 신호들을 결합하는 것에 연관된 상기 동적 가중 인자들은 상기 전처리된 신호들을 생성하는 것에 연관된 상기 지배 가중치와 상이한 것을 특징으로 하는 신호 처리 방법.
  22. 복수의 신호들을 동적으로 결합하기 위한 컴퓨터 프로그램 제품에 있어서, 상기 컴퓨터 프로그램 제품은 컴퓨터로 판독 가능한 프로그램 코드가 기록된 컴퓨터로 이용 가능한 매체를 포함하고, 상기 컴퓨터로 판독 가능한 프로그램 코드는,
    실질적으로 동등한 잡음 특성들을 가지는 전처리된 신호들을 생성하는 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 프로그램 코드; 및
    상기 전처리된 신호들 중 적어도 두 개를 결합하는 프로그램 코드를 포함하는 것을 특징으로 하는 컴퓨터 프로그램 제품.
  23. 제 22 항에 있어서, 상기 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 프로그램 코드는, 상기 복수의 신호들의 배경 잡음이 스펙트럼 형태 또는 파워 중 적어도 하나에 대하여 실질적으로 동등하도록, 상기 복수의 신호들 각각을 구동하는 프로그램 코드를 포함하는 것을 특징으로 하는 컴퓨터 프로그램 제품.
  24. 제 22 항에 있어서, 상기 복수의 신호들 각각은 채널에 연관되고, 상기 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각을 동적으로 필터링하는 프로그램 코드는, 잡음 파워 스펙트럼 밀도(noise power spectral density)에 적어도 일부 기초하여 각 채널에 대한 동적 스펙트럼 플로어(dynamic spectral floor)를 결정하는 프로그램 코드를 포함하는 것을 특징으로 하는 컴퓨터 프로그램 제품.
  25. 제 22 항에 있어서,
    상기 전처리된 신호들을 생성함에 있어서 상기 복수의 신호들 각각의 신호 레벨을 동적으로 조절하는 프로그램 코드를 더 포함하는 것을 특징으로 하는 컴퓨터 프로그램 제품.
  26. 제 25 항에 있어서, 상기 복수의 신호들 각각은 채널에 연관되고,
    상기 컴퓨터 프로그램 제품은 각 채널에 대한 지배 가중치(dominance weight)를 결정하는 음성 활성화 검출 모듈을 적용하는 프로그램 코드를 더 포함하며,
    상기 전처리된 신호들을 생성함에 있어서 상기 복수의 신호들 각각의 상기 신호 레벨을 동적으로 조절하는 프로그램 코드는, 연관된 상기 지배 가중치에 적어도 일부 기초하여 각 채널에 대한 상기 전처리된 신호들을 생성하는 프로그램 코드를 포함하는 것을 특징으로 하는 컴퓨터 프로그램 제품.
  27. 제 22 항에 있어서, 상기 복수의 신호들 각각은 채널에 연관되고,
    상기 컴퓨터 프로그램 제품은 각 채널에 대한 지배 가중치(dominance weight)를 결정하는 음성 활성화 검출 모듈을 적용하는 프로그램 코드를 더 포함하며,
    상기 전처리된 신호들을 생성하는 상기 잡음 감소 알고리즘에 따라 상기 복수의 신호들 각각에 동적으로 가중 부여하는 프로그램 코드는, 연관된 상기 지배 가중치에 적어도 일부 기초하여 각 채널에 대한 상기 전처리된 신호들을 생성하는 프로그램 코드를 포함하는 것을 특징으로 하는 컴퓨터 프로그램 제품.
  28. 제 27 항에 있어서, 상기 전처리된 신호들 중 적어도 두 개를 결합하는 프로그램 코드는,
    상기 전처리된 신호들에 가중치를 부여하기 위한 동적 가중 인자들을 이용하는 프로그램 코드를 포함하는 컴퓨터 프로그램 제품.
  29. 제 28 항에 있어서, 상기 전처리된 신호들을 결합하는 것에 연관된 상기 동적 가중 인자들은 상기 전처리된 신호들을 생성하는 것에 연관된 상기 지배 가중치와 상이한 것을 특징으로 하는 신호 처리 방법.
KR1020137013771A 2010-11-29 2010-11-29 동적 마이크로폰 신호 믹서 KR101791444B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2010/058168 WO2012074503A1 (en) 2010-11-29 2010-11-29 Dynamic microphone signal mixer

Publications (2)

Publication Number Publication Date
KR20140032354A true KR20140032354A (ko) 2014-03-14
KR101791444B1 KR101791444B1 (ko) 2017-10-30

Family

ID=46172182

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020137013771A KR101791444B1 (ko) 2010-11-29 2010-11-29 동적 마이크로폰 신호 믹서

Country Status (6)

Country Link
US (1) US20130325458A1 (ko)
EP (1) EP2647223B1 (ko)
JP (1) JP5834088B2 (ko)
KR (1) KR101791444B1 (ko)
CN (1) CN103299656B (ko)
WO (1) WO2012074503A1 (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9641933B2 (en) * 2012-06-18 2017-05-02 Jacob G. Appelbaum Wired and wireless microphone arrays
EP2765787B1 (en) * 2013-02-07 2019-12-11 Sennheiser Communications A/S A method of reducing un-correlated noise in an audio processing device
CN105229737B (zh) * 2013-03-13 2019-05-17 寇平公司 噪声消除麦克风装置
WO2015065362A1 (en) 2013-10-30 2015-05-07 Nuance Communications, Inc Methods and apparatus for selective microphone signal combining
US10623854B2 (en) * 2015-03-25 2020-04-14 Dolby Laboratories Licensing Corporation Sub-band mixing of multiple microphones
US10923132B2 (en) 2016-02-19 2021-02-16 Dolby Laboratories Licensing Corporation Diffusivity based sound processing method and apparatus
EP3312838A1 (en) 2016-10-18 2018-04-25 Fraunhofer Gesellschaft zur Förderung der Angewand Apparatus and method for processing an audio signal
WO2018121972A1 (en) * 2016-12-30 2018-07-05 Harman Becker Automotive Systems Gmbh Acoustic echo canceling
US10491179B2 (en) * 2017-09-25 2019-11-26 Nuvoton Technology Corporation Asymmetric multi-channel audio dynamic range processing
CN107910012B (zh) * 2017-11-14 2020-07-03 腾讯音乐娱乐科技(深圳)有限公司 音频数据处理方法、装置及系统
FR3103618B1 (fr) * 2019-11-21 2021-10-22 Psa Automobiles Sa Dispositif pour mettre en œuvre un assistant personnel virtuel dans un véhicule automobile avec contrôle par la voix d’un utilisateur, et véhicule automobile l’incorporant
EP4428859A1 (en) * 2023-03-10 2024-09-11 Goodix Technology (HK) Company Limited System and method for mixing microphone inputs

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5598466A (en) * 1995-08-28 1997-01-28 Intel Corporation Voice activity detector for half-duplex audio communication system
US6411927B1 (en) * 1998-09-04 2002-06-25 Matsushita Electric Corporation Of America Robust preprocessing signal equalization system and method for normalizing to a target environment
US6473733B1 (en) * 1999-12-01 2002-10-29 Research In Motion Limited Signal enhancement for voice coding
US6674865B1 (en) * 2000-10-19 2004-01-06 Lear Corporation Automatic volume control for communication system
US8934382B2 (en) * 2001-05-10 2015-01-13 Polycom, Inc. Conference endpoint controlling functions of a remote device
JP4119328B2 (ja) * 2003-08-15 2008-07-16 日本電信電話株式会社 収音方法、その装置、そのプログラム、およびその記録媒体。
DE602004004503D1 (de) * 2004-04-02 2007-03-15 Suisse Electronique Microtech HF-Mehrbandempfänger mit Vorrichtung zur Reduzierung des Energieverbrauches
ATE405925T1 (de) * 2004-09-23 2008-09-15 Harman Becker Automotive Sys Mehrkanalige adaptive sprachsignalverarbeitung mit rauschunterdrückung
US8543390B2 (en) * 2004-10-26 2013-09-24 Qnx Software Systems Limited Multi-channel periodic signal enhancement system
BRPI0607303A2 (pt) * 2005-01-26 2009-08-25 Matsushita Electric Ind Co Ltd dispositivo de codificação de voz e método de codificar voz
US8175874B2 (en) * 2005-11-17 2012-05-08 Shaul Shimhi Personalized voice activity detection
EP1830348B1 (en) * 2006-03-01 2016-09-28 Nuance Communications, Inc. Hands-free system for speech signal acquisition
US8068619B2 (en) * 2006-05-09 2011-11-29 Fortemedia, Inc. Method and apparatus for noise suppression in a small array microphone system
US8249271B2 (en) * 2007-01-23 2012-08-21 Karl M. Bizjak Noise analysis and extraction systems and methods
US8447044B2 (en) * 2007-05-17 2013-05-21 Qnx Software Systems Limited Adaptive LPC noise reduction system
JP4580409B2 (ja) * 2007-06-11 2010-11-10 富士通株式会社 音量制御装置および方法
JP4455614B2 (ja) * 2007-06-13 2010-04-21 株式会社東芝 音響信号処理方法及び装置
JP4850191B2 (ja) * 2008-01-16 2012-01-11 富士通株式会社 自動音量制御装置及びそれを用いた音声通信装置
US8374854B2 (en) * 2008-03-28 2013-02-12 Southern Methodist University Spatio-temporal speech enhancement technique based on generalized eigenvalue decomposition
JP5087476B2 (ja) * 2008-06-12 2012-12-05 ルネサスエレクトロニクス株式会社 受信装置およびその動作方法
GB2461082A (en) * 2008-06-20 2009-12-23 Ubidyne Inc Antenna array calibration with reduced interference from a payload signal
US8503694B2 (en) * 2008-06-24 2013-08-06 Microsoft Corporation Sound capture system for devices with two microphones
US8811537B2 (en) * 2008-12-03 2014-08-19 Electronics And Telecommunications Research Institute Signal receiving apparatus and method for wireless communication system using multiple antennas
US8660281B2 (en) * 2009-02-03 2014-02-25 University Of Ottawa Method and system for a multi-microphone noise reduction
JP5207479B2 (ja) * 2009-05-19 2013-06-12 国立大学法人 奈良先端科学技術大学院大学 雑音抑圧装置およびプログラム

Also Published As

Publication number Publication date
CN103299656A (zh) 2013-09-11
JP2014502471A (ja) 2014-01-30
KR101791444B1 (ko) 2017-10-30
EP2647223A1 (en) 2013-10-09
EP2647223A4 (en) 2017-01-04
JP5834088B2 (ja) 2015-12-16
WO2012074503A1 (en) 2012-06-07
US20130325458A1 (en) 2013-12-05
CN103299656B (zh) 2016-08-10
EP2647223B1 (en) 2019-08-07

Similar Documents

Publication Publication Date Title
KR101791444B1 (ko) 동적 마이크로폰 신호 믹서
JP5288723B2 (ja) マルチチャネルの反響補償
EP3053356B1 (en) Methods and apparatus for selective microphone signal combining
EP3040984B1 (en) Sound zone arrangment with zonewise speech suppresion
US5400409A (en) Noise-reduction method for noise-affected voice channels
US8930186B2 (en) Speech enhancement with minimum gating
KR101210313B1 (ko) 음성 향상을 위해 마이크로폰 사이의 레벨 차이를 활용하는시스템 및 방법
US9992572B2 (en) Dereverberation system for use in a signal processing apparatus
KR100860805B1 (ko) 음성 강화 시스템
RU2546717C2 (ru) Многоканальное акустическое эхоподавление
EP2238592B1 (en) Method for reducing noise in an input signal of a hearing device as well as a hearing device
JP4423300B2 (ja) 雑音抑圧装置
US8682006B1 (en) Noise suppression based on null coherence
EP2463856B1 (en) Method to reduce artifacts in algorithms with fast-varying gain
Schmidt et al. Signal processing for in-car communication systems
US9454956B2 (en) Sound processing device
JP2002541753A (ja) 固定フィルタを用いた時間領域スペクトラル減算による信号雑音の低減
US8543390B2 (en) Multi-channel periodic signal enhancement system
KR101182017B1 (ko) 휴대 단말기에서 복수의 마이크들로 입력된 신호들의잡음을 제거하는 방법 및 장치
JP2006243644A (ja) 雑音低減方法、装置、プログラム及び記録媒体
JP2002541529A (ja) 時間領域スペクトラル減算による信号雑音の低減
CN112437957A (zh) 用于全面收听的强加间隙插入
EP4428859A1 (en) System and method for mixing microphone inputs
Matheja et al. Dynamic signal combining for distributed microphone systems in car environments
Kaps Acoustic noise reduction using a multiple-input single-output kalman filter

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant