WO2014104815A1 - 바람 소음 제거를 통한 음원 위치 추적 장치 및 그 방법 - Google Patents

바람 소음 제거를 통한 음원 위치 추적 장치 및 그 방법 Download PDF

Info

Publication number
WO2014104815A1
WO2014104815A1 PCT/KR2013/012305 KR2013012305W WO2014104815A1 WO 2014104815 A1 WO2014104815 A1 WO 2014104815A1 KR 2013012305 W KR2013012305 W KR 2013012305W WO 2014104815 A1 WO2014104815 A1 WO 2014104815A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound source
source section
equation
input signal
wind noise
Prior art date
Application number
PCT/KR2013/012305
Other languages
English (en)
French (fr)
Inventor
최종석
쾅 뉴옌반
Original Assignee
한국과학기술연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술연구원 filed Critical 한국과학기술연구원
Priority to US14/758,056 priority Critical patent/US9549271B2/en
Priority to KR1020157017159A priority patent/KR101681188B1/ko
Publication of WO2014104815A1 publication Critical patent/WO2014104815A1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/188Capturing isolated or intermittent images triggered by the occurrence of a predetermined event, e.g. an object reaching a predetermined position
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/002Damping circuit arrangements for transducers, e.g. motional feedback circuits
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/07Mechanical or electrical reduction of wind noise generated by wind passing a microphone

Definitions

  • Embodiments relate to a sound source location tracking device and a method thereof, and more particularly to a sound source location tracking device and method in a wind noise environment.
  • Sound source location technology for intelligent CCTV cameras in outdoor environments detects important sound events such as human screams and car cobblestones. It aims to keep the surroundings safer by notifying the security department.
  • the outdoor environment is different from the general indoor environment and there are various random noises.
  • noises such as passing motorcycles, engine sounds of cars, and wind noises.
  • false alarms ie, misrecognition
  • Wind noise is difficult to find any regular pattern information compared to other noises (e.g. automobile or motorcycle noise), and it is analyzed because of the difficulty of randomly changing various factors such as wind size and direction. .
  • detecting a sound source section based on an average power value of the Fourier transformed input signal; Received by the first sound source section and microphone Detecting a second sound source section from which wind noise is removed based on a difference in power values for respective input signals; Detecting a position of a sound source based on a phase difference between the second sound source section and the input signal received by the plurality of microphones; Calculating a reliability of position detection of the sound source, wherein detecting the first sound source section further includes detecting the first sound source section only when the first sound source section is continuously connected.
  • a sound source location tracking method is provided through wind noise reduction.
  • the sound source location tracking method through the wind noise removing step of Fourier transform the input signal of the time domain received by the plurality of microphones; Detecting a first sound source section based on an average power value of the Fourier transformed input signal; Detecting a second sound source section from which wind noise is eliminated based on a difference between power values of respective input signals received by the first sound source section and the microphone; And detecting the position of the sound source based on the phase difference between the second sound source section and the input signal received by the plurality of microphones.
  • the sound source location tracking method by removing the wind noise includes the step of calculating the reliability of the position detection of the sound source, the step of detecting the first sound source section is continuous the first sound source section It may be characterized in that it further comprises the step of detecting as the first sound source section only if continued.
  • the sound source location tracking method by removing the wind noise is the agent
  • the detecting of the one sound source section may include determining an average power value of the input signal using Equation 1 below, and determining the one sound source section using Equation 2 below, wherein n is a frame index.
  • F rain is the minimum frequency of the input signal
  • f max is the maximum frequency of the input signal
  • Nf is characterized in that the number of frequency bins between the minimum frequency (f min ) to the maximum frequency (f max ). Equations 2 and 2 are represented in the following description.
  • the sound source location tracking method by removing the wind noise, the i rain is 300Hz
  • the f raax may be characterized in that the 3.4kHz.
  • the step of detecting the second sound source section to obtain the power difference value between the channel using the equation (4) of the specification, using the equation (5) of the specification Determine the presence of wind noise, where P represents the number of microphone pairs, and ⁇ - 2 is 5dB.
  • the sound source position tracking device through the wind noise removal, a plurality of microphones; A Fourier transform unit for Fourier transforming input signals in a time domain received by the plurality of microphones; A first sound source section detector for detecting a first sound source section based on the average power value of the Fourier transformed input signal; A second sound source section detector for detecting a second sound source section from which wind noise is removed based on a difference between power values of input signals received by the first sound source section and the microphone; And a sound source position detector for detecting the position of the sound source based on the phase difference between the two sound source sections and the input signals received by the plurality of microphones.
  • the sound source position tracking device by removing the wind noise includes a reliability calculation unit for calculating the reliability of the position detection of the sound source, the first sound source section detector, the first sound source section is continuous Only when the first sound source section can be characterized in that the detection.
  • the sound source position tracking device by removing the wind noise, the first sound source section detection unit, the average power value of the input signal is determined using Equation 1 below, the first sound source section is In Equation 1 and Equation 2, n is the frame index, i rain is the minimum frequency of the input signal, i max is the maximum frequency of the input signal, Nf is the minimum frequency (f min ) Is the number of frequency bins between the highest frequency (f raax ).
  • the sound source location tracking device by removing the wind noise, the f rain is 300Hz, the f max may be characterized in that 3.4kHz.
  • the sound source position tracking device by removing the wind noise, the second sound source section detection unit, to obtain the power difference value between the channel using Equation 3 below, using the following Equation 4 of the wind noise
  • P represents the number of microphone pairs (microphone pair)
  • TH- 2 may be characterized in that 5dB.
  • a plurality of microphones A Fourier transform unit for Fourier transforming the input signal in the time domain received by the plurality of microphones; A first sound source section detector for detecting a first sound source section based on the average power value of the Fourier transformed input signal; A second sound source section detector for detecting a second sound source section from which wind noise is removed based on a difference between the U sound source section and a power value for each input signal received by the microphone; Based on the phase difference between the second sound source section and the input signal received by the plurality of microphones A sound source position detector for detecting a position of the sound source; And a reliability calculator configured to calculate a reliability of position detection of the sound source, wherein the first sound source section detector detects the first sound source section only when the first sound source section continues continuously. Sound source location tracking device is provided through.
  • FIG. 1 is a flowchart of a sound source location tracking method according to an embodiment of the present invention.
  • Figure 2 is a spectrogram comparison of the input signal of the microphone according to an embodiment of the present invention.
  • FIG. 3 is a flowchart illustrating a sound source location tracking method according to an embodiment of the present invention.
  • 4 is a diagram illustrating wind noise sections and screams in a spectrogram comparison diagram of input signals of a microphone according to an exemplary embodiment of the present invention.
  • 5 is a log-power change graph of an input signal of a conventional microphone.
  • FIG. 6 is a graph showing a sound source section detection result for the input signal of a conventional microphone.
  • FIG. 7 is a log-power change graph for an input signal of a microphone according to an embodiment of the present invention.
  • FIG. 8 is a graph illustrating a result of detecting a wind noise section for an input signal of a microphone according to an exemplary embodiment of the present invention.
  • FIG. 9 is a graph showing a result of detecting a sound source section for the input signal of the microphone according to an embodiment of the present invention.
  • FIG. 10 is a graph illustrating a result of detecting a sound source section after reflecting an input signal of a microphone, a sound source section detection result, and reliability and clustering according to an embodiment of the present invention.
  • Embodiments described herein may have aspects that are wholly hardware, partly hardware and partly software, or wholly software. have.
  • "unit”, “module”, “device” or “system” and the like refer to a computer-related entity such as hardware, a combination of hardware and software, or software.
  • parts, modules, devices, or systems herein refer to running processes, processors, objects, executables, threads of execution, programs, and / or computers. may be, but is not limited to.
  • both an application running on a computer and a computer may correspond to a part, module, device or system of the present disclosure.
  • Embodiments have been described with reference to the flowchart presented in the drawings. For simplicity, the method is shown and described as a series of blocks, but the present invention is not limited to the order of the blocks, and some of the blocks are in a different order or simultaneously with other blocks than those shown and described herein. Various other branches, flow paths, and blocks may be implemented to achieve the same or similar results. In addition, not all illustrated blocks may be required for implementation of the method described herein. Furthermore, the method according to an embodiment of the present invention may be implemented in the form of a computer program for performing a series of processes, and the computer program may be recorded on a computer-readable recording medium.
  • FIG. 1 is a flowchart of a sound source location tracking method according to an embodiment of the present invention.
  • STFT short-term frequency transform
  • VAD Voice Activity Detection
  • the wind detection and remover (WDR) processor performs a wind detection and removal step of determining whether the current frame is wind noise using a multi-channel signal in the time domain. Because wind noise generally has a large energy value, most of them are detected in the sound source section, which causes a lot of misdirection detection. Therefore, because WDR processing is performed, frames corresponding to wind noise are excluded from the VAD detection result, so that sound source direction detection can be performed only on sound event frames. In addition, even for very short impulse sound sources (generally meaningless sounds in this case), this system estimates the estimated reliability of the input source and the duration of the sound source section detection (the frames that are continuously determined by the sound source section). By setting a reasonable reference value, clustering is performed only for sound source events that meet the cumulative condition, and the position (horizontal angle and altitude angle) for the corresponding sound source event is output.
  • WDR wind detection and remover
  • the position (horizontal angle, elevation angle) value of the sound source event generated is transmitted and controlled to the camera through the HTTP protocol of the IP camera.
  • VAD Volt Activity Detection
  • Equation 1 The power value in the frequency domain for the nth frame can be obtained as shown in Equation 1.
  • the wind noise has a characteristic that the strength reaching each microphone has a different characteristic.
  • the average power value of the input signal is calculated by using the average of the input power values of all channels as shown in Equation 1.
  • f min and f nax are the minimum frequency (300 Hz) and the maximum frequency (3.4 kHz).
  • represents the number of frequency bins between the minimum frequency (fmin) and the highest frequency (imax).
  • P noise (n) and ⁇ are the background noise power for the ⁇ -th frame and the sound source detection reference value (ie, 3 dB). That is, when the difference between the power value of the current frame and the background noise power value is greater than the reference value TH, it is determined that the sound source is present, whereas if the difference is small, the sound source does not exist.
  • Equation 3 the performance of sound source section detection is highly dependent on the prediction accuracy of background noise power.
  • adaptive noise estimation method using temporal change is used. That is, this is shown in Equation 3.
  • estimation factors al and a 2 are set to 0.95 and 0.99, respectively. This is merely an example.
  • Wind noise has a characteristic that the frequency distribution between channels (microphones) is much different from that of human voices or general noise. That is, as shown in the circle of the microphone 1 and 2 as shown in Figure 2 it can be seen that the energy distribution for each frequency of each channel at the same time is very different. Therefore, using this feature, it is possible to effectively solve the problem of vulnerable to wind noise response of the sound source section detection (VAD) part using only existing energy information.
  • VAD sound source section detection
  • Wind Detection and Remover is performed by defining cross-channel different power (XDP) as a measure of wind noise as shown in Equation 4.
  • XDP cross-channel different power
  • Equation 5 the magnitude of the reference value ( ⁇ 3 ⁇ 4) was set to 5 dB.
  • Equation 6 the results of Equation 2 and Equation 5 are combined as shown in Equation 6.
  • Equation 7 Rearranging Equation 6 can be solved as in Equation 7.
  • FIG. 4 a sound source section detection test was performed using real sound source data in which wind noise and scream sound exist simultaneously.
  • the conventional VAD method after selecting an arbitrary channel among the multi-channel input signals, calculating the log-power value (Fig. 4) using Equation 1, it can be confirmed that the sound source section is detected as shown in Fig. 5. have.
  • the wind noise section also has a high power value, and thus is mostly detected as a meaningful sound source section. I can confirm that there is.
  • the power difference value between the channels is shown in the graph as shown in FIG. 7. Therefore, when the existence of wind is determined using Equation 5, the presence of wind noise is shown in FIG. 8. It can be confirmed that is detected correctly. Therefore, when the result is combined with the sound source section determined by the existing VAD method using the equation (6), the wind noise section is accurately excluded as shown in FIG. 9, and other important event sounds (for example, the section of the human screams) are maintained. It could be confirmed.
  • Equation 8 a phase difference between channels of each frequency with respect to the input sound source signal may be calculated as shown in Equation 8.
  • Equation 10 ⁇ (f) ⁇ (ij) ⁇ (M) ⁇ (M) ⁇ (M) ⁇ (M)
  • Equation 11 is used to calculate the position and reliability score of the input source. That is, the positions (horizontal angle and altitude angle) of the corresponding input sound source are calculated from the index ( ⁇ , ⁇ ) and the maximum reliability s (n), which are the maximum values of Equation (10).
  • Equation 11 ⁇ ( ⁇ ), ⁇ ( ⁇ ), s ( «) ⁇ argmax C ( ⁇ , ⁇ , ⁇ )
  • the position of the sound source section (that is, viewed as an event) when the VAD detected frames are consecutively accumulated and a predetermined frame is accumulated
  • the value is finally calculated and output using the clustering method.
  • 10 shows the input signal (top) sound source section detection result (middle), direction detection result, and clustering result (bottom).
  • FIG. 9 (top) shows the spectrogram of the input signal of the microphone # 1
  • FIG. 9 (the middle) shows the result of detecting the final VAD section for the input signal.
  • the result shows the horizontal angle (azimuth) for each frame as * (blue) in FIG.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Quality & Reliability (AREA)

Abstract

바람 소음 제거를 통한 음원 위치 추적 장치 및 그 방법이 개시된다. 복수의 마이크로폰이 수신한 시간 영역의 입력 신호를 푸리에 변환하는 단계; 상기 푸리에 변환된 입력 신호의 평균 파워값에 기반하여 제1음원 구간을 검출하는 단계; 상기 제1음원 구간 및 마이크로폰으로 수신된 입력 신호별 파워값의 차이에 기반하여 바람 소음을 제거한 제2음원 구간을 검출하는 단계; 상기 제2음원 구간 및 복수의 마이크로폰이 수신한 입력 신호의 위상차이에 기반하여 음원의 위치를 검출하는 단계를 포함하는 바람 소음 제거를 통한 음원 위치 추적 방법이 개시된다.

Description

【명세서】
【발명의 명칭】
바람 소음 제거를 통한 음원 위치 추적 장치 및 그 방법
【기술분야】
실시예들은 음원 위치 추적 장치 및 그 방법에 관한 것이며 , 보다 구체적으 로 바람 소음이 있는 환경에서의 음원 위치 추적 장치 및 그 방법에 관한 것이다. 【배경기술】
실외환경 지능형 CCTV 카메라를 위한 음원위치추적 기술은 인간의 비명 소 리, 자동차의 층돌소리 등과 같은 중요한 사운드 이벤트를 감지하여 해당 음원의 발생 위치로 CCTV 카메라방향을 돌려 당시 발생 사건을 집중적으로 감시하여 관련 보안 부서에 알려주어 주변 상황을보다 안전하게 지켜주는데 목적을 두고 있다. 하지만, 실외 환경은 일반적인 실내환경과 달리 다양하고 랜덤한 소음이 존 재하고 있다. 대표적으로 오토바이 지나가는 소리, 자동차 엔진소리, 바람소리 등 의 소음 종류가 있으며, 일반적으로 이러한 소음의 영향으로 음원방향검지 시스템 에 허위 경보 (즉, 오인식)가 많이 발생하고 있다. 바람소음은 다름 소음 (예, 자동 차 또는 오토바이 소음)에 비해 어떤 일정한 규칙적인 패턴 정보도 찾기 힘들뿐더 러, 바람의 크기 및 방향성 등 다양한 요소에서 랜덤하게 변화하는 어려운 문제점 이 있기 때문으로 분석된다. 종래의 음원방향감지 시스템은 일반적인 조용한 실내 환경에서만 잘 작동하며, 소음이 존재하더라도 소음 레벨이 매우 작거나 안정적인 특성을 갖는 소음에 대해서만 좋은 성능 보이는 문제점이 있다. 즉, 실외 환경에서 항시 존재하는 바람 소음을 효과적으로 대웅하는 음원방향감지 기술이 매우 필요한 실정이다.
【발명의 상세한 설명】
【기술적 과제】
본 발명의 일 측면에 따르면, 바람 소음을 효과적으로 제거하여 음원의 위치 를 추적할 수 있다.
본 발명의 다른 측면에 따르면, 음원 위치 추적 기능을 개선한 보안 카메라 를 구현할 수 있다.
【기술적 해결방법】
본 발명의 일 측면에 의하면 복수의 마이크로폰이 수신한 시간 영역의 입력 신호를 푸리에 변환하는 단계; 상기 푸리에 변환된 입력 신호의 평균 파워값에 기 반하여 게 1음원 구간을 검출하는 단계; 상기 제 1음원 구간 및 마이크로폰으로 수신 된 입력 신호별 파워값의 차이에 기반하여 바람 소음을 제거한 제 2음원 구간을 검 출하는 단계; 상기 제 2음원 구간 및 복수의 마이크로폰이 수신한 입력 신호의 위상 차이에 기반하여 음원의 위치를 검출하는 단계; 상기 음원의 위치 검출의 신뢰도를 계산하는 단계를 포함하되, 상기 제 1음원 구간을 검출하는 단계는 상기 제 1음원 구 간이 연속적으로 이어지는 경우에만 게 1음원 구간으로 검출하는 단계를 더 포함하 는ᅳ 바람 소음 제거를 통한 음원 위치 추적 방법이 제공된다,
일 실시예에 있어서, 바람 소음 제거를 통한 음원 위치 추적 방법은 복수의 마이크로폰이 수신한 시간 영역의 입력 신호를 푸리에 변환하는 단계; 상기 푸리에 변환된 입력 신호의 평균 파워값에 기반하여 제 1음원 구간을 검출하는 단계; 상기 제 1음원 구간 및 마이크로폰으로 수신된 입력 신호별 파워값의 차이에 기반하여 바 람 소음을 제거한 제 2음원 구간올 검출하는 단계; 상기 제 2음원 구간 및 복수의 마 이크로폰이 수신한 입력 신호의 위상차이에 기반하여 음원의 위치를 검출하는 단계 를 포함할 수 있다.
일 실시예에 있어서, 바람 소음 제거를 통한 음원 위치 추적 방법은 상기 음 원의 위치 검출의 신뢰도를 계산하는 단계를 포함하되,상기 제 1음원 구간을 검출하 는 단계는 상기 제 1음원 구간이 연속적으로 이어지는 경우에만 제 1음원 구간으로 검출하는 단계를 더 포함하는 것을 특징으로 할 수 있다.
일 실시예에 있어서, 바람 소음 제거를 통한 음원 위치 추적 방법은 상기 제
1음원 구간을 검출하는 단계는, 상기 입력 신호의 평균 파워값은 아래 수학식 1을 이용하여 결정하고,상기 게 1 음원 구간은 아래 수학식 2를 이용하여 결정하되, 여 기서, n은 프레임 인덱스, frain은 입력된 신호의 최소 주파수, fmax은 입력된 신호의 최대 주파수, Nf 는 최소 주파수 (fmin)에서 최고 주파수 (fmax) 사이의 주파수 빈의 개 수인 것을 특징으로 할 수 있다. 상기 수학식 및 수학식 2는 아래 설명에서 표시된 다.
일 실시예에 있어서, 바람 소음 제거를 통한 음원 위치 추적 방법은, 상기 irain은 300Hz 이고, 상기 fraax는 3.4kHz인 것을 특징으로 할 수 있다.
일 실시예에 있어서, 바람 소음 제거를 통한 음원 위치 추적 방법은, 상기 제 2음원 구간을 검출하는 단계는, 명세서의 수학식 4를 이용하여 채널간 파워 차이 값올 구하고, 명세서의 수학식 5를 이용하여 바람소음의 존지를 판단하되, 여기서 P는 마이크로폰 쌍 (microphone pair)의 개수를 나타내고, ΊΉ— 2는 5dB인 것을 특징으 로 할 수 있다. 일 실시예에 있어서, 바람 소음 제거를 통한 음원 위치 추적 장치는, 복수의 마이크로폰; 상기 복수의 마이크로폰이 수신한 시간 영역의 입력 신호를 푸리에 변 환하는 푸리에 변환부; 상기 푸리에 변환된 입력 신호의 평균 파워값에 기반하여 제 1음원 구간을 검출하는 제 1음원 구간 검출부; 상기 제 1음원 구간 및 마이크로폰 으로 수신된 입력 신호별 파워값의 차이에 기반하여 바람 소음을 제거한 제 2음원 구간을 검출하는 제 2음원 구간 검출부; 및 상기 게 2음원 구간 및 복수의 마이크로 폰이 수신한 입력 신호의 위상차이에 기반하여 음원의 위치를 검출하는 음원 위치 검출부를 포함한다.
일 실시예에 있어서, 바람 소음 제거를 통한 음원 위치 추적 장치는, 상기 음원의 위치 검출의 신뢰도를 계산하는 신뢰도 계산부를 포함하되, 상기 제 1음원 구간 검출부는, 상기 제 1음원 구간이 연속적으로 이어지는 경우에만 제 1음원 구간 으로 검출하는 것을 특징으로 할 수 있다.
일 실시예에 있어서, 바람 소음 제거를 통한 음원 위치 추적 장치는, 상기 제 1음원 구간 검출부는, 상기 입력 신호의 평균 파워값은 아래 수학식 1을 이용하 여 결정하고, 상기 제 1 음원 구간은 아래 수학식 2를 이용하여 결정하되, 수학식 1 및 수학식 2에서, n은 프레임 인덱스, irain은 입력된 신호의 최소 주파수, imax은 입 력된 신호의 최대 주파수, Nf 는 최소 주파수 (fmin)에서 최고 주파수 (fraax) 사이의 주 파수 빈의 개수인 것을 특징으로 할 수 있다.
일 실시예에 있어서, 바람 소음 제거를 통한 음원 위치 추적 장치는, 상기 frain은 300Hz 이고, 상기 fmax는 3.4kHz인 것을 특징으로 할 수 있다.
일 실시예에 있어서, 바람 소음 제거를 통한 음원 위치 추적 장치는, 상기 제 2음원 구간 검출부는, 아래 수학식 3을 이용하여 채널간 파워 차이값을 구하고, 아래 수학식 4를 이용하여 바람소음의 존재를 판단하되, 명세서의 수학식 4 및 5에 서 P는 마이크로폰 쌍 (microphone pair)의 개수를 나타내고, TH— 2는 5dB인 것을 특 징으로 할 수 있다.
본 발명의 다른 측면에 의하면 복수의 마이크로폰; 상기 복수의 마이크로폰 이 수신한 시간 영역의 입력 신호를 푸리에 변환하는 푸리에 변환부; 상기 푸리에 변환된 입력 신호의 평균 파워값에 기반하여 제 1음원 구간을 검출하는 제 1음원 구 간 검출부; 상기 거 U음원 구간 및 마이크로폰으로 수신된 입력 신호별 파워값의 차 이에 기반하여 바람 소음을 제거한 제 2음원 구간을 검출하는 제 2음원 구간 검출부; 상기 제 2음원 구간 및 복수의 마이크로폰이 수신한 입력 신호의 위상차이에 기반하 여 음원의 위치를 검출하는 음원 위치 검출부; 상기 음원의 위치 검출의 신뢰도를 계산하는 신뢰도 계산부를 포함하되, 상기 제 1음원 구간 검출부는, 상기 제 1음원 구간이 연속적으로 이어지는 경우에만 제 1음원 구간으로 검출하는 것을 특징으로 하는, 바람 소음 제거를 통한 음원 위치 추적 장치가 제공된다.
【유리한 효과】
본 발명의 일 측면에 따르면, 바람 소음을 효과적으로 제거하여 음원의 위치 를 정확하게 파악할 수 있는 효과가 있다.
본 발명의 다른 측면에 따르면, 음원 위치 추적 기능을 개선한 보안 카메라 의 구현이 가능해지는 효과가 있다.
【도면의 간단한 설명】
도 1은 본 발명의 일 실시예에 따른 음원 위치 추적 방법의 일 흐름도이다. 도 2는 본 발명의 일 실시예에 따른 마이크로폰의 입력 신호의 스펙트로그램 비교도이다.
도 3은 본 발명의 일 실시예에 따른 음원 위치 추적 방법의 일 흐름도이다. 도 4는 본 발명의 일 실시예에 따른 마이크로폰의 입력 신호의 스펙트로그램 비교도에 바람 소음 구간과 비명소리를 나타낸 도면이다.
도 5는 종래의 마이크로폰의 입력 신호에 대한 로그 - 파워 변화 그래프이 다.
도 6는 종래의 마이크로폰의 입력 신호에 대한 음원 구간 검출 결과를 나타 낸 그래프이다.
도 7는 본 발명의 일 실시예에 따른 마이크로폰의 입력 신호에 대한 로그 ― 파워 변화 그래프이다.
도 8은 본 발명의 일 실시예에 따른 마이크로폰의 입력 신호에 대한 바람 소 음 구간 검출 결과를 나타낸 그래프이다.
도 9은 본 발명의 일 실시예에 따른 마이크로폰의 입력 신호에 대한 음원 구 간 검출 결과를 나타낸 그래프이다.
도 10은 본 발명의 일 실시예에 따른 마이크로폰의 입력 신호, 음원 구간 검 출 결과 및 신뢰도와 클러스팅을 반영한 후의 음원 구간 검출 결과를 나타낸 그래 프이다.
【발명의 실시를 위한 최선의 형태】
본 명세서에 기술된 실시예는 전적으로 하드웨어이거나, 부분적으로 하드웨 어이고 부분적으로 소프트웨어이거나, 또는 전적으로 소프트웨어인 측면을 가질 수 있다. 본 명세서에서 "부 (unit)", "모들 (module)", "장치" 또는 "시스템" 등은 하 드웨어, 하드웨어와 소프트웨어의 조합, 또는 소프트웨어 등 컴퓨터 관련 엔티티 (entity)를 지칭한다. 예를 들어, 본 명세서에서 부, 모들, 장치 또는 시스템 등은 실행중인 프로세스, 프로세서, 객체 (object), 실행 파일 (executable), 실행 스레드 (thread of execution), 프로그램 (program), 및 /또는 컴퓨터 (computer)일 수 있으 나 이에 제한되는 것은 아니다. 예를 들어, 컴퓨터에서 실행중인 애플리케이션 (application) 및 컴퓨터의 양쪽이 모두 본 명세서의 부, 모들, 장치 또는 시스템 등에 해당할 수 있다.
실시예들이 도면에 제시된 순서도를 참조로 하여 설명되었다. 간단히 설명하 기 위하여 상기 방법은 일련의 블록들로 도시되고 설명되었으나, 본 발명은 상기 블록들의 순서에 한정되지 않고, 몇몇 블록들은 다른 블록들과 본 명세서에서 도시 되고 기술된 것과 상이한 순서로 또는 동시에 일어날 수도 있으며, 동일한 또는 유 사한 결과를 달성하는 다양한 다른 분기, 흐름 경로, 및 블록의 순서들이 구현될 수 있다. 또한, 본 명세서에서 기술되는 방법의 구현을 위하여 도시된 모든 블록들 이 요구되지 않을 수도 있다. 나아가, 본 발명의 일 실시예에 따른 방법은 일련의 과정들을 수행하기 위한 컴퓨터 프로그램의 형태로 구현될 수도 있으며, 상기 컴퓨 터 프로그램은 컴퓨터로 판독 가능한 기록 매체에 기록될 수도 있다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실 시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명 을 실시할 수 있기에 층분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서 로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기 재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실 시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한 정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서 만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다. 도 1은 본 발명의 일 실시예에 따른 음원 위치 추적 방법의 일 흐름도이다. 즉, 마이크로폰 어레이를 이용하여 멀티 채널의 입력 신호 (input sound)를 받은 후 , 먼저 단구간 주파수변환 (STFT)을 수행하여 시간영역의 입력 신호를 주파수 영역 으로 변환시킨다. 그리고 주파수 영역에서의 일반적인 음원구간검출 (Voice Activity Detection (VAD))부를 통해 입력신호에서 음원구간을 검출한다. 음원구간 검출과 함께, WDR(Wind detection and remover) 처리부는 시간영역의 멀티 채널 신 호를 이용하여 현재 프레임이 바람 소음인지 여부를 판단하는 바람감지 및 제거단 계를 진행한다. 왜냐하면 일반적으로 바람소음은 큰 에너지 값을 가지므로 대부분 음원구간으로 검출되며, 이로 인해 오 방향검지를 많이 발생시키고 있기 때문이다. 따라서 WDR 처리를 수행하므로 VAD검출결과에서 바람 소음에 해당되는 프레 임들은 배제를 시키므로 sound 이벤트 프레임들에만 음원방향검지를 수행할 수 있 게 보장할 수 있게 된다. 뿐만 아니라, 매우 짧은 구간의 임펄스 (impulse) 특성의 음원 (일반적으로 이런 경우는 대부분 무의미한 소리)에 대해서도 본 시스템에서는 입력 음원의 추정 신뢰도와 음원구간검출의 지속 시간 (연속적으로 음원구간으로 관정되는 프레임 수)에 정당한 기준값을 두어 누적 (Accumulate) 조건에 해당되는 음원 이벤트에 대해서만 클러스팅 (Clustering)을 수행하여 해당 음원 이벤트에 대 한 위치 (수평각 및 및 고도각)를 출력하게 된다.
마지막 단계에서 발생 음원 이벤트의 위치 (수평각, 고도각)값을 IP카메라의 HTTP프로토콜올 통해 카메라에 전송 및 제어를 수행하게 된다.
1. 음성구간 검출 (Voice Activity Detection; VAD)
입력 소리 x(n,t)에 대해 푸리에 변환 (Fourier Transform)을 하면 X(n,f)과 같이 나타낼 수 있다. 여기서 n은 프레임 인덱스, t는 시간을 의미한다. n번째 프 레임에 대한 주파수 영역에서의 파워값은 수학식 1과 같이 구할 수 있다. 일반적으 로 바람 소음은 각 마이크로폰에 도달하는 세기는 서로 다른 특성을 갖고 있으므 로, 여기서는 입력 신호의 평균 파워값을 수학식 1과 같이 모든 채널의 입력 파워 값의 평균을 계산하여 사용한다.
Figure imgf000007_0001
여기서 fmin, fnax 는 최소 주파수 (300Hz )ᅳ최고 주파수 (3.4kHz )를 의미한 다, Νί 는 최소 주파수 (fmin)에서 최고 주파수 (imax) 사이의 주파수 빈의 개수를 나타낸다.
음원구간검출은 수학식 2를 이용하여 판별한다.
【수학식 2】
Figure imgf000008_0001
여기서 Pnoise(n), Ί 는 η번째 프레임에 대한 배경 잡음 파워, 음원 검출 기 준값 (즉, 3dB)을 의미한다. 즉, 현재 프레임의 파워값과 배경 소음 파워값의 차이 가 기준값 TH보다 크면 음원 존재 구간으로, 반면에 작으면 음원이 존재하지 않는 구간으로 판별하게 된다.
일반적으로 음원구간 검출의 성능은 배경 소음 파워의 예측 정확도에 많이 좌우된다. 본 연구에서는 시간적 변화를 고려하는 적웅 소음 예측 (adaptive noise estimation) 방법을 사용하였다. 즉, 이는 수학식 3과 같다.
【수학식 3】
p ᅳ Cai noise (n) + {l-ai)P(n) if VAD{n) = 0
e ' = \ 2P noise (n) + ( 1-α2)Ρ(π) otherwise
여기서 estimation factor al, a 2는 각각 0.95, 0.99로 설정하였다. 이는 예시에 불과하다.
2. 바람검출 및 제거 (Wind detection and remover; WDR)
바람소음은 사람의 목소리 또는 일반 기타 소음에 비해 채널 (마이크로폰)간 의 주파수 분포가 많이 다른 특성을 가지고 있다. 즉, 도 2와 같이 마이크로폰 1번 및 2번에서 동그라미에 표시된 부분과 같이 동일 시점에 각 채널의 주파수별 에너 지 분포가 많이 다른 것을 알 수 있다. 따라서 이러한 특징을 이용하면 기존 에너 지 정보만 이용한 음원구간검출 (VAD)부의 바람소음 대응에 취약 하는 문제점을 효 과적으로 해결할 수 있게 된다.
이를 위하여 본 연구에서는 수학식 4와 같이 채널간 파워 차이 (Cross- channel different power (XDP))를 바람 소음의 판별 측도로 정의하여 Wind Detection and Remover (WDR)을 수행한다. 즉, 높은 XDP값을 갖는 구간일수록 바람 소음의 가능성이 크므로 기존 VAD부에서 잘 못 판별된 바람소음 구간을 배제시키게 된다. 여기서 P는 마이크로폰 쌍 (microphone pair)의 개수를 의미하고, 나머지 변 수는 수학식 1과 동일하다.
【수학식 4】 ¬뼤 (X-(n,f)) - lOloglO (X-(n,f))
Figure imgf000009_0001
구체적인 바람 소음 판별 방법은 다음과 같다.
즉, 수학식 5를 이용하여 채널간 파워 차이 (XDP)값을 기준값 α¾)와 비교하 여, 기준값 보다 크면 바람소음이 존재, 반대로 작으면 존재하지 않는 것으로 판단 한다. 여기서 기준값 (Τ¾)의 크기는 5dB로 설정하였다.
【수학식 5]
wdr (n) = |1 if P(n) > TH2
\ otherwise
최종적으로 바람 소음 구간은 배제시키고, 오직 의미 있는 음원 구간만 검출 되기 위하여, 수학식 2와수학식 5의 결과를 수학식 6과 같이 결합하게 된다.
【수학식 6】
VAD(n) - vad(n)(l-wdr(n)
수학식 6을 다시 정리하면 수학식 7과 같이 풀이할 수 있다.
【수학식 7】 顺") 1 if P(n) ~ Pnoise (n)THl and AP(n) 〉™2
0 otherwise
3. 실제 데이터를 이용한 WDR의 성능 평가
본 명세서에서 제안하는 WDR의 성능을 확인하기 위하여, 도 4와 같이 바람소 음 및 비명소리가 동시 존재하는 실제 음원 데이터를 이용하여 음원 구간 검출 실 험을 실시하였다. 기존 VAD 방법일 경우, 다 채널 입력신호 중 임의의 한 채널을 선정하여 수학식 1을 이용하여 로그-파워값 (도 4)을 계산한 후, 음원구간을 도 5와 같이 검출하는 것을 확인 할 수 있다. 그 결과, 도 4에서 확인할 수 있듯이 바람 소음 구간도 높은 파워 값을 가지므로 대부분 의미 있는 음원 구간으로 오검출되고 있는 것을 확인 할 수 있다.
본 연구에서 제안하는 TOR 방법일 경우, 채널간 파워 차이값을 그래프로 나 타내보면 도 7과 같으며, 따라서 수학식 5를 이용하여 바람 존재여부를 판단할 경 우 도 8과 같이 바람 소음 존재 구간을 정확하게 검출되는 것을 확인할 수 있다. 따라서 이 결과를 기존 VAD방법의 의해 결정된 음원구간과 수학식 6의 방식으로 결 합하면 최종 도 9와 같이 바람 소음 구간은 정확하게 배제시키면서 기타 중요한 이 벤트 소리 (예: 사람의 비명소리 등 구간)는 유지되는 것을 확인할 수 있었다.
4. 음원위치추적 (Sound source localization)
먼저, 입력 음원 신호에 대한 각 주파수의 채널간 위상 차이 (phase difference)는 수학식 8과 같이 계산할 수 있다.
【수학식 8]
Figure imgf000010_0001
여기서 X 및 는 복수 X에 대한 complex-conjugate 및 진폭값을 의口 한다.
입력 음원신호의 위치 (즉, 수평각 /방위각)올 찾아내기 위하여, 수학식 (9)와 같이 사전에 작성된 지도 (map) (즉, y / Y ), 주파수 (f)ᅳ 수평각
(azimuth) 및 고도각 (elevat ion)에 대한 채널간 위상차이 값에 대한 지도)와의 각 도 거리를 계산하여 비교한다.
【수학식 9]
Figure imgf000010_0002
여기서 Μ은 지도, ij는 채널 인덱스, f는 주파수, Θ는 수평각, φ는 방위 각, n은 프레임 인덱스를 의미한다. 다음은 수학식 9에서 수평각과 고도각에 대한 입력 프레임과 :지도 (M)과의 위 상차이를 계산하기 위하여, 수학식 10과 같이 주파수 (f) 및 마이크 페어 (ij)에 대 해 각각 합을 계산한다.
【수학식 10】
Figure imgf000011_0001
마지막으로 수학식 11을 이용하여 입력 음원의 위치 및 신뢰도 (reliability score)를 계산한다. 즉, 수학식 (10)의 최고값이 되는 인덱스 (θ, φ )와 최대 신뢰 도 s(n)를 해당 입력 음원의 위치 (수평각 및 고도각)을 산출하게 된다.
【수학식 11】 θ(η) ,φ (η), s («) 二 argmaxC (Λ, θ ,φ)
θ,φ
5. 누적 및 클러스터링 (Accumulation and clustering)
본 발명은 보다 안정적으로 입력 음원 이벤트 단위로 위치 값을 계산하기 위 하여 , VAD 검출된 프레임이 연속적으로 이어져 일정 프레임이 누적 (Accumulation) 될 경우, 그 음원 구간 (즉, 이벤트로 봄)에 대한 위치 값을 클러스터링 (Culstering) 방법올 이용하여 최종 계산하여 출력하게 된다. 도 10은 입력 신호 ( 상단) 음원구간검출결과 (중단), 방향검지 결과 및 클러스터링 결과 (하단)를 보여주 고 있다. 좀 더 자세히 설명하명, 도 9(상단)은 마이크로폰 1번의 입력 신호에 대 한 스펙트로그램을 나타내고 있고 도 9 (중단)는 입력 신호에 대한 최종 VAD구간 검출 결과를 보여주고 있으며, 이에 대한 음원 위치 추적 결과는 도 9 (하단)에서 *(파란색)로 각 프레임에 대한 수평각 (azimuth)를 나타내고 있고, 최종 클러스터링 한후 본 이벤트 (비명소리)에 대한 음원위치 값은 42도 (빨간색)로 표시되고 있다. 이상에서 본 발명이 구체적인 구성요소 등과 같은 특정 사항들과 한정된 실 시예 및 도면에 의해 설명되었으나, 이는 본 발명의 보다 전반적인 이해를 돕기 위 해서 제공된 것일 뿐, 본 발명이 상기 실시예들에 한정돠는 것은 아니며, 본 발명 이 속하는 기술분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형을 꾀할 수 있다. 따라서, 본 발명의 사상은 상기 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐만 아니라 이 특허청구범위와 균등하게 또는 등가적 으로 변형된 모든 것들은 본 발명의 사상의 범주에 속한다고 할 것이다,
【산업상 이용가능성】
본 발명의 일 측면에 따르면, 바람 소음을 효과적으로 제거하여 음원의 위치 를 정확하게 파악할 수 있는 효과가 있다 .

Claims

【청구의 범위】
【청구항 11
복수의 마이크로폰이 수신한 시간 영역의 입력 신호를 푸리에 변환하는 단 계;
상기 푸리에 변환된 입력 신호의 평균 파워값에 기반하여 제 1음원 구간을 검 출하는 단계;
상기 제 1음원 구간 및 마이크로폰으로 수신된 입력 신호별 파워값의 차이에 기반하여 바람 소음을 제거한 제 2음원 구간을 검출하는 단계;
상기 제 2음원 구간 및 복수의 마이크로폰이 수신한 입력 신호의 위상차이에 기반하여 음원의 위치를 검출하는 단계를 포함하는 바람 소음 제거를 통한 음원 위 치 추적 방법 .
【청구항 2]
제 1항에 있어서,
상기 음원의 위치 검출의 신뢰도를 계산하는 단계를 포함하되,
상기 제 1음원 구간을 검출하는 단계는 상기 게 1음원 구간이 연속적으로 이어 지는 경우에만 제 1음원 구간으로 검출하는 단계를 더 포함하는 것을 특징으로 하는 바람 소음 제거를 통한 음원 위치 추적 방법.
【청구항 3】
계 1항에 있어서,
상기 제 1음원 구간을 검출하는 단계는,
상기 입력 신호의 평균 파워값은 아래 수학식 1을 이용하여 결정하고, 상기 제 1 음원 구간은 아래 수학식 2를 이용하여 결정하되,
[수학식 1]
Figure imgf000013_0001
[수학식 2]
1 if P(n) - P noise (n) > TH
vad (n)二
0 otherwise 여기서, n은 프레임 인덱스, f,„in은 입력된 신호의 최소 주파수, iraax은 입력 된 신호의 최대 주파수, Nf 는 최소 주파수 (f,„in)에서 최고 주파수 (fmax) 사이의 주파 수 빈의 개수인 것을 특징으로 하는 바람 소음 제거를 통한 음원 위치 추적 방법.
【청구항 4】
제 3항에 있어서,
상기 frain은 300Hz 이고, 상기 ^ 는 3.4kHz인 것을 특징으로 하는 바람 소음 제거를 통한 음원 위치 추적 방법.
【청구항 5】
제 3항에 있어서,
상기 제 2음원 구간을 검출하는 단계는,
아래 수학식 3을 이용하여 채널간 파워 차이값을 구하고,
아래 수학식 4를 이용하여 바람소음의 존재를 판단하되 ,
[수학식 3] 101 oglO ( χ] (Λ , /)) - 101 oglO ( χ) (n,f)) f AP(nTHz
Figure imgf000014_0001
otherwise
여기서 P는 마이크로폰 쌍 (microphone pair)의 개수를 나타내고, TH-2는 5dB 인 것을 특징으로 하는 바람 소음 제거를 통한 음원 위치 추적 방법.
【청구항 6】
복수의 마이크로폰;
상기 복수의 마이크로폰이 수신한 시간 영역의 입력 신호를 푸리에 변환하는 푸리에 변환부;
상기 푸리에 변환된 입력 신호의 평균 파워값에 기반하여 계 1음원 구간을 검 출하는 제 1음원 구간 검출부;
상기 제 1음원 구간 및 마이크로폰으로 수신된 입력 신호별 파워값의 차이에 기반하여 바람 소음올 제거한 제 2음원 구간을 검출하는 제 2음원 구간 검출부; 및 상기 제 2음원 구간 및 복수의 마이크로폰이 수신한 입력 신호의 위상차이에 기반하여 음원의 위치를 검출하는 음원 위치 검출부를 포함하는 바람 소음 제거를 통한 음원 위치 추적 장치.
【청구항 7】
제 6항에 있어서,
상기 음원의 위치 검출의 신뢰도를 계산하는 신뢰도 계산부를 포함하되, 상기 게 1음원 구간 검출부는, 상기 제 1음원 구간이 연속적으로 이어지는 경 우에만 제 1음원 구간으로 검출하는 것을 특징으로 하는 바람 소음 제거를 통한 음 원 위치 추적 장치.
【청구항 8】
제 6항에 있어서,
상기 제 1음원 구간 검출부는,
상기 입력 신호의 평균 파워값은 아래 수학식 1을 이용하여 결정하고, 상기 제 1음원 구간은 아래 수학식 2를 이용하여 결정하되,
[수학식 1]
Figure imgf000015_0001
[수학식 2] vad(n). if P(- - Pnoise(n) > THl
L U otherwise 여기서, ri은 프레임 인덱스, fmin은 입력된 신호의 최소 주파수, imax은 입력 된 신호의 최대 주파수, Nf 는 최소 주파수 (fmin)에서 최고 주파수 (fraax) 사이의 주파 수 빈의 개수인 것을 특징으로 하는 바람 소음 제거를 통한 음원 위치 추적 장치 .
【청구항 9】
제 8항에 있어서,
상기 fmin은 300Hz 이고 상기 fraax는 3.4kHz인 것을 특징으로 하는 바람 소음 제거를 통한 음원 위치 추적 장치.
【청구항 10】
제 8항에 있어서,
상기 제 2음원 구간 검출부는,
아래 수학식 3을 이용하여 채널간 파워 차이값을 구하고,
아래 수학식 4를 이용하여 바람소음의 존재를 판단하되 ,
[수학식 3]
Figure imgf000016_0001
[수학식 4]
Figure imgf000016_0002
여기서 P는 마이크로폰 쌍 (microphone pair)의 개수를 나타내고, ΊΉ-2는 5dB 인 것을 특징으로 하는 바람 소음 제거를 통한 음원 위치 추적 장치.
PCT/KR2013/012305 2012-12-28 2013-12-27 바람 소음 제거를 통한 음원 위치 추적 장치 및 그 방법 WO2014104815A1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US14/758,056 US9549271B2 (en) 2012-12-28 2013-12-27 Device and method for tracking sound source location by removing wind noise
KR1020157017159A KR101681188B1 (ko) 2012-12-28 2013-12-27 바람 소음 제거를 통한 음원 위치 추적 장치 및 그 방법

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20120155967 2012-12-28
KR10-2012-0155967 2012-12-28

Publications (1)

Publication Number Publication Date
WO2014104815A1 true WO2014104815A1 (ko) 2014-07-03

Family

ID=51021754

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2013/012305 WO2014104815A1 (ko) 2012-12-28 2013-12-27 바람 소음 제거를 통한 음원 위치 추적 장치 및 그 방법

Country Status (3)

Country Link
US (1) US9549271B2 (ko)
KR (1) KR101681188B1 (ko)
WO (1) WO2014104815A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20170034405A (ko) * 2014-07-21 2017-03-28 시러스 로직 인터내셔널 세미컨덕터 리미티드 바람 잡음 검출을 위한 방법 및 장치
US10516941B2 (en) 2014-06-04 2019-12-24 Cirrus Logic, Inc. Reducing instantaneous wind noise

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110603587A (zh) 2017-05-08 2019-12-20 索尼公司 信息处理设备
US11209831B2 (en) * 2019-05-03 2021-12-28 Ford Global Technologies, Llc Object sound detection

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100883712B1 (ko) * 2006-08-09 2009-02-12 후지쯔 가부시끼가이샤 음원 방향 추정 방법, 및 음원 방향 추정 장치
US20110004470A1 (en) * 2009-07-02 2011-01-06 Mr. Alon Konchitsky Method for Wind Noise Reduction
US20110123044A1 (en) * 2003-02-21 2011-05-26 Qnx Software Systems Co. Method and Apparatus for Suppressing Wind Noise
US20120148067A1 (en) * 2008-12-05 2012-06-14 Audioasics A/S Wind noise detection method and system
US20120191447A1 (en) * 2011-01-24 2012-07-26 Continental Automotive Systems, Inc. Method and apparatus for masking wind noise

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7274794B1 (en) * 2001-08-10 2007-09-25 Sonic Innovations, Inc. Sound processing system including forward filter that exhibits arbitrary directivity and gradient response in single wave sound environment
US7895036B2 (en) * 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise
US8831936B2 (en) * 2008-05-29 2014-09-09 Qualcomm Incorporated Systems, methods, apparatus, and computer program products for speech signal processing using spectral contrast enhancement
US8724829B2 (en) * 2008-10-24 2014-05-13 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for coherence detection
US9330675B2 (en) * 2010-11-12 2016-05-03 Broadcom Corporation Method and apparatus for wind noise detection and suppression using multiple microphones
CN103348686B (zh) * 2011-02-10 2016-04-13 杜比实验室特许公司 用于风检测和抑制的系统和方法
EP2780906B1 (en) * 2011-12-22 2016-09-14 Cirrus Logic International Semiconductor Limited Method and apparatus for wind noise detection

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110123044A1 (en) * 2003-02-21 2011-05-26 Qnx Software Systems Co. Method and Apparatus for Suppressing Wind Noise
KR100883712B1 (ko) * 2006-08-09 2009-02-12 후지쯔 가부시끼가이샤 음원 방향 추정 방법, 및 음원 방향 추정 장치
US20120148067A1 (en) * 2008-12-05 2012-06-14 Audioasics A/S Wind noise detection method and system
US20110004470A1 (en) * 2009-07-02 2011-01-06 Mr. Alon Konchitsky Method for Wind Noise Reduction
US20120191447A1 (en) * 2011-01-24 2012-07-26 Continental Automotive Systems, Inc. Method and apparatus for masking wind noise

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10516941B2 (en) 2014-06-04 2019-12-24 Cirrus Logic, Inc. Reducing instantaneous wind noise
KR20170034405A (ko) * 2014-07-21 2017-03-28 시러스 로직 인터내셔널 세미컨덕터 리미티드 바람 잡음 검출을 위한 방법 및 장치
EP3172906A4 (en) * 2014-07-21 2018-01-10 Cirrus Logic International Semiconductor Limited Method and apparatus for wind noise detection
KR102313894B1 (ko) * 2014-07-21 2021-10-18 시러스 로직 인터내셔널 세미컨덕터 리미티드 바람 잡음 검출을 위한 방법 및 장치

Also Published As

Publication number Publication date
US20150358750A1 (en) 2015-12-10
KR101681188B1 (ko) 2016-12-02
KR20150100704A (ko) 2015-09-02
US9549271B2 (en) 2017-01-17

Similar Documents

Publication Publication Date Title
Foggia et al. Audio surveillance of roads: A system for detecting anomalous sounds
JP5862679B2 (ja) 音源検出装置
JP4545233B2 (ja) 音判定装置、音判定方法、及び、音判定プログラム
EP3203380B1 (en) Multi-mode auxiliary data encoding in audio
JP2020509703A (ja) 対象音を検出するためのシステムおよび方法
KR101759143B1 (ko) 음향 추적 정보 제공 방법, 차량용 음향 추적 장치, 및 이를 포함하는 차량
EP2637167A1 (en) Endpoint detection apparatus for sound source and method thereof
WO2014104815A1 (ko) 바람 소음 제거를 통한 음원 위치 추적 장치 및 그 방법
Lim et al. Robust sound event classification using LBP-HOG based bag-of-audio-words feature representation.
WO2014102938A1 (ja) 音検知装置及び音検知方法
JPWO2009044509A1 (ja) 音源方向検知装置
US20140350923A1 (en) Method and device for detecting noise bursts in speech signals
Andersson et al. Fusion of acoustic and optical sensor data for automatic fight detection in urban environments
JP2003195882A (ja) 信号処理システムおよび方法
CN110673096A (zh) 语音定位方法和装置、计算机可读存储介质、电子设备
US20190281386A1 (en) Apparatus and a method for unwrapping phase differences
Hilal et al. A distributed sensor management for large-scale IoT indoor acoustic surveillance
Xia et al. Csafe: An intelligent audio wearable platform for improving construction worker safety in urban environments
CN108965789B (zh) 一种无人机监测方法及音视频联动装置
KR20120130371A (ko) Gmm을 이용한 응급 단어 인식 방법
CN108063890A (zh) 一种监控设备控制方法及装置
US20070038448A1 (en) Objection detection by robot using sound localization and sound based object classification bayesian network
Qi et al. A low-cost driver and passenger activity detection system based on deep learning and multiple sensor fusion
CN110890104B (zh) 语音端点检测方法及系统
Salvati et al. A real-time system for multiple acoustic sources localization based on ISP comparison

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13868270

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 20157017159

Country of ref document: KR

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 14758056

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13868270

Country of ref document: EP

Kind code of ref document: A1