WO2016056683A1 - 전자 장치 및 이의 잔향 제거 방법 - Google Patents

전자 장치 및 이의 잔향 제거 방법 Download PDF

Info

Publication number
WO2016056683A1
WO2016056683A1 PCT/KR2014/009405 KR2014009405W WO2016056683A1 WO 2016056683 A1 WO2016056683 A1 WO 2016056683A1 KR 2014009405 W KR2014009405 W KR 2014009405W WO 2016056683 A1 WO2016056683 A1 WO 2016056683A1
Authority
WO
WIPO (PCT)
Prior art keywords
reverberation
user
component
voice
initial
Prior art date
Application number
PCT/KR2014/009405
Other languages
English (en)
French (fr)
Inventor
간낫셰런
에이.피. 하베츠에마누엘
쉬바르츠오퍼
조남국
Original Assignee
삼성전자 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자 주식회사 filed Critical 삼성전자 주식회사
Priority to KR1020177008048A priority Critical patent/KR20170063618A/ko
Priority to PCT/KR2014/009405 priority patent/WO2016056683A1/ko
Priority to US15/517,855 priority patent/US9997170B2/en
Publication of WO2016056683A1 publication Critical patent/WO2016056683A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/60Substation equipment, e.g. for use by subscribers including speech amplifiers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/02Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2430/00Signal processing covered by H04R, not provided for in its groups
    • H04R2430/20Processing of the output signals of the acoustic transducers of an array for obtaining a desired directivity characteristic
    • H04R2430/25Array processing for suppression of unwanted side-lobes in directivity characteristics, e.g. a blocking matrix

Definitions

  • the present invention relates to an electronic device and a method for removing reverberation thereof, and more particularly, to an electronic device and a method for removing reverberation thereof that can obtain an initial component by removing a reverberation component from a user voice obtained from a plurality of microphones.
  • ASR automatic speech recognition
  • a technique of removing the reverberation component using one microphone is provided, but a technique of removing the reverberation component using one microphone is excellent in certain conditions.
  • a technique of removing the reverberation component using one microphone does not effectively remove the reverberation component.
  • the present invention has been made to solve the above-described problem, and an object of the present invention is to provide an electronic device capable of removing reverberation components from a user's voice obtained using a plurality of microphones, and a method for removing reverberation thereof.
  • An electronic device for achieving the above object, a plurality of microphone unit for receiving a user's voice; A reverberation remover configured to remove reverberation components of the user voice received from the plurality of microphone units to obtain initial components of the user voice; Reverberation information obtaining unit obtaining intensity information on the reverberation component of the user's voice; And a post-processing unit which further removes the reverberation component from the initial component obtained from the reverberation removing unit based on the intensity information on the reverberation component.
  • the reverberation remover may acquire an initial component of the user voice by removing a reverberation component of the user voice using a minimum variance distortionless response (MVDR) beamformer.
  • MVDR minimum variance distortionless response
  • the MVDR beamformer may be implemented as a generalized sidelobe canceller.
  • the general purpose side lobe remover may include: a fixed beamformer for extracting user voices of initial components among user voices received from the plurality of microphone units; A blocking matrix to block initial components of user voices received from the plurality of microphones; And an adaptive noise canceller for adaptively removing reverberation components from the user voice of the initial component using the user voice from which the genital initial component has been removed.
  • the fixed beamformer may be a delay beam (DS) beamformer.
  • DS delay beam
  • an initial component measuring unit measuring an initial component from the plurality of microphone units, wherein the blocking matrix is a user received from the plurality of microphone units using the initial component output from the initial component measuring unit. Block initial components of the negative.
  • the reverberation canceller may include: a fixed beamformer configured to extract a user voice of an initial component among user voices received from the plurality of microphone units; And a block matrix based on a blind source separation (BSS) that blocks initial components of user voices received from the plurality of microphones.
  • BSS blind source separation
  • the post processor may remove the reverberation component of the user voice by filtering the user voice from which the initial component output from the BSS-based blocking matrix is removed from the user voice of the initial component output from the fixed beamformer. .
  • a method for removing reverberation of an electronic device comprising: receiving a user's voice through a plurality of microphones; Obtaining an initial component of the user's voice by removing a reverberation component of the user's voice received from the plurality of microphones; Obtaining intensity information on the reverberation component of the user voice; And a post-processing step of further removing the reverberation component from the obtained initial component based on the intensity information on the reverberation component.
  • the acquiring of an initial component of the user voice may be performed by removing a reverberation component of the user voice by using a minimum variance distortionless response (MVDR) beamformer.
  • MVDR minimum variance distortionless response
  • the MVDR beamformer may be implemented as a generalized sidelobe canceller.
  • the acquiring of an initial component of the user voice may include extracting a user voice of the initial component among the user voices received from the plurality of microphones using a fixed beamformer; Blocking an initial component of user voices received from the plurality of microphones by using a blocking matrix; And adaptively removing the reverberation component from the user voice of the initial component by using the user voice from which the initial component of the penis has been removed by using an adaptive noise canceller.
  • the fixed beamformer may be a delay beam (DS) beamformer.
  • DS delay beam
  • the method may further include measuring initial components from the plurality of microphone units, wherein the blocking matrix may block initial components of user voices received from the plurality of microphone units using the initial components. Can be.
  • the acquiring of an initial component of the user voice may include extracting a user voice of the initial component from among the user voices received from the plurality of microphone units using a fixed beamformer; And blocking an initial component of user voices received from the plurality of microphones using a blind source separation (BSS) based blocking matrix.
  • BSS blind source separation
  • the post-processing step may remove the reverberation component of the user voice by filtering the user voice from which the initial component output from the BSS-based blocking matrix is removed from the user voice of the initial component output from the fixed beamformer.
  • various embodiments of the present invention enable the electronic device to improve the voice recognition rate in an environment with high noise and reverberation.
  • FIG. 1 is a block diagram illustrating a configuration of an electronic device for removing a reverberation component according to an embodiment of the present disclosure
  • FIG. 2 is a block diagram illustrating in detail a configuration of an electronic device for removing a reverberation component according to an embodiment of the present disclosure
  • FIG. 3 is a block diagram illustrating in detail a configuration of an electronic device for removing a reverberation component according to another embodiment of the present disclosure
  • FIG. 4 is a flowchart illustrating a method of removing reverberation of an electronic device according to an embodiment of the present disclosure.
  • first and second may be used to describe various components, but the components should not be limited by the terms. The terms are only used to distinguish one component from another.
  • the module or unit performs at least one function or operation, and may be implemented by hardware or software, or a combination of hardware and software.
  • the plurality of modules or the plurality of units may be integrated into at least one module except for the modules or units that need to be implemented with specific hardware, and are implemented as at least one processor (not shown). Can be.
  • the electronic device 100 includes a plurality of microphone units 110, reverberation removing unit 120, reverberation information obtaining unit 130, and post-processing unit 140.
  • the electronic device 100 may be a device including a function of recognizing a user voice, such as a smart phone, a smart TV, a tablet PC, a notebook PC, a desktop PC, and the like.
  • the plurality of microphones 110 receive a user's voice.
  • the plurality of micro parts 110 may be arranged in a single row.
  • the reverberation remover 120 removes reverberation components of the user voices received from the plurality of microphones 110 to obtain initial components of the user voices.
  • the reverberation remover 120 may obtain an initial component of the user voice by removing the reverberation component of the user voice using a beamforming technique.
  • beamforming is an audio processing technique for improving directivity by removing energy received from other directions while maintaining user voice received from a target direction.
  • beamformers are generally used to remove noise and interference.
  • the beamformer can reduce the level of the reverberant component incident in the other direction, thus providing a direct-to-reverberant ratio (DRR).
  • DRR direct-to-reverberant ratio
  • the reverberation remover 120 may remove the reverberation component of the user's voice by using the MVDR beamformer.
  • MVDR beamformers are isotropic and allow the highest directivity in the diffused sound field.
  • the MVDR beamformer may be implemented with a Generalized Sidelobe Canceller (GSC). A method of removing the reverberation component of the user voice by using the general purpose side lobe remover will be described with reference to FIG. 2.
  • the reverberation component of the user's voice may be removed using the MVDR beamformer, but this is only an example, and the reverberation component of the user's voice may be removed using another type of beamformer.
  • the reverberation remover 120 may remove the reverberation component of the user voice by using a blind source separation (BSS) based blocking matrix.
  • BSS blind source separation
  • the reverberation information obtaining unit 130 obtains intensity information on the reverberation component of the user voice input from the plurality of microphone units 110.
  • the reverberation information obtaining unit 130 may obtain a power spectral density (PSD) for the reverberation component of the user's voice.
  • PSD power spectral density
  • the post processor 140 may additionally remove the reverberation component from the initial component obtained from the reverberation remover 120 based on the intensity information on the reverberation component obtained from the reverberation information obtaining unit 130.
  • the electronic device 200 includes a plurality of microphones 210, a GSC 220, an initial component measurer 230, a reverberation information acquirer 240, and a post processor 250. Include.
  • the plurality of microphones 210 receive a user voice.
  • the plurality of microphones 210 may be arranged in one row.
  • each of the microphone units 210 may remove a part of the reverberation component using a single channel dereverberation algorithm.
  • the GSC unit 220 may obtain an initial component of the user's voice by removing the reverberation component of the user's voice received from the plurality of microphones 210.
  • the GSC unit 220 includes a fixed beamformer 221, a blocking matrix 223, an adaptive noise canceller 225, and an adder 227, as shown in FIG. 2.
  • the fixed beamformer 221 extracts user voices of initial components among user voices received from the plurality of microphones 210.
  • the fixed beamformer 221 may be implemented with a delay and sum (DS) beamformer to reduce the level of the reverberation component.
  • DS delay and sum
  • the fixed beamformer 221 receives signals of different phases through the plurality of microphones 210 to compensate only phases of the target signal, and then adds signals of each channel to reduce the reverberation signal of the user. Voice can be extracted. In this case, since the fixed beamformer 221 compensates only the phase of the initial component of the user voice using N microphones, the size of the reverberation signal is reduced to 1 / N.
  • the blocking matrix 223 removes initial components of user voices received from the plurality of microphones 210.
  • the blocking matrix 223 may remove initial components of user voices received from the plurality of microphone units by using the initial components measured by the initial component measurer 230.
  • the reverberation component of the user voice may be removed from all the microphones 210.
  • the initial component measurer 230 measures an initial component of the user voice signal from which a part of the reverberation component is removed from the plurality of microphones 210.
  • the initial component of the user's voice is used to measure the relative transfer function (RTF) associated with the initial component of the user's voice by a least-squares procedure.
  • the blocking matrix 223 may remove the initial component from the user voice and generate a reference signal for the reverberation component by using an RTF associated with the initial component of the user voice.
  • the adaptive noise canceller 225 adaptively removes the reverberation component of the user voice of the initial component by using the user voice from which the initial component has been removed. Specifically, the adaptive noise canceller 225 uses the reference signal for the reverberation component that is the output of the blocking matrix 223 to add the residual reverberation component of the user voice to minimize the reverberation component at the output of the fixed beamformer 221. It can be calculated adaptively.
  • the reverberation component may be removed from the initial component of the user's voice output from the fixed beamformer 221 by the adder 227.
  • the adaptive noise canceller 225 has a closed-form multichannel Wiener filter because the reverberation component is non-stationary and the voice signal changes with time. ) Can be implemented.
  • the adaptive noise canceller 225 may adaptively calculate the reverberation component of the user's voice using the intensity information of the reverberation component obtained from the reverberation information obtaining unit 240.
  • the reverberation information obtaining unit 240 obtains intensity information on the reverberation component among the user voices obtained from the plurality of microphone units 210.
  • the reverberation information acquisition unit 240 may acquire a power spectral density (PSD) for the reverberation component of the user's voice.
  • PSD power spectral density
  • the post processor 250 further removes the reverberation component from the user voice of the initial component from which the reverberation component is removed from the GSC unit 220 using the intensity information on the reverberation component obtained from the reverberation information obtaining unit 240.
  • the post-processing unit 250 uses the coherent matrix of the reverberation and noise to form the GSC unit.
  • the residual reverberation component of the initial component output from 220 may be calculated and the residual reverberation component may be further removed by using a single-channel postfilter.
  • the post processor 250 may remove the reverberation component of the room impulse response based on the intensity information on the reverberation component obtained from the reverberation information acquisition unit 240.
  • the post-processing unit 250 may output an initial component of the user's voice from which the residual reverberation component has been removed to the speech recognition unit (not shown).
  • the electronic device 200 may improve the success rate of the voice recognition.
  • FIG. 3 is a block diagram illustrating a detailed configuration of an electronic device for removing reverberation component using blind source separation (BSS) technology according to another embodiment of the present invention.
  • BSS blind source separation
  • the electronic device 300 includes a plurality of microphones 310, a BSS-based reverberation remover 320, an initial component measurer 330, a reverberation information acquirer 340, and a post processor. And 350.
  • the plurality of microphone units 310 the initial component measuring unit 330, the reverberation information obtaining unit 340, and the post-processing unit 350, the plurality of microphone units 310 and the initial component measuring unit ( The description overlapping with the reverberation information obtaining unit 340 and the post processing unit 350 will be omitted.
  • the BSS-based reverberation canceller 320 includes a fixed beamformer 321 and a BSS-based blocking matrix 323.
  • the fixed beamformer 321 extracts user voices of initial components among user voices received from the plurality of microphone units 310, like the fixed beamformer 221 described with reference to FIG. 2.
  • the fixed beamformer 321 may be implemented as a delay and sum (DS) beamformer to reduce the level of the reverberation component.
  • the BSS-based blocking matrix 323 separates the initial component of the user voice and the reverberation script based on the information on the initial component of the user voice obtained from the initial component acquirer 330, and processes the separated reverberation component into a post-processing unit. Output to 250.
  • the BSS-based blocking matrix 323 may extract the reverberation component assuming that the reverberation component is located in a null in the initial component, conceptually.
  • the BSS-based blocking matrix 323 may design a cost function that includes two constraints to separate the speech signal from the mixed signal and remove the initial component.
  • the two constraints include 1) decorrelation of the BSS algorithm output and 2) reverberation constraint.
  • the post-processing unit 350 may perform the BSS-based blocking matrix 323 on the initial component of the user voice output from the fixed beamformer 321 based on the intensity information of the reverberation component obtained from the reverberation information obtaining unit 340.
  • the output reverberation component can be removed.
  • the electronic device 200 may improve the success rate of the voice recognition.
  • FIG. 4 is a flowchart illustrating a method of removing reverberation of an electronic device according to an embodiment of the present disclosure.
  • the electronic device 100 receives a user's voice through a plurality of microphones (S410).
  • the electronic device 100 obtains an initial component of the user's voice by removing the reverberation component of the user's voice received from the plurality of microphones.
  • the electronic device 100 may remove the reverberation component using GSC, or as described with reference to FIG. 3, by using the BSS technique.
  • the electronic device 100 obtains intensity information on the reverberation component of the user's voice.
  • the electronic device 100 may obtain information about the PSD of the reverberation component.
  • the electronic device 100 may further remove the reverberation component from the initial component obtained based on the intensity information on the reverberation component.
  • the electronic device 100 may acquire a more accurate initial component of the user's voice, thereby providing a high performance voice recognition function.
  • connection or connection members of the lines between the components shown in the drawings by way of example shows a functional connection and / or physical or circuit connections, in the actual device replaceable or additional various functional connections, physical It may be represented as a connection, or circuit connections.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Otolaryngology (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Quality & Reliability (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

전자 장치 및 이의 잔향 제거 방법이 제공된다. 본 전자 장치의 잔향 제거 방법은 사용자의 음성을 입력받는 복수의 마이크부, 상기 복수의 마이크부로부터 수신된 사용자 음성의 잔향 성분을 제거하여 사용자 음성의 초기 성분을 획득하는 잔향 제거부, 사용자 음성의 잔향 성분에 대한 세기 정보를 획득하는 잔향 정보 획득부 및 잔향 성분에 대한 세기 정보를 바탕으로 잔향 제거부로부터 획득된 초기 성분에 잔향 성분을 추가로 제거하는 후처리부를 포함한다.

Description

전자 장치 및 이의 잔향 제거 방법
본 발명은 전자 장치 및 이의 잔향 제거 방법에 관한 것으로, 더욱 상세하게는 복수의 마이크로부터 획득된 사용자 음성으로부터 잔향 성분을 제거하여 초기 성분을 획득할 수 있는 전자 장치 및 이의 잔향 제거 방법에 관한 것이다.
근래의 많은 전자 장치는 사용자 음성을 획득하여 원거리에서 통화를 수행할 수 있는 원거리 토킹 모드(Distant-talking mode)를 제공하고 있다. 특히, 특정 공간 내에서 원거리 토킹 모드를 이용하여 사용자 음성을 획득할 경우, 사용자 음성 및 다양한 노이즈가 공간의 벽면에 의해 반사되어 생성되는 잔향 성분으로 인해 사용자 음성을 원활히 획득할 수 없게 된다. 특히, 반사된 신호의 음질은 잔향 시간이 증가됨에 따라 급속도록 악화될 수 있다. 또한, 잔향 성분이 자동 음성 인식(automatic speech recognition, ASR) 시스템의 입력으로 이용되는 경우, 사용자 음성의 인식 성공률이 급격히 나빠지게 된다.
이러한 문제점을 극복하기 위하여, 근래의 전자 장치는 사용자 음성 중 잔향 성분을 제거하여 사용자 음성의 초기 성분을 획득하기 위한 알고리즘을 이용하고 있다. 특히, 하나의 마이크를 이용하여 잔향 성분을 제거하는 기술이 제공되나, 하나의 마이크를 이용하여 잔향 성분을 제거하는 기술은 특정 조건에서 뛰어난 성능을 나타내게 된다. 그러나, 잔향 시간이 길거나 스피커와 마이크 사이의 거리가 먼 경우, 하나의 마이크를 이용하여 잔향 성분을 제거하는 기술은 잔향 성분을 효과적으로 제거하지 못하는 문제점이 발생한다.
본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로, 본 발명의 목적은 복수의 마이크를 이용하여 획득된 사용자 음성으로부터 잔향 성분을 제거할 수 있는 전자 장치 및 이의 잔향 제거 방법을 제공함에 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 전자 장치에 있어서, 사용자의 음성을 입력받는 복수의 마이크부; 상기 복수의 마이크부로부터 수신된 사용자 음성의 잔향 성분을 제거하여 사용자 음성의 초기 성분을 획득하는 잔향 제거부; 상기 사용자 음성의 잔향 성분에 대한 세기 정보를 획득하는 잔향 정보 획득부; 및 상기 잔향 성분에 대한 세기 정보를 바탕으로 상기 잔향 제거부로부터 획득된 초기 성분에 잔향 성분을 추가로 제거하는 후처리부;를 포함한다.
그리고, 상기 잔향 제거부는, MVDR(Minimum variance Distortionless Response) 빔포머(Beamformer)를 이용하여 상기 사용자 음성의 잔향 성분을 제거하여 사용자 음성의 초기 성분을 획득할 수 있다.
또한, 상기 MVDR 빔포머는, 범용 사이드로브 제거기(Generalized Sidelobe Canceller)로 구현될 수 있다.
그리고, 상기 범용 사이드로브 제거기는, 상기 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분의 사용자 음성을 추출하는 고정형 빔포머(fixed beamformer); 상기 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분을 제거(block)하는 차단 매트릭스(blocking matrix); 및 성기 초기 성분이 제거된 사용자 음성을 이용하여 초기 성분의 사용자 음성 중 잔향 성분을 적응적으로 제거하는 적응적 노이즈 제거기(adaptive noise canceller);를 포함할 수 있다.
또한, 상기 고정형 빔포머는, DS(Delay and Sum) 빔포머일 수 있다.
그리고, 상기 복수의 마이크부로부터 초기 성분을 측정하는 초기 성분 측정부;를 더 포함하고, 상기 차단 매트릭스는, 상기 초기 성분 측정부로부터 출력되는 초기 성분을 이용하여 상기 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분을 제거(block)할 수 있다.
또한, 상기 잔향 제거부는, 상기 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분의 사용자 음성을 추출하는 고정형 빔포머(fixed beamformer); 및 상기 복수의 마이크로부터 수신된 사용자 음성 중 초기 성분을 제거(block)하는 BSS(Blind Source Separation) 기반의 차단 매트릭스;를 포함할 수 있다.
그리고, 상기 후처리부는, 상기 고정형 빔포머로부터 출력되는 초기 성분의 사용자 음성에 상기 BSS 기반의 차단 매트릭스로부터 출력된 초기 성분이 제거된 사용자 음성을 필터링하여 상기 사용자 음성의 잔향 성분을 제거할 수 있다.
한편, 상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른, 전자 장치의 잔향 제거 방법은, 복수의 마이크를 통해 사용자의 음성을 입력받는 단계; 상기 복수의 마이크로부터 수신된 사용자 음성의 잔향 성분을 제거하여 사용자 음성의 초기 성분을 획득하는 단계; 상기 사용자 음성의 잔향 성분에 대한 세기 정보를 획득하는 단계; 및 상기 잔향 성분에 대한 세기 정보를 바탕으로 상기 획득된 초기 성분에 잔향 성분을 추가로 제거하는 후처리 단계;를 포함한다.
그리고, 상기 사용자 음성의 초기 성분을 획득하는 단계는, MVDR(Minimum variance Distortionless Response) 빔포머(Beamformer)를 이용하여 상기 사용자 음성의 잔향 성분을 제거하여 사용자 음성의 초기 성분을 획득할 수 있다.
또한, 상기 MVDR 빔포머는, 범용 사이드로브 제거기(Generalized Sidelobe Canceller)로 구현될 수 있다.
그리고, 상기 사용자 음성의 초기 성분을 획득하는 단계는, 고정형 빔포머(fixed beamformer)를 이용하여 상기 복수의 마이크로부터 수신된 사용자 음성 중 초기 성분의 사용자 음성을 추출하는 단계; 차단 매트릭스(blocking matrix)를 이용하여 상기 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분을 제거(block)하는 ; 및 적응적 노이즈 제거기(adaptive noise canceller)를 이용하여성기 초기 성분이 제거된 사용자 음성을 이용하여 초기 성분의 사용자 음성 중 잔향 성분을 적응적으로 제거하는 단계;를 포함할 수 있다.
또한, 상기 고정형 빔포머는, DS(Delay and Sum) 빔포머일 수 있다.
그리고, 상기 복수의 마이크부로부터 초기 성분을 측정하는 단계;를 더 포함하고, 상기 차단 매트릭스는, 상기 초기 성분을 이용하여 상기 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분을 제거(block)할 수 있다.
또한, 상기 사용자 음성의 초기 성분을 획득하는 단계는, 고정형 빔포머(fixed beamformer)를 이용하여 상기 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분의 사용자 음성을 추출하는 단계; 및 BSS(Blind Source Separation) 기반의 차단 매트릭스를 이용하여 상기 복수의 마이크로부터 수신된 사용자 음성 중 초기 성분을 제거(block)하는 단계;를 포함할 수 있다.
그리고, 상기 후처리 단계는, 상기 고정형 빔포머로부터 출력되는 초기 성분의 사용자 음성에 상기 BSS 기반의 차단 매트릭스로부터 출력된 초기 성분이 제거된 사용자 음성을 필터링하여 상기 사용자 음성의 잔향 성분을 제거할 수 있다.
상술한 바와 같은 본 발명의 다양한 실시예와 같이 복수의 마이크로부터 획득된 사용자 음성으로부터 잔향 성분을 제거함으로써, 전자 장치는 노이즈 및 잔향이 심한 환경에서 음성 인식 비율을 향상시킬 수 있게 된다.
도 1은 본 발명의 일 실시예에 따른, 잔향 성분을 제거하기 위한 전자 장치의 구성을 나타내는 블럭도,
도 2는 본 발명의 일 실시예에 따른, 잔향 성분을 제거하기 위한 전자 장치의 구성을 상세히 나타내는 블럭도,
도 3는 본 발명의 다른 실시예에 따른, 잔향 성분을 제거하기 위한 전자 장치의 구성을 상세히 나타내는 블럭도,
도 4는 본 발명의 일 실시예에 따른, 전자 장치의 잔향 제거 방법을 설명하기 위한 흐름도이다.
본 실시예들은 다양한 변환을 가할 수 있고 여러 가지 실시 예를 가질 수 있는바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나 이는 특정한 실시 형태에 대해 범위를 한정하려는 것이 아니며, 개시된 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 실시예들을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 구성요소들은 용어들에 의해 한정되어서는 안 된다. 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 권리범위를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "구성되다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
실시예에 있어서 ‘모듈’ 혹은 ‘부’는 적어도 하나의 기능이나 동작을 수행하며, 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다. 또한, 복수의‘모듈’ 혹은 복수의‘부’는 특정한 하드웨어로 구현될 필요가 있는 ‘모듈’ 혹은 ‘부’를 제외하고는 적어도 하나의 모듈로 일체화되어 적어도 하나의 프로세서(미도시)로 구현될 수 있다.
이하, 실시예를 첨부도면을 참조하여 상세히 설명하기로 하며, 첨부 도면을 참조하여 설명함에 있어, 동일하거나 대응하는 구성 요소는 동일한 도면번호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다.
도 1은 본 발명의 일 실시예에 따른, 전자 장치(100)의 구성을 도시한 블럭도이다. 도 1에 도시된 바와 같이, 전자 장치(100)는 복수의 마이크부(110), 잔향 제거부(120), 잔향 정보 획득부(130) 및 후처리부(140)를 포함한다. 이때, 전자 장치(100)는 스마트 폰, 스마트 TV, 태블릿 PC, 노트북 PC, 데스크탑 PC 등과 같이 사용자 음성을 인식하는 기능이 포함된 장치일 수 있다.
복수의 마이크부(110)는 사용자의 음성을 입력받는다. 이때, 복수의 마이크로부(110)는 하나의 열로 정렬된 형태로 배치될 수 있다.
잔향 제거부(120)는 복수의 마이크부(110)로부터 수신된 사용자 음성의 잔향 성분을 제거하여 사용자 음성의 초기 성분을 획득한다. 이때, 잔향 제거부(120)는 빔포밍 기술을 이용하여 사용자 음성의 잔향 성분을 제거하여 사용자 음성의 초기 성분을 획득할 수 있다.
구체적으로, 빔포밍(beamforming)은 타겟 방향으로부터 수신되는 사용자 음성을 유지하는 반면 다른 방향으로부터 수신되는 에너지를 제거하여 지향성을 향상시키기 위한 오디오 처리 기술이다. 특히, 빔포머는 일반적으로 노이즈 및 간섭을 제거하기 위해 이용된다. 또한, 빔포머들이 음장이 직접적으로 도착(direct-arrival)할 수 있는 방향을 향하고 있다면, 빔포머는 다른 방향으로 입사되는 잔향 성분의 레벨을 감소시킬 수 있으므로, DRR(direct-to-reverberant ratio)를 향상시킬 수 있는 잠재성을 가지고 있다. 또한, 빔포머의 선형성으로 인해, 빔포머들은 비선형적인 프로세서들보다 적은 결함을 가질 수 있는 효과가 존재한다.
특히, 잔향 제거부(120)는 MVDR 빔포머를 이용하여 사용자 음성의 잔향 성분을 제거할 수 있다. MVDR 빔포머는 등방성(isotropic)을 가지며 확산되는 음장에서 최고의 지향성을 나타낼 수 있게 한다. 본 발명의 일 실시예에서 MVDR 빔포머는 범용 사이드로브 제거기(Generalized Sidelobe Canceller, GSC)로 구현될 수 있다. 범용 사이드로브 제거기를 이용하여 사용자 음성의 잔향 성분을 제거하는 방법은 도 2를 참조하여 설명하기로 한다. 한편, 본 발명에서는 MVDR 빔포머를 이용하여 사용자 음성의 잔향 성분을 제거할 수 있으나, 이는 일 실시예에 불과할 뿐, 다른 종류의 빔포머를 이용하여 사용자 음성의 잔향 성분을 제거할 수 있다.
본 발명의 또 다른 실시예에서, 잔향 제거부(120)는 블라인드 소스 분리(Blind Source Separation, BSS) 기반의 차단 매트릭스를 이용하여 사용자 음성의 잔향 성분을 제거할 수 있다. BSS 기반의 차단 매트릭스를 이용하여 사용자 음성의 잔향 성분을 제거하는 방법은 도 3을 참조하여 설명하기로 한다.
잔향 정보 획득부(130)는 복수의 마이크부(110)로부터 입력된 사용자 음성의 잔향 성분에 대한 세기 정보를 획득한다. 이때, 잔향 정보 획득부(130)는 사용자 음성의 잔향 성분에 대한 파워 스펙트럼 밀도(power spectral density, PSD)를 획득할 수 있다.
후처리부(140)는 잔향 정보 획득부(130)로부터 획득된 잔향 성분에 대한 세기 정보를 바탕으로 잔향 제거부(120)로부터 획득된 초기 성분에 잔향 성분을 추가적으로 제거할 수 있다.
이하에서는 도 2를 참조하여, 전자 장치(200)가 GSC를 이용하여 사용자 음성의 잔향 성분을 제거하는 방법에 대해 설명하기로 한다. 도 2에 도시된 바와 같이, 전자 장치(200)는 복수의 마이크부(210), GSC부(220), 초기 성분 측정부(230), 잔향 정보 획득부(240) 및 후처리부(250)는 포함한다.
복수의 마이크부(210)는 사용자 음성을 입력받는다. 이때, 복수의 마이크부(210)는 1열로 정렬되어 배치될 수 있다. 특히, 복수의 마이크부(210) 각각은 싱글 채널 잔향 제거 알고리즘(single channel dereverberation algorithm)을 이용하여 잔향 성분 일부를 제거할 수 있다.
GSC부(220)는 복수의 마이크부(210)로부터 수신된 사용자 음성의 잔향 성분을 제거하여 사용자 음성의 초기 성분을 획득할 수 있다. 특히, GSC부(220)는 도 2에 도시된 바와 같이, 고정형 빔포머(221), 차단 매트릭스(223), 적응적 노이즈 제거기(225) 및 덧셈기(227)를 포함한다.
고정형 빔포머(221)는 복수의 마이크부(210)로부터 수신된 사용자 음성 중 초기 성분의 사용자 음성을 추출한다. 이때, 고정형 빔포머(221)는 잔향 성분의 레벨을 감소시키기 위하여 DS(Delay and Sum) 빔포머로 구현할 수 있다.
구체적으로, 고정형 빔포머(221)는 복수의 마이크부(210)를 통해 서로 다른 위상의 신호를 제공받아 타겟 신호에 대한 위상만을 보상한 후 각 채널의 신호를 더하여 잔향 신호가 줄어든 초기 성분의 사용자 음성을 추출할 수 있다. 이때, 고정형 빔포머(221)는 N개의 마이크를 이용하여 사용자 음성의 초기 성분의 위상만을 보상해 주기 때문에, 잔향 신호의 크기가 1/N으로 감소된다.
차단 매트릭스(223)는 복수의 마이크부(210)로부터 수신된 사용자 음성 중 초기 성분을 제거한다. 그리고, 차단 매트릭스(223)는 초기 성분 측정부(230)로부터 측정된 초기 성분을 이용하여 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분을 제거할 수 있다.
구체적으로, 복수의 마이크부(210) 각각에 싱글 채널 잔향 제거 알고리즘을 적용함으로써, 사용자 음성의 잔향 성분은 모든 마이크부(210)로부터 제거될 수 있다. 그리고, 초기 성분 측정부(230)는 복수의 마이크부(210)로부터 잔향 성분의 일부가 제거된 사용자 음성 신호의 초기 성분을 측정한다. 사용자 음성의 초기 성분은 최소 자승법(least-squares procedure)에 의해 사용자 음성의 초기 성분과 관련된 RTF(Relative transfer function)을 측정하는데 이용된다. 그리고, 차단 매트릭스(223)는 사용자 음성의 초기 성분과 관련된 RTF를 이용하여 사용자 음성으로부터 초기 성분을 제거하고, 잔향 성분에 대한 참조 신호를 생성할 수 있다.
적응적 노이즈 제거기(225)는 초기 성분이 제거된 사용자 음성을 이용하여 초기 성분의 사용자 음성 중 잔향 성분을 적응적으로 제거한다. 구체적으로, 적응적 노이즈 제거기(225)는 차단 매트릭스(223)의 출력인 잔향 성분에 대한 참조 신호를 이용하여 고정형 빔포머(221)의 출력에 잔향 성분을 최소화하기 위하여 사용자 음성의 잔여 잔향 성분을 적응적으로 산출할 수 있다. 그리고, 덧셈기(227)에 의해 고정형 빔포머(221)로부터 출력된 사용자 음성의 초기 성분으로부터 잔향 성분을 제거할 수 있다.
한편, 적응적 노이즈 제거기(225)는 잔향 성분이 비정상적(non-stationary)이고, 음성 신호가 시간에 따라 변하므로, 적응적 LMS 알고리즘보다 폐형(closed-form)의 멀티채널 위너 필터(Multichannel Wiener Filter)로 구현될 수 있다.
또한, 적응적 노이즈 제거기(225)는 잔향 정보 획득부(240)로부터 획득된 잔향 성분의 세기 정보를 이용하여 사용자 음성의 잔향 성분을 적응적으로 산출할 수 있다.
잔향 정보 획득부(240)는 복수의 마이크부(210)로부터 획득된 사용자 음성 중 잔향 성분에 대한 세기 정보를 획득한다. 이때, 잔향 정보 획득부(240)는 사용자 음성의 잔향 성분에 대한 파워 스펙트럼 밀도(power spectral density, PSD)를 획득할 수 있다.
후처리부(250)는 잔향 정보 획득부(240)로부터 획득된 잔향 성분에 대한 세기 정보를 이용하여 GSC부(220)에서부터 잔향 성분이 제거된 초기 성분의 사용자 음성에 잔향 성분을 추가로 제거한다.
구체적으로, 잔향 성분의 대부분은 GSC부(220)에 의해 제거되나, 잔여 잔향 성분을 추가적으로 제거하기 위하여, 후처리부(250)는 잔향 및 노이즈의 코히어런스 매트릭스(coherenct matrix)를 이용하여 GSC부(220)부터 출력된 초기 성분의 잔여 잔향 성분을 계산하고 싱글-채널 포스트필터(single-channel postfilter)를 이용하여 잔여 잔향 성분을 추가로 제거할 수 있다. 이때, 후처리부(250)는 잔향 정보 획득부(240)로부터 획득된 잔향 성분에 대한 세기 정보를 바탕으로 실내 충격 응답(room impulse response)의 잔향 성분을 제거할 수 있다.
그리고, 후처리부(250)는 잔여 잔향 성분이 제거된 사용자 음성의 초기 성분을 음성 인식부(미도시)로 출력할 수 있다.
상술한 바와 같이, GSC를 이용하여 사용자 음성의 잔향 성분을 효율적으로 제거함으로써, 전자 장치(200)는 음성 인식의 성공률을 향상시킬 수 있게 된다.
도 3은 본 발명의 다른 실시예에 따른, 블라인드 소스 분리((Blind Source Separation, BSS) 기술을 이용하여 잔향 성분을 제거하기 위한 전자 장치의 구성을 상세히 나타내는 블럭도이다.
도 3에 도시된 바와 같이, 전자 장치(300)는 복수의 마이크부(310), BSS 기반의 잔향 제거부(320), 초기 성분 측정부(330), 잔향 정보 획득부(340) 및 후처리부(350)를 포함한다.
복수의 마이크부(310), 초기 성분 측정부(330), 잔향 정보 획득부(340) 및 후처리부(350)에 대한 설명 중 도 2에서 설명한 복수의 마이크부(310), 초기 성분 측정부(330), 잔향 정보 획득부(340) 및 후처리부(350)와 중복되는 설명은 생략한다.
BSS 기반의 잔향 제거부(320)는 도 3에 도시된 바와 같이, 고정형 빔포머(321) 및 BSS 기반의 차단 매트릭스(323)를 포함한다. 고정형 빔포머(321)는 도 2에서 설명한 고정형 빔포머(221)와 같이, 복수의 마이크부(310)로부터 수신된 사용자 음성 중 초기 성분의 사용자 음성을 추출한다. 이때, 고정형 빔포머(321)는 잔향 성분의 레벨을 감소시키기 위하여 DS(Delay and Sum) 빔포머로 구현할 수 있다.
BSS 기반의 차단 매트릭스(323)는 초기 성분 획득부(330)로부터 획득된 사용자 음성의 초기 성분에 대한 정보를 바탕으로, 사용자 음성의 초기 성분과 잔향 성본을 분리하고, 분리된 잔향 성분을 후처리부(250)에 출력한다. 이때, BSS 기반의 차단 매트릭스(323)는 잔향 성분이 개념상 초기 성분 내의 널(null)에 위치하는 것으로 가정하여 잔향 성분을 추출할 수 있다. 특히, BSS 기반의 차단 매트릭스(323)는 혼합 신호로부터 음성 신호를 분리하고, 초기 성분을 제거하기 위하여, 두 가지의 제약 조건을 포함하는 비용 함수(cost function)을 설계할 수 있다. 이때, 두 가지 제약 조건은 1)BSS 알고리즘 출력의 비상관성(decorrelation), 2)잔향 제약 조건을 포함한다.
그리고, 후처리부(350)는 잔향 정보 획득부(340)로부터 획득된 잔향 성분의 세기 정보를 바탕으로 고정형 빔포머(321)로부터 출력되는 사용자 음성의 초기 성분에 BSS 기반의 차단 매트릭스(323)로부터 출력되는 잔향 성분을 제거할 수 있다.
상술한 바와 같이, BSS 기술을 이용하여 사용자 음성의 잔향 성분을 효율적으로 제거함으로써, 전자 장치(200)는 음성 인식의 성공률을 향상시킬 수 있게 된다.
도 4는 본 발명의 일 실시예에 따른, 전자 장치의 잔향 제거 방법을 설명하기 위한 흐름도이다.
우선, 전자 장치(100)는 복수의 마이크를 통해 사용자의 음성을 입력받는다(S410).
그리고, 전자 장치(100)는 복수의 마이크로부터 수신된 사용자 음성의 잔향 성분을 제거하여 사용자 음성의 초기 성분을 획득한다(S420). 이때, 전자 장치(100)는 도 2에서 설명한 바와 같이, GSC를 이용하여 잔향 성분을 제거하거나 도 3에서 설명한 바와 같이, BSS 기술을 이용하여 잔향 성분을 제거할 수 있다.
그리고, 전자 장치(100)는 사용자 음성의 잔향 성분에 대한 세기 정보를 획득한다(S430). 이때, 전자 장치(100)는 잔향 성분의 PSD에 대한 정보를 획득할 수 있다.
그리고, 전자 장치(100)는 잔향 성분에 대한 세기 정보를 바탕으로 획득된 초기 성분에 잔향 성분을 추가로 제거하는 후처리 작업을 수행한다(S440).
이에 따라, 전자 장치(100)는 더욱 정확한 사용자 음성의 초기 성분을 획득할 수 있어, 높은 성능의 음성 인식 기능을 제공할 수 있게 된다.
한편, 본 실시 예에서 설명하는 특정 실행들은 예시들로서, 어떠한 방법으로도 기술적 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다.
본 명세서(특히 특허청구범위)에서 "상기"의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 포함하는 것으로서(이에 반하는 기재가 없다면), 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다. 마지막으로, 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 한정되는 것은 아니다. 모든 예들 또는 예시적인 용어(예들 들어, 등등)의 사용은 단순히 기술적 사상을 상세히 설명하기 위한 것으로서 특허청구범위에 의해 한정되지 않는 이상 상기 예들 또는 예시적인 용어로 인해 범위가 한정되는 것은 아니다. 또한, 당업자는 다양한 수정, 조합 및 변경이 부가된 특허청구범위 또는 그 균등물의 범주 내에서 설계 조건 및 팩터에 따라 구성될 수 있음을 알 수 있다.

Claims (15)

  1. 사용자의 음성을 입력받는 복수의 마이크부;
    상기 복수의 마이크부로부터 수신된 사용자 음성의 잔향 성분을 제거하여 사용자 음성의 초기 성분을 획득하는 잔향 제거부;
    상기 사용자 음성의 잔향 성분에 대한 세기 정보를 획득하는 잔향 정보 획득부;
    상기 잔향 성분에 대한 세기 정보를 바탕으로 상기 잔향 제거부로부터 획득된 초기 성분에 잔향 성분을 추가로 제거하는 후처리부;를 포함하는 전자 장치.
  2. 제1항에 있어서,
    상기 잔향 제거부는,
    MVDR(Minimum variance Distortionless Response) 빔포머(Beamformer)를 이용하여 상기 사용자 음성의 잔향 성분을 제거하여 사용자 음성의 초기 성분을 획득하는 것을 특징으로 하는 전자 장치.
  3. 제2항에 있어서,
    상기 MVDR 빔포머는,
    범용 사이드로브 제거기(Generalized Sidelobe Canceller)로 구현되는 것을 특징으로 하는 전자 장치.
  4. 제3항에 있어서,
    상기 범용 사이드로브 제거기는,
    상기 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분의 사용자 음성을 추출하는 고정형 빔포머(fixed beamformer);
    상기 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분을 제거(block)하는 차단 매트릭스(blocking matrix); 및
    성기 초기 성분이 제거된 사용자 음성을 이용하여 초기 성분의 사용자 음성 중 잔향 성분을 적응적으로 제거하는 적응적 노이즈 제거기(adaptive noise canceller);를 포함하는 전자 장치.
  5. 제4항에 있어서,
    상기 고정형 빔포머는,
    DS(Delay and Sum) 빔포머인 것을 특징으로 하는 전자 장치.
  6. 제4항에 있어서,
    상기 복수의 마이크부로부터 초기 성분을 측정하는 초기 성분 측정부;를 더 포함하고,
    상기 차단 매트릭스는,
    상기 초기 성분 측정부로부터 출력되는 초기 성분을 이용하여 상기 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분을 제거(block)하는 것을 특징으로 하는 전자 장치.
  7. 제1항에 있어서,
    상기 잔향 제거부는,
    상기 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분의 사용자 음성을 추출하는 고정형 빔포머(fixed beamformer); 및
    상기 복수의 마이크로부터 수신된 사용자 음성 중 초기 성분을 제거(block)하는 BSS(Blind Source Separation) 기반의 차단 매트릭스;를 포함하는 것을 특징으로 하는 전자 장치.
  8. 제7항에 있어서,
    상기 후처리부는,
    상기 고정형 빔포머로부터 출력되는 초기 성분의 사용자 음성에 상기 BSS 기반의 차단 매트릭스로부터 출력된 초기 성분이 제거된 사용자 음성을 필터링하여 상기 사용자 음성의 잔향 성분을 제거하는 것을 특징으로 하는 전자 장치.
  9. 전자 장치의 잔향 제거 방법에 있어서,
    복수의 마이크를 통해 사용자의 음성을 입력받는 단계;
    상기 복수의 마이크로부터 수신된 사용자 음성의 잔향 성분을 제거하여 사용자 음성의 초기 성분을 획득하는 단계;
    상기 사용자 음성의 잔향 성분에 대한 세기 정보를 획득하는 단계;
    상기 잔향 성분에 대한 세기 정보를 바탕으로 상기 획득된 초기 성분에 잔향 성분을 추가로 제거하는 후처리 단계;를 포함하는 잔향 제거 방법.
  10. 제9항에 있어서,
    상기 사용자 음성의 초기 성분을 획득하는 단계는,
    MVDR(Minimum variance Distortionless Response) 빔포머(Beamformer)를 이용하여 상기 사용자 음성의 잔향 성분을 제거하여 사용자 음성의 초기 성분을 획득하는 것을 특징으로 하는 잔향 제거 방법.
  11. 제9항에 있어서,
    상기 MVDR 빔포머는,
    범용 사이드로브 제거기(Generalized Sidelobe Canceller)로 구현되는 것을 특징으로 하는 잔향 제거 방법.
  12. 제11항에 있어서,
    상기 사용자 음성의 초기 성분을 획득하는 단계는,
    고정형 빔포머(fixed beamformer)를 이용하여 상기 복수의 마이크로부터 수신된 사용자 음성 중 초기 성분의 사용자 음성을 추출하는 단계;
    차단 매트릭스(blocking matrix)를 이용하여 상기 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분을 제거(block)하는 ; 및
    적응적 노이즈 제거기(adaptive noise canceller)를 이용하여성기 초기 성분이 제거된 사용자 음성을 이용하여 초기 성분의 사용자 음성 중 잔향 성분을 적응적으로 제거하는 단계;를 포함하는 잔향 제거 방법.
  13. 제12항에 있어서,
    상기 고정형 빔포머는,
    DS(Delay and Sum) 빔포머인 것을 특징으로 하는 잔향 제거 방법.
  14. 제12항에 있어서,
    상기 복수의 마이크부로부터 초기 성분을 측정하는 단계;를 더 포함하고,
    상기 차단 매트릭스는,
    상기 초기 성분을 이용하여 상기 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분을 제거(block)하는 것을 특징으로 하는 잔향 제거 방법.
  15. 제9항에 있어서,
    상기 사용자 음성의 초기 성분을 획득하는 단계는,
    고정형 빔포머(fixed beamformer)를 이용하여 상기 복수의 마이크부로부터 수신된 사용자 음성 중 초기 성분의 사용자 음성을 추출하는 단계; 및
    BSS(Blind Source Separation) 기반의 차단 매트릭스를 이용하여 상기 복수의 마이크로부터 수신된 사용자 음성 중 초기 성분을 제거(block)하는 단계;를 포함하는 것을 특징으로 하는 잔향 제거 방법.
PCT/KR2014/009405 2014-10-07 2014-10-07 전자 장치 및 이의 잔향 제거 방법 WO2016056683A1 (ko)

Priority Applications (3)

Application Number Priority Date Filing Date Title
KR1020177008048A KR20170063618A (ko) 2014-10-07 2014-10-07 전자 장치 및 이의 잔향 제거 방법
PCT/KR2014/009405 WO2016056683A1 (ko) 2014-10-07 2014-10-07 전자 장치 및 이의 잔향 제거 방법
US15/517,855 US9997170B2 (en) 2014-10-07 2014-10-07 Electronic device and reverberation removal method therefor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/KR2014/009405 WO2016056683A1 (ko) 2014-10-07 2014-10-07 전자 장치 및 이의 잔향 제거 방법

Publications (1)

Publication Number Publication Date
WO2016056683A1 true WO2016056683A1 (ko) 2016-04-14

Family

ID=55653285

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2014/009405 WO2016056683A1 (ko) 2014-10-07 2014-10-07 전자 장치 및 이의 잔향 제거 방법

Country Status (3)

Country Link
US (1) US9997170B2 (ko)
KR (1) KR20170063618A (ko)
WO (1) WO2016056683A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017218128A1 (en) * 2016-06-15 2017-12-21 Intel Corporation Far field automatic speech recognition pre-processing

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10403299B2 (en) * 2017-06-02 2019-09-03 Apple Inc. Multi-channel speech signal enhancement for robust voice trigger detection and automatic speech recognition
US10418048B1 (en) * 2018-04-30 2019-09-17 Cirrus Logic, Inc. Noise reference estimation for noise reduction
CN110428852B (zh) * 2019-08-09 2021-07-16 南京人工智能高等研究院有限公司 语音分离方法、装置、介质和设备
DK3863303T3 (da) 2020-02-06 2023-01-16 Univ Zuerich Vurdering af forholdet mellem direkte lyd og efterklangsforholdet i et lydsignal
CN112509594A (zh) * 2020-06-22 2021-03-16 中兴通讯股份有限公司 一种终端、发声方法、存储介质及电子装置
US11290814B1 (en) 2020-12-15 2022-03-29 Valeo North America, Inc. Method, apparatus, and computer-readable storage medium for modulating an audio output of a microphone array

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040019362A (ko) * 2001-07-20 2004-03-05 코닌클리케 필립스 일렉트로닉스 엔.브이. 후처리기로서 멀티 마이크로폰 에코 억제기를 가지는 음향보강 시스템
KR20050115857A (ko) * 2002-12-11 2005-12-08 소프트맥스 인코퍼레이티드 안정성 강제하에서 독립 성분 분석을 사용하여 음향을처리하는 시스템 및 방법
KR20060061259A (ko) * 2004-12-01 2006-06-07 하만 벡커 오토모티브 시스템스 - 웨이브마커 인크. 잔향 추정 및 억제 시스템
KR20100010136A (ko) * 2008-07-22 2010-02-01 삼성전자주식회사 잡음을 제거하는 장치 및 방법
KR20120054087A (ko) * 2009-09-07 2012-05-29 퀄컴 인코포레이티드 멀티채널 신호의 반향 제거를 위한 시스템, 방법, 장치 및 컴퓨터 판독가능 매체

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005006808A1 (en) * 2003-07-11 2005-01-20 Cochlear Limited Method and device for noise reduction
US8271277B2 (en) 2006-03-03 2012-09-18 Nippon Telegraph And Telephone Corporation Dereverberation apparatus, dereverberation method, dereverberation program, and recording medium
EP2058804B1 (en) 2007-10-31 2016-12-14 Nuance Communications, Inc. Method for dereverberation of an acoustic signal and system thereof
WO2009110578A1 (ja) 2008-03-03 2009-09-11 日本電信電話株式会社 残響除去装置、残響除去方法、残響除去プログラム、および記録媒体
US8265290B2 (en) 2008-08-28 2012-09-11 Honda Motor Co., Ltd. Dereverberation system and dereverberation method
US8989360B2 (en) * 2011-03-04 2015-03-24 Mitel Networks Corporation Host mode for an audio conference phone

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040019362A (ko) * 2001-07-20 2004-03-05 코닌클리케 필립스 일렉트로닉스 엔.브이. 후처리기로서 멀티 마이크로폰 에코 억제기를 가지는 음향보강 시스템
KR20050115857A (ko) * 2002-12-11 2005-12-08 소프트맥스 인코퍼레이티드 안정성 강제하에서 독립 성분 분석을 사용하여 음향을처리하는 시스템 및 방법
KR20060061259A (ko) * 2004-12-01 2006-06-07 하만 벡커 오토모티브 시스템스 - 웨이브마커 인크. 잔향 추정 및 억제 시스템
KR20100010136A (ko) * 2008-07-22 2010-02-01 삼성전자주식회사 잡음을 제거하는 장치 및 방법
KR20120054087A (ko) * 2009-09-07 2012-05-29 퀄컴 인코포레이티드 멀티채널 신호의 반향 제거를 위한 시스템, 방법, 장치 및 컴퓨터 판독가능 매체

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017218128A1 (en) * 2016-06-15 2017-12-21 Intel Corporation Far field automatic speech recognition pre-processing
US10657983B2 (en) 2016-06-15 2020-05-19 Intel Corporation Automatic gain control for speech recognition

Also Published As

Publication number Publication date
KR20170063618A (ko) 2017-06-08
US20170309294A1 (en) 2017-10-26
US9997170B2 (en) 2018-06-12

Similar Documents

Publication Publication Date Title
WO2016056683A1 (ko) 전자 장치 및 이의 잔향 제거 방법
EP3531674B1 (en) Sound processing method and device
US20180070173A1 (en) Methods circuits devices systems and associated computer executable code for acquiring acoustic signals
US10827263B2 (en) Adaptive beamforming
WO2018008885A1 (ko) 영상처리장치, 영상처리장치의 구동방법 및 컴퓨터 판독가능 기록매체
US9672821B2 (en) Robust speech recognition in the presence of echo and noise using multiple signals for discrimination
US20120249785A1 (en) Signal processor and signal processing method
EP1489596B1 (en) Device and method for voice activity detection
WO2012161555A2 (ko) 방향성 마이크 어레이를 이용한 신호 분리시스템 및 그 제공방법
CN110770827B (zh) 基于相关性的近场检测器
US20090147942A1 (en) Reducing Echo
US8363846B1 (en) Frequency domain signal processor for close talking differential microphone array
KR20070004893A (ko) 적응성 빔 형성기, 사이드로브 소거기, 핸즈프리 음성 통신디바이스
CN103238182A (zh) 具有远程噪声检测器的降噪系统
CN111435598B (zh) 语音信号处理方法、装置、计算机可读介质及电子设备
GB2519379A (en) Noise reduction in multi-microphone systems
EP4044181A1 (en) Deep learning speech extraction and noise reduction method fusing signals of bone vibration sensor and microphone
CN110830870B (zh) 一种基于传声器技术的耳机佩戴者语音活动检测系统
EP3545691B1 (en) Far field sound capturing
CN112363112B (zh) 一种基于线性麦克风阵列的声源定位方法及装置
US9729967B2 (en) Feedback canceling system and method
KR20110021306A (ko) 마이크로폰의 신호 보상 장치 및 그 방법
CN113223544A (zh) 音频的方向定位侦测装置及方法以及音频处理系统
El Baba et al. Time of arrival disambiguation using the linear Radon transform
US20190035382A1 (en) Adaptive post filtering

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14903521

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 20177008048

Country of ref document: KR

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 15517855

Country of ref document: US

122 Ep: pct application non-entry in european phase

Ref document number: 14903521

Country of ref document: EP

Kind code of ref document: A1