KR20190094857A - 마이크 어레이를 이용한 지향성 빔포밍 방법 및 장치 - Google Patents

마이크 어레이를 이용한 지향성 빔포밍 방법 및 장치 Download PDF

Info

Publication number
KR20190094857A
KR20190094857A KR1020180014494A KR20180014494A KR20190094857A KR 20190094857 A KR20190094857 A KR 20190094857A KR 1020180014494 A KR1020180014494 A KR 1020180014494A KR 20180014494 A KR20180014494 A KR 20180014494A KR 20190094857 A KR20190094857 A KR 20190094857A
Authority
KR
South Korea
Prior art keywords
signal
microphone
frequency domain
auxiliary
digital filter
Prior art date
Application number
KR1020180014494A
Other languages
English (en)
Other versions
KR102053109B1 (ko
Inventor
조정권
Original Assignee
주식회사 위스타
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 위스타 filed Critical 주식회사 위스타
Priority to KR1020180014494A priority Critical patent/KR102053109B1/ko
Publication of KR20190094857A publication Critical patent/KR20190094857A/ko
Application granted granted Critical
Publication of KR102053109B1 publication Critical patent/KR102053109B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R11/00Arrangements for holding or mounting articles, not otherwise provided for
    • B60R11/02Arrangements for holding or mounting articles, not otherwise provided for for radio sets, television sets, telephones, or the like; Arrangement of controls thereof
    • B60R11/0247Arrangements for holding or mounting articles, not otherwise provided for for radio sets, television sets, telephones, or the like; Arrangement of controls thereof for microphones or earphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Otolaryngology (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mechanical Engineering (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

목적음의 스펙트럼을 손상하지 않으면서도 특정 방향으로 최대 이득을 줌으로써 발화자의 음성 인식율을 향상시킬 수 있는 빔포밍 방법 및 장치가 제공된다. 본 발명의 한가지 실시형태에 따른 빔포밍 방법은, 주 마이크 및 하나 또는 그 이상의 보조 마이크로부터의 디지털 오디오 신호를 각각 주파수 도메인 신호로 변환하는 단계와, 상기 주 마이크와 상기 하나 또는 그 이상의 보조 마이크로부터의 주파수 도메인 신호를 사용하여 적응형 디지털 필터의 계수를 설정하는 디지털 필터 계수 설정 단계와, 상기 하나 또는 그 이상의 보조 마이크로부터의 주파수 도메인 신호를 각각 상기 적응형 디지털 필터로 필터링하는 필터링 단계와, 상기 주 마이크로부터의 주파수 도메인 신호에서 상기 필터링한 신호를 순차적으로 감산하여 빔포밍된 출력신호를 생성하는 단계를 구비한다. 본 발명의 일 실시형태에 따르면, 부 마이크 신호가 그대로 적응형 디지털 필터에 입력되므로, 목적음의 스펙트럼이 손상되지 않는다.

Description

마이크 어레이를 이용한 지향성 빔포밍 방법 및 장치 {Method and apparatus for directional beamforming using microphone array}
본 발명은 마이크 어레이를 이용한 지향성 빔포밍 방법 및 장치에 관한 것으로, 보다 상세하게는 목적음의 스펙트럼을 손상하지 않으면서도 특정 방향으로 최대 이득을 줌으로써 차량 내의 주변 소음 속에서도 발화자의 음성 인식율을 향상시킬 수 있는 빔포밍 방법 및 장치에 관한 것이다.
차량 운전 중에 전화번호를 다이얼 한다거나 내비게이션 장치의 목적지 설정을 한다거나 하는 조작은 사고의 위험이 있으므로 운전자가 음성으로 조작명령을 내리면 이를 인식하여 장치를 동작시키는 경우가 많다. 그런데 차량 운전 중에는 차량 내 스피커에서 출력되는 라디오 소리, 엔진 소음, 주변 차량의 소음, 바람 소리나 빗소리와 같은 주변 환경의 소음, 동승자들의 대화 등 주변 소음으로 인하여 음성인식율이 떨어지는 경향이 있다.
이러한 문제를 해결하는 방법으로서, 복수의 마이크를 사용하여 특정 방향으로 빔이 형성되도록 하는 빔포밍 기술을 사용하는 방법이 있다. 예를 들면, 공개특허 제10-2015-0112594호에서는 복수의 마이크를 사용하는 빔포밍 기법을 적용하여 제1 빔 및 제2 빔을 형성하되, 제1 빔은 복수의 마이크의 전방 방향으로 형성되고, 제2 빔은 제1 빔을 기준으로 좌측 방향 및 우측 방향 중 적어도 한 방향으로 형성되도록 구성하고, 제2 빔을 통해 수신된 오디오 신호와 제1 빔을 통해 수신된 오디오 신호의 차를 이용하여 음성 신호를 추출하도록 구성하고 있다. 이러한 구성은 주변 소음이 제1 빔과 제2 빔에 공통적으로 존재하고 사용자의 음성은 제2 빔에 강하게 나타나는 점을 이용하여 제2 빔을 통해 수신된 오디오 신호에서 제1 빔을 통해 수신된 오디오 신호를 뺌으로써 주변 소음을 제거하는 것이다. 그러나, 동승자의 대화, 주변 차량의 소음 등은 동승자의 위치, 주변 차량의 위치 등에 크게 영향을 받으므로 차량 내 모든 위치에서 균등한 크기를 갖는 것이 아니기 때문에 소음 제거 성능에 한계가 있다.
한편, 예를 들면, 등록특허 제10-0884968호와 같이 적응형 디지털 필터(Adaptive Digital Filter)를 사용한 빔포밍 방법도 제안되고 있다. 적응형 필터를 사용하면 적은 수의 마이크로도 높은 이득을 얻을 수 있는 장점이 있다. 그런데, 종래의 적응형 필터를 사용한 빔포밍 방법은, 도 4에 도시한 것처럼, 주파수 도메인으로 변환된 주 마이크 신호 x1(n)에서 부 마이크 신호 x2(n)을 뺀 신호가 적응형 디지털 필터(ADF)에 입력되도록 구성되어 있다. 즉, 주파수별로 스펙트럼 차감이 되므로 목적음 신호의 스펙트럼 변형이 초래되어 음성 인식률에 좋지 않은 영향을 주게 된다.
본 발명은 이러한 점을 감안하여 이루어진 것으로서, 본 발명의 일 실시형태의 목적은 목적음의 스펙트럼을 손상하지 않는 빔포밍 방법 및 장치를 제공하는 것이다.
본 발명의 일 실시형태의 다른 목적은 목적음의 스펙트럼을 손상하지 않으면서도 차량 내의 주변 소음 속에서도 발화자의 음성 인식율을 향상시킬 수 있는 빔포밍 방법 및 장치를 제공하는 것이다.
본 발명의 한가지 실시형태에 따른 빔포밍 방법은, 주 마이크 및 하나 또는 그 이상의 보조 마이크로부터의 디지털 오디오 신호를 각각 주파수 도메인 신호로 변환하는 단계와, 상기 주 마이크와 상기 하나 또는 그 이상의 보조 마이크로부터의 주파수 도메인 신호를 사용하여 적응형 디지털 필터의 계수를 설정하는 디지털 필터 계수 설정 단계와, 상기 하나 또는 그 이상의 보조 마이크로부터의 주파수 도메인 신호를 각각 상기 적응형 디지털 필터로 필터링하는 필터링 단계와, 상기 주 마이크로부터의 주파수 도메인 신호에서 상기 필터링한 신호를 순차적으로 감산하여 빔포밍된 출력신호를 생성하는 단계를 구비한다.
본 발명의 한가지 실시형태에 따른 빔포밍 장치는, 주 마이크 및 하나 또는 그 이상의 보조 마이크로부터의 디지털 오디오 신호를 각각 주파수 도메인 신호로 변환하는 주파수 도메인 변환부와, 상기 주 마이크와 상기 하나 또는 그 이상의 보조 마이크로부터의 주파수 도메인 신호를 사용하여 적응형 디지털 필터의 계수를 설정하는 디지털 필터 계수 설정부와, 상기 하나 또는 그 이상의 보조 마이크로부터의 주파수 도메인 신호를 각각 필터링하는 적응형 디지털 필터와, 상기 주 마이크로부터의 주파수 도메인 신호에서 상기 필터링한 신호를 순차적으로 감산하여 빔포밍된 출력신호를 생성하는 가산부를 구비한다.
디지털 필터 계수 설정부는, 상기 주 마이크로부터의 주파수 도메인 신호를 시간축으로 평활화하는 제1 평활화부와, 상기 하나 또는 그 이상의 보조 마이크로부터의 주파수 도메인 신호를 전력 정규화하는 전력 정규화부와, 상기 전력 정규화된 신호를 시간축으로 평활화하는 제2 평활화부와, 상기 평활화된 주 마이크로부터의 주파수 도메인 신호와, 상기 평활화된 보조 마이크로부터의 주파수 도메인 신호를 사용하여 적응형 디지털 필터의 수렴 변수를 구하는 수렴 변수 계산부를 구비할 수 있다.
m번째 마이크 신호의 f번째 프레임의 k번째 주파수 성분을 X m,f (k)라고 할 때,
주 마이크로부터의 주파수 도메인 신호를 시간축으로 평활화한 X1(k)는
Figure pat00001
에 의해 구하며,
하나 또는 그 이상의 보조 마이크로부터의 주파수 도메인 신호에 대한 f번째 프레임의 k번째 주파수 성분의 전력 정규화한 신호 Yf(k)는
Figure pat00002
에 의해 구하며,
Y f (k)를 시간축으로 평활화한 Y(k)
Figure pat00003
에 의해 구한다.
{Y(k)/X 1 (k)}의 최대값을 1로 한정하는 최대 수렴 상수 값을 μ max 라 할 때, 적응 디지털 필터의 수렴 변수 μf(k)는,
Figure pat00004
또는,
Figure pat00005
에 의해 구할 수 있다.
상기 주 마이크로부터의 주파수 도메인 신호에서 m번째 마이크 신호를 필터링한 신호까지 순차적으로 감산한 신호를 Ef,m(k)라 할 때, m번째 마이크 신호의 f번째 프레임에 대한 k번째 주파수 성분의 적응 디지털 필터의 계수 W f,m (k)
Figure pat00006
에 의하여 구할 수 있다.
본 발명의 일 실시형태에 따르면, 부 마이크 신호가 그대로 적응형 디지털 필터에 입력되므로, 목적음의 스펙트럼이 손상되지 않는다. 또한, 목적음의 스펙트럼이 전혀 손상되지 않으므로 음성인식 프로그램의 수정이 필요 없을 뿐만 아니라, 음소 데이터 베이스에 대한 별도의 학습 작업을 하지 않아도 음성 인식률의 향상을 기대할 수 있다.
본 발명의 일 실시형태에 따르면, 각 프레임, 주파수 성분마다 수렴변수를 계산하고, 이 수렴변수로 적응형 디지털 필터를 적응시킴으로써 목적음의 스펙트럼을 전혀 손상하지 않고서도 주 마이크 방향으로 빔포밍을 실시할 수 있다. 또한 목적 방향으로 입력되는 특정 주파수 성분의 잡음에 대해서도 제거가 가능하다.
도 1은 빔포밍을 이용하여 음성인식율을 높이는 장치의 개략 블록도이다.
도 2는 도 1의 마이크부와 빔포밍부 사이의 연결관계를 좀더 상세하게 보여주는 블록도이다.
도 3은 본 발명의 일 실시형태에 따른 빔포밍부의 상세 구성을 보여주는 블록도이다.
도 4는 종래의 적응형 디지털 필터를 사용한 빔포밍 방식에서 사용되는 스펙트럼 차감 방식을 설명하기 위한 도면이다.
후술하는 본 발명에 대한 상세한 설명은, 본 발명이 실시될 수 있는 특정 실시예를 예시로서 도시하는 첨부 도면을 참조한다. 이들 실시예는 당업자가 본 발명을 실시할 수 있기에 충분하도록 상세히 설명된다. 본 발명의 다양한 실시예는 서로 다르지만 상호 배타적일 필요는 없음이 이해되어야 한다. 예를 들어, 여기에 기재되어 있는 특정 형상, 구조 및 특성은 일 실시예에 관련하여 본 발명의 정신 및 범위를 벗어나지 않으면서 다른 실시예로 구현될 수 있다. 또한, 각각의 개시된 실시예 내의 개별 구성요소의 위치 또는 배치는 본 발명의 정신 및 범위를 벗어나지 않으면서 변경될 수 있음이 이해되어야 한다. 따라서, 후술하는 상세한 설명은 한정적인 의미로서 취하려는 것이 아니며, 본 발명의 범위는, 적절하게 설명된다면, 그 청구항들이 주장하는 것과 균등한 모든 범위와 더불어 첨부된 청구항에 의해서만 한정된다. 도면에서 유사한 참조부호는 여러 측면에 걸쳐서 동일하거나 유사한 기능을 지칭한다.
이하, 첨부되는 도면을 참조하여 본 발명의 예시적인 실시형태에 따른 마이크 어레이를 이용한 지향성 빔포밍 방법 및 장치를 설명한다.
도 1은 본 발명의 빔포밍 방법 및 장치가 적용되는 예를 설명하기 위한 블록도이다. M을 2 이상의 자연수라고 할 때, 본 발명에서는 M개의 마이크(microphone)로부터 입력되는 오디오 신호를 신호처리하여 음성인식부(200)에 전달한다. 마이크부(300)는 M개의 마이크와 아날로그-디지털 변환기(A/D 변환기)를 구비하여, M개의 디지털 오디오 신호를 출력한다. 실시예에 따라서는 마이크와 A/D 변환기 사이에 증폭기가 구비될 수 있다. 빔포밍부(100)는 M개의 디지털 오디오 신호를 입력받아서 운전자 방향으로 빔포밍되도록 신호처리하고, 빔포밍된 신호, 즉 주변 잡음이 제거된 운전자 음성신호를 음성인식부(200)로 출력한다. 음성인식부(200)는 주변 잡음이 제거된 운전자 음성신호를 입력 받아서 음성인식 처리를 한다. 한편, 도 1에는 빔포밍부만이 도시되어 있지만, 실시예에 따라서는 화자의 위치를 추적하기 위한 화자 추적부(Speaker Tracking Unit)가 더 구비될 수 있다.
마이크부(300)와 빔포밍부(100) 간의 예시적인 연결 관계가 도 2에 도시되어 있다. M을 2 이상의 자연수라 할 때, M개의 마이크(Mic.1 ~ Mic.M)를 통해 입력된 아날로그 음성신호는 아날로그-디지털 변환기(310a~310M)에서 각각 디지털 신호(x1~xM)로 변환된 후에 빔포밍부(100)로 입력된다. 일 실시형태에서 주 마이크(Mic.1)를 제외한 보조 마이크(Mic.2 ~ Mic.M)는 일렬로 배치된 마이크 어레이 형태로 구현될 수 있다. 다른 실시형태에서 모든 마이크(Mic.1 ~ Mic.M)를 마이크 어레이 형태로 구현할 수도 있다. 마이크 어레이는 차량 내에서 수평으로 배치될 수도 있고 수직으로 배치될 수도 있으며, 수직과 수평 이외의 각도로 배치될 수도 있다. 일 실시형태에서 주 마이크(Mic.1)는 보조 마이크(Mic.2 ~ Mic.M)보다 화자 쪽에 가깝게 위치한다. 일 실시형태에서 주 마이크(Mic.1)는 운전자 쪽으로 배치되고 보조 마이크(Mic.2 ~ Mic.M)는 뒷좌석쪽으로 배치될 수 있다. 주 마이크(Mic.1)와 보조 마이크(Mic.2 ~ Mic.M) 사이의 거리는 너무 떨어지면 주 마이크와의 코히어런스(coherence)가 작아져서 좋은 결과를 얻기 어려우므로, 주 마이크(Mic.1)와 보조 마이크(Mic.2 ~ Mic.M) 사이의 거리는 소정 거리, 예를 들면 30cm 이상 이격되지 않는 것이 바람직하다.
다음으로 도 3을 참조하여 본 발명의 바람직한 실시형태에 따른 빔포밍부(100)의 상세 구성을 설명한다.
각 마이크(Mic.1 ~ Mic.M)를 통해 입력되어 A/D 변환된 디지털 신호는 주파수 도메인 신호로 변환된다. 예를 들면, FFT(Fast Fourier Transform)(110a~110M)를 사용하여 고속 푸리에 변환된다. 고속 푸리에 변환된 m번째 마이크 신호의 f번째 프레임의 k번째 주파수 성분을 X m,f (k)라고 하면, 주 마이크 신호의 k번째 주파수 성분에 대해 시간축으로 IIR(Infinite Impulse Response) 평균한 값, 즉 제1 평활화기(120)의 출력 X 1 (k)는 수학식 1과 같다.
Figure pat00007
여기에서, α값은 차량별로 실험적으로 최적값을 찾을 수 있으며, 일반적으로는 0.85 < α <0.95의 값을 갖는다.
보조 마이크(Mic.2~Mic.M)로부터의 신호에 대한 f번째 프레임의 k번째 주파수 성분의 평균, 즉 전력 정규화(power normalization)(130)한 출력 Y f (k)는 수학식 2과 같다.
Figure pat00008
Y f (k)를 시간축으로 IIR 평균한 값, 즉 제2 평활화기(140)의 출력 Y(k)는 수학식 3과 같이 계산된다.
Figure pat00009
수학식 3에서도 α값은 차량별로 실험적으로 최적값을 찾을 수 있으며, 일반적으로는 0.85 < α <0.95의 값을 갖는다.
X 1 (k)Y(k)를 이용하여 적응 디지털 필터(Adaptive Digital Filer)의 수렴 변수 μ f (k)를 수학식 4와 같이 계산한다.
Figure pat00010
여기서 μ max 는 실험적으로 구한 최대 수렴 상수 값이며, {Y(k)/X 1 (k)}의 최대값을 1로 한정한다. 특정 프레임에서의 보조 마이크 신호들에 대한 수렴변수 값은 동일하다. X 1 (k)Y(k)는 매 프레임마다 IIR 평균을 계산한 것이므로 μ f (k)를 계산하는데 사용되는 X 1 (k)Y(k)는 f번째 프레임에서 계산한 평균값이지만, f 표시를 하면 f번째 프레임에서의 신호 X 1,f (k), Y f (k)와의 중복되므로 f 표시를 하지 않았다.
실시예에 따라서는, 수학식 4에서 계산된 수렴 변수 μ f (k)X 1 (k)Y(k)의 비의 영향을 최소화 하기 위해 수학식 5와 같이 {Y(k)/X 1 (k)}를 i승한 뒤에 곱할 수도 있다. 여기에서 i는 2 이상의 자연수이다.
Figure pat00011
Y(k)/X1(k)가 1에 가까운 값일때는 Y(k)가 X1(k)와 비슷한 크기를 갖는 것이므로 목적 방향 이외의 방향에서 신호가 입력되는 경우를 나타내고, 0에 가까워질수록 목적 방향에 가까운 방향으로 입력되는 경우를 나타낸다. 따라서 Y(k)/X1(k)가 0에 가까울 수록 i승을 함으로써 0에 더 가까워지게 되어, 목적음 방향일때 수렴을 덜하게 만든다. 이는 목적음일 가능성이 높은 주파수 성분에 대해 적응을 덜하게 하는 효과를 준다. 따라서, 이러한 효과를 더 주고자 하는 경우에는 i값을 크게 설정한다.
f번째 프레임에서 계산된 μ f (k)값은, 보조 마이크 신호의 f번째 프레임에 대한 각 적응 디지털 필터(160b~160M)에 동일하게 적용된다.
수학식 4 또는 수학식 5에서 정의된 수렴변수 μ f (k)를 이용하여 m번째 마이크 신호의 f번째 프레임에 대한 k번째 주파수 성분의 적응 디지털 필터(160m)의 계수 W f,m (k)를 수학식 6과 같이 매 프레임 갱신함으로써, 출력 신호 E f (k)를 최소화하면서 주 마이크(Mic.1) 방향으로 최대 이득을 주게 된다.
Figure pat00012
수학식 6에서 Ef,m(k)는 주 마이크로부터의 주파수 도메인 신호에서 m번째 마이크 신호를 필터링한 신호까지 순차적으로 감산한 신호이다.
주 마이크(Mic.1)로부터의 고속 푸리에 변환된 신호는 가산기(180b~170M)에서 각 적응 디지털 필터(160b~160M)의 출력값만큼 감산된 후에 출력된다. 즉, 주 마이크(Mic.1)로 입력된 오디오 신호 중에서 각 보조 마이크를 통해 입력된 신호에 의해 파악되는 다른 방향의 신호성분을 감산한 신호가 빔포머의 최종 결과값으로서 출력된다. 이렇게 출력되는 출력신호 Ef(k)는 음성인식부(200)에 인가되게 된다. 실시예에 따라서는 출력신호 Ef(k)를 역고속 푸리에 변환(IFFT)을 거친 시간 도메인의 신호가 음성인식부(200)에 인가될 수도 있다.
이상에서 본 발명을 몇가지 실시예를 들어 설명하였으나, 본 발명은 특정 실시예에 한정되는 것은 아니다. 본 발명이 속하는 분야의 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성을 벗어나지 않는 범위에서 이상에 예시되지 않은 여러 가지의 변형과 응용이 가능함을 알 수 있을 것이다. 예를 들어, 실시예에 구체적으로 나타난 각 구성 요소는 적절하게 변형하여 실시할 수 있는 것이다. 그리고 이러한 변형과 응용에 관계된 차이점들은 첨부된 청구 범위에서 규정하는 본 발명의 범위에 포함되는 것으로 해석되어야 할 것이다.
100 빔포밍부,
200 음성인식부,
300 마이크부.

Claims (20)

  1. 주 마이크 및 하나 또는 그 이상의 보조 마이크로부터의 디지털 오디오 신호를 각각 주파수 도메인 신호로 변환하는 단계와,
    상기 주 마이크와 상기 하나 또는 그 이상의 보조 마이크로부터의 주파수 도메인 신호를 사용하여 적응형 디지털 필터의 계수를 설정하는 디지털 필터 계수 설정 단계와,
    상기 하나 또는 그 이상의 보조 마이크로부터의 주파수 도메인 신호를 각각 상기 적응형 디지털 필터로 필터링하는 필터링 단계와,
    상기 주 마이크로부터의 주파수 도메인 신호에서 상기 필터링한 신호를 순차적으로 감산하여 빔포밍된 출력신호를 생성하는 단계
    를 구비하는 지향성 빔포밍 방법.
  2. 제1항에 있어서, 상기 디지털 필터 계수 설정 단계는,
    상기 주 마이크로부터의 주파수 도메인 신호를 시간축으로 평활화하는 단계와,
    상기 하나 또는 그 이상의 보조 마이크로부터의 주파수 도메인 신호를 전력 정규화(power normalization)하는 단계와,
    상기 전력 정규화된 신호를 시간축으로 평활화하는 단계와,
    상기 평활화된 주 마이크로부터의 주파수 도메인 신호와, 상기 평활화된 보조 마이크로부터의 주파수 도메인 신호를 사용하여 적응형 디지털 필터의 수렴 변수를 계산하는 단계
    를 구비하는 지향성 빔포밍 방법.
  3. 제2항에 있어서,
    m번째 마이크 신호의 f번째 프레임의 k번째 주파수 성분을 X m,f (k)라고 할 때,
    주 마이크로부터의 주파수 도메인 신호를 시간축으로 평활화한 X1(k)는
    Figure pat00013

    에 의해 구하며,
    하나 또는 그 이상의 보조 마이크로부터의 주파수 도메인 신호에 대한 f번째 프레임의 k번째 주파수 성분의 전력 정규화한 신호 Yf(k)는
    Figure pat00014

    에 의해 구하며,
    Y f (k)를 시간축으로 평활화한 Y(k)
    Figure pat00015

    에 의해 구하며,
    {Y(k)/X 1 (k)}의 최대값을 1로 한정하는 최대 수렴 상수 값을 μ max 라 할 때,
    적응 디지털 필터의 수렴 변수 μf(k)는,
    Figure pat00016

    에 의하여 구하는, 지향성 빔포밍 방법.
  4. 제3항에 있어서,
    상기 주 마이크로부터의 주파수 도메인 신호에서 m번째 마이크 신호를 필터링한 신호까지 순차적으로 감산한 신호를 Ef,m(k)라 할 때,
    m번째 마이크 신호의 f번째 프레임에 대한 k번째 주파수 성분의 적응 디지털 필터의 계수 W f,m (k)
    Figure pat00017

    에 의하여 구하는, 지향성 빔포밍 방법.
  5. 제2항에 있어서,
    m번째 마이크 신호의 f번째 프레임의 k번째 주파수 성분을 X m,f (k)라고 할 때,
    주 마이크로부터의 주파수 도메인 신호를 시간축으로 평활화한 X1(k)는
    Figure pat00018

    에 의해 구하며,
    하나 또는 그 이상의 보조 마이크로부터의 주파수 도메인 신호에 대한 f번째 프레임의 k번째 주파수 성분의 전력 정규화한 신호 Yf(k)는
    Figure pat00019

    에 의해 구하며,
    Y f (k)를 시간축으로 평활화한 Y(k)
    Figure pat00020

    에 의해 구하며,
    {Y(k)/X 1 (k)}의 최대값을 1로 한정하는 최대 수렴 상수 값을 μ max 라 할 때,
    적응 디지털 필터의 수렴 변수 μf(k)는, i를 2 이상의 자연수라 할 때
    Figure pat00021

    에 의하여 구하는, 지향성 빔포밍 방법.
  6. 제5항에 있어서,
    상기 주 마이크로부터의 주파수 도메인 신호에서 m번째 마이크 신호를 필터링한 신호까지 순차적으로 감산한 신호를 Ef,m(k)라 할 때,
    m번째 마이크 신호의 f번째 프레임에 대한 k번째 주파수 성분의 적응 디지털 필터의 계수 W f,m (k)
    Figure pat00022

    에 의하여 구하는, 지향성 빔포밍 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 보조 마이크는 복수의 마이크를 구비하는 마이크 어레이인, 지향성 빔포밍 방법.
  8. 제7항에 있어서,
    상기 주 마이크는 상기 보조 마이크보다 화자 쪽에 가까이 위치하는, 지향성 빔포밍 방법.
  9. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 주 마이크와 상기 보조 마이크는 하나의 마이크 어레이로 구성되는, 지향성 빔포밍 방법.
  10. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 주 마이크는 운전자 쪽으로 배치되고, 상기 보조 마이크는 뒷좌석쪽으로 배치되는 것인, 지향성 빔포밍 방법.
  11. 주 마이크 및 하나 또는 그 이상의 보조 마이크로부터의 디지털 오디오 신호를 각각 주파수 도메인 신호로 변환하는 주파수 도메인 변환부와,
    상기 주 마이크와 상기 하나 또는 그 이상의 보조 마이크로부터의 주파수 도메인 신호를 사용하여 적응형 디지털 필터의 계수를 설정하는 디지털 필터 계수 설정부와,
    상기 하나 또는 그 이상의 보조 마이크로부터의 주파수 도메인 신호를 각각 필터링하는 적응형 디지털 필터와,
    상기 주 마이크로부터의 주파수 도메인 신호에서 상기 필터링한 신호를 순차적으로 감산하여 빔포밍된 출력신호를 생성하는 가산부
    를 구비하는 지향성 빔포밍 장치.
  12. 제11항에 있어서, 상기 디지털 필터 계수 설정부는,
    상기 주 마이크로부터의 주파수 도메인 신호를 시간축으로 평활화하는 제1 평활화부와,
    상기 하나 또는 그 이상의 보조 마이크로부터의 주파수 도메인 신호를 전력 정규화하는 전력 정규화부와,
    상기 전력 정규화된 신호를 시간축으로 평활화하는 제2 평활화부와,
    상기 평활화된 주 마이크로부터의 주파수 도메인 신호와, 상기 평활화된 보조 마이크로부터의 주파수 도메인 신호를 사용하여 적응형 디지털 필터의 수렴 변수를 구하는 수렴 변수 계산부
    를 구비하는 지향성 빔포밍 장치.
  13. 제12항에 있어서,
    m번째 마이크 신호의 f번째 프레임의 k번째 주파수 성분을 Xm,f(k)라고 할 때,
    주 마이크로부터의 주파수 도메인 신호를 시간축으로 평활화한 X1(k)는
    Figure pat00023

    에 의해 구하며,
    하나 또는 그 이상의 보조 마이크로부터의 주파수 도메인 신호에 대한 f번째 프레임의 k번째 주파수 성분의 전력 정규화한 신호 Yf(k)는
    Figure pat00024

    에 의해 구하며,
    Yf(k)를 시간축으로 평활화한 Y(k)는
    Figure pat00025

    에 의해 구하며,
    {Y(k)/X1(k)}의 최대값을 1로 한정하는 최대 수렴 상수 값을 μmax라 할 때,
    적응 디지털 필터의 수렴 변수 μf(k)는,
    Figure pat00026

    에 의하여 구하는, 지향성 빔포밍 장치.
  14. 제13항에 있어서,
    상기 주 마이크로부터의 주파수 도메인 신호에서 m번째 마이크 신호를 필터링한 신호까지 순차적으로 감산한 신호를 Ef,m(k)라 할 때,
    m번째 마이크 신호의 f번째 프레임에 대한 k번째 주파수 성분의 적응 디지털 필터의 계수 W f,m (k)
    Figure pat00027

    에 의하여 구하는, 지향성 빔포밍 장치.
  15. 제12항에 있어서,
    m번째 마이크 신호의 f번째 프레임의 k번째 주파수 성분을 X m,f (k)라고 할 때,
    주 마이크로부터의 주파수 도메인 신호를 시간축으로 평활화한 X1(k)는
    Figure pat00028

    에 의해 구하며,
    하나 또는 그 이상의 보조 마이크로부터의 주파수 도메인 신호에 대한 f번째 프레임의 k번째 주파수 성분의 전력 정규화한 신호 Yf(k)는
    Figure pat00029

    에 의해 구하며,
    Y f (k)를 시간축으로 평활화한 Y(k)
    Figure pat00030

    에 의해 구하며,
    {Y(k)/X 1 (k)}의 최대값을 1로 한정하는 최대 수렴 상수 값을 μ max 라 할 때,
    적응 디지털 필터의 수렴 변수 μf(k)는, i를 2 이상의 자연수라 할 때
    Figure pat00031

    에 의하여 구하는, 지향성 빔포밍 장치.
  16. 제15항에 있어서,
    상기 주 마이크로부터의 주파수 도메인 신호에서 m번째 마이크 신호를 필터링한 신호까지 순차적으로 감산한 신호를 Ef,m(k)라 할 때,
    m번째 마이크 신호의 f번째 프레임에 대한 k번째 주파수 성분의 적응 디지털 필터의 계수 W f,m (k)
    Figure pat00032

    에 의하여 구하는, 지향성 빔포밍 장치.
  17. 제11항 내지 제16항 중 어느 한 항에 있어서,
    상기 보조 마이크는 복수의 마이크를 구비하는 마이크 어레이인, 지향성 빔포밍 장치.
  18. 제17항에 있어서,
    상기 주 마이크는 상기 보조 마이크보다 화자 쪽에 가까이 위치하는, 지향성 빔포밍 장치.
  19. 제11항 내지 제16항 중 어느 한 항에 있어서,
    상기 주 마이크와 상기 보조 마이크는 하나의 마이크 어레이로 구성되는, 지향성 빔포밍 장치.
  20. 제11항 내지 제16항 중 어느 한 항에 있어서,
    상기 지향성 빔포밍 장치는 차량 내에 설치되며,
    상기 주 마이크는 운전자 쪽으로 배치되고, 상기 보조 마이크는 뒷좌석쪽으로 배치되는 것인, 지향성 빔포밍 장치.
KR1020180014494A 2018-02-06 2018-02-06 마이크 어레이를 이용한 지향성 빔포밍 방법 및 장치 KR102053109B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180014494A KR102053109B1 (ko) 2018-02-06 2018-02-06 마이크 어레이를 이용한 지향성 빔포밍 방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180014494A KR102053109B1 (ko) 2018-02-06 2018-02-06 마이크 어레이를 이용한 지향성 빔포밍 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20190094857A true KR20190094857A (ko) 2019-08-14
KR102053109B1 KR102053109B1 (ko) 2019-12-06

Family

ID=67621988

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180014494A KR102053109B1 (ko) 2018-02-06 2018-02-06 마이크 어레이를 이용한 지향성 빔포밍 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102053109B1 (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012086834A1 (ja) * 2010-12-21 2012-06-28 日本電信電話株式会社 音声強調方法、装置、プログラム、記録媒体
KR20130078919A (ko) * 2012-01-02 2013-07-10 현대모비스 주식회사 차량용 핸즈프리 통화 시스템 및 그 제어 방법
WO2017069811A1 (en) * 2015-10-22 2017-04-27 Cirrus Logic International Semiconductor Ltd. Adaptive phase-distortionless magnitude response equalization for beamforming applications

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012086834A1 (ja) * 2010-12-21 2012-06-28 日本電信電話株式会社 音声強調方法、装置、プログラム、記録媒体
KR20130078919A (ko) * 2012-01-02 2013-07-10 현대모비스 주식회사 차량용 핸즈프리 통화 시스템 및 그 제어 방법
WO2017069811A1 (en) * 2015-10-22 2017-04-27 Cirrus Logic International Semiconductor Ltd. Adaptive phase-distortionless magnitude response equalization for beamforming applications

Also Published As

Publication number Publication date
KR102053109B1 (ko) 2019-12-06

Similar Documents

Publication Publication Date Title
KR101339592B1 (ko) 음원 분리 장치, 음원 분리 방법, 및 프로그램을 기록한 컴퓨터 판독 가능한 기록 매체
US9002027B2 (en) Space-time noise reduction system for use in a vehicle and method of forming same
EP3040984B1 (en) Sound zone arrangment with zonewise speech suppresion
Ortega-García et al. Overview of speech enhancement techniques for automatic speaker recognition
JP5007442B2 (ja) 発話改善のためにマイク間レベル差を用いるシステム及び方法
JP4225430B2 (ja) 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム
US9992572B2 (en) Dereverberation system for use in a signal processing apparatus
CN110085248B (zh) 个人通信中降噪和回波消除时的噪声估计
US8468018B2 (en) Apparatus and method for canceling noise of voice signal in electronic apparatus
EP3692704A1 (en) Spatial double-talk detector
WO2016103709A1 (ja) 音声処理装置
JP2007011330A (ja) スピーチ信号の適合する強化のためのシステム
CN108376548A (zh) 一种基于麦克风阵列的回声消除方法与系统
EP1858295A1 (en) Equalization in acoustic signal processing
US20040258255A1 (en) Post-processing scheme for adaptive directional microphone system with noise/interference suppression
JP2000312395A (ja) マイクロホンシステム
CN1180602C (zh) 用于时空回声消除的方法和装置
KR102053109B1 (ko) 마이크 어레이를 이용한 지향성 빔포밍 방법 및 장치
Priyanka et al. Adaptive Beamforming Using Zelinski-TSNR Multichannel Postfilter for Speech Enhancement
Xu et al. Adaptive speech enhancement algorithm based on first-order differential microphone array
JP4138680B2 (ja) 音響信号処理装置、音響信号処理方法および調整方法
JP2012049715A (ja) 音源分離装置、音源分離方法、及び、プログラム
CN113362846A (zh) 一种基于广义旁瓣相消结构的语音增强方法
JP2009015209A (ja) 音声明瞭度改善システム及び音声明瞭度改善方法
CN113658605B (zh) 一种基于深度学习辅助rls滤波处理的语音增强方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant