KR102316627B1 - 심화신경망 기반의 가상 채널 확장을 이용한 wpe 기반 잔향 제거 장치 - Google Patents
심화신경망 기반의 가상 채널 확장을 이용한 wpe 기반 잔향 제거 장치 Download PDFInfo
- Publication number
- KR102316627B1 KR102316627B1 KR1020200097584A KR20200097584A KR102316627B1 KR 102316627 B1 KR102316627 B1 KR 102316627B1 KR 1020200097584 A KR1020200097584 A KR 1020200097584A KR 20200097584 A KR20200097584 A KR 20200097584A KR 102316627 B1 KR102316627 B1 KR 102316627B1
- Authority
- KR
- South Korea
- Prior art keywords
- signal
- reverberation
- wpe
- deep neural
- virtual channel
- Prior art date
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 78
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 63
- 238000000034 method Methods 0.000 claims description 41
- 238000012549 training Methods 0.000 claims description 22
- 238000005070 sampling Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 14
- 238000002474 experimental method Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000005236 sound signal Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000010200 validation analysis Methods 0.000 description 4
- 238000007476 Maximum Likelihood Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000013515 script Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 230000000087 stabilizing effect Effects 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
- H04R3/02—Circuits for transducers, loudspeakers or microphones for preventing acoustic reaction, i.e. acoustic oscillatory feedback
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/007—Two-channel systems in which the audio signals are in digital form
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L2021/02161—Number of inputs available containing the signal or the noise to be suppressed
- G10L2021/02163—Only one microphone
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2227/00—Details of public address [PA] systems covered by H04R27/00 but not provided for in any of its subgroups
- H04R2227/007—Electronic adaptation of audio signals to reverberation of the listening space for PA
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Quality & Reliability (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Otolaryngology (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
본 발명의 실시예에 따른 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치는, 단일 채널 마이크를 통해 제1 음성 신호를 입력받는 신호 수신부; 상기 제1 음성 신호에 심화 신경망 기반의 가상 채널 확장 알고리즘을 적용함으로써, 제2 음성 신호를 생성하기 위한 신호 생성부; 및 상기 제1 음성 신호 및 상기 제2 음성 신호에 심화 신경망 기반의 2채널 WPE(weighted prediction error) 알고리즘을 적용함으로써, 상기 제1 음성 신호의 잔향을 제거하고, 잔향이 제거된 잔향 제거 신호를 생성하기 위한 잔향 제거부를 포함할 수 있다.
Description
본 발명은 심화신경망(deep neural network; DNN) 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치에 관한 발명으로서, 보다 구체적으로는 단일채널 음성신호 환경에서도 2채널(dual-channel) WPE 알고리즘을 이용하여 잔향을 효율적으로 제거할 수 있도록 심화신경망 기반의 가상 채널 확장을 이용한 기술에 관한 발명이다.
반향하는 공간(reverberant enclosure)에서 음성신호가 발화되면, 음파는 벽이나 천장, 장애물 등에 의해 반사된다. 따라서, 음성신호를 수집하기 위한 마이크로폰(microphone)은 현재 시점에 발화된 음성신호와, 과거 시점에 발화되어 시간 지연된 음성신호를 함께 입력받을 수 있다.
이때, 시간 도메인(time-domain)에서 마이크로폰의 입력신호는 음성발생원(speech source)과 마이크로폰 사이의 임펄스 응답(impulse response) 사이의 콘볼루션(convolution) 연산으로 표현될 수 있다. 수 있으며, 이 때의 임펄스 응답을 RIR(room impulse response)이라고 한다.
마이크로폰 입력신호는 크게 제1 성분 및 제2 성분으로 구성된다, 제1 성분은, 조기 도착(early arriving speech) 성분으로서, 음파가 반향이 없는 직접 경로(direct path)로 수집되거나 비교적 반향이 적은 경로로 수집된 신호의 성분을 의미한다, 제2 성분은 반향이 심한 경로를 통해 수집된 지연 잔향(late reverberation) 성분, 즉, 잔향 성분이다.
여기서 제2 성분(잔향 성분)은 음성신호를 청각적으로 듣기 좋지 않게 만드는 것뿐만 아니라, 음성신호를 입력받아 동작하는 음성인식이나 화자인식 등의 응용기술의 성능 또한 저하시키는 성분이다. 따라서, 이러한 잔향 성분을 제거하기 위한 알고리즘이 요구되고 있다.
WPE(Weighted prediction error) 알고리즘은 위와 같은 지연 잔향 성분(late reverberation)을 제거해주기 위한 알고리즘이다.
구체적으로, WPE는 시간 도메인의 음성신호를 STFT(short-time Fourier transform)를 이용하여 주파수 도메인으로 변환하고, 주파수 도메인에서 멀티채널 선형예측(multi-channel linear prediction; MCLP) 기법을 이용하여, 과거시점의 음성 샘플들로부터 현재시점의 잔향 성분을 추정하여 제거하는 방식의 알고리즘이다.
일반적으로, WPE 알고리즘은 단일 채널(single-channel) 신호가 입력되면 단일 출력을 내고, 다채널 음성신호가 입력되면 다채널 출력을 낸다.
이때, 단일 마이크로폰을 통해 수집한 단일 채널 음성신호만 주어진 경우보다 다수의 마이크로폰으로 구성된 마이크로폰 어레이(array)를 통해 수집한 다채널 음성신호가 주어졌을 때에 잔향 성분을 보다 효과적으로 제거할 수 있다. 즉, 단일 채널 WPE 알고리즘보다 다채널 WPE 알고리즘의 성능이 더 우수하다고 할 수 있다.
한편, 선행기술문헌 "Virtually increasing microphone array elements by interpolation in complex-logarithmic domain," H. Katahira, N. Ono, S. Miyabe, T. Yamada, and S. Makino, EUSIPCO, 2013."에서는 두 개의 마이크로폰을 통해 수집한 신호가 주어졌을 때, 이 두 개 신호를 complex logarithm domain에서 interpolation함으로써 새로운 가상의 마이크로폰(virtual microphone) 신호를 만들어내는 기술을 제안한 바 있다. 구체적으로, 상기 기술은 STFT 계수로부터 계산한 크기(magnitude)와 위상(phase)에 각각 보간(interpolation)을 적용하는 방식을 사용하였다. 선행기술문헌에서는 생성된 다수의 가상 마이크로폰 신호를 특정 종류의 빔포머(beamformer)에 적용하여 잡음을 효과적으로 제거할 수 있음을 보였다.
선행기술문헌에서 개시된 기술과 본 발명과의 가장 큰 차이점은, 선행기술문헌의 기술은 두 개의 마이크로폰을 통해 수집한 신호들을 기반으로 보간법을 통해 가상 마이크로폰 신호를 생성하는 반면, 본 발명에서 제안하는 방법은 오직 하나의 마이크로폰으로 수집한 음성신호가 주어진 상황을 가정하였을 때, 멀티채널 잔향제거 알고리즘을 사용하기 위해 가상채널 음성신호를 생성한다는 점이다.
본 발명의 목적은 반향하는 공간에서 수집된 단일채널 음성신호로부터 잔향 성분을 효과적으로 제거하기 위하여, 단일채널 음성신호만 주어졌을 때에 2채널(dual-channel) WPE 알고리즘을 이용할 수 있는, 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치를 제공하는 데 있다.
본 발명의 다른 목적은 심화신경망을 이용하여 가상채널(virtual acoustic channel) 음성신호를 생성하고, 2채널 WPE 알고리즘을 통해 단일 채널 WPE보다 우수한 성능으로 잔향 성분을 제거할 수 있는 WPE 기반 잔향 제거 장치를 제공하는 데 있다.
본 발명의 실시예에 따른 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치는, 단일 채널 마이크를 통해 제1 음성 신호를 입력받는 신호 수신부; 상기 제1 음성 신호에 심화 신경망 기반의 가상 채널 확장 알고리즘을 적용함으로써, 제2 음성 신호를 생성하기 위한 신호 생성부; 및 상기 제1 음성 신호 및 상기 제2 음성 신호에 심화 신경망 기반의 2채널 WPE(weighted prediction error) 알고리즘을 적용함으로써, 상기 제1 음성 신호의 잔향을 제거하고, 잔향이 제거된 잔향 제거 신호를 생성하기 위한 잔향 제거부를 포함할 수 있다.
또한, 상기 신호 생성부는, 상기 제1 음성 신호의 STFT 계수의 실수부 및 허수부를 입력으로 받고, 상기 제2 음성 신호의 STFT 계수의 실수부 및 허수부를 출력할 수 있다.
또한, 본 발명의 실시예에 따른 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치는, 심화 신경망 기반의 파워 추정 알고리즘을 이용하여, 상기 제1 음성 신호 및 상기 제2 음성 신호를 기초로 하여, 상기 제1 음성 신호의 잔향 제거 신호의 파워를 추정하기 위한 파워 추정부를 더 포함할 수 있다.
또한, 상기 파워 추정부는, 상기 잔향 제거부로 상기 잔향 제거 신호의 파워 추정값을 제공하고, 상기 잔향 제거부는, 상기 파워 추정값을 이용하여 상기 제1 음성 신호에 포함된 잔향을 제거할 수 있다.
또한, 잔향 성분이 포함된 상기 제1 음성 신호를 입력받아 상기 잔향 제거 신호의 파워를 추정하도록, 상기 파워 추정부의 파워 추정 알고리즘이 학습된 후, 상기 신호 생성부의 가상 채널 확장 알고리즘이 학습될 수 있다.
또한, 상기 신호 생성부의 가상 채널 확장 알고리즘의 학습은, 사전 훈련 단계 및 미세 조정 단계를 포함하며, 상기 사전 훈련 단계는, 상기 가상 채널 확장 알고리즘이 입력되는 신호와 동일한 실수부 및 허수부를 추정하도록 하는 자기 회귀 과제를 수행할 수 있다.
또한, 상기 미세 조정 단계는, 상기 가상 채널 확장 알고리즘이 가상 채널 음성 신호와 실제로 관측된 음성 신호를 2채널 WPE를 통과시켜 도출된 출력 신호가 조기 도착 신호에 가까워지도록 학습될 수 있다.
또한, 상기 파워 추정 알고리즘은, 상기 사전 훈련 단계 및 상기 미세 조정 단계 동안 학습되지 않을 수 있다.
또한, 상기 가상 채널 확장 알고리즘은, 일반적인 콘볼루션 연산 대신 GLU(gated linear unit)을 사용한 유-넷 구조를 가질 수 있다.
또한, 상기 가상 채널 확장 알고리즘은, 특징 맵을 다운 샘플링(down-sampling) 할 때에, 맥스-풀링(max-pooling)하지 않고, 스트라이드(stride)가 (2, 2)인 2D 콘볼루션(convolution) 연산을 수행할 수 있다.
본 발명의 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치는, 하나의 마이크로폰으로 수집한 음성신호만이 주어졌을 때, 잔향 성분을 제거하기 위해 단일 채널 WPE를 사용하지 않고, 마이크로폰의 개수를 늘리지 않는 상태에서 가상 채널 확장을 통해 2채널 WPE를 사용함으로써, 우수한 성능을 얻을 수 있는 효과가 있다.
또한, 본 발명의 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치는, 마이크로폰의 개수를 늘리는 대신, 알고리즘적(algorithmic) 관점에서 문제를 해결하는 방법을 제안한 것으로, 마이크로폰을 추가로 설치하는 데에 필요한 비용을 획기적으로 줄일 수 있는 효과가 있다.
도 1은 본 발명의 실시예에 따른 잔향 환경에서 단일 채널 마이크를 이용한 음성 신호의 입력 방법을 나타내는 도면이다.
도 2는 본 발명의 실시예에 따른 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치를 나타내는 도면이다.
도 3은 본 발명의 실시예에 따른 가상 채널 확장을 위한 심화 신경망의 구조를 나타내는 도면이다.
도 4는 본 발명의 실시예에 따른 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치의 상세한 구조를 나타내는 도면이다.
도 5는 본 발명의 실시예에 따른 WPE 기반 잔향 제거 장치의 성능과 다양한 잔향 제거 알고리즘의 성능을 비교한 표이다.
도 6은 본 발명의 실시예에 따른 WPE 기반 잔향 제거 장치의 입력 및 출력 신호의 스펙트로그램을 도시화한 도면이다.
도 2는 본 발명의 실시예에 따른 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치를 나타내는 도면이다.
도 3은 본 발명의 실시예에 따른 가상 채널 확장을 위한 심화 신경망의 구조를 나타내는 도면이다.
도 4는 본 발명의 실시예에 따른 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치의 상세한 구조를 나타내는 도면이다.
도 5는 본 발명의 실시예에 따른 WPE 기반 잔향 제거 장치의 성능과 다양한 잔향 제거 알고리즘의 성능을 비교한 표이다.
도 6은 본 발명의 실시예에 따른 WPE 기반 잔향 제거 장치의 입력 및 출력 신호의 스펙트로그램을 도시화한 도면이다.
이하 첨부한 도면을 참고하여 본 발명의 실시예 및 그 밖에 당업자가 본 발명의 내용을 쉽게 이해하기 위하여 필요한 사항에 대하여 상세히 기재한다. 다만, 본 발명은 청구범위에 기재된 범위 안에서 여러 가지 상이한 형태로 구현될 수 있으므로 하기에 설명하는 실시예는 표현 여부에 불구하고 예시적인 것에 불과하다.
동일한 도면부호는 동일한 구성요소를 지칭한다. 또한, 도면들에 있어서, 구성요소들의 두께, 비율, 및 치수는 기술적 내용의 효과적인 설명을 위해 과장된 것이다. "및/또는"은 연관된 구성들이 정의할 수 있는 하나 이상의 조합을 모두 포함할 수 있다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다.
또한, "아래에", "하측에", "위에", "상측에" 등의 용어는 도면에 도시된 구성들의 연관관계를 설명하기 위해 사용된다. 상기 용어들은 상대적인 개념으로, 도면에 표시된 방향을 기준으로 설명된다.
"포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
즉, 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 이하의 설명에서 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라 그 중간에 다른 소자를 사이에 두고 전기적으로 연결되어 있는 경우도 포함할 수 있다. 또한, 도면에서 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 참조번호 및 부호로 나타내고 있음에 유의해야 한다.
도 1은 본 발명의 실시예에 따른 잔향 환경에서 단일 채널 마이크를 이용한 음성 신호의 입력 방법을 나타내는 도면이다.
도 1을 참조하면, 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치는 단일 채널의 마이크(MIC)를 통해 입력 받은 음성 신호만을 가지고, 심화 신경망 기반의 가상 채널 확장을 이용하여 2채널 WPE에 적용함으로써, 잔향을 효과적으로 제거할 수 있다. 본 명세서에서 설명되는 WPE는 심화 신경망 기반의 가중 예측 오류(weighted prediction error)를 의미할 수 있다.
본 발명에서는 설명의 편의를 위해 잡음이 존재하지 않는 반향 공간(noiseless reverberant enclosure)에서 단일 채널 마이크(MIC)를 이용하여 음성 신호가 수집되는 시나리오를 가정하여 설명하나, 본 발명의 원리는 배경 잡음이 존재하는 환경에서도 동일하게 확장하여 적용될 수 있다.
도 1에 도시된 바와 같이, 발화원(SPK)에서 발생한 음성 신호는 단일 채널 마이크(MIC)로 입력될 수 있다. 이때, 동일한 시점에 발생한 음성 신호라도, 음파의 경로에 따라 단일 채널 마이크(MIC)에 도달하는 시점이 달라질 수 있다.
이에 따라, 본 명세서에서, 음성 신호는 제1 성분 및 제2 성분의 합으로 구성된 것으로 가정한다. 제1 성분은 발화원(SPK)으로부터 단일 채널 마이크(MIC)로의 직접경로 또는 반향이 심하지 않은 경로를 통해 입력된 성분(즉, 조기 도착 신호)이고, 제2 성분은 반향이 심한 경로를 통해 입력된 성분(즉, 잔향 신호)일 수 있다.
[수학식 1]
[수학식 1]에서, X는 단시간 푸리에 변환(STFT) 도메인에서의 음성 신호를 나타내고, t와 f는 단시간 푸리에 변환 계수의 시간-프레임(time-frame) 인덱스와 주파수(frequency) 인덱스를 나타낸다.
이 때, 제1 성분을 나타내는 첫 번째 항은, 룸 임펄스 응답(room impulse response; RIR)의 시작 지점부터 메인 피크(main peak)에서 50ms 이후 지점까지 잘라낸 영역에 대응되며, 잘려진 RIR(truncated RIR)과 소스 음성(source speech) 사이의 콘볼루션 연산을 통해 계산되는 것으로 가정한다. 첫 번째 항은 제2 성분(즉, 잔향 성분)이 완전히 제거되고 제1 성분만이 남아있는 이상적인 음성 신호로 간주될 수 있다.
단일 채널 마이크(MIC)에 입력된 잔향 성분은 음성인식, 방향 추정, 음성의 모델링, 및 위치 추정 등의 음성, 음향 신호처리 과정의 정확도를 현저히 떨어뜨리므로, 잔향 성분을 효과적으로 제거하는 것은 음성 신호처리 분야에서 늘 필수적인 요소이다.
이에 단일 채널 마이크를 이용하여 음성 신호를 입력 받는 경우, 심화 신경망 기반의 가상 채널 확장을 이용하여 2채널 WPE에 적용할 수 있다.
다시 말하면, 일 실시예에 따른 심화 신경망을 이용한 다채널 마이크 기반의 잔향시간 추정 방법은 다채널 마이크를 이용하여 입력신호 사이의 상대적인 공간 정보를 추정에 활용할 수 있으며, 뿐만 아니라 공간의 잔향 특성을 잘 나타낼 수 있는 특징 벡터 간의 비선형적인 분포를 깊은 구조 기반의 머신 러닝 기법인 심화 신경망을 이용해 모델링하여 잔향의 정도를 추정할 수 있다.
본 발명에서는 이와 같은 가상 채널 확장 기법을 잔향제거를 위한 WPE 알고리즘을 기반으로 하여 적용하였지만, 본 발명이 이에 한정되는 것은 아니다. 실시예에 따라, 가상 채널 확장 방법은 잡음제거를 위한 parametric multi-channel Wiener filter (PMWF)와 같은 멀티채널 잡음제거 알고리즘에도 적용할 수 있다.
실시예에 따라, 모바일 기기, IoT 기기 등 다양한 환경에서 차용되고 있는 구조의 다채널 마이크를 이용하는 경우에도, 본 발명의 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치를 이용하여, 단점을 보완하고 정확도와 잡음에서의 강인함을 개선시킨 잔향 제거 방법을 제공할 수 있다.
도 2는 본 발명의 실시예에 따른 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치(10)를 나타내는 도면이다.
본 발명의 실시예에 따른 WPE 기반 잔향 제거 장치(10)는 방 안이나 강의실 등 반향이 심한 공간에서 단일 마이크로폰을 이용하여 음성 애플리케이션을 사용할 때에, 전처리(pre-processing) 모듈로써 잔향제거 알고리즘을 사용하는 모든 연구 분야와 관련이 있다. 특히, 잔향이 존재하는 환경에서 음성 애플리케이션을 사용하는 인공지능 스피커, 로봇, 휴대단말기 등에 적용되어 애플리케이션이 구현하고 있는 기술(음성인식, 화자인식 등)의 성능을 향상시킬 수 있다.
또한, 본 발명의 실시예에 따른 WPE 기반 잔향 제거 장치(10)는 인공지능 스피커, 로봇, 휴대단말기 등을 이용하여 음성인식이나 화자인식을 수행하는 것을 목적으로 하는 애플리캐이션에 적용 가능하며, 특히 구조적으로 비용을 절감하기 위해 오직 하나의 마이크로폰을 사용해야만 하는 경우 더욱 효과적이다.
도 2를 참조하면, 본 발명의 실시예에 따른 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치(10)는 신호 수신부(100), 신호 생성부(200), 파워 추정부(300) 및 잔향 제거부(400)를 포함할 수 있다.
신호 수신부(100)는 도 1에 도시된 단일 채널 마이크(MIC)에 대응되는 구성으로서, 단일 채널 마이크(MIC)로부터 제1 음성 신호(AS1)를 수신할 수 있다. 이때, 제1 음성 신호(AS1)는 도 1에 도시된 발화원(SPK)로부터 입력된 신호로서, 잔향 성분을 포함한다.
신호 생성부(200)는 제1 음성 신호(AS1)에 심화 신경망 기반의 가상 채널 확장(virtual acoustic channel expansion; VACE)을 적용함으로써, 제2 음성 신호(AS2)를 생성할 수 있다. 제2 음성 신호(AS2)는 가상 채널 음성 신호일 수 있다. 신호 생성부(200)의 심화 신경망 기반의 가상 채널 확장 방법은 도 3에서 보다 자세하게 설명된다.
파워 추정부(300)는 심화 신경망 기반의 파워 추정 알고리즘을 이용하여, 제1 음성 신호(AS1) 및 제2 음성 신호(AS2)를 기초로 하여, 제1 음성 신호(AS1)의 잔향 제거 신호의 파워를 추정할 수 있다. 파워 추정부(300)는 잔향 제거부(400)로 잔향 제거 신호(NRS)의 파워 추정값을 제공할 수 있다.
잔향 제거부(400)는 제1 음성 신호(AS1) 및 제2 음성 신호(AS2)에 심화 신경망 기반의 2채널 WPE를 적용함으로써, 제1 음성 신호(AS1)의 잔향(예컨대, 잔향 성분(late reverberation))을 제거할 수 있다. 그리고, 잔향 제거부(400)는 잔향이 제거된 잔향 제거 신호(NRS)를 출력할 수 있다. 잔향 제거부(400)는 파워 추정값을 이용하여 제1 음성 신호(AS1)에 포함된 잔향을 제거할 수 있다.
예컨대, 파워 추정부(300) 및 잔향 제거부(400)는 2채널 WPE 시스템을 구성할 수 있다. 실시예에 따라, 파워 추정부(300) 및 잔향 제거부(400)는 통합되어 일체로 구현될 수 있다.
이하에서, 심화신경망을 활용한 WPE 기반 잔향 제거 방법을 설명한다.
고전적인 WPE 잔향 제거 기술은 선형 예측(linear prediction) 필터를 이용하여, 입력 신호의 잔향 성분을 추정하고, 선형 예측을 통해 추정한 잔향 성분을 입력 신호로부터 빼 줌으로써 잔향이 제거된 신호의 최대 공산(maximum likelihood; ML) 추정값을 계산해낸다. 이러한 선형 예측 필터를 추정하기 위한 닫힌 형태의 솔루션(closed form solution)은 존재하지 않기 때문에, 반복적인(iterative) 방식으로 필터의 계수를 추정해야 하며, 그 과정은 아래의 식과 같이 표현할 수 있다.
[수학식 2]
[수학식 3]
[수학식 4]
[수학식 5]
[수학식 6]
여기서 는 선형 예측 기법을 통해 추정한 조기 도착(early arriving) 신호의 추정값을 나타내고, 는 추정한 조기 도착 신호의 시간-주파수 bin (t, f)에서의 파워를 나타내고, K는 선형 예측 필터의 차수(order)를 나타낸다.
Δ는 선형 예측 알고리즘의 딜레이(delay)를 나타내고, 와 G는 각각 마이크의 입력 신호의 STFT 계수와 선형 예측 필터의 계수를 현재 프레임 t를 기준으로 과거 Δ번째 프레임부터 과거 (Δ+K-1)번째 프레임까지 쌓아 놓은 stacked representation을 나타낸다.
반면, 본 발명의 실시예에 따른 심화 신경망을 활용한 WPE 잔향 제거 방법은, 상술한 고전적인 WPE 알고리즘의 일부분을 심화 신경망을 활용한 로직으로 대체한다.
보다 구체적으로는, [수학식 6]에서의 조기 도착 신호의 파워를 추정하는 부분을 심화신경망으로 대체한다. 이때, 심화 신경망은 마이크 입력 신호의 파워를 입력받아 잔향 성분이 제거된 의 파워를 추정하도록 학습될 수 있다. 이는 음성 성분과 잡음 성분 모두에서, 잔향 성분을 제거하는 것을 목적으로 심화 신경망을 학습하는 방법이다,
심화 신경망의 학습이 끝나면, 심화 신경망을 이용하여 채널별로 조기 도착 신호의 파워 추정값을 계산한 뒤, 모든 채널에 대해 평균을 취하여 [수학식 2]의 좌변인 를 대신할 수 있는 파워 추정값을 계산할 수 있다. 그 후, [수학식 3] 내지 [수학식 6]의 과정을 거쳐 early reflection 신호의 STFT 계수를 추정할 수 있다.
조기 도착 신호의 파워를 추정하기 위한 심화 신경망은, 추정한 조기 도착 신호의 파워와 정답 조기 도착 신호의 파워 사이의 mean squared error(MSE)를 최소화하도록 학습될 수 있다. 이때, 실제 입출력으로는 파워에 log를 취하여 log-scale로 변환한 LPS가 사용되며, WPE 알고리즘에 적용될 때에는 다시 exponential 연산을 통해 linear-scale로 변환한 뒤에 적용할 수 있다.
도 3은 본 발명의 실시예에 따른 가상 채널 확장(virtual acoustic channel expansion; VACE)을 위한 심화 신경망의 구조를 나타내는 도면이다. 이때, 도 2에 도시된 신호 생성부(200)는 도 3에 도시된 가상 채널 확장을 위한 심화 신경망을 포함할 수 있다.
도 3을 참조하면, 가상 채널 확장을 위한 심화 신경망은 주어진 제1 음성 신호의 STFT 계수의 실수부(real component) 및 허수부(imaginary component)를 입력으로 받고, 제2 음성 신호의 STFT 계수의 실수부 및 허수부를 출력할 수 있다.
본 발명에서는 가상채널확장을 위해 유-넷(U-Net: Convolutional Networks for Biomedical Image Segmentation) 구조를 차용하였으며, 일부 설정을 변경하여 적용하였다. 유-넷은 기본적으로 콘볼루셔널 인코더-디코더(convolutional encoder-decoder) 구조로 이루어져 있으며, 인코더의 특징 맵(feature map)과 디코더의 특징 맵을 연결(concatenate)하는 연산이 특징이다.
본 발명에서 변경한 유-넷 구조의 설정은 아래와 같다.
특징 맵을 다운 샘플링(down-sampling) 할 때에, 맥스-풀링(max-pooling)하지 않고, 스트라이드(stride)가 (2, 2)인 2D 콘볼루션(convolution) 연산을 사용하였다.
일반적인 콘볼루션 연산 대신 GLU(gated linear unit)을 사용하였으며, 이 때, 다운 샘플링 및 업 샘플링(up-sampling) 역할을 하는 콘볼루션 연산에서는 GLU를 사용하지 않고 일반적인 콘볼루션 연산을 사용하였다.
네트워크의 바틀넥(bottleneck) 부분에서 1Х1 콘볼루션 연산을 사용하였다.
디코딩 패스(Decoding path)에서 제2 음성 신호의 STFT 계수의 실수부 및 허수부 추정을 위해 별도의 디코더 스트림(decoder stream)을 사용하였다.
위의 변경 내용 이외에는 모두 기존의 U-Net 구조와 동일하도록 모델을 구성하였다. 도 3에서, 넓은 화살표는 모두 커널 사이즈(kernel size)가 3인 2D convolution 연산을 나타낸다.
본 발명의 가상채널확장을 위한 심화신경망은 학습을 위해 아래와 같은 형태의 손실함수를 사용할 수 있다.
[수학식 7]
[수학식 8]
[수학식 9]
이때, A와 B는 STFT 계수를 나타내고, 위첨자 r과 i는 STFT 계수의 실수부 및 허수부를 나타내고, |A|와 |B|는 크기 스펙트럼(magnitude spectra)을 나타내고, a와 b는 A와 B를 inverse STFT하여 얻은 시간-도메인의 신호를 나타낸다. α와 β는 신호를 표현하는 서로 다른 도메인에서 정의된 손실함수들 사이의 스케일(scale)을 맞추기 위한 스케일링 펙터(scaling factor)이다. MSE는 평균 제곱 오차(mean square error)를 나타내고, MAE는 평균 절대 오차(mean absolute error)를 나타낸다.
도 4는 본 발명의 실시예에 따른 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치의 상세한 구조를 나타내는 도면이다. 설명의 편의를 위해, 단일 채널 WPE 시스템을 대조군으로서 함께 도시하였으나, 본 발명이 이에 한정되는 것은 아니다.
도 4를 참조하면, 가상 채널 확장의 심화 신경망(이하, VACENet)의 학습을 시작하기 위해서, 먼저 VACENet을 이미 학습된 심화 신경망 기반의 WPE 시스템에 통합시켜야 한다. 이때, VACENet은 도 1에 도시된 신호 생성부(200)에 대응하고, WPE 시스템은 파워 추정부(300) 및 잔향 제거부(400)에 대응할 수 있다.
도 4는 VACENet과 2채널 WPE가 통합된 VACE-WPE 시스템의 블록도를 나타낸다.
도 4에서 소문자 알파벳은 모두 시간-도메인의 음성신호를, 대문자 알파벳은 모두 STFT 도메인의 음성신호를 나타낸다.
x1과 xv는 각각 주어진 단일 채널 음성신호와 VACENet을 통해 생성한 가상채널 음성신호를 나타낸다.
Z1과 Zv는 각각 X1과 X2를 2채널 WPE에 통과시켜 얻은 잔향 제거 신호의 STFT 계수를 나타낸다.
Z0는 주어진 단일채널 음성 신호를 대조군인 단일 채널 WPE에 통과시켜 얻은 잔향 제거 신호의 STFT 계수를 나타낸다.
본 발명의 실시예에 따른 WPE 기반 잔향 제거 장치를 구성하기 위해서는 먼저 심화 신경망 기반의 WPE 알고리즘을 준비해야 한다. 특히 WPE는 고정된 알고리즘이기 때문에, 심화 신경망 기반의 WPE의 구성 요소로써 필요한 조기 도착 음성 신호의 log-scale power spectra (LPS)를 추정하기 위한 neural network(즉, LPSNet)를 먼저 학습해두어야 한다. LPSNet은 잔향 포함 신호의 LPS를 입력으로 받아 조기 도착 신호의 LPS를 추정하도록 학습된다.
다음으로는 주어진 단일채널 음성신호를 입력받아 가상채널 음성신호를 생성하는 역할을 하는 neural network (즉, VACENet)를 학습해야 한다. VACENet의 학습 단계는 사전 훈련(pre-training)과 미세 조정(fine-tuning)의 두 단계로 나눌 수 있다. Pre-training을 해야 하는 이유는 VACENet을 무작위 초기화(randomly initialize)하게 되면 가상채널 음성신호가 랜덤으로 생성되어 WPE의 입력으로써 효과적이지 못하게 되기 때문이다.
VACENet은 기본적으로 관측된 단일채널 음성신호를 short-time Fourier transform (STFT)하여 얻을 수 있는 STFT coefficients들의 실수부 및 허수부들을 입력으로 받고, 가상채널 음성신호의 RI component를 출력하도록 구성된다.
사전 훈련(Pre-training) 단계에서 VACENet은 단순히 입력과 동일한 실수부 및 허수부를 추정하도록 학습되며, 이는 실제로 관측되는 2채널 신호가 서로 그리 많은 차이를 보이지 않을 것이라는 가정 하에 이루어지는 것이다. Pre-training 과정은 심화 신경망 WPE와 관계없이 독립적으로 수행 가능하다.
사전 훈련(Pre-training) 과정이 완료되고 나면, fine-tuning을 진행하기 위해 VACENet을 neural WPE와 통합하여 본 발명에서 제안하는 VACE-WPE 시스템(즉, 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치)을 구성한다.
미세 조정(Fine-tuning) 단계에서 VACENet은 생성한 가상채널 음성신호를 실제로 관측된 단일채널 음성신호와 함께 2채널 WPE에 통과시켜서 도출된 출력 신호가 조기 도착 신호에 가까워지도록 학습된다. Pre-training 및 fine-tuning 과정에서 사용한 loss function의 종류는 [수학식 7] 내지 [수학식 9]에 정의되어 있다.
블록도를 통해 본 발명에서 제안하는 VACE-WPE 시스템의 구조를 도 1에 도시된 내용과 관련하여 간략히 설명하면, 신호 생성부(200)는 주어진 단일 채널 음성 신호를 이용하여 VACENet을 통해 가상 채널 음성 신호를 생성할 수 있다.
파워 추정부(300)는 음성 신호의 메인 신호의 파워를 추정하기 위해 사용되는 심화 신경망을 포함할 수 있다.
잔향 제거부(400)는 2채널 WPE 알고리즘을 이용하여, 단일 채널 신호 및 생성한 가상 채널 신호로 이루어진 2채널 음성 신호를 잔향을 제거할 수 있다.
그러나 위와 같은 구조를 구성한 뒤에 2채널 WPE가 단일 채널 WPE보다 우수한 잔향 제거 성능을 보이는 출력 신호를 출력하도록 학습하려면, 우선적으로 VACENet의 사전학습을 진행하여야 한다. VACENet의 사전학습을 진행하지 않고 무작위 초기화(randomly initialize)된 상태로 바로 학습을 진행하면 가상 채널 신호도 무작위로 생성되어 WPE 알고리즘이 제대로 동작하지 않을 수 있기 때문이다.
VACENet의 사전 훈련은 VACENet의 입력 단에 사용하는 단일 채널 음성 신호와 동일한 신호를 출력단에서도 출력하도록 하는 자기 회귀 과제(self-regression task)를 수행함으로써 진행될 수 있다.
그 이유는 가상채널이 아니라 실제로 2채널 마이크를 이용하여 2채널 음성신호가 주어진다면, 두 신호가 유의미한 차이를 보이지 않는다고 가정하였기 때문이다. 실제로 사전학습 단계에서 VACENet은 L1(Xv,X1)를 최소화하도록 학습될 수 있다. 즉, VACENet은 Xv가 X1에 가까워지도록 학습될 수 있다.
이하에서, 가상채널확장 심화신경망(VACENet)의 미세 조정 방법(fine-tuning)에 대해 설명된다.
VACENet이 입력된 신호를 그대로 복원하는 방식으로 사전학습된 다음, 본격적으로 VACENet을 미세 조정하여 2채널 WPE가 단일 채널 WPE보다 잔향 제거 신호에 더욱 가까운 출력신호를 낼 수 있도록 학습할 수 있다.
이 때, 심화신경망 기반 WPE의 구성요소 중 조기 도착 신호의 파워를 추정하는 역할을 하는 파워 추정부(300)의 심화신경망(이하, LPSNet)은 VACENet의 학습 과정동안 함께 학습되지 않고, 학습이 정지된 상태로 조기 도착 신호의 파워를 추정하는데에 사용되기만 할 수 있다.
미세 조정 단계에서는 를 최소화하는 방향으로 VACENet의 매개변수(parameter)들이 학습될 수 있다. 즉, 2채널 WPE의 출력신호가 이상적인 조기 도착 신호에 가까워지도록 하는 것을 목적으로 하여 학습이 진행되는 것이다.
도 5는 본 발명의 실시예에 따른 WPE 기반 잔향 제거 장치의 성능과 다양한 잔향 제거 알고리즘의 성능을 비교한 표이다. 도 6은 본 발명의 실시예에 따른 WPE 기반 잔향 제거 장치의 입력 및 출력 신호의 스펙트로그램을 도시화한 도면이다.
이하에서는, 도 5 및 도 6을 참조하여, 본 발명의 실시예에 따른 WPE 기반 잔향 제거 장치의 성능 실험 방법 및 실험 결과가 설명된다,
먼저, 모든 실험은 TIMIT 영어 음성 데이터베이스(DB)를 이용하여 진행하였다. TIMIT DB는 잔향제거 또는 잡음제거 실험에서 자주 사용되는 공용 DB이다. 실험을 위해서 먼저 전체 DB에서 2.8초 이하의 지속시간을 갖는 발화들을 모두 제거하고, 남은 발화들 중 일부를 소량 떼어내어 검증 세트(validation set)로 사용하였다. 결과적으로 훈련 세트(training set)로 462명의 화자로부터 발화된 3,023개의 발화를, 검증 세트 로 458개의 발화를, 시험 세트 로 168명의 화자로부터 발화된 1,344개의 발화를 얻을 수 있었다.
VACENet을 학습하려면 TIMIT DB의 깨끗한 음성신호 발화들을 잔향으로 오염시킨 뒤에 이를 제거하도록 학습을 진행해야 하기 때문에, 잔향으로 오염시키는 데에 사용할 룸 임펄스 응답 세트(RIR set)이 필요하다. 본 발명의 실험에서는 Kaldi toolkit의 음성인식 및 화자인식 스크립트(script)에서 자주 사용되는 simulated RIR set을 사용하였다. 이 또한 공용 데이터로 많은 연구자들이 사용하고 있는 알려져있는 DB이다.
이 simulated RIR DB는 small room, medium room, 그리고 large room에서 시뮬레이션(simulation)을 통해 생성한 RIR들을 포함하고 있다.
그러나, 본 발명에서의 실험에서는 우선 small room RIR은 실험에 사용하지 않았다. Training RIR set은 16,200개의 medium room RIR과 5,400개의 large room RIR로, validation RIR set은 1,800개의 medium room RIR과 600개의 large room RIR로 구성하였다.
본 발명에서 제안하는 WPE 기반 잔향 제거 장치를 비교 및 평가하기 위한 평가 세트(evaluation set)을 구성하기 위해 사용한 RIR DB는 REVERB Challenge 2014에서 제공하는 real RIR로, 학습에 사용하는 simulated RIR과는 달리 인공적으로 생성한 것이 아닌 실제로 녹음한 RIR이다. 해당 RIR set은 small, medium, large room 각각에 대해 8개씩의 RIR을 포함하고 있다. 각 room에 대한 reverberation time (RT60)은 각각 0.25, 0.5, 0.7초 정도이다. 각 RIR은 총 8채널로 구성되어 있는데, 본 실험에서는 오직 첫 번째 채널만을 사용하여 실험을 진행하였다.
먼저 잔향에 오염된 음성샘플들은 16 kHz의 샘플링 주파수(sampling frequency)를 가졌으며, 64 ms 및 16 ms의 window size와 hop size를 이용하여 STFT 도메인 신호로 변환되었다. 이 때 사용된 FFT size는 1,024이며, 이에 따라 LPSNet의 입력으로는 513차원의 로그-스케일 파워 스팩트럼(log-scale power spectra; LPS)이 사용되고, VACENet의 입력으로는 513차원의 STFT 계수의 실수부 및 허수부를 채널 축으로 쌓은 특징(feature)이 사용되었다.
LPSNet의 구조로는 기존에 다른 연구 논문에서 제안된 구조를 차용하였다. 해당 논문은 "Monaural speech enhancement with dilated convolutions," S. Pirhosseinloo and J. S. Brumberg, in Proc. Interspeech, 2019. 이다.
위 논문에서 제안한 구조는 먼저 input feature에 대해 2D convolution (Conv2D) 연산과 맥스 풀링(max pooling) 연산을 여러 번 적용하고, 그 뒤에 dilated 1D convolution (Conv1D) 블록을 여러 개 쌓아서 처리하는 구조로 되어있다.
본 발명에서는 해당 구조에서 Conv2D의 kernel size를 (9, 9)에서 (5, 5)로 줄여서 사용하였고, channel 수를 (32, 64)에서 (24, 48)로 각각 줄여서 사용하였다. 또한, dilated Conv1D 블록의 수는 2개에서 4개로 늘려서 사용하였다.
Input LPS feature는 학습가능한 배치 정규화층(batch normalization layer)을 통해 정규화(normalize) 하였다.
VACENet에서도 마찬가지로 input feature에 배치 정규화(batch normalization)를 적용하였으며, 이 때 실수부 및 허수부에 각각 별도로 배치 정규화(batch normalization)을 적용하였다.
반면, VACENet의 출력 단에서는 미리 계산된 글로벌 평균 및 분산 통계(global mean and variance statistics)를 이용하여 출력된 실수부 및 허수부를 정규화 하였다.
VACENet의 구조에서 각 Conv2D 또는 transposed Conv2D 연산 뒤에는 배치 정규화와 지수 선형 유닛(exponential linear unit; ELU) 활성화 함수(activation function)를 사용하였다.
최종적인 VACE-WPE 시스템에서는 WPE 알고리즘에서 선형 예측 필터(linear prediction filter)의 딜레이(delay, Δ)를 3으로 설정하였으며, tap 수(K)를 20으로 설정하였다.
모델 학습을 위한 mini-batch를 구성할 때에는 on-the-fly 데이터 생성기를 사용하였다. 이 방법은 주어진 학습용 음성 데이터셋에서 임의로 하나의 깨끗한 음성 데이터를 선택하고, RIR 데이터셋에서 임의로 하나의 RIR 선택한 뒤, 이 두 신호의 콘볼루션(convolution)을 통해 임의의 reverberated speech를 만드는 방법을 사용하며, 이와 같이 랜덤하게 생성한 잔향 음성 발화(reverberated speech utterance)를 4개씩 묶어서 하나의 mini-batch로 사용하였다.
이 때, 음성 데이터는 convolution되기 전에 2.8초의 길이를 갖도록 임의의 구간에서 크롭(crop)된다. 심화신경망 학습을 위한 한 번의 training epoch는 6,000개의 mini-batch에 대한 iteration으로 정의하였다.
[수학식 7]과 [수학식 9]에서는 α=0.3 및 β=20의 값을 사용하였으며, 이 값들은 학습 초기 단계에서의 loss 값들을 보고 결정하였다. 모든 심화신경망들은 Adam optimizer를 통해 학습되었으며, LPSNet과 VACENet의 pre-training 단계에서는 10^(-4)를 learning rate의 초기값으로, VACENet의 fine-tuning 단계에서는 5*10^(-5)를 learning rate의 초기값으로 사용하였다.
Learning rate는 validation loss가 두 번 연속으로 최저값을 나타내지 못할 때마다 절반의 값으로 감소되었다. 또한, 드롭 아웃(dropout)과 그라디언트 클리핑(gradient clipping)은 학습을 정규화 및 안정화하는 데에 중요한 역할을 하였고, 이 때, dropout rate를 0.3으로, gradient clipping을 위한 global norm 값은 3.0으로 설정하였다.
심화신경망의 모든 weight들은 10^(-5)의 scaling factor로 정규화 되었다.
마지막으로, 실험을 통해 학습 단계에서만 WPE 알고리즘의 filter tap 수(K)를 10으로 설정하였다. 이와 같이 선형 예측 필터(linear prediction filter)의 tap 수를 줄이지 않으면 학습의 초기 단계에서부터 너무 작은 loss값이 발생하여 학습이 제대로 진행되지 않기 때문이다.
본 발명에서 제안하는 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반의 잔향 제거 장치는, 실제로 관찰된 단일 채널 speech만을 이용한 단일 채널 WPE 및 실제 2채널 speech를 이용한 2채널 WPE와 비교하여 평가되었다. 단일 채널 WPE의 filter tap 수는 60으로, 실제 2채널 WPE의 filter tap 수는 20으로 설정하였다. 또한, 여기서 실제 두 번째 채널 신호는 총 8채널의 REVERB Challenge 2014 RIR 중에서 1번 채널과 마주보고 있는 5번 채널의 RIR을 이용하여 생성되었다.
각 알고리즘의 잔향제거 성능은 perceptual evaluation of speech quality (PESQ), cepstrum distance (CD), log-liikelihood ratio (LLR), non-intrusive signal-to-reverberation modulation energy ratio (SRMR)을 통해 평가되었다.
위의 evaluation metric을 계산할 때에 사용된 기준 신호(reference signal)로는 실제 관찰된 신호의 조기 도착 신호를 사용하였다.
도 5를 참조하면 본 발명의 실시예에 따른 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반의 잔향 제거 장치의 성능과 다른 잔향제거 알고리즘의 성능 비교가 도시된다.
두 번째 행에는 단일 채널 WPE 출력신호에 대한 평가 결과가 나타나 있으며, z0로 표기되어 있다. 세 번째행과 네 번째 행에는 본 발명에서 제안하는 VACE-WPE 알고리즘의 실제채널 출력과 가상채널 출력에 대한 성능이 나타나 있으며, 각각 z1과 zv으로 표기되어 있다.
첫 번째 행에는 잔향제거 알고리즘을 사용하지 않은 잔향 음성 신호(reverberated speech signal, x1)에 대한 성능이 나타나 있으며, 마지막 행에는 실제 2채널 음성 신호를 이용한 2채널 WPE 알고리즘의 첫 번째 채널 출력신호(actual)에 대한 성능이 나타나 있다.
먼저, medium room과 large room에서의 성능을 분석해보면, 표의 처음 세 개의 행의 비교를 통해 WPE 알고리즘을 사용하였을 때에 아무런 처리도 하지 않은 경우보다 성능이 향상되는 것을 알 수 있다.
더욱이, 제안하는 VACE-WPE 방법(z1)이 기존의 단일 채널 WPE (z0)보다 우수한 성능을 보이는 것을 알 수 있으며, 이는 본 발명이 제안하는 잔향 제거 장치를 통해 2채널 WPE의 두 번째 채널 입력으로 효과가 있는 가상채널 음성신호를 심화 신경망을 통해 생성하는 것이 가능함을 의미한다.
그러나, 실제 2 채널 speech를 통해 잔향을 제거한 2채널 WPE 알고리즘이 여전히 가상채널 음성신호를 통해 잔향을 제거한 VACE-WPE 방법보다 좀 더 우수한 성능을 보이고 있다.
반면, 제안하는 방법을 통해 생성된 가상채널 음성신호(zv)는 나머지 신호들과는 전혀 다른 특성을 보이는 것을 파악할 수 있다. Evaluation metric을 통해 측정한 성능으로만 보면 가상채널 음성신호(zv)는 가장 좋지 않은 성능을 보이며, 그 성능 격차도 매우 크다는 것을 관찰할 수 있다.
도 6은 Large room 환경에서의 본 발명의 실시예에 따른 WPE 기반 잔향 제거 장치의 입력 및 출력 신호의 스펙트로그램을 도시화한 도면이다.
도 6을 참조하면, 생성된 가상채널 음성신호(xv)가 실제로 관찰된 음성신호(x1)와 전혀 다른 스펙트럼 패턴(spectral pattern)을 보임을 알 수 있으며, 이를 WPE에 통과하여 얻어지는 z1 또한 zv과 전혀 다른 특성을 보이는 것을 관찰할 수 있다.
그럼에도, 실제로 관측된 음성신호(x1) 채널에 대응되는 WPE의 출력신호(z1)는 실제 관측 음성 신호(x1)에 비해 잔향 성분이 전체적인 주파수 영역에서 감소되었음을 확인할 수 있다.
다음으로 small room에서의 성능을 살펴보면, medium 및 large room에서의 성능보다 전체적으로 훨씬 우수한 성능을 보이는 것을 알 수 있다.
또한, 서로 다른 WPE 알고리즘들의 성능이 PESQ, LLR 및 SRMR 관점에서 서로 유사한 것을 알 수 있다. 다만, WPE의 가상채널 출력신호인 zv는 medium 및 large room에서와 같이 나머지 신호와 전혀 다른 특성을 보였다.
반면, small room에서는 처리되지 않은 신호(unprocessed signal), 즉 잔향 포함 신호가 가장 낮은 CD 수치를 보였는데, 이는 small room acoustics가 학습 도중에 고려되지 않은 낯선 환경이기 때문이다.
또한, 선형 예측 필터의 tap 수가 small room 환경에서 사용하기에 비교적 큰 값을 가진다는 점때문에, 발생할 수 있다. 단일 채널 및 2채널 WPE 알고리즘에서 각각 60 및 20의 filter tap을 사용하였는데, 이는 잔향 성분이 그리 심하지 않은 small room 환경에서 사용하기에 조금 큰 값으로, 이와 같은 filter tap 수를 사용하였을 때에 과도하게 잔향 성분을 추정 및 제거함으로써 제거하지 않아야 하는 음성 성분들까지 제거되고, 이로 인해 출력신호에 왜곡이 생겼을 가능성이 높기 때문이다.
결과를 정리하자면, 본 발명의 실시예에 따른 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치의 VACENet은 단순히 관측된 단일 채널 음성 신호를 이용하여 MIMO(multi-input multi-output) WPE 알고리즘을 통해 잔향 성분을 더 잘 제거할 수 있게 하는 가상 보조 음성 신호를 생성하도록 학습되며, 생성된 가상 채널 신호가 어떤 마이크로폰 어레이의 특성을 갖고 있는 것 같지 않는다.
이와 같이 VACE-WPE의 가상채널 입출력 신호가 실제 신호와 많이 다른 특성을 보임에도 VACE-WPE의 실제채널 출력신호가 단일 채널 WPE의 출력신호보다 우수한 잔향제거 성능을 나타내는 이유는, 2채널 WPE는 MCLP(multi-channel linear prediction) 기반으로 동작하기 때문에 기본적으로 단일 채널 WPE와는 기본 알고리즘(underlying algorithm) 자체가 다르다고 할 수 있다.
따라서, 본 발명의 실시예에 따른 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치는 가생 채널 생성을 통한 발전 가능성이 있음과 동시에 신경망(neural network)이 MCLP 알고리즘을 통해 조기 도착 음성 신호(early arriving speech) 또는 잔향 신호(late reverberation)을 보다 정확하게 계산할 수 있다.
상술한 방식을 통하여, 본 발명의 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치는, 하나의 마이크로폰으로 수집한 음성신호만이 주어졌을 때, 잔향 성분을 제거하기 위해 단일 채널 WPE를 사용하지 않고, 마이크로폰의 개수를 늘리지 않는 상태에서 가상 채널 확장을 통해 2채널 WPE를 사용함으로써, 우수한 성능을 얻을 수 있는 효과가 있다.
또한, 본 발명의 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치는, 마이크로폰의 개수를 늘리는 대신, 알고리즘적(algorithmic) 관점에서 문제를 해결하는 방법을 제안한 것으로, 마이크로폰을 추가로 설치하는 데에 필요한 비용을 획기적으로 줄일 수 있는 효과가 있다.
이상 본 명세서에서 설명한 기능적 동작과 본 주제에 관한 실시형태들은 본 명세서에서 개시한 구조들 및 그들의 구조적인 등가물을 포함하여 디지털 전자 회로나 컴퓨터 소프트웨어, 펌웨어 또는 하드웨어에서 또는 이들 중 하나 이상이 조합에서 구현 가능하다.
본 명세서에서 기술하는 주제의 실시형태는 하나 이상이 컴퓨터 프로그램 제품, 다시 말해 데이터 처리 장치에 의한 실행을 위하여 또는 그 동작을 제어하기 위하여 유형의 프로그램 매체 상에 인코딩되는 컴퓨터 프로그램 명령에 관한 하나 이상이 모듈로서 구현될 수 있다. 유형의 프로그램 매체는 전파형 신호이거나 컴퓨터로 판독 가능한 매체일 수 있다. 전파형 신호는 컴퓨터에 의한 실행을 위하여 적절한 수신기 장치로 전송하기 위한 정보를 인코딩하기 위하여 생성되는 예컨대 기계가 생성한 전기적, 광학적 또는 전자기 신호와 같은 인공적으로 생성된 신호이다. 컴퓨터로 판독 가능한 매체는 기계로 판독 가능한 저장장치, 기계로 판독 가능한 저장 기판, 메모리 장치, 기계로 판독 가능한 전파형 신호에 영향을 미치는 물질의 조합 또는 이들 중 하나 이상이 조합일 수 있다.
컴퓨터 프로그램(프로그램, 소프트웨어, 소프트웨어 어플리케이션, 스크립트 또는 코드로도 알려져 있음)은 컴파일되거나 해석된 언어나 선험적 또는 절차적 언어를 포함하는 프로그래밍 언어의 어떠한 형태로도 작성될 수 있으며, 독립형 프로그램이나 모듈, 컴포넌트, 서브루틴 또는 컴퓨터 환경에서 사용하기에 적합한 다른 유닛을 포함하여 어떠한 형태로도 전개될 수 있다.
컴퓨터 프로그램은 파일 장치의 파일에 반드시 대응하는 것은 아니다. 프로그램은 요청된 프로그램에 제공되는 단일 파일 내에, 또는 다중의 상호 작용하는 파일(예컨대, 하나 이상이 모듈, 하위 프로그램 또는 코드의 일부를 저장하는 파일) 내에, 또는 다른 프로그램이나 데이터를 보유하는 파일의 일부(예컨대, 마크업 언어 문서 내에 저장되는 하나 이상이 스크립트) 내에 저장될 수 있다.
컴퓨터 프로그램은 하나의 사이트에 위치하거나 복수의 사이트에 걸쳐서 분산되어 통신 네트워크에 의해 상호 접속된 다중 컴퓨터나 하나의 컴퓨터 상에서 실행되도록 전개될 수 있다.
부가적으로, 본 특허문헌에서 기술하는 논리 흐름과 구조적인 블록도는 개시된 구조적인 수단의 지원을 받는 대응하는 기능과 단계의 지원을 받는 대응하는 행위 및/또는 특정한 방법을 기술하는 것으로, 대응하는 소프트웨어 구조와 알고리즘과 그 등가물을 구축하는 데에도 사용 가능하다.
본 명세서에서 기술하는 프로세스와 논리 흐름은 입력 데이터 상에서 동작하고 출력을 생성함으로써 기능을 수행하기 위하여 하나 이상이 컴퓨터 프로그램을 실행하는 하나 이상이 프로그래머블 프로세서에 의하여 수행 가능하다.
컴퓨터 프로그램의 실행에 적합한 프로세서는, 예컨대 범용 및 특수 목적의 마이크로프로세서 양자 및 어떤 형태의 디지털 컴퓨터의 어떠한 하나 이상이 프로세서라도 포함한다. 일반적으로, 프로세서는 읽기 전용 메모리나 랜덤 액세스 메모리 또는 양자로부터 명령어와 데이터를 수신할 것이다.
컴퓨터의 핵심적인 요소는 명령어와 데이터를 저장하기 위한 하나 이상이 메모리 장치 및 명령을 수행하기 위한 프로세서이다. 또한, 컴퓨터는 일반적으로 예컨대 자기, 자기 광학 디스크나 광학 디스크와 같은 데이터를 저장하기 위한 하나 이상이 대량 저장 장치로부터 데이터를 수신하거나 그것으로 데이터를 전송하거나 또는 그러한 동작 둘 다를 수행하기 위하여 동작가능 하도록 결합되거나 이를 포함할 것이다. 그러나, 컴퓨터는 그러한 장치를 가질 필요가 없다.
본 기술한 설명은 본 발명의 최상의 모드를 제시하고 있으며, 본 발명을 설명하기 위하여, 그리고 당업자가 본 발명을 제작 및 이용할 수 있도록 하기 위한 예를 제공하고 있다. 이렇게 작성된 명세서는 그 제시된 구체적인 용어에 본 발명을 제한하는 것이 아니다.
이상에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자 또는 해당 기술 분야에 통상의 지식을 갖는 자라면, 후술될 특허청구범위에 기재된 본 발명의 사상 및 기술 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 기술적 범위는 명세서의 상세한 설명에 기재된 내용으로 한정되는 것이 아니라 특허청구범위에 의해 정해져야 할 것이다.
10: 잔향 제거 장치
100: 신호 수신부
200: 신호 생성부
300: 파워 추정부
400: 잔향 제거부
100: 신호 수신부
200: 신호 생성부
300: 파워 추정부
400: 잔향 제거부
Claims (10)
- 단일 채널 마이크를 통해 제1 음성 신호를 입력받는 신호 수신부;
상기 제1 음성 신호에 심화 신경망 기반의 가상 채널 확장 알고리즘을 적용함으로써, 제2 음성 신호를 생성하기 위한 신호 생성부;
상기 제1 음성 신호 및 상기 제2 음성 신호에 심화 신경망 기반의 2채널 WPE(weighted prediction error) 알고리즘을 적용함으로써, 상기 제1 음성 신호의 잔향을 제거하고, 잔향이 제거된 잔향 제거 신호를 생성하기 위한 잔향 제거부; 및
심화 신경망 기반의 파워 추정 알고리즘을 이용하여, 상기 제1 음성 신호 및 상기 제2 음성 신호를 기초로 하여, 상기 제1 음성 신호의 잔향 제거 신호의 파워를 추정하기 위한 파워 추정부;를 포함하고
상기 신호 생성부는,
상기 제1 음성 신호의 STFT 계수의 실수부 및 허수부를 입력으로 받고, 상기 제2 음성 신호의 STFT 계수의 실수부 및 허수부를 출력하는,
심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치. - 삭제
- 삭제
- 제1항에 있어서,
상기 파워 추정부는, 상기 잔향 제거부로 상기 잔향 제거 신호의 파워 추정값을 제공하고,
상기 잔향 제거부는, 상기 파워 추정값을 이용하여 상기 제1 음성 신호에 포함된 잔향을 제거하는, 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치. - 제4항에 있어서,
잔향 성분이 포함된 상기 제1 음성 신호를 입력받아 상기 잔향 제거 신호의 파워를 추정하도록, 상기 파워 추정부의 파워 추정 알고리즘이 학습된 후, 상기 신호 생성부의 가상 채널 확장 알고리즘이 학습되는, 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치. - 제5항에 있어서,
상기 신호 생성부의 가상 채널 확장 알고리즘의 학습은, 사전 훈련 단계 및 미세 조정 단계를 포함하며,
상기 사전 훈련 단계는, 상기 가상 채널 확장 알고리즘이 입력되는 신호와 동일한 실수부 및 허수부를 추정하도록 하는 자기 회귀 과제를 수행함으로써 진행되는, 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치. - 제6항에 있어서,
상기 미세 조정 단계는,
상기 가상 채널 확장 알고리즘이 가상 채널 음성 신호와 실제로 관측된 음성 신호를 2채널 WPE를 통과시켜 도출된 출력 신호가 조기 도착 신호에 가까워지도록 학습되는, 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치. - 제7항에 있어서,
상기 파워 추정 알고리즘은, 상기 사전 훈련 단계 및 상기 미세 조정 단계 동안 학습되지 않는, 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치. - 제1항에 있어서,
상기 가상 채널 확장 알고리즘은, 일반적인 콘볼루션 연산 대신 GLU(gated linear unit)을 사용한 유-넷 구조를 가지는, 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치. - 제9항에 있어서,
상기 가상 채널 확장 알고리즘은, 특징 맵을 다운 샘플링(down-sampling) 할 때에, 맥스-풀링(max-pooling)하지 않고, 스트라이드(stride)가 (2, 2)인 2D 콘볼루션(convolution) 연산을 수행하는, 심화신경망 기반의 가상 채널 확장을 이용한 WPE 기반 잔향 제거 장치.
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200097584A KR102316627B1 (ko) | 2020-08-04 | 2020-08-04 | 심화신경망 기반의 가상 채널 확장을 이용한 wpe 기반 잔향 제거 장치 |
PCT/KR2021/010308 WO2022031061A1 (ko) | 2020-08-04 | 2021-08-04 | 심화신경망 기반의 가상 채널 확장을 이용한 wpe 기반 잔향 제거 장치 |
US17/615,492 US11790929B2 (en) | 2020-08-04 | 2021-08-04 | WPE-based dereverberation apparatus using virtual acoustic channel expansion based on deep neural network |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200097584A KR102316627B1 (ko) | 2020-08-04 | 2020-08-04 | 심화신경망 기반의 가상 채널 확장을 이용한 wpe 기반 잔향 제거 장치 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102316627B1 true KR102316627B1 (ko) | 2021-10-22 |
Family
ID=78275695
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200097584A KR102316627B1 (ko) | 2020-08-04 | 2020-08-04 | 심화신경망 기반의 가상 채널 확장을 이용한 wpe 기반 잔향 제거 장치 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11790929B2 (ko) |
KR (1) | KR102316627B1 (ko) |
WO (1) | WO2022031061A1 (ko) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102437697B1 (ko) | 2022-05-24 | 2022-08-29 | 삼성지투비 주식회사 | 차량 추적관리가 가능한 불법주정차단속시스템 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100636167B1 (ko) * | 2004-09-02 | 2006-10-19 | 삼성전자주식회사 | 가상음향 알고리즘을 이용한 무선 오디오 시스템 |
KR101334991B1 (ko) * | 2012-06-25 | 2013-12-02 | 서강대학교산학협력단 | 단일채널 음성신호에 대한 반향신호 제거방법 및 이를 이용한 음성인식장치 |
US10490204B2 (en) * | 2017-02-21 | 2019-11-26 | Intel IP Corporation | Method and system of acoustic dereverberation factoring the actual non-ideal acoustic environment |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101640188B1 (ko) * | 2014-12-17 | 2016-07-15 | 서울대학교산학협력단 | 심화 신경망을 이용한 통계모델 기반의 음성 검출 방법 및 이를 수행하는 음성 검출 장치 |
KR101704926B1 (ko) * | 2015-10-23 | 2017-02-23 | 한양대학교 산학협력단 | 음향 환경 분류를 이용한 심화신경망의 앙상블이 구성된 통계모델 기반의 음성 검출 장치 및 음성 검출 방법 |
US10403299B2 (en) * | 2017-06-02 | 2019-09-03 | Apple Inc. | Multi-channel speech signal enhancement for robust voice trigger detection and automatic speech recognition |
US10283140B1 (en) * | 2018-01-12 | 2019-05-07 | Alibaba Group Holding Limited | Enhancing audio signals using sub-band deep neural networks |
-
2020
- 2020-08-04 KR KR1020200097584A patent/KR102316627B1/ko active IP Right Grant
-
2021
- 2021-08-04 US US17/615,492 patent/US11790929B2/en active Active
- 2021-08-04 WO PCT/KR2021/010308 patent/WO2022031061A1/ko active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100636167B1 (ko) * | 2004-09-02 | 2006-10-19 | 삼성전자주식회사 | 가상음향 알고리즘을 이용한 무선 오디오 시스템 |
KR101334991B1 (ko) * | 2012-06-25 | 2013-12-02 | 서강대학교산학협력단 | 단일채널 음성신호에 대한 반향신호 제거방법 및 이를 이용한 음성인식장치 |
US10490204B2 (en) * | 2017-02-21 | 2019-11-26 | Intel IP Corporation | Method and system of acoustic dereverberation factoring the actual non-ideal acoustic environment |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102437697B1 (ko) | 2022-05-24 | 2022-08-29 | 삼성지투비 주식회사 | 차량 추적관리가 가능한 불법주정차단속시스템 |
Also Published As
Publication number | Publication date |
---|---|
WO2022031061A1 (ko) | 2022-02-10 |
US20230178091A1 (en) | 2023-06-08 |
US11790929B2 (en) | 2023-10-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | Monaural speech dereverberation using temporal convolutional networks with self attention | |
Tan et al. | Real-time speech enhancement using an efficient convolutional recurrent network for dual-microphone mobile phones in close-talk scenarios | |
Nakatani et al. | Speech dereverberation based on variance-normalized delayed linear prediction | |
Delcroix et al. | Strategies for distant speech recognitionin reverberant environments | |
Xiao et al. | Speech dereverberation for enhancement and recognition using dynamic features constrained deep neural networks and feature adaptation | |
Yamamoto et al. | Enhanced robot speech recognition based on microphone array source separation and missing feature theory | |
Heymann et al. | Frame-online DNN-WPE dereverberation | |
Cord-Landwehr et al. | Monaural source separation: From anechoic to reverberant environments | |
Mohammadiha et al. | Speech dereverberation using non-negative convolutive transfer function and spectro-temporal modeling | |
JP7486266B2 (ja) | 深層フィルタを決定するための方法および装置 | |
US20240105199A1 (en) | Learning method based on multi-channel cross-tower network for jointly suppressing acoustic echo and background noise | |
US20240129410A1 (en) | Learning method for integrated noise echo cancellation system using cross-tower nietwork | |
Liu et al. | Inplace gated convolutional recurrent neural network for dual-channel speech enhancement | |
Nesta et al. | A flexible spatial blind source extraction framework for robust speech recognition in noisy environments | |
Song et al. | An integrated multi-channel approach for joint noise reduction and dereverberation | |
Jukić et al. | Multi-channel linear prediction-based speech dereverberation with low-rank power spectrogram approximation | |
KR102316627B1 (ko) | 심화신경망 기반의 가상 채널 확장을 이용한 wpe 기반 잔향 제거 장치 | |
Masuyama et al. | Multichannel loss function for supervised speech source separation by mask-based beamforming | |
Masuyama et al. | Exploring the Integration of Speech Separation and Recognition with Self-Supervised Learning Representation | |
US20230306980A1 (en) | Method and System for Audio Signal Enhancement with Reduced Latency | |
US20240135954A1 (en) | Learning method for integrated noise echo cancellation system using multi-channel based cross-tower network | |
Kindt et al. | Improved separation of closely-spaced speakers by exploiting auxiliary direction of arrival information within a u-net architecture | |
Sehr et al. | Towards robust distant-talking automatic speech recognition in reverberant environments | |
Wang et al. | Improving frame-online neural speech enhancement with overlapped-frame prediction | |
Kamarudin et al. | Acoustic echo cancellation using adaptive filtering algorithms for Quranic accents (Qiraat) identification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |