WO2022158914A1

WO2022158914A1 - 어텐션 메커니즘을 이용한 음성 신호 추정 방법 및 장치

Info

Publication number: WO2022158914A1
Application number: PCT/KR2022/001166
Authority: WO
Inventors: 장준혁; 박송규
Original assignee: 한양대학교 산학협력단
Priority date: 2021-01-21
Filing date: 2022-01-21
Publication date: 2022-07-28
Also published as: US20240135954A1; KR102374167B1

Abstract

일 실시예에 따른 심화 신경망을 이용한 다채널 기반의 잡음 및 에코 신호 통합 제거 장치는, 에코 신호, 잡음 신호 및 발화자의 음성 신호를 포함하고 있는 복수 개의 마이크 입력 신호를 입력 받고, 상기 복수 개의 마이크 입력 신호를 각각 복수 개의 변환 정보로 변환하여 출력하는 복수 개의 마이크 인코더, 상기 복수 개의 변환 정보를 압축하여 단일 채널의 크기를 가지는 제1입력 정보로 변환하여 출력하는 채널 변환부, 원단(far-end) 신호를 입력 받고, 상기 원단 신호를 제2입력 정보로 변환하여 출력하는 원단 신호 인코더, 상기 제1입력 정보와 상기 제2입력 정보에 대해 어텐션 메커니즘(attention mechanism)을 적용하여 가중치 정보를 출력하는 어텐션부, 상기 가중치 정보 및 상기 제2입력 정보의 합산 정보인 제3입력 정보를 입력 정보로 하고, 상기 제2입력 정보에서 상기 음성 신호를 추정하기 위한 마스크 정보를 포함하는 제1출력 정보를 출력 정보로 하는, 기 학습된 제1인공신경망 및 상기 제1출력 정보와 상기 제2입력 정보를 기초로 상기 음성 신호부를 추정한 추정 음성 신호를 출력하는 음성 신호 추정부를 포함할 수 있다.

Description

어텐션 메커니즘을 이용한 음성 신호 추정 방법 및 장치

본 발명은 어텐션 메커니즘을 이용한 음성 신호 추정 방법 및 장치에 관한 발명으로서, 보다 상세하게는 마이크 인코더에서 출력되는 신호와 원단 신호 인코더에서 출력되는 신호에 대해 어텐션 메커니즘을 적용한 정보를 인공신경망의 입력 정보로 활용하여 사용자의 음성을 보다 정확하게 추정할 수 있는 기술에 관한 발명이다.

음성통신(speech communication)이란 음성통신 발화자끼리 상호간의 의사소통을 위해 발화자의 발화된 음성을 상대방에게 전달하는 기술을 의미하며, 구체적으로 널리 사용되고 있는 전화 뿐만 아니라 컨퍼런스 콜, 영상통화, 화상회의 등의 다양한 분야에서 사용되고 있다.

음성통신에서 상대방에게 정확한 의미를 전달하기 위해서는 발화자의 깨끗한 음성 신호만 전달 되어야 하나, 두 화자 혹은 여러 화자가 동시에 발화하는 상황이나, 직전 화자의 발화가 다시 마이크로 입력되어 스피커에서의 재생과 마이크에서의 입력이 반복되는 경우, 주변 환경으로 인해 발생되는 잡음이 마이크로 입력되는 경우에는 발화자의 음성만이 마이크로 입력이 되지 않아 상대방에게 발화자의 음성이 정확히 전달되지 못하는 문제가 발생한다.

따라서, 최근에는 음향의 반향을 제거하는 음향 반향 제거 장치(AEC: Acoustic Echo Canceller)에 대한 기술이 여러 방면으로 개발되고 있다. 음향 반향 제거 장치는 영상 통화, 화상 회의 등에서 스피커로부터 나온 음성 신호가 직접적으로 또는 간접적(벽이나 주변 물체와의 반사를 통해)으로 마이크로 재입력되어, 자신의 목소리가 다시 들리는 음향 반향(acoustic echo)을 제거하는 역할을 한다.

음향 반향 제거 장치가 음향 반향을 효율적으로 제거하기 위해서는, 음향 반향 생성되는 경로(RIR: Room Impulse Response)를 정확히 추정하는 것이 중요하다. 음향 반향 제거 장치는 일반적으로 적응 필터(Adaptive Filter)를 사용하여 음향 반향 생성 경로(RIR)를 추정하고, 추정 음향 반향 신호를 생성한다. 그리고 음향 반향 제거 장치는 실제 음향 반향 신호에서 추정 음향 반향 신호를 빼주는 방법으로, 음향 반향을 제거한다.

음향 반향 생성 경로(RIR)를 추정하기 위한 적응 필터의 적응 필터 계수를 업데이트하는 방법에는 RLS(Recursive Least Square) 알고리즘을 이용한 방법, LMS(Least Mean Square) 알고리즘을 이용한 방법, NLMS(Normalized Least Mean Square) 알고리즘을 이용한 방법, 인접 투사(Affine Projection) 알고리즘을 이용한 방법 등이 있다.

또한, 최근에는 인공신경망의 기술이 발전함에 따라, 인공신경망을 이용하여 음성을 합성하거나, 음성을 인식하는 기술이 다양하게 발전되고 있는데, 일 예로, 음향학적 반향을 딥러닝에서의 심층 신경망(Deep neural network) 또는 합성곱 순환 신경망(convolutional recurrent neural network) 등을 사용하여 직접 추정하는 방법 등이 개발되고 있다.

그러나, 현재까지 종래의 대부분 기술은 주파수 영역에서 딥러닝의 기법의 일종인 합성곱 순환 신경망을 이용하여 음향학적 반향을 제거하고 있으며, 주파수 영역에서 음향학적 반향을 제거하는 경우, 입력되는 신호의 위상(phase)이 직접적으로 반영되지 않아, 위상의 복소수값에 해당하는 실수(real) 및 허수(imaginary) 값을 추정하여 반향 제거를 수행하게 된다. 따라서, 입력되는 신호의 직접적인 위상 값이 아니기 때문에 반향 제거의 성능이 다소 떨어지는 문제점이 존재하였다.

따라서, 일 실시예에 따른 어텐션 메커니즘을 이용한 음성 신호 추정 방법 및 장치는 상기 설명한 문제점을 해결하기 위해 고안된 발명으로서, 마이크 인코더에서 출력되는 신호 및 원단 신호 인코더에서 출력되는 신호에 대해 어텐션 메커니즘을 적용한 정보를 인공신경망의 입력 정보로 활용하여 사용자의 음성을 보다 정확하게 추정할 수 있는 기술에 관한 발명이다.

구체적으로, 음성 정보를 추정하기 위한 마스크(mask) 정보를 출력하는 인공신경망의 입력 정보를, 원단 신호 및 어텐션 메커니즘을 이용하여 에코 신호를 제거한 정보를 입력 정보로 활용함으로써, 보다 정확한 마스크 정보를 출력할 수 있는 음성 신호 추정 장치를 제공하는데 그 목적이 있다.

일 실시예에 따른 에코 신호, 잡음 신호 및 사용자의 음성 신호를 포함하고 있는 마이크 입력 신호를 입력 받고, 상기 마이크 입력 신호를 제1입력 정보로 변환하여 출력하는 마이크 인코더, 원단(far-end) 신호를 입력 받고, 상기 원단 신호를 제2입력 정보로 변환하여 출력하는 원단 신호 인코더, 상기 제1입력 정보와 상기 제2입력 정보에 대해 어텐션 메커니즘(attention mechanism)을 적용하여 가중치 정보를 출력하는 어텐션부, 상기 가중치 정보 및 상기 제2입력 정보의 합산 정보인 제3입력 정보를 입력 정보로 하고, 상기 제2입력 정보에서 상기 음성 신호를 추정하기 위한 마스크 정보를 포함하는 제1출력 정보를 출력 정보로 하는, 기 학습된 제1인공신경망 및 상기 제1출력 정보와 상기 제2입력 정보를 기초로 상기 음성 신호를 추정한 추정 음성 신호를 출력하는 음성 신호 추정부를 포함할 수 있다.

상기 마이크 인코더는, 시간 영역(time-domain)에서의 상기 마이크 입력 신호를 잠재 영역(latent-domain)에서의 신호로 변환할 수 있다.

잠재 영역에서의 상기 추정 음성 신호를 시간 영역에서의 추정 음성 신호로 변환하는 디코더(decoder);를 더 포함하는, 어텐션 메커니즘을 이용한 음성 신호 추정 장치.

상기 어텐션부는, 상기 제1입력 정보와 상기 제2입력 정보와의 상관 관계를 분석하여, 분석된 결과를 기초로 상기 가중치 정보를 출력할 수 있다.

상기 어텐션부는, 상기 제1입력 정보에 포함되어 있는 상기 원단 신호에 대한 정보를 기초로 상기 에코 신호를 추정한 후, 추정된 에코 신호를 기초로 상기 가중치 정보를 출력할 수 있다.

다른 실시예에 따른 어텐션 메커니즘을 이용한 음성 신호 추정 방법은 마이크 인코더를 통해 에코 신호, 잡음 신호 및 사용자의 음성 신호를 포함하고 있는 마이크 입력 신호를 입력 받고, 상기 마이크 입력 신호를 제1입력 정보로 변환하여 출력하는 단계, 원단 신호 인코더를 통해 원단(far-end) 신호를 입력 받고, 상기 원단 신호를 제2입력 정보로 변환하여 출력하는 단계, 기 제1입력 정보와 상기 제2입력 정보에 대해 어텐션 메커니즘(attention mechanism)을 적용하여 가중치 정보를 출력하는 단계, 및 상기 가중치 정보 및 상기 제2입력 정보의 합산 정보인 제3입력 정보를 입력 정보로 하고, 상기 제2입력 정보에서 상기 음성 신호를 추정하기 위한 마스크 정보를 포함하는 제1출력 정보를 출력 정보로 하는, 기 학습된 제1인공신경망을 이용하여 상기 제1출력 정보를 출력하는 단계 및 상기 제1출력 정보와 상기 제2입력 정보를 기초로 상기 음성 신호를 추정한 추정 음성 신호를 출력하는 단계를 포함할 수 있다.

일 실시예에 따른 어텐션 메커니즘을 이용한 음성 신호 추정 장치는 사용자의 음성을 추정함에 있어서, 어텐션 메커니즘을 이용하여 생성된 에코 신호에 대한 정보를 기초로 발화자의 음성 신호를 추정하는바, 보다 정확히 음성 신호를 추출할 수 있는 장점이 존재한다.

따라서, 가정 환경에서 사용되는 인공지능 스피커, 공항에서 사용되는 로봇, 음성인식 및 PC 음성통신 시스템 등 반향 신호가 존재하는 환경에서 마이크로폰을 통해 발화자의 음성을 수집하여 처리하는 경우, 반향 신호를 보다 효율적으로 제거할 수 있어, 음성 품질 및 명료도를 향상시킬 수 있는 효과가 존재한다.

도 1은 1개의 마이크가 있는 단일 채널 환경에서 발화자의 발화가 있는 경우 음성 신호 추정 장치로 입력되는 다양한 신호들을 도시한 도면이다.

도 2는 제1실시예에 따른 발화자 음성 신호 추정 장치의 일부 구성 요소를 도시한 블럭도이다.

도3은 제1 실시예에 따른 어텐션부에 입력되는 입력 정보와 출력 정보를 도시한 도면이다.

도 4는 제1 실시예에 따른 제1인공신경망에 입력되는 입력 정보를 설명하기 위한 도면이다.

도 5는 제1 실시예에 따른 제1인공신경망의 구조 및 입력 정보, 출력 정보를 도시한 도면이다.

도 6은 본 발명의 효과를 설명하기 위한 실험의 설정 데이터를 도시한 도면이다.

도 7은 제1실시예에 따른 본 발명의 효과를 설명하기 위해, 다른 인공신경망 모델의 출력 결과를 비교하여 도시한 도면이다.

도 8는 제2실시예에 따른 음성 신호 추정 장치의 일부 구성 요소를 도시한 블럭도이다.

도 9는 제2실시예에 따른 제2인공신경망 및 제3인공신경망의 프로세서를 설명하기 위한 도면이다.

도 10 및 도11은 제2실시예에 따른 제2인공신경망과 제3인공신경망의 관계를 도시한 도면이다.

도 12는 제2실시예에 따라, 음성 신호 추정부에 입력되는 입력 정보 및 출력 정보를 도시한 도면이다.

도 13은 제2실시예에 따른 본 발명의 효과를 설명하기 위해 다른 인공신경망 모델과의 출력 결과를 비교하여 도시한 도면이다.

도 14는 복수 개의 마이크 있는 다채널 환경에서 발화자의 발화가 있는 경우 음성 신호 추정 장치로 입력되는 다양한 신호들을 도시한 도면이다.

도 15는 제3실시예에 따른 음성 신호 추정 장치의 일부 구성 요소를 도시한 블럭도이다.

도 16은 제3실시예에 따른 본 발명의 효과를 설명하기 위해 다른 인공신경망 모델과의 출력 결과를 비교하여 도시한 도면이다.

도 17은 제4실시예에 따른 음성 신호 추정 장치의 일부 구성 요소를 도시한 블럭도이다.

도 18은 제4실시예에 따른 음성 신호 추정부에 입력되는 정보들을 설명하기 위한 도면이다.

도 19 및 도 20은 제 4실시예에 따른 제1어텐션부와 제2어텐션부를 설명하기 위한 도면이다.

도 21은 제4실시예에 따른 본 발명의 효과를 설명하기 위해 다른 인공신경망 모델과의 출력 결과를 비교하여 도시한 도면이다.

이하, 본 발명에 따른 실시 예들은 첨부된 도면들을 참조하여 설명한다. 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명의 실시 예를 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 실시예에 대한 이해를 방해한다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 실시 예들을 설명할 것이나, 본 발명의 기술적 사상은 이에 한정되거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있다.

또한, 본 명세서에서 사용한 용어는 실시 예를 설명하기 위해 사용된 것으로, 개시된 발명을 제한 및/또는 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.

본 명세서에서, "포함하다", "구비하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는다.

또한, 명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "간접적으로 연결"되어 있는 경우도 포함하며, 본 명세서에서 사용한 "제 1", "제 2" 등과 같이 서수를 포함하는 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되지는 않는다.

아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략한다.

음성 향상 기술은 마이크로폰으로 입력된 반향 신호를 제거하여 깨끗한 음성을 추정하는 기술로, 음성 인식과 음성 통신과 같은 음성 어플리케이션에 필수적인 기술이다. 예를 들어 음성 인식에서 반향이 존재하지 않은 깨끗한 신호로 음성 인식 모델을 학습시킨 후 잡음이 존재하는 신호로 테스트를 할 경우 성능이 감소하게 된다. 따라서, 이를 해결하기 위하여 음성 인식 수행 전에 잡음 및 반향을 제거하는 음성 향상 기술을 도입하여 음성 인식의 성능을 높일 수 있다. 또한, 음성 향상 기술은 음성 통신에서 반향을 제거하여 선명하고 명확하게 음성을 전달하여 통화 품질을 높이기 위해서도 사용될 수 있다.

이하에서는 마이크 입력 신호에 포함되어 있는 발화자의 음성 신호를 심화신경망을 이용하여 효율적으로 추정할 수 있는 기술에 대해 보다 상세히 설명하기로 한다.

도 1은 반향 및 잡음 신호가 존재하는 환경에서 발화자의 발화가 있는 경우 음성 통신 환경에서 발화자 음성 신호 추정 장치로 입력되는 다양한 신호들을 도시한 도면이다.

도 1을 참조하면, 마이크(300)에 입력되는 마이크 입력 신호 y(t)(20)는 아래 식 (1)과 같이, 발화자가 마이크(10)로 입력하는 음성신호(speech signal)인 s(t)(50)와 발화자가 존재하는 공간에서 다양한 환경에 의해 발생되는 잡음신호(noise signal)인 n(t)(60)와 스피커(20)를 통해 출력된 원단 신호(far end signal)가 마이크(10)와 스피커(20) 사이의 RIR(Room Impulse Response)와 컨불루션(convolution) 되어 다시 마이크(300)로 다시 입력되는 에코신호(echo signal)인 d(t)(40)의 합으로 구성될 수 있다.

식 (1) - y(t)=s(t)+d(t)+n(t)

본 발명에 따른 발화자 음성 신호 추정 장치(100)는 마이크 입력 신호(20)와 원단 신호(10)를 이용하여 발화자의 음성 신호(50) 추정한 최종 음성 신호(30)를 출력할 수 있다. 여기에서 잡음 및 에코가 포함된 마이크 입력 신호는 잡음과 에코가 동시에 존재하는 마이크 입력 신호를 의미할 수 있다.

도 2 내지 도 7은 본 발명의 제1실시예를 설명하기 위한 도면으로서, 도 2는 제1실시예에 따른 음성 신호 추정 장치의 일부 구성 요소를 도시한 블럭도이며, 도 3은 제1 실시예에 따른 어텐션부에 입력되는 입력 정보와 출력 정보를 도시한 도면이다. 도 4는 제1실시예에 따른 제1인공신경망에 입력되는 입력 정보를 설명하기 위한 도면이고, 도 5는 제1 실시예에 따른 제1인공신경망 구조를 도시한 도면이다.

본 발명의 제1실시예에 따른 음성 신호 추정 장치(100)는 제1실시예의 특징을 반영하여, 어텐션 메커니즘을 이용한 음성 신호 추정 장치로 지칭될 수 있다.

도 2를 참조하면, 제1실시예에 따른 음성 신호 추정 장치(100)는 원단 신호 인코더(110, encoder), 어텐션부(120), 마이크 인코더(130), 제1인공신경망(140), 음성 신호 추정부(150) 및 디코더(160, decoder) 포함할 수 있다.

인코더(110, 130)는 입력되는 시간 영역에서의 신호를 다른 영역의 신호로 변환해주는 역할을 하며, 원단 신호 인코더(110)는 스피커(200)에서 출력되는 신호인 원단 신호(10)를 변환해주는 역할을 하며, 마이크 인코더(130)는 마이크(300)로 입력되는 마이크 입력 신호(20)를 변환해주는 역할을 한다.

구체적으로, 원단 신호 인코더(110)는 스피커(200)로 출력되는 신호를 입력 신호로 하고, 시간 영역에서의 정보를 포함하고 있는 원단 신호(10)를 잠재 영역(latent domain)에서의 원단 신호로 변환한 제1입력 정보(11)를 출력할 수 있다. 잠재 영역의 경우 특정한 영역, 예를 들어 시간 영역이나 주파수 영역의 도메인으로 정의되지 않는 영역으로서, 인공신경망의 학습 결과에 따라 생성되는 영역의 도메인으로 정의될 수 있다. 따라서, 잠재 영역의 도메인은 학습 환경 및 결과에 따라 정의되는 영역이 가변되는 특징을 가지고 있다.

원단 신호 인코더(110)에 의해 출력된 제1입력 정보(11)는 후술할 어텐션부(120) 및 제1인공신경망(140)에서 제2입력 정보(12)에서 에코 신호(40)에 대한 정보를 추출하는데 활용되어 진다. 구체적으로, 에코 신호(40)는 스피커(200)에서 출력되는 원단 신호(10)가 반향 되어 발생되는 신호로서, 마이크(300)에 입력되는 여러 종류의 신호 중 가장 원단 신호(10)와 유사한 성격을 가지고 있다. 따라서, 원단 신호(10)에 대한 정보를 기초로 에코 신호(40)에 대한 정보를 추출하면, 보다 정확히 사용자의 음성 신호(50)를 추출할 수 있는 효과가 존재한다. 이에 대한 자세한 설명은 후술하도록 한다.

마이크 인코더(130)는 마이크(300)로부터 시간 영역(time domain)에서의 반향 신호(40), 음성 신호(50) 및 잡음 신호(60)를 포함하는 마이크 입력 신호(20)를 입력 받고, 시간 영역에서의 정보를 포함하고 있는 상기 마이크 입력 신호(20)를 잠재 영역(latent domain)에서의 마이크 입력 신호로 변환한 제2입력 정보(12)를 출력할 수 있다. 잠재 영역에 대한 설명은 앞서 설명한 바와 같으나, 제1입력 정보(11)와 제2입력 정보(12)는 서로 합산되거나, 동일한 인공신경망의 입력 정보로 활용되기 때문에, 제1입력 정보(11)의 도메인과 제2입력 정보(12)의 도메인은 서로 일치해야 한다.

종래 기술에 따라 도메인 영역에 학습을 수행하는 경우, 입력되는 시간 영역의 정보를 숏타임 푸리에 변환(STFT, Short Time Fourier Transform)을 이용하여 추출된 특징(features) 정보를 이용하여 학습에 사용하는 반면, 본 발명의 경우 1D-convolution 및 ReLu 등의 과정을 거쳐 잠재 영역(latent-domain)에서 학습에 의해 추출되는 잠재 특징(latent features)를 사용하여 학습을 수행한다.

따라서, 원단 신호 인코더(110)에 입력되는 시간 영역의 원단 신호(10) 정보는 원단 신호 인코더(110)에 의해 잠재 영역에서의 정보를 포함하고 있는 제1입력 정보(11)로 변환 되며, 마이크(300)를 통해 입력되는 시간 영역의 마이크 입력 정보(20)는 마이크 인코더(130)에 의해 잠재 영역에서의 제2입력 정보(12)로 변환된다. 그리고 이렇게 변환된 제1입력 정보(11)와 제2입력 정보(12)는 어텐션부(120), 제1인공신경망(140) 및 디코더(150)의 입력 정보로 활용되어 지며, 마이크 인코더(130)로 입력된 음성 신호(20)는 아래 식 (2)와 같이 변환될 수 있다.

식(2) - w=H(y*U)

마이크 인코더(130)에 의해 출력되는 정보는 인코더의 특성상 벡터(vector) 정보로 출력되며, 구체적으로 식(2)에서 y는 마이크 입력 신호(20)를 의미하고, U는 입력되는 정보의 크기에 따라N 개의 벡터를 가지는, NХL 길이의 양수 값을 의미하며, H(·)은 비선형 함수를 의미한다.

제1인공신경망(140)에 입력되는 정보 중 에코 신호를 제거하기 위해 활용되어 지는 원단 신호(10)는, 원단 신호 인코더(110)로 입력되어 아래 식(3)과 백터 정보를 가지는 정보로 출력될 수 있다.

식(3) - W_f=H(x*Q)

식(3)에서 x 는 원단 신호(10)를 의미하고, Q는 N 개의 벡터를 가지는, NХL 길이의 양수 값을 의미하며, H()은 비선형 함수를 의미한다.

이러한 형식으로 출력된 제1입력 정보(11)와 제2입력 정보(12)는 어텐션부(120)에 입력되어 가중치 정보(13)로 변환되어 출력될 수 있다. 이하 도 3을 통해 어텐션부(120)의 메커니즘에 대해 알아본다.

도 3을 참조하면, 어텐션부(130)는 제1입력 정보(11)와 제2입력 정보(120)를 입력 정보로 하고, 가중치 정보(13)를 출력 정보로 하는, 기 학습된 인공신경망으로서, 가중치 정보(13)는 제1인공신경망(140)에서 발화자의 음성을 추정할 때, 다른 신호들 보다 비중 있게 고려해야 하는 신호에 대한 정보를 의미할 수 있다.

어텐션 메커니즘이란, 발화자의 음성을 추정하는 종래의Seq2seq 모델의 경우 간단한 구조라는 장점이 있었지만, 하나의 고정된 크기의 벡터에 모든 정보를 압축하다 보니 정보 손실이 발생하고, RNN의 고질적인 문제인 Vanishing Gradient Problem이 존재하였고 이로 인해 입력 데이터가 길어지면 성능이 크게 저하되는 현상으로 이어지는 문제점이 존재하였다.

따라서, 이러한 문제점을 해결하기 위해 도입된 기술이 어텐션 메커니즘으로서, 어텐션 메커니즘에 대한 기본 아이디어는 디코더에서 출력 결과를 예측하는 매 시점(time step)마다, 인코더의 Hidden State를 다시 한 번 참고하여 출력을 한다는 것을 의미한다. 즉, 입력 되는 정보들 중 어떤 정보가 더 중요한지 여부는 항상 고정되어 있는 것이 아니라, 그 시간에 따라 중요한 정보의 종류는 달라지므로, 어텐션 메커니즘은 디코더가 입력되는 신호들에 대해 해석을 함에 있어서, 입력되는 정보들의 순서를 파악한 후 중요한 정보들에 더 가중치를 주어 해석을 함으로써, 보다 정확하고 빠르게 정보를 출력할 수 있는 장점이 존재한다.

따라서, 본 발명에 따른 어텐션부(120)는 어텐션부(120)에 입력된 원단 신호(10)와 마이크 입력 신호(20)를 비교한 후, 상관관계가 높은 신호에 대해 가중치를 부여한 후, 가중치에 대한 정보를 포함하고 있는 정보를 출력 정보로 출력하며, 이러한 정보를 출력하기 위해 도 3에 도시된 바와 같은 프로세서를 수행할 수 있다. 앞서 설명한 바와 같이 에코 신호(40)는 원단 신호(10)와 가장 밀접성이 높으므로 어텐션부(120)는 제1인공신경망(140)이 에코 신호(40)를 추정할 수 있도록, 원단 신호(10)에 대한 정보를 기초로 에코 신호(40)에 대한 가중치 정보를 생성하여 출력할 수 있다.

이를 식으로 표현하면, 제1입력 정보(11)와 제2입력 정보(12)는 아래 식 (4) 및 식 (5)와 같이 변환될 수 있다.

식 (4) -

식 (5) -

여기서 함수는 sigmoid 함수를 의미하고, w는 마이크 입력 신호의 latent features를 의미하고, Wf는 원단 신호의 latent features이며, Lw와 L_wf는 도 3에서 각각 1x1 convolution(111, 112)을 통과한 정보를 의미한다.

도 2 를 참조하여, 어텐션 메커니즘을 활용하여 제1인공신경망(140)에 입력되는 정보를 설명하며, 어텐션부(120)는 원단 신호 인코더(110)에서 출력되는 제1입력 정보(11)와 마이크 인코더(12)에서 출력되는 제2입력 정보(12)를 분석하여 두 정보 사이의 상관관계를 분석한 후, 제1인공신경망(140)에서 마이크 인코더(130)에서 출력되는 제2입력 정보(12)를 기초로 발화자 음성을 추정함에 있어서, 에코 신호(40)를 효율적으로 추정할 수 있도록 이에 대한 가중치 정보(13)를 생성하고 생성된 가중치 정보(13)는 제2입력 정보(12)와 함께 제1인공신경망(140)에 입력된다.

도 4를 참고하여 예를 들어 설명하면, 제2입력 정보(12)는 A,B,C신호 정보를 포함하고 있고 어텐션부(120)에서 제2입력 정보(12)와 제1입력 정보(11)의 상관관계를 분석해본 결과 A에 대해 가중치를 0.3부여해야 하고, B와 C에 대해서는 가중치를 부여할 필요 없는 경우, 어텐션부(120)는 이러한 정보를 포함하고 있는 정보를 제1가중치 정보(13-1)로 출력하고, 제1가중치 정보(K1)는 제1지점(1)에서 제1입력 정보(12)와 혼합되어 제2가중치 정보(K2)로 변환된다. 구체적으로, B와 C에 대해서는 가중치 정보가 없으니 0이 곱해지고, A에 대해서만 0.3이 곱해진다. 따라서, 제1가중치 정보(13-1)는 0.3A 에 대한 정보만 포함하고 있는 제2가중치 정보(13-2)로 변환되고, 제2가중치 정보( 제2지점에서 원래 정보였던 제2입력 정보(12)와 합산된다. 따라서 결론적으로 제1인공신경망(130)에 입력되는 제3입력 정보(14)는 제2입력 정보(12)가 변형된 정보로서 위에서 (1.3A+B+C) 정보를 포함할 수 있다.

제1인공신경망(140)은 제3입력 정보(14)을 입력 정보로 하고, 발화자의 음성 신호(50)를 추정하기 위한 마스크(mask) 정보를 포함하고 있는 제2출력 정보(15)를 출력 정보로 하는 기 학습된 인공신경망으로서, 상기 입력되는 입력 정보 및 레퍼런스 정보를 기초로 발화자의 음성 신호를 학습하는 학습 세션(미도시)과, 상기 입력되는 입력 정보를 기초로 발화자의 음성 신호를 추정하는 추로 세션(미도시)을 포함할 수 있다.

제1인공신경망(140)에 차용될 수 있는 신경망은, 발화자의 음성을 효율적으로 추정할 수 있도록 하는 마스크 정보를 출력하는 신경망이면 이에 포함될 수 있으며, 대표적으로 도 5에 도시된 바와 같이 TCN(Temporal Convolutional Network) 인공신경망을 포함할 수 있다.

TCN 인공신경망은 신경망에 입력되는 제3입력 정보(14)에 대해 순차적으로 1*1 Conv(141), PReLU(142), LN(143), D-Conv(144), PReLU(145), LN(146), 1*1 Conv(147)을 거쳐 최종적으로 발화자의 음성 신호(50)를 추정하기 위한 마스크 정보를 포함하고 있는 제2출력 정보(15)를 출력 정보로 하여 출력할 수 있다.

제1인공신경망(140)은 추정된 출력 정보와 실제 레퍼런스 정보를 이용하여 손실을 줄이는 방향으로 학습을 수행할 수 있는데, 구체적으로 아래 식 (6)과 같은 손실함수를 기초로, 손실함수의 값이 작아지는 방향으로 학습을 수행 할 수 있다.

식 (6) -

식 (6)에서 Starget은 발화자의 음성 신호를 의미하고, s^는 제1인공신경망(140)에 의해 출력된 정보를 의미한다.

다시 도 2로 돌아와, 음성 추정 장치(100)의 다른 구성 요소를 설명하면, 음성 신호 추정부(150)는 제1인공신경망(140)에 추정한 마스크 정보를 포함하고 있는 제2출력 정보(15)와 마이크 인코더(130)에 출력한 제2입력 정보(12)를 기초로 발화자의 음성 신호를 추정할 수 있다.

구체적으로, 제1인공신경망(140)에서 출력되는 정보는 제2입력 정보(12)에서 발화자의 음성 신호만을 추출할 수 있는 마스크 정보를 포함하고 있는 제2출력 정보(15)가 출력되므로, 음성 신호 추정부(150)는 상기 마스크 정보를 활용하여 제2입력 정보(12)에서 발화자의 음성 신호만을 추정한 후, 추정된 ( 음성 신호 추정한 후, 이를 추출하여 디코더(160)로 송신할 수 있다.

디코더(160)는 음성 신호 추정부(150)에서 출력한 추정 음성 신호(16)를 기초로, 시간 영역의 정보를 포함하고 있는 최종 음성 신호(30)를 출력할 수 다. 구체적으로, 제1인공신경망(140)에 출력한 제3출력 정보(15), 마이크 인코더(130)에서 출력한 제2입력 정보(12), 음성 신호 추정부(150)에서 추정한 추정 음성 신호(16)는 모두 시간 영역에서의 정보가 아닌 잠재 영역(latent domain)에서 추정한 신호에 대한 정보이므로, 디코더(160)는 발화자가 음성을 인식할 수 있도록 잠재 영역에서 최종적으로 추정된 잠재 영역의 추정 음성 신호(16)를 시간 영역에서의 최종 음성 신호(30)로 변환할 수 있다.

수학 식을 이용하여 이를 설명하면, 추정된 잠재 영역 추정 음성 신호(16)는 숏타임 퓨리에 변환(STFT)와 inverse STFT의 관계처럼 앞서 설명한 식 (2)의 transposed convolutional layer로 시간 영역에서의 정보를 포함하고 있는 형태로 변환할 수 있으며 아래의 식 (7)과 같이 표현될 수 있다.

식 (7) -

여기서 s^는 시간 영역에서 추정된 음성 신호를 의미하고, V는 N 개의 vector를 L길이로 변환해주는 매트릭스(matrix)를 의미한다.

종래 기술에 따른 음성 추정 방법의 경우, 마이크에 입력되는 마이크 입력 신호만에 기초하여 마스크 정보를 추정하는 방법으로 발화자의 음성 정보를 추정하였는바, 입력 신호에 포함되어 있는 정보 중, 가중치를 부여해야 하는 정보와 그렇지 않은 정보를 구분을 하지 않은 문제점이 존재하였다. 따라서, 마이크에 입력되는 신호 중에서, 효율적으로 발화자의 음성을 정하지 못하는 문제점이 존재하였다.

그러나, 일 실시예에 따른 음성 신호 추정 장치(100)는 원단 신호(10) 정보에 기초하여 에코 신호(40)에 대한 정보를 추출한 후, 추출된 정보가 제1인공신경망(140)의 입력 정보로 입력되므로, 제1인공신경망(140)은 보다 정확하게 사용자의 음성 신호(50)만을 추출할 수 있는 마스크 정보를 출력할 수 있는 장점이 존재한다. 또한, 더 나아가 어텐션 메커니즘을 이용하여 가중치를 부여해야 하는 정보를 제1인공신경망(130)의 입력 정보로 활용할 수 있어, 더욱 더 정확성이 높은 마스크 정보를 출력할 수 있는 장점이 존재한다.

도 6와 도 7은 제1실시예에 따른 본 발명의 효과를 설명하기 위한 실험 데이터를 도시한 도면으로서, 도 6은 RIR(Room Impulse Response) 생성기의 파라미터 설정 값을, 도7은 제1실시예에 따른 본 발명의 효과를 설명하기 위해 다른 인공신경망 모델의 출력 결과를 비교하여 도시한 도면이다.

본 명세서에 기재되어 있는 실험 결과 자료에 대한 실험은 모두 TIMIT , Musan, MS-SNSD 데이터베이스(DB)를 이용하여 진행하였고, 모든DB는 16 kHz로 샘플링된 신호로 이루어져 있다. 실험을 위해 음성 신호에 에코 신호를 컨볼루션한 DB와 잡음 DB를 이용해 학습용 데이터셋은 7000개의 발화로 구성하였고, 평가용 데이터셋은 800개의 발화를 준비하였다.

잡음과 에코에 의해 오염된 음성신호를 생성하기 위해서 시물레이션을 통해 특정 방에서 RIR을 생성해주는 RIR generator 툴킷을 이용하여 다양한 종류의 방 환경을 시뮬레이션하여 RIR을 생성하였다.

구체적으로, 학습용 데이터셋에 적용할 RIR을 500개, 평가용 데이터셋에 적용할 RIR을 100개 준비하였으며, RIR 생성을 위한 room 환경은 도 6의 (a)에 도시된 바와 같이 랜덤하게 방 환경을 설정하였다.

잡음 신호로는 ITU-T recommendation P. 501 및 MS-SNSD DB를 사용하였으며, 잡음은 평가용 음성 데이터셋과 랜덤하게 더하였으며, 더할 때의 신호대에코비(signal-to-echo ratio : SER)은 학습용은 [-6 dB, -3 dB, 0 dB, 3 dB, 6 dB] 중 하나를 택하여 랜덤하게 더하였으며, 신호대잡음비(signal-to-noise : SNR)는 [0 dB, 4 dB, 8 dB, 12 dB]중 하나를 택하여 랜덤하게 더하였으며, 평가는 SER [-4 dB, -2 dB, 0 dB, 2 dB, 4 dB] 중 하나, SNR은 [3 dB, 6 dB, 9 dB] 중 하나를 택하여 랜덤하게 더하였으며, 도 6의 (b)는 이러한 환경에 의해 설정된 방을 도시한 도면이다.

평가를 위해 평가 데이터셋에 포함된 발화들을 이용하여 800개의 발화에 대한 결과를 준비하였으며, 보다 정확한 평가를 위해 perceptual evaluation of speech quality(PESQ), short-time objective intelligibility(STOI), signal to distortion ratio (SDR) 그리고 echo return loss enhancement (ERLE)를 사용하였고 음성과 에코가 동시에 존재하는 구간과 에코만 존재하는 구간을 나누어 점수를 측정하였다.

PESQ는 -0.5 ~ 4.5 사이의 점수를 가지고, STOI는 0~1 사이의 점수, SDR 및 ERLE는 값의 범위가 특정되어 있지 않고 ERLE의 경우 점수가 높을수록 에코를 잘 제거했다는 것을 의미한다.

도 7은, 다른 인공신경망 모델과 본 발명에 따른 인공신경망 모델에 대한 실험 결과를 비교한 표로서, 도 7의 표에서 stacked-DNN 및 CRN은 종래 기술 중 심화 신경망을 활용한 전처리 알고리즘을 의미하며, 항목 4의TCN + auxiliary network +attention 모델이 본 발명의 제1실시예에 따른 알고리즘을 의미한다.

먼저 음성 품질의 정도를 평가하는 PESQ 및 STOI 점수를 비교해보면 처리하지 않는 경우(un-processed)보다 모든 심화 신경망을 활용한 알고리즘이 음성 품질을 향상 시키는 것을 알 수 있다. 또한 종래의 기술과 점수를 비교하였을 때 본 발명에서 제안한 방법이 가장 높은 점수를 보여주고 있으며, 4가지의 모든 객관적 평가 지표에서 본 발명에 따라 제안 된 발명이 종래 기술과 비교하여 크게 점수가 향상된 것을 확인할 수 있다.

도 8 내지 도 12는 본 발명의 제2실시예를 설명하기 위한 도면으로서, 도 8은 제2실시예에 따른 음성 신호 추정 장치의 일부 구성 요소를 도시한 블럭도이며, 도 9는 제2실시예에 따른 제2인공신경망 및 제3인공신경망의 프로세서를 설명하기 위한 도면이다.

본 발명의 제2실시예에 따른 음성 신호 추정 장치(100)는 제2실시예의 특징을 반영하여, 복수 개의 심화 신경망을 순차적으로 이용한 에코 및 잡음 통합 제거 장치로 지칭될 수 있다.

도 8을 참조하면, 제2실시예에 따른 음성 신호 추정 장치(100)는 원단 신호 인코더(110, encoder), 어텐션부(120), 마이크 인코더(130), 음성 신호 추정부(150), 디코더(160, decoder), 제2인공신경망(170) 및 제3인공신경망(180)을 포함할 수 있다.

제2실시예에 따른 음성 신호 장치(100) 중 원단 신호 인코더(110), 어텐션부(120), 마이크 인코더(130), 음성 신호 추정부(150) 및 디코더(160)는 도 2에서 설명한 원단 신호 인코더(110), 어텐션부(120), 마이크 인코더(130), 제1인공신경망(140), 음성 신호 추정부(150) 및 디코더(160)와 동일하므로, 중복된 설명은 생략하도록 하고, 제1실시예에서 설명하지 않은 구성 요소인 제2인공신경망(170)과 제3인공신경망(180)에 대해 이하 도면을 통해 자세히 설명하도록 한다.

도 8에 따른 제2인공신경망(170)과 제3인공신경망(180)은 마이크 인코더(130)로 입력된 신호 중에서 에코 신호와 잡음 신호를 추정하기 위한 신경망으로서, 제2인공신경망(170)은 에코 신호 추정 인공신경망으로 지칭될 수 있고, 제3인공신경망(180)은 잡음 신호 추정 인공신경망으로 지칭될 수 있으며, 이와 반대로, 제2인공신경망(170)이 잡음 신호 추정 인공신경망으로 지칭될 수 있고, 제3인공신경망(180)이 에코 신호 추정 인공신경망으로 지칭될 수 있다.

따라서, 제2인공신경망(170)의 각각의 인공신경망과 제3인공신경망(180)의 각각의 인공신경망은 에코 신호와 잡음 신호를 추정하는 신경망으로서, 이를 수행할 수 있는 인공신경망이면 제2인공신경망(170)과 제3인공신경망(180)에 포함될 수 있으며, 대표적으로 도 9에 도시된 바와 같은 TCN(Temporal Convolutional Network) 인공신경망을 포함할 수 있다.

이하 설명의 편의를 위해 제2인공신경망(170)은 에코 신호 추정 인공신경망으로, 제3인공신경망(180)은 잡음 신호 추정 인공신경망인 것을 전제로 설명한다.

도 8에 도시된 바와 같이, 제2인공신경망(170)과 제3인공신경망(180)은 각각 직렬로 연결되어 있는 복수 개(N개)의 인공신경망을 포함할 수 있다, 구체적으로 제2인공신경망은 제2-A인공신경망(171), 제2-B인공신경망(172)부터 제2-M인공신경망(178) 및 제2-N인공신경망(179)을 포함할 수 있으며, 제3인공신경망은 제3-A인공신경망(181), 제3-B인공신경망(182)부터 제3-M인공신경망(188) 및 제3-N인공신경망(189)을 포함할 수 있다.

도 8에서는 제2인공신경망(170)과 제3인공신경망(180)은 각각 4개 이상의 인공신경망을 포함하는 것으로 도시하였지만, 본 발명의 실시예가 이로 한정되는 것은 아니고 제2인공신경망(170)과 제3인공신경망(180)의 개수는 한 개부터 N개까지 다양한 범위를 포함할 수 있다. 다만, 제2인공신경망(170)과 제3인공신경망(180)에 각각 포함되어 있는 복수 개의 인공신경망은 서로 동일한 구조를 가지고 있어 동일한 성격(에코 신호를 추정한 정보 또는 잡음 신호를 추정한 정보)의 정보를 출력 정보로 하고 있다.

예를 들어, 제2인공신경망(170)이 에코 신호를 추정하는 인공신경망인 경우, 각각의 제2-A인공신경망(171), 제2-B인공신경망(172)은 에코 신호를 추정하는 인공신경망에 해당하며, 제3인공신경망(180)이 잡음 신호를 추정하는 인공신경망인 경우, 각각의 제3-A인공신경망(181), 제3-B인공신경망(182)은 잡음 신호를 추정하는 인공신경망에 해당할 수 있다.

도 8에 도시된 제2인공신경망(170)은 제3입력 정보(14)를 입력 정보로 하고 제3입력 정보(14)에 포함되어 있는 에코 신호를 최종적으로 추정한 최종 추정 에코 신호(31)를 출력 정보로 하는, 기 학습된 인공신경망으로서, 제3입력 정보(14)를 기초로 마이크 입력 신호(20)에 포함되어 있는 에코 신호(40)를 추정하는 추론 세션(미도시)과, 입력 정보 및 출력 정보와 상기 에코 신호에 대한 레퍼런스 정보를 기초로 학습을 수행하는 학습 세션(미도시) 등을 포함할 수 있다.

도 8에 따른 제3인공신경망(180)은 제3입력 정보(14)를 입력 정보로 하고 제3입력 정보(14)에 포함되어 있는 잡음 신호를 최종적으로 추정한 최종 추정 잡음 신호(32)를 출력 정보로 기 학습된 인공신경망으로서, 제3입력 정보(14)를 기초로 마이크 입력 신호(20)에 포함되어 있는 잡음 신호(60)를 추정하는 추론 세션(미도시)과, 입력 정보 및 출력 정보와 상기 에코 신호에 대한 레퍼런스 정보를 기초로 학습을 수행하는 학습 세션(미도시) 등을 포함할 수 있다.

도 8에 따른 음성 신호 추정부(150)는 마이크 인코더(130)에서 출력되는 제2입력 정보(13)에서, 제2인공신경망(180)이 출력한 최종 추정 에코 신호(31)에 대한 정보를 이용하여 제2입력 정보(13)에서 에코 신호에 대한 정보를 제거하고, 제3인공신경망(180)이 출력한 최종 추정 잡음 신호(32)를 이용하여 제2입력 정보(13)에서 잡음 신호에 대한 정보를 제거하여 최종적으로 추정 음성 신호(16) 생성하고, 생성된 추정 음성 신호(16)를 디코더(160)로 송신할 수 있다. 디코더(160)에 대한 설명은 도 1에서 설명한 바와 동일한므로 생략하도록 한다.

도 10을 참조하면, 제2인공신경망(170)에서 가장 첫 번째 인공신경망인 제2-A인공신경망(171)은 제3입력 정보(13)를 입력 정보로 하고, 제3입력 정보(13)에 포함되어 있는 에코 신호를 1차적으로 추정한 정보를 제2출력 정보(21)로 하여 출력하는, 기 학습된 인공신경망을 포함할 수 있다.

이와 마찬가지로, 제3인공신경망(180)에서 가장 첫 번째 인공신경망인 제3-A인공신경망(181)은 제3입력 정보(13)를 입력 정보로 하고, 제3입력 정보(13)에 포함되어 있는 잡음 신호를 1차적으로 추정한 정보를 제3출력 정보(22)로 하여 출력하는, 기 학습된 인공신경망을 포함할 수 있다.

제2-B인공신경망(172)은 제2-A 인공신경망(171)이 출력한 제2출력 정보(21), 제3-A인공신경망(181)이 출력한 제3출력 정보(22) 및 제3입력 정보(14)를 기초로 생성된 제4입력 정보(23)를 입력 정보로 하고, 제4입력 정보(23)에서 에코 신호만을 추정하여 추정한 정보를 제4출력 정보(25)로 하여 출력하는, 기 학습된 인공신경망을 포함할 수 있다.

제2-B 인공신경망(172)에 입력되는 정보를 살펴보면, 제2-A 인공신경망(171)에 출력되는 제2출력 정보(21)에는 제3입력 정보(14)에 포함되어 있는 에코 신호에 대한 정보가 포함되어 있으므로, 제2출력 정보(21)를 제3지점(3)에서 제3입력 정보(14)와 혼합시키면, 제3지점(3)에서는 에코 신호 부분에 대해 강조된 신호가 생성될 수 있다. 그 후, 생성된 신호에 대해 잡음 신호에 대한 정보를 포함하고 있는 제3출력 정보(22)를 이용하여 잡음 신호를 제4지점(4)에서 제거하여 제4입력 정보(23)를 생성한 후, 생성된 4입력 정보(23)를 제2-B인공신경망(172)에 입력되는 입력 정보로 활용한다.

이에 따라, 제4입력 정보(23)는 제3입력 정보(14)에서 잡음은 제거되고, 에코 신호에 대한 정보는 제3입력 정보(14)보다 정확한 정보를 가지고 있는 정보를 가지게 되므로, 제2-B인공신경망(172)에서 출력되는 에코 신호에 대한 정보는 제2-A 인공신경망(171)에서 보다 정확하게 출력될 수 있는 효과가 존재한다.

이와 마찬가지로, 제3-B인공신경망(182)은 제3-A 인공신경망(181)이 출력한 제3출력 정보(22), 제2-A인공신경망(171)이 출력한 제2출력 정보(21) 및 제3입력 정보(14)를 기초로 생성된 제5입력 정보(24)를 입력 정보로 하고, 제5입력 정보(24)에서 잡음 신호만을 추정하여 추정한 정보를 제5출력 정보(26)로 하여 출력하는, 기 학습된 인공신경망을 포함할 수 있다.

제3-B 인공신경망(182)에 입력되는 정보를 살펴보면, 제3-A 인공신경망(181)에 출력되는 제3출력 정보(22)에는 제3입력 정보(14)에 포함되어 있는 잡음 신호에 대한 정보가 포함되어 있으므로, 제3출력 정보(22)를 제5지점(5)에서 제3입력 정보(14)와 혼합하면, 제5지점(5)에서는 잡음 신호 부분에 대해 강조된 신호가 생성될 수 있다. 그 후, 생성된 신호에 대해 에코 신호에 대한 정보를 포함하고 있는 제2출력 정보(21)를 이용하여 에코 신호를 제6지점(6)에서 제거하면, 제5입력 정보(24)가 생성되며, 이렇게 생성된 제5입력 정보(24)는 제2-C인공신경망(182)에 입력되는 입력 정보로 활용된다.

이에 따라, 제5입력 정보(24)는 제3입력 정보(14)에서 에코는 제거되고, 잡음 신호에 대한 정보는 제3입력 정보(14)보다 정확한 정보를 가지고 있는 정보를 가지게 되므로, 제3-B인공신경망(182)의 입력 정보로 활용할 수 있어, 제3-B인공신경망(182)에서 출력되는 잡음 신호에 대한 정보가 보다 정확하게 출력될 수 있는 효과가 존재한다.

제2인공신경망(170)와 제3인공신경망(180)의 신경망의 개수가 3개 이상인 경우, 도 11에 도시된 바와 같이 제2-C 인공신경망(173)은 제4출력 정보(25), 제5출력 정보(26) 및 제3입력 정보(14)를 기초로 앞서 설명한 원리에 의해 제6입력 정보(27)를 생성할 수 있다. 이렇게 생성된 제6입력 정보(27)는 제2-C인공신경망(173)의 입력 정보로 입력되며, 제2-C 인공신경망(173)은 제6입력 정보(27)를 기초로 에코 신호를 추정한 정보를 포함하고 있는 제6출력 정보(29)를 출력 정보로 출력 할 수 있다.

이와 마찬가지로, 제3-C 인공신경망(183)은 제4출력 정보(25), 제5출력 정보(26) 및 제3입력 정보(14)를 기초로 앞서 설명한 원리에 의해 제7입력 정보(28)를 생성할 수 있다. 이렇게 생성된 제7입력 정보(28)는 제3-C인공신경망(183)의 입력 정보로 입력되며, 제3-C 인공신경망(183)은 제7입력 정보(28)를 기초로 잡음 신호를 추정한 정보를 포함하고 있는 제7출력 정보(30)를 출력 정보로 출력 할 수 있다.

앞서 설명한 바와 같이 제2인공신경망(170)와 제3인공신경망(180)의 신경망의 개수는 환경에 따라 그 개수가 다르게 구현될 수 있는바, 제2인공신경망(170)와 제3인공신경망(180)의 신경망의 개수가 1개인 경우, 도 9에서 제2출력 정보(21)가 제2인공신경망(170)의 최종 추정 에코 신호(31)가 되고, 제3출력 정보(22)가 제3인공신경망(180)의 최종 추정 잡음 신호(32)가 될 수 있다. 만약, 제2인공신경망(170)와 제3인공신경망(180)의 신경망의 개수가 3개인 경우, 도10에서 제6출력 정보(31)가 제2인공신경망(170)의 최종 추정 에코 신호(28)가 되고, 제7출력 정보(32)가 제3인공신경망(180)의 최종 추정 잡음 신호(31)가 될 수 있다.

도 8에서는 어텐션부(120)가 제2실시예에 따른 음성 신호 추정 장치(100)의 구성 요소로 도시하였지만, 제2실시예에 따른 음성 신호 추정 장치(100)는 어텐션부(120) 없이 구현 될 수 있다. 이러한 경우 제3입력 정보(14) 제1입력 정보(11)와 제2입력 정보(12)의 합산 정보가 된다.

도 12는 제2실시예에 따라, 음성 신호 추정부(150)에 입력되는 입력 정보를 도시한 도면이다.

도 12을 참조하면, 음성 신호 추정부(150)는 마이크 인코더(130)에서 출력한 제3입력 정보(14)에서 제2인공신경망(170)이 출력한 최종 추정 에코 신호(31) 및 제3인공신경망(180)이 출력한 최종 추정 잡음 신호(32)를 제거 한 정보를 수신 받고, 수신 받은 정보를 기초로 음성 신호를 추정한 추정 음성 신호(16)를 생성하고, 생성한 추정 음성 신호(16)를 디코더(160)로 송신할 수 있다.

디코더(160)는 음성 신호 추정부(150)에서 출력한 추정 음성 신호(16)를 기초로, 시간 영역의 음성 신호로 출력할 수 있다. 구체적으로, 제2인공신경망(170)에 출력한 최종 추정 에코 신호(31), 제3인공신경망(180)에 출력한 최종 추정 잡음 신호(31), 마이크 인코더(130)에서 출력한 제3입력 정보(14), 음성 신호 추정부(150)에서 추정한 추정 음성 신호(16)는 모두 시간 영역에서의 정보가 아닌 잠재 영역(latent domain)에서 추정한 신호에 대한 정보이므로, 디코더(160)는 발화자가 음성을 인식할 수 있도록 잠재 영역에서 최종적으로 추정된 잠재 영역 추정 음성 신호(16)를 시간 영역에서의 최종 음성 신호(30)로 변환하는 역할을 할 수 있다.

또한, 제2실시예예 따른 음성 신호 추정 장치(100)는 2개의 손실함수를 기초로 학습을 수행할 수 있으며, 구체적으로 시간 영역에서 추정된 최종 음성 신호(30)의 오차를 줄이는 방법으로 학습을 수행거나, 잠재 영역에서의 정보를 출력하는 제2인공신경망(170)과 제3인공신경망(180)의 각각의 인공신경망이 출력하는 정보의 오차를 줄이는 방법으로 학습을 수행할 수 있다.

첫 번째 학습 방법에 대해 알아보면, 제2실시예에 따른 음성 신호 추정 장치(100)는 디코더(160)에서 출력되는 최종 음성 신호(30)와 실제 발화자의 음성 신호(50)의 차이를 제1손실함수로 하여, 제1손실함수의 값의 작아지는 방향으로, 음성 신호 장치(100)의 어텐션부(120), 제2인공신경망(170) 및 제3인공신경망(180) 중 적어도 하나의 파라미터를 업데이를 하는 방법으로 학습을 수행할 수 있다.

구체적으로, 음성 신호 추정 장치(100)는 아래 식 (8)과 같은 손실함수를 이용하여 학습을 수행할 수 있다.

식 (8) -

식 (8)에서 절대값 식은 l_2-norm을 나타내며, s^는 추정된 최종 음선 신호를 의미하고, Starget은 실제 발화자의 음성 신호를 의미한다.

첫 번째 학습 방법은, 시간 영역에서 음성 신호 추정 장치(100)를 하나의 구조로 보고 전체적으로 학습을 수행하였다면, 두 번째 학습 방법은 잠재 영역에서 제2인공신경망(170)과 제3인공신경망(180)의 각각의 인공신경망에 대해 학습을 수행한다.

구체적으로, 제2인공신경망(170)과 제3인공신경망(180)의 각각의 인공신경망이 추정하여 출력한 정보와 실제 레퍼런스 정보와의 차이를 제2손실함수로 하고, 제2손실함수의 값의 차이가 작아지는 방향으로, 제2인공신경망(170)과 제3인공신경망(180)의 각각의 인공신경망의 파라미터를 업데이트 하는 방법으로 학습을 수행할 수 있다. 따라서, 제2손실함수는 제2인공신경망(170)의 n번째 인공신경망의 출력 정보와 이에 대한 레퍼런스 정보의 차이 및 제3인공신경망(180)의 n 번째 인공신경망의 출력 정보와 이에 대한 레퍼런스 정보의 차이의 합으로 손실 함수가 정의될 수 있으며, 식으로는 아래 식(9)와 같이 표현될 수 있다.

식 (9) -

여기서 제2인공신경망(170)과 제3인공신경망(180)을 구성하는 인공신경망의 총 개수를 의미하며, d_r과 n_r은 잠재 영역에서의 에코 신호에 대한 레퍼런스 정보 및 잡음 신호에 대한 레퍼런스 정보를 의미한다.

일 실시예에 따른 음성 신호 추정 장치(100)는 학습을 수행함에 있어서, 앞서 설명한 제1손실함수만을 이용하여 학습을 수행하거나, 제2손실함수만을 이용하여 학습을 수행할 수 있고, 제1손실함수와 제2손실함수를 합한 제3손실함수를 이용하여, 제3손실함수의 값이 작아지는 방향으로 음성 신호 장치(100)의 어텐션부(120), 제2인공신경망(170) 및 제3인공신경망(180) 중 적어도 하나의 파라미터를 업데이를 하는 방법으로 학습을 수행할 수 있으며, 제3손실함수를 이용하여 학습을 수행하는 경우, 아래 식(12)과 같은 식을 손실함수 식을 이용하여 학습을 수행할 수 있다.

식 (10) -

식 10에서 제2인공신경망(170)과 제3인공신경망(180)에서의 각각의 인공신경망의 개수가 무한히 늘어나더라도, 손실함수의 가중치를 넘지 않도록 q=1/2, = 0.7로 설정하여 학습을 수행할 수 있다.

도 13에서의 실험 결과를 도출하기 위한 실험 환경에 대한 기본적인 조건은 앞선 도 6에서 설명한 조건과 동일하므로 이에 대한 설명은 생략하고, 실험 결과만 비교하여 설명한다.

도 13을 참조하면, 다른 인공신경망 모델과 본 발명에 따른 인공신경망 모델에 대한 실험 결과를 비교한 표로서, 표에서 stacked-DNN 및 CRN은 종래 기술 중 심화 신경망을 활용한 전처리 알고리즘을 의미하며, 항목 3(Cross Tower)와 항목 4가(Cross-tower + auxiliary network + attention)은 본 발명의 제2실시예에 따른 알고리즘을 의미한다. Cross-tower 는 제2인공신경망(170)과 제3인공신경망(180)을 의미한다.

먼저 음성 품질의 정도를 평가하는 PESQ 및 STOI 점수를 비교해보면 처리하지 않는 경우(un-processed)보다 모든 심화 신경망을 활용한 알고리즘이 음성 품질을 향상 시키는 것으로 나타낸다. 먼저 음성 품질의 정도를 평가하는 PESQ 및 STOI 점수를 비교해보면 처리하지 않는 경우(un-processed)보다 모든 심화 신경망을 활용한 알고리즘이 음성 품질을 향상 시키는 것으로 나타낸다. 또한 종래의 기술과 점수를 비교하였을 때 본 발명에서 제안한 방법이 가장 높은 점수를 보여준다. 4가지의 모든 객관적 평가 지표에서 종래 기술과 비교하여 크게 점수가 향상된 것을 확인할 수 있다.

도 14 내지 도 20은 다채널 마이크 환경에서의 본 발명의 실시예를 설명하기 위한 도면으로서, 도 14는 복수 개의 마이크 있는 다채널 환경에서 발화자의 발화가 있는 경우 음성 신호 추정 장치로 입력되는 다양한 신호들을 도시한 도면이다.

도 14에서는 설명의 편의를 위해 마이크는 2개(310,320) 존재 하는 환경을 전제로 설명하나, 본 발명의 실시 예가 2채널 환경하에서만 적용되는 것은 아니고 마이크가 더 많이 존재하는 다 채널 환경하에서도 적용될 수 있다.

도 14를 참조하면, 마이크(310, 320)에 입력되는 신호는 잡음 신호, 스피커(200)에서 재생되어 마이크(310, 320)로 다시 들어가게 되는 에코 신호(d(t)) 및 발화자의 음성 신호(s(t))의 합으로 표현할 수 있으며, 아래 식 (11)과 같이 표현될 수 있다.

식 (11) -

이 때, d(t)는 원단 신호(far-end signal)가 스피커(200)에서의 비선형성과 스피커와 마이크 사이의 RIR(room impulse reponse)에 의해 변형되어 마이크(310, 320)로 입력되는 에코 신호를 의미하고, s(t)는 발화자의 음성 신호(speech signal), n은 잡음신호(noise signal)을 의미하고 t는 time index, i는 i번째 마이크 입력을 의미한다.

도 15는 본 발명의 제3실시예에 따른 음성 신호 추정 장치의 일부 구성 요소를 도시한 블럭도이다.

본 발명의 제3실시예에 따른 음성 신호 추정 장치(100)는 제3실시예의 특징을 반영하여, 심화 신경망을 이용한 다채널 기반의 잡음 및 에코 신호 통합 제거 장치로 지칭될 수 있다.

도 15를 참조하면, 제3실시예에 따른 음성 신호 추정 장치(100)는 원단 신호 인코더(110), 어텐션부(120), 복수 개의 마이크 인코더를 포함하는 마이크 인코더(130), 채널 변환부(190), 제1인공신경망(140), 음성 신호 추정부(150) 및 디코더(160, decoder) 포함할 수 있다.

제3실시예에 따른 음성 신호 추정 장치(100) 중 원단 신호 인코더(110), 어텐션부(120), 제1인공신경망(140), 음성 신호 추정부(150) 및 디코더(160)는 도 2에서 설명한 원단 신호 인코더(110), 어텐션부(120), 제1인공신경망(140), 음성 신호 추정부(150) 및 디코더(160)와 동일하므로, 중복된 설명은 생략하도록 하고, 제3실시예의 특징에 해당하는 복수 개의 인코더(131, 132, 133) 및 채널 변환부(190)에 대해 설명하도록 한다.

제3실시예에 따른 인코더(100)는 복수 개의 마이크(300)를 통해 입력되는 시간 영역의 신호를 각각 잠재 영역의 신호로 변환해주는 역할을 하는 구성요소로서, 마이크(300)의 개수 만큼 인코더는 구비될 수 있다. 따라서, 제1마이크(310)를 통해 입력되는 제1마이크 입력 신호(20-1)는 제1마이크 인코더(131)로 입력되며, 제2마이크(320)를 통해 입력되는 제2마이크 입력 신호(20-2)는 제2마이크 인코더(132)로 입력되며, 제3마이크(미도시)를 통해 입력되는 제3마이크 입력 신호(20-2)는 제2마이크 인코더(132)로 입력될 수 있다. 도 15에서는 마이크가 3개가 있음을 전제로 마이크 인코더를 총 3개 도시하였지만, 본 발명의 실시 예가 이로 한정되는 것은 아니고 발화 환경에 따라 더 많거나 더 적은 마이크 인코더가 구비될 수 있다.

복수 개의 마이크 인코더(131, 132, 133)은 입력되는 시간 영역에서의 신호를 다른 영역의 신호로 변환한 변환 신호(12-1, 12-2, 12-3)를 출력할 수 있다.

구체적으로, 복수 개의 마이크 인코더(131, 132, 133)는 마이크(300)로부터 시간 영역(time domain)에서의 반향 신호, 음성 신호 및 잡음 신호를 포함하는 복수 개의 마이크 입력 신호(20-1, 20-2, 20-3)를 각각 입력 받고, 시간 영역에서의 정보를 포함하고 있는 상기 마이크 입력 신호들(20-1, 20-2, 20-3)를 잠재 영역(latent domain)에서의 신호로 변환한 변환 신호들(12-1, 12-2, 12-3)을 출력할 수 있다.

마이크 인코더(130)는 도2에서 설명한 바와 같이 시간 영역의 신호를 입력 받아 잠재 영역의 신호로의 변환을 하는바, 마이크 인코더(130)에 입력된 음성 신호(20)는 아래 식 (2)와 같이 변환될 수 있다. 그러나 이는 단일 채널 마이크 환경에서의 식이고, 도 15의 경우 복수 개의 마이크가 존재하는 멀티 채널 환경이므로, 각각의 마이크 인코더에 입력된 음성 신호는 아래 식 (12)와 같이 표현 될 수 있다.

식(2) - w=H(y*U)

식 (12) -

식 (12)에서, Ui는 입력되는 정보의 크기에 따라 N 개의 벡터를 가지는, NХL 길이의 양수 값을 의미하며, H()은 비선형 함수를 의미한다.

다만, 단일 채널과 비교하여 다채널 마이크 입력은 크게 보면 마이크의 개수 만큼 차원(dimension)이 커지므로, 단일 채널의 네트워크와 비슷한 수준의 파라미터를 유지하고, 원단 신호 인코더(110)를 통해 출력되는 정보와 동일한 차원에서의 정보로 합성 되기 위해서는 마이크 인코더(130)를 통해 출력된 신호들을 단일 채널 수준으로 변환시켜 주는 구성 요소가 필요하다. 따라서, 본 발명의 경우 채널 변환부(190)에 의해 채널 변환부(190)에 입력된 변환 호(12-1, 12-2, 12-3)들은 채널 간의 정보를 압축하여 단일 채널 수준의 정보로 변환된 후 제2입력 정보(12)로 출력될 수 있다. 채널 변환부(190)가 수행하는 이러한 과정은 입력 되는 신호들에 대해 1D convolution 연산을 통해 수행할 수 있으며 아래 식 (13)과 같이 표현될 수 있다.

식 (13) -

식 (13)에서, Ux는 N*m개의 vector를 갖는 N*mХL 길이의 양수값을 의미한다.

이러한 형식으로 출력된 제2입력 정보(12)는 원단 신호 인코더(110)에 의해 출력된 제1입력 정보(11)와 함께 어텐션부(120)에 입력되어 가중치 정보(13)로 변환되어 출력되며, 가중치 정보(13)는 제2입력 정보(12)와 혼합되어 제3입력 정보(14)로 변환된 후, 제1인공신경망(140)에 입력되어 음성 신호를 추정하기 위한 마스크 정보가 출력될 수 있다. 이러한 과정에 대해서는 도 2내지 도 6을 통해 자세히 설명하였는바 생략하도록 한다.

도 16에서의 실험 결과를 도출하기 위한 실험 환경에 대한 기본적인 조건은 앞선 도 6에서 설명한 조건과 동일하므로 이에 대한 설명은 생략하고, 실험 결과만 비교하여 설명한다.

도 16을 참조하면, 다른 인공신경망 모델과 본 발명에 따른 인공신경망 모델에 대한 실험 결과를 비교한 표로서, 표에서 stacked-DNN 및 CRN은 종래 기술 중 심화 신경망을 활용한 전처리 알고리즘을 의미하며, 항목 4 내 지6이 본 발명에 따른 인공신경망 모델로서, 항목 4는 제1실시예에 따른 모델, 항목 5와 6은 제3실시예에 따른 모델을 의미한다.

먼저 음성 품질의 정도를 평가하는 PESQ 및 STOI 점수를 비교해보면 처리하지 않는 경우(un-processed)보다 모든 심화 신경망을 활용한 알고리즘이 음성 품질을 향상된 것을 알 수 있으며, STOI 및 SDR 또한 종래 기술들보다 향상 된 것을 알 수 있다. 또한 항목 4 ~ 6을 비교해보면 멀티 채널로 확장되면서 본 발명에 따라 채널 변환부를 추가한 경우 모든 항목에서 품질이 증가하는 것을 확인할 수 있다.

도 17은 제4실시예에 따른 음성 신호 추정 장치의 일부 구성 요소를 도시한 블럭도이고, 도 18 및 도 19는 제4실시예에 따른 음성 신호 추정부에 입력되는 정보들을 설명하기 위한 도면이다.

도 17을 참조하면, 제4실시예에 따른 음성 신호 추정 장치(100)는 원단 신호 인코더(110), 제1어텐션부(121), 제2어텐션부(122), 제3어텐션부(123), 복수 개의 마이크 인코더(131, 132, 133)를 포함하는 마이크 인코더(130), 제2인공신경망(170), 제3인공신경망(180), 채널 변환부(190), 음성 신호 추정부(150) 및 디코더(160, decoder) 포함할 수 있다.

제4실시예에 따른 음성 신호 추정 장치(100) 중 원단 신호 인코더(110), 제1마이크 인코더(131), 제2마이크 인코더(132), 제3마이크 인코더(133), 채널 변환부(190)는 도 15에서 설명한 원단 신호 인코더(110), 제1마이크 인코더(131), 제2마이크 인코더(132), 제3마이크 인코더(133), 채널 변환부(190)는 동일하고, 제1어텐션부(121)는 도 1의 어텐션부(120)와 동일하고, 제2인공신경망(170) 및 제3인공신경망(180)은 도 8의 제2인공신경망(170) 및 제3인공신경망(180)과 동일하므로, 이하 중복되는 설명은 생략하도록 한다.

제 4실시예에 따른 음성 신호 장치(100)는 복수 개의 인공신경망(120, 130)을 활용하는 제2실시예에 따른 음성 신호 장치(100)와 다채널 기반의 음성 신호 장치(100)에 기반하여 고안된 발명으로서, 제2인공신경망(170) 및 제3인공신경망(180)에 출력된 정보를 제2어텐션부(122) 및 제3어테션부(123)를 활용한다는 점에서 다른 실시예들과 비교하였을 때 차이점이 존재한다.

제2인공신경망(170)과 제3인공신경망(180)에서 각각 추정한 최종 추정 에코 신호(31)와 최종 추정 잡음 신호(32)를 compressed mixture에서 단순히 제거하면 음성 왜곡 가능성이 높아질 가능성이 존재한다. 따라서, 제4실시예에 따른 음성 추정 장치(100)는 이러한 음성 왜곡을 방지하기 위해 최종 추정 에코 신호(31)와 제2입력 정보(12) 사이에 어텐션 메커니즘을 적용하고, 동시에 최종 추정 잡음 신호(32)와 제2입력 정보(12) 사이에도 어텐션 메커니즘을 적용하여 보다 정확히 음성 신호를 추출할 수 있다.

즉, 앞서 도2에서의 어텐션부(120)에서 설명한 원리와 유사하게, 제2어텐션부(122)에서는 제2입력 정보(12)와 에코 신호와의 상관 관계를 분석하여 에코 신호와 높은 상관 관계에 있는 특징(latent features)에 대한 정보를 포함하고 있는 제1가중치 정보(33)를 생성하고, 제3어텐션부(123)에서는 제2입력 정보(12)와 잡음 신호와의 상관 관계를 분석하여, 잡음 신호와 높은 상관 관계에 있는 특징(latent features)에 대한 정보를 포함하고 있는 제2가중치 정보(35) 생성한 후, 생성된 가중치 정보들(34, 35)들과 제2입력 정보(12)를 활용하여 추정 음성 신호(16)를 출력한다.

이를 수학식 및 도 19와 도 20을 통해 이를 살펴보면, 제2어텐션부(122)는 도 19에 도시된 바와 같이 제2인공신경망(170)에서 출력한 최종 추정 에코 신호(31)와 제2입력 정보(12)가 각각 입력되며, 최종 추정 에코 신호(31)와 제1입력 정보는 각각 1X1 Conv(224,225)이 적용된 후 합쳐진 후, 시그모이드(sigmoid, 226) 함수가 적용되어 아래 식 (14)과 같이 변환된다.

식 (14) -

제3어텐션부(123) 또한 도 20에 도시된 바와 같이 제3인공신경망(180)에서 출력한 최종 추정 잡음 신호(32)와 제2입력 정보(12)가 각각 입력되며, 최종 추정 잡음 신호(32)와 제1입력 정보는 각각 1X1 Conv(234, 235)이 적용된 후 합쳐진 후, 시그모이드(sigmoid, 236) 함수가 적용되어 아래 식 (15)과 같이 변환될 수 있다.

식 (15) -

식 (14)와 식(15)에서 Wx는 제2입력 신호(12)의 latent features를 의미하고, d^_r,R,n^_r,R은 제2인공신경망(170)과 제3인공신경망(180)의 R 번째 인공신경망의 출력 정보를 의미한다.

식 (14)에 따라 출력된 정보는 도 19에 도시된 바와 같이 다시 1D-Conv(227) 및 시그모이드 함수(228)가 적용되어 에코 신호와 관련된 제1가중치 정보(33)로 변환되어 출력될 수 있으며, 아래 식 (16)과 같이 표현될 수 있다.

식(16) -

식 (16)에 따라 출력된 정보는 도 20에 도시된 바와 같이 다시 1D-Conv(237) 및 시그모이드 함수(238)가 적용되어 잡음 신호와 관련된 제1가중치 정보(34)로 변환되어 출력될 수 있으며, 아래 식 (19)과 같이 표현될 수 있다.

식(17) -

제1가중치 정보(33)는 제7지점에서(7)에서 제2입력 정보(12)와 혼합되어 제1혼합 정보(31)로 변환되고, 제2가중치 정보(34)는 제8지점(8)에서 제2입력 정보(12)와 혼합되어 제2혼합 정보(32)로 변환된다. 그후 제 9지점(9)에서는 제2입력 정보(12)에서 제1혼합 정보(31)와 제2혼합 정보(32)가 제거 되고, 남은 정보 만이 음성 신호 추정부(150)에 입력되어, 추정 음성 신호(16)가 출력되고, 추정 음성 신호(16)는 아래 식 (18)과 같이 표현될 수 있다.

식 (18) -

추정된 잠재 영역 추정 음성 신호(16)는 숏타임 퓨리에 변환(STFT)와 inverse STFT의 관계처럼 앞서 설명한 식 (2)의 transposed convolutional layer로 시간 영역에서의 정보를 포함하고 있는 형태로 변환할 수 있으며 아래의 식 (7)과 같이 표현될 수 있다.

식 (7) -

여기서 좌측 식은, 시간 영역에서 추정된 음성 신호를 의미하고, 우측 식의 V는 N 개의 vector를 L길이로 변환해주는 매트릭스(matrix)를 의미한다.

또한, 제3실시예예 따른 음성 신호 추정 장치(100)는 2개의 손실함수를 기초로 학습을 수행할 수 있으며, 구체적으로 시간 영역에서 추정된 최종 음성 신호(30)의 오차를 줄이는 방법으로 학습을 수행하는 방법과, 에코 신호 및 잡음 신호에 대해 잠재 영역에서 추정한 정보를 출력하는 제2인공신경망(170)과 제3인공신경망(180)의 각각의 인공신경망이 출력하는 정보의 오차를 줄이는 방법으로 학습을 수행할 수 있다.

첫 번째 학습 방법의 경우 디코더(160)에서 출력되는 최종 음성 신호(30)와 실제 발화자의 음성 신호(50)의 차이를 제1손실함수로 하여, 제1손실함수의 값의 작아지는 방향으로, 음성 신호 장치(100)의 어텐션부(120), 제2인공신경망(170) 및 제3인공신경망(180) 중 적어도 하나의 파라미터를 업데이를 하는 방법으로 학습을 수행할 수 있다.

두 번째 학습 방법은 잠재 영역에서 제2인공신경망(170)과 제3인공신경망(180)의 각각의 인공신경망에 대해 학습을 수행하는 방법으로서, 제2인공신경망(170)과 제3인공신경망(180)의 각각의 인공신경망이 추정하여 출력한 정보와 실제 레퍼런스 정보와의 차이를 제2손실함수로 하고, 제2손실함수의 값의 차이가 작아지는 방향으로, 제2인공신경망(170)과 제3인공신경망(180)의 각각의 인공신경망의 파라미터를 업데이트 하는 방법으로 학습을 수행할 수 있다. 따라서, 제2손실함수는 제2인공신경망(170)의 n번째 인공신경망의 출력 정보와 이에 대한 레퍼런스 정보의 차이 및 제3인공신경망(180)의 n 번째 인공신경망의 출력 정보와 이에 대한 레퍼런스 정보의 차이의 합을 손실함수로 할 수 있다.

또한, 제4실시예에 따른 음성 신호 추정 장치(100)는 학습을 수행함에 있어서, 앞서 설명한 제1손실함수만을 이용하여 학습을 수행하거나, 제2손실함수만을 이용하여 학습을 수행할 수 있고, 제1손실함수와 제2손실함수를 합한 제3손실함수를 이용하여, 제3손실함수의 값이 작아지는 방향으로 음성 신호 장치(100)의 어텐션부(120), 제2인공신경망(170) 및 제3인공신경망(180) 중 적어도 하나의 파라미터를 업데이를 하는 방법으로 학습을 수행할 수 있다.

제1손실함수, 제2손실함수 및 제3손실함수를 이용하여 인공신경망의 학습을 수행하는 방법의 경우, 앞선 제2실시예에 따른 음성 신호 추정 장치(100)에 대해 설명을 하면서 자세히 서술하였는바, 이에 대한 자세한 설명은 생략하도록 한다.

도 19는 제4실시예에 따른 본 발명의 효과를 설명하기 위해 다른 인공신경망 모델과의 출력 결과를 비교하여 도시한 도면이다.

도 19를 참조하면, 다른 인공신경망 모델과 본 발명에 따른 인공신경망 모델에 대한 실험 결과를 비교한 표로서, 표에서 stacked-DNN 및 CRN은 종래 기술 중 심화 신경망을 활용한 전처리 알고리즘을 의미하며, 항목5 내지7본 발명의 제4실시예에 따른 인공신경망 모델로서, attention 1은 제1어텐션부를, attention 2,3은 제2어텐션부와 제3어텐션부를 의미한다. 또한, 항목 5 내지 7은 제4실시예에 따른 모델에서 마이크 인풋의 수를 증가시킨 것에 차이점이 존재한다.

먼저 음성 품질의 정도를 평가하는 PESQ 및 STOI 점수를 비교해보면 처리하지 않는 경우(un-processed)보다 모든 심화 신경망을 활용한 알고리즘이 음성 품질을 향상된 것을 알 수 있으며, STOI 및 SDR 또한 종래 기술들보다 향상 된 것을 알 수 있다. 또한 항목 5 ~ 7을 비교해보면 제4실시예에 따라 어텐션부가 제3어텐션까지 있는 경우 채널의 수가 증가함에 따라 모든 항목에서 품질이 증가하는 것을 확인할 수 있다.

일 실시예에 따른 심화 신경망을 이용한 다채널 기반의 잡음 및 에코 신호 통합 제거 장치는 에코 신호와 잡음 신호를 반복적으로 별도로 추정하여 에코 신호와 잡음 신호에 대한 추정의 정확도를 높일 수 있어 종래 기술보다 보다 정확히 마이크에 입력되는 신호 중 에코 신호와 잡음 신호를 제거할 수 있는 장점이 존재한다.

또한, 추정된 에코 신호 및 잡음 신호 정보에 어텐션 메커니즘을 적용하여 추정되는 에코 신호와 잡음 신호에 대한 정확성을 높일 수 있는바, 보다 정확히 사용자의 음성 정보만을 추출할 수 있는 음성 신호 추정 장치를 제공할 수 있는 장점이 존재한다.

이상과 같이 실시예들은 음성 향상 기술로 음성 인식과 음성 통신 기술을 수행하기 이전에 잡음 및 반향을 제거하여 보다 우수한 성능을 도출할 수 있으며, 휴대폰 단말기나 보이스톡 등에서 음성 통화 품질을 높이기 위해 적용될 수 도 있다. 또한, 최근 다양한 사물인터넷(Internet of Things, IoT) 기기에서 음성 인식이 수행되는데 이는 조용한 환경에서만 수행되는 것이 아니라 주변 잡음이 존재하는 환경에서 수행될 수 있으며, IoT 기기의 스피커에서 소리가 나올 때 이 소리가 다시 들어가 반향을 발생할 수 있다. 따라서 음성 인식 수행 전 잡음 및 반향을 제거하여 IoT 기기에서 수행되는 음성 인식의 성능을 높일 수 있다. 또한, 본 실시예들은 우수한 품질의 음성 향상 신호를 제공하므로 다양한 음성 통신 기술에 적용되어 깨끗한 품질의 음성을 제공할 수 있다.

이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 실시예들이 비록 한정된 실시예와 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기의 기재로부터 다양한 수정 및 변형이 가능하다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

에코 신호, 잡음 신호 및 사용자의 음성 신호를 포함하고 있는 마이크 입력 신호를 입력 받고, 상기 마이크 입력 신호를 제1입력 정보로 변환하여 출력하는 마이크 인코더;

원단(far-end) 신호를 입력 받고, 상기 원단 신호를 제2입력 정보로 변환하여 출력하는 원단 신호 인코더;

상기 제1입력 정보와 상기 제2입력 정보에 대해 어텐션 메커니즘(attention mechanism)을 적용하여 가중치 정보를 출력하는 어텐션부;

상기 가중치 정보 및 상기 제2입력 정보의 합산 정보인 제3입력 정보를 입력 정보로 하고, 상기 제2입력 정보에서 상기 음성 신호를 추정하기 위한 마스크 정보를 포함하는 제1출력 정보를 출력 정보로 하는, 기 학습된 제1인공신경망; 및

상기 제1출력 정보와 상기 제2입력 정보를 기초로 상기 음성 신호를 추정한 추정 음성 신호를 출력하는 음성 신호 추정부;를 포함하는 어텐션 메커니즘을 이용한 음성 신호 추정 장치.
제1항에 있어서,

상기 마이크 인코더는,

시간 영역(time-domain)에서의 상기 마이크 입력 신호를 잠재 영역(latent-domain)에서의 신호로 변환하는, 어텐션 메커니즘을 이용한 음성 신호 추정 장치.
제2항에 있어서,

잠재 영역에서의 상기 추정 음성 신호를 시간 영역에서의 추정 음성 신호로 변환하는 디코더(decoder);를 더 포함하는, 어텐션 메커니즘을 이용한 음성 신호 추정 장치.
제1항에 있어서,

상기 어텐션부는,

상기 제1입력 정보와 상기 제2입력 정보와의 상관 관계를 분석하여, 분석된 결과를 기초로 상기 가중치 정보를 출력하는, 어텐션 메커니즘을 이용한 음성 신호 추정 장치.
제4항에 있어서,

상기 어텐션부는,

상기 제1입력 정보에 포함되어 있는 상기 원단 신호에 대한 정보를 기초로 상기 에코 신호를 추정한 후, 추정된 에코 신호를 기초로 상기 가중치 정보를 출력하는, 어텐션 메커니즘을 이용한 음성 신호 추정 장치.
마이크 인코더를 통해 반향 신호, 에코 신호 및 사용자의 음성 신호를 포함하고 있는 마이크 입력 신호를 입력 받고, 상기 마이크 입력 신호를 제1입력 정보로 변환하여 출력하는 단계;

원단 신호 인코더를 통해 원단(far-end) 신호를 입력 받고, 상기 원단 신호를 제2입력 정보로 변환하여 출력하는 단계;

상기 제1입력 정보와 상기 제2입력 정보에 대해 어텐션 메커니즘(attention mechanism)을 적용하여 가중치 정보를 출력하는 단계;

상기 가중치 정보 및 상기 제2입력 정보의 합산 정보인 제3입력 정보를 입력 정보로 하고, 상기 제2입력 정보에서 상기 음성 신호를 추정하기 위한 마스크 정보를 포함하는 제1출력 정보를 출력 정보로 하는, 기 학습된 제1인공신경망을 이용하여 상기 제1출력 정보를 출력하는 단계; 및

상기 제1출력 정보와 상기 제2입력 정보를 기초로 상기 음성 신호를 추정한 추정 음성 신호를 출력하는 단계;를 포함하는 어텐션 메커니즘을 이용한 음성 신호 추정 방법.