KR20220014163A

KR20220014163A - 신경망 음성 검출을 이용한 뮤지컬 노이즈 제거 장치

Info

Publication number: KR20220014163A
Application number: KR1020200093909A
Authority: KR
Inventors: 이규하; 오민재; 염태선
Original assignee: 주식회사 이엠텍
Priority date: 2020-07-28
Filing date: 2020-07-28
Publication date: 2022-02-04
Also published as: KR102408689B1

Abstract

본 발명은 뮤지컬 노이즈 제거 장치에 관한 것으로서, 특히 신경망에 의해 음성 검출(VAD: Voice Activity Detection)의 정확성을 향상시키고 음성 신호의 왜곡을 감소시키는 신경망 음성 검출을 이용한 뮤지컬 노이즈 제거 장치에 관한 것이다.
본 발명인 신경망 음성 검출을 이용한 뮤지컬 노이즈 제거 장치는 입력 신호(Si)를 입력 받아 주파수축 신호(Sf)로 변환하여 출력하는 주파수축 변환부와, 주파수축 신호(Sf)를 주파수축 변환부로부터 인가 받아 잡음을 제거하여 잡음 제거 신호(Sn)를 생성하여 출력하는 잡음 제거부와, 신경망이 이용되어 잡음이 포함된 학습용 음성 데이터에 대하여 학습하여 추출된 파라미터(가중치, 편향)와 주파수축 변환부로부터의 주파수축 신호(Sf)를 인가 받아, VAD 관련값(V)을 생성하여 출력하는 음성 검출부와, 잡음 제거부(Sn)로부터의 잡음 제거 신호(Sn)와 음성 검출부로부터의 VAD 관련값(V) 간의 곱셈 연산을 수행하여 신호(Sm)을 출력하는 곱셈부와, 곱셈부로부터의 신호(Sm)를 시간축 신호인 출력 신호(So)로 변환하여 출력하는 시간축 변환부를 포함한다.

Description

신경망 음성 검출을 이용한 뮤지컬 노이즈 제거 장치{MUSICAL NOISE ELIMINATING DEVICE USING NEURAL NETWORK VOICE ACTIVITY DETECTION}

본 발명은 뮤지컬 노이즈 제거 장치에 관한 것으로서, 특히 신경망에 의해 음성 검출(VAD: Voice Activity Detection)의 정확성을 향상시키고 음성 신호의 왜곡을 감소시키는 신경망 음성 검출을 이용한 뮤지컬 노이즈 제거 장치에 관한 것이다.

음성 신호의 고품질 추출을 위해 입력된 음성 신호를 처리하는 과정에서 음성 신호 스펙트럼을 강화하는 단계를 도입한다. 또한, 일반적으로 음성 신호는 노이즈에 오염되는 환경에 노출되므로, 음성 신호의 품질을 향상시키기 위해 노이즈를 필터링하는 단계도 함께 도입된다. 음성 신호 스펙트럼의 강화 단계와 노이즈 필터링 단계에 있어 이를 수행하는 방법들로 인해 음성 신호에서 많은 노이즈가 제거되므로 음성 신호의 품질이 크게 향상시킬 수 있으나, 오히려 이러한 각 단계의 수행 방법으로 인해 뮤지컬 노이즈라고 불리는 인공 노이즈가 부가된다.

뮤지컬 노이즈는 귀에 거슬리는 기계음으로서, 이는 음성 신호 스펙트럼의 강화로 인해 가짜 노이즈 피크가 나타나게 되어 청각적으로 인식되는 신호이다. 뮤지컬 노이즈는 잡음 제거된 신호의 비음성 구간에서 발생되며, 음성 신호에 있어 특히 음성 품질을 악화시킨다.

본 발명은 신경망에 의해 산출된 파라미터(가중치, 편향)를 이용하여 음성 검출(VAD: Voice Activity Detection)의 정확성을 향상시키고 음성 신호의 왜곡을 감소시키는 신경망 음성 검출을 이용한 뮤지컬 노이즈 제거 장치를 제공하는 것을 목적으로 한다.

본 발명인 신경망 음성 검출을 이용한 뮤지컬 노이즈 제거 장치는 입력 신호(Si)를 입력 받아 주파수축 신호(Sf)로 변환하여 출력하는 주파수축 변환부와, 주파수축 신호(Sf)를 주파수축 변환부로부터 인가 받아 잡음을 제거하여 잡음 제거 신호(Sn)를 생성하여 출력하는 잡음 제거부와, 신경망이 이용되어 잡음이 포함된 학습용 음성 데이터에 대하여 학습하여 추출된 파라미터(가중치, 편향)와 주파수축 변환부로부터의 주파수축 신호(Sf)를 인가 받아, VAD 관련값(V)을 생성하여 출력하는 음성 검출부와, 잡음 제거부(Sn)로부터의 잡음 제거 신호(Sn)와 음성 검출부로부터의 VAD 관련값(V) 간의 곱셈 연산을 수행하여 신호(Sm)을 출력하는 곱셈부와, 곱셈부로부터의 신호(Sm)를 시간축 신호인 출력 신호(So)로 변환하여 출력하는 시간축 변환부를 포함한다.

또한, 뮤지컬 노이즈 제거 장치는 잡음이 포함된 학습용 음성 데이터를 신경망을 이용하여 학습하여 파라미터(가중치, 편향)를 생성하여 음성 검출부로 출력하는 신경망 학습부를 포함하여 구성된 것이 바람직하다.

또한, 뮤지컬 노이즈 제거 장치는 전자 통신 장치와 통신을 수행하는 통신부를 구비하고, 통신부는 전자 통신 장치로부터 파라미터(가중치, 편향)를 수신하여 음성 검출부에 인가하는 것이 바람직하다.

또한, 음성 검출부는 파라미터(가중치, 편향)와 주파수축 신호(Sf)를 행렬곱으로 연산하거나 계산하여 기준 VAD값을 산정하고, 산정된 기준 VAD값을 sigmoid 함수를 이용하여 VAD 관련값(V)인 제 1 VAD 관련값(V1)으로 산정하여 곱셈부로 출력하되, 제 1 VAD 관련값(V1)은 비음성 구간을 나타내는 0 또는 음성 구간을 나타내는 1을 포함하는 것이 바람직하다.

또한, 음성 검출부는 음성 구간에서 비음성 구간으로 변화할 때, 제 1 VAD 관련값(V1)을 단위 시간 당 기준 감소값씩 감소시키고, 비음성 구간에서 음성 구간으로 변화할 때, 제 1 VAD 관련값(V1)을 단위 시간 당 기준 증가값씩 증가시켜, VAD 관련값(V)인 제 2 VAD 관련값(V2)을 산정하여 곱셈부로 출력하고, 제 2 VAD 관련값(V2)이 0 이상이며 1 이하인 것이 바람직하다.

또한, 음성 검출부는 음성 구간에 해당되는 제 1 VAD 관련값(V1) 또는 제 2 VAD 관련값(V2)(0에서 1로 증가하는 값들 중에서 0을 초과하는 값)에 양수인 상수를 곱하여, VAD 관련값(V)인 제 3 VAD 관련값(V3)을 산정하여 곱셈부로 출력하고, 제 3 VAD 관련값(V2)이 0 이상이며 상수 이하인 것이 바람직하다.

본 발명은 신경망에 의해 산출된 파라미터(가중치, 편향)를 이용하여 음성 검출(VAD: Voice Activity Detection)의 정확성을 향상시키고 음성 신호의 왜곡을 감소시키고, 비음성 구간의 뮤지컬 노이즈가 서서히 제거되며, 음성 구간이 증폭됨으로써, 음성 구간이 사용자가 듣기에 자연스러우면서도 명확하게 하는 효과가 있다.

도 1은 본 발명에 따른 신경망 음성 검출을 이용한 뮤지컬 노이즈 제거 장치의 제어 구성도이다.

이하에서, 본 발명은 실시예와 도면을 통하여 상세하게 설명된다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 실시 예의 다양한 변경(modification), 균등물(equivalent), 및/또는 대체물(alternative)을 포함하는 것으로 이해되어야 한다. 도면의 설명과 관련하여, 유사한 구성요소에 대해서는 유사한 참조 부호가 사용될 수 있다.

본 문서에서, "가진다", "가질 수 있다", "포함한다", 또는 "포함할 수 있다" 등의 표현은 해당 특징(예: 수치, 기능, 동작, 또는 부품 등의 구성요소)의 존재를 가리키며, 추가적인 특징의 존재를 배제하지 않는다.

본 문서에서, "A 또는 B", "A 또는/및 B 중 적어도 하나", 또는 "A 또는/및 B 중 하나 또는 그 이상" 등의 표현은 함께 나열된 항목들의 모든 가능한 조합을 포함할 수 있다. 예를 들면, "A 또는 B", "A 및 B 중 적어도 하나", 또는 "A 또는 B 중 적어도 하나"는, (1) 적어도 하나의 A를 포함, (2) 적어도 하나의 B를 포함, 또는 (3) 적어도 하나의 A 및 적어도 하나의 B 모두를 포함하는 경우를 모두 지칭할 수 있다.

본 문서에서 사용된 "제1", "제2", "첫째", 또는 "둘째" 등의 표현들은 다양한 구성요소들을, 순서 및/또는 중요도에 상관없이 수식할 수 있고, 한 구성요소를 다른 구성요소와 구분하기 위해 사용될 뿐 해당 구성요소들을 한정하지 않는다. 예를 들면, 제1 사용자 기기와 제2 사용자 기기는, 순서 또는 중요도와 무관하게, 서로 다른 사용자 기기를 나타낼 수 있다. 예를 들면, 본 문서에 기재된 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 바꾸어 명명될 수 있다.

어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "(기능적으로 또는 통신적으로) 연결되어((operatively or communicatively) coupled with/to)" 있다거나 "접속되어(connected to)" 있다고 언급된 때에는, 상기 어떤 구성요소가 상기 다른 구성요소에 직접적으로 연결되거나, 다른 구성요소(예: 제3 구성요소)를 통하여 연결될 수 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소(예: 제1 구성요소)가 다른 구성요소(예: 제2 구성요소)에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 상기 어떤 구성요소와 상기 다른 구성요소 사이에 다른 구성요소(예: 제3 구성요소)가 존재하지 않는 것으로 이해될 수 있다.

본 문서에서 사용된 표현 "~하도록 구성된(또는 설정된)(configured to)"은 상황에 따라, 예를 들면, "~에 적합한(suitable for)", "~하는 능력을 가지는(having the capacity to)", "~하도록 설계된(designed to)", "~하도록 변경된(adapted to)", "~하도록 만들어진(made to)", 또는 "~를 할 수 있는(capable of)"과 바꾸어 사용될 수 있다. 용어 "~하도록 구성(또는 설정)된"은 하드웨어적으로 "특별히 설계된(specifically designed to)"것만을 반드시 의미하지 않을 수 있다. 대신, 어떤 상황에서는, "~하도록 구성된 장치"라는 표현은, 그 장치가 다른 장치 또는 부품들과 함께 "~할 수 있는" 것을 의미할 수 있다. 예를 들면, 문구 "A, B, 및 C를 수행하도록 구성(또는 설정)된 프로세서"는 해당 동작을 수행하기 위한 전용 프로세서(예: 임베디드 프로세서), 또는 메모리 장치에 저장된 하나 이상의 소프트웨어 프로그램들을 실행함으로써, 해당 동작들을 수행할 수 있는 범용 프로세서(generic-purpose processor)(예: CPU 또는 application processor)를 의미할 수 있다.

본 문서에서 사용된 용어들은 단지 특정한 실시 예를 설명하기 위해 사용된 것으로, 다른 실시 예의 범위를 한정하려는 의도가 아닐 수 있다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함할 수 있다. 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 용어들은 본 문서에 기재된 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가질 수 있다. 본 문서에 사용된 용어들 중 일반적인 사전에 정의된 용어들은 관련 기술의 문맥 상 가지는 의미와 동일 또는 유사한 의미로 해석될 수 있으며, 본 문서에서 명백하게 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다. 경우에 따라서, 본 문서에서 정의된 용어일지라도 본 문서의 실시 예들을 배제하도록 해석될 수 없다.

뮤지컬 노이즈 제거 장치는 시간축 신호인 입력 신호(Si)를 입력 받아 주파수축 신호(Sf)로 변환하여 출력하는 주파수축 변환부(1)와, 주파수축 신호(Sf)를 주파수축 변환부(1)로부터 인가 받아 잡음을 제거하여 잡음 제거 신호(Sn)를 생성하여 출력하는 잡음 제거부(3)와, 잡음이 포함된 학습용 음성 데이터를 신경망을 이용하여 학습하여 파라미터(가중치(weight), 편향(bias))를 생성하여 출력하는 신경망 학습부(5)와, 주파수축 신호(Sf)와 파라미터(가중치, 편향) 각각을 주파수축 변환부(1)와 신경망 학습부(5) 각각으로부터 인가 받아, VAD 관련값(V)을 생성하여 출력하는 음성 검출부(7)와, 잡음 제거부(Sn)로부터의 잡음 제거 신호(Sn)와 VAD 관련값(V) 간의 곱셈 연산을 수행하여 신호(Sm)을 출력하는 곱셈부(9)와, 곱셈부(9)로부터의 신호(Sm)를 시간축 신호인 출력 신호(So)로 변환하여 출력하는 시간축 변환부(11)를 포함하여 구성된다. 다만, 전원부(미도시)는 본 발명이 속하는 기술분야에 대한 통상의 지식을 가진 자에게 당연히 인식되는 기술에 불과하여, 그 상세한 설명이 생략된다.

먼저, 주파수축 변환부(1)는 시간축(또는 시간 영역)의 입력 신호(Si)에 푸리에 변환을 수행하여, 주파수축(또는 주파수 영역) 신호(Sf)로 변환하여 출력한다. 이 푸리에 변환은, 입력 신호(Si)를 경시적으로 일정 크기의 프레임으로 나누고, 또한 그 프레임에 적당한 창함수를 적용하는 것을 통해 행해지는 것이 적합하다.

잡음 제거부(3)는 주파수축 신호(Sf) 내의 잡음을 추정하는 제 1 구성과, 추정된 잡음을 제거하는 제 2 구성을 포함하여 구성된다. 제 1 구성은 예를 들면, IMCRA(Improved Minima Control Recursive Average: 향상된 최소값 제어 재귀 평균) 알고리즘을 사용하여 잡음을 추정할 수 있다. 또한, 제 1 구성은 IMCRA 알고리즘 이외에 다른 잡음 추정 알고리즘(예를 들면, MCRA(Minima Controlled Recursive Averaging) 등)을 사용할 수도 있다. 제 2 구성은 예를 들면, SS(Spectral Subtraction: 스펙트럼 차감) 알고리즘을 사용하여 추정된 잡음을 제거할 수 있으며, 다른 잡음 제거 알고리즘을 사용할 수도 있다. 비음성 구간의 뮤지컬 노이즈는 잡음 제거부(3)에 의한 잡음 제거 과정(잡음 추정 및 제거 알고리즘의 수행 과정)에서 발생되며, 스펙트럼 상에서 특정 부분의 에너지만 높은 노이즈이다.

신경망 학습부(5)는 완전 연결 계층(fully-connected Layer)인 적어도 3개 계층(layer)(입력층, 은닉층, 출력층 등)을 포함하여 구성된 신경망을 통하여 잡음을 포함하는 학습용 음성 데이터를 학습(training)하여 파라미터(가중치, 편향)를 산정하거나 도출하여 생성한다. 신경망 학습부(5)에서 학습되는 데이터인 학습용 음성 데이터는 잡음이 섞인 음성 신호와, 이 음성 신호의 음성 구간과 비음성 구간을 구별하기 위한 구간 정보(예를 들면, 음성 구간: 1, 비음성 구간: 0)를 포함하며, 신경망 학습부(5)는 이러한 학습용 음성 데이터를 학습함으로써, 각 계층들에서 사용된 가중치와 편향을 추출하거나 추정한다. 본 실시예에서, 신경망으로 DenseNet이 사용될 수 있다. 신경망 학습부(5)는 추출되거나 추정된 파라미터(가중치, 편향)을 음성 검출부(7)에 인가한다.

또한, 신경망 학습부(5)는 추출되거나 추정된 파라미터(가중치, 편향)의 정확성(또는, 학습의 정확성)을 판단하기 위해, 테스트 잡음 데이터를 이용할 수도 있다. 테스트 잡음 데이터는 테스트 잡음과 음성이 포함된 신호와, 최적의 파라미터(가중치, 편향)을 포함한다. 신경망 학습부(5)는 테스트 잡음 데이터 내의 신호에 대한 파라미터(가중치, 편향)을 추출하고, 추출된 파라미터(가중치, 편향)와, 테스트 잡음 데이터의 최적의 파라미터(가중치, 편향)를 비교하여 추출된 파라미터(가중치, 편향)의 정확성을 판단할 수 있다.

음성 검출부(7)는 신경망 학습부(5)로부터 인가된 파라미터(가중치, 편향)을 저장하고, 파라미터와 주파수축 신호(Sf)를 행렬곱으로 연산하거나 계산하여 기준 VAD값을 산정한다. 음성 검출부(7)는 기준 VAD값을 sigmoid 함수를 이용하여, 기준 VAD값을 제 1 VAD 관련값(V1)(0 또는 1)으로 연산하거나 산정한다. 다만, 음성 구간은 유성음과 무성음으로 나누어지는데, 음성 검출부(7)는 무성음을 비음성 구간으로 판단한다. 즉, 제 1 VAD 관련값(V1)은 유성음인 음성 구간에 대해서는 1이고, 무성음인 음성 구간과 비음성 구간에 대해서는 0을 포함한다.

다른 실시예로, 음성 검출부(7)는 제 1 VAD 관련값(V1)이 0과 1만으로 이루어져 있기에, 유성음 구간과 유성음 구간 사이에 무성음 구간이 있을 경우, 비음성으로 판단되어 그 값이 1에서 0으로 급격하게 변화하는 점을 개선하기 위해, 시간이 진행됨에 따라 1에서 0으로는 서서히 낮아지도록 하는 함수를 적용하여 제 2 VAD 관련값(V2)을 연산하거나 산정한다. 제 2 VAD 관련값(V2)을 위한 함수는 1에서 0으로 변화될 경우, 제 1 VAD 관련값(V1)을 시간에 따라 1부터 단위 시간(예를 들면, 1 ㎲) 당 0.005씩 감소시켜 0에 도달되도록 하는 함수로 구현될 수 있다. 또한, 제 2 VAD 관련값(V2)을 위한 함수는 0에서 1로 변화될 경우, 제 1 VAD 관련값(V1)을 시간에 따라 0부터 단위 시간(예를 들면, 1 ㎲) 당 0.1씩 증가시켜 1에 도달되도록 하는 함수로 구현될 수 있다. 다만, 음성 검출부(7)는 제 2 VAD 관련값(V2)이 0 이상이며 1 이하로 유지되도록 한다.

다른 실시예로, 음성 검출부(7)는 음성 구간에 해당되는 제 1 VAD 관련값(V1)(즉, 1) 또는 제 2 VAD 관련값(V2)(0에서 1로 증가하는 값들 중에서 0을 초과하는 값)에 양수인 상수(음성 구간의 게인)를 곱하여 제 3 VAD 관련값(V3)을 산정되거나 산출한다. 음성 검출부(7)는 제 3 VAD 관련값(V3)을 이용하여 음성 구간이 증폭되도록 할 수도 있다. 음성 검출부(7)는 제 3 VAD 관련값(V2)이 0 이상이며 상수 이하로 유지되도록 한다.

상술된 바와 같이, 본 명세서에서의 VAD 관련값(V)은 상술된 제 1 내지 제 3 VAD 관련값(V1 내지 V3) 중의 적어도 하나 이상을 포함한다.

곱셈부(9)는 음성 검출부(7)로부터의 VAD 관련값(V)과 잡음 제거부(3)로부터의 잡음 제거 신호(Sn) 간의 곱셈 연산을 수행하여 잡음 제거 신호(Sn)에서 뮤지컬 노이즈를 제거하여 생성되는 신호(Sm)를 출력한다. 먼저, VAD 관련값(V) 중에서 제 1 VAD 관련값(V1)(즉, 비음성 구간의 값이 '0'임)이 사용되는 경우, 곱셉부(9)의 곱셈 연산에 의해 잡음 제거 신호(Sn) 중에서 비음성 구간의 뮤지컬 노이즈가 완전히 제거된다. 다만, 이 경우, 비음성 구간이 완전히 제거되어 음질이 왜곡됨으로 인하여, 음성 구간이 사용자가 듣기에 부자연스러운 면이 있다. 이를 보완하기 위해, VAD 관련값(V) 중에서 제 2 VAD 관련값(V2)이 사용되는 경우, 곱셉부(9)의 곱셈 연산에 의해 잡음 제거 신호(Sn) 중에서 비음성 구간의 뮤지컬 노이즈가 서서히 제거되며, 이러한 완만한 뮤지컬 노이즈의 제거에 의해, 음성 구간이 사용자가 듣기에 자연스럽게 된다. 또한, VAD 관련값(V) 중에서 제 3 VAD 관련값(V3)이 사용되는 경우, 곱셉부(9)의 곱셈 연산에 의해 잡음 제거 신호(Sn) 중에서 비음성 구간의 뮤지컬 노이즈가 서서히 제거되며, 음성 구간이 증폭됨으로써, 음성 구간이 사용자가 듣기에 자연스러우면서도 명확하게 된다.

시간축 변환부(11)는 곱셉부(9)로부터 신호(Sm)를 인가 받아, 역푸리에 변환을 가하여, 시간축 신호인 출력 신호(So)로 변환하여 출력한다.

잡음 제거부(3)에서 뮤지컬 노이즈가 발생될 수 있으며, 이 뮤지컬 노이즈는 음성 구간에서는 음성에 의한 마스킹 효과로 인하여 사용자가 잘 청취할 수 없으나, 비음성 구간에서는 사용자가 청취할 수 있을 만큼 전달된다. 이러한 점을 고려하여, 신경망 음성 검출을 이용한 뮤지컬 노이즈 제거 장치는 상술된 바와 같이, 신경망에 의한 학습 과정의 결과물인 VAD 관련값(V)을 이용하여 비음성 구간에서 발생되는 뮤지컬 노이즈를 제거한다.

또한, 신경망 음성 검출을 이용한 뮤지컬 노이즈 제거 장치는 신경망 학습부(5)를 구비하지 않고, 전자 통신 장치(예를 들면, 스마트폰, 서버 등)와 통신 가능한 통신부(미도시)를 구비하여, 전자 통신 장치로부터 신경망에 의해 학습되어 추출되거나 도출된 파라미터(가중치, 편향)을 통신부를 통하여 수신하여 음성 검출부(7)에 인가하고, 음성 검출부(7)는 인가된 파라미터(가중치, 편향)을 저장하고, 파라미터(가중치, 편향)와 주파수축 변환부(1)로부터의 주파수축 신호(Sf)를 행렬곱으로 연산하거나 계산하여 상술된 바와 같은 VAD 관련값(V)을 산정하거나 연산할 수 있다.

또한, 신경망 음성 검출을 이용한 뮤지컬 노이즈 제거 장치는 전자 통신 장치(예를 들면, 스마트폰 등) 또는 신경망 서버 등과 통신 가능한 통신부(미도시)를 구비하고, 신경망 학습부(5)는 통신부를 통하여 전자 통신 장치나 신경망 서버에 접속하여, 음성 검출부(7)에 인가할 파라미터(가중치, 편향) 등을 수신할 수도 있다.

상술된 뮤지컬 노이즈 제거 장치는 전자 기기(예를 들면, 스마트폰, 이어폰, 청음 보조 장치, 헤드셋 등) 등에 하드웨어적으로 장착되거나 펌웨어나 소프트웨어 형태로 설치되어 동작할 수 있다.

다양한 실시 예에 따른 장치(예: 프로세서 또는 그 기능들) 또는 방법(예: 동작들)의 적어도 일부는, 예컨대, 프로그램 모듈의 형태로 컴퓨터로 읽을 수 있는 저장매체(computer-readable storage media)에 저장된 명령어로 구현될 수 있다. 상기 명령어가 프로세서에 의해 실행될 경우, 상기 하나 이상의 프로세서가 상기 명령어에 해당하는 기능을 수행할 수 있다. 컴퓨터로 읽을 수 있는 저장매체는, 예를 들면, 메모리가 될 수 있다.

컴퓨터로 판독 가능한 기록 매체는, 하드디스크, 플로피디스크, 마그네틱 매체(magnetic media)(예: 자기테이프), 광기록 매체(optical media)(예: CD-ROM, DVD(Digital Versatile Disc), 자기-광 매체(magnetoopticalmedia)(예: 플롭티컬 디스크(floptical disk)), 하드웨어 장치(예: ROM, RAM, 또는 플래시 메모리 등)등을 포함할 수 있다. 또한, 프로그램 명령에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다. 상술한 하드웨어 장치는 다양한 실시 예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지다.

다양한 실시 예에 따른 프로세서 또는 프로세서에 의한 기능들은 전술한 구성요소들 중 적어도 하나 이상을 포함하거나, 일부가 생략되거나, 또는 추가적인 다른 구성요소를 더 포함할 수 있다. 다양한 실시 예에 따른 모듈, 프로그램 모듈 또는 다른 구성요소에 의해 수행되는 동작들은 순차적, 병렬적, 반복적 또는 휴리스틱(heuristic)한 방법으로 실행될 수 있다. 또한, 일부 동작은 다른 순서로 실행되거나, 생략되거나, 또는 다른 동작이 추가될 수 있다.

이상 설명한 바와 같이, 본 발명은 상술한 특정의 바람직한 실시예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형의 실시가 가능한 것은 물론이고, 그와 같은 변경은 청구범위 기재의 범위 내에 있게 된다.

1: 주파수축 변환부 3: 잡음 제거부
5: 신경망 학습부 7: 음성 검출부
9: 곱셈부 11: 시간축 변환부

Claims

입력 신호(Si)를 입력 받아 주파수축 신호(Sf)로 변환하여 출력하는 주파수축 변환부와;
주파수축 신호(Sf)를 주파수축 변환부로부터 인가 받아 잡음을 제거하여 잡음 제거 신호(Sn)를 생성하여 출력하는 잡음 제거부와;
신경망이 이용되어 잡음이 포함된 학습용 음성 데이터에 대하여 학습하여 추출된 파라미터(가중치, 편향)와 주파수축 변환부로부터의 주파수축 신호(Sf)를 인가 받아, VAD 관련값(V)을 생성하여 출력하는 음성 검출부와;
잡음 제거부(Sn)로부터의 잡음 제거 신호(Sn)와 음성 검출부로부터의 VAD 관련값(V) 간의 곱셈 연산을 수행하여 신호(Sm)을 출력하는 곱셈부와;
곱셈부로부터의 신호(Sm)를 시간축 신호인 출력 신호(So)로 변환하여 출력하는 시간축 변환부를 포함하는 것을 특징으로 하는 신경망 음성 검출을 이용한 뮤지컬 노이즈 제거 장치.
제 1 항에 있어서,
뮤지컬 노이즈 제거 장치는 잡음이 포함된 학습용 음성 데이터를 신경망을 이용하여 학습하여 파라미터(가중치, 편향)를 생성하여 음성 검출부로 출력하는 신경망 학습부를 포함하여 구성된 것을 특징으로 하는 신경망 음성 검출을 이용한 뮤지컬 노이즈 제거 장치.
제 1 항에 있어서,
뮤지컬 노이즈 제거 장치는 전자 통신 장치와 통신을 수행하는 통신부를 구비하고,
통신부는 전자 통신 장치로부터 파라미터(가중치, 편향)를 수신하여 음성 검출부에 인가하는 것을 특징으로 하는 신경망 음성 검출을 이용한 뮤지컬 노이즈 제거 장치.
제 1 항에 있어서,
음성 검출부는 파라미터(가중치, 편향)와 주파수축 신호(Sf)를 행렬곱으로 연산하거나 계산하여 기준 VAD값을 산정하고, 산정된 기준 VAD값을 sigmoid 함수를 이용하여 VAD 관련값(V)인 제 1 VAD 관련값(V1)으로 산정하여 곱셈부로 출력하되, 제 1 VAD 관련값(V1)은 비음성 구간을 나타내는 0 또는 음성 구간을 나타내는 1을 포함하는 것을 특징으로 하는 신경망 음성 검출을 이용한 뮤지컬 노이즈 제거 장치.
제 4 항에 있어서,
음성 검출부는 음성 구간에서 비음성 구간으로 변화할 때, 제 1 VAD 관련값(V1)을 단위 시간 당 기준 감소값씩 감소시키고, 비음성 구간에서 음성 구간으로 변화할 때, 제 1 VAD 관련값(V1)을 단위 시간 당 기준 증가값씩 증가시켜, VAD 관련값(V)인 제 2 VAD 관련값(V2)을 산정하여 곱셈부로 출력하고, 제 2 VAD 관련값(V2)이 0 이상이며 1 이하인 것을 특징으로 하는 신경망 음성 검출을 이용한 뮤지컬 노이즈 제거 장치.
제 4 항 또는 제 5 항에 있어서,
음성 검출부는 음성 구간에 해당되는 제 1 VAD 관련값(V1) 또는 제 2 VAD 관련값(V2)(0에서 1로 증가하는 값들 중에서 0을 초과하는 값)에 양수인 상수를 곱하여, VAD 관련값(V)인 제 3 VAD 관련값(V3)을 산정하여 곱셈부로 출력하고, 제 3 VAD 관련값(V2)이 0 이상이며 상수 이하인 것을 특징으로 하는 신경망 음성 검출을 이용한 뮤지컬 노이즈 제거 장치.