KR20200137561A - 잡음 환경 노이지 데이터를 생성하기 위한 데이터 생성장치, 데이터 생성방법 및 이를 이용한 잡음 제거장치 및 잡음 제거방법 - Google Patents
잡음 환경 노이지 데이터를 생성하기 위한 데이터 생성장치, 데이터 생성방법 및 이를 이용한 잡음 제거장치 및 잡음 제거방법 Download PDFInfo
- Publication number
- KR20200137561A KR20200137561A KR1020190064111A KR20190064111A KR20200137561A KR 20200137561 A KR20200137561 A KR 20200137561A KR 1020190064111 A KR1020190064111 A KR 1020190064111A KR 20190064111 A KR20190064111 A KR 20190064111A KR 20200137561 A KR20200137561 A KR 20200137561A
- Authority
- KR
- South Korea
- Prior art keywords
- signal
- spectrum
- noisy
- original sound
- noisy signal
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
- G10L19/028—Noise substitution, i.e. substituting non-tonal spectral components by noisy source
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10K—SOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
- G10K11/00—Methods or devices for transmitting, conducting or directing sound in general; Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
- G10K11/16—Methods or devices for protecting against, or for damping, noise or other acoustic waves in general
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0224—Processing in the time domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Abstract
잡음 환경 노이지 데이터를 생성하기 위한 데이터 생성장치가 개시된다. 본 발명의 데이터 생성장치는 실제환경에서 취득한 노이지신호 및 노이지신호에 대한 원음신호를 각각 단구간 주파수 영역의 노이지신호 스펙트럼 및 원음신호 스펙트럼으로 변환하는 신호변환부 및, 원음신호 스펙트럼을 입력으로 하여, 각각의 단구간에서 대응되는 노이지신호 스펙트럼이 출력되도록 심층신경망을 훈련시키는 노이지신호 생성훈련부를 포함한다.
Description
본 발명은 잡음 환경 노이지 데이터를 생성하기 위한 데이터 생성장치, 데이터 생성방법 및 이를 이용한 잡음 제거장치 및 잡음 제거방법에 관한 것이다.
음성신호에 주변소음이 혼합될 경우, 음성신호의 인식률이 급격히 저하될 수 있다. 이는, 훈련용 음성 데이터베이스의 인식시의 입력 데이터와의 불일치에서 주로 기인한다. 이를 극복하고자, 음성신호와 잡음이 혼합된 경우, 잡음이 제거된 원래의 음성신호를 얻기 위한 연구는 활발히 진행되어 왔다.
기존에는, 원음에 인위적으로 원음에 웅성이는 소리, 커피머신 소리 등의 잡음신호를 더하여 노이지신호를 생성하고, 생성된 노이지신호를 이용하여 기계학습 및 심층신경망에 기반한 잡음제거 모델을 훈련시켜왔다.
그러나, 잡음을 제거할 대상이 실제 환경에서 취득한 음성일 경우, 인위적인 덧셈으로 만들어진 노이지신호로 훈련된 기존의 모델은 성능이 낮다는 문제가 있었다. 그렇다고 실제 환경에서 대량의 데이터를 취득하여 잡음제거 모델을 훈련시키는 것은 많은 시간과 비용이 소모되며, 다양한 종류의 노이지신호를 취득하는데 어려움이 있다는 문제가 있다.
본 발명의 목적은 원음으로부터 실제 환경과 유사한 가상의 잡음 환경 노이지 데이터를 생성하기 위한 데이터 생성장치 및 그 데이터 생성방법과, 그로부터 생성된 잡음 환경 노이지 데이터를 이용하여 잡음제거 모델을 훈련시킬 수 있는 잡음 제거장치 및 잡음 제거방법을 제공하는 데에 있다.
상술한 목적을 달성하기 위한 본 발명의 일 실시 예에 따른, 잡음 환경 노이지 데이터를 생성하기 위한 데이터 생성장치는 실제환경에서 취득한 노이지신호 및 상기 노이지신호에 대한 원음신호를 각각 단구간 주파수 영역의 노이지신호 스펙트럼 및 원음신호 스펙트럼으로 변환하는 신호변환부 및, 상기 원음신호 스펙트럼을 입력으로 하여, 각각의 단구간에서 대응되는 상기 노이지신호 스펙트럼이 출력되도록 심층신경망을 훈련시키는 노이지신호 생성훈련부를 포함한다.
이때, 상기 데이터 생성장치는 상기 노이지신호 및 상기 노이지신호에 대한 원음신호를 시간영역에서 동기화하는 신호 동기화부를 더 포함할 수 있다.
한편, 본 발명의 일 실시 예에 따른, 잡음 환경 노이지 데이터를 생성하기 위한 데이터 생성방법은 실제환경에서 취득한 노이지신호 및 상기 노이지신호에 대한 원음신호를 각각 단구간 주파수 영역의 노이지신호 스펙트럼 및 원음신호 스펙트럼으로 변환하는 단계 및, 상기 원음신호 스펙트럼을 입력으로 하여, 각각의 단구간에서 대응되는 상기 노이지신호 스펙트럼이 출력되도록 심층신경망을 훈련시키는 단계를 포함한다.
이때, 상기 데이터 생성방법은 상기 노이지신호 및 상기 노이지신호에 대한 원음신호를 시간영역에서 동기화하는 단계를 더 포함할 수 있다.
한편, 본 발명의 일 실시 예에 따른 잡음 제거장치는 실제환경에서 취득한 제1 노이지신호 및 상기 제1 노이지신호에 대한 원음신호를 각각 단구간 주파수 영역의 제1 노이지신호 스펙트럼 및 원음신호 스펙트럼으로 변환하고, 잡음 제거를 위해 입력된 제2 노이지신호를 주파수 영역의 제2 노이지신호 스펙트럼으로 변환하는 신호변환부, 상기 원음신호 스펙트럼을 입력으로 하여, 각각의 단구간에서 대응되는 상기 제1 노이지신호 스펙트럼이 출력되도록 제1 심층신경망을 훈련시키는 노이지신호 생성훈련부, 상기 제1 심층신경망에서 출력된 제1 노이지신호 스펙트럼을 입력으로 하여, 각각의 단구간에서 상기 원음신호 스펙트럼 대비 상기 제1 노이지신호 스펙트럼의 스펙트럼 비율이 출력되도록 제2 심층신경망을 훈련시키는 스펙트럼 비율추정부, 상기 제2 심층신경망에서 출력된 원음신호 스펙트럼 대비 제1 노이지신호 스펙트럼의 비율을 상기 제2 노이지신호 스펙트럼에 곱하는 연산을 수행하는 스펙트럼 연산부 및, 상기 수행된 연산에 의해 출력된 스펙트럼을 시간 영역의 신호로 변환하는 스펙트럼 변환부를 포함한다.
이때 상기 잡음 제거장치는 상기 제1 노이지신호 및 상기 제1 노이지신호에 대한 원음신호를 시간영역에서 동기화하는 신호 동기화부를 더 포함할 수 있다.
한편, 본 발명의 일 실시 예에 따른 잡음 제거방법은 실제환경에서 취득한 제1 노이지신호 및 상기 제1 노이지신호에 대한 원음신호를 각각 단구간 주파수 영역의 제1 노이지신호 스펙트럼 및 원음신호 스펙트럼으로 변환하는 단계, 상기 원음신호 스펙트럼을 입력으로 하여, 각각의 단구간에서 대응되는 상기 제1 노이지신호 스펙트럼이 출력되도록 제1 심층신경망을 훈련시키는 단계, 상기 제1 심층신경망에서 출력된 제1 노이지신호 스펙트럼을 입력으로 하여, 각각의 단구간에서 상기 원음신호 스펙트럼 대비 상기 제1 노이지신호 스펙트럼의 스펙트럼 비율이 출력되도록 제2 심층신경망을 훈련시키는 단계, 잡음을 제거하고자 하는 제2 노이지신호를 입력 받는 단계, 상기 입력된 제2 노이지신호를 주파수 영역의 제2 노이지신호 스펙트럼으로 변환하는 단계, 상기 제2 심층신경망에서 출력된 원음신호 스펙트럼 대비 제1 노이지신호 스펙트럼의 비율을 상기 제2 노이지신호 스펙트럼에 곱하는 연산을 수행하는 단계 및, 상기 수행된 연산에 의해 출력된 스펙트럼을 시간 영역의 신호로 변환하는 단계를 포함한다.
이때, 상기 잡음 제거방법은 상기 제1 노이지신호 및 상기 제1 노이지신호에 대한 원음신호를 시간영역에서 동기화하는 단계를 더 포함할 수 있다.
본 발명에 따르면, 잡음제거 모델의 성능을 크게 개선할 수 있으며, 실제 잡음환경에서 취득한 것과 유사한 신호를 생성시킨 뒤 이를 통해 잡음제거 모델을 훈련시킴으로써, 잡음제거 모델 훈련용 데이터베이스의 무한한 확장이 가능하다.
도 1은 본 발명의 일 실시 예에 따른 데이터 생성장치를 간략히 나타낸 블록도,
도 2는 본 발명의 일 실시 예에 따른 잡음 제거장치를 간략히 나타낸 블록도,
도 3은 본 발명의 일 실시 예에 따른 데이터 생성을 위한 심층신경망 훈련 과정을 간략히 설명하기 위한 블록도,
도 4는 본 발명의 일 실시 예에 따른 잡음 제거장치의 잡음제거를 위한 구성을 간략히 설명하기 위한 블록도,
도 5는 본 발명의 일 실시 예에 따른 데이터 생성방법을 간략히 설명하기 위한 흐름도,
도 6은 본 발명의 일 실시 예에 따른 잡음 제거방법을 간략히 설명하기 위한 흐름도이다.
도 2는 본 발명의 일 실시 예에 따른 잡음 제거장치를 간략히 나타낸 블록도,
도 3은 본 발명의 일 실시 예에 따른 데이터 생성을 위한 심층신경망 훈련 과정을 간략히 설명하기 위한 블록도,
도 4는 본 발명의 일 실시 예에 따른 잡음 제거장치의 잡음제거를 위한 구성을 간략히 설명하기 위한 블록도,
도 5는 본 발명의 일 실시 예에 따른 데이터 생성방법을 간략히 설명하기 위한 흐름도,
도 6은 본 발명의 일 실시 예에 따른 잡음 제거방법을 간략히 설명하기 위한 흐름도이다.
먼저, 본 명세서 및 청구범위에서 사용되는 용어는 본 발명의 다양한 실시 예들에서의 기능을 고려하여 일반적인 용어들을 선택하였다. 하지만, 이러한 용어들은 당 분야에 종사하는 기술자의 의도나 법률적 또는 기술적 해석 및 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 일부 용어는 출원인이 임의로 선정한 용어일 수 있다. 이러한 용어에 대해서는 본 명세서에서 정의된 의미로 해석될 수 있으며, 구체적인 용어 정의가 없으면 본 명세서의 전반적인 내용 및 당해 기술 분야의 통상적인 기술 상식을 토대로 해석될 수도 있다.
또한, 본 명세서에 첨부된 각 도면에 기재된 동일한 참조 번호 또는 부호는 실질적으로 동일한 기능을 수행하는 부품 또는 구성요소를 나타낸다. 설명 및 이해의 편의를 위해서 서로 다른 실시 예들에서도 동일한 참조번호 또는 부호를 사용하여 설명하도록 한다. 즉, 복수의 도면에서 동일한 참조 번호를 가지는 구성 요소를 모두 도시하고 있다고 하더라도, 복수의 도면들이 하나의 실시 예를 의미하는 것은 아니다.
또한, 본 명세서 및 청구범위에서는 구성요소들 간의 구별을 위하여 ‘제1’, ‘제2’ 등과 같이 서수를 포함하는 용어가 사용될 수 있다. 이러한 서수는 동일 또는 유사한 구성 요소들을 서로 구별하기 위하여 사용하는 것이며, 이러한 서수 사용으로 인하여 용어의 의미가 한정 해석되어서는 안될 것이다. 일 예로, 이러한 서수와 결합된 구성 요소는 그 숫자에 의해 사용 순서나 배치 순서 등이 제한 해석되어서는 안된다. 필요에 따라서는, 각 서수들은 서로 교체되어 사용될 수도 있다.
본 명세서에서 단수의 표현은 문맥상 명백하게 다름을 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, ‘포함하다’ 또는 ‘구성하다’ 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 본 발명의 실시 예에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적인 연결뿐 아니라, 다른 매체를 통한 간접적인 연결의 경우도 포함한다. 또한 어떤 부분이 어떤 구성 요소를 포함한다는 의미는, 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있다는 것을 의미한다.
이하, 첨부된 도면을 참조하여 본 발명을 더욱 구체적으로 설명하기로 한다.
도 1은 본 발명의 일 실시 예에 따른 데이터 생성장치를 간략히 나타낸 블록도이다.
본 발명의 데이터 생성장치(100)는 신호 변환부(120), 노이지신호 생성훈련부(130)를 포함한다.
신호 변환부(120)는 시간 영역의 신호 데이터를 주파수 영역의 신호 데이터로 변환하는 구성이다. 예를 들어, 신호 변환부(120)는 단구간 푸리에 변환(Short-Time Fourier Transform, STFT)을 이용하여, 시간 영역의 신호 데이터를 주파수 영역의 특징 벡터로 변환할 수 있다. 이때, 특징 벡터로는 스펙트럼의 크기가 주로 사용된다. 본 발명에서는 특징 벡터의 예를 스펙트럼의 크기로 가정하며 특별한 사항이 없는 한, 스펙트럼은 스펙트럼의 크기인 절대값을 의미한다.
노이지신호 생성훈련부(130)는 원음신호 스펙트럼을 입력으로 하여, 원음신호에 대응되는 노이지신호 스펙트럼이 출력되도록 심층신경망을 훈련시키는 구성이다.
여기서, 노이지신호 스펙트럼은 실제환경에서 취득한 노이지신호(잡음이 섞인 원음)가 신호 변환부(120)에서 변환된 주파수 영역의 신호 데이터를 의미한다. 또한, 원음신호 스펙트럼은 노이지신호에 대하여 잡음이 섞이지 않은 원음신호가 신호 변환부(120)에서 변환된 주파수 영역의 신호 데이터를 의미한다.
한편, 본 발명의 다른 실시 예에 따른 데이터 생성장치(100)는 신호 동기화부(110)를 더 포함할 수 있다.
신호 동기화부(110)는 실제환경에서 취득한 노이지신호 및 이에 대한 원음신호를 시간영역에서 동기화하는 구성이다. 이는, 노이지신호의 생성모델 및 잡음제거 모델을 구성할 때, 입력과 출력에 해당하는 스펙트럼 벡터를 동일한 신호구간에서 생성하기 위함이다.
도 2는 본 발명의 일 실시 예에 따른 잡음 제거장치를 간략히 나타낸 블록도이다.
도 2에 도시된 바와 같이, 본 발명의 다른 실시 예에 따른 잡음 제거장치(100')는 데이터 생성장치(100)에 있어서, 노이지신호 생성훈련부(130), 스펙트럼 비율추정부(140), 스펙트럼 연산부(150) 및 스펙트럼 변환부(160)를 더 포함할 수 있다.
노이지신호 생성훈련부(130)는 신호 변환부(120)를 통해 변환된 각 단구간에 해당하는 스펙트럼들을 훈련 데이터로 하여, 원음신호의 단구간 스펙트럼이 입력되었을 때에, 실제환경에서 취득한 노이지신호의 단구간 스펙트럼이 출력되도록 한다.
스펙트럼 비율추정부(140)는 노이지신호 생성훈련부(130)에서 출력된 노이지신호 스펙트럼을 입력으로 하여, 원음신호의 단구간 스펙트럼 대비 노이지신호의 단구간 스펙트럼의 비율(Ideal Ratio Mask, IRM)을 출력하도록 심층신경망을 훈련시키는 구성이다.
스펙트럼 연산부(150)는 스펙트럼 비율추정부(140)에서 출력된 스펙트럼의 비율을 잡음 제거를 위해 새로 입력된 제2 노이지 신호의 스펙트럼에 곱하는 연산을 수행하는 구성이다.
스펙트럼 변환부(160)는 주파수 영역의 신호 데이터를 시간 영역의 신호 데이터로 변환하는 구성이다. 예를 들어, 스펙트럼 변환부(160)는 단구간 푸리에 역변환(Inverse Short-Time Fourier Transform, ISTFT)을 이용하여, 주파수 영역의 특징 벡터를 시간 영역의 신호 데이터로 변환할 수 있다.
도 3은 본 발명의 일 실시 예에 따른, 데이터 생성을 위한 심층신경망 훈련 과정을 간략히 나타낸 것으로, 상술한 신호 동기화부(110), 실제환경에서 취득한 노이지신호 y(n)를 주파수 영역으로 변환하여 단구간마다의 노이지신호 스펙트럼을 생성하는 신호변환부(120) 및 원음 x(n)에 대해서 위에서 생성된 노이지신호 스펙트럼을 출력으로 하도록 심층신경망을 훈련하는 파트인 노이지신호 생성훈련부(130)의 데이터 훈련 과정을 설명하기 위한 것이다.
신호변환부(120)에 의하여, 실제 잡음환경에서 취득한 노이지신호 y(n)과 해당 음향의 원음 x(n)을 단구간 푸리에 변환하여 Y(i,k) 및 X(i,k)가 구해질 수 있다.
도 3에 도시된 바와 같이, 노이지신호 생성훈련부(130)는 아래 수학식 1과 같은 두 스펙트럼의 비율 r(i,k)를 프레임 단위로 훈련시켜, 원음신호로부터 노이지신호를 생성하는 노이지 신호 생성 모델을 구성할 수 있다.
상기 식에서, i,k는 각각 프레임 인덱스(frame index)와 주파수 해상도(frequency bin index)를 의미하며, 노이지신호 생성훈련부(130)에서 생성되는 가상의 노이지신호 스펙트럼 은 아래 수학식 2를 통해 생성된다.
위와 같이, 실제 환경에서 취득한 노이지신호 및 이에 대응되는 원음신호의 스펙트럼 비율을 훈련함으로써, 새롭게 입력되는 원음신호에 대한 가상의 노이지신호를 무한대로 생성할 수 있고, 생성된 가상의 노이지신호를 통하여 잡음 제거 모델을 훈련시킬 수 있다.
여기서, 잡음 제거 모델은 노이지신호 생성 모델과 동일한 구조의 심층신경망을 이용하여 구현 가능하다.
구체적으로, 노이지 신호의 잡음을 제거하기 위한 잡음 제거 모델은 도 3에 나타난 노이지신호 생성 모델과 노드 개수, 은닉층 개수, 활성함수 등이 모두 동일한 구조를 갖는 심층신경망에 를 입력으로, |X(i,k)|/를 출력으로 하는 모델로서 훈련시킬 수 있다.
도 4는 본 발명의 일 실시 예에 따른 잡음 제거장치의 잡음제거를 위한 구성을 간략히 설명하기 위한 블록도이다.
잡음 제거장치(100')에 있어서, 잡음을 제거하기 위한 노이지 신호 y(n)이 신호 변환부(120)로 입력되면, 신호 변환부(120)는 노이지 신호 y(n)을 주파수 영역의 스펙트럼 |Y(i,k)|으로 변환한다.
스펙트럼 비율 추정부(140)에서는 훈련된 심층신경망에 따라 출력된 스펙트럼 비율(훈련대상인 원음신호 스펙트럼 대비 훈련대상인 노이지신호 스펙트럼 비율)을 출력하고, 스펙트럼 비율 추정부(140)는 출력된 스펙트럼 비율과 노이지 신호 스펙트럼 |Y(i,k)|을 곱하는 연산을 수행한다.
곱셈 연산에 의해, 노이지 신호의 스펙트럼 |Y(i,k)|에 대한 원음 신호의 스펙트럼 |X(i,k)|가 산출되며, 스펙트럼 변환부(150)가 산출된 |X(i,k)|를 시간 영역의 신호로 변환하여, 입력된 노이지 신호 y(n)에서 잡음이 제거된 원음 신호 x(n)이 출력되게 된다.
도 3에서 설명한 노이지신호 생성 모델 훈련과 도 4에서 설명한 잡음제거 모델 훈련은 하나의 잡음 제거장치(100')에서 모두 수행될 수도 있으나, 실시 예에 따라 노이지신호 생성 모델 훈련과 잡음제거 모델 훈련은 서로 다른 장치에서 구현될 수도 있다.
즉, 신호 변환부(120), 스펙트럼 비율추정부(140), 스펙트럼 연산부(150) 및 스펙트럼 변환부(160)만이 잡음제거 모델을 훈련하기 위한 신호 처리장치에 포함되고, 도 1에서 나타낸 바와 같이, 신호 동기화부(110), 신호 변환부(120) 및 노이지신호 생성훈련부(130)는 노이지신호 생성 모델을 훈련하기 위한 데이터 생성장치(100)에 포함될 수도 있다.
도 5는 본 발명의 일 실시 예에 따른 데이터 생성방법을 간략히 설명하기 위한 흐름도이다.
먼저, 실제환경에서 취득한 노이지신호 및 노이지신호에 대한 원음신호를 각각 단구간 주파수 영역의 노이지신호 스펙트럼 및 원음신호 스펙트럼으로 변환한다(S510). 이때, 실제환경에서 취득한 노이지신호 및 노이지신호에 대한 원음신호를 시간영역에서 동기화할 수 있다.
이후, 원음신호 스펙트럼을 입력으로 하여, 각각의 단구간에서 대응되는 상기 노이지신호 스펙트럼이 출력되도록 심층신경망을 훈련시킨다(S520).
도 6은 본 발명의 일 실시 예에 따른 잡음 제거방법을 간략히 설명하기 위한 흐름도이다.
먼저, 실제환경에서 취득한 제1 노이지신호 및 제1 노이지신호에 대한 원음신호를 각각 단구간 주파수 영역의 제1 노이지신호 스펙트럼 및 원음신호 스펙트럼으로 변환한다(S610). 이때, 실제환경에서 취득한 제1 노이지신호 및 제1 노이지신호에 대한 원음신호를 시간영역에서 동기화할 수 있다.
이후, 원음신호 스펙트럼을 입력으로 하여, 각각의 단구간에서 대응되는 상기 제1 노이지신호 스펙트럼이 출력되도록 제1 심층신경망을 훈련시킨다(S620).
이후, 제1 심층신경망에서 출력된 제1 노이지신호 스펙트럼을 입력으로 하여, 각각의 단구간에서 상기 원음신호 스펙트럼 대비 상기 제1 노이지신호 스펙트럼의 스펙트럼 비율이 출력되도록 제2 심층신경망을 훈련시킨다(S630).
이후, 잡음을 제거하고자 하는 제2 노이지신호를 입력 받는다(S640).
이후, 입력된 제2 노이지신호를 주파수 영역의 제2 노이지신호 스펙트럼으로 변환한다(S650).
이후, 제2 심층신경망에서 출력된 원음신호 스펙트럼 대비 제1 노이지신호 스펙트럼의 비율을 제2 노이지신호 스펙트럼에 곱하는 연산을 수행한다(S660).
이후, 수행된 연산에 의해 출력된 스펙트럼을 시간 영역의 신호로 변환한다(S670).
상술한 바와 같이, 실제 취득한 노이지 신호를 기반으로 모델을 구성했을 때, 인위적으로 잡음을 더한 노이지 신호로 모델을 구성했을 때 효과적으로 잡음 제거 훈련이 가능하다.
이상과 같은 본 발명의 다양한 실시 예에 따르면, 원음으로부터 실제 환경과 유사한 가상의 혼합신호 데이터를 구성하여 잡음제거 모델을 훈련시킴으로써, 딥러닝 기반 잡음제거의 모델의 성능을 크게 개선시킬 수 있다.
상술한 다양한 실시 예에 따른 제어 방법은 프로그램으로 구현되어 다양한 기록 매체에 저장될 수 있다. 즉, 각종 프로세서에 의해 처리되어 상술한 잡음제거 방법을 실행할 수 있는 컴퓨터 프로그램이 기록 매체에 저장된 상태로 사용될 수도 있다.
일 예로, ⅰ)실제환경에서 취득한 노이지신호 및 노이지신호에 대한 원음신호를 각각 단구간 주파수 영역의 제1 노이지신호 스펙트럼 및 원음신호 스펙트럼으로 변환하는 단계, ⅱ)원음신호 스펙트럼을 입력으로 하여, 각각의 단구간에서 대응되는 노이지신호 스펙트럼이 출력되도록 심층신경망을 훈련시키는 단계를 수행하는 프로그램이 저장된 비일시적 판독 가능 매체(non-transitory computer readable medium)가 제공될 수 있다.
비일시적 판독 가능 매체란 레지스터, 캐쉬, 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로는, 상술한 다양한 어플리케이션 또는 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리카드, ROM 등과 같은 비일시적 판독 가능 매체에 저장되어 제공될 수 있다.
한편, 이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어져서는 안될 것이다.
100: 데이터 생성장치 100': 잡음 제거장치
110: 신호 동기화부 120: 신호 변환부
130: 노이지신호 생성훈련부 140: 스펙트럼 비율추정부
150: 스펙트럼 연산부 160: 스펙트럼 변환부
110: 신호 동기화부 120: 신호 변환부
130: 노이지신호 생성훈련부 140: 스펙트럼 비율추정부
150: 스펙트럼 연산부 160: 스펙트럼 변환부
Claims (8)
- 잡음 환경 노이지 데이터를 생성하기 위한 데이터 생성장치에 있어서,
실제환경에서 취득한 노이지신호 및 상기 노이지신호에 대한 원음신호를 각각 단구간 주파수 영역의 노이지신호 스펙트럼 및 원음신호 스펙트럼으로 변환하는 신호변환부; 및
상기 원음신호 스펙트럼을 입력으로 하여, 각각의 단구간에서 대응되는 상기 노이지신호 스펙트럼이 출력되도록 심층신경망을 훈련시키는 노이지신호 생성훈련부;를 포함하는 데이터 생성장치. - 제1항에 있어서,
상기 노이지신호 및 상기 노이지신호에 대한 원음신호를 시간영역에서 동기화하는 신호 동기화부;를 더 포함하는 것을 특징으로 하는 데이터 생성장치. - 잡음 환경 노이지 데이터를 생성하기 위하여 데이터 생성장치에서 수행하는 데이터 생성방법으로서,
실제환경에서 취득한 노이지신호 및 상기 노이지신호에 대한 원음신호를 각각 단구간 주파수 영역의 노이지신호 스펙트럼 및 원음신호 스펙트럼으로 변환하는 단계; 및
상기 원음신호 스펙트럼을 입력으로 하여, 각각의 단구간에서 대응되는 상기 노이지신호 스펙트럼이 출력되도록 심층신경망을 훈련시키는 단계;를 포함하는 데이터 생성방법. - 제3항에 있어서,
상기 노이지신호 및 상기 노이지신호에 대한 원음신호를 시간영역에서 동기화하는 단계;를 더 포함하는 것을 특징으로 하는 데이터 생성방법. - 잡음제거장치에 있어서,
실제환경에서 취득한 제1 노이지신호 및 상기 제1 노이지신호에 대한 원음신호를 각각 단구간 주파수 영역의 제1 노이지신호 스펙트럼 및 원음신호 스펙트럼으로 변환하고, 잡음 제거를 위해 입력된 제2 노이지신호를 주파수 영역의 제2 노이지신호 스펙트럼으로 변환하는 신호변환부;
상기 원음신호 스펙트럼을 입력으로 하여, 각각의 단구간에서 대응되는 상기 제1 노이지신호 스펙트럼이 출력되도록 제1 심층신경망을 훈련시키는 노이지신호 생성훈련부;
상기 제1 심층신경망에서 출력된 제1 노이지신호 스펙트럼을 입력으로 하여, 각각의 단구간에서 상기 원음신호 스펙트럼 대비 상기 제1 노이지신호 스펙트럼의 스펙트럼 비율이 출력되도록 제2 심층신경망을 훈련시키는 스펙트럼 비율추정부;
상기 제2 심층신경망에서 출력된 원음신호 스펙트럼 대비 제1 노이지신호 스펙트럼의 비율을 상기 제2 노이지신호 스펙트럼에 곱하는 연산을 수행하는 스펙트럼 연산부; 및
상기 수행된 연산에 의해 출력된 스펙트럼을 시간 영역의 신호로 변환하는 스펙트럼 변환부;를 포함하는 잡음 제거장치. - 제5항에 있어서,
상기 제1 노이지신호 및 상기 제1 노이지신호에 대한 원음신호를 시간영역에서 동기화하는 신호 동기화부;를 더 포함하는 것을 특징으로 하는 잡음 제거장치. - 잡음 제어장치에서 수행하는 잡음 제거방법에 있어서,
실제환경에서 취득한 제1 노이지신호 및 상기 제1 노이지신호에 대한 원음신호를 각각 단구간 주파수 영역의 제1 노이지신호 스펙트럼 및 원음신호 스펙트럼으로 변환하는 단계;
상기 원음신호 스펙트럼을 입력으로 하여, 각각의 단구간에서 대응되는 상기 제1 노이지신호 스펙트럼이 출력되도록 제1 심층신경망을 훈련시키는 단계;
상기 제1 심층신경망에서 출력된 제1 노이지신호 스펙트럼을 입력으로 하여, 각각의 단구간에서 상기 원음신호 스펙트럼 대비 상기 제1 노이지신호 스펙트럼의 스펙트럼 비율이 출력되도록 제2 심층신경망을 훈련시키는 단계;
잡음을 제거하고자하는 제2 노이지신호를 입력받는 단계;
상기 입력된 제2 노이지신호를 주파수 영역의 제2 노이지신호 스펙트럼으로 변환하는 단계;
상기 제2 심층신경망에서 출력된 원음신호 스펙트럼 대비 제1 노이지신호 스펙트럼의 비율을 상기 제2 노이지신호 스펙트럼에 곱하는 연산을 수행하는 단계; 및
상기 수행된 연산에 의해 출력된 스펙트럼을 시간 영역의 신호로 변환하는 단계;를 포함하는 잡음 제거방법. - 제7항에 있어서,
상기 제1 노이지신호 및 상기 제1 노이지신호에 대한 원음신호를 시간영역에서 동기화하는 단계;를 더 포함하는 잡음 제거방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190064111A KR20200137561A (ko) | 2019-05-30 | 2019-05-30 | 잡음 환경 노이지 데이터를 생성하기 위한 데이터 생성장치, 데이터 생성방법 및 이를 이용한 잡음 제거장치 및 잡음 제거방법 |
US16/887,419 US11393443B2 (en) | 2019-05-30 | 2020-05-29 | Apparatuses and methods for creating noise environment noisy data and eliminating noise |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190064111A KR20200137561A (ko) | 2019-05-30 | 2019-05-30 | 잡음 환경 노이지 데이터를 생성하기 위한 데이터 생성장치, 데이터 생성방법 및 이를 이용한 잡음 제거장치 및 잡음 제거방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20200137561A true KR20200137561A (ko) | 2020-12-09 |
Family
ID=73551365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190064111A KR20200137561A (ko) | 2019-05-30 | 2019-05-30 | 잡음 환경 노이지 데이터를 생성하기 위한 데이터 생성장치, 데이터 생성방법 및 이를 이용한 잡음 제거장치 및 잡음 제거방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US11393443B2 (ko) |
KR (1) | KR20200137561A (ko) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2022045086A (ja) * | 2020-09-08 | 2022-03-18 | 株式会社スクウェア・エニックス | 残響を求めるためのシステム |
US11802479B2 (en) * | 2022-01-26 | 2023-10-31 | Halliburton Energy Services, Inc. | Noise reduction for downhole telemetry |
CN114509162B (zh) * | 2022-04-18 | 2022-06-21 | 四川三元环境治理股份有限公司 | 一种声环境数据监测方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
ES2678415T3 (es) * | 2008-08-05 | 2018-08-10 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Aparato y procedimiento para procesamiento y señal de audio para mejora de habla mediante el uso de una extracción de característica |
US10283140B1 (en) * | 2018-01-12 | 2019-05-07 | Alibaba Group Holding Limited | Enhancing audio signals using sub-band deep neural networks |
US10726858B2 (en) * | 2018-06-22 | 2020-07-28 | Intel Corporation | Neural network for speech denoising trained with deep feature losses |
WO2020041497A1 (en) * | 2018-08-21 | 2020-02-27 | 2Hz, Inc. | Speech enhancement and noise suppression systems and methods |
-
2019
- 2019-05-30 KR KR1020190064111A patent/KR20200137561A/ko not_active Application Discontinuation
-
2020
- 2020-05-29 US US16/887,419 patent/US11393443B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
US11393443B2 (en) | 2022-07-19 |
US20200380943A1 (en) | 2020-12-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2021036297A (ja) | 信号処理装置、信号処理方法、及びプログラム | |
KR20200137561A (ko) | 잡음 환경 노이지 데이터를 생성하기 위한 데이터 생성장치, 데이터 생성방법 및 이를 이용한 잡음 제거장치 및 잡음 제거방법 | |
JP2021524973A (ja) | パタン認識装置、パタン認識方法、及びプログラム | |
US10152986B2 (en) | Acoustic processing apparatus, acoustic processing method, and computer program product | |
JP6482173B2 (ja) | 音響信号処理装置およびその方法 | |
KR101305373B1 (ko) | 관심음원 제거방법 및 그에 따른 음성인식방법 | |
JP2023541472A (ja) | ハイパーパラメータ最適化システム、方法およびプログラム | |
CN110998723B (zh) | 使用神经网络的信号处理装置及信号处理方法、记录介质 | |
Ganapathy | Multivariate autoregressive spectrogram modeling for noisy speech recognition | |
JP2013068938A (ja) | 信号処理装置、信号処理方法及びコンピュータプログラム | |
JP7315087B2 (ja) | 信号処理装置、信号処理方法、および、信号処理プログラム | |
JP5726790B2 (ja) | 音源分離装置、音源分離方法、およびプログラム | |
EP4177885A1 (en) | Quantifying signal purity by means of machine learning | |
Ernawan et al. | Efficient discrete tchebichef on spectrum analysis of speech recognition | |
CN110992966B (zh) | 一种人声分离方法及系统 | |
JP7159928B2 (ja) | 雑音空間共分散行列推定装置、雑音空間共分散行列推定方法、およびプログラム | |
JP6285823B2 (ja) | Lpc分析装置、音声分析変換合成装置、それらの方法及びプログラム | |
US20220051687A1 (en) | Sound processing method | |
JP2003271168A (ja) | 信号抽出方法および信号抽出装置、信号抽出プログラムとそのプログラムを記録した記録媒体 | |
KR102408689B1 (ko) | 신경망 음성 검출을 이용한 뮤지컬 노이즈 제거 장치 | |
Prabhu et al. | EMOCONV-DIFF: Diffusion-based Speech Emotion Conversion for Non-parallel and In-the-wild Data | |
KR102345487B1 (ko) | 이중 도메인을 이용한 음원 분리기의 훈련 방법, 음원 분리 방법 및 그 장치 | |
US11922966B2 (en) | Signal separation apparatus, signal separation method and program | |
JP2018191255A (ja) | 収音装置、その方法、及びプログラム | |
KR102505653B1 (ko) | 심화신경망을 이용한 에코 및 잡음 통합 제거 방법 및 장치 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E601 | Decision to refuse application |