KR102191736B1 - 인공신경망을 이용한 음성향상방법 및 장치 - Google Patents

인공신경망을 이용한 음성향상방법 및 장치 Download PDF

Info

Publication number
KR102191736B1
KR102191736B1 KR1020200093974A KR20200093974A KR102191736B1 KR 102191736 B1 KR102191736 B1 KR 102191736B1 KR 1020200093974 A KR1020200093974 A KR 1020200093974A KR 20200093974 A KR20200093974 A KR 20200093974A KR 102191736 B1 KR102191736 B1 KR 102191736B1
Authority
KR
South Korea
Prior art keywords
signal
complex spectrum
speech signal
speech
complex
Prior art date
Application number
KR1020200093974A
Other languages
English (en)
Other versions
KR102191736B9 (ko
Inventor
최형석
허훈
이지환
Original Assignee
주식회사 수퍼톤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 수퍼톤 filed Critical 주식회사 수퍼톤
Priority to KR1020200093974A priority Critical patent/KR102191736B1/ko
Application granted granted Critical
Publication of KR102191736B1 publication Critical patent/KR102191736B1/ko
Publication of KR102191736B9 publication Critical patent/KR102191736B9/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

학습용 데이터 세트에 의해 트레이닝된 음성향상장치를 이용한 음성향상방법에 관한 것으로, 음성신호 및 잡음신호가 섞여있는 혼합음신호를 획득하고, 혼합음신호를 단시간 푸리에 변환(STFT: Short-time Fourier Transform)으로 혼합음신호의 복소 스펙트로그램으로 변환하고, 미리 트레이닝된 인공신경망에 의해 혼합음신호의 복소 스펙트로그램에 기초하여 음성신호의 복소 스펙트럼을 산출하기 위한 복수 개의 음성신호 파라미터를 결정하고, 결정된 복수 개의 음성신호 파라미터에 기초하여 음성신호의 복소 스펙트럼을 산출하고, 산출된 음성신호의 복소 스펙트럼을 푸리에 역변환(Inverse Fourier Transform)으로 음성신호로 변환함으로써, 잡음이 섞인 혼합음신호로부터 잡음신호가 깨끗하게 제거된 음성신호만을 추출할 수 있다.

Description

인공신경망을 이용한 음성향상방법 및 장치 {Method and apparatus for speech enhancement with artificial neural network}
음성향상 방법 및 장치에 관한 것으로, 보다 구체적으로 혼합음신호로부터 잡음을 제거하여 음성신호의 음성 명료도를 향상시키는 음성향상방법 및 장치에 관한 것이다.
스마트폰, 마이크, 녹음기, 컴퓨팅 디바이스 등을 통해 녹음된 사람의 음성신호는 스피커, 이어폰 등을 통하여 재생된다. 이 때, 음성신호에 잔향, 잡음이 많이 섞여 있는 경우 음성신호의 음성 명료도(speech intelligibility)가 매우 낮기 때문에 상대방에게 음성신호의 의미를 명확하게 전달할 수 없다. 잔향과 잡음이 섞인 음성신호에서 음성 명료도를 높이기 위하여 다양한 방법들이 제시되고 있다.
이러한 종래의 방법에는 대표적으로 능동 소음 제어(active noise control) 기법, 스펙트럼 차감법(stpectral subtraction) 및 빔포밍(beamforming) 기법이 있다. 능동 소음 제어 기법은 잡음을 포함하는 음성신호에 주기성 소음의 동진폭 역위상 신호를 더하여 잡음을 상쇄시켜 음성신호로부터 잡음을 제거하는 방법으로, 일반적으로 이어폰, 헤드폰 등에서 많이 이용된다. 이러한 능동 소음 제어 기법은 잡음과 동진폭 역위상 신호를 출력하기 위한 별도의 스피커가 필수적이기 때문에, 장치의 크기가 커지게 되어 소형 장비에서는 사용할 수 없으며 비용이 증가하는 문제점이 있었다. 또한, 능동 소음 제어 기법은 잡음과 동진폭 역위상 신호가 잡음과 정확하게 상쇄되기 위해서는 스피커와 청취자 사이의 위치가 고정되어야 하는 문제점이 있었다.
스펙트럼 차감법은 잡음의 스펙트럼의 정적 특성을 확률통계적으로 분석하고, 이에 기초하여 잡음이 섞인 음성신호로부터 잡음을 제거한다. 이러한 스펙트럼 차감법은 잡음의 확률 통계적인 특징에 기초하여 음성신호로부터 잡음을 제거하기 때문에, 불규칙적이고 단발적인 잡음을 제거하기 어려운 문제점이 있었다. 또한, 스펙트럼 차감법은 잡음의 스펙트럼을 분석할 때 위상을 고려하지 않아 잡음을 효과적으로 제거하지 못하는 문제점이 있었다.
빔포밍 기법은 복수 개의 위치에 고정된 복수 개의 마이크로폰로부터 수신된 각 음성신호를 분석하여 대상 음성신호만을 추출하여 잡음을 제거한다. 이처럼 빔포밍 기법은 각각 상이한 위치에 고정된 복수 개의 마이크로폰이 필요하기 때문에 소형화가 어려운 문제점이 있었다. 또한, 빔포밍 기법은 복수 개의 마이크로폰으로부터 수집된 복수 개의 음성신호를 처리해야 하기 때문에 회로 설계가 복잡하고 비용이 증가하는 문제점이 있었다.
이에 더하여, 종래의 음성 향상 방법들은 잡음을 제거할 때 위상차를 고려하지 않기 때문에, 음성신호의 직접음과 위상이 상이한 잔향과 같은 잡음들을 제거하지 못하는 문제점이 있었다. 이에 따라, 음성신호에서 에코(echo)와 같이 울리는 소리가 제거되지 못하여 음성신호의 명료도가 낮은 문제점이 있었다.
대한민국 등록특허공보 제10-0657948호 대한민국 등록특허공보 제10-1614647호 대한민국 등록특허공보 제10-1616452호
Hyeong-Seok Choi, Hoon Heo, Jie Hwan Lee, Kyogu Lee, "Phase-aware Single-stage Speech Denoising and Dereverberation with U-Net," arXiv preprint.
인공신경망을 이용한 음성 향상 방법 및 장치를 제공하는 데에 있다. 또한, 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 이하의 설명으로부터 또 다른 기술적 과제가 도출될 수도 있다.
본 발명의 일 실시예에 따른 학습용 데이터 세트에 의해 트레이닝된 음성 향상 장치를 이용한 음성향상방법은, 음성신호 및 잡음신호가 섞여있는 혼합음신호를 획득하는 단계; 상기 혼합음신호를 단시간 푸리에 변환(STFT: Short-time Fourier Transform)으로 상기 혼합음신호의 복소 스펙트로그램으로 변환하는 단계; 미리 트레이닝된 인공신경망에 의해, 상기 혼합음신호의 복소 스펙트로그램에 기초하여 상기 음성신호의 복소 스펙트럼을 산출하기 위한 복수 개의 음성신호 파라미터를 결정하는 단계; 상기 복수 개의 음성신호 파라미터에 기초하여 상기 음성 신호의 복소 스펙트럼을 산출하는 단계; 상기 산출된 음성신호의 복소 스펙트럼을 푸리에 역변환(Inverse Fourier Transform)으로 상기 음성신호로 변환하는 단계; 및 상기 변환된 음성신호를 출력하는 단계를 포함한다.
상기 인공신경망은 복수 개의 인코더(encoder) 및 복수 개의 디코더(decoder)를 포함하고, 동일 층위의 인코더 및 디코더가 서로 연결되는 U-Net 연결구조를 갖는 인공신경망이다.
상기 혼합음 신호의 복소 스펙트로그램은 n개의 시간프레임 및 m개의 주파수 빈으로 구분되고, n×m개의 복소 스펙트럼을 포함하고, 상기 복수 개의 음성신호 파라미터를 결정하는 단계는 임의의 시간프레임 및 임의의 주파수 빈에서의 상기 혼합음 신호의 복소 스펙트럼에 기초하여 동일한 시간프레임 및 동일한 주파수 빈에서의 상기 음성신호의 복소 스펙트럼을 산출하기 위한 복수 개의 음성신호 파라미터를 결정한다.
상기 복수 개의 음성신호 파라미터는 상기 음성신호의 복소 스펙트럼의 진폭 및 상기 혼합음신호의 복소 스펙트럼과 상기 음성신호의 복소 스펙트럼 사이의 절대 위상차와 연관된 제 1 및 제 2 음성신호 파라미터, 및 상기 절대 위상차의 부호와 연관된 제 3 및 제 4 음성신호 파라미터를 포함한다.
상기 음성신호의 복소 스펙트럼을 산출하는 단계는 상기 제 1 음성신호 파라미터 및 상기 제 2 음성신호 파라미터에 기초하여 상기 음성신호의 복소 스펙트럼의 진폭, 및 상기 잡음신호의 복소 스펙트럼의 진폭을 산출하는 단계; 상기 음성신호의 복소 스펙트럼의 진폭 및 상기 잡음신호의 복소 스펙트럼의 진폭에 기초하여 상기 혼합음신호의 복소 스펙트럼과 상기 음성신호의 복소 스펙트럼 사이의 절대 위상차를 산출하는 단계; 상기 제 3 음성신호 파라미터, 상기 제 4 음성신호 파라미터 및 상기 산출된 절대 위상차에 기초하여, 상기 음성신호의 복소 스펙트럼의 위상을 산출하는 단계; 및 상기 산출된 음성신호의 복소 스펙트럼의 진폭 및 상기 음성신호의 복소 스펙트럼의 위상에 기초하여, 상기 음성신호의 복소 스펙트럼을 산출하는 단계를 포함한다.
상기 음성신호의 복소 스펙트럼의 진폭, 및 상기 잡음신호의 복소 스펙트럼의 진폭을 산출하는 단계는 아래의 수학식 1에 따라 상기 음성신호의 복소 스펙트럼의 진폭을 산출하고, 아래의 수학식 2에 따라 상기 잡음신호의 복소 스펙트럼을 산출한다.
<수학식 1>
Figure 112020079097334-pat00001
<수학식 2>
Figure 112020079097334-pat00002
(
Figure 112020079097334-pat00003
: 시간프레임 t 및 주파수 빈 f에서의 음성신호의 복소 스펙트럼의 진폭,
Figure 112020079097334-pat00004
: 시간프레임 t 및 주파수 빈 f에서의 잡음신호의 복소 스펙트럼의 진폭,
Figure 112020079097334-pat00005
: 시간프레임 t 및 주파수 빈 f에서의 제 1 음성신호 파라미터,
Figure 112020079097334-pat00006
: 시간프레임 t 및 주파수 빈 f에서의 혼합음신호의 복소 스펙트럼의 진폭, zt,f : 시간프레임 t 및 주파수 빈 f에서의 제 2 음성신호 파라미터)
상기 혼합음신호의 복소 스펙트럼과 상기 음성신호의 복소 스펙트럼 사이의 절대 위상차를 산출하는 단계는 아래의 수학식 3에 따라 상기 절대 위상차를 산출한다.
<수학식 3>
Figure 112020079097334-pat00007
(
Figure 112020079097334-pat00008
: 시간프레임 t 및 주파수 빈 f에서 혼합음신호의 복소 스펙트럼 Xt,f과 음성신호의 복소 스펙트럼 St,f 사이의 절대 위상차,
Figure 112020079097334-pat00009
: 시간프레임 t 및 주파수 빈 f에서의 음성신호의 복소 스펙트럼의 진폭,
Figure 112020079097334-pat00010
: 시간프레임 t 및 주파수 빈 f에서의 음성신호의 복소 스펙트럼의 진폭,
Figure 112020079097334-pat00011
: 시간프레임 t 및 주파수 빈 f에서의 잡음신호의 복소 스펙트럼의 진폭)
상기 음성신호의 복소 스펙트럼의 위상을 산출하는 단계는 아래의 수학식 4에 따라 상기 음성신호의 복소 스펙트럼의 위상을 산출한다.
<수학식 4>
Figure 112020079097334-pat00012
(
Figure 112020079097334-pat00013
: 시간프레임 t 및 주파수 빈 f에서의 음성신호의 복소 스펙트럼의 위상,
Figure 112020079097334-pat00014
: 시간프레임 t 및 주파수 빈 f에서의 혼합음신호의 복소 스펙트럼의 위상,
Figure 112020079097334-pat00015
: 시간프레임 t 및 주파수 빈 f에서의 제 3 음성신호 파리미터,
Figure 112020079097334-pat00016
: 시간프레임 t 및 주파수 빈 f에서의 제 4 음성신호 파리미터,
Figure 112020079097334-pat00017
: 부호 결정 계수)
본 발명의 다른 실시예에 따른 학습용 데이터 세트에 의해 트레이닝된 음성향상장치는 음성신호 및 잡음신호가 섞여있는 혼합음신호를 획득하는 혼합음신호 획득부; 상기 혼합음신호를 단시간 푸리에 변환(STFT: Short-time Fourier Transform)으로 상기 혼합음신호의 복소 스펙트로그램으로 변환하는 복소 스펙트로그램 변환부; 미리 트레이닝된 인공신경망에 의해, 상기 혼합음신호의 복소 스펙트로그램에 기초하여 상기 음성신호의 복소 스펙트럼을 산출하기 위한 복수 개의 음성신호 파라미터를 결정하는 음성신호 파라미터 결정부; 상기 복수 개의 음성신호 파라미터에 기초하여 상기 음성신호의 복소 스펙트럼을 산출하는 음성신호 스펙트럼 산출부; 상기 산출된 음성신호의 복소 스펙트럼을 푸리에 역변환(Inverse Fourier Transform)으로 상기 음성신호로 변환하는 복소 스펙트럼 역변환부; 및 상기 변환된 음성신호를 출력하는 출력부를 포함한다.
본 발명의 또 다른 실시예에 따른 컴퓨터 판독가능한 기록매체는 본 발명의 일 실시예에 따른 음성향상방법을 수행하는 프로그램이 기록된다.
사전에 트레이닝된 인공신경망을 이용한 음성 향상 방법은 잡음과 음성이 섞여 있는 혼합음신호를 단시간 푸리에 변환하여 복소 스펙트로그램을 생성하고, 혼합음신호의 복소 스펙트로그램으로부터 음성신호의 진폭 및 위상을 산출함으로써, 혼합음신호로부터 잡음 신호가 제거된 음성 신호를 추출할 수 있다. 여기에서, 음성향상방법은 음성신호를 추출할 때 진폭 및 위상을 모두 고려함으로써, 음성신호의 직접음과 위상이 상이한 잔향을 제거할 수 있다. 이에 따라, 본 발명은 잡음이 제거되어 음성 명료도가 대폭 향상된 음성 신호를 생성할 수 있고, 청취자에게 명확한 음성을 전달할 수 있다.
또한, 본 발명의 음성 향상 방법은 시계열적인 혼합음 신호를 단시간 푸리에 변환을 통하여 복소 스펙트로그램으로 변환하고, 복소 스펙트로그램에서 각 시간 프레임 및 각 주파수 빈에 대한 복소 스펙트럼으로 구분하고, 각 복소 스펙트럼에 대한 음성신호를 결정한다. 시간 프레임 별, 주파수 별로 개별 음성신호를 결정함으로써, 주기적이고 반복적인 잡음뿐만 아니라 타격음과 같은 불규칙하고 단발적인 잡음까지도 모두 제할 수 있다. 이에 따라, 본 발명의 음성 향상 방법은 음성신호의 음성 명료도를 더욱 향상시킬 수 있다.
추가적으로, 본 발명의 음성 향상 방법은 복수 개의 마이크로폰를 이용할 필요 없이 하나의 마이크로폰을 통하여 수집된 단채널 혼합음신호만으로도 음성신호를 추출할 수 있다. 다시 말해, 본 발명의 음성 향상 방법은 혼합음신호를 수집하기 위하여 다수의 마이크로폰을 필요로 하지 않는다. 다수의 마이크로폰으로부터 각각 수집된 다채널 혼합음신호를 이용하는 종래의 기술과 비교하여 경제적이고 물리적인 공간 제약에서 자유롭다. 이에 따라, 본 발명은 휴대용 스피커, 무선헤드폰, 무선이어폰, 스마트폰과 같은 소형 디바이스에서도 용이하게 적용될 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성 향상 장치의 구성도이다.
도 2는 STFT(Short-time Fourier Transform)에 의해 변환된 혼합음신호의 복소 스펙트로그램 중 임의의 시간 및 임의의 주파수에 대한 혼합음신호의 복소 스펙트럼을 복소 평면에 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 인공신경망의 연결구조를 도시한 도면이다.
도 4는 본 발명의 일 실시예에 따른 음성 향상 방법의 흐름도이다.
도 5는 도 4에 도시된 음성향상방법에서 음성신호의 복소 스펙트럼을 산출하는 단계의 상세흐름도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 할 것이다.
또한, 본 실시예들을 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성요소를 다른 구성요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하의 본 발명의 실시예들에 대한 상세한 설명에서 기재된 용어는 다음과 같은 의미를 갖는다. “음성(voice)”은 사람의 목소리를 의미하고, “음성신호”는 음성을 나타내는 신호로서, 음원으로부터 청취자의 귀로 최단거리로 전달되는 직접음 신호를 의미한다. “잔향(reverberation)”은 음원으로부터 청취자의 귀로 직접 전달되는 직접음 이외의 소리로 벽이나 물체에 의해 반사되어 청취자의 귀로 전달되는 소리를 의미하고, “잡음(noise)”은 향상시키고자 하는 대상 음성(voice) 이외의 다른 모든 소리를 의미하며, 본 발명에서는 잡음은 잔향 및 기타 모든 소음을 포함한다. “혼합음(mixture sound)”은 향상시키고자 하는 대상 음성과 잡음이 섞인 소리를 의미하고, “혼합음신호”는 음성신호와 잡음 신호가 섞인 혼합음을 나타내는 신호를 의미한다. 본 발명의 실시예들이 속하는 기술분야에서 통상의 지식을 가진 자라면, 상술한 용어에 대하여 용이하게 이해할 수 있다.
도 1은 본 발명의 일 실시예에 따른 음성 향상 장치의 구성도이다. 도 1을 참고하면, 음성 향상 장치(10)는 프로세서(101), 혼합음신호 획득부(102), 복소 스펙트로그램 변환부(103), 음성신호 파라미터 결정부(104), 음성신호 스펙트럼 산출부(105), 복소 스펙트럼 역변환부(106), 입력부(107), 출력부(108) 및 스토리지(109)를 포함한다. 프로세서(101)는 음성 향상 장치(10)의 일반적인 테스크를 처리한다.
음성 향상 장치(10)의 입력부(107)는 사용자 또는 다른 컴퓨팅 디바이스로부터 음성 향상 장치(10)에 대한 명령 및 데이터 등을 입력받는다. 입력부(107)의 예로는 키보드, 마우스, 터치 패널, 마이크로폰 등을 들 수 있다. 입력부(107)가 마이크로폰인 경우, 혼합음의 소리를 수신하고 전기적인 혼합음신호로 변환한다. 입력부(107)가 키보드, 마우스 등인 경우, 입력부(107)는 사용자로부터 음성 향상 장치(10)를 제어하기 위한 다양한 명령을 입력받는다. 또는, 입력부(107)는 다른 장치에 의해 녹음된 혼합음신호를 다른 장치로부터 입력받을 수 있다. 여기에서, 혼합음신호는 단채널 마이크로폰에 의하여 녹음된 혼합음일 수도 있고, 다채널 마이크로폰에 의하여 녹음된 혼합음일 수도 있다. 입력부(107)는 입력된 혼합음신호를 혼합음신호 획득부(102)로 입력하거나, 스토리지(109)로 입력할 수 있다.
혼합음신호 획득부(102)는 입력부(107)에 의해 수신된 혼합음신호를 획득한다. 혼합음신호 획득부(102)는 입력부(107)에 의해 변환된 혼합음신호를 입력부(107)로부터 획득하거나, 또는 스토리지(109)에 저장된 혼합음신호를 스토리지(109)로부터 획득할 수 있다. 예를 들어, 음성 향상 장치(10)는 입력부(107)를 통하여 입력된 혼합음신호를 바로 획득하고, 획득된 혼합음신호로부터 음성신호를 추출할 수 있다. 또는 음성 향상 장치(10)는 스토리지(109)에 저장된 혼합음신호를 획득하여, 획득된 혼합음신호로부터 음성신호를 추출할 수 있다. 구체적으로, 음성 향상 장치(10)는 혼합음이 발생한 장소에서 수집된 혼합음으로부터 바로 음성을 추출하고, 스피커를 통하여 출력할 수 있다. 또는, 음성 향상 장치(10)는 다른 장소에서 녹음된 혼합음으로부터 음성을 추출할 수도 있다. 혼합음신호 획득부(102)는 획득된 혼합음신호를 복소 스펙트로그램 변환부(103)로 입력한다.
음성 향상 장치(10)의 복소 스펙트로그램 변환부(103)는 시계열 데이터인 혼합음신호를 단시간 푸리에 변환(STFT: Short Time Fourier Transform)하여 복소 스펙트로그램을 생성한다. 보다 구체적으로, 복소 스펙트로그램 변환부(103)는 단시간 푸리에 변환을 통하여 혼합음신호를 시간-진폭의 2차원 평면의 시계열적인 데이터를 시간-주파수-진폭의 3차원 평면의 복소 스펙트로그램으로 변환한다. 복소 스펙트로그램 변환부(103)는 소정의 시간동안 녹음된 혼합음신호를 n개의 시간 프레임 및 m개의 주파수 빈(frequency bin)을 갖는 복소 스펙트로그램으로 변환한다. 예를 들어, 복소 스펙트로그램 변환부(103)는 1초의 혼합음신호를 65개의 시간 프레임 및 253개의 주파수 빈을 갖는 복소 스펙트로그램으로 변환한다.
n개의 시간 프레임 및 m개의 주파수 빈(frequency bin)을 갖는 복소 스펙트로그램은 n×m개의 복소 스펙트럼을 포함한다. 예를 들어, 혼합음신호의 복소 스펙트로그램이 65개의 시간프레임 및 253개의 주파수 빈으로 구성되는 경우, 혼합음신호의 복소 스펙트로그램은 65×253인 16,445개의 복소 스펙트럼을 포함한다.
여기에서, 복소 스펙트로그램을 구성하는 시간 프레임의 개수와 주파수 빈의 개수는 사용자에 의하여 미리 결정될 수 있다. 단위 시간 당 시간 프레임의 개수가 증가할수록, 음성 향상 장치(10)가 혼합음 신호로부터 추출한 음성신호의 음성명료도가 향상된다. 또한, 단위 시간 당 주파수 빈의 개수가 증가할수록, 음성 향상 장치(10)가 혼합음 신호로부터 추출한 음성신호의 음성명료도가 향상된다. 다시 말해, 시간 프레임의 개수 및 주파수 빈의 개수가 증가할수록 혼합음으로부터 잡음을 더욱 효과적으로 제거할 수 있다. 복소 스펙트로그램 변환부(103)는 변환된 혼합음신호의 복소 스펙트로그램을 음성신호 파라미터 결정부(104)로 입력한다.
음성 향상 장치(10)의 음성신호 파라미터 결정부(104)는 혼합음 신호의 복소 스펙트로그램에 기초하여, 음성신호의 복소 스펙트럼을 산출하기 위한 복수 개의 음성신호 파라미터를 결정한다. 보다 구체적으로, 음성신호 파라미터 결정부(104)는 혼합음신호의 복소 스펙트로그램 중 임의의 시간프레임 및 임의의 주파수 빈에서의 혼합음신호의 복소 스펙트럼을 추출하고, 추출된 혼합음신호의 복소 스펙트럼에 기초하여 동일한 시간프레임 및 동일한 주파수 빈에서의 음성신호의 복소 스펙트럼을 산출하기 위한 복수 개의 음성신호 파라미터를 결정한다. 본 발명의 실시예들에 따른 음성신호 파라미터 결정부(104)는 음성신호 복소 스펙트럼의 산출을 위한 4개의 음성신호 파라미터를 결정한다. 4개의 음성신호 파라미터 중 제 1 음성신호 파라미터 및 제 2 음성신호 파라미터는 음성신호의 복소 스펙트럼의 진폭, 및 혼합음신호의 복소 스펙트럼과의 절대 위상차와 관련된 파라미터이고, 제 3 음성신호 파라미터 및 제 4 음성신호 파라미터는 음성신호의 복소 스펙트럼의 절대위상차의 부호와 연관된 파라미터이다. 복수 개의 음성신호 파라미터에 대하여는 이하에서 상세하게 설명하기로 한다.
음성신호 파라미터 결정부(104)는 혼합음신호의 복소 스펙트럼으로부터 음성신호의 복소 스펙트럼을 산출하기 위한 복수 개의 음성신호 파라미터를 결정하도록 사전에 트레이닝된 인공신경망이다. 음성신호 파라미터 결정부(104)는 혼합음신호 및 음성신호를 포함하는 학습용 데이터 세트에 의해 사전에 트레이닝된 인공신경망이다. 본 발명에 따른 인공신경망은 혼합음신호의 복소 스펙트럼이 입력되면 음성신호의 복소 스펙트럼을 산출하기 위한 복수 개의 음성신호 파라미터를 출력한다.
여기에서, 인공신경망은 인공신경망 전체가 합성곱 연산으로 이루어진 FCN(fully convolution network), 여러 개의 퍼셉트론을 포함하는 다층 구조 퍼셉트론(multi layer perceptron), 다수의 컨볼루션 레이어(convolution layer)를 포함하는 CNN(convolutional neural network), 순환구조를 갖는 RNN(recurrent neural network) 등으로 구현될 수 있다.
인공신경망은 복수 개의 인코더(encoder) 및 복수 개의 디코더(decoder)를 포함하고, 동일 층위의 인코더 및 디코더가 서로 연결되는 U-Net 연결구조로 구성될 수 있다. 예를 들어, 인공신경망은 10개의 층(layer)을 포함할 수 있다. 10개의 층은 혼합음신호의 복소 스펙트럼의 고유한 패턴을 추출하는 5개의 인코더(encoder) 및 압축된 잠재 변수(latent variable)들로부터 음성신호의 복소 스펙트럼을 복원하는 디코더(decoder) 5개로 구성된다. 도 3은 본 발명의 일 실시예에 따른 인공신경망의 연결구조를 도시한 도면이다. 도 3을 참고하면, 인공신경망을 구성하는 10개의 층은 인코더와 디코더의 동일층위가 서로 연결되는 U-Net 연결구조로 구성된다.
음성신호 파라미터 결정부(104)는 혼합음신호의 복소 스펙트로그램을 구성하는 복수 개의 혼합음신호 스펙트럼 각각에 대하여, 음성신호 파라미터를 결정한다. 보다 구체적으로, 음성신호 파라미터 결정부(104)는 혼합음신호의 복소 스펙트로그램을 구성하는 n개의 시간프레임 및 m개의 주파수 빈 각각에서의 혼합음신호의 복소 스펙트럼에 기초하여, 동일한 시간프레임 및 주파수 빈에서의 음성신호의 복소 스펙트럼을 산출하기 위한 복수 개의 음성신호 파라미터를 결정한다. 음성신호 파라미터 결정부(104)는 혼합음신호의 복소 스펙트로그램을 구성하는 모든 혼합음신호의 복소 스펙트럼 각각에 대한 복수 개의 음성신호 파라미터를 결정한다.
예를 들어, 혼합음신호의 복소 스펙트로그램이 65개의 시간프레임 및 253개의 주파수 빈으로 구성되는 경우, 혼합음신호의 복소 스펙트로그램은 65×253인 16,445개의 복소 스펙트럼을 포함한다. 음성신호 파라미터 결정부(104)는 16,445개의 혼합음신호의 복소 스펙트럼 각각에 대한 음성신호 파라미터를 결정한다.
음성신호 파라미터 결정부(104)는 결정된 복수 개의 음성신호 파라미터를 음성신호 스펙트럼 산출부(105)로 입력한다.
음성 향상 장치(10)의 음성신호 스펙트럼 산출부(105)는 입력된 복수 개의 음성신호 파라미터에 기초하여, 음성신호의 복소 스펙트럼을 산출한다. 보다 구체적으로, 음성신호 스펙트럼 산출부(105)는 특정 시간프레임 및 특정 주파수 빈 별로 결정된 복수 개의 음성신호 파라미터에 기초하여 동일한 시간프레임 및 동일한 주파수 빈에서의 음성신호의 복소 스펙트럼을 산출한다.
음성신호 스펙트럼 산출부(105)는 모든 시간프레임 및 모든 주파수 빈에 대한 음성신호의 복소 스펙트럼을 산출한다. 상술한 혼합음신호의 복소 스펙트로그램이 65개의 시간프레임 및 253개의 주파수 빈으로 구성되는 예시에서, 음성신호 스펙트럼 산출부(105)는 각 시간프레임 및 각 주파수 빈에 대한 복수 개의 음성신호 파라미터에 기초하여, 16,445개의 음성신호 복소 스펙트럼을 산출한다. 복수 개의 음성신호 파라미터에 기초하여 음성신호의 복소 스펙트럼을 산출하는 구체적인 과정에 대하여는 이하에서 상세하게 설명하기로 한다. 음성신호 스펙트럼 산출부(105)는 산출된 음성신호의 복소 스펙트럼을 복소 스펙트럼 역변환부(106)로 입력한다.
음성 향상 장치(10)의 복소 스펙트럼 역변환부(106)는 입력된 음성신호의 복소 스펙트럼을 푸리에 역변환(Inverse Fourier Transform)하여 시간-진폭의 2차원 평면에서의 음성신호를 생성한다. 복소 스펙트럼 역변환부(106)는 주파수 평면의 음성신호의 복소 스펙트럼을 시간 평면으로 변환한다. 복소 스펙트로그램 변환부(103)는 모든 시간 프레임 및 모든 주파수 빈에서의 음성신호 복소 스펙트럼을 푸리에 역변환하여 혼합음신호의 전체 시간에서의 음성신호를 생성한다. 복소 스펙트럼 역변환부(106)는 생성된 시간-진폭의 2차원 평면에서의 음성신호를 출력부(108)로 입력한다.
음성 향상 장치(10)의 출력부(108)는 음성신호를 청취자가 들을 수 있는 청각적 신호로 변환하여 출력한다. 출력부(108)의 예로는 스피커, 이어폰 등을 들 수 있다. 음성 향상 장치(10)의 스토리지(109)는 음성 향상을 위하여 필요한 데이터를 저장한다. 예를 들어, 스토리지(109)는 다양한 혼합음신호 및 음성 향상 장치(10)를 구성하는 인공신경망을 트레이닝하기 위한 학습용 데이터 세트를 저장할 수 있다. 여기에서, 학습용 데이터 세트는 복수 개의 혼합음신호, 각 혼합음신호에 섞여 있는 음성신호 및 잡음신호를 포함한다.
본 발명의 실시예들에 따른 음성 향상 장치(10)에서, 혼합음신호 획득부(102), 복소 스펙트로그램 변환부(103), 음성신호 파라미터 결정부(104), 음성신호 스펙트럼 산출부(105) 및 복소 스펙트럼 역변환부(106)는 프로세서(101)와 다른 별개의 전용 프로세서에 의해 구현될 수 있으며, 프로세서(101)에 의해 수행되는 컴퓨터 프로그램의 실행에 의하여 구현될 수도 있다.
음성 향상 장치(10)의 예로는 데스크톱 컴퓨터, 랩탑, 스마트 폰, 이어폰, 헤드폰, 보청기, 화상회의장치 등과 같이 전자회로를 이용하여 다양한 종류의 데이터를 처리할 수 있는 기기를 모두 포함한다.
본 발명에서 혼합음신호로부터 음성신호를 추출하는 과정은 다음과 같은 원리를 통하여 이루어진다. 이상에서 설명한 바와 같이, 혼합음신호는 음성신호에 잡음 신호가 섞인 소리의 신호로서, 다음의 수학식 1과 같이 표현된다.
Figure 112020079097334-pat00018
여기서, x는 혼합음신호이고, s는 음성신호이고, n은 잡음신호이다. 혼합음신호 x는 수학식 1과 같이 음성신호 s에 음성신호 외의 모든 잡음인 잡음신호 n를 더한 것과 같다.
혼합음신호 x는 1차원 시계열적인 데이터로서, 단시간 푸리에 변환(STFT, short-time Fourier Transform)을 변환하면 시간 및 주파수 축을 갖는 2차원 복소 스펙트로그램으로 변환된다. 혼합음신호의 복소 스펙트로그램에서 임의의 시간 및 임의의 주파수에서의 복소 스펙트럼 Xt,f으로 구분된다. 혼합음신호의 복소 스펙트로그램은 모든 시간 및 모든 주파수의 혼합음신호의 복소 스펙트럼 Xt,f의 합이다.
혼합음신호의 복소 스펙트로그램에서 임의의 시간 및 임의의 주파수에서의 복소 스펙트럼 Xt,f는 아래의 수학식 2와 같이 실수부(real part)와 허수부(imaginary part)로 분리되어 표현될 수 있다.
Figure 112020079097334-pat00019
상술한 수학식 2에 표시된 바와 같이, 혼합음신호의 복소 스펙트럼 Xt,f는 실수부와 허수부로 분리될 수 있다. 다시 말해, 혼합음신호의 복소 스펙트럼 Xt,f는 x축이 실수축이고 y축이 허수축인 복소 평면(complex plane) 상에 표현될 수 있다. 이와 관련하여, 본 발명의 도 2는 STFT에 의해 변환된 혼합음신호의 복소 스펙트로그램 중 임의의 시간 및 임의의 주파수에 대한 혼합음신호의 복소 스펙트럼을 도시한 도면이다. 도 2를 참고하면, 복소 평면 상에서 혼합음신호의 복소 스펙트럼은 임의의 벡터로 표현된다. 혼합음신호는 상술한 바와 같이 시간 영역에서 음성신호와 잡음 신호의 합으로 표현된다. 푸리에 변환의 선형성(Linearity)에 의하여 다음의 수학식 3이 성립한다.
Figure 112020079097334-pat00020
수학식 3에 기재된 바와 같이, 복소 평면 상에서 혼합음신호의 복소 스펙트럼은 음성신호의 복소 스펙트럼 및 잡음 신호의 복소 스펙트럼의 합으로 표현된다. 도 2를 참고하면, 복소 평면 상에서 혼합음신호의 복소 스펙트럼 Xt,f는 음성신호의 복소 스펙트럼 St,f 및 잡음 신호의 복소 스펙트럼 Nt,f의 벡터 합으로 표현될 수 있다. 다시 말해, 혼합음신호의 복소 스펙트럼 Xt,f은 음성신호의 복소 스펙트럼 St,f 및 잡음 신호의 복소 스펙트럼 Nt,f로 분해될 수 있다. 여기에서, 혼합음신호의 스펙트로그램을 알고 있기 때문에, 특정 시간 및 특정 주파수에서의 혼합음신호의 스펙트럼 Xt,f를 추출할 수 있다. 특정 시간 및 특정 주파수에서의 혼합음신호의 스펙트럼 Xt,f를 이용하여 특정 시간 및 특정 주파수에서의 음성신호의 스펙트럼 St,f을 산출할 수 있다. 모든 시간 및 모든 주파수에서의 음성신호의 스펙트럼 St,f을 산출하고, 이를 합산함으로써 음성신호의 스펙트로그램을 추출할 수 있다. 특정 시간 및 특정 주파수에서의 혼합음신호의 스펙트럼 Xt,f를 이용하여 특정 시간 및 특정 주파수에서의 음성신호의 스펙트럼 St,f을 산출하는 구체적인 방법에 대하여는 이하에서 상세하게 설명하기로 한다.
상술한 원리에 기초하여, 이하에서는 혼합음신호의 스펙트로그램으로부터 음성신호의 스펙트로그램을 산출하는 구체적인 방법에 대하여 설명하기로 한다.
도 4는 본 발명의 일 실시예에 따른 음성 향상 방법의 흐름도이다. 도 4에 도시된 음성 향상 방법을 수행하는 음성 향상 장치(10)는 본 발명의 실시예들에 따른 음성 향상 방법을 실행하기 전에 음성 향상 장치(10)에 포함된 인공신경망(음성신호 파라미터 결정부(104))은, 다양한 혼합음신호, 각 혼합음에 포함된 음성신호 및 잡음 신호를 포함하는 학습용 데이터 세트에 의해 미리 트레이닝되었다고 가정한다.
도 4를 참고하면, 401 단계에서, 음성 향상 장치(10)의 혼합음신호 획득부(102)는 입력부(107) 또는 스토리지(109)로부터 대상 음성신호 및 잡음 신호가 섞여있는 혼합음신호를 획득한다. 음성 향상 장치(10)의 혼합음신호 획득부(102)는 입력부(107)를 통해 수신된 혼합음신호를 획득하거나, 스토리지(109)에 미리 저장된 혼합음신호를 획득할 수 있다. 혼합음신호 획득부(102)는 획득된 혼합음신호를 복소 스펙트로그램 변환부(103)로 입력한다.
402 단계에서, 음성 향상 장치(10)의 복소 스펙트로그램 변환부(103)는 혼합음신호를 단시간 푸리에 변환(STFT)을 통하여 복소 스펙트로그램(complex spectrogram)으로 변환한다. 복소 스펙트로그램 변환부(103)는 시간축과 진폭축을 갖는 2차원의 시계열 데이터인 혼합음신호를 단시간 푸리에 변환(STFT)을 이용하여 시간축, 주파수축 및 진폭축을 갖는 3차원의 복소 스펙트로그램으로 변환한다. 혼합음신호의 복소 스펙트로그램은 n개의 시간 프레임 및 m개의 주파수 빈(frequency bin)을 갖는다. 예를 들어, 복소 스펙트로그램 변환부(103)는 0.5초의 혼합음신호를 65 개의 시간프레임 및 253개의 주파수 빈을 갖는 복소 스펙트로그램으로 변환한다. 여기에서, 복소 스펙트로그램을 구성하는 시간프레임의 개수와 주파수 빈의 개수는 사용자에 의하여 사전에 결정될 수 있다. 시간프레임의 개수와 주파수 빈의 개수가 증가할수록 잡음을 더욱 효율적으로 제거할 수 있으며, 음성신호의 음성명료도가 향상된다. 복소 스펙트로그램 변환부(103)는 변환된 혼합음신호의 복소 스펙트로그램을 음성신호 파라미터 결정부(104)로 입력한다.
403 단계에서, 음성 향상 장치(10)의 음성신호 파라미터 결정부(104)는 혼합음신호의 복소 스펙트로그램에 기초하여 음성신호의 복소 스펙트럼을 산출하기 위한 복수 개의 음성신호 파라미터를 결정한다. 보다 구체적으로, 음성신호 파라미터 결정부(104)는 혼합음신호의 복소 스펙트로그램 중 특정 시간프레임 및 특정 주파수 빈의 혼합음신호의 스펙트럼에 기초하여, 동일한 시간프레임 및 동일한 주파수 빈에서의 음성신호의 복소 스펙트럼 산출을 위한 복수 개의 음성신호 파라미터를 결정한다. 본 발명의 실시예들에 따른 음성신호 파라미터 결정부(104)는 모든 시간프레임 및 모든 주파수 빈에서의 혼합음신호의 복소 스펙트럼 각각에 대한 4개의 음성신호 파라미터를 결정한다. 4개의 음성신호 파라미터에 대하여는 이하에서 상세하게 설명하기로 한다.
여기에서, 음성신호 파라미터 결정부(104)는 혼합음신호의 복소 스펙트럼으로부터 복수 개의 음성신호 파라미터를 출력하도록 사전에 트레이닝된 인공신경망이다. 음성신호 파라미터 결정부(104)는 혼합음신호 및 음성신호를 포함하는 학습용 데이터 세트에 의해 사전에 트레이닝된 인공신경망이다. 여기서, 인공신경망은 인공신경망 전체가 합성곱 연산으로 이루어진 FCN(fully convolution network), 여러 개의 퍼셉트론을 포함하는 다층 구조 퍼셉트론(multi layer perceptron), 다수의 컨볼루션 레이어(convolution layer)를 포함하는 CNN(convolutional neural network), 순환구조를 갖는 RNN(recurrent neural network) 등으로 구현될 수 있다.
예를 들어, 인공신경망은 10개의 층(layer)로 구성된다. 10개의 층은 혼합음신호의 복소 스펙트럼의 고유한 패턴을 추출하는 5개의 인코더(encoder) 및 압축된 잠재 변수(latent variable)들로부터 음성신호의 복소 스펙트럼을 복원하는 디코더(decoder) 5개로 구성된다. 인공신경망을 구성하는 10개의 층은 인코더와 디코더의 동일층위가 서로 연결되는 U-Net 연결구조로 구성된다.
음성신호 파라미터는 특정 시간프레임 및 특정 주파수 빈에서의 음성신호 복소 스펙트럼의 진폭과 위상을 결정하기 위한 파라미터로서, 4 개의 음성신호 파라미터를 포함한다. 4 개의 음성신호 파라미터 중 제 1 음성신호 파라미터와 제 2 음성신호 파라미터는 음성신호의 복소 스펙트럼의 진폭, 및 혼합음신호와 음성신호 사이의 절대 위상차와 연관된 파라미터이고, 제 3 음성신호 파라미터와 제 4 음성신호 파라미터는 음성신호의 복소 스펙트럼의 절대 위상차의 부호와 연관된 파라미터이다.
보다 구체적으로, 제 1 음성신호 파라미터는 음성신호의 복소 스펙트럼의 진폭 및 잡음신호의 복소 스펙트럼의 진폭의 합과 혼합음신호의 복소 스펙트럼의 진폭의 비를 의미하는 파라미터이고, 1 보다 크다. 제 2 음성신호 파라미터는 음성신호의 복소 스펙트럼의 진폭과 잡음신호의 복소 스펙트럼의 진폭 사이의 비와 연관된 파라미터이다. 제 3 음성신호 파라미터 및 제 4 음성신호 파라미터는 도 2를 참고하면, 혼합음신호의 복소 스펙트럼 X와 음성신호의 복소 스펙트럼 S 사이의 절대 위상차
Figure 112020108392256-pat00021
의 부호를 결정하기 위한 파라미터이다.
음성신호 파라미터 결정부(104)는 403 단계에서 결정된 복수 개의 음성신호 파라미터를 음성신호 스펙트럼 산출부(105)로 입력한다.
404 단계에서, 음성 향상 장치(10)의 음성신호 스펙트럼 산출부(105)는 입력된 복수 개의 음성신호 파라미터에 기초하여 음성신호의 복소 스펙트럼을 산출한다. 음성신호 스펙트럼 산출부(105)는 특정 시간프레임 및 특정 주파수 빈 별로 결정된 복수 개의 음성신호 파라미터에 기초하여 특정 시간프레임 및 특정 주파수 빈에 대한 음성신호의 복소 스펙트럼을 산출한다.
보다 구체적으로, 음성신호 스펙트럼 산출부(105)는 음성신호 파라미터 결정부(104)로부터 입력된 특정 시간프레임 및 특정 주파수 빈 별 제 1 음성신호 파라미터, 제 2 음성신호 파라미터, 제 3 음성신호 파라미터 및 제 4 음성신호 파라미터에 기초하여, 특정 시간프레임 및 특정 주파수 빈 별 음성신호 복소 스펙트럼을 산출한다. 음성신호의 복소 스펙트럼을 산출하는 구체적인 과정에 대하여는 이하에서 도 5를 참조하여 설명하기로 한다.
도 5는 도 4에 도시된 음성향상방법에서 음성신호의 복소 스펙트럼을 산출하는 단계의 상세흐름도이다. 도 5를 참고하면, 4041 단계에서, 음성신호 스펙트럼 산출부(105)는 제 1 음성신호 파라미터 및 제 2 음성신호 파라미터에 기초하여 음성신호의 복소 스펙트럼의 진폭을 다음의 수학식 4와 같이 산출한다.
Figure 112020079097334-pat00022
여기에서,
Figure 112020079097334-pat00023
는 시간프레임 t 및 주파수 빈 f에서의 음성신호의 복소 스펙트럼의 진폭이고,
Figure 112020079097334-pat00024
는 시간프레임 t 및 주파수 빈 f에서의 제 1 음성신호 파라미터이고,
Figure 112020079097334-pat00025
는 시간프레임 t 및 주파수 빈 f에서의 혼합음신호의 복소 스펙트럼의 진폭이고, zt,f는 시간프레임 t 및 주파수 빈 f에서의 제 2 음성신호 파라미터이다.
4042 단계에서, 음성신호 스펙트럼 산출부(105)는 제 1 음성신호 파라미터 및 제 2 음성신호 파라미터에 기초하여 잡음신호의 복소 스펙트럼의 진폭을 다음의 수학식 5와 같이 산출한다.
Figure 112020079097334-pat00026
여기에서,
Figure 112020079097334-pat00027
는 시간프레임 t 및 주파수 빈 f에서의 잡음신호의 복소 스펙트럼의 진폭이고,
Figure 112020079097334-pat00028
는 시간프레임 t 및 주파수 빈 f에서의 제 1 음성신호 파라미터이고,
Figure 112020079097334-pat00029
는 시간프레임 t 및 주파수 빈 f에서의 혼합음신호의 복소 스펙트럼의 진폭이고, zt,f는 시간프레임 t 및 주파수 빈 f에서의 제 2 음성신호 파라미터이다.
4043 단계에서, 음성신호 스펙트럼 산출부(105)는 이상에서 산출된 음성신호의 복소 스펙트럼의 진폭
Figure 112020079097334-pat00030
및 잡음신호의 복소 스펙트럼의 진폭
Figure 112020079097334-pat00031
에 기초하여 혼합음신호의 복소 스펙트럼 Xt,f과 음성신호의 복소 스펙트럼 St,f 사이의 절대 위상차
Figure 112020079097334-pat00032
는 다음의 수학식 6과 같이 산출한다.
Figure 112020079097334-pat00033
여기에서,
Figure 112020079097334-pat00034
는 시간프레임 t 및 주파수 빈 f에서 혼합음신호의 복소 스펙트럼 Xt,f과 음성신호의 복소 스펙트럼 St,f 사이의 절대 위상차이고,
Figure 112020079097334-pat00035
는 시간프레임 t 및 주파수 빈 f에서의 음성신호의 복소 스펙트럼의 진폭이고,
Figure 112020079097334-pat00036
는 시간프레임 t 및 주파수 빈 f에서의 음성신호의 복소 스펙트럼의 진폭이고,
Figure 112020079097334-pat00037
는 시간프레임 t 및 주파수 빈 f에서의 잡음신호의 복소 스펙트럼의 진폭이다.
4044 단계에서, 음성신호 스펙트럼 산출부(105)는 음성신호 파라미터 결정부(104)에 의해 결정된 제 3 음성신호 파라미터, 제 4 음성신호 파라미터, 및 상기 수학식 3에서 산출된 절대 위상차
Figure 112020079097334-pat00038
에 기초하여 음성신호의 복소 스펙트럼의 위상을 다음의 수학식 7와 같이 산출한다.
Figure 112020079097334-pat00039
여기에서,
Figure 112020079097334-pat00040
는 시간프레임 t 및 주파수 빈 f에서의 음성신호의 복소 스펙트럼의 위상이고,
Figure 112020079097334-pat00041
는 시간프레임 t 및 주파수 빈 f에서의 혼합음신호의 복소 스펙트럼의 위상이고,
Figure 112020079097334-pat00042
는 시간프레임 t 및 주파수 빈 f에서의 제 3 음성신호 파리미터이고,
Figure 112020079097334-pat00043
는 시간프레임 t 및 주파수 빈 f에서의 제 4 음성신호 파리미터이고,
Figure 112020079097334-pat00044
는 부호 결정 계수이다.
Figure 112020079097334-pat00045
는 제 3 음성신호 파라미터 및 제 4 음성신호 파라미터에 의해 결정된다.
4045 단계에서, 음성신호 스펙트럼 산출부(105)는 산출된 음성신호의 복소 스펙트럼의 진폭
Figure 112020079097334-pat00046
Figure 112020079097334-pat00047
에 기초하여 시간프레임 t 및 주파수 빈 f에서의 음성신호의 복소 스펙트럼을 산출한다. 음성신호 스펙트럼 산출부(105)에 의해 산출된 시간프레임 t 및 주파수 빈 f에서의 음성신호의 복소 스펙트럼은 다음의 수학식 8과 같다.
Figure 112020079097334-pat00048
음성신호 스펙트럼 산출부(105)는 4041 단계에서 4045 단계를 혼합음신호의 복소 스펙트로그램을 구성하는 n개의 시간 프레임 및 m개의 주파수 빈(frequency bin) 모두에 대하여 반복하여, 모든 시간 프레임 및 주파수 빈에서의 음성신호 복소 스펙트럼을 산출한다. 음성신호 스펙트럼 산출부(105)는 산출된 음성신호의 복소 스펙트럼을 복소 스펙트럼 역변환부(106)로 입력한다.
405 단계에서, 음성 향상 장치(10)의 복소 스펙트럼 역변환부(106)는 음성신호의 복소 스펙트럼을 푸리에 역변환(Inverse Fourier Transform)을 통하여 시간축과 진폭축을 갖는 2차원의 시계열 데이터인 음성신호로 역변환한다. 복소 스펙트럼 역변환부(106)는 모든 시간 프레임 및 주파수 빈에서의 음성신호 복소 스펙트럼를 푸리에 역변환하여 시계열 데이터인 음성신호를 생성한다. 복소 스펙트럼 역변환부(106)는 생성된 음성신호를 출력부(108)로 입력한다.
406 단계에서, 음성 향상 장치(10)의 출력부(108)는 음성신호를 출력한다. 출력부(108)는 전기적 신호인 음성신호를 사람이 들을 수 있는 음파(sound wave)로 변환하여 출력한다.
상술한 본 발명의 실시예들에 따르면, 음성 향상 방법은 사전에 트레이닝된 인공신경망을 이용하여 혼합음 신호로부터 잡음 신호가 제거된 음성 신호를 추출할 수 있다. 이에 따라, 본 발명은 잡음이 제거되어 음성 명료도가 대폭 향상된 음성 신호를 생성할 수 있고, 청취자에게 명확한 음성을 전달할 수 있다.
또한, 본 발명의 음성 향상 방법은 시계열적인 혼합음 신호를 단시간 푸리에 변환을 통하여 복소 스펙트로그램으로 변환하고, 복소 스펙트로그램에서 각 시간 프레임 및 각 주파수 빈에 대한 복소 스펙트럼으로 구분하고, 각 복소 스펙트럼에 대한 음성신호를 결정한다. 시간 프레임 별, 주파수 별로 개별 음성신호를 결정함으로써, 주기적이고 반복적인 잡음 뿐만 아니라 타격음과 같은 불규칙하고 단발적인 잡음까지도 모두 제할 수 있다. 이에 따라, 본 발명의 음성 향상 방법은 종래의 음성 향상 기술보다 음성 명료도가 향상된, 즉 잡음이 효과적으로 제거된 음성신호를 생성할 수 있다.
이에 더하여, 본 발명의 음성 향상 방법은 혼합음신호로부터 음성신호을 생성할 때 음성신호의 진폭 및 위상 모두를 고려함으로써, 음성신호의 직접음과 위상이 상이한 음성의 잔향들이 제거된 음성신호의 직접음만을 추출할 수 있다. 본 발명에 따른 음성 향상 방법은 잔향이 제거되어 음성 명료도가 대폭 향상된 음성 신호를 생성할 수 있다.
본 발명의 음성 향상 방법은 복수 개의 마이크로폰를 이용할 필요 없이 하나의 마이크로폰을 통하여 수집된 단채널 혼합음신호만으로도 음성신호를 추출할 수 있다. 다시 말해, 본 발명의 음성 향상 방법은 혼합음신호를 수집하기 위하여 다수의 마이크로폰을 필요로 하지 않는다. 다수의 마이크로폰으로부터 각각 수집된 다채널 혼합음신호를 이용하는 종래의 기술과 비교하여 경제적이고 물리적인 공간 제약에서 자유롭다. 이에 따라, 본 발명은 휴대용 스피커, 무선헤드폰, 무선이어폰, 스마트폰과 같은 소형 디바이스에서도 용이하게 적용될 수 있다.
한편 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 또한, 상술한 본 발명의 실시예에서 사용된 데이터의 구조는 컴퓨터로 읽을 수 있는 기록매체에 여러 수단을 통하여 기록될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체 (예를 들면 롬 플로피 디스크 하드디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)같은 저장매체를 포함한다. 컴퓨터 판독 가능한 기록매체에는 본 발명의 실시예들에 따른 3차원 실내지도 구축 방법을 수행하는 프로그램을 기록된다.
이제까지 본 발명에 대하여 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로해석되어야 할 것이다.
10: 음성향상장치
101: 프로세서 102: 혼합음 신호 획득부
103: 복소 스펙트로그램 변환부 104: 음성신호 파라미터 결정부
105: 음성신호 스펙트럼 산출부 106: 복소 스펙트럼 역변환부
107: 입력부 108: 출력부
109: 스토리지

Claims (10)

  1. 학습용 데이터 세트에 의해 트레이닝된 음성 향상 장치를 이용한 음성향상방법에 있어서,
    음성신호 및 잡음신호가 섞여있는 혼합음신호를 획득하는 단계;
    상기 혼합음신호를 단시간 푸리에 변환(STFT: Short-time Fourier Transform)으로 상기 혼합음신호의 복소 스펙트로그램으로 변환하는 단계;
    미리 트레이닝된 인공신경망에 의해, 상기 혼합음신호의 복소 스펙트로그램에 기초하여 상기 음성신호의 복소 스펙트럼을 산출하기 위한 복수 개의 음성신호 파라미터를 결정하는 단계;
    상기 복수 개의 음성신호 파라미터에 기초하여 상기 음성 신호의 복소 스펙트럼을 산출하는 단계;
    상기 산출된 음성신호의 복소 스펙트럼을 푸리에 역변환(Inverse Fourier Transform)으로 상기 음성신호로 변환하는 단계; 및
    상기 변환된 음성신호를 출력하는 단계를 포함하고,
    상기 복수 개의 음성신호 파라미터는 상기 음성신호의 복소 스펙트럼의 진폭 및 상기 혼합음신호의 복소 스펙트럼과 상기 음성신호의 복소 스펙트럼 사이의 절대 위상차와 연관된 제 1 및 제 2 음성신호 파라미터, 및 상기 절대 위상차의 부호와 연관된 제 3 및 제 4 음성신호 파라미터를 포함하고,
    상기 제 1 음성신호 파라미터는 상기 음성신호의 복소 스펙트럼의 진폭 및 상기 잡음신호의 복소 스펙트럼의 진폭의 합과 상기 혼합음신호의 복소 스펙트럼의 진폭의 비를 의미하는 파라미터이고,
    상기 제 2 음성신호 파라미터는 상기 음성신호의 복소 스펙트럼의 진폭과 상기 잡음신호의 복소 스펙트럼의 진폭의 비와 연관된 파라미터인 것을 특징으로 하는 음성향상방법.
  2. 제 1 항에 있어서,
    상기 인공신경망은 복수 개의 인코더(encoder) 및 복수 개의 디코더(decoder)를 포함하고, 동일 층위의 인코더 및 디코더가 서로 연결되는 U-Net 연결구조를 갖는 인공신경망인 것을 특징으로 하는 음성향상방법.
  3. 제 1 항에 있어서,
    상기 혼합음 신호의 복소 스펙트로그램은 n개의 시간프레임 및 m개의 주파수 빈으로 구분되고, n×m개의 복소 스펙트럼을 포함하고,
    상기 복수 개의 음성신호 파라미터를 결정하는 단계는 임의의 시간프레임 및 임의의 주파수 빈에서의 상기 혼합음 신호의 복소 스펙트럼에 기초하여 동일한 시간프레임 및 동일한 주파수 빈에서의 상기 음성신호의 복소 스펙트럼을 산출하기 위한 복수 개의 음성신호 파라미터를 결정하는 것을 특징으로 하는 음성향상방법.
  4. 삭제
  5. 제 3 항에 있어서,
    상기 음성신호의 복소 스펙트럼을 산출하는 단계는
    상기 제 1 음성신호 파라미터 및 상기 제 2 음성신호 파라미터에 기초하여 상기 음성신호의 복소 스펙트럼의 진폭, 및 상기 잡음신호의 복소 스펙트럼의 진폭을 산출하는 단계;
    상기 음성신호의 복소 스펙트럼의 진폭 및 상기 잡음신호의 복소 스펙트럼의 진폭에 기초하여 상기 혼합음신호의 복소 스펙트럼과 상기 음성신호의 복소 스펙트럼 사이의 절대 위상차를 산출하는 단계;
    상기 제 3 음성신호 파라미터, 상기 제 4 음성신호 파라미터 및 상기 산출된 절대 위상차에 기초하여, 상기 음성신호의 복소 스펙트럼의 위상을 산출하는 단계; 및
    상기 산출된 음성신호의 복소 스펙트럼의 진폭 및 상기 음성신호의 복소 스펙트럼의 위상에 기초하여, 상기 음성신호의 복소 스펙트럼을 산출하는 단계를 포함하는 것을 특징으로 하는 음성향상방법.
  6. 제 5 항에 있어서,
    상기 음성신호의 복소 스펙트럼의 진폭, 및 상기 잡음신호의 복소 스펙트럼의 진폭을 산출하는 단계는 아래의 수학식 1에 따라 상기 음성신호의 복소 스펙트럼의 진폭을 산출하고, 아래의 수학식 2에 따라 상기 잡음신호의 복소 스펙트럼을 산출하는 것을 특징으로 하는 음성향상방법.
    <수학식 1>
    Figure 112020079097334-pat00049

    <수학식 2>
    Figure 112020079097334-pat00050

    (
    Figure 112020079097334-pat00051
    : 시간프레임 t 및 주파수 빈 f에서의 음성신호의 복소 스펙트럼의 진폭,
    Figure 112020079097334-pat00052
    : 시간프레임 t 및 주파수 빈 f에서의 잡음신호의 복소 스펙트럼의 진폭,
    Figure 112020079097334-pat00053
    : 시간프레임 t 및 주파수 빈 f에서의 제 1 음성신호 파라미터,
    Figure 112020079097334-pat00054
    : 시간프레임 t 및 주파수 빈 f에서의 혼합음신호의 복소 스펙트럼의 진폭, zt,f : 시간프레임 t 및 주파수 빈 f에서의 제 2 음성신호 파라미터)
  7. 제 5 항에 있어서,
    상기 혼합음신호의 복소 스펙트럼과 상기 음성신호의 복소 스펙트럼 사이의 절대 위상차를 산출하는 단계는 아래의 수학식 3에 따라 상기 절대 위상차를 산출하는 것을 특징으로 하는 음성향상방법.
    <수학식 3>
    Figure 112020108392256-pat00055

    (
    Figure 112020108392256-pat00056
    : 시간프레임 t 및 주파수 빈 f에서 혼합음신호의 복소 스펙트럼 Xt,f과 음성신호의 복소 스펙트럼 St,f 사이의 절대 위상차,
    Figure 112020108392256-pat00057
    : 시간프레임 t 및 주파수 빈 f에서의 혼합음신호의 복소 스펙트럼의 진폭,
    Figure 112020108392256-pat00058
    : 시간프레임 t 및 주파수 빈 f에서의 음성신호의 복소 스펙트럼의 진폭,
    Figure 112020108392256-pat00059
    : 시간프레임 t 및 주파수 빈 f에서의 잡음신호의 복소 스펙트럼의 진폭)
  8. 제 7 항에 있어서,
    상기 음성신호의 복소 스펙트럼의 위상을 산출하는 단계는 아래의 수학식 4에 따라 상기 음성신호의 복소 스펙트럼의 위상을 산출하는 것을 특징으로 하는 음성향상방법.
    <수학식 4>
    Figure 112020108392256-pat00060

    (
    Figure 112020108392256-pat00061
    : 시간프레임 t 및 주파수 빈 f에서의 음성신호의 복소 스펙트럼의 위상,
    Figure 112020108392256-pat00062
    : 시간프레임 t 및 주파수 빈 f에서의 혼합음신호의 복소 스펙트럼의 위상,
    Figure 112020108392256-pat00063
    : 시간프레임 t 및 주파수 빈 f에서의 제 3 음성신호 파라미터,
    Figure 112020108392256-pat00064
    : 시간프레임 t 및 주파수 빈 f에서의 제 4 음성신호 파라미터,
    Figure 112020108392256-pat00065
    : 부호 결정 계수)
  9. 학습용 데이터 세트에 의해 트레이닝된 음성향상장치에 있어서,
    음성신호 및 잡음신호가 섞여있는 혼합음신호를 획득하는 혼합음신호 획득부(102);
    상기 혼합음신호를 단시간 푸리에 변환(STFT: Short-time Fourier Transform)으로 상기 혼합음신호의 복소 스펙트로그램으로 변환하는 복소 스펙트로그램 변환부(103);
    미리 트레이닝된 인공신경망에 의해, 상기 혼합음신호의 복소 스펙트로그램에 기초하여 상기 음성신호의 복소 스펙트럼을 산출하기 위한 복수 개의 음성신호 파라미터를 결정하는 음성신호 파라미터 결정부(104);
    상기 복수 개의 음성신호 파라미터에 기초하여 상기 음성신호의 복소 스펙트럼을 산출하는 음성신호 스펙트럼 산출부(105);
    상기 산출된 음성신호의 복소 스펙트럼을 푸리에 역변환(Inverse Fourier Transform)으로 상기 음성신호로 변환하는 복소 스펙트럼 역변환부(106); 및
    상기 변환된 음성신호를 출력하는 출력부(108)를 포함하고,
    상기 복수 개의 음성신호 파라미터는 상기 음성신호의 복소 스펙트럼의 진폭 및 상기 혼합음신호의 복소 스펙트럼과 상기 음성신호의 복소 스펙트럼 사이의 절대 위상차와 연관된 제 1 및 제 2 음성신호 파라미터, 및 상기 절대 위상차의 부호와 연관된 제 3 및 제 4 음성신호 파라미터를 포함하고,
    상기 제 1 음성신호 파라미터는 상기 음성신호의 복소 스펙트럼의 진폭 및 상기 잡음신호의 복소 스펙트럼의 진폭의 합과 상기 혼합음신호의 복소 스펙트럼의 진폭의 비를 의미하는 파라미터이고,
    상기 제 2 음성신호 파라미터는 상기 음성신호의 복소 스펙트럼의 진폭과 상기 잡음신호의 복소 스펙트럼의 진폭의 비와 연관된 파라미터인 것을 특징으로 하는 음성향상장치.
  10. 제 1 항 내지 제 3 항, 제 5 항 내지 제 8 항 중 어느 한 항에 기재된 방법을 수행하는 프로그램이 기록된 컴퓨터 판독 가능한 기록매체.
KR1020200093974A 2020-07-28 2020-07-28 인공신경망을 이용한 음성향상방법 및 장치 KR102191736B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200093974A KR102191736B1 (ko) 2020-07-28 2020-07-28 인공신경망을 이용한 음성향상방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200093974A KR102191736B1 (ko) 2020-07-28 2020-07-28 인공신경망을 이용한 음성향상방법 및 장치

Publications (2)

Publication Number Publication Date
KR102191736B1 true KR102191736B1 (ko) 2020-12-16
KR102191736B9 KR102191736B9 (ko) 2021-08-19

Family

ID=74042088

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200093974A KR102191736B1 (ko) 2020-07-28 2020-07-28 인공신경망을 이용한 음성향상방법 및 장치

Country Status (1)

Country Link
KR (1) KR102191736B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113555031A (zh) * 2021-07-30 2021-10-26 北京达佳互联信息技术有限公司 语音增强模型的训练方法及装置、语音增强方法及装置
WO2022191879A1 (en) * 2021-03-09 2022-09-15 PolyN Technology Limited Analog hardware realization of trained neural networks for voice clarity
CN115272137A (zh) * 2022-09-28 2022-11-01 北京万龙精益科技有限公司 基于fpga的实时固定模式噪声去除方法、装置、介质及系统
WO2022231372A1 (ko) * 2021-04-30 2022-11-03 한국수력원자력 주식회사 배관 평가 로봇 및 배관 평가방법
KR102628542B1 (ko) * 2022-10-06 2024-01-23 대한민국 인공지능 기반 해양 구조신호 자동 식별 시스템 및 방법

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100657948B1 (ko) 2005-02-03 2006-12-14 삼성전자주식회사 음성향상장치 및 방법
KR101614647B1 (ko) 2012-06-18 2016-04-21 고어텍 인크 단일채널 음성의 반향제거를 위한 방법 및 장치
KR101616452B1 (ko) 2015-03-17 2016-04-28 크레신 주식회사 능동소음제어 오디오입출력장치
KR102085739B1 (ko) * 2018-10-29 2020-03-06 광주과학기술원 음성 향상 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100657948B1 (ko) 2005-02-03 2006-12-14 삼성전자주식회사 음성향상장치 및 방법
KR101614647B1 (ko) 2012-06-18 2016-04-21 고어텍 인크 단일채널 음성의 반향제거를 위한 방법 및 장치
KR101616452B1 (ko) 2015-03-17 2016-04-28 크레신 주식회사 능동소음제어 오디오입출력장치
KR102085739B1 (ko) * 2018-10-29 2020-03-06 광주과학기술원 음성 향상 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Hyeong-Seok Choi, Hoon Heo, Jie Hwan Lee, Kyogu Lee, "Phase-aware Single-stage Speech Denoising and Dereverberation with U-Net," arXiv preprint.

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022191879A1 (en) * 2021-03-09 2022-09-15 PolyN Technology Limited Analog hardware realization of trained neural networks for voice clarity
WO2022231372A1 (ko) * 2021-04-30 2022-11-03 한국수력원자력 주식회사 배관 평가 로봇 및 배관 평가방법
KR20220149238A (ko) * 2021-04-30 2022-11-08 한국수력원자력 주식회사 배관 평가 로봇 및 배관 평가방법
KR102545926B1 (ko) * 2021-04-30 2023-06-20 한국수력원자력 주식회사 배관 평가 로봇 및 배관 평가방법
CN113555031A (zh) * 2021-07-30 2021-10-26 北京达佳互联信息技术有限公司 语音增强模型的训练方法及装置、语音增强方法及装置
CN113555031B (zh) * 2021-07-30 2024-02-23 北京达佳互联信息技术有限公司 语音增强模型的训练方法及装置、语音增强方法及装置
CN115272137A (zh) * 2022-09-28 2022-11-01 北京万龙精益科技有限公司 基于fpga的实时固定模式噪声去除方法、装置、介质及系统
CN115272137B (zh) * 2022-09-28 2022-12-20 北京万龙精益科技有限公司 基于fpga的实时固定模式噪声去除方法、装置、介质及系统
KR102628542B1 (ko) * 2022-10-06 2024-01-23 대한민국 인공지능 기반 해양 구조신호 자동 식별 시스템 및 방법

Also Published As

Publication number Publication date
KR102191736B9 (ko) 2021-08-19

Similar Documents

Publication Publication Date Title
KR102191736B1 (ko) 인공신경망을 이용한 음성향상방법 및 장치
CN109065067B (zh) 一种基于神经网络模型的会议终端语音降噪方法
US10123113B2 (en) Selective audio source enhancement
US20210089967A1 (en) Data training in multi-sensor setups
KR101456866B1 (ko) 혼합 사운드로부터 목표 음원 신호를 추출하는 방법 및장치
JP6703525B2 (ja) 音源を強調するための方法及び機器
JP6279181B2 (ja) 音響信号強調装置
KR100643310B1 (ko) 음성 데이터의 포먼트와 유사한 교란 신호를 출력하여송화자 음성을 차폐하는 방법 및 장치
CN112185406A (zh) 声音处理方法、装置、电子设备和可读存储介质
US8223979B2 (en) Enhancement of speech intelligibility in a mobile communication device by controlling operation of a vibrator based on the background noise
Küçük et al. Real-time convolutional neural network-based speech source localization on smartphone
WO2022256577A1 (en) A method of speech enhancement and a mobile computing device implementing the method
Shankar et al. Efficient two-microphone speech enhancement using basic recurrent neural network cell for hearing and hearing aids
US10049685B2 (en) Integrated sensor-array processor
WO2023287773A1 (en) Speech enhancement
Shahid et al. Voicefind: Noise-resilient speech recovery in commodity headphones
WO2023287782A1 (en) Data augmentation for speech enhancement
US11670298B2 (en) System and method for data augmentation for multi-microphone signal processing
JP6524463B2 (ja) 自動ミキシング装置およびプログラム
JP5113096B2 (ja) 音源分離方法、装置およびプログラム
EP3613043A1 (en) Ambience generation for spatial audio mixing featuring use of original and extended signal
US10204638B2 (en) Integrated sensor-array processor
EP3029671A1 (en) Method and apparatus for enhancing sound sources
US20130226568A1 (en) Audio signals by estimations and use of human voice attributes
Shankar Real-Time Single and Dual-Channel Speech Enhancement on Edge Devices for Hearing Applications

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Publication of correction