KR102208855B1 - 노이즈 신호 결정 방법과 장치, 및 음성 노이즈 제거 방법과 장치 - Google Patents

노이즈 신호 결정 방법과 장치, 및 음성 노이즈 제거 방법과 장치 Download PDF

Info

Publication number
KR102208855B1
KR102208855B1 KR1020187013177A KR20187013177A KR102208855B1 KR 102208855 B1 KR102208855 B1 KR 102208855B1 KR 1020187013177 A KR1020187013177 A KR 1020187013177A KR 20187013177 A KR20187013177 A KR 20187013177A KR 102208855 B1 KR102208855 B1 KR 102208855B1
Authority
KR
South Korea
Prior art keywords
signal
noise
variance
frame
speech
Prior art date
Application number
KR1020187013177A
Other languages
English (en)
Other versions
KR20180067608A (ko
Inventor
지준 두
Original Assignee
어드밴스드 뉴 테크놀로지스 씨오., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 어드밴스드 뉴 테크놀로지스 씨오., 엘티디. filed Critical 어드밴스드 뉴 테크놀로지스 씨오., 엘티디.
Publication of KR20180067608A publication Critical patent/KR20180067608A/ko
Application granted granted Critical
Publication of KR102208855B1 publication Critical patent/KR102208855B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Abstract

본 출원의 실시 예는 노이즈 신호 결정 방법과 장치, 및 음성 노이즈 제거 방법과 장치를 개시한다. 상기 노이즈 신호 결정 방법은 분석 대상 음성 신호 세그먼트의 각 프레임 신호에 푸리에 변환을 수행하여 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 스펙트럼을 획득하는 단계; 상기 프레임 신호의 파워 스펙트럼에 기초하여 다양한 주파수에서 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값의 분산을 결정하는 단계; 및 상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계를 포함한다. 본 출원의 실시 예는 분석 대상 음성 신호 세그먼트 내에 포함된 여러 노이즈 프레임을 정확하게 얻을 수 있어 음성 노이즈 제거 효과가 향상된다.

Description

노이즈 신호 결정 방법과 장치, 및 음성 노이즈 제거 방법과 장치
본 출원은 2015년 10월 13일에 출원되고 "노이즈 신호 결정 방법과 장치 및 음성 제거 방법과 장치"라는 명칭의 중국 특허 출원 번호 제201510670697.8호에 대한 우선권을 주장하며, 이는 전체가 본 명세서에 참고로 포함된다.
본 발명은 음성 노이즈 제거 기술 분야에 관한 것으로, 특히 노이즈 신호 결정 방법과 장치, 및 음성 노이즈 제거 방법과 장치에 관한 것이다.
음성 노이즈 제거 기술은 음성 신호로부터 환경 노이즈를 제거함으로써 음성 품질을 향상시킬 수 있다. 음성 신호에서의 노이즈 신호의 파워 스펙트럼은 먼저 음성 노이즈 제거 과정에서 결정될 필요가 있으며, 그 후 노이즈 신호의 결정된 파워 스펙트럼에 따라 음성 신호에서 노이즈가 제거될 수 있다.
종래 기술에서, 음성 신호 내의 노이즈 신호의 파워 스펙트럼은 일반적으로 다음과 같은 방식으로 결정될 수 있다: 음성 신호 내의 노이즈 신호의 파워 스펙트럼을 얻기 위해 처음 N개의 프레임 신호가 노이즈 신호라는 가정 하에 음성 신호 세그먼트 내의 처음 N개의 프레임 신호를 분석한다(즉, 인간의 음성 신호는 포함하지 않는다).
실제 응용 시나리오에서, 종래 기술에서 노이즈 신호로 가정되는 음성 신호 내의 처음 N개의 프레임 신호는 보통 실제 노이즈 신호와 일치하지 않으며, 따라서 얻어진 노이즈 신호 파워 스펙트럼의 정확도가 영향을 받는다.
본 출원의 실시 예들의 목적은 노이즈 신호로 가정된 처음 N개의 프레임 신호가 실제 노이즈 신호와 일치하지 않기 때문에, 얻어진 노이즈 신호 파워 스펙트럼의 정확도가 영향을 받는다는 종래 기술의 문제점을 해결하기 위하여, 노이즈 신호 결정 방법과 장치, 및 음성 노이즈 제거 방법과 장치를 제공하는 것이다.
상기 기술적 문제점을 해결하기 위해, 본 출원의 실시 예들에 제공된 노이즈 신호 결정 방법과 장치, 및 음성 노이즈 제거 방법과 장치는 다음과 같이 구현된다:
노이즈 신호 결정 방법에 있어서,
분석 대상(to-be-analyzed) 음성 신호 세그먼트 내의 각 프레임 신호에 푸리에 변환을 수행하여 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 스펙트럼을 획득하는 단계;
상기 프레임 신호의 파워 스펙트럼에 기초하여 다양한 주파수에서 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값들의 분산을 결정하는 단계; 및
상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계를 포함하는 노이즈 신호 결정 방법.
음성 노이즈 제거 방법에 있어서,
처리 대상 음성 내에 포함된 분석 대상 음성 신호 세그먼트를 결정하는 단계;
상기 분석 대상 음성 신호 세그먼트 내의 각 프레임 신호에 푸리에 변환을 수행하여 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 스펙트럼을 획득하는 단계;
상기 프레임 신호의 파워 스펙트럼에 기초하여 다양한 주파수에서 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값들의 분산을 결정하는 단계;
상기 음성 신호 세그먼트 내에 포함된 여러 노이즈 프레임을 얻기 위해 상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계; 및
상기 음성 신호 세그먼트 내에 포함된 여러 노이즈 프레임에 대응하는 평균 파워를 결정하고, 상기 노이즈 프레임의 평균 파워에 기초하여 상기 처리 대상 음성에서 노이즈를 제거하는 단계를 포함하는 것인 음성 노이즈 제거 방법.
노이즈 신호 결정 장치에 있어서,
분석 대상 음성 신호 세그먼트 내의 각 프레임 신호에 푸리에 변환을 수행하여 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 스펙트럼을 획득하도록 구성된 파워 스펙트럼 획득 유닛;
상기 프레임 신호의 파워 스펙트럼에 기초하여 다양한 주파수에서 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값들의 분산을 결정하도록 구성된 분산 결정 유닛; 및
상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하도록 구성된 노이즈 결정 유닛을 포함하는 것인 노이즈 신호 결정 장치.
음성 노이즈 제거 장치에 있어서,
처리 대상 음성 내에 포함된 분석 대상 음성 신호 세그먼트를 결정하도록 구성된 세그먼트 결정 유닛;
상기 분석 대상 음성 신호 세그먼트 내의 각 프레임 신호에 푸리에 변환을 수행하여 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 스펙트럼을 획득하도록 구성된 파워 스펙트럼 획득 유닛;
상기 프레임 신호의 파워 스펙트럼에 기초하여 다양한 주파수에서 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값들의 분산을 결정하도록 구성된 분산 결정 유닛;
상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하고, 상기 음성 신호 세그먼트 내에 포함된 여러 노이즈 프레임을 얻도록 구성된 노이즈 결정 유닛; 및
상기 음성 신호 세그먼트 내에 포함된 여러 노이즈 프레임에 대응하는 평균 파워를 결정하고, 상기 노이즈 프레임의 평균 파워에 기초하여 상기 처리 대상 음성에서 노이즈를 제거하도록 구성된 음성 노이즈 제거 유닛을 포함하는 것인 음성 노이즈 제거 장치.
본 출원의 실시 예들에서 제공된 전술한 기술적 솔루션으로부터 알 수 있는 바와 같이, 분석 대상 음성 신호 세그먼트에 대해 푸리에 변환을 수행하여 각 프레임 신호의 파워 스펙트럼을 획득하고, 다양한 주파수에서 상기 분석 대상 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값들의 분산을 결정하고, 최종적으로 상기 분산에 기초하여 상기 프레임 신호가 노이즈 신호인지 여부를 결정함으로써, 본 출원의 실시 예들에서 제공된 음성 노이즈 제거 방법 및 장치 뿐만 아니라 노이즈 신호 결정 방법 및 장치가 상기 분석 대상 음성 신호 세그먼트 내에 포함된 여러 노이즈 프레임을 정확히 얻을 수 있다. 음성 노이즈 제거 프로세스에서 결정된 노이즈 프레임의 평균 파워에 기초하여 처리 대상 음성에서 노이즈가 제거될 수 있고, 따라서 음성 노이즈 제거 효과가 향상된다.
본 출원 또는 종래 기술의 실시 예들의 기술적 솔루션을 보다 명확하게 설명하기 위해, 다음은 실시 예들 또는 종래 기술을 설명하기 위해 사용된 첨부 도면을 간단히 소개한다. 명백하게, 아래에서 설명되는 첨부된 도면은 본 출원에 언급된 단지 일부 실시 예에 불과하며, 당업자는 창조적인 노력 없이도 이들 도면으로부터 다른 도면을 여전히 유도할 수 있다.
도 1은 본 출원의 실시 예에 따른 노이즈 신호 결정 방법의 흐름도이다.
도 2는 본 출원의 실시 예에 따라 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계들의 흐름도이다.
도 3은 본 출원의 실시 예에 따라 다양한 샘플링 포인트에서 프레임 신호의 파워 값들의 분산을 결정하는 단계들의 흐름도이다.
도 4는 본 출원의 실시 예에 따른 파워 값들의 분산의 곡선 그래프이다.
도 5는 본 출원의 실시 예에 따른 음성 노이즈 제거 방법의 흐름도이다.
도 6은 본 출원의 실시 예에 따른 노이즈 신호 결정 장치의 블록도이다.
도 7은 본 출원의 실시 예에 따른 음성 노이즈 제거 장치의 블록도이다.
도 8은 본 출원에 제공된 장치의 하드웨어 구현 예의 개략적인 구조도이다.
당업자가 본 출원의 기술 솔루션을 더 잘 이해하게 하기 위해, 본 출원의 실시 예의 기술적 솔루션은 본 출원의 실시 예에서 첨부된 도면을 참조하여 아래에서 명확하고 완전하게 설명될 것이다. 기술된 실시 예들은 단지 본 출원의 실시 예 전부가 아닌 일부의 것임이 명백하다. 본 출원의 실시 예에 기초하여, 당업자는 창조적 노력 없이 다른 실시 예를 얻을 수 있으며, 이들은 모두 본 출원의 보호 범위 내에 있다.
도 1은 본 출원의 실시 예에 따른 노이즈 신호 결정 방법의 흐름도이다. 분석 대상 음성 신호 세그먼트 내의 노이즈 신호를 결정하기 위해서, 본 실시 예의 노이즈 신호 결정 방법은 다음 단계들을 포함한다:
S101: 분석 대상 음성 신호 세그먼트 내의 각 프레임 신호에 대하여 푸리에 변환을 수행하여, 음성 신호 세그먼트 내의 각 프레임 신호의 파워 스펙트럼을 획득한다.
분석 대상 음성 신호 세그먼트는 특정 규칙에 따라 처리 대상 음성으로부터 캡처될 수 있다. 분석 대상 음성 신호 세그먼트는 예비 결정에 기초하여 많은 노이즈 프레임을 포함할 수 있는 "의심되는 노이즈 프레임 세그먼트"일 수 있다. 바람직하게는, 단계 S101 전에, 상기 방법은,
상기 처리 대상 음성의 시간-영역 신호의 진폭 변화에 기초하여, 상기 처리 대상 음성에서 미리 설정된 임계치보다 작은 진폭 변화를 갖는 음성 신호 세그먼트를 상기 분석 대상 음성 신호 세그먼트로서 결정하는 단계; 또는
상기 처리 대상 음성에서 처음 N개의 프레임 음성 신호를 상기 분석 대상 음성 신호 세그먼트로서 캡처하는 단계를 더 포함한다.
본 출원의 실시 예에서, 음성 신호의 시간 영역에서, 노이즈 신호는 일반적으로 진폭 변화가 작은 음성 신호 세그먼트 또는 일정한 진폭을 갖는 음성 신호 세그먼트인 반면, 인간 스피치 음성을 포함하는 음성 신호 세그먼트는 일반적으로 진폭 변화에 있어 크게 변동한다. 이러한 규칙에 기초하여, 처리 대상 음성(즉, 노이즈 제거 대상(to-be-denoised) 음성) 내에 포함된 "의심되는 노이즈 프레임 세그먼트"를 인식하기 위해 사용되는 미리 설정된 임계치가 미리 설정될 수 있다. 따라서, 처리 대상 음성 내의 미리 설정된 임계치보다 작은 진폭 변화를 갖는 음성 신호 세그먼트는 분석 대상 음성 신호 세그먼트로서 결정될 수 있다.
본 출원의 실시 예에서, 프레이밍(framing)은 음성 신호에 대해 먼저 수행될 수 있다. 프레임 신호는 단일 프레임 음성 신호를 지칭하며, 하나의 음성 신호 세그먼트는 여러 프레임 신호를 포함할 수 있다. 하나의 프레임 신호는 몇몇 샘플링 포인트, 예를 들어 1024 샘플링 포인트를 포함할 수 있다. 인접한 두 개의 프레임 신호는 서로 중첩될 수 있다(예를 들어, 중첩 비율은 50%일 수 있다). 본 실시 예에서는 시간 영역에서 음성 신호에 대해 단시간 푸리에 변환(short-time Fourier transform, STFT)을 수행하여 음성 신호의 파워 스펙트럼(주파수 영역)을 획득할 수 있다. 파워 스펙트럼은 상이한 주파수, 예를 들어 1024개의 파워 값에 대응하는 다수의 파워 값을 포함할 수 있다.
본 출원의 실시 예에서, 일반적으로, 사람이 말하기 전의 시간(예를 들어, 1.5초)의 음성 신호는, 인간 음성을 포함하는 음성 신호 세그먼트 내의 노이즈 신호(환경 노이즈)이다. 따라서, 본 출원의 실시 예에서는 분석 대상 음성 신호가 음성 신호 세그먼트 내의 처음 N개의 프레임 신호라고 결정될 수 있다. 예를 들어 분석 대상 음성 신호는 처음 1.5초 내의 음성 신호: {f1', f2', ..., fn'}이며, f1', f2', ..., fn'은 각각 음성 신호 내에 포함되는 프레임 신호를 나타낸다. 본 출원의 실시 예는 분석 대상 음성 신호에서 프레임 신호로부터 노이즈 신호를 결정하는 것을 목표로 한다.
STFT 이후에 얻어진 분석 대상 음성 신호: {f1', f2', ..., fn'}의 파워 스펙트럼에 기초하여 각 프레임 신호에 대응하는 다수의 파워 값이 계산될 수 있다. 주파수에서의 프레임 신호의 파워 스펙트럼이 a + bi이고, 실수부 a는 진폭을 나타낼 수 있고, 허수부 b는 위상을 나타낼 수 있다고 가정한다. 그러면 주파수에서 프레임 신호의 파워 값은 a2 + b2일 수 있다. 상기 처리에 기초하여 상이한 주파수에서 각 프레임 신호의 파워 값을 얻을 수 있다. 예를 들어, 프레임 신호 {f1', f2', ..., fn'} 각각이 1024개의 샘플링 포인트를 포함하면, 파워 스펙트럼에 기초하여 상이한 주파수에서 각 프레임 신호의 1024개의 파워 값을 얻을 수 있다. 예를 들어, 프레임 신호 f1'에 대응하는 파워 값들은 {p1 1, p1 2, ..., p1 1024}이고, 프레임 신호 f2'에 대응하는 파워 값들은 {p2 1, p2 2, ..., p2 1024}이고, 프레임 신호 fn'에 대응하는 파워 값들은 {pn 1, pn 2, ..., pn 1024}이다.
S102: 다양한 주파수에서 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값들의 분산은 프레임 신호의 파워 스펙트럼에 기초하여 결정된다.
다양한 주파수에서 프레임 신호 {f1', f2', ..., fn'}의 파워 값에 기초하여, 프레임 신호 {f1', f2', ..., fn'}의 파워 값의 분산 {Var(f1'), Var(f2'), ..., Var(fn')}은 분산 계산 공식에 따라 계산될 수 있다. 예를 들어, 각 프레임 신호가 1024개의 샘플링 포인트를 포함하면, Var(f1')은 {p1 1, p1 2, ..., p1 1024}의 분산이고, Var(f2')는 {p2 1, p2 2, ..., p2 1024}의 분산이고, Var(fn')는 {pn 1, pn 2, ..., pn 1024}의 분산이다.
S103: 상기 분산에 기초하여 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정한다.
본 출원의 실시 예에서, 스피치 세그먼트를 포함하는 프레임 신호의 에너지(즉, 파워 값)는 일반적으로 대역에 따라 크게 변화하는 반면, 스피치 세그먼트가 없는 프레임 신호(즉, 노이즈 신호)의 에너지는 대역에 따라 약간 변화하고, 균등하게 분포된다. 따라서, 프레임 신호의 파워 값들의 분산에 기초하여 각 프레임 신호가 노이즈 신호인지의 여부를 결정할 수 있다.
도 2는 본 출원의 실시 예에 따라 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계들의 흐름도를 도시한다. 본 출원의 실시 예에서, 상기 단계 S103는 다음 단계들을 포함할 수 있다:
S1031: 프레임 신호의 파워 값들의 분산이 제1 임계치 T1보다 큰지 여부를 결정한다.
S1032: "아니오"인 경우, 프레임 신호는 노이즈 신호로서 결정된다.
만일 프레임 신호의 파워 값들의 분산이 제1 임계치 T1을 초과하면, 대역을 갖는 프레임 신호의 에너지의 변화 진폭(즉, 파워 값)이 제1 임계치 T1을 초과한다고 표시된다. 따라서, 프레임 신호는 노이즈 신호가 아니라고 결정될 수 있다. 반대로, 프레임 신호의 파워 값들의 분산이 제1 임계치 T1을 초과하지 않으면, 대역을 갖는 프레임 신호의 에너지의 변화 진폭(즉, 파워 값)이 제1 임계치 T1을 초과하지 않는다고 표시된다. 따라서, 프레임 신호는 노이즈 신호라고 결정될 수 있다.
위의 과정을 바탕으로, 노이즈 프레임 신호 {f1', f2', ..., fm'}와 비-노이즈 프레임 신호 {fm+1', fm+2', ..., fn'}는 분석 대상 음성 신호 {f1', f2', ..., fn'}에서 순차적으로 결정될 수 있다. 따라서, 음성 신호 세그먼트 내에 포함된 노이즈 신호가 결정될 수 있고, 이들 노이즈 신호 {f1', f2', ..., fm'}에 따라 음성 노이즈 제거가 수행될 수 있다.
도 3을 참조하면, 본 출원의 실시 예에서, 상기 단계 S102는 구체적으로 다음의 단계들을 포함할 수 있다:
S1021: 다양한 주파수에서 프레임 신호 {f1', f2', ..., fn'} 각각의 파워 값은 프레임 신호의 파워 스펙트럼에 대응하는 주파수가 속하는 주파수 구간에 따라, 제1 주파수 구간에 대응하는 제1 파워 값 세트와 제2 주파수 구간에 대응하는 제2 파워 값 세트로 적어도 분류되고, 제1 주파수 구간은 제2 주파수 구간보다 더 낮다.
특정 실시 예에서, 각 프레임 신호의 분산은 통계를 통해 주파수 도메인에서 획득될 수 있다. 비-노이즈 신호는 일반적으로 저 중음(low-mid) 주파수 대역에 집중되는 반면, 노이즈 신호는 일반적으로 모든 주파수 대역에서 균일하게 분포된다. 따라서, 적어도 두 개의 상이한 주파수 대역(즉, 상기 주파수 구간)의 통계치를 통해 다양한 주파수에서 각 프레임 신호의 파워 값들의 분산을 얻을 수 있다.
예를 들어, 제1 주파수 구간은 0 ~ 2000Hz(저주파수 대역)일 수 있고, 제2 주파수 구간은 2000 ~ 4000Hz(고주파수 대역)일 수 있다. 각 프레임 신호가 1024 개의 샘플링 포인트를 포함하는 경우, 각 프레임 신호에 대응하는 1024개의 파워 값은 파워 값에 대응하는 주파수 구간에 따라 0 ~ 2000Hz에 대응하는 제1 파워 값 세트 A와 2000 ~ 4000Hz에 대응하는 제2 파워 값 세트 B로 분류된다. 프레임 신호 f1'을 예로 들면, 1024개의 대응하는 파워 값은 {p1 1, p1 2, ..., p1 1024}이다. 주파수 구간에 따라, 제1 파워 값 세트 A에 포함되는 파워 값은 예를 들어 {p1 1, p1 2, ..., p1 126}이고, 제1 파워 값 세트 A에 포함된 파워 값은 예를 들어 {p1 127, p1 128, ..., p1 1024}이고, 나머지는 유추로 추론할 수 있다.
본 출원의 다른 실시 예에서는 신호 파워 값의 분산이 2개가 넘는 주파수 대역에서의 통계를 통해 획득될 수 있다는 것을 알아야 한다.
S1022: 제1 파워 값 세트 내에 포함된 파워 값들의 제1 분산이 결정된다.
전술한 바와 같이, 프레임 신호 f1'을 예로 들면, 제1 파워 값 세트 A 내에 포함되는 파워 값은, 예를 들면 {p1 127, p1 128, ..., p1 1024}이다. 따라서, 파워 값 p1 127 ~ p1 1024의 제1 분산 Varhigh(f1')는 분산 공식에 따라 계산될 수 있다.
S1021: 제2 파워 값 세트 내에 포함된 파워 값들의 제2 분산이 결정된다.
전술한 바와 같이, 프레임 신호 f1'을 예로 들면, 제2 파워 값 세트 B 내에 포함되는 파워 값은 예를 들면 {p1 1, p1 2, ..., p1 126}이다. 따라서, 파워 값 p1 1 ~ p1 126의 제2 분산 Varlow(f1')는 분산 공식에 따라 계산될 수 있다.
도 4는 본 출원의 실시 예에 따른 분산의 개략적인 곡선 그래프를 도시한다. 그래프에서, 가로축은 프레임 신호의 프레임 번호를 나타내고, 세로축은 분산의 크기를 나타낸다. 제1 분산 곡선은 각 프레임 신호의 제1 분산의 경향을 나타내고, 제1 분산 곡선은 각 프레임 신호의 제2 분산의 경향을 나타낸다. 그래프에서 볼 수 있듯이 2000 ~ 4000Hz의 고주파수 대역에서 분산이 약간 변동하며, 0 ~ 2000Hz의 저주파수 대역에서 분산이 크게 변동한다. 이것은 비-노이즈 신호가 주로 저주파수 대역에 집중되어 있음을 증명할 수 있다.
전술한 바와 같이, 본 출원의 선호되는 실시 예에서, 단계 S1031은 구체적으로:
상기 프레임 신호의 파워 값들의 제1 분산이 제1 임계치 T1보다 큰지 여부를 결정하는 단계; 만약 예라면, 프레임 신호를 노이즈 신호로서 결정하는 단계를 포함한다. 프레임 신호 f1'을 예로 들면, 제1 분산 Varhigh(f1')가 제1 임계치 T1보다 큰지 여부가 결정된다.
본 출원의 실시 예에서, 상기 단계 S103은 구체적으로:
상기 제1 분산과 상기 제2 분산 사이의 차이가 제2 임계치 T2보다 큰지 여부를 결정하는 단계; 및
아니오이면, 프레임 신호를 노이즈 신호로서 결정하는 단계를 포함한다.
프레임 신호 f1'을 예로 들면, 제1 분산과 제2 분산의 차이는 |Varhigh(f1') - Varlow(f1')|이다. 만일 |Varhigh(f1') - Varlow(f1')| < T2인 경우, 프레임 신호 f1'은 노이즈 신호로서 결정된다. 이 단계에 따라, 분석 대상 음성 프레임 신호 {f1', f2', ..., fn'}로부터 노이즈 신호가 순차적으로 결정될 수 있다.
본 출원의 실시 예에서, 단계 S102와 단계 S103 사이에서 상기 방법은:
상기 분산의 크기에 따라 상기 분석 대상 음성 신호 세그먼트의 프레임 신호를 순위 매김(rank)하는 단계를 더 포함할 수 있다.
그 후, 상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계는:
다양한 주파수에서 각각의 순위가 매겨진 프레임 신호의 파워 값들의 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계를 포함한다.
전술한 바와 같이, 프레임 신호 {f1', f2', ..., fn'}의 파워 값들의 분산 {Var(f1'), Var(f2'), ..., Var(fn')}이 이 실시 예에서 결정될 수 있다. 프레임 신호는 파워 값의 분산의 오름차순으로 순위를 매길 수 있다. 더 작은 분산을 가진 신호는 노이즈 신호일 가능성이 크다. 따라서, 분석 대상 음성 신호 내의 노이즈 프레임 신호를 맨 앞쪽까지 순위 매김할 수 있다. 본 출원의 실시 예에서, 저주파수 대역(예를 들어, 0 ~ 2000Hz) 및 고주파수 대역(예를 들어, 2000 ~ 4000Hz)의 통계치를 통해 분산을 각각 획득하면, 다양한 주파수에서 프레임 신호 {f1', f2', ..., fn'} 각각의 파워 값들이 프레임 신호의 파워 스펙트럼에 대응하는 주파수가 속하는 주파수 구간에 따라 제1 주파수 구간(예컨대, 0 ~ 2000Hz)에 대응하는 제1 파워 값 세트 A와 제2 주파수 구간(예컨대, 2000 ~ 4000Hz)에 대응하는 제2 파워 값 세트 B로 분류될 수 있다. 그 다음, 프레임 신호 {f1', f2', ..., fn'} 에 대응하는 제1 파워 값 세트 내에 포함된 파워 값들의 제1 분산 {Varlow(f1'), Varlow(f2'), ..., Varlow(fn')}이 각각 결정될 수 있고, 프레임 신호 {f1', f2', ..., fn'} 에 대응하는 제2 파워 값 세트 내에 포함된 파워 값들의 제2 분산 {Varhigh(f1'), Varhigh(f2'), ..., Varhigh(fn')}이 각각 결정될 수 있다. 상기 단계 S104에서, 고주파수 및 저주파수에서의 분산 통계에 기초하여, 분석 대상 음성 신호 내에 포함된 노이즈 신호(분산의 크기에 따라 등급이 매겨진 음성 신호일 수 있음)는 다음과 같은 방식으로 결정될 수 있다:
Varlow(fi') > T1 (1);
|Varhigh(fi') - Varlow(fi')| > T2 (2);
Varhigh(f'i +1) - Varlow(f'i -1) > T3 (3);
Varhigh(f'i +1) - Varlow(f'i -1) > T4 (4);
i ∈(1, n)이다. 식 (1)에 기초하여 각 프레임 신호 fi'의 파워 값들의 제1 분산이 제1 임계치 T1보다 큰지 여부를 결정할 수 있다. 아니오이면, 프레임 신호 fi'는 노이즈 프레임 신호로서 결정된다. 결정된 노이즈 프레임 신호들의 세트는 노이즈 신호로서 결정된다.
식 (2)에 기초하여 각 프레임 신호 fi'의 파워 값들의 제2 분산이 제2 임계치 T2보다 큰지 여부를 결정할 수 있다. 아니오이면, 프레임 신호 fi'는 노이즈 프레임 신호로서 결정된다. 결정된 노이즈 프레임 신호들의 세트는 노이즈 신호로서 결정된다.
식 (3)에 기초하여 프레임 신호 fi' 전의 프레임 신호 f'i-1의 파워 값들의 제2 분산 Varhigh(f'i-1) 및 프레임 신호 fi' 다음의 프레임 신호 f'i+1의 파워 값들의 제2 분산 Varhigh(f'i+1)의 차이 Varhigh(f'i+1) - Varhigh(f'i-1)가 제3 임계치 T3보다 큰지 여부를 결정할 수 있다. 아니오이면, 프레임 신호 fi'는 노이즈 프레임 신호로서 결정된다. 결정된 노이즈 프레임 신호들의 세트는 노이즈 신호로서 결정된다.
식 (4)에 기초하여 프레임 신호 fi' 전의 프레임 신호 f'i-1의 파워 값들의 제1 분산 Varlow(f'i-1) 및 프레임 신호 fi' 다음의 프레임 신호 f'i+1의 파워 값들의 제1 분산 Varlow(f'i+1)의 차이 Varlow(f'i +1) - Varlow(f'i-1)가 제4 임계치 T4보다 큰지 여부를 결정할 수 있다. 아니오이면, 프레임 신호 fi'는 노이즈 프레임 신호로서 결정된다. 결정된 노이즈 프레임 신호들의 세트는 노이즈 신호로서 결정된다.
본 출원의 실시 예에서는, 상기 식 (1) ~ (4)를 이용하여, 분석 대상 음성 신호에 포함되는 노이즈 프레임을 인식할 수 있다. 즉, 상기 식 1 내지 4 중 어느 하나를 만족하는 임의의 프레임 신호 fi'는 비-노이즈 신호(노이즈 종료(noise end) 프레임)로서 결정될 수 있다. 다시 말해서, 상기 식 1 내지 4 중 아무 것도 만족하지 않는 임의의 프레임 신호 fi'는 노이즈 신호로서 결정될 수 있다. 상기 과정에 기초하여 노이즈 종료(noise end) 프레임 fm'을 결정할 수 있고, 그 후 노이즈 프레임은 {f1', f2', ..., f'm - 1}을 포함한다.
본 출원의 다른 실시 예에서, 노이즈 종료 프레임은 식(1) 및 (2), 또는 식 (2) 및 (3)과 같이, 식 (1) 내지 (4)의 일부에 기초하여 결정될 수 있다. 또한, 본 출원의 실시 예에서 노이즈 종료 프레임을 결정하기 위한 공식은 상기 나열된 식에 제한되지 않는다. 임계치 T1, T2, T3 및 T4는 다량의 테스트 샘플에 대한 통계로부터 모두 얻어진다.
도 5는 본 출원의 실시 예에 따른 음성 노이즈 제거 방법의 흐름도로서, 다음 단계들을 포함한다:
S201: 처리 대상 음성 내에 포함되는 분석 대상 음성 신호 세그먼트를 결정한다.
S202: 분석 대상 음성 신호 세그먼트 내의 각 프레임 신호에 푸리에 변환을 수행하여 음성 신호 세그먼트 내의 각 프레임 신호의 파워 스펙트럼을 획득한다.
S203: 다양한 주파수에서 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값의 분산은 프레임 신호의 파워 스펙트럼에 기초하여 결정된다.
S204: 상기 분산에 기초하여 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하고, 음성 신호 세그먼트 내에 포함된 몇 개의 노이즈 프레임이 얻어진다.
S205: 음성 신호 세그먼트 내에 포함된 여러 노이즈 프레임에 대응하는 평균 파워를 결정하고, 노이즈 프레임의 평균 파워에 기초하여 처리 대상 음성에서 노이즈를 제거한다.
본 출원의 실시 예에서는, 상기 방법에 따라 분석 대상 음성 세그먼트 내에 포함된 노이즈 프레임 {f1', f2', ..., f'm - 1}을 획득한 후, 노이즈 프레임에 대응하는 원래 신호(순위 매김 전)의 프레임 번호를 각각 결정할 수 있고, 이들 프레임 신호의 평균 파워를 통계를 통해 구하여, 노이즈 신호의 파워 스펙트럼 추정 값 Pnoise를 얻을 수 있다. 노이즈 신호의 파워 스펙트럼 추정 값 Pnoise가 얻어진 후에 음성에서 노이즈를 제거할 수 있다. 상기 노이즈 제거 방법은 당업자에게 잘 알려져 있으므로 여기서 구체적으로 설명하지 않는다.
명확하게, 본 출원의 다른 실현 가능한 실시 예들에서, 분산들에 따라 프레임 신호들을 순위 매김하는 단계는 생략될 수 있고, 노이즈 프레임들은 원래 신호들의 분산에 기초하여 직접 결정될 수 있다. 또한, 본 출원에서 노이즈 신호의 다수의 프레임이 결정된 후, 파워 스펙트럼 추정값 Pnoise는 일반적으로 과대 추정(over-estimation)를 피하기 위해 프레임들 중 일부를 사용하여 계산된다. 예를 들어, 결정된 노이즈 신호가 50 프레임을 포함하면, 파워 스펙트럼 추정값 Pnoise를 계산하기 위해 처음 30 프레임이 캡처될 수 있다. 이와 같이, 파워 스펙트럼 추정값의 정확도를 향상시킬 수 있다.
본 출원의 실시 예는 상기 처리 구현에 대응하는 노이즈 신호 결정 장치를 더 제공한다. 상기 장치는 소프트웨어를 통해 구현될 수 있으며, 또한 하드웨어 또는 소프트웨어와 하드웨어의 조합을 통해 구현될 수도 있다. 소프트웨어 구현 방식을 예로 들자면, 서버의 중앙 처리 장치(Central Process Unit, CPU)를 통해 대응하는 컴퓨터 프로그램을 메모리로 판독하고 상기 컴퓨터 프로그램을 실행함으로써 로직 의미에서의 장치가 형성될 수 있다. 장치의 하드웨어 구조를 위해서는 도 8을 참조하라.
도 6은 본 출원의 실시 예에 따른 노이즈 신호 검출 장치의 블록도이다. 본 실시 예에서, 장치 내의 유닛들의 기능들은 상기 노이즈 신호 결정 방법의 단계들의 기능들에 대응할 수 있다. 자세한 내용은 위의 방법 실시 예를 참조하라. 노이즈 신호 결정 장치(100)는:
분석 대상 음성 신호 세그먼트 내의 각 프레임 신호에 푸리에 변환을 수행하여 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 스펙트럼을 획득하도록 구성된 파워 스펙트럼 획득 유닛(101);
상기 프레임 신호의 파워 스펙트럼에 기초하여 다양한 주파수에서 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값들의 분산을 결정하도록 구성된 분산 결정 유닛(102); 및
상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하도록 구성된 노이즈 결정 유닛(103) 포함한다.
바람직하게는, 상기 장치는, 세그먼트 획득 유닛을 더 포함하고, 상기 세그먼트 획득 유닛은:
처리 대상 음성의 시간-영역 신호의 진폭 변화에 기초하여, 상기 처리 대상 음성에서 미리 설정된 임계치보다 작은 진폭 변화를 갖는 음성 신호 세그먼트를 분석 대상 음성 신호 세그먼트로서 결정하거나;
처리 대상 음성에서 처음 N개의 프레임 음성 신호를 상기 분석 대상 음성 신호 세그먼트로서 캡처하도록 구성된다.
바람직하게는 상기 노이즈 결정 유닛(103)은,
상기 음성 신호 세그먼트 내의 각 프레임 신호에 대응하는 상기 분산이 제1 임계치보다 큰지 여부를 결정하고;
아니오이면, 상기 프레임 신호를 노이즈 신호로서 결정하도록 구성된다.
바람직하게는 상기 분산 결정 유닛(102)은,
상기 파워 스펙트럼에 대응하는 주파수가 속하는 주파수 구간에 따라, 다양한 주파수에서 상기 프레임 신호의 파워 값들을 제1 주파수 구간에 대응하는 제1 파워 값 세트로 적어도 분류하고;
상기 제1 파워 값 세트 내에 포함된 파워 값들의 제1 분산을 결정하도록 구성된다.
그 후, 상기 노이즈 결정 유닛(103)은,
상기 제1 분산이 상기 제1 임계치보다 큰지 여부를 결정하고;
아니오이면, 상기 프레임 신호를 노이즈 신호로서 결정하도록 구성된다.
바람직하게는 상기 분산 결정 유닛(102)은 구체적으로,
상기 프레임 신호의 파워 값들에 대응하는 주파수가 속하는 주파수 구간에 따라, 다양한 주파수에서 각 프레임 신호의 파워 값들을 제1 주파수 구간에 대응하는 제1 파워 값 세트 및 제2 주파수 구간에 대응하는 제2 파워 값 세트로 적어도 분류하고 - 상기 제1 주파수 구간은 상기 제2 주파수 구간보다 낮음 -;
상기 제1 파워 값 세트 내에 포함된 파워 값들의 제1 분산을 결정하며;
상기 제2 파워 값 세트 내에 포함된 파워 값들의 제2 분산을 결정하도록 구성된다.
그 후, 상기 노이즈 결정 유닛(103)은,
각 프레임 신호에 대응하는 상기 제1 분산 및 상기 제2 분산의 차이가 제2 임계치보다 큰지 여부를 결정하고;
아니오이면, 상기 프레임 신호를 노이즈 신호로서 결정하도록 구성된다.
본 출원의 실시 예는 또한 상기 처리 구현에 대응하는 음성 노이즈 제거 장치를 제공한다. 상기 장치는 소프트웨어를 통해 구현될 수 있으며, 하드웨어 또는 소프트웨어와 하드웨어의 조합을 통해 구현될 수도 있다. 소프트웨어 구현 방식을 예로 들자면, 서버의 중앙 처리 장치(CPU)를 통해 대응하는 컴퓨터 프로그램을 메모리로 판독하고 상기 컴퓨터 프로그램을 실행함으로써 로직 의미에서의 장치가 형성될 수 있다. 장치의 하드웨어 구조를 위해서는 도 8을 참조하라.
도 7은 본 출원의 실시 예에 따른 음성 노이즈 제거 장치의 블록도이다. 이 실시 예에서, 장치 내의 유닛들의 기능은 상기 음성 노이즈 제거 방법의 단계들의 기능들에 대응할 수 있다. 자세한 내용은 상기 방법 실시 예를 참조하라. 이 실시 예에서, 음성 노이즈 제거 장치(200)는:
처리 대상 음성 내에 포함된 분석 대상 음성 신호 세그먼트를 결정하도록 구성된 세그먼트 결정 유닛(201);
상기 분석 대상 음성 신호 세그먼트 내의 각 프레임 신호에 푸리에 변환을 수행하여 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 스펙트럼을 획득하도록 구성된 파워 스펙트럼 획득 유닛(202);
상기 프레임 신호의 파워 스펙트럼에 기초하여 다양한 주파수에서 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값들의 분산을 결정하도록 구성된 분산 결정 유닛(203);
상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하고, 상기 음성 신호 세그먼트 내에 포함된 여러 노이즈 프레임을 획득하도록 구성된 노이즈 결정 유닛(205); 및
상기 음성 신호 세그먼트 내에 포함된 여러 노이즈 프레임에 대응하는 평균 파워를 결정하고, 상기 노이즈 프레임의 평균 파워에 기초하여 상기 처리 대상 음성에서 노이즈를 제거하도록 구성된 음성 노이즈 제거 유닛(10)을 포함한다.
바람직하게는 상기 장치는: 상기 분산의 크기에 따라 상기 분석 대상 음성 신호 세그먼트 내의 프레임 신호를 순위 매김하도록 구성된 순위 매김(ranking) 유닛(204)을 더 포함한다.
그 후 노이즈 결정 유닛(205)은 구체적으로:
다양한 주파수에서 각각의 순위 매김된 프레임 신호의 파워 값들의 분산에 기초하여 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하도록 구성된다.
분석 대상 음성 신호 세그먼트에 푸리에 변환을 수행하여 각 프레임 신호의 파워 스펙트럼을 획득하고, 다양한 주파수에서 상기 분석 대상 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값들의 분산을 결정하고, 최종적으로 상기 분산에 기초하여 상기 프레임 신호가 노이즈 신호인지 여부를 결정함으로써, 본 출원의 실시 예들에 제공된 음성 노이즈 제거 방법 및 장치 뿐만 아니라 노이즈 신호 결정 방법 및 장치가 상기 분석 대상 음성 신호 세그먼트 내에 포함된 여러 노이즈 프레임을 정확히 결정할 수 있다. 음성 노이즈 제거 프로세스에서 결정된 여러 노이즈 프레임의 평균 파워에 기초하여 처리 대상 음성에서 노이즈가 제거될 수 있고, 따라서 음성 노이즈 제거 효과가 향상된다.
설명을 용이하게 하기 위해, 장치는 각각의 설명을 위한 기능적 관점에서 다양한 유닛으로 분할된다. 당연히, 본 출원이 구현될 때, 상기 유닛들의 기능들은 동일한 소프트웨어 및/또는 하드웨어 컴포넌트 또는 다수의 소프트웨어 및/또는 하드웨어 컴포넌트들로 구현될 수 있다.
당업자는 본 발명의 실시 예가 방법, 시스템 또는 컴퓨터 프로그램 제품으로서 제공될 수 있다는 것을 이해해야 한다. 따라서, 본 발명은 완전한 하드웨어 실시 예, 완전한 소프트웨어 실시 예 또는 소프트웨어와 하드웨어를 결합한 실시 예로서 구현될 수 있다. 또한, 본 발명은 컴퓨터 사용 가능한 프로그램 코드를 포함하는 (자기 디스크 메모리, CD-ROM, 광학 메모리 등을 포함하지만 이에 한정되지 않는) 하나 이상의 컴퓨터 사용 가능한 저장 매체 상에 구현된 컴퓨터 프로그램 제품의 형태일 수 있다.
본 발명은 본 발명의 실시 예에 따른 방법, 디바이스(시스템) 및 컴퓨터 프로그램 제품에 따른 흐름도 및/또는 블록도를 참조하여 설명된다. 흐름도 및/또는 블록도에서 각각의 프로세스 및/또는 블록 및 프로세스 및/또는 블록의 조합을 구현하기 위해 컴퓨터 프로그램 명령어가 사용될 수 있다는 것을 이해해야 한다. 컴퓨터 프로그램 명령어는 범용 컴퓨터, 특수 목적 컴퓨터, 내장형 프로세서 또는 다른 프로그램 가능 데이터 처리 디바이스에 제공되어 기계(machine)를 생성할 수 있어, 컴퓨터 또는 다른 프로그램 가능 데이터 처리 디바이스의 프로세서는 흐름도의 하나 이상의 프로세스 및/또는 블록도 내의 하나 이상의 블록에서 지정된 기능들을 구현하도록 구성된 장치를 생성하기 위한 명령어를 실행한다.
컴퓨터 프로그램 명령어들은 또한 컴퓨터 또는 다른 프로그램 가능한 데이터 처리 디바이스가 특정 방식으로 동작하도록 안내할 수 있는 컴퓨터 판독 가능 저장 장치에 저장될 수 있어서, 컴퓨터 판독 가능 저장 장치에 저장된 명령어는, 흐름도의 하나 이상의 프로세스 및/또는 블록도의 하나 이상의 블록에 의해 지정된 기능들을 구현하는 명령어 장치를 포함하는 제조물(manufacture)을 생성한다.
또한, 컴퓨터 프로그램 명령어들은 또한 컴퓨터 또는 다른 프로그램 가능한 데이터 처리 디바이스에 로딩되어 일련의 동작 단계가 컴퓨터 구현 프로세싱을 생성하기 위해 컴퓨터 또는 다른 프로그램 가능한 디바이스상에서 실행될 수 있다. 따라서, 컴퓨터 또는 다른 프로그램 가능한 디바이스에서 실행되는 명령어는 흐름도의 하나 이상의 프로세스 및/또는 블록도의 하나 이상의 블록에서 지정된 기능을 구현하기 위한 단계들을 제공한다.
"포함하다(include)" 또는 "포함하다(comprise)"라는 용어 또는 이들의 다른 변형은 비배타적인 것을 커버하도록 의도되며, 따라서, 일련의 구성 요소(element)를 포함하는 프로세스, 방법, 상품 또는 디바이스는 그 구성 요소들을 포함할 뿐만 아니라 명백히 나열되지 않은 다른 구성 요소들도 포함하거나, 프로세스, 방법, 상품 또는 디바이스의 내재된 구성 요소들을 더 포함한다는 것을 또한 주의하여야 한다. 더 이상 제한이 없는 경우, "..을 포함하는(including a/an ...)"에 의해 정의된 구성 요소는 그 구성 요소를 포함하는 프로세스, 방법, 상품 또는 디바이스가 다른 동일한 구성 요소를 더 포함한다는 것을 배제하지 않는다.
당업자는 본 출원의 실시 예가 방법, 시스템 또는 컴퓨터 프로그램 제품으로서 제공될 수 있다는 것을 이해해야 한다. 따라서, 본 출원은 완전한 하드웨어 실시 예, 완전한 소프트웨어 실시 예, 또는 소프트웨어와 하드웨어를 결합한 실시 예의 형태로 구현될 수 있다. 또한, 본 출원은 컴퓨터 사용 가능한 프로그램 코드를 포함하는 (자기 디스크 메모리, CD-ROM, 광학 메모리 등을 포함하지만 이에 한정되지 않는) 하나 이상의 컴퓨터 사용 가능한 저장 매체 상에 구현된 컴퓨터 프로그램 제품의 형태일 수 있다.
본 출원은 컴퓨터에 의해 실행되는 컴퓨터 실행 가능 명령어, 예를 들어 프로그램 모듈의 공통 콘텍스트로 기술될 수 있다. 일반적으로, 프로그램 모듈은 특정 태스크를 실행하거나 특정 추상 데이터 타입을 구현하는데 사용되는 루틴, 프로그램, 객체, 어셈블리, 데이터 구조 등을 포함한다. 본 출원은 또한 통신 네트워크를 통해 접속된 원격 프로세싱 디바이스를 사용하여 태스크가 실행되는 분산 컴퓨팅 환경에서도 구현될 수 있다. 분산 컴퓨터 환경에서, 프로그램 모듈은 저장 디바이스를 포함하는 로컬 및 원격 컴퓨터 저장 매체에 위치할 수 있다.
본 명세서의 실시 예들은 계속해서 설명되고, 실시 예의 동일 또는 유사한 부분들이 서로 관련하여 얻어질 수 있으며, 각각의 실시 예는 다른 실시 예와 상이한 부분을 강조한다. 특히, 시스템 실시 예는 기본적으로 방법 실시 예와 유사하므로 간단히 설명되어 있다. 관련 부분에 대해서는, 방법 실시 예의 부분의 설명을 참조하라.
상기 설명은 단지 본 출원의 실시 예에 불과하며, 본 출원을 제한하고자 하는 것은 아니다. 본 출원의 다양한 수정 및 변형이 당업자에게 가능하다. 본 출원의 정신 및 원리 내에서 이루어진 모든 수정, 균등한 대체, 개선 등은 모두 본 출원의 청구 범위 내에 속해야 한다.

Claims (18)

  1. 음성 신호 세그먼트 내의 노이즈 신호를 결정하기 위한 방법에 있어서,
    처리 대상(to-be-processed) 음성의 시간-영역 신호의 진폭 변화에 기초하여, 상기 처리 대상 음성 내에서 미리 설정된 문턱값보다 더 작은 진폭 변화를 갖는 음성 신호 세그먼트를 상기 음성 신호 세그먼트로서 결정하는 단계 - 상기 음성 신호 세그먼트는 복수의 프레임 신호를 포함함 -;
    상기 음성 신호 세그먼트 내의 상기 복수의 프레임 신호 중 각 프레임 신호에 푸리에 변환을 수행하여 복수의 파워 스펙트럼을 획득하는 단계(S101) ― 상기 복수의 파워 스펙트럼 중 각 파워 스펙트럼은 상기 음성 신호 세그먼트 내의 각 프레임 신호에 대응하고, 각 파워 스펙트럼은 상이한 주파수에 대응하는 다수의 파워 값을 포함함 ―;
    상기 프레임 신호의 파워 스펙트럼에 기초하여 다양한 주파수에서 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값의 분산을 결정하는 단계(S102); 및
    상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계(S103)
    를 포함하는, 음성 신호 세그먼트 내의 노이즈 신호를 결정하기 위한 방법.
  2. 제1항에 있어서, 상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계는:
    상기 음성 신호 세그먼트 내의 각 프레임 신호에 대응하는 상기 분산이 제1 문턱값보다 더 큰지 여부를 결정하는 단계(S1031); 및
    만일 그렇지 않다면, 상기 프레임 신호를 노이즈 신호로서 결정하는 단계(S1032)
    를 포함하는 것인, 음성 신호 세그먼트 내의 노이즈 신호를 결정하기 위한 방법.
  3. 제2항에 있어서, 상기 파워 값의 분산을 결정하는 단계는:
    다양한 주파수에서 상기 프레임 신호의 파워 값을 제1 주파수 구간(frequency interval)에 대응하는 제1 파워 값 세트로 분류하는 단계; 및
    상기 제1 파워 값 세트 내에 포함된 파워 값의 제1 분산을 결정하는 단계(S1022)
    를 포함하고,
    상기 분산이 제1 문턱값보다 더 큰지 여부를 결정하는 단계는:
    상기 제1 분산이 상기 제1 문턱값보다 더 큰지 여부를 결정하는 단계
    를 포함하는 것인, 음성 신호 세그먼트 내의 노이즈 신호를 결정하기 위한 방법.
  4. 제1항에 있어서, 상기 파워 값의 분산을 결정하는 단계는:
    다양한 주파수에서 각 프레임 신호의 파워 값을 제1 주파수 구간에 대응하는 제1 파워 값 세트 또는 제2 주파수 구간에 대응하는 제2 파워 값 세트로 적어도 분류하는 단계(S1021) ― 상기 제1 주파수 구간의 최고 주파수는 상기 제2 주파수 구간의 최저 주파수보다 더 낮음 ― ;
    상기 제1 파워 값 세트 내에 포함된 파워 값의 제1 분산을 결정하는 단계(S1022); 및
    상기 제2 파워 값 세트 내에 포함된 파워 값의 제2 분산을 결정하는 단계(S1023)
    를 포함하고;
    그 후, 상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계는:
    각 프레임 신호에 대응하는 상기 제1 분산과 상기 제2 분산 사이의 차이가 제2 문턱값보다 더 큰지 여부를 결정하는 단계; 및
    만일 그렇지 않다면, 상기 프레임 신호를 노이즈 신호로서 결정하는 단계
    를 포함하는 것인, 음성 신호 세그먼트 내의 노이즈 신호를 결정하기 위한 방법.
  5. 제1항에 있어서, 상기 프레임 신호의 파워 스펙트럼에 기초하여 다양한 주파수에서 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값의 분산을 결정하는 단계 후에, 그리고 상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계 전에, 상기 방법은,
    상기 분산의 크기에 따라 상기 음성 신호 세그먼트 내의 프레임 신호를 순위 매김(rank)하는 단계
    를 더 포함하고,
    그 후, 상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계는, 다양한 주파수에서 각 순위 매김된 프레임 신호의 파워 값의 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계를 포함하는 것인, 음성 신호 세그먼트 내의 노이즈 신호를 결정하기 위한 방법.
  6. 음성 신호 세그먼트 내의 노이즈 신호를 결정하기 위한 장치(100)에 있어서, 제1항 내지 제5항 중 어느 한 항의 방법을 수행하도록 구성된 다수의 유닛(101, 102, 103)을 포함하는, 음성 신호 세그먼트 내의 노이즈 신호를 결정하기 위한 장치(100).
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
KR1020187013177A 2015-10-13 2016-10-08 노이즈 신호 결정 방법과 장치, 및 음성 노이즈 제거 방법과 장치 KR102208855B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510670697.8A CN106571146B (zh) 2015-10-13 2015-10-13 噪音信号确定方法、语音去噪方法及装置
CN201510670697.8 2015-10-13
PCT/CN2016/101444 WO2017063516A1 (zh) 2015-10-13 2016-10-08 噪音信号确定方法、语音去噪方法及装置

Publications (2)

Publication Number Publication Date
KR20180067608A KR20180067608A (ko) 2018-06-20
KR102208855B1 true KR102208855B1 (ko) 2021-01-29

Family

ID=58508605

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187013177A KR102208855B1 (ko) 2015-10-13 2016-10-08 노이즈 신호 결정 방법과 장치, 및 음성 노이즈 제거 방법과 장치

Country Status (9)

Country Link
US (1) US10796713B2 (ko)
EP (1) EP3364413B1 (ko)
JP (1) JP6784758B2 (ko)
KR (1) KR102208855B1 (ko)
CN (1) CN106571146B (ko)
ES (1) ES2807529T3 (ko)
PL (1) PL3364413T3 (ko)
SG (2) SG10202005490WA (ko)
WO (1) WO2017063516A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10504538B2 (en) * 2017-06-01 2019-12-10 Sorenson Ip Holdings, Llc Noise reduction by application of two thresholds in each frequency band in audio signals
KR102096533B1 (ko) * 2018-09-03 2020-04-02 국방과학연구소 음성 구간을 검출하는 방법 및 장치
CN110689901B (zh) * 2019-09-09 2022-06-28 苏州臻迪智能科技有限公司 语音降噪的方法、装置、电子设备及可读存储介质
JP7331588B2 (ja) * 2019-09-26 2023-08-23 ヤマハ株式会社 情報処理方法、推定モデル構築方法、情報処理装置、推定モデル構築装置およびプログラム
KR20220018271A (ko) 2020-08-06 2022-02-15 라인플러스 주식회사 딥러닝을 이용한 시간 및 주파수 분석 기반의 노이즈 제거 방법 및 장치
JP2023552364A (ja) * 2020-12-31 2023-12-15 深▲セン▼市韶音科技有限公司 オーディオ生成の方法およびシステム
CN112967738A (zh) * 2021-02-01 2021-06-15 腾讯音乐娱乐科技(深圳)有限公司 人声检测方法、装置及电子设备和计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101968957A (zh) 2010-10-28 2011-02-09 哈尔滨工程大学 一种噪声条件下的语音检测方法
EP2546831A1 (en) 2010-03-09 2013-01-16 Mitsubishi Electric Corporation Noise suppression device

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2966452B2 (ja) * 1989-12-11 1999-10-25 三洋電機株式会社 音声認識装置の雑音除去システム
JPH0836400A (ja) * 1994-07-25 1996-02-06 Kokusai Electric Co Ltd 音声状態判定回路
US6529868B1 (en) * 2000-03-28 2003-03-04 Tellabs Operations, Inc. Communication system noise cancellation power signal calculation techniques
US7299173B2 (en) * 2002-01-30 2007-11-20 Motorola Inc. Method and apparatus for speech detection using time-frequency variance
CN101197130B (zh) 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
CN101627428A (zh) 2007-03-06 2010-01-13 日本电气株式会社 抑制杂音的方法、装置以及程序
DE602007004217D1 (de) * 2007-08-31 2010-02-25 Harman Becker Automotive Sys Schnelle Schätzung der Spektraldichte der Rauschleistung zur Sprachsignalverbesserung
JP2009216733A (ja) * 2008-03-06 2009-09-24 Nippon Telegr & Teleph Corp <Ntt> フィルタ推定装置、信号強調装置、フィルタ推定方法、信号強調方法、プログラム、記録媒体
JP4327886B1 (ja) 2008-05-30 2009-09-09 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
CN101853661B (zh) * 2010-05-14 2012-05-30 中国科学院声学研究所 基于非监督学习的噪声谱估计与语音活动度检测方法
CN102314883B (zh) * 2010-06-30 2013-08-21 比亚迪股份有限公司 一种判断音乐噪声的方法以及语音消噪方法
JP4937393B2 (ja) 2010-09-17 2012-05-23 株式会社東芝 音質補正装置及び音声補正方法
CN102800322B (zh) * 2011-05-27 2014-03-26 中国科学院声学研究所 一种噪声功率谱估计与语音活动性检测方法
CN103903629B (zh) * 2012-12-28 2017-02-15 联芯科技有限公司 基于隐马尔科夫链模型的噪声估计方法和装置
CN103489446B (zh) * 2013-10-10 2016-01-06 福州大学 复杂环境下基于自适应能量检测的鸟鸣识别方法
CN103632677B (zh) * 2013-11-27 2016-09-28 腾讯科技(成都)有限公司 带噪语音信号处理方法、装置及服务器

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2546831A1 (en) 2010-03-09 2013-01-16 Mitsubishi Electric Corporation Noise suppression device
CN101968957A (zh) 2010-10-28 2011-02-09 哈尔滨工程大学 一种噪声条件下的语音检测方法

Also Published As

Publication number Publication date
ES2807529T3 (es) 2021-02-23
CN106571146A (zh) 2017-04-19
EP3364413B1 (en) 2020-06-10
US20180293997A1 (en) 2018-10-11
CN106571146B (zh) 2019-10-15
SG11201803004YA (en) 2018-05-30
EP3364413A1 (en) 2018-08-22
PL3364413T3 (pl) 2020-10-19
KR20180067608A (ko) 2018-06-20
JP6784758B2 (ja) 2020-11-11
US10796713B2 (en) 2020-10-06
SG10202005490WA (en) 2020-07-29
JP2018534618A (ja) 2018-11-22
EP3364413A4 (en) 2019-06-26
WO2017063516A1 (zh) 2017-04-20

Similar Documents

Publication Publication Date Title
KR102208855B1 (ko) 노이즈 신호 결정 방법과 장치, 및 음성 노이즈 제거 방법과 장치
JP6793706B2 (ja) 音声信号を検出するための方法および装置
EP2828856B1 (en) Audio classification using harmonicity estimation
US9997168B2 (en) Method and apparatus for signal extraction of audio signal
JP2018534618A5 (ko)
US8891786B1 (en) Selective notch filtering for howling suppression
Makowski et al. A procedure for weighted summation of the derivatives of reflection coefficients in adaptive Schur filter with application to fault detection in rolling element bearings
CN110706693B (zh) 语音端点的确定方法及装置、存储介质、电子装置
CN109241823B (zh) 一种基于变分模态分解和支持向量回归的信号预测方法
US10283129B1 (en) Audio matching using time-frequency onsets
CN112116927A (zh) 实时检测音频信号中的语音活动
US9213703B1 (en) Pitch shift and time stretch resistant audio matching
Patti et al. Methods for classification of nocturnal migratory bird vocalizations using Pseudo Wigner-Ville Transform
US9978393B1 (en) System and method for automatically removing noise defects from sound recordings
US20150317997A1 (en) System and method for low-loss removal of stationary and non-stationary short-time interferences
US9129015B1 (en) Min/max filter for audio matching
Gao et al. A Method Using EEMD and L-Kurtosis to detect faults in roller bearings
Alimuradov Research of frequency-selective properties of empirical mode decomposition methods for speech signals' pitch frequency estimation
GB2580821A (en) Analysing speech signals
US9269370B2 (en) Adaptive speech filter for attenuation of ambient noise
TWI585757B (zh) 口吃偵測方法與裝置、電腦程式產品
Miao et al. Mixing vector construction for single channel semi-blind source separation using Empirical Mode Decomposition
JP2016045456A5 (ko)
Castellanos et al. Multitaper Smoothed Minimum Statistics Noise Power Estimation

Legal Events

Date Code Title Description
A302 Request for accelerated examination
E902 Notification of reason for refusal
N231 Notification of change of applicant
E701 Decision to grant or registration of patent right