KR20180067608A - 노이즈 신호 결정 방법과 장치, 및 음성 노이즈 제거 방법과 장치 - Google Patents

노이즈 신호 결정 방법과 장치, 및 음성 노이즈 제거 방법과 장치 Download PDF

Info

Publication number
KR20180067608A
KR20180067608A KR1020187013177A KR20187013177A KR20180067608A KR 20180067608 A KR20180067608 A KR 20180067608A KR 1020187013177 A KR1020187013177 A KR 1020187013177A KR 20187013177 A KR20187013177 A KR 20187013177A KR 20180067608 A KR20180067608 A KR 20180067608A
Authority
KR
South Korea
Prior art keywords
signal
speech
noise
variance
frame
Prior art date
Application number
KR1020187013177A
Other languages
English (en)
Other versions
KR102208855B1 (ko
Inventor
지준 두
Original Assignee
알리바바 그룹 홀딩 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 알리바바 그룹 홀딩 리미티드 filed Critical 알리바바 그룹 홀딩 리미티드
Publication of KR20180067608A publication Critical patent/KR20180067608A/ko
Application granted granted Critical
Publication of KR102208855B1 publication Critical patent/KR102208855B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Noise Elimination (AREA)

Abstract

본 출원의 실시 예는 노이즈 신호 결정 방법과 장치, 및 음성 노이즈 제거 방법과 장치를 개시한다. 상기 노이즈 신호 결정 방법은 분석 대상 음성 신호 세그먼트의 각 프레임 신호에 푸리에 변환을 수행하여 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 스펙트럼을 획득하는 단계; 상기 프레임 신호의 파워 스펙트럼에 기초하여 다양한 주파수에서 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값의 분산을 결정하는 단계; 및 상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계를 포함한다. 본 출원의 실시 예는 분석 대상 음성 신호 세그먼트 내에 포함된 여러 노이즈 프레임을 정확하게 얻을 수 있어 음성 노이즈 제거 효과가 향상된다.

Description

노이즈 신호 결정 방법과 장치, 및 음성 노이즈 제거 방법과 장치
본 출원은 2015년 10월 13일에 출원되고 "노이즈 신호 결정 방법과 장치 및 음성 제거 방법과 장치"라는 명칭의 중국 특허 출원 번호 제201510670697.8호에 대한 우선권을 주장하며, 이는 전체가 본 명세서에 참고로 포함된다.
본 발명은 음성 노이즈 제거 기술 분야에 관한 것으로, 특히 노이즈 신호 결정 방법과 장치, 및 음성 노이즈 제거 방법과 장치에 관한 것이다.
음성 노이즈 제거 기술은 음성 신호로부터 환경 노이즈를 제거함으로써 음성 품질을 향상시킬 수 있다. 음성 신호에서의 노이즈 신호의 파워 스펙트럼은 먼저 음성 노이즈 제거 과정에서 결정될 필요가 있으며, 그 후 노이즈 신호의 결정된 파워 스펙트럼에 따라 음성 신호에서 노이즈가 제거될 수 있다.
종래 기술에서, 음성 신호 내의 노이즈 신호의 파워 스펙트럼은 일반적으로 다음과 같은 방식으로 결정될 수 있다: 음성 신호 내의 노이즈 신호의 파워 스펙트럼을 얻기 위해 처음 N개의 프레임 신호가 노이즈 신호라는 가정 하에 음성 신호 세그먼트 내의 처음 N개의 프레임 신호를 분석한다(즉, 인간의 음성 신호는 포함하지 않는다).
실제 응용 시나리오에서, 종래 기술에서 노이즈 신호로 가정되는 음성 신호 내의 처음 N개의 프레임 신호는 보통 실제 노이즈 신호와 일치하지 않으며, 따라서 얻어진 노이즈 신호 파워 스펙트럼의 정확도가 영향을 받는다.
본 출원의 실시 예들의 목적은 노이즈 신호로 가정된 처음 N개의 프레임 신호가 실제 노이즈 신호와 일치하지 않기 때문에, 얻어진 노이즈 신호 파워 스펙트럼의 정확도가 영향을 받는다는 종래 기술의 문제점을 해결하기 위하여, 노이즈 신호 결정 방법과 장치, 및 음성 노이즈 제거 방법과 장치를 제공하는 것이다.
상기 기술적 문제점을 해결하기 위해, 본 출원의 실시 예들에 제공된 노이즈 신호 결정 방법과 장치, 및 음성 노이즈 제거 방법과 장치는 다음과 같이 구현된다:
노이즈 신호 결정 방법에 있어서,
분석 대상(to-be-analyzed) 음성 신호 세그먼트 내의 각 프레임 신호에 푸리에 변환을 수행하여 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 스펙트럼을 획득하는 단계;
상기 프레임 신호의 파워 스펙트럼에 기초하여 다양한 주파수에서 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값들의 분산을 결정하는 단계; 및
상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계를 포함하는 노이즈 신호 결정 방법.
음성 노이즈 제거 방법에 있어서,
처리 대상 음성 내에 포함된 분석 대상 음성 신호 세그먼트를 결정하는 단계;
상기 분석 대상 음성 신호 세그먼트 내의 각 프레임 신호에 푸리에 변환을 수행하여 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 스펙트럼을 획득하는 단계;
상기 프레임 신호의 파워 스펙트럼에 기초하여 다양한 주파수에서 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값들의 분산을 결정하는 단계;
상기 음성 신호 세그먼트 내에 포함된 여러 노이즈 프레임을 얻기 위해 상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계; 및
상기 음성 신호 세그먼트 내에 포함된 여러 노이즈 프레임에 대응하는 평균 파워를 결정하고, 상기 노이즈 프레임의 평균 파워에 기초하여 상기 처리 대상 음성에서 노이즈를 제거하는 단계를 포함하는 것인 음성 노이즈 제거 방법.
노이즈 신호 결정 장치에 있어서,
분석 대상 음성 신호 세그먼트 내의 각 프레임 신호에 푸리에 변환을 수행하여 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 스펙트럼을 획득하도록 구성된 파워 스펙트럼 획득 유닛;
상기 프레임 신호의 파워 스펙트럼에 기초하여 다양한 주파수에서 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값들의 분산을 결정하도록 구성된 분산 결정 유닛; 및
상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하도록 구성된 노이즈 결정 유닛을 포함하는 것인 노이즈 신호 결정 장치.
음성 노이즈 제거 장치에 있어서,
처리 대상 음성 내에 포함된 분석 대상 음성 신호 세그먼트를 결정하도록 구성된 세그먼트 결정 유닛;
상기 분석 대상 음성 신호 세그먼트 내의 각 프레임 신호에 푸리에 변환을 수행하여 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 스펙트럼을 획득하도록 구성된 파워 스펙트럼 획득 유닛;
상기 프레임 신호의 파워 스펙트럼에 기초하여 다양한 주파수에서 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값들의 분산을 결정하도록 구성된 분산 결정 유닛;
상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하고, 상기 음성 신호 세그먼트 내에 포함된 여러 노이즈 프레임을 얻도록 구성된 노이즈 결정 유닛; 및
상기 음성 신호 세그먼트 내에 포함된 여러 노이즈 프레임에 대응하는 평균 파워를 결정하고, 상기 노이즈 프레임의 평균 파워에 기초하여 상기 처리 대상 음성에서 노이즈를 제거하도록 구성된 음성 노이즈 제거 유닛을 포함하는 것인 음성 노이즈 제거 장치.
본 출원의 실시 예들에서 제공된 전술한 기술적 솔루션으로부터 알 수 있는 바와 같이, 분석 대상 음성 신호 세그먼트에 대해 푸리에 변환을 수행하여 각 프레임 신호의 파워 스펙트럼을 획득하고, 다양한 주파수에서 상기 분석 대상 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값들의 분산을 결정하고, 최종적으로 상기 분산에 기초하여 상기 프레임 신호가 노이즈 신호인지 여부를 결정함으로써, 본 출원의 실시 예들에서 제공된 음성 노이즈 제거 방법 및 장치 뿐만 아니라 노이즈 신호 결정 방법 및 장치가 상기 분석 대상 음성 신호 세그먼트 내에 포함된 여러 노이즈 프레임을 정확히 얻을 수 있다. 음성 노이즈 제거 프로세스에서 결정된 노이즈 프레임의 평균 파워에 기초하여 처리 대상 음성에서 노이즈가 제거될 수 있고, 따라서 음성 노이즈 제거 효과가 향상된다.
본 출원 또는 종래 기술의 실시 예들의 기술적 솔루션을 보다 명확하게 설명하기 위해, 다음은 실시 예들 또는 종래 기술을 설명하기 위해 사용된 첨부 도면을 간단히 소개한다. 명백하게, 아래에서 설명되는 첨부된 도면은 본 출원에 언급된 단지 일부 실시 예에 불과하며, 당업자는 창조적인 노력 없이도 이들 도면으로부터 다른 도면을 여전히 유도할 수 있다.
도 1은 본 출원의 실시 예에 따른 노이즈 신호 결정 방법의 흐름도이다.
도 2는 본 출원의 실시 예에 따라 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계들의 흐름도이다.
도 3은 본 출원의 실시 예에 따라 다양한 샘플링 포인트에서 프레임 신호의 파워 값들의 분산을 결정하는 단계들의 흐름도이다.
도 4는 본 출원의 실시 예에 따른 파워 값들의 분산의 곡선 그래프이다.
도 5는 본 출원의 실시 예에 따른 음성 노이즈 제거 방법의 흐름도이다.
도 6은 본 출원의 실시 예에 따른 노이즈 신호 결정 장치의 블록도이다.
도 7은 본 출원의 실시 예에 따른 음성 노이즈 제거 장치의 블록도이다.
도 8은 본 출원에 제공된 장치의 하드웨어 구현 예의 개략적인 구조도이다.
당업자가 본 출원의 기술 솔루션을 더 잘 이해하게 하기 위해, 본 출원의 실시 예의 기술적 솔루션은 본 출원의 실시 예에서 첨부된 도면을 참조하여 아래에서 명확하고 완전하게 설명될 것이다. 기술된 실시 예들은 단지 본 출원의 실시 예 전부가 아닌 일부의 것임이 명백하다. 본 출원의 실시 예에 기초하여, 당업자는 창조적 노력 없이 다른 실시 예를 얻을 수 있으며, 이들은 모두 본 출원의 보호 범위 내에 있다.
도 1은 본 출원의 실시 예에 따른 노이즈 신호 결정 방법의 흐름도이다. 분석 대상 음성 신호 세그먼트 내의 노이즈 신호를 결정하기 위해서, 본 실시 예의 노이즈 신호 결정 방법은 다음 단계들을 포함한다:
S101: 분석 대상 음성 신호 세그먼트 내의 각 프레임 신호에 대하여 푸리에 변환을 수행하여, 음성 신호 세그먼트 내의 각 프레임 신호의 파워 스펙트럼을 획득한다.
분석 대상 음성 신호 세그먼트는 특정 규칙에 따라 처리 대상 음성으로부터 캡처될 수 있다. 분석 대상 음성 신호 세그먼트는 예비 결정에 기초하여 많은 노이즈 프레임을 포함할 수 있는 "의심되는 노이즈 프레임 세그먼트"일 수 있다. 바람직하게는, 단계 S101 전에, 상기 방법은,
상기 처리 대상 음성의 시간-영역 신호의 진폭 변화에 기초하여, 상기 처리 대상 음성에서 미리 설정된 임계치보다 작은 진폭 변화를 갖는 음성 신호 세그먼트를 상기 분석 대상 음성 신호 세그먼트로서 결정하는 단계; 또는
상기 처리 대상 음성에서 처음 N개의 프레임 음성 신호를 상기 분석 대상 음성 신호 세그먼트로서 캡처하는 단계를 더 포함한다.
본 출원의 실시 예에서, 음성 신호의 시간 영역에서, 노이즈 신호는 일반적으로 진폭 변화가 작은 음성 신호 세그먼트 또는 일정한 진폭을 갖는 음성 신호 세그먼트인 반면, 인간 스피치 음성을 포함하는 음성 신호 세그먼트는 일반적으로 진폭 변화에 있어 크게 변동한다. 이러한 규칙에 기초하여, 처리 대상 음성(즉, 노이즈 제거 대상(to-be-denoised) 음성) 내에 포함된 "의심되는 노이즈 프레임 세그먼트"를 인식하기 위해 사용되는 미리 설정된 임계치가 미리 설정될 수 있다. 따라서, 처리 대상 음성 내의 미리 설정된 임계치보다 작은 진폭 변화를 갖는 음성 신호 세그먼트는 분석 대상 음성 신호 세그먼트로서 결정될 수 있다.
본 출원의 실시 예에서, 프레이밍(framing)은 음성 신호에 대해 먼저 수행될 수 있다. 프레임 신호는 단일 프레임 음성 신호를 지칭하며, 하나의 음성 신호 세그먼트는 여러 프레임 신호를 포함할 수 있다. 하나의 프레임 신호는 몇몇 샘플링 포인트, 예를 들어 1024 샘플링 포인트를 포함할 수 있다. 인접한 두 개의 프레임 신호는 서로 중첩될 수 있다(예를 들어, 중첩 비율은 50%일 수 있다). 본 실시 예에서는 시간 영역에서 음성 신호에 대해 단시간 푸리에 변환(short-time Fourier transform, STFT)을 수행하여 음성 신호의 파워 스펙트럼(주파수 영역)을 획득할 수 있다. 파워 스펙트럼은 상이한 주파수, 예를 들어 1024개의 파워 값에 대응하는 다수의 파워 값을 포함할 수 있다.
본 출원의 실시 예에서, 일반적으로, 사람이 말하기 전의 시간(예를 들어, 1.5초)의 음성 신호는, 인간 음성을 포함하는 음성 신호 세그먼트 내의 노이즈 신호(환경 노이즈)이다. 따라서, 본 출원의 실시 예에서는 분석 대상 음성 신호가 음성 신호 세그먼트 내의 처음 N개의 프레임 신호라고 결정될 수 있다. 예를 들어 분석 대상 음성 신호는 처음 1.5초 내의 음성 신호: {f1', f2', ..., fn'}이며, f1', f2', ..., fn'은 각각 음성 신호 내에 포함되는 프레임 신호를 나타낸다. 본 출원의 실시 예는 분석 대상 음성 신호에서 프레임 신호로부터 노이즈 신호를 결정하는 것을 목표로 한다.
STFT 이후에 얻어진 분석 대상 음성 신호: {f1', f2', ..., fn'}의 파워 스펙트럼에 기초하여 각 프레임 신호에 대응하는 다수의 파워 값이 계산될 수 있다. 주파수에서의 프레임 신호의 파워 스펙트럼이 a + bi이고, 실수부 a는 진폭을 나타낼 수 있고, 허수부 b는 위상을 나타낼 수 있다고 가정한다. 그러면 주파수에서 프레임 신호의 파워 값은 a2 + b2일 수 있다. 상기 처리에 기초하여 상이한 주파수에서 각 프레임 신호의 파워 값을 얻을 수 있다. 예를 들어, 프레임 신호 {f1', f2', ..., fn'} 각각이 1024개의 샘플링 포인트를 포함하면, 파워 스펙트럼에 기초하여 상이한 주파수에서 각 프레임 신호의 1024개의 파워 값을 얻을 수 있다. 예를 들어, 프레임 신호 f1'에 대응하는 파워 값들은 {p1 1, p1 2, ..., p1 1024}이고, 프레임 신호 f2'에 대응하는 파워 값들은 {p2 1, p2 2, ..., p2 1024}이고, 프레임 신호 fn'에 대응하는 파워 값들은 {pn 1, pn 2, ..., pn 1024}이다.
S102: 다양한 주파수에서 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값들의 분산은 프레임 신호의 파워 스펙트럼에 기초하여 결정된다.
다양한 주파수에서 프레임 신호 {f1', f2', ..., fn'}의 파워 값에 기초하여, 프레임 신호 {f1', f2', ..., fn'}의 파워 값의 분산 {Var(f1'), Var(f2'), ..., Var(fn')}은 분산 계산 공식에 따라 계산될 수 있다. 예를 들어, 각 프레임 신호가 1024개의 샘플링 포인트를 포함하면, Var(f1')은 {p1 1, p1 2, ..., p1 1024}의 분산이고, Var(f2')는 {p2 1, p2 2, ..., p2 1024}의 분산이고, Var(fn')는 {pn 1, pn 2, ..., pn 1024}의 분산이다.
S103: 상기 분산에 기초하여 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정한다.
본 출원의 실시 예에서, 스피치 세그먼트를 포함하는 프레임 신호의 에너지(즉, 파워 값)는 일반적으로 대역에 따라 크게 변화하는 반면, 스피치 세그먼트가 없는 프레임 신호(즉, 노이즈 신호)의 에너지는 대역에 따라 약간 변화하고, 균등하게 분포된다. 따라서, 프레임 신호의 파워 값들의 분산에 기초하여 각 프레임 신호가 노이즈 신호인지의 여부를 결정할 수 있다.
도 2는 본 출원의 실시 예에 따라 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계들의 흐름도를 도시한다. 본 출원의 실시 예에서, 상기 단계 S103는 다음 단계들을 포함할 수 있다:
S1031: 프레임 신호의 파워 값들의 분산이 제1 임계치 T1보다 큰지 여부를 결정한다.
S1032: "아니오"인 경우, 프레임 신호는 노이즈 신호로서 결정된다.
만일 프레임 신호의 파워 값들의 분산이 제1 임계치 T1을 초과하면, 대역을 갖는 프레임 신호의 에너지의 변화 진폭(즉, 파워 값)이 제1 임계치 T1을 초과한다고 표시된다. 따라서, 프레임 신호는 노이즈 신호가 아니라고 결정될 수 있다. 반대로, 프레임 신호의 파워 값들의 분산이 제1 임계치 T1을 초과하지 않으면, 대역을 갖는 프레임 신호의 에너지의 변화 진폭(즉, 파워 값)이 제1 임계치 T1을 초과하지 않는다고 표시된다. 따라서, 프레임 신호는 노이즈 신호라고 결정될 수 있다.
위의 과정을 바탕으로, 노이즈 프레임 신호 {f1', f2', ..., fm'}와 비-노이즈 프레임 신호 {fm+1', fm+2', ..., fn'}는 분석 대상 음성 신호 {f1', f2', ..., fn'}에서 순차적으로 결정될 수 있다. 따라서, 음성 신호 세그먼트 내에 포함된 노이즈 신호가 결정될 수 있고, 이들 노이즈 신호 {f1', f2', ..., fm'}에 따라 음성 노이즈 제거가 수행될 수 있다.
도 3을 참조하면, 본 출원의 실시 예에서, 상기 단계 S102는 구체적으로 다음의 단계들을 포함할 수 있다:
S1021: 다양한 주파수에서 프레임 신호 {f1', f2', ..., fn'} 각각의 파워 값은 프레임 신호의 파워 스펙트럼에 대응하는 주파수가 속하는 주파수 간격에 따라, 제1 주파수 간격에 대응하는 제1 파워 값 세트와 제2 주파수 간격에 대응하는 제2 파워 값 세트로 적어도 분류되고, 제1 주파수 간격은 제2 주파수 간격보다 더 낮다.
특정 실시 예에서, 각 프레임 신호의 분산은 통계를 통해 주파수 도메인에서 획득될 수 있다. 비-노이즈 신호는 일반적으로 저 중음(low-mid) 주파수 대역에 집중되는 반면, 노이즈 신호는 일반적으로 모든 주파수 대역에서 균일하게 분포된다. 따라서, 적어도 두 개의 상이한 주파수 대역(즉, 상기 주파수 간격)의 통계치를 통해 다양한 주파수에서 각 프레임 신호의 파워 값들의 분산을 얻을 수 있다.
예를 들어, 제1 주파수 간격은 0 ~ 2000Hz(저주파수 대역)일 수 있고, 제2 주파수 간격은 2000 ~ 4000Hz(고주파수 대역)일 수 있다. 각 프레임 신호가 1024 개의 샘플링 포인트를 포함하는 경우, 각 프레임 신호에 대응하는 1024개의 파워 값은 파워 값에 대응하는 주파수 간격에 따라 0 ~ 2000Hz에 대응하는 제1 파워 값 세트 A와 2000 ~ 4000Hz에 대응하는 제2 파워 값 세트 B로 분류된다. 프레임 신호 f1'을 예로 들면, 1024개의 대응하는 파워 값은 {p1 1, p1 2, ..., p1 1024}이다. 주파수 간격에 따라, 제1 파워 값 세트 A에 포함되는 파워 값은 예를 들어 {p1 1, p1 2, ..., p1 126}이고, 제1 파워 값 세트 A에 포함된 파워 값은 예를 들어 {p1 127, p1 128, ..., p1 1024}이고, 나머지는 유추로 추론할 수 있다.
본 출원의 다른 실시 예에서는 신호 파워 값의 분산이 2개가 넘는 주파수 대역에서의 통계를 통해 획득될 수 있다는 것을 알아야 한다.
S1022: 제1 파워 값 세트 내에 포함된 파워 값들의 제1 분산이 결정된다.
전술한 바와 같이, 프레임 신호 f1'을 예로 들면, 제1 파워 값 세트 A 내에 포함되는 파워 값은, 예를 들면 {p1 127, p1 128, ..., p1 1024}이다. 따라서, 파워 값 p1 127 ~ p1 1024의 제1 분산 Varhigh(f1')는 분산 공식에 따라 계산될 수 있다.
S1021: 제2 파워 값 세트 내에 포함된 파워 값들의 제2 분산이 결정된다.
전술한 바와 같이, 프레임 신호 f1'을 예로 들면, 제2 파워 값 세트 B 내에 포함되는 파워 값은 예를 들면 {p1 1, p1 2, ..., p1 126}이다. 따라서, 파워 값 p1 1 ~ p1 126의 제2 분산 Varlow(f1')는 분산 공식에 따라 계산될 수 있다.
도 4는 본 출원의 실시 예에 따른 분산의 개략적인 곡선 그래프를 도시한다. 그래프에서, 가로축은 프레임 신호의 프레임 번호를 나타내고, 세로축은 분산의 크기를 나타낸다. 제1 분산 곡선은 각 프레임 신호의 제1 분산의 경향을 나타내고, 제1 분산 곡선은 각 프레임 신호의 제2 분산의 경향을 나타낸다. 그래프에서 볼 수 있듯이 2000 ~ 4000Hz의 고주파수 대역에서 분산이 약간 변동하며, 0 ~ 2000Hz의 저주파수 대역에서 분산이 크게 변동한다. 이것은 비-노이즈 신호가 주로 저주파수 대역에 집중되어 있음을 증명할 수 있다.
전술한 바와 같이, 본 출원의 선호되는 실시 예에서, 단계 S1031은 구체적으로:
상기 프레임 신호의 파워 값들의 제1 분산이 제1 임계치 T1보다 큰지 여부를 결정하는 단계; 만약 예라면, 프레임 신호를 노이즈 신호로서 결정하는 단계를 포함한다. 프레임 신호 f1'을 예로 들면, 제1 분산 Varhigh(f1')가 제1 임계치 T1보다 큰지 여부가 결정된다.
본 출원의 실시 예에서, 상기 단계 S103은 구체적으로:
상기 제1 분산과 상기 제2 분산 사이의 차이가 제2 임계치 T2보다 큰지 여부를 결정하는 단계; 및
아니오이면, 프레임 신호를 노이즈 신호로서 결정하는 단계를 포함한다.
프레임 신호 f1'을 예로 들면, 제1 분산과 제2 분산의 차이는 |Varhigh(f1') - Varlow(f1')|이다. 만일 |Varhigh(f1') - Varlow(f1')| < T2인 경우, 프레임 신호 f1'은 노이즈 신호로서 결정된다. 이 단계에 따라, 분석 대상 음성 프레임 신호 {f1', f2', ..., fn'}로부터 노이즈 신호가 순차적으로 결정될 수 있다.
본 출원의 실시 예에서, 단계 S102와 단계 S103 사이에서 상기 방법은:
상기 분산의 크기에 따라 상기 분석 대상 음성 신호 세그먼트의 프레임 신호를 순위 매김(rank)하는 단계를 더 포함할 수 있다.
그 후, 상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계는:
다양한 주파수에서 각각의 순위가 매겨진 프레임 신호의 파워 값들의 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계를 포함한다.
전술한 바와 같이, 프레임 신호 {f1', f2', ..., fn'}의 파워 값들의 분산 {Var(f1'), Var(f2'), ..., Var(fn')}이 이 실시 예에서 결정될 수 있다. 프레임 신호는 파워 값의 분산의 오름차순으로 순위를 매길 수 있다. 더 작은 분산을 가진 신호는 노이즈 신호일 가능성이 크다. 따라서, 분석 대상 음성 신호 내의 노이즈 프레임 신호를 맨 앞쪽까지 순위 매김할 수 있다. 본 출원의 실시 예에서, 저주파수 대역(예를 들어, 0 ~ 2000Hz) 및 고주파수 대역(예를 들어, 2000 ~ 4000Hz)의 통계치를 통해 분산을 각각 획득하면, 다양한 주파수에서 프레임 신호 {f1', f2', ..., fn'} 각각의 파워 값들이 프레임 신호의 파워 스펙트럼에 대응하는 주파수가 속하는 주파수 간격에 따라 제1 주파수 간격(예컨대, 0 ~ 2000Hz)에 대응하는 제1 파워 값 세트 A와 제2 주파수 간격(예컨대, 2000 ~ 4000Hz)에 대응하는 제2 파워 값 세트 B로 분류될 수 있다. 그 다음, 프레임 신호 {f1', f2', ..., fn'} 에 대응하는 제1 파워 값 세트 내에 포함된 파워 값들의 제1 분산 {Varlow(f1'), Varlow(f2'), ..., Varlow(fn')}이 각각 결정될 수 있고, 프레임 신호 {f1', f2', ..., fn'} 에 대응하는 제2 파워 값 세트 내에 포함된 파워 값들의 제2 분산 {Varhigh(f1'), Varhigh(f2'), ..., Varhigh(fn')}이 각각 결정될 수 있다. 상기 단계 S104에서, 고주파수 및 저주파수에서의 분산 통계에 기초하여, 분석 대상 음성 신호 내에 포함된 노이즈 신호(분산의 크기에 따라 등급이 매겨진 음성 신호일 수 있음)는 다음과 같은 방식으로 결정될 수 있다:
Varlow(fi') > T1 (1);
|Varhigh(fi') - Varlow(fi')| > T2 (2);
Varhigh(f'i +1) - Varlow(f'i -1) > T3 (3);
Varhigh(f'i +1) - Varlow(f'i -1) > T4 (4);
i ∈(1, n)이다. 식 (1)에 기초하여 각 프레임 신호 fi'의 파워 값들의 제1 분산이 제1 임계치 T1보다 큰지 여부를 결정할 수 있다. 아니오이면, 프레임 신호 fi'는 노이즈 프레임 신호로서 결정된다. 결정된 노이즈 프레임 신호들의 세트는 노이즈 신호로서 결정된다.
식 (2)에 기초하여 각 프레임 신호 fi'의 파워 값들의 제2 분산이 제2 임계치 T2보다 큰지 여부를 결정할 수 있다. 아니오이면, 프레임 신호 fi'는 노이즈 프레임 신호로서 결정된다. 결정된 노이즈 프레임 신호들의 세트는 노이즈 신호로서 결정된다.
식 (3)에 기초하여 프레임 신호 fi' 전의 프레임 신호 f'i-1의 파워 값들의 제2 분산 Varhigh(f'i-1) 및 프레임 신호 fi' 다음의 프레임 신호 f'i+1의 파워 값들의 제2 분산 Varhigh(f'i+1)의 차이 Varhigh(f'i+1) - Varhigh(f'i-1)가 제3 임계치 T3보다 큰지 여부를 결정할 수 있다. 아니오이면, 프레임 신호 fi'는 노이즈 프레임 신호로서 결정된다. 결정된 노이즈 프레임 신호들의 세트는 노이즈 신호로서 결정된다.
식 (4)에 기초하여 프레임 신호 fi' 전의 프레임 신호 f'i-1의 파워 값들의 제1 분산 Varlow(f'i-1) 및 프레임 신호 fi' 다음의 프레임 신호 f'i+1의 파워 값들의 제1 분산 Varlow(f'i+1)의 차이 Varlow(f'i +1) - Varlow(f'i-1)가 제4 임계치 T4보다 큰지 여부를 결정할 수 있다. 아니오이면, 프레임 신호 fi'는 노이즈 프레임 신호로서 결정된다. 결정된 노이즈 프레임 신호들의 세트는 노이즈 신호로서 결정된다.
본 출원의 실시 예에서는, 상기 식 (1) ~ (4)를 이용하여, 분석 대상 음성 신호에 포함되는 노이즈 프레임을 인식할 수 있다. 즉, 상기 식 1 내지 4 중 어느 하나를 만족하는 임의의 프레임 신호 fi'는 비-노이즈 신호(노이즈 종료(noise end) 프레임)로서 결정될 수 있다. 다시 말해서, 상기 식 1 내지 4 중 아무 것도 만족하지 않는 임의의 프레임 신호 fi'는 노이즈 신호로서 결정될 수 있다. 상기 과정에 기초하여 노이즈 종료(noise end) 프레임 fm'을 결정할 수 있고, 그 후 노이즈 프레임은 {f1', f2', ..., f'm - 1}을 포함한다.
본 출원의 다른 실시 예에서, 노이즈 종료 프레임은 식(1) 및 (2), 또는 식 (2) 및 (3)과 같이, 식 (1) 내지 (4)의 일부에 기초하여 결정될 수 있다. 또한, 본 출원의 실시 예에서 노이즈 종료 프레임을 결정하기 위한 공식은 상기 나열된 식에 제한되지 않는다. 임계치 T1, T2, T3 및 T4는 다량의 테스트 샘플에 대한 통계로부터 모두 얻어진다.
도 5는 본 출원의 실시 예에 따른 음성 노이즈 제거 방법의 흐름도로서, 다음 단계들을 포함한다:
S201: 처리 대상 음성 내에 포함되는 분석 대상 음성 신호 세그먼트를 결정한다.
S202: 분석 대상 음성 신호 세그먼트 내의 각 프레임 신호에 푸리에 변환을 수행하여 음성 신호 세그먼트 내의 각 프레임 신호의 파워 스펙트럼을 획득한다.
S203: 다양한 주파수에서 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값의 분산은 프레임 신호의 파워 스펙트럼에 기초하여 결정된다.
S204: 상기 분산에 기초하여 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하고, 음성 신호 세그먼트 내에 포함된 몇 개의 노이즈 프레임이 얻어진다.
S205: 음성 신호 세그먼트 내에 포함된 여러 노이즈 프레임에 대응하는 평균 파워를 결정하고, 노이즈 프레임의 평균 파워에 기초하여 처리 대상 음성에서 노이즈를 제거한다.
본 출원의 실시 예에서는, 상기 방법에 따라 분석 대상 음성 세그먼트 내에 포함된 노이즈 프레임 {f1', f2', ..., f'm - 1}을 획득한 후, 노이즈 프레임에 대응하는 원래 신호(순위 매김 전)의 프레임 번호를 각각 결정할 수 있고, 이들 프레임 신호의 평균 파워를 통계를 통해 구하여, 노이즈 신호의 파워 스펙트럼 추정 값 Pnoise를 얻을 수 있다. 노이즈 신호의 파워 스펙트럼 추정 값 Pnoise가 얻어진 후에 음성에서 노이즈를 제거할 수 있다. 상기 노이즈 제거 방법은 당업자에게 잘 알려져 있으므로 여기서 구체적으로 설명하지 않는다.
명확하게, 본 출원의 다른 실현 가능한 실시 예들에서, 분산들에 따라 프레임 신호들을 순위 매김하는 단계는 생략될 수 있고, 노이즈 프레임들은 원래 신호들의 분산에 기초하여 직접 결정될 수 있다. 또한, 본 출원에서 노이즈 신호의 다수의 프레임이 결정된 후, 파워 스펙트럼 추정값 Pnoise는 일반적으로 과대 추정(over-estimation)를 피하기 위해 프레임들 중 일부를 사용하여 계산된다. 예를 들어, 결정된 노이즈 신호가 50 프레임을 포함하면, 파워 스펙트럼 추정값 Pnoise를 계산하기 위해 처음 30 프레임이 캡처될 수 있다. 이와 같이, 파워 스펙트럼 추정값의 정확도를 향상시킬 수 있다.
본 출원의 실시 예는 상기 처리 구현에 대응하는 노이즈 신호 결정 장치를 더 제공한다. 상기 장치는 소프트웨어를 통해 구현될 수 있으며, 또한 하드웨어 또는 소프트웨어와 하드웨어의 조합을 통해 구현될 수도 있다. 소프트웨어 구현 방식을 예로 들자면, 서버의 중앙 처리 장치(Central Process Unit, CPU)를 통해 대응하는 컴퓨터 프로그램을 메모리로 판독하고 상기 컴퓨터 프로그램을 실행함으로써 로직 의미에서의 장치가 형성될 수 있다. 장치의 하드웨어 구조를 위해서는 도 8을 참조하라.
도 6은 본 출원의 실시 예에 따른 노이즈 신호 검출 장치의 블록도이다. 본 실시 예에서, 장치 내의 유닛들의 기능들은 상기 노이즈 신호 결정 방법의 단계들의 기능들에 대응할 수 있다. 자세한 내용은 위의 방법 실시 예를 참조하라. 노이즈 신호 결정 장치(100)는:
분석 대상 음성 신호 세그먼트 내의 각 프레임 신호에 푸리에 변환을 수행하여 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 스펙트럼을 획득하도록 구성된 파워 스펙트럼 획득 유닛(101);
상기 프레임 신호의 파워 스펙트럼에 기초하여 다양한 주파수에서 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값들의 분산을 결정하도록 구성된 분산 결정 유닛(102); 및
상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하도록 구성된 노이즈 결정 유닛(103) 포함한다.
바람직하게는, 상기 장치는, 세그먼트 획득 유닛을 더 포함하고, 상기 세그먼트 획득 유닛은:
처리 대상 음성의 시간-영역 신호의 진폭 변화에 기초하여, 상기 처리 대상 음성에서 미리 설정된 임계치보다 작은 진폭 변화를 갖는 음성 신호 세그먼트를 분석 대상 음성 신호 세그먼트로서 결정하거나;
처리 대상 음성에서 처음 N개의 프레임 음성 신호를 상기 분석 대상 음성 신호 세그먼트로서 캡처하도록 구성된다.
바람직하게는 상기 노이즈 결정 유닛(103)은,
상기 음성 신호 세그먼트 내의 각 프레임 신호에 대응하는 상기 분산이 제1 임계치보다 큰지 여부를 결정하고;
아니오이면, 상기 프레임 신호를 노이즈 신호로서 결정하도록 구성된다.
바람직하게는 상기 분산 결정 유닛(102)은,
상기 파워 스펙트럼에 대응하는 주파수가 속하는 주파수 간격에 따라, 다양한 주파수에서 상기 프레임 신호의 파워 값들을 제1 주파수 간격에 대응하는 제1 파워 값 세트로 적어도 분류하고;
상기 제1 파워 값 세트 내에 포함된 파워 값들의 제1 분산을 결정하도록 구성된다.
그 후, 상기 노이즈 결정 유닛(103)은,
상기 제1 분산이 상기 제1 임계치보다 큰지 여부를 결정하고;
아니오이면, 상기 프레임 신호를 노이즈 신호로서 결정하도록 구성된다.
바람직하게는 상기 분산 결정 유닛(102)은 구체적으로,
상기 프레임 신호의 파워 값들에 대응하는 주파수가 속하는 주파수 간격에 따라, 다양한 주파수에서 각 프레임 신호의 파워 값들을 제1 주파수 간격에 대응하는 제1 파워 값 세트 및 제2 주파수 간격에 대응하는 제2 파워 값 세트로 적어도 분류하고 - 상기 제1 주파수 간격은 상기 제2 주파수 간격보다 낮음 -;
상기 제1 파워 값 세트 내에 포함된 파워 값들의 제1 분산을 결정하며;
상기 제2 파워 값 세트 내에 포함된 파워 값들의 제2 분산을 결정하도록 구성된다.
그 후, 상기 노이즈 결정 유닛(103)은,
각 프레임 신호에 대응하는 상기 제1 분산 및 상기 제2 분산의 차이가 제2 임계치보다 큰지 여부를 결정하고;
아니오이면, 상기 프레임 신호를 노이즈 신호로서 결정하도록 구성된다.
본 출원의 실시 예는 또한 상기 처리 구현에 대응하는 음성 노이즈 제거 장치를 제공한다. 상기 장치는 소프트웨어를 통해 구현될 수 있으며, 하드웨어 또는 소프트웨어와 하드웨어의 조합을 통해 구현될 수도 있다. 소프트웨어 구현 방식을 예로 들자면, 서버의 중앙 처리 장치(CPU)를 통해 대응하는 컴퓨터 프로그램을 메모리로 판독하고 상기 컴퓨터 프로그램을 실행함으로써 로직 의미에서의 장치가 형성될 수 있다. 장치의 하드웨어 구조를 위해서는 도 8을 참조하라.
도 7은 본 출원의 실시 예에 따른 음성 노이즈 제거 장치의 블록도이다. 이 실시 예에서, 장치 내의 유닛들의 기능은 상기 음성 노이즈 제거 방법의 단계들의 기능들에 대응할 수 있다. 자세한 내용은 상기 방법 실시 예를 참조하라. 이 실시 예에서, 음성 노이즈 제거 장치(200)는:
처리 대상 음성 내에 포함된 분석 대상 음성 신호 세그먼트를 결정하도록 구성된 세그먼트 결정 유닛(201);
상기 분석 대상 음성 신호 세그먼트 내의 각 프레임 신호에 푸리에 변환을 수행하여 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 스펙트럼을 획득하도록 구성된 파워 스펙트럼 획득 유닛(202);
상기 프레임 신호의 파워 스펙트럼에 기초하여 다양한 주파수에서 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값들의 분산을 결정하도록 구성된 분산 결정 유닛(203);
상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하고, 상기 음성 신호 세그먼트 내에 포함된 여러 노이즈 프레임을 획득하도록 구성된 노이즈 결정 유닛(205); 및
상기 음성 신호 세그먼트 내에 포함된 여러 노이즈 프레임에 대응하는 평균 파워를 결정하고, 상기 노이즈 프레임의 평균 파워에 기초하여 상기 처리 대상 음성에서 노이즈를 제거하도록 구성된 음성 노이즈 제거 유닛(10)을 포함한다.
바람직하게는 상기 장치는: 상기 분산의 크기에 따라 상기 분석 대상 음성 신호 세그먼트 내의 프레임 신호를 순위 매김하도록 구성된 순위 매김(ranking) 유닛(204)을 더 포함한다.
그 후 노이즈 결정 유닛(205)은 구체적으로:
다양한 주파수에서 각각의 순위 매김된 프레임 신호의 파워 값들의 분산에 기초하여 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하도록 구성된다.
분석 대상 음성 신호 세그먼트에 푸리에 변환을 수행하여 각 프레임 신호의 파워 스펙트럼을 획득하고, 다양한 주파수에서 상기 분석 대상 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값들의 분산을 결정하고, 최종적으로 상기 분산에 기초하여 상기 프레임 신호가 노이즈 신호인지 여부를 결정함으로써, 본 출원의 실시 예들에 제공된 음성 노이즈 제거 방법 및 장치 뿐만 아니라 노이즈 신호 결정 방법 및 장치가 상기 분석 대상 음성 신호 세그먼트 내에 포함된 여러 노이즈 프레임을 정확히 결정할 수 있다. 음성 노이즈 제거 프로세스에서 결정된 여러 노이즈 프레임의 평균 파워에 기초하여 처리 대상 음성에서 노이즈가 제거될 수 있고, 따라서 음성 노이즈 제거 효과가 향상된다.
설명을 용이하게 하기 위해, 장치는 각각의 설명을 위한 기능적 관점에서 다양한 유닛으로 분할된다. 당연히, 본 출원이 구현될 때, 상기 유닛들의 기능들은 동일한 소프트웨어 및/또는 하드웨어 컴포넌트 또는 다수의 소프트웨어 및/또는 하드웨어 컴포넌트들로 구현될 수 있다.
당업자는 본 발명의 실시 예가 방법, 시스템 또는 컴퓨터 프로그램 제품으로서 제공될 수 있다는 것을 이해해야 한다. 따라서, 본 발명은 완전한 하드웨어 실시 예, 완전한 소프트웨어 실시 예 또는 소프트웨어와 하드웨어를 결합한 실시 예로서 구현될 수 있다. 또한, 본 발명은 컴퓨터 사용 가능한 프로그램 코드를 포함하는 (자기 디스크 메모리, CD-ROM, 광학 메모리 등을 포함하지만 이에 한정되지 않는) 하나 이상의 컴퓨터 사용 가능한 저장 매체 상에 구현된 컴퓨터 프로그램 제품의 형태일 수 있다.
본 발명은 본 발명의 실시 예에 따른 방법, 디바이스(시스템) 및 컴퓨터 프로그램 제품에 따른 흐름도 및/또는 블록도를 참조하여 설명된다. 흐름도 및/또는 블록도에서 각각의 프로세스 및/또는 블록 및 프로세스 및/또는 블록의 조합을 구현하기 위해 컴퓨터 프로그램 명령어가 사용될 수 있다는 것을 이해해야 한다. 컴퓨터 프로그램 명령어는 범용 컴퓨터, 특수 목적 컴퓨터, 내장형 프로세서 또는 다른 프로그램 가능 데이터 처리 디바이스에 제공되어 기계(machine)를 생성할 수 있어, 컴퓨터 또는 다른 프로그램 가능 데이터 처리 디바이스의 프로세서는 흐름도의 하나 이상의 프로세스 및/또는 블록도 내의 하나 이상의 블록에서 지정된 기능들을 구현하도록 구성된 장치를 생성하기 위한 명령어를 실행한다.
컴퓨터 프로그램 명령어들은 또한 컴퓨터 또는 다른 프로그램 가능한 데이터 처리 디바이스가 특정 방식으로 동작하도록 안내할 수 있는 컴퓨터 판독 가능 저장 장치에 저장될 수 있어서, 컴퓨터 판독 가능 저장 장치에 저장된 명령어는, 흐름도의 하나 이상의 프로세스 및/또는 블록도의 하나 이상의 블록에 의해 지정된 기능들을 구현하는 명령어 장치를 포함하는 제조물(manufacture)을 생성한다.
또한, 컴퓨터 프로그램 명령어들은 또한 컴퓨터 또는 다른 프로그램 가능한 데이터 처리 디바이스에 로딩되어 일련의 동작 단계가 컴퓨터 구현 프로세싱을 생성하기 위해 컴퓨터 또는 다른 프로그램 가능한 디바이스상에서 실행될 수 있다. 따라서, 컴퓨터 또는 다른 프로그램 가능한 디바이스에서 실행되는 명령어는 흐름도의 하나 이상의 프로세스 및/또는 블록도의 하나 이상의 블록에서 지정된 기능을 구현하기 위한 단계들을 제공한다.
"포함하다(include)" 또는 "포함하다(comprise)"라는 용어 또는 이들의 다른 변형은 비배타적인 것을 커버하도록 의도되며, 따라서, 일련의 구성 요소(element)를 포함하는 프로세스, 방법, 상품 또는 디바이스는 그 구성 요소들을 포함할 뿐만 아니라 명백히 나열되지 않은 다른 구성 요소들도 포함하거나, 프로세스, 방법, 상품 또는 디바이스의 내재된 구성 요소들을 더 포함한다는 것을 또한 주의하여야 한다. 더 이상 제한이 없는 경우, "..을 포함하는(including a/an ...)"에 의해 정의된 구성 요소는 그 구성 요소를 포함하는 프로세스, 방법, 상품 또는 디바이스가 다른 동일한 구성 요소를 더 포함한다는 것을 배제하지 않는다.
당업자는 본 출원의 실시 예가 방법, 시스템 또는 컴퓨터 프로그램 제품으로서 제공될 수 있다는 것을 이해해야 한다. 따라서, 본 출원은 완전한 하드웨어 실시 예, 완전한 소프트웨어 실시 예, 또는 소프트웨어와 하드웨어를 결합한 실시 예의 형태로 구현될 수 있다. 또한, 본 출원은 컴퓨터 사용 가능한 프로그램 코드를 포함하는 (자기 디스크 메모리, CD-ROM, 광학 메모리 등을 포함하지만 이에 한정되지 않는) 하나 이상의 컴퓨터 사용 가능한 저장 매체 상에 구현된 컴퓨터 프로그램 제품의 형태일 수 있다.
본 출원은 컴퓨터에 의해 실행되는 컴퓨터 실행 가능 명령어, 예를 들어 프로그램 모듈의 공통 콘텍스트로 기술될 수 있다. 일반적으로, 프로그램 모듈은 특정 태스크를 실행하거나 특정 추상 데이터 타입을 구현하는데 사용되는 루틴, 프로그램, 객체, 어셈블리, 데이터 구조 등을 포함한다. 본 출원은 또한 통신 네트워크를 통해 접속된 원격 프로세싱 디바이스를 사용하여 태스크가 실행되는 분산 컴퓨팅 환경에서도 구현될 수 있다. 분산 컴퓨터 환경에서, 프로그램 모듈은 저장 디바이스를 포함하는 로컬 및 원격 컴퓨터 저장 매체에 위치할 수 있다.
본 명세서의 실시 예들은 계속해서 설명되고, 실시 예의 동일 또는 유사한 부분들이 서로 관련하여 얻어질 수 있으며, 각각의 실시 예는 다른 실시 예와 상이한 부분을 강조한다. 특히, 시스템 실시 예는 기본적으로 방법 실시 예와 유사하므로 간단히 설명되어 있다. 관련 부분에 대해서는, 방법 실시 예의 부분의 설명을 참조하라.
상기 설명은 단지 본 출원의 실시 예에 불과하며, 본 출원을 제한하고자 하는 것은 아니다. 본 출원의 다양한 수정 및 변형이 당업자에게 가능하다. 본 출원의 정신 및 원리 내에서 이루어진 모든 수정, 균등한 대체, 개선 등은 모두 본 출원의 청구 범위 내에 속해야 한다.

Claims (18)

  1. 노이즈 신호 결정 방법에 있어서,
    분석 대상(to-be-analyzed) 음성 신호 세그먼트 내의 각 프레임 신호에 푸리에 변환을 수행하여 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 스펙트럼을 획득하는 단계;
    상기 프레임 신호의 파워 스펙트럼에 기초하여 다양한 주파수에서 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값들의 분산을 결정하는 단계; 및
    상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계
    를 포함하는, 노이즈 신호 결정 방법.
  2. 제1항에 있어서,
    상기 분석 대상 음성 신호 세그먼트 내의 각 프레임 신호에 푸리에 변환을 수행하여 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 스펙트럼을 획득하는 단계 이전에, 상기 방법은,
    처리 대상(to-be-processed) 음성의 시간-영역 신호의 진폭 변화에 기초하여, 상기 처리 대상 음성에서 미리 설정된 임계치보다 작은 진폭 변화를 갖는 음성 신호 세그먼트를 분석 대상 음성 신호 세그먼트로서 결정하는 단계; 또는
    처리 대상 음성에서 처음 N개의 프레임 음성 신호를 상기 분석 대상 음성 신호 세그먼트로서 캡처하는 단계
    를 더 포함하는, 노이즈 신호 결정 방법.
  3. 제1항에 있어서,
    상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계는:
    상기 음성 신호 세그먼트 내의 각 프레임 신호에 대응하는 상기 분산이 제1 임계치보다 큰지 여부를 결정하는 단계; 및
    아니오이면, 상기 프레임 신호를 노이즈 신호로서 결정하는 단계
    를 포함하는 것인, 노이즈 신호 결정 방법.
  4. 제3항에 있어서,
    상기 프레임 신호의 파워 스펙트럼에 기초하여 다양한 주파수에서 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값들의 분산을 결정하는 단계는:
    상기 파워 스펙트럼에 대응하는 주파수가 속하는 주파수 간격에 따라, 다양한 주파수에서 상기 프레임 신호의 파워 값들을 제1 주파수 간격에 대응하는 제1 파워 값 세트로 적어도 분류하는 단계; 및
    상기 제1 파워 값 세트 내에 포함된 파워 값들의 제1 분산을 결정하는 단계
    를 포함하고,
    그 후 상기 분산이 제1 임계치보다 큰지 여부를 결정하는 단계는:
    상기 제1 분산이 상기 제1 임계치보다 큰지 여부를 결정하는 단계
    를 포함하는 것인, 노이즈 신호 결정 방법.
  5. 제1항에 있어서,
    상기 프레임 신호의 파워 스펙트럼에 기초하여 다양한 주파수에서 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값들의 분산을 결정하는 단계는:
    상기 프레임 신호의 파워 값들에 대응하는 주파수가 속하는 주파수 간격에 따라, 다양한 주파수에서 각 프레임 신호의 파워 값들을 제1 주파수 간격에 대응하는 제1 파워 값 세트 및 제2 주파수 간격에 대응하는 제2 파워 값 세트로 적어도 분류하는 단계 ― 상기 제1 주파수 간격은 상기 제2 주파수 간격보다 낮음 ― ;
    상기 제1 파워 값 세트 내에 포함된 파워 값들의 제1 분산을 결정하는 단계; 및
    상기 제2 파워 값 세트 내에 포함된 파워 값들의 제2 분산을 결정하는 단계
    를 포함하고;
    그 후 상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계는:
    각 프레임 신호에 대응하는 상기 제1 분산 및 상기 제2 분산의 차이가 제2 임계치보다 큰지 여부를 결정하는 단계; 및
    아니오이면, 상기 프레임 신호를 노이즈 신호로서 결정하는 단계
    를 포함하는 것인, 노이즈 신호 결정 방법.
  6. 제1항에 있어서,
    상기 프레임 신호의 파워 스펙트럼에 기초하여 다양한 주파수에서 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값들의 분산을 결정하는 단계 후에, 그리고 상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계 전에, 상기 방법은,
    상기 분산의 크기에 따라 상기 분석 대상 음성 신호 세그먼트 내의 프레임 신호를 순위 매김(rank)하는 단계를 포함하고.
    그 후 상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계는:
    다양한 주파수에서 각각의 순위 매김된 프레임 신호의 파워 값들의 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계를 포함하는 것인, 노이즈 신호 결정 방법.
  7. 음성 노이즈 제거(voice denosing) 방법에 있어서,
    처리 대상 음성 내에 포함된 분석 대상 음성 신호 세그먼트를 결정하는 단계;
    상기 분석 대상 음성 신호 세그먼트 내의 각 프레임 신호에 푸리에 변환을 수행하여 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 스펙트럼을 획득하는 단계;
    상기 프레임 신호의 파워 스펙트럼에 기초하여 다양한 주파수에서 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값들의 분산을 결정하는 단계;
    상기 음성 신호 세그먼트 내에 포함된 여러 노이즈 프레임을 얻기 위해 상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계; 및
    상기 음성 신호 세그먼트 내에 포함된 여러 노이즈 프레임에 대응하는 평균 파워를 결정하고, 상기 노이즈 프레임의 평균 파워에 기초하여 상기 처리 대상 음성에서 노이즈를 제거하는 단계
    를 포함하는, 음성 노이즈 제거 방법.
  8. 제7항에 있어서,
    상기 처리 대상 음성 내에 포함된 분석 대상 음성 신호 세그먼트를 결정하는 단계는:
    상기 처리 대상 음성의 시간-영역 신호의 진폭 변화에 기초하여, 상기 처리 대상 음성에서 미리 설정된 임계치보다 작은 진폭 변화를 갖는 음성 신호 세그먼트를 상기 분석 대상 음성 신호 세그먼트로서 결정하는 단계; 또는
    상기 처리 대상 음성에서 처음 N개의 프레임 음성 신호를 상기 분석 대상 음성 신호 세그먼트로서 캡처하는 단계
    를 포함하는 것인, 음성 노이즈 제거 방법.
  9. 제7항에 있어서,
    상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계는:
    상기 음성 신호 세그먼트 내의 각 프레임 신호에 대응하는 상기 분산이 제1 임계치보다 큰지 여부를 결정하는 단계; 및
    아니오이면, 상기 프레임 신호를 노이즈 신호로서 결정하는 단계
    를 포함하는 것인, 음성 노이즈 제거 방법.
  10. 제9항에 있어서,
    상기 프레임 신호의 파워 스펙트럼에 기초하여 다양한 주파수에서 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값들의 분산을 결정하는 단계는:
    상기 파워 스펙트럼에 대응하는 주파수가 속하는 주파수 간격에 따라, 다양한 주파수에서 상기 프레임 신호의 파워 값들을 제1 주파수 간격에 대응하는 제1 파워 값 세트로 적어도 분류하는 단계; 및
    상기 제1 파워 값 세트 내에 포함된 파워 값들의 제1 분산을 결정하는 단계
    를 포함하고,
    그 후 상기 분산이 제1 임계치보다 큰지 여부를 결정하는 단계는:
    상기 제1 분산이 상기 제1 임계치보다 큰지 여부를 결정하는 단계
    를 포함하는 것인, 음성 노이즈 제거 방법.
  11. 제7항에 있어서,
    상기 프레임 신호의 파워 스펙트럼에 기초하여 다양한 주파수에서 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값들의 분산을 결정하는 단계는:
    상기 프레임 신호의 파워 값들에 대응하는 주파수가 속하는 주파수 간격에 따라, 다양한 주파수에서 각 프레임 신호의 파워 값들을 제1 주파수 간격에 대응하는 제1 파워 값 세트 및 제2 주파수 간격에 대응하는 제2 파워 값 세트로 적어도 분류하는 단계 ― 상기 제1 주파수 간격은 상기 제2 주파수 간격보다 낮음 ― ;
    상기 제1 파워 값 세트 내에 포함된 파워 값들의 제1 분산을 결정하는 단계; 및
    상기 제2 파워 값 세트 내에 포함된 파워 값들의 제2 분산을 결정하는 단계
    를 포함하고;
    그 후 상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계는:
    각 프레임 신호에 대응하는 상기 제1 분산 및 상기 제2 분산의 차이가 제2 임계치보다 큰지 여부를 결정하는 단계; 및
    아니오이면, 상기 프레임 신호를 노이즈 신호로서 결정하는 단계
    를 포함하는 것인, 음성 노이즈 제거 방법.
  12. 제7항에 있어서,
    상기 프레임 신호의 파워 스펙트럼에 기초하여 다양한 주파수에서 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값들의 분산을 결정하는 단계 후에, 그리고 상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계 전에, 상기 방법은,
    상기 분산의 크기에 따라 상기 분석 대상 음성 신호 세그먼트 내의 프레임 신호를 순위 매김하는 단계를 포함하고;
    그 후 상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계는:
    다양한 주파수에서 각각의 순위 매김된 프레임 신호의 파워 값들의 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하는 단계를 포함하는 것인, 음성 노이즈 제거 방법.
  13. 노이즈 신호 결정 장치에 있어서,
    분석 대상 음성 신호 세그먼트 내의 각 프레임 신호에 푸리에 변환을 수행하여 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 스펙트럼을 획득하도록 구성된 파워 스펙트럼 획득 유닛;
    상기 프레임 신호의 파워 스펙트럼에 기초하여 다양한 주파수에서 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값들의 분산을 결정하도록 구성된 분산 결정 유닛; 및
    상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하도록 구성된 노이즈 결정 유닛
    을 포함하는, 노이즈 신호 결정 장치.
  14. 제13항에 있어서,
    세그먼트 획득 유닛을 더 포함하고,
    상기 세그먼트 획득 유닛은:
    처리 대상 음성의 시간-영역 신호의 진폭 변화에 기초하여, 상기 처리 대상 음성에서 미리 설정된 임계치보다 작은 진폭 변화를 갖는 음성 신호 세그먼트를 분석 대상 음성 신호 세그먼트로서 결정하거나;
    처리 대상 음성에서 처음 N개의 프레임 음성 신호를 상기 분석 대상 음성 신호 세그먼트로서 캡처하도록
    구성되는 것인, 노이즈 신호 결정 장치.
  15. 제13항에 있어서,
    상기 노이즈 결정 유닛은:
    상기 음성 신호 세그먼트 내의 각 프레임 신호에 대응하는 상기 분산이 제1 임계치보다 큰지 여부를 결정하고;
    아니오이면, 상기 프레임 신호를 노이즈 신호로서 결정하도록
    구성되는 것인, 노이즈 신호 결정 장치.
  16. 제13항에 있어서,
    상기 분산 결정 유닛은:
    상기 파워 스펙트럼에 대응하는 주파수가 속하는 주파수 간격에 따라, 다양한 주파수에서 상기 프레임 신호의 파워 값들을 제1 주파수 간격에 대응하는 제1 파워 값 세트로 적어도 분류하고;
    상기 제1 파워 값 세트 내에 포함된 파워 값들의 제1 분산을 결정하도록
    구성되고;
    그 후 상기 노이즈 결정 유닛은:
    상기 제1 분산이 상기 제1 임계치보다 큰지 여부를 결정하고;
    아니오이면, 상기 프레임 신호를 노이즈 신호로서 결정하도록
    구성되는 것인, 노이즈 신호 결정 장치.
  17. 제13항에 있어서,
    상기 분산 결정 유닛은 구체적으로:
    상기 프레임 신호의 파워 값들에 대응하는 주파수가 속하는 주파수 간격에 따라, 다양한 주파수에서 각 프레임 신호의 파워 값들을 제1 주파수 간격에 대응하는 제1 파워 값 세트 및 제2 주파수 간격에 대응하는 제2 파워 값 세트로 적어도 분류하고 ― 상기 제1 주파수 간격은 상기 제2 주파수 간격보다 낮음 ― ;
    상기 제1 파워 값 세트 내에 포함된 파워 값들의 제1 분산을 결정하며;
    상기 제2 파워 값 세트 내에 포함된 파워 값들의 제2 분산을 결정하도록
    구성되고,
    그 후 상기 노이즈 결정 유닛은:
    각 프레임 신호에 대응하는 상기 제1 분산 및 상기 제2 분산의 차이가 제2 임계치보다 큰지 여부를 결정하고;
    아니오이면, 상기 프레임 신호를 노이즈 신호로서 결정하도록
    구성되는 것인, 노이즈 신호 결정 장치.
  18. 음성 노이즈 제거 장치에 있어서,
    처리 대상 음성 내에 포함된 분석 대상 음성 신호 세그먼트를 결정하도록 구성된 세그먼트 결정 유닛;
    상기 분석 대상 음성 신호 세그먼트 내의 각 프레임 신호에 푸리에 변환을 수행하여 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 스펙트럼을 획득하도록 구성된 파워 스펙트럼 획득 유닛;
    상기 프레임 신호의 파워 스펙트럼에 기초하여 다양한 주파수에서 상기 음성 신호 세그먼트 내의 각 프레임 신호의 파워 값들의 분산을 결정하도록 구성된 분산 결정 유닛;
    상기 분산에 기초하여 상기 음성 신호 세그먼트 내의 각 프레임 신호가 노이즈 신호인지 여부를 결정하고, 상기 음성 신호 세그먼트 내에 포함된 여러 노이즈 프레임을 얻도록 구성된 노이즈 결정 유닛; 및
    상기 음성 신호 세그먼트 내에 포함된 여러 노이즈 프레임에 대응하는 평균 파워를 결정하고, 상기 노이즈 프레임의 평균 파워에 기초하여 상기 처리 대상 음성에서 노이즈를 제거하도록 구성된 음성 노이즈 제거 유닛
    을 포함하는, 음성 노이즈 제거 장치.
KR1020187013177A 2015-10-13 2016-10-08 노이즈 신호 결정 방법과 장치, 및 음성 노이즈 제거 방법과 장치 KR102208855B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201510670697.8 2015-10-13
CN201510670697.8A CN106571146B (zh) 2015-10-13 2015-10-13 噪音信号确定方法、语音去噪方法及装置
PCT/CN2016/101444 WO2017063516A1 (zh) 2015-10-13 2016-10-08 噪音信号确定方法、语音去噪方法及装置

Publications (2)

Publication Number Publication Date
KR20180067608A true KR20180067608A (ko) 2018-06-20
KR102208855B1 KR102208855B1 (ko) 2021-01-29

Family

ID=58508605

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187013177A KR102208855B1 (ko) 2015-10-13 2016-10-08 노이즈 신호 결정 방법과 장치, 및 음성 노이즈 제거 방법과 장치

Country Status (9)

Country Link
US (1) US10796713B2 (ko)
EP (1) EP3364413B1 (ko)
JP (1) JP6784758B2 (ko)
KR (1) KR102208855B1 (ko)
CN (1) CN106571146B (ko)
ES (1) ES2807529T3 (ko)
PL (1) PL3364413T3 (ko)
SG (2) SG10202005490WA (ko)
WO (1) WO2017063516A1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200026587A (ko) * 2018-09-03 2020-03-11 국방과학연구소 음성 구간을 검출하는 방법 및 장치
US11810586B2 (en) 2020-08-06 2023-11-07 LINE Plus Corporation Methods and apparatuses for noise reduction based on time and frequency analysis using deep learning

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10504538B2 (en) * 2017-06-01 2019-12-10 Sorenson Ip Holdings, Llc Noise reduction by application of two thresholds in each frequency band in audio signals
CN110689901B (zh) * 2019-09-09 2022-06-28 苏州臻迪智能科技有限公司 语音降噪的方法、装置、电子设备及可读存储介质
JP7331588B2 (ja) * 2019-09-26 2023-08-23 ヤマハ株式会社 情報処理方法、推定モデル構築方法、情報処理装置、推定モデル構築装置およびプログラム
CN116134834A (zh) * 2020-12-31 2023-05-16 深圳市韶音科技有限公司 生成音频的方法和系统
CN112967738B (zh) * 2021-02-01 2024-06-14 腾讯音乐娱乐科技(深圳)有限公司 人声检测方法、装置及电子设备和计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0836400A (ja) * 1994-07-25 1996-02-06 Kokusai Electric Co Ltd 音声状態判定回路
CN101968957A (zh) * 2010-10-28 2011-02-09 哈尔滨工程大学 一种噪声条件下的语音检测方法
EP2546831A1 (en) * 2010-03-09 2013-01-16 Mitsubishi Electric Corporation Noise suppression device

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2966452B2 (ja) * 1989-12-11 1999-10-25 三洋電機株式会社 音声認識装置の雑音除去システム
US6529868B1 (en) * 2000-03-28 2003-03-04 Tellabs Operations, Inc. Communication system noise cancellation power signal calculation techniques
US7299173B2 (en) * 2002-01-30 2007-11-20 Motorola Inc. Method and apparatus for speech detection using time-frequency variance
CN101197130B (zh) 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
WO2008111462A1 (ja) 2007-03-06 2008-09-18 Nec Corporation 雑音抑圧の方法、装置、及びプログラム
EP2031583B1 (en) * 2007-08-31 2010-01-06 Harman Becker Automotive Systems GmbH Fast estimation of spectral noise power density for speech signal enhancement
JP2009216733A (ja) * 2008-03-06 2009-09-24 Nippon Telegr & Teleph Corp <Ntt> フィルタ推定装置、信号強調装置、フィルタ推定方法、信号強調方法、プログラム、記録媒体
JP4327886B1 (ja) 2008-05-30 2009-09-09 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
CN101853661B (zh) * 2010-05-14 2012-05-30 中国科学院声学研究所 基于非监督学习的噪声谱估计与语音活动度检测方法
CN102314883B (zh) * 2010-06-30 2013-08-21 比亚迪股份有限公司 一种判断音乐噪声的方法以及语音消噪方法
JP4937393B2 (ja) 2010-09-17 2012-05-23 株式会社東芝 音質補正装置及び音声補正方法
CN102800322B (zh) * 2011-05-27 2014-03-26 中国科学院声学研究所 一种噪声功率谱估计与语音活动性检测方法
CN103903629B (zh) * 2012-12-28 2017-02-15 联芯科技有限公司 基于隐马尔科夫链模型的噪声估计方法和装置
CN103489446B (zh) * 2013-10-10 2016-01-06 福州大学 复杂环境下基于自适应能量检测的鸟鸣识别方法
CN103632677B (zh) * 2013-11-27 2016-09-28 腾讯科技(成都)有限公司 带噪语音信号处理方法、装置及服务器

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0836400A (ja) * 1994-07-25 1996-02-06 Kokusai Electric Co Ltd 音声状態判定回路
EP2546831A1 (en) * 2010-03-09 2013-01-16 Mitsubishi Electric Corporation Noise suppression device
CN101968957A (zh) * 2010-10-28 2011-02-09 哈尔滨工程大学 一种噪声条件下的语音检测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200026587A (ko) * 2018-09-03 2020-03-11 국방과학연구소 음성 구간을 검출하는 방법 및 장치
US11810586B2 (en) 2020-08-06 2023-11-07 LINE Plus Corporation Methods and apparatuses for noise reduction based on time and frequency analysis using deep learning

Also Published As

Publication number Publication date
CN106571146B (zh) 2019-10-15
CN106571146A (zh) 2017-04-19
ES2807529T3 (es) 2021-02-23
US10796713B2 (en) 2020-10-06
SG11201803004YA (en) 2018-05-30
US20180293997A1 (en) 2018-10-11
SG10202005490WA (en) 2020-07-29
EP3364413A1 (en) 2018-08-22
EP3364413B1 (en) 2020-06-10
JP6784758B2 (ja) 2020-11-11
JP2018534618A (ja) 2018-11-22
EP3364413A4 (en) 2019-06-26
WO2017063516A1 (zh) 2017-04-20
KR102208855B1 (ko) 2021-01-29
PL3364413T3 (pl) 2020-10-19

Similar Documents

Publication Publication Date Title
KR20180067608A (ko) 노이즈 신호 결정 방법과 장치, 및 음성 노이즈 제거 방법과 장치
CN109767783B (zh) 语音增强方法、装置、设备及存储介质
EP2828856B1 (en) Audio classification using harmonicity estimation
CN103559888B (zh) 基于非负低秩和稀疏矩阵分解原理的语音增强方法
US8891786B1 (en) Selective notch filtering for howling suppression
CA2699316A1 (en) Apparatus and method for calculating bandwidth extension data using a spectral tilt controlled framing
US9997168B2 (en) Method and apparatus for signal extraction of audio signal
JP6493889B2 (ja) 音声信号を検出するための方法および装置
JP2018534618A5 (ko)
WO2017045429A1 (zh) 一种音频数据的检测方法、系统及存储介质
TWI523006B (zh) 利用聲紋識別進行語音辨識的方法及其電子裝置
CN112116927A (zh) 实时检测音频信号中的语音活动
CN106847299B (zh) 延时的估计方法及装置
CN105355206B (zh) 一种声纹特征提取方法和电子设备
KR20200099093A (ko) 비선형 잡음 감소 시스템
CN110534128B (zh) 一种噪音处理方法、装置、设备及存储介质
Gao et al. A Method Using EEMD and L-Kurtosis to detect faults in roller bearings
CN112863548A (zh) 训练音频检测模型的方法、音频检测方法及其装置
US10319201B2 (en) Systems and methods for hierarchical acoustic detection of security threats
CN112216285A (zh) 多人会话检测方法、系统、移动终端及存储介质
TWI585757B (zh) 口吃偵測方法與裝置、電腦程式產品
Shokouhi et al. Co-channel speech detection via spectral analysis of frequency modulated sub-bands.
US20160338650A1 (en) Mutation signal processing methods, devices and medical detecting apparatuses
Pavlenko et al. Interpolation method modification for nonlinear objects identification using Volterra model in a frequency domain
Li et al. Speech Endpoint Detection in Noisy Environment Based on the Ensemble Empirical Mode Decomposition

Legal Events

Date Code Title Description
A302 Request for accelerated examination
E902 Notification of reason for refusal
N231 Notification of change of applicant
E701 Decision to grant or registration of patent right