KR102005009B1 - 오디오 신호를 검출하는 방법 및 장치 - Google Patents

오디오 신호를 검출하는 방법 및 장치 Download PDF

Info

Publication number
KR102005009B1
KR102005009B1 KR1020187021506A KR20187021506A KR102005009B1 KR 102005009 B1 KR102005009 B1 KR 102005009B1 KR 1020187021506 A KR1020187021506 A KR 1020187021506A KR 20187021506 A KR20187021506 A KR 20187021506A KR 102005009 B1 KR102005009 B1 KR 102005009B1
Authority
KR
South Korea
Prior art keywords
audio signal
band
ssnr
snr
signal
Prior art date
Application number
KR1020187021506A
Other languages
English (en)
Other versions
KR20180088503A (ko
Inventor
제 왕
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20180088503A publication Critical patent/KR20180088503A/ko
Application granted granted Critical
Publication of KR102005009B1 publication Critical patent/KR102005009B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephone Function (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephonic Communication Services (AREA)
  • Noise Elimination (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

본 발명의 실시예는 오디오 신호를 검출하는 방법 및 장치를 제공하며, 상기 방법은: 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계; 상기 오디오 신호의 강화된 분할 신호대잡음비(SSNR)를 결정하는 단계 - 상기 강화된 SSNR은 기준 SSNR보다 큼 - ; 및 상기 오디오 신호가 액티브 신호인지를 판정하기 위해 상기 강화된 SSNR과 음성 액티비티 검출(VAD) 판정 임계값을 비교하는 단계를 포함한다. 본 발명의 실시예에서 제공하는 방법 및 장치에 따르면, 액티브 음성 및 인액티브 음성이 정확하게 구별될 수 있다.

Description

오디오 신호를 검출하는 방법 및 장치{METHOD FOR DETECTING AUDIO SIGNAL AND APPARATUS}
본 발명의 실시예는 신호 처리 기술 분야에 관한 것이며, 특히 오디오 신호를 검출하는 방법 및 장치에 관한 것이다.
보이스 액티비티 검출(Voice Activity Detection, VAD)은 음성 통신 및 인간-기계 상호작용과 같은 분야에서 폭넓게 사용되는 중요한 기술이다. VAD를 사운드 액티비티 검출(Sound Activity Detection, SAD)라고도 할 수 있다. VAD는 입력 오디오 신호에 액티브 신호가 있는지를 검출하는 데 사용되며, 여기서 액티브 신호는 인액티브 신호(예를 들어 환경 배경 잡음 및 무언 음성(mute voice))와 관련 있다. 통상적인 액티브 신호는 음성, 음악 등을 포함한다. VAD의 원리는 하나 이상의 특징 파라미터가 입력 오디오 신호에서 추출되고, 하나 이상의 특징 파라미터가 입력 오디오 신호에 따라 하나 이상의 특징값이 결정되며, 그런 다음 하나 이상의 특징값이 하나 이상의 임계값과 비교되는 것이다.
종래기술에서, 분할 신호대잡음비(Segmental Signal-to-Noise Ratio, SSNR) 기반 액티브 신호 검출 방법은: 주파수 대역 상에서 입력 오디오 신호를 복수의 하위대역 신호로 분할하고, 각각의 하위대역 상의 오디오 신호의 에너지를 계산하고, 각각의 하위대역 상의 오디오 신호의 에너지와 각각의 하위대역 상의 배경 잡음 신호의 에너지를 비교하여 각각의 하위대역 상의 오디오 신호의 신호대잡음비(Signal-to-Noise Ratio, SNR)를 획득하며, 그런 다음 각각의 하위대역의 하위대역 SNR에 따라 SSNR을 결정하고, 이 SSNR과 사전설정된 VAD 판정 임계값을 비교하며, 여기서 SSNR이 VAD 판정 임계값을 초과하면, 오디오 신호는 액티브 신호이고, SSNR이 VAD 판정 임계값을 초과하지 않으면, 오디오 신호는 인액티브 신호이다.
SSNR을 계산하는 통상적인 방법은 오디오 신호의 모든 하위대역 SNR을 합산하는 것이고, 획득된 결과가 SSNR이다. 예를 들어, SSNR은 식 1.1을 사용하여 결정될 수 있다:
Figure 112018073518119-pat00001
식 1.1
여기서 k는 k번째 하위대역을 나타내고, snr(k)은 k번째 하위대역의 하위대역 SNR을 나타내며, N은 오디오 신호가 분할되는 하위대역의 총 수량을 나타낸다.
전술한 SSNR을 계산하는 방법을 사용하여 액티브 음성을 검출할 때, 액티브 음성의 오검출이 생길 수 있다.
본 발명의 실시예는 액티브 신호와 인액티브 신호를 정확하게 구별할 수 있는 오디오 신호를 검출하는 방법 및 장치를 제공한다.
제1 관점에 따라, 본 발명의 실시예는 오디오 신호를 검출하는 방법을 제공하며, 상기 방법은: 입력 오디오 신호를 결정될 오디오 신호(to-be-determined audio signal)로서 결정하는 단계; 상기 오디오 신호의 강화된 분할 신호대잡음비(Segmental Signal-to-Noise Ratio, SSNR)를 결정하는 단계 - 상기 강화된 SSNR은 기준 SSNR보다 큼 - ; 및 상기 오디오 신호가 액티브 신호인지를 판정하기 위해 상기 강화된 SSNR과 음성 액티비티 검출(voice activity detection, VAD) 판정 임계값을 비교하는 단계를 포함한다.
제1 관점을 참조하여, 제1 관점의 제1 가능한 실시 방식에서, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계는: 상기 오디오 신호의 하위대역 신호대잡음비(signal-to-noise ratio, SNR)에 따라 상기 오디오 신호를 결정될 오디오 신호로서 결정하는 단계를 포함한다.
제1 관점의 제1 가능한 실시 방식을 참조하여, 제1 관점의 제2 가능한 실시 방식에서, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계는: 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역(high-frequency end sub-band)의 수량이 제1 수량보다 크면, 상기 오디오 신호를 결정될 오디오 신호로서 결정하는 단계를 포함한다.
제1 관점의 제1 가능한 실시 방식을 참조하여, 제1 관점의 제3 가능한 실시 방식에서, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계는: 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제2 수량보다 크고, 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 수량이 제3 수량보다 크면, 상기 오디오 신호를 결정될 오디오 신호로서 결정하는 단계를 포함한다.
제1 관점의 제1 가능한 실시 방식을 참조하여, 제1 관점의 제4 가능한 실시 방식에서, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계는: 상기 오디오 신호 내에 있으면서 하위대역 SNR의 값이 제3 사전설정된 임계값보다 큰 하위대역의 수량이 제4 수량보다 크면, 상기 오디오 신호를 결정될 오디오 신호로서 결정하는 단계를 포함한다.
제1 관점을 참조하여, 제1 관점의 제5 가능한 실시 방식에서, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계는: 상기 오디오 신호가 무성음 신호(unvoiced signal)인 것으로 결정되면, 상기 오디오 신호를 결정될 오디오 신호로서 결정하는 단계를 포함한다.
제1 관점의 제2 가능한 실시 방식 또는 제3 가능한 실시 방식을 참조하여, 제1 관점의 제6 가능한 실시 방식에서, 상기 오디오 신호의 강화된 SSNR을 결정하는 단계는: 상기 오디오 신호 내의 각각의 하위대역의 하위대역 SNR의 가중치를 결정하는 단계 - 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 하위대역 SNR의 가중치가 다른 하위대역의 하위대역 SNR의 가중치보다 큼 - ; 및 상기 오디오 신호 내의 각각의 하위대역의 하위대역 SNR 및 각각의 하위대역의 하위대역 SNR의 가중치에 따라 상기 강화된 SSNR을 결정하는 단계를 포함한다.
제1 관점 또는 제1 관점의 제1 가능한 실시 방식 내지 제1 관점의 제5 가능한 실시 방식 중 임의의 가능한 실시 방식을 참조하여, 제1 관점의 제7 가능한 실시 방식에서, 상기 오디오 신호의 강화된 SSNR을 결정하는 단계는: 상기 오디오 신호의 기준 SSNR을 결정하는 단계; 및 상기 오디오 신호의 기준 SSNR에 따라 상기 강화된 SSNR을 결정하는 단계를 포함한다.
제1 관점의 제7 가능한 실시 방식을 참조하여, 제1 관점의 제8 가능한 실시 방식에서, 상기 오디오 신호의 기준 SSNR에 따라 상기 강화된 SSNR을 결정하는 단계는: 다음 식: SSNR' = x * SSNR + y를 사용함으로써 상기 강화된 SSNR을 결정하는 단계를 포함하며, 여기서 SSNR은 기준 SSNR을 나타내고, SSNR'은 강화된 SSNR을 나타내며, x 및 y는 강화 파라미터를 나타낸다.
제1 관점의 제7 가능한 실시 방식을 참조하여, 제1 관점의 제9 가능한 실시 방식에서, 상기 오디오 신호의 기준 SSNR에 따라 상기 강화된 SSNR을 결정하는 단계는: 다음 식: SSNR' = f(x) * SSNR + h(y)를 사용함으로써 상기 강화된 SSNR을 결정하는 단계를 포함하며, 여기서 SSNR은 기준 SSNR을 나타내고, SSNR'은 강화된 SSNR을 나타내며, f(x) 및 h(y)는 강화 함수를 나타낸다.
제1 관점 또는 제1 관점의 전술한 가능한 실시 방식 중 어느 하나를 참조하여, 제1 관점의 제10 가능한 실시 방식에서, 상기 강화된 SSNR과 VAD 판정 임계값을 비교하는 단계 이전에, 상기 오디오 신호를 검출하는 방법은: 사전설정된 알고리즘을 사용하여 상기 VAD 판정 임계값을 감소시켜, 감소된 VAD 판정 임계값을 획득하는 단계를 더 포함하며, 상기 오디오 신호가 액티브 신호인지를 판정하기 위해 상기 강화된 SSNR과 VAD 판정 임계값을 비교하는 단계는: 상기 오디오 신호가 액티브 신호인지를 판정하기 위해 상기 강화된 SSNR과 상기 감소된 VAD 판정 임계값을 비교하는 단계를 포함한다.
제2 관점에 따라, 본 발명의 실시예는 오디오 신호를 검출하는 방법을 제공하며, 상기 방법은: 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계; 상기 오디오 신호 내의 각각의 하위대역의 하위대역 SNR의 가중치를 결정하는 단계 - 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 하위대역 SNR의 가중치가 다른 하위대역의 하위대역 SNR의 가중치보다 큼 - ; 및 상기 오디오 신호 내의 각각의 하위대역의 하위대역 SNR 및 각각의 하위대역의 하위대역 SNR의 가중치에 따라 강화된 SSNR을 결정하는 단계 - 상기 강화된 SSNR은 기준 SSNR보다 큼 - ; 및 상기 오디오 신호가 액티브 신호인지를 판정하기 위해 상기 강화된 SSNR과 VAD 판정 임계값을 비교하는 단계를 포함한다.
제2 관점을 참조하여, 제2 관점의 제1 가능한 실시 방식에서, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계는: 상기 오디오 신호의 하위대역 SNR에 따라 상기 오디오 신호를 결정될 오디오 신호로서 결정하는 단계를 포함한다.
제2 관점의 제1 가능한 실시 방식을 참조하여, 제2 관점의 제2 가능한 실시 방식에서, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계는: 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제1 수량보다 크면, 상기 오디오 신호를 결정될 오디오 신호로서 결정하는 단계를 포함한다.
제2 관점의 제1 가능한 실시 방식을 참조하여, 제2 관점의 제3 가능한 실시 방식에서, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계는: 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제2 수량보다 크고, 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 수량이 제3 수량보다 크면, 상기 오디오 신호를 결정될 오디오 신호로서 결정하는 단계를 포함한다.
제3 관점에 따라, 본 발명의 실시예는 오디오 신호를 검출하는 방법을 제공하며, 상기 방법은: 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계; 상기 오디오 신호의 기준 SSNR을 획득하는 단계; 사전설정된 알고리즘을 사용하여 기준 VAD 판정 임계값을 감소시켜, 감소된 VAD 판정 임계값을 획득하는 단계; 및 상기 오디오 신호가 액티브 신호인지를 판정하기 위해 상기 기준 SSNR과 상기 감소된 VAD 판정 임계값을 비교하는 단계를 포함한다.
제3 관점을 참조하여, 제3 관점의 제1 가능한 실시 방식에서, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계는: 상기 오디오 신호의 하위대역 SNR에 따라 상기 오디오 신호를 결정될 오디오 신호로서 결정하는 단계를 포함한다.
제3 관점의 제1 가능한 실시 방식을 참조하여, 제3 관점의 제2 가능한 실시 방식에서, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계는: 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제1 수량보다 크면, 상기 오디오 신호를 결정될 오디오 신호로서 결정하는 단계를 포함한다.
제3 관점의 제1 가능한 실시 방식을 참조하여, 제3 관점의 제3 가능한 실시 방식에서, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계는: 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제2 수량보다 크고, 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 수량이 제3 수량보다 크면, 상기 오디오 신호를 결정될 오디오 신호로서 결정하는 단계를 포함한다.
제3 관점의 제1 가능한 실시 방식을 참조하여, 제3 관점의 제4 가능한 실시 방식에서, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계는: 상기 오디오 신호 내에 있으면서 하위대역 SNR의 값이 제3 사전설정된 임계값보다 큰 하위대역의 수량이 제4 수량보다 크면, 상기 오디오 신호를 결정될 오디오 신호로서 결정하는 단계를 포함한다.
제3 관점을 참조하여, 제3 관점의 제5 가능한 실시 방식에서, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계는: 상기 오디오 신호가 무성음 신호인 것으로 결정되면, 상기 오디오 신호를 결정될 오디오 신호로서 결정하는 단계를 포함한다.
제4 관점에 따라, 본 발명의 실시예는 장치를 제공하며, 상기 장치는: 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있는 제1 결정 유닛; 상기 오디오 신호의 강화된 SSNR을 결정하도록 구성되어 있는 제2 결정 유닛 - 상기 강화된 SSNR은 기준 SSNR보다 큼 - ; 및 상기 오디오 신호가 액티브 신호인지를 판정하기 위해 상기 강화된 SSNR과 VAD 판정 임계값을 비교하도록 구성되어 있는 제3 결정 유닛을 포함한다.
제4 관점을 참조하여, 제4 관점의 제2 가능한 실시 방식에서, 상기 제1 결정 유닛은, 상기 오디오 신호의 하위대역 SNR에 따라 상기 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
제4 관점의 제1 가능한 실시 방식을 참조하여, 제4 관점의 제2 가능한 실시 방식에서, 상기 제1 결정 유닛은, 상기 오디오 신호 내에 있으면서 하위대역 신호대잡음비(SNR)가 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제1 수량보다 크면, 상기 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
제4 관점의 제1 가능한 실시 방식을 참조하여, 제4 관점의 제3 가능한 실시 방식에서, 상기 제1 결정 유닛은, 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제2 수량보다 크고, 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 수량이 제3 수량보다 크면, 상기 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
제4 관점의 제1 가능한 실시 방식을 참조하여, 제4 관점의 제4 가능한 실시 방식에서, 상기 제1 결정 유닛은, 상기 오디오 신호 내에 있으면서 하위대역 SNR의 값이 제3 사전설정된 임계값보다 큰 하위대역의 수량이 제4 수량보다 크면, 상기 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
제4 관점을 참조하여, 제4 관점의 제5 가능한 실시 방식에서, 상기 제1 결정 유닛은 구체적으로, 상기 오디오 신호가 무성음 신호인 것으로 결정되면, 상기 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
제4 관점의 제2 가능한 실시 방식을 참조하여, 제4 관점의 제6 가능한 실시 방식에서, 상기 제2 결정 유닛은, 상기 오디오 신호 내의 각각의 하위대역의 하위대역 SNR의 가중치를 결정하고 - 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 하위대역 SNR의 가중치가 다른 하위대역의 하위대역 SNR의 가중치보다 큼 - ; 그리고 상기 오디오 신호 내의 각각의 하위대역의 하위대역 SNR 및 각각의 하위대역의 하위대역 SNR의 가중치에 따라 상기 강화된 SSNR을 결정하도록 구성되어 있다.
제4 관점 또는 제4 관점의 제1 가능한 실시 방식 내지 제4 관점의 제5 가능한 실시 방식 중 임의의 가능한 실시 방식을 참조하여, 제4 관점의 제7 가능한 실시 방식에서, 상기 제2 결정 유닛은, 상기 오디오 신호의 기준 SSNR을 결정하고; 그리고 상기 오디오 신호의 기준 SSNR에 따라 상기 강화된 SSNR을 결정하도록 구성되어 있다.
제4 관점의 제7 가능한 실시 방식을 참조하여, 제4 관점의 제8 가능한 실시 방식에서, 상기 제2 결정 유닛은, 다음 식: SSNR' = x * SSNR + y를 사용함으로써 상기 강화된 SSNR을 결정하도록 구성되어 있으며, 여기서 SSNR은 기준 SSNR을 나타내고, SSNR'은 강화된 SSNR을 나타내며, x 및 y는 강화 파라미터를 나타낸다.
제4 관점의 제7 가능한 실시 방식을 참조하여, 제4 관점의 제9 가능한 실시 방식에서, 상기 제2 결정 유닛은, 다음 식: SSNR' = f(x) * SSNR + h(y)를 사용함으로써 상기 강화된 SSNR을 결정하도록 구성되어 있으며, 여기서 SSNR은 기준 SSNR을 나타내고, SSNR'은 강화된 SSNR을 나타내며, f(x) 및 h(y)는 강화 함수를 나타낸다.
제4 관점 또는 제4 관점의 전술한 가능한 실시 방식 중 어느 하나를 참조하여, 제4 관점의 제10 가능한 실시 방식에서, 상기 장치는 제4 결정 유닛을 더 포함하며, 상기 제4 결정 유닛은 사전설정된 알고리즘을 사용하여 상기 VAD 판정 임계값을 감소시켜, 감소된 VAD 판정 임계값을 획득하도록 구성되어 있으며, 상기 제3 결정 유닛은, 상기 오디오 신호가 액티브 신호인지를 판정하기 위해 상기 강화된 SSNR과 상기 감소된 VAD 판정 임계값을 비교하도록 구성되어 있다.
제5 관점에 따라, 본 발명의 실시예는 장치를 제공하며, 상기 장치는: 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있는 제1 결정 유닛; 상기 오디오 신호 내의 각각의 하위대역의 하위대역 SNR의 가중치를 결정하고 - 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 하위대역 SNR의 가중치가 다른 하위대역의 하위대역 SNR의 가중치보다 큼 - ; 그리고 상기 오디오 신호 내의 각각의 하위대역의 하위대역 SNR 및 각각의 하위대역의 하위대역 SNR의 가중치에 따라 강화된 SSNR을 결정하도록 구성되어 있는 제2 결정 유닛 - 상기 강화된 SSNR은 기준 SSNR보다 큼 - ; 및 상기 오디오 신호가 액티브 신호인지를 판정하기 위해 상기 강화된 SSNR과 VAD 판정 임계값을 비교하도록 구성되어 있는 제3 결정 유닛을 포함한다.
제5 관점을 참조하여, 제5 관점의 제1 가능한 실시 방식에서, 상기 제1 결정 유닛은, 상기 오디오 신호의 하위대역 SNR에 따라 상기 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
제5 관점의 제1 가능한 실시 방식을 참조하여, 제5 관점의 제2 가능한 실시 방식에서, 상기 제1 결정 유닛은, 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제1 수량보다 크면, 상기 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
제5 관점의 제1 가능한 실시 방식을 참조하여, 제5 관점의 제3 가능한 실시 방식에서, 상기 제1 결정 유닛은, 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제2 수량보다 크고, 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 수량이 제3 수량보다 크면, 상기 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
제6 관점에 따라, 본 발명의 실시예는 장치를 제공하며, 상기 장치는: 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있는 제1 결정 유닛; 상기 오디오 신호의 기준 SSNR을 획득하도록 구성되어 있는 제2 결정 유닛; 사전설정된 알고리즘을 사용하여 기준 VAD 판정 임계값을 감소시켜, 감소된 VAD 판정 임계값을 획득하도록 구성되어 있는 제3 결정 유닛; 및 상기 오디오 신호가 액티브 신호인지를 판정하기 위해 상기 기준 SSNR과 상기 감소된 VAD 판정 임계값을 비교하도록 구성되어 있는 제4 결정 유닛을 포함한다.
제6 관점을 참조하여, 제6 관점의 제1 가능한 실시 방식에서, 상기 제1 결정 유닛은, 상기 오디오 신호의 하위대역 SNR에 따라 상기 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
제6 관점의 제1 가능한 실시 방식을 참조하여, 제6 관점의 제2 가능한 실시 방식에서, 상기 제1 결정 유닛은, 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제1 수량보다 크면, 상기 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
제6 관점의 제1 가능한 실시 방식을 참조하여, 제6 관점의 제3 가능한 실시 방식에서, 상기 제1 결정 유닛은, 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제2 수량보다 크고, 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 수량이 제3 수량보다 크면, 상기 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
제6 관점의 제1 가능한 실시 방식을 참조하여, 제6 관점의 제4 가능한 실시 방식에서, 상기 제1 결정 유닛은, 상기 오디오 신호 내에 있으면서 하위대역 SNR의 값이 제3 사전설정된 임계값보다 큰 하위대역의 수량이 제4 수량보다 크면, 상기 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
제6 관점을 참조하여, 제6 관점의 제5 가능한 실시 방식에서, 상기 제1 결정 유닛은, 상기 오디오 신호가 무성음 신호인 것으로 결정되면, 상기 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
본 발명의 실시예에서 제공하는 방법에 따르면, 오디오 신호의 특징이 결정될 수 있고, 오디오 신호의 특징에 따라 대응하는 방식으로 강화된 SSNR이 결정되며, 강화된 SSNR과 VAD 판정 임계값을 비교하며, 이에 따라 액티브 신호의 오검출 비율이 감소될 수 있다.
본 발명의 실시예의 기술적 솔루션을 더 명확하게 설명하기 위해, 이하에서는 본 발명의 실시예를 설명하는 데 필요한 첨부된 도면에 대해 간략하게 설명한다. 당연히, 이하의 실시예의 첨부된 도면은 본 발명의 일부의 실시예에 지나지 않으며, 당업자라면 창조적 노력 없이 첨부된 도면으로부터 다른 도면을 도출해낼 수 있을 것이다.
도 1은 본 발명의 실시예에 따라 오디오 신호를 검출하는 방법에 대한 개략적인 흐름도이다.
도 2는 본 발명의 실시예에 따라 오디오 신호를 검출하는 방법에 대한 개략적인 흐름도이다.
도 3은 본 발명의 실시예에 따라 오디오 신호를 검출하는 방법에 대한 개략적인 흐름도이다.
도 4는 본 발명의 실시예에 따라 오디오 신호를 검출하는 방법에 대한 개략적인 흐름도이다.
도 5는 본 발명의 실시예에 따른 장치에 대한 구조 블록도이다.
도 6은 본 발명의 실시예에 따른 다른 장치에 대한 구조 블록도이다.
도 7은 본 발명의 실시예에 따른 장치에 대한 구조 블록도이다.
도 8은 본 발명의 실시예에 따른 다른 장치에 대한 구조 블록도이다.
도 9는 본 발명의 실시예에 따른 다른 장치에 대한 구조 블록도이다.
도 10은 본 발명의 실시예에 따른 다른 장치에 대한 구조 블록도이다.
이하에서는 본 발명의 실시예에 첨부된 도면을 참조하여 본 발명의 실시예의 기술적 솔루션에 대해 명확하게 설명한다. 당연히, 설명된 실시예는 본 발명의 모든 실시예가 아닌 일부에 지나지 않는다. 당업자가 창조적 노력 없이 본 발명의 실시예에 기초하여 획득하는 모든 다른 실시예는 본 발명의 보호 범위 내에 있게 된다.
도 1은 본 발명의 실시예에 따라 오디오 신호를 검출하는 방법에 대한 개략적인 흐름도이다.
101. 입력 오디오 신호를 결정될 오디오 신호(to-be-determined audio signal)로서 결정한다.
102. 오디오 신호의 강화된 분할 신호대잡음비(Segmental Signal-to-Noise Ratio, SSNR)를 결정하며, 여기서 강화된 SSNR은 기준 SSNR보다 크다.
103. 오디오 신호가 액티브 신호인지를 판정하기 위해 강화된 SSNR과 음성 액티비티 검출(voice activity detection, VAD) 판정 임계값을 비교한다.
본 발명의 이 실시예에서, 강화된 SSNR이 VAD 판정 임계값과 비교될 때, 기준 VAD 판정 임계값이 사용될 수도 있으며, 사전설정된 알고리즘을 사용하여 기준 VAD 판정 임계값이 감소된 후 획득된 감소된 VAD 판정 임계값이 사용될 수도 있다. 기준 VAD 판정 임계값은 디폴트 VAD 판정 임계값일 수 있으며, 기준 VAD 판정 임계값은 미리 저장될 수 있거나 계산을 통해 일시적으로 획득될 수 있으며, 여기서 기준 VAD 판정 임계값은 기존의 공지된 기술을 사용하여 계산될 수 있다. 사전설정된 알고리즘을 사용하여 기준 VAD 판정 임계값이 감소될 때, 사전설정된 알고리즘은 기준 VAD 판정 임계값에 1보다 작은 계수를 곱하는 것일 수 있거나, 다른 알고리즘이 사용될 수 있다. 본 발명의 이 실시예는 사용된 특정한 알고리즘에 제한을 두지 않는다.
종래의 SSNR 계산 방법을 사용하여 일부의 오디오 신호의 SSNR을 계산할 때, 이러한 오디오 신호의 SSNR은 사전설정된 VAD 판정 임계값보다 낮을 수 있다. 그렇지만, 실제로, 이러한 오디오 신호는 액티브 오디오 신호이다. 이것은 이러한 오디오 신호의 특징에 기인한다. 예를 들어, 환경 SNR이 비교적 낮은 경우, 고주파 부분의 하위대역 SNR이 상당히 감소된다. 게다가, 통상적으로 하위대역 분할을 수행하는 데는 음향심리학 이론이 사용되기 때문에, 고주파 부분의 하위대역 SNR은 SSNR에 대해 상대적으로 낮은 기여도를 가진다. 이 경우, 무성음 신호(unvoiced signal)와 같이, 에너지가 상대적으로 높은 주파수 부분에 주로 집중되어 있는 일부의 신호에 있어서, 종래의 SSNR 계산 방법을 사용하는 계산을 통해 획득된 SSNR은 VAD 판정 임계값보다 낮을 수 있고, 이것은 액티브 신호의 오검출을 야기한다. 다른 예에 있어서, 일부의 신호에 있어서, 이러한 오디오 신호의 에너지 분포는 스펙트럼 상에서는 상대적으로 편평하지만 이러한 오디오 신호의 전체 에너지는 상대적으로 낮다. 그러므로 환경 SNR이 상대적으로 낮은 경우, 종래의 SSNR 계산 방법을 사용하는 계산을 통해 획득된 SSNR은 VAD 판정 임계값보다 낮을 수 있다. 도 1에 도시된 방법에서는, SSNR을 적절하게 증가시키는 방식이 사용되며, 이에 따라 SSNR은 VAD 판정 임계값보다 클 수 있다. 그러므로 액티브 신호의 오검출의 비율이 효과적으로 감소될 수 있다.
도 2는 본 발명의 실시예에 따라 오디오 신호를 검출하는 방법에 대한 개략적인 흐름도이다.
201. 입력 오디오 신호의 하위대역 SNR을 결정한다.
입력 오디오 신호의 스펙트럼은 N개의 하위대역으로 분할되며, 여기서 N은 1보다 큰 양의 정수이다. 구체적으로, 음향심리학적 이론을 사용하여 오디오 신호의 스펙트럼을 분할할 수 있다. 음향심리학적 이론을 사용하여 오디오 신호의 스펙트럼을 분할하는 경우, 저주파에 더 가까운 하위대역의 폭이 더 좁고, 고주파에 더 가까운 하위대역의 폭이 더 넓다. 당연히, 오디오 신호의 스펙트럼 역시 다른 방식으로 분할될 수 있으며, 예를 들어, 오디오 신호의 스펙트럼을 N개의 하위대역으로 공평하게 분할하는 방식이 사용될 수 있다. 입력 오디오 신호의 각각의 하위대역의 하위대역 SNR이 계산되며, 여기서 하위대역 SNR은 하위대역 상의 배경 잡음의 에너지에 대한 하위대역의 에너지의 비율이다. 하위대역 상의 배경 잡음의 에너지는 일반적으로 배경 잡음 추정기에 의한 추정에 의해 획득된 추정값이다. 배경 잡음 추정기를 사용하여 각각의 하위대역에 대응하는 배경 잡음 에너지를 추정하는 방법은 당기술분야에 잘 알려진 기술이다. 그러므로 이에 대해서는 여기서 상세히 설명하지 않는다. 당업자라면 하위대역 SNR이 직접 에너지 비율일 수도 있고, 대수의 하위대역 SNR(logarithmic sub-band SNR)과 같이, 다른 표현 방식의 직접 에너지 비율일 수도 있다는 것을 이해할 수 있을 것이다. 게다가, 당업자라면 하위대역 SNR 역시 다이렉트 하위대역 SNR에 대해 선형 또는 비선형 처리가 수행된 후에 획득된 하위대역 SNR일 수도 있고, 다른 변형의 하위대역 SNR일 수도 있다는 것도 이해할 수 있을 것이다. 하위대역 SNR의 다이렉트 에너지 비율은 이하의 식으로 나타난다:
Figure 112018073518119-pat00002
식 1.2
여기서 snr(k)은 k번째 하위대역의 하위대역 SNR이고, E(k) 및 En(k)는 k번째 하위대역의 에너지 및 k번째 하위대역 상의 배경 잡음의 에너지를 각각 나타낸다. 대수의 하위대역 SNR은 다음과 같이 표시될 수 있다:
Figure 112018073518119-pat00003
여기서,
Figure 112018073518119-pat00004
는 k번째 하위대역의 대수의 하위대역 SNR을 나타내고, snr(k)는 식 1.2를 사용하는 계산을 통해 획득되는 k번째 하위대역의 하위대역 SNR이다. 당업자라면 하위대역 SNR을 계산하는 데 사용되는 하위대역 에너지는 하위대역 상의 입력 오디오 신호의 에너지일 수도 있고, 하위대역 상의 배경 잡음의 에너지가 하위대역 상의 입력 오디오 신호의 에너지로부터 감산된 후에 획득된 에너지일 수도 있다는 것도 이해할 수 있을 것이다. SNR의 계산은 SNR의 의미를 벗어남이 없이 적절하다.
202. 입력 오디오 신호를 결정될 오디오 신호로서 결정한다.
선택적으로, 실시예에서, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계는, 단계 201에서 결정된 오디오 신호의 하위대역 SNR에 따라 상기 오디오 신호를 결정될 오디오 신호로서 결정하는 단계를 포함할 수 있다.
선택적으로, 실시예에서, 오디오 신호가 오디오 신호의 하위대역 SNR에 따라 결정될 오디오 신호로서 결정되는 경우, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계는, 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역(high-frequency end sub-band)의 수량이 제1 수량보다 큰 경우에 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계를 포함한다.
선택적으로, 다른 실시예에서, 오디오 신호가 오디오 신호의 하위대역 SNR에 따라 결정될 오디오 신호로서 결정되는 경우, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계는, 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제2 수량보다 크고, 오디오 신호 내에 있으면서 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 수량이 제3 수량보다 큰 경우에 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계를 포함한다. 본 발명의 이 실시예에서, 오디오 신호의 하나의 프레임의 고주파 단부 및 저주파 단부는 상대적이며, 즉 상대적으로 높은 주파수를 가지는 부분이 고주파 단부이고, 상대적으로 낮은 주파수를 가지는 부분이 저주파 단부이다.
선택적으로, 다른 실시예에서, 오디오 신호가 오디오 신호의 하위대역 SNR에 따라 결정될 오디오 신호로서 결정되는 경우, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계는, 상기 오디오 신호 내에 있으면서 하위대역 SNR의 값이 제3 사전설정된 임계값보다 큰 하위대역의 수량이 제4 수량보다 큰 경우에 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계를 포함한다.
제1 사전설정된 임계값 및 제2 사전설정된 임계값은 대량의 음성 샘플에 따라 통계 수집에 의해 획득될 수 있다. 구체적으로, 고주파단 하위대역의 하위대역 SNR에 관한 통계는 배경 잡음을 포함하는 대량의 무성음 샘플에서 수집되고, 제1 사전설정된 임계값은 하위대역 SNR에 따라 결정되며, 이에 따라 이러한 무성음 샘플 중의 대부분의 고주파단 하위대역의 하위대역 SNR은 제1 사전설정된 임계값보다 크다. 마찬가지로, 저주파단 하위대역의 하위대역 SNR에 관한 통계는 이러한 무성음 샘플에서 수집되고, 제2 사전설정된 임계값은 하위대역 SNR에 따라 결정되며, 이에 따라 이러한 무성음 샘플 중의 대부분의 저주파단 하위대역의 하위대역 SNR은 제2 사전설정된 임계값보다 작다.
제3 사전설정된 임계값 역시 통계 수집에 의해 획득된다. 구체적으로, 제3 사전설정된 임계값은 대량의 잡음 신호의 하위대역 SNR에 따라 결정되며, 이에 따라 이러한 잡음 신호 중의 대부분의 하위대역의 하위대역 SNR은 제3 사전설정된 임계값보다 작다.
제1 수량, 제2 수량, 제3 수량, 및 제4 수량 역시 통계 수집에 의해 획득된다. 제1 수량을 예로 사용하면, 잡음을 포함하는 대량의 무성음 샘플 프레임에서, 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 하위대역 수량에 관한 통계가 수집되고, 제1 수량은 상기 수량에 따라 결정되고, 이에 따라 이러한 대부분의 무성음 샘플 프레임 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량은 제1 수량보다 크다. 제2 수량을 획득하는 방법은 제1 수량을 획득하는 방법과 유사하다. 제2 수량은 제1 수량과 같을 수도 있고, 제2 수량은 제1 수량과 다를 수도 있다. 마찬가지로, 제3 수량에 있어서, 잡음을 포함하는 대량의 무성음 샘플 프레임에서, 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 하위대역 수량에 관한 통계가 수집되고, 제3 수량은 상기 수량에 따라 결정되고, 이에 따라 이러한 대부분의 무성음 샘플 프레임 내에 있으면서 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 수량은 제3 수량보다 크다. 제4 수량에 있어서, 대량의 잡음 신호 프레임에서, 하위대역 SNR이 제3 사전설정된 임계값보다 작은 하위대역 수량에 관한 통계가 수집되고, 제4 수량은 상기 수량에 따라 결정되고, 이에 따라 이러한 대부분의 잡음 샘플 프레임 내에 있으면서 하위대역 SNR이 제3 사전설정된 임계값보다 작은 하위대역의 수량은 제4 수량보다 크다.
선택적으로, 다른 실시예에서, 입력 오디오 신호가 결정될 오디오 신호인지는 입력 오디오 신호가 무성음 신호인지를 결정함으로써 결정될 수 있다. 이 경우, 오디오 신호의 하위대역 SNR은 오디오 신호가 결정될 오디오 신호인지를 결정할 때 결정되지 않아도 된다. 환언하면, 단계 201은 오디오 신호가 결정될 오디오 신호인지를 결정할 때 수행되지 않아도 된다. 구체적으로, 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계는, 오디오 신호가 무성음 신호인 것으로 결정되는 경우에 오디오 신호를 결정될 오디오 신호로서 결정하는 단계를 포함한다. 구체적으로, 당업자라면 오디오 신호가 무성음 신호인지를 검출하는 여러 방법이 있다는 것을 이해할 수 있을 것이다. 예를 들어, 오디오 신호가 무성음 신호인지는 오디오 신호의 시간-도메인 제로-크로싱 레이트(Zero-Crossing Rate, ZCR)를 검출함으로써 결정될 수 있다. 구체적으로, 오디오 신호의 ZCR이 ZCR 임계값보다 큰 경우, 오디오 신호는 무성음 신호인 것으로 결정되고, 여기서 ZCR 임계값은 많은 경험 수치에 따라 결정된다.
203. 오디오 신호의 강화된 SSNR을 결정하며, 여기서 강화된 SSNR은 기준 SSNR보다 크다.
기준 SSNR은 식 1.1을 사용하는 계산을 통해 획득된 SSNR일 수 있다. 식 1.1로부터 알 수 있는 바와 같이, 기준 SSNR이 계산될 때 임의의 하위대역의 하위대역 SNR에 대해 가중 처리가 수행되지 않으며, 즉 기준 SSNR이 계산될 때 모든 하위대역의 하위대역 SNR의 가중치는 같다.
선택적으로, 실시예에서, 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제1 수량보다 큰 경우에, 또는 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제2 수량보다 크고, 오디오 신호 내에 있으면서 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 수량이 제3 수량보다 큰 경우에, 오디오 신호의 강화된 SSNR을 결정하는 단계는, 오디오 신호 내의 각각의 하위대역의 하위대역 SNR의 가중치를 결정하는 단계 - 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 가중치가 다른 하위대역의 하위대역 SNR의 가중치보다 큼 - ; 및 오디오 신호 내의 각각의 하위대역의 하위대역 SNR 및 각각의 하위대역의 하위대역 SNR의 가중치에 따라 상기 강화된 SSNR을 결정하는 단계를 포함한다.
예를 들어, 오디오 신호가 음향심리학적 이론에 따라, 20개의 하위대역, 즉 하위대역 0 내지 하위대역 19로 분할되고, 하위대역 18의 신호대잡음비 및 하위대역 19의 신호대잡음비 양자가 제1 사전설정된 값 T1보다 크면, 4개의 하위대역, 즉 하위대역 20 내지 하위대역 23이 부가될 수 있다. 구체적으로, 신호대잡음비가 T1보다 큰 하위대역 18 및 하위대역 19는 하위대역 18a, 하위대역 18b, 하위대역 18c, 및 하위대역 19a, 하위대역 19b, 하위대역 19c로 각각 분할될 수 있다. 이 경우, 하위대역 18은 하위대역 18a, 하위대역 18b, 하위대역 18c의 모 하위대역(mother sub-band)으로 고려될 수 있고, 하위대역 19는 하위대역 19a, 하위대역 19b, 하위대역 19c의 모 하위대역으로 고려될 수 있다. 하위대역 18a, 하위대역 18b, 하위대역 18c의 신호대잡음비의 값은 자신의 모 하위대역의 신호대잡음비의 값과 같고, 하위대역 19a, 하위대역 19b, 하위대역 19c의 신호대잡음비의 값은 자신의 모 하위대역의 신호대잡음비의 값과 같다. 이 방법에서, 분할을 통해 본래부터 획득되는 20개의 하위대역은 24개의 하위대역으로 재분할된다. 그럼에도 VAD는 액티브 신호 검출 동안 20개의 하위대역에 따라 설계되므로, 강화된 SSNR을 결정하기 위해서는 24개의 하위대역이 20개의 하위대역에 역으로 맵핑되어야 한다. 결론적으로, 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량을 증가시킴으로써 강화된 SSNR을 결정할 때, 계산은 이하의 식을 사용해서 수행될 수 있다:
Figure 112018073518119-pat00005
식 1.3
여기서 SSNR'은 강화된 SSNR을 나타내고, snr(k)은 k번째 하위대역의 하위대역 SNR을 나타낸다.
식 1.1을 사용하는 계산을 통해 획득된 SSNR이 기준 SSNR이면, 계산을 통해 획득된 기준 SSNR은
Figure 112018073518119-pat00006
이다. 당연히, 제1 유형의 오디오 신호에 있어서, 식 1.3을 사용하는 계산을 통해 획득되는 강화된 SSNR의 값은 식 1.1을 사용하는 계산을 통해 획득된 기준 SSNR의 값보다 크다.
다른 예에 있어서, 오디오 신호가 음향심리학적 이론에 따라, 20개의 하위대역, 즉 하위대역 0 내지 하위대역 19로 분할되고, 하위대역 18 및 하위대역 19 양자가 제1 사전설정된 값 T1보다 크며, snr(0) 내지 snr(17)이 모두 제2 사전설정된 값 T1보다 작으면, 강화된 SSNR은 이하를 사용하여 결정될 수 있다:
Figure 112018073518119-pat00007
식 1.4
여기서 SSNR'은 강화된 SSNR을 나타내고, snr(k)은 k번째 하위대역의 하위대역 SNR을 나타내고,
Figure 112018073518119-pat00008
Figure 112018073518119-pat00009
는 가중 증가 파라미터이며,
Figure 112018073518119-pat00010
Figure 112018073518119-pat00011
의 값은
Figure 112018073518119-pat00012
Figure 112018073518119-pat00013
보다 크게 한다. 당연히, 식 1.4를 이용하는 계산을 통해 획득되는 강화된 SSNR의 값이 식 1.1을 사용하는 계산에 통해 획득되는 기준 SSNR의 값보다 크다.
선택적으로, 다른 실시예에서, 오디오 신호의 강화된 SSNR을 결정하는 단계는, 오디오 신호의 기준 SSNR을 결정하는 단계, 및 오디오 신호의 기준 SSNR에 따라 강화된 SSNR을 결정하는 단계를 포함한다.
선택적으로, 강화된 SSNR은 이하의 식:
SSNR' = x * SSNR + y 식 1.5
을 사용함으로써 상기 강화된 SSNR을 결정할 수 있으며,
여기서 SSNR은 오디오 신호의 기준 SSNR을 나타내고, SSNR'은 강화된 SSNR을 나타내며, x 및 y는 강화 파라미터를 나타낸다. 예를 들어, x의 값은 1.05일 수 있고, y의 값은 1일 수 있다. 당업자라면 x 및 y은 강화된 SSNR을 기준 SSNR보다 적절하게 크게 하는 다른 적절한 값일 수 있다는 것을 이해할 수 있을 것이다.
선택적으로, 강화된 SSNR은 이하의 식:
SSNR' = f(x) * SSNR + h(y) 식 1.6
를 사용함으로써 상기 강화된 SSNR을 결정할 수 있으며,
여기서 SSNR은 기준 SSNR을 나타내고, SSNR'은 강화된 SSNR을 나타내며, f(x) 및 h(y)는 강화 함수를 나타낸다. 예를 들어, f(x) 및 h(y)는 오디오 신호의 장기 신호대잡음비(Long-term SNR, LSNR)와 관련된 함수일 수 있으며, 여기서 오디오 신호의 LSNR은 상대적으로 장시간 내의 평균 SNR 또는 가중된 SNR이다. 예를 들어, lsnr이 20보다 클 때, f(lsnr)는 1.1일 수 있고, y(lsnr)는 2일 수 있으며, lsnr이 20보다 작고 15보다 클 때, f(lsnr)는 1.05일 수 있고, y(lsnr)는 1일 수 있으며, lsnr이 15보다 작을 때, f(lsnr)는 1일 수 있고, y(lsnr)는 0일 수 있다. 당업자라면 f(x) 및 h(y)는 강화된 SSNR이 기준 SSNR보다 적절하게 크도록 다른 적절한 형태일 수도 있다는 것을 이해할 수 있을 것이다.
204. 오디오 신호가 액티브 신호인지를 판정하기 위해 강화된 SSNR과 VAD 판정 임계값을 비교한다.
구체적으로, 강화된 SSNR과 VAD 판정 임계값을 비교할 때, 강화된 SSNR이 VAD 판정 임계값보다 크면, 오디오 신호는 액티브 신호인 것으로 결정되고, 강화된 SSNR이 VAD 판정 임계값보다 크기 않으면, 오디오 신호는 인액티브 신호인 것으로 결정된다.
선택적으로, 다른 실시예에서, 강화된 SSNR과 음성 액티비티 검출(VAD) 판정 임계값을 비교하는 단계 이전에, 상기 오디오 신호를 검출하는 방법은, 사전설정된 알고리즘을 사용하여 상기 VAD 판정 임계값을 감소시켜, 감소된 VAD 판정 임계값을 획득하는 단계를 더 포함한다. 상기 강화된 SSNR과 음성 액티비티 검출(VAD) 판정 임계값을 비교하는 단계는 구체적으로, 상기 오디오 신호가 액티브 신호인지를 판정하기 위해 상기 강화된 SSNR과 상기 감소된 VAD 판정 임계값을 비교하는 단계를 포함한다. 기준 VAD 판정 임계값은 디폴트 VAD 판정 임계값일 수 있고, 기준 VAD 판정 임계값은 미리 저장될 수 있거나 계산을 통해 일시적으로 획득될 수 있으며, 여기서 기준 VAD 판정 임계값은 기존의 잘 알려진 기술을 사용하여 계산될 수 있다. 기준 VAD 판정 임계값이 사전설정된 알고리즘을 사용하여 감소될 때, 사전설정된 알고리즘은 기준 VAD 판정 임계값에 1보다 작은 계수를 곱하는 것일 수 있거나, 다른 알고리즘이 사용될 수 있다. 본 발명의 이 실시예는 사용된 특정한 알고리즘에 제한을 두지 않는다. VAD 판정 임계값은 사전설정된 알고리즘을 사용하여 적절하게 감소될 수 있으며, 이에 따라 강화된 SSNR은 감소된 VAD 판정 임계값보다 크다. 그러므로 액티브 신호의 오검출의 비율이 감소될 수 있다.
도 2에 도시된 방법에 따르면, 오디오 신호의 특징이 결정되고, 이 오디오 신호의 특징에 따라 대응하는 방식으로 강화된 SSNR이 결정되며, 강화된 SSNR이 VAD 판정 임계값과 비교된다. 이 방법에서, 액티브 신호의 오검출의 비율이 감소될 수 있다.
도 3은 본 발명의 실시예에 따라 오디오 신호를 검출하는 방법에 대한 개략적인 흐름도이다.
301. 입력 오디오 신호를 결정될 오디오 신호로서 결정한다.
302. 오디오 신호 내의 각각의 하위대역의 하위대역 SNR의 가중치를 결정하며, 여기서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 하위대역 SNR의 가중치가 다른 하위대역의 하위대역 SNR의 가중치보다 크다.
303. 오디오 신호 내의 각각의 하위대역의 하위대역 SNR 및 각각의 하위대역의 하위대역 SNR의 가중치에 따라 상기 강화된 SSNR을 결정하며, 여기서 강화된 SSNR은 기준 SSNR보다 크다.
기준 SSNR은 식 1.1을 사용하는 계산을 통해 획득된 SSNR일 수 있다. 식 1.1로부터 알 수 있는 바와 같이, 기준 SSNR이 계산될 때 임의의 하위대역의 하위대역 SNR에 대해 가중 처리가 수행되지 않으며, 즉 기준 SSNR이 계산될 때 모든 하위대역의 하위대역 SNR의 가중치는 같다.
예를 들어, 오디오 신호가 음향심리학적 이론에 따라, 20개의 하위대역, 즉 하위대역 0 내지 하위대역 19로 분할되고, 하위대역 18 및 하위대역 19 양자가 제1 사전설정된 값 T1보다 크면, 4개의 하위대역, 즉 하위대역 20 내지 하위대역 23이 부가될 수 있다. 구체적으로, 신호대잡음비가 T1보다 큰 하위대역 18 및 하위대역 19는 하위대역 18a, 하위대역 18b, 하위대역 18c, 및 하위대역 19a, 하위대역 19b, 하위대역 19c로 각각 분할될 수 있다. 이 경우, 하위대역 18은 하위대역 18a, 하위대역 18b, 하위대역 18c의 모 하위대역으로 고려될 수 있고, 하위대역 19는 하위대역 19a, 하위대역 19b, 하위대역 19c의 모 하위대역으로 고려될 수 있다. 하위대역 18a, 하위대역 18b, 하위대역 18c의 신호대잡음비의 값은 자신의 모 하위대역의 신호대잡음비의 값과 같고, 하위대역 19a, 하위대역 19b, 하위대역 19c의 신호대잡음비의 값은 자신의 모 하위대역의 신호대잡음비의 값과 같다. 이 방법에서, 분할을 통해 본래부터 획득되는 20개의 하위대역은 24개의 하위대역으로 재분할된다. 그럼에도 VAD는 액티브 신호 검출 동안 20개의 하위대역에 따라 설계되므로, 강화된 SSNR을 결정하기 위해서는 24개의 하위대역이 20개의 하위대역에 역으로 맵핑되어야 한다. 결론적으로, 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량을 증가시킴으로써 강화된 SSNR을 결정할 때, 계산은 이하의 식을 사용해서 수행될 수 있다:
Figure 112018073518119-pat00014
식 1.3
여기서 SSNR'은 강화된 SSNR을 나타내고, snr(k)은 k번째 하위대역의 하위대역 SNR을 나타낸다.
식 1.1을 사용하는 계산을 통해 획득된 SSNR이 기준 SSNR이면, 계산을 통해 획득된 기준 SSNR은
Figure 112018073518119-pat00015
이다. 당연히, 제1 유형의 오디오 신호에 있어서, 식 1.3을 사용하는 계산을 통해 획득되는 강화된 SSNR의 값은 식 1.1을 사용하는 계산을 통해 획득된 기준 SSNR의 값보다 크다.
다른 예에 있어서, 오디오 신호가 음향심리학적 이론에 따라, 20개의 하위대역, 즉 하위대역 0 내지 하위대역 19로 분할되고, 하위대역 18 및 하위대역 19 양자가 제1 사전설정된 값 T1보다 크며, snr(0) 내지 snr(17)이 모두 제2 사전설정된 값 T1보다 작으면, 강화된 SSNR은 이하를 사용하여 결정될 수 있다:
Figure 112018073518119-pat00016
식 1.4
여기서 SSNR'은 강화된 SSNR을 나타내고, snr(k)은 k번째 하위대역의 하위대역 SNR을 나타내고,
Figure 112018073518119-pat00017
Figure 112018073518119-pat00018
는 가중 증가 파라미터이며,
Figure 112018073518119-pat00019
Figure 112018073518119-pat00020
의 값은
Figure 112018073518119-pat00021
Figure 112018073518119-pat00022
보다 크게 한다. 당연히, 식 1.4를 이용하는 계산을 통해 획득되는 강화된 SSNR의 값이 식 1.1을 사용하는 계산에 통해 획득되는 기준 SSNR의 값보다 크다.
304. 오디오 신호가 액티브 신호인지를 판정하기 위해 강화된 SSNR과 VAD 판정 임계값을 비교한다.
구체적으로, 강화된 SSNR과 VAD 판정 임계값을 비교할 때, 강화된 SSNR이 VAD 판정 임계값보다 크면, 오디오 신호는 액티브 신호인 것으로 결정되고, 강화된 SSNR이 VAD 판정 임계값보다 크기 않으면, 오디오 신호는 인액티브 신호인 것으로 결정된다.
도 3에 도시된 방법에 따르면, 오디오 신호의 특징이 결정될 수 있으며, 이 오디오 신호의 특징에 따라 대응하는 방식으로 강화된 SSNR이 결정되며, 강화된 SSNR은 VAD 판정 임계값과 비교된다. 그러므로 액티브 신호의 오검출의 비율이 감소될 수 있다.
또한, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계는, 오디오 신호를 오디오 신호의 하위대역 SNR에 따라 결정될 오디오 신호로서 결정하는 단계를 포함한다.
선택적으로, 실시예에서, 오디오 신호가 오디오 신호의 하위대역 SNR에 따라 결정될 오디오 신호로서 결정되는 경우, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계는, 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제1 수량보다 큰 경우에 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계를 포함한다.
선택적으로, 다른 실시예에서, 오디오 신호가 오디오 신호의 하위대역 SNR에 따라 결정될 오디오 신호로서 결정되는 경우, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계는, 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제2 수량보다 크고, 오디오 신호 내에 있으면서 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 수량이 제3 수량보다 큰 경우에 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계를 포함한다.
제1 사전설정된 임계값 및 제2 사전설정된 임계값은 대량의 음성 샘플에 따라 통계 수집에 의해 획득될 수 있다. 구체적으로, 고주파단 하위대역의 하위대역 SNR에 관한 통계는 배경 잡음을 포함하는 대량의 무성음 샘플에서 수집되고, 제1 사전설정된 임계값은 하위대역 SNR에 따라 결정되며, 이에 따라 이러한 무성음 샘플 중의 대부분의 고주파단 하위대역의 하위대역 SNR은 제1 사전설정된 임계값보다 크다. 마찬가지로, 저주파단 하위대역의 하위대역 SNR에 관한 통계는 이러한 무성음 샘플에서 수집되고, 제2 사전설정된 임계값은 하위대역 SNR에 따라 결정되며, 이에 따라 이러한 무성음 샘플 중의 대부분의 저주파단 하위대역의 하위대역 SNR은 제2 사전설정된 임계값보다 작다.
제1 수량, 제2 수량, 및 제3 수량 역시 통계 수집에 의해 획득된다. 제1 수량을 예로 사용하면, 잡음을 포함하는 대량의 무성음 샘플 프레임에서, 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 하위대역 수량에 관한 통계가 수집되고, 제1 수량은 상기 수량에 따라 결정되고, 이에 따라 이러한 대부분의 무성음 샘플 프레임 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량은 제1 수량보다 크다. 제2 수량을 획득하는 방법은 제1 수량을 획득하는 방법과 유사하다. 제2 수량은 제1 수량과 같을 수도 있고, 제2 수량은 제1 수량과 다를 수도 있다. 마찬가지로, 제3 수량에 있어서, 잡음을 포함하는 대량의 무성음 샘플 프레임에서, 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 하위대역 수량에 관한 통계가 수집되고, 제3 수량은 상기 수량에 따라 결정되고, 이에 따라 이러한 대부분의 무성음 샘플 프레임 내에 있으면서 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 수량은 제3 수량보다 크다.
도 1 내지 도 3의 실시예에서, 입력 오디오 신호가 액티브 신호인지는 강화된 SSNR을 사용하는 방식으로 결정된다. 도 4에 도시된 방법에서, 입력 오디오 신호가 액티브 신호인지는 VAD 판정 임계값을 감소시키는 방식으로 결정된다.
도 4는 본 발명의 실시예에 따라 오디오 신호를 검출하는 방법에 대한 개략적인 흐름도이다.
401. 입력 오디오 신호를 결정된 오디오 신호로서 결정한다.
선택적으로, 실시예에서, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계는, 단계 201에서 결정된 오디오 신호의 하위대역 SNR에 따라 상기 오디오 신호를 결정될 오디오 신호로서 결정하는 단계를 포함할 수 있다.
선택적으로, 실시예에서, 오디오 신호가 오디오 신호의 하위대역 SNR에 따라 결정될 오디오 신호로서 결정되는 경우, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계는, 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제1 수량보다 큰 경우에 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계를 포함한다.
선택적으로, 다른 실시예에서, 오디오 신호가 오디오 신호의 하위대역 SNR에 따라 결정될 오디오 신호로서 결정되는 경우, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계는, 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제2 수량보다 크고, 오디오 신호 내에 있으면서 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 수량이 제3 수량보다 큰 경우에 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계를 포함한다.
선택적으로, 다른 실시예에서, 오디오 신호가 오디오 신호의 하위대역 SNR에 따라 결정될 오디오 신호로서 결정되는 경우, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계는, 오디오 신호 내에 있으면서 하위대역 SNR의 값이 제3 사전설정된 임계값보다 큰 하위대역의 수량이 제4 수량보다 큰 경우에 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계를 포함한다.
제1 사전설정된 임계값 및 제2 사전설정된 임계값은 대량의 음성 샘플에 따라 통계 수집에 의해 획득될 수 있다. 구체적으로, 고주파단 하위대역의 하위대역 SNR에 관한 통계는 배경 잡음을 포함하는 대량의 무성음 샘플에서 수집되고, 제1 사전설정된 임계값은 하위대역 SNR에 따라 결정되며, 이에 따라 이러한 무성음 샘플 중의 대부분의 고주파단 하위대역의 하위대역 SNR은 제1 사전설정된 임계값보다 크다. 마찬가지로, 저주파단 하위대역의 하위대역 SNR에 관한 통계는 이러한 무성음 샘플에서 수집되고, 제2 사전설정된 임계값은 하위대역 SNR에 따라 결정되며, 이에 따라 이러한 무성음 샘플 중의 대부분의 저주파단 하위대역의 하위대역 SNR은 제2 사전설정된 임계값보다 작다.
제3 사전설정된 임계값 역시 통계 수집에 의해 획득된다. 구체적으로, 제3 사전설정된 임계값은 대량의 잡음 신호의 하위대역 SNR에 따라 결정되며, 이에 따라 이러한 잡음 신호 중의 대부분의 하위대역의 하위대역 SNR은 제3 사전설정된 임계값보다 작다.
제1 수량, 제2 수량, 제3 수량, 및 제4 수량 역시 통계 수집에 의해 획득된다. 제1 수량을 예로 사용하면, 잡음을 포함하는 대량의 무성음 샘플 프레임에서, 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 하위대역 수량에 관한 통계가 수집되고, 제1 수량은 상기 수량에 따라 결정되고, 이에 따라 이러한 대부분의 무성음 샘플 프레임 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량은 제1 수량보다 크다. 제2 수량을 획득하는 방법은 제1 수량을 획득하는 방법과 유사하다. 제2 수량은 제1 수량과 같을 수도 있고, 제2 수량은 제1 수량과 다를 수도 있다. 마찬가지로, 제3 수량에 있어서, 잡음을 포함하는 대량의 무성음 샘플 프레임에서, 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 하위대역 수량에 관한 통계가 수집되고, 제3 수량은 상기 수량에 따라 결정되고, 이에 따라 이러한 대부분의 무성음 샘플 프레임 내에 있으면서 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 수량은 제3 수량보다 크다. 제4 수량에 있어서, 대량의 잡음 신호 프레임에서, 하위대역 SNR이 제3 사전설정된 임계값보다 작은 하위대역 수량에 관한 통계가 수집되고, 제4 수량은 상기 수량에 따라 결정되고, 이에 따라 이러한 대부분의 잡음 샘플 프레임 내에 있으면서 하위대역 SNR이 제3 사전설정된 임계값보다 작은 하위대역의 수량은 제4 수량보다 크다.
선택적으로, 다른 실시예에서, 입력 오디오 신호가 결정될 오디오 신호인지는 입력 오디오 신호가 무성음 신호인지를 결정함으로써 결정될 수 있다. 이 경우, 오디오 신호의 하위대역 SNR은 오디오 신호가 결정될 오디오 신호인지를 결정할 때 결정되지 않아도 된다. 환언하면, 단계 201은 오디오 신호가 결정될 오디오 신호인지를 결정할 때 수행되지 않아도 된다. 구체적으로, 입력 오디오 신호를 결정될 오디오 신호로서 결정하는 단계는, 오디오 신호가 무성음 신호인 것으로 결정되는 경우에 오디오 신호를 결정될 오디오 신호로서 결정하는 단계를 포함한다. 구체적으로, 당업자라면 오디오 신호가 무성음 신호인지를 검출하는 여러 방법이 있다는 것을 이해할 수 있을 것이다. 예를 들어, 오디오 신호가 무성음 신호인지는 오디오 신호의 시간-도메인 ZCR을 검출함으로써 결정될 수 있다. 구체적으로, 오디오 신호의 ZCR이 ZCR 임계값보다 큰 경우, 오디오 신호는 무성음 신호인 것으로 결정되고, 여기서 ZCR 임계값은 많은 경험 수치에 따라 결정된다.
402. 오디오 신호의 기준 SSNR을 획득한다.
구체적으로, 기준 SSNR은 식 1.1을 사용하는 계산을 통해 획득된 SSNR일 수 있다.
403. 사전설정된 알고리즘을 사용하여 기준 VAD 판정 임계값을 감소시켜, 감소된 VAD 판정 임계값을 획득한다.
구체적으로, 기준 VAD 판정 임계값은 디폴트 VAD 판정 임계값일 수 있으며, 기준 VAD 판정 임계값은 미리 저장될 수 있거나 계산을 통해 일시적으로 획득될 수 있으며, 여기서 기준 VAD 판정 임계값은 기존의 공지된 기술을 사용하여 계산될 수 있다. 사전설정된 알고리즘을 사용하여 기준 VAD 판정 임계값이 감소될 때, 사전설정된 알고리즘은 기준 VAD 판정 임계값에 1보다 작은 계수를 곱하는 것일 수 있거나, 다른 알고리즘이 사용될 수 있다. 본 발명의 이 실시예는 사용된 특정한 알고리즘에 제한을 두지 않는다. VAD 판정 임계값은 사전설정된 알고리즘을 사용하여 적절하게 감소될 수 있으며, 이에 따라 강화된 SSNR은 감소된 VAD 판정 임계값보다 크다. 그러므로 액티브 신호의 오검출의 비율이 감소될 수 있다.
404. 오디오 신호가 액티브 신호인지를 판정하기 위해 기준 SSNR과 감소된 VAD 판정 임계값을 비교한다.
종래의 SSNR 계산 방법을 사용하여 일부의 오디오 신호의 SSNR을 계산할 때, 이러한 오디오 신호의 SSNR은 사전설정된 VAD 판정 임계값보다 낮을 수 있다. 그렇지만, 실제로, 이러한 오디오 신호는 액티브 오디오 신호이다. 이것은 이러한 오디오 신호의 특징에 기인한다. 예를 들어, 환경 SNR이 비교적 낮은 경우, 고주파 부분의 하위대역 SNR이 상당히 감소된다. 게다가, 통상적으로 하위대역 분할을 수행하는 데는 음향심리학 이론이 사용되기 때문에, 고주파 부분의 하위대역 SNR은 SSNR에 대해 상대적으로 낮은 기여도를 가진다. 이 경우, 무성음 신호와 같이, 에너지가 상대적으로 높은 주파수 부분에 주로 집중되어 있는 일부의 신호에 있어서, 종래의 SSNR 계산 방법을 사용하는 계산을 통해 획득된 SSNR은 VAD 판정 임계값보다 낮을 수 있고, 이것은 액티브 신호의 오검출을 야기한다. 다른 예에 있어서, 일부의 신호에 있어서, 이러한 오디오 신호의 에너지 분포는 스펙트럼 상에서는 상대적으로 편평하지만 이러한 오디오 신호의 전체 에너지는 상대적으로 낮다. 그러므로 환경 SNR이 상대적으로 낮은 경우, 종래의 SSNR 계산 방법을 사용하는 계산을 통해 획득된 SSNR은 VAD 판정 임계값보다 낮을 수 있다. 도 4에 도시된 방법에서는, SSNR을 적절하게 증가시키는 방식이 사용되며, 이에 따라 종래의 SSNR 계산 방법을 사용하는 계산을 통해 획득된 SSNR은 VAD 판정 임계값보다 크다. 그러므로 액티브 신호의 오검출의 비율이 효과적으로 감소될 수 있다.
도 5는 본 발명의 실시예에 따른 장치에 대한 구조 블록도이다. 도 5에 도시된 장치는 도 1 및 도 2에 도시된 모든 단계를 수행할 수 있다. 도 5에 도시된 바와 같이, 장치(500)는 제1 결정 유닛(501), 제2 결정 유닛(502), 및 제3 결정 유닛(503)을 포함한다.
제1 결정 유닛(510)은 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
제2 결정 유닛(502)은 오디오 신호의 강화된 분할 신호대잡음비(SSNR)를 결정하도록 구성되어 있으며, 상기 강화된 SSNR은 기준 SSNR보다 크다.
제3 결정 유닛(503)은 오디오 신호가 액티브 신호인지를 판정하기 위해 상기 강화된 SSNR과 음성 액티비티 검출(VAD) 판정 임계값을 비교하도록 구성되어 있다.
도 5에 도시된 장치(500)는 오디오 신호의 특징을 결정하고, 오디오 신호의 특징에 따라 대응하는 방식으로 강화된 SSNR을 결정하고, 강화된 SSNR과 VAD 판정 임계값을 비교할 수 있으며, 이에 따라 액티브 신호의 오검출 비율이 감소될 수 있다.
선택적으로, 실시예에서, 상기 제1 결정 유닛(501)은 구체적으로, 오디오 신호의 하위대역 신호대잡음비(SNR)에 따라 상기 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
선택적으로, 실시예에서, 상기 제1 결정 유닛(501)이 오디오 신호의 하위대역 SNR에 따라 오디오 신호를 결정될 오디오 신호로서 결정하는 경우에, 상기 제1 결정 유닛(501)은 구체적으로, 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제1 수량보다 큰 경우에, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
선택적으로, 실시예에서, 상기 제1 결정 유닛(501)이 오디오 신호의 하위대역 SNR에 따라 오디오 신호를 결정될 오디오 신호로서 결정하는 경우에, 상기 제1 결정 유닛(501)은 구체적으로, 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제2 수량보다 크고, 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 수량이 제3 수량보다 큰 경우에, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
선택적으로, 실시예에서, 상기 제1 결정 유닛(501)이 오디오 신호의 하위대역 SNR에 따라 오디오 신호를 결정될 오디오 신호로서 결정하는 경우에, 상기 제1 결정 유닛(501)은 구체적으로, 상기 오디오 신호 내에 있으면서 하위대역 SNR의 값이 제3 사전설정된 임계값보다 큰 하위대역의 수량이 제4 수량보다 큰 경우에, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
선택적으로, 실시예에서, 상기 제1 결정 유닛(501)은 구체적으로, 상기 오디오 신호가 무성음 신호인 것으로 결정되는 경우에, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다. 구체적으로, 당업자라면 오디오 신호가 무성음 신호인지를 검출하는 여러 방법이 있다는 것을 이해할 수 있을 것이다. 예를 들어, 오디오 신호가 무성음 신호인지는 오디오 신호의 시간-도메인 ZCR을 검출함으로써 결정될 수 있다. 구체적으로, 오디오 신호의 ZCR이 ZCR 임계값보다 큰 경우, 오디오 신호는 무성음 신호인 것으로 결정되고, 여기서 ZCR 임계값은 많은 경험 수치에 따라 결정된다.
제1 사전설정된 임계값 및 제2 사전설정된 임계값은 대량의 음성 샘플에 따라 통계 수집에 의해 획득될 수 있다. 구체적으로, 고주파단 하위대역의 하위대역 SNR에 관한 통계는 배경 잡음을 포함하는 대량의 무성음 샘플에서 수집되고, 제1 사전설정된 임계값은 하위대역 SNR에 따라 결정되며, 이에 따라 이러한 무성음 샘플 중의 대부분의 고주파단 하위대역의 하위대역 SNR은 제1 사전설정된 임계값보다 크다. 마찬가지로, 저주파단 하위대역의 하위대역 SNR에 관한 통계는 이러한 무성음 샘플에서 수집되고, 제2 사전설정된 임계값은 하위대역 SNR에 따라 결정되며, 이에 따라 이러한 무성음 샘플 중의 대부분의 저주파단 하위대역의 하위대역 SNR은 제2 사전설정된 임계값보다 작다.
제3 사전설정된 임계값 역시 통계 수집에 의해 획득된다. 구체적으로, 제3 사전설정된 임계값은 대량의 잡음 신호의 하위대역 SNR에 따라 결정되며, 이에 따라 이러한 잡음 신호 중의 대부분의 하위대역의 하위대역 SNR은 제3 사전설정된 임계값보다 작다.
제1 수량, 제2 수량, 제3 수량, 및 제4 수량 역시 통계 수집에 의해 획득된다. 제1 수량을 예로 사용하면, 잡음을 포함하는 대량의 무성음 샘플 프레임에서, 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 하위대역 수량에 관한 통계가 수집되고, 제1 수량은 상기 수량에 따라 결정되고, 이에 따라 이러한 대부분의 무성음 샘플 프레임 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량은 제1 수량보다 크다. 제2 수량을 획득하는 방법은 제1 수량을 획득하는 방법과 유사하다. 제2 수량은 제1 수량과 같을 수도 있고, 제2 수량은 제1 수량과 다를 수도 있다. 마찬가지로, 제3 수량에 있어서, 잡음을 포함하는 대량의 무성음 샘플 프레임에서, 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 하위대역 수량에 관한 통계가 수집되고, 제3 수량은 상기 수량에 따라 결정되고, 이에 따라 이러한 대부분의 무성음 샘플 프레임 내에 있으면서 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 수량은 제3 수량보다 크다. 제4 수량에 있어서, 대량의 잡음 신호 프레임에서, 하위대역 SNR이 제3 사전설정된 임계값보다 작은 하위대역 수량에 관한 통계가 수집되고, 제4 수량은 상기 수량에 따라 결정되고, 이에 따라 이러한 대부분의 잡음 샘플 프레임 내에 있으면서 하위대역 SNR이 제3 사전설정된 임계값보다 작은 하위대역의 수량은 제4 수량보다 크다.
또한, 상기 제2 결정 유닛(502)은 구체적으로, 상기 오디오 신호 내의 각각의 하위대역의 하위대역 SNR의 가중치를 결정하고 - 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 하위대역 SNR의 가중치가 다른 하위대역의 하위대역 SNR의 가중치보다 큼 - ; 그리고 상기 오디오 신호 내의 각각의 하위대역의 하위대역 SNR 및 각각의 하위대역의 하위대역 SNR의 가중치에 따라 상기 강화된 SSNR을 결정하도록 구성되어 있다.
선택적으로, 실시예에서, 상기 제2 결정 유닛(502)은 구체적으로, 오디오 신호의 기준 SSNR을 결정하고; 그리고 상기 오디오 신호의 기준 SSNR에 따라 상기 강화된 SSNR을 결정하도록 구성되어 있다.
기준 SSNR은 식 1.1을 사용하는 계산을 통해 획득된 SSNR일 수 있다. 기준 SSNR이 계산될 때, SSNR에 포함되어 있는 모든 하위대역의 하위대역 SNR의 가중치는 SSNR에서 같다.
선택적으로, 실시예에서, 상기 제2 결정 유닛(502)은 구체적으로,
다음 식:
SSNR' = x * SSNR + y 식 1.7
을 사용함으로써 상기 강화된 SSNR을 결정하도록 구성되어 있으며,
여기서 SSNR은 기준 SSNR을 나타내고, SSNR'은 강화된 SSNR을 나타내며, x 및 y는 강화 파라미터를 나타낸다. 예를 들어, x의 값은 1.05일 수 있고, y의 값은 1일 수 있다. 당업자라면 x 및 y은 강화된 SSNR을 기준 SSNR보다 적절하게 크게 하는 다른 적절한 값일 수 있다는 것을 이해할 수 있을 것이다.
선택적으로, 다른 실시예에서, 상기 제2 결정 유닛(502)은 구체적으로,
다음 식:
SSNR' = f(x) * SSNR + h(y) 식 1.8
를 사용함으로써 상기 강화된 SSNR을 결정하도록 구성되어 있으며,
여기서 SSNR은 기준 SSNR을 나타내고, SSNR'은 강화된 SSNR을 나타내며, f(x) 및 h(y)는 강화 함수를 나타낸다. 예를 들어, f(x) 및 h(y)는 오디오 신호의 LSNR와 관련된 함수일 수 있으며, 여기서 오디오 신호의 LSNR은 상대적으로 장시간 내의 평균 SNR 또는 가중된 SNR이다. 예를 들어, lsnr이 20보다 클 때, f(lsnr)는 1.1일 수 있고, y(lsnr)는 2일 수 있으며, lsnr이 20보다 작고 15보다 클 때, f(lsnr)는 1.05일 수 있고, y(lsnr)는 1일 수 있으며, lsnr이 15보다 작을 때, f(lsnr)는 1일 수 있고, y(lsnr)는 0일 수 있다. 당업자라면 f(x) 및 h(y)는 강화된 SSNR이 기준 SSNR보다 적절하게 크도록 다른 적절한 형태일 수도 있다는 것을 이해할 수 있을 것이다.
제3 결정 유닛(503)은 구체적으로, 비교의 결과에 따라 오디오 신호가 액티브 신호인지를 판정하기 위해, 강화된 SSNR과 VAD 판정 임계값을 비교하도록 구성되어 있다. 구체적으로, 강화된 SSNR이 VAD 판정 임계값보다 크면, 오디오 신호가 액티브 신호인 것으로 결정되고, 강화된 SSNR이 VAD 판정 임계값보다 작으면, 오디오 신호가 인액티브 신호인 것으로 결정된다.
선택적으로, 다른 실시예에서, 사전설정된 알고리즘 역시 기준 VAD 판정 임계값을 감소시켜 감소된 VAD 판정 임계값을 획득하는 데 사용될 수 있고, 감소된 VAD 판정 임계값 역시 오디오 신호가 액티브 신호인지를 판정하는 데 사용된다. 이 경우, 상기 장치(500)는 제4 결정 유닛(504)을 더 포함할 수 있으며, 상기 제4 결정 유닛(504)은 사전설정된 알고리즘을 사용하여 상기 VAD 판정 임계값을 감소시켜, 감소된 VAD 판정 임계값을 획득하도록 구성되어 있다. 이 경우, 상기 제3 결정 유닛(503)은 구체적으로, 상기 오디오 신호가 액티브 신호인지를 판정하기 위해 상기 강화된 SSNR과 상기 감소된 VAD 판정 임계값을 비교하도록 구성되어 있다.
도 6은 본 발명의 실시예에 따른 다른 장치에 대한 구조 블록도이다. 도 6에 도시된 장치는 도 3에 도시된 모든 단계를 수행할 수 있다. 도 6에 도시된 바와 같이, 장치(600)는 제1 결정 유닛(601), 제2 결정 유닛(602), 및 제3 결정 유닛(603)을 포함한다.
제1 결정 유닛(601)은 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
제2 결정 유닛(602)은 오디오 신호 내의 각각의 하위대역의 하위대역 SNR의 가중치를 결정하고 - 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 하위대역 SNR의 가중치가 다른 하위대역의 하위대역 SNR의 가중치보다 큼 - ; 그리고 상기 오디오 신호 내의 각각의 하위대역의 하위대역 SNR 및 각각의 하위대역의 하위대역 SNR의 가중치에 따라 강화된 SSNR을 결정하도록 구성되어 있으며, 상기 강화된 SSNR은 기준 SSNR보다 크다.
제3 결정 유닛(603)은 오디오 신호가 액티브 신호인지를 판정하기 위해 상기 강화된 SSNR과 VAD 판정 임계값을 비교하도록 구성되어 있다.
도 6에 도시된 장치(600)는 오디오 신호의 특징을 결정하고, 오디오 신호의 특징에 따라 대응하는 방식으로 강화된 SSNR을 결정하고, 강화된 SSNR과 VAD 판정 임계값을 비교할 수 있으며, 이에 따라 액티브 신호의 오검출 비율이 감소될 수 있다.
또한, 상기 제1 결정 유닛(601)은 구체적으로, 오디오 신호의 하위대역 SNR에 따라 상기 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
선택적으로, 실시예에서, 상기 제1 결정 유닛(601)은 구체적으로, 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제1 수량보다 큰 경우에, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
선택적으로, 실시예에서, 상기 제1 결정 유닛(601)은 구체적으로, 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제2 수량보다 크고, 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 수량이 제3 수량보다 큰 경우에, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
제1 사전설정된 임계값 및 제2 사전설정된 임계값은 대량의 음성 샘플에 따라 통계 수집에 의해 획득될 수 있다. 구체적으로, 고주파단 하위대역의 하위대역 SNR에 관한 통계는 배경 잡음을 포함하는 대량의 무성음 샘플에서 수집되고, 제1 사전설정된 임계값은 하위대역 SNR에 따라 결정되며, 이에 따라 이러한 무성음 샘플 중의 대부분의 고주파단 하위대역의 하위대역 SNR은 제1 사전설정된 임계값보다 크다. 마찬가지로, 저주파단 하위대역의 하위대역 SNR에 관한 통계는 이러한 무성음 샘플에서 수집되고, 제2 사전설정된 임계값은 하위대역 SNR에 따라 결정되며, 이에 따라 이러한 무성음 샘플 중의 대부분의 저주파단 하위대역의 하위대역 SNR은 제2 사전설정된 임계값보다 작다.
제1 수량, 제2 수량, 및 제3 수량 역시 통계 수집에 의해 획득된다. 제1 수량을 예로 사용하면, 잡음을 포함하는 대량의 무성음 샘플 프레임에서, 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 하위대역 수량에 관한 통계가 수집되고, 제1 수량은 상기 수량에 따라 결정되고, 이에 따라 이러한 대부분의 무성음 샘플 프레임 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량은 제1 수량보다 크다. 제2 수량을 획득하는 방법은 제1 수량을 획득하는 방법과 유사하다. 제2 수량은 제1 수량과 같을 수도 있고, 제2 수량은 제1 수량과 다를 수도 있다. 마찬가지로, 제3 수량에 있어서, 잡음을 포함하는 대량의 무성음 샘플 프레임에서, 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 하위대역 수량에 관한 통계가 수집되고, 제3 수량은 상기 수량에 따라 결정되고, 이에 따라 이러한 대부분의 무성음 샘플 프레임 내에 있으면서 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 수량은 제3 수량보다 크다.
도 7은 본 발명의 실시예에 따른 장치에 대한 구조 블록도이다. 도 7에 도시된 장치는 도 1 및 도 2에 도시된 모든 단계를 수행할 수 있다. 도 7에 도시된 바와 같이, 장치(700)는 프로세서(701) 및 메모리(702)를 포함한다. 프로세서(701)는 범용 프로세서, 디지털 신호 프로세서(Digital Signal Processor, DSP), 주문형 집적회로(Application Specific Integrated Circuit, ASIC), 필드 프로그래머블 게이트 어레이(Field Programmable Gate Array, FPGA) 또는 다른 프로그래머블 로직 컴포넌트, 이산 게이트 또는 트랜지스터 로직 컴포넌트, 또는 이산 하드웨어 컴포넌트일 수 있으며, 이것들은 본 발명의 이 실시예에서 개시된 방법, 단계, 및 논리 블록도를 실현 또는 수행할 수 있다. 범용 프로세서는 마이크로프로세서일 수 있거나 또는 프로세서는 임의의 종래의 프로세서일 수 있다. 본 발명의 이 실시예에서 개시된 방법의 단계는 하드웨어 디코딩 프로세서에 의해 직접 실행될 수도 있고 디코딩 프로세서 내의 하드웨어 모듈 및 소프트웨어 모듈의 조합에 의해 실행될 수도 있다. 소프트웨어 모듈은 랜덤 액세스 메모리(Random Access Memory, RAM), 플래시 메모리, 리드-온리 메모리(Read-Only Memory, ROM), 프로그래머블 리드-온리 메모리, 전기적으로 소거 가능한 프로그래머블 메모리, 또는 레지스터와 같이, 당기술분야에서 많이 보급된 스토리지에 위치할 수 있다. 스토리지 매체는 메모리(702)에 위치한다. 프로세서(701)는 메모리(702)로부터 명령을 읽어내고, 하드웨어와의 조합으로 전술한 방법의 단계를 완료한다.
프로세서(701)는 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
프로세서(701)는 오디오 신호의 강화된 SSNR을 결정하도록 구성되어 있으며, 상기 강화된 SSNR은 기준 SSNR보다 크다.
프로세서(701)는 오디오 신호가 액티브 신호인지를 판정하기 위해 상기 강화된 SSNR과 VAD 판정 임계값을 비교하도록 구성되어 있다.
도 7에 도시된 장치(700)는 오디오 신호의 특징을 결정하고, 오디오 신호의 특징에 따라 대응하는 방식으로 강화된 SSNR을 결정하고, 강화된 SSNR과 VAD 판정 임계값을 비교할 수 있으며, 이에 따라 액티브 신호의 오검출 비율이 감소될 수 있다.
선택적으로, 실시예에서, 프로세서(701)는 구체적으로, 오디오 신호의 하위대역 신호대잡음비(SNR)에 따라 상기 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
선택적으로, 실시예에서, 프로세서(701)가 오디오 신호의 하위대역 SNR에 따라 오디오 신호를 결정될 오디오 신호로서 결정하는 경우에, 프로세서(701)는 구체적으로, 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제1 수량보다 큰 경우에, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
선택적으로, 실시예에서, 프로세서(701)가 오디오 신호의 하위대역 SNR에 따라 오디오 신호를 결정될 오디오 신호로서 결정하는 경우에, 프로세서(701)는 구체적으로, 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제2 수량보다 크고, 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 수량이 제3 수량보다 큰 경우에, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
선택적으로, 실시예에서, 프로세서(701)가 오디오 신호의 하위대역 SNR에 따라 오디오 신호를 결정될 오디오 신호로서 결정하는 경우에, 프로세서(701)는 구체적으로, 상기 오디오 신호 내에 있으면서 하위대역 SNR의 값이 제3 사전설정된 임계값보다 큰 하위대역의 수량이 제4 수량보다 큰 경우에, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
선택적으로, 실시예에서, 프로세서(701)는 구체적으로, 상기 오디오 신호가 무성음 신호인 것으로 결정되는 경우에, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다. 구체적으로, 당업자라면 오디오 신호가 무성음 신호인지를 검출하는 여러 방법이 있다는 것을 이해할 수 있을 것이다. 예를 들어, 오디오 신호가 무성음 신호인지는 오디오 신호의 시간-도메인 ZCR을 검출함으로써 결정될 수 있다. 구체적으로, 오디오 신호의 ZCR이 ZCR 임계값보다 큰 경우, 오디오 신호는 무성음 신호인 것으로 결정되고, 여기서 ZCR 임계값은 많은 경험 수치에 따라 결정된다.
제1 사전설정된 임계값 및 제2 사전설정된 임계값은 대량의 음성 샘플에 따라 통계 수집에 의해 획득될 수 있다. 구체적으로, 고주파단 하위대역의 하위대역 SNR에 관한 통계는 배경 잡음을 포함하는 대량의 무성음 샘플에서 수집되고, 제1 사전설정된 임계값은 하위대역 SNR에 따라 결정되며, 이에 따라 이러한 무성음 샘플 중의 대부분의 고주파단 하위대역의 하위대역 SNR은 제1 사전설정된 임계값보다 크다. 마찬가지로, 저주파단 하위대역의 하위대역 SNR에 관한 통계는 이러한 무성음 샘플에서 수집되고, 제2 사전설정된 임계값은 하위대역 SNR에 따라 결정되며, 이에 따라 이러한 무성음 샘플 중의 대부분의 저주파단 하위대역의 하위대역 SNR은 제2 사전설정된 임계값보다 작다.
제3 사전설정된 임계값 역시 통계 수집에 의해 획득된다. 구체적으로, 제3 사전설정된 임계값은 대량의 잡음 신호의 하위대역 SNR에 따라 결정되며, 이에 따라 이러한 잡음 신호 중의 대부분의 하위대역의 하위대역 SNR은 제3 사전설정된 임계값보다 작다.
제1 수량, 제2 수량, 제3 수량, 및 제4 수량 역시 통계 수집에 의해 획득된다. 제1 수량을 예로 사용하면, 잡음을 포함하는 대량의 무성음 샘플 프레임에서, 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 하위대역 수량에 관한 통계가 수집되고, 제1 수량은 상기 수량에 따라 결정되고, 이에 따라 이러한 대부분의 무성음 샘플 프레임 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량은 제1 수량보다 크다. 제2 수량을 획득하는 방법은 제1 수량을 획득하는 방법과 유사하다. 제2 수량은 제1 수량과 같을 수도 있고, 제2 수량은 제1 수량과 다를 수도 있다. 마찬가지로, 제3 수량에 있어서, 잡음을 포함하는 대량의 무성음 샘플 프레임에서, 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 하위대역 수량에 관한 통계가 수집되고, 제3 수량은 상기 수량에 따라 결정되고, 이에 따라 이러한 대부분의 무성음 샘플 프레임 내에 있으면서 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 수량은 제3 수량보다 크다. 제4 수량에 있어서, 대량의 잡음 신호 프레임에서, 하위대역 SNR이 제3 사전설정된 임계값보다 작은 하위대역 수량에 관한 통계가 수집되고, 제4 수량은 상기 수량에 따라 결정되고, 이에 따라 이러한 대부분의 잡음 샘플 프레임 내에 있으면서 하위대역 SNR이 제3 사전설정된 임계값보다 작은 하위대역의 수량은 제4 수량보다 크다.
또한, 프로세서(701)는 구체적으로, 상기 오디오 신호 내의 각각의 하위대역의 하위대역 SNR의 가중치를 결정하고 - 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 하위대역 SNR의 가중치가 다른 하위대역의 하위대역 SNR의 가중치보다 큼 - ; 그리고 상기 오디오 신호 내의 각각의 하위대역의 하위대역 SNR 및 각각의 하위대역의 하위대역 SNR의 가중치에 따라 상기 강화된 SSNR을 결정하도록 구성되어 있다.
선택적으로, 실시예에서, 프로세서(701)는 구체적으로, 오디오 신호의 기준 SSNR을 결정하고; 그리고 상기 오디오 신호의 기준 SSNR에 따라 상기 강화된 SSNR을 결정하도록 구성되어 있다.
*기준 SSNR은 식 1.1을 사용하는 계산을 통해 획득된 SSNR일 수 있다. 기준 SSNR이 계산될 때, SSNR에 포함되어 있는 모든 하위대역의 하위대역 SNR의 가중치는 SSNR에서 같다.
선택적으로, 실시예에서, 프로세서(701)는 구체적으로,
다음 식:
SSNR' = x * SSNR + y 식 1.7
을 사용함으로써 상기 강화된 SSNR을 결정하도록 구성되어 있으며,
여기서 SSNR은 기준 SSNR을 나타내고, SSNR'은 강화된 SSNR을 나타내며, x 및 y는 강화 파라미터를 나타낸다. 예를 들어, x의 값은 1.07일 수 있고, y의 값은 1일 수 있다. 당업자라면 x 및 y은 강화된 SSNR을 기준 SSNR보다 적절하게 크게 하는 다른 적절한 값일 수 있다는 것을 이해할 수 있을 것이다.
선택적으로, 다른 실시예에서, 프로세서(701)는 구체적으로,
다음 식:
SSNR' = f(x) * SSNR + h(y) 식 1.8
를 사용함으로써 상기 강화된 SSNR을 결정하도록 구성되어 있으며,
여기서 SSNR은 기준 SSNR을 나타내고, SSNR'은 강화된 SSNR을 나타내며, f(x) 및 h(y)는 강화 함수를 나타낸다. 예를 들어, f(x) 및 h(y)는 오디오 신호의 LSNR과 관련된 함수일 수 있으며, 여기서 오디오 신호의 LSNR은 상대적으로 장시간 내의 평균 SNR 또는 가중된 SNR이다. 예를 들어, lsnr이 20보다 클 때, f(lsnr)는 1.1일 수 있고, y(lsnr)는 2일 수 있으며, lsnr이 20보다 작고 17보다 클 때, f(lsnr)는 1.07일 수 있고, y(lsnr)는 1일 수 있으며, lsnr이 17보다 작을 때, f(lsnr)는 1일 수 있고, y(lsnr)는 0일 수 있다. 당업자라면 f(x) 및 h(y)는 강화된 SSNR이 기준 SSNR보다 적절하게 크도록 다른 적절한 형태일 수도 있다는 것을 이해할 수 있을 것이다.
프로세서(701)는 구체적으로, 비교의 결과에 따라 오디오 신호가 액티브 신호인지를 판정하기 위해, 강화된 SSNR과 VAD 판정 임계값을 비교하도록 구성되어 있다. 구체적으로, 강화된 SSNR이 VAD 판정 임계값보다 크면, 오디오 신호가 액티브 신호인 것으로 결정되고, 강화된 SSNR이 VAD 판정 임계값보다 작으면, 오디오 신호가 인액티브 신호인 것으로 결정된다.
선택적으로, 다른 실시예에서, 사전설정된 알고리즘 역시 기준 VAD 판정 임계값을 감소시켜 감소된 VAD 판정 임계값을 획득하는 데 사용될 수 있고, 감소된 VAD 판정 임계값 역시 오디오 신호가 액티브 신호인지를 판정하는 데 사용된다. 이 경우, 프로세서(701)는 사전설정된 알고리즘을 사용하여 상기 VAD 판정 임계값을 감소시켜, 감소된 VAD 판정 임계값을 획득하도록 구성되어 있다. 이 경우, 프로세서(701)는 구체적으로, 상기 오디오 신호가 액티브 신호인지를 판정하기 위해 상기 강화된 SSNR과 상기 감소된 VAD 판정 임계값을 비교하도록 구성되어 있다.
도 8은 본 발명의 실시예에 따른 다른 장치에 대한 구조 블록도이다. 도 8에 도시된 장치는 도 3에 도시된 모든 단계를 수행할 수 있다. 도 8에 도시된 바와 같이, 장치(800)는 프로세서(801) 및 메모리(802)를 포함한다. 프로세서(801)는 범용 프로세서, DSP, ASIC, FPGA 또는 다른 프로그래머블 로직 컴포넌트, 이산 게이트 또는 트랜지스터 로직 컴포넌트, 또는 이산 하드웨어 컴포넌트일 수 있으며, 이것들은 본 발명의 이 실시예에서 개시된 방법, 단계, 및 논리 블록도를 실현 또는 수행할 수 있다. 범용 프로세서는 마이크로프로세서일 수 있거나 또는 프로세서는 임의의 종래의 프로세서일 수 있다. 본 발명의 이 실시예에서 개시된 방법의 단계는 하드웨어 디코딩 프로세서에 의해 직접 실행될 수도 있고 디코딩 프로세서 내의 하드웨어 모듈 및 소프트웨어 모듈의 조합에 의해 실행될 수도 있다. 소프트웨어 모듈은 RAM, 플래시 메모리, ROM, 프로그래머블 리드-온리 메모리, 전기적으로 소거 가능한 프로그래머블 메모리, 또는 레지스터와 같이, 당기술분야에서 많이 보급된 스토리지에 위치할 수 있다. 스토리지 매체는 메모리(802)에 위치한다. 프로세서(801)는 메모리(802)로부터 명령을 읽어내고, 하드웨어와의 조합으로 전술한 방법의 단계를 완료한다.
프로세서(801)는 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
프로세서(801)는 오디오 신호 내의 각각의 하위대역의 하위대역 신호대잡음비(SNR)의 가중치를 결정하고 - 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 하위대역 SNR의 가중치가 다른 하위대역의 하위대역 SNR의 가중치보다 큼 - ; 그리고 상기 오디오 신호 내의 각각의 하위대역의 하위대역 SNR 및 각각의 하위대역의 하위대역 SNR의 가중치에 따라 강화된 분할 신호대잡음비(Segmental Signal-to-Noise Ratio, SSNR)를 결정하도록 구성되어 있으며, 상기 강화된 SSNR은 기준 SSNR보다 크다.
프로세서(801)는 오디오 신호가 액티브 신호인지를 판정하기 위해 상기 강화된 SSNR과 음성 VAD 판정 임계값을 비교하도록 구성되어 있다.
도 8에 도시된 장치(800)는 오디오 신호의 특징을 결정하고, 오디오 신호의 특징에 따라 대응하는 방식으로 강화된 SSNR을 결정하고, 강화된 SSNR과 VAD 판정 임계값을 비교할 수 있으며, 이에 따라 액티브 신호의 오검출 비율이 감소될 수 있다.
또한, 프로세서(801)는 구체적으로, 오디오 신호의 하위대역 SNR에 따라 상기 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
선택적으로, 실시예에서, 프로세서(801)는 구체적으로, 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제1 수량보다 큰 경우에, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
선택적으로, 실시예에서, 프로세서(801)는 구체적으로, 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제2 수량보다 크고, 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 수량이 제3 수량보다 큰 경우에, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
제1 사전설정된 임계값 및 제2 사전설정된 임계값은 대량의 음성 샘플에 따라 통계 수집에 의해 획득될 수 있다. 구체적으로, 고주파단 하위대역의 하위대역 SNR에 관한 통계는 배경 잡음을 포함하는 대량의 무성음 샘플에서 수집되고, 제1 사전설정된 임계값은 하위대역 SNR에 따라 결정되며, 이에 따라 이러한 무성음 샘플 중의 대부분의 고주파단 하위대역의 하위대역 SNR은 제1 사전설정된 임계값보다 크다. 마찬가지로, 저주파단 하위대역의 하위대역 SNR에 관한 통계는 이러한 무성음 샘플에서 수집되고, 제2 사전설정된 임계값은 하위대역 SNR에 따라 결정되며, 이에 따라 이러한 무성음 샘플 중의 대부분의 저주파단 하위대역의 하위대역 SNR은 제2 사전설정된 임계값보다 작다.
제1 수량, 제2 수량, 및 제3 수량 역시 통계 수집에 의해 획득된다. 제1 수량을 예로 사용하면, 잡음을 포함하는 대량의 무성음 샘플 프레임에서, 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 하위대역 수량에 관한 통계가 수집되고, 제1 수량은 상기 수량에 따라 결정되고, 이에 따라 이러한 대부분의 무성음 샘플 프레임 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량은 제1 수량보다 크다. 제2 수량을 획득하는 방법은 제1 수량을 획득하는 방법과 유사하다. 제2 수량은 제1 수량과 같을 수도 있고, 제2 수량은 제1 수량과 다를 수도 있다. 마찬가지로, 제3 수량에 있어서, 잡음을 포함하는 대량의 무성음 샘플 프레임에서, 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 하위대역 수량에 관한 통계가 수집되고, 제3 수량은 상기 수량에 따라 결정되고, 이에 따라 이러한 대부분의 무성음 샘플 프레임 내에 있으면서 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 수량은 제3 수량보다 크다.
도 9는 본 발명의 실시예에 따른 다른 장치에 대한 구조 블록도이다. 도 9에 도시된 장치(900)는 도 4에 도시된 모든 단계를 수행할 수 있다. 도 9에 도시된 바와 같이, 장치(900)는 제1 결정 유닛(901), 제2 결정 유닛(902), 제3 결정 유닛(903), 및 제4 결정 유닛(904)을 포함한다.
제1 결정 유닛(901)은 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
제2 결정 유닛(902)은 오디오 신호의 기준 분할 신호대잡음비(SSNR)를 획득하도록 구성되어 있다.
구체적으로, 기준 SSNR은 식 1.1을 사용하는 계산을 통해 획득된 SSNR일 수 있다.
제3 결정 유닛(903)은 사전설정된 알고리즘을 사용하여 기준 VAD 판정 임계값을 감소시켜, 감소된 VAD 판정 임계값을 획득하도록 구성되어 있다.
구체적으로, 기준 VAD 판정 임계값은 디폴트 VAD 판정 임계값일 수 있으며, 기준 VAD 판정 임계값은 미리 저장될 수 있거나 계산을 통해 일시적으로 획득될 수 있으며, 여기서 기준 VAD 판정 임계값은 기존의 공지된 기술을 사용하여 계산될 수 있다. 사전설정된 알고리즘을 사용하여 기준 VAD 판정 임계값이 감소될 때, 사전설정된 알고리즘은 기준 VAD 판정 임계값에 1보다 작은 계수를 곱하는 것일 수 있거나, 다른 알고리즘이 사용될 수 있다. 본 발명의 이 실시예는 사용된 특정한 알고리즘에 제한을 두지 않는다. VAD 판정 임계값은 사전설정된 알고리즘을 사용하여 적절하게 감소될 수 있으며, 이에 따라 강화된 SSNR은 감소된 VAD 판정 임계값보다 크다. 그러므로 액티브 신호의 오검출의 비율이 감소될 수 있다.
제4 결정 유닛(904)은 오디오 신호가 액티브 신호인지를 판정하기 위해 상기 기준 SSNR과 상기 감소된 VAD 판정 임계값을 비교하도록 구성되어 있다.
선택적으로, 실시예에서, 상기 제1 결정 유닛(901)은 구체적으로, 상기 오디오 신호의 하위대역 SNR에 따라 상기 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
선택적으로, 실시예에서, 상기 제1 결정 유닛(901)이 오디오 신호의 하위대역 SNR에 따라 오디오 신호를 결정될 오디오 신호로서 결정하는 경우에, 상기 제1 결정 유닛(901)은 구체적으로, 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제1 수량보다 큰 경우에, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
선택적으로, 실시예에서, 상기 제1 결정 유닛(901)이 오디오 신호의 하위대역 SNR에 따라 오디오 신호를 결정될 오디오 신호로서 결정하는 경우에, 상기 제1 결정 유닛(901)은 구체적으로, 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제2 수량보다 크고, 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 수량이 제3 수량보다 큰 경우에, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
선택적으로, 실시예에서, 상기 제1 결정 유닛(901)이 오디오 신호의 하위대역 SNR에 따라 오디오 신호를 결정될 오디오 신호로서 결정하는 경우에, 상기 제1 결정 유닛(901)은 구체적으로, 상기 오디오 신호 내에 있으면서 하위대역 SNR의 값이 제3 사전설정된 임계값보다 큰 하위대역의 수량이 제4 수량보다 큰 경우에, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
선택적으로, 실시예에서, 상기 제1 결정 유닛(901)은 구체적으로, 상기 오디오 신호가 무성음 신호인 것으로 결정되는 경우에, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다. 구체적으로, 당업자라면 오디오 신호가 무성음 신호인지를 검출하는 여러 방법이 있다는 것을 이해할 수 있을 것이다. 예를 들어, 오디오 신호가 무성음 신호인지는 오디오 신호의 시간-도메인 ZCR을 검출함으로써 결정될 수 있다. 구체적으로, 오디오 신호의 ZCR이 ZCR 임계값보다 큰 경우, 오디오 신호는 무성음 신호인 것으로 결정되고, 여기서 ZCR 임계값은 많은 경험 수치에 따라 결정된다.
제1 사전설정된 임계값 및 제2 사전설정된 임계값은 대량의 음성 샘플에 따라 통계 수집에 의해 획득될 수 있다. 구체적으로, 고주파단 하위대역의 하위대역 SNR에 관한 통계는 배경 잡음을 포함하는 대량의 무성음 샘플에서 수집되고, 제1 사전설정된 임계값은 하위대역 SNR에 따라 결정되며, 이에 따라 이러한 무성음 샘플 중의 대부분의 고주파단 하위대역의 하위대역 SNR은 제1 사전설정된 임계값보다 크다. 마찬가지로, 저주파단 하위대역의 하위대역 SNR에 관한 통계는 이러한 무성음 샘플에서 수집되고, 제2 사전설정된 임계값은 하위대역 SNR에 따라 결정되며, 이에 따라 이러한 무성음 샘플 중의 대부분의 저주파단 하위대역의 하위대역 SNR은 제2 사전설정된 임계값보다 작다.
제3 사전설정된 임계값 역시 통계 수집에 의해 획득된다. 구체적으로, 제3 사전설정된 임계값은 대량의 잡음 신호의 하위대역 SNR에 따라 결정되며, 이에 따라 이러한 잡음 신호 중의 대부분의 하위대역의 하위대역 SNR은 제3 사전설정된 임계값보다 작다.
제1 수량, 제2 수량, 제3 수량, 및 제4 수량 역시 통계 수집에 의해 획득된다. 제1 수량을 예로 사용하면, 잡음을 포함하는 대량의 무성음 샘플 프레임에서, 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 하위대역 수량에 관한 통계가 수집되고, 제1 수량은 상기 수량에 따라 결정되고, 이에 따라 이러한 대부분의 무성음 샘플 프레임 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량은 제1 수량보다 크다. 제2 수량을 획득하는 방법은 제1 수량을 획득하는 방법과 유사하다. 제2 수량은 제1 수량과 같을 수도 있고, 제2 수량은 제1 수량과 다를 수도 있다. 마찬가지로, 제3 수량에 있어서, 잡음을 포함하는 대량의 무성음 샘플 프레임에서, 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 하위대역 수량에 관한 통계가 수집되고, 제3 수량은 상기 수량에 따라 결정되고, 이에 따라 이러한 대부분의 무성음 샘플 프레임 내에 있으면서 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 수량은 제3 수량보다 크다. 제4 수량에 있어서, 대량의 잡음 신호 프레임에서, 하위대역 SNR이 제3 사전설정된 임계값보다 작은 하위대역 수량에 관한 통계가 수집되고, 제4 수량은 상기 수량에 따라 결정되고, 이에 따라 이러한 대부분의 잡음 샘플 프레임 내에 있으면서 하위대역 SNR이 제3 사전설정된 임계값보다 작은 하위대역의 수량은 제4 수량보다 크다.
도 9에 도시된 장치(900)는 오디오 신호의 특징을 결정하고, 오디오 신호의 특징에 따라 대응하는 방식으로 강화된 SSNR을 결정하고, 강화된 SSNR과 VAD 판정 임계값을 비교할 수 있으며, 이에 따라 액티브 신호의 오검출 비율이 감소될 수 있다.
도 10은 본 발명의 실시예에 따른 다른 장치에 대한 구조 블록도이다. 도 10에 도시된 장치(1000)는 도 4에 도시된 모든 단계를 수행할 수 있다. 도 10에 도시된 바와 같이, 장치(1000)는 프로세서(1001) 및 메모리(1002)를 포함한다. 프로세서(1001)는 범용 프로세서, DSP, ASIC, FPGA 또는 다른 프로그래머블 로직 컴포넌트, 이산 게이트 또는 트랜지스터 로직 컴포넌트, 또는 이산 하드웨어 컴포넌트일 수 있으며, 이것들은 본 발명의 이 실시예에서 개시된 방법, 단계, 및 논리 블록도를 실현 또는 수행할 수 있다. 범용 프로세서는 마이크로프로세서일 수 있거나 또는 프로세서는 임의의 종래의 프로세서일 수 있다. 본 발명의 이 실시예에서 개시된 방법의 단계는 하드웨어 디코딩 프로세서에 의해 직접 실행될 수도 있고 디코딩 프로세서 내의 하드웨어 모듈 및 소프트웨어 모듈의 조합에 의해 실행될 수도 있다. 소프트웨어 모듈은 RAM, 플래시 메모리, ROM, 프로그래머블 리드-온리 메모리, 전기적으로 소거 가능한 프로그래머블 메모리, 또는 레지스터와 같이, 당기술분야에서 많이 보급된 스토리지에 위치할 수 있다. 스토리지 매체는 메모리(1002)에 위치한다. 프로세서(1001)는 메모리(1002)로부터 명령을 읽어내고, 하드웨어와의 조합으로 전술한 방법의 단계를 완료한다.
프로세서(1001)는 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
프로세서(1001)는 오디오 신호의 기준 분할 신호대잡음비(SSNR)를 획득하도록 구성되어 있다.
구체적으로, 기준 SSNR은 식 1.1을 사용하는 계산을 통해 획득된 SSNR일 수 있다.
프로세서(1001)는 사전설정된 알고리즘을 사용하여 기준 VAD 판정 임계값을 감소시켜, 감소된 VAD 판정 임계값을 획득하도록 구성되어 있다.
구체적으로, 기준 VAD 판정 임계값은 디폴트 VAD 판정 임계값일 수 있으며, 기준 VAD 판정 임계값은 미리 저장될 수 있거나 계산을 통해 일시적으로 획득될 수 있으며, 여기서 기준 VAD 판정 임계값은 기존의 공지된 기술을 사용하여 계산될 수 있다. 사전설정된 알고리즘을 사용하여 기준 VAD 판정 임계값이 감소될 때, 사전설정된 알고리즘은 기준 VAD 판정 임계값에 1보다 작은 계수를 곱하는 것일 수 있거나, 다른 알고리즘이 사용될 수 있다. 본 발명의 이 실시예는 사용된 특정한 알고리즘에 제한을 두지 않는다. VAD 판정 임계값은 사전설정된 알고리즘을 사용하여 적절하게 감소될 수 있으며, 이에 따라 강화된 SSNR은 감소된 VAD 판정 임계값보다 크다. 그러므로 액티브 신호의 오검출의 비율이 감소될 수 있다.
프로세서(1001)는 오디오 신호가 액티브 신호인지를 판정하기 위해 상기 기준 SSNR과 상기 감소된 VAD 판정 임계값을 비교하도록 구성되어 있다.
선택적으로, 실시예에서, 프로세서(1001)는 구체적으로, 상기 오디오 신호의 하위대역 SNR에 따라 상기 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
선택적으로, 실시예에서, 프로세서(1001)가 오디오 신호의 하위대역 SNR에 따라 오디오 신호를 결정될 오디오 신호로서 결정하는 경우에, 프로세서(1001)는 구체적으로, 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제1 수량보다 큰 경우에, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
선택적으로, 실시예에서, 프로세서(1001)가 오디오 신호의 하위대역 SNR에 따라 오디오 신호를 결정될 오디오 신호로서 결정하는 경우에, 프로세서(1001)는 구체적으로, 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량이 제2 수량보다 크고, 상기 오디오 신호 내에 있으면서 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 수량이 제3 수량보다 큰 경우에, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
선택적으로, 실시예에서, 프로세서(1001)가 오디오 신호의 하위대역 SNR에 따라 오디오 신호를 결정될 오디오 신호로서 결정하는 경우에, 프로세서(1001)는 구체적으로, 상기 오디오 신호 내에 있으면서 하위대역 SNR의 값이 제3 사전설정된 임계값보다 큰 하위대역의 수량이 제4 수량보다 큰 경우에, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다.
선택적으로, 실시예에서, 프로세서(1001)는 구체적으로, 상기 오디오 신호가 무성음 신호인 것으로 결정되는 경우에, 상기 입력 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있다. 구체적으로, 당업자라면 오디오 신호가 무성음 신호인지를 검출하는 여러 방법이 있다는 것을 이해할 수 있을 것이다. 예를 들어, 오디오 신호가 무성음 신호인지는 오디오 신호의 시간-도메인 ZCR을 검출함으로써 결정될 수 있다. 구체적으로, 오디오 신호의 ZCR이 ZCR 임계값보다 큰 경우, 오디오 신호는 무성음 신호인 것으로 결정되고, 여기서 ZCR 임계값은 많은 경험 수치에 따라 결정된다.
제1 사전설정된 임계값 및 제2 사전설정된 임계값은 대량의 음성 샘플에 따라 통계 수집에 의해 획득될 수 있다. 구체적으로, 고주파단 하위대역의 하위대역 SNR에 관한 통계는 배경 잡음을 포함하는 대량의 무성음 샘플에서 수집되고, 제1 사전설정된 임계값은 하위대역 SNR에 따라 결정되며, 이에 따라 이러한 무성음 샘플 중의 대부분의 고주파단 하위대역의 하위대역 SNR은 제1 사전설정된 임계값보다 크다. 마찬가지로, 저주파단 하위대역의 하위대역 SNR에 관한 통계는 이러한 무성음 샘플에서 수집되고, 제2 사전설정된 임계값은 하위대역 SNR에 따라 결정되며, 이에 따라 이러한 무성음 샘플 중의 대부분의 저주파단 하위대역의 하위대역 SNR은 제2 사전설정된 임계값보다 작다.
제3 사전설정된 임계값 역시 통계 수집에 의해 획득된다. 구체적으로, 제3 사전설정된 임계값은 대량의 잡음 신호의 하위대역 SNR에 따라 결정되며, 이에 따라 이러한 잡음 신호 중의 대부분의 하위대역의 하위대역 SNR은 제3 사전설정된 임계값보다 작다.
제1 수량, 제2 수량, 제3 수량, 및 제4 수량 역시 통계 수집에 의해 획득된다. 제1 수량을 예로 사용하면, 잡음을 포함하는 대량의 무성음 샘플 프레임에서, 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 하위대역 수량에 관한 통계가 수집되고, 제1 수량은 상기 수량에 따라 결정되고, 이에 따라 이러한 대부분의 무성음 샘플 프레임 내에 있으면서 하위대역 SNR이 제1 사전설정된 임계값보다 큰 고주파단 하위대역의 수량은 제1 수량보다 크다. 제2 수량을 획득하는 방법은 제1 수량을 획득하는 방법과 유사하다. 제2 수량은 제1 수량과 같을 수도 있고, 제2 수량은 제1 수량과 다를 수도 있다. 마찬가지로, 제3 수량에 있어서, 잡음을 포함하는 대량의 무성음 샘플 프레임에서, 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 하위대역 수량에 관한 통계가 수집되고, 제3 수량은 상기 수량에 따라 결정되고, 이에 따라 이러한 대부분의 무성음 샘플 프레임 내에 있으면서 하위대역 SNR이 제2 사전설정된 임계값보다 작은 저주파단 하위대역의 수량은 제3 수량보다 크다. 제4 수량에 있어서, 대량의 잡음 신호 프레임에서, 하위대역 SNR이 제3 사전설정된 임계값보다 작은 하위대역 수량에 관한 통계가 수집되고, 제4 수량은 상기 수량에 따라 결정되고, 이에 따라 이러한 대부분의 잡음 샘플 프레임 내에 있으면서 하위대역 SNR이 제3 사전설정된 임계값보다 작은 하위대역의 수량은 제4 수량보다 크다.
도 10에 도시된 장치(1000)는 오디오 신호의 특징을 결정하고, 오디오 신호의 특징에 따라 대응하는 방식으로 강화된 SSNR을 결정하고, 강화된 SSNR과 VAD 판정 임계값을 비교할 수 있으며, 이에 따라 액티브 신호의 오검출 비율이 감소될 수 있다.
당업자라면 본 명세서에 개시된 실시예에 설명된 예와 조합해서, 유닛 및 알고리즘 단계들은 전자식 하드웨어 또는 컴퓨터 소프트웨어와 전자식 하드웨어의 조합으로 실현될 수 있다는 것을 인지할 수 있을 것이다. 기능들이 하드웨어로 수행되는지 소프트웨어로 수행되는지는 특별한 애플리케이션 및 기술적 솔루션의 설계 제약 조건에 따라 다르다. 당업자라면 다른 방법을 사용하여 각각의 특별한 실시예에 대해 설명된 기능을 실행할 수 있을 것이나, 그 실행이 본 발명의 범위를 넘어서는 것으로 파악되어서는 안 된다.
당업자라면 설명의 편의 및 간략화를 위해, 전술한 시스템, 장치, 및 유닛에 대한 상세한 작업 프로세스에 대해서는, 전술한 방법 실시예의 대응하는 프로세스를 참조하면 된다는 것을 자명하게 이해할 수 있을 것이므로 그 상세한 설명은 여기서 다시 설명하지 않는다.
본 출원에서 제공하는 수 개의 실시예에서, 전술한 시스템, 장치, 및 방법은 다른 방식으로도 실현될 수 있다는 것은 물론이다. 예를 들어, 설명된 장치 실시예는 단지 예시에 불과하다. 예를 들어, 유닛의 분할은 단지 일종의 논리적 기능 분할일 뿐이며, 실제의 실행 동안 다른 분할 방식으로 있을 수 있다. 예를 들어, 복수의 유닛 또는 구성요소를 다른 시스템에 결합 또는 통합할 수 있거나, 또는 일부의 특징은 무시하거나 수행하지 않을 수도 있다. 또한, 도시되거나 논의된 상호 커플링 또는 직접 결합 또는 통신 접속은 일부의 인터페이스를 통해 실현될 수 있다. 장치 또는 유닛 간의 간접 결합 또는 통신 접속은 전자식, 기계식 또는 다른 형태로 실현될 수 있다.
별도의 부분으로 설명된 유닛들은 물리적으로 별개일 수 있고 아닐 수도 있으며, 유닛으로 도시된 부분은 물리적 유닛일 수도 있고 아닐 수도 있으며, 한 위치에 위치할 수도 있고, 복수의 네트워크 유닛에 분산될 수도 있다. 유닛 중 일부 또는 전부는 실제의 필요에 따라 선택되어 실시예의 솔루션의 목적을 달성할 수 있다.
또한, 본 발명의 실시예에서의 기능 유닛은 하나의 프로세싱 유닛으로 통합될 수 있거나, 각각의 유닛이 물리적으로 단독으로 존재할 수도 있거나, 2개 이상의 유닛이 하나의 유닛으로 통합될 수도 있다. 통합 유닛은 하드웨어의 형태로 실현될 수도 있고, 소프트웨어 기능 유닛의 형태로 실현될 수도 있다.
통합 유닛이 소프트웨어 기능 유닛의 형태로 실현되어 독립 제품으로 시판되거나 사용되면, 이 통합 유닛은 컴퓨터 판독 가능형 저장 매체에 저장될 수 있다. 이러한 이해를 바탕으로, 본 발명의 필수적인 기술적 솔루션 또는 종래기술에 기여하는 부분, 또는 기술적 솔루션의 일부는 소프트웨어 제품의 형태로 실현될 수 있다. 컴퓨터 소프트웨어 제품은 저장 매체에 저장되고, 본 발명의 실시예에 설명된 방법의 단계 중 일부 또는 전부를 수행하도록 컴퓨터 장치(이것은 퍼스널 컴퓨터, 서버, 또는 네트워크 장치 등이 될 수 있다) 또는 프로세서에 명령하는 수개의 명령어를 포함한다. 전술한 저장 매체는: 프로그램 코드를 저장할 수 있는 임의의 저장 매체, 예를 들어, USB 플래시 디스크, 휴대형 하드디스크, ROM, RAM, 자기디스크 또는 광디스크를 포함한다.
전술한 설명은 단지 본 발명의 특정한 실행 방식에 불과하며, 본 발명의 보호 범위를 제한하려는 것이 아니다. 본 발명에 설명된 기술적 범위 내에서 당업자가 용이하게 실현하는 모든 변형 또는 대체는 본 발명의 보호 범위 내에 있게 된다. 그러므로 본 발명의 보호 범위는 특허청구범위의 보호 범위에 있게 된다.

Claims (10)

  1. 오디오 신호를 검출하는 방법으로서,
    오디오 신호가 무성음 신호(unvoiced signal)인 것으로 결정되면, 상기 오디오 신호를 결정될 오디오 신호로서 결정하는 단계;
    상기 오디오 신호의 강화된 분할 신호대잡음비(Segmental Signal-to-Noise Ratio, SSNR)를 결정하는 단계; 및
    상기 오디오 신호가 액티브 신호인지를 판정하기 위해 상기 강화된 SSNR과 음성 액티비티 검출(voice activity detection, VAD) 판정 임계값을 비교하는 단계
    를 포함하고,
    상기 오디오 신호의 강화된 SSNR을 결정하는 단계는,
    상기 오디오 신호 내의 각각의 하위대역의 하위대역 SNR 및 상기 오디오 신호 내의 각각의 하위대역의 하위대역 SNR의 가중치에 따라서 상기 강화된 SSNR을 결정하는 단계 - 고주파단 하위대역의 하위대역 SNR의 가중치가 다른 하위대역의 하위대역 SNR의 가중치보다 큼 - 를 포함하는,
    오디오 신호를 검출하는 방법.
  2. 제1항에 있어서,
    상기 강화된 SSNR은 기준 SSNR 보다 큰, 오디오 신호를 검출하는 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 오디오 신호는 N개의 하위대역으로 분할되고, N=20이며,
    N개의 하위대역은 하위대역 0 내지 하위대역 19로 구성되고, 그리고 하위대역 18 및 하위대역 19는 고주파단 하위대역인,
    오디오 신호를 검출하는 방법.
  4. 오디오 신호를 검출하는 장치로서,
    오디오 신호가 무성음 신호(unvoiced signal)인 것으로 결정되면, 상기 오디오 신호를 결정될 오디오 신호로서 결정하도록 구성되어 있는 제1 결정 유닛;
    상기 오디오 신호의 강화된 분할 신호대잡음비(Segmental Signal-to-Noise Ratio, SSNR)를 결정하도록 구성되어 있는 제2 결정 유닛; 및
    상기 오디오 신호가 액티브 신호인지를 판정하기 위해 상기 강화된 SSNR과 음성 액티비티 검출(voice activity detection, VAD) 판정 임계값을 비교하도록 구성되어 있는 제3 결정 유닛
    을 포함하고,
    상기 제2 결정 유닛은, 상기 오디오 신호 내의 각각의 하위대역의 하위대역 SNR 및 상기 오디오 신호 내의 각각의 하위대역의 하위대역 SNR의 가중치에 따라서 상기 강화된 SSNR을 결정하도록 추가로 구성되고,
    고주파단 하위대역의 하위대역 SNR의 가중치가 다른 하위대역의 하위대역 SNR의 가중치보다 큰,
    오디오 신호를 검출하는 장치.
  5. 제4항에 있어서,
    상기 강화된 SSNR은 기준 SSNR 보다 큰, 오디오 신호를 검출하는 장치.
  6. 제4항 또는 제5항에 있어서,
    상기 오디오 신호는 N개의 하위대역으로 분할되고, N=20이며,
    N개의 하위대역은 하위대역 0 내지 하위대역 19로 구성되고, 그리고 하위대역 18 및 하위대역 19는 고주파단 하위대역인,
    오디오 신호를 검출하는 장치.
  7. 오디오 신호를 검출하는 장치로서,
    명령을 포함하는 메모리; 및
    상기 메모리와 통신하는 하나 이상의 프로세서를 포함하고.
    상기 하나 이상의 프로세서는 상기 명령을 실행하여,
    오디오 신호가 무성음 신호(unvoiced signal)인 것으로 결정되면, 상기 오디오 신호를 결정될 오디오 신호로서 결정하고;
    상기 오디오 신호의 강화된 분할 신호대잡음비(Segmental Signal-to-Noise Ratio, SSNR)를 결정하고; 그리고
    상기 오디오 신호가 액티브 신호인지를 판정하기 위해 상기 강화된 SSNR과 음성 액티비티 검출(voice activity detection, VAD) 판정 임계값을 비교하며,
    상기 하나 이상의 프로세서는 상기 명령을 실행하여,
    상기 오디오 신호 내의 각각의 하위대역의 하위대역 SNR 및 상기 오디오 신호 내의 각각의 하위대역의 하위대역 SNR의 가중치에 따라서 상기 강화된 SSNR을 결정하고,
    고주파단 하위대역의 하위대역 SNR의 가중치가 다른 하위대역의 하위대역 SNR의 가중치보다 큰,
    오디오 신호를 검출하는 장치.
  8. 제7항에 있어서,
    상기 강화된 SSNR은 기준 SSNR 보다 큰, 오디오 신호를 검출하는 장치.
  9. 제7항 또는 제8항에 있어서,
    상기 오디오 신호는 N개의 하위대역으로 분할되고, N=20이며,
    N개의 하위대역은 하위대역 0 내지 하위대역 19로 구성되고, 그리고 하위대역 18 및 하위대역 19는 고주파단 하위대역인,
    오디오 신호를 검출하는 장치.
  10. 프로그램이 기록된 컴퓨터-판독가능 저장 매체로서,
    상기 프로그램은 컴퓨터로 하여금 제1항 또는 제2항에 따른 방법을 실행하게 하는, 컴퓨터-판독가능 저장 매체
KR1020187021506A 2014-03-12 2014-12-01 오디오 신호를 검출하는 방법 및 장치 KR102005009B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201410090386.X 2014-03-12
CN201410090386.XA CN104916292B (zh) 2014-03-12 2014-03-12 检测音频信号的方法和装置
PCT/CN2014/092694 WO2015135344A1 (zh) 2014-03-12 2014-12-01 检测音频信号的方法和装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020167025280A Division KR101884220B1 (ko) 2014-03-12 2014-12-01 오디오 신호를 검출하는 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20180088503A KR20180088503A (ko) 2018-08-03
KR102005009B1 true KR102005009B1 (ko) 2019-07-29

Family

ID=54070889

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020167025280A KR101884220B1 (ko) 2014-03-12 2014-12-01 오디오 신호를 검출하는 방법 및 장치
KR1020187021506A KR102005009B1 (ko) 2014-03-12 2014-12-01 오디오 신호를 검출하는 방법 및 장치

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020167025280A KR101884220B1 (ko) 2014-03-12 2014-12-01 오디오 신호를 검출하는 방법 및 장치

Country Status (14)

Country Link
US (3) US10304478B2 (ko)
EP (2) EP3660845B1 (ko)
JP (2) JP6493889B2 (ko)
KR (2) KR101884220B1 (ko)
CN (3) CN107293287B (ko)
AU (1) AU2014386442B9 (ko)
CA (1) CA2940487C (ko)
ES (2) ES2787894T3 (ko)
MX (1) MX355828B (ko)
MY (1) MY193521A (ko)
PT (2) PT3660845T (ko)
RU (1) RU2666337C2 (ko)
SG (1) SG11201607052SA (ko)
WO (1) WO2015135344A1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107293287B (zh) 2014-03-12 2021-10-26 华为技术有限公司 检测音频信号的方法和装置
WO2017185342A1 (zh) * 2016-04-29 2017-11-02 华为技术有限公司 一种语音输入异常的确定方法、装置、终端以及存储介质
CN107040359B (zh) * 2017-05-08 2021-01-19 海能达通信股份有限公司 一种语音呼叫过程中携带随路信令的方法、装置及设备
CN107393558B (zh) * 2017-07-14 2020-09-11 深圳永顺智信息科技有限公司 语音活动检测方法及装置
CN107393550B (zh) * 2017-07-14 2021-03-19 深圳永顺智信息科技有限公司 语音处理方法及装置
CN107393553B (zh) * 2017-07-14 2020-12-22 深圳永顺智信息科技有限公司 用于语音活动检测的听觉特征提取方法
CN107393559B (zh) * 2017-07-14 2021-05-18 深圳永顺智信息科技有限公司 检校语音检测结果的方法及装置
US11783809B2 (en) * 2020-10-08 2023-10-10 Qualcomm Incorporated User voice activity detection using dynamic classifier

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130191117A1 (en) * 2012-01-20 2013-07-25 Qualcomm Incorporated Voice activity detection in presence of background noise
US20130304464A1 (en) * 2010-12-24 2013-11-14 Huawei Technologies Co., Ltd. Method and apparatus for adaptively detecting a voice activity in an input audio signal

Family Cites Families (52)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59182498A (ja) * 1983-04-01 1984-10-17 日本電気株式会社 音声検出回路
JPS63259596A (ja) 1987-04-16 1988-10-26 株式会社日立製作所 音声区間検出方式
EP0681730A4 (en) * 1993-11-30 1997-12-17 At & T Corp REDUCTION OF TRANSMISSION NOISE IN COMMUNICATION SYSTEMS.
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
US5991718A (en) * 1998-02-27 1999-11-23 At&T Corp. System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments
US6466906B2 (en) * 1999-01-06 2002-10-15 Dspc Technologies Ltd. Noise padding and normalization in dynamic time warping
US6453291B1 (en) * 1999-02-04 2002-09-17 Motorola, Inc. Apparatus and method for voice activity detection in a communication system
US6324509B1 (en) * 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
JP2001236085A (ja) * 2000-02-25 2001-08-31 Matsushita Electric Ind Co Ltd 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置
JP3588030B2 (ja) * 2000-03-16 2004-11-10 三菱電機株式会社 音声区間判定装置及び音声区間判定方法
US6898566B1 (en) * 2000-08-16 2005-05-24 Mindspeed Technologies, Inc. Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
CN1175398C (zh) * 2000-11-18 2004-11-10 中兴通讯股份有限公司 一种从噪声环境中识别出语音和音乐的声音活动检测方法
EP1376539B8 (en) * 2001-03-28 2010-12-15 Mitsubishi Denki Kabushiki Kaisha Noise suppressor
US7941313B2 (en) * 2001-05-17 2011-05-10 Qualcomm Incorporated System and method for transmitting speech activity information ahead of speech features in a distributed voice recognition system
US7203643B2 (en) 2001-06-14 2007-04-10 Qualcomm Incorporated Method and apparatus for transmitting speech activity in distributed voice recognition systems
US6937980B2 (en) * 2001-10-02 2005-08-30 Telefonaktiebolaget Lm Ericsson (Publ) Speech recognition using microphone antenna array
JP4281349B2 (ja) 2001-12-25 2009-06-17 パナソニック株式会社 電話装置
US7024353B2 (en) * 2002-08-09 2006-04-04 Motorola, Inc. Distributed speech recognition with back-end voice activity detection apparatus and method
US7146315B2 (en) 2002-08-30 2006-12-05 Siemens Corporate Research, Inc. Multichannel voice detection in adverse environments
US7162420B2 (en) * 2002-12-10 2007-01-09 Liberato Technologies, Llc System and method for noise reduction having first and second adaptive filters
JP4490090B2 (ja) * 2003-12-25 2010-06-23 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
CA2454296A1 (en) 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
US8340309B2 (en) * 2004-08-06 2012-12-25 Aliphcom, Inc. Noise suppressing multi-microphone headset
CN100369113C (zh) * 2004-12-31 2008-02-13 中国科学院自动化研究所 利用增益自适应提高语音识别率的方法
US8175877B2 (en) * 2005-02-02 2012-05-08 At&T Intellectual Property Ii, L.P. Method and apparatus for predicting word accuracy in automatic speech recognition systems
EP1982324B1 (en) * 2006-02-10 2014-09-24 Telefonaktiebolaget LM Ericsson (publ) A voice detector and a method for suppressing sub-bands in a voice detector
US8032370B2 (en) * 2006-05-09 2011-10-04 Nokia Corporation Method, apparatus, system and software product for adaptation of voice activity detection parameters based on the quality of the coding modes
US8311814B2 (en) * 2006-09-19 2012-11-13 Avaya Inc. Efficient voice activity detector to detect fixed power signals
CN101197130B (zh) * 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
US8326620B2 (en) * 2008-04-30 2012-12-04 Qnx Software Systems Limited Robust downlink speech and noise detector
US7769585B2 (en) * 2007-04-05 2010-08-03 Avidyne Corporation System and method of voice activity detection in noisy environments
CN101320559B (zh) * 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
US8954324B2 (en) * 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
KR101335417B1 (ko) 2008-03-31 2013-12-05 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
WO2010091339A1 (en) 2009-02-06 2010-08-12 University Of Ottawa Method and system for noise reduction for speech enhancement in hearing aid
JP5337530B2 (ja) * 2009-02-25 2013-11-06 京セラ株式会社 無線基地局および無線通信方法
KR20110001130A (ko) * 2009-06-29 2011-01-06 삼성전자주식회사 가중 선형 예측 변환을 이용한 오디오 신호 부호화 및 복호화 장치 및 그 방법
CN102044243B (zh) * 2009-10-15 2012-08-29 华为技术有限公司 语音激活检测方法与装置、编码器
CN102044242B (zh) * 2009-10-15 2012-01-25 华为技术有限公司 语音激活检测方法、装置和电子设备
CN102804261B (zh) * 2009-10-19 2015-02-18 瑞典爱立信有限公司 用于语音编码器的方法和语音活动检测器
CN102576528A (zh) * 2009-10-19 2012-07-11 瑞典爱立信有限公司 用于语音活动检测的检测器和方法
US8898058B2 (en) * 2010-10-25 2014-11-25 Qualcomm Incorporated Systems, methods, and apparatus for voice activity detection
WO2012083552A1 (en) * 2010-12-24 2012-06-28 Huawei Technologies Co., Ltd. Method and apparatus for voice activity detection
EP2656341B1 (en) 2010-12-24 2018-02-21 Huawei Technologies Co., Ltd. Apparatus for performing a voice activity detection
WO2013118192A1 (ja) 2012-02-10 2013-08-15 三菱電機株式会社 雑音抑圧装置
JP5862349B2 (ja) * 2012-02-16 2016-02-16 株式会社Jvcケンウッド ノイズ低減装置、音声入力装置、無線通信装置、およびノイズ低減方法
CN103325380B (zh) * 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
US9305567B2 (en) 2012-04-23 2016-04-05 Qualcomm Incorporated Systems and methods for audio signal processing
US9524735B2 (en) * 2014-01-31 2016-12-20 Apple Inc. Threshold adaptation in two-channel noise estimation and voice activity detection
CN107293287B (zh) * 2014-03-12 2021-10-26 华为技术有限公司 检测音频信号的方法和装置
US9775113B2 (en) * 2014-12-11 2017-09-26 Mediatek Inc. Voice wakeup detecting device with digital microphone and associated method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130304464A1 (en) * 2010-12-24 2013-11-14 Huawei Technologies Co., Ltd. Method and apparatus for adaptively detecting a voice activity in an input audio signal
US20130191117A1 (en) * 2012-01-20 2013-07-25 Qualcomm Incorporated Voice activity detection in presence of background noise

Also Published As

Publication number Publication date
US10304478B2 (en) 2019-05-28
US20200312353A1 (en) 2020-10-01
CN107086043A (zh) 2017-08-22
CA2940487A1 (en) 2015-09-17
KR20160120764A (ko) 2016-10-18
ES2926360T3 (es) 2022-10-25
AU2014386442B9 (en) 2017-11-23
CN104916292A (zh) 2015-09-16
ES2787894T3 (es) 2020-10-19
CN107293287A (zh) 2017-10-24
EP3118852A1 (en) 2017-01-18
RU2666337C2 (ru) 2018-09-06
WO2015135344A1 (zh) 2015-09-17
CN107293287B (zh) 2021-10-26
EP3660845A1 (en) 2020-06-03
US11417353B2 (en) 2022-08-16
CN104916292B (zh) 2017-05-24
CA2940487C (en) 2020-10-27
SG11201607052SA (en) 2016-10-28
ES2787894T9 (es) 2021-12-28
JP6493889B2 (ja) 2019-04-03
PT3660845T (pt) 2022-08-01
MX355828B (es) 2018-05-02
JP6793706B2 (ja) 2020-12-02
AU2014386442B2 (en) 2017-11-02
JP2017511901A (ja) 2017-04-27
MY193521A (en) 2022-10-17
US20160379670A1 (en) 2016-12-29
KR20180088503A (ko) 2018-08-03
MX2016011750A (es) 2016-12-12
US20190279657A1 (en) 2019-09-12
AU2014386442A1 (en) 2016-09-08
KR101884220B1 (ko) 2018-08-01
RU2016139717A (ru) 2018-04-12
PT3118852T (pt) 2020-03-06
EP3660845B1 (en) 2022-06-08
JP2019053321A (ja) 2019-04-04
EP3118852A4 (en) 2017-03-29
CN107086043B (zh) 2020-09-08
US10818313B2 (en) 2020-10-27
EP3118852B1 (en) 2020-02-12

Similar Documents

Publication Publication Date Title
KR102005009B1 (ko) 오디오 신호를 검출하는 방법 및 장치
US10867620B2 (en) Sibilance detection and mitigation
US9374651B2 (en) Sensitivity calibration method and audio device
EP2828856A2 (en) Harmonicity estimation, audio classification, pitch determination and noise estimation
EP3364413B1 (en) Method of determining noise signal and apparatus thereof
WO2013164029A1 (en) Detecting wind noise in an audio signal
US9349383B2 (en) Audio bandwidth dependent noise suppression
JP2015119404A (ja) マルチパス判定装置
EP3261089B1 (en) Sibilance detection and mitigation
RU2485608C2 (ru) Способ и устройство для способствования определению ограничивающих частот сигнала
Jang et al. A uniformly most powerful test for statistical model-based voice activity detection.
EP2760022A1 (en) Audio bandwidth dependent noise suppression
Jung et al. Speech enhancement by overweighting gain with nonlinear structure in wavelet packet transform

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant