KR101158291B1 - 음성 활동 검출 디바이스 및 방법 - Google Patents

음성 활동 검출 디바이스 및 방법 Download PDF

Info

Publication number
KR101158291B1
KR101158291B1 KR1020097026440A KR20097026440A KR101158291B1 KR 101158291 B1 KR101158291 B1 KR 101158291B1 KR 1020097026440 A KR1020097026440 A KR 1020097026440A KR 20097026440 A KR20097026440 A KR 20097026440A KR 101158291 B1 KR101158291 B1 KR 101158291B1
Authority
KR
South Korea
Prior art keywords
vad
background noise
threshold
bias
snr
Prior art date
Application number
KR1020097026440A
Other languages
English (en)
Other versions
KR20100012035A (ko
Inventor
제 왕
Original Assignee
후아웨이 테크놀러지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 후아웨이 테크놀러지 컴퍼니 리미티드 filed Critical 후아웨이 테크놀러지 컴퍼니 리미티드
Publication of KR20100012035A publication Critical patent/KR20100012035A/ko
Application granted granted Critical
Publication of KR101158291B1 publication Critical patent/KR101158291B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Noise Elimination (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Geophysics And Detection Of Objects (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

음성 활동 검출(voice activity detection, VAD) 임계값이 배경 잡음 변동에 적응할 수 있는, VAD 디바이스 및 방법을 개시한다. 이 VAD 디바이스는, 입력된 VAD 판정 결과에 따라 현재 신호의 배경 잡음 특성을 분석하고, 배경 잡음 변동에 관련된 파라미터를 취득하며, 상기 취득한 파라미터를 출력하도록 구성된 배경 분석 유닛; 상기 배경 분석 유닛에 의해 출력된 파라미터에 따라 VAD 임계값의 바이어스를 취득하고, 상기 VAD 임계값의 바이어스를 출력하도록 구성된 VAD 임계값 조정 유닛; 및 상기 VAD 임계값 조정 유닛에 의해 출력된 VAD 임계값의 바이어스에 따라 수정될 VAD 임계값을 수정하고, 상기 수정한 VAD 임계값에 따라 배경 잡음 판정을 수행하고, VAD 판정 결과를 출력하도록 구성된 VAD 판정 유닛을 포함한다.

Description

음성 활동 검출 디바이스 및 방법 {DEVICE AND METHOD FOR VOICE ACTIVITY DETECTION}
본 출원은 2007년 6월 7일자로 출원된 중국특허출원 제200710108408.0에 대해 우선권을 주장하여 2008년 5월 7일자로 출원된 국제특허출원 PCT/CN2008/070899호에 계속하는 것이며, 이들 특허문헌 모두의 내용 전부는 원용에 의해 본 명세서에 포함된다.
본 발명은 일반적으로 오디오 신호 처리에 관한 것이며, 더욱 구체적으로는 음성 활동 검출 장치 및 방법에 관한 것이다.
음성 신호 처리 분야에서, 음성 활동(voice activity)을 검출하는 기술이 널리 사용되어 왔다. 이 기술을, 음성 코딩(voice coding) 분야에서는 음성 활동 검출(voice activity detection, VAD)라고 하고; 음성 인식(speech recognition) 분야에서는 음성 종점 검출(speech endpoint dectiton)이라고 하며; 음성 향상(speech enhancement) 분야에서는 음성 휴지 검출(speech pause detection) 검출이라고 한다. 이들 기술은 상이한 시나리오로 상이한 측면에 초점을 맞추고 있으며, 따라서 상이한 처리 결과를 얻는다. 그러나, 본질적으로 이들 기술은 음성 통신의 경우에 또는 언어 자료(corpus) 내에 음성이 존재하는지를 검출하는 데 사용된다. 검출의 정확도는 다음 프로세스(예를 들면, 음성 코딩, 음성 인식 및 음성 향상)의 품질에 직접적인 영향을 미친다.
음성 코딩 기술은 음성 신호의 전송 대역폭을 감소시킬 수 있고 통신 시스템의 용량을 증가시킬 수 있다. 음성 통신에서, 시간의 40%가 음성 신호를 포함하 고, 나머지는 무언(silence) 또는 배경 잡음(background noise)을 포함한다. 따라서, 전송 대역을 절약하기 위해, VAD를 사용하여 배경 잡음과 비잡음 신호(non-noise signal)를 구별할 수 있어, 인코더(encoder)는 배경 잡음과 비잡음 신호를 상이한 비율로 인코딩할 수 있으므로, 평균 비트율(mean bit rate)을 줄일 수 있다. 최근에는, 대규모 조직과 기구에 의해 제정된 모든 음성 코딩 표준은 VAD 기술의 구체적인 애플리케이션을 다룬다.
종래기술에서, 적응성 다중 비율 음성 코덱(adaptive multi-rate speech codec, AMR)에 사용되는 VAD1 및 VAD2와 같은, VAD 알고리즘은 입력 신호의 신호대잡음비(signal noise ratio, SNR)에 따라 현재의 신호 프레임이 잡음 프레임인지를 판단한다. VAD는 추정된 배경 잡음 에너지를 계산하고, 현재 신호 프레임의 에너지 비율을 미리 설정된 임계값을 가지는 배경 잡음의 에너지(즉, SNR)와 비교한다. SNR이 임계값보다 크면, VAD는 현재의 프레임을 비잡음 프레임인 것으로 결정한다. VAD의 분류 결과는 인코더에서 비연속 전송 시스템/편안한 잡음 생성(discontinuous transmission system/comfortable noise generation, DTX/CNG)을 지도하기 위해 사용된다. DTX/CNG의 목적은, 입력 신호가 잡음 구간에 있을 때에만 비연속 코딩 및 전송을 수행하는 것이다. 대역폭을 절약하기 위해, 코딩 및 전송되지 않은 잡음은 디코더에서 내삽(interpolate)된다.
본 발명의 실시 중에, 본 발명자는 종래기술에 다음과 같은 문제점이 있음을 발견하였다: 종래기술의 VAD 알고리즘은 장기 배경 잡음 레벨의 이동 평균(moving average of a long-term background noise level)에 따라 적응되고, 배경 잡음의 변동에 대해 적응되지 않는다는 것을 알았다. 따라서, 적응성(adaptability)이 제한된다.
본 발명의 실시예는, VAD 임계값이 배경 잡음 변동에 적응할 수 있는, VAD 디바이스 및 방법을 제공한다.
본 발명의 실시예에 제공되는 음성 활동 검출(voice activity detection, VAD) 디바이스는,
입력된 VAD 판정 결과에 따라 현재 신호의 배경 잡음 특성을 분석하고, 배경 잡음 변동에 관련된 파라미터를 취득하며, 취득된 파라미터를 출력하도록 구성된 배경 분석 유닛;
상기 배경 분석 유닛에 의해 출력된 파라미터에 따라 VAD 임계값의 바이어스를 취득하고, 상기 VAD 임계값의 바이어스를 출력하도록 구성된 VAD 임계값 조정 유닛; 및
상기 VAD 임계값 조정 유닛에 의해 출력된 VAD 임계값의 바이어스에 따라 수정될 VAD 임계값을 수정하고, 상기 수정한 VAD 임계값을 사용하여 배경 잡음 판정을 수행하고, VAD 판정 결과를 출력하도록 구성된 VAD 판정 유닛을 포함한다.
본 발명에서 제공되는 VAD 방법은,
배경 잡음의 VAD 판정 결과에 따라 현재 신호의 배경 잡음 특성을 분석하고, 배경 잡음 변동(background noise variation)에 관련된 파라미터를 취득하는 단계;
상기 배경 잡음 변동에 관련된 파라미터에 따라 VAD 임계값의 바이어스를 취득하는 단계; 및
상기 VAD 임계값의 바이어스에 따라 수정될 VAD 임계값을 수정하고, 상기 수정한 VAD 임계값을 사용하여 상기 배경 잡음에 대한 VAD 판정을 수행하는 단계를 포함한다.
도 1은 본 발명의 실시예의 VAD 디바이스의 구성을 나타낸 것이다.
도 2는 본 발명의 실시예의 VAD 방법의 흐름도이다.
이하에서는 본 발명의 실시예의 시나리오에 따라 VAD 알고리즘을 설명한다.
이 알고리즘에서는, 입력 신호 프레임을 9개의 서브대역(subband)으로 분할한다. 각 서브밴드의 신호 레벨 level[n] 및 추정된 배경 잡음 레벨 bckr_est[n]을 계산한다. 그 후, level[n] 및 bckr_est[n]에 따라 아래의 식에 의해 SNR을 계산한다:
Figure 112009078365833-pct00001
VAD 판정은 SNR을 임계값 vad_thr과 비교하는 것이다. SNR이 vad_thr보다 크면, 현재 프레임은 비잡음 프레임이고; 그렇지 않으면 현재 프레임은 잡음 프레임이다. vad_thr은 아래의 식에 의해 계산된다:
Figure 112009078365833-pct00002
이 VAD 알고리즘에서, noise_level만이 vad_thr의 종속 변수이지만, noise_level은 장기(long-term) 배경 잡음 레벨의 이동 평균(moving average)을 반영한다. 따라서, vad_thr은 배경 잡음 변동에 적응적이지 않다(상이한 변동량을 가지는 배경이 장기 레벨에 대해 동일한 이동 평균을 가질 수 있기 때문임). 또한, 배경 변동은 VAD 판정에 큰 영향을 미친다. 예를 들면, VAD는 대량의 배경 잡음을 비잡음 신호로 잘못 결정할 수 있고, 따라서 대역폭을 낭비할 수 있다.
제1 실시예: 도 1은 본 발명의 제1 실시예의 VAD 디바이스를 나타낸 것이다. VAD 디바이스는 배경 분석 유닛, VAD 임계값 조정 유닛, VAD 판정 유닛, 및 외부 인터페이스 유닛을 포함한다.
배경 분석 유닛은, 입력된 VAD 판정 결과에 따라 현재 신호의 배경 잡음 특성을 분석하고, 배경 잡음 변동에 관련된 파라미터를 취득하며, 취득된 파라미터를 VAD 임계값 조정 유닛에 출력하도록 구성되어 있으며, 이들 파라미터는 배경 잡음 변동에 대한 파라미터들을 포함한다. 구체적으로, 이 배경 잡음 특성 파라미터는, 현재 환경에서 현재 신호의 배경 잡음에 대한 사이즈, 타입[안정(steady) 배경 또는 불안정(unsteady) 배경], 변동 비율 및 SNR을 식별하기 위해 사용된다. 배경 잡음 특성 파라미터는 적어도 배경 잡음의 피크 SNR을 포함하고, 장기 SNR, 추정된 배경 잡음 레벨, 배경 잡음 에너지 변동, 배경 잡음 스펙트럼 변동, 및 배경 잡음 변동 비율을 더 포함할 수 있다.
VAD 임계값 조정 유닛은, 배경 분석 유닛에 의해 출력된 파라미터에 따라 VAD 임계값의 바이어스를 취득하고, VAD 임계값의 바이어스를 출력하도록 구성되어 있다.
구체적으로, VAD 임계값 조정 유닛이 배경 분석 유닛에 출력된 파라미터 중 어느 하나를 수신한 때, VAD 임계값 조정 유닛은 배경 잡음 변동에 관련된 파라미터들의 현재 값에 따라 VAD 임계값의 바이어스를 갱신한다. VAD 임계값 조정 유닛은 또한 배경 분석 유닛에 의해 출력된 파라미터 값의 변경 여부를 판정할 수 있으며; 변경된 경우, VAD 임계값 조정 유닛은 배경 잡음 변동에 관련된 파라미터들의 현재 값에 따라 VAD 임계값의 바이어스를 갱신한다.
VAD 임계값의 바이어스는 배경 분석 유닛에 의해 출력된 파라미터에 따른 VAD 임계값 조정 유닛의 내부적 적응(internal adaptation)을 통해, 및/또는 VAD 디바이스의 외부 동작점 정보(external work point information)와 배경 분석 유닛에 의해 출력된 파라미터들을 조합하여, 취득된다.
설정(setting)이 VAD 임계값 조정 유닛의 내부적 적응만을 고려하는 경우, VAD 임계값 조정 유닛은 배경 분석 유닛에 의해 출력된 파라미터에 따라 VAD 임계값의 제1 바이어스를 취득하고, VAD 임계값의 제1 바이어스를 VAD의 최종 바이어스로서 VAD 판정 유닛에 출력한다.
설정이 VAD 디바이스의 외부 정보 및 VAD 임계값 조정 유닛의 내부적 적응을 고려하고, 현재 신호가 안정 잡음(stedy noise)이고, 및/또는 현재 신호의 SNR이 높은 경우, VAD 판정 유닛의 VAD 판정 결과는 이상적인 결과에 더욱 더 가깝고, 외부 정보에 따라 VAD 임계값의 제2 바이어스을 계산하는 것을 불필요하게 만든다. 따라서, VAD 임계값 조정 유닛은 배경 분석 유닛에 의해 출력된 파라미터에 따라 VAD 임계값의 제1 바이어스를 취득하고, VAD 임계값의 제1 바이어스를 VAD 임계값의 최종 바이어스로서 VAD 판정 유닛에 출력한다.
설정이 VAD 디바이스의 외부 정보 및 VAD 임계값 조정 유닛의 내부적 적응을 고려하고 현재 신호의 배경 잡음이 비안정 잡음(non-steady noise)이고 및/또는 현재 신호의 SNR이 낮은 경우, VAD 임계값 조정 유닛은 배경 분석 유닛에 의해 출력된 파라미터에 따라 VAD 임계값의 제1 바이어스와, 배경 분석 유닛에 의해 출력된 파라미터 및 VAD 디바이스의 외부 정보에 따라 VAD 임계값의 제2 바이어스를 취득하고, VAD 임계값의 제1 바이어스와 VAD 임계값의 제2 바이어스를 결합(예를 들면, 이 2개의 임계값을 가산하거나 이 2개의 임계값을 다른 방식으로 처리)하여 VAD 임계값의 최종 바이어스를 취득하고, VAD 임계값의 최종 바이어스를 VAD 판정 유닛에 출력한다.
설정이 VAD 디바이스의 외부 정보만을 고려하는 경우, VAD 임계값 조정 유닛은 배경 분석 유닛에 의해 출력된 파라미터와 VAD 디바이스의 외부 정보에 따라 VAD 임계값의 제2 바이어스를 취득하고, VAD 임계값의 제2 바이어스를 VAD 임계값의 최종 바이어스로서 VAD 판정 유닛에 출력한다.
VAD 판정 유닛은, VAD 임계값 조정 유닛에 의해 출력된 VAD 임계값의 바이어 스에 따라 수정될 VAD 임계값을 수정하고, 수정한 VAD 임계값을 사용하여 배경 잡음을 판정하며, VAD 판정 결과를 배경 분석 유닛에 출력하여 VAD 임계값의 부단한(constant) 적응을 실현하도록 구성된다. 또한, VAD 판정 유닛은 VAD 판정 결과를 출력하도록 구성된다.
제1 실시예의 다른 시나리오의 VAD 알고리즘에서, 수정될 VAD 임계값을 결정하는 방법은 SNR과 다음의 관계를 가진다: AMR VAD2로 수정될 임계값을 결정하는 방법에서는, 수정될 다수의 임계값이 어레이에 미리 저장되어 있다. 이들 임계값은 장기 SNR과 일정한 매핑 관계를 가진다. VAD는 현재의 장기 SNR에 따라 어레이 내의 수정될 임계값을 선택하고, 선택한 임계값을 수정될 VAD 임계값으로 사용한다. 본 실시예에서 수정될 VAD 임계값을 결정하는 방법은, 현재 신호의 장기 SNR을 수정될 임계값으로서 사용하는 단계를 포함할 수 있다. 예를 들면, 최종 VAD 임계값이 100이고 VAD 임계값 조정 유닛에 의해 출력된 VAD 임계값의 바이어스가 10이며 수정될 현재의 VAD 임계값이 95라고 가정하면, 수정된 최종 VAD 임계값은 105이다. 그 후, VAD 판정 유닛는 VAD 임계값을 100에서 105로 변경하고, 판정을 계속한다.
구체적으로, 본 실시예의 VAD는 배경 잡음와 비배경 잡음을 구분하기 위한 VAD와, 배경 잡음, 음성, 및 음악을 구분하기 위한 SAD에서의 새로운 VAD를 포함한다. VAD의 경우, 분류 타입에는 배경 잡음과 비잡음을 포함한다. SAD의 경우, 분류 타입에는 배경 잡음, 음성, 및 음악을 포함한다. 본 실시예에서, SAD 내의 VAD는 입력 신호를 배경 잡음와 비잡음로 분류한다. 즉, 본 실시예서는 음성과 음악 을 동일한 타입으로서 처리한다.
제2 실시예: 도 2는 본 발명의 제2 실시예의 VAD 방법을 나타낸 것이다. VAD 방법은 다음 단계를 포함한다:
S1. 배경 잡음의 VAD 판정 결과에 따라 현재 신호의 배경 잡음 특성을 분석하고, 배경 잡음 변동에 관련된 파라미터를 취득한다.
배경 잡음 변동에 관련된 파라미터는 배경 잡음의 피크 SNR을 적어도 포함하고, 배경 에너지의 변동 크기, 배경 잡음 스펙트럼의 변동 크기, 및/또는 배경 잡음의 변동 비율을 더 포함할 수 있다. 배경 잡음 변동에 관련된 파라미터를 취득하는 프로세스에서, 예를 들면 장기 SNR 및 추정된 배경 잡음 레벨과 같은, 현재 신호의 배경 잡음 특성을 나타내는 기타 파라미터도 취득될 수 있다.
S2. 배경 잡음 변동에 관련된 파라미터에 따라 VAD 임계값의 바이어스를 취득한다.
배경 잡음 변동에 관련된 파라미터 중 어느 하나가 갱신된 경우, VAD 임계값의 바이어스가 배경 잡음 변동에 관련된 파라미터의 현재 값에 따라 갱신된다.
구체적으로, 배경 잡음 변동에 관련된파라미터의 현재 값에 따라 VAD 임계값의 바이어스를 취득하는 방법은, 다음 4가지 경우를 포함하지만, 이에 한정되지는 않는다:
경우 1: 설정이 특정한 정보를 고려할 필요가 없는 경우, VAD 임계값의 제1 바이어스는 배경 잡음 변동에 관련된 파라미터에 따라 취득되고, VAD 임계값의 제1 바이어스가 VAD 임계값의 최종 바이어스로서 사용된다.
경우 2: 설정이 특정한 정보를 고려할 필요가 있고 배경음(background sound)이 비안정된 잡음이고 및/또는 SNR이 낮은 경우, VAD 임계값의 제1 바이어스는 배경 잡음 변동에 관련된 파라미터에 따라 취득되고 VAD 임계값의 제2 바이어스는 배경 잡음 변동에 관련된 파라미터 및 상기한 특정한 정보에 따라 취득되며; VAD 임계값의 최종 바이어스는 VAD 임계값의 제1 바이어스와 VAD 임계값의 제2 바이어스를 결합(예를 들면, 이 2개의 임계값을 가산하거나 이 2개의 임계값을 다른 방식으로 처리)하여 취득된다.
경우 3: 설정이 구체적인 정보를 고려할 필요가 있고 배경음이 안정 잡음이고 및/또는 SNR이 높은 경우, VAD 임계값의 제1 바이어스는 배경 잡음 변동에 관련된 파라미터에 따라 취득되고, VAD 임계값의 제1 바이어스가 VAD 임계값의 최종 바이어스로서 사용된다.
경우 4: 설정이 특정한 정보만을 고려하는 경우, VAD 임계값의 제2 바이어스는 배경 잡음 변동에 관련된 파라미터와 그 특정한 정보에 따라 취득되고, VAD 임계값이 VAD 임계값의 최종 바이어스로서 사용된다.
전술한 경우 1 내지 경우 3에서, VAD 임계값의 제1 바이어스는 배경 잡음 에너지 변동, 배경 잡음 스펙트럼 변동 크기, 배경 잡음 변동 비율, 장기 SNR, 및/또는 배경 잡음의 피크 SNR이 증가함에 따라 증가한다. VAD 임계값의 제1 바이어스는 다음의 식 중 하나에 의해 계산될 수 있다:
vad_thr_delta = β*(snr_peak-vad_thr_default), 이 식에서 vad_thr_delta는 VAD 임계값의 제1 바이어스를 나타내고; vad_thr_default는 수정될 VAD 임계값 을 나타내며; snr_peak는 배경 잡음의 피크 SNR을 나타내고; β는 상수이다.
vad_thr_delta = β*f(var_rate)*(snr_peak-vad_thr_default), 이 식에서 vad_thr_delta는 VAD 임계값의 제1 바이어스를 나타내고; vad_thr_default는 수정될 VAD 임계값을 나타내며; snr_peak는 배경 잡음의 피크 SNR을 나타내고; β는 상수이며; var_rate는 배경 잡음 변동 비율을 나타내고; f()는 함수를 나타낸다.
vad_thr_delta = β*f(var_rate)*f(pow_var)*(snr_peak-vad_thr_default), 이 식에서 vad_thr_delta는 VAD 임계값의 제1 바이어스를 나타내고; vad_thr_default는 수정될 VAD 임계값을 나타내며; snr_peak는 배경 잡음의 피크 SNR을 나타내고; β는 상수이며; pow_var는 배경 에너지 변동 크기를 나타내고; var_rate는 배경 잡음 변동 비율을 나타내며; f()는 함수를 나타낸다.
vad_thr_delta = β*f(var_rate)*f(spec_var)*(snr_peak-vad_thr_default), 이식에서 vad_thr_delta는 VAD 임계값의 제1 바이어스를 나타내고; vad_thr_default는 수정될 VAD 임계값을 나타내며; snr_peak는 배경 잡음의 피크 SNR을 나타내고; β는 상수이며; spec_var는 배경 잡음 스펙트럼 변동 크기를 나타내고; var_rate는 배경 잡음 변동 비율을 나타내며; f()는 함수를 나타낸다.
vad_thr_delta = β*f(var_rate)*f(pow_var)*f(spec_var)*(snr_peak-vad_thr_default), 이식에서 vad_thr_delta는 VAD 임계값의 제1 바이어스를 나타내고; vad_thr_default는 수정될 VAD 임계값을 나타내며; snr_peak는 배경 잡음의 피크 SNR을 나타내고; β는 상수이며; spec_var는 배경 잡음 스펙트럼 변동 크기를 나타내고; var_rate는 배경 잡음 변동 비율을 나타내며; pow_var는 배경 에너지 변 동 크기를 나타내고; f()는 함수를 나타낸다.
주: VAD 임계값의 제1 바이어스를 계산하기 위한 전술한 식 각각에 장기 SNR 파라미터가 추가될 수 있다. 즉, 전술한 식은 또한 장기 SNR 함수가 승산된 후에 적용될 수도 있다.
전술한 경우 2 및 경우 4에서, VAD 임계값의 제2 바이어스의 절대값은 배경 잡음 에너지 변동, 배경 잡음 스펙트럼 변동 크기, 배경 잡음 변동 비율, 장기 SNR, 및/또는 배경 잡음의 피크 SNR이 증가함에 따라 증가한다. 또한, 구체적인 정보는 동작점의 지향성(work point orientation)을 나타내고, 식에서는 양(positive)의 부호 또는 음(negative)의 부호로 표현된다. 특정한 동작점이 품질 지향성인 경우, 부호는 음이고; 특정한 동작점이 대역폭 절약 지향성인 경우에, 부호는 양이다. VAD 임계값의 제2 바이어스는 다음의 식 중 하나에 의해 계산될 수 있다:
vad_thr_delta_out = sign*γ*(snr_peak-vad_thr_default), 이 식에서, vad_thr_delta_out은 VAD 임계값의 제2 바이어스를 나타내고; vad_thr_default는 수정될 VAD 임계값을 나타내며; sign은 특정한 정보의 지향성(orientation)에 의해 결정된 vad_thr_delta_out의 양의 부호 또는 음의 부호를 나타내고; snr_peak는 배경 잡음의 SNR 피크를 나타내며; γ는 상수이다.
vad_thr_delta_out = sign*γ*f(var_rate)*(snr_peak-vad_thr_default), 이 식에서 vad_thr_delta_out은 VAD 임계값의 제2 바이어스를 나타내고; vad_thr_default는 수정될 VAD 임계값을 나타내며; sign은 특정한 정보의 지향 성(orientation)에 의해 결정된 vad_thr_delta_out의 양의 부호 또는 음의 부호를 나타내고; snr_peak는 배경 잡음의 SNR 피크를 나타내며; γ는 상수이고; var_rate는 배경 잡음 변동 비율을 나타내며; f()는 함수를 나타낸다.
vad_thr_delta_out = sign*γ*f(var_rate)*f(pow_var)*(snr_peak-vad_thr_default), 이 식에서 vad_thr_delta_out은 VAD 임계값의 제2 바이어스를 나타내고; vad_thr_default는 수정될 VAD 임계값을 나타내며; sign은 특정한 정보의 지향성(orientation)에 의해 결정된 vad_thr_delta_out의 양의 부호 또는 음의 부호를 나타내고; snr_peak는 배경 잡음의 SNR 피크를 나타내며; γ는 상수이고; pow_var는 배경 에너지 변동 크기를 나타내며; var_rate는 배경 잡음 변동 비율을 나타내고; f()는 함수를 나타낸다.
vad_thr_delta_out = sign*γ*f(var_rate)*f(pow_var)*(snr_peak-vad_thr_default), 이 식에서 vad_thr_delta_out은 VAD 임계값의 제2 바이어스를 나타내고; vad_thr_default는 수정될 VAD 임계값을 나타내며; sign은 특정한 정보의 지향성(orientation)에 의해 결정된 vad_thr_delta_out의 양의 부호 또는 음의 부호를 나타내고; snr_peak는 배경 잡음의 SNR 피크를 나타내며; γ는 상수이고; spec_var는 배경 잡음 스펙트럼 변동 크기를 나타내며; var_rate는 배경 잡음 변동 비율을 나타내고; f()는 함수를 나타낸다.
vad_thr_delta_out = sign*γ*f(var_rate)*f(pow_var)*f(spec_var)*(snr_peak-vad_thr_default), 이 식에서 vad_thr_delta_out은 VAD 임계값의 제2 바이어스를 나타내고; vad_thr_default는 수정될 VAD 임계값을 나타내며; 부호는 특정한 정보의 지향성(orientation)에 의해 결정된 vad_thr_delta_out의 양의 부호 또는 음의 부호를 나타내고; snr_peak는 배경 잡음의 SNR 피크를 나타내며; γ는 상수이고; spec_var는 배경 잡음 스펙트럼 변동 크기를 나타내며; var_rate는 배경 잡음 변동 비율을 나타내고; pow_var는 배경 에너지 변동 크기를 나타내며; f()는 함수를 나타낸다.
주: VAD 임계값의 제2 바이어스를 계산하기 위한 전술한 식 각각에 장기 SNR 파라미터가 추가될 수 있다. 즉, 전술한 식은 또한 장기 SNR 함수가 승산된 후에 적용될 수도 있다.
VAD 임계값의 제1 바이어스와 VAD 임계값의 제2 바이어스를 계산하기 위한 전술한 식에서, snr_peak는 2개의 인접하는 비배경 잡음 프레임 사이의 배경 잡음 프레임 각각에 대응하는 SNR 중의 최대 SNR; 또는 2개의 인접하는 배경 잡음 프레임 사이의 비배경 잡음 프레임 각각에 대응하는 SNR 중의 최소 SNR; 또는 간격이 미리 설정된 프레임 개수보다 작은 2개의 배경 잡음 프레임 사이의 비배경 잡음 프레임 각각에 대응하는 SNR 중 어느 하나; 또는 간격이 미리 설정된 프레임 개수보다 큰 2개의 배경 잡음 프레임 사이의 미리 설정된 임계값보다 작은 비배경 잡음 프레임 각각에 대응하는 SNR 중 어느 하나이다. 임계값은 다음의 규칙에 따라 설정된다: 2개의 배경 잡음 프레임 사이의 모든 비배경 잡음 프레임의 SNR이 2개의 세트를 포함한다고 가정한다: 하나는 임계값보다 큰 모든 SNR로 구성되고, 나머지는 임계값보다 작은 모든 SNR으로 구성되며; 이들 2세트의 평균값의 차이를 최대화하는 임계값이 미리 설정된 임계값으로 결정된다.
S3. VAD 임계값의 바이어스에 따라 수정될 VAD 임계값을 수정하고, 수정한 VAD 임계값을 사용하여 배경 잡음에 대한 VAD 판정을 수행한다.
제3 실시예: 본 실시예는 전술한 실시예에서 제공된 VAD 디바이스와 방법을 결합하여 모듈러 프로세스(modular process)를 제공한다.
단계 1: VAD 판정 유닛이 입력된 오디오 신호의 타입에 대해 초기 판정을 수행하고, VAD 판정 결과를 배경 분석 유닛에 입력한다.
VAD 임계값의 초기 바이어스는 0(영)이다. VAD 판정 유닛이 수정될 VAD 임계값에 따라 VAD 판정을 수행한다. 예를 들면, 수정될 VAD 임계값은 품질과 대역폭 절약 사이의 균형을 유지하기 위한 것이다.
단계 2: 배경 분석 유닛이 VAD 판정 결과에 따라 현재의 프레임이 배경 잡음 프레임임을 알고 있을 때, 배경 분석 유닛은 현재 프레임의 단기 배경 잡음 특성 파라미터를 계산하고, 이들 파라미터를 메모리에 저장한다. 이하에 이들 파라미터 및 이들 파라미터를 계산하는 방법을 설명한다:
1. 서브대역 레벨 level [k, i], 여기서 k 및 i는 i번째 프레임의 k번째 서브대역을 나타낸다. 서브대역은 필터 그룹 또는 변환 방법(conversion method)을 사용하여 계산될 수 있다.
2. 단기 배경 잡음 레벨 bckr_noise [i](현재 프레임이 배경 프레임인 경우에만 계산),
Figure 112009078365833-pct00003
, 이 식에서 i는 i번째 프레임의 배경 잡음 레벨 을 나타내고; k는 k번째 서브대역을 나타내며; N은 서브대역의 총수를 나타낸다.
3. 프레임 에너지 pow [i],
Figure 112009078365833-pct00004
, 이 식에서 i는 i번째 프레임의 프레임 에너지를 나타낸다.
4. 단기 SNR snr [i],
Figure 112009078365833-pct00005
, 이 식에서 i는 i번째 프레임의 단기 SNR을 나타내고; bckr_noise_pow [i]는 추정된 배경 잡음 에너지를 나타낸다. 이들 파라미터에 대해서는 후술한다.
단계 3: 배경 분석 유닛이 일정한 수의 프레임을 분석하였을 때, 배경 분석 유닛은 메모리 내의 이력(history) 단기 배경 잡음 특성 파라미터에 따라 장기 배경 잡음 특성 파라미터를 계산하기 시작하고, 배경 잡음 변동에 관련된 파라미터를 출력한다. 그 후, 배경 잡음 변동에 관련된 파라미터들이 계속 갱신된다. 장기 SNR를 제외한, 기타 파라미터는 현재 프레임이 배경 프레임인 경우에만 갱신된다. 장기 SNR은 현재 프레임이 비배경 프레임인 경우에만 갱신된다. 이하에 이들 파라미터 및 이들 파라미터를 계산하는 방법을 설명한다:
1. 추정된 장기 배경 잡음 레벨 bckr_noise_long [i],
Figure 112009078365833-pct00006
, 이 식에서 α는 0과 1사이의 비례 인수(scale factor)이고, 그 값은 약 5%이다.
2. 장기 SNR snr_long[i],
Figure 112009078365833-pct00007
, 이 식에서 L은 장기 평균 계산을 위해 선택된 비배경 프레임의 수를 나타낸다.
3. 배경 잡음 에너지 변동 pow_var [i],
Figure 112009078365833-pct00008
, 이 식에서 L은 장기 평균 계산을 위해 선택된 배경 프레임의 수를 나타낸다.
4. 배경 잡음 스펙트럼 변동 spec_var [i],
Figure 112009078365833-pct00009
, 이 식에서 L은 장기 평균 계산을 위해 선택된 배경 프레임의 수를 나타낸다. 배경 잡음 스펙트럼 변동은 또한 라인 스펙트럼 주파수(line spectrum frequency, LSF) 계수에 기초하여 계산될 수도 있다.
5. 배경 잡음 변동 rate var_rate[i],
Figure 112009078365833-pct00010
, 이 식에서
Figure 112009078365833-pct00011
는 x가 참이면 1이고; 그렇지 않으면 0이며; L은 장기 평균 계산을 위해 선택된 배경 프레임의 수를 나타낸다.
6. 추정된 장기 배경 잡음 에너지 bckr_noise_pow [i],
Figure 112009078365833-pct00012
이 식에서 α는 0과 1 사이의 비례 인수이고, 그 값은 약 5%이다.
단계 4: VAD 임계값 조정 유닛은 배경 잡음 변동에 관련되고 배경 분석 유닛에 의해 출력된 파라미터들에 따라 VAD 임계값의 바이어스를 계산한다.
VAD 임계값을 수정하는 프로세스에서, 대응하는 방향에서 진폭의 VAD 임계값을 수정하기 위해 VAD 임계값의 바이어스를 취득하여야 한다.
제2 실시예에서 단계 2의 경우 1에 따르면, VAD 임계값 조정 유닛은 내부적 적응을 통해 VAD 임계값의 제1 바이어스를 취득하고, 외부적으로 특정한 정보를 고려하지 않고, 이 VAD 임계값의 제1 바이어스를 VAD 임계값의 최종 바이어스로 사용한다. 수정될 현재 VAD 임계값이 vad_thr_defaultDLRH, VAD 임계값의 제1 바이어스가 vad_thr_delta라고 하면, 수정된 VAD 임계값은 vad_thr_default + vad_thr_delta이다. 그 후, VAD 임계값의 제1 바이어스가 다음 식에 의해 계산된다: vad_thr_delta = β*(snr_peak-vad_thr_default), 여기서 snr_peak는 배경 피크 SRN을 나타내고, β는 상수이다. snr_peak는 장기 이력 배경 프레임 선택에 있어 피크 SNR일 수 있다; 즉 snr_peak = MAX(snr[i]), i=0,-1,-2...-n, 여기서 i는 최신 이력 배경 프레임 및 최신 이력 배경 프레임 이전의 첫번째 배경 프레임에서 n번째 배경 프레임까지를 나타낸다. snr_peak는 또한 이력 비배경 선택에서의 골짜기(valley) SNR 또는 다수의 최소 SNR 중 하나일 수 있다. 이 경우에, snr_peak=MIN(snr [i]), i=0,-1,-2...-n, 여기서 i는 최신 이력 비배경 프레임 및 최신 이력 비배경 프레임 이전의 첫번째 비배경 프레임에서 n번째 비배경 프레임까지, 또는 snr_peak∈{X}를 나타매고, 여기서 {X}는 장기 이력 비배경 프레임 선택에 있어 SNR의 집합 ({Y})의 서브집합을 나타내고, |MEAN({X})-MEAN({Y-X})|의 값을 최대화하며, 여기서 MEAN은 평균값을 나타낸다. var_rate는 장기 배경 내의 음의 SNR의 횟수이다.
즉, snr_peak은, 2개의 인접한 비배경 잡음 프레임 사이의 각 배경 잡음 프레임에 대응하는 SNR 중 최대 SNR, 또는 2개의 인접한 배경 잡음 프레임 사이의 각 비배경 잡음 프레임에 대응하는 SNR 중 최소 SNR, 또는 간격이 미리 설정된 프레임의 수보다 작은 2개의 배경 잡음 프레임 사이의 각 비배경 잡음 프레임에 대응하는 SNR 중 어느 하나, 또는 간격이 미리 설정된 프레임의 수보다 큰 2개의 배경 잡음 프레임 사이의, 미리 정해진 임계값보다 작은 각 비배경 잡음 프레임에 대응하는 SNR 중 어느 하나이다. 임계값은 다음의 규칙에 따라 설정된다: 2개의 배경 잡음 프레임 사이의 모든 비배경 잡음 프레임의 SNR은 2개의 세트를 포함하고, 그 하나는 임계값보다 큰 모든 SNR로 구성되고, 나머지는 임계값보다 작은 모든 SNR로 구성된다고 가정하면; 이 2 세트의 평균값의 차를 최대화하는 임계값이 미리 설정된 임계값으로 결정된다.
다수의 임계값을 가지는 VAD 알고리즘에서, 각각의 임계값 또는 이들 임계값 중 몇몇은 전술한 방법에 따라 조정될 수 있다.
단계 5: VAD 판정 유닛이 VAD 임계값 조정 유닛에 의해 출력된 VAD 임계값의 바이어스에 따라 수정될 VAD 임계값을 수정하고, 수정한 VAD 임계값에 따라 배경 잡음을 판정하며, VAD 판정 결과를 출력한다.
VAD 임계값 조정 유닛이 첫번째 경우에 따라 VAD 임계값의 바이어스를 취득하면, 수정된 VAD 임계값은 vad_thr_default+vad_thr_delta이다.
끝으로, 본 발명의 실시예에서, 현재 신호의 배경 잡음 특성이 배경 잡음의 VAD 판정 결과에 따라 분석되고, 배경 잡음 변동에 관련된 파라미터가 취득되어, VAD 임계값이 배경 잡음 변동에 적응하게 한다. 그후, 배경 잡음 변동에 관련된 파라미터에 따라 VAD 임계값의 바이어스가 취득되고; 이 VAD 임계값의 바이어스에 따라 수정될 VAD 임계값이 수정되어, 배경 잡음 변동을 반영할 수 있는 VAD 임계값이 취득되며; 수정된 VAD 임계값을 사용하여 배경 잡음에 대해 VAD 판정이 수행된다. 따라서, VAD 임계값이 배경 잡음 변동에 적응되어, VAD는 변동이 서로 다른 배경 잡음 환경에서 최적의 성능을 얻을 수 있다.
또한, 본 발명의 실시예는 VAD 임계값의 바이어스를 취득하는 방법에 따라 상이한 구현 방식을 제공한다. 특히, 본 발명의 실시예는, 본 발명을 더욱 잘 지원하는 배경 잡음의 피크 SNR(snr_peak)의 값을 계산하는 해법을 설명하였다.
해당 기술분야의 당업자는, 전술한 실시예에 따른 방법의 모든 단계 또는 일부 단계를 프로그램에 의해 지시를 받는 하드웨어로 수행할 수 있음을 알 것이다. 해당 프로그램은 판독 전용 메모리(ROM)/임의 접근 메모리(RAM), 자기 디스크, 및 컴팩트 디스크와 같은, 컴퓨터로 판독 가능한 저장 매체에 저장될 수 있다.
해당 기술분야의 당업자가 본 발명의 사상 및 범위를 벗어나지 않으면서, 본 발명을 다양하게 변경 및 수정할 수 있음은 명백하다. 이하의 청구의 범위 또는 그 등가물에 의해 정해지는 보호 범위 내에 포함되다면 본 발명은 그러한 변경 및 수정을 포함하도록 의도된다.

Claims (26)

  1. 음성 활동 검출(voice activity detection, VAD) 디바이스로서,
    입력된 VAD 판정 결과에 따라 현재 신호의 배경 잡음 특성을 분석하고, 배경 잡음 변동에 관련된 파라미터를 취득하며, 상기 취득한 파라미터를 출력하도록 구성된 배경 분석 유닛;
    상기 배경 분석 유닛에 의해 출력된 파라미터에 따라 VAD 임계값의 바이어스를 취득하고, 상기 VAD 임계값의 바이어스를 출력하도록 구성된 VAD 임계값 조정 유닛;
    상기 VAD 임계값 조정 유닛에 의해 출력된 VAD 임계값의 바이어스에 따라 수정될 VAD 임계값을 수정하고, 상기 수정한 VAD 임계값에 따라 배경 잡음 판정을 수행하고, VAD 판정 결과를 출력하도록 구성된 VAD 판정 유닛; 및
    상기 음성 활동 검출 다바이스의 외부 정보를 수신하도록 구성된 외부 인터페이스 유닛
    을 포함하는 음성 활동 검출 디바이스.
  2. 제1항에 있어서,
    상기 배경 분석 유닛에 의해 출력된 파라미터는 배경 잡음의 피크 신호대잡음비(signal noise ratio, SNR)를 포함하는, 음성 활동 검출 디바이스.
  3. 제2항에 있어서,
    상기 배경 분석 유닛에 의해 출력 파라미터는 배경 에너지 변동 크기, 배경 잡음 스펙트럼 변동 크기, 장기 SNR, 및 배경 잡음 변동 비율 중 적어도 하나를 더 포함하는, 음성 활동 검출 디바이스.
  4. 제1항에 있어서,
    상기 VAD 임계값 조정 유닛이 상기 배경 분석 유닛에 의해 출력된 파라미터 중 어느 하나를 수신하는 경우, 상기 VAD 임계값 조정 유닛은 배경 잡음 변동에 관련된 파라미터의 현재값에 따라 상기 VAD 임계값의 바이어스를 갱신하도록 구성되는, 음성 활동 검출 디바이스.
  5. 제1항에 있어서,
    상기 VAD 임계값 조정 유닛은, 상기 배경 분석 유닛에 의해 출력된 파라미터에 따라 상기 VAD 임계값의 제1 바이어스를 취득하고, 상기 VAD 임계값의 제1 바이어스를 상기 VAD 임계값의 최종 바이어스로서 상기 VAD 판정 유닛에 출력하거나;
    상기 VAD 임계값 조정 유닛은, 상기 배경 분석 유닛에 의해 출력된 파라미터에 따라 상기 VAD 임계값의 제1 바이어스를 취득하고 상기 배경 분석 유닛에 의해 출력된 파라미터 및 상기 디바이스의 외부 정보에 따라 상기 VAD 임계값의 제2 바이어스를 취득하며, 상기 VAD 임계값의 제1 바이어스와 상기 VAD 임계값의 제2 바이어스를 결합하여 상기 VAD 임계값의 최종 바이어스를 취득하고, 상기 VAD 임계값의 최종 바이어스를 상기 VAD 판정 유닛에 출력하거나;
    상기 VAD 임계값 조정 유닛은, 상기 배경 분석 유닛에 의해 출력된 파라미터 및 상기 디바이스의 외부 정보에 따라 상기 VAD 임계값의 제2 바이어스를 취득하고, 상기 VAD 임계값의 제2 바이어스를 상기 VAD 임계값의 최종 바이어스로서 상기 VAD 판정 유닛에 출력하는, 음성 활동 검출 디바이스.
  6. 제1항에 있어서,
    상기 VAD 판정 유닛은, 수정될 VAD 임계값을 실시간(real-time basis)으로 갱신하고, 상기 VAD 임계값 조정 유닛에 의해 출력된 상기 VAD 임계값의 바이어스를 수신한 때 수정될 현재 VAD 임계값을 추출하며, 상기 VAD 임계값의 바이어스에 따라 상기 현재 VAD 임계값을 수정하는, 음성 활동 검출 디바이스.
  7. 음성 활동 검출(voice activity detection, VAD) 방법으로서,
    배경 잡음의 VAD 판정 결과에 따라 현재 신호의 배경 잡음 특성을 분석하고, 배경 잡음 변동에 관련된 파라미터를 취득하는 단계;
    상기 배경 잡음 변동에 관련된 파라미터에 따라 VAD 임계값의 바이어스를 취득하는 단계; 및
    상기 VAD 임계값의 바이어스에 따라 수정될 VAD 임계값을 수정하고, 상기 수정한 VAD 임계값을 사용하여 상기 배경 잡음에 대한 VAD 판정을 수행하는 단계
    를 포함하고,
    상기 배경 잡음 변동에 관련된 파라미터에 따라 상기 VAD 임계값의 바이어스를 취득하는 단계는,
    설정(setting)이 특정한 정보를 고려할 필요가 없는 경우, 상기 배경 잡음 변동에 관련된 파라미터에 따라 상기 VAD 임계값의 제1 바이어스를 취득하고, 상기 VAD 임계값의 제1 바이어스를 VAD의 최종 바이어스로서 사용하는 단계;
    설정이 특정한 정보를 고려할 필요가 있고, 배경음이 비안정 잡음 중 적어도 하나이며, 신호대잡음비(SNR)가 미리 설정된 값보다 낮은 경우, 상기 배경 잡음 변동에 관련된 파라미터에 따라 상기 VAD 임계값의 제1 바이어스를 취득하고 상기 배경 잡음 변동에 관련된 파라미터 및 상기 특정한 정보에 따라 상기 VAD 임계값의 제2 바이어스를 취득하며, 상기 VAD 임계값의 제1 바이어스와 상기 VAD 임계값의 제2 바이어스의 결합에 의해 상기 VAD 임계값의 최종 바이어스를 취득하는 단계;
    설정이 특정한 정보를 고려할 필요가 있고, 배경음이 안정 잡음 중 적어도 하나이며, SNR이 상기 미리 설정된 값보다 높은 경우, 상기 배경 잡음 변동에 관련된 파라미터에 따라 상기 VAD 임계값의 제1 바이어스를 취득하고, 상기 VAD 임계값의 제1 바이어스를 상기 VAD 임계값의 최종 바이어스로서 사용하는 단계; 및
    설정이 특정한 정보만을 고려하는 경우, 상기 배경 잡음 변동에 관련된 파라미터 및 상기 특정한 정보에 따라 상기 VAD 임계값의 제2 바이어스를 취득하고, 상기 VAD 임계값의 제2 바이어스를 상기 VAD 임계값의 최종 바이어스로서 사용하는 단계
    중 적어도 하나를 포함하는, 음성 활동 검출 방법.
  8. 제7항에 있어서,
    상기 배경 잡음 변동에 관련된 파라미터는 배경 잡음의 피크 신호대잡음비(signal noise ratio, SNR)를 포함하는, 음성 활동 검출 방법.
  9. 제8항에 있어서,
    상기 배경 잡음 변동에 관련된 파라미터는 배경 에너지 변동 크기, 배경 잡음 스펙트럼 변동 크기, 장기 SNR, 및 배경 잡음 변동 비율 중 적어도 하나를 더 포함하는, 음성 활동 검출 방법.
  10. 제7항에 있어서,
    상기 배경 잡음 변동에 관련된 파라미터 중 하나가 갱신되는 경우, 상기 방법은, 상기 배경 잡음 변동에 관련된 파라미터의 현재값에 따라 상기 VAD 임계값의 바이어스를 갱신하는 단계를 포함하는 음성 활동 검출 방법.
  11. 제7항에 있어서,
    상기 VAD 임계값의 제1 바이어스는 배경 잡음 에너지 변동, 배경 잡음 스펙트럼 변동 크기, 배경 잡음 변동 비율, 장기 SNR, 및 배경 잡음의 피크 SNR 중 적어도 하나의 증가에 따라 증가하는, 음성 활동 검출 방법.
  12. 제11항에 있어서,
    vad_thr_delta = β*(snr_peak-vad_thr_default);
    vad_thr_delta = β*f(var_rate)*(snr_peak-vad_thr_default);
    vad_thr_delta = β*f(var_rate)*f(pow_var)*(snr_peak-vad_thr_default);
    vad_thr_delta = β*f(var_rate)*f(spec_var)*(snr_peak-vad_thr_default); 및
    vad_thr_delta = β*f(var_rate)*f(pow_var)*f(spec_var)*(snr_peak-vad_thr_default)
    중 적어도 하나를 더 포함하며,
    위 식에서 vad_thr_delta는 상기 VAD 임계값의 제1 바이어스를 나타내고; vad_thr_default는 수정될 VAD 임계값을 나타내며; snr_peak는 배경 잡음의 피크 SNR을 나타내고; β는 상수이며; var_rate는 배경 잡음 변동 비율을 나타내고; f()는 함수를 나타내고; pow_var는 배경 에너지 변동 크기를 나타내며; spec_var는 배경 잡음 스펙트럼 변동 크기를 나타내는, 음성 활동 검출 방법.
  13. 제7항에 있어서,
    상기 VAD 임계값의 제2 바이어스의 절대값은 배경 잡음 에너지 변동, 배경 잡음 스펙트럼 변동 크기, 배경 잡음 변동 비율, 장기 SNR, 및 배경 잡음의 피크 SNR 중 적어도 하나의 증가에 따라 증가하는, 음성 활동 검출 방법.
  14. 제13항에 있어서,
    vad_thr_delta_out = sign*γ*(snr_peak-vad_thr_default);
    vad_thr_delta_out = sign*γ*f(var_rate)*(snr_peak-vad_thr_default);
    vad_thr_delta_out = sign*γ*f(var_rate)*f(pow_var)*(snr_peak-vad_thr_default); 및
    vad_thr_delta_out = sign*γ*f(var_rate)*f(pow_var)*(snr_peak-vad_thr_default)
    중 적어도 하나를 더 포함하고,
    위 식에서, vad_thr_delta_out은 상기 VAD 임계값의 제2 바이어스를 나타내고; vad_thr_default는 수정될 VAD 임계값을 나타내며; sign은 특정한 정보의 지향성(orientation)에 의해 결정된 vad_thr_delta_out의 양의 부호 또는 음의 부호를 나타내고; snr_peak는 배경 잡음의 SNR 피크를 나타내며; γ는 상수이고; var_rate는 배경 잡음 변동 비율을 나타내며; f()는 함수를 나타내고; pow_var는 배경 에너지 변동 크기를 나타내며; spec_var는 배경 잡음 스펙트럼 변동 크기를 나타내는, 음성 활동 검출 방법.
  15. 제12항에 있어서,
    snr_peak는 2개의 인접하는 비배경 잡음 프레임 사이의 배경 잡음 프레임 각각에 대응하는 SNR 중의 최대 SNR이거나;
    snr_peak는 2개의 인접하는 배경 잡음 프레임 사이의 비배경 잡음 프레임 각각에 대응하는 SNR 중의 최소 SNR이거나;
    snr_peak는, 간격이 미리 설정된 프레임 개수보다 작은 2개의 배경 잡음 프레임 사이의 비배경 잡음 프레임 각각에 대응하는 SNR 중 어느 하나이거나;
    snr_peak는, 간격이 미리 설정된 프레임 개수보다 큰 2개의 배경 잡음 프레임 사이의 미리 설정된 임계값보다 작은 비배경 잡음 프레임 각각에 대응하는 SNR 중 어느 하나인, 음성 활동 검출 방법.
  16. 제14항에 있어서,
    snr_peak는 2개의 인접하는 비배경 잡음 프레임 사이의 배경 잡음 프레임 각각에 대응하는 SNR 중의 최대 SNR이거나;
    snr_peak는 2개의 인접하는 배경 잡음 프레임 사이의 비배경 잡음 프레임 각각에 대응하는 SNR 중의 최소 SNR이거나;
    snr_peak는, 간격이 미리 설정된 프레임 개수보다 작은 2개의 배경 잡음 프레임 사이의 비배경 잡음 프레임 각각에 대응하는 SNR 중 어느 하나이거나;
    snr_peak는, 간격이 미리 설정된 프레임 개수보다 큰 2개의 배경 잡음 프레임 사이의 미리 설정된 임계값보다 작은 비배경 잡음 프레임 각각에 대응하는 SNR 중 어느 하나인, 음성 활동 검출 방법.
  17. 제15항에 있어서,
    snr_peak이, 간격이 미리 설정된 프레임 개수보다 큰 2개의 배경 잡음 프레임 사이의 미리 설정된 임계값보다 작은 비배경 잡음 프레임 각각에 대응하는 SNR 중 어느 하나이면, 상기 임계값은 다음의 규칙:
    -2개의 배경 잡음 프레임 사이의 비배경 잡음 프레임의 모든 SNR이 2개의 세트를 포함한다고 가정하면, 한 세트는 임계값보다 큰 모든 SNR로 구성되고, 나머지 세트는 임계값보다 작은 모든 SNR로 구성되며, 각 세트의 평균값의 차이를 최대화하는 임계값이 미리 설정된 임계값으로서 결정됨-
    에 따라 설정되는, 음성 활동 검출 방법.
  18. 제16항에 있어서,
    snr_peak이, 간격이 미리 설정된 프레임 개수보다 큰 2개의 배경 잡음 프레임 사이의 미리 설정된 임계값보다 작은 비배경 잡음 프레임 각각에 대응하는 SNR 중 어느 하나이면, 상기 임계값은 다음의 규칙:
    -2개의 배경 잡음 프레임 사이의 비배경 잡음 프레임의 모든 SNR이 2개의 세트를 포함한다고 가정하면, 한 세트는 임계값보다 큰 모든 SNR로 구성되고, 나머지 세트는 임계값보다 작은 모든 SNR로 구성되며, 각 세트의 평균값의 차이를 최대화하는 임계값이 미리 설정된 임계값으로서 결정됨-
    에 따라 설정되는, 음성 활동 검출 방법.
  19. 삭제
  20. 삭제
  21. 삭제
  22. 삭제
  23. 삭제
  24. 삭제
  25. 삭제
  26. 삭제
KR1020097026440A 2007-06-07 2008-05-07 음성 활동 검출 디바이스 및 방법 KR101158291B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN2007101084080A CN101320559B (zh) 2007-06-07 2007-06-07 一种声音激活检测装置及方法
CN200710108408.0 2007-06-07
PCT/CN2008/070899 WO2008148323A1 (fr) 2007-06-07 2008-05-07 Procédé et dispositif de détection d'activité vocale

Publications (2)

Publication Number Publication Date
KR20100012035A KR20100012035A (ko) 2010-02-04
KR101158291B1 true KR101158291B1 (ko) 2012-06-20

Family

ID=40093178

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020097026440A KR101158291B1 (ko) 2007-06-07 2008-05-07 음성 활동 검출 디바이스 및 방법

Country Status (7)

Country Link
US (1) US8275609B2 (ko)
EP (1) EP2159788B1 (ko)
JP (1) JP5089772B2 (ko)
KR (1) KR101158291B1 (ko)
CN (1) CN101320559B (ko)
AT (1) ATE540398T1 (ko)
WO (1) WO2008148323A1 (ko)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
US8571231B2 (en) * 2009-10-01 2013-10-29 Qualcomm Incorporated Suppressing noise in an audio signal
CN102044246B (zh) * 2009-10-15 2012-05-23 华为技术有限公司 一种音频信号检测方法和装置
CN102044241B (zh) 2009-10-15 2012-04-04 华为技术有限公司 一种实现通信系统中背景噪声的跟踪的方法和装置
CN102044243B (zh) 2009-10-15 2012-08-29 华为技术有限公司 语音激活检测方法与装置、编码器
EP2491548A4 (en) * 2009-10-19 2013-10-30 Ericsson Telefon Ab L M VOICE ACTIVITY METHOD AND DETECTOR FOR SPEECH ENCODER
DK3493205T3 (da) * 2010-12-24 2021-04-19 Huawei Tech Co Ltd Fremgangsmåde og indretning til adaptiv detektion af stemmeaktivitet i et lydindgangssignal
WO2012083552A1 (en) * 2010-12-24 2012-06-28 Huawei Technologies Co., Ltd. Method and apparatus for voice activity detection
EP2656341B1 (en) * 2010-12-24 2018-02-21 Huawei Technologies Co., Ltd. Apparatus for performing a voice activity detection
US8650029B2 (en) * 2011-02-25 2014-02-11 Microsoft Corporation Leveraging speech recognizer feedback for voice activity detection
CN102148030A (zh) * 2011-03-23 2011-08-10 同济大学 一种语音识别的端点检测方法
KR102497153B1 (ko) * 2012-01-18 2023-02-07 브이-노바 인터내셔널 리미티드 안정성 정보 및 트랜션트/확률적 정보의 구별되는 인코딩 및 디코딩
JP5936378B2 (ja) * 2012-02-06 2016-06-22 三菱電機株式会社 音声区間検出装置
CN103325386B (zh) 2012-03-23 2016-12-21 杜比实验室特许公司 用于信号传输控制的方法和系统
US20140278389A1 (en) * 2013-03-12 2014-09-18 Motorola Mobility Llc Method and Apparatus for Adjusting Trigger Parameters for Voice Recognition Processing Based on Noise Characteristics
CN103839544B (zh) * 2012-11-27 2016-09-07 展讯通信(上海)有限公司 语音激活检测方法和装置
CN112992188B (zh) * 2012-12-25 2024-06-18 中兴通讯股份有限公司 一种激活音检测vad判决中信噪比门限的调整方法及装置
CN103077723B (zh) * 2013-01-04 2015-07-08 鸿富锦精密工业(深圳)有限公司 音频传输系统
CN103971680B (zh) * 2013-01-24 2018-06-05 华为终端(东莞)有限公司 一种语音识别的方法、装置
CN103065631B (zh) 2013-01-24 2015-07-29 华为终端有限公司 一种语音识别的方法、装置
US9697831B2 (en) * 2013-06-26 2017-07-04 Cirrus Logic, Inc. Speech recognition
CN104347067B (zh) 2013-08-06 2017-04-12 华为技术有限公司 一种音频信号分类方法和装置
KR102172149B1 (ko) * 2013-12-03 2020-11-02 주식회사 케이티 컨텐츠 재생 방법, 대사 구간 데이터 제공 방법 및 동영상 컨텐츠 재생 단말
US8990079B1 (en) * 2013-12-15 2015-03-24 Zanavox Automatic calibration of command-detection thresholds
US9524735B2 (en) 2014-01-31 2016-12-20 Apple Inc. Threshold adaptation in two-channel noise estimation and voice activity detection
CN104916292B (zh) * 2014-03-12 2017-05-24 华为技术有限公司 检测音频信号的方法和装置
US10770075B2 (en) 2014-04-21 2020-09-08 Qualcomm Incorporated Method and apparatus for activating application by speech input
US9467779B2 (en) 2014-05-13 2016-10-11 Apple Inc. Microphone partial occlusion detector
CN104269178A (zh) * 2014-08-08 2015-01-07 华迪计算机集团有限公司 对语音信号进行自适应谱减和小波包消噪处理的方法和装置
CN110895930B (zh) * 2015-05-25 2022-01-28 展讯通信(上海)有限公司 语音识别方法及装置
CN106328169B (zh) 2015-06-26 2018-12-11 中兴通讯股份有限公司 一种激活音修正帧数的获取方法、激活音检测方法和装置
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
CN104997014A (zh) * 2015-08-15 2015-10-28 黄佩霞 一种可调理贫血的药膳配方及其制作方法
CN105261368B (zh) * 2015-08-31 2019-05-21 华为技术有限公司 一种语音唤醒方法及装置
US10482899B2 (en) 2016-08-01 2019-11-19 Apple Inc. Coordination of beamformers for noise estimation and noise suppression
US9978392B2 (en) * 2016-09-09 2018-05-22 Tata Consultancy Services Limited Noisy signal identification from non-stationary audio signals
US11150866B2 (en) * 2018-11-13 2021-10-19 Synervoz Communications Inc. Systems and methods for contextual audio detection and communication mode transactions
CN110738986B (zh) * 2019-10-24 2022-08-05 数据堂(北京)智能科技有限公司 一种长语音标注装置及方法
CN111540342B (zh) * 2020-04-16 2022-07-19 浙江大华技术股份有限公司 一种能量阈值调整方法、装置、设备及介质
CN111739542B (zh) * 2020-05-13 2023-05-09 深圳市微纳感知计算技术有限公司 一种特征声音检测的方法、装置及设备
TWI756817B (zh) * 2020-09-08 2022-03-01 瑞昱半導體股份有限公司 語音活動偵測裝置與方法
CN112185426B (zh) * 2020-09-30 2022-12-27 青岛信芯微电子科技股份有限公司 一种语音端点检测设备及方法
CN113571072B (zh) * 2021-09-26 2021-12-14 腾讯科技(深圳)有限公司 一种语音编码方法、装置、设备、存储介质及产品

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6453291B1 (en) * 1999-02-04 2002-09-17 Motorola, Inc. Apparatus and method for voice activity detection in a communication system

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6216103B1 (en) * 1997-10-20 2001-04-10 Sony Corporation Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise
US6480823B1 (en) * 1998-03-24 2002-11-12 Matsushita Electric Industrial Co., Ltd. Speech detection for noisy conditions
FI118359B (fi) 1999-01-18 2007-10-15 Nokia Corp Menetelmä puheentunnistuksessa ja puheentunnistuslaite ja langaton viestin
US6324509B1 (en) 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
US6618701B2 (en) 1999-04-19 2003-09-09 Motorola, Inc. Method and system for noise suppression using external voice activity detection
US6910011B1 (en) * 1999-08-16 2005-06-21 Haman Becker Automotive Systems - Wavemakers, Inc. Noisy acoustic signal enhancement
US20030179888A1 (en) * 2002-03-05 2003-09-25 Burnett Gregory C. Voice activity detection (VAD) devices and methods for use with noise suppression systems
CN1123863C (zh) * 2000-11-10 2003-10-08 清华大学 基于语音识别的信息校核方法
EP1415505A1 (en) 2001-05-30 2004-05-06 Aliphcom Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US7031916B2 (en) * 2001-06-01 2006-04-18 Texas Instruments Incorporated Method for converging a G.729 Annex B compliant voice activity detection circuit
RU2331933C2 (ru) 2002-10-11 2008-08-20 Нокиа Корпорейшн Способы и устройства управляемого источником широкополосного кодирования речи с переменной скоростью в битах
EP1443498B1 (en) * 2003-01-24 2008-03-19 Sony Ericsson Mobile Communications AB Noise reduction and audio-visual speech activity detection
US8073689B2 (en) * 2003-02-21 2011-12-06 Qnx Software Systems Co. Repetitive transient noise removal
SG119199A1 (en) * 2003-09-30 2006-02-28 Stmicroelectronics Asia Pacfic Voice activity detector
CA2454296A1 (en) * 2003-12-29 2005-06-29 Nokia Corporation Method and device for speech enhancement in the presence of background noise
CN100456356C (zh) * 2004-11-12 2009-01-28 中国科学院声学研究所 一种应用于语音识别系统的语音端点检测方法
EP1861846B1 (en) * 2005-03-24 2011-09-07 Mindspeed Technologies, Inc. Adaptive voice mode extension for a voice activity detector

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6453291B1 (en) * 1999-02-04 2002-09-17 Motorola, Inc. Apparatus and method for voice activity detection in a communication system

Also Published As

Publication number Publication date
JP5089772B2 (ja) 2012-12-05
EP2159788B1 (en) 2012-01-04
CN101320559B (zh) 2011-05-18
ATE540398T1 (de) 2012-01-15
US20100088094A1 (en) 2010-04-08
EP2159788A1 (en) 2010-03-03
WO2008148323A1 (fr) 2008-12-11
KR20100012035A (ko) 2010-02-04
CN101320559A (zh) 2008-12-10
JP2010529494A (ja) 2010-08-26
EP2159788A4 (en) 2010-09-01
US8275609B2 (en) 2012-09-25

Similar Documents

Publication Publication Date Title
KR101158291B1 (ko) 음성 활동 검출 디바이스 및 방법
RU2417456C2 (ru) Системы, способы и устройства для обнаружения изменения сигналов
US9401160B2 (en) Methods and voice activity detectors for speech encoders
US7472059B2 (en) Method and apparatus for robust speech classification
US8990074B2 (en) Noise-robust speech coding mode classification
CN102044243B (zh) 语音激活检测方法与装置、编码器
US6898566B1 (en) Using signal to noise ratio of a speech signal to adjust thresholds for extracting speech parameters for coding the speech signal
EP1147515A1 (en) Wide band speech synthesis by means of a mapping matrix
EP1312075A1 (en) Method for noise robust classification in speech coding
EP1159739A1 (en) Method and apparatus for eighth-rate random number generation for speech coders
KR100315692B1 (ko) 가변 비율 음성부호화기의 음성 부호화 비율 결정장치 및방법
CN110600019B (zh) 基于实时场景下语音信噪比预分级的卷积神经网络计算电路
CN1801326A (zh) 利用增益自适应提高语音识别率的方法
RU2707144C2 (ru) Аудиокодер и способ для кодирования аудиосигнала
CN114503197A (zh) 使用自适应平滑的对话增强
Yang et al. Deep learning based automatic volume control and limiter system
CN1275223C (zh) 一种低比特变速率语言编码器
KR100557113B1 (ko) 다수의 대역들을 이용한 대역별 음성신호 판정장치 및 방법
KR100361024B1 (ko) 효율적인 음성활동 검출 장치를 이용한 지.723.1 알고리즘
JPH1020880A (ja) 音声状態判別装置
KR20160065054A (ko) 부호화 방식 결정 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20150430

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160517

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20170522

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20180517

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20190515

Year of fee payment: 8