KR19980080615A - 음성 활동 검출 방법 및 장치 - Google Patents

음성 활동 검출 방법 및 장치 Download PDF

Info

Publication number
KR19980080615A
KR19980080615A KR1019980010219A KR19980010219A KR19980080615A KR 19980080615 A KR19980080615 A KR 19980080615A KR 1019980010219 A KR1019980010219 A KR 1019980010219A KR 19980010219 A KR19980010219 A KR 19980010219A KR 19980080615 A KR19980080615 A KR 19980080615A
Authority
KR
South Korea
Prior art keywords
noise
threshold
signal
speech
energy
Prior art date
Application number
KR1019980010219A
Other languages
English (en)
Other versions
KR100569612B1 (ko
Inventor
소닉에스텔르
Original Assignee
요트.게.아.롤페즈
필립스 일렉트로닉스 엔.브이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 요트.게.아.롤페즈, 필립스 일렉트로닉스 엔.브이 filed Critical 요트.게.아.롤페즈
Publication of KR19980080615A publication Critical patent/KR19980080615A/ko
Application granted granted Critical
Publication of KR100569612B1 publication Critical patent/KR100569612B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/09Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Telephone Function (AREA)

Abstract

본 발명은 다양한 소스로부터 노이즈와 혼합된 음성 신호를 포함하는 연속적 프레임에서 스피치의 기간 및 노이즈만의 기간을 검출하기 위한 장치에 관한 것이다. 각 프레임 동안 그 주요 노이즈 신호의 영 교차 비율 및 그 에너지를 계산하고, 적응 임계치를 갖춘 이들 크기를 비교함으로써, 각 상태 동안 적응된 특정 제어를 유도하는 장치의 실제 상태가 검출된다.

Description

음성 활동 검출 방법 및 장치
본 발명은 스피치(speech) 신호, 노이즈(noise) 신호 및 침묵 기간(periods of silence)을 포함하는 입력 신호에서 음성 활동(voice activity)을 검출하는 검출 방법에 관한 것이다. 또한, 본 발명은 이 방법을 실행하기 위해 음성 활동을 검출하는 검출 장치에 관한 것이다.
본 발명은 스피치 신호가 발생하고(및 순수한 오디오 신호가 아닌), 스피치, 배면(background) 노이즈 및 침묵 기간을 갖춘 사운드 범위와, 오디오 범위간의 식별을 갖추고, 노이즈 또는 침묵 기간만을 포함하는 것이 바람직한 어떠한 응용에서도 이용될 수 있다. 본 발명은 특히, 어구 또는 단어 구별을 인식하기 위한 응용에서 유용한 예비 처리 모드를 형성한다.
본 발명의 제 1 목적은 단지 스피치 이외의 데이터를 고정적으로 전송하는 전달 네트워크의 경우에 있어서, 다른 형태의 신호에 관한 스피치 신호에 대해 지정된 패스 밴드를 최적화 하거나(스피치가 전체의 패스 밴드를 차지하지 않는지의 여부, 즉 스피치 및 다른 데이터의 동시 운반이 실제로 가능한지의 여부를 검증해야 한다), 또는 예컨대, 디지털 전화 응답기에 저장된 메시지에 의한 메모리 내에 차지한 영역을 최소화하기 위한 것이다.
이러한 목적을 위해, 본 발명은 발명의 상세한 설명 서두에서 정의한 바와 같은 방법에 관련되어 있으며, 특히 주요 노이즈 신호의 영 교차 비율과 에너지를 계산하는 제 1 단계와, 이들 입력 신호에 적용된 상기 입력 신호를 처리 및 분류하는 제 2 단계를 특징으로 하며, 스피치 또는 노이즈와 같은 입력 신호의 처리 및 분류 단계는 적응 threshold B에 관한 상기 입력 신호의 에너지 값과, 계산된 영 교차 비율에 의존하고 있다.
본 발명의 다른 목적은 현재 방법의 간단한 사용을 허용하는 음성 활동을 검출 방법을 제안하기 위한 것이다.
이러한 목적을 위해, 본 발명은 스피치 신호, 노이즈 신호 및 침묵 기간을 포함하는 입력 신호에서 음성 활동을 검출하기 위한 검출 장치에 관련되어 있으며, 상기 입력 신호는 소정 존속 기간의 연속적 디지털화 프레임의 형태로 이용 가능하고, 상기 장치는 이용된 변수의 초기화를 위한 단계와, 주요 노이즈 신호의 영 교차 비율 및 각 프레임의 에너지 계산을 위한 단계의 일련의 배치를 포함하며, 이 처리 및 테스트 단계는 3가지 단계 자동 조작 형태로 실현되는데, 이들 3가지 단계는:
- N-INIT 프레임 동안, 상기 변수의 조정을 제공하고, 어떠한 입력 신호 동안에도 스피치 신호를 항상 고려하는 초기화의 제 1 단계와;
- 상기 장치는 N-INIT 제 1 프레임 이후에, 상기 제 2 및 제 3 상태 중 어느 하나의 상태에서 어떠한 입력 신호 동안에도 각각 스피치+노이즈+침묵 신호 및 노이즈+침묵 신호를 항상 고려하는 제 2 및 제 3 단계로 이루어져 있다.
제안된 실시예에 있어서, 이러한 분류는 각각 초기화 상태, 스피치의 존재 상태, 및 노이즈의 존재 상태라는 가능한 3가지 상태를 유도한다.
도1은 본 발명에 따른 방법의 실시예의 일반적 모드의 동작을 도시한 도면.
도2는 이러한 동작 모드를 더욱 구체화하여 이러한 동작 모드를 가능하게 하는 검출 장치로 가정할 수 있는 3가지 상태를 개략적으로 설명한 도면.
도3 내지 도5는 상기 장치가 각각 이들 3가지 상태에 있는 경우의 효과적 처리를 설명한 도면.
*도면의 주요 부분에 대한 부호의 설명*
E: 입력 TRn: 현재의 프레임
En: 현재의 프레임의 에너지 11: 회로
본 발명을 기술하기 전에, 우선 본 발명에서 이용하는 방법의 각종 조건을 기술하는데, 즉 우선 단일 입력 소스로부터 유입하는 입력 신호는 사람에 의해 방사되고, 매우 다른 원천(식당, 사무실, 지나는 자동차 등의 배면 노이즈)을 포함할 수 있는 배면 노이즈와 혼합된 음성 신호(또는 스피치 신호)에 대응한다. 더욱이, 이들 입력 신호는 본 발명에 따라 처리되기 전에 디지털화 되게 되는데, 이 처리는 예컨대, 약 5 내지 20ms의 연속 프레임인 이들 디지털화된 신호의 충분한 범위(또는 프레임)를 이용할 수 있음을 의미하는 것이다. 마지막으로, 이것은 제안된 방법이 8kHz로 단순화되고, 전화 주파수 밴드(300~3400Hz)에서만의 상태에 있도록 여과된 디지털 신호가 여기서 테스트되는 스피치 신호를 공급하는 이후의 어떠한 다른 처리와 관계 없음을 지적한다.
본 발명에 따른 방법의 동작 모드의 원리는 도1에서 설명된다. 절차의 진행에 이용하는 변수의 초기화를 위한 단계(10)의 예비 단계 이후에, 입력(E)을 수신한 입력 신호의 각 현재의 프레임(TRn)은 이 프레임에 대한 주된 노이즈 신호의 영 교차 비율(zero-crossing rate; 이것은, 이후에 더 상세히 기술되게 되는 ZCR 또는 마찬가지인 ZC로 언급되는 변수를 의미한다)과 이 프레임의 에너지(En)의 제 1 계산 단계인 계산 단계(11)에서 받게 된다. 제 2 단계는 이후의 테스트 및 처리 단계(12)에서 이루어지는 것으로, 입력 신호가 스피치+노이즈+침묵 또는 노이즈+침묵만으로 나타나는지를 결정하는 고정 임계를 ZCR과 비교하고, 적응 임계를 에너지와 비교하는 것이다. 이 제 2 단계는 이후 도2에서 설명되는 3가지 오토메이션 동작으로 언급되는 것을 수행한다. 이들 3가지 상태는 도1에도 도시되어 있다.
제 1 상태인 START_VAD는 도1에서 A로 정의한 시작 상태이다. 본 발명에 따른 처리의 각 시작에 있어서, 시스템은 입력 신호가 스피치 신호(노이즈가 검출되어도)를 항상 고려하는 이 상태에 들어가게 된다. 이 초기화 상태는 특히 내부 변수의 조정을 가능하게 하고, 요구된 기간 동안 유지된다(다양한 연속 프레임 동안, 프레임 수는 분명히 조정 가능한 N-INIT로 나타낸다).
제 2 상태인 SPEECH_VAD는 입력 신호가 스피치+노이즈+침묵 신호로 고려된 경우에 대응한다. 제 3 상태에서, NOISE_VAD는 입력 신호가 노이즈+침묵 신호만으로 고려된 경우에 대응한다(용어 제 1 및 제 2 상태는 중요한 차례를 정의한 것은 아니며, 상태만을 구별지으려는 의도인 것이다). N-INIT 제 1 프레임 이후에, 시스템은 항상 이러한 제 2 또는 제 3 상태에 있다. 그 상태에서 다음 상태로의 변화는 이하에 기술되게 된다.
초기화 이후에, 단계(11)에서 제 1 계산 단계는 2가지 하위 단계를 포함하는데, 그 하나는 계산 회로(111)에서 현재의 프레임의 에너지를 계산하는 단계이며, 다른 하나는 계산 회로(112)에서 수행되는 이 프레임에 대한 ZCR의 계산하는 단계인 것이다.
일반적으로, 스피치 신호(즉, 스피치+노이즈+침묵)는노이즈+침묵 만의 신호 보다 큰 에너지를 가진다. 이것은 확실히 필수적인 것으로, 배면 노이즈는 노이즈로서 검출되지는 않지만(즉, 노이즈+침묵 신호), 스피치 신호로서도 검출되기 매우 어렵다. 따라서, 에너지를 계산하는 회로(111)는 다음의 방법으로 실현되게 됨을 테스트할 목적으로 에너지에 관련해서 이후의 값에 의존하는 가변 임계를 제공한다.
(a) 현재의 프레임의 에너지(En)가 확실한 threshold B보다 낮으면(En threshold B), 현재의 프레임은 NOISE로서 분류되고;
(b) 다른 한편으로, 에너지(En)가 threshold B와 같거나 크면(En = threshold B), 현재의 프레임은 SPEECH로서 분류된다.
실제로, 어느 하나가 threshold B를 가진 것으로 선택하는 것은 배면 노이즈의 함수로서 적용되는 것으로, 즉 예컨대 노이즈+침묵 신호의 평균 에너지(E)의 함수로서 조정하기 위한 것이다. 더욱이, 이 노이즈+침묵 신호 레벨의 변동이 허용된다. 적응 기준은 다음과 같다.
(i) En threshold B이면, threshold B는 threshold (B-α.E)인데, 여기서 α는 실험적으로 결정된 상수이지만, 이 경우에 있어서는 0 및 1을 포함한다.
(ii) threshold B En threshold (B+Δ)이면, threshold B는 threshold(B-α.E; Δ=상보성 임계치)로 대치된다.
이들 2가지 상황(i, ii)에서, 신호는 노이즈+침묵으로 고려되고, 평균(E)은 불변으로 남게 된다. threshold B가 너무 많이 증가 또는 감소되지 않는 것을 회피하기 위해, 그 값은 실험적으로 결정된 2가지 임계치(THRESHOLD B_MIN 및 THRESHOLD B_MAX)간에 남아 있도록 강요된다. 다른 한편으로, 그 자체의 Δ값은 입력 신호(스피치만, 노이즈+침묵 또는 2가지의 혼합)가 높거나 낮은지의 여부에 의존해서 더 크게 되거나 또는 작게 된다. 예컨대, 입력 신호(저장된)의 선행 프레임(TRn-1)의 에너지로서 En-1을 나타냄으로써, 다음과 같은 형태의 결정이 이루어지게 된다.
(i) threshold, Δ = DELTA 1;
(ii) 그렇지 않으면, Δ = DELTA 2,
여기에서, 다시 Δ의 2개의 가능한 값은 실험적으로 결정된다.
회로(111)에서 수행되어진 에너지의 계산으로서, 회로(112)에서 수행된 현재의 프레임에 대한 ZCR의 계산은 거기에 관련된다. 단계(11)에서의 이들 계산은 여러 가지 기술된 단계 이후에 장치가 시작되는 상태에 관하여 결정 동작에 의해 수행되게 된다. 더욱 명백히, 단계(12)에서 수행되는 결정 방법은 계속적으로 기술되게 되는 본질적 테스트(121,122)를 구비한다.
본 발명에 다른 처리의 각 시작에 있어서, N-INIT 연속 프레임 동안 시작 단계는 A = START_VAD인 것으로 관찰된다. 장치의 상태의 제 1 테스트(121)는 프레임의 수에 관련되고, 장치의 입력에 적용되며, 적용 프레임의 수가 N-INIT 이하로 남아있어도 그 상태의 결과를 START_VAD(테스트(121) 이후의 응답(Y))로 지속적으로 유도한다. 이 경우에 있어서, START_VAD_P라고 하며, 블록(141)에서 실행된 처리 결과는 이후 설명되는 도3에 도시한다. 그러나, 거기에서는 현재로부터 이루어질 START_VAD_P 처리 동안 지시될 수 있으며, 물론 관찰된 상태는 START_VAD는 아니지만, 하나의 다른 상태(NOISE_VAD 또는 SPEECH_VAD)와, 테스트(122) 동안 이루어지는 그들 간의 구별이 일어나게 된다.
실제로, 제 1 테스트(121) 이후에 이 시간에서 응답이 N(즉, no, 상태가 START_VAD가 아니다)이면, 제 2 테스트(122)는 관찰 상태가 앞서 응답한 yes 또는 no를 갖춘 B=START_VAD인지의 여부를 검사한다. 그 응답이 yes(122 이후의 응답(Y))이면, START_VAD_P라고 하는 처리 결과는 블록(142)에서 수행되며, 도4에서 설명된다. 그 응답이 no이면(122 이후의 응답(N)), 블록(143)에서 실행된 처리 결과는 SPEECH_VAD_P라고 하며, 도5에서 설명된다(START_VAD_P에 대해, 도4 및 도5가 이하에 설명되게 된다). 3가지 처리중 하나가 이들 테스트(121,122) 이후에 수행되는지의 여부는 연결(15)을 통해서 장치의 입력의 루프-백으로 이어지게 되며, 블록(141,143)의 출력을 회로(11)의 입력에 접속한다. 이것은 실제로 다음 프레임을 검사 및 처리할 수 있게 되는 것이다.
도3, 도4 및 도5는 도2에서 요약된 본질적 구성을 도시한 것으로, START_VAD_P, NOISE_VAD_P, SPEECH_VAD_P가 어떻게 실행되는지를 상세히 설명한다. 3개의 도면에 이용된 변수가 종류에 따라 설명된다.
(1) 에너지(energy): En; 현재 프레임의 에너지, En-1; 그(저장된) 선행 프레임, E: 배면 노이즈의 평균 에너지,
(2) 카운터(counter):
(a) counter fr_ctr: 본 발명을 사용하기 시작하기까지 요구된 프레임의 수를 카운트하고(이 카운터는 상태(START_VAD)에만 이용되며, 그 값은 대부분 N-INIT와 같을 수 있고),
(b) counter fr_ctr_noise: 본 발명을 사용하기 시작하기까지 검출된 프레임의 수를 카운트하며(과도한 계산을 피하기 위해, 카운터가 사용되지 않는 것 이외에 확실한 값 이하로 그 값이 도달할 때, 카운터는 업데이트만 된다),
(c) counter transit_ctr: 상태(SPEECH_VAD)에서 상태(NOISE_VAD)로의 스위칭을 조건적으로 연기하는 동안 배면 노이즈로서 내부 음절 간격(스피치 신호를 완전히 자른 것)을 검출하거나, 또는 문구의 끝을 잘림을 피하는 스피치/노이즈 변환을 유연히 하기 위해 이용되며:
- 그 하나는 스피치 상태에 있으며, 노이즈가 검출될 때, 이 counter transit_ctr은 증가되고;
- 스피치가 다시 검출되면, 이 카운터는 0으로 되고, 그렇지 않으면 임계치(N-TRANSM)가 도달되기까지 증가를 계속하며: 배면 노이즈인 실제 입력 신호가 상태(NOISE_VAD)의 스위칭을 일으키고, counter transit_ctr이 0으로 재 설정되고;
(3) threshold: threshold B는 저 레벨 배면 노이즈(THRESHOLD B_MIN 및 THRESHOLD B_MAX)로부터 스피치를 구별함에 이용되는 임계를 나타내고, threshold B 업데이트 요소의 α값과, 어려운 배면 노이즈(그 2개의 가능치는 DELTAE에 의해 결정된 DELTA 1 및 DELTA 2이고, 를 이용하는 임계이며, Δ를 업데이트 하는 견지에서 입력 신호가 매우 변동적인지의 여부를 알 수 있게 한다)로부터 스피치를 구별함에 이용되며;
(4) 현재 프레임의 ZCR: 주요 노이즈 신호의 이 영 교차 비율이 상당히 변동적이고;
- 확실한 형태의 노이즈는 시간에 대해 매우 안정적이지 않으며, 따라서 노이즈 신호는 하이 ZCR(특히, 이 경우에 있어서 Gaussian(가우시안)형 배면 노이즈로)에서도 0과 교차하고;
- 배면 노이즈가 대화중(식당, 사무실, 이웃간 대화...)의 잡음일 때, 배면 노이즈의 특유의 특징은 그들 스피치 신호에 근접해 오며, ZCR은 낮은 값을 가지며;
- 확실한 형태의 스피치 사운드는 유성음이라고 하고: 이것은 모음의 경우이며, 많은 에너지 및 낮은 ZCR에 대응하고;
- 다른 한편으로 무성 스피치 사운드라는 다른 형태의 스피치 사운드는 음성 사운드와 비교해서 저 에너지 및 높은 ZCR을 가지고: 이 경우에 있어서는 두드러지게 마찰음 및 파열음 자음을 가지고 있고(이 테스트가 하나의 에너지로 완성되지 않으면 이러한 신호는 그들 ZCR이 주어진 임계 ZCGAUSS를 능가하는 것과 같은 노이즈로 분류될 수 있고, 그들 에너지가 아래(임계 B+DELTA 2)이면, 이들 신호는 단지 노이즈로서 확인되며;
-마지막으로, 특별한 경우의 0 ZCR(ZC가 0)도 계산에 넣어지게 되고, 이것은 플랫 입력 신호(모든 샘플은 동일한 값을 가진다)에 대응하며, 따라서 노이즈+침묵으로 조직적으로 동화되게 된다.
(5) 출력 신호(INFO_VAD): 각 처리(블록(141 내지 143) 중 하나)의 시작에 있어서, 현재의 프레임에 대한 결정이 이루어지며, 이후는 실제로 스피치 신호(INFO_VAD=SPEECH) 또는 배면 신호+침묵(INFO_VAD=NOISE) 중 하나로 나타나게 된다.
나타낸 바와 같이, 블록(141 내지 143)에서의 이들 처리는 다이아몬드의 형태로 프레임에서 지시된 ZCR 및 에너지의 테스트 중 하나를 비교하거나(제 1 처리(START_VAD_P)에서의 제 1 테스트의 예외로서, 값(N-INIT) 보다 더 낮고, 장치의 초기화 위상에 아직은 있는 프레임의 수를 검증하기 위한 counter_fr_ctr 값의 테스트이다), 또는 이러한 테스트의 결과로서 동작이 제어되고(임계치의 가능한 변경, 평균 에너지의 계산, 장치의 상태 정의, 카운터의 증가 또는 0으로의 재 설정, 다음 프레임으로의 변환 등), 따라서 직사각형 형태의 프레임에 나타나게 된다.
따라서, 이렇게 제안된 본 발명의 방법 및 장치는 복잡성을 매우 배제하며, 실시간에서 특히 간단히 도입되게 한다. 여기에서는 작은 메모리 불편함이 그와 더불어 연관된 것으로 관찰될 수도 있다. 물론, 본 발명의 다양성은 본 발명의 요지를 벗어나지 않고 제안될 수 있다. 특히 테스트(122)의 특징은 변경될 수 있으며, 테스트의 네가티브 결과에서는 상기와 같은 포지티브 또는 네가티브(Y 도는 N) 응답으로 관찰된 새로운 상태가 SPEECH_VAD(및 NOISE_VAD가 아닌)인지의 여부가 시험될 수 있다. 테스트(122) 후에, 그 응답이 yes(Y)이면, 결과적 처리는 SPEECH_VAD_P(따라서, 블록(142)에서 실행된다)이고, 그렇지 않으면 처리는 NOISE_VAD_P(따라서, 블록(143)에서 실행된다)가 되게 된다.

Claims (9)

  1. 스피치 신호, 노이즈 신호 및 침묵 시간을 포함하는 입력 신호에서 음성 활동을 검출하는 검출 방법에 있어서,
    주요 노이즈 신호의 영 교차 비율 및 에너지를 계산하는 제 1 단계와, 이들 입력 신호에 적용된 상기 입력 신호를 분류하는 제 2 단계를 포함하며,
    상기 스피치 또는 노이즈와 같은 입력 신호의 분류 및 처리 단계는 적응 threshold B에 관한 상기 입력 신호의 에너지 값과, 계산된 영 교차 비율에 의존하는 것을 특징으로 하는 음성 활동 검출 방법.
  2. 제 1 항에 있어서,
    상기 입력 신호는 소정 존속 기간의 연속적으로 디지털화된 프레임의 형태로 이용 가능한 것이고, 제 1 계산 단계 및 제 2 분류 및 처리 단계는 현재 프레임에 적용되어 있으며, 노이즈 또는 스피치와 같은 각 현재 프레임의 상기 분류 및 처리 단계는 상기 임계에 관한 상기 현재 프레임의 에너지 값과 계산된 영 교차 비율에 의존하는 것을 특징으로 하는 음성 활동 검출 방법.
  3. 제 2 항에 있어서,
    상기 threshold B는 노이즈+침묵 신호의 평균 에너지에 따라 변동하는 것을 특징으로 하는 음성 활동 검출 방법.
  4. 제 3 항에 있어서,
    상기 threshold B는 자체 임계에 관한 현재 프레임의 에너지(En) 값에 따라 변동하는 것을 특징으로 하는 음성 활동 검출 방법.
  5. 제 4 항에 있어서,
    threshold에 관한 현재 프레임의 에너지(En) 값에 따른 상기 threshold B의 변동은 상기 threshold 이상의 최대 값(Δ)으로 제한된 것을 특징으로 하는 음성 활동 검출 방법.
  6. 제 5 항에 있어서,
    상기 최대 값(Δ)은 이전 프레임에 대한 대응 값(En-1)에 관한 현재 프레임의 에너지(En) 값에 따른 별개의 값을 가진 것을 특징으로 하는 음성 활동 검출 방법.
  7. 제 2 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 threshold B의 변동은 소정 범위(THRESHOLD B_MIN, THRESHOLD B_MAX)로 제한된 것을 특징으로 하는 음성 활동 검출 방법.
  8. 제 5 항 내지 제 7 항 중 어느 한 항에 있어서,
    영 교차 비율에 의존하는 노이즈로서 처음부터 분류된 프레임의 평균 에너지(En)는 threshold (B+Δ)와 비교되는 것을 특징으로 하는 음성 활동 검출 방법.
  9. 스피치 신호, 노이즈 신호 및 침묵 기간을 포함하는 입력 신호에서 음성 활동을 검출하기 위한 검출 장치에 있어서,
    상기 입력 신호는 소정 존속 기간의 연속적 디지털화 프레임의 형태로 이용 가능하고, 상기 장치는 이용된 변수의 초기화를 위한 단계와, 주요 노이즈 신호의 영 교차 비율 및 각 프레임의 에너지 계산을 위한 단계의 일련의 배치를 포함하며, 이 처리 및 테스트 단계는 3가지 단계 자동 조작 형태로 실현되며,
    상기 3가지 단계는:
    - N-INIT 프레임 동안, 상기 변수의 조정을 제공하고, 어떠한 입력 신호 동안에도 스피치 신호를 항상 고려하는 초기화의 제 1 단계와;
    - 상기 장치는 N-INIT 제 1 프레임 이후에, 상기 제 2 및 제 3 상태 중 어느 하나의 상태에서 어떠한 입력 신호 동안에도 각각 스피치+노이즈+침묵 신호 및 노이즈+침묵 신호를 항상 고려하는 제 2 및 제 3 단계인 것을 특징으로 하는 음성 활동 검출 장치.
KR1019980010219A 1997-03-25 1998-03-25 음성활동검출방법및장치 KR100569612B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR970316 1997-03-25
FR9703616 1997-03-25
FR9703616 1997-03-25

Publications (2)

Publication Number Publication Date
KR19980080615A true KR19980080615A (ko) 1998-11-25
KR100569612B1 KR100569612B1 (ko) 2006-10-11

Family

ID=9505152

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019980010219A KR100569612B1 (ko) 1997-03-25 1998-03-25 음성활동검출방법및장치

Country Status (6)

Country Link
US (1) US6154721A (ko)
EP (1) EP0867856B1 (ko)
JP (1) JP4236726B2 (ko)
KR (1) KR100569612B1 (ko)
CN (1) CN1146865C (ko)
DE (1) DE69831991T2 (ko)

Families Citing this family (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6453285B1 (en) * 1998-08-21 2002-09-17 Polycom, Inc. Speech activity detector for use in noise reduction system, and methods therefor
US6351731B1 (en) 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
ATE248421T1 (de) * 1998-12-22 2003-09-15 Ericsson Inc Verfahren und vorrichtung zur speicherbedarfsreduzierung für ein sprachaufnahmesystem
US6621834B1 (en) * 1999-11-05 2003-09-16 Raindance Communications, Inc. System and method for voice transmission over network protocols
WO2001039175A1 (fr) * 1999-11-24 2001-05-31 Fujitsu Limited Procede et appareil de detection vocale
US7263074B2 (en) * 1999-12-09 2007-08-28 Broadcom Corporation Voice activity detection based on far-end and near-end statistics
US20020116186A1 (en) * 2000-09-09 2002-08-22 Adam Strauss Voice activity detector for integrated telecommunications processing
US7472059B2 (en) * 2000-12-08 2008-12-30 Qualcomm Incorporated Method and apparatus for robust speech classification
US6721411B2 (en) * 2001-04-30 2004-04-13 Voyant Technologies, Inc. Audio conference platform with dynamic speech detection threshold
DE60217484T2 (de) * 2001-05-11 2007-10-25 Koninklijke Philips Electronics N.V. Schätzung der signalleistung in einem komprimierten audiosignal
US7146314B2 (en) * 2001-12-20 2006-12-05 Renesas Technology Corporation Dynamic adjustment of noise separation in data handling, particularly voice activation
US7187656B2 (en) 2002-05-02 2007-03-06 General Instrument Corporation Method and system for processing tones to reduce false detection of fax and modem communications
US20030214972A1 (en) * 2002-05-15 2003-11-20 Pollak Benny J. Method for detecting frame type in home networking
KR100491753B1 (ko) * 2002-10-10 2005-05-27 서울통신기술 주식회사 음성처리보드의 음성신호 검출 방법
US20050091066A1 (en) * 2003-10-28 2005-04-28 Manoj Singhal Classification of speech and music using zero crossing
US7433475B2 (en) * 2003-11-27 2008-10-07 Canon Kabushiki Kaisha Electronic device, video camera apparatus, and control method therefor
US20050117594A1 (en) * 2003-12-01 2005-06-02 Mindspeed Technologies, Inc. Modem pass-through panacea for voice gateways
JP4601970B2 (ja) * 2004-01-28 2010-12-22 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
JP4490090B2 (ja) * 2003-12-25 2010-06-23 株式会社エヌ・ティ・ティ・ドコモ 有音無音判定装置および有音無音判定方法
KR100636317B1 (ko) * 2004-09-06 2006-10-18 삼성전자주식회사 분산 음성 인식 시스템 및 그 방법
CN100399419C (zh) * 2004-12-07 2008-07-02 腾讯科技(深圳)有限公司 一种检测静音帧的方法
JP4667082B2 (ja) 2005-03-09 2011-04-06 キヤノン株式会社 音声認識方法
US7983906B2 (en) * 2005-03-24 2011-07-19 Mindspeed Technologies, Inc. Adaptive voice mode extension for a voice activity detector
GB2426166B (en) * 2005-05-09 2007-10-17 Toshiba Res Europ Ltd Voice activity detection apparatus and method
JP4557919B2 (ja) * 2006-03-29 2010-10-06 株式会社東芝 音声処理装置、音声処理方法および音声処理プログラム
CN100573663C (zh) * 2006-04-20 2009-12-23 南京大学 基于语音特征判别的静音检测方法
CN101197130B (zh) * 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
CN101256772B (zh) * 2007-03-02 2012-02-15 华为技术有限公司 确定非噪声音频信号归属类别的方法和装置
JP4809454B2 (ja) * 2009-05-17 2011-11-09 株式会社半導体理工学研究センター 発話推定による回路起動方法及び回路起動装置
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
CN102044242B (zh) 2009-10-15 2012-01-25 华为技术有限公司 语音激活检测方法、装置和电子设备
CN102044243B (zh) * 2009-10-15 2012-08-29 华为技术有限公司 语音激活检测方法与装置、编码器
CN102314877A (zh) * 2010-07-08 2012-01-11 盛乐信息技术(上海)有限公司 字符内容提示的声纹识别方法
JP5874344B2 (ja) * 2010-11-24 2016-03-02 株式会社Jvcケンウッド 音声判定装置、音声判定方法、および音声判定プログラム
CN102959625B9 (zh) 2010-12-24 2017-04-19 华为技术有限公司 自适应地检测输入音频信号中的话音活动的方法和设备
US8744068B2 (en) * 2011-01-31 2014-06-03 Empire Technology Development Llc Measuring quality of experience in telecommunication system
US8924206B2 (en) * 2011-11-04 2014-12-30 Htc Corporation Electrical apparatus and voice signals receiving method thereof
CN103137137B (zh) * 2013-02-27 2015-07-01 华南理工大学 一种会议音频中的精彩说话人发现方法
US9467785B2 (en) 2013-03-28 2016-10-11 Knowles Electronics, Llc MEMS apparatus with increased back volume
US9503814B2 (en) 2013-04-10 2016-11-22 Knowles Electronics, Llc Differential outputs in multiple motor MEMS devices
US10028054B2 (en) 2013-10-21 2018-07-17 Knowles Electronics, Llc Apparatus and method for frequency detection
US10020008B2 (en) 2013-05-23 2018-07-10 Knowles Electronics, Llc Microphone and corresponding digital interface
US9711166B2 (en) 2013-05-23 2017-07-18 Knowles Electronics, Llc Decimation synchronization in a microphone
US20180317019A1 (en) 2013-05-23 2018-11-01 Knowles Electronics, Llc Acoustic activity detecting microphone
US9633655B1 (en) 2013-05-23 2017-04-25 Knowles Electronics, Llc Voice sensing and keyword analysis
US9712923B2 (en) 2013-05-23 2017-07-18 Knowles Electronics, Llc VAD detection microphone and method of operating the same
US9386370B2 (en) 2013-09-04 2016-07-05 Knowles Electronics, Llc Slew rate control apparatus for digital microphones
US9502028B2 (en) 2013-10-18 2016-11-22 Knowles Electronics, Llc Acoustic activity detection apparatus and method
US9147397B2 (en) 2013-10-29 2015-09-29 Knowles Electronics, Llc VAD detection apparatus and method of operating the same
US9831844B2 (en) 2014-09-19 2017-11-28 Knowles Electronics, Llc Digital microphone with adjustable gain control
US9712915B2 (en) 2014-11-25 2017-07-18 Knowles Electronics, Llc Reference microphone for non-linear and time variant echo cancellation
DE112016000287T5 (de) 2015-01-07 2017-10-05 Knowles Electronics, Llc Verwendung von digitalen Mikrofonen zur Niedrigleistung-Schlüsselworterkennung und Rauschunterdrückung
TW201640322A (zh) 2015-01-21 2016-11-16 諾爾斯電子公司 用於聲音設備之低功率語音觸發及方法
US10121472B2 (en) 2015-02-13 2018-11-06 Knowles Electronics, Llc Audio buffer catch-up apparatus and method with two microphones
US9866938B2 (en) 2015-02-19 2018-01-09 Knowles Electronics, Llc Interface for microphone-to-microphone communications
US9685156B2 (en) * 2015-03-12 2017-06-20 Sony Mobile Communications Inc. Low-power voice command detector
CN107534818B (zh) 2015-05-14 2020-06-23 美商楼氏电子有限公司 麦克风
US10291973B2 (en) 2015-05-14 2019-05-14 Knowles Electronics, Llc Sensor device with ingress protection
US9478234B1 (en) 2015-07-13 2016-10-25 Knowles Electronics, Llc Microphone apparatus and method with catch-up buffer
US10045104B2 (en) 2015-08-24 2018-08-07 Knowles Electronics, Llc Audio calibration using a microphone
CN105261368B (zh) * 2015-08-31 2019-05-21 华为技术有限公司 一种语音唤醒方法及装置
US9894437B2 (en) 2016-02-09 2018-02-13 Knowles Electronics, Llc Microphone assembly with pulse density modulated signal
US10499150B2 (en) 2016-07-05 2019-12-03 Knowles Electronics, Llc Microphone assembly with digital feedback loop
US10257616B2 (en) 2016-07-22 2019-04-09 Knowles Electronics, Llc Digital microphone assembly with improved frequency response and noise characteristics
US10979824B2 (en) 2016-10-28 2021-04-13 Knowles Electronics, Llc Transducer assemblies and methods
WO2018126151A1 (en) 2016-12-30 2018-07-05 Knowles Electronics, Llc Microphone assembly with authentication
US10237654B1 (en) * 2017-02-09 2019-03-19 Hm Electronics, Inc. Spatial low-crosstalk headset
US11025356B2 (en) 2017-09-08 2021-06-01 Knowles Electronics, Llc Clock synchronization in a master-slave communication system
WO2019067334A1 (en) 2017-09-29 2019-04-04 Knowles Electronics, Llc MULTICORDER AUDIO PROCESSOR WITH FLEXIBLE MEMORY ALLOCATION
JP6560321B2 (ja) * 2017-11-15 2019-08-14 ヤフー株式会社 判定プログラム、判定装置及び判定方法
WO2020055923A1 (en) 2018-09-11 2020-03-19 Knowles Electronics, Llc Digital microphone with reduced processing noise
US10908880B2 (en) 2018-10-19 2021-02-02 Knowles Electronics, Llc Audio signal circuit with in-place bit-reversal
CN111261143B (zh) * 2018-12-03 2024-03-22 嘉楠明芯(北京)科技有限公司 一种语音唤醒方法、装置及计算机可读存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
US4696039A (en) * 1983-10-13 1987-09-22 Texas Instruments Incorporated Speech analysis/synthesis system with silence suppression
JP2539027B2 (ja) * 1989-02-21 1996-10-02 沖電気工業株式会社 音声検出方式
JP2573352B2 (ja) * 1989-04-10 1997-01-22 富士通株式会社 音声検出装置
JPH07113840B2 (ja) * 1989-06-29 1995-12-06 三菱電機株式会社 音声検出器
US5307441A (en) * 1989-11-29 1994-04-26 Comsat Corporation Wear-toll quality 4.8 kbps speech codec
CA2040025A1 (en) * 1990-04-09 1991-10-10 Hideki Satoh Speech detection apparatus with influence of input level and noise reduced
FR2677828B1 (fr) * 1991-06-14 1993-08-20 Sextant Avionique Procede de detection d'un signal utile bruite.
JPH05165496A (ja) * 1991-12-16 1993-07-02 Nippon Telegr & Teleph Corp <Ntt> 音声検出装置
US5596680A (en) * 1992-12-31 1997-01-21 Apple Computer, Inc. Method and apparatus for detecting speech activity using cepstrum vectors
US5533133A (en) * 1993-03-26 1996-07-02 Hughes Aircraft Company Noise suppression in digital voice communications systems
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
JP2835483B2 (ja) * 1993-06-23 1998-12-14 松下電器産業株式会社 音声判別装置と音響再生装置
TW271524B (ko) * 1994-08-05 1996-03-01 Qualcomm Inc
US5675639A (en) * 1994-10-12 1997-10-07 Intervoice Limited Partnership Voice/noise discriminator
KR970067095A (ko) * 1996-03-23 1997-10-13 김광호 음성신호의 무성파열음 구간검출방법 및 장치
US5838269A (en) * 1996-09-12 1998-11-17 Advanced Micro Devices, Inc. System and method for performing automatic gain control with gain scheduling and adjustment at zero crossings for reducing distortion
US5737695A (en) * 1996-12-21 1998-04-07 Telefonaktiebolaget Lm Ericsson Method and apparatus for controlling the use of discontinuous transmission in a cellular telephone

Also Published As

Publication number Publication date
US6154721A (en) 2000-11-28
CN1204766A (zh) 1999-01-13
KR100569612B1 (ko) 2006-10-11
EP0867856B1 (fr) 2005-10-26
CN1146865C (zh) 2004-04-21
JP4236726B2 (ja) 2009-03-11
JPH10274991A (ja) 1998-10-13
DE69831991D1 (de) 2005-12-01
EP0867856A1 (fr) 1998-09-30
DE69831991T2 (de) 2006-07-27

Similar Documents

Publication Publication Date Title
KR19980080615A (ko) 음성 활동 검출 방법 및 장치
JP5331784B2 (ja) スピーチエンドポインタ
US6594630B1 (en) Voice-activated control for electrical device
US4468804A (en) Speech enhancement techniques
US4811399A (en) Apparatus and method for automatic speech recognition
EP0757342A2 (en) User selectable multiple threshold criteria for voice recognition
JPH11327582A (ja) 騒音下での音声検出システム
JPS6147440B2 (ko)
JPH0713586A (ja) 音声判別装置と音響再生装置
EP1153387B1 (en) Pause detection for speech recognition
EP1751740B1 (en) System and method for babble noise detection
US4061878A (en) Method and apparatus for speech detection of PCM multiplexed voice channels
JPH10254475A (ja) 音声認識方法
US5315688A (en) System for recognizing or counting spoken itemized expressions
JPH05207526A (ja) 電話の信号の分類と電話によるメッセージの伝達方法とシステム
Taboada et al. Explicit estimation of speech boundaries
US5201028A (en) System for distinguishing or counting spoken itemized expressions
JP2019207329A (ja) 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法
KR100363251B1 (ko) 음성 끝점 판별 방법
JPH04115299A (ja) 音声有音無音判定方法および装置
EP1193686B1 (en) Method and device for analyzing a spoken sequence of numbers
KR20000056849A (ko) 음향 기기의 음성인식 방법
CA1077627A (en) Method and apparatus for speech detection on pcm multiplexed voice channels
JPH03248268A (ja) 音声対話処理方式
EP0770986A2 (en) Modified discrete word recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
G170 Publication of correction
LAPS Lapse due to unpaid annual fee