KR19990077910A - 노이즈 상태 음성 검출 시스템 - Google Patents

노이즈 상태 음성 검출 시스템 Download PDF

Info

Publication number
KR19990077910A
KR19990077910A KR1019990008735A KR19990008735A KR19990077910A KR 19990077910 A KR19990077910 A KR 19990077910A KR 1019990008735 A KR1019990008735 A KR 1019990008735A KR 19990008735 A KR19990008735 A KR 19990008735A KR 19990077910 A KR19990077910 A KR 19990077910A
Authority
KR
South Korea
Prior art keywords
threshold
conversation
band
state
signal
Prior art date
Application number
KR1019990008735A
Other languages
English (en)
Other versions
KR100330478B1 (ko
Inventor
이지하오
장-클로드중쿼
Original Assignee
모리시타 요이찌
마쯔시다덴기산교 가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 모리시타 요이찌, 마쯔시다덴기산교 가부시키가이샤 filed Critical 모리시타 요이찌
Publication of KR19990077910A publication Critical patent/KR19990077910A/ko
Application granted granted Critical
Publication of KR100330478B1 publication Critical patent/KR100330478B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Image Analysis (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

입력 신호는 주파수 영역으로 전송된 후 상이한 주파수 범위에 대응하는 대역으로 분할된다. 적응성 임계값은 각각의 주파수 대역으로부터 데이터에 인가된다. 따라서 대화 신호의 존재 여부를 위해 단기간의 대역-제한 에너지가 실험된다. 적응성 임계값은 각각의 주파수 대역내에서의 에너지 가변성과 평균값을 나타내는 장기간 데이터를 축적하는 히스토그램 데이터 구조를 사용하여 각각의 신호 통로에 대해 독립적으로 업데이트된다. 엔드포인트 검출은 임계값 비교의 결과에 따라 대화 부재상태로부터 대화 존재상태로 전이되고 또한 이와 역방향으로도 절환되는 상태 장치에 의해 실행된다. 부분적 대화 검출 시스템은 입력 신호가 절단되는 경우를 취급한다.

Description

노이즈 상태 음성 검출 시스템{SPEECH DETECTION SYSTEM FOR NOISY CONDITIONS}
본 발명은 대화 처리 및 대화 인식 시스템에 관한 것으로서, 특히 입력 신호내에서 대화의 시작과 종료를 검출하는 검출 시스템에 관한 것이다.
대화 인식이나 기타 다른 목적을 위한 자동 대화 처리는 현재 컴퓨터가 실행할 수 있는 가장 도전적인 과제중 하나이다. 예를 들어, 대화 인식은 가변성이 민감한 매우 복잡한 패턴-매칭 기법을 사용한다. 소비자용으로는, 인식 시스템은 각각의 상이한 스피커 범위를 취급할 필요가 있으며, 광범위하게 변화되는 환경 조건을 작동시킬 필요가 있다. 외부 신호와 소음의 존재는 인식의 품질과 대화처리 성능을 상당히 저하시킬 수 있다.
대부분의 대화인식 자동 시스템은 사운드의 패턴을 모델링하고 이러한 패턴을 음운(phonome)과 문자와 글자를 인식하는데 사용하므로써 작동된다. 정밀한 인식을 위해, 실제 대화를 따라가거나 선행하는 외부 사운드(노이즈)를 포함하는 것이 매우 중요하다. 개선을 위한 방에 있는 경우라도 대화의 시작과 종료를 검출하는데는 공지의 기법이 사용된다.
본 발명은 유입 신호들을 상이한 주파수 범위를 나타내는 주파수 대역으로 분할한다. 각각의 대역내의 단기 에너지는 복수개의 임계값과 비교되며, 그 비교 결과는 적어도 하나의 대역의 대역-제한 신호 에너지가 그 관련의 적어도 하나의 임계값을 초과했을 때 "대화 부재" 상태로부터 "대화 존재" 상태로 절환하는 상태 장치(state machine)를 구동시키는데 사용된다. 또한, 상기 상태 장치는 적어도 하나의 대역에 대한 대역-제한 신호 에너지가 그 관련의 적어도 하나의 임계값 이하일 때 "대화 존재" 상태로부터 "대화 부재" 상태로 절환하는 상태 장치(state machine)로 절환한다. 이러한 시스템은 실질적인 대화를 시작하기 전에 가정된 "침묵 세그먼트(silent segment)"에 기초한 부분 대화 검출기구를 포함한다.
히스토그램 데이터 구조는 에너지의 평균값과 가변값에 관한 데이터를 주파수 대역내에 저장하며, 이러한 정보는 적응성 임계값을 조정하는데 사용된다. 주파수 대역은 노이즈 특성에 기초하여 할당된다. 히스토그램 표시는 대화 신호, 침묵 및 노이즈 사이에 강력한 식별을 제공한다. 대화 신호내에서는 전형적으로 침묵 부분(배경 노이즈만을 갖고 있다)이 우세하며, 히스토그램에 강하게 반영된다. 비교적 일정한 배경 노이즈는 히스토그램상에 현저한 스파이크를 나타낸다.
상기 시스템은 노이즈 상태에서 대화를 검출하는데 사용되며, 대화의 시작이 음절 생략을 통해 손실되는 상태를 취급하는 것처럼 대화의 시작과 마지막을 검출할 것이다.
본 발명의 기타 다른 목적과 특징 및 장점은 첨부된 도면을 참조한 하기의 상세한 설명에 의해 보다 명확하게 이해될 것이다.
도 1 은 양호한 2대역 실시예에서 대화 검출 시스템의 블럭도.
도 2 는 적응성 임계값을 조정하는데 사용되는 시스템의 상세한 블럭도.
도 3 은 부분적인 대화 검출 시스템의 상세한 블럭도.
도 4 는 본 발명의 대화 신호 상태 장치를 도시한 도면.
도 5 는 본 발명을 이해하는데 유용한, 예시적인 히스토그램을 도시한 그래프.
도 6 은 대화 검출을 위해 신호 에너지를 비교하는데 사용되는 복수개의 임계값을 도시한 파동형태의 다이아그램.
도 7 은 강한 노이즈 펄스의 오검출을 피하는데 사용되는 대화 시작 지연 검출기구를 도시한 다이아그램.
도 8 은 연속적인 대화중 정지를 허용하는데 사용되는 대화 종료 지연 결정기구를 도시한 파동형태의 다이아그램.
도 9a 는 부분적인 대화 검출기구의 특징을 도시한 파동형태의 다이아그램.
도 9b 는 부분적인 대화 검출기구의 다른 특징을 도시한 파동형태의 다이아그램.
도 10 은 대화 존재상태에 대응하는 최종 범위를 선택하기 위해 복합 대역 임계값 분석이 비교되는 방법을 도시한 파동형태의 블럭도.
도 11 은 강한 노이즈의 존재시 S 임계값의 사용을 도시하는 파동형태의 블럭도.
도 12 는 배경 노이즈 레벨에 적용될 때 적응성 임계값의 성능을 도시한 도면.
[도면의 주요부분에 대한 부호의 설명]
22 : 해밍 윈도우 24 : 컨버터
26, 28 : 통로 50 : 버퍼
본 발명은 입력 신호를 각각 상이한 주파수 대역을 나타내는 복수개의 신호 통로로 분할시킨다. 도 1 은 2개의 대역을 채용한 본 발명의 실시예로서, 상기 2개의 대역중 하나의 대역은 입력 신호의 전체 주파수 스펙트럼에 대응하며, 다른 대역은 전체 주파수 스펙트럼의 고주파 서브세트에 대응한다. 도시된 실시예는 이동차량내에서나 시끄러운 사무실처럼 신호-노이즈 비율(SNR)이 낮은 입력 신호를 검사하는데 특히 적합하다. 이러한 공통적인 환경에서, 노이즈 에너지의 대부분은 2,000 Hz로 분포된다.
2대역 시스템이 도시되었지만, 본 발명은 다른 복합 대역 장치에도 용이하게 사용될 수 있다. 일반적으로, 각각의 대역은 신호(대화)를 노이즈로부터 격리시키도록 고안된 상이한 주파수 범위를 커버한다. 현존의 장치는 디지탈이지만, 아날로그 장치도 사용될 수 있다.
도 1 에 있어서, 노이즈 뿐만 아니라 허용가능한 대화 신호를 포함하는 입력 신호는 도면부호 20 으로 도시되어 있다. 입력 신호는 입력신호 데이터를 프레임으로 재분할하기 위해 해밍 윈도우(22)를 통해 디지탈화되어 처리된다. 양호한 실시예는 설정된 샘플링 비율(이 경우, 8,000Hz)인 10ms를 사용하여, 프레임당 80 디지탈 샘플을 제공하게 된다. 도시된 시스템은 300Hz 내지 3400Hz 의 범위로 펼쳐진 주파수를 갖는 입력 신호에 따라 작동되도록 설계된다. 따라서, 상부 주파수 상한치(2×4,000 = 8,000)의 샘플링 비율이 선택된다. 만일 입력 신호의 정보 이송부에서 상이한 주파수 내용이 발견된다면, 샘플링 비율과 주파수 대역은 적절히 조정될 수 있다.
해밍 윈도우(22)의 출력은 설정된 크기의 프레임으로 배치되고 입력 신호(대화 + 노이즈)를 나타내는 디지팔 샘플의 시컨스이다. 이러한 프레임은 패스트 퓨리에 트랜스폼(FFT) 컨버터(24)로 이송되는데, 상기 컨버터는 입력 신호 데이터를 시간 영역으로부터 주파수 영역으로 이송한다. 이때, 신호는 다수의 통로 즉, 제 1 통로(26)와 제 2 통로(28)로 분기된다. 제 1 통로는 입력 신호의 모든 주파수를 포함하는 주파수 대역에 대응하며, 제 2 통로(28)는 입력 신호의 완전 스펙트럼의 고주파 서브세트에 대응한다. 주파수 영역 내용은 디지탈 데이터에 의해 표시되기 때문에, 주파수 대역 분기는 총합 모듈(30, 32)에 의해 달성된다.
상기 총합 모듈(30)은 10-108 범위에서 스펙트럼 성분을 총합하며, 총합 모듈(32)은 64-108 범위에서 총합한다. 이러한 방식으로, 총합 모듈(30)은 입력 신호에서 모든 주파수 대역을 선택하며, 모듈(32)은 단지 고주파 대역만을 선택한다. 이 경우, 모듈(32)은 모듈(30)에 의해 선택된 대역의 서브세트를 추출한다. 이것은 이동 차량이나 시끄러운 사무실 등에서 찾아볼 수 있는 형태의 시끄러운 입력 신호내에서의 대화 내용을 검출하기 위한 양호한 배치이다. 다른 노이즈 상태는 다른 주파수 대역-분기 배치를 지시한다. 예를 들어 복수개의 신호 통로는 각각의 비중첩성 주파수 대역과 중첩성 주파수 대역을 커버하도록 형성된다.
총합 모듈(30, 32)은 주파수 성분을 하나의 프레임에 한번에 총합한다. 따라서, 모듈(30, 32)의 최종 출력은 신호내에서의 주파수 대역-한계 단기 에너지를 나타낸다. 필요할 경우, 이러한 노출되지 않은 데이터는 예를 들어 필터(34, 36)처럼 부드러운 필터를 통과한다. 양호한 실시예에 따르면, 양쪽에서 부드러운 필터로서 3탭 애버리지가 사용된다.
하기에 상세히 서술되는 바와 같이, 대화 검출은 복수개의 주파수 대역-한계 단기 에너지와 복수개의 임계값과의 비교에 기초한다. 이러한 임계값은 예비대화 침묵부(시스템이 작동중이고 스피커가 스피킹을 시작하기 전에 제공된 것으로 가정)에 관련된 에너지의 가변성과 장기간의 평균값에 기초하여 업데이트된다. 실행은 적응성 임계값을 발생시키는데 히스토그램 데이터 구조를 사용한다. 도 1 에 있어서, 복합 블럭(38, 40)은 신호 통로(26, 28)에 대한 적응성 임계값 업데이트 모듈을 나타낸다. 이러한 모듈에 대한 상세한 내용은 도 2 를 참조로 서술될 것이다.
분리된 신호 통로가 적응성 임계값 업데이트 모듈(38, 40)을 통해 패스트 퓨리에 이송 모듈(24)의 하류에 유지된다 하더라도, 입력신호에서 대화가 있는지의 여부에 대한 최종 결정은 신호 통로를 고려한 것에 기인한다. 따라서, 대화 상태 검출 모듈(42)과 그 관련의 부분 대화 검출 모듈(44)은 통로(26, 28)로부터 신호 에너지 데이터를 고려한다. 대화 상태 모듈(42)은 그 상세한 내용이 도 4 에 도시된 상태 장치를 사용한다. 부분 대화 검출 모듈은 도 3 에 상세히 도시되어 있다.
도 2 를 참조로 적응성 임계값 업데이트 모듈(38)이 서술될 것이다. 양호한 실시예는 각각의 에너지 대역에 대해 3개의 상이한 임계값을 사용한다. 따라서, 도시된 실시예에는 전부 6개의 임계값이 있다. 각각의 임계값이 목표는 파동 형태의 다이아그램을 고려하고 이에 관련된 서술내용을 검토하므로써 명확하게 된다. 각각의 에너지 대역에 대해, 3개의 임계값은 Threshold, WThreshold, SThreshold 이다. 상기 Threshold 는 대화의 시적을 검출하는데 사용되는 기본적인 임계값이다. WThreshold 는 대화의 종료를 검출하기 위한 약한 임계값이다. SThreshold 는 대화 검출 결정의 가변성을 평가하는 강한 임계값이다. 이러한 임계값들은 다음 식으로 표시된다.
Threshold = 노이즈_레벨 + 오프셋
WThreshold = 노이즈_레벨 + 오프셋R1;(R1=0.2..1, 0,5 가 양호하다)
SThreshold = 노이즈_레벨 + 오프셋R2;(R1=1..4, 2 가 양호하다)
<<상기 노이즈_레벨 은 장기간 평균값 즉, 히스토그램에서 모든 지나간 입력 에너지의 최대값이다>>
오프셋 = 노이즈_레벨R3 + 가변성R4;(R3=0.2..1, 0.5 가 양호하며, R4=2..4, 4 가 양호하다)
<<가변성은 단기 가변성 즉, 지나간 입력 프레임 M 의 가변성이다>>
도 6 은 예시적인 신호상에 중첩된 3개의 임계값의 관계를 도시하고 있다. SThreshold 는 Threshold 보다 크며, WThreshold 는 일반적으로 Threshold 보다 작다. 이러한 임계값들은 입력 신호의 예비 대화 침묵부내에 함유된 모든 지나간 입력 에너지의 최대값을 결정하기 위해 히스토그램 데이터 구조를 사용하는 노이즈 레벨에 기초하고 있다. 도 5 는 예시적인 노이즈 레벨을 나타내는 파동형태에 중첩된 예시적인 히스토그램을 도시하고 있다. 히스토그램은 회수를 "카운트"로 기록하며, 예비 대화 침묵부는 설정된 노이즈 레벨 에너지를 포함하고 있다. 따라서, 히스토그램은 카운트의 수(y 축상에서)를 에너지 레벨(x 축상에서)의 함수로 계산한다. 도 5 에 도시된 실시예에서는 대부분의 공통(최고 카운트) 노이즈 레벨 에너지가 Ea의 에너지값을 갖는다. 상기 값 Ea 는 설정된 노이즈 레벨 에너지에 대응한다.
히스토그램(도 5)에 기록된 노이즈 레벨 에너지 데이터는 입력 신호의 예비대화 침묵부로부터 추출된다. 이에 대해, 입력 신호를 공급하는 오디오 채널은 라이브이며, 실제 대화를 재개하기 전에 대화 검출 시스템에 데이터를 전송한다. 따라서, 이러한 예비 대화 침묵 영역에서, 시스템은 주위 노이즈 레벨 자체의 에너지 특성을 효과적으로 샘플링한다.
양호한 실시예는 컴퓨터 메모리 요구사항을 감소시키기 위해 고정된 크기의 히스토그램을 사용한다. 적절한 형태의 히스토그램 데이터 구조는 정밀한 판단(작은 히스토그램 단계를 수반)하고자 하는 희망과 광범위한 동적 범위(넓은 히스토그램 단계를 수반) 사이의 트레이드오프를 제공한다. 정밀한 판단(작은 히스토그램 단계)과 광범위한 동적 범위(넓은 히스토그램 단계) 사이의 충돌을 어드레스하기 위해, 현재의 시스템은 실제 작동 상태에 기초한 히스토그램 단계를 조정한다. 조정 히스토그램 단계 크기에 사용된 알고리즘은 M 이 단계 크기(각각의 히스토그램단계에서 에너지값 범위를 나타내는)인 하기의 의사코드(pseudocode)에 서술되어 있다.
적응성 히스토그램 단계를 위한 의사코드
초기 상태후:
버퍼내에서 지나간 프레임의 연산 수단
M = 상술한 수단의 10 회
만일(M<최소값_히스토그램_단계) 이라면
M = 최소값_히스토그램_단계
종료
상술의 의사코드에서, 히스토그램 단계(M)는 초기화 상태에서 버퍼되는 시작에서 가정된 침묵부의 수단에 기초한다. 상기 수단은 실제 배경 노이즈 상태를 도시하는 것으로 가정한다. 히스토그램 단계는 하부 경계로서 최소값_히스토그램_단계에 한정된다. 이러한 히스토그램 단계는 이러한 순간후에 고정된다.
히스토그램은 각각의 프레임에 대해 새로운 값을 삽입하므로써 업데이트된다. 느린 변화 배경 노이즈를 적용하기 위해, 망각 요소(현재의 실행 0.90 에서)가 모든 10 프레임에 도입된다.
히스토그램응 업데이트하는 의사코드
만일(값<히스토그램_크기)이라면
{
//망각 요소에 의해 히스토그램을 업데이트
만일(프레임_인_히스토그램%10==0)이라면
{
(I=0;I<히스토그램_크기;I++)에 대해
히스토그램[I]= 히스토그램_망각_요소;
}
//새로운 값의 삽입에 의해 히스토그램 업데이트
히스토그램[값 + M/2)/M]+ = 1
히스토그램[값 - M/2)/M]+ = 1
}
도 2 에는 적응성 임계값 업데이팅 기구의 기본적인 블럭 다이아그램이 도시되어 있다. 이러한 블럭 다이아그램은 모듈(38, 40)(도 1)에 의해 형성된 작동을 도시한다. 단기(전류 데이터) 에너지는 업데이트 버퍼(50)에 저장되며, 상술한 바와 같이 히스토그램 데이터 구조를 업데이트하기 위해 모듈(52)에도 사용된다.
그후, 업데이트 버퍼는 버퍼(50)에 저장된 데이터의 지나간 프레임에 대한 가변성을 연산하는 모듈(54)에 의해 검사된다.
반면에, 모듈(56)은 히스토그램내의 최대 에너지값[즉, 도 5 에서 값(Ea)]을 인식하고 이를 임계값 업데이트 모듈(58)에 공급한다. 임계값 업데이트 모듈은 주 임계값(Threshold)을 복구하기 위해 모듈(54)로부터의 정지 데이터(가변성)과 최대 에너지값을 사용한다. 상술한 바와 같이, Threshold 는 노이즈 레벨에 설정된 오프셋을 더한 것과 동일하다. 상기 오프셋은 히스토그램에서의 최대값에 의해 결정된 가변성과 모듈(54)에 의해 제공된 가변성에 의해 결정되는 노이즈 레벨에 기초한다. 나머지 임계값인 WThreshold 과 SThreshold 는 상술한 식에 따른 Threshold로부터 연산된다.
정상 작동에 있어서, 임계값은 예비대화 영역내에서 노이즈 레벨에 대한 추적을 조정한다. 도 12 에는 이러한 개념이 도시되어 있다. 도 12 에 있어서, 예비대화 영역은 도면부호 100 으로 도시되어 있으며, 대화의 시작은 도면부호 200 으로 도시되어 있다. 이러한 파동 형태에 따라, Threshold 가 중첩된다. 상기 임계값 레벨은 예비대화 영역내의 노이즈 레벨에 오프셋을 더한 것을 추적한다. 따라서, 주어진 대화 세그먼트에 적용할 수 있는 Threshold(SThreshold 뿐만 아니라 WThreshold)는 대화 시작전에 즉시 실행되는 임계값이다.
도 1 을 참조하여, 대화 상태 검출과 부분적인 대화 검출 모듈(42, 44)이 서술될 것이다. 데이터의 하나의 프레임에 기초하여 대화 존재/대화 부재를 결정하는 대신에, 상기 결정은 전류 프레임과 상기 프레임을 따르는 작은 프레임을 더한 것에 기초하여 이루어진다. 대화 검출의 시작에 있어서, 전류 프레임(룩 어헤드)을 따르는 부가적인 프레임을 고려하는 것은 전기 펄스와 같은 짧고 강한 노이즈 플러스의 존재하에서의 잘못된 검출을 피할 수 있다. 대화 검출의 종료에 있어서, 프레임 룩 어헤드는 연속적인 대화 신호에서 중단이나 짧은 침묵이 대화 종료의 옴검출을 제공하는 것을 방지한다. 이러한 지연된 결정이나 룩 어헤드 전략은 데이터를 업데이트 버퍼(50)(도 2)에 버퍼링하고 하기의 의사코드에 의해 상술한 처리를 가하므로써 실행된다.
시작_대화 테스트:
시작 지연 결정 = 부정확
프레임을 따르는 루프 M(M = 3; 30ms)
만일 (에너지_전부) 또는 (에너지_HPF) >Threshold 라면
시작 지연 결정 = 정확 이다.
대화 테스트 종료:
종료 지연 결정 = 부정확
프레임을 따르는 루프 N(N = 30; 300 ms)
만일 (에너지_전부) 와 (에너지_HPF) < Threshold 라면
종료 지연 결정 = 정확 이다.
루프의 종료
도 7 은 시작_대화 테스트에서 30 ms 가 임계값 이상의 노이즈 스파이크(110)의 오검출을 피하는 방법을 도시하고 있다. 도 8 은 종료_대화 테스트를 지연시키는 300 ms 가 대화 신호에서의 짧은 펄스(120)가 대화 상태의 종료를 트리거하는 것을 방지하는 방법을 도시하고 있다.
상술한 의사코드는 2개의 플래그 즉, 시작 지연 결정 플래그와 종료 지연 결정 플래그를 세팅하고 있다. 이러한 플래그들은 도 4 에 도시된 대화 신호 상태 장치에 의해 사용된다. 대화의 시작은 제 3 프레임(M = 3)에 대응하는 30ms 를 사용하는 것을 인식해야 한다. 이것은 짧은 노이즈 스파이크로 인한 오검출을 스크린하는데 적합하다. 종료는 연결된 대화 내부에서 발생되는 정상적인 중단을 적절히 다루는 것으로 판명된 300ms 의 긴 지연을 사용한다. 상기 300ms 지연은 30 프레임(N =30)에 대응한다. 대화 신호의 쵸핑이나 클리핑에 기인한 에러를 피하기 위해, 데이터는 시작이나 종료를 위해 검출된 대화부분에 기초한 부가적인 프레임으로 패딩된다.
대화 검출 알고리즘의 시작은 적어도 주어진 최소 길이의 예비 대화 침묵부분이 존재하는 것으로 가정한다. 실제로, 이러한 가정이 유효할 때, 즉 입력 신호가 신호 탈락이나 회로 절환 결함으로 인하여 클리핑되는 경우가 있을 때는 가정한 "침묵 세그먼트"가 축소되거나 제거되는 때가 있다. 이러한 일이 발생되었을 때는 임계값이 음성 신호가 없는 것으로 가정한 노이즈 레벨 에너지에 기초하기 때문에 임계값은 부정확하게 된다. 또한, 입력 신호가 침묵 세그먼트가 없는 포인트에 클리핑되었을 때, 대화 검출 시스템은 입력 신호를 대화를 내장한 것으로 인식할 수 없어 입력 상태에서 대화의 손실을 초래하고 이는 일련의 대화 처리를 소용없게 한다.
부분적인 대화 상태를 피하기 위해, 도 3 에 도시된 바와 같이 거절 전략이 사용된다. 도 3 은 부분 대화 검출 모듈(44)(도 1)에 의해 사용된 메카니즘을 도시하고 있다. 상기 부분적인 대화 검출 메카니즘은 적응성 임계값 레벨로 급작스러운 점프가 있는 지를 결정하기 위해 임계값(Threshold)을 모니터하므로써 작동된다. 점프 검출 모듈(60)은 일련의 프레임 위에서 임계값에서의 변화를 표시하는 값을 먼저 축적하므로써 이와 같은 분석을 실행한다. 이러한 단계는 축적된 임계값 변화량(Δ)을 발생시키는 모듈(62)에 의해 실행된다. 상기 축적된 임계값 변화량(Δ)은 모듈(64)에서의 설정된 절대값(Athrd)와 비교되며, 상기 Δ 가 Athrd 보다 크거나 작은지의 여부에 따라 브랜치(66, 또는 68)를 통해 처리가 실행된다. 만일 그렇지 않다면, 모듈(70)이 실행되고 이에 따라 모듈(72)도 실행된다. 모듈(70, 72)은 분리된 평균 임계값을 유지한다. 모듈(70)은 검출된 점프 및 모듈(72)이 점프후의 임계값에 대응하는 Threshold(2)을 유지하며고 업데이트하기 전의 임계값에 대응하는 임계값(T1)을 유지하고 업데이트한다. 이와 같은 2개의 임계값의 비율(T1/T2)은 모듈(74)에서 제 3 임계값(Rthrd)과 비교된다. 만일 그 비율이 제 3 임계값보다 크다면, 밸리드스피치 플래그(ValidSpeech flag)가 세팅된다. 상기 밸리드스피치 플래그는 도 4 의 대화 신호상태 장치에 사용된다.
도 9a 및 도 9b 는 작동시의 부분대화 검출기구를 도시하고 있다. 도 9a 는 "예" 브랜치(68)(도 3)를 취한 상태에 대응하며, 도 9b 는 "아니오" 브랜치(66)를 취한 상태에 대응한다. 도 9a 에서는 임계값에 150 내지 160 의 점프가 있음을 인식해야 한다. 도시된 실시예에서, 이러한 점프는 절대값(Athrd)보다 크다. 도 9b 에서, 152 내지 162 의 임계값내의 점프는 Athrd 보다 크지 않은 점프를 나타낸다. 도 9a 및 도 9b 에서, 점프 위치는 점선(170)으로 도시되었다. 점프 위치전의 평균 임계값은 T1 으로 도시되었고, 점프 위치후의 평균 임계값은 T2 로 표시되었다. 상기 비율(T1/T2)은 비율 임계값(Rthrd)[도 3 에서 블럭(74)]과 비교된다. 밸리드스피치는 하기에 서술되는 바와 같이 예비대화 영역에서의 스트레이 노이즈로부터 판별된다. 만일 임계값에서의 점프가 Athrd 보다 작거나 T1/T2 가 Rthrd 보다 작다면, 임계 점프에 대해 책임이 있는 신호가 노이즈로 인식된다. 한편, 만일 T1/T2 가 Rthrd 보다 크다면, 임계 점프에 대해 책임이 있는 신호는 부분 대화로 처리되어, 임계값을 업데이트하는데 사용되지 않는다.
도 4 에서는 초기화 상태(310)에서 도면부호 300 으로 도시된 바와 같이 대화 신호 상태 장치가 시작된다. 그후, 침묵 상태에서 실행된 단계가 대화 상태(330)로의 전이를 표시할 때까지 유지되는 침묵 상태(320)로 진행된다. 일단 대화 상태(330)에서, 상태 장치는 이러한 상태가 대화 상태(330) 블럭내에 도시된 단계에 의해 도시된 상태로 만날 때 침묵 상태(320)로 복귀전이될 것이다.
초기화 상태(310)에서, 데이터의 프레임은 버퍼(50)(도 2)에 저장되며, 히스토그램 단계 크기는 업데이트된다. 양호한 실시예는 공칭 단계 크기 M = 20 으로 작동이 시작된다. 이러한 단계 크기는 제공된 의사코드에 의해 서술된 바와 같이 초기화 상태중 적용된다. 초기화 상태에서, 히스토그램 데이터 구조는 초기 작동으로부터 이미 저장된 데이터를 제거하도록 초기화된다. 이러한 단계가 실행된 후, 상태 장치는 침묵 상태(320)로 전이된다.
침묵 상태에서, 각각의 주파수 대역-한계 단기 에너지값은 기본 임계값인 Threshold 와 비교된다. 상술한 바와 같이, 각각의 신호 통로는 그 자체의 임계값 세트를 갖고 있다. 도 4 에서, 신호 통로(26)(도 1)에 적용가능한 임계값은 Threshold_ALL 로 표시되며, 신호 통로(28)에 적용가능한 임계값은 Threshold_HPF 로 표시된다. 대화 상태(330)에 적용되는 다른 임계값에도 이와 유사한 표기법이 사용된다.
만일 단기 에너지값중 하나가 그 임계값을 초과한다면, 시작 지연 결정 플래그가 테스트된다. 만일 상기 플래그가 TRUE 로 세팅되었다면, 상술한 바와 같이 대화 메시지의 시작이 복귀되며, 상태 장치는 대화 상태(330)로 전이된다. 그렇지 않을 경우, 상태 장치는 침묵 상태로 존재하게 되며, 히스토그램 데이터 구조는 업데이트된다.
상술한 실시예는 과거 데이터의 효과가 시간에 따라 기화되도록 0.99 의 망각 요소를 사용하여 히스토그램을 업데이트한다. 이것은 현존 프레임 에너지와 연관된 카운트 데이터를 부가하기 전에 현재값을 히스토그램에 0.99 를 곱하므로써 이루어진다. 이러한 방식으로, 역사적인 데이터가 시간에 따라 점진적으로 감소된다.
대화 상태(330)내의 처리는 다른 세트의 임계값이 사용된다고 하더라도 유사한 라인을 따라 진행된다. 대화 상태는 신호 통로(26, 28)의 각각의 에너지를 WThreshold 와 비교한다. 만일 상기 두개의 신호 통로가 WThreshold 보다 높다면, 이와 유사한 비교가 SThreshold 에 대해서도 이루어진다. 만일 두개의 신호 통로의 에너지가 SThreshold 보다 높다면, 밸리드스피치 플래그는 TRUE 로 세팅된다. 상기 플래그는 일련의 비교 단계에서 사용된다.
만일 종료 지연 결정 플래그가 상술한 바와 같이 TRUE 로 이미 세팅되었다면, 또한 밸리드스피치 플래그가 TRUE 로 세팅되었다면, 대화 종료 메시지가 복귀되어 상태 장치는 침묵 상태(320)로 복귀전이된다. 한편, 만일 밸리드스피치 플래그가 TRUE 로 세팅되지 않았다면, 이전의 대화 검출을 취소하고, 상태 장치는 침묵 상태(320)로 복귀전이된다.
도 10 및 도 11 은 각종 레벨이 상태 장치 작동에 영향을 미치는 방법을 나타내고 있다. 도 10 은 상기 신호 통로들의 동시 작동과,모든 주파수 대역, 대역_ALL, 고주파 대역, 대역_HPF 를 비교하고 있다. 신호 파동 형태는 상이한 주파수 내용을 포함하고 있기 때문에 서로 상이한 것임을 인식해야 한다. 도시된 실시예에서, 검출 대화로서 인식된 최종 범위는 b1 에서 임계값을 횡단하는 모든 주파수 대역에 의해 발생되는 대화의 시작에 대응하며, 대화의 종료는 e2 에서의 고주파 대역의 횡단에 대응한다. 물론 상이한 입력 파동형태는 도 4 에 도시된 알고리즘에 따라 상이한 결과를 낳게 된다.
도 11 은 강한 노이즈 레벨이 존재할 때 밸리브스피치의 존재를 확인하기 위해 강한 임계값(SThreshold)이 사용되는 방법을 도시하고 있다. 도시된 바와 같이, SThreshold 이하로 떨어지는 강한 노이즈 레벨은 FALSE 로 세팅되는 밸리드스피치 플래그에 대응하는 영역(R)에 책임이 있다.
상술한 바와 같이, 본 발명은 입력 신호내에서 대화의 시작과 종료를 검출하며, 시끄러운 환경에서 사용자가 만나게 되는 수많은 어려움을 극복한 시스템을 제공한다. 본 발명은 양호한 실시예를 참조로 서술되었기에 이에 한정되지 않으며, 본 기술분야의 숙련자라면 첨부된 청구범위로부터의 일탈없이 본 발명에 다양한 변형과 수정이 가해질 수 있음을 인식해야 한다.

Claims (16)

  1. 대화 신호의 존재 여부를 결정하기 위해 입력 신호를 검사하는 대화 검출 시스템에 있어서,
    상기 입력 신호를 복수개의 주파수 대역으로 분기하기 위한 주파수 대역 분기기와,
    각각의 주파수 대역이 그 대역과 연관된 적어도 하나의 임계값과 비교되도록 상기 복수개의 주파수 대역의 대역-제한 신호 에너지를 복수개의 임계값과 비교하기 위한 에너지 비교기 시스템과,
    상기 에너지 비교기 시스템에 연결된 대화 신호 상태 장치를 포함하며,
    상기 각각의 대역은 상이한 주파수 범위에 대응하는 대역-제한 신호 에너지를 나타내며, 상기 대화 신호 상태 장치는 상기 적어도 하나의 대역의 대역-제한 신호 에너지가 그 연관의 임계값중 적어도 하나의 위에 있을 때는 대화 부재상태로부터 대화 존재상태로 절환하고, 상기 적어도 하나의 대역의 대역-제한 신호 에너지가 그 연관의 임계값중 적어도 하나의 아래에 있을 때는 대화 존재상태로부터 대화 부재상태로 절환하는 것을 특징으로 하는 노이즈 상태용 음성 검출 시스템.
  2. 제 1 항에 있어서, 적어도 하나의 주파수 대역내에서 에너지를 표시하는 시간적 데이터를 축적하기 위해 히스토그램 데이터 구조를 사용하는 적응성 임계값 업데이트 시스템을 부가로 포함하는 것을 특징으로 하는 노이즈 상태용 음성 검출 시스템.
  3. 제 1 항에 있어서, 상기 주파수 대역과 관련된 분리된 적응성 임계값 업데이트 시스템을 부가로 포함하는 것을 특징으로 하는 노이즈 상태용 음성 검출 시스템.
  4. 제 1 항에 있어서, 상기 주파수 대역내에서 에너지의 가변성과 수단에 기초하여 상기 복수개의 임계값을 수정하는 적응성 임계값 업데이트 시스템을 부가로 포함하는 것을 특징으로 하는 노이즈 상태용 음성 검출 시스템.
  5. 제 1 항에 있어서, 상기 복수개의 임계값중 적어도 하나의 임계값의 변화율로 설정된 점프에 응답하는 부분 대화 검출 시스템을 부가로 포함하며, 상기 부분 대화 검출 시스템은 상기 하나의 임계값의 평균값의 점프 전과 점프 후의 비율이 설정된 값을 초과할 때 상기 상태 장치가 대화 존재상태로 절환되는 것을 방지하는 것을 특징으로 하는 노이즈 상태용 음성 검출 시스템.
  6. 제 1 항에 있어서, 노이즈 플로어 이상으로 설정된 오프셋으로서의 제 1 임계값과, 상기 제 1 임계값보다 작으며 제 1 임계값의 설정된 퍼센트로서의 제 2 임계값과, 상기 제 1 임계값보다 크며 제 1 임계값의 설정된 배수의 제 3 임계값을 포함하는 복합 임계값 시스템을 부가로 포함하며,
    상기 제 1 임계값은 대화 부재상태로부터 대화 존재상태로의 절환을 제어하며, 상기 제 2 및 제 3 임계값은 대화 존재상태로부터 대화 부재상태로의 절환을 제어하는 것을 특징으로 하는 노이즈 상태용 음성 검출 시스템.
  7. 제 6 항에 있어서, 상기 상태 장치는 적어도 하나의 대역에 대한 대역-제한 신호 에너지가 상기 제 2 임계값보다 낮을 경우 또한 상기 적어도 하나의 대역에 대한 대역-제한 신호 에너지가 상기 제 3 임계값보다 낮을 경우 대화 존재상태로부터 대화 부재상태로 절환하는 것을 특징으로 하는 노이즈 상태용 음성 검출 시스템.
  8. 제 1 항에 있어서,
    상기 복수개의 주파수 대역중 적어도 하나의 대역-제한 신호 에너지가 상기 설정시간 증분을 통해 적어도 하나의 임계값을 초과하지 않을 때, 입력 신호의 설정시간 증분을 표시하는 데이터를 저장하고 상태 장치가 대화 부재상태로부터 대화 존재상태로 절환되는 것을 방지하는 지연 결정 버퍼를 부가로 포함하는 것을 특징으로 하는 노이즈 상태용 음성 검출 시스템.
  9. 입력 신호에서 대화 신호의 존재 여부를 결정하는 방법에 있어서,
    상기 입력 신호를 상이한 주파수 범위에 대응하는 대역-제한 신호 에너지를 표시하는 복수개의 주파수 대역으로 분할하는 단계와,
    각각의 주파수 대역이 상기 대역과 관련된 적어도 하나의 임계값과 비교될 수 있도록 상기 복수개의 주파수 대역의 대역-제한 신호 에너지를 복수개의 임계값과 비교하는 단계와,
    상기 적어도 하나의 대역의 대역-제한 신호 에너지가 적어도 하나의 그 관련의 임계값보다 높을 때 대화 존재상태가 존재하는 것을 결정하는 단계와, 상기 적어도 하나의 대역의 대역-제한 신호 에너지가 적어도 하나의 그 관련의 임계값보다 낮을 때 대화 존재상태가 존재하는 것을 결정하는 단계를 포함하는 것을 특징으로 하는 입력 신호에서 대화 신호의 존재 여부를 결정하는 방법.
  10. 제 9 항에 있어서, 상기 적어도 하나의 주파수 대역내에서의 에너지를 표시하는 시간적 데이터를 축적하는 히스토그램을 사용하여 상기 복수개의 임계값중 적어도 하나의 임계값을 형성하는 단계를 부가로 포함하는 것을 특징으로 하는 입력 신호에서 대화 신호의 존재 여부를 결정하는 방법.
  11. 제 9 항에 있어서, 상기 복수개의 임계값중 적어도 하나를 각각의 주파수 대역을 위해 분리가능하게 업데이트하는 단계를 부가로 포함하는 것을 특징으로 하는 입력 신호에서 대화 신호의 존재 여부를 결정하는 방법.
  12. 제 9 항에 있어서, 상기 각각의 주파수 대역내에서 에너지의 가변성과 평균값에 기초하여 상기 복수개의 임계값을 교정하는 단계를 부가로 포함하는 것을 특징으로 하는 입력 신호에서 대화 신호의 존재 여부를 결정하는 방법.
  13. 제 9 항에 있어서, 상기 복수개의 임계값중 적어도 하나의 변화율로 설정된 점프를 검출하고, 상기 하나의 임계값의 평균값의 점프 후와 점프 전의 비율이 설정된 값을 초과할 때 상기 대화 존재상태가 존재하지 않는 것을 결정하는 단계를 부가로 포함하는 것을 특징으로 하는 입력 신호에서 대화 신호의 존재 여부를 결정하는 방법.
  14. 제 9 항에 있어서, 노이즈 플로어 이상으로 설정된 오프셋으로서의 제 1 임계값과, 상기 제 1 임계값보다 작으며 제 1 임계값의 설정된 퍼센트로서의 제 2 임계값과, 상기 제 1 임계값보다 크며 제 1 임계값의 설정된 배수의 제 3 임계값을 한정하는 단계와, 상기 제 1 임계값에 기초하여 존재하는 대화 존재상태를 결정하는 단계와, 상기 제 2 및 제 3 임계값에 기초하여 존재하는 대화 부재상태를 결정하는 단계를 부가로 포함하는 것을 특징으로 하는 입력 신호에서 대화 신호의 존재 여부를 결정하는 방법.
  15. 제 14 항에 있어서, 상기 대화 부재상태는 상기 대역중 적어도 하나의 대역-제한 신호 에너지가 상기 제 2 임계값보다 크고 상기 대역중 적어도 하나의 대역-제한 신호 에너지가 상기 제 3 임계값보다 클 때 존재하도록 결정되는 것을 특징으로 하는 입력 신호에서 대화 신호의 존재 여부를 결정하는 방법.
  16. 제 9 항에 있어서,
    상기 복수개의 주파수 대역중 적어도 하나의 대역-제한 신호 에너지가 설정된 시간 증가분을 통해 적어도 하나의 임계값을 초과하지 않을 때 상기 대화 존재상태가 존재하지 않는 것을 결정하는 단계를 부가로 포함하는 것을 특징으로 하는 입력 신호에서 대화 신호의 존재 여부를 결정하는 방법.
KR1019990008735A 1998-03-24 1999-03-16 노이즈 상태 음성 검출 시스템 KR100330478B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US9/047,276 1998-03-24
US09/047,276 1998-03-24
US09/047,276 US6480823B1 (en) 1998-03-24 1998-03-24 Speech detection for noisy conditions

Publications (2)

Publication Number Publication Date
KR19990077910A true KR19990077910A (ko) 1999-10-25
KR100330478B1 KR100330478B1 (ko) 2002-04-01

Family

ID=21948048

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019990008735A KR100330478B1 (ko) 1998-03-24 1999-03-16 노이즈 상태 음성 검출 시스템

Country Status (9)

Country Link
US (1) US6480823B1 (ko)
EP (1) EP0945854B1 (ko)
JP (1) JPH11327582A (ko)
KR (1) KR100330478B1 (ko)
CN (1) CN1113306C (ko)
AT (1) ATE267443T1 (ko)
DE (1) DE69917361T2 (ko)
ES (1) ES2221312T3 (ko)
TW (1) TW436759B (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100717401B1 (ko) * 2006-03-02 2007-05-11 삼성전자주식회사 역방향 누적 히스토그램을 이용한 음성 특징 벡터의 정규화방법 및 그 장치
US8165880B2 (en) 2005-06-15 2012-04-24 Qnx Software Systems Limited Speech end-pointer

Families Citing this family (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6873953B1 (en) * 2000-05-22 2005-03-29 Nuance Communications Prosody based endpoint detection
US6640208B1 (en) * 2000-09-12 2003-10-28 Motorola, Inc. Voiced/unvoiced speech classifier
US6754623B2 (en) * 2001-01-31 2004-06-22 International Business Machines Corporation Methods and apparatus for ambient noise removal in speech recognition
US7277853B1 (en) * 2001-03-02 2007-10-02 Mindspeed Technologies, Inc. System and method for a endpoint detection of speech for improved speech recognition in noisy environments
US20020147585A1 (en) * 2001-04-06 2002-10-10 Poulsen Steven P. Voice activity detection
EP1391106B1 (en) * 2001-04-30 2014-02-26 Polycom, Inc. Audio conference platform with dynamic speech detection threshold
US6782363B2 (en) * 2001-05-04 2004-08-24 Lucent Technologies Inc. Method and apparatus for performing real-time endpoint detection in automatic speech recognition
US7289626B2 (en) * 2001-05-07 2007-10-30 Siemens Communications, Inc. Enhancement of sound quality for computer telephony systems
US7236929B2 (en) * 2001-05-09 2007-06-26 Plantronics, Inc. Echo suppression and speech detection techniques for telephony applications
US7277585B2 (en) * 2001-05-25 2007-10-02 Ricoh Company, Ltd. Image encoding method, image encoding apparatus and storage medium
JP2003087547A (ja) * 2001-09-12 2003-03-20 Ricoh Co Ltd 画像処理装置
US6901363B2 (en) * 2001-10-18 2005-05-31 Siemens Corporate Research, Inc. Method of denoising signal mixtures
US7299173B2 (en) 2002-01-30 2007-11-20 Motorola Inc. Method and apparatus for speech detection using time-frequency variance
CN1830025A (zh) * 2003-08-01 2006-09-06 皇家飞利浦电子股份有限公司 驱动对话系统的方法
JP4587160B2 (ja) * 2004-03-26 2010-11-24 キヤノン株式会社 信号処理装置および方法
US7278092B2 (en) * 2004-04-28 2007-10-02 Amplify, Llc System, method and apparatus for selecting, displaying, managing, tracking and transferring access to content of web pages and other sources
JP4483468B2 (ja) * 2004-08-02 2010-06-16 ソニー株式会社 ノイズ低減回路、電子機器、ノイズ低減方法
US7457747B2 (en) 2004-08-23 2008-11-25 Nokia Corporation Noise detection for audio encoding by mean and variance energy ratio
US8149739B2 (en) * 2004-10-15 2012-04-03 Lifesize Communications, Inc. Background call validation
US7692683B2 (en) * 2004-10-15 2010-04-06 Lifesize Communications, Inc. Video conferencing system transcoder
US7545435B2 (en) * 2004-10-15 2009-06-09 Lifesize Communications, Inc. Automatic backlight compensation and exposure control
US20060106929A1 (en) * 2004-10-15 2006-05-18 Kenoyer Michael L Network conference communications
KR100677396B1 (ko) * 2004-11-20 2007-02-02 엘지전자 주식회사 음성인식장치의 음성구간 검출방법
US7590529B2 (en) * 2005-02-04 2009-09-15 Microsoft Corporation Method and apparatus for reducing noise corruption from an alternative sensor signal during multi-sensory speech enhancement
US20060241937A1 (en) * 2005-04-21 2006-10-26 Ma Changxue C Method and apparatus for automatically discriminating information bearing audio segments and background noise audio segments
US20060248210A1 (en) * 2005-05-02 2006-11-02 Lifesize Communications, Inc. Controlling video display mode in a video conferencing system
US7664635B2 (en) * 2005-09-08 2010-02-16 Gables Engineering, Inc. Adaptive voice detection method and system
GB0519051D0 (en) * 2005-09-19 2005-10-26 Nokia Corp Search algorithm
US20070100611A1 (en) * 2005-10-27 2007-05-03 Intel Corporation Speech codec apparatus with spike reduction
KR100800873B1 (ko) * 2005-10-28 2008-02-04 삼성전자주식회사 음성 신호 검출 시스템 및 방법
CN101320559B (zh) * 2007-06-07 2011-05-18 华为技术有限公司 一种声音激活检测装置及方法
US20080316295A1 (en) * 2007-06-22 2008-12-25 King Keith C Virtual decoders
US8139100B2 (en) 2007-07-13 2012-03-20 Lifesize Communications, Inc. Virtual multiway scaler compensation
CN101393744B (zh) * 2007-09-19 2011-09-14 华为技术有限公司 调整声音激活检测门限值的方法及装置
US9661267B2 (en) * 2007-09-20 2017-05-23 Lifesize, Inc. Videoconferencing system discovery
KR101437830B1 (ko) * 2007-11-13 2014-11-03 삼성전자주식회사 음성 구간 검출 방법 및 장치
KR20110023878A (ko) * 2008-06-09 2011-03-08 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오/비주얼 데이터 스트림의 요약을 생성하기 위한 방법 및 장치
CN101625857B (zh) * 2008-07-10 2012-05-09 新奥特(北京)视频技术有限公司 一种自适应的语音端点检测方法
US8514265B2 (en) 2008-10-02 2013-08-20 Lifesize Communications, Inc. Systems and methods for selecting videoconferencing endpoints for display in a composite video image
WO2010048999A1 (en) * 2008-10-30 2010-05-06 Telefonaktiebolaget Lm Ericsson (Publ) Telephony content signal discrimination
US20100110160A1 (en) * 2008-10-30 2010-05-06 Brandt Matthew K Videoconferencing Community with Live Images
WO2010101527A1 (en) * 2009-03-03 2010-09-10 Agency For Science, Technology And Research Methods for determining whether a signal includes a wanted signal and apparatuses configured to determine whether a signal includes a wanted signal
US8643695B2 (en) * 2009-03-04 2014-02-04 Lifesize Communications, Inc. Videoconferencing endpoint extension
US8456510B2 (en) * 2009-03-04 2013-06-04 Lifesize Communications, Inc. Virtual distributed multipoint control unit
JP5772591B2 (ja) * 2009-03-18 2015-09-02 日本電気株式会社 音声信号処理装置
US8305421B2 (en) * 2009-06-29 2012-11-06 Lifesize Communications, Inc. Automatic determination of a configuration for a conference
ES2371619B1 (es) * 2009-10-08 2012-08-08 Telefónica, S.A. Procedimiento de detección de segmentos de voz.
CN102044243B (zh) * 2009-10-15 2012-08-29 华为技术有限公司 语音激活检测方法与装置、编码器
US8350891B2 (en) * 2009-11-16 2013-01-08 Lifesize Communications, Inc. Determining a videoconference layout based on numbers of participants
CN102201231B (zh) * 2010-03-23 2012-10-24 创杰科技股份有限公司 语音侦测方法
JP2012058358A (ja) * 2010-09-07 2012-03-22 Sony Corp 雑音抑圧装置、雑音抑圧方法およびプログラム
US20130185068A1 (en) * 2010-09-17 2013-07-18 Nec Corporation Speech recognition device, speech recognition method and program
EP2656341B1 (en) * 2010-12-24 2018-02-21 Huawei Technologies Co., Ltd. Apparatus for performing a voice activity detection
EP3726530B1 (en) * 2010-12-24 2024-05-22 Huawei Technologies Co., Ltd. Method and apparatus for adaptively detecting a voice activity in an input audio signal
US9280982B1 (en) * 2011-03-29 2016-03-08 Google Technology Holdings LLC Nonstationary noise estimator (NNSE)
CN102800322B (zh) * 2011-05-27 2014-03-26 中国科学院声学研究所 一种噪声功率谱估计与语音活动性检测方法
US9280984B2 (en) 2012-05-14 2016-03-08 Htc Corporation Noise cancellation method
CN103455021B (zh) * 2012-05-31 2016-08-24 科域半导体有限公司 改变检测系统和方法
CN103730110B (zh) * 2012-10-10 2017-03-01 北京百度网讯科技有限公司 一种检测语音端点的方法和装置
CN103839544B (zh) * 2012-11-27 2016-09-07 展讯通信(上海)有限公司 语音激活检测方法和装置
US9190061B1 (en) * 2013-03-15 2015-11-17 Google Inc. Visual speech detection using facial landmarks
CN103413554B (zh) * 2013-08-27 2016-02-03 广州顶毅电子有限公司 Dsp延时调整的去噪方法及装置
JP6045511B2 (ja) * 2014-01-08 2016-12-14 Psソリューションズ株式会社 音響信号検出システム、音響信号検出方法、音響信号検出サーバー、音響信号検出装置、及び音響信号検出プログラム
US9330684B1 (en) * 2015-03-27 2016-05-03 Continental Automotive Systems, Inc. Real-time wind buffet noise detection
US10573304B2 (en) * 2015-05-26 2020-02-25 Katholieke Universiteit Leuven Speech recognition system and method using an adaptive incremental learning approach
US9596502B1 (en) 2015-12-21 2017-03-14 Max Abecassis Integration of multiple synchronization methodologies
US9516373B1 (en) 2015-12-21 2016-12-06 Max Abecassis Presets of synchronized second screen functions
CN106887241A (zh) 2016-10-12 2017-06-23 阿里巴巴集团控股有限公司 一种语音信号检测方法与装置
CN110199528B (zh) * 2017-01-04 2021-03-23 哈曼贝克自动系统股份有限公司 远场声音捕获
WO2019061055A1 (zh) * 2017-09-27 2019-04-04 深圳传音通讯有限公司 电子设备的测试方法及系统
CN109767774A (zh) 2017-11-08 2019-05-17 阿里巴巴集团控股有限公司 一种交互方法和设备
US10948581B2 (en) * 2018-05-30 2021-03-16 Richwave Technology Corp. Methods and apparatus for detecting presence of an object in an environment
US10928502B2 (en) * 2018-05-30 2021-02-23 Richwave Technology Corp. Methods and apparatus for detecting presence of an object in an environment
CN109065043B (zh) * 2018-08-21 2022-07-05 广州市保伦电子有限公司 一种命令词识别方法及计算机存储介质
CN108962249B (zh) * 2018-08-21 2023-03-31 广州市保伦电子有限公司 一种基于mfcc语音特征的语音匹配方法及存储介质
CN112687273B (zh) * 2020-12-26 2024-04-16 科大讯飞股份有限公司 一种语音转写方法及装置
CN113345472B (zh) * 2021-05-08 2022-03-25 北京百度网讯科技有限公司 语音端点检测方法、装置、电子设备及存储介质
CN115376513B (zh) * 2022-10-19 2023-05-12 广州小鹏汽车科技有限公司 语音交互方法、服务器及计算机可读存储介质

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3909532A (en) * 1974-03-29 1975-09-30 Bell Telephone Labor Inc Apparatus and method for determining the beginning and the end of a speech utterance
US4032711A (en) 1975-12-31 1977-06-28 Bell Telephone Laboratories, Incorporated Speaker recognition arrangement
US4052568A (en) * 1976-04-23 1977-10-04 Communications Satellite Corporation Digital voice switch
JPS56104399A (en) 1980-01-23 1981-08-20 Hitachi Ltd Voice interval detection system
US4357491A (en) * 1980-09-16 1982-11-02 Northern Telecom Limited Method of and apparatus for detecting speech in a voice channel signal
USRE32172E (en) 1980-12-19 1986-06-03 At&T Bell Laboratories Endpoint detector
FR2502370A1 (fr) 1981-03-18 1982-09-24 Trt Telecom Radio Electr Dispositif de reduction du bruit dans un signal de parole mele de bruit
US4410763A (en) 1981-06-09 1983-10-18 Northern Telecom Limited Speech detector
US4531228A (en) 1981-10-20 1985-07-23 Nissan Motor Company, Limited Speech recognition system for an automotive vehicle
JPS5876899A (ja) * 1981-10-31 1983-05-10 株式会社東芝 音声区間検出装置
FR2535854A1 (fr) 1982-11-10 1984-05-11 Cit Alcatel Procede et dispositif d'evaluation du niveau de bruit sur une voie telephonique
JPS59139099A (ja) 1983-01-31 1984-08-09 株式会社東芝 音声区間検出装置
US4627091A (en) 1983-04-01 1986-12-02 Rca Corporation Low-energy-content voice detection apparatus
JPS603700A (ja) 1983-06-22 1985-01-10 日本電気株式会社 音声検出方式
AU584904B2 (en) * 1984-06-08 1989-06-08 Plessey Australia Pty. Limited Adaptive speech detector system
US4630304A (en) * 1985-07-01 1986-12-16 Motorola, Inc. Automatic background noise estimator for a noise suppression system
US4815136A (en) 1986-11-06 1989-03-21 American Telephone And Telegraph Company Voiceband signal classification
JPH01169499A (ja) 1987-12-24 1989-07-04 Fujitsu Ltd 単語音声区間切出し方式
US5222147A (en) 1989-04-13 1993-06-22 Kabushiki Kaisha Toshiba Speech recognition LSI system including recording/reproduction device
AU633673B2 (en) * 1990-01-18 1993-02-04 Matsushita Electric Industrial Co., Ltd. Signal processing device
US5313531A (en) * 1990-11-05 1994-05-17 International Business Machines Corporation Method and apparatus for speech analysis and speech recognition
US5305422A (en) 1992-02-28 1994-04-19 Panasonic Technologies, Inc. Method for determining boundaries of isolated words within a speech signal
US5323337A (en) 1992-08-04 1994-06-21 Loral Aerospace Corp. Signal detector employing mean energy and variance of energy content comparison for noise detection
US5579431A (en) * 1992-10-05 1996-11-26 Panasonic Technologies, Inc. Speech detection in presence of noise by determining variance over time of frequency band limited energy
US5617508A (en) * 1992-10-05 1997-04-01 Panasonic Technologies Inc. Speech detection device for the detection of speech end points based on variance of frequency band limited energy
US5479560A (en) * 1992-10-30 1995-12-26 Technology Research Association Of Medical And Welfare Apparatus Formant detecting device and speech processing apparatus
US5459814A (en) * 1993-03-26 1995-10-17 Hughes Aircraft Company Voice activity detector for speech signals in variable background noise
US6266633B1 (en) * 1998-12-22 2001-07-24 Itt Manufacturing Enterprises Noise suppression and channel equalization preprocessor for speech and speaker recognizers: method and apparatus

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8165880B2 (en) 2005-06-15 2012-04-24 Qnx Software Systems Limited Speech end-pointer
US8170875B2 (en) 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer
KR100717401B1 (ko) * 2006-03-02 2007-05-11 삼성전자주식회사 역방향 누적 히스토그램을 이용한 음성 특징 벡터의 정규화방법 및 그 장치

Also Published As

Publication number Publication date
CN1113306C (zh) 2003-07-02
ATE267443T1 (de) 2004-06-15
KR100330478B1 (ko) 2002-04-01
ES2221312T3 (es) 2004-12-16
DE69917361D1 (de) 2004-06-24
DE69917361T2 (de) 2005-06-02
EP0945854A3 (en) 1999-12-29
EP0945854A2 (en) 1999-09-29
JPH11327582A (ja) 1999-11-26
US6480823B1 (en) 2002-11-12
CN1242553A (zh) 2000-01-26
EP0945854B1 (en) 2004-05-19
TW436759B (en) 2001-05-28

Similar Documents

Publication Publication Date Title
KR100330478B1 (ko) 노이즈 상태 음성 검출 시스템
EP0548054B1 (en) Voice activity detector
EP0979504B1 (en) System and method for noise threshold adaptation for voice activity detection in nonstationary noise environments
US8612222B2 (en) Signature noise removal
JP4236726B2 (ja) 音声活動検出方法及び音声活動検出装置
US5727072A (en) Use of noise segmentation for noise cancellation
EP1065657B1 (en) Method for detecting a noise domain
KR100307065B1 (ko) 음성검출장치
US5970441A (en) Detection of periodicity information from an audio signal
EP1887559B1 (en) Yule walker based low-complexity voice activity detector in noise suppression systems
EP3252771A1 (en) A method and an apparatus for performing a voice activity detection
EP1751740B1 (en) System and method for babble noise detection
CA2485644A1 (en) Voice activity detection
SE501305C2 (sv) Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler
JPH0431898A (ja) 音声雑音分離装置
JP3355473B2 (ja) 音声検出方法
KR20020082643A (ko) 고속 푸우리에 변환(fft) 및 역고속 푸우리에변환(ifft)을 이용한 송,수신기의 동기검출장치
KR200237439Y1 (ko) 고속 푸우리에 변환(fft) 및 역고속 푸우리에변환(ifft)을 이용한 송,수신기의 동기검출장치
KR100881355B1 (ko) 다중 누화 잡음 검출 시스템 및 방법
JPH04251299A (ja) 音声区間検出方法
JPH07129196A (ja) 音声波形切出し装置、音声波形成形装置および音声合成装置
NZ286953A (en) Speech encoder/decoder: discriminating between speech and background sound

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20070313

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee