KR20100017279A - 향상된 음성 액티비티 검출기 - Google Patents
향상된 음성 액티비티 검출기 Download PDFInfo
- Publication number
- KR20100017279A KR20100017279A KR1020097024380A KR20097024380A KR20100017279A KR 20100017279 A KR20100017279 A KR 20100017279A KR 1020097024380 A KR1020097024380 A KR 1020097024380A KR 20097024380 A KR20097024380 A KR 20097024380A KR 20100017279 A KR20100017279 A KR 20100017279A
- Authority
- KR
- South Korea
- Prior art keywords
- vad
- detector
- music
- activity
- prim
- Prior art date
Links
- 230000000694 effects Effects 0.000 title claims abstract description 110
- 206010019133 Hangover Diseases 0.000 claims description 23
- 235000011389 fruit/vegetable juice Nutrition 0.000 claims description 23
- 239000013078 crystal Substances 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 14
- 238000000034 method Methods 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 2
- 238000007792 addition Methods 0.000 description 15
- 230000006870 function Effects 0.000 description 6
- 230000035945 sensitivity Effects 0.000 description 6
- 230000006978 adaptation Effects 0.000 description 5
- 101150059859 VAD1 gene Proteins 0.000 description 4
- 230000006403 short-term memory Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005240 physical vapour deposition Methods 0.000 description 2
- RNAMYOYQYRYFQY-UHFFFAOYSA-N 2-(4,4-difluoropiperidin-1-yl)-6-methoxy-n-(1-propan-2-ylpiperidin-4-yl)-7-(3-pyrrolidin-1-ylpropoxy)quinazolin-4-amine Chemical compound N1=C(N2CCC(F)(F)CC2)N=C2C=C(OCCCN3CCCC3)C(OC)=CC2=C1NC1CCN(C(C)C)CC1 RNAMYOYQYRYFQY-UHFFFAOYSA-N 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Telephonic Communication Services (AREA)
Abstract
본 발명은 적어도 제1 주음성 검출기(23, 33a)를 포함하는 음성 액티비티 검출기(VAD)(20; 30)에 관한 것이다. 음성 액티비티 검출기(20; 30)는 상기 제1 주음성 검출기(23; 33a)에 의해 생성된 적어도 주스피치 결정 "vad_prim_A"에 기초하여 입력 신호 내의 스피치의 존재를 나타내는 스피치 결정 "vad_flag"를 출력하도록 구성된다. 음성 액티비티 검출기(20; 30)는 단기 액티비티 검출기(26; 36)를 더 포함하며 음성 액티비티 검출기(20; 30)는 제1 주음성 검출기(23, 33a)에 의해 생성된 주스피치 결정 "vad_prim_A"에 기초하여 상기 단기 액티비티 검출기(26; 36)에 의해 생성된 단기 주액티비티 신호 "vad_act_prim_A"에 기초하여 입력 신호 내에서의 음악의 존재를 나타내는 음악 결정 "vad_music"를 생성하도록 더 구성된다. 단기 주액티비티 신호 "vad_act_prim_A"는 입력 신호 내의 음악의 존재에 비례한다. 본 발명은 또한 VAD 등을 포함하는 통신 시스템 내의 노드(예를 들어, 터미널)에 관한 것이다.
VAD, 제1 주음성 검출기, 음성 액티비티 검출기, 음성 결정, 단기 주액티비티 신호
Description
본 발명은 배경 노이즈 업데이트 및 행오버 추가(hangover addition)를 포함하는 음악 조건들에 대한 향상된 VAD(Voice Activity Detector)에 관한 것이다. 본 발명은 또한 향상된 VAD를 포함하는 시스템에 관한 것이다.
대화 스피치를 위해 이용되는 스피치 코딩 시스템들에서는 인코딩의 효율을 증가(비트 레이트를 감소)시키기 위하여 불연속 송신(DTX)를 사용하는 것이 통상적이다. 그 이유는 대화 스피치는 스피치 내에 임베드된(embedded) 많은 양의 중단들(pauses)을 포함하기 때문이다(예를 들어, 한 사람이 이야기하는 동안 다른 사람은 듣는 경우). 따라서 불연속 송신(DTX)을 이용하여 스피치 인코더는 평균적으로 시간의 약 50 퍼센트에 대하여만 기동되고 나머지는 컴포트 노이즈(comfort noise)를 이용하여 인코딩된다. DTX 모드에서 사용될 수 있는 코덱의 일 예는 참조문헌 [1]에 기술된 AMR 코덱이다.
중요 품질 DTX 동작을 위하여(즉, 스피치 품질이 열화되지 않음), VAD(Voice Activity Detector)에 의해 행해지는 입력 신호 내의 스피치의 주기들을 검출하는 것이 중요하다. 리치 미디어(rich media)의 사용이 증가함에 따라, VAD가 음악 신호들을 검출하여, 이들이 컴포터 노이즈에 의해 대체되지 않는 것도 중요한데, 그 이유는 최종 사용자(end user)에게 부정적인 영향을 미칠 수 있기 때문이다. 도 1은 입력으로서 입력 신호(구현에 따라 10-30ms의 데이터 프레임들로 분할됨)를 취하고 출력으로서 VAD 결정들(decisions)(각각의 프레임에 대하여 하나의 결정)을 생성하는, 종래기술에 따른 일반화된 VAD의 개략적인 블럭도를 도시한다.
도 1은, 피쳐 추출기(feature extractor, 11), 배경 추정기(background estimator, 12), 주음성 검출기(primary voice detector, 13), 행오버 추가 블럭(14), 및 동작 제어기(15)를 포함하는 일반화된 종래 기술 VAD(10)의 주요 기능들을 예시한다. 상이한 VAD는 배경의 추정(estimation)을 위하여 상이한 피쳐들 및 전략들(strategies)을 이용하지만, 기본 동작은 여전히 동일하다.
주결정(primary decision) "vad_prim"은 주음성 검출기(13)에 의해 이루어지며 기본적으로는 단지 현재의 프레임(피쳐 추출기(11)에서 추출됨)에 대한 피쳐와, 배경 피쳐(background feature)(배경 추정기(12)에서 이전 입력 프레임들로부터 추정됨)의 비교이다. 임계값보다 큰 차(difference)는 액티브 주결정(active primary decision) "vad_prim"을 유발시킨다. 행오버 추가 블럭(14)은 최종 결정 "vad_flag"을 형성하기 위하여 과거의 주결정들에 기초하여 주결정을 연장하기 위해 이용된다. 이것은 주로 스피치 버스트들의 백 엔드 클리핑(back end clipping) 및 미드 스피치(mid speech)의 위험을 감소/제거하기 위해 행해진다. 그러나, 이는 참조문헌들 [1], [2] 및 [3]에 기술된 바와 같이, 음악 악절들(music passages)에서의 클리핑을 회피하기 위하여도 이용된다. 도 1에 나타낸 바와 같이, 동작 제어기(15)는 입력 신호의 특성들에 따라 주검출기(13)에 대한 임계값 및 행오버 추 가의 길이를 조정할 수 있다.
도 1에 나타낸 바와 같이, VAD(10)의 다른 중요한 기능 부분은 배경 추정기(12)에서의 배경 피쳐의 추정이다. 이것은 주결정 "vad_prim"을 이용하는 것(즉, 결정 피드백 있음)에 의하거나, 또는 입력 신호의 소정의 다른 특징들을 이용하는 것(즉, 결정 피드백 없음)에 의한, 기본적으로 상이한 두 원칙들에 의해 행해질 수 있다. 어느 정도는 두 원칙들을 결합하는 것도 가능하다.
이하에 상이한 VAD들 및 관련된 문제에 대하여 간략히 설명한다.
AMR
VAD1
AMR VAD1은 참조문헌 [1] TS26.094에 기술되어 있고, 변형은 참조문헌 [2]에 기술되어 있다.
기본 동작의 개요(보다 상세한 사항들은 참조문헌 [1] 참조)
피쳐: 서브밴드 SNR들의 합산(summing)
배경: 이전의 결정들에 기초한 배경 추정 적응
제어: 입력 노이즈 레벨에 기초한 임계값 적응
기타: 정상성(stationarity) 추정에 기초한 노이즈 레벨의 스텝 증가들에 대한 데드록 리커버리(deadlock recovery) 분석. 음악/복잡한(complex) 신호들을 검출하고 이러한 신호들에 대한 연장된 행오버를 허용하기 위한 고주파 상관(high frequency correlation).
이 솔루션의 주요 문제는 일부 복잡한 배경들(예를 들어, 떠듬거리는 말(babble) 및 특히 높은 입력 레벨들에 대하여)이 상당한 양의 과잉 액티비티를 유발시키는 것이다. 그 결과는 DTX 효율 이득, 및 연관된 시스템 성능이 떨어지는 것이다.
배경 추정에 대한 결정 피드백을 이용하는 것은 또한 검출기 감도를 변경시키는 것을 어렵게 한다. 왜냐하면, 감도의 작은 변경들조차도 배경 추정에 영향을 미쳐서 장래의 액티비티 결정들에 큰 영향을 미칠 수 있을 것이기 때문이다. 그것은 레벨 감도(level sensitivity)를 유발하는 입력 노이즈 레벨에 기초한 임계값 적응이지만, 이 적응을 유지하는 것이 바람직한데, 그 이유는 낮은 SNR 고정(stationary) 노이즈에서 스피치를 검출하기 위한 성능을 향상시키기 때문이다.
이 솔루션은 또한 대부분의 경우들에 대하여 작동하는 음악 검출기(music detector)를 포함하지만, 이 검출기가 놓친 음악 세그먼트들은 디코드된(음악) 신호의 주관적 품질(subjective quality)의 큰 저하를 유발시키는 것(즉, 세그먼트들이 컴포트 노이즈로 대체됨)이 확인되었다.
EVRC
VAD
EVRC VAD는 EVRC RDA로서 참조문헌들 [4] 및 [5]에 기술되어 있다.
이용된 주요 기술들은 다음과 같다.
피쳐: 스플릿 밴드 분석,(최악의 경우에 밴드는 가변 레이트 스피치 코덱에서의 레이트 선택에 이용됨).
배경: 입력 레벨로의 순간적인 강하에 따른, 결정에 기초한 증가(decision based increase).
제어: 적응적 노이즈 행오버 추가 원칙이 이용되어 주검출기 착오들을 감소 시킨다. Hong 등은 참조문헌 [6]에서 노이즈 행오버 적응을 설명한다.
기존의 스플릿 밴드 솔루션 EVRC VAD는 이따금씩 스피치 검출의 신뢰도를 떨어뜨리는 잘못된 결정들(bad decisions)을 가지며 음악을 검출하는 신뢰도에 영향을 미치는 너무 낮은 주파수 해상도(frequency resolution)를 보여준다.
Freeman
/
Barret
에 의한 음성
액티비티
검출
Freeman(참조문헌 [7] 참조)은 독립적인 노이즈 스펙트럼 추정을 갖는 VAD 검출기를 개시한다.
Barrett(참조문헌 [8] 참조)은 톤(tone)들을 시그널링하는 것에 있어서 과실로 낮은 주파수의 자동차 노이즈를 특징지우지 않는 톤 검출 메커니즘을 개시한다.
Freeman/Barret에 기초한 기존의 솔루션들은 때때로 너무 낮은 감도를 보인다(예를 들어, 배경 음악에 대하여).
AMR
VAD2
AMR VAD2는 참조문헌 [1]의 TS26.094에 기술되어 있다.
기술:
피쳐: FFT 기초의 서브밴드 SNR 검출기의 합산
배경: 이전 결정들에 기초한 배경 추정 적응
제어: 입력 신호 레벨 및 적응적 노이즈 행오버에 기초한 임계값 적응
이 솔루션은 AMR VAD1과 유사하므로 동일한 유형의 문제들을 공유한다.
발명의 개요
본 발명의 목적은 종래기술의 음성 액티비티 검출기들에 비하여 향상된 음악 조건 검출 성능을 갖는 음성 액티비티 검출기를 제공하는 것이다.
이 목적은 적어도 제1 주음성 검출기 및 단기(short term) 액티비티 검출기를 포함하는 음성 액티비티 검출기에 의해 달성된다. 제1 주음성 검출기는 입력 신호에서 스피치의 존재를 나타내는 신호를 생성하도록 구성되고, 단기 액티비티 검출기는 제1 주음성 검출기에 의해 생성된 신호에 기초하여 입력 신호에서 음악의 존재를 나타내는 신호를 생성하도록 구성된다.
본 발명의 장점은 스피치 클리핑(speech clipping)의 위험성이 종래기술의 음성 액티비티 검출기들에 비하여 감소되는 것이다.
본 발명의 다른 장점은 종래기술의 음성 액티비트 검출기들에 비하여 배블 노이즈 입력(babble noise input), 및 자동차 노이즈 입력에 대한 액티비티에서의 큰 향상이 달성되는 것이다.
상세한 설명부로부터 당업자는 또 다른 목적들 및 장점들을 발견할 수 있다.
본 발명은 비제한적인 예들로서 제공되는 다음의 도면들과 함께 설명될 것이다.
도 1은 일반화된 종래기술의 VAD를 도시하는 도면.
도 2는 본 발명에 따른 하나의 주음성 검출기 및 단기 음성 액티비티 검출기를 갖는 VAD의 제1 실시예를 도시하는 도면.
도 3은 본 발명에 따른 두 개의 주음성 검출기들 및 단기 음성 액티비티 검 출기를 갖는 VAD의 제2 실시예를 도시하는 도면.
도 4는 도 3의 VAD에 대한 주결정들(primary decisions)의 비교를 도시하는 도면.
도 5는 본 발명에 따른 VAD를 포함하는 스피치 코더를 도시하는 도면.
도 6은 본 발명에 따른 VAD를 포함하는 터미널을 도시하는 도면.
약어
본 발명의 기본 개념은 주음성 검출기의 결정들의 단기 액티비티 측정 형태의 새로운 피쳐(feature)를 도입하는 것이다. 이 피쳐는 도 2와 함께 설명된 입력 신호들과 같은 음악의 신뢰성 있는 검출을 위하여 단독으로 이용될 수 있다.
도 2는 피쳐 추출기(feature extractor, 21), 배경 추정기(background estimator, 22), 하나의 주음성 검출기(primary voice detector, PVD)(23), 행오버 추가 블럭(hangover addition block, 24), 및 동작 제어기(25) 등의, 도 1과 함께 설명된 VAD에서와 유사한 기능 블럭들을 포함하는 VAD(20)의 제1 실시예를 도시한다. VAD(20)는 단기 음성 액티비티 검출기(short term voice activity detector, 26) 및 음악 검출기(27)를 더 포함한다.
입력 신호는 피쳐 추출기(21)에서 수신되고, 현재 프레임(피쳐 추출기(21)에서 추출됨)에 대한 피쳐와 배경 피쳐(배경 추정기(22) 내의 이전 입력 프레임들로부터 추정됨)를 비교함으로써 PVD(23)에 의해 주결정 "vad_prim_A"이 만들어진다. 임계값보다 큰 차는 액티브 주결정 "vad_prim_A"를 유발시킨다. 과거의 주결정들에 기초해서 주결정을 연장하여 최종 결정 "vad_flag"을 형성하기 위하여 행오버 추가 블럭(24)이 이용된다. 단기 음성 액티비티 검출기(26)는 PVD(23)에 의해 생성된 주스피치 결정(primary speech decision)에 기초하여 입력 신호 내의 음악의 존재에 비례하는 단기 주액티비티 신호 "vad_act_prim_A"를 생성하도록 구성된다.
주음성 검출기(23)에는 "k"개의 이전 주스피치 결정들 "vad_prim_A"가 저장되어 있는 단기 메모리가 제공된다. 단기 액티비티 검출기(26)에는 현재 주스피치 결정과 메모리의 내용에 기초하여 단기 주액티비티 신호를 계산하도록 구성된 계산 장치가 제공된다.
여기에서 vad_act_prim_A는 단기 주액티비티 신호이고, 는 메모리 및 현재 주스피치 결정 내의 액티브 결정들의 수이며, k는 메모리에 저장된 이전 주스피치 결정들의 수이다.
단기 음성 액티비티 검출기에는 바람직하게는 신호를 더 평활화하기 위한 로우패스 필터가 제공되어, 로우패스 필터링된 단기 주액티비티 신호 "vad_act_prim_A_lp"가 생성된다. 음악 검출기(27)는, 단기 주액티비티 신호에 임계값을 적용함으로써, 로우패스 필터링되거나 그렇지 않을 수 있는 단기 주액티비티 신호 "vad_act_prim_A"에 기초하여 입력 신호에서 음악의 존재를 나타내는 음악 결정 "vad_music"을 생성하도록 구성된다.
도 2에서, "vad_music"은, 입력 신호에서 음악을 검출하여 VAD를 더 향상시키는 행오버 추가 블럭(24), 및 배경 추정에 대한 업데이트 속도(또는 스텝 사이즈)에 영향을 미치는 배경 추정기(22) 양자에 제공된다. 그러나, "vad_music"은 행오버 추가 블럭(22)에서의 음악 검출을 향상시키거나 배경 추정기(24)에서의 배경 추정을 향상시키기 위하여만 이용될 수 있다.
본 발명의 피쳐는 또한, 시스템이 도 3과 함께 설명된 바와 같이, 하나는 적극적(aggressive)이고 다른 하나는 감도가 좋은(sensitive) 두 개의 주음성 액티비티 검출기들을 구비하는 경우, 연장될 수 있다. 양자의 주VAD들이 새로운 단기 액티비티 피쳐를 구비하면 둘 사이의 단기 주액티비티의 큰 차는 배경 노이즈 업데이 트시 주의가 필요한 것을 나타내는 경고로서 이용될 수 있다. 예를 들어 배블(babble) 등의 복잡한 배경들에 의해 유발된 과도한 액티비티의 감소를 발생시킬 음성 액티비티 결정을 만들기 위하여는 적극적 주VAD만 이용되어야 하는 것을 주의한다.
도 3은 피쳐 추출기(31), 배경 추정기(32), 제1 주음성 검출기(PVD)(33a), 행오버 추가 블럭(34), 동작 제어기(35), 단기 음성 액티비티 검출기(36) 및 음악 검출기(37) 등의, 도 2와 함께 설명된 VAD에서와 유사한 기능 블럭들을 포함하는 VAD(30)의 제2 실시예를 도시한다. VAD(20)는 제2 PVD(33b)를 더 포함한다. 제1 PVD는 적극적이며 제2 PVD는 감도가 좋다.
두 개의 주음성 검출기들에 대하여 완전히 상이한 기술들을 이용하는 것이 가능하지만, 복잡도의 관점에서는, 단지 하나의 기본 주음성 검출기만을 사용하여 그것으로 하여금 상이한 동작 포인트들에서 동작하게 하는 것이 더 합리적이다(예를 들어, 동일 출원인에게 양도된 동시계속 국제특허출원 PCT/SE2007/000118에 개시된 두 개의 상이한 임계값들 또는 두 개의 상이한 유의 임계값들(significance thresholds), 참조문헌 [11] 참조). 이것은 또한 감도가 좋은 검출기가 항상 적극적 검출기보다 더 높은 액티비티를 생성하고 도 4에 예시된 바와 같이 "vad_prim_A"는 "vad_prim_B"의 서브세트인 것을 보장한다.
입력 신호는 피쳐 추출기(31)에서 수신되며 주결정들 "vad_prim_A" 및 "vad_prim_B"는, 각각 현재 프레임에 대한 피쳐(피쳐 추출기(31)에서 추출됨)와 배경 피쳐(배경 추정기(32)에서 이전 입력 프레임들로부터 추정됨)를 비교함으로써, 제1 PVD(33a) 및 제2 PVD(33b)에 의해 만들어진다. 제1 PVD와 제2 PVD에서의 임계값보다 더 큰 차는, 제1 PVD(33a) 및 제2 PVD(33b)로부터 각각 액티브 주결정들 "vad_prim_A" 및 "vad_prim_B"를 발생시킨다. 제1 PVD(33a)에 의해 만들어진 과거의 주결정들에 기초하여 주결정 "vad_prim_A"를 연장하여 최종 결정 "vad_flag"을 형성하기 위해 행오버 추가 블럭(34)이 이용된다.
단기 음성 액티비티 검출기(36)는 제1 PVD(33a)에 의해 생성된 주스피치 결정에 기초하여 입력 신호에서 음악의 존재에 비례하는 단기 주액티비티 신호 "vad_act_prim_A"를 생성하고, 제2 PVD(33a)에 의해 생성된 주스피치 결정에 기초하여 입력 신호에서 음악의 존재에 비례하는 추가적인 단기 주액티비티 신호 "vad_act_prim_B"를 생성하도록 구성된다.
제1 PVD(33a) 및 제2 PVD(33b)에는 각각 단기 메모리가 제공되며, 여기에는 "k"개의 이전 주스피치 결정들 "vad_prim_A" 및 "vad_prim_B"이 각각 저장되어 있다. 단기 액티비티 검출기(36)에는 제1 PVD(33a)의 현재 주스피치 결정 및 메모리의 내용에 기초하여 단기 주액티비티 신호 "vad_act_prim_A"를 계산하도록 구성된 계산 장치가 제공된다. 음악 검출기(37)는 단기 주액티비티 신호에 임계값을 적용함으로써, 로우패스 필터링되거나 그렇지 않을 수 있는, 단기 주액티비티 신호 "vad_act_prim_A"에 기초하여 입력 신호 내의 음악의 존재를 나타내는 음악 결정 "vad_music"을 생성하도록 구성된다. 도 3에서, "vad_music"은 입력 신호 내에 음악을 검출함으로써 VAD를 더 향상시키기 위한 행오버 추가 블럭(34), 및 배경 추정을 위하여 업데이트 속도(또는 스텝 사이즈)에 영향을 미치는 배경 추정기(32) 양 자에 제공된다. 그러나, "vad_music"은 행오버 추가 블럭(32)에서의 음악 검출을 향상시키기 위하여만 또는 배경 추정기(34)에서의 배경 추정을 향상시키기 위하여만 이용될 수 있다.
단기 메모리들(vad_prim_A를 위한 것과 vad_prim_B를 위한 것)은 "k"개의 이전 PVD 결정들을 추적하고 현재 프레임에 대한 vad_prim_A의 단기 액티비티가 다음과 같이 계산되게 한다:
여기에서 vad_act_prim_A는 단기 주액티비티 신호이고, 는 메모리 및 현재 주스피치 결정 내의 액티브 결정들의 수이며, k는 메모리에 저장된 이전의 주스피치 결정들의 수이다.
신호를 더 평활화하기 위하여 간단한 AR 필터가 이용되는데,
vad_act_prim_B 및 vad_act_prim_B_lp의 계산들은 유사한 방식으로 수행된다.
단기 음성 액티비티 검출기(36)는 제1 주검출기(33a) 및 제2 주검출기(33b)의 액티비티의 차에 기초하여 차 신호 "vad_act_prim_diff_lp"를 생성하도록 더 구성되고, 배경 추정기(32)는 단기 액티비티 검출기(36)로부터의 차 신호 "vad_act_prim_diff_lp" 및 제1 음성 검출기(33a)로부터의 주스피치 결정들 "vad_prim_A"의 피드백에 기초하여 배경을 추정하도록 구성된다. 이 변수들을 이용하여 아래와 같이 두 개의 주검출기들에 대한 액티비티의 차의 추정을 계산하는 것이 가능하다:
결과는 두 개의 새로운 피쳐들이다:
vad_act_prim_A_lp 적극적 VAD의 단기 액티비티
vad_act_pirm_diff_lp 두 VAD들의 액티비티의 차
이 피쳐들은 그 후 다음을 위하여 이용된다:
ㆍ음악 행오버 추가를 기동시키는 신뢰성 있는 음악 검출.
ㆍ배블 및 다른 비고정(non-stationary) 배경들에서의 과도한 액티비티의 양을 감소시키기 위하여 이용되는 적극적 VAD를 이용할 때 더욱 신뢰성 있는 동작을 허용하는 향상된 노이즈 업데이트(특히 향상된 노이즈 업데이트는 음악 조건들에 대하여 덜 적극적일 수 있음).
도 4는 제1 PVD(33a)와 제2 PVD(33b)에 대한 주결정들의 비교를 도시한다. 각각의 PVD에 대하여, 입력 신호의 각각의 프레임에 대해 주결정 "vad_prim_A" 및 "vad_prim_B"이 각각 만들어진다. 각각 현재의 프레임 "N"의 주결정 및 이전의 "k" 개의 주결정들을 포함하는 각각의 PVD에 대한 단기 메모리가 예시된다. 비제한적인 예로서, "k"는 31이 되도록 선택된다.
신뢰성 있는 음악
행오버
추가를 위한 음악 검출의 예
이 예는, 참조문헌 [1]에 기술된 바와 같이, VAD의 적극성을 조정하기 위하여 유의 임계값들을 이용하는 연장(extension)을 갖는 AMR-NB VAD에 기초한다.
스피치는 음절들(syllables)에 결합되는 유성 스피치("a", "o" 등의 모음들) 및 무성 스피치("s" 등의 자음들)의 혼합으로 구성된다. 따라서, 연속적인 스피치가, 무성음 세그먼트들에 비해 유성음 세그먼트들을 훨씬 더 쉽게 검출하는, 주음성 액티비티 검출기에서의 높은 단기 액티비티를 유발시킬 가능성은 매우 적다.
이 경우에 음악 검출은 단기 주액티비티에 임계값을 적용함으로써 달성된다.
음악 검출에 대한 임계값은 스피치를 음악으로 잘못 분류하지 않을 정도로 충분히 높아야 하며, 이용된 주검출기에 따라 튜닝되어야 한다. 피쳐를 평활화하기 위하여 이용된 로우패스 필터 또한 원하는 결과에 따라 튜닝이 필요할 수 있는 것을 주의한다.
향상된 배경
노이즈
업데이트의
예
배경 노이즈 레벨을 업데이트하기 위해 결정 피드백을 이용하는 VAD에 대하여 적극적 VAD를 이용하는 것은 원하지 않는 노이즈 업데이트를 발생시킬 수 있다. 이 효과는 새로운 피쳐 vad_act_prim_lp를 이용하여 감소될 수 있다.
그 피쳐는 적극적 및 감도가 좋은 주음성 검출기들(PVD들)의 단기 액티비티 의 차를 비교하고 배경 노이즈 업데이트를 중지시키기 위해 필요할 수 있는 때를 나타내기 위해 임계값의 사용을 가능하게 한다.
여기에서 임계값은 노이즈 업데이트의 동작 포인트를 제어하며, 이를 0으로 설정하는 것은 감도가 좋은 PVD만의 경우 달성될 수 있는 것과 유사한 노이즈 업데이트 특성을 발생시킬 것이다. 반면 큰 값들은 적극적 PVD만 이용되는 경우 달성되는 것과 유사한 노이즈 업데이트 특성을 발생시킬 것이다. 따라서, 원하는 성능과 이용된 PVD들에 따라 튜닝되어야 한다.
단기 액티비티에서의 차를 이용하는 이 절차는, 특히 음악 입력 신호 조건들에 대한 VAD 배경 노이즈 업데이트를 향상시킨다.
본 발명은 다음의 변경들에 의해, 참조문헌 [9]에 기술된 AMR NB TS 26.073 ver 7.0.0에 대한 소스 코드를 수정함으로써, C-코드로 구현될 수 있다.
파일 "
vad1
.h"에서의 변경들
라인 32에서 다음의 라인들을 추가:
라인 77에서 다음의 라인들을 추가:
파일 "
vad1
.c"에서의 변경들
아래에 지시된 바와 같이 라인 435-442 수정:
아래에 지시된 바와 같이 라인 521-544 수정:
라인 645에서 다음의 라인들 추가:
다음에 지시된 바와 같이 라인들 678-687을 수정:
다음에 지시된 바와 같이 라인들 710-710 수정:
아래에 지시된 바와 같이 라인들 721-732 수정:
라인 754에서 다음의 라인들 추가:
라인 762에서 다음의 라인들 추가:
아래에 지시된 바대로 라인들 763-772 수정:
아래에 지시된 바대로 라인 853 수정:
파일 "
cod
_
amr
.c"에서의 변경들
라인 375에서 다음의 라인들 추가
파일 "
dtx
_
enc
.h"에서의 변경들
라인 37에서 다음의 라인들 추가
라인 54에서 다음의 라인들 추가:
라인 139에서 다음의 라인들 추가:
파일 "
dtx
_
enc
.c"에서의 변경들
라인 119에서 다음의 라인들 추가:
라인 339에서 다음의 라인들 추가:
라인 348에서 다음의 라인들 추가:
아래에 지시된 바대로 라인들 355-367 수정:
라인 372에서 다음의 라인들 추가:
수정된 C-코드는 위에서 정의된 변수들에 관하여 다음의 명칭들을 이용한다.
여기에서 최적으로 작용하는 것으로 밝혀진 것은 다음과 같다:
코더에 대한 주프로그램은 coder.c 내에 위치되어 amr_enc.c 내의 cod_amr을 호출하고 이것은 이어서 C-코드에서 가장 관련된 함수들을 포함하는 vad1을 호출한다.
vad1은 vad1.c에서 정의되며 이것은 또한 (직접적으로 또는 간접적으로) 다음을 호출한다:
vad1.c에 모두 정의된 vad_decision, complex_vad, noise_estimate_update, 및 complex_estimate_update.
cnst_vad.h는 소정의 VAD 관련 상수들을 포함한다.
vad1.h는 vad1.c에 정의된 함수들에 대한 프로토타입들을 정의한다.
단기 액티비티 피쳐들의 계산 및 업데이팅은 vad1.c 내의 함수 complex_estimate_adapt에서 만들어진다.
C-코드에서는 향상된 음악 검출기가 이용되어 복잡한 행오버 추가의 추가를 제어하는데, 이는 충분한 수의 연속 프레임들이 액티브 음악 검출기(Music_detect=1)를 가지면 인에이블된다. 세부적으로는 함수 hangover_addition 참조.
C-코드에서는 수정된 배경 업데이트가 주액티비티에서의 충분히 큰 차들이 함수 noise_estimate_update 내의 st->complex_warning 변수를 통해 노이즈 업데이트에 영향을 미치게 한다.
이 결과들은 결합된 솔루션들(향상된 음악 검출기 및 수정된 배경 노이즈 업데이트)의 이득만을 보여주는 것이지만, 분리된 솔루션들로부터 큰 이득들이 획득될 수 있다.
상기 결과의 요약은 표 1에서 발견될 수 있는데, 여기에서 VADR은 AMR VAD1[1]과 동등하다. VADL은 유의 임계값[2.6] 및 액티비티차 임계값[0.22]을 갖는 최적화된/평가된 VAD이다. 또한 약어들 DSM 및 MSIN은 코딩 전에 입력 신호에 적용되는 필터들이며 이들은 ITU G.191[10]에 정의되어 있다.
결과들은 소정의 상이한 입력 신호들에 대하여 상이한 코덱의 성능을 보여준다. 결과들은 DTX 액티비티의 형태로 도시되며, 이것은 스피치 코딩된 프레임들의 양이다(그러나 이것은 DTX 행오버 시스템에 의해 추가된 액티비티도 포함하며, 세부적으로는 [1] 및 거기에서의 참조문헌들을 참조바람). 표의 상부는 상이한 양의 백색 배경 노이즈(white background noise)를 갖는 스피치에 대한 결과들을 보여준다. 이 경우, VADL은 명료한 스피치의 경우(노이즈가 추가되지 않음)에만 약간 더 높은 액티비티를 보여주며, 이것은 스피치 클리핑(speech clipping)의 위험성을 감소시킬 것이다. 증가하는 백색 배경 노이즈의 양에 대하여, VADL 효율은 점차 향상된다.
표의 하부는 두 유형들의 신호 입력 필터들 셋업들(DSM-MSIN 및 MSIN)에 대하여, 상이한 유형들의 순수한 음악 및 노이즈 입력들에 대한 결과들을 보여준다. 음악 입력들에 대하여, 대부분의 경우들은 액티비티의 증가를 나타내는데 이것은 또한 컴포트 노이즈로 음악을 대체하는 것의 위험성이 감소된 것을 나타낸다. 순수한 배경 노이즈 입력들의 경우, 액티비티의 큰 향상이 있는데, 그 이유는 효율의 관점에서 배블 및 자동차 배경 노이즈들의 대부분을 컴포트 노이즈로 대체하는 것이 바람직하기 때문이다. 배경 노이즈들(배블/자동차)에 대하여 효율이 증가되더라도 VADL의 음악 검출 성능은 유지되는 것을 보는 것도 흥미롭다.
도 5는 본 발명에 따라 바람직하게 설계된 음성 액티비티 검출기 VAD(51), 및 DTX/CN(Discontinuous Transmission/Comfort Noise)을 포함하는 스피치 코더(52)를 포함하는 완전한 인코딩 시스템(50)을 도시한다. 도 5는 간략화된 스피치 코더(52)를 도시하며, 세부 설명은 참조문헌 [1] 및 [12]에서 발견될 수 있다. VAD(51)는 입력 신호를 수신하고 결정 "vad_flag"을 생성한다. 스피치 코더(52)는 VAD(51)로부터 수신된 "vad_flag"에 7개의 여분의 프레임들을 추가할 수 있는 DTX 행오버 모듈(53)을 포함한다(세부사항들은 참조문헌[12] 참조). "vad_DTX"="1"이면 음성이 검출되며, "vad_DTX"="0"이면 음성이 검출되지 않는다. "vad_DTX" 결정은 스위치(54)를 제어하는데, 이것은 "vad_DTX"가 "0"이면 위치 0에 설정되고 "vad_DTX"가 "1"이면 위치 1에 설정된다.
"vad_flag"는 입력 신호에서 가장 최근의 일곱 프레임들을 추적하는 CNB(comfort noise buffer, 56)에 보내진다. 이 정보는 비음성(non-voiced) 및 비음악(non-music) 프레임들 동안 컴포트 노이즈를 생성하기 위해 "vad_DTX"도 수신하는 CNC(comfort noise coder, 57)에 보내진다(세부사항들은 참조문헌[1] 참조). CNC는 스위치(54)의 위치 0에 접속된다.
도 6은 본 발명에 따른 사용자 터미널(60)을 도시한다. 터미널은 아날로그 신호를 디지털 신호로 변환하는 A/D 장치(62)에 연결된 마이크로폰(61)을 포함한다. 디지털 신호는, 도 5와 연계하여 설명된 바대로, 스피치 코더(63) 및 VAD(64)에 제공된다. 스피치 코더로부터의 신호는 송신기 TX 및 듀플렉스 필터 DPLX를 경유하여 안테나 ANT에 전달되고, 그곳으로부터 송신된다. 안테나 ANT에서 수신된 신호는 듀플렉스 필터 DPLX를 경유하여 수신 브랜치 RX로 전달된다. 수신시 수신된 스피치에 대하여 수신 브랜치 RX의 알려진 동작들이 수행되며, 스피커(65)를 통해 반복된다.
참조문헌들
Claims (15)
- 적어도 제1 주음성 검출기를 포함하며, 상기 제1 주음성 검출기에 의해 생성된 적어도 주스피치 결정 "vad_prim_A"에 기초하여 입력 신호 내에서의 스피치의 존재를 나타내는 스피치 결정 "vad_flag"을 출력하도록 구성되는 음성 액티비티 검출기로서,상기 음성 액티비티 검출기는 단기 액티비티 검출기를 더 포함하고, 상기 음성 액티비티 검출기는 상기 제1 음성 검출기에 의해 생성된 상기 주스피치 결정 "vad_prim_A"에 기초하여 상기 단기 액티비티 검출기에 의해 생성된 단기 주액티비티 신호 "vad_act_prim_A"에 기초하여 상기 입력 신호 내에서의 음악의 존재를 나타내는 음악 결정 "vad_music"을 생성하도록 더 구성되며, 상기 단기 주액티비티 신호 "vad_act_prim_A"는 상기 입력 신호 내의 음악의 존재에 비례하는 것을 특징으로 하는 음성 액티비티 검출기.
- 제1항에 있어서, 상기 음성 액티비티 검출기는 상기 단기 주액티비티 신호 "vad_act_prim_A"에 임계값을 적용하여 상기 음악 결정 "vad_music"을 생성하도록 구성된 음악 검출기를 더 포함하는 음성 액티비티 검출기.
- 제1항 또는 제2항에 있어서, 상기 제1 주음성 검출기는 이전 주스피치 결정들 "vad_prim_A"이 저장되어 있는 메모리를 구비하고, 상기 단기 액티비티 검출기 는 상기 메모리의 내용 및 현재의 주스피치 결정에 기초하여 상기 단기 주액티비티 신호 "vad_act_prim_A"를 계산하도록 구성된 계산 장치를 구비하는 음성 액티비티 검출기.
- 제3항 또는 제4항에 있어서, 상기 단기 액티비티 검출기는 상기 단기 주액티비티 신호를 평활화하기 위한 필터를 더 구비하는 음성 액티비티 검출기.
- 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 스피치 결정 "vad_flag"을 생성하도록 구성된 행오버 추가 블럭을 더 포함하며, 상기 스피치 결정은 상기 행오버 추가 블럭에 제공되는 상기 음악 결정 "vad_music"에 더 기초하는 음성 액티비티 검출기.
- 제1항 내지 제6항 중 어느 한 항에 있어서, 적어도 상기 제1 주음성 검출기에 배경 피쳐를 제공하도록 구성된 배경 추정기를 더 포함하며, 상기 음악 결정 "vad_music"은 상기 배경 추정기에 제공되고 배경 피쳐의 업데이트 속도/스텝 사이즈는 상기 음악 결정 "vad_music"에 기초하는 음성 액티비티 검출기.
- 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 음성 액티비티 검출기는 상기 제1 주음성 검출기에 의해 생성된 상기 주스피치 결정 "vad_prim_A"와 유사한 입력 신호 내의 스피치의 존재를 나타내는 추가적인 주스피치 결정 "vad_prim_B"를 생성하도록 구성되고, 상기 제1 주음성 검출기보다 더 감도가 좋은 제2 주음성 검출기를 더 포함하고, 상기 단기 액티비티 검출기는 상기 제1 주검출기 및 상기 제2 주검출기의 액티비티의 차에 기초하여 차 신호 "vad_act_prim_diff_lp"를 생성하도록 구성되며, 상기 음성 액티비티 검출기는 상기 단기 액티비티 검출기로부터의 상기 차 신호 "vad_act_prim_diff_lp" 및 제1 음성 검출기로부터의 주스피치 결정들 "vad_prim_A"의 피드백에 기초하여 배경을 추정하도록 구성된 배경 추정기를 더 포함하는 음성 액티비티 검출기.
- 제8항에 있어서, 상기 배경 추정기는 상기 차 신호에 임계값을 적용하여 상기 단기 액티비티 검출기에 의해 생성된 상기 차 신호 "vad_act_prim_diff_lp"에 기초하여 배경 노이즈를 업데이트하도록 구성되는 음성 액티비티 검출기.
- 적어도 제1 주음성 검출기 및 단기 액티비티 검출기를 포함하는 음성 액티비티 검출기를 이용하여 입력 신호 내의 음악을 검출하는 방법으로서,상기 제1 주음성 검출기에 의해 생성된 적어도 주스피치 결정 "vad_prim_A"에 기초하여 상기 입력 신호 내에서의 스피치의 존재를 나타내는 스피치 결정 "vad_flag"을 출력하는 단계,상기 제1 음성 검출기에 의해 생성된 상기 주스피치 결정 "vad_prim_A"에 기초하여 상기 입력 신호 내에서의 음악의 존재에 비례하는 단기 주액티비티 신호 "vad_act_prim_A"를 상기 단기 액티비티 검출기 내에서 생성하는 단계, 및상기 단기 액티비티 검출기에 의해 생성된 단기 주액티비티 신호 "vad_act_prim_A"에 기초하여 상기 입력 신호 내에서의 음악의 존재를 나타내는 음악 결정 "vad_music"을 생성하는 단계를 포함하는 음악 검출 방법.
- 제10항에 있어서, 상기 음성 액티비티 검출기는 음악 검출기를 더 포함하고, 상기 방법은 상기 단기 주액티비티 신호 "vad_act_prim_A"에 임계값을 적용하여, 상기 음악 검출기 내에서 상기 음악 결정을 생성하는 단계를 더 포함하는 음악 검출 방법.
- 제10항 또는 제11항에 있어서, 상기 스피치 결정 "vad_flag"는 상기 생성된 음악 결정 "vad_music"에 기초하는 음악 검출 방법.
- 제10항 내지 제12항 중 어느 한 항에 있어서, 상기 방법은,상기 적어도 제1 주음성 검출기에 배경 피쳐를 제공하는 단계를 더 포함하며, 상기 배경 피쳐의 업데이트 속도/스텝 사이즈는 상기 생성된 음악 결정 "vad_music에 기초하는 음악 검출 방법.
- 제1항 내지 제9항 중 어느 한 항의 음성 액티비티 검출기를 포함하는 통신 시스템의 노드.
- 제14항에 있어서, 상기 노드는 터미널인 노드.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US93943707P | 2007-05-22 | 2007-05-22 | |
US60/939,437 | 2007-05-22 | ||
PCT/SE2008/000285 WO2008143569A1 (en) | 2007-05-22 | 2008-04-18 | Improved voice activity detector |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20100017279A true KR20100017279A (ko) | 2010-02-16 |
KR101452014B1 KR101452014B1 (ko) | 2014-10-21 |
Family
ID=40032156
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020097024380A KR101452014B1 (ko) | 2007-05-22 | 2008-04-18 | 향상된 음성 액티비티 검출기 |
Country Status (5)
Country | Link |
---|---|
US (1) | US8321217B2 (ko) |
EP (1) | EP2162881B1 (ko) |
KR (1) | KR101452014B1 (ko) |
CN (1) | CN101681619B (ko) |
WO (1) | WO2008143569A1 (ko) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8190440B2 (en) * | 2008-02-29 | 2012-05-29 | Broadcom Corporation | Sub-band codec with native voice activity detection |
CN101609677B (zh) | 2009-03-13 | 2012-01-04 | 华为技术有限公司 | 一种预处理方法、装置及编码设备 |
CN102044246B (zh) | 2009-10-15 | 2012-05-23 | 华为技术有限公司 | 一种音频信号检测方法和装置 |
EP2490214A4 (en) * | 2009-10-15 | 2012-10-24 | Huawei Tech Co Ltd | METHOD, DEVICE AND SYSTEM FOR SIGNAL PROCESSING |
CN102576528A (zh) * | 2009-10-19 | 2012-07-11 | 瑞典爱立信有限公司 | 用于语音活动检测的检测器和方法 |
WO2011049514A1 (en) * | 2009-10-19 | 2011-04-28 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and background estimator for voice activity detection |
CN102804261B (zh) * | 2009-10-19 | 2015-02-18 | 瑞典爱立信有限公司 | 用于语音编码器的方法和语音活动检测器 |
US9838784B2 (en) | 2009-12-02 | 2017-12-05 | Knowles Electronics, Llc | Directional audio capture |
EP2561508A1 (en) * | 2010-04-22 | 2013-02-27 | Qualcomm Incorporated | Voice activity detection |
US8898058B2 (en) | 2010-10-25 | 2014-11-25 | Qualcomm Incorporated | Systems, methods, and apparatus for voice activity detection |
US8831937B2 (en) * | 2010-11-12 | 2014-09-09 | Audience, Inc. | Post-noise suppression processing to improve voice quality |
WO2012083552A1 (en) * | 2010-12-24 | 2012-06-28 | Huawei Technologies Co., Ltd. | Method and apparatus for voice activity detection |
EP2656341B1 (en) | 2010-12-24 | 2018-02-21 | Huawei Technologies Co., Ltd. | Apparatus for performing a voice activity detection |
SI3493205T1 (sl) | 2010-12-24 | 2021-03-31 | Huawei Technologies Co., Ltd. | Postopek in naprava za adaptivno zaznavanje glasovne aktivnosti v vstopnem avdio signalu |
US8762147B2 (en) * | 2011-02-02 | 2014-06-24 | JVC Kenwood Corporation | Consonant-segment detection apparatus and consonant-segment detection method |
US20140006019A1 (en) * | 2011-03-18 | 2014-01-02 | Nokia Corporation | Apparatus for audio signal processing |
US9173025B2 (en) | 2012-02-08 | 2015-10-27 | Dolby Laboratories Licensing Corporation | Combined suppression of noise, echo, and out-of-location signals |
US8712076B2 (en) | 2012-02-08 | 2014-04-29 | Dolby Laboratories Licensing Corporation | Post-processing including median filtering of noise suppression gains |
CA2805933C (en) | 2012-02-16 | 2018-03-20 | Qnx Software Systems Limited | System and method for noise estimation with music detection |
CN103325386B (zh) | 2012-03-23 | 2016-12-21 | 杜比实验室特许公司 | 用于信号传输控制的方法和系统 |
BR112015003356B1 (pt) * | 2012-08-31 | 2021-06-22 | Telefonaktiebolaget L M Ericsson (Publ) | Método e aparelho para detecção de atividade de voz, codec para codificar voz ou som |
WO2014043024A1 (en) * | 2012-09-17 | 2014-03-20 | Dolby Laboratories Licensing Corporation | Long term monitoring of transmission and voice activity patterns for regulating gain control |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
US9959886B2 (en) * | 2013-12-06 | 2018-05-01 | Malaspina Labs (Barbados), Inc. | Spectral comb voice activity detection |
DE112015004185T5 (de) | 2014-09-12 | 2017-06-01 | Knowles Electronics, Llc | Systeme und Verfahren zur Wiederherstellung von Sprachkomponenten |
KR102446392B1 (ko) * | 2015-09-23 | 2022-09-23 | 삼성전자주식회사 | 음성 인식이 가능한 전자 장치 및 방법 |
US9820042B1 (en) | 2016-05-02 | 2017-11-14 | Knowles Electronics, Llc | Stereo separation and directional suppression with omni-directional microphones |
WO2019070588A1 (en) | 2017-10-03 | 2019-04-11 | Google Llc | IDENTIFICATION OF MUSIC AS A PARTICULAR SONG |
US11276407B2 (en) * | 2018-04-17 | 2022-03-15 | Gong.Io Ltd. | Metadata-based diarization of teleconferences |
US10861484B2 (en) * | 2018-12-10 | 2020-12-08 | Cirrus Logic, Inc. | Methods and systems for speech detection |
CN110556131A (zh) * | 2019-08-14 | 2019-12-10 | 北京声加科技有限公司 | 一种语音活动检测设备及方法 |
CN115881128B (zh) * | 2023-02-07 | 2023-05-02 | 北京合思信息技术有限公司 | 一种基于历史匹配度的语音行为交互方法和装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
IN184794B (ko) * | 1993-09-14 | 2000-09-30 | British Telecomm | |
AU3352997A (en) * | 1996-07-03 | 1998-02-02 | British Telecommunications Public Limited Company | Voice activity detector |
US6823303B1 (en) * | 1998-08-24 | 2004-11-23 | Conexant Systems, Inc. | Speech encoder using voice activity detection in coding noise |
US6901362B1 (en) * | 2000-04-19 | 2005-05-31 | Microsoft Corporation | Audio segmentation and classification |
CN1175398C (zh) * | 2000-11-18 | 2004-11-10 | 中兴通讯股份有限公司 | 一种从噪声环境中识别出语音和音乐的声音活动检测方法 |
US6694293B2 (en) | 2001-02-13 | 2004-02-17 | Mindspeed Technologies, Inc. | Speech coding system with a music classifier |
US7464029B2 (en) * | 2005-07-22 | 2008-12-09 | Qualcomm Incorporated | Robust separation of speech signals in a noisy environment |
EP1982324B1 (en) * | 2006-02-10 | 2014-09-24 | Telefonaktiebolaget LM Ericsson (publ) | A voice detector and a method for suppressing sub-bands in a voice detector |
-
2008
- 2008-04-18 KR KR1020097024380A patent/KR101452014B1/ko active IP Right Grant
- 2008-04-18 WO PCT/SE2008/000285 patent/WO2008143569A1/en active Application Filing
- 2008-04-18 US US12/601,253 patent/US8321217B2/en active Active
- 2008-04-18 EP EP08741859A patent/EP2162881B1/en active Active
- 2008-04-18 CN CN2008800167750A patent/CN101681619B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
US20100211385A1 (en) | 2010-08-19 |
KR101452014B1 (ko) | 2014-10-21 |
CN101681619B (zh) | 2012-07-04 |
EP2162881A1 (en) | 2010-03-17 |
US8321217B2 (en) | 2012-11-27 |
CN101681619A (zh) | 2010-03-24 |
WO2008143569A1 (en) | 2008-11-27 |
EP2162881A4 (en) | 2010-11-24 |
EP2162881B1 (en) | 2013-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101452014B1 (ko) | 향상된 음성 액티비티 검출기 | |
US9646621B2 (en) | Voice detector and a method for suppressing sub-bands in a voice detector | |
RU2251750C2 (ru) | Обнаружение активности сложного сигнала для усовершенствованной классификации речи/шума в аудиосигнале | |
US9401160B2 (en) | Methods and voice activity detectors for speech encoders | |
US11417354B2 (en) | Method and device for voice activity detection | |
US8990074B2 (en) | Noise-robust speech coding mode classification | |
MXPA04011751A (es) | Metodo y dispositivo para ocultamiento de borrado adecuado eficiente en codecs de habla de base predictiva lineal. | |
JP2015207002A (ja) | 音声区間検出器及び方法 | |
US9208796B2 (en) | Estimation of speech energy based on code excited linear prediction (CELP) parameters extracted from a partially-decoded CELP-encoded bit stream and applications of same | |
US10672411B2 (en) | Method for adaptively encoding an audio signal in dependence on noise information for higher encoding accuracy | |
Vahatalo et al. | Voice activity detection for GSM adaptive multi-rate codec |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20170928 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20180928 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20190926 Year of fee payment: 6 |