KR20100017279A

KR20100017279A - 향상된 음성 액티비티 검출기

Info

Publication number: KR20100017279A
Application number: KR1020097024380A
Authority: KR
Inventors: 마틴 셀스테츠
Original assignee: 텔레호낙티에볼라게트 엘엠 에릭슨(피유비엘)
Priority date: 2007-05-22
Filing date: 2008-04-18
Publication date: 2010-02-16
Also published as: US20100211385A1; KR101452014B1; CN101681619B; EP2162881A1; US8321217B2; CN101681619A; WO2008143569A1; EP2162881A4; EP2162881B1

Abstract

본 발명은 적어도 제1 주음성 검출기(23, 33a)를 포함하는 음성 액티비티 검출기(VAD)(20; 30)에 관한 것이다. 음성 액티비티 검출기(20; 30)는 상기 제1 주음성 검출기(23; 33a)에 의해 생성된 적어도 주스피치 결정 "vad_prim_A"에 기초하여 입력 신호 내의 스피치의 존재를 나타내는 스피치 결정 "vad_flag"를 출력하도록 구성된다. 음성 액티비티 검출기(20; 30)는 단기 액티비티 검출기(26; 36)를 더 포함하며 음성 액티비티 검출기(20; 30)는 제1 주음성 검출기(23, 33a)에 의해 생성된 주스피치 결정 "vad_prim_A"에 기초하여 상기 단기 액티비티 검출기(26; 36)에 의해 생성된 단기 주액티비티 신호 "vad_act_prim_A"에 기초하여 입력 신호 내에서의 음악의 존재를 나타내는 음악 결정 "vad_music"를 생성하도록 더 구성된다. 단기 주액티비티 신호 "vad_act_prim_A"는 입력 신호 내의 음악의 존재에 비례한다. 본 발명은 또한 VAD 등을 포함하는 통신 시스템 내의 노드(예를 들어, 터미널)에 관한 것이다.

VAD, 제1 주음성 검출기, 음성 액티비티 검출기, 음성 결정, 단기 주액티비티 신호

Description

향상된 음성 액티비티 검출기{IMPROVED VOICE ACTIVITY DETECTOR}

본 발명은 배경 노이즈 업데이트 및 행오버 추가(hangover addition)를 포함하는 음악 조건들에 대한 향상된 VAD(Voice Activity Detector)에 관한 것이다. 본 발명은 또한 향상된 VAD를 포함하는 시스템에 관한 것이다.

대화 스피치를 위해 이용되는 스피치 코딩 시스템들에서는 인코딩의 효율을 증가(비트 레이트를 감소)시키기 위하여 불연속 송신(DTX)를 사용하는 것이 통상적이다. 그 이유는 대화 스피치는 스피치 내에 임베드된(embedded) 많은 양의 중단들(pauses)을 포함하기 때문이다(예를 들어, 한 사람이 이야기하는 동안 다른 사람은 듣는 경우). 따라서 불연속 송신(DTX)을 이용하여 스피치 인코더는 평균적으로 시간의 약 50 퍼센트에 대하여만 기동되고 나머지는 컴포트 노이즈(comfort noise)를 이용하여 인코딩된다. DTX 모드에서 사용될 수 있는 코덱의 일 예는 참조문헌 [1]에 기술된 AMR 코덱이다.

중요 품질 DTX 동작을 위하여(즉, 스피치 품질이 열화되지 않음), VAD(Voice Activity Detector)에 의해 행해지는 입력 신호 내의 스피치의 주기들을 검출하는 것이 중요하다. 리치 미디어(rich media)의 사용이 증가함에 따라, VAD가 음악 신호들을 검출하여, 이들이 컴포터 노이즈에 의해 대체되지 않는 것도 중요한데, 그 이유는 최종 사용자(end user)에게 부정적인 영향을 미칠 수 있기 때문이다. 도 1은 입력으로서 입력 신호(구현에 따라 10-30ms의 데이터 프레임들로 분할됨)를 취하고 출력으로서 VAD 결정들(decisions)(각각의 프레임에 대하여 하나의 결정)을 생성하는, 종래기술에 따른 일반화된 VAD의 개략적인 블럭도를 도시한다.

도 1은, 피쳐 추출기(feature extractor, 11), 배경 추정기(background estimator, 12), 주음성 검출기(primary voice detector, 13), 행오버 추가 블럭(14), 및 동작 제어기(15)를 포함하는 일반화된 종래 기술 VAD(10)의 주요 기능들을 예시한다. 상이한 VAD는 배경의 추정(estimation)을 위하여 상이한 피쳐들 및 전략들(strategies)을 이용하지만, 기본 동작은 여전히 동일하다.

주결정(primary decision) "vad_prim"은 주음성 검출기(13)에 의해 이루어지며 기본적으로는 단지 현재의 프레임(피쳐 추출기(11)에서 추출됨)에 대한 피쳐와, 배경 피쳐(background feature)(배경 추정기(12)에서 이전 입력 프레임들로부터 추정됨)의 비교이다. 임계값보다 큰 차(difference)는 액티브 주결정(active primary decision) "vad_prim"을 유발시킨다. 행오버 추가 블럭(14)은 최종 결정 "vad_flag"을 형성하기 위하여 과거의 주결정들에 기초하여 주결정을 연장하기 위해 이용된다. 이것은 주로 스피치 버스트들의 백 엔드 클리핑(back end clipping) 및 미드 스피치(mid speech)의 위험을 감소/제거하기 위해 행해진다. 그러나, 이는 참조문헌들 [1], [2] 및 [3]에 기술된 바와 같이, 음악 악절들(music passages)에서의 클리핑을 회피하기 위하여도 이용된다. 도 1에 나타낸 바와 같이, 동작 제어기(15)는 입력 신호의 특성들에 따라 주검출기(13)에 대한 임계값 및 행오버 추 가의 길이를 조정할 수 있다.

도 1에 나타낸 바와 같이, VAD(10)의 다른 중요한 기능 부분은 배경 추정기(12)에서의 배경 피쳐의 추정이다. 이것은 주결정 "vad_prim"을 이용하는 것(즉, 결정 피드백 있음)에 의하거나, 또는 입력 신호의 소정의 다른 특징들을 이용하는 것(즉, 결정 피드백 없음)에 의한, 기본적으로 상이한 두 원칙들에 의해 행해질 수 있다. 어느 정도는 두 원칙들을 결합하는 것도 가능하다.

이하에 상이한 VAD들 및 관련된 문제에 대하여 간략히 설명한다.

AMR VAD1

AMR VAD1은 참조문헌 [1] TS26.094에 기술되어 있고, 변형은 참조문헌 [2]에 기술되어 있다.

기본 동작의 개요(보다 상세한 사항들은 참조문헌 [1] 참조)

피쳐: 서브밴드 SNR들의 합산(summing)

배경: 이전의 결정들에 기초한 배경 추정 적응

제어: 입력 노이즈 레벨에 기초한 임계값 적응

기타: 정상성(stationarity) 추정에 기초한 노이즈 레벨의 스텝 증가들에 대한 데드록 리커버리(deadlock recovery) 분석. 음악/복잡한(complex) 신호들을 검출하고 이러한 신호들에 대한 연장된 행오버를 허용하기 위한 고주파 상관(high frequency correlation).

이 솔루션의 주요 문제는 일부 복잡한 배경들(예를 들어, 떠듬거리는 말(babble) 및 특히 높은 입력 레벨들에 대하여)이 상당한 양의 과잉 액티비티를 유발시키는 것이다. 그 결과는 DTX 효율 이득, 및 연관된 시스템 성능이 떨어지는 것이다.

배경 추정에 대한 결정 피드백을 이용하는 것은 또한 검출기 감도를 변경시키는 것을 어렵게 한다. 왜냐하면, 감도의 작은 변경들조차도 배경 추정에 영향을 미쳐서 장래의 액티비티 결정들에 큰 영향을 미칠 수 있을 것이기 때문이다. 그것은 레벨 감도(level sensitivity)를 유발하는 입력 노이즈 레벨에 기초한 임계값 적응이지만, 이 적응을 유지하는 것이 바람직한데, 그 이유는 낮은 SNR 고정(stationary) 노이즈에서 스피치를 검출하기 위한 성능을 향상시키기 때문이다.

이 솔루션은 또한 대부분의 경우들에 대하여 작동하는 음악 검출기(music detector)를 포함하지만, 이 검출기가 놓친 음악 세그먼트들은 디코드된(음악) 신호의 주관적 품질(subjective quality)의 큰 저하를 유발시키는 것(즉, 세그먼트들이 컴포트 노이즈로 대체됨)이 확인되었다.

EVRC VAD

EVRC VAD는 EVRC RDA로서 참조문헌들 [4] 및 [5]에 기술되어 있다.

이용된 주요 기술들은 다음과 같다.

피쳐: 스플릿 밴드 분석,(최악의 경우에 밴드는 가변 레이트 스피치 코덱에서의 레이트 선택에 이용됨).

배경: 입력 레벨로의 순간적인 강하에 따른, 결정에 기초한 증가(decision based increase).

제어: 적응적 노이즈 행오버 추가 원칙이 이용되어 주검출기 착오들을 감소 시킨다. Hong 등은 참조문헌 [6]에서 노이즈 행오버 적응을 설명한다.

기존의 스플릿 밴드 솔루션 EVRC VAD는 이따금씩 스피치 검출의 신뢰도를 떨어뜨리는 잘못된 결정들(bad decisions)을 가지며 음악을 검출하는 신뢰도에 영향을 미치는 너무 낮은 주파수 해상도(frequency resolution)를 보여준다.

Freeman / Barret 에 의한 음성 액티비티 검출

Freeman(참조문헌 [7] 참조)은 독립적인 노이즈 스펙트럼 추정을 갖는 VAD 검출기를 개시한다.

Barrett(참조문헌 [8] 참조)은 톤(tone)들을 시그널링하는 것에 있어서 과실로 낮은 주파수의 자동차 노이즈를 특징지우지 않는 톤 검출 메커니즘을 개시한다.

Freeman/Barret에 기초한 기존의 솔루션들은 때때로 너무 낮은 감도를 보인다(예를 들어, 배경 음악에 대하여).

AMR VAD2

AMR VAD2는 참조문헌 [1]의 TS26.094에 기술되어 있다.

기술:

피쳐: FFT 기초의 서브밴드 SNR 검출기의 합산

배경: 이전 결정들에 기초한 배경 추정 적응

제어: 입력 신호 레벨 및 적응적 노이즈 행오버에 기초한 임계값 적응

이 솔루션은 AMR VAD1과 유사하므로 동일한 유형의 문제들을 공유한다.

발명의 개요

본 발명의 목적은 종래기술의 음성 액티비티 검출기들에 비하여 향상된 음악 조건 검출 성능을 갖는 음성 액티비티 검출기를 제공하는 것이다.

이 목적은 적어도 제1 주음성 검출기 및 단기(short term) 액티비티 검출기를 포함하는 음성 액티비티 검출기에 의해 달성된다. 제1 주음성 검출기는 입력 신호에서 스피치의 존재를 나타내는 신호를 생성하도록 구성되고, 단기 액티비티 검출기는 제1 주음성 검출기에 의해 생성된 신호에 기초하여 입력 신호에서 음악의 존재를 나타내는 신호를 생성하도록 구성된다.

본 발명의 장점은 스피치 클리핑(speech clipping)의 위험성이 종래기술의 음성 액티비티 검출기들에 비하여 감소되는 것이다.

본 발명의 다른 장점은 종래기술의 음성 액티비트 검출기들에 비하여 배블 노이즈 입력(babble noise input), 및 자동차 노이즈 입력에 대한 액티비티에서의 큰 향상이 달성되는 것이다.

상세한 설명부로부터 당업자는 또 다른 목적들 및 장점들을 발견할 수 있다.

본 발명은 비제한적인 예들로서 제공되는 다음의 도면들과 함께 설명될 것이다.

도 1은 일반화된 종래기술의 VAD를 도시하는 도면.

도 2는 본 발명에 따른 하나의 주음성 검출기 및 단기 음성 액티비티 검출기를 갖는 VAD의 제1 실시예를 도시하는 도면.

도 3은 본 발명에 따른 두 개의 주음성 검출기들 및 단기 음성 액티비티 검 출기를 갖는 VAD의 제2 실시예를 도시하는 도면.

도 4는 도 3의 VAD에 대한 주결정들(primary decisions)의 비교를 도시하는 도면.

도 5는 본 발명에 따른 VAD를 포함하는 스피치 코더를 도시하는 도면.

도 6은 본 발명에 따른 VAD를 포함하는 터미널을 도시하는 도면.

약어

본 발명의 기본 개념은 주음성 검출기의 결정들의 단기 액티비티 측정 형태의 새로운 피쳐(feature)를 도입하는 것이다. 이 피쳐는 도 2와 함께 설명된 입력 신호들과 같은 음악의 신뢰성 있는 검출을 위하여 단독으로 이용될 수 있다.

도 2는 피쳐 추출기(feature extractor, 21), 배경 추정기(background estimator, 22), 하나의 주음성 검출기(primary voice detector, PVD)(23), 행오버 추가 블럭(hangover addition block, 24), 및 동작 제어기(25) 등의, 도 1과 함께 설명된 VAD에서와 유사한 기능 블럭들을 포함하는 VAD(20)의 제1 실시예를 도시한다. VAD(20)는 단기 음성 액티비티 검출기(short term voice activity detector, 26) 및 음악 검출기(27)를 더 포함한다.

입력 신호는 피쳐 추출기(21)에서 수신되고, 현재 프레임(피쳐 추출기(21)에서 추출됨)에 대한 피쳐와 배경 피쳐(배경 추정기(22) 내의 이전 입력 프레임들로부터 추정됨)를 비교함으로써 PVD(23)에 의해 주결정 "vad_prim_A"이 만들어진다. 임계값보다 큰 차는 액티브 주결정 "vad_prim_A"를 유발시킨다. 과거의 주결정들에 기초해서 주결정을 연장하여 최종 결정 "vad_flag"을 형성하기 위하여 행오버 추가 블럭(24)이 이용된다. 단기 음성 액티비티 검출기(26)는 PVD(23)에 의해 생성된 주스피치 결정(primary speech decision)에 기초하여 입력 신호 내의 음악의 존재에 비례하는 단기 주액티비티 신호 "vad_act_prim_A"를 생성하도록 구성된다.

주음성 검출기(23)에는 "k"개의 이전 주스피치 결정들 "vad_prim_A"가 저장되어 있는 단기 메모리가 제공된다. 단기 액티비티 검출기(26)에는 현재 주스피치 결정과 메모리의 내용에 기초하여 단기 주액티비티 신호를 계산하도록 구성된 계산 장치가 제공된다.

여기에서 vad_act_prim_A는 단기 주액티비티 신호이고,

는 메모리 및 현재 주스피치 결정 내의 액티브 결정들의 수이며, k는 메모리에 저장된 이전 주스피치 결정들의 수이다.

단기 음성 액티비티 검출기에는 바람직하게는 신호를 더 평활화하기 위한 로우패스 필터가 제공되어, 로우패스 필터링된 단기 주액티비티 신호 "vad_act_prim_A_lp"가 생성된다. 음악 검출기(27)는, 단기 주액티비티 신호에 임계값을 적용함으로써, 로우패스 필터링되거나 그렇지 않을 수 있는 단기 주액티비티 신호 "vad_act_prim_A"에 기초하여 입력 신호에서 음악의 존재를 나타내는 음악 결정 "vad_music"을 생성하도록 구성된다.

도 2에서, "vad_music"은, 입력 신호에서 음악을 검출하여 VAD를 더 향상시키는 행오버 추가 블럭(24), 및 배경 추정에 대한 업데이트 속도(또는 스텝 사이즈)에 영향을 미치는 배경 추정기(22) 양자에 제공된다. 그러나, "vad_music"은 행오버 추가 블럭(22)에서의 음악 검출을 향상시키거나 배경 추정기(24)에서의 배경 추정을 향상시키기 위하여만 이용될 수 있다.

본 발명의 피쳐는 또한, 시스템이 도 3과 함께 설명된 바와 같이, 하나는 적극적(aggressive)이고 다른 하나는 감도가 좋은(sensitive) 두 개의 주음성 액티비티 검출기들을 구비하는 경우, 연장될 수 있다. 양자의 주VAD들이 새로운 단기 액티비티 피쳐를 구비하면 둘 사이의 단기 주액티비티의 큰 차는 배경 노이즈 업데이 트시 주의가 필요한 것을 나타내는 경고로서 이용될 수 있다. 예를 들어 배블(babble) 등의 복잡한 배경들에 의해 유발된 과도한 액티비티의 감소를 발생시킬 음성 액티비티 결정을 만들기 위하여는 적극적 주VAD만 이용되어야 하는 것을 주의한다.

도 3은 피쳐 추출기(31), 배경 추정기(32), 제1 주음성 검출기(PVD)(33a), 행오버 추가 블럭(34), 동작 제어기(35), 단기 음성 액티비티 검출기(36) 및 음악 검출기(37) 등의, 도 2와 함께 설명된 VAD에서와 유사한 기능 블럭들을 포함하는 VAD(30)의 제2 실시예를 도시한다. VAD(20)는 제2 PVD(33b)를 더 포함한다. 제1 PVD는 적극적이며 제2 PVD는 감도가 좋다.

두 개의 주음성 검출기들에 대하여 완전히 상이한 기술들을 이용하는 것이 가능하지만, 복잡도의 관점에서는, 단지 하나의 기본 주음성 검출기만을 사용하여 그것으로 하여금 상이한 동작 포인트들에서 동작하게 하는 것이 더 합리적이다(예를 들어, 동일 출원인에게 양도된 동시계속 국제특허출원 PCT/SE2007/000118에 개시된 두 개의 상이한 임계값들 또는 두 개의 상이한 유의 임계값들(significance thresholds), 참조문헌 [11] 참조). 이것은 또한 감도가 좋은 검출기가 항상 적극적 검출기보다 더 높은 액티비티를 생성하고 도 4에 예시된 바와 같이 "vad_prim_A"는 "vad_prim_B"의 서브세트인 것을 보장한다.

입력 신호는 피쳐 추출기(31)에서 수신되며 주결정들 "vad_prim_A" 및 "vad_prim_B"는, 각각 현재 프레임에 대한 피쳐(피쳐 추출기(31)에서 추출됨)와 배경 피쳐(배경 추정기(32)에서 이전 입력 프레임들로부터 추정됨)를 비교함으로써, 제1 PVD(33a) 및 제2 PVD(33b)에 의해 만들어진다. 제1 PVD와 제2 PVD에서의 임계값보다 더 큰 차는, 제1 PVD(33a) 및 제2 PVD(33b)로부터 각각 액티브 주결정들 "vad_prim_A" 및 "vad_prim_B"를 발생시킨다. 제1 PVD(33a)에 의해 만들어진 과거의 주결정들에 기초하여 주결정 "vad_prim_A"를 연장하여 최종 결정 "vad_flag"을 형성하기 위해 행오버 추가 블럭(34)이 이용된다.

단기 음성 액티비티 검출기(36)는 제1 PVD(33a)에 의해 생성된 주스피치 결정에 기초하여 입력 신호에서 음악의 존재에 비례하는 단기 주액티비티 신호 "vad_act_prim_A"를 생성하고, 제2 PVD(33a)에 의해 생성된 주스피치 결정에 기초하여 입력 신호에서 음악의 존재에 비례하는 추가적인 단기 주액티비티 신호 "vad_act_prim_B"를 생성하도록 구성된다.

제1 PVD(33a) 및 제2 PVD(33b)에는 각각 단기 메모리가 제공되며, 여기에는 "k"개의 이전 주스피치 결정들 "vad_prim_A" 및 "vad_prim_B"이 각각 저장되어 있다. 단기 액티비티 검출기(36)에는 제1 PVD(33a)의 현재 주스피치 결정 및 메모리의 내용에 기초하여 단기 주액티비티 신호 "vad_act_prim_A"를 계산하도록 구성된 계산 장치가 제공된다. 음악 검출기(37)는 단기 주액티비티 신호에 임계값을 적용함으로써, 로우패스 필터링되거나 그렇지 않을 수 있는, 단기 주액티비티 신호 "vad_act_prim_A"에 기초하여 입력 신호 내의 음악의 존재를 나타내는 음악 결정 "vad_music"을 생성하도록 구성된다. 도 3에서, "vad_music"은 입력 신호 내에 음악을 검출함으로써 VAD를 더 향상시키기 위한 행오버 추가 블럭(34), 및 배경 추정을 위하여 업데이트 속도(또는 스텝 사이즈)에 영향을 미치는 배경 추정기(32) 양 자에 제공된다. 그러나, "vad_music"은 행오버 추가 블럭(32)에서의 음악 검출을 향상시키기 위하여만 또는 배경 추정기(34)에서의 배경 추정을 향상시키기 위하여만 이용될 수 있다.

단기 메모리들(vad_prim_A를 위한 것과 vad_prim_B를 위한 것)은 "k"개의 이전 PVD 결정들을 추적하고 현재 프레임에 대한 vad_prim_A의 단기 액티비티가 다음과 같이 계산되게 한다:

여기에서 vad_act_prim_A는 단기 주액티비티 신호이고,

는 메모리 및 현재 주스피치 결정 내의 액티브 결정들의 수이며, k는 메모리에 저장된 이전의 주스피치 결정들의 수이다.

신호를 더 평활화하기 위하여 간단한 AR 필터가 이용되는데,

이며, 여기에서 α는 0 - 1.0 범위의 상수이다(큰 로우패스 필터링 효과를 달성하기 위하여 바람직하게는 0.005-0.1).

vad_act_prim_B 및 vad_act_prim_B_lp의 계산들은 유사한 방식으로 수행된다.

단기 음성 액티비티 검출기(36)는 제1 주검출기(33a) 및 제2 주검출기(33b)의 액티비티의 차에 기초하여 차 신호 "vad_act_prim_diff_lp"를 생성하도록 더 구성되고, 배경 추정기(32)는 단기 액티비티 검출기(36)로부터의 차 신호 "vad_act_prim_diff_lp" 및 제1 음성 검출기(33a)로부터의 주스피치 결정들 "vad_prim_A"의 피드백에 기초하여 배경을 추정하도록 구성된다. 이 변수들을 이용하여 아래와 같이 두 개의 주검출기들에 대한 액티비티의 차의 추정을 계산하는 것이 가능하다:

결과는 두 개의 새로운 피쳐들이다:

vad_act_prim_A_lp 적극적 VAD의 단기 액티비티

vad_act_pirm_diff_lp 두 VAD들의 액티비티의 차

이 피쳐들은 그 후 다음을 위하여 이용된다:

ㆍ음악 행오버 추가를 기동시키는 신뢰성 있는 음악 검출.

ㆍ배블 및 다른 비고정(non-stationary) 배경들에서의 과도한 액티비티의 양을 감소시키기 위하여 이용되는 적극적 VAD를 이용할 때 더욱 신뢰성 있는 동작을 허용하는 향상된 노이즈 업데이트(특히 향상된 노이즈 업데이트는 음악 조건들에 대하여 덜 적극적일 수 있음).

도 4는 제1 PVD(33a)와 제2 PVD(33b)에 대한 주결정들의 비교를 도시한다. 각각의 PVD에 대하여, 입력 신호의 각각의 프레임에 대해 주결정 "vad_prim_A" 및 "vad_prim_B"이 각각 만들어진다. 각각 현재의 프레임 "N"의 주결정 및 이전의 "k" 개의 주결정들을 포함하는 각각의 PVD에 대한 단기 메모리가 예시된다. 비제한적인 예로서, "k"는 31이 되도록 선택된다.

신뢰성 있는 음악 행오버 추가를 위한 음악 검출의 예

이 예는, 참조문헌 [1]에 기술된 바와 같이, VAD의 적극성을 조정하기 위하여 유의 임계값들을 이용하는 연장(extension)을 갖는 AMR-NB VAD에 기초한다.

스피치는 음절들(syllables)에 결합되는 유성 스피치("a", "o" 등의 모음들) 및 무성 스피치("s" 등의 자음들)의 혼합으로 구성된다. 따라서, 연속적인 스피치가, 무성음 세그먼트들에 비해 유성음 세그먼트들을 훨씬 더 쉽게 검출하는, 주음성 액티비티 검출기에서의 높은 단기 액티비티를 유발시킬 가능성은 매우 적다.

이 경우에 음악 검출은 단기 주액티비티에 임계값을 적용함으로써 달성된다.

음악 검출에 대한 임계값은 스피치를 음악으로 잘못 분류하지 않을 정도로 충분히 높아야 하며, 이용된 주검출기에 따라 튜닝되어야 한다. 피쳐를 평활화하기 위하여 이용된 로우패스 필터 또한 원하는 결과에 따라 튜닝이 필요할 수 있는 것을 주의한다.

향상된 배경 노이즈 업데이트의 예

배경 노이즈 레벨을 업데이트하기 위해 결정 피드백을 이용하는 VAD에 대하여 적극적 VAD를 이용하는 것은 원하지 않는 노이즈 업데이트를 발생시킬 수 있다. 이 효과는 새로운 피쳐 vad_act_prim_lp를 이용하여 감소될 수 있다.

그 피쳐는 적극적 및 감도가 좋은 주음성 검출기들(PVD들)의 단기 액티비티 의 차를 비교하고 배경 노이즈 업데이트를 중지시키기 위해 필요할 수 있는 때를 나타내기 위해 임계값의 사용을 가능하게 한다.

여기에서 임계값은 노이즈 업데이트의 동작 포인트를 제어하며, 이를 0으로 설정하는 것은 감도가 좋은 PVD만의 경우 달성될 수 있는 것과 유사한 노이즈 업데이트 특성을 발생시킬 것이다. 반면 큰 값들은 적극적 PVD만 이용되는 경우 달성되는 것과 유사한 노이즈 업데이트 특성을 발생시킬 것이다. 따라서, 원하는 성능과 이용된 PVD들에 따라 튜닝되어야 한다.

단기 액티비티에서의 차를 이용하는 이 절차는, 특히 음악 입력 신호 조건들에 대한 VAD 배경 노이즈 업데이트를 향상시킨다.

본 발명은 다음의 변경들에 의해, 참조문헌 [9]에 기술된 AMR NB TS 26.073 ver 7.0.0에 대한 소스 코드를 수정함으로써, C-코드로 구현될 수 있다.

파일 " vad1 .h"에서의 변경들

라인 32에서 다음의 라인들을 추가:

라인 77에서 다음의 라인들을 추가:

파일 " vad1 .c"에서의 변경들

아래에 지시된 바와 같이 라인 435-442 수정:

아래에 지시된 바와 같이 라인 521-544 수정:

라인 645에서 다음의 라인들 추가:

다음에 지시된 바와 같이 라인들 678-687을 수정:

다음에 지시된 바와 같이 라인들 710-710 수정:

아래에 지시된 바와 같이 라인들 721-732 수정:

라인 754에서 다음의 라인들 추가:

라인 762에서 다음의 라인들 추가:

아래에 지시된 바대로 라인들 763-772 수정:

아래에 지시된 바대로 라인 853 수정:

파일 " cod _ amr .c"에서의 변경들

라인 375에서 다음의 라인들 추가

파일 " dtx _ enc .h"에서의 변경들

라인 37에서 다음의 라인들 추가

라인 54에서 다음의 라인들 추가:

라인 139에서 다음의 라인들 추가:

파일 " dtx _ enc .c"에서의 변경들

라인 119에서 다음의 라인들 추가:

라인 339에서 다음의 라인들 추가:

라인 348에서 다음의 라인들 추가:

아래에 지시된 바대로 라인들 355-367 수정:

라인 372에서 다음의 라인들 추가:

수정된 C-코드는 위에서 정의된 변수들에 관하여 다음의 명칭들을 이용한다.

여기에서 최적으로 작용하는 것으로 밝혀진 것은 다음과 같다:

코더에 대한 주프로그램은 coder.c 내에 위치되어 amr_enc.c 내의 cod_amr을 호출하고 이것은 이어서 C-코드에서 가장 관련된 함수들을 포함하는 vad1을 호출한다.

vad1은 vad1.c에서 정의되며 이것은 또한 (직접적으로 또는 간접적으로) 다음을 호출한다:

vad1.c에 모두 정의된 vad_decision, complex_vad, noise_estimate_update, 및 complex_estimate_update.

cnst_vad.h는 소정의 VAD 관련 상수들을 포함한다.

vad1.h는 vad1.c에 정의된 함수들에 대한 프로토타입들을 정의한다.

단기 액티비티 피쳐들의 계산 및 업데이팅은 vad1.c 내의 함수 complex_estimate_adapt에서 만들어진다.

C-코드에서는 향상된 음악 검출기가 이용되어 복잡한 행오버 추가의 추가를 제어하는데, 이는 충분한 수의 연속 프레임들이 액티브 음악 검출기(Music_detect=1)를 가지면 인에이블된다. 세부적으로는 함수 hangover_addition 참조.

C-코드에서는 수정된 배경 업데이트가 주액티비티에서의 충분히 큰 차들이 함수 noise_estimate_update 내의 st->complex_warning 변수를 통해 노이즈 업데이트에 영향을 미치게 한다.

이 결과들은 결합된 솔루션들(향상된 음악 검출기 및 수정된 배경 노이즈 업데이트)의 이득만을 보여주는 것이지만, 분리된 솔루션들로부터 큰 이득들이 획득될 수 있다.

상기 결과의 요약은 표 1에서 발견될 수 있는데, 여기에서 VADR은 AMR VAD1[1]과 동등하다. VADL은 유의 임계값[2.6] 및 액티비티차 임계값[0.22]을 갖는 최적화된/평가된 VAD이다. 또한 약어들 DSM 및 MSIN은 코딩 전에 입력 신호에 적용되는 필터들이며 이들은 ITU G.191[10]에 정의되어 있다.

결과들은 소정의 상이한 입력 신호들에 대하여 상이한 코덱의 성능을 보여준다. 결과들은 DTX 액티비티의 형태로 도시되며, 이것은 스피치 코딩된 프레임들의 양이다(그러나 이것은 DTX 행오버 시스템에 의해 추가된 액티비티도 포함하며, 세부적으로는 [1] 및 거기에서의 참조문헌들을 참조바람). 표의 상부는 상이한 양의 백색 배경 노이즈(white background noise)를 갖는 스피치에 대한 결과들을 보여준다. 이 경우, VADL은 명료한 스피치의 경우(노이즈가 추가되지 않음)에만 약간 더 높은 액티비티를 보여주며, 이것은 스피치 클리핑(speech clipping)의 위험성을 감소시킬 것이다. 증가하는 백색 배경 노이즈의 양에 대하여, VADL 효율은 점차 향상된다.

표의 하부는 두 유형들의 신호 입력 필터들 셋업들(DSM-MSIN 및 MSIN)에 대하여, 상이한 유형들의 순수한 음악 및 노이즈 입력들에 대한 결과들을 보여준다. 음악 입력들에 대하여, 대부분의 경우들은 액티비티의 증가를 나타내는데 이것은 또한 컴포트 노이즈로 음악을 대체하는 것의 위험성이 감소된 것을 나타낸다. 순수한 배경 노이즈 입력들의 경우, 액티비티의 큰 향상이 있는데, 그 이유는 효율의 관점에서 배블 및 자동차 배경 노이즈들의 대부분을 컴포트 노이즈로 대체하는 것이 바람직하기 때문이다. 배경 노이즈들(배블/자동차)에 대하여 효율이 증가되더라도 VADL의 음악 검출 성능은 유지되는 것을 보는 것도 흥미롭다.

도 5는 본 발명에 따라 바람직하게 설계된 음성 액티비티 검출기 VAD(51), 및 DTX/CN(Discontinuous Transmission/Comfort Noise)을 포함하는 스피치 코더(52)를 포함하는 완전한 인코딩 시스템(50)을 도시한다. 도 5는 간략화된 스피치 코더(52)를 도시하며, 세부 설명은 참조문헌 [1] 및 [12]에서 발견될 수 있다. VAD(51)는 입력 신호를 수신하고 결정 "vad_flag"을 생성한다. 스피치 코더(52)는 VAD(51)로부터 수신된 "vad_flag"에 7개의 여분의 프레임들을 추가할 수 있는 DTX 행오버 모듈(53)을 포함한다(세부사항들은 참조문헌[12] 참조). "vad_DTX"="1"이면 음성이 검출되며, "vad_DTX"="0"이면 음성이 검출되지 않는다. "vad_DTX" 결정은 스위치(54)를 제어하는데, 이것은 "vad_DTX"가 "0"이면 위치 0에 설정되고 "vad_DTX"가 "1"이면 위치 1에 설정된다.

"vad_flag"는 입력 신호에서 가장 최근의 일곱 프레임들을 추적하는 CNB(comfort noise buffer, 56)에 보내진다. 이 정보는 비음성(non-voiced) 및 비음악(non-music) 프레임들 동안 컴포트 노이즈를 생성하기 위해 "vad_DTX"도 수신하는 CNC(comfort noise coder, 57)에 보내진다(세부사항들은 참조문헌[1] 참조). CNC는 스위치(54)의 위치 0에 접속된다.

도 6은 본 발명에 따른 사용자 터미널(60)을 도시한다. 터미널은 아날로그 신호를 디지털 신호로 변환하는 A/D 장치(62)에 연결된 마이크로폰(61)을 포함한다. 디지털 신호는, 도 5와 연계하여 설명된 바대로, 스피치 코더(63) 및 VAD(64)에 제공된다. 스피치 코더로부터의 신호는 송신기 TX 및 듀플렉스 필터 DPLX를 경유하여 안테나 ANT에 전달되고, 그곳으로부터 송신된다. 안테나 ANT에서 수신된 신호는 듀플렉스 필터 DPLX를 경유하여 수신 브랜치 RX로 전달된다. 수신시 수신된 스피치에 대하여 수신 브랜치 RX의 알려진 동작들이 수행되며, 스피커(65)를 통해 반복된다.

참조문헌들

Claims

적어도 제1 주음성 검출기를 포함하며, 상기 제1 주음성 검출기에 의해 생성된 적어도 주스피치 결정 "vad_prim_A"에 기초하여 입력 신호 내에서의 스피치의 존재를 나타내는 스피치 결정 "vad_flag"을 출력하도록 구성되는 음성 액티비티 검출기로서,

상기 음성 액티비티 검출기는 단기 액티비티 검출기를 더 포함하고, 상기 음성 액티비티 검출기는 상기 제1 음성 검출기에 의해 생성된 상기 주스피치 결정 "vad_prim_A"에 기초하여 상기 단기 액티비티 검출기에 의해 생성된 단기 주액티비티 신호 "vad_act_prim_A"에 기초하여 상기 입력 신호 내에서의 음악의 존재를 나타내는 음악 결정 "vad_music"을 생성하도록 더 구성되며, 상기 단기 주액티비티 신호 "vad_act_prim_A"는 상기 입력 신호 내의 음악의 존재에 비례하는 것을 특징으로 하는 음성 액티비티 검출기.
제1항에 있어서, 상기 음성 액티비티 검출기는 상기 단기 주액티비티 신호 "vad_act_prim_A"에 임계값을 적용하여 상기 음악 결정 "vad_music"을 생성하도록 구성된 음악 검출기를 더 포함하는 음성 액티비티 검출기.
제1항 또는 제2항에 있어서, 상기 제1 주음성 검출기는 이전 주스피치 결정들 "vad_prim_A"이 저장되어 있는 메모리를 구비하고, 상기 단기 액티비티 검출기 는 상기 메모리의 내용 및 현재의 주스피치 결정에 기초하여 상기 단기 주액티비티 신호 "vad_act_prim_A"를 계산하도록 구성된 계산 장치를 구비하는 음성 액티비티 검출기.
제3항에 있어서, 상기 계산 장치는,

라는 관계에 기초하여 상기 단기 주액티비티 신호 "vad_act_prim_A"를 계산하도록 구성되며, vad_act_prim_A는 상기 단기 주액티비티 신호이고,
는 현재의 주스피치 결정 및 상기 메모리 내의 액티비티 결정들의 수이며, k는 상기 메모리에 저장된 이전 주스피치 결정들의 수인 음성 액티비티 검출기.
제3항 또는 제4항에 있어서, 상기 단기 액티비티 검출기는 상기 단기 주액티비티 신호를 평활화하기 위한 필터를 더 구비하는 음성 액티비티 검출기.
제1항 내지 제5항 중 어느 한 항에 있어서, 상기 스피치 결정 "vad_flag"을 생성하도록 구성된 행오버 추가 블럭을 더 포함하며, 상기 스피치 결정은 상기 행오버 추가 블럭에 제공되는 상기 음악 결정 "vad_music"에 더 기초하는 음성 액티비티 검출기.
제1항 내지 제6항 중 어느 한 항에 있어서, 적어도 상기 제1 주음성 검출기에 배경 피쳐를 제공하도록 구성된 배경 추정기를 더 포함하며, 상기 음악 결정 "vad_music"은 상기 배경 추정기에 제공되고 배경 피쳐의 업데이트 속도/스텝 사이즈는 상기 음악 결정 "vad_music"에 기초하는 음성 액티비티 검출기.
제1항 내지 제7항 중 어느 한 항에 있어서, 상기 음성 액티비티 검출기는 상기 제1 주음성 검출기에 의해 생성된 상기 주스피치 결정 "vad_prim_A"와 유사한 입력 신호 내의 스피치의 존재를 나타내는 추가적인 주스피치 결정 "vad_prim_B"를 생성하도록 구성되고, 상기 제1 주음성 검출기보다 더 감도가 좋은 제2 주음성 검출기를 더 포함하고, 상기 단기 액티비티 검출기는 상기 제1 주검출기 및 상기 제2 주검출기의 액티비티의 차에 기초하여 차 신호 "vad_act_prim_diff_lp"를 생성하도록 구성되며, 상기 음성 액티비티 검출기는 상기 단기 액티비티 검출기로부터의 상기 차 신호 "vad_act_prim_diff_lp" 및 제1 음성 검출기로부터의 주스피치 결정들 "vad_prim_A"의 피드백에 기초하여 배경을 추정하도록 구성된 배경 추정기를 더 포함하는 음성 액티비티 검출기.
제8항에 있어서, 상기 배경 추정기는 상기 차 신호에 임계값을 적용하여 상기 단기 액티비티 검출기에 의해 생성된 상기 차 신호 "vad_act_prim_diff_lp"에 기초하여 배경 노이즈를 업데이트하도록 구성되는 음성 액티비티 검출기.
적어도 제1 주음성 검출기 및 단기 액티비티 검출기를 포함하는 음성 액티비티 검출기를 이용하여 입력 신호 내의 음악을 검출하는 방법으로서,

상기 제1 주음성 검출기에 의해 생성된 적어도 주스피치 결정 "vad_prim_A"에 기초하여 상기 입력 신호 내에서의 스피치의 존재를 나타내는 스피치 결정 "vad_flag"을 출력하는 단계,

상기 제1 음성 검출기에 의해 생성된 상기 주스피치 결정 "vad_prim_A"에 기초하여 상기 입력 신호 내에서의 음악의 존재에 비례하는 단기 주액티비티 신호 "vad_act_prim_A"를 상기 단기 액티비티 검출기 내에서 생성하는 단계, 및

상기 단기 액티비티 검출기에 의해 생성된 단기 주액티비티 신호 "vad_act_prim_A"에 기초하여 상기 입력 신호 내에서의 음악의 존재를 나타내는 음악 결정 "vad_music"을 생성하는 단계

를 포함하는 음악 검출 방법.
제10항에 있어서, 상기 음성 액티비티 검출기는 음악 검출기를 더 포함하고, 상기 방법은 상기 단기 주액티비티 신호 "vad_act_prim_A"에 임계값을 적용하여, 상기 음악 검출기 내에서 상기 음악 결정을 생성하는 단계를 더 포함하는 음악 검출 방법.
제10항 또는 제11항에 있어서, 상기 스피치 결정 "vad_flag"는 상기 생성된 음악 결정 "vad_music"에 기초하는 음악 검출 방법.
제10항 내지 제12항 중 어느 한 항에 있어서, 상기 방법은,

상기 적어도 제1 주음성 검출기에 배경 피쳐를 제공하는 단계를 더 포함하며, 상기 배경 피쳐의 업데이트 속도/스텝 사이즈는 상기 생성된 음악 결정 "vad_music에 기초하는 음악 검출 방법.
제1항 내지 제9항 중 어느 한 항의 음성 액티비티 검출기를 포함하는 통신 시스템의 노드.
제14항에 있어서, 상기 노드는 터미널인 노드.