KR20120091068A

KR20120091068A - 음성 활성 검출을 위한 검출기 및 방법

Info

Publication number: KR20120091068A
Application number: KR1020127009104A
Authority: KR
Inventors: 마틴 셀스테트
Original assignee: 텔레폰악티에볼라겟엘엠에릭슨(펍)
Priority date: 2009-10-19
Filing date: 2010-10-18
Publication date: 2012-08-17
Also published as: US9773511B2; JP2013508744A; JP2015207002A; US20110264449A1; US20180247661A1; CN104485118A; JP6096242B2; JP5793500B2; BR112012008671A2; US9990938B2; US11361784B2; CN102576528A; US20170345446A1; WO2011049516A1; EP2491549A4; EP2491549A1

Abstract

본 발명의 실시예들은 음성 활성 검출기와 이의 방법에 관한 것이다. 음성 활성 검출기는 수신 입력신호에서 음성 활성을 검출하도록 구성되고 또한 주 VAD 결정을 나타내는 상기 VAD의 주 음성 검출기로부터의 신호와 적어도 하나의 외부 VAD로부터의 음성 활성 결정을 나타내는 적어도 하나의 외부 VAD로부터의 적어도 하나의 신호를 수신하도록 구성되는 입력섹션과, 수정된 주 VAD 결정을 생성하기 위하여 수신 신호들에서 표시되는 음성 활성 결정들을 결합하도록 구성되는 프로세서와, 그리고 수정된 주 VAD 결정을 상기 VAD의 행오버 추가유닛으로 전송하도록 구성되는 출력섹션을 포함한다.

Description

음성 활성 검출을 위한 검출기 및 방법{Detector and method for Voice Activity Detection}

본 발명은 음성 활성 검출을 위한 방법과 검출기에 관한 것으로서, 특히 비정상적 배경잡음을 처리하기 위한 개선된 음성 활성 검출기에 관한 것이다.

통상적인 음성에 사용하는 음성 부호화시스템에서, 부호화의 효율을 증가시키기 위하여 통상적으로 불연속 송신(discontinuous transmission:DTX)을 사용한다. 그 이유는, 예컨대 한 사람이 말하고 다른 사람이 들을 때 통상적인 음성은 음성에 상당량의 휴지(休止)(pause)를 포함하기 때문이다. 이러한 DTX로, 음성 부호기는 평균적으로 약 50% 시간만 활성화되고 나머지 시간은 통신 소음(comfort noise)로 부호화될 수 있다. 이러한 특성을 가지는 몇몇 예시적인 코덱(codec)은 AMR NB(Adaptive MultiRate Narrowband)이다.

고품질 DTX 동작을 위해, 즉 저하된 음성 품질이 없는 동작을 위해, 음성활동 검출기(Voice Activity Detector:VAD)에 의해 이루어지는 입력신호에서 음성의 주기들을 검출하는 것이 중요하다. 도 1은 입력으로서 구현에 따라 5 - 30ms 인 데이터 프레임들을 분할되는 입력신호(100)를 취하고 또한 출력(160)으로서 VAD 결정(160)을(즉, VAD 결정(160)은 프레임이 음성 또는 잡음을 포함하는지를 각 프레임에 대해 결정한다) 생성하는 일반화된 VAD(180)의 개괄적인 블록도를 보여준다.

포괄적인 VAD(180)는 부대역(subband) 에너지 추정을 제공하는 배경 추정기(background estimator)(130)와, 특징 부대역 에너지를 제공하는 특징 추출기(feature extractor(120)를포함한다. 각 프레임에 대해, 포괄적인 VAD는 특징들을 계산하고 또한 활성 프레임들을 식별하기 위하여, 현재 프레임에 대한 특징(들)을, 배경신호에 대해 특징이 어떻게 "보이는가(looks)"의 추정과 비교한다.

주 결정(primary decision) "vad_prim"(150)은 주 음성활성 검출기(140)에 의해 이루어지고 또한 기본적으로 현재 프레임에 대한 특징들과 (이전 입력 프레임들로부터 추정되는)배경 특징들의 비교이고, 여기에서 임계값보다 큰 차이는 활성 주 결정(active primary decision)을 야기한다. 이전 주 결정들을 기반으로 하는 주 VAD로부터 VAD 결정을 확장하여 최종 VAD 결정(vad_flag)(160)을 형성되는데 행오버 추가(hangover addition) 블록(170)이 사용된다. 즉, 오래된 VAD 결정들 또한 고려하게 된다. 행오버를 사용하는 이유는, 주로 음성 버스트(speech burst)의 중모음 음성(mid speech)과 후위 절단(backend clipping)의 위험성을 줄이거나/제거하는 것이다. 그러나, 행오버는 또한 악절(music passage)에서 절단(clipping)을 피하는데 사용할 수 있다. 동작 제어기(operation controller)(110)는 입력 신호의 특성에 따라 주 검출기에 대한 임계값과 그리고 행오버 추가의 길이를 조정할 수 있다.

VAD 검출에 사용할 수 있는 다수의 상이한 특징들이 있는데, 한 특징은 단지 프레임 에너지를 검토하고 그리고 이를 임계값과 비교하여 프레임이 음성을 포함하는지 여부를 결정한다. 이 방법은, SNR이 훌륭한 조건들에 대해서는 잘 맞지만 그러나 낮은 SNR 경우에 대해서는 그렇지 않다. 낮은 SNR에서는 대신에, 음성과 잡음신호들의 특성을 비교하는 다른 메트릭(metric)을 사용하는 것이 필요하다. 실-시간 구현에 대해서는, VAD 기능의 추가적인 필요조건은 컴퓨터를 사용하는 복잡한 것이고 또한 이는 AMR NB, AMR WB(Adaptive Multi-Rate WideBand) 및 G.718(ITU-T recommendation embedded scalable speech and audio codec)과 같은 표준 코덱들에서 부대역 SNR VAD들의 빈번한 표현에 반영된다.

부대역 SNR 기반 VAD는 주 결정을 위해 임계값과 비교되는 메트릭에 상이한 부대역들의 SNR들을 결합시킨다. 부대역 기반 VAD에서, SNR은 각 부대역에 대해 결정되고 또한 결합된 SNR은 이들 SNR들을 기반으로 결정된다. 결합된 SNR은 상이한 부대역들 상의 모든 SNR들의 합일 수 있다. 또한 주 결정을 위해 상이한 특성들을 가지는 다수의 특징들이 사용되는 공지된 해결안이 있다. 그러나, 양 경우에 있어서, 최종 결정을 형성하기 위하여 행오버를 추가하는데 사용되는, 입력신호 상태들에 조정될 수 있는 단지 하나의 주 결정이 있다. 또한, 많은 VAD들은 묵음(silence) 검출을 위해 입력 에너지 임계값을 가진다. 즉, 충분히 낮은 입력 레벨들에 대해, 주 결정은 비활성 상태가 되게 된다.

부대역 NSNR 원리를 이용한 VAD들에 대해, 소위 중대 임계값(significance threthold)라 부르는, 부대역 SNR 계산에서 비-선형성의 도입은 비정상 잡음(non-stationary noise)을 가지는 조건들(왁자지껄한 곳, 사무실)에 대한 VAD 성능을 개선할 수 있다.

비정상 잡음은 모든 VAD들에 대해, 특히 낮은 SNR 조건들 하에서 어려울 수 있는데, 이는 실제 음성과 비교해 높은 VAD 활성을 일으키고 또한 각 시스템으로부터 용량을 줄인다. 비정상 잡음 중 가장 어려운 것은 왁자지껄한 잡음(babble noise)이고, 그 이유는, 그 특성이 VAD가 검출하고자 하는 음성 신호에 상대적으로 가깝기 때문이다. 왁자지껄한 잡음은 보통, 우위 화자(foreground speaker)의 음성 레벨에 대한 SNR과 배경 화자들의 수에 의해 특성화되고, 여기서 (주관평가법(subjective evaluation)에 사용되는) 공통 정의(common definition)은, 왁자지껄한 곳은 40명 이상의 배경 화자들을 포함하여야 한다는 것이고, 기본 동기는, 왁자지껄한 환경에서, 왁자지껄한 잡음에 포함된 화자들 중 어느 누구도 귀를 기울일 수 없다는 것이다(왁자지껄한 화자들 중 어느 누구도 이해할 수 없게 된다). 또한, 왁자지껄한 잡음에서 화자들의 숫자가 증가하게 되면, 잡음은 보다 비정상적이게 된다. 배경에서 단지 한(또는 소수) 화자들이 있으면, 이들은 보통 간섭화자(interfering talker)라 부른다. 다른 문제적 이슈는, 왁자지껄한 잡음은, VAD 알고리즘이 억제해서는 안 되는 몇몇 음악작품에 매우 유사한 스펙트럼적 변화 특성을 가질 수 있다는 것이다.

앞서 언급한 VAD 해결안들 AMR NB/WB 및 G.718에서, 이미 몇몇 경우들에서 적정한 SNR(20dB)에서 왁자지껄한 잡음과 관련된 다양한 문제점이 있다. DTX를 사용하는 것으로부터 추정되는 용량 이득은 실현될 수 없다는 것이 결과이다. 실제 이동전화시스템에서, 15 - 20dB SNR에서 적절한 DTX 작동을 필요로 하는 것이 충분하지 않을 수 있다는 것이 알려졌다. 만일 가능하다면, 잡음의 유형에 따라 5dB에서 심지어 0dB로 내려간 적절한 DTX 작동을 원할 수 있다. 저주파수 배경잡음에 대해, VAD 분석 이전에 신호를 고역 필터링함으로써 10 - 15dB의 SNR 이득이 VAD 기능에 대해 이루어질 수 있다. 음성에 대한 왁자지껄한 소리의 유사성으로 인해, 입력신호를 고역 필터링하는 것으로부터 얻는 이득은 매우 낮다.

품질의 관점에서 보면, 장애 시 안전(failsafe) VAD를 사용하는 것이 훨씬 더 좋은데, 의심스러울 때 음성 입력을 신호처리하고 또한 대량의 여분 용량을 가질 수 있는 상기 VAD에 훨씬 더 좋다는 것을 의미한다. 이는, 시스템 용량의 관점에서 보면, 사용자들 중 소수가 비정상적인 배경 잡음의 상황에 있는 한 허용될 수 있다. 그러나, 비정상적인 환경에 있는 사용자들의 숫자가 증가하면, 장애 시 안전 VAD의 사용은 시스템 용량의 심각한 손실을 일으킬 수 있다. 따라서, 정규적인 VAD 작동을 사용하여 대량의 비정상적 환경들이 처리되도록, 장애 시 안전과 정상적 VAD 작동 간에 경계에 영향을 미치는 곳에서 작업하는 것이 중요하다.

VAD 성능을 개선하는 중요한 임계값들의 사용을 통해, 가끔 음성 단절, 즉 낮은 SNR의 무성음의 전위 절단을 야기시킬 수 있다는 것이 알려졌다.

현존하는 해결안에 있어서, 새로운 문제영역이 확인되면, 기존의 작업 조건들에 대한 VAD의 행동을 변경시키지 않는, 현존하는 VAD의 새로운 세부 조정을 찾는 것은 어려울 수 있다. 즉, 새로운 문제점에 대처하기 위해 상기 세부 조정을 변경하는 것이 가능한 한 한편, 기존 공지된 조건들에서 행동을 변경하는 일이 없이 세부 조정을 변경하는 것을 불가능할 수 있다.

본 발명의 실시예들은 비정상적 배경 또는 발견된 다른 문제 영역을 처리하기 위해 현존하는 VAD들을 다시 조정하기 위한 해결안을 제공한다.

따라서, 다수의 VAD들이 동시에 작업하도록 하고 또한 출력들을 결합함으로써, 각 VAD들의 제약들을 너무 많이 겪는 일이 없이 상이한 VAD들로부터 강도를 이용할 수 있다.

과도한 활성을 줄이고자 원하는 상황에서 사용되게 되는 한 실시예에서, 제1VAD의 주 결정은 논리전 AND에 의해 외부 VAD로부터의 최종 결정과 결합된다. 외부 VAD는 바람직하게 제1VAD보다 적극적(공격적)(aggressive)이다. 적극적 VAD는 "정규(normal)" VAD와 비교하면 낮은 활성을 생성하도록 조정되거나/구성되는 VAD를 나타낸다. 적극적 VAD의 주 목적은, 정규/원래(orginal) VAD와 비교하면 과도한 양의 활성을 줄일 수 있어야 한다는 것이다. 이 적극성(aggressiveness)은, 예컨대 잡음 형태 SNR에 관한 몇몇 특정(또는 제한된 수의) 조건에 적용할 수만 있다는 것을 알아야 한다.

과도한 활성을 일으키는 일이 없이 활성을 부가하기는 원하는 상황에서 다른 실시예를 사용할 수 있고, 이 실시예에서 제1VAD의 주 결정은 논리전 OR에 의한 외부 VAD로부터의 주 결정과 결합될 수 있다.

그러므로, 본 발명의 제1특징에 따라, 수신한 입력신호에서 음성 활성을 검출하기 위한 음성 활성 검출기(VAD)에서의 방법이 제공된다. 이 방법에서, 주 VAD 결정을 나타내는 VAD의 주 음성 검출기로부터 신호가 수신되고 또한 적어도 한 신호는 적어도 한 외부 VAD로부터의 음성 활성 결정을 나타내는 적어도 하나의 외부 VAD로부터 수신된다. 수신신호들에서 표시되는 음성 활성 결정들은 결합되어 수정된 주 VAD 결정을 생성하고, 그리고 수정된 주 VAD 결정은 상기 VAD의 행오버 추가유닛에 전송된다.

본 발명의 실시예들의 제2특징에 따라, 음성 활성 검출기(VAD)가 제공된다. VAD는, 주 VAD 결정을 나타내는 상기 VAD의 주 음성 검출기로부터의 신호와 또한 적어도 하나의 외부 VAD로부터의 음성 활성 결정을 나타내는 적어도 하나의 외부 VAD로부터 적어도 하나의 신호를 수신하도록 구성되는 입력 섹션을 포함하는 수신 입력신호에서 음성 활성을 검출하도록 구성된다. VAD는 수정된 주 VAD 결정을 생성하기 위해 수신 신도들에서 표시되는 음성 활성 결정들을 결합하도록 구성되는 프로세서와 그리고 상기 VAD의 행오버 추가유닛에 수정된 주 VAD 결정을 전송하도록 구성되는 출력섹션을 더 포함한다.

하나 이사의 외부 VAD들과 현존하는 VAD를 결합함으로서, 프레임 분류(frame classification)과 코덱모드 선택과 같은 다른 코덱 기능들에 대한 필요 조건일 수 있는, 원래 VAD의 내부 상태들에 작은 영향만을 미치면서 전체 VAD 성능을 개선할 수 있게 된다.

본 발명의 실시예들의 다른 장점들은, 다수 VAD들의 사용이 정규 동작에, 즉 입력신호의 SNR이 훌륭할 때 영향을 미치지 않는다는 것이다. 정규 VAD 기능이 충분히 좋아 외부 VAD가 VAD의 작업 범위를 확장할 수 있을 때에만 영향을 미친다.

외부 VAD가 잡음을 야기시키는 문제점들에 대해 적절히 작동한다면, 실시예의 해결안은 외부 VAD가 제1VAD로부터의 주 결정을 무시하도록 하게 한다. 즉 배경 잡음에 대해서만 잘못된 활성을 방지한다.

또한, 보다 많은 외부 VAD의 추가는, 과도한 양의 활성을 줄이 수 있게 하거나 또는 추가적으로 이전에 절단된(clipped) 음성(또는 오디오)의 검출이 이루어지게 한다. 현재 입력 조건들에 결합논리의 적응화(adaptation)가, 외부 VAD들이 과도한 활성을 증가시키거나 또는 부수적인 음성 절단을 도입하는 것을 방지하기 위해 필요할 수 있다. 결합논리의 적응화는, 정규 VAD들이 적절히 작동하지 않는 것으로 확인된 입력 조건들(잡음 레벨, 또는 잡음 특성[정상/비정상]) 동안에만 사용되도록 되어야 한다.

본 발명에 따라서, 다수 VAD들의 사용이 정규 동작에, 즉 입력신호의 SNR이 훌륭할 때 영향을 미치지 않고, 정규 VAD 기능이 충분히 좋아 외부 VAD가 VAD의 작업 범위를 확장할 수 있을 때에만 영향을 미친다.

도 1은 선행기술에 따른 배경 추정을 가지는 포괄적 VAD를 보여주는 도면.
도 2 내지 5는 본 발명의 실시예들에 따른 다중 VAD 결합논리를 포함하는 배경 추정을 가지는 포괄적 VAD를 보여주는 도면.
도 6은 본 발명의 실시예들에 따른 결합논리를 설명하는 도면.
도 7은 본 발명의 실시예들에 따른 방법의 흐름도.

바람직한 실시예들이 도시된 첨부도면들을 참조하여 아래에서 본 발명의 실시예들을 상세히 설명할 것이다. 그러나, 실시예들은 많은 다른 형식으로 실시될 수 있고 또한 여기에서 주어진 실시예들에 제한되는 것으로서 이해하여서는 안되고, 차리리 이들 실시예들은, 본 명세서를 철저히 또한 완벽하게 하고 또한 본 기술분야의 당업자에게 본 발명의 범위를 완전히 전달하게 되도록 제공된다. 도면에서, 동일 요소들에는 동일 참조부호가 사용된다.

게다가, 본 기술분야의 당업자라면, 아래에서 설명되는 수단과 기능들은 프로그램된 마이크로프로세서 또는 일반적인 컴퓨터와 함께 기능하는 소프트웨어를 사용하여 및/또는 응용 특정 집적회로(ASIC)를 사용하여 구현될 수 있다는 것을 알 것이다. 또한, 현재의 실시예들은 주로 방법들과 장치들의 형식으로 기술되지만, 실시예들은 또한 컴퓨터 프로세서와 프로세서에 연결되는 메모리를 포함하는 시스템뿐만 아니라 컴퓨터 프로그램 제품에서 실시될 수 있고, 여기서 메모리는 여기에서 기술하는 기능을 수행할 수 있는 하나 이상의 프로그램들로 엔코드된다.

도 2는 도 1에 도시된 것과 같은 배경 추정을 가지는 제1VAD(199)를보여준다. 차이점은, VAD가 본 발명의 제1실시예에 따른 결합논리(145)를 더 포함한다는 것이다. 이 실시예에서, 제1VAD의 성능은, 행오버 추가(170) 전에 도입되는, 외부 VAD(198)에서 결합논리(145)로 외부 vad_flag_HE(190)의 도입으로 개선된다. 외부 VAD(198)를사용하는 방식은, 훌륭한 SNR 조건들 동안에 주 음성 활성 검출기(140)와 또한 VAD의 정상적인 가동에 영향을 미치지 않게 된다. vad_prim'(155)으로 부르는 새로운 주 결정을, 제1VAD로부터의 주 결정 vad_prim과 외부 VAD(198)로부터의 vad_flag_he(190)로 부르는 최종 결정 사이의 논리적 AND를 통해 형성함으로써, 그 결과는, VAD 의 과도한 활성을 피할 수 있게 된다는 것이다. 제1실시예가 도 3에 도시되어 있는데, 이 도면을 외부 VAD VAD2를 도식적으로 설명한다. 도 3을 아래에서 더 설명한다.

상기에서 기술한 실시예에 따른 외부 VAD로, 부수적인 잡음유형들에 대한 과도한 활성을 감소시킬 수 있다. 이는, 외부 VAD가 원래 VAD로부터 오 활성신호(false active signal)를 방지할 수 있기 때문에 이루어진다. 과도한 활성은, VAD가 단지 배경 잡음만 포함하는 프레임들에 대한 활성 음성을 나타낸다는 것을 의미한다. 이 과도한 활성은 보통, 1) 잡음(왁자지껄한 잡음)과 유사한 비정상적 음성의 결과이거나 또는 2) 배경 잡음 추정이 비정상적인 잡음 또는 입력신호들과 유사한 잘못 검출된 다른 음성으로 인해 적절히 작동하지 않기 때문이다.

제2실시예에 따라, 결합논리는, 제1VAD로부터의 주 결정 vad_prim과 외부 VAD로부터의 vad_prim_HE로 부르는 주 결정 간의 논리적 OR을 통해 vad_prim'로 부르는 새로운 주 결정을 형성한다. 이 방식에서, 활성을 부가하여 제1VAD로 의해 수행되는 원치 않는 절단(clipping)을 교정할 수 있다.

제2실시예가 도 4에 도시되어 있는데, 이 도면은 외부 VAD(198)를 보여주고, 결합논리(145)는 제1VAD(199)의 주 VAD(140)의 주 결정 vad_prim(105)과 외부 VAD(198)로부터의 vad_prim-he(190)로 부르는 주 결정 간의 논리적 OR를 통해 vad_prim'(155)로 부르는 주 결정을 형성한다. 이로써, 외부 VAD(198)는 제1VAD(199)에 의해 야기되는 절단을 피할 수 있게 된다. 그러므로, 외부 VAD(198)는 제1VAD(199)에 의해 야기되는 에러들을 교정할 수 있고, 이는 제1VAD(199)에 의해 잘못 검출된 활성을 외부 VAD(198)이 검출할 수 있다는 것을 의미한다. 과도한 활성을 증가시키는 것을 피하기 위하여, 외부 VAD의 주 결정을 사용하는 것이 유리하다.

지금부터 제3실시예를 보여주는 도 2에 대응하는 도 5를 참조한다. 제3실시예에서, 결합논리(145)는 제1VAD(140)로부터의 주 결정 vad_prim(150)과 외부 VAD로부터의 최종 결정(190a)과 주 결정(190b)들의 결합을 통해 vad_prim'(155)로 부르는 새로운 주 결정을 형성한다. 이는 도 5에 도시되어 있다. 이들 세 개의 결정들은 결합논니(145)에서 AND 및/또는 OR의 소정의 결합을 사용하여 결합될 수 있다. 한 예로서, 논리적 AND를 사용하여 외부 VAD의 최종 결정과 결합하기 전에 논리적 OR과 결합되게 되는 제1 및 외부 VAD들의 주 결정들을 사용할 수 있다. 그런 다음, 이전에 절단된 부분(segments)들을 검출할 수 있다.

제4실시예에 따라, 두 개 이상의 외부 VAD로부터의 VAD 결정들을 결합논리가 사용하여 새로운 Vad_prim'을 형성한다. VAD결정들은 주 및/또는 최종 VAD 결정들일 수 있다. 만일 두 개 이상의 VAD들이 사용된다면, 이들 외부 VAD들은 제1VAD와 결합에 앞서 결합될 수 있다. 예컨대, Vad_prim & (external_vad_1 & external_vad_2).

본 명세서에서, VAD의 주 결정은, 주 결정이 주 음성 활성 검출기에 의해 이루어졌다는 것을 나타낸다. 이 결정은 Vad_prim 또는 local VAD로 부른다. VAD의 최종 결정은, 행오버 추가 이후에 결정이 VAD에 의해 이루어졌다는 것을 나타낸다. 본 발명의 실시예들에 따른 결합된 논리가 VAD에 도입되고 또한 VAD의 Vad_prim 을 기반으로 한 Vad_prim'와 외부 VAD로부터의 외부 VAD 결정을 생성한다. 외부 VAD 결정은 하나 이상의 외부 VAD들의 주 결정 및/또는 최종 결정일 수 있다. 결합 논리는 제1VAD의 Vad_prim과 VAD 결정 또는 외부 VAD들로부터의 VAD결정들에 논리 AND와 논리 OR을 적용함으로써 Vad_prim'를 생성하도록 구성된다.

제1VAD와 외부 VAD의 블록도들인 도 3과 4를 참조한다. 블록도들은 실시예들에 따라 원래 VAD에 개선된 vad_prim의 생성을 위한 결합 논리로 원래 VAD(AVD1)와 외부 VAD(VAD2)로 구성되는 두 개의 VAD들을 보여준다.

도 3과 4에 나타난 바와 같이, 두 개의 VAD들은 특징 추출기를 공유한다. 외부 VAD는 수정된 배경 갱신(update)와 주 음성 활성 검출기를 사용할 수 있다. 상기 수정된 배경 갱신은 배경잡음 갱신 계획에서 수정을 포함하는 것으로서, 정상적인 잡음 갱신 교착상태 회복(deadlock recovery)을 늦추고 또한 잡음 추정이 잡음을 잘 추적하도록 잡음 갱신을 위한 다른 가능성을 부가한다. 수정된 주 음성 활성 검출기는 입력의 에너지 변동을 기반하여 중요한 임계와 갱신된 임계 적응화를 부가한다. 이들 두 수정들은 동시에 사용할 수 있다.

VAD1로 부르는 제1VAD에 대한 주 결정을 만들기 위하여, 변수 SNR 합(sum), snr_sum이 아래에서 나타내는 바와 같이 선행기술에서 입력신호가 활성음성(Vad_prim=1에 대응하는 localVAD=1)인지 또는 잡음(Vad_prim=0에 대응하는 localVAD=0)인지를 결정하기 위하여 계산된 임계 thr1과 비교된다:

본 발명의 실시예들에 따른 결합 논리를 사용하여, 논리적 AND가 제1VAD로부터의 localVAD와 그리고 vad_flag_he로 부르는, 외부 VAD로부터의 최종 결정에 적용된다. 즉, 결합논리를 사용을 통해, 만일 제1VAD로부터의 localVAD와 외부 VAD로부터의 vad_flag_he 둘 다가 활성이라면 주 음성 활성 검출기가 활성되게 된다. 즉,

손쉬운 확인을 위해 수정부분은 밑줄이 쳐 있다. vad_falg_he의 값이 필요하기 때문에, 그의 행오버 추가를 포함하는 외부 VAD에 대한 코드는, 수정된 VAD1 결정을 생성할 수 있기 전에 실행되어야할 필요가 있다.

제5실시예에서, 결합논리는 신호 적응화(signal adaptive)가 되도록 구성된다. 즉 현재 입력 신호 특성들에 따라 결합논리를 변경하도록 구성된다. 결합논리는 추정된 SNR에 따른다. 예컨대 만일 원래 VAD만이 좋은 조건에서 사용되도록 결합논리가 구성된다면 보다 많이 적극적인 제2VAD를 사용할 수 있다. 잡음이 있는 조건에서 적극적인 VAD는 실시예1에서와 같이 사용된다. 이러한 적응화로, 적극적인 VAD는 좋은 SNR 조건들에서 음성 절단을 도입할 수 없지만, 잡음이 있는 조건에서는, 절단된 음성 프레임들이 잡음에 의해 가려진다고 추정된다.

본 발명의 몇몇 실시예들의 한 목적은 비정상적 배경 잡음들에 대한 과도한 활성을 줄이는 것이다. 이는, 부호화된 혼합(음)의 활성(activity of mixtures)을 비교함으로써 객관적인 방법을 사용하여 측정할 수 있다. 그러나, 이러한 측정은, 활성의 감소가 음성에 영향을 미치기 시작하는 때를 나타내지 않는다, 즉 음성 프레임들이 배경잡음으로 교체되는 때를 나타내지 않는다. 배경잡음을 가지는 음성에서, 모든 음성프레임들 전부를 들을 수 없게 된다는 것을 알아야 한다. 몇몇 경우에서, 음성 프레임들은 가청품질의 저하를 도입하는 일이 없이 실제로 잡음과 교체될 수 있다. 이러한 이유로, 수정된 세크먼트들 중 몇몇의 주관적인 평가(subjective evaluation)를 사용하는 것이 중요하다.

아래에서 제시하는 객관적인 결과들은, 상이한 잡음 환경들과 신호 대 잡음비(SNR)에서 여러 언어로 이루어진 상이한 음성 샘플들에 관해, 조건들을 변경하면서 이루어진 배경잡음들과 음성의 혼합을 기반으로 한다.

상이한 잡음 샘플들과 상이한 SNR 조건들로 혼합(음)을 생성하였다. 잡음들은 비정상적 배경잡음들의 대표로서 전시회 소음, 사무실 소음 및 로비 소음들로 분류되었다. 음성과 잡음 파일들이 혼합되었고, 음성 레벨은 10 ~ 30㏈에서 -26 dBov 및 네 개의 상이한 SNR에 설정되었다.

그런 다음 준비한 샘플들을, 선행기술에 따른 원래 VAD를 가지는 코덱과 본 발명의 실시예들에 따른 (이중 VAD로 표시된)결합된 VAD 해결안을 사용하는 코덱을 사용하여 처리하였다.

객관적인 결과를 위해, 상이한 VAD 해결안들을 사용하는 상이한 코덱들에 의해 생성되는 음성 활성을 비교하였고 또한 결과들은 아래 표에서 찾아볼 수 있다. 표에서 활성 특징들은, 각각 120초인 완벽한 샘플들에 대해 즉정되었다는 것을 알아야 한다. 음성 절단(clip)의 레벨 조정 동안에 사용한 도구는, 깨끗함 음성 파일들의 음성 활성이 21.9%로 추정되었다는 것을 나타낸다.

활성 결과들의 요약표: 전체, 잡음 유형 및 SNR

결과는, 도 3에 도시된 본 발명의 한 실시예가 활성의 감소를 제공하는 것을 보여준다.

실시예들의 한 특징에 따라, VAD의 결합논리에서 방법이 도 7의 흐름도에 설명된 것과 같이 제공된다. VAD는 수신 입력신호에서 음성 활성을 검출하도록 구성된다. 주 VAD 결정을 나타내는 상기 VAD의 주 음성 검출기로부터의 신호와 적어도 하나의 외부 VAD로부터의 음성 활성 결정을 나타내는 적어도 하나의 외부 VAD로부터의 적어도 하나의 신호들이 수신된다(1101). 수신 신호들에서 표시되는 음성 활성 결정들은 결합되어(1102) 수정된 주 VAD 결정을 생성한다. 수정된 주 VAD 결정은 상기 VAD의 행오버 추가유닛으로 전송되어(1103) 최종 VAD 결정을 만드는데 사용되게 된다.

주 VAD로부터의 신호와 적어도 하나의 외부 VAD로부터의 신호 둘 다가 음성을 나타낼 때에만 상기 VAD의 수정된 주 VAD 결정이 음성을 나타내도록, 수신신호에서 음성 활성 결정들이 논리적 AND에 의해 결합될 수 있다.

게다가, 주 VAD로부터의 신호와 적어도 하나의 외부 VAD로부터의 신호중 적어도 하나의 신호가 음성을 나타낼 때 상기 VAD의 수정된 주 VAD 결정이 음성을 나타내도록, 수시 신호들에서 음성 활성 결정들이 논리적 OR에 의해 결합될 수 있다.

적어도 하나의 외부 VAD로부터의 적어도 하나의 신호는 최종 및/또는 주 VAD 결정인 외부 VAD로부터의 음성 활성 결정을 나타낼 수 있다.

실시예들의 다른 특징에 따라, 수신 입력신호에서 음성 활성을 검출하도록 구성되는 VAD가 도6에서와 같이 제공된다. VAD는 주 VAD 결정을 나타내는 상기 VAD의 주 음성 검출기로부터의 신호(150)와 적어도 하나의 외부 VAD로부터의 음성 활성 결정을 나타내는 적어도 하나의 외부 VAD로부터의 적어도 하나의 신호(190)를 수신하기 위한 입력섹션(502)을 포함한다. VAD는 수신신호들에서 나타나는 음성 활성 결정을 결합하여 수정된 주 VAD 결정을 생성하는 프로세서(503)와, 상기 VAD의 행오버 추가유닛에 수정된 주 VAD 결정(155)을 전송하기 위한 출력섹션(505)을 더 포함한다. VAD는 실시예들의 방법을 수행하기 위한 이력 정보와 소프트웨어 코드부분들을 저장하기 위한 메모리를 더 포함할 수 있다. 상기에서 예시한 바와 같이, 입력섹션(502)과, 프로세서(503)와, 메모리(504)와 출력섹션(505)은 VAD의 결합논리(145)에 내장될 수 있다는 것을 알아야만 한다.

한 실시예에 따라, 프로세서(503)는, 주 VAD로부터의 신호와 적어도 하나의 외부 VAD로부터의 신호 둘 다가 음성을 나타낼 때에만 상기 VAD의 수정된 주 VAD 결정이 음성을 나타내도록 수신신호들 내 음성 활성 결정들을 논리적 AND로 결합하도록 구성된다.

본 발명이 다른 실시예에 따라, 프로세서(503)는, 주 VAD로부터의 신호와 적어도 하나의 외부 VAD로부터의 신호들 중 적어도 하나가 음성을 나타낼 때 수신 신호들에서 음성 활성 결정들을 논리적 OR로 결합하도록 구성된다.

상기 설명과 관련 도면들에 제시된 지침들의 장점을 가지는, 기술한 본 발명의 수정안들과 다른 실시예들은 본 기술분야의 당업자게 자명하게 될 것이다. 따라서, 본 발명의 실시예들은 특정 실시예들에 제한되지 않고 또한 수정안들과 다른 실시예들은 이 명세서의 범위 내에 포함되는 것으로 이해하여야만 한다. 비록 특정 용어들을 여기에서 사용하였다 하더라도, 이들은 포괄적이고 또한 설명적인 의미이며, 제한의 목적은 아니다.

Claims

수신 입력신호에서 음성 활성을 검출하기 위한 음성 활성 검출기, VAD(196)에서의 방법에 있어서, 상기 방법은:
- 주 VAD 결정을 나타내는 상기 VAD의 주 음성 검출기로부터의 신호와 적어도 하나의 외부 VAD로부터의 음성 활성 결정을 나타내는 적어도 하나의 외부 VAD로부터의 적어도 하나의 신호를 수신하는 단계(1101)와,
- 수정된 주 VAD 결정을 생성하기 위하여 수신 신호들에서 표시되는 음성 활성 결정들을 결합하는 단계(1102)와, 그리고
- 수정된 주 VAD 결정을 상기 VAD의 행오버 추가유닛에 전송하는 단계(1103)를 포함하는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 수신 신호들에서 음성 활성 결정들은, 주 VAD로부터의 신호와 적어도 하나의 외부 VAD로부터의 신호 둘 다가 음성을 나타낼 때에만 상기 VAD의 수정된 주 VAD 결정이 음성을 나타내도록 논리적 AND로 결합되는 것을 특징으로 하는 방법.
제1항에 있어서, 상기 수신 신호들에서 음성 활성 결정들은, 주 VAD로부터의 신호와 적어도 하나의 외부 VAD로부터의 신호들 중 적어도 한 신호가 음성을 나타낼 때에 상기 VAD의 수정된 주 VAD 결정이 음성을 나타내도록 논리적 OR로 결합되는 것을 특징으로 하는 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 외부 VAD로부터의 음성 활성 결정을 나타내는 적어도 하나의 외부 VAD로부터의 적어도 하나의 신호는 최종 VAD 결정인 것을 특징으로 하는 방법.
제1항 내지 제3항 중 어느 한 항에 있어서, 외부 VAD로부터의 음성 활성 결정을 나타내는 적어도 하나의 외부 VAD로부터의 적어도 하나의 신호는 주 VAD 결정인 것을 특징으로 하는 방법.
제1항 내지 제5항 중 어느 한 항에 있어서, 적어도 하나의 외부 VAD는 하나의 단일 VAD인 것을 특징으로 하는 방법.
제1항 내지 제5항 중 어느 한 항에 있어서, 적어도 하나의 외부 VAD는 다수의 VAD들이 것을 특징으로 하는 방법.
제1항 내지 제7항 중 어느 한 항에 있어서, 음성 활성 결정들은 입력신호 특성들에 따라서 결합되는 것을 특징으로 하는 방법.
제8항에 있어서, 상기 입력신호 특성들은 추정된 신호-대-잡음비 및 배경 특성들 중 적어도 하나를 포함하는 것을 특징으로 하는 방법.
주 VAD 결정을 나타내는 상기 VAD의 주 음성 검출기로부터의 신호(150)와 그리고 적어도 하나의 외부 VAD(198)로부터의 음성 활성 결정을 나타내는 적어도 하나의 외부 VAD(198)로부터의 적어도 하나의 신호(190)를 수신하도록 구성되는 입력섹션(502)과, 수정된 주 VAD 결정(155)을 생성하기 위해 수신된 신호들(150, 190)들에서 표시되는 음성 활성 결정들을 결합하도록 구성되는 프로세서(503)와, 수정된 주 VAD 결정(155)을 상기 VAD(199)의 행오버 추가유닛으로 전송하도록 구성되는 출력섹션(505)을 포함하는, 수신 입력신호에서 음성 활성을 검출하도록 구성되는 음성 활성 검출기, VAD(190).
제10항에 있어서, 주 VAD로부터의 신호와 적어도 하나의 외부 VAD로부터의 신호 둘 다가 음성을 나타낼 때에만 상기 VAD의 수정된 주 VAD 결정이 음성을 나타내도록 수신 신호들 내 음성 활성 결정들을 논리적 AND로 결합하도록 상기 프로세서(503)가 구성되는 것을 특징으로 하는 VAD.
제10항에 있어서, 주 VAD로부터의 신호와 적어도 하나의 외부 VAD로부터의 신호들 중 적어도 한 신호가 음성을 나타낼 때에 상기 VAD의 수정된 주 VAD 결정이 음성을 나타내도록 수신 신호들 내 음성 활성 결정들을 논리적 OR로 결합하도록 상기 프로세서(503)가 구성되는 것을 특징으로 하는 VAD.
제10항 내지 제12항 중 어느 한 항에 있어서, 상기 외부 VAD로부터의 음성 활성 결정을 나타내는 적어도 하나의 외부 VAD로부터의 적어도 하나의 신호는 최종 VAD 결정인 것을 특징으로 하는 VAD.
제10항 내지 제12항 중 어느 한 항에 있어서, 외부 VAD로부터의 음성 활성 결정을 나타내는 적어도 하나의 외부 VAD로부터의 적어도 하나의 신호는 주 VAD 결정인 것을 특징으로 하는 VAD.
제10항 내지 제14항 중 어느 한 항에 있어서, 상기 적어도 하나의 외부 VAD 는 하나의 단일 VAD 인 것을 특징으로 하는 VAD.
제10항 내지 제14항 중 어느 한 항에 있어서, 상기 적어도 한의 외부 VAD는 다수의 VAD들인 것을 특징으로 하는 VAD.
제10항 내지 제16항 중 어느 한 항에 있어서, 음성 활성 결정들은 입력신호 특성들에 따라 결합되는 것을 특징으로 하는 VAD.
제17항에 있어서, 상기 입력신호 특성은 추정된 신호-대-잡음비와 배경 특성들 중 적어도 하나를 포함하는 것을 특징으로 하는 VAD.