KR100284772B1

KR100284772B1 - 음성 검출 장치 및 그 방법

Info

Publication number: KR100284772B1
Application number: KR1019990005685A
Authority: KR
Inventors: 조용덕; 김상룡; 김남수
Original assignee: 윤종용; 삼성전자주식회사
Priority date: 1999-02-20
Filing date: 1999-02-20
Publication date: 2001-03-15
Also published as: KR20000056399A

Abstract

음성 검출 장치 및 그 방법이 개시된다. 본 음성 검출 장치는 음성의 파워 스펙트럼을 입력하여 복수 개의 음성 스펙트럼 포인트들로 분해하고 각각이 처리하고자 하는 차수에 해당하는 포인트들로 이루어지는 복수 개의 스펙트럼 대역으로 그루핑하는 대역 분해부와, 상기 음성 스펙트럼 대역중에서 선택된 음성 스펙트럼 대역에서 잡음 성분을 제거함으로써 최적 음성신호 스펙트럼을 추정하는 스펙트럼 추정부와, 상기 음성 스펙트럼 대역중에서 선택된 음성 스펙트럼 대역에 대하여 잡음 분산을 평가하는 잡음 분산 평가부와, 상기 최적 음성 스펙트럼과 상기 잡음 분산을 입력하여 프라이어리 신호대잡음비를 계산하는 프라이어리 신호대잡음비 계산부와, 포스트라이어 신호대잡음비를 계산하는 포스트라이어 신호대잡음비 계산부와, 로그화 유사도를 계산하고 상기 음성 스펙트럼 대역에 대한 로그화 유사도 평균값을 계산함으로써 로그화 유사도 평균값을 출력하는 로그화 유사도 평균 계산부, 및 상기 로그화 유사도 평균값을 소정의 임계값과 비교하여 소정의 임계값보다 크면 활성상태(H₁)를 표시하고 그렇지 않으면 휴지상태(H₀)를 표시하는 제어신호를 출력하는 비교부를 포함하여, 잡음 환경하에서 음성을 검출할 때 활성음 검출율을 적정한 수준을 유지하면서도 허위 경보율이 현저히 낮아 안정된 활성음 검출율과 허위 경보율을 보장한다.

Description

음성 검출 장치 및 그 방법{Voice activity detecting device and method therof}

본 발명은 음성 검출 장치 및 그 방법에 관한 것으로, 더 상세하게는 배경 잡음이 혼합되어 있는 묵음신호를 음성신호와 구분하는 음성 검출 장치 및 그 방법에 관한 것이다.

음성을 전송하기 위한 이동통신 시스템에서는 채널 용량이 한정되어 있기 때문에, 음성 압축 기술이 사용되고 있다. 하지만, 일반적으로, 실제 음성 통신 과정에서는 음성이 존재하는 구간, 즉, 음성 구간이 전체 구간의 40 ~ 60%를 차지한다. 따라서, 음성이 없는 구간, 즉, 묵음 구간에서는 음성 구간보다 많이 압축한다. 이와 같이, 음성구간과 묵음 구간을 다른 압축률로 압축하기 위해서는 음성구간과 묵음 구간을 구분할 것이 요구된다. 음성구간과 묵음 구간을 구분하기 위한 기술은 음성 검출(Voice Activity Detection: VAD) 기술이라고 불리운다.

도 1에는 음성 검출(VAD) 장치를 적용한 음성 통신시스템의 일예를 블록도로써 도시하였다. 도 1을 참조하면, 음성 검출(VAD) 장치를 적용한 일반적인 음성 통신시스템은 전송단과 수신단을 구비한다. 전송단은 음성 검출부(VAD), 활성음 인코더(active voice encoder), 휴지음 인코더(inactive voice encoder), 및 스위칭 수단을 구비한다. 또한, 수신단은 활성음 디코더(active voice decoder), 휴지음 디코더(inactive voice decoder), 및 스위칭 수단을 구비한다.

전송시에, 음성 검출부(VAD)는 음성의 존재 여부를 식별하여, 음성의 존재 여부를 표시하는 제어신호를 출력한다. 상기 제어신호는 음성이 존재하는 구간에서는 활성상태(active)임을 표시하고, 음성이 존재하지 않는 구간에서는 휴지상태(inactive)임을 표시한다. 활성상태임을 표시하는 제어신호가 입력되면 입력 음성 신호는 활성음 인코더(active voice encoder)로 절환되어 낮은 압축률로 압축되고, 휴지상태를 표시하는 제어신호가 입력되면 입력 음성 신호는 휴지음 인코더(inactive voice encoder)로 절환되어 높은 압축률로 압축된다. 또한, 활성음 인코더와 휴지음 인코더는 자신들이 압축된 음성 신호가 음성 구간인지 묵음구간인지를 표시하는 음성검출(VAD) 식별 플래그를 함께 출력한다. 높은 압축률로 압축된 음성신호와 낮은 압축률로 압축된 음성신호는 음성검출(VAD) 식별 플래그와 함께 통신채널을 통하여 전송된다.

수신시에는, 음성압축(VAD) 식별 플래그에 따라 활성음 디코딩 또는 휴지음 디코딩을 수행한다. 즉, 음성압축(VAD) 식별 플래그가 활성음임을 표시하면 활성음 디코더가 활성음 인코더에 의하여 낮은 압축률로 압축된 음성신호를 디코딩함으로써 활성음을 복원한다. 또한, 음성압축(VAD) 식별 플래그가 휴지음임을 표시하면 휴지음 디코더가 휴지음 인코더에서 높은 압축률로 압축된 음성신호를 디코딩함으로써 휴지음을 복원한다. 이로써, 활성음으로 결정되는 음성 구간과 휴지음으로 결정되는 묵음 구간이 다른 압축율로 전송되고 복원된다.

도 2에는 음성 검출 장치의 일반적인 구조를 블록도로써 도시하였다. 도 2를 참조하면, 일반적인 음성 검출 장치는 매개 변수(parameter) 추출부, 배경잡음 추정부, 유사도(likelihood) 측정부, 비교부, 및 행오버(hang-over) 처리부를 구비한다.

매개변수 추출부는 잡음이 혼합되어 있을 수 있는 입력 음성신호에서 파워 스펙트럼등과 같은 매개 변수를 추출한다. 이러한 매개변수 추출부는 계산량의 증가를 피하기 위하여 보코더(vocoder)의 인코딩부에서 생성한 매개변수를 사용하는 것이 일반적이다. 다음으로 배경잡음 추정부는 입력 음성 신호의 매개 변수를 사용하여 배경 잡음을 추출하고, 유사도 측정부에서는 입력 매개 변수와 배경 잡음을 비교함으로써 얼마만큼 유사한지를 나타내는 유사도를 측정한다. 다음에는 유사도를 소정의 임계값과 비교함으로써 활성음인지 휴지음인지를 결정한다. 또한, 행오버(hang-over)처리부는 일정 길이만큼 연속적으로 휴지상태인 것으로 나타나면 휴지상태인 것으로 결정함으로써 유음신호(voiced signal)가 묵음신호(unvoiced signal)로 처리되는 오류를 방지한다.

종래기술에서 사용되는 음성 검출(VAD) 방법으로는 TIA IS-96, TIA IS-127, GSM-HR/EFR VAD, 및 ITU-T G.729B가 표준화되어 있다.

도 3에는 CDMA 디지털 셀룰러 시스템의 TIA IS-96 QCELP 8 kbits/s 보코더에서 적용되는 종래의 음성 검출 장치의 구조를 블록도로써 도시하였다. 도 3을 참조하여, 상기 장치의 동작을 설명하면, 배경잡음 평가부는 스칼라량인 음성 신호의 에너지 성분을 입력하여 배경잡음을 평가한다. 평가된 배경잡음은 피드백되어 다음 음성 신호의 배경 잡음 평가에 사용된다. 임계값 갱신부는 배경잡음의 평가 결과에 따라 반복적으로 임계값을 갱신하고, 갱신된 임계값(T₁, T₂, T₃)을 출력한다. 비교부는 음성신호의 에너지 성분을 갱신된 임계값과 비교하여 입력된 음성이 활성 상태, 휴지 상태, 및 혼합 상태인지를 결정한다.

음성검출(VAD) 방법의 다른 종래기술이 GSM EFR(enhanced full-rate) 보코더에서 사용되고 있다. 상기 방법에 따르면, 입력 음성과 배경잡음의 정규화된 AR 스펙트럼 포락선 사이의 변화를 측정함으로써, 그 변화가 임계값보다 크면 활성상태, 그렇지 않으면 휴지상태로 판정한다. 하지만, 이 방법은 음성을 음성인 것으로 바르게 인식하는 비율인 활성음 검출율(active voice detection rate)은 높지만, 음성 검출에 의한 압축율이 낮고, 신호 대 잡음비(SNR)가 감소하면 묵음을 음성인 것으로 오판하는 비율인 허위경보율(false alarm rate)이 높다는 문제점이 있다.

또 다른 종래기술이 ITU-T G.729B 표준에 나타내어져 있다. 상기 표준의 음성 검출(VAD) 방법에 따르면, 대역 에너지, 선 스펙트럼 쌍, 및 영 교차율(zero-crossing rate: ZCR)을 사용하여, 활성 상태 또는 휴지상태인지를 판정한다.

하지만, 이 방법은 허위경보율(false alarm rate)은 낮지만, 신호 대 잡음비(SNR)가 감소하면 활성음 검출율(active voice detection rate)이 저하된다는 단점이 있다.

본 발명이 이루고자 하는 기술적 과제는 안정된 활성음 검출율과 허위 경보율을 보장하는 음성 검출장치를 제공하는 것이다.

본 발명이 이루고자 하는 다른 기술적 과제는 상기 장치에서 구현되는 음성 검출 방법을 제공하는 것이다.

도 1은 음성 검출 장치를 적용한 음성 통신시스템의 일예를 도시한 블록도이다.

도 2는 음성 검출 장치의 일반적인 구조를 도시한 블록도이다.

도 3은 CDMA 디지털 셀룰러 시스템의 TIA IS-96 QCELP 8 kbits/sec 보코더에서 적용되는 종래의 음성 검출 장치의 구조를 도시한 블록도이다.

도 4는 본 발명의 실시예에 따른 음성 검출 장치의 구조를 도시한 블록도이다.

도 5는 본 발명의 실시예에 따른 음성 검출 방법의 주요 단계들을 도시한 흐름도이다.

도 6a와 도 6b는 본 발명에 따른 음성 검출 장치에 의하여 자동차 잡음이 포함된 음성을 검출할 때 활성음 검출율과 허위 경보율을 측정한 결과를 각각 나타낸 그래프이다.

도 7a와 도 7b는 본 발명에 따른 음성 검출 장치에 의하여 웅성거림(babble) 잡음이 포함된 음성을 검출할 때 활성음 검출율과 허위 경보율을 측정한 결과를 각각 나타낸 그래프이다.

<도면의 주요 부분에 대한 부호의 설명>

404...대역 분해부, 406...스펙트럼 추정부,

408...잡음분산 추정부, 410a...포스트라이어 SNR 계산부,

410b...프라이어리 SNR 계산부, 414...로그화 유사도 평균 계산부,

416...비교부.

상기 과제를 이루기 위하여 본 발명의 일태양에 따른 음성 검출 장치는 음성의 파워 스펙트럼을 입력하여 복수 개의 음성 스펙트럼 포인트들로 분해하고 각각이 처리하고자 하는 차수에 해당하는 포인트들로 이루어지는 복수 개의 스펙트럼 대역으로 그루핑하는 대역 분해부; 상기 복수개의 음성 스펙트럼 대역중에서 선택된 음성 스펙트럼 대역에서 잡음 성분을 제거함으로써 최적 음성신호 스펙트럼을 추정하는 스펙트럼 추정부; 상기 복수개의 음성 스펙트럼 대역중에서 선택된 음성 스펙트럼 대역에 대하여 잡음 분산을 평가하는 잡음 분산 평가부; 상기 최적 음성 스펙트럼과 상기 잡음 분산을 입력하여 프라이어리 신호대잡음비를 계산하는 프라이어리 신호대잡음비 계산부; 상기 음성 스펙트럼과 상기 잡음 분산을 입력하여 포스트라이어 신호대잡음비를 계산하는 포스트라이어 신호대잡음비 계산부; 상기 포스트라이어 신호대잡음비와 상기 프라이어리 신호대잡음비를 사용하여 로그화 유사도를 계산하고, 상기 복수개의 음성 스펙트럼 대역에 대한 로그화 유사도 평균값을 계산함으로써 로그화 유사도 평균값을 출력하는 로그화 유사도 평균 계산부; 및 상기 로그화 유사도 평균값을 소정의 임계값과 비교하여 소정의 임계값보다 크면 활성상태(H₁)를 표시하고 그렇지 않으면 휴지상태(H₀)를 표시하는 제어신호를 출력하는 비교부;를 포함하는 것을 특징으로 한다.

또한, 상기 과제를 이루기 위하여 본 발명의 타태양에 따른 음성 검출 장치는 음성의 파워 스펙트럼을 입력하여 파워스펙트럼의 차수를 M이라 하고, 처리하고자 하는 차수를 K라 할 때 K차의 음성 스펙트럼 대역으로 분해하고 그루핑하는 대역 분해부; 상기 K차의 음성 스펙트럼 대역에서 잡음 성분을 제거함으로써 최적 음성신호 스펙트럼을 추정하는 스펙트럼 추정부; 상기 K차의 음성 스펙트럼 대역에 대하여 잡음 분산을 평가하는 잡음 분산 평가부; 상기 최적 음성 스펙트럼과 상기 잡음 분산을 입력하여 프라이어리 신호대잡음비를 계산하는 프라이어리 신호대잡음비 계산부; 상기 음성 스펙트럼과 상기 잡음 분산을 입력하여 포스트라이어 신호대잡음비를 계산하는 포스트라이어 신호대잡음비 계산부; 상기 포스트라이어 신호대잡음비와 상기 프라이어리 신호대잡음비를 사용하여 로그화 유사도를 계산하고, K차의 음성 스펙트럼 대역에 대하여 로그화 유사도 평균값을 계산함으로써 로그화 유사도 평균값을 출력하는 로그화 유사도 평균 계산부; 및 상기 로그화 유사도 평균값을 소정의 임계값과 비교하여 소정의 임계값보다 크면 활성상태(H₁)를 표시하고 그렇지 않으면 휴지상태(H₀)를 표시하는 제어신호를 출력하는 비교부;를 포함하는 것을 특징으로 한다.

상기 스펙트럼 추정부는 최적 스펙트럴 추정 방법인 최소평균제곱오차(minimum mean-square error: MMSE) 계산 방법에 따라 최적 음성 스펙트럼을 구하는 것이 바람직하다.

대안적으로, 상기 스펙트럼 추정부는 최적 스펙트럴 추정 방법인 로그 스펙트럼에서의 최소평균제곱오차(MMSE) 계산 방법에 따라 최적 음성 스펙트럼을 구하여도 무방하다.

또한, 대안적으로, 상기 스펙트럼 추정부는 최적 스펙트럴 추정 방법인 최대 유사도(maximal likelihood: ML) 계산 방법에 따라 최적 음성 스펙트럼을 구하여도 무방하다.

또한, 대안적으로, 상기 스펙트럼 추정부는 최적 스펙트럴 추정 방법인 위너(Winner) 필터링 계산 방법에 따라 최적 음성 스펙트럼을 구하여도 무방하다.

또한, 상기 프라이어리 신호대잡음비 계산부는라 할 때, 프라이어리 신호대잡음비를를를 사용하여 구하는 것이 바람직하다.

상기 다른 과제를 이루기 위하여 본 발명의 일태양에 따른 음성 검출 방법은 음성의 파워 스펙트럼을 입력하여 복수 개의 음성 스펙트럼 포인트들로 분해하고 각각이 처리하고자 하는 차수에 해당하는 포인트들로 이루어지는 복수 개의 스펙트럼 대역으로 그루핑하는 단계; 상기 복수개의 음성 스펙트럼 대역중에서 선택된 음성 스펙트럼 대역에서 잡음 성분을 제거함으로써 최적 음성신호 스펙트럼을 추정하는 단계; 상기 복수개의 음성 스펙트럼 대역중에서 선택된 음성 스펙트럼 대역에 대하여 잡음 분산을 평가하는 단계; 상기 최적 음성 스펙트럼과 상기 잡음 분산을 입력하여 프라이어리 신호대잡음비를 계산하는 단계; 상기 음성 스펙트럼과 상기 잡음 분산을 입력하여 포스트라이어 신호대잡음비를 계산하는 단계; 상기 포스트라이어 신호대잡음비와 상기 프라이어리 신호대잡음비를 사용하여 로그화 유사도를 계산하고, 상기 복수개의 음성 스펙트럼 대역에 대한 로그화 유사도 평균값을 계산함으로써 로그화 유사도 평균값을 출력하는 단계; 및 상기 로그화 유사도 평균값을 소정의 임계값과 비교하여 소정의 임계값보다 크면 활성상태(H₁)를 표시하고 그렇지 않으면 휴지상태(H₀)를 표시하는 단계;를 포함하는 것을 특징으로 한다.

또한, 상기 다른 과제를 이루기 위하여 본 발명의 타태양에 따른 음성 검출 방법은 음성의 파워 스펙트럼을 입력하는 단계; 파워 스펙트럼의 차수를 M이라 하고, 처리하고자 하는 차수를 K라 할 때 K차의 음성 스펙트럼 대역으로 분해하고 그루핑하는 단계; 상기 K차의 음성 스펙트럼 대역에서 잡음 성분을 제거함으로써 최적 음성신호 스펙트럼을 추정하는 단계; 상기 K차의 음성 스펙트럼 대역에 대하여 잡음 분산을 평가하는 단계; 상기 최적 음성 스펙트럼과 상기 잡음 분산을 입력하여 프라이어리 신호대잡음비를 계산하는 단계; 상기 음성 스펙트럼과 상기 잡음 분산을 입력하여 포스트라이어 신호대잡음비를 계산하는 단계; 상기 포스트라이어 신호대잡음비와 상기 프라이어리 신호대잡음비를 사용하여 로그화 유사도를 계산하는 단계; K차의 음성 스펙트럼 대역에 대하여 로그화 유사도 평균값을 계산하는 단계; 및 상기 로그화 유사도 평균값을 소정의 임계값과 비교하여 소정의 임계값보다 크면 활성상태(H₁)를 표시하고 그렇지 않으면 휴지상태(H₀)를 표시하는 단계;를 포함하는 것을 특징으로 한다.

상기 로그화 유사도 평균값 계산 단계는 음성이 없다는 가설이 성립할 확률을라 할 때,를 계산하는 단계, 음성이 있다는 가설이 성립할 확률을라 할 때,를 계산하는 단계; 및 유사도를 계산하는 단계;를 포함하는 것이 바람직하다.

이하 첨부된 도면들을 참조하여 본 발명에 따른 음성 검출 장치 및 그 방법의 바람직한 실시예들을 상세히 설명하기로 한다.

도 4에는 본 발명의 실시예에 따른 음성 검출 장치의 구조를 블록도로써 나타내었다. 또한, 도 5에는 상기 장치내에 구현되는 본 발명에 따른 음성 검출 방법의 주요 단계를 흐름도로써 나타내었으며, 이하에서 수시로 참조된다. 도 4를 참조하면, 본 발명에 의한 음성 검출장치는 대역 분해부(404), 음성 스펙트럼 추정부(406), 잡음분산 추정부(408), 포스트라이어 SNR 계산부(410a), 프라이어리 SNR 계산부(410b), 로그화 유사도 평균 계산부(414), 및 비교부(416)를 구비한다.

상기와 같은 음성 검출장치의 동작을 설명하면, 먼저, 대역 분해부(404)는 음성의 파워 스펙트럼을 입력(단계 502)하여 파워스펙트럼의 차수를 M이라 하고, 처리하고자 하는 차수를 K라 할 때,

에 의하여 K차의 음성 스펙트럼 대역으로 분해하고 그루핑한다(단계 504).

스펙트럼 추정부(406)는 상기 K차의 음성 스펙트럼 대역에서 잡음 성분을 제거함으로써 최적 음성신호 스펙트럼을 추정한다(단계 506). 본 실시예에서는 상기 스펙트럼 추정부는 최적 스펙트럴 추정 방법인 최소평균제곱오차(minimum mean-square error: MMSE) 계산 방법에 따라, 다음에 설명되어질 이전 입력 음성신호의 포스트라이어 신호대잡음비와 포스트라이어 신호대잡음비를 각각,라 할 때

를 계산함으로써 최적 음성 스펙트럼을 구한다. 본 실시예에서는 최적 스펙트럴 추정 방법으로서 최소평균제곱오차(minimum mean-square error: MMSE) 계산 방법을 사용하는 것으로 가정하여 설명하였으나, 이에 한정하지 않으며, 당업자에 의하여 이해되어지는 바와 같이 음성 스펙트럼을 추정하는 다른 방법을 사용하여도 무방하다. 예를들어, 대안적으로, 상기 스펙트럼 추정부는 다른 최적 스펙트럴 추정 방법으로서 로그 스펙트럼에서의 최소평균제곱오차(MMSE) 계산 방법에 따라 최적 음성 스펙트럼을 구하도록 구현하는 것도 가능하다. 이 경우, 입력 음성신호는 음성신호에 잡음신호가 부가되어 있다고 할 때, 입력 음성신호에서 추정 잡음신호를 제거한 최적 음성 스펙트럼은,

에 의하여 구할 수 있다.

대안적으로, 상기 스펙트럼 추정부는 또 다른 최적 스펙트럴 추정 방법인 최대 유사도(maximal likelihood: ML) 계산 방법에 따라

에 의하여 최적 음성 스펙트럼을 구하도록 구현하는 것도 가능하다.

대안적으로, 최적 스펙트럴 추정 방법인 위너(Winner) 필터링 계산 방법에 따라 최적 음성 스펙트럼:

을 구하는 것도 가능하다.

프라이어리 신호대잡음 계산부는 프라이어리 신호대 잡음비를 이상에서 설명한 바와 같은 스펙트럼 추정방법들에 의하여도 구할 수 있지만, 보다 자연스러운(smooth) 신호대잡음비 값의 변화를 위해서는 음성 개선 (speech enhancement) 기술 분야에서 사용되는 디시전-디렉티드(decision-ditected) 방식을 사용하는 것이 보다 바람직하다. 즉, 프라이어리 신호대잡음비를라 할 때, 포스트 신호대잡음비와 프라이어리 신호대잡음비의 가중적 합을 구하는 다음 식,

를 사용하여 구하는 것이 보다 효과적이며, 그 효과는 이하에서 설명될 특성 평가 결과에서 나타내어진다.

한편, 잡음과 입력 음성신호가 복소 가우시안(complex Gaussian) 분포를 이루고 있다고 가정하면,번째 대역 크기의 잡음분산을,번째 대역 크기의 음성분산을라 하고, 음성이 없다는 가설이 성립할 확률 분포와 음성이 있다는 가설이 성립할 확률 분포는,

와 같다.

다음으로, 잡음분산 추정부(408)는 상기 K차의 음성 스펙트럼 대역에 대하여 잡음 분산을 추정한다(단계 508). 잡음 분산은,을라 할 때,예를들어,

을 사용하여 구할 수 있는데, 본 실시예에서는 2.5로 고정하여 사용한다.

다음으로,포스트라이어 SNR 계산부(410a)는 상기 음성 스펙트럼과 상기 잡음 분산을 입력하여 포스트라이어 신호대잡음비를 계산한다(단계 510a).

또한, 프라이어리 SNR 계산부(410b)는 상기 최적 음성 스펙트럼과 상기 잡음 분산을 입력하여 프라이어리 신호대잡음비를 계산한다(단계 510b).

다음으로, 로그화 유사도 계산부(414)는 유사도를

를 사용하여 계산하고,

를 사용하여, 로그화 유사도를 계산한다(단계 512). 다음에는, K차의 음성 스펙트럼 대역에 대하여,

을 사용하여 계산(단계 514)함으로써 로그화 유사도 평균값을 출력한다.

비교부(416)는 상기 로그화 유사도 평균값을 소정의 임계값과 비교(단계 516)하여 소정의 임계값보다 크면 입력 음성신호에 음성신호와 잡음이 혼재하는 활성상태(H₁)를 표시하고, 그렇지 않으면 입력 음성신호에 잡음만 존재하는 휴지상태(H₀)를 표시하는 제어신호를 출력한다.

상기와 같은 본 발명에 의한 음성 검출 장치의 효과를 검증하기 위하여 성능 평가를 수행하였다. 음성 스펙트럼 추정은 로그 스펙트럼을 사용한 MMSE 방법을 적용하였다. 음성 입력은 NTT-AT에서 시디롬으로 제작한 한국인 음성 샘플을 사용하였다. 테스트 음성은 남자 4명, 여자 4명이 각각 8초씩 발성하였으며, 테스트 데이터에서 활성음은 약 50%를 차지한다. 잡음의 환경에 의한 영향을 평가하기 위하여, 자동차(vehicle) 잡음과 웅성거림(babble) 잡음을 사용하였다. 잡음의 양은 신호대잡음비를 25, 15, 5, 0 dB로 조절하면서 평가하였다. 음성과 묵음의 구분은 수작업으로 표시하였다. 또한, 종래의 음성 검출 방법을 비교 실험하였다.

도 6a와 도 6b에는 본 발명에 따른 음성 검출장치에 의하여 자동차 잡음이 포함된 음성을 검출할 때 활성음 검출율과 허위 경보율을 측정한 결과 그래프를 각각 나타내었으며, 도 7a와 도 7b에는 웅성거림(babble) 잡음이 포함된 음성을 검출할 때 활성음 검출율과 허위 경보율을 측정한 결과를 각각 나타내었다. 또한, 도 6a, 도 6b, 도 7a, 및 도 7b에는 G.729B와 GSM-EFR 표준의 방법에 의하여 음성을 검출할 때 활성음 검출율과 허위 경보율을 측정한 결과를 비교 도시하였다.

도 6a와 도 6b를 참조하면, 본 발명의 장치에 구현된 음성 검출 방법은 자동차 잡음 환경에서 음성 검출시 낮은 신호대잡음비에서 G.729B 음성 검출 방법 표준보다 활성음 검출율이 높고, G.729B나 GSM-EFR 표준의 음성검출 방법에 비하여 허위경보율이 현저히 낮음을 알 수 있다.

또한, 도 6a와 도 6b를 참조하면, 본 발명의 장치에 구현된 음성 검출 방법은 웅성거림 잡음 환경하에서 음성 검출시 낮은 신호대잡음비에서 활성음 검출율이 G.729B와 GSM-EFR 방법에 필적하는 수준을 유지하면서도 허위 경보율은 GSM-EFR 방법에 비하여 현저히 낮음을 알 수 있다.

상술한 바와 같이 본 발명에 따른 음성 검출 장치 및 그 방법은 잡음 환경하에서 음성을 검출할 때 활성음 검출율을 적정한 수준을 유지하면서도 허위 경보율이 현저히 낮아 안정된 활성음 검출율과 허위 경보율을 보장한다.

Claims

입력 음성에 대하여 음성 구간인지 묵음 구간인지를 식별하여, 음성구간인 경우에는 활성상태를 표시하고 그렇지 않으면 휴지상태를 표시하는 제어신호를 출력하는 음성 검출장치에 있어서,

음성의 파워 스펙트럼을 입력하여 복수 개의 음성 스펙트럼 포인트들로 분해하고 각각이 처리하고자 하는 차수에 해당하는 포인트들로 이루어지는 복수 개의 스펙트럼 대역으로 그루핑하는 대역 분해부;

상기 복수개의 음성 스펙트럼 대역중에서 선택된 음성 스펙트럼 대역에서 잡음 성분을 제거함으로써 최적 음성신호 스펙트럼을 추정하는 스펙트럼 추정부;

상기 복수개의 음성 스펙트럼 대역중에서 선택된 음성 스펙트럼 대역에 대하여 잡음 분산을 평가하는 잡음 분산 평가부;

상기 최적 음성 스펙트럼과 상기 잡음 분산을 입력하여 프라이어리 신호대잡음비를 계산하는 프라이어리 신호대잡음비 계산부;

상기 음성 스펙트럼과 상기 잡음 분산을 입력하여 포스트라이어 신호대잡음비를 계산하는 포스트라이어 신호대잡음비 계산부;

상기 포스트라이어 신호대잡음비와 상기 프라이어리 신호대잡음비를 사용하여 로그화 유사도를 계산하고, 상기 복수개의 음성 스펙트럼 대역에 대한 로그화 유사도 평균값을 계산함으로써 로그화 유사도 평균값을 출력하는 로그화 유사도 평균 계산부; 및

상기 로그화 유사도 평균값을 소정의 임계값과 비교하여 소정의 임계값보다 크면 활성상태(H₁)를 표시하고 그렇지 않으면 휴지상태(H₀)를 표시하는 제어신호를 출력하는 비교부;를 포함하는 것을 특징으로 하는 음성 검출장치.
입력 음성에 대하여 음성 구간인지 묵음 구간인지를 식별하여, 음성구간인 경우에는 활성상태를 표시하고 그렇지 않으면 휴지상태를 표시하는 제어신호를 출력하는 음성 검출장치에 있어서,

음성의 파워 스펙트럼을 입력하여 파워스펙트럼의 차수를 M이라 하고, 처리하고자 하는 차수를 K라 할 때 K차의 음성 스펙트럼 대역으로 분해하고 그루핑하는 대역 분해부;

상기 K차의 음성 스펙트럼 대역에서 잡음 성분을 제거함으로써 최적 음성신호 스펙트럼을 추정하는 스펙트럼 추정부;

상기 K차의 음성 스펙트럼 대역에 대하여 잡음 분산을 평가하는 잡음 분산 평가부;

상기 최적 음성 스펙트럼과 상기 잡음 분산을 입력하여 프라이어리 신호대잡음비를 계산하는 프라이어리 신호대잡음비 계산부;

상기 음성 스펙트럼과 상기 잡음 분산을 입력하여 포스트라이어 신호대잡음비를 계산하는 포스트라이어 신호대잡음비 계산부;

상기 포스트라이어 신호대잡음비와 상기 프라이어리 신호대잡음비를 사용하여 로그화 유사도를 계산하고, K차의 음성 스펙트럼 대역에 대하여 로그화 유사도 평균값을 계산함으로써 로그화 유사도 평균값을 출력하는 로그화 유사도 평균 계산부; 및

상기 로그화 유사도 평균값을 소정의 임계값과 비교하여 소정의 임계값보다 크면 활성상태(H₁)를 표시하고 그렇지 않으면 휴지상태(H₀)를 표시하는 제어신호를 출력하는 비교부;를 포함하는 것을 특징으로 하는 음성 검출장치.
제2항에 있어서, 상기 스펙트럼 추정부는 최적 스펙트럴 추정 방법인 최소평균제곱오차(minimum mean-square error: MMSE) 계산 방법에 따라 이전 입력 음성신호의 포스트라이어 신호대잡음비와 포스트라이어 신호대잡음비를 각각,라 하고,라 할 때, 최적 음성 스펙트럼을,

를 사용하여 구하는 것을 특징으로 하는 음성 검출장치.
제2항에 있어서, 상기 스펙트럼 추정부는 최적 스펙트럴 추정 방법인 로그 스펙트럼에서의 최소평균제곱오차(MMSE) 계산 방법에 따라 최적 음성 스펙트럼:

을 구하는 것을 특징으로 하는 음성 검출장치.
제2항에 있어서, 상기 스펙트럼 추정부는 최적 스펙트럴 추정 방법인 최대 유사도(maximal likelihood: ML) 계산 방법에 따라 최적 음성 스펙트럼:

을 구하는 것을 특징으로 하는 음성 검출장치.
제2항에 있어서, 상기 스펙트럼 추정부는 최적 스펙트럴 추정 방법인 위너(Winner) 필터링 계산 방법에 따라 최적 음성 스펙트럼:

을 구하는 것을 특징으로 하는 음성 검출장치.
제2항에 있어서, 상기 프라이어리 신호대잡음비 계산부는라 할 때, 프라이어리 신호대잡음비를,

를 사용하여 구하는 것을 특징으로 하는 음성 검출장치.
입력 음성에 대하여 음성 구간인지 묵음 구간인지를 식별하여, 음성구간인 경우에는 활성상태를 표시하고 그렇지 않으면 휴지상태를 표시하는 음성 검출 방법에 있어서,

음성의 파워 스펙트럼을 입력하여 복수 개의 음성 스펙트럼 포인트들로 분해하고 각각이 처리하고자 하는 차수에 해당하는 포인트들로 이루어지는 복수 개의 스펙트럼 대역으로 그루핑하는 단계;

상기 복수개의 음성 스펙트럼 대역중에서 선택된 음성 스펙트럼 대역에서 잡음 성분을 제거함으로써 최적 음성신호 스펙트럼을 추정하는 단계;

상기 복수개의 음성 스펙트럼 대역중에서 선택된 음성 스펙트럼 대역에 대하여 잡음 분산을 평가하는 단계;

상기 최적 음성 스펙트럼과 상기 잡음 분산을 입력하여 프라이어리 신호대잡음비를 계산하는 단계;

상기 음성 스펙트럼과 상기 잡음 분산을 입력하여 포스트라이어 신호대잡음비를 계산하는 단계;

상기 포스트라이어 신호대잡음비와 상기 프라이어리 신호대잡음비를 사용하여 로그화 유사도를 계산하고, 상기 복수개의 음성 스펙트럼 대역에 대한 로그화 유사도 평균값을 계산함으로써 로그화 유사도 평균값을 출력하는 단계; 및

상기 로그화 유사도 평균값을 소정의 임계값과 비교하여 소정의 임계값보다 크면 활성상태(H₁)를 표시하고 그렇지 않으면 휴지상태(H₀)를 표시하는 단계;를 포함하는 것을 특징으로 하는 음성 검출 방법.
입력 음성에 대하여 음성 구간인지 묵음 구간인지를 식별하여, 음성구간인 경우에는 활성상태를 표시하고 그렇지 않으면 휴지상태를 표시하는 음성 검출 방법에 있어서,

음성의 파워 스펙트럼을 입력하는 단계;

파워 스펙트럼의 차수를 M이라 하고, 처리하고자 하는 차수를 K라 할 때 K차의 음성 스펙트럼 대역으로 분해하고 그루핑하는 단계;

상기 K차의 음성 스펙트럼 대역에서 잡음 성분을 제거함으로써 최적 음성신호 스펙트럼을 추정하는 단계;

상기 K차의 음성 스펙트럼 대역에 대하여 잡음 분산을 평가하는 단계;

상기 최적 음성 스펙트럼과 상기 잡음 분산을 입력하여 프라이어리 신호대잡음비를 계산하는 단계;

상기 음성 스펙트럼과 상기 잡음 분산을 입력하여 포스트라이어 신호대잡음비를 계산하는 단계;

상기 포스트라이어 신호대잡음비와 상기 프라이어리 신호대잡음비를 사용하여 로그화 유사도를 계산하는 단계;

K차의 음성 스펙트럼 대역에 대하여 로그화 유사도 평균값을 계산하는 단계; 및

상기 로그화 유사도 평균값을 소정의 임계값과 비교하여 소정의 임계값보다 크면 활성상태(H₁)를 표시하고 그렇지 않으면 휴지상태(H₀)를 표시하는 단계;를 포함하는 것을 특징으로 하는 음성 검출 방법.
제9항에 있어서, 상기 로그화 유사도 평균값 계산 단계는,

음성이 없다는 가설이 성립할 확률을라 할 때,를 계산하는 단계;

음성이 있다는 가설이 성립할 확률을라 할 때,를 계산하는 단계; 및

유사도를 계산하는 단계를 포함하는 것을 특징으로 하는 음성 검출 방법.