KR101088181B1

KR101088181B1 - 신뢰성이 높은 우도비를 사용한 음성 검출 장치 및 방법

Info

Publication number: KR101088181B1
Application number: KR1020090126274A
Authority: KR
Inventors: 김회린; 김영관; 서영주
Original assignee: 한국과학기술원
Priority date: 2009-12-17
Filing date: 2009-12-17
Publication date: 2011-12-02
Also published as: KR20110069514A

Abstract

본 발명은 잡음 환경에서 음성 인식기와 화자 인식기의 인식성능을 보장하기 위해 사용되는 음성 검출 장치 및 방법에 관한 것으로서, 본 발명의 음성 검출 장치는 신호를 입력받기 위한 입력수단 및 상기 입력수단으로부터 입력된 신호의 우도비(likelihood ratio)를 산출하고, 산출된 우도비 중에서 주파수 빈(bin)의 파워에 따라 우도비를 선택하고, 선택된 우도비를 사용하여 음성신호를 검출하기 위한 분석수단을 포함한다. 본 발명에 의하면 음성 검출 장치에서 우도비의 주파수 빈 파워를 기반으로 우도비를 선택적으로 이용함으로써, 음성 검출 성능을 향상시킬 수 있는 효과가 있다.

음성 인식, 화자 인식, 검출, 우도비, 주파수 빈, 파워, 푸리에 변환.

Description

신뢰성이 높은 우도비를 사용한 음성 검출 장치 및 방법 {Apparatus and method for voice activity detection using reliable likelihood ratios}

본 발명은 잡음 환경에서 음성 인식기와 화자 인식기의 인식성능을 보장하기 위해 사용되는 음성 검출 장치 및 방법에 관한 것으로서, 더욱 상세하게는 다양한 잡음 환경에서 음성 검출 장치의 성능 열화 문제를 개선하기 위하여 음성 영역과 잡음 영역을 결정짓는 결정 규칙에 고려되는 우도비(likelihood ratio)를 선택적으로 활용하는 음성 검출 장치 및 방법에 관한 것이다.

복소수 가우시안 분포를 이용한 통계모델 기반의 음성검출기는 ‘ A statistical model-based voice activity detection', IEEE Signal Processing Letters, Vol.6, No. 1, pp1-3, Jan. 1999 by J. Sohn, N. S. Kim and W. Sung의 논문에 제안되었으며 이 알고리즘은 열악한 잡음 환경에서 기존에 개발되어진 음성검출기보다 뛰어난 성능을 보여준다.

이러한 통계 모델 기반의 음성 검출기는 세 가지 가정을 기반으로 한다. 첫 째 가정은 음성과 잡음신호는 서로 상관관계가 없고, 둘째 가정은 이산 푸리에 변환 계수들이 서로 독립적이며, 셋째 가정은 각각의 계수들은 음성이 존재하는 상황과 그렇지 않은 상황에 따른 분산을 고려한 복소수 가우시안 분포 특성을 가진다는 것이다. 이러한 통계모델기반의 음성검출기의 결정규칙은 잡음만 존재하는 경우를 가정했을 경우의 분산과 음성과 잡음이 섞여 들어올 경우의 분산, 즉 잡음과 음성신호의 분산의 합에 의한 가우시안 분포의 우도비를 고려하여, 전체 주파수 영역에서의 우도비 평균을 통해 해당 프레임의 신호가 음성을 포함하는지 여부를 판단하게 된다.

복소수 가우시안 분포를 사용하는 음성검출기의 경우, 해당 프레임의 신호가 음성을 포함하는지 아닌지를 판단하는데 사용되는 각각의 주파수 성분에서의 우도비가 각각의 성분의 파워에 따라 음성의 존재 유무를 잘 표현해 주기도 하지만 그렇지 못하는 경우도 발생하게 된다. 이로 인해 모든 주파수 영역에서의 우도비를 고려하게 된다면, 음성의 유무를 표현해 주지 못하는, 즉 신뢰성이 떨어지는 우도비까지 고려하게 되어, 음성검출기의 성능을 저해시키는 문제가 발생한다.

이러한 문제점을 해결하기 위해 안출된 본 발명은 프레임 내의 음성 존재 유무를 보다 잘 식별하기 위하여 우도비를 선택하여 결정함으로써 음성 검출 성능을 향상시킬 수 있는 음성 검출 장치 및 방법을 제공하는데 그 목적이 있다.

이와 같은 목적을 달성하기 위한 본 발명의 음성 검출 장치는 신호를 입력받기 위한 입력수단 및 상기 입력수단으로부터 입력된 신호의 우도비(likelihood ratio)를 산출하고, 산출된 우도비 중에서 주파수 빈(bin)의 파워에 따라 우도비를 선택하고, 선택된 우도비를 사용하여 음성신호를 검출하기 위한 분석수단을 포함한다.

상기 분석수단은 상기 산출된 우도비의 프레임 평균파워를 계산하고, 상기 산출된 우도비 중에서 주파수 빈 파워가 상기 프레임 평균파워 이상인 우도비를 선 택할 수 있다.

상기 평균파워는,

의 수학식으로 나타내고, 이때, Q는 각 프레임의 평균 파워를 넘는 주파수 빈의 수이고, Y_avg(n)은 n번째 프레임의 평균파워이고,

은 k번 주파수 빈에서의 스펙트럼 파워가 Y_avg(n) 이상일 경우, 해당 주파수 빈에서의 우도비 Λ_k(n)를 반환하며, 그 반대의 경우 0을 반환하는 함수일 수 있다.

또는, 상기 분석수단은 상기 산출된 우도비 중에서 주파수 빈 파워가 상위 P개(P는 자연수)인 우도비를 선택하는 것일 수 있다.

상기 분석수단은,

의 수학식을 이용하여 상기 산출된 우도비 중에서 주파수 빈 파워가 P개인 우도비를 선택하고, 이때 Λ^(r)(n)는 주파수 빈의 파워 크기 순으로 재 배열된 우도비를 나타내고, Λ^(M)(n)은 n번째 프레임에서의 최대파워에 해당하는 주파수 빈에서의 우도비이고, P는 고려하고자 하는 상위파워 주파수 빈의 갯수를 나타내는 것일 수 있다.

상기 입력수단은 입력된 신호를 이산 푸리에 변환할 수 있다.

상기 분석수단은, 상기 입력수단으로부터 입력된 신호의 우도비(likelihood ratio)를 산출하기 위한 우도비 산출 모듈, 상기 우도비 산출 모듈로부터 산출된 우도비 중에서 주파수 빈(bin)의 파워에 따라 우도비를 선택하기 위한 우도비 선택 모듈 및 상기 우도비 선택 모듈로부터 선택된 우도비를 사용하여 음성신호를 검출하기 위한 음성 검출 모듈을 포함할 수 있다.

본 발명의 음성 검출 방법은 신호를 입력받는 단계, 상기 입력된 신호의 우도비(likelihood ratio)를 산출하는 단계, 상기 산출된 우도비 중에서 주파수 빈(bin)의 파워에 따라 우도비를 선택하는 단계 및 상기 선택된 우도비를 사용하여 음성신호를 검출하는 단계를 포함한다.

상기 우도비를 선택하는 단계는, 상기 산출된 우도비의 프레임 평균파워를 계산하고, 상기 산출된 우도비 중에서 주파수 빈 파워가 상기 프레임 평균파워 이상인 우도비를 선택하는 것일 수 있다.

상기 평균파워는,

또는, 상기 우도비를 선택하는 단계는, 상기 산출된 우도비 중에서 주파수 빈 파워가 상위 P개(P는 자연수)인 우도비를 선택하는 것일 수 있다.

상기 우도비를 선택하는 단계는,

의 수학식을 이용하여 상기 산출된 우도비 중에서 주파수 빈 파워가 P개인 우도비를 선택하고, 이때, Λ^(r)(n)는 주파수 빈의 파워 크기 순으로 재 배열된 우도비를 나타내고, Λ^(M)(n)은 n번째 프레임에서의 최대파워에 해당하는 주파수 빈에서의 우도비이고, P는 고려하고자 하는 상위파워 주파수 빈의 갯수를 나타내는 것일 수 있다.

상기 신호를 입력받는 단계는 입력된 신호를 이산 푸리에 변환하는 것일 수 있다.

본 발명에 의하면 음성 검출 장치에서 우도비의 주파수 빈 파워를 기반으로 우도비를 선택적으로 이용함으로써, 음성 검출 성능을 향상시킬 수 있는 효과가 있다.

즉, 본 발명에서는 프레임 내의 음성의 존재 유무를 잘 구별할 수 있는 우도 비만 선택하고 나머지 우도비는 제외시킴으로써 음성 검출 성능을 향상시킬 수 있다.

이하, 첨부된 도면을 참조해서 본 발명의 실시예를 상세히 설명하면 다음과 같다. 우선 각 도면의 구성 요소들에 참조 부호를 부가함에 있어서, 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 그리고, 본 발명을 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

도 1은 본 발명의 일 실시예에 따른 음성 검출 장치의 구성을 보여주는 블록도이다.

도 1을 참조하면, 음성 검출 장치는 입력수단(100), 분석수단(200)을 포함하여 이루어진다.

입력수단(100)은 신호를 입력받는 역할을 한다. 본 발명의 일 실시예에서 입력수단(100)은 입력된 신호를 이산 푸리에 변환할 수 있다.

분석수단(200)은 입력수단(100)으로부터 입력된 신호의 우도비(likelihood ratio)를 산출하고, 산출된 우도비 중에서 주파수 빈(bin)의 파워에 따라 우도비를 선택하고, 선택된 우도비를 사용하여 음성신호를 검출하는 역할을 한다.

본 발명의 일 실시예에서 분석수단(200)은 우도비 산출 모듈(210), 우도비 선택 모듈(220), 음성 검출 모듈(230)을 포함하여 이루어질 수 있다.

우도비 산출 모듈(210)은 입력수단(100)으로부터 입력된 신호의 우도비(likelihood ratio)를 산출하는 역할을 한다.

우도비 선택 모듈(220)은 우도비 산출 모듈(210)로부터 산출된 우도비 중에서 주파수 빈(bin)의 파워에 따라 우도비를 선택하는 역할을 한다.

본 발명의 일 실시예에서 우도비 선택 모듈(220)은 산출된 우도비의 프레임 평균파워를 계산하고, 산출된 우도비 중에서 주파수 빈 파워가 프레임 평균파워 이상인 우도비를 선택할 수 있다. 이때 우도비의 프레임 평균파워를 계산하는 [수학식 1]은 다음과 같다.

이때, Q는 각 프레임의 평균 파워를 넘는 주파수 빈의 수이고, Y_avg(n)은 n번째 프레임의 평균파워이고,

은 k번 주파수 빈에서의 스펙트럼 파워가 Y_avg(n) 이상일 경우, 해당 주파수 빈에서의 우도비 Λ_k(n)를 반환하며, 그 반대의 경우 0을 반환하는 함수이다.

본 발명의 다른 실시예에서 우도비 선택 모듈(220)은 산출된 우도비 중에서 주파수 빈 파워가 상위 P개(P는 자연수)인 우도비를 선택할 수 있다. 예를 들어, P=10이라면, 우도비 선택 모듈(220)은 주파수 빈 파워가 상위 10개인 우도비를 선택하는 것이다. 이때, 우도비 선택 모듈(220)은 다음 [수학식 2]를 이용하여 산출된 우도비 중에서 주파수 빈 파워가 P개인 우도비를 선택할 수 있다.

이때, Λ^(r)(n)는 주파수 빈의 파워 크기 순으로 재 배열된 우도비를 나타내고, Λ^(M)(n)은 n번째 프레임에서의 최대파워에 해당하는 주파수 빈에서의 우도비이고, P는 고려하고자 하는 상위파워 주파수 빈의 갯수를 나타낸다.

음성 검출 모듈(230)은 우도비 선택 모듈(220)로부터 선택된 우도비를 사용하여 음성신호를 검출하는 역할을 한다.

이제 이러한 구조를 갖는 음성 검출 장치에서 음성을 검출하는 방법을 도면을 참조하여 상세히 설명하기로 한다.

도 2는 본 발명의 일 실시예에 따른 음성 검출 방법을 보여주는 흐름도이다.

도 2를 참조하면, 신호를 입력받고(S201), 입력된 신호의 우도비(likelihood ratio)를 산출한다(S203). 본 발명의 일 실시예에서 S201 단계에서 입력된 신호를 이산 푸리에 변환하여 출력할 수 있다. 본 발명의 일 실시예에서 S203 단계에서 통계모델 기반의 음성 검출 장치로부터 모든 주파수 빈에서의 우도비를 구할 수 있다.

다음, 산출된 우도비 중에서 주파수 빈(bin)의 파워에 따라 우도비를 선택한다(S205).

본 발명에서 S205 단계에서 주파수 빈의 파워에 따라 우도비를 선택하는 실시예로서 2가지 실시예를 제안한다.

첫번째 실시예는, 산출된 우도비의 프레임 평균파워를 계산하고, 산출된 우도비 중에서 주파수 빈 파워가 프레임 평균파워 이상인 우도비를 선택하는 것이다. 이때, 평균파워를 계산하는 수학식은 상술한 [수학식 1]과 같다.

두번째 실시예는, 산출된 우도비 중에서 주파수 빈 파워가 상위 P개(P는 자연수)인 우도비를 선택하는 것이다. 이때, 상술한 [수학식 2]를 이용하여 산출된 우도비 중에서 주파수 빈 파워가 P개인 우도비를 선택할 수 있다.

다음, S205 단계에서 선택된 우도비를 사용하여 음성신호를 검출한다(S207).

이제 본 발명에서 음성 존재 모델 및 음성 부재 통계 모델은 다음과 같다.

먼저, 입력신호 Y(n)은 순수한 음성신호 S(n)과 잡음신호 N(n)의 합으로 구성된다고 가정한다. 이때, 가설 H₀와 H₁은 각각 음성이 존재하지 않는 경우와, 존재 하는 경우를 나타내며, 가설 H₀와 H₁에서, Y(n)은 다음의 [수학식 3] 및 [수학식 4]를 만족한다.

H₀: 음성 부재(Speech absence) : Y(n)=N(n)

H₁: 음성 존재(Speech presence) : Y(n)=S(n)+N(n)

여기서,

,

는 각각 입력신호, 잡음 그리고 순수한 음성의 M차원의 DFT 계수를 나타내며, n은 프레임 인덱스, k는 주파수 빈으로서의 DFT 계수의 인덱스를 나타낸다.

본 발명에서는 입력신호의 DFT 계수의 적절한 분포로서 복소수 가우시안 확률밀도함수를 채택한다. 두 개의 가설 H₀와 H₁에 의해 결정되는 입력신호의 DFT 계수의 분포는 다음의 수학식과 같이 나타낼 수 있다.

여기서, λ_N,k와 λ_S,k는 각각 k번째 주파수 빈의 잡음과 순수한 음성의 분산을 나타낸다.

다음은 본 발명에서 통계모델 기반의 음성 검출 장치의 결정 규칙에 대하여 설명하고자 한다.

통계모델 기반의 음성 검출 장치에서는 가정된 통계모델을 기초로 하고, n번째 프레임에서 k번째 주파수 빈에 대한 우도비를 다음 [수학식 7]과 같이 정의한다.

여기서, ξk=λ_S,k/λ_N,k이고,

이며, 이들은 각각 선행 신 호대 잡음비(a priori SNR) 및 후행 신호대 잡음비(a posteriori SNR)라고 한다.

음성 검출 장치에 대한 결정규칙은 개별 주파수 빈에 대하여 로그를 취한 계산된 우도비들에 대한 산술 평균으로서 다음 [수학식 8]과 같이 구할 수 있다.

여기서, M은 전체 주파수 빈의 수를 나타내며, η은 검출 임계치를 나타낸다.

도 3 및 도 4는 복소수 가우시안 확률분포함수를 도시한 그래프이다.

도 3에서 가로축은 입력신호의 스펙트럼 절대값을 나타내고, 세로축은 우도(Likelihood)를 나타낸다. 도 4에서 가로축은 입력신호의 스펙트럼 절대값을 나타내고, 세로축은 우도비를 나타낸다.

도 4에 도시된 바와 같이, 입력신호의 스펙트럼 절대값이 σth에 가까운 곳에 위치하게 되면, 음성의 분산에 관계없이 낮은 우도비를 가지게 되고, 이와 같은 현상은 입력신호의 스펙트럼 절대값이 낮은 경우, 순수한 음성이 존재하는 구간과 존재하지 않는 구간으로서 우도비의 변별력이 떨어짐을 알 수 있다.

따라서, 본 발명에서는 우도비의 주파수 빈 파워에 기초하여 선택된 우도비를 결정규칙에 사용하는 것이다.

본 발명의 실시예에서는 모든 주파수 빈에서의 우도비를 이용한 결정규칙과, 주파수 빈의 파워에 의해 선택된 우도비를 이용한 결정규칙의 성능을 비교하기 위하여 각 결정규칙에 대한 결정을 위한 임계치의 변화에 따른 음성 감지 확률(Speech Detection Rate; 음성 프레임을 제대로 검출하는 확률)과 거짓 경고 확률(False Alarm Rate; 음성이 없는 프레임을 음성이 있는 프레임으로 판단하는 확률)을 조사하였다.

도 5 내지 도 7은 본 발명의 일 실시예에 따른 음성 검출 성능과 종래 기술에 따른 음성 검출 성능을 비교한 그래프이다.

도 5는 자동자(Car) 잡음 하에서의 결정규칙에 따른 음성 검출 장치의 수신 동작 특성을 나타내는 그래프이다.

도 6은 배블(Babble) 잡음 하에서의 결정규칙에 따른 음성 검출 장치의 수신 동작 특성을 나타내는 그래프이다.

도 7은 거리(Street) 잡음 하에서의 결정규칙에 따른 음성 검출 장치의 수신 동작 특성을 나타내는 그래프이다.

도 5 내지 도 7에서, 세로축은 음성 감지 확률, 가로축은 거짓 경고 확률을 나타내며, 다음과 같은 사항들을 알 수 있다.

첫째, 본 발명에서 주파수 빈 파워에 기초해 우도비를 선택하는 두 가지 방식의 결정규칙에 의한 음성검출 성능이 모든 환경에서 전체 우도비를 사용하는 음성 검출 장치의 성능보다 더 나은 성능을 나타낸다.

둘째, 자동차 잡음과 같이 정적(Stationary)인 특성을 보이는 잡음환경에서는 상위 파워 10개의 주파수 빈에서의 우도비를 사용하는 결정규칙이 가장 좋은 성능 보였으며, 배블, 거리 잡음과 같은 비정적(Non-stationary)인 특성을 보이는 잡음환경에서는 평균 파워 이상을 가지는 주파수 빈에서의 우도비를 사용하는 결정 규칙이 가장 좋은 성능을 나타낸다.

결론적으로, 주파수 빈의 파워에 의해 선택된 우도비를 이용하는 결정규칙이 신뢰도가 떨어지는 우도비를 결정규칙에서 제외시킴으로써, 입력신호의 음성의 포함여부를 결정지어주는데 도움이 된다는 점을 확인할 수 있다.

이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.

*도면의 주요 부분에 대한 부호의 설명*

100 입력수단 200 분석수단

210 우도비 산출 모듈 220 우도비 선택 모듈

230 음성 검출 모듈

Claims

삭제
신호를 입력받기 위한 입력수단; 및

상기 입력수단으로부터 입력된 신호의 우도비(likelihood ratio)를 산출하고, 상기 산출된 우도비의 프레임 평균파워를 계산하고, 상기 산출된 우도비 중에서 주파수 빈 파워가 상기 프레임 평균파워 이상인 우도비를 선택하고, 선택된 우도비를 사용하여 음성신호를 검출하기 위한 분석수단을 포함하며,

상기 평균파워는,

의 수학식으로 나타내고,

이때, Q는 각 프레임의 평균 파워를 넘는 주파수 빈의 수이고, Y_avg(n)은 n번째 프레임의 평균파워이고,
은 k번 주파수 빈에서의 스펙트럼 파워가 Y_avg(n) 이상일 경우, 해당 주파수 빈에서의 우도비 Λ_k(n)를 반환하며, 그 반대의 경우 0을 반환하는 함수인 것을 특징으로 하는 음성 검출 장치.
삭제
신호를 입력받기 위한 입력수단; 및

상기 입력수단으로부터 입력된 신호의 우도비(likelihood ratio)를 산출하고, 상기 산출된 우도비 중에서 주파수 빈 파워가 상위 P개(P는 자연수)인 우도비를 선택하고, 선택된 우도비를 사용하여 음성신호를 검출하기 위한 분석수단을 포함하며,

상기 분석수단은,

의 수학식을 이용하여 상기 산출된 우도비 중에서 주파수 빈 파워가 P개인 우도비를 선택하고,

이때, Λ^(r)(n)는 주파수 빈의 파워 크기 순으로 재 배열된 우도비를 나타내고, Λ^(M)(n)은 n번째 프레임에서의 최대파워에 해당하는 주파수 빈에서의 우도비이고, P는 고려하고자 하는 상위파워 주파수 빈의 갯수를 나타내는 것임을 특징으로 하는 음성 검출 장치.
삭제
삭제
제2항 또는 제4항에 있어서,

상기 분석수단은,

상기 입력수단으로부터 입력된 신호의 우도비(likelihood ratio)를 산출하기 위한 우도비 산출 모듈;

상기 우도비 산출 모듈로부터 산출된 우도비 중에서 주파수 빈(bin)의 파워에 따라 우도비를 선택하기 위한 우도비 선택 모듈; 및

상기 우도비 선택 모듈로부터 선택된 우도비를 사용하여 음성신호를 검출하기 위한 음성 검출 모듈을 포함하는 것을 특징으로 하는 음성 검출 장치.
삭제
신호를 입력받는 단계;

상기 입력된 신호의 우도비(likelihood ratio)를 산출하는 단계;

상기 산출된 우도비의 프레임 평균파워를 계산하고, 상기 산출된 우도비 중에서 주파수 빈 파워가 상기 프레임 평균파워 이상인 우도비를 선택하는 단계; 및

상기 선택된 우도비를 사용하여 음성신호를 검출하는 단계를 포함하며,

상기 평균파워는,

의 수학식으로 나타내고,

이때, Q는 각 프레임의 평균 파워를 넘는 주파수 빈의 수이고, Y_avg(n)은 n번째 프레임의 평균파워이고,
은 k번 주파수 빈에서의 스펙트럼 파워가 Y_avg(n) 이상일 경우, 해당 주파수 빈에서의 우도비 Λ_k(n)를 반환하며, 그 반대의 경우 0을 반환하는 함수인 것을 특징으로 하는 음성 검출 방법.
삭제
신호를 입력받는 단계;

상기 입력된 신호의 우도비(likelihood ratio)를 산출하는 단계;

상기 산출된 우도비 중에서 주파수 빈 파워가 상위 P개(P는 자연수)인 우도비를 선택하는 단계; 및

상기 선택된 우도비를 사용하여 음성신호를 검출하는 단계를 포함하며,

상기 우도비를 선택하는 단계는,

의 수학식을 이용하여 상기 산출된 우도비 중에서 주파수 빈 파워가 P개인 우도비를 선택하고,

이때, Λ^(r)(n)는 주파수 빈의 파워 크기 순으로 재 배열된 우도비를 나타내고, Λ^(M)(n)은 n번째 프레임에서의 최대파워에 해당하는 주파수 빈에서의 우도비이고, P는 고려하고자 하는 상위파워 주파수 빈의 갯수를 나타내는 것임을 특징으로 하는 음성 검출 방법.
삭제
삭제