KR101088181B1 - 신뢰성이 높은 우도비를 사용한 음성 검출 장치 및 방법 - Google Patents

신뢰성이 높은 우도비를 사용한 음성 검출 장치 및 방법 Download PDF

Info

Publication number
KR101088181B1
KR101088181B1 KR1020090126274A KR20090126274A KR101088181B1 KR 101088181 B1 KR101088181 B1 KR 101088181B1 KR 1020090126274 A KR1020090126274 A KR 1020090126274A KR 20090126274 A KR20090126274 A KR 20090126274A KR 101088181 B1 KR101088181 B1 KR 101088181B1
Authority
KR
South Korea
Prior art keywords
likelihood ratio
power
frequency bin
likelihood
signal
Prior art date
Application number
KR1020090126274A
Other languages
English (en)
Other versions
KR20110069514A (ko
Inventor
김회린
김영관
서영주
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020090126274A priority Critical patent/KR101088181B1/ko
Publication of KR20110069514A publication Critical patent/KR20110069514A/ko
Application granted granted Critical
Publication of KR101088181B1 publication Critical patent/KR101088181B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 잡음 환경에서 음성 인식기와 화자 인식기의 인식성능을 보장하기 위해 사용되는 음성 검출 장치 및 방법에 관한 것으로서, 본 발명의 음성 검출 장치는 신호를 입력받기 위한 입력수단 및 상기 입력수단으로부터 입력된 신호의 우도비(likelihood ratio)를 산출하고, 산출된 우도비 중에서 주파수 빈(bin)의 파워에 따라 우도비를 선택하고, 선택된 우도비를 사용하여 음성신호를 검출하기 위한 분석수단을 포함한다. 본 발명에 의하면 음성 검출 장치에서 우도비의 주파수 빈 파워를 기반으로 우도비를 선택적으로 이용함으로써, 음성 검출 성능을 향상시킬 수 있는 효과가 있다.
음성 인식, 화자 인식, 검출, 우도비, 주파수 빈, 파워, 푸리에 변환.

Description

신뢰성이 높은 우도비를 사용한 음성 검출 장치 및 방법 {Apparatus and method for voice activity detection using reliable likelihood ratios}
본 발명은 잡음 환경에서 음성 인식기와 화자 인식기의 인식성능을 보장하기 위해 사용되는 음성 검출 장치 및 방법에 관한 것으로서, 더욱 상세하게는 다양한 잡음 환경에서 음성 검출 장치의 성능 열화 문제를 개선하기 위하여 음성 영역과 잡음 영역을 결정짓는 결정 규칙에 고려되는 우도비(likelihood ratio)를 선택적으로 활용하는 음성 검출 장치 및 방법에 관한 것이다.
복소수 가우시안 분포를 이용한 통계모델 기반의 음성검출기는 ‘ A statistical model-based voice activity detection', IEEE Signal Processing Letters, Vol.6, No. 1, pp1-3, Jan. 1999 by J. Sohn, N. S. Kim and W. Sung의 논문에 제안되었으며 이 알고리즘은 열악한 잡음 환경에서 기존에 개발되어진 음성검출기보다 뛰어난 성능을 보여준다.
이러한 통계 모델 기반의 음성 검출기는 세 가지 가정을 기반으로 한다. 첫 째 가정은 음성과 잡음신호는 서로 상관관계가 없고, 둘째 가정은 이산 푸리에 변환 계수들이 서로 독립적이며, 셋째 가정은 각각의 계수들은 음성이 존재하는 상황과 그렇지 않은 상황에 따른 분산을 고려한 복소수 가우시안 분포 특성을 가진다는 것이다. 이러한 통계모델기반의 음성검출기의 결정규칙은 잡음만 존재하는 경우를 가정했을 경우의 분산과 음성과 잡음이 섞여 들어올 경우의 분산, 즉 잡음과 음성신호의 분산의 합에 의한 가우시안 분포의 우도비를 고려하여, 전체 주파수 영역에서의 우도비 평균을 통해 해당 프레임의 신호가 음성을 포함하는지 여부를 판단하게 된다.
복소수 가우시안 분포를 사용하는 음성검출기의 경우, 해당 프레임의 신호가 음성을 포함하는지 아닌지를 판단하는데 사용되는 각각의 주파수 성분에서의 우도비가 각각의 성분의 파워에 따라 음성의 존재 유무를 잘 표현해 주기도 하지만 그렇지 못하는 경우도 발생하게 된다. 이로 인해 모든 주파수 영역에서의 우도비를 고려하게 된다면, 음성의 유무를 표현해 주지 못하는, 즉 신뢰성이 떨어지는 우도비까지 고려하게 되어, 음성검출기의 성능을 저해시키는 문제가 발생한다.
이러한 문제점을 해결하기 위해 안출된 본 발명은 프레임 내의 음성 존재 유무를 보다 잘 식별하기 위하여 우도비를 선택하여 결정함으로써 음성 검출 성능을 향상시킬 수 있는 음성 검출 장치 및 방법을 제공하는데 그 목적이 있다.
이와 같은 목적을 달성하기 위한 본 발명의 음성 검출 장치는 신호를 입력받기 위한 입력수단 및 상기 입력수단으로부터 입력된 신호의 우도비(likelihood ratio)를 산출하고, 산출된 우도비 중에서 주파수 빈(bin)의 파워에 따라 우도비를 선택하고, 선택된 우도비를 사용하여 음성신호를 검출하기 위한 분석수단을 포함한다.
상기 분석수단은 상기 산출된 우도비의 프레임 평균파워를 계산하고, 상기 산출된 우도비 중에서 주파수 빈 파워가 상기 프레임 평균파워 이상인 우도비를 선 택할 수 있다.
상기 평균파워는,
Figure 112009078200190-pat00001
의 수학식으로 나타내고, 이때, Q는 각 프레임의 평균 파워를 넘는 주파수 빈의 수이고, Yavg(n)은 n번째 프레임의 평균파워이고,
Figure 112009078200190-pat00002
은 k번 주파수 빈에서의 스펙트럼 파워가 Yavg(n) 이상일 경우, 해당 주파수 빈에서의 우도비 Λk(n)를 반환하며, 그 반대의 경우 0을 반환하는 함수일 수 있다.
또는, 상기 분석수단은 상기 산출된 우도비 중에서 주파수 빈 파워가 상위 P개(P는 자연수)인 우도비를 선택하는 것일 수 있다.
상기 분석수단은,
Figure 112009078200190-pat00003
의 수학식을 이용하여 상기 산출된 우도비 중에서 주파수 빈 파워가 P개인 우도비를 선택하고, 이때 Λ(r)(n)는 주파수 빈의 파워 크기 순으로 재 배열된 우도비를 나타내고, Λ(M)(n)은 n번째 프레임에서의 최대파워에 해당하는 주파수 빈에서의 우도비이고, P는 고려하고자 하는 상위파워 주파수 빈의 갯수를 나타내는 것일 수 있다.
상기 입력수단은 입력된 신호를 이산 푸리에 변환할 수 있다.
상기 분석수단은, 상기 입력수단으로부터 입력된 신호의 우도비(likelihood ratio)를 산출하기 위한 우도비 산출 모듈, 상기 우도비 산출 모듈로부터 산출된 우도비 중에서 주파수 빈(bin)의 파워에 따라 우도비를 선택하기 위한 우도비 선택 모듈 및 상기 우도비 선택 모듈로부터 선택된 우도비를 사용하여 음성신호를 검출하기 위한 음성 검출 모듈을 포함할 수 있다.
본 발명의 음성 검출 방법은 신호를 입력받는 단계, 상기 입력된 신호의 우도비(likelihood ratio)를 산출하는 단계, 상기 산출된 우도비 중에서 주파수 빈(bin)의 파워에 따라 우도비를 선택하는 단계 및 상기 선택된 우도비를 사용하여 음성신호를 검출하는 단계를 포함한다.
상기 우도비를 선택하는 단계는, 상기 산출된 우도비의 프레임 평균파워를 계산하고, 상기 산출된 우도비 중에서 주파수 빈 파워가 상기 프레임 평균파워 이상인 우도비를 선택하는 것일 수 있다.
상기 평균파워는,
Figure 112009078200190-pat00004
의 수학식으로 나타내고, 이때, Q는 각 프레임의 평균 파워를 넘는 주파수 빈의 수이고, Yavg(n)은 n번째 프레임의 평균파워이고,
Figure 112009078200190-pat00005
은 k번 주파수 빈에서의 스펙트럼 파워가 Yavg(n) 이상일 경우, 해당 주파수 빈에서의 우도비 Λk(n)를 반환하며, 그 반대의 경우 0을 반환하는 함수일 수 있다.
또는, 상기 우도비를 선택하는 단계는, 상기 산출된 우도비 중에서 주파수 빈 파워가 상위 P개(P는 자연수)인 우도비를 선택하는 것일 수 있다.
상기 우도비를 선택하는 단계는,
Figure 112009078200190-pat00006
의 수학식을 이용하여 상기 산출된 우도비 중에서 주파수 빈 파워가 P개인 우도비를 선택하고, 이때, Λ(r)(n)는 주파수 빈의 파워 크기 순으로 재 배열된 우도비를 나타내고, Λ(M)(n)은 n번째 프레임에서의 최대파워에 해당하는 주파수 빈에서의 우도비이고, P는 고려하고자 하는 상위파워 주파수 빈의 갯수를 나타내는 것일 수 있다.
상기 신호를 입력받는 단계는 입력된 신호를 이산 푸리에 변환하는 것일 수 있다.
본 발명에 의하면 음성 검출 장치에서 우도비의 주파수 빈 파워를 기반으로 우도비를 선택적으로 이용함으로써, 음성 검출 성능을 향상시킬 수 있는 효과가 있다.
즉, 본 발명에서는 프레임 내의 음성의 존재 유무를 잘 구별할 수 있는 우도 비만 선택하고 나머지 우도비는 제외시킴으로써 음성 검출 성능을 향상시킬 수 있다.
이하, 첨부된 도면을 참조해서 본 발명의 실시예를 상세히 설명하면 다음과 같다. 우선 각 도면의 구성 요소들에 참조 부호를 부가함에 있어서, 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 그리고, 본 발명을 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 본 발명의 일 실시예에 따른 음성 검출 장치의 구성을 보여주는 블록도이다.
도 1을 참조하면, 음성 검출 장치는 입력수단(100), 분석수단(200)을 포함하여 이루어진다.
입력수단(100)은 신호를 입력받는 역할을 한다. 본 발명의 일 실시예에서 입력수단(100)은 입력된 신호를 이산 푸리에 변환할 수 있다.
분석수단(200)은 입력수단(100)으로부터 입력된 신호의 우도비(likelihood ratio)를 산출하고, 산출된 우도비 중에서 주파수 빈(bin)의 파워에 따라 우도비를 선택하고, 선택된 우도비를 사용하여 음성신호를 검출하는 역할을 한다.
본 발명의 일 실시예에서 분석수단(200)은 우도비 산출 모듈(210), 우도비 선택 모듈(220), 음성 검출 모듈(230)을 포함하여 이루어질 수 있다.
우도비 산출 모듈(210)은 입력수단(100)으로부터 입력된 신호의 우도비(likelihood ratio)를 산출하는 역할을 한다.
우도비 선택 모듈(220)은 우도비 산출 모듈(210)로부터 산출된 우도비 중에서 주파수 빈(bin)의 파워에 따라 우도비를 선택하는 역할을 한다.
본 발명의 일 실시예에서 우도비 선택 모듈(220)은 산출된 우도비의 프레임 평균파워를 계산하고, 산출된 우도비 중에서 주파수 빈 파워가 프레임 평균파워 이상인 우도비를 선택할 수 있다. 이때 우도비의 프레임 평균파워를 계산하는 [수학식 1]은 다음과 같다.
Figure 112009078200190-pat00007
이때, Q는 각 프레임의 평균 파워를 넘는 주파수 빈의 수이고, Yavg(n)은 n번째 프레임의 평균파워이고,
Figure 112009078200190-pat00008
은 k번 주파수 빈에서의 스펙트럼 파워가 Yavg(n) 이상일 경우, 해당 주파수 빈에서의 우도비 Λk(n)를 반환하며, 그 반대의 경우 0을 반환하는 함수이다.
본 발명의 다른 실시예에서 우도비 선택 모듈(220)은 산출된 우도비 중에서 주파수 빈 파워가 상위 P개(P는 자연수)인 우도비를 선택할 수 있다. 예를 들어, P=10이라면, 우도비 선택 모듈(220)은 주파수 빈 파워가 상위 10개인 우도비를 선택하는 것이다. 이때, 우도비 선택 모듈(220)은 다음 [수학식 2]를 이용하여 산출된 우도비 중에서 주파수 빈 파워가 P개인 우도비를 선택할 수 있다.
Figure 112009078200190-pat00009
이때, Λ(r)(n)는 주파수 빈의 파워 크기 순으로 재 배열된 우도비를 나타내고, Λ(M)(n)은 n번째 프레임에서의 최대파워에 해당하는 주파수 빈에서의 우도비이고, P는 고려하고자 하는 상위파워 주파수 빈의 갯수를 나타낸다.
음성 검출 모듈(230)은 우도비 선택 모듈(220)로부터 선택된 우도비를 사용하여 음성신호를 검출하는 역할을 한다.
이제 이러한 구조를 갖는 음성 검출 장치에서 음성을 검출하는 방법을 도면을 참조하여 상세히 설명하기로 한다.
도 2는 본 발명의 일 실시예에 따른 음성 검출 방법을 보여주는 흐름도이다.
도 2를 참조하면, 신호를 입력받고(S201), 입력된 신호의 우도비(likelihood ratio)를 산출한다(S203). 본 발명의 일 실시예에서 S201 단계에서 입력된 신호를 이산 푸리에 변환하여 출력할 수 있다. 본 발명의 일 실시예에서 S203 단계에서 통계모델 기반의 음성 검출 장치로부터 모든 주파수 빈에서의 우도비를 구할 수 있다.
다음, 산출된 우도비 중에서 주파수 빈(bin)의 파워에 따라 우도비를 선택한다(S205).
본 발명에서 S205 단계에서 주파수 빈의 파워에 따라 우도비를 선택하는 실시예로서 2가지 실시예를 제안한다.
첫번째 실시예는, 산출된 우도비의 프레임 평균파워를 계산하고, 산출된 우도비 중에서 주파수 빈 파워가 프레임 평균파워 이상인 우도비를 선택하는 것이다. 이때, 평균파워를 계산하는 수학식은 상술한 [수학식 1]과 같다.
두번째 실시예는, 산출된 우도비 중에서 주파수 빈 파워가 상위 P개(P는 자연수)인 우도비를 선택하는 것이다. 이때, 상술한 [수학식 2]를 이용하여 산출된 우도비 중에서 주파수 빈 파워가 P개인 우도비를 선택할 수 있다.
다음, S205 단계에서 선택된 우도비를 사용하여 음성신호를 검출한다(S207).
이제 본 발명에서 음성 존재 모델 및 음성 부재 통계 모델은 다음과 같다.
먼저, 입력신호 Y(n)은 순수한 음성신호 S(n)과 잡음신호 N(n)의 합으로 구성된다고 가정한다. 이때, 가설 H0와 H1은 각각 음성이 존재하지 않는 경우와, 존재 하는 경우를 나타내며, 가설 H0와 H1에서, Y(n)은 다음의 [수학식 3] 및 [수학식 4]를 만족한다.
H0: 음성 부재(Speech absence) : Y(n)=N(n)
H1: 음성 존재(Speech presence) : Y(n)=S(n)+N(n)
여기서,
Figure 112009078200190-pat00010
,
Figure 112009078200190-pat00011
,
Figure 112009078200190-pat00012
는 각각 입력신호, 잡음 그리고 순수한 음성의 M차원의 DFT 계수를 나타내며, n은 프레임 인덱스, k는 주파수 빈으로서의 DFT 계수의 인덱스를 나타낸다.
본 발명에서는 입력신호의 DFT 계수의 적절한 분포로서 복소수 가우시안 확률밀도함수를 채택한다. 두 개의 가설 H0와 H1에 의해 결정되는 입력신호의 DFT 계수의 분포는 다음의 수학식과 같이 나타낼 수 있다.
Figure 112009078200190-pat00013
여기서, λN,k와 λS,k는 각각 k번째 주파수 빈의 잡음과 순수한 음성의 분산을 나타낸다.
Figure 112009078200190-pat00014
여기서, λN,k와 λS,k는 각각 k번째 주파수 빈의 잡음과 순수한 음성의 분산을 나타낸다.
다음은 본 발명에서 통계모델 기반의 음성 검출 장치의 결정 규칙에 대하여 설명하고자 한다.
통계모델 기반의 음성 검출 장치에서는 가정된 통계모델을 기초로 하고, n번째 프레임에서 k번째 주파수 빈에 대한 우도비를 다음 [수학식 7]과 같이 정의한다.
Figure 112009078200190-pat00015
여기서, ξk=λS,kN,k이고,
Figure 112009078200190-pat00016
이며, 이들은 각각 선행 신 호대 잡음비(a priori SNR) 및 후행 신호대 잡음비(a posteriori SNR)라고 한다.
음성 검출 장치에 대한 결정규칙은 개별 주파수 빈에 대하여 로그를 취한 계산된 우도비들에 대한 산술 평균으로서 다음 [수학식 8]과 같이 구할 수 있다.
Figure 112009078200190-pat00017
여기서, M은 전체 주파수 빈의 수를 나타내며, η은 검출 임계치를 나타낸다.
도 3 및 도 4는 복소수 가우시안 확률분포함수를 도시한 그래프이다.
도 3에서 가로축은 입력신호의 스펙트럼 절대값을 나타내고, 세로축은 우도(Likelihood)를 나타낸다. 도 4에서 가로축은 입력신호의 스펙트럼 절대값을 나타내고, 세로축은 우도비를 나타낸다.
도 4에 도시된 바와 같이, 입력신호의 스펙트럼 절대값이 σth에 가까운 곳에 위치하게 되면, 음성의 분산에 관계없이 낮은 우도비를 가지게 되고, 이와 같은 현상은 입력신호의 스펙트럼 절대값이 낮은 경우, 순수한 음성이 존재하는 구간과 존재하지 않는 구간으로서 우도비의 변별력이 떨어짐을 알 수 있다.
따라서, 본 발명에서는 우도비의 주파수 빈 파워에 기초하여 선택된 우도비를 결정규칙에 사용하는 것이다.
본 발명의 실시예에서는 모든 주파수 빈에서의 우도비를 이용한 결정규칙과, 주파수 빈의 파워에 의해 선택된 우도비를 이용한 결정규칙의 성능을 비교하기 위하여 각 결정규칙에 대한 결정을 위한 임계치의 변화에 따른 음성 감지 확률(Speech Detection Rate; 음성 프레임을 제대로 검출하는 확률)과 거짓 경고 확률(False Alarm Rate; 음성이 없는 프레임을 음성이 있는 프레임으로 판단하는 확률)을 조사하였다.
도 5 내지 도 7은 본 발명의 일 실시예에 따른 음성 검출 성능과 종래 기술에 따른 음성 검출 성능을 비교한 그래프이다.
도 5는 자동자(Car) 잡음 하에서의 결정규칙에 따른 음성 검출 장치의 수신 동작 특성을 나타내는 그래프이다.
도 6은 배블(Babble) 잡음 하에서의 결정규칙에 따른 음성 검출 장치의 수신 동작 특성을 나타내는 그래프이다.
도 7은 거리(Street) 잡음 하에서의 결정규칙에 따른 음성 검출 장치의 수신 동작 특성을 나타내는 그래프이다.
도 5 내지 도 7에서, 세로축은 음성 감지 확률, 가로축은 거짓 경고 확률을 나타내며, 다음과 같은 사항들을 알 수 있다.
첫째, 본 발명에서 주파수 빈 파워에 기초해 우도비를 선택하는 두 가지 방식의 결정규칙에 의한 음성검출 성능이 모든 환경에서 전체 우도비를 사용하는 음성 검출 장치의 성능보다 더 나은 성능을 나타낸다.
둘째, 자동차 잡음과 같이 정적(Stationary)인 특성을 보이는 잡음환경에서는 상위 파워 10개의 주파수 빈에서의 우도비를 사용하는 결정규칙이 가장 좋은 성능 보였으며, 배블, 거리 잡음과 같은 비정적(Non-stationary)인 특성을 보이는 잡음환경에서는 평균 파워 이상을 가지는 주파수 빈에서의 우도비를 사용하는 결정 규칙이 가장 좋은 성능을 나타낸다.
결론적으로, 주파수 빈의 파워에 의해 선택된 우도비를 이용하는 결정규칙이 신뢰도가 떨어지는 우도비를 결정규칙에서 제외시킴으로써, 입력신호의 음성의 포함여부를 결정지어주는데 도움이 된다는 점을 확인할 수 있다.
이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.
도 1은 본 발명의 일 실시예에 따른 음성 검출 장치의 구성을 보여주는 블록도이다.
도 2는 본 발명의 일 실시예에 따른 음성 검출 방법을 보여주는 흐름도이다.
도 3 및 도 4는 복소수 가우시안 확률분포함수를 도시한 그래프이다.
도 5 내지 도 7은 본 발명의 일 실시예에 따른 음성 검출 성능과 종래 기술에 따른 음성 검출 성능을 비교한 그래프이다.
*도면의 주요 부분에 대한 부호의 설명*
100 입력수단 200 분석수단
210 우도비 산출 모듈 220 우도비 선택 모듈
230 음성 검출 모듈

Claims (13)

  1. 삭제
  2. 신호를 입력받기 위한 입력수단; 및
    상기 입력수단으로부터 입력된 신호의 우도비(likelihood ratio)를 산출하고, 상기 산출된 우도비의 프레임 평균파워를 계산하고, 상기 산출된 우도비 중에서 주파수 빈 파워가 상기 프레임 평균파워 이상인 우도비를 선택하고, 선택된 우도비를 사용하여 음성신호를 검출하기 위한 분석수단을 포함하며,
    상기 평균파워는,
    Figure 112011031680969-pat00031
    의 수학식으로 나타내고,
    이때, Q는 각 프레임의 평균 파워를 넘는 주파수 빈의 수이고, Yavg(n)은 n번째 프레임의 평균파워이고,
    Figure 112011031680969-pat00032
    은 k번 주파수 빈에서의 스펙트럼 파워가 Yavg(n) 이상일 경우, 해당 주파수 빈에서의 우도비 Λk(n)를 반환하며, 그 반대의 경우 0을 반환하는 함수인 것을 특징으로 하는 음성 검출 장치.
  3. 삭제
  4. 신호를 입력받기 위한 입력수단; 및
    상기 입력수단으로부터 입력된 신호의 우도비(likelihood ratio)를 산출하고, 상기 산출된 우도비 중에서 주파수 빈 파워가 상위 P개(P는 자연수)인 우도비를 선택하고, 선택된 우도비를 사용하여 음성신호를 검출하기 위한 분석수단을 포함하며,
    상기 분석수단은,
    Figure 112011031680969-pat00033
    의 수학식을 이용하여 상기 산출된 우도비 중에서 주파수 빈 파워가 P개인 우도비를 선택하고,
    이때, Λ(r)(n)는 주파수 빈의 파워 크기 순으로 재 배열된 우도비를 나타내고, Λ(M)(n)은 n번째 프레임에서의 최대파워에 해당하는 주파수 빈에서의 우도비이고, P는 고려하고자 하는 상위파워 주파수 빈의 갯수를 나타내는 것임을 특징으로 하는 음성 검출 장치.
  5. 삭제
  6. 삭제
  7. 제2항 또는 제4항에 있어서,
    상기 분석수단은,
    상기 입력수단으로부터 입력된 신호의 우도비(likelihood ratio)를 산출하기 위한 우도비 산출 모듈;
    상기 우도비 산출 모듈로부터 산출된 우도비 중에서 주파수 빈(bin)의 파워에 따라 우도비를 선택하기 위한 우도비 선택 모듈; 및
    상기 우도비 선택 모듈로부터 선택된 우도비를 사용하여 음성신호를 검출하기 위한 음성 검출 모듈을 포함하는 것을 특징으로 하는 음성 검출 장치.
  8. 삭제
  9. 신호를 입력받는 단계;
    상기 입력된 신호의 우도비(likelihood ratio)를 산출하는 단계;
    상기 산출된 우도비의 프레임 평균파워를 계산하고, 상기 산출된 우도비 중에서 주파수 빈 파워가 상기 프레임 평균파워 이상인 우도비를 선택하는 단계; 및
    상기 선택된 우도비를 사용하여 음성신호를 검출하는 단계를 포함하며,
    상기 평균파워는,
    Figure 112011031680969-pat00034
    의 수학식으로 나타내고,
    이때, Q는 각 프레임의 평균 파워를 넘는 주파수 빈의 수이고, Yavg(n)은 n번째 프레임의 평균파워이고,
    Figure 112011031680969-pat00035
    은 k번 주파수 빈에서의 스펙트럼 파워가 Yavg(n) 이상일 경우, 해당 주파수 빈에서의 우도비 Λk(n)를 반환하며, 그 반대의 경우 0을 반환하는 함수인 것을 특징으로 하는 음성 검출 방법.
  10. 삭제
  11. 신호를 입력받는 단계;
    상기 입력된 신호의 우도비(likelihood ratio)를 산출하는 단계;
    상기 산출된 우도비 중에서 주파수 빈 파워가 상위 P개(P는 자연수)인 우도비를 선택하는 단계; 및
    상기 선택된 우도비를 사용하여 음성신호를 검출하는 단계를 포함하며,
    상기 우도비를 선택하는 단계는,
    Figure 112011031680969-pat00036
    의 수학식을 이용하여 상기 산출된 우도비 중에서 주파수 빈 파워가 P개인 우도비를 선택하고,
    이때, Λ(r)(n)는 주파수 빈의 파워 크기 순으로 재 배열된 우도비를 나타내고, Λ(M)(n)은 n번째 프레임에서의 최대파워에 해당하는 주파수 빈에서의 우도비이고, P는 고려하고자 하는 상위파워 주파수 빈의 갯수를 나타내는 것임을 특징으로 하는 음성 검출 방법.
  12. 삭제
  13. 삭제
KR1020090126274A 2009-12-17 2009-12-17 신뢰성이 높은 우도비를 사용한 음성 검출 장치 및 방법 KR101088181B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020090126274A KR101088181B1 (ko) 2009-12-17 2009-12-17 신뢰성이 높은 우도비를 사용한 음성 검출 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090126274A KR101088181B1 (ko) 2009-12-17 2009-12-17 신뢰성이 높은 우도비를 사용한 음성 검출 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20110069514A KR20110069514A (ko) 2011-06-23
KR101088181B1 true KR101088181B1 (ko) 2011-12-02

Family

ID=44401321

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090126274A KR101088181B1 (ko) 2009-12-17 2009-12-17 신뢰성이 높은 우도비를 사용한 음성 검출 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101088181B1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103730124A (zh) * 2013-12-31 2014-04-16 上海交通大学无锡研究院 一种基于似然比测试的噪声鲁棒性端点检测方法
KR102343811B1 (ko) * 2020-02-28 2021-12-28 광주과학기술원 음성 검출 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
김영관, 서영주, 김회린, "선택적 주파수에서의 우도비를 이용한 통계모델 기반 음성검출기," 한국음성학회 봄 학술대회, pp. 165-166, 2009년5월.*

Also Published As

Publication number Publication date
KR20110069514A (ko) 2011-06-23

Similar Documents

Publication Publication Date Title
US8380497B2 (en) Methods and apparatus for noise estimation
US7596496B2 (en) Voice activity detection apparatus and method
Davis et al. Statistical voice activity detection using low-variance spectrum estimation and an adaptive threshold
US20040064314A1 (en) Methods and apparatus for speech end-point detection
US8311819B2 (en) System for detecting speech with background voice estimates and noise estimates
US7774203B2 (en) Audio signal segmentation algorithm
US8046215B2 (en) Method and apparatus to detect voice activity by adding a random signal
US20140067388A1 (en) Robust voice activity detection in adverse environments
US11114105B2 (en) Estimation of background noise in audio signals
JP4545729B2 (ja) 音声信号検出システム及び方法
CN107086043B (zh) 检测音频信号的方法和装置
US7860708B2 (en) Apparatus and method for extracting pitch information from speech signal
KR102136700B1 (ko) 톤 카운팅 기반의 음성활성구간 검출 장치 및 방법
Millioz et al. Estimation of a white Gaussian noise in the Short Time Fourier Transform based on the spectral kurtosis of the minimal statistics: Application to underwater noise
KR101088181B1 (ko) 신뢰성이 높은 우도비를 사용한 음성 검출 장치 및 방법
US11610601B2 (en) Method and apparatus for determining speech presence probability and electronic device
CN110556128B (zh) 一种语音活动性检测方法、设备及计算机可读存储介质
KR100530261B1 (ko) 통계적 모델에 기초한 유성음/무성음 판별 장치 및 그 방법
Kim et al. A new statistical voice activity detection based on UMP test
Martalò et al. Low-complexity in-sensor audio detection with experimental validation
Deng et al. Likelihood ratio sign test for voice activity detection
Mohanty et al. Voice detection using statistical method
Song et al. Voice Activity Detection Based on Generalized Normal-Laplace Distribution Incorporating Conditional MAP
Martalò et al. In-sensor low-complexity audio pattern recognition for pervasive networking
Jang et al. A uniformly most powerful test for statistical model-based voice activity detection.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee