KR101088181B1 - 신뢰성이 높은 우도비를 사용한 음성 검출 장치 및 방법 - Google Patents
신뢰성이 높은 우도비를 사용한 음성 검출 장치 및 방법 Download PDFInfo
- Publication number
- KR101088181B1 KR101088181B1 KR1020090126274A KR20090126274A KR101088181B1 KR 101088181 B1 KR101088181 B1 KR 101088181B1 KR 1020090126274 A KR1020090126274 A KR 1020090126274A KR 20090126274 A KR20090126274 A KR 20090126274A KR 101088181 B1 KR101088181 B1 KR 101088181B1
- Authority
- KR
- South Korea
- Prior art keywords
- likelihood ratio
- power
- frequency bin
- likelihood
- signal
- Prior art date
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 7
- 230000000694 effects Effects 0.000 title description 2
- 230000003595 spectral effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000013179 statistical model Methods 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 4
- 206010002953 Aphonia Diseases 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/06—Decision making techniques; Pattern matching strategies
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Game Theory and Decision Science (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
본 발명은 잡음 환경에서 음성 인식기와 화자 인식기의 인식성능을 보장하기 위해 사용되는 음성 검출 장치 및 방법에 관한 것으로서, 본 발명의 음성 검출 장치는 신호를 입력받기 위한 입력수단 및 상기 입력수단으로부터 입력된 신호의 우도비(likelihood ratio)를 산출하고, 산출된 우도비 중에서 주파수 빈(bin)의 파워에 따라 우도비를 선택하고, 선택된 우도비를 사용하여 음성신호를 검출하기 위한 분석수단을 포함한다. 본 발명에 의하면 음성 검출 장치에서 우도비의 주파수 빈 파워를 기반으로 우도비를 선택적으로 이용함으로써, 음성 검출 성능을 향상시킬 수 있는 효과가 있다.
음성 인식, 화자 인식, 검출, 우도비, 주파수 빈, 파워, 푸리에 변환.
Description
본 발명은 잡음 환경에서 음성 인식기와 화자 인식기의 인식성능을 보장하기 위해 사용되는 음성 검출 장치 및 방법에 관한 것으로서, 더욱 상세하게는 다양한 잡음 환경에서 음성 검출 장치의 성능 열화 문제를 개선하기 위하여 음성 영역과 잡음 영역을 결정짓는 결정 규칙에 고려되는 우도비(likelihood ratio)를 선택적으로 활용하는 음성 검출 장치 및 방법에 관한 것이다.
복소수 가우시안 분포를 이용한 통계모델 기반의 음성검출기는 ‘ A statistical model-based voice activity detection', IEEE Signal Processing Letters, Vol.6, No. 1, pp1-3, Jan. 1999 by J. Sohn, N. S. Kim and W. Sung의 논문에 제안되었으며 이 알고리즘은 열악한 잡음 환경에서 기존에 개발되어진 음성검출기보다 뛰어난 성능을 보여준다.
이러한 통계 모델 기반의 음성 검출기는 세 가지 가정을 기반으로 한다. 첫 째 가정은 음성과 잡음신호는 서로 상관관계가 없고, 둘째 가정은 이산 푸리에 변환 계수들이 서로 독립적이며, 셋째 가정은 각각의 계수들은 음성이 존재하는 상황과 그렇지 않은 상황에 따른 분산을 고려한 복소수 가우시안 분포 특성을 가진다는 것이다. 이러한 통계모델기반의 음성검출기의 결정규칙은 잡음만 존재하는 경우를 가정했을 경우의 분산과 음성과 잡음이 섞여 들어올 경우의 분산, 즉 잡음과 음성신호의 분산의 합에 의한 가우시안 분포의 우도비를 고려하여, 전체 주파수 영역에서의 우도비 평균을 통해 해당 프레임의 신호가 음성을 포함하는지 여부를 판단하게 된다.
복소수 가우시안 분포를 사용하는 음성검출기의 경우, 해당 프레임의 신호가 음성을 포함하는지 아닌지를 판단하는데 사용되는 각각의 주파수 성분에서의 우도비가 각각의 성분의 파워에 따라 음성의 존재 유무를 잘 표현해 주기도 하지만 그렇지 못하는 경우도 발생하게 된다. 이로 인해 모든 주파수 영역에서의 우도비를 고려하게 된다면, 음성의 유무를 표현해 주지 못하는, 즉 신뢰성이 떨어지는 우도비까지 고려하게 되어, 음성검출기의 성능을 저해시키는 문제가 발생한다.
이러한 문제점을 해결하기 위해 안출된 본 발명은 프레임 내의 음성 존재 유무를 보다 잘 식별하기 위하여 우도비를 선택하여 결정함으로써 음성 검출 성능을 향상시킬 수 있는 음성 검출 장치 및 방법을 제공하는데 그 목적이 있다.
이와 같은 목적을 달성하기 위한 본 발명의 음성 검출 장치는 신호를 입력받기 위한 입력수단 및 상기 입력수단으로부터 입력된 신호의 우도비(likelihood ratio)를 산출하고, 산출된 우도비 중에서 주파수 빈(bin)의 파워에 따라 우도비를 선택하고, 선택된 우도비를 사용하여 음성신호를 검출하기 위한 분석수단을 포함한다.
상기 분석수단은 상기 산출된 우도비의 프레임 평균파워를 계산하고, 상기 산출된 우도비 중에서 주파수 빈 파워가 상기 프레임 평균파워 이상인 우도비를 선 택할 수 있다.
상기 평균파워는, 의 수학식으로 나타내고, 이때, Q는 각 프레임의 평균 파워를 넘는 주파수 빈의 수이고, Yavg(n)은 n번째 프레임의 평균파워이고, 은 k번 주파수 빈에서의 스펙트럼 파워가 Yavg(n) 이상일 경우, 해당 주파수 빈에서의 우도비 Λk(n)를 반환하며, 그 반대의 경우 0을 반환하는 함수일 수 있다.
또는, 상기 분석수단은 상기 산출된 우도비 중에서 주파수 빈 파워가 상위 P개(P는 자연수)인 우도비를 선택하는 것일 수 있다.
상기 분석수단은, 의 수학식을 이용하여 상기 산출된 우도비 중에서 주파수 빈 파워가 P개인 우도비를 선택하고, 이때 Λ(r)(n)는 주파수 빈의 파워 크기 순으로 재 배열된 우도비를 나타내고, Λ(M)(n)은 n번째 프레임에서의 최대파워에 해당하는 주파수 빈에서의 우도비이고, P는 고려하고자 하는 상위파워 주파수 빈의 갯수를 나타내는 것일 수 있다.
상기 입력수단은 입력된 신호를 이산 푸리에 변환할 수 있다.
상기 분석수단은, 상기 입력수단으로부터 입력된 신호의 우도비(likelihood ratio)를 산출하기 위한 우도비 산출 모듈, 상기 우도비 산출 모듈로부터 산출된 우도비 중에서 주파수 빈(bin)의 파워에 따라 우도비를 선택하기 위한 우도비 선택 모듈 및 상기 우도비 선택 모듈로부터 선택된 우도비를 사용하여 음성신호를 검출하기 위한 음성 검출 모듈을 포함할 수 있다.
본 발명의 음성 검출 방법은 신호를 입력받는 단계, 상기 입력된 신호의 우도비(likelihood ratio)를 산출하는 단계, 상기 산출된 우도비 중에서 주파수 빈(bin)의 파워에 따라 우도비를 선택하는 단계 및 상기 선택된 우도비를 사용하여 음성신호를 검출하는 단계를 포함한다.
상기 우도비를 선택하는 단계는, 상기 산출된 우도비의 프레임 평균파워를 계산하고, 상기 산출된 우도비 중에서 주파수 빈 파워가 상기 프레임 평균파워 이상인 우도비를 선택하는 것일 수 있다.
상기 평균파워는, 의 수학식으로 나타내고, 이때, Q는 각 프레임의 평균 파워를 넘는 주파수 빈의 수이고, Yavg(n)은 n번째 프레임의 평균파워이고, 은 k번 주파수 빈에서의 스펙트럼 파워가 Yavg(n) 이상일 경우, 해당 주파수 빈에서의 우도비 Λk(n)를 반환하며, 그 반대의 경우 0을 반환하는 함수일 수 있다.
또는, 상기 우도비를 선택하는 단계는, 상기 산출된 우도비 중에서 주파수 빈 파워가 상위 P개(P는 자연수)인 우도비를 선택하는 것일 수 있다.
상기 우도비를 선택하는 단계는, 의 수학식을 이용하여 상기 산출된 우도비 중에서 주파수 빈 파워가 P개인 우도비를 선택하고, 이때, Λ(r)(n)는 주파수 빈의 파워 크기 순으로 재 배열된 우도비를 나타내고, Λ(M)(n)은 n번째 프레임에서의 최대파워에 해당하는 주파수 빈에서의 우도비이고, P는 고려하고자 하는 상위파워 주파수 빈의 갯수를 나타내는 것일 수 있다.
상기 신호를 입력받는 단계는 입력된 신호를 이산 푸리에 변환하는 것일 수 있다.
본 발명에 의하면 음성 검출 장치에서 우도비의 주파수 빈 파워를 기반으로 우도비를 선택적으로 이용함으로써, 음성 검출 성능을 향상시킬 수 있는 효과가 있다.
즉, 본 발명에서는 프레임 내의 음성의 존재 유무를 잘 구별할 수 있는 우도 비만 선택하고 나머지 우도비는 제외시킴으로써 음성 검출 성능을 향상시킬 수 있다.
이하, 첨부된 도면을 참조해서 본 발명의 실시예를 상세히 설명하면 다음과 같다. 우선 각 도면의 구성 요소들에 참조 부호를 부가함에 있어서, 동일한 구성 요소들에 한해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 그리고, 본 발명을 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 본 발명의 일 실시예에 따른 음성 검출 장치의 구성을 보여주는 블록도이다.
도 1을 참조하면, 음성 검출 장치는 입력수단(100), 분석수단(200)을 포함하여 이루어진다.
입력수단(100)은 신호를 입력받는 역할을 한다. 본 발명의 일 실시예에서 입력수단(100)은 입력된 신호를 이산 푸리에 변환할 수 있다.
분석수단(200)은 입력수단(100)으로부터 입력된 신호의 우도비(likelihood ratio)를 산출하고, 산출된 우도비 중에서 주파수 빈(bin)의 파워에 따라 우도비를 선택하고, 선택된 우도비를 사용하여 음성신호를 검출하는 역할을 한다.
본 발명의 일 실시예에서 분석수단(200)은 우도비 산출 모듈(210), 우도비 선택 모듈(220), 음성 검출 모듈(230)을 포함하여 이루어질 수 있다.
우도비 산출 모듈(210)은 입력수단(100)으로부터 입력된 신호의 우도비(likelihood ratio)를 산출하는 역할을 한다.
우도비 선택 모듈(220)은 우도비 산출 모듈(210)로부터 산출된 우도비 중에서 주파수 빈(bin)의 파워에 따라 우도비를 선택하는 역할을 한다.
본 발명의 일 실시예에서 우도비 선택 모듈(220)은 산출된 우도비의 프레임 평균파워를 계산하고, 산출된 우도비 중에서 주파수 빈 파워가 프레임 평균파워 이상인 우도비를 선택할 수 있다. 이때 우도비의 프레임 평균파워를 계산하는 [수학식 1]은 다음과 같다.
이때, Q는 각 프레임의 평균 파워를 넘는 주파수 빈의 수이고, Yavg(n)은 n번째 프레임의 평균파워이고, 은 k번 주파수 빈에서의 스펙트럼 파워가 Yavg(n) 이상일 경우, 해당 주파수 빈에서의 우도비 Λk(n)를 반환하며, 그 반대의 경우 0을 반환하는 함수이다.
본 발명의 다른 실시예에서 우도비 선택 모듈(220)은 산출된 우도비 중에서 주파수 빈 파워가 상위 P개(P는 자연수)인 우도비를 선택할 수 있다. 예를 들어, P=10이라면, 우도비 선택 모듈(220)은 주파수 빈 파워가 상위 10개인 우도비를 선택하는 것이다. 이때, 우도비 선택 모듈(220)은 다음 [수학식 2]를 이용하여 산출된 우도비 중에서 주파수 빈 파워가 P개인 우도비를 선택할 수 있다.
이때, Λ(r)(n)는 주파수 빈의 파워 크기 순으로 재 배열된 우도비를 나타내고, Λ(M)(n)은 n번째 프레임에서의 최대파워에 해당하는 주파수 빈에서의 우도비이고, P는 고려하고자 하는 상위파워 주파수 빈의 갯수를 나타낸다.
음성 검출 모듈(230)은 우도비 선택 모듈(220)로부터 선택된 우도비를 사용하여 음성신호를 검출하는 역할을 한다.
이제 이러한 구조를 갖는 음성 검출 장치에서 음성을 검출하는 방법을 도면을 참조하여 상세히 설명하기로 한다.
도 2는 본 발명의 일 실시예에 따른 음성 검출 방법을 보여주는 흐름도이다.
도 2를 참조하면, 신호를 입력받고(S201), 입력된 신호의 우도비(likelihood ratio)를 산출한다(S203). 본 발명의 일 실시예에서 S201 단계에서 입력된 신호를 이산 푸리에 변환하여 출력할 수 있다. 본 발명의 일 실시예에서 S203 단계에서 통계모델 기반의 음성 검출 장치로부터 모든 주파수 빈에서의 우도비를 구할 수 있다.
다음, 산출된 우도비 중에서 주파수 빈(bin)의 파워에 따라 우도비를 선택한다(S205).
본 발명에서 S205 단계에서 주파수 빈의 파워에 따라 우도비를 선택하는 실시예로서 2가지 실시예를 제안한다.
첫번째 실시예는, 산출된 우도비의 프레임 평균파워를 계산하고, 산출된 우도비 중에서 주파수 빈 파워가 프레임 평균파워 이상인 우도비를 선택하는 것이다. 이때, 평균파워를 계산하는 수학식은 상술한 [수학식 1]과 같다.
두번째 실시예는, 산출된 우도비 중에서 주파수 빈 파워가 상위 P개(P는 자연수)인 우도비를 선택하는 것이다. 이때, 상술한 [수학식 2]를 이용하여 산출된 우도비 중에서 주파수 빈 파워가 P개인 우도비를 선택할 수 있다.
다음, S205 단계에서 선택된 우도비를 사용하여 음성신호를 검출한다(S207).
이제 본 발명에서 음성 존재 모델 및 음성 부재 통계 모델은 다음과 같다.
먼저, 입력신호 Y(n)은 순수한 음성신호 S(n)과 잡음신호 N(n)의 합으로 구성된다고 가정한다. 이때, 가설 H0와 H1은 각각 음성이 존재하지 않는 경우와, 존재 하는 경우를 나타내며, 가설 H0와 H1에서, Y(n)은 다음의 [수학식 3] 및 [수학식 4]를 만족한다.
본 발명에서는 입력신호의 DFT 계수의 적절한 분포로서 복소수 가우시안 확률밀도함수를 채택한다. 두 개의 가설 H0와 H1에 의해 결정되는 입력신호의 DFT 계수의 분포는 다음의 수학식과 같이 나타낼 수 있다.
여기서, λN,k와 λS,k는 각각 k번째 주파수 빈의 잡음과 순수한 음성의 분산을 나타낸다.
여기서, λN,k와 λS,k는 각각 k번째 주파수 빈의 잡음과 순수한 음성의 분산을 나타낸다.
다음은 본 발명에서 통계모델 기반의 음성 검출 장치의 결정 규칙에 대하여 설명하고자 한다.
통계모델 기반의 음성 검출 장치에서는 가정된 통계모델을 기초로 하고, n번째 프레임에서 k번째 주파수 빈에 대한 우도비를 다음 [수학식 7]과 같이 정의한다.
음성 검출 장치에 대한 결정규칙은 개별 주파수 빈에 대하여 로그를 취한 계산된 우도비들에 대한 산술 평균으로서 다음 [수학식 8]과 같이 구할 수 있다.
여기서, M은 전체 주파수 빈의 수를 나타내며, η은 검출 임계치를 나타낸다.
도 3 및 도 4는 복소수 가우시안 확률분포함수를 도시한 그래프이다.
도 3에서 가로축은 입력신호의 스펙트럼 절대값을 나타내고, 세로축은 우도(Likelihood)를 나타낸다. 도 4에서 가로축은 입력신호의 스펙트럼 절대값을 나타내고, 세로축은 우도비를 나타낸다.
도 4에 도시된 바와 같이, 입력신호의 스펙트럼 절대값이 σth에 가까운 곳에 위치하게 되면, 음성의 분산에 관계없이 낮은 우도비를 가지게 되고, 이와 같은 현상은 입력신호의 스펙트럼 절대값이 낮은 경우, 순수한 음성이 존재하는 구간과 존재하지 않는 구간으로서 우도비의 변별력이 떨어짐을 알 수 있다.
따라서, 본 발명에서는 우도비의 주파수 빈 파워에 기초하여 선택된 우도비를 결정규칙에 사용하는 것이다.
본 발명의 실시예에서는 모든 주파수 빈에서의 우도비를 이용한 결정규칙과, 주파수 빈의 파워에 의해 선택된 우도비를 이용한 결정규칙의 성능을 비교하기 위하여 각 결정규칙에 대한 결정을 위한 임계치의 변화에 따른 음성 감지 확률(Speech Detection Rate; 음성 프레임을 제대로 검출하는 확률)과 거짓 경고 확률(False Alarm Rate; 음성이 없는 프레임을 음성이 있는 프레임으로 판단하는 확률)을 조사하였다.
도 5 내지 도 7은 본 발명의 일 실시예에 따른 음성 검출 성능과 종래 기술에 따른 음성 검출 성능을 비교한 그래프이다.
도 5는 자동자(Car) 잡음 하에서의 결정규칙에 따른 음성 검출 장치의 수신 동작 특성을 나타내는 그래프이다.
도 6은 배블(Babble) 잡음 하에서의 결정규칙에 따른 음성 검출 장치의 수신 동작 특성을 나타내는 그래프이다.
도 7은 거리(Street) 잡음 하에서의 결정규칙에 따른 음성 검출 장치의 수신 동작 특성을 나타내는 그래프이다.
도 5 내지 도 7에서, 세로축은 음성 감지 확률, 가로축은 거짓 경고 확률을 나타내며, 다음과 같은 사항들을 알 수 있다.
첫째, 본 발명에서 주파수 빈 파워에 기초해 우도비를 선택하는 두 가지 방식의 결정규칙에 의한 음성검출 성능이 모든 환경에서 전체 우도비를 사용하는 음성 검출 장치의 성능보다 더 나은 성능을 나타낸다.
둘째, 자동차 잡음과 같이 정적(Stationary)인 특성을 보이는 잡음환경에서는 상위 파워 10개의 주파수 빈에서의 우도비를 사용하는 결정규칙이 가장 좋은 성능 보였으며, 배블, 거리 잡음과 같은 비정적(Non-stationary)인 특성을 보이는 잡음환경에서는 평균 파워 이상을 가지는 주파수 빈에서의 우도비를 사용하는 결정 규칙이 가장 좋은 성능을 나타낸다.
결론적으로, 주파수 빈의 파워에 의해 선택된 우도비를 이용하는 결정규칙이 신뢰도가 떨어지는 우도비를 결정규칙에서 제외시킴으로써, 입력신호의 음성의 포함여부를 결정지어주는데 도움이 된다는 점을 확인할 수 있다.
이상 본 발명을 몇 가지 바람직한 실시예를 사용하여 설명하였으나, 이들 실시예는 예시적인 것이며 한정적인 것이 아니다. 본 발명이 속하는 기술분야에서 통상의 지식을 지닌 자라면 본 발명의 사상과 첨부된 특허청구범위에 제시된 권리범위에서 벗어나지 않으면서 다양한 변화와 수정을 가할 수 있음을 이해할 것이다.
도 1은 본 발명의 일 실시예에 따른 음성 검출 장치의 구성을 보여주는 블록도이다.
도 2는 본 발명의 일 실시예에 따른 음성 검출 방법을 보여주는 흐름도이다.
도 3 및 도 4는 복소수 가우시안 확률분포함수를 도시한 그래프이다.
도 5 내지 도 7은 본 발명의 일 실시예에 따른 음성 검출 성능과 종래 기술에 따른 음성 검출 성능을 비교한 그래프이다.
*도면의 주요 부분에 대한 부호의 설명*
100 입력수단 200 분석수단
210 우도비 산출 모듈 220 우도비 선택 모듈
230 음성 검출 모듈
Claims (13)
- 삭제
- 신호를 입력받기 위한 입력수단; 및상기 입력수단으로부터 입력된 신호의 우도비(likelihood ratio)를 산출하고, 상기 산출된 우도비의 프레임 평균파워를 계산하고, 상기 산출된 우도비 중에서 주파수 빈 파워가 상기 프레임 평균파워 이상인 우도비를 선택하고, 선택된 우도비를 사용하여 음성신호를 검출하기 위한 분석수단을 포함하며,상기 평균파워는,의 수학식으로 나타내고,
- 삭제
- 신호를 입력받기 위한 입력수단; 및상기 입력수단으로부터 입력된 신호의 우도비(likelihood ratio)를 산출하고, 상기 산출된 우도비 중에서 주파수 빈 파워가 상위 P개(P는 자연수)인 우도비를 선택하고, 선택된 우도비를 사용하여 음성신호를 검출하기 위한 분석수단을 포함하며,상기 분석수단은,의 수학식을 이용하여 상기 산출된 우도비 중에서 주파수 빈 파워가 P개인 우도비를 선택하고,이때, Λ(r)(n)는 주파수 빈의 파워 크기 순으로 재 배열된 우도비를 나타내고, Λ(M)(n)은 n번째 프레임에서의 최대파워에 해당하는 주파수 빈에서의 우도비이고, P는 고려하고자 하는 상위파워 주파수 빈의 갯수를 나타내는 것임을 특징으로 하는 음성 검출 장치.
- 삭제
- 삭제
- 제2항 또는 제4항에 있어서,상기 분석수단은,상기 입력수단으로부터 입력된 신호의 우도비(likelihood ratio)를 산출하기 위한 우도비 산출 모듈;상기 우도비 산출 모듈로부터 산출된 우도비 중에서 주파수 빈(bin)의 파워에 따라 우도비를 선택하기 위한 우도비 선택 모듈; 및상기 우도비 선택 모듈로부터 선택된 우도비를 사용하여 음성신호를 검출하기 위한 음성 검출 모듈을 포함하는 것을 특징으로 하는 음성 검출 장치.
- 삭제
- 신호를 입력받는 단계;상기 입력된 신호의 우도비(likelihood ratio)를 산출하는 단계;상기 산출된 우도비의 프레임 평균파워를 계산하고, 상기 산출된 우도비 중에서 주파수 빈 파워가 상기 프레임 평균파워 이상인 우도비를 선택하는 단계; 및상기 선택된 우도비를 사용하여 음성신호를 검출하는 단계를 포함하며,상기 평균파워는,의 수학식으로 나타내고,
- 삭제
- 신호를 입력받는 단계;상기 입력된 신호의 우도비(likelihood ratio)를 산출하는 단계;상기 산출된 우도비 중에서 주파수 빈 파워가 상위 P개(P는 자연수)인 우도비를 선택하는 단계; 및상기 선택된 우도비를 사용하여 음성신호를 검출하는 단계를 포함하며,상기 우도비를 선택하는 단계는,의 수학식을 이용하여 상기 산출된 우도비 중에서 주파수 빈 파워가 P개인 우도비를 선택하고,이때, Λ(r)(n)는 주파수 빈의 파워 크기 순으로 재 배열된 우도비를 나타내고, Λ(M)(n)은 n번째 프레임에서의 최대파워에 해당하는 주파수 빈에서의 우도비이고, P는 고려하고자 하는 상위파워 주파수 빈의 갯수를 나타내는 것임을 특징으로 하는 음성 검출 방법.
- 삭제
- 삭제
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090126274A KR101088181B1 (ko) | 2009-12-17 | 2009-12-17 | 신뢰성이 높은 우도비를 사용한 음성 검출 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020090126274A KR101088181B1 (ko) | 2009-12-17 | 2009-12-17 | 신뢰성이 높은 우도비를 사용한 음성 검출 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20110069514A KR20110069514A (ko) | 2011-06-23 |
KR101088181B1 true KR101088181B1 (ko) | 2011-12-02 |
Family
ID=44401321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020090126274A KR101088181B1 (ko) | 2009-12-17 | 2009-12-17 | 신뢰성이 높은 우도비를 사용한 음성 검출 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101088181B1 (ko) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103730124A (zh) * | 2013-12-31 | 2014-04-16 | 上海交通大学无锡研究院 | 一种基于似然比测试的噪声鲁棒性端点检测方法 |
KR102343811B1 (ko) * | 2020-02-28 | 2021-12-28 | 광주과학기술원 | 음성 검출 방법 |
-
2009
- 2009-12-17 KR KR1020090126274A patent/KR101088181B1/ko not_active IP Right Cessation
Non-Patent Citations (1)
Title |
---|
김영관, 서영주, 김회린, "선택적 주파수에서의 우도비를 이용한 통계모델 기반 음성검출기," 한국음성학회 봄 학술대회, pp. 165-166, 2009년5월.* |
Also Published As
Publication number | Publication date |
---|---|
KR20110069514A (ko) | 2011-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8380497B2 (en) | Methods and apparatus for noise estimation | |
US7596496B2 (en) | Voice activity detection apparatus and method | |
Davis et al. | Statistical voice activity detection using low-variance spectrum estimation and an adaptive threshold | |
US20040064314A1 (en) | Methods and apparatus for speech end-point detection | |
US8311819B2 (en) | System for detecting speech with background voice estimates and noise estimates | |
US7774203B2 (en) | Audio signal segmentation algorithm | |
US8046215B2 (en) | Method and apparatus to detect voice activity by adding a random signal | |
US20140067388A1 (en) | Robust voice activity detection in adverse environments | |
US11114105B2 (en) | Estimation of background noise in audio signals | |
JP4545729B2 (ja) | 音声信号検出システム及び方法 | |
CN107086043B (zh) | 检测音频信号的方法和装置 | |
US7860708B2 (en) | Apparatus and method for extracting pitch information from speech signal | |
KR102136700B1 (ko) | 톤 카운팅 기반의 음성활성구간 검출 장치 및 방법 | |
Millioz et al. | Estimation of a white Gaussian noise in the Short Time Fourier Transform based on the spectral kurtosis of the minimal statistics: Application to underwater noise | |
KR101088181B1 (ko) | 신뢰성이 높은 우도비를 사용한 음성 검출 장치 및 방법 | |
US11610601B2 (en) | Method and apparatus for determining speech presence probability and electronic device | |
CN110556128B (zh) | 一种语音活动性检测方法、设备及计算机可读存储介质 | |
KR100530261B1 (ko) | 통계적 모델에 기초한 유성음/무성음 판별 장치 및 그 방법 | |
Kim et al. | A new statistical voice activity detection based on UMP test | |
Martalò et al. | Low-complexity in-sensor audio detection with experimental validation | |
Deng et al. | Likelihood ratio sign test for voice activity detection | |
Mohanty et al. | Voice detection using statistical method | |
Song et al. | Voice Activity Detection Based on Generalized Normal-Laplace Distribution Incorporating Conditional MAP | |
Martalò et al. | In-sensor low-complexity audio pattern recognition for pervasive networking | |
Jang et al. | A uniformly most powerful test for statistical model-based voice activity detection. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
LAPS | Lapse due to unpaid annual fee |