KR101437830B1 - 음성 구간 검출 방법 및 장치 - Google Patents

음성 구간 검출 방법 및 장치 Download PDF

Info

Publication number
KR101437830B1
KR101437830B1 KR1020070115503A KR20070115503A KR101437830B1 KR 101437830 B1 KR101437830 B1 KR 101437830B1 KR 1020070115503 A KR1020070115503 A KR 1020070115503A KR 20070115503 A KR20070115503 A KR 20070115503A KR 101437830 B1 KR101437830 B1 KR 101437830B1
Authority
KR
South Korea
Prior art keywords
audio
power
value
frame
interval
Prior art date
Application number
KR1020070115503A
Other languages
English (en)
Other versions
KR20090049300A (ko
Inventor
조재연
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020070115503A priority Critical patent/KR101437830B1/ko
Priority to US12/127,942 priority patent/US8744842B2/en
Publication of KR20090049300A publication Critical patent/KR20090049300A/ko
Application granted granted Critical
Publication of KR101437830B1 publication Critical patent/KR101437830B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Abstract

프레임의 파워만으로 강인한 음성 구간을 검출하는 음성 구간 검출 방법 및 장치가 개시되어 있다. 본 발명은 오디오 프레임의 레벨값에 따라 오디오 프레임에 대한 제1차 음성 유무 구간을 판별하는 과정, 제1차 음성 유무 구간의 판별에 따라 현재 및 이전 오디오 프레임의 레벨값을 참조하여 연속되는 오디오 프레임에 대한 잡음의 파워 예측값과 신호의 파워 예측값을 추출하는 과정, 추출된 신호의 파워 예측값과 잡음의 파워 예측값을 비교하여 상기 해당 오디오 프레임에 대한 제2차 음성 유무 구간을 판별하는 과정을 포함한다.

Description

음성 구간 검출 방법 및 장치{Method and apparatus for detecting voice activity}
본 발명은 오디오 처리 시스템에 관한 것이며, 특히 프레임의 파워만으로 강인한 음성 구간을 검출하는 음성 구간 검출 방법 및 장치에 관한 것이다.
통상적으로 음성 코딩에서 VAD(Voice Activity Detection)나 음성 인식의 EPD(End Point Detection)은 신호내 음성 구간을 추출하는 방법이다.
종래 음성 구간 검출 방법은 프레임의 에너지와 프레임의 영 교차율을 이용하여 음성 구간이나 음성의 시작점과 끝점을 검출한다. 예를 들면, 각 프레임의 영 교차율이 낮고 높음에 따라 유음 구간과 무음 구간을 판단한다.
이때 영 교차율을 이용한 음성 구간 판별 방법은 음성이 존재하지 않는 구간에 잡음이 존재할 수 있으므로 유음 구간과 무음 구간에서의 영 교차율이 항상 일치하지 않는다.
즉, 영 교차율을 이용한 음성 구간 판별 방법은 음성 구간을 검출할 경우 음성뿐만 아니라 그 음성과 비슷한 수준의 영 교차율을 갖는 비 음성 잡음도 음성 구간으로 검출할 수 있다. 따라서 종래의 영 교차율을 이용한 음성 구간 판별 방법은 영 교차율이 무음 구간에서도 작게 나타날 수 있으므로 오류가 발생 할 수 있다.
또한 프레임의 에너지를 사용한 음성 구간 판별 방법은 레벨이 다른 신호들이 입력될 경우 정해진 임계치로 유음/무음 구간을 분별하기가 어렵다.
본 발명이 해결하고자하는 과제는 오디오 프레임의 파워만을 사용하여 주위 환경에 영향을 덜 받는 강인한 음성 구간을 검출하는 음성 구간 검출 방법 및 장치를 제공하는 데 있다.
상기의 과제를 해결하기 위하여, 본 발명은 음성 구간 검출 방법에 있어서,
오디오 프레임의 레벨값에 따라 오디오 프레임에 대한 제1차 음성 유무 구간을 판별하는 과정;
상기 제1차 음성 유무 구간의 판별에 따라 현재 및 이전 오디오 프레임의 레벨값을 참조하여 연속되는 오디오 프레임에 대한 잡음의 파워 예측값과 신호의 파워 예측값을 추출하는 과정;
상기 추출된 신호의 파워 예측값과 잡음의 파워 예측값을 비교하여 상기 해당 오디오 프레임에 대한 제2차 음성 유무 구간을 판별하는 과정을 포함하는 것을 특징으로 한다.
상기의 다른 과제를 해결하기 위하여, 본 발명은 음성 구간 검출 장치에 있어서,
오디오 프레임의 파워값에 따라 오디오 프레임에 대한 제1차 음성 유무 구간을 판별하는 제1음성구간 판별부;
상기 제1음성구간 판별부의 음성 유무 구간의 판별에 따라 현재 및 이전 오 디오 프레임의 레벨값을 참조하여 잡음의 파워 예측값과 신호의 파워 예측값을 갱신하는 프레임 파워 예측부;
프레임 파워 예측부에서 추출된 신호의 파워 예측값과 잡음의 파워 예측값을 비교하여 해당 오디오 프레임에 대한 제2차 음성 유무 구간을 판별하는 제2음성구간 판별부를 포함하는 것을 특징으로 한다.
상술한 바와 같이 본 발명에 의하면, 프레임의 파워만 구하여 유무음 구간을 판별함으로써 계산량이 간단하고, 유무음 구간에 대한 분별력을 증가시킬 수 있다.
또한 본 발명은 신호의 파워 예측값과 잡음의 파워 예측값을 비교함으로써 작은 레벨의 신호를 판별하는데 더욱 효과적이다.
이하 첨부된 도면을 참조로하여 본 발명의 바람직한 실시예를 설명하기로 한다.
도 1A 및 도 1B는 본 발명에 따른 음성 구간 검출 기능을 구비한 오디오 처리 시스템의 블록도이다.
도 1A는 아날로그 오디오 신호가 입력될 때의 오디오 처리 시스템이다.
도 1A의 오디오 처리 시스템은 A/D 변환부(110), 음성 구간 검출부(120), 오디오 신호 처리부(130), D/A 변환부(140)를 구비한다.
A/D(Aanalog Digital) 변환부(110)는 아날로그 오디오 신호를 디지털 오디오 신호로 변환한다.
음성 구간 검출부(120)는 A/D 변환부(110)에서 출력되는 오디오 프레임의 레벨값에 따라 오디오 프레임에 대한 제1차 음성 유무 구간을 판별하고, 제1차 음성 유무 구간에 따라 현재 및 이전 오디오 프레임의 레벨값을 참조하여 잡음의 파워 예측값과 신호의 파워 예측값을 추출하고, 추출된 신호의 파워 예측값과 잡음의 파워 예측값을 비교하여 해당 오디오 프레임에 대한 제2차 음성 유무 구간을 검출한다.
오디오 신호 처리부(130)는 음성 구간 검출부(120)에서 검출되는 음성 및 무음성 구간 정보에 따라 음성 코딩 및 음성 인식 처리를 수행한다.
D/A(Digital Analog) 변환부(140)는 오디오 신호 처리부(130)에서 처리된 오디오 신호를 아날로그 오디오 신호로 변환한다.
도 1b는 디지털 오디오 신호가 입력될 때 오디오 처리 시스템의 블록도 이다.
도 1B의 오디오 처리 시스템은 오디오 디코더(110-1), 음성 구간 검출부(120-1), 오디오 신호 처리부(130-1), D/A 변환부(140-1)를 구비한다.
오디오 디코더(110-1)는 압축된 형태의 디지털 오디오 데이터를 소정의 디코딩 알고리즘에 따라 복원한다.
음성 구간 검출부(120-1), 오디오 신호 처리부(130-1), D/A 변환부(140-1)는 각각 도 1a의 음성 구간 검출부(120), 오디오 신호 처리부(130), D/A 변환부(140)의 기능과 동일하다.
도 2는 도 1A 및 도 1B의 음성 구간 검출부(120, 120-1)의 상세도이다.
도 2의 음성 구간 검출부는 제1음성구간 판별부(210), 프레임 파워 예측부(220), 제2음성구간 판별부(230), 필터링부(240)로 구성된다.
제1음성구간 판별부(210)는 오디오 프레임의 레벨값에 따라 플래그의 값을 결정하여 오디오 프레임에 대한 제1차 음성 유무 구간을 판별한다. 예컨대, 오디오 프레임의 파워값이 임계치보다 크면 플래그(flag)를 "1"로 결정하고, 오디오 프레임의 파워값이 임계치보다 적으면 플래그를 "0"로 설정한다. 이때 임계치는 사람의 귀에 들리지 않는 정도의 값으로 결정될 수도 있고, 임의의 작은 레벨값이 될 수 도있다.
프레임 파워 예측부(220)는 제1음성구간 판별부(210)에서 판별된 음성 유무 구간의 판별치에 따라 FIFO(First-In First-Out) 버퍼에 저장되어 있는 현재 및 이전 오디오 프레임의 레벨값들을 참조하여 잡음의 파워 예측값과 신호의 파워 예측값을 업데이트한다. 예를 들면, 플래그가 "1"일 때 버퍼에 저장된 현재 및 이전 프레임들의 파워값을 평균한 값으로 신호의 파워 예측값이 구해진다. 또한 플래그가 "0"일 때 버퍼에 저장된 현재 및 이전 프레임들의 파워값을 평균한 값으로 잡음의 파워 예측값이 구해진다.
제2음성구간 판별부(230)는 프레임 파워 예측부(220)에서 추출된 신호의 파워 예측값과 잡음의 파워 예측값을 비교하여 해당 오디오 프레임에 대한 제2차 음성 유무 구간을 판별한다. 예를 들면, 해당 오디오 프레임에 대해 신호의 파워 예측값이 잡음의 파워 예측값보다 크면 음성 구간으로 판별하고 신호의 파워 예측값이 잡음의 파워 예측값보다 적으면 무음성 구간으로 판별한다.
필터링부(240)는 제2음성구간 판별부(230)에서 제2차 음성 유무 구간에 대한 판별치를 미디언 필터(median filter)등을 이용하여 필터링한다. 필터링부(240)는프레임간의 연속되는 변화로 인한 잘못된 음성 유무 구간 판별을 줄일 수 있다.
도 3은 도 2의 제1음성구간 판별부(210)의 상세 흐름도이다.
먼저, 입력되는 오디오 프레임으로부터 소정 개수의 샘플을 리드하여 i번째 프레임 파워(Pi)를 구한다.
이어서, 프레임 정보를 참조하여 입력되는 오디오 프레임이 첫 번째 프레임인가를 체크한다(320).
이어서, 입력되는 오디오 프레임이 첫 번째 프레임이면 입력되는 첫 번째 오디오 프레임의 파워가 기준치 이상인가를 체크한다(330 과정).
이때 입력되는 첫 번째 오디오 프레임의 파워가 기준치 이상이면 그 오디오 프레임을 음성 구간으로 1차 판별하고(360 과정), 첫 번째 오디오 프레임의 파워가 기준치 이상이 아니면 그 오디오 프레임을 무음성 구간으로 1차 판별한다(370 과정). 이때 음성/무음성 구간에 대한 1차 판별은 플래그를 이용하여 설정된다.
한편 입력되는 오디오 프레임이 첫 번째 프레임 아니면 연속해서 이어지는 오디오 프레임들의 유무음 구간을 1차 판별한다.
즉, 이전 오디오 프레임의 1차 판별치가 무음 구간이면서 현재 오디오 프레임의 파워가 이전 오디오 프레임 파워보다 정해진 배율 이상이면(340 과정) 현재 오디오 프레임을 음성 구간으로 1차 판별한다(370 과정).
또한 이전 오디오 프레임의 1차 판별치가 유음 구간이면서 현재 오디오 프레 임의 파워가 이전 오디오 프레임 파워보다 정해진 배율 이하이면(350 과정) 현재 오디오 프레임을 무음 구간으로 1차 판별한다(370 과정).
도 4는 도 2의 프레임 파워 예측부(220)의 상세 흐름도이다.
먼저 오디오 프레임들의 1차 음성 구간 판별치를 리드한다(410 과정)
먼저, 프레임 정보를 참조하여 입력되는 오디오 프레임이 첫 번째 오디오 프레임인가를 체크한다(420).
이어서, 입력되는 오디오 프레임이 첫 번째 오디오 프레임이면 신호의 파워 예측값을 "0"로 초기화하고(430 과정) 플래그를 이용하여 1차 음성 구간 판별치가 음성 구간인가를 체크한다(440 과정). 이때 첫 번째 오디오 프레임의 1차 음성 구간 판별치가 음성 구간으로 체크되면 음성 레벨이 잡음 레벨보다 크므로 정해진 임계치를 잡음의 파워 예측값으로 초기화한다(442 과정). 그러나 첫 번째 오디오 프레임의 1차 음성 구간 판별치가 무음 구간으로 체크되면 그 첫 번째 프레임의 파워를 잡음의 파워 예측값으로 초기화한다(444 과정)
한편, 한편 입력되는 오디오 프레임이 첫 번째 프레임 아니면 연속해서 이어지는 오디오 프레임들의 음성 및 잡음의 파워 변동을 예측한다.
즉, 현재 입력되는 오디오 프레임의 1차 음성 구간 판별치가 음성 구간(flag = 1)으로 체크되면(450 과정) 신호 예측을 위한 FIFO 버퍼에 저장된 현재 및 이전 프레임들의 파워값(또는 레벨값들)을 평균하여 신호의 파워 예측값을 갱신한다(452 과정). 예를 들면, 파워 예측값은 P1, P2, P3, P4,...PN (1,2,3,...N은 버퍼를 구성 하는 프레임 갯수)들의 평균값이다. 그러나 현재 입력되는 오디오 프레임의 1차 음성 구간 판별치가 무음 구간(flag = 0)으로 체크되면(450 과정) 잡음 예측을 위한 또 다른 FIFO 버퍼에 저장된 현재 및 이전 프레임들의 파워값(또는 레벨값들)을 평균하여 잡음의 파워 예측값을 갱신한다(454 과정).
도 5는 도 2의 제2음성구간 판별부(230)의 상세 흐름도이다.
먼저, 버퍼에 저장된 신호의 파워 예측값과 잡음의 파워 예측값을 리드한다(510 과정).
이어서, 신호의 파워 예측값과 잡음의 파워 예측값을 비교한다(520 과정). 이때 신호의 파워 예측값이 잡음의 파워 예측값 보다 크면 음성 구간으로 2차 판별하고(530 과정), 신호의 파워 예측값이 잡음의 파워 예측값보다 적으면 무음성 구간으로 2차 판별한다(540 과정).
도 6은 도 2의 필터링부(240)의 상세 흐름도이다.
먼저, 버퍼에 저장된 오디오 프레임의 2차 음성 구간 판별치를 리드한다(610 과정).
이어서, 현재 및 이전 프레임들의 2차 음성 구간 판별치들을 버퍼링한다(620 과정).
이어서, 미디안 필터(median filter)를 사용하여 2차 음성 구간 판별치를 평활화함으로써 급격히 변동하는 프레임에 대한 2차 음성 구간 판별치를 제거한다(630 과정).
이어서, 평활화된 2차 음성 구간 판별치들로부터 최종 음성 구간 판별치들을 결정한다(640 과정).
도 7A 내지 도 7D는 본 발명에 따른 음성 구간 검출을 위한 오디오 신호의 파형 및 파워를 보이는 그래프이다.
도 7A를 참조하면, 레벨이 다른 신호가 입력될 경우의 오디오 신호를 도시한 것이다.
710에 도시된 바와 같은 신호는 720에 도시된 신호와 레벨이 급격하게 차이가 난다.
도 7B는 도 7A의 신호 파형에 대한 파워값을 도시한 그래프이다.
도 7B를 참조하면, 레벨이 다른 신호가 입력될 경우 정해진 임계값으로는 유/무음 구간을 분별하기가 어렵다.
도 7C는 도 7A의 신호와 잡음을 모델링하여 신호의 파워값(Ps)과 잡음의 파워값(Pn)을 예측한 것이다.
도 7C를 참조하면, 신호에 따라 변동되는 신호의 파워값(Ps)과 잡음에 따라 변동되는 잡음의 파워값(Pn)을 비교한다.
도 7D를 참조하면, 신호의 파워값(Ps)과 잡음의 파워 값(Pn)을 비교함으로써 레벨이나 잡음에 상관없이 올바로 음성 구간을 판별한다. 예를 들면, 신호의 파워값(Ps)이 잡음의 파워값(Pn) 보다 크면 해당 프레임을 음성 구간에 해당하는 판별치("1")으로 설정하고, 신호의 파워값(Ps)이 잡음의 파워값(Pn) 보다 적으면 해당 프레임을 무음성 구간에 해당하는 판별치("0")로 설정한다.
도 8A 및 도 8B는 필터링부(240)의 유/무음 구간의 판별치를 필터링하는 일 실시예이다.
도 8A를 참조하면, 프레임간의 연속되는 변화 구간 예를 들면, "유음","무음", "유음"....들은 잘못된 유무음 구간으로 판별을 할 수 있다.
따라서 도 8B 와 같이 유/무음 구간의 판별치를 미디어 필터를 사용하여 "유음", "무음", "유음"....들을 "유음", "유음", "유음"....들로 평활화하면 잡음으로 인한 잘못된 음상 구간의 판단을 줄일 수 있다.
또한 본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드디스크, 플로피디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
이상의 설명은 본 발명의 일 실시예에 불과할 뿐, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진자는 본 발명의 본질적 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시예에 한정되지 않고 특허 청구 범위에 기재된 내용과 동등한 범위내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.
도 1a 및 도 1b는 본 발명에 따른 음성 구간 검출 기능을 구비한 오디오 처리 시스템의 블록도이다.
도 2는 도 1a 및 도 1b의 음성 구간 검출부의 상세도이다.
도 3은 도 2의 제1음성구간 판별부의 상세 흐름도이다.
도 4는 도 2의 프레임 파워 예측부의 상세 흐름도이다.
도 5는 도 2의 제2음성구간 판별부의 상세 흐름도이다.
도 6은 도 2의 필터링부의 상세 흐름도이다.
도 7A 내지 도 7D는 본 발명에 따른 음성 구간 검출을 위한 오디오 신호의 파형 및 파워를 보이는 그래프이다.
도 8A 및 도 8B는 필터링부의 유/무음 구간의 판별치를 필터링하는 일실시예이다.

Claims (13)

  1. 음성 구간 검출 방법에 있어서,
    오디오 프레임의 레벨값에 따라 오디오 프레임에 대한 제1차 음성 유무 구간을 판별하는 과정;
    상기 제1차 음성 유무 구간의 판별에 따라 현재 및 이전 오디오 프레임의 레벨값을 참조하여 연속되는 오디오 프레임에 대한 잡음의 파워 예측값과 신호의 파워 예측값을 추출하는 과정;
    상기 추출된 신호의 파워 예측값과 잡음의 파워 예측값을 비교하여 상기 오디오 프레임에 대한 제2차 음성 유무 구간을 판별하는 과정을 포함하는 음성 구간 검출 방법.
  2. 제1항에 있어서, 상기 제1차 음성 유무 구간을 판별하는 과정은
    입력되는 오디오 프레임이 첫 번째 프레임인가를 체크하는 과정;
    상기 입력되는 첫 번째 오디오 프레임의 파워가 기준치 이상이면 그 오디오 프레임을 음성 구간으로 판별하고 그렇지 않으면 그 오디오 프레임을 무음 구간으로 판별하는 과정;
    상기 입력되는 오디오 프레임이 첫 번째 프레임이 아니면 이전 오디오 프레임이 무음 구간이면서 현재 오디오 프레임의 파워가 이전 오디오 프레임 파워보다 정해진 배율 이상이면 입력되는 오디오 프레임을 음성 구간으로 판별하는 과정;
    상기 이전 오디오 프레임이 유음 구간이면서 현재 오디오 프레임의 파워가 이전 오디오 프레임 파워보다 정해진 배율 이하이면 입력되는 오디오 프레임을 무음 구간으로 판별하는 과정을 구비하는 것을 특징으로 하는 음성 구간 검출 방법.
  3. 제1항에 있어서, 상기 파워 예측값 추출 과정은
    첫 번째 오디오 프레임이 상기 제1차음성 유무 구간 판별 과정에서 음성 구간으로 결정되면 소정의 임계치를 잡음의 파워 예측값으로 설정하고, 첫 번째 오디오 프레임이 상기 제1음성 유무 구간 판별 과정에서 무음성 구간으로 결정되면 그 오디오 프레임의 파워를 잡음의 파워 예측값으로 설정하는 과정;
    입력 오디오 프레임이 첫 번째 오디오 프레임이 아니면 상기 제1차음성 유무 구간 판별 과정에서 상기 음성 및 무음성 구간인가를 체크하는 과정;
    상기 입력 오디오 프레임이 음성 구간이면 프레임 레벨값들을 참조하여 신호의 파워 예측값을 갱신하는 과정;
    상기 입력 오디오 프레임이 무음성 구간이면 프레임의 레벨값들을 참조하여 잡음의 파워 예측값을 갱신하는 것임을 과정을 특징으로 하는 음성 구간 검출 방법.
  4. 제3항에 있어서, 상기 신호의 파워 예측값은 선입 선출 방식으로 저장된 현재 프레임의 신호 파워값과 이전 프레임의 신호 파워값의 평균값임을 특징으로 하는 음성 구간 검출 방법.
  5. 제3항에 있어서, 상기 잡음의 파워 예측값은 버퍼에 선입 선출 방식으로 저장된 이전 프레임의 잡음 파워값과 현재 프레임의 잡음 파워값의 평균값임을 특징으로 하는 음성 구간 검출 방법.
  6. 제1항에 있어서, 상기 제2차 음성 유무 구간을 판별하는 과정은
    상기 신호의 파워 예측값이 잡음의 파워 예측값보다 크면 음성 구간으로 판별하고, 상기 신호의 파워 예측값이 잡음의 파워 예측값보다 적으면 무음성 구간으로 판별하는 것임을 특징으로 하는 음성 구간 검출 방법.
  7. 제1항에 있어서, 상기 제2차 음성 유무 구간에 대한 판별치를 필터링하는 과정을 더 포함하는 것을 특징으로 하는 음성 구간 검출 방법.
  8. 음성 구간 검출 장치에 있어서,
    오디오 프레임의 파워값에 따라 오디오 프레임에 대한 제1차 음성 유무 구간을 판별하는 제1음성구간 판별부;
    상기 제1음성구간 판별부의 음성 유무 구간의 판별에 따라 현재 및 이전 오디오 프레임의 레벨값을 참조하여 잡음의 파워 예측값과 신호의 파워 예측값을 갱신하는 프레임 파워 예측부;
    프레임 파워 예측부에서 추출된 신호의 파워 예측값과 잡음의 파워 예측값을 비교하여 해당 오디오 프레임에 대한 제2차 음성 유무 구간을 판별하는 제2음성구간 판별부를 포함하는 음성 구간 검출 장치.
  9. 제8항에 있어서, 상기 제1음성구간 판별부는 제1차 음성 유무 구간을 판별하는 플래그를 구비하는 것을 특징으로 하는 음성 구간 검출 장치.
  10. 제8항에 있어서, 상기 제2음성구간 판별부의 음성 유무 구간에 대한 판별치들을 필터링하는 필터링부를 더 포함하는 음성 구간 검출 장치.
  11. 제10항에 있어서, 상기 필터링부는 미디언 필터임을 특징으로 하는 음성 구간 검출 장치.
  12. 오디오 처리 장치에 있어서,
    오디오 프레임의 파워값에 따라 판별되는 오디오 프레임에 대한 1차 음성 유무 구간을 판별하고, 상기 1차음성 유무 구간의 판별에 따라 잡음의 파워 예측값과 신호의 파워 예측값을 추출하고, 그 신호의 파워 예측값과 잡음의 파워 예측값을 비교하여 해당 오디오 프레임에 대한 2차음성 유무 구간을 판별하는 음성 구간 검출부;
    상기 음성 구간 검출부에서 검출되는 음성 및 무음성 구간 정보에 따라 음성 코딩 및 음성 인식 처리를 수행하는 오디오 신호 처리부를 오디오 처리 장치.
  13. 음성 구간 검출 방법을 구현하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체에 있어서, 음성 구간 검출 방법에 있어서,
    오디오 프레임의 레벨값에 따라 오디오 프레임에 대한 제1차 음성 유무 구간을 판별하는 과정;
    상기 제1차 음성 유무 구간의 판별에 따라 현재 및 이전 오디오 프레임의 레벨값을 참조하여 잡음의 파워 예측값과 신호의 파워 예측값을 추출하는 과정;
    상기 추출된 신호의 파워 예측값과 잡음의 파워 예측값을 비교하여 상기 오디오 프레임에 대한 제2차 음성 유무 구간을 판별하는 과정을 포함하는 것을 특징으로 하는 기록 매체.
KR1020070115503A 2007-11-13 2007-11-13 음성 구간 검출 방법 및 장치 KR101437830B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020070115503A KR101437830B1 (ko) 2007-11-13 2007-11-13 음성 구간 검출 방법 및 장치
US12/127,942 US8744842B2 (en) 2007-11-13 2008-05-28 Method and apparatus for detecting voice activity by using signal and noise power prediction values

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070115503A KR101437830B1 (ko) 2007-11-13 2007-11-13 음성 구간 검출 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20090049300A KR20090049300A (ko) 2009-05-18
KR101437830B1 true KR101437830B1 (ko) 2014-11-03

Family

ID=40624588

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070115503A KR101437830B1 (ko) 2007-11-13 2007-11-13 음성 구간 검출 방법 및 장치

Country Status (2)

Country Link
US (1) US8744842B2 (ko)
KR (1) KR101437830B1 (ko)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101444099B1 (ko) * 2007-11-13 2014-09-26 삼성전자주식회사 음성 구간 검출 방법 및 장치
US8542983B2 (en) * 2008-06-09 2013-09-24 Koninklijke Philips N.V. Method and apparatus for generating a summary of an audio/visual data stream
EP2346032B1 (en) * 2008-10-24 2014-05-07 Mitsubishi Electric Corporation Noise suppressor and voice decoder
US8626498B2 (en) * 2010-02-24 2014-01-07 Qualcomm Incorporated Voice activity detection based on plural voice activity detectors
GB2493327B (en) * 2011-07-05 2018-06-06 Skype Processing audio signals
GB2495278A (en) 2011-09-30 2013-04-10 Skype Processing received signals from a range of receiving angles to reduce interference
GB2495472B (en) 2011-09-30 2019-07-03 Skype Processing audio signals
GB2495130B (en) 2011-09-30 2018-10-24 Skype Processing audio signals
GB2495129B (en) 2011-09-30 2017-07-19 Skype Processing signals
GB2495131A (en) 2011-09-30 2013-04-03 Skype A mobile device includes a received-signal beamformer that adapts to motion of the mobile device
GB2495128B (en) 2011-09-30 2018-04-04 Skype Processing signals
GB2496660B (en) 2011-11-18 2014-06-04 Skype Processing audio signals
GB201120392D0 (en) 2011-11-25 2012-01-11 Skype Ltd Processing signals
GB2497343B (en) 2011-12-08 2014-11-26 Skype Processing audio signals
CN103325386B (zh) * 2012-03-23 2016-12-21 杜比实验室特许公司 用于信号传输控制的方法和系统
EP2828854B1 (en) 2012-03-23 2016-03-16 Dolby Laboratories Licensing Corporation Hierarchical active voice detection
KR102446392B1 (ko) * 2015-09-23 2022-09-23 삼성전자주식회사 음성 인식이 가능한 전자 장치 및 방법
KR102237286B1 (ko) * 2019-03-12 2021-04-07 울산과학기술원 음성 구간 검출장치 및 그 방법
WO2020252782A1 (zh) * 2019-06-21 2020-12-24 深圳市汇顶科技股份有限公司 语音检测方法、语音检测装置、语音处理芯片以及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10288994A (ja) * 1997-04-15 1998-10-27 Mitsubishi Electric Corp 雑音レベル推定方法、音声区間検出方法、音声認識方法、音声区間検出装置及び音声認識装置
JP2002258882A (ja) * 2001-03-05 2002-09-11 Hitachi Ltd 音声認識システム及び情報記録媒体
JP2005031632A (ja) * 2003-06-19 2005-02-03 Advanced Telecommunication Research Institute International 発話区間検出装置、音声エネルギ正規化装置、コンピュータプログラム及びコンピュータ
JP3685812B2 (ja) * 1993-06-29 2005-08-24 ソニー株式会社 音声信号送受信装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FI100840B (fi) * 1995-12-12 1998-02-27 Nokia Mobile Phones Ltd Kohinanvaimennin ja menetelmä taustakohinan vaimentamiseksi kohinaises ta puheesta sekä matkaviestin
JP3297346B2 (ja) * 1997-04-30 2002-07-02 沖電気工業株式会社 音声検出装置
US6216103B1 (en) * 1997-10-20 2001-04-10 Sony Corporation Method for implementing a speech recognition system to determine speech endpoints during conditions with background noise
US6480823B1 (en) * 1998-03-24 2002-11-12 Matsushita Electric Industrial Co., Ltd. Speech detection for noisy conditions
US6823303B1 (en) * 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
US6574601B1 (en) * 1999-01-13 2003-06-03 Lucent Technologies Inc. Acoustic speech recognizer system and method
US6453291B1 (en) * 1999-02-04 2002-09-17 Motorola, Inc. Apparatus and method for voice activity detection in a communication system
US6324509B1 (en) * 1999-02-08 2001-11-27 Qualcomm Incorporated Method and apparatus for accurate endpointing of speech in the presence of noise
JP3789246B2 (ja) * 1999-02-25 2006-06-21 株式会社リコー 音声区間検出装置、音声区間検出方法、音声認識装置、音声認識方法および記録媒体
KR100593589B1 (ko) 2004-06-17 2006-06-30 윤병원 음성인식을 이용한 다국어 통역/학습 장치 및 방법
US8170875B2 (en) * 2005-06-15 2012-05-01 Qnx Software Systems Limited Speech end-pointer

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3685812B2 (ja) * 1993-06-29 2005-08-24 ソニー株式会社 音声信号送受信装置
JPH10288994A (ja) * 1997-04-15 1998-10-27 Mitsubishi Electric Corp 雑音レベル推定方法、音声区間検出方法、音声認識方法、音声区間検出装置及び音声認識装置
JP2002258882A (ja) * 2001-03-05 2002-09-11 Hitachi Ltd 音声認識システム及び情報記録媒体
JP2005031632A (ja) * 2003-06-19 2005-02-03 Advanced Telecommunication Research Institute International 発話区間検出装置、音声エネルギ正規化装置、コンピュータプログラム及びコンピュータ

Also Published As

Publication number Publication date
US8744842B2 (en) 2014-06-03
KR20090049300A (ko) 2009-05-18
US20090125305A1 (en) 2009-05-14

Similar Documents

Publication Publication Date Title
KR101437830B1 (ko) 음성 구간 검출 방법 및 장치
KR101444099B1 (ko) 음성 구간 검출 방법 및 장치
KR100770839B1 (ko) 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치
Renevey et al. Entropy based voice activity detection in very noisy conditions.
US9959886B2 (en) Spectral comb voice activity detection
US20140067388A1 (en) Robust voice activity detection in adverse environments
US6236970B1 (en) Adaptive speech rate conversion without extension of input data duration, using speech interval detection
EP1008140A1 (en) Waveform-based periodicity detector
JP2001236085A (ja) 音声区間検出装置、定常雑音区間検出装置、非定常雑音区間検出装置、及び雑音区間検出装置
RU2127912C1 (ru) Способ обнаружения и кодирования и/или декодирования стационарных фоновых звуков и устройство для кодирования и/или декодирования стационарных фоновых звуков
KR101697651B1 (ko) 음성 신호의 검출 방법 및 장치
US6865529B2 (en) Method of estimating the pitch of a speech signal using an average distance between peaks, use of the method, and a device adapted therefor
US20120265526A1 (en) Apparatus and method for voice activity detection
KR101008022B1 (ko) 유성음 및 무성음 검출방법 및 장치
Verteletskaya et al. Voice activity detection for speech enhancement applications
JP4601970B2 (ja) 有音無音判定装置および有音無音判定方法
JP3413862B2 (ja) 音声区間検出方法
KR100735417B1 (ko) 음성 신호에서의 피크 특징 추출이 가능한 윈도우를정렬하는 방법 및 그 시스템
JPH05173592A (ja) 音声/非音声判別方法および判別装置
KR102443221B1 (ko) 수면 음성 분석 장치 및 방법
KR100345402B1 (ko) 피치 정보를 이용한 실시간 음성 검출 장치 및 그 방법
TW202226226A (zh) 具低複雜度語音活動檢測演算之設備及方法
US20220130405A1 (en) Low Complexity Voice Activity Detection Algorithm
US20220130410A1 (en) Voice Activty Detection Using Zero Crossing Detection
JPH034918B2 (ko)

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190730

Year of fee payment: 6