KR101437830B1

KR101437830B1 - 음성 구간 검출 방법 및 장치

Info

Publication number: KR101437830B1
Application number: KR1020070115503A
Authority: KR
Inventors: 조재연
Original assignee: 삼성전자주식회사
Priority date: 2007-11-13
Filing date: 2007-11-13
Publication date: 2014-11-03
Also published as: US8744842B2; KR20090049300A; US20090125305A1

Abstract

프레임의 파워만으로 강인한 음성 구간을 검출하는 음성 구간 검출 방법 및 장치가 개시되어 있다. 본 발명은 오디오 프레임의 레벨값에 따라 오디오 프레임에 대한 제1차 음성 유무 구간을 판별하는 과정, 제1차 음성 유무 구간의 판별에 따라 현재 및 이전 오디오 프레임의 레벨값을 참조하여 연속되는 오디오 프레임에 대한 잡음의 파워 예측값과 신호의 파워 예측값을 추출하는 과정, 추출된 신호의 파워 예측값과 잡음의 파워 예측값을 비교하여 상기 해당 오디오 프레임에 대한 제2차 음성 유무 구간을 판별하는 과정을 포함한다.

Description

음성 구간 검출 방법 및 장치{Method and apparatus for detecting voice activity}

본 발명은 오디오 처리 시스템에 관한 것이며, 특히 프레임의 파워만으로 강인한 음성 구간을 검출하는 음성 구간 검출 방법 및 장치에 관한 것이다.

통상적으로 음성 코딩에서 VAD(Voice Activity Detection)나 음성 인식의 EPD(End Point Detection)은 신호내 음성 구간을 추출하는 방법이다.

종래 음성 구간 검출 방법은 프레임의 에너지와 프레임의 영 교차율을 이용하여 음성 구간이나 음성의 시작점과 끝점을 검출한다. 예를 들면, 각 프레임의 영 교차율이 낮고 높음에 따라 유음 구간과 무음 구간을 판단한다.

이때 영 교차율을 이용한 음성 구간 판별 방법은 음성이 존재하지 않는 구간에 잡음이 존재할 수 있으므로 유음 구간과 무음 구간에서의 영 교차율이 항상 일치하지 않는다.

즉, 영 교차율을 이용한 음성 구간 판별 방법은 음성 구간을 검출할 경우 음성뿐만 아니라 그 음성과 비슷한 수준의 영 교차율을 갖는 비 음성 잡음도 음성 구간으로 검출할 수 있다. 따라서 종래의 영 교차율을 이용한 음성 구간 판별 방법은 영 교차율이 무음 구간에서도 작게 나타날 수 있으므로 오류가 발생 할 수 있다.

또한 프레임의 에너지를 사용한 음성 구간 판별 방법은 레벨이 다른 신호들이 입력될 경우 정해진 임계치로 유음/무음 구간을 분별하기가 어렵다.

본 발명이 해결하고자하는 과제는 오디오 프레임의 파워만을 사용하여 주위 환경에 영향을 덜 받는 강인한 음성 구간을 검출하는 음성 구간 검출 방법 및 장치를 제공하는 데 있다.

상기의 과제를 해결하기 위하여, 본 발명은 음성 구간 검출 방법에 있어서,

오디오 프레임의 레벨값에 따라 오디오 프레임에 대한 제1차 음성 유무 구간을 판별하는 과정;

상기 제1차 음성 유무 구간의 판별에 따라 현재 및 이전 오디오 프레임의 레벨값을 참조하여 연속되는 오디오 프레임에 대한 잡음의 파워 예측값과 신호의 파워 예측값을 추출하는 과정;

상기 추출된 신호의 파워 예측값과 잡음의 파워 예측값을 비교하여 상기 해당 오디오 프레임에 대한 제2차 음성 유무 구간을 판별하는 과정을 포함하는 것을 특징으로 한다.

상기의 다른 과제를 해결하기 위하여, 본 발명은 음성 구간 검출 장치에 있어서,

오디오 프레임의 파워값에 따라 오디오 프레임에 대한 제1차 음성 유무 구간을 판별하는 제1음성구간 판별부;

상기 제1음성구간 판별부의 음성 유무 구간의 판별에 따라 현재 및 이전 오 디오 프레임의 레벨값을 참조하여 잡음의 파워 예측값과 신호의 파워 예측값을 갱신하는 프레임 파워 예측부;

프레임 파워 예측부에서 추출된 신호의 파워 예측값과 잡음의 파워 예측값을 비교하여 해당 오디오 프레임에 대한 제2차 음성 유무 구간을 판별하는 제2음성구간 판별부를 포함하는 것을 특징으로 한다.

상술한 바와 같이 본 발명에 의하면, 프레임의 파워만 구하여 유무음 구간을 판별함으로써 계산량이 간단하고, 유무음 구간에 대한 분별력을 증가시킬 수 있다.

또한 본 발명은 신호의 파워 예측값과 잡음의 파워 예측값을 비교함으로써 작은 레벨의 신호를 판별하는데 더욱 효과적이다.

이하 첨부된 도면을 참조로하여 본 발명의 바람직한 실시예를 설명하기로 한다.

도 1A 및 도 1B는 본 발명에 따른 음성 구간 검출 기능을 구비한 오디오 처리 시스템의 블록도이다.

도 1A는 아날로그 오디오 신호가 입력될 때의 오디오 처리 시스템이다.

도 1A의 오디오 처리 시스템은 A/D 변환부(110), 음성 구간 검출부(120), 오디오 신호 처리부(130), D/A 변환부(140)를 구비한다.

A/D(Aanalog Digital) 변환부(110)는 아날로그 오디오 신호를 디지털 오디오 신호로 변환한다.

음성 구간 검출부(120)는 A/D 변환부(110)에서 출력되는 오디오 프레임의 레벨값에 따라 오디오 프레임에 대한 제1차 음성 유무 구간을 판별하고, 제1차 음성 유무 구간에 따라 현재 및 이전 오디오 프레임의 레벨값을 참조하여 잡음의 파워 예측값과 신호의 파워 예측값을 추출하고, 추출된 신호의 파워 예측값과 잡음의 파워 예측값을 비교하여 해당 오디오 프레임에 대한 제2차 음성 유무 구간을 검출한다.

오디오 신호 처리부(130)는 음성 구간 검출부(120)에서 검출되는 음성 및 무음성 구간 정보에 따라 음성 코딩 및 음성 인식 처리를 수행한다.

D/A(Digital Analog) 변환부(140)는 오디오 신호 처리부(130)에서 처리된 오디오 신호를 아날로그 오디오 신호로 변환한다.

도 1b는 디지털 오디오 신호가 입력될 때 오디오 처리 시스템의 블록도 이다.

도 1B의 오디오 처리 시스템은 오디오 디코더(110-1), 음성 구간 검출부(120-1), 오디오 신호 처리부(130-1), D/A 변환부(140-1)를 구비한다.

오디오 디코더(110-1)는 압축된 형태의 디지털 오디오 데이터를 소정의 디코딩 알고리즘에 따라 복원한다.

음성 구간 검출부(120-1), 오디오 신호 처리부(130-1), D/A 변환부(140-1)는 각각 도 1a의 음성 구간 검출부(120), 오디오 신호 처리부(130), D/A 변환부(140)의 기능과 동일하다.

도 2는 도 1A 및 도 1B의 음성 구간 검출부(120, 120-1)의 상세도이다.

도 2의 음성 구간 검출부는 제1음성구간 판별부(210), 프레임 파워 예측부(220), 제2음성구간 판별부(230), 필터링부(240)로 구성된다.

제1음성구간 판별부(210)는 오디오 프레임의 레벨값에 따라 플래그의 값을 결정하여 오디오 프레임에 대한 제1차 음성 유무 구간을 판별한다. 예컨대, 오디오 프레임의 파워값이 임계치보다 크면 플래그(flag)를 "1"로 결정하고, 오디오 프레임의 파워값이 임계치보다 적으면 플래그를 "0"로 설정한다. 이때 임계치는 사람의 귀에 들리지 않는 정도의 값으로 결정될 수도 있고, 임의의 작은 레벨값이 될 수 도있다.

프레임 파워 예측부(220)는 제1음성구간 판별부(210)에서 판별된 음성 유무 구간의 판별치에 따라 FIFO(First-In First-Out) 버퍼에 저장되어 있는 현재 및 이전 오디오 프레임의 레벨값들을 참조하여 잡음의 파워 예측값과 신호의 파워 예측값을 업데이트한다. 예를 들면, 플래그가 "1"일 때 버퍼에 저장된 현재 및 이전 프레임들의 파워값을 평균한 값으로 신호의 파워 예측값이 구해진다. 또한 플래그가 "0"일 때 버퍼에 저장된 현재 및 이전 프레임들의 파워값을 평균한 값으로 잡음의 파워 예측값이 구해진다.

제2음성구간 판별부(230)는 프레임 파워 예측부(220)에서 추출된 신호의 파워 예측값과 잡음의 파워 예측값을 비교하여 해당 오디오 프레임에 대한 제2차 음성 유무 구간을 판별한다. 예를 들면, 해당 오디오 프레임에 대해 신호의 파워 예측값이 잡음의 파워 예측값보다 크면 음성 구간으로 판별하고 신호의 파워 예측값이 잡음의 파워 예측값보다 적으면 무음성 구간으로 판별한다.

필터링부(240)는 제2음성구간 판별부(230)에서 제2차 음성 유무 구간에 대한 판별치를 미디언 필터(median filter)등을 이용하여 필터링한다. 필터링부(240)는프레임간의 연속되는 변화로 인한 잘못된 음성 유무 구간 판별을 줄일 수 있다.

도 3은 도 2의 제1음성구간 판별부(210)의 상세 흐름도이다.

먼저, 입력되는 오디오 프레임으로부터 소정 개수의 샘플을 리드하여 i번째 프레임 파워(Pi)를 구한다.

이어서, 프레임 정보를 참조하여 입력되는 오디오 프레임이 첫 번째 프레임인가를 체크한다(320).

이어서, 입력되는 오디오 프레임이 첫 번째 프레임이면 입력되는 첫 번째 오디오 프레임의 파워가 기준치 이상인가를 체크한다(330 과정).

이때 입력되는 첫 번째 오디오 프레임의 파워가 기준치 이상이면 그 오디오 프레임을 음성 구간으로 1차 판별하고(360 과정), 첫 번째 오디오 프레임의 파워가 기준치 이상이 아니면 그 오디오 프레임을 무음성 구간으로 1차 판별한다(370 과정). 이때 음성/무음성 구간에 대한 1차 판별은 플래그를 이용하여 설정된다.

한편 입력되는 오디오 프레임이 첫 번째 프레임 아니면 연속해서 이어지는 오디오 프레임들의 유무음 구간을 1차 판별한다.

즉, 이전 오디오 프레임의 1차 판별치가 무음 구간이면서 현재 오디오 프레임의 파워가 이전 오디오 프레임 파워보다 정해진 배율 이상이면(340 과정) 현재 오디오 프레임을 음성 구간으로 1차 판별한다(370 과정).

또한 이전 오디오 프레임의 1차 판별치가 유음 구간이면서 현재 오디오 프레 임의 파워가 이전 오디오 프레임 파워보다 정해진 배율 이하이면(350 과정) 현재 오디오 프레임을 무음 구간으로 1차 판별한다(370 과정).

도 4는 도 2의 프레임 파워 예측부(220)의 상세 흐름도이다.

먼저 오디오 프레임들의 1차 음성 구간 판별치를 리드한다(410 과정)

먼저, 프레임 정보를 참조하여 입력되는 오디오 프레임이 첫 번째 오디오 프레임인가를 체크한다(420).

이어서, 입력되는 오디오 프레임이 첫 번째 오디오 프레임이면 신호의 파워 예측값을 "0"로 초기화하고(430 과정) 플래그를 이용하여 1차 음성 구간 판별치가 음성 구간인가를 체크한다(440 과정). 이때 첫 번째 오디오 프레임의 1차 음성 구간 판별치가 음성 구간으로 체크되면 음성 레벨이 잡음 레벨보다 크므로 정해진 임계치를 잡음의 파워 예측값으로 초기화한다(442 과정). 그러나 첫 번째 오디오 프레임의 1차 음성 구간 판별치가 무음 구간으로 체크되면 그 첫 번째 프레임의 파워를 잡음의 파워 예측값으로 초기화한다(444 과정)

한편, 한편 입력되는 오디오 프레임이 첫 번째 프레임 아니면 연속해서 이어지는 오디오 프레임들의 음성 및 잡음의 파워 변동을 예측한다.

즉, 현재 입력되는 오디오 프레임의 1차 음성 구간 판별치가 음성 구간(flag = 1)으로 체크되면(450 과정) 신호 예측을 위한 FIFO 버퍼에 저장된 현재 및 이전 프레임들의 파워값(또는 레벨값들)을 평균하여 신호의 파워 예측값을 갱신한다(452 과정). 예를 들면, 파워 예측값은 P₁, P₂, P₃, P₄,...P_N (1,2,3,...N은 버퍼를 구성 하는 프레임 갯수)들의 평균값이다. 그러나 현재 입력되는 오디오 프레임의 1차 음성 구간 판별치가 무음 구간(flag = 0)으로 체크되면(450 과정) 잡음 예측을 위한 또 다른 FIFO 버퍼에 저장된 현재 및 이전 프레임들의 파워값(또는 레벨값들)을 평균하여 잡음의 파워 예측값을 갱신한다(454 과정).

도 5는 도 2의 제2음성구간 판별부(230)의 상세 흐름도이다.

먼저, 버퍼에 저장된 신호의 파워 예측값과 잡음의 파워 예측값을 리드한다(510 과정).

이어서, 신호의 파워 예측값과 잡음의 파워 예측값을 비교한다(520 과정). 이때 신호의 파워 예측값이 잡음의 파워 예측값 보다 크면 음성 구간으로 2차 판별하고(530 과정), 신호의 파워 예측값이 잡음의 파워 예측값보다 적으면 무음성 구간으로 2차 판별한다(540 과정).

도 6은 도 2의 필터링부(240)의 상세 흐름도이다.

먼저, 버퍼에 저장된 오디오 프레임의 2차 음성 구간 판별치를 리드한다(610 과정).

이어서, 현재 및 이전 프레임들의 2차 음성 구간 판별치들을 버퍼링한다(620 과정).

이어서, 미디안 필터(median filter)를 사용하여 2차 음성 구간 판별치를 평활화함으로써 급격히 변동하는 프레임에 대한 2차 음성 구간 판별치를 제거한다(630 과정).

이어서, 평활화된 2차 음성 구간 판별치들로부터 최종 음성 구간 판별치들을 결정한다(640 과정).

도 7A 내지 도 7D는 본 발명에 따른 음성 구간 검출을 위한 오디오 신호의 파형 및 파워를 보이는 그래프이다.

도 7A를 참조하면, 레벨이 다른 신호가 입력될 경우의 오디오 신호를 도시한 것이다.

710에 도시된 바와 같은 신호는 720에 도시된 신호와 레벨이 급격하게 차이가 난다.

도 7B는 도 7A의 신호 파형에 대한 파워값을 도시한 그래프이다.

도 7B를 참조하면, 레벨이 다른 신호가 입력될 경우 정해진 임계값으로는 유/무음 구간을 분별하기가 어렵다.

도 7C는 도 7A의 신호와 잡음을 모델링하여 신호의 파워값(Ps)과 잡음의 파워값(Pn)을 예측한 것이다.

도 7C를 참조하면, 신호에 따라 변동되는 신호의 파워값(Ps)과 잡음에 따라 변동되는 잡음의 파워값(Pn)을 비교한다.

도 7D를 참조하면, 신호의 파워값(Ps)과 잡음의 파워 값(Pn)을 비교함으로써 레벨이나 잡음에 상관없이 올바로 음성 구간을 판별한다. 예를 들면, 신호의 파워값(Ps)이 잡음의 파워값(Pn) 보다 크면 해당 프레임을 음성 구간에 해당하는 판별치("1")으로 설정하고, 신호의 파워값(Ps)이 잡음의 파워값(Pn) 보다 적으면 해당 프레임을 무음성 구간에 해당하는 판별치("0")로 설정한다.

도 8A 및 도 8B는 필터링부(240)의 유/무음 구간의 판별치를 필터링하는 일 실시예이다.

도 8A를 참조하면, 프레임간의 연속되는 변화 구간 예를 들면, "유음","무음", "유음"....들은 잘못된 유무음 구간으로 판별을 할 수 있다.

따라서 도 8B 와 같이 유/무음 구간의 판별치를 미디어 필터를 사용하여 "유음", "무음", "유음"....들을 "유음", "유음", "유음"....들로 평활화하면 잡음으로 인한 잘못된 음상 구간의 판단을 줄일 수 있다.

또한 본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 하드디스크, 플로피디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드로서 저장되고 실행될 수 있다.

이상의 설명은 본 발명의 일 실시예에 불과할 뿐, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진자는 본 발명의 본질적 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시예에 한정되지 않고 특허 청구 범위에 기재된 내용과 동등한 범위내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.

도 2는 도 1a 및 도 1b의 음성 구간 검출부의 상세도이다.

도 3은 도 2의 제1음성구간 판별부의 상세 흐름도이다.

도 4는 도 2의 프레임 파워 예측부의 상세 흐름도이다.

도 5는 도 2의 제2음성구간 판별부의 상세 흐름도이다.

도 6은 도 2의 필터링부의 상세 흐름도이다.

도 8A 및 도 8B는 필터링부의 유/무음 구간의 판별치를 필터링하는 일실시예이다.

Claims

음성 구간 검출 방법에 있어서,

오디오 프레임의 레벨값에 따라 오디오 프레임에 대한 제1차 음성 유무 구간을 판별하는 과정;

상기 제1차 음성 유무 구간의 판별에 따라 현재 및 이전 오디오 프레임의 레벨값을 참조하여 연속되는 오디오 프레임에 대한 잡음의 파워 예측값과 신호의 파워 예측값을 추출하는 과정;

상기 추출된 신호의 파워 예측값과 잡음의 파워 예측값을 비교하여 상기 오디오 프레임에 대한 제2차 음성 유무 구간을 판별하는 과정을 포함하는 음성 구간 검출 방법.
제1항에 있어서, 상기 제1차 음성 유무 구간을 판별하는 과정은

입력되는 오디오 프레임이 첫 번째 프레임인가를 체크하는 과정;

상기 입력되는 첫 번째 오디오 프레임의 파워가 기준치 이상이면 그 오디오 프레임을 음성 구간으로 판별하고 그렇지 않으면 그 오디오 프레임을 무음 구간으로 판별하는 과정;

상기 입력되는 오디오 프레임이 첫 번째 프레임이 아니면 이전 오디오 프레임이 무음 구간이면서 현재 오디오 프레임의 파워가 이전 오디오 프레임 파워보다 정해진 배율 이상이면 입력되는 오디오 프레임을 음성 구간으로 판별하는 과정;

상기 이전 오디오 프레임이 유음 구간이면서 현재 오디오 프레임의 파워가 이전 오디오 프레임 파워보다 정해진 배율 이하이면 입력되는 오디오 프레임을 무음 구간으로 판별하는 과정을 구비하는 것을 특징으로 하는 음성 구간 검출 방법.
제1항에 있어서, 상기 파워 예측값 추출 과정은

첫 번째 오디오 프레임이 상기 제1차음성 유무 구간 판별 과정에서 음성 구간으로 결정되면 소정의 임계치를 잡음의 파워 예측값으로 설정하고, 첫 번째 오디오 프레임이 상기 제1음성 유무 구간 판별 과정에서 무음성 구간으로 결정되면 그 오디오 프레임의 파워를 잡음의 파워 예측값으로 설정하는 과정;

입력 오디오 프레임이 첫 번째 오디오 프레임이 아니면 상기 제1차음성 유무 구간 판별 과정에서 상기 음성 및 무음성 구간인가를 체크하는 과정;

상기 입력 오디오 프레임이 음성 구간이면 프레임 레벨값들을 참조하여 신호의 파워 예측값을 갱신하는 과정;

상기 입력 오디오 프레임이 무음성 구간이면 프레임의 레벨값들을 참조하여 잡음의 파워 예측값을 갱신하는 것임을 과정을 특징으로 하는 음성 구간 검출 방법.
제3항에 있어서, 상기 신호의 파워 예측값은 선입 선출 방식으로 저장된 현재 프레임의 신호 파워값과 이전 프레임의 신호 파워값의 평균값임을 특징으로 하는 음성 구간 검출 방법.
제3항에 있어서, 상기 잡음의 파워 예측값은 버퍼에 선입 선출 방식으로 저장된 이전 프레임의 잡음 파워값과 현재 프레임의 잡음 파워값의 평균값임을 특징으로 하는 음성 구간 검출 방법.
제1항에 있어서, 상기 제2차 음성 유무 구간을 판별하는 과정은

상기 신호의 파워 예측값이 잡음의 파워 예측값보다 크면 음성 구간으로 판별하고, 상기 신호의 파워 예측값이 잡음의 파워 예측값보다 적으면 무음성 구간으로 판별하는 것임을 특징으로 하는 음성 구간 검출 방법.
제1항에 있어서, 상기 제2차 음성 유무 구간에 대한 판별치를 필터링하는 과정을 더 포함하는 것을 특징으로 하는 음성 구간 검출 방법.
음성 구간 검출 장치에 있어서,

오디오 프레임의 파워값에 따라 오디오 프레임에 대한 제1차 음성 유무 구간을 판별하는 제1음성구간 판별부;

상기 제1음성구간 판별부의 음성 유무 구간의 판별에 따라 현재 및 이전 오디오 프레임의 레벨값을 참조하여 잡음의 파워 예측값과 신호의 파워 예측값을 갱신하는 프레임 파워 예측부;

프레임 파워 예측부에서 추출된 신호의 파워 예측값과 잡음의 파워 예측값을 비교하여 해당 오디오 프레임에 대한 제2차 음성 유무 구간을 판별하는 제2음성구간 판별부를 포함하는 음성 구간 검출 장치.
제8항에 있어서, 상기 제1음성구간 판별부는 제1차 음성 유무 구간을 판별하는 플래그를 구비하는 것을 특징으로 하는 음성 구간 검출 장치.
제8항에 있어서, 상기 제2음성구간 판별부의 음성 유무 구간에 대한 판별치들을 필터링하는 필터링부를 더 포함하는 음성 구간 검출 장치.
제10항에 있어서, 상기 필터링부는 미디언 필터임을 특징으로 하는 음성 구간 검출 장치.
오디오 처리 장치에 있어서,

오디오 프레임의 파워값에 따라 판별되는 오디오 프레임에 대한 1차 음성 유무 구간을 판별하고, 상기 1차음성 유무 구간의 판별에 따라 잡음의 파워 예측값과 신호의 파워 예측값을 추출하고, 그 신호의 파워 예측값과 잡음의 파워 예측값을 비교하여 해당 오디오 프레임에 대한 2차음성 유무 구간을 판별하는 음성 구간 검출부;

상기 음성 구간 검출부에서 검출되는 음성 및 무음성 구간 정보에 따라 음성 코딩 및 음성 인식 처리를 수행하는 오디오 신호 처리부를 오디오 처리 장치.
음성 구간 검출 방법을 구현하기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체에 있어서, 음성 구간 검출 방법에 있어서,

오디오 프레임의 레벨값에 따라 오디오 프레임에 대한 제1차 음성 유무 구간을 판별하는 과정;

상기 제1차 음성 유무 구간의 판별에 따라 현재 및 이전 오디오 프레임의 레벨값을 참조하여 잡음의 파워 예측값과 신호의 파워 예측값을 추출하는 과정;

상기 추출된 신호의 파워 예측값과 잡음의 파워 예측값을 비교하여 상기 오디오 프레임에 대한 제2차 음성 유무 구간을 판별하는 과정을 포함하는 것을 특징으로 하는 기록 매체.