KR20010011066A

KR20010011066A - 적응 코드북의 에너지와 이득을 이용한 음성구간 검출 방법

Info

Publication number: KR20010011066A
Application number: KR1019990030263A
Authority: KR
Inventors: 강명수; 김재원
Original assignee: 조정남; 에스케이 텔레콤 주식회사
Priority date: 1999-07-24
Filing date: 1999-07-24
Publication date: 2001-02-15

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야

본 발명은 적응 코드북의 에너지와 이득을 이용한 음성구간 검출 방법에 관한 것임.

2. 발명이 해결하려고 하는 기술적 과제

본 발명은, 음성 인식 시스템에서 적응 코드북 에너지와 적응 코드북 이득을 이용하여 음성구간을 검출하기 위한 음성구간 검출 방법 및 그를 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하고자 함.

3. 발명의 해결방법의 요지

본 발명은, 적응 코드북의 에너지와 이득을 이용하여 완전하게 디코딩된 음성의 에너지와 유사한 값을 갖는 프레임별 에너지를 구하는 제 1 단계; 프레임별 에너지를 바탕으로 제1 및 제2 문턱값을 설정하는 제 2 단계; 및 프레임별 에너지와 제1 및 제2 문턱값을 비교하여 비교결과에 따라 음성구간의 시작점과 끝점을 검출함으로써, 음성구간을 검출하는 제 3 단계를 포함함.

4. 발명의 중요한 용도

본 발명은 음성인식 시스템 등에 이용됨.

Description

적응 코드북의 에너지와 이득을 이용한 음성구간 검출 방법{METHOD FOR DETECTING END POINT OF VOICE USING ADAPTIVE CODEBOOK ENERGY AND ADAPTIVE CODEBOOK GAIN}

본 발명은 음성 인식 시스템에서의 적응 코드북의 에너지와 이득을 이용하여 음성구간을 검출하는 방법 및 그를 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체에 관한 것이다.

도 1은 일반적인 음성 인식 시스템의 구성 예시도이다.

도 1에 도시된 바와 같이, 일반적인 음성 인식 시스템은 크게 음성구간 검출기(101), 특징 추출기(102) 및 인식기(103)의 세 부분으로 구성된다.

여기서, 음성구간 검출기(101)는 입력 신호로부터 음성 신호 구간만을 찾아내며, 특징 추출기(102)는 찾아진 음성 신호 구간에서 인식을 위해 필요한 음성 특징 벡터를 추출하고, 인식기(103)는 이렇게 찾아진 음성 특징 벡터로부터 음성을 인식한다. 본 발명은 음성구간 검출기(101)에서의 음성구간 검출(EPD : End Point Detection)에 관한 것이다.

일반적으로, 음성구간을 검출하기 위해서는 음성 파형으로부터 구한 에너지값과 영교차율(Zero Crossing Rate) 혹은 레벨 교차율(Level Crossing Rate)을 이용하는 방법을 채택 하지만, 보코딩된 패킷만으로 음성구간을 검출하기 위해서는 다른 방법을 택하여야 한다. 왜냐하면, 고도 가변율 코덱(EVRC : Enhanced Variable Rate Codec) 패킷으로부터 실시간으로 완전한 음성 파형을 얻어내기에는 단말기 CPU의 처리능력이 디코딩할 정도로 충분하지 않기 때문이다.

좀 더 구체적으로 살펴보면, 선 스펙트럼 쌍(LSP : Line Spectral Pairs) 디코딩, 적응 코드북 이득(adaptive codebook gain) 및 딜레이(delay) 디코딩, 고정 코드북 이득(fixed codebook gain) 및 인덱스(index) 디코딩, 적응 코드북 메모리(adaptive codebook memory) 갱신에 걸리는 총 시간은 전체 디코딩 시간의 약 7% 정도 밖에 차지하지 않는다.

반면에, 선 스펙트럼 쌍을 에너지로 변환하는 과정, 에너지를 합성하여 필터링하는 과정에서 각각 약 46% 씩의 디코딩 시간이 소요된다. 따라서, 실시간으로 처리하면서도 완전하게 디코딩된 음성의 에너지와 동등한 정보를 얻기 위해서는 전혀 다른 접근 방법이 필수적으로 요구된다.

상기한 바와 같은 요구에 부응하여 안출된 본 발명은, 음성 인식 시스템에서 적응 코드북 에너지와 적응 코드북 이득을 이용하여 음성구간을 검출하기 위한 음성구간 검출 방법 및 그를 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.

도 1은 일반적인 음성 인식 시스템의 구성 예시도.

도 2a 및 도 2b는 본 발명에 따른 적응 코드북의 에너지와 이득을 이용한 음성구간 검출 방법에 대한 일실시예 흐름도.

도 3 은 본 발명의 실시예에 따른 시작점과 끝점을 검출한 결과에 따른 설명도.

*도면의 주요 부분에 대한 부호의 설명

101 : 음성구간 검출기 102 : 특징 추출기

103 : 인식기

이와 같은 목적을 달성하기 위한 본 발명의 음성 인식 시스템에서의 음성구간 검출 방법에 있어서, 적응 코드북의 에너지와 이득을 이용하여 완전하게 디코딩된 음성의 에너지와 유사한 값을 갖는 프레임별 에너지를 구하는 제 1 단계; 상기 프레임별 에너지를 바탕으로 제1 및 제2 문턱값을 설정하는 제 2 단계; 및 상기 프레임별 에너지와 상기 제1 및 제2 문턱값을 비교하여 비교결과에 따라 음성구간의 시작점과 끝점을 검출함으로써, 음성구간을 검출하는 제 3 단계를 포함한다.

또한, 본 발명은, 프로세서를 구비한 음성 인식 시스템에, 적응 코드북의 에너지와 이득을 이용하여 완전하게 디코딩된 음성의 에너지와 유사한 값을 갖는 프레임별 에너지를 구하는 기능; 상기 프레임별 에너지를 바탕으로 제1 및 제2 문턱값을 설정하는 기능; 및 상기 프레임별 에너지와 상기 제1 및 제2 문턱값을 비교하여 비교결과에 따라 음성구간의 시작점과 끝점을 검출함으로써, 음성구간을 검출하는 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

본 발명에서는 적응 코드북의 에너지와 이득을 이용하여 완전하게 디코딩된 음성의 에너지와 유사한 결과를 얻는 방법을 제안하고, 이렇게 제안된 방법으로 음성의 에너지 정보를 구하고 난 후에는 두 레벨을 갖는 문턱값 논리(two-level threshold logic)를 적용하여 음성구간을 검출할 수 있게 된다.

상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해질 것이다. 이하, 첨부된 도면을 참조하여 본 발명의 바람직한 일실시예를 상세히 설명한다.

도 2a 및 도 2b 는 본 발명에 따른 적응 코드북의 에너지와 이득을 이용한 음성구간 검출 방법에 대한 일실시예 흐름도이다.

음성구간을 검출하기 위해서는, 크게 음성의 에너지를 계산하고, 음성 에너지 정보로부터 음성구간의 시작점과 끝점을 검출한다.

먼저, 음성 에너지를 계산하는 과정을 상세히 설명한다.

우선, 적응 코드북의 프레임별 에너지를 구한다. 즉, EVRC 보코더에서 적응 코드북 생성을 위해 적응 코드북 이득, 딜레이는 프레임마다 53, 53, 54 샘플들로 이루어진 3 개의 서브프레임 단위로 처리된다. 따라서, 적응 코드북의 에너지 역시 서브프레임 단위로 계산한 후 모두 더해서 최종적으로 160 샘플로 이루어진 완전한 1 프레임에 해당하는 값을 구한다.

따라서, 1 프레임 단위의 최종 적응 코드북의 에너지 E는 아래의 [수학식 1]과 같다.

여기서, E_T,m(n)는 m'번째 서브프레임의 적응 코드북 에너지이고, 에너지는 계산량을 최소화하기 위하여 절대값을 취한다.

이와 같이, 에너지는 계산량을 최소화하기 위하여 절대값을 취하지만, 이렇게 구한 에너지 값은 완전하게 디코딩된 음성의 에너지 값보다 그 정보가 불충분하므로, 예를 들면 '오', '우' 와 같은 모음 발음에 대한 그 값이 작게 되는 단점을 지니고 있다.

따라서, 이를 보완하기 위하여 적응 코드북의 이득을 프레임 단위로 평균을 취한 뒤 이를 다시 이전 프레임과 이후 프레임의 평균들과 다시 한번 평균을 취한다. 그리고 나서, 이렇게 구한 프레임 당 평균 적응 코드북 이득의 제곱을 취하여 [수학식 1]에서 계산한 현재 프레임의 적응 코드북 에너지 값에 곱한다. 이를 수식으로 나타내면 아래의 [수학식 2]와 같다.

여기서, g_p,m',f은 f번째 프레임 내 m'번째 서브프레임의 적응 코드북 이득이고, N은 현재 프레임을 나타낸다. 이렇게 하면, 그 결과가 완전하게 디코딩된 음성의 에너지와 유사한 값을 갖게 된다.

여기서, 적응 코드북 이득은 서브프레임 별로 값이 변하므로 한 프레임동안 이를 평균한 값을 구하고, 다시 이를 이전 프레임과 다음 프레임에서 구한 값들과도 다시 한번 평균을 취하여 반영한다.

이제, 이렇게 구한 음성 에너지 정보로부터 음성구간의 시작점과 끝점을 검출하여 그 차이를 음성구간으로 판단하는 과정에 대해 보다 상세히 설명한다.

먼저, 시작점을 검출하기 위해서는, 본 발명의 프레임당 에너지를 바탕으로 문턱값을 설정하게 되는데, 이때 문턱값은 제1 문턱값, 제2 문턱값 두가지를 설정한다.

이와 같이, 문턱값이 설정되면 제1 문턱값을 넘어서는 순간이 바로 음성구간의 시작점이 될 수도 있지만, 어느 정도의 잡음 역시 제1 문턱값을 넘을 수 있으므로 이 경우를 배제하기 위하여, 에너지가 제1 문턱값을 넘고 이 상태가 미리 정한 시작길이 프레임 수(NO_FRAME_START) 이상 유지되면서 동시에 유지되는 구간 동 안 에너지가 제2 문턱값을 넘는 횟수가 미리 정한 또 다른 시작길이 프레임 수(NO_FRAME_START2)보다 클 때에, 시작점으로 간주한다.

한편, 음성구간의 끝점을 검출하는 과정도 음성구간의 시작점을 검출하는 과정과 유사하게 구해지는데, 음성구간의 끝점은 시작점과는 반대로 제1 문턱값 아래로 떨어지는 순간이 될 수도 있다.

그러나, 이 경우 또한 처음 음절이 끝나고 다음 음절이 시작되기 전에 끝점이 검출된 것으로 오판할 수 있으므로, 시작점 검출과 유사하게 제1 문턱값 아래로 떨어지고 난 후 이 상태가 미리 정한 끝점길이 프레임 수(NO_FRAME_END) 이상 유지되면 끝점으로 간주한다. 즉, 처음 끝점이 검출되고 끝점길이 프레임 수 만큼 지나지 않아서 또 다른 시작점이 검출되면, 이를 연결된 한 단어로 인식하여 검출된 끝점을 취소하고 다시 끝점 검출 조건을 탐색하게 된다.

여기서, 또 한가지 고려할 것은 끝점길이 프레임 수 만큼 동안 순간적인 잡음에 의해 짧은 구간동안 제1 문턱값을 넘는 경우가 끝점 검출에 영향을 미치지 못하도록 해야 한다는 것이다.

마지막으로, 음성구간의 끝점과 시작점의 차이가 미리 정한 최소 프레임(MIN_DURATION) 이하이거나 최대 프레임(MAX_DURATION) 이상인 경우에는 정상적인 음성이 아닌 것으로 간주하고, 다시 음성을 입력받는다.

이를 도면에 도시한 흐름에 따라 상세히 설명하면 다음과 같다.

도 2a 및 도2b는 본 발명에 따른 적응 코드북의 에너지와 이득을 이용한 음성구간 검출 방법에 대한 일실시예 흐름도이다.

도 2a 및 도 2b에 도시된 바와 같이, 본 발명에 따른 적응 코드북의 에너지와 이득을 이용한 음성구간 검출 방법은, 먼저 제1 시작길이, 프레임 수, 제2 시작길이, 그리고 끝점길이를 초기화한 후에(201) 프레임 수를 1 증가시켜(202) 에너지가 프레임 당 에너지를 바탕으로 설정된 제1 문턱값보다 큰지를 검사한다(203).

검사결과, 에너지가 제1 문턱값보다 크지 않으면 프레임 수를 1 증가시키는 단계(202)부터 반복하여 수행한다.

검사결과, 에너지가 제1 문턱값보다 크면 에너지가 프레임 당 에너지를 바탕으로 설정된 제2 문턱값보다 큰지를 검사한다(204).

검사결과, 에너지가 제2 문턱값보다 크지 않으면 제 1 시작길이를 1 증가시키고(206), 에너지가 제2 문턱값보다 크면 제2 시작길이를 1 증가시킨 후(205) 제1 시작길이를 1 증가시켜(206), 제1 시작길이가 미리 정한 시작길이 프레임 수(NO_FRAME_START)보다 큰지를 검사한다(207).

검사결과, 제1 시작길이가 미리 정한 시작길이 프레임 수보다 크지 않으면 프레임 수를 1 증가시키는 단계(202)를 반복 수행하고, 크면 제2 시작길이가 미리 정한 또 다른 시작길이 프레임 수(NO_FRAME_START2)보다 큰지를 분석한다(208).

검사결과, 제2 시작길이가 미리 정한 또 다른 시작길이 프레임 수보다 크지 않으면 프레임 수를 1 증가시키는 단계(202)를 반복 수행하고, 크면 그 프레임을 시작점으로 검출한다(209).

음성구간의 시작인 시작점을 검출하였으므로, 음성구간을 검출하기 위해서는 끝점을 검출해야 한다.

도 2b에 도시된 바와 같이, 음성구간의 끝점을 검출하기 위해서는, 우선 프레임 수를 1 증가시키고(210), 에너지가 제1 문턱값보다 작은지를 검사한다(211).

검사결과, 에너지가 제1 문턱값보다 작지 않으면 프레임 수를 1 증가시키는 단계(210)부터 반복하여 수행하고, 작으면 끝점길이를 1 증가시켜(212) 끝점길이가 미리 정한 끝점길이 프레임 수(NO_FRAME_END)보다 큰지를 분석한다(213).

분석결과, 끝점길이가 미리 정한 끝점길이 프레임 수보다 크지 않으면, 프레임 수를 1 증가시키고(214) 에너지가 제1 문턱값보다 작은지를 검사한다(215).

검사결과, 에너지가 제1 문턱값보다 작으면, 제1 및 제2 시작길이를 초기화하여(216) 끝점길이를 1 증가시키는 단계(212)부터 반복하여 수행한다.

검사결과, 에너지가 제1 문턱값보다 작지 않으면, 끝점길이 및 제1 시작길이를 1 증가시키고(217), 에너지가 제2 문턱값보다 큰지를 검사한다(218).

검사결과, 에너지가 제2 문턱값보다 크면 제2 시작길이를 1 증가시킨 후(219) 제1 시작길이가 미리 정한 시작길이 프레임 수(N0_FRAME_START)보다 큰지를 확인한다(220).

검사결과, 에너지가 제2 문턱값보다 크지 않으면 제1 시작길이가 미리 정한 시작길이 프레임 수(N0_FRAME_START)보다 큰지를 확인한다(220).

확인결과, 제1 시작길이가 미리 정한 시작길이 프레임 수보다 크지 않으면 프레임 수를 1 증가시키는 단계(214)부터 반복 수행하고, 크면 제2 시작길이가 미리 정한 또 다른 시작길이 프레임 수(N0_FRAME_START2)보다 큰지를 판단한다(221).

판단결과, 제2 시작길이가 미리 정한 또 다른 시작길이 프레임 수보다 크지 않으면 프레임 수를 1 증가시키는 단계(214)부터 반복 수행하고, 크면 끝점길이와 제1 및 제2 시작길이를 초기화하여(222) 프레임 수를 1 증가시키는 단계(210)부터 반복하여 수행한다.

분석결과, 끝점길이가 미리 정한 끝점길이 프레임 수(NO_FRAME_END)보다 크면 그 때의 프레임을 끝점으로 검출한다(223).

마지막으로, 검출된 끝점과 시작점의 차이인 음성구간이 미리 정한 최소 프레임 기간 이하이거나 최대 프레임 기간 이상이면(224) 음성을 다시 입력받아(225) 음성구간을 검출하고, 그렇지 않으면 음성구간을 검출한 것이므로 음성 인식의 다음 과정으로 넘어간다.

도 3 은 본 발명의 실시예에 따른 시작점과 끝점을 검출한 결과에 따른 설명도이다.

도 3에 도시된 바와 같이, 제1 문턱값과 제2 문턱값이 설정된 경우 미리 정한 시작길이 프레임 수(NO_FRAME_START)가 5, 미리 정한 또 다른 시작길이 프레임 수(NO_FRAME_START2)가 2, 미리 정한 끝점길이 프레임 수(NO_FRAME_END)가 10, 미리 정한 최소 프레임 기간(MIN_DURATION)이 18, 최대 프레임 기간(MAX_DURATION)이 50으로 설정되면 음성구간의 끝점을 검출할 수 있다.

본 발명의 기술 사상은 상기 바람직한 실시예에 따라 구체적으로 기술되었으나, 상기한 실시예는 그 설명을 위한 것이며 그 제한을 위한 것이 아님을 주의하여야 한다. 또한, 본 발명의 기술 분야의 통상의 전문가라면 본 발명의 기술 사상의 범위 내에서 다양한 실시예가 가능함을 이해할 수 있을 것이다.

이상에서 설명한 바와 같이, 본 발명은 완전하게 디코딩된 음성의 에너지 정보를 구하고 난 후 두 레벨을 갖는 문턱값 논리(two-level threshold logic)를 적용함으로써, 음성구간을 검출할 수 있을 뿐만 아니라, 디코딩하는 시간도 줄일 수 있다. 또한, 사용자가 음성 인식 기능을 사용할 때, 동일한 인식율을 보장하는 동시에 인식하기까지의 대기 시간을 감소시킴으로써, 편의성을 증대시키고 계산량을 줄여 음성구간의 검출시간을 감소시킬 수 있는 효과가 있다.

Claims

음성 인식 시스템에서의 음성구간 검출 방법에 있어서,

적응 코드북의 에너지와 이득을 이용하여 완전하게 디코딩된 음성의 에너지와 유사한 값을 갖는 프레임별 에너지를 구하는 제 1 단계;

상기 프레임별 에너지를 바탕으로 제1 및 제2 문턱값을 설정하는 제 2 단계; 및

상기 프레임별 에너지와 상기 제1 및 제2 문턱값을 비교하여 비교결과에 따라 음성구간의 시작점과 끝점을 검출함으로써, 음성구간을 검출하는 제 3 단계

를 포함하여 이루어진 적응 코드북의 에너지와 이득을 이용한 음성구간 검출 방법.
제 1 항에 있어서,

상기 제 1 단계는,

프레임별 서브프레임 단위로 계산된 값을 모두 더해서 한 프레임에 해당하는 상기 적응 코드북의 에너지를 구하는 제 4 단계;

상기 적응 코드북 이득의 평균을 구하여 평방근을 취하는 제 5 단계; 및

상기 적응 코드북의 에너지와 이득을 곱하여 완전하게 디코딩된 음성의 에너지와 유사한 값을 갖는 프레임별 에너지를 구하는 제 6 단계

를 포함하여 이루어진 적응 코드북의 에너지와 이득을 이용한 음성구간 검출 방법.
제 2 항에 있어서,

상기 적응 코드북 이득은,

서브프레임별로 값이 변하므로 한 프레임 동안의 평균값을 구하고, 상기 평균값을 이전 프레임과 다음 프레임에서 구한 값들과 평균을 취한 값인 것을 특징으로 하는 적응 코드북의 에너지와 이득을 이용한 음성구간 검출 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 한 프레임은,

실질적으로, 53, 53, 54 샘플들로 이루어진 3개의 서브프레임 단위가 합산된 160 샘플로 이루어진 것을 특징으로 하는 적응 코드북의 에너지와 이득을 이용한 음성구간 검출 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 제 3 단계의 음성구간의 시작점을 검출하는 과정은,

제1 시작길이, 프레임 수, 제2 시작길이, 그리고 끝점길이를 초기화하는 제 7 단계;

상기 프레임 수를 일("1") 증가시키는 제 8 단계;

상기 프레임별 에너지가 상기 제1 문턱값보다 크지 않으면, 상기 제 8 단계로 넘어가는 제 9 단계;

상기 프레임별 에너지가 상기 제1 문턱값보다 크고 에너지가 상기 제2 문턱값보다 크면, 상기 제2 및 제1 시작길이를 일("1") 증가시키는 제 10 단계;

상기 제 10 단계 수행 후에, 상기 제1 시작길이가 기 설정된 제1 시작길이 프레임 수보다 크지 않거나, 상기 제2 시작길이가 기 설정된 제2 시작길이 프레임 수보다 크지 않으면, 상기 제 8 단계로 넘어가는 제 11 단계; 및

상기 제 10 단계 수행 후에, 상기 제1 시작길이가 상기 제1 시작길이 프레임 수보다 크고 상기 제2 시작길이가 상기 제2 시작길이 프레임 수보다 크면, 상기 프레임을 시작점으로 검출하는 제 12 단계

를 포함하여 이루어진 적응 코드북의 에너지와 이득을 이용한 음성구간 검출 방법.
제 1 항 내지 제 3 항중 어느 한 항에 있어서,

상기 제 3 단계의 음성구간의 끝점을 검출하는 과정은,

제1 시작길이, 프레임 수, 제2 시작길이, 그리고 끝점길이를 초기화하는 제 7 단계;

상기 프레임 수를 일("1")증가시키는 제 8 단계;

상기 프레임별 에너지가 상기 제1 문턱값보다 작지 않으면, 상기 제 8 단계로 넘어가는 제 9 단계;

상기 프레임별 에너지가 상기 제1 문턱값보다 작으면, 상기 끝점길이를 일("1") 증가시키는 제 10 단계;

상기 제 9 단계 수행 후에, 상기 끝점길이와 기 설정된 끝점길이 프레임 수를 비교하는 제 11 단계;

상기 제 11 단계의 비교결과, 상기 끝점길이가 상기 끝점길이 프레임 수보다 크지 않으면 상기 프레임 수를 일("1") 증가시키는 제 12 단계;

상기 제 12 단계 수행 후에, 상기 프레임별 에너지가 상기 제1 문턱값보다 작으면, 상기 제1 및 제2 시작길이를 초기화 한 후에 상기 제 9 단계로 넘어가는 제 13 단계;

상기 제 12 단계 수행 후에, 상기 프레임별 에너지가 상기 제1 문턱값보다 작지 않으면, 상기 끝점길이 및 상기 제1 시작길이를 일("1") 증가시키는 제 14 단계;

상기 프레임별 에너지가 상기 제2 문턱값보다 크면, 상기 제2 시작길이를 일("1") 증가시키는 제 15 단계;

상기 제 14 단계 수행 후에, 상기 제1 시작길이가 기 설정된 제1 시작길이 프레임 수보다 크지 않으면, 상기 제 12 단계로 넘어가는 제 16 단계;

상기 제 15 단계 수행 후에, 상기 제2 시작길이가 기 설정된 제2 시작길이 프레임 수보다 크지 않으면, 상기 제 12 단계로 넘어가는 제 17 단계;

상기 제 16 단계 및 상기 제 17 단계 수행 후에, 상기 제1 시작길이가 상기 제1 시작길이 프레임 수보다 크고 상기 제2 시작길이가 상기 제2 시작길이 프레임 수보다 크면, 상기 끝점길이와 상기 제1 및 제2 시작길이를 초기화한 후에 상기 제 8 단계로 넘어가는 제 18 단계; 및

상기 제 11 단계의 비교결과, 상기 끝점길이가 상기 끝점길이 프레임 수보다 크면, 상기 프레임을 끝점으로 검출하는 제 19 단계

를 포함하여 이루어진 적응 코드북의 에너지와 이득을 이용한 음성구간 검출 방법.
제 6 항에 있어서,

상기 제 19 단계 수행 후에, 끝점과 시작점의 차이가 기 설정된 최소 프레임 기간 이하이거나 최대 프레임 기간 이상이면 음성을 다시 입력받는 제 20 단계를 더 포함하여 이루어진 적응 코드북의 에너지와 이득을 이용한 음성구간 검출 방법.
프로세서를 구비한 음성 인식 시스템에,

적응 코드북의 에너지와 이득을 이용하여 완전하게 디코딩된 음성의 에너지와 유사한 값을 갖는 프레임별 에너지를 구하는 기능;

상기 프레임별 에너지를 바탕으로 제1 및 제2 문턱값을 설정하는 기능; 및

상기 프레임별 에너지와 상기 제1 및 제2 문턱값을 비교하여 비교결과에 따라 음성구간의 시작점과 끝점을 검출함으로써, 음성구간을 검출하는 기능

을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.