KR20000056529A

KR20000056529A - 전송율을 이용한 음성 구간 검출 방법

Info

Publication number: KR20000056529A
Application number: KR1019990005924A
Authority: KR
Inventors: 김재원; 강명수; 민병준; 김병무
Original assignee: 조정남; 에스케이 텔레콤 주식회사
Priority date: 1999-02-23
Filing date: 1999-02-23
Publication date: 2000-09-15
Also published as: KR100282553B1

Abstract

1. 청구범위에 기재된 발명이 속한 기술분야

본 발명은 음성 인식 시스템에 이용되는 음성 구간 검출 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것임.

2. 발명이 해결하려고 하는 기술적 과제

본 발명은, 음성의 양에 따라 전송율을 달리하는 가변 전송율 음성 부호화기 등의 전송율을 이용하여 음성 구간을 검출하는 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하고자 함.

3. 발명의 해결방법의 요지

본 발명은, 가변 전송율로 전송되는 음성 정보 프레임의 전송율이 소정의 제1 문턱값 이상인 위치를 검출하여 음성 구간의 시작으로 인지하는 제 1 단계; 및 상기 음성 구간의 시작 이후에, 상기 음성 정보 프레임의 전송율이 소정의 제2 문턱값 이하인 위치를 검출하여 상기 음성 구간의 끝으로 인지하는 제 2 단계를 포함함.

4. 발명의 중요한 용도

본 발명은 음성 인식 시스템에 이용됨.

Description

전송율을 이용한 음성 구간 검출 방법{AN END POINT DETECTION METHOD USING THE TRANSMISSION RATE}

본 발명은 음성 인식 시스템의 음성 구간 검출 장치에서의 음성 구간 검출 방법과 상기 방법을 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것으로, 특히, 가변 전송율 음성 부호화기 등의 전송율을 이용한 음성 구간 검출 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체에 관한 것이다.

도 1 은 일반적인 음성 인식 시스템의 구성예시도이다.

일반적인 음성 인식 시스템은 크게 음성 구간 검출기(101), 특징 추출기(102) 및 인식기(103)의 세 부분으로 구성된다. 음성 구간 검출기(101)는 입력 신호로부터 음성 신호 구간만을 찾아 내며, 특징 추출기(102)는 찾아진 음성 신호 구간에서 인식을 위해 필요한 음성 특징 벡터를 추출하고, 인식기(103)는 이렇게 찾아진 음성 특징 벡터로부터 음성을 인식한다. 본 발명은 음성 구간 검출기(101)에서의 음성 구간 검출(EPD : End Point Detection)에 관한 것이다.

종래의 음성 구간 검출(EPD)은 실제 음성 파형으로부터 에너지 값을 이용하는 방법을 택하였다.

그러나, 이동 통신 단말기와 같은 특정한 시스템에서 음성 인식을 위한 데이터가 보코딩된 패킷으로 입력되는 경우에 패킷을 다시 음성 신호로 바꾸기 위한 디코딩 작업을 해주어야 하므로 인식을 위한 시간외에 추가적인 시간이 필요하게 되는 문제점이 있었다.

또한, 가변 전송율 음성 부호화기는 음성 구간의 유·무에 따라 전송율을 결정하므로 어느 정도의 에너지 정보를 포함하고 있으나, 이를 이용하지 못하는 문제점이 있었다.

상기한 바와 같은 문제점을 해결하기 위하여 안출된 본 발명은, 음성의 양에 따라 전송율을 달리하는 가변 전송율 음성 부호화기 등의 전송율을 이용하여 음성 구간을 검출하는 방법과 상기 방법을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공하는데 그 목적이 있다.

도 1 은 일반적인 음성 인식 시스템의 구성예시도.

도 2a 및 도 2b 는 본 발명에 따른 가변 전송율 음성 부호화기의 전송율을 이용한 음성 구간 검출 방법에 대한 일실시예 흐름도.

*도면의 주요 부분에 대한 부호의 설명

101 : 음성 구간 검출기 102 : 특징 추출기

103 : 인식기

상기 목적을 달성하기 위한 본 발명은, 음성 구간 검출 장치에 적용되는 음성 구간 검출 방법에 있어서, 가변 전송율로 전송되는 음성 정보 프레임의 전송율이 소정의 제1 문턱값 이상인 위치를 검출하여 음성 구간의 시작으로 인지하는 제 1 단계; 및 상기 음성 구간의 시작 이후에, 상기 음성 정보 프레임의 전송율이 소정의 제2 문턱값 이하인 위치를 검출하여 상기 음성 구간의 끝으로 인지하는 제 2 단계를 포함하여 이루어진 것을 특징으로 한다.

또한, 본 발명은, 대용량 프로세서를 구비한 음성 구간 검출 장치에, 가변 전송율로 전송되는 음성 정보 프레임의 전송율이 소정의 제1 문턱값 이상인 위치를 검출하여 음성 구간의 시작으로 인지하는 제 1 기능; 및 상기 음성 구간의 시작 이후에, 상기 음성 정보 프레임의 전송율이 소정의 제2 문턱값 이하인 위치를 검출하여 상기 음성 구간의 끝으로 인지하는 제 2 기능을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.

디지털 음성 통신 시스템에서는 사용자의 음성을 부호화해주는 음성 부호화기를 사용한다. 우리나라에서 사용하고 있는 코드 분할 다중 접속(CDMA : Code Division Multiple Access) 방식과 같은 몇몇 방식에서는 "퀄컴"사의 코드 여기 선형 예측(QCELP : Quilcom Code-Excited Linear Prediction) 또는 고도 가변 전송율 코덱(EVRC : Enhanced Variable Rate Codec)과 같은 가변 전송율 음성 부호화기를 사용하는데, 이 부호화기들은 음성의 양에 따라 전송율을 달리하여 전송한다. 대부분의 경우 2~4 가지 정도의 전송율을 사용하는데, 음성 구간에서는 최대 전송율을 사용하고, 음성이 없는 묵음 구간에서는 최소 전송율을 사용한다. 중간 전송율은 전환 구간에서 사용한다. 예를 들면, QCELP는 음성량에 따라 8, 4, 2, 1 kbps의 전송율을 사용하고, EVRC는 8, 4, 1 kbps의 전송율을 사용한다.

각각의 전송율 결정 및 음성 부호화는 프레임이라고 부르는 짧은 시간단위로 이루어진다. 프레임은 보통 10 ~ 30 msec 정도이고, 이는 음성인식에서 사용하는 프레임과 거의 같다. 따라서, 가변 전송율 음성 부호화기의 전송율을 살펴보면 음성이 없는 구간에서는 그 값이 아주 작게 되고, 음성이 있는 구간에서는 반대로 어느 일정한 값을 넘어서게 되므로 음성 구간의 유무를 판단할 수가 있게 되는 것이다.

상술한 목적, 특징들 및 장점은 첨부된 도면과 관련한 다음의 상세한 설명을 통하여 보다 분명해 질 것이다. 이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 일실시예를 상세히 설명한다.

도 2a 및 도 2b 는 본 발명에 따른 가변 전송율 음성 부호화기의 전송율을 이용한 음성 구간 검출 방법에 대한 일실시예 흐름도이다.

대부분의 가변 전송율 음성 부호화기는 처음 몇 프레임 동안은 최소 전송율로 음성을 인코딩한다. 이는 여러가지 인자들을 세팅하기 위함인데, 보통 전송율 결정 알고리즘에서 쓰는 값들을 초기화하는 역할을 한다. 초기화 설정을 위한 몇 프레임 이후에는 입력 음성의 활성도에 따라 최소 전송율에서 최대 전송율 사이의 적절한 값으로, 각 프레임의 전송율을 결정하고 이에 따라 음성을 코딩한다.

따라서, 계속하여 최소 전송율로 있다가 전송율이 미리 정한 어느 값(문턱값)을 넘어서는 순간이 바로 음성 구간의 시작점이 될 수 있다. 하지만, 어느 정도의 잡음 역시 문턱값을 넘을 수 있으므로, 이 경우를 배제하기 위하여 전송율이 문턱값을 넘고, 이 상태가 미리 정한 시작길이 프레임 수(NO_FRAME_START) 이상 유지되면 시작점으로 간주하도록 한다.

끝점도 시작점과 유사한 방법으로 구하게 된다. 끝점은 시작점과는 반대로 문턱값 아래로 떨어지는 순간이 될 수 있다. 하지만 이 경우 또한 처음 음절이 끝나고 다음 음절이 시작되기 전의 상황을 끝점이 검출된 상황으로 오판할 수 있으므로, 시작점 검출과 유사하게 문턱값 아래로 떨어지고 난 후에, 이 상태가 미리 정한 끝점길이 프레임 수(NO_FRAME_END) 이상 유지되면 끝점으로 간주하도록 한다. 즉, 처음 끝점이 검출되고, 끝점길이 프레임 수(NO_FRAME_END)만큼 지나지 않아서 또 다른 시작점이 검출되면 이를 연결된 한 단어로 인식하여 검출된 끝점을 취소하고 다시 끝점 검출 조건을 탐색하게 된다.

여기서 또 한가지 고려할 것은 끝점길이 프레임 수(NO_FRAME_END)를 헤아리는 기간동안 순간적인 잡음에 의해 짧은 구간 문턱값을 넘는 경우가 끝점 검출에 영향을 미치지 못하도록 하여야 한다는 것이다. 이는 도면에 도시한 바와 같이 '제2 시작길이'로 표시되어 있다.

마지막으로 끝점과 시작점의 차이가 미리 정한 최소 프레임 기간(MIN_DURATION) 이하이거나 최대 프레임 기간(MAX_DURATION) 이상인 경우에는 정상적인 음성이 아닌 것으로 간주하고 다시 음성을 입력받도록 한다.

이를 도면에 도시한 흐름에 따라 상세히 설명하면 다음과 같다.

우선 제1 시작길이, 끝점길이, 프레임 번호 및 제2 시작길이를 초기화한다(201). 프레임 번호를 1 증가시키고(202), 그 프레임의 전송율이 문턱값보다 작은지를 검사한다(203). 여기서는 EVRC의 경우를 적용하여 문턱값을 4Kbps로 한다.

프레임의 전송율이 문턱값보다 작으면, 프레임 번호를 1 증가시키는 과정(202)부터 반복하여 수행하고, 프레임의 전송율이 문턱값보다 작지 않으면, 제1 시작길이를 1 증가시키고(204), 제1 시작길이가 미리 정한 시작길이 프레임 수(NO_FRAME_START)보다 큰지를 확인한다(205).

제1 시작길이가 시작길이 프레임 수(NO_FRAME_START)보다 크지 않으면, 프레임 번호를 1 증가시켜(206), 그 프레임의 전송율이 문턱값보다 작은지를 검사한다(207). 전송율이 문턱값보다 작지 않으면, 제1 시작길이를 1 증가시키는 과정(204)부터 반복하여 수행하고, 전송율이 문턱값보다 작으면, 제1 시작길이를 초기화하여(208) 프레임 번호를 1 증가시키는 과정(202)부터 반복하여 수행한다.

제1 시작길이가 미리 정한 시작길이 프레임 수(NO_FRAME_START)보다 큰지를 확인한 결과(205), 제1 시작길이가 시작길이 프레임 수(NO_FRAME_START)보다 크면, 그 프레임을 시작점으로 검출한다(209).

음성 구간의 시작인 시작점을 찾았으므로 그 다음으로 음성 구간의 끝점을 찾게 된다.

프레임 번호를 1 증가시키고(210), 프레임 번호에 해당하는 프레임의 전송율이 문턱값보다 작은지를 확인한다(211). 전송율이 문턱값보다 작지 않으면, 프레임 번호를 1 증가시키는 과정(210)부터 반복하여 수행한다. 프레임 번호에 해당하는 프레임의 전송율이 문턱값보다 작으면, 끝점길이를 1 증가시키고(212), 끝점길이가 미리 정한 끝점길이 프레임 수(NO_FRAME_END)보다 큰지를 검사한다(213).

끝점길이가 미리 정한 끝점길이 프레임 수(NO_FRAME_END)보다 크지 않으면, 프레임 번호를 1 증가시키고(214), 해당 프레임의 전송율이 문턱값보다 작은지를 검사한다(215).

전송율이 문턱값보다 작지 않으면, 끝점길이 및 제2 시작길이를 1 증가시키고(217), 제2 시작길이가 미리 정한 시작길이 프레임 수(NO_FRAME_START)보다 큰지를 확인한다(218). 제2 시작길이가 시작길이 프레임 수(NO_FRAME_START)보다 크지 않으면, 프레임 번호를 1 증가시키는 과정(214)부터 반복하여 수행하고, 제2 시작길이가 시작길이 프레임 수(NO_FRAME_START)보다 크면, 끝점길이 및 제2 시작길이를 초기화하여(219), 프레임 번호를 1 증가시키는 과정(210)부터 반복하여 수행한다.

전송율이 문턱값보다 작은지를 검사한 결과(215), 전송율이 문턱값보다 작으면, 제2 시작길이를 초기화하여(216), 끝점길이를 1 증가시키는 과정(212)부터 반복하여 수행한다.

끝점길이가 미리 정한 끝점길이 프레임 수(NO_FRAME_END)보다 큰지를 확인한 결과(213), 미리 정한 끝점길이 프레임 수(NO_FRAME_END)보다 크면, 그 때의 프레임을 끝점으로 검출한다(220).

검출된 끝점과 시작점의 차이인 음성 구간이 미리 정한 최소 프레임 기간(MIN_DURATION) 이하이거나 최대 프레임 기간(MAX_DURATION) 이상인가를 검사하여(221), 최소 프레임 기간(MIN_DURATION) 이하이거나 최대 프레임 기간(MAX_DURATION) 이상이면, 음성을 다시 입력받아(222), 음성 구간 검출을 하고, 그렇지 않으면, 음성 구간을 검출한 것이므로 음성 인식의 다음 과정으로 넘어간다.

상기한 일실시예에서는 끝점을 검출할 때 사용하는 문턱값과 시작점을 검출할 때 사용하는 문턱값이 같지만, 끝점 검출에서의 문턱값과 시작점 검출에서의 문턱값을 다르게 설정할 수도 있다.

이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.

상기한 바와 같은 본 발명은, 가변 전송율 음성 부호화기 등의 전송율만을 이용해 음성 구간 검출을 하므로, 디코딩하는 시간을 줄일 수 있고, 계산량이 적으므로 음성 구간 검출(EPD)을 수행하는 시간도 줄일 수가 있으며, 만일 입력되는 패킷이 고도 가변 전송율 코덱(EVRC) 등과 같은 잡음 제거 기술로 처리되었다면 인식율 향상의 효과가 있다.

Claims

음성 구간 검출 장치에 적용되는 음성 구간 검출 방법에 있어서,

가변 전송율로 전송되는 음성 정보 프레임의 전송율이 소정의 제1 문턱값 이상인 위치를 검출하여 음성 구간의 시작으로 인지하는 제 1 단계; 및

상기 음성 구간의 시작 이후에, 상기 음성 정보 프레임의 전송율이 소정의 제2 문턱값 이하인 위치를 검출하여 상기 음성 구간의 끝으로 인지하는 제 2 단계

를 포함하여 이루어진 전송율을 이용한 음성 구간 검출 방법.
제 1 항에 있어서,

상기 제 1 단계는,

상기 가변 전송율로 전송되는 상기 음성 정보 프레임의 전송율이 상기 소정의 제1 문턱값 이상인 순간을 검출하는 제 3 단계; 및

상기 소정의 제1 문턱값 이상인 순간을 검출한 후에, 제1 시작시간이 지나는 동안 상기 소정의 제1 문턱값 이상의 전송율을 유지하면, 상기 음성 구간의 시작으로 인지하는 제 4 단계

를 포함하여 이루어진 전송율을 이용한 음성 구간 검출 방법.
제 2 항에 있어서,

상기 제 4 단계는,

상기 제1 시작시간 동안 상기 소정의 제1 문턱값 이상의 전송율을 유지하는지를 확인하는 제 5 단계;

상기 제 5 단계의 확인 결과, 상기 제1 시작시간 동안 상기 소정의 제1 문턱값 이상의 전송율을 유지하지 못하면, 상기 제 3 단계부터 반복 수행하는 제 6 단계; 및

상기 제 5 단계의 확인 결과, 상기 제1 시작시간 동안 상기 소정의 제1 문턱값 이상의 전송율을 유지하면, 상기 음성 구간의 시작으로 인지하는 제 7 단계

를 포함하여 이루어진 전송율을 이용한 음성 구간 검출 방법.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,

상기 제 2 단계는,

상기 음성 구간의 시작 이후에, 상기 소정의 제2 문턱값 이하의 순간을 검출하는 제 8 단계; 및

상기 소정의 제2 문턱값 이하의 순간을 검출한 후에, 끝시간이 지나는 동안 상기 소정의 제2 문턱값 이하의 전송율을 유지하면, 상기 음성 구간의 끝으로 인지하는 제 9 단계

를 포함하여 이루어진 전송율을 이용한 음성 구간 검출 방법.
제 4 항에 있어서,

상기 음성 구간의 시작과 상기 음성 구간의 끝의 차이인 상기 음성 구간이 최소 음성 구간 이하이거나 최대 음성 구간 이상이면, 정상적인 음성이 아닌 것으로 간주하는 제 10 단계

를 더 포함하여 이루어진 전송율을 이용한 음성 구간 검출 방법.
제 5 항에 있어서,

상기 제 9 단계는,

상기 소정의 제2 문턱값 이하의 순간을 검출한 후에, 끝시간이 지나는 동안 상기 소정의 제2 문턱값 이하의 전송율을 유지하는지를 확인하는 제 11 단계;

상기 제 11 단계의 확인 결과, 상기 끝시간이 지나는 동안 상기 소정의 제2 문턱값 이하의 전송율을 유지하면, 상기 음성 구간의 끝으로 인지하는 제 12 단계; 및

상기 제 11 단계의 확인 결과, 상기 끝시간이 지나는 동안 상기 소정의 제2 문턱값 이하의 전송율을 유지하지 못하면, 상기 소정의 제2 문턱값 이하의 전송율을 유지하지 못하는 시간을 감안하여 상기 제 8 단계부터 반복 수행하는 제 13 단계

를 포함하여 이루어진 전송율을 이용한 음성 구간 검출 방법.
제 6 항에 있어서,

상기 제 13 단계는,

상기 끝시간이 지나는 동안 상기 소정의 제2 문턱값 이하의 전송율을 유지하지 못하면, 상기 소정의 제2 문턱값 이하의 전송율을 유지하지 못하는 시간이 제2 시작시간보다 짧은지를 확인하는 제 14 단계;

상기 제 14 단계의 확인 결과, 상기 소정의 제2 문턱값 이하의 전송율을 유지하지 못하는 시간이 상기 제2 시작시간보다 짧지 않으면, 상기 제 8 단계부터 반복 수행하는 제 15 단계; 및

상기 제 14 단계의 확인 결과, 상기 소정의 제2 문턱값 이하의 전송율을 유지하지 못하는 시간이 상기 제2 시작시간보다 짧으면, 잡음으로 인한 것으로 판단하여, 상기 소정의 제2 문턱값 이하의 전송율을 유지한 것으로 보아, 상기 끝시간이 경과하면, 상기 음성 구간의 끝으로 인지하는 제 16 단계

를 포함하여 이루어진 전송율을 이용한 음성 구간 검출 방법.
제 4 항에 있어서,

상기 소정의 제1 문턱값은,

상기 소정의 제2 문턱값과 동일한 값인 것을 특징으로 하는 전송율을 이용한 음성 구간 검출 방법.
대용량 프로세서를 구비한 음성 구간 검출 장치에,

가변 전송율로 전송되는 음성 정보 프레임의 전송율이 소정의 제1 문턱값 이상인 위치를 검출하여 음성 구간의 시작으로 인지하는 제 1 기능; 및

상기 음성 구간의 시작 이후에, 상기 음성 정보 프레임의 전송율이 소정의 제2 문턱값 이하인 위치를 검출하여 상기 음성 구간의 끝으로 인지하는 제 2 기능

을 실현시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.