KR100269217B1

KR100269217B1 - 유사 체인코드를 후처리로 이용한 음성검출시스템 및 그 방법

Info

Publication number: KR100269217B1
Application number: KR1019980013664A
Authority: KR
Inventors: 오광철
Original assignee: 윤종용; 삼성전자주식회사
Priority date: 1998-04-16
Filing date: 1998-04-16
Publication date: 2000-10-16
Also published as: KR19990080415A

Abstract

본 발명은 음성신호에 잡음신호가 섞인 입력신호에서 잡음신호를 제거하고 순수 음성신호만을 검출하는 음성검출시스템 및 그 방법에 관한 것으로, 유사 체인코드를 후처리로 이용한 음성검출방법은 음성신호와 잡음신호가 섞인 입력신호로부터 에너지 파라미터를 구하는 파라미터 추출과정, 파라미터 추출과정으로부터 구한 에너지 파라미터에 대한 최초음성구간이 검출되면 그 구간에 대한 연차합을 구하는 연차합 계산과정, 연차합 계산과정으로부터 구한 에너지 파라미터의 연차합의 프레임별 방향을 설정하기 위하여, 연차합을 정규화하는 연차합 정규화과정, 연차합 정규화 과정으로부터 정규화된 연차합에 대한 체인코드를 구하기 위하여, 체인코드의 경계값을 구하는 체인코드 경계값 계산과정, 연차합 정규화과정으로부터 구한 정규화된 연차합의 기울기와 상기 체인코드 경계값 계산과정으로부터 구한 체인코드의 경계값을 비교하여 체인코드를 구하는 체인코드 계산과정 및 체인코드 계산과정에서 체인코드화한 값을 양끝점에서부터 소정의 값과 비교하여 소정의 값보다 크면 각각 보정된 시작점과 끝점으로 설정하는 양끝점 보정 과정을 포함함을 특징으로 한다.

본 발명에 의하면, 배경잡음에 의해서 음성이외에 음성의 앞, 뒤에 추가되는 배경잡음을 없애고 순수한 음성신호만을 검출할 수 있다.

Description

유사 체인코드를 후처리로 이용한 음성검출시스템 및 그 방법

본 발명은 음성검출시스템에 관한 것으로, 특히 유사 체인코드를 후처리로 이용한 음성검출시스템 및 그 방법에 관한 것이다.

음성구간 검출 방식은 연속적으로 들어오는 입력신호로부터 에너지 파라미터 값을 구하고, 그 파라미터 값과 미리 설정된 임계치를 비교하여 음성신호를 비음성 신호와 구분해 내는 일련의 과정으로 구성된다. 음성구간 검출에 있어서, 입력 신호를 처리하는 방법에는 사후 처리 방식 및 진행 처리 방식이 있다.

사후 처리 방식은 미리 정해 놓은 일정한 시간동안 입력 신호를 받아 버퍼에 쌓아 놓은 후 음성 구간을 찾는 방법이다. 이 방법은 신호를 처리하기가 용이하고 간단히 구현할 수 있는 반면에 실시간 음성 인식에는 적절하지 않다. 또한 입력 시간을 미리 정해 놓기 때문에 그 시간내에 음성을 발성해야 하는 번거로움이 있다. 만약 주어진 시간이 짧아서 시간내에 발성을 하지 못하면 입력 단어가 끊기게 되고, 반대로 너무 길면 발성이 끝난 후 불필요하게 기다리는 시간이 많아지게 된다. 더욱이, 입력 시간을 적절하게 설정했다 하더라도 시스템의 응답시간이 느려지는 단점이 생긴다.

반면, 진행 처리 방식은 계속적으로 신호의 입력을 받아들이면서 현재까지 들어온 정보만으로 음성 구간을 결정하는 방식이다. 이 방식은 현재까지 입력된 정보만을 사용하기 때문에 정확도가 떨어질 수 있다. 이 방식이 소정의 정확도를 확보하기 위해서는 그 알고리듬이 매우 복잡하다. 그러나 사용자의 입장에서는 발성 시간에 대한 제약이 없어서 편리하고, 시스템의 입장에서는 처리 능력을 최대한 발휘할 수 있어서 처리 시간상으로 매우 유리하다. 따라서 현재 대부분의 상용 음성 인식 시스템은 진행 처리 방식을 선호한다.

도 1은 종래의 진행 처리 방식의 음성 검출시스템이다. 먼저 에너지 검출부(100)는 입력 신호로부터 에너지 파라미터를 구하고, 에너지 파라미터로부터 시작점 추출부(120)와 끝점 추출부(130)는 시작점과 끝점을 구한다. 시작점 추출부(120)는 시작점을 구하면 시작점 보정 작업을 거쳐 입력버퍼(110)로부터 음성버퍼(160)로 데이터를 저장할 수 있도록 시작점 제어 신호를 보낸다. 이와같은 데이터 저장과정은 끝점이 검출될 때까지 계속한다. 끝점 추출부(130)는 끝점이 검출되면 끝점 보정 작업을 거쳐 음성 버퍼(160)에 끝점까지만의 음성 데이터를 남겨두고 다른 데이터는 버리도록 끝점 제어 신호를 보낸다.

도 2는 자동차 잡음 환경에서 종래의 진행처리 방식의 음성검출 시스템에서 음성으로써 검출한 부분이다. 이 경우 음성 신호뿐 아니라 자동차 잡음이 음성 신호의 뒤에 따라 온 것을 알 수 있다.

이와같이 종래의 진행 처리 방식의 음성 검출 시스템은 사용자의 편리성 및 시스템 응답속도등에서 장점이 있으나 배경잡음에 따라 영향을 많이 받는다. 즉 배경잡음이 많아지면 음성을 검출하지 못하거나 배경잡음을 음성으로 알고 이 배경잡음을 검출하거나, 검출된 구간에 음성부분 이외에 배경잡음이 앞,뒤로 첨가되는 등의 결점이 있다.

본 발명이 이루고자하는 기술적 과제는 이미지 인식에서 사용하는 체인코드(chain code)기법을 이용하여 배경잡음 부분을 제거하고 순수 음성 부분만을 찾아내 음성인식등의 시스템에서 사용할 수 있도록 하는 유사 체인코드를 후처리로 이용한 음성검출시스템 및 그 방법을 제공하는 것이다.

도 1은 종래의 음성검출시스템을 블록도로 도시한 것이다.

도 2는 자동차 배경잡음에서 종래의 음성검출시스템에 의해 검출된 음성 신호를 도시한 것이다.

도 3은 본 발명에 의한 음성검출시스템을 블록도로 도시한 것이다.

도 4는 도 2의 신호에 대한 에너지 파라미터를 도시한 것이다.

도 5는 도 2의 신호에 대한 에너지 파라미터의 연차합을 도시한 것이다.

도 6은 8가지 방항에 대한 체인코드 예를 도시한 것이다.

도 7은 도 2의 신호에 대한 체인코드 값을 도시한 것이다.

도 8은 도 2의 신호에 대한 본 발명에 의한 음성검출시스템에 의해 검출된 음성신호를 도시한 것이다.

상기 기술적과제를 해결하기 위한, 본 발명에 의한 유사 체인코드를 후처리로 이용한 음성검출방법은 음성신호와 잡음신호가 섞인 입력신호로부터 에너지 파라미터를 구하는 파라미터 추출 과정, 상기 파라미터 추출 과정으로부터 구한 상기 에너지 파라미터에 대한 최초음성구간이 검출되면 그 구간에 대한 연차합을 구하는 연차합 계산 과정, 상기 연차합 계산 과정으로부터 구한 상기 에너지 파라미터의 연차합의 프레임별 방향을 설정하기 위하여, 연차합을 정규화하는 연차합 정규화 과정, 상기 연차합 정규화 과정으로부터 정규화된 연차합에 대한 체인코드를 구하기 위하여, 체인코드의 경계값을 구하는 체인코드 경계값 계산 과정, 상기 연차합 정규화 과정으로부터 구한 정규화된 연차합의 기울기와 상기 체인코드 경계값 계산 과정으로부터 구한 체인코드의 경계값을 비교하여 체인코드를 구하는 체인코드 계산 과정 및 상기 체인코드 계산 과정에서 체인코드화한 값을 양끝점에서부터 소정의 값과 비교하여 소정의 값보다 크면 각각 보정된 시작점과 끝점으로 설정하는 양끝점 보정 과정을 포함함을 특징으로 한다.

상기 다른 기술적과제를 해결하기 위한, 본 발명에 의한 유사 체인코드를 후처리로 이용한 음성검출 시스템은 입력신호를 임시로 저장하는 입력버퍼, 입력신호로부터 에너지 파라미터를 추출하는 에너지 검출부, 상기 에너지 검출부에서 추출된 에너지 파라미터로부터 음성구간의 시작점을 검출하는 시작점 추출부, 상기 에너지 검출부에서 추출된 에너지 파라미터로부터 음성구간의 끝점을 검출하는 끝점 추출부, 검출된 음성구간의 시작점과 끝점정보를 이용하여 상기 입력버퍼로부터 음성구간만을 저장하는 제1음성버퍼, 검출된 음성구간의 시작점과 끝점 음성구간정보와 이구간에서의 에너지정보를 이용하여 양끝점을 보정하는 양끝점 보정부 및 상기 양끝점 보정부로부터 보정된 시작점과 끝점을 가지고 상기 제1음성버퍼로부터 순수음성신호만을 저장하는 제2음성버퍼를 포함함을 특징으로 한다.

이하에서 도면을 참조하여 본 발명에 대하여 상세하게 설명하기로 한다.

도 3은 본 발명에 따른 유사 체인코드를 후처리로 이용한 음성검출 시스템에 관한 것으로, 에너지 검출부(300), 입력버퍼(310), 시작점 추출부(320), 끝점 추출부(330), 제1음성버퍼(350), 양끝점 보정부(340) 및 제2음성버퍼(360)로 이루어진다.

상술한 구성에 의거하여, 도 3을 참조하여 본 발명의 동작에 대하여 설명하기로 한다.

에너지 검출부(300)는 입력 신호로부터 에너지 파라미터를 구하고, 동시에 입력신호가 입력버퍼(310)에 저장된다. 에너지 검출부(300)로부터 구한 에너지 파라미터를 이용하여 시작점 추출부(320)와 끝점 추출부(330)는 시작점과 끝점을 구한다. 시작점을 구하면 입력버퍼(310)로부터 제1음성버퍼(350)로 데이터를 저장할 수 있도록 버퍼링 시작 제어 신호를 보내고, 데이터 저장은 끝점이 검출될 때까지 계속한다. 끝점이 검출되면 제1음성버퍼(350)에 끝점까지만의 음성 데이터를 남겨두고 다른 데이터는 버리도록 버퍼링 끝 제어 신호를 보낸다. 그리고 양끝점 보정부(340)는 검출된 음성구간의 시작점과 끝점 음성구간정보와 이 구간에서의 에너지 정보를 이용하여 양끝점을 보정한다. 최종적으로 보정된 시작점과 끝점을 가지고 제1음성버퍼(350)로부터 제2음성버퍼(360)에 순수 음성신호만을 저장한다.

본 발명의 실시예를 통해 음성검출방법에 대하여 설명하기로 한다. 도 2는 자동차 잡음 환경에서 기존의 실시간 음성검출 시스템에서 음성으로써 검출한 부분이다. 이 경우 음성 신호뿐 아니라 자동차 잡음이 음성 신호의 뒤에 따라 온 것을 알수 있다. 이 신호에 대한 에너지 파라미터 E(n)를 프레임별로 나타내면 도 4와 같다. 여기서 s(n,m)은 n번째 프레임에서 m번째 샘플을 의미하고 M은 프레임의 길이를 나타낸다. 그림에서 보는 바와 같이 자동차 잡음에서는 에너지 파라미터의 변화가 심해서 음성구간과 잡음구간의 에너지의 구분이 모호해 진다.

이 신호에 대한 에너지 파라미터의 연차합(cumulative sum, Cs(n))을 구하면 도 5와 같다. 처음 부분과 후반부의 기울기가 비슷하고 음성 구간에서의 기울기가 매우 큰 것을 알수 있다. 따라서 이 정보를 후처리에서 이용하면 잡음부분이 따라오는 음성 검출 결과에서 순수한 음성 구간만을 검출해 낼 수 있다.

이를 위하여 본 발명에서는 이미지 인식에서 사용되는 체인코드(chain code)를 변형하여 적용한다. 체인코드는 이미지 인식에서는 선의 모양을 나타내는 기본적인 방법이다. 즉, 선의 진행방향을 코드로 표현하는 것인데 곡선상의 현재점을 기준으로 다음 점의 방향을 4또는 8가지로 표현하는 것이다. 도 6에 8가지 방향의 체인코드를 설정하는 예를 도시한다.

본 발명에서는 이 체인코드 방식을 음성검출에 응용할 수 있도록 변형시켰다. 먼저 도 5에 있는 에너지의 연차합 곡선을 살펴보면, 현재점을 기준으로 전 방향에 대해 4분의 1만(가로축과 세로축에 대해 모두 양수인 부분)이 유효하다. 따라서 이 경우 0^o~90^o의 각(양수의 가로축을 기준으로 반시계 방향의 각도)만이 유효하다. 따라서 본 발명에서는 이 90^o의 방향을 N등분한다.

이 경우 n번째 프레임에 체인코드를 적용하는 방식은 다음과 같다. 먼저 에너지 파라미터의 연차합 Cs(n)의 프레임별 방향을 설정하기 위하여 다음과 같이 정규화한다. 여기에서 L은 최초 음성검출법에 의해 구한 음성구간의 길이를 의미하고 Csn(n)은 n번째 프레임의 정규화된 값이다.

이제, 정규화된 연차합에 대한 체인코드를 구하기 위해서 90도의 방향을 다음과 같이 N등분하여 체인코드의 경계값을 구한다.

정규화된 연차합의 기울기, Csn(n)-Csn(n-1),이 d(i)보다 작으면 체인코드 i를 n번째 프레임의 체인코드로 할당한다.

이상의 양끝점을 보정하는 방법으로 앞에서와 같이 연차합을 정규화하는 방법이외에 연차합은 그대로 두고 체인코드의 경계값을 변화시키는 방법이 있다. 이 새로운 경계값을 d`(i)라 하면 이는 다음과 같다.

정규화된 연차합의 기울기, Csn(n)-Csn(n-1),이 d`(i)보다 작으면 체인코드 i를 n번째 프레임의 체인코드로 할당한다. 이와같이 연차합을 정규화하지 않고 체인코드의 경계값을 가변으로 놓으면 경계값의 수 N이 프레임수 L보다 작기 때문에 계산량이 적게드는 장점이 있고, 또 d`(i)를 상황에 맞게 바꾸어 줄 수 있으므로 여러 장점이 있다. 또한 정규화된 연차합의 기울기 Csn(n)-Csn(n-1)는 원래 에너지 E(n)과 동일하므로 결과적으로 연차합을 구하지 않아도 된다.

배경잡음이 있는 경우에 이 경계값을 다음과 같이 맞추면 배경잡음의 세기에 따라 더욱 정확한 순수음성 구간을 검출할 수 있다. 먼저 최초로 검출된 음성 구간의 앞뒤 수 프레임으로부터 배경 에너지 Eb를 구한다. 배경 에너지와 체인코드의 경계값, d`(i)으로부터 새로운 경계값 d``(i)을 구한다.

이상과 같이 양끝점을 보정하는 알고리즘은 3 가지로 구현할 수 있다. 첫번째 방법은 최초 음성 구간이 검출되면 그 구간에 대한 연차합 Cs(n)을 수학식 2를 이용해서 구하고, 이를 수학식 3을 이용해서 정규화하여 정규화된 연차합 Csn(n)을 구한다. 정규화한 연차합 Csn(n)을 수학식 4로 미리 구한 체인코드 경계값 d(i)와 비교하여 체인코드화한다. 이 체인코드 값을 양끝점에서부터 임계치와 비교하여 임계치보다 크면 각각 보정된 시작점과 끝점으로 설정한다.

두번째 방법은 최초 음성 구간이 검출되면 그 구간에 대한 연차합 Cs(n)을 수학식 2를 이용해서 구한다. 정규화한 연차합 Csn(n)을 수학식 5로 미리 구한 체인코드 경계값 d`(i)와 비교하여 체4인코드화한다. 이 체인코드 값을 양끝점에서부터 임계치와 비교하여 임계치보다 크면 각각 보정된 시작점과 끝점으로 설정한다.

세번째 방법은 최초 음성 구간이 검출되면 그 구간에 대한 연차합 Cs(n)을 수학식 2를 이용해서 구한다. 정규화한 연차합 Csn(n)을 수학식 6으로 미리 구한 체인코드 경계값 d``(i)와 비교하여 체인코드화한다. 이 체인코드 값을 양끝점에서부터 임계치와 비교하여 임계치보다 크면 각각 보정된 시작점과 끝점으로 설정한다.

본 발명에 의하면, 배경잡음에 의해서 음성이외에 음성의 앞, 뒤에 추가되는 배경잡음을 없애고 순수한 음성신호만을 검출할 수 있다. 따라서 이 방법을 이용하여 음성 신호를 검출하여 잡음 환경에서의 음성 인식 및 화자 식별, 화자 확인 시스템에 적용하면 그 성능이 기존방법에 의한 성능보다 향상된다. 또한 잡음제거 시스템에 적용하면 순수한 음성신호를 걸러 내므로 잡음의 특성을 보다 잘 찾아 낼 수 있다.

Claims

음성신호에 잡음신호가 섞인 입력신호에서 잡음신호를 제거하고 순수 음성신호만을 검출하는 음성검출방법에 있어서,

음성신호와 잡음신호가 섞인 입력신호로부터 에너지 파라미터를 구하는 파라미터추출과정;

상기 파라미터 추출 과정으로부터 구한 상기 에너지 파라미터에 대한 최초음성구간이 검출되면 그 구간에 대한 연차합을 구하는 연차합 계산과정;

상기 연차합 계산과정으로부터 구한 상기 에너지 파라미터의 연차합의 프레임별 방향을 설정하기 위하여, 연차합을 정규화하는 연차합 정규화과정;

상기 연차합 정규화과정으로부터 정규화된 연차합에 대한 체인코드를 구하기 위하여, 체인코드의 경계값을 구하는 체인코드 경계값 계산과정;

상기 연차합 정규화과정으로부터 구한 정규화된 연차합의 기울기와 상기 체인코드 경계값 계산 과정으로부터 구한 체인코드의 경계값을 비교하여 체인코드를 구하는 체인코드 계산과정; 및

상기 체인코드 계산과정에서 체인코드화한 값을 양끝점에서부터 소정의 값과 비교하여 소정의 값보다 크면 각각 보정된 시작점과 끝점으로 설정하는 양끝점 보정과정을 포함함을 특징으로 하는 유사 체인코드를 후처리로 이용한 음성검출방법.
제1항에 있어서, 상기 파라미터 추출 과정은

음성신호와 잡음신호가 섞인 입력신호의 에너지 파라미터를 E(n)이라할 때,

(여기서, s(n,m)은 n번째 프레임에서 m번째 샘플을 의미하며, M은 프레임의 길이를 나타낸다.)

임을 특징으로 하는 유사 체인코드를 후처리로 이용한 음성검출방법.
제2항에 있어서, 상기 연차합 계산 과정은

최초음성구간이 검출되면 그 구간에 대한 에너지 파라미터의 연차합을 Cs(n)이라할 때,

임을 특징으로 하는 유사 체인코드를 후처리로 이용한 음성검출방법.
제3항에 있어서, 상기 연차합 정규화 과정은

에너지 파라미터의 연차합 Cs(n)을 이용하여 정규화한 연차합을 Csn(n)이라할 때,

(여기서, L은 최초 음성검출법에 의해 구한 음성구간의 길이이다.)

임을 특징으로 하는 유사 체인코드를 후처리로 이용한 음성검출방법.
제4항에 있어서, 상기 체인코드 경계값 계산 과정은

정규화된 연차합 Csn(n)에 대한 체인코드를 구하기 위한 체인코드 경계값을 d(i)라할 때,

(여기서, N은 경계값의 수를 나타낸다.)

임을 특징으로 하는 유사 체인코드를 후처리로 이용한 음성검출방법.
제4항에 있어서, 상기 체인코드 경계값 계산 과정은

정규화된 연차합 Csn(n)에 대한 체인코드를 구하기 위한 체인코드 경계값을 d`(i)라할 때,

(여기서이고, N은 경계값의 수이다.)

임을 특징으로 하는 유사 체인코드를 후처리로 이용한 음성검출방법.
제4항에 있어서, 상기 체인코드 경계값 계산 과정은

정규화된 연차합 Csn(n)에 대한 체인코드를 구하기 위한 체인코드 경계값을 d``(i)라할 때,

(여기서,이고,

이고, N은 경계값의 수이다.)

임을 특징으로 하는 유사 체인코드를 후처리로 이용한 음성검출방법.
제5항에 있어서, 상기 체인코드 계산 과정은

에너지 파라미터의 정규화된 연차합의 기울기 Csn(n)-Csn(n-1)이 체인코드의 경계값 d(i)보다 작으면 체인코드 i를 n번째 프레임의 체인코드로 할당함을 특징으로 하는 유사 체인코드를 후처리로 이용한 음성검출방법.
제6항에 있어서, 상기 체인코드 계산 과정은

에너지 파라미터의 정규화된 연차합의 기울기 Csn(n)-Csn(n-1)이 체인코드의 경계값 d`(i)보다 작으면 체인코드 i를 n번째 프레임의 체인코드로 할당함을 특징으로 하는 유사 체인코드를 후처리로 이용한 음성검출방법.
제7항에 있어서, 상기 체인코드 계산 과정은

에너지 파라미터의 정규화된 연차합의 기울기 Csn(n)-Csn(n-1)이 체인코드의 경계값 d``(i)보다 작으면 체인코드 i를 n번째 프레임의 체인코드로 할당함을 특징으로 하는 유사 체인코드를 후처리로 이용한 음성검출방법.
음성신호에 잡음신호가 섞인 입력신호에서 잡음신호를 제거하고 순수 음성신호만을 검출하는 음성검출시스템에 있어서,

입력신호를 임시로 저장하는 입력버퍼;

입력신호로부터 에너지 파라미터를 추출하는 에너지검출부;

상기 에너지검출부에서 추출된 에너지 파라미터로부터 음성구간의 시작점을 검출하는 시작점추출부;

상기 에너지검출부에서 추출된 에너지 파라미터로부터 음성구간의 끝점을 검출하는 끝점추출부;

상기 시작점추출부와 상기 끝점추출부로부터 검출된 음성구간의 시작점과 끝점정보를 이용하여 상기 입력버퍼로부터 음성구간만을 저장하는 제1음성버퍼;

검출된 음성구간의 시작점과 끝점 음성구간정보와 이구간에서의 에너지정보를 이용하여 양끝점을 보정하는 양끝점보정부; 및

상기 양끝점보정부로부터 보정된 시작점과 끝점을 가지고 상기 음성버퍼로부터 순수음성신호만을 저장하는 제2음성버퍼를 포함함을 특징으로 하는 음성검출시스템.