KR0146767B1

KR0146767B1 - 전화망 음성의 실시간 특징추출 방법

Info

Publication number: KR0146767B1
Application number: KR1019950016284A
Authority: KR
Inventors: 유창규; 김종교; 정광재; 김태일; 이형호
Original assignee: 양승택; 한국전자통신연구원; 조백제; 한국전기통신공사
Priority date: 1995-06-19
Filing date: 1995-06-19
Publication date: 1998-08-17
Anticipated expiration: 2015-06-19
Also published as: KR970004581A

Abstract

본 발명은 전화선을 통해 입력되는 음성의 패턴매칭을 위하여 실시간으로 정확한 음성특징을 추출하는 전화망 음성의 실시간 특징추출 방법에 관한 것으로, 전화망 음성의 실시간 특징추출 방법에 있어서, 상기 PC(16)내의 DSP 보드는 음성 데이타가 입력되면 LCR값을 게산하여 새로운 데이타 처리를 완료하는 제1단계와, 새로운 데이타의 처리가 완료되면 소정 시간 동안 데이타를 받아 FFT(Fast Foureir Transform)를 통하여 각 주파수 성분의 크기를 구하는 제2단계와, 상기 각 주파수 성분의 크기를 주파수축상과 시간축상에서 평균화하여 특징을 추출하는 제3단계를 포함하는 것을 특징으로 하여 전화망 음성에 대해 실시간으로 특징을 추출 하는데 있어서 비음성분등의 성도 특성을 나타낼 수 있는 특징 파라미터를 구할 수 있게 되었으며, 이를 이용하여 전화망 음성에 대해 인식할 경우 정확한 성도 모델을 나타내는 특징 파라미터를 제공하여 높은 인식률을 얻을 수 있는 효과가 있다.

Description

전화망 음성의 실시간 특징추출방법

제1도는 본 발명이 적용되는 시스템의 구성 블럭도,

제2a도 내지 제2b도는 본 발명에 따른 전화망 음성의 실시간 특징 추출 처리 흐름도.

제3도는 LCR값 계산의 설명도.

*도면의 주요 부분에 대한 부호의 설명

100:전화망 11:송신 전화기

12: 구내 전화기 13: 전화국 교환기

14:수신 전화기 15: SAIB(Stereo and Audio Interface Box)

16:PC(Personal Computer)

본 발명은 전화선을 통해 입력되는 음성의 패턴매칭을 위하여 실시간으로 정확한 음성특징을 추출하는 전화망 음성의 실시간 특징추출 방법에 관한 것이다.

전화의 보급으로 인해 전화를 이용한 정보획득의 기회가 확대됨에 따라 전화망 음성의 인식이 필요하게 되었다.

따라서,기존에는 음성인식을 위한 음성의 특징을 추출하는 방법으로 먼저, 현재블럭의 신호값들이 에너지가 정해진 값을 초과하건 특정 문턱치보다 큰 값이 정해진 횟수보다 더 많이 발생하는지를 보아 현재의 구간이 음성구간인지를 판단한다. 그리고, 입력된 음성에 대해 전처리를 한후 현재 블럭의 선형 예측 계수[LPC: Linear prediction coeffient)값을 구하거나 상기 LPC값을 다시 한번 처리하여 켑스트럼(Ceptrum)을 계산한다.

그런데, 상기 LPC값을 이용한 기존 방법은, 음성을 발생시키는 성도, 성문, 구강, 비강 등을 음성을 발생시키는 시스템(기관)으로 가정할 때 이 시스템은 영점(zero)과 극점(pole)을 갖고 있으므로, 영점이나 극점 중 하나를 제거 한 시스템을 이용하여 영점과 극점 모두를 갖는 시스템을 모델링하고자 하는 경우 차수를 아주 많이 늘려야만 비슷한 시스템으로 모델링이 가능해진다. 또 영점을 갖는 시스템의 경우 그 해를 찾기 위해 많은 개산량이 필요하게 된다.

따라서, 음성의 발생 모델에 대해 실시간으로 모델의 계수를 추출 할 경우 극점만을 갖고 있는 시스템으로 가정하고 계수를 찾게 되므로 이는 정확한 시스템 계수라 할 수 없는 문제점이 있었다.

상기와 같은 종래기술의 문제점을 해결하기 위하여 알출된 본 발명은, 상기 LPC값을 이용하지 않고 고주파 성분의 변화에 민감한 출력을 내기 위한 시간 주파수( time-frequency)개념을 도입하여 실시간으로 음성특징을 추출하도록 한 전화망 음성의 실시간 특징추출 방법을 제공함에 그 목적이 있다. 상기 목적을 달성하기 위한 본 발명은, 송신 전화기를 수용하는 구내 교환기 및 상기 구내 교환기와 수신 전화기를 수용하는 전화국 교환기를 포함하는 전화망; 상기 전화망 내의 전화국 교환기에 연결되어 스테레오 및 오디오 신호를 정합하는 SAIB(Stereo and Audio Interfece Box); 상기 SAIB에 동기식 직렬포트로 연결되되, 디지탈 신호 처리(DSP: Disital Signal Processing)보드를 내장하는 개인용 컴퓨터(PC: Personal Computer)를 구비하는 시스템에 적용되는 전화망 음성의 실시간 특징추출 방법에 있어서, 상기 PC내의 DSP보드는 음성 데이타가 입력되면 LPC(Level Crossing Rate)값을 계산하여 새로운 데이타 처리를 완료하는 제1단계; 새로운 데이타 처리가 완료되면 소정 시간동안 데이타를 받아 고속 퓨리에 변환(FFT: Fast Foureir Transform)을 통하여 각 주파수 성분의 크기를 구하는 제2단계; 및 상기 각 주파수 성분의 크기를 주파수축상과 시간축상에서 평균화하여 특징을 추출하는 제3단계를 포함하는 것을 특징으로 한다.

먼저, 본 발명에 따른 전화망 음성이 실시간 특징추출 방법을 개략적 으로 살펴보면, 음성의 비음성의 영점 특성을 잘 모델링 할 수 없는 LPC계수에 의한 특징추출 방법을 피하고, 실시간으로 FFT(Fast Foureir Transform)를 통하여 음성의 각 주파수 성분 크기를 구한 뒤 이를 이용하여 주파수축 상에서 스펙트럼의 평균화(spectral smmothing)를 한다.

그리고, 시간축상에서 시간 주파수(time-frequency)개념을 도입하여 O~600Hz, 600~1000Hz, 1000~2000Hz, 2000~4000Hz의 4개의 주파수 대역별로 각각 현재로부터 과거 50ms, 40ms, 30ms, 20ms동안의 평균을 구하여, 이렇게 구해진 값들을 20개의 비균등 주파수(mel-frequency)대역으로 나누어 에너지 합을 구하고, 이로 부터 특징을 추출한다.

이하, 첨부된 참조하여 본 발명에 따른 일실시예를 상세히 설명한다.

제1도는 본 발명이 적용되는 시스템의 구성 블럭도, 제2A도 내지 제2B도는 본 발명에 따른 전화망 음성의 실시간 특징추출 처리 흐름도, 제3도는 LCR값 계산의 설명도이다.

제1도는 본 발명이 적용되는 시스템의 구성 블럭도로서, 송신 전화기(11)를 수용하는 구내 교환기(12) 및 상기 구내 교환기(12) 및 수신 전화기(14)를 수용하는 전화국 교환기(13)를 포함하는 전화망(100)과, 상기 전화망(100)내의 전화국 교환기(13)에 연결되어 스테레오 및 오디오 신호를 정합하는 SAIB(Stereo and Audio Interface BoX)(15)와, 상기 SAIB(15)에 동기식 직렬 포트로 연결되되, DSP(Digital Signal Processing)보드를 내장하는 PC(Personal Computer)(16)를 구비한다.

상기와 같이 구성되는 시스템의 동작을 살펴보면, 전화망(100)과 접속된 상기 SAIB(15)는 전화망 특성을 A/D(Analog/Digital)변환하여 PC(16)내의 DSP보드로 데이타를 전달한다. 그리고, 상기 DSP보드에 음성 데이타가 입력되면 인터럽트가 발생하고 입력되는 음성 데이타는 서클러 버퍼(Circular Buffer)인 링(RING)버퍼에 저장된다.

즉, 상기 PC(16)내의 DSP보드는 음성 데이타가 입력되면 제2A도에 도시된 인터럽트 루틴이 수행되어 전달되는 음성 데이타를 수집하고(201), 시스템의 응답으로, H(z)=1-0.95z^-1에 의한 전역 필터링 즉, 전처리를 수행한다(202).

그리고, 계산된 정수(integer)값을 시스템 내부에 가지고 있는 1초 분량의 링 버퍼에 인덱스값을 이용하여 저장한 (203) 후, 현재 입력된 값까지의 150ms동안 특정값을 초과한 회수인 LCR(Level Crossing Rate)값을 계산하되(204), 계산상의 부하를 고려하여 제3도와 같이 LCR값 계산시에 범위가 변하는 곳의 데이타에 대해서만 계산을 수행하도록 한다.

즉, 800개의 데이타를 갖는 1초 블럭을 시간에 따라 A가 들어있는 과거의 블럭과 새로운 데이타가 들어있는 현재의 블럭으로 구분할때, 상기 A의 값이 LCR값에서 1을 빼고, 상기 새로운 데이타가 LCR값보다 큰 경우 LCR값에 1을 더한다.

한편, 제2B도에 도시된 주루틴은 DSP보드가 새로운 음성 데이타에 대한 처리가 완료 되었는지 계속 확인하여(206), 완료되었으면 10ms가 경화 했는지를 확인하고(207), 시간이 경과하지 않았으면 상기 새로운 음성 데이타에 대한 처리가 완료되었는지 확인하는 단계(206)로 리턴한다. 이는 데이타처리 종료 플래그가 세트된 횟수를 비교하며 8Hz로 데이타를 샐플링하므로, 10ms동안에는 80개의 데이타가 발생하게 된다.

그리고, 상기 10ms가 경과하였으면 PC(16)의 호스트측은 상기 10ms동인의 데이타 값들을 받아 들인 후(208), 현재로부터 과거 20ms동안의 데이타 160샘플의 값에 해밍 창함수(Hamming Window)를 씌운다. 그리고 나서 창함수를 통과한 160샘플값과 0으로 채워진 96개의 값을 대상으로 채운후 266포인트 FFT(Fast Founter Transform)를 10ms마다 취한다(209).

이렇게 하여 구해진 0~8KHz 대역의 주파수 성분값들은 4KHz를 중심으로 대칭이므로 이 주파수 성분값을 이용하여 8000Hz/128마다 128샘플의 주파수 성분별 대수값을 구하는데, 이때 상기 주파수 성분별 대수값은 실수가 되며, 각 주파수 성분들의 값을 아래의 식(1)과 같이 위, 아래 주파수 2칸씩 모두 5칸 즉, (8000Hz/128)x5=35 1.5Hz범위의 값들의 평균하여 새로운 현재값으로 결정한다.

여기서 0 f 128, N=10이다.

이렇게 해서 스펙트럼 평균화(spectral smoothing)를 취하게 되고(210), 0∼600Hz대역은 과거 50ms동안의 값들을 평균하고, 600Hz∼1KHz는 과거 40ms동안의 값들을 평균하며, 1KHz∼2KHz까지는 과거 30ms동안의 값들을 평균한다. 그리고, 2KHz∼4KHz는 과거 20ms값들을 평균하여 128개의 새로운 값을 만듬으로서, 시간 주파수를 구한다(211).

이렇게 최종적으로 구해진 각 밴드별 128개의 데이타를 이용하여 특징을 추출하게 되는데(212), 먼저 0∼4KHz를 20개의 대역으로 구분하며, 1KHz이하는 균등하게, 1KHz∼4KHz까지는 대수적으로 균등하게 분할 되도록 한다. 이에 대한 주파수 할당표를 다음의 표1에 나타내는데, 이는 시작위치와 끝위치에 해당하는 주파수 성분들을 모두 더하여 비균등 주파수(mel-frequency)에너지를 구하는데 이용된다.

상기 표1의 주파수 할당표를 이용하여 상기 128개의 데이타로부터 20개의 데이타로 줄였으며 이 값으로부터 각 대역값들의 상관관계를 나타내도록 가중 함수를 적용하여 20차의 켑스트럼을 구한다. 이때 사용된 식은 다음과 같다.

Li:각 밴드별 에너지, N=20

상기한 바에 의하면 본 발명은, 전화망 음성에 대해 실시간으로 특징을 추하는데 있어서 비음성분등의 성도 특성을 나타낼 수 있는 특징 파라미터를 구할 수 있게 되었으며, 이를 이용하여 전화망 음성에 대해 인식한 경우 정확한 성도 모델을 나타내는 특징 파라미터를 제공하여 높은 인식률을 얻을 수 있는 효과가 있다.

Claims

송신 전화기(11)를 수용하는 구내 전화기(12), 상기 구내 전화기(12)와 수신 전화기(14)를 수용하는 전화국 교환기(13)를 포함하는 전화망(100)과, 상기 전화망(100)내의 전화국 교환기(13)에 연결되어 스테레오 및 오디오 신호를 정합하는 SAIB(Stereo and Audio Interface BoX)(15); 상기 SAIB(15)에 동기식 직렬 포트로 연결되되, DSP(Digital Signal Processing)보드를 내장하는 PC(Personal Computer)(16)를 구비하는 시스템에 적용되는 전화망 음성의 실시간 특징추출 방법에 있어서, 상기 PC(16)내의 DSP보드는 음성 데이타가 입력되면 LCR(Level Crossing Rate)값을 계산하여 새로운 데이타 처리를 완료하는데 제1단계; 새로운 데이타의 처리가 완료되면 소정 시간동안 데이타를 받아 고속 퓨리에 변환(FFT: Fast Foureir Transform)을 통하여 각 주파수 성분의 크기를 구하는 제2단계; 상기 각 주파수 성분의 크기를 주파수축상과 시간축상에서 평균화하여 특징을 추출하는 제3단계를 포함하는 것을 특징으로 하는 전화망 음성의 실시간 특징추출 방법.
제1항에 있어서, 상기 제1단계는, 입력되는 음성 데이타를 수집하여 시스템의 응답으로, H(z)=1-0.95z-1에 의한 전역 필터링을 수행하는 제4단계;상기 전역 필터링에 의해 계산된 정수(integer)값을 시스템 내부에 가지고 있는 1초 분량의 링 버퍼에 인덱스값을 이용하여 저장하는 제5단계; 및 현재 입력된 값까지의 소정 시간동안 특정값을 초과한 회수인 LCR(Level Crossing Rate)값을 계산하고 종료 플래그를 세트하여 새로운 음성 데이타 처리가 완료되었음을 나타내는 제6단계를 포함하는 것을 특징으로 하는 전화망 음성의 실시간 특징추출 방법.
제2항에 있어서, 상기 제6단계는, 다수개의 데이타를 갖는 소정 블럭을 시간에 따라 A가 들어 있느 과거의 블럭과 새로운 데이타가 들어 있는 현재의 블럭으로 구분하는 제7단계; 상기 A의 값이 LCR값 보다 큰 경우 LCR값에서 1을 빼고, 상기 새로운 데이타가 LCR값보다 큰 경우 LCR값에 1을 더하는 제8단게; 및 종료 플래그를 세트하여 새로운 음성 데이타 처리가 완료되었음을 나타내는 제9단계를 포함하는 것을 특징으로 하는 전화망 음성의 실시간 특징추출 방법.
제1항에 있어서, 상기 제2단계는, 새로운 음성 데이타에 대한 처리가 완료 되었는지 계속 확인하여 완료 되었으면 PC의 호스트측이 소정 시간동안의 데이타를 받아들이는 제4단계; 과거 소정의 시간동안 데이타 샘플의 값에 해밍 창함수(Hamming window)를 씌우고 나머지 소정개의 값을 모두 0으로 채우는 제5단계; 소정 포인트 FFT(Fast Fourier Transform)를 위하여 소정 주파수대, 소정 샘플의 주파수 성분별 대수값을 구하는 제6단계를 포함하는 것을 특징으로 하는 전화망 음성의 실시간 특징추출 방법.
제4항에 있어서, 상기 제4단계는, 새로운 음성 데이타에 대한 처리가 완료되었는지 계속 확인하는 제7단계; 상기 새로운 음성 데이타에 대한 처리가 완료되었으면 소정 시간이 경과되었는지 확인하는 제8단게; 상기 소정 시간이 경과되지 않았으면 상기 제7단계로 리턴하고 소장 시간이 경과되었으면 PC의 호스트측이 소정 시간동안이 데이타를 받아들이는 제9단계를 포함하는 것을 특징으로 하는 전화망 음성의 실시간 특징추출 방법.
제1항에 있어서, 상기 제3단계는, 상기 각 주파수를 대수값들을 위, 아래 주파수 2칸씩 모두 5칸, 321.5Hz범위의 값들을 평균하고 새로운 현재값으로 결정하여 스펙트럼의 평균화(spectral smoothing)를 취하는 제4단계; 상기 스펙트럼의 평균화를 취한 후, 소정 대역별로 소정 시간동안의 값들을 평균하고 소정개의 새로운 값을 만들어 시간 주파수를 구하는 제5단계; 및 상기 소정개의 시간 주파수를 이용하여 특징추출을 하는 제6단계를 포함하는 것을 특징으로 하는 전화망 음성의 실시간 특징추출 방법.
제6항에 있어서, 상기 제6단계는, 소정의 주파수 대역을 소정의 주파수 할당표에 따라 소정개의 대역으로 구분하는 제7단계; 및 가중 함수를 적용하여 켑스트럼을 구하는 제8단계를 포함하는 것을 특징으로 하는 전화망 음성의 실시간 특징추출 방법.
제7항에 있어서, 상기 주파수 할당표는, 시작위치와 끝위치가 해당하는 주파수 성분들을 모두 더하여 비균등 주파수(mel-frequency)에너지를 구하도록 하는 것을 특징으로 하는 전화망 음성의 실시간 특징추출 방법.
제7항에 있어서, 상기 가중 함수는 Li이 각 밴드별 에너지이고, N=20일때,인 것을 특징으로 하는 전화망 음성의 실시간 특징추출 방법.