KR19990049148A

KR19990049148A - 피치 구간별 fo/f1률의 유사성에 의한 음성파형 압축방법

Info

Publication number: KR19990049148A
Application number: KR1019970068012A
Authority: KR
Inventors: 배명진; 이상효; 윤창용; 김영삼
Original assignee: 이봉훈; 서울이동통신 주식회사
Priority date: 1997-12-12
Filing date: 1997-12-12
Publication date: 1999-07-05
Also published as: KR100291584B1; US6101463A

Abstract

본 발명은 음성파형의 압축방법에 관한 것으로서, 음성파형을 일정한 크기의 프레임으로 나누는 과정과, 상기 일정한 크기로 나누어진 음성파형이 유성음인지를 판단하는 과정과, 유성음이라면 프레임내의 처음 구간의 F₁/F₀비를 구하고, 계속되는 파형의 다음 구간의 F₁/F₀비를 구하여 상기 양 F₁/F₀비의 차가 소정의 값 이하이면 해당구간의 신호를 처음 구간의 신호가 동일할 것으로 보아 압축을 하고, 소정의 값 이상이면 압축하지 않는 과정으로 이루어진다.

Description

피치 구간별 F0/F1률의 유사성에 의한 음성파형 압축방법

본 발명은, 음성파형의 압축방법에 관한 것으로서, 특히 피치 구간별의 F₀/F₁률의 유사성에 의한 음성파형의 압축방법에 관한 것이다.

음성파형의 전달에 대한 음성 부호화법의 주된 관점은 음성 정보의 전달에 대한 데이터의 전송과 압축률, 음성파형의 전달에 대한 데이터의 전송과 압축률, 합성음의 음질, 처리속도를 고려하여 처리하는 것이다. 그 중에서도 선형예측 모델링에 근거한 음성압축방법이 연구의 대부분을 차지하고 있다.

이 방법에서는, 입력된 음성은 저역여파기를 통과한 후 아날로그/디지털(A/D : Analog to Digital)로 변환되어, LPC(Linear Predictive Coding)분석을 수행하고 유성음인 경우, 피치를 추출하게 된다. 이 선형예측 모델링에 의한 음성부호화기의 구조는 도1과 같다. 추출된 LP계수, 피치, 에너지 등은 부호화기에 의해 부호화된 후, 통신 채널을 통해 전송되거나 합성을 위해 메모리에 저장된다. 음성의 합성은 전송 또는 저장된 파라미터를 보고화하여 합성필터를 통해 합성된다.

피치의 검출방법은 예측 오류 파형의 상관관계법, 음성파형의 저주파분석의 상관관계법, AMDF(Average Magnitude Difference Function)법, 캡스트럼법 등이 있다. 그러나 이 LPC분석의 전달함수는 전극형 모델을 사용하기 때문에 비음과 같이 영점성분이 있는 경우에 대해서는 부적당하다. 또한 음원이 펄스열 또는 백색 랜덤 가우시안 시퀀스로만 이원화되어 있기 때문에 다양한 음성의 변화를 만족하지 못하며, 유성음 또는 무성음의 구별과 함께 정확한 피치의 검출을 해야하는 어려움이 있다.

도1은, LPC(Linear Predictive Coding) 보코더 시스템의 구조를 나타내는 도면,

도2는, 유성음의 파형을 나타내는 그래프,

도3은, 유성음의 양자화 오차의 파형을 나타내는 그래프,

도4는, F₀/F₁률을 이용한 음성파형 압축의 예를 나타내는 그래프,

도5는 본 발명의 압축방법의 흐름을 나타내는 도면이다.

따라서 본 발명은, 선형예측모델을 사용하지 않고 F₀/F₁(Fundamental Frequency/First Formant Frequency)률 파라미터를 이용하여 음성파형의 반복성을 제거하는 피치동기 파형 부호화법을 새로이 발명하였다. 여기서 Fundamental Frequency라 함은 기본 주파수라고 하며, 화자의 개성정보, 감정을 가지고 있는 주파수이고, First Formant Frequency는 성문에서 입술끝까지 말하는 성도의 공명 주파수를 가르킨다.

이하 본 발명의 구성 및 작용 등을 상세하게 설명한다.

음성신호는 음원에 따라 유성음, 무성음, 파열음으로 구분할 수 있다. 무성음의 경우에는 불규칙 잡음생성기가 그 여기원이므로 주기성은 나타나지 않지만, 주로 3㎑ 근방에서 공진 봉우리를 갖기 때문에 유성음에 비해 평균 영교차율이 크다. 유성음은 폐에서 올라온 공기가 성문을 통하여 배출될 때 생성되므로 공진을 수반한다. 그리고 성도에서의 공명으로 인하여 도2(a)처럼 에너지가 크고 준-주기적인 형태의 신호가 된다. 이를 주파수 영역에서 살펴보면 도2(b)와 같이 성도의 공명 봉우리에 음성신호의 기본주파수 F₀가 세세하게 나타내고 있다. 성도 공명 봉우리에 해당되는 주파수들을 포만트라고 하고 가장 낮은 주파수를 갖는 봉우리를 제1포만트 F₁이라 한다.

유성음에서는 F₁이 다른 포만트들보다 에너지가 약 10㏈이상 높다. 때문에 이를 시간영역으로 표현하면 F₁의 영향이 주로 나타나며 한 피치구간에서 ZCI(Zero Crossing Interval)의 역수는 2F₁의 주파수와 거의 같게 된다. 그리고 포만트들은 대역폭을 갖게 되므로 시간영역에서의 한 피치구간에서는 감쇄진동을 하게 된다.

성문특성 g(n) 즉 허파로부터 방출되는 준주기적인 펄스는 유한 길이이므로 전극 모델이 바람직하게 되며, G(z) = z[g(n)]에 대해 이극형모델로 보통 모델링하고 있다. 그리고 방사의 효과는 R(z) = R₀(1-z^-1)로 나타낼 수 있으며, 이는 고역 필터로 동작하여 성도의 주된 공명효과를 강조시키게 된다. 결국, 유성음 s_v(n)은 성도와 성문특성이 시간영역에서 컨벌루션된 것으로 나타난다.

s_v(n) ≒ h(n)*g(n) (1)

주파수 영역에서의 음성신호의 기본주파수는 40~400㎐범위에 존재하고, 제1포만트의 주파수는 200~800㎐ 사이에서 존재하는 것으로 알려져 있기 때문에 유성신호의 F₁/F₀의 비율은 1~20사이에서 거의 정수값이 된다. 시간 영역에서의 유성음은 기본주파수의 한 주기 표본수은 20에서 200의 샘플사이에서 값이 존재하고, 제1포만트 주파수의 한 주기 표본수은 10에서 32샘플사이에 값이 존재하는 구간으로 한정할 수 있다.

M비트로 선형 양자화된 음성신호 s(n)은 다음과 같이 나타낼 수 있다.

여기서 Q_L은 음성신호를 (M-N)비트로 부호화할 때 발생하는 양자화 오차이다.

유성음 파형의 경우에 낮은 쪽 포만트는 높은 쪽의 포만트에 비해 에너지가 아주 높다. 따라서 도3(b)와 같이 에너지가 우세한 기본주파수와 제1, 2포만트 성분들은 Q_L의 최대진폭을 유지하게 된다. 한편 에너지가 낮은 고차의 포만트들은 Q_L의 진폭범위내에서 파형의 빠른 변화를 이루게 된다. 양자화 오차 Q_L의 또 다른 특징은 진폭변화의 범위가 2^N-1이내로 제한되어 정규화된 진폭특성을 얻게된다는 점이다. 이것은 시간영역에서 파형진폭의 변동에 따른 피치주기 검색에 미치는 영향을 감소시킬 수 있다. 양자화 오차 Q_L을 사용하여 저역특성이 강한 제1, 2 포만트 위주의 정규화 파형을 추출하여 도3(c)에 나타내었다.

도4는 F₀/F₁률을 이용한 원래의 음성파형과 압축된 파형과 복원된 음성파형을 나타낸다.

도5는 본 발명에서 제안한 처리블럭도이다.

블럭도에서, 부호화단에서 음력음성을 프레임단위 예를 들어 30㎳ 단위로 나눈 다음에 그 프레임에 대해서 유성음과 무성음 구간으로 나눈다. 그리고 유성음에 대해서만 음성파형분석 프레임에서 처음 나타나는 피치 구간을 대표 피치구간으로 설정한 다음 각각의 피치구간에 대해 F₀/F₁률을 측정한다. 그런 다음 상관값을 계산한다. 이 과정은 유성음 프레임내에 각 피치구간별 F₀/F₁율을 비교하여 압축여부를 결정하기 위한 것이다.

R_r-R_t= D (3)

R_r: 대표피치의 F₀/F₁율, R_t: 대상피치의 F₀/F₁율

(3)식에서 D가 0이면 압축하게 된다. 즉 대표피치의 F₀/F₁률과 같은 율이 나오는 피치 구간에 대해서는 그 피치구간을 삭제하는 방법으로 데이터량을 압축하게 된다. 또한 D가 0이 아니라 일정한 값 이하가 되면 압축하는 방법을 사용하도 된다. 압축이 가능한 이 D의 값을 얼마로 결정하는 것은 응용되는 시스템에 따라 적당하게 조정할 수 있다.

무성음구간인 경우에는 데이터를 압축하지 않고 그 프레임 그대로 저장한다.

데이터 압축(Data Compression) 과정에서는 대표피치와 압축되는 대상 피치간의 구간차와 진폭차를 구하여 각각 2비트씩 PCM 양자화정보와 삭제된 대상피치구간의 위치와 개수를 헤더에 저장하여 전송 혹은 저장한다.

복호화과정에서는 먼저 프레임의 헤더를 검사하여 유성음인지 무성음인지를 확인하고, 무성음인 경우에는 그대로 복원하고, 유성음인 경우에는 그 프레임의 대표피치의 길이를 가지고 생략된 구간을 복원시킨다. 도5는 본 발명에서 제안한 처리블럭도이다.

상기와 같이 기존의 음성압축방식에 주류를 이루는 선형예측 모델링이 갖는 문제점을 극복하기 위하여 음성파형이 갖는 유사성을 F₀/F₁률 파라미터로 측정하여 음성파형의 반복성을 제거하는 본 발명에 의한 음성을 압축/복원하였을 때의 MOS(Mean Opinion Score : 주관적 음질평가 수단) 수치가 표 1에 나타나있다.

이 MOS수치가 4.0 이상일 때, 평균 64.14%의 압축률을 얻을 수 있다. 또한 주관적인 음질의 열화를 느끼지 못한다.

따라서, 음질의 열화없이 계산시간을 대폭 줄일 수 있게 되었으므로 이동통신분야 및 그외의 음성압축을 이용한 응용분야에서 배터리 수명 연장 및 실시간 처리의 구현에 이용이 가능하게 된다.

[표 1]

Claims

음성파형를 일정한 크기의 프레임으로 나누는 과정과, 상기 일정한 크기로 나누어진 음성파형이 유성음인지를 판단하는 과정과, 유성음이라면 프레임내의 처음 구간의 F₁/F₀비를 구하고, 계속되는 파형의 다음 구간의 F₁/F₀비의 차가 소정의 값 이하이면 해당구간의 신호를 처음 구건의 신호가 동일할 것으로 보아 압축을 하고, 소정의 값 이상이면 압축하지 않는 과정으로 이루어진 피치 구간별 F₀/F₁률의 유사성에 의한 음성파형 압축방법.
제1항에 있어서, 소정의 값은 0인 것을 특징으로 하는 피치 구간별 F₀/F₁률의 유사성에 의한 음성파형 압축방법.