KR950001437B1

KR950001437B1 - 음성부호화방법

Info

Publication number: KR950001437B1
Application number: KR1019900022112A
Authority: KR
Inventors: 윤석현
Original assignee: 삼성전자주식회사; 정용문
Priority date: 1990-12-28
Filing date: 1990-12-28
Publication date: 1995-02-24
Also published as: KR920013944A

Abstract

내용없음.

Description

음성부호화방법

제1도는 본 발명에 의한 음성부호화방법을 수행하는 합성루프도.

제2도는 제1도에 따른 음성부호화 합성루프에서의 파형도.

제3도는 본 발명에 의한 음성부호화 방법의 흐름도.

* 도면의 주요부분에 대한 부호의 설명

10 : 에러최소화부 20 : 여기발생부

30 : 선형예측합성부 40 : 감산기

본 발명은 음성부호화방법에 관한 것으로서, 특히 MPE(Multi-Pulse Exitation; 다중펄스여기)방식의 6.5Kbps 비트율을 가지는 음성부호화방법에 관한 것이다.

종래 일반적인 음성부호화 방식은 파형부호화 방식과 보코딩(Vocoding)방식으로 구분할 수 있는 바, 파형부호화 방식은 음성신호 자체를 양자화하여 원신호와 유사한 파형을 재생하는 부호화방식이며 PCM(Pulse Code Modulation), DM(Delta Modulation)방식등이 이에 해당한다.

한편, 보코딩방식은 음식신호가 음원에 따라 여진(勵振)된 공명계의 출력으로 간주되는 것에 착안하여 음성신호를 음원 및 공명계의 특성을 나타내는 몇개의 파라미터로 분해하여 전송하고 수신측에서는 이들 파라미터에 따라 원래의 음성신호를 합성하는 방식이다.

이와 같이 보코딩방식은 음성신호의 발생모델을 기본으로 하여 채널보코더, 포먼트 보코더, 그리고 선형예측보코더 등으로 구분할 수 있다.

기존의 보코더 방식은 공통적으로 선형예측부호화 기법을 이용하여 계수들을 구하며, 이러한 보코딩방식의 주된 차이점은 합성음을 만들기 위하여 합성필터를 여기시킬 여기신호들을 구하는 방법에 의하여 결정되어진다.

그런데, 선예측부호화 보코딩방식은 유/무성음 결정과정을 거쳐 구해진 유/무성음 정보를 이용하여 합성필터를 구동할 여기신호를 만들게 되는 바, 이렇게 하여 구해진 합성음은 외부잡음에 영향을 많이 받게 되고 피치의 여기 신호에러 및 유/무성음 결정에러가 많을 뿐만 아니라 화자에 따라 성능의 변화가 심하다. 또한 파형부호화 방식의 경우 16Kbps 이하의 전송속도에서는 급격한 음질의 저하를 보이는 문제점이 있었다.

따라서 본 발명은 상기 문제점들을 해결하기 위하여 창출한 것으로서, 선형예측부호화 보코더가 가지는 부자연스러운 버즈(Buzz)음 등의 음질저하와 아날로그전화가 가지는 도청문제를 해결하기 위하여 MPE방식을 이용한 음성부호화방법을 제공하는데 그 목적이 있다.

상기 목적을 달성하기 위하여 본 발명은, 음성부호화방법에 있어서, 8Khz로 표본화된 음성신호에 대한 8개의 반사계수를 구하기 위하여 2400bps LPC보코더와 공통적으로 180샘플의 음성입력신호(SPCH)를 로드시키고; 이를 해밍윈도우를 취하고, 자동상관관계와 더빈 알고리즘을 사용하여 처리하고, 상기 8개의 반사계수를 양자화하고 선형예측합성을 수행하고, 다중펄스를 구하기 위하여 나뉘어진 다중펄스 중 4개의 프레임 펄스에서 45샘플의 데이타로 주기로 하여 4번 루프를 돌며 180샘플의 데이타를 처리하고, 상기 45샘플의 데이타에서 구해진 22개의 짝수위치(0,2,4,…,44)를 사용하여 3개의 위치를 구하고, 루프가 NP=3번째 루프인가 인지하고 (S(n)h(n-d₁))²을 구하기 위해 저장된 EXC(0)-CXC(44)와 임펄스응답인 IR(0)-IR(44)를 곱하고, 이를 합성하여 22개의 SPCH1(0)-SPCH1(21)를 구하고 이를 제곱하여 MEM(0)-MEM(21)에 저장하고, 상기 MEM(0)-MEM(21)와 1/h²(n-d₁)인 DN(0)-DN(21)를 곱하여 이를 다시 MEM(0)-MEM(21)에 저장하고, 상기 구해진 MEM(0)-MEM(21)중에서 가장 큰 값을 장소를 구하여 이를 다중펄스의 위치로 하고, 상기 구해진 다중펄스의 위치를 i라 할 때, 다중펄스크기(PAMP)는 SPCH(i)*DN(i)로 구하고, 상기 45샘플의 다중펄스프레임 중 첫번째 펄스를 구하고, 이를 기초로 하여 앞으로 구할 두개의 펄스를 위해 삭제되고, RMS이득(PAMP(i)²/3)^1/2을 계산하고 상기 구해진 다중펄스의 위치에서 2를 곱한 포인트를 0, 그리고 0으로 44까지의 갯수를 K라 하면 음성입력신호가 저장되어 있는 EXC(1)-EXC(44)에 펄스크기*임펄스응답(IR(0)-IR(K-1))를 감산하여 다시 EXC(1)-EXC(44)에 저장하고, 루프수를 하나 줄여 NP가 ＂0＂인가를 판단하고, 상기 NP가 ＂0＂이 아니면 상기 (S(n)h(n-d₁))²을 구하기 위해 저장된 EXC(0)-EXC(44)와 임펄스응답인 IR(0)-IR(44)를 곱하는 단계로부터 계속하여 반복하고, NP가 ＂0＂이면 모든 과정을 종료하여 원음성 입력신호와 유사한 신호를 구함을 특징으로 한다.

이하, 첨부한 도면을 참조하여 본 발명을 상세히 기술하기로 한다.

제1도는 본 발명에 의한 음성부호화 방법을 수행하는 합성루프도이다.

제1도에 의하면, 본 발명에 음성부호화 방법을 수행하기 위해서는 음성입력신호 중에 포함된 에러신호를 최소화하는 에러최소화부(10)와, 에러최소화부(10)에서 에러신호의 최소화된 음성신호를 받아 여기신호를 발생하는 여기발생부(20)와, 여기발생부(20)에서 출력되는 여기신호의 선형예측합성을 수행하는 선형예측합성부(30)와, 선형예측합성부(30)에서 출력되는 음성신호와 원래의 음성신호를 감산하는 감산기(40)를 포함하여야 한다.

상기한 바와 같은 합성루프를 갖는 본 발명의 음성부호화 방법을 설명하면 다음과 같다.

본 발명의 MPE음성부호화 방법과 기존의 LPC(Linear Prediction Coding)보코딩 방법과의 주된 차이점은 합성음을 만들기 위하여 합성필터를 여기시킬 여기신호들을 구하는 방법에 있다. LPC보코딩방식은 경우 유/무성음 결정과정을 거쳐 구해진 유/무성음 정보를 이용하여 합성필터를 구동할 여기신호를 만들게 되는데 비하여, 본 발명의 MPE음성부호화방법은 원래의 음성입력신호와 합성된 출력신호간의 오차를 감소시켜줌으로서 원하는 여기신호를 구할 수 있게 된다.

이때, 출력신호의 경우는 여기신호의 입력(u'(n))과 선형예측합성필터의 임펄스응답인 h(n)의 중첩으로 나타낼 수 있으며 이를 이용하여 오파를 감소시키는 관계식은 원래의 음성 입력 신호를 S(n)이라 할 때, 하기 식 1과 같다.

또한, 어떤 위치에 존재하고 있는 첫번째 펄스의 위치를 d1이라 할 때 오차감소관계식은 하기 식 2와 같다.

상기 식 2에서 오차가 최소화되는 지점을 찾아 이를 펄스의 위치로 정하여 펄스의 진폭을 구하게 되는데, 이에 대한 파형은 제2a~h도에 도시되어 있다. 제2a~h도의 180샘플의 LP한 프레임을 45샘플씩 4개의 주기로 나누어 다중펄스의 위치와 진폭을 구하는 과정을 나타낸 파형도인데 (a) 파형은 원래의 음성신호를 나타내고 (b) 파형은 임펄스응답을 나타낸다.

한편, 상기 식 2를 이용하여 45샘플의 음성입력신호중에 3개의 펄스위치와 진폭을 구하기 위해서는 먼저 첫번째 구한 위치의 진폭 u(d1)과 임펄스응답 h(n-d1)을 곱하여 제2d도의 파형을 도출한다. 또한, 원래의 입력신호파형(a)에서 파형(d)를 감산하면 (c)파형을 구할 수 있고, 다시 (c)파형을 입력으로 하여 펄스위치의 진폭에 임펄스응답을 곱하면 (f)파형을 구하게 된다. 이와 같이 (f)파형을 구하게 되면 파형(c)에서 (f)파형을 감산하여 (e)파형을 구하고, 이러한 (e)파형을 입력하여 펄스위치의 진폭에 임펄스응답을 곱하여 (h)파형을 구하게 된다. 그리고, 파형(e)에서 (h)파형을 감산하므로서 원래의 음성입력신호와 유사한 신호를 획득할 수 있게 된다.

상기한 바와 같이 원래음성입력신호와 유사한 신호를 획득하는 과정을 제3도에 도시된 본 발명에 의한 음성부호화 방법의 흐름도로서 설명하면 다음과 같다.

8kHz로 표본화된 음성신호에 대한 8개의 반사계수를 구하기 위하여 2400bps LPC보코더와 공통적으로 180샘플의 음성입력신호(SPCH)를 로드시켜(1단계) 해밍윈도우를 취한 다음(2단계) 자동상관 관계와 더빈알고리즘을 사용하여 처리한다(3,4단계). 상기 제3, 4단계를 수행한 후에 구해진 8개의 반사계수는 양자화되어(5단계) 제1도에 도시된 선형예측합성부(30)로 전송된다. 다중펄스를 구하기 위하여 나뉘어진 다중펄스 중 4개의 프레임펄스에서 45샘플의 데이타로 주기로 하여 4번 루프를 돌며 180펄스의 데이타를 처리하는 단계를 수행하게 되는 바, 45샘플의 데이타에서 구해진 22개의 짝수위치(0,2,4,…,44)를 사용하여 3개의 위치를 구하게 되며 그 단계는 다음과 같다.

제5단계를 수행한 후에 루프가 NP=3번째 루프인가 인지하고(6단계)(S(n)h(n-d1))²을 구하기 위해 저장된 EXC(0)-EXC(44)와 임펄스응답인 R(0)-IR(44)를 곱하여(7단계) 이것을 합성하여 22개의 SPCH(0)-SPCH(21)를 구하고 이를 제곱하여 MEM(0)-MEM(21)에 저장한다(8단계).

제8단계에서 구한 MEM(0)-MEM(21)와 1/h²(n-d₁)인 DN(0)-DN(21)를 곱하여 이를 다시 MEM(0)-MEM(21)에 저장한다(9,10단계).

상기 제10단계에서 구해진 MEM(0)-MEM(21) 중에서 가장 큰 값의 장소를 구하면, 이 장소가 다중펄스의 위치가 되는 것이다(11단계).

상기 제11단계에서의 위치를 i라 할 때 다중펄크기(PAMP)는 SPCH(i)*DN(i)로 구해진다(12단계). 상기 제12단계를 수행하면 45샘플의 다중펄스프레임 중 첫번째 펄스를 구할 수 있고 이미 구해진 펄스는 앞으로 구할 두개의 펄스를 위해 삭제되어야 하며 그 단계는 다음과 같다.

상기 제12단계를 수행한 후에 RMS이득=PAMP(i)²/3)^1/2을 계산하고(13단계) 제11단계에서 구한 장소에서 2를 곱한 포인터를 0 그리고 0으로부터 44까지의 갯수를 K라 하면 음성입력신호가 저장되어 있는 EXC(1)-EXC(44)에 펄스크기*임펄스응답(IR(0)-IR(K-1))를 감산하여 이 값을 다시 EXC(1)-EXC(44)에 저장하게 된다(14단계).

상기 제14단계를 수행한 후에 루프수를 하나 줄여(15단계)NP가 ＂0＂인가를 판단한다(16단계). 상기 제16단계에서 NP가 ＂0＂이 아니면 제7단계로 복귀하고 ＂0＂이면 프로그램을 종료한다.

상술한 바와 같이 MPE방식을 이용한 본 발명의 음성부호화 방법은 비트율을 종래의 복합부호화 방식보다 낮출 수 있어 제한된 대역폭에서의 적용이 더욱 용이하고 LPC보코딩방식에 비해 유/무성음 결정에 의한 여기신호를 만들지 않고 원신호와 합성된 신호간의 오차를 최소화하여 다중펄스를 이용하여 합성필터를 구동함으로써 피치의 여기신호에러를 줄이고 음질에서의 버즈(Buzz)음이 줄어드는 효과가 있다.

Claims

음성부호화 방법에 있어서,

8Khz로 표본화된 음성신호에 대한 8개의 반사계수를 구하기 위하여 2400bps LPC보코더와 공통적으로 180샘플의 음성입력신호(SPCH)를 로드시키고, 이를 해밍윈도우를 취하고, 자동상관관계와 더빈 알고리즘을 사용하여 처리하고, 상기 8개의 반사계수를 양자화하고 선형예측합성을 수행하고, 다중펄스를 구하기 위하여 나뉘어진 다중펄스 중 4개의 프레임펄스에서 45샘플의 데이타로 주기로 하여 4번 루프를 돌며 180샘플의 데이타를 처리하고, 상기 45샘플의 데이타에서 구해진 22개의 짝수위치(0,2,4,…,44)를 사용하여 3개의 위치를 구하고, 루프가 NP=3번째 루프인가 인지하고 (S(n)h(n-d₁))²을 구하기 위해 저장된 EXC(0)-CXC(44)와 임펄스응답인 IR(0)-IR(44)를 곱하고, 이를 합성하여 22개의 SPCH1(0)-SPCH1(21)를 구하고 이를 제곱하여 MEM(0)-MEM(21)에 저장하고, 상기 MEM(0)-MEM(21)와 1/h²(n-d₁)인 DN(0)-DN(21)를 곱하여 이를 다시 MEM(0)-MEM(21)에 저장하고, 상기 구해진 MEM(0)-MEM(21)중에서 가장 큰 값의 장소를 구하여 이를 다중펄스의 위치로 하고, 상기 구해진 다중펄스의 위치를 i라 할 때, 다중펄스크기(PAMP)는 SPCH(i)*DN(i)로 구하고, 상기 45샘플의 다중펄스프레임 중 첫번째 펄스를 구하고, 이를 기초로 하여 앞으로 구할 두개의 펄스를 위해 삭제되고, RMS이득(PAMP(i)²/3)^1/2을 계산하고 상기 구해진 다중펄스의 위치에서 2를 곱한 포인트를 0, 그리고 0으로 44까지의 갯수를 K라 하면 음성입력신호가 저장되어 있는 EXC(1)-EXC(44)에 펄스크기*임펄스응답(IR(0)-IR(K-1))를 감산하여 다시 EXC(1)-EXC(44)에 저장하고, 루프수를 하나 줄여 NP가 ＂0＂인가를 판단하고, 상기 NP가 ＂0＂이 아니면 상기 (S(n)h(n-d₁))²을 구하기 위해 저장된 EXC(0)-EXC(44)와 임펄스응답인 IR(0)-IR(44)를 곱하는 단계로부터 계속하여 반복하고, NP가 ＂0＂이면 모든 과정을 종료하여 원음성 입력신호와 유사한 신호를 구함을 특징하는 음성부호화방법.