KR100437900B1

KR100437900B1 - 음성코덱의음성데이터복원방법

Info

Publication number: KR100437900B1
Application number: KR1019960071319A
Authority: KR
Inventors: 박태홍
Original assignee: 엘지전자 주식회사
Priority date: 1996-12-24
Filing date: 1996-12-24
Publication date: 2004-09-04
Also published as: EP0851407A3; EP0851407A2; KR19980052339A

Abstract

본 발명은 음성 코덱의 음성 데이터 복원 방법에 관한 것으로 특히, 양자화된 샘플링 데이터를 원래의 샘플 데이터로 복원 궤환함에 있어 샘플간의 빈공간에 인접한 샘플의 평균값을 갖는 샘플을 채우도록 하여 입력 샘플중 최적의 샘플을 선택할 수 있도록 창안한 것이다. 이러한 본 발명은 소정 갯수의 디지털화된 음성 데이타를 13개의 샘플 데이터로 압축하여 전송하는 음성 코덱에 있어서, 13개의 샘플에 대하여 인접한 샘플간의 평균 샘플값을 구하는 단계와, 상기에서 13개 샘플을 배치하는 단계와, 상기에서 12개의 평균 샘플을 13개 샘플이 배치된 빈공간에 배치하는 단계와, 상기에서 샘플이 배치된 나머지 공간에 가장 근접한 공간에 배치된 평균 샘플을 채우는 단계를 반복 수행한다.

Description

음성 코덱의 음성 데이터 복원 방법

본 발명은 음성 코덱에 관한 것으로 특히, 양자화된 샘플링 데이터를 원래의 샘플 데이터로 복원 궤환하도록 한 음성 코덱의 음성 데이터 복원 방법에 관한 것이다. 일반적인 음성 코덱은 도1 의 블럭도에 도시된 바와 같이, 40개의 음성 샘플(x(k))를 입력으로 최적의 음성 샘플 13개를 선택하는 그리드 선택부(110)와, 이 그리드 선택부(110)의 13개의 음성 샘플을 입력으로 룩업 테이블에 의해 양자화하는 양자화기(120)와, 이 양자화기(120)의 출력 데이타를 룩업 테이블에 의해 13개의 음성 샘플로 복호하는 역양자화기(130)와, 이 역양자화기(130)에서 복원된 13개의 음성 샘플을 입력으로 원래의 40개의 샘플로 복원하여 궤환시키는 그리드 복원부(140)로 구성된다.

이러한 일반적인 음성 코덱의 동작 과정을 설명하면 다음과 같다.

일반적으로 음성 코덱에는 PRE-LTP(;Regular Pulse Excited Long Predictive Coding) 알고리즘을 사용하는데, 이는 선형 예측 코딩(LPC) 해석 및 short term 해석 필터에 의하여 레벨이 작은 잔여 신호를 결정하며 레벨이 큰(long term) 신호의 예견에서 그리드(grid)간의 피치를 계산한 이득과 지연(lag)으로 제거하는 알고리즘이다.

먼저, 160개 샘플에서 서브 프레임 단위로 분할된 40개의 샘플을 그리드 선택부(110)에 입력시키면 추림(decimation)한 후 평균 제곱 오차 방식으로 13개의 샘플을 선택하여 양자화기(120)에 전송하게 된다.

이에 따라, APCM 양자화기(120)는 그리드 선택부(110)의 13개의 샘플을 룩업 테이블을 이용하여 양자화하고 그 양자화된 데이터를 디코더에 전송하게 된다.

이때, APCM 역양자화기(130)는 양자화기(120)의 근사화된 13개의 데이터를 룩업 테이블을 이용하여 13개의 샘플로 복호하게 된다.

따라서, 그리드 복원부(140)는 역양자화기(130)에서 복호된 13개의 샘플을 업-샘플링(Up-Sampling)하여 원래의 40개의 샘플을 복원하는데, 13개 샘플사이의 빈공간에 '0'을 채워 원래의 40개 샘플을 복원한다.

이에 따라, 그리드 복원부(140)에서 복원된 40개의 샘플을 신호 처리하여 그리드 선택부(110)에 궤환시킴에 의해 상기 그리드 선택부(110)가 평균 제곱 오차방식으로 다음에 입력되는 40개의 샘플중 13개의 최적 샘플을 선택하게 된다.

그러나, 종래의 기술은 그리그 복원부(140)에서 업-샘플링할 때 12개 샘플사이의 빈공간에 '0'을 채워 원래의 40개 샘플을 복원하여 그리드 선택부(110)로 궤환시킴으로써 많은 음성 데이터 정보가 손실되어 최적 특성의 음성 샘플을 추출하지 못하는 단점이 있다.

본 발명은 종래 기술의 단점을 개선하기 위하여 양자화된 샘플링 데이터를 원래의 샘플 데이터로 복원 궤환함에 있어 샘플간의 빈공간에 인접한 샘플의 평균값을 갖는 샘플을 채우도록 하여 입력 샘플중 최적의 샘플을 선택할 수 있도록 창안한 음성 코덱의 음성 데이터 복원 방법을 제공함에 목적이 있다.

도 1은 일반적인 음성 코덱의 블럭도.

도 2는 본 발명에서 그리드 복원부의 동작을 보인 예시도.

도 3은 본 발명에서 업-샘플링된 호보를 보인 예시도.

***도면의 주요 부분에 대한 부호의 설명***

110 : 그리드 선택부 120 : 양자화기

130 : 역양자화기 140 : 그리드 복원부

본 발명은 상기의 목적을 달성하기 위하여 디지털화된 음성 데이타를 소정 갯수의 샘플 데이터로 압축하여 전송하는 음성 코덱에 있어서, 소정 갯수의 샘플에 대하여 인접한 샘플간의 평균 샘플값을 구하는 단계와, 상기 소정 갯수의 샘플을 그리드 상에 일정 간격으로 배치하는 단계와, 상기에서 구한 평균 샘플값 각각을 소정 갯수의 샘플이 배치된 빈공간에 배치하는 단계와 상기에서 샘플이 배치된 나머지 공간에 가장 근접한 공간에 배치된 평균 샘플을 채우는 단계를 반복 수행한다.

이하, 본 발명을 도면에 의거 상세히 설명하면 다음과 같다.

본 발명을 위한 음성 코덱은 도1 의 블럭도와 동일하게 그리드 선택부(110),양자화기(120), 역양자화기(130), 그리드 복원부(140)으로 구성하며, 상기 그리드 복원부(140)는 역양자화기(130)의 13개 샘플을 추림함에 의해 인접 샘플간의 평균값을 구하고 그 평균 샘플들 13개 샘플간의 빈공간에 배치하여 40개의 샘플을 복원하도록 구성한다.

이와같이 구성한 본 발명의 실시예에 대한 동작 및 작용 효과를 설명하면 다음과 같다.

본 발명은 종래와 동일하게 160개 샘플을 40개씩 분할하여 각각의 40개 샘플을 그리드 선택부(110), 양자화기(120)을 통해 최적의 13개 샘플에 대한 근사화한 음성 데이터를 디코더에 전송하며, 상기 양자화기(120)의 음성 출력 데이터를 역양자화기(130)에서 13개 샘플로 복호하면 그리드 복원부(140)는 업-샘플링함에 의해 40개 샘플을 복원하여 상기 그리드 선택부(110)에 궤환시킴으로써 다음에 입력되는 40개 샘플중에서 13개의 최적 샘플을 선택하게 한다.

상기에서 최적의 후보를 선택할 때의 그리드 번호를 Mc 라 하면 각각의 그리드(Mc[0..2])에는 13개의 샘플이 존재하는데, 그리드 복원부(140)가 그 13개의 최적 샘플간의 평균값을 구하여 그 13개의 샘플간의 빈공간에 배치함에 의해 40개의 샘플을 복원하게 된다.

이러한 과정은 다음과 같은 4단계로 이루어진다.

첫째 단계에서 13개 샘플에 대하여 인접 샘플간의 평균값(f(k))을 아래와 같은 식으로 구한다.

예를 들어, 그리드 번호(Mc)가 '0'인 경우 '0'번째와 '3'번째 샘플에 대한 평균값(f(0))를 구하면 다음과 같다.

둘째 단계에서 각각의 그리드(Mc[0..3])를 이루는 각각의 13개의 샘플(x[0...12])을 아래의 식과 같이 각 그리드(Mc)의 해당 위치(e[0...39])에 삽입한다.

이에 따라, 도3 (a) 내지 (d)와 같이 각 그리드(Mc[0..3])에 13개의 샘플이 배치된다.

셋째 단계에서 각각의 그리드(Mc[0..3])에 배치된 13개의 샘플간의 빈 공간에 상기 첫째 단계에서 구한 평균값(f(k))을 배치한다.

그 때의 삽입 위치는 아래의 식으로 연산하며 각각의 샘플간의 빈공간에는 동일한 평균값이 2개 삽입된다.

예를 들어, 그리드 번호(Mc)가 '0'인 경우 샘플(x[0], x[3])간의 빈공간에는 평균값"f(0) = (x[0]+x[3])/2"이 두번 삽입된다. 즉, 샘플(x[0], x[3])사이에는 삽입 위치가 2개 있다.

이상과 같은 단계를 수행하면 각 그리드에는 13개의 샘플과 그 샘플로부터의 평균값이 채워진다.

허나, 각 그리드(Mc[0..3])마다 37개의 삽입 위치만이 채워진다.

따라서, 아래와 같은 식과 같이 네째 단계를 수행하여 남은 공간을 채우게 된다.

예를 들어, 도3 (a)에서 채워지지 않은 공간(e[37..39])는 평균값(f[11])로 채우게 된다.

여기서, f[0...11] 은 평균된 최적 샘플, e[0...39] 는 피치와 이득 파라미터를 고려하지 않은 합성된 나머지이다.

다시 말해서, 그리드 복원부(140)는 역양자화기(130)에서 각 그리드(Mc[0..3])의 13개 샘플을 입력으로 상기와 같은 단계를 수행하여 각각 40개샘플을 복원한 후 그리드 선택부(110)에 궤환시키게 된다.

상기에서 처리 속도는 기존과 동일한 13Kbps 이다.

상기와 같은 본 발명은 디코더에도 동일한 알고리즘을 구현하면 부호화된 음성 데이터에서 최적의 음성 신호를 복호할 수 있다.

상기에서 상세히 설명한 바와 같이 본 발명은 처리 속도를 증가함이 없이 최적의 샘플을 복원함으로써 디코더에서 최적의 음성 신호를 복호할 수 있는 효과가 있다.

Claims

소정 갯수의 디지털화된 음성 데이타를 임의의 갯수의 샘플 데이터로 압축하여 전송하는 음성 코덱에 있어서, 임의의 갯수의 샘플에 대하며 인접 샘플간의 평균값을 구하는 제1 단계와, 상기에서 임의의 갯수의 샘플을 그리드상에 일정 간격으로 배치하는 제2 단계와, 상기에서 임의의 갯수의 샘플간의 빈공간에 상기 평균화된 샘플을 삽입하는 제3 단계와, 상기에서 샘플이 배치된 나머지 공간에 가장 근접한 평균 샘플을 삽입하는 제4 단계를 반복 수행함을 특징으로 하는 음성 코덱의 음성 데이터 복원 방법.
제1항에 있어서, 제3 단계는 아래와 같은 과정을 수행하는 것을 특징으로 하는 음성 코덱의 음성 데이터 복원 방법.

여기서, Mc 는 그리드 번호, f[k]는 평균값, e[k]는 해당 그리드의 삽입 위치이다.