KR0137472B1 - 오디오 신호 코딩 방법 - Google Patents

오디오 신호 코딩 방법

Info

Publication number
KR0137472B1
KR0137472B1 KR1019890020041A KR890020041A KR0137472B1 KR 0137472 B1 KR0137472 B1 KR 0137472B1 KR 1019890020041 A KR1019890020041 A KR 1019890020041A KR 890020041 A KR890020041 A KR 890020041A KR 0137472 B1 KR0137472 B1 KR 0137472B1
Authority
KR
South Korea
Prior art keywords
group
frequency
signal
generating
frequency coefficients
Prior art date
Application number
KR1019890020041A
Other languages
English (en)
Other versions
KR900011162A (ko
Inventor
린드레이 홀 2세 죠셉
데이빗 죤스턴 제임스
Original Assignee
존 제이. 키세인
에이티 앤드 티 코퍼레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 존 제이. 키세인, 에이티 앤드 티 코퍼레이션 filed Critical 존 제이. 키세인
Publication of KR900011162A publication Critical patent/KR900011162A/ko
Application granted granted Critical
Publication of KR0137472B1 publication Critical patent/KR0137472B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M1/00Analogue/digital conversion; Digital/analogue conversion
    • H03M1/12Analogue/digital converters
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • H03M7/40Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code
    • H03M7/42Conversion to or from variable length codes, e.g. Shannon-Fano code, Huffman code, Morse code using table look-up for the coding or decoding process, e.g. using read-only memory
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Analogue/Digital Conversion (AREA)

Abstract

내용없음.

Description

오디오 신호의 순차 처리 방법 및 그 처리 방법에 의해 제조된 기억 매체와, 오디오 신호 전송 방법
제 1 도는 본 발명의 스테레오에 대한 양호한 실시예를 도시한 블럭도.
제 2 도는 제 1 도의 스테레오 코더와 유사한 단청 코더를 도시한 블럭도.
제 3a 도 내지 제 3d 도는 본 발명을 설명하는데 유용한 특성도.
제 4 도는 무노이즈 코딩을 이용하는 비트 비율 계산 과정의 흐름도.
제 5 도 및 제 6 도는 무노이즈 코딩에 관련된 세부 상황을 예증한 도면.
제 7도 및 제 8 도는 제 2 도 및 제 1 도의 실시예에 대한 디코더를 도시한 블럭도.
* 도면의 주요부분에 대한 부호의 설명
11 : 좌 및 우 신호원15,16 : 산술 회로
17,18 : 윈도우 및 FFT21,41 : 스레솔드 계산 회로
22,42 : 양자기23,43 : 허프만 압축 및 비트 팩킹
51 : 파워 스펙트럼
본 발명은 스테레오 음향 신호와 같은 오디오 신호의 인지 가능한 코딩에 관한 것이다.
오디오 신호의 재생 특성이 향상된 상품의 수요로, 거의 본래의 신호 특성을 보존할 수 있는 디지탈 기술이 활발하게 투자되어 왔다. 통상적인 디지탈 코딩의 간단한 응용으로 테이타율이 초과되므로, 허용 가능한 데이타 압축 기술이 요구되었다.
상기 기술중 한 기술은 미합중국 음향 학회지, 볼륨 66페이지 1647 내지 1652(1979. 12)의 엠.알.슈뢰더 등의 논문인 인체의 귀에 대한 마스킹 특성을 개선하여 디지탈 음향 코더 최적화에 기술되어 있으며, 최근의 상기 기술중 한 기술은 소비자 일렉트로닉스에 관한 IEEE보고서, 볼륨 CE 33, 번호 44, 1987. 11에서 이. 에프. 슈뢰더 등의 논문인 MSC : CD 특성 및 256 K bit/sec로 스테레오 오디오 코딩으로 기술되어 있다. 이 장치에서는 용장도를 감소하며, 마스킹의 신호 종속 스레솔드 이하의 양자화 노이즈를 유지하도록 음향심리(psychoacoustic) 처리 과정으로 변형 코딩 이용이 제안되어 있다. 후자의 요구는 양자화 처리 과정이 다른 정밀도로 인코더되도록, 즉 비트 할당에 의해 모든 값을 양자화한다. 이 장치의 기술에 의해 획득된 결과는 음색-마스킹-노이즈 음향심리 스레솔드(threshold)의 이용에 의해 획득될 수 있는 결과와 유사하다.
본 발명의 한 특성은 인코드된 신호의 특성이 순수하게 유사 음색이 아니라는 것과 더 나은 음향심리 스레솔드가 음색 마스킹 노이즈 및 음색을 마스킹하는 노이즈에 대한 각각의 스레솔드의 기하학적 보간을 이용하기 위해 단 주기 스펙트럼에 기초된 색조 한도에 의해 결정된 보간 인자를 가지고 슈뢰더(Schroeder) 등의 과정을 수정해서 구할 수 있음을 기초하고 있다. 본 발명의 상기 특성은 통신에 있어서 선택적 영역에 관한 IEEE논문 1988년. 2월. 제이. 디. 죤스톤(J.D. Johnston)에 의한 인지 가능한 노이즈 표준을 이용한 오디오 신호의 변형 코딩에서 서술되어 있다.
본 발명의 다른 특성은 신중히 설계된 양자화된 데이타의 무노이즈 코딩이 코딩 벡터의 성분 사이에 폭 넓게 확산되도록 여분의 코딩 비트에 대한 개선된 해상도 장점을 갖도록 하는데 기초하고 있다.
본 발명의 또다른 특성은 내부 채널 용장도, 음향 혼합 및 스테레오 변환/기록 처리 과정으로부터 발생한 다른 용장도를 감소시키는 것에 관한 것이다.
본 발명의 다른 특성 및 장점들은 도면을 참조하여 다음의 상세한 설명으로부터 명확해질 것이다.
제 1 도의 실시예에 있어서, 좌 및 우 신호원(11)은 스테레오 디지탈 오디오 신호 코딩 방법에 이용된 종래 기술로 구성된다. 이들 신호는 저역 통과 필터 및 샘플러 회로의 각 채널에 인가되어지며, 각각의 신호는 선정된 동일 비율로 샘플된다. 상기 샘플링과 대역폭 비율은 15KHz 설계 대역폭에 대해 32KHz 와 20KHz 설계 대역폭에 대해 44.1KHz 이며, 고충실도의 비율이 된다. 상기 대역폭과 샘플링 비율에 대해 제 1도의 코더로부터 허용할 수 있는 전체 비트 비율 결과는 128Kb/s 및 192Kb/s 가 되며, 이것은 2B 및 3B 비율로 ISDN 전송을 위한 요건을 만족시킨다. 제 1 도 및 제 2 도에서 도시된 바와같이 본 발명의 전형적인 다른 비율에 관해서는 표 1에 나타내었다.
상기 샘플된 신호는 각 샘플에 대해 디지탈 코드된 신호를 제공하는 신호원(11)내의 아날로그-디지탈 변환기의 각 채널에 인가되어진다. 그래서, 좌 및 우 신호는 산술 회로(15,16)의 합과 차 신호로 변환된다. 신호 인코딩용 오디오 공학 표준 포맷이 이용되는 것으로 가정하여, 각 채널중의 한 채널은 고 충실도(샘플당 16비트)를 제공하도록 충분한 정보를 보호하기 위해서 1411Kb/s정도로 요구된다.
처리 과정에서의 제 1 목적은 인체의 귀에 감지할 수 있는 방법으로 조절되는 코딩 스레솔드를 이용하여 실행하는데 있다. 스레솔드와 관련한 정보는 경제적으로 비트에 의하여 비교적 사이드(side)정보로써 전송되거나 기록된다. 이와같은 개념은 다수형의 코더로 실행될 수 있으며, 변형 코더가 대부분 직접적인 방법으로 표현되며 이하에서 더 분명히 될 것이다. 이 특별한 코더에서 사이드 정보는 양자화된 스레솔드 레벨 및 양자화된 스펙트럼 피크 레벨을 포함한다. 이 정보는 수신기나 재생기가 전송기 또는 기록기로 이용된 것과 같은 비트 할당을 회복하도록 하며, 비트 할당의 불필요성에 사이드 정보를 명백히 전송한다. 오버랩부(이하 참조)와 다른 코더에서 블록 대 블록 메모리가 존재하지 않으면, 급속한 시간 전이 문제가 용이하게 취급되어진다.
산술 회로(15,16)로부터의 각각의 합과 차 신호는 2048 실 데이타 포인트가 각각의 분석 기간내의 소정 시간에 어드레스되도록 윈도우 및 FFT(17,18)에서 처리된다. 이 처리과정을 윈도윙(windowing)이라 일컫는다. 오버랩 비율(1/16)로서, 각 블럭에서 처리된 다수의 새로운 데이타 포인트는 1920 이다. 남은 128 포인트는 이전의 블록으로부터 존재한다. 데이타의 집합은 주파수 함수로 표현되기 위해서 고속 퓨리에 변환된다. 따라서, 변환의 결과는 복소 스펙트럼의 1024 포인트로서 표현될 수 있다. 또한 윈도우 및 FFT(17,18)로부터 퓨리에 변환된 합 및 차 신호에 대한 스레솔드는 스레솔드 계산회로(21)에서 계산된다.
여기서, 제 2 도의 유사 단청 코더에 스레솔드 계산을 고려한다. 제 2 도에서의 소자는 제 1 도에서와 동일한 소자로 취급된다. 스레솔드 계산회로(41)는 제 3 도에서 예증된 것과 같이 동작된다. 제 3 도의 상부 좌측 다이어그램에 있어서, 음향심리로 공지된 바크(Bark) 스펙트럼은 25 개의 다른 주파수 대역을 나타내며, 주파수 분할을 25개의 대역내로 나타내어 인체의 귀에 대한 마스킹 동작은 거의 일정하게 남는다. 총 25 개의 주파수 대역은 32KHz 의 샘플링 비율을 위해서 유지하며, 샘플링 비율이 다른 실행으로 변화되는 바와같이 소정의 샘플링 비율이 포함된 최고 임계 대역에 의해 변화된다. 상기 바크 스펙트럼의 정확한 형은 단 주기 소리 스펙트럼으로부터 계산된다. 파워(power) 스펙트럼(51)은 브래스(brass)음악 기구용이며 해당하는 바크 스펙트럼(52)이 또한 도시되어 있다. 상기 바크 스펙트럼은 각각의 임계 대역내에 퓨리에 스펙트럼에서 존재하는 에너지를 합산하여 계산된다.
다음은 마스킹 스레솔드 계산 회로(21,41)의 계산 단계를 나타낸다.
신호의 임계 대역 분석 단계 ;
확산 함수를 임계 대역 스펙트럼에 공급하는 단계 ;
음색 정도를 단 주기 스펙트럼으로부터 계산하는 단계 ;
음색 측정 및 두 스레솔드를 이용하는 확산 마스킹 스레솔드를 계산하는 단계 이것은 다음과 연계된다.
절대 스레솔드를 설명하는 단계 ;
스레솔드를 각각의 임계 대역에 대해 스펙트럼 단계 크기로 변환하는 단계,
제 1 단계는 임계 대역 분석이다.
여기서, FFT 로부터의 신호의 복소 스펙트럼 Re(i), Im(i)으로 표현한다. 복소 스펙트럼은 파워 스펙트럼(51)으로 변환된다.
P(i)=Re2(i)+Im2(i)
상기 스펙트럼은 임계 대역내로 분할되며, 각 임계 대역에서의 에너지는 다음과 같이 합산된다.
Figure kpo00001
여기서, rtind(n,0)는 임계 대역 i의 하부 경계이고, rtind(n,1)는 임계 대역 n의 상부 경계이며, Bn 은 임계 대역 n 에서 에너지이며, 또한, 여기서 n=1 내지 ηmax 이며, η'max는 샘플링 비율에 의존한다. 제 3 도는 고음 브래스 전달의 64ms 에 대한 파워 스펙트럼(51)과 임계 대역 스펙트럼(52)을 도시하고 있다.
실제 임계 대역 분석은 연속 임계 대역 스펙트럼을 발생하기 위해서 각 i 에서 한 임계 대역폭 양단의 합일 것이다. 계산의 목적을 위해서, 불연속 임계 대역은 근사치를 나타낸다.
상기 확산 함수는 임계 대역 스펙트럼에 인가된다.
상기 마스킹은 1970 년, 뉴욕, 뉴욕 아카데미 출판사의 제리 브이, 토비아스에 의해서 출간된 베르트램 샤프의 저서 현대 청각 이론의 기초 제 5장에서 평가되어 있으며, 알.피. 헬만에 의한 노이즈와 음색 사이의 마스킹 비대칭, 인식 및 물리학 II 페이지 241 내지 246, 1922 에 기술되어 있으며, 동일 임계 대역내의 신호로 신호의 마스킹에 관한 정보를 제공한다. 미국의 음향 학회지인 볼륨 66, 1979, 페이지 1647 내지 1657 엠.알.슈뢰더 등에 의해 저술된 논문 인체의 귀에 대한 마스킹 특성을 개선하여 디지탈 음성 코더를 최적화에서 주어진 확산 함수는 임계 대역 양단에 마스킹의 효과를 평가하는데 이용된다. 상기 확산 함수는 abs(j-i
Figure kpo00002
25로 계산되며, 여기서 i 는 마스크된 신호의 바크 주파수이며, j 는 마스킹 신호의 바크 주파수이며, 매트릭스 Sij 로 표시된다. 한 바크는 1 임계 대역의 주파수 차를 나타내도록 규정되며, 바크 주파수는 샤프에 의해 상술된 논문의 임계 대역 인덱스와 일치한다. 확산 함수로 Bn 의 콘버루션(convolution)은 매트릭스 증배, 즉 Cn=Sij*Bn 으로써 실행된다. Cn의 값은 확산 임계 대역 스펙트럼을 지시한다. 제 3 도에서 곡선(53)은 바크 스펙트럼(52)의 확산 결과를 도시하고 있다.
다음 단계는 노이즈 마스킹 스레솔드로 계산하는 단계이다.
노이즈 마스킹 스레솔드 계산 단계
상술된 두 노이즈 마스킹 스레솔드가 존재한다. 첫째로, 음색 마스킹 노이즈에 대해서 Cn 이하의 14.5+ndB 로써 평가되며, 여기서 n 은 바크 주파수이며, 상기 평가는 상술된 샤프, 슈뢰더에 의해서 평가된다. 둘째로, 음색을 마스킹하는 노이즈에 대해서 임계 대역 스펙트럼 양단에 Cn 이하의 5.5dB 로써 평가된다.
신호의 유사 노이즈 혹은 유사 음색 특성을 결정하기 위해서, 스펙트럼 평평도 (SFM)가 이용된다. 상기 SFM 은 파워 스펙트럼의 산술 평균 (Am)에 대한 파워 스펙트럼의 기하학적 평균(Gm)의 비율로 규정된다. 이 경우에 SFM 은 dB 로 변환되는데, 즉
Figure kpo00003
이며,
또한, 음색의 계수를 발생하는데 이용되며, α 는
Figure kpo00004
인데,
이 α 는 가로내에 도시된 두 인수보다 더 적으며, 즉
SFMdBmax = -60dB 의 SFM 은 신호가 전체적으로 유사 음색인지를 평가하는데 이용되며, 0dB 의 SFM 은 완전히 유사 노이즈인 신호를 나타내도록 하는데 이용된다. 다른 경우에, -30dB 의 SFM 은 α=0.5 를 발생하며, -75dB 의 SFM 은 α=1.000 을 발생시킨다.
그래서, 각 대역 n 에서 마스킹 에너지에 대한 dB 의 오프셋(On)은 다음과 같이 세트된다.
On=α(14.5+n)+(1-α)5.5
반면, 인덱스 α 는 음색 마스킹 노이즈에 대해 14.5+ndB 의 두 스레솔드 오프셋과 음색을 마스킹하는 노이즈에 대해 5.5dB 사이를 기하학적으로 보간하는데 이용된다.
그래서, 스레솔드 오프셋은 확산 스레솔드 평가 (Tn)를 낳도록 확산 임계 대역 스펙트럼으로부터 감산된다. 즉,
Figure kpo00005
실제로, 신호의 음색을 평가하는데 SFM 은 오르간과 같은 대부분의 유사 음색 신호로 유용하며, 사인파, 플루트 등은 SFM dBmax 에 근접하거나 이하인 SFM 을 가지며, 진동과 같은 신호는 -5 와 -15dB 사이에 있는 일시적 단부에서 SFM 이다. 200 내지 3200Hz 대역폭의 음성신호는 -20 내지 -30dB 의 영역에서 존재한다. 제 3 도의 곡선(54)은 제 4a 도 및 제 4b 도에서 데이타에 대한 확산 스레솔드의 평가의 구성을 도시하고 있다.
이제, 확산 스레솔드 평가 Tn 은 바크 영역으로 환원하도록 변환할 필요가 있다
엄격하게 말해서, Bn 을 가진 확산 함수의 콘버루션은 Tn 이 콘버루션되지 않는 것으로 계산된 스레솔드로 실행되어야 한다. 이 과정은 확산 함수의 형태에 기인하여 매우 불안정하며, 스레솔드, 제로 스레솔드 등에 대해 네가티브 에너지와 같은 인공체를 자주 야기한다. 이들 비일상적 에러는 디콘버루션 과정이 물리적 및 음향학적 실재와 무관한 숫자해를 찾을 수 있기 때문에 발생한다.
디콘버루션(deconvolution)의 경우에 재정규화가 이용된다. 이 형태 때문에 확산 함수는 확산 효과에 기인하여 각 대역에서 에너지 평가를 증가시킨다. 상기 재정규화는 에너지 평가를 설명하며, 에너지 이득의 역에 의해 각 Tn 을 증배시키며, 각 대역에서는 1 의 동일 에너지를 가정한다. 반면, 평평도 Bn 및 모든 0i 가 동일한 조건은 재정규화된 Tn 을 환원할 것이다. 이 재정규화된 Tn 은 Tn'으로 표시될 것이다.
이제, 절대 스레솔드와 관련한 허용 가능한 정보를 설명하고자 한다.
노이즈 에너지가 바크 영역에서 재정규화된 후, 상기 바크 스레솔드는 에이.프레쳐에 의한 논문 청각 패턴이 기재된 현대 물리학 리뷰지의 볼륨 12, 페이지 47 내지 65 에서의 절대 스레솔드 측정으로 비교된다. 그래서, 마스킹 스레솔드는 절대 레벨과 무관하게 계산되어, 상기 스레솔드는 이들이 청취의 절대적 제한 이하의 노이즈 레벨을 요구하지 않도록 검토되어야만 한다.
상기 시스템 이득은 16 비트 정수에서
Figure kpo00006
1/2 최하위 비트의 피크 크기로 4KHz 에서 적당하게 진동된 신호가 청취의 절대 스레솔드에 있도록 세트된다. 절대 스레솔드보다 낮은 계산된 노이즈 스레솔드를 가진 어떤 임계 대역은 상기 임계 대역에 대해 절대 스레솔드로 변화된다. 고 및 저 주파수에서, 절대적 스레솔드는 임계 대역 내측에서 변화한다. 이와같은 경우에 있어서, 임계 대역 엣지의 평균이 이용된다.
제 3a 도 내지 제 3d 도의 곡선(55)은 재정규화 및 절대적 스레솔드 조건에 대한 조정후 최종 스레솔드를 도시하고 있다. 이 스레솔드는 Thn 으로 지시된다. 이 스레솔드 Thn 은 각각의 임계 대역내로 삽입될 수 있는 노이즈 파워를 표시하며, 신호는 인지 가능하게 변형되지 않고 존재한다. 또한, 상기 스레솔드는 대응 임계 대역에서 라인을 위해 이용될 수 있는 스텝 크기를 계산하는데 이용되며, 양자화 에러보다 최악의 경우에 대한 가설이 동일 확률 밀도 함수를 가진다.
단 주기(short-term)인지 가능 스레솔드에 의해 계산된 스텝 크기는 압축을 이용한 비트 비율 조정회로(44)에서 비트 비율 조정 절차의 부분으로써 이용된다. 비트 팩킹 절차에 따라서, 단 주기 스펙트럼은 알고리즘의 이점으로 양자기(42)에서 양자화될 필요가 있거나 없을 수 있을 것이다. 비트 비율 조정효과를 포함하는 양자화된 것으로 최종 스레솔드는 Thrn 이 된다.
이용될 수 있는 비트 팩킹의 형태는 두 형태가 존재한다. 보다 간단한 형태는 가변 라딕스(radix)수로써 고정된(이 경우에 128 비트) 길이의 2 진수를 구성하는 가변 라딕스 수를 이용한다. 상기 라딕스는 사이드 정보로부터 전송기 및 수신기에서 결정된다. 이 비트 팩킹의 방법은 필요한 크기로 구성된 양자기를 이용하며, 각 양자기는 2n레벨로 구성되며, n 는 정수이거나 이용되지 않는 모음(log2n)-log2m 비트이며, m 은 2 진 인코딩으로 직접 유도될 수 있는 양자기에서의 레벨수이다.
더 복잡한 비트 팩킹 알고리즘은 데이타 종속 방법으로 변화하는 제 2 도의 허프만 코더(43)에서 수정된 허프만 코드를 이용한다. 만약 이 압축 방법이 이용되면, 압축된 비트 비율은 양자화된 데이타(Thrn 에 의해 분할된 스펙트럼의 실상 및 허상 부분의 가장 근접한 정수) 뿐만 아니라 각 양자기에서 레벨수로 계산되어야만 한다.
이 경우에 있어서 무노이즈 코딩은 음악 신호의 데이타 베이스로부터 발생된 일련의 허프만 코드를 이용하여 실행되어 코드북에서 기억된다. 가장 큰 양자화된 데이타의 진폭에 따라서, 양자기 출력은 쌍(실상 및 허상)으로 양자화되거나 개별적 코드로써양자화된다. 다른 코드북은 사이드 정보 데이타의 각 쌍에 대해 코드북 인덱스를 허프만 코드북의 세트로 인코드하도록 이용되며, 또한 필수적으로 전송된다.
상기 허프만 코드북 구조에 부가하여, 기본 음악에 통계의 종류를 다르게 하도록 부가된 코드북 복합에 대한 부가 레벨이 존재한다. 이 복합은 4 코드북이 전체 데이타 베이스를 포함하며 유리한 방법으로 상기 베이스를 분할하는 방법으로 음악 데이타 베이스로부터 자체 선택 방법으로 각각 발생된 코드북의 완전한 4 세트로 구성된다. 인코더에 있어서, 신호의 현존 블록에 조화된 최선의 코드북 세트가 계산되어, 최선의 조화된 코드북 세트는 적당한 코드워드와 함께 전송된다.
[데이타 구성]
다양한 압축 및 비트 팩킹 알고리즘의 동작을 서술하기 위해서, 본 발명은 각각의 블록 데이타에 대한 데이타 구성을 윈도우 및 FFT(37)로부터 규정하고 있다.
양자화된 데이타
Figure kpo00007
Figure kpo00008
는 후술될 2 방식으로 분할된다. R 및 I 는 양자화된 스펙트럼 선이며, i 는 FFT 출력 1
Figure kpo00009
i
Figure kpo00010
2048 의 인덱스이며, nint 는 가장 근접한 정수를 이것의 인수로 리턴되는 함수이며, Thr* 는 색션 4.3 이하의 서술된 양자화 스레솔드에 대응한 레벨이며, tind(i)는 후술될 것이다.
2 분할은 임계 대역 분할인 t 분할과 일반적으로 보다 적은 분할인 k 분할로 구성된다. 제 5 도는 44.1KHz 의 샘플링 주파수로 주어진 스펙트럼의 보다 낮은 부분에 대한 t 분할 및 k 분할을 도시하고 있다.
[t 분할]
존스톤에 의해 인용된 논문에서, 스레솔드 Thrn 은 임계 대역 크기로 발생된다. 상기 실행에 있어서, 동일한 스레솔드 발생구조가 이용된다. t 분할은 스레솔드 발생 알고리즘에 이용된 임계 대역 분할을 나타낸다. n 으로 색인된 t 분할은 스펙트럼이 한 임계 대역의 폭을 갖고 η max 분할로 세그멘트되도록 배열된다. 최종 t 분할이 필연적으로 전체 임계 대역은 아니지만, Fs/2 에서 종결된다. 44.1KHz 샘플링율에 대해, ηmax=25 이며, 32KHz 샘플링 비율에 대해 ηmax=24 이다. 임계 대역 엣지의 리스트는 슈아프(Scharf)에 의한 논술로 참조될 것이다.
tind(i)라는 색인 어레이는 어떤 i 에 대해 tind(i) 의 값이 t 분할의 색인(n)을 포함하도록 규정된다. 역 어레이rtind(n,l)는 최하위 l=0 또는 최상위 l=1 를 리턴하도록 규정되며 주어진 n 에 대한 i 의 값은 FFT 색인을 나타낸다.
[k 분할]
고 주파수 임계 대역폭으로 인해, 코더가 임계 대역 기초 위에 데이타를 엄밀하게 다룰 경우 많은 스펙트럼 구조가 불명확해진다. k 분할은 k 분할과 연관된 사이드 정보와 스펙트럼 항의 손실에 기인하는 비트율 패널티 사이에서 더욱 트래이드-오프 (trade-off)를 발생하는 결험상 결정된 분할을 나타낸다. 통상 k 분할은 k 및 n 이상의 값에 대해 t 분할보다 더 적다.
이 기술내의 k 로 인덱스된 k 분할은 양자화된 스펙트럼을 128 색션, 각 평균 8 복합 라인으로 분리하는 일련의 분할이다. k 분할의 경계는 이들 규칙을 이행하기 위해 선택된다.
· 절대 k 분할은 두 t 분할 위에 높이지 않는다.
· 상기 k 분할은 가능한한 8 에 근접한 각 k 분할의 최대 및 최소 길이를 유지하기 위해 배열된다.
t 분할로써, 소정의 i 에 대해 k 의 값을 리턴하는 소위 kind(i)라는 k 분할에 대한 인덱스 어레이와 주어진 k 에 대해 i 의 값인 최하위 l=0, 최상위 l=1 을 리턴하는rkind(k,l)가 규정된다.
게다가, n 은 k 와 연관시키는 인덱스 어레이가 또한 규정된다. 상기 어레이 n=nkind(k)는 소정의 k 분할, 역으로 k=kind(n)등과 연관된 t 분할의 인덱스를 리턴한다.
상기는 압축 및 비트 팩킹 알고리즘에 필요한 데이타 구성을 서술하고 있다. 다음에, 우리는 보다 간단한 비트 비율 계산의 가변 라딕스 팩킹 방법을 기술하고자 한다.
[가변 라딕스 비트 비율 계산 방법]
·우선, 스펙트럼의 각 k 분할에 대하여, t 분할에 대한 실수 및 허수부의 가장 큰 절대차를 계산한다.
Figure kpo00011
로써 규정된 수 Kk를 계산한다.
여기서, i 는 스펙트럼 분할의 인덱스를 나타내며, nint 는 가장 근접한 정수 연산자를 나타내며, LAVk는 분할 k 에서 Re 및 Im 의 가장 큰 절대값을 나타내며, Thr 은 k-분할 k 에 대한 스탭 크기이다.
·양자기의 각 세트에서 레벨수는 Kk=2ZK+1 을 계산해서 결정되며, Kk는 각 양자기에서 레벨수이다.
·라딕스 팩킹 알고리즘에 의해 요구된 비트의 수는
Figure kpo00012
계산해서 계산된다. 사이드 정보에 필요한 비트수, 각 Thr 당 8 비트 및 각 128 양자화된 Kk당 6 비트가 부가되어, 일연의 Thrn과 함께 블록의 전송에 필요한 비트의 전체수가 발생한다.
[스레솔드 조정의 조건]
인체의 귀에 대한 신체적 제한 때문에, 노이즈 검출 및 절대 스레솔드의 두 경우에서 일련의 Thrn은 이것이 스레솔드 조정 인수에 의해 증배될 때 몇몇 경우로 제한되어야만 한다. 여기에 기술된 이들 제한들을 라딕스 비트 팩킹 및 엔트로피 코드된 접근법에 동일하게 적용한다. 특히, 임의의 임계 대역에 대해서 양자화의 레벨이 스레솔드 조정 인수의 효과로 인해 형태에 무관한 모든 신호의 상기 임계 대역에 대해 명확해지도록 공지된 레벨을 초과하고, Thrn은 양자화의 상기 레벨을 최대로 유지하기 위해 상기 임계 대역에서 증가하게 된다. 게다가, 스레솔드 조정 인수가 절대 스레솔드 이하의 Thrn으로 떨어지면, 해당 Thrn의 절대 스레솔드로 다시 리세트된다. 이것은 임의의 신호에 대해서 임의의 조건하에 코더로부터 허용 가능한 최대 비트 비율이 존재하며, 요구되지 않는 비트가 다른 정보의 전송을 위해서 이용되거나 임의의 패턴으로 세트된다.
[비트 비율 조정을 위한 스레솔드 조정]
비트 비율 조정 과정은 의사 C 코드 (pseudo-C code)로 대부분 용이하게 서술된다. 필연적으로, 상기 과정은 비트 비율에 근거한 결정과 검색 길이의 제한에 근거한 결정으로서 2 진 검색 과정이다. 비트 비율 조정 과정은 스레솔드 조정 인수 F 로 리턴되는데, 이것은 새로운 스레솔드를 계산하기 위해 직접 증베되어 인코딩하는데 이용된다. 비트 비율 조정 과정의 항목은 부록 1 에서 도시된다.
[엔트로피 코드된 경우의 비트 조정]
이것은 라딕스 팩킹 경우의 비트 비율 계산 및 조정을 기술해서 종결된다. 이제, 엔트로피 코딩이 이용되는 경우를 기술하고자 한다.
[엔트로피 코드된 경우의 비트 비율 계산]
각 k 분할 내의 엔트로피 코딩의 경우에, 압축 알고리즘은 특별한 코드북을 선택해야만 한다. 코더는 신호의 절대 위상을 알고 있지 않으며, 선택 방법은 부호 및 위상이 독립되어야만 한다. 게다가, 허프만 코드는 인코딩하는 분포가 적당해야 하기 때문에, 데이타 관련 미터법은 각 k 분할에 이용된 코드북을 선택하는데 이용되어야 한다. k 분할에서 코드워드의 절대값의 평균은 쉽게 계산되며, 코드북의 양호한 제 1 계 피트가 데이타에 제공된다. 이 전체 과정은 제 4 도에서 도시되어 있다.
각 k 분할의 경우에, 국소 평균 KK는 다음과 같다.
Figure kpo00013
이 Kk는 lin+5hmic 변형으로 형성되며 양자화된다.
먼저, KK=0 이면 KK'=0 이며
KK'=정수 (max(1, min(32,5.614456 loge(KK)+7.759653)))
여기서, 알고리즘 워핑에서의 계수는 KK'
Figure kpo00014
20의 확률과 거의 동일하도록 선택된다. min 연산은 비교적 작은 인수를 리턴하는 함수이고, max 연산은 비교적 큰 인수를 리턴하는 함수이며, 정수 연산은 인수와 동일하거나 보다 적은 가장 큰 정수를 리턴하는 함수이다.
[사이드 정보 계산]
일단 KK' 가 계산되면, 코드북 이용을 나타내는 것을 제외하는 사이드 정보가 결정된다. 사이드 정보는
스펙트럼 양자화 과정에 이용되도록 Tn' 의 레벨을 발생하며, 256 레벨 양자기로 Tn 을 양자화하는 ηmax비트 워드를 구성한다. 상기 양자기는 180/265dB 의 스텝 크기를 이용하고, 0dB 는 (
Figure kpo00015
32767 의 크기로) 임펄스 1 의 스펙트럼 크기에 대응하며, 180은 여기서 규정된 바와같은 0dB 이상의 가장 큰 확률 스펙트럼 에너지보다 약간 더 크며, 256 은 양자기의 레벨수이다.
이러한 점에서, 양자화된 스레솔드 Tn' 가 n 의 모든 값에 대해 최종 반복 변화되지 않는 것이 확정되면, 계산 과정이 중지되고, 이전값이 이용된다.
사이드 정보는 이하에서 규정된 바와같은 각각의 3 코드북 선택에 대해 2비트인 이용을 지시하도록 6 비트를 구비한다. 비록 정정 코드북이 아직 미정이지만, 요구된 다수의 비트는 공지되어 있다.
사이드 정보는 압축된 KK를 구비하며, 이들은
Figure kpo00016
인코드 (KK', Kk+1')로써 쌍으로 압축되며, 이 인코드는 코드워드 길이를 조사하는 과정을 나타내며, BPk 는 특별한 코드워드를 요구하는 다수 비트이다. Kk 값(K 코드북)에 대해 4 코드북이 존재하므로, 각각의 K 코드북에 대해 BPk 는 4 번 계산되며, 최대 코드북(예를 들면, 가장 짧은 코드북)이 이용된다.
0.25 내지 0.5 비트/샘플인 이 사이드 정보 및 인코드된 비트 길이가 공지되어 있으며, 양자화된 스펙트럼이 인코드된다.
[양자화된 스펙트럼 코딩]
양자화된 스펙트럼이 각각의 k 에 대해 Kk'에 따라 k 분할 기초에 의해 k 분할상에 3 방식중 하나로 양자화된다.
·Kk'=0 이면, 양자화된 스펙트럼은 코드되지 않으며, 비트는 k 분할에 절대 보내지지 않는다.
·0Kk
Figure kpo00017
20 이면, 양자화된 스펙트럼은 복소수 쌍으로 코드되며, 즉, 각각의 Ri 는 이의 대응하는 Ii 와 정합되며, 그 쌍은 코드된다.
·Kk'20 이면, 각각의 R 및 I 의 성분이 개별적으로 코드된다.
·k
Figure kpo00018
20 의 경우를 먼저 논하고 다음에 큰 K' 의 경우를 논하게 된다.
[작은값 Kk' 에 대한 코딩]
Kk' 의 적은 값에 대해서, Ri 및 Ii 의 값은 -20 내지 20 의 각 차원 범위인 2 차원 코드북으로 인코드된다. ij 코드북으로 불리는 이들 코드북의 크기는 신호의 5% 가 20 보다 적지만 20 에 가까운 K 의 값에 대해 ij 코드북으로 되도록 크기 경계를 세팅하고 다수의 인코드된 신호의 통계를 관찰하여 결정된다.
만약 R 또는 I 의 절대값이 19 를 초과하면, 20 에 가까운 K' 의 값에 대해 발생하므로서,
Figure kpo00019
20 에 극한되며, 극한값에 대한 코드워드가 선택된다. 정확한 데이타값을 전송하기 위해서, 다른 코드워드는 '이스케이프(escape)' 코드북으로부터 취한 각각의 극한값에 추가되고 특수 성분의 추가적인 크기를 인코드한다. 그러므로, 절대값 20을 가진 엔트리는 이스케이프 코드북으로부터의 다른 코드워드가 즉시 이어지는지를 지시한다.
4 세트의 2 차원 코드북이 존재한다. 전체 프레임에 걸쳐 적어도 다수의 비트를 이용하는 한 세트가 이용하기 위해서 선택되며, 상기 정보는 사이드 정보의 일부분을 포함한다. 4 개의 다른 이스케이프 코드북이 존재하는 것이 아니라, (4 개중) 한 이스케이프 코드북이 k 분할에 대해 K' 의 값을 기초로 선택되며, 이스케이프 코드북 선택에 관한 정보가 수신기에서 K'의 값으로부터 결정된다.
[비교적 큰 Kk 값에 대한 코딩]
비교적 큰 K' 의 값에 대해, 각각의 R 및 I 는 개별적으로 인코드된다. 1774 내지 1774 의 범위인 코드북은 K' 값에 따라 선택되며 k 분할에서 각 복소수 라인의 각 부분이 개별적으로 인코드된다. 1774 의 값은 인지 가능한 마스킹 표준을 만족하는데 매우 필요한 가장 큰 양자기 출력값의 최악의 경우의 추정치와 일치한다.
4 세트의 코드북이 이용되며, 최선의 세트가 선택된다. 이 코드북을 나타내는 2 비트는 상술된 마지막 2 비트의 사이드 정보를 나타낸다. 큰 값 Kk' 에 이용되는 코드북의 세트는 하이 코드북이라 한다. 코드북 세트의 예증은 제 6도에서 도시된다.
[비트 비율 조정 과정]
비트 비율 조정 과정은 의사-C 코드로서 가장 용이하게 서술된다. 필수적으로, 상기 과정은 비트 비율에 기초한 결정으로 2진 조사이며, 상기 조사의 길이에 대해 제한한다. 비트 비율 조정 과정은 스레솔드 조정 인수 F 를 환원하며, 인코딩하는데 이용되는 실제 스레솔드를 계산하기 위해 직접 Tn 으로 곱한다. 비트 비율 조정 과정의 항목은 부록 1 에 도시되어 있다.
Thrn 의 제한은 라딕스 팩킹 경우와 마찬가지다. 이들은 라딕스 팩킹 경우에서 행해지는 바와같이 Thrn 의 제한은 상부 비트 비율 제한을 세트한다.
[라딕스 팩킹 알고리즘의 항목]
가변 혼합된 표준 팩킹 방법은 도날드 이. 크누스(Donald E. Knuth) 컴퓨터 프로그래밍의 기술, 2판, 볼륨 2, 에디슨 윌스리, 리딩, MA(1981), 페이지 274 및 275 에 서술되어 있다. 팩킹에서의 적은 손실이 양자기에서의 최대 다수의 여러 레벨중 log2의 합과 연관되도록 두개의 기본수를 나타내는 비트 패턴이 생성될 수 있다는 사실이다. 이 과정은 상기 볼륨 274 페이지에서 식 24 의 형태로서 하나의 수를 생성한다.
상기 라딕스는 다음과 같이 선택된다.
비트가 모두 팩킹될 때까지, 여러 단계에서 128 비트 워드를 채우고, 각 단계에서는 상기 워드에서 적당히 채울 수 있는 가장 큰 라딕스를 인코드하기 위해 가변 라딕스 산술을 행한다.
전체 데이타가 확장될 때까지 128 비트 워드를 가진 이 과정을 계속한다.
이 비트 팩킹 알고리즘은 데이타에 할당된 비트 비율의 약 1/128 인 적은 양을 낭비한다. 이 손실은 압축된 데이타 크기의 계산을 불필요하게 하는 비트-비율 계산으로 산정될 수 있다.
[실제 엔트로피 코딩 순서]
압축을 위한 엔트로피-코딩 알고리즘은 상기 비트 비율에 부가된 길이 패턴 대신 적절한 비트 패턴이 전송된다는 것을 제외하면 비트 비율 계산을 위한 순서를 따른다. 각 경우에 있어서, 비트 패턴에 대한 비트 비율이 발견되면, 상기 패턴이 대신 전송된다. 코드북 선택은 비트 계산으로 알게 된다.
[모노 음향 디코드]
라딕스 팩킹 경우와 엔트로피 코딩 경우의 디코더는 감압 언팩킹 알고리즘을 제외하고는 동일하다. 라딕스 팩킹 알고리즘의 경우에, 언팩킹의 크기는 사이드 정보로부터 명확하게 계산될 수 있고 전송기만으로 팩킹의 크기를 (양자화된 사이드 정보로부터) 원리적으로 계산될 수 있다. 언팩킹 순서는 혼합된 라딕스 번호를 발생하기 위한 순서로부터 직접 이어진다.
엔트로피 코딩의 경우에, 코드북 정보는 우선 수신되어 기억된다. 그래서, 사이드 정보는 적당한 코드북을 이용하여 디코드되어 기억된다. 일단 상기 정보가 기억되면, 각 데이타 점에 대한 적당한 코드북을 알게 되며, 적당한 코드북은 인코드된 데이타의 정수값을 결정하는데 이용된다. 일단 양자화된 스펙트럼 및 스레솔드의 디코드된 정수값이 디코드되면, 상기 데이타는 라딕스 팩킹 알고리즘으로부터의 데이타를 실행한 것과 동일하게 나타나며, 실제 변형 디코더가 인가된다.
[변형 디코더]
제 7 도는 제 2 도의 인코더에 대응하는 모노럴 인지 변형 디코더를 도시하고 있다. 인코드된 스레솔드 및 양자화된 스펙트럼 정보는 합산 회로(71)에서 결합되며, 양자화된 스펙트럼이 대응 스레솔드에 기초한 인수로써 인코드되었다면 상기 회로는 승산기일 것이다. 스레솔드의 경우에 이들 신호들은 제 2 도에서 이용된 것에 따라 장치(75)에서 비트-언팩킹 또는 후프만형 디코딩에 의해서 구동되고, 또한 양자화된 스펙트럼의 경우에 장치(76)에서 동일 과정으로 구동된다. 결합 회로(71)의 출력은 재구성된 주파수 스펙트럼이며, 이것은 재구성된 시간 파형을 제공하기 위해 장치(72)에서 고속 역 퓨리에 변환에 따르고 있다. 인코더 (제 2 도 참조)의 윈도윙 및 오버랩-부가 과정은 디지탈-아날로그 변환 또는 PCM 기억에 적용할 수 있는 신호를 발생하기 위한 장치(73)에서 역이 된다.
[입체 음향 코더에 관한 항목]
제 2 도의 모노럴 코더는 충분히 서술되어 있으며, 여기서는 제 1 도의 실시예인 스테레오 신호를 서술한다.
두 스테레오 채널인 좌(L) 및 우(R) 신호원이 코더로 발생된다. 두 신호인 L+R 및 L-R 은 모노 음향 코더로써 윈도우되며 변형된다. 따라서 두 신호의 스펙트럼은 양자화 과정 및 스레솔드 발생 과정으로 전송된다. 양자화 과정은 양자화될 두 스펙트럼이 존재하는 것을 제외하고 모노 음향 코더와 동일한 과정이다.
[인지 스레솔드의 발생]
두 신호의 파워 스펙트럼이 스레솔드 발생의 과정이 시작되기 전에 서로 부가되는 점에서 인지 스레솔드 발생은 단지 수정된다. 이것은 청취자가 스테레오 스피커로부터 떨어진 한 임계 거리 이상에 있다고 하는 가정을 나타낸다. 스펙트럼은 전과같이 발생되어 스레솔드 조정 과정으로 전송된다. 이 장치에 있어서 제트(Jetzt)에 의한 논문 소리 에너지 스펙트럼 응답으로 실내에서 임계거리 측정의 미합중국 음향 학회지 볼륨 65, 페이지 1204 내지 1211(1979)에서 임계 거리 에 관해 서술되어 있다.
청취자가 스피커로부터 하나의 임계 거리 이상에 떨어져 있다는 가정으로 인지 스레솔드 발생 과정을 배우 단순화하는데, 그 이유는 양쪽의 청취자 파워 스팩트럼이 두 채널중 파워 스팩트럼의 합에 의해 양호하게 접근될 수 있기 때문이다. 후술하는 바와같이 , 이것은 헤드폰이 이용될 때 어떤 난해한 영향을 발생한다. 더 복잡한 인지 스레솔드의 쌍의 계산은 현재 실현 불가능하며 제공된 히어링 모델은 이제 이용할 수 없다.
[스레솔드 조정 과정]
스레솔드 조정 과정은 후술된 비트 비율 계산/압축 알고리즘으로 변화하는 것을 제외하고 제 2의 코더에서와 동일하다.
[비트 비율 계산 과정에서 변화]
비트 비율 계산 과정에서 여러개의 변화가 있다. 가장 중요한 하나는 사이드 정보의 양자화에 대한 비트 비율의 계산이며, 여기서 스펙트럼 수단 Kk의 여러값이 인코드된다. 모노 음향 코더에서는 스펙트럼 수단의 두 연속값이 인코드되는 반면, 스테레오 코드에서는 대응 L+R 및 L-R 신호에 대한 스펙트럼 수단의 값이 한쌍으로 인코드된다. 합과 차 신호의 스펙트럼은 일반적으로 매우 관련되어 있기 때문에, 일련의 인코드된 스펙트럼 수단의 세트에 기인한 전체 비트 비율은 거의 감소된다.
상기 과정에서 다른 변화는 종종 매우 다른 통계를 가진 두 신호가 존재하는 사실과 관련되며, 따라서 L+R 및 L-R 신호는 모노 음향 스펙트럼이 제 2 도의 코더로 인코드되는 방법으로 각각 인코드된다. 달리 말해서, 합과 차 신호를 위해 선택된 개별 코드북이 존재한다. 이것은 추가 코드북 신호화를 위해 0.002 비트/샘플로 추가 비용을 초래하며, 이것은 독립 코드북 선택으로부터의 결과인 저장에 의해서 오프셋된다.
코딩 효율로서 추가 이득은 좌신호 및 우신호보다는 오히려 합과 차 신호 및 합과 차 신호의 인코딩에서 파워의 추가에 기인한다. 최악의 경우에, 두 신호의 스펙트럼은 전체적으로 서로 무관하며, 스펙트럼의 포락선도 또한 서로 무관하며, 이득이 없으면 손실이 존재하지 않는다. 스테레오 신호의 99+%의 경우에 신호는 서로(다시 최악의 경우로) 무관하지만 스펙트럼의 포락선은 매우 유사하며, 스레솔드 레벨에서 3dB 이득 및 최종 비트 비율 이득이 발견된다. 기본 L 및 R 은 네가티브 또는 포지티브로 매우 관련되어 있는 경우에, 합 또는 차 스펙트럼중의 하나는 매우 적으며, 따라서, 스펙트럼은 인코드하는데 몇 비트 혹은 아무런 비트를 요하지 않으며, 거의 게인을 초래한다.
제 8 도는 제 1 도의 스테레오 음향 인코더에 대한 디코더를 나타낸다. 라벨된 성분은 유사하게 제 7 도에서와 동일 함수를 실행한다. 제 8 도의 반은 합과 차 채널의 간격과 달리 각각 합 회로(84)와 차 회로(94)에서 합과 차 채널이 좌측 및 우측 채널이 변환될 때까지는 제 7 도와 유사하다.
제 8 도의 디코더는 모노 음향 디코더와 유사하다. 라딕스 비트 팩킹의 이용이 라딕스 팩킹 모노 음향 코더에 이용된 방법을 직접 연장하므로서 가능함에도 불구하고 스테레오 인코더의 양호한 실시예는 엔트로피 코딩을 이용한다.
2 채널에 대한 파워 스팩트럼의 합이 참일 때, 엄밀히 말해서 청취자가 정상의 반향실에서 스피커를 이용하는 경우에 청취자가 헤드폰을 이용할 때만 정신 음향 마스킹에서의 손실이 최악의 경우 매우 작아지는 것을 알게 되는데, 그 이유는 아마도 정신 음향 크로스-마스킹 및 비트 비율 조정 순서가 대개 청취단에서 고려되는 경우 Thrj을 양호하게 구동하기 때문이다.
[엔트로피 코더에 대한 코드북 설계]
엔트로피 코더에 대한 코드북을 설계하기 위해서, 적당한 샘플링 비율로 많은 데이타 베이스의 차 및 무관한 오디오 신호가 모이게 된다. 따라서, 다음 단계는 실제 인코더 및 디코더에 이용된 코드북을 발전시키는 데 이용된다.
1. 우선, (비트 비율 조정 전) 비조정된 비트 비율을 이용하여 초기 비율의 25%에 대해 완전한 코드북을 계산하는데, 즉 최저 25% 는 한 코드북을 발생시키는 데 이용되며, 다음 25% 는 두번째 코드북을 발생시키는 데 이용된다.
2. 현실적으로 설계된 코드북 세트를 이용하면 다음을 수행하여 전체 오디오 데이타 베이스를 수행한다.
a. 완전한 비트 비율 조정 과정을 이용하여 각각의 4 코드북에 대한 비트 비율을 계산한다.
b. 가장 적은 Thrj ' s 를 허용하는 코드북으로써 인지 가능한 최선의 코드북을 선택한다.
c. 오디오 데이타 베이스의 각 단 주기 단부를 위해서 최선 코드북에 대한 히스토리를 유지한다. 이것은 각각에 대해 최선적용 데이타에 해당하는 각각의 코드북 단부를 위해 히스토그램을 제공한다.
3. 4 개의 집합 히스토그램을 택하여, 각 히스토그램에 대한 새로운 코드북을 생성한다.
4. 반복에 의한 비트 비율 이득이 최소화될 때까지, 단계 2 에서부터 진행한다.
이 과정은 합리적인 클러스팅이 발견되었는지를 확인하는 두가지 방법이 있다. 그 하나는 각 단주기 스팩트럼에 대한 최선의 코드북 선택이 동일 (전의 반복에 이용된 동일 코드북이 선택될 때) 비트-비율이나 더 좋은 비트 비율(다른 코드북이 전체 이득을 나타낼 때 선택될 때)을 초래할 수 있고, 다른 하나는 동일한 최선의 코드북을 갖는 이유로 함께 클러스터되는 이들 부분에 대해 데이타베이스의 실제 데이타 히스토그램으로부터 다음 코드북의 발생이 동일하거나(이전 반복으로 아무런 변화가 없을 때) 상기 데이타에 대해 더 좋은 통계적 정합을 초래하므로서 동일하거나 더좋은 압출율을 초래한다.
Figure kpo00020
Figure kpo00021

Claims (17)

  1. 제 1 세트의 주파수 계수를 갖는 불연속 주파수 스펙트럼을 포함하는 일련의 정돈된 각 블럭으로 분할된 오디오 신호를 순차(ordered time sequence) 처리하는 방법에 있어서, 상기 방법이 상기 각 블럭에 대해,
    (a) 적어도 하나의 주파수 계수를 갖는 각 그룹의 적어도 한 그룹으로 상기 제 1 세트의 주파수 계수를 그루핑하는 단계와,
    (b) 오디오 순차 신호가 유사 음양을 가질 정도를 반영하는 적어도 하나의 음조값과, 관련 음조값을 갖는 각각의 그룹을 생성하는 단계와,
    (c) 상기 적어도 하나의 음조값의 부분에 기초하는 각 상기 적어도 하나의 잡음 마스킹 스레숄드를 생성하는 단계 및,
    (d) 상기 적어도 하나의 잡음 마스킹 스레숄드에 기초한 각 상기 적어도 하나의 그룹으로 적어도 하나의 주파수 계수를 양자화하는 단계를 포함하는 것을 특징으로 하는 오디오 신호의 순차 처리 방법.
  2. 제 1 항에 있어서, 제 2 세트의 주파수 계수와, 상기 각 블럭에서 모든 주파수 존재를 나타내는 제 2 세트의 주파수 계수와 결합하여 상기 제 1 세트의 주파수 계수를 더 포함하는 것을 특징으로 하는 오디오 신호의 순차 처리 방법.
  3. 제 1 항에 있어서, 상기 각 블럭은 소정의 범위를 갖는 다수의 비트에 의해 표현될 수 있고, 상기 양자화 단계는 상기 다수의 비트에 기초한 것을 특징으로 하는 오디오 신호의 순차 처리 방법.
  4. 제 1 항에 있어서, 하나의 주파수 계수 이상을 갖는 상기 적어도 하나의 그룹에서의 상기 각 그룹이 하나의 인접 주파수 계수를 포함하는 것을 특징으로 하는 오디오 신호의 순차 처리 방법.
  5. 제 1 항에 있어서, 상기 오디오 순차 신호가 스테레오 신호의 제 1 채널 및 제 2 채널을 나타내며, 상기 각 블럭에 대해서, 상기 방법이
    (a) 상기 제 1 채널을 나타내는 제 1 파워 스팩트럼을 생성하는 단계와,
    (b) 상기 제 2 채널을 나타내는 제 2 파워 스팩트럼을 생성하는 단계와,
    (c) 상기 제 1 파워 스팩트럼을 적어도 하나의 잡음 마스킹 스레솔드를 결정하는 상기 단계에 우선하는 상기 제 2 파워 스팩트럼에 부가하는 단계 및
    (d) 각각의 상기 적어도 하나의 잡음 마스킹 스레솔드를 상기 제 1 채널 및 상기 제 2 채널에 인가하는 단계를 포함하는 것을 특징으로 하는 오디오 신호의 순차 처리 방법.
  6. 제 5 항에 있어서, 상기 제 1 채널은 L이고 상기 제 2 채널은 R인 것을 특징으로 하는 오디오 신호의 순차 처리 방법.
  7. 제 5 항에 있어서, 상기 제 1 채널은 L+R 이고 상기 제 2 채널은 L 및 R 간의 차를 나타내는 것을 특징으로 하는 오디오 신호의 순차 처리 방법.
  8. 제 3 항에 있어서, 상기 적어도 하나의 그룹에서 상기 적어도 하나의 주파수 계수를 양자화하는 상기 단계가 상기 제 1 세트의 주파수에서 모든 주파수 계수를 양자화하는 단계를 포함하는데, 상기 방법이 각 블럭에 대해서,
    (a) 양자화된 형태로서 상기 제 1 세트의 주파수 계수를 나타내는데 필요한 비트의 양을 생성하는 단계와,
    (b) 상기 비트의 양을 상기 비트의 양과 비교하는 단계와,
    (c) 상기 각 적어도 하나의 잡음 마스킹 스레숄드를 조정하는 단계 및
    (d) 상기 비트의 양이 상기 다수의 비트의 소정 범위내에 있을 때까지 청구항 1 의 단계 (d) 및 단계 (a) 내지 (c)를 반복하는 단계를 더 포함하는 것을 특징으로 하는 오디오 신호의 순차 처리 방법.
  9. 제 1 항에 있어서, 허프만 코드를 이용하는 상기 양자화된 그룹의세트를 더 포함하는 것을 특징으로 하는 오디오 신호의 순차 처리 방법.
  10. 프로세스에 따라 제조된 기록 매체가
    (a) 제 1 세트의 주파수 계수를 갖는 불연속 주파수 스팩트럼을 각각 구비하는 정돈된 일련의 블럭으로 분할 된 오디오 순차 신호를 처리하는 단계 및,
    (b) 상기 각 블럭에 대해서,
    (1) 적어도 하나의 주파수 계수를 갖는 각 그룹의 적어도 한 그룹으로 상기 제 1 세트의 주파수 계수를 그루핑하는 단계와,
    (2) 오디오 순차 신호가 유사 음양을 가질 정도를 반영하는 적어도 하나의 음조값과, 관련된 음조값을 갖는 각각의 그룹을 생성하는 단계와,
    (3) 적어도 하나의 음조값에 기초한 상기 적어도 하나의 잡음 마스킹 스레숄드를 생성하는 단계와,
    (4) 상기 적어도 하나의 잡음 마스킹 스레숄드에 기초하여, 일련의 양자화된 수파수 계수를 초래하는 상기 적어도 한 그룹에서 적어도 하나의 주파수 계수를 양자화하는 단계와,
    (5) 상기 일련의 양자화된 주파수 계수를 나타내는 신호를 갖는 상기 기록신호를 상기 기억 매체에 인가하는 단계 및,
    (6) 상기 기억 매체에 상기 기록 신호를 기록하는 단계를 포함하는 것을 특징으로 하는 기억 매체.
  11. 제 10 항에 있어서, 상기 기억 매체가 압축 디스크(compact disc)인 것을 특징으로 하는 기억 매체.
  12. 제 10 항에 있어서, 상기 기억 매체가 디지탈 기록 수단인 것을 특징으로 하는 기억 매체.
  13. 오디오 신호를 전송하는 방법에 있어서, 상기 방법이
    (a) 제 1 세트의 주파수 계수를 갖는 불연속 주파수 스팩트럼을 각각 구비하는 정돈된 일련의 블럭으로 분할된 오디오 순차 신호를 처리하는 단계 및,
    (b) 상기 각 블럭에 대해서,
    (1) 적어도 하나의 주파수 계수를 갖는 각 그룹의 적어도 한 그룹으로 상기 제 1 세트의 주파수 계수를 그루핑하는 단계와,
    (2) 오디오 순차 신호가 유사 음양을 가질 정도를 반영하는 적어도 하나의 음조값과, 관련 음조값을 갖는 각각의 그룹을 생성하는 단계와,
    (3) 적어도 하나의 음조값에 기초한 상기 적어도 하나의 잡음 마스킹 스레숄드를 생성하는 단계와,
    (4) 상기 적어도 하나의 잡음 마스킹 스레숄드에 기초하여, 일련의 양자화된 주파수 계수를 초래하는 상기 적어도 한 그룹에서 적어도 하나의 주파수 계수를 양자화하는 단계와,
    (5) 상기 일련의 양자화된 주파수 계수를 나타내는 신호를 갖는 전송 신호를 생성하는 단계 및
    (6) 상기 전송 신호를 전송 매체에 인가하는 단계를 포함하는 것을 특징으로 하는 오디오 신호 전송 방법.
  14. 제 13항에 있어서, 상기 전송 매체가 전기적 전송 매체인 것을 특징으로 하는 오디오 신호 전송 방법.
  15. 제 13 항에 있어서, 상기 전송 매체가 전기적 전도 매체인 것을 특징으로 하는 오디오 신호 전송 방법.
  16. (신설) 제 13 항에 있어서, 상기 전송 매체가 광학 전송 매체인 것을 특징으로 하는 오디오 신호 전송 방법.
  17. 제 1 세트의 주파수 계수를 갖는 불연속 주파수 스팩트럼을 구비하는 상기 각 일련의 정돈된 블럭으로 분할된 오디오 순차 신호를 표시하는 신호를 발생하는 방법에 있어서, 상기 방법이 상기 각 블럭에 대해,
    (a) 임계 대역 주파수를 나타내고 적어도 하나의 주파수 계수를 갖는 상기 다수의 그룹에서 각 그룹에 상기 제 1 세트의 주파수 계수를 그루핑하는 단계와,
    (b) 주파수계수의 상기 다수의 그룹에서의 상기 각 그룹에 대하여, 상기 오디오 순차 신호가 유사 음양을 가질 정도를 반영하는 상기 음조값을 생성하는 단계와,
    (c) 주파수 계수의 상기 다수의 그룹에서의 상기 각 그룹에 대하여, 각 그룹에 대해 상기 음조값에 기초한 각각의 상기 잡음 마스킹 스레숄드를 생성하는 단계 및,
    (d) 상기 그룹과 결합된 상기 잡음 마스킹 스레숄드 및 소정수의 비트를 기초하여, 상기 각 그룹내의 상기 적어도 하나의 주파수 계수에 각 주파수 계수를 양자화하는 단계를 포함하는 것을 특징으로 하는 오디오 순차 신호를 표시하는 신호 발생 방법.
KR1019890020041A 1988-12-30 1989-12-29 오디오 신호 코딩 방법 KR0137472B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US29259888A 1988-12-30 1988-12-30
US292.598 1988-12-30

Publications (2)

Publication Number Publication Date
KR900011162A KR900011162A (ko) 1990-07-11
KR0137472B1 true KR0137472B1 (ko) 1998-06-15

Family

ID=23125368

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1019890020041A KR0137472B1 (ko) 1988-12-30 1989-12-29 오디오 신호 코딩 방법

Country Status (9)

Country Link
EP (1) EP0376553B1 (ko)
JP (1) JPH0748698B2 (ko)
KR (1) KR0137472B1 (ko)
AU (1) AU611067B2 (ko)
CA (1) CA2002015C (ko)
DE (1) DE68927927T2 (ko)
ES (1) ES2099695T3 (ko)
GR (1) GR3023926T3 (ko)
HK (1) HK107997A (ko)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE40280E1 (en) 1988-12-30 2008-04-29 Lucent Technologies Inc. Rate loop processor for perceptual encoder/decoder
EP0559348A3 (en) 1992-03-02 1993-11-03 AT&T Corp. Rate control loop processor for perceptual encoder/decoder
DE4211945C1 (ko) * 1992-04-09 1993-05-19 Institut Fuer Rundfunktechnik Gmbh, 8000 Muenchen, De
PL173718B1 (pl) * 1993-06-30 1998-04-30 Sony Corp Sposób i urządzenie do kodowania sygnałów cyfrowych
US5623577A (en) * 1993-07-16 1997-04-22 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for encoding method and apparatus with allowance for decoder spectral distortions
US5632003A (en) * 1993-07-16 1997-05-20 Dolby Laboratories Licensing Corporation Computationally efficient adaptive bit allocation for coding method and apparatus
DE69427726T2 (de) * 1993-09-10 2002-05-08 Sony Corp., Tokio/Tokyo Quantisierungsgerät
BE1007616A3 (nl) * 1993-10-11 1995-08-22 Philips Electronics Nv Transmissiesysteem met vereenvoudigde broncodering.
KR0134318B1 (ko) * 1994-01-28 1998-04-29 김광호 채널간의 마스킹특성을 고려한 비트할당장치 및 그 방법과 복호화장치
US5488365A (en) * 1994-03-01 1996-01-30 Hewlett-Packard Company Method and apparatus for compressing and decompressing short blocks of data
FR2723493B1 (fr) * 1994-08-05 1997-01-10 France Telecom Procede et dispositif de codage et de decodage sonore par compression frequentielle, notamment pour application a une memoire de masse sonore.
US8041042B2 (en) 2006-11-30 2011-10-18 Nokia Corporation Method, system, apparatus and computer program product for stereo coding
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
WO2019091573A1 (en) * 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
CN113747236A (zh) * 2021-10-19 2021-12-03 江下信息科技(惠州)有限公司 一种基于多线程的音频格式高速转换方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4646061A (en) * 1985-03-13 1987-02-24 Racal Data Communications Inc. Data communication with modified Huffman coding
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
EP0314018B1 (en) * 1987-10-30 1993-09-01 Nippon Telegraph And Telephone Corporation Method and apparatus for multiplexed vector quantization

Also Published As

Publication number Publication date
HK107997A (en) 1997-08-22
JPH03121633A (ja) 1991-05-23
AU611067B2 (en) 1991-05-30
DE68927927D1 (de) 1997-05-07
CA2002015C (en) 1994-12-27
JPH0748698B2 (ja) 1995-05-24
EP0376553B1 (en) 1997-04-02
AU4608389A (en) 1990-07-05
GR3023926T3 (en) 1997-09-30
EP0376553A2 (en) 1990-07-04
ES2099695T3 (es) 1997-06-01
KR900011162A (ko) 1990-07-11
CA2002015A1 (en) 1990-06-30
EP0376553A3 (en) 1992-05-20
DE68927927T2 (de) 1997-07-17

Similar Documents

Publication Publication Date Title
US5341457A (en) Perceptual coding of audio signals
KR100209870B1 (ko) 오디오 신호의 순서화된 타임 시퀸스 처리 방법 및 오디오 신호 전송 방법
EP0966108B1 (en) Dynamic bit allocation apparatus and method for audio coding
US5764698A (en) Method and apparatus for efficient compression of high quality digital audio
US5664056A (en) Digital encoder with dynamic quantization bit allocation
AU648656B2 (en) High efficiency digital data encoding and decoding apparatus
KR100991450B1 (ko) 스펙트럼 홀 충전을 사용하는 오디오 코딩 시스템
JP3131542B2 (ja) 符号化復号化装置
KR101019678B1 (ko) 저비트율 오디오 코딩
JP3277692B2 (ja) 情報符号化方法、情報復号化方法及び情報記録媒体
KR100397690B1 (ko) 데이터부호화장치및그방법
JP3153933B2 (ja) データ符号化装置及び方法並びにデータ復号化装置及び方法
KR0137472B1 (ko) 오디오 신호 코딩 방법
JP3145339B2 (ja) オーディオ信号処理方法
JP3186292B2 (ja) 高能率符号化方法及び装置
US7650278B2 (en) Digital signal encoding method and apparatus using plural lookup tables
JP2005338850A (ja) デジタル信号の符号化方法及び装置ならびに復号化方法及び装置
JPH09134200A (ja) ディジタル・オーディオ符号化方法及びその装置
JP3465341B2 (ja) オーディオ信号符号化方法
US6765930B1 (en) Decoding apparatus and method, and providing medium
Teh et al. Subband coding of high-fidelity quality audio signals at 128 kbps
JP3134384B2 (ja) 符号化装置及び方法
KR100351772B1 (ko) 디지털부호화장치,디지털기록신호도출장치및디지털신호데이터도출방법
JPH0918348A (ja) 音響信号符号化装置及び音響信号復号装置
JP3146121B2 (ja) 符号化復号化装置

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20100203

Year of fee payment: 13

LAPS Lapse due to unpaid annual fee