KR100331166B1 - 오디오신호를 코딩하기 위한 방법 및 장치와 비트스트림을디코딩하기 위한 방법 및 장치 - Google Patents

오디오신호를 코딩하기 위한 방법 및 장치와 비트스트림을디코딩하기 위한 방법 및 장치 Download PDF

Info

Publication number
KR100331166B1
KR100331166B1 KR1020007002699A KR20007002699A KR100331166B1 KR 100331166 B1 KR100331166 B1 KR 100331166B1 KR 1020007002699 A KR1020007002699 A KR 1020007002699A KR 20007002699 A KR20007002699 A KR 20007002699A KR 100331166 B1 KR100331166 B1 KR 100331166B1
Authority
KR
South Korea
Prior art keywords
signal
coded
spectrum value
value
coding
Prior art date
Application number
KR1020007002699A
Other languages
English (en)
Other versions
KR20010015588A (ko
Inventor
베른하트 그릴
쥬르겐 헤르
보도 타이크만
칼하인쯔 부란덴부르크
하인쯔 게라우세
Original Assignee
슈베르트 헬무트
프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 슈베르트 헬무트, 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. filed Critical 슈베르트 헬무트
Publication of KR20010015588A publication Critical patent/KR20010015588A/ko
Application granted granted Critical
Publication of KR100331166B1 publication Critical patent/KR100331166B1/ko

Links

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B1/00Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission
    • H04B1/66Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission
    • H04B1/665Details of transmission systems, not covered by a single one of groups H04B3/00 - H04B13/00; Details of transmission systems not characterised by the medium used for transmission for reducing bandwidth of signals; for improving efficiency of transmission using psychoacoustic properties of the ear, e.g. masking effect
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B14/00Transmission systems not characterised by the medium used for transmission
    • H04B14/02Transmission systems not characterised by the medium used for transmission characterised by the use of pulse modulation
    • H04B14/04Transmission systems not characterised by the medium used for transmission characterised by the use of pulse modulation using pulse code modulation
    • H04B14/046Systems or methods for reducing noise or bandwidth

Abstract

본 발명은 스케일러블 오디오 부호기와 TNS기술의 조합을 허용한다. 제1샘플링속도로 샘플링된 시간신호(x1)를 코딩하는 방법에 있어서, 샘플링속도가 상기 제1샘플링속도보다 작은 제2시간신호(x2)를 먼저 생성한다(12). 이 제2시간신호(x2)는 제1 코딩알고리즘에 따라 코딩되어 비트스트림(xAUS)에 기입된다(16). 그러나 코딩된 제2시간신호(x2c)는 다시 디코딩되고 제1시간신호와 마찬가지로 주파수영역으로 변환된다(23,24). 제1시간신호(x1)의 스펙트럼값으로부터 TNS예측계수를 계산한다(25). 제1코딩알고리즘으로 변환된 부호기/복호기(14)의 출력신호(x2cd)는 제1시간신호의 스펙트럼값과 마찬가지로 주파수에 관한 예측을 거쳐(27) 두 신호에 대한 잔류스펙트럼값을 구한다. 이때, 제1시간신호를 기초로 하여 계산한 예측계수만을 사용한다. 이 두 신호는 서로 평가된다(26,28). 평가된 잔류스펙트럼값( b)은 제2코딩알고리즘에 의해 코딩하여 코딩된 평가된 잔류스펙트럼값을 얻는다. 이것은 상기 계산된 예측계수를 포함하는 부수적인 정보와 함께 비트스트림(xAUS)에 기입된다.

Description

오디오신호를 코딩하기 위한 방법 및 장치와 비트스트림을 디코딩하기 위한 방법 및 장치{Methods and devices for encoding audio signals and methods and devices for decoding a bit stream}
스케일러블 오디오부호기는 모듈방식으로 설계된다. 따라서 이미 존재하고 있는, 예컨대 8kHz로 샘플링된 신호를 처리하여 초당 4.8 내지 8kbit의 데이터속도를 생성하는 음성 부호기를 사용하기 위해서는 어떠한 시도가 이루어져야 한다. 이러한 공지의 부호기, 즉, 부호기 G.729, G.723, FS1016, CELP 또는 MPEG-4-Audio를 위한 파라메트릭 모델들(parametric models)과 같이 당 분야의 통상의 지식을 가진 자들에게 알려져 있는 부호기들은 음성신호를 우선적으로 코딩하며, 8kHz로 샘플링된 신호를 위해 설계되기 때문에 일반적으로 고품질의 음악신호에는 적합하지 않으므로 기껏해야 오디오 대역폭 4kHz를 코딩할 수 있을 뿐이다. 그러나 이러한 부호기들은 음성신호에 대해 낮은 샘플링속도와 높은 품질을 나타낸다.
스케일러블 부호기로 음악신호를 오디오 코딩하기 위해, 예컨대 HIFI 품질이나 CD품질을 얻기 위해 음성부호기를 48kHz의 높은 샘플링속도로 신호를 코딩할 수 있는 오디오부호기와 조합한다. 또한, 상기한 음성부호기를 MPEG1, MPEG2 또는 MPEG4의 표준에 따라 다른 부호기, 즉, 음악/오디오 부호기로 교체하는 것도 가능하다.
이러한 종류의 연쇄회로(chain circuit)는 음성부호기와 고품질 오디오 부호기를 포함한다. 48kHz의 샘플링속도를 가진 입력신호는 저율 표본화(downsampling) 필터에 의해 음성 부호기를 위한 적절한 샘플링주파수로 변환된다. 그러나 샘플링속도는 음성부호기와 오디오부호기에서 동일할 수 있다. 이어서 변환된 신호가 코딩된다. 이 코딩된 신호는 전송을 위해 비트스트림 포맷팅소자로 직접 전달될 수 있다. 이 신호는 기껏해야 4kHz의 대역폭을 갖는 신호만을 포함한다. 상기 코딩된 신호는 다시 디코딩되고 고율 표본화(upsampling) 필터에 의해 변환된다. 그러나 이와 같이 얻어진 신호는 상기 저율 표본화 필터 때문에 대역폭이 4kHz인 유용한 정보만을 포함하게 된다. 또한, 일반적으로 부호기는 코딩 에러를 발생시키기 때문에 저대역 내지 4kHz에서 상기 변환된 코딩/디코딩된 신호의 스펙트럼성분이 48kHz로 샘플링된 입력신호의 처음 4kHz 대역에 정확하게 상응하지 않는다는 것을 기억해야 한다.
상기한 바와 같이 스케일러블 부호기는 일반적으로 알려져 있는 음성부호기와 높은 샘플링속도로 신호를 처리할 수 있는 오디오부호기를 포함한다. 4kHz이상의 주파수를 갖는 입력신호의 신호성분들을 전달할 수 있기 위해서는 각각의 개별적인 불연속시간 샘플링된 값(discrete-time sampled value)에 대해 8kHz의 입력신호와 코딩/디코딩된 변환된 음성부호기의 출력신호간의 차를 형성한다. 이러한 신호차는 알려져 있는 바와 같이 양자화하고 공지의 오디오부호기를 사용하여 코딩할 수 있다. 여기서, 코딩에러는 제외하고, 높은 샘플링속도로 신호를 코딩할 수 있는 오디오 부호기로 전달되는 상기 차신호는 낮은 주파수범위에서 본질적으로 0인 점에 주목해야 한다. 상향 변환된 상기 음성부호기의 코딩/디코딩된 출력신호의 대역폭 이상의 스펙트럼 범위에서 상기 차신호는 48kHz의 정확한 입력신호에 해당된다.
제1단, 즉, 음성부호기 단계에서는 코딩된 신호의 매우 낮은 비트율을 얻는 것이 목적이기 때문에 일반적으로 낮은 샘플링주파수의 부호기를 사용한다. 현재 상기한 부호기를 포함하는 많은 부호기들이 수kbit (2 내지 8kbit 또는 그 이상)의 비트율로 동작하고 있다. 또한, 이러한 낮은 비트율로는 오디오 대역폭이 불가능하며, 컴퓨터 작업을 고려하면 낮은 샘플링주파수에서의 코딩이 보다 유리하므로 상기 부호기들은 최대 샘플링주파수 8kHz를 가능하게 한다. 최대로 가능한 오디오 대역폭은 4kHz이며 실제로 이것은 약 3.5kHz로 제한된다. 다음 단, 즉, 오디오 부호기가 사용되는 단계에서 대역폭이 증진된다면 이 단계는 보다 높은 샘플링주파수로 동작해야 한다.
데이터의 양을 더욱 감소시키기 위해 고품질의 오디오 코딩에서 TNS 기술을 사용하는 것으로 알려져 있다 (J. Herre, J. D. Johnston, 'Enhancing the Performance of Perceptual Audio Coders by Using Temporal Noise Shaping (TNS)', 101회 AES회의, 로스앤젤레스 1996, 프리프린트 4384). 이 TNS기술 (TNS = Temporal Noise Shaping)은 일반적으로 스펙트럼값들의 예측코딩에 의해 양자화잡음의 미세구조를 일시적으로 정형한다. TNS기술은 시간영역과 주파수영역간의 이중성의 지속적인 응용에 기초한다. 본 기술분야에서는 자기상관함수가 주파수영역으로 변환되면, 이시간신호의 스펙트럼 파워밀도를 부여하는 것으로 알려져 있다. 어떠한 신호의 스펙트럼의 자기상관함수가 형성되어 시간영역으로 변환되면 이중의 경우가 발생한다. 시간영역으로 변환되거나 시간영역으로 다시 변환된 자기상관함수를 시간신호의 힐버트포락선 곡선의 제곱이라고도 한다. 어떤 신호의 힐버트포락선 곡선은 그 스펙트럼의 자기상관함수와 직접 연결된다. 어떤 신호의 힐버트포락선 곡선의 제곱과 그 스펙트럼 파워밀도는 시간영역과 주파수영역에서의 이중적인 면을 나타낸다. 신호의 힐버트포락선 곡선이 어떠한 주파수범위에 걸쳐 부분적인 대역통과신호에 대해 일정하다면, 인접한 스펙트럼값들 사이의 자기상관도 일정할 것이다. 이것은 일련의 스펙트럼 계수들이 주파수에 대하여 고정되어 있으므로 예측코딩기술을 효과적으로 이용하여 이 신호를 나타낼 수 있으며, 또한 예측계수들의 공통집합을 사용함으로써 이 신호를 나타낼 수 있다는 것을 의미한다.
명확한 설명을 위해 도 6A 및 도 6B를 참조하기로 한다. 도 6A는 약 40ms의 지속시간을 가지며 일시적으로 매우 과도한 '캐스터네트' 신호의 일부를 나타낸 것이다. 이 신호는 각각이 500Hz의 대역폭을 갖는 다수의 부분적인 대역통과신호들로 분해된다. 도 6B는 1500Hz에서 4000Hz의 중간주파수를 갖는 이들 대역통과신호들에 대한 힐버트포락선 곡선을 나타낸 것이다. 보다 명확하게 하기 위하여 모든 포락선 곡선들은 그들의 최대진폭으로 정규화되어 있는 것으로 한다. 모든 개개의 포락선곡선의 형태는 서로 매우 유사하며, 이 때문에 신호를 효율적으로 코딩하기 위해 상기 주파수범위내에서 공통예측기를 사용할 수 있게 된다. 인간의 음성생성 메카니즘의 특성으로 인해 전체주파수범위에 걸쳐서 성문여기펄스(glottal excitationpulse)의 효과가 나타나는 음성신호에 대해서도 유사한 관찰이 이루어질 수 있다.
도 6B는 주파수 2000Hz에서의 인접한 값들의 상관이 3000Hz 또는 1000Hz에서의 인접한 값들의 상관과 같다는 것을 보여주는 것이다.
도 5에 도시한 표를 고려하면 과도신호의 스펙트럼 예측가능성의 특성을 이해할 수 있다. 표의 좌측 상단에는 연속적인 시간신호 u(t)가 사인파의 형태로 도시되어 있다. 그 옆에는 하나의 다이랙펄스(Dirac pulse)로 이루어진 상기 시간신호의 스펙트럼 U(f)가 도시되어 있다. 완전한 시간신호를 위해서는 시간신호를 완전하게 재구성할 수 있도록 하기 위해 푸리에 계수의 크기와 위상만이 전달되도록 해야 하기 때문에 상기 신호를 코딩하는 최적의 방법은 스펙트럼 데이터 또는 스펙트럼값들을 코딩하는 것이다. 스펙트럼 데이터의 코딩은 시간영역에서의 예측에 해당한다. 따라서 예측코딩은 시간영역에서 일어나야 할 것이다. 사인파의 시간신호는 평탄한 일시적인 포락선 곡선을 가지는데 이것은 주파수영역에서 가장 평탄하지 않은 포락선 곡선에 해당하는 것이다.
상기와 반대의 경우로서, 시간신호 u(t)가 시간영역에서 다이랙펄스의 형태를 가진 가장 과도한 신호인 경우를 살펴본다. 시간영역에서의 다이랙펄스는 '평탄한' 파워스펙트럼에 해당하며, 위상스펙트럼은 펄스의 시간위치에 따라 회전한다. 이 신호가 상술한 종래의 방법들, 즉, 변환코딩 또는 스펙트럼 데이터의 코딩 또는 시간영역 데이터의 선형 예측코딩에 대해 문제를 가지고 있음은 명백하다. 이 신호는 다이랙펄스의 일시적인 위치와 파워만을 전달해야 하기 때문에 가장 효율적으로 잘 코딩할 수 있다. 이것은 이중성(Dualism)의 지속적인 사용을 통해 주파수영역에서의 예측코딩이 효율적인 코딩을 위한 적합한 방법도 구성한다는 것을 의미하는 것이다.
주파수에 대한 스펙트럼계수의 예측코딩을 상기의 문헌(M. Bosi, K. Brandenburg, S. Quakenbusch, L. Fiedler, K. Akagiri, H. Fuchs, M. Dietz, J. Herre, G. Davidson, Yoshiaki Oikawa: 'ISO/IEC MPEG-2 Advanced Audio Coding', 101회 AES회의, 로스앤젤레스 1996, 프리프린트 4382)에 기술된 한 블록에서 다음 블록으로의 스펙트럼계수의 예측이라는 공지의 이중적인 개념과 혼동하지 않는 것이 매우 중요하다. 시간에 대한 예측에 해당되는 한 블록에서 다음 블록으로의 스펙트럼계수의 예측에 있어서, 스펙트럼 분해능(spectral resolution)은 증가하는 반면, 주파수에 대한 스펙트럼계수의 예측은 일시적인 분해능을 증가시킨다. 따라서 동일한 블록 또는 프레임에 있어서, 예컨대 1000Hz의 주파수에서의 스펙트럼계수를 900Hz에서의 스펙트럼계수로부터 결정할 수 있다.
상기한 이유들로부터 과도신호에 대한 효율적인 코딩방법이 얻어지게 된다. 어떠한 스펙트럼계수를 다음 블록의 동일한 주파수를 갖는 스펙트럼계수로 예측하는 공지의 예측기술과 유사하게 시간영역과 주파수영역간의 이중성을 고려하여 예측코딩기술을 다룰 수 있다. 어떠한 신호의 스펙트럼 파워밀도와 힐버트포락선 곡선의 제곱은 서로 이원적이기 때문에 종래의 예측방법에서와 마찬가지로 상기 신호의 제곱된 힐버트포락선 곡선의 평탄도의 크기에는 의존하지만 평탄도의 스펙트럼 크기에는 의존하지 않는 잔류신호에너지의 감소 또는 예측이득이 얻어진다. 신호가 더욱 과도적으로 됨에 따라 잠재적인 코딩이득은 증가한다.
가능한 코딩구조로서 역방향 예측이라고도 알려져 있는 폐쇄루프를 가진 예측구조와 순방향 예측이라고도 알려져 있는 개방루프를 가진 예측구조가 있다. 폐쇄루프를 가진 스펙트럼 예측(역방향 예측)의 경우에는 에러신호의 포락선 곡선이 평탄하다. 달리 표현하면, 에러신호의 에너지가 시간영역에 걸쳐서 균일하게 분포한다.
그러나 순방향 예측의 경우에는 도 7에 나타낸 바와 같이 양자화에 의해 도입된 잡음의 일시적인 정형이 존재한다. 예측할 스펙트럼계수(t)는 합산점(600)으로 전달된다. 이 스펙트럼계수는 또한 예측기(610)로도 전달되며, 음의 부호(-)를 가진 예측기의 출력신호는 합산점(600)에 인가된다. 따라서 양자화기(620)로의 입력신호는 스펙트럼값(t)과 예측에 의해 계산된 스펙트럼값 P(f)의 차이를 나타낸다. 순방향 예측을 위해 디코딩된 스펙트럼계수 데이터의 전체 에러에너지는 일정하게 유지될 것이다. 그러나 예측이 스펙트럼계수에 대해 이루어졌기 때문에 양자화 에러신호의 일시적인 형태가 복호기의 출력에서 일시적으로 정형됨으로써 양자화 잡음은 실제 신호 아래에 일시적으로 위치하며 이에 따라 마스킹(masked)될 수 있다. 이와 같이 하여 과도신호 또는 음성신호를 위한 일시적인 마스킹(masking)의 문제를 해결한다.
이러한 형태의 스펙트럼값의 예측코딩을 TNS 또는 일시적 잡음정형기술이라고 한다. 도 8A를 참조하여 이 기술을 보다 명확하게 설명한다. 도 8A의 좌측 상단에는 매우 과도한 시간신호의 일시적인 형태를 나타내었다. 8A의 우측 상단에는 DCT 스펙트럼의 일부를 나타내었다. 도 8A의 좌측 하단의 그래프는 LPC(Linear Prediction Coding) 동작에 의해 계산된 TNS 합성필터의 주파수응답을 도시한 것이다. 본 도면에서의 (정규화된) 주파수좌표는 시간영역과 주파수영역의 이중성으로 인해 시간좌표에 해당된다는 데에 주목해야 한다. LPC에 의해 계산된 합성필터의 주파수응답이 매우 과도한 시간신호의 포락선 곡선과 유사하므로 LPC 계산에 의해 입력신호의 '소오스 모델'이 만들어진다. 주파수영역에 걸친 예컨대 도 7의 양자화기(620)의 입력신호의 잔류 스펙트럼값을 도 8A의 우측 하단에 도시하였다. 예측후의 잔류 스펙트럼값과 직접적인 시간-주파수 변환에 의해 얻은 스펙트럼값을 비교해 보면 잔류 스펙트럼값이 원래의 스펙트럼값보다 훨씬 작은 에너지를 가지고 있음을 알 수 있다. 예컨대, 잔류 스펙트럼값의 에너지의 감소는 전체 예측이득인 약 12dB에 해당한다.
도 8A의 좌측 하단의 그래프와 관련해서 다음의 사항들에 주의해야 한다. 시간영역의 신호들에 대한 통상적인 예측기술을 사용하기 위해 상기 합성필터의 주파수응답은 입력신호의 크기 스펙트럼과 유사하다. 합성필터는 대략적으로 '하얀' 스펙트럼을 가진 잔류신호로부터 신호의 스펙트럼형태를 어느 정도까지는 (재)생성한다. TNS기술의 경우와 같이 스펙트럼 신호에 예측이 사용되면 합성필터의 주파수응답은 입력필터의 포락선 곡선과 유사하게 된다. 합성필터의 주파수응답은 통상적인 경우에서와 같은 펄스응답의 푸리에변환의 결과가 아니라 역푸리에변환의 결과이다. TNS 합성필터는 대략적으로 '하얀' (즉, 평탄한) 포락선 곡선을 갖는 잔류신호로부터 신호의 포락선 곡선의 형태를 재(생성)한다. 따라서 도 8A의 좌측 하단의 그래프는 TNS 합성필터에 의해 모델링한 입력신호의 포락선 곡선을 나타낸다. 이것은 도 8A의 좌측 상단에 도시된 캐스터네트 신호와 유사한 포락선 곡선의 대수적인 표현이다.
코딩 잡음이 잔류 스펙트럽값에 도입됨으로써 약 13dB의 신호 대 잡음비가 0.5 Bark의 폭을 가진 각각의 코딩대역에 나타나게 된다. 양자화잡음의 도입에 의해 발생한 시간영역에서의 에러신호를 도 8B에 도시하였다. 도 8B의 좌측 도면은 TNS기술을 이용했을 때의 양자화 잡음으로 인한 에러신호를 나타낸 것이며, 우측 도면은 비교를 위해 TNS기술을 사용하지 않았을 경우를 나타낸 것이다. 예상되는 바와 같이 좌측 도면의 에러신호는 블록에 걸쳐서 균일하게 분포하지 않으며 양자화잡음을 최적으로 마스킹할 높은 신호성분이 존재하는 영역에 집중된다. 우측 도면의 경우에는 도입된 양자화잡음이 블록에 걸쳐서, 즉, 시간에 대하여 균일하게 분포하며, 앞부분에는 신호가 존재하지 않거나 또는 청취가능한 잡음도 존재하는 반면에 높은 신호성분이 존재하는 영역에는 상대적으로 잡음이 적어서 신호의 마스킹 가능성을 이용할 수 없다.
단순한, 즉, 언스케일러블(unscalable) TNS필터를 갖춘 오디오부호기를 이하에 설명한다.
도 9A에 부호기에 있어서의 TNS필터(804)를 도시하였다. 이 필터는 분석필터 뱅크(802)과 양자화기(806) 사이에 위치한다. 도 9A에 도시된 부호기를 위한 불연속 시간 입력신호는 오디오 입력부(800)로 인가되며, 양자화된 오디오신호, 즉, 양자화된 스펙트럼값 또는 양자화된 잔류 스펙트럼값은 출력부(808)에서 출력된다. 이 출력부의 뒤에는 리던던시 부호기가 연결될 수 있다. 이에 따라 상기 입력신호는 스펙트럼값으로 변환된다. 계산된 스펙트럼값을 기준으로 하여 정상적인 선형 예측 계산을 수행한다. 즉, 스펙트럼값의 자기상관 매트릭스를 형성하고 레빈슨-더빈 반복(Levinson-Durbin recurtion)을 이용하여 정상적인 선형 예측 계산을 수행한다. 도 9B에 TNS필터(804)를 상세하게 나타내었다. 스펙트럼값들((1), ...,(i), ...,(n))은 필터 입력부(810)로 입력된다. 어떠한 특정 주파수범위만 과도신호를 나타내고 다른 주파수범위는 고정된 성질을 가질 수도 있다. 이러한 사실은 입력스위치(812)와 출력스위치(814)를 통해 TNS필터(804)에서 고려된다. 이들 스위치의 주된 기능은 처리할 데이터를 병렬에서 직렬 또는 직렬에서 병렬로 변환하는 것이다. 어떠한 특정 주파수범위가 불안정하며 TNS기술에 의해 어떤 코딩이득이 보장된다면, 이 스펙트럼범위만 TNS처리한다. 이는 입력스위치(812)가 예컨대 스펙트럼값((i))에서 시작하여 예컨대 스펙트럼값((i+2))까지 계속되는 경우에 이루어진다. 상기 필터의 내부영역은 순방향 예측구조, 즉, 예측기(610)와 합산점(600)을 포함한다.
TNS필터의 필터계수를 결정하거나 예측계수를 결정하기 위한 계산은 다음과 같이 수행한다. 잡음 정형필터의 허용가능한 최고 차수, 즉, 20에 대하여 자기상관 매트릭스를 형성하고 레빈슨-더빈 반복을 이용한다. 계산된 예측이득이 소정의 문턱값을 초과하면 TNS처리가 활성화된다.
현재 블록에 대하여 이용된 잡음 정형필터의 차수는 계수 어레이의 끝에서 충분히 작은 절대값을 갖는 모든 계수들을 차례로 제거하여 결정한다. 이에 따라 음성신호에 대해 4-12의 범위내의 값을 갖는 TNS필터의 차수가 얻어진다.
예컨대 스펙트럼값((i))의 범위에 대하여 충분히 높은 코딩이득이 결정되면, 이 범위가 처리되어 TNS필터의 출력에 스펙트럼값((i)) 대신에 잔류 스펙트럼값( R(i))이 나타난다. 이 잔류 스펙트럼값은 도 8A에서 알 수 있듯이 원래의 스펙트럼값((i))보다 훨씬 작은 크기를 가진다. 정상적인 부수 정보이외에 복호기로 전달되는 부수적인 정보는 TNS의 사용을 표시하는 플래그와, 필요할 경우 목표 주파수범위에 대한 정보와 코딩에 사용된 TNS필터에 대한 정보를 포함한다. 필터 데이터는 양자화된 필터계수로 표현할 수 있다.
TNS필터를 갖춘 부호기와 유사한 역TNS필터를 갖춘 복호기에 대해 다음에 설명한다.
도 10A에 도시한 복호기에 있어서, TNS 코딩을 역으로 수행한다. 잔류 스펙트럼값( R(i))은 역양자화기(216)에서 재양자화되어 역TNS필터(900)로 입력된다. 이 역TNS필터의 구성을 도 10B에 상세히 도시하였다. TNS필터(900)의 출력신호는 스펙트럼값을 다시 전달하는바, 이것은 합성필터뱅크(218)의 시간영역으로 변환된다. TNS필터(900)는 입력스위치(902)와 출력스위치(908)를 포함하는데, 이 스위치들의 주된 기능은 처리할 데이터를 병렬에서 직렬, 또는 직렬에서 병렬로 변환시키는 것이다. 입력스위치(902)는 가능한 목표 주파수범위를 고려하여 잔류 스펙트럼값만이 역TNS코딩되도록 하는 반면, TNS코딩되지 않은 스펙트럼값은 변화되지 않고 출력부(910)로 통과되도록 한다. 역예측필터는 예측기(906)와 합산점(904)을 포함한다. 그러나 TNS필터와는 달리 예측기와 합산점은 다음과 같이 연결된다. 잔류 스펙트럼값은 입력스위치(902)를 통해 합산점(904)에 도달되며, 합산점에서 예측기(906)의 출력신호와 합해진다. 출력신호와 같이 상기 예측기는 예측된 스펙트럼값( P(i))을 제공한다. 스펙트럼값((i))은 출력스위치를 통해 역TNS필터의 출력부에서 출력된다. TNS와 관련된 부수적인 정보는 복호기에서 디코딩된다. 상기 부수적인 정보는 TNS의 사용을 표시하는 플래그와, 필요할 경우 목표 주파수범위와 대한 정보를 포함한다. 또한, 상기 부수적인 정보는 블록 또는 "프레임"을 코딩하는데 사용된 예측필터의 필터계수를 포함한다.
TNS기술은 다음과 같이 요약될 수 있다. 입력신호는 고분해능 분석필터뱅크에 의해 스펙트럼값의 형태로 변환된다. 그런 다음 주파수에 대하여 인접하는 스펙트럼값들간의 선형 예측을 주파수영역에서 행한다. 이 선형 예측은 스펙트럼영역에서 수행되는 스펙트럼값을 필터링하기 위한 필터처리로 해석될 수 있다. 이런 식으로 원래의 스펙트럼값은 예측에러, 즉, 잔류 스펙트럼값으로 대체된다. 정상적인 스펙트럼값과 똑같이 양자화되고 코딩되는 이 잔류 스펙트럼값은 복호기로 전달되며, 복호기에서 이 값은 디코딩되고 역으로 양자화된다. 역필터뱅크(합성필터뱅크)를 사용하기 전에 부호기에서 수행되는 예측에 반대되는 역예측을 역예측필터가 전달된 예측 에러신호, 즉, 재양자화된 잔류 스펙트럼값에 이용되는 경우에 수행한다.
이러한 기술을 이용함으로써 양자화잡음의 일시적인 포락선 곡선을 입력신호의 포락선 곡선에 정합시킬 수 있다. 이에 따라 일시적인 미세구조 또는 과도형태가 뚜렷한 신호에 대해 에러신호의 마스킹을 보다 잘 이용할 수 있게 된다. 과도신호의 경우, TNS기술은 양자화잡음이 신호의 '개시'에 앞서 나타나는 이른바 '프리에코'를 해결한다.
상술한 바와 같이 스케일러블 오디오부호기에 있어서, 일반적으로 코딩된 신호의 매우 낮은 비트율을 구하므로 낮은 샘플링주파수를 갖는 부호기를 첫 번째 단에서 이용한다. 오디오부호기는 두 번째 단에 있는 것이 바람직한데, 이 오디오부호기는 높은 비트율로 코딩하지만 훨씬 큰 대역폭을 필요로 하므로 음성부호기보다 훨씬 높은 소리 품질을 갖는 오디오신호를 코딩할 수 있다. 정상적으로는 높은 샘플링속도를 가지는 코딩할 오디오신호를 저율 표본화 필터에 의해 낮은 샘플링속도로 먼저 하향 변환한다. 감소된 샘플링속도를 갖는 신호는 첫 번째 단의 부호기로 인가되며, 이 부호기의 출력신호는 상기 스케일러블 오디오부호기로부터 출력되는 비트스트림에 직접 기입된다. 낮은 대역폭을 갖는 이 코딩된 신호는 다시 디코딩된 후, 고율 표본화필터에 의해 높은 샘플링속도로 다시 돌아간 다음 주파수영역으로 변환된다. 주파수영역으로 변환된 신호는 원래 부호기의 입력에 존재하는 오디오신호이다. 두 개의 오디오신호가 사용 가능하지만, 첫 번째 오디오신호는 첫 번째 단의 부호기의 코딩에러의 영향을 받는다. 주파수영역의 이 두 오디오신호는 두 신호간의 차이만을 나타내는 신호를 얻기 위해 디퍼런스소자(difference element)로 인가될 수 있다. 후술할 바와 같이 주파수선택 스위치로 구현될 수 있는 스위칭 모듈에 있어서, 상기 두 입력신호들간의 차를 처리하는 것이 좋은지, 아니면 주파수영역으로 변환된 원래의 오디오신호를 직접 처리하는 것이 좋은지 결정할 수 있다. 어떠한 경우이든 스위칭모듈의 출력신호는 공지의 양자화기/부호기, 예를 들면, MPEG 표준에 따라 기능할 경우 사이코어쿠스틱 모델(psychoacoustic model)을 고려한 양자화를 수행한 다음, 양자화 스펙트럼값을 가는 호프만 코딩을 이용하여 엔트로피코딩을 수행하는 양자화기/부호기로 인가된다. 상기 양자화기 및 부호기의 출력신호는 첫 번째 단의 부호기의 출력신호와 함께 비트스트림에 기입된다. 처음에는 도 10A에 나타낸 구조를 모방하기 위해 상기한 TNS필터를 스위치모듈의 바로 앞, 즉, 양자화기/부호기의 앞에 위치시키는 것이 좋은 생각처럼 보인다. 그러나 이 방법은 스위칭모듈의 출력신호가 부호기의 입력단의 원래의 일시적인 오디오신호와 관련되어 크게 변화되므로 TNS필터를 위한 필터계수 결정을 동일한 품질로 적용할 수 없다는 단점이 있다.
본 발명은 스케일러블(scalable) 오디오부호기 및 오디오복호기에 관한 것으로, 특히 주파수영역에서 적어도 1단이 동작하는 스케일러블 부호기 및 복호기에 관한 것이다.
본 발명은 상술한 문제점을 해결하기 위한 것으로, 스케일러블 오디오 코딩의 개념과 일시적인 잡음 정형의 개념을 조합하여 스케일러블 오디오 부호기의 경우에 일시적인 잡음 정형의 효과를 얻을 수 있도록 하는데 그 목적이 있다.
상기 목적은 특허청구범위 제1항 또는 제2항에 따른 코딩방법, 제3항 또는 제4항에 따른 디코딩방법, 제5항 또는 제6항에 따른 코딩장치 및 제7항 또는 제8항에 따른 디코딩장치에 의해 달성된다.
본 발명은 TNS필터의 필터계수 또는 예측계수의 결정을 제1단의 부호기에 의해 영향받지 않는 스펙트럼값을 기준으로 하여 수행해야 한다는 사실에 기초한 것이다. 스케일러블 오디오부호기는 제1단의 부호기로서 본 명세서의 도입부에서 설명한 변형들중의 하나는 이용할 수 있는 융통성있는 부호기여야 한다. 본 발명에 의하면, TNS 예측계수의 결정은 부호기의 입력부의 오디오신호의 직접적인 표현이 되는 스펙트럼값에 기초하여 수행한다. 오디오부호기의 입력신호의 스펙트럼값은 필터뱅크또는 MDCT를 이용함으로써 생성할 수 있다. 그러나 TNS코딩필터에 의한 실제적인 필터링으로서 부호기내의 동일한 위치에서 TNS필터계수의 결정을 수행하는 것은 더 이상 가능하지 않다. 그러므로 TNS필터계수의 결정은 실제적인 TNS코딩 필터링과 별도로 이루어져야 한다.
본 발명의 제1실시예에 의하면, TNS필터계수의 결정은 원래의 오디오입력신호를 주파수영역으로 변환시키는 필터뱅크의 바로 뒤에서 수행된다. 따라서 동일한 형태의 신호들, 즉, TNS처리되지 않은 신호들은 합산기 또는 스위칭모듈 앞에 존재한다. 본 발명의 제1실시예에 의하면, TNS계수가 이미 결정된 TNS필터링은 스위칭모듈의 뒤와 양자화기/부호기의 앞에서 행해지며, 사이코어쿠스틱 모델(psychoacoustic model)에 따라 동작할 수도 있다. 그러나, 후술할 내용에서 명백해지겠지만, 스케일러블 오디오부호기에 있어서의 이와 같은 TNS기술의 수행은 복호기의 변형을 수반한다.
그러나 본 발명의 제2실시예에 따르면, 이러한 디코딩은 더 이상 필요없게 된다. 제1실시예에서와 같이 동일 위치에서 TNS 예측계수를 다시 결정한다. 본 발명의 제1실시예와는 달리, 두 개의 관련된 스펙트럼신호들, 즉, 제1단의 코딩에러를 가진 스펙트럼신호와 오디오입력신호의 왜곡되지 않은 형태에 해당되는 스펙트럼신호를 합산소자의 앞에 위치한 미리 TNS계수가 결정된 TNS코딩필터에 의해 처리한다. 제1단의 부호기의 코딩에러를 포함하는 스펙트럼신호의 TNS필터링을 단순히 에러가 없는 오디오신호로부터 얻어진 TNS계수를 사용함으로써 TNS계수의 재결정없이 행한다는데 주의해야 한다. 본 발명의 제2실시예에 따르면, 동일한 형태의 두 개의 신호들, 여기에서는 TNS처리된 신호들은 합산기 또는 스위칭모듈의 입력부에 다시 존재하게 된다.
일반적으로, 본 발명의 제1실시예와 제2실시예는 TNS처리되지 않은 신호들은 합산기의 앞에 존재하는 반면에 TNS처리된 다른 신호들은 그 차를 구하거나 스위칭모듈로 인가된다는 점에서 다르다.
상기한 조건들은 본 발명에 의한 복호기에서 고려된다. 본 발명의 제1실시예에 의해 코딩된 신호를 디코딩하는 복호기의 경우에 있어서, TNS디코딩, 즉, 코딩시 결정되는 비트스트림에서 부수적인 정보로서 다시 나타나는 TNS계수를 이용하는 TNS디코딩필터의 사용은 스위칭모듈과 유사한 역스위칭모듈의 앞에서 행해지게 된다. 부호기에 있어서는 복호기의 경우와 마찬가지로 역스위칭모듈에 TNS처리되지 않은 신호가 제공된다.
반면에, 본 발명의 제2실시예에 의해 코딩된 신호를 디코딩하는 복호기의 경우에 있어서, 상기 역스위칭모듈에는 TNS처리된 신호가 인가된다. 이 때문에 제1단의 부호기의 디코딩된 신호는 주파수영역으로 변환되고 부호기에서 결정된 TNS필터계수를 사용하는 TNS코딩필터에 의해 필터링되어야 한다. 그런 다음, 동일한 형태의 신호들, 즉, TNS처리된 신호들만이 본 발명의 제2실시예에 의한 부호기에 대한 경우에서와 같이 역스위칭모듈 또는 그 앞에 위치한 가산기에서 비교된다. 상기 역스위칭모듈의 출력신호는 최종적으로 TNS디코딩필터에 인가되며, 그 출력신호는 역필터뱅크에 의해 처리되어 전체구조의 코딩에러와는 거리가 먼 원래의 오디오신호가 재생성된다. 상술한 바와 같이 도 10A의 구조처럼 TNS디코딩필터 또는 역TNS필터가역필터뱅크의 앞에 위치함에 따라 복호기의 변형이 필요없게 되므로 본 발명의 제2실시예에 의한 부호기 또는 복호기는 본 발명에 따른 실시예들 중에서도 바람직한 것이다.
이하, 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.
도 1은 본 발명에 의한 스케일러블 오디오부호기의 블록도이다. 제1샘플링속도, 즉, 48kHz로 샘플링된 불연속 시간신호(x1)는 저율 표본화 필터(12)에 의해 제1샘플링속도보다 낮은 제2샘플링속도, 즉, 8kHz로 된다. 제1 및 제2샘플링속도의 비는 정수인 것이 바람직하다. 데시메이션필터(decimation filter)로 구현될 수 있는 저율 표본화 필터(12)의 출력신호는 제1코딩알고리즘에 따라 입력신호를 코딩하는 부호기/복호기(14)로 입력된다. 상술한 바와 같이 부호기/복호기(14)는 부호기 G.729, FS1016, MPEG-4 CELP, MPEG-4 PAR와 같은 낮은 차수의 음성부호기일 수 있다. 이러한 부호기들은 초당 4.8kbit의 데이터율(FS1016)에서 초당 8kbit의 데이터율(G.729)의 범위에서 동작한다. 이 부호기들은 모두 8kHz의 샘플링주파수로 샘플링된 신호들을 처리한다. 그러나 다른 데이터율 또는 다른 샘플링주파수를 갖는 다른 부호기들도 이용할 수 있다는 것은 당 분야의 통상의 지식을 가진 자에 대하여 명백한 것이다.
부호기(14)에 의해 코딩된 신호, 즉, 코딩된 제2신호(x2C)이면서 부호기(14)에 의존하며 상기한 비트율들중의 어느 하나로 나타나는 비트스트림은 라인(16)을 통해 비트포맷터(18)로 입력된다. 비트포맷터(18)의 기능은 후술할 것이다. 저율 표본화 필터(12)와 부호기/복호기(14)는 본 발명에 의한 스케일러블 오디오부호기의 제1단을 구성한다.
라인(16)으로 출력되는 상기 코딩된 제2신호(x2C)는 제1부호기/복호기(14)에서 다시 디코딩되어 라인(20)상에 코딩/디코딩된 제2시간신호(x2cd)를 생성한다. 코딩/디코딩된 제2시간신호(x2cd)는 제1불연속 시간신호(x1)보다 낮은 대역폭을 갖는 불연속 시간신호이다. 상기한 수치상의 예에 대하여 제1불연속시간신호(x1)는 샘플링주파수가 48kHz이므로 24kHz의 최대 대역폭을 가진다. 코딩/디코딩된 제2시간신호(x2cd)는 저율 표본화 필터(12)가 제2시간신호(x1)을 데시메이션을 통해 샘플링주파수 8kHz로 변환시켰으므로 4kHz의 최대 대역폭을 갖는다. 0 내지 4kHz의 대역폭내에서 신호(x1)와 신호(x2cd)는 모두 부호기/복호기(14)에 의해 도입되는 코딩에러와는 거리가 멀다.
여기서 주목해야 할 것은 부호기(14)에 의해 도입되는 코딩에러가 항상 작은 것이 아니라 매우 과도한 신호가 제1부호기에서 코딩될 때 유용한 신호와 동일한 크기를 가질 수도 있다는 점이다. 이러한 이유로 후술할 바와 같이 디퍼런스코딩(difference coding)이 수행되는지를 알아내기 위한 점검을 행한다.
부호기/복호기(14)의 출력단의 신호(x2cd)는 고율 표본화 필터(23)로 입력되어 높은 샘플링속도로 다시 변환됨으로써 신호(x1)와 비교할 수 있게 된다.
고율 표본화된 신호(x2cd)와 신호(x1)는 각각 필터뱅크 FB1(22)와 필터뱅크 FB2(24)로 입력된다. 필터뱅크 FB1(22)은 신호(x2cd)의 주파수영역을 표현하는 스펙트럼값( 2cd)을 생성하는 반면, 필터뱅크 FB2(24)는 원래의 제1시간신호(x1)의 주파수영역을 표현하는 스펙트럼값( 1)을 생성한다. 두 필터뱅크의 출력신호는 합산기(26)에서 감산된다. 보다 정확하게 말하면, 필터뱅크FB1(22)의 출력 스펙트럼값(x2cd)을 필터뱅크FB2(24)의 출력스펙트럼값에서 뺀다. 합산기(26)의 뒤에는 스위칭모듈SM(28)이 위치하며, 이 스위칭모듈에는 입력으로서 합산기(26)의 출력신호(xd)와 필터뱅크(24)의 출력신호(x1), 즉, 제2시간신호의 스펙트럼형태의 신호들(이하 제1스펙트럼값( 1)이라고 한다)이 인가된다.
본 발명의 제1실시예에 의하면, 스위칭모듈(28)의 뒤에 위치한 TNS필터 또는 예측필터(27)에 대한 예측계수는 TNS계수를 계산하기 위한 소자(25)를 이용하여 계산한다. TNS계수 계산기(25)는 도 1로부터 알 수 있듯이 TNS코딩필터(27)와 비트포맷터(18)에 계수를 제공한다.
TNS코딩필터는 당 분야에서 통상의 지식을 가진 자들에게 알려져 있는 바와 같이 사이코어쿠스틱(psychoacoustic) 모듈(32)로 상징되는 사이코어쿠스틱 모델에 의해 양자화를 수행하는 양자화기/부호기(30)에 신호를 공급한다. 상기 두 필터뱅크(22,24), 합산기(26), 스위칭모듈(28), 양자화기/부호기(30) 및 사이코어쿠스틱 모듈(32)은 본 발명에 의한 스케일러블 오디오부호기의 제2단을 구성한다.
다음에 도 1을 참조하여 상기 스케일러블 오디오부호기의 동작을 설명한다. 상술한 바와 같이 제1샘플링속도로 샘플링된 제1불연속 시간신호(x1)는 저율 표본화 필터(12)로 인가되어 제1샘플링속도보다 낮은 제2샘플링속도에 해당하는 대역폭을 갖는 제2시간신호(x2)를 생성한다. 이 제2시간신호(x2)로부터 부호기/복호기(14)는 제1코딩알고리즘에 의해 코딩된 제2시간신호(x2c)와 상기 제1코딩알고리즘에 따른 후속 디코딩에 의해 코딩/디코딩된 제2시간신호(x2cd)를 생성한다. 코딩/디코딩된 제2시간신호(x2cd)는 필터뱅크FB1(22)에 의해 주파수영역으로 변환되어 코딩/디코딩된 제2시간신호(x2cd)의 주파수영역 표현인 제2스펙트럼값( 2cd)를 생성한다.
여기서, 상기 코딩/디코딩된 제2시간신호(x2cd)가 제2샘플링주파수, 예컨대 8kHz를 갖는 시간신호라는 것에 주목해야 한다. 이 신호의 주파수영역 표현과 제1스펙트럼값( 1)은 여기서 평가되어야 하는데, 제1스펙트럼값( 1)은 제2필터뱅크FB2(24)에 의해 제1샘플링주파수, 즉, 높은 샘플링주파수를 나타내는 제1시간신호(x1)로부터 생성된다. 동일한 시간 및 주파수분해능을 갖는 비교되는 신호를 얻기 위해 8kHz의 신호, 즉, 제2샘플링주파수를 갖는 신호는 제1샘플링주파수를 갖는 신호로 변환되어야 한다. 그러나 스케일러블 부호기에 있어서, 상기 두 개의 샘플링주파수가 반드시 달라야 할 필요는 없으며, 같은 값을 가질 수도 있다.
이것은 고율 표본화 필터를 사용하지 않고 신호(x2cd)의 각각의 불연속 시간 스캐닝된 값들 사이에 소정 개수의 0값을 삽입함으로써 달성할 수 있다. 0값의 개수는 (제1샘플링주파수와 제2샘플링주파수의 비)-1 에 의해 주어진다. 제1(높은)샘플링주파수와 제2(낮은)샘플링주파수의 비를 고율 표본화계수라고 한다. 당 분야의 통상의 지식을 가진 자들에게 알려져 있는 바와 같이 매우 간단한 계산으로 가능한 0의 삽입에 의해 낮은 주파수 또는 신호(x2cd)의 유용한 스펙트럼이 반복되는 결과로서 신호(x2cd)에 겹침효과(aliasing effect)를 생성한다. 상기 반복의 횟수는 삽입되는 0의 개수와 동일하다. 상기 겹침효과가 일어난 신호(x2cd)는 제1필터뱅크(22)에 의해 주파수영역으로 변환되어 제2스펙트럼값( 2cd)을 생성한다.
상기 코딩/디코딩된 제2신호(x2cd)의 각각의 스캐닝된 값들 사이에 5개의 0을 삽입하면 어떠한 신호를 얻게 되는데, 이 신호의 모든 6번째 스캐닝된 값만이 0와 다르다는 것은 처음부터 알고 있는 것이다. 이러한 사실은 단순한 FFT에 대해 행해지는 덧셈연산들을 줄일 수 있으므로 상기 신호를 필터뱅크 또는 MDCT 또는 임의의 푸리에변환에 의해 주파수영역으로 변환할 때 이용할 수 있다. 따라서 상기 신호를 주파수영역으로 변환할 때 계산시간을 줄이기 위해 변환할 신호의 처음부터 알려져 있는 구조를 유리하게 이용할 수 있다.
제2스펙트럼값( 2cd)은 낮은 부분에서만 상기 코딩/디코딩된 제2시간신호(x2cd)를 정확하게 표현한다. 이러한 이유로 모든 스펙트럼라인들( 2cd)의 1/(고율 표본화계수)부분만 필터뱅크FB1의 출력에서 사용된다. 이때, 코딩/디코딩된 제2시간신호(x2cd)에서의 0의 삽입으로 인해 여기서 사용되는 스펙트럼라인( 2cd)의 개수가 제1시간신호(x1)의 겹침(aliasing)으로 인한 방해(disturbance)를 받지 않는 주파수 형태에 해당하는 제1스펙트럼값( 1)과 동일한 시간 및 주파수분해능을 갖는다는 것에 유의해야 한다. 감산기(26)와 스위칭모듈(28)에서 두 신호(x2cd, x1)가 평가되어 평가된 스펙트럼값( b) 또는 스펙트럼값( 1)을 생성한다. 스위칭모듈(28)은 동시 디퍼런스변환(simulcast difference switchover)을 수행한다.
제2단에서 디퍼런스코딩을 이용하는 것이 항상 유리한 것은 아니다. 예를 들면, 차신호, 즉, 합산기(26)의 출력신호가 제2필터뱅크의 출력신호(x1)보다 높은 에너지를 갖는 경우가 그러하다. 또한, 임의의 부호기를 제1단의 부호기/복호기(14)에 사용할 수 있기 때문에 부호기가 코딩하기 어려운 신호를 생성할 수도 있다. 부호기/복호기(14)는 전문가들이 '파형 코딩(wave form coding)' 또는 '신호 형태 코딩(signal form coding)'이라고 하는 과정에 의해 코딩된 신호의 위상정보를 가지고 있는 것이 바람직하다. 주파수를 기준으로 하여 디퍼런스코딩을 사용할 것인가 아니면 동시코딩(simulcast coding)을 사용할 것인가를 제2단의 스위칭모듈(28)에서 결정한다.
"디퍼런스코딩"은 제2스펙트럭값( 2cd)과 제1스펙트럼값( 1)간의 차이만을 코딩하는 것을 의미한다. 그러나 이러한 디퍼런스코딩이 유리하지 않을 경우에는 차신호의 에너지가 제1스펙트럼값( 1)의 에너지보다 크므로 디퍼런스코딩을 이용하지 않는다. 디퍼런스코딩을 이용하지 않으면, 예컨대 48kHz로 샘플링된 시간신호(x1)의 제1스펙트럼값( 1)은 스위칭모듈(28)에 의해 스위칭되어 스위칭모듈(28)의 출력신호로 사용된다.
상기한 차(difference)는 주파수영역에서 형성되기 때문에 두 신호(x1, x2cd)간의 차는 어느 경우에서든 계산되므로 동시코딩과 디퍼런스코딩간의 주파수선택에는 문제가 없다. 스펙트럼에서의 차의 형성은 디퍼런스코딩되어야 하는 주파수범위의 주파수선택을 단순화시킨다. 원칙적으로, 각각의 스펙트럼값에 대하여 디퍼런스코딩에서 동시코딩으로의 변경이 있을 수 있다. 그러나 이를 위해서는 너무나 많은 양의 부수적인 정보가 필요하며, 이러한 변경이 절대적으로 필요한 것은 아니다. 따라서 주파수그룹에 있어서 디퍼런스 스펙트럼값의 에너지와 제1스펙트럼값의 에너지를 비교하는 것이 더 낮다. 또는, 특정 주파수대역, 예컨대 각각의 폭이 500Hz인 8개의 대역을 처음부터 규정할 수 있다. 이것은 시간신호(x2)가 4kHz의 대역폭을 가질 경우 신호(x2cd)의 대역폭이 된다. 이러한 주파수대역을 규정할 경우 전달할 정보의 양을 맞추는 타협이 이루어지게 된다. 즉, 디퍼런스코딩을 주파수대역에서 행할 것인지 행하지 않을 것인지 타협하는데, 이는 디퍼런스코딩으로부터 빈번하게 얻을 수 있는 혜택에 위반되는 것이다.
대역당 8비트이며, 디퍼런스코딩 또는 다른 적합한 코딩을 위한 온/오프 비트로 되어 있는 부수적인 정보는 비트스트림으로 전달될 수 있으며, 특정한 주파수대역이 디퍼런스코딩되는지 되지 않는지를 나타낸다. 후술하겠지만, 복호기에 있어서, 제1부호기의 해당 부대역(subband)만이 재구성되는 동안 추가된다.
제1스펙트럼값( 1)과 제2스펙트럼값( 2cd)을 평가하기 위한 단계는 제1스펙트럼값( 1)에서 제2스펙트럼값( 2cd)을 감산하여 디퍼런스 스펙트럼값( d)을 구하는 과정을 포함하는 것이 바람직하다. 또한, 소정 대역에서의 다수의 스펙트럼값들의 에너지, 예컨대 8kHz에서의 500Hz를 공지의 방법, 즉, 합산 및 제곱에 의해 상기 디퍼런스 스펙트럼값( d)과 제1스펙트럼값( 1)에 대해 계산한다. 각각의 에너지의 주파수 선택적인 비교를 각각의 주파수 대역에서 수행한다. 디퍼런스 스펙트럼값( d)의 특정 주파수대역에서의 에너지가 소정의 계수(k)가 곱해진 제1스펙트럼값( 1)의 에너지를 초과하면, 평가된 스펙트럼값( b)이 제1스펙트럼값( 1)인 것으로 결정한다. 그렇지 않으면, 디퍼런스 스펙트럼값( d)이 평가된 스펙트럼값( 1)인 것으로 결정한다. 계수(k)는 약 0.1에서 10까지일 수 있다. 1보다 작은 계수(k)의 값들에 대하여 차신호가 원래의 신호보다 작은 에너지를 가지면 동시코딩을 이용한다. 1보다 큰 k값들에 대해서는 차신호의 에너지가 제1부호기에서 코딩되지 않은 원래의 신호의 에너지보다 크더라도 디퍼런스코딩을 계속해서 사용한다. 동시코딩을 평가할 경우, 스위칭모듈(28)은 제2필터뱅크(24)의 출력신호를 통해 직접 스위칭된다. 상술한 차(difference)의 형성에 대한 대안으로서 상기 두 신호에 대해 비율(ratio)을 수행하거나 승산이나 다른 연산을 수행하는 경우, 평가(evaluation)를 행할 수 있다.
스위칭모듈(28)의 출력단에 연결되는 TNS코딩필터(27)는 TNS계수계산기(25)에 의해 구한 예측계수를 이용하여 주파수에 대해 예측된 스펙트럼값( b)을 예측함으로써 평가된 잔류 스펙트럼값을 구한다.
스위칭모듈(28)에 의해 결정되는 디퍼런스 스펙트럼값( d) 또는 제1스펙트럼값( 1)에 해당되는 상기 평가된 잔류 스펙트럼값은 당 분야의 통상의 지식을 가진 자들에게 알려져 있으며, 사이코어쿠스틱 모듈(32)에 존재하는 사이코어쿠스틱 모델을 고려하여 제1양자화기/부호기(30)에 의해 양자화된 다음, 호프만표를 이용한 리던던시 감소코딩에 의해 코딩된다. 당 분야의 통상의 지식을 가진 자들에게 공지된 바와 같이 상기 사이코어쿠스틱 모델은 시간신호로부터 계산되며, 도 1에서 볼 수 있듯이 이것이 높은 샘플링주파수를 갖는 제1시간신호(x1)가 사이코어쿠스틱 모듈(32)로 직접 입력되는 이유가 된다. 양자화기/부호기(30)의 출력신호(xcb)는 라인(42)을 통해 비트포맷터(18)로 직접 인가되어 출력신호(xAUS)에 기입된다.
제1 및 제2단을 갖는 스케일러블 오디오부호기를 위에서 설명하였다. 본 발명에 의한 스케일러블 오디오부호기의 개념은 2단 이상의 직렬접속을 가능하게 한다. 따라서 샘플링속도를 감소시킴으로써 48kHz로 샘플링되는 입력신호(x1)로 제1부호기/복호기(14)에 있어서의 스펙트럼의 처음 4kHz를 코딩하여 디코딩후에 대략적으로 전화통화시의 음성품질에 해당하는 신호의 품질을 얻는 것이 가능하게 된다. 제2단에서 양자화기/부호기(30)에 의해 최대 12kHz의 대역폭 코딩을 수행하여 대략적으로HIFI 품질에 상응하는 음질(tone quality)을 얻을 수 있다. 48kHz로 샘플링되는 신호(x1)가 24kHz의 대역폭을 가질 수 있다는 것은 당 분야에서 통상의 지식을 가진 자들에게 명백한 것이다. 추가적인 양자화기/부호기(38)에 의해 구현되는 제3단은 최대 24kHz의 대역폭, 실제적인 예로서는 20kHz의 대역폭까지 코딩을 행하여 대략적으로 컴팩트 디스크(CD)의 음질에 상응하는 음질을 달성할 수 있다.
반드시 전달되어야 하는 부수 정보는 제외하고, 코딩된 데이터스트림(xAUS)은 다음 신호들을 포함한다.
- 코딩된 제2신호(x2c)(0에서 4kHz에 이르는 전체 스펙트럼)와
- 코딩되고 평가된 잔류 스펙트럼값 (동시코딩을 위한 0에서 12kHz에 이르는 전체 스펙트럼 또는 부호기(14)의 0에서 4kHz까지의 코딩에러 및 디퍼런스코딩을 위한 4에서 12kHz까지의 전체 스펙트럼).
제1부호기/복호기(14)로부터 양자화기/부호기(30)까지의 변환(transition)에 있어서, 변환방해(transition disturbance)가 4kHz에서 4kHz보다 큰 값으로의 변환을 수반할 수 있다. 이러한 변환방해는 비트스트림(xAUS)에 기입되는 오류가 있는 스펙트럼값에 나타날 수 있다. 전체 부호기/복호기는 최대 1/(고율 표본화계수 - x) (x=1, 2, 3)의 주파수라인만을 사용하도록 규정할 수 있다. 결과적으로, 제2샘플링주파수로 달성 가능한 최대 대역폭 끝의 신호(x2cd)의 마지막 스펙트럼라인은 고려하지 않는다. 이것은 상기한 경우에 있어서 특정주파수값 이상일 때 0이고 그 이하에서 1인 직각함수(rectangular function)인 평가함수를 이용하는 것을 의미한다. 또한, 변환방해가 일어난 스펙트럼라인의 크기를 줄인 다음, 감소된 크기의 스펙트럼라인을 고려하는 '소프터(softer)' 평가함수를 이용할 수도 있다.
상기 변환방해는 복호기에서 다시 제거되기 때문에 청취가 불가능하다. 그러나 변환방해는 디퍼런스코딩으로 인해 코딩이득을 감소시키는 과도한 차신호를 초래한다. 상기한 평가함수를 이용한 평가에 의해 코딩이득의 손실을 제한범위내로 유지할 수 있다. 직각함수 이외의 평가함수는 직각함수와 마찬가지로 부호기와 복호기에 대한 우선권에 동의할 수 있으므로 추가적인 부수정보를 필요로 하지 않는다.
도 2는 본 발명의 제2실시예에 의해 동작하는 부호기의 실제적인 구성을 도시한 것이다. 도 1과 동일한 요소들은 동일한 참조부호를 가지며, 특별하게 언급하지 않으면 동일한 기능을 수행하는 것으로 본다. 상술한 바와 같이 본 발명의 제2실시예는 적은 변경을 필요로 하므로 복호기에 더 유리하다. 도 1의 스케일러블 오디오부호기와는 달리 도 2의 제2TNS필터(27)는 위치(22)의 필터뱅크1의 뒤에 위치한다. 또한, 제1TNS코딩필터는 필터뱅크2(24)의 뒤에 이미 위치하고 있다. 이것은 소자(26)의 합산기와 스위칭모듈(28)이 TNS처리된 스펙트럼값, 즉, 제1잔류 스펙트럼값과 제2잔류 스펙트럼값을 처리하는 것을 의미한다. 스위칭모듈(28)과 합산기(26)에 있어서, 제1잔류스펙트럼값을 제2잔류스펙트럼값으로 평가하여 평가된 잔류 스펙트럼값을 구하며, 이 값은 양자화기/부호기(30)로 입력된다. 양자화기/부호기(30)는 평가된 잔류스펙트럼값을 도 1에서와 같이 양자화하고 코딩한다. TNS계수 계산기(25)는 필터뱅크(24)의 뒤에 위치한 TNS부호기와 필터뱅크(22)의 뒤에 위치한 TNS부호기에 신호를 제공한다. 필터뱅크(22)의 출력신호는 TNS필터링되는 바, TNS필터링은필터뱅크(24)의 출력신호로부터 계산된 TNS계수에 기초하여 수행된다. 도 1에서와 같이 비트스트림 포맷터(18)의 TNS계수는 부수적인 정보로서 제공된다.
도 3은 도 1의 스케일러블 오디오부호기에 의해 코딩된 데이터를 디코딩하기 위한 복호기를 도시한 것이다. 도 1의 비트포맷터(18)의 출력 데이터스트림은 디멀티플렉서(46)로 입력되어 데이터스트림(xAUS)로부터 도 1의 라인들(42, 16)상의 신호들을 구한다. 코딩된 제2신호(x2c)는 지연소자(48)에 인가되는바, 이 지연소자(48)는 본 시스템의 다른 형태들을 위해 필요할 수도 있으나 본 발명을 구성하지는 않는 데이터를 지연시킨다.
지연된 후, 코딩된 제2신호(x2c)는 복호기(50)로 인가되며, 복호기(50)는 도 1의 부호기/복호기(14)에서도 이용된 제1코딩알고리즘에 의해 디코딩하여 코딩/디코딩된 제2시간신호(xcd2)를 생성한다. 이 제2시간신호는 도 3에 나타낸 바와 같이 라인(52)을 통해 출력될 수 있다. 코딩되고 평가된 잔류스펙트럼값은 재양자화기(54)에 의해 재양자화하여 평가된 잔류스펙트럼값을 얻는다. 합산기(58)는 잔류스펙트럼값과 선택적인 층(점선으로 도시함)의 잔류스펙트럼값의 합을 구한다.
합산기(26)와 유사하게 동작하는 합산기(62) 앞에서 동일한 조건을 만들기 위해 합산기(58) 뒤에 TNS디코딩필터(59)를 위치시킨다. TNS디코딩필터(59)는 합산기(58)의 출력신호를 역TNS필터링한다. 여기서, 부수적인 정보에 포함된 예측계수가 사용되는데, 이 예측계수는 도 2의 TNS계수 계산기(25)에 의해 계산된다. TNS복호기(59)의 출력은 디코딩되고 평가된 스펙트럼값( b)이 된다.
여기서, 도 3에서 알 수 있듯이 합산기(62)의 합이 스펙트럼값들의 합이 되므로 코딩/디코딩된 제2시간신호는 적합한 고율 표본화 필터(63)에 의해 먼저 변환한 다음 필터뱅크(64)에 의해 주파수영역으로 변환하여 제2스펙트럼값( 2cd)를 얻는 것에 유의해야 한다. 필터뱅크(64)는 필터뱅크FB1(22)와 필터뱅크FB2(24)와 동일한 것이 바람직한데, 그럼으로써 적합한 버퍼들을 구비하고 연속해서 다른 신호가 제공되는 하나의 소자만으로 구현될 수 있다. 또한, 적합하다면 다른 필터뱅크들을 사용할 수도 있다.
상술한 바와 같이 스펙트럼값의 양자화에 이용되는 정보는 사이코어쿠스틱 모듈(32)에 의해 제1시간신호(x1)로부터 구한다. 가능한 한 대략적으로 스펙트럼값을 양자화하여 전송을 위한 데이터의 양을 최소화한다. 반면에, 양자화에 의해 도입되는 방해(disturbance)는 청취가 불가능한 것이어야 한다. 청취 가능한 방해없이 양자화에 의해 도입될 수 있는 허용된 방해 에너지를 계산하기 위해 사이코어쿠스틱 모듈(32)에 포함된 모델을 이용한다. 제어부는 공지의 양자화기/부호기의 양자화기를 제어하여 허용된 방해보다 작거나 같은 양자화 방해를 유도하는 양자화를 수행한다. 이것은 공지의 시스템에서 지속적으로 모니터링한다. 이 시스템에서는 블록(30)에 포함된 양자화기에 의해 양자화된 신호가 다시 역양자화된다. 양자화기에서의 입력신호를 양자화/역양자화된 신호와 비교하여 양자화에 의해 도입된 방해에너지를 계산한다. 제어부에서의 양자화/역양자화된 신호의 실제의 방해에너지를허용된 방해에너지와 비교한다. 실제 방해에너지가 허용된 방해에너지보다 크면, 양자화기의 제어부는 양자화의 정밀도(fineness)를 증가시킬 것이다. 혀용된 방해에너지와 실제의 방해에너지의 비교는 사이코어쿠스틱 주파수대역에 대해 수행된다. 이 방법은 공지의 것으로 동시코딩이 이용될 경우 본 발명에 의한 스케일러블 오디오부호기에 의해 사용된다.
제1단의 복호기에 해당되는 복호기의 출력신호를 사후필터링(post-filtering)할 수 있는 이른바 포스트필터(67)는 복호기(50)의 출력단에 위치한다. 그러나 이 필터는 본 발명의 어떠한 부분도 구성하지 않는다.
도 4는 도 3과 유사한 복호기를 나타낸다. 그러나, 도 4에 도시한 복호기는 본 발명의 제2실시예에 의해 코딩된 신호에 대해 동작한다. 도 3과는 달리 역스위칭모듈(60)은 TNS코딩된 입력신호에 대해 동작하는 반면, 도 3의 역스위칭모듈(60)은 TNS처리되지 않은 입력신호, 즉, TNS디코딩된 신호에 대해 동작한다. 복호기의 출력신호가 어디에서도, 부호기에서조차 TNS코딩되지 않았기 때문에 TNS코딩필터(27)에 의해 필터링해야 한다. 이 TNS코딩필터(27)는 도 1 및 도 2의 TNS코딩필터(27)와 동일한 방식으로 구현할 수 있다. 본 발명의 제2실시예에 의한 복호기에 있어서, 최종적인 TNS디코딩필터(59)는 필터뱅크들(22, 24)의 필터뱅크동작을 반대로 할 수 있는 역필터뱅크(66)의 바로 앞에 위치한다. 이러한 배열은 변환부호기에서 정상적으로 찾아 볼 수 있는 도 10A에 도시된 배열에 해당하므로 바람직한 것이다. 디멀티플렉서(46)가 코딩된 비트스트림(xaus)의 부수적인 정보로부터 추출한 예측계수가 TNS디코딩필터(59)와 TNS코딩필터(27)에 제공된다.
TNS필터변수를 결정하는 동안 확인된 변수들은 어떠한 경우에도 TNS디코딩필터계수를 계산할 수 있도록 전달되기 때문에 도 4에 의한 복호기에 추가되는 TNS코딩필터(27)는 최소의 지출을 의미한다. 이것은 또한 복호기에 있어서의 TNS코딩필터를 계산하는데 충분하다. 전달되는 비트스트림에 있어서 변경은 필요없다.
상기 제1샘플링주파수가 48kHz이고 제2샘플링주파수가 8kHz라는 것은 단순한 예라는 것은 당 분야에서 통상을 지식을 가진 자들에게 명백한 것이다. 8kHz보다 작은 주파수도 제2샘플링주파수로 사용할 수 있다. 전체시스템에 대한 샘플링주파수로서 48kHz, 44.1kHz, 32kHz, 24kHz, 22.5kHz, 16kHz, 8kHz 또는 다른 적합한 샘플링주파수를 사용할 수 있다. 제1단의 부호기/복호기(14)의 비트율 범위는 상술한 바와 같이 초당 4.8kbit에서 초당 8kbit이다. 제2단에 있어서의 제2부호기의 비트율 범위는 샘플링속도 48, 44.1, 32,24, 16 및 8kHz에서 초당 0에서 64, 69.659, 96, 128, 192 및 256kbit일 수 있다. 제3단의 부호기의 비트율 범위는 모든 샘플링속도에 대하여 초당 8kbit에서 초당 448kbit일 수 있다.
이상에서 설명한 본 발명은 전술한 실시예 및 첨부된 도면에 의해 한정되는 것이 아니고, 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하다는 것이 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어 명백할 것이다.

Claims (8)

  1. 제1샘플링속도로 샘플링된 제1불연속시간신호(x1)를 코딩하기 위한 방법에 있어서,
    상기 제1시간신호(x1)로부터 상기 제1샘플링속도와 같거나 작은 제2샘플링속도에 해당하는 대역폭을 가진 제2시간신호(x2)를 생성하는 단계와,
    제1코딩알고리즘에 의해 상기 제2시간신호(x2)를 코딩하여 코딩된 제2신호(x2c)를 구하는 단계,
    상기 제1코딩알고리즘에 의해 상기 코딩된 제2신호(x2c)를 디코딩하여 제2샘플링주파수에 해당하는 대역폭을 가진 코딩/디코딩된 제2시간신호(x2cd)를 구하는 단계,
    상기 제1시간신호(x1)를 주파수영역으로 변환하여 제1스펙트럼값( 1)을 얻는 단계,
    상기 제1스펙트럼값( 1)으로부터 예측계수를 계산하는 단계,
    상기 코딩/디코딩된 제2시간신호(x2cd)로부터 주파수영역에서 코딩/디코딩된 제2시간신호(x2cd)를 나타내는 제2스펙트럼값( 2cd)을 생성하는 단계,
    상기 제2스펙트럼값( 2cd)으로 상기 제1스펙트럼값( 1)을 평가하여 그 개수가 상기 제1스펙트럼값( 1)의 개수에 해당되는 평가된 스펙트럼값( b)을 구하는 단계,
    상기 계산된 예측계수를 이용하여 주파수에 대한 상기 평가된 스펙트럼값의 예측을 수행하여 평가된 잔류스펙트럼값을 구하는 단계, 및
    제2코딩알고리즘에 따라 상기 평가된 잔류스펙트럼값을 코딩하여 코딩되고 평가된 잔류스펙트럼값을 구하는 단계를 포함하는 코딩방법.
  2. 제1샘플링속도로 샘플링된 제1불연속시간신호(x1)를 코딩하기 위한 방법에 있어서,
    상기 제1시간신호(x1)로부터 상기 제1샘플링속도와 같거나 작은 제2샘플링속도에 해당하는 대역폭을 가진 제2시간신호(x2)를 생성하는 단계와,
    제1코딩알고리즘에 의해 상기 제2시간신호(x2)를 코딩하여 코딩된 제2신호(x2c)를 구하는 단계,
    상기 제1코딩알고리즘에 의해 상기 코딩된 제2신호(x2c)를 디코딩하여 제2샘플링주파수에 해당하는 대역폭을 가진 코딩/디코딩된 제2시간신호(x2cd)를 구하는 단계,
    상기 제1시간신호(x1)를 주파수영역으로 변환하여 제1스펙트럼값( 1)을 얻는 단계,
    상기 제1스펙트럼값( 1)으로부터 예측계수를 계산하는 단계,
    상기 코딩/디코딩된 제2시간신호(x2cd)로부터 주파수영역에서 코딩/디코딩된 제2시간신호(x2cd)를 나타내는 제2스펙트럼값( 2cd)을 생성하는 단계,
    상기 계산된 예측계수를 이용하여 주파수에 대한 상기 제1스펙트럼값( 1)과 제1스펙트럼값( 2cd)의 예측을 수행하여 제1잔류스펙트럼값과 제2잔류스펙트럼값을 구하는 단계,
    상기 제2잔류스펙트럼값으로 상기 제1잔류스펙트럼값을 평가하여 그 개수가 상기 제1스펙트럼값( 1)의 개수에 해당되는 평가된 잔류스펙트럼값을 구하는 단계, 및
    제2코딩알고리즘에 따라 상기 평가된 잔류스펙트럼값( b)을 코딩하여 코딩되고 평가된 잔류스펙트럼값을 구하는 단계를 포함하는 코딩방법.
  3. 제1코딩알고리즘에 따라 코딩된 신호와, 제2코딩알고리즘에 따라 코딩되며 주파수에 대한 예측에 의해 평가된 스펙트럼값으로부터 생성되는 코딩된 잔류스펙트럼값을 갖는 신호 및 상기 예측의 예측계수를 포함하는 부수적인 정보를 포함하는 오디오신호를 나타내는 비트스트림을 디코딩하기 위한 방법에 있어서,
    상기 제1코딩알고리즘에 따라 코딩된 신호(x2c)를 디코딩하여 상기 제1코딩알고리즘을 이용하여 코딩/디코딩된 제2시간신호(x2cd)를 구하는 단계와,
    상기 제2코딩알고리즘을 이용하여 상기 코딩된 잔류스펙트럼값을 디코딩하여 잔류스펙트럼값을 구하는 단계,
    상기 코딩/디코딩된 제2시간신호(x2)를 주파수영역으로 변환하여 제2스펙트럼값( 2cd)을 구하는 단계,
    상기 부수적인 정보에 존재하는 상기 예측계수를 이용하여 상기 평가된 잔류스펙트럼값으로 역예측을 수행하여 평가된 스펙트럼값( b)을 구하는 단계,
    상기 평가된 스펙트럼값( b)과 제2스펙트럼값( 2cd)을 역으로 평가하여 제1스펙트럼값( 1)을 구하는 단계, 및
    상기 제1스펙트럼값( 1)을 다시 시간영역으로 변환하여 제1시간신호(x1)를 얻는 단계를 포함하는 디코딩방법.
  4. 제1코딩알고리즘에 따라 코딩된 신호와, 제2코딩알고리즘에 따라 코딩되며 주파수에 대한 예측에 의해 평가된 스펙트럼값으로부터 생성되는 코딩된 잔류스펙트럼값을 갖는 신호 및 상기 예측의 예측계수를 포함하는 부수적인 정보를 포함하는 오디오신호를 나타내는 비트스트림을 디코딩하기 위한 방법에 있어서,
    상기 제1코딩알고리즘에 따라 코딩된 신호(x2c)를 디코딩하여 상기 제1코딩알고리즘을 이용하여 코딩/디코딩된 제2시간신호(x2cd)를 구하는 단계와,
    상기 제2코딩알고리즘을 이용하여 상기 코딩된 잔류스펙트럼값을 디코딩하여 잔류스펙트럼값을 구하는 단계,
    상기 코딩/디코딩된 제2시간신호(x2)를 주파수영역으로 변환하여 제2스펙트럼값( 2cd)을 구하는 단계,
    상기 부수적인 정보에 존재하는 상기 예측계수를 이용하여 상기 제2스펙트럼값( 2cd)으로 예측을 수행하여 제2잔류스펙트럼값을 구하는 단계,
    상기 평가된 잔류스펙트럼값과 제2잔류스펙트럼값을 역으로 평가하여 상기 잔류스펙트럼값을 구하는 단계,
    상기 부수적인 정보에 저장된 상기 예측계수를 이용하여 상기 잔류스펙트럼값으로 역예측을 수행하여 제1스펙트럼값( 1)을 얻는 단계, 및
    상기 제1스펙트럼값( 1)을 다시 시간영역으로 변환하여 제1시간신호(x1)를 얻는 단계를 포함하는 디코딩방법.
  5. 제1샘플링속도로 샘플링된 제1불연속 시간신호(x1)를 코딩하기 위한 장치(10)에 있어서,
    상기 제1시간신호(x1)로부터 상기 제1샘플링속도와 같거나 작은 제2샘플링속도에 해당하는 대역폭을 가진 제2시간신호(x2)를 생성하는 장치(12)와,
    제1코딩알고리즘에 의해 상기 제2시간신호(x2)를 코딩하여 코딩된 제2신호(x2c)를 구하는 장치(14),
    상기 제1코딩알고리즘에 의해 상기 코딩된 제2신호(x2c)를 디코딩하여 제2샘플링주파수에 해당되는 대역폭을 가진 코딩/디코딩된 제2시간신호(x2cd)를 구하는 장치(14),
    상기 제1시간신호(x1)를 주파수영역으로 변환하여 제1스펙트럼값( 1)을 얻는 장치(24),
    상기 제1스펙트럼값( 1)으로부터 예측계수를 계산하는 장치(25),
    상기 코딩/디코딩된 제2시간신호(x2cd)로부터 주파수영역에서 코딩/디코딩된 제2시간신호(x2cd)를 나타내는 제2스펙트럼값( 2cd)을 생성하는 장치(22,23),
    상기 제2스펙트럼값( 2cd)으로 상기 제1스펙트럼값( 1)을 평가하여 그 개수가 상기 제1스펙트럼값( 1)의 개수에 해당되는 평가된 스펙트럼값( b)을 구하는 장치(26,28),
    상기 계산된 예측계수를 이용하여 주파수에 대한 상기 평가된 스펙트럼값의 예측을 수행하여 평가된 잔류스펙트럼값을 구하는 장치(27), 및
    제2코딩알고리즘에 따라 상기 평가된 잔류스펙트럼값을 코딩하여 코딩되고 평가된 잔류스펙트럼값을 구하는 장치(30)를 포함하는 코딩장치.
  6. 제1샘플링속도로 샘플링된 제1불연속 시간신호(x1)를 코딩하기 위한 장치(10)에 있어서,
    상기 제1시간신호(x1)로부터 상기 제1샘플링속도와 같거나 작은 제2샘플링속도에 해당하는 대역폭을 가진 제2시간신호(x2)를 생성하는 장치(12)와,
    제1코딩알고리즘에 의해 상기 제2시간신호(x2)를 코딩하여 코딩된 제2신호(x2c)를 구하는 장치(14),
    상기 제1코딩알고리즘에 의해 상기 코딩된 제2신호(x2c)를 디코딩하여 제2샘플링주파수에 해당하는 대역폭을 가진 코딩/디코딩된 제2시간신호(x2cd)를 구하는 장치(14),
    상기 제1시간신호(x1)를 주파수영역으로 변환하여 제1스펙트럼값( 1)을 얻는 장치(24),
    상기 제1스펙트럼값( 1)으로부터 예측계수를 계산하는 장치(25),
    상기 코딩/디코딩된 제2시간신호(x2cd)로부터 주파수영역에서 코딩/디코딩된 제2시간신호(x2cd)를 나타내는 제2스펙트럼값( 2cd)을 생성하는 장치(22,23),
    상기 계산된 예측계수를 이용하여 주파수에 대한 상기 제1스펙트럼값( 1)과 제1스펙트럼값( 2cd)의 예측을 수행하여 제1잔류스펙트럼값과 제2잔류스펙트럼값을 구하는 장치(27),
    상기 제2잔류스펙트럼값으로 상기 제1잔류스펙트럼값을 평가하여 그 개수가 상기 제1스펙트럼값( 1)의 개수에 해당되는 평가된 잔류스펙트럼값을 구하는 장치(26,28), 및
    제2코딩알고리즘에 따라 상기 평가된 잔류스펙트럼값( b)을 코딩하여 코딩되고 평가된 잔류스펙트럼값을 구하는 장치(30)를 포함하는 코딩장치.
  7. 제1코딩알고리즘에 따라 코딩된 신호와, 제2코딩알고리즘에 따라 코딩되며 주파수에 대한 예측에 의해 평가된 스펙트럼값으로부터 생성되는 코딩된 잔류스펙트럼값을 갖는 신호 및 상기 예측의 예측계수를 포함하는 부수적인 정보를 포함하는 오디오신호를 나타내는 비트스트림을 디코딩하기 위한 장치에 있어서,
    상기 제1코딩알고리즘에 따라 코딩된 신호(x2c)를 디코딩하여 상기 제1코딩알고리즘을 이용하여 코딩/디코딩된 제2시간신호(x2cd)를 구하는 장치(50)와,
    상기 제2코딩알고리즘을 이용하여 상기 코딩된 잔류스펙트럼값을 디코딩하여 잔류스펙트럼값을 구하는 장치(54),
    상기 코딩/디코딩된 제2시간신호(x2)를 주파수영역으로 변환하여 제2스펙트럼값( 2cd)을 구하는 장치(64),
    상기 부수적인 정보에 존재하는 상기 예측계수를 이용하여 상기 평가된 잔류스펙트럼값으로 역예측을 수행하여 평가된 스펙트럼값( b)을 구하는 장치(59),
    상기 평가된 스펙트럼값( b)과 제2스펙트럼값( 2cd)을 역으로 평가하여 제1스펙트럼값(x1)을 구하는 장치(60,62), 및
    상기 제1스펙트럼값( 1)을 다시 시간영역으로 변환하여 제1시간신호(x1)를 얻는 장치(66)를 포함하는 디코딩장치.
  8. 제1코딩알고리즘에 따라 코딩된 신호와, 제2코딩알고리즘에 따라 코딩되며 주파수에 대한 예측에 의해 평가된 스펙트럼값으로부터 생성되는 코딩된 잔류스펙트럼값을 갖는 신호 및 상기 예측의 예측계수를 포함하는 부수적인 정보를 포함하는 오디오신호를 나타내는 비트스트림을 디코딩하기 위한 장치에 있어서,
    상기 제1코딩알고리즘에 따라 코딩된 신호(x2c)를 디코딩하여 상기 제1코딩알고리즘을 이용하여 코딩/디코딩된 제2시간신호(x2cd)를 구하는 장치(50)와,
    상기 제2코딩알고리즘을 이용하여 상기 코딩된 잔류스펙트럼값을 디코딩하여 잔류스펙트럼값을 구하는 장치(54),
    상기 코딩/디코딩된 제2시간신호(x2)를 주파수영역으로 변환하여 제2스펙트럼값( 2cd)을 구하는 장치(64),
    상기 부수적인 정보에 존재하는 상기 예측계수를 이용하여 상기 제2스펙트럼값( 2cd)으로 예측을 수행하여 제2잔류스펙트럼값을 구하는 장치(27),
    상기 평가된 잔류스펙트럼값과 제2잔류스펙트럼값을 역으로 평가하여 상기 잔류스펙트럼값을 구하는 장치(60,62),
    상기 부수적인 정보에 저장된 상기 예측계수를 이용하여 상기 잔류스펙트럼값으로 역예측을 수행하여 제1스펙트럼값( 1)을 얻는 장치(59), 및
    상기 제1스펙트럼값( 1)을 다시 시간영역으로 변환하여 제1시간신호(x1)를 얻는 장치(60)를 포함하는 디코딩장치.
KR1020007002699A 1997-10-24 1998-07-07 오디오신호를 코딩하기 위한 방법 및 장치와 비트스트림을디코딩하기 위한 방법 및 장치 KR100331166B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DE19747132A DE19747132C2 (de) 1997-10-24 1997-10-24 Verfahren und Vorrichtungen zum Codieren von Audiosignalen sowie Verfahren und Vorrichtungen zum Decodieren eines Bitstroms
DE19747132.3 1997-10-24
PCT/EP1998/004200 WO1999022451A2 (de) 1997-10-24 1998-07-07 Verfahren und vorrichtung zum codieren von audiosignalen sowie verfahren und vorrichtungen zum decodieren eines bitstroms

Publications (2)

Publication Number Publication Date
KR20010015588A KR20010015588A (ko) 2001-02-26
KR100331166B1 true KR100331166B1 (ko) 2002-04-03

Family

ID=7846578

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020007002699A KR100331166B1 (ko) 1997-10-24 1998-07-07 오디오신호를 코딩하기 위한 방법 및 장치와 비트스트림을디코딩하기 위한 방법 및 장치

Country Status (9)

Country Link
US (1) US6502069B1 (ko)
EP (1) EP1025646B1 (ko)
JP (1) JP3366903B2 (ko)
KR (1) KR100331166B1 (ko)
AT (1) ATE206252T1 (ko)
AU (1) AU726762B2 (ko)
CA (1) CA2301663C (ko)
DE (2) DE19747132C2 (ko)
WO (1) WO1999022451A2 (ko)

Families Citing this family (48)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3580777B2 (ja) * 1998-12-28 2004-10-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号又はビットストリームの符号化又は復号化のための方法及び装置
US6978236B1 (en) 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
EP1190415B1 (en) * 2000-03-15 2007-08-08 Koninklijke Philips Electronics N.V. Laguerre function for audio coding
US6735561B1 (en) * 2000-03-29 2004-05-11 At&T Corp. Effective deployment of temporal noise shaping (TNS) filters
US7099830B1 (en) 2000-03-29 2006-08-29 At&T Corp. Effective deployment of temporal noise shaping (TNS) filters
SG99314A1 (en) * 2000-07-19 2003-10-27 Ct For Signal Proc Nanyang Tec Method and apparatus for the prediction of audio signals
JP4538705B2 (ja) * 2000-08-02 2010-09-08 ソニー株式会社 ディジタル信号処理方法、学習方法及びそれらの装置並びにプログラム格納媒体
DE10102155C2 (de) * 2001-01-18 2003-01-09 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Erzeugen eines skalierbaren Datenstroms und Verfahren und Vorrichtung zum Decodieren eines skalierbaren Datenstroms
ES2266481T3 (es) * 2001-04-18 2007-03-01 Koninklijke Philips Electronics N.V. Codificacion de audio con encriptacion parcial.
WO2003091989A1 (en) * 2002-04-26 2003-11-06 Matsushita Electric Industrial Co., Ltd. Coding device, decoding device, coding method, and decoding method
US7970606B2 (en) * 2002-11-13 2011-06-28 Digital Voice Systems, Inc. Interoperable vocoder
KR100908117B1 (ko) 2002-12-16 2009-07-16 삼성전자주식회사 비트율 조절가능한 오디오 부호화 방법, 복호화 방법,부호화 장치 및 복호화 장치
US7634399B2 (en) * 2003-01-30 2009-12-15 Digital Voice Systems, Inc. Voice transcoder
US8359197B2 (en) 2003-04-01 2013-01-22 Digital Voice Systems, Inc. Half-rate vocoder
GB2403634B (en) * 2003-06-30 2006-11-29 Nokia Corp An audio encoder
US7672838B1 (en) * 2003-12-01 2010-03-02 The Trustees Of Columbia University In The City Of New York Systems and methods for speech recognition using frequency domain linear prediction polynomials to form temporal and spectral envelopes from frequency domain representations of signals
DE102004009949B4 (de) * 2004-03-01 2006-03-09 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Ermitteln eines Schätzwertes
DE102004009954B4 (de) * 2004-03-01 2005-12-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Multikanalsignals
TWI497485B (zh) * 2004-08-25 2015-08-21 Dolby Lab Licensing Corp 用以重塑經合成輸出音訊信號之時域包絡以更接近輸入音訊信號之時域包絡的方法
AU2012205170B2 (en) * 2004-08-25 2015-05-14 Dolby Laboratories Licensing Corporation Temporal Envelope Shaping for Spatial Audio Coding using Frequency Domain Weiner Filtering
MX2007003063A (es) * 2004-09-17 2007-05-16 Koninkl Philips Electronics Nv Codificacion combinada de audio que minimiza la distorsion perceptual.
US7554989B2 (en) * 2005-01-18 2009-06-30 Creative Technology Ltd. Real time optimization over a shared communication channel
KR100738077B1 (ko) * 2005-09-28 2007-07-12 삼성전자주식회사 계층적 오디오 부호화 및 복호화 장치와 방법
DE102006010390A1 (de) * 2006-03-03 2007-09-06 Micronas Gmbh Verfahren zum Bereitstellen eines Gesamtsignals zum Übertragen als ein Rundfunksignal, Sendevorrichtung und Empfangsvorrichtung dafür
US7590523B2 (en) * 2006-03-20 2009-09-15 Mindspeed Technologies, Inc. Speech post-processing using MDCT coefficients
AU2006340728B2 (en) * 2006-03-28 2010-08-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Enhanced method for signal shaping in multi-channel audio reconstruction
US8571875B2 (en) 2006-10-18 2013-10-29 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding and/or decoding multichannel audio signals
US8036886B2 (en) * 2006-12-22 2011-10-11 Digital Voice Systems, Inc. Estimation of pulsed speech model parameters
JP4871894B2 (ja) * 2007-03-02 2012-02-08 パナソニック株式会社 符号化装置、復号装置、符号化方法および復号方法
KR101425354B1 (ko) * 2007-08-28 2014-08-06 삼성전자주식회사 오디오 신호의 연속 정현파 신호를 인코딩하는 방법 및장치와 디코딩 방법 및 장치
GB2466673B (en) * 2009-01-06 2012-11-07 Skype Quantization
GB2466669B (en) * 2009-01-06 2013-03-06 Skype Speech coding
GB2466672B (en) * 2009-01-06 2013-03-13 Skype Speech coding
GB2466674B (en) * 2009-01-06 2013-11-13 Skype Speech coding
GB2466670B (en) * 2009-01-06 2012-11-14 Skype Speech encoding
GB2466671B (en) * 2009-01-06 2013-03-27 Skype Speech encoding
GB2466675B (en) 2009-01-06 2013-03-06 Skype Speech coding
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
US8614994B2 (en) * 2009-07-09 2013-12-24 Broadcom Corporation Method and system for implementing multiple timing domains for primary and secondary synchronization detection in EUTRA/LTE
EP2481048B1 (en) * 2009-09-25 2017-10-25 Nokia Technologies Oy Audio coding
US8452606B2 (en) * 2009-09-29 2013-05-28 Skype Speech encoding using multiple bit rates
DK2556504T3 (en) 2010-04-09 2019-02-25 Dolby Int Ab MDCT-BASED COMPLEX PREVIEW Stereo Encoding
WO2012152764A1 (en) * 2011-05-09 2012-11-15 Dolby International Ab Method and encoder for processing a digital stereo audio signal
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
EP3511935B1 (en) 2014-04-17 2020-10-07 VoiceAge EVS LLC Method, device and computer-readable non-transitory memory for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates
TWI758146B (zh) * 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
US11270714B2 (en) 2020-01-08 2022-03-08 Digital Voice Systems, Inc. Speech coding using time-varying interpolation
CN112311480B (zh) * 2020-10-29 2023-03-14 上海电机学院 一种通信辐射源个体识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3310480C2 (de) * 1983-03-23 1986-02-13 Seitzer, Dieter, Prof. Dr.-Ing., 8520 Erlangen Digitales Codierverfahren für Audiosignale
DE19549621B4 (de) * 1995-10-06 2004-07-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung zum Codieren von Audiosignalen
JP3622365B2 (ja) * 1996-09-26 2005-02-23 ヤマハ株式会社 音声符号化伝送方式
DE19706516C1 (de) * 1997-02-19 1998-01-15 Fraunhofer Ges Forschung Verfahren und Vorricntungen zum Codieren von diskreten Signalen bzw. zum Decodieren von codierten diskreten Signalen
US6161089A (en) * 1997-03-14 2000-12-12 Digital Voice Systems, Inc. Multi-subframe quantization of spectral parameters

Also Published As

Publication number Publication date
CA2301663A1 (en) 1999-05-06
AU8857798A (en) 1999-05-17
EP1025646B1 (de) 2001-09-26
DE59801589D1 (de) 2001-10-31
US6502069B1 (en) 2002-12-31
DE19747132C2 (de) 2002-11-28
KR20010015588A (ko) 2001-02-26
EP1025646A2 (de) 2000-08-09
WO1999022451A3 (de) 1999-07-29
WO1999022451A2 (de) 1999-05-06
AU726762B2 (en) 2000-11-23
JP2001522156A (ja) 2001-11-13
DE19747132A1 (de) 1999-04-29
ATE206252T1 (de) 2001-10-15
JP3366903B2 (ja) 2003-01-14
CA2301663C (en) 2004-06-15

Similar Documents

Publication Publication Date Title
KR100331166B1 (ko) 오디오신호를 코딩하기 위한 방법 및 장치와 비트스트림을디코딩하기 위한 방법 및 장치
KR101192241B1 (ko) 입력 데이터 스트림의 믹싱과 그로부터 출력 데이터 스트림의 생성
JP4081447B2 (ja) 時間離散オーディオ信号を符号化する装置と方法および符号化されたオーディオデータを復号化する装置と方法
KR100469002B1 (ko) 오디오 코딩 방법 및 장치
JP3592473B2 (ja) 周波数領域内のlpc予測による時間領域内での知覚ノイズ整形
WO1994028633A1 (fr) Appareil et procede de codage ou decodage de signaux, et support d'enregistrement
US6415251B1 (en) Subband coder or decoder band-limiting the overlap region between a processed subband and an adjacent non-processed one
KR100308427B1 (ko) 이산 신호를 부호화하고 부호화된 이산 신호를 복호화하기 위한방법 및 장치
KR20100007651A (ko) 오디오/스피치 신호의 부호화 및 복호화 방법 및 장치
JP3557674B2 (ja) 高能率符号化方法及び装置
KR100952065B1 (ko) 부호화 방법 및 장치, 및 복호 방법 및 장치
KR20100062667A (ko) 코덱 플랫폼 장치
JPH0653911A (ja) 音声データ符号化方法及び音声データ符号化装置
JP5451603B2 (ja) デジタルオーディオ信号の符号化
JP3465698B2 (ja) 信号復号化方法及び装置
Schuler Audio Coding
Ning Analysis and coding of high quality audio signals
JPH10107640A (ja) 信号再生装置および方法

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130311

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20140313

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20150316

Year of fee payment: 14

FPAY Annual fee payment

Payment date: 20160310

Year of fee payment: 15

FPAY Annual fee payment

Payment date: 20170310

Year of fee payment: 16

FPAY Annual fee payment

Payment date: 20180312

Year of fee payment: 17

EXPY Expiration of term