KR100885437B1 - 시간 도메인에서 주파수 도메인으로 그리고 그 반대로디지털 신호를 변환하는 방법 - Google Patents

시간 도메인에서 주파수 도메인으로 그리고 그 반대로디지털 신호를 변환하는 방법 Download PDF

Info

Publication number
KR100885437B1
KR100885437B1 KR1020067007300A KR20067007300A KR100885437B1 KR 100885437 B1 KR100885437 B1 KR 100885437B1 KR 1020067007300 A KR1020067007300 A KR 1020067007300A KR 20067007300 A KR20067007300 A KR 20067007300A KR 100885437 B1 KR100885437 B1 KR 100885437B1
Authority
KR
South Korea
Prior art keywords
transform
matrix
digital signal
conversion
coefficients
Prior art date
Application number
KR1020067007300A
Other languages
English (en)
Other versions
KR20070015363A (ko
Inventor
하이빈 후앙
시아오 린
수산토 라하르드자
롱샨 위
Original Assignee
에이전시 포 사이언스, 테크놀로지 앤드 리서치
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 에이전시 포 사이언스, 테크놀로지 앤드 리서치 filed Critical 에이전시 포 사이언스, 테크놀로지 앤드 리서치
Publication of KR20070015363A publication Critical patent/KR20070015363A/ko
Application granted granted Critical
Publication of KR100885437B1 publication Critical patent/KR100885437B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/147Discrete orthonormal transforms, e.g. discrete cosine transform, discrete sine transform, and variations therefrom, e.g. modified discrete cosine transform, integer transforms approximating the discrete cosine transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/141Discrete Fourier transforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • G06F17/148Wavelet transforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/60Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding
    • H04N19/63Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using transform coding using sub-band based transform, e.g. wavelets
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Abstract

데이터 심볼들을 포함하고 각 블록이 소정 수의 데이터 심볼들을 포함하는 복수의 블록들로 그룹화된 디지털 신호를, 변환 매트릭스를 포함하는 변환 함수를 이용하여, 시간 도메인에서 주파수 도메인으로 그리고 주파수 도메인에서 시간 도메인으로 변환하는 방법이 제공된다. 이 방법은, 한 변환 요소에 의해 디지털 신호의 두 블록들을 변환하는 단계를 포함하고, 이때 변환 요소는, 각 서브 매트릭스마다 변환 매트릭스를 포함하는 두 서브 매트릭스들을 구비한 블록-대각 매트릭스에 해당하고, 복수의 리프팅(lifting) 스테이지들을 포함하며, 각각의 리프팅 스테이지는 보조 변환 및 라운딩 유닛에 의해 디지털 신호의 블록들을 처리하는 동작을 포함한다.

Description

시간 도메인에서 주파수 도메인으로 그리고 그 반대로 디지털 신호를 변환하는 방법{Method for transforming a digital signal from the time domain into the frequency domain and vice versa}
관련 출원에의 상호 참증
이 출원은 2003년 9월 29일 제출된 미국 가출원 번호 60/507,210과, 2003년 9월 29일 제출된 미국 가출원 번호 60/507,440의 우선권 이익을 주장하며, 이 가출원들 각각의 내용은 모든 취지에 대해 그 전체가 참조를 통해 이 명세서 안에 포함된다.
또한, 이하의 공동 소유된 출원들이 본 출원과 동시에 출원되어, 그 전체가 이 명세서에 포함되다:
사건 번호 P100444, "시간 도메인에서 주파수 도메인으로, 그리고 그 반대로 디지털 신호를 변환하는 방법", 및
사건 번호 P100452, "소정 변환 기능을 위해 성분 변환을 결정하기 위한 프로세스 및 장치, 시간 도메인에서 주파수 도메인으로 그리고 그 반대로 디지털 신호를 변환하는 방법 및 장치, 그리고 컴퓨터 판독가능 매체".
본 발명은 디지털 신호를 시간 도메인에서 주파수 도메인으로, 그리고 주파수 도메인에서 시간 도메인으로 변환하는 방법에 대한 것이다.
이산 코사인 변환(DCT) 등의 도메인 변환은 근래의 신호 처리 산업에 널리 이용되고 있다. 최근에는, 정수형 DCT라 불리는 DCT의 변종이 무손실 코딩 어플리케이션에서의 중요한 역할로 인해 많은 연구자의 흥미를 끌고 있다. "무손실"이라는 뜻은 디코더가 부호화된 비트 스트림으로부터 정확한 소스 신호의 사본(copy)을 생성할 수 있다는 의미이다.
DCT는 실수(real-valued) 블록 변환이다. 입력 블록이 정수들로만 이뤄져 있어도, DCT의 출력 블록은 정수 아닌 성분들을 포함할 수 있다. 편의상, 입력 블록을 입력 벡터라 하고, 출력 블록을 출력 벡터라 칭한다. 벡터가 정수 성분들만을 포함할 때, 그것을 정수 벡터라 부른다. DCT와 반대로, 정수형 DCT는 정수 입력 벡터로부터 정수 출력 벡터를 생성한다. 같은 정수 입력 벡터에 대해, 정수형 DCT는 DCT의 실수 출력 벡터에 거의 근접한다. 따라서, 정수형 DCT는 스펙트럼 분석 상 DCT의 모든 바람직한 특성들을 보유한다.
정수형 DCT의 중요한 특성이 가역성(reversibility)이다. 가역성이란 정수형 DCT가 입력 벡터
Figure 112006026183516-pct00001
로부터 출력 벡터
Figure 112006026183516-pct00002
를 생성할 때, 정수형 IDCT가 벡터
Figure 112006026183516-pct00003
에서 벡터
Figure 112006026183516-pct00004
를 복구할 수 있게 하는 정수형 인버스(inverse) DCT (IDCT)가 존재한다는 것을 의미한다. 때때로, 정수형 DCT는 포워드 변환으로도 불리며, 정수형 IDCT는 백워드 또는 인버스 변환이라 불린다.
정수형 변형 이산 코사인 변환(intMDCT)이라 불리는 변환이 최근에 제안되어 ISO/IEC MPEG-4 오디오 압축에 사용되고 있다. IntMDCT는 그 원형 - 변형된 이산 코사인 변환(MDCT)으로부터 파생될 수 있다. 1992년 H.S. Malvar의 문서 "랩트(Lapped) 변환을 통한 신호 처리"가, DCT-IV 블록의 기븐스(Givens) 회전열을 종속 접속(cascading)함에 따른 MDCT의 효율적 구현을 제안한다. 기븐스 회전이 정수에서 정수로의 매핑을 위해 세 리프팅(lifting) 스텝으로 인수분해될 수 있다는 사실은 잘 알려져 있다. 예를 들어, 2001년 9월 미국 뉴욕에서 열린 AES 111차 회의에서 RGeiger, T. Sporer, J. Koller, K. Brandenburg의 "정수형 변환에 기반한 오디오 코딩"을 참조할 수 있다.
따라서, IntMDCT의 구현은 정수형 DCT-IV의 효율적인 구현에 달려 있다. 정수형 변환은 각 기븐스 회전을 세 리프팅 스텝들로 대체함으로써 이들의 원형으로부터 직접 변환될 수 있다. 각각의 리프팅 스텝에는 한 번의 라운딩(rounding) 연산이 있기 때문에, 전수형 변환의 총 라운딩 회수는 원형 변환의 기븐스 회전 수의 세 배가 된다. 이산 삼각 변환 (예를 들어 이산 퓨리에 변환(DFT)이나 이산 코사인 변환(DCT))에 있어서, 수반되는 기븐스 회전수는 보통
Figure 112006026183516-pct00005
레벨이고, 여기서 N이란 블록들의 사이즈, 즉, 디지털 신호가 나눠지는 각 블록에 포함된 데이터 심볼들의 양이다. 그에 따라, 총 라우팅 수 역시 바로 변환되는 정수형 변환 패밀리를 위한
Figure 112006026183516-pct00006
레벨이다. 라우팅으로 인해, 정수형 변환은 자신의 유동 소수점(floating-point) 원형에 근사하게 된다. 근사 에러는 라우팅 회수와 함께 증가된다.
따라서, 보다 효율적인 방식으로 디지털 신호를 도메인 변환하기 위한 시스템 및 방법들이 필요로 된다.
본 발명은 디지털 신호를 도메인 변환하기 위한 시스템 및 방법을 제공하며, 그에 따라 입력 데이터의 두 블록들이 동시에 같은 연산을 통해 도메인 변환된다. 이러한 구성은 효율적 라운딩 연산의 회수를 감소시키고, 그에 따라 근사 에러를 줄일 수 있다.
본 발명의 일실시예에서, 변환 함수를 이용하여 시간 도메인에서 주파수 도메인으로 그리고 그 반대로 디지털 신호를 변환하는 방법이 제공된다. 변환 함수는 변환 매트릭스를 포함하고, 디지털 신호는 복수의 블록들로 그룹화되는 데이터 심볼들을 포함하며, 각각의 블록은 소정 수의 데이터 심볼들을 포함한다. 본 발명의 방법은 한 변환 요소에 의해 디지털 신호의 두 블록을 변환하는 단계를 포함하고, 이때 그 변환 요소는 두 서브 매트릭스들을 포함하는 블록-대각 매트릭스에 해당하며, 각각의 서브 매트릭스들은 변환 매트릭스를 포함한다. 변환 요소는 복수의 리프팅(lifting) 스테이지들을 포함하고, 각각의 리프팅 스테이지는 보조 변환 및 라운딩 유닛에 의해 디지털 신호의 블록들을 처리하는 단계를 포함한다.
이러한 본 발명의 특징과 기타 다른 특징들은, 특정 실시예들에 대한 상세한 설명과 도면에 비추어 볼 때 보다 잘 이해될 수 있을 것이다.
도 1은 본 발명의 실시예에 따른 오디오 인코더의 구조를 도시한 것이다.
도 2는 도 1에 도시된 오디오 코더에 대응하는, 본 발명에 따른 오디오 디코더의 구조를 도시한 것이다.
도 3은 본 발명에 따른 방법의 실시예에 대한 흐름도이다.
도 4는 DCT-IV를 변환 함수로 사용하는, 본 발명에 따른 방법의 실시예를 도시한 것이다.
도 5는 도 4에 도시된 본 발명에 따른 방법의 실시예에 따른 역변환 알고리즘을 도시한 것이다.
도 6은 본 발명의 실시예에 따른 이미지 아카이브 시스템 구조를 도시한 것이다.
도 7은 본 발명에 따라 제공된 시스템 및 방법의 성능을 평가하는데 사용된 포워드 및 역변환 코더들을 보인 것이다.
도 1은 본 발명의 실시예에 따른 오디오 인코더(100)의 구조를 보인다. 오디오 인코더(100)는 변형 이산 코사인 변환(MDCT)에 기반하는 일반적인 인식 기반(perceptual base) 계층 코더와, 정수 변형 이산 코사인 변환(IntMDCT)에 기반하는 무손실 강화 코더를 포함한다.
예를 들어 오디오 신호(109)가 마이크(110)를 통해 주어지고 아날로그-디지털 변환기(111)를 통해 디지털화되어 오디오 인코더(100)로 보내진다. 오디오 신호(109)는 복수의 데이터 심볼들을 포함한다. 오디오 신호(109)는 복수의 블록들로 나누어지며, 각각의 블록은 디지털 신호의 복수의 데이터 심볼들을 포함하고, 각각의 블록이 변형 이산 코사인 변환(MDCT) 장치(101)에 의해 변환된다. MDCT 계수들이 인식 모델(102)의 지원을 받아 양자화기(103)에 의해 양자화된다. 인식 모델은 양자화 에러로부터 생긴 오디오 왜곡이 낮게 되도록 양자화기(103)를 제어한다. 양자화된 MDCT 계수들은 이어서, 압축손실을 갖는(lossy) 인식 부호화되는 출력 비트스트림(112)을 생성하는 비트스트림 인코더(104)에 의해 부호화된다.
비트스트림 인코더(104)는 자신의 입력을 손실 없이 압축하여 허프만(Huffman) 코딩이나 런 렝스(Run-Length) 코딩과 같은 표준 방법들을 통해 입력보다 하향 평균 비트 레이트를 가지는 출력을 생성한다. 입력 오디오 신호(109)는 IntMDCT 계수를 생성하는 IntMDCT 장치(105)로도 공급된다. 양자화기(103)의 출력인 양자화된 MDCT 계수들이 IntMDCT 계수들을 예측하는데 사용된다. 양자화된 MDCT 계수들이 역양자화기(106)로 주어지고 출력(복구되거나 양자화되지 않은 MDCT 계수들)이 라운딩 유닛(107)으로 공급된다.
라운딩 유닛은 제공된 정수 값인 MDCT 계수들로 라운딩하고, 정수 값 MDCT와 IntMDCT 계수들 사이의 차인 잉여 IntMDCT 계수들은 엔트로피 코더(108)에 의해 엔트로피 부호화된다. 엔트로피 인코더는, 비트스트림 인코더(104)와 유사하게 자신의 입력 평균 비트 레이트를 손실없이 감축하여 무손실 강화 비트스트림(113)을 생성한다. 무손실 강화 비트 스트림(113)은 인식 부호화된 비트스트림(112)과 함께, 필요한 정보를 가져와 최소의 에러를 갖는 입력 오디오 신호(109)를 복원한다.
도 2는 본 발명의 실시예를 포함하는 오디오 디코더(200)의 구조를 보인 것으로서, 이것은 도 1에 도시된 오디오 코더(100)에 대응한다. 인식 부호화된 비트 스트림(107)이 비트스트림 디코더(201)로 공급되고, 비트스트림 디코더(201)는 도 1의 비트스트림 인코더(104)의 연산에 대한 역연산을 수행하여, 복호화된 비트스트림을 생성한다. 복호화된 비트스트림이 역양자화기(202)로 공급되고, 그 출력 (복구된 MDCT 계수들)은 역 MDCT 장치(203)로 공급된다. 그에 따라, 복원된 인식 부호화 오디오 신호(209)가 얻어진다.
손실없는 강화 비트스트림(208)이 엔트로피 디코더(204)로 공급되고, 엔트로피 디코더(204)는 도 1의 엔트로피 인코더(108)의 연산에 대한 역연산을 수행하여 그에 상응하는 잉여 IntMDCT 계수들을 발생한다. 역 양자화기(202)의 출력이 라운딩 장치(205)에 의해 라운딩되어 정수 값의 MDCT 계수들을 생성한다. 정수 값 MDCT 계수들이 잉여 IntMDCT 계수들에 더해져서, IntMDCT 계수들을 생성한다. 마지막으로, 역 IntMDCT가 역 IntMDCT 장치(206)에 의해 IntMDCT 계수들에 적용되어, 복원된 무손실 부호화된 오디오 신호(210)가 산출된다.
도 3은 DCT-IV를 변환에 사용하고, 제1리프팅 스테이지(301), 제2리프팅 스테이지(302), 및 제3리프팅 스테이지(303)의 세 리프팅 스테이지들을 이용하는 본 발명에 따른 방법의 일실시예에 대한 흐름도(300)를 보인다. 이 방법은 도 1의 IntMDCT 장치(105)와 도 2의 역 IntMDCT 장치(206)에서 각각 IntMDCT와 역 IntMDCT를 구현하는데 사용됨이 바람직하다. 도 3에서,
Figure 112006026183516-pct00007
Figure 112006026183516-pct00008
는 각각 디지털 신호의 제1 및 제2블록들이다.
Figure 112006026183516-pct00009
는 중간 신호이고,
Figure 112006026183516-pct00010
Figure 112006026183516-pct00011
는 각각 디지털 신호의 제1 및 제2신호에 대응하는 출력 신호들이다.
상술한 바와 같이, DVT-IV 알고리즘은 무손실 오디오 코딩에 있어 중요한 역할을 수행한다.
DCT_IV의 변환 함수는 변환 매트릭스
Figure 112006026183516-pct00012
를 포함한다. 본 발명의 실시예에 따르면, 변환 요소는 각각의 블록이 변환 매트릭스
Figure 112006026183516-pct00013
를 포함하는 두 블록들을 구비하는 블록-대각 매트릭스에 해당한다.
따라서, 이 실시예에서, 변환 요소에 해당하는 매트릭스는 다음과 같다.
Figure 112006026183516-pct00014
Figure 112006026183516-pct00015
는 본 발명의 맥락상 앞으로 변환 매트릭스라 불릴 것이다.
본 발명의 이러한 실시예에서, 리프팅 매트릭스들의 개수와, 그에 따른 변환 요소에서의 리프팅 스테이지들의 수는, DCT-IV가 변함 함수인 경우, 3이 된다.
N-포인트 실수 입력 시퀀스
Figure 112006026183516-pct00016
의 DCT-IV는 다음과 같이 정의된다:
Figure 112007058210670-pct00253
Figure 112007058210670-pct00018
을 DCT_IV의 변환 매트릭스, 즉, 수학식 2라 할 수 있다.
Figure 112007058210670-pct00254
아래의 식은 역 DCT-IV 매트릭스를 나타낸다:
Figure 112006026183516-pct00020
특히, 매트릭스
Figure 112006026183516-pct00021
는 인볼루터리(involutory) 하다.
Figure 112007058210670-pct00255
Figure 112007058210670-pct00256
일 때, 수학식 1은 다음과 같이 표현될 수 있다.
Figure 112006026183516-pct00024
이제
Figure 112007058210670-pct00025
,
Figure 112007058210670-pct00026
를 두 정수 N x 1 열(column) 벡터들이라고 하자. 열 벡터들
Figure 112007058210670-pct00028
,
Figure 112007058210670-pct00029
은 본 발명에 따라 한 변환 요소에 의해 변환되는 디지털 신호의 두 블록들에 해당한다.
Figure 112007058210670-pct00030
,
Figure 112007058210670-pct00031
의 DCT-IV 변환이 각각
Figure 112007058210670-pct00032
,
Figure 112007058210670-pct00033
이다.
Figure 112006026183516-pct00034
Figure 112006026183516-pct00035
수학식 5와 수학식 6을 결합하여 수학식 7이 된다.
Figure 112006026183516-pct00036
위의 대각 매트릭스는 본 발명에 따라 변환 요소가 대응하는 블록 대각 매트릭스이다.
상기 수학식이 수학식 8과 같은 단순한 대수적 변경을 가함으로써 달라질 때 그것은 본 발명의 범위 내에 있다.
Figure 112006026183516-pct00037
Figure 112006026183516-pct00038
을 수학식 8에 있는 역방향(counter) 대각 매트릭스라고 하자.
Figure 112006026183516-pct00039
매트릭스
Figure 112006026183516-pct00040
은 다음과 같이 인수분해될 수 있다:
Figure 112007058210670-pct00257
Figure 112007058210670-pct00042
은 N x N 매트릭스이다.
수학식 10은 수학식 8의 DCT-IV 특성을 이용해 검증될 수 있다. 수학식 10을 이용하면, 수학식 8은 다음과 같이 표현될 수 있다.
Figure 112007058210670-pct00258
수학식 11의 세 리프팅 행렬들이 도 3에 도시된 세 리프팅 스테이지들에 대응한다.
수학식 11로부터, 한 변환 요소를 가지고 두 정수 DCT-IV들을 계산하는 이하의 정수형 DCT-IV 알고리즘이 나오게 된다.
도 4는 DCT-IV를 변환 함수로 이용하는 본 발명에 따른 방법의 실시예를 예시한 것이다. 이 실시예는 IntMDCT를 구현하기 위한, 도 1에 도시된 오디오 코더(100)에서 사용된다. 도 3에서와 같이,
Figure 112006026183516-pct00045
Figure 112006026183516-pct00046
는 입력 디지털 신호의 두 블럭들이고,
Figure 112006026183516-pct00047
는 중간 신호이며,
Figure 112006026183516-pct00048
Figure 112006026183516-pct00049
는 출력 신호의 해당 블럭들이다.
도 4에 도시된 세 리프팅 스테이지들은 수학식 11의 세 리프팅 매트릭스들에 해당한다.
도 4에 도시된 바와 같이, 시간에서 주파수로의 도메인 정수 변환이 아래와 같이 결정된다:
최초의 스테이지(401)에서,
Figure 112006026183516-pct00050
가 DCT-IV 변환(402)에 의해 변환되고, DCT-IV 계수들이 라운딩된다(403). 그런 다음 라운딩된 DCT-IV 계수들이
Figure 112006026183516-pct00051
에 더해진다(404). 그에 따라, 중간 신호
Figure 112006026183516-pct00052
가 발생된다. 따라서, 중간 신호
Figure 112006026183516-pct00053
는 다음의 수학식을 구현한다:
Figure 112007058210670-pct00259
두 번째 스테이지(405)에서,
Figure 112007058210670-pct00055
는 DCT-IV 변환(406)에 의해 변환되고 DCT-IV 계수들이 라운딩된다(407). 라운딩된 DCT-IV 계수들로부터,
Figure 112007058210670-pct00260
가 감산된다. 그에 따라, 출력 신호
Figure 112007058210670-pct00057
이 생성된다. 따라서, 출력 신호
Figure 112007058210670-pct00058
는 다음의 수학식을 구현한다:
Figure 112007058210670-pct00261
세 번째 스테이지(409)에서,
Figure 112006026183516-pct00060
은 DCT-IV 변환(410)에 의해 변환되고, DCT-IV 계수들이 라운딩된다(411). 라운딩된 DCT-IV 계수들이
Figure 112006026183516-pct00061
로부터 감산된다. 그에 따라, 출력 신호
Figure 112006026183516-pct00062
가 발생된다. 따라서, 출력 신호
Figure 112006026183516-pct00063
는 다음식을 만족한다:
Figure 112007058210670-pct00262
Figure 112007058210670-pct00263
은 라운딩 연산을 나타낸다.
도 5는 DCT-IV를 변환 함수로 이용하는 본 발명에 따른 방법의 실시예에 의한 역변환 알고리즘을 예시한 것이다. 이 실시예는 역 IntMDCT를 구현하기 위한, 도 2에 도시된 오디오 디코더(200)에서 사용된다. 도 5에 예시된 알고리즘은 도 4 에 도시된 알고리즘의 역순(inverse)이다. 서로 다른 신호들
Figure 112006026183516-pct00066
,
Figure 112006026183516-pct00067
,
Figure 112006026183516-pct00068
,
Figure 112006026183516-pct00069
, 및
Figure 112006026183516-pct00070
의 표시는 도 4의 표시와 대응하는 것으로 선택된다.
도 5에 도시된 바와 같이, 주파수에서 시간 도메인으로의 전수 변환이 아래와 같이 결정된다:
첫 번째 스테이지(501)에서,
Figure 112006026183516-pct00071
이 DCT-IV 변환(502)에 의해 변환되고 DCT-IV 계수들이 라운딩된다(503). 라운딩된 DCT-IV 계수들은
Figure 112006026183516-pct00072
에 더해진다. 그에 따라 중간 신호
Figure 112006026183516-pct00073
가 발생된다. 따라서, 중간 신호
Figure 112006026183516-pct00074
는 다음 식을 만족한다:
Figure 112007058210670-pct00264
두 번째 스테이지(505)에서,
Figure 112006026183516-pct00076
는 DCT-IV 변환(506)에 의해 변환되고 DCT-IV 계수들이 라운딩된다(507). 라운딩된 DCT-TV 계수들로부터
Figure 112006026183516-pct00077
이 감산된다. 그에 따라 신호
Figure 112006026183516-pct00078
가 생성된다. 따라서, 신호
Figure 112006026183516-pct00079
는 다음 식을 만족한다:
Figure 112007058210670-pct00265
세 번째 스테이지(509)에서,
Figure 112006026183516-pct00081
가 DVT-IV 변환(510)을 통해 변환되고 DCT-IV 계수들이 라운딩된다(511). 그런 다음 라운딩된 DCT-IV 계수들이
Figure 112006026183516-pct00082
에서 감산된다. 그에 따라, 신호
Figure 112006026183516-pct00083
이 생성된다. 따라서, 신호
Figure 112006026183516-pct00084
은 다음 식을 만족한다:
Figure 112007058210670-pct00266
수학식 13a에서 13c까지의 식들에 따른 알고리즘은 수학식 12a 내지 12c에 따른 알고리즘의 역순이라는 것을 알 수 있다. 따라서, 도 1 및 2에 도시된 인코더와 디코더에 사용될 때, 이 알고리즘들은 무손실 오디오 코딩 방법 및 장치를 제공한다.
이하에 설명하는 본 발명의 실시예에서, 상술한 방법은 이미지 아카이빙(archiving) 시스템에 사용된다.
수학식 12a 내지 12c와 수학식 13a 내지 13c는 두 N x N 정수 DCT-IV를 계산하기 위해, 세 번의 N x N DCT-IV, 세 번의 N x 1 라운딩, 그리고 세 번의 N x 1 합산이 필요함을 더 알게 한다. 따라서, 한 N x N 정수형 DCT-IV를 위해, 평균 다음과 같은 연산이 필요로 된다:
Figure 112006026183516-pct00091
Figure 112006026183516-pct00092
RC(.)는 총 라운딩 회수이고, AC(.)는 총 산술 연산의 회수이다. 바로 변환되는 정수형 DCT-IV 알고리즘들과 비교할 때, 제안되는 정수형 DCT-IV 알고리즘이 RC를
Figure 112006026183516-pct00093
에서
Figure 112006026183516-pct00094
으로 감소시킨다.
수학식 15에서 나타낸 바와 같이, 제안된 정수형 DCT-IV 알고리즘의 계산상의 복잡도는 DCT-IV 알고리즘의 복잡도에 비해 약 50 % 이상이다. 그러나, RC 역시 고려될 때, 제안된 알고리즘의 그 종합적 복잡도 (AC+RC)는 직접 변환 정수 알고리즘의 종합적 복잡도를 그렇게 많이 초과하지 않는다. 알고리즘 복잡도에 대한 정밀한 분석은 사용하는 DCT-IV 알고리즘에 달려 있다.
도 4 및 5에 도시된 바와 같이, 제안된 정수형 DCT-IV 알고리즘은 구조적으로 간단하면서 모듈화되어 있다. 그것은 DCT-IV 계산 블록 안에 기존의 어떠한 DCT-IV 알고리즘들이라도 사용할 수 있다. 제안된 알고리즘은 MPEG-4 오디오 확장 3 기준 모델 0 등에서, IntMDCT를 필요로 하는 어플리케이션들에 적합하다.
도 6은 본 발명의 실시예에 따른 이미지 아카이빙 시스템(image archiving system)의 구조를 보인다.
도 6에서 가령 카메라와 같은 이미지 소스(601)가 아날로그 이미지 신호를 제공한다. 이미지 신호는 아날로그-디지털 변환기(602)에 의해 처리되어, 그에 따른 디지털 이미지 신호를 발생한다. 디지털 이미지 신호는 시간 도메인에서 주파수 도메인으로의 변환을 포함하는 무손실 이미지 인코더(603)에 의해 손실 없이 부호화된다. 이 실시예에서, 시간 도메인은 이미지의 좌표 공간에 대응한다. 무손실 부호화된 이미지 신호는 가령 하드 디스크나 DVD와 같은 저장 장치(604)에 저장된다. 그 이미지가 필요로 될 때, 손실없이 부호화된 이미지 신호가 저장 장치(604)로부터 가져와 져서, 무손실 이미지 인코더(603)에 대응되는 무손실 이미지 디코더(605)로 제공되고, 여기서 손실없이 부호화된 이미지 신호가 복호되어 어떠한 데이터 손실도 없이 오리지널 이미지 신호가 복원된다.
이러한, 이미지 신호들의 무손실 아카이빙은, 가령, 이미지들이 반도체 웨이퍼의 에러 맵이라 추후 분석을 위해 저장되어야 하는 경우에 중요하다.
본 발명의 실시예에서, 도 3 내지 도 5에 도시된 방법의 실시예가 무손실 이미지 인코더(603) 및 무손실 이미지 디코더(605)에 사용된다. 상술한 바와 같이, 도 3 내지 도 5에 도시된 방법의 실시예는 가역성이 있는(reversible) 변환을 제공함으로써, 특히 무손실 이미지 코딩을 위한 방법을 지원할 수 있게 된다.
본 발명에 따른 방법은 오디오 및 이미지 신호들에 국한되지 않는다. 예를 들어 비디오 신호들과 같은, 다른 디지털 신호들 역시 본 발명의 방법에 의해 변환될 수 있다.
이하에서, 본 발명에 따라 시간 도메인에서 주파수 도메인으로, 주파수 도메 인에서 시간 도메인으로 디지털 신호 변환하는 방법의 또 다른 실시예가 설명된다.
본 발명의 이 실시예에서, 도메인 변환은 DCT 변환이고, 그에 따라 블록 사이즈는 N인 어떤 정수이다. 일 실시예에서, N은 2의 멱수이다.
Figure 112007058210670-pct00095
를 DCT(타입 -II DCT)라고도 불림)의 N x N 변환 매트릭스라 하자:
Figure 112007058210670-pct00267
Figure 112007058210670-pct00268
N은 변환 사이즈이다. m과 n은 매트릭스 인덱스들이다.
Figure 112007058210670-pct00099
를 위에서 이미 정의된 바와 같이, 타입-IV DCT의 N x N 변환 매트릭스라 하자:
Figure 112007058210670-pct00269
위에서와 같이, 복수의 리프팅 매트릭스들이 사용될 것이고, 그 리프팅 매트릭스들은 이 실시예에서 다음과 같은 형식의 2N x 2N 매트릭스들이다:
Figure 112007058210670-pct00270
Figure 112007058210670-pct00104
은 N x N 단위 매트릭스이고,
Figure 112007058210670-pct00106
은 N x N 제로(zero) 매트릭스이며,
Figure 112007058210670-pct00108
은 임의의 N x N 매트릭스이다.
각각의 리프팅 매트릭스
Figure 112006026183516-pct00110
마다, 여기 병합된 참증인 1996년 벨 연구소, 루슨트 테크놀로지의 기술 보고서 내, Daubechies와 W. Sweldens의 "웨이블릿 변환의 리프팅 단계들로의 인수분해"에서 설명한 2x2 리프팅 단계와 동일한 방법으로, 리프팅 스테이지 가역 정수 대 정수 매핑(lifting stage reversible interger t integer mapping)이 구현된다. 유일한 차이는, 단일 변수 대신 라운딩이 벡터에 적용된다는 것이다.
다른 실시예들에 대한 상기 설명에서, 리프팅 매트릭스에 대해 리프팅 스테이지가 어떻게 구현되는지 이미 상세히 기술하였으므로, 리프팅 매트릭스들에 해당하는 리프팅 스테이지들에 대한 설명은 이하에서 생략될 것이다.
Figure 112006026183516-pct00111
의 호환 행렬,
Figure 112006026183516-pct00112
역시 리프팅 매트릭스이다.
이 실시예에서, 변환 요소는 매트릭스
Figure 112007058210670-pct00113
에 해당하고, 그것은 다음과 같이 2N x 2N 매트릭스로서 정의된다:
Figure 112007058210670-pct00271
Figure 112006026183516-pct00116
을 리프팅 매트릭스들로 분해한 것은 다음 식과 같다:
Figure 112007058210670-pct00272
상기 식의 우측 항을 구성하는 매트릭스들을 다음에 설명할 것이다.
Figure 112006026183516-pct00118
은 다음의 수학식에 의해 주어지는 제1순열 매트릭스이다.
Figure 112006026183516-pct00119
Figure 112007058210670-pct00120
은 N x N 역(counter) 인덱스 매트릭스로서 다음과 같다.
Figure 112006026183516-pct00122
Figure 112007058210670-pct00123
은 1과 -1과 번갈아 나타나는 대각 성분을 가진 N x N 대각 매트릭스이다:
Figure 112007058210670-pct00273
Figure 112006026183516-pct00126
는 제2순열 매트릭스로서, 그 예가 다음과 같은 MATLAP 스크립트에 의해 생성된다:
===============================================================
Pd= eye(2*N);
for i=2:2:N,
Pd(i,i)=0; Pd(N+i, N+i)=0;
Pd(i,N+i)=1; Pd(N+i,i)=1;
end
Peo=zeros(2*N);
for i=1:N,
Peo(i, 2*i-1)=1;
Peo(i+N, 2*i)=1;
end
P2=(Pd*Peo)';
==============================================================
예로서, N이 4이고,
Figure 112006026183516-pct00127
는 다음과 같이 8x8 매트릭스이다.
Figure 112007058210670-pct00274
Figure 112006026183516-pct00129
는 제3순열 매트릭스이고, 그 예는 아래으 MATLAP 스크립트에 의해 생성된다:
==============================================================
P3=zeros(2*N);
for i=1:N,
P3(i, 2*i-1)=1;
P3(N2-i+1, 2*i)=1;
end
==============================================================
예로서, N은 4이고,
Figure 112006026183516-pct00130
는 다음과 같이 주어지는 8x8 매트릭스이다.
Figure 112007058210670-pct00275
Figure 112006026183516-pct00132
은 제1리프팅 매트릭스이다.
Figure 112006026183516-pct00133
Figure 112007058210670-pct00134
은 다음과 같이 주어지는 N x N 역 대각 매트릭스이다:
Figure 112006026183516-pct00136
Figure 112006026183516-pct00137
는 제2리프팅 매트릭스이다:
Figure 112006026183516-pct00138
Figure 112007058210670-pct00139
은 다음과 같이 주어지는 N x N 역 대각 매트릭스이다:
Figure 112006026183516-pct00141
Figure 112006026183516-pct00142
는 제3리프팅 매트릭스이다:
Figure 112006026183516-pct00143
Figure 112006026183516-pct00144
Figure 112006026183516-pct00145
는 제4리프팅 매트릭스이다:
Figure 112006026183516-pct00146
Figure 112006026183516-pct00147
Figure 112006026183516-pct00148
는 제5리프팅 매트릭스이다:
Figure 112006026183516-pct00149
Figure 112006026183516-pct00150
Figure 112006026183516-pct00151
는 제6리프팅 매트릭스이다:
Figure 112006026183516-pct00152
Figure 112007058210670-pct00153
는 다음과 같이 주어지는 N x N 역 대각 매트릭스이다:
Figure 112006026183516-pct00155
Figure 112006026183516-pct00156
은 제7리프팅 매트릭스이다:
Figure 112006026183516-pct00157
Figure 112007058210670-pct00158
는 다음과 같이 주어지는 N x N 역 대각 매트릭스이다:
Figure 112006026183516-pct00160
Figure 112006026183516-pct00161
은 제8리프팅 매트릭스이다:
Figure 112006026183516-pct00162
그에 따라, (x)에 도시된 것과 같은 인수분해로 귀결된다:
Figure 112007058210670-pct00276
Figure 112006026183516-pct00164
,
Figure 112006026183516-pct00165
, 및
Figure 112006026183516-pct00166
는 세 순열 매트릭스들이다. j가 1에서 8까지일 때
Figure 112006026183516-pct00167
는 8 개의 리프팅 매트릭스들이다.
리프팅 매트릭스들인
Figure 112006026183516-pct00168
,
Figure 112006026183516-pct00169
,
Figure 112006026183516-pct00170
는 보조 변환 매트릭스이고, 이 경우, 그 보조 변환 매트릭스는 변환 매트릭스
Figure 112006026183516-pct00171
자체이다.
수학식 84로부터, Nx1 차원의 두 입력 신호들에 대한 정수형 DCT를 계산하는 것이 가능하게 된다.
수학식 84에서 DCT-IV 변환 도메인을 나타내는 리프팅 매트릭스 인수분해를 제공할 때, 그 리프팅 매트릭스들은 제공되는 입력 신호의 도메인 변환을 산출하기 위해 이 명세서에서 보이고 있는 방식으로 사용될 수 있다.
수학식 84는 다음과 같은 방법을 통해 나올 수 있다.
이하의 분해 방식은 1985년 IEEE 음향학, 음성 및 신호 처리 분과 회보, ASSP-33권, 제4호에 Wang, Zhongde가 발표한 "이산 퓨리에 및 코사인 변환 계산" 문서를 이용해 도출할 수 있다:
Figure 112007058210670-pct00277
이 알려져 있고,
Figure 112006026183516-pct00173
는 타입 2인 이산 사인 변환의 변환 매트릭스를 나타낸다.
Figure 112007058210670-pct00278
Figure 112007058210670-pct00175
은 다음과 같이 주어지는 N x N 순열 매트릭스이다.
Figure 112006026183516-pct00177
Figure 112006026183516-pct00178
Figure 112006026183516-pct00179
수학식 85는 다음 식과 결합될 수 있다.
Figure 112007058210670-pct00279
Figure 112006026183516-pct00181
는 짝-홀 순열 매트릭스이다.
Figure 112007058210670-pct00280
Figure 112006026183516-pct00183
Figure 112006026183516-pct00184
과 같다.
Figure 112007058210670-pct00281
호환(transposition) 후, 수학식 45는 다음과 같이 변환한다.
Figure 112006026183516-pct00186
수학식 43 및 수학식 46을 결합하면 다음과 같은 결과가 나온다.
Figure 112006026183516-pct00187
Figure 112006026183516-pct00188
수학식 47로부터, 수학식 42가 쉽게 도출될 수 있다.
이 실시예에서, 도메인 변환의 계산은 앞으로 설명하다시피 4N 개의 라운딩 연산만을 필요로 한다:
Figure 112006026183516-pct00189
를 실제 가산(real additions) 회수라 하고,
Figure 112006026183516-pct00190
를 실제 곱셈의 회수라 하고,
Figure 112006026183516-pct00191
를 실제 라운딩의 회수라 하자. 제안된 IntDCT 알고리즘에 있어서, 다음과 같은 결과를 얻는다:
Figure 112007058210670-pct00282
상기 결과는 데이터 샘플들의 두 블록들에 대한 것인데, 제안된 IntDCT 알고리즘이 그 두 블록들을 함께 처리하기 때문이다. 따라서, 데이터 샘플의 한 블록에 대해서는 계산량이 절반이 되고, 그것은 다음과 같다.
Figure 112007058210670-pct00283
Figure 112006026183516-pct00194
,
Figure 112006026183516-pct00195
, 및
Figure 112006026183516-pct00196
은 각각, 샘플 한 블록에 대한 실제 합산 회수, 실제 곱셈 회수, 및 실제 라운딩 회수이다.
DCT-IV 계산에 있어서, 여기 포함된 참증인, 1992년 메사추세츠 노우드 아트텍 하우스 발간 H.S. Malvar의 "랩트(lapped) 변환을 하는 신호 처리" 199-201 페이지에 기술된 FFT 기반 알고리즘이 사용될 것이다.
Figure 112007058210670-pct00284
결국:
Figure 112007058210670-pct00285
이하에서, 본 발명에 따라, 시간 도메인에서 주파수 도메인으로, 그리고 주파수 도메인에서 시간 도메인으로 디지털 신호를 변환하는 방법의 또 다른 실시예에 대해 설명할 것이다.
이 실시예에서는 이산 고속 퓨리에 변환(FFT)이 도메인 변환으로 사용된다.
Figure 112007058210670-pct00199
를 다음과 같이 정규화된 FFT의 N x N 변환 매트릭스라 하자.
Figure 112006026183516-pct00201
N은 어떤 양의 정수로 된 변환 사이즈이다. m과 n은 매트릭스 인덱스들이 다.
이 실시예하에서, N x N 차원의 순열 매트릭스
Figure 112007058210670-pct00203
는 인덱스 0 또는 1을 포함하는 매트릭스이다. 이것을 N x 1 벡터와 곱한 다음 (입력 신호의 매트릭스 표현), 벡터 내 구성 요소들의 순서가 바뀌게 된다.
이 실시예에서, 리프팅 매트릭스들은 다음과 같은 형태의 2N x 2N 매트릭스로서 정의된다:
Figure 112006026183516-pct00206
Figure 112007058210670-pct00207
Figure 112007058210670-pct00208
는 두 순열 매트릭스들이고,
Figure 112007058210670-pct00209
는 N x N의 제로 매트릭스이며,
Figure 112007058210670-pct00211
는 임의의 N x N 매트릭스이다. 리프팅 매트릭스
Figure 112007058210670-pct00213
에 있어서, 가역 정수대 정수 매핑(reversible integer to integer mapping)이 여기 포함되어 상술한 I. Daubechies의 참증의 2x2 리프팅 단계와 같은 방법으로 구현된다. 그러나, 상술한 바와 같이, 단일 변수 대신 라운딩이 벡터에 적용된다.
Figure 112007058210670-pct00214
의 호환 매트릭스인
Figure 112007058210670-pct00215
역시 리프팅 매트릭스임이 명백하다.
또,
Figure 112007058210670-pct00216
를 2N x 2N 변환 매트릭스라 하자:
Figure 112006026183516-pct00218
따라서, 변형된 변환 매트릭스
Figure 112006026183516-pct00219
( 및 그에 따른 도메인 변환 자체)가 다음의 리프팅 매트릭스 인수분해식으로서 표현될 수 있다:
Figure 112007058210670-pct00286
Figure 112007058210670-pct00221
는 N x N 단위 매트릭스이고,
Figure 112007058210670-pct00223
는 N x N 순열 매트릭스로서 다음과 같다:
Figure 112007058210670-pct00287
Figure 112007058210670-pct00288
Figure 112007058210670-pct00289
은 각각 N-1 개의 제로들의 행 및 열 벡터들이다.
Figure 112007058210670-pct00228
는 다음과 같이 주어지는 (N-1) x (N-1) 역 인덱스 행렬이다.
Figure 112006026183516-pct00230
수학식 53에서, [ ] 내 빈 공간은 모두 0들인 매트릭스 요소들을 나타낸다.
수학식 51에서 알 수 있는 바와 같이, 리프팅 매트릭스 인수분해는 여기 기술된 것과 같은 방법들을 이용하여 두 N x 1 복소수 벡터들에 대한 정수 FFT를 계산하는데 사용될 수 있다.
이러한 실시예하에서, 도메인 변환의 계산은 앞으로 설명하는 것처럼 3N 번의 라운딩 연산만을 필요로 한다.
Figure 112006026183516-pct00232
를 실제 가산(real additions) 회수라 하고,
Figure 112006026183516-pct00233
를 실제 곱셈의 회수라 하고,
Figure 112006026183516-pct00234
를 실제 라운딩의 회수라 하자. 제안된 IntFFT 알고리즘에 있어서, 다음과 같은 결과를 얻는다:
Figure 112007058210670-pct00290
상기 결과는 데이터 샘플들의 두 블록들에 대한 것인데, 제안된 IntFFT 알고리즘이 그 두 블록들을 함께 처리하기 때문이다. 따라서, 데이터 샘플의 한 블록에 대해서는 계산량이 절반이 되고, 그것은 다음과 같다.
Figure 112006026183516-pct00236
Figure 112006026183516-pct00237
,
Figure 112006026183516-pct00238
, 및
Figure 112006026183516-pct00239
은 각각, 샘플 한 블록에 대한 실제 합산 회수, 실제 곱셈 회수, 및 실제 라운딩 회수이다.
FFT 계산에 있어서, SRFFT (split-radix FFT) 알고리즘이 사용될 수 있다:
Figure 112006026183516-pct00240
결국:
Figure 112006026183516-pct00241
도 7은 위에서 설명한 DCT 변환 기술과 상기 FFT 도메인 변환의 변환 정확도를 평가하는데 사용되는 포워드 및 역변환 코더들을 보인다. 이 시험에는 여기 병합된 참증인 2003년 3월 태국 파타야에서의 ISO/IEC JTC 1/SC 29/WG 11 N5578 "동영상 및 오디오 코딩: 무손실 실험 프레임워크에 대한 FGS의 정수형 MDCT의 평가 작업 계획"에 기재된 것과 같은 MPEG-4 무손실 오디오 코딩 그룹이 제안한 평가 표준에 따라 변환의 제곱 평균 에러(MSE)를 측정하는 작업이 수반되었다.
특히, IntDCT 및 정수형 역 DCT (IntIDCT)의 MSE들은 다음과 같이 주어진다:
Figure 112007058210670-pct00291
에러 신호 e는 도 1에서와 같이, IntDCT에서 ef이고 IntIDCT에서 et이다. K는 평가에 사용된 샘플 블록들의 총수이다.
IntFFT 및 정수형 역 FFT (IntIFFT)의 MSE들은 다음과 같이 주어진다.
Figure 112007058210670-pct00292
에러 신호 e는 도 1에서와 같이, IntFFT에서 ef이고 IntIFFT에서 et이다.
Figure 112006026183516-pct00244
는 복소수 값의 평균을 나타낸다. K는 평가에 사용된 샘플 블록들의 총수이다.
양 도메인 변환들에서, 총 450초의 서로 다른 15개 타입의 음악 파일들이 48 kHz/16 비트 테스트 집합에 사용된다. 표 1은 이 테스트 결과를 보인다.
표 1에서 알 수 있다시피, 본 발명의 시스템 및 방법들을 이용하여 생성된 MSE는 매우 미미하며, 종래의 시스템들과는 달리, 처리하는 블록 사이즈와 실질적으로 무관하다. DCT-IV 도메인 변환을 참조할 때, MSE는 N에서 4096 비트까지 증가하는 블록 사이즈에 대해 단지 미미하게 증가했을 뿐이다. FFT의 MSE들은 최대 4096 비트까지의 블록 사이즈들에 대해 0.4의 일정한 MSE를 보임으로써, 훨씬 양호 하였다. 본 발명의 실험 성능을 현재의 기능과 보다 긴 블록 사이즈들에 대한 늘어나는 수요의 관점에서 볼 때, 본 발명의 이점은 자명하다고 할 것이다.
Figure 112006026183516-pct00245
포함된 참증들
아래의 문서들이 참증으로서 본 명세서에 병합된다:
1992년 아트텍 하우스, H.S. Malvar, "랩트(Lapped) 변환을 하는 신호 처리";
2001년 9월 미국 뉴욕, AES 111차 총회, R. Geiger, T. Sporer, J. Koller, K. Brandenburg, "정수형 변환에 기반하는 오디오 코딩";
1985년 10월 IEEE 음향학, 음성 및 신호 처리에 관한 회보, ASSP-33권, 제4호, Wang, Zhongde, "이산 퓨리에 및 코사인 변환 계산에 관하여";
1996년 벨 연 연구소, 루슨트 테크놀로지, 기술 보고, I. Daubechies 및 W. Sweldens, "웨이블릿 변환을 리프팅 스텝들로 인수분해하는 방법";
2002년 3월 IEEE 신호 처리 분과 회보, 50권 제3호, 2314-2324 페이지의, P. Hao 및 Q. Shi의 "가역 정수 매핑을 위한 매트릭스 분해";
2003년 Appl. Comput. Harmon. Anal. 15:70-88, G. Plonka와 M. Tasche의 "가역 정수형 DCT 알고리즘";
2001년 11월 IEEE 신호 처리 분과 회보, 49권 제11호 2774-2782 페이지, Y. H. Zeng, L. Z. Cheng, G. A. Bi, 그리고 Alex C. Kot의 "정수형 DCT들 및 고속 알고리즘들";
2003년 홍콩에서의 음향학, 음성 및 신호 처리에 대한 국제 회의 회보 II 권, 549-552 페이지, J. Wang, J. Sun과 S. Yu의 "정수에서 정수로의 1-D 및 2-D 변환";
2003년 3월 태국 파타야, ISO/IEC JTC 1/SC 29/WG 11 N5578, "동영상 및 오디오의 코딩: 무손실 실험 프레임워크에 대한 FGS의 정수형 MDCT의 평가 작업 계획".

Claims (14)

  1. 데이터 심볼들을 포함하고 각 블록이 소정 수의 데이터 심볼들을 포함하는 복수의 블록들로 그룹화된 디지털 신호를, 변환 매트릭스를 포함하는 변환 함수를 이용하여, 시간 도메인에서 주파수 도메인으로 그리고 주파수 도메인에서 시간 도메인으로 변환하는 방법에 있어서,
    한 변환 요소에 의해 디지털 신호의 두 블록들을 변환하는 단계를 포함하고,
    상기 변환 요소는, 각 서브 매트릭스마다 변환 매트릭스를 포함하는 두 서브 매트릭스들을 구비한 블록-대각 매트릭스에 해당하고, 복수의 리프팅(lifting) 스테이지들을 포함하며, 상기 각각의 리프팅 스테이지는 보조 변환 및 라운딩 유닛에 의해 디지털 신호의 블록들을 처리하는 동작을 포함함을 특징으로 하는 디지털 신호의 도메인 방법.
  2. 제1항에 있어서, 상기 변환 함수는, DCT-I 변환 함수, DCT-IV 변환 함수, DST-I 변환 함수, DFT-I 변환 함수, DFT-IV 변환 함수, DST-IV 변환 함수, DWT-I 변환 함수, 혹은 DWT-IV 변환 함수임을 특징으로 하는 디지털 신호의 변환 방법.
  3. 제1항 또는 제2항에 있어서, 상기 각 리프팅 스테이지는 리프팅 매트릭스에 해당하며, 상기 리프팅 매트릭스는, 두 가역 정수 매트릭스들이 한 대각 방향의 두 서브 매트릭스들이고 변환 매트릭스와 제로가 다른 대각 방향의 나머지 두 서브 매 트릭스들인 네 서브 매트릭스들을 포함하는 블록-삼각 매트릭스임을 특징으로 하는 디지털 신호의 변환 방법.
  4. 제3항에 있어서, 상기 각 리프팅 매트릭스 내 가역 정수 매트릭스들은 단위 매트릭스들이거나 마이너스의 단위 매트릭스들임을 특징으로 하는 디지털 신호의 변환 방법.
  5. 제1항에 있어서, 상기 변환 요소는 세 개의 리프팅 스테이지들을 포함함을 특징으로 하는 디지털 신호의 변환 방법.
  6. 제1항에 있어서, 오디오 신호 또는 비디오 신호가 상기 디지털 신호로서 사용됨을 특징으로 하는 디지털 신호의 변환 방법.
  7. 데이터 심볼들을 포함하고 각 블록이 소정 수의 데이터 심볼들을 포함하는 복수의 블록들로 나누어진 디지털 신호를, 변환 매트릭스를 포함하는 변환 함수를 이용하여, 시간 도메인에서 주파수 도메인으로 그리고 주파수 도메인에서 시간 도메인으로 변환하는 장치에 있어서,
    한 변환 요소에 의해 디지털 신호의 두 블록들을 변환하는 변환 유닛을 포함하고,
    상기 변환 요소는, 각 서브 매트릭스마다 변환 매트릭스를 포함하는 두 서브 매트릭스들을 구비한 블록-대각 매트릭스에 해당하고, 복수의 리프팅(lifting) 스테이지들을 포함함을 특징으로 하는 디지털 신호 변환 장치.
  8. 제7항에 있어서, 상기 변환 유닛은, 각 리프팅 스테이지마다 디지털 신호의 블록들을 처리하도록 하는 보조 변환 유닛들을 포함함을 특징으로 하는 디지털 시호 변환 장치.
  9. 제7항 또는 제8항에 있어서, 상기 변환 유닛은, 각각의 리프팅 스테이지마다 디지털 신호의 블록들을 처리하도록 하는 라운딩 유닛들을 포함함을 특징으로 하는 디지털 신호 변환 장치.
  10. 제7항에 있어서, 상기 변환 유닛은,
    복수의 데이터 블록들을 수신하고, 각각의 블록을 MDCT 계수들로 도메인 변환하도록 구성된 변형 이산 코사인 변환 장치;
    MDCT 계수들 각각을 수신하고, 그에 따라, 양자화된 MDCT 계수들을 생성하도록 동작하는 양자화기;
    양자화된 MDCT 계수들을 수신하고, 그에 따라, 인식 부호화(perceptually coded) 비트 스트림을 생성하는 비트 스트림 인코더;
    양자화된 MDCT 계수들을 수신하여, 그 MDCT 계수들을 비양자화 상태로 복구하도록 동작하는 역 양자화기; 및
    복구된 MDCT 계수들을 수신하고 정수값 MDCT 계수들을 생성하도록 동작하는 라운딩 유닛을 포함함을 특징으로 하는 디지털 신호 변환 장치.
  11. 제10항에 있어서, 상기 변환 유닛은,
    데이터 블록들을 수신하고, 그에 따라 IntMDCT 계수들을 생성하도록 동작하는 역 변형 이산 코사인 변환 장치;
    개개의 IntMDCT 계수들과 정수 값 MDCT 계수들 사이의 차를 계산하여 개개의 잉여(residual) MDCT 계수들을 생성하는 계산 수단; 및
    잉여 MDCT 계수들을 수신하고 그에 따라 무손실 강화 비트스트림을 생성하도록 동작하는 엔트로피 코더를 더 포함함을 특징으로 하는 디지털 신호 변환 장치.
  12. 제11항에 있어서, 상기 변환 유닛은,
    상기 인식 부호화 비트스트림을 수신하고, 그에 따라 복호화된 비트스트림을 출력하도록 작동하는 비트스트림 디코더;
    복호화된 비트스트림을 수신하고 그에 따라 복구된 MDCT 계수들을 생성하도록 구성된 역 양자화기;
    복구된 MDCT 계수들을 수신하고, 각각의 MDCT 계수를 한 정수 값으로 라운딩하도록 동작하는 라운딩 유닛; 및
    복구된 MDCT 스트림을 수신하고 그에 따라 상기 인식 부호화된 신호의 복원된 사본을 생성하도록 구성된 역 MDCT 장치를 더 포함함을 특징으로 하는 디지털 신호 변환 장치.
  13. 제12항에 있어서, 상기 변환 유닛은,
    무손실 비트 스트림을 수신하고, 그에 따라 잉여 IntMDCT 계수들을 생성하도록 동작하는 엔트로피 디코더;
    상기 잉여 IntMDCT 계수들을 정수 값 MDCT 계수들에 더하여 IntMDCT 계수들을 생성하는 수단; 및
    상기 정수 값 MDCT 계수들과 상기 IntMDCT 계수들의 합을 받아 무손실 부호화된 오디오 신호의 복원 사본을 생성하도록 구성된 역 IntMDCT 장치를 포함함을 특징으로 하는 디지털 신호 변환 장치.
  14. 데이터 심볼들을 포함하고 각 블록이 소정 수의 데이터 심볼들을 포함하는 복수의 블록들로 나누어진 디지털 신호를, 변환 매트릭스를 포함하는 변환 함수를 이용하여, 시간 도메인에서 주파수 도메인으로 그리고 주파수 도메인에서 시간 도메인으로 변환하는 방법을, 컴퓨터가 실행할 수 있게 구성된 프로그램이 기록된 컴퓨터 판독 가능 매체에 있어서,
    한 변환 요소에 의해 디지털 신호의 두 블록들을 변환하도록 하는 코드를 포함하고,
    상기 변환 요소는, 각 서브 매트릭스마다 변환 매트릭스를 포함하는 두 서브 매트릭스들을 구비한 블록-대각 매트릭스에 해당하고, 복수의 리프팅(lifting) 스 테이지들을 포함하며, 상기 각각의 리프팅 스테이지는 보조 변환 및 라운딩 유닛에 의해 디지털 신호의 블록들을 처리하는 동작을 포함함을 특징으로 하는 컴퓨터 판독 가능 매체.
KR1020067007300A 2003-09-29 2004-05-06 시간 도메인에서 주파수 도메인으로 그리고 그 반대로디지털 신호를 변환하는 방법 KR100885437B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US50744003P 2003-09-29 2003-09-29
US50721003P 2003-09-29 2003-09-29
US60/507,440 2003-09-29
US60/507,210 2003-09-29

Publications (2)

Publication Number Publication Date
KR20070015363A KR20070015363A (ko) 2007-02-02
KR100885437B1 true KR100885437B1 (ko) 2009-02-24

Family

ID=34396342

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020067007299A KR100885438B1 (ko) 2003-09-29 2004-05-06 시간 도메인에서 주파수 도메인으로 그리고 그 반대로디지털 신호의 도메인 변환을 수행하는 방법
KR1020067007300A KR100885437B1 (ko) 2003-09-29 2004-05-06 시간 도메인에서 주파수 도메인으로 그리고 그 반대로디지털 신호를 변환하는 방법

Family Applications Before (1)

Application Number Title Priority Date Filing Date
KR1020067007299A KR100885438B1 (ko) 2003-09-29 2004-05-06 시간 도메인에서 주파수 도메인으로 그리고 그 반대로디지털 신호의 도메인 변환을 수행하는 방법

Country Status (8)

Country Link
US (3) US20070276894A1 (ko)
EP (3) EP1668534A4 (ko)
JP (3) JP2007507790A (ko)
KR (2) KR100885438B1 (ko)
MX (2) MXPA06003508A (ko)
MY (2) MY137920A (ko)
TW (3) TW200527224A (ko)
WO (3) WO2005031595A1 (ko)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10331803A1 (de) * 2003-07-14 2005-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Umsetzen in eine transformierte Darstellung oder zum inversen Umsetzen der transformierten Darstellung
JP2007507790A (ja) * 2003-09-29 2007-03-29 エージェンシー フォー サイエンス,テクノロジー アンド リサーチ 時間ドメインから周波数ドメインへ及びそれとは逆にデジタル信号を変換する方法
DE10345996A1 (de) 2003-10-02 2005-04-28 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Verarbeiten von wenigstens zwei Eingangswerten
US7577307B2 (en) * 2005-04-12 2009-08-18 The Aerospace Corporation Fast adaptive lifting lossless wavelet transform
US7574064B2 (en) * 2005-04-12 2009-08-11 The Aerospace Corporation Fast lifting lossless wavelet transform
US8392176B2 (en) 2006-04-10 2013-03-05 Qualcomm Incorporated Processing of excitation in audio coding and decoding
WO2008114075A1 (en) * 2007-03-16 2008-09-25 Nokia Corporation An encoder
US20080288568A1 (en) * 2007-05-14 2008-11-20 Hou Hsieh S Low power Fast Hadamard transform
US8428957B2 (en) 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
US8548815B2 (en) 2007-09-19 2013-10-01 Qualcomm Incorporated Efficient design of MDCT / IMDCT filterbanks for speech and audio coding applications
EP2211335A1 (en) * 2009-01-21 2010-07-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for obtaining a parameter describing a variation of a signal characteristic of a signal
US8885701B2 (en) * 2010-09-08 2014-11-11 Samsung Electronics Co., Ltd. Low complexity transform coding using adaptive DCT/DST for intra-prediction
US8995532B2 (en) 2010-09-30 2015-03-31 Texas Instruments Incorporated Low complexity large transform
US9794712B2 (en) 2014-04-25 2017-10-17 Dolby Laboratories Licensing Corporation Matrix decomposition for rendering adaptive audio using high definition audio codecs
CN106463125B (zh) 2014-04-25 2020-09-15 杜比实验室特许公司 基于空间元数据的音频分割
CN105895109B (zh) * 2016-05-10 2019-02-26 信阳师范学院 一种基于dwt和dct的数字语音取证和篡改恢复方法
KR20180089858A (ko) * 2017-02-01 2018-08-09 엘지전자 주식회사 레이어드 기븐스 변환을 이용하여 변환을 수행하는 방법 및 장치
CN110892478A (zh) 2017-04-28 2020-03-17 Dts公司 音频编解码器窗口和变换实现

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000055757A1 (en) * 1999-03-17 2000-09-21 The Johns Hopkins University A fast multiplierless transform
US20020012470A1 (en) * 2000-01-15 2002-01-31 Sony Corporation And Sony Electronics, Inc. Methods and systems for performing inverse quantization and inverse weighting of DV video
US20030014136A1 (en) * 2001-05-11 2003-01-16 Nokia Corporation Method and system for inter-channel signal redundancy removal in perceptual audio coding

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4031038A (en) * 1975-06-16 1977-06-21 The Dow Chemical Company Water insoluble chelate exchange resins having a crosslinked polymer matrix and pendant thereto a plurality of methyleneaminopyridine groups
US5339265A (en) * 1992-08-31 1994-08-16 University Of Maryland At College Park Optimal unified architectures for the real-time computation of time-recursive discrete sinusoidal transforms
US5523847A (en) * 1992-10-09 1996-06-04 International Business Machines Corporation Digital image processor for color image compression
JP3773260B2 (ja) * 1994-11-09 2006-05-10 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 画像又は音声信号を伝送するシステム及び方法
US5999656A (en) * 1997-01-17 1999-12-07 Ricoh Co., Ltd. Overlapped reversible transforms for unified lossless/lossy compression
US6058215A (en) * 1997-04-30 2000-05-02 Ricoh Company, Ltd. Reversible DCT for lossless-lossy compression
US6073153A (en) * 1998-06-03 2000-06-06 Microsoft Corporation Fast system and method for computing modulated lapped transforms
US6421464B1 (en) * 1998-12-16 2002-07-16 Fastvdo Llc Fast lapped image transforms using lifting steps
US7218789B2 (en) * 2000-12-01 2007-05-15 Lizardtech, Inc. Method for lossless encoding of image data by approximating linear transforms and preserving selected properties for image processing
DE10129240A1 (de) * 2001-06-18 2003-01-02 Fraunhofer Ges Forschung Verfahren und Vorrichtung zum Verarbeiten von zeitdiskreten Audio-Abtastwerten
JP3971135B2 (ja) * 2001-07-11 2007-09-05 株式会社テクノマセマティカル Dct行列分解方法及びdct装置
US7082450B2 (en) * 2001-08-30 2006-07-25 Nokia Corporation Implementation of a transform and of a subsequent quantization
JP3796432B2 (ja) * 2001-10-31 2006-07-12 キヤノン株式会社 フィルタ処理装置およびフィルタ処理方法
DE10217297A1 (de) * 2002-04-18 2003-11-06 Fraunhofer Ges Forschung Vorrichtung und Verfahren zum Codieren eines zeitdiskreten Audiosignals und Vorrichtung und Verfahren zum Decodieren von codierten Audiodaten
JP3902990B2 (ja) * 2002-07-02 2007-04-11 キヤノン株式会社 アダマール変換処理方法及びその装置
DE10236694A1 (de) * 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
DE10331803A1 (de) * 2003-07-14 2005-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Umsetzen in eine transformierte Darstellung oder zum inversen Umsetzen der transformierten Darstellung
JP2007507790A (ja) * 2003-09-29 2007-03-29 エージェンシー フォー サイエンス,テクノロジー アンド リサーチ 時間ドメインから周波数ドメインへ及びそれとは逆にデジタル信号を変換する方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000055757A1 (en) * 1999-03-17 2000-09-21 The Johns Hopkins University A fast multiplierless transform
US20020012470A1 (en) * 2000-01-15 2002-01-31 Sony Corporation And Sony Electronics, Inc. Methods and systems for performing inverse quantization and inverse weighting of DV video
US20030014136A1 (en) * 2001-05-11 2003-01-16 Nokia Corporation Method and system for inter-channel signal redundancy removal in perceptual audio coding

Also Published As

Publication number Publication date
US20070276893A1 (en) 2007-11-29
TW200529040A (en) 2005-09-01
TWI348282B (en) 2011-09-01
JP2009266250A (ja) 2009-11-12
US8126950B2 (en) 2012-02-28
MY139788A (en) 2009-10-30
MY137920A (en) 2009-03-31
KR100885438B1 (ko) 2009-02-24
US8126951B2 (en) 2012-02-28
KR20070015363A (ko) 2007-02-02
MXPA06003508A (es) 2007-01-25
WO2005031595A1 (en) 2005-04-07
TWI343534B (en) 2011-06-11
TW200527224A (en) 2005-08-16
EP1668533A1 (en) 2006-06-14
JP4942793B2 (ja) 2012-05-30
TW200524290A (en) 2005-07-16
KR20070026325A (ko) 2007-03-08
WO2005031597A1 (en) 2005-04-07
US20070276894A1 (en) 2007-11-29
WO2005031596A1 (en) 2005-04-07
EP1668533A4 (en) 2013-08-21
JP2007507790A (ja) 2007-03-29
JP2007507789A (ja) 2007-03-29
EP1687736A1 (en) 2006-08-09
JP4429316B2 (ja) 2010-03-10
MXPA06003509A (es) 2007-01-25
US20080030385A1 (en) 2008-02-07
EP1668534A1 (en) 2006-06-14
EP1668534A4 (en) 2013-08-21

Similar Documents

Publication Publication Date Title
JP4942793B2 (ja) 時間ドメインから周波数ドメインへ及びそれとは逆にデジタル信号を変換する方法
US8195730B2 (en) Apparatus and method for conversion into a transformed representation or for inverse conversion of the transformed representation
Zandi et al. CREW: Compression with reversible embedded wavelets
US7917564B2 (en) Device and method for processing a signal having a sequence of discrete values
US7873227B2 (en) Device and method for processing at least two input values
JP4081447B2 (ja) 時間離散オーディオ信号を符号化する装置と方法および符号化されたオーディオデータを復号化する装置と方法
JP3814611B2 (ja) 時間離散オーディオサンプル値を処理する方法と装置
CN100570597C (zh) 将数字信号从时间域变换到频率域及其反向变换的方法
Huang et al. Integer fast modified cosine transform
Oraintara et al. The integer MDCT and its application in the MPEG layer III audio

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120210

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee