KR20100099997A - 오디오 부호화기의 양자화 방법 및 장치 - Google Patents

오디오 부호화기의 양자화 방법 및 장치 Download PDF

Info

Publication number
KR20100099997A
KR20100099997A KR1020090018623A KR20090018623A KR20100099997A KR 20100099997 A KR20100099997 A KR 20100099997A KR 1020090018623 A KR1020090018623 A KR 1020090018623A KR 20090018623 A KR20090018623 A KR 20090018623A KR 20100099997 A KR20100099997 A KR 20100099997A
Authority
KR
South Korea
Prior art keywords
frame
value
scale factor
full
frequency spectrum
Prior art date
Application number
KR1020090018623A
Other languages
English (en)
Other versions
KR101078378B1 (ko
Inventor
반재미
Original Assignee
주식회사 코아로직
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 코아로직 filed Critical 주식회사 코아로직
Priority to KR1020090018623A priority Critical patent/KR101078378B1/ko
Priority to CN2010800103313A priority patent/CN102341846B/zh
Priority to JP2011552875A priority patent/JP5379871B2/ja
Priority to PCT/KR2010/000636 priority patent/WO2010101354A2/en
Priority to US12/717,095 priority patent/US8600764B2/en
Publication of KR20100099997A publication Critical patent/KR20100099997A/ko
Application granted granted Critical
Publication of KR101078378B1 publication Critical patent/KR101078378B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

오디오 부호화기의 양자화 방법 및 장치가 개시되어 있다. 오디오 부호화기의 양자화 방법은 외부로부터 수신되는 제 1 프레임의 주파수 스펙트럼 데이터를 분석하여 제 1 프레임의 최대 주파수 스펙트럼 절대값을 산출하고, 제 1 프레임의 최대 주파수 스펙트럼 절대값 및 이전에 산출된 제 2 프레임의 최대 주파수 스펙트럼 절대값을 기반으로 제 1 프레임의 양자화에 사용하기 위한 전대역 스케일팩터의 초기값을 설정하고, 그 설정된 전대역 스케일팩터의 초기값을 기반으로, 제 1 프레임의 주파수 스펙트럼 데이터를 양자화한다. 따라서 양자화를 수행하기 전에 실제 전대역 스케일팩터의 값과 거의 근접한 전대역 스케일팩터의 초기값을 미리 설정할 수 있다.
양자화, 부호화, 전대역 스케일팩터, 주파수 스펙트럼, 프레임

Description

오디오 부호화기의 양자화 방법 및 장치 {Method and Apparatus for Quantization of Audio Encoder}
본 발명은 오디오 부호화기의 양자화 방법 및 장치에 관한 것으로, 좀더 상세하게는, 양자화를 수행하기 전에 실제 전대역 스케일팩터와 거의 동일한 전대역 스케일팩터의 초기값을 미리 설정함으로써 양자화 시에 전대역 스케일팩터를 조정하기 위한 루프의 반복 횟수를 대폭 줄일 수 있는 양자화 관련 기술에 관한 것이다.
일반적으로, MPEG(Moving Picture Experts Group) 오디오 부호화는 고품질 및 고능율의 부호화를 위한 ISO/IEC의 표준 방식으로서, ISO/IEC SC29/WG11에 설치된 MPEG 내에서 동영상 부호화와 병행하여 표준화되었다. MPEG 오디오 부호화는 높은 압축율(High Compression Rate)을 실현하면서도 주관적인 음질의 손실은 최소화하는데 중점을 둔 부호화 표준이다.
MPEG 오디오 부호화는 다양한 방식을 사용하여 부호화 중 생성되는 양자화 잡음을 청취자가 지각(Perception)하지 못하도록 한다. 예를 들어, MPEG 오디오 부호화는 인간의 지각 특성을 반영하고 지각적 중복성을 제거하여 부호화 후에도 좋은 음질이 유지될 수 있도록 심리 음향 모델(Psychoacoustic Model)을 사용한다. 심리 음향 모델을 사용하는 오디오 부호화기는 오디오 신호를 듣는 인간의 청각 특성을 이용하여 인간이 지각하기 어려운 세부의 정보들은 부호화 시에 생략함으로써, 부호 량을 절감하여 고능률의 압축을 실현한다.
심리 음향 모델을 사용하는 오디오 부호화기는 인간이 청취할 수 있는 음의 최소 레벨인 최소 가청 한계(Threshold in Quite), 및 어떤 음에 의하여 특정 임계 값 이하의 작은 음이 가려지는 효과인 마스킹(Masking) 효과를 이용한다. 예를 들면, 심리 음향 모델을 사용하는 오디오 부호화기는 인간이 청취하기 어려운 매우 낮거나 매우 높은 주파수 성분은 부호화 과정에서 제외할 수 있으며, 어떠한 주파수 성분에 의하여 감춰지는 주파수 성분은 원래보다 낮은 정밀도로 부호화할 수도 있다.
심리 음향 모델을 사용하는 오디오 부호화기는 이러한 심리 음향 모델을 기반으로 계산되는 값을 사용하여 데이터의 양자화 및 부호화를 수행한다. 예를 들어, MPEG 오디오 부호화기는 시간 도메인의 오디오 데이터를 주파수 도메인의 오디오 데이터로 변환한 뒤, 심리 음향 모델 모듈을 이용하여 각 주파수 밴드 별 최대 허용 잡음의 양, 즉 최대 허용 왜곡(Allowed Distortion)를 구하고 이를 기반으로 양자화 및 부호화를 수행한다.
도 1은 심리 음향 모델을 사용하는 오디오 부호화기의 통상적인 양자화 과정 을 설명하기 위한 흐름도이다.
도 1에 도시된 바와 같이, 종래의 오디오 부호화기는 주파수 도메인의 데이터를 양자화하기 위하여 다단계 루프를 수행한다. 상기 다단계 루프는 내부 루프(Inner Loop)(IL) 및 외부 루프(Outer Loop)(OL)를 포함할 수 있다.
내부 루프(IL)에서는 프레임 단위로 수신되는 주파수 도메인의 데이터를 전대역 스케일팩터(Common Scale Factor) 및 밴드 스케일팩터(Band Scale Factor)를 사용하여 양자화하고(단계:S1), 양자화된 데이터를 부호화하였을 때의 비트수, 즉 사용 비트수가 가용 비트수를 초과하지 않도록 전대역 스케일팩터를 조정한다(단계:S2~S4). 또한 외부 루프(OL)에서는 각 주파수 밴드의 왜곡(Distiortion)이 허용 왜곡을 초과하지 않도록 밴드 스케일팩터를 조정한다(단계:S5~S7).
상기 언급한 바와 같이, 양자화 과정 시 내부 루프에서는 양자화된 데이터를 부호화하였을 때의 사용 비트수를 가용 비트수와 비교하는 과정을 수행한다. 이때, 상기 사용 비트수는 양자화된 데이터를 부호화해 봐야 산출 가능하기 때문에 매 루프마다 부호화 과정이 연계되어야 한다. 왜냐하면 전대역 스케일팩터의 변화에 의하여 양자화된 데이터는 루프마다 변하며, 이에 따라 코드워드 및 코드워드의 길이가 달라지기 때문이다.
이와 같이, 종래의 오디오 부호화기의 양자화 프로세스는 최적의 값을 얻을 때까지 외부 루프와 내부 루프를 다수 회 반복 수행하며, 특히 내부 루프는 매 루프마다 양자화 및 그 양자화된 데이터를 부호화한 데이터를 기반으로 하는 계산 과정을 포함하고 있어 상당히 많은 연산을 수반한다. 따라서 이러한 내부 루프의 루 프 반복 횟수가 많아지면 양자화 및 부호화 횟수가 증가하여 오디오 부호화기의 연산 량이 과도하게 증가한다. 그리고 이러한 연산 량의 증가는 결국 전체 부호화 프로세스의 수행 시간을 지체시키고 하드웨어 자원에도 지나친 부담을 주는 원인된다.
본 발명이 해결하고자 하는 기술적 과제는 오디오 데이터의 양자화에 사용하기 위한 전대역 스케일팩터의 초기값을 실제 전대역 스케일팩터의 값과 최대한 근접하도록 미리 설정하여, 양자화 시의 루프 반복 회수를 대폭 줄일 수 있는 오디오 부호화기의 양자화 방법 및 장치를 제공하는데 있다.
이러한 기술적 과제를 해결하기 위하여 본 발명은 일 측면(Aspect)에서 오디오 부호화기의 양자화 방법을 제공한다. 상기 오디오 부호화기의 양자화 방법은, 외부로부터 수신되는 제 1 프레임의 주파수 스펙트럼 데이터를 분석하여 상기 제 1 프레임의 최대 주파수 스펙트럼 절대값을 산출하는 단계와; 상기 제 1 프레임의 최대 주파수 스펙트럼 절대값 및 이전에 산출된 제 2 프레임의 최대 주파수 스펙트럼 절대값을 기반으로 상기 제 1 프레임의 양자화에 사용하기 위한 전대역 스케일팩터의 초기값을 설정하는 단계; 및 상기 설정된 전대역 스케일팩터의 초기값을 기반으로, 상기 제 1 프레임의 주파수 스펙트럼 데이터를 양자화하는 단계를 포함한다.
상기 제 1프레임의 최대 주파수 스펙트럼 절대값을 산출하는 단계는, 상기 제 1 프레임의 주파수 스펙트럼 데이터 중 절대값이 가장 큰 부분의 절대값을 산출하는 단계를 포함할 수 있다.
상기 전대역 스케일팩터의 초기값을 설정하는 단계는, 특정 비교 알고리즘을 사용하여, 상기 제 1 프레임의 최대 주파수 스펙트럼 절대값을 상기 제 2 프레임의 최대 주파수 스펙트럼 절대값과 비교하는 단계; 및 상기 비교의 결과 값에 대응하는 산출 알고리즘을 사용하여, 상기 제 1 프레임의 양자화에 사용하기 위한 전대역 스케일팩터의 초기값을 산출하는 단계를 포함할 수 있다.
상기 비교 단계는, 상기 제 1 프레임의 최대 주파수 스펙트럼 절대값에 이진 로그를 취하여 제 1 이진 로그 값을 산출하는 단계와; 상기 제 2 프레임의 최대 주파수 스펙트럼 절대값에 이진 로그를 취하여 제 2 이진 로그 값을 산출하는 단계; 및 상기 제 1 이진 로그 값과 상기 제 2 이진 로그 값의 차이 값을 산출하는 단계를 포함할 수 있다.
상기 전대역 스케일팩터의 초기값을 설정하는 단계는, 상기 제 1 이진 로그 값과 상기 제 2 이진 로그 값의 차이 값에 대응하는 산출 알고리즘을 추출하는 단계; 및 상기 추출된 산출 알고리즘을 사용하여 상기 전대역 스케일팩터의 초기값을 산출하는 단계를 포함할 수도 있다. 상기 산출 알고리즘을 추출하는 단계는, 상기 제 1 이진 로그 값과 상기 제 2 이진 로그 값의 차이 값을 적어도 하나의 상수 값과 비교하는 단계를 포함할 수 있다.
상기 전대역 스케일팩터의 초기값을 산출하는 단계는, 상기 제 2 프레임의 전대역 스케일팩터의 값, 상기 제 1 이진 로그 값에서 상기 제 2 이진 로그 값을 차감한 값, 특정 상수 값 중 적어도 어느 하나를 사용하여 연산을 수행하는 단계를 포함할 수 있다.
상술한 오디오 데이터의 양자화 방법은, 상기 산출되는 상기 제 1 프레임의 최대 주파수 스펙트럼 절대값이 0일 경우, 미리 설정된 상수 값을 상기 제 1 프레임의 전대역 스케일팩터의 초기값으로 설정하는 단계를 더 포함할 수도 있다.
상기 오디오 데이터의 양자화 방법은 상기 양자화된 데이터를 부호화한 데이터의 사용 비트수가 미리 설정된 가용 비트수를 초과하지 않도록 전대역 스케일팩터를 조정하는 단계를 더 포함할 수도 있다. 상기 전대역 스케일팩터를 조정하는 단계는, 상기 양자화된 데이터를 부호화한 데이터의 사용 비트수를 계산하는 단계와; 상기 계산된 사용 비트수와 상기 가용 비트수를 비교하는 단계; 및 상기 사용 비트수가 상기 가용 비트수를 초과할 경우, 상기 전대역 스케일팩터를 조정하는 단계를 포함할 수 있다.
상기 오디오 데이터의 양자화 방법은, 상기 가용 비트수에서 상기 사용 비트수를 차감한 값이 특정 임계값을 초과하지 않도록 상기 전대역 스케일팩터를 조정하는 단계를 더 포함할 수도 있다.
상기 오디오 데이터의 양자화 방법은, 상기 제 1 프레임의 주파수 스펙트럼 데이터의 각 주파수 밴드의 왜곡(Distortion)이 상기 각 주파수 밴드의 허용 왜곡(Allowed Distortion)을 초과하지 않도록 상기 각 주파수 밴드에 대응되는 밴드 스케일팩터를 조정하는 단계를 더 포함할 수도 있다.
한편, 본 발명은 다른 측면에서 외부로부터 수신되는 제 1 프레임의 주파수 스펙트럼 데이터의 양자화에 사용하기 위한 전대역 스케일팩터의 초기값을 설정하는 방법을 제공한다. 상기 방법은 상기 제 1 프레임의 블록 타입이 상기 제 1프레임의 이전 프레임인 제 2 프레임의 블록 타입과 상이한지를 판단하는 단계; 및 상 기 제 1 프레임의 블록 타입이 상기 제 2 프레임의 블록 타입과 상이할 경우 특정 상수 값을 상기 전대역 스케일팩터의 초기값으로 설정하고, 상기 제 1 프레임의 블록 타입이 상기 제 2 프레임의 블록 타입과 동일할 경우 상기 제 1 프레임 및 제 2 프레임의 최대 주파수 스펙트럼 절대값을 기반으로 상기 전대역 스케일팩터의 초기값을 산출하는 단계를 포함할 수 있다.
한편, 상술한 본 발명의 기술적 과제를 해결하기 위하여 본 발명은 또 다른 측면에서 오디오 데이터의 양자화 장치를 제공한다. 상기 양자화 장치는, 외부로부터 수신되는 프레임 단위의 주파수 스펙트럼 데이터를 분석하여 각각의 프레임에 대한 최대 주파수 스펙트럼 절대값을 산출하고, 상기 산출된 최대 주파수 스펙트럼 절대값의 프레임 간의 변화도에 따라 각 프레임의 전대역 스케일팩터의 초기값을 설정하는 초기값 설정 모듈; 및 상기 초기값 설정 모듈에 의하여 설정된 전대역 스케일팩터의 초기값을 기반으로 양자화를 수행하며, 상기 양자화된 데이터를 부호화한 데이터의 사용 비트수가 미리 설정된 가용 비트수를 초과하지 않도록 전대역 스케일팩터를 저정하는 적어도 하나의 기능 모듈을 포함할 수 있다.
상기 초기값 설정 모듈은, 현재 프레임의 최대 주파수 스펙트럼 절대값과 이전 프레임의 최대 주파수 절대값을 산출하고, 상기 현재 프레임의 최대 주파수 스펙트럼 절대값과 이전 프레임의 최대 주파수 스펙트럼 절대값을 특정 비교 알고리즘을 사용하여 비교할 수 있다.
상기 초기값 설정 모듈은 상기 현재 프레임의 최대 주파수 스펙트럼 절대값에 이진 로그를 취하여 제 1 이진 로그 값을 산출하고, 상기 이전 프레임의 최대 주파수 절대값에 이진 로그를 취하여 제 2 이진 로그 값을 산출할 수 있다. 또한 상기 초기값 설정 모듈은 상기 제 1 이진 로그 값과 제 2 이진 로그 값의 차이 값에 따라 상기 현재 프레임의 전대역 스케일팩터의 초기값을 산출하기 위한 산출 알고리즘을 추출할 수 있다.
상기 적어도 하나의 기능 모듈은, 상기 현재 프레임의 전대역 스케일팩터의 초기값을 기반으로 상기 현재 프레임의 주파수 스펙트럼 데이터를 양자화하는 양자화 모듈; 및 상기 양자화 모듈에 의하여 양자화된 데이터를 부호화한 데이터의 사용 비트수가 미리 설정된 가용 비트수를 초과하지 않도록 전대역 스케일팩터를 조정하는 내부 루프 모듈을 포함할 수 있다. 상기 내부 루프 모듈은 상기 가용 비트수와 상기 사용 비트수의 차이 값이 특정 임계값을 초과하지 않도록 상기 전대역 스케일팩터를 조정할 수 있다.
이상 설명한 바와 같이, 본 발명에 따르면 프레임의 주파수 스펙트럼 데이터를 양자화하기 위한 전대역 스케일팩터의 초기값을 실제 전대역 스케일팩터의 값에 최대한 근접하게 미리 설정할 수 있다. 따라서 양자화 시에 전대역 스케일팩터를 조정하기 위한 루프의 반복 회수를 줄여 오디오 부호화기의 연산량 부담을 대폭 감소시킬 수 있다.
이하, 본 발명이 속하는 분야에 통상의 지식을 가진 자가 본 발명을 용이하게 실시할 수 있도록 본 발명의 바람직한 실시예를 첨부된 도면을 참조하여 상세히 설명한다. 이하에 설명할 본 발명의 바람직한 실시예에서는 내용의 명료성을 위하여 특정한 기술 용어를 사용한다. 하지만 본 발명은 그 선택된 특정 용어에 한정되지는 않으며, 각각의 특정 용어가 유사한 목적을 달성하기 위하여 유사한 방식으로 동작하는 모든 기술 동의어를 포함함을 미리 밝혀둔다.
도 2는 본 발명의 바람직한 실시예에 따른 양자화 방법을 실현하기 위한 양자화 장치를 포함하는 오디오 부호화기의 구성을 도시하는 블록도이다.
도 2에 도시된 바와 같이, 오디오 부호화기(100)는 외부로부터 입력되는 시간 도메인(Time Domain)의 오디오 데이터, 예컨대 PCM(Pulse Code Modulation) 데이터를 프레임(Frame) 단위로 수신하고, 이를 처리한 후 특정한 포맷(Format)의 부호화된 비트스트림을 출력한다.
이러한 오디오 부호화기(100)는 필터뱅크(Filter Bank)부(10), MDCT(Modified Discrete Cosine Transform)부(20), FFT(Fast Fourier Transform)부(30), 심리 음향 모델(Psychoacoustic Model)부(40), 양자화(Quantization)부(50), 부호화(Encoding)부(60) 및 비트 스트림 출력(Bit Stream Output)부(70) 등을 구비할 수 있다.
필터뱅크부(10)는 외부로부터 입력되는 시간 도메인의 오디오 데이터를 프레임 단위로 수신하여 주파수 도메인(Frequency Domain)의 오디오 데이터, 즉 주파수 스펙트럼(Spectrum) 데이터로 변환하고 변환된 프레임 단위의 주파수 스펙트럼 데 이터를 다수 개의 주파수 밴드로 세분화한다. 예를 들면, 필터뱅크부(10)는 오디오 데이터의 통계적인 중복성을 제거하기 위하여, 프레임 단위의 주파수 스펙트럼 데이터를 예컨대, 32 개의 서브 밴드로 세분화할 수 있다.
FFT 부(30)는 외부로부터 입력되는 시간 도메인의 오디오 데이터를 주파수 스펙트럼 데이터로 변환하고, 변환된 주파수 스펙트럼 데이터를 심리 음향 모델부(40)로 전송한다.
심리 음향 모델부(40)는 인간의 청각 특성에 의한 지각적인 중복성을 제거하기 위하여, FFT부(30)로부터 전송되는 주파수 스펙트럼 데이터를 수신하여 각각의 주파수 밴드에 대한 허용 왜곡(Allowed Distortion)을 계산한다. 이때 상기 허용 왜곡이란 사람의 청력이 인지하지 못할 정도의 왜곡 중 최대로 허용 가능한 왜곡을 의미할 수 있다. 심리 음향 모델부(40)는 상기 계산되는 주파수 밴드 별 허용 왜곡을 양자화부(50)로 제공할 수 있다.
한편, 심리 음향 모델부(40)는 지각 에너지(Perceptual Energy)를 계산하여 윈도우 스위칭 여부를 결정하고, 윈도우 스위칭 정보를 MDCT(20)부로 전송할 수 있다. 프레임의 블록 타입은 크게 4가지로 구분될 수 있다. 예를 들어, 오디오 신호가 급격하게 변하는 부분의 프레임은 쇼트 블록(Short Block), 오디오 신호의 변화가 급격하지 않은 부분의 프레임은 롱 블록(Long Block), 롱 블록에서 쇼트 블록으로 바뀌는 부분의 프레임은 롱 스톱 블록(Long Stop Block), 쇼트 블록에서 롱 블록으로 바뀌는 부분의 프레임은 롱 스타트 블록(Long Start Block)이라 칭할 수 있다.
상기 심리 음향 모델부(40)는 현재 처리되는 프레임의 블록 타입이 쇼트 블록인지, 롱 블록인지, 롱 스톱 블록인지, 또는 롱 스타트 블록인지의 여부에 따라 각각 쇼트 윈도우(Short Window), 롱 윈도우(Long Window), 롱 스톱 윈도우(Long Stop Window), 롱 스타트 윈도우(Long Start Window)를 적용하는 것을 나타내는 윈도우 스위칭 정보를 출력할 수 있다.
MDCT부(20)는 주파수 스펙트럼 데이터의 분해능(Frequency Resolution)을 증가시키기 위하여, 필터뱅크부(10)에 의하여 다수의 주파수 밴드로 분할된 주파수 스펙트럼 데이터를 심리 음향 모델부(40)로부터 수신되는 윈도우 스위칭 정보에 따라 더욱 세분화하여 출력한다. 예를 들어, MDCT부(20)는 윈도우 스위칭 정보가 롱 윈도우(Long Window)를 나타내는 경우, 36 포인트 MDCT를 사용하여 기 분할된 32 개의 주파수 밴드보다 더욱 세밀하게 주파수 스펙트럼 데이터를 분할할 수 있다. 또는 MDCT부(20)는 윈도우 스위칭 정보가 쇼트 윈도우(Short Window)를 나타내는 경우, 예컨대 12 포인트 MDCT를 사용하여 32개의 주파수 밴드보다 더 세밀하게 주파수 스펙트럼 데이터를 분할할 수도 있다.
양자화부(50)는 MDCT부(20)로부터 전송되는 프레임 단위의 주파수 스펙트럼 데이터를 수신하여 양자화를 수행할 수 있다. 또한, 주파수 스펙트럼 데이터를 양자화한 뒤, 양자화된 데이터를 부호화한 데이터의 사용 비트수가 허용된 가용 비트수를 초과하지 않도록 전대역 스케일팩터(Common Scale Factor)를 조정할 수 있으며, 주파수 스펙트럼 데이터의 각 주파수 밴드의 왜곡이 허용 왜곡을 초과하지 않도록 밴드 스케일팩터(band Scale Factor)를 조정할 수 있다.
한편, 양자화부(50)는 전대역 스케일팩터 및 밴드 스케일팩터의 조정을 위한 루프의 반복 횟수를 줄이기 위하여, 주파수 스펙트럼 데이터의 양자화를 수행 전에, 양자화에 실제 사용하게 될 전대역 스케일팩터의 값과 거의 동일한 전대역 스케일팩터의 초기값을 미리 설정한다. 이때 양자화부(50)는 프레임 간의 최대 주파수 스펙트럼 절대값의 변화도를 기반으로 전대역 스케일팩터의 초기값을 추정함으로써, 전대역 스케일팩터의 초기값을 미리 설정할 수 있다.
부호화부(60)는 양자화부(50)에 의하여 양자화된 데이터를 부호화하는 기능을 수행할 수 있다. 비트 스트림 출력부(70)는 부호화부(60)에 의하여 부호화된 데이터를 특정 규격, 예컨대 MPEG 2 등에 의하여 규정된 비트 스트림 포맷으로 포맷팅한 뒤, 비트 스트림을 출력할 수 있다.
도 3은 도 2에 도시되어 있는 양자화부(50)의 상세 구성을 도시하는 블록도이다.
도 2 내지 도 3을 참조하면, 양자화부(50)는 초기값 설정 모듈(54), 양자화 모듈(52), 내부 루프 모듈(56) 및 외부 루프 모듈(58) 등을 포함할 수 있다.
초기값 설정 모듈(54)은 프레임 간의 최대 주파수 스펙트럼 절대값의 변화도를 기반으로 전대역 스케일팩터의 초기값을 추정하여 그 값을 설정하는 기능을 수행한다. 상기 최대 주파수 스펙트럼 절대값이란 프레임의 주파수 스펙트럼 데이터의 절대값 중 가장 큰 값을 의미한다. 예컨대, 상기 최대 주파수 스펙트럼 절대값은 프레임의 주파수 스펙트럼 데이터에 포함되어 있는 다수 개의 주파수 밴드들 중 가장 큰 절대값을 갖는 주파수 밴드의 절대값을 의미할 수 있다.
초기값 설정 모듈(54)은 MDCT부(20)로부터 양자화 모듈(52)로 수신되는 프레임 단위의 주파수 스펙트럼 데이터를 분석하여 해당 프레임의 최대 주파수 스펙트럼 절대값을 구한 뒤, 상기 프레임의 최대 주파수 스펙트럼 절대값을 상기 프레임의 이전에 처리된 프레임의 최대 주파수 스펙트럼 절대값과 특정 알고리즘을 사용하여 비교할 수 있다.
예를 들어, 초기값 설정 모듈(54)은 현재 MDCT부(20)로부터 수신되는 프레임의 주파수 스펙트럼 데이터를 분석하여 현재 프레임의 최대 주파수 스펙트럼 절대값을 구하고, 이를 미리 정해진 특정한 비교 알고리즘을 사용하여 이전 프레임(즉, 현재 프레임의 이전에 처리된 프레임)의 최대 주파수 스펙트럼 절대값과 비교할 수 있다. 이때, 상기 이전 프레임의 최대 주파수 스펙트럼 절대값은 이전 프레임의 양자화를 수행하기 전에 이미 구해진 것이다.
초기값 설정 모듈(54)은 상기 비교 알고리즘을 사용한 비교 결과 값에 따라 특정 산출 알고리즘을 사용하여 현재 프레임의 주파수 스펙트럼 데이터를 양자화하는데 사용할 전대역 스케일팩터의 초기값을 산출한다. 즉, 초기값 설정 모듈(54)은 현재 프레임의 주파수 스펙트럼 절대값이 이전 프레임의 주파수 스펙트럼 절대값에 비하여 얼마다 변화하였는지에 따라 해당 산출 알고리즘을 적용하여 전대역 스케일팩터의 초기값을 산출하는 것이다.
상기 초기값 설정 모듈(54)은 상기 비교 알고리즘을 사용한 비교 결과 값에 대응하는 산출 알고리즘을 미리 테이블의 형태로 저장할 수 있다. 이러한 전대역 스케일팩터의 초기값을 설정하는 과정은 차후에 다시 상세히 설명할 것이다. 한편, 초기값 설정 모듈(54)은 내부 루프 모듈(56)의 동작에 필요한 플래그의 초기 값을 세팅할 수도 있다.
양자화 모듈(52)은 MDCT부(20)로부터 전송되는 프레임 단위의 주파수 스펙트럼 데이터를 수신하여 양자화를 수행할 수 있다. 양자화 시, 양자화 모듈(52)은 내부 루프 모듈(56)에 의하여 조정되는 전대역 스케일팩터 및 외부 루프 모듈(58)에 의하여 조정되는 밴드 스케일팩터를 사용할 수 있다.
내부 루프 모듈(56)은 양자화 모듈(52) 및 부호화부(60)과 연계하여 전대역 스케일팩터를 조정하는 내부 루프를 수행한다. 예를 들어 내부 루프 모듈(56)은 양자화 모듈(52)을 제어하여 양자화가 수행되도록 하고, 양자화된 데이터를 부호화한 데이터의 사용 비트수가 미리 설정된 가용 비트수를 초과하지 않도록 전대역 스케일팩터를 조정하는 과정을 수행할 수 있다. 상기 내부 루프 모듈(56)에 의하여 첫 번째로 수행되는 내부 루프에서는 양자화 시에 상기 초기값 설정 모듈에 의하여 설정된 전대역 스케일팩터의 초기값이 전대역 스케일팩터로서 사용될 수 있다.
한편, 내부 루프 모듈(56)은 상기 사용 비트수가 가용 비트수를 초과하지 않을 경우, 가용 비트수와 사용 비트수의 차이가 특정 임계값을 초과하지 않도록 전대역 스케일팩터를 2차적으로 조정할 수도 있다. 예를 들어, 내부 루프 모듈(56)은 가용 비트수에서 사용 비트수를 차감한 값을 미리 설정된 임계값과 비교하고, 가용 비트수에서 사용 비트수를 차감한 값이 상기 임계값을 초과할 경우 전대역 스케일팩터를 조정할 수 있다.
외부 루프 모듈(58)은 주파수 스펙트럼 데이터의 각각의 주파수 밴드의 왜곡 이 해당 주파수 밴드의 허용 왜곡을 초과하지 않도록 밴드 스케일팩터를 조정하는 기능을 수행한다. 예를 들어, 외부 루프 모듈(58)은 주파수 스펙트럼 데이터의 각 주파수 밴드의 왜곡을 계산하고, 계산된 각 주파수 밴드의 왜곡을 심리 음향 모델부(40)로부터 전송된 허용 왜곡과 비교하여 허용 왜곡을 초과할 경우 해당 밴드 스케일팩터를 조정하는 기능을 수행할 수 있다.
이상 본 발명의 바람직한 실시예에 따른 양자화 방법을 실현하기 위한 장치적인 기반을 살펴보았다. 이하에서는 상기 살펴본 양자화부(50), 즉 양자화 장치를 이용하여 양자화를 수행하는 절차를 설명하기로 한다. 아울러 이하의 설명을 통하여 상기 언급한 바 있는 양자화부(50)의 기능도 더욱 상세하고 명확해질 것이다.
도 4는 본 발명의 바람직한 실시예에 따른 양자화 방법을 설명하기 위한 흐름도이다.
도 4에 도시된 바와 같이, 양자화부(50)는 먼저 외부(예컨대, MDCT 부)로부터 수신되는 프레임의 주파수 스펙트럼 데이터를 양자화하는데 사용할 전대역 스케일팩터의 초기값을 추정하여 설정한다(단계:S11). 전대역 스케일팩터의 초기값을 추정하기 위하여, 양자화부(50)는 프레임 간의 최대 주파수 스펙트럼 절대값의 변화도를 이용한다. 상기 최대 주파수 스펙트럼 절대값은 앞서도 언급했듯이, 프레임의 주파수 스펙트럼 데이터의 크기에 절대값 연산을 취한 값 중 가장 큰 값을 갖는 부분의 절대값을 의미할 수 있다.
구체적으로, 전대역 스케일팩터의 초기값을 추정하기 위하여, 양자화부(50)는 외부로부터 수신되는 현재 프레임의 주파수 스펙트럼 데이터를 분석하여 현재 프레임의 최대 주파수 스펙트럼 절대값을 산출한다.
이어서, 양자화부(50)는 상기 산출된 현재 프레임의 최대 주파수 스펙트럼 절대값을 이전 프레임(즉, 현재 프레임의 이전에 처리된 프레임)의 최대 주파수 스펙트럼 절대값과 정해진 비교 알고리즘을 사용하여 비교한다. 이때 상기 이전 프레임의 최대 주파수 절대값은 이전 프레임의 처리 시에 이미 구해진 것일 수 있다.
예를 들면, 양자화부(50)는 상기 산출된 현재 프레임의 최대 주파수 스펙트럼 절대값에 밑이 2인 로그, 즉 이진 로그("log2")를 취하여 제 1 이진 로그 값을 산출하고, 이를 이전 프레임의 최대 주파수 스펙트럼 절대값의 이진 로그 값, 즉 제 2 이진 로그 값과 비교할 수 있다. 상기 제 2 이진 로그 값은 이전 프레임의 전대역 스케일팩터의 초기값을 산출할 때 이미 산출된 것일 수 있다.
다음으로, 양자화부(50)는 상기 비교 알고리즘을 사용한 비교 결과 값을 근거로, 미리 정해진 산출 알고리즘을 미리 저장된 정보로부터 추출하고 추출된 산출 알고리즘을 사용하여 현재 프레임의 양자화에 사용할 전대역 스케일팩터의 초기값을 산출할 수 있다. 예를 들면, 양자화부(50)는 두 이진 로그 값, 즉 제 1 이진 로그 값 및 제 2 이진 로그 값의 차이 값에 대응되는 특정 산출 알고리즘을 사용하여 현재 프레임의 양자화에 사용할 전대역 스케일팩터의 초기값을 산출할 수 있다.
전대역 스케일팩터의 초기값을 설정하기 위한 산출 알고리즘은 아래의 수학식 1과 같다.
Figure 112009013401743-PAT00001
상기 수학식 1에서 사용된 요소들을 정의하면 다음과 같다.
1. i : 프레임 인덱스. 이하에서는 i를 현재 프레임이라 가정하고, i-1은 이전 프레임이라 가정한다.
2. est_common_scalefac[i] : 현재 프레임의 양자화를 수행하기 위하여 추정된 전대역 스케일팩터의 초기값
3. CSF[i-1] : 이전 프레임의 양자화 및 부호화 과정에 의하여 결정된 전대역 스케일팩터
4. max_spec[i] : 현재 프레임의 최대 주파수 스펙트럼 절대값
5. A, B, C, D : 상수 값. 각각의 값들은 실험에 따라 적정한 값으로 결정될 수 있다.
6. diff[i] : 현재 프레임의 최대 주파수 스펙트럼 절대값 즉, max_spec[i]의 이진 로그 값에 이전 프레임의 최대 주파수 스펙트럼 절대값 즉, max_spec[i-1]의 이진 로그 값을 차감한 값. 이러한 diff[i]를 수학식으로 표현하면 아래의 수학식 2와 같다.
Figure 112009013401743-PAT00002
상기 수학식 1을 참조하면, 양자화부(50)는 현재 프레임의 전대역 스케일팩터의 초기값을 추정(Estimation)하기 위하여, 현재 프레임의 최대 주파수 스펙트럼 절대값의 이진 로그 값(예컨대 제 1 이진 로그 값)에 이전 프레임의 최대 주파수 스펙트럼 절대값의 이진 로그 값(예컨대 제 2 이진 로그 값)을 차감한 값의 절대값, 즉 두 이진 로그 값의 차이 값 |diff[i]|에 따라 대응되는 산출 알고리즘을 적용한다.
예를 들어, 만약 상기 두 이진 로그 값의 차이 값 |diff[i]|이 특정 상수인 C보다 크고 D보다 작다면, 현재 프레임의 전대역 스케일팩터의 초기값은 제 1 이진 로그 값에 제 2 이진 로그 값을 차감한 값 diff[i]에 특정 상수인 A를 곱한 값을 이전 프레임의 전대역 스케일팩터 값 CSF[i-1]과 더함으로써 산출할 수 있다.
또한, 만약 상기 두 이진 로그 값의 차이 값 |diff[i]|이 특정 상수인 D와 같거나 D 보다 크다면, 현재 프레임의 전대역 스케일팩터의 초기값은 상기 제 1 이진 로그 값에 제 2 이진 로그 값을 차감한 값 diff[i]에 특정 상수인 B를 곱한 값을 이전 프레임의 전대역 스케일팩터 값 CSF[i-1]과 더함으로써 산출할 수 있다.
만약, 상기 두 이진 로그 값의 차이 값 |diff[i]|이 특정 상수인 C와 같거나 C보다 작다면, 현재 프레임의 전대역 스케일팩터의 초기값은 이전 프레임의 전대역 스케일팩터 값 CSF[i-1]과 동일하게 설정할 수 있다.
한편, 현재 프레임의 최대 주파수 스펙트럼 절대값이 0일 경우, 현재 프레임의 전대역 스케일팩터의 초기값은 미리 설정된 값, 예컨대 10 등으로 설정할 수 있다.
상기 언급된 상수 값 A, B, C, D는 시스템에 따라 실험치를 근거로 적절하게 설정할 수 있는 값이다. 예를 들어, 본 실시예에서는 A는 3.58, B는 1.8, C는 0.4, D는 15로 설정하는 것으로 가정한다.
양자화부(50)는 상기 수학식 1및 2에 대응되는 정보들, 예컨대 비교 알고리즘, 상기 두 이진 로그 값의 차이 값 |diff[i]|에 대응되는 산출 알고리즘, 프레임의 최대 주파수 스펙트럼 절대값이 0일 경우의 산출 알고리즘(예컨대 설정 값) 등을 저장할 수 있으며, 전대역 스케일팩터의 계산 시에는 상기 저장된 정보로부터 필요한 정보를 추출할 수 있다.
도 5는 프레임 별 최대 주파수 스펙트럼 절대값의 이진 로그 값과 프레임 별로 양자화에 사용된 실제 전대역 스케일팩터의 결정 값을 비교하여 도시하는 그래프이다.
도 5에 도시된 바와 같이, 순차적으로 부호화기에 입력되는 400개의 프레임에서, 프레임 별 최대 주파수 스펙트럼 절대값의 이진 로그 값은 프레임 별 실제 전대역 스케일팩터의 결정 값과 유사한 경향을 보인다.
한편 도 5에 도시된 A-1, A-2, A-3의 지점에 해당하는 프레임은 오디오 데이터가 급격하게 변화하는 부분, 즉 프레임의 블록 타입이 변화하는 부분을 의미할 수 있다. 예를 들어, 상기 지점들은 롱 블록에서 쇼트 블록으로 변화하거나 쇼트 블록에서 롱 블록으로 변화하는 부분에 해당하는 프레임일 수 있다.
이와 같이, 블록 타입이 급격히 변화하는 부분에 해당하는 프레임의 경우 최대 주파수 스펙트럼 절대값의 이진 로그 값과 실제 전대역 스케일팩터의 결정 값이 상이할 수 있으므로, 양자화부(50)는 블록 타입이 급격히 변화하는 부분의 프레임에 대해서는 미리 설정된 값, 예컨대 '10' 등으로 전대역 스케일팩터의 초기값을 설정할 수 있다.
예를 들어, 양자화부(50)는 현재 프레임의 블록 타입과 이전 프레임의 블록 타입이 상이한지의 여부를 판단하고, 현재 프레임의 블록 타입과 이전 프레임의 블록 타입이 상이할 경우에는 미리 설정된 값을 현재 프레임의 전대역 스케일팩터의 초기값으로 설정할 수 있다. 한편, 현재 프레임의 블록 타입과 이전 프레임의 블록 타입이 동일할 경우, 상술한 방식대로 현재 프레임과 이전 프레임의 최대 주파수 스펙트럼 절대값에 근거하여 전대역 스케일팩터의 초기값을 설정할 수 있다.
도 6은 각 프레임 별 주파수 스펙트럼 데이터의 양자화에 사용된 실제 전대역 스케일팩터의 결정 값을 도시하는 그래프이고, 도 7은 상술한 전대역 스케일팩터의 초기값 추정 방법에 따라 추정된 각 프레임 별 전대역 스케일팩터의 초기값을 도시하는 그래프이다. 또한, 도 8은 도 6에 도시되어 있는 전대역 스케일팩터의 값과 도 7에 도시되어 있는 전대역 스케일팩터의 초기값을 비교하는 그래프이다.
도 6 내지 도 8에 도시된 바와 같이, 주파수 스펙트럼 데이터의 양자화에 사용된 실제 전대역 스케일팩터의 결정 값은 상술한 추정 방법에 따라 추정된 전대역 스케일팩터의 초기값과 거의 일치하는 것을 알 수 있다.
따라서, 특정 프레임의 주파수 스펙트럼 데이터의 양자화를 시작하기 전에 상기 양자화에 사용할 전대역 스케일팩터의 초기 값을 실제 전대역 스케일팩터의 결정 값과 거의 유사하게 추정하여 설정하므로, 전대역 스케일팩터를 조정하기 위한 루프의 반복 횟수를 대폭 줄일 수 있게 된다. 따라서 부호화기의 동작에 있어서 양자화 및 부호화에 따른 연산 부담을 상당히 덜어줄 수 있다.
이와 같이 전대역 스케일팩터의 초기값이 설정되면, 도 4에 도시된 바와 같이, 양자화부(50)는 내부 루프의 수행에 필요한 플래그를 제 1 값, 예컨대 0으로 설정한 후(단계:S12), 전대역 스케일팩터를 조정하는 내부 루프(L1)를 수행할 수 있다(단계:S13~S20). 내부 루프(L1)의 수행 시, 양자화부(50)는 상기 설정된 전대역 스케일팩터의 초기 값을 전대역 스케일팩터의 시작값으로 사용하게 된다.
내부 루프(L1)에서, 먼저 양자화부(50)는 주파수 스펙트럼 데이터를 양자화한다(단계:S13), 예를 들어, 내부 루프(L1)의 첫 번째 루프에서는 설정된 전대역 스케일팩터의 초기값을 기반으로 양자화를 수행할 수 있다.
이어서, 양자화부(50)는 양자화된 데이터를 부호화한 데이터의 사용 비트수가 미리 설정된 가용 비트수를 초과하지 않도록 전대역 스케일팩터를 조정한다(단계:S14, S15, S17, S18).
상기 과정(단계:S14, S15, S17, S18)을 좀더 구체적으로 살펴보면, 양자화부(50)는 양자화된 데이터를 부호화한 데이터의 사용 비트수를 계산할 수 있다(단계:S14). 예를 들면, 양자화부(50)는 양자화된 데이터를 부호화부(60)에서 부호화 하면 그 부호화된 데이터의 비트수를 계산할 수 있다.
이어서, 양자화부(50)는 계산된 사용 비트수와 미리 설정된 가용 비트수를 비교한다(단계:S15). 이때 만약, 상기 계산된 사용 비트수가 가용 비트수를 초과할 경우, 양자화부(50)는 전대역 스케일팩터를 조정할 수 있다(단계:S17). 예컨대 양자화부(50)는 전대역 스케일팩터의 값을 소정 값(예컨대 1 등)만큼 증가시킬 수 있다. 전대역 스케일팩터를 조정한 후 양자화부(50)는 플래그를 제 2 값, 예컨대 1로 설정한 후(단계S18), 양자화 단계(단계:S13) 이전으로 돌아가서 내부 루프(L1)를 다시 반복한다.
한편, 만약 상기 계산된 사용 비트수가 가용 비트수와 같거나 가용 비트수보다 적을 경우, 양자화부(50)는 가용 비트수와 사용 비트수의 차이가 특정 임계값을 초과하지 않도록 전대역 스케일팩터를 조정한다(단계:S16, S19, S20).
상기 과정(단계:S16, S19, S20)을 구체적으로 살펴보면, 양자화부(50)는 플래그를 체크하여 플래그가 제 2 값(예컨대, 1 등)인지의 여부를 확인하고(단계:S16), 제 2 값이 아닐 경우 가용 비트수에서 사용 비트수를 차감한 값이 임계값을 초과하는지를 판단한다(단계:S19).
이때, 상기 가용 비트수에서 사용 비트수를 차감한 값이 임계값을 초과할 경우, 양자화부(50)는 전대역 스케일팩터를 조정할 수 있다(단계:S20). 예를 들면, 양자화부(50는 전대역 스케일팩터의 값을 소정 값(예컨대 1 등)만큼 감소시킬 수 있다. 양자화부(50)는 전대역 스케일팩터를 조정한 후 양자화 단계(단계:S13) 이전으로 돌아가서 내부 루프(L1)를 다시 반복한다.
한편, 상기 가용 비트수가 사용 비트수를 차감한 값이 임계값과 같거나 임계값보다 적을 경우, 또는 플래그가 제 1 값인 경우, 양자화부(50)는 외부 루프(L2)를 수행할 수 있다.
외부 루프(L2)에서, 양자화부(50)는, 먼저, 주파수 스펙트럼 데이터의 각 주파수 밴드의 왜곡을 계산할 수 있다(단계:S21). 이어서, 양자화부(50)는 계산된 각 주파수 밴드의 왜곡을 해당 주파수 밴드의 허용 왜곡과 비교하고, 계산된 각 주파수 밴드의 왜곡이 해당 주파수 밴드의 허용 왜곡보다 적은지를 판단한다(단계:S22).
이때, 만약 각 주파수 밴드의 왜곡이 해당 주파수 밴드의 허용 왜곡보다 클 경우, 양자화부(50)는 해당 밴드 스케일팩터를 조정한 후(단계:S23), 양자화 단계(단계:S13) 이전으로 돌아간다. 반면, 각 주파수 밴드의 왜곡이 해당 주파수 밴드의 허용 왜곡보다 적거나 같을 경우, 양자화부(50)는 양자화를 완료할 수 있다.
이상 본 발명에 대하여 그 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 기술적 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시켜 실시할 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 앞으로의 실시예들의 변경은 본 발명의 기술을 벗어날 수 없을 것이다.
도 1은 심리 음향 모델을 사용하는 오디오 부호화기의 통상적인 양자화 과정을 설명하기 위한 흐름도이다.
도 2는 본 발명의 바람직한 실시예에 따른 양자화 방법을 실현하기 위한 양자화 장치를 포함하는 오디오 부호화기의 구성을 도시하는 블록도이다.
도 3은 도 2에 도시되어 있는 양자화부의 상세 구성을 도시하는 블록도이다.
도 4는 본 발명의 바람직한 실시예에 따른 양자화 방법을 설명하기 위한 흐름도이다.
도 5는 프레임 별 최대 주파수 스펙트럼 절대값의 이진 로그 값과 프레임 별로 양자화에 사용된 실제 전대역 스케일팩터의 결정 값을 비교하여 도시하는 그래프이다.
도 6은 각 프레임 별 주파수 스펙트럼 데이터의 양자화에 사용된 실제 전대역 스케일팩터의 결정 값을 도시하는 그래프이다.
도 7은 상술한 전대역 스케일팩터의 초기값 추정 방법에 따라 추정된 각 프레임 별 전대역 스케일팩터의 초기값을 도시하는 그래프이다.
도 8은 도 6에 도시되어 있는 전대역 스케일팩터의 값과 도 7에 도시되어 있는 전대역 스케일팩터의 초기값을 비교하는 그래프이다.
<도면의 주요 부분에 대한 부호 설명>
10 : 필터뱅크(Filter Bank)부
20 : MDCT(Modified Discrete Cosine Transform)부
30 : FFT(Fast Fourier Transform)부
40 : 심리 음향 모델(Psychoacoustic Model)부
50 : 양자화(Quantization)부
52 : 양자화 모듈
54 : 초기값 설정 모듈
56 : 내부 루프 모듈
58 : 외부 루프 모듈
60 : 부호화(Encoding)부
70 : 비트 스트림 출력(Bit Stream Output)부

Claims (18)

  1. 외부로부터 수신되는 제 1 프레임의 주파수 스펙트럼 데이터를 분석하여 상기 제 1 프레임의 최대 주파수 스펙트럼 절대값을 산출하는 단계;
    상기 제 1 프레임의 최대 주파수 스펙트럼 절대값 및 이전에 산출된 제 2 프레임의 최대 주파수 스펙트럼 절대값을 기반으로 상기 제 1 프레임의 양자화에 사용하기 위한 전대역 스케일팩터의 초기값을 설정하는 단계; 및
    상기 설정된 전대역 스케일팩터의 초기값을 기반으로, 상기 제 1 프레임의 주파수 스펙트럼 데이터를 양자화하는 단계를 포함하는 것을 특징으로 하는 오디오 부호화기의 양자화 방법.
  2. 제 1 항에 있어서, 상기 제 1프레임의 최대 주파수 스펙트럼 절대값을 산출하는 단계는,
    상기 제 1 프레임의 주파수 스펙트럼 데이터 중 절대값이 가장 큰 부분의 절대값을 산출하는 단계를 포함하는 것을 특징으로 하는 오디오 부호화기의 양자화 방법.
  3. 제 1 항에 있어서, 상기 전대역 스케일팩터의 초기값을 설정하는 단계는,
    특정 비교 알고리즘을 사용하여, 상기 제 1 프레임의 최대 주파수 스펙트럼 절대값을 상기 제 2 프레임의 최대 주파수 스펙트럼 절대값과 비교하는 단계; 및
    상기 비교의 결과 값에 대응하는 산출 알고리즘을 사용하여, 상기 제 1 프레임의 양자화에 사용하기 위한 전대역 스케일팩터의 초기값을 산출하는 단계를 포함하는 것을 오디오 부호화기의 양자화 방법.
  4. 제 3 항에 있어서, 상기 비교 단계는,
    상기 제 1 프레임의 최대 주파수 스펙트럼 절대값에 이진 로그를 취하여 제 1 이진 로그 값을 산출하는 단계;
    상기 제 2 프레임의 최대 주파수 스펙트럼 절대값에 이진 로그를 취하여 제 2 이진 로그 값을 산출하는 단계; 및
    상기 제 1 이진 로그 값과 상기 제 2 이진 로그 값의 차이 값을 산출하는 단계를 포함하는 것을 특징으로 하는 오디오 부호화기의 양자화 방법.
  5. 제 4 항에 있어서, 상기 전대역 스케일팩터의 초기값을 설정하는 단계는,
    상기 제 1 이진 로그 값과 상기 제 2 이진 로그 값의 차이 값에 대응하는 산출 알고리즘을 추출하는 단계; 및
    상기 추출된 산출 알고리즘을 사용하여 상기 전대역 스케일팩터의 초기값을 산출하는 단계를 포함하는 것을 특징으로 하는 오디오 부호화기의 양자화 방법.
  6. 제 5 항에 있어서, 상기 산출 알고리즘을 추출하는 단계는,
    상기 제 1 이진 로그 값과 상기 제 2 이진 로그 값의 차이 값을 적어도 하나의 상수 값과 비교하는 단계를 포함하는 것을 특징으로 하는 오디오 부호화기의 양자화 방법.
  7. 제 4 항에 있어서, 상기 전대역 스케일팩터의 초기값을 산출하는 단계는,
    상기 제 2 프레임의 전대역 스케일팩터의 값, 상기 제 1 이진 로그 값에서 상기 제 2 이진 로그 값을 차감한 값, 특정 상수 값 중 적어도 어느 하나를 사용하여 연산을 수행하는 단계를 포함하는 것을 특징으로 하는 오디오 부호화기의 양자화 방법.
  8. 제 1 항에 있어서, 상기 산출되는 상기 제 1 프레임의 최대 주파수 스펙트럼 절대값이 0일 경우, 미리 설정된 상수 값을 상기 제 1 프레임의 전대역 스케일팩터의 초기값으로 설정하는 단계를 더 포함하는 것을 특징으로 하는 오디오 부호화기의 양자화 방법.
  9. 제 1 항에 있어서, 상기 양자화된 데이터를 부호화한 데이터의 사용 비트수가 미리 설정된 가용 비트수를 초과하지 않도록 전대역 스케일팩터를 조정하는 단계를 더 포함하는 것을 특징으로 하는 오디오 부호화기의 양자화 방법.
  10. 제 9 항에 있어서, 상기 전대역 스케일팩터를 조정하는 단계는,
    상기 양자화된 데이터를 부호화한 데이터의 사용 비트수를 계산하는 단계;
    상기 계산된 사용 비트수와 상기 가용 비트수를 비교하는 단계; 및
    상기 사용 비트수가 상기 가용 비트수를 초과할 경우, 상기 전대역 스케일팩터를 조정하는 단계를 포함하는 것을 특징으로 하는 오디오 부호화기의 양자화 방법.
  11. 제 9 항에 있어서, 상기 가용 비트수에서 상기 사용 비트수를 차감한 값이 특정 임계값을 초과하지 않도록 상기 전대역 스케일팩터를 조정하는 단계를 더 포함하는 것을 특징으로 하는 오디오 부호화기의 양자화 방법.
  12. 제 1 항에 있어서, 상기 제 1 프레임의 주파수 스펙트럼 데이터의 각 주파수 밴드의 왜곡(Distortion)이 상기 각 주파수 밴드의 허용 왜곡(Allowed Distortion)을 초과하지 않도록 상기 각 주파수 밴드에 대응되는 밴드 스케일팩터를 조정하는 단계를 더 포함하는 것을 특징으로 하는 오디오 부호화기의 양자화 방법.
  13. 외부로부터 수신되는 제 1 프레임의 주파수 스펙트럼 데이터의 양자화에 사용하기 위한 전대역 스케일팩터의 초기값을 설정하는 방법에 있어서,
    상기 제 1 프레임의 블록 타입이 상기 제 1프레임의 이전 프레임인 제 2 프레임의 블록 타입과 상이한지를 판단하는 단계; 및
    상기 제 1 프레임의 블록 타입이 상기 제 2 프레임의 블록 타입과 상이할 경우 특정 상수 값을 상기 전대역 스케일팩터의 초기값으로 설정하고, 상기 제 1 프레임의 블록 타입이 상기 제 2 프레임의 블록 타입과 동일할 경우 상기 제 1 프레임 및 제 2 프레임의 최대 주파수 스펙트럼 절대값을 기반으로 상기 전대역 스케일팩터의 초기값을 산출하는 단계를 포함하는 것을 특징으로 하는 방법.
  14. 외부로부터 수신되는 프레임 단위의 주파수 스펙트럼 데이터를 분석하여 각각의 프레임에 대한 최대 주파수 스펙트럼 절대값을 산출하고, 상기 산출된 최대 주파수 스펙트럼 절대값의 프레임 간의 변화도에 따라 각 프레임의 전대역 스케일 팩터의 초기값을 설정하는 초기값 설정 모듈; 및
    상기 초기값 설정 모듈에 의하여 설정된 전대역 스케일팩터의 초기값을 기반으로 양자화를 수행하며, 상기 양자화된 데이터를 부호화한 데이터의 사용 비트수가 미리 설정된 가용 비트수를 초과하지 않도록 전대역 스케일팩터를 저정하는 적어도 하나의 기능 모듈을 포함하는 것을 특징으로 하는 오디오 부호화기의 양자화 장치.
  15. 제 14 항에 있어서, 상기 초기값 설정 모듈은, 현재 프레임의 최대 주파수 스펙트럼 절대값과 이전 프레임의 최대 주파수 절대값을 산출하고, 상기 현재 프레임의 최대 주파수 스펙트럼 절대값과 이전 프레임의 최대 주파수 스펙트럼 절대값을 특정 비교 알고리즘을 사용하여 비교하는 것을 특징으로 하는 오디오 부호화기의 양자화 장치.
  16. 제 15 항에 있어서, 상기 초기값 설정 모듈은 상기 현재 프레임의 최대 주파수 스펙트럼 절대값에 이진 로그를 취하여 제 1 이진 로그 값을 산출하고, 상기 이전 프레임의 최대 주파수 절대값에 이진 로그를 취하여 제 2 이진 로그 값을 산출한 뒤, 상기 제 1 이진 로그 값과 제 2 이진 로그 값의 차이 값에 따라 상기 현재 프레임의 전대역 스케일팩터의 초기값을 산출하기 위한 산출 알고리즘을 추출하는 것을 특징으로 하는 오디오 부호화기의 양자화 장치.
  17. 제 15 항에 있어서, 상기 적어도 하나의 기능 모듈은,
    상기 현재 프레임의 전대역 스케일팩터의 초기값을 기반으로 상기 현재 프레임의 주파수 스펙트럼 데이터를 양자화하는 양자화 모듈; 및
    상기 양자화 모듈에 의하여 양자화된 데이터를 부호화한 데이터의 사용 비트수가 미리 설정된 가용 비트수를 초과하지 않도록 전대역 스케일팩터를 조정하는 내부 루프 모듈을 포함하는 것을 특징으로 하는 오디오 부호화기의 양자화 장치.
  18. 제 17 항에 있어서, 상기 내부 루프 모듈은 상기 가용 비트수와 상기 사용 비트수의 차이 값이 특정 임계값을 초과하지 않도록 상기 전대역 스케일팩터를 조정하는 것을 특징으로 하는 오디오 부호화기의 양자화 장치.
KR1020090018623A 2009-03-04 2009-03-04 오디오 부호화기의 양자화 방법 및 장치 KR101078378B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020090018623A KR101078378B1 (ko) 2009-03-04 2009-03-04 오디오 부호화기의 양자화 방법 및 장치
CN2010800103313A CN102341846B (zh) 2009-03-04 2010-02-02 用于音频编码器的量化方法和装置
JP2011552875A JP5379871B2 (ja) 2009-03-04 2010-02-02 オーディオ符号化のための量子化
PCT/KR2010/000636 WO2010101354A2 (en) 2009-03-04 2010-02-02 Quantization for audio encoding
US12/717,095 US8600764B2 (en) 2009-03-04 2010-03-03 Determining an initial common scale factor for audio encoding based upon spectral differences between frames

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020090018623A KR101078378B1 (ko) 2009-03-04 2009-03-04 오디오 부호화기의 양자화 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20100099997A true KR20100099997A (ko) 2010-09-15
KR101078378B1 KR101078378B1 (ko) 2011-10-31

Family

ID=42679017

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020090018623A KR101078378B1 (ko) 2009-03-04 2009-03-04 오디오 부호화기의 양자화 방법 및 장치

Country Status (5)

Country Link
US (1) US8600764B2 (ko)
JP (1) JP5379871B2 (ko)
KR (1) KR101078378B1 (ko)
CN (1) CN102341846B (ko)
WO (1) WO2010101354A2 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103258552B (zh) * 2012-02-20 2015-12-16 扬智科技股份有限公司 调整播放速度的方法
EP2830060A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Noise filling in multichannel audio coding
US11227615B2 (en) * 2017-09-08 2022-01-18 Sony Corporation Sound processing apparatus and sound processing method

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5758315A (en) * 1994-05-25 1998-05-26 Sony Corporation Encoding/decoding method and apparatus using bit allocation as a function of scale factor
US5765136A (en) * 1994-10-28 1998-06-09 Nippon Steel Corporation Encoded data decoding apparatus adapted to be used for expanding compressed data and image audio multiplexed data decoding apparatus using the same
JPH09288498A (ja) * 1996-04-19 1997-11-04 Matsushita Electric Ind Co Ltd 音声符号化装置
JP2001094433A (ja) * 1999-09-17 2001-04-06 Matsushita Electric Ind Co Ltd サブバンド符号化・復号方法
JP2001306095A (ja) * 2000-04-18 2001-11-02 Mitsubishi Electric Corp オーディオ符号化装置及びオーディオ符号化方法
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
US20040230425A1 (en) * 2003-05-16 2004-11-18 Divio, Inc. Rate control for coding audio frames
WO2005004113A1 (ja) * 2003-06-30 2005-01-13 Fujitsu Limited オーディオ符号化装置
US7983909B2 (en) * 2003-09-15 2011-07-19 Intel Corporation Method and apparatus for encoding audio data
US7349842B2 (en) * 2003-09-29 2008-03-25 Sony Corporation Rate-distortion control scheme in audio encoding
KR100682890B1 (ko) * 2004-09-08 2007-02-15 삼성전자주식회사 비트량 고속제어가 가능한 오디오 부호화 방법 및 장치
JP4639073B2 (ja) * 2004-11-18 2011-02-23 キヤノン株式会社 オーディオ信号符号化装置および方法
JP4822816B2 (ja) * 2005-11-14 2011-11-24 キヤノン株式会社 オーディオ信号符号化装置および方法
WO2006054583A1 (ja) * 2004-11-18 2006-05-26 Canon Kabushiki Kaisha オーディオ信号符号化装置および方法
CN100539437C (zh) * 2005-07-29 2009-09-09 上海杰得微电子有限公司 一种音频编解码器的实现方法
CN1909066B (zh) * 2005-08-03 2011-02-09 昆山杰得微电子有限公司 音频编码码量控制和调整的方法
JP2007293118A (ja) 2006-04-26 2007-11-08 Sony Corp 符号化方法および符号化装置
JP5224666B2 (ja) * 2006-09-08 2013-07-03 株式会社東芝 オーディオ符号化装置
JP4823001B2 (ja) * 2006-09-27 2011-11-24 富士通セミコンダクター株式会社 オーディオ符号化装置
EP2159790B1 (en) * 2007-06-27 2019-11-13 NEC Corporation Audio encoding method, audio decoding method, audio encoding device, audio decoding device, program, and audio encoding/decoding system
TWI374671B (en) * 2007-07-31 2012-10-11 Realtek Semiconductor Corp Audio encoding method with function of accelerating a quantization iterative loop process
US8346547B1 (en) * 2009-05-18 2013-01-01 Marvell International Ltd. Encoder quantization architecture for advanced audio coding

Also Published As

Publication number Publication date
KR101078378B1 (ko) 2011-10-31
JP5379871B2 (ja) 2013-12-25
US20100228556A1 (en) 2010-09-09
JP2012519309A (ja) 2012-08-23
US8600764B2 (en) 2013-12-03
CN102341846A (zh) 2012-02-01
CN102341846B (zh) 2013-09-25
WO2010101354A2 (en) 2010-09-10
WO2010101354A3 (en) 2010-11-04

Similar Documents

Publication Publication Date Title
JP5539203B2 (ja) 改良された音声及びオーディオ信号の変換符号化
KR100814673B1 (ko) 오디오 부호화
JP4212591B2 (ja) オーディオ符号化装置
KR100986924B1 (ko) 정보 신호 인코딩
US8041563B2 (en) Apparatus for coding a wideband audio signal and a method for coding a wideband audio signal
RU2585990C2 (ru) Устройство и способ для выполнения кодирования методом хаффмана
KR100813193B1 (ko) 정보 신호의 양자화 방법 및 장치
JP2011013560A (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置
EP2087484A1 (en) Method, apparatus and computer program product for stereo coding
US8589155B2 (en) Adaptive tuning of the perceptual model
KR100848370B1 (ko) 오디오 부호화
KR20030068716A (ko) 웨이브렛 패킷 변환을 이용한 오디오 압축 방법 및 그시스템
US8595003B1 (en) Encoder quantization architecture for advanced audio coding
US7349842B2 (en) Rate-distortion control scheme in audio encoding
KR101078378B1 (ko) 오디오 부호화기의 양자화 방법 및 장치
US7668715B1 (en) Methods for selecting an initial quantization step size in audio encoders and systems using the same
KR100827458B1 (ko) 오디오 부호화 방법
KR20070037771A (ko) 오디오 부호화 시스템
JP2002328698A (ja) 音響信号復号装置
Nghia et al. A new wavelet-based wide-band speech coder
KR970006825B1 (ko) 오디오신호 부호화장치
KR20100114484A (ko) 오디오 신호 처리 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20141007

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20160602

Year of fee payment: 5

R401 Registration of restoration
FPAY Annual fee payment

Payment date: 20161019

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee