KR20090009784A - 부호화 방법 및 부호화 장치 - Google Patents

부호화 방법 및 부호화 장치 Download PDF

Info

Publication number
KR20090009784A
KR20090009784A KR1020087022684A KR20087022684A KR20090009784A KR 20090009784 A KR20090009784 A KR 20090009784A KR 1020087022684 A KR1020087022684 A KR 1020087022684A KR 20087022684 A KR20087022684 A KR 20087022684A KR 20090009784 A KR20090009784 A KR 20090009784A
Authority
KR
South Korea
Prior art keywords
scale factor
initial value
common scale
common
subband
Prior art date
Application number
KR1020087022684A
Other languages
English (en)
Inventor
카오루 스와베
Original Assignee
소니 가부시끼 가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소니 가부시끼 가이샤 filed Critical 소니 가부시끼 가이샤
Publication of KR20090009784A publication Critical patent/KR20090009784A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

S1에서 공통 스케일 팩터 초기치가 산출된다. 다음에 S11에서 초기치가 보정된다. 현프레임의 초기치에 대해, 전프레임의 초기치와 최종치의 차를 가산한 것을 공통 스케일 팩터 보정 초기치로 한다. 보정된 초기치에 의해 스케일링이 이루어진다. S3에서 서브밴드마다의 양자화 잡음이 허용 잡음 이하라고 판정되면, S5에서 가변길이 부호화가 이루어지고, S6에서 부호화 후의 부호량이 목표 부호량 이하인지의 여부가 판정된다. 부호량이 목표 부호량보다 크다고 판정되면, S7에서 양자화 스텝 사이즈가 커지는 방향으로 공통 스케일 팩터가 변경되고, 양자화로 처리가 되돌아온다. 이하, 부호량이 목표 부호량 이하라고 판정될 때까지, 처리가 반복된다. 보정 초기치에 의해 처리시간을 단축화할 수 있다.

Description

부호화 방법 및 부호화 장치{ENCODING METHOD AND ENCODING DEVICE}
본 발명은, 오디오 신호 등의 디지털 정보 신호의 부호량의 압축을 행하는 부호화 방법 및 부호화 장치에 관한 것이다.
오디오 신호를 압축하기 위한 부호화 방법의 하나로서, ISO에 의해 표준화되어 있는, ISO/IEC 13818-78(MPEG2-AAC(Advanced Audio Coding), 이하, AAC 오디오 부호화라고 적절히 칭한다)이 알려져 있다.
AAC 오디오 부호화는, 음악 신호 등을 복수의 시간 블록으로 분할하고, 블록마다 오디오 데이터를 직교 변환 예를 들면 확장 이산 코사인 변환(이하, MDCT(Modified DCT)라고 칭한다)하여 변환 계수(MDCT 계수)를 얻어, MDCT 계수를 스케일 팩터로 스케일링하고, 스케일링 후의 변환 계수를 양자화하고, 양자화치를 하프만 부호화 방식에 의해 부호화하는 것이다.
AAC 오디오 부호화에서는, 부호량 제어의 방법으로서, 변환 계수를 복수의 주파수 구분(서브밴드라고 칭한다)으로 분할하는 경우에, 모든 서브밴드에 공통인 공통 스케일 팩터와 서브밴드마다 다른 서브밴드 스케일 팩터를, 심리청각(心理聽覺) 모델을 고려한 양자화 잡음 분포가 되도록, 적응적으로 변화시키고, 가변길이 부호화 후의 부호량을 규격, 상품의 사양 등에 의해 별도 정해진 목표 부호량(전송 레이트)에 근접시키는 것이다. 여기서, 부호화 프레임마다 할당 가능한 부호량을 산출하고, 산출한 부호량을 부호화 프레임의 목표 부호량으로 하여, 부호량이 목표 부호량 이하가 되도록, 스케일링 팩터가 갱신된다. 부호화 프레임은, 소정의 전송 레이트의 오디오 스트림을 소정 수 예를 들면 1024개의 오디오 샘플로 단락을 지은 길이의 오디오 프레임이고, 이하의 설명에서는, 단지 프레임이라고 적절히 칭한다.
도 5는, 종래의 양자화 루프 제어의 처리의 흐름을 도시하는 플로우 차트이다. 처리가 시작하면, 우선, 스텝 S1에서, 공통 스케일 팩터의 초기치인 공통 스케일 팩터 초기치가 산출된다. 양자화 스텝 S2에서, 설정된 초기치에 의해 스케일링이 이루어진다.
스텝 S3에서, 서브밴드마다의 양자화 잡음이 허용 잡음 이하인지의 여부가 판정된다. 양자화 잡음은, 역양자화한 MDCT 계수와 양자화 전의 MDCT 계수의 차분을 구함으로써 계산된다. 만약, 허용 잡음보다 양자화 잡음이 크다면, 허용 잡음 이하가 되도록, 스텝 S4에서 양자화 스텝 사이즈가 작아지는 방향으로 서브밴드 스케일 팩터가 변경된다.
스텝 S3에서, 양자화 잡음이 허용 잡음 이하라고 판정되면, 스텝 S5에서, 가변길이 부호화가 이루어진다. 그리고, 스텝 S6에서, 부호화 후의 부호량이 목표 부호량 이하인지의 여부가 판정된다. 목표 부호량은, 프레임 단위로 설정된 부호량이다. 부호량이 목표 부호량보다 크다고 판정되면, 스텝 S7에서, 양자화 스텝이 커지는 방향으로 공통 스케일 팩터가 변경되고, 스텝 S2(양자화)로 처리가 되돌아온다. 이하, 스텝 S6에서, 부호량이 목표 부호량 이하라고 판정될 때까지, 상술한 것과 같은 처리가 반복된다.
AAC 오디오 부호화에서의 양자화의 계산식(1)을 하기에 표시한다.
x_ qant=int((abs(mdct _ line)*(2^(-1/4*(scalefactor-common _ scalefac))))^(3/4)+0.4054) … (1)
식(1)에서, mdctline은 양자화 전의 MDCT 계수, xquant는 양자화된 MDCT 계수, scalefactor는 서브밴드마다의 서브밴드 스케일 팩터, commonscalefac는 모든(全) 밴드에 걸치는 공통 스케일 팩터, int()는 정수화하는 처리의 의미이고, abs가 절대치를 취하는 것을 의미하고, ^가 멱승을 의미하고, *가 승산을 의미한다. 정수화는, abs로부터 0.4054까지의 모든 값을 정수화한다. (scalefactor- commonscalefac)가 양자화 스텝이라고 칭하여진다.
식(1)로부터 알 수 있는 바와 같이, 서브밴드 스케일 팩터(scalefactor)를 크게 하는 만큼 양자화된 MDCT 계수(xquant)가 커진다. 즉, 서브밴드 스케일 팩터를 크게 하는 만큼 양자화 스텝 사이즈가 작아지고, 양자화 잡음을 저감할 수 있지만, 양자화 계수가 커지기 때문에 부호량이 증가한다. 공통 스케일 팩터는, 그 역으로 크게 하는 만큼 양자화 스텝 사이즈가 커지고, 부호량이 감소한다. 이와 같이, 공통 스케일 팩터 및 서브밴드 스케일 팩터는, 양자화 스텝 사이즈, 즉 양자화 잡음 및 발생 부호량과 밀접한 관계에 있고, 상술한 바와 같이, 이들의 스케일 팩터를 갱신하고 재차 양자화 및 부호화를 반복한다는 루프 제어가 행하여지고 있다.
양자화 루프 처리의 초기치 산출의 스텝 S1은, 서브밴드 스케일 팩터 초기치를 0으로 하고, 공통 스케일 팩터를 하기한 식(2)로 표시하는 초기치로부터 시작한 다.
common _ scalefac=ceiling(16/3*(log 2((max _ mdct _ line^(3/4))/MAX - QUANT))) … (2)
식(2)에서, MAXQUANT는 AAC 오디오 부호화의 규격상에서의 양자화 계수 최대치(고정치), maxmdct1ine은 모든(全) 밴드 내의 절대치가 최대가 되는 MDCT 계수, ceiling(x)는, x 이상의 최소의 정수치를 구하는 함수이다. 즉, 공통 스케일 팩터 초기치란, 하프만 부호화의 테이블을 적용할 수 있고, 부호화가 행하여지는 최소의 공통 스케일 팩터인 것이다.
식(2)에서 알 수 있는 바와 같이, MDCT 계수의 최대치에 대응하는 양자화 계수를 규격상의 최대치(MAX_QUANT)가 되도록 공통 스케일 팩터가 맞추어져 있다. 또한, 서브밴드 스케일 팩터가 0에 맞추어져 있다. 이 때문에, 공통 스케일 팩터로부터 보면, 양자화 스텝 사이즈는 매우 작게 설정되어 있는 것이 된다. 또한, 서브밴드 스케일 팩터로부터 보면, 평탄한 주파수 특성으로 설정되어 있는 것이 된다. 즉, 입력 신호의 특성에 관계없이, 항상 부호량이 매우 큰 상태로부터 루프 제어가 시작되고, 공통 스케일 팩터를 서서히 크게 하여(즉, 양자화 스텝 사이즈가 서서히 크게 되어) 발생 부호량이 내려가고, 또한 입력 신호 특성에 따라 서브밴드 스케일 팩터를 크게 하면서(즉, 양자화 스텝 사이즈를 작게 하면서) 각 서브밴드의 양자화 왜곡이 조정된다.
양자화 후의 부호량이 목표 부호량 이하가 될 때까지, 서브밴드 스케일 팩터 및 공통 스케일 팩터를 갱신하면서 양자화를 반복하는 루프 처리는, 목표 부호량 이하가 되는 공통 스케일 팩터를 찾기 위한 처리이고, 최후의 루프 처리의 연산 결과 이외는 필요하지 않기 때문에, 매우 필요없는 처리가 된다. 따라서 루프 횟수가 증가하면 그만큼 처리 비용이 들기 때문에, 루프 횟수를 삭감하는 것이 바람직하다.
또한, 공통 스케일 팩터 초기치란, 식(2)에서 표시되는 바와 같이, 부호화를 행할 수 있는 최소의 값으로, 목표 부호량에 관계없이 입력 신호에 의해 정해지는 값이다. 한편, 공통 스케일 팩터 최종치는, 목표 부호량을 작게 하면(압축률을 높이면), 커지는 경향이 있다. 따라서 목표 부호량을 작게 하는 만큼, 공통 스케일 팩터 초기치와 최종치의 차가 커지고, 양자화 루프 횟수도 증가한다는 문제가 있다.
루프 횟수를 삭감하는 방법으로서, 2개의 어프로치가 생각된다. 제 1의 방법은, 공통 스케일 팩터 최종치를 찾는 방법을 개선하는 것이고, 제 2의 방법은, 공통 스케일 팩터 최종치에 가까운 값을 예측하여 초기치로 하는 것이다. 제 1의 방법으로서는, 공통 스케일 팩터를 목표 부호량 이하가 될 때까지 잉크리먼트 하고 있던 것을 2분(分) 탐색법을 사용하는 것이 루프 횟수를 삭감하는 방법이다. 제 2의 방법은, 전후의 프레임의 신호 특성이 비슷한 경우에, 공통 스케일 팩터 최종치도 가까운 값이 되는 성질을 이용하여, 전(前)프레임의 공통 스케일 팩터 최종치로부터 양자화 루프 처리를 시작하는 것이다.
일본 특개2004-172770호 공보에는, AAC 오디오 부호화에 관해 부호량의 제어 에서의 루프 제어의 처리량을 저감하여, 부호화를 고속으로 행하는 것이 기재되어 있다.
일본 특개2004-172770호 공보에서의 양자화 루프 첫회에서의 양자화 계산식은, 하기한 식(3)으로 표시된다. 식(3)에서, endcommonscalefac(i-1)은 전(前)프레임의 공통 스케일 팩터 최종치이다.
x_ quant(i)=int((abs(mdct _ line(i))*(2^(-1/4*(end _ common _ scalefac(i-1)))))^(3/4)+0.4054) … (3)
일본 특개2004-172770호 공보에서의 전프레임의 공통 스케일 팩터 최종치로부터 양자화 루프의 처리를 시작하는 방법은, 전후의 프레임의 신호 특성이 비슷한 경우에는 유효하지만, 변화한 경우는, 전프레임의 공통 스케일 팩터 최종치와 현(現)프레임의 공통 스케일 팩터 최종치의 차가 크기 때문에, 양자화 루프 횟수가 증가하는 문제가 있다.
도 6은, 음원으로서 음향 특성의 변화를 포함하는 교향곡을 사용한 경우의 공통 스케일 팩터 초기치의 변화(실선으로 도시한다)와, 공통 스케일 팩터 최종치의 변화(파선으로 도시한다)의 한 예를 도시한다. 전후의 프레임의 공통 스케일 팩터 최종치를 비교하면, 대강 최종치의 변동이 적지만, 화살표로 도시하는 개소와 같이, 일부에서 크게 다른 경우가 있다. 또한, 공통 스케일 팩터 최종치와 그 초기치와의 차의 절대치가 크면, 루프 횟수가 증가한 원인이 된다. 도 6에 도시하는 예에서, 공통 스케일 팩터 최종치와 그 초기치와의 차의 절대치를 조사하면, 비교적 큰 값이 된다. 또한, 차의 절대치는, 신호 특성의 변화에 관계없이 전후의 프레임 에서 거의 동등한 것을 알 수 있다.
따라서 본 발명의 목적은, 양자화 루프 횟수를 종래에 비해 보다 적게 하는 것이 가능한 부호화 방법 및 부호화 장치를 제공하는 데 있다.
상술한 과제를 해결하기 위해, 본 발명은, 현(現)프레임의 공통 스케일 팩터 초기치에 대해, 전(前)프레임의 공통 스케일 팩터 초기치와 최종치의 차분을 가산한 것을 공통 스케일 팩터 보정 초기치로 하여 양자화 루프를 시작하는 것이다. 또한, 전프레임에서의 공통 스케일 팩터의 증가율에 의해 현프레임의 공통 스케일 팩터 초기치를 보정하는 것이다.
본 발명은, 디지털 정보 신호를 소정의 블록 사이즈마다 각각 직교 변환하여 주파수 변환 계수를 구하고, 주파수 변환 계수를 복수의 서브밴드로 나누고, 주파수 변환 계수를 서브밴드마다의 서브밴드 스케일 팩터 및 전대역(全帶域) 공통의 공통 스케일 팩터에 의거하여 스케일링하여 양자화하고, 양자화된 주파수 변환 계수를 가변길이 부호화로 부호화하는 부호화 방법에 있어서,
공통 스케일 팩터 초기치를 산출한 스텝과,
초기치를 보정하는 초기치 보정 스텝과,
양자화 잡음이 허용치 이하가 되도록, 서브밴드 스케일 팩터를 변경하는 서브밴드 스케일 팩터 제어 스텝과,
프레임 단위에서, 가변길이 부호화 후의 부호량이 목표 부호량 이하로 되는 공통 스케일 팩터 최종치까지, 공통 스케일 팩터를 변경하는 공통 스케일 팩터 제어 스텝과,
현프레임의 공통 스케일 팩터 초기치와 공통 스케일 팩터 최종치를 보존하는 보존 스텝으로 이루어지고,
초기치 보정 스텝은, 전프레임의 공통 스케일 팩터 초기치와 전프레임의 공통 스케일 팩터 최종치의 차분을 현프레임의 초기치에 가산하는 것인 부호화 방법이다.
본 발명은, 전프레임의 공통 스케일 팩터 초기치와 전프레임의 공통 스케일 팩터 최종치의 차분에 대신하여, 전프레임의 공통 스케일 팩터의 증가율로서 현프레임의 스케일 팩터 초기치를 보정하는 부호화 방법이다.
본 발명은, 디지털 정보 신호를 소정의 블록 사이즈마다 각각 직교 변환하여 주파수 변환 계수를 구하고, 주파수 변환 계수를 복수의 서브밴드로 나누고, 주파수 변환 계수를 서브밴드마다의 서브밴드 스케일 팩터 및 전대역 공통의 공통 스케일 팩터에 의거하여 스케일링하여 양자화하고, 양자화된 주파수 변환 계수를 가변길이 부호화로 부호화하는 부호화 장치에 있어서,
공통 스케일 팩터 초기치를 산출하는 수단과,
초기치를 보정하는 초기치 보정 수단과,
양자화 잡음이 허용치 이하가 되도록, 서브밴드 스케일 팩터를 변경하는 서브밴드 스케일 팩터 제어 수단과,
프레임 단위에서, 가변길이 부호화 후의 부호량이 목표 부호량 이하가 되는 공통 스케일 팩터 최종치까지, 공통 스케일 팩터를 변경하는 공통 스케일 팩터 제어 수단과,
현프레임의 공통 스케일 팩터 초기치와 공통 스케일 팩터 최종치를 보존하는 보존 수단으로 이루어지고,
초기치 보정 수단은, 전프레임의 공통 스케일 팩터 초기치와 전프레임의 공통 스케일 팩터 최종치의 차분을 현프레임의 초기치에 가산하는 것인 부호화 장치이다.
본 발명은, 전프레임의 공통 스케일 팩터 초기치와 전프레임의 공통 스케일 팩터 최종치의 차분에 대신하여, 전프레임의 공통 스케일 팩터의 증가율로서 현프레임의 스케일 팩터 초기치를 보정하는 부호화 장치이다.
도 1은 본 발명의 한 실시의 형태의 블록도.
도 2는 본 발명의 한 실시의 형태의 처리의 흐름을 도시하는 플로우 차트.
도 3은 본 발명의 한 실시의 형태에서의 공통 스케일 팩터 초기치 및 최종치의 한 예를 각각 도시하는 약선도.
도 4는 본 발명의 한 실시의 형태에서의 공통 스케일 팩터 초기치 및 최종치의 차분의 절대치의 한 예를 도시하는 약선도.
도 5는 종래의 부호량 제어의 처리의 흐름을 도시하는 플로우 차트.
도 6은 종래의 부호량 제어에서의 공통 스케일 팩터 초기치 및 최종치의 한 예를 각각 도시하는 약선도.
(도면의 주요 부분에 대한 부호의 설명)
1 : 블록화된 오디오 데이터의 입력 단자
4 : 양자화부
5 : 루프 제어부
6 : 가변길이 부호의 부호화부
7 : 출력 단자
S1 : 공통 스케일 팩터 초기치 산출
S2 : 양자화
S3 : 허용 잡음 이하?
S4 : 스케일 팩터 변경
S5 : 부호화
S6 : 부호량 평가
S7 : 공통 스케일 팩터 변경
S11 : 전공통 스케일 팩터 초기치와 최종치로부터 현공통 스케일 팩터 초기치 보정
S12 : 현공통 스케일 팩터 초기치와 최종치를 보존
이하, 도면을 참조하면서 본 발명의 한 실시의 형태에 관해 설명한다. 이 한 실시의 형태의 구성에 관해, 도 1을 참조하여 설명한다. 입력 단자(1)에는, 소정의 사이즈의 블록마다 잘라내여진 디지털 오디오 신호가 입력된다. 입력 오디오 신호가 필터 뱅크부(2)에 공급된다. 필터 뱅크부(2)에서는, 직교 변환 예를 들면 MDCT 에 의해 시간 영역의 신호로부터 주파수 영역의 신호로 변환된다. 또한, 직교 변환 후의 신호가 서브밴드에 분할되고, 각 서브밴드의 서브밴드 스케일 팩터가 계산되고, 다이내믹 레인지를 정돈하는 정규화 처리가 이루어진다.
심리청각 분석부(3)는, 인간의 심리청각 특성을 이용하여 각 서브밴드마다 적절한 비트 배분을 행한다. 필터 뱅크부(2)의 출력 신호가 양자화부(4)에 공급된다. 양자화부(4)는, 필터 뱅크부(2)로부터의 MDCT 계수를 심리청각 분석부(3)의 분석 결과에 의거하여 양자화를 행한다.
루프 제어부(5)는, 소정의 부호화 레이트와 심리청각 분석부(3)로부터의 정보에 의거하여 부호화 프레임마다 할당 가능한 부호량을 산출하고, 산출한 부호량을 부호화 프레임의 목표 부호량으로 하여, 부호량이 목표 부호량 이하가 되도록, 양자화부(4)에 대한 스케일링 팩터를 갱신한다. 부호화부(6)는, 양자화부(4)에서 양자화 후의 MDCT 계수를 소정의 부호화 방식에 따라 압축 부호화한다. 예를 들면, AAC 오디오 부호화의 경우에서는, 부호화 방식으로서 하프만 부호화 방식이 적용된다. 출력 단자(7)에는, 부호화 후의 MDCT 계수가 얻어진다.
도 2는, 본 발명의 한 실시의 형태에서의 루프 제어의 처리의 흐름을 도시하는 플로우 차트이다. 도 5에 도시한 종래의 루프 제어와 대응하는 처리의 부분에는, 동일한 참조 부호를 붙여서 나타낸다. 종래의 처리와 다른 점은, 스텝 S11에서의, 「전공통(前共通) 스케일 팩터 초기치와 최종치로부터 현공통 스케일 팩터 초기치 보정」 처리와, 스텝 S12에서「현공통 스케일 팩터 초기치와 최종치 보존」 처리이다.
처리가 시작하면, 우선, 스텝 S1에서, 공통 스케일 팩터 초기치가 산출된다. 프레임 번호 i에서의 공통 스케일 팩터 산출식을 하기한 식(4)에 표시한다. 이루어진다.
start _ common _ scalefac(i)=ceiling(16/3*(log 2 ((max _ mdct _ line(i)^3/4))/MAX _QUANT))) … (4)
다음에, 스텝 S11에서, 공통 스케일 팩터 초기치가 보정된다. 즉, 현프레임의 공통 스케일 팩터 초기치에 대해, 전프레임의 공통 스케일 팩터 초기치와 최종치의 차를 가산한 것을 공통 스케일 팩터 보정 초기치로 한다. 보정 계산식을 하기한 식(5)에 표시한다.
revised _ start _ common _ scalefac(i)=start _ common _ scalefac(i)+(end _ common _ scalefac(i-l)-start_common_scalefac(i-l)) … (5)
revisedstartcommonscalefac(i) : 보정 후의 공통 스케일 팩터 초기치
startcommonscalefac(i) : 공통 스케일 팩터 초기치(식(4)의 계산 결과)
endcommonscalefac(i-1) : 전프레임의 공통 스케일 팩터 최종치
startcommonscalefac(i-1) : 전프레임의 공통 스케일 팩터 초기치
양자화 스텝 S2에서, 설정된 초기치에 의해 스케일링이 이루어진다. 양자화 루프 첫회에서의 양자화 계산식을 하기한 식(6)에 표시한다.
x_quant(i)
=int((abs(mdct_line(i))*(2^(-1/4*(revised_start_common_scalefac(i)))))^ (3/4)+0,4054) … (6)
종래의 처리에서의 식(3)과 식(6)을 비교하면, 공통 스케일 팩터 초기치를 endcommonscalefac(i-1)로부터 revisedstartcommonscalefac(i)로 변경하고 있는 점이 상위하여 있음을 알 수 있다.
스텝 S3에서, 서브밴드마다의 양자화 잡음이 허용 잡음 이하인지의 여부가 판정된다. 만약, 허용 잡음보다 양자화 잡음이 크다면, 허용 잡음 이하가 되도록, 스텝 S4에서 양자화 스텝 사이즈가 작아지는 방향으로 서브밴드 스케일 팩터가 변경된다.
스텝 S3에서, 양자화 잡음이 허용 잡음 이하라고 판정되면, 스텝 S5에서, 가변길이 부호화가 이루어지고, 스텝 S6에서, 부호화 후의 부호량이 목표 부호량 이하인지의 여부가 판정된다. 부호량이 목표 부호량보다 크다고 판정되면, 스텝 S7에서, 양자화 스텝이 커지는 방향으로 공통 스케일 팩터가 변경되고, 스텝 S2(양자화)로 처리가 되돌아온다. 이하, 스텝 S6에서, 부호량이 목표 부호량 이하라고 판정될 때까지, 상술한 것과 같은 처리가 반복된다. 이들의 스텝 S2로부터 스텝 S7까지의 제어는, 종래의 처리와 마찬가지이다. 단, 공통 스케일 팩터 보정 초기치는, 보정의 결과, 최종치보다 커질 가능성도 있기 때문에, 스텝 S7에서는, 공통 스케일 팩터가 증가 방향뿐만 아니라, 감소 방향으로도 변경(탐색) 가능하게 되고, (보정 초기치>최종치)인 경우에는, 스텝 S7에서, 단조 감소 방향으로 공통 스케일 팩터가 변경되고, (보정 초기치<최종치)가 되기 하나 직전의 양자화 스텝이 최종치가 된다.
스텝 S6에서, 부호량이 목표 부호량 이하라고 판정되면, 다음의 부호량의 공통 스케일 팩터 초기치의 보정 처리를 위해, 스텝 S12에서, 현프레임의 공통 스케일 팩터 초기치(startcommonscalefac(i))와, 최종치(endcommonscalefac(i))을 보존한다. 그리고, 프레임 번호 i에 관한 루프 제어가 종료된다.
도 3은, 도 6의 경우와 같은 음원에 대해 본 발명을 적용한 경우의 공통 스케일 팩터 보정 초기치(실선으로 도시한다)와 최종치(파선으로 도시한다)의 관계를 도시하는 것이다. 도 3으로부터 본 발명에 의한 공통 스케일 팩터 초기치가 최종치에 가까운 값이 되고, 루프 횟수를 적게 할 수 있음을 알 수 있다.
도 4는, 도 6의 경우와 같은 음원에 대해 종래의 방법을 적용한 경우의 공통 스케일 팩터 초기치와 최종치의 차분의 절대치(파선으로 도시한다)와, 본 발명의 한 실시의 형태를 적용한 경우의 차분의 절대치(실선으로 도시한다)를 도시하고 있다. 종래의 방법에서는, 음향 특성이 변화한 개소에서는, 화살표로 도시하는 바와 같이, 공통 스케일 팩터 초기치와 최종치의 차분이 예를 들면 32인 값과 같이 꽤 큰 것이 된다. 한편, 본 발명의 한 실시의 형태에서는, 이 차분이 3인 값 정도로 작은 것으로 할 수 있다.
공통 스케일 팩터 초기치와 최종치의 차분이 양자화 루프 횟수에 영향을 주기 때문에, 차분을 작게 할 수 있음에 의해, 양자화 루프 횟수를 삭감할 수 있고, 고속의 양자화 처리를 행하는 것이 가능해진다. 특히, 전후의 프레임 사이에서 신호 특성이 크게 변화한 경우에도, 변화하지 않는 경우와 동등한 고속화가 가능해진다. 또한, 초기치 보정 처리는, 전프레임의 공통 스케일 팩터 초기치와 전프레임의 공통 스케일 팩터 최종치의 차분을 구하는 감산과, 차분을 공통 스케일 팩터 초기치에 가산하는 가산에 의해 이루어지기 때문에, 종래의 장치 또는 방법과 비교하여, 하드웨어의 규모 또는 소프트웨어의 규모가 같은 정도로 할 수 있다.
공통 스케일 팩터 초기치의 보정 처리의 다른 예에 관해 설명한다. 다른 예에서는, 전프레임의 공통 스케일 팩터 초기치와 최종치의 차분에 대신하여, 증가율에 의해 보정을 행하는 것이다. 즉, 보정 처리를 하기한 식(7)에 표시한다.
revised _ commoft _ scalefac(i)
=start _ common _ scalefac(i)×(end _ common _ scalefac(i-1)÷start _ common _ scalefac(i-1)) … (7)
revisedstartcommonscalefac(i) : 보정후의 공통 스케일 팩터 초기치
startcommonscalefac(i) : 공통 스케일 팩터 초기치(식(4)의 계산 결과)
endcommonscalefac(i-1) : 전프레임의 공통 스케일 팩터 최종치
startcommonscalefac(i-l) : 전프레임의 공통 스케일 팩터 초기치
식(7)에서, (endcommonscalefac(i-1)÷startcommonscalefac(i-1))의 항이 증가율을 나타내고 있다. 차분에 대신하여 증가율을 사용한 경우도, 상술한 것과 같은 효과를 얻을 수 있다.
이상, 본 발명의 한 실시의 형태에 관해 구체적으로 설명하였지만, 본 발명은, 상술한 한 실시의 형태로 한정되는 것이 아니고, 본 발명의 기술적 사상에 의거한 각종의 변형이 가능하다. 예를 들면 본 발명은, 부호량을 목표 부호량으로 제어하기 위해, 부호량을 작은 것으로부터 큰 것에 제어하도록 하여도 좋다. 또한, 본 발명은, AAC 오디오 부호화로 한하지 않고, ISO/IEC 111718-4(MPEG-1 Layer3, MP3) 등의 다른 오디오 부호화에서의 부호량 제어에 대해서도 적용할 수 있다. 또한, 본 발명은, 오디오 데이터로 한하지 않고 비디오 데이터의 부호량 제어에 대해서도 적용 가능하다.
본 발명에 의하면, 공통 스케일 팩터 초기치와 최종치와의 차이를 작은 것으로 할 수 있고, 양자화 루프 횟수를 삭감할 수 있고, 고속의 양자화 처리를 행할 수가 있다. 또한, 본 발명에서는, 공통 스케일 팩터 초기치를 차분으로 보정하기 위해, 1프레임당에 1회의 가감산 처리 및 비교 처리만을 추가하면 좋기 때문에, 종래의 장치의 회로 및 프로그램과 거의 동일한 규모로 할 수 있다.

Claims (6)

  1. 디지털 정보 신호를 소정의 블록 사이즈마다 각각 직교 변환하여 주파수 변환 계수를 구하고, 상기 주파수 변환 계수를 복수의 서브밴드로 나누고, 상기 주파수 변환 계수를 상기 서브밴드마다의 서브밴드 스케일 팩터 및 전대역 공통의 공통 스케일 팩터에 의거하여 스케일링하여 양자화하고, 양자화된 상기 주파수 변환 계수를 가변길이 부호화로 부호화하는 부호화 방법에 있어서,
    상기 공통 스케일 팩터 초기치를 산출하는 스텝과,
    상기 초기치를 보정하는 초기치 보정 스텝과,
    양자화 잡음이 허용치 이하가 되도록, 상기 서브밴드 스케일 팩터를 변경하는 서브밴드 스케일 팩터 제어 스텝과,
    프레임 단위에서, 상기 가변길이 부호화 후의 부호량이 목표 부호량 이하가 되는 공통 스케일 팩터 최종치까지, 상기 공통 스케일 팩터를 변경하는 공통 스케일 팩터 제어 스텝과,
    현프레임의 상기 공통 스케일 팩터 초기치와 상기 공통 스케일 팩터 최종치를 보존하는 보존 스텝으로 이루어지고,
    상기 초기치 보정 스텝은, 전프레임의 상기 공통 스케일 팩터 초기치와 전프레임의 상기 공통 스케일 팩터 최종치의 차분을 현프레임의 상기 초기치에 가산하는 것을 특징으로 하는 부호화 방법.
  2. 디지털 정보 신호를 소정의 블록 사이즈마다 각각 직교 변환하여 주파수 변환 계수를 구하고, 상기 주파수 변환 계수를 복수의 서브밴드로 나누고, 상기 주파수 변환 계수를 상기 서브밴드마다의 서브밴드 스케일 팩터 및 전대역 공통의 공통 스케일 팩터에 의거하여 스케일링하여 양자화하고, 양자화된 상기 주파수 변환 계수를 가변길이 부호화로 부호화하는 부호화 방법에 있어서,
    상기 공통 스케일 팩터 초기치를 산출하는 스텝과,
    상기 초기치를 보정하는 초기치 보정 스텝과,
    양자화 잡음이 허용치 이하가 되도록, 상기 서브밴드 스케일 팩터를 변경하는 서브밴드 스케일 팩터 제어 스텝과,
    프레임 단위에서, 상기 가변길이 부호화 후의 부호량이 목표 부호량 이하가 되는 공통 스케일 팩터 최종치까지, 상기 공통 스케일 팩터를 변경하는 공통 스케일 팩터 제어 스텝과,
    현프레임의 상기 공통 스케일 팩터 초기치와 상기 공통 스케일 팩터 최종치를 보존하는 보존 스텝으로 이루어지고,
    상기 초기치 보정 스텝은, 전프레임의 상기 공통 스케일 팩터의 증가율을 상기 초기치를 곱하는 것을 특징으로 하는 부호화 방법.
  3. 제 1항 또는 제 2항에 있어서,
    상기 공통 스케일 팩터 초기치는, 전대역중에서 절대치가 최대가 되는 주파수 변환 계수를 사용하여 계산되는 것을 특징으로 하는 부호화 방법.
  4. 제 1항 또는 제 2항에 있어서,
    상기 서브밴드 스케일 팩터 초기치는, 0이 되는 것을 특징으로 하는 부호화 방법.
  5. 디지털 정보 신호를 소정의 블록 사이즈마다 각각 직교 변환하여 주파수 변환 계수를 구하고, 상기 주파수 변환 계수를 복수의 서브밴드로 나누고, 상기 주파수 변환 계수를 상기 서브밴드마다의 서브밴드 스케일 팩터 및 전대역 공통의 공통 스케일 팩터에 의거하여 스케일링하여 양자화하고, 양자화된 상기 주파수 변환 계수를 가변길이 부호화로 부호화하는 부호화 장치에 있어서,
    상기 공통 스케일 팩터 초기치를 산출하는 수단과,
    상기 초기치를 보정하는 초기치 보정 수단과,
    양자화 잡음이 허용치 이하가 되도록, 상기 서브밴드 스케일 팩터를 변경하는 서브밴드 스케일 팩터 제어 수단과,
    프레임 단위에서, 상기 가변길이 부호화 후의 부호량이 목표 부호량 이하가 되는 공통 스케일 팩터 최종치까지, 상기 공통 스케일 팩터를 변경하는 공통 스케일 팩터 제어 수단과,
    현프레임의 상기 공통 스케일 팩터 초기치와 상기 공통 스케일 팩터 최종치를 보존하는 보존 수단으로 이루어지고,
    상기 초기치 보정 수단은, 전프레임의 상기 공통 스케일 팩터 초기치와 전프 레임의 상기 공통 스케일 팩터 최종치의 차분을 현프레임의 상기 초기치에 가산하는 것을 특징으로 하는 부호화 장치.
  6. 디지털 정보 신호를 소정의 블록 사이즈마다 각각 직교 변환하여 주파수 변환 계수를 구하고, 상기 주파수 변환 계수를 복수의 서브밴드로 나누고, 상기 주파수 변환 계수를 상기 서브밴드마다의 서브밴드 스케일 팩터 및 전대역 공통의 공통 스케일 팩터에 의거하여 스케일링하여 양자화하고, 양자화된 상기 주파수 변환 계수를 가변길이 부호화로 부호화하는 부호화 장치에 있어서,
    상기 공통 스케일 팩터 초기치를 산출하는 수단과,
    상기 초기치를 보정하는 초기치 보정 수단과,
    양자화 잡음이 허용치 이하가 되도록, 상기 서브밴드 스케일 팩터를 변경하는 서브밴드 스케일 팩터 제어 수단과,
    프레임 단위에서, 상기 가변길이 부호화 후의 부호량이 목표 부호량 이하가 되는 공통 스케일 팩터 최종치까지, 상기 공통 스케일 팩터를 변경하는 공통 스케일 팩터 제어 수단과,
    현프레임의 상기 공통 스케일 팩터 초기치와 상기 공통 스케일 팩터 최종치를 보존하는 보존 수단으로 이루어지고,
    상기 초기치 보정 수단은, 전프레임의 상기 공통 스케일 팩터의 증가율을 상기 초기치에 곱하는 것을 특징으로 하는 부호화 장치.
KR1020087022684A 2006-04-26 2007-04-24 부호화 방법 및 부호화 장치 KR20090009784A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2006122294A JP2007293118A (ja) 2006-04-26 2006-04-26 符号化方法および符号化装置
JPJP-P-2006-00122294 2006-04-26

Publications (1)

Publication Number Publication Date
KR20090009784A true KR20090009784A (ko) 2009-01-23

Family

ID=38655626

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087022684A KR20090009784A (ko) 2006-04-26 2007-04-24 부호화 방법 및 부호화 장치

Country Status (8)

Country Link
US (1) US20090083042A1 (ko)
EP (1) EP2012306A1 (ko)
JP (1) JP2007293118A (ko)
KR (1) KR20090009784A (ko)
CN (1) CN101432803A (ko)
RU (1) RU2008142391A (ko)
TW (1) TW200746047A (ko)
WO (1) WO2007126106A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8600764B2 (en) 2009-03-04 2013-12-03 Core Logic Inc. Determining an initial common scale factor for audio encoding based upon spectral differences between frames

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2375764C2 (ru) * 2003-10-17 2009-12-10 Конинклейке Филипс Электроникс Н.В. Кодирование сигнала
US8190440B2 (en) * 2008-02-29 2012-05-29 Broadcom Corporation Sub-band codec with native voice activity detection
US9510044B1 (en) * 2008-06-18 2016-11-29 Gracenote, Inc. TV content segmentation, categorization and identification and time-aligned applications
US8200496B2 (en) * 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8140342B2 (en) * 2008-12-29 2012-03-20 Motorola Mobility, Inc. Selective scaling mask computation based on peak detection
US8736894B2 (en) * 2011-12-20 2014-05-27 Eastman Kodak Company Producing correction data for printer
JP5942463B2 (ja) * 2012-02-17 2016-06-29 株式会社ソシオネクスト オーディオ信号符号化装置およびオーディオ信号符号化方法
CN104488266B (zh) * 2013-06-27 2018-07-06 北京大学深圳研究生院 Avs视频压缩编码方法及编码器
CN110505484A (zh) * 2019-08-12 2019-11-26 深圳市华星光电技术有限公司 数据压缩装置及压缩方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11219197A (ja) * 1998-02-02 1999-08-10 Fujitsu Ltd オーディオ信号符号化方法及び装置
JP2001306095A (ja) * 2000-04-18 2001-11-02 Mitsubishi Electric Corp オーディオ符号化装置及びオーディオ符号化方法
EP1440433B1 (en) * 2001-11-02 2005-05-04 Matsushita Electric Industrial Co., Ltd. Audio encoding and decoding device
US6950794B1 (en) * 2001-11-20 2005-09-27 Cirrus Logic, Inc. Feedforward prediction of scalefactors based on allowable distortion for noise shaping in psychoacoustic-based compression
JP4148356B2 (ja) 2002-11-18 2008-09-10 学校法人東海大学 量子化ステップパラメータ決定装置と量子化ステップパラメータ決定方法と量子化ステップパラメータ決定プログラム、ならびに非線形量子化方法と非線形量子化装置と非線形量子化プログラム
WO2005004113A1 (ja) * 2003-06-30 2005-01-13 Fujitsu Limited オーディオ符号化装置
US7349842B2 (en) * 2003-09-29 2008-03-25 Sony Corporation Rate-distortion control scheme in audio encoding
JP4273062B2 (ja) * 2004-09-09 2009-06-03 ティーオーエー株式会社 符号化方法、符号化装置、復号化方法及び復号化装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8600764B2 (en) 2009-03-04 2013-12-03 Core Logic Inc. Determining an initial common scale factor for audio encoding based upon spectral differences between frames

Also Published As

Publication number Publication date
CN101432803A (zh) 2009-05-13
RU2008142391A (ru) 2010-04-27
TW200746047A (en) 2007-12-16
EP2012306A1 (en) 2009-01-07
US20090083042A1 (en) 2009-03-26
JP2007293118A (ja) 2007-11-08
WO2007126106A1 (ja) 2007-11-08

Similar Documents

Publication Publication Date Title
KR20090009784A (ko) 부호화 방법 및 부호화 장치
US11621009B2 (en) Audio processing for voice encoding and decoding using spectral shaper model
KR100814673B1 (ko) 오디오 부호화
US10121480B2 (en) Method and apparatus for encoding audio data
EP2159790B1 (en) Audio encoding method, audio decoding method, audio encoding device, audio decoding device, program, and audio encoding/decoding system
KR100840439B1 (ko) 음성부호화장치 및 음성복호장치
TWI779381B (zh) 用於解碼高階保真立體音響表示之方法、裝置及非暫態電腦可讀取儲存媒體
JP4673882B2 (ja) 推定値を決定するための方法および装置
KR100904605B1 (ko) 음성부호화장치, 음성복호장치, 음성부호화방법 및음성복호방법
KR100813193B1 (ko) 정보 신호의 양자화 방법 및 장치
WO2008021247A9 (en) Arbitrary shaping of temporal noise envelope without side-information
KR100848370B1 (ko) 오디오 부호화
US7349842B2 (en) Rate-distortion control scheme in audio encoding
CN111344784A (zh) 控制编码器和/或解码器中的带宽
JP5019437B2 (ja) オーディオビットレート変換方法および装置
JP2000347679A (ja) オーディオ符号化装置及びオーディオ符号化方法

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid