KR100682890B1 - 비트량 고속제어가 가능한 오디오 부호화 방법 및 장치 - Google Patents

비트량 고속제어가 가능한 오디오 부호화 방법 및 장치 Download PDF

Info

Publication number
KR100682890B1
KR100682890B1 KR1020040071588A KR20040071588A KR100682890B1 KR 100682890 B1 KR100682890 B1 KR 100682890B1 KR 1020040071588 A KR1020040071588 A KR 1020040071588A KR 20040071588 A KR20040071588 A KR 20040071588A KR 100682890 B1 KR100682890 B1 KR 100682890B1
Authority
KR
South Korea
Prior art keywords
scale factor
band
bit amount
quantization
full
Prior art date
Application number
KR1020040071588A
Other languages
English (en)
Other versions
KR20060022821A (ko
Inventor
김미영
이시화
김도형
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020040071588A priority Critical patent/KR100682890B1/ko
Priority to US11/220,568 priority patent/US7698130B2/en
Publication of KR20060022821A publication Critical patent/KR20060022821A/ko
Application granted granted Critical
Publication of KR100682890B1 publication Critical patent/KR100682890B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 고속으로 비트량을 제어할 수 있는 오디오 부호화 방법 및 장치에 관한 것으로서, 그 방법은 (a) 오디오 샘플링데이터를 주파수영역 데이터로 변환하는 단계; (b) 주파수 영역데이터에 대해, 부호화 가용비트율과 심리음향모델의 허용왜곡도를 기반으로 소정의 주파수 대역마다 스케일팩터 값을 조정하여 필요한 비트수를 할당하고 양자화하는 단계; 및 (c) 양자화된 데이터를 기반으로 비트스트림을 생성하는 단계를 포함함을 특징으로 하고, (b)단계는 (b1) 주파수 영역의 오디오 데이터에 대한 가용비트량을 구하는 단계; (b2) 사용비트량이 가용비트량보다 크지 않는 조건을 만족하면서, 전체 주파수 밴드에 사용되는 스케일팩터 값을 가용비트량과 사용비트량의 차를 이용하여 구하여 오디오데이터를 양자화하는 단계; (b3) 양자화 밴드 단위로 양자화 노이즈를 계산하는 단계; 및 (b4) 양자화 노이즈가 심리음향모델로부터 구해진 허용왜곡도를 초과하는 양자화 밴드에 대해, 양자화밴드의 스케일팩터 값을 조정하여 양자화하는 단계를 구비한다.
본 발명에 의하면, 회귀분석을 통해 도출된 수식을 이용하여 최적의 스케일팩터 값을 빠르게 찾음으로써 고속으로 비트량 제어가 가능하다.

Description

비트량 고속제어가 가능한 오디오 부호화 방법 및 장치{Audio encoding method and apparatus capable of fast bitrate control}
도 1은 일반적인 오디오 부호화 장치의 구성을 블록도로 도시한 것이다.
도 2는 도 1에 도시된 상기 양자화/비트율제어부의 구성을 블록도로 도시한 것이다.
도 3은 오디오 부호화기의 모듈별 복잡도를 분석한 것을 도시한 것이다.
도 4는 본 발명에 의한 오디오 부호화 장치의 구성을 블록도로 도시한 것이다.
도 5는 비트수할당/양자화부의 구성을 블록도로 도시한 것이다.
도 6은 전대역양자화부의 구성을 블록도로 도시한 것이다.
도 7은 본 발명에 의한 부호화 방법을 흐름도로 도시한 것이다.
도 8은 도 7에 도시된 720단계를 보다 세부적으로 나타내는 흐름도이다.
도 9는 도 8에 도시된 810단계를 보다 상세하게 설명하기 위한 흐름도이다.
도 10은 양자화/비트율 제어에 관련된 파라미터들간의 상관도 분석을 그래프로 도시한 것이다.
도 11은 본 발명을 적용하기 전 도 9에 도시된 루프횟수를 도시한 것이다.
도 12는 본 발명을 적용한 후의 도 9에 도시된 루프횟수를 도시한 것이다.
본 발명은 오디오 부호화에 관한 것으로서, 특히 고속으로 비트량을 제어할 수 있는 오디오 부호화 방법 및 장치에 관한 것이다.
도 1은 일반적인 오디오 부호화 장치의 구성을 블록도로 도시한 것으로서, T/F변환부(100), 심리음향모델부(110), 양자화/비트율제어부(120), 무손실부호화부(130) 및 비트패킹부(140)를 포함하여 이루어진다. 시간영역의 오디오 PCM 데이터는 T/F변환부(100)를 통해 주파수영역의 신호로 변환된다. 심리음향모델부(110)에서는 사람의 청각 특성을 반영하여 허용 왜곡도(allowed distortion)를 계산한다. 상기 주파수 영역의 신호는 양자화/비트율제어부(120)에서 양자화되며, 이때 허용왜곡도에 따라 양자화 정도가 달라진다. 즉 허용왜곡도가 작아 노이즈(noise)가 들리기 쉬운 주파수 밴드에서는 양자화를 적게 하여 비트수를 많이 할당하고, 허용왜곡도가 큰 주파수 밴드에서는 양자화를 많이 하여 비트수를 작게 할당한다. 상기 양자화/비트율제어부(120)에서의 각 주파수 밴드마다 필요한 비트수 할당과 양자화는 부호화 가용비트율(target bitrate)과 심리음향모델의 허용왜곡도(distortion)를 기반으로 스케일팩터(scalefactor) 값을 조정함으로써 이루어진다.
도 2는 도 1에 도시된 상기 양자화/비트율제어부(120)의 구성을 블록도로 도시한 것으로서, 상기 양자화/비트율 제어부(120)는 왜곡제어부(200) 및 비트량제어부(250)로 이루어진다.
상기 왜곡제어부(200)는 허용왜곡도에 맞게 양자화 밴드별로 스케일팩터 값을 결정한다. 상기 스케일팩터 값은 각 스케일팩터 밴드별로 결정되는 값이며, 각 스케일팩터 밴드의 주파수 영역 데이터를 양자화하는데 사용된다.
상기 비트량제어부(250)는 가용비트량에 알맞게 전체 주파수 밴드에서 사용되는 전대역 스케일팩터(common_scalefactor) 값을 결정하여 오디오 데이터를 양자화하며, sf 증가량계산부(256), 양자화부(252) 및 사용비트량계산부(254)를 구비한다.
전대역 스케일팩터는 스케일펙터 밴드 전체에 대해 적용되는 값이며, 오디오 데이터를 양자화하는데 사용된다. 이때 상기 스케일팩터 값은 전대역 스케일팩터 값을 시작점으로 하여, 각 스케일팩터 밴드 별로 허용 왜곡도를 만족하는 값으로 결정된다.
상기 sf 증가량계산부(256)는 전대역 스케일팩터에 대한 최종 전대역 스케일 팩터 값을 예측한다. 상기 양자화부(252)는 계산된 전대역 스케일팩터를 이용하여 양자화한다. 상기 사용비트량계산부(254)는 양자화 샘플 데이터를 무손실 부호화할 때 사용될 비트량을 계산한다.
도 3은 오디오 부호화기의 모듈별 복잡도를 분석한 것을 도시한 것이다. 오디오 부호화 과정에서 양자화부와 비트율 제어부는 도 3에 도시된 바와 같이 복잡도가 전체 인코딩 과정에서 50% 이상을 차지하여 복잡도가 높다. 비트율 제어부(250)는 가용 비트율(target bitrate)과 왜곡도(distortion)의 제약조건을 가장 잘 만족하는 최적의 전대역 스케일팩터 값을 찾기 위한 반복 루프로 인해 복잡도가 높 다.
본 발명이 이루고자 하는 기술적 과제는, 회귀분석(regression)을 통해 도출된 수식을 이용하여 최적의 전대역 스케일팩터 값을 빠르게 찾음으로써, 비트량 고속 제어 가능한 오디오 부호화 방법 및 장치를 제공하는 것이다.
상기 기술적 과제를 이루기 위한 본 발명에 의한 비트량 고속 제어 가능한 오디오 부호화 방법은, (a) 오디오 샘플링데이터를 주파수영역 데이터로 변환하는 단계; (b) 상기 주파수 영역데이터에 대해, 부호화 가용비트율과 심리음향모델의 허용왜곡도를 기반으로 소정의 주파수 대역마다 스케일팩터 값을 조정하여 필요한 비트수를 할당하고 양자화하는 단계; 및 (c) 상기 양자화된 데이터를 기반으로 비트스트림을 생성하는 단계를 포함함을 특징으로 하고, 상기 (b)단계는 (b1) 주파수 영역의 오디오 데이터에 대한 가용비트량을 구하는 단계; (b2) 사용비트량이 가용비트량보다 크지 않는 조건을 만족하면서, 가용비트량과 사용비트량의 차를 이용하여 전대역 스케일팩터 값을 구하여 오디오데이터를 양자화하는 단계; (b3) 상기 양자화 밴드 단위로 양자화 노이즈를 계산하는 단계; 및 (b4) 상기 양자화 노이즈가 심리음향모델로부터 구해진 허용왜곡도를 초과하는 양자화 밴드에 대해, 상기 양자화밴드의 스케일팩터 값을 조정하여 양자화하는 단계를 구비한다.
상기 (b2)단계는, (bb1) 전대역 스케일팩터 초기값을 설정하는 단계; (bb2) 상기 전대역 스케일팩터 값을 이용하여 양자화하는 단계; (bb3) 상기 사용비트량을 계산하는 단계; 및 (bb4) 가용비트량과 사용비트량을 비교하여 가용비트량이 사용비트량보다 작으면, 상기 전대역 스케일팩터 값을 가용비트량과 사용비트량의 차에 의해 결정되는 소정의 값만큼 증가시키는 단계; (bb5) 상기 증가된 전대역 스케일팩터 값을 이용하여 양자화하여 상기 (bb3) 단계를 수행하는 단계를 구비함이 바람직하다.
상기 (bb4) 단계의 소정의 값은
[수학식 1]
Figure 112004040647706-pat00001
수학식 1에 의해 결정됨이 바람직하다.
상기 기술적 과제를 이루기 위한 본 발명에 의한 비트량 고속 제어 가능한 오디오 부호화 장치는, 오디오 샘플링데이터를 주파수영역 데이터로 변환하는 T/F 변환부; 상기 주파수 영역 데이터에 대해, 부호화 가용비트율과 심리음향모델의 허용왜곡도를 기반으로 소정의 주파수 대역마다 스케일팩터 값을 조정하여 필요한 비트수를 할당하고 양자화하는 비트수할당/양자화부; 및 상기 양자화된 데이터를 기반으로 비트스트림을 생성하는 비트스트림생성부를 포함함을 특징으로 하고, 상기 비트수할당/양자화부는 주파수 영역의 오디오 데이터의 가용비트량을 구하는 가용비트량계산부; 사용비트량이 가용비트량보다 크지 않는 조건을 만족하면서, 전체 주파수 밴드에 사용되는 전대역 스케일팩터 값을 구하여 오디오 데이터를 양자화하는 전체대역 양자화부; 상기 양자화 밴드 단위로 양자화 노이즈를 계산하는 노이즈계산부; 및 상기 양자화 노이즈가 심리음향모델로부터 구해진 허용왜곡을 초과하는 양자화 밴드에 대해, 상기 양자화밴드의 스케일팩터 값을 조정하여 조정된 스케일팩터를 이용하여 양자화하는 대역별 양자화부를 구비한다. 상기 전대역 양자화부는 전대역 스케일팩터 초기값을 설정하는 초기값설정부; 상기 전대역 스케일팩터 값을 이용하여 양자화하는 제1양자화부; 양자화된 오디오 데이터를 입력으로 하여 사용비트량을 계산하는 사용비트량계산부; 및 가용비트량과 사용비트량을 비교하여 가용비트량이 사용비트량보다 작으면, 상기 전대역 스케일팩터 값을 가용비트량과 사용비트량의 차에 의해 결정되는 소정의 값만큼 증가시키는 전대역 스케일팩터 증가부; 상기 전대역 스케일팩터 값이 증가하면, 상기 증가된 전대역 스케일팩터 값을 이용하여 오디오 데이터를 양자화하여 상기 사용비트량계산부로 출력하는 제2양자화부를 구비함을 특징으로 한다.
그리고 상기 기재된 발명을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.
이하, 첨부된 도면들을 참조하여 본 발명에 따른 방법 및 장치에 대해 상세히 설명한다.
도 4는 본 발명에 의한 오디오 부호화 장치의 구성을 블록도로 도시한 것으로서, T/F 변환부(400), 비트수할당/양자화부(420) 및 비트스트림 생성부(440)를 포함하여 이루어진다.
상기 T/F 변환부(400)는 시간영역의 오디오 샘플링데이터를 주파수 영역의 데이터로 변환한다. 상기 비트수할당/양자화부(420)는 상기 주파수 영역의 데이터 에 대해, 부호화 가용비트율과 심리음향모델의 허용왜곡도를 기반으로 소정의 대역마다 스케일 팩터 값을 조정하여 필요한 비트수를 할당하고 양자화한다. 상기 비트스트림생성부(440)는 양자화된 데이터를 기반으로 비트스트림을 생성한다.
도 5는 상기 비트수할당/양자화부(420)의 구성을 블록도로 도시한 것으로서, 가용비트량 계산부(500), 전대역양자화부(510), 노이즈계산부(520) 및 대역별양자화부(530)를 구비한다. 가용비트량계산부(500)는 주파수 영역의 오디오 데이터에 대한 가용 비트량을 계산한다. 전대역양자화부(510)는 사용비트량이 가용비트량보다 크지 않는 조건을 만족하면서, 전체 주파수 밴드에 사용되는 전대역 스케일팩터 값을 구하여 오디오 데이터를 양자화한다. 상기 노이즈계산부(520)는 상기 양자화 밴드 단위로 양자화 노이즈를 계산한다. 상기 대역별 양자화부(530)는 상기 양자화 노이즈가 심리음향모델로부터 구해진 허용왜곡도를 초과하는 양자화 밴드에 대해, 상기 양자화밴드의 스케일팩터 값을 조정하고, 상기 조정된 스케일팩터를 이용하여 대역별로 양자화한다.
도 6은 상기 전대역양자화부(510)의 구성을 블록도로 도시한 것으로서, 초기값설정부(600), 제1양자화부(610), 사용비트량계산부(620), 전대역스케일팩터 증가부(630) 및 제2양자화부(640)를 구비한다.
상기 초기값설정부(600)는 주파수 영역의 오디오 데이터의 전체 대역에 공통으로 사용되는 전대역 스케일팩터의 초기값을 설정한다.
상기 제1양자화부(610)는 상기 전대역 스케일팩터 값을 이용하여 오디오 데이터를 양자화한다. 상기 사용비트량계산부(620)는 양자화된 오디오 데이터를 입력으로 하여 사용비트량을 계산한다. 상기 전대역 스케일팩터 증가부(630)는 가용비트량과 사용비트량을 비교하여 가용비트량이 사용비트량보다 작으면, 상기 전대역 스케일팩터 값을 가용비트량과 사용비트량의 차에 의해 결정되는 소정의 값만큼 증가시킨다. 상기 소정의 값은 수학식 1에 의해 결정됨이 바람직하다.
Figure 112004040647706-pat00002
상기 제2양자화부(640)는 상기 전대역 스케일팩터 값이 증가하면, 상기 증가된 전대역 스케일팩터 값을 이용하여 오디오 데이터를 양자화하여 상기 사용비트량계산부(620)로 출력한다.
도 7 및 도 8은 본 발명에 의한 부호화 방법을 흐름도로 도시한 것이다. 도 7을 참조하면, 먼저 오디오 데이터를 주파수 영역 데이터로 변환한다.(700단계) 그리고 나서 상기 주파수 영역데이터에 대해, 부호화 가용비트율과 심리음향모델의 허용왜곡도를 기반으로 소정의 주파수 대역마다 스케일팩터 값을 조정하여 필요한 비트수를 할당하고 양자화한다.(720단계)
양자화가 끝나면, 상기 양자화된 데이터를 기반으로 비트스트림을 생성한다.(740단계) 일반적으로 상기 비트스트림을 생성하기 전에 상기 양자화된 데이터를 무손실 부호화를 수행할 수 있다.
도 8은 상기 720단계를 보다 세부적으로 나타내는 흐름도이다. 먼저, 오디오 데이터에 대해, 가용비트량을 계산한다.(800단계) 그리고 나서 상기 가용비트 량과 사용비트량의 차를 이용하여 가용 비트량에 알맞게 전체 대역에 공통적으로 사용되는 전대역 스케일팩터 값을 조정하여 주파수 영역의 오디오 데이터를 양자화한다.(810단계) 양자화된 데이터를 이용하여 각 스케일팩터 밴드마다 양자화 노이즈를 계산한다.(820단계) 상기 양자화 노이즈가 심리음향모델의 허용왜곡도를 벗어나는가를 검사한다.(830단계) 허용왜곡도를 벗어나면 대역별로 스케일 팩터를 조정하여 양자화를 한 후(840단계), 상기 820단계로 가서 상기 조정된 스케일팩터 값을 이용하여 해당 스케일팩터 밴드에 대해 양자화노이즈를 계산한다.
만일 양자화노이즈가 허용왜곡도 내에 있다면, 모든 스케일팩터 밴드에 대해 양자화 노이즈 계산을 하였는지 체크한다.(850단계) 만일 양자화 노이즈 계산을 하지 않은 스케일팩터 밴드가 존재하면, 상기 820단계로 가서 각 스케일팩터 밴드마다 양자화노이즈를 계산하고, 만일 모든 스케일팩터 밴드에 대해 양자화노이즈 계산을 종료하였다면 스케일팩터 밴드 전체에 대한 양자화노이즈가 허용왜곡도 내에 속하는지 검사한다.(860단계) 스케일팩터 밴드 전체에 대한 양자화노이즈가 허용왜곡도 내에 속하지 않으면, 상기 810단계로 가서 전대역 스케일팩터 값을 조정한다.
상기 860단계에서 만일 스케일팩터 밴드 전체에 대한 양자화노이즈가 허용왜곡도 내이면, 다음 단계의 오디오 데이터 부호화를 진행한다.
도 9는 상기 810단계를 보다 상세하게 설명하기 위한 흐름도이다. 먼저, 전대역 스케일팩터의 초기값을 설정한다.(900단계) 그리고 나서 상기 설정된 초기값을 이용하여 양자화를 수행한다.(920단계) 양자화가 완료되면 사용된 비트량을 계산한다.(940단계) 사용비트량이 계산되고 나면, 사용비트량과 가용비트량을 비교 하여 사용비트량보다 가용비트량이 작으면 상기 전대역 스케일팩터 값을 소정의 값(
Figure 112004040647706-pat00003
)만큼 증가시켜 다시 920단계를 수행하여(980단계), 사용비트량이 가용비트량보다 작을 때 까지 상기 980단계, 920단계 및 940단계를 수행한다. 즉 사용비트량이 가용비트량을 초과할 경우 양자화 스텝 사이즈를 증가시켜 사용비트량이 가용비트량보다 작을 때까지 제어과정을 반복한다.
상기 도 9에 도시된 바와 같은 비트량제어루프에서 최적의 값을 찾기 위해 전대역 스케일팩터 값을 하나씩 증가시키는 방법은 정교하게 값을 찾을 수는 있으나, 복잡도를 증가시키는 주요인이 된다. 전대역 스케일팩터 값을 하나씩 증가시키지 않고 최적의 증가량(
Figure 112004040647706-pat00004
)을 예측함으로써 루프를 여러 번 수행하지 않고 조건을 만족하는 최종 전대역 스케일팩터 값에 빨리 도달할 수 있다.
표 1은 상기 비트량 제어루프의 매번 루프과정에서 전대역 스케일팩터 값과 비트량 차(사용비트량 - 가용비트량) 사이의 상관관계를 나타내고 있다. 전대역 스케일팩터 값과 비트량 차는 일정한 상관관계를 가지고 있으며, 이러한 상관관계를 이용하여 비트량 차이가 0 이 되는
Figure 112004040647706-pat00005
값을 결정할 수 있다.
Figure 112004040647706-pat00006
여기서 C1은 사용비트량, C2는 가용비트량, C3 = C1 - C2, C4는 현재 전대역 스케일팩터 값, C5 = 최종 전대역 스케일팩터 값 - 현재 전대역 스케일팩터 값을 나타낸다. 상기 C5는 최종값에 도달하기 위한 증가량을 나타낸다.
실제로 도 10에 도시된 바와 같이 전대역 스케일팩터와 비트량 차이의 상관도(correlation) 분석결과 0.972로 이 두 변수는 높은 상관관계를 가지고 있다.
초기 전대역 스케일팩터 값에 대한 최종 전대역 스케일팩터 값의 증가량
Figure 112006062713357-pat00007
는 상기 수학식 1을 이용하여 결정된다. 이 때,
Figure 112006062713357-pat00008
상수 값은 회귀분석(regression analysis)을 통해 결정된 값을 이용하여 최종 전대역 스케일팩터 값에 가장 근접한 값으로 정교하게 결정할 수 있다. 상기 회귀분석(regression analysis)이란 변수들 간의 함수적인 관련성을 규명하기 위하여 수학적 모델(통계모형)을 가정하고, 관측된 자료로부터 이 모형을 추정하는 통계분석방법으로서, 주로 예측에 사용된다. 변수들 중 결과 변수를 종속변수로 놓고 종속변수에 영향을 주거나 원인이 되는 독립변수들이 미치는 영향력의 크기, 상관관계 등을 통계적으로 규명하는 방법이다.
도 11은 본 발명에 의한 방법을 적용하기 전의 도 9에 도시된 루프 횟수를 그래프로 도시한 것이다. 도 12는 본 발명에 의한 방법을 적용한 후의 비트 제어부의 루프 횟수를 그래프로 도시한 것이다. 본 발명을 적용 전에는 루프횟수가 평균 10회 이상이 실행되고 본 발명의 알고리즘을 적용한 후 평균 2-3회로 줄어들었다. 그리고 본 발명을 적용한 후, 전체 오디오 인코딩 속도를 측정한 결과 평균 실시간 2-3 배에서 4.9배로 향상되었다.
본 발명은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터(정보 처리 기능을 갖는 장치를 모두 포함한다)가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다. 컴퓨터가 읽을 수 있는 기록 장치의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.
본 발명에 의한 고속 비트량 제어가능한 부호화 방법 및 장치에 의하면, 회귀분석을 통해 도출된 수식을 이용하여 최적의 전대역 스케일팩터 값을 빠르게 찾음으로써 고속으로 비트량 제어가 가능하다.

Claims (7)

  1. (a) 오디오 샘플링데이터를 주파수영역 데이터로 변환하는 단계;
    (b) 상기 주파수 영역데이터에 대해, 부호화 가용비트율과 심리음향모델의 허용왜곡도를 기반으로 소정의 주파수 대역마다 스케일팩터 값을 조정하여 필요한 비트수를 할당하고 양자화하는 단계; 및
    (c) 상기 양자화된 데이터를 기반으로 비트스트림을 생성하는 단계를 포함함을 특징으로 하고,
    상기 (b) 단계는
    (b1) 주파수 영역의 오디오 데이터에 대한 가용비트량을 구하는 단계;
    (b2) 사용비트량이 가용비트량보다 크지 않는 조건을 만족하면서, 가용비트량과 사용비트량의 차를 이용하여 전대역 스케일팩터 값을 구하여 오디오데이터를 양자화하는 단계;
    (b3) 상기 양자화 밴드 단위로 양자화 노이즈를 계산하는 단계; 및
    (b4) 상기 양자화 노이즈가 심리음향모델로부터 구해진 허용왜곡도를 초과하는 양자화 밴드에 대해, 상기 양자화밴드의 스케일팩터 값을 조정하여 양자화하는 단계를 구비하는, 고속 비트량 제어가능한 오디오 부호화 방법.
  2. 제1항에 있어서, 상기 (b2)단계는
    (bb1) 전대역 스케일팩터 초기값을 설정하는 단계;
    (bb2) 상기 전대역 스케일팩터 값을 이용하여 양자화하는 단계;
    (bb3) 상기 사용비트량을 계산하는 단계; 및
    (bb4) 가용비트량과 사용비트량을 비교하여 가용비트량이 사용비트량보다 작으면, 상기 전대역 스케일팩터 값을 가용비트량과 사용비트량의 차에 의해 결정되는 소정의 값만큼 증가시키는 단계;
    (bb5) 상기 증가된 전대역 스케일팩터 값을 이용하여 양자화하여 상기 (bb3) 단계를 수행하는 단계를 구비함을 특징으로 하는 고속 비트량 제어가능한 오디오 부호화 방법.
  3. 제2항에 있어서, 상기 (bb4) 단계의 소정의 값은
    [수학식 1]
    Figure 112004040647706-pat00009
    상기 수학식 1에 의해 결정됨을 특징으로 하는 고속 비트량 제어가능한 오디오 부호화 방법.
  4. 오디오 샘플링데이터를 주파수영역 데이터로 변환하는 T/F 변환부;
    상기 주파수 영역 데이터에 대해, 부호화 가용비트율과 심리음향모델의 허용왜곡도를 기반으로 소정의 주파수 대역마다 스케일팩터 값을 조정하여 필요한 비트수를 할당하고 양자화하는 비트수할당/양자화부; 및
    상기 양자화된 데이터를 기반으로 비트스트림을 생성하는 비트스트림생성부를 포함함을 특징으로 하고,
    상기 비트수할당/양자화부는
    주파수 영역의 오디오 데이터의 가용비트량을 구하는 가용비트량계산부;
    사용비트량이 가용비트량보다 크지 않는 조건을 만족하면서, 전체 주파수 밴드에 사용되는 전대역 스케일팩터 값을 구하여 오디오 데이터를 양자화하는 전체대 역 양자화부;
    상기 양자화 밴드 단위로 양자화 노이즈를 계산하는 노이즈계산부; 및
    상기 양자화 노이즈가 심리음향모델로부터 구해진 허용왜곡을 초과하는 양자화 밴드에 대해, 상기 양자화밴드의 스케일팩터 값을 조정하여 조정된 스케일팩터를 이용하여 양자화하는 대역별 양자화부를 구비하는, 고속 비트량 제어가능한 오디오 부호화 장치.
  5. 제4항에 있어서, 상기 전체대역 양자화부는
    전대역 스케일팩터 초기값을 설정하는 초기값설정부;
    상기 전대역 스케일팩터 값을 이용하여 양자화하는 제1양자화부;
    양자화된 오디오 데이터를 입력으로 하여 사용비트량을 계산하는 사용비트량계산부; 및
    가용비트량과 사용비트량을 비교하여 가용비트량이 사용비트량보다 작으면, 상기 전대역 스케일팩터 값을 가용비트량과 사용비트량의 차에 의해 결정되는 소정의 값 만큼 증가시키는 전대역 스케일팩터 증가부;
    상기 전대역 스케일팩터 값이 증가하면, 상기 증가된 전대역 스케일팩터 값을 이용하여 오디오 데이터를 양자화하여 상기 사용비트량계산부로 출력하는 제2양자화부를 구비함을 특징으로 하는 고속 비트량 제어 가능한 오디오 부호화 장치.
  6. 제5항에 있어서, 상기 전대역 스케일팩터 증가부의 소정의 값은
    [수학식 1]
    Figure 112004040647706-pat00010
    상기 수학식 1에 의해 결정됨을 특징으로 하는 고속 비트량 제어가능한 오디오 부호화 장치.
  7. 제1항 내지 제3항 중 어느 한 항에 기재된 발명을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020040071588A 2004-09-08 2004-09-08 비트량 고속제어가 가능한 오디오 부호화 방법 및 장치 KR100682890B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020040071588A KR100682890B1 (ko) 2004-09-08 2004-09-08 비트량 고속제어가 가능한 오디오 부호화 방법 및 장치
US11/220,568 US7698130B2 (en) 2004-09-08 2005-09-08 Audio encoding method and apparatus obtaining fast bit rate control using an optimum common scalefactor

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040071588A KR100682890B1 (ko) 2004-09-08 2004-09-08 비트량 고속제어가 가능한 오디오 부호화 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20060022821A KR20060022821A (ko) 2006-03-13
KR100682890B1 true KR100682890B1 (ko) 2007-02-15

Family

ID=35997337

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040071588A KR100682890B1 (ko) 2004-09-08 2004-09-08 비트량 고속제어가 가능한 오디오 부호화 방법 및 장치

Country Status (2)

Country Link
US (1) US7698130B2 (ko)
KR (1) KR100682890B1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7627552B2 (en) * 2003-03-27 2009-12-01 Microsoft Corporation System and method for filtering and organizing items based on common elements
US7665028B2 (en) 2005-07-13 2010-02-16 Microsoft Corporation Rich drag drop user interface
KR101078378B1 (ko) * 2009-03-04 2011-10-31 주식회사 코아로직 오디오 부호화기의 양자화 방법 및 장치
CN101847413B (zh) * 2010-04-09 2011-11-16 北京航空航天大学 一种使用新型心理声学模型和快速比特分配实现数字音频编码的方法
KR101762205B1 (ko) * 2012-05-30 2017-07-27 니폰 덴신 덴와 가부시끼가이샤 부호화 방법, 부호화 장치, 프로그램 및 기록 매체
EP3525206B1 (en) * 2013-12-02 2021-09-08 Huawei Technologies Co., Ltd. Encoding method and apparatus
GB2587196A (en) * 2019-09-13 2021-03-24 Nokia Technologies Oy Determination of spatial audio parameter encoding and associated decoding
CN110992963B (zh) * 2019-12-10 2023-09-29 腾讯科技(深圳)有限公司 网络通话方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07202823A (ja) * 1993-11-25 1995-08-04 Sharp Corp 符号化復号化装置
JPH08307277A (ja) * 1995-05-11 1996-11-22 Hitachi Ltd 可変レート音声符号化方法及び装置
JP2002091498A (ja) 2000-09-19 2002-03-27 Victor Co Of Japan Ltd オーディオ信号符号化装置
JP2002196792A (ja) 2000-12-25 2002-07-12 Matsushita Electric Ind Co Ltd 音声符号化方式、音声符号化方法およびそれを用いる音声符号化装置、記録媒体、ならびに音楽配信システム
JP2004021092A (ja) 2002-06-19 2004-01-22 Toshiba Corp オーディオ符号化装置及びオーディオ符号化方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100269213B1 (ko) * 1993-10-30 2000-10-16 윤종용 오디오신호의부호화방법
JP3784993B2 (ja) * 1998-06-26 2006-06-14 株式会社リコー 音響信号の符号化・量子化方法
US6732071B2 (en) * 2001-09-27 2004-05-04 Intel Corporation Method, apparatus, and system for efficient rate control in audio encoding
TWI220753B (en) * 2003-01-20 2004-09-01 Mediatek Inc Method for determining quantization parameters
JP4212591B2 (ja) * 2003-06-30 2009-01-21 富士通株式会社 オーディオ符号化装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07202823A (ja) * 1993-11-25 1995-08-04 Sharp Corp 符号化復号化装置
JPH08307277A (ja) * 1995-05-11 1996-11-22 Hitachi Ltd 可変レート音声符号化方法及び装置
JP2002091498A (ja) 2000-09-19 2002-03-27 Victor Co Of Japan Ltd オーディオ信号符号化装置
JP2002196792A (ja) 2000-12-25 2002-07-12 Matsushita Electric Ind Co Ltd 音声符号化方式、音声符号化方法およびそれを用いる音声符号化装置、記録媒体、ならびに音楽配信システム
JP2004021092A (ja) 2002-06-19 2004-01-22 Toshiba Corp オーディオ符号化装置及びオーディオ符号化方法

Also Published As

Publication number Publication date
US20060053006A1 (en) 2006-03-09
KR20060022821A (ko) 2006-03-13
US7698130B2 (en) 2010-04-13

Similar Documents

Publication Publication Date Title
JP5175028B2 (ja) デジタル信号の符号化方法及び装置ならびに復号化方法及び装置
JP4212591B2 (ja) オーディオ符号化装置
US7062445B2 (en) Quantization loop with heuristic approach
US6246345B1 (en) Using gain-adaptive quantization and non-uniform symbol lengths for improved audio coding
KR100547113B1 (ko) 오디오 데이터 인코딩 장치 및 방법
JP4628861B2 (ja) 複数のルックアップテーブルを利用したデジタル信号の符号化方法、デジタル信号の符号化装置及び複数のルックアップテーブル生成方法
KR20090122142A (ko) 오디오 신호 처리 방법 및 장치
US20090132238A1 (en) Efficient method for reusing scale factors to improve the efficiency of an audio encoder
RU2505921C2 (ru) Способ и устройство кодирования и декодирования аудиосигналов (варианты)
WO2006054583A1 (ja) オーディオ信号符号化装置および方法
US7698130B2 (en) Audio encoding method and apparatus obtaining fast bit rate control using an optimum common scalefactor
JP4639073B2 (ja) オーディオ信号符号化装置および方法
JP5609591B2 (ja) オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラム
KR100893281B1 (ko) 오디오 코딩을 위해 이득-적응형 양자화 및 비균일 심볼길이를 사용하는 방법 및 장치
KR101301245B1 (ko) 스펙트럼 계수의 서브대역 할당 방법 및 장치
JP2000151413A (ja) オーディオ符号化における適応ダイナミック可変ビット割り当て方法
JP2003233397A (ja) オーディオ符号化装置、オーディオ符号化プログラム及びオーディオ符号化データ伝送装置
KR100363259B1 (ko) 인지 특성 가중 함수를 이용한 음성신호의 위상 양자화장치 및 방법
JP4822816B2 (ja) オーディオ信号符号化装置および方法
WO2003063160A1 (en) Method and unit for substracting quantization noise from a pcm signal
KR101393299B1 (ko) 오디오 데이터 부호화 방법 및 장치
KR100590340B1 (ko) 디지털 오디오 부호화 방법 및 장치
KR20070037771A (ko) 오디오 부호화 시스템
KR970006827B1 (ko) 오디오신호 부호화장치
KR19990056432A (ko) 디지탈 오디오 부호화장치에 있어서 고속의 비트할당방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130130

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140128

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150129

Year of fee payment: 9

LAPS Lapse due to unpaid annual fee