KR20120048694A - 오디오 인코딩에서 주파수 대역 신호 에너지를 기초로 한 주파수 대역 스케일 팩터 결정 - Google Patents

오디오 인코딩에서 주파수 대역 신호 에너지를 기초로 한 주파수 대역 스케일 팩터 결정 Download PDF

Info

Publication number
KR20120048694A
KR20120048694A KR1020127007643A KR20127007643A KR20120048694A KR 20120048694 A KR20120048694 A KR 20120048694A KR 1020127007643 A KR1020127007643 A KR 1020127007643A KR 20127007643 A KR20127007643 A KR 20127007643A KR 20120048694 A KR20120048694 A KR 20120048694A
Authority
KR
South Korea
Prior art keywords
scale factor
frequency band
audio signal
frequency
coefficients
Prior art date
Application number
KR1020127007643A
Other languages
English (en)
Other versions
KR101361933B1 (ko
Inventor
락스미나가야나 엠. 다림바
Original Assignee
슬링 미디어 피브이티 엘티디
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 슬링 미디어 피브이티 엘티디 filed Critical 슬링 미디어 피브이티 엘티디
Publication of KR20120048694A publication Critical patent/KR20120048694A/ko
Application granted granted Critical
Publication of KR101361933B1 publication Critical patent/KR101361933B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

시간 영역 오디오 신호를 인코딩하는 방법이 개시된다. 본 방법에서, 전자 장치는 시간 영역 오디오 신호를 수신한다. 시간 영역 오디오 신호는 다수의 주파수들 각각에 대하여 계수를 포함하는 주파수 영역 신호로 변환되며, 다수의 주파수들은 주파수 대역으로 분류된다. 각각의 주파수 대역에 대하여, 대역의 에너지가 결정되며, 상기 대역에 대한 스케일 팩터가 대역을 기초로 결정되고, 그리고 상기 대역의 상기 계수들이 상기 관련된 스케일 팩터를 기초로 양자화된다. 인코딩된 오디오 신호는 양자화된 계수들 및 스케일 팩터를 기초로 생성된다.

Description

오디오 인코딩에서 주파수 대역 신호 에너지를 기초로 한 주파수 대역 스케일 팩터 결정{FREQUENCY BAND SCALE FACTOR DETERMINATION IN AUDIO ENCODING BASED UPON FREQUENCY BAND SIGNAL ENERGY}
실시예는 오디오 인코딩에서 주파수 대역 신호 에너지를 기초로 한 주파수 대역 스케일 팩터의 결정에 관한 것이다.
오디오 정보의 효과적인 압축은 상기 오디오 정보를 저장하기 위한 메모리 용량 요건 및 상기 정보의 전송을 위하여 필요한 통신 대역폭 모두를 감소시킨다. 이러한 압축을 가능하게 하기 위해서, 유비쿼터스 모션 픽쳐 엑스퍼트 그룹 1(the ubiquitous Motion Picture Experts Group 1; MPEG-1)오디오 레이어3(MP3)포맷 그리고 뉴 어드밴스드 오디오 코딩(Newer Advanced Audio Coding; AAC)표준과 같은 다양한 오디오 인코딩 규칙들이 적어도 하나의 음향심리학 모델(psychoacoustic model; PAM)을 이용하며 상기 음향 심리학 모델은 오디오 정보를 수신하고 처리하는 인간의 청력의 한계를 본질적으로 설명한다. 예를 들면, 주파수 영역(특정한 주파수의 오디오는 특정한 볼륨 수준 이하에 있는 근처의 주파수들의 오디오를 마스킹(mask)한다.) 및 시간 영역(특정한 주파수의 오디오 톤(tone)은 오디오의 소멸 이후 얼마 동안의 시간 주기에 대하여 동일한 톤을 마스킹한다.)모두에서, 인간의 오디오 시스템은 음향 마스킹 원리(acoustic masking principle)를 보여준다. 압축을 제공하는 오디오 인코딩 규칙은 상기 인간의 오디오 시스템에 의하여 마스킹 될 수 있는 상기 오리지널 오디오 정보의 일부분들을 제거함으로써 상기 음향 마스킹 원리를 이용한다.
상기 오리지널 오디오 신호의 어느 부분을 제거할지 결정 하기 위해서, 상기 오디오 인코딩 시스템은 마스킹 임계치를 생성시키기 위해서 일반적으로 상기 오리지널 신호를 처리하며, 임계치 아래쪽의 오디오 신호들은 오디오 충실도(Audio fidelity)의 현저한 손실 없이 제거될 수도 있다. 이와 같은 처리(processing)는 연산이 매우 과도하며, 오디오 신호의 실시간 인코딩을 어렵게 한다. 이와 같은 연산을 수행하는 것은 이런 과도한 처리를 위하여 구체적으로 설계되지 않은 고정 소수점 방식의 디지털 신호 프로세서(fixed-point digital signal processors)(DSPs)를 이용한 많은 가전 장치들에 있어서 일반적으로 어렵고 시간이 오래 걸린다.
본 발명의 실시예에 의하면, 시간 영역 오디오 신호를 인코딩 하는 방법에 있어서 전자 장치에서 상기 시간 영역 오디오 신호를 수신하는 단계, 상기 시간 영역 오디오 신호를 다수의 주파수들 각각에 대한 계수를 포함하는 주파수 영역 신호로 변환하는 단계, 상기 계수들을 주파수 대역으로 분류하는 단계로서, 상기 주파수 대역 각각은 상기 계수들 중 적어도 하나를 포함하는 단계, 상기 주파수 대역 각각에 대하여, 상기 주파수 대역의 에너지를 결정하는 단계, 상기 주파수 대역 각각에 대하여, 상기 주파수 대역의 상기 에너지를 기초로 스케일 팩터를 결정하는 단계, 상기 주파수 대역 각각에 대하여, 관련된 상기 스케일 팩터를 기초로 상기 주파수 대역의 상기 계수를 양자화하는 단계, 및 상기 양자화된 계수와 상기 스케일 팩터를 기초로 인코딩된 오디오 신호를 생성하는 단계를 포함하는 시간 영역 오디오 신호의 인코딩 방법이 제공된다.
본 명세서에서 설명된 적어도 일부 실시예들은 오디오 인코딩 방법을 제공하며, 오디오 신호의 각 주파수 대역내의 오디오 주파수들에 의하여 드러난 상기 에너지는 인코딩 및 오디오 정보의 압축을 비교적 간단한 연산으로 하기 위하여 유용한 스케일 팩터를 계산하기 위하여 이용될 수도 있다. 이런 방식으로 상기 스케일 팩터를 생성시킴으로써, 통신망을 통해서 오디오를 전송하기 위하여 플레이스시프팅 장치에서 취할 수 있는 오디오 신호의 실시간 인코딩이 쉽게 달성된다. 추가적으로, 이러한 방식으로 스케일 팩터를 생성시킴으로써 종래의 오디오 신호를 인코딩 하거나 압축할 수 없었던 저가의 디지털 신호 프로세싱 회로를 이용하는 많은 휴대제품 및 가전 디바이스들이 이제 그런 능력을 제공할 수 있게 해줄 수도 있다.
본 발명의 많은 측면들은 후술할 도면을 참조하여 더 잘 이해될 수도 있다. 본 발명의 원리에 관한 명확한 설명에 기반한 강조가 있을 뿐, 상기 도면에서 구성요소들은 필연적으로 규모를 나타내는 것은 아니다. 도면에서 참조번호와 같은것들은 여러 관점을 통하여 대응하는 부분을 지정한다. 또한, 몇몇의 실시예들이 이러한 도면들과 관련되어 설명되며, 상기 발명은 명세서에 개시된 실시예들에 의하여 제한되지 않는다. 반면에, 모든 대체물, 변형물, 그리고 균등물을 포함하고자 한다.
도 1은 본 발명의 일 실시예에 따라서 시간 영역 오디오 신호를 인코딩하기 위하여 구성된 전자 장치의 간략화된 블록도이다.
도 2는 본 발명의 일 실시예에 따라서 시간 영역 오디오 신호를 인코딩하기 위한 도 1의 전자 장치의 동작 방법의 순서도이다.
도 3은 본 발명의 다른 실시예에 따른 전자 장치의 블록도이다.
도 4는 본 발명의 일 실시예에 따른 오디오 인코딩 시스템의 블록도이다.
도 5는 본 발명의 일 실시예에 따라서 주파수 대역을 포함하는 주파수 영역 신호의 그래프이다.
첨부된 도면과 후술할 설명은 해당 기술분야의 일반의 기술자가 본 발명의 최적 모드를 어떻게 만들고 이용하는지 설명하기 위하여, 본 발명의 구체적인 실시예를 설명한다. 발명의 원리를 설명하기 위한 목적으로, 일부 종래의 측면들이 간략화되거나 생략되었다. 해당 기술분야의 일반의 기술자는 본 발명의 범위에 포함되는 이러한 실시예들의 변형을 알 수 있다. 해당 기술분야의 일반의 기술자는 본 발명의 다양한 실시예를 형성하기 위하여 하기의 설명된 특징들이 다양한 방법으로 통합될 수 있다는 점 또한 알 수 있다. 그 결과, 본 발명은 하기에 설명된 구체적인 실시예 의하여 제한 되지 않으며, 오직 청구범위와 그것의 균등범위에 의하여 인정되어야 한다.
도 1은 본 발명의 일 실시예에 따라서, 시간 영역 오디오신호(110)를 인코딩된 오디오 신호(120)로 인코딩 하도록 구성된 전자 장치(100)의 간략화된 블록도를 제공한다. 시간 영역 신호를 인코딩된 오디오 신호로의 변환을 포함하는 다른 인코딩 규칙들이 하기에서 논의되는 개념을 유리하게 이용할 수도 있지만, 일 실시에 있어서, 상기 인코딩은 어드밴스드 오디오 코딩(Advanced Audio Coding; AAC)표준에 따라서 수행된다. 추가적으로, 상기 전자 장치(100)는 이와 같은 인코딩을 수행할 수 있는 임의의 장치가 될 수도 있으며, 상기 임의의 장치는 개인용 데스크톱 및 노트북, 오디오/비디오 인코딩 시스템, 콤팩트 디스크(compact disc; CD) 및 디지털 비디오 디스크(digital video disk; DVD)플레이어, 텔레비전 셋탑박스(set-top box), 오디오 수신기, 휴대폰, 개인 정보 단말기(personal digital assistants)(PDAs), 그리고 슬링미디어, 잉크(Inc)로부터 제공되는 슬링박스®(Slingbox®)의 다양한 모델들과 같은 오디오/비디오 플레이스시프팅 장치를 제한 없이 포함한다.
도 2는 시간 영역 오디오 신호(110)를 인코딩하여, 인코딩된 오디오신호(120)를 산출하는 도 1의 상기 전자 장치의 동작 방법(200)에 대한 순서도를 보여준다. 상기 방법(200)에서, 상기 전자 장치(100)는 상기 시간 영역 오디오 신호(110)을 수신한다(동작 202). 상기 장치(100)는 상기 시간 영역 오디오신호(110)를 다수의 주파수를 가진 주파수 영역 신호로 변환시키며, 각 주파수는 그 주파수의 크기를 나타내는 계수와 관련된다(동작 204). 그 후 상기 계수들은 주파수 대역으로 분류된다(동작 206). 상기 각 주파수 대역은 적어도 하나의 계수를 포함한다. 각 주파수 대역에 대하여(동작 208), 상기 전자 장치(100)는 상기 주파수 대역의 에너지를 결정하고(동작 210), 상기 주파수 대역의 상기 에너지를 기초로 상기 대역에 대한 스케일 팩터(scale factor)를 결정하고(동작 212), 그 대역에 관련된 상기 스케일 팩터를 기초로 상기 주파수 대역의 상기 계수를 양자화한다(동작 214). 상기 장치(100)는 상기 양자화된 계수와 상기 스케일 팩터들을 기초로 상기 인코딩된 오디오 신호(120)를 생성시킨다(동작 216).
도 2의 상기 동작이 하나의 특정한 순서(order)에서 실행 되는 것으로 설명되지만, 두 개 이상의 동작의 동시 실행을 포함하는 다른 실행 순서가 가능할 수도 있다. 예를 들면, 도 2의 상기 동작들이 파이프라인(pipeline)의 한 타입으로서 실행 될 수도 있으며, 각 동작은 상기 시간 영역 오디오 신호(110)가 상기 파이프라인에 들어갔을 때, 다양한 부분에서 수행 될 수 있다. 다른 실시예에서, 컴퓨터판독가능저장매체(computer-readable storage medium)는 상기 방법(200)을 실행하기 위하여 도 1의 상기 전자 장치(100)의 적어도 하나의 프로세서 또는 다른 제어회로에 대한 명령을 인코딩할 수도 있다.
상기 방법(200)의 적어도 몇몇의 실시예의 결과에 의하면, 상기 대역의 상기 계수를 양자화하기 위하여 각 주파수 대역을 이용하는 상기 스케일 팩터는 상기 대역의 상기 주파수들의 상기 에너지의 결정을 기초로 한다. 이와 같은 결정은 대부분의 AAC 실행에서 일반적으로 수행되는 마스킹 임계치의 계산보다 일반적으로 덜 과도하다. 결과적으로, 저가의 디지털 신호 프로세싱 구성요소를 이용하는 소형 장치를 포함하는, 어떤 종류의 전자 장치에 의한 실시간 오디오 인코딩이 가능할 수도 있다. 다른 이점은 하기에서 더욱 자세하게 논의되는 상기 발명의 다양한 실행으로부터 인식될 수도 있다.
도 3은 상기 발명의 다른 실시예에 따른 전자 장치(300)의 블록도이다. 상기 장치(300)는 제어 회로(302)와 데이터 저장소(304)를 포함한다. 일부 실시에 있어서, 상기 장치(300)는 통신 인터페이스(306)와 사용자 인터페이스(308)를 모두 또는 그 중 하나를 포함할 수도 있다. 파워 서플라이 및 디바이스 인클로져(device enclosure)를 포함하며 제한되지 않는 다른 구성요소들은 상기 전자 장치에 또한 포함될 수도 있지만, 이와 같은 구성요소들은 하기의 설명을 간략화하기 위하여 도 3에 명시적으로 표시되지 않았으며, 하기에서 논의되지도 않았다.
상기 제어 회로(302)는 시간 영역 오디오 신호(310)를 인코딩된 오디오신호(320)로 인코딩하는 상기 전자 장치(300)의 다양한 측면을 제어하도록 구성된다. 일 실시예에서, 상기 제어 회로(302)는 후술할 부분에서 자세하게 논의되는 다양한 동작들을 수행하기 위하여 프로세서에 지시하는 명령을 실행시키기 위하여 구성된 마이크로프로세서(microprocessor), 마이크로컨트롤러(microcontroller), 또는 디지털 신호 프로세서(DSP)와 같은 적어도 하나의 프로세서를 포함한다. 다른 예에서, 상기 제어 회로(302)는 아래에 설명된 하나 이상의 동작 또는 태스크(task)를 수행하도록 구성된 하나 또는 그 이상의 하드웨어 구성요소를 포함하거나 구성요소를 처리하는 소프트웨어와 하드웨어의 일부 결합을 포함할 수도 있다.
데이터 저장소(304)는 인코딩될 일부 또는 전부의 시간영역 오디오 신호(310)와 그 결과인 인코딩된 오디오 신호(320)를 저장하기 위하여 구성된다. 상기 데이터 저장소(304)는 중간 데이터, 제어 정보, 그리고 상기 인코딩 프로세스에서 포함되는 기타의 것들을 또한 저장할 수도 있다. 상기 데이터 저장소(304)는 상기 제어 회로(302)의 프로세서에 의하여 실행되는 명령뿐만 아니라 상기 명령의 실행에 관련된 임의의 프로그램 데이터 또는 제어 정보를 또한 포함할 수도 있다. 상기 데이터 저장소(304)는 모든 휘발성 메모리 구성요소(동적 임의접근 저장장치(DRAM) 및 정적 임의접근 저장장치(SRAM), 비 휘발성메모리 장치(이동식 및 비 이동식 모두의 플래시메모리, 자기 디스크 드라이브, 및 광학 디스크 드라이브) 및 전술한 것들의 조합을 포함할 수도 있다.
상기 전자 장치(300)는 또한 상기 시간 영역 오디오신호(310)를 수신 및/ 또는 통신링크(communication link)를 통해서 상기 인코딩된 오디오 신호(320)를 전송하기 위하여 구성된 통신 인터페이스(306)를 포함할 수도 있다. 상기 통신 인터페이스(306)의 예로서, 디지털 가입자 회선(digital subscriber line; DSL) 또는 인터넷 케이블 인터페이스와 같은 원거리 통신망(wide-area network; WAN)인터페이스가 될 수도 있으며, 와이파이(Wi-Fi) 또는 이더넷(Ethernet)과 같은 근거리 통신망(local-area network; LAN), 또는 통신링크 또는 유선연결 방식, 무선, 또는 광학방식을 통해서 통신하도록 구성된 다른 모든 통신 인터페이스가 될 수도 있다.
다른 예에서, 상기 통신 인터페이스(306)는 오디오/비디오 프로그래밍의 한 부분으로써 상기 오디오 신호(310, 320)를 텔레비전, 비디오 모니터, 또는 오디오/비디오 수신기와 같은 출력 장치(도 3에 도시되지 않음)로 보내기 위하여 구성될 수도 있다. 예를 들면, 상기 오디오/비디오 프로그래밍의 상기 비디오 부분은, 변조된 비디오 케이블 연결, 복합 또는 구성요소(composite or component) 비디오 알씨에이-스타일(Radio Corporation of America; RCA-style)연결, 그리고 디지털 비디오 인터페이스(Digital video interface; DVI) 또는 고선명 멀티미디어 인터페이스(High-Definition Multimedia Interface; HDMI)연결 방식으로 전송될 수도 있다. 상기 프로그래밍의 상기 오디오 부분은 모노럴(monaural) 또는 스테레오 오디오 알씨에이-스타일 연결, 토스링크(TOSLINK)연결, 또는 고선명 멀티미디어 인터페이스(HDMI)연결을 통하여 전송될 수도 있다. 다른 오디오/비디오 포맷 그리고 관련된 연결들이 다른 실시예에서 이용될 수도 있다.
추가적으로, 상기 전자 장치(300)는, 오디오 마이크로폰, 및 증폭기, 아날로그-디지털 컨버터(analog-to-digital converter; ADC)를 포함하는 관련 회로 및 기타 방식에 의하여 하나 또는 그 이상의 사용자로부터 상기 시간 영역 오디오신호(310)에 의하여 나타나는 음향신호(311)를 수신하기 위하여 구성된 사용자 인터페이스(308)를 포함한다. 이와 같이, 상기 사용자 인터페이스(308)는 상기 인코딩된 오디오신호(320)에 의하여 나타난 음향 신호(321)를 상기 사용자에게 보여주기 위하여, 증폭기 회로와 하나 이상의 오디오 스피커를 포함할 수도 있다. 상기 실시예에 따르면, 상기 사용자 인터페이스(308)는 키보드, 키패드, 터치패드, 마우스, 조이스틱, 또는 다른 사용자 입력 장치와 같은 방식으로 사용자가 상기 전자 장치(300)를 컨트롤할 수 있게 하는 수단을 또한 포함할 수도 있다. 이와 유사하게, 상기 사용자 인터페이스(308)는 상기 전자 장치(300)로부터 사용자가 시각적인 정보를 수신할 수 있는 모니터 또는 다른 시각적 디스플레이 장치와 같은 시각적 출력 수단을 제공할 수도 있다.
도 4는 상기 시간 영역 오디오 신호(310)를 도 3의 상기 인코딩된 오디오 신호(320)로 인코딩하기 위하여, 상기 전자 장치(300)로부터 제공된 오디오 인코딩 시스템(400)의 일 예를 제공한다. 도 3의 상기 제어 회로(302)는 하드웨어 회로, 소프트웨어 또는 펌웨어 명령을 실행하는 프로세서, 또는 전술한 것들의 일부 조합의 방식으로 상기 오디오 인코딩 시스템(400)의 각 부분을 실행시킨다.
다른 오디오 인코딩 규칙이 다른 실시예에서 이용될 수도 있지만, 도 4의 상기 구체적인 시스템(400)은 특정한 AAC의 특정한 실행을 나타내며, 일반적으로, AAC는 오디오 인코딩을 위하여 모듈식(modular) 접근을 나타낸다. 도 4의 각 기능 블록 (450-472)뿐만 아니라, 도 4에서 구체적으로 설명되지 않은 것들이 각각의 하드웨어, 소프트웨어, 또는 펌웨어 모듈 또는 “툴(tool)”에서 실행될 수도 있으며, 그 결과 다양한 개발 소스(varying development source)로부터 비롯된 모듈이 단일 인코딩 시스템(400)에 집약되어 상기 소정의 오디오 인코딩을 수행할 수 있게 한다. 결과적으로, 다양한 개수 및 종류의 모듈들의 타입은 임의의 수의 인코더 “프로파일(profiles)”의 형태를 가져오며, 각각에서 다뤄지는 구체적인 조건들은 특정한 인코딩 환경과 관련된다. 이와 같은 조건은 상기 장치(300)의 연산능력을 포함할 수도 있으며, 상기 시간 영역 오디오 신호(310)의 복잡성, 및 상기 인코딩된 오디오신호(320)의 출력 비트전송률(output bit-rate)과 왜곡 수준(distortion level)과 같은 소정의 특징을 포함할 수도 있다. 상기 AAC표준은 저 복잡도(the low-complexity; LC)프로파일, 메인(the main)프로파일, 샘플-레이트 스카라블(the sample-rate scalable; SRS)프로파일, 롱텀프리딕션(long-term prediction; LTP)프로파일의 네 가지 디폴트 프로파일을 일반적으로 제공한다. 다른 프로파일들이 후술할 지각 모델(perceptual model, 450), 스케일 팩터 생성기(466), 및/또는 비트율/왜곡 제어 블록(464)의 증가를 포함하여도, 도 4의 상기 시스템(400)은 주로 상기 메인 프로파일에 대응된다.
도 4는 실선 화살표 방식으로 상기 오디오 데이터의 일반적인 순서를 설명하며, 몇몇의 가능한 제어 경로가 점선 화살표를 통해서 설명된다. 상기 모듈 (450-472)사이에 제어 정보의 이동(도 4에 도시되지 않음)과 관련된 다른 가능성이 다른 구성에서 가능할 수도 있다.
도 4에서, 상기 시간 영역 오디오 신호(310)는 상기 시스템(400)의 입력으로써 수신된다. 일반적으로, 상기 시간 영역 오디오 신호(310)는 시변(time-varying) 오디오 신호의 일련의 디지털 샘플들로써 연속된 포맷의 하나 또는 그 이상의 오디오정보 채널들을 포함한다. 일부 실시예에서, 상기 시간 영역 오디오 신호(310)는 본질적으로 아날로그 오디오 신호의 형식을 취할 수도 있으며, 상기 인코딩 시스템(400)으로 전달되기 전에, 상기 제어 회로(302)에 의하여 실행될 때 상기 사용자 인터페이스(308)의 ADC 와 같은 방식으로 규정된 비율로 디지털화 된다.
도 4에서 설명되는 바와 같이, 상기 오디오 인코딩 시스템(400)의 상기 모듈들은 이득 제어 블록(452), 필터뱅크(454), 일시적 잡음 형상화(temporal noise shaping; TNS)블록(456), 인텐시티/커플링(intensity/coupling)블록(458), 역방향 예측 툴(backward prediction tool, 460), 및 미드/사이드(mid/side) 스테레오 블록(462)을 포함할 수도 있으며, 상기 블록들은 상기 시간 영역 오디오 신호(310)를 입력으로서 수신하는 프로세싱 파이프 라인의 일부분으로써 구성된다. 이러한 기능 블록들(452-462)은 다른 AAC의 실행에 있어서 종종 발견되는 동일한 기능적 블록들에 대응될 수도 있다. 또한 상기 시간 영역 오디오 신호(310)는 지각 모델(450)로 전달되며, 상기 지각 모델은 상기 임의의 기능 블록(452-462)에 제어 정보를 제공할 수도 있다. 일반적인 AAC 시스템에서, 이 제어 정보는 상기 시간 영역 오디오 신호(310)의 어떠한 부분들이 음향심리학 모델(PAM) 하에서 불필요한지를 나타내며, 상기 시간 영역 오디오 신호(310)내에 있는 상기 오디오 정보의 이러한 부분들은 상기 인코딩된 오디오 신호(320)내에서 구현시 압축을 용이하게 하기 위하여 제거된다.
이를 위해, 일반적인 AAC 시스템에서, 상기 지각 모델(450)은 상기 시간 영역 오디오 신호(310)의 고속 푸리에 변환(FFT)결과로부터 마스킹 임계치를 계산하며, 상기 오디오 신호(310)의 어느 부분이 제거될 것인지 나타낸다. 그러나 도 4의 예에서, 상기 지각 모델(450)은 필터 뱅크(454)의 출력을 수신하며, 상기 필터 뱅크(454)의 출력은 주파수 영역 신호(474)를 제공한다. 일 특정한 예에서, 상기 필터 뱅크(454)는 이것은 AAC 시스템에서 일반적으로 제공되는 변형이상코사인변환(modified discrete cosine transform; MDCT)기능 블록이다.
도 5에 도시된 바에 따르면, 상기 MDCT 블록(454)으로부터 생산된 상기 주파수 영역 신호(474)는 인코딩되기 위한 오디오 정보의 각 채널에 관한 다수의 주파수(502)들을 포함하며, 각 주파수(502)는 상기 주파수 영역 신호(474) 내에서 그 주파수(502)의 크기 또는 인텐시티(intensity)를 나타내는 계수에 의하여 표현된다. 도 5에서, 각 주파수(502)는 수직 벡터로서 설명되고 그 높이는 그 주파수(502)와 관련된 상기 계수의 값을 나타낸다.
추가적으로, 상기 주파수들(502)은 일반적으로 AAC 규칙에 의해서 분류하는 것처럼 인접한 주파수 그룹 또는 “대역” (504A-504E)으로 논리적으로 분류된다. 반면에, 도 4는 각 주파수 대역(504)이 주파수들의 동일한 범위를 이용하고 있으며, 상기 필터 뱅크(454)로부터 생산된 동일한 수의 이산 주파수(502), 상기 대역들(504) 사이에서 이용될 수도 있는, 가변 하는 주파수들(502)의 수와 주파수(502)범위의 사이즈를 포함한다고 가리키며, 이는 AAC 시스템에서 종종 있는 동작이다.
상기 주파수 대역들(504)은 주파수들(502)의 한 대역(504)의 각 주파수(502)의 상기 계수가 도 4의 상기 스케일 팩터 생성기(466)에 의하여 생성된 스케일 팩터 방식으로 스케일 되거나(be scaled) 또는 분할될 수 있게 하도록 형성된다. 이와 같은 스케일링은 상기 인코딩된 오디오 신호(320) 내의 상기 주파수(502) 계수를 나타내는 상기 데이터의 양을 감소시키며, 따라서 데이터를 압축하고, 그 결과 상기 인코딩된 오디오 신호(320)에 대하여 더 낮은 전송 비트 전송률을 갖게 한다. 이 스케일링은 또한 상기 오디오 정보의 양자화되는 결과를 갖게 하며, 상기 주파수(502) 계수는 미리 결정된 이산 값으로 변하며, 그 결과, 상기 인코딩된 오디오 신호(320) 내의 일부 왜곡이 디코딩 후에 나타날 수 있다. 일반적으로 말해서, 높은 스케일링 팩터는 거시적(coarser) 양자화를 야기시키며, 높은 오디오 왜곡 수준(level)과 인코딩된 오디오 신호(320)의 낮은 비트 전송률을 갖게 한다.
종래의 AAC시스템에서, 상기 인코딩된 오디오 신호(320)에 대하여 미리 결정된 왜곡 수준과 비트 전송률을 만족시키기 위해서, 상기 지각 모델(450)은 전술한 마스킹 임계치를 계산하여 상기 인코딩된 오디오 신호(320)의 각 샘플 블록에 대하여 허용 가능한 스케일 팩터를 결정한다. 그러나, 본 명세서에서 논의된 상기 실시예에서, 상기 지각 모델(450)은 대신에 각 주파수 대역(504)의 상기 주파수들(502)과 관련된 상기 에너지를 결정하고, 그리고 나서 그 에너지에 기초하여 각 대역(504)에 대하여 소정의 스케일 팩터를 계산한다. 일 예에서, 주파수 대역(504) 내의 상기 주파수들(502)의 상기 에너지는 “절대합(absolute sum)”에 의하여 계산 되거나, 또는 상기 대역(504) 내의 상기 주파수들(502)의 상기 MDCT 계수의 절대 값의 합으로 계산되며, 상기 MDCT 계수의 절대 값의 합은 종종 절대스팩트럴계수합(the sum of absolute spectral coefficients; SASC)으로 언급된다.
상기 대역(504)에 대한 상기 에너지가 일단 결정되면, 상기 대역(504)과 관련된 상기 스케일 팩터는 밑을 10으로 하는 로그들과 같은 로그를 상기 대역(504)의 상기 에너지에 취하고, 상수 값을 더하며, 그리고 나서 미리 결정된 곱셈기(multiplier)를 상기 수치에 곱하여, 상기 대역 (504)에 대하여 적어도 하나의 초기 스케일 팩터를 산출한다. 종래의 알려진 음향 심리학 모델에 따른 오디오 인코딩 실험은 대략 1.75의 상수와 10배 곱셈기가 광범위한 마스킹 임계치 계산의 결과로서 생산된 스케일 팩터들과 비교할 수 있는 스케일 팩터를 생산한다고 나타낸다. 따라서, 이 특정한 예에서, 하기의 스케일 팩터에 대한 방정식이 만들어진다.
Figure pct00001
다른 구성에서는 1.75가 아닌 다른 값이 상기 상수로 이용될 수도 있다.
상기 시간 영역 오디오 신호(310)를 인코딩하기 위하여, 상기 MDCT필터 뱅크(454)는 상기 주파수 영역 신호(474)에 대한 주파수 샘플들의 연속된 블록들을 생산하며, 각 블록들은 상기 시간 영역 오디오 신호(310)의 특정한 시간 주기와 관련된다. 따라서, 전술한 상기 스케일 팩터 계산이 상기 주파수 영역 신호(474)에서 생산된 주파수 샘플들의 각 채널에 대한 모든 블록들에 대하여 실행되며, 그 결과 각 주파수 대역(504)의 각 블록에 대하여 다양한 스케일 팩터가 잠재적으로 제공된다. 포함된 데이터의 상기 양을 고려해볼 때, 각 스케일 팩터에 대한 상기 계산의 사용은 주파수 샘플들의 동일한 블록들에 대하여 추정되는 마스킹 임계치와 비교하는 상기 스케일 팩터를 결정하기 위하여 요구되는 프로세싱의 양을 매우 감소시킨다.
상기 파이프라인에서 상기 스케일 팩터 생성기(466) 다음에 오는 양자화기(468)는 각 주파수 대역(504)에 대하여 위하여 상기 스케일 팩터 생성기(466)에서 생성된 (그리고 하기에 설명되는 바에 의하면, 비트율/왜곡(rate/distortion)제어 블록(464)에 의하여 조절될 수도 있다.)상기 스케일 팩터를 이용하여 상기 대역(504)내에 있는 상기 다양한 주파수들(502)의 상기 계수를 분할할 수 있다. 상기 계수를 분할함으로써, 상기 계수는 사이즈가 감소되거나 압축되며, 그 결과, 상기 인코딩된 오디오 신호의(320)의 전체적인 비트 전송률을 감소시킨다. 이와 같은 분할은 상기 계수가 이산 값의 정의된 몇몇 숫자 중 하나로 양자화되는 결과를 갖게 한다.
일 실시예에서, 상기 스케일 팩터를 생성시키기 위하여 상기에서 인용된 상기 방정식의 이용은 상기 인코딩 오디오 신호(320)에 대하여 목표하거나 소정의 비트 전송률이 일부 미리 결정된 수준 또는 값을 초과하지 않는 이러한 환경에 제한될 수도 있다. 목표 비트 전송률이 상기 미리 결정된 수준을 초과하는 시나리오(scenario)를 다루기 위하여, 대신에 상기 비트율-왜곡 제어 블록(464)은 각 주파수 대역(504)의 상기 계수 중 어느 것이 그 대역(504)에서 가장 높거나 최대인 계수인지를 결정할 수도 있으며, 그리고 상기 양자화기(468)에서 생성된, 0이 아닌 상기 계수의 상기 양자화된 값과 같은 상기 대역(504)에 대한 스케일 팩터를 선택한다. 이러한 방식으로 스케일 팩터들을 생성함으로써, 시간 주기에 대한 상기 인코딩된 오디오 신호(320)로부터, 주파수들 중 하나의 전체 대역(504)이 손실되고, 그 결과 청자에게 분명하게 인식될 수도 있는 오디오”홀(holes)”의 존재가 무시될 수도 있다. 일 실시예에서, 상기 비트율/왜곡 제어 블록(464)은 양자화 후에 0이 아닌 상기 대역(504)의 상기 계수의 최대값을 허용하는 최대의 스케일 팩터를 선택할 수도 있다.
양자화 이후, 무소음 코딩 블록(noiseless coding block)(470)은 양자화된 계수의 결과를 무소음 코딩 규칙(noiseless coding scheme)에 따라서 코드화(code)한다. 일 실시예에서, 상기 코딩 규칙은 AAC에서 이용한 무손실 호프만 코딩 규칙(lossless Huffman coding scheme)이 될 수도 있다.
도 4에 설명된 바와 같이, 상기 비트율/왜곡 제어 블록(464)은 상기 인코딩된 오디오 신호(320)에 대하여 미리 결정된 비트 전송률과 왜곡 수준의 요구를 충족시키기 위해서 하나 또는 그 이상의 상기 스케일 팩터 생성기(466)에서 생성된 스케일 팩터를 조절할 수 있다. 예를 들면, 상기 비트율/왜곡 제어 블록(464)은 상기 계산된 스케일 팩터가 상기 인코딩된 오디오 신호(320)에 대한 출력 비트 전송률을 결정할 수도 있고, 상기 출력 비트 전송률이 얻어진 평균 비트 전송률에 비교하여 매우 높으면, 그 결과 상기 스케일 팩터를 증가시킨다고 결정할 수도 있다.
다른 실시예에서, 상기 비트율/왜곡 제어 모듈(464)은 비트 저장부(bit reservoir)또는 리키 버킷(leaky bucket)모델을 이용하여, 높은 데이터 컨텐츠를 포함하는 상기 시간 영역 오디오 신호(310)의 주기들을 수용하기 위해서 상기 비트 전송률을 때때로 증가시키는 동안, 상기 스케일 팩터를 조절하여 상기 인코딩된 오디오 신호(320)의 허용 가능한 평균 비트 전송률을 유지한다. 더욱 구체적으로, 상기 인코딩된 오디오 신호(320)의 상기 요구되는 비트 전송률과 관련된 일부 시간주기를 저장하는 실제 또는 가상의 비트 저장부 또는 버퍼는 초기에 비어있다고 간주된다. 일 예에서, 상기 버퍼의 사이즈는 상기 인코딩된 오디오 신호(320)의 데이터의 약 5초에 대응되나, 이보다 짧거나 긴 시간 주기가 다른 실행에 있어서 적용될 수도 있다.
상기 스케일 팩터 생성기(466)에 의해서 생산된 상기 스케일 팩터들은 상기 출력 오디오 신호(320)의 상기 실제 비트 전송률이 상기 소정의 비트 전송률에 정합되는 이상적인 데이터 전송 조건에서, 상기 버퍼는 그 자체가 초기에 비어있는 상태를 유지한다. 그러나, 상기 인코딩된 오디오 신호(320)의 많은 블록들 중에서 한 부분이 요구된 왜곡 수준을 유지하기 위하여 일시적으로 높은 비트 전송률의 이용을 요구하는 경우, 상기 높은 비트 전송률이 적용될 수도 있으며, 따라서 상기 버퍼 또는 저장소의 일부를 소비한다. 상기 버퍼의 저장된 정도가 일부 미리 결정된 임계치를 초과하는 경우, 생성된 상기 스케일 팩터들은 상기 출력 비트 전송률을 감소시키기 위해서 증가할 수도 있다. 이와 유사하게, 상기 출력 비트 전송률이 떨어져서 상기 버퍼는 비어있는 상태로 남게 되고, 상기 비트율/왜곡 제어 블록(464)은 상기 비트 전송률을 증가시키기 위해서 상기 스케일 팩터 생성기(466)에서 공급되는 상기 스케일 팩터를 감소시킨다. 상기 실시예에 의하면, 상기 비트율/왜곡 제어 블록(464)은 오리지널 스케일 팩터, 상기 계수, 그리고 다른 특징들에 기반하여 상기 모든 주파수 대역들(504)의 상기 스케일 팩터들을 증가시키거나 감소시킬 수 있으며, 또는 조절하기 위한 특정한 스케일 팩터들을 선택할 수도 있다.
일 구성에 있어서, 상기 비트 전송률을 기초로 상기 생산되는 스케일 팩터들을 조절하는 상기 비트율/왜곡 제어 블록(464)의 능력이 상기 비트 저장부 모델의 어플리케이션에 앞서서 이용되어 최소한의 왜곡의 양이 상기 인코딩된 오디오 신호(320)에 주입되는 동안 상기 미리 결정된 비트 전송률을 모두 준수하는 스케일 팩터로 빠르게 수렴하도록 한다.
상기 스케일 팩터와 계수가 상기 코딩블록(470)에서 인코딩된 후에, 상기 결과 데이터는 비트스트림 멀티플렉서(bitstream multiplexer)(472)로 전달되며, 상기 멀티플렉서(472)는 상기 인코딩된 오디오 신호(320)를 출력하며, 상기 신호는 상기 계수와 스케일 팩터를 포함한다. 이 데이터는 다른 제어 정보 및 문자 데이터(타이틀 및 상기 인코딩된 오디오 신호(320)와 관련된 정보 관련된 데이터 포함)와 같은 메타데이터(metadata) 및 상기 오디오 신호(320)를 수신하는 디코더(decoder)가 상기 신호(320)를 정확하게 디코딩할 수 있도록 이용되는 상기 특정 인코딩 규칙에 관한 정보들과 추가적으로 혼합될 수도 있다.
본 명세서에서 설명된 적어도 일부 실시예들은 오디오 인코딩 방법을 제공하며, 오디오 신호의 각 주파수 대역내의 오디오 주파수들에 의하여 드러난 상기 에너지는 인코딩 및 오디오 정보의 압축을 비교적 간단한 연산으로 하기 위하여 유용한 스케일 팩터를 계산하기 위하여 이용될 수도 있다. 이런 방식으로 상기 스케일 팩터를 생성시킴으로써, 통신망을 통해서 오디오를 전송하기 위하여 플레이스시프팅 장치에서 취할 수 있는 오디오 신호의 실시간 인코딩이 쉽게 달성된다. 추가적으로, 이러한 방식으로 스케일 팩터를 생성시킴으로써 종래의 오디오 신호를 인코딩하거나 압축할 수 없었던 저가의 디지털 신호 프로세싱 회로를 이용하는 많은 휴대제품 및 가전 디바이스들이 이제 그런 능력을 제공할 수 있게 해줄 수도 있다.
본 발명의 일부 실시예들이 본 명세서에서 논의되었으며, 본 발명의 범위에 포함되는 다른 실시예들도 가능하다. 예를 들면, 본 명세서에 개시된 적어도 하나의 실시예가 플레이스시프팅 장치의 관점에서 설명되는 반면에, 다목적 컴퓨팅 시스템(general purpose computing systems), 텔레비전 수신기 또는셋탑박스(set-top box)(위성, 케이블, 그리고 지상파 텔레비전 신호 전송과 관련된 기타의 것들을 포함)와 같은 다른 디지털 프로세싱 장치들은 위에서 설명된 개념의 적용으로부터 이익을 볼 수도 있다. 추가적으로, 본 명세서에서 개시된 일 실시예의 측면은 본 발명의 추가적인 실시예를 생성하기 위하여 대체할 수 있는 실시예들과 결합 될 수도 있다. 따라서, 본 발명은 구체적인 실시예의 관점에서 설명되었지만, 그와 같은 설명은 발명을 설명하기 위함이며 제한하는 것은 아니다. 따라서, 본 발명의 적절한 범위는 오직 특허청구범위와 그 균등물에 의하여 정해져야 한다.

Claims (20)

  1. 시간 영역 오디오 신호를 인코딩하는 방법에 있어서,
    전자 장치에서 상기 시간 영역 오디오 신호를 수신하는 단계;
    상기 시간 영역 오디오 신호를 다수의 주파수들 각각에 대한 계수를 포함하는 주파수 영역 신호로 변환하는 단계;
    상기 계수들을 주파수 대역으로 분류하는 단계로서, 상기 주파수 대역 각각은 상기 계수들 중 적어도 하나를 포함하는 단계;
    상기 주파수 대역 각각에 대하여, 상기 주파수 대역의 에너지를 결정하는 단계;
    상기 주파수 대역 각각에 대하여, 상기 주파수 대역의 상기 에너지를 기초로 스케일 팩터를 결정하는 단계;
    상기 주파수 대역 각각에 대하여, 관련된 상기 스케일 팩터를 기초로 상기 주파수 대역의 상기 계수를 양자화하는 단계; 및
    상기 양자화된 계수와 상기 스케일 팩터를 기초로 인코딩된 오디오 신호를 생성하는 단계를 포함하는 시간 영역 오디오 신호의 인코딩 방법.
  2. 제 1항에 있어서,
    상기 인코딩된 신호를 생성하는 단계는,
    상기 양자화된 계수를 인코딩하는 단계를 포함하고,
    상기 인코딩된 오디오 신호는 상기 인코딩된 계수 및 상기 스케일 팩터를 기초로 생성되는 것을 특징으로 하는 시간 영역 오디오 신호의 인코딩 방법.
  3. 제 1항에 있어서,
    상기 주파수 대역의 상기 에너지를 결정하는 단계는,
    상기 주파수 대역의 상기 계수들의 절대 합을 계산하는 단계를 포함하는 것을 특징으로 하는 시간 영역 오디오 신호의 인코딩 방법.
  4. 제 3항에 있어서,
    상기 스케일 팩터를 결정하는 단계는,
    상기 주파수 대역의 상기 에너지를 10을 밑으로 하는 로그로 계산하는 단계;
    제1텀(term)을 산출하기 위하여 상기 주파수 대역의 상기 에너지의 상기 10을 밑으로 하는 로그값에 상수를 더하는 단계; 및
    상기 스케일 팩터를 산출하기 위하여 곱셈기(multiplier)를 상기 제1텀에 곱하는 단계를 포함하는 것을 특징으로 하는 시간 영역 오디오 신호의 인코딩 방법.
  5. 제 4항에 있어서,
    상기 상수는 약 1.75; 및
    상기 곱셈기는 10인 것을 특징으로 하는 시간 영역 오디오 신호의 인코딩 방법.
  6. 제 1항에 있어서,
    상기 주파수 대역의 상기 에너지를 결정하는 단계 및 상기 주파수 대역의 상기 에너지를 기초로 상기 스케일 팩터를 결정하는 단계는,
    상기 인코딩된 오디오 신호의 목표 비트 전송률이 미리 결정된 수준을 초과하지 않는 경우 수행되며,
    상기 인코딩된 오디오 신호의 상기 목표 비트 전송률이 상기 각 주파수 대역에서 미리 결정된 수준을 초과하는 경우, 상기 주파수 대역의 상기 계수의 최대 계수를 결정하는 단계; 및
    상기 최대 계수와 관련된 양자화된 계수가 0이 아닌 스케일 팩터를 선택하는 단계를 더 포함하는 것을 특징으로 하는 시간 영역 오디오 신호의 인코딩 방법.
  7. 제 1항에 있어서,
    상기 주파수 대역 각각에 대하여, 상기 인코딩된 오디오 신호에 대하여 미리 결정된 비트 전송률을 기초로, 상기 미리 결정된 비트 전송률과 반대 관계인 상기 스케일 팩터를 조절하는 단계를 더 포함하는 것을 특징으로 하는 시간 영역 오디오 신호의 인코딩 방법.
  8. 제 1항에 있어서,
    상기 주파수 대역 각각에 대하여, 상기 인코딩된 오디오 신호에 대하여 미리 결정된 비트 전송률을 유지하기 위하여 비트 저장부를 기초로 상기 스케일 팩터를 조절하는 단계를 더 포함하는 것을 특징으로 하는 시간 영역 오디오 신호의 인코딩 방법.
  9. 제 8항에 있어서,
    상기 비트 저장부 모델은 상기 미리 결정된 비트 전송률에서 상기 인코딩된 오디오 신호의 5초에 대응되는 것을 특징으로 하는 시간 영역 오디오 신호의 인코딩 방법.
  10. 양자화된 출력 신호를 생산하기 위하여 주파수 영역 오디오 신호의 주파수 대역의 계수에 대한 스케일 팩터를 생성하는 방법으로서,
    미리 결정된 수준을 초과하지 않는 상기 양자화된 출력 신호에 대한 비트 전송률에 대하여, 상기 주파수 대역의 에너지를 결정하는 단계, 상기 주파수 대역의 상기 에너지를 기초로 스케일 팩터를 결정하는 단계; 및
    상기 미리 결정된 수준을 초과하는 상기 양자화된 출력 신호에 대한 비트 전송률에 대하여, 상기 주파수 대역의 최대 주파수 계수를 결정하는 단계, 0이 아닌 양자화 후의 계수에 대응되는 스케일 팩터를 선택하는 단계를 포함하고,
    상기 주파수 계수의 양자화는 상기 스케일 팩터를 기초로 하는 것을 특징으로 하는 주파수 영역 오디오 신호의 주파수 대역의 계수에 대한 스케일 팩터를 생성하는 방법.
  11. 제 10항에 있어서,
    상기 주파수 대역의 상기 에너지를 결정하는 단계는,
    상기 주파수 대역의 상기 계수의 절대 합을 계산하는 단계를 포함하는 것을 특징으로 하는 주파수 영역 오디오 신호의 주파수 대역의 계수에 대한 스케일 팩터를 생성하는 방법.
  12. 제 10항에 있어서,
    상기 주파수 대역의 상기 에너지를 기초로 상기 스케일 팩터를 결정하는 단계는,
    상기 주파수 대역의 상기 에너지를 10을 밑으로 하는 로그로 계산하는 단계;
    제1텀(term)을 산출하기 위하여 상기 주파수 대역의 상기 에너지의 상기 10을 밑으로 하는 로그값에 상수를 더하는 단계; 및
    상기 스케일 팩터를 산출하기 위하여 곱셈기를 상기 제1텀에 곱하는 단계를 포함하는 것을 특징으로 하는 주파수 영역 오디오 신호의 주파수 대역의 계수에 대한 스케일 팩터를 생성하는 방법.
  13. 제 12항에 있어서,
    상기 상수는 약 1.75; 및
    상기 곱셈기는 10인 것을 특징으로 하는 주파수 영역 오디오 신호의 주파수 대역의 계수에 대한 스케일 팩터를 생성하는 방법.
  14. 제 10항에 있어서,
    상기 주파수 대역 각각에 대하여, 상기 양자화된 출력 신호에 대한 상기 비트 전송률을 기초로 상기 양자화된 출력 신호에 대한 상기 비트 전송률과 반대 관계인 상기 스케일 팩터를 조절하는 단계를 더 포함하는 것을 특징으로 하는 주파수 영역 오디오 신호의 주파수 대역의 계수에 대한 스케일 팩터를 생성시키는 방법.
  15. 전자 장치에 있어서,
    시간 영역오디오 신호 및 상기 시간 영역 신호를 나타내는 인코딩된 오디오 신호를 저장하기 위하여 구성된 데이터 저장소; 및
    상기 데이터 저장소로부터 상기 시간 영역 오디오 신호를 검색(retrieve)하고,
    상기 시간 영역 오디오 신호를 각각 다수의 주파수들에 각각에 대한 계수를 포함하는 주파수 영역 신호로 변환하고,
    상기 계수들을 주파수 대역으로 분류하는 단계로서, 상기 주파수 대역 각각은 상기 계수들 중 적어도 하나를 포함하고,
    상기 주파수 대역 각각에 대하여, 상기 주파수 대역의 에너지를 결정하고,
    상기 주파수 대역 각각에 대하여, 상기 주파수 대역의 상기 에너지를 기초로 스케일 팩터를 결정하고,
    상기 주파수 대역 각각에 대하여, 관련된 상기 스케일 팩터를 기초로 상기 주파수 대역의 상기 계수들을 양자화하며,
    상기 양자화된 계수 및 상기 스케일 팩터들을 기초로 상기 인코딩된 오디오 신호를 생성하기 위하여 구성된 제어 회로를 포함하는 전자 장치.
  16. 제 15항에 있어서,
    상기 제어 회로는,
    상기 데이터 저장소 내의 상기 인코딩된 오디오신호를 저장하기 위하여 구성된 것을 특징으로 하는 전자 장치.
  17. 제 15항에 있어서,
    상기 제어 회로는,
    상기 주파수 대역에 대한 상기 스케일 팩터를 결정하기 위하여, 상기 주파수 대역의 상기 계수의 절대값을 더하는 것을 특징으로 하는 전자 장치.
  18. 제 17항에 있어서,
    상기 제어 회로는,
    상기 주파수 대역에 대한 상기 스케일 팩터를 결정하기 위하여, 상기 주파수 대역의 상기 에너지의 로그값을 결정하고,
    제1텀(term)을 산출하기 위하여 상기 주파수 대역의 상기 에너지의 상기 로그값에 상수를 더하고,
    상기 스케일 팩터를 생성시키기 위하여 곱셈기를 상기 제1텀에 곱하는 단계를 수행하도록 구성된 것을 특징으로 하는 전자 장치.
  19. 제 18항에 있어서,
    상기 상수는 약 1.75; 및
    상기 곱셈기는 10인 것을 특징으로 하는 전자 장치.
  20. 제 15항에 있어서,
    상기 제어 회로는,
    상기 인코딩된 오디오 신호의 목표 비트 전송률이 미리 결정된 수준을 초과하지 않는 경우, 상기 주파수 대역의 상기 에너지를 결정하고, 상기 주파수 대역의 상기 에너지를 기초로 상기 스케일 팩터를 결정하고,
    상기 인코딩된 오디오 신호의 상기 목표 비트 전송률이 상기 미리 결정된 수준을 초과하는 경우, 상기 주파수 대역의 최대 주파수 계수를 결정하고, 그리고 0이 아닌 양자화 후의 계수에 대응되는 스케일 팩터를 선택하도록 구성된 것을 특징으로 하는 전자 장치.
KR1020127007643A 2009-08-24 2010-08-24 오디오 인코딩에서 주파수 대역 신호 에너지를 기초로 한 주파수 대역 스케일 팩터 결정 KR101361933B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/546,428 2009-08-24
US12/546,428 US8311843B2 (en) 2009-08-24 2009-08-24 Frequency band scale factor determination in audio encoding based upon frequency band signal energy
PCT/IN2010/000557 WO2011024198A2 (en) 2009-08-24 2010-08-24 Frequency band scale factor determination in audio encoding based upon frequency band signal energy

Publications (2)

Publication Number Publication Date
KR20120048694A true KR20120048694A (ko) 2012-05-15
KR101361933B1 KR101361933B1 (ko) 2014-02-12

Family

ID=43302938

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127007643A KR101361933B1 (ko) 2009-08-24 2010-08-24 오디오 인코딩에서 주파수 대역 신호 에너지를 기초로 한 주파수 대역 스케일 팩터 결정

Country Status (13)

Country Link
US (1) US8311843B2 (ko)
EP (1) EP2471062B1 (ko)
JP (1) JP2013502619A (ko)
KR (1) KR101361933B1 (ko)
CN (1) CN102483923B (ko)
AU (1) AU2010288103B8 (ko)
BR (1) BR112012003364A2 (ko)
CA (1) CA2770622C (ko)
IL (1) IL217958A (ko)
MX (1) MX2012002182A (ko)
SG (1) SG178364A1 (ko)
TW (1) TWI450267B (ko)
WO (1) WO2011024198A2 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101826331B1 (ko) * 2010-09-15 2018-03-22 삼성전자주식회사 고주파수 대역폭 확장을 위한 부호화/복호화 장치 및 방법
MY186055A (en) * 2010-12-29 2021-06-17 Samsung Electronics Co Ltd Coding apparatus and decoding apparatus with bandwidth extension
JP5942463B2 (ja) * 2012-02-17 2016-06-29 株式会社ソシオネクスト オーディオ信号符号化装置およびオーディオ信号符号化方法
US9225310B1 (en) * 2012-11-08 2015-12-29 iZotope, Inc. Audio limiter system and method
EP2830058A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Frequency-domain audio coding supporting transform length switching
US10573324B2 (en) 2016-02-24 2020-02-25 Dolby International Ab Method and system for bit reservoir control in case of varying metadata
DE102016206327A1 (de) * 2016-04-14 2017-10-19 Sivantos Pte. Ltd. Verfahren zum Übertragen eines Audiosignals von einem Sender zu einem Empfänger
DE102016206985A1 (de) 2016-04-25 2017-10-26 Sivantos Pte. Ltd. Verfahren zum Übertragen eines Audiosignals

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1111959C (zh) * 1993-11-09 2003-06-18 索尼公司 量化装置、量化方法、高效率编码装置、高效率编码方法、解码装置和高效率解码装置
US6678653B1 (en) * 1999-09-07 2004-01-13 Matsushita Electric Industrial Co., Ltd. Apparatus and method for coding audio data at high speed using precision information
JP4409733B2 (ja) * 1999-09-07 2010-02-03 パナソニック株式会社 符号化装置、符号化方法、及びその記録媒体
JP2002196792A (ja) * 2000-12-25 2002-07-12 Matsushita Electric Ind Co Ltd 音声符号化方式、音声符号化方法およびそれを用いる音声符号化装置、記録媒体、ならびに音楽配信システム
WO2003038812A1 (en) * 2001-11-02 2003-05-08 Matsushita Electric Industrial Co., Ltd. Audio encoding and decoding device
JP4317355B2 (ja) * 2001-11-30 2009-08-19 パナソニック株式会社 符号化装置、符号化方法、復号化装置、復号化方法および音響データ配信システム
US7027982B2 (en) 2001-12-14 2006-04-11 Microsoft Corporation Quality and rate control strategy for digital audio
DE102004059979B4 (de) * 2004-12-13 2007-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zur Berechnung einer Signalenergie eines Informationssignals
US20070094035A1 (en) * 2005-10-21 2007-04-26 Nokia Corporation Audio coding
US8032371B2 (en) 2006-07-28 2011-10-04 Apple Inc. Determining scale factor values in encoding audio data with AAC
JP4823001B2 (ja) * 2006-09-27 2011-11-24 富士通セミコンダクター株式会社 オーディオ符号化装置

Also Published As

Publication number Publication date
AU2010288103B8 (en) 2014-02-20
KR101361933B1 (ko) 2014-02-12
US8311843B2 (en) 2012-11-13
SG178364A1 (en) 2012-04-27
US20110046966A1 (en) 2011-02-24
CA2770622A1 (en) 2011-03-03
TW201123173A (en) 2011-07-01
IL217958A (en) 2014-12-31
AU2010288103A1 (en) 2012-03-01
CN102483923A (zh) 2012-05-30
EP2471062B1 (en) 2018-06-27
JP2013502619A (ja) 2013-01-24
MX2012002182A (es) 2012-09-07
BR112012003364A2 (pt) 2016-02-16
CA2770622C (en) 2015-06-23
IL217958A0 (en) 2012-03-29
AU2010288103B2 (en) 2014-01-30
WO2011024198A3 (en) 2011-07-28
CN102483923B (zh) 2014-10-08
TWI450267B (zh) 2014-08-21
WO2011024198A2 (en) 2011-03-03
EP2471062A2 (en) 2012-07-04
AU2010288103A8 (en) 2014-02-20

Similar Documents

Publication Publication Date Title
KR101361933B1 (ko) 오디오 인코딩에서 주파수 대역 신호 에너지를 기초로 한 주파수 대역 스케일 팩터 결정
KR101363206B1 (ko) 인터채널과 시간적 중복감소를 이용한 오디오 신호 인코딩
USRE46082E1 (en) Method and apparatus for low bit rate encoding and decoding
KR102401002B1 (ko) 에너지 무손실 부호화방법 및 장치, 신호 부호화방법 및 장치, 에너지 무손실 복호화방법 및 장치, 및 신호 복호화방법 및 장치
US8311481B2 (en) Data format conversion for electronic devices
CN103035249B (zh) 一种基于时频平面上下文的音频算术编码方法
JP2012118462A (ja) 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170119

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180118

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190116

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20200115

Year of fee payment: 7