KR20120070578A - 인터채널과 시간적 중복감소를 이용한 오디오 신호 인코딩 - Google Patents

인터채널과 시간적 중복감소를 이용한 오디오 신호 인코딩 Download PDF

Info

Publication number
KR20120070578A
KR20120070578A KR1020127008064A KR20127008064A KR20120070578A KR 20120070578 A KR20120070578 A KR 20120070578A KR 1020127008064 A KR1020127008064 A KR 1020127008064A KR 20127008064 A KR20127008064 A KR 20127008064A KR 20120070578 A KR20120070578 A KR 20120070578A
Authority
KR
South Korea
Prior art keywords
sample block
frequency band
energy
block
scale factor
Prior art date
Application number
KR1020127008064A
Other languages
English (en)
Other versions
KR101363206B1 (ko
Inventor
난두리 브이. 키쇼르
Original Assignee
슬링 미디어 피브이티 엘티디
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 슬링 미디어 피브이티 엘티디 filed Critical 슬링 미디어 피브이티 엘티디
Publication of KR20120070578A publication Critical patent/KR20120070578A/ko
Application granted granted Critical
Publication of KR101363206B1 publication Critical patent/KR101363206B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components

Abstract

시간 영역 오디오 신호를 인코딩하는 방법이 설명된다. 장치가 시간 영역 오디오 신호를 샘플 블록들의 시퀀스를 포함하는 주파수 영역 신호로 변환시키며, 각 블록들은 다수의 각 주파수에 대한 계수를 포함한다. 각 블록의 각 계수들은 주파수 대역들로 분류된다. 각 블록의 각 주파수 대역에 대하여, 스케일팩터가 대역에 대하여 추산되며, 그리고 블록에 대한 대역의 에너지가 인접한 샘플 블록의 대역의 에너지와 비교된다, 여기서 블록들은 인터채널 및 시간적인 면(temporal sense) 둘 다 또는 어느 한쪽에 있어서 서로 인접해 있을 수도 있다. 제 1블록에 대한 대역 에너지의 인접한 블록에 대한 대역 에너지에 대한 비율이 어떤 값보다 작으면, 제 1블록에 대한 대역의 스케일팩터가 증가한다. 각 블록에 대한 대역의 계수는 스케일팩터 결과를 기초로 양자화된다. 인코딩된 오디오 신호는 양자화된 계수들 및 스케일팩터들을 기초로 생성된다.

Description

인터채널과 시간적 중복감소를 이용한 오디오 신호 인코딩{AUDIO SIGNAL ENCODING EMPLOYING INTERCHANNEL AND TEMPORAL REDUNDANCY REDUCTION}
본 발명은 인터채널과 시간적 중복감소를 이용한 오디오 신호 인코딩 방법 및 장치에 관한 것이다.
오디오 정보의 효과적인 압축은 상기 오디오 정보를 저장하기 위한 메모리 용량 요건 및 상기 정보의 전송을 위하여 필요한 통신 대역폭 모두를 감소시킨다. 이러한 압축을 가능하게 하기 위해서, 유비쿼터스 모션 픽쳐 엑스퍼트 그룹 1(the ubiquitous Motion Picture Experts Group 1; MPEG-1) 오디오 레이어3(MP3) 포맷 그리고 뉴 어드밴스드 오디오 코딩(Newer Advanced Audio Coding; AAC) 표준과 같은 다양한 오디오 인코딩 규칙들이 적어도 하나의 음향심리학 모델(psychoacoustic model; PAM)을 이용하고, 상기 음향 심리학 모델은 오디오 정보를 수신하고 처리하는 인간의 청력의 한계를 본질적으로 설명한다. 예를 들면, 주파수 영역(특정한 주파수의 오디오는 특정한 볼륨 수준 이하에 있는 근처의 주파수들의 오디오를 마스킹(mask)한 것) 및 시간 영역(특정한 주파수의 오디오 톤(tone)이 제거 이후 얼마 동안의 시간 주기에 대하여 동일한 톤을 마스킹한 것) 모두에서, 인간의 오디오 시스템은 음향 마스킹 원리(acoustic masking principle)를 보여준다. 압축을 제공하는 오디오 인코딩 규칙은 상기 인간의 오디오 시스템에 의하여 마스킹 될 수 있는 상기 오리지널 오디오 정보의 일부분들을 제거함으로써 상기 음향 마스킹 원리를 이용한다.
상기 오리지널 오디오 신호의 어느 부분을 제거할지 결정하기 위해서, 상기 오디오 인코딩 시스템은 마스킹 임계치를 생성시키기 위해서 상기 오리지널 신호를 일반적으로 처리하여, 그 임계치 아래쪽의 오디오 신호들은 오디오 충실도(Audio fidelity)의 현저한 손실 없이 제거될 수도 있다. 이와 같은 처리(processing)는 매우 계산적으로 집약적이며, 오디오 신호의 실시간 인코딩을 어렵게 한다. 추가적으로, 이와 같은 연산을 수행하는 것은 이런 과도한 처리를 위하여 구체적으로 설계되지 않은 고정 소수점 방식의 디지털 신호 프로세서(fixed-point digital signal processors)(DSPs)를 이용한 많은 가전 장치들은 전형적으로 어렵고 시간이 오래 걸린다.
시간 영역 오디오 신호를 인코딩하는 방법으로서, 전자 장치에서, 적어도 하나의 오디오 채널을 포함하는 상기 시간 영역 오디오 신호를 수신하는 단계, 상기 시간 영역 오디오 신호를 적어도 하나의 각 오디오 채널에 대하여 샘플 블록들(각 샘플 블록은 다수의 주파수들 각각에 대한 계수를 포함한다)의 시퀀스를 포함하는 주파수 영역 신호로 변환하는 단계, 각 샘플 블록의 상기 계수들을 주파수 대역으로 분류하는 단계, 각 샘플 블록의 각 주파수 대역에 대하여, 상기 주파수 대역에 대한 스케일팩터를 결정하는 단계, 각 샘플 블록의 각 주파수 대역에 대하여, 상기 주파수 대역의 에너지를 결정하는 단계, 각 샘플 블록의 각 주파수 대역에 대하여, 상기 샘플 블록에 대한 상기 주파수 대역의 상기 에너지와 인접한 샘플 블록의 상기 주파수 대역의 상기 에너지를 비교하는 단계, 각 샘플 블록의 각 주파수 대역에 대하여, 상기 샘플 블록의 상기 주파수 대역의 상기 에너지의 상기 인접한 샘플 블록의 상기 주파수 대역의 에너지에 대한 비율이 미리 결정된 값보다 작은 경우, 상기 샘플 블록에 대한 주파수 대역의 상기 스케일팩터를 증가시키는 단계, 각 샘플 블록의 가 주파수 대역에 대하여, 상기 주파수 대역에 대한 상기 스케일팩터를 기초로 상기 주파수 대역의 상기 계수들을 양자화하는 단계, 및 상기 양자화된 계수들 및 상기 스케일팩터들을 기초로 인코딩된 오디오 신호를 생성하는 단계를 포함하는 시간 영역 오디오 신호를 인코딩하는 방법.
본 발명의 많은 측면들은 후술할 도면을 참조하여 더 잘 이해될 수도 있다. 본 발명의 원리에 관한 명확한 설명에 기반한 강조가 있을 뿐, 상기 도면에서 구성요소들은 실제 규모를 나타내는 것은 아니다. 추가적으로, 도면에서 참조번호들은 여러 관점을 통하여 상기 각각의 그림들에 대응하는 부분을 지정한다. 또한, 몇몇의 실시예들이 이러한 도면들과 관련되어 설명되며, 상기 발명은 명세서에 개시된 실시예들에 의하여 제한되지 않는다. 반면에, 모든 대체물, 변형물, 그리고 균등물을 포함하고자 한다.
도 1은 본 발명의 일 실시예에 따라 시간 영역 오디오 신호를 인코딩하도록 구성된 전자 장치의 간략화 된 블록도이다.
도 2는 본 발명의 일 실시예에 따라서 시간 영역 오디오 신호를 인코딩하기 위한 도 1의 상기 전자 장치의 동작 방법에 대한 순서도이다.
도 3은 본 발명의 다른 실시예에 따른 전자 장치의 블록도이다.
도 4는 본 발명의 일 실시예에 따른 오디오 인코딩 시스템의 블록도이다.
도 5는 본 발명의 일 실시예에 따른 주파수 대역을 포함하는 주파수 영역 신호의 샘플 블록의 도표이다.
도 6은 본 발명의 일 실시예에 따른 주파수 영역 신호의 두 개의 오디오 채널들의 샘플 블록들의 전계도이다.
도 7은 상기 발명의 일 실시예에 따라 비율의 수와 이와 관련된 증가값들이 나열된 스케일팩터 증가표이다.
첨부된 도면과 후술할 설명은 해당 기술분야의 일반의 기술자가 본 발명의 최적 모드를 어떻게 만들고 이용하는지 설명하기 위하여, 본 발명의 구체적인 실시예를 설명한다. 발명의 원리를 설명하기 위한 목적으로, 일부 종래의 측면들이 간략화되거나 생략되었다. 해당 기술분야의 일반의 기술자는 본 발명의 범위에 포함되는 이러한 실시예들의 변형을 알 수 있다. 해당 기술분야의 일반의 기술자는 본 발명의 다양한 실시예를 형성하기 위하여 하기의 설명된 특징들이 다양한 방법으로 통합될 수 있다는 점 또한 알 수 있다. 그 결과, 본 발명은 하기에 설명된 구체적인 실시예 의하여 제한되지 않으며, 오직 청구범위와 그것의 균등범위에 의하여 인정되어야 한다.
도 1은 본 발명의 일 실시예에 따라서, 시간 영역 오디오 신호(110)를 인코딩된 오디오 신호(120)로 인코딩하도록 구성된 전자 장치(100)의 간략화된 블록도를 제공한다. 시간 영역 신호를 인코딩된 오디오 신호로의 변환을 포함하는 다른 인코딩 규칙들이 하기에서 논의되는 개념을 유리하게 이용할 수도 있지만, 일 실시에 있어서, 상기 인코딩은 어드밴스드 오디오 코딩(Advanced Audio Coding; AAC) 표준에 따라서 수행된다. 추가적으로, 상기 전자 장치(100)는 이와 같은 인코딩을 수행할 수 있는 임의의 장치가 될 수도 있으며, 상기 임의의 장치는 개인용 데스크톱 및 노트북, 오디오/비디오 인코딩 시스템, 콤팩트 디스크(compact disc; CD) 및 디지털 비디오 디스크(digital video disk; DVD) 플레이어, 텔레비전 셋탑박스(set-top box), 오디오 수신기, 휴대폰, 개인 정보 단말기(personal digital assistants)(PDAs), 그리고 슬링미디어 잉크(Inc)로부터 제공되는 슬링박스®(Slingbox®)의 다양한 모델들과 같은 오디오/비디오 플레이스시프팅 장치를 제한없이 포함할 수 있다.
도 2는 인코딩된 오디오 신호(120)를 산출하기 위하여 시간 영역 오디오 신호(110)를 인코딩하는 도 1의 상기 전자 장치의 동작 방법(200)에 대한 순서도를 보여준다. 상기 방법(200)에서, 상기 전자 장치(100)는 상기 시간 영역 오디오 신호(110)를 수신한다(동작 202). 그 후 상기 장치(100)는 시간 영역 오디오 신호(110)를 적어도 하나의 오디오 채널 각각에 대하여 샘플 블록들의 시퀀스를 갖는 주파수 영역 신호로 변환시킨다(동작 204). 각 샘플 블록은 각 다수의 주파수에 대하여 각 계수를 포함한다. 각 샘플 블록의 상기 계수들은 주파수 대역들로 분류되거나 또는 구성된다(동작 206). 각 샘플 블록의 각 주파수 대역에 대하여(동작 208), 상기 전자 장치(100)는 상기 대역에 대하여 스케일팩터(scale factor)를 결정하거나 추산하며(동작 210), 상기 주파수 대역의 에너지를 결정하며(동작 212), 그리고 상기 샘플 블록에 대한 상기 대역의 에너지와 인접한 샘플 블록의 대역 에너지를 비교한다(동작 214). 인접한 샘플 블록의 예들은 상기 동일한 오디오 채널에서 바로 앞서는(immediately-preceding) 블록을 포함할 수 있으며, 또는 상기 오리지널 샘플 블록과 동일한 시간 주기에서 확인되는 다른 오디오 채널의 샘플 블록일 수도 있다. 상기 샘플 블록에 대한 상기 주파수 대역 에너지의 상기 인접한 샘플 블록에 대한 상기 주파수 대역 에너지에 대한 비율이 미리 결정된 값보다 작은 경우, 상기 장치(100)는 상기 샘플 블록의 상기 주파수 대역의 상기 스케일팩터를 증가시킨다(동작 216). 각 블록의 각 주파수 대역에 대하여, 상기 장치(100)는 상기 대역과 관련된 상기 스케일팩터를 기초로 상기 주파수 대역의 상기 계수들을 양자화한다(동작 218). 상기 장치(100)는 상기 양자화된 계수들과 상기 스케일팩터들을 기초로 상기 인코딩된 오디오 신호(120)를 생성한다(동작 220).
도 2의 상기 동작이 하나의 특정한 순서(order)에서 실행되는 것으로 설명되지만, 두 개 또는 그 이상의 동작의 동시 실행을 포함하는 다른 실행 순서들이 가능할 수도 있다. 예를 들면, 도 2의 상기 동작들이 파이프라인(pipeline)의 한 타입으로서 실행될 수도 있으며, 각 동작은 상기 시간 영역 오디오 신호(110)가 상기 파이프라인에 들어갔을 때, 상기 시간 영역 오디오 신호(110)의 다양한 부분 또는 샘플 블록에서 수행될 수 있다. 다른 실시예에서, 컴퓨터판독가능저장매체(computer-readable storage medium)는 상기 방법(200)을 실행하기 위하여 도 1의 상기 전자 장치(100)의 적어도 하나의 프로세서 또는 다른 제어 회로에 대한 명령들을 인코딩할 수도 있다.
상기 방법(200)의 적어도 몇몇의 실시예의 결과에 의하면, 각 주파수 대역에 대하여 상기 대역의 계수들을 양자화하기 위해 사용되는 상기 스케일팩터가 상기 동일한 오디오 채널 내의 연이은 주파수 샘플 블록들 사이와 다른 채널의 동시 블록들 사이의 주파수 대역의 오디오 에너지의 차이를 기초로 조절된다. 이와 같은 결정은 일반적으로 AAC실행에 있어서 일반적으로 수행되는 완전한 마스킹 임계치의 계산보다 덜 과도하다. 결과적으로, 저가의 디지털 신호 프로세싱 구성요소를 이용하는 소형 장치를 포함하는, 전자 장치의 임의의 수준에 의한 실시간 오디오 인코딩이 가능할 수도 있다. 다른 이점은 하기에서 더욱 자세하게 논의되는 상기 발명의 다양한 실행으로부터 인식될 수도 있다.
도 3은 본 발명의 다른 실시예에 따른 전자 장치(300)의 블록도이다. 상기 장치(300)는 제어 회로(302)와 데이터 저장소(304)를 포함한다. 몇몇의 실시에 있어서, 상기 장치(300)는 통신 인터페이스(306) 그리고 사용자 인터페이스(308) 중 어느 하나 또는 양쪽 모두를 포함할 수도 있다. 파워 서플라이 및 디바이스 인클로져(device enclosure)를 포함하며 제한되지 않는 다른 구성요소들은 상기 전자 장치에 또한 포함될 수도 있지만, 이와 같은 구성요소들은 하기의 설명을 간략화하기 위하여 도 3에 명시적으로 표시되지 않았으며, 하기에서 논의되지도 않았다.
상기 제어 회로(302)는 시간 영역 오디오 신호(310)를 인코딩된 오디오 신호(320)로 인코딩하는 상기 전자 장치(300)의 다양한 측면을 제어하도록 구성된다. 일 실시예에서, 상기 제어 회로(302)는 후술할 부분에서 자세하게 논의되는 다양한 동작들을 수행하기 위하여 프로세서에 지시하는 명령을 실행시키기 위하여 구성된 마이크로프로세서(microprocessor), 마이크로컨트롤러(microcontroller), 또는 디지털 신호 프로세서(DSP)와 같은 적어도 하나의 프로세서를 포함한다. 다른 예에서, 상기 제어 회로(302)는 아래에 설명된 하나 이상의 동작 또는 태스크(task)를 수행하도록 구성된 하나 또는 그 이상의 하드웨어 구성요소를 포함하거나 구성요소를 처리하는 소프트웨어와 하드웨어의 일부 결합을 포함할 수도 있다.
데이터 저장소(304)는 인코딩될 일부 또는 전부의 시간영역 오디오 신호(310)와 그 결과인 인코딩된 오디오 신호(320)를 저장하기 위하여 구성된다. 상기 데이터 저장소(304)는 중간 데이터, 제어 정보, 그리고 상기 인코딩 프로세스에서 포함되는 기타의 것들을 또한 저장할 수도 있다. 상기 데이터 저장소(304)는 상기 제어 회로(302)의 프로세서에 의하여 실행되는 명령뿐만 아니라 상기 명령의 실행에 관련된 임의의 프로그램 데이터 또는 제어 정보를 또한 포함할 수도 있다. 상기 데이터 저장소(304)는 모든 휘발성 메모리 구성요소(동적 임의접근 저장장치(DRAM) 및 정적 임의접근 저장장치(SRAM), 비 휘발성메모리 장치(이동식 및 비 이동식 모두의 플래시메모리, 자기 디스크 드라이브, 및 광학 디스크 드라이브) 및 전술한 것들의 조합을 포함할 수도 있다.
상기 전자 장치(300)는 또한 상기 시간 영역 오디오 신호(310)를 수신 및/ 또는 통신링크(communication link)를 통해서 상기 인코딩된 오디오 신호(320)를 전송하기 위하여 구성된 통신 인터페이스(306)를 포함할 수도 있다. 상기 통신 인터페이스(306)의 예로서, 디지털 가입자 회선(digital subscriber line; DSL) 또는 인터넷 케이블 인터페이스와 같은 원거리 통신망(wide-area network; WAN)인터페이스가 될 수도 있으며, 와이파이(Wi-Fi) 또는 이더넷(Ethernet)과 같은 근거리 통신망(local-area network; LAN), 또는 통신링크 또는 유선연결 방식, 무선, 또는 광학방식을 통해서 통신하도록 구성된 다른 모든 통신 인터페이스가 될 수도 있다.
다른 예에서, 상기 통신 인터페이스(306)는 오디오/비디오 프로그래밍의 한 부분으로써 상기 오디오 신호(310, 320)를 텔레비전, 비디오 모니터, 또는 오디오/비디오 수신기와 같은 출력 장치(도 3에 도시되지 않음)로 보내기 위하여 구성될 수도 있다. 예를 들면, 상기 오디오/비디오 프로그래밍의 상기 비디오 부분은, 변조된 비디오 케이블 연결, 복합 또는 구성요소(composite or component) 비디오 알씨에이-스타일(Radio Corporation of America; RCA-style) 연결, 그리고 디지털 비디오 인터페이스(Digital video interface; DVI) 또는 고선명 멀티미디어 인터페이스(High-Definition Multimedia Interface; HDMI) 연결 방식으로 전송될 수도 있다. 상기 프로그래밍의 상기 오디오 부분은 모노럴(monaural) 또는 스테레오 오디오 알씨에이-스타일 연결, 토스링크(TOSLINK) 연결, 또는 고선명 멀티미디어 인터페이스(HDMI) 연결을 통하여 전송될 수도 있다. 다른 오디오/비디오 포맷 그리고 관련된 연결들이 다른 실시예에서 이용될 수도 있다.
추가적으로, 상기 전자 장치(300)는, 오디오 마이크로폰, 및 증폭기, 아날로그-디지털 컨버터(analog-to-digital converter; ADC)를 포함하는 관련 회로 및 기타 방식에 의하여 하나 또는 그 이상의 사용자로부터 상기 시간 영역 오디오 신호(310)에 의하여 나타나는 음향신호(311)를 수신하기 위하여 구성된 사용자 인터페이스(308)를 포함한다. 이와 같이, 상기 사용자 인터페이스(308)는 상기 인코딩된 오디오 신호(320)에 의하여 나타난 음향 신호(321)를 상기 사용자에게 보여주기 위하여, 증폭기 회로와 하나 이상의 오디오 스피커를 포함할 수도 있다. 상기 실시예에 따르면, 상기 사용자 인터페이스(308)는 키보드, 키패드, 터치패드, 마우스, 조이스틱, 또는 다른 사용자 입력 장치와 같은 방식으로 사용자가 상기 전자 장치(300)를 제어할 수 있게 하는 수단을 또한 포함할 수도 있다. 이와 유사하게, 상기 사용자 인터페이스(308)는 상기 전자 장치(300)로부터 사용자가 시각적인 정보를 수신할 수 있는 모니터 또는 다른 시각적 디스플레이 장치와 같은 시각적 출력 수단을 제공할 수도 있다.
도 4는 상기 시간 영역 오디오 신호(310)를 도 3의 상기 인코딩된 오디오 신호(320)로 인코딩하기 위하여, 상기 전자 장치(300)로부터 제공된 오디오 인코딩 시스템(400)의 일 예를 제공한다. 도 3의 상기 제어 회로(302)는 하드웨어 회로, 소프트웨어 또는 펌웨어 명령을 실행하는 프로세서, 또는 전술한 것들의 일부 조합의 방식으로 상기 오디오 인코딩 시스템(400)의 각 부분을 실행시킨다.
다른 오디오 인코딩 규칙이 다른 실시예에서 이용될 수도 있지만, 도 4의 상기 구체적인 시스템(400)은 특정한 AAC의 특정한 실행을 나타내며, 일반적으로, AAC는 오디오 인코딩을 위하여 모듈식(modular) 접근을 나타낸다. 도 4의 각 기능 블록 (450-472)뿐만 아니라, 도 4에서 구체적으로 설명되지 않은 것들이 각각의 하드웨어, 소프트웨어, 또는 펌웨어 모듈 또는 "툴(tool)"에서 실행될 수도 있으며, 그 결과 다양한 개발 소스(varying development source)로부터 비롯된 모듈이 단일 인코딩 시스템(400)에 집약되어 상기 소정의 오디오 인코딩을 수행할 수 있게 한다. 결과적으로, 다양한 개수 및 종류의 모듈들의 타입은 임의의 수의 인코더 "프로파일(profiles)" 형태를 가져오며, 각각에서 다뤄지는 구체적인 조건들은 특정한 인코딩 환경과 관련된다. 이와 같은 조건은 상기 장치(300)의 연산능력을 포함할 수도 있으며, 상기 시간 영역 오디오 신호(310)의 복잡성, 및 상기 인코딩된 오디오 신호(320)의 출력 비트전송률(output bit-rate)과 왜곡 수준(distortion level)과 같은 소정의 특징을 포함할 수도 있다. 상기 AAC표준은 저 복잡도(the low-complexity; LC)프로파일, 메인(the main)프로파일, 샘플-레이트 스카라블(the sample-rate scalable; SRS)프로파일, 롱텀프리딕션(long-term prediction; LTP)프로파일의 네 가지 디폴트 프로파일을 일반적으로 제공한다.
도 4의 상기 시스템 (400)은 인텐시티/커플링(intensity/coupling)모듈이 제외된 주로 상기 메인 프로파일에 해당하며, 그러나 다른 프로파일은 하기에서 논의되고 더욱 자세히 설명되는 시간적인/인터채널(temporal/interchannel) 스케일팩터 적용 기능 블록(466)을 포함하여 향상된 다른 점들을 통합할 수도 있다.
도 4는 실선화살표 방식으로 상기 오디오 데이터의 일반적인 흐름을 보여주고 있으며, 상기 가능한 제어 경로의 일부가 점선화살표로 설명된다. 도 4에 구체적으로 표시되지 않은 상기 모듈들(450-472) 중에서 제어 정보의 흐름에 관한 다른 가능성들은 다른 방식이 될 수도 있다.
도 4에서, 상기 시스템(400)은 상기 시간 영역 오디오 신호(310)를 입력으로 수신한다. 일반적으로, 상기 시간 영역 오디오 신호(310)는 시변(time-varying) 오디오 신호의 디지털 샘플 블록의 연속된 형태의 하나 또는 그 이상의 오디오 정보 채널을 포함한다. 일부 실시예에서, 상기 시간 영역 오디오 신호(310)는 본래 아날로그 오디오 신호의 형식이며, 상기 사용자 인터페이스(308)의 ADC와 같은 방식에 의해서 이후에 규정된 속도로 디지털화된다.
도 4의 설명에 의하면, 상기 오디오 인코딩 시스템(400)의 상기 모듈들은, 상기 시간 영역 오디오 신호(310)를 입력으로써 수신하는 프로세싱 파이프라인의 부분으로써 구성된 이득 제어 블록(452), 필터 뱅크(454), 일시적 잡음 형상화(temporal noise shaping; TNS)블록(456), 후방 예측 툴(backward prediction tool, 458), 그리고 미드/사이드 스테레오 블록 (mid/side stereo block, 460)을 포함할 수도 있다. 이 기능 블록들(452-460)은 AAC의 다른 실행에서 종종 볼 수 있는 상기 동일한 기능적인 블록들에 해당 될 수도 있다. 상기 시간 영역 오디오 신호(310)는 또한 지각 모델(450)로 전달되며, 지각모델은 제어 정보를 상기 임의의 기능블록(452-460)에 제공할 수도 있다. 일반적인 AAC 시스템에서, 이 제어 정보는 음향심리학 모델(PAM) 하에서 상기 시간 영역 오디오 신호 (310)의 일부분은 불필요하다고 나타내며, 상기 시간 영역 오디오 신호(310) 내에 있는 상기 오디오 정보의 이러한 부분들은 상기 인코딩된 오디오 신호(320) 내에 구현시 압축을 용이하게 하기 위하여 제거된다.
이를 위해, 일반적인 AAC 시스템에서, 상기 지각 모델(450)은 상기 시간 영역 오디오 신호(310)의 고속 푸리에 변환(FFT)결과로부터 마스킹 임계치를 계산하며, 상기 오디오 신호(310)의 어느 부분이 제거될 것인지 나타낸다. 그러나 도 4의 예에서, 상기 지각 모델(450)은 필터 뱅크(454)의 출력을 수신하며, 상기 필터 뱅크(454)의 출력은 주파수 영역 신호(474)를 제공한다. 일 특정한 예에서, 상기 필터 뱅크(454)는 이것은 AAC 시스템에서 일반적으로 제공되는 변형이상코사인변환(modified discrete cosine transform; MDCT)기능 블록이다.
상기 MDCT 기능(454)에 의하여 생산된 상기 주파수 영역 신호(474)는 도 5에서 그래프로 표현된 상기 블록과 같은 샘플 블록들의 연속을 포함하며, 각 블록은 인코딩되기 위한 오디오 정보의 각 채널에 대한 다수의 주파수들(502)을 포함한다. 추가적으로 각 주파수(502)는 상기 주파수 영역 신호(474) 내의 주파수(502)의 크기 또는 인텐시티(intensity)를 가리키는 계수에 의하여 표현된다. 도 5에서, 각 주파수(502)는 수직(vertical)벡터로 설명되며, 주파수들의 높이는 상기 주파수(502)와 관련된 상기 계수의 값을 표현한다.
추가적으로, 상기 주파수들(502)은 논리적으로 인접한 주파수 그룹 또는 “대역” (504A-(504E)으로 분류되며, 이는 일반적인 AAC규칙하에서 수행된다. 도 4는 각 주파수 대역(504)(즉, 각 주파수 대역(504A-(504E)가 상기 주파수들의 동일한 범위를 이용하며, 상기 필터 뱅크(454)로부터 생산된 이산주파수(502)의 상기 동일한 숫자를 포함한다는 것을 가리키고 있는 반면, 주파수들(502)의 다양한 숫자들과 주파수(502)범위의 크기는 상기 대역(504) 사이에서 이용될 수도 있으며, 이것은 종종 AAC 시스템에서 생성할 수 있는 케이스(case)이다.
상기 주파수 대역들(504)은 주파수들(502)의 일 대역(504)에서 각 주파수 (502)의 상기 계수가 도 4에서 상기 스케일팩터 생성기(464)에 의해 생성된 스케일팩터의 방식으로 스케일링(scaling)되거나 분배될 수 있도록 형성된다. 이와 같은 스케일링은 상기 인코딩된 오디오 신호(302) 내의 상기 주파수(502)의 계수를 나타내는 상기 데이터의 총량을 감소시키며, 즉 상기 데이터를 압축하며, 상기 인코딩된 오디오 신호(302)에 대하여 낮은 전송 비트전송률의 결과를 갖는다. 이 스케일링은 상기 오디오정보의 양자화 결과도 갖게 되며, 상기 주파수(502) 계수들은 미리 결정된 이산 값을 갖게 되며, 따라서 상기 인코딩된 오디오 신호(302)에서 일부 왜곡이 디코딩 후에 나타날 수도 있다. 일반적으로 말하면, 높은 스케일링팩터는 거시적(coarser)양자화를 야기시키며, 높은 오디오 왜곡수준과 낮은 인코딩된 오디오 신호(302)의 비트전송률의 결과를 갖게 한다.
이전의 AAC시스템에서, 상기 인코딩된 오디오 신호 (320)에 관한 미리 결정된 왜곡 수준과 비트 전송률을 충족시키기 위해서, 상기 지각(perceptual) 모델(405)은 상기 스케일팩터 생성기(464)가 상기 인코딩된 오디오 신호(320)의 각각의 샘플 블록에 대하여 허용 가능한 스케일팩터를 결정하는 것을 허용하기 위해서 상기 마스킹 임계치를 계산한다. 이와 같은 마스킹 임계치의 생성은 상기 스케일팩터 생성기(464)가 상기 주파수 영역 신호(474)의 각 샘플 블록의 각 주파수 대역에 대하여 초기 스케일팩터를 결정하는 것을 허용하기 위해 여기서 이용될 수도 있다. 그러나, 다른 실시에 있어서, 상기 지각 모델(450)은 대신에 각각의 주파수대역(504)의 상기 주파수들(502)과 관련된 상기 에너지를 결정하고, 그리고 상기 지각모델은 상기 에너지를 기초로 각 대역(504)에 대한 소정의 스케일팩터를 계산하기 위해서 상기 스케일팩터 생성기(464)에 의해서 이용될 수도 있다. 일 예에서, 주파수 대역(504) 내의 상기 주파수들(502)의 상기 에너지는 상기 “절대합(absolute sum)”, 또는 상기 대역(504) 내의 상기 주파수들 (502)의 상기 MDCT 계수의 상기 절대값의 합에 의해서 계산되며, 종종 절대 스팩트럴 계수 합(the sum of absolute spectral coefficients; SASC)으로 언급된다.
일단 상기 대역(504)에 대한 상기 에너지가 정해지면, 각 샘플 블록에 대한 상기 대역(504)과 관련된 상기 스케일팩터는, 상기 대역(504)의 상기 에너지가 밑을 10으로 하는 로그와 같은 로그를 이용해서 계산될 수도 있으며, 상수 값을 더하고, 그 후 미리 결정된 곱셈기를 상기 항(term)에 곱함으로써 상기 밴드(504)에 대한 적어도 하나의 초기 스케일팩터를 산출한다. 앞서 알려진 음향심리학 모델에 따른 오디오인코딩 실험은 상수는 약 1.75 및 곱셈기는 10인 것을 통해 광범위한 마스킹 임계치 계산의 결과로써 생성된(값)과 비교할 수 있는 스케일팩터를 만든다는 것을 보여준다. 따라서, 이 특정한 예에서, 아래의 스케일팩터에 대한 식이 만들어진다.
Figure pct00001
상기 상수에 있어서 1.75와 다른 값이 다른 실시예(configuration)에서 이용될 수도 있다.
상기 시간 영역 신호(310)를 인코딩하기 위해서, 상기 MDCT 필터 뱅크(454)가 상기 주파수 영역 신호(474)에 대한 주파수 샘플의 블록의 연속을 생산하며, 이와 함께 상기 시간 영역 오디오 신호(310)의 특정한 시간 주기와 관련된 각각의 블록을 생산한다. 따라서, 상술한 상기 스케일팩터 계산은 상기 주파수 영역 신호(474) 내에서 생산된 주파수 샘플의 각 채널의 모든 블록에 대하여 수행될 수도 있으며, 따라서 각 주파수 대역(504)의 각 블록에 대하여 다른 스케일팩터를 잠재적으로 제공할 수도 있다. 포함된 데이터의 상기 양을 고려해볼 때, 각 스케일팩터에 대한 상술한 계산의 이용은 상기 스케일팩터들의 결정을 위하여 요구되는 프로세싱의 총량을, 주파수 샘플들의 동일한 블록에 대한 마스킹 임계치를 추산하는 것과 비교했을 때 상당히 감소시킨다. 상기 초기 스케일팩터가 상기 스케일팩터 생성기(464) 내에서 추산될 수도 있는 다른 방식이 마스킹 임계치의 상기 계산을 수반하거나 또는 수반하지 않고 다른 실시에서 이용될 수도 있다.
두 개의 분리된 오디오 채널 A와B(602A 및 602B)를 포함하는 주파수 영역 신호(474)의 일 예가 도 6에 도시화된다. 상기 각 오디오 채널(602)의 오디오가 주파수 샘플들의 블록(601)의 시퀀스로서 표현되어있으며, 각 블록(601)은 상기 오리지널 시간 영역 오디오 신호(310)의 특정한 시간 주기와 관련되어있다. 일부 실시예에서, 상기 동일한 오디오 채널의 두 개의 연이은 샘플 블록들과 관련된 상기 시간 주기는 겹쳐질(overlap)수도 있다. 예를 들면, 상기 필터 뱅크(454)에 상기 MDCT를 이용함으로써, 각 블록과 관련된 상기 시간 주기는 상기 다음 블록의 시간 주기와 50%정도 겹친다.
여기서 논의된 일 실시에서, 상기 스케일팩터 생성기(464)에 의해 제공된 각 샘플 블록(601)의 각 주파수 대역(504)에서 이전에 생성되었거나 추산된 스케일팩터가 상기 샘플 블록(601)의 “인접한”블록 내에 시간적인 및/또는 인터채널 중복 존재 때문에 추가적으로 증가할 수도 있다. 도 6에서 표시된 바와 같이, 상기 동일한 채널 (602)의 두 개의 블록들(606)은, 시퀀스에서 하나가 다른 대상을 바로 따라가고 있다면 시간적인 측면에서 인접해 있을 수도 있다. 그것들이 상기 동일한 시간 주기와 관련되어있는 경우, 도 6에서 도시되는 인접한 인터채널 블록들(604)의 상기 예시가 보여주는 바와 같이 인터채널 블록들은 인접해 있을 수 있다.
어느 경우에나, 상기 샘플 블록(601)의 인접한 대상의 한 쌍의 한 블록내의 일부 오디오 정보는 폐기될 수도 있으며, 이는 상기 인접한 블록의 상기 에너지가 상기 첫 번째 블록의 에너지가 충분히 높은 경우 그러하다. 일 예로써 도 6의 인접한 시간 블록(606)을 사용하는 것, 상기 쌍(pair)(606)의 k-1번째 블록의 주파수 대역(504)의 상기 에너지가 일부 합계 또는 비율로 보아 상기 k번째 블록의 동일한 대역(504)의 에너지보다 큰 경우, 상기 주파수 대역(504)에 대하여 상기 스케일팩터 생성기(464)로부터 상기 이전에 결정된 스케일팩터가 증가할 수도 있으며, 따라서, 상기 블록(601)의 상기 주파수 대역(504)에 대한 양자화 수준(level)의 수가 줄어들고, 그리고 따라서 상기 인코딩된 오디오 신호(320) 내의 상기 블록(601)을 표현하기 위해 필요한 상기 데이터의 총합이 감소한다. 이런 식의 상기 스케일팩터의 증가는 상기 인코딩된 오디오 신호(320)에서 주목할만한 왜곡이 아주 적게 더해지거나 존재하지 않는 결과를 갖게 한다. 그리고 상기 관련된 오디오가 상기 앞서는 블록(601)의 상기 주파수 대역(504)과 관련된 상기 높은 에너지에 의해서 어느 정도까지 마스킹된다.
이와 유사하게, 상기 두 개의 인접한 인터채널 블록(604) 중 한 블록의 주파수 대역(504)의 에너지가 상기 다른 블록의 대역(604)에 해당하는 에너지보다 충분히 크다면, 상기 다른 블록의 상기 대역(504)에 대한 상기 스케일팩터는 일부 비율 또는 양(amount)이 오디오 충실도의 큰 손실 없이 증가 될 수도 있다. 상기 시간 그리고 인터채널 케이스 모두에서, 상기 주파수 영역 신호(474)의 각 채널(602)의 각 샘플 블록 (601)의 각 주파수 대역(504)이 스케일팩터의 증가가 가능한지 여부를 결정하기 위해 이러한 방식으로 확인될 수도 있다.
도 4의 상기 제어 회로(302)는 상기 시스템(400) 내의 상기 스케일팩터 조절 기능 블록(466)에 위와 같은 기능을 제공한다. 일 실시에 있어서, 각 샘플 블록(601)의 각 주파수 대역(504)의 상기 에너지가 상기 주파수대역(504)의 모든 주파수 계수의 상기 절대값을 더하는 방식으로 계산될 수도 있으며, 또는 상술된 것으로써 상기 대역 (504)에 대하여 상기 절대 스팩트럴 계수 합(SASC)을 계산할 수도 있다. 에너지의 다른 처리는 다른 예에서 이용될 수도 있다.
일 구성에 있어서, 상기 두 개의 인접한 샘플 블록들(601)의 상기 에너지값들은 비율에 의해서 비교된다. 예를 들면, 상기 시간적으로 인접한 블록(606) 내에서 시간적 중복을 다루기 위해서, 상기 장치(300)의 상기 제어 회로(302)는 상기 시간적으로 인접한 블록(606)(예를 들면, 오디오 채널(602)에서 상기 k번째 블록)의 상기 후자의 블록(601)의 대역(504)의 상기 에너지와 상기 바로-앞서는 블록(601)(예를 들면, 상기 오디오 채널(602)에서 상기 k-1번째 블록)의 상기 대역 (504)의 상기 에너지에 대한 비율을 연산할 수도 있다. 그 후 이 비율은 0.5 또는 50%와 같이 미리 결정된 값 또는 비율과 비교될 수도 있다. 상기 비율이 상기 미리 결정된 값보다 작은 경우, 상기 후자의 블록(601)의 상기 대역(504)과 관련된 상기 스케일팩터는 증가할 수도 있다. 상기 증가는 점진적일 수도 있으며 (하나씩과 같이), 일부 미리 결정된 양에 의한(하나, 둘, 또는 셋 과같이), 비율에 의한 (10%와 같이), 또는 몇몇 다른 양에 의한 증가일 수도 있다.
인터채널 중복에 대하여, 상기 장치(300)의 상기 제어 회로(302)는 상기 인접한 인터채널 블록(604)(오디오채널A (602A)의 상기 k번째 블록과 같은)중 하나의 대역(504)의 에너지의 상기 인접한 인터채널 블록들(604) (즉 오디오채널 B (602B)의 상기 k번째 블록)의 상기 다른 블록의 동일한 대역(504)의 에너지에 대한 비율을 계산한다. 시간적 중복비교와 마찬가지로, 상기 비율은 그리고 몇몇의 미리 결정된 값 또는 비율과 비교될 수도 있다. 만약에 상기 비율이 상기 미리 결정된 값보다 작다면, 상기 제1 블록 (601)의 상기 대역 (504)에 대한 상기 스케일팩터는 값 또는 비율과 같은 어떤 양에 의해서 증가 될 수도 있다. 유사하게, 상기 비율의 상호관계는, 상기 제2블록(601)(즉, 오디오채널 B(602B)의 상기 k번째 블록)의 상기 동일한 대역(504)의 상기 에너지를 상기 제1블록 (601)(즉, 오디오채널A(602A)의 상기 k번째 블록)의 상기 대역(504)의 에너지 상에 위치시키는 것(placing)이 상기 동일한 미리 결정된 값 또는 비율과 비교될 수도 있다. 이 비율이 상기 값 또는 상기 비율보다 작다면, 상기 제2블록(601)의 상기 대역(504)에 대한 상기 스케일팩터는 상술한 방식과 유사하게 증가할 수도 있다. 이 프로세스는 상기 오디오채널(602)의 각각에 대하여 각 샘플 블록(601)의 각 대역(504)에 대하여 수행될 수도 있다.
5.1 그리고 7.1 스테레오 시스템에서와 같은 몇몇 환경에서는 2개 이상의 오디오채널(602)이 제공된다. 인터채널 중복이 이런 시스템에서 다루어질 수도 있으며 각 샘플 블록 (502)의 각 대역(504)은 하나 이상의 다른 오디오 채널(602)의 상대(counterpart)와 비교될 수도 있다. 다른 시스템들(400)에서, 특정한 오디오 채널 (602)은 상기 오디오 규칙 하에서 그들의 역할을 기초로 하여 함께 쌍을 이룰 수도 있다. 예를 들면, 한 개의 프론트 센터(front center)채널, 두 개의 프론트사이드(front side)채널, 두 개의 후면(rear side)채널, 그리고 서브우퍼 채널을 포함하는 5.1 스테레오 오디오에서, 상기 두 개의 프론트 사이드 채널의 동시(contemporaneous)에 생성하는 블록들(601)이 서로 비교 될 수도 있으며, 상기 두 개의 후면채널의 상기 블록(601)들도 마찬가지이다. 다른 예에서, 상기 프론트 채널(좌, 우, 그리고 센터채널)의 각각의 블록들(601)이 임의의 인터채널 중복을 최대한 잘 활용하기 위해서 서로 비교될 수도 있다.
위에서 논의된 각각의 예에서, 주파수 대역(604)과 관련된 에너지들의 비율이 미리 결정된 단일의 값 또는 비율과 비교된다. 다른 실시에 있어서, 상기 제어 회로 (302)는 하나 이상의 미리 결정된 임계치에 대하여 각각의 비율을 계산할 수도 있다. 상기 비교값 중에서 어디에 상기 비율이 놓여 있는지에 따라서, 상기 관련된 스케일팩터가 다양한 비율 또는 값에 따라 조절될 수도 있다. 이를 위해, 도 7은 (비교되기 위해 상기 계산된 비율과 비교하여 몇몇의 다른 비율 비교값(702)을 포함하는 스케일팩터 증가표(700)의 가능한 일 예를 제공한다. 상기 표(700)에서, 비율 R1은 비율 R2보다 크며, R2는 R3보다 크며, 그리고 등등, 비율 RN에까지 연속된다. 표(700)의 각 비율은 증가 값과 관련되며, F1, F2, F3, ...FN, 으로 나열되고, F1은 F2보다 크며, F2는 F3보다 크고, 그리고 등등. 동작에서, 계산된 비율이 R1보다 큰 경우, 상기 관련된 스케일팩터는 조절되지 않는다. 만약 상기 비율이 R1보다 적고, R2보다 크거나 같다면, 상기 스케일팩터는 상기 증가값 F1에 의해서 증가한다. 이와 유사하게, 상기 계산된 비율이 R2보다 적지만, 적어도 R3만큼 큰 경우, 상기 증가 값 F2가 적용된다. 이런 방식으로 계속해 나가면, RN보다 작은 비율들은, 증가값 FN에 의해서 상기 스케일팩터가 조절 또는 증가를 야기시킨다. 다수의 미리 결정된 비율값(702)과 대응하는 스케일팩터 증가값(704)을 이용하는 다른 방법들이 다른 실시예에서 이용될 수도 있다.
상기 비율 비교값(702)과 같은 상기 미리 결정된 비교 값과, 상기 표(700)의 상기 스케일팩터 증가값(704)과 같은 상기 스케일팩터 조절은 양쪽 모두 시스템 구체적인 팩터의 다양성에 의존한다. 따라서, 특정한 적용(application)에 대하여 허용 가능한 왜곡 수준의 무리한 절충 없이 상기 인코딩된 오디오 신호(320)의 비트전송률 감소에 대한 가장 유리한 결과를 위하여, 상기 다양한 비교 값들과 조절 팩터들이 특정 시스템(400)에 대하여 실험적으로 가장 유리하게 결정된다.
상기 스케일팩터 조절 기능 블록(466)이 도 4의 상기 기능들을 제공하지만, 다른 실시에서 상기 시스템(400)의 다른 부분에서 상기 기능들을 통합할 수도 있다. 예를 들면, 상기 지각 모델(450) 또는 상기 스케일팩터 생성기(464) 중 어느 하나는 상기 비율 계산, 값 비교, 그리고 앞서 논의된 스케일팩터 조절을 수행하기 위하여 상기 필터대역(454)으로부터 상기 MDCT정보를, 상기 스케일팩터 생성기(464)로부터 상기 스케일팩터의 초기 추산치를 수신할 수도 있다.
상기 파이프라인에서 상기 스케일팩터 조절 기능(466) 다음의 양자화기(468)는, 각 주파수 대역(504)에 대하여 상기 스케일팩터 생성기(466)로부터 생성되고(그리고 하기에 설명할 바와 같이 비트율/왜곡 제어 블록(462)에 의하여 다시 조절되는 것이 가능하다.), 상기 조절된 스케일팩터를 이용하여, 상기 밴드(504) 내의 상기 다양한 주파수들(502)의 상기 계수들을 분할한다. 상기 계수를 분할함으로써, 상기 계수는 크기가 감소되거나 압축되며, 따라서 상기 인코딩된 오디오 신호(320)의 전반적인 비트전송률은 낮아진다. 이와 같은 분할은 상기 계수를 이산 값의 몇몇 정의된 숫자 중 하나로 양자화 되도록 한다.
양자화 후에, 무소음 코딩 블록(470)은 무소음 코딩 규칙에 따라서 양자화된 계수의 결과를 코딩한다. 일 실시예에서, 상기 코딩 규칙은 AAC에서 이용되는 무손실 호프만(Huffman) 코딩 규칙이 될 수도 있다.
도 4에 설명된 바와 같이, 상기 비트율/왜곡 제어 블록(462)은 상기 인코딩된 오디오 신호(320)에 대하여 미리 결정된 비트전송률과 왜곡 레벨 요구를 만족시키기 위하여 상기 스케일팩터 생성기(466)에서 생성되고 상기 스케일팩터 조절 모듈(466)에서 조절된 하나 또는 그 이상의 상기 스케일팩터를 재조절한다. 예를 들면, 상기 비트율/왜곡 제어 블록(464)은 상기 계산된 스케일팩터는 상기 인코딩된 오디오 신호 (320)에 대하여 얻어질 상기 평균 비트 전송률과 비교하여 더 높은 출력 비트 전송률을 갖게 될 수도 있고 따라서 상기 스케일팩터를 증가시킬 수도 있는 결정을 할 수도 있다.
상기 스케일팩터들과 계수들이 상기 코딩 블록(470)에서 인코딩 된 후에, 상기 결과 데이터는 비트스트림 멀티플렉서(bitstream multiplexer, 472)로 전달되며, 상기 비트스트림 멀티플렉서(472)는 상기 인코딩된 오디오 신호(320)를 출력하고, 상기 오디오 신호(320)는 상기 계수와 스케일팩터를 포함하고 있다. 이 데이터는 다른 제어 정보 및 문자 데이터(타이틀 및 상기 인코딩된 오디오 신호(320)과 관련된 정보 관련된 데이터 포함)메타데이터(metadata)와 같은 상기 오디오 신호(320)을 수신하는 디코더(decoder)가 상기 신호(320)를 정확하게 디코딩할 수 있도록 이용되는 상기 특정 인코딩 규칙에 관한 정보들과 추가적으로 혼합될 수도 있다.
여기에 설명된 적어도 몇몇 실시예들은 오디오 인코딩 방법을 제공하며, 오디오 신호의 샘플 블록의 각 주파수 대역 내의 오디오 주파수들에 의하여 나타나는 상기 에너지는 인접한 블록의 에너지와 비교될 수도 있으며, 상기 블록이 오디오 정보를 포함하는지 여부를 결정하며, 상기 정보는 오디오 충실도의 큰 손실 없이 거시적으로(coarsely)양자화 될 수도 있다. 인접한 샘플 블록들은 단일 오디오 채널 또는 다른 오디오채널에서 동시에 일어나는 블록들의 연속적인 블록들 일 수도 있다. 상이한 블록들 내에 특정한 주파수 대역의 상기 주파수들의 상기 에너지를 비교함으로써, 상기 요구되는 연산 용량은 마스킹 임계치가 계산되는 일반적인 AAC시스템과 비교해 볼 때 최소치가 된다. 따라서, 상기 방법 그리고 여기서 인용된 장치들의 이용은 저렴한 프로세싱 회로가 부착된 더 많은 다양한 환경에서 실시간 오디오 인코딩이 가능하게 할 수도 있다.
본 발명의 일부 실시예들이 본 명세서에서 논의되었으며, 본 발명의 범위에 포함되는 다른 실시예들도 가능하다. 예를 들면, 본 명세서에 개시된 적어도 하나의 실시예가 플레이스시프팅 장치의 관점에서 설명되는 반면에, 다목적 컴퓨팅 시스템(general purpose computing systems), 텔레비전 수신기 또는 셋탑박스(set-top box)(위성, 케이블, 그리고 지상파 텔레비전 신호 전송과 관련된 기타의 것들을 포함)와 같은 다른 디지털 프로세싱 장치들은 위에서 설명된 개념의 적용으로부터 이익을 볼 수도 있다. 추가적으로, 본 명세서에서 개시된 일 실시예의 측면은 본 발명의 추가적인 실시예를 생성하기 위하여 대체할 수 있는 실시예들과 결합될 수도 있다. 따라서, 본 발명은 구체적인 실시예의 관점에서 설명되었지만, 그와 같은 설명은 발명을 설명하기 위함이며 제한하는 것은 아니다. 따라서, 본 발명의 적절한 범위는 오직 특허청구범위와 그 균등물에 의하여 정해져야 한다.

Claims (20)

  1. 시간 영역 오디오 신호를 인코딩하는 방법으로서,
    전자 장치에서, 적어도 하나의 오디오 채널을 포함하는 상기 시간 영역 오디오 신호를 수신하는 단계;
    상기 시간 영역 오디오 신호를 적어도 하나의 각 오디오 채널에 대하여 샘플 블록들(각 샘플 블록은 다수의 주파수들 각각에 대한 계수를 포함한다)의 시퀀스를 포함하는 주파수 영역 신호로 변환하는 단계;
    각 샘플 블록의 상기 계수들을 주파수 대역으로 분류하는 단계;
    각 샘플 블록의 각 주파수 대역에 대하여, 상기 주파수 대역에 대한 스케일팩터를 결정하는 단계;
    각 샘플 블록의 각 주파수 대역에 대하여, 상기 주파수 대역의 에너지를 결정하는 단계;
    각 샘플 블록의 각 주파수 대역에 대하여, 상기 샘플 블록에 대한 상기 주파수 대역의 상기 에너지와 인접한 샘플 블록의 상기 주파수 대역의 상기 에너지를 비교하는 단계;
    각 샘플 블록의 각 주파수 대역에 대하여, 상기 샘플 블록의 상기 주파수 대역의 상기 에너지의 상기 인접한 샘플 블록의 상기 주파수 대역의 에너지에 대한 비율이 미리 결정된 값보다 작은 경우, 상기 샘플 블록에 대한 주파수 대역의 상기 스케일팩터를 증가시키는 단계;
    각 샘플 블록의 가 주파수 대역에 대하여, 상기 주파수 대역에 대한 상기 스케일팩터를 기초로 상기 주파수 대역의 상기 계수들을 양자화하는 단계; 및
    상기 양자화된 계수들 및 상기 스케일팩터들을 기초로 인코딩된 오디오 신호를 생성하는 단계를 포함하는 시간 영역 오디오 신호를 인코딩하는 방법.
  2. 제 1항에 있어서,
    상기 인코딩된 신호를 생성하는 단계는,
    상기 양자화된 계수들을 인코딩하는 단계를 포함하고,
    상기 인코딩된 오디오 신호는 인코딩된 계수들과 상기 스케일팩터들에 기초하는 것을 특징으로 하는 시간 영역 오디오 신호를 인코딩하는 방법.
  3. 제 1항에 있어서,
    상기 시간 영역 오디오 신호를 상기 주파수 영역 신호로 변환하는 단계는,
    상기 시간 영역 오디오 신호에서 변형이산코사인변환(MDCT) 기능을 수행하는 단계를 포함하는 것을 특징으로 하는 시간 영역 오디오 신호를 인코딩하는 방법.
  4. 제 1항에 있어서,
    상기 주파수 대역의 상기 에너지를 결정하는 단계는,
    상기 샘플 블록의 상기 주파수 대역의 상기 각 계수들의 절대 합을 계산하는 단계를 포함하는 것을 특징으로 하는 시간 영역 오디오 신호를 인코딩하는 방법.
  5. 제 1항에 있어서,
    제 1샘플 블록의 상기 인접한 샘플 블록은 상기 제 1샘플 블록과 동일한 오디오 채널에서 상기 제 1샘플 블록을 시간적으로 바로 앞서는 상기 샘플 블록을 포함하는 것을 특징으로 하는 시간 영역 오디오 신호를 인코딩하는 방법.
  6. 제 5항에 있어서,
    상기 인접한 샘플 블록에 의하여 나타나는 시간 주기는 상기 제 1샘플 블록에 의하여 나타나는 시간 주기에 겹치는것(overlap)을 특징으로 하는 시간 영역 오디오 신호를 인코딩하는 방법.
  7. 제 1항에 있어서,
    제 1샘플 블록의 상기 인접한 샘플 블록은 상기 제 1샘플 블록과 관련된 동일한 시간 주기로 확인되는 다른 오디오 채널의 샘플 블록을 포함하는 것을 특징으로 하는 시간 영역 오디오 신호를 인코딩하는 방법.
  8. 제 7항에 있어서,
    각 샘플 블록의 각 주파수 대역에 대하여, 상기 샘플 블록의 상기 주파수 대역의 상기 에너지와 제 2인접한 샘플 블록의 상기 주파수 대역의 상기 에너지를 비교하는 단계; 및
    각 샘플 블록의 각 주파수 대역에 대하여, 상기 샘플 블록의 상기 주파수 대역의 상기 에너지의 상기 제 2인접한 샘플 블록의 상기 주파수 대역의 상기 에너지에 대한 비율이 상기 미리 결정된 값보다 작은 경우, 상기 샘플 블록에 대한 상기 주파수 대역의 상기 스케일팩터를 증가시키는 단계를 포함하고,
    제 1샘플 블록의 상기 제 2인접한 샘플 블록은 상기 제 1샘플 블록과 관련된 동일한 시간 주기로 확인되는 제 2다른 오디오 채널의 샘플 블록을 포함하는 것을 특징으로 하는 시간 영역 오디오 신호를 인코딩하는 방법.
  9. 제 1항에 있어서,
    각 샘플 블록의 각 주파수 대역에 대하여, 상기 주파수 샘플 블록의 상기 주파수 대역의 상기 에너지의 상기 인접한 샘플 블록의 상기 주파수의 상기 에너지에 대한 비율이 미리 결정된 제 2값보다 작은 경우, 상기 샘플 블록에 대한 상기 주파수 대역의 상기 스케일팩터를 증가시키는 단계를 더 포함하고,
    상기 미리 결정된 제 2값은 상기 미리 결정된 제 1값보다 작고, 상기 미리 결정된 제 2값과 관련된 상기 스케일팩터의 증가는 상기 미리 결정된 제 1값과 관련된 상기 스케일팩터의 증가보다 큰 것을 특징으로 하는 시간 영역 오디오 신호를 인코딩하는 방법.
  10. 양자화된 출력신호를 생산하기 위하여 주파수 영역 오디오 신호의 주파수 대역에 대한 스케일팩터를 조절하는 방법에 있어서,
    상기 주파수 영역 신호는 적어도 하나의 각 오디오 채널에 대한 샘플 블록들의 시퀀스를 포함하고, 각 샘플 블록은 상기 주파수 대역 내에서 다수의 주파수들 각각에 대한 계수를 포함하며,
    각 샘플 블록에 대하여, 상기 주파수 대역의 에너지를 결정하는 단계;
    각 샘플 블록에 대하여, 상기 샘플 블록의 상기 주파수 대역의 상기 에너지와 인접한 샘플 블록의 상기 주파수 대역의 상기 에너지를 비교하는 단계; 및
    각 샘플 블록에 대하여, 상기 샘플 블록의 상기 주파수 대역의 상기 에너지의 상기 인접한 샘플 블록의 상기 주파수 대역의 상기 에너지에 대한 비율이 미리 결정된 값보다 작은 경우, 상기 샘플 블록에 대한 상기 주파수 대역의 상기 스케일팩터를 증가시키는 단계를 포함하고,
    상기 주파수 계수들의 양자화는 상기 스케일팩터를 기초로 하는 것을 특징으로 하는 주파수 영역 오디오 신호의 주파수 대역에 대한 스케일팩터를 조절하는 방법.
  11. 제 10항에 있어서,
    상기 계수들은 변형이산코사인변환(MDCT)의 계수들을 포함하는 것을 특징으로 하는 주파수 영역 오디오 신호의 주파수 대역에 대한 스케일팩터를 조절하는 방법.
  12. 제 10항에 있어서,
    상기 주파수 대역의 상기 에너지를 결정하는 단계는,
    상기 샘플 블록의 상기 주파수 대역의 상기 계수들의 절대합을 계산하는 단계를 포함하는 것을 특징으로 하는 주파수 영역 오디오 신호의 주파수 대역에 대한 스케일팩터를 조절하는 방법.
  13. 제 10항에 있어서,
    제 1샘플 블록의 상기 인접한 샘플 블록은, 상기 제 1샘플 블록과 동일한 오디오 채널에서 바로 앞서는 상기 샘플 블록을 포함하는 것을 특징으로 하는 주파수 영역 오디오 신호의 주파수 대역에 대한 스케일팩터를 조절하는 방법.
  14. 제 10항에 있어서,
    제 1샘플 블록의 상기 인접한 샘플 블록은, 상기 제 1샘플 블록과 동일한 시간 주기에서 확인되는 다른 오디오 채널의 샘플 블록을 포함하는 것을 특징으로 하는 주파수 영역 오디오 신호의 주파수 대역에 대한 스케일팩터를 조절하는 방법.
  15. 전자 장치로서,
    시간 영역 오디오 신호를 저장하기 위하여 구성된 데이터 저장소; 및
    제어회로를 포함하고, 상기 제어회로는,
    상기 데이터 저장소로부터 적어도 하나의 오디오 채널을 포함하는 시간 영역 오디오 신호를 검색(retrieve)하고,
    상기 시간 영역 오디오 신호를 적어도 하나의 각 오디오 채널에 대하여 샘플 블록들의 시퀀스를 포함하는 주파수 영역 신호로 변환하며, 각 샘플 블록은 다수의 주파수들 각각에 대한 계수를 포함하고,
    각 샘플 블록의 상기 계수를 주파수 대역으로 체계화(organize)하고,
    각 샘플 블록의 각 주파수 대역에 대하여, 상기 주파수 대역에 대한 스케일팩터를 추산하고,
    각 샘플 블록의 각 주파수 대역에 대하여, 상기 주파수 대역의 에너지를 결정하고,
    각 샘플 블록의 각 주파수 대역에 대하여, 상기 샘플 블록의 상기 주파수 대역의 상기 에너지와 인접한 샘플 블록의 상기 주파수 대역의 상기 에너지를 비교하고,
    각 샘플 블록의 각 주파수 대역에 대하여, 상기 샘플 블록의 상기 주파수 대역의 상기 에너지의 상기 인접한 샘플 블록의 상기 주파수 대역의 상기 에너지에 대한 비율이 미리 결정된 값보다 작은 경우, 상기 샘플 블록에 대한 상기 주파수 대역의 상기 스케일팩터를 증가시키고,
    각 샘플 블록의 각 주파수 대역에 대하여, 상기 주파수 대역에 대한 상기 스케일팩터를 기초로 상기 주파수 대역의 상기 계수들을 양자화하고,
    상기 양자화된 계수들과 상기 스케일팩터들을 기초로 인코딩된 오디오 신호의 생성 하도록 구성된 전자 장치.
  16. 제 15항에 있어서,
    상기 제어 회로는,
    상기 주파수 대역의 상기 에너지를 결정하기 위하여, 상기 샘플 블록의 상기 주파수 대역의 상기 각 계수들의 절대값을 더하는 것을 특징으로 하는 전자 장치.
  17. 제 15항에 있어서,
    제 1샘플 블록의 상기 인접한 샘플 블록은 상기 제 1샘플 블록과 동일한 오디오 채널에서 상기 제 1샘플 블록을 시간적으로 바로 앞서는 상기 샘플 블록을 포함하는 것을 특징으로 하는 전자 장치.
  18. 제 15항에 있어서,
    제 1샘플 블록의 상기 인접한 샘플 블록은 제 1샘플 블록과 상기 동일한 시간 주기를 표현하는 다른 오디오 채널의 샘플 블록을 포함하는 것을 특징으로 하는 전자 장치.
  19. 제 15항에 있어서,
    상기 제어 회로는,
    각 샘플 블록의 각 주파수 대역에 대하여, 상기 샘플 블록에 대한 상기 주파수 대역의 상기 에너지와 제 2인접한 샘플 블록의 상기 주파수 대역의 상기 에너지를 비교하고,
    각 샘플 블록의 각 주파수 대역에 대하여, 상기 샘플 블록의 상기 주파수 대역의 상기 에너지의 상기 제 2인접한 샘플 블록의 상기 주파수 대역의 상기 에너지에 대한 비율이 상기 미리 결정된 값보다 작으면, 상기 샘플 블록에 대한 상기 주파수 대역의 상기 스케일팩터를 증가시키고,
    제 1샘플 블록의 상기 제 2인접한 샘플 블록이 상기 제 1샘플 블록과 동일한 시간 주기를 나타내는 다른 제 2오디오 채널의 샘플 블록을 포함하는 것을 특징으로 하는 전자 장치.
  20. 제 15항에 있어서,
    상기 제어 회로는,
    각 샘플 블록의 각 주파수 대역에 대하여, 상기 샘플 블록의 상기 주파수 대역의 상기 에너지의 상기 인접한 샘플 블록의 상기 주파수 대역의 상기 에너지에 대한 비율이 미리 결정된 제 2값보다 작은 경우, 상기 샘플 블록에 대한 상기 주파수 대역의 상기 스케일팩터를 증가시키고,
    상기 미리 결정된 제 2값은 상기 미리 결정된 제 1값보다 작고, 상기 미리 결정된 제 2값과 관련된 상기 스케일팩터의 상기 증가는 상기 미리 결정된 제 1값과 관련된 상기 스케일팩터의 상기 증가보다 큰 것을 특징으로 하는 전자 장치.
KR1020127008064A 2009-09-11 2010-09-07 인터채널과 시간적 중복감소를 이용한 오디오 신호 인코딩 KR101363206B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/558,048 2009-09-11
US12/558,048 US8498874B2 (en) 2009-09-11 2009-09-11 Audio signal encoding employing interchannel and temporal redundancy reduction
PCT/IN2010/000595 WO2011030354A2 (en) 2009-09-11 2010-09-07 Audio signal encoding employing interchannel and temporal redundancy reduction

Publications (2)

Publication Number Publication Date
KR20120070578A true KR20120070578A (ko) 2012-06-29
KR101363206B1 KR101363206B1 (ko) 2014-02-12

Family

ID=43568372

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127008064A KR101363206B1 (ko) 2009-09-11 2010-09-07 인터채널과 시간적 중복감소를 이용한 오디오 신호 인코딩

Country Status (13)

Country Link
US (2) US8498874B2 (ko)
EP (1) EP2476114B1 (ko)
JP (1) JP5201375B2 (ko)
KR (1) KR101363206B1 (ko)
CN (1) CN102483924B (ko)
AU (1) AU2010293792B2 (ko)
BR (1) BR112012005014B1 (ko)
CA (1) CA2771886C (ko)
IL (1) IL218409A (ko)
MX (1) MX2012002741A (ko)
SG (1) SG178851A1 (ko)
TW (1) TWI438770B (ko)
WO (1) WO2011030354A2 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8498874B2 (en) 2009-09-11 2013-07-30 Sling Media Pvt Ltd Audio signal encoding employing interchannel and temporal redundancy reduction
GB2487399B (en) * 2011-01-20 2014-06-11 Canon Kk Acoustical synthesis
EP2709106A1 (en) 2012-09-17 2014-03-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating a bandwidth extended signal from a bandwidth limited audio signal
JP6250071B2 (ja) 2013-02-21 2017-12-20 ドルビー・インターナショナル・アーベー パラメトリック・マルチチャネル・エンコードのための方法
WO2015081699A1 (zh) * 2013-12-02 2015-06-11 华为技术有限公司 一种编码方法及装置
CN106409303B (zh) 2014-04-29 2019-09-20 华为技术有限公司 处理信号的方法及设备
CN106448688B (zh) 2014-07-28 2019-11-05 华为技术有限公司 音频编码方法及相关装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5388181A (en) 1990-05-29 1995-02-07 Anderson; David J. Digital audio compression system
CN1099777C (zh) * 1993-06-30 2003-01-22 索尼公司 数字信号的编码装置、解码装置和编码方法
EP0692880B1 (en) * 1993-11-04 2001-09-26 Sony Corporation Signal encoder, signal decoder, recording medium and signal encoding method
JP3186412B2 (ja) * 1994-04-01 2001-07-11 ソニー株式会社 情報符号化方法、情報復号化方法、及び情報伝送方法
CN1279511C (zh) 2001-04-13 2006-10-11 多尔拜实验特许公司 一种时间标度和/或音调偏移一个音频信号的方法
US8019598B2 (en) * 2002-11-15 2011-09-13 Texas Instruments Incorporated Phase locking method for frequency domain time scale modification based on a bark-scale spectral partition
JP4168976B2 (ja) * 2004-05-28 2008-10-22 ソニー株式会社 オーディオ信号符号化装置及び方法
US8019614B2 (en) 2005-09-02 2011-09-13 Panasonic Corporation Energy shaping apparatus and energy shaping method
CN100459436C (zh) * 2005-09-16 2009-02-04 北京中星微电子有限公司 一种音频编码中比特分配的方法
US20090018824A1 (en) 2006-01-31 2009-01-15 Matsushita Electric Industrial Co., Ltd. Audio encoding device, audio decoding device, audio encoding system, audio encoding method, and audio decoding method
JP4649351B2 (ja) * 2006-03-09 2011-03-09 シャープ株式会社 デジタルデータ復号化装置
ATE535904T1 (de) 2007-08-27 2011-12-15 Ericsson Telefon Ab L M Verbesserte transformationskodierung von sprach- und audiosignalen
EP2229676B1 (en) * 2007-12-31 2013-11-06 LG Electronics Inc. A method and an apparatus for processing an audio signal
KR101317813B1 (ko) * 2008-03-31 2013-10-15 (주)트란소노 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터판독 가능한 기록매체
US8498874B2 (en) 2009-09-11 2013-07-30 Sling Media Pvt Ltd Audio signal encoding employing interchannel and temporal redundancy reduction

Also Published As

Publication number Publication date
CA2771886A1 (en) 2011-03-17
AU2010293792A1 (en) 2012-03-29
US20130318010A1 (en) 2013-11-28
CN102483924B (zh) 2014-05-28
US8498874B2 (en) 2013-07-30
WO2011030354A2 (en) 2011-03-17
EP2476114B1 (en) 2013-06-19
MX2012002741A (es) 2012-05-08
JP5201375B2 (ja) 2013-06-05
CA2771886C (en) 2015-07-07
TWI438770B (zh) 2014-05-21
US20110066440A1 (en) 2011-03-17
CN102483924A (zh) 2012-05-30
US9646615B2 (en) 2017-05-09
BR112012005014B1 (pt) 2021-04-13
TW201137863A (en) 2011-11-01
SG178851A1 (en) 2012-04-27
IL218409A0 (en) 2012-04-30
AU2010293792B2 (en) 2014-03-06
BR112012005014A2 (pt) 2016-05-03
EP2476114A2 (en) 2012-07-18
JP2013504781A (ja) 2013-02-07
IL218409A (en) 2016-08-31
WO2011030354A3 (en) 2011-05-05
KR101363206B1 (ko) 2014-02-12

Similar Documents

Publication Publication Date Title
US9754601B2 (en) Information signal encoding using a forward-adaptive prediction and a backwards-adaptive quantization
KR101363206B1 (ko) 인터채널과 시간적 중복감소를 이용한 오디오 신호 인코딩
KR101361933B1 (ko) 오디오 인코딩에서 주파수 대역 신호 에너지를 기초로 한 주파수 대역 스케일 팩터 결정
CN117116273A (zh) 产生hoa信号的混合的空间/系数域表示的方法和设备
US7983909B2 (en) Method and apparatus for encoding audio data

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170119

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180118

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190116

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20200115

Year of fee payment: 7