KR20170104661A - 오디오 신호 디코딩 또는 인코딩을 위한 시간 도메인 레벨 조정 - Google Patents

오디오 신호 디코딩 또는 인코딩을 위한 시간 도메인 레벨 조정 Download PDF

Info

Publication number
KR20170104661A
KR20170104661A KR1020177024874A KR20177024874A KR20170104661A KR 20170104661 A KR20170104661 A KR 20170104661A KR 1020177024874 A KR1020177024874 A KR 1020177024874A KR 20177024874 A KR20177024874 A KR 20177024874A KR 20170104661 A KR20170104661 A KR 20170104661A
Authority
KR
South Korea
Prior art keywords
audio signal
frequency band
level
band signals
level shift
Prior art date
Application number
KR1020177024874A
Other languages
English (en)
Other versions
KR101953648B1 (ko
Inventor
스테판 슈라이너
아르네 보르섬
마티아스 뉴싱거
마누엘 장데
마커스 로와제르
베른하르트 노이게바우어
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20170104661A publication Critical patent/KR20170104661A/ko
Application granted granted Critical
Publication of KR101953648B1 publication Critical patent/KR101953648B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0017Lossless audio signal coding; Perfect reconstruction of coded audio signal by transmission of coding error
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/0018Speech coding using phonetic or linguistical decoding of the source; Reconstruction using text-to-speech synthesis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/0332Details of processing therefor involving modification of waveforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Abstract

인코딩된 오디오 신호 표현에 기반하여 디코딩된 오디오 신호 표현을 제공하기 위한 오디오 신호 디코더(100)는, 인코딩된 오디오 신호 표현으로부터 복수의 주파수 대역 신호들을 획득하기 위한 디코더 프리프로세싱 스테이지(110), 클림핑 추정기(120), 레벨 시프터(130), 주파수-투-시간-도메인 변환기(140), 및 레벨 시프트 보상기(150)를 포함한다. 클림핑 추정기(120)는, 현재의 레벨 시프트 팩터를 결정하기 위하여, 인코딩된 오디오 신호 표현 및/또는 주파수 대역 신호들에 대한 사이드 정보를 분석한다. 레벨 시프터(130)는, 레벨 시프트 팩터에 따라 주파수 대역 신호의 레벨들을 시프팅한다. 주파수-투-시간-도메인 변환기(140)는, 레벨 시프팅된 주파수 대역 신호들을 시간-도메인 표현으로 변환한다. 레벨 시프트 보상기(150)는, 대응하는 레벨 시프트를 적어도 부분적으로 보상하고, 실질적으로 보상된 시간-도메인 표현을 획득하기 위하여 시간-도메인 표현에 대해 동작한다.

Description

오디오 신호 디코딩 또는 인코딩을 위한 시간 도메인 레벨 조정{Time domain level adjustment for audio signal decoding or encoding}
본 발명은 오디오 신호 인코딩, 디코딩, 및 프로세싱에 관한 것으로, 더 상세하게는, 대응하는 주파수-투-시간 변환기(또는 시간-투-주파수 변환기)의 다이나믹 레인지(dynamic range)로 주파수-투-시간 변환될(또는 시간-투-주파수 변환될) 신호의 레벨을 조정하는 것에 관한 것이다. 본 발명의 몇몇 실시예들은, 고정소수점(fixed-point) 또는 정수 연산(arithmetic)으로 구현된 대응하는 변환기의 다이나믹 레인지로 주파수-투-시간 변환될(또는 시간-투-주파수 변환될) 신호의 레벨을 조정하는 것에 관한 것이다. 본 발명의 추가적인 실시예들은, 사이드(side) 정보와 결합하여 시간 도메인 레벨 조정을 사용하여 스펙트럼 디코딩된 오디오 신호들에 대한 클립핑 방지에 관한 것이다.
오디오 신호 프로세싱은 점점 더 중요해지고 있다. 현대의 지각 오디오 코덱들이 점점 더 낮은 비트 레이트들로 만족스러운 오디오 품질을 전달하도록 요구되는 경우, 문제점들이 발생한다.
현재의 오디오 콘텐츠 생산 및 전달 체인들에서, 디지털적으로 이용가능한 마스터 콘텐츠(PCM 스트림(펄스 코드 변조된 스트림))는, 예를 들어, 콘텐츠 생성 측에서 전문적인 AAC(Advanced Audio Coding) 인코더에 의해 인코딩된다. 그 후, 결과적인 AAC 비트스트림이, 예를 들어, 온라인 디지털 미디어 스토어를 통한 구매를 위해 이용가능하게 된다. 몇몇 디코딩된 PCM 샘플들이 “클림핑”되는 것이 드문 경우들로 나타나며, 클림핑은, 출력 파형에 대한 (예를 들어, PCM에 따라 변조되는) 균등하게 양자화된 고정소수점 표현의 기저(underlying) 비트 해상도(예를 들어, 16비트)에 의해 표현될 수 있는 최대 레벨에 2개 또는 그 초과의 연속된 샘플들이 도달했다는 것을 의미한다. 이것은 가청 아티팩트들(클릭들 또는 짧은 왜곡)을 유도할 수도 있다. 디코더 측에서의 클림핑의 발생을 방지하기 위해 인코더 측에서 노력이 통상적으로 행해질 것이지만, 그럼에도, 클림핑은 상이한 디코더 구현들, 라운딩(rounding) 에러들, 송신 에러들 등과 같은 다양한 원인들 때문에 디코더 측에서 발생할 수도 있다. 인코더의 입력에서 클림핑의 임계치 아래에 있는 오디오 신호를 가정하면, 현대의 지각적인 오디오 인코더에서의 클림핑의 원인들은 다양하다. 먼저, 오디오 인코더는, 송신 데이터 레이트를 감소시키기 위해 입력 파형의 주파수 분해에서 이용가능한 양자화를 송신된 신호에 적용한다. 주파수 도메인에서의 양자화 에러들은, 본래의 파형에 대해 신호 진폭 및 위상의 작은 편차들을 초래한다. 진폭 또는 위상 에러들이 구조적으로 부가되면, 시간 도메인에서의 결과적인 자세(attitude)는 본래의 파형보다 일시적으로 더 높을 수도 있다. 둘째로, 파라미터적인 코딩 방법들(예를 들어, 스펙트럼 대역 복제, 즉 SBR)은, 다소 과정 방식(course manner)으로 신호 전력을 파라미터화한다. 위상 정보는 통상적으로 생략된다. 따라서, 수신기 측에서의 신호는 단지, 정확한 전력을 이용하지만 파형 보존 없이 재생된다. 풀 스캐일(full scale)에 가까운 진폭을 갖는 신호들은 클림핑되는 경향이 있다.
현대의 오디오 코딩 시스템들은, 통합된 레벨들을 이용한 재생을 위해 라우드니스(loudness)를 조정하기 위한 가능성을 디코더들에게 제공하는 라우드니스 레벨 파라미터(g1)를 전달하기 위한 가능성을 제공한다. 일반적으로, 이것은, 오디오 신호가 충분히 높은 레벨들로 인코딩되고 송신된 정규화(normalization) 이득들이 증가한 라우드니스 레벨들을 제안하면, 클림핑을 유도할 수도 있다. 부가적으로, 마스터링한 오디오 콘텐츠(특히, 음악)에서의 일반적인 관례(practice)는 오디오 신호들을 최대 가능한 값들로 부스팅시키며, 이는, 오디오 코덱들에 의해 코오스하게(coarsely) 양자화되는 경우, 오디오 신호의 클림핑을 산출한다.
오디오 신호들의 클림핑을 방지하기 위해, 소위 리미터(limiter)들이 오디오 레벨들을 제한하기 위한 적절한 툴로서 알려져 있다. 인커밍 오디오 신호가 특정한 임계치를 초과하면, 리미터가 활성화되며, 오디오 신호가 출력에서 주어진 레벨을 초과하지 않게 하는 방식으로 오디오 신호를 감쇠시킨다. 불운하게도, 리미터 이전에, (다이나믹 레인지 및/또는 비트 해상도의 관점들에서) 충분한 헤드룸이 요구된다.
일반적으로, 임의의 라우드니스 정규화가 소위 "다이나믹 레인지 제어(DRC)"와 함께 주파수 도메인에서 달성된다. 이것은, 정규화 이득이 필터-뱅크 중첩 때문에 프레임마다 변하더라도 라우드니스 정규화의 평활한 블렌딩(blending)을 허용한다.
추가적으로, 불량한 양자화 또는 파라미터적인 설명으로 인해, 본래의 오디오가 클림핑 임계치 근방의 레벨들로 마스터링되었다면, 임의의 코딩된 오디오 신호는 클림핑되게 된다.
통상적으로, 고정소수점 연산에 기초하여 매우 효율적인 디지털 신호 프로세싱 디바이스들에서 계산 복잡도, 메모리 사용도, 및 전력 소비를 가능한 작게 유지하는 것이 바람직하다. 이러한 이유 때문에, 오디오 샘플들의 워드 길이를 가능한 작게 유지하는 것이 또한 바람직하다. 라우드니스 정규화로 인한 클림핑에 대한 임의의 잠재적인 헤드룸을 고려하기 위해, 통상적으로 오디오 인코더 또는 디코더의 일부인 필터 뱅크는 더 큰 워드 길이로 설계될 되어야 할 것이다.
데이터 정밀도를 손실하지 않으면서 그리고/또는 디코더 필터 뱅크 또는 인코더 필터 뱅크에 대해 더 큰 워드 길이를 사용하기 위한 필요성 없이 신호 제한을 허용하는 것이 바람직할 것이다. 대안적으로 또는 부가적으로, 현재의 관련 다이나믹 레인지가 변환기(주파수-투-시간 도메인 변환기 또는 시간-투-주파수-도메인 변환기)에 의해 제공된 다이나믹 레인지로 피트(fit)되는 방식으로 신호의 레벨이 조정될 수 있도록, 주파수-투-시간 변환될 또는 시간-투-주파수 변환될 신호의 관련 다이나믹 레인지가 신호의 연속적인 시간 섹션들 또는 "프레임들" 동안 매 프레임 기반으로 지속적으로 결정되면, 그것이 바람직할 것이다. 또한, 디코더 또는 인코더의 다른 컴포넌트들에 실질적으로 "투명한" 주파수-투-시간 변환 또는 시간-투-주파수 변환의 목적을 위해 그러한 레벨 시프트를 행하는 것이 바람직할 것이다. 이들 소망들 및/또는 가능한 추가적인 소망들 중 적어도 하나는, 청구항 제 1 항에 따른 오디오 신호 디코더, 청구항 제 14 항에 따른 오디오 신호 인코더, 및 청구항 제 15 항에 따른 인코딩된 오디오 신호 표현을 디코딩하기 위한 방법에 의해 해결된다.
인코딩된 오디오 신호 표현에 기반하여 디코딩된 오디오 신호 표현을 제공하기 위한 오디오 신호 디코더가 제공된다. 오디오 신호 디코더는, 인코딩된 오디오 신호 표현으로부터 복수의 주파수 대역 신호들을 획득하도록 구성된 디코더 프리프로세싱 스테이지를 포함한다. 오디오 신호 디코더는, 인코딩된 오디오 신호 정보, 복수의 주파수 신호들, 및/또는 사이드 정보가 인코딩된 오디오 신호 표현에 대한 현재 레벨 시프트 팩터를 결정하기 위하여 잠재적인 클림핑을 제안하는지에 대해, 인코딩된 오디오 신호 표현, 복수의 주파수 신호들, 및 인코딩된 오디오 신호 표현의 주파수 대역 신호들의 이득에 대한 사이드 정보 중 적어도 하나를 분석하도록 구성된 클림핑 추정기를 더 포함한다. 사이드 정보가 잠재적인 클림핑을 제안하는 경우, 현재의 레벨 시프트 팩터는, 적어도 하나의 최상위 비트의 헤드룸이 획득되도록 복수의 주파수 대역 신호들의 정보가 최하위 비트를 향해 시프팅되게 한다. 오디오 신호 디코더는 또한, 레벨 시프팅된 주파수 대역 신호들을 획득하기 위해 레벨 시프트 팩터에 따라 주파수 대역 신호들의 레벨들을 시프팅하도록 구성된 레벨 시프터를 포함한다. 또한, 오디오 신호 디코더는, 레벨 시프터 주파수 대역 신호들을 시간-도메인 표현으로 변환하도록 구성된 주파수-투-시간-도메인 변환기를 포함한다. 오디오 신호 디코더는, 레벨 시프터에 의해 레벨 시프터 주파수 대역 신호들에 적용된 레벨 시프트를 적어도 부분적으로 보상하고, 실질적으로 보상된 시간-도메인 표현을 획득하기 위하여 시간-도메인 표현에 대해 동작하도록 구성된 레벨 시프터 보상기를 더 포함한다.
본 발명의 추가적인 실시예들은, 입력 오디오 신호의 시간-도메인 표현에 기반하여, 인코딩된 오디오 신호 표현을 제공하도록 구성된 오디오 신호 인코더를 제공한다. 오디오 신호 인코더는, 입력 오디오 표현에 대한 현재의 레벨 시프트 팩터를 결정하기 위하여 잠재적인 클림핑이 제안되는지에 대해 입력 오디오 신호의 시간-도메인 표현을 분석하도록 구성된 클림핑 추정기를 포함한다. 잠재적인 클림핑이 제안되는 경우, 현재의 레벨 시프트 팩터는, 적어도 하나의 최상위 비트의 헤드룸이 획득되도록 입력 오디오 신호의 시간-도메인 표현이 최하위 비트를 향해 시프팅되게 한다. 오디오 신호 인코더는, 레벨 시프팅된 시간-도메인 표현을 획득하기 위해 레벨 시프트 팩터에 따라 입력 오디오 신호의 시간-도메인 표현의 레벨을 시프팅하도록 구성된 레벨 시프터를 더 포함한다. 또한, 오디오 신호 인코더는, 레벨 시프팅된 시간-도메인 표현을 복수의 주파수 대역 신호들로 변환하도록 구성된 시간-투-주파수 도메인 변환기를 포함한다. 오디오 신호 디코더는 또한, 레벨 시프터에 의해 레벨 시프터 시간 도메인 표현에 적용된 레벨 시프트를 적어도 부분적으로 보상하고, 복수의 실질적으로 보상된 주파수 대역 신호들을 획득하기 위하여 복수의 주파수 대역 신호들에 대해 동작하도록 구성된 레벨 시프터 보상기를 포함한다.
본 발명의 추가적인 실시예들은, 디코딩된 오디오 신호 표현을 획득하기 위해 인코딩된 오디오 신호 표현을 디코딩하기 위한 방법을 제공한다. 방법은, 복수의 주파수 대역 신호들을 획득하기 위해 인코딩된 오디오 신호 표현을 프리프로세싱하는 단계를 포함한다. 방법은, 인코딩된 오디오 신호 표현에 대해 현재의 레벨 시프트 팩터를 결정하기 위해 잠재적인 클림핑이 제안되는지에 대해, 인코딩된 오디오 신호 표현, 주파수 대역 신호들, 및 주파수 대역 신호들의 이득에 대한 사이드 정보 중 적어도 하나를 분석하는 단계를 더 포함한다. 잠재적인 클림핑이 제안되는 경우, 현재의 레벨 시프트 팩터는, 적어도 하나의 최상위 비트의 헤드룸이 획득되도록 입력 오디오 신호의 시간-도메인 표현이 최하위 비트를 향해 시프팅되게 한다. 또한, 방법은, 레벨 시프팅된 주파수 대역 신호들을 획득하기 위해 레벨 시프트 팩터에 따라 주파수 대역 신호들의 레벨들을 시프팅하는 단계를 포함한다. 방법은 또한, 주파수 대역 신호들의 시간-도메인 표현으로의 주파수-투-시간-도메인 변환을 수행하는 단계를 포함한다. 방법은, 레벨 시프팅된 주파수 대역 신호들에 적용된 레벨 시프트를 적어도 부분적으로 보상하고, 실질적으로 보상된 시간-도메인 표현을 획득하기 위하여 시간-도메인 표현에 대해 동작하는 단계를 더 포함한다.
또한, 컴퓨터 또는 신호 프로세서 상에서 실행되는 경우 상술된 방법들을 구현하기 위한 컴퓨터 프로그램이 제공된다.
추가적인 실시예들은, 인코딩된 오디오 신호 표현에 기반하여 디코딩된 오디오 신호 표현을 제공하기 위한 오디오 신호 디코더를 제공한다. 오디오 신호 디코더는, 인코딩된 오디오 신호 표현으로부터 복수의 주파수 대역 신호들을 획득하도록 구성된 디코더 프리프로세싱 스테이지를 포함한다. 오디오 신호 디코더는, 인코딩된 오디오 신호 표현에 대해 현재의 레벨 시프트 팩터를 결정하기 위해, 인코딩된 오디오 신호 표현, 복수의 주파수 신호들, 및 인코딩된 오디오 신호 표현의 주파수 대역 신호들의 이득에 대한 사이드 정보 중 적어도 하나를 분석하도록 구성된 클림핑 추정기를 더 포함한다. 오디오 신호 디코더는 또한, 레벨 시프팅된 주파수 대역 신호들을 획득하기 위해 레벨 시프트 팩터에 따라 주파수 대역 신호들의 레벨들을 시프팅하도록 구성된 레벨 시프터를 포함한다. 또한, 오디오 신호 디코더는, 레벨 시프터 주파수 대역 신호들을 시간-도메인 표현으로 변환하도록 구성된 주파수-투-시간-도메인 변환기를 포함한다. 오디오 신호 디코더는, 레벨 시프터에 의해 레벨 시프터 주파수 대역 신호들에 적용된 레벨 시프트를 적어도 부분적으로 보상하고, 실질적으로 보상된 시간-도메인 표현을 획득하기 위하여 시간-도메인 표현에 대해 동작하도록 구성된 레벨 시프터 보상기를 더 포함한다.
본 발명의 추가적인 실시예들은, 입력 오디오 신호의 시간-도메인 표현에 기반하여, 인코딩된 오디오 신호 표현을 제공하도록 구성된 오디오 신호 인코더를 제공한다. 오디오 신호 인코더는, 입력 오디오 표현에 대한 현재의 레벨 시프트 팩터를 결정하기 위해 입력 오디오 신호의 시간-도메인 표현을 분석하도록 구성된 클림핑 추정기를 포함한다. 오디오 신호 인코더는, 레벨 시프팅된 시간-도메인 표현을 획득하기 위해 레벨 시프트 팩터에 따라 입력 오디오 신호의 시간-도메인 표현의 레벨을 시프팅하도록 구성된 레벨 시프터를 더 포함한다. 또한, 오디오 신호 인코더는, 레벨 시프팅된 시간-도메인 표현을 복수의 주파수 대역 신호들로 변환하도록 구성된 시간-투-주파수 도메인 변환기를 포함한다. 오디오 신호 디코더는 또한, 레벨 시프터에 의해 레벨 시프터 시간 도메인 표현에 적용된 레벨 시프트를 적어도 부분적으로 보상하고, 복수의 실질적으로 보상된 주파수 대역 신호들을 획득하기 위하여 복수의 주파수 대역 신호들에 대해 동작하도록 구성된 레벨 시프터 보상기를 포함한다.
본 발명의 추가적인 실시예들은, 디코딩된 오디오 신호 표현을 획득하기 위해 인코딩된 오디오 신호 표현을 디코딩하기 위한 방법을 제공한다. 방법은, 복수의 주파수 대역 신호들을 획득하기 위해 인코딩된 오디오 신호 표현을 프리프로세싱하는 단계를 포함한다. 방법은, 인코딩된 오디오 신호 표현에 대해 현재의 레벨 시프트 팩터를 결정하기 위해, 인코딩된 오디오 신호 표현, 주파수 대역 신호들, 및 주파수 대역 신호들의 이득에 대한 사이드 정보 중 적어도 하나를 분석하는 단계를 더 포함한다. 또한, 방법은, 레벨 시프팅된 주파수 대역 신호들을 획득하기 위해 레벨 시프트 팩터에 따라 주파수 대역 신호들의 레벨들을 시프팅하는 단계를 포함한다. 방법은 또한, 주파수 대역 신호들의 시간-도메인 표현으로의 주파수-투-시간-도메인 변환을 수행하는 단계를 포함한다. 방법은, 레벨 시프팅된 주파수 대역 신호들에 적용된 레벨 시프트를 적어도 부분적으로 보상하고, 실질적으로 보상된 시간-도메인 표현을 획득하기 위하여 시간-도메인 표현에 대해 동작하는 단계를 더 포함한다.
실시예들 중 적어도 몇몇은, 오디오 신호의 전체 라우드니스 레벨이 비교적 높은 시간 간격들 동안 특정한 레벨 시프트 팩터에 의해 주파수 도메인 표현의 복수의 주파수 대역 신호들을 시프팅하는 것이 관련 정보를 손실하지 않으면서 가능하다는 통찰력(insight)에 기초한다. 오히려, 그럼에도, 관련 정보는 잡음을 포함할 가능성이 있는 비트들로 시프팅된다. 이러한 방식에서, 주파수 대역 신호들의 다이나믹 레인지가 주파수-투-시간-도메인 변환기의 제한된 워드 길이에 의해 지원되는 것보다 클 수도 있더라도, 제한된 워드 길이를 갖는 주파수-투-시간 도메인 변환기가 사용될 수도 있다. 즉, 본 발명의 적어도 몇몇 실시예들은, 오디오 신호가 비교적 라우드한 동안, 즉 관련 정보가 최상위 비트(들)에 포함될 가능성이 더 있는 동안, 최하위 비트(들)가 통상적으로, 임의의 관련 정보를 운반하고/운반하지 않는다는 사실을 활용한다.
레벨 시프팅된 주파수 대역 신호들에 적용된 레벨 시프트는 또한, 시간-도메인 표현 내에서 발생할 클림핑의 가능성을 감소시키는 이점을 가질 수도 있으며, 여기서, 상기 클림핑은, 복수의 주파수 대역 신호들의 하나 또는 그 초과의 주파수 대역 신호들의 구조적인 중첩으로부터 초래될 수도 있다.
이들 통찰력들 및 발견들은 또한, 인코딩된 오디오 신호 표현을 획득하기 위해 본래의 오디오 신호를 인코딩하기 위한 오디오 신호 인코더 및 방법에 유사한 방식으로 적용된다.
다음으로, 본 발명의 실시예들이 도면들을 참조하여 더 상세히 설명된다.\
도 1은 최신 기술에 따른 인코더를 도시한다.
도 2는 최신 기술에 따른 디코더를 도시한다.
도 3은 최신 기술에 따른 다른 인코더를 도시한다.
도 4는 최신 기술에 따른 추가적인 디코더를 도시한다.
도 5는 적어도 하나의 실시예에 따른 오디오 신호 디코더의 개략적인 블록도를 도시한다.
도 6은 적어도 하나의 추가적인 실시예에 따른 오디오 신호 디코더의 개략적인 블록도를 도시한다.
도 7은 실시예들에 따라, 인코딩된 오디오 신호 표현을 디코딩하기 위한 제안된 오디오 신호 디코더 및 제안된 방법의 개념을 도시하는 개략적인 블록도를 도시한다.
도 8은 헤드룸을 획득하기 위한 레벨 시프트의 개략적인 시각화이다.
도 9는 적어도 몇몇 실시예에 따른, 오디오 신호 디코더 또는 인코더의 컴포넌트일 수도 있는 가능한 트랜지션(transition) 형상 조정의 개략적인 블록도를 도시한다.
도 10은 예측 필터 조정기를 포함하는 추가적인 실시예에 따른 추정 유닛을 도시한다.
도 11은 백(back) 데이터 스트림을 생성하기 위한 장치를 도시한다.
도 12는 최신 기술에 따른 인코더를 도시한다.
도 13은 최신 기술에 따른 디코더를 도시한다.
도 14는 최신 기술에 따른 다른 인코더를 도시한다.
도 15는 적어도 하나의 실시예에 따른 오디오 신호 인코더의 개략적인 블록도를 도시한다.
도 16은 적어도 하나의 실시예에 따른, 인코딩된 오디오 신호 표현을 디코딩하기 위한 방법의 개략적인 흐름도를 도시한다.
오디오 프로세싱은 많은 방식들로 발전하고 있으며, 오디오 데이터 신호를 어떻게 효율적으로 인코딩 및 디코딩할지가 많은 연구들의 주제이다. 효율적인 인코딩은, 예를 들어, MPEG AAC(MPEG = Moving Pictures Expert Group; AAC = Advanced Audio Coding)에 의해 제공된다. MPEG AAC의 몇몇 양상들은, 오디오 인코딩 및 디코딩에 대한 도입부로서 아래에서 더 상세히 설명된다. MPEG AAC의 설명은, 설명된 개념들이 다른 오디오 인코딩 및 디코딩 방식들에 또한 적용될 수도 있으므로, 단지 일 예로서만 이해될 것이다.
MPEG AAC에 따르면, 오디오 신호의 스펙트럼 값들은, 스캐일-팩터들, 양자화 및 코드북들, 특히 호프만(Huffman) 코드북들을 이용하여 인코딩된다.
호프만 인코딩이 수행되기 전에, 인코더는 인코딩될 복수의 스펙트럼 계수들을 상이한 섹션들로 그룹화한다(스펙트럼 계수들은, 필터뱅크, 심리음향(psychoacoustical) 모델, 및 양자화 임계치들 및 양자화 해상도에 대해 심리음향 모델에 의해 제어되는 양자화기와 같은 업스트림 컴포넌트들로부터 획득됨). 스펙트럼 계수들의 각각의 섹션에 대해, 인코더는, 호프만-인코딩을 위해 호프만 코드북을 선택한다. MPEG AAC는 스펙트럼 데이터를 인코딩하기 위해 11개의 상이한 스펙트럼 호프만 코드북들을 제공하며, 그 스펙트럼 데이터로부터, 인코더는 섹션의 스펙트럼 계수들을 인코딩하기에 최상으로 적합한 코드북을 선택한다. 인코더는, 섹션의 스펙트럼 계수들의 호프만-인코딩을 위해 사용되는 코드북을 식별하는 코드북 식별자를 사이드 정보로서 디코더에 제공한다.
디코더 측 상에서, 디코더는, 복수의 스펙트럼 호프만 코드북들 중 어떤 것이 섹션의 스펙트럼 값들을 인코딩하기 위해 사용되는지를 결정하기 위해, 수신된 사이드 정보를 분석한다. 디코더는, 디코더에 의해 디코딩될 섹션의 스펙트럼 계수들을 인코딩하기 위해 이용되는 호프만 코드북에 대한 사이드 정보에 기초하여 호프만 디코딩을 수행한다.
호프만 디코딩 이후, 복수의 양자화된 스펙트럼 값들이 디코더에서 획득된다. 그 후, 디코더는, 인코더에 의해 수행될 수도 있는 비-균일한 양자화를 인버팅(invert)시키기 위해 역양자화를 수행할 수도 있다. 이에 의해, 역-양자화된 스펙트럼 값들이 디코더에서 획득된다.
그러나, 역-양자화된 스펙트럼 값들은 여전히 스캐일링되지 않을 수도 있다. 도출된 스캐일링되지 않은 스펙트럼 값들은 스캐일팩터 대역들로 그룹화되며, 각각의 스캐일팩터 대역은 공통 스캐일팩터를 갖는다. 각각의 스캐일팩터 대역에 대한 스캐일팩터는, 인코더에 의해 제공되었던 사이드 정보로서 디코더에 이용가능하다. 이러한 정보를 사용하면, 디코더는, 스캐일팩터 대역의 스캐일링되지 않은 스펙트럼 값들을 그들의 스캐일팩터와 곱한다. 이에 의해, 스캐일링된 스펙트럼 값들이 획득된다.
최신 기술에 따른 스펙트럼 값들의 인코딩 및 디코딩이 이제 도 1-4를 참조하여 설명된다.
도 1은 최신 기술에 따른 인코더를 도시한다. 인코더는, 오디오 신호 AS를 변환하기 위한 T/F(시간-투-주파수) 필터뱅크(10)를 포함하며, 그 신호는, 주파수-도메인 오디오 신호를 획득하기 위해 시간 도메인으로부터 주파수 도메인으로 인코딩될 것이다. 주파수-도메인 오디오 신호는 스캐일팩터들을 결정하기 위해 스캐일팩터 유닛(20)으로 공급된다. 스캐일팩터 유닛(20)은, 하나의 스캐일팩터를 공유하는 스캐일팩터 대역들로 지칭되는 스펙트럼 계수들의 수 개의 그룹들로 주파수-도메인 오디오 신호의 스펙트럼 계수들을 분할하도록 적응된다. 스캐일팩터는, 모든 스펙트럼 계수들의 진폭을 각각의 스캐일팩터 대역으로 변경시키기 위해 사용되는 이득 값을 표현한다. 또한, 스캐일팩터 유닛(20)은 주파수-도메인 오디오 신호의 스캐일링되지 않은 스펙트럼 계수들을 생성 및 출력하도록 적응된다.
또한, 도 1의 인코더는, 주파수-도메인 오디오 신호의 스캐일링되지 않은 스펙트럼 계수들을 양자화시키기 위한 양자화기를 포함한다. 양자화기(30)는 비-균일한 양자화기일 수도 있다.
양자화 이후, 오디오 신호의 양자화된 스캐일링되지 않은 스펙트럼들은 호프만-인코딩을 위해 호프만 인코더(40)에 공급된다. 호프만 코딩은, 오디오 신호의 양자화된 스펙트럼의 감소된 리던던시를 위해 사용된다. 복수의 스캐일링되지 않은 양자화된 스펙트럼 계수들은 섹션들로 그룹화된다. MPEG-AAC에서 11개의 가능한 코드북들이 제공되지만, 섹션의 모든 스펙트럼 계수들은 동일한 호프만 코드북에 의해 인코딩된다.
인코더는, 섹션의 스펙트럼 계수들을 인코딩하기에 특히 적합한 11개의 가능한 호프만 코드북들 중 하나를 선택할 것이다. 이에 의해, 특정한 섹션에 대한 인코더의 호프만 코드북의 선택은 특정한 섹션의 스펙트럼 값들에 의존한다. 그 후, 호프만-인코딩된 스펙트럼 계수들은, 예를 들어, 스펙트럼 계수들의 섹션을 인코딩하기 위해 사용되는 호프만 코드북에 대한 정보, 특정한 스캐일팩터 대역에 대해 사용되는 스캐일팩터 등을 포함하는 사이드 정보와 함께 디코더에 송신될 수도 있다.
2개 또는 4개의 스펙트럼 계수들은, 섹션의 스펙트럼 계수들을 호프만-인코딩하기 위해 이용되는 호프만 코드북의 코드워드에 의해 인코딩된다. 인코더는, 섹션의 길이를 포함하는 사이드 정보 뿐만 아니라 섹션의 스펙트럼 계수들을 인코딩하기 위해 사용되는 호프만 코드북에 대한 정보와 함께, 인코딩된 스펙트럼 계수들을 표현하는 코드워드들을 디코더에 송신한다.
MPEG AAC에서, 11개의 스펙트럼 호프만 코드북들이 오디오 신호의 스펙트럼 데이터를 인코딩하기 위해 제공된다. 상이한 스펙트럼 호프만 코드북은 그들의 코드북 인덱스(1과 11 사이의 값)에 의해 식별될 수도 있다. 호프만 코드북의 차원(dimension)은, 얼마나 많은 스펙트럼 계수들이 고려된 호프만 코드북의 코드워드에 의해 인코딩되는지를 표시한다. MPEG AAC에서, 호프만 코드북의 차원은, 코드워드가 오디오 신호의 2 또는 4의 스펙트럼 값들 중 어느 하나를 인코딩한다는 것을 표시하는 2 또는 4 중 어느 하나이다.
그러나, 상이한 호프만 코드북들은 다른 속성들에 대해 또한 상이하다. 예를 들어, 호프만 코드북에 의해 인코딩될 수 있는 스펙트럼 계수의 최대 절대값은 코드북마다 변하며, 예를 들어, 1, 2, 4, 7, 12 또는 그보다 클 수 있다. 또한, 고려된 호프만 코드북은 부호있는(signed) 또는 부호없는 값들을 인코딩하도록 적응될 수도 있다.
호프만-인코딩을 이용하는 경우, 스펙트럼 계수들은 상이한 길이들의 코드워드들에 의해 인코딩된다. MPEG AAC는, 1의 최대 절대값을 갖는 2개의 상이한 호프만 코드북들, 2의 최대 절대값을 갖는 2개의 상이한 호프만 코드북들, 4의 최대 절대값을 갖는 2개의 상이한 호프만 코드북들, 7의 최대 절대값을 갖는 2개의 상이한 호프만 코드북들, 및 12의 최대 절대값을 갖는 2개의 상이한 호프만 코드북들을 제공하며, 여기서, 각각의 호프만 코드북은 별개의 확률 분포 함수를 표현한다. 호프만 인코더는, 스펙트럼 계수들을 인코딩하기에 최상으로 적합한 호프만 코드북을 항상 선택할 것이다.
도 2는 최신 기술에 따른 디코더를 도시한다. 호프만-인코딩된 스펙트럼 값들은 호프만 디코더(50)에 의해 수신된다. 호프만 디코더(50)는 또한, 스펙트럼 값들의 각각의 섹션에 대한 스펙트럼 값들을 인코딩하기 위해 사용되는 호프만 코드북에 대한 정보를 사이드 정보로서 수신한다. 그 후, 호프만 디코더(50)는 스캐일링되지 않은 양자화된 스펙트럼 값들을 획득하기 위해 호프만 디코딩을 수행한다. 스캐일링된 양자화된 스펙트럼 값들은 역양자화기(60)로 공급된다. 역양자화기는 역-양자화된 스캐일링되지 않은 스펙트럼 값들을 획득하기 위해 역양자화를 수행하며, 그 값들은 스캐일러(scaler)(70)로 공급된다. 스캐일러(70)는 또한, 각각의 스캐일팩터 대역에 대한 사이드 정보로서 스캐일팩터들을 수신한다. 수신된 스캐일팩터들에 기초하여, 스캐일러(70)는, 스캐일링된 역양자화된 스펙트럼 값들을 획득하기 위해, 스캐일링되지 않은 역양자화된 스펙트럼 값들을 스캐일링한다. 그 후, F/T 필터 뱅크(80)는, 시간-도메인 오디오 신호의 샘플 값들을 획득하기 위해 주파수 도메인으로부터 시간 도메인으로 주파수-도메인 오디오 신호의 스캐일링된 역-양자화된 스펙트럼 값들을 변환한다.
도 3은 최신 기술에 따른 인코더를 도시하며, 도 3의 인코더가 인코더-측 TNS 유닛(TNS = Temporal Noise Shaping)을 더 포함한다는 점에서 도 1의 인코더와는 상이하다. 일시적 잡음 형상화는, 오디오 신호의 스펙트럼 데이터의 일부들에 대해 필터링 프로세스를 수행함으로써, 양자화 잡음의 일시적 형상을 제어하기 위해 이용될 수도 있다. 인코더-측 TNS 유닛(15)은, 인코딩될 주파수-도메인 오디오 신호의 스펙트럼 계수들에 대해 선형 예측 코딩(LPC) 계산을 수행한다. 그 중에서도, LPC 계산으로부터 초래되는 것은, PARCOR 계수들로 또한 지칭되는 반사 계수들이다. LPC 계산에 의해 또한 도출되는 예측 이득이 특정한 임계치 값을 초과하지 않으면, 일시적 잡음 형상화가 사용되지 않는다. 그러나, 예측 이득이 임계치 값보다 크면, 일시적 잡음 형상화가 이용된다. 인코더-측 TNS 유닛은, 특정한 임계치 값보다 작은 모든 반사 계수들을 제거한다. 나머지 반사 계수들은, 선형 예측 계수들로 변환되고, 인코더에서 잡음 형상화 필터 계수들로서 사용된다. 그 후, 인코더-측 TNS 유닛은, 오디오 신호의 프로세싱된 스펙트럼 계수들을 획득하기 위하여, TNS가 이용되는 그들 스펙트럼 계수들에 대해 필터 동작을 수행한다. TNS 정보, 예를 들어, 반사 계수들(PARCOR 계수들)을 표시하는 사이드 정보는 디코더에 송신된다.
도 4는, 도 4의 디코더가 디코더-측 TNS 유닛(75)을 또한 포함한다는 범위에서는 도 2에 도시된 디코더와 상이한 최신 기술에 따른 디코더를 도시한다. 디코더-측 TNS 유닛은, 오디오 신호의 역-양자화된 스케일링된 스펙트럼을 수신하고, TNS 정보, 예를 들어, 반사 계수들(PARCOR 계수들)을 표시하는 정보를 또한 수신한다. 디코더-측 TNS 유닛(75)은, 오디오 신호의 프로세싱된 역양자화된 스펙트럼을 획득하기 위해 오디오 신호의 역-양자화된 스펙트럼들을 프로세싱한다.
도 5는 본 발명의 적어도 하나의 실시예에 따른 오디오 신호 디코더(100)의 개략적인 블록도를 도시한다. 오디오 신호 디코더는 인코딩된 오디오 신호 표현을 수신하도록 구성된다. 통상적으로, 인코딩된 오디오 신호 표현은 사이드 정보와 동반된다. 인코딩된 오디오 신호 표현은 사이드 정보와 함께, 예를 들어, 지각적인 오디오 인코더에 의해 생성되는 데이터스트림의 형태로 제공될 수도 있다. 오디오 신호 디코더(100)는, 도 5의 "실질적으로 보상된 시간-도메인 표현"으로 라벨링된 신호와 동일하거나, 후속 프로세싱을 사용하여 그로부터 도출될 수도 있는 디코딩된 오디오 신호 표현을 제공하도록 추가적으로 구성된다.
오디오 신호 디코더(100)는, 인코딩된 오디오 신호 표현으로부터 복수의 주파수 대역 신호들을 획득하도록 구성된 디코더 프리프로세싱 스테이지(110)를 포함한다. 예를 들어, 디코더 프리프로세싱 스테이지(110)는, 인코딩된 오디오 신호 표현 및 사이드 정보가 비트스트림에 포함되는 경우에 비트스트림 언패커(unpacker)를 포함할 수도 있다. 몇몇 오디오 인코딩 표준들은, 인코딩된 오디오 신호 표현이 관련 정보(높은 해상도) 또는 관련되지 않은 정보(낮은 해상도 또는 전혀 데이터 없음)를 현재 운반하는 주파수 범위에 의존하여, 복수의 주파수 대역 신호들에 대해 시변 해상도들 및 또한 상이한 해상도들을 사용할 수도 있다. 이것은, 어떠한 정보도 운반하지 않거나 또는 매우 작은 수의 정보만을 일시적으로 운반하는 주파수 대역 신호와는 대조적으로, 인코딩된 오디오 신호 표현이 현재 많은 양의 관련 정보를 갖는 주파수 대역이 그 시간 간격 동안 비교적 정밀한 해상도를 사용하여(즉, 비교적 많은 수의 비트들을 사용하여) 통상적으로 인코딩된다는 것을 의미한다. 주파수 대역 신호들 중 몇몇에 대해, 비트스트림이 일시적으로 어떠한 데이터 또는 비트들도 전혀 포함하지 않는다는 것이 심지어 발생할 수도 있는데, 이는 이들 주파수 대역 신호들이 대응하는 시간 간격 동안 임의의 관련 정보도 포함하지 않기 때문이다. 디코더 프리프로세싱 스테이지(110)에 제공된 비트스트림은 통상적으로, 복수의 주파수 대역 신호들 중 어떤 주파수 대역 신호들이 현재 고려된 시간 간격 또는 "프레임" 동안 데이터를 포함하는지를 표시하는 (예를 들어, 사이드 정보의 일부로서) 정보, 및 대응하는 비트 해상도를 포함한다.
오디오 신호 디코더(100)는, 인코딩된 오디오 신호 표현에 대해 현재의 레벨 시프트 팩터를 결정하기 위해, 인코딩된 오디오 신호 표현의 주파수 대역 신호들의 이득에 대한 사이드 정보를 분석하도록 구성된 클림핑 추정기(120)를 더 포함한다. 몇몇 지각적인 오디오 인코딩 표준들은, 복수의 주파수 대역 신호들의 상이한 주파수 대역 신호들에 대해 개별적인 스캐일 팩터들을 사용한다. 개별적인 스캐일 팩터들은, 각각의 주파수 대역 신호에 대해, 다른 주파수 대역 신호들에 대한 현재의 진폭 범위를 표시한다. 본 발명의 몇몇 실시예들에 대해, 복수의 주파수 대역 신호들이 주파수 도메인으로부터 시간 도메인으로 변환된 이후에 대응하는 시간-도메인 표현에서 발생할 수도 있는 이들 스캐일 팩터들의 분석은, 최대 진폭의 적절한 평가를 허용한다. 그 후, 이러한 정보는, 본 발명에 의해 제안된 바와 같은 임의의 적절한 프로세싱 없이, 클림핑이 고려된 시간 간격 또는 “프레임” 동안 시간-도메인 표현 내에서 발생할 가능성이 있을지를 결정하기 위해 사용될 수도 있다. 클림핑 추정기(120)는, (예를 들어, 신호 진폭 또는 신호 전력에 대한) 레벨에 대해 동일한 양만큼 복수의 주파수 대역 신호들의 모든 주파수 대역 신호들을 시프팅하는 레벨 시프트 팩터를 결정하도록 구성된다. 레벨 시프트 팩터는 개별적인 방식으로 각각의 시간 간격(프레임) 동안 결정될 수도 있으며, 즉 레벨 시프트 팩터는 시변한다. 통상적으로, 클림핑 추정기(120)는, 시간-도메인 표현 내의 클림핑이 발생할 가능성이 매우 없지만, 동시에, 주파수 대역 신호들에 대해 합리적인 다이나믹 레인지를 유지하는 방식으로 모든 주파수 대역 신호들에 공통적인 시프트 팩터에 의해 복수의 주파수 대역 신호들의 레벨들을 조정하기를 시도할 것이다. 일 예로서, 다수의 스캐일 팩터들이 비교적 높은 인코딩된 오디오 신호 표현의 프레임을 고려한다. 클림핑 추정기(120)는 최악의 경우(worse-case), 즉 복수의 주파수 대역 신호들 내의 가능한 신호 피크들이 구조적인 방식으로 중첩 또는 부가하여, 시간-도메인 표현 내에서 큰 진폭을 초래하는 것을 이제 고려할 수도 있다. 이제, 레벨 시프트 팩터는, 시간-도메인 표현 내의 이러한 가설적인 피크가 가급적 마진의 부가적인 고려사항으로 원하는 다이나믹 레인지 내에 있게 하는 수로서 결정될 수도 있다. 몇몇 실시예들에 적어도 따르면, 클림핑 추정기(120)는, 고려된 시간 간격 또는 프레임 동안의 시간-도메인 표현 내에서의 클림핑의 가능성을 평가하기 위한 인코딩된 오디오 신호 표현 그 자체를 필요로 하지 않는다. 그 이유는, 적어도 몇몇 지각적인 오디오 인코딩 표준들이, 특정한 주파수 대역 신호 및 고려된 시간 간격 내에서 코딩되어야 하는 가장 큰 진폭에 따른 복수의 주파수 대역 신호들의 주파수 대역 신호들에 대해 스캐일 팩터들을 선택한다는 것이다. 즉, 인접한(at hand) 주파수 대역 신호에 대한 선택된 비트 해상도에 의해 표현될 수 있는 가장 높은 값은, 인코딩 방식의 속성들이 주어지면, 고려된 시간 간격 또는 프레임 동안 적어도 1회 발생할 가능성이 매우 높다. 이러한 가정을 사용하면, 클림핑 추정기(120)는, 인코딩된 오디오 신호 표현 및 고려된 시간 간격(프레임) 동안 현재의 레벨 시프트 팩터를 결정하기 위해, 주파수 대역 신호들의 이득(들)에 대해 사이드 정보(예를 들어, 상기 스캐일 팩터 및 가급적 추가적인 파라미터들)를 평가하는 것에 포커싱할 수도 있다.
오디오 신호 디코더(100)는, 레벨 시프팅된 주파수 대역 신호들을 획득하기 위해 레벨 시프트 팩터에 따라 주파수 대역 신호들의 레벨들을 시프팅하도록 구성된 레벨 시프터(130)를 더 포함한다.
오디오 신호 디코더(100)는, 레벨 시프팅된 주파수 대역 신호들을 시간-도메인 표현으로 변환하도록 구성된 주파수-투-시간-도메인 변환기(140)를 더 포함한다. 주파수-투-시간-도메인 변환기(140)는, 몇몇 예를 들자면, 역 필터 뱅크, 변경된 이산 코사인 역변환(역 MDCT), 역 직교 미러 필터(역 QMF)일 수도 있다. 몇몇 오디오 코딩 표준들에 대해, 주파수-투-시간-도메인 변환기(140)는 연속하는 프레임들의 윈도우잉을 지원하도록 구성될 수도 있으며, 여기서, 2개의 프레임들은, 예를 들어, 그들의 지속기간의 50% 동안 중첩한다.
주파수-투-시간-도메인 변환기(140)에 의해 제공된 시간-도메인 표현은, 레벨 시프터(130)에 의해 레벨 시프팅된 주파수 대역 신호들에 적용된 레벨 시프트를 적어도 부분적으로 보상하고, 실질적으로 보상된 시간-도메인 표현을 획득하기 위하여 시간-도메인 표현에 대해 동작하도록 구성된 레벨 시프트 보상기(150)에 제공된다. 레벨 시프트 보상기(150)는, 클림핑 추정기(140)로부터의 레벨 시프트 팩터 또는 레벨 시프트 팩터로부터 도출된 신호를 추가적으로 수신한다. 레벨 시프터(130) 및 레벨 시프트 보상기(150)는, 레벨 시프팅된 주파수 대역 신호들의 이득 조정 및 시간 도메인 표현의 보상 이득 조정을 각각 제공하며, 여기서, 상기 이득 조정은 주파수-투-시간-도메인 변환기(140)를 우회한다. 이러한 방식으로, 레벨 시프팅된 주파수 대역 신호들 및 시간-도메인 표현은, 변환기(140)의 고정된 워드 길이 및/또는 고정소수점 연산 구현으로 인해 제한될 수도 있는 주파수-투-시간-도메인 변환기(140)에 의해 제공된 다이나믹 레인지로 조정될 수 있다. 특히, 레벨 시프팅된 주파수 대역 신호들 및 대응하는 시간-도메인 표현의 관련 다이나믹 레인지는, 비교적 라우드한 프레임들 동안 비교적 높은 진폭 값들 또는 신호 전력 레벨들에 있을 수도 있다. 대조적으로, 레벨 시프팅된 주파수 대역 신호 및 그에 따라 또한 대응하는 시간-도메인 표현의 관련 다이나믹 레인지는, 비교적 소프트한 프레임들 동안 비교적 작은 진폭 값들 또는 신호 전력 값들에 있을 수도 있다. 라우드 프레임들의 경우에서, 레벨 시프팅된 주파수 대역 신호들의 바이너리 표현의 더 낮은 비트들에 포함된 정보는 통상적으로, 더 높은 비트들 내에 포함된 정보와 비교하여 무시가능한 것으로서 간주될 수도 있다. 통상적으로, 레벨 시프트 팩터는 모든 주파수 대역 신호들에 공통적이며, 이는, 주파수-투-시간-도메인 변환기(140)의 다운스트림에서도 레벨 시프팅된 주파수 대역 신호들에 적용된 레벨 시프트를 보상하는 것을 가능하게 한다. 오디오 신호 디코더(100) 그 자체에 의해 결정된 제안된 레벨 시프트 팩터와는 대조적으로, 소위 글로벌 이득 파라미터는, 원격 오디오 신호 인코더에 의해 생성되었고 오디오 신호 디코더(100)에 입력으로서 제공되는 비트스트림 내에 포함된다. 또한, 글로벌 이득은, 디코더 프리프로세싱 스테이지(110)와 주파수-투-시간-도메인 변환기(140) 사이의 복수의 주파수 대역 신호들에 적용된다. 통상적으로, 글로벌 이득은, 상이한 주파수 대역 신호들에 대한 스캐일 팩터들과 신호 프로세싱 체인 내의 실질적으로 동일한 장소에서 복수의 주파수 대역 신호들에 적용된다. 이것은, 비교적 라우드한 프레임에 대해, 주파수-투-시간-도메인 변환기(140)에 제공된 주파수 대역 신호들이 이미 비교적 라우드하다는 것을 의미하며, 따라서, 상이한 주파수 대역 신호들이 구조적인 방식으로 부가되는 경우, 복수의 주파수 대역 신호들이 충분한 헤드룸을 제공하지 않기 때문에, 대응하는 시간-도메인 표현에서 클림핑을 야기할 수도 있으며, 그에 의해, 시간-도메인 표현 내에서 비교적 높은 신호 진폭을 유도한다.
예를 들어, 도 5에 개략적으로 도시된 오디오 신호 디코더(100)에 의해 구현되는 제안된 접근법은, 데이터 정밀도를 손실하거나 디코더 필터-뱅크들(예를 들어, 주파수-투-시간-도메인 변환기(140))에 대한 더 큰 워드 길이를 사용하지 않으면서 신호 제한을 허용한다.
필터-뱅크들의 제한된 워드 길이의 문제점을 극복하기 위해, 잠재적인 클림핑의 소스로서의 라우드니스 정규화가 시간 도메인 프로세싱으로 이동될 수도 있다. 이것은 필터-뱅크(140)가, 라우드니스 정규화가 주파수 도메인 프로세싱 내에서 수행되는 구현과 비교하여 본래의 워드 길이 또는 감소된 워드 길이를 이용하여 구현되게 한다. 이득 값들의 평활한 블렌딩을 수행하기 위해, 트랜지션 형상 조정이 도 9의 맥락에서 아래에 설명될 바와 같이 수행될 수도 있다.
추가적으로, 비트스트림 내의 오디오 샘플들은 일반적으로, 재구성된 오디오 신호보다 더 낮은 정밀도로 양자화된다. 이것은 필터-뱅크(140)에서 몇몇 헤드룸을 허용한다. 디코더(100)는, (글로벌 이득 팩터와 같은) 다른 비트-스트림 파라미터 p로부터 몇몇 추정을 도출하며, 출력 신호의 클림핑이 가능한 경우에 대해, 필터-뱅크(140)에서 클림핑을 회피하도록 레벨 시프트(g2)를 적용한다. 이러한 레벨 시프트는, 레벨 시프트 보상기(150)에 의한 적절한 보상을 위해 시간 도메인으로 시그널링된다. 어떠한 클림핑도 추정되지 않으면, 오디오 신호는 변경되지 않게 유지되며, 따라서, 방법은 정밀도에서의 손실을 갖지 않는다.
클림핑 추정기는, 사이드 정보에 기반하여 클림핑 가능성을 결정하고 그리고/또는 클림핑 가능성에 기반하여 현재의 레벨 시프트 팩터를 결정하도록 추가적으로 구성될 수도 있다. 클림핑 가능성이 단지 하드한 사실(hard fact)보다는 트렌드(trend)를 표시하더라도, 그것은, 인코딩된 오디오 신호 표현의 주어진 프레임에 대한 복수의 주파수 대역 신호들에 합리적으로 적용될 수도 있는 레벨 시프트 팩터에 대한 유용한 정보를 제공할 수도 있다. 클림핑 가능성의 결정은, 계산 복잡도 또는 노력의 관점들에서 그리고 주파수-투-시간-도메인 변환기(140)에 의해 수행되는 주파수-투-시간-도메인 변환과 비교하여 비교적 간단할 수도 있다.
사이드 정보는, 복수의 주파수 대역 신호들 및 복수의 스캐일 팩터들에 대한 글로벌 이득 팩터 중 적어도 하나를 포함할 수도 있다. 각각의 스캐일 팩터는, 복수의 주파수 대역 신호들 중 하나 또는 그 초과의 주파수 대역 신호들에 대응할 수도 있다. 글로벌 이득 팩터 및/또는 복수의 스캐일 팩터들은, 변환기(140)에 의해 시간 도메인으로 변환될 현재의 프레임의 라우드니스 레벨에 대한 유용한 정보를 이전에 제공한다.
적어도 몇몇 실시예들에 따르면, 디코더 프리프로세싱 스테이지(110)는, 복수의 연속하는 프레임들의 형태로 복수의 주파수 대역 신호들을 획득하도록 구성될 수도 있다. 클림핑 추정기(120)는, 현재의 프레임에 대한 현재의 레벨 시프트 팩터를 결정하도록 구성될 수도 있다. 즉, 오디오 신호 디코더(100)는, 예를 들어, 연속하는 프레임들 내의 라우드니스의 가변도에 의존하여, 인코딩된 오디오 신호 표현의 상이한 프레임들에 대한 가변 레벨 시프트 팩터들을 다이나믹하게 결정하도록 구성될 수도 있다.
디코딩된 오디오 신호 표현은, 실질적으로 보상된 시간-도메인 표현에 기반하여 결정될 수도 있다. 예를 들어, 오디오 신호 디코더(100)는, 레벨 시프트 보상기(150)의 다운스트림에 시간 도메인 리미터를 더 포함할 수도 있다. 몇몇 실시예들에 따르면, 레벨 시프트 보상기(150)는 그러한 시간 도메인 리미터의 일부일 수도 있다.
추가적인 실시예들에 따르면, 주파수 대역 신호들의 이득에 대한 사이드 정보는 복수의 주파수 대역-관련 이득 팩터들을 포함할 수도 있다.
디코더 프리프로세싱 스테이지(110)는, 복수의 주파수 대역-특정 양자화 표시자들 중 일 주파수 대역-특정 양자화 표시자를 사용하여 각각의 주파수 대역 신호를 재양자화하도록 구성된 역양자화기를 포함할 수도 있다. 특히, 상이한 주파수 대역 신호들은, 인코딩된 오디오 신호 표현 및 대응하는 사이드 정보를 생성한 오디오 신호 인코더에 의해 상이한 양자화 해상도들(또는 비트 해상도들)을 사용하여 양자화될 수도 있다. 따라서, 상이한 주파수 대역-특정 양자화 표시자들은, 오디오 신호 인코더에 의해 이전에 결정된 그 특정한 주파수 대역 신호에 대한 요구된 진폭 해상도에 의존하여, 다양한 주파수 대역 신호들에 대한 진폭 해상도에 대한 정보를 제공할 수도 있다. 복수의 주파수 대역-특정 양자화 표시자들은, 디코더 프리프로세싱 스테이지(110)에 제공된 사이드 정보의 일부일 수도 있으며, 레벨 시프트 팩터를 결정하기 위하여 클림핑 추정기(120)에 의해 사용될 추가적인 정보를 제공할 수도 있다.
클림핑 추정기(120)는, 사이드 정보가 시간-도메인 표현 내에서 잠재적인 클림핑을 제한하는지에 대해 사이드 정보를 분석하도록 추가적으로 구성될 수도 있다. 그 후, 그러한 발견은, 어떠한 관련 정보도 포함하지 않는 최하위 비트(LSB)로서 해석될 것이다. 이러한 경우, 레벨 시프터(130)에 의해 적용된 레벨 시프트는, 최상위 비트(MSB)를 자유롭게 함으로써, 주파수 대역 신호들 중 2개 또는 그 초과가 구조적인 방식으로 부가되는 경우에 시간 도메인 해상도에 대해 필요할 수도 있는 최상위 비트에서의 몇몇 헤드룸이 획득되도록 최하위 비트를 향해 정보를 시프팅할 수도 있다. 이러한 개념은 또한, n의 최하위 비트들 및 n의 최상위 비트들로 확장될 수도 있다.
클림핑 추정기(120)는 양자화 잡음을 고려하도록 구성될 수도 있다. 예를 들어, AAC 디코딩에서, "글로벌 이득" 및 "스캐일 팩터 대역들" 둘 모두가 오디오/서브대역을 정규화시키는데 사용된다. 결과로서, 각각의 (스펙트럼) 값에 의한 관련 정보는 MSB로 시프팅되지만, LSB는 양자화에서 무시된다. 디코더에서의 재양자화 이후, LSB는 통상적으로 잡음만을 포함했다. "글로벌 이득" 및 "스캐일 팩터 대역" (p) 값들이 재구성 필터-뱅크(140) 이후에 잠재적인 클림핑을 제안한다면, LSB가 어떠한 정보도 포함하지 않았다고 합리적으로 가정될 수 있다. 제안된 방법을 이용하면, 디코더(100)는, MSB를 갖는 몇몇 헤드룸을 획득하기 위해 정보를 또한 이들 비트들로 시프팅한다. 이것은 실질적으로 어떠한 정보의 손실도 야기하지 않는다.
제안된 장치(오디오 신호 디코더 또는 인코더) 및 방법들은, 요구된 헤드룸에 대한 높은 해상도 필터-뱅크를 소비하지 않으면서 오디오 디코더들/인코더들에 대한 클림핑 방지를 허용한다. 이것은 통상적으로, 더 높은 해상도를 이용하여 필터-뱅크를 수행/구현하는 것보다 메모리 요건들 및 계산 복잡도의 관점들에서 훨씬 덜 비싸다.
도 6은 본 발명의 추가적인 실시예들에 따른 오디오 신호 디코더(100)의 개략적인 블록도를 도시한다. 오디오 신호 디코더(100)는, 인코딩된 오디오 신호 표현 및 통상적으로 또한 사이드 정보 또는 사이드 정보의 일부를 수신하도록 구성된 역양자화기(210)(Q-1)를 포함한다. 몇몇 실시예들에서, 역양자화기(210)는, 예를 들어, 데이터 패킷들의 형태로, 인코딩된 오디오 신호 표현 및 사이드 정보를 포함하는 비트스트림을 언패킹하도록 구성된 비트스트림 언패커를 포함할 수도 있으며, 여기서, 각각의 데이터 패킷은 인코딩된 오디오 신호 표현의 특정한 수의 프레임들에 대응할 수도 있다. 상술된 바와 같이, 인코딩된 오디오 신호 표현 내에서 및 각각의 프레임 내에서, 각각의 주파수 대역은 그 자신의 개별 양자화 해상도를 가질 수도 있다. 이러한 방식으로, 비교적 정밀한 양자화를 일시적으로 요구하는 주파수 대역들은, 상기 주파수 대역들 내에서 오디오 신호 부분들을 정확히 표현하기 위해, 그러한 정밀한 양자화 해상도를 가질 수도 있다. 한편, 주어진 프레임 동안, 어떠한 양의 정보도 포함하지 않거나 작은 양의 정보만을 포함하는 주파수 대역들은 훨씬 더 코오스한 양자화를 사용하여 양자화될 수도 있으며, 그에 의해, 데이터 비트들을 절약한다. 역양자화기(210)는, 개별 및 시변 양자화 해상도들을 사용하여 양자화되는 다양한 주파수 대역들을 공통 양자화 해상도로 가져오도록(bring) 구성될 수도 있다. 공통 양자화 해상도는, 예를 들어, 계산들 및 프로세싱을 위해 내부적으로 오디오 신호 디코더(100)에 의해 사용된 고정소수점 연산 표현에 의해 제공되는 해상도일 수도 있다. 예를 들어, 오디오 신호 디코더(100)는 16비트 또는 24비트 고정소수점 표현을 내부적으로 사용할 수도 있다. 역양자화기(210)에 제공되는 사이드 정보는, 각각의 새로운 프레임에 대한 복수의 주파수 대역 신호들에 대한 상이한 양자화 해상도들에 관한 정보를 포함할 수도 있다. 역양자화기(210)는, 도 5에 도시된 디코더 프리프로세싱 스테이지(110)의 특수한 경우로서 간주될 수도 있다.
도 6에 도시된 클림핑 추정기(120)는 도 5의 클림핑 추정기(120)와 유사하다.
오디오 신호 디코더(100)는 역양자화기(210)의 출력에 접속된 레벨 시프터(230)를 더 포함한다. 레벨 시프터(230)는, 사이드 정보 또는 사이드 정보의 일부 뿐만 아니라, 레벨 시프트 팩터가 상이한 값을 가정할 수도 있는 다이나믹 방식으로, 즉 각각의 시간 간격 또는 프레임 동안 클림핑 추정기(120)에 의해 결정된 레벨 시프트 팩터를 추가적으로 수신한다. 레벨 시프트 팩터는, 복수의 승수(multiplier)들 또는 스캐일링 엘리먼트들(231, 232, 및 233)을 사용하여 복수의 주파수 대역 신호들에 지속적으로 적용된다. 가급적 그들 각각의 MSB들을 이미 사용하여 역양자화기(210)를 유지하는 경우, 주파수 대역 신호들 중 몇몇이 비교적 강하다는 것이 발생할 수도 있다. 이들 강한 주파수 대역 신호들이 주파수-투-시간-도메인 변환기(140) 내에 부가되는 경우, 오버플로우가 주파수-투-시간-도메인 변환기(140)에 의해 출력된 시간-도메인 표현 내에서 관측될 수도 있다. 클림핑 추정기(120)에 의해 결정되고 스캐일링 엘리먼트들(231, 232, 233)에 의해 적용된 레벨 시프트 팩터는, 시간-도메인 표현의 오버플로우가 발생할 가능성이 더 작도록, 주파수 대역 신호들의 레벨들을 선택적으로 (즉, 현재의 사이드 정보를 고려하여) 감소시키는 것을 가능하게 한다. 레벨 시프터(230)는, 주파수 대역-특정 스캐일 팩터들을 대응하는 주파수 대역들에 적용하도록 구성된 제 2 복수의 승수들 또는 스캐일링 엘리먼트들(236, 237, 238)을 더 포함한다. 사이드 정보는 M개의 스캐일 팩터들을 포함할 수도 있다. 레벨 시프터(230)는, 레벨 시프팅된 주파수 대역 신호들을 시간-도메인 표현으로 변환하도록 구성된 주파수-투-시간-도메인 변환기(140)에 복수의 레벨 시프팅된 주파수 대역 신호들을 제공한다.
도 6의 오디오 신호 디코더(100)는, 도시된 실시예에서 추가적인 승수 또는 스캐일링 엘리먼트(250)를 포함하는 레벨 시프트 보상기(150) 및 역수(reciprocal) 계산기(252)를 더 포함한다. 역수 계산기(252)는, 레벨 시프트 팩터를 수신하고, 레벨 시프트 팩터의 역수(1/x)를 결정한다. 레벨 시프트 팩터의 역수는 추가적인 스캐일링 엘리먼트(250)에 포워딩되며, 여기서, 그 엘리먼트는 실질적으로 보상된 시간-도메인 표현을 생성하기 위해 시간-도메인 표현과 곱해진다. 승수들 또는 스캐일링 엘리먼트들(231, 232, 233, 및 252)에 대한 대안으로서, 복수의 주파수 대역 신호들 및 시간-도메인 표현에 레벨 시프트 팩터를 적용하기 위해 가산/감산 엘리먼트들을 사용하는 것이 또한 가능할 수도 있다.
선택적으로, 도 6의 오디오 신호 디코더(100)는, 레벨 시프트 보상기(150)의 출력에 접속된 후속 프로세싱 엘리먼트(260)를 더 포함한다. 예를 들어, 후속 프로세싱 엘리먼트(260)는, 레벨 시프터(230) 및 레벨 시프트 보상기(150)의 제공에도 불구하고, 실질적으로 보상된 시간-도메인 표현 내에 여전히 존재할 수도 있는 임의의 클림핑을 감소 또는 제거하기 위해 고정된 특징을 갖는 시간 도메인 리미터를 포함할 수도 있다. 선택적인 후속 프로세싱 엘리먼트(260)의 출력은 디코딩된 오디오 신호 표현을 제공한다. 선택적인 후속 프로세싱 엘리먼트(260)가 존재하지 않는 경우, 디코딩된 오디오 신호 표현은 레벨 시프트 보상기(150)의 출력에서 이용가능할 수도 있다.
도 7은 본 발명의 가능한 실시예들에 따른 오디오 신호 디코더(100)의 개략적인 블록도를 도시한다. 역양자화기/비트스트림 디코더(310)는, 인커밍 비트스트림을 프로세싱하고, 그로부터 다음의 정보, 즉 복수의 주파수 대역 신호들 X1(f), 비트스트림 파라미터들 p, 및 글로벌 이득 g1을 도출하도록 구성된다. 비트스트림 파라미터들 p는 주파수 대역들 및/또는 글로벌 이득 g1에 대한 스캐일 팩터들을 포함할 수도 있다.
비트스트림 파라미터들 p는, 비트스트림 파라미터들 p로부터 스캐일링 팩터 1/g2를 도출하는 클림핑 추정기(320)에 제공된다. 스캐일링 팩터 1/g2는, 도시된 실시예에서, 다이나믹 레인지 제어(DRC)를 또한 구현하는 레벨 시프터(330)에 공급된다. 레벨 시프터(330)는, 복수의 주파수 대역 신호들에 스캐일 팩터들을 적용하기 위해 비트스트림 파라미터들 p 또는 그들의 일부를 추가적으로 수신할 수도 있다. 레벨 시프터(330)는, 주파수-투-시간-도메인 변환을 제공하는 역 필터 뱅크(340)에 복수의 레벨 시프팅된 주파수 대역 신호들 X2(f)를 출력한다. 역 필터 뱅크(340)의 출력에서, 시간-도메인 표현 X3(t)는 레벨 시프트 보상기(350)에 공급되도록 제공된다. 레벨 시프트 보상기(350)는, 도 6에 도시된 실시예에서와 같이 승수 또는 스캐일링 엘리먼트이다. 레벨 시프트 보상기(350)는, 고정밀 프로세싱, 예를 들어, 역 필터 뱅크(340)보다 더 긴 워드 길이를 지원하기 위한 후속 시간 도메인 프로세싱(360)의 일부이다. 예를 들어, 역 필터 뱅크는 16비트들의 워드 길이를 가질 수도 있고, 후속 시간 도메인 프로세싱에 의해 수행되는 고정밀 프로세싱은 20비트들을 사용하여 수행될 수도 있다. 다른 예로서, 역 필터 뱅크(340)의 워드 길이는 24비트들일 수도 있으며, 고정밀 프로세싱의 워드 길이는 30비트들일 수도 있다. 임의의 이벤트에서, 비트들의 수는 명시적으로 나타내지 않으면, 본 특허/특허 출원의 범위를 제한하는 것으로서 고려되지 않아야 한다. 후속 시간 도메인 프로세싱(360)은 디코딩된 오디오 신호 표현 X4(t)을 출력한다.
적용된 이득 시프트 g2는 보상을 위해 리미터 구현(360)으로 앞으로 공급된다. 리미터(362)는 고정밀도로 구현될 수도 있다.
클림핑 추정기(320)가 임의의 클림핑을 추정하지 않으면, 오디오 샘플들은 실질적으로 변경되지 않게, 즉, 어떠한 레벨 시프트 및 레벨 시프트 보상도 수행되지 않은 것처럼 유지된다.
클림핑 추정기는 결합기(328)에 레벨 시프트 팩터 1/g2의 역수 g2를 제공하며, 결합기에서, 그 역수는 결합된 이득 g3을 산출하기 위해 글로벌 이득 g1과 결합된다.
오디오 신호 디코더(100)는, 결합된 이득 g3이 이전 프레임으로부터 현재 프레임까지 (또는 현재 프레임으로부터 후속 프레임까지) 급속하게 변하는 경우, 평활한 트랜지션들을 제공하도록 구성된 트랜지션 형상 조정(370)을 더 포함한다. 트랜지션 형상 조정기(370)는, 레벨 시프트 보상기(350)에 의한 사용을 위해 크로스페이딩(crossfade)된 레벨 시프트 팩터 g4를 획득하기 위하여 현재의 레벨 시프트 팩터 및 후속 레벨 시프트 팩터를 크로스페이딩하도록 구성될 수도 있다. 변하는 이득 팩터들의 평활한 트랜지션을 허용하기 위해, 트랜지션 형상 조정이 수행되어야 한다. 이러한 툴은 이득 팩터들 g4(t)의 벡터를 생성한다(하나의 팩터는 대응하는 오디오 신호의 각각의 샘플에 대한 것임). 주파수 도메인 신호의 프로세싱이 산출할 이득 조정의 동일한 거동을 미믹(mimic)하기 위해, 필터-뱅크(340)로부터의 동일한 트랜지션 윈도우들 W이 사용되어야 한다. 하나의 프레임은 복수의 샘플들을 커버한다. 결합된 이득 팩터 g3는 통상적으로 하나의 프레임의 지속기간 동안 일정하다. 트랜지션 윈도우 W는 통상적으로, 하나의 프레임 길이이며, 프레임 내의 각각의 샘플(예를 들어, 코사인의 제 1 하프-기간)에 대해 상이한 윈도우 값들을 제공한다. 트랜지션 형상 조정의 하나의 가능한 구현에 대한 세부사항들은 도 9 및 대응하는 아래의 설명에서 제공된다.
도 8은 복수의 주파수 대역 신호에 적용된 레벨 시프트의 효과를 개략적으로 도시한다. 오디오 신호(예를 들어, 복수의 주파수 대역 신호들의 각각의 신호)는 직사각형(402)에 의해 심볼화된 바와 같이, 16비트 해상도를 사용하여 표현될 수도 있다. 사각형(404)은, 디코더 프리프로세싱 스테이지(110)에 의해 제공된 주파수 대역 신호들 중 하나 내에서 양자화된 샘플을 표현하기 위해 16비트 해상도의 비트들이 어떻게 이용되는지를 개략적으로 도시한다. 양자화된 샘플이 최상위 비트(MSB)로부터 시작하여 아래로 양자화된 샘플에 대해 사용된 최종 비트까지의 특정한 수의 비트들을 사용할 수도 있음이 관측될 수 있다. 아래의 최하위 비트(LSB)로의 나머지 비트들은 양자화 잡음만을 포함한다. 이것은, 현재의 프레임에 대해, 대응하는 주파수 대역 신호가 단지 감소된 수의 비트들(<16비트들)에 의해 표현되었다는 사실에 의해 설명될 수도 있다. 16비트들의 풀(full) 비트 해상도가 현재의 프레임 및 대응하는 주파수 대역에 대한 비트스트림 내에서 사용되었더라도, 최하위 비트는 통상적으로 상당한 양의 양자화 잡음을 포함한다.
도 8의 직사각형(406)은, 주파수 대역 신호를 레벨 시프팅한 결과를 개략적으로 도시한다. 최하위 비트(들)의 콘텐츠가 상당한 양의 양자화 잡음을 포함하도록 예상될 수 있으므로, 양자화된 샘플은 관련 정보를 실질적으로 손실하지 않으면서 최하위 비트를 향해 시프팅될 수 있다. 이것은, 비트들을 하향으로("우측 시프트") 간단히 시프팅함으로써 또는 바이너리 표현을 실제로 재계산함으로써 달성될 수도 있다. 둘 모두의 경우들에서, 레벨 시프트 팩터는, (예를 들어, 레벨 시프트 보상기(150 또는 350)에 의해) 적용된 레벨 시프트의 추후의 보상을 위해 메모리화될 수도 있다. 레벨 시프트는 최상위 비트(들)에서 부가적인 헤드룸을 초래한다.
도 9는, 도 7에 도시된 트랜지션 형상 조정(370)의 가능한 구현을 개략적으로 도시한다. 트랜지션 형상 조정기(370)는, 이전의 레벨 시프트 팩터에 대한 메모리(371), 윈도우 형상을 현재의 레벨 시프트 팩터에 적용함으로써 제 1 복수의 윈도우잉된 샘플들을 생성하도록 구성된 제 1 윈도우어(windower)(372), 메모리(371)에 의해 제공된 이전의 레벨 시프트 팩터에 이전의 윈도우 형상을 적용함으로써 제 2 복수의 윈도우잉된 샘플들을 생성하도록 구성된 제 2 윈도우어(376), 및 복수의 결합된 샘플들을 획득하기 위해 제 1 복수의 윈도우잉된 샘플들 및 제 2 복수의 윈도우잉된 샘플들의 상호 대응하는 윈도우잉된 샘플들을 결합하도록 구성된 샘플 결합기(379)를 포함할 수도 있다. 제 1 윈도우어(372)는 윈도우 형상 제공기(373) 및 곱셈기(374)를 포함한다. 제 2 윈도우어(376)는 이전의 윈도우 형상 제공기(377) 및 추가적인 곱셈기(378)를 포함한다. 곱셈기(374) 및 추가적인 곱셈기(378)는 시간에 걸쳐 벡터들을 출력한다. 제 1 윈도우어(372)의 경우에서, 각각의 벡터 엘리먼트는, 윈도우 형상 제공기(373)에 의해 제공된 현재의 윈도우 형상과 (현재의 프레임 동안 일정한) 현재의 결합된 이득 팩터 g3(t)의 곱셈에 대응한다. 제 2 윈도우어(376)의 경우에서, 각각의 벡터 엘리먼트는, 이전의 윈도우 형상 제공기(377)에 의해 제공된 이전의 윈도우 형상과 (이전의 프레임 동안 일정한) 이전의 결합된 이득 팩터 g3(t-T)의 곱셈에 대응한다.
도 9에 개략적으로 도시된 실시예에 따르면, 이전의 프레임으로부터의 이득 팩터는 필터-뱅크(340)의 "제 2 하프" 윈도우와 곱해져야 하지만, 실제 이득 팩터는 "제 1 하프" 윈도우 시퀀스와 곱해진다. 이들 2개의 벡터들은, 오디오 신호 X3(t)과 엘리먼트-와이즈(element-wise) 곱해질 하나의 이득 벡터 g4(t)를 형성하기 위해 합산될 수 있다(도 7 참조).
요구된다면, 윈도우 형상들은 필터-뱅크(340)로부터의 사이드 정보 w에 의해 안내될 수도 있다.
윈도우 형상 및 이전의 윈도우 형상은 또한, 레벨 시프팅된 주파수 대역 신호들을 시간-도메인 표현으로 변환하고, 현재의 레벨 시프트 팩터와 이전의 레벨 시프트 팩터를 윈도우잉하기 위해 동일한 윈도우 형상 및 이전의 윈도우 형상이 사용되도록, 주파수-투-시간-도메인 변환기(340)에 의해 사용될 수도 있다.
현재의 레벨 시프트 팩터는 복수의 주파수 대역 신호들의 현재의 프레임 동안 유효할 수도 있다. 이전의 레벨 시프트 팩터는 복수의 주파수 대역 신호들의 이전의 프레임 동안 유효할 수도 있다. 현재의 프레임 및 이전의 프레임은, 예를 들어, 50%만큼 중첩할 수도 있다.
트랜지션 형상 조정(370)은, 이전의 프레임 팩터 시퀀스를 초래하는 이전의 윈도우 형상의 제 2 부분과 이전의 레벨 시프트 팩터를 결합하도록 구성될 수도 있다. 트랜지션 형상 조정(370)은, 현재의 프레임 팩터 시퀀스를 초래하는 현재의 윈도우 형상의 제 1 부분과 현재의 레벨 시프트 팩터를 결합하도록 추가적으로 구성될 수도 있다. 크로스페이딩된 레벨 시프트 팩터의 시퀀스는 이전의 프레임 팩터 시퀀스 및 현재의 프레임 팩터 시퀀스에 기초하여 결정될 수도 있다.
제안된 접근법은 반드시 디코더들로 제한될 필요가 없으며, 또한 인코더들은, 제안된 방법으로부터 이득을 얻을 수도 있는 필터-뱅크와 결합하여 이득 조정 또는 리미터를 가질 수도 있다.
도 10은, 디코더 프리프로세싱 스테이지(110)와 클림핑 추정기(120)가 어떻게 접속되는지를 도시한다. 디코더 프리프로세싱 스테이지(110)는 코드북 결정기(1100)에 대응하거나 그것을 포함한다. 클림핑 추정기(120)는 추정 유닛(1120)을 포함한다. 코드북 결정기(1110)는, 복수의 코드북들로부터 일 코드북을 식별된 코드북으로서 결정하도록 적응되며, 여기서, 오디오 신호는 식별된 코드북을 이용함으로써 인코딩된다. 추정 유닛(1120)은, 식별된 코드북과 연관된 레벨 값, 예를 들어, 에너지 값, 진폭 값 또는 라우드니스 값을 도출된 레벨 값으로서 도출하도록 적응된다. 또한, 추정 유닛(1120)은, 도출된 레벨 값을 사용하여 오디오 신호의 레벨 추정, 예를 들어, 에너지 추정, 진폭 추정 또는 라우드니스 추정을 추정하도록 적응된다. 예를 들어, 코드북 결정기(1110)는, 인코딩된 오디오 신호와 함께 송신된 사이드 정보를 수신함으로써, 오디오 신호를 인코딩하기 위하여 인코더에 의해 사용된 코드북을 결정할 수도 있다. 특히, 사이드 정보는, 오디오 신호의 고려된 섹션을 인코딩하기 위해 사용된 코드북을 식별하는 정보를 포함할 수도 있다. 그러한 정보는, 예를 들어, 오디오 신호의 고려된 섹션을 인코딩하기 위해 사용된 호프만 코드북을 식별하는 수로서 인코더로부터 디코더로 송신될 수도 있다.
도 11은 일 실시예에 따른 추정 유닛을 도시한다. 추정 유닛은 레벨 값 도출기(1210) 및 스캐일링 유닛(1220)을 포함한다. 레벨 값 도출기는, 메모리에서 레벨 값을 룩업(look up)함으로써, 로컬 데이터베이스로부터 레벨 값을 요청함으로써, 또는 원격 컴퓨터로부터 식별된 코드북과 연관된 레벨 값을 요청함으로써, 식별된 코드북, 즉, 인코더에 의해 스펙트럼 데이터를 인코딩하기 위하여 사용되었던 코드북과 연관된 레벨 값을 도출하도록 적응된다. 일 실시예에서, 레벨 값 도출기에 의해 룩업되거나 요청된 레벨 값은, 식별된 코드북을 사용함으로써 인코딩되는 인코딩된 스캐일링되지 않은 스펙트럼 값의 평균 레벨을 표시하는 평균 레벨 값일 수도 있다.
이에 의해, 도출된 레벨 값은 실제 스펙트럼 값들로부터 계산되지는 않지만, 대신, 이용된 코드북에만 의존하는 평균 레벨 값이 사용된다. 이전에 설명된 바와 같이, 인코더는 일반적으로, 오디오 신호의 섹션의 각각의 스펙트럼 데이터를 인코딩하기 위해 최상으로 피트되는 복수의 코드북들로부터 코드북을 선택하도록 적응된다. 코드북들이, 예를 들어, 인코딩될 수 있는 그들의 최대 절대 값에 대해 상이하므로, 호프만 코드북에 의해 인코딩된 평균 값은 코드북마다 상이하며, 따라서, 특정한 코드북에 의해 인코딩되는 인코딩된 스펙트럼 계수의 평균 레벨 값 또한 코드북마다 상이하다.
따라서, 일 실시예에 따르면, 특정한 호프만 코드북을 이용하여 오디오 신호의 스펙트럼 계수를 인코딩하기 위한 평균 레벨 값은 각각의 호프만 코드북에 대해 결정될 수 있으며, 예를 들어, 메모리, 데이터베이스에 또는 원격 컴퓨터 상에 저장될 수 있다. 그 후, 레벨 값 도출기는 간단히, 식별된 코드북과 연관되는 도출된 레벨 값을 획득하도록, 스펙트럼 데이터를 인코딩하기 위해 이용되는 식별된 코드북과 연관된 레벨 값을 룩업 또는 요청해야 한다.
그러나, MPEG AAC에 대한 경우처럼, 호프만 코드북들이 스캐일링되지 않은 스펙트럼 값들을 인코딩하기 위해 종종 이용된다는 것을 고려해야 된다. 그러나, 그 후, 레벨 추정이 수행되는 경우, 스캐일링이 고려되어야 한다. 따라서, 도 11의 추정 유닛은 또한, 스캐일링 유닛(1220)을 포함한다. 스캐일링 유닛은, 인코딩된 오디오 신호 및 인코딩된 오디오 신호의 일부에 관련된 스캐일팩터를 도출된 스캐일팩터로서 도출하도록 적응된다. 예를 들어, 디코더에 대해, 스캐일링 유닛(1220)은 각각의 스캐일팩터 대역에 대해 스캐일팩터를 결정할 것이다. 예를 들어, 스캐일 유닛(1220)은, 인코더로부터 디코더로 송신된 사이드 정보를 수신함으로써 스캐일팩터 대역의 스캐일팩터에 대한 정보를 수신할 수도 있다. 스캐일링 유닛(1220)은 또한, 스캐일팩터 및 도출된 레벨 값에 기초하여, 스캐일링된 레벨 값을 결정하도록 적응된다.
일 실시예에서, 도출된 레벨 값이 도출된 에너지 값인 경우, 스캐일링 유닛은, 도출된 스캐일팩터의 제곱과 도출된 에너지 값을 곱함으로써, 스캐일링된 레벨 값을 획득하기 위해, 도출된 에너지 값에 도출된 스캐일팩터를 적용하도록 적응된다.
다른 실시예에서, 도출된 레벨 값이 도출된 진폭 값인 경우, 스캐일링 유닛은, 도출된 스캐일팩터와 도출된 진폭 값을 곱함으로써, 스캐일링된 레벨 값을 획득하기 위해, 도출된 진폭 값에 도출된 스캐일팩터를 적용하도록 적응된다.
추가적인 실시예에서, 도출된 레벨 값이 도출된 라우드니스 값인 경우, 스캐일링 유닛(1220)은, 도출된 스캐일팩터의 세제곱과 도출된 라우드니스 값을 곱함으로써, 스캐일링된 레벨 값을 획득하기 위해, 도출된 라우드니스 값에 도출된 스캐일팩터를 적용하도록 적응된다. 지수 3/2에 의해서와 같이 라우드니스를 계산하기 위한 대안적인 방식들이 존재한다. 일반적으로, 도출된 레벨 값이 라우드니스 값인 경우, 스캐일팩터들은 라우드니스 도메인으로 변환되어야 한다.
이들 실시예들은, 에너지 값이 오디오 신호의 스펙트럼 계수들의 제곱에 기초하여 결정된다는 것, 진폭 값이 오디오 신호의 스펙트럼 계수들의 절대 값들에 기초하여 결정된다는 것, 및 라우드니스 값이 라우드니스 도메인으로 변환되는 오디오 신호의 스펙트럼 계수들에 기초하여 결정된다는 것을 고려한다.
추정 유닛은 스캐일링된 레벨 값을 사용하여 오디오 신호의 레벨 추정을 추정하도록 적응된다. 도 11의 실시예에서, 추정 유닛은, 스캐일링된 레벨 값을 레벨 추정으로서 출력하도록 적응된다. 이러한 경우, 스캐일링된 레벨 값의 어떠한 포스트-프로세싱도 수행되지 않는다. 그러나, 도 12의 실시예에 도시된 바와 같이, 추정 유닛은 또한, 포스트-프로세싱을 수행하도록 적응될 수도 있다. 따라서, 도 12의 추정 유닛은, 레벨 추정을 추정하기 위해 하나 또는 그 초과의 스캐일링된 레벨 값들을 포스트-프로세싱하기 위한 포스트-프로세서(1230)를 포함한다. 예를 들어, 추정 유닛의 레벨 추정은, 복수의 스캐일링된 레벨 값들의 평균 값을 결정함으로써 포스트-프로세서(1230)에 의해 결정될 수도 있다. 이러한 평균된 값은 추정 유닛에 의해 레벨 추정으로서 출력될 수도 있다.
제시된 실시예들과는 대조적으로, 예를 들어, 하나의 스캐일팩터 대역의 에너지를 추정하기 위한 최신 기술의 접근법은, 모든 스펙트럼 값들에 대해 호프만 디코딩 및 역양자화를 행하고, 모든 역양자화된 스펙트럼 값들의 제곱을 합산함으로써 에너지를 계산하는 것일 것이다.
그러나, 제안된 실시예들에서, 최신 기술의 이러한 계산적으로 복잡한 프로세스는, 실제 양자화된 값들이 아니라 코드북이 사용하는 스캐일팩터에만 의존하는 평균 레벨의 추정에 의해 대체된다.
본 발명의 실시예들은, 호프만 코드북이 전용 통계를 따르는 최적의 코딩을 제공하도록 설계된다는 사실을 이용한다. 이것은, 코드북이 데이터의 확률, 예를 들어, AAC-ELD(AAC-ELD = Advanced Audio Coding - Enhanced Low Delay): 스펙트럼 라인들에 따라 설계된다는 것을 의미한다. 이러한 프로세스는 코드북에 따라 데이터의 확률을 획득하도록 인버팅될 수 있다. 코드북(인덱스) 내부의 각각의 데이터 엔트리의 확률은 코드워드의 길이에 의해 주어진다. 예를 들어,
p(index) = 2^-length(codeword)
즉,
p(index) = 2-length(codeword) 이고,
여기서, p(index)는 코드북 내부의 데이터 엔트리(인덱스)의 확률이다.
이에 기초하여, 예상된 레벨은 다음의 방식으로 사전-계산되고 저장될 수 있으며, 각각의 인덱스는 정수 값들(x), 예를 들어, 스펙트럼 라인들의 시퀀스를 표현하고, 여기서, 시퀀스의 길이는 코드북의 차원, 예를 들어, AAC-ELD에 대해서는 2 또는 4에 의존한다.
도 13a 및 13b는 일 실시예에 따른 코드북과 연관된 레벨 값, 예를 들어, 에너지 값, 진폭 값 또는 라우드니스 값을 생성하기 위한 방법을 도시한다. 방법은 다음을 포함한다.
코드북의 각각의 코드워드에 대한 코드북의 코드워드와 연관된 수치 값들의 시퀀스를 결정하는 단계(단계(1310)). 이전에 설명된 바와 같이, 코드북은 코드북의 코드워드에 의해 수치 값들, 예를 들어, 2 또는 4의 수치 값들의 시퀀스를 인코딩한다. 코드북은, 수치 값들의 복수의 시퀀스들을 인코딩하기 위해 복수의 코드북들을 포함한다. 결정되는 수치 값들의 시퀀스는, 코드북의 고려된 코드워드에 의해 인코딩된 수치 값들의 시퀀스이다. 단계(1310)는 코드북의 각각의 코드워드에 대해 수행된다. 예를 들어, 코드북이 81개의 코드워드들을 포함하면, 수치 값들의 81개의 시퀀스들이 단계(1310)에서 결정된다.
단계(1320)에서, 수치 값들의 역양자화된 시퀀스는, 코드북의 각각의 코드워드에 대한 코드워드의 수치 값들의 시퀀스의 수치 값들에 역양자화기를 적용함으로써, 코드북의 각각의 코드워드에 대해 결정된다. 이전에 설명된 바와 같이, 오디오 신호의 스펙트럼 값들을 인코딩하는 경우, 인코더는 일반적으로 양자화, 예를 들어, 비-균일한 양자화를 이용할 수도 있다. 결과로서, 이러한 양자화는 디코더 측 상에서 인버팅되어야 한다.
그 후, 단계(1330)에서, 레벨 값들의 시퀀스가 코드북의 각각의 코드워드에 대해 결정된다.
에너지 값이 코드북 레벨 값으로서 생성될 것이라면, 에너지 값들의 시퀀스는 각각의 코드워드에 대해 결정되고, 수치 값들의 역양자화된 시퀀스의 각각의 값의 제곱은 코드북의 각각의 코드워드에 대해 계산된다.
그러나, 진폭 값이 코드북 레벨 값으로서 생성될 것이라면, 진폭 값들의 시퀀스는 각각의 코드워드에 대해 결정되고, 수치 값들의 역양자화된 시퀀스의 각각의 값의 절대 값은 코드북의 각각의 코드워드에 대해 계산된다.
하지만, 라우드니스 값이 코드북 레벨 값으로서 생성될 것이라면, 라우드니스 값들의 시퀀스는 각각의 코드워드에 대해 결정되고, 수치 값들의 역양자화된 시퀀스의 각각의 값의 세제곱은 코드북의 각각의 코드워드에 대해 계산된다. 지수 3/2에 의해서와 같이 라우드니스를 계산하기 위한 대안적인 방식들이 존재한다. 일반적으로, 라우드니스 값이 코드북 레벨 값으로서 생성될 경우, 수치 값들의 역양자화된 시퀀스의 값들은 라우드니스 도메인으로 변환되어야 한다.
후속하여, 단계(1340)에서, 코드북의 각각의 코드워드에 대한 레벨 합산 값은, 코드북의 각각의 코드워드에 대한 레벨 값들의 시퀀스의 값들을 합산함으로써 계산된다.
그 후, 단계(1350)에서, 확률-가중된 레벨 합산 값은, 코드북의 각각의 코드워드에 대한 코드워드와 연관된 확률 값과 코드워드의 레벨 합산 값을 곱함으로써 코드북의 각각의 코드워드에 대해 결정된다. 이에 의해, 수치 값들의 시퀀스 중 몇몇, 예를 들어, 스펙트럼 계수들의 시퀀스들이 스펙트럼 계수들의 다른 시퀀스들만큼 빈번하게 나타나지는 않을 것이라는 것이 고려된다. 코드워드와 연관된 확률 값이 고려된다. 호프만-인코딩이 이용되는 경우, 나타날 가능성이 더 있는 코드워드들이 더 짧은 길이를 갖는 코드워드들을 사용함으로써 인코딩되지만, 나타날 가능성이 더 작은 다른 코드워드들이 더 긴 길이를 갖는 코드워드들을 사용함으로써 인코딩될 것이므로, 그러한 확률 값은 코드워드의 길이로부터 도출될 수도 있다.
단계(1360)에서, 코드북의 각각의 코드워드에 대한 평균된 확률-가중된 레벨 합산 값은, 코드북의 각각의 코드워드에 대한 코드워드와 연관된 차원 값으로 코드워드의 확률-가중된 레벨 합산 값을 나눔으로써 결정될 것이다. 차원 값은, 코드북의 코드워드에 의해 인코딩되는 스펙트럼 값들의 수를 표시한다. 이에 의해, 코드워드에 의해 인코딩된 스펙트럼 계수에 대한 레벨 값(확률-가중됨)을 표현하는 평균된 확률-가중된 레벨 합산 값이 결정된다.
그 후, 단계(1370)에서, 코드북의 레벨 값은, 모든 코드워드들의 평균된 확률-가중된 레벨 합산 값들을 합산함으로써 계산된다.
레벨 값의 그러한 생성이 코드북에 대해 1회만 행해져야함을 유의해야 한다. 코드북의 레벨 값이 결정되면, 이러한 값은, 예를 들어, 상술된 실시예들에 다른 레벨 추정을 위한 장치에 의해 간단히 룩업 및 사용될 수 있다.
다음으로, 일 실시예에 따른 코드북과 연관된 에너지 값을 생성하기 위한 방법이 제시된다. 주어진 코드북을 이용하여 코딩된 데이터의 에너지의 예상된 값을 추정하기 위해, 다음의 단계들이 코드북의 각각의 인덱스에 대해 1회만 수행되어야 한다:
A) 시퀀스의 정수 값들에 역양자화기를 적용함(예를 들어, AAC-ELD: x^(4/3))
B) A)의 시퀀스의 각각의 값을 제곱함으로써 에너지를 계산함
C) B)의 시퀀스의 합산을 구축함
D) 인덱스의 주어진 확률과 C)를 곱함
E) 스펙트럼 라인 당 예상된 에너지를 획득하기 위해 코드북의 차원으로 나눔
최종적으로, E)에 의해 계산된 모든 값들은 완성된 코드북의 예상된 에너지를 획득하기 위해 합산되어야 한다.
이들 단계들의 출력이 표에 저장된 이후, 추정된 에너지 값들은 코드북 인덱스에 기초하여, 즉 어떤 코드북이 사용되는지에 의존하여 간단히 룩업될 수 있다. 실제 스펙트럼 값들은 이러한 추정을 위해 호프만-디코딩될 필요가 없다.
완성된 오디오 프레임의 스펙트럼 데이터의 전체 에너지를 추정하기 위해, 스캐일팩터가 고려되어야 한다. 스캐일팩터는 상당한 양의 복잡도 없이 비트 스트림으로부터 추출될 수 있다. 예상된 에너지에 대해 적용되기 전에, 스캐일팩터는 변경될 수도 있으며, 예를 들어, 사용된 스캐일팩터의 제곱이 계산될 수도 있다. 그 후, 예상된 에너지는 사용된 스캐일팩터의 제곱과 곱해진다.
상술된 실시예들에 따르면, 각각의 스캐일팩터 대역에 대한 스펙트럼 레벨은 호프만 코딩된 스펙트럼 값들을 디코딩하지 않으면서 추정될 수 있다. 레벨의 추정들은, 통상적으로 클림핑을 초래하지 않는 낮은 레벨, 예를 들어, 낮은 전력을 갖는 스트림들을 식별하기 위해 사용될 수 있다. 따라서, 그러한 스트림들의 풀 디코딩이 회피될 수 있다.
일 실시예에 따르면, 레벨 추정을 위한 장치는, 레벨 값이 코드북과 연관된다는 것을 표시하는 복수의 코드북 레벨의 메모리 값들이 저장된 메모리 또는 데이터베이스를 더 포함하며, 여기서, 복수의 코드북들의 각각의 코드북은 메모리 또는 데이터베이스에 저장된 것과 연관된 코드북 레벨 메모리 값을 갖는다. 또한, 레벨 값 도출기는, 메모리 또는 데이터베이스로부터 식별된 코드북과 연관된 코드북 레벨 메모리 값을 도출함으로써, 식별된 코드북과 연관된 레벨 값을 도출하도록 구성된다.
예측 필터링과 같은 예측으로서의 추가적인 프로세싱 단계가, 예를 들어, AAC-ELD TNS(Temporal Noise Shaping) 필터링에 대해 코덱에 적용되면, 상술된 실시예들에 따라 추정된 레벨은 변할 수 있다. 여기서, 예측의 계수들은 비트 스트림 내부에서, 예를 들어, PARCOR 계수들로서 TNS에 대해 송신된다.
도 14는, 추정 유닛이 예측 필터 조정기(1240)를 더 포함하는 일 실시예를 도시한다. 예측 필터 조정기는, 인코딩된 오디오 신호 및 인코딩된 오디오 신호의 일부에 관련된 하나 또는 그 초과의 예측 필터 계수들을 도출된 스캐일팩터들로서 도출하도록 적응된다. 또한, 예측 필터 조정기는, 예측 필터 계수들 및 도출된 레벨 값에 기초하여 예측-필터-조정된 레벨 값을 획득하도록 적응된다. 또한, 추정 유닛은 예측-필터-조정된 레벨 값을 사용하여 오디오 신호의 레벨 추정을 추정하도록 적응된다.
일 실시예에서, TNS에 대한 PARCOR 계수들은 예측 필터 계수들로서 사용된다. 필터링 프로세스의 예측 이득은 매우 효율적인 방식으로 그들 계수들로부터 결정될 수 있다. TNS에 관해, 예측 이득은 수식: gain = 1 /prod(1-parcor.^2)에 따라 계산될 수 있다.
예를 들어, 3개의 PARCOR 계수들, 예를 들어, parcor1, parcor2 및 parcor3가 고려되어야 하면, 이득은 다음의 수식에 따라 계산된다.
Figure pat00001
n개의 PARCOR 계수들, 즉, parcor1, parcor2, ... parcorn에 대해, 다음의 수식이 적용된다.
Figure pat00002
이것은, 필터링을 통한 오디오 신호의 증폭이 필터링 동작 그 자체를 적용하지 않으면서 추정될 수 있다는 것을 의미한다.
도 15는, 필터-뱅크를 "우회"하는 제안된 이득 조정을 구현하는 인코더(1500)의 개략적인 블록도를 도시한다. 오디오 신호 인코더(1500)는, 입력 오디오 신호의 시간-도메인 표현에 기반하여, 인코딩된 오디오 신호 표현을 제공하도록 구성된다. 시간-도메인 표현은, 예를 들어, 펄스 코드 변조된 오디오 입력 신호일 수도 있다.
오디오 신호 인코더는, 입력 오디오 표현에 대한 현재의 레벨 시프트 팩터를 결정하기 위해 입력 오디오 신호의 시간-도메인 표현을 분석하도록 구성된 클림핑 추정기(1520)를 포함한다. 오디오 신호 인코더는, 레벨 시프팅된 시간-도메인 표현을 획득하기 위해 레벨 시프트 팩터에 따라 입력 오디오 신호의 시간-도메인 표현의 레벨을 시프팅하도록 구성된 레벨 시프터(1530)를 더 포함한다. 시간-투-주파수 도메인 변환기(1540)(예를 들어, 직교 미러 필터들의 뱅크와 같은 필터-뱅크, 변경된 이산 코사인 변환 등)는, 레벨 시프팅된 시간-도메인 표현을 복수의 주파수 대역 신호들로 변환하도록 구성된다. 오디오 신호 인코더(1500)는 또한, 레벨 시프터(1530)에 의해 레벨 시프팅된 시간 도메인 표현에 적용된 레벨 시프트를 적어도 부분적으로 보상하고, 복수의 실질적으로 보상된 주파수 대역 신호들을 획득하기 위하여 복수의 주파수 대역 신호들에 대해 동작하도록 구성된 레벨 시프터 보상기(1550)를 포함한다.
오디오 신호 인코더(1500)는, 비트/잡음 할당, 양자화기, 및 코딩 컴포넌트(1510) 및 심리음향 모델(1508)을 더 포함할 수도 있다. 심리음향 모델(1508)은, 비트/잡음 할당, 양자화기, 및 코딩(1610)에 의해 사용되기 위해, PCM 입력 오디오 신호에 기반하여 시간-주파수-가변 마스킹 임계치들(및/또는 주파수-대역-개별 및 프레임-개별 양자화 해상도들, 및 스캐일 팩터들)을 결정한다. 심리음향 모델의 하나의 가능한 구현 및 지각적인 오디오 인코딩의 다른 양상들에 대한 세부사항들은, 예를 들어, 국제 표준들 ISO/IEC 11172-3 및 ISO/IEC 13818-3에서 발견될 수 있다. 비트/잡음 할당, 양자화기, 및 코딩(1510)은, 그들의 주파수-대역-개별 및 프레임-개별 양자화 해상도들에 따라 복수의 주파수 대역 신호들을 양자화하고, 하나 또는 그 초과의 오디오 신호 디코더들에 제공될 인코딩된 비트스트림을 출력하는 비트스트림 포맷터(formatter)(1505)에 이들 데이터를 제공하도록 구성된다. 비트/잡음 할당, 양자화기, 및 코딩(1510)은 복수의 양자화된 주파수 신호들에 부가하여 사이드 정보를 결정하도록 구성될 수도 있다. 이러한 사이드 정보는 또한, 비트스트림으로의 포함을 위해 비트스트림 포맷터(1505)에 제공될 수도 있다.
도 16은, 디코딩된 오디오 신호 표현을 획득하기 위해, 인코딩된 오디오 신호 표현을 디코딩하기 위한 방법의 개략적인 흐름도를 도시한다. 방법은, 복수의 주파수 대역 신호들을 획득하기 위해 인코딩된 오디오 신호 표현을 프리프로세싱하는 단계(1602)를 포함한다. 특히, 프리프로세싱은, 연속하는 프레임들에 대응하는 데이터로 비트스트림을 언패킹하는 단계, 및 복수의 주파수 대역 신호들을 획득하기 위해 주파수 대역-특정 양자화 해상도들에 따라 주파수 대역-관련 데이터를 재양자화(역 양자화)하는 단계를 포함할 수도 있다.
디코딩하기 위한 방법의 단계(1604)에서, 주파수 대역 신호들의 이득에 대한 사이드 정보는, 인코딩된 오디오 신호 표현에 대한 현재의 레벨 시프트 팩터를 결정하기 위해 분석된다. 주파수 대역 신호들에 대한 이득은, 각각의 주파수 대역 신호에 대해 개별적일 수도 있거나(예를 들어, 몇몇 지각적인 오디오 코딩 방식들에서 알려진 스캐일 팩터들 또는 유사한 파라미터들), 또는 모든 주파수 대역 신호에 공통적일 수도 있다(예를 들어, 몇몇 지각적인 오디오 인코딩 방식들에서 알려진 글로벌 이득). 사이드 정보의 분석은, 인접한 프레임 동안, 인코딩된 오디오 신호의 라우드니스에 대한 정보를 수집하는 것을 허용한다. 차례로, 라우드니스는, 클림핑하게 될 디코딩된 오디오 신호 표현의 경향을 표시할 수도 있다. 레벨 시프트 팩터는 통상적으로, (모든) 주파수 대역 신호들의 관련 다이나믹 레인지 및/또는 관련 정보 콘텐츠를 보존하면서 그러한 클림핑을 방지하는 값으로서 결정된다.
디코딩하기 위한 방법은, 레벨 시프트 팩터에 따라 주파수 대역 신호의 레벨들을 시프팅하는 단계(1606)를 더 포함한다. 주파수 대역 신호들이 더 낮은 레벨로 레벨 시프팅되는 경우, 레벨 시프트는, 주파수 대역 신호들의 바이너리 표현의 최상위 비트(들)에서 몇몇 부가적인 헤드룸을 생성한다. 시간 도메인 표현을 획득하기 위해 복수의 주파수 대역 신호들을 주파수 도메인으로부터 시간 도메인으로 변환하는 경우, 이러한 부가적인 헤드룸이 필요할 수도 있으며, 이는 후속 단계(1608)에서 행해진다. 특히, 부가적인 헤드룸은, 주파수 대역 신호들 중 몇몇이 그들의 진폭 및/또는 전력에 대한 상한에 인접하면 시간 도메인 표현이 클림핑할 위험을 감소시킨다. 결과로서, 주파수-투-시간-도메인 변환은 비교적 작은 워드 길이를 사용하여 수행될 수도 있다.
디코딩하기 위한 방법은 또한, 레벨 시프팅된 주파수 대역 신호들에 적용된 레벨 시프트를 적어도 부분적으로 보상하기 위해 시간 도메인 표현에 대해 동작하는 단계(1609)를 포함한다. 후속하여, 실질적으로 보상된 시간 표현이 획득된다.
따라서, 인코딩된 오디오 신호 표현을 디코딩된 오디오 신호 표현으로 디코딩하기 위한 방법은 다음을 포함한다:
- 복수의 주파수 대역 신호들을 획득하기 위해 인코딩된 오디오 신호 표현을 프리프로세싱하는 단계;
- 인코딩된 오디오 신호 표현에 대한 현재의 레벨 시프트 팩터를 결정하기 위해 주파수 대역 신호들의 이득에 대한 사이드 정보를 분석하는 단계;
- 레벨 시프팅된 주파수 대역 신호들을 획득하기 위해 레벨 시프트 팩터에 따라 주파수 대역 신호들의 레벨들을 시프팅하는 단계;
- 주파수 대역 신호들의 시간-도메인 표현으로의 주파수-투-시간-도메인 변환을 수행하는 단계; 및
- 레벨 시프팅된 주파수 대역 신호들에 적용된 레벨 시프트를 적어도 부분적으로 보상하고, 실질적으로 보상된 시간-도메인 표현을 획득하기 위하여 시간-도메인 표현에 대해 동작하는 단계.
추가적인 양상들에 따르면, 사이드 정보에 기반하여 클림핑 가능성을 결정하는 단계 및 클림핑 가능성에 기반하여 현재의 레벨 시프트 팩터를 결정하는 단계를 포함할 수도 있다.
추가적인 양상들에 따르면, 사이드 정보는, 복수의 주파수 대역 신호들에 대한 글로벌 이득 팩터 및 복수의 스캐일 팩터들 중 적어도 하나를 포함할 수도 있으며, 각각의 스캐일 팩터는 복수의 주파수 대역 신호들 중 하나의 주파수 대역 신호에 대응한다.
추가적인 양상들에 따르면, 인코딩된 오디오 신호 표현을 프리프로세싱하는 단계는, 복수의 연속하는 프레임들의 형태로 복수의 주파수 대역 신호들을 획득하는 단계를 포함할 수도 있고, 사이드 정보를 분석하는 단계는, 현재의 프레임에 대한 현재의 레벨 시프트 팩터를 결정하는 단계를 포함할 수도 있다.
추가적인 양상들에 따르면, 디코딩된 오디오 신호 표현은, 실질적으로 보상된 시간-도메인 표현에 기반하여 결정될 수도 있다.
추가적인 양상들에 따르면, 방법은, 레벨 시프트를 적어도 부분적으로 보상하기 위하여 시간-도메인 표현에 대해 동작하는 것에 후속하여 시간 도메인 리미터 특징을 적용하는 단계를 더 포함할 수도 있다.
추가적인 양상들에 따르면, 주파수 대역 신호들의 이득에 대한 사이드 정보는 복수의 주파수 대역-관련 이득 팩터들을 포함할 수도 있다.
추가적인 양상들에 따르면, 인코딩된 오디오 신호를 프리프로세싱하는 단계는, 복수의 주파수 대역-특정 양자화 표시자들 중 일 주파수 대역-특정 양자화 표시자를 사용하여 각각의 주파수 대역 신호를 재양자화하는 단계를 포함할 수도 있다.
추가적인 양상들에서, 방법은, 트랜지션 형상 조정을 수행하는 단계를 더 포함하며, 트랜지션 형상 조정은, 레벨 시프트를 적어도 부분적으로 보상하는 동작 동안 사용을 위하여, 크로스페이딩된 레벨 시프트 팩터를 획득하도록 현재의 레벨 시프트 팩터 및 후속 레벨 시프트 팩터를 크로스페이딩하는 것을 포함한다.
추가적인 양상들에 따르면, 트랜지션 형상 조정은 다음을 더 포함할 수도 있다.
- 이전의 레벨 시프트 팩터를 임시로 저장하는 것,
- 윈도우 형상을 현재의 레벨 시프트 팩터에 적용함으로써 제 1 복수의 윈도우잉된 샘플들을 생성하는 것,
- 이전의 레벨 시프트 팩터를 임시로 저장하는 동작에 의해 제공된 이전의 레벨 시프트 팩터에 이전의 윈도우 형상을 적용함으로써 제 2 복수의 윈도우잉된 샘플들을 생성하는 것, 및
- 복수의 결합된 샘플들을 획득하기 위해, 제 1 복수의 윈도우잉된 샘플들 및 제 2 복수의 윈도우잉된 샘플들의 상호 대응하는 윈도우잉된 샘플들을 결합하는 것.
추가적인 양상들에 따르면, 윈도우 형상 및 이전의 윈도우 형상은 또한, 레벨 시프팅된 주파수 대역 신호들을 시간-도메인 표현으로 변환하고, 현재의 레벨 시프트 팩터와 이전의 레벨 시프트 팩터를 윈도우잉하기 위해 동일한 윈도우 형상 및 이전의 윈도우 형상이 사용되도록, 주파수-투-시간-도메인 변환에 의해 사용될 수도 있다.
추가적인 양상들에 따르면, 현재의 레벨 시프트 팩터는, 복수의 주파수 대역 신호들의 현재의 프레임 동안 유효할 수도 있으며, 여기서, 이전의 레벨 시프트 팩터는 복수의 주파수 대역 신호들의 이전의 프레임 동안 유효할 수도 있고, 현재의 프레임 및 이전의 프레임은 중첩할 수도 있다. 트랜지션 형상 조정은,
- 이전의 프레임 팩터 시퀀스를 초래하는 이전의 윈도우 형상의 제 2 부분과 이전의 레벨 시프트 팩터를 결합하고,
- 현재의 프레임 팩터 시퀀스를 초래하는 현재의 윈도우 형상의 제 1 부분과 현재의 레벨 시프트 팩터를 결합하고, 그리고
- 이전의 프레임 팩터 시퀀스 및 현재의 프레임 팩터 시퀀스에 기반하여 크로스페이딩된 레벨 시프트 팩터의 시퀀스를 결정하도록 구성될 수도 있다.
추가적인 양상들에 따르면, 사이드 정보를 분석하는 것은, 사이드 정보가 시간-도메인 표현 내에서 잠재적인 클림핑을 제한하는지에 대해 수행될 수도 있고, 이는, 최하위 비트가 어떠한 관련 정보도 포함하지 않는다는 것을 의미하며, 여기서, 이러한 경우, 최상위 비트를 자유롭게 함으로써, 최상위 비트에서 몇몇 헤드룸이 획득되도록, 레벨 시프트는 최하위 비트를 향해 정보를 시프팅한다.
추가적인 양상들에 따르면, 컴퓨터 프로그램이 컴퓨터 또는 신호 프로세서 상에서 실행되고 있는 경우, 디코딩하기 위한 방법 또는 인코딩하기 위한 방법을 구현하기 위한 컴퓨터 프로그램이 제공될 수도 있다.
몇몇 양상들이 장치의 맥락에서 설명되었지만, 이들 양상들이 또한 대응하는 방법의 설명을 표현한다는 것은 명확하며, 여기서, 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특성에 대응한다. 유사하게, 방법 단계의 맥락에서 설명된 양상들은 또한, 대응하는 장치의 대응하는 블록 또는 아이템 또는 특성의 설명을 표현한다.
본 발명의 분해된 신호는, 디지털 저장 매체 상에 저장될 수 있거나, 무선 송신 매체와 같은 송신 매체 또는 인터넷과 같은 유선 송신 매체 상에서 송신될 수 있다.
특정한 구현 요건들에 의존하면, 본 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은, 각각의 방법이 수행되도록 프로그래밍가능한 컴퓨터 시스템과 협력하는(또는 협력할 수 있는), 전자적으로 판독가능한 제어 신호들이 저장된 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 사용하여 수행될 수 있다.
본 발명에 따른 몇몇 실시예들은, 본 명세서에 설명된 방법들 중 하나가 수행되도록 프로그래밍가능한 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독가능한 제어 신호들을 갖는 비-일시적인 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예들은 프로그램 코드를 갖는 컴퓨터 프로그램 물건으로서 구현될 수 있으며, 프로그램 코드는, 컴퓨터 프로그램 물건이 컴퓨터 상에서 구동되는 경우 방법들 중 하나를 수행하기 위해 동작된다. 프로그램 코드는, 예를 들어, 머신 판독가능 캐리어 상에 저장될 수도 있다.
다른 실시예들은, 머신 판독가능 캐리어 상에 저장되는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
즉, 따라서, 본 발명의 방법의 실시예는, 컴퓨터 프로그램이 컴퓨터 상에서 구동되는 경우, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서, 본 발명의 방법들의 추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램(상부에 기록됨)을 포함하는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터-판독가능 매체)이다.
따라서, 본 발명의 방법의 추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 표현하는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는, 예를 들어, 데이터 통신 접속을 통해, 예를 들어, 인터넷을 통해 전달되도록 구성될 수도 있다.
추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하도록 구성 또는 적응되는 프로세싱 수단, 예를 들어, 컴퓨터, 또는 프로그래밍가능 로직 디바이스를 포함한다.
추가적인 실시예는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 인스톨된 컴퓨터를 포함한다.
몇몇 실시예들에서, 프로그래밍가능 로직 디바이스(예를 들어, 필드 프로그래밍가능 게이트 어레이)는, 본 명세서에 설명된 방법들의 기능들 중 몇몇 또는 모두를 수행하기 위해 사용될 수도 있다. 몇몇 실시예들에서, 필드 프로그래밍가능 게이트 어레이는, 본 명세서에 설명된 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수도 있다. 일반적으로, 방법들은 바람직하게 임의의 하드웨어 장치에 의해 수행된다.
상술된 실시예들은 단지, 본 발명의 원리들에 대해 예시적일 뿐이다. 본 명세서에 설명된 어레인지먼트(arrangement)들 및 세부사항들의 변형들 및 변경들이 당업자들에게는 명백할 것임을 이해한다. 따라서, 본 명세서의 실시예들의 설명 및 해설에 의해 제시된 특정한 세부사항들이 아니라 임박한 특허 청구항들의 범위에 의해서만 제한되는 것이 의도이다.

Claims (15)

  1. 인코딩된 오디오 신호 표현에 기반하여 디코딩된 오디오 신호 표현을 제공하도록 구성된 오디오 신호 디코더(100)로서,
    상기 인코딩된 오디오 신호 표현으로부터 복수의 주파수 대역 신호들을 획득하도록 구성된 디코더 프리프로세싱(preprocessing) 스테이지(110);
    상기 인코딩된 오디오 신호 표현에 대한 현재의 레벨 시프트 팩터를 결정하기 위해, 사이드 정보가 잠재적인 클림핑(clipping)을 제안하는지에 대해 상기 인코딩된 오디오 신호 표현의 상기 주파수 대역 신호들의 이득에 대한 상기 사이드 정보를 분석하도록 구성된 클림핑 추정기(120) - 상기 사이드 정보가 상기 잠재적인 클림핑을 제안하는 경우, 상기 현재의 레벨 시프트 팩터는, 적어도 하나의 최상위 비트에서의 헤드룸이 획득되도록 상기 복수의 주파수 대역 신호들의 정보가 최하위 비트를 향해 시프팅되게 하고, 그리고 상기 클림핑 추정기(120)는 상기 사이드 정보 및 상기 인코딩된 오디오 신호 표현 중 적어도 하나를 기반으로 클림핑 가능성을 결정하고, 상기 클림핑 가능성에 기반하여 상기 현재의 레벨 시프트 팩터를 결정하도록 추가적으로 구성됨 -;
    레벨 시프팅된 주파수 대역 신호들을 획득하기 위해 상기 현재의 레벨 시프트 팩터에 따라 상기 주파수 대역 신호들의 레벨들을 시프팅하도록 구성된 레벨 시프터(130);
    상기 레벨 시프팅된 주파수 대역 신호들을 시간-도메인 표현으로 변환하도록 구성된 주파수-투-시간-도메인 변환기(140); 및
    상기 레벨 시프터(130)에 의해 상기 레벨 시프팅된 주파수 대역 신호들에 적용된 레벨 시프트를 적어도 부분적으로 보상하고, 실질적으로 보상된 시간-도메인 표현을 획득하기 위하여 상기 시간-도메인 표현에 대해 동작하도록 구성된 레벨 시프터 보상기(150)를 포함하는, 오디오 신호 디코더.
  2. 제 1 항에 있어서,
    상기 사이드 정보는, 상기 복수의 주파수 대역 신호들에 대한 글로벌 이득 팩터 및 복수의 스캐일 팩터들 중 적어도 하나를 포함하며,
    각각의 스캐일 팩터는 상기 복수의 주파수 대역 신호들 내의 하나의 주파수 대역 신호 또는 주파수 대역 신호들의 하나의 그룹에 대응하는, 오디오 신호 디코더.
  3. 제 1 항에 있어서,
    상기 디코더 프리프로세싱 스테이지(110)는, 복수의 연속하는 프레임들의 형태로 상기 복수의 주파수 대역 신호들을 획득하도록 구성되며,
    상기 클림핑 추정기(120)는, 현재의 프레임에 대해 상기 현재의 레벨 시프트 팩터를 결정하도록 구성되는, 오디오 신호 디코더.
  4. 제 1 항에 있어서,
    상기 디코딩된 오디오 신호 표현은, 상기 실질적으로 보상된 시간-도메인 표현에 기반하여 결정되는, 오디오 신호 디코더.
  5. 제 1 항에 있어서,
    상기 레벨 시프트 보상기(150)의 다운스트림에 시간 도메인 리미터(limiter)를 더 포함하는, 오디오 신호 디코더.
  6. 제 1 항에 있어서,
    상기 주파수 대역 신호들의 이득에 대한 사이드 정보는 복수의 주파수 대역-관련 이득 팩터들을 포함하는, 오디오 신호 디코더.
  7. 제 1 항에 있어서,
    상기 디코더 프리프로세싱 스테이지(110)는, 복수의 주파수 대역-특정 양자화 표시자들 중 하나의 주파수 대역-특정 양자화 표시자를 사용하여 각각의 주파수 대역 신호를 재양자화하도록 구성된 역양자화기를 포함하는, 오디오 신호 디코더.
  8. 제 1 항에 있어서,
    상기 레벨 시프트 보상기(150)에 의한 사용을 위해 크로스페이딩(crossfade)된 레벨 시프트 팩터를 획득하기 위하여 상기 현재의 레벨 시프트 팩터 및 후속 레벨 시프트 팩터를 크로스페이딩하도록 구성된 트랜지션 형상 조정기를 더 포함하는, 오디오 신호 디코더.
  9. 제 8 항에 있어서,
    상기 트랜지션 형상 조정기는, 이전의 레벨 시프트 팩터에 대한 메모리(371), 윈도우 형상을 상기 현재의 레벨 시프트 팩터에 적용함으로써 제 1 복수의 윈도우잉된 샘플들을 생성하도록 구성된 제 1 윈도우어(windower)(372), 상기 메모리(371)에 의해 제공된 상기 이전의 레벨 시프트 팩터에 이전의 윈도우 형상을 적용함으로써 제 2 복수의 윈도우잉된 샘플들을 생성하도록 구성된 제 2 윈도우어(376), 및 복수의 결합된 샘플들을 획득하기 위해 상기 제 1 복수의 윈도우잉된 샘플들 및 상기 제 2 복수의 윈도우잉된 샘플들의 상호 대응하는 윈도우잉된 샘플들을 결합하도록 구성된 샘플 결합기(379)를 포함하는, 오디오 신호 디코더.
  10. 제 9 항에 있어서,
    상기 현재의 레벨 시프트 팩터는, 상기 복수의 주파수 대역 신호들의 현재의 프레임 동안 유효하고,
    상기 이전의 레벨 시프트 팩터는 상기 복수의 주파수 대역 신호들의 이전의 프레임 동안 유효하며,
    상기 현재의 프레임 및 상기 이전의 프레임은 중첩하고;
    상기 트랜지션 형상 조정은,
    이전의 프레임 팩터 시퀀스를 초래하는 상기 이전의 윈도우 형상의 제 2 부분과 상기 이전의 레벨 시프트 팩터를 결합하고,
    현재의 프레임 팩터 시퀀스를 초래하는 상기 현재의 윈도우 형상의 제 1 부분과 상기 현재의 레벨 시프트 팩터를 결합하고, 그리고
    상기 이전의 프레임 팩터 시퀀스 및 상기 현재의 프레임 팩터 시퀀스에 기반하여, 상기 크로스페이딩된 레벨 시프트 팩터의 시퀀스를 결정
    하도록 구성되는, 오디오 신호 디코더.
  11. 제 1 항에 있어서,
    상기 클림핑 추정기(120)는, 상기 인코딩된 오디오 신호 표현 및 상기 사이드 정보 중 적어도 하나가 상기 시간-도메인 표현 내에서 잠재적인 클림핑을 제안하는지 - 최하위 비트가 어떠한 관련 정보도 포함하지 않는다는 것을 의미함 - 에 대해 상기 인코딩된 오디오 신호 표현 및 상기 사이드 정보 중 적어도 하나를 분석하도록 구성되며,
    이러한 경우, 상기 레벨 시프터에 의해 적용된 레벨 시프트는, 최상위 비트를 자유(free)롭게 함으로써, 상기 최상위 비트에서 몇몇 헤드룸을 획득하도록, 상기 최하위 비트를 향해 정보를 시프팅하는, 오디오 신호 디코더.
  12. 제 1 항에 있어서,
    상기 클림핑 추정기(120)는,
    복수의 코드북들 중 하나의 코드북을 식별된 코드북으로서 결정하기 위한 코드북 결정기(1110) - 상기 인코딩된 오디오 신호 표현은 상기 식별된 코드북을 이용함으로써 인코딩됨 -, 및
    상기 식별된 코드북과 연관된 레벨 값을 도출된 레벨 값으로서 도출하고, 상기 도출된 레벨 값을 사용하여 상기 오디오 신호의 레벨 추정을 추정하기 위해 구성된 추정 유닛(1120)을 포함하는, 오디오 신호 디코더.
  13. 입력 오디오 신호의 시간-도메인 표현에 기반하여, 인코딩된 오디오 신호 표현을 제공하도록 구성된 오디오 신호 인코더로서,
    상기 입력 오디오 신호의 시간-도메인 표현에 대한 현재의 레벨 시프트 팩터를 결정하기 위해 잠재적인 클림핑이 제안되는지에 대하여 상기 입력 오디오 신호의 시간-도메인 표현을 분석하도록 구성된 클림핑 추정기 - 상기 잠재적인 클림핑이 제안되는 경우, 상기 현재의 레벨 시프트 팩터는, 적어도 하나의 최상위 비트에서 헤드룸이 획득되도록, 상기 입력 오디오 신호의 시간-도메인 표현이 최하위 비트를 향해 시프팅되게 하고, 그리고 상기 클림핑 추정기는 상기 입력 오디오 신호의 시간-도메인 표현을 기반으로 클림핑 가능성을 결정하고, 상기 클림핑 가능성에 기반하여 상기 현재의 레벨 시프트 팩터를 결정하도록 추가적으로 구성됨 -;
    레벨 시프팅된 시간-도메인 표현을 획득하기 위해 상기 현재의 레벨 시프트 팩터에 따라 상기 입력 오디오 신호의 시간-도메인 표현의 레벨을 시프팅하도록 구성된 레벨 시프터;
    상기 레벨 시프팅된 시간-도메인 표현을 복수의 주파수 대역 신호들로 변환하도록 구성된 시간-투-주파수 도메인 변환기; 및
    상기 레벨 시프터에 의해 상기 레벨 시프팅된 시간 도메인 표현에 적용된 레벨 시프트를 적어도 부분적으로 보상하고, 복수의 실질적으로 보상된 주파수 대역 신호들을 획득하기 위하여 상기 복수의 주파수 대역 신호들에 대해 동작하도록 구성된 레벨 시프터 보상기를 포함하는, 오디오 신호 인코더.
  14. 인코딩된 오디오 신호 표현을 디코딩하고 대응하는 디코딩된 오디오 신호 표현을 제공하기 위한 방법으로서,
    복수의 주파수 대역 신호들을 획득하기 위해 상기 인코딩된 오디오 신호 표현을 프리프로세싱하는 단계;
    상기 인코딩된 오디오 신호 표현에 대한 현재의 레벨 시프트 팩터를 결정하기 위해, 사이드 정보가 잠재적인 클림핑을 제안하는지에 대해 상기 주파수 대역 신호들의 이득에 대한 상기 사이드 정보를 분석하는 단계 - 상기 사이드 정보가 상기 잠재적인 클림핑을 제안하는 경우, 상기 현재의 레벨 시프트 팩터는, 적어도 하나의 최상위 비트에서의 헤드룸이 획득되도록 상기 복수의 주파수 대역 신호들의 정보가 최하위 비트를 향해 시프팅되게 하고, 그리고 클림핑 가능성이 상기 입력 오디오 신호의 시간-도메인 표현에 기반하여 결정되고, 상기 현재의 레벨 시프트 팩터는 상기 클림핑 가능성에 기반하여 결정됨 -;
    레벨 시프팅된 주파수 대역 신호들을 획득하기 위해 상기 레벨 시프트 팩터에 따라 상기 주파수 대역 신호들의 레벨들을 시프팅하는 단계;
    상기 주파수 대역 신호들의 시간-도메인 표현으로의 주파수-투-시간-도메인 변환을 수행하는 단계; 및
    상기 레벨 시프팅된 주파수 대역 신호들에 적용된 레벨 시프트를 적어도 부분적으로 보상하고, 실질적으로 보상된 시간-도메인 표현을 획득하기 위하여 상기 시간-도메인 표현에 대해 동작하는 단계를 포함하는, 인코딩된 오디오 신호 표현을 디코딩하고 대응하는 디코딩된 오디오 신호 표현을 제공하기 위한 방법.
  15. 청구항 제14항의 방법을 수행하도록 컴퓨터에게 명령하기 위한 프로그램을 기록한 컴퓨터 판독가능 기록매체.
KR1020177024874A 2013-01-18 2014-01-07 오디오 신호 디코딩 또는 인코딩을 위한 시간 도메인 레벨 조정 KR101953648B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP13151910.0A EP2757558A1 (en) 2013-01-18 2013-01-18 Time domain level adjustment for audio signal decoding or encoding
EP13151910.0 2013-01-18
PCT/EP2014/050171 WO2014111290A1 (en) 2013-01-18 2014-01-07 Time domain level adjustment for audio signal decoding or encoding

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020157021762A Division KR20150106929A (ko) 2013-01-18 2014-01-07 오디오 신호 디코딩 또는 인코딩을 위한 시간 도메인 레벨 조정

Publications (2)

Publication Number Publication Date
KR20170104661A true KR20170104661A (ko) 2017-09-15
KR101953648B1 KR101953648B1 (ko) 2019-05-23

Family

ID=47603376

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020177024874A KR101953648B1 (ko) 2013-01-18 2014-01-07 오디오 신호 디코딩 또는 인코딩을 위한 시간 도메인 레벨 조정
KR1020157021762A KR20150106929A (ko) 2013-01-18 2014-01-07 오디오 신호 디코딩 또는 인코딩을 위한 시간 도메인 레벨 조정

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020157021762A KR20150106929A (ko) 2013-01-18 2014-01-07 오디오 신호 디코딩 또는 인코딩을 위한 시간 도메인 레벨 조정

Country Status (11)

Country Link
US (1) US9830915B2 (ko)
EP (2) EP2757558A1 (ko)
JP (1) JP6184519B2 (ko)
KR (2) KR101953648B1 (ko)
CN (1) CN105210149B (ko)
BR (1) BR112015017293B1 (ko)
CA (1) CA2898005C (ko)
ES (1) ES2604983T3 (ko)
MX (1) MX346358B (ko)
RU (1) RU2608878C1 (ko)
WO (1) WO2014111290A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021011866A1 (en) * 2019-07-17 2021-01-21 Silencer Devices, LLC. Noise cancellation with improved frequency resolution

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2005299410B2 (en) 2004-10-26 2011-04-07 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
TWI447709B (zh) 2010-02-11 2014-08-01 Dolby Lab Licensing Corp 用以非破壞地正常化可攜式裝置中音訊訊號響度之系統及方法
CN103325380B (zh) 2012-03-23 2017-09-12 杜比实验室特许公司 用于信号增强的增益后处理
US10844689B1 (en) 2019-12-19 2020-11-24 Saudi Arabian Oil Company Downhole ultrasonic actuator system for mitigating lost circulation
CN112185399A (zh) 2012-05-18 2021-01-05 杜比实验室特许公司 用于维持与参数音频编码器相关联的可逆动态范围控制信息的系统
EP2757558A1 (en) * 2013-01-18 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain level adjustment for audio signal decoding or encoding
US9841941B2 (en) 2013-01-21 2017-12-12 Dolby Laboratories Licensing Corporation System and method for optimizing loudness and dynamic range across different playback devices
MX339611B (es) 2013-01-21 2016-05-31 Dolby Laboratories Licensing Corp Codificador y decodificador de audio con metadatos de limite y sonoridad de programa.
US9715880B2 (en) 2013-02-21 2017-07-25 Dolby International Ab Methods for parametric multi-channel encoding
CN104080024B (zh) 2013-03-26 2019-02-19 杜比实验室特许公司 音量校平器控制器和控制方法以及音频分类器
CN105190618B (zh) 2013-04-05 2019-01-25 杜比实验室特许公司 用于自动文件检测的对来自基于文件的媒体的特有信息的获取、恢复和匹配
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
CN108364657B (zh) 2013-07-16 2020-10-30 超清编解码有限公司 处理丢失帧的方法和解码器
CN105556837B (zh) 2013-09-12 2019-04-19 杜比实验室特许公司 用于各种回放环境的动态范围控制
EP4379714A2 (en) 2013-09-12 2024-06-05 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content
KR20160090796A (ko) * 2013-11-27 2016-08-01 마이크로칩 테크놀로지 인코포레이티드 메인 클록의 높은 정밀 발진기
CN105142067B (zh) 2014-05-26 2020-01-07 杜比实验室特许公司 音频信号响度控制
CN106683681B (zh) * 2014-06-25 2020-09-25 华为技术有限公司 处理丢失帧的方法和装置
EP4060661B1 (en) 2014-10-10 2024-04-24 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
EP3258467B1 (en) * 2015-02-10 2019-09-18 Sony Corporation Transmission and reception of audio streams
CN104795072A (zh) * 2015-03-25 2015-07-22 无锡天脉聚源传媒科技有限公司 一种音频数据的编码方法及装置
CN105662706B (zh) * 2016-01-07 2018-06-05 深圳大学 增强时域表达的人工耳蜗信号处理方法及系统
CN109328382B (zh) * 2016-06-22 2023-06-16 杜比国际公司 用于将数字音频信号从第一频域变换到第二频域的音频解码器及方法
KR102565447B1 (ko) * 2017-07-26 2023-08-08 삼성전자주식회사 청각 인지 속성에 기반하여 디지털 오디오 신호의 이득을 조정하는 전자 장치 및 방법
US11120363B2 (en) 2017-10-19 2021-09-14 Adobe Inc. Latency mitigation for encoding data
US11086843B2 (en) 2017-10-19 2021-08-10 Adobe Inc. Embedding codebooks for resource optimization
US10942914B2 (en) * 2017-10-19 2021-03-09 Adobe Inc. Latency optimization for digital asset compression
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
WO2019091576A1 (en) * 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
US10331400B1 (en) * 2018-02-22 2019-06-25 Cirrus Logic, Inc. Methods and apparatus for soft clipping
CN109286922B (zh) * 2018-09-27 2021-09-17 珠海市杰理科技股份有限公司 蓝牙提示音处理方法、系统、可读存储介质和蓝牙设备
JP2022521694A (ja) * 2019-02-13 2022-04-12 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオオブジェクトクラスタリングのための適応型音量正規化
CN111342937B (zh) * 2020-03-17 2022-05-06 北京百瑞互联技术有限公司 一种动态调整编解码处理器电压和/或频率的方法和装置

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6009385A (en) 1994-12-15 1999-12-28 British Telecommunications Public Limited Company Speech processing
US6280309B1 (en) 1995-10-19 2001-08-28 Norton Company Accessories and attachments for angle grinder
US5796842A (en) * 1996-06-07 1998-08-18 That Corporation BTSC encoder
US6289309B1 (en) * 1998-12-16 2001-09-11 Sarnoff Corporation Noise spectrum tracking for speech enhancement
JP3681105B2 (ja) * 2000-02-24 2005-08-10 アルパイン株式会社 データ処理方式
ES2269112T3 (es) * 2000-02-29 2007-04-01 Qualcomm Incorporated Codificador de voz multimodal en bucle cerrado de dominio mixto.
US6651040B1 (en) * 2000-05-31 2003-11-18 International Business Machines Corporation Method for dynamic adjustment of audio input gain in a speech system
CA2359771A1 (en) * 2001-10-22 2003-04-22 Dspfactory Ltd. Low-resource real-time audio synthesis system and method
JP2003280691A (ja) * 2002-03-19 2003-10-02 Sanyo Electric Co Ltd 音声処理方法および音声処理装置
US20050004793A1 (en) * 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
DE10345995B4 (de) 2003-10-02 2005-07-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Verarbeiten eines Signals mit einer Sequenz von diskreten Werten
US7751572B2 (en) * 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
CN101273404B (zh) * 2005-09-30 2012-07-04 松下电器产业株式会社 语音编码装置以及语音编码方法
DE102006022346B4 (de) * 2006-05-12 2008-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Informationssignalcodierung
KR101049143B1 (ko) * 2007-02-14 2011-07-15 엘지전자 주식회사 오브젝트 기반의 오디오 신호의 부호화/복호화 장치 및 방법
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
US8126578B2 (en) * 2007-09-26 2012-02-28 University Of Washington Clipped-waveform repair in acoustic signals using generalized linear prediction
EP2225827B1 (en) * 2007-12-11 2013-05-01 Nxp B.V. Prevention of audio signal clipping
CN101350199A (zh) * 2008-07-29 2009-01-21 北京中星微电子有限公司 音频编码器及音频编码方法
WO2010053728A1 (en) * 2008-10-29 2010-05-14 Dolby Laboratories Licensing Corporation Signal clipping protection using pre-existing audio gain metadata
US8346547B1 (en) * 2009-05-18 2013-01-01 Marvell International Ltd. Encoder quantization architecture for advanced audio coding
CA2813898C (en) * 2010-10-07 2017-05-23 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for level estimation of coded audio frames in a bit stream domain
TWI603632B (zh) * 2011-07-01 2017-10-21 杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
EP2791938B8 (en) * 2011-12-15 2016-05-04 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer programm for avoiding clipping artefacts
EP2757558A1 (en) * 2013-01-18 2014-07-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Time domain level adjustment for audio signal decoding or encoding

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Jing Chen, et al. MPEG-2 AAC decoder on a fixed-point DSP. Consumer Electronics, IEEE Transactions on, 1999, Vol.45 No.4, pp.1200-1205.* *
Marina Bosi, et al. ISO/IEC MPEG-2 advanced audio coding. Journal of the Audio engineering society, 1997, Vol.45 No.10, pp.789-814.* *
Randy Yates. Fixed-point arithmetic: An introduction. Digital Signal Labs, 2001.03.03.* *
Yo-Cheng Hou, et al. Implementation of IMDCT for MPEG2/4 AAC on 16-bit fixed-point digital signal processors. The 2004 IEEE Asia-Pacific Conference on Circuits and Systems. 2004, pp.813-816.* *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021011866A1 (en) * 2019-07-17 2021-01-21 Silencer Devices, LLC. Noise cancellation with improved frequency resolution
US11322127B2 (en) 2019-07-17 2022-05-03 Silencer Devices, LLC. Noise cancellation with improved frequency resolution

Also Published As

Publication number Publication date
KR101953648B1 (ko) 2019-05-23
EP2757558A1 (en) 2014-07-23
MX346358B (es) 2017-03-15
US9830915B2 (en) 2017-11-28
JP2016505168A (ja) 2016-02-18
CA2898005A1 (en) 2014-07-24
ES2604983T3 (es) 2017-03-10
BR112015017293A2 (pt) 2018-05-15
MX2015009171A (es) 2015-11-09
CN105210149A (zh) 2015-12-30
BR112015017293B1 (pt) 2021-12-21
RU2608878C1 (ru) 2017-01-25
JP6184519B2 (ja) 2017-08-23
US20160019898A1 (en) 2016-01-21
CA2898005C (en) 2018-08-14
CN105210149B (zh) 2019-08-30
EP2946384B1 (en) 2016-11-02
KR20150106929A (ko) 2015-09-22
WO2014111290A1 (en) 2014-07-24
EP2946384A1 (en) 2015-11-25

Similar Documents

Publication Publication Date Title
KR101953648B1 (ko) 오디오 신호 디코딩 또는 인코딩을 위한 시간 도메인 레벨 조정
AU2005217508B2 (en) Device and method for determining a quantiser step size
US11043226B2 (en) Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
US20230197090A1 (en) Audio quantizer and audio dequantizer and related methods
CN111344784B (zh) 控制编码器和/或解码器中的带宽
AU2014280256B2 (en) Apparatus and method for audio signal envelope encoding, processing and decoding by splitting the audio signal envelope employing distribution quantization and coding
EP3008726B1 (en) Apparatus and method for audio signal envelope encoding, processing and decoding by modelling a cumulative sum representation employing distribution quantization and coding
TWI841856B (zh) 音頻量化器和音頻去量化器及相關方法以及電腦程式

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant