KR20140104470A - 적응적인 저주파수 보상을 통해 오디오 데이터를 인코딩하기 위한 방법 및 시스템 - Google Patents

적응적인 저주파수 보상을 통해 오디오 데이터를 인코딩하기 위한 방법 및 시스템 Download PDF

Info

Publication number
KR20140104470A
KR20140104470A KR1020147018354A KR20147018354A KR20140104470A KR 20140104470 A KR20140104470 A KR 20140104470A KR 1020147018354 A KR1020147018354 A KR 1020147018354A KR 20147018354 A KR20147018354 A KR 20147018354A KR 20140104470 A KR20140104470 A KR 20140104470A
Authority
KR
South Korea
Prior art keywords
audio data
low frequency
band
compensation
compensation control
Prior art date
Application number
KR1020147018354A
Other languages
English (en)
Other versions
KR101621704B1 (ko
Inventor
아리지트 비스와스
비나이 멜코트
미하엘 슈그
그랜트 에이. 데이비슨
마크 에스. 빈톤
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션, 돌비 인터네셔널 에이비 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20140104470A publication Critical patent/KR20140104470A/ko
Application granted granted Critical
Publication of KR101621704B1 publication Critical patent/KR101621704B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

인코딩될 주파수 도메인 오디오 데이터의 오디오 데이터 값들의 가수 비트 할당을 결정하기 위한 방법이 개시된다. 할당 방법은, 오디오 데이터의 저주파수 대역들의 세트의 각 주파수 대역의 오디오 데이터에 대한 적응적인 저주파수 보상을 수행함으로써 포함하는, 오디오 데이터 값들에 대한 마스킹 값들을 결정하는 단계를 포함한다. 적응적인 저주파수 보상은, 저주파수 대역들의 세트 내의 각 주파수 대역이 현저한 음색 콘텐트를 갖는지를 나타내는 보상 제어 데이터를 생성하기 위하여 오디오 데이터에 대한 음조성 검출을 수행하는 단계; 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트를 갖는 저주파수 대역들의 세트 내의 상기 각 주파수 대역 내의 오디오 데이터에 대해 저주파수 보상을 수행하지만, 저주파수 대역들의 세트 내의 임의의 다른 주파수 대역 내의 오디오 데이터에 대해 저주파수 보상을 수행하지 않는 단계를 포함한다.

Description

적응적인 저주파수 보상을 통해 오디오 데이터를 인코딩하기 위한 방법 및 시스템{METHOD AND SYSTEM FOR ENCODING AUDIO DATA WITH ADAPTIVE LOW FREQUENCY COMPENSATION}
본 출원은 2012년 1월 9일 출원되었고 발명의 명칭이 "Method and System for Encoding Audio Data with Adaptive Low Frequency Compensation"인 미국가특허출원 제61/584,478호와, 2012년 8월 17일 출원되었고 발명의 명칭이 "Method and System for Encoding Audio Data with Adaptive Low Frequency Compensation"인 미국특허출원 제13/588,890호의 이익을 주장하고, 이들의 내용은 그 전체가 참조로서 본 명세서에 통합된다.
본 발명은 오디오 신호 처리에 관한 것이고, 보다 구체적으로 적응적인 저주파수 보상을 통한 오디오 데이터의 인코딩에 관한 것이다. 본 발명의 일부 실시예들은 돌비 디지털(AC-3) 및 돌비 디지털 플러스(E-AC-3)로 알려진 포맷들 중 하나에 따라, 또는 다른 인코딩 포맷에 따라 오디오 데이터를 인코딩하는데 유용하다. 돌비, 돌비 디지털 및 돌비 디지털 플러스는 돌비 레버러토리즈 라이센싱사의 상표들이다.
본 발명이 AC-3(돌비 디지털) 포맷(또는 돌비 디지털 플러스 포맷)에 따른 오디오 데이터의 인코딩에서의 사용에 국한되는 것은 아니지만, 편리를 위해 본 발명은 오디오 비트스트림을 AC-3 포맷에 따라 인코딩하는 실시예들에서 기술될 것이다. AC-3 인코딩된 비트스트림은 오디오 콘텐트의 1 내지 6개의 채널들과, 오디오 콘텐트의 적어도 하나의 특성을 나타내는 메타데이터를 포함한다. 오디오 콘텐트는 지각 오디오 코딩을 사용하여 압축된 오디오 데이터이다.
AC-3(돌비 디지털로도 알려진) 코딩의 세부사항들은 잘 알려져 있고, 다음을 포함하는 많은 출판 인용문헌들에서 설명되었다:
ATSC 표준 A52/A : "Digital Audio Compression Standard (AC-3), Revision A"(Advanced Television Systems Committee, 2001년 8월 20일);
Craig C. Todd 등에 의한, "Flexible Perceptual Coding for Audio Transmission and Storage"(Audio Engineering Society의 96차 정기총회, 1994년 2월 26일, 출판전논문 3796);
Steve Vernon에 의한, "Design and Implementation of AC-3 Coders"(IEEE Trans. Consumer Electronics, Vol. 41, No.3, 1995년 8월);
Robert L. Andersen과 Grant A. Davidson에 의한 북 챕터 "Dolby Digital Audio Coding Standards,"(The Digital Signal Processing Handbook 제2판, 편집장 Vijay K. Madisetti, CRC 출판사, 2009년);
Bosi 등에 의한 "High Quality, Low-Rate Audio Transform Coding for Transmission and Multimedia Applications"(Audio Engineering Society 출판전논문 3365, 93차 AES 정기총회, 1992년 10월); 및
미국특허 제5,583,962호; 제5,632,005호; 제5,633,981호; 제5,727,119호; 및 제6,021,386호.
Dolby Digital(AC-3) 및 Dolby Digital Plus(간혹, 강화 AC-3 또는 "E-AC-3"로 언급되는) 코딩의 세부사항들은 "Introduction to Dolby Digital Plus, an Enhancement to the Dolby Digital Coding System,"(AES 정기총회 논문 6196, 117차 AES 정기총회, 2004년 10월 28일), 및 http://www.atsc.org/cms/index.php/standards/published-standards에서 취득 가능한 Dolby Digital/Dolby Digital Plus 규격(ATSC A/52:2010)에서 설명된다.
오디오 비트스트림의 AC-3 인코딩에서, 인코딩될 입력 오디오 샘플들의 블록들은 시간-주파수 도메인 변환을 겪어, 균일하게 이격된 주파수 빈들(bins)에 위치한 변환 계수들, 주파수 계수들, 또는 주파수 성분들로 공통적으로 언급되는, 주파수 도메인 데이터의 블록들을 초래한다. 각 빈 내의 주파수 계수는 이후 지수 및 가수(mantissa)를 포함하는 부동점 포맷으로 변환된다(예, 도 1 시스템의 BFPE 스테이지(7)).
AC-3(및 돌비 디지털 플러스) 인코더(및 다른 오디오 데이터 인코더들)의 전형적인 실시예들은, 대역화된 기초(즉, 바크(Bark) 스케일로 알려진 잘 알려진 심리음향 스케일의 주파수 대역들을 근사시키는 전형적으로 50개의 비균일 대역들) 위에서 주파수 도메인 데이터를 분석하여 각 가수에 대한 비트들의 최적의 할당을 결정하기 위하여, 심리음향 모델을 구현한다. 가수 데이터는 이후 결정된 비트 할당에 대응하는 다수의 비트들로 양자화된다(예, 도 1의 시스템의 양자화기(6) 내에서). 양자화된 가수 데이터는 이후 인코딩된 출력 비트스트림으로 포맷된다(예, 도 1의 시스템의 포맷터(8) 내에서).
전형적으로, 가수 비트 할당은 세밀한 신호 스펙트럼(각 주파수 빈에 대해 전력 스펙트럼 밀도("PSD") 값으로 표현된)과 거친 마스킹 곡선(각 주파수 대역에 대해 마스크 값으로 표현된) 사이의 차이에 기초한다. 또한 전형적으로, 심리음향 모델은 낮은 주파수 대역들에 대해 마스킹 곡선 값들을 정정하기 위한 정정 값(간혹 본 명세서에서 "lowcomp" 파라미터 값들로 언급됨)을 결정하기 위하여 낮은 주파수 보상(간혹, "lowcomp"의 보상 또는 "lowcomp"로 언급됨)을 구현한다. 각 lowcomp 파라미터 값은 대역에 대한 미세 마스킹 곡선 값을 생성하기 위하여, 낮은 주파수 대역들 중 상이한 대역에 대한 예비 마스킹 곡선 값으로부터 감산된다(그렇지 않을 경우 부가된다).
언급한 바와 같이, 오디오 인코딩에서 가수 비트 할당은 신호 스펙트럼과 마스킹 곡선 사이의 차이에 기초할 수 있다. 이러한 비트 할당을 구현하기 위한 단순한 알고리즘은 하나의 특별한 주파수 대역 내의 양자화 소음이 이웃 대역들 내의 비트 할당들과는 독립적이라고 간주할 수 있다. 그러나, 디코더 필터-뱅크 내에서 대역들 사이의 유한한 주파수 선택도 및 높은 정도의 중첩으로 인해, 그리고 마스킹 곡선의 기울기가 필터-뱅크 천이 스커트들(skirts)의 기울기와 동일하거나 초과하는 낮은 주파수들에서 한 대역으로부터 이웃 대역들로의 누설로 인해, 이것은 특히 낮은 주파수들에서 일반적으로 합리적인 가정이 아니다.
따라서, 오디오 인코딩 내에서 가수 비트 할당 처리는 간혹 정정된 마스킹 곡선을 결정하는 낮은 주파수 보상 처리를 포함한다. 정정된 마스킹 곡선은 이후 오디오 데이터의 각 주파수 성분을 위한 신호 대 마스크 비율 값을 결정하기 위하여 사용된다. 낮은 주파수 보상은 현저한 낮은-주파수 음색의 성분들을 갖는 신호들에 대해 낮은 주파수들에서 개선된 코딩 성능을 위한 디코더 선택도 보상 처리이다. 전형적으로, 낮은 주파수 보상은, 편리를 위해 신호 대 마스크 값들을 결정하기 위하여 사용되는 여기 함수의 계산에 통합될 수 있는 필터-뱅크 응답 정정이다. 아래에서 더 상세하게 설명되는 바와 같이, 낮은 주파수 보상의 전형적인 구현은, 다음 (더 높은 주파수) 대역에 대한 PSD 값보다 12-dB 낮은 PSD 값을 갖는 주파수 대역들을 찾음으로써 현저한 낮은 주파수 신호 성분들을 검색한다. 이러한 PSD 값이 발견될 때, 대역에 대한 여기 함수 값은 곧 바로 18 dB(또는 최대 18dB 까지의 양)만큼 감소된다. 이러한 감소는 이후 후속 대역당 3dB만큼 느리게 후퇴된다.
도 1은 시간-도메인 입력 오디오 데이터(1)에 대한 AC-3(또는 강화 AC-3) 인코딩을 수행하도록 구성된 인코더이다. 분석 필터 뱅크(2)는 시간-도메인 입력 오디오 데이터(1)를 주파수 도메인 오디오 데이터(3)로 변환하고, 블록 부동점 인코딩(BFPE) 스테이지(7)는 각 주파수 빈에 대한 지수 및 가수를 포함하는 데이터(3)의 각 주파수 성분의 부동점 표현을 생성한다. 스테이지(7)로부터 출력되는 주파수 도메인 데이터는 또한 간혹 본 명세서에서 주파수 도메인 오디오 데이터(3)로 언급된다. 스테이지(7)로부터 출력되는 주파수 도메인 오디오 데이터는 이후 인코딩되고, 이러한 인코딩은, 양자화기(6) 내에서 가수들의 양자화, 지수들의 텐팅(텐팅 스테이지(10)에서) 및 스테이지(10)에서 생성된 텐팅된 지수들의 인코딩(지수 코딩 스테이지(11)에서)을 포함한다. 포맷터(8)는, 양자화기(6)로부터 출력된 양자화된 데이터와 스테이지(11)로부터 출력된 코딩된 차동 지수 데이터에 응답하여 AC-3(또는 강화 AC-3) 인코딩된 비트스트림(9)을 생성한다.
양자화기(6)는 제어기(4)에 의해 생성된 제어 데이터(마스킹 데이터를 포함)에 기초하여 비트 할당 및 양자화를 수행한다. (마스킹 곡선을 결정하는) 마스킹 데이터는 인간의 청각 및 청각 지각의 심리음향 모델(제어기(4)에 의해 구현된)에 기초하여, 주파수 도메인 데이터(3)로부터 생성된다. 심리음향 모델링은 인간 청각의 주파수 의존 임계치들, 및 마스킹으로 언급되는 심리음향 현상을 고려하고, 이에 의해 하나 이상의 약한 주파수 성분들에 인접한 강한 주파수 성분은 약한 성분들을 마스킹하는 경향이 있어서, 이들을 인간 청취자에게 들리지 않게 한다. 심리음향 모델링은 오디오 데이터를 인코딩할 때 약한 주파수 성분들을 생략하는 것을 가능케 하고, 이에 의해 인코딩된 오디오 데이터(비트스트림(9))의 지각 품질에 악영향을 미침이 없이 높은 정도의 압축을 달성한다. 마스킹 데이터는 주파수 도메인 오디오 데이터(3)의 각 주파수 대역에 대한 마스킹 곡선 값을 포함한다. 이들 마스킹 곡선 값들은 각 주파수 대역에서 인간의 귀에 의해 마스킹되는 신호의 레벨을 나타낸다. 양자화기(6)는 이러한 정보를 사용하여, 입력 오디오 신호의 각 주파수 대역의 주파수 도메인 데이터를 나타내기 위하여 사용 가능한 수의 데이터 비트를 최상으로 이용하는 방법을 결정한다.
제어기(4)는 저주파수 대역에 대한 마스킹 곡선 값들을 정정하기 위한 lowcomp 파라미터 값을 생성하기 위하여 종래의 저주파수 보상 처리(간혹 본 명세서에서 "lowcomp"의 보상으로 언급된다)를 구현할 수 있다. 정정된 마스킹 곡선 값들은 주파수 도메인 오디오 데이터(3)의 각 주파수 성분에 대한 신호 대 마스크 비율 값을 생성하기 위하여 사용된다. 낮은 주파수 보상은 오디오 데이터의 AC-3(및 돌비 디지털 플러스) 인코딩 도중에 전형적으로 구현되는 심리음향 모델의 특성이다. lowcomp의 보상은, 관련 주파수 영역 내의 마스크를 바람직하게 감소시킴으로써, 그리고 결과적으로 이러한 성분들을 인코딩하기 위하여 채용된 코드 워드들에 더 많은 비트를 할당함으로써, (인코딩될 입력 오디오 데이터의) 높은 음색의 저주파수 성분들의 인코딩을 개선한다.
lowcomp의 보상은 각 저주파수 대역에 대한 lowcomp 파라미터를 결정한다. 각 대역에 대한 lowcomp 파라미터는 대역에 대한 "여기" 값(잘 알려진 방식으로 결정된)으로부터 효과적으로 감산되고, 최종적인 차이 값들은 정정된 마스킹 곡선 값들을 결정하기 위하여 사용된다. 대역에 대한 여기 값의 감산(예, 이로부터 lowcomp 파라미터를 감산함으로써, 또는 이로부터 감산되는 lowcomp 파라미터의 값을 증가시킴으로써)은 다음의 이유로 인해 대역 내에서 오디오의 인코딩된 형태에 할당된 비트들의 수의 증가를 초래한다. 대역에 대한 여기 값이 최종(정정된) 마스크 값(대역에 대한 오디오 데이터 값으로부터 효과적으로 감산되는)과 반드시 동일하지는 않지만, 최종 마스크 값의 계산에 사용된다(최종 마스크 값은 절대 청각 임계치 및 잠재적으로는 다른 광대역 및/또는 대역화된 조절들을 고려한다). 대역 내에서 오디오에 할당된 코딩 비트들의 수가, 만약 대역에 대한 "신호 대 마스크" 비율이 크다면, 커지기 때문에, 대역에 대한 마스크 값을 감소시키는 것은 그 대역 내의 오디오의 인코딩된 형태에 할당된 비트들의 수를 증가시킬 것이다. 그러므로, 대역에 대한 여기 값을 감소시키는 것은 일반적으로 그 대역에 대한 감소된 마스크 값을 초래하고, 결과적으로 그 대역에 대해 할당된 비트들의 수의 증가를 초래한다.
종래의 lowcomp의 보상이 심리음향 모델(예, 도 1의 제어기(4)에 의해 구현되는 모델)에 의해 전형적으로 수행되는 방식을 이제 더 상세하게 기술한다. 제어기(4)는, 강한 음색 성분의 한 가지 특징인, 현재 주파수 대역과 다음의 (더 높은 주파수) 대역 사이의 전력 스펙트럼 밀도(PSD)에서 가파른(12dB) 증가를 찾기 위하여 저주파수 대역들(48 kHz 샘플링 주파수에서 0 Hz로부터 2.05 kHz의 범위)을 스캔할 것이다. 강한 음색 성분을 나타내는 것으로서 저주파수 대역 내에서 PSD를 식별하는 것에 응답하여, lowcomp의 보상은 식별된 강한 저주파수 음색 성분을 인코딩하기 위하여 채용된 데이터에 더 많은 비트들이 할당되도록 하기 위하여 적용된다.
AC-3 및 돌비 디지털 플러스 인코딩에서 주파수 도메인 오디오 데이터(3)의 각 성분(즉, 각 변환 빈의 콘텐츠)이 가수와 지수를 포함하는 부동점 표현을 가짐이 이해될 것이다. 마스킹 곡선의 계산을 단순화하기 위하여, 돌비 디지털군의 코더들은 마스킹 곡선을 유도하기 위하여 오로지 지수들을 사용한다. 즉, 달리 말하면, 마스킹 곡선은 변환 계수 지수 값들에 의존하지만, 변환 계수 가수 값들과는 독립적이다. 지수들의 범위가 오히려 제한되기(일반적으로 0 내지 24의 정수값들) 때문에, 지수 값들은 마스킹 곡선을 계산하기 위하여 더 큰 범위(일반적으로 0 내지 3072의 정수 값들)를 갖는 PSD 스케일로 맵핑된다. 따라서, 가장 큰 주파수 성분들(즉, 0의 지수를 갖는 것들)은 3072의 PSD 값에 맵핑되고, 반면에 가장 낮은 주파수 도메인 데이터 성분들(즉 24의 지수를 갖는 것들)은 0의 PSD 값에 맵핑된다.
종래의 돌비 디지털(또는 돌비 디지털 플러스) 인코딩에서, 차동 지수들(즉, 연속적인 지수들 사이의 차이)이 절대 지수들 대신에 코딩되는 것이 알려져 있다. 차동 지수들은 오로지 5개의 값들 : 2, 1, 0, -1 및 -2 중 하나를 취할 수 있다. 만약 이 범위 밖의 차동 지수가 발견되면, (수정 이후의) 차동 지수가 언급된 범위 내에 들도록 감산되는 지수들 중 하나가 수정된다(이러한 종래의 방법은 "지수 텐팅" 또는 "텐팅"으로 알려져 있다). 도 1의 인코더의 텐팅 스테이지(10)는 이러한 텐팅 동작을 수행함으로써 인코더에 가해진 원래의 지수들에 응답하여 텐팅된 지수들을 생성한다.
심리음향 모델(예, 도 1의 제어기(4)에 의해 구현되는 모델)이 대역 "N+1"은 다음 대역이고, 현재의 대역 "N"은 다음 대역보다 더 낮은 주파수를 갖는 저주파수 대역들을 스캔하는 lowcomp 보상의 전형적인 구현의 예를 고려하자. 스캔은 가장 낮은 주파수 대역으로부터 대역 번호 22까지 이루어질 있고, 전형적으로 LFE(저주파수 효과들) 채널의 마지막 대역을 포함하지 않는다. 대역 N+1에 대한 PSD 값에서 대역 N에 대한 PSD 값을 뺀 것이, 현재의 대역 N으로부터 다음(더 높은 주파수) 대역 N+1에 대한 PSD에서의 256(가파른 증가(12dB)를 나타내는)과 동일하다고 결정되면, lowcomp의 보상은 현재 대역에 대한 여기 함수 계산을 곧바로 18dB만큼 감소시킴으로써(즉, 대역에 대한 여기 값을 감소시킴으로써) 수행된다. 대역에 대한 여기 값은 384와 동일한 lowcomp 파라미터를 그렇지 않을 경우 대역에 대해 결정될 여기 값으로부터 감산함으로써 감소된다. 이러한 여기 값 감축은 느리게 후퇴된다(예, 후속 대역당 최대 3dB만큼).
후속 대역들에 대해, 즉 lowcomp가 초기에 인에이블되는 대역보다 주파수가 높은 대역들에 대해, 한 대역과 다음 대역 사이에서 PSD의 차이가 256보다 작다는 것이 결정되면, lowcomp 파라미터(대역에 대한 여기 값으로부터 감산되는)는 이전 대역에서와 같이 동일한 값으로 유지되거나, 더 낮은 값으로 감소된다. 두 개의 인접 대역들 사이의 PSD의 차이가 (모든 저주파수 대역들의 스캔 도중에) 256과 같다고 먼저 결정될 때까지, lowcomp의 보상은 수행되지 않는다(즉, 0의 값을 갖는 lowcomp 파라미터는 대역들에 대한 여기 값들로부터 감산된다).
종래의 lowcomp 처리가 현저한 저주파수 성분들을 갖는 음색 신호들에 대해 유리하지만, 마스크 감축을 트리거시키는 12 dB PSD 차이의 기준이 저주파수 콘텐트를 갖는 많은 수의 비음색 신호들에 의해 빈번하게 충족된다는 점이 단점이다. 군중에 의한 박수소리를 나타내는 오디오 데이터는 이러한 비음색 신호의 잘 알려진 예이고, 본 명세서에서 이러한 유형의 비음색 신호(본 발명의 전형적인 실시예들에서 음색 신호와 구별되는)를 나타내는 것으로 참조될 것이다. 본 발명자들은, (종래의 lowcomp의 보상을 갖는 종래의 AC-3 또는 E-AC-3 인코딩에서 사용될 코딩 비트 분배에 대해) 코딩 비트들을 낮은 주파수에서 중간/높은 주파수들로 재분배하는 것이 신호들의 AC-3(또는 E-AC-3) 인코딩된 형태들의 디코딩에 뒤이어 생성되는 박수소리 및 다른 비음색 신호들의 지각 품질을 개선시키고, 따라서 이들의 AC-3 또는 E-AC-3 인코딩 동안 이러한 비음색 신호들의 lowcomp의 보상을 디스에이블시키는 것이 바람직할 것이라는 것(즉, 이러한 신호들의 인코딩 동안 lowcomp 오프로 전환하는 것이 바람직하다는 것)을 인식하였다. 본 발명자들은 또한, 이러한 인코딩 도중에 낮은 주파수 성분(예, 피치 파이프들에 의해 생성된 신호들)을 갖는 음색 신호들의 AC-3(또는 E-AC-3) 인코딩 도중에 lowcomp의 보상을 디스에이블시키는 것이 이들의 AC-3(또는 E-AC-3) 인코딩된 형태들의 본 디코딩에 뒤이어 이들이 재생될 때 음색 신호들의 지각 품질을 열화시킨다는 것을 인식하였다.
따라서, 본 발명자들은 현저한 저주파수 음색 성분들을 갖는 오디오 신호들의 인코딩 동안 저주파수 보상을 적응적으로 인가할 수 있지만, 현저한 저주파수 음색 성분들을 갖지 않는 오디오 신호들(예, 박수소리 신호들, 또는 저주파수 비음색 콘텐트를 갖지만 현저한 음색의 저주파수 콘텐트를 갖지 않는 다른 오디오 신호들)의 인코딩 동안에는 인가하지 않는 인코더를 구현하고, 어떠한 디코더 변화도 요구하지 않는 방식(즉, 종래의 디코더가 본 발명의 인코더에 의해 생성된 인코딩된 오디오 신호를 디코딩하는 것을 허용하는 방식)으로 구현하는 것이 바람직할 것임을 인식하였다.
가수 비트 할당이 신호 스펙트럼과 마스킹 곡선 사이의 차이에 기초하는 일부 종래의 오디오 인코딩 방법들은, 인코딩될 밴드화된 주파수 도메인 오디오 데이터에 대해 마스킹 값들의 생성 도중에 저주파수 보상에 덧붙여 적어도 하나의 마스킹 값 정정 처리를 수행한다.
예컨대, 일부 종래의 오디오 인코더들(예, AC-3 및 E-AC-3 인코더들)은 추가적으로 개선된 심리음향 분석에 따라, 인코딩될 각 오디오 채널에 대한 마스킹 곡선을 파라미터적으로 조절하기 위한 대책인, 델타 비트 할당을 구현한다. 인코더는 채용된 마스킹 곡선과 디폴트 마스킹 곡선 사이의 차이들(즉, 각 주파수에서 디폴트 마스킹 모델에 의해 결정된 마스킹 값과 동일한 주파수에서 실제 채용된 개선된 마스킹 모델에 의해 결정된 마스킹 값 사이의 차이)을 전달하는 델타들로서 지정된 추가적인 비트 스트림 코드들을 송신한다.
델타 비트 할당 함수는 전형적으로 계단형 함수(예, ±18dB까지 ±6dB의 단계들)가 되도록 제한된다. 계단의 각 단계는 정수의 인접한 절반의 바크 대역들에 대한 마스킹 레벨 조절에 대응한다. 계단들은 다수의 비중첩 가변 길이의 세그먼트들을 포함한다. 세그먼트들은 송신 효율을 위해 런-렝스(run-length) 코딩된다.
델타 비트 할당의 종래의 애플리케이션은 레벨 정정을 마스킹하기 위한 종래의 BABNDNORM 처리이다. BABNDNORM 처리(마스킹 값 정정 처리의 예)에서, (AC-3 및 강화된 AC-3 인코딩에서 채용된 바크 주파수 대역들의) 번호 29 이상의 지각 대역들에 대해, 여기 함수를 유도하기 위하여 사용된 각 지각 대역 내의 신호 에너지는 지각 대역 폭에 반비례하는 값에 의해 크기조정된다. 대역 29 아래의 모든 지각 대역들이 단위 대역폭을 갖기 때문에(즉, 오로지 단일 주파수 빈을 포함하기 때문에), 29 아래의 대역들에 대해 신호 에너지들의 크기 조정은 필요하지 않다. 점진적으로 더 높은 주파수들에서, 여기 함수 및 따라서 마스킹 임계치 추정은 낮아진다. 이것은 더 높은 주파수들에서, 특히 결합 채널에서 비트 할당을 증가시킨다. AC-3(또는 E-AC-3) 인코딩을 구현하는 일부 오디오 인코더들은 인코딩의 한 단계로서 BABNDNORM 처리를 구현하도록 구성된다.
도 5는, 대역화된 주파수 도메인 오디오 데이터의 대역화된 PSD (지각 에너지) 값들의 그래프(상부 곡선), 종래의 BABNDNORM 처리를 오디오 데이터에 적용시켜 생성된 크기조정된 대역화 PSD 값들의 그래프(위로부터 2번째 곡선), 오디오 데이터를 마스킹하기는데 사용하기 위하여 (예, 종래의 AC-3 또는 E-AC-3 인코더에 의해) 생성된 여기 함수의 그래프(위로부터 3번째 곡선), 및 종래의 BABNDNORM 처리를 여기 함수에 적용함으로써 (예, 종래의 AC-3 또는 E-AC-3 인코더에 의해) 생성된 여기 함수의 크기조정된 형태의 그래프(바닥 곡선)이다. 4개의 곡선들 각각은 지각 대역(바크 주파수) 스케일로 표현된다. 상부 두 개의 곡선들이 대역 29에서 서로로부터 분기하고, 바닥 두 개의 곡선들이 또한 대역 29에서 서로로부터 분기하기 시작하는 것이 명백하다.
도 6은, 오디오 신호의 주파수 스펙트럼의 그래프(가장 넓은 동적 범위를 갖는 도 6의 곡선), 오디오 신호를 마스킹하기 위한 디폴트 마스킹 곡선의 그래프(바닥으로부터 2번째 곡선), 및 종래의 BABNDNORM 처리를 마스킹 곡선에 적용시킴으로써 (예, 종래의 AC-3 또는 E-AC-3 인코더에 의해) 생성된 마스킹 곡선의 크기조정된 형태의 그래프(바닥 곡선)이다. 도 6으로부터 점진적으로 더 높은 주파수에서 BABNDNORM 처리가 마스킹 곡선을 큰 양만큼 떨어뜨리는 것은 자명하다.
실시예들 중 제 1 부류에 있어서, 본 발명은 (양자화를 겪음으로써 포함하는) 인코딩될 주파수 도메인 오디오 데이터의 오디오 데이터 값들의 가수 비트 할당을 결정하는 가수 비트 할당 방법이다. 할당 방법은, 오디오 데이터 값들에 대한 마스킹 값들을 결정하는 단계로서, 마스킹 값들이 상기 오디오 데이터에 대한 가수 비트 할당을 결정하는 신호 대 마스크 값들을 결정하기 위하여 유용하도록, 오디오 데이터의 저주파수 대역들의 세트의 각 주파수 대역의 오디오 데이터에 대한 적응적인 저주파수 보상을 수행하는 것을 포함하는, 마스킹 값들을 결정하는 단계를 포함한다. 적응적인 저주파수 보상은,
(a) 저주파수 대역들의 세트에서 각 주파수 대역이 현저한 음색 콘텐트를 갖는지의 여부를 나타내는 보상 제어 데이터를 생성하기 위하여 오디오 데이터에 대한 음조성(tonality) 검출을 수행하는 단계; 및
(b) 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트를 갖는 저주파수 대역들의 세트 내의 각 주파수 대역 내의 오디오 데이터에 대한 저주파수 보상으로서 현저한 음색 콘텐트를 갖는 각 주파수 대역에 대해 예비 마스킹 값을 정정함으로써 포함하는, 저주파수 보상을 수행하지만, 저주파수 대역들의 세트에서 임의의 다른 주파수 대역 내의 오디오 데이터에 대해 저주파수 보상을 수행하지 않아, 상기 다른 주파수 대역에 대한 마스킹 값이 정정되지 않은 예비 마스킹 값이 되는, 단계를 포함한다.
제 1 부류의 일부 실시예들에 있어서, 단계(a)는 오디오 데이터의 주파수 대역들(반드시 저주파수 대역들인 것은 아닌)의 적어도 하나의 하위세트의 각 주파수 대역이 현저한 음색 콘텐트를 갖는지의 여부를 나타내는 보상 제어 데이터를 생성하기 위하여 오디오 데이터에 대한 음조성 검출을 수행하는 단계를 포함하고, 오디오 데이터 값들에 대한 마스킹 값들을 결정하는 단계는 또한,
(c) 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트를 갖는 오디오 데이터의 상기 각 주파수 대역에 대한 마스킹 값 정정 처리로서, 현저한 음색 콘텐트를 갖는 상기 각 주파수 대역에 대해 예비 마스킹 값을 정정함으로써 포함하는, 마스킹 값 정정 처리를 제 1 방식으로 수행하고, 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트가 부족한 오디오 데이터의 상기 각 주파수 대역에 대해, 제 2 방식으로 마스킹 값 정정 처리를 수행하는 단계를 포함한다.
예컨대, 마스킹 값 정정 처리는 BABNDNORM 처리가 될 수 있고, 상기 각 주파수 대역은 지각 대역이 될 수 있고, 단계(c)는 현저한 음색 콘텐트를 갖는 상기 각 주파수 대역에 대해 제 1 크기조정 상수를 통해 BABNDNORM 처리를 수행하고, 현저한 음색 콘텐트가 부족한 상기 각 주파수 대역에 대해, 제 2 크기조정 상수를 통해 BABNDNORM 처리를 수행하는 단계를 포함할 수 있다.
본 발명의 다른 실시예는 이러한 가수 할당 방법의 임의의 실시예를 포함하는 인코딩 방법이다.
제 2 부류의 실시예들에 있어서, 본 발명은 모든 입력 오디오 신호들(음색 또는 비음색 저주파수 콘텐트를 갖는 모든 신호들을 포함하는)에 저주파수 보상을 적용하거나, 또는 어떠한 입력 오디오 신호에도 저주파수 보상을 적용하지 않는 종래의 인코딩 방법들의 제한들을 극복하는 오디오 인코딩 방법이다. 이들 실시예들은 현저한 저주파수 음색 성분들을 갖는 오디오 신호들의 인코딩 도중에 저주파수 보상을 선택적으로(적응적으로) 적용하지만, 현저한 저주파수 음색 성분들을 갖지 않는 오디오 신호들(예, 저주파수 비음색 성분을 갖지만 현저한 음색 저주파수 콘텐트를 갖지 않는 박수소리 또는 다른 오디오 신호들)의 인코딩 도중에는 적용하지 않는다. 적응적인 저주파수 보상은, 디코더가 저주파수 보상이 인코딩 도중에 적용되는지의 여부를 판단하지(또는 통보받지) 않고도 인코딩된 오디오의 디코딩을 수행하는 것을 허용하는 방식으로 수행된다.
제 2 부류의 전형적인 실시예는 다음의 단계를 포함하는 오디오 인코딩 방법이다:
(a) 오디오 데이터의 적어도 일부 저주파수 대역들의 세트의 각 저주파수 대역이 현저한 음색 콘텐트를 갖는지의 여부를 나타내는 보상 제어 데이터를 생성하기 위하여, 주파수 도메인 오디오 데이터에 대한 음조성 검출을 수행하는 단계; 및
(b) 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트를 갖는 각 상기 저주파수 대역 내의 오디오 데이터에 대해 정정된 마스킹 값을 생성하기 위한 저주파수 보상을 수행하고, 저주파수 보상을 수행하지 않고 세트 내의 각 다른 저주파수 대역 내의 오디오 데이터에 대해 마스킹 값을 생성하는 단계.
일부 실시예들에 있어서, 오디오 인코딩 방법은 AC-3 또는 보강 AC-3 인코딩 방법이다. 이들 실시예들에 있어서, 저주파수 보상은, lowcomp가 초기 설계된 입력 오디오 데이터의 주파수 대역들(즉, 현저하고 장기간의 정적인("음색") 저주파수 콘텐트를 나타내는 주파수 대역들)에 대해 저주파수 보상이 바람직하게 수행되고(즉, 온되거나 인에이블되고), 그렇지 않을 경우 수행되지 않는다(즉, 오프되거나 효과적으로 디스에이블된다). 이들 실시예들에 있어서, 오디오 데이터의 주파수 대역에 대해 저주파수 보상이 수행되지 않아야 함을 나타내는 보상 제어 데이터(예, 대역이 비음색 오디오 콘텐트를 포함하지만 현저한 음색 콘텐트를 포함하지 않는 것을 나타내는 보상 제어 데이터)에 응답하여, 단계(b)는 대역에 대한 수정된 오디오 데이터를 생성하기 위하여 상기 대역 내에서 오디오 데이터를 "재-텐팅"("re-tenting")하는 단계를 바람직하게 포함하고, 대역에 대한 상기 수정된 오디오 데이터는 수정된 지수를 포함한다. 재-텐팅은, 대역에 대한 차동 지수가 -2와 동일하게 되는 것이 방지되도록(예, 다음의 높은 주파수 대역 내의 오디오 데이터의 지수에서 대역에 대한 수정된 오디오 데이터의 수정된 지수를 감산한 것이 2, 1, 0, 또는 -1을 가져야만 하도록), 대역에 대한 수정된 오디오 데이터를 생성한다. 따라서, lowcomp의 보상은 대역에 대해 적용되지 않을 수 있는데, 왜냐하면 lowcomp의 보상을 대역에 적용하는 기준(다음의 낮은 주파수 대역에 대한 PSD에 대해, 그 대역에 대해 PSD의 12dB 증가)이 충족되지 않을 것이기 때문이다(이 기준은 대역에 대한 수정된("재-텐팅된") 오디오 데이터의 지수로부터 다음의 낮은 주파수 대역에 대한 지수를 감산한 결과가 -2가 되는 것이 방지되는 경우, 충족되지 않을 수 있다).
보다 구체적으로, 일부 이러한 실시예들에 있어서, 재-텐팅이 차동 지수가 -2가 되는 것을 방지하는 각 대역("N번째" 대역)에 대해, lowcomp의 보상은 다음과 같은 의미에서 "적용되지 않는다"(또는 스위칭 오프되거나, 효과적으로 디스에이블된다). (재-텐팅으로부터 초래되는) 대역에 대한 수정된 차동 지수는 -1, 0, 1 또는 2이다. 따라서, 이전 (낮은 주파수) 대역("(N-1)번째" 대역)에 대한 차동 지수가 -2이었고(만약 음조성 검출 단계가 "(N-1)번째" 대역에 대해 강한 음색 콘텐트를 나타내어 "(N-1)번째" 대역에 대한 재-텐팅을 방지하였고, "N번째" 대역에 대한 음색 콘텐트의 부족을 나타내어 "N번째" 대역에 대한 재-텐팅을 트리거하였다면, 발생할 수 있는), lowcomp가 "(N-1)번째" 대역에 대한 완전한 마스크 조정을 (종래의 방식으로) 적용하였다면(즉, 본 발명의 음조성 검출이 lowcomp가 그렇게 행하는 것을 방지하지 않았다면), 종래의 lowcomp는 (재-텐팅 없이), 0의 조정을 행하는 (이들 대역들에 대한 어떠한 차동 지수도 -2와 동일하지 않다고 가정하여) 대역에 도달할 때까지, 점진적으로 더 작은 마스크 조정들의 시퀀스(N번째 대역을 포함하여, "(N-1)번째" 대역에 뒤따르는 작은 수의 대역들에 대해)를 적용할 것이다. 본 절에서 기술된 실시예들에 있어서, (본 발명에 따라) 재-텐팅이 대역("N번째" 대역)에 대한 차동 지수가 -2와 동일하게 되는 것을 방지할 때(즉, 본 발명의 음조성 검출 단계가 대역에 대한 비음색 콘텐트를 나타내기 때문에), 만약 lowcomp가 이전 대역("(N-1)번째" 대역)에 마스크 조정을 적용하였다면, 0의 조정을 행하는 제 1 대역에 도달할 때까지, lowcomp는 N번째 대역에 대해 (및 가능하게는 또한 작은 수의 후속 대역들에 대해) 점진적으로 낮은 마스크 조정들의 시퀀스를 지속하도록 허용된다. 이 시점에, 본 발명의 음조성 검출이 음색 신호를 나타낼 때까지, lowcomp는 임의의 추가 마스크 조정을 행하는 것이 방지된다.
다른 실시예들에 있어서, 본 발명의 음조성 검출 단계가, lowcomp가 종래의 방식대로 적용될 세트 내의 임의의 저주파수 대역에 대해 (또는 함께 고려되는 모든 저주파수 대역들에 대해) 비음색 콘텐트를 나타낼 때, lowcomp의 보상은 다음과 같은 의미로 "적용되지 않는다"(또는 스위치 오프되거나 효과적으로 디스에이블된다). 세트 내의 적어도 하나의 저주파수 대역에 대해 비음색 콘텐트를 나타내는 본 발명의 음조성 검출 단계에 응답하여, 세트 내의 모든 대역들에 대한 여기 함수로부터 0이 아닌 lowcomp 파라미터들의 감산은 (예, 곧바로) 종료된다. 이 시점에, lowcomp는 임의의 마스크 조정을 행하는 것이 방지된다(주파수 도메인의 오디오 데이터의 다음 세트의 대역들의 새로운 스위프의 시작까지).
일부 실시예들에 있어서, 보상 제어 데이터는, 세트 내의 각 개별적인 저주파수 대역이 현저한 음색 콘텐트를 갖는지, 그리고 저주파수 보상이 세트 내의 각 개별적인 저주파수 대역에 선택적으로 적용되는지(또는 적용되지 않는지)를 나타낸다. 다른 실시예들에 있어서, 보상 제어 데이터는, (함께 고려되는) 세트 내의 저주파수 대역들이 현저한 음색 콘텐트를 갖는지, 그리고 (보상 제어 데이터의 콘텐트에 따라) 저주파수 보상이 세트 내의 모든 저주파수 대역들에 적용되는지 또는 세트 내의 어떠한 저주파수 대역들에도 적용되지 않는지를 나타낸다.
제 2 부류의 일부 실시예들에 있어서, 단계(a)는 오디오 데이터의 주파수 대역들(반드시 저주파수 대역들인 것은 아닌)의 적어도 하나의 하위세트의 각 주파수 대역이 현저한 음색 콘텐트를 갖는지의 여부를 나타내는 보상 제어 데이터를 생성하기 위하여 오디오 데이터에 대한 음조성 검출을 수행하는 단계를 포함하고, 오디오 데이터 값들에 대한 마스킹 값들을 결정하는 단계는 또한,
(c) 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트를 갖는 오디오 데이터의 상기 각 주파수 대역에 대해, 제 1 방식으로 마스킹 값 정정 처리를 수행하고, 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트가 부족한 오디오 데이터의 상기 각 주파수 대역에 대해, 제 2 방식으로 마스킹 값 정정 처리를 수행하는 단계를 포함한다.
예컨대, 마스킹 값 정정 처리는 BABNDNORM 처리가 될 수 있고, 상기 각 주파수 대역은 지각 대역이 될 수 있고, 단계(c)는 현저한 음색 콘텐트를 갖는 상기 각 주파수 대역에 대해 제 1 크기조정 상수를 통해 BABNDNORM 처리를 수행하고, 현저한 음색 콘텐트가 부족한 상기 각 주파수 대역에 대해, 제 2 크기조정 상수를 통해 BABNDNORM 처리를 수행하는 단계를 포함할 수 있다.
다른 부류의 실시예들에 있어서, 본 발명은 주파수 도메인 오디오 데이터에 응답하여, 오디오 데이터에 대한 적응적인 저주파수 보상을 수행함으로써 포함하는, 인코딩된 오디오 데이터를 생성하도록 구성된 오디오 인코더이고, 상기 인코더는,
오디오 데이터의 적어도 일부의 저주파수 대역들의 세트 중 각 저주파수 대역이 현저한 음색 콘텐트를 갖는지를 나타내는 보상 제어 데이터를 생성하기 위하여 오디오 데이터에 대한 음조성 검출을 수행하도록 구성된 음조성 검출기(예, 도 2의 요소(15)); 및
보상 제어 데이터에 응답하여, 오디오 데이터의 저주파수 대역들의 세트 중 각 저주파수 대역에 대한 저주파수 보상의 적용을 적응적으로 인에블시키도록(선택적으로 인에이블 또는 효과적으로 디스에이블시키도록) 결합되어 구성된 저주파수 보상 제어 스테이지(예, 도 2의 요소(4)에 의해 구현되는)를 포함한다.
음조성 검출기는, 저주파수 보상이 저주파수 대역들의 세트 중 각 주파수 대역의 오디오 데이터에 적용되어야 하는지(즉, 저주파수 대역들의 세트 중 각 주파수 대역의 저주파수 보상이, 저주파수 대역들의 세트 중 오디오 데이터의 인코딩 도중에, 대역이 현저한 음색 콘텐트를 가져 스위칭 온되어야 하는지, 또는 대역이 현저한 음색 콘텐트가 부족하여 스위칭 오프되어야 하는지를 나타내는 보상 제어 데이터를 생성함으로써)를 결정하도록 구성된다. 이러한 저주파수 보상 제어 스테이지는, 보상 제어 데이터 응답하여, 어떠한 디코더 변경도 필요로 하지 않는 방식으로(즉, 저주파수 보상이 인코딩 도중에 임의의 저주파수 대역에 적용되었는지의 여부를 결정하지(또는 통보받지) 않고 디코더가 인코딩된 오디오 데이터의 디코딩을 수행하는 것을 허용하는 방식으로), 저주파수 대역들의 세트 중 각 대역의 오디오 데이터에 대한 저주파수 보상의 적용을 적응적으로 가능케 하도록 구성된다.
인코딩될 오디오 데이터의 주파수 대역이 (저주파수 보상이 디스에이블되어야 하는) 비음색 신호인 것을 나타내는 보상 제어 데이터에 응답하여, 저주파수 보상 제어 스테이지의 바람직한 실시예는 대역의 오디오 데이터의 지수를 인위적으로 수정함으로써 대역의 오디오 데이터를 "재-텐팅"한다. 재-텐팅은 대역에 대한 수정된 오디오 데이터를 생성하여, 대역에 대한 차동 지수가 -2와 동일해지는 것이 방지된다(예, 대역에 대한 수정된 오디오 데이터의 수정된 지수에서 다음 저주파수 대역 내의 오디오 데이터의 지수를 감산한 것이 2, 1, 0, 또는 -1을 가져야만 한다). 인코더의 전형적인 실시예들에 있어서, lowcomp의 보상을 대역에 적용하기 위한 기준(다음의 낮은 주파수 대역에 대한 PSD에 대해, 그 대역에 대해 PSD의 12dB 증가)이 충족되지 않기 때문에(대역에 대한 수정된 오디오 데이터의 지수에서 다음 저주파수 대역에 대한 지수를 감산한 것이 -2가 되는 것이 방지된다면, 기준은 충족되지 않을 것이다), lowcomp의 보상은 대역에 적용되지 않을 것이다.
본 발명의 다른 양상은 인코딩된 오디오 데이터를 디코딩하는 방법이고, 이러한 디코딩 방법은, 인코딩된 오디오 데이터를 나타내는 신호를 수신하는 단계로서, 인코딩된 오디오 데이터는 본 발명의 인코딩 방법의 임의의 실시예에 따라 오디오 데이터를 인코딩함으로써 생성되는, 수신하는 단계와, 오디오 데이터를 나타내는 신호를 생성하기 위하여 인코딩된 오디오 데이터를 디코딩하는 단계를 포함한다. 본 발명의 다른 양상은, 오디오 데이터에 따라 인코딩된 오디오 데이터를 생성하기 위한 본 발명의 인코딩 방법의 임의의 실시예를 수행하도록 구성된(또는 프로그램된) 인코더와 인코딩된 오디오 데이터를 디코딩하여 오디오 데이터를 회복하도록 구성된 디코더를 포함하는 시스템이다.
본 발명의 다른 양상은 본 발명의 방법의 임의의 실시예를 수행하도록 구성된(예, 프로그램된) 시스템 또는 디바이스(예, 인코더 또는 프로세서), 및 본 발명의 방법의 임의의 실시예 또는 실시예의 단계들을 수행하기 위한 코드를 저장하는 컴퓨터 판독 가능한 매체(예, 디스크)이다. 예컨대, 본 발명의 시스템은, 소프트웨어 또는 펌웨어로 프로그램된, 및/또는 그렇지 않을 경우 본 발명의 방법의 실시예 또는 실시예의 단계들을 포함하는, 데이터에 대한 다양한 동작들 중 임의의 것을 수행하도록 구성된 프로그램 가능한 범용 프로세서, 디지털 신호 프로세서, 또는 마이크로프로세서일 수 있거나 이들을 포함할 수 있다. 이러한 범용 프로세서는 컴퓨터 시스템일 수 있거나 컴퓨터 시스템을 포함할 수 있고, 이러한 컴퓨터 시스템은 입력 디바이스, 메모리, 및 시스템에 어설트된 데이터에 응답하여 본 발명의 방법의 실시예(또는 실시예의 단계들)를 수행하도록 프로그램된(및/또는 달리 구성된) 처리 회로를 포함한다.
도 1은 종래의 인코딩 시스템의 블록도.
도 2는 본 발명의 방법의 일 실시예를 수행하도록 구성된 인코딩 시스템의 블록도.
도 3은 주파수 빈의 함수로서, 피치 파이프(음색) 신호를 나타내는 주파수 도메인 오디오 데이터의 지수들 및 텐팅된 지수들의 그래프.
도 4는 주파수 빈의 함수로서, 박수소리(비음색) 신호를 나타내는 주파수 도메인 오디오 데이터의 지수들 및 텐팅된 지수들의 그래프.
도 5는, 대역화된 주파수 도메인 오디오 데이터의 대역화된 PSD (지각 에너지) 값들의 그래프(상부 곡선), 종래의 BABNDNORM 처리를 오디오 데이터에 적용시켜 생성된 크기조정된 대역화된 PSD 값들의 그래프(위로부터 2번째 곡선), 오디오 데이터를 마스킹하기는데 사용하기 위하여 생성된 여기 함수의 그래프(위로부터 3번째 곡선), 및 종래의 BABNDNORM 처리를 여기 함수에 적용함으로써 생성된 여기 함수의 크기조정된 형태의 그래프(바닥 곡선)를 도시하고, 4개의 곡선들 각각은 지각 대역(바크 주파수) 스케일로 표현된, 도면.
도 6은, 오디오 신호의 주파수 스펙트럼의 그래프, 오디오 신호를 마스킹하기 위한 디폴트 마스킹 곡선의 그래프(바닥으로부터 2번째 곡선), 및 종래의 BABNDNORM 처리를 마스킹 곡선에 적용시킴으로써 생성된 마스킹 곡선의 크기조정된 형태의 그래프(바닥 곡선).
도 7은 오디오 데이터에 응답하여 인코딩된 오디오 데이터를 생성하기 위하여 본 발명의 인코딩 방법의 임의의 실시예를 수행하도록 구성된 인코더와 오디오 데이터를 회복하기 위하여 인코딩된 오디오 데이터를 디코딩하도록 구성된 디코더를 포함하는 시스템의 블록도.
본 발명의 방법을 구현하도록 구성된 시스템의 일 실시예가 이제 도 2를 참조로 기술될 것이다. 도 2의 시스템은 AC-3(또는 강화-AC-3) 인코더이고, 이러한 인코더는 시간-도메인 입력 오디오 데이터(1)에 응답하여 AC-3(또는 강화-AC-3) 인코딩된 오디오 비트스트림(9)을 생성하도록 구성된다. 도 2의 시스템의 요소들(2, 4, 6, 7, 8, 10 및 11)은 상술된 도 1의 시스템의 동일하게 번호가 메겨진 요소들과 동일하다.
분석 필터 뱅크(2)는 시간-도메인 입력 오디오 데이터(1)를 주파수 도메인 오디오 데이터(3)로 변환하고, BFPE 스테이지(7)는 각 주파수 빈에 대한 지수 및 가수를 포함하는, 데이터(3)의 각 주파수 성분의 부동점 표현을 생성한다. 스테이지(7)로부터 출력되는 주파수 도메인 오디오 데이터(간혹 본 명세서에서 또한 주파수 도메인 오디오 데이터(3)로서 언급되는)는 이후 인코딩되고, 이러한 인코딩은 양자화기(6) 내에서 자신의 가수의 양자화를 포함한다. 포맷터(8)는, 양자화기(6)로부터 출력되는 양자화된 가수 데이터와 스테이지(11)로부터 출력되는 코딩된 차동 지수 데이터에 응답하여 AC-3(또는 강화-AC-3) 인코딩된 비트스트림(9)을 생성하도록 구성된다. 양자화기(6)는 제어기(4)에 의해 생성된 제어 데이터(마스킹 데이터를 포함)에 기초하여 비트 할당 및 양자화를 수행한다.
제어기(4)는 오디오 데이터(3)의 저주파수 대역들의 세트 중 각 저주파수 대역에 대한 저주파수 보상을, 상기 대역에 대한 예비 마스킹 값(여기 값)을 정정함으로써, 수행하도록 구성된다. 대역에 대해 제어기(4)에 의해 양자화기(6)에 어설트된 정정된 마스킹 데이터는 상기 대역에 대해 정정된 마스킹 값에 의해 결정된다.
도 2의 시스템이 AC-3(또는 강화-AC-3) 인코더이기 때문에, 제어기(4)는, 대략 잘 알려진 바크 스케일의 주파수 대역들인 50개의 비균일 지각 대역들에 기초하여 주파수 도메인 데이터를 분석하기 위한 심리음향 모델을 구현한다. 본 발명의 다른 실시예들은 다른 대역화 기초 상의(즉, 균일 또는 비균일 주파수 대역들의 임의의 세트에 기초하여) 주파수 도메인 데이터를 분석하기(및/또는 저주파수 보상 및 선택적으로 또한 다른 마스킹 값 정정 처리를 구현하기) 위하여 심리음향 모델을 채용한다.
도 2의 인코더는 본 발명의 재-텐팅 스테이지(18)와 음조성 검출기(15)를 포함한다. 도 2의 텐팅 스테이지(10)는 생성한 텐팅된 지수들을 음조성 검출기(15)와 재-텐팅 스테이지(18)에 어설트하도록 결합 및 구성된다. 재-텐팅 스테이지(18)는 재-텐팅된 지수들을 생성하도록 구성되고, 재-텐팅된 지수들은 제어기(4)(재-텐팅된 지수들에 응답하여 동작하는)가 오로지 저주파수 보상이 대역에 대해 수행되어야 한다는 것을 나타내는 보상 제어 데이터(검출기(15)에 의해 생성되어 스테이지(18)에 어설트되는)에 응답하여 주파수 대역에 대한 저주파수 보상을 수행하게 한다. 저주파수 보상이 오디오 데이터(3)의 대역에 대해 수행되어야 한다는 것을 나타내는 보상 제어 데이터(검출기(15)에 의해 생성되어 스테이지(18)에 어설트되는)에 응답하여, 제어기(4)는 대역에 대해 저주파수 보상을 수행하지 않고, 대신에 대역에 대해 제어기(4)에 의해 양자화기(6)에 어설트된 마스킹 데이터가 상기 대역에 대한 정정되지 않은 예비 마스킹 값(여기 값)에 의해 결정된다.
주파수 도메인 데이터(3)의 각 주파수 대역에 대해 제어기(4)에 의해 양자화기(6)에 어설트된 마스킹 데이터는 대역에 대한 마스킹 곡선 값을 포함한다. 이들 마스킹 곡선 값들은 각 주파수 대역 내의 인간의 귀에 의해 마스킹되는 신호의 양을 나타낸다. 도 1의 시스템에서와 같이, 도 2의 양자화기(6)는 사용 가능한 수의 데이터 비트들을 사용하는 최상의 방법을 결정하여 입력 오디오 신호들의 각 주파수 대역의 성분들을 나타내기 위하여 이러한 정보를 사용한다.
보다 구체적으로, 제어기(4)는, 스테이지(18)로부터 제어기에 어설트된 재-텐팅된 지수들에 응답하여 PSD 값들을 계산하고, PSD 값들에 응답하여 대역화된 PSD 값들을 계산하고, 대역화된 PSD 값들에 응답하여 마스킹 곡선을 계산하고, 및 마스킹 곡선에 응답하여 가수 비트 할당 데이터(도 2에 표시된 "마스킹 데이터")를 결정하도록 구성된다.
도 2의 오디오 인코더는 오디오 데이터(3)에 대한 적응적인 저주파수 보상을 수행함으로써 포함하는 인코딩된 오디오 데이터(9)를 생성하도록 구성된다. 이러한 적응적인 저주파수 보상을 구현하기 위하여, 도 2의 시스템은 도시된 바와 같이 결합된 음조성 검출 스테이지(음조성 검출기)(15)와 적응적인 재-텐팅 스테이지(18)를 포함하고, 제어기(4)는 스테이지(18)에 의해 생성된 재-텐팅된 지수들에 응답하여 저주파수 보상을 수행한다. 텐팅 스테이지(10)는 아래에서 더 상세하게 기술되는 방식으로, 주파수 도메인 오디오 데이터(3)의 저수파수 대역들의 미가공 지수들을 수신하도록 결합되고, 오디오 데이터(3)의 상술한 세트의 각 저주파수 대역에 대한 텐팅된 지수를 결정하도록 구성된다.
음조성 검출기(15)는, 오디오 데이터(3)의 원래의 (미가공) 지수들, 및 오디오 데이터(3)의 저주파수 대역들의 세트의 스위프(낮은 주파수로부터 높은 주파수로의) 도중에 이들 원래의 지수들에 응답하여 스테이지(10)에 의해 생성된 텐팅된 지수들을 수신하기 위하여 결합된다.
스테이지(10)는, 데이터(3)의 연속적인 주파수 대역들에 대한 주파수 도메인 오디오 데이터(3)의 지수들 사이의 차이를 결정하고, 이러한 각 지수의 텐팅된 형태(텐팅된 지수)를 생성하도록 구성된다. 텐팅은, 주파수 도메인 데이터(3)(적응적인 저주파수 보상이 수행되어야 하는 저주파수 대역들의 세트의 주파수 대역들을 포함하는)의 스위프(낮은 주파수로부터 높은 주파수로의) 도중에, 텐팅된 지수가 스위프 도중에 각 주파수 빈에 대해 생성되도록, 상술된 종래의 방식대로 수행된다. 스테이지(10)는 각 대역에 대한 차동 지수(각 "다음" 빈, "N+1"의 지수에서 현재의 (낮은 주파수) 빈 "N"의 지수를 감산한)를 결정한다. 빈 "N"에 대한 차동 지수가 2보다 크다면(즉, exp(N+1)-exp(N)>2), 스테이지(10)는 빈 "N+1"에 대한 텐팅된 지수가 tentexp(N+1)-exp(N)=2를 충족시키는 가장 작은 지수(tentexp(N+1))가 되도록, 결정한다. 이 경우, 빈 N에 대한 텐팅된 지수(tentexp(N))가 빈 N에 대한 원래의 지수와 동일하고(tentexp(N)=exp(N)), 스테이지(10)는 빈 N에 대한 차동 텐팅된 지수 값(2)을 스테이지(18)에 어설트한다. 빈 "N"에 대한 차동 지수가 -2보다 작다면(즉, exp(N+1)-exp(N) < -2), 스테이지(10)는 빈 "N"에 대한 텐팅된 지수가 exp(N+1) - tentexp(N) = -2를 충족시키는 가장 큰 지수(tentexp(N))가 되도록, 결정한다. 이 경우, 빈 N+1에 대한 텐팅된 지수(tentexp(N+1))는 빈 N+1에 대한 원래의 지수와 동일하고(tentexp(N+1)=exp(N+1)), 스테이지(10)는 빈 N에 대한 차동 텐팅된 지수 값(-2)을 스테이지(10)에 어설트한다.
음조성 검출기(15)는, 오디오 데이터(3)를 포함하는 원래의 지수들, 및 오디오 데이터(3)의 저주파수 대역들의 세트의 스위프(낮은 주파수로부터 높은 주파수로의) 도중에 이들 원래의 지수들에 응답하여 스테이지(10)에 의해 생성된 텐팅된 지수들에 대한 음조성 검출을 수행하도록 구성된다. 스위프는 음색 신호의 PSD 값들의 특성(주파수의 함수로서)을 상승시키거나 하강시키는데, 이러한 PSD 값은 이러한 신호가 비음색 신호(예, 박수소리를 나타내는 비-음색 신호)에서 보다 더 빈번하게 텐팅되는 것을 의미한다.
예컨대, 도 3은 주파수 빈의 함수로서, 음색 신호(피치 파이프 신호)를 나타내는 주파수 도메인 오디오 데이터의 지수들 및 텐팅된 지수들의 그래프이다. 도 4는, 또한 주파수 빈의 함수로서 도시된, 비음색(박수소리) 신호를 나타내는 주파수 도메인 오디오 데이터의 지수들 및 텐팅된 지수들의 그래프이다. 저주파수 보상이 전형적으로 수행되는 저주파수들에서, 각 빈(도 3 및 도 4의)은 단일 주파수 대역에 대응한다. 도 3의 검사로부터 자명한 바와 같이, 음색 신호의 지수와 대응하는 텐팅된 지수(예, 스테이지(10)에 의해 지수로부터 생성된) 사이의 0이 아닌 차이가 존재하는 저주파수 범위 내의 많은 주파수 대역들(예, 빈들(7, 11, 14, 15, 20 및 23))이 존재한다. 도 4의 검사로부터 자명한 바와 같이, 비음색 신호의 지수와 대응하는 텐팅된 지수 사이의 0이 아닌 차이가 존재하는 저주파수 범위 내의 더 적은 주파수 대역들(예, 오로지 빈(34))이 존재한다.
따라서, 음조성 검출기(15)의 전형적인 실시예는 주파수 도메인 오디오 데이터의 세트의 지수들과 대응하는 텐팅된 지수들 사이의 평균 제곱 차이를 측정치(또는 이러한 데이터의 지수들과 대응하는 텐팅된 지수들 사이의 차이를 나타내는 다른 측정치)를 결정한다. 예컨대, 제 1 (가장 낮은) 주파수 대역으로부터 대역 N+1을 통한, (데이터(3)의 낮은 주파수 대역들의 언급된 세트의) 낮은 주파수 대역들의 스위프(낮은 주파수로부터 높은 주파수로의) 동안, 검출기(15)의 구현은 제 1 대역으로부터 대역 N+1 까지의 범위 내의 각 대역에 대한 원래의 지수와 텐팅된 지수 사이의 제곱 차이들의 평균이 될 대역 N+1에 대한 음조성 측정치를 생성한다.
이러한 평균 제곱 차이 측정치는, 가장 낮은 주파수 대역으로부터 현재의 주파수 대역(대역 N+1)을 통해 주파수 범위 내의 오디오 신호의 음조성(현저한 음색 콘텐트의 존재 또는 부족)를 나타내는 보상 제어 데이터를 결정하기 위하여 채용된다. (가장 낮은 주파수 대역으로부터 현재의 주파수 대역을 통한) 각 주파수 범위에 대해, (주파수 범위에 대한) 평균 제곱 차이 측정치가 특정 미리 결정된 임계치(예, 경험적으로 결정된 임계치)보다 낮은 값을 갖는다면, 검출기(15)는 비-음색 오디오 신호를 나타내기 위하여 제 1 값(예, 0과 같은 2진 비트)을 갖는 보상 제어 데이터를 (스테이지(18)에 대해) 어설트한다. 이는 현재의 대역에 대해 스테이지(10)에 의해 어설트된 차동 지수 값의 스테이지(18)에 의한 재-텐팅을 트리거하고, 이에 의해 제어기(4)에 의한 디코더 호환 lowcomp의 스위치 오프를 트리거한다(즉, 제어기(4)가 현재 대역에 대한 종래의 저주파수 보상을 적용하는 것을 방지한다). 아래에서 기술된 예에서, 임계치는 0.05가 되도록 취해진다.
(가장 낮은 주파수 대역으로부터 현재의 주파수 대역으로) 각 주파수 범위에 대해, (주파수 범위에 대한) 평균 제곱 차이 측정치가 임계치보다 크거나 같은 값을 갖는다면, 검출기(15)는 음색 오디오 신호를 나타내기 위하여 제 2 값(예, 1과 동일한 2진 비트)을 갖는 보상 제어 데이터를 (스테이지(18)에 대해) 어설트한다. 이것은 현재 대역에 대해 스테이지(10)에 의해 어설트된 차동 지수 값의 스테이지(18)에 의한 재-텐팅을 디스에이블시키고, 이에 의해 이 값(스테이지(10)의 출력에서 어설트된)이 스테이지(18)를 통해 변함없이 제어기(4)에 전달되도록 허용하고, 따라서 제어기(4)에 의한 디코더 호환 lowcomp의 스위치 온을 트리거한다(즉, 제어기(4)가 현재의 대역에 대해 종래의 저주파수 보상을 적용하도록 허용한다).
대안적인 실시예들에 있어서, 검출기(15)는 다른 방식으로 보상 제어 데이터를 생성하지만, 보상 제어 데이터가, 데이터(3)의 각 주파수 대역 내의, 또는 데이터(3)의 각 저주파수 대역 내의, 또는 적응적인 저주파수 보상이 수행되어야 하는 데이터(3)의 저주파수 대역의 세트(또는 하위세트)를 포함하는 주파수 범위 내의 데이터(3)에 의해 결정된 오디오 신호의 음조성(또는 비음조성)를 나타내는 방식이다. 예컨대, 일부 실시예들에 있어서, 검출기(15)는 BFPE 스테이지(7)의 출력에서 동작하는 (특히, BFPE 스테이지(7)의 출력의 지수들 및 스테이지(10)로부터 출력된 텐팅된 지수들에 대해서가 아닌) 전용 음조성 검출기로서 구현된다.
다른 예로서, 일부 실시예들에 있어서, 검출기(15)(또는 임의의 실시예들에서 채용된 다른 음조성 검출기)는 오디오 데이터의 저주파수 대역들의 세트(예, 세트의 각 저주파수 대역이)가 박수소리를 표현하는지를 나타내는 보상 제어 데이터를 생성하도록 구성된 박수소리 검출기이다. 이러한 콘텍스트에서, "박수소리"는 박수소리만을 또는 박수소리 및/또는 군중의 응원소리를 나타낼 수 있는 넓은 의미로 사용된다. 저주파수 보상은, 보상 제어 데이터에 의해 표시된 바와 같이, 박수소리를 나타내는 세트 내의 각 주파수 대역에 대해, 또는 세트 내의 대역들 중 적어도 하나의 대역이 박수소리를 나타낸다면 세트 내의 모든 대역들에 대해 디스에이블(스위치 오프)될 수 있다. 저주파수 보상은 보상 제어 데이터에 의해 표시된 박수소리를 나타내지 않는 세트 내의 각 주파수 대역 내의 오디오 데이터에 대해 수행될 수 있다.
비-음색 오디오 신호를 나타내는(예, 데이터(3)에 의해 결정된 오디오 신호가 데이터(3)의 가장 낮은 주파수 대역으로부터 현재의 대역(대역 N)까지의 저주파수 범위 내의 비-음색 신호인 것을 나타내는) 디코더(15)로부터의 보상 제어 데이터에 응답하여, 스테이지(18)는 현재 대역의 텐팅된 지수에 대한 재-텐팅을 수행한다. 특히, 현재 대역에 대한 차동 텐팅된 지수(대역 N+1의 텐팅된 지수에서 대역 N의 텐팅된 지수를 감산한 값)가 -2(이전 대역 N으로부터 현재의 (더 높은 주파수) 대역 N+1에 대해 PSD에서 가파른 증가(12dB)를 나타내는)와 같다면, 스테이지(18)는 -1과 동일할 대역 "N+1"에 대한 차동 재-텐팅된 지수를 결정한다. 따라서, 비-음색 오디오 신호를 나타내는(예, 데이터(3)에 의해 결정된 오디오 신호가 데이터(3)의 가장 낮은 주파수 대역으로부터 데이터(3)의 현재의 대역(대역 N)까지의 저주파수 범위 내에서 비-음색 신호인 것을 나타내는) 검출기(15)로부터의 보상 제어 데이터에 응답하여, 제어기(4)는 오디오 데이터(3)의 현재의 주파수 대역(N)에 대한 저주파수 보상을 수행하지 않는다.
음색 오디오 신호를 나타내는(예, 데이터(3)에 의해 결정된 오디오 신호가 데이터(3)의 가장 낮은 주파수 대역으로부터 데이터(3)의 현재의 대역(대역 N)까지의 음색 신호인 것을 나타내는) 검출기(15)로부터의 보상 제어 데이터에 응답하여, 스테이지(18)는 (텐팅된 지수 차이를 변경시키지 않고) 현재 대역에 대한 텐팅된 지수 차이를 제어기(4)에 전달하고, 제어기(4)는 오디오 데이터(3)의 현재의 주파수 대역(N)에 대한 저주파수 보상을 수행하는 것이 허용된다. 특히, 대역에 대해 스테이지(10)로부터 출력된 (및 스테이지(18)를 통해 제어기(4)로 전달되는) 텐팅된 지수 차이 값이 -2와 동일하면, 제어기(4)는 오디오 데이터(3)의 현재의 주파수 대역(N)에 대한 저주파수 보상을 수행한다.
보다 일반적으로, 본 발명의 전형적인 실시예들의 음조성 검출기는, 저주파수 보상이 저주파수 대역들의 세트의 각 주파수 대역의 오디오 데이터에 적용되어야 하는지를 (즉, 저주파수 대역들의 세트 중 각 주파수 대역의 저주파수 보상이, 저주파수 대역들의 세트 중 오디오 데이터의 인코딩 도중에, 대역이 현저한 음색 콘텐트를 가져 스위칭 온되어야 하는지, 또는 대역이 현저한 음색 콘텐트가 부족하여 스위칭 오프되어야 하는지를 나타내는 보상 제어 데이터를 생성함으로써) 결정하도록 구성된다. 본 발명의 전형적인 실시예들의 이러한 저주파수 보상 제어 스테이지는, 보상 제어 데이터 응답하여, 어떠한 디코더 변경도 필요로 하지 않는 방식으로(즉, 저주파수 보상이 인코딩 도중에 임의의 저주파수 대역에 적용되었는지의 여부를 결정하지(또는 통보받지) 않고 디코더가 인코딩된 오디오 데이터의 디코딩을 수행하는 것을 허용하는 방식으로), 저주파수 대역들의 세트 중 각 대역의 오디오 데이터에 대한 저주파수 보상의 적용을 적응적으로 인에이블시키도록 구성된다.
전형적인 실시예들에 있어서, 인코딩될 오디오 데이터의 주파수 대역이 (저주파수 보상이 디스에이블되어야 하는) 비음색 신호인 것을 나타내는 보상 제어 데이터에 응답하여, 저주파수 보상 제어 스테이지의 바람직한 실시예는 텐팅된 데이터에 의해 결정된 해당 차동 지수를 인위적으로 수정함으로써 대역의 텐팅된 오디오 데이터(예, 차동 텐팅된 지수)를 "재-텐팅"한다. 재-텐팅은 대역에 대한 수정된 오디오 데이터를 생성하여, 대역에 대한 수정된(재-텐팅된) 차동 지수가 -2와 동일해지는 것이 방지된다(예, 대역에 대한 수정된 오디오 데이터의 수정된 지수에서 다음의 낮은 주파수 대역 내의 오디오 데이터의 지수를 감산한 것이 2, 1, 0, 또는 -1을 가져야만 한다). 본 발명의 인코더의 전형적인 실시예들에 있어서, lowcomp의 보상을 대역에 적용하기 위한 기준(다음의 낮은 주파수 대역에 대한 PSD에 대해, 그 대역에 대한 PSD의 12dB 증가)이 충족되지 않기 때문에(대역에 대한 수정된 오디오 데이터의 지수에서 다음의 낮은 주파수 대역에 대한 지수를 감산한 것이 -2가 되는 것이 방지되기 때문에, 이 기준은 충족되지 않을 것이다), lowcomp의 보상은 대역에 적용되지 않을 것이다.
저주파수 보상은, (인접한 저주파수 대역들에 대한) 차동 지수들이 결코 -2가 되지 않도록 (즉, 낮은 주파수 대역으로부터 높은 주파수 대역들로의 스캔 도중에 12dB의 PSD 증가를 회피하기 위하여) 저주파수 대역에 대한 지수를 인위적으로 수정("재-텐팅")함으로써, 따라서 lowcomp의 보상의 적용을 회피하기 위하여, 디코더의 변경 없이 (본 발명의 전형적인 실시예들에 따라) 스위치 오프될 수 있다. 본 발명의 음조성 검출기가 비-음색 신호를 나타낼 때, 저주파수 대역들에 대한 텐팅된 지수들은 이러한 취지로 재-텐팅된다. 이것은 가수 값들을 양자화하기 위한 마스킹 데이터(신호 대 마스크 비율들)를 생성하기 위하여 사용된 심리음향 모델에 대한 어떠한 변경도 필요로 하지 않고, 따라서 종래의 디코더들에 의해 디코딩될 수 있는 인코딩된 데이터를 생성한다. 보다 구체적으로, 대역 "N+1"이 다음 대역이고, 현재의 대역("N")이 다음 대역보다 더 낮은 주파수를 갖는, 저주파수 대역들을 통한 스캐닝 도중에, 차동 지수(대역 N+1에 대한 지수로부터 대역 N에 대한 지수를 감산한)가 -2와 같다고 예비적으로 결정되면, 수정된 지수 값들의 차동 지수가 -1이 되도록(즉, 대역 N+1에 대한 수정된 지수로부터 대역 N에 대한 지수를 감산한 것이 -1이 되거나, 또는 대역 N+1에 대한 지수로부터 대역 N에 대한 수정된 지수를 감산한 것이 -1이 되도록) 대역들 중 하나의 지수는 변경("재-텐팅")된다. 바람직하게, 대역 N+1에 대한 지수로부터 대역 N에 대한 지수를 감산한 것이 -2와 같다면, 대역 N+1에 대한 지수로부터 대역 N에 대한 수정된 지수를 감산한 것이 -1이 되도록, 대역 N(현재 대역)에 대한 지수를 감소시킴("재-텐팅"함)으로써, 이러한 차이는 -1로 증가한다. 재-텐팅의 후자의 구현이 전형적으로 바람직한데, 왜냐하면 일반적으로 대응하는 가수들이 완전히 정규화될 수 있다는 가정이 존재하여 지수 값들을 증가지시키는 것이 바람직하지 않기 때문이다. 완전히 정규화된 가수에 대응하는 지수 값을 증가시키는 것은 바람직하지 않은 과-정규화된 또는 클립핑된 가수를 초래할 것이다. 그러므로, 대역 N+1에 대한 지수로부터 대역 N에 대한 지수를 감산한 것이 -2와 동일하면, 이러한 차이를 -1로 증가시키기 위하여, (대역 N+1에 대한 지수를 1만큼 감소시키는 것보다) 대역 N에 대한 지수를 1만큼 감소시키는 것이 전형적으로 바람직하다.
본 발명의 음조성 검출기가 음색 신호를 나타낼 때, 입력 오디오 주파수 성분들의 지수들은 재-텐팅되지 않고, 저주파수 보상은 종래의 방식대로 음색 신호(즉, 음색 신호를 나타내는 종래의 방식으로 텐팅된 값들)에 적용된다.
본 발명자들은 종래의 E-AC-3 인코더의 성능을 E-AC-3 인코더의 수정된 형태(도 2를 참조하여 기술된 유형의 적응적인 lowcomp의 보상을 구현하는)의 성능과 비교한 청취 시험을 수행하였다. 시험은 후자(수정된) 인코더의 장점들을 시험된 박수소리 신호들에 대해서뿐만 아니라 일부 비-박수소리 신호들에 대해서도 나타내었다. 더 구체적으로, 음조성 검출기 임계치가 0.05와 동일한(즉, 주파수 도메인 오디오 데이터의 지수들과 텐팅된 지수들 사이의 평균 제곱 차이 측정치가 0.05의 임계치보다 작은 값을 가질 때 (인코딩될 주파수 도메인 오디오 데이터의 지수들을 재-텐팅함으로써) lowcomp의 보상이 스위치 오프되어야 하는 음색 신호를 나타내는 제어 데이터를 생성하도록 구성된 음조성 검출기) 192kb/s에서, lowcomp의 보상이 스위치 오프된 블록들의 평균 백분율은 피치 파이프(장기간, 높은 음색의 저주파수) 입력 오디오 및 박수소리(높은 음색, 낮은 주파수) 입력 오디에 대해 각각, 0.5% 및 80%이었다.
언급한 바와 같이, 음색 신호의 PSD의 가파른 상승 및 하강 특성은, 이러한 신호들이 비-음색 신호보다 더 자주 텐팅된다는 것을 의미하고, 따라서 지수들 및 텐팅된 지수들 사이의 평균 제곱 차이가 음색의 표시자로서 작용할 수 있는 것을 의미한다. 특정 임계치(실험적으로 결정된)보다 낮은 음색 표시자 값은 lowcomp가 스위치오프되어야 하는 비음색 신호들을 의미하고, 그 반대도 마찬가지이다. 전형적인 구현들에 있어서, 음색 표시자 값은 현재 주파수 대역의 주파수가 결합 시작 주파수(결합이 사용될 때)에 도달할 때까지, 인코딩될 오디오 데이터(예, 도 2의 데이터(3))의 주파수 대역들의 스위프 도중에 (예, 도 2의 검출기(15)에 의해) 계산된다. 적응적인 하이브리드 변환(AHT)이 사용된다면, 본 발명의 적응적인 lowcomp의 보상의 동작은 디스에이블될 수 있고, 대신에 종래의 (비-적응적인) lowcomp 처리가 수행될 수 있다. AHT는 위에서 인용한 돌비 디지털/돌비 디지털 플러스 규격, 및 위에서 인용한 Robert L. Andersen과 Grant A. Davidson에 의한 북 챕터 "Dolby Digital Audio Coding Standards,"(The Digital Signal Processing Handbook 제2판, 편집장 Vijay K. Madisetti, CRC 출판사, 2009년)에 기술되었다.
제 1 부류의 실시예들에 있어서, 본 발명은 (양자화를 수행함으로써 포함하는) 인코딩될 주파수 도메인 오디오 데이터의 오디오 데이터 값들의 가수 비트 할당을 결정하기 위한 가수 비트 할당 방법이다. 할당 방법은, 오디오 데이터 값들에 대한 마스킹 값들을 (예, 도 2의 제어기(4)에서) 결정하는 단계로서, 마스킹 값들이 상기 오디오 데이터에 대한 가수 비트 할당을 결정하는 신호 대 마스크 값들을 결정하기 위하여 유용하도록, 오디오 데이터의 저주파수 대역들의 세트의 각 주파수 대역의 오디오 데이터에 대한 적응적인 저주파수 보상을 수행함으로써 포함하는, 마스킹 값들을 결정하는 단계를 포함한다. 적응적인 저주파수 보상은,
(a) 저주파수 대역들의 세트에서 각 주파수 대역이 현저한 음색 콘텐트를 갖는지의 여부를 나타내는 보상 제어 데이터를 생성하기 위하여 오디오 데이터에 대한 (예, 도 2의 음조성 검출기(15)에서) 음조성 검출을 수행하는 단계; 및
(b) 현저한 음색 콘텐트를 갖는 각 주파수 대역에 대해 예비 마스킹 값을 정정함으로써 포함하는, 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트를 갖는 저주파수 대역들의 세트 내의 각 주파수 대역 내의 오디오 데이터에 대해, 저주파수 보상을 수행하지만, 저주파수 대역들의 세트에서 임의의 다른 주파수 대역 내의 오디오 데이터에 대해 저주파수 보상을 수행하지 않아, 상기 다른 주파수 대역에 대한 마스킹 값이 정정되지 않은 예비 마스킹 값이 되는, 단계를 포함한다.
제 1 부류의 일부 실시예들에 있어서, 단계(a)는 오디오 데이터의 주파수 대역들의 적어도 하나의 하위세트의 각 주파수 대역이 현저한 음색 콘텐트를 갖는지의 여부를 나타내는 보상 제어 데이터를 생성하기 위하여 오디오 데이터에 대한 (예, 도 2의 음조성 검출기(15)에서) 음조성 검출을 수행하는 단계를 포함하고, 오디오 데이터 값들에 대한 마스킹 값들을 결정하는 단계는 또한,
(c) 현저한 음색 콘텐트를 갖는 상기 각 주파수 대역에 대해 예비 마스킹 값을 정정함으로써 포함하는, 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트를 갖는 오디오 데이터의 상기 각 주파수 대역에 대한 마스킹 값 정정 처리를 제 1 방식으로 수행하고, 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트가 부족한 오디오 데이터의 상기 각 주파수 대역에 대한 마스킹 값 정정 처리를 제 2 방식으로 수행하는 단계를 포함한다.
예컨대, 마스킹 값 정정 처리는 BABNDNORM 처리가 될 수 있고, 상기 각 주파수 대역은 지각 대역이 될 수 있고, 단계(c)는 현저한 음색 콘텐트를 갖는 상기 각 주파수 대역에 대해 제 1 크기조정 상수를 통해 BABNDNORM 처리를 수행하고, 현저한 음색 콘텐트가 부족한 상기 각 주파수 대역에 대해, 제 2 크기조정 상수를 통해 BABNDNORM 처리를 수행하는 단계를 포함할 수 있다.
본 발명의 다른 실시예는 이러한 가수 할당 방법의 임의의 실시예를 포함하는 인코딩 방법이다.
제 2 부류의 실시예들에 있어서, 본 발명은 모든 입력 오디오 신호들(음색 또는 비음색 저주파수 콘텐트를 갖는 모든 신호들을 포함하는)에 저주파수 보상을 적용하거나, 또는 어떠한 입력 오디오 신호에도 저주파수 보상을 적용하지 않는 종래의 인코딩 방법들의 제한들을 극복하는 오디오 인코딩 방법이다. 이들 실시예들은 현저한 저주파수 음색 성분들을 갖는 오디오 신호들의 인코딩 도중에 저주파수 보상을 선택적으로(적응적으로) 적용하지만, 현저한 저주파수 음색 성분들을 갖지 않는 오디오 신호들(예, 저주파수 비음색 성분을 갖지만 현저한 음색 저주파수 콘텐트를 갖지 않는 박수소리 또는 다른 오디오 신호들)의 인코딩 도중에는 적용하지 않는다. 적응적인 저주파수 보상은, 디코더가 저주파수 보상이 인코딩 도중에 적용되는지의 여부를 결정하지(또는 통보받지) 않고도 인코딩된 오디오의 디코딩을 수행하도록 허용하는 방식으로 수행된다.
제 2 부류의 전형적인 실시예는 다음의 단계를 포함하는 오디오 인코딩 방법이다:
(a) 오디오 데이터의 적어도 일부 저주파수 대역들의 세트의 각 저주파수 대역이 현저한 음색 콘텐트를 갖는지의 여부를 나타내는 보상 제어 데이터를 생성하기 위하여, 주파수 도메인 오디오 데이터에 대한 (예, 도 2의 음조성 검출기(15) 내에서) 음조성 검출을 수행하는 단계; 및
(b) 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트를 갖는 각 상기 저주파수 대역 내의 오디오 데이터에 대해 정정된 마스킹 값을 생성하기 위하여 저주파수 보상을 (예, 도 2의 제어기(4) 내에서) 수행하고, 세트 내의 각 다른 저주파수 대역 내의 오디오 데이터에 대해 저주파수 보상을 수행하지 않고 마스킹 값을 (예, 도 2의 제어기(4) 내에서) 생성하는 단계.
제 2 부류의 일부 실시예들에 있어서, 오디오 인코딩 방법은 AC-3 또는 보강 AC-3 인코딩 방법이다. 이들 실시예들에 있어서, 저주파수 보상은, lowcomp가 초기 설계된 입력 오디오 데이터의 주파수 대역들(즉, 현저하고 장기간의 정적인("음색")의 저주파수 콘텐트를 나타내는 주파수 대역들)에 대해 저주파수 보상이 바람직하게 수행되고(즉, 온되거나 인에이블되고), 그렇지 않을 경우 수행되지 않는다(즉, 오프되거나 효과적으로 디스에이블된다). 이들 실시예들에 있어서, 오디오 데이터의 주파수 대역에 대해 저주파수 보상이 수행되지 않아야 함을 나타내는 보상 제어 데이터(예, 대역이 비음색 오디오 콘텐트를 포함하지만 현저한 음색 콘텐트를 포함하지 않는 것을 나타내는 보상 제어 데이터)에 응답하여, 단계(b)는 대역에 대한 수정된 오디오 데이터를 생성하기 위하여 상기 대역 내에서 오디오 데이터를 "재-텐팅"하는 단계를 바람직하게 포함하고, 대역에 대한 상기 수정된 오디오 데이터는 수정된 지수를 포함한다. 재-텐팅은, 대역에 대한 차동 지수가 -2와 동일하게 되는 것이 방지되도록(예, 대역에 대한 수정된 오디오 데이터의 수정된 지수에서 다음의 낮은 주파수 대역 내의 오디오 데이터의 지수를 감산한 것이 2, 1, 0, 또는 -1을 가져야만 하도록), 대역에 대한 수정된 오디오 데이터를 생성한다. 따라서, lowcomp의 보상은 대역에 대해 적용되지 않을 수 있는데, 왜냐하면 lowcomp의 보상을 대역에 적용하는 기준(다음 낮은 주파수 대역에 대한 PSD에 대해, 그 대역에 대해 PSD의 12dB 증가)이 충족되지 않을 것이기 때문이다(이 기준은 대역에 대한 수정된("재-텐팅된") 오디오 데이터의 지수로부터 다음의 낮은 주파수 대역에 대한 지수를 감산한 결과가 -2가 되는 것이 방지되는 경우, 충족되지 않을 수 있다).
제 2 부류의 일부 실시예들에 있어서, 단계(a)는 오디오 데이터의 주파수 대역들의 적어도 하나의 하위세트의 각 주파수 대역이 현저한 음색 콘텐트를 갖는지를 나타내는 보상 제어 데이터를 생성하기 위하여 오디오 데이터에 대해 (예, 도 2의 음조성 검출기(15)에서) 음조성 검출을 수행하는 단계를 포함하고, 오디오 데이터 값들에 대한 마스킹 값들을 결정하는 단계는 또한,
(c) 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트를 갖는 오디오 데이터의 상기 각 주파수 대역에 대해, 제 1 방식으로 마스킹 값 정정 처리를 (예, 도 2의 제어기(4)에서) 수행하고, 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트가 부족한 오디오 데이터의 상기 각 주파수 대역에 대해, 제 2 방식으로 마스킹 값 정정 처리를 수행하는 단계를 포함한다.
예컨대, 마스킹 값 정정 처리는 BABNDNORM 처리가 될 수 있고, 상기 각 주파수 대역은 지각 대역이 될 수 있고, 단계(c)는 현저한 음색 콘텐트를 갖는 상기 각 주파수 대역에 대해 제 1 크기조정 상수를 통해 BABNDNORM 처리를 수행하고, 현저한 음색 콘텐트가 부족한 상기 각 주파수 대역에 대해, 제 2 크기조정 상수를 통해 BABNDNORM 처리를 수행하는 단계를 포함할 수 있다.
언급한 바와 같이, 본 발명의 인코딩 방법(및 가수 비트 할당 방법)의 일부 실시예들은 인코딩/디코딩의 BABNDNORM 양상들을 수정하기 위하여 본 발명의 보상 제어 데이터를 사용한다.
실시예들의 한 부류에서, 본 발명의 인코딩 방법은 다음과 같이 인코딩/디코딩의 BABNDNORM 양상들을 수정하기 위하여 본 발명의 보상 제어 데이터를 사용한다. 종래의 BABNDNORM 및 본 발명의 적응적인 저주파수 보상 방법들 모두 낮은 주파수들을 희생하여 높은 주파수들을 향해 코딩 비트들을 재할당한다는 유사한 목적을 갖는다. 하지만, 종래의 BABNDNORM는 델타들을 디코더에 송신하는 추가 비용을 수반한다.
BABNDNORM 및 본 발명의 적응적인 저주파수 보상 모두의 최적 사용을 위해, 인코더는 대역에 대한 적응적인 lowcomp 결정에 기초하여 지각 대역에 대한 BABNDNORM 크기조정 상수를 조절하도록 구성된다. 예컨대, 도 2의 시스템의 구현에 있어서, 대역에 대해 음조성 검출기(15)에 의해 생성된 보상 제어 데이터가 저주파수 보상이 디스에이블(오프)되어야 하는 것을 나타내면, 제어기(4)의 마스킹 데이터 생성 스테이지는, 마스킹 임계치가 더 적은 양만큼 낮아지도록, (보상 제어 데이터에 응답하여) BABNDNORM의 크기조정 상수를 선택한다. 대역에 대해 음조성 검출기(15)에 의해 생성된 보상 제어 데이터가 저주파수 보상이 인에이블(온)되어야 하는 것을 나타내면, 마스킹 데이터 생성 스테이지는, 마스킹 임계치가 더 큰 양만큼 낮아지도록, (보상 제어 데이터에 응답하여) BABNDNORM의 크기조정 상수를 선택한다.
본 발명 방법의 일부 실시예들에 있어서, lowcomp가 종래의 방식으로 적용될 세트 내에서 임의의 저주파수 대역(또는 함께 고려되는 모든 저주파수 대역들)에 대해 음조성 검출 단계가 비-음색 콘텐트를 나타낼 때, lowcomp의 보상은 다음의 의미에서 "적용되지 않는다"(또는 스위치 오프 또는 효과적으로 디스에이블된다). 세트 내의 적어도 하나의 저주파수 대역에 대해 비-음색 콘텐트를 나타내는 본 발명의 음조성 검출 단계에 응답하여, 세트 내의 모든 대역들에 대한 여기 값들로부터 0이 아닌 lowcomp 파라미터들의 감산은 (예, 즉시) 종료된다. 이 시점에서, lowcomp는 임의의 마스크 조절을 행하는 것이 방지된다(주파수 도메인 오디오 데이터의 다음 세트의 대역들의 새로운 스위프의 개시까지).
위에서 언급한 바와 같이, 본 발명 방법의 일부 실시예들에 있어서, 보상 제어 데이터는 세트 내의 각 개별적인 저주파수 대역이 현저한 음색 콘텐트를 갖는지를 나타내고, 저주파수 보상은 세트 내의 각 개별적인 저주파수 대역에 선택적으로 적용된다(또는 적용되지 않는다). 본 발명 방법의 다른 실시예들에 있어서, 보상 제어 데이터는 세트 내의 저주파수 보상 대역들(함께 고려되는)이 현저한 음색 콘텐트를 갖는지를 나타내고, 저주파수 보상은 (보상 제어 데이터의 콘텐트에 따라) 세트 내의 모든 저주파수 대역들에 적용되거나, 또는 세트 내의 어떠한 저주파수 대역들에도 적용되지 않는다. 한 부류의 실시예들은 전체 저주파수 대역들에 대한 lowcomp를 인에이블 또는 디스에이블할지에 대한 이진(광역) 결정을 구현한다. 이러한 부류 내의 일부 실시예들에 있어서, lowcomp가 디스에이블 되어야 함을 색조 검출이 나타내면, lowcomp 파라미터가 항상 0이 되도록, 재-텐팅은 저주파수의 lowcomp 영역으로부터 값 -2의 모든 차동 지수들을 제거할 것이다. 그러나, 본 발명 방법의 다른 실시예들은 더 미세한-입도의 음색 결정을 구현하여, lowcomp는 전체 저주파수 영역의 일부 주파수 영역들에 대해 활성으로 유지되는 것이 허용되지만, 다른 영역들에서는 디스에이블된다.
본 발명의 다른 양상은 오디오 데이터에 응답하여 인코딩된 오디오 데이터를 생성하기 위하여 본 발명의 인코딩 방법의 임의의 실시예를 수행하도록 구성된 인코더와, 인코딩된 오디오 데이터를 디코딩하여 오디오 데이터를 회복하도록 구성된 디코더를 포함하는 시스템이다. 도 7의 시스템은 이러한 시스템의 한 예이다. 도 7의 시스템은, 오디오 데이터에 응답하여 인코딩된 오디오 데이터를 생성하기 위하여 본 발명의 인코딩 방법의 임의의 실시예를 수행하도록 구성된(예, 프로그램된) 인코더(90), 전달 하위시스템(91) 및 디코더(92)를 포함한다. 전달 하위시스템(91)은 인코더(90)에 의해 생성된 인코딩된 오디오 데이터를 저장하고, 및/또는 인코딩된 오디오 데이터를 나타내는 신호를 송신하도록 구성된다. 디코더(92)는 하위시스템(91)으로부터 인코딩된 오디오 데이터를 수신하고(예, 하위시스템(91) 내의 저장장치로부터 인코딩된 오디오 데이터를 판독 또는 검색함으로써, 또는 하위시스템(91)에 의해 송신된 인코딩된 오디오 데이터를 나타내는 신호를 수신함으로써), 및 인코딩된 오디오 데이터를 디코딩하여 오디오 데이터를 회복하도록(및 전형적으로 또한 오디오 데이터를 나타내는 신호를 생성 및 출력하도록) 결합 및 구성(예, 프로그램)된다.
본 발명의 다른 양상은 인코딩된 오디오 데이터를 디코딩하기 위한 방법(예, 도 7의 디코더(92)에 의해 수행된 방법)이고, 이러한 방법은, 본 발명의 인코딩 방법의 임의의 실시예에 따라 오디오 데이터를 인코딩함으로써 생성된 인코딩된 오디오 데이터를 나타내는 신호를 수신하는 단계와 오디오 데이터를 나타내는 신호를 생성하기 위하여 인코딩된 오디오 데이터를 디코딩하는 단계를 포함한다.
본 발명은 하드웨어, 펌웨어, 또는 소프트웨어, 또는 (예, 프로그램 가능한 로직 어레이와 같은) 둘의 조합으로 구현될 수 있다. 달리 규정되지 않는다면, 본 발명의 부분으로서 포함된 알고리즘들 또는 프로세스들이 임의의 특별한 컴퓨터 또는 다른 장치에 고유하게 관련되는 것은 아니다. 특히, 다양한 범용 머신들은 본 명세서의 가르침들에 따라 기록된 프로그램들과 함께 사용될 수 있거나, 또는 필요한 방법 단계들을 수행하기 위하여 더 특별한 장치(예, 집적 회로들)를 구성하는 것이 더 편리할 수 있다. 따라서, 본 발명은, 각각이 적어도 하나의 프로세서, 적어도 하나의 데이터 저장 시스템(휘발성 및 비휘발성 메모리 및/또는 저장 요소들을 포함하는), 적어도 하나의 입력 디바이스 또는 포트, 및 적어도 하나의 출력 디바이스 또는 포트를 포함하는 하나 이상의 프로그램 가능한 컴퓨터 시스템들(예, 도 2의 인코더를 구현하는 컴퓨터 시스템) 상에서 실행되는 하나 이상의 컴퓨터 프로그램들 내에서 구현될 수 있다. 본 명세서에서 기술된 함수들을 수행하고 출력 정보를 생성하기 위하여 프로그램 코드가 입력 데이터에 인가된다. 출력 정보는 알려진 방식으로 하나 이상의 출력 디바이스들에 인가된다.
이러한 각 프로그램은 컴퓨터 시스템과 통신하기 위하여 임의의 바람직한 컴퓨터 언어(기계, 어셈블리, 또는 고레벨의 절차, 로직, 또는 객체 지향 프로그래밍 언어들을 포함하는)로 구현될 수 있다. 어떠한 경우에서든지, 언어는 컴파일된 또는 번역된 언어일 수 있다.
예컨대, 컴퓨터 소프트웨어 명령 시퀀스들로 구현될 때, 본 발명의 실시예들의 다양한 함수들 및 단계들은 적합한 디지털 신호 처리 하드웨어 내에서 구동되는 다중경로 소프트웨어 명령 시퀀스들로 구현될 수 있고, 이 경우, 실시예들의 다양한 디바이스들, 단계들, 및 함수들은 소프트웨어 명령들의 부분들에 대응한다.
이러한 각 컴퓨터 프로그램은 바람직하게, 저장 매체 또는 디바이스가 컴퓨터 시스템에 의해 판독되어 본 명세서에서 기술된 절차들을 수행할 때 컴퓨터를 구성 및 동작하기 위하여, 일반 또는 특수 목적 프로그램 가능한 컴퓨터에 의해 판독 가능한 저장 매체 또는 디바이스(예, 고체 상태 메모리 또는 매체, 또는 자기 또는 광 매체)에 저장되거나 다운로드된다. 본 발명의 시스템은 또한 컴퓨터 프로그램을 갖는(즉, 저장한) 컴퓨터 판독 가능한 저장 매체로서 구현될 수 있고, 그렇게 구성된 저장 매체는 컴퓨터 시스템이 특정한 미리 한정된 방식으로 동작하여 본 명세서에서 기술된 함수들을 수행하게 한다.
본 발명의 다수의 실시예들이 기술되었다. 그럼에도 불구하고, 본 발명의 사상과 범주를 벗어나지 않고 다양한 수정들이 이루어질 수 있음이 이해될 것이다. 상기 가르침의 견지에서 본 발명의 다수의 수정들 및 변경들이 가능하다. 첨부된 청구항들의 범주 내에서 본 발명이 본 명세서에서 특별하게 기술된 것과 달리 실시될 수 있음이 이해될 것이다.

Claims (44)

  1. 오디오 인코딩 방법으로서,
    (a) 주파수 도메인 오디오 데이터에 대한 음조성(tonality) 검출을 수행하여, 상기 오디오 데이터의 적어도 일부 저주파수 대역들의 세트의 각 저주파수 대역이 현저한 음색 콘텐트를 갖는지를 나타내는 보상 제어 데이터를 생성하는, 음조성 검출을 수행하는 단계; 및
    (b) 상기 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트를 갖는 각각의 상기 저주파수 대역 내의 상기 오디오 데이터에 대해 정정된 마스킹 값을 생성하기 위하여 저주파수 보상을 수행하고, 상기 세트 내의 각각의 다른 저주파수 대역 내에서 저주파수 보상을 수행하지 않고 상기 오디오 데이터에 대한 마스킹 값을 생성하는 단계를 포함하는, 오디오 인코딩 방법.
  2. 제 1항에 있어서,
    상기 보상 제어 데이터는 상기 세트의 적어도 하나의 대역이 박수소리를 표현하는지를 나타내고, 상기 단계 (b)는,
    상기 보상 제어 데이터에 의해 표시되는 박수소리를 표현하는 상기 세트의 각 저주파수 대역 내의 상기 오디오 데이터에 대해 저주파수 보상을 수행하지 않고 마스킹 값을 생성하는 단계를 포함하는, 오디오 인코딩 방법.
  3. 제 1항에 있어서,
    상기 보상 제어 데이터는 상기 세트의 적어도 하나의 대역이 군중 소음과 박수소리 중 적어도 하나를 표현하는지를 나타내고, 상기 단계 (b)는,
    상기 보상 제어 데이터에 의해 표시되는 박수소리와 군중 소음 중 적어도 하나를 표현하는 상기 세트의 각 저주파수 대역 내의 상기 오디오 데이터에 대해 저주파수 보상을 수행하지 않고 마스킹 값을 생성하는 단계를 포함하는, 오디오 인코딩 방법.
  4. 제 1항에 있어서,
    상기 단계 (b)는, 상기 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트가 부족한 상기 세트의 각 저주파수 대역 내에서 상기 오디오 데이터를 재-텐팅(re-tenting)하여, 현저한 음색 콘텐트가 부족한 적어도 하나의 상기 저주파수 대역에 대해 수정된 지수를 포함하는 수정된 오디오 데이터를 생성하는, 재-텐팅하는 단계를 포함하는, 오디오 인코딩 방법.
  5. 제 4항에 있어서,
    상기 재-텐팅하는 단계는, 다음의 더 높은 주파수 대역 내의 오디오 데이터의 지수에서 상기 수정된 지수를 감산한 것이 값들(2, 1, 0, 및 -1) 중 하나를 가져야만 하도록, 현저한 음색 콘텐트가 부족한 적어도 하나의 상기 저주파수 대역에 대한 수정된 지수를 생성하는, 오디오 인코딩 방법.
  6. 제 1항에 있어서,
    상기 단계(a)는, 상기 오디오 데이터에 대한 음조성 검출을 수행하여, 상기 오디오 데이터의 상기 주파수 대역들의 적어도 하나의 하위세트 내의 각 주파수 대역이 현저한 음색 콘텐트를 갖는지를 나타내는 보상 제어 데이터를 생성하는, 음조성 검출을 수행하는 단계를 포함하고, 상기 방법은,
    (c) 상기 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트를 갖는 상기 오디오 데이터의 상기 각 주파수 대역에 대해, 제 1 방식으로 마스킹 값 정정 처리를 수행하고, 상기 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트가 부족한 상기 오디오 데이터의 상기 각 주파수 대역에 대해, 제 2 방식으로 마스킹 값 정정 처리를 수행하는 단계를 포함하는, 오디오 인코딩 방법.
  7. 제 6항에 있어서,
    상기 마스킹 값 정정 처리는 BABNDNORM 처리이고, 상기 단계(c)는 현저한 음색 콘텐트를 갖는 상기 각 주파수 대역에 대해 제 1 크기조정 상수를 통해 BABNDNORM 처리를 수행하고, 현저한 음색 콘텐트가 부족한 상기 각 주파수 대역에 대해, 제 2 크기조정 상수를 통해 BABNDNORM 처리를 수행하는 단계를 포함하는, 오디오 인코딩 방법.
  8. 제 1항에 있어서,
    상기 주파수 도메인 오디오 데이터는 상기 세트의 상기 각 저주파수 대역에 대한 지수 값을 포함하고, 상기 단계 (a)는, 상기 세트의 상기 각 저주파수 대역에 대해, 상기 오디오 데이터의 지수들과 대응하는 텐팅된(tented) 지수들 사이의 차이의 측정치를 결정하는 단계를 포함하는, 오디오 인코딩 방법.
  9. 제 1항에 있어서,
    상기 주파수 도메인 오디오 데이터는 상기 세트의 상기 각 저주파수 대역에 대한 지수 값을 포함하고, 상기 단계 (a)는, 상기 세트의 상기 각 저주파수 대역에 대해, 상기 오디오 데이터의 지수들과 대응하는 텐팅된 지수들 사이의 평균 제곱 차이의 측정치를 결정하는 단계를 포함하는, 오디오 인코딩 방법.
  10. 제 1항에 있어서,
    상기 보상 제어 데이터는 세트 내의 각 개별적인 저주파수 대역들이 현저한 음색 콘텐트를 갖는지를 나타내고, 상기 단계(b)에서 저주파수 보상은 상기 세트 내의 각 개별적인 저주파수 대역들에 대해 선택적으로 수행되거나, 수행되지 않는, 오디오 인코딩 방법.
  11. 제 1항에 있어서,
    상기 보상 제어 데이터는 함께 고려되는 상기 세트 내의 각 개별적인 저주파수 대역들이 현저한 음색 콘텐트를 갖는지를 나타내고, 상기 보상 제어 데이터가 함께 고려되는 상기 세트 내의 저주파수 대역들이 현저한 음색 콘텐트를 갖는 것을 나타낼 때, 저주파수 보상은 상기 단계(b)에서 상기 세트 내의 모든 저주파수 대역들에 대해 수행되는, 오디오 인코딩 방법.
  12. 양자화를 겪음으로써 포함하는, 인코딩될 주파수 도메인 오디오 데이터의 오디오 데이터 값들의 가수(mantissa) 비트 할당을 결정하는 방법으로서, 마스킹 값들이 상기 오디오 데이터에 대한 상기 가수 비트 할당을 결정하는 신호-대-마스크 값들을 결정하는데 유용하도록, 상기 오디오 데이터의 저주파수 대역들의 세트의 각 주파수 대역의 상기 오디오 데이터에 대한 적응적인 저주파수 보상을 수행함으로써 포함하는, 상기 오디오 데이터 값들에 대한 마스킹 값들을 결정하는 단계를 포함하는, 가수 비트 할당을 결정하는 방법에 있어서,
    상기 적응적인 저주파수 보상은,
    (a) 저주파수 대역들의 상기 세트 내의 각 주파수 대역이 현저한 음색 콘텐트를 갖는지를 나타내는 보상 제어 데이터를 생성하기 위하여 상기 오디오 데이터에 대한 음조성 검출을 수행하는 단계; 및
    (b) 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트를 갖는 저주파수 대역들의 세트 내의 상기 각 주파수 대역 내의 오디오 데이터에 대한 저주파수 보상으로서, 현저한 음색 콘텐트를 갖는 각 주파수 대역에 대해 예비 마스킹 값을 정정함으로써 포함하는, 저주파수 보상을 수행하지만, 저주파수 대역들의 세트 내의 임의의 다른 주파수 대역 내의 오디오 데이터에 대해 저주파수 보상을 수행하지 않아, 상기 다른 주파수 대역에 대한 마스킹 값이 정정되지 않은 예비 마스킹 값이 되는, 저주파수 보상을 수행하는 단계를 포함하는, 가수 비트 할당을 결정하는 방법.
  13. 제 12항에 있어서,
    상기 보상 제어 데이터는 상기 세트의 적어도 하나의 대역이 박수소리를 표현하는지를 나타내고, 상기 단계 (b)는,
    상기 보상 제어 데이터에 의해 표시된 박수소리를 표현하는 상기 세트의 각 저주파수 대역 내의 상기 오디오 데이터에 대한 저주파수 보상의 수행을 디스에이블시키는 단계를 포함하는, 가수 비트 할당을 결정하는 방법.
  14. 제 12항에 있어서,
    상기 보상 제어 데이터는 상기 세트의 적어도 하나의 대역이 군중의 소음과 박수소리 중 적어도 하나를 표현하는지를 나타내고, 상기 단계 (b)는,
    상기 보상 제어 데이터에 의해 표시된 박수소리 및 군중의 소음 중 적어도 하나를 표현하는 상기 세트의 각 저주파수 대역 내의 상기 오디오 데이터에 대한 저주파수 보상의 수행을 디스에이블시키는 단계를 포함하는, 가수 비트 할당을 결정하는 방법.
  15. 제 12항에 있어서,
    상기 단계 (b)는, 상기 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트가 부족한 상기 세트의 각 주파수 대역 내에서 상기 오디오 데이터를 재-텐팅하는 단계를 포함하여, 현저한 음색 콘텐트가 부족한 적어도 하나의 상기 주파수 대역에 대해 수정된 지수를 포함하는 수정된 오디오 데이터를 생성하는, 재-텐팅하는 단계를 포함하는, 가수 비트 할당을 결정하는 방법.
  16. 제 15항에 있어서,
    상기 재-텐팅하는 단계는, 다음의 더 높은 주파수 대역 내의 오디오 데이터의 지수에서 상기 수정된 지수를 감산한 것이 값들(2, 1, 0, 및 -1) 중 하나를 가져야만 하도록, 현저한 음색 콘텐트가 부족한 적어도 하나의 상기 주파수 대역에 대한 수정된 지수를 생성하는, 가수 비트 할당을 결정하는 방법.
  17. 제 12항에 있어서,
    상기 단계(a)는, 상기 오디오 데이터에 대한 음조성 검출을 수행하여, 상기 오디오 데이터의 상기 주파수 대역들의 적어도 하나의 하위세트 내의 각 주파수 대역이 현저한 음색 콘텐트를 갖는지를 나타내는 보상 제어 데이터를 생성하는, 음조성 검출을 수행하는 단계를 포함하고, 상기 오디오 데이터 값들에 대한 마스킹 값들을 결정하는 상기 단계는,
    (c) 상기 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트를 갖는 상기 오디오 데이터의 상기 각 주파수 대역에 대한 마스킹 값 정정 처리로서, 현저한 음색 콘텐트를 갖는 상기 각 주파수 대역에 대해 예비 마스킹 값을 정정함으로써 포함하는, 마스킹 값 정정 처리를 제 1 방식으로 수행하고, 상기 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트가 부족한 상기 오디오 데이터의 상기 각 주파수 대역에 대한 마스킹 값 정정 처리를 제 2 방식으로 수행하는 단계를 포함하는, 가수 비트 할당을 결정하는 방법.
  18. 제 17항에 있어서,
    상기 마스킹 값 정정 처리는 BABNDNORM 처리이고, 상기 단계(c)는 현저한 음색 콘텐트를 갖는 상기 각 주파수 대역에 대해 제 1 크기조정 상수를 통해 BABNDNORM 처리를 수행하고, 현저한 음색 콘텐트가 부족한 상기 각 주파수 대역에 대해, 제 2 크기조정 상수를 통해 BABNDNORM 처리를 수행하는 단계를 포함하는, 가수 비트 할당을 결정하는 방법.
  19. 제 12항에 있어서,
    상기 보상 제어 데이터는 상기 세트 내의 각 개별적인 주파수 대역들이 현저한 음색 콘텐트를 갖는지를 나타내고, 상기 단계(b)에서 저주파수 보상은 상기 세트 내의 각 개별적인 주파수 대역들에 대해 선택적으로 수행되거나, 수행되지 않는, 가수 비트 할당을 결정하는 방법.
  20. 제 12항에 있어서,
    상기 보상 제어 데이터는 함께 고려되는 상기 세트 내의 상기 저주파수 대역들이 현저한 음색 콘텐트를 갖는지를 나타내고, 상기 보상 제어 데이터가 함께 고려되는 상기 세트 내의 주파수 대역들이 현저한 음색 콘텐트를 갖는 것을 나타낼 때, 저주파수 보상은 상기 단계(b)에서 상기 세트 내의 모든 주파수 대역들에 대해 수행되는, 가수 비트 할당을 결정하는 방법.
  21. 주파수 도메인 오디오 데이터에 응답하여, 오디오 데이터에 대한 적응적인 저주파수 보상을 수행함으로써 포함하는, 인코딩된 오디오 데이터를 생성하도록 구성된 오디오 인코더로서,
    상기 오디오 데이터의 적어도 일부의 저주파수 대역들의 세트 중 각 저주파수 대역이 현저한 음색 콘텐트를 갖는지를 나타내는 보상 제어 데이터를 생성하기 위하여 상기 오디오 데이터에 대한 음조성 검출을 수행하도록 구성된 음조성 검출기; 및
    상기 보상 제어 데이터에 응답하여, 오디오 데이터의 저주파수 대역들의 세트 중 각 저주파수 대역에 대한 저주파수 보상의 적용을 적응적으로 인에블시키도록 결합되어 구성된 저주파수 보상 제어 스테이지를 포함하는, 오디오 인코더.
  22. 제 21항에 있어서,
    상기 음조성 검출기는 박수소리 검출기이고, 상기 보상 제어 데이터는 상기 세트의 적어도 하나의 대역이 박수소리를 표현하는지를 나타내는, 오디오 인코더.
  23. 제 21항에 있어서,
    상기 보상 제어 데이터는 상기 세트의 적어도 하나의 대역이 군중의 소음과 박수소리 중 적어도 하나를 표현하는지를 나타내는, 오디오 인코더.
  24. 제 21항에 있어서,
    상기 저주파수 보상 제어 스테이지는, 상기 보상 제어 데이터에 응답하여, 저주파수 보상이 인코딩 도중에 임의의 저주파수 대역에 적용되었는지의 여부를 결정하거나 통보받지 않고 디코더가 상기 인코딩된 오디오 데이터의 디코딩을 수행하는 것을 허용하는 방식으로, 저주파수 대역들의 세트 중 각 대역의 오디오 데이터에 대한 저주파수 보상의 적용을 적응적으로 인에이블시키도록 구성되는, 오디오 인코더.
  25. 제 21항에 있어서,
    상기 저주파수 보상 제어 스테이지는, 상기 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트가 부족한 각각의 상기 저주파수 대역 내의 상기 오디오 데이터를 재-텐팅하여, 적어도 하나의 수정된 지수를 포함하는 수정된 오디오 데이터를 포함하도록 구성되는, 오디오 인코더.
  26. 제 25항에 있어서,
    상기 저주파수 보상 제어 스테이지는, 상기 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트가 부족한 각각의 상기 저주파수 대역 내의 상기 오디오 데이터를 재-텐팅하도록 구성되고, 다음의 더 높은 주파수 대역 내의 오디오 데이터의 지수에서 상기 수정된 지수를 감산한 것이 값들(2, 1, 0, 및 -1) 중 하나를 가져야만 하도록 현저한 음색 콘텐트가 부족한 적어도 하나의 상기 저주파수 대역에 대한 수정된 지수를 생성함으로써 포함되는, 오디오 인코더.
  27. 제 21항에 있어서,
    상기 주파수 도메인 오디오 데이터는 상기 세트의 상기 각 저주파수 대역에 대한 지수 값을 포함하고, 상기 음조성 검출기는 상기 세트의 상기 각 저주파수 대역에 대해, 상기 오디오 데이터의 지수들과 대응하는 텐팅된 지수들 사이의 차이의 측정치를 결정하도록 구성되는, 오디오 인코더.
  28. 제 21항에 있어서,
    상기 주파수 도메인 오디오 데이터는 상기 세트의 상기 각 저주파수 대역에 대한 지수 값을 포함하고, 상기 음조성 검출기는 상기 세트의 상기 각 저주파수 대역에 대해, 상기 오디오 데이터의 지수들과 대응하는 텐팅된 지수들 사이의 평균 제곱 차이의 측정치를 결정하도록 구성되는, 오디오 인코더.
  29. 제 21항에 있어서,
    상기 인코더는 상기 음조성 검출기와 상기 저주파수 보상 제어 스테이지를 구현하는 소프트웨어를 통해 프로그램된 프로세서인, 오디오 인코더.
  30. 제 21항에 있어서,
    상기 인코더는 디지털 신호 프로세서인, 오디오 인코더.
  31. 제 21항에 있어서,
    상기 음조성 검출기는, 상기 오디오 데이터에 대한 음조성 검출을 수행하여, 상기 오디오 데이터의 상기 주파수 대역들의 적어도 하나의 하위세트의 각 주파수 대역이 현저한 음색 콘텐트를 갖는지를 나타내는 보상 제어 데이터를 생성하도록 구성되고, 인코더는 상기 저주파수 보상 제어 스테이지를 포함하는 마스킹 값 정정 스테이지를 포함하고, 상기 마스킹 값 정정 스테이지는, 상기 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트를 갖는 상기 오디오 데이터의 상기 각 주파수 대역에 대해, 제 1 방식으로 마스킹 값 정정 처리를 수행하고, 상기 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트가 부족한 상기 오디오 데이터의 상기 각 주파수 대역에 대해, 제 2 방식으로 상기 마스킹 값 정정 처리를 수행하도록 구성되는, 오디오 인코더.
  32. 제 31항에 있어서,
    상기 마스킹 값 정정 처리는 BABNDNORM 처리이고, 상기 마스킹 값 정정 스테이지는 현저한 음색 콘텐트를 갖는 상기 각 주파수 대역에 대해 제 1 크기조정 상수를 통해 BABNDNORM 처리를 수행하고, 현저한 음색 콘텐트가 부족한 상기 각 주파수 대역에 대해, 제 2 크기조정 상수를 통해 BABNDNORM 처리를 수행하도록 구성되는, 오디오 인코더.
  33. 시스템으로서,
    주파수 도메인 오디오 데이터에 응답하는 인코딩된 오디오 데이터로서, 상기 오디오 데이터에 대한 적응적인 저주파수 보상을 수행함으로써 포함하는, 인코딩된 오디오 데이터를 생성하도록 구성된 인코더; 및
    상기 인코딩된 오디오 데이터를 디코딩하여 오디오 데이터를 회복하도록 구성된 디코더를 포함하고, 상기 인코더는,
    상기 오디오 데이터의 적어도 일부의 저주파수 대역들의 세트 중 각 저주파수 대역이 현저한 음색 콘텐트를 갖는지를 나타내는 보상 제어 데이터를 생성하기 위하여 상기 오디오 데이터에 대한 음조성 검출을 수행하도록 구성된 음조성 검출기; 및
    상기 보상 제어 데이터에 응답하여, 상기 오디오 데이터의 저주파수 대역들의 세트 중 각 저주파수 대역에 대한 저주파수 보상의 적용을 적응적으로 인에블시키도록 결합되어 구성된 저주파수 보상 제어 스테이지를 포함하는, 시스템.
  34. 제 33항에 있어서,
    상기 음조성 검출기는 박수소리 검출기이고, 상기 보상 제어 데이터는 상기 세트의 적어도 하나의 대역이 박수소리를 표현하는지를 나타내는, 시스템.
  35. 제 33항에 있어서,
    상기 보상 제어 데이터는 상기 세트의 적어도 하나의 대역이 군중의 소음과 박수소리 중 적어도 하나를 표현하는지를 나타내는, 시스템.
  36. 제 33항에 있어서,
    상기 디코더는, 저주파수 보상이 인코딩 도중에 임의의 저주파수 대역에 적용되었는지의 여부를 결정하거나 통보받지 않고, 상기 인코딩된 오디오 데이터를 디코딩하도록 구성되는, 시스템.
  37. 제 33항에 있어서,
    상기 저주파수 보상 제어 스테이지는, 상기 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트가 부족한 각각의 상기 저주파수 대역 내의 상기 오디오 데이터를 재-텐팅하여, 적어도 하나의 수정된 지수를 포함하는 수정된 오디오 데이터를 생성하도록 구성되는, 시스템.
  38. 제 37항에 있어서,
    상기 저주파수 보상 제어 스테이지는, 상기 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트가 부족한 각각의 상기 저주파수 대역 내의 상기 오디오 데이터를 재-텐팅하도록 구성되고, 다음의 더 높은 주파수 대역 내의 오디오 데이터의 지수에서 상기 수정된 지수를 감산한 것이 값들(2, 1, 0, 및 -1) 중 하나를 가져야만 하도록 현저한 음색 콘텐트가 부족한 적어도 하나의 상기 저주파수 대역에 대한 수정된 지수를 생성함으로써 포함되는, 시스템.
  39. 제 33항에 있어서,
    상기 주파수 도메인 오디오 데이터는 상기 세트의 상기 각 저주파수 대역에 대한 지수 값을 포함하고, 상기 음조성 검출기는 상기 세트의 상기 각 저주파수 대역에 대해, 상기 오디오 데이터의 지수들과 대응하는 텐팅된 지수들 사이의 차이의 측정치를 결정하도록 구성되는, 시스템.
  40. 인코딩된 오디오 데이터를 디코딩하는 방법으로서,
    상기 인코딩된 오디오 데이터를 나타내는 신호를 수신하는 단계; 및
    상기 오디오 데이터를 나타내는 신호를 생성하기 위하여 상기 인코딩된 오디오 데이터를 디코딩하는 단계를 포함하고,
    상기 인코딩된 오디오 데이터는,
    (a) 주파수 도메인 오디오 데이터에 대한 음조성 검출을 수행하여, 상기 오디오 데이터의 적어도 일부 저주파수 대역들의 세트의 각 저주파수 대역이 현저한 음색 콘텐트를 갖는지를 나타내는 보상 제어 데이터를 생성하는, 음조성 검출을 수행하는 단계; 및
    (b) 상기 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트를 갖는 각각의 상기 저주파수 대역 내의 상기 오디오 데이터에 대해 정정된 마스킹 값을 생성하기 위하여 저주파수 보상을 수행하고, 상기 세트 내의 각각의 다른 저주파수 대역 내에서 저주파수 보상을 수행하지 않고 상기 오디오 데이터에 대한 마스킹 값을 생성하는 단계를 통해 생성되는, 디코딩 방법.
  41. 제 40항에 있어서,
    상기 보상 제어 데이터는 상기 세트의 적어도 하나의 대역이 박수소리를 표현하는지를 나타내고, 상기 단계 (b)는,
    상기 보상 제어 데이터에 의해 표시되는 박수소리를 표현하는 상기 세트의 각 저주파수 대역 내의 상기 오디오 데이터에 대해 저주파수 보상을 수행하지 않고 마스킹 값을 생성하는 단계를 포함하는,
    디코딩 방법.
  42. 제 40항에 있어서,
    상기 보상 제어 데이터는 상기 세트의 적어도 하나의 대역이 군중 소음과 박수소리 중 적어도 하나를 표현하는지를 나타내고, 상기 단계 (b)는,
    상기 보상 제어 데이터에 의해 표시되는 박수소리와 군중 소음 중 적어도 하나를 표현하는 상기 세트의 각 저주파수 대역 내의 상기 오디오 데이터에 대해 저주파수 보상을 수행하지 않고 마스킹 값을 생성하는 단계를 포함하는, 디코딩 방법.
  43. 제 40항에 있어서,
    상기 단계 (b)는, 상기 보상 제어 데이터에 의해 표시된 현저한 음색 콘텐트가 부족한 상기 세트의 각 저주파수 대역 내에서 상기 오디오 데이터를 재-텐팅하여, 현저한 음색 콘텐트가 부족한 적어도 하나의 상기 저주파수 대역에 대해 수정된 지수를 포함하는 수정된 오디오 데이터를 생성하는, 재-텐팅하는 단계를 포함하는, 디코딩 방법.
  44. 제 43항에 있어서,
    상기 재-텐팅하는 단계는, 다음의 더 높은 주파수 대역 내의 오디오 데이터의 지수에서 상기 수정된 지수를 감산한 것이 값들(2, 1, 0, 및 -1) 중 하나를 가져야만 하도록, 현저한 음색 콘텐트가 부족한 적어도 하나의 상기 저주파수 대역에 대한 수정된 지수를 생성하는, 디코딩 방법.
KR1020147018354A 2012-01-09 2012-09-25 적응적인 저주파수 보상을 통해 오디오 데이터를 인코딩하기 위한 방법 및 시스템 KR101621704B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261584478P 2012-01-09 2012-01-09
US61/584,478 2012-01-09
US13/588,890 2012-08-17
US13/588,890 US8527264B2 (en) 2012-01-09 2012-08-17 Method and system for encoding audio data with adaptive low frequency compensation
PCT/US2012/057132 WO2013106098A1 (en) 2012-01-09 2012-09-25 Method and system for encoding audio data with adaptive low frequency compensation

Publications (2)

Publication Number Publication Date
KR20140104470A true KR20140104470A (ko) 2014-08-28
KR101621704B1 KR101621704B1 (ko) 2016-05-17

Family

ID=48744528

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147018354A KR101621704B1 (ko) 2012-01-09 2012-09-25 적응적인 저주파수 보상을 통해 오디오 데이터를 인코딩하기 위한 방법 및 시스템

Country Status (19)

Country Link
US (2) US8527264B2 (ko)
EP (1) EP2803067B1 (ko)
JP (2) JP5755379B2 (ko)
KR (1) KR101621704B1 (ko)
AR (1) AR088007A1 (ko)
AU (1) AU2012364749B2 (ko)
BR (1) BR112014016847B1 (ko)
CA (1) CA2858663C (ko)
CL (1) CL2014001805A1 (ko)
HK (1) HK1201976A1 (ko)
IL (1) IL233029A0 (ko)
IN (1) IN2014CN04457A (ko)
MX (1) MX335999B (ko)
MY (1) MY187728A (ko)
RU (1) RU2583717C1 (ko)
SG (1) SG11201402983UA (ko)
TW (1) TWI470621B (ko)
UA (1) UA110291C2 (ko)
WO (1) WO2013106098A1 (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010013752A1 (ja) * 2008-07-29 2010-02-04 ヤマハ株式会社 演奏関連情報出力装置、演奏関連情報出力装置を備えるシステム、及び電子楽器
CN101983513B (zh) * 2008-07-30 2014-08-27 雅马哈株式会社 音频信号处理装置、音频信号处理系统以及音频信号处理方法
JP5782677B2 (ja) 2010-03-31 2015-09-24 ヤマハ株式会社 コンテンツ再生装置および音声処理システム
EP2573761B1 (en) 2011-09-25 2018-02-14 Yamaha Corporation Displaying content in relation to music reproduction by means of information processing apparatus independent of music reproduction apparatus
JP5494677B2 (ja) 2012-01-06 2014-05-21 ヤマハ株式会社 演奏装置及び演奏プログラム
TWI618051B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於利用估計之空間參數的音頻訊號增強的音頻訊號處理方法及裝置
US9830917B2 (en) 2013-02-14 2017-11-28 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
WO2014126689A1 (en) 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for controlling the inter-channel coherence of upmixed audio signals
TWI618050B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
EP2980792A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating an enhanced signal using independent noise-filling
JP6492915B2 (ja) * 2015-04-15 2019-04-03 富士通株式会社 符号化装置、符号化方法、及びプログラム
EP3288031A1 (en) * 2016-08-23 2018-02-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding an audio signal using a compensation value
CN110998722B (zh) * 2017-07-03 2023-11-10 杜比国际公司 低复杂性密集瞬态事件检测和译码
CN108616277B (zh) * 2018-05-22 2021-07-13 电子科技大学 一种多通道频域补偿的快速校正方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4817155A (en) * 1983-05-05 1989-03-28 Briar Herman P Method and apparatus for speech analysis
SG49883A1 (en) 1991-01-08 1998-06-15 Dolby Lab Licensing Corp Encoder/decoder for multidimensional sound fields
US5632005A (en) 1991-01-08 1997-05-20 Ray Milton Dolby Encoder/decoder for multidimensional sound fields
US5581653A (en) * 1993-08-31 1996-12-03 Dolby Laboratories Licensing Corporation Low bit-rate high-resolution spectral envelope coding for audio encoder and decoder
US5727119A (en) 1995-03-27 1998-03-10 Dolby Laboratories Licensing Corporation Method and apparatus for efficient implementation of single-sideband filter banks providing accurate measures of spectral magnitude and phase
JPH10261964A (ja) * 1997-03-19 1998-09-29 Sanyo Electric Co Ltd 情報信号処理装置
CA2230188A1 (en) * 1998-03-27 1999-09-27 William C. Treurniet Objective audio quality measurement
US6775587B1 (en) * 1999-10-30 2004-08-10 Stmicroelectronics Asia Pacific Pte Ltd. Method of encoding frequency coefficients in an AC-3 encoder
KR100898879B1 (ko) * 2000-08-16 2009-05-25 돌비 레버러토리즈 라이쎈싱 코오포레이션 부수 정보에 응답하여 하나 또는 그 이상의 파라메터를변조하는 오디오 또는 비디오 지각 코딩 시스템
AU2211102A (en) * 2000-11-30 2002-06-11 Scient Generics Ltd Acoustic communication system
US7747655B2 (en) * 2001-11-19 2010-06-29 Ricoh Co. Ltd. Printable representations for time-based media
US7110941B2 (en) * 2002-03-28 2006-09-19 Microsoft Corporation System and method for embedded audio coding with implicit auditory masking
US7509257B2 (en) * 2002-12-24 2009-03-24 Marvell International Ltd. Method and apparatus for adapting reference templates
US7333930B2 (en) * 2003-03-14 2008-02-19 Agere Systems Inc. Tonal analysis for perceptual audio coding using a compressed spectral representation
US7516064B2 (en) 2004-02-19 2009-04-07 Dolby Laboratories Licensing Corporation Adaptive hybrid transform for signal analysis and synthesis
JP2006018023A (ja) 2004-07-01 2006-01-19 Fujitsu Ltd オーディオ信号符号化装置、および符号化プログラム
ES2533358T3 (es) * 2007-06-22 2015-04-09 Voiceage Corporation Procedimiento y dispositivo para estimar la tonalidad de una señal de sonido
EP2193348A1 (en) * 2007-09-28 2010-06-09 Voiceage Corporation Method and device for efficient quantization of transform information in an embedded speech and audio codec
KR20090122142A (ko) 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치

Also Published As

Publication number Publication date
US9275649B2 (en) 2016-03-01
AU2012364749A1 (en) 2014-07-03
JP6093801B2 (ja) 2017-03-08
BR112014016847B1 (pt) 2020-12-15
JP5755379B2 (ja) 2015-07-29
HK1201976A1 (en) 2015-09-11
RU2583717C1 (ru) 2016-05-10
MX2014007400A (es) 2015-03-05
IN2014CN04457A (ko) 2015-09-04
KR101621704B1 (ko) 2016-05-17
US20140324441A1 (en) 2014-10-30
JP2015504179A (ja) 2015-02-05
TWI470621B (zh) 2015-01-21
BR112014016847A2 (pt) 2017-06-13
CA2858663C (en) 2017-03-14
EP2803067B1 (en) 2017-04-05
TW201329961A (zh) 2013-07-16
US20130179175A1 (en) 2013-07-11
EP2803067A1 (en) 2014-11-19
SG11201402983UA (en) 2014-09-26
AR088007A1 (es) 2014-04-30
US8527264B2 (en) 2013-09-03
CA2858663A1 (en) 2013-07-18
BR112014016847A8 (pt) 2017-07-04
MX335999B (es) 2016-01-07
IL233029A0 (en) 2014-07-31
AU2012364749B2 (en) 2015-08-13
JP2015187743A (ja) 2015-10-29
MY187728A (en) 2021-10-14
CL2014001805A1 (es) 2015-02-27
WO2013106098A1 (en) 2013-07-18
UA110291C2 (en) 2015-12-10
CN104040623A (zh) 2014-09-10

Similar Documents

Publication Publication Date Title
KR101621704B1 (ko) 적응적인 저주파수 보상을 통해 오디오 데이터를 인코딩하기 위한 방법 및 시스템
US11031022B2 (en) Noise filling concept
US9754601B2 (en) Information signal encoding using a forward-adaptive prediction and a backwards-adaptive quantization
US9779738B2 (en) Efficient encoding and decoding of multi-channel audio signal with multiple substreams
US7050972B2 (en) Enhancing the performance of coding systems that use high frequency reconstruction methods
JP3739959B2 (ja) デジタル音響信号符号化装置、デジタル音響信号符号化方法及びデジタル音響信号符号化プログラムを記録した媒体
US9008811B2 (en) Methods and systems for adaptive time-frequency resolution in digital data coding
KR102486258B1 (ko) 스테레오 신호 인코딩 방법 및 인코딩 장치
CN104040623B (zh) 用于利用自适应低频补偿编码音频数据的方法和系统
MXPA06009932A (en) Device and method for determining a quantiser step size

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190425

Year of fee payment: 4