KR20220108069A - 오디오 처리를 위한 심리음향 모델 - Google Patents

오디오 처리를 위한 심리음향 모델 Download PDF

Info

Publication number
KR20220108069A
KR20220108069A KR1020227019032A KR20227019032A KR20220108069A KR 20220108069 A KR20220108069 A KR 20220108069A KR 1020227019032 A KR1020227019032 A KR 1020227019032A KR 20227019032 A KR20227019032 A KR 20227019032A KR 20220108069 A KR20220108069 A KR 20220108069A
Authority
KR
South Korea
Prior art keywords
frequency band
value
threshold
audio signal
frequency
Prior art date
Application number
KR1020227019032A
Other languages
English (en)
Inventor
그랜트 에이. 데이비슨
루이스 디. 필더
마크 에스. 빈턴
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20220108069A publication Critical patent/KR20220108069A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01LMEASURING FORCE, STRESS, TORQUE, WORK, MECHANICAL POWER, MECHANICAL EFFICIENCY, OR FLUID PRESSURE
    • G01L19/00Details of, or accessories for, apparatus for measuring steady or quasi-steady pressure of a fluent medium insofar as such details or accessories are not special to particular types of pressure gauges
    • G01L19/04Means for compensating for effects of changes of temperature, i.e. other than electric compensation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 오디오 코딩 분야에 관한 것으로, 특히 오디오 신호의 주파수 간격들에 대한 청각 임계값과 해당 주파수 간격들에 대해 오디오 신호의 측정된 에너지를 기초로 하는 마스킹(masking) 모델을 통하여 오디오 신호들을 인코딩하는 방법에 관한 것이다. 본 발명은 또한 오디오 인코딩 방법을 수행할 수 있는 인코더에 관한 것이다.

Description

오디오 처리를 위한 심리음향 모델
본 발명은 오디오 처리 분야에 관한 것으로, 특히 오디오 신호의 주파수 간격들이 조용한 상태에서 청각 임계값과 해당 주파수 간격들에 대해 오디오 신호의 측정된 에너지 값을 기초로 하는 마스킹(masking) 모델을 사용하여 오디오 신호들을 처리하는 방법에 관한 것이다. 본 발명은 또한 오디오 처리 방법을 수행할 수 있는 장치에 관한 것이다.
관련 출원에 대한 상호 참조
본 출원은 2019년 12월 5일에 출원된 미국 가특허 출원 제62/943,903호 및 2019년 12월 5일에 출원된 EP 특허 출원 제19213742.0호의 우선권을 주장하며, 이들 둘 모두 전체가 참조에 의해 여기에 포함된다.
인간의 두뇌가 모든 다른 주파수들에서의 모든 오디오 신호들을 새길 수 있는 것은 아니다. 따라서, 오디오를 코딩할 때 인간의 청각 시스템이 감지할 수 없는 주파수들과 레벨들에서의 신호들을 제거하는 것이 유익하다. 이것은 일반적으로 오디오 신호에서 관련 없는 구성요소들을 제거하여 수행된다. 지각(perceptual) 오디오 코더들(coders)의 맥락에서 인코더들이 압축 효율성을 높이는 두 가지 주요 방법이 있다. 이들은 신호 중복성 및 무관한것을 제거하는 것이다. 중복(예측가능한) 신호 구성요소들은 일반적으로 인코더에서 제거되고 디코더에서 복원된다. 무관한 신호 구성요소들은 일반적으로 양자화에 의해 오디오 인코더에서 제거되고 오디오 디코더에 의해 복원되지 않는다.
일반적으로, 인코더들은 지각 모델들로도 지칭되는 심리음향 모델들을 사용하여, 오디오 스펙트럼에 대한 마스킹 임계값(threshold)을 추정하도록 한다. 마스킹 임계값은 오디오 스펙트럼의 여러 주파수 대역들 각각에서 허용되는 JND(just-noticeable distortion)의 추정치를 제공한다. 인간의 청각 시스템의 임계 대역들에 따라 주파수 대역들은 일반적으로 폭이 균일하지 않다. 일반적인 인코더에서, 마스킹 임계값은 다중 스케일 인자 대역들 각 하나에 대한 스케일 인자(및 양자화 노이즈 레벨)를 선택하는 레이트(rate) 제어 루프에 입력된다. 일반적인 인코더의 성능은 마스킹 임계 추정치가 실제 JND 노이즈 레벨에 얼마나 근접한지에 따라 달라지며, 마스킹 임계 추정치들이 JND 노이즈 레벨을 초과하여 가청(audible) 왜곡을 방지하는 데 필요한 것보다 더 적은 비트들이 할당되고, JND 노이즈 레벨 미만의 마스킹 임계 추정치들은, 잠재적으로 인접 주파수 대역들을 희생시키면서 필요한 것보다 더 많은 비트들이 할당된다.
일반적으로, 인코더는 다음과 같이 마스킹 임계값을 결정한다.
1) 크리티컬(critical)-대역 주파수 스케일에서 오디오 신호의 신호 에너지를 컴퓨팅한다.
2) 크리티컬-대역 에너지들을 분산 함수들의 세트와 결합하여 기저막(여기(excitation) 함수라고도 함)에 의해 처리된 후 신호의 주파수 응답을 추정한다.
3) 각 크리티컬 대역에서, JND 노이즈 레벨을 달성하는 것으로 추정되는 양만큼 해당 대역에서 여기 기능을 하향 조정한다.
더욱이, 마스킹 임계값을 결정하기 위한 모델들은 종종 실험에 의해 개발된 휴리스틱(hueristic) 규칙들을 포함하지만, 인간 청각의 알려진 속성들에 직접적으로 기초하지 않는다.
따라서, 오디오 신호의 주파수 대역들에 대한 비트 할당을 개선하기 위해 알려진 인간 청각의 속성들에 기초하여 마스킹 임계값들을 컴퓨팅하는 기술 분야 내에서 개선의 여지가 있다.
상기의 관점에서, 따라서 본 발명의 목적은 위에서 논의된 문제들 중 적어도 일부를 극복하거나 완화하는 것이다. 특히, 본 발명의 목적은 주파수 대역에 대한 오디오 신호의 에너지 값 및 해당 주파수 대역에 대한 조용한 상태에서 청각 임계값에 기초한 마스킹 모델을 제공하는 것이다. 또한, 본 발명의 목적은 오디오 코딩의 복잡성을 감소시키고 상기에 따라 인코딩된 오디오의 품질을 개선하는 마스킹 모델을 제공하는 것이다. 본 발명의 추가 및/또는 대안적인 목적들은 본 발명의 독자에게 명백해 질 것이다.
제1 양태에 따르면, 오디오 신호를 처리하는 방법이 제공되고, 오디오 신호는 복수의 주파수 대역들에서 오디오 데이터를 포함하고, 방법은
복수의 주파수 대역들의 각 주파수 대역에 대해:
주파수 대역의 오디오 데이터에 대한 에너지 값을 결정하는 단계;
주파수 대역에 대해 조용한 상태에서 청각 임계값을 결정하는 단계;
에너지 값과 조용한 상태에서 청각 임계값을 사용하여 주파수 대역에 대한 감도 값인 SV를 계산하는 단계;
감도 값 및 에너지 값을 사용하여 주파수 대역에 대한 마스킹 임계값을 컴퓨팅하는 단계;
에너지 값과 마스킹 임계값을 사용하여 주파수 대역의 비트 할당 값을 결정하는 단계를 포함한다.
"에너지 값"이라는 용어는, 본 명세서의 맥락에서 예를 들어 밴딩된(banded) MDCT(modified discrete cosine transform), DFT(discrete Fourier transform) 또는 복소 MDCT(CMDCT)를 기초로 하여 에너지를 계산하기 위해 다른 접근 방식들이 사용될 수 있다는 점에서 이해되어야 한다. 주파수 대역에 대해 여러 에너지 값들이 계산된 후 적절한 방식으로 결합되어 주파수 대역에 대한 단일 에너지 값을 형성하도록 할 수 있음에 유의해야 한다. 본 명세서에서, "에너지 값"은 선형 또는 dB 스케일(scale)로 표현되는 에너지로 지칭될 수 있다.
본 명세서의 맥락에서, "주파수 대역"이라는 용어는 주파수 대역이 주파수 범위를 갖는 하위 및 상위 주파수로 구분되는 주파수 영역 내의 간격임을 이해해야 한다. 인코딩될 오디오 신호의 복수의 주파수 대역들은 반드시 동일한 폭/범위를 가질 필요는 없다는 점에 유의해야 한다. 예를 들어, 상대적으로 더 낮은 주파수 대역은 100-200Hz의 폭을 가질 수 있는 반면 상대적으로 더 높은 주파수 대역은 3000-3500Hz의 폭을 가질 수 있다. 일반적으로, 주파수 대역들의 폭들은 주파수가 증가함에 따라 증가하므로 상대적으로 더 낮은 주파수 대역과 상대적으로 더 높은 주파수 대역 사이의 주파수 대역들은 일반적으로 100~3000Hz 범위의 폭들을 가질 수 있도록 한다.
"감도 값"(SV)이라는 용어는 본 명세서의 맥락에서 정상적인 청각을 가진 인간 청취자에 대한 JND 왜곡을 달성하기 위해 주어진 크리티컬 대역에서 요구되는 조정의 근사치로 이해되어야 한다. 크리티컬 대역들에 걸친 마스킹의 효과들을 설명하기 위해 각 대역의 SV는 해당 대역 내의 신호 특성들뿐만 아니라 인접 대역들의 신호들에도 달라질 수 있다. 각 대역에 대한 SV는 일반적으로 여기 기능에 오프셋 또는 조정으로서 적용된 다음 최종 마스킹 임계값을 도출하기 위해 조용한 상태에서 임계값을 적용한다. 마스킹 임계값 미만의 모든 소음은 들리지 않는다.
특정 주파수 대역에 대한 SV는, 예를 들어 해당 주파수 대역의 에너지 값과 해당 주파수 대역에 대한 조용한 상태에서 청각 임계값 사이의 비율, 차이 또는 에너지 값과 조용한 상태에서 청각 임계값을 비교하는 임의의 다른 메트릭(metric)을 사용하여 계산될 수 있다.
일반적인 선행 기술의 인코더들에서, 크리티컬 주파수 대역들에서 여기 기능에 대한 하향 조정은 마지막에 조용한 상태에서 임계값의 적용을 제외하고는 일반적으로 신호 레벨에 따라 변하지 않는다. 결과적으로, 일반적으로, 추정된 마스킹 임계값은 인간 청각 시스템의 마스킹 동작과 완전히 관련성이 없을 수 있다.
따라서, JND에 대한 조정 표현식들은 일반적으로 레벨-독립적이다. 이러한 모델들은 일반적으로 상대적으로 크거나 상대적으로 조용한 신호들에 대한 마스킹 데이터를 기초로 한다. 이 접근은 예를 들어, 낮은-레벨의 신호 구성요소들에 대한 실제 JND 임계값을 과소평가하여 상대적으로 조용한 통과(passage)신호들을 포함하는 프레임들에 비트들을 과도하게 할당함으로써 코덱 성능을 제한할 수 있다. 이 이슈들은 가변 비트-레이트 인코더들뿐만 아니라 비트 저장소가 있는 일정한 비트-레이트 모드에서 실행되는 인코더들에서 발생한다. 매우 동적인 레벨 변경들, 예를 들어 음성(speech)을 특징으로 하는 오디오 컨텐츠는 부정적인 영향을 받을 것이다.
본 발명에서, SV 및 에너지 값 모두에 기초하여 마스킹 임계값을 계산하여, 마스킹 임계값은 인간 청각 시스템의 관찰된 마스킹 동작을 보다 정확하게 포착함으로써 더 높은 품질의 오디오 신호들을 전달할 수 있다.
더욱이, 인간 청각 시스템의 관찰된 마스킹 동작을 보다 충실하게 포착하는 모델을 사용하여 오디오 신호를 인코딩할 때, 방법은 일정한 품질의 오디오 신호를 제공하는 미리 규정된 품질 타겟을 충족하는 데 필요한 비트들의 수를 보다 정확하게 추정할 수 있으며, 이에 따라 과하게 또는 부족하게 비트들을 할당하는 빈도가 낮다. 일정한 비트레이트(bitrate)가 요구되는 실시예들에서, 방법은 개선된 비트 할당 전략으로 인해 개선된 품질의 오디오 신호들을 제공할 수 있다.
방법은 주관적으로 측정된 마스킹 데이터에 더 나은 일치를 추가로 제공할 수 있다. 기술된 오디오 인코딩 모델을 사용하여 모든 녹음 사운드 레벨들 또는 오디오 컨텐츠에 적합한 단일 모델을 얻을 수 있다. 유리하게는, 모델은 인코딩될 오디오 신호의 속성들과 무관한 일정한 품질로 오디오 신호들의 인코딩을 용이하게 할 수 있다. 오디오 신호들의 다른 속성들도 많이 존재한다는 점에 유의해야 하지만, 오디오 신호 속성들의 일부 예들은 피치(pitch), 음량 또는 지속 시간이다.
실시예들에 대한 일반적인 설명
일부 실시예들에 따르면, 마스킹 임계값을 컴퓨팅하는 것은 분산 함수를: 주파수 대역들에 대한 에너지 값들; 또는 주파수 대역들의 변환된 에너지 값들; 중 하나에 적용하여, 주파수 대역에 대한 여기 값을 결정하고,
감도 값을 여기 값과 결합하도록 하는 것을 포함한다.
여기 기능은 내이(inner ear)의 기저막에 따른 에너지 분포로 생각할 수 있다. 따라서, 여기 값은 특정 주파수 대역에 대해 해당 함수로부터 계산된 값이다.
귀의 기저막에서 사운드 처리를 에뮬레이트(emulate)하고 주파수 전반에 걸친 예측가능성 측정들을 평활하게(smooth) 하기 위해 에너지 값들 또는 에너지 값들의 변환된 버전들에 분산 함수가 적용된다. 예를 들어, 분산 함수는 음량 영역으로 변환된 에너지 값들에 적용될 수 있다(즉, 에너지 값들을 ~0.25-0.3승으로 거듭제곱함). 다른 실시예들에서, 분산 함수는 0.5-0.6승으로 거듭제곱된 에너지 값들에 적용될 수 있다. ISO/IEC 11172-3:1993(E)의 분산 함수를 사용할 수 있다.
감도 값 및 여기 값이 데시벨인 dB로 규정되는 경우, 결합 단계는 여기 값에서 감도 값을 감산(subtract)하여 마스킹 임계값을 컴퓨팅하는 것을 포함할 수 있다. 강도(intensity) 스케일에서, 마스킹 임계값은 여기 값과 감도 값의 몫으로 계산된다.
선택적으로, 마스킹 임계값은 조용한 상태에서 임계값을 임계화(thresholding)하여 유도되는데, 예를 들어 마스킹 임계값 = max(마스킹 임계값, 조용한 상태에서 청각 임계값)이다.
일부 실시예들에 따르면, 마스킹 임계값을 컴퓨팅하는 것은 에너지 값과 감도 값을 결합하여 중간 임계값을 결정하도록 하며, 분산 함수를 중간 임계값에 적용하여 마스킹 임계값을 결정하도록 하는 것을 포함한다.
예를 들어, 마스킹 임계값은 max(중간 임계값, 조용한 상태에서 청각 임계값)로 결정될 수 있다.
일부 실시예들에 따르면, 방법은 비트 할당 값에 응답하여 주파수 대역에 대한 오디오 데이터의 오디오 샘플들을 양자화하는 단계를 더 포함한다. 유리하게는, 인코더는 오디오를 일정한 품질로 인코딩하거나 향상된 오디오 품질로 일정한 비트레이트에서 인코딩할 수 있다. 인코더는 주파수 대역의 양자화된 오디오 데이터를 비트스트림(bitstream)으로 더 인코딩할 수 있다.
여기에 설명된 방법은 디코더 측에서도 사용될 수 있다. 일부 실시예들에 따르면, 오디오 신호는 주파수 대역에 대한 인코딩된 에너지 값을 포함하는 인코딩된 비트스트림이고, 주파수 대역의 오디오 데이터에 대한 에너지 값을 결정하는 것은 인코딩된 비트스트림으로부터 인코딩된 에너지 값을 디코딩하는 것을 포함한다. 디코더 측에서, 결정된 비트 할당 값은 인코딩된 비트스트림으로부터 주파수 대역에 대한 오디오 데이터의 양자화된 오디오 샘플들을 추출하는 데 사용될 수 있다. 유리하게는, 각 오디오 프레임의 각 주파수 대역에 대한 비트 할당 값은 비트스트림에 포함될 필요가 없지만 대신 디코더 측에서 결정될 수 있다. 따라서 인코딩된 비트스트림의 비트 레이트는 감소될 수 있다.
일부 실시예들에 따르면, 방법은 주파수 대역에 대한 오디오 데이터의 양자화된 오디오 샘플들을 역양자화(dequantizing)하고, 각 주파수 대역에 대한 오디오 데이터의 역양자화된 오디오 샘플들을 결합하여 디코딩된 오디오 신호를 생성하도록 하는 것을 더 포함한다.
일부 실시예들에 따르면, 비트 할당 값을 결정하는 것은 오디오 신호에 대한 타겟 비트레이트를 만족시키는 비트 할당을 달성하기 위해 마스킹 임계값을 조정하는 것을 포함한다. 이 실시예에서, 공칭(nominal) 마스킹 임계값에 의해 요구되는 비트들의 수가 비트레이트 요건을 충족시키기 위해 이용 가능한 비트들의 수보다 크다면(또는 더 적을 수 있다면), 마스킹 임계값은 더 많거나 더 적은 비트들을 할당하여 타겟 비트레이트를 초과하지 않고 가능한 한 많은 비트들을 사용할 수 있도록 조정될 수 있다. 예를 들어, 마스킹 임계값을 조정하는 것은: 오디오 신호에 대한 타겟 비트레이트가 만족될 때까지 음량 영역의 마스킹 임계값에 일정한 오프셋(offset)을 더함으로써 마스킹 임계값을 조정하는 것을 포함할 수 있다.
에너지 및 청각 임계값을 결정하고 규정할 때 다른 측정값들이 사용될 수 있다. 일부 실시예들에 따르면, 에너지 값, 조용한 상태의 청각 임계값 및 마스킹 임계값은 데시벨인 dB로 규정되며, 이는 데시벨이 사운드 볼륨/에너지에 대한 일반적인 측정이므로 모델에 단순화를 제공한다.
일부 실시예들에 따르면, 방법은 ERB(Equivalent Rectangular Bandwidth) 스케일에 따라 오디오 신호의 복수의 주파수 대역들을 결정하는 단계를 포함한다. ERB 스케일은 청각 필터들을 직사각형의 대역-통과 필터들로 모델링하는 편리한 단순화를 사용하여 인간 청각 시스템의 대역폭들에 대한 근사치를 제공한다. 유리하게는, ERB를 사용하는 것은 인간의 청각 시스템에 따라 오디오 신호를 인코딩할 때 유익할 수 있다.
일부 실시예들에 따라, SV는 여기 값으로의 감산(subtractive) 조정으로서 dB로 규정되며, 비트 할당 값을 결정하는 단계는 더 낮은 SV를 갖는 상기 주파수 대역과 비교하여 더 높은 SV를 갖는 주파수 대역에 대해 더 많은 비트들을 할당하는 것을 포함한다. 유리하게는, 인코딩된 오디오 신호의 일정한 오디오 품질이 달성될 수 있다. SV는 조용한 상태에서 임계값을 적용한 후 마스킹 임계값을 생성하는 여기 기능의 변위를 제어한다. 양의 감도 값들은 마스킹 임계값을 아래로 낮춘다. 음의 감도 값들은 마스킹 임계값을 높인다. 결과적으로, 감도 값을 높이면 더 낮은 마스킹 임계값들에 대응하므로 더 많은 비트들이 할당된다. 따라서, 주파수 대역에 대한 감도 값은 오디오 신호의 주파수 대역에서 노이즈(코딩 아티팩트들(artefacts))에 대한 인간 청각 시스템의 감도에 해당하는 것으로 볼 수 있다.
일부 실시예들에 따르면, 주파수 대역에 대한 SV를 계산하는 단계는 감각(sensation) 레벨을 사용하여 제1 SV를 계산하는 것을 포함하고, 감각 레벨은 dB 스케일에서 에너지 값과 조용한 상태에서 청각 임계값 사이의 차이이다.
용어 "차이"는 본 명세서의 맥락에서 에너지 값(dB로 표시됨)에서 조용한 상태의 청각 임계값(dB로 표시됨)을 감산하는 것으로 이해되어야 한다.
본 명세서에서 사용되는 용어인 감각 레벨은 평균 청취자를 위한 해당 사운드에 대해 조용한 상태에서 임계값에 대한 사운드의 레벨로 규정된다. 이 용어는 "청각 심리학 개론", 제5판, p. 403, 학술 언론(2003)의 C.J Moore에 의해 소개되었다.
정확한 SV를 결정하는 것은 다른 방식들로 달성될 수 있다는 점에 유의해야 한다.
일부 실시예들에 따르면, 제1 SV를 계산하는 단계는 감각 레벨을 제1 스칼라와 곱하는 것을 포함한다. 유리하게는, 낮은 복잡성 방식으로 인간 청각 시스템에 관한 SV의 더 높은 정확도가 달성될 수 있다. 함수에 제1 스칼라를 곱하면, 차이와 SV를 쉽게 서로 매핑하여 인간 청각 시스템에 더 잘 대응할 수 있다.
제1 스칼라는 모든 주파수 대역들에 대해 주파수에 종속적이거나 일정할 수 있다.
일부 실시예들에 따르면, 제1 SV를 계산하는 단계는 제1 스칼라와 곱해진 감각 레벨에 제2 스칼라를 더하는 것을 포함한다. 제2 스칼라는 모든 주파수 대역들에 대해 주파수에 종속적이거나 일정할 수 있다.
유리하게는, 낮은 복잡성 방식으로 인간 청각 시스템에 관한 SV의 더 높은 정확도가 달성될 수 있다. 함수에 제2 스칼라를 더하면, 차이와 SV 간의 매핑이 인간 청각 시스템에 더 잘 대응하도록 쉽게 변경될 수 있다.
일부 실시예들에 따르면, SV를 계산하는 단계는 주파수 대역에 대한 SV로서 제1 SV를 사용하는 것을 포함한다.
일부 실시예들에 따르면, 주파수 대역에 대한 SV를 계산하는 단계는 감각 레벨을 사용하여 제2 SV를 계산하고, 오디오 신호의 적어도 하나의 특성에 기초하여 제1 및 제2 SV에 가중치를 부여하는 것을 포함한다.
예를 들어, 오디오 신호의 이러한 특성들은 대역폭, 톤(tone) 대 노이즈, 공칭 레벨 또는 데시벨(dB)의 전력 레벨일 수 있다. 하지만, 오디오 신호에는 방법에 사용될 수 있는 특성들이 많다는 점에 유의해야 한다. 제1 및 제2 SV에 가중치를 부여하여, JND에 근접한 마스킹 임계값을 획득할 수 있다. 유리하게는, 오디오 신호의 오디오 컨텐츠와 무관하게 일정한 오디오 품질이 달성될 수 있다.
이 실시예에서, 노이지(noisy)하고 라우드(loud)한 오디오 신호는, 2개의 SV들이 계산되고 가중치를 받게 되는 위의 모델을 사용할 때 인코딩된 고-품질 오디오 신호를 생성할 수 있다. 그렇게 노이지하지 않고 소프트(soft)한 오디오 신호는 동일한 모델을 사용할 때 인코딩된 오디오 신호에 대해 동일한 레벨의 품질을 생성할 수도 있다. 반대로, 선행 기술의 듀얼-모드 인코더에서 박수(applause)와 혼합된 대화(dialog)와 같이 안정적으로 분류할 수 없는 오디오 신호들의 경우, 인코더는 예를 들어 박수 또는 기본 모드 사이에서 선택되어야 하며, 인코더에 의해 선택된 모드는 최적이 아닐 수 있다. 대안적으로, 인코더는 다른 모드들을 가지고 신호의 다른 세그먼트들(segments)을 코딩하도록 선택할 수 있으며, 이는 인코딩된 신호의 품질을 감소시키는 가청 스위칭 아티팩트들(artefacts)로 이어질 수 있다. 제1 및 제2 SV가 계산되고 가중치를 받게 되는 단일 모드 모델을 사용하면, 다른 모드들을 가지고 오디오 신호의 어느 부분들을 코딩할 지를 결정할 필요가 없다. 더욱이, 단일 모드 모델은 상기 오디오 신호들의 오디오 컨텐츠(음성, 음악 등)와 무관한 다양한 오디오 신호들에 적합하다. 단일 모델을 제공하면, 인코딩을 위해 적용될 필요가 있는 모드를 결정하기 위해 오디오 샘플들을 분류할 필요가 없다. 더욱이, 모드들 사이의 경계에 있는 신호에 대한 모드를 선택하는 문제가 완화되고, 덜 최적의 모드로 선택되게 하는 인코더로 인한 오디오 품질 저하들이 방지된다.
일부 실시예들에서, 최종 SV를 계산할 때(2를 초과하는 SV들에 가중치를 부여함으로써) 추가 SV들이 규정되고 포함될 수 있다는 점에 유의해야 한다. 이러한 다른 SV들은 오디오 신호의 일시적 특성들에 기초하여 가중치가 부여될 수 있다.
일부 실시예들에 따르면, 주파수 대역에 대한 제2 SV를 계산하는 단계는 감각 레벨을 제1 스칼라와 다른 제3 스칼라와 곱하는 것을 포함한다. 제3 스칼라는 모든 주파수 대역들에 대해 주파수에 종속적이거나 일정할 수 있다.
함수에 제3 스칼라를 곱하여 청각 시스템에 관한 SV의 정확도가 다른 특성들을 갖는 오디오 신호들, 예를 들어 높은 정도의 노이즈와 유사한 특성들 대 높은 정도의 톤과 유사한 특성들을 갖는 오디오 신호들을 위해 개선될 수 있다. 제3 스칼라는 오디오 코딩을 위한 일반화된 모델을 가능하게 하기 위해 SV가 매핑되는 것을 허용하도록 할 수 있다. SV는 위에서 이해한 바와 같고 아래에서 추가로 설명되며 감각 레벨의 함수로 정의된다. 오디오 신호의 다른 특성들에 따라 SV를 매핑하여 청각 임계값과 에너지 값 사이의 관계는 유지될 수 있지만 오디오 신호의 다른 특성들에 따라 SV 대 감각 레벨의 기울기가 변경될 수 있다. 유리하게는, 고품질의 인코딩된 오디오 신호를 제공하기 위해 비트들이 할당될 수 있다.
일부 실시예들에 따르면, 제2 SV를 계산하는 단계는 제3 스칼라를 곱한 감각 레벨에 제4 스칼라 - 제4 스칼라는 제2 스칼라와 다름 - 를 더하는 것을 포함한다. 제4 스칼라에는 인간 청각 시스템과 관련하여 SV의 정확도를 향상시키려는 목적을 가지고 다른 값들이 할당될 수 있음에 유의해야 한다. 제4 스칼라는 모든 주파수 대역들에 대해 주파수에 종속적이거나 일정할 수 있다.
일부 실시예들에 따르면, 오디오 신호의 적어도 하나의 특성에 기초하여 제1 및 제2 SV에 가중치를 부여하는 단계는 가중치를 나타내는 값을 계산하고 값은 0-1 사이의 범위이며, 주파수 대역에 대한 SV를 계산하는 단계는 제1 및 제2 SV 중 하나에 이 값을 곱하고 제1 또는 제2 SV 중 다른 하나에 1에서 이 값을 뺀 값을 곱하며, 두 결과 합들을 함께 더하여 주파수 대역에 대한 SV를 형성하도록 하는 것을 포함한다.
다시 말해서, 제1 및 제2 SV는 합이 1이 되는 가중치를 갖는 선형 조합으로서 혼합되며, 여기서 가중치는 오디오 신호의 상기 적어도 하나의 특성에 따라 달라진다.
제1 및 제2 SV에 가중치를 부여하여 전체 SV를 계산하여, 감각 레벨과 SV 사이의 매핑이 다른 오디오 신호 유형들의 마스킹 특성들을 반영하기 위해 조정될 수 있다. 유리하게는, 고품질 인코딩된 오디오 신호들을 제공하는, 주파수 대역의 비트 할당 값을 결정하기 위한 낮은 복잡성 및 유연한 모델이 달성될 수 있다.
일부 실시예들에 따르면, 적어도 하나의 특성은 오디오 신호에 대한 주파수 대역의 추정된 조성을 규정한다.
오디오 신호의 조성을 추정하기 위해 다양한 방식들이 존재한다는 점에 유의해야 한다. 조성은 오디오 신호의 조성 특성들(예를 들어, 음표들(notes), 코드들(chords), 키들(keys), 음높이들(pitches) 등) 간의 관계들을 나타낸다. 유리하게는, 오디오 신호에 대한 주파수 대역의 추정된 조성을 제1 및 제2 SV에 가중치를 부여하기 위한 특성으로 사용하는 것은 인간의 청각 시스템에 관한 SV의 정확도를 향상시킬 수 있다. 또한, 조성을 이용하여 주관적인 오디오 품질을 향상시킬 수 있다.
일부 실시예들에 따르면, 적어도 하나의 특성은 오디오 신호의 주파수 대역에서 추정된 노이즈의 레벨을 규정한다. 유리하게는, 오디오 신호의 노이즈는 고품질 인코딩된 오디오 신호를 달성하기 위해 인간의 청각 시스템에 관하여 마스킹될(masked) 수 있다.
일부 실시예들에 따르면, 추정된 조성은 오디오 신호의 주파수 대역으로부터 계산된 주파수 계수들의 적응적 예측을 사용하여 계산된다. 일부 실시예들에서, 마스킹 임계값을 계산하고 조성을 추정하기 위해 주파수 계수들의 동일한 세트가 사용된다. 다른 실시예들에서, 조성의 추정은 별도의 복소수(comlex-valued) 필터뱅크를 사용하여 수행된다. 바람직한, 추정된 조성의 정확도와 사용 가능한 계산 자원들에 따라 주파수 계수들의 임의의 세트가 가능하다는 점에 유의해야 한다. 예를 들어, 실제 MDCT 계수들만 사용하는 것은 CMDCT 계수들을 사용하는 것보다 계산적으로 비용이 덜하지만 정확도는 떨어진다. 정확하게 추정된 조성을 획득하여 주관적인 오디오 품질을 더 향상시킬 수 있다.
일부 실시예들에 따르면, 선형 예측 코딩(linear predictive coding), LPC는 MDCT 계수들이 계산되는 오디오 신호의 주파수 대역에 기초하여 MDCT 계수들에 적응적으로(adaptively) 적용된다. LPC는 오디오 신호들의 더 정확한 조성 추정치들을 달성하기 위해 고정 예측과 반대로 사용될 수 있다.
LPC 분석 윈도우들은 길이들이 다를 수 있음에 유의해야 한다. 분석 윈도우 길이를 변경하여 바람직한 가변 시간-주파수 프레임워크(framework)를 유연하게 실현할 수 있다. 일부 실시예들에 따르면, LPC 분석 윈도우 길이는 주파수 대역의 함수로서 변동한다. 일부 실시예들에서, 상대적으로 더 낮은 주파수 대역들에 대해 상대적으로 더 긴 LPC 분석 윈도우가 사용된다.
일부 실시예들에 따르면 LPC의 예측 순서는 주파수 대역의 함수로서 변동한다. 예를 들어, LPC의 예측 순서는 순수한 노이즈 입력과 조성 성분들(하프시코드(harpsichord), 음성(speech)등)을 갖는 신호들 사이의 구별이 최대화되도록 선택될 수 있다.
오디오 신호의 주파수 범위는 다른 범위들로 코딩될 수 있다는 점에 유의해야 한다.
일부 실시예들에 따르면, 오디오 신호의 주파수 범위는 200-7000Hz이다.
일부 실시예들에 따르면, 주파수 대역에 대한 조용한 상태에서 청각 임계값을 결정하는 단계는 적어도 일부 주파수들에 대한 청각 임계값을 규정하는 미리 규정된 테이블을 사용하는 것을 포함한다. 미리 규정된 테이블은 방법을 수행하는 인코더에 미리 저장될 수 있으므로 디코더 호환성에 영향을 주지 않고 미리 규정된 테이블을 업데이트할 수 있게 한다. 유리하게는, 고품질 인코딩된 오디오 신호를 제공하는 복잡성이 감소될 수 있다.
일부 실시예들에 따르면, 주파수 대역들에 대한 오디오 데이터의 오디오 샘플들을 양자화하기 전에 컴팬딩(companding) 알고리즘을 사용하여 오디오 신호의 동적 범위가 감소된다. 인코더에서 오디오 신호를 컴팬딩하고 디코더에서 상보적(complementary) 확장을 적용함으로써 인코딩 방법은 더 높은 품질의 디코딩된 오디오 신호를 제공할 수 있다. 오디오 신호를 컴팬딩하면 높은 오디오 품질을 유지하면서 코딩할 비트들을 더 적게할 수 있다.
일부 실시예들에 따르면, 방법은 상대적으로 더 높은 감각 레벨을 갖는 주파수 대역에서의 분산 함수의 효과가 상대적으로 더 낮은 감각 레벨을 갖는 주파수 대역에서의 분산 함수의 효과에 비해 더 크도록 하는 감각 레벨에 따라 달라지는 주파수 대역에 대한 분산 함수를 정의하는 단계를 포함한다.
제2 양태에 따르면, 상기 목적들 중 적어도 하나는:
오디오 신호 - 상기 오디오 신호는 복수의 주파수 대역들의 오디오 데이터를 포함함 - 를 수신하도록 구성된 수신 컴포넌트(component); 및
오디오 신호의 복수의 주파수 대역들을 결정하도록 구성된 분석 컴포넌트; 를 포함하는 장치에 의해 달성되며,
분석 컴포넌트는, 복수의 주파수 대역들 중 각각의 주파수 대역에 대해;
주파수 대역의 오디오 데이터에 대한 에너지 값을 결정하도록 하고;
주파수 대역에 대해 조용한 상태에서 청각 임계값을 결정하도록 하며;
에너지 값과 조용한 상태에서 청각 임계값을 사용하여 주파수 대역에 대한 감도 값 SV를 계산하도록 하고;
감도 값 및 에너지 값을 사용하여 주파수 대역에 대한 마스킹 임계값을 컴퓨팅하도록 하며;
에너지 값과 마스킹 임계값을 사용하여 주파수 대역의 비트 할당 값을 결정하도록; 더 구성된다.
일부 실시예들에 따르면, 분석 컴포넌트는, 확산 함수를
주파수 대역들에 대한 에너지 값들; 또는
주파수 대역들의 변환된 에너지 값들; 중 하나에 적용하여
주파수 대역에 대한 여기(excitation) 값을 결정하도록 하고,
감도 값을 여기 값과 결합함으로써 마스킹 임계값을 컴퓨팅하도록 구성된다.
일부 실시예들에 따르면, 분석 컴포넌트는 에너지 값과 감도 값을 결합하여 중간 임계값을 결정하도록 하고, 중간 임계값에 분산 함수를 적용시켜 마스킹 임계값을 결정하도록 하여 마스킹 임계값을 컴퓨팅하도록 구성된다.
일부 실시예에 따르면, 장치는 인코더이며, 장치는 비트 할당 값에 응답하여 주파수 대역에 대한 오디오 데이터의 오디오 샘플들을 양자화하도록 구성된 인코딩 컴포넌트를 더 포함한다.
일부 실시예들에 따르면, 인코딩 컴포넌트는 주파수 대역의 양자화된 오디오 데이터를 비트스트림으로 인코딩하도록 더 구성된다.
일부 실시예들에 따르면, 장치는 디코더이며, 오디오 신호는 주파수 대역에 대한 인코딩된 에너지 값을 포함하는 인코딩된 비트스트림이고, 인코딩된 비트스트림으로부터 인코딩된 에너지 값을 디코딩하도록 구성된 디코딩 컴포넌트를 더 포함하고, 분석 컴포넌트는 에너지 값을 결정할 때 디코딩된 에너지 값을 사용한다.
일부 실시예들에 따르면, 디코딩 컴포넌트는 비트 할당 값에 응답하여 인코딩된 비트스트림으로부터 주파수 대역에 대한 오디오 데이터의 양자화된 오디오 샘플들을 추출하도록 구성된다.
일부 실시예들에 따르면, 디코딩 컴포넌트는 또한 주파수 대역에 대한 오디오 데이터의 양자화된 오디오 샘플들을 역양자화(dequantize)하고 각 주파수 대역에 대한 오디오 데이터의 역양자화된 오디오 샘플들을 결합하여 디코딩된 오디오 신호를 생성하도록 더 구성된다.
일부 실시예들에 따르면, 분석 컴포넌트는: 비트 할당 값을 결정할 때 오디오 신호에 대한 타겟 비트레이트를 만족시키는 비트 할당을 달성하기 위해 마스킹 임계값을 조정하도록 구성된다.
일부 실시예들에 따르면, 분석 컴포넌트는: 마스킹 임계값을 조정할 때, 오디오 신호에 대한 타겟 비트레이트가 만족될 때까지 음량 영역의 마스킹 임계값에 일정한 오프셋을 더하여 마스킹 임계값을 조정하도록 구성된다.
일부 실시예들에 따르면, 분석 컴포넌트는 에너지 값, 조용한 상태에서 청각 임계값 및 데시벨(dB)에 대한 마스킹 임계값을 규정하도록 구성된다.
일부 실시예들에 따르면, 분석 컴포넌트는 ERB(Equivalent Rectangular Bandwidth) 스케일에 따라 오디오 신호의 복수의 주파수 대역들을 결정하도록 구성된다.
일부 실시예들에 따라, SV는 여기 값으로의 감산(subtractive) 조정으로서 dB로 규정되며, 분석 컴포넌트는 더 낮은 SV를 갖는 상기 주파수 대역과 비교하여 더 높은 SV를 갖는 주파수 대역에 대해 더 많은 비트들을 할당하여 비트 할당 값을 결정하도록 구성된다.
일부 실시예들에 따르면, 분석 컴포넌트는 감각 레벨을 사용하여 제1 SV를 계산함으로써 주파수 대역에 대한 SV를 계산하도록 구성되며, 감각 레벨은 조용한 상태에서 에너지 값과 청각 임계값 간의 차이이다.
일부 실시예들에 따르면, 분석 컴포넌트는 감각 레벨을 제1 스칼라와 곱하여 제1 SV를 계산하도록 구성된다.
일부 실시예들에 따르면, 제1 스칼라는 주파수에 종속적이다.
일부 실시예들에 따르면, 제1 스칼라는 모든 주파수 대역들에 걸쳐 일정하다.
일부 실시예들에 따르면, 분석 컴포넌트는 제1 스칼라를 곱한 감각 레벨에 제2 스칼라를 더함으로써 제1 SV를 계산하도록 구성된다.
일부 실시예들에 따르면, 분석 컴포넌트는 주파수 대역에 대한 SV로서 제1 SV를 사용하여 SV를 계산하도록 구성된다.
일부 실시예들에 따르면, 분석 컴포넌트는 감각 레벨을 사용하여 제2 SV를 추가로 계산하고 오디오 신호의 적어도 하나의 특성에 기초하여 제1 및 제2 SV에 가중치를 부여하여 주파수 대역에 대한 SV를 계산하도록 구성된다.
일부 실시예들에 따르면, 분석 컴포넌트는 제1 스칼라와 다른 제3 스칼라와 감각 레벨을 곱하여 주파수 대역에 대한 제2 SV를 계산하도록 구성된다.
일부 실시예들에 따르면, 분석 컴포넌트는 제3 스칼라를 곱한 감각 레벨에 제4 스칼라 - 제4 스칼라는 제2 스칼라와 다름 - 를 더함으로써 제2 SV를 계산하도록 구성된다.
일부 실시예들에 따르면, 분석 컴포넌트는 가중치를 나타내는 값을 계산함으로써 오디오 신호의 적어도 하나의 특성에 기초하여 제1 및 제2 SV에 가중치를 부여하고, 값은 0-1 사이의 범위이며, 제1 및 제2 SV 중 하나에 이 값을 곱하고 제1 또는 제2 SV 중 다른 하나에 1에서 이 값을 뺀 값을 곱하며, 두 결과 합들을 함께 더하여 주파수 대역에 대한 SV를 형성하는 것을 수행하도록 구성된다.
일부 실시예들에 따르면, 적어도 하나의 특성은 오디오 신호에 대한 주파수 대역의 추정된 조성을 규정한다.
일부 실시예들에 따르면, 적어도 하나의 특성은 오디오 신호의 주파수 대역에서 추정된 노이즈의 레벨을 규정한다.
일부 실시예들에 따르면, 분석 컴포넌트는 오디오 신호의 주파수 대역으로부터 계산된 주파수 계수들의 적응적 예측을 사용하여 추정된 조성을 계산하도록 구성된다.
일부 실시예들에 따르면, 분석 컴포넌트는 MDCT 계수들이 계산되는 오디오 신호의 주파수 대역에 기초하여 MDCT 계수들에 LPC를 적응적으로 적용하도록 구성된다.
일부 실시예들에 따르면, LPC 분석 윈도우 길이는 주파수 대역의 함수로서 변동한다.
일부 실시예들에서, 상대적으로 더 낮은 주파수 대역들에 대해 상대적으로 더 긴 LPC 분석 윈도우가 사용된다.
일부 실시예들에 따르면, LPC의 예측 순서는 주파수 대역의 함수로서 변동한다.
일부 실시예들에 따르면, 오디오 신호의 주파수 범위는 200-7000Hz이다.
일부 실시예들에 따르면, 장치는 메모리를 더 포함하고, 메모리는 적어도 일부 주파수들에 대해 조용한 상태에서 청각 임계값을 규정하는 테이블을 저장하고, 분석 컴포넌트는 미리 규정된 테이블을 사용하여 주파수 대역에 대한 조용한 상태의 청각 임계값을 결정하도록 구성된다.
일부 실시예들에서, 장치는 주파수 대역들에 대한 오디오 데이터의 오디오 샘플들을 양자화하기 전에 컴팬딩(companding) 알고리즘을 사용하여 오디오 신호의 동적 범위를 감소시키도록 구성된 컴팬딩 컴포넌트를 더 포함한다.
일부 실시예들에 따르면, 분석 컴포넌트는 상대적으로 더 높은 감각 레벨을 갖는 주파수 대역에서의 분산 함수의 효과가 상대적으로 더 낮은 감각 레벨을 갖는 주파수 대역에서의 분산 함수의 효과에 비해 더 크도록 하는 감각 레벨에 따라 달라지는 주파수 대역에 대한 분산 함수를 정의하도록 구성된다.
일부 실시예들에 따르면, 장치는 실시간 양-방향 통신 장치에서 구현된다.
제2 양태는 일반적으로 제1 양태와 동일한 이점들을 가질 수 있다.
제3 양태에 따르면, 입력 신호의 조성을 추정하기 위한 방법이 제공되며, 방법은:
주파수 계수들의 세트를 달성하기 위해 필터뱅크를 적용하는 단계; 및
주파수 계수들의 적응적 예측을 사용하여 추정된 조성을 계산하는 단계; 를 포함한다.
일부 실시예들에 따르면, 추정된 조성을 계산하는 단계는 주파수 계수들이 계산되는 오디오 신호의 주파수 대역에 기초하여 주파수 계수들에 적응적 선형 예측인 LPC를 적용하는 것을 포함한다.
일부 실시예들에 따르면, LPC 분석 윈도우 길이는 주파수 대역의 함수로서 변동한다.
일부 실시예들에서, 상대적으로 더 낮은 주파수 대역들에 대해 상대적으로 더 긴 LPC 분석 윈도우가 사용된다.
일부 실시예들에 따르면, LPC의 예측 순서는 주파수 대역의 함수로서 변동한다.
일부 실시예들에 따르면, 필터뱅크는: 128-대역 복소 MDCT 또는 DFT 필터뱅크 및 64-대역 복소 CQMF(complex quadrature mirror filter) 필터뱅크 중 하나를 포함한다.
일부 실시예들에 따르면, LPC 분석 윈도우는 비대칭 해밍 윈도우이다.
일부 실시예들에 따르면, 방법은:
각 예측가능성 측정의 상대적인 지각 중요도에 따라 적응적 예측으로부터 예측가능성 측정들에 가중치를 부여하는 단계를 포함한다.
일부 실시예들에 따르면, 각각의 시간-주파수 타일(tile) 내에 포함된 예측가능성 측정들에 가중치를 부여하는 단계는: 입력 신호의 음량 또는 에너지에 기초하여 가중치를 부여하는 것 중 하나를 포함한다.
일부 실시예들에 따르면, 방법은:
필터뱅크의 시간 및 주파수 해상도를 일치시키기 위해 주파수 계수들의 적응적 예측으로부터 예측가능성 측정들을 결합하는 단계를 더 포함한다.
달리 명시적으로 언급되지 않는 한, 본 개시내용은 특징들의 모든 가능한 조합에 관한 것임에 더 유의해야 한다.
본 개시의 추가 목적들, 특징들 및 이점들뿐만 아니라 상기는, 첨부된 도면을 참조하여 본 개시의 실시예에 대한 다음의 예시적이고 비-제한적인 상세한 설명을 통해 더 잘 이해될 것이며, 여기서 동일한 참조 번호들은 다음과 같은 유사한 요소들을 위해 사용될 것이다.
도 1은 오디오 신호들을 위한 마스킹 데이터를 도시한다.
도 2은 오디오 신호들을 위한 마스킹 데이터를 도시한다.
도 3은 다른 주파수들에서 다양한 톤들에 대한 감각 레벨과 관련하여 신호 대 마스크 비율(SMR)의 실험 데이터와 데이터의 직선 모델을 도시한다.
도 4는 일부 실시예들에 따른 마스킹 임계값을 컴퓨팅하기 위한 방법의 개요를 도시한다.
도 5는 일부 실시예들에 따른 순수 톤들(tones) 및 순수 노이즈를 위한 감각 레벨과 관련된 SV를 도시한다.
도 6은 일부 실시예들에 따른 입력 프레임의 주파수 대역에 대한 조성을 추정하기 위한 블록도를 도시한다.
도 7은 일부 실시예들에 따른 입력 오디오 신호의 주파수 대역들의 비트 할당 값들을 결정하기 위한 분석 컴포넌트를 도시하고,
도 8은 도 7의 분석 컴포넌트를 구현하는 인코더를 도시하며,
도 9는 도 7의 분석 컴포넌트를 구현하는 디코더를 도시하고,
도 10은 톤/노이즈 혼합 레벨(SNR)의 함수로서 JND에 대해 측정된 SV의 예에서 얻은 결과를 도시한다.
도 11은 선행 기술과 관련하여 도 6에 정의된 바와 같이 추정된 조성 대 예측불가능성 추정치들의 플롯(plot)을 도시한다.
본 발명은, 이제 본 발명의 실시예들이 도시된 첨부 도면들을 참조하여 이하에서 더욱 완전하게 설명될 것이다. 본 명세서에 개시된 시스템들 및 장치들은 작동 중에 설명될 것이다.
이하에서, 알려진 오디오 포맷이 본 발명을 예시하기 위한 맥락으로서 사용될 것이다. 그러나, 본 발명의 범위는 이러한 알려진 형식으로 제한되지 않으며, 여기에 설명된 상이한 실시예들은 임의의 적합한 오디오 형식에 대해 이용될 수 있다는 점에 유의해야 한다.
예시적인 형식의 경우, 현재 오디오를 코딩하기 위해 일반적으로 사용되는 두 가지 모드들이 있다. 오디오 신호에 가장 적합한 모드를 선택해야 하는 것은 복잡한 결정일 수 있으며, 오디오 신호에 적합하지 않은 모드를 선택하면 인코딩된 오디오 신호의 품질이 저하될 수 있다. 두 가지 일반적인 모드들은 기본 및 박수(applause)이다. 현재 모드들은 구별되며 두 모드들에서, 인코더는, 마지막에 조용한 상태에서 임계값을 적용하는 것을 제외하고는 신호의 에너지 추정치와 신호 레벨에 따라 변하지 않는 SV로부터 마스킹 임계값을 추정한다. 기본 모드는 MPEG 레이어 III 인코더로부터 계승된 레거시(legacy) 함수를 추가로 적용하지만, 이 함수에 대한 지각적 정당성(perceptual justification)은 충분히 근거가 없다. 또한, 마스킹 임계값은 다중 스케일 인자 대역들 각 하나에 대한 스케일 인자(및 양자화 레벨)를 선택하는 레이트 제어 루프에 입력된다. 따라서, 성능은 마스킹 임계 추정치가 실제 JND 노이즈 레벨에 얼마나 근접한지에 따라 달라진다.
대부분의 선행-기술 모델들에서, 조용한 상태에서 임계값을 적용하기 전에 JND에 필요한 SMR의 표현들은 레벨-독립적이다. 이러한 모델들은 일반적으로 상대적으로 크거나 상대적으로 조용한 신호들에 대한 마스킹 데이터를 기초로 하지만 둘 다 적응적으로 사용할 수는 없다. 이 접근은 한 예에서, 낮은-레벨의 신호 구성요소들에 대한 실제 JND 임계값을 과소평가하여 상대적으로 조용한 신호 통과(passage)들을 포함하는 프레임들에 비트들을 과도하게 할당함으로써 코덱 성능을 제한할 수 있다. 이 이슈들은 가변 비트-레이트 인코더들뿐만 아니라 비트 저장소가 있는 일정한 비트-레이트 모드에서 실행되는 인코더들에서 발생한다. 매우 동적인 레벨 변경들(예를 들어, 음성(speech))을 특징으로 하는 오디오 컨텐츠는 부정적인 영향을 받을 것이다.
선행 기술 모델들의 일반적인 이슈는 선행 기술 모델들이 필요한 마스킹 임계값보다 낮은 값을 생성하여 주파수 대역 내에서 비트들을 과도하게 할당한다. 따라서, 이는 다른 대역들에 대한 가용 비트들 수를 감소시켜, 인코딩된 오디오 신호들의 품질을 감소시킨다.
본 발명은, 보다 정확한 SMR 추정을 통해 선행 기술의 듀얼 모드 모델 또는 단일 모델보다 대부분의 오디오 컨텐츠에 대해 동등하거나 더 나은 성능을 갖는 단일 모델을 제공함으로써 위에서 언급된 이슈들 중 일부를 우회하는 것을 목적으로 한다.
모노포닉(monophonic) 컨텐츠를 사용한 주관적인 청취 테스트는 새로운 인코더가 음성 컨텐츠에서 현재 인코더를 능가하는 것으로 나타났다. 또한, 새로운 인코더는, 미리 규정된 품질 타겟(target)을 충족하는 데 필요한 비트들의 수만 할당하여 일정한 오디오 품질을 제공하는 가변 비트레이트(bitrate) 애플리케이션들에서 훨씬 더 효과적이다.
한 실험에서, 제1 주관적인 청취 테스트는 3개의 인코더들 - 3개의 인코더들은, 기본 모드에서 작동하는 인코더, 박수(applause) 모드에서 작동하는 인코더, 레벨-종속 마스킹을 사용하여 작동하는 인코더임 - 및 오디오 테스트 항목들의 다양한 세트를 가지고 수행되어 레벨-종속 마스킹의 이점들을 정량화(quantify) 하도록 했다. 레벨-종속 마스킹을 사용하는 인코더는 기본 및 박수 모드 인코더들에 관하여 각각 평균 3점 및 14점씩 평균 주관적 품질이 증가했다. 더 중요하게도, 레벨-종속 마스킹은 기본 인코더에 관하여 평균 8점씩 두 개의 음성 항목들을 개선했다.
도 7은 예로서 분석 컴포넌트(700)를 도시한다. 도 8 및 도 9와 관련하여, 아래에서 더 설명되는 바와 같이, 분석 컴포넌트는 인코더(800) 또는 디코더(900)에서 구현될 수 있다. 다른 실시예들에서, 분석 컴포넌트는 별도의 장치에서 구현되고 예를 들어 인코더 또는 디코더에 연결된다.
분석 컴포넌트(700)는 오디오 신호의 주파수 대역들에 대한 비트 할당 값을 결정하기 위해 오디오 신호를 처리하기 위한 방법을 수행하도록 구성된 회로를 포함한다. 회로는 하나 이상의 프로세서들을 포함할 수 있다.
분석 컴포넌트(700)는 아래에서 예시될 다양한 동작들을 실행하도록 구성된다.
분석 컴포넌트(700)는 입력 오디오 신호의 복수의 주파수 대역들을 결정(S02)하도록 구성된다. 복수의 주파수 대역들은 각각 주파수 범위를 포함한다. 인코딩될 오디오 신호의 복수의 주파수 대역들 각각이 반드시 동일한 폭/범위를 가질 필요는 없다는 점에 유의해야 한다. 일 예에서, 상대적으로 더 낮은 제1 주파수 대역은 100-200Hz의 범위를 가질 수 있는 반면, 상대적으로 더 높은 다른 주파수 대역은 3000-3500Hz의 범위를 가질 수 있다. 일 실시예에서, 오디오 신호의 주파수 범위는 200-7000Hz일 수 있다. 또한, 7000Hz 초과 및/또는 200Hz 미만의 주파수들로 확장될 수 있는 오디오 신호들에 대한 다양한 주파수 범위들이 있음에 유의해야 한다. 이해한 바와 같이, 오디오 신호의 주파수 대역들을 결정하는 다양한 방법들이 있다. 일 실시예에서, 분석 컴포넌트(700)는 ERB(Equivalent Rectangular Bandwidth) 스케일에 따라 주파수 대역들을 결정(S02)하도록 구성된다. ERB 스케일은 인간 청각 시스템에 대한 필터들의 대역폭들로 근사치를 제공한다. 또한, ERB 스케일을 사용하면 필터들을 직사각형 대역-통과 필터들로 모델링하는 단순화를 제공한다.
분석 컴포넌트는 각 주파수 대역의 오디오 데이터에 대한 다음 분석들을 사용하여 각 주파수 대역의 비트 할당 값을 결정(S18)하도록 더 구성된다.
분석 컴포넌트(700)는 주파수 대역의 오디오 데이터에 대한 에너지 값을 결정(S04)한다. 에너지 값은, 예를 들어 밴딩된(banded) MDCT 에너지일 수 있다.
또한, 분석 컴포넌트(700)는 주파수 대역에 대해 조용한 상태에서 청각 임계값을 결정한다(S06). 일 실시예에서, 분석 컴포넌트(700)는 메모리 컴포넌트를 포함하거나 그러한 구성요소에 연결된다. 메모리 컴포넌트는 적어도 일부 주파수들에 대해 조용한 상태에서 청각 임계값을 규정하는 테이블을 저장한다. 이러한 메모리 컴포넌트는 다른 정보를 저장할 수 있다는 점에 유의해야 한다. 다시 말해서, 주파수 대역에 대한 조용한 상태에서 청각 임계값을 결정(S06)하는 것은 적어도 일부 주파수들에 대한 청각 임계값을 규정하는 미리 규정된 테이블을 사용하는 것을 포함할 수 있다. 일부 실시예들에서, 청각 임계값을 규정하는 미리 규정된 테이블은 대체 가능하여 디코더 호환성(compatibility)에 영향을 주지 않고 인코더에 대한 개선들이 이루어지도록 할 수 있다.
에너지 값과 조용한 상태에서 청각 임계값을 사용하여 감도 값(SV)을 계산할 수 있다(S08). SV는 에너지 값과 조용한 상태에서 청각 임계값을 사용하여 다른 방식들로 계산할 수 있음(S08)을 이해해야 한다. SV는, 예를 들어 에너지 값과 조용한 상태에서 청각 임계값 사이의 비율 또는 차이 또는 에너지 값과 조용한 상태에서 청각 임계값을 비교하는 임의의 다른 메트릭(metric)을 사용하여 계산될 수 있다(S08). 감도 값을, 예를 들어 dB로 규정된 양(quantity)으로 이해해야 한다.
일 실시예에서, 제1 SV는 에너지 값과 조용한 상태에서의 청각 임계값 사이의 차이를 사용하여 계산되며(S10), 본 발명에서는 "감각 레벨(sensation level)"로도 지칭된다. 선택적으로, 제1 SV는 감각 레벨에 제1 스칼라를 곱함으로써 계산될 수 있다(S10). 일부 실시예들에서, 제1 스칼라와 곱한 차에 제2 스칼라를 더하여 제1 SV를 계산할 수 있다(S10). 이 실시예에서, 주파수 대역에 대한 제1 SV는 따라서 알파(alpha)*(대역 에너지 - hthresh) + 베타(beta)로 계산되며, 알파는 제1 스칼라, 베타는 제2 스칼라, 대역 에너지는 주파수 대역의 오디오 신호에서 에너지 값이고, hthresh는 주파수 대역에 대한 조용한 상태에서의 임계값이다. 일부 실시예들에서, 복잡성을 줄이기 위해 제2 스칼라는 SV의 계산에 포함되지 않는다.
제1 SV가 다른 주파수 대역들에 대한 에너지 값과 조용한 상태에서 임계값의 차이에 따라 달라지는 정도는, 다양하게 측정 마스킹 데이터를 검사하여 결정된다. 도 1 내지 도 3과 관련하여 설명된 이하의 측정들 및 다이어그램들은, 예를 들어 각 주파수 대역에서, 즉 감각 레벨에서 에너지 값과 조용한 상태의 청각 임계값 간의 차이를 사용하여 제공된다는 점에 유의해야 한다. 그러나, 당업자는 예를 들어 각 주파수 대역에 대한 에너지와 청각 임계값 사이의 비율을 사용하여 SV를 계산하는 다른 방법들을 사용하는 경우, 실험들로부터 다른 데이터가 생성될 수 있음을 이해해야 한다.
도 1은, 예를 들어 다른 음압 레벨들(SPL)에서 200Hz 톤(tone)들에 대해 측정 마스킹 데이터를 도시한다. 마스킹 임계값들(104, 106, 108, 110, 112)은 조용한 상태(102)(굵은 선)에서의 청각 임계값과 관련하여 표시된다. 마스킹 임계값 1(104)은 60dB SPL에서 200Hz 톤에 관한 것이다. 마스킹 임계값 2(106)는 80dB SPL에서 200Hz 톤에 관한 것이다. 마스킹 임계값 3(108)은 90dB SPL에서 200Hz 톤에 관한 것이다. 마스킹 임계값 4(110)는 100dB SPL에서 200Hz 톤에 관한 것이다. 마스킹 임계값 5(112)은 105dB SPL에서 200Hz 톤에 관한 것이다. 도 1에서 알 수 있는 것처럼, 톤 마스커(tone masker) 레벨의 차이(예를 들어, 60, 80, 90, 100 및 105dB에서, 도 1에 구체적으로 나타나지는 않았지만, 각 사운드 레벨에서 수평 축의 200Hz 마킹(marking)까지 수직 축의 마킹들을 따라 쉽게 볼 수 있음) 및 200Hz의 마스킹 임계값은 톤 마스커의 사운드 강도가 증가함에 따라 증가한다. 60dB 톤 마스커의 경우, 차이는 거의 18dB(톤 마스커의 경우 60dB, 마스킹 임계값(104)의 경우 42dB)이고, 105dB 톤 마스커의 경우 차이는 거의 32dB(톤 마스커의 경우 105dB 및 마스킹 임계값(112)의 경우 73dB)이다.
도 2는 500Hz 톤 마스커에 대한 유사한 패턴을 도시한다. 도 2에서, 다른 음압 레벨들인 SPL(105dB 톤 마스커가 도 2에 도시되지 않은 점을 제외하고 도 2와 동일한 레벨들에서)에서 데이터를 마스킹하기 위한 마스킹 임계값들(204, 206, 208, 210)은 조용한 상태(102)(굵은 선)에서의 청각 임계값과 관련하여 표시된다.
일 예에서, 측정 마스킹 데이터(즉, 도 1 및 도 2에 예시됨)는, 톤 또는 사인파 신호들이 고려될 때 감도 값인 SV 대 감각 레벨을 유도하는 데 사용될 수 있다. 이해한 바와 같이, 필요한 SV를 도출하는 데 사용될 수 있는 도 1 및 도 2에 예시된 것 외에 다른 가능한 매개변수들이 있다. 이 예에서, 사인파 마스커(masker) 주파수에서 청각 크리티컬 대역(auditory critical band) 내 코딩 아티팩트들(artifacts)을 위한 마스킹이 고려되었다.
도 3은 다른 톤 감각 레벨들과 주파수들에 대한 톤 마스킹 협대역(narrowband) 노이즈의 병합으로서 SMR 모델을 예시로 도시한다. SMR은 선형 모델(302)로 감각 레벨의 함수로 표시된다. 직선 모델(302)은 도 3에서 304, 306, 310, 312, 314, 316으로 지칭된, 측정 SMR 곡선들인 1-6의 병합이다. 곡선 1(304)은 200Hz의 주파수에서 신호에 대해 측정 SMR 값들을 도시한다. 곡선 2(306)는 500Hz의 주파수에서 신호에 대해 측정 SMR 값들을 도시한다. 곡선 3(310)은 500Hz의 주파수에서 다른 신호에 대해 측정 SMR 값들을 도시한다. 곡선 4(312)는 1000Hz의 주파수에서 신호에 대해 측정 SMR 값들을 도시한다. 곡선 5(314)는 2000Hz의 주파수에서 신호에 대해 측정 SMR 값들을 도시한다. 곡선 6(316)은 5000Hz의 주파수에서 신호에 대해 측정 SMR 값들을 도시한다.
도 3은, 이 예의 경우 0.35dB*(해당 주파수에서 조용한 상태에서 임계값에 관한 마스커 레벨) + 3dB인 SMR 대 감각 레벨 기울기가 주파수 범위 200-4,000Hz에 대한 합리적인 근사값일 수 있음을 도시한다. 그러나, 도 3의 직선 모델(302)은 다른 주파수 범위들에 대한 합리적인 근사값일 수 있다는 점에 유의해야 한다. 이 예에서 필요한 SMR에 대한 데시벨 오프셋(decibel offset)은 중간-레벨들에서 10dB만큼 다양하지만, 높고 낮은 레벨들에서 수렴한다.
일부 실시예들에서, 조용한 상태에서 임계값은 4kHz 미만의 모든 대역들에 대한 임계값을 글로벌 최소 임계값(global minimum threshold)으로 설정함으로써 수정될 수 있다. 조용한 상태에서 임계값은, 인코딩할 때 각 대역 내에서 최소값으로 설정되어야 한다. 예를 들어, 적응적 블록 스위칭(block switching)을 갖는 변환 코덱에서, 가장 짧은 변환 블록의 가장 낮은 주파수 대역은 750Hz 폭일 수 있다. 도 1 및 도 2에서 볼 수 있듯이, 조용한 상태의 청각 임계값 레벨(dB)은 20-750Hz에서 빠르게 감소한다. 이 전체 대역의 임계값은 그 후 750Hz의 조용한 상태에서 실제 임계값으로 설정될 수 있다. 가장 짧은 블록의 다른 모든 대역들에서도 동일한 단계가 적용된다. 그 후, 이러한 값들을 보간(interpolate)하여 다른 모든 변환 블록 길이들에 대해 조용한 상태에서 임계값들을 획득하도록 한다. 이 접근 방식은 조용한 상태에서 임계값이 모든 블록 길이들에 대해 일정한 레벨에 있도록 하고 코덱이 변환 길이들을 스위칭할 때 바람직하지 않는 양자화 노이즈 변조 아티팩트들(undesired quantization noise modulation artifacts)을 방지한다. 더 간단한 대안은 4kHz 미만의 모든 대역들에 대한 임계값들을 글로벌 최소 임계값으로 설정하는 것이다. 조용한 상태에서 이 조정된 임계값을 사용하면 당업자가 이해하는 바와 같이 제1 및/또는 제2 스칼라에 대한 다른 값들이 생성된다.
도 1 및 도 2의 조용한 상태에서 임계값은 105dB SPL의 피크 재생 레벨(peak playback level)에 대한 기존의 가정 하에서 보수적으로(conservatively) 20dB 미만으로 위치된다는 점에 유의해야 한다. 일 실시예에서, 임계값은 115dB의 피크 재생 레벨에 기초하여 설정된다. 이는 가정된 레벨과는 다른 레벨에서 디코딩된 오디오를 재생할 때, 특히 가변 비트-레이트 애플리케이션들에 대해 어느 정도의 견고성을 제공한다.
도 3의 모델은 다양한 주파수들에 대한 톤 마스킹 협대역 노이즈 실험들의 결과들을 평균화하여 유도된다. 감각 레벨이 더 높은 신호 구성요소들은 더 높은 SV들을 수신한다. 일 예에서, 조용한 상태에서 청각 임계값 이상으로 대역 에너지가 3dB 증가할 때마다 SV는 1dB씩 증가한다. 주파수 대역 j, SV(j)에 대한 도 3의 레벨-종속 SV 모델은 다음과 같이 표현된다:
SV(j) = max(0, 0.35 * (Eb(j) - Q(j)) + 3)
Eb(j) 및 Q(j)(이 예에서는 dB로 표시됨)는 각각 밴딩된(banded) MDCT 에너지 및 조용한 상태의 임계값이다.
이해한 바와 같이, 분석 컴포넌트의 구성을 변경함으로써 위에서 언급된 방정식에 제시된 스칼라들을 변경하는 것이 명백할 것이다. 스칼라들을 수정하여 일부 오디오 신호들에 더 잘 맞도록 SV 계산을 조정하도록 수정될 수 있다. 제1 스칼라는 예를 들어 0.2와 0.5 사이의 범위일 수 있다. 제2 스칼라는 예를 들어 2.5와 3.5 사이의 범위일 수 있다.
도 3의 모델에서, 제1 스칼라와 제2 스칼라는 모든 주파수 대역들에서 일정하다. 그러나, 다른 실시예들에서, 제1 및/또는 제2 스칼라는 주파수에 종속적이다.
일 실시예에서, 도 3에 도시된 바와 같이 제1 SV가 계산되고(S10) 주파수 대역에 대한 SV로서 사용된다.
일 실시예에서, 도 3의 직선 모델(302)은 노이즈의 높은 레벨들을 갖는 입력 신호들에 대한 SV를 보다 정확하게 추정하도록 확장된다. 노이즈의 높은 레벨을 갖는 입력 신호들의 일부 예들은 박수, 비, 또는 음성 치찰음들(sibilants)일 수 있다. 그러나, 이해한 바와 같이 노이즈의 높은 레벨들을 갖는 다양한 신호들이 존재한다. 예를 들어, 톤-마스킹-노이즈의 경우와 동일한 방법론을 사용하여, SV를 일부 신호들에 대해 더 정확하게 계산할 수 있다.
제2 실시예에서, SV와 노이즈의 높은 레벨들을 가진 감각 레벨 사이에는 동일한 직선 관계가 존재하지만, 기울기는 다르다라는 것을 암시한다. 최적-피트 직선(best-fit line) 기울기는 톤-마스킹-노이즈 경우의 기울기의 약 1/2이다. 이 일치는 도 1 내지 도 3에 도시된 것과 유사한 실험들을 사용하여 확인되었지만 톤 마스커(masker) 대신 노이즈 마스커에 대해 확인되었다. 따라서, 입력 신호 특성들에 따라 달라지는 SV 규칙을 적용하여 일반화된 모델을 구현할 수 있다.
결과적으로, 일 실시예에서, 선택적인 제2 SV가 계산되고(S12), 최종 SV를 규정하기 위해 제1 SV와 고정되거나 적응적으로 가중된 조합을 사용하여 선택적으로 결합된다. 이들 실시예들에서, 분석 컴포넌트(700)는 주파수 대역에 대한 SV를 계산할 때(S08), 결정된 에너지(S04)와 결정된 조용한 상태에서 청각 임계값(감각 레벨)(S06) 사이의 차이를 사용하여 제2 SV를 계산하고(S12), 입력 오디오 신호의 적어도 하나의 결정된 특성(S14)에 기초하여 제1 및 제2 SV에 가중치를 부여하도록 더 구성된다. 이해한 바와 같이, 오디오 신호의 임의의 적절한 특성은 SV의 계산(S08)에 사용될 수 있다. 일 실시예에서, 적어도 하나의 특성은 신호의 추정된 조성이다. 대안적으로, 일 실시예에서, 적어도 하나의 특성은 신호에 대한 노이즈의 추정된 레벨이다.
일 실시예에서, 추정된 조성은 오디오 신호의 주파수 대역으로부터 계산된 주파수 계수(coefficient)들의 적응적 예측을 사용하여 계산된다. 이하에서는, 오디오 신호의 조성을 추정하기 위한 실시예들이 설명될 것이다.
이해한 바와 같이, 주파수 계수들의 임의의 세트를 사용할 수 있다. 예를 들어, 하나의 선행-기술 방법은 시간에 따른 DFT 크기 및 위상의 2차 고정 예측(ISO/IEC 11172-3:1993(E), "정보 기술 - 최대 약 1.5Mbit/s의 속도로 디지털 저장 매체용 동영상 및 관련 오디오 코딩 - 파트 3: 오디오.”)에 기초한 것이다. 이 방법에 따르면, 다른 주파수들에 대해 다른 시간/주파수 해상도 트레이드오프들(tradeoffs)을 가능하게 하기 위해 길이 512 및 128(즉, 복소 DFT 계수들의 수)의 중첩된 DFT들이 병렬로 컴퓨팅된다. 분석 컴포넌트(700)는 복소 MDCT(CMDCT) 계수들의 적응적 선형 예측을 사용하기 위해 선행-기술의 방법을 일반화할 수 있다. 일부 실시예들에서, 선형 예측 코딩(LPC)은 MDCT 계수들이 계산되는 오디오 신호의 주파수 대역에 기초하여 MDCT 계수들에 적응적으로 적용될 수 있다. 적응형 선형 예측은 유성 음성(voiced speech) 및 음악에서 빠르게-진화하는 중음역(midrage) 배음들(harmonics)이 고정 예측보다 더 높은 조성 추정치들을 생성할 수 있게 한다. 또한, LPC 분석 윈도우(window) 길이 및/또는 예측 순서를 주파수 함수로 변경하여, 병렬 CMDCT 필터뱅크(filterbank) 없이 바람직한 가변 시간/주파수 프레임워크(framework)를 유연하게 실현할 수 있다. 다시 말해서, LPC 분석 윈도우 길이는 주파수 대역의 함수로서 변동한다. 또한, LPC의 예측 순서도 주파수 대역의 함수로 변동한다. 최적의 LPC 분석 매개변수들은 챌린징(challenging) 신호들 및 독립적이며 동일하게 분포된(IID) 가우스 노이즈에 대한 평균 예측 이득의 차이를 최대화하여 각 주파수 대역에 대해 오프라인으로 선택될 수 있다. 챌린징 신호들의 예들로는 음성(speech)이나 하프시코드(harpsichord)가 될 수 있다. 그러나 챌린징한 것으로 분류될 수 있는 다양한 신호들이 있음을 이해해야 한다. 가장 긴 LPC 분석 윈도우들은 일반적으로 낮은 주파수들에서 사용되는 반면 점진적으로 더 짧은 것들은 더 높은 주파수들에서 사용된다. 다시 말해서, 상대적으로 더 긴 LPC 분석 윈도우는 그러한 신호들의 더 긴 주기성을 포착하기 위해 상대적으로 더 낮은 주파수 대역들에 대해 사용될 수 있다. LPC 분석 매개변수들은 인코더의 양자화 노이즈 형성(shaping) 특성들을 제어하기 위한 유연한 수단들을 제공한다.
오디오 신호의 조성을 추정하는 방법의 실시예들은 도 6과 관련하여 아래에서 더 설명될 것이다.
일부 실시예들에서, 제1 및 제2 SV에 가중치를 부여하는 것은 조성 추정치 T에 기초한다. T는 범위가 순수 노이즈 신호들에 대한 0에서 순수 사인곡선들 및 희소 배음 신호 구성요소들에 대한 1에 이르는 연속 변수이다. 제1 및 제2 SV는 합이 1인 가중치들과 선형 조합으로 혼합될 수 있으며, 가중치들은 T에 따라 달라진다. 다시 말해서, 오디오 신호의 적어도 하나의 특성에 기초하여 제1 및 제2 SV에 가중치를 부여하는 것은 가중치를 나타내는 값을 계산하는 것을 포함하며, 이러한 값은 0-1 사이의 범위이고, 주파수 대역에 대한 SV를 계산하는 단계(S08)는 제1 및 제2 SV 중 하나에 이 값을 곱하고, 제1 또는 제2 SV 중 다른 하나에 1에서 이 값을 뺀 것을 곱하며, 두 결과 합들을 함께 더하여 주파수 대역에 대한 SV를 형성하도록 하는 것(S08)을 포함한다.
SV를 계산하기 위한(S08) 함수는 스칼라들의 수정에 의해 다른 방식들로 수정될 수 있음을 이해해야 한다.
일 실시예에서, 분석 컴포넌트(704)는 제2 SV를 계산할 때(S12) 제3 스칼라를 사용하도록 구성된다.
예를 들어, 제2 SV는 차이에 제1 스칼라와 다른 제3 스칼라를 곱하여 계산될 수 있다(S12). 제3 스칼라에는 다른 값들이 할당될 수 있음을 이해해야 한다. 제3 스칼라는 예를 들어 0.05와 0.2 사이에 이르는 값일 수 있다. 제3 스칼라는 0.1과 0.15 사이에 이르는 범위일 수 있다.
일 실시예에서, 분석 컴포넌트(704)는 제2 SV를 계산할 때(S12) 제4 스칼라를 사용하도록 구성된다.
예를 들어, 제2 SV는 제3 스칼라와 곱한 차이에 제4 스칼라 - 제4 스칼라는 제2 스칼라와 다름 - 를 더함으로써 계산될 수 있다(S12). 제4 스칼라에는 다른 값들이 할당될 수 있음을 이해해야 한다. 제4 스칼라는 예를 들어 3.5와 4.5 사이의 범위일 수 있다. 제4 스칼라는 일반적으로 조용한 상태에서 임계값에 따라 설정된다.
제2 및 제4 스칼라들은 조용한 상태에서 임계값 설정에 따라 많이 달라질 수 있음에 유의해야 한다. 이러한 용어들의 중요한 측면은 톤 대 노이즈와 유사한 신호들에 할당된 비트들의 수를 트레이딩(trading) 한다는 것이다. 또한 그것들은 마스킹 임계값의 레벨과 모양에 정확히 할당된 노이즈가 일반 청취자에게만 인식되도록 모델을 보정하는 데에도 유용하다.
일 실시예에서, 분석 컴포넌트는 차이에 0.15를 곱하고 이 결과에 4를 더함으로써 제2 SV를 계산 (S12)하도록 구성된다.
그 후, 예를 들어, 전체 SV는 순수 사인곡선들 및 순수 노이즈 신호들에 대한 SV 규칙들의 가중 조합으로서 계산될 수 있으며(S08), 예를 들면 다음과 같다:
SV(j) = max(0, T * (0.32 * (Eb(j) - Q(j)) + 3) + (1-T) * (0.13 * (Eb(j) - Q(j)) + 4)).
도 5는 세 가지 다른 신호 유형들에 대한 SV 대 감각 레벨 모델들을 도시한다. 톤 SV 모델(502)은 T = 1을 갖는 신호들에 대한 모델 동작을 도시한다. 노이즈 SV 모델(504)은 T = 0을 갖는 신호들에 대한 모델 동작을 도시한다. 혼합된 톤 및 노이즈 SV 모델(506)은 T=0.65일 때 모델 동작을 도시한다.
따라서, 분석 컴포넌트(700)는 톤-마스킹과 노이즈-마스킹 모델들 사이에 블렌드(blend)되도록 구성될 수 있다. 다시 말해서, 톤과 매우 유사한 신호들의 경우, 인코더는 주로 톤과 유사한 신호들에 적합한 구성들을 사용한다. 노이즈와 매우 유사한 신호들의 경우, 인코더는 주로 노이즈와 유사한 신호들에 적합한 구성들을 사용할 것이다. 사이의 신호들에 대해, 인코더는 대역 내 조성에 따라 달라지는 톤과 유사한 구성들과 노이즈와 유사 구성들의 비율들과 함께 구성의 블렌드를 사용할 것이다.
도 7로 돌아가서; 감도 값 및 에너지 값을 사용하여, 마스킹 임계값이 그 후 컴퓨팅될 수 있고(S16), 이는 주파수 대역의 비트 할당 값을 결정하기 위해(S18) 에너지 값과 조합하여 후속적으로 사용될 수 있다.
유리하게는, 분석 컴포넌트(700)는 신호 에너지 또는 신호 에너지에 기초하여 계산된 값들로부터 가변 오프셋(감도 값)을 감산해서 마스킹 임계값을 계산한다(S16). 가변 오프셋은 위에서 논의한 바와 같이, 예를 들면 에너지 값과 조용한 상태에서 청각 임계값의 차이(감각 레벨)에 기초한다. 특히, 감각 레벨이 증가함에 따라, 가변 오프셋이 증가하고 그 반대의 경우도 마찬가지이다. 마스킹 임계값을 계산하는 이러한 방식은 주관적으로 측정된 마스킹 데이터에 더 나은 일치를 제공하므로 비트들의 할당이 개선된다. 디코딩된 오디오 신호의 주관적 품질 개선은 더 높은-레벨의 신호들에서 가장 두드러질 수 있다. 레벨-독립 오프셋을 사용하는 선행 기술 모델들은 더 조용한 신호들에 대해 필요한 마스킹 임계값보다 낮은 값을 생성하여, 비트들을 과도하게 할당하고 결과적으로 더 큰 신호 구성요소들을 포함하는 다른 대역들 및 다른 프레임들에 대해 사용 가능한 비트 수를 감소시킨다.
비교를 위해, 선행 기술 모델들은 일반적으로 대역내 신호 에너지에서 고정된 오프셋을 감산해서 마스킹 임계값을 간단히 결정한다. 예를 들어, 일부 경우들에서 대역 에너지가 청각 임계값에 얼마나 근접한지에 관계없이 동일한 오프셋이 사용된다. 대신에 분석 컴포넌트(700)는 신호 에너지로부터 가변 오프셋을 감산함으로써 마스킹 임계값을 결정한다.
마스킹 임계값은 다른 방식들로 컴퓨팅될 수 있다(S16). 일 실시예에서, 마스킹 임계값을 컴퓨팅하는 것은 분산 함수를: 주파수 대역들에 대한 선형 에너지 값들; 또는 주파수 대역들의 변환된 에너지 값들 중 하나에 적용하는 것을 포함한다. 다시 말해서, 일 실시예에서, 분산 함수는 주파수 대역들에 대한 에너지 값들에 적용된다. 다른 실시예에서, 에너지 값들은 분산 함수가 적용되기 전에 먼저 변환된다. 변환은 에너지 값들을 ~0.25-0.3승으로 거듭제곱하여 선형 에너지 값들을 음량 영역(loudness domain)으로 변환하는 것을 포함할 수 있다. 변환은 대안적으로 일부 오디오 포맷들(formats)에 대해 훨씬 더 나은 음질을 제공하는 것으로 밝혀진 0.5-0.6승으로 에너지 값들을 거듭제곱하는 것을 포함할 수 있다.
이에 의해, 주파수 대역에 대한 여기(excitation) 값이 결정된다. 여기 값은 그 후 마스킹 임계값을 컴퓨팅하기 위해 감도 값과 결합된다. dB 스케일에서, 감도 값과 여기 값의 결합은 여기 값에서 감도 값을 감산하는 것을 포함한다. 강도(intensity) 영역에서는 분할이 대신 사용된다.
다른 실시예에서, 분산 함수는 중간 임계값을 결정하기 위해 에너지 값과 감도 값을 결합한 후에 적용된다. 이러한 실시예에서, 마스킹 임계값을 컴퓨팅하는 것은 에너지 값과 감도 값을 결합하여 중간 임계값을 결정하도록 하며, 분산 함수를 중간 임계값에 적용하여 마스킹 임계값을 결정하도록 한다.
선택적으로, 위의 모든 실시예들에 대해 마스킹 임계값은 조용한 상태에서 임계값을 가지고 임계화하여 유도되며, 예를 들어 마스킹 임계값 = max(마스킹 임계값, 조용한 상태에서 청각 임계값).
일 실시예에서, 주파수 대역에 대한 분산 함수는, 상대적으로 더 높은 감각 레벨을 갖는 주파수 대역에서의 분산 함수의 효과가 상대적으로 더 낮은 감각 레벨을 갖는 주파수 대역에서의 분산 함수의 효과에 비해 더 크도록 하는 감각 레벨에 따라 달라진다. 일반적으로, 분산 함수들은 절대(absolute) SPL 스케일로 규정된다. 분산 함수를 정의하기 위한 대안적 방법을 사용하면 추가적 계산 복잡성을 최소한으로만 발생시키면서 보다 일반화된 심리음향 모델을 제공할 수 있다. 오늘날, 많은 인코더들이 조용한 신호들에 대해 가장 적합한 분산 함수들을 적용하는 것으로 보인다. 이것은 보수적인 디자인 접근 방식이지만, 주파수 영역 마스킹의 범위는 더 큰 신호들에 대해 과소평가되어, 이는 특정 대역들에서 필요한 것보다 더 많은 비트들을 할당하게 될 수 있으며, 이에 따라 다른 대역들에 사용 가능한 비트들이 적어지고 품질이 저하될 가능성이 있다. 따라서, 분석 컴포넌트(700)는 비트들의 개선된 할당으로 이어지는 결정된 에너지 값(S04)과 조용한 상태에서 결정된 청각 임계값(S06) 사이의 차이에 따라 달라지는 주파수 대역에 대한 분산 함수를 정의하도록 구성될 수 있다.
일부 실시예들에서, 주파수 대역에 대한 비트 할당 값을 결정하는 것은(S18) 주파수 대역에 대한 SMR - SMR은 주파수 대역에 대한 컴퓨팅된 마스킹 임계값(S16)에 의해 감산된 주파수 대역에 대한 에너지 값임 -을 계산하는 것을 포함한다. 일부 실시예들에서, 추가 고정된 오프셋이 감산된다. 비트 할당 값의 결정(S18)은 그 후 SMR의 수량에 기초한다. 일부 실시예들에서, 비트 할당 값은 규정된 최대 비트 할당 값, 예를 들어, 12비트에서의 임계값이다.
일부 실시예들에서, 비트 할당 값을 결정하는 것은(S18) 오디오 신호에 대한 타겟 비트레이트를 만족시키는 비트 할당을 달성하기 위해 마스킹 임계값을 조정하는 것(S20)을 포함한다. 마스킹 임계값을 조정하는 것(S20)은 오디오 신호에 대한 타겟 비트레이트가 만족될 때까지 음량 영역의 마스킹 임계값에 일정한 오프셋을 더함으로써 마스킹 임계값을 조정하는 것을 포함할 수 있다. 위에서 언급했듯이, 선형 에너지 영역에서 음량 영역으로 변환하는 것은 각 에너지를 ~0.25-0.3승으로 거듭제곱 하는 것을 포함한다.
일반적으로, 분석 컴포넌트(700)는 상기 주파수 대역이 더 낮은 SV를 가질 경우와 비교하여 더 높은 SV(SV가 dB에 대하여 여기 함수에 대한 감산 조정으로서 규정될 때임)를 갖는 주파수 대역에 대해 더 많은 비트들을 할당한다(S18).
분석 컴포넌트(700)는 일부 실시예들의 인코더(800)에서 구현될 수 있다. 그러한 실시예들이 도 8에 도시된다. 이 실시예에서, 인코더(800)는 오디오 신호(806)를 수신하도록 구성된 수신 컴포넌트(802)를 포함한다. 인코더는 인코딩 목적을 위해 분석 컴포넌트(700)에 의해 결정된 비트 할당 값들 (S18)을 사용하도록 구성된 인코딩 컴포넌트(804)를 더 포함한다. 예를 들어, 인코딩 컴포넌트(804)는 비트 할당 값에 응답하여 주파수 대역의 오디오 데이터의 오디오 샘플들을 양자화하고, 주파수 대역의 양자화된 오디오 데이터를 비트스트림(808)으로 인코딩하도록 구성된다. 일부 실시예들에서, 인코더(800)는 주파수 대역들에 대한 오디오 데이터의 오디오 샘플들을 양자화하기 전에 컴팬딩(companding) 알고리즘을 사용하여 오디오 신호의 동적 범위를 감소시키도록 구성된 컴팬딩 컴포넌트(미도시)를 더 포함한다. 컴팬딩 기능은 변환 코딩 전에 입력 신호들의 동적 범위를 줄인다. 컴팬딩 기능은, 비와 박수와 같은 일시적(transient)으로 조밀하게 혼합된것들을 포함하는 신호들의 인코딩된 품질에 도움이 될 수 있다. 일 예에서, 입력 신호 컴팬딩 및 제1 SV만을 계산(S10)하고 이것을 SV로 사용하는(S08) 실시예는 별도의 기능보다 더 높은 성능을 생성하기 위해 상승적으로(synergistically) 작동할 수 있다. 이 실시예에서, 오디오 신호의 동적 범위는 연관된 SV를 사용하여 오디오 신호를 인코딩하는 단계 이전에 컴팬딩 알고리즘을 사용하여 감소된다. 컴팬딩 기능은 높은 오디오 품질을 계속해서 유지하면서 코딩할 비트들의 수를 더욱 줄일 수 있다.
일부 실시예들에서, 분석 컴포넌트(700)는 디코더(900)에서 구현된다. 이 실시예는 도 9에 도시된다. 이 실시예에서, 디코더(900)는 오디오 신호의 주파수 대역들에 대한 인코딩된 에너지 값을 포함하는 인코딩된 비트스트림의 형태인 오디오 신호(906)를 수신하도록 구성된 수신 컴포넌트(902)를 포함한다. 디코더는 디코딩 목적을 위해 분석 컴포넌트(700)에 의해 결정된 비트 할당 값들 (S18)을 사용하도록 구성된 디코딩 컴포넌트(904)를 더 포함한다. 디코딩 컴포넌트(904)는 인코딩된 비트스트림(906)으로부터 인코딩된 에너지 값을 디코딩하도록 구성되며, 분석 컴포넌트(700)는 에너지 값을 결정할 때 디코딩된 에너지 값을 사용한다. 디코딩 컴포넌트(904)는 비트 할당 값에 응답하여 인코딩된 비트스트림(906)으로부터 주파수 대역에 대한 오디오 데이터의 양자화된 오디오 샘플들을 추출하도록 더 구성된다. 디코딩 컴포넌트(904)는 또한 주파수 대역에 대한 오디오 데이터의 양자화된 오디오 샘플들을 역양자화(dequantize)하고 각 주파수 대역에 대한 오디오 데이터의 역양자화된 오디오 샘플들을 결합하여 디코딩된 오디오 신호(908)를 생성하도록 더 구성된다.
분석 컴포넌트(700) 및 대응하는 방법은 임의의 오디오 포맷과 함께 사용될 수 있다는 점에 유의해야 한다.
본 명세서에 기술된 본 발명의 방법들을 사용한 마스킹은 주관적으로 측정된 마스킹 데이터에 더 나은 일치를 제공하고, 따라서 비트들의 할당이 개선된다. 계산된 제1 SV(S10)를 주파수 대역에 대한 SV로 사용하는 실시예는 음성 신호들에 대한 기본 인코더에 비해 가장 개선된 사항을 제공한다. 이는 음성 신호들이 일반적인 방송 및 영화 컨텐츠에서 매우 중요한 요소이기 때문에 중요하다.
일부 실시예들에서, 이 실시예(또는, 대안적으로 제2 SV를 계산(S12)하는 실시예)를 구현하는 인코더(800) 및/또는 디코더(900)는 또한 실시간 양-방향 통신 장치에서 구현된다. 유리하게는, 그러한 인코딩 방법의 더 낮은 복잡성이 주어진다면, 더 간단한 실시예가 그러한 장치에서 이용될 수 있다. 그러나, 인코더(800) 및/또는 디코더(900)의 많은 애플리케이션들 및 가능한 사용들이 존재한다는 점에 유의해야 한다.
따라서 인코더(800)는 인간 청각 시스템의 관찰된 마스킹 동작을 정확하게 포착한다. 이는 일정한 비트-레이트 및 가변 비트-레이트 애플리케이션들 모두에 대해 기본 인코더들보다 더 높은 코덱 성능으로 이어진다.
주관적인 개선은 일부 실시예들에서 상대적으로 높은-레벨의 신호들에 대해 가장 두드러질 수 있는데, 그 이유는 (SV를 사용하는 대신) 레벨-독립 오프셋에 기초하여 마스킹 임계값들을 도출하는 기본 인코더들이 비트들을 낮은-레벨의 신호 구성요소에 과도하게 할당하는 경향이 있기 때문이다.
도 4는 제1 및 제2 SV에 가중치를 부여하기 위해 조성 추정치가 사용되는, 상술한 바와 같은 마스킹 임계값을 계산하는 예시적인 방법의 개요를 도시한다. 도 4와 같이 입력 오디오 프레임은 MDCT 필터뱅크에 입력된다. MDCT 필터뱅크에 입력된 변환 길이(들)도 조성 추정 유닛에 의해 수신된다(도 6과 관련하여 아래에 더 기술됨). 조성 추정 유닛은 0-1 범위의 조성 추정치 Tj(m)을 출력하며, 이는 아래에서 추가로 기술되는 바와 같이 각 MDCT 변환에 대한 한 세트이다. 이 명명법에서, j는 대역 인덱스이고 m은 MDCT 블록 인덱스이다.
MDCT 변환 계수들은 각 주파수 대역에 대한 에너지 값을 결정하는 데 사용된다. 여기 함수를 유도하기 위해 주파수 대역들의 에너지 값들에 분산 함수가 적용된다. 도 4의 예시적인 방법의 마지막 단계들에서, 여기에 기술된 바와 같이, 에너지 값들과 조용한 상태에서 임계값은 제1 및 제2 SV를 컴퓨팅하는 데 사용되며, 그 후, 이들은 조성 추정치들인 Tj(m)에 의해 가중치를 받게되고 각 주파수 대역에 대한 마스킹 임계값을 최종적으로 생성하기 위해 여기 값들에 적용된다.
조성 추정 방법에 기초한 적응적-예측 기반의 실시예가 이제 도 6과 관련하여 기술될 것이다.
입력 프레임(602)은 입력 샘플들을 제공한다. 필터뱅크(604)는 입력 프레임(602)으로부터 입력 샘플들을 수신하도록 구성된다. 사용될 수 있는 다른 필터뱅크들(604)이 있음에 유의해야 한다. 일 예에서, N=128인 경우 CMDCT가 사용된다. 다른 예에서 CQMF는 N=64인 경우에 사용될 수 있다. 필터뱅크(604)는 복소(complex) 주파수 계수들(606)(Xk(n), 시간 n에서 대역 k)을 LPC 분석 컴포넌트(608) 및 예측불가능성 추정 컴포넌트(605)로 전송하도록 구성된다. 도 6의 구조는 각 CMDCT/CQMF 대역에 대해 반복된다. 예측불가능성 추정 컴포넌트(605)와 관련한 LPC 분석 컴포넌트(608)는 주파수 계수들(606)에 대응하는 예측불가능성 값들(609)(
Figure pct00001
)의 한 세트를 제공하도록 구성된다.
하나의 CMDCT 블록의 시간 샘플들이 3개의 인접한 CMDCT 블록들에 영향을 미친다는 사실을 고려하여, 2-스테이지 평활화(smoothing) 스테이지(620)에서 예측불가능성 추정치들을 평활화하기 위해 3-탭(tap) FIR 필터가 사용된다. 이것은 조성 추정치들의 평활함을 개선시킨다(따라서, 디코딩된 오디오도 마찬가지임). 다른 필터뱅크들에도 유사한 접근 방식이 사용되며, 예를 들어 N = 64인 CQMF이다.
매핑(mapping) 컴포넌트(610)는 평활화된 예측불가능성 값들, 변환 길이(612) 및 주파수 대역의 에너지(도 6의 박스(611)에 의해 계산됨)를 수신하도록 구성된다. 예측불가능성 추정치들이 평활화된 후에는, 이들이 추후에 적용될 MDCT 윈도우의 0이 아닌 부분을 반영하기 위해 시간에 따라 함께 결합된다. 이는 디코딩된 출력 신호의 명확성을 최대화하기 위해, 음성과 같이 신호들을 동적으로 변경하는 경우 특히 중요할 수 있다. 매핑 컴포넌트(610)는 매핑된 입력 데이터(613)(Zk(n))를 출력 데이터로서 분산 및 정규화 컴포넌트(614)에 전송하도록 추가로 구성된다. 분산 및 정규화 컴포넌트(614)는 입력 데이터(613)에 분산 함수를 적용하고, 수정된 데이터(615)의 한 세트(Uk(n))를 조성 매핑 컴포넌트(616)에 전송하도록 구성된다. 조성 매핑 컴포넌트(616)는 입력 데이터(615)(예측불가능성)를 조성 추정치들(618)의 하나 이상의 세트에 매핑하도록 구성된다.
도 6을 더 자세히 살펴보면, 일부 실시예들에 따르면 사인(sine) 윈도우는 하나의 4096-길이 프레임(602)으로부터 취해진 입력 샘플들의 50% 중첩된 블록들에 적용되고, 그 다음 128-pt CMDCT들이 적용된다. 필터뱅크(604)의 선택은 중요하지 않다; 예를 들어, 알려진 인코더에 이미 존재하는 복소 QMF 필터뱅크(604)도 사용될 수 있다. 블록(604)으로부터 복소 주파수 계수들(606)의 세트인, Xk(n) k=1,…,N에 대해, 예측불가능성 값들(609)의 대응하는 세트가 생성된다. 시간 n에서 대역 k에 대한 예측불가능성
Figure pct00002
은 다음과 같이 정의된다.
Figure pct00003
=
Figure pct00004
여기서,
Figure pct00005
,
Figure pct00006
는 k번째 주파수 대역에 대한
Figure pct00007
복소 예측 계수들의 세트이고,
Figure pct00008
는 동일한 대역에 대한 LPC 예측 차수이다. 예측불가능성 값들(609)인
Figure pct00009
는 순수한 톤들과 순수한 노이즈에 각각에 대해 0에서 1 사이의 범위이다.
각 CMDCT 주파수 빈(bin) k에서, Lk개 연속(consecutive) 계수들인 Xk(n-m)의 그룹은(m = 1,…,Lk 임) 윈도우되고(windowed) 분석되어 pk 차수(pk<Lk)의 복소 예측 계수들을 생성하도록 한다. 예측 계수들인 aki (i = 1,… pk)는 그 후 Xk(n)에 대응하는 예측불가능성 값들(609)을 컴퓨팅하는 데 사용된다. 평가된 다양한 LPC 분석 윈도우들 중에서 예측 이득들을 최대화하기 위해 거의 대칭적인 해밍 윈도우(Hamming window)가 발견되었다. 비대칭 정도는 CMDCT 빈의 함수로 변동한다. 모든 대역들에 대한 예측불가능성 값들은 그 후 시간에 따른 급격한 변화들을 피하기 위해 2-스테이지 평활화 필터들(620)의 세트에 의해 필터링된다. 2-스테이지 필터의 예는 기존의 지수 평활화 필터가 있는 캐스케이드(cascade)의 3-탭 FIR로 구성된다. FIR 필터는 예측불가능성 값들(609)인
Figure pct00010
을 수신하고 부분적으로 평활화된 출력 신호들인
Figure pct00011
을 생성한다. 그 후, FIR 출력 신호는 지수 평활화 필터에 의해 추가 처리되어
Figure pct00012
을 생성하도록 한다.
일 실시예에서, 고속-어택(attack), 저속-감쇠(decay) IIR 필터들이 지수 평활화 필터들을 위해 사용될 수 있다. 이 필터들은 어택 및 감쇠 시간을 독립적으로 제어하는 수단을 제공한다. 입력은 조성 영역인
Figure pct00013
에 있으며 차이 방정식들은 다음과 같이 주어진다:
Figure pct00014
Figure pct00015
Figure pct00016
Figure pct00017
Figure pct00018
는 각각 대역 k에 대한 어택 및 감쇠 계수들이고,
Figure pct00019
은 평활화된 조성 추정치들이고,
Figure pct00020
은 중간 상태 변수들이다. 어택 및 감쇠 시간 상수들은 일반적으로 주파수 대역 수에 대한 함수로서 변동한다. 위의 세 번째 방정식에서, 고속-어택, 저속-감쇠 필터들의 출력들은 후속 처리를 위해 다시 예측불가능성들로 변환된다.
평활화를 사용하지 않으면, 조성 추정치들이 연속 변환 블록들에서 변동하는 경향이 있어, 마스킹 임계 추정치들의 변동으로 이어진다. 이는 차례로 디코더 출력에서 특히 중저 주파수들에서 가청 양자화 노이즈 변조로 이어질 수 있다. 이 이슈를 효과적으로 해결하는 방법은 인간의 청각 필터들의 알려진 시간적 특성들로부터 어택/감쇠 필터 계수들 디자인하는 것이다. 이 접근 방식은 일반적으로 저주파들에서 가장 길고 고주파들에서 가장 짧은 어택/감쇠 시간 상수들로 이어진다.
도 6의 다음 스테이지에서, 모든 CMDCT 블록들로부터의 CMDCT 빈 에너지들 및 평활화된 예측불가능성 값들은, 현재 프레임의 각 MDCT 변환(들)의 시간 및 주파수 해상도와 일치하도록 그룹들(매핑됨)(610)로 재샘플링되고(resampled) 결합된다. 재샘플링된 예측불가능성 값들(613)은 상대적 지각(perceptual) 중요도에 따라 가중치를 받게되고 필요에 따라 시간에 걸쳐 결합된다. 지각 가중치들의 예에는 L2-놈(norm) 제곱(에너지) 및 음량이 포함된다. 다음으로, 밴딩된 MDCT 에너지들에 적용된 분산을 일치시키기 위해, 예를 들어 ISO/IEC 11172-3:1993(E)로부터 분산 함수(614)을 적용함으로써 예측 불가능성 값들이 주파수에 걸쳐 분산된다. 최종 단계에서, 리샘플링되고, 분산되고, 정규화된 예측불가능성 값들(615)은 0에서 1까지의 범위에서 조성 추정치들(618)의 하나 이상의 세트들(각 MDCT 변환에 대한 하나의 세트)에 매핑(616)된다.
도 10은 다양한 톤 + 협대역 노이즈 혼합비들(SNR)의 함수로서 JND에 대해 실험적으로-측정된 SV의 예에서 나온 결과를 도시한다. 500Hz 804, 1kHz 802 및 4kHz 806의 중심 주파수들은 -10dB에서 ~40dB까지 범위의 마스커 SNR들과 함께 사용되었다. 마스커는 80dB SPL 레벨에서 피험자들에게 제시되었다. 평균 곡선(808)(굵은 선)은 3개의 모든 중심 주파수들에 걸친 ta SV 평균을 나타낸다.
일 실시예에서, 다른 조성 매핑 함수(ISO/IEC 11172-3:1993의 조성 매핑 규칙과 다름)는 혼합된 톤 + 협대역 노이즈 신호들의 지각 마스킹 실험들의 결과에 대해 적어도 부분적으로 보정된다. 이 실시예의 목적은 동일한 주파수에서 톤 + 협대역 노이즈 혼합으로 구성된 마스커와 연관이 없는 협대역 노이즈로 구성된 마스키(maskee)에 대한 JND 레벨을 결정하는 것이다. 실험은 다양한 마스커 톤/노이즈 혼합 레벨들과 다양한 주파수들에서 반복된다. 실험들의 결과들은 아래에 기술된 것처럼 조성 매핑을 보정하는 데 사용될 수 있다.
일 실시예에서, 먼저, 톤 + 협대역 노이즈 자극들의 각각은 관련된 예측불가능성 값들을 포착하기 위해 조성 추정기로 주입된다. 이러한 결과들에서, 각 예측불가능성 값을 필요한 SMR과 연결하는 테이블이 생성된다. 이 테이블을 SMR 범위와 일치하는 톤 + 협대역 노이즈 마스킹에 대한 조성-내지-SMR 규칙과 결합하여, 모델 보정에 필요한 조성 매핑에 대한 예측불가능성을 정의하는 곡선에서 포인트들이 유도된다. 최종 단계에서, 유도된 보정 곡선을 근사화하는 매개변수 함수가 유도된다. 마스킹 실험 및 보정 단계들은 다양한 주파수들 및 입력 신호 레벨들에서 반복될 수 있다.
도 11은 일 실시예의 실험 결과들을 예시적으로 도시한다. 이것은 사인 윈도우 및 50% 중첩을 갖는 128-pt CMDCT에 대한 유도된 보정 곡선을 근사화하는 매개변수 모델/함수(902)(점선) 및 타겟 보정 곡선(904)을 제시한다. 비교를 위해 도면에 선행 기술 예가 포함되고(점선 906), 이 예에서 LPC 분석은 윈도우 길이가 6인 3차이다. 이 실시예에서, 매개변수 함수 T(
Figure pct00021
)는 다음에 따라 예측 불가능성을 조성에 매핑한다:
Figure pct00022
4개의 매개변수들(a, b, c, d)에 대한 값들은 타겟 보정 곡선을 근사화하기 위해 유도된다. 도 11에 도시된 예에서, a, b, c 및 d에 대한 모델 매개변수 값들은 -13.0233, 15.9513, -8.1012, 2.1319이다.
지각 모델들에서 조성 추정의 사용이 선행 기술에서 잘 알려져 있지만(ISO/IEC 11172-3:1993(E), 도 11의 점선(906)), 선행 기술 모델들은 레벨-독립적인 방식으로 작동한다. ISO/IEC 11172-3:1993(E)에서, SMR 모델은 순수한 노이즈와 톤 신호들에 대해 각각 6dB에서 거의 30dB 사이의 추정된 조성을 기반으로 조정한다. 보정된 조성 매핑 함수를 사용하여 여기에 기술된 레벨-종속 모델은 시뮬레이션에서 실현되었으며, 객관적인 품질 측정 및 청취 테스트들에 의해 결정된 바와 같이 선행 기술 모델보다 성능이 뛰어나다.
본 발명의 추가 실시예들은 상기 설명을 살펴본 후에 당업자에게 명백해질 것이다. 본 설명 및 도면들은 실시예들 및 예들을 개시하지만, 이러한 발명은 이러한 특정 예들에 제한되지 않는다. 첨부된 청구항들에 의해 규정된 본 발명의 범위를 벗어나지 않으면서 수많은 수정들 및 변형들이 이루어질 수 있다. 청구항들에 나타나는 참조 부호들은 그 범위를 제한하는 것으로 이해되어서는 안된다.
추가로, 개시된 실시예들에 대한 변형들은 도면들, 개시 및 첨부된 청구항들의 연구로부터, 발명을 실시하는데 있어 당업자들에 의해 이해되고 달성될 수 있다. 청구항들에서, "포함하는"이라는 단어는 다른 엘리먼트들 또는 단계들을 배제하지 않으며, 단수 표현(부정관사 "a" 또는 "an")은 복수를 배제하지 않는다. 특정 측정들이 서로 상이한 종속 청구항들에서 인용된다는 단순한 사실만으로 이 측정들의 결합이 유리하게 사용될 수 없다는 것을 나타내는 것은 아니다.
위에 개시된 시스템들 및 방법들은 소프트웨어, 펌웨어, 하드웨어 또는 이들의 조합으로 구현될 수 있다. 하드웨어 구현에서, 위의 기술에서 언급된 기능 유닛들 간 작업들의 분할은 반드시 물리적 유닛으로의 분할에 대응하는 것은 아니며; 반대로, 하나의 물리적 구성요소는 여러 기능들을 가질 수 있으며 하나의 작업은 여러 물리적 구성요소들이 협력하여 수행될 수 있다. 특정 구성요소들 또는 모든 구성요소들은 디지털 신호 프로세서 또는 마이크로 프로세서에 의해 실행되는 소프트웨어로 구현되거나 하드웨어 또는 애플리케이션별 집적 회로로 구현될 수 있다. 이러한 소프트웨어는 컴퓨터 저장 매체(또는 비일시적 매체) 및 통신 매체(또는 일시적 매체)를 포함하는 컴퓨터 판독가능 매체에 배포될 수 있다. 당업자에게 잘 알려진 바와 같이, 컴퓨터 저장 매체라는 용어는 컴퓨터 판독가능 명령어들, 데이터 구조들, 프로그램 모듈들 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현되는 휘발성 및 비휘발성, 이동식 및 비-이동식 매체를 모두 포함한다. 컴퓨터 저장 매체에는 RAM, ROM, EEPROM, 플래시 메모리 또는 기타 메모리 기술, CD-ROM, 디지털 다목적 디스크들(DVD) 또는 기타 광 디스크 저장 장치, 자기 카세트들, 자기 테이프, 자기 디스크 저장 장치 또는 기타 자기 저장 장치들 또는 바람직한 정보를 저장하는 데 사용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 기타 매체를 포함하지만 이에 한정되지 않는다. 또한, 통신 매체는 일반적으로 컴퓨터 판독가능 명령어들, 데이터 구조들, 프로그램 모듈들 또는 기타 데이터를 반송파 또는 기타 전송 메커니즘과 같은 변조된 데이터 신호로 구현하고 임의의 정보 전달 매체를 포함한다는 것이 당업자에게 잘 알려져 있다.
본 발명의 다양한 양태들은 다음의 열거된 예시적인 실시예들(EEEs)로부터 인식될 수 있다:
EEE1. 복수의 주파수 대역들에서 오디오 데이터를 포함하는 오디오 신호를 처리하는 방법에 있어서,
복수의 주파수 대역들의 각 주파수 대역에 대해:
주파수 대역의 오디오 데이터에 대한 에너지 값을 결정하는 단계;
주파수 대역에 대해 조용한 상태에서 청각 임계값을 결정하는 단계;
에너지 값과 조용한 상태에서 청각 임계값을 사용하여 주파수 대역에 대한 감도 값인 SV를 계산하는 단계;
감도 값 및 에너지 값을 사용하여 주파수 대역에 대한 마스킹 임계값을 컴퓨팅하는 단계;
에너지 값과 마스킹 임계값을 사용하여 주파수 대역의 비트 할당 값을 결정하는 단계;
를 포함하는 방법.
EEE2. EEE1에 있어서, 마스킹 임계값을 컴퓨팅하는 단계는 분산 함수를:
주파수 대역들에 대한 에너지 값들; 또는
주파수 대역들의 변환된 에너지 값들; 중 하나에 적용하여,
주파수 대역에 대한 여기(excitation) 값을 결정하도록 하고,
감도 값을 여기 값과 결합하는 단계를 포함하는 방법.
EEE3. EEE1에 있어서, 마스킹 임계값을 컴퓨팅하는 단계는 에너지 값과 감도 값을 결합하여 중간 임계값을 결정하도록 하는 단계 및 분산 함수를 중간 임계값에 적용하여 마스킹 임계값을 결정하도록 하는 단계를 포함하는 방법.
EEE4. 어느 이전의 EEE에 있어서, 비트 할당값에 응답하여 주파수 대역의 오디오 데이터의 오디오 샘플들을 양자화하는 단계를 더 포함하는 방법.
EEE5. EEE4에 있어서, 주파수 대역의 양자화된 오디오 데이터를 비트스트림(bitstream)으로 인코딩(encoding)하는 단계를 더 포함하는 방법.
EEE6. EEE1 내지 EEE3 중 어느 하나에 있어서, 오디오 신호는 주파수 대역에 대한 인코딩된(encoded) 에너지 값을 포함하는 인코딩된 비트스트림이고, 주파수 대역의 오디오 데이터에 대한 에너지 값을 결정하는 단계는 인코딩된 비트스트림으로부터 인코딩된 에너지 값을 디코딩하는 단계를 포함하는 방법.
EEE7. EEE6에 있어서, 비트 할당 값에 응답하여 인코딩된 비트스트림으로부터 주파수 대역에 대한 오디오 데이터의 양자화된 오디오 샘플들을 추출하는 단계를 더 포함하는 방법.
EEE8. EEE7에 있어서, 주파수 대역의 오디오 데이터의 양자화된 오디오 샘플들을 역양자화(dequantizing)하고, 각 주파수 대역에 대한 오디오 데이터의 역양자화된 오디오 샘플들을 결합하여 디코딩된 오디오 신호를 생성하도록 하는 단계를 더 포함하는 방법.
EEE9: 어느 이전의 EEE에 있어서, 비트 할당 값을 결정하는 단계는 오디오 신호에 대한 타겟 비트레이트를 만족시키는 비트 할당을 달성하기 위해 마스킹 임계값을 조정하는 단계를 포함하는 방법.
EEE10. EEE9에 있어서, 마스킹 임계값을 조정하는 단계는: 오디오 신호에 대한 타겟 비트레이트가 만족될 때까지 음량 영역의 마스킹 임계값에 일정한 오프셋(offset)을 더하여 마스킹 임계값을 조정하는 단계를 포함하는 방법.
EEE11. 어느 이전의 EEE에 있어서, 에너지 값, 조용한 상태에서의 청각 임계값 및 마스킹 임계값이 데시벨인 dB로 규정되는 방법.
EEE12. 어느 이전의 EEE에 있어서, ERB(Equivalent Rectangular Bandwidth) 스케일에 따라 오디오 신호의 복수의 주파수 대역들을 결정하는 단계를 더 포함하는 방법.
EEE13. EEE2 또는 EEE2에 종속되는 어느 이전의 EEE에 있어서, SV는 여기 값으로의 감산(subtractive) 조정으로서의 dB로 규정되며, 비트 할당 값을 결정하는 단계는 더 낮은 SV를 갖는 상기 주파수 대역과 비교하여 더 높은 SV를 갖는 주파수 대역에 대해 더 많은 비트들을 할당하는 단계를 포함하는 방법.
EEE14. 어느 이전의 EEE에 있어서, 주파수 대역에 대한 SV를 계산하는 단계는 감각(sensation) 레벨을 사용하여 제1 SV를 계산하는 단계를 포함하고, 감각 레벨은 dB 스케일에서 에너지 값과 조용한 상태에서 청각 임계값 사이의 차이인 방법.
EEE15. EEE14에 있어서, 제1 SV를 계산하는 단계는 감각 레벨을 제1스칼라(scalar)와 곱하는 단계를 포함하는 방법.
EEE16. EEE15에 있어서, 제1 스칼라는 주파수에 종속적인 방법.
EEE17. EEE15에 있어서, 제1 스칼라는 모든 주파수 대역들에 걸쳐 일정한 것인 방법.
EEE18. EEE15 내지 EEE17 중 어느 하나에 있어서, 제1 SV를 계산하는 단계는 제1 스칼라를 곱한 감각 레벨에 제2 스칼라를 더하는 단계를 포함하는 방법.
EEE19. EEE14 내지 EEE18 중 어느 하나에 있어서, SV를 계산하는 단계는 주파수 대역에 대한 SV로서 제1 SV를 사용하는 단계를 포함하는 방법.
EEE20. EEE14 내지 EEE18 중 어느 하나에 있어서, 주파수 대역에 대한 SV를 계산하는 단계는 감각 레벨을 사용하여 제2 SV를 계산하고, 오디오 신호의 적어도 하나의 특성에 기초하여 제1 및 제2 SV에 가중치를 부여하는 단계를 포함하는 방법.
EEE21. EEE20에 있어서, 주파수 대역에 대한 제2 SV를 계산하는 단계는 제1 스칼라와 다른 제3 스칼라와 감각 레벨을 곱하는 단계를 포함하는 방법.
EEE22. EEE21에 있어서, 제2 SV를 계산하는 단계는 제3 스칼라를 곱한 감각 레벨에 제4 스칼라 - 제4 스칼라는 제2 스칼라와 다름 - 를 더하는 단계를 포함하는 방법.
EEE23. EEE20 내지 EEE22 중 어느 하나에 있어서, 오디오 신호의 적어도 하나의 특성에 기초하여 제1 및 제2 SV에 가중치를 부여하는 단계는 가중치를 나타내는 값을 계산하는 단계를 포함하며, 이 값은 0-1 사이의 범위이고, 주파수 대역에 대한 SV를 계산하는 단계는 제1 및 제2 SV 중 하나에 이 값을 곱하고, 제1 또는 제2 SV 중 상기 다른 하나에 1에서 이 값을 뺀 것을 곱하며, 두 결과 합들을 함께 더하여 주파수 대역에 대한 SV를 형성하도록 하는 단계인 방법.
EEE24. EEE20 내지 EEE23 중 어느 하나에 있어서, 적어도 하나의 특성은 오디오 신호의 주파수 대역의 추정된 조성을 규정하는 방법.
EEE25. EEE20 내지 EEE23 중 어느 하나에 있어서, 적어도 하나의 특성은 오디오 신호의 주파수 대역의 추정된 노이즈의 레벨을 규정하는 방법.
EEE26. EEE24에 있어서, 추정된 조성은 오디오 신호의 주파수 대역으로부터 계산된 주파수 계수들의 적응적(adaptive) 예측을 사용하여 계산되는 방법.
EEE27. EEE26에 있어서, 선형 예측 코딩(linear predictive coding)인 LPC는 MDCT 계수들이 계산되는 오디오 신호의 주파수 대역에 기초하여 MDCT 계수들에 적응적으로 적용되는 방법.
EEE28. EEE27에 있어서, LPC 분석 윈도우 길이는 주파수 대역의 함수로서 변동하는 방법.
EEE29. EEE28에 있어서, 상대적으로 더 낮은 주파수 대역들에 대해 상대적으로 더 긴 LPC 분석 윈도우가 사용되는 방법.
EEE30. EEE27 내지 EEE29 중 어느 하나에 있어서, LPC의 예측 순서는 주파수 대역의 함수로서 변동하는 방법.
EEE31. 이전의 EEE 중 어느 하나에 있어서, 오디오 신호의 주파수 범위는 200-7000Hz 사이인 방법.
EEE32. 이전의 EEE 중 어느 하나에 있어서, 주파수 대역에 대한 조용한 상태에서 청각 임계값을 결정하는 단계는 적어도 일부 주파수들에 대한 청각 임계값을 규정하는 미리 규정된 테이블을 사용하는 단계를 포함하는 방법.
EEE33. EEE4 또는 EEE4에 종속되는 임의의 다른 EEE에 있어서, 주파수 대역들에 대한 오디오 데이터의 오디오 샘플들을 양자화하기 전에 컴팬딩(companding) 알고리즘을 사용하여 오디오 신호의 동적 범위가 감소되는 방법.
EEE34. EEE14 또는 EEE14에 종속되는 경우 EEE15 내지 EEE33 중 어느 하나에 있어서, 주파수 대역에 대한 분산 함수는, 상대적으로 더 높은 감각 레벨을 갖는 주파수 대역에서의 분산 함수의 효과가 상대적으로 더 낮은 감각 레벨을 갖는 주파수 대역에서의 분산 함수의 효과에 비해 더 크도록 하는 감각 레벨에 따라 달라지는 주파수 대역에 대한 분산 함수를 정의하는 단계를 더 포함하는 방법.
EEE35. 장치로서,
오디오 신호 - 상기 오디오 신호는 복수의 주파수 대역들의 오디오 데이터를 포함함 - 를 수신하도록 구성된 수신 컴포넌트(component);
오디오 신호의 복수의 주파수 대역들을 결정하도록 구성된 분석 컴포넌트; 를 포함하며,
분석 컴포넌트가, 복수의 주파수 대역들 중 각각의 주파수 대역에 대해;
주파수 대역의 오디오 데이터에 대한 에너지 값을 결정하도록 하고;
주파수 대역에 대해 조용한 상태에서 청각 임계값을 결정하도록 하며;
에너지 값과 조용한 상태에서 청각 임계값을 사용하여 주파수 대역에 대한 감도 값 SV를 계산하도록 하고;
감도 값 및 에너지 값을 사용하여 주파수 대역에 대한 마스킹 임계값을 컴퓨팅하도록 하며;
에너지 값과 마스킹 임계값을 사용하여 주파수 대역의 비트 할당 값을 결정하도록; 더 구성되는 장치.
EEE36. EEE35에 있어서, 분석 컴포넌트는 확산 함수를:
주파수 대역들에 대한 에너지 값들; 또는
주파수 대역들의 변환된 에너지 값들; 중 하나에 적용함으로써,
주파수 대역에 대한 여기(excitation) 값을 결정하도록 하고,
감도 값을 여기 값과 결합함으로써,
마스킹 임계값을 컴퓨팅하도록 구성되는 장치.
EEE37. EEE35에 있어서, 분석 컴포넌트는, 에너지 값과 감도 값을 결합하여 중간 임계값을 결정하도록 하고, 중간 임계값에 분산 함수를 적용하여 마스킹 임계값을 결정하도록 하여 마스킹 임계값을 컴퓨팅 하도록 구성되는 장치.
EEE38. EEE35 내지 EEE37 중 어느 하나에 있어서, 비트 할당 값에 응답하여 주파수 대역에 대한 오디오 데이터의 오디오 샘플들을 양자화하도록 구성된 인코딩 컴포넌트를 더 포함하며, 인코더가 되는 장치.
EEE39. EEE38에 있어서, 인코딩 컴포넌트는 주파수 대역의 양자화된 오디오 데이터를 비트스트림으로 인코딩하도록 추가로 구성되는 장치.
EEE40. EEE35 내지 EEE37 중 어느 하나에 있어서, 오디오 신호는 주파수 대역에 대한 인코딩된 에너지 값을 포함하는 인코딩된 비트스트림이고, 인코딩된 비트스트림으로부터 인코딩된 에너지 값을 디코딩하도록 구성된 디코딩 컴포넌트를 더 포함하고, 분석 컴포넌트는 에너지 값을 결정할 때 디코딩된 에너지 값을 사용하며, 디코더가 되는 장치.
EEE41. EEE40에 있어서, 디코딩 컴포넌트는 비트 할당 값에 응답하여 인코딩된 비트스트림으로부터 주파수 대역에 대한 오디오 데이터의 양자화된 오디오 샘플들을 추출하도록 구성되는 장치.
EEE42. EEE41에 있어서, 디코딩 컴포넌트는 또한 주파수 대역에 대한 오디오 데이터의 양자화된 오디오 샘플들을 역양자화(dequantize)하고 각 주파수 대역에 대한 오디오 데이터의 역양자화된 오디오 샘플들을 결합하여 디코딩된 오디오 신호를 생성하도록 더 구성된 장치.
EEE43. EEE35 내지 EEE42 중 어느 한 항에 있어서, 분석 컴포넌트는: 비트 할당 값을 결정할 때 오디오 신호에 대한 타겟 비트레이트를 만족시키는 비트 할당을 달성하기 위해 마스킹 임계값을 조정하도록 구성되는 장치.
EEE44. EEE43에 있어서, 분석 컴포넌트는: 마스킹 임계값을 조정할 때, 오디오 신호에 대한 타겟 비트레이트가 만족될 때까지 음량 영역의 마스킹 임계값에 일정한 오프셋을 더하여 마스킹 임계값을 조정하도록 구성되는 장치.
EEE45. EEE35 내지 EEE44 중 어느 하나에 있어서, 분석 컴포넌트는 에너지 값, 조용한 상태에서 청각 임계값 및 데시벨, dB에 대한 마스킹 임계값을 규정하도록 구성되는 장치.
EEE46. EEE35 내지 EEE45 중 어느 하나에 있어서, 분석 컴포넌트는 ERB(Equivalent Rectangular Bandwidth) 스케일에 따라 오디오 신호의 복수의 주파수 대역들을 결정하도록 구성되는 장치.
EEE47. EEE36 또는 EEE36에 종속되는 경우 EEE37 내지 EEE46 중 어느 하나에 있어서, SV는 여기 값에 감산(subtractive) 조정으로서의 dB에 대해 규정되며, 분석 컴포넌트는 더 낮은 SV를 갖는 상기 주파수 대역과 비교하여 더 높은 SV를 갖는 주파수 대역에 대해 더 많은 비트들을 할당하여 비트 할당 값을 결정하도록 구성되는 장치.
EEE48. EEE35 내지 EEE47 중 어느 하나에 있어서, 분석 컴포넌트는 감각 레벨을 사용하여 제1 SV를 계산함으로써 주파수 대역에 대한 SV를 계산하도록 구성되며, 감각 레벨은 dB 스케일에 대하여 에너지 값과 조용한 상태에서의 청각 임계값 사이의 차이인 것인 장치.
EEE49. EEE48에 있어서, 분석 컴포넌트는 감각 레벨을 제1 스칼라와 곱하여 제1 SV를 계산하도록 구성된 장치.
EEE50. EEE49에 있어서, 제1 스칼라는 주파수에 종속적인 장치.
EEE51. EEE49에 있어서, 제1 스칼라는 모든 주파수 대역들에 걸쳐 일정한 것인 장치.
EEE52. EEE49 내지 EE51에 있어서, 분석 컴포넌트는 제1 스칼라를 곱한 감각 레벨에 제2 스칼라를 더함으로써 제1 SV를 계산하도록 구성되는 장치.
EEE53. EEE48 내지 EEE52 중 어느 하나에 있어서, 분석 컴포넌트는 주파수 대역에 대한 SV로서 제1 SV를 사용하여 SV를 계산하도록 구성되는 장치.
EEE54. EEE48 내지 EEE52 중 어느 하나에 있어서, 분석 컴포넌트는 감각 레벨을 사용하여 제2 SV를 더 계산하고 오디오 신호의 적어도 하나의 특성에 기초하여 제1 및 제2 SV에 가중치를 부여하여 주파수 대역에 대한 SV를 계산하도록 구성되는 장치.
EEE55. EEE54에 있어서, 분석 컴포넌트는 제1 스칼라와 다른 제3 스칼라와 감각 레벨을 곱함으로써 주파수 대역에 대한 제2 SV를 계산하도록 구성되는 장치.
EEE56. EEE55에 있어서, 분석 컴포넌트는 제3 스칼라를 곱한 감각 레벨에 제4 스칼라 - 제4 스칼라는 제2 스칼라와 다름 - 를 더함으로써 제2 SV를 계산하도록 구성된 장치.
EEE57. EEE54 내지 EEE55 중 어느 하나에 있어서, 분석 컴포넌트는 가중치를 나타내는 값을 계산함으로써 오디오 신호의 적어도 하나의 특성에 기초하여 제1 및 제2 SV에 가중치를 부여하고, 값은 0-1 사이의 범위이며, 제1 및 제2 SV 중 하나에 이 값을 곱하고 제1 또는 제2 SV 중 다른 하나에 1에서 이 값을 뺀 값을 곱하며, 두 결과 합들을 함께 더하여 주파수 대역에 대한 SV를 형성하도록 하여 주파수 대역에 대한 SV를 계산하는것을 수행하도록 구성되는 장치.
EEE58. EEE54 내지 EEE57 중 어느 하나에 있어서, 적어도 하나의 특성은 오디오 신호의 주파수 대역의 추정된 조성을 규정하는 장치.
EEE59. EEE54 내지 EEE57 중 어느 하나에 있어서, 적어도 하나의 특성은 오디오 신호의 주파수 대역의 추정된 노이즈의 레벨을 규정하는 장치.
EEE60. EEE58에 있어서, 분석 컴포넌트는 오디오 신호의 주파수 대역으로부터 계산된 주파수 계수들의 적응적 예측을 사용하여 추정된 조성을 계산하도록 구성되는 장치.
EEE61. EEE60의 장치에서, 분석 컴포넌트는 MDCT 계수들이 계산되는 오디오 신호의 주파수 대역에 기초하여 MDCT 계수들에 LPC를 적응적으로 적용하도록 구성되는 장치.
EEE62. EEE61에 있어서, LPC 분석 윈도우 길이는 주파수 대역의 함수로서 변동하는 장치.
EEE63. EEE62에 있어서, 상대적으로 더 낮은 주파수 대역들에 대해 상대적으로 더 긴 LPC 분석 윈도우가 사용되는 장치.
EEE64. EEE62 내지 EEE63 중 어느 하나에 있어서, LPC의 예측 순서는 주파수 대역의 함수로서 변동하는 장치.
EEE65. EEE35 내지 EEE64 중 어느 하나에 있어서, 오디오 신호의 주파수 범위는 200-7000Hz 인 장치.
EEE66. EEE35 내지 EEE65 중 어느 하나에 있어서, 메모리를 더 포함하고, 메모리는 적어도 일부 주파수들에 대해 조용한 상태에서 청각 임계값을 규정하는 테이블을 저장하고, 분석 컴포넌트는 미리 규정된 테이블을 사용하여 주파수 대역에 대한 조용한 상태의 청각 임계값을 결정하도록 구성되는 장치.
EEE67. EEE38 또는 EEE38에 종속되는 임의의 다른 EEE에 있어서, 주파수 대역들에 대한 오디오 데이터의 오디오 샘플들을 양자화하기 전에 컴팬딩 알고리즘을 사용하여 오디오 신호의 동적 범위를 감소시키도록 구성된 컴팬딩 컴포넌트를 더 포함하는 장치.
EEE68. EEE48 또는 EEE48에 종속되는 경우 EEE49 내지 EEE67 중 어느 하나에 있어서, 분석 컴포넌트는 상대적으로 더 높은 감각 레벨을 갖는 주파수 대역에서의 분산 함수의 효과가 상대적으로 더 낮은 감각 레벨을 갖는 주파수 대역에서의 분산 함수의 효과에 비해 더 크도록 하는 감각 레벨에 따라 달라지는 주파수 대역에 대한 분산 함수를 정의하도록 구성되는 장치.
EEE69. EEE35 내지 EEE67 중 어느 하나에 있어서, 실시간 양-방향 통신 장치에서 구현되는 장치.
EEE70. 입력 신호의 조성을 추정하는 방법에 있어서,
주파수 계수들의 세트를 달성하기 위해 필터뱅크를 적용하는 단계; 및
주파수 계수들의 적응적 예측을 사용하여 추정된 조성을 계산하는 단계;를 포함하는 방법.
EEE71. EEE70에 있어서, 추정된 조성을 계산하는 단계는 주파수 계수들이 계산되는 오디오 신호의 주파수 대역에 기초하여 주파수 계수들에 적응적 선형 예측을 적용하는 것을 포함하는 방법.
EEE72. EEE70에 있어서, LPC 분석 윈도우 길이는 주파수 대역의 함수로서 변동하는 방법.
EEE73. EEE72에 있어서, 상대적으로 더 낮은 주파수 대역들에 대해 상대적으로 더 긴 LPC 분석 윈도우가 사용되는 방법.
EEE74. EEE72 내지 EEE73 중 어느 하나에 있어서, LPC의 예측 순서는 주파수 대역의 함수로서 변동하는 방법.
EEE75. EEE70 내지 EEE74 중 어느 하나에 있어서, 필터뱅크는: 128-대역 복소 MDCT 또는 DFT 필터뱅크 및 64-대역 복소 QMF 필터뱅크 중 하나를 포함하는 방법.
EEE76. EEE71 내지 EEE73 중 어느 하나에 있어서, LPC 분석 윈도우가 비대칭 해밍 윈도우인 방법.
EEE77. EEE70 내지 EEE76 중 어느 하나에 있어서,
각 예측가능성 측정의 상대적인 지각 중요도에 따라 적응적 예측으로부터 예측가능성 측정들에 가중치를 부여하는 단계를 포함하는 방법.
EEE78. EEE77에 있어서, 각각의 시간-주파수 타일(tile) 내에 포함된 예측가능성 측정들에 가중치를 부여하는 단계는: 입력 신호의 음량 또는 에너지에 기초하여 가중치를 부여하는 것 중 하나를 포함하는 방법.
EEE79. EEE70 내지 EEE78 중 어느 하나에 있어서,
필터뱅크의 시간 및 주파수 해상도를 일치시키기 위해 주파수 계수들의 적응적 예측으로부터 예측가능성 측정들을 결합하는 단계를 더 포함하는 방법.
EEE80. EEE2 또는 EEE2에 종속되는 경우 EEE4 내지 EEE34 중 어느 하나에 있어서, 감도 값과 여기 값은 데시벨인 dB로 규정되고, 결합하는 단계는 여기 값에서 감도 값을 감산하는 것을 포함하거나, 감도 값 및 여기 값은 강도 스케일로 규정되고 결합 단계는 여기 값과 감도 값의 몫을 컴퓨팅하는 것을 포함하는 방법.
EEE81. EEE3 또는 EEE3에 종속되는 경우 EEE4 내지 EEE34 중 어느 하나에 있어서, 에너지 값과 감도 값은 데시벨인 dB로 규정되고, 결합하는 단계는 에너지 값에서 감도 값을 감산하는 것을 포함하거나, 에너지 값 및 감도 값은 강도 스케일로 규정되고 결합 단계는 에너지 값과 감도 값의 몫을 컴퓨팅하는 것을 포함하는 방법.
EEE82. EEE1 내지 EEE34 중 어느 하나에 있어서, 감도 값을 계산하는 단계는 주파수 대역의 에너지 값과 주파수 대역에 대한 조용한 상태에서 청각 임계값 사이의 비율 또는 차이를 계산하는 것을 포함하는 방법.
EEE83. 처리 능력을 갖는 장치에 의해 실행될 때, EEE1 내지 EEE34 또는 EEE80 내지 EEE82 중 어느 하나의 방법을 수행하기 위해 적응된 명령어들을 갖는 컴퓨터-판독가능 저장 매체를 포함하는 컴퓨터 프로그램 제품.
EEE84. 처리 능력을 갖는 장치에 의해 실행될 때, EEE70 내지 EEE79 중 어느 하나의 방법을 수행하기 위해 적응된 명령어들을 갖는 컴퓨터-판독가능 저장 매체를 포함하는 컴퓨터 프로그램 제품.
EEE85. EEE36 또는 EEE36에 종속되는 경우 EEE38 내지 EEE69 중 어느 하나에 있어서, 감도 값과 여기 값은 데시벨인 dB로 규정되고, 결합하는 단계는 여기 값에서 감도 값을 감산하는 것을 포함하거나, 감도 값 및 여기 값은 강도 스케일로 규정되고 결합 단계는 여기 값과 감도 값의 몫을 컴퓨팅하는 것을 포함하는 장치.
EEE86. EEE37 또는 EEE37에 종속되는 경우 EEE38 내지 EEE69 중 어느 하나에 있어서, 에너지 값과 감도 값은 데시벨인 dB로 규정되고, 결합하는 단계는 에너지 값에서 감도 값을 감산하는 것을 포함하거나, 에너지 값 및 감도 값은 강도 스케일로 규정되고 결합 단계는 에너지 값과 감도 값의 몫을 컴퓨팅하는 장치.

Claims (30)

  1. 복수의 주파수 대역들에서 오디오 데이터를 포함하는 오디오 신호를 처리하는 방법에 있어서,
    상기 복수의 주파수 대역들의 각 주파수 대역에 대해:
    상기 주파수 대역의 상기 오디오 데이터에 대한 에너지 값을 결정하는 단계;
    상기 주파수 대역에 대해 조용한 상태에서 청각 임계값을 결정하는 단계;
    상기 에너지 값과 조용한 상태에서 상기 청각 임계값을 사용하여 상기 주파수 대역에 대한 감도 값인 SV를 계산하는 단계;
    상기 감도 값 및 상기 에너지 값을 사용하여 상기 주파수 대역에 대한 마스킹 임계값을 컴퓨팅하는 단계; 및
    상기 에너지 값 및 상기 마스킹 임계값을 사용하여 상기 주파수 대역의 비트 할당 값을 결정하는 단계
    를 포함하는, 방법.
  2. 제1항에 있어서,
    상기 감도 값을 계산하는 단계는 상기 주파수 대역의 상기 에너지 값과 상기 주파수 대역에 대한 조용한 상태에서 상기 청각 임계값 사이의 비율(ratio) 또는 차이를 계산하는 단계를 포함하는, 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 마스킹 임계값을 컴퓨팅하는 단계는 분산(spreading) 함수를:
    상기 주파수 대역들에 대한 상기 에너지 값들; 또는
    상기 주파수 대역들의 변환된 에너지 값들;
    중 하나에 적용하여,
    상기 주파수 대역에 대한 여기(excitation) 값을 결정하고,
    상기 감도 값을 상기 여기 값과 결합하는 단계
    를 포함하는, 방법.
  4. 제1항 또는 제2항에 있어서,
    상기 마스킹 임계값을 컴퓨팅하는 단계는 상기 에너지 값과 상기 감도 값을 결합하여 중간 임계값을 결정하는 단계 및 분산 함수를 상기 중간 임계값에 적용하여 상기 마스킹 임계값을 결정하는 단계를 포함하는, 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 비트 할당 값을 결정하는 것은 상기 오디오 신호에 대한 타겟 비트레이트(bitrate)를 만족시키는 비트 할당을 달성하기 위해 상기 마스킹 임계값을 조정하는 단계를 포함하고, 상기 마스킹 임계값을 조정하는 단계는:
    상기 오디오 신호에 대한 상기 타겟 비트레이트가 만족될 때까지 음량 영역(loudness domain)의 상기 마스킹 임계값에 일정한 오프셋(offset)을 더하여 상기 마스킹 임계값을 조정하는 단계를 포함하는 방법.
  6. 제3항 또는 제4항 및 제5항 중 어느 한 항에 있어서, 제3항에 종속되는 경우, 상기 SV는 상기 여기 값으로의 감산(subtractive) 조정으로서의 dB로 규정되며, 상기 비트 할당 값을 결정하는 단계는 더 낮은 SV를 갖는 상기 주파수 대역과 비교하여 더 높은 SV를 갖는 주파수 대역에 대해 더 많은 비트들을 할당하는 단계를 포함하는 방법.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, 상기 주파수 대역에 대한 SV를 계산하는 단계는 감각(sensation) 레벨을 사용하여 제1 SV를 계산하는 단계를 포함하고, 상기 감각 레벨은 상기 dB 스케일에서 상기 에너지 값과 조용한 상태에서 상기 청각 임계값 사이의 차이인, 방법.
  8. 제7항에 있어서,
    상기 제1 SV를 계산하는 단계는 상기 감각 레벨을 제1 스칼라(scalar)와 곱하는 단계를 포함하는, 방법.
  9. 제8항에 있어서, 상기 제1 스칼라는 주파수에 종속적인, 방법.
  10. 제8항에 있어서,
    상기 제1 스칼라는 모든 주파수 대역들에 걸쳐 일정한, 방법.
  11. 제7항 내지 제10항 중 어느 한 항에 있어서,
    상기 SV를 계산하는 단계는 상기 주파수 대역에 대한 상기 SV로서 상기 제1 SV를 사용하는 단계를 포함하는, 방법.
  12. 제7항 내지 제10항 중 어느 한 항에 있어서,
    상기 주파수 대역에 대한 SV를 계산하는 단계는, 상기 감각 레벨을 사용하여 제2 SV를 계산하고 상기 오디오 신호의 적어도 하나의 특성에 기초하여 상기 제1 및 제2 SV에 가중치를 부여하는 단계를 포함하는, 방법.
  13. 제12항에 있어서,
    상기 주파수 대역에 대한 제2 SV를 계산하는 단계는 상기 제1 스칼라와 상이한 제3 스칼라와 상기 감각 레벨을 곱하는 단계를 포함하는, 방법.
  14. 제12항 또는 제13항에 있어서,
    상기 오디오 신호의 적어도 하나의 특성에 기초하여 상기 제1 및 제2 SV에 가중치를 부여하는 단계는 상기 가중치를 나타내는 값을 계산하는 단계를 포함하며, 상기 값은 0 내지 1의 범위이고, 상기 주파수 대역에 대한 상기 SV를 계산하는 단계는, 상기 제1 및 상기 제2 SV 중 하나에 상기 값을 곱하고, 상기 제1 또는 상기 제2 SV 중 다른 하나에 1에서 상기 값을 뺀 것을 곱하고, 상기 두 결과 합들을 함께 더하여 상기 주파수 대역에 대한 상기 SV를 형성하는 단계를 포함하는, 방법.
  15. 제12항 내지 제14항에 있어서,
    상기 적어도 하나의 특성은 상기 오디오 신호의 상기 주파수 대역에서 추정된 조성(tonality) 레벨을 규정하는, 방법.
  16. 제15항에 있어서,
    상기 추정된 조성은 상기 오디오 신호의 상기 주파수 대역으로부터 계산된 주파수 계수들의 적응적(adaptive) 예측을 사용하여 계산되는, 방법.
  17. 제16항에 있어서,
    MDCT 계수들이 계산되는 상기 오디오 신호의 주파수 대역에 기초하여 선형 예측 코딩(LPC; linear predictive coding)이 상기 MDCT 계수들에 적응적으로 적용되는, 방법.
  18. 제17항에 있어서,
    상기 주파수 대역의 함수로서 LPC 분석 윈도우 길이가 변동하는, 방법.
  19. 제18항에 있어서,
    상대적으로 더 낮은 주파수 대역들에 대해 상대적으로 더 긴 LPC 분석 윈도우가 사용되는, 방법.
  20. 제17항 내지 제19항 중 어느 한 항에 있어서,
    상기 LPC의 예측 순서는 상기 주파수 대역의 함수로서 변동하는, 방법.
  21. 제7항 내지 제20항 중 어느 한 항에 있어서,
    상대적으로 더 높은 감각 레벨을 갖는 주파수 대역에서의 분산 함수의 효과가, 상대적으로 더 낮은 감각 레벨을 갖는 주파수 대역에서의 상기 분산 함수의 효과에 비해 더 크도록, 상기 감각 레벨에 따라 상기 주파수 대역에 대한 분산 함수를 정의하는 단계를 더 포함하는, 방법.
  22. 제1항 내지 제21항 중 어느 한 항에 있어서,
    상기 주파수 대역에 대한 조용한 상태에서 청각 임계값을 결정하는 단계는 적어도 일부 주파수들에 대한 상기 청각 임계값을 규정하는 미리 규정된 테이블을 사용하는 단계를 포함하는, 방법.
  23. 제1항 내지 제22항 중 어느 한 항에 있어서,
    상기 비트 할당값에 응답하여 상기 주파수 대역의 상기 오디오 데이터의 오디오 샘플들을 양자화하는 단계를 더 포함하는, 방법.
  24. 제23항에 있어서,
    상기 주파수 대역의 상기 양자화된 오디오 데이터를 비트스트림(bitstream)으로 인코딩(encoding)하는 단계를 더 포함하는, 방법.
  25. 제23항 또는 제24항에 있어서,
    상기 주파수 대역들의 상기 오디오 데이터의 오디오 샘플들을 양자화하기 전에 컴팬딩(companding) 알고리즘을 사용하여 상기 오디오 신호의 동적 범위가 감소되는, 방법.
  26. 제1항 내지 제22항 중 어느 한 항에 있어서,
    상기 오디오 신호는 상기 주파수 대역에 대한 인코딩된(encoded) 에너지 값을 포함하는 인코딩된 비트스트림이고, 상기 주파수 대역의 상기 오디오 데이터에 대한 상기 에너지 값을 결정하는 것은 상기 인코딩된 비트스트림으로부터 상기 인코딩된 에너지 값을 디코딩하는 단계를 포함하는, 방법.
  27. 제26항에 있어서,
    상기 비트 할당 값에 응답하여 상기 인코딩된 비트스트림으로부터 상기 주파수 대역의 상기 오디오 데이터의 양자화된 오디오 샘플들을 추출하는 단계를 더 포함하는, 방법.
  28. 제27항에 있어서,
    상기 주파수 대역의 상기 오디오 데이터의 상기 양자화된 오디오 샘플들을 역양자화(dequantizing)하고, 각 주파수 대역의 상기 오디오 데이터의 상기 역양자화된 오디오 샘플들을 결합하여 디코딩된 오디오 신호를 생성하는 단계를 더 포함하는, 방법.
  29. 장치로서,
    복수의 주파수 대역들의 오디오 데이터를 포함하는 오디오 신호를 수신하도록 구성된 수신 컴포넌트(component); 및
    상기 오디오 신호의 복수의 주파수 대역들을 결정하도록 구성된 분석 컴포넌트;
    를 포함하며,
    상기 분석 컴포넌트는, 상기 복수의 주파수 대역들의 각각의 주파수 대역에 대해;
    상기 주파수 대역의 상기 오디오 데이터에 대한 에너지 값을 결정하고;
    상기 주파수 대역에 대해 조용한 상태에서 청각 임계값을 결정하고;
    상기 에너지 값과 조용한 상태에서 상기 청각 임계값을 사용하여 상기 주파수 대역에 대한 감도 값 SV를 계산하고;
    상기 감도 값 및 상기 에너지 값을 사용하여 상기 주파수 대역에 대한 마스킹 임계값을 컴퓨팅하고;
    상기 에너지 값과 상기 마스킹 임계값을 사용하여 상기 주파수 대역의 비트 할당 값을 결정하도록 더 구성되는, 장치.
  30. 처리 능력을 갖는 장치에 의해 실행될 때 제1항 내지 제28항 중 어느 한 항의 방법을 수행하도록 적응된 명령어들을 갖는 컴퓨터-판독가능 저장 매체를 포함하는, 컴퓨터 프로그램 제품.
KR1020227019032A 2019-12-05 2020-12-03 오디오 처리를 위한 심리음향 모델 KR20220108069A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962943903P 2019-12-05 2019-12-05
US62/943,903 2019-12-05
EP19213742.0 2019-12-05
EP19213742 2019-12-05
PCT/US2020/062962 WO2021113416A1 (en) 2019-12-05 2020-12-03 A psychoacoustic model for audio processing

Publications (1)

Publication Number Publication Date
KR20220108069A true KR20220108069A (ko) 2022-08-02

Family

ID=74004147

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227019032A KR20220108069A (ko) 2019-12-05 2020-12-03 오디오 처리를 위한 심리음향 모델

Country Status (7)

Country Link
US (1) US20220415334A1 (ko)
EP (1) EP4070309A1 (ko)
JP (1) JP2023505446A (ko)
KR (1) KR20220108069A (ko)
CN (1) CN114762042A (ko)
BR (1) BR112022010200A2 (ko)
WO (1) WO2021113416A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240066586A (ko) 2022-11-08 2024-05-16 한국전자통신연구원 복소수 양자화를 이용하는 오디오 신호의 부호화 및 복호화 방법 및 장치

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020157888A1 (ja) * 2019-01-31 2020-08-06 三菱電機株式会社 周波数帯域拡張装置、周波数帯域拡張方法、及び周波数帯域拡張プログラム
WO2024008928A1 (en) * 2022-07-07 2024-01-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Masking threshold determinator, audio encoder, method and computer program for determining a masking threshold information
CN115171709B (zh) * 2022-09-05 2022-11-18 腾讯科技(深圳)有限公司 语音编码、解码方法、装置、计算机设备和存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20240066586A (ko) 2022-11-08 2024-05-16 한국전자통신연구원 복소수 양자화를 이용하는 오디오 신호의 부호화 및 복호화 방법 및 장치

Also Published As

Publication number Publication date
WO2021113416A1 (en) 2021-06-10
EP4070309A1 (en) 2022-10-12
BR112022010200A2 (pt) 2022-08-09
US20220415334A1 (en) 2022-12-29
CN114762042A (zh) 2022-07-15
JP2023505446A (ja) 2023-02-09

Similar Documents

Publication Publication Date Title
KR20220108069A (ko) 오디오 처리를 위한 심리음향 모델
RU2226032C2 (ru) Улучшение перцепционной характеристики дублирования полосы спектра и связанных способов кодирования высокочастотного восстановления путем адаптивного добавления минимального уровня шума и ограничения подстановки шумов
RU2494477C2 (ru) Устройство и способ генерирования выходных данных расширения полосы пропускания
JP6207404B2 (ja) 高周波数の再構成方法を使用するコーディング・システムの性能拡大方法
RU2573246C2 (ru) Устройство и способ модификации входного аудиосигнала
US8032371B2 (en) Determining scale factor values in encoding audio data with AAC
US8391212B2 (en) System and method for frequency domain audio post-processing based on perceptual masking
US8972270B2 (en) Method and an apparatus for processing an audio signal
US7328151B2 (en) Audio decoder with dynamic adjustment of signal modification
JP7203179B2 (ja) 高位周波数帯域における検出されたピークスペクトル領域を考慮してオーディオ信号を符号化するオーディオ符号器、オーディオ信号を符号化する方法、及びコンピュータプログラム
RU2583717C1 (ru) Способ и система кодирования аудиоданных с адаптивной низкочастотной коррекцией
JP4021124B2 (ja) デジタル音響信号符号化装置、方法及び記録媒体
RU2625945C2 (ru) Устройство и способ для генерирования сигнала с улучшенным спектром, используя операцию ограничения энергии
US20130024201A1 (en) Adaptive tuning of the perceptual model
US8010370B2 (en) Bitrate control for perceptual coding
US20060004565A1 (en) Audio signal encoding device and storage medium for storing encoding program
JPH08223052A (ja) 音声高能率符号化装置
JP2007004050A (ja) ステレオ信号の符号化装置及び符号化プログラム
JP2001148632A (ja) 符号化装置、符号化方法、及びその記録媒体
JPH0746137A (ja) 音声高能率符号化装置
JP2005003835A (ja) オーディオ信号符号化装置、オーディオ信号符号化方法、及びプログラム

Legal Events

Date Code Title Description
A201 Request for examination