KR102299193B1 - 상부 주파수 대역에서 검출된 피크 스펙트럼 영역을 고려하여 오디오 신호를 부호화하는 오디오 인코더, 오디오 신호를 부호화하는 방법, 및 컴퓨터 프로그램 - Google Patents

상부 주파수 대역에서 검출된 피크 스펙트럼 영역을 고려하여 오디오 신호를 부호화하는 오디오 인코더, 오디오 신호를 부호화하는 방법, 및 컴퓨터 프로그램 Download PDF

Info

Publication number
KR102299193B1
KR102299193B1 KR1020187032551A KR20187032551A KR102299193B1 KR 102299193 B1 KR102299193 B1 KR 102299193B1 KR 1020187032551 A KR1020187032551 A KR 1020187032551A KR 20187032551 A KR20187032551 A KR 20187032551A KR 102299193 B1 KR102299193 B1 KR 102299193B1
Authority
KR
South Korea
Prior art keywords
frequency band
spectral
lower frequency
shaping
amplitude
Prior art date
Application number
KR1020187032551A
Other languages
English (en)
Other versions
KR20180134379A (ko
Inventor
마르쿠스 물트루스
크리스티안 네우캄
마르쿠스 슈넬
벤자민 슈베르트
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20180134379A publication Critical patent/KR20180134379A/ko
Application granted granted Critical
Publication of KR102299193B1 publication Critical patent/KR102299193B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/03Spectral prediction for preventing pre-echo; Temporary noise shaping [TNS], e.g. in MPEG2 or MPEG4
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/028Noise substitution, i.e. substituting non-tonal spectral components by noisy source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

하부 주파수 대역 및 상부 주파수 대역을 갖는 오디오 신호를 부호화하는 오디오 인코더로서, 오디오 신호의 상부 주파수 대역의 피크 스펙트럼 영역을 검출하는 검출부; 하부 대역에 대한 성형 정보를 사용하여 상기 하부 주파수 대역을 성형하고 상기 하부 대역에 대한 상기 성형 정보의 적어도 일부를 사용하여 상부 주파수 대역을 성형하기 위한 성형기(804); 성형된 하부 주파수 대역 및 성형된 상부 주파수 대역을 양자화하고, 성형된 하부 주파수 대역 및 성형된 상부 주파수 대역으로부터 양자화된 스펙트럼 값을 엔트로피 코딩하기위한 양자화기 및 코더 단(806)을 포함하되, 상기 성형기(804)는 상기 상부 주파수 대역에서 상기 검출된 피크 스펙트럼 영역의 스펙트럼 값을 추가적으로 감쇠하도록 구성된, 오디오 인코더가 개시된다.

Description

상부 주파수 대역에서 검출된 피크 스펙트럼 영역을 고려하여 오디오 신호를 부호화하는 오디오 인코더, 오디오 신호를 부호화하는 방법, 및 컴퓨터 프로그램
본 발명은 오디오 인코딩에 관한 것으로, 바람직하게는 EVS 코덱에서의 MDCT 기반 TCX에 대한 스펙트럼 계수들의 양자화를 제어하는 오디오 인코딩 방법, 장치 또는 컴퓨터 프로그램에 관한 것이다.
EVS 코덱에 대한 참조 문서는 3GPP TS 24.445 V13.1.0(2016-03), 3rd generation partnership project; Technical Specification Group Services and System Aspects; Codec for Enhanced Voice Services(EVS); Detailed algorithmic description(release 13)이다.
하지만, 본 발명은 예를 들어, 릴리즈 13 외에 다른 릴리즈들에 의해 정의된 바와 같은 다른 EVS 버전들에서도 또한 유용하며, 추가적으로, 본 발명은, 예를 들어 청구범위에서 정의된 바와 같은, 검출기, 성형기(shaper), 및 양자화기 및 코더 단(coder stage)을 포함하는 EVS와는 다른 모든 오디오 인코더들에서도 또한 유용하다.
부가적으로, 독립항뿐만 아니라 종속항들에 의해 정의된 모든 실시예들이, 청구범위의 상호 의존성에 의해 서술되는 바와 같이 또는 바람직한 실시예들에서 후술되는 바와 같이 서로 개별적으로 또는 함께 사용될 수 있다.
3GPP에 명시된 EVS 코덱[1]은 협대역(narrow-band; NB), 광대역(wide-band; WB), 초광대역(super-wide-band; SWB) 또는 풀 대역(full-band; FB) 음성 및 오디오용 최신 하이브리드 코덱이며, 신호 분류를 기반으로 여러 코딩 방식 간에 전환할 수 있다.
본 발명의 목적은 개선된 오디오 인코딩 개념을 제공하는 것이다.
이러한 목적은 청구항 1의 오디오 인코더, 청구항 25의 오디오 신호를 인코딩하는 방법 또는 청구항 26의 컴퓨터 프로그램에 의해 달성된다.
본 발명은 오디오 인코더에 포함된 양자화기 및 코더 단의 특정 특성에 따라 인코딩될 오디오 신호를 전처리함으로써 이러한 종래 기술의 문제점을 해결할 수 있다는 발견에 기초한다. 이를 위해, 오디오 신호의 상부 주파수 대역에서 피크 스펙트럼 영역이 검출된다. 그 다음, 하부 대역에 대한 성형 정보를 이용하여 하부 주파수 대역을 성형하고, 하부 대역에 대한 성형 정보의 적어도 일부를 사용하여 상부 주파수 대역을 성형하는 성형기가 사용된다. 특히, 성형기는 또한, 검출된 피크 스펙트럼 영역에서, 즉 오디오 신호의 상부 주파수 대역에서 검출기에 의해 검출된 피크 스펙트럼 영역에서 스펙트럼 값들을 감쇠시키도록 구성된다. 그 다음, 형성된 하부 주파수 대역 및 감쇠된 상부 주파수 대역이 양자화되고 엔트로피-부호화된다.
본 발명의 바람직한 실시예는 시간 프레임에 대한 선형 예측 계수를 도출하기 위한 선형 예측 분석기를 포함하고, 이러한 선형 예측 계수는 성형 정보를 나타내거나 성형 정보는 선형 예측 계수로부터 도출된다.
추가 실시예에서, 몇몇 성형 팩터들은 하부 주파수 대역의 몇몇 서브대역들에 대해 계산되고, 상부 주파수 대역에서의 가중을 위해, 하부 주파수 대역의 최고 서브대역에 대해 계산된 성형 팩터가 사용된다.
추가 실시예에서, 검출기는 조건들의 그룹 중 적어도 하나가 참일 때 상부 주파수 대역에서 피크 스펙트럼 영역을 결정하는데, 여기서 조건들의 그룹은 적어도 하부 주파수 대역 진폭 조건, 피크 거리 조건 및 피크 진폭 조건을 포함한다. 더욱 바람직하게, 피크 스펙트럼 영역은 두 조건이 동시에 참일 때만 검출되고, 더욱 바람직하게 피크 스펙트럼 영역은 세 조건 모두가 참일 때만 검출된다.
또 다른 실시예에서, 검출기는 추가의 감쇠를 사용해 또는 추가 감쇠 없이 성형 동작 전 또는 후에 조건들을 검사하기 위해 사용되는 여러 값들을 결정한다.
일 실시예에서, 성형기는 감쇠 팩터(attenuation factor)를 사용하여 스펙트럼 값들을 추가로 감쇠하는데, 이 감쇠 팩터는, 1이상인 미리 결정된 수가 곱해지고 상부 주파수 대역의 최대 스펙트럼 진폭으로 나누어진, 하부 주파수 대역의 최대 스펙트럼 진폭으로부터 유도된다.
또한, 추가적인 감쇠가 어떻게 적용되는지에 대한 특정 방식은 여러 가지 다른 방식으로 수행될 수 있다. 한 가지 방법은 검출된 피크 스펙트럼 영역에서 스펙트럼 값을 형성하기 위해 성형기가 먼저 하부 주파수 대역에 대한 성형 정보의 적어도 일부를 사용하여 가중 정보를 수행하는 것이다. 그런 다음 감쇠 정보를 사용하여 후속 가중 연산이 수행된다.
대안적인 절차는 먼저 감쇠 정보를 사용하여 가중 연산을 적용하고 하부 주파수 대역에 대한 성형 정보의 적어도 일부에 대응하는 가중 정보를 사용하여 후속 가중을 수행하는 것이다. 다른 대안은 한편으로는 감쇠 및 다른 한편으로는 하부 주파수 대역에 대한 성형 정보의 부분으로부터 도출된 결합된 가중 정보를 사용하여 단일 가중 정보를 적용하는 것이다.
가중(weighting)이 곱셈을 사용하여 수행되는 상황에서, 감쇠 정보는 감쇠 팩터이고, 성형 정보는 성형 팩터이고 실제 결합된 가중 정보는 가중 계수, 즉 단일 가중 정보에 대한 단일 가중 팩터이며, 이 단일 가중 팩터는 하부 대역에 대한 감쇠 정보 및 성형 정보를 곱함으로써 유도된다. 따라서, 성형기가 여러 가지 다른 방식으로 구현될 수 있음이 분명해졌지만, 그럼에도 불구하고 그 결과는 하부 대역의 성형 정보와 추가 감쇠를 사용하여 고주파 대역을 형성하는 결과를 낳는다.
일 실시예에서, 양자화기 및 코더 단은 엔트로피 인코딩된 오디오 신호의 미리 결정된 비트레이트가 얻어지도록 양자화기 특성을 추산하는 레이트 루프 프로세서를 포함한다. 일 실시예에서, 이 양자화기 특성은 전체 이득, 즉 전체 주파수 범위에 적용되는, 즉 양자화되고 인코딩될 모든 스펙트럼 값에 적용되는 이득 값이다. 필요한 비트레이트가 특정 전역 이득을 사용하여 얻은 비트레이트보다 낮은 것으로 나타나면, 전역 이득이 증가되고 실제 비트레이트가 요구 사항과 일치하는지, 즉, 요구된 비트레이트 이하인지 결정된다. 이 절차는 스펙트럼 이득들이 전역 이득으로 나눠지는 방식으로 양자화 전에 인코더에서 전역 이득이 사용될 때 수행된다. 그러나 전역 이득이 다르게 사용되는 경우, 즉 양자화를 수행하기 전에 스펙트럼 값들에 전역 이득을 곱하면, 실제 비트레이트가 너무 높을 때 전역 이득이 감소하며 실제 비트레이트가 허용치 아래일 경우 전역 이득이 증가될 수 있다.
본 발명의 실시예들은 오디오 인코더에 포함된 양자화기 및 코더 단의 특정 특성에 따라 인코딩될 오디오 신호를 전처리함으로써, 종래 기술의 문제점을 해결할 수 있다.
도 1은 EVS에서의 공통 프로세싱 및 상이한 코딩 방식을 도시한다.
도 2는 인코더-측의 TCX에서의 잡음-성형 및 부호화의 원리를 도시 한 도면이다.
도 3은 역 LPC 성형 이득의 적용 전의 임계 프레임의 MDCT 스펙트럼을 도시한다.
도 4는 도 3의 상황을 도시하지만, LPC 성형 이득이 적용된 상태를 도시한다.
도 5는 fCELP 위의 높은 피크가 명확하게 가시적인, 역 LPC 성형 이득의 적용 후의 임계 프레임의 MDCT 스펙트럼을 도시한다.
도 6은 하이 패스 정보만을 가지며 로우 패스 정보를 갖지 않는 양자화 후의 임계 프레임의 MDCT 스펙트럼을 도시한다.
도 7은 역 LPC 성형 이득 및 본 발명의 인코더 측 전처리 후의 임계 프레임의 MDCT 스펙트럼을 도시한다.
도 8은 오디오 신호를 인코딩하기 위한 오디오 인코더의 바람직한 실시예를 도시한다.
도 9는 여러 주파수 대역들에 대한 상이한 성형 정보 및 상부 대역에 대한 하부 대역 성형 정보의 사용에 대한 상황을 도시한다.
도 10은 오디오 인코더의 바람직한 실시예를 도시한다.
도 11은 피크 스펙트럼 영역을 검출하기 위한 검출기의 기능을 설명하는 순서도이다.
도 12는 저 대역 진폭 조건의 구현의 바람직한 일 구현예를 도시한다.
도 13은 피크 거리 조건의 구현의 바람직한 일 실시예를 도시한다.
도 14는 피크 진폭 조건의 구현의 바람직한 일 구현예를 도시한다.
도 15a는 양자화기 및 코더단의 바람직한 일 구현예를 도시한다.
도 15b는 레이트 루프 프로세서로서 양자화기 및 코더 단의 동작을 설명하는 흐름도이다.
도 16은 바람직한 일 실시예에서 감쇠 팩터를 결정하는 결정 절차를 도시한다.
도 17은 2 개의 연속하는 단계들에서 하부 주파수 성형 정보를 상부 주파수 대역에 적용하고 성형된 스펙트럼 값들의 추가 감쇠를 적용하는 바람직한 구현예를 도시한다.
도 1은 EVS에서의 공통 프로세싱 및 상이한 코딩 방식을 나타낸다. 특히, 도 1의 인코더의 공통 프로세싱부는 신호 재샘플링 블록(101) 및 신호 분석 블록(102)을 포함한다. 오디오 입력 신호는 오디오 신호 입력(103)에서 공통 프로세싱부, 특히 신호 재샘플링 블록(101)으로 입력된다. 신호 재샘플링 블록(101)은 커맨드 라인 파라미터를 수신하기 위한 커멘드 라인 입력을 추가로 갖는다. 도 1에 도시된 바와 같이 공통 프로세싱부의 출력은 여러 구성요소들로 입력된다. 특히, 도 1은 선형 예측 기반 코딩 블록(LP 기반 코딩)(110), 주파수 도메인 코딩 블록(120) 및 비활성 신호 코딩/CNG 블록( 130)을 포함한다. 또한, 블록들(110, 120, 130)은 비트스트림 멀티플렉서(140)에 연결된다. 추가적으로, 스위치(150)가 분류기 결정에 따라 공통 프로세싱 스테이지의 출력을, LP 기반 코딩 블록(110), 주파수 도메인 코딩 블록(120), 또는 비활성 신호 코딩/ CNG(comfort noise generation) 블록 (130) 중 어느 하나로 스위칭하도록 제공된다. 또한, 비트스트림 멀티플렉서(140)는 분류 정보, 즉 블록 103에서 입력되고 공통 프로세싱부에 의해 처리되는 입력 신호의 특정 현재 부분이 블록들(110, 120, 130) 중 어느 것을 사용하여 인코딩되었는지를 수신한다.
- CELP 코딩과 같은 LP-기반(선형 예측 기반) 코딩은 주로 음성(speech) 또는 음성-지배적인 컨텐츠 및 높은 시간적 변동을 갖는 일반적인 오디오 컨텐츠에 사용된다.
- 주파수 도메인 코딩은 음악이나 백그라운드 노이즈 같은 다른 모든 일반 오디오 컨텐츠에 사용된다.
저/중간 비트레이트로 최대 품질을 제공하기 위해, 공통 처리 모듈의 신호 분석을 기반으로 LP 기반 코딩과 주파수 도메인 코딩 간의 빈번한 전환이 수행된다. 복잡성을 줄이기 위해 코덱은 후속 모듈에서도 신호 분석 단계의 요소를 재사용하도록 최적화되었다. 예를 들어, 신호 분석 모듈에는 LP 분석 단계가 있다. 결과적인 LP-필터 계수(LPC)와 잔여 신호는 첫째, 보이스 활성도 검출기(VAD; Voice Activity Detector) 또는 음성(speech)/음악(music) 분류기와 같은 여러 신호 분석 단계에 사용된다. 두 번째로, LPC는 LP 기반 코딩 방식 및 주파수 도메인 코딩 방식의 기본 요소이기도 하다. 복잡성을 줄이기 위해 LP 분석은 CELP 코더(SRCELP)의 내부 샘플링 레이트로 수행된다.
CELP 코더는 12.8 또는 16 kHz 내부 샘플링-레이트(SRCELP)로 작동하므로 최대 6.4 또는 8 kHz 오디오 대역폭을 직접 표현할 수 있다. WB, SWB 또는 FB에서 이 대역폭을 초과하는 오디오 콘텐츠의 경우, CELP의 주파수 표현을 넘어서는 오디오 콘텐츠는 대역폭-확장 메커니즘으로 코딩된다.
MDCT-기반 TCX는 주파수 도메인 코딩의 서브 모드이다. LP 기반 코딩 방식과 마찬가지로 TCX의 노이즈-성형(shaping)은 LP 필터를 기반으로 수행된다. 이 LPC 성형은 가중되고 양자화된 LP 필터 계수로부터 계산된 이득 계수를 MDCT 스펙트럼(디코더 측)에 적용함으로써 MDCT 영역에서 수행된다. 인코더 측에서는 레이트 루프 전에 역 이득 팩터(inverse gain factors)가 적용된다. 이것은 이후에 LPC 성형 이득의 적용으로 지칭된다. TCX는 입력 샘플링 레이트(SRinp)에서 동작한다. 이는 추가적인 대역폭 확장 없이 MDCT 도메인에서 직접 전체 스펙트럼을 코딩하는 데 이용된다. MDCT 변환이 수행되는 입력 샘플링 레이트 SRinp는 LP 계수가 계산되는 CELP 샘플링 레이트 SRCELP 보다 높을 수 있다. 따라서 LPC 성형 이득은 CELP 주파수 범위(fCELP)에 해당하는 MDCT 스펙트럼의 부분에 대해서만 계산될 수 있다. 스펙트럼의 나머지 부분(있는 경우)에 대해서는 최고 주파수 대역의 성형 이득이 사용된다.
도 2는 LPC 성형 이득의 적용 및 MDCT 기반 TCX에 대한 하이 레벨 표현을 도시한다. 특히, 도 2는 인코더 측에서 도 1의 TCX 또는 주파수 도메인 코딩 블록(120)에서의 잡음-성형 및 코딩의 원리를 도시한다.
특히, 도 2는 인코더의 개략적인 블록도를 도시한다. 입력 신호(103)는 CELP 샘플링 레이트 SRCELP , 즉 도 1의 LP 기반 코딩 블록(110)에 의해 요구되는 샘플링 레이트로 신호의 리샘플링을 수행하기 위해 리샘플링 블록(201)에 입력된다. 또한, LPC 파라미터를 계산하는 LPC 계산기(203)가 제공되고, 블록(205)에서는, 신호, 즉, ACELP 프로세서를 사용하여 인코딩된 LPC 잔여 신호가 도 1의 LP-기반 코딩 블록(110)에 의해 추가 처리되도록 LPC-기반 가중이 수행된다.
추가적으로, 입력 신호(103)는, 리샘플링 없이, MDCT 변환으로서 예시적으로 도시된 시간-스펙트럼 변환기(207)로 입력된다. 또한, 블록 209에서, 블록 203에 의해 계산된 LPC 파라미터는 몇몇 계산들 후에 적용된다. 특히, 블록 209는 블록 203으로부터 계산된 LPC 파라미터를 라인(213)을 통해 또는 선택적으로 또는 추가로 블록(205)으로부터 수신하여 MDCT 또는, 일반적으로, 스펙트럼 도메인 가중 팩터들을 유도함으로써, 대응하는 역 LPC 성형 이득을 적용한다. 이후, 블록 211에서, 예를 들어, 전역 이득을 조정하고, 또한, 바람직하게는 도시된 바와 같이 최종적으로 비트스트림을 얻기 위해 잘 알려진 EVS 인코더 사양에 도시된 바와 같은 산술적 코딩을 이용하여, 스펙트럼 계수들의 양자화/코딩을 수행하는, 레이트 루프일 수 있는 일반적인 양자화기/인코더 동작이 수행된다.
SRCELP 의 코어 코더와 더 높은 샘플링 레이트로 동작하는 대역폭 확장 메커니즘을 결합한 CELP 코딩 방식과 달리, MDCT 기반의 코딩 방식은 입력 샘플링 레이트 SRinp에서 직접 동작하고 MDCT 영역의 전체 스펙트럼의 콘텐츠를 코딩한다.
MDCT 기반 TCX는 9.6 또는 13.2 kbit/s SWB와 같은, 낮은 비트레이트에서 최대 16 kHz 오디오 컨텐츠를 코딩한다. 이러한 낮은 비트레이트에서 스펙트럼 계수의 작은 부분집합만이 산술 부호화기에 의해 직접 코딩될 수 있기 때문에, 스펙트럼에서 생성된 갭(0 값의 영역)은 이하 2 가지 메커니즘에 의해 은폐된다:
- 디코딩된 스펙트럼에 임의의 노이즈를 삽입하는 노이즈 필링(Noise Filling). 노이즈의 에너지는 비트스트림에서 전송되는 이득 계수에 의해 제어된다.
- 스펙트럼의 하부 주파수 부분의 신호 부분을 삽입하는 인텔리전트 갭 필링(Intelligent Gap Filling; IGF). 이러한 삽입된 주파수 부분의 특성들은 파라미터들에 의해 제어되며, 이들은 비트스트림에서 전송된다.
노이즈 필링은 하부 주파수 부분에 대해 최고 주파수까지 사용될 수 있으며, 전송된 LPC(fCELP)로 제어할 수 있다. 이 주파수보다 높으면 삽입된 주파수 부분의 레벨을 제어하는 다른 메커니즘을 제공하는 IGF 도구가 사용된다.
스펙트럼 계수가 인코딩 절차에서 생존하는지 또는 노이즈 필링 또는 IGF로 대체될지 결정하는 이하의 두 가지 메커니즘이 있다:
1) 레이트 루프(Rate loop)
역 LPC 성형 이득의 적용 후에, 레이트 루프가 적용된다. 이를 위해 전역 이득이 추정된다. 이어서, 스펙트럼 계수가 양자화되고, 양자화된 스펙트럼 계수가 산술 부호화기로 부호화된다. 산술 부호화기 및 양자화 오차의 실제 또는 추정된 비트-요구에 기초하여, 전역 이득이 증가되거나 감소된다. 이것은 양자화기의 정밀도에 영향을 미친다. 정밀도가 낮을수록 더 많은 스펙트럼 계수가 0으로 양자화된다. 레이트 루프 전에 가중된 LPC를 사용하여 역 LPC 성형 이득을 적용하면 지각적으로 관련이 있는 콘텐츠가 지각적으로 관련이 없는 콘텐츠보다 상당히 높은 확률로 생존할 수 있다.
2) IGF 음조 마스크(IGF Tonal mask)
LPC가 가용하지 않은 fCELP 위쪽에서는 지각적으로 연관된 스펙트럼 요소들을 식별하는 다른 메커니즘이 사용된다. 라인-형(Line-wise) 에너지는 IGF 영역의 평균 에너지와 비교된다. 지각적으로 관련 있는 신호 부분에 해당하는 주된 스펙트럼 라인들은 유지되고 다른 모든 라인들은 제로로 설정된다. IGF 음조 마스크로 전처리된 MDCT 스펙트럼이 이어서 레이트 루프로 공급된다.
가중된 LPC는 신호의 스펙트럼 포락선을 따른다. 가중된 LPC를 사용하여 역 LPC 성형 이득을 적용함으로써, 스펙트럼의 지각적 백색화가 수행된다. 이는 코딩-루프 이전의 MDCT 스펙트럼의 다이내믹(dynamics)을 크게 감소시키며, 따라서 코딩-루프에서 MDCT 스펙트럼 계수들 간의 비트-분포를 제어한다.
위에서 설명한 것처럼 fCELP 위의 주파수에서는 가중된 LPC가 유효하지 않다. 이러한 MDCT 계수들에 대해, fCELP 아래에서 최고 주파수 대역의 성형 이득이 적용된다. 이는 fCELP 아래에서 최고 주파수 대역의 성형 이득이 fCELP 위쪽에서 계수들의 에너지와 대략 상응하는 경우에 효과적인데, 이것은 종종 스펙트럼 틸트(tilt)에 기인하며 대부분의 오디오 신호에서 볼 수 있다. 따라서, 상부 대역에 대한 성형 정보가 계산되거나 전송될 필요가 없어, 이 절차가 유리하다.
하지만, fCELP 위에서 강한 스펙트럼 요소들이 있고 fCELP 아래에서 최고 주파수 대역의 성형 이득이 매우 낮으면 불일치가 발생한다. 이러한 불일치는 최대 진폭을 갖는 스펙트럼 계수에 초점을 둔 작업 또는 레이트 루프에 크게 영향을 미친다. 이것은 특히 저-대역에서, 낮은 비트레이트에서 나머지 신호 요소들을 0으로 감소시키고, 지각적으로 나쁜 품질을 초래할 것이다.
도 3 내지 6이 이러한 문제를 도시한다. 도 3은 역 LPC 성형 이득을 적용하기 전의 절대 MDCT 스펙트럼을, 도 4는 해당 LPC 성형 이득을 도시한다. fCELP 위에서 강한 피크들이 확인되며, 이들은 fCELP 아래에서 최고 피크와 같은 크기 순서이다. fCELP 위에서 스펙트럼 요소들은 IGF 색조 마스크를 사용하여 전처리한 결과이다. 도 5는 양자화 이전에 역 LPC 이득을 적용한 후의 절대 MDCT 스펙트럼을 보여준다. 이제 fCELP 위의 피크들은 fCELP 아래의 피크를 크게 초과하여 레이트-루프가 주로 이러한 피크에 집중되는 효과를 가지게 된다. 도 6은 낮은 비트레이트에서의 레이트 루프의 결과를 도시한다: fCELP 위의 피크들을 제외한 모든 스펙트럼 요소들은 0으로 양자화되었다. 이러한 결과는, 낮은 주파수에서 지각적으로 매우 연관된 신호 부분들이 완전히 누락되어, 전체 디코딩 프로세스 후에 지각적으로 매우 열악한 결과를 초래한다.
도 3은 역 LPC 성형 이득을 적용하기 전에 임계 프레임(critical frame)의 MDCT 스펙트럼을 도시한다.
도 4는 적용된 LPC 성형 이득을 도시한다. 인코더 측에서 스펙트럼은 역 이득으로 곱해진다. 마지막 이득 값은 fCELP 위의 모든 MDCT 계수들에 사용된다. 도 4는 오른쪽 경계에서의 fCELP 를 나타낸다.
도 5는 역 LPC 성형 이득의 적용 후의 임계 프레임의 MDCT 스펙트럼을 도시한다. fCELP 위의 높은 피크가 명확하게 드러난다.
도 6은 양자화 후의 임계 프레임의 MDCT 스펙트럼을 도시한다. 표시된 스펙트럼은 전역 이득의 적용을 포함하지만 LPC 성형 이득은 포함하지 않는다. fCELP 위의 피크를 제외한 모든 스펙트럼 계수들는 0으로 양자화되는 것을 볼 수 있다.
본 발명의 목적은 개선된 오디오 인코딩 개념을 제공하는 것이다.
이러한 목적은 청구항 1의 오디오 인코더, 청구항 25의 오디오 신호를 인코딩하는 방법 또는 청구항 26의 컴퓨터 프로그램에 의해 달성된다.
본 발명은 오디오 인코더에 포함된 양자화기 및 코더 단의 특정 특성에 따라 인코딩될 오디오 신호를 전처리함으로써 이러한 종래 기술의 문제점을 해결할 수 있다는 발견에 기초한다. 이를 위해, 오디오 신호의 상부 주파수 대역에서 피크 스펙트럼 영역이 검출된다. 그 다음, 하부 대역에 대한 성형 정보를 이용하여 하부 주파수 대역을 성형하고, 하부 대역에 대한 성형 정보의 적어도 일부를 사용하여 상부 주파수 대역을 성형하는 성형기가 사용된다. 특히, 성형기는 또한, 검출된 피크 스펙트럼 영역에서, 즉 오디오 신호의 상부 주파수 대역에서 검출기에 의해 검출된 피크 스펙트럼 영역에서 스펙트럼 값들을 감쇠시키도록 구성된다. 그 다음, 형성된 하부 주파수 대역 및 감쇠된 상부 주파수 대역이 양자화되고 엔트로피-부호화된다.
상부 주파수 대역이 선택적으로, 즉 검출된 피크 스펙트럼 영역 내에서 감쇠되었기 때문에, 이 검출된 피크 스펙트럼 영역이 양자화기 및 코더 단의 동작을 더 이상 완전히 지배할 수는 없다.
대신에, 감쇠가 오디오 신호의 상부 주파수 대역에서 형성되었기 때문에, 인코딩 동작의 결과의 전반적인 지각적인(perceptual) 품질이 개선된다. 특히 낮은 비트레이트가 양자화기 및 코더 단의 주요 타겟인 경우, 코더가 높은 상부 주파수 부분들에 의해 가이드되고 그에 따라 이러한 부분들에서 유효한 비트들을 대부분 소비할 것이기 때문에, 상부 대역의 높은 스펙트럼 피크는 양자화기 및 코더 단에서 요구되는 모든 비트들을 소비할 것이다. 이는 자동적으로 지각적으로 보다 중요한 하부 주파수 범위에 대한 비트가 더 이상 이용가능하지 않은 상황을 야기한다. 따라서, 이러한 절차는, 하부 주파수 부분들이 전혀 코딩되지 않거나 또는 매우 조악하게만 인코딩되고, 인코딩된 고주파 부분들만을 갖는 신호를 초래할 것이다. 하지만, 이러한 절차는, 고 스펙트럼 영역들을 갖는 문제적 상황이 검출되고 고주파수 범위의 피크들이 양자화기 및 엔트로피 인코더 단을 포함하는 인코더 절차를 수행하기 전에 감쇠되는 경우에 비해 지각적으로 즐겁지 않은 상황임이 밝혀졌다.
바람직하게는, 피크 스펙트럼 영역은 MDCT 스펙트럼의 상부 주파수 대역에서 검출된다. 하지만, 필터 뱅크, QMF 필터 뱅크, DFT, FFT 또는 임의의 다른 시간-주파수 변환과 같은 다른 시간-스펙트럼 변환기도 사용될 수 있다.
또한, 본 발명은 상부 주파수 대역에 대하여, 성형 정보를 계산할 필요가 없다는 점에서 유용하다. 대신, 하부 주파수 대역에 대해 계산된 성형 정보가 상부 주파수 대역을 성형하는 데 사용된다. 따라서, 본 발명은 하부 대역 형성 정보가 또한 상부 대역을 형성하는 데 사용될 수 있기 때문에 계산상 매우 효율적인 인코더를 제공하는데, 그 이유는 이러한 상황, 즉, 상부 주파수 대역의 높은 스펙트럴 값들로부터 야기될 수 있는 문제가, 예를 들어, 하부 대역 신호에 대한 LPC 파라미터들에 의해 특성화될 수 있는 하부 대역 신호의 스펙트럼 포락선에 일반적으로 기초하는 직접적인 성형에 부가하여 성형기에 의해 부가적으로 적용되는 추가 감쇠에 의해 다루어지기 때문이다. 하지만, 스펙트럼 포락선은 스펙트럼 도메인에서 성형을 수행하는 데 사용될 수 있는 다른 대응 측정치에 의해 표현될 수도 있다.
양자화기 및 코더 단은 성형된 신호, 즉 성형된 저 대역 신호 및 성형된 고 대역 신호에 대해 양자화 및 코딩 동작을 수행하지만, 성형된 고 대역 신호는 부가적으로 추가 감쇠를 받는다.
검출된 피크 스펙트럼 영역에서 고 대역의 감쇠가 더 이상 디코더에 의해 복구될 수 없는 전처리 동작이지만, 디코더의 결과는 그럼에도 불구하고 추가적인 감쇠가 적용되지 않는 상황에 비해 보다 긍정적인데, 이는 감쇠가 지각적으로 더 중요한 하부 주파수 대역에 대한 비트들이 잔류한다는 사실을 도출하기 때문이다. 따라서, 피크를 갖는 상부 스펙트럼 영역이 전체 코딩 결과를 지배할 수 있는 문제의 상황에서, 본 발명은 이러한 피크의 추가적인 감쇠를 제공하여 결국 인코더는 감쇠된 고주파수를 갖는 신호를 "보게" 되고, 따라서, 인코딩된 신호는 여전히 유용하고 지각적으로 유쾌한 하부 주파수 정보를 갖는다. 높은 스펙트럼 대역에 대한 "희생"은 청취자 눈에 띄지 않거나 거의 눈에 띄지 않는데, 청취자는 일반적으로 신호의 고주파수 콘텐츠에 대한 명확한 그림이 없고 훨씬 높은 확률로 하부 주파수 콘텐츠에 대해 기대치를 갖기 때문이다. 즉, 매우 낮은 레벨의 하부 주파수 성분을 갖지만 상당한 고주파 성분을 갖는 신호는 일반적으로 부자연스러운 것으로 인식되는 신호이다.
본 발명의 바람직한 실시예는 시간 프레임에 대한 선형 예측 계수를 도출하기 위한 선형 예측 분석기를 포함하고, 이러한 선형 예측 계수는 성형 정보를 나타내거나 성형 정보는 선형 예측 계수로부터 도출된다.
추가 실시예에서, 몇몇 성형 팩터들은 하부 주파수 대역의 몇몇 서브대역들에 대해 계산되고, 상부 주파수 대역에서의 가중을 위해, 하부 주파수 대역의 최고 서브대역에 대해 계산된 성형 팩터가 사용된다.
추가 실시예에서, 검출기는 조건들의 그룹 중 적어도 하나가 참일 때 상부 주파수 대역에서 피크 스펙트럼 영역을 결정하는데, 여기서 조건들의 그룹은 적어도 하부 주파수 대역 진폭 조건, 피크 거리 조건 및 피크 진폭 조건을 포함한다. 더욱 바람직하게, 피크 스펙트럼 영역은 두 조건이 동시에 참일 때만 검출되고, 더욱 바람직하게 피크 스펙트럼 영역은 세 조건 모두가 참일 때만 검출된다.
또 다른 실시예에서, 검출기는 추가의 감쇠를 사용해 또는 추가 감쇠 없이 성형 동작 전 또는 후에 조건들을 검사하기 위해 사용되는 여러 값들을 결정한다.
일 실시예에서, 성형기는 감쇠 팩터(attenuation factor)를 사용하여 스펙트럼 값들을 추가로 감쇠하는데, 이 감쇠 팩터는, 1이상인 미리 결정된 수가 곱해지고 상부 주파수 대역의 최대 스펙트럼 진폭으로 나누어진, 하부 주파수 대역의 최대 스펙트럼 진폭으로부터 유도된다.
또한, 추가적인 감쇠가 어떻게 적용되는지에 대한 특정 방식은 여러 가지 다른 방식으로 수행될 수 있다. 한 가지 방법은 검출된 피크 스펙트럼 영역에서 스펙트럼 값을 형성하기 위해 성형기가 먼저 하부 주파수 대역에 대한 성형 정보의 적어도 일부를 사용하여 가중 정보를 수행하는 것이다. 그런 다음 감쇠 정보를 사용하여 후속 가중 연산이 수행된다.
대안적인 절차는 먼저 감쇠 정보를 사용하여 가중 연산을 적용하고 하부 주파수 대역에 대한 성형 정보의 적어도 일부에 대응하는 가중 정보를 사용하여 후속 가중을 수행하는 것이다. 다른 대안은 한편으로는 감쇠 및 다른 한편으로는 하부 주파수 대역에 대한 성형 정보의 부분으로부터 도출된 결합된 가중 정보를 사용하여 단일 가중 정보를 적용하는 것이다.
가중(weighting)이 곱셈을 사용하여 수행되는 상황에서, 감쇠 정보는 감쇠 팩터이고, 성형 정보는 성형 팩터이고 실제 결합된 가중 정보는 가중 계수, 즉 단일 가중 정보에 대한 단일 가중 팩터이며, 이 단일 가중 팩터는 하부 대역에 대한 감쇠 정보 및 성형 정보를 곱함으로써 유도된다. 따라서, 성형기가 여러 가지 다른 방식으로 구현될 수 있음이 분명해졌지만, 그럼에도 불구하고 그 결과는 하부 대역의 성형 정보와 추가 감쇠를 사용하여 고주파 대역을 형성하는 결과를 낳는다.
일 실시예에서, 양자화기 및 코더 단은 엔트로피 인코딩된 오디오 신호의 미리 결정된 비트레이트가 얻어지도록 양자화기 특성을 추산하는 레이트 루프 프로세서를 포함한다. 일 실시예에서, 이 양자화기 특성은 전체 이득, 즉 전체 주파수 범위에 적용되는, 즉 양자화되고 인코딩될 모든 스펙트럼 값에 적용되는 이득 값이다. 필요한 비트레이트가 특정 전역 이득을 사용하여 얻은 비트레이트보다 낮은 것으로 나타나면, 전역 이득이 증가되고 실제 비트레이트가 요구 사항과 일치하는지, 즉, 요구된 비트레이트 이하인지 결정된다. 이 절차는 스펙트럼 이득들이 전역 이득으로 나눠지는 방식으로 양자화 전에 인코더에서 전역 이득이 사용될 때 수행된다. 그러나 전역 이득이 다르게 사용되는 경우, 즉 양자화를 수행하기 전에 스펙트럼 값들에 전역 이득을 곱하면, 실제 비트레이트가 너무 높을 때 전역 이득이 감소하며 실제 비트레이트가 허용치 아래일 경우 전역 이득이 증가될 수 있다.
하지만, 특정 레이트 루프 조건에서도 다른 인코더 단 특성들이 사용될 수 있다. 한 가지 방법은 예를 들어, 주파수 선택적 이득이 될 수 있다. 추가적인 절차는 필요한 비트레이트에 따라 오디오 신호의 대역폭을 조정하는 것이 될 것이다. 일반적으로, 서로 다른 양자화기 특성들이 영향을 받아 결국, 요구되는(일반적으로 낮은) 비트레이트와 일치하는 비트레이트가 얻어진다.
바람직하게, 이 절차는 특히 지능형 갭 필링 프로세싱(IGF 프로세싱)와 결합되는 데 적합하다. 이 절차에서, 음조(tonal) 마스크 프로세서가, 상부 주파수 대역에서, 양자화되고 엔트로피 인코딩될 제1 그룹의 스펙트럼 값들 및 갭-필링 절차에 의해 파라메트릭하게 인코딩될 제2 그룹의 스펙트럼 값들을 결정하는 데 적용된다. 음조 마스크 프로세서는 제2 그룹의 스펙트럼 값들을 0 값들으로 설정하여 이들 값이 양자화기/인코더 단에서 많은 비트를 소모하지 않도록 한다. 반면, 양자화되고 엔트로피 코딩될 제1 그룹의 스펙트럼 값들에 속하는 값들은 통상적으로, 특정 환경 하에서, 양자화기/인코더 단에 대해 문제가 되는 상황에서 검출되고 추가적으로 감쇠될 수 있는 피크 스펙트럼 영역 내의 값들이다. 그러므로, 지능형 갭-필링 프레임워크 내의 음조 마스크 프로세서와 검출된 피크 스펙트럼 영역의 추가적인 감쇠의 조합은, 부가적으로 역-호환가능하고, 그럼에도 불구하고 매우 낮은 비트레이트에서도 양호한 지각적 품질을 초래하는 매우 효율적인 인코더 절차를 도출한다.
실시예들은 LPC 또는 다른 수단의 주파수 범위를 확장하여 fCELP 위의 주파수에 적용된 이득이 실제 MDCT 스펙트럼 계수들에 더 적합하도록 하는 방법들을 포함하는 이 문제를 해결하기 위한 잠재적 해결책보다 유리하다. 그러나, 이 절차는 코덱이 이미 시장에 배포되어 있는 경우 이전 버전과의 역 호환성을 없애고 이전에 설명한 방법은 기존 구현들에 대한 상호운용성(interoperability)을 손상시킬 것이다.
이하에서, 본 발명의 바람직한 실시예들이 첨부된 도면과 관련하여 설명된다.
도 8은 하부 주파수 대역 및 상부 주파수 대역을 갖는 오디오 신호(403)를 인코딩하기 위한 오디오 인코더의 바람직한 일 실시예를 도시한다. 오디오 인코더는 오디오 신호(103)의 상부 주파수 대역에서 피크 스펙트럼 영역을 검출하기 위한 검출기(802)를 포함한다. 또한, 오디오 인코더는 하부 대역에 대한 성형 정보를 사용하여 하부 주파수 대역을 성형하고 하부 주파수 대역에 대한 성형 정보의 적어도 일부를 사용하여 상부 주파수 대역을 성형하는 성형기(804)를 포함한다. 부가적으로, 성형기는 상부 주파수 대역에서 검출된 피크 스펙트럼 영역의 스펙트럼 값들을 추가로 감쇠하도록 구성된다.
따라서, 성형기(804)는 저-대역용 성형 정보를 사용하여 저-대역에서 일종의 "단일 성형"을 수행한다. 또한, 성형기는 저-대역 및 통상적으로 최고 주파수 저-대역에 대한 성형 정보를 사용하여 고-대역에서 일종의 "단일" 성형을 추가적으로 수행한다. 이 "단일" 성형은 검출기(802)에 의해 피크 스펙트럼 영역이 검출되지 않은 고-대역의 몇몇 실시예에서 수행된다. 또한, 고-대역 내의 피크 스펙트럼 영역에 대해, 일종의 “더블”성형이 수행되는데, 저-대역으로부터의 성형 정보가 피크 스펙트럼 영역에 적용되고, 추가적으로 피크 스펙트럼 영역에 추가 감쇠가 적용된다.
성형기(804)의 결과는 성형된 신호(805)이다. 성형된 신호는 성형된 하부 주파수 대역 및 성형된 상부 주파수 대역이고, 성형된 상부 주파수 대역은 피크 스펙트럼 영역을 포함한다. 이 성형된 신호(805)는, 인코딩된 오디오 신호(814)를 획득하기 위해, 성형된 하부 주파수 대역 및 피크 스펙트럼 영역을 포함하는 성형된 상부 주파수 대역을 양자화하고, 성형된 하부 주파수 대역 및 피크 스펙트럼 영역을 포함하는 성형된 상부 주파수로부터의 양자화된 스펙트럼 값들을 엔트로피 코딩하는 양자화기 및 코더 단(806)으로 다시 포워딩된다.
바람직하게는, 오디오 인코더는 시간 프레임에서 오디오 샘플들의 블록을 분석함으로써 오디오 신호의 시간 프레임에 대한 선형 예측 계수들을 유도하는 선형 예측 코딩 분석기(808)를 포함한다. 바람직하게는, 이들 오디오 샘플들은 하부 주파수 대역으로 대역 제한된다.
부가적으로, 성형기(804)는 도 8의 812에 도시된 바와 같은 성형 정보로서 선형 예측 계수를 사용하여 하부 주파수 대역을 성형하도록 구성된다. 부가적으로, 성형기(804)는, 오디오 신호의 시간 프레임에서 상부 주파수 대역을 형성하기 위해 하부 주파수 대역으로 대역-제한된 오디오 샘플들의 블록으로부터 파생된, 선형 예측 계수들의 적어도 일부를 사용하도록 구성된다.
도 9에 도시된 바와 같이, 하부 주파수 대역은 바람직하게는, 예를 들어 4 개의 서브대역들(SB1, SB2, SB3 및 SB4)과 같은 복수의 서브대역으로 세분된다. 또한, 개략적으로 도시된 바와 같이, 서브대역 폭은 하위 서브대역으로부터 높은 서브대역으로 이동할수록 증가하는데, 즉, 서브대역 SB4는 서브대역SB1보다 주파수 면에서 더 넓다. 그러나, 다른 실시예들에서는, 동일한 대역폭을 갖는 대역들 또한 사용될 수 있다.
서브대역들(SB1 내지 SB4)은 예를 들어 fCELP 인 경계 주파수까지 연장된다. 따라서, 경계 주파수 fCELP 아래의 모든 서브대역들은 하부 대역을 구성하고, 경계 주파수 이상의 주파수 콘텐츠는 상부 대역을 구성한다.
특히, 도 8의 LPC 분석기(808)는 전형적으로 각 서브대역에 대한 성형 정보를 개별적으로 계산한다. 따라서, 바람직하게는 LPC 분석기(808)는 4 개의 서브대역들(SB1 내지 SB4)에 대한 4 개의 상이한 종류의 서브대역 정보를 계산하여 각 서브대역이 해당 관련 성형 정보를 갖는다.
또한, 성형은 정확하게 해당 서브대역에 대해 계산된 성형 정보를 사용하여 각각의 서브대역(SB1 내지 SB4)에 대한 성형기(804)에 의해 적용되고, 중요하게는 상부 대역에 대한 성형이 또한 행해지지만, 상기 성형 정보를 계산하는 선형 예측 분석기가 하부 주파수 대역으로 제한된 대역 제한된 신호 대역을 수신하기 때문에 상부 대역에 대한 성형 정보는 계산되지 않는다. 그럼에도 불구하고, 상부 주파수 대역에 대한 성형을 수행하기 위해서 서브대역 SB4에 대한 성형 정보가 상부 대역을 성형하는 데 사용된다. 따라서, 성형기(804)는 하부 주파수 대역의 최고 서브대역에 대해 계산된 성형 팩터를 사용하여 상부 주파수 대역의 스펙트럼 계수들을 가중하도록 구성된다. 도 9의 SB4에 대응하는 최고 서브대역은 하부 주파수 대역의 서브대역들의 모든 중심 주파수들 중에서 가장 높은 중심 주파수를 갖는다.
도 11은 검출기(802)의 기능을 설명하는 바람직한 순서도이다. 특히, 검출기(802)는 조건들의 그룹 중 적어도 하나가 참일 때 상부 주파수 대역에서 피크 스펙트럼 영역을 결정하도록 구성되고, 여기서 조건들의 그룹은 저-대역 진폭 조건(1102), 피크 거리 조건(1104) 및 피크 진폭 조건(1106)을 포함한다.
바람직하게는, 정확히 도 11에 도시된 순서로 다른 조건들이 적용된다. 다시 말하면, 저 대역 진폭 조건(1102)은 피크 거리 조건(1104) 이전에 계산되고, 피크 거리 조건은 피크 진폭 조건(1106) 전에 계산된다. 피크 스펙트럼 영역을 검출하기 위해 3 가지 조건 모두가 참이어야 하는 상황에서, 계산적으로 효율적인 검출기는 도 11의 순차 처리를 적용함으로써 얻어지며, 여기서 특정 조건이 참이 아니라면, 즉, 거짓이면, 특정 시간 프레임에 대한 검출 프로세스가 중단되고, 이 시간 프레임에서 피크 스펙트럼 영역의 감쇠가 요구되지 않는 것으로 결정된다. 따라서, 특정 시간 프레임 동안 저-대역 진폭 조건(1102)이 충족되지 않은 것으로 즉, 거짓인 것으로 결정되면, 제어는 이 시간 프레임에서 피크 스펙트럼 영역의 감쇠가 필요하지 않는다는 결론으로 진행하고, 추가적인 감쇠 없이 절차가 진행된다. 하지만, 제어기가 조건 1102가 참이라고 결정하면, 제2 조건(1104)이 결정된다. 이 피크 거리 조건은 피크 진폭(1106) 이전에 다시 결정되어, 조건(1104)이 거짓이라는 결과를 도출할 때 제어가 피크 스펙트럼 영역의 감쇠가 수행되지 않는 것으로 결정한다. 피크 거리 조건(1104)이 참인 결과를 가질 때에만, 제 3 피크 진폭 조건(1106)이 결정된다.
다른 실시예에서는, 배터리로 작동하는 모바일 애플리케이션에서 특히 가치가 있는 연산 리소스를 절약하기 위해 도 11에 예시적으로 예시된 순차적인 결정이 바람직하기는 하지만, 더 많거나 적은 조건들이 결정될 수 있고 순차적 또는 병렬적 결정이 수행될 수 있다.
도 12, 도 13, 도 14는 조건들 1102, 1104 및 1106에 대한 바람직한 실시예들을 제공한다.
저-대역 진폭 조건에서, 블록 1202에 도시된 바와 같이, 하부 대역에서의 최대 스펙트럼 진폭이 결정된다. 이 값은 max_low이다. 또한, 블록 1204에서, max_high로 표시되는 상부 대역의 최대 스펙트럼 진폭이 결정된다.
블록 1206에서, 블록 1232 및 블록 1234으로부터 결정된 값들은 조건1102의 거짓 또는 참 결과를 얻기 위해 바람직하게는 미리 결정된 수 c1 과 함께 처리된다. 바람직하게는, 블록들 1202 및 1204의 조건들은 하부 대역 정보를 이용한 성형 전에, 즉, 스펙트럼 성형기 804 또는 도 10의 804a에 의해 수행되는 절차 이전에 수행된다.
블록 1206에서 사용된 도 12의 미리 정해진 수 c1 과 관련하여, 값 16이 바람직하지만, 4와 30 사이의 값들 또한 유용하다는 것이 입증되었다.
도 13은 피크 거리 조건의 바람직한 일 실시예를 도시한다. 블록 1302에서, max_low로서 표시되는 하부 대역의 제1 최대 스펙트럼 진폭이 결정된다.
또한, 블록 1304에 도시된 바와 같이 제1 스펙트럼 거리가 결정된다. 이 제1 스펙트럼 거리는 dist_low로 표시된다. 특히, 제1 스펙트럼 거리는, 하부 주파수 대역의 중심 주파수와 상부 주파수 대역의 중심 주파수 사이의 경계 주파수로부터, 블록 1302에 의해 결정된 제1 최대 스펙트럼 진폭의 거리이다. 바람직하게, 경계 주파수는 f_celp이지만, 이 주파수는 앞서 개괄 설명한 바와 같이 임의의 다른 값을 가질 수 있다.
또한, 블록 1306은 max_high 라 불리는 상부 대역의 제2 최대 스펙트럼 진폭을 결정한다. 또한, 제2 스펙트럼 거리(1308)가 결정되어 dist_high로 표시된다. 경계 주파수로부터의 제2 최대 스펙트럼 진폭의 제2 스펙트럼 거리는 바람직하게는, 경계 주파수로서의 스펙트럴 f_celp로 다시 한번 결정된다.
또한, 블록 1310에서, 제1 스펙트럼 거리에 의해 가중되고 1보다 큰 소정의 수에 의해 가중된 제1 최대 스펙트럼 진폭이, 제2 스펙트럼 거리에 의해 가중된 제2 최대 스펙트럼 진폭보다 큰 경우, 피크 거리 조건이 참인지 결정된다.
바람직하게는, 가장 바람직한 구현예에서 미리 정해진 수 c2 는 4와 동일하다. 1.5에서 8 사이의 값이 유용한 것으로 판명되었다.
바람직하게는, 블록 1302 및 블록 1306에서의 결정은 하부 대역 성형 정보를 이용한 성형 후에, 즉 블록 804a에 후속하여, 그러나 물론, 도 10의 블록 804b 이전에, 수행된다.
도 14는 피크 진폭 조건의 바람직한 구현예를 도시한다. 특히, 블록 1402는 하부 대역의 제1 최대 스펙트럼 진폭을 결정하고, 블록 1404는 상부 대역의 제2 최대 스펙트럼 진폭을 결정하며, 블록 1402의 결과는 max_low2로 표시되고 블록 1404의 결과는 max_high로 표시된다.
그 다음, 블록 1406에 도시된 바와 같이, 제2 최대 스펙트럼 진폭이, 1보다 크거나 같은 소정 수 c3에 의해 가중된 제1 최대 스펙트럼 진폭보다 클 때, 피크 진폭 조건이 참이다. c3는 바람직하게는 일반적으로 1.0에서 5.0 사이의 값이 유용한 것으로 입증되었으며 서로 다른 레이트에 따라 1.5의 값 또는 3의 값으로 설정된다.
또한, 도 14에 도시된 바와 같이, 블록들 1402 및 1404에서의 결정은 저-대역 성형 정보를 이용한 성형 이후, 즉 블록 804a 에 도시된 프로세싱에 이어 그리고 블록 804b 전에, 또는 도 17과 관련하여, 블록 1702 이후 및 블록 1704 이전에 발생한다.
다른 실시예들에서, 피크 진폭 조건 1106 및, 특히 도 14의 블록 1402에서 절차는 하부 주파수 대역에서 가장 작은 값, 즉 스펙트럼의 최저 주파수 값으로부터 결정되지 않고, 하부 대역에서의 제1 최대 스펙트럼 진폭의 결정은 소정의 시작 주파수로부터 하부 주파수 대역의 최대 주파수까지 확장되는 하부 대역의 일 부분에 기초하여 결정되는데, 소정의 시작 주파수는 하부 주파수 대역의 최소 주파수보다 크다. 일 실시예에서, 소정의 시작 주파수는 하부 주파수 대역의 최소값 위의 하부 주파수 대역의 적어도 10 %이고, 다른 실시예에서 소정의 시작 주파수는, 최대 주파수의 절반의 ±10% 허용오차 범위 내에서 하부 주파수 대역의 최대 주파수의 절반과 동일한 주파수에 있다.
또한, 제3 소정의 수 c3은 양자화기/코더 단에 의해 제공될 비트레이트에 의존하여, 소정의 수는 더 높은 비트레이트에 대해 더 높다. 즉, 양자화기 및 코더 단(806)에 의해 제공되어야 하는 비트레이트가 높을 때 c3은 높고, 비트레이트가 낮게 결정될 때, 소정의 수 c3은 낮다. 블록 1406에서 바람직한 식이 고려될 때, 소정의 수 c3가 더 높을수록 피크 스펙트럼 영역은 더 드물게 결정된다는 것이 명백해진다. 하지만, c3이 작으면, 최종적으로 감쇠될 스펙트럼 값이 있는 피크 스펙트럼 영역이 더 자주 결정된다.
블록들(1202, 1204, 1402, 1404 또는 1302 및 1306)은 항상 스펙트럼 진폭을 결정한다. 스펙트럼 진폭의 결정은 다르게 수행될 수 있다. 스펙트럼 포락선을 결정하는 한 가지 방법은 실제 스펙트럼의 스펙트럼 값의 절대 값을 결정하는 것이다. 대안으로, 스펙트럼 진폭은 복소 스펙트럼 값의 크기일 수 있다. 다른 실시예에서, 스펙트럼 진폭은 실제 스펙트럼의 스펙트럼 값의 임의의 파워 또는 파워가 1보다 큰 복소 스펙트럼의 크기의 임의의 파워일 수 있다. 바람직하게는, 전력은 정수이지만, 추가적으로 1.5 또는 2.5의 파워가 유용함이 입증되었다. 그럼에도 불구하고, 바람직하게는, 2 또는 3의 파워가 바람직하다.
일반적으로, 성형기(804)는 상부 주파수 대역의 최대 스펙트럼 진폭에 기초하여 및/또는 하부 주파수 대역의 최대 스펙트럼 진폭에 기초하여, 검출된 피크 스펙트럼 영역에서 적어도 하나의 스펙트럼 값을 감쇠시키도록 구성된다. 다른 실시예에서, 성형기는, 하부 주파수 대역의 미리 결정된 시작 주파수로부터 하부 주파수 대역의 최대 주파수까지 연장되는, 하부 주파수 대역의 일부에서 최대 스펙트럼 진폭을 결정하도록 구성된다. 소정의 시작 주파수는 하부 주파수 대역의 최소 주파수보다 크며, 바람직하게는 하부 주파수 대역의 최소 주파수보다 위에서 하부 주파수 대역의 적어도 10 %이거나, 또는 소정의 시작 주파수는 바람직하게는, 최대 주파수의 절밤의 ±10 % 허용 오차범위 내에서, 하부 주파수 대역의 최대 주파수의 절반과 동일한 주파수에 있다.
성형기는 또한 추가 감쇠를 결정하는 감쇠 팩터를 결정하도록 구성되며, 이 감쇠 팩터는, 1이상인 미리 결정된 수가 곱해지고 상부 주파수 대역의 최대 스펙트럼 진폭으로 나누어진, 하부 주파수 대역의 최대 스펙트럼 진폭으로부터 유도된다. 이를 위해, (바람직하게는 성형 후에, 즉 도 10의 블록 804a 이후 또는 도 17의 블록 1702 이후) 하부 대역에서 최대 스펙트럼 진폭의 결정을 설명하는 블록 1602이 참조된다.
또한, 성형기는 예를 들어, 도 10의 블록 804a 또는 도 17의 블록1702에 의해 수행되는 바와 같이 성형 후에 다시 상부 대역에서의 최대 스펙트럼 진폭을 결정하도록 구성된다. 이어서, 블록 1606에서, 감쇠 팩터 fac가 도시된 바와 같이 계산되는데, 소정의 수 c3 은 1이상으로 설정된다. 실시예들에서, 도 16의 c3은 도 14에서와 동일한 소정의 수 c3이다. 그러나, 다른 실시예에서, 도 16의 c3은 도 14의 c3와 다르게 설정될 수 있다. 또한, 감쇠 팩터에 직접적으로 영향을 주는 도 16의 c3은 또한 비트레이트에 의존적이어서, 도 8에 도시된 바와 같은 양자화기/코더 단(806)에 의해 수행될 더 높은 비트레이트에 대해 더 높은 소정의 수 c3가 설정될 수 있다.
도 17은 도 10의 블록들 804a 및 804b에 도시된 것과 유사한 바람직한 구현예를 도시하는데, 즉, fcelp와 같은 경계 주파수 위의 스펙트럼 값들에 적용되는 저-대역 이득 정보를 이용해 성형한 성형이 수행되어 경계 주파수 위의 성형된 스펙트럼 값들을 획득하고, 추가적으로 후속하는 단계 1704에서 도 16의 블록 1606에 의해 계산된 감쇠 팩터 fac가 도 17의 블록 1704에 적용된다. 따라서, 도 17 및 도 10은 성형기가 하부 주파수 대역에 대한 성형 정보의 일부를 사용하는 제1 가중 연산 및 감쇠 정보, 즉, 예시적인 감쇠 팩터 fac를 사용하는 제2 후속 가중 연산에 기초하여 검출된 스펙트럼 영역에서 스펙트럼 값들을 성형하도록 구성된 상황을 도시한다.
그러나, 다른 실시예에서, 도 17의 단계들의 순서는 역으로 되어 제1 가중 동작이 감쇠 정보를 사용하여 일어나고 제2 후속 가중 정보가 하부 주파수 대역의 성형 정보의 적어도 일부를 사용하여 발생한다. 또는, 대안적으로, 한편으로는 감쇠 정보 및 다른 한편으로는 하부 주파수 대역에 대한 성형 정보의 적어도 일부로부터 도출되는 조합된 가중 정보를 사용하여 단일 가중 연산을 이용하여 성형이 수행된다.
도 17에 도시된 바와 같이, 추가 감쇠 정보는 검출된 피크 스펙트럼 영역의 모든 스펙트럼 값들에 적용된다. 대안적으로, 감쇠 팩터는 예를 들어, 그룹의 멤버가 2에서 10까지의 범위를 가질 수 있는, 예를 들어, 최고 스펙트럼 값 또는 최고 스펙트럼 값들의 그룹에만 적용된다. 추가적으로, 실시예는 또한, 오디오 신호의 시간 프레임 동안 피크 스펙트럼 영역이 검출기에 의해 검출된 상부 주파수 대역의 모든 스펙트럼 값들에 감쇠 팩터를 적용한다. 따라서, 이 실시예에서, 단일의 스펙트럼 값이 피크 스펙트럼 영역으로서 결정되었을 때, 동일한 감쇠 팩터가 전체 상부 주파수 대역에 적용된다.
특정 프레임에 대해, 피크 스펙트럼 영역이 감지되지 않으면 하부 주파수 대역과 상부 주파수 대역은 추가 감쇠 없이 성형기에 의해 성형된다. 따라서, 시간 프레임 간의 스위칭이 수행되고, 구현에 따라, 감쇠 정보의 일종의 스무딩이 바람하다.
바람직하게, 양자화기 및 인코더 단은 도 15a 및 도 15b에 도시된 레이트 루프 프로세서를 포함한다. 일 실시예에서, 양자화기 및 코더 단(806)은 전역 이득 가중화기(1502), 양자화기(1504) 및 산술 또는 허프만 코더와 같은 엔트로피 코더(1506)를 포함한다. 또한, 엔트로피 코더(1506)는 시간 프레임에 대해 특정 세트의 양자화된 값들에 대해, 추산된 비트레이트 또는 측정된 비트레이트를 제어기(1508)로 전송한다.
제어기(1508)는 한편으로는 루프 종료 기준 및/또는 다른 한편으로는 미리 결정된 비트레이트 정보를 수신하도록 구성된다. 제어기(1508)가, 미리 결정된 비트레이트가 획득되지 않고 및/또는 종료 기준이 충족되지 않는다고 결정하는 경우, 제어기는 조정된 전역 이득을 전역 이득 가중화기(1502)에 제공한다. 그 다음, 전역 이득 가중화기는 조정된 전역 이득을 형성되고 감쇠된 시간 프레임의 스펙트럴 라인들에 적용한다. 블록 1502의 전역 이득 가중된 출력은 양자화기(1504)에 제공되고 양자화된 결과는 조정된 전역 이득으로 가중된 데이터에 대한 추산 또는 측정된 비트레이트를 다시 한번 결정하는 엔트로피 인코더(1506)에 제공된다. 종료 기준이 충족되고 및/또는 미리 결정된 비트레이트가 충족되는 경우, 인코딩된 오디오 신호가 출력 라인(814)에서 출력된다. 그러나, 미리 결정된 비트레이트가 얻어지지 않거나 종료 기준이 충족되지 않으면, 루프가 다시 시작된다. 이는 도 15b에 보다 상세히 예시되어 있다.
제어기(1508)가 블록 1510에 도시된 바와 같이 비트레이트가 너무 높다고 판정하면, 블록 1512에 도시된 바와 같이 전역 이득이 증가된다. 따라서, 모든 성형된 및 감쇠된 스펙트럼 라인들은 더 작아지는데, 이는 스펙트럼 라인들이 증가된 전역 이득에 의해 분할되고 그 다음 양자화기가 더 작은 스펙트럼 값들을 양자화하여 엔트로피 코더가 이 시간 프레임 동안 더 적은 수의 필요 비트를 초래하기 때문이다. 따라서, 가중화, 양자화 및 인코딩의 절차는 도 15b의 블록 1514에 예시된 바와 같이 조정된 전역 이득으로 수행되고, 비트레이트가 너무 높은지 여부가 다시 한번 결정된다. 그래도 비트레이트가 여전히 너무 높으면, 다시 한번 블록들 1512 및 1514가 수행된다. 그러나, 비트레이트가 너무 높지 않은 것으로 결정되면, 제어는 종료 기준이 충족되는지 여부를 나타내는 단계 1516으로 진행한다. 종료 기준이 충족될 때, 레이트 루프는 중단되고, 최종 전역 이득이 도 10의 출력 인터페이스(1014)와 같은 출력 인터페이스를 통해 인코딩된 신호에 추가로 삽입된다.
그러나 종료 기준이 충족되지 않는다고 결정되면, 전역 이득은 블록1518에 예시된 바와 같이 감소되고, 결국, 허용된 최대 비트레이트가 사용된다. 이것은 인코딩하기 쉬운 시간 프레임들이 더 높은 정밀도로, 즉 손실이 적도록,코딩되는 것을 보장한다. 따라서, 그러한 경우에, 블록 1518에 도시된 바와 같이 전역 이득이 감소되고, 단계 1514가 감소된 전역 이득으로 수행되고, 단계 1510이 결과적인 비트레이트가 너무 높은지 아닌지 여부를 조사하기 위해 수행된다.
당연히, 전역 이득 증가 또는 감소 증분(increment)에 관한 특정 구현은 필요에 따라 설정될 수 있다. 또한, 제어기(1508)는 블록들(1510, 1512 및 1514)을 갖거나 블록들(1510, 1516, 1518 및 1514)을 갖도록 구현될 수 있다. 따라서, 구현에 따라, 또한 전역 이득에 대한 시작 값에 따라, 매우 높은 전역 이득에서 시작하여 비트레이트 요구사항을 충족하는 최저 전역 이득이 발견될 때까지 상기 절차가 이루어질 수 있다. 반면에, 상기 절차는 상당히 낮은 전역 이득에서 시작하여 허용 가능한 비트레이트가 얻어질 때까지 전역 이득이 증가되는 방식으로 수행될 수도 있다. 추가적으로, 도 15b에서 볼 수 있듯이 두 절차 간의 혼합도 또한 적용될 수 있다.
도 10은 전환되는 타임 도메인/주파수 도메인 인코더 설정 내에서 블록들(802, 804a, 804b 및 806)로 구성된 본 발명의 오디오 인코더의 임베딩을 도시한다.
특히, 오디오 인코더는 공통 프로세서를 포함한다. 공통 프로세서는 ACELP/TCX 제어기(1004) 및 재샘플러(1006) 및 LPC 분석기(808)와 같은 대역 제한기로 구성된다. 이는 1002에 의해 표시된 점선 박스로 도시된다.
또한, 대역 제한기는 도 8과 관련하여 이미 논의된 LPC 분석기에 공급된다. LPC 분석기(808)에 의해 생성된 LPC 성형 정보는 CELP 코더(1008)에 전달되고, CELP 코더(1008)의 출력은 최종적으로 인코딩된 신호(1020)를 생성하는 출력 인터페이스(1014)에 입력된다. 추가적으로, 코더(1008)로 구성된 시간 도메인 코딩 브랜치는, 입력(1001)에서의 전체 대역 오디오 신호 입력의 적어도 고 대역에 대한 정보 및 전형적으로, 스펙트럼 포락선 정보와 같은 파라메트릭 정보를 제공하는 시간 도메인 대역폭 확장 코더(1010)를 추가로 포함한다. 바람직하게는, 시간 영역 대역폭 확장 코더(1010)에 의해 처리되는 고 대역은 대역 제한기(1006)에 의해 또한 사용되는 경계 주파수에서 시작하는 대역이다. 따라서, 대역 제한기는 하부 대역을 획득하기 위해 저역 통과 필터링을 수행하고, 로우 패스 대역 제한기(1006)에 의해 필터링된 고 대역은 시간 도메인 대역폭 확장 코더(1010)에 의해 처리된다.
반면, 스펙트럼 도메인 또는 TCX 코딩 브랜치는 시간-스펙트럼 변환기(1012) 및 예시적으로, 갭-필링 인코더 프로세싱을 얻기 위해 전술한 바와 같은 음조 마스크를 포함한다.
그 다음, 시간-스펙트럼 변환기(1012)의 결과 및 부가적인 선택적 음조 마스크 프로세싱이 스펙트럼 성형기(804a)에 입력되고 스펙트럼 성형기(804a)의 결과는 감쇠기(804b)로 입력된다. 감쇠기(804b)는 1022에 도시된 바와 같이, 시간 영역 데이터를 사용하여 또는 시간-스펙트럼 변환기 블록(1012)의 출력을 사용하여 검출을 수행하는 검출기(802)에 의해 제어된다. 블록들804a 및 804b는 이전에 설명된 바와 같이 도 8의 성형기(804)를 함께 구현한다. 블록 804의 결과는 특정 실시예에서 미리 결정된 비트레이트에 의해 제어되는 양자화기 및 코더 단(806)에 입력된다. 추가적으로, 검출기에 의해 적용된 소정의 수가 또한 미리 결정된 비트레이트에 의존할 때, 미리 결정된 비트레이트는 또한 검출기(802)(도 10에 미도시)에 입력된다.
따라서, 인코딩된 신호(1020)는 양자화기 및 코더 단으로부터의 데이터, 제어기(1004)로부터의 제어 정보, CELP 코더(1008)로부터의 정보 및 시간 영역 대역폭 확장 코더(1010)로부터의 정보를 수신한다.
이어서, 본 발명의 바람직한 실시예들이 보다 상세하게 설명된다.
상호 운용성과 기존 구현에 대한 이전 버전과의 호환성을 보장하는 옵션이 인코더 측 사전-프로세싱을 수행하는 것이다. 이 알고리즘은 이후에 설명하는 것처럼 MDCT 스펙트럼을 분석한다. fCELP 아래에 중요한 신호 성분이 존재하고 fCELP 위에서 높은 피크가 발견되어 레이트 루프에서 전체 스펙트럼의 코딩을 파괴할 수 있는 경우 fCELP 위의 이러한 피크는 감쇠된다. 감쇠는 디코더 쪽에서 되돌릴 수는 없지만 결과적인 디코딩된 신호는 스펙트럼의 거대한 부분이 완전히 제거되어 이전보다 훨씬 더 양호하다.
감쇠는 fCELP 위의 피크들에서 레이트 루프의 초점을 감소시키고 상당한 하부 주파수 MDCT 계수들이 레이트 루프에서 살아남도록 한다.
다음 알고리즘은 인코더 측 전처리(pre-processing)를 설명한다.
1) 저-대역 콘텐츠의 검출(예를 들어, 1102):
저-대역 내용의 검출은 중요한 저-대역 신호 부분이 있는지 분석한다. 이를 위해 역 LPC 형상 이득을 적용하기 전에 MDCT 스펙트럼에서 fCELP 아래 및 그 위에서 MDCT 스펙트럼의 최대 진폭이 검색된다. 검색 절차는 이하의 값들을 반환한다:
a) max_low_pre : 역 LPC 성형 이득을 적용하기 전의 절대 값 스펙트럼상에서 평가된 fCELP 아래의 최대 MDCT 계수
b) max_high_pre : 역 LPC 성형 이득을 적용하기 전에 절대 값의 스펙 트럼에서 평가된 fCELP 위의 최대 MDCT 계수
결정을 위해 다음 조건이 평가된다.
조건(Condition) 1: c1 * max_low_pre > max_high_pre
조건 1이 참이면 상당한 양의 저-대역 컨텐츠가 가정되고 전처리가 계속된다. 조건 1이 거짓이면 전처리가 중단된다. 이는 고-대역만의 신호, 예를 들어, fCELP 위의 사인파(sine-sweep )에 손상이 가해지지 않도록 한다.
Figure 112018111258438-pct00001
여기서,
XM 은 역 LPC 이득 성형을 적용하기 전의 MDCT 스펙트럼이고,
LTCX ( CELP ) 는 fCELP 까지의 MDCT 계수의 개수이고,
LTCX (BW) 는 전체 MDCT 스펙트럼에 대한 MDCT 계수의 개수이다.
실시예의 구현에서 c1은 16으로 설정되고 fabs는 절대 값을 반환하다.
2) 피크 거리 메트릭의 평가(Evaluation of peak-distance metric)(예를 들어, 1104):
피크-거리 메트릭은 fCELP 위의 스펙트럼 피크가 산술 부호화기에 미치는 영향을 분석한다. 따라서, fCELP 아래 및 그 위의 MDCT 스펙트럼의 최대 진폭은 역 LPC 성형 이득의 적용 후에, 즉 산술 부호화기가 적용되는 도메인에서 MDCT 스펙트럼 상에서 탐색된다. 최대 진폭 이외에도 fCELP 로부터의 거리도 계산된다. 검색 절차는 아래의 값들을 반환한다.
a) max_low : fCELP 아래의 최대 MDCT 계수로서, 역 LPC 성형 이득을 적용한 후 절대 값의 스펙트럼에서 평가됨
b) dist_low: fCELP 로부터 max_low 의 거리
c) max_high : 역 LPC 성형 이득을 적용한 후 절대 값들의 스펙트럼에서 평가된 fCELP 위의 최대 MDCT 계수
d) dist_high: fCELP로부터 max_high의 거리
결정을 위해 아래의 조건이 평가된다:
조건 2(Condition 2): c2 * dist_high * max_high > dist_low * max_low
조건 2가 참이면, 이 피크의 매우 높은 스펙트럼 피크 또는 높은 주파수 때문에 산술 부호화기에 대한 상당한 스트레스가 추정된다. 높은 피크는 레이트 루프의 코딩 프로세스를 지배할 것이고, 산술 부호화기가 항상 낮은 주파수로부터 높은 주파수로 실행되기 때문에, 높은 주파수는 산술 부호화기에 불이익을 줄 것이다. 즉, 높은 주파수는 코딩하기에 비효율적이다. 조건 2가 참이면 전처리가 계속된다. 조건 2가 거짓이면, 전처리가 중단된다.
Figure 112018111258438-pct00002
여기서,
Figure 112018111258438-pct00003
M 은 역 LPC 이득 성형의 적용 후의 MDCT 스펙트럼이며,
LTCX (CELP)는 fCELP 까지의 MDCT 계수들의 개수이고,
LTCX (BW) 는 전체 MDCT 스펙트럼에 대한 MDCT 계수들의 개수이다.
예제 구현에서 c2는 4로 설정된다.
3) 피크-진폭의 비교(Comparison of peak-amplitude)(예를 들어, 1106):
마지막으로, 심리-음향학적으로 유사한 스펙트럼 영역의 피크-진폭이 비교된다. 따라서, fCELP 위에서 및 그 아래에서의 MDCT 스펙트럼의 최대 진폭은 역 LPC 성형 이득의 적용 후에 MDCT 스펙트럼 상에서 탐색된다. fCELP 아래의 MDCT 스펙트럼의 최대 진폭은 전체 스펙트럼에서는 검색되지 않고, flow> 0 Hz에서만 시작된다. 이는, 심리-음향적으로 가장 중요하고 보통 역 LPC 성형 이득을 적용한 후에 최고 진폭을 가지는, 최저 주파수들을 버리고 유사한 심리-음향적 중요성을 가지는 구성요소들만 비교하는 것이다. 검색 절차는 다음 값들을 반환한다:
a) max_low2 : flow에서 시작하는 역 LPC 성형 이득 적용 후의 절대 값들의 스펙트럼 상에서 평가된, fCELP 아래의 최대 MDCT 계수
b) max_high: 역 LPC 성형 이득을 적용한 후의 절대 값들의 스펙트럼 상에서 평가된, fCELP 위의 최대 MDCT 계수
결정을 위해, 아래 조건이 평가된다:
Condition 3: max_high > c3 * max_low2
조건 3이 참이면, fCELP 위의 스펙트럼 계수들이 가정되고, fCELP 바로 아래보다 상당히 더 높은 진폭을 가지며, 인코딩하는 데 많은 비용이 소요되는 것으로 가정된다. 상수 c3은 튜닝 파라미터인 최대 이득을 정의한다. 조건 2가 참이면 전처리가 계속된다. 조건 2가 거짓이면, 전처리가 중단된다.
Figure 112018111258438-pct00004
여기서,
Llow 는 flow에 해당하는 오프셋이다.
XM 은 역 LPC 이득 성형 적용 후의 MDCT 스펙트럼이며,
LTCX (CELP)는 fCELP까지의 MDCT 계수들의 개수이고,
LTCX (BW) 는 전체 MDCT 스펙트럼에 대한 MDCT 계수들의 개수이다.
예시적 구현에서, flow는 LTCX ( CELP ) / 2로 설정된다. 예시적 구현에서 c3은 낮은 비트레이트에 대해 1.5로 설정되고 높은 비트레이트에 대해 3.0으로 설정된다.
4) fCELP 위의 높은 피크들의 감쇠(Attenuation of high peaks above fCELP)(예를 들어, 도 16 및 17):
조건 1-3이 참이면, fCELP 위의 피크들의 감쇠가 적용된다. 감쇠는 심리 -음향학적으로 유사한 스펙트럼 영역에 비해 최대 이득 c3 을 허용한다. 감쇠 팩터는 아래와 같이 계산된다.
attenuation_factor = c3 * max_low2 / max_high
감쇠 팩터는 이후에 fCELP 위의 모든 MDCT 계수들에 적용된다.
5)
Figure 112018111258438-pct00005
여기서, XM은 역 LPC 이득 성형 적용 후의 MDCT 스펙트럼이며,
LTCX (CELP)는 fCELP까지의 MDCT 계수들의 개수이고,
LTCX (BW) 는 전체 MDCT 스펙트럼에 대한 MDCT 계수들의 개수이다.
인코더 측 전처리(pre-processing )는 코딩 루프에 대한 스트레스를 현저히 감소시킴과 동시에 여전히 fCELP 위에서 관련 스펙트럼 계수를 유지한다.
도 7은 역 LPC 성형 이득 및 상술된 인코더-측 전처리 적용 후의 임계 프레임의 MDCT 스펙트럼을 도시한다. c1, c2 및 c3에 대해 선택된 숫자 값들에 따라, 후속적으로 레이트 루프에 공급되는 결과적인 스펙트럼은 상기와 같이 보일 수 있다. 그것들은 현저히 줄어들지만, 사용 가능한 모든 비트를 소모하지 않고도 레이트 루프에서 살아남을 것이다.
몇몇 양상들이 장치의 맥락에서 기술되었지만, 이들 양상들이, 블록 또는 장치가 방법 단계 또는 방법 단계의 특징에 대응하는, 상응하는 방법에 대한 설명을 나타냄이 분명하다. 유사하게, 방법 단계의 문맥에서 기술된 양태는 대응하는 장치의 대응하는 블록 또는 아이템 또는 특징의 기술을 나타낸다. 방법 단계들의 일부 또는 전부는 예를 들어, 마이크로 프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 사용되어) 실행될 수 있다. 일부 실시예들에서, 가장 중요한 방법 단계들 중 하나 이상이 그러한 장치에 의해 실행될 수 있다.
본 발명에 따른 인코딩된 오디오 신호는 디지털 저장 매체에 저장될 수 있거나 무선 전송 매체 또는 인터넷과 같은 유선 전송 매체와 같은 전송 매체를 통해 전송 될 수 있다.
특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 구현은 플로피 디스크, DVD, 블루-레이, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리와 같은 일시적 저장 매체 또는 디지털 저장 매체를 사용하여 수행 될 수 있는데, 이들은 전자 판독 가능 제어 신호를 저장하고, 상기 각각의 방법이 수행되도록 프로그래밍가능한 컴퓨터 시스템과 협력한다(또는 협력 가능하다). 따라서, 디지털 저장 매체는 컴퓨터로 판독 가능할 수 있다.
본 발명에 따른 일부 실시예들은 본 명세서에서 설명된 방법들 중 하나가 수행되도록 프로그램가능한 컴퓨터 시스템과 협력할 수 있는, 전기적으로 판독 가능한 제어 신호를 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예들은 컴퓨터 프로그램 제품이 컴퓨터상에서 실행될 때 상기 방법들 중 하나를 수행하도록 동작하는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현 될 수 있다. 프로그램 코드는 예를 들어, 머신 판독 가능한 캐리어에 저장될 수 있다.
다른 실시예들은 머신 판독 가능한 캐리어 상에 저장된, 본 명세서에 기술된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
즉, 본 발명의 방법의 실시예는, 컴퓨터 프로그램이 컴퓨터상에서 실행될 때, 여기에 설명된 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서, 본 발명의 방법의 또 다른 실시예들은 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하는 데이터 캐리어(또는 디지털 저장 매체 또는 컴퓨터-판독가능한 매체)이다. 데이터 캐리어, 디지털 저장 매체 또는 기록 매체는 통상적으로 유형(tangible)이고 및/또는 비-일시적(non-transitionary)이다.
그러므로, 본 발명의 방법의 또 다른 실시예는 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 데이터 스트림 또는 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는 예를 들어, 인터넷을 통해 데이터 통신 접속을 통해 전송되도록 구성될 수 있다.
다른 실시예는 여기에서 기술된 방법들 중 하나를 수행하도록 구성되거나 조정된 프로세싱 수단, 예를 들어 컴퓨터 또는 프로그램 가능한 논리 장치를 포함한다.
다른 실시예는 여기에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
본 발명에 따른 또 다른 실시예는 본 명세서에 설명된 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에 전송(예를 들어, 전자적으로 또는 광학적으로)하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어, 컴퓨터, 모바일 장치, 메모리 장치 등일 수 있다. 상기 장치 또는 시스템은 예를 들어 컴퓨터 프로그램을 수신기에 전송하기 위한 파일 서버를 포함할 수 있다.
일부 실시예에서, 프로그램 가능한 논리 소자(예를 들어, 필드 프로그래머블 게이트 어레이)가 본원에 설명된 방법의 일부 또는 모든 기능을 수행하는데 사용될 수 있다. 일부 실시예들에서, 필드 프로그래머블 게이트 어레이는 여기서 설명된 방법들 중 하나를 수행하기 위해 마이크로 프로세서와 협력할 수 있다. 일반적으로, 상기 방법들은 임의의 하드웨어 장치에 의해 수행되는 것이 바람직하다.
여기에 설명된 장치는 하드웨어 장치를 사용하거나 컴퓨터를 사용하거나 하드웨어 장치와 컴퓨터의 조합을 사용하여 구현될 수 있다.
본 명세서에 기재된 장치 또는 여기에 설명된 장치의 임의의 구성 요소는 적어도 부분적으로 하드웨어 및/또는 소프트웨어로 구현될 수 있다.
여기에 기술된 방법은 하드웨어 장치를 사용하거나 컴퓨터를 사용하거나 하드웨어 장치와 컴퓨터의 조합을 사용하여 수행될 수 있다.
여기에 설명된 방법들 또는 본 명세서에 설명된 장치의 임의의 구성 요소들은 하드웨어 및/또는 소프트웨어에 의해 적어도 부분적으로 수행될 수 있다.
전술한 실시예들은 본 발명의 원리를 설명하기 위한 것일 뿐이다. 본 명세서에 기재된 구성 및 세부 사항의 변경 및 변형은 당업자에게 명백할 것이다. 따라서, 본 발명의 특허 청구범위의 범위에 의해서만 제한되고 본 명세서의 실시예에 대한 설명 및 설명에 의해 제공된 특정 세부 사항에 의해서만 한정되는 것은 아니다.
전술 한 설명에서, 본 명세서를 간략화하기 위해 다양한 특징들이 실시예들에서 함께 그룹화되는 것을 확인할 수 있다. 이 개시 방법은 청구된 실시예가 각 청구항에 명시적으로 언급된 것보다 많은 특징을 필요로 한다는 의도를 반영하는 것으로 해석되어서는 안 된다. 오히려, 이하의 청구범위가 반영하는 바와 같이, 발명의 주제는 단일 개시된 실시예의 모든 특징보다 작을 수 있다. 따라서, 이하의 청구범위는 발명의 상세한 설명에 포함되며, 각 청구항은 그 자체로 별개의 실시예로서 나타날 수 있다. 각각의 청구항은 별개의 실시예로서 독립적일 수 있지만, 종속 청구항이 청구범위에서 하나 이상의 다른 청구항과 특정 조합을 지칭할 수 있음에도 불구하고, 다른 실시예들은 종속항이 다른 종속항의 기술적 사상과의 조합 또는 다른 종속항 또는 독립항들의 각 특징과의 조합을 포함할 수 있다. 특정 조합이 의도되지 않는다고 명시되지 않는 한, 이러한 조합들이 제안된다. 또한 해당 청구항이 직접적으로 종속하고 있지 않은 독립 청구항의 특징들 또한 포함하고자 한다.
또한, 명세서 또는 청구의 범위에 개시된 방법은 이들 방법의 각 단계를 수행하는 수단을 갖는 장치에 의해 구현될 수 있다.
또한, 일부 실시예에서, 단일 단계는 다수의 하위 단계를 포함하거나 분할될 수 있다. 이러한 하위 단계는 명시적으로 제외되지 않는 한 이 단일 단계의 공개 내용의 일부이며 포함될 수 있다.
[참고문헌]
[1] 3GPP TS 26.445 - Codec for Enhanced Voice Services(EVS); Detailed algorithmic description
부록(Annex)
아래에서, 상기 표준 릴리스 13(3GPP TS 26.445 - Codec for Enhanced Voice Services (EVS); Detailed algorithmic description)의 일부가 표시된다. 5.3.3.2.3 절은 형성기의 바람직한 실시예를 기술하고, 5.3.3.2.7 절은 양자화기 및 코더 단으로부터의 양자화기의 바람직한 실시예를 기술하고, 5.3.3.2.8 절은 양자화기 및 코더 단의 코더의 바람직한 실시예에서의 산술 부호화기를 기술하는데, 일정한 비트레이트 및 전역 이득에 대한 바람직한 레이트 루프는 섹션 5.3.2.8.1.2에서 설명된다. 바람직한 실시예의 IGF 특징들은 5.3.3.2.11에 기술되어 있으며, 5.3.3.2.11.5.1 IGF 색조 마스크 계산에 대해 특별 참조가 이루어진다. 이 표준의 다른 부분들은 본 명세서에서 참조로 포함된다.
Figure 112018111258438-pct00006
Figure 112018111258438-pct00007
Figure 112018111258438-pct00008
Figure 112018111258438-pct00009
Figure 112018111258438-pct00010
Figure 112018111258438-pct00011
Figure 112018111258438-pct00012
Figure 112018111258438-pct00013
Figure 112018111258438-pct00014
Figure 112018111258438-pct00015
Figure 112018111258438-pct00016
Figure 112018111258438-pct00017
Figure 112018111258438-pct00018
Figure 112018111258438-pct00019
Figure 112018111258438-pct00020
Figure 112018111258438-pct00021
Figure 112018111258438-pct00022
Figure 112018111258438-pct00023
Figure 112018111258438-pct00024
Figure 112018111258438-pct00025
Figure 112018111258438-pct00026
Figure 112018111258438-pct00027
Figure 112018111258438-pct00028
Figure 112018111258438-pct00029
Figure 112018111258438-pct00030
Figure 112018111258438-pct00031
Figure 112018111258438-pct00032
Figure 112018111258438-pct00033
Figure 112018111258438-pct00034
Figure 112018111258438-pct00035
Figure 112018111258438-pct00036
Figure 112018111258438-pct00037
Figure 112018111258438-pct00038
Figure 112018111258438-pct00039
Figure 112018111258438-pct00040
Figure 112018111258438-pct00041
Figure 112018111258438-pct00042
Figure 112018111258438-pct00043
Figure 112018111258438-pct00044
Figure 112018111258438-pct00045
Figure 112018111258438-pct00046
Figure 112018111258438-pct00047
Figure 112018111258438-pct00048
Figure 112018111258438-pct00049
Figure 112018111258438-pct00050
Figure 112018111258438-pct00051

Claims (26)

  1. 하부 주파수 대역 및 상부 주파수 대역을 갖는 오디오 신호를 인코딩하는 오디오 인코더로서,
    상기 오디오 신호의 상부 주파수 대역에서 피크 스펙트럼 영역을 검출하는 검출기(802);
    상기 하부 주파수 대역에 대한 성형 정보를 이용하여 상기 하부 주파수 대역을 성형하고, 상기 하부 주파수 대역에 대한 성형 정보의 적어도 일부를 이용하여 상기 상부 주파수 대역을 성형하는 성형기(804)로서, 상기 성형기(804)는 상기 상부 주파수 대역에서 검출된 피크 스펙트럼 영역의 스펙트럼 값들을 추가적으로 감쇠시키도록 구성된, 상기 성형기; 및
    성형된 하부 주파수 대역 및 성형된 상부 주파수 대역을 양자화하고 상기 성형된 하부 주파수 대역 및 상기 성형된 상부 주파수 대역으로부터 양자화된 스펙트럼 값들을 엔트로피 코딩하기 위한 양자화기 및 코더 단(806)을 포함하는, 오디오 인코더.
  2. 청구항 1에 있어서,
    시간 프레임에서 상기 하부 주파수 대역으로 대역 제한된 오디오 샘플들의 블록을 분석함으로써 상기 오디오 신호의 시간 프레임에 대한 선형 예측 계수들을 유도하는 선형 예측 분석기(808)를 더 포함하고,
    상기 성형기(804)는 상기 선형 예측 계수를 상기 성형 정보로서 사용하여 상기 하부 주파수 대역을 성형하도록 구성되고,
    상기 성형기(804)는 상기 하부 주파수 대역으로 대역 제한된 오디오 샘플들의 블록으로부터 도출된 선형 예측 계수들의 적어도 일부를 사용하도록 구성된, 오디오 인코더.
  3. 청구항 1에 있어서,
    상기 성형기(804)는 상기 오디오 신호의 하부 주파수 대역으로부터 도출된 선형 예측 계수들을 사용하여 상기 하부 주파수 대역의 복수의 서브대역들에 대한 복수의 성형 팩터들을 계산하도록 구성되고,
    상기 성형기(804)는, 상기 하부 주파수 대역에서, 대응하는 서브대역에 대해 계산된 성형 팩터를 사용하여 상기 하부 주파수 대역의 서브대역의 스펙트럼 계수들을 가중하도록, 그리고
    상기 하부 주파수 대역의 서브대역들 중 하나에 대해 계산된 성형 팩터를 사용하여 상기 상부 주파수 대역에서의 스펙트럼 계수들을 가중하도록 구성된, 오디오 인코더.
  4. 청구항 3에 있어서,
    상기 성형기(804)는 상기 하부 주파수 대역의 최고 서브대역에 대해 계산된 성형 팩터를 사용하여 상기 상부 주파수 대역의 스펙트럼 계수들을 가중하도록 구성되고, 상기 최고 서브대역은 상기 하부 주파수 대역의 서브대역들의 모든 중심 주파수들 중 가장 높은 중심 주파수를 갖는, 오디오 인코더.
  5. 청구항 1에 있어서,
    상기 검출기(802)는, 조건들의 그룹 중 적어도 하나가 참일 때, 상기 상부 주파수 대역에서 피크 스펙트럼 영역을 결정하도록 구성되며, 상기 조건들의 그룹은 적어도 저 주파수 대역 진폭 조건(1102), 피크 거리 조건(1104) 및 피크 진폭 조건(1106)을 포함하는, 오디오 인코더.
  6. 청구항 5에 있어서,
    상기 검출기(802)는, 상기 저 주파수 대역 진폭 조건에 대해,
    상기 하부 주파수 대역에서의 최대 스펙트럼 진폭(1202);
    상기 상부 주파수 대역에서의 최대 스펙트럼 진폭(1204)을 결정하도록 구성되고,
    제로보다 큰 소정의 수만큼 가중된 하부 주파수 대역에서의 최대 스펙트럼 진폭이 상기 상부 주파수 대역에서의 최대 스펙트럼 진폭(1204)보다 큰 경우, 상기 저 주파수 대역 진폭 조건(1102)이 참인, 오디오 인코더.
  7. 청구항 6에 있어서,
    상기 검출기(802)는 상기 성형기(804)에 의해 적용된 성형 동작이 적용되기 전에 상기 하부 주파수 대역에서의 최대 스펙트럼 진폭 또는 상기 상부 주파수 대역에서의 최대 스펙트럼 진폭을 검출하도록 구성되거나, 또는 상기 소정의 수는 4 내지 30사이인, 오디오 인코더.
  8. 청구항 5에 있어서,
    상기 검출기(802)는, 상기 피크 거리 조건에 대해,
    상기 하부 주파수 대역에서의 제 1 최대 스펙트럼 진폭(1206);
    상기 하부 주파수 대역의 중심 주파수와 상기 상부 주파수 대역의 중심 주파수 사이의 경계 주파수로부터의 상기 제 1 최대 스펙트럼 진폭(1302)의 제 1 스펙트럼 거리(1304);
    상기 상부 주파수 대역에서의 제 2 최대 스펙트럼 진폭(1306);
    상기 경계 주파수로부터 상기 제 2 최대 스펙트럼 진폭까지의 상기 제 2 최대 스펙트럼 진폭의 제 2 스펙트럼 거리(1308),
    상기 제 1 스펙트럼 거리에 의해 가중되고 1보다 큰 미리 결정된 수에 의해 가중된 제 1 최대 스펙트럼 진폭이, 상기 제2 스펙트럼 거리에 의해 가중된 제 2 최대 스펙트럼 진폭보다 큰 경우(1310), 상기 피크 거리 조건(1104)은 참인, 오디오 인코더.
  9. 청구항 8에 있어서,
    상기 검출기(802)는 추가 감쇠 없이 상기 성형기(804)에 의한 성형 동작에 후속하여 상기 제1 최대 스펙트럼 진폭 또는 상기 제2 최대 스펙트럼 진폭을 결정하도록 구성되거나, 또는
    상기 경계 주파수는 상기 하부 주파수 대역에서의 최고 주파수 또는 상기 상부 주파수 대역에서의 최저 주파수이거나, 또는
    상기 미리 결정된 수는 1.5와 8 사이에 있는, 오디오 인코더.
  10. 청구항 5에 있어서,
    상기 검출기(802)는, 상기 하부 주파수 대역의 소정의 시작 주파수로부터 상기 하부 주파수 대역의 최대 주파수까지 확장하는 상기 하부 주파수 대역의 일부에서, 제 1 최대 스펙트럼 진폭을 결정하고(1402), 상기 소정의 시작 주파수는 상기 하부 주파수 대역의 최소 주파수보다 크고,
    상기 상부 주파수 대역에서 제 2 최대 스펙트럼 진폭을 결정(1404)하도록 구성되고,
    상기 제 2 최대 스펙트럼 진폭이 1 이상의 미리 결정된 수만큼 가중된 상기 제 1 최대 스펙트럼 진폭보다 큰 경우(1406), 상기 피크 진폭 조건(1106)은 참인, 오디오 인코더.
  11. 청구항 10에 있어서,
    상기 검출기(802)는 상기 추가 감쇠 없이 상기 성형기(804)에 의해 적용된 성형 동작 이후에 상기 제 1 최대 스펙트럼 진폭 또는 상기 제 2 최대 스펙트럼 진폭을 결정하도록 구성되거나, 또는 상기 소정의 시작 주파수는 상기 하부 주파수 대역의 최소 주파수보다 상기 하부 주파수 대역의 적어도 10 % 위이거나, 또는 상기 소정의 시작 주파수는, 상기 최대 주파수의 절반의 ±10 퍼센트의 오차허용범위(tolerance) 내에서 상기 하부 주파수 대역의 최대 주파수의 절반과 동일한 주파수에 있거나, 또는
    상기 미리 결정된 수는 상기 양자화기/코더 단에 의해 제공될 비트레이트에 의존하여, 상기 미리 결정된 수가 더 높은 비트레이트에 대해 더 높거나, 또는
    상기 미리 결정된 수는 1.0와 5.0 사이에 있는, 오디오 인코더.
  12. 청구항 6에 있어서,
    상기 검출기(802)는 상기 저 주파수 대역 진폭 조건(1102), 상기 피크 거리 조건(1104) 및 상기 피크 진폭 조건(1106)을 포함하는 상기 3 개의 조건들 중 2 개 이상의 조건이 참일 때만 상기 피크 스펙트럼 영역을 결정하도록 구성는, 오디오 인코더.
  13. 청구항 6에 있어서,
    상기 검출기(802)는, 상기 하부 주파수 대역 또는 상기 상부 주파수 대역에서의 상기 스펙트럼 진폭으로서, 실제 스펙트럼의 스펙트럼 값의 절대 값, 복소 스펙트럼의 크기, 상기 실제 스펙트럼의 스펙트럼 값의 임의의 파워 또는 상기 복소 스펙트럼의 크기의 임의의 파워를 결정하도록 구성되고, 상기 파워는 1보다 큰, 오디오 인코더.
  14. 청구항 1에 있어서,
    상기 성형기(804)는 상기 상부 주파수 대역의 최대 스펙트럼 진폭에 기초하여 또는 상기 하부 주파수 대역의 최대 스펙트럼 진폭에 기초하여 상기 검출된 피크 스펙트럼 영역에서 적어도 하나의 스펙트럼 값을 감쇠시키도록 구성된, 오디오 인코더.
  15. 청구항 14에 있어서,
    상기 성형기(804)는, 상기 하부 주파수 대역의 소정의 시작 주파수로부터 상기 하부 주파수 대역의 최대 주파수까지 확장하는 상기 하부 주파수 대역의 일부에서 제 1 최대 스펙트럼 진폭을 결정하고, 상기 소정의 시작 주파수는 상기 하부 주파수 대역의 최소 주파수보다 크고, 상기 소정의 시작 주파수는 상기 하부 주파수 대역의 최소 주파수보다 상기 하부 주파수 대역의 적어도 10% 위이거나, 또는 상기 소정의 시작 주파수는 상기 최대 주파수의 절반의 ±10 퍼센트의 오차허용범위 내에서 상기 하부 주파수 대역의 최대 주파수의 절반과 동일한 주파수인, 오디오 인코더.
  16. 청구항 14에 있어서,
    상기 성형기(804)는 감쇠 팩터를 사용하여 스펙트럼 값들을 추가 감쇠하도록 구성되고, 상기 감쇠 팩터는 상기 상부 주파수 대역에서 최대 스펙트럼 진폭(1604)으로 나누고, 1 이상의 미리 설정된 수만큼 곱해진(1606), 상기 하부 주파수 대역의 최대 스펙트럼 진폭(1602)으로부터 유도된, 오디오 인코더.
  17. 청구항 1에 있어서,
    상기 성형기(804)는,
    상기 하부 주파수 대역에 대한 성형 정보의 적어도 일부를 이용하는 제1 가중 연산(1702, 804a) 및 감쇠 정보를 이용하는 제 2 후속 가중 동작(1704, 804b); 또는
    상기 감쇠 정보를 이용하는 제 1 가중 동작 및 상기 하부 주파수 대역에 대한 상기 성형 정보의 적어도 일부를 이용하는 제 2의 후속 가중 정보; 또는
    상기 하부 주파수 대역에 대한 성형 정보의 적어도 일부 및 상기 감쇠 정보로부터 도출된 결합 가중 정보를 사용하는 단일 가중 동작에 기초하여,
    상기 검출된 피크 스펙트럼 영역 내의 스펙트럼 값들을 성형하도록 구성된, 오디오 인코더.
  18. 청구항 17에 있어서,
    상기 하부 주파수 대역에 대한 성형 정보는 한 세트의 성형 팩터들이고, 각 성형 팩터는 상기 하부 주파수 대역의 하나의 서브대역과 연관되고,
    상기 상부 주파수 대역에 대한 상기 성형 동작에 사용된 상기 하부 주파수 대역에 대한 성형 정보의 적어도 일부는, 상기 하부 주파수 대역의 모든 서브대역들 중 최고 중심 주파수를 갖는 상기 하부 주파수 대역의 서브대역과 연관된 성형 팩터이거나, 또는
    상기 감쇠 정보는 상기 검출된 스펙트럼 영역에서 적어도 하나의 스펙트럼 값에 또는 상기 검출된 스펙트럼 영역 내의 모든 스펙트럼 값들에, 또는 상기 피크 스펙트럼 영역이 상기 오디오 신호의 시간 프레임에 대해 상기 검출기(802)에 의해 검출된 상기 상부 주파수 대역 내 모든 스펙트럼 값들에 적용되는 감쇠 팩터이거나, 또는
    상기 성형기(804)는, 상기 검출기(802)가 오디오 신호의 시간 프레임의 상기 상부 주파수 대역에서 임의의 피크 스펙트럼 영역을 검출하지 않았을 때, 추가의 감쇠 없이 상기 하부 및 상부 주파수 대역의 성형을 수행하도록 구성되는, 오디오 인코더.
  19. 청구항 1에 있어서,
    상기 양자화기 및 코더 단(806)은 엔트로피 인코딩된 오디오 신호의 미리 결정된 비트레이트가 획득되도록 양자화기 특성을 추산하는 레이트 루프 프로세서를 포함하는, 오디오 인코더.
  20. 청구항 19에 있어서,
    상기 양자화기 특성은 전역(global) 이득이고,
    상기 양자화기 및 코더 단(806)은,
    하부 주파수 대역에서의 성형된 스펙트럼 값들 및 동일한 전역 이득에 의해 상부 주파수 대역에서 성형된 스펙트럼 값들을 가중하는 가중화기(1502);
    상기 전역 이득에 의해 가중된 값들을 양자화하는 양자화기(1504); 및
    양자화된 값들을 엔트로피 코딩하는 엔트로피 코더(entropy coder)(1506)를 포함하며, 상기 엔트로피 코더는 산술 코더 또는 허프만 코더를 포함하는, 오디오 인코더.
  21. 청구항 1에 있어서,
    상기 상부 주파수 대역에서, 양자화 및 엔트로피 인코딩될 제1 그룹의 스펙트럼 값들의 그룹 및 갭-필링 절차에 의해 파라메트릭 코딩될 제2 그룹의 스펙트럼 값들을 결정하는 음조(tonal) 마스크 프로세서(1012)를 더 포함하고, 상기 음조 마스크 프로세서는 제2 그룹의 스펙트럼 값들을 제로 값으로 설정하도록 구성된, 오디오 인코더.
  22. 청구항 1에 있어서,
    공통 프로세서(1002);
    주파수 도메인 인코더(1012, 802, 804, 806); 및
    선형 예측 인코더(1008)를 더 포함하고,
    상기 주파수 도메인 인코더는 상기 검출기(802), 상기 성형기(804), 상기 양자화기 및 코더 단(806)을 포함하며,
    상기 공통 프로세서는 상기 주파수 도메인 인코더 및 상기 선형 예측 인코더에 의해 사용될 데이터를 계산하도록 구성된, 오디오 인코더.
  23. 청구항 22에 있어서,
    상기 공통 프로세서는 상기 오디오 신호의 시간 프레임에 대해 상기 하부 주파수 대역으로 제한된 리샘플링된 오디오 신호 대역을 얻기 위해 상기 오디오 신호를 리샘플링(1006)하도록 구성되고,
    상기 공통 프로세서(1002)는 상기 시간 프레임에서, 상기 하부 주파수 대역에 대역-제한된 오디오 샘플들의 블록을 분석함으로써 상기 오디오 신호의 시간 프레임에 대한 선형 예측 계수들을 도출하는 선형 예측 분석기(808)를 포함하며, 또는
    상기 공통 프로세서(1002)는 상기 오디오 신호의 시간 프레임이 상기 선형 예측 인코더의 출력 또는 상기 주파수 도메인 인코더의 출력 중 어느 하나에 의해 표현되도록 제어하도록 구성된, 오디오 인코더.
  24. 청구항 22에 있어서,
    상기 주파수 도메인 인코더는 상기 오디오 신호의 시간 프레임을 상기 하부 주파수 대역 및 상기 상부 주파수 대역을 포함하는 주파수 표현으로 변환하는 시간-주파수 변환기(1012)를 포함하는, 오디오 인코더.
  25. 하부 주파수 대역 및 상부 주파수 대역을 갖는 오디오 신호를 인코딩하는 방법으로서,
    상기 오디오 신호의 상부 주파수 대역에서 피크 스펙트럼 영역을 검출하는 단계(802);
    상기 하부 주파수 대역에 대한 성형 정보를 이용하여 상기 오디오 신호의 하부 주파수 대역을 성형하고(804) 상기 하부 주파수 대역에 대한 상기 성형 정보의 적어도 일부를 이용하여 상기 오디오 신호의 상기 상부 주파수 대역을 성형하되(1702), 상기 상부 주파수 대역의 성형은 상기 상부 주파수 대역에서 검출된 피크 스펙트럼 영역 내 스펙트럼 값의 추가 감쇠(1704)를 포함하는 단계; 및
    성형된 하부 주파수 대역 및 성형된 상부 주파수 대역을 양자화하고, 상기 성형된 하부 주파수 대역 및 상기 성형된 상부 주파수 대역으로부터 양자화된 스펙트럼 값들을 엔트로피 코딩하는 단계;
    를 포함하는, 인코딩 방법.
  26. 컴퓨터 상에서 실행될 때, 청구항 25의 방법을 실행하는 컴퓨터 프로그램을 기록한 컴퓨터로 판독가능한 기록 매체.
KR1020187032551A 2016-04-12 2017-04-06 상부 주파수 대역에서 검출된 피크 스펙트럼 영역을 고려하여 오디오 신호를 부호화하는 오디오 인코더, 오디오 신호를 부호화하는 방법, 및 컴퓨터 프로그램 KR102299193B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP16164951.2 2016-04-12
EP16164951 2016-04-12
PCT/EP2017/058238 WO2017178329A1 (en) 2016-04-12 2017-04-06 Audio encoder for encoding an audio signal, method for encoding an audio signal and computer program under consideration of a detected peak spectral region in an upper frequency band

Publications (2)

Publication Number Publication Date
KR20180134379A KR20180134379A (ko) 2018-12-18
KR102299193B1 true KR102299193B1 (ko) 2021-09-06

Family

ID=55745677

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187032551A KR102299193B1 (ko) 2016-04-12 2017-04-06 상부 주파수 대역에서 검출된 피크 스펙트럼 영역을 고려하여 오디오 신호를 부호화하는 오디오 인코더, 오디오 신호를 부호화하는 방법, 및 컴퓨터 프로그램

Country Status (19)

Country Link
US (3) US10825461B2 (ko)
EP (3) EP3443557B1 (ko)
JP (3) JP6734394B2 (ko)
KR (1) KR102299193B1 (ko)
CN (3) CN117316168A (ko)
AR (1) AR108124A1 (ko)
AU (1) AU2017249291B2 (ko)
CA (1) CA3019506C (ko)
ES (2) ES2933287T3 (ko)
FI (1) FI3696813T3 (ko)
MX (1) MX2018012490A (ko)
MY (1) MY190424A (ko)
PL (2) PL3696813T3 (ko)
PT (2) PT3696813T (ko)
RU (1) RU2719008C1 (ko)
SG (1) SG11201808684TA (ko)
TW (1) TWI642053B (ko)
WO (1) WO2017178329A1 (ko)
ZA (1) ZA201806672B (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3671741A1 (en) * 2018-12-21 2020-06-24 FRAUNHOFER-GESELLSCHAFT zur Förderung der angewandten Forschung e.V. Audio processor and method for generating a frequency-enhanced audio signal using pulse processing
WO2020171034A1 (ja) * 2019-02-20 2020-08-27 ヤマハ株式会社 音信号生成方法、生成モデルの訓練方法、音信号生成システムおよびプログラム
CN110047519B (zh) * 2019-04-16 2021-08-24 广州大学 一种语音端点检测方法、装置及设备
WO2020253941A1 (en) * 2019-06-17 2020-12-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder with a signal-dependent number and precision control, audio decoder, and related methods and computer programs
CN113192523B (zh) 2020-01-13 2024-07-16 华为技术有限公司 一种音频编解码方法和音频编解码设备
CN113539281B (zh) * 2020-04-21 2024-09-06 华为技术有限公司 音频信号编码方法和装置
CN111613241B (zh) * 2020-05-22 2023-03-24 厦门理工学院 一种高精度高稳定度的弦乐器基波频率检测方法
CN113963703A (zh) * 2020-07-03 2022-01-21 华为技术有限公司 一种音频编码的方法和编解码设备
CN112397043B (zh) * 2020-11-03 2021-11-16 北京中科深智科技有限公司 一种语音转化成歌曲的方法和系统
CN112951251B (zh) * 2021-05-13 2021-08-06 北京百瑞互联技术有限公司 一种lc3音频混合方法、装置及存储介质
CN118314908A (zh) * 2023-01-06 2024-07-09 华为技术有限公司 场景音频解码方法及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012017621A1 (en) 2010-08-03 2012-02-09 Sony Corporation Signal processing apparatus and method, and program
WO2013147668A1 (en) * 2012-03-29 2013-10-03 Telefonaktiebolaget Lm Ericsson (Publ) Bandwidth extension of harmonic audio signal

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4672670A (en) * 1983-07-26 1987-06-09 Advanced Micro Devices, Inc. Apparatus and methods for coding, decoding, analyzing and synthesizing a signal
JP3125543B2 (ja) * 1993-11-29 2001-01-22 ソニー株式会社 信号符号化方法及び装置、信号復号化方法及び装置、並びに記録媒体
DE19804581C2 (de) * 1998-02-05 2000-08-17 Siemens Ag Verfahren und Funk-Kommunikationssystem zur Übertragung von Sprachinformation
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
JP3580777B2 (ja) * 1998-12-28 2004-10-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン オーディオ信号又はビットストリームの符号化又は復号化のための方法及び装置
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
GB9917985D0 (en) * 1999-07-30 1999-09-29 Scient Generics Ltd Acoustic communication system
JP2001143384A (ja) * 1999-11-17 2001-05-25 Sharp Corp ディジタル信号処理装置およびディジタル信号処理方法
US7330814B2 (en) * 2000-05-22 2008-02-12 Texas Instruments Incorporated Wideband speech coding with modulated noise highband excitation system and method
US6587816B1 (en) * 2000-07-14 2003-07-01 International Business Machines Corporation Fast frequency-domain pitch estimation
AU2211102A (en) * 2000-11-30 2002-06-11 Scient Generics Ltd Acoustic communication system
US20020128839A1 (en) * 2001-01-12 2002-09-12 Ulf Lindgren Speech bandwidth extension
CA2388352A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
JP3579047B2 (ja) * 2002-07-19 2004-10-20 日本電気株式会社 オーディオ復号装置と復号方法およびプログラム
US7650277B2 (en) * 2003-01-23 2010-01-19 Ittiam Systems (P) Ltd. System, method, and apparatus for fast quantization in perceptual audio coders
US7272551B2 (en) * 2003-02-24 2007-09-18 International Business Machines Corporation Computational effectiveness enhancement of frequency domain pitch estimators
WO2004090870A1 (ja) * 2003-04-04 2004-10-21 Kabushiki Kaisha Toshiba 広帯域音声を符号化または復号化するための方法及び装置
US20050004793A1 (en) * 2003-07-03 2005-01-06 Pasi Ojala Signal adaptation for higher band coding in a codec utilizing band split coding
JP4822843B2 (ja) 2003-10-23 2011-11-24 パナソニック株式会社 スペクトル符号化装置、スペクトル復号化装置、音響信号送信装置、音響信号受信装置、およびこれらの方法
US8150683B2 (en) * 2003-11-04 2012-04-03 Stmicroelectronics Asia Pacific Pte., Ltd. Apparatus, method, and computer program for comparing audio signals
KR20060132697A (ko) * 2004-02-16 2006-12-21 코닌클리케 필립스 일렉트로닉스 엔.브이. 트랜스코더 및 트랜스코딩 방법
KR100721537B1 (ko) * 2004-12-08 2007-05-23 한국전자통신연구원 광대역 음성 부호화기의 고대역 음성 부호화 장치 및 그방법
ES2358125T3 (es) * 2005-04-01 2011-05-05 Qualcomm Incorporated Procedimiento y aparato para un filtrado de antidispersión de una señal ensanchada de excitación de predicción de velocidad de ancho de banda.
EP1869673B1 (en) * 2005-04-01 2010-09-22 Qualcomm Incorporated Methods and apparatuses for encoding and decoding a highband portion of a speech signal
EP1931169A4 (en) * 2005-09-02 2009-12-16 Japan Adv Inst Science & Tech POST-FILTER FOR A MICROPHONE MATRIX
US7991611B2 (en) * 2005-10-14 2011-08-02 Panasonic Corporation Speech encoding apparatus and speech encoding method that encode speech signals in a scalable manner, and speech decoding apparatus and speech decoding method that decode scalable encoded signals
US8032371B2 (en) * 2006-07-28 2011-10-04 Apple Inc. Determining scale factor values in encoding audio data with AAC
US8135047B2 (en) * 2006-07-31 2012-03-13 Qualcomm Incorporated Systems and methods for including an identifier with a packet associated with a speech signal
US9496850B2 (en) * 2006-08-04 2016-11-15 Creative Technology Ltd Alias-free subband processing
KR101041895B1 (ko) * 2006-08-15 2011-06-16 브로드콤 코포레이션 패킷 손실 후 디코딩된 오디오 신호의 시간 워핑
KR101565919B1 (ko) * 2006-11-17 2015-11-05 삼성전자주식회사 고주파수 신호 부호화 및 복호화 방법 및 장치
KR100848324B1 (ko) * 2006-12-08 2008-07-24 한국전자통신연구원 음성 부호화 장치 및 그 방법
EP2101322B1 (en) * 2006-12-15 2018-02-21 III Holdings 12, LLC Encoding device, decoding device, and method thereof
CN101939782B (zh) * 2007-08-27 2012-12-05 爱立信电话股份有限公司 噪声填充与带宽扩展之间的自适应过渡频率
EP2209326B1 (en) * 2007-10-30 2012-12-12 Clarion Co., Ltd. Auditory sense correction device
JP5555707B2 (ja) * 2008-10-08 2014-07-23 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン マルチ分解能切替型のオーディオ符号化及び復号化スキーム
RU2538334C2 (ru) * 2009-02-26 2015-01-10 Панасоник Интеллекчуал Проперти Корпорэйшн оф Америка Кодер, декодер и способ для них
JP4932917B2 (ja) * 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
US8751225B2 (en) * 2010-05-12 2014-06-10 Electronics And Telecommunications Research Institute Apparatus and method for coding signal in a communication system
JP2012163919A (ja) * 2011-02-09 2012-08-30 Sony Corp 音声信号処理装置、および音声信号処理方法、並びにプログラム
WO2013058728A1 (en) * 2011-10-17 2013-04-25 Nuance Communications, Inc. Speech signal enhancement using visual information
KR20130047630A (ko) * 2011-10-28 2013-05-08 한국전자통신연구원 통신 시스템에서 신호 부호화 장치 및 방법
JP5915240B2 (ja) * 2012-02-20 2016-05-11 株式会社Jvcケンウッド 特殊信号検出装置、雑音信号抑制装置、特殊信号検出方法、雑音信号抑制方法
US9741350B2 (en) * 2013-02-08 2017-08-22 Qualcomm Incorporated Systems and methods of performing gain control
US9711156B2 (en) * 2013-02-08 2017-07-18 Qualcomm Incorporated Systems and methods of performing filtering for gain determination
JP6155766B2 (ja) * 2013-03-29 2017-07-05 凸版印刷株式会社 印刷再現色予測方法
EP2963645A1 (en) * 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Calculator and method for determining phase correction data for an audio signal
EP2980794A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
US9830921B2 (en) * 2015-08-17 2017-11-28 Qualcomm Incorporated High-band target signal control

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012017621A1 (en) 2010-08-03 2012-02-09 Sony Corporation Signal processing apparatus and method, and program
WO2013147668A1 (en) * 2012-03-29 2013-10-03 Telefonaktiebolaget Lm Ericsson (Publ) Bandwidth extension of harmonic audio signal

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
EVS Codec Detailed Algorithmic Description (3GPP TS 26.445 version 12.3.0 Release 12). ETSI TS 126 445 V12.3.0. 2015.09.

Also Published As

Publication number Publication date
US20210005210A1 (en) 2021-01-07
US12014747B2 (en) 2024-06-18
US11682409B2 (en) 2023-06-20
TW201802797A (zh) 2018-01-16
PL3696813T3 (pl) 2023-03-06
JP2019514065A (ja) 2019-05-30
JP6970789B2 (ja) 2021-11-24
KR20180134379A (ko) 2018-12-18
MY190424A (en) 2022-04-21
BR112018070839A2 (pt) 2019-02-05
US10825461B2 (en) 2020-11-03
PT3696813T (pt) 2022-12-23
AR108124A1 (es) 2018-07-18
AU2017249291B2 (en) 2020-02-27
EP3696813B1 (en) 2022-10-26
PL3443557T3 (pl) 2020-11-16
FI3696813T3 (fi) 2023-01-31
US20230290365A1 (en) 2023-09-14
RU2719008C1 (ru) 2020-04-16
US20190156843A1 (en) 2019-05-23
EP3443557B1 (en) 2020-05-20
WO2017178329A1 (en) 2017-10-19
ZA201806672B (en) 2019-07-31
ES2808997T3 (es) 2021-03-02
EP3696813A1 (en) 2020-08-19
CN109313908B (zh) 2023-09-22
EP3443557A1 (en) 2019-02-20
JP7203179B2 (ja) 2023-01-12
MX2018012490A (es) 2019-02-21
CN109313908A (zh) 2019-02-05
EP4134953A1 (en) 2023-02-15
SG11201808684TA (en) 2018-11-29
AU2017249291A1 (en) 2018-10-25
TWI642053B (zh) 2018-11-21
CA3019506A1 (en) 2017-10-19
CN117253496A (zh) 2023-12-19
ES2933287T3 (es) 2023-02-03
JP2020181203A (ja) 2020-11-05
PT3443557T (pt) 2020-08-27
JP6734394B2 (ja) 2020-08-05
CN117316168A (zh) 2023-12-29
CA3019506C (en) 2021-01-19
JP2022009710A (ja) 2022-01-14

Similar Documents

Publication Publication Date Title
KR102299193B1 (ko) 상부 주파수 대역에서 검출된 피크 스펙트럼 영역을 고려하여 오디오 신호를 부호화하는 오디오 인코더, 오디오 신호를 부호화하는 방법, 및 컴퓨터 프로그램
US8275626B2 (en) Apparatus and a method for decoding an encoded audio signal
TWI415114B (zh) 用於計算頻譜包絡數目之裝置與方法
US7991621B2 (en) Method and an apparatus for processing a signal
US11568883B2 (en) Low-frequency emphasis for LPC-based coding in frequency domain
KR101998609B1 (ko) 혼합형 시간-영역/주파수-영역 코딩 장치, 인코더, 디코더, 혼합형 시간-영역/주파수-영역 코딩 방법, 인코딩 방법 및 디코딩 방법
KR20110043589A (ko) 시간 워프 활성 신호의 제공 및 이를 이용한 오디오 신호의 인코딩
CA3011883C (en) Apparatus and method for mdct m/s stereo with global ild to improve mid/side decision
US11341975B2 (en) Apparatus for encoding or decoding an encoded multichannel signal using a filling signal generated by a broad band filter
US20100268542A1 (en) Apparatus and method of audio encoding and decoding based on variable bit rate
MX2008016163A (es) Codificador de audio, decodificador de audio y procesador de audio con caracteristicas de warping variable de manera dinamica.
KR101610765B1 (ko) 음성 신호의 부호화/복호화 방법 및 장치
KR102622804B1 (ko) 오디오 신호의 고주파 재구성을 위한 하모닉 트랜스포저의 하위호환형 통합
TWI841856B (zh) 音頻量化器和音頻去量化器及相關方法以及電腦程式
CN111344784B (zh) 控制编码器和/或解码器中的带宽
CN111587456B (zh) 时域噪声整形
US20240194209A1 (en) Apparatus and method for removing undesired auditory roughness
KR20240151254A (ko) 오디오 신호에 대한 고주파 재구성 기술의 하위 호환 통합

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant