KR101748517B1 - 제 1 인코딩 알고리즘 및 고조파 감소를 이용하는 제 2 인코딩 알고리즘 중 하나를 선택하기 위한 장치 및 방법 - Google Patents

제 1 인코딩 알고리즘 및 고조파 감소를 이용하는 제 2 인코딩 알고리즘 중 하나를 선택하기 위한 장치 및 방법 Download PDF

Info

Publication number
KR101748517B1
KR101748517B1 KR1020157032911A KR20157032911A KR101748517B1 KR 101748517 B1 KR101748517 B1 KR 101748517B1 KR 1020157032911 A KR1020157032911 A KR 1020157032911A KR 20157032911 A KR20157032911 A KR 20157032911A KR 101748517 B1 KR101748517 B1 KR 101748517B1
Authority
KR
South Korea
Prior art keywords
audio signal
encoding algorithm
encoding
algorithm
quality measure
Prior art date
Application number
KR1020157032911A
Other languages
English (en)
Other versions
KR20160030477A (ko
Inventor
엠마누엘 라벨리
마커스 뮬트러스
스테판 돌라
베른하트 그릴
마누엘 장데
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20160030477A publication Critical patent/KR20160030477A/ko
Application granted granted Critical
Publication of KR101748517B1 publication Critical patent/KR101748517B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • G10L19/265Pre-filtering, e.g. high frequency emphasis prior to encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0011Long term prediction filters, i.e. pitch estimation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Mathematical Physics (AREA)

Abstract

오디오 신호의 부분의 인코딩된 버전을 획득하도록 오디오 신호의 부분을 인코딩하기 위해 제 1 특성을 갖는 제 1 인코딩 알고리즘 및 제 2 특성을 갖는 제 2 인코딩 알고리즘 중 하나를 선택하기 위한 장치는 오디오 신호를 수신하고, 오디오 신호의 고조파의 진폭을 감소시키며, 오디오 신호의 필터링된 버전을 출력하도록 구성된 필터를 포함한다. 제 1 추정기는 제 1 인코딩 알고리즘을 사용하여 오디오 신호의 부분을 실제로 인코딩 및 디코딩하지 않고 제 1 인코딩 알고리즘과 관련되는 오디오 신호의 부분에 대한 제 1 품질 측정치로서 오디오 신호의 부분의 SNR(신호 대 잡음비) 또는 세그먼트 SNR을 추정할 시에 오디오 신호의 필터링된 버전을 사용하기 위해 제공된다. 제 2 추정기는 제 2 인코딩 알고리즘을 사용하여 오디오 신호의 부분을 실제로 인코딩 및 디코딩하지 않고 제 2 인코딩 알고리즘과 관련되는 오디오 신호의 부분에 대한 제 2 품질 측정치로서 SNR 또는 세그먼트 SNR을 추정하기 위해 제공된다. 장치는 제 1 품질 측정치와 제 2 품질 측정치 사이의 비교에 기초하여 제 1 인코딩 알고리즘 또는 제 2 인코딩 알고리즘을 선택하기 위한 제어기를 포함한다.

Description

제 1 인코딩 알고리즘 및 고조파 감소를 이용하는 제 2 인코딩 알고리즘 중 하나를 선택하기 위한 장치 및 방법{APPARATUS AND METHOD FOR SELECTING ONE OF A FIRST ENCODING ALGORITHM AND A SECOND ENCODING ALGORITHM USING HARMONICS REDUCTION}
본 발명은 오디오 코딩에 관한 것으로서, 특히 오디오 신호의 서로 다른 부분에 대해 인코딩된 신호가 서로 다른 인코딩 알고리즘을 이용하여 생성되는 스위칭된 오디오 코딩에 관한 것이다.
오디오 신호의 서로 다른 부분에 대해 서로 다른 인코딩 알고리즘을 결정하는 스위칭된 오디오 코더는 알려져 있다.일반적으로, 스위칭된 오디오 코더는 ACELP(Algebraic Code Excited Linear Prediction) 및 TCX(Transform Coded Excitation)과 같은 2개의 서로 다른 모드, 즉 알고리즘 사이에서 스위칭하기 위해 제공한다.
MPEG USAC(MPEG Unified Speech Audio Coding)의 LPD 모드는 2개의 서로 다른 모드 ACELP 및 TCX에 기초한다. ACELP는 음성형 및 과도형(transient-like) 신호에 더 좋은 품질을 제공한다. TCX는 음악형 및 잡음형 신호에 더 좋은 품질을 제공한다. 인코더는 프레임 단위(frame-by-frame basis)로 사용하기 위한 어떤 모드를 결정한다. 인코더에 의해 행해진 결정은 코덱 품질에 중요하다. 하나의 잘못된 결정은 특히 낮은 비트레이트에서 강한 아티팩트(artifact)를 생성할 수 있다.
사용하기 위해 어떤 모드를 결정하기 위한 가장 간단한 접근 방식은 두 모드의 완전한 인코딩/디코딩을 수행하여, 오디오 신호와 코딩/디코딩된 오디오 신호에 기초하여 두 모드에 대한 선택 기준(예를 들어 세그먼트(segmental) SNR)을 계산하고, 최종으로 선택 기준에 기초하여 모드를 선택하기 위한 폐루프 모드 선택이다. 이러한 접근 방식은일반적으로 안정하고 강력한 결정을 생성한다. 그러나, 두 모드가 각각의 프레임에서 실행해야 하기 때문에 그것은 또한 상당량의 복잡도를 필요로한다.
복잡도를 줄이기 위해, 대안적 접근 방식은 개방 루프 모드 선택이다. 개방 루프 선택은 두 모드의 완전한 인코딩/디코딩을 수행하지 않고, 대신에 낮은 복잡도로 계산되는 선택 기준을 사용하여 하나의 모드를 선택하는 것으로 이루어진다. 그 후, 최악의 복잡도는 최소 복잡 모드(보통 TCX)의 복잡도, 마이너스 선택 기준을 계산하는데 필요한 복잡도만큼 감소된다. 코덱 최악의 복잡도가 제한될 때 이런 종류의 접근 방식을 매력적이게 하는 복잡도의 절약(save)은 보통 중요하다.
(국제 표준 3GPP TS 26.290 V6.1.0 2004-12에서 정의된) AMR-WB+ 표준은 80ms 프레임에서 ACELP/TCX20/TCX40/TCX80의 모든 조합 사이에 결정하는데 사용되는 개방 루프 모드 선택을 포함한다. 이것은 3GPP TS 26.290의 섹션 5.2.4에 설명되어 있다. 이것은 또한 학회 논문(conference paper) “Low Complex Audio Encoding for Mobile, Multimedia, VTC 2006, Makinen et al.”에 설명되어 있고, 미국 7,747,430 B2 및 미국 7,739,120 B2는 이러한 회의 논문의 저자에게 돌아간다.
US 7,747,430 B2는 장기 예측 파라미터의 분석에 기초하여 개방 루프 모드 선택을 개시한다. US 7,739,120 B2는 오디오 신호의 각각의 섹션에서 오디오 콘텐츠의 타입을 나타내는 신호 특성에 기초하여 개방 루프 모드 선택을 개시하며, 이러한 선택이 실행 가능하지 않으면, 선택은 각각의 이웃한 섹션에 대해 실행되는 통계적 평가에 더 기초한다.
AMR-WB+의 개방 루프 모드 선택은 두 주요 단계로 설명될 수 있다. 제 1 주요 단계에서, 여러 특징은 에너지 레벨의 표준 편차, 저주파/고주파 에너지 관계, 총 에너지, ISP(immittance spectral pair) 거리, 피치 지연(pitch-lag) 및 이득, 스펙트럼 경사와 같은 오디오 신호 상에서 계산된다. 그 후, 이러한 특징은 단순한 임계값 기반 분류기를 사용하여 ACELP 및 TCX 사이에서 선택하는데 사용된다. TCX가 제 1 주요 단계에서 선택되는 경우, 제 2 주요 단계는 폐루프 방식으로 TCX20/TCX40/TCX80의 가능한 조합 사이에서 결정한다.
WO 2012/110448 A1은 과도(transient) 검출 결과 및 오디오 신호의 품질 결과에 기초하여 서로 다른 특성을 갖는 2개의 인코딩 알고리즘 간에 결정하기 위한 접근 방식을 개시한다. 게다가, 히스테리시스(hysteresis)를 적용하는 것이 개시되며, 히스테리시스는 오디오 신호의 이전의 부분에 대해 과거에 행해진 선택에 의존한다.
학회 논문 "Low Complex Audio Encoding for Mobile, Multimedia, VTC 2006, Makinen et al."에서, AMR-WB+의 폐루프 및 개방 루프 모드 선택은 비교된다. 주관적인 청취 테스트는 개방 루프 모드 선택이 폐루프 모드 선택보다 상당히 더 나쁘게 수행하는 것을 나타낸다. 그러나 또한 개방 루프 모드 선택이 40%만큼 최악의 복잡도를 감소시킨다는 것을 보여준다.
본 발명의 목적은 양호한 성능 및 감소된 복잡도로 제 1 인코딩 알고리즘과 제 2 인코딩 알고리즘 사이의 선택을 위해 허용하는 개선된 접근 방식을 제공하는 것이다.
이러한 목적은 제 1 항에 따른 장치, 제 18 항에 따른 방법, 및 제 19 항에 따른 컴퓨터 프로그램에 의해 달성된다.
본 발명의 실시예는 오디오 신호의 부분의 인코딩된 버전을 획득하도록 오디오 신호의 부분을 인코딩하기 위해 제 1 특성을 갖는 제 1 인코딩 알고리즘 및 제 2 특성을 갖는 제 2 인코딩 알고리즘 중 하나를 선택하기 위한 장치를 제공하며, 이러한 장치는
오디오 신호를 수신하고, 오디오 신호의 고조파의 진폭을 감소시키며, 오디오 신호의 필터링된 버전을 출력하도록 구성된 필터;
제 1 인코딩 알고리즘을 사용하여 오디오 신호의 부분을 실제로 인코딩 및 디코딩하지 않고 제 1 인코딩 알고리즘과 관련되는 오디오 신호의 부분에 대한 제 1 품질 측정치로서 오디오 신호의 부분의 SNR(신호 대 잡음비) 또는 세그먼트 SNR을 추정할 시에 오디오 신호의 필터링된 버전을 사용하기 위한 제 1 추정기;
제 2 인코딩 알고리즘을 사용하여 오디오 신호의 부분을 실제로 인코딩 및 디코딩하지 않고 제 2 인코딩 알고리즘과 관련되는 오디오 신호의 부분에 대한 제 2 품질 측정치로서 SNR 또는 세그먼트 SNR을 추정하기 위한 제 2 추정기; 및
제 1 품질 측정치와 제 2 품질 측정치 사이의 비교에 기초하여 제 1 인코딩 알고리즘 또는 제 2 인코딩 알고리즘을 선택하기 위한 제어기를 포함한다.
본 발명의 실시예는 오디오 신호의 부분의 인코딩된 버전을 획득하도록 오디오 신호의 부분을 인코딩하기 위해 제 1 특성을 갖는 제 1 인코딩 알고리즘 및 제 2 특성을 갖는 제 2 인코딩 알고리즘 중 하나를 선택하기 위한 방법을 제공하며, 이러한 방법은
오디오 신호의 고조파의 진폭을 감소시키고 오디오 신호의 필터링된 버전을 출력하기 위해 오디오 신호를 필터링하는 단계;
제 1 인코딩 알고리즘을 사용하여 오디오 신호의 부분을 실제로 인코딩 및 디코딩하지 않고 제 1 인코딩 알고리즘과 관련되는 오디오 신호의 부분에 대한 제 1 품질 측정치로서 SNR또는 오디오 신호의 부분의 세그먼트 SNR을 추정할 시에 오디오 신호의 필터링된 버전을 사용하는 단계;
제 2 인코딩 알고리즘을 사용하여 오디오 신호의 부분을 실제로 인코딩 및 디코딩하지 않고 제 2 인코딩 알고리즘과 관련되는 오디오 신호의 부분에 대한 제 2 품질 측정치를 추정하는 단계; 및
제 1 품질 측정치와 제 2 품질 측정치 사이의 비교에 기초하여 제 1 인코딩 알고리즘 또는 제 2 인코딩 알고리즘을 선택하는 단계를 포함한다.
본 발명의 실시예는 개선된 성능을 갖는 개방 루프 선택이 제 1 및 제 2 인코딩 알고리즘의 각각에 대한 품질 측정치를 추정하고, 제 1 및 제 2 품질 측정치 사이의 비교에 기초하여 인코딩 알고리즘 중 하나를 선택함으로써 구현될 수 있다는 인식에 기초한다. 품질 측정치는 추정되며, 즉 오디오 신호는 실제로 품질 측정을 획득하기 위해 실제로 인코딩 및 디코딩되지 않는다. 따라서, 품질 측정치는 감소된 복잡도로 획득될 수 있다. 그 후, 모드 선택은 폐루프 모드 선택에 비교할만한 추정된 품질 측정치를 이용하여 수행될 수 있다. 더욱이, 본 발명은 제 1 품질 측정치의 추정이 오디오 신호의 비필터링된 버전에 비해 고조파가 감소되는 오디오 신호의 부분의 필터링된 버전을 사용하는 경우에 개선된 모드 선택이 획득될 수 있다는 인식에 기초한다.
본 발명의 실시예에서, ACELP 및 TCX의 세그먼트 SNR이 먼저 낮은 복잡도로 추정되는 개방 루프 모드 선택이 구현된다. 그 다음 모드 선택은 폐루프 모드 선택에서처럼, 이러한 추정된 세그먼트 SNR 값을 이용하여 수행된다.
본 발명의 실시예는 AMR-WB+의 개방 루프 모드 선택에서 행해지는 것처럼 고전적 특징 + 분류 접근 방식(classical features+classifier approach)을 채용하지 않는다. 대신에, 본 발명의 실시예는 각각의 모드의 품질 측정치를 추정하고 최상의 품질을 제공하는 모드를 선택하려고한다.
본 발명의 실시예는 이제 첨부된 도면을 참조로 더욱 상세히 설명될 것이다.
도 1은 제 1 인코딩 알고리즘 및 제 2 인코딩 알고리즘 중 하나를 선택하기 위한 장치의일 실시예의 개략도를 도시한다.
도 2는 오디오 신호를 인코딩하기 위한 장치의일 실시예의 개략도를 도시한다.
도 3은 제 1 인코딩 알고리즘 및 제 2 인코딩 알고리즘 중 하나를 선택하기 위한 장치의일 실시예의 개략도를 도시한다.;
도 4a 및 4b는 SNR 및 세그먼트 SNR의 가능한 표현을 도시한다.
다음의 설명에서, 서로 다른 도면에서의 유사한 요소/단계는 동일한 참조 부호로 지칭된다. 도면에서, 본 발명을 이해하는데 필요하지 않은 신호 접속 등과 같은 특징은 생략되었다는 것을 주목하여야한다.
도 1은 오디오 신호의 부분을 인코딩하기 위한 인코더로서 TCX 알고리즘과 같은 제 1 인코딩 알고리즘 및 ACELP 알고리즘과 같은 제 2 인코딩 알고리즘 중 하나를 선택하기 위한 장치(10)를 도시한다. 장치(10)는 신호 부분에 대한 제 1 품질 측정치가 제공될 때 SNR 또는 오디오 신호의 부분의 세그먼트 SNR을 추정하기 위한 제 1 추정기(12)를 포함한다. 제 1 품질 측정치는 제 1 인코딩 알고리즘과 관련된다. 장치(10)는 오디오 신호를 수신하고, 오디오 신호의 고조파의 진폭을 감소시키며, 오디오 신호의 필터링된 버전을 출력하도록 구성된 필터(2)를 포함한다. 도 1에 도시한 바와 같이 필터(2)는 제 1 추정기(12) 내부에 있을 수 있거나, 제 1 추정기(12) 외부에 있을 수 있다. 제 1 추정기(12)는 제 1 품질 측정치를 추정할 시에 오디오 신호의 필터링된 버전을 사용한다. 다시 말하면, 제 1 추정기(12)는 제 1 인코딩 알고리즘을 사용하여 오디오 신호의 부분을 실제로 인코딩 및 디코딩하지 않고 제 1 인코딩 알고리즘을 이용하여 인코딩 및 디코딩될 경우에 오디오 신호의 부분이 갖는 제 1 품질 측정치를 추정한다. 장치(10)는 신호 부분에 대한 제 2 품질 측정치를 추정하기 위한 제 2 추정기(14)를 포함한다. 제 2 품질 측정치는 제 2 인코딩 알고리즘과 관련되어 있다. 다시 말하면, 제 2 추정기(14)는 제 2 인코딩 알고리즘을 사용하여 오디오 신호의 부분을 실제로 인코딩 및 디코딩하지 않고 제 2 인코딩 알고리즘을 이용하여 인코딩 및 디코딩될 경우에 오디오 신호의 부분이 갖는 제 2 품질 측정치를 추정한다. 더욱이, 장치(10)는 제 1 품질 측정치와 제 2 품질 측정치 사이의 비교에 기초하여 제 1 인코딩 알고리즘 또는 제 2 인코딩 알고리즘을 선택하기 위한 제어기(16)를 포함한다. 제어기는 선택된 인코딩 알고리즘을 나타내는 출력(18)을 포함할 수 있다.
다음의 명세서에서, 제 1 추정기는 오디오 신호의 필터링된 버전, 즉 명시적으로 나타내지 않을지라도 고조파의 진폭을 감소시키도록 구성된 필터(2)가 제공되고 활성화되지 않을 경우 제 1 품질 측정치를 추정할 시에 오디오 신호의 부분의 필터링된 버전을 이용한다.
실시예에서, 제 1 인코딩 알고리즘과 관련된 제 1 특성은 음악형 및 잡음형 신호에 더 적절하며, 제 2 인코딩 알고리즘과 관련된 제 2 인코딩 특성은 음성형 및 과도형(transient-like) 신호에 더 적절하다. 본 발명의 실시예에서, 제 1 인코딩 알고리즘은 변환 코딩 알고리즘과 같은 오디오 코딩 알고리즘, 예를 들어 TCX(변환 코딩 여기(transform coding excitation)) 코딩 알고리즘과 같은 MDCT(수정된 이산 코사인 변환) 인코딩 알고리즘이다. 다른 변환 코딩 알고리즘은 FFT 변환 또는 임의의 다른 변환 또는 필터뱅크에 기초할 수 있다. 본 발명의 실시예에서, 제 2 인코딩 알고리즘은 ACELP(대수 코드 여기 선형 예측(algebraic code excited linear prediction)) 코딩 알고리즘과 같은 CELP(코드 여기 선형 예측) 코딩 알고리즘과 같은 음성 인코딩 알고리즘이다.
실시예에서, 품질 측정치는 지각적 품질 측정치를 나타낸다. 제 1 코딩 알고리즘의 주관적 품질을 추정하는 단일 값 및 제 2 코딩 알고리즘의 주관적 품질을 추정하는 단일 값이 계산될 수 있다. 최상의 추정된 주관적 품질을 제공하는 인코딩 알고리즘은 단지 이러한 두 값의 비교에 기초하여 선택될 수 있다. 이것은 신호의 서로 다른 특성을 나타내는 많은 특징이 계산되는 AMR-WB+ 표준에서 행해지는 것과 상이하며, 그 후, 분류기는 선택하기 위해 어떤 알고리즘을 결정하기 위해 적용된다.
실시예에서, 각각의 품질 측정치는 가중된 오디오 신호의 부분, 즉 오디오 신호의 가중된 버전에 기초하여 추정된다. 실시예에서, 가중된 오디오 신호는 가중 함수에 의해 필터링된 오디오 신호로서 정의될 수 있으며, 여기서 가중 함수는 LPC 필터 A(z)로 가중된 LPC 필터A(Z/g)이고, g는 0.68과 같이 0과 1 사이의 가중치이다. 지각적 품질의 양호한 측정치는 이러한 방식으로 획득될 수 있다는 것이 밝혀졌다. LPC 필터 A(z) 및 가중된 LPC 필터 A(Z/g)는 사전 처리 단계에서 결정되고, 또한 두 인코딩 알고리즘에 사용된다는 것을 주목한다. 다른 실시예에서, 가중 함수는 선형 필터, FIR 필터 또는 선형 예측 필터일 수 있다.
실시예에서, 품질 측정치는 가중된 신호 도메인에서의 세그먼트 SNR(신호 대 잡음 비)이다. 가중된 신호 도메인에서의 세그먼트 SNR은 지각적 품질의 양호한 측정치를 나타내는 것임을 밝혔으며, 따라서, 유익한 방식으로 품질 측정치로서 사용될 수 있다. 이것은 또한 인코딩 파라미터를 추정하기 위해 ACELP 및 TCX 인코딩 알고리즘 모두에 사용되는 품질 측정치이다.
다른 품질 측정치는 가중된 신호 영역에서의 SNR일 수 있다. 다른 품질 측정치는 세그먼트 SNR, (가중된) LPC 계수에 의해 필터링되지 않는 비가중된 신호 도메인에서의 오디오 신호의 대응하는 부분의 SNR일 수 있다.
일반적으로, SNR은 샘플씩 (오디오 신호와 같은) 원래의 오디오 신호와 처리된 오디오 신호를 비교한다. 이의 목표는 입력 파형을 재생하는 파형 코더의 왜곡을 측정하는 것이다. 도 5a에 도시된 바와 같이 SNR이 계산될 수 있으며, 여기서 x(i) 및 y(i)는 i에 의해 인덱싱되는 원래의 샘플 및 처리된 샘플이고, N은 샘플의 총수이다. 전체 신호에서 작업하는 대신에 세그먼트 SNR은 5ms와 같이 1ms 내지 10ms와 같은 짧은 세그먼트의 SNR 값의 평균을 계산한다. 도 5b에 도시된 바와 같이 SNR이 계산될 수 있으며, 여기서 N 및 M은 각각 세그먼트 길이 및 세그먼트의 수이다B.
본 발명의 실시예에서, 오디오 신호의 부분은 오디오 신호를 윈도잉함으로써 획득되는 오디오 신호의 프레임을 나타내고, 적절한 인코딩 알고리즘의 선택은 오디오 신호를 윈도잉함으로써 획득되는 복수의 연속 프레임에 대해 수행된다. 다음의 명세서에서, 오디오 신호와 관련하여, 용어 "부분" 및 "프레임"은 교환 가능한 방식으로 사용된다. 실시예에서, 각각의 프레임은 서브프레임으로 분할되고, 세그먼트 SNR은 각각의 서브프레임에 대한 SNR을 계산함으로써 각각의 프레임에 대하여 추정되고, dB로 변환되며, dB의 서브프레임 SNR의 평균을 계산한다.
따라서, 실시예에서, 입력 오디오 신호와 디코딩된 오디오 신호 사이에는 추정되는 (세그먼트) SNR이 없지만, 가중된 입력 오디오 신호와 가중된 디코딩된 오디오 신호 사이의 (세그먼트) SNR은 추정된다. 이러한 (세그먼트) SNR이 관계되는 한, AMR-WB+ 표준(국제 표준 3GPP TS 26.290 V6.1.0 2004-12)의 챕터 5.2.3에 대한 참조가 행해질 수 있다.
본 발명의 실시예에서, 각각의 품질 측정치는 가중된 오디오 신호의 부분의 에너지와 각각의 알고리즘에 의해 신호 부분을 인코딩할 때 도입되는 추정된 왜곡에 기초하여 추정되며, 제 1 및 제 2 추정기는 가중된 오디오 신호의 에너지에 따라 추정된 왜곡을 결정하도록 구성된다.
본 발명의 실시예에서, 오디오 신호의 부분을 양자화할 때 제 1 인코딩 알고리즘에 사용되는 양자화기에 의해 도입되는 추정된 양자화 왜곡은 결정되고, 제 1 품질 측정치는 가중된 오디오 신호의 부분의 에너지와 추정된 양자화 왜곡에 기초하여 결정된다. 이러한 실시예에서, 오디오 신호의 부분은 제 1 인코딩 알고리즘에 사용된 엔트로피 인코더 및 양자화기로 인코딩될 때 주어진 타겟 비트레이트를 생성하도록 오디오 신호의 부분에 대한 글로벌 이득은 추정될 수 있고, 추정된 양자화 왜곡은 추정된 글로벌 이득에 기초하여 결정된다. 이러한 실시예에서, 추정된 양자화 왜곡은 추정된 이득의 전력에 기초하여 결정될 수 있다. 제 1 인코딩 알고리즘에 사용된 양자화가 균일한 스칼라 양자화기인 경우, 제 1 추정기는 식 D = G*G/12를 사용하여 추정된 양자화 왜곡을 결정하도록 구성될 수 있으며, 여기서 D는 추정된 양자화 왜곡이고, G는 추정된 글로벌 이득이다. 제 1 인코딩 알고리즘이 다른 양자화기를 이용하는 경우에, 양자화 왜곡은 서로 다른 방식으로 글로벌 이득으로부터 결정할 수 있다.
발명자는 TCX 알고리즘과 같은 제 1 인코딩 알고리즘을 사용하여 오디오 신호의 부분을 인코딩 및 디코딩할 경우에 획득될 수 있는 세그먼트 SNR과 같은 품질 측정치가 이의 임의의 조합으로 상술한 특징을 이용하여 적절한 방식으로 추정될 수 있다는 것을 인식하였다.
본 발명의 실시예에서, 제 1 품질 측정치는 세그먼트 SNR이고, 세그먼트 SNR은 가중된 오디오 신호의 대응하는 서브 부분의 에너지와 추정된 양자화 왜곡에 기초하여 오디오 신호의 부분의 복수의 서브 부분의 각각과 관련되는 추정된 SNR을 계산하고, 가중된 오디오 신호의 부분에 대한 추정된 세그먼트 SNR을 획득하기 위해 가중된 오디오 신호의 부분의 서브 부분과 관련된 SNR의 평균을 계산함으로써 추정된다.
본 발명의 실시예에서, 오디오 신호의 부분을 인코딩하기 위해 적응 코드북을 사용할 때 제 2 인코딩 알고리즘에 사용된 적응 코드북에 의해 도입되는 추정된 적응 코드북 왜곡은 결정되고, 제 2 품질 측정치는 가중된 오디오 신호의 부분의 에너지 및 추정된 적응 코드북 왜곡에 기초하여 추정된다.
이러한 실시예에서, 오디오 신호의 부분의 복수의 서브 부분의 각각에 대해, 적응 코드북은 전처리 스테이지에서 결정된 피치 지연에 의해 과거로 시프트되는 가중된 오디오 신호의 서브 부분의 버전에 기초하여 근사화될 수 있고, 적응 코드북 이득은 가중된 오디오 신호의 부분의 서브 부분과 근사화된 적응 코드북 사이의 에러가 최소화되도록 추정될 수 있으며, 추정된 적응 코드북 왜곡은 가중된 오디오 신호의 부분의 서브 부분과 적응 코드북 이득에 의해 스케일링된 근사화된 적응 코드북 사이의 에러의 에너지에 기초하여 결정될 수 있다.
본 발명의 실시예에서, 오디오 신호의 부분의 각각의 서브 부분에 대해 결정되는 추정된 적응 코드북 왜곡은 제 2 인코딩 알고리즘에서 혁신적인 코드북에 의해 달성되는 왜곡의 감소를 고려하기 위해 일정한 인수만큼 감소될 수 있다.
본 발명의 실시예에서, 제 2 품질 측정치는 세그먼트 SNR이고, 세그먼트 SNR은 가중된 오디오 신호의 대응하는 서브 부분의 에너지와 추정된 적응 코드북 왜곡에 기초하여 각각의 서브 부분과 관련되는 추정된 SNR을 계산하고, 추정된 세그먼트 SNR을 획득하기 위해 서브 부분과 관련된 SNR의 평균을 계산함으로써 추정된다.
본 발명의 실시예에서, 적응 코드북은 전처리 스테이지에서 결정된 피치 지연에 의해 과거로 시프트되는 가중된 오디오 신호의 부분의 버전에 기초하여 근사화될 수 있고, 적응 코드북 이득은 가중된 오디오 신호의 부분과 근사화된 적응 코드북 사이의 에러가 최소화되도록 추정되며, 추정된 적응 코드북 왜곡은 가중된 오디오 신호의 부분 적응 코드북 이득에 의해 스케일링되는 근사화된 적응 코드북 사이의 에너지에 기초하여 결정된다. 따라서, 추정된 적응 코드북 왜곡은 낮은 복잡도로 결정될 수 있다.
발명자는 ACELP 알고리즘과 같은 제 2 인코딩 알고리즘을 사용하여 오디오 신호의 부분을 인코딩 및 디코딩할 경우에 획득될 수 있는 세그먼트 SNR과 같은 품질 측정치가 이의 임의의 조합으로 상술한 특징을 이용하여 적절한 방식으로 추정될 수 있다는 것을 인식하였다.
본 발명의 실시예에서, 히스테리시스 메커니즘은 추정된 품질 측정치를 비교할 시에 사용된다. 이것은 어떤 알고리즘이 보다 안정적으로 사용될 수 있는지를 결정할 수 있다. 히스테리시스 메커니즘은 추정된 품질 측정치(예를 들어 이 사이의 차이)와, 이전의 결정에 대한 통계, 시간적 고정 프레임의 수, 프레임 내의 과도 프레임과 같은 다른 파라미터에 의존할 수 있다. 이러한 히스테리시스 메커니즘이 관계하는 한, 예를 들어, WO 2012/110448 A1에 대한 참조가 행해질 수 있다.
본 발명의 실시예에서, 오디오 신호를 코딩하기 위한 인코더는 장치(10), 제 1 인코딩 알고리즘을 수행하기 위한 스테이지 및 제 2 인코딩 알고리즘을 수행하기 위한 스테이지를 포함하며, 인코더는 제어기(16)에 의한 선택에 따라 제 1 인코딩 알고리즘 또는 제 2 인코딩 알고리즘을 이용하여 오디오 신호의 부분을 인코딩하도록 구성된다. 본 발명의 실시예에서, 인코딩 및 디코딩하기 위한 시스템은 오디오 신호의 부분의 인코딩된 버전과, 지시된 알고리즘을 이용하여 오디오 신호의 부분을 인코딩하고 오디오 신호의 부분의 인코딩된 버전을 디코딩하는데 사용되는 알고리즘의 지시를 수신하도록 구성된 인코더 및 디코더를 포함한다.
도 1에 도시되고 (필터(2)를 제외하고) 상술한 바와 같은 개방 루프 모드 선택은 이전의 출원 PCT/EP2014/051557에 설명되어 있다. 이러한 알고리즘은 프레임 단위로 ACELP 및 TCX와 같은 두 모드 사이에서 선택하는데 사용된다. 이러한 선택은 ACELP 및 TCX의 모두의 세그먼트 SNR의 추정에 기초할 수 있다. 최고 추정되는 세그먼트 SNR을 가진 모드가 선택된다. 선택적으로, 히스테리시스 메커니즘은 보다 강력한 선택을 제공하기 위해 사용될 수 있다. ACELP의 세그먼트 SNR은 적응 코드북 왜곡의 근사치와 혁신적인 코드북 왜곡의 근사치를 이용하여 추정될 수 있다.
적응 코드북은 피치 분석 알고리즘에 의해 추정된 피치 지연을 이용하여 가중된 신호 도메인에서 근사화될 수 있다. 왜곡은 최적의 이득을 추정하는 가중된 신호 도메인에서 계산될 수 있다. 그 후, 왜곡은 일정한 인수만큼 감소되어, 혁신적인 코드북 왜곡에 근사화할 수 있다. TCX의 세그먼트 SNR은 실제 TCX 인코더의 간소화된 버전을 사용하여 추정될 수 있다. 입력 신호는 먼저 MDCT로 변형되고, 그 다음 가중된 LPC 필터를 사용하여 형성할 수 있다. 마지막으로, 왜곡은 글로벌 이득 및 글로벌 이득 추정기를 사용하여 가중된 MDCT 도메인에서 추정될 수 있다.
이전의 출원에서 설명된 바와 같은 이러한 개방 루프 모드 선택 알고리즘은 시간의 대부분을 예상된 결정에 제공하고, 음성형 및 과도형 신호에서 ACELP를 선택하며, 음악형 및 잡음형 신호에서 TCX를 선택한다는 것이 밝혀졌다. 그러나, 발명자는 ACELP이 때때로 일부 고조파 음악 신호에사 선택되는 경우가 발생할 수 있다는 것을 인식하였다. 이러한 신호에서 적응 코드북은 일반적으로 고조파 신호의 높은 예측 가능성으로 인해 높은 예측 이득을 가지고, 낮은 왜곡을 생성시켜 TCX보다 더 높은 세그먼트 SNR을 생성시킨다. 그러나, TCX는 대부분 고조파 음악 신호에서 더 나은 소리를 내며, 그래서 TCX는 이러한 경우에 바람직하다.
따라서, 본 발명은 고조파를 감소시키기 위해 필터링되는 입력 신호의 버전을 사용하여 제 1 품질 측정치로서 SNR 또는 세그먼트 SNR의 추정을 수행하도록 제안한다. 따라서, 고조파 음악 신호에 대한 개선된 모드 선택이 획득될 수 있다.
일반적으로, 고조파를 감소시키기 위한 임의의 적절한 필터가 사용될 수 있다. 본 발명의 실시예에서, 필터는 장기 예측 필터이다. 장기 예측 필터의 간단한 일례는 다음과 같다.
F(z) = 1 - g ·z-T
여기서 필터 파라미터는 오디오 신호로부터 결정되는 이득 "g" 및 피치 지연 "T"이다.
본 발명의 실시예는 TCX 세그먼트 SNR 추정에서 MDCT 분석 전에 오디오 신호에 적용되는 장기 예측 필터에 기초한다. 장기 예측 필터는 MDCT 분석 전에 입력 신호의 고조파의 진폭을 감소시킨다. 결과적으로 가중된 MDCT 도메인에서의 왜곡은 감소된다. TCX의 추정된 세그먼트 SNR은 증가되고, 마지막으로 TCX는 고조파 음악 신호에 더 자주 선택된다.
본 발명의 실시예에서, 장기 예측 필터의 전달 함수는 피치 지연의 정수 부분과 피치 지연의 소수 부분에 따른 다중 탭 필터를 포함한다. 이것은 정수 부분이 정상 샘플링 레이트 프레임워크(z-Tint)에만 사용되기 때문에 효율적인 구현을 허용한다. 동시에, 다중 탭 필터의 소수 부분의 사용으로 인한 높은 정밀도가 달성될 수 있다. 다중 탭 필터의 소수 부분을 고려함으로써, 고조파의 에너지의 제거는 고조파에 가까운 부분의 에너지의 제거가 회피될 동안에 달성될 수 있다.
본 발명의 실시예에서, 장기 예측 필터는 다음과 같이 설명된다:
P(z) = 1 - βgB(z, Tfr)z-Tint
여기서, Tint 및 Tfr은 피치 지연의 정수 및 소수 부분이고, g는 이득이고, β는 장기 예측 필터의 강도를 제어하는 가중치이며, B(z, Tfr)는 계수가 피치 지연의 소수 부분에 의존하는 FIR 저역 통과 필터이다. 이러한 장기 예측 필터의 실시예에 대한 더 상세한 사항은 아래에서 설명될 것이다.
피치 지연 및 이득은 프레임 단위로 추정될 수 있다.
예측 필터는 하나 이상의 조화도 측정치(예를 들어 정규화 상관 관계 또는 예측 이득) 및/또는 하나 이상의 시간적 구조 측정치(예를 들어 시간적 평탄도 측정치 또는 에너지 변화)의 조합에 기초하여 비활성화될 수 있다(이득=0).
필터는 프레임 단위로 입력 오디오 신호에 적용될 수 있다. 필터 파라미터가한 프레임에서 다음 프레임으로 변경하는 경우, 불연속성은 두 프레임 사이의 경계에서 도입될 수 있다. 실시예에서, 장치는 필터에 의해 생성된 오디오 신호의 불연속성을 제거하기 위한 유닛을 더 포함한다. 가능한 불연속성을 제거하기 위해, 임의의 기술은 US5012517, EP0732687A2, US5999899A 또는 US7353168B2에 기재된 것과 유사한 기술과 같이 사용될 수 있다. 가능한 불연속성을 제거하기 위한 다른 기술은 아래에 설명된다.
도 3을 상세히 참조하여 제 1 추정기(12) 및 제 2 추정기(14)의 실시예를 설명하기 전에, 인코더(20)의 실시예는 도 2를 참조하여 설명한다.
인코더(20)는 제 1 추정기(12), 제 2 추정기(14), 제어기(16), 전처리 유닛(22), 스위치(24), TCX 알고리즘을 수행하도록 구성된 제 1 인코더 스테이지(26), ACELP 알고리즘을 수행하도록 구성된 제 2 인코더 스테이지(28), 및 출력 인터페이스(30)를 포함한다. 전처리 유닛(22)은 공통 USAC 인코더의 부분일 수 있고, LPC 계수, 가중된 LPC 계수, 가중된 오디오 신호, 및 피치 지연의 세트를 출력하도록 구성될 수 있다. 이러한 파라미터의 모두는 두 인코딩 알고리즘, 즉 TCX 알고리즘 및 ACELP 알고리즘에 사용되는 것이 주목되어야 한다. 따라서, 이러한 파라미터는 추가적으로 개방 루프 모드 결정을 위해 계산될 필요가 없다. 개방 루프 모드 결정에서 이미 계산된 파라미터를 사용하는 이점은 복잡도를 절약한다.
도 2에 도시된 바와 같이, 장치는 고조파 감소 필터(2)를 포함한다. 장치는 하나 이상의 조화도 측정치(예를 들어 정규화 상관 관계 또는 예측 이득) 및/또는 하나 이상의 시간적 구조 측정치(예를 들어 시간적 평탄도 측정치 또는 에너지 변화)의 조합에 기초하여 고조파 감소 필터(2)를 비활성화하기 위한 선택적 비활성화 유닛(4)을 더 포함한다. 장치는 오디오 신호의 필터링된 버전으로부터 불연속성을 제거하기 위한 선택적 불연속성 제거 유닛(6)을 포함한다. 게다가, 장치는 선택적으로 고조파 감소 필터(2)의 필터 파라미터를 추정하기 위한 유닛(8)을 포함한다. 도 2에서, 이러한 구성 요소(2, 4, 6 및 8)는 제 1 추정기(12)의 부분인 것으로서 도시된다. 이러한 구성 요소는 제 1 추정기에서 외부 또는 별개로 구현될 수 있고, 오디오 신호의 필터링된 버전을 제 1 추정기에 제공하도록 구성될 수 있다는 것은 말할 것도 없다.
입력 오디오 신호(40)는 입력 라인 상에 제공된다. 입력 오디오 신호(40)는 제 1 추정기(12), 전처리 유닛(22) 및 두 인코더 스테이지(26, 28)에 인가된다. 제 1 추정기(12)에서, 입력 오디오 신호(40)는 필터(2)에 인가되고, 입력 오디오 신호의 필터링된 버전은 제 1 품질 측정치를 추정하는데 사용된다. 필터가 비활성화 유닛(4)에 의해 비활성화되는 경우에, 입력 오디오 신호(40)는 입력 오디오 신호의 필터링된 버전보다는 제 1 품질 측정치를 추정하는데 사용된다. 전처리 유닛(22)은 LPC 계수와 가중된 LPC 계수(42)를 유도하고, 가중된 오디오 신호(44)를 획득하기 위해 가중된 LPC 계수(42)로 오디오 신호(40)를 필터링하도록 통상적인 방식으로 입력 오디오 신호를 처리한다. 전처리 유닛(22)은 가중된 LPC 계수(42), 가중된 오디오 신호(44) 및 피치 지연(48)의 세트를 출력한다. 당업자에 의해 이해되는 바와 같이, 가중된 LPC 계수(42) 및 가중된 오디오 신호(44)는 프레임 또는 서브프레임으로 세그먼트될 수 있다. 세그멘테이션은 적절한 방식으로 오디오 신호를 윈도잉함으로써 획득될 수 있다.
대안적 실시예에서, 오디오 신호의 필터링된 버전에 기초하여 가중된 LPC 계수 및 가중된 오디오 신호를 생성하도록 구성되는 전처리기가 제공될 수 있다. 그 후, 오디오 신호의 필터링된 버전에 기초하는 가중된 LPC 계수 및 가중된 오디오 신호는 가중된 LPC 계수(42) 및 가중된 오디오 신호(44)보다는 제 1 품질 측정치를 추정하기 위해 제 1 추정기에 인가된다.
본 발명의 실시예에서, 양자화된 LPC 계수 또는 양자화된 가중된 LPC 계수가 사용될 수 있다. 따라서, 용어 "LPC 계수"는 또한 "양자화된 LPC 계수"를 포함하도록 의도되고, 용어 "가중된 LPC 계수"는 또한 "가중된 양자화된 LPC 계수"를 포함하도록 의도되는 것으로 이해되어야 한다. 이런 점에서, USAC의 TCX 알고리즘은 MCDT 스펙트럼을 형성하기 위해 양자화된 가중된 LPC 계수를 사용한다는 점을 주목할 필요가 있다.
제 1 추정기(12)는 오디오 신호(40), 가중된 LPC 계수(42) 및 가중된 오디오 신호(44)를 수신하고, 이에 기초하여 제 1 품질 측정치(46)를 추정하며, 제 1 품질 측정치를 제어기(16)로 출력한다. 제 2 추정기(14)는 가중된 오디오 신호(44) 및 피치 지연(48)의 세트를 수신하고, 이에 기초하여 제 2 품질 측정치(50)를 추정하며, 제 2 품질 측정치(50)를 제어기(16)로 출력한다. 당업자에게는 알려져 있는 바와 같이, 가중된 LPC 계수(42), 가중된 오디오 신호(44) 및 피치 지연(48)의 세트는 이미 이전의 모듈(즉 전처리 유닛(22))에서 계산되며, 따라서 비용 없이 이용 가능하다.
제어기는 수신된 품질 측정치의 비교에 기초하여 TCX 알고리즘 또는 ACELP 알고리즘을 선택하도록 결정한다. 상술한 바와 같이, 제어기는 어떤 알고리즘을 사용할지를 결정할 시에 히스테리시스 메커니즘을 사용할 수 있다. 제 1 인코더 스테이지(26) 또는 제 2 인코더 스테이지(28)의 선택은 제어기(16)에 의해 출력되는 제어 신호(52)에 의해 제어되는 스위치(24)에 의해 도 2에 개략적으로 도시된다. 제어 신호(52)는 제 1 인코더 스테이지(26)가 사용되는지 제 2 인코더 스테이지(28)가 사용되는지를 나타낸다. 제어 신호(52)에 기초하여, 도 2에서 화살표(54)로 개략적으로 나타내고, 적어도 LPC 계수, 가중된 LPC 계수, 오디오 신호, 가중된 오디오 신호, 피치 지연의 세트를 포함하는 필요한 신호는 제 1 인코더 스테이지(26) 또는 제 2 인코더 스테이지(28)에 인가된다. 선택된 인코더 스테이지는 관련된 인코딩 알고리즘을 적용하고, 인코딩된 표현(56)을 출력 인터페이스(30)로 출력한다. 출력 인터페이스(30)는 다른 데이터 중에서 인코딩된 표현(56 또는 58), LPC 계수 또는 가중된 LPC 계수, 선택된 인코딩 알고리즘에 대한 파라미터 밀 선택된 인코딩 알고리즘에 관한 정보를 포함할 수 있는 인코딩된 오디오 신호(60)를 출력하도록 구성될 수 있다.
제 1 및 제 2 품질 측정치가 가중된 신호 영역에서의 세그먼트 SNR인 제 1 및 제 2 품질 측정치를 추정하기 위한 특정 실시예는 이제 도 3을 참조하여 설명된다. 도 3은 제 1 추정기(12) 및 제 2 추정기(14)와, 각각의 추정 단계별을 나타내는 흐름도의 형태로 이의 기능을 도시한다.
TCX 세그먼트 SNR 의 추정
제 1(TCX) 추정기는 오디오 신호(40)(입력 신호), 가중된 LPC 계수(42) 및 가중된 오디오 신호(44)를 입력으로서 수신한다. 오디오 신호(40)의 필터링된 버전은 단계(98)에서 생성된다. 오디오 신호(40)의 필터링된 버전에서, 고조파는 감소되거나 억제된다.
오디오 신호(40)는 하나 이상의 조화도 측정치(예를 들어 정규화 상관 관계 또는 예측 이득) 및/또는 하나 이상의 시간적 구조 측정치(예를 들어 시간적 평탄도 측정치 또는 에너지 변화)를 결정하기 위해 분석될 수 있다. 이러한 측정치 중 하나 또는 이러한 측정치의 조합에 기초하여 필터(2) 및 따라서 필터링(98)이 비활성화될 수 있다. 필터링(98)이 비활성화되면, 제 1 품질 측정치의 추정은 이의 필터링된 버전보다는 오디오 신호(40)를 사용하여 수행된다.
본 발명의 실시예에서, (도 3에 도시되지 않은) 불연속성을 제거하는 단계는 필터링(98)으로부터 생성할 수 있는 오디오 신호의 불연속성을 제거하기 위해 필터링(98)을 따를 수 있다.
단계(100)에서, 오디오 신호(40)의 필터링된 버전은 윈도잉된다. 윈도잉은 10ms의 낮은 오버랩 사인 윈도우로 발생할 수 있다. 과거 프레임이 ACELP인 경우, 블록의 크기는 5ms만큼 증가될 수 있고, 윈도우의 좌측은 직사각형일 수 있고, ACELP 합성 필터의 윈도잉된 제로 임펄스 응답은 윈도잉된 입력 신호로부터 제거될 수 있다. 이것은 TCX 알고리즘에서 행해지는 것과 유사하다. 오디오 신호의 부분을 나타내는 오디오 신호(40)의 필터링된 버전의 프레임은 단계(100)로부터 출력된다.
단계(102)에서, 윈도잉된 오디오 신호, 즉 생성된 프레임은 MDCT(수정된 이산 코사인 변환)로 변환된다. 단계(104)에서 스펙트럼 형상화(spectrum shaping)는 가중된 LPC 계수로 MDCT 스펙트럼를 형상화함으로써 수행된다.
단계(106)에서, 글로벌 이득 G는 이득 G로 양자화되는 가중된 스펙트럼이 엔트로피 코더, 예를 들어 산술 코더로 인코딩될 때 주어진 타겟 R을 생성하도록 추정된다. 용어 "글로벌 이득"은 하나의 이득이 전체 프레임에 대해 결정되기 때문에 사용된다.
글로벌 이득 추정의 구현의 일례가 이제 설명된다. 이러한 글로벌 이득 추정은 TCX 인코딩 알고리즘이 산술 인코더를 가진 스칼라 양자화기를 사용하는 실시예에 적절하다는 것이 주목되어야 한다. 산술 인코더를 가진 이러한 스칼라 양자화기는 MPEG USAC 표준에서 추정된다.
초기화
첫째로, 이득 추정에 사용된 변수는 다음에 의해 초기화된다.
1. Set en[i] = 9.0 + 10.0*log10(c[4*i+0] + c[4*i+1] + c[4*i+2] + c[4*i+3]),
여기서, 0<=i<L/4, c[] 는 양자화하기 위한 계수의 벡터이고, L은 c[]의 길이이다.
2. Set fac = 128, offset = fac 및 target = 임의의 값(예를 들어 1000)
반복
그 후, 연산의 다음의 블록은 NITER 번 수행된다(예를 들어 여기서, NITER = 10).
1. fac = fac/2
2. offset = offset - fac
3. ener = 0
4. 모든 i에 대해, 0<=i<L/4은 다음을 수행한다:
en[i]-offset > 3.0이면, ener = ener + en[i]-offset
5. ener > target이면, offset = offset + fac
반복의 결과치는 오프셋 값이다. 반복 후, 글로벌 이득은 G = 10^(offset/20)으로 추정된다.
글로벌 이득이 추정되는 특정 방식은 양자화기 및 사용된 엔트로피 코더에 따라 달라질 수 있다. MPEG USAC 표준에서는, 산술 인코더를 가진 스칼라 양자화기가 추정된다. 다른 TCX 접근 방식은 서로 다른 양자화기를 사용할 수 있고, 이러한 서로 다른 양자화기에 대한 글로벌 이득을 추정하는 방법을 당업자는 이해한다. 예를 들면, AMR-WB+ 표준은 RE8 격자 양자화기가 사용되는 것으로 추정한다. 이러한 양자화기에 대해, 3GPP TS 26.290 V6.1.0 2004-12의 페이지 34에서 챕터 5.3.5.7에 기재된 바와 같이 글로벌 이득의 추정법이 추정될 수 있으며, 여기서 고정된 타겟 비트레이트가 추정된다.
단계(106)에서 글로벌 이득을 추정한 후, 왜곡 추정은 단계(108)에서 일어난다. 특히, 양자화 왜곡은 추정된 글로벌 이득에 기초하여 근사화된다. 본 실시예에서, 균일한 스칼라 양자화기가 사용되는 것으로 추정된다. 따라서, 양자화 왜곡은 간단한 식 D = G*G/12로 결정되며, 여기서 D는 결정된 양자화 왜곡을 나타내고, G는 추정된 글로벌 이득을 나타낸다. 이것은 균일한 스칼라 양자화 왜곡의 높은 레이트의 근사치에 대응한다.
결정된 양자화 왜곡에 기초하여, 세그먼트 SNR 계산은 단계(110)에서 수행된다. 프레임의 각각의 서브프레임의 SNR은 가중된 오디오 신호의 에너지와 서브프레임에서 일정한 것으로 추정되는 왜곡 D의 비율로서 계산된다. 예를 들면, 프레임은 4개의 연속 서브프레임으로 분할된다(도 4 참조). 세그먼트 SNR은 4개의 서브프레임의 SNR의 평균이고, dB로 나타낼 수 있다.
이러한 접근 방식은 TCX 알고리즘을 사용하여 대상 프레임을 실제로 인코딩 및 디코딩할 때, 그러나 실제로는 오디오 신호를 인코딩 및 디코딩할 필요가 없이, 따라서 상당히 감소된 복잡도 및 감소된 계산 시간으로 획득되는 제 1 세그먼트 SNR의 추정을 허용한다.
ACELP 세그먼트 SNR 의 추정
제 2 추정기(14)는 가중된 오디오 신호(44)와, 이미 전처리 유닛(22)에서 계산되는 피치 지연(48)의 세트를 수신한다.
단계(112)에 도시된 바와 같이, 각각의 서브프레임에서, 적응 코드북은 단순히 가중된 오디오 신호 및 피치 지연 T를 사용함으로써 근사화된다. 적응 코드북은 다음에 의해 근사화된다.
xw(n-T), n = 0, ..., N
여기서, xw는 가중된 오디오 신호이고, T는 대응하는 서브프레임의 피치 지연이고, N은 서브프레임의 길이이다. 따라서, 적응 코드북은 T에 의해 과거로 시프트되는 서브프레임의 버전을 사용함으로써 근사화된다. 따라서, 본 발명의 실시예에서, 적응 코드북은 매우 간단한 방식으로 근사화된다.
단계(114)에서, 각각의 서브프레임에 대한 적응 코드북 이득이 결정된다. 특히, 각각의 서브프레임에서, 코드북 이득 G는 가중된 오디오 신호와 근사화된 적응 코드북 사이의 에러를 최소화하도록 추정된다. 이것은 각각의 샘플에 대해 두 신호 사이의 차이를 간단히 비교하고, 이러한 차이의 합이 최소화되도록 이득을 찾음으로써 행해질 수 있다.
단계(116)에서, 각각의 서브프레임에 대한 적응 코드북 왜곡이 결정된다. 각각의 서브프레임에서, 적응 코드북에 의해 도입된 왜곡 D는 단순히 가중된 오디오 신호와 이득 G에 의해 스케일링되는 근사화된 적응 코드북 사이의 에러의 에너지이다.
단계(116)에서 결정된 왜곡은 혁신적인 코드북을 고려하기 위해 선택적인 단계(118)에서 조정될 수 있다. ACELP 알고리즘에 사용된 혁신적인 코드북의 왜곡은 상수 값으로 간단히 추정될 수 있다. 본 발명의 설명된 실시예에서, 혁신적인 코드북은 일정한 인수만큼 왜곡 D를 감소시킨다는 것이 간단히 추정된다. 따라서, 각각의 서브프레임에 대한 단계(116)에서 획득된 왜곡은 단계(118)에서 0 내지 1의 정도의 일정한 인수, 예컨대 0.055와 곱해질 수 있다.
단계(120)에서, 세그먼트 SNR의 계산이 일어난다. 각각의 서브프레임에서, SNR은 가중된 오디오 신호의 에너지와 왜곡 D의 비율로서 계산된다. 그 후, 세그먼트 SNR은 4개의 서브프레임의 SNR의 평균이고, dB로 나타낼 수 있다.
이러한 접근 방식은 ACELP 알고리즘을 사용하여 대상 프레임을 실제로 인코딩 및 디코딩할 때, 그러나 실제로는 오디오 신호를 인코딩 및 디코딩할 필요가 없이, 따라서 상당히 감소된 복잡도 및 감소된 계산 시간으로 획득되는 제 2 세그먼트 SNR의 추정을 허용한다.
제 1 및 제 2 추정기(12 및 14)는 추정된 세그먼트 SNR(46,50)을 제어기(16)로 출력하고, 제어기(16)는 추정된 세그먼트 SNR(46,50)에 기초하여 오디오 신호의 관련된 부분에 어떤 알고리즘이 사용되는지를 결정한다. 제어기는 선택적으로 결정을 보다 안정하게 하기 위해 히스테리시스 메커니즘을 사용할 수 있다. 예를 들면, 폐루프 결정과 동일한 히스테리시스 메커니즘은 약간 서로 다른 튜닝(tuning) 파라미터로 사용될 수 있다. 이러한 히스테리시스 메커니즘은 추정된 세그먼트 SNR에 의존할 수 있는 값 "dsnr"(예컨대, 이 사이의 차이)과, 이전의 결정에 대한 통계, 시간적 고정 프레임의 수 및 프레임의 과도 프레임과 같은 다른 파라미터를 계산할 수 있다.
히스테리시스 메커니즘없이, 제어기는 더 높은 추정된 SNR을 갖는 인코딩 알고리즘을 선택할 수 있으며, 즉 ACELP는 제 2 추정된 SNR이 제 1 추정된 SNR보다 더 높지 않을 경우에 선택되고, TCX는 제 1 추정된 SNR이 제 2 추정된 SNR보다 높을 경우에 선택된다. 히스테리시스 메커니즘에 의해, 제어기는 다음의 결정 규칙에 따라 인코딩 알고리즘을 선택할 수 있으며, acelp_snr은 제 2 추정된 SNR이고, tcx_snr은 제 1 추정된 SNR이다.
acelp_snr + dsnr> tcx_snr이면, ACELP를 선택하고, 그렇지 않은 경우는 TCX를 선택한다.
고조파의 진폭을 감소시키기 위한 필터의 파라미터의 결정
고조파의 진폭을 감소시키기 위해 필터의 파라미터를 결정하기 위한 실시예가 이제 설명된다. 필터 파라미터는 유닛(8)에서와 같이 인코더측에서 추정될 수 있다.
피치 추정
프레임 당 하나의 피치 지연(정수 부분 + 소수 부분)은 추정된다(프레임 크기, 예를 들어 20ms). 이것은 복잡도을 감소시키고 추정 정확도를 향상시키기 위해 3 단계로 수행된다.
a) 먼저 피치 지연의 정수 부분의 추정
평활한 피치 에볼루션 윤곽(smooth pitch evolution contour)을 생성하는 피치 분석 알고리즘(예를 들어 REC. ITU-T G.718, sec. 6.6에서 설명된 개방 루프 피치 분석)이 이용된다. 이러한 분석은 일반적으로 서브프레임 단위(서브프레임 크기, 예를 들어 10ms)에서 수행되고, 서브프레임 당 하나의 피치 지연 추정을 생성한다. 이러한 피치 지연 추정치는 임의의 소수 부분을 갖지 않고 일반적으로 다운샘플링된 신호(샘플링 레이트, 예를 들어 6400Hz) 상에서 추정된다는 것을 주목한다. 사용된 신호는 임의의 오디오 신호, 예를 들어 REC. ITU-T G.718, sec. 6.5에서 설명된 바와 같은 LPC 가중된 오디오 신호일 수 있다.
b) 피치 지연의 정수 부분의 Tint의 세분할(refinement)
피치 지연의 최종 정수 부분은 a) (예를 들어 12.8kHz, 16kHz, 32kHz...)에 사용된 다운샘플링된 신호의 샘플링 레이트보다 일반적으로 높은 코어 인코더 샘플링 레이트로 실행하는 오디오 신호 x[n]에서 추정된다. 신호 x[n]은 임의의 오디오 신호, 예를 들어 LPC 가중된 오디오 신호일 수 있다.
그 후, 피치 지연의 정수 부분 Tint은 자기 상관 함수를 최대화하는 지연이고
Figure 112015112346894-pct00001
피치 지연 T 주위의 d는 (a)에서 추정된다.
T - δ1≤ d ≤ T + δ2
c) 피치 지연의 소수 부분 Tfr의 추정
소수 부분 Tfr은 단계 b)에서 계산된 자기 상관 함수 C(d))를 보간하고, 보간된 자기 상관 함수를 최대화하는 소수 피치 지연을 선택함으로써 발견된다. 보간은 예를 들어 REC. ITU-T G.718, sec. 6.6.7에서 설명된 바와 같이 저역 통과 FIR 필터를 사용하여 수행될 수 있다.
이득 추정 및 양자화
이득은 일반적으로 코어 인코더 샘플링 레이트로 입력 오디오 신호 상에서 추정되고, 또한 LPC 가중된 오디오 신호와 같은 임의의 오디오 신호일 수 있다. 이러한 신호는 y[n]으로 언급되고, x[n]과 동일하거나 상이할 수 있다.
y[n]의 예측 yp[n]은 먼저 다음의 필터로 y[n]을 필터링함으로써 발견된다
P(z) = B(z, Tfr)z-Tint
Tint는 (b에서 추정되는) 피치 지연의 정수 부분이고, B(z, Tfr)는 계수가 (c에서 추정되는) 피치 지연 Tfr의 소수 부분에 의존하는 저역 통과 FIR 필터이다.
피치 지연 해상도가 ¼일 때의 B(z)의 일례:
Tfr = 0/4 B(z) = 0.0000z-2 + 0.2325z-1 + 0.5349z0 + 0.2325z1
Tfr = 1/4 B(z) = 0.0152z-2 + 0.3400z-1 + 0.5094z0 + 0.1353z1
Tfr = 2/4 B(z) = 0.0609z-2 + 0.4391z-1 + 0.4391z0 + 0.0609z1
Tfr = 3/4 B(z) = 0.1353z-2 + 0.5094z-1 + 0.3400z0 + 0.0152z1
그리고 나서, 이득 g는 다음과 같이 계산된다:
Figure 112015112346894-pct00002
이는 0과 1 사이로 제한된다.
마지막으로, 이득 g는 예를 들어 균일한 양자화를 이용하여 예를 들어 2 비트에서 양자화된다.
β는 필터의 세기를 제어하는데 사용된다. 1과 동일한 β는 전체 효과를 생성한다. 0과 동일한 β는 필터를 비활성화한다. 따라서, 본 발명의 실시예에서, 필터는 ß를 0의 값으로 설정함으로써 비활성화될 수 있다, 본 발명의 실시예에서, 필터가 활성화되면, ß는 0.5와 0.75 사이의 값으로 설정될 수 있다. 본 발명의 실시예에서, 필터가 활성화되면, ß는 0.625의 값으로 설정될 수 있다. B(z,Tfr)의 예는 위에 제공되어 있다. B(z,Tfr)의 순서 및 계수는 또한 비트레이트 및 출력 샘플링 레이트에 의존할 수 있다. 서로 다른 주파수 응답은 비트레이트 및 출력 샘플링 레이트의 각각의 조합을 위해 설계되고 튜닝될 수 있다.
필터의 비활성화
필터는 하나 이상의 조화도(harmonicity) 측정치 및/또는 하나 이상의 시간적 구조 측정치의 조합에 기초하여 비활성화될 수 있다. 이러한 측정치의 예는 아래에서 설명된다:
i) 정수 피치 지연에서의 정규화된 상관 관계와 같은 조화도 측정치는 단계 b에서 추정된다.
Figure 112015112346894-pct00003
정규화된 상관 관계는 입력 신호가 정수 피치 지연에 의해 완벽하게 예측 가능한 경우에는 1이고, 전혀 예측할 수 없는 경우에는 0이다. 그 후, (1에 가까운) 높은 값은 고조파 신호를 나타낸다. 더욱 강력한 결정을 위해, 과거 프레임의 정규화된 상관 관계는 또한 다음의 결정 시에 사용될 수 있다:
예를 들어 (norm.corr(curr.)*norm.corr.(prev.))>0.25인 경우, 필터는 비활성화되지 않는다.
ⅱ) 예를 들어 에너지 샘플에 기초하여 계산되는 시간적 구조 측정치는 또한 과도 검출(예를 들어 시간적 평탄도 측정치, 에너지 변화)을 위한 과도 검출기에 의해 사용된다:
예를 들어 (시간적 평탄도 측정치 > 3.5 이상의 에너지 변화 > 3.5)이면, 필터는 비활성화된다.
하나 이상의 조화도 측정치의 결정에 관한 더 상세한 사항은 아래에서 설명된다.
조화도의 측정치는 예를 들어 오디오 신호 또는 피치 지연에서나 주위에서의 이의 사전 수정된 버전의 정규화된 상관 관계에 의해 계산된다. 피치 지연은 심지어 제 1 스테이지 및 제 2 스테이지를 포함하는 스테이지에서 결정될 수 있으며, 제 1 스테이지 내에서, 피치 지연의 예비 추정은 제 1 샘플 레이트의 다운샘플링된 도메인에서 결정되고, 제 2 스테이지 내에서, 피치 지연의 예비 추정은 제 1 샘플 레이트보다 높은 제 2 샘플 레이트에서 세분할된다. 피치 지연은 예를 들어 자기 상관 관계를 이용하여 결정된다. 적어도 하나의 시간적 구조 측정치는 예를 들어 피치 정보에 따라 시간적으로 배치되는 시간적 영역 내에서 결정된다. 시간적 영역의 시간적 과거 헤드 엔드(past-heading end)는 예를 들어 피치 정보에 따라 배치된다. 시간적 영역의 시간적 과거 헤드 엔드는 시간적 영역의 시간적 과거 헤드 엔드가 피치 정보의 증가에 따라 단조롭게 증가하는 시간 량만큼 과거 방향으로 변위되도록 배치될 수 있다. 시간적 영역의 시간적 미래 헤드 엔드(future-heading end)는 시간적 영역 또는, 시간적 구조 측정치의 결정으로의 높은 영향의 영역의 시간적 과거 헤드 엔드로부터 현재 프레임의 시간적 미래 헤드 엔드로 연장하는 시간적 후보 영역 내에서 오디오 신호의 시간적 구조에 따라 위치될 수 있다. 시간적 후보 영역 내의 최대 에너지와 최소 에너지 샘플 사이의 진폭 또는 비율은 이것을 위해 사용될 수 있다. 예를 들면, 적어도 하나의 시간적 구조 측정치는 시간적 영역 내에서 오디오 신호의 평균 또는 최대 에너지 변화를 측정할 수 있고, 적어도 하나의 시간적 구조 측정치가 미리 정해진 제 1 임계값보다 작고, 조화도의 측정치가 현재 프레임 및/또는 이전의 프레임에 대해 제 2 임계값 위에 있을 경우에 비활성화의 조건은 충족될 수 있다. 조화도의 측정치가 현재 프레임에 대해 제 3 임계값 위에 있고, 조화도의 측정치가 현재 프레임 및/또는 이전의 프레임에 대해 피치 지연의 증가에 따라 감소하는 제 4 임계값 위에 있을 경우에 이러한 조건은 또한 충족된다.
측정치를 결정하기 위한 구체적인 실시예의 단계별 설명이 이제 제시된다.
단계 1. 과도 검출 및 시간적 측정치
입력 신호 SHP(n)는 시간 도메인 과도 검출기에 대한 입력이다. 입력 신호 SHP(n)는 고역 통과 필터링된다. 과도 검출의 HP 필터의 전달 함수는 다음에 의해 주어진다.
HTD(z) = 0.375 - 0.5z-1 + 0.125z-2 (1)
과도 검출의 HP 필터에 의해 필터링된 신호는 STD(n)로 표시된다. HP 필터링된 신호 STD(n)는 동일한 길이의 8개의 연속 세그먼트로 세그먼트된다. 각각의 세그먼트에 대한 HP 필터링된 신호 STD(n)의 에너지는 다음과 같이 계산된다:
Figure 112015112346894-pct00004
(2)
여기서, Lsegment =
Figure 112015112346894-pct00005
은 입력 샘플링 주파수에서의 2.5 밀리초 세그먼트의 샘플의 수이다.
축적된 에너지를 다음 식을 이용하여 계산된다:
EAcc = max(ETD(i-1),0.8125EAcc) (3)
어택(attack)은 세그먼트 ETD(i)의 에너지가 일정 인수 attackRatio = 8.5만큼 축적된 에너지를 초과하고, attackIndex은 i로 설정될 경우에 검출된다:
ETD(i)> attackRatio·EAcc (4)
위의 기준에 기초하여 어떤 어택도 검출되지 않지만, 강한 에너지 증가가 세그먼트 i에서 검출되면, attackIndex는 어택의 존재를 나타내지 않고 i로 설정된다. attackIndex는 기본적으로 어떤 추가적인 제한을 가진 프레임에서 마지막 어택의 위치로 설정된다.
각각의 세그먼트에 대한 에너지 변화는 다음과 같이 계산된다:
Figure 112015112346894-pct00006
(5)
시간적 평탄도 측정치는 다음과 같이 계산된다:
Figure 112015112346894-pct00007
(6)
최대 에너지 변화는 다음과 같이 계산된다:
Figure 112015112346894-pct00008
(7)
Echng(i) 또는 ETD(i)의 인덱스가 음이면, 그것은 현재 프레임에 대해 세그먼트 인덱싱한 이전의 세그먼트로부터의 값을 나타낸다.
Npast는 과거 프레임으로부터의 세그먼트의 수이다. 그것은 시간적 평탄도 측정치가 ACELP/TCX 결정의 사용에 대해 계산되는 경우에 0과 동일하다. 시간적 평탄도 측정치가 TCX LTP 결정에 대해 계산될 경우, 그것은 다음과 동일하다:
Figure 112015112346894-pct00009
(8)
Nnew는 현재 프레임으로부터의 세그먼트의 수이다. 그것은 비과도 프레임에 대해 8과 동일하다. 과도 프레임에 대해, 먼저 최대 및 최소의 에너지를 갖는 세그먼트의 위치가 발견된다:
Figure 112015112346894-pct00010
(9)
Figure 112015112346894-pct00011
(10)
ETD(imin)>0.375ETD(imax)이면, Nnew는 imax-3로 설정되고, 그렇지 않으면, Nnew는 8로 설정된다.
단계 2. 변환 블록 길이 스위칭
TCX의 오버랩 길이 및 변환 블록 길이는 과도 및 이의 위치의 존재에 의존한다.
표 1: 과도 위치에 기초한 오버랩 및 변환 길이의 코딩
attackIndex 다음의 프레임의 제 1
윈도우와의 오버랩
짧은/긴(short/long) 변환 결정(이진 코딩) 0-긴,1-짧은 오버랩 폭에 대한 이진 코드 오버랩 코드
없음 ALDO 0 0 00
-2 FULL 1 0 10
-1 FULL 1 0 10
0 FULL 1 0 10
1 FULL 1 0 10
2 MINIMAL 1 10 110
3 HALF 1 11 111
4 HALF 1 11 111
5 MINIMAL 1 10 110
6 MINIMAL 0 10 010
7 HALF 0 11 011
상술한 과도 검출기는 기본적으로 다수의 과도가 있는 경우 MINIMAL 오버랩은 FULL 오버랩보다 선호하는 HALF 오버랩보다 선호한다는 제한을 가진 마지막 어택의 인덱스를 반환한다. 2 또는 6에서의 어택이 충분히 강하지 않으면, MINIMAL 오버랩 대신에 HALF 오버랩이 선택된다.
단계 3. 피치 추정
프레임 당 하나의 피치 지연(정수 부분 + 소수 부분)은 복잡도를 감소시키고 추정 정확도를 향상시키기 위해 추정된다(3 단계 a) 내지 c)에서 상술한 바와 같은 프레임 크기, 예를 들어 20ms).
단계 4. 결정 비트
입력 오디오 신호가 임의의 고조파 콘텐츠를 포함하지 않거나 예측 기반 기술이 시간 구조의 왜곡(예를 들어 짧은 과도의 반복)을 도입하는 경우, 필터가 비활성화되는 결정이 취해진다.
결정은 정수 피치 지연 및 시간적 구조 측정치의 정규화된 상관 관계와 같은 다수의 파라미터에 기초하여 행해진다.
상술한 바와 같이 정수 피치 지연에서의 정규화된 상관 관계 norm_corr가 추정된다. 정규화된 상관 관계는 입력 신호가 정수 피치 지연에 의해 완벽하게 예측되는 경우에는 1이고, 전혀 예측할 수없는 경우에는 0이다. (1에 가까운) 높은 값은 고조파 신호를 나타낸다. 더욱 강력한 결정을 위해, 현재 프레임에 대한 정규화된 상관 관계(norm_corr(curr))와 비교하면, 과거 프레임의 정규화된 상관 관계(norm_corr(prev))는 또한 다음의 결정에서 이용될 수 있다. 예를 들면:
(norm_corr(curr)*norm_corr(prev))> 0.25
또는
max(norm_corr(curr),norm_corr(prev))> 0.5이면,
현재 프레임은 몇몇 고조파 콘텐츠를 포함한다.
시간적 구조 측정치는 강한 과도 또는 큰 시간 변화를 포함하는 신호에서 필터를 활성화하는 것을 방지하기 위해 과도 검출기(예를 들어 시간적 평탄도 측정치(식 (6)) 및 최대 에너지 변화 식(7))에 의해 계산될 수 있다. 시간적 특징은 현재 프레임(Nnew 세그먼트)와 피치 지연까지의 과거 프레임(Npast 세그먼트)을 포함하는 신호에서 계산된다. 천천히 감쇠하는 과도와 같은 단계의 경우, 특징의 모두 또는 일부는 LTP 필터링에 의해 도입된 스펙트럼의 비고조파 부분에서의 왜곡이 강한 오래 지속 과도(예를 들어 크래쉬 심벌(crash cymbal))의 마스킹에 의해 억제될 수 있기 때문에 과도(imax-3)의 위치까지만 계산된다.
낮은 피치 신호에 대한 펄스 트레인은 과도 검출기에 의한 과도로서 검출될 수 있다. 따라서, 낮은 피치를 가진 신호에 대해, 과도 검출기로부터의 특징은 무시되고, 대신에 예를 들어 다음의 피치 지연에 의존하는 정규화된 상관 관계에 대한 추가적인 임계값이 있다:
norm_corr<= 1.2-Tint/L이면, 필터를 활성화하지 않는다.
일례의 결정이 아래에 보여지며, 여기서 b1은 약간의 비트레이트, 예를 들어 48 kbps이고, TCX_20은 프레임이 단일의 긴 블록을 이용하여 코딩되는 것을 나타내고, TCX_10은 프레임이 2,3,4 이상의 짧은 블록을 이용하여 코딩되는 것을 나타내며, TCX_20/TCX_10 결정은 상술한 과도 검출기의 출력에 기초한다. tempFlatness은 (6)에서 정의된 바와 같은 시간적 평탄도 측정치이고, maxEnergyChange는 (7)에서 정의된 바와 같은 최대 에너지 변화이다. 조건 norm_corr(curr)> 1.2-Tint/L은 또한 (1.2-norm_corr(curr))*L<Tint로서 기록될 수 있다.
Figure 112015112346894-pct00012
그것은 장기 예측을 위한 결정 메커니즘이 사용되고, 신호의 어떤 부분이 결정에 이용되는 측정을 위해 사용되는 과도의 검출이 영향을 미치고, 장기 예측 필터의 비활성화를 직접 트리거하는 것이 아니라는 것을 위의 예로부터 명백해진다.
변환 길이 결정에 사용되는 시간적 측정치는 LTP 필터의 결정에 사용되는 시간적 측정치와 완전히 상이할 수 있거나, 오버랩하거나 정확하게 동일하지만 서로 다른 영역에서 계산될 수 있다. 낮은 피치 신호에 대해, 피치 지연에 의존하는 정규화된 상관 관계에 대한 임계값이 도달될 경우에 과도의 검출은 완전히 무시될 수 있다.
가능한 불연속성을 제거하기 위한 기술
한 프레임씩 선형 필터 H(z)를 적용함으로써 발생되는 불연속성을 제거하기 위한 가능한 기술이 이제 설명된다. 선형 필터는 설명된 LTP 필터일 수 있다. 선형 필터는 FIR(유한 임펄스 응답) 필터 또는 IIR(무한 임펄스 응답) 필터일 수 있다. 제안된 접근 방식은 과거 프레임의 필터 파라미터로 현재 프레임의 부분을 필터링하지 않으며, 따라서 알려진 접근 방식의 가능한 문제를 방지한다. 제안된 접근 방식은 불연속성을 제거하기 위해 LPC 필터를 사용한다. 이러한 LPC 필터는 (선형 시불변 필터 H(z)에 의해 필터링되거나 필터링되지 않는) 오디오 신호에서 추정되며, 따라서 (H(z)에 의해 필터링되거나 필터링되지 않는) 오디오 신호의 스펙트럼 형상의 양호한 모델이다. 그 후, 오디오 신호의 스펙트럼 형상이 불연속성을 마스크하도록 LPC 필터가 이용된다.
LPC 필터는 다양한 방식으로 추정될 수 있다. 그것은 예를 들어 오디오 신호(현재 및/또는 과거 프레임)과 Levinson-Durbin 알고리즘을 이용하여 추정될 수 있다. 그것은 또한 Levinson-Durbin 알고리즘을 이용하여 과거 필터링된 프레임 신호에서 계산될 수 있다.
H(z)가 오디오 코덱에 사용되고, 오디오 코덱이 이미 예를 들어 변환 기반의 오디오 코덱에서 양자화 잡음을 형성하기 위해 (양자화되거나 양자화되지 않은) LPC 필터를 사용하면, 이러한 LPC 필터는 새로운 LPC 필터를 추정하는데 필요한 추가적인 복잡도없이 불연속성을 평활화하는데 직접 사용될 수 있다.
FIR 필터 케이스 및 IIR 필터 케이스에 대한 현재 프레임의 처리에 대해서는 아래에서 설명된다. 과거 프레임은 이미 처리되는 것으로 추정된다.
FIR 필터 케이스:
1. 현재 프레임을 현재 프레임의 필터 파라미터로 필터링하고, 필터링된 현재 프레임을 생성한다.
2. 순서 M으로 (양자화되거나 양자화되지 않은) LPC 필터를 고려하고. (필터링되거나 필터링되지 않은) 오디오 신호 상에서 추정된다.
3. 과거 프레임의 M 마지막 샘플은 필터 H(z) 및 현재 프레임의 계수로 필터링되고, 필터링된 신호의 제 1 부분을 생성한다.
4. 그리고 나서, 필터링된 과거 프레임의 M 마지막 샘플은 필터링된 신호의 제 1 부분으로부터 감산되고, 필터링된 신호의 제 2 부분을 생성한다.
5. 그리고 나서, LPC 필터의 제로 임펄스 응답(ZIR)은 LPC 필터 및 필터링된 신호의 제 2 부분과 동일한 초기 상태로 제로 샘플의 프레임을 필터링함으로써 생성된다.
6. ZIR은 선택적으로 진폭이 0으로 빠르게 진행하도록 윈도잉될 수 있다.
7. ZIR의 시작 부분은 필터링된 현재 프레임의 대응하는 시작 부분으로부터 감산된다.
IIR 필터 케이스:
1. 순서 M으로 (양자화되거나 양자화되지 않은) LPC 필터를 고려하고. (필터링되거나 필터링되지 않은) 오디오 신호 상에서 추정된다.
2. 과거 프레임의 M 마지막 샘플은 필터 H(z) 및 현재 프레임의 계수로 필터링되고, 필터링된 신호의 제 1 부분을 생성한다.
3. 그리고 나서, 필터링된 과거 프레임의 M 마지막 샘플은 필터링된 신호의 제 1 부분으로부터 감산되고, 필터링된 신호의 제 2 부분을 생성한다.
4. 그리고 나서, LPC 필터의 제로 임펄스 응답(ZIR)은 LPC 필터 및 필터링된 신호의 제 2 부분과 동일한 초기 상태로 제로 샘플의 프레임을 필터링함으로써 생성된다.
5. ZIR은 선택적으로 진폭이 0으로 빠르게 진행하도록 윈도잉될 수 있다.
6. 그리고 나서, 현재 프레임의 시작 부분은 현재 프레임의 제 1 샘플로 시작하는 샘플마다 처리된다.
7. 샘플은 필터 H(z) 및 현재 프레임 파라미터로 필터링되고, 제 1 필터링된 샘플을 생성한다.
8. 그리고 나서, ZIR의 대응하는 샘플은 제 1 필터링된 샘플로부터 감산되고, 필터링된 현재 프레임의 대응하는 샘플을 생성한다.
9. 다음 샘플로 이동한다.
10. 현재 프레임의 시작 부분의 마지막 샘플이 처리될 때까지 9 내지 12를 반복한다.
11. 현재 프레임의 필터 파라미터로 현재 프레임의 나머지 샘플을 필터링한다.
따라서, 본 발명의 실시예는 간단하고 정확한 방식으로 세그먼트 SNR의 추정과 적절한 인코딩 알고리즘의 선택을 허용한다. 특히, 본 발명의 실시예는 적절한 코딩 알고리즘의 개방 루프 선택을 허용하며, 고조파를 갖는 오디오 신호의 경우에 코딩 알고리즘의 부적절한 선택은 회피된다.
위의 실시예에서, 세그먼트 SNR은 각각의 서브프레임에 대해 추정된 SNR의 평균을 계산함으로써 추정된다. 대안적 실시예에서, 전체 프레임의 SNR은 프레임을 서브프레임으로 분할하지 않고 추정될 수 있다.
본 발명의 실시예는 폐루프 선택에 필요한 다수의 단계가 생략되므로 폐루프 선택에 비해 계산 시간의 상당한 감소를 허용한다.
따라서, 다수의 단계 및 이와 관련된 계산 시간은 여전히 양호한 성능을 가진 적절한 인코딩 알고리즘의 선택을 허용하면서 본 발명의 접근 방식에 의해 절약될 수 있다.
일부 양태가 장치의 맥락에서 설명되었지만, 이러한 양태는 또한 대응하는 방법의 설명을 나타내는 것이 명백하여, 여기서 블록 또는 장치는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 맥락에서 설명된 양태는 또한 대응하는 블록 또는 항목의 설명 또는 대응하는 장치의 특징을 나타낸다.
본 명세서에서 설명된 장치의 실시예 및 이의 특징은 컴퓨터, 하나 이상의 프로세서, 하나 이상의 마이크로프로세서, 필드 프로그램 가능한 게이트 어레이(FPGA), 주문형 집적 회로(ASIC) 등 또는 이들의 조합에 의해 구현될 수 있으며, 이들은 설명된 기능을 제공하기 위해 구성되거나 프로그래밍된다.
방법 단계의 일부 또는 모두는 예를 들어 마이크로프로세서, 프로그램 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 이용하여) 실행될 수 있다. 일부 실시예에서, 가장 중요한 방법 단계 중일부의 하나 이상은 이러한 장치에 의해 실행될 수 있다.
어떤 구현 요구 사항에 따라, 본 발명의 실시예는 하드웨어 또는 소프트웨어로 구현될 수 있다. 이러한 구현은 디지털 저장 매체와 같은 비일시적 저장 매체, 예를 들어 플로피 디스크, DVD, Blu-Ray, CD, ROM, PROM, EPROM, EEPROM 또는 FLASH 메모리를 이용하여 수행될 수 있으며, 이러한 매체는 각각의 방법이 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전자적으로 판독 가능한 제어 신호를 저장한다. 그래서, 디지털 저장 매체는 컴퓨터 판독 가능할 수 있다.
본 발명에 따른 일부 실시예는 본 명세서에서 설명된 방법 중 하나가 수행되도록 프로그램 가능한 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능한 제어 신호를 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예는 프로그램 코드를 가진 컴퓨터 프로그램 제품으로 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때 방법 중 하나를 수행하기 위해 동작한다. 프로그램 코드는 예를 들어 기계 판독 가능한 캐리어 상에 저장될 수 있다.
다른 실시예는 본 명세서에서 설명되고, 기계 판독 가능 캐리어 상에 저장된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
그래서, 다시 말하면, 본 발명의 방법의 실시예는 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때 본 명세서에 설명된 방법 중 하나를 수행하기 위해 프로그램 코드를 갖는 컴퓨터 프로그램이다.
그래서, 본 발명의 방법의 추가의 실시예는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터 판독 가능한 매체)이며, 이러한 데이터 캐리어는 본 명세서에서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 기록하고 포함한다. 데이터 캐리어, 디지털 저장 매체 또는 기록된 매체는 전형적으로 유형(tangible) 및/또는 비일시적이다.
그래서, 본 발명의 방법의 추가의 실시예는 본 명세서에서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호의 시퀀스이다. 데이터 스트림 또는 신호의 시퀀스는 예를 들어 데이터 통신 접속, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.
추가의 실시예는 본 명세서에서 설명된 방법 중 하나를 수행하도록 구성되거나 적응되는 처리 수단, 예를 들어 컴퓨터 또는 프로그램 가능한 논리 장치를 포함한다.
추가의 실시예는 본 명세서에서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 설치한 컴퓨터를 포함한다.
본 발명에 따른 추가의 실시예는 본 명세서에서 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기로(예를 들어, 전자적 또는 광학적으로) 전송하도록 구성되는 장치 또는 시스템을 포함한다. 수신기는 예를 들어 컴퓨터, 모바일 장치, 메모리 장치 등일 수 있다. 장치 또는 시스템은 예를 들어 컴퓨터 프로그램을 수신기로 전송하기 위한 파일 서버를 포함할 수 있다.
일부 실시예에서, 프로그램 가능한 논리 장치(예를 들어, 필드 프로그램 가능한 게이트 어레이)는 본 명세서에서 설명된 방법의 기능의 일부 또는 모두를 수행하기 위해 이용될 수 있다. 일부 실시예에서, 필드 프로그램 가능한 게이트 어레이는 본 명세서에서 설명된 방법 중 하나를 수행하기 위해 마이크로 프로세서와 협력할 수 있다. 일반적으로, 이러한 방법은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.
상술한 실시예는 단지 본 발명의 원리에 대한 예시이다. 본 명세서에서 설명된 배치의 수정 및 변형과 상세 사항은 당업자에게는 자명할 것으로 이해된다. 따라서, 본 명세서에서 실시예의 설명에 의해 제시된 특정 상세 사항에 의해서가 아니라 첨부된 청구 범위에 의해서만 제한되는 것으로 의도된다.

Claims (15)

  1. 오디오 신호(40)의 부분의 인코딩된 버전을 획득하도록 상기 오디오 신호(40)의 부분을 인코딩하기 위해 제 1 특성을 갖는 제 1 인코딩 알고리즘 및 제 2 특성을 갖는 제 2 인코딩 알고리즘 중 하나를 선택하기 위한 장치(10)로서,
    상기 오디오 신호를 수신하고, 상기 오디오 신호의 고조파의 진폭을 감소시키며, 상기 오디오 신호의 필터링된 버전을 출력하도록 구성된 장기 예측 필터;
    상기 오디오 신호의 부분에 대한 제 1 품질 측정치로 상기 오디오 신호의 부분의 SNR(신호 대 잡음비) 또는 세그먼트 SNR을 추정할 시에 상기 오디오 신호의 필터링된 버전을 사용하기 위한 제 1 추정기(12)로서, 상기 제 1 품질 측정치는 상기 제 1 인코딩 알고리즘과 관련되고, 상기 제 1 품질 측정치를 추정하는 것은 상기 제 1 인코딩 알고리즘의 왜곡 추정치를 획득하고, 상기 제 1 인코딩 알고리즘을 사용하여 상기 오디오 신호의 부분을 실제로 인코딩 및 디코딩하지 않고 상기 오디오 신호의 부분 및 상기 제 1 인코딩 알고리즘의 왜곡 추정치에 기초하여 상기 제 1 품질 측정치를 추정하기 위해 상기 제 1 인코딩 알고리즘의 근사화를 수행하는 것을 포함하는 상기 제 1 추정기(12);
    상기 오디오 신호의 부분에 대한 제 2 품질 측정치로 SNR 또는 세그먼트 SNR을 추정하기 위한 제 2 추정기(14)로서, 상기 제 2 품질 측정치는 상기 제 2 인코딩 알고리즘과 관련되고, 상기 제 2 품질 측정치를 추정하는 것은 상기 제 2 인코딩 알고리즘의 왜곡 추정치를 획득하고, 상기 제 2 인코딩 알고리즘을 사용하여 상기 오디오 신호의 부분을 실제로 인코딩 및 디코딩하지 않고 상기 오디오 신호의 부분 및 상기 제 2 인코딩 알고리즘의 왜곡 추정치를 이용하여 상기 제 2 품질 측정치를 추정하기 위해 상기 제 2 인코딩 알고리즘의 근사화를 수행하는 것을 포함하는 상기 제 2 추정기(14); 및
    상기 제 1 품질 측정치와 상기 제 2 품질 측정치 사이의 비교에 기초하여 상기 제 1 인코딩 알고리즘 또는 상기 제 2 인코딩 알고리즘을 선택하기 위한 제어기(16)를 포함하며,
    상기 제 1 인코딩 알고리즘은 변환 코딩 알고리즘, MDCT(수정된 이산 코사인 변환) 기반의 코딩 알고리즘 또는 TCX(변환 코딩 여기) 코딩 알고리즘이고, 상기 제 2 인코딩 알고리즘은 CELP(코드 여기 선형 예측) 코딩 알고리즘 또는 ACELP(대수 코드 여기 선형 예측) 코딩 알고리즘인 장치.
  2. 제 1 항에 있어서,
    상기 장기 예측 필터의 전달 함수는 피치 지연의 정수 부분과 상기 피치 지연의 소수 부분에 따른 다중 탭 필터를 포함하는 장치.
  3. 제 1 항에 있어서,
    상기 장기 예측 필터는 다음과 같은 전달 함수를 가지며:
    P(z) = 1 - βgB(z, Tfr)z-Tint
    Tint 및 Tfr은 피치 지연의 정수 및 소수 부분이고, g는 이득이고, β는 상기 장기 예측 필터의 강도를 제어하는 가중치이며, B(z, Tfr)는 계수가 상기 피치 지연의 소수 부분에 의존하는 FIR 저역 통과 필터인 장치.
  4. 제 1 항에 있어서,
    하나 이상의 조화도 측정치 및/또는 하나 이상의 시간적 구조 측정치의 조합에 기초하여 상기 필터를 비활성화하기 위한 비활성화 유닛을 더 포함하는 장치.
  5. 제 4 항에 있어서,
    상기 하나 이상의 조화도 측정치는 정규화된 상관 관계 또는 예측 이득 중 적어도 하나를 포함하고, 상기 하나 이상의 시간적 구조 측정치는 시간적 평탄도 측정치 또는 에너지 변화 중 적어도 하나를 포함하는 장치.
  6. 제 1 항에 있어서,
    상기 필터는 프레임 단위로 상기 오디오 신호에 적용되고, 상기 장치는 상기 필터에 의해 생성된 상기 오디오 신호의 불연속성을 제거하기 위한 유닛을 더 포함하는 장치.
  7. 제 1 항에 있어서,
    상기 제 1 및 제 2 추정기는 상기 오디오 신호의 가중된 버전의 부분의 SNR 또는 세그먼트 SNR을 추정하도록 구성되는 장치.
  8. 제 1 항에 있어서,
    상기 제 1 추정기(12)는 상기 오디오 신호의 부분을 양자화할 때 상기 제 1 인코딩 알고리즘에 사용되는 양자화기가 도입하는 추정된 양자화 왜곡은 결정하고, 상기 오디오 신호의 가중된 버전의 부분의 에너지와 상기 추정된 양자화 왜곡에 기초하여 상기 제 1 품질 측정치를 추정하도록 구성되고, 상기 제 1 추정기(12)는 상기 오디오 신호의 부분이 상기 제 1 인코딩 알고리즘에 사용된 엔트로피 인코더 및 양자화기로 인코딩될 때 주어진 타겟 비트레이트를 생성하도록 상기 오디오 신호의 부분에 대한 글로벌 이득은 추정하도록 구성되며, 상기 제 1 추정기(12)는 상기 추정된 글로벌 이득에 기초하여 상기 추정된 양자화 왜곡을 결정하도록 더 구성되는 장치.
  9. 제 1 항에 있어서,
    상기 제 2 추정기(14)는 상기 오디오 신호의 부분을 인코딩하기 위해 적응 코드북을 사용할 때 상기 제 2 인코딩 알고리즘에 사용된 상기 적응 코드북이 도입하는 추정된 적응 코드북 왜곡을 결정하도록 구성되고, 상기 제 2 추정기(14)는 상기 오디오 신호의 가중된 버전의 부분의 에너지 및 상기 추정된 적응 코드북 왜곡에 기초하여 상기 제 2 품질 측정치를 추정하도록 구성되고, 상기 오디오 신호의 부분의 복수의 서브 부분의 각각에 대해, 상기 제 2 추정기(14)는 전처리 스테이지에서 결정된 피치 지연에 의해 과거로 시프트되는 가중된 오디오 신호의 서브 부분의 버전에 기초하여 상기 적응 코드북을 근사화하고, 상기 가중된 오디오 신호의 부분의 서브 부분과 근사화된 적응 코드북 사이의 에러가 최소화되도록 적응 코드북 이득을 추정하며, 상기 가중된 오디오 신호의 부분의 서브 부분과 적응 코드북 이득에 의해 스케일링된 근사화된 적응 코드북 사이의 에러의 에너지에 기초하여 추정된 적응 코드북 왜곡을 결정하도록 구성되는 장치.
  10. 제 9 항에 있어서,
    상기 제 2 추정기(14)는 상기 오디오 신호의 부분의 각각의 서브 부분에 대해 결정되는 상기 추정된 적응 코드북 왜곡을 일정한 인수만큼 감소시키도록 더 구성되는 장치.
  11. 제 1 항에 있어서,
    상기 제 2 추정기(14)는 상기 제 2 인코딩 알고리즘에 사용되는 적응 코드북이 상기 오디오 신호의 부분을 인코딩하기 위해 상기 적응 코드북을 이용할 때에 도입하는 추정된 적응 코드북 왜곡은 결정하도록 구성되고, 상기 제 2 추정기(14)는 상기 오디오 신호의 가중된 버전의 부분의 에너지 및 상기 추정된 적응 코드북 왜곡에 기초하여 상기 제 2 품질 측정치를 추정하도록 구성되고, 상기 제 2 추정기(14)는 전처리 스테이지에서 결정된 피치 지연에 의해 과거로 시프트되는 가중된 오디오 신호의 부분의 버전에 기초하여 상기 적응 코드북을 근사화하고, 상기 가중된 오디오 신호의 부분과 근사화된 적응 코드북 사이의 에러가 최소화되도록 적응 코드북 이득을 추정하며, 상기 가중된 오디오 신호의 부분과 적응 코드북 이득에 의해 스케일링된 근사화된 적응 코드북 사이의 에러의 에너지에 기초하여 추정된 적응 코드북 왜곡을 결정하도록 구성되는 장치.
  12. 오디오 신호의 부분의 인코딩 장치(20)로서,
    제 1 항 내지 제 11 항 중 어느 한 항에 따른 장치(10), 상기 제 1 인코딩 알고리즘을 수행하기 위한 제 1 인코더 스테이지(26) 및 제 2 인코딩 알고리즘을 수행하기 위한 제 2 인코더 스테이지(28)를 포함하며,
    상기 인코딩 장치(20)는 상기 제어기(16)에 의한 선택에 따라 상기 제 1 인코딩 알고리즘 또는 상기 제 2 인코딩 알고리즘을 이용하여 상기 오디오 신호의 부분을 인코딩하도록 구성되는 인코딩 장치.
  13. 인코딩 및 디코딩 시스템으로서,
    제 12 항에 따른 인코딩 장치(20)로서 오디오 신호의 부분의 인코딩된 버전을 출력하는 인코딩 장치(20); 및
    상기 오디오 신호의 부분의 인코딩된 버전 및 상기 오디오 신호의 부분을 인코딩하는데 사용되는 알고리즘의 지시를 수신하고, 지시된 알고리즘을 이용하여 상기 오디오 신호의 부분의 인코딩된 버전을 디코딩하는 디코더;를 포함하는 인코딩 및 디코딩 시스템.
  14. 오디오 신호의 부분의 인코딩된 버전을 획득하도록 상기 오디오 신호의 부분을 인코딩하기 위해 제 1 특성을 갖는 제 1 인코딩 알고리즘 및 제 2 특성을 갖는 제 2 인코딩 알고리즘 중 하나를 선택하기 위한 방법으로서,
    상기 오디오 신호의 고조파의 진폭을 감소시키고, 상기 오디오 신호의 필터링된 버전을 출력하기 위해 장기 예측 필터를 이용하여 상기 오디오 신호를 필터링하는 단계;
    상기 오디오 신호의 부분에 대한 제 1 품질 측정치로 상기 오디오 신호의 부분의 SNR 또는 세그먼트 SNR을 추정할 시에 상기 오디오 신호의 필터링된 버전을 사용하는 단계로서, 상기 제 1 품질 측정치는 상기 제 1 인코딩 알고리즘과 관련되고, 상기 제 1 품질 측정치를 추정하는 것은 상기 제 1 인코딩 알고리즘의 왜곡 추정치를 획득하고, 상기 제 1 인코딩 알고리즘을 사용하여 상기 오디오 신호의 부분을 실제로 인코딩 및 디코딩하지 않고 상기 오디오 신호의 부분 및 상기 제 1 인코딩 알고리즘의 왜곡 추정치에 기초하여 상기 제 1 품질 측정치를 추정하기 위해 상기 제 1 인코딩 알고리즘의 근사화를 수행하는 것을 포함하는 상기 사용하는 단계;
    상기 오디오 신호의 부분에 대한 제 2 품질 측정치로 SNR 또는 세그먼트 SNR을 추정하는 단계로서, 상기 제 2 품질 측정치는 상기 제 2 인코딩 알고리즘과 관련되고, 상기 제 2 품질 측정치를 추정하는 것은 상기 제 2 인코딩 알고리즘의 왜곡 추정치를 획득하고, 상기 제 2 인코딩 알고리즘을 사용하여 상기 오디오 신호의 부분을 실제로 인코딩 및 디코딩하지 않고 상기 오디오 신호의 부분 및 상기 제 2 인코딩 알고리즘의 왜곡 추정치를 이용하여 상기 제 2 품질 측정치를 추정하기 위해 상기 제 2 인코딩 알고리즘의 근사화를 수행하는 것을 포함하는 상기 추정하는 단계; 및
    상기 제 1 품질 측정치와 상기 제 2 품질 측정치 사이의 비교에 기초하여 상기 제 1 인코딩 알고리즘 또는 상기 제 2 인코딩 알고리즘을 선택하는 단계를 포함하며,
    상기 제 1 인코딩 알고리즘은 변환 코딩 알고리즘, MDCT(수정된 이산 코사인 변환) 기반의 코딩 알고리즘 또는 TCX(변환 코딩 여기) 코딩 알고리즘이고, 상기 제 2 인코딩 알고리즘은 CELP(코드 여기 선형 예측) 코딩 알고리즘 또는 ACELP(대수 코드 여기 선형 예측) 코딩 알고리즘인 방법.
  15. 컴퓨터 상에서 실행될 때 제 14 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능 기록 매체에 저장된 컴퓨터 프로그램.
KR1020157032911A 2014-07-28 2015-07-21 제 1 인코딩 알고리즘 및 고조파 감소를 이용하는 제 2 인코딩 알고리즘 중 하나를 선택하기 위한 장치 및 방법 KR101748517B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP14178809 2014-07-28
EP14178809.1 2014-07-28
PCT/EP2015/066677 WO2016016053A1 (en) 2014-07-28 2015-07-21 Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction

Publications (2)

Publication Number Publication Date
KR20160030477A KR20160030477A (ko) 2016-03-18
KR101748517B1 true KR101748517B1 (ko) 2017-06-16

Family

ID=51224872

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020157032911A KR101748517B1 (ko) 2014-07-28 2015-07-21 제 1 인코딩 알고리즘 및 고조파 감소를 이용하는 제 2 인코딩 알고리즘 중 하나를 선택하기 위한 장치 및 방법

Country Status (19)

Country Link
US (3) US9818421B2 (ko)
EP (1) EP3000110B1 (ko)
JP (1) JP6086999B2 (ko)
KR (1) KR101748517B1 (ko)
CN (2) CN110444219B (ko)
AR (1) AR101347A1 (ko)
AU (1) AU2015258241B2 (ko)
BR (1) BR112015029172B1 (ko)
ES (1) ES2614358T3 (ko)
HK (1) HK1222943A1 (ko)
MX (1) MX349256B (ko)
MY (1) MY174028A (ko)
PL (1) PL3000110T3 (ko)
PT (1) PT3000110T (ko)
RU (1) RU2632151C2 (ko)
SG (1) SG11201509526SA (ko)
TW (1) TWI582758B (ko)
WO (1) WO2016016053A1 (ko)
ZA (1) ZA201508541B (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
PT2951820T (pt) 2013-01-29 2017-03-02 Fraunhofer Ges Forschung Aparelho e método para selecionar um de um primeiro algoritmo de codificação e um segundo algoritmo de codificação
EP3000110B1 (en) * 2014-07-28 2016-12-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selection of one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
EP2980798A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Harmonicity-dependent controlling of a harmonic filter tool
EP3483886A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
US10896674B2 (en) * 2018-04-12 2021-01-19 Kaam Llc Adaptive enhancement of speech signals

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080312914A1 (en) 2007-06-13 2008-12-18 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
WO2012110448A1 (en) 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result

Family Cites Families (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US2899013A (en) * 1956-04-09 1959-08-11 Nat Tank Co Apparatus for recovery of petroleum vapors from run tanks
US5012517A (en) 1989-04-18 1991-04-30 Pacific Communication Science, Inc. Adaptive transform coder having long term predictor
US5533052A (en) * 1993-10-15 1996-07-02 Comsat Corporation Adaptive predictive coding with transform domain quantization based on block size adaptation, backward adaptive power gain control, split bit-allocation and zero input response compensation
DE69619284T3 (de) 1995-03-13 2006-04-27 Matsushita Electric Industrial Co., Ltd., Kadoma Vorrichtung zur Erweiterung der Sprachbandbreite
GB2326572A (en) 1997-06-19 1998-12-23 Softsound Limited Low bit rate audio coder and decoder
JP4622164B2 (ja) * 2001-06-15 2011-02-02 ソニー株式会社 音響信号符号化方法及び装置
US7512535B2 (en) 2001-10-03 2009-03-31 Broadcom Corporation Adaptive postfiltering methods and systems for decoding speech
US7536305B2 (en) * 2002-09-04 2009-05-19 Microsoft Corporation Mixed lossless audio compression
US7191136B2 (en) * 2002-10-01 2007-03-13 Ibiquity Digital Corporation Efficient coding of high frequency signal information in a signal using a linear/non-linear prediction model based on a low pass baseband
US7133521B2 (en) * 2002-10-25 2006-11-07 Dilithium Networks Pty Ltd. Method and apparatus for DTMF detection and voice mixing in the CELP parameter domain
US7478040B2 (en) * 2003-10-24 2009-01-13 Broadcom Corporation Method for adaptive filtering
CA2457988A1 (en) 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
FI118835B (fi) 2004-02-23 2008-03-31 Nokia Corp Koodausmallin valinta
GB0408856D0 (en) * 2004-04-21 2004-05-26 Nokia Corp Signal encoding
US7739120B2 (en) 2004-05-17 2010-06-15 Nokia Corporation Selection of coding models for encoding an audio signal
US7716046B2 (en) * 2004-10-26 2010-05-11 Qnx Software Systems (Wavemakers), Inc. Advanced periodic signal enhancement
CN101069232A (zh) * 2004-11-30 2007-11-07 松下电器产业株式会社 立体声编码装置、立体声解码装置及其方法
CN100592389C (zh) * 2008-01-18 2010-02-24 华为技术有限公司 合成滤波器状态更新方法及装置
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US8090573B2 (en) * 2006-01-20 2012-01-03 Qualcomm Incorporated Selection of encoding modes and/or encoding rates for speech compression with open loop re-decision
US8682652B2 (en) * 2006-06-30 2014-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
GB0705328D0 (en) * 2007-03-20 2007-04-25 Skype Ltd Method of transmitting data in a communication system
KR101196506B1 (ko) 2007-06-11 2012-11-01 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 임펄스형 부분 및 정적 부분을 갖는 오디오 신호를 인코딩하는 오디오 인코더 및 인코딩 방법, 디코더, 디코딩 방법 및 인코딩된 오디오 신호
EP2015293A1 (en) * 2007-06-14 2009-01-14 Deutsche Thomson OHG Method and apparatus for encoding and decoding an audio signal using adaptively switched temporal resolution in the spectral domain
ATE500588T1 (de) * 2008-01-04 2011-03-15 Dolby Sweden Ab Audiokodierer und -dekodierer
FR2929466A1 (fr) * 2008-03-28 2009-10-02 France Telecom Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
US8060042B2 (en) * 2008-05-23 2011-11-15 Lg Electronics Inc. Method and an apparatus for processing an audio signal
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
ES2941677T3 (es) * 2008-07-11 2023-05-24 Fraunhofer Ges Forschung Procedimiento para codificar un símbolo, procedimiento para decodificar un símbolo, procedimiento para transmitir un símbolo de un transmisor a un receptor, codificador, decodificador y sistema para transmitir un símbolo de un transmisor a un receptor
ES2657393T3 (es) * 2008-07-11 2018-03-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificador y descodificador de audio para codificar y descodificar muestras de audio
RU2621965C2 (ru) * 2008-07-11 2017-06-08 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Передатчик сигнала активации с деформацией по времени, кодер звукового сигнала, способ преобразования сигнала активации с деформацией по времени, способ кодирования звукового сигнала и компьютерные программы
RU2483366C2 (ru) 2008-07-11 2013-05-27 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Устройство и способ декодирования кодированного звукового сигнала
EP2146344B1 (en) * 2008-07-17 2016-07-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding/decoding scheme having a switchable bypass
EP2148528A1 (en) * 2008-07-24 2010-01-27 Oticon A/S Adaptive long-term prediction filter for adaptive whitening
KR101649376B1 (ko) * 2008-10-13 2016-08-31 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
US8140342B2 (en) * 2008-12-29 2012-03-20 Motorola Mobility, Inc. Selective scaling mask computation based on peak detection
CN102648494B (zh) * 2009-10-08 2014-07-02 弗兰霍菲尔运输应用研究公司 多模式音频信号解码器、多模式音频信号编码器、使用基于线性预测编码的噪声塑形的方法
EP2491556B1 (en) * 2009-10-20 2024-04-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal decoder, corresponding method and computer program
MX2012004593A (es) * 2009-10-20 2012-06-08 Fraunhofer Ges Forschung Codec multimodo de audio y codificacion de celp adaptada a este.
JP6110314B2 (ja) * 2011-02-14 2017-04-05 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 整列したルックアヘッド部分を用いてオーディオ信号を符号化及び復号するための装置並びに方法
ES2458436T3 (es) 2011-02-14 2014-05-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Representación de señal de información utilizando transformada superpuesta
RU2630390C2 (ru) * 2011-02-14 2017-09-07 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для маскирования ошибок при стандартизированном кодировании речи и аудио с низкой задержкой (usac)
JP2013057792A (ja) * 2011-09-08 2013-03-28 Panasonic Corp 音声符号化装置及び音声符号化方法
US9043201B2 (en) * 2012-01-03 2015-05-26 Google Technology Holdings LLC Method and apparatus for processing audio frames to transition between different codecs
CN109448745B (zh) * 2013-01-07 2021-09-07 中兴通讯股份有限公司 一种编码模式切换方法和装置、解码模式切换方法和装置
CN103137135B (zh) * 2013-01-22 2015-05-06 深圳广晟信源技术有限公司 Lpc系数量化方法和装置及多编码核音频编码方法和设备
PT2951820T (pt) * 2013-01-29 2017-03-02 Fraunhofer Ges Forschung Aparelho e método para selecionar um de um primeiro algoritmo de codificação e um segundo algoritmo de codificação
EP2980799A1 (en) * 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal using a harmonic post-filter
EP3000110B1 (en) * 2014-07-28 2016-12-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selection of one of a first encoding algorithm and a second encoding algorithm using harmonics reduction

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080312914A1 (en) 2007-06-13 2008-12-18 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
WO2012110448A1 (en) 2011-02-14 2012-08-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for coding a portion of an audio signal using a transient detection and a quality result

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ISO/IEC FDIS 23003-3:2011(E), Information technology - MPEG audio technologies - Part 3: Unified speech and audio coding. ISO/IEC JTC 1/SC 29/WG 11. 2011.09.20.

Also Published As

Publication number Publication date
PL3000110T3 (pl) 2017-05-31
CN105451842A (zh) 2016-03-30
US9818421B2 (en) 2017-11-14
EP3000110A1 (en) 2016-03-30
AU2015258241B2 (en) 2016-09-15
AU2015258241A1 (en) 2016-02-11
CN105451842B (zh) 2019-06-11
BR112015029172B1 (pt) 2022-08-23
MY174028A (en) 2020-03-04
US20190272839A1 (en) 2019-09-05
US10706865B2 (en) 2020-07-07
TW201606755A (zh) 2016-02-16
US10224052B2 (en) 2019-03-05
WO2016016053A1 (en) 2016-02-04
CN110444219A (zh) 2019-11-12
RU2015149810A (ru) 2017-05-23
MX2015015684A (es) 2016-04-28
JP6086999B2 (ja) 2017-03-01
SG11201509526SA (en) 2017-04-27
BR112015029172A2 (ko) 2017-08-22
JP2016535286A (ja) 2016-11-10
PT3000110T (pt) 2017-02-15
ES2614358T3 (es) 2017-05-30
MX349256B (es) 2017-07-19
KR20160030477A (ko) 2016-03-18
ZA201508541B (en) 2017-07-26
RU2632151C2 (ru) 2017-10-02
AR101347A1 (es) 2016-12-14
HK1222943A1 (zh) 2017-07-14
CN110444219B (zh) 2023-06-13
US20170309285A1 (en) 2017-10-26
TWI582758B (zh) 2017-05-11
US20160078878A1 (en) 2016-03-17
EP3000110B1 (en) 2016-12-07

Similar Documents

Publication Publication Date Title
KR101748517B1 (ko) 제 1 인코딩 알고리즘 및 고조파 감소를 이용하는 제 2 인코딩 알고리즘 중 하나를 선택하기 위한 장치 및 방법
JP7160790B2 (ja) ハーモニックフィルタツールのハーモニック依存制御
KR101698905B1 (ko) 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법
US20230079574A1 (en) Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm
KR101931273B1 (ko) 결정론적 및 잡음 유사 정보를 사용하는 오디오 신호의 인코딩 및 오디오 신호의 디코딩을 위한 개념
CA2910878C (en) Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant