KR20190045327A - 오디오 코덱의 장기 예측을 위한 시스템 및 방법 - Google Patents

오디오 코덱의 장기 예측을 위한 시스템 및 방법 Download PDF

Info

Publication number
KR20190045327A
KR20190045327A KR1020197010006A KR20197010006A KR20190045327A KR 20190045327 A KR20190045327 A KR 20190045327A KR 1020197010006 A KR1020197010006 A KR 1020197010006A KR 20197010006 A KR20197010006 A KR 20197010006A KR 20190045327 A KR20190045327 A KR 20190045327A
Authority
KR
South Korea
Prior art keywords
predictor
filter
audio signal
long
optimal
Prior art date
Application number
KR1020197010006A
Other languages
English (en)
Other versions
KR102569784B1 (ko
Inventor
엘리아스 네미어
조란 페조
야섹 스탁후르스키
안토니우스 칼커
Original Assignee
디티에스, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 디티에스, 인코포레이티드 filed Critical 디티에스, 인코포레이티드
Publication of KR20190045327A publication Critical patent/KR20190045327A/ko
Application granted granted Critical
Publication of KR102569784B1 publication Critical patent/KR102569784B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

최적의 장기 예측자를 추정하고 적용하기 위한 주파수 도메인 장기 예측 시스템 및 방법이 개시된다. 본 시스템 및 방법의 실시예는 스펙트럼 평탄도 척도에 기초한 최적성 기준을 갖는 주파수 도메인 분석을 사용하여 단일 탭 예측자의 파라미터를 결정하는 것을 포함한다. 본 시스템 및 방법의 실시예는 또한 다양한 서브 대역을 양자화할 때 벡터 양자화기의 성능을 고려함으로써 장기 예측자의 파라미터를 결정하는 것을 포함한다. 일부 실시예에서 (신호 토널리티와 같은) 다른 인코더 메트릭이 또한 사용된다. 본 시스템 및 방법의 다른 실시예는 디코더 동작의 일부를 고려함으로써 장기 예측자의 최적의 파라미터를 결정하는 것을 포함한다. 본 시스템 및 방법의 다른 실시예는 미리 설정된 필터의 테이블로부터 최소 에너지 기준에 기초하여 선택된 미리 선택된 필터로 1 탭 예측자를 컨볼루션함으로써 1 탭 예측자를 k 차수 예측자로 확장하는 것을 포함한다.

Description

오디오 코덱의 장기 예측을 위한 시스템 및 방법
오디오 신호의 중복성(redundancy)을 이용하여 코딩 이득을 증가시키는 것은 오디오 코덱의 기본 개념이다. 오디오 신호는 장기(long-term) 중복성(또는 주기성) 및 단기(short term) 중복성을 포함한 다양한 정도의 중복성을 나타내는데, 이는 주로 음성 신호에서 발견된다. 도 1은 오디오 신호의 장기 및 단기 예측의 배경 개념을 도시한다. 이러한 중복성을 제거하거나 줄이면 (오리지널 신호를 코딩하는 것과 비교할 때) 잔차(residual) 신호를 코딩하는 데 필요한 비트 수가 감소된다. 음성 코덱은 전형적으로 두 개의 유형의 중복성을 제거하고 코딩 이득을 최대화하기 위한 예측자(predictor)를 포함한다. 변환 기반 코덱은 일반적인 오디오 신호용으로 설계되었으며 일반적으로 그 기원에 대해서는 아무런 가정을 하지 않는다. 이들 코덱은 주로 장기 중복성에 중점을 두고 있다. 변환 코덱에서, 잔차 신호는 보다 낮은 에너지를 가지고 보다 더 희소한 변환 벡터를 생성한다. 이는 양자화 방식이 변환 계수를 효율적으로 표현하는 것을 보다 용이하게 한다.
본 개요는 아래의 상세한 설명에서 추가로 설명되는 개념의 선택을 단순화된 형태로 소개하기 위해 제공된다. 이 개요는 청구된 발명의 요지의 핵심 특징 또는 필수 특징을 식별하기 위한 것도 아니고 청구된 발명의 요지의 범위를 제한하도록 사용되는 것도 아니다.
본원에 기술된 주파수 도메인 장기 예측 시스템 및 방법의 실시예는 오디오 코덱의 환경에서 최적의 장기 예측자를 추정하고 적용하기 위한 새로운 기술을 포함한다. 특히, 본 시스템 및 방법의 실시예는 스펙트럼 평탄도 척도에 기초한 최적성 기준을 갖는 주파수 도메인 분석을 사용하여 단일 탭 예측자의 파라미터(가령, 지연(Lag) 및 이득(Gain))를 결정하는 것을 포함한다. 본 시스템 및 방법의 실시예는 또한 다양한 서브 대역을 양자화할 때 벡터 양자화기의 성능을 고려함으로써, 즉 벡터 양자화 오차를 스펙트럼 평탄도와 조합함으로써 장기 예측자의 파라미터를 결정하는 것을 포함한다. 일부 실시예에서 (신호 토널리티(signal tonality)와 같은) 다른 인코더 메트릭(encoder metric)이 또한 사용된다. 본 시스템 및 방법의 다른 실시예는 장기 예측자 및 합성 필터의 재구축 오차와 같은 디코더 동작의 일부를 고려함으로써 장기 예측자의 최적의 파라미터를 결정하는 것을 포함한다. 일부 실시예에서 이것은 (일부 고전적 접근법에서와 같이) 합성에 의한 완전한 분석을 수행하는 대신에 수행된다. 본 시스템 및 방법의 또 다른 실시예는 미리 설정된 필터의 테이블로부터 최소 에너지 기준에 기초하여 선택된 미리 선택된 필터로 1 탭 예측자를 컨볼루션함으로써 1 탭 예측자를 k 차수 예측자로 확장하는 것을 포함한다.
실시예는 오디오 신호를 인코딩하기 위한 오디오 코딩 시스템을 포함한다. 이 시스템은 오디오 신호를 필터링하는 데 사용되는 적응형 필터 및 적응형 필터에 의해 사용되는 적응형 필터 계수를 갖는 장기 선형 예측자를 포함한다. 적응형 필터 계수는 오디오 신호의 윈도우화된(windowed) 시간 신호의 분석에 기초하여 결정된다. 본 시스템의 실시예는 또한 오디오 신호의 주파수 변환을 획득하기 위해 주파수 도메인에서 윈도우화된 시간 신호를 나타내는 주파수 변환 유닛과, 주파수 변환의 분석 및 주파수 도메인에서의 최적성의 기준에 기초하여 최적의 장기 선형 예측자를 추정하는 최적의 장기 예측자 추정 유닛을 포함한다. 본 시스템의 실시예는 양자화된 주파수 변환 계수를 생성하기 위해 인코딩될 윈도우화된 프레임의 주파수 변환 계수를 양자화하는 양자화 유닛과, 양자화된 주파수 변환 계수를 포함하는 인코딩된 신호를 더 포함한다. 인코딩된 신호는 오디오 신호를 나타낸다.
실시예는 또한 오디오 신호를 인코딩하는 방법을 포함한다. 이 방법은 적응형 필터인 장기 선형 예측자를 사용하여 오디오 신호를 필터링하는 단계와, 오디오 신호에 대한 주파수 변환을 생성하는 단계를 포함한다. 주파수 변환은 주파수 도메인에서 윈도우화된 시간 신호를 나타낸다. 상기 방법은 주파수 변환의 분석 및 주파수 도메인에서의 최적성의 기준에 기초하여 최적의 장기 선형 예측자를 추정하는 단계와, 양자화된 주파수 변환 계수를 생성하기 위해 인코딩될 윈도우화된 프레임의 주파수 변환 계수를 양자화하는 단계를 더 포함한다. 상기 방법은 또한 양자화된 주파수 변환 계수를 포함하는 인코딩된 신호를 구축하는 단계를 포함하며, 인코딩된 신호는 오디오 신호의 표현이다.
다른 실시예는 오디오 신호의 인코딩 동안 1 탭 예측자 필터를 k 차수 예측자 필터로 확장하는 방법을 포함한다. 이 방법은 결과적인 k 차수 예측자 필터를 얻기 위해 이미 계산된 필터 형상을 포함하는 예측자 필터 형상 테이블에서 선택된 필터 형상으로 1 탭 예측자 필터를 컨볼루션하는 것을 포함한다. 상기 방법은 또한 출력 신호를 획득하기 위해 오디오 신호에 대해 결과적인 k 차수 예측자 필터를 실행하는 단계와, 결과적인 k 차수 예측자 필터의 출력 신호의 에너지를 계산하는 단계를 포함한다. 상기 방법은 상기 테이블로부터 출력 신호의 에너지를 최소화하는 최적의 필터 형상을 선택하는 단계와, 상기 최적의 필터 형상을 포함하는 결과적인 k 차수 예측자 필터를 오디오 신호에 적용하는 단계를 더 포함한다.
다른 실시예가 가능하고, 본원에서 설명된 단계 및 엘리먼트는 특정 실시예에 따라 변경, 추가 또는 제거될 수 있음에 주목해야 한다. 이들 대안의 실시예는 본 발명의 범위를 벗어나지 않고 사용될 수 있는 대안의 단계 및 대안의 엘리먼트와, 수행될 수 있는 구조 변경을 포함한다.
이제 도면을 참조하면, 유사한 참조 번호는 도면 전체에 걸쳐 대응하는 부분을 나타낸다:
도 1은 오디오 신호의 장기 및 단기 예측의 배경 개념을 도시한다.
도 2는 개루프 접근법의 일반적인 동작을 나타내는 블록도이다.
도 3은 폐루프 접근법의 일반적인 동작을 나타내는 블록도이다.
도 4는 변환 기반 오디오 코덱에서의 장기 예측자의 예시적인 사용을 나타내는 블록도이다.
도 5는 폐루프 아키텍처의 예시적인 예를 나타낸다.
도 6은 고조파 오디오 신호의 세그먼트의 시간 및 주파수 변환을 나타낸다.
도 7은 주파수 도메인 장기 예측 시스템 및 방법의 실시예의 일반적인 블록도이다.
도 8은 주파수 도메인 장기 예측 방법의 실시예의 일반적인 흐름도이다.
도 9는 결합된 주파수 기반 기준을 다른 인코더 메트릭과 함께 사용하는 주파수 도메인 장기 예측 방법의 다른 실시예의 일반적인 흐름도이다.
도 10은 주파수 기반 스펙트럼 평탄도가 디코더에서의 재구축 오차를 고려한 다른 인자와 결합될 수 있는 대안의 실시예를 도시한다.
도 11은 도 10에 도시된 실시예의 일부의 동작을 수행하는 두 개의 시간적으로 연속적인 프레임을 도시한다.
도 12는 단일 탭 예측자를 3 차수 예측자로 변환하는 것을 도시한다.
주파수 도메인 장기 예측 시스템 및 방법의 실시예의 아래의 설명에서 첨부 도면이 참조된다. 이들 도면은 주파수 도메인 장기 예측 시스템 및 방법의 실시예가 어떻게 실시될 수 있는 지에 대한 구체적인 예를 설명하기 위해 도시된다. 청구된 요지의 범위를 벗어나지 않으면서 다른 실시예가 이용될 수 있고, 구조적 변경이 행해질 수 있음이 이해되어야 한다.
1. 일반적 개요
고전적 접근법에서, 예측자 계수는 시간 도메인 분석에 의해 결정된다. 이것은 전형적으로 잔차 신호의 에너지를 최소화하는 것을 포함한다. 이는 주어진 분석 시간 윈도우 동안 정규화된 자기 상관(autocorrelation) 함수를 최대화하는 지연(L)을 검색하는 것으로 바꿔말할 수 있다. 행렬 연립 방정식을 풀면 예측자 이득이 생성된다. 행렬의 크기는 필터의 차수(k)의 함수이다. 행렬의 크기를 감소시키기 위해 종종 사이드 탭(side tap)이 대칭이라고 가정된다. 예를 들어, 이것은 행렬 크기를 사이즈 3에서 사이즈 2로 또는 사이즈 5에서 사이즈 3으로 감소시킬 것이다.
실제 오디오 코덱에서는, 시간 도메인 자기 상관 방법에 기초한 지연(또는 신호의 주기성)을 추정하는 것은 특별한 주의가 요구된다. 이러한 기술의 일부 일반적인 문제점은 피치 더블링 (pitch-doubling)과 반감(halving)이다. 이는 인지 성능(perceptual performance) 또는 코딩 이득(coding gain)에 상당한 영향을 끼칠 수 있다. 이러한 단점을 완화하기 위해, 다수의 대안의 접근법과 휴리스틱(heuristic)이 종종 사용된다. 이들은, 예를 들어, 캡스트럼(cepstral) 분석을 사용하거나 모든 가능한 배수를 철저하게 검색하는 것을 포함한다. 고 차수(higher-order) 예측자의 경우, 다중 탭(multiple tap)을 추정하려면 실제로는 보장되지 않는 역행렬 연산이 필요하다. 따라서, 중앙 탭(L)만을 추정하고, 일부 최적성 기준에 기초하여 제한된 세트로부터 사이드 탭을 선택하는 방식을 찾는 것이 종종 바람직하다.
개루프 대 폐루프 아키텍처
개루프 접근법에서, 예측자의 추정은 오리지널((코딩되지 않은) 신호의 분석으로 행해진다. 도 2는 개루프 접근법의 일반적인 동작을 나타내는 블록도이다. 상기 접근법은 오리지널 오디오 신호(200)를 입력하고 오리지널 오디오 신호의 분석을 수행한다(박스 210). 다음으로, 최적의 장기 예측자(long-term predictor, LTP) 파라미터가 일부 기준에 기초하여 선택된다(박스 220). 이들 선택된 파라미터는 상기 신호에 적용되고(박스 230), 결과적인 신호가 인코딩되고 전송된다(박스 240). 결과적인 신호는 오리지널 오디오 신호(200)의 인코딩된 표현인 인코딩된 오디오 신호(250)이다.
폐루프 접근법에서, 인코더는 디코더의 일부 또는 모든 동작을 복제하고 파라미터의 가능한 선택들 각각에 대해 신호를 재합성한다. 도 3은 폐루프 접근법의 일반적인 동작을 나타내는 블록도이다. 개루프 접근법과 유사하게, 상기 폐루프 접근법은 오리지널 오디오 신호(200)를 입력하고 오리지널 오디오 신호의 분석을 수행한다(박스 300). 이 분석은 인코더에 대응하는 디코더를 시뮬레이션하거나 모방하는 것(박스 310)을 포함한다. 최적의 장기 예측자(LTP) 파라미터가 일부 기준에 기초하여 선택되고(박스 320), 이들 선택된 파라미터가 상기 신호에 적용된다(박스 330). 최적의 장기 예측자 파라미터의 선택은 '디코딩'된 신호와 오리저널 오디오 신호(200) 사이의 인지 가중 오차를 어떠한 것이 최소화하느냐에 기초한다. 결과적인 신호가 인코딩되고 전송된다(박스 340). 결과적인 신호는 오리지널 오디오 신호(200)의 인코딩된 표현인 인코딩된 오디오 신호(350)이다.
변환 기반 오디오 코덱의 장기 예측자
변환 기반 오디오 코덱은 전형적으로 수정 이산 코사인 변환(Modified Discrete Cosine Transform, MDCT) 또는 다른 유형의 주파수 변환을 사용하여 주어진 오디오 프레임을 인코딩 및 양자화한다. 본원에 사용되는 "변환 기반(transform-based)"이라는 문구는 또한 서브 대역 기반 또는 중복 변환(lapped-transform) 기반 코덱을 포함한다. 이들 각각은 일부 형태의 주파수 변환을 포함하지만, 당업자가 이해할 수 있는 바와 같이, 윈도우 오버래핑(window overlapping)을 갖거나 또는 갖지 않을 수도 있다.
도 4는 변환 기반 오디오 코덱에서 장기 예측자의 예시적인 사용을 나타내는 블록도이다. 장기 예측자는 윈도우 및 주파수 변환 이전의 시간 도메인 신호에 적용된다. 도 4를 참조하면, 변환 기반 오디오 코덱(400)은 인코더(405)와 디코더(410)를 포함한다. 오디오 신호에 대응하는 입력 샘플(412)은 인코더(405)에 의해 수신된다. 시간 상관 분석 블록(415)은 오디오 신호의 주기성을 추정한다. 고역 통과 필터링과 같은 다른 시간 도메인(time-domain, TD) 처리(417)가 상기 신호에 대해 수행될 수 있다.
시간 상관 분석 블록(415)의 분석에 기초하여, 최적의 파라미터 추정 블록(420)에 의해 최적의 장기 예측자 파라미터를 추정한다. 이 추정된 장기 예측자(422)가 출력된다. 장기 예측자는 필터이고, 이들 파라미터는 시간 도메인 처리 블록(417)으로부터 나오는 데이터에 적용될 수 있다.
윈도우 함수(425) 및 (MDCT(427)와 같은) 다양한 변환이 상기 신호에 적용된다. 양자화기(430)는 다양한 스칼라 및 벡터 양자화 기술을 사용하여 예측자 파라미터 및 MDCT 계수를 양자화한다. 이 양자화된 데이터는 인코더(405)로부터 준비되고 비트스트림(435)으로서 출력된다.
비트스트림(435)은 디코더(410)로 전송되며, 이 디코더(410)에서는 인코더(405)에 대한 역 동작이 발생한다. 디코더는 양자화된 데이터를 복원하는 역 양자화기(440)를 포함한다. 이는 역 MDCT 계수(450) 및 시간 도메인으로 변환된 예측 파라미터를 포함한다. 윈도우(455)가 상기 신호에 적용되고, 인코더(405) 측 상의 장기 예측자에 대한 역 필터인 장기 합성기(460)가 상기 신호에 적용된다. 역 시간 도메인 처리 블록(465)은 인코더(405)에서 시간 도메인 처리 블록(417)에 의해 수행되는 임의의 필터링의 역 처리를 수행한다. 디코더(410)의 출력은 디코딩된 입력 오디오 신호에 대응하는 출력 샘플(470)이다. 이 디코딩된 오디오 신호는 라우드스피커 또는 헤드폰을 통해 재생될 수 있다.
개루프 아키텍처에서, 최적의 예측자의 추정은 시간 신호의 일부 분석에 기초하여 가능하게는 인코더로부터의 다른 메트릭을 고려하여 수행된다. 지연(L)은 오리지널 시간 신호의 정규화된 자기 상관을 최대화하는 것에 기초하여 추정된다. 또한, 예측자 필터는 L 및 L+1에서의 자기 상관 값의 함수에 기초하여 추정되는 2 개의 탭(B1, B2)을 포함한다. 시간 신호의 센터 클리핑(center-clipping) 등과 같은 다양한 다른 세부 사항들이 또한 제공될 수 있다.
개루프 아키텍처의 또 다른 예는, 장기 예측자 필터 및 합성 필터를 각각 지칭하기 위해 프리 필터(pre-filter) 및 포스트 필터(post-filter)라는 용어가 사용되는 경우이다. 이 접근법의 차이점은 인코더와 디코더 중 나머지에서 장기 예측자(추정 및 필터링 모두)가 제거된다는 것이다. 따라서, 파라미터의 추정은 인코더의 동작 모드와 무관하며 오리지널 시간 신호의 분석에만 기초하고 있다. 장기 예측 필터(프리 필터라고 지칭됨)의 출력은 인코더로 전송된다. 인코더는 임의의 비트레이트로 실행되는 임의의 유형일 수 있다. 유사하게, 디코더의 출력은 디코더 동작 모드와 독립적으로 동작하는 장기 예측 합성 필터(포스트 필터라고 지칭됨)로 전송된다.
폐루프 아키텍처에서, 디코더 동작의 일부(또는 전부)는 비용 또는 최적화 함수의 보다 정확한 추정을 제공하기 위해 인코더에서 복제된다. 예측자 계수는 일부 최대화 기준에 기초하여 계산된다. 또한, 피드백 루프는 합성에 의한 분석 접근법에 기초한 선택 사항을 정제(refine)하는 데 사용된다. 도 5는 폐루프 아키텍처의 일 예를 나타낸다. 이러한 접근법은 (디코더가 생성했을 수도 있는) 시간 샘플을 재합성하기 위해 인코더에서 완전한 역 양자화 및 역 주파수 변환이 재현되는 경우이다. 이들 샘플은 그 후 LTP 계수의 최적의 추정에서 사용된다.
도 5를 참조하면, 폐루프 아키텍처 기반 코덱(500)이 도시되어 있다. 이 코덱은 인코더(510) 및 디코더(520)를 포함한다. 모방 디코더(mimic decoder)(525)는 인코더(510) 측에서 디코더(520)를 복제하기 위해 피드백 루프에서 사용된다. 이 모방 디코더(525)는 주파수 계수를 생성하는 역 양자화 블록(530)을 포함한다. 이들 계수는 그 후 주파수-시간 블록(535)에 의해 시간 도메인으로 다시 변환된다. 블록(535)의 출력은 디코딩된 시간 샘플이다. 최적의 파라미터 추정 블록(540)은 디코딩된 시간 샘플을 입력 시간 샘플(550)과 비교한다. 그 후, 블록(540)은 입력 시간 샘플(540)과 디코딩된 시간 샘플 간의 오차를 최소화하는 최적의 장기 예측자 파라미터 세트(555)를 생성한다.
윈도우 함수(560)는 시간 신호에 윈도우를 적용하고, 시간-주파수 블록(565)은 상기 신호를 시간 도메인으로부터 주파수 도메인으로 변환한다. 양자화 블록(570)은 다양한 스칼라 및 벡터 양자화 기술을 사용하여 예측자 파라미터 및 주파수 계수를 양자화한다. 이 양자화된 데이터는 인코더(510)로부터 준비되고 출력된다.
디코더(520)는 양자화된 데이터를 복원하는 역 양자화 블록(580)을 포함한다. (주파수 계수 및 예측 파라미터와 같은) 이 양자화된 데이터는 주파수-시간 블록(585)에 의해 시간 도메인으로 변환된다. 인코더(510) 측의 장기 예측자에 대한 역 필터인 장기 합성기(590)가 상기 신호에 적용된다.
II. 시스템 및 동작 개요
본원에 기술된 주파수 도메인 장기 예측 시스템 및 방법의 실시예는 오디오 코덱의 환경에서 최적의 장기 예측자를 추정하고 적용하기 위한 기술을 포함한다. 변환 코덱에서, 시간 도메인 샘플이 아닌 (MDCT와 같은) 주파수 변환 계수는 벡터 양자화된 계수이다. 그러므로, 변환 도메인에서 이들 계수의 양자화를 개선시키는 기준에 기초하여 최적의 예측자를 검색하는 것이 적절하다.
주파수 도메인 장기 예측 시스템 및 방법의 실시예는 다양한 서브 대역의 스펙트럼 평탄도를 기준 또는 척도로서 사용하는 것을 포함한다. 일반적인 코덱에서, 스펙트럼은 일부 대칭 또는 인지 스케일에 따라 대역으로 분할되며 각 대역의 계수는 최소 평균 제곱 오차(또는 최소 mse) 기준에 따라 벡터 양자화된다.
토널 오디오 신호(tonal audio signal)의 스펙트럼은 다양한 토널 주파수에서 피크를 갖는 현저한 고조파 구조를 갖는다. 도 6은 고조파 오디오 신호의 세그먼트의 시간 및 주파수 변환을 나타낸다. 도 6을 참조하면, 제 1 그래프(600)는 토널 오디오 신호의 윈도우(또는 세그먼트)이다. 제 2 그래프(610)는 제 1 그래프(600)에 도시된 토널 오디오 신호의 대응하는 주파수 도메인 크기 스펙트럼을 도시한다. 제 2 그래프(610)의 수직 파선은 오디오 코딩에서 통상적으로 사용되는 인지 스케일 상의 전형적인 주파수 대역의 경계를 나타낸다.
한 번에 하나의 대역을 고려할 때, 일부 비 고조파의 작은 값에 더하여 하나 또는 두 개의 우세 피크(dominant peak)가 존재할 가능성이 있다. 따라서, 그 대역의 평탄도 척도는 낮다. 최소 평균 제곱 오차를 기반으로 한 벡터 양자화(vector quantization, VQ)는 높은 피크를 선호할 것인데, 그 이유는 이 높은 피크가 낮은 값보다 오차 놈(error norm)에 더 많은 영향을 미치기 때문이다. 사용 가능한 비트에 따라, VQ는 해당 대역에서 보다 작은 계수를 놓칠 수 있으므로 높은 양자화 잡음을 발생시키게 된다.
주파수 도메인 장기 예측 시스템 및 방법의 일부 실시예는 적어도 스펙트럼의 대역에 걸친 평탄도 척도를 최대화하는 것에 기초하여 장기 예측자에 대한 최적의 지연을 선택한다. 유사하게, 일부 실시예에서, 주어진 최적의 지연에 대한 예측자의 이득은 벡터 양자화기의 양자화 오차를 고려하고 있다. 이러한 것은 큰 예측 이득이 보다 약한 주파수 계수를 크게 감쇠시킬 수 있다는 관측에 기반을 두고 있다. 이는, 낮은 비트율에서, 특히, 강한 고조파 신호의 경우, 보다 약한 고조파의 일부가 벡터 양자화기에 의해 완전히 상실될 수 있게 하여, 고조파 왜곡이 인지될 수 있게 한다. 따라서, 예측자의 이득은 적어도 벡터 양자화기의 양자화 오차의 함수로 만들어진다.
주파수 도메인 장기 예측 시스템 및 방법의 실시예는 아래에서 상술되는 오디오 코덱의 환경에서 최적의 장기 예측자를 추정하고 적용하기 위한 기술을 포함한다. 일부 실시예는 주파수 도메인 분석을 사용하여 단일 탭 예측자의 지연 및 이득 파라미터를 결정한다. 이들 실시예에서, 최적성 기준은 스펙트럼 평탄도 척도에 기초하고 있다. 일부 실시예는 다양한 서브 대역을 양자화할 때 벡터 양자화기의 성능을 고려함으로써 장기 예측자 파라미터를 결정한다. 환언하면, 이들 실시예는 벡터 양자화 오차를 스펙트럼 평탄도 뿐만 아니라 (신호 토널리티와 같은) 다른 인코더 메트릭과 결합한다. 본 시스템 및 방법의 다른 실시예는, 예측자 및 합성 필터의 재구축 오차를 포함하여, 디코더 동작의 일부를 고려함으로써 장기 예측자의 최적의 파라미터를 결정한다. 이것은 일부 고전적 접근법에서와 같이 합성에 의한 완전한 분석을 수행하는 것을 회피하고 있다. 일부 실시예는 미리 설정된 필터의 테이블로부터 최소 에너지 기준에 기초하여 선택된 미리 선택된 필터로 1 탭 예측자를 컨볼루션함으로써 1 탭 예측자를 k 차수 예측자로 확장한다.
III. 시스템 및 동작 세부 사항
주파수 도메인 장기 예측 시스템 및 방법의 세부 사항이 이제 설명될 것이다. 본원의 개시에 기초하여 많은 변형이 가능하고 당업자는 동일한 결과가 달성될 수 있는 많은 다른 방식을 알 수 있음에 주목해야 한다.
정의
기본 형태에서, 예측 오차 신호는 다음과 같이 주어진다:
Figure pct00001
여기서, "s(n)"은 입력 오디오 신호이고, "L"은 신호 주기성(또는 지연(L))이며, "b"는 예측자 이득이다.
예측자는 전달 함수가 아래와 같이 주어진 필터로서 표현될 수 있다:
Figure pct00002
임의의 차수(K)에 대한 일반화된 형태는 아래와 같이 표현될 수 있다:
Figure pct00003
주파수 기반 최적성 기준
도 7은 주파수 도메인 장기 예측 시스템(700) 및 방법의 실시예의 일반적인 블록도이다. 시스템(700)은 인코더(705) 및 디코더(710) 모두를 포함한다. 도 7에 도시된 시스템(700)은 오디오 코덱이라는 것에 주목해야 한다. 그러나, 오디오 코덱이 아닌 다른 유형의 코덱을 포함하여 상기 방법의 다른 구현이 가능하다.
도 7에 도시된 바와 같이, 인코더(705)는 장기 예측자를 생성하는 장기 예측(LTP) 블록(715)을 포함한다. LTP 블록(715)은 입력 오디오 신호의 입력 샘플(722)에 대한 시간-주파수 분석을 수행하는 시간-주파수 분석 블록(720)을 포함한다. 시간-주파수 분석은 ODFT와 같은 주파수 변환을 적용하는 것과, 그 후, 해당 스펙트럼의 일부 서브 대역 분할에 기초하여 ODFT 크기 스펙트럼의 평탄도 척도를 계산하는 것을 포함한다.
입력 샘플(722)은 또한 입력 샘플(722)의 시간 도메인 처리를 수행하기 위해 제 1 시간 도메인(TD) 처리 블록(724)에 의해 사용된다. 일부 실시예에서, 시간 도메인 처리는 프리 엠퍼시스(pre-emphasis) 필터를 사용하는 것을 포함한다. 제 1 벡터 양자화기(726)는 장기 예측자의 최적의 이득을 결정하는 데 사용된다. 이 제 1 벡터 양자화기는 최적의 이득을 결정하기 위해 제 2 벡터 양자화기(730)와 병렬로 사용된다.
시스템(700)은 또한 장기 예측자의 계수를 결정하는 최적의 파라미터 추정 블록(735)을 포함한다. 이 과정은 아래에 설명되어 있다. 이 추정의 결과는 주어진 차수 K의 실제 장기 예측자 필터인 장기 예측자(740)이다.
비트 할당 블록(745)은 각 서브 대역에 할당된 비트의 수를 결정한다. 제 1 윈도우 블록(750)은 주파수 도메인으로의 변환 이전에 시간 신호에 대해 다양한 윈도우 형상을 적용한다. 수정 이산 코사인 변환(MDCT) 블록(755)은 시간 신호를 주파수 도메인으로 변환하는 전형적인 코덱에서 사용되는 한 유형의 주파수 변환의 예이다. 제 2 벡터 양자화기(730)는 코드북(또는 일부 다른 컴팩트화된 표현)으로부터 취해진 벡터로 MDCT 계수의 벡터를 나타낸다.
엔트로피 인코딩 블록(760)은 파라미터를 취하여 이들을 인코딩된 비트스트림(765)으로 인코딩한다. 인코딩된 비트스트림(765)은 디코딩을 위해 디코더(710)로 전송된다. 엔트로피 디코딩 블록(770)은 인코딩된 비트스트림(765)으로부터 모든 파라미터를 추출한다. 역 벡터 양자화 블록(772)은 인코더(705)의 제 1 양자화기(726) 및 제 2 벡터 양자화기(730)의 처리를 반전시킨다. 역 DCT 블록(775)은 인코더(705)에서 사용되는 DCT 블록(755)에 대한 역변환이다.
제 2 윈도우 블록(780)은 인코더(705)에서 사용된 제 1 윈도우 블록(750)과 유사한 윈도우 함수를 수행한다. 장기 합성기(785)는 장기 예측자(740)의 역 필터이다. 제 2 시간 도메인(TD) 처리 블록(790)은 인코더(705)에서 적용된 처리를 (디 앰퍼시스(de-emphasis)와 같이) 카운터한다. 디코더(710)의 출력은 디코딩된 입력 오디오 신호에 대응하는 출력 샘플(795)이다. 이 디코딩된 오디오 신호는 라우드스피커 또는 헤드폰을 통해 재생될 수 있다.
도 8은 주파수 도메인 장기 예측 방법의 실시예의 일반적인 흐름도이다. 도 8은 장기 예측자의 최적의 파라미터를 생성하기 위해 수행되는 다양한 동작을 설명한다. 도 8을 참조하면, 동작은 입력 오디오 신호의 입력 샘플(800)을 수신함으로써 시작한다. 다음으로, 기수-DFT (ODFT) 변환이 'N'개의 포인트에 걸친 신호의 윈도우화된 섹션에 적용된다(박스 810). 변환은 아래와 같이 정의된다:
Figure pct00004
(1)
여기서, 'k'와 'n'은 제각기 주파수와 시간 인텍스이고 'N'은 시퀀스의 길이이다. 변환을 적용하기 전에 사인 윈도우 [1]이 시간 신호에 적용된다:
Figure pct00005
(2)
상기 방법은 그 후 피크 피킹(peak picking)을 수행한다(박스 820). 피크 피킹은 시간 신호에서 정현파 성분의 주파수에 대응하는 크기 스펙트럼에서의 피크를 식별하는 것을 포함한다. 간단한 피크 피킹의 방안은 특정 높이 위의 로컬 최대값을 찾아내는 것과, 인접 피크와의 상대적 관계에 특정 조건을 부과하는 것을 포함한다. 주어진 빈(bin) 'lo'가 변곡점인 경우 그것은 다음과 같이 피크로 간주된다:
Figure pct00006
(3)
그것은 다음과 같이 특정 임계값 보다 크다:
Figure pct00007
(4)
그리고 다음과 같이 그 다음 이웃보다 높다:
Figure pct00008
(5)
[50 Hz : 3 kHz]의 주파수 간격에 대응하는 피크에 대한 신호가 검색된다. 'Thr'의 값은 X(k)의 최대값과 관련하여 선택될 수 있다.
다음 동작은 분율 주파수(fractional frequency) 추정이다(박스 830). 시간 도메인에서의 지연 'L'은 주파수 도메인에서의 대응하는 피크로 표현될 수 있다. 일단 피크(빈의 'lo')가 확인되면 분율 주파수('dl')가 추정될 필요가 있다. 이를 수행하는 다양한 방식이 존재한다. 일단 가능한 방안은 이 피크를 발생시킨 정현파가 시간 도메인에서 다음과 같이 모델링된다고 가정하는 것이다:
Figure pct00009
(6)
주파수 피크(lo)의 분율 주파수는 그 후, 아래와 같은 식을 사용하여 빈 'lo' 주위의 크기 비율을 고려함으로써 추정된다:
Figure pct00010
(7)
여기서, G는 고정값으로 설정될 수 있거나 데이터에 기초하여 계산될 수 있는 상수이다.
[50 Hz : 3 kHz]의 주파수 간격 내에 속하는 모든 지연(lo + dl)이 고려되고(박스 840), 그의 정규화된 자기 상관이 계산된다. 이 계산은 다음과 같이 시간 도메인 등가 지연(L)에 기초하고 있다:
Figure pct00011
인 경우,
Figure pct00012
(8)
그리고, x(n)은 입력 시간 신호이다. 정규화된 상관 값이 주어진 임계값보다 큰 지연들은 유지되고 후보 지연 세트가 된다.
상기 방법은 주파수 도메인에서 주파수 필터(또는 예측 필터)를 구축하는 것으로 진행한다(박스 850). (주어진 시간 지연 'L'과 이득 'b'에 대한) 필터를 ODFT 크기 포인트에 적용하기 위해, 그 필터의 주파수 응답 함수가 도출된다. 다음과 같은 단일 탭 예측자의 z-변환을 고려하면:
Figure pct00013
(9)
Figure pct00014
Figure pct00015
인 경우, 다음과 같이 생성된다:
Figure pct00016
(10)
주어진 주파수 피크(빈의 'lo'), 및 그의 분율 주파수(dl)에 대해, 시간 지연('L')은 주파수 단위로 다음과 같이 기재될 수 있다:
Figure pct00017
(11)
따라서, 이 피크를 기반으로 하는 예측자 필터의 크기 응답은 다음과 같다:
Figure pct00018
(12)
다음으로, 이 필터는 ODFT 스펙트럼에 적용된다(박스 860). 구체적으로, 위에서 계산된 필터는 그 후 새롭게 필터링된 ODFT 스펙트럼 X(k)를 산출하기 위해 ODFT 스펙트럼 S(k) 포인트에 직접 적용된다.
Figure pct00019
(13)
그 후, 상기 방법은 평탄도의 스펙트럼 척도를 계산한다(박스 870). 평탄도의 스펙트럼 척도는 오리지널 스펙트럼에 후보 필터를 적용한 후 필터링된 스펙트럼의 ODFT 크기 스펙트럼에서 계산된다. 임의의 일반적으로 허용되는 스펙트럼 평탄도의 척도가 사용될 수 있다. 예를 들어, 엔트로피 기반 척도가 사용될 수 있다. 스펙트럼은 (예를 들어, 바크 스케일(Bark scale)에 따라) 인지 대역으로 분할되고, 평탄도 척도는 다음과 같이 각 대역(n)에 대해 계산된다:
Figure pct00020
(14)
여기서, 빈 'k'에서 크기의 정규화된 값은 다음과 같다:
Figure pct00021
(15)
그리고 'k'는 그 대역 내의 빈의 총 수이다.
다음으로, 상기 방법은 최적화 함수(박스 880)를 사용하고, 최적화(또는 비용) 함수를 최소화하는 장기 예측자(또는 필터)를 찾기 위해 반복한다. 간단한 최적화 함수는 전체 스펙트럼에 대한 단일 평탄도 척도로 구축된다. 스펙트럼 평탄도 척도 Fn(X)의 선형 값들은 그 후 모든 대역에 걸쳐 평균화되어 단일 척도를 산출하게 된다:
Figure pct00022
(16)
여기서, 'B'는 대역의 수이다. Wn(x)는 에너지를 기준으로, 또는 단순히 주파수 축 상의 차수를 기준으로, 다른 대역보다 더 많은 특정 대역을 강조하는 가중화 함수이다.
결합된 주파수 기반 기준을 다른 인코더 메트릭과 함께 사용하는 실시예
도 9는 결합된 주파수 기반 기준을 다른 인코더 메트릭과 함께 사용하는 주파수 도메인 장기 예측 방법의 다른 실시예의 일반적인 흐름도이다. 이러한 대안의 실시예에서, VQ 양자화 오차 및 가능하게는 프레임 토널리티와 같은 다른 메트릭이 최적화 함수를 결정할 때 고려된다. 이것은 장기 예측자(LTP)가 VQ 동작에 미치는 영향을 고려하기 위해 수행된다. 후술되는 바와 같이, VQ 오차를 평탄도 척도와 결합하는 여러 가지 방식이 존재한다.
이들 실시예에서, ODFT 스펙트럼은 먼저 MDCT 스펙트럼으로 변환된다. 다음으로, VQ는 그 MDCT 스펙트럼 내의 개개의 대역에 적용된다. 사용된 비트 할당은 인코더의 다른 블록으로부터 도출된다.
도 9를 참조하면, 박스(810, 820, 830, 840, 850, 860 및 870)의 동작은 도 8과 관련하여 상술되어 있다. 블록(900)은 이들 실시예의 방법에 대한 추가 사항의 개요를 설명한다. 블록(900)은 수행되는 비트 할당(박스 910)을 포함하며, 다양한 기준에 기초하여 서브 대역에 걸쳐 비트를 할당하기 위해 코덱에서 사용되는 다양한 방안을 포함한다.
그 다음, 상기 방법은 ODFT-수정 이산 코사인 변환(MDCT) 변환(박스 920)을 수행한다. 특히, ODFT 스펙트럼은 다음의 관계식을 사용하여 MDCT 스펙트럼으로 변환된다:
Figure pct00023
(17)
Figure pct00024
(18)
그리고, X0(k)는 ODFT 스펙트럼 값이다.
다음으로, 상기 방법은 인코더에서 계산된 비트 할당 예산을 사용하여 MDCT 스펙트럼에 벡터 양자화(박스 930)를 적용한다. 각 서브 대역은 하나의 벡터 또는 일련의 벡터로 양자화된다. 결과는 양자화 오차(박스 940)이다. 그 다음, 상기 방법은 평탄도 척도를 VQ 오차와 결합하여 최적화 함수(박스 950)를 적용한다. 특히, 최적화 함수는 평탄도 척도와 VQ 오차에 기초한 가중치를 결합하여 도출된다. 상기 방법은 결합 최적화(또는 비용) 함수를 최소화하는 필터 파라미터를 찾기 위해 반복된다.
일부 실시예에서, 각 서브 대역에 대한 VQ 오차는 다른 대역보다 많은 특정 대역을 강조하기 위한 가중화 함수로서 사용된다. 따라서, 평탄도는 가중화되고, 그 후 평균화된다:
Figure pct00025
(19)
여기서, Wn(x)는 MDCT에서 n 번째 대역에 대한 VQ 오차의 함수이다.
다른 실시예에서, VQ 오차는 최적의 이득을 선택하는 데 사용된다. 주어진 지연 'L'과 관련된 이득은 정규화 자기 상관 함수 NR(L)로부터 계산된다. 일단 최적의 지연이 (평탄도 척도에 기초하여) 결정되면, 대응하는 이득은 VQ (가중화된) 양자화 오차를 최소화하기 위한 인자에 의해 반복적으로 스케일 다운 또는 업(scaled down or up)된다.
대안의 실시예에서, VQ 오차는 이득에 대한 상한을 생성하는 데 사용된다. 이것은 매우 높은 이득으로 인해 스펙트럼의 특정 섹션이 VQ가 양자화할 바닥 아래로 내려 갈 수 있는 경우의 실시예를 위한 것이다. 이 상황은, VQ 오차가 높은 경우, 낮은 비트 레이트 동안 발생하며, 높은 토널의 콘텐츠에서 특히 두드러진다. 따라서, 프레임 'n'에서의 이득에 대한 상한은 프레임 토널리티와 평균 VQ 오차의 함수로서 결정된다. 수학적으로, 이것은 다음과 같이 주어진다:
Figure pct00026
디코더 재구축과 함께 최적화 기준을 갖는 실시예
도 10은 주파수 기반 스펙트럼 평탄도가 디코더에서의 재구축 오차를 고려한 다른 인자와 결합될 수 있는 대안의 실시예를 도시한다. 이것은, 예를 들어, 2 개 이상의 지연이 동일한 평탄도 척도를 가질 때 발생한다. 추가 인자, 즉 이전 프레임에서의 이전 지연에서 현재 프레임에서의 가능한 지연의 각각으로의 천이의 비용이 고려된다.
도 10에 도시된 실시예에서, LTP의 필터 계수는 프레임마다 한번씩 추정된다. 따라서, (인코더와 디코더 모두에서의) 필터에는 매 10 내지 20 msec마다 다른 계수 세트가 로드된다. 이는 잠재적으로 가청 불연속을 야기할 수 있다. 필터 출력의 천이를 평활화(smooth)하게 하기 위해, 예를 들어, 크로스 페이딩(cross-fading) 방안과 같은 다양한 방안이 사용될 수 있다.
도 10을 참조하면, 최적의 파라미터 세트에 대한 검색 동안, 필터는 시간 도메인에서 구축되고 입력에 적용된다(박스 1000). 유사하게, 디코드에서의 이러한 실시예에서, 디코더의 역 필터들이 모방되고(박스 1010), 출력과 입력 사이의 재구축 오차가 각각의 후보 지연에 대해 계산된다. 이 오차는 최적화 함수를 산출하기 위해 평탄도 척도와 결합된다(박스 1020).
보다 구체적으로, 도 11은 도 10의 박스(1000, 1010)의 동작을 수행하는 두 개의 시간적으로 연속적인 프레임을 도시한다. 도 11에 도시된 바와 같이, 섹션(1100)에서 상이한 후보 필터 계수 세트가 각각의 프레임(프레임 N-1 및 프레임 N)에 대해 도시된다. 섹션(1110)에 도시된 바와 같이, 천이를 평활화하기 위해, 필터 출력은 시간(Dn) 동안 크로스 페이딩된다(cross faded). 현재 프레임(프레임 N)에서, 선택할 수 있는 두 개의 가능한 필터 세트가 존재할 수 있다. 각 세트는 현재의 필터에 적용되고, 크로스 페이딩 동작은 (섹션(1110)에 도시된) 인코더 측 및 (섹션(1120)에 도시된) 디코더 측에 대해 수행된다. 결과적인 출력은 오리지널 출력과 비교된다. 설정된 계수 세트는 이러한 재구축 오차를 최소화하는 것에 기초하여 선택된다.
차수 K 예측자로의 확장
고 차수(higher-order) 예측자의 경우, 다중 탭을 추정하려면 역행렬 연산이 필요한데, 이는 실제로는 보장되지 않는다. 따라서, 중앙(또는 단일) 탭(L)만을 추정하고, 그 후 일부 최적성 기준에 기초하여 제한된 세트로부터 사이드 탭을 선택하는 방식을 찾는 것이 종종 바람직하다. 실제 시스템의 일반적인 솔루션 중 일부는 미리 계산된 필터 형상 테이블을 제공하고 이들 중 하나를 위에 계산된 단일 탭 필터로 컨볼루션하는 것이다. 예를 들어, 필터 형상이 각각 3 탭(3 tap)이면, 이는 도 12에 도시된 바와 같이, 3 차수 예측자를 생성할 것이다.
도 12는 단일 탭 예측자를 3 차수 예측자로 변환하는 것을 도시한다. 도 12를 참조하면, 단일 차수 예측자는 3 차수 예측자를 생성하기 위해 테이블(1210)로부터의 가능한 필터 형상들 중 하나와 컨볼루션된다(1200). 이러한 실시예에서, M 개의 가능한 필터 형상의 테이블이 사용되고, 결과적인 잔차 출력 에너지를 최소화하는 것에 기초하여 선택이 행해진다. M 개 형상의 테이블은 다양한 오디오 콘텐츠의 스펙트럼 엔벨로프를 매칭시키는 것에 기초하여 오프라인으로 생성된다. 1 탭 필터가 전술한 바와 같이 결정되면, M 개의 필터 형상의 각각은 k 차수 필터를 생성하기 위해 컨볼루션된다. 필터는 입력 신호에 적용되고 필터의 잔차 (출력) 에너지가 계산된다. 에너지를 최소화하는 형상이 최적으로 선택된다. 이 결정은 신호 에너지에서의 커다란 변경을 야기하지 않도록, 예를 들어, 히스테리시스(hysteresis)로 추가로 평활화(smoothed)된다.
IV. 대안의 실시예 및 예시적인 동작 환경
주파수 도메인 장기 예측 시스템 및 방법의 대안의 실시예가 가능하다. 본원에 설명된 것 이외의 많은 다른 변형이 본 명세서로부터 명백할 것이다. 예를 들어, 실시예에 따라, 본원에 설명된 방법 및 알고리즘 중 임의의 것의 특정한 동작, 이벤트 또는 기능은 상이한 순서로 수행될 수 있고, 전체적으로 추가, 병합, 또는 생략될 수 있어서 상기 방법 및 알고리즘의 실시를 위해 설명된 동작 또는 이벤트 모두가 필요한 것은 아니다. 또한, 특정 실시예에서, 동작 또는 이벤트는 멀티-스레드디드 처리, 인터럽트 처리, 또는 다중 프로세서 또는 프로세서 코어를 통해 또는 순차적이 아닌 다른 병렬 아키텍처를 통해 동시에 수행될 수 있다. 또한, 다양한 작업 또는 프로세스는 함께 작동할 수 있는 다양한 시스템 및 컴퓨팅 시스템에 의해 수행될 수 있다.
본원에 개시된 실시예와 관련하여 설명된 다양한 예시적인 논리 블록, 모듈, 방법, 및 알고리즘 프로세스 및 시퀀스는 전자 하드웨어, 컴퓨터 소프트웨어, 또는 이들의 조합으로서 구현될 수 있다. 하드웨어 및 소프트웨어의 이러한 상호 교환 가능성을 명확하게 설명하기 위해, 다양한 예시적인 컴포넌트, 블록, 모듈 및 프로세스 동작이 일반적으로 그 기능의 관점에서 상술되었다. 이러한 기능이 하드웨어로 구현되는지 또는 소프트웨어로 구현되는지는 전체 시스템에 부과된 특정 애플리케이션 및 설계 제약 사항에 따라 달라진다. 기술된 기능은 각각의 특정 애플리케이션에 대해 다양한 방법으로 구현될 수 있지만, 이러한 구현 결정은 본원의 범위를 벗어나는 것으로 해석되어서는 안된다.
본원에 개시된 실시예와 관련하여 설명된 다양한 예시적인 논리 블록 및 모듈은 범용 프로세서, 처리 장치, 하나 이상의 처리 장치를 갖는 컴퓨팅 장치, 디지털 신호 프로세서(DSP), 주문형 집적 회로(ASIC), 필드 프로그래머블 게이트 어레이(FPGA) 또는 다른 프로그래머블 로직 장치, 이산 게이트 또는 트랜지스터 로직, 이산 하드웨어 컴포넌트, 또는 본원에 설명된 기능을 수행하도록 설계된 이들의 임의의 조합과 같은 머신에 의해 구현되거나 수행될 수 있다. 범용 프로세서 및 처리 장치는 마이크로프로세서일 수 있지만, 대안으로, 프로세서는 컨트롤러, 마이크로컨트롤러, 또는 상태 머신, 이들의 조합 등일 수 있다. 프로세서는 또한 DSP와 마이크로프로세서의 조합과 같은 컴퓨팅 장치들의 조합, 복수의 마이크로 프로세서, DSP 코어와 결합된 하나 이상의 마이크로 프로세서 또는 임의의 다른 그러한 구성으로서 구현될 수 있다.
본원에 설명된 주파수 도메인 장기 예측 시스템 및 방법의 실시예는 다양한 유형의 범용 또는 특수 목적 컴퓨팅 시스템 환경 또는 구성 내에서 동작한다. 일반적으로, 컴퓨팅 환경은, 예를 들어, 하나 이상의 마이크로프로세서에 기초한 컴퓨터 시스템, 메인프레임 컴퓨터, 디지털 신호 프로세서, 휴대용 컴퓨팅 장치, 퍼스널 오거나이저(personal organizer), 장치 컨트롤러, 기기 내의 계산 엔진, 모바일폰, 데스크탑 컴퓨터, 모바일 컴퓨터, 태블릿 컴퓨터, 스마트폰 및 임베디드 컴퓨터를 갖는 기기를 포함하지만 이에 국한되는 것은 아닌 임의의 유형의 컴퓨터 시스템을 포함할 수 있다.
이러한 컴퓨팅 장치는 전형적으로 퍼스널 컴퓨터, 서버 컴퓨터, 핸드헬드 컴퓨팅 장치, 랩톱 또는 모바일 컴퓨터, 셀 폰 및 PDA와 같은 통신 장치, 멀티프로세서 시스템, 마이크로프로세서 기반 시스템, 셋탑 박스, 프로그래머블 가전 제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 오디오 또는 비디오 미디어 플레이어 등을 포함하지만 이에 국한되지는 않는, 적어도 최소 계산 기능을 갖는 장치 내에서 발견될 수 있다. 일부 실시예에서, 컴퓨팅 장치는 하나 이상의 프로세서를 포함할 것이다. 각각의 프로세서는 디지털 신호 프로세서(DSP), 초장 명령어(very long instruction word, VLIW) 또는 다른 마이크로컨트롤러와 같은 특수 마이크로프로세서일 수 있거나, 또는 멀티-코어 CPU 내의 특수 그래픽 처리 유닛(GPU) 기반 코어를 포함하여, 하나 이상의 처리 코어를 갖는 종래의 중앙 처리 유닛(CPU)일 수 있다.
본원에 개시된 실시예와 관련하여 설명된 방법, 프로세스, 블록 또는 알고리즘의 프로세스 동작은 하드웨어로, 프로세서에 의해 실행되는 소프트웨어로, 또는 이들의 임의의 조합으로 직접 구현될 수 있다. 소프트웨어는 컴퓨팅 장치에 의해 액세스될 수 있는 컴퓨터 판독가능 매체 내에 포함될 수 있다. 컴퓨터 판독가능 매체는 착탈식, 고정식 또는 이들의 일부 조합인 휘발성 및 비 휘발성 매체를 모두 포함한다. 컴퓨터 판독가능 매체는 컴퓨터 판독가능 또는 컴퓨터 실행가능 명령어, 데이터 구조, 프로그램 모듈 또는 다른 데이터와 같은 정보를 저장하는 데 사용된다. 제한이 아닌 예로서, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 포함할 수 있다.
컴퓨터 저장 매체는 블루레이 디스크(BD), DVD, 컴팩트 디스크(CD), 플로피 디스크, 테이프 드라이브, 하드 드라이브, 광학 드라이브, 고체 상태 메모리 장치, RAM 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 플래시 메모리 또는 다른 메모리 기술, 자기 카세트, 자기 테이프, 자기 디스크 저장 장치, 또는 다른 자기 저장 장치, 또는 원하는 정보를 저장하는 데 사용될 수 있고 하나 이상의 컴퓨팅 장치에 의해 액세스될 수 있는 임의의 다른 장치와 같은 컴퓨터 또는 머신 판독가능 매체 또는 저장 장치를 포함하지만, 이에 국한되는 것은 아니다.
소프트웨어는 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈식 디스크, CD-ROM, 또는 임의의 다른 형태의 비 일시적인 컴퓨터 판독가능 저장 매체 , 미디어 또는 당업계에 공지된 물리적인 컴퓨터 저장 장치에 상주할 수 있다. 예시적인 저장 매체는 프로세서가 저장 매체로부터 정보를 판독하고 저장 매체에 정보를 기록할 수 있도록 프로세서에 연결될 수 있다. 대안으로, 저장 매체는 프로세서에 통합될 수 있다. 프로세서 및 저장 매체는 주문형 집적 회로(ASIC)에 상주할 수 있다. ASIC은 사용자 단말기에 상주할 수 있다. 대안으로, 프로세서 및 저장 매체는 사용자 단말기에 개별 컴포넌트로서 상주할 수 있다.
본원에서 사용되는 "비 일시적(non-transitory)"이라는 문구는 "오래가는 또는 오래 지속되는"을 의미한다. "비 일시적 컴퓨터 판독가능 매체"라는 문구는 일시적 전파 신호를 유일하게 제외하고는 임의의 모든 컴퓨터 판독가능 매체를 포함한다. 이는, 제한되지 않는 예로서, 레지스터 메모리, 프로세서 캐시 및 RAM (random-access memory)과 같은 비 일시적 컴퓨터 판독가능 매체를 포함한다.
문구 "오디오 신호"는 물리적인 사운드를 나타내는 신호이다. 한 가지 방식은 물리적 신호를 포착하여 오디오 신호를 구축하는 것이다. 오디오 신호는 물리적인 사운드를 생성하도록 재생 장치에서 재생되고, 그에 따라 청취자는 오디오 콘텐츠를 들을 수 있다. 재생 장치는 전자 신호를 해석하여 물리적인 사운드로 변환할 수 있는 임의의 장치일 수 있다.
컴퓨터 판독가능 또는 컴퓨터 실행가능 명령어, 데이터 구조, 프로그램 모듈 등과 같은 정보의 보유는 또한 다양한 통신 매체를 사용하여 달성되어 하나 이상의 변조된 데이터 신호, (반송파와 같은) 전자기파, 또는 다른 전송 메커니즘 또는 통신 프로토콜을 인코딩할 수 있고, 임의의 유선 또는 무선 정보 전달 메커니즘을 포함한다. 일반적으로, 이들 통신 매체는 정보 또는 명령어를 인코딩하는 것과 같은 방식으로 설정되거나 변경된 하나 이상의 특성을 갖는 신호를 지칭한다. 예를 들어, 통신 매체는 하나 이상의 변조된 데이터 신호를 전달하는 유선 네트워크 또는 직접 유선 접속과 같은 유선 매체, 및 음향, 무선 주파수(RF), 적외선, 레이저, 및 하나 이상의 변조된 데이터 신호 또는 전자기파를 송신, 수신 또는 이들 모두를 수행하기 위한 다른 무선 매체와 같은 무선 매체를 포함한다. 전술한 것 중 임의의 조합은 또한 통신 매체의 범위 내에 포함되어야 한다.
또한, 본원에 기술된 에너지 평활화를 갖는 변환 기반 코덱 및 방법의 다양한 실시예의 일부 또는 전부를 구현하는 소프트웨어, 프로그램, 컴퓨터 프로그램 제품 중 하나 또는 임의의 조합, 또는 그의 일부분은 컴퓨터 실행가능 명령어 또는 다른 데이터 구조의 형태로 컴퓨터 또는 머신 판독가능 매체 또는 저장 장치 및 통신 매체의 임의의 원하는 조합으로부터 저장, 수신, 송신 또는 판독될 수 있다.
본원에 설명된 주파수 도메인 장기 예측 시스템 및 방법의 실시예는 컴퓨팅 장치에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행가능 명령어의 일반적인 상황에서 더 설명될 수 있다. 일반적으로, 프로그램 모듈은 특정 작업을 수행하거나 특정 추상 데이터 유형을 구현하는 루틴, 프로그램, 객체, 컴포넌트, 데이터 구조 등을 포함한다. 본원에 설명된 실시예는 또한 하나 이상의 원격 처리 장치에 의해 또는 하나 이상의 통신 네트워크를 통해 링크된 하나 이상의 장치의 클라우드(cloud) 내에서 작업이 수행되는 분산 컴퓨팅 환경에서 실시될 수도 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 매체 저장 장치를 포함하는 로컬 및 원격 컴퓨터 저장 매체 모두에 위치할 수 있다. 또한, 전술한 명령어는 부분적으로 또는 전체적으로 프로세서를 포함하거나 포함하지 않을 수 있는 하드웨어 논리 회로로서 구현될 수 있다.
달리 명시하지 않는 한, 또는 사용되는 문맥 내에서 달리 이해되지 않는 한, 본원에서 사용되는 조건 언어, 가령, 특히, "가능하다", "할 수도 있다", "할 수 있다", "예를 들어" 등은 일반적으로 특정 실시예는 특정의 특징, 요소 및/또는 상태를 포함하지만, 다른 실시예는 이를 포함하지 않는다는 것을 전하기 위한 의도이다. 따라서, 그러한 조건 언어는 일반적으로 하나 이상의 실시예에 대해 특징, 요소 및/또는 상태가 어떤 방식 으로든 요구되거나, 또는 이들 특징, 요소 및/또는 상태가 임의의 특정 실시예에 포함되든 임의의 특정 실시예에서 수행되든 간에, 하나 이상의 실시예가 필자의 입력 또는 프롬프트를 갖는지 아닌지를 결정하기 위한 로직을 반드시 포함한다는 것을 암시할려는 의도는 아니다. "포함하는", "구비하는", "갖는" 등의 용어는 동의어이며 개방형 방식으로 포괄적으로 사용되며, 추가의 요소, 특징, 작용, 동작 등을 배제하는 것이 아니다. 또한, "또는"이라는 용어는 포괄적인 의미로 사용되며, 배타적인 의미로 사용되는 것이 아니어서, 예를 들어, 요소의 리스트를 연결하는 데 사용될 때, "또는"이라는 용어는 그 리스트 내의 요소의 하나, 일부 또는 전부를 의미하는 것이 된다.
전술한 상세한 설명은 다양한 실시예에 적용되는 바와 같은 신규한 특징을 도시하고, 설명하고, 지적하였지만, 예시된 장치 또는 알고리즘의 형태 및 세부 사항에서 본 개시의 사상으로부터 벗어남이 없이 다양한 생략, 대체 및 변경이 이루어질 수 있음이 이해될 것이다. 인식되는 바와 같이, 본원에 설명된 본 발명의 특정 실시예는 일부 특징이 다른 것들과 별도로 사용될 수 있거나 실행될 수 있기 때문에 본원에서 설명된 모든 특징 및 이점을 제공하지 않는 형태로 구현될 수 있다.
또한, 비록 본 발명이 구조적 특징 및 방법론적 동작에 특정된 언어로 기술되었지만, 첨부된 청구범위에 정의된 요지는 반드시 상술한 특정 특징 또는 동작에 반드시 제한되는 것은 아니라는 것을 이해해야 한다. 오히려, 상술한 특정 특징 및 동작은 청구범위를 구현하는 예시적인 형태로서 개시된다.

Claims (17)

  1. 오디오 신호를 인코딩하기 위한 오디오 코딩 시스템으로서,
    장기(long-term) 선형 예측자 - 상기 장기 선형 예측자는,
    상기 오디오 신호를 필터링하는 데 사용되는 적응형 필터, 및
    상기 적응형 필터에 의해 사용되는 적응형 필터 계수 - 상기 적응형 필터 계수는 상기 오디오 신호의 윈도우화된(windowed) 시간 신호의 분석에 기초하여 결정됨 -
    를 더 포함함 -;
    상기 오디오 신호의 주파수 변환을 획득하기 위해 주파수 도메인에서 상기 윈도우화된 시간 신호를 나타내는 주파수 변환 유닛과;
    상기 주파수 변환의 분석 및 상기 주파수 도메인에서의 최적성의 기준에 기초하여 최적의 장기 선형 예측자를 추정하는 최적의 장기 예측자 추정 유닛과;
    양자화된 주파수 변환 계수를 생성하기 위해 인코딩될 윈도우화된 프레임의 주파수 변환 계수를 양자화하는 양자화 유닛과;
    상기 양자화된 주파수 변환 계수를 포함하는 인코딩된 신호
    를 포함하며, 상기 인코딩된 신호는 상기 오디오 신호의 표현인 것인 오디오 코딩 시스템.
  2. 제 1 항에 있어서,
    상기 최적의 장기 예측자 추정 유닛은 상기 양자화 유닛으로부터의 양자화 오차의 분석에 기초하여 상기 최적의 장기 선형 예측자를 추정하는 것을 더 포함한 것인 오디오 코딩 시스템.
  3. 제 1 항에 있어서,
    1 탭 장기 선형 예측자를 k 차수 장기 선형 예측자로 확장하기 위해 사용되는 미리 결정된 필터 형상들의 필터 형상 테이블과;
    상기 필터 형상 테이블로부터 최적의 필터 형상을 선택하는 추정 선택 유닛
    을 더 포함하는 오디오 코딩 시스템.
  4. 제 3 항에 있어서,
    상기 k 차수 장기 선형 예측자의 출력의 에너지를 최소화함으로써 선택되는 최적의 필터 형상
    을 더 포함하는 오디오 코딩 시스템.
  5. 오디오 신호를 인코딩하기 위한 방법으로서,
    적응형 필터인 장기 선형 예측자를 사용하여 상기 오디오 신호를 필터링하는 단계와;
    상기 오디오 신호에 대한 주파수 변환을 생성하는 단계 - 상기 주파수 변환은 주파수 도메인에서 윈도우화된 시간 신호를 나타냄 - 와;
    상기 주파수 변환의 분석 및 상기 주파수 도메인에서의 최적성의 기준에 기초하여 최적의 장기 선형 예측자를 추정하는 단계와;
    양자화된 주파수 변환 계수를 생성하기 위해 인코딩될 윈도우화된 프레임의 주파수 변환 계수를 양자화하는 단계와;
    상기 양자화된 주파수 변환 계수를 포함하는 인코딩된 신호를 구축하는 단계
    를 포함하고, 상기 인코딩된 신호는 상기 오디오 신호의 표현인 것인 오디오 신호 인코딩 방법.
  6. 제 5 항에 있어서,
    상기 오디오 신호의 윈도우화된 시간 신호의 주파수 분석에 기초하여 상기 장기 선형 예측자에 대한 적응형 필터 계수를 결정하는 단계
    를 더 포함하는 오디오 신호 인코딩 방법.
  7. 제 5 항에 있어서,
    상기 주파수 변환의 분석과, 상기 주파수 변환 계수의 양자화로부터의 양자화 오차 둘 다에 기초하여 상기 최적의 장기 선형 예측자를 추정하는 단계
    를 더 포함하는 오디오 신호 인코딩 방법.
  8. 제 5 항에 있어서,
    미리 결정된 필터 형상을 포함하는 예측자 필터 형상 테이블을 사용하여 1 탭 장기 선형 예측자를 k 차수 장기 선형 예측자로 확장하는 단계와;
    상기 예측자 필터 형상 테이블로부터 상기 최적의 장기 선형 예측자에서 사용하기 위한 최적의 필터 형상을 선택하는 단계
    를 더 포함하는 오디오 신호 인코딩 방법.
  9. 제 8 항에 있어서,
    상기 최적의 필터 형상을 선택하는 단계는, 상기 k 차수 장기 선형 예측자의 출력의 에너지를 최소화하는 필터 형상을 상기 예측자 필터 형상 테이블로부터 선택하는 단계
    를 더 포함하는 오디오 신호 인코딩 방법.
  10. 제 5 항에 있어서,
    상기 장기 선형 예측자는 1 탭 장기 선형 예측자이고,
    상기 오디오 신호 인코딩 방법은 상기 1 탭 장기 선형 예측자에 대한 지연 및 이득 파라미터들을 추정하는 단계를 더 포함하는 것인 오디오 신호 인코딩 방법.
  11. 제 10 항에 있어서,
    상기 윈도우화된 시간 신호 내의 우세 고조파 성분(dominant harmonic component)에 대응하는 주파수 크기 스펙트럼의 우세 피크(dominant peak)를 결정하고, 상기 우세 피크 각각에 대한 분율 주파수(fractional frequency)를 계산하는 단계와;
    상기 우세 피크의 서브 세트에 기초하여 상기 주파수 도메인에서 후보 필터의 세트를 구축하고, 결과적인 변환 스펙트럼을 생성하기 위해 상기 후보 필터의 세트를 상기 주파수 크기 스펙트럼에 적용하는 단계와;
    상기 최적성의 기준을 계산하는 단계
    를 더 포함하는 오디오 신호 인코딩 방법.
  12. 제 11 항에 있어서,
    상기 주파수 기반의 최적성의 기준은 상기 후보 필터를 적용한 후의 결과적인 스펙트럼의 스펙트럼 평탄도 척도이며,
    상기 오디오 신호 인코딩 방법은,
    상기 최적성의 기준을 최대화하는 최적의 필터 형상을 선택하는 단계와;
    주파수 분석에서 결정된 지연 및 이득 파라미터들을 시간 도메인 등가물로 변환하는 단계와;
    상기 지연 및 이득 파라미터들을 포함하는 상기 최적의 장기 선형 예측자를 상기 시간 도메인에서 상기 오디오 신호에 적용하는 단계
    를 더 포함하고,
    상기 최적의 필터 형상은 상기 지연 및 이득 파라미터들을 포함한 것인 오디오 신호 인코딩 방법.
  13. 제 11 항에 있어서,
    상기 결과적인 변환 스펙트럼을 스칼라 또는 벡터 양자화기를 사용하여 양자화하는 단계와;
    선택된 비트 레이트에 대한 상기 양자화 오차의 척도를 생성하는 단계와;
    상기 양자화 오차의 척도와 스펙트럼 평탄도 척도의 조합에 기초하여 상기 최적의 장기 선형 예측자를 추정하는 단계
    를 더 포함하는 오디오 신호 인코딩 방법.
  14. 제 13 항에 있어서,
    상기 양자화 오차 및 프레임 토널리티 척도를 사용하여 상기 최적의 장기 선형 예측자의 이득에 상한을 부과하는 단계
    를 더 포함하는 오디오 신호 인코딩 방법.
  15. 제 14 항에 있어서,
    디코더에서의 재구축 신호 오차를 최소화하는 것에 기초하여 상기 최적의 장기 선형 예측자를 추정하는 단계
    를 더 포함하는 오디오 신호 인코딩 방법.
  16. 오디오 신호의 인코딩 동안 1 탭 예측자 필터를 k 차수 예측자 필터로 확장하는 방법으로서,
    결과적인 k 차수 예측자 필터를 획득하기 위해 미리 계산된 필터 형상을 포함하는 예측자 필터 형상 테이블에서 선택된 필터 형상으로 상기 1 탭 예측자 필터를 컨볼루션하는 단계와;
    출력 신호를 획득하기 위해 상기 오디오 신호에 대해 상기 결과적인 k 차수 예측자 필터를 실행하는 단계와;
    상기 결과적인 k 차수 예측자 필터의 상기 출력 신호의 에너지를 계산하는 단계와;
    상기 출력 신호의 에너지를 최소화하는 최적의 필터 형상을 상기 테이블로부터 선택하는 단계와;
    상기 최적의 필터 형상을 포함하는 상기 결과적인 k 차수 예측자 필터를 상기 오디오 신호에 적용하는 단계
    를 포함하는 1 탭 예측자 필터를 k 차수 예측자 필터로 확장하는 방법.
  17. 제 16 항에 있어서,
    평활화 천이(smooth transition)를 생성하기 위해 히스테리시스 기술을 사용하여 상기 최적의 필터 형상을 선택하는 결정을 평활화(smoothing)하는 단계
    를 더 포함하는 1 탭 예측자 필터를 k 차수 예측자 필터로 확장하는 방법.
KR1020197010006A 2016-09-09 2017-09-08 오디오 코덱의 장기 예측을 위한 시스템 및 방법 KR102569784B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662385879P 2016-09-09 2016-09-09
US62/385,879 2016-09-09
PCT/US2017/050845 WO2018049279A1 (en) 2016-09-09 2017-09-08 System and method for long-term prediction in audio codecs

Publications (2)

Publication Number Publication Date
KR20190045327A true KR20190045327A (ko) 2019-05-02
KR102569784B1 KR102569784B1 (ko) 2023-08-22

Family

ID=61560927

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197010006A KR102569784B1 (ko) 2016-09-09 2017-09-08 오디오 코덱의 장기 예측을 위한 시스템 및 방법

Country Status (6)

Country Link
US (1) US11380340B2 (ko)
EP (1) EP3510595A4 (ko)
JP (1) JP7123911B2 (ko)
KR (1) KR102569784B1 (ko)
CN (1) CN110291583B (ko)
WO (1) WO2018049279A1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113129913B (zh) * 2019-12-31 2024-05-03 华为技术有限公司 音频信号的编解码方法和编解码装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100105745A (ko) * 2008-01-04 2010-09-29 돌비 인터네셔널 에이비 오디오 인코더 및 디코더
US20100286980A1 (en) * 2003-12-19 2010-11-11 Motorola, Inc. Method and apparatus for speech coding

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2095882A1 (en) * 1992-06-04 1993-12-05 David O. Anderton Voice messaging synchronization
US6298322B1 (en) * 1999-05-06 2001-10-02 Eric Lindemann Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal
JP4578145B2 (ja) 2003-04-30 2010-11-10 パナソニック株式会社 音声符号化装置、音声復号化装置及びこれらの方法
AU2012201692B2 (en) * 2008-01-04 2013-05-16 Dolby International Ab Audio Encoder and Decoder
US8738385B2 (en) 2010-10-20 2014-05-27 Broadcom Corporation Pitch-based pre-filtering and post-filtering for compression of audio signals
ES2689072T3 (es) * 2012-05-23 2018-11-08 Nippon Telegraph And Telephone Corporation Codificación de una señal de audio
RU2612589C2 (ru) * 2013-01-29 2017-03-09 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Низкочастотное акцентирование для основанного на lpc кодирования в частотной области
BR112015032013B1 (pt) * 2013-06-21 2021-02-23 Fraunhofer-Gesellschaft zur Förderung der Angewandten ForschungE.V. Método e equipamento para a obtenção de coeficientes do espectropara um quadro de substituição de um sinal de áudio, descodificador de áudio,receptor de áudio e sistema para transmissão de sinais de áudio

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100286980A1 (en) * 2003-12-19 2010-11-11 Motorola, Inc. Method and apparatus for speech coding
KR20100105745A (ko) * 2008-01-04 2010-09-29 돌비 인터네셔널 에이비 오디오 인코더 및 디코더
US20130282383A1 (en) * 2008-01-04 2013-10-24 Dolby International Ab Audio Encoder and Decoder

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
EVS Codec Detailed Algorithmic Description (3GPP TS 26.445 version 12.3.0 Release 12). ETSI TS 126 445 V12.3.0. 2015.09.* *

Also Published As

Publication number Publication date
CN110291583B (zh) 2023-06-16
CN110291583A (zh) 2019-09-27
EP3510595A4 (en) 2020-01-22
US20180075855A1 (en) 2018-03-15
JP7123911B2 (ja) 2022-08-23
US11380340B2 (en) 2022-07-05
WO2018049279A1 (en) 2018-03-15
JP2019531505A (ja) 2019-10-31
EP3510595A1 (en) 2019-07-17
KR102569784B1 (ko) 2023-08-22

Similar Documents

Publication Publication Date Title
KR102063900B1 (ko) 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
JP5978218B2 (ja) 低ビットレート低遅延の一般オーディオ信号の符号化
US9489962B2 (en) Sound signal hybrid encoder, sound signal hybrid decoder, sound signal encoding method, and sound signal decoding method
KR102222838B1 (ko) 다른 샘플링 레이트들을 가진 프레임들간의 전환시 사운드 신호의 선형 예측 인코딩 및 디코딩을 위한 방법, 인코더 및 디코더
WO2016016724A2 (ko) 패킷 손실 은닉방법 및 장치와 이를 적용한 복호화방법 및 장치
US20220139404A1 (en) Time-domain stereo encoding and decoding method and related product
US20240153511A1 (en) Time-domain stereo encoding and decoding method and related product
KR102569784B1 (ko) 오디오 코덱의 장기 예측을 위한 시스템 및 방법
CA2914418C (en) Apparatus and method for audio signal envelope encoding, processing and decoding by splitting the audio signal envelope employing distribution quantization and coding
CA2914771C (en) Apparatus and method for audio signal envelope encoding, processing and decoding by modelling a cumulative sum representation employing distribution quantization and coding
US10950251B2 (en) Coding of harmonic signals in transform-based audio codecs
US20220392458A1 (en) Methods and system for waveform coding of audio signals with a generative model
WO2011114192A1 (en) Method and apparatus for audio coding
JP5734519B2 (ja) 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体
RU2773421C9 (ru) Способ и соответствующий продукт для определения режима кодирования/декодирования аудио
RU2773421C2 (ru) Способ и соответствующий продукт для определения режима кодирования/декодирования аудио
JP5786044B2 (ja) 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体
JP5800920B2 (ja) 符号化方法、符号化装置、復号方法、復号装置、プログラム及び記録媒体

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant