KR101227729B1 - 샘플 오디오 신호의 프레임을 인코딩하기 위한 오디오 인코더 및 디코더 - Google Patents

샘플 오디오 신호의 프레임을 인코딩하기 위한 오디오 인코더 및 디코더 Download PDF

Info

Publication number
KR101227729B1
KR101227729B1 KR1020117003281A KR20117003281A KR101227729B1 KR 101227729 B1 KR101227729 B1 KR 101227729B1 KR 1020117003281 A KR1020117003281 A KR 1020117003281A KR 20117003281 A KR20117003281 A KR 20117003281A KR 101227729 B1 KR101227729 B1 KR 101227729B1
Authority
KR
South Korea
Prior art keywords
frame
information
prediction
domain
coefficients
Prior art date
Application number
KR1020117003281A
Other languages
English (en)
Other versions
KR20110052622A (ko
Inventor
예레미 레콤테
필리페 고우르나이
슈테판 바이에르
마르쿠스 물트루스
니콜라우스 레텔바흐
Original Assignee
프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우 filed Critical 프라운호퍼-게젤샤프트 추르 푀르데룽 데어 안제반텐 포르슝 에 파우
Publication of KR20110052622A publication Critical patent/KR20110052622A/ko
Application granted granted Critical
Publication of KR101227729B1 publication Critical patent/KR101227729B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis

Abstract

인코딩된 프레임을 취득하기 위하여 샘플링된 오디오 신호의 프레임을 인코딩하기 위한 오디오 인코더(100)로서 - 일 프레임은 복수개의 시간 도메인 오디오 샘플을 포함함 - 오디오 샘플의 프레임을 기초로 합성 필터의 계수에 대한 정보 및 예측 도메인 프레임에 대한 정보를 결정하기 위한 예측 코딩 분석 스테이지(110)를 포함한다. 오디오 인코더(100)는 프레임 스펙트럼을 취득하기 위하여 오디오 샘플의 프레임을 주파수 도메인으로 변환하기 위한 주파수 도메인 변환기(120) 및 일 프레임에 대해 인코딩된 데이터가 상기 계수에 대한 정보 및 상기 예측 도메인 프레임에 대한 정보를 기초로 한 것인지 또는 상기 프레임 스펙트럼을 기초로 한 것인지를 판정하기 위한 인코딩 도메인 판정기(130)를 더 포함한다. 더욱이, 오디오 인코더(100)는 상기 인코딩 도메인 판정기가 현재 프레임의 인코딩된 데이터가 상기 계수에 대한 정보를 기초로 하는 것으로 판정하는 경우에는 전환 계수에 대한 정보를 결정하고, 이전 프레임의 인코딩된 데이터가 이전 프레임 스펙트럼을 기초로 인코딩된 경우에는 상기 예측 도메인 프레임에 대한 정보를 결정하기 위한 제어기(140) 및 상기 예측 도메인 프레임에 대한 정보, 상기 계수에 대한 정보, 상기 전환 계수에 대한 정보 및/또는 상기 프레임 스펙트럼을 인코딩하기 위한 리던던시 감소 인코더(150)를 더 포함한다.

Description

샘플 오디오 신호의 프레임을 인코딩하기 위한 오디오 인코더 및 디코더{AUDIO ENCODER AND DECODER FOR ENCODING FRAMES OF SAMPLED AUDIO SIGNALS}
본 발명은 오디오 인코딩/디코딩 분야에 관한 것으로, 특히 다수개의 인코딩 영역들을 사용하는 오디오 코딩 개념에 관한 것이다.
이 분야에서, MP3 또는 AAC와 같은 주파수 영역 코딩 방식이 공지되어 있다. 이러한 주파수-영역 인코더는 시간-영역/주파수-영역 변환, 다음으로 양자화 에러가 음향 심리학 모듈로부터의 정보를 이용하여 제어되는 양자화 스테이지, 및 양자화된 스펙트럼 계수 및 대응하는 측면 정보가 코드 테이블을 이용하여 엔트로피-인코딩되는 인코딩 스테이지에 기초한다.
반면에, 3GPP TS 26.290에 기재된 것처럼 AMR-WB+와 같은 음성 처리에 매우 적합한 인코더가 있다. 그러한 음성 코딩 방식은 시간-영역 신호의 LP(LP=선형 예측(Linear Predictive)) 필터링을 수행한다. 그러한 LP 필터링은 입력된 시간-영역 신호의 선형 예측 분석으로부터 얻어진다. 최종 LP 필터 계수는 측면 정보로서 양자화/코딩 되고 전송된다. 이 처리는 LPC(LPC=선형 예측 코딩)으로 공지된다. 필터의 출력에서, 여기 신호로도 알려진 예측 잔류 신호 또는 예측 에러 신호가 ACELP 인코더의 분석-합성 스테이지(analysis-by-synthesis stage)를 이용하여 인코딩되거나 또는 중첩을 갖는 퓨리에 변환을 이용하는 변환 인코더를 이용하여 인코딩된다. ACELP 코딩과 TCX 코딩으로도 칭하는 변환 코딩 여기 코딩 사이의 결정은 폐루프 또는 개루프 알고리즘을 이용하여 수행된다.
고 효율-AAC 인코딩 방식과 같은 AAC 코딩 방식과 스펙트럼 밴드 복제 기술을 결합하는 주파수-영역 오디오 코딩 방식은 또한 "MPEG 서라운드" 라는 용어로 공지된 조인트 스테레오 또는 멀티-채널 코딩 툴과 결합될 수 있다.
반면에, AMR-WB+와 같은 음성 인코더는 또한 높은 주파수 증강 스테이지 및 스테레오 기능을 갖는다.
주파수-영역 코딩 방식은 음악 신호로서 낮은 비트율에서 높은 품질을 보인다는 점에서 유리하다. 그러나, 낮은 비트율에서의 음성 신호의 품질은 여전히 문제가 있다. 음성 코딩 방식은 낮은 비트율에서도 음성 신호로는 높은 품질을 보이지만, 낮은 비트율에서의 음악 신호로는 열등한 품질을 보인다.
주파수-영역 코딩 방식은 종종 소위 MDCT(MDCT=Modified Discrete Cosine Transform; 변형된 이산 코사인 변환)을 이용한다. MDCT는 J. Princen, A. Bradley, "Analysis/Synthesis Filter Bank Design Based on Time Domain Aliasing Cancellation" IEEE Trans. ASSP, ASSP-34(5):1153-1161, 1986에 최초 설명되었다. MDCT 또는 MDCT 필터 뱅크가 현재의 효율적인 오디오 코더로서 널리 이용된다. 이러한 종류의 신호 처리는 아래의 이점을 제공한다.
처리 블럭들 사이의 부드러운 크로스페이드: 처리 블럭 각각에서의 신호가 상이하게 변화(예를 들면, 스펙트럼 계수의 양자화로 인함)하더라도, 윈도우 처리된 중첩/추가 동작으로 인하여 블럭에서 블럭으로의 급격한 전이로 인한 차단 아티팩트가 없다.
임계 샘플링: 필터 뱅크의 출력에서의 스펙트럼 값의 수는 그 입력에서의 시간 영역 입력 값과 전송되어야할 추가 오버헤드 값의 수와 동일하다.
MDCT 필터 뱅크는 높은 주파수 선택성과 코딩 이득을 제공한다.
이러한 뛰어난 특성은 시간 영역 에일리어싱 소거(aliasing cancellation)를 활용함에 의해 얻어질 수 있다. 시간 영역 에일리어싱 소거는 2개의 인접 윈도우 처리된 신호를 중첩-가산함에 의해 합성 단계에서 수행된다. MDCT의 분석과 합성 스테이지 사이에 양자화가 적용되지 않는 경우, 오리지널 신호의 완벽한 재구성이 얻어진다. 그러나, MDCT가 코딩 방식을 위해 이용되며, 이는 특히 음악 신호를 위해 채용되었다. 그러한 주파수-영역 코딩 방식은 전술한 것처럼 음성 신호에 대해서는 낮은 비트율에서 감소된 품질을 가지며, 특별 채용된 음성 코더는 비슷한 비트율에서 높은 품질을 가지거나 또는 주파수-영역 코딩 방식에 비해 동일한 품질에 대해 현저히 낮은 비트율을 가진다.
"확장된 적응형 멀티-레이트-와이드밴드(AMR-WB+) 코덱", 3GPP TS 26.2990 V6.3.0, 2005-06, 기술 명세서에서 한정된 AMR-WB+(AMR-WB+=적응형 멀티-레이트 와이드밴드 확장) 코덱과 같은 음성 코딩 기술은 MDCT를 적용하지 않고, 따라서, 구체적으로 한편으로는 임계 샘플링된 처리에 다른 한편으로는 한 블럭에서 다른 블럭으로의 크로스오버에 의존하는 MDCT의 우수한 특성으로부터 어떠한 이점을 얻을 수 없다. 그러므로, 한 블럭에서 다른 블럭으로의 크로스오버가 비트율에 대한 불이익 없이 MDCT에 의해 얻어지고, 따라서 MDCT의 임계 샘플링 특성은 음성 코더에서 얻어지지 않는다.
단일 하이브리드 코딩 방식내에 음성 코더와 오디오 코더를 결합하려는 경우, 어떻게 낮은 비트율 및 높은 품질로 일 코딩 모드에서 다른 코딩 모드로 전환(switch-over)을 얻을 수 있는지에 대한 문제가 존재한다.
종래의 오디오 코딩 개념은 일반적으로 오디오 파일 또는 통신의 출발시에 시작하도록 설계된다. 이러한 종래의 개념을 이용하여, 예를 들면 예측 필터와 같은 필터 구조가 인코딩 또는 디코딩 절차의 출발시의 특정 시간에 안정 상태(steady state)에 도달한다. 그러나, 한편으로는 변환 기초 코딩을 이용하고, 다른 한편으로는 입력의 사전 분석에 따른 음성 코딩을 이용하는 전환된 오디오 코딩 시스템에 대해, 각각의 필터 구조는 능동적으로 및 연속적으로 갱신되지 않는다. 예를 들면, 음성 코더는 단시간에 빈번히 재시작되도록 요청될 수 있다. 일단 재시작되면, 시작 주기가 다시 시작되고, 내부 상태가 0으로 리셋된다. 예를 들면 음성 코더에 의해 정상 상태에 도달하는데 필요로 하는 지속 기간은 특히 전이의 품질에 대해서 중요할 수 있다.
예를 들면, AMR-WB+, cf. "Extended Adaptive Multi-Rate - Wideband (AMR-WB+) codec" , 3GPP TS 26.290 V6.3.0, 2005-06의 기술 명세서와 같은 종래의 개념은 변환 기반의 코더와 음성 코더 사이의 전이 또는 전환시에 음성 코더의 전체적인 리셋을 이용한다.
AMR-WB+는 어떠한 중간 정지 또는 리셋이 없다는 가정하에 신호가 패이드 인되는 경우의 단 1회만 시작하는 조건 하에 최적화된다. 따라서, 코더의 전체 메모리는 프레임 단위 기반으로 업데이트될 수 있다. AMR-WB+가 신호의 중간에서 사용되는 경우, 리셋이 호출되어야 하고, 인코딩 또는 디코딩 측에서 사용되는 전체 메모리는 0으로 설정된다. 그러므로, 종래의 개념은 비정상 위상에서의 강한 왜곡의 도입에 따라, 음성 코더가 정상 상태에 도달하기 전에 긴 기간이 소요된다는 문제점이 있다.
종래 개념의 다른 단점은 오버헤드를 야기하는 코딩 도메인을 전환하는 경우 긴 중첩 세그먼트를 활용하여, 코딩 효율에 악영향을 준다는 점이다.
본 발명의 목적은 코딩 도메인 전환을 이용하는 오디오 코딩에 있어서의 개선된 개념을 제공하는 것이다.
이 목적은 청구항 1에 따른 오디오 인코더, 청구항 7에 따른 오디오 인코딩 방법, 청구항 8에 따른 오디오 디코더, 청구항 14에 따른 오디오 디코딩 방법, 및 청구항 15에 따른 컴퓨터 프로그램에 의해 성취된다.
본 발명은 리셋 이후의 대응 필터의 상태 정보를 고려함에 의해, 디코더에서 상술한 문제점들이 해결될 수 있다는 발견에 근거한 것이다. 예를 들면, 리셋 이후에, 특정 필터의 상태가 0으로 설정된 경우, 필터가 스크래치(scratch) 즉, 모든 상태 또는 메모리가 0으로 설정되는 것으로부터 시작되는 것이 아니라 정보가 특정 상태로 입력된다면, 필터의 구동(start-up) 또는 웜업(warm up) 공정은 단축될 수 있으며, 이로부터 더 짧은 구동 또는 웜업 기간이 구현될 수 있다.
전환 상태의 상기 정보가 인코더 또는 디코더 측에서 생성될 수 있다는 점이 본 발명의 다른 발견이다. 예를 들면, 예측 기반 인코딩 개념과 변환 기반 인코딩 개념 사이에서 전환하는 경우, 그 출력을 실제로 사용하도록 하기 이전에 디코더가 예측 합성 필터를 정상 상태가 되도록 하기 위하여, 전환 이전에 추가 정보가 제공될 수 있다.
다시 말하면, 특히 변환된 오디오 코더에서 변환 도메인과 예측 도메인 사이에서 전환하는 경우, 예측 도메인으로의 실제 전환 직전에 필터 상태에 대한 추가 정보가 전환 아티팩트의 생성 문제를 해결할 수 있다.
필터 또는 메모리 상태에 대한 정보를 전환 직전에 결정하기 위하여, 실제 전환이 발생하기 직전에 그 출력을 고려하고 기본적으로 상기 출력에 대한 인코더 처리를 구동함에 의해서만 디코더에서 전환에 대한 그러한 정보가 생성될 수 있다는 점이 본 발명의 다른 발견이다. 이와 함께 일부 실시예는 종래의 인코더를 사용할 수 있고, 디코더 처리에 의해 전환 아티팩트의 문제를 감소시킬 수 있다. 상기 정보를 고려할 때, 예를 들면, 예측 필터가 실제 전환 이전에 예를 들면 대응하는 변환 도메인 디코더의 출력을 분석함에 의해, 이미 웜 업될 수 있다.
본 발명의 실시예는 첨부된 도면을 이용하여 상세히 설명된다.
도 1은 오디오 인코더의 실시예를 도시하는 도면;
도 2는 오디오 디코더의 실시예를 도시하는 도면;
도 3은 실시예에서 이용되는 윈도우 형상을 도시하는 도면;
도 4a 및 4b는 MDCT 및 시간 도메인 에일리어싱을 도시하는 도면;
도 5는 시간 도메인 에일리어싱 소거를 위한 실시예의 블럭도를 도시하는 도면;
도 6a-6g는 실시예에서의 시간 도메인 에일리어싱 소거를 위해 처리되는 신호를 도시하는 도면;
도 7a-7g는 선형 예측 디코더를 이용하는 경우의 실시예에서의 시간 도메인 에일리어싱 소거를 위한 신호 처리 체인을 도시하는 도면;
도 8a-8g는 시간 도메인 에일리어싱 소거에 대한 실시예에서의 신호 처리 체인을 도시하는 도면; 및
도 9a 및 9b는 실시예에서의 인코더 및 디코더 측에 대한 신호 처리를 도시하는 도면.
도 1은 오디오 인코더(100)의 실시예를 도시한다. 오디오 인코더(100)는 인코딩된 프레임을 얻기 위하여 샘플링된 오디오 신호의 프레임을 인코딩하도록 된 것으로, 프레임은 다수개의 시간 도메인 오디오 샘플을 포함한다. 오디오 인코더의 실시예는 오디오 샘플의 프레임을 기초로 합성 필터의 계수에 대한 정보 및 예측 도메인 프레임에 대한 정보를 결정하기 위한 예측 코딩 분석 상태(110)를 포함한다. 실시예에서, 예측 도메인 프레임은 여기 프레임 또는 예측 프레임의 필터링된 버젼에 해당할 수 있다. 이하에서는, 오디오 샘플의 프레임을 기초로 합성 필터의 계수에 대한 정보 및 예측 도메인 프레임에 대한 정보를 인코딩하는 경우의 예측 도메인 인코딩을 이르는 것일 수 있다.
더욱이, 오디오 인코더(100)의 실시예는 프레임 스펙트럼을 취득하기 위하여 오디오 샘플의 프레임을 주파수 도메인으로 변환하기 위한 주파수 도메인 변환기(120)를 포함한다. 이하에서, 프레임 스펙트럼이 인코딩되는 경우의 변환 도메인 인코딩을 이르는 것일 수 있다. 더욱이, 오디오 인코더(100)의 실시예는 일 프레임에 대해 인코딩된 데이타가 계수에 대한 정보 및 예측 도메인 프레임에 대한 정보를 기초로 하는지 또는 프레임 스펙트럼을 기초로 하는지 여부를 판정하기 위한 인코딩 도메인 판정기(130)를 포함한다. 오디오 인코더(100)의 실시예는 인코딩된 도메인 판정기가 현재 프레임의 인코딩된 데이터가 계수에 대한 정보를 기초로 하는 것으로 판정한 경우에는 전환 계수에 대한 정보를 및 이전 프레임의 인코딩된 데이터가 이전 프레임 스펙트럼을 기초로 인코딩되는 경우에는 예측 도메인 프레임에 대한 정보를 결정하기 위한 제어기(140)를 포함한다. 오디오 디코더(100)의 실시예는 예측 도메인 프레임에 대한 정보, 계수에 대한 정보, 전환 도메인 계수에 대한 정보 및/또는 프레임 스펙트럼을 인코딩하기 위한 리던던시 감소 인코더(150)를 더 포함한다. 다시 말하면, 인코딩 도메인 판정기(130)는 인코딩 도메인을 판정하고, 제어기(140)는 변환 도메인에서 예측 도메인으로 전환하는 경우의 전환 스위칭에 대한 정보를 제공한다.
도 1에서, 파선으로 일부 연결이 표시되어 있다. 이들은 실시예에서 다른 선택을 표시한다. 예를 들면, 전환 계수에 대한 정보는 간략히 예측 코딩 분석 스테이지(110)를 연구 구동하여 계수에 대한 정보 및 예측 도메인 프레임에 대한 정보가 그 출력에서 항상 유용하도록 함에 의해 취득될 수 있다. 다음으로, 제어기(140)는 리던던시 감소 인코더(150)에게 인코딩 도메인 판정기(130)에 의해 수행된 전환 판정 이후에 언제 주파수 도메인 변환기(120)에서 프레임 스펙트럼 출력을 인코딩할 것인지 및 언제 예측 코딩 분석 스테이지(110)로부터의 출력을 인코딩할 것인지를 나타낼 수 있다. 그러므로, 제어기(140)는 변환 도메인에서 예측 도메인으로 전환하는 경우 전환 계수에 대한 정보를 인코딩하기 위한 리던던시 감소 인코더(150)를 제어할 수 있다.
전환이 발생하는 경우, 제어기(140)는 중첩 프레임을 인코딩하기 위한 리던던시 감소 인코더(150)를 나타낼 수 있고, 이전 프레임 동안, 리던던시 감소 인코더(150)는 비트스트림이 프레임 스펙트럼 외에도 계수에 대한 정보 및 예측 도메인 프레임에 대한 정보 둘 다를 포함하는 방식으로 제어기(140)에 의해 제어될 수 있다. 다시 말하면, 실시예에서, 제어기는 인코딩된 프레임이 상술한 정보를 포함하는 방식으로 리던던시 감소 인코더(150)를 제어할 수 있다. 다른 실시예에서, 인코딩 도메인 판정기(130)는 인코딩 도메인의 변경 및 예측 코딩 분석 스테이지(110)와 주파수 도메인 변환기(120) 사이의 전환을 판정할 수 있다.
이들 실시예에서, 제어기(140)는 전환 계수를 제공하기 위하여 일부 분석를 내부적으로 수행할 수 있다. 실시예에서, 전환 계수에 대한 정보는 필터 상태에 대한 정보, 적응형 코드북 콘텐츠, 메모리 상태, 여기 신호에 대한 정보, LPC 계수 등에 대응할 수 있다. 전환 계수에 대한 정보는 예측 합성 스테이지(220)의 웜-업 또는 초기화를 가능하도록 하는 임의의 정보를 포함할 수 있다.
인코딩 도메인 판정기(130)는 오디오 신호의 프레임 또는 샘플을 기초로 언제 도 1에서 파선으로 나타낸 인코딩 도메인을 전환하는지에 대한 판정을 결정할 수 있다. 다른 실시예에서, 정보 계수, 예측 도메인 프레임에 대한 정보 및/또는 프레임 스펙트럼을 기초로 상기 판정이 수행될 수 있다.
일반적으로, 실시예는 인코딩 도메인 판정기(130)가 언제 인코딩 도메인을 변경할 것인지를 판정하는 방식에 국한되지 않을 것이며, 인코딩 도메인 변경이 인코딩 도메인 판정기(130)에 의해 판정되며, 그동안 상술한 문제점들이 발생하고, 일부 실시예에서 오디오 인코더(100)는 상술한 단점의 영향이 적어도 부분적으로 보상되는 방식으로 조정된다는 점이 더욱 중요하다.
실시예에서, 인코딩 도메인 판정기(130)는 오디오 프레임의 신호 특성 또는 특성들을 기초로 판정되도록 될 수 있다. 이미 알려진 것처럼, 오디오 신호의 오디오 특성은 코딩 효율을 결정할 수 있으며, 즉, 오디오 신호에 대한 특정의 특징에 대해서는 인코딩을 기초로 한 변환을 사용하는 것이 더 효율적이며, 다른 특징들에 대해서는 예측 도메인 코딩을 사용하는 것이 더 효율적일 수 있다. 일부 실시예에서, 인코딩 도메인 판정기(130)는 신호가 다양한 음조이거나 무성음인 경우 변환 기반 코딩을 사용하도록 판정하도록 될 수 있다. 신호가 일시적이거나 또는 음성과 유사한 신호라면, 인코딩 도메인 판정기(130)는 인코딩에 대해 설명한 것처럼 예측 도메인 프레임을 사용하도록 판정하도록 될 수 있다.
도 1의 다른 파선 및 화살표에 따르면, 제어기(140)는 계수에 대한 정보, 예측 도메인 프레임에 대한 정보 및 프레임 스펙트럼을 구비할 수 있으며, 제어기(140)는 상기 정보를 기초로 전환 계수에 대한 정보를 결정하도록 될 수 있다. 다른 실시예에서, 제어기(140)는 전환 계수를 결정하기 위하여 예측 코딩 분석 스테이지(110)에 정보를 제공할 수 있다. 실시예에서, 전환 계수는 계수에 대한 정보에 대응할 수 있고, 다른 실시예에서는, 이들은 다른 방식으로 결정될 수 있다.
도 2는 오디오 디코더(200)의 실시예를 도시한다. 오디오 디코더(200)의 실시예는 샘플링된 오디오 신호의 프레임을 취득하기 위하여 인코딩된 프레임을 디코딩하도록 되며, 여기서 프레임은 다수개의 시간 도메인 오디오 샘플을 포함한다. 오디오 디코더(200)의 실시예는 예측 도메인 프레임에 대한 정보, 합성 필터에 대한 계수에 대한 정보 및/또는 프레임 스펙트럼을 취득하기 위하여 인코딩된 프레임을 디코딩하기 위한 리던던시 리트리빙 디코더(210)를 포함한다. 더욱이, 오디오 디코더(200)의 실시예는 합성 필터에 대한 계수에 대한 정보 및 예측 도메인 프레임에 대한 정보를 기초로 오디오 샘플의 예측된 프레임을 결정하기 위한 예측 합성 스테이지(220) 및 프레임 스펙트럼으로부터 변환된 프레임을 취득하기 위하여 프레임 스펙트럼을 시간 도메인으로 변환하기 위한 시간 도메인 변환기(230)를 포함한다. 오디오 디코더(200)의 실시예는 샘플링된 오디오 신호의 프레임을 취득하기 위하여 변환된 프레임과 예측 프레임을 결합하기 위한 결합기(240)를 더 포함한다.
더욱이, 오디오 디코더(200)의 실시예는 전환 처리(switch-over process)를 제어하기 위한 제어기(250)를 포함하되, 이 전환 처리는 이전 프레임이 변환된 프레임을 기초로 하고, 현재 프레임이 예측 프레임을 기초로 하는 경우에 유효하게 되며, 제어기(250)는 예측 합성 스테이지(220)를 트레이닝(training)하거나, 초기화하거나 또는 워밍-업하기 위하여 예측 합성 스테이지(220)에 전환 계수를 제공하도록 구성되어, 예측 합성 스테이지(220)는 전환 처리가 유효한 경우에 초기화된다.
도 2에 도시된 파선 화살표에 따르면, 제어기(250)는 오디오 디코더(200)의 요소의 전체 또는 일부를 제어하도록 될 수 있다. 제어기(250)는 전환 계수에 대한 추가 정보 또는 이전 예측 도메인 프레임에 대한 정보 등을 리트리브하기 위하여, 예를 들면 리던던시 리트리빙 디코더(210)를 조정하도록 될 수 있다. 다른 실시예에서, 제어기(250)는 결합기(240)의 출력을 기초로 LP 분석을 수행함에 의해 예를 들면 결합기(240)에 의해 디코딩된 프레임을 구비하도록 함에 의해 스스로 전환 계수에 대한 상기 정보를 유도하게 될 수 있다. 제어기(250)는 상술한 중첩 프레임, 타이밍, 시간 도메인 분석 및 시간 도메인 분석 소거 등을 설정하기 위하여 예측 합성 스테이지(220) 및 시간 도메인 변환기(230)를 조정 또는 제어하도록 될 수 있다.
이하에서, 시동 동안 정확한 필터 합성을 보장하는 상태에 도달할 때까지 특정 시간을 필요로 하는 예측기 및 내부 필터를 포함하는 LPC 기반 도메인 코덱이 고려된다. 다시 말하면, 오디오 인코더(100)의 실시예에서, 예측 코딩 분석 스테이지(110)는 LPC 분석을 기초로 합성 필터의 계수에 대한 정보 및 예측 도메인 프레임에 대한 정보를 결정하도록 될 수 있다. 오디오 디코더(200)의 실시예에서, 합성 스테이지(220)는 LPC 합성 필터에 기초한 예측된 프레임을 결정하도록 될 수 있다.
제1 LPD(LPD=선형 예측 도메인) 프레임의 시작에서의 직사각형 윈도우를 이용하고 LPD-기반 코덱을 0 상태로 리셋하는 것은 양호한 신호를 구축하기 위한 LPD 코덱에 대해 충분한 시간이 남지 않으므로, 명백히 이들 전이에 대해 이상적인 옵션을 제공하지 못하며, 이는 차단 아티팩트를 유도할 것이다.
실시예에서, 비-LPD 모드에서 LPD 모드로의 전이를 처리하기 위하여, 중첩 윈도우가 사용될 수 있다. 다시 말하면, 오디오 디코더(100)의 실시예에서, 주파수 도메인 변환기(120)는 고속 푸리에 변환(FFT=Fast Fourier Transform), 또는 MDCT(MDCT=변형된 이산 코사인 변환)을 기초로 오디오 샘플의 프레임을 변환하도록 될 수 있다. 오디오 디코더(200)의 실시예에서, 시간 도메인 변환기(230)는 역 FFT(inverse FFT) 또는 역 MDCT(inverse MDCT)를 기초로 프레임 스펙트럼을 시간 도메인으로 변환하도록 될 수 있다.
이와 함께, 실시예는 변환 기반 모드로 칭하기도 하는 비 LPD 모드 또는 예측 분석 및 합성으로 칭하기도 하는 LPD 모드에서 구동될 수 있다. 일반적으로, 실시예는 특히 MDCT 및 IMDCT를 이용하는 경우에 중첩 윈도우를 이용할 수 있다. 다시 말하면, 비-LPD 모드에서 시간 도메인 에일리어싱(TDA=Time Domain Aliasing)을 갖는 중첩 윈도우잉(overlapping windowing)이 이용될 수 있다. 이와 함께, 비-LPD 모드에서 LPD 모드로 전환하는 경우, 직전 비-LPD 프레임의 시간 도메인 에일리어싱이 보상될 수 있다. 실시예는 LPD 코딩을 수행하기 전의 오리지널 신호에서의 시간 도메인 에일리어싱을 도입하지만, 시간 도메인 에일리어싱은 ACELP(Algebraic Codebook Excitation Linear Prediction)과 같은 예측 기반 시간 도메인 코딩과 양립할 수 없다. 실시예는 ACELP에서 비-LPD로의 전이의 경우와 동일한 방식으로 LPD 세그먼트의 시작에서의 아티피셜 에일리어싱을 도입할 수 있고 시간 도메인 소거를 적용할 수 있다. 다시 말하면, 실시예에서 예측 분석 및 합성은 ACELP를 기초로 할 수 있다.
일부 실시예에서, 아티피셜 에일리어싱이 오리지널 신호 대신에 합성 신호로부터 생성될 수 있다. 합성 신호가 특히 LPD 시작 시에 부정확하므로, 이들 실시예는 아티피셜 TDA를 유도함에 의해 차단 아티팩트를 어느 정도 보상할 수 있지만, 아티피셜 TDA의 유도는 아티팩트의 감소에 따른 부정확성의 에러를 도입할 수 있다.
도 3은 일 실시예내의 전환 처리를 도시한다. 도 3에 도시된 실시예에서, 전환 처리는 비-LPD 모드, 예를 들면 MDCT 모드에서 LPD 모드로 전환하는 것으로 가정한다. 도 3에 나타낸 것처럼, 2048 샘플의 전체 윈도우 길이가 고려되었다. 도 3의 좌측에는, MDCT 윈도우의 상승 에지가 512 샘플을 통해 연장하는 것이 도시되었다. MDCT 및 IMDCT의 처리 동안, MDCT 윈도우의 상승 에지의 이들 512 샘플은 도 3에서 전체 2048 샘플 윈도우 내의 중앙의 1024 샘플을 포함하는 MDCT 커널에 할당되는 다음 512 샘플과 폴드된다. 이하에 보다 상세히 설명되는 것처럼, 선행 프레임이 또한 비-LPD 모드로 인코딩되는 경우에는 시간 도메인 에일리어싱이 각각의 연속하는 중첩 MDCT 윈도우에 의해 자체적으로 보상될 수 있다는 점이 MDCT의 유리한 특성 중 하나이므로, MDCT 및 IMDCT 처리에 의해 유도되는 시간 도메인 에일리어싱은 중요하지 않다.
그러나, LPD 모드로의 전환 즉, 도 3에 도시된 MDCT 윈도우의 우측부분을 고려할 때, LPD 모드에서 디코딩된 제1 프레임은 선행 MDCT 프레임과의 보상을 위한 시간 도메인 에일리어싱을 자동으로 가지지 않으므로, 그러한 시간 도메인 에일리어싱 소거는 자동으로 수행되지 않는다. 그러므로, 중첩 영역에서, 실시예는 MDCT 커널 윈도우의 단부에 중심을 둔 즉, 1536 샘플 이후에 중심을 둔 128 샘플의 영역에 인공 시간 도메인 에일리어싱을 도입할 수 있다. 다시 말하면, 직전 MDCT 프레임의 단부에서 도입되는 시간 도메인 에일리어싱과의 보상을 위하여, 도 3에서 인공 시간 도메인 에일리어싱이 LPD 모드 프레임의 시작 즉, 이 실시예에서는 제1 128 샘플에 도입되는 것으로 가정한다.
양호한 실시예에서, 일 도메인의 인코딩 동작에서 다른 도메인의 인코딩 동작으로의 임계 샘플링 전환을 취득하기 위하여는 MDCT가 적용되는데, 즉 실시예에서는 주파수 도메인 변환기(120) 및/또는 시간 도메인 변환기(230)로 수행된다. 그러나, 다른 전체 변환 또한 적용될 수 있다. 그러나, MDCT가 양호한 실시예이므로, MDCT는 도 4a 및 도 4b에 대하여 보다 상세히 설명될 것이다.
도 4a는 좌측에 상승 부분을 가지고 우측에 감소 부분을 가지는 윈도우(470)를 도시하며, 이 윈도우는 4개의 부분: a, b, c 및 d 로 분할할 수 있다. 윈도우(470)는 도면에 도시된 것처럼 50% 중첩/가산 상황의 에일리어싱 부분만 갖는다. 구체적으로, 0에서 N까지의 샘플을 갖는 제1 부분은 선행 윈도우(469)의 제2 부분에 대응하며, 윈도우(470)의 샘플 N과 샘플 2N 사이에서 연장하는 제2 절반이 윈도우(471)의 제1 부분과 중첩되고, 이는 도시된 실시예에서 윈도우 i+1에 있으며, 윈도우 470은 윈도우 i 이다.
MDCT 동작은 윈도우잉 및 폴딩 동작과 연속하는 변환 동작 및 구체적으로는 다음의 DCT(이산 코사인 변환) 동작의 캐스케이딩으로 보일 수 있는데, 여기서는 유형 IV의 DCT(DCT-IV)가 적용된다. 구체적으로는, 폴딩 동작은 폴딩 블록의 제1 부분 N/2을 -cR-d로서 계산하고, 폴딩 출력의 N/2 샘플의 제2 부분을 a-bR로서 계산함에 의해 취득되는데, 여기서 R은 역 연산자이다. 그러므로, 폴딩 동작은 N 출력 값이 되고, 2N 출력값이 수신된다.
디코더측에 대한 대응하는 언폴딩 동작이 도 4a에서 등식 형태로 도시된다.
일반적으로, (a, b, c, d)에 대한 MDCT 동작은 도 4a에 나타낸 것과 같은 (-cR-d, a-bR)의 DCT-IV와 정확하게 동일한 출력 값이 된다.
따라서, 또한 언폴딩 동작을 이용하여, IMDCT 동작은 DCT-IV 역 변환의 출력에 적용되는 언폴딩 동작의 출력이 된다.
그러므로, 디코더측에 대해 폴딩 동작을 수행함에 의해 시간 에일리어싱이 도입된다. 다음으로, 윈도우잉 및 폴딩 동작의 결과가 N 입력 값을 필요로 하는 DCT-IV 블럭 변환을 이용하여 주파수 도메인으로 변환된다.
디코더측에 대해, N 입력 값이 DCT-IV 동작을 이용하여 시간 도메인으로 역으로 변환되고, 이러한 역 변환 동작의 출력은 그러므로 엘리어싱된 출력값인 2N 출력값을 취득하기 위하여 언폴딩 동작으로 변경된다.
폴딩 동작에 의해 도입되어 연속하는 언폴딩 동작에서도 여전히 존재하는 에일리어싱을 제거하기 위하여, 중첩/가산 동작이 시간 도메인 에일리어싱 소거를 위해 수행될 수 있다.
그러므로, 언폴딩 동작의 결과가 중첩 절반에서의 이전 IMDCT 결과와 가산되는 경우, 도 4a의 아래 부분에서의 등식에서 역 항목은 소거되고, 간단하게 예를 들면 b 및 d를 취득하여, 오리지널 데이터를 복구한다.
윈도우 처리된 MDCT에 대해 TDAC를 취득하기 위하여, "Princen-Bradley" 조건으로 공지된 요구 사항이 존재하는데, 이는 각각의 샘플에 대해 1이 되도록 시간 도메인 에일리어싱 소거기에서 결합되는 대응하는 샘플에 대해 윈도우 계수가 2로 상승하는 것을 의미한다.
도 4a가 예를 들면 긴 윈도우 또는 짧은 윈도우에 대해 AAC(Advaced Audio Coding)-MDCT에서 적용되는 윈도우 순서를 도시하고, 도 4b는 에일리어싱 부분 외에 비-에일리어싱 부분을 갖는 상이한 윈도우 기능을 도시한다.
도4b는 0 부분(a1 및 d2), 에일리어싱 부분(472a, 472b) 및 비-에일리어싱 부분(472c)을 갖는 분석 윈도우 기능(472)를 도시한다.
c2, d1에 걸쳐 연장하는 에일리어싱 부분(472b)은 연속하는 윈도우(473)의 대응하는 에일리어싱 부분을 가지며, 이는 473b로 표시된다. 따라서, 윈도우(473)는 비에일리어싱 부분(473a)을 더 포함한다. 도 4a와 비교할 때 도 4b는 윈도우(472)에 대해 a1, d1 또는 윈도우(473)에 대해 c1의 영 부분이 존재한다는 사실로 인하여 두 윈도우가 비-에일리어싱 부분을 수신하고, 에일리어싱 부분에서의 윈도우 기능이 도 4a 보다 더 경사가 가파르다는 점을 분명히 한다. 이를 볼 때, 에일리어싱 부분(472a)은 Lk에 대응하고, 비-에일리어싱 부분(472c)은 부분 Mk에 대응하며, 에일리어싱 부분(472b)는 도 4b의 Rk에 대응한다.
폴딩 동작이 윈도우(472)에 의해 윈도우 처리된 샘플의 블럭에 적용되는 경우, 도 4b에서 도시된 것과 같은 상황이 얻어진다. 제1 N/4 샘플에 걸쳐 연장하는 좌측 부분은 에일리어싱을 갖는다. N/2 샘플에 걸쳐 연장하는 제2 부분은 폴딩 동작이 0 값을 갖는 윈도우 부분에 대해 적용되므로, 에일리어싱이 없으며, 나머지 N/4 샘플은 다시 에일리어싱에 영향을 받는다. 폴딩 동작으로 인하여, 폴딩 동작의 출력 값의 수는 N과 같으며, 입력은 2N이지만, 실제로는 이 실시예에서 N/2 값은 윈도우(472)를 사용하는 윈도우잉 동작으로 인하여 0으로 설정된다.
이제, DCT-IV가 폴딩 동작의 결과에 적용되지만, 중요하게도 일 코딩 모드에서 다른 코딩 모드로의 전이에 있는 에일리어싱 부분(472)이 비-에일리어싱 부분 보다 상이하게 처리되고, 두 부분이 오디오 샘플의 동일한 블럭에 속하지만, 중요하게도 동일한 블럭 변환 동작으로 입력된다.
도 4b는 또한 윈도우(472, 473, 474)의 윈도우 순서를 도시하며, 여기서 윈도우(473)는 비-에일리어싱 부분이 존재하는 일 상황으로부터 에일리어싱 부분만이 존재하는 상황으로의 전이 윈도우이다. 이는 윈도우 기능을 비대칭적으로 정형함에 의해 얻어진다. 윈도우(473)의 우측 부분은 도 4a의 윈도우 순서에서의 윈도우의 우측 부분과 유사하고, 좌측 부분은 비-에일리어싱 부분 및 대응하는 0 부분(c1에서)을 가진다. 그러므로, 도 4b는 AAC가 완전 중첩 윈도우를 이용하여 수행되는 경우 MDCT-TCX에서 AAC로의 전이를 도시하고, 다르게는 윈도우(474)가 완전-중첩 방식으로 TCX 데이터 블럭을 윈도우 처리하는 경우에는 AAC에서 MDCT-TCX로의 전이가 도시되는데, 이는 일 모드에서 다른 모드로 전환에 대한 이유가 없을 경우에 한편으로는 MDCT-TCX 및 다른 한편으로는 MDCT-AAC에 대한 정규적인 동작이다.
그러므로, 윈도우(473)는 "중지 윈도우"로 칭해질 수 있고, 이는 또한 이 윈도우의 길이가 적어도 하나의 이웃하는 윈도우의 길이와 동일하여, 블럭이 윈도우 계수와 동일한 수 즉, 도 4a 또는 도 4b 예에서 2N 샘플을 가지도록 설정되는 경우 일반적인 블럭 패턴 또는 프레이밍 레스터가 유지되는 양호한 특징을 갖는다.
이하에서, 인공 시간 도메인 에일리어싱 및 시간 도메인 에일리어싱 소거의 방법이 상세히 설명된다. 도 5는 실시예에서 사용될 신호 처리 체인을 디스플레이하는 블럭도를 도시한다. 도 6a 내지 6g 및 7a 내지 7g는 샘플 신호를 도시하고, 여기서 6a 내지 6g는 오리지널 신호가 이용되는 것으로 가정한 시간 도메인 에일리어싱 소거의 원칙적 처리를 도시하며, 도 7a 내지 7g에서 완전 리셋 이후에 임의의 적응(adaptation) 없이 제1 LPD 프레임이 발생한다는 가정에 기초하여 결정되는 신호 샘플이 도시된다.
다시 말하면, 도 5는 비-LPD 모드에서 LPD 모드로의 전이의 경우에 LPD 모드의 제1 프레임에 대한 인공 시간 도메인 에일리어싱 및 시간 도메인 에일리어싱 소거의 도입의 처리의 실시예를 도시한다. 도 5는 먼저 윈도우잉이 블럭(510)내의 현재 LPD 프레임에 적용되는 것을 도시한다. 도 6a, 6b 및 도 7a, 7b가 도시하는 것처럼, 윈도우잉은 각 신호의 페이드 인에 대응한다. 도 5에서의 윈도우잉 블럭(510) 위의 작은 도형으로 도시된 것처럼, 윈도우잉이 Lk 샘플에 적용되는 것을 가정한다. 윈도우잉(510)은 다음으로 폴딩 동작(520)이 오고, Lk/2 샘플이 된다. 폴딩 동작의 결과가 도 6c 및 7c에 도시된다. 감소된 샘플 수로 인하여, 각 신호의 시작시에 Lk/2 샘플에 걸쳐 연장하는 0 기간이 존재한다.
블럭(510)인 윈도우잉 동작 및 블럭(520)인 폴딩 동작은 MDCT를 통해 도입되는 시간 도메인 에일리어싱으로서 요약될 수 있다. 그러나, IMDCT를 통해 반대로 변환되는 경우에 추가 에일리어싱 효과가 발생한다. IMDCT에 의해 초래된 효과는 도 5에서 블럭(530 및 540)에 의해 요약되며, 이는 역 시간 도메인 에일리어싱으로 요약될 수 있다. 도 5에 도시된 것처럼, 블럭(530)에서 언폴딩이 수행되고, 샘플의 수를 2배로 하게 되어, 결과적으로 Lk 샘플이 된다. 각 신호가 도 6d 및 7d에서 디스플레이된다. 도 6d 및 7d에서 알 수 있듯이, 샘플의 수는 2배가 되고, 시간 에일리어싱이 도입되었다. 신호를 페이드 인(fade in)하기 위하여, 언폴딩(530)의 동작 다음으로 다른 윈도우잉 동작(540)이 온다. 제2 윈도우잉(540)의 결과가 도 6e 및 도 7e에 디스플레이된다. 마지막으로, 도 6e 및 도 7e에 디스플레이된 인공적으로 시간 에일리어스된 신호가 비-LPD 모드에서 인코딩된 이전 프레임에 중첩되고 가산되며, 이는 도 5에서 블럭(550)으로 표시되며, 각각의 신호는 도 6f 및 도 7f에 디스플레이된다.
다시 말하면, 오디오 디코더(200)의 실시예에서, 결합기(240)는 도 5에서의 블럭(550)의 기능을 수행하도록 될 수 있다.
최종 신호가 도 6g 및 7g에 디스플레이된다. 요약하면, 이 두 경우에 각 프레임의 좌측 부분이 윈도우되고, 도 6a, 6b, 7a 및 7b에 표시된다. 윈도우의 좌측 부분은 다음으로 폴드되고 이는 도 6c 및 7c에 표시된다. 언폴딩 이후에, 도 6d 및 7d 참조, 다른 윈도우잉이 적용된다, 도 6e 및 7e 참조. 도 6f 및 7f는 이전 비-LPD 프레임의 형상을 갖는 현재 처리 프레임을 도시하며, 도 6g 및 7g는 중첩 및 가산 동작 이후의 결과를 도시한다. 도 6a 내지 6g로부터, LPD 프레임에 대해 인공 TDA를 적용하고 이전 프레임과의 중첩 및 가산을 적용한 이후에 완벽한 재구성이 실시예에 의해 얻어질 수 있다. 그러나, 제2의 경우 즉, 도 7a 내지 7g에 도시된 경우에, 재구성은 완벽하지 않다. 전술한 것처럼, 제2 경우에서, LPD 모드는 완전히 리셋 즉, LPC 합성의 상태 및 메모리가 0으로 설정된다. 이로써 합성 신호는 제1 샘플 동안 정확하지 않게 된다. 이 경우, 인공 TDA와 중첩 가산의 결과는 완벽한 재구성 보다는 왜곡과 아티팩트를 초래한다, 도 6g 및 7g 참조.
도 6a 내지 6g 및 8a 내지 8g는 인공 시간 도메인 에일리어싱과 시간 도메인 에일리어싱 소거에 대해 오리지널 신호를 이용하는 것과 LPD 시작 신호를 이용하는 도 8a 내지 8g에 나타낸 다른 경우의 다른 비교를 도시하며, LPD 시작 기간은 도 7a 내지 7g의 경우에 비해 더 긴 시간이 걸리는 것으로 가정한다. 도 6a 내지 6g 및 도 8a 내지 8g는 샘플 신호의 그래프를 도시하되, 도 5를 참조로 이미 설명한 것과 같은 동일한 동작이 적용된다. 도 6g 와 8g을 비교하면, 도 8g에 디스플레이된 신호에 도입되는 왜곡 및 아티팩트가 도 7g의 것에 비해 현저히 더 많음을 알 수 있다. 도 8g에 디스플레이된 신호는 상대적으로 긴 시간 동안 많은 왜곡을 포함한다. 비교만을 위해서, 도 6g는 시간 도메인 에일리어싱 소거를 위하여 오리지널 신호를 고려할 때 완벽한 재구성을 도시한다.
본 발명의 실시예는 각각 예측 코딩 분석 스테이지(110)와 예측 합성 스테이지(220)의 실시예로서 예를 들면 LPD 코어 코덱에 대한 시작 기간을 가속할 수 있다. 실시예는 합성된 신호의 감소를 최대한 오리지널 신호에 가깝게 하도록 하고, 도 7a 및 8g에 디스플레이된 것과 같은 왜곡을 감소하기 위하여 관련된 모든 메모리 및 상태를 업데이트할 수 있다. 더욱이, 실시예에서 긴 중첩 및 가산 기간이 인에이블될 수 있어서, 이는 개선된 시간 도메인 에일리어싱 도입 및 시간 도메인 에일리어싱 소거로 인하여 가능하다.
상술한 것처럼, 제1 또는 현재 LPD 프레임의 시작에서 직사각형 윈도우를 사용하는 것과 LPD-기반 코덱을 0 상태로 리셋하는 것은 전이를 위한 이상적 옵션이 아닐 수 있다. 양호한 신호를 구축하기 위한 LPD 코덱을 위해 충분한 시간이 남지 않으므로, 왜곡 및 아티팩트가 발생할 수 있다. 그러한 코더의 정상 상태가 다중 신호 특성에 좌우되므로, 코덱의 내부 상태 변수를 임의의 한정된 초기값으로 설정하는 것에 대해서도 유사한 고려점을 가지며, 임의의 선정되나 고정되지 않은 초기 상태로부터의 시작 시간은 길어질 수 있다.
오디오 디코더(100)의 실시예에서, 제어기(140)는 LPC 분석을 기초로 합성 필터의 계수에 대한 정보 및 전환 예측 도메인 프레임에 대한 정보를 결정하도록 될 수 있다. 다시 말하면, 실시예는 직사각형 윈도우를 사용할 수 있고, LPD 코덱의 내부 상태를 리셋할 수 있다. 일부 실시예에서, 인코더는 필터 메모리에 대한 정보 및/또는 ACELP에 의해 이용되며 이전 비-LPD 프레임에서 인코딩된 프레임으로의 합성 샘플에 대한 적응형 코드북을 포함할 수 있고, 이들을 디코더에 제공할 수 있다. 다시 말하면, 오디오 인코더(100)의 실시예는 이전 비-LPD 프레임을 디코드하고, LPC 분석을 수행하고, 이에 대한 정보를 디코더에 제공하기 위하여 비-LPD 합성 신호에 대해 LPC 분석 필터를 적용할 수 있다.
상술한 것처럼, 제어기(140)는 전환 계수에 대한 정보를 결정하도록 될 수 있어서, 상기 정보는 이전 프레임을 중첩하는 오디오 샘플의 프레임을 나타낸다.
실시예에서, 오디오 인코더(100)는 리던던시 감소 인코더(150)를 이용하여 전환 계수에 대한 정보를 인코딩하도록 될 수 있다. 일 실시예의 일부로서, 비트스트림내의 이전 프레임에 대해 계산되는 LPC의 추가 파라미터 정보를 전송 또는 포함함에 의해 재시작 절차가 증강될 수 있다. LPC 계수의 추가 셋은 이하에서 LPC0으로 칭한다.
일 실시예에서, 코덱은 각각의 프레임에 대해 추정 또는 결정되는 4개의 LPC 필터 즉, LPC1 내지 LPC4를 이용하여 LPD 코어 코딩 모드에서 동작할 수 있다. 일 실시예에서, 비-LPD 코딩에서 LPD 코딩으로의 전이에서, 이전 프레임의 단부에 중심을 둔 LPC 분석에 대응할 수 있는 추가 LPC 필터(LPC0)가 또한 결정 또는 추정될 수 있다. 다시 말하면, 일 실시예에서, 이전 프레임과 중첩하는 오디오 샘플의 프레임은 이전 프레임의 단부에 중심을 둘 수 있다.
오디오 디코더(200)의 실시예에서, 리던던시 리트리빙 디코더(210)는 인코딩된 프레임으로부터 전환 계수에 대한 정보를 디코딩하도록 될 수 있다. 따라서, 예측 합성 스테이지(220)는 이전 프레임과 중첩하는 전환 예측된 프레임을 결정하도록 될 수 있다. 다른 실시예에서, 전환 예측된 프레임은 이전 프레임의 단부에 중심을 둘 수 있다.
실시예에서, 비-LPD 세그먼트 또는 프레임의 단부에 대응하는 LPC 필터 즉, LPC0는 LPC 계수의 보간 또는 ACELP의 경우에서의 0 입력 응답의 계산에 이용될 수 있다.
상술한 것처럼, 이러한 LPC 필터는 순방향 방식으로 추정 즉, 입력 신호를 기초로 추정되고, 인코더에 의해 양자화되고 및 디코더로 전송될 수 있다. 다른 실시예에서, LPC 필터는 역방향 방식으로 즉, 과거 합성된 신호를 기초로 디코더에 의해 추정될 수 있다. 순방향 추정은 추가 비트레이트를 이용할 수 있지만, 보다 효율적이고 신뢰적인 시작 기간을 인에이블할 수도 있다.
다시 말하면, 다른 실시예에서, 오디오 디코더(200)의 실시예 내부의 제어기(250)는 합성 필터에 대한 계수에 대한 이전 프레임 정보 및 예측 도메인 프레임을 취득하기 위하여 이전 프레임을 분석하도록 될 수 있다. 또한, 제어기(250)는 계수에 대한 이전 프레임 정보를 전환 계수로서 예측 합성 스테이지(220)에 제공하도록 될 수 있다. 제어기(250)는 트레이닝을 위하여 예측 도메인 프레임에 대한 이전 프레임 정보를 예측 합성 스테이지(220)에 제공할 수 있다.
실시예에서, 오디오 디코더(100)는 전환 계수에 대한 정보를 제공하고, 비트스트림의 비트의 양은 약간 증가할 것이다. 디코더에서의 분석을 수행하면 비트스트림의 비트의 양을 증가시키지 않을 수 있다. 그러나, 디코더에서의 분석 수행은 추가적 복잡성을 유도할 수 있다. 그러므로, 실시예에서, LPC 분석의 해상도는 스펙트럼 다이나믹(spectral dynamic)을 감소시킴에 의해 증강될 수 있다 즉, 신호의 프레임은 프리-엠퍼시스 필터를 통해 먼저 전처리될 수 있다. 다음 프레임의 인코딩을 위해 필요한 여기 신호 또는 예측 도메인 프레임의 취득을 고려하여, 역 저 주파수 엠퍼시스가 오디오 인코더(100) 외에도 디코더(200)의 실시예에 적용될 수 있다. 고려한 이러한 모든 필터는 0 상태 응답 즉, 과거 입력이 인가되지 않은 것으로 가정 즉, 필터내의 상태 입력이 완전 리셋 이후에 0으로 설정되는 것으로 가정한 현재 입력으로 인한 필터의 출력을 준다. 일반적으로, LPD 코딩 모드가 정상적으로 구동하는 경우, 필터내의 상태 정보는 이전 프레임의 필터링 이후의 최종 상태에 의해 갱신된다. 실시예에서, 제1 LPD 프레임에 대해 미리 예정된 방식으로 코딩된 LPD의 내부 필터 상태를 설정하기 위하여, 전체 필터 및 예측기는 제1 프레임에 대해 최적 또는 개선된 모드로 구동하기 위하여 초기화되고, 전환 계수/계수에 대한 정보가 오디오 인코더(100)에 의해 제공될 수 있거나, 또는 추가 처리가 디코더(200)에서 수행될 수 있다.
일반적으로, 오디오 인코더(100)에서 예측 코딩 분석 스테이지(110)에 의해 수행되는 것과 같은 필터 및 예측기는 합성을 위하여 오디오 디코더(200) 상에서 이용되는 필터 및 예측기와 구분된다.
분석을 위하여, 예를 들면 예측 코딩 분석 스테이지(110)로서, 이들 필터의 전체 또는 적어도 하나가 메모리를 업데이트하기 위하여 이전 프레임의 적절한 오리지널 샘플이 공급될 수 있다. 도 9a는 분석을 위하여 이용되는 필터 구조의 실시예를 도시한다. 제1 필터는 프리-엠퍼시스 필터(1002)이며, 이는 LPC 분석 필터(1006)의 해상도를 증강하기 위하여 즉, 예측 코딩 분석 스테이지(110)에서 이용될 수 있다. 실시예에서, LPC 분석 필터(1006)는 분석 윈도우 내에서 하이 패스 필터링된 음성 샘플을 이용한 단기 필터 계수를 계산 또는 평가할 수 있다. 다시 말하면, 실시예에서, 제어기(140)는 이전 프레임의 디코딩된 프레임 스펙트럼의 하이 패스 필터링된 버전을 기초로 전환 계수에 대한 정보를 결정하도록 될 수 있다. 유사한 방식으로, 오디오 디코더(200)의 실시예에서 분석이 수행됨을 가정하면, 제어기(250)는 이전 프레임의 하이 패스 필터링된 버전을 분석하도록 될 수 있다.
도 9a에 도시된 것처럼, LP 분석 필터(1006)는 인지 가중 필터(1004)가 선행한다. 실시예에서, 인지 가중 필터(1004)는 코드북의 분석-합성 서치에서 채용될 수 있다. 필터는 포먼트 주파수에 가까운 영역에 대해서는 적게, 이들로부터 먼 영역에서는 많이 에러를 가중함에 의해 예를 들면 성도 공명(vocal tract resonance)로서의 포먼트(formant)의 노이즈 마스킹 특성을 활용할 수 있다. 실시예에서, 리던던시 감소 인코더(150)는 각 예측 도메인 프레임/프레임들에 적응적인 코드북을 기초로 인코딩하도록 될 수 있다. 따라서, 리던던시 도입 디코더(210)는 프레임의 샘플에 적응되는 코드북을 기초로 디코딩하도록 될 수 있다.
도 9b는 합성의 경우에서의 신호 처리의 블럭도를 도시한다. 합성의 경우, 실시예에서 전체 또는 일부의 필터가 메모리를 업데이트하기 위하여 이전 프레임의 적절하게 합성된 샘플이 공급될 수 있다. 오디오 디코더(200)의 실시예에서, 이는 이전 비-LPD 프레임의 합성이 직접적으로 유효하므로 간단할 수 있다. 그러나, 오디오 인코더(100)의 실시예에서, 합성은 자동으로 수행되지 않을 수 있고, 따라서 합성 샘플은 유효하지 않을 수 있다. 그러므로, 오디오 디코더(100)의 실시예에서, 제어기(140)는 이전 비-LPD 프레임을 디코딩하도록 될 수 있다. 일단 비-LPD 프레임이 디코딩되면, 두 실시예 즉, 오디오 인코더(100) 및 오디오 인코더(200)에서, 이전 프레임의 합성이 도 9b의 블럭(1012)에서 수행될 수 있다. 더욱이, LP 합성 필터(1012)의 출력은 역 인지 가중 필터(1014)에 입력될 수 있으며, 그 이후에 디-엠퍼시스 필터(1016)가 적용된다. 실시예에서, 적응된 코드북이 이용되고, 이전 프레임으로부터의 합성된 샘플로 채워질 수 있다. 다른 실시예에서, 적응형 코드북은 모든 서브-프레임을 위한 여기 벡터를 포함할 수 있다. 적응형 코드북은 장기 필터 상태로부터 얻어질 수 있다. 레그 값(lag value)가 적응형 코드북의 인덱스로서 이용될 수 있다. 실시예에서, 적응형 코드북을 파퓰레이팅(populating) 하기 위하여, 여기 신호 또는 잔류 신호가 양자화된 가중 신호를 0 메모리를 갖는 역 가중 필터로 필터링함에 의해 최종적으로 계산될 수 있다. 여기는 특히 장기 예측기 메모리를 업데이트하기 위하여 인코더(100)에서 필요할 수 있다.
본 발명의 실시예는 추가 파라미터를 제공 및/또는 인코더 또는 디코더의 내부 메모리에 변환 기반 코더에 의해 코딩된 이전 프레임의 샘플을 공급함에 의해 필터의 재시작 절차가 부스트되거나 가속될 수 있다는 이점을 제공할 수 있다.
실시예는 관련 메모리의 전부 또는 일부를 업데이트함에 의해 LPC 코어 코덱의 시작 절차를 가속하여, 종래의 개념을 이용하는 경우, 특히 완전 리셋을 이용하는 경우보다 더 오리지널 신호에 가까울 수 있는 합성된 신호를 제공하는 이점을 제공할 수 있다. 또한, 실시예는 더 긴 중첩을 허용하고 윈도우를 추가하고, 이와함께 시간 도메인 에일리어싱 소거의 개선된 이용을 가능하게 할 수 있다. 실시예는 음성 코더의 비정상 위상이 단축되도록 하고, 변환 기반의 코더로부터 음성 코더로의 전이 동안 생성되는 아타팩트가 감소되도록 하는 이점을 제공할 수 있다.
본 발명의 방법의 특정 이행 요구 사항에 따라, 방법은 하드웨어로 또는 소프트웨어로 이행될 수 있다. 이행은 디지털 저장 매체, 특히 전자적으로 판독가능한 제어 신호가 그 내부에 저장되며, 프로그램 가능한 컴퓨터 시스템과 결합하여 각 방법이 수행되는 디스크, DVD, CD를 이용하여 수행될 수 있다.
일반적으로, 본 발명은 그러므로 기계가 판독가능한 매개체 상에 저장되는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동하는 경우 방법들 중 하나를 수행하도록 동작한다.
다시 말하면, 창의적 방법은 그러므로, 컴퓨터 프로그램이 컴퓨터 상에서 구동하는 경우 창의적 방법 중 적어도 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
전술한 것들이 특히 그 특정 실시예를 참조로 도시되고 설명되었지만, 당업자라면 그 기술 사상 및 범위에서 벗어나지 않고도 다양한 다른 형태상 및 상세부분의 변경이 가능함을 이해할 것이다. 상세한 설명에 기재되고 이하의 특허청구범위에 의해 이해되는 넓은 개념으로부터 벗어나지 않고 다른 실시예에 적용하는데 있어 다양한 변경이 가능함이 이해될 것이다.

Claims (15)

  1. 인코드된 프레임을 취득하기 위하여 샘플링된 오디오 신호의 프레임을 인코딩하기 위한 오디오 인코더(100)로서 - 일 프레임은 복수개의 시간 도메인 오디오 샘플을 포함함 - :
    오디오 샘플의 프레임을 기초로 합성 필터의 계수에 대한 정보 및 예측 도메인 프레임에 대한 정보를 결정하기 위한 예측 코딩 분석 스테이지(110);
    프레임 스펙트럼을 취득하기 위하여 오디오 샘플의 프레임을 주파수 도메인으로 변환하기 위한 주파수 도메인 변환기(120);
    일 프레임에 대해 인코딩된 데이터가 상기 합성 필터의 계수에 대한 정보 및 상기 예측 도메인 프레임에 대한 정보를 기초로 한 것인지 또는 상기 프레임 스펙트럼을 기초로 한 것인지를 판정하기 위한 인코딩 도메인 판정기(130);
    상기 인코딩 도메인 판정기가 현재 프레임의 인코딩된 데이터가 상기 계수에 대한 정보를 기초로 하는 것으로 판정하는 경우에는 전환 계수에 대한 정보를 결정하고, 이전 프레임의 인코딩된 데이터가 상기 주파수 도메인 변환기에 의해 취득된 이전 프레임 스펙트럼을 기초로 인코딩된 경우에는 상기 예측 도메인 프레임에 대한 정보를 결정하기 위한 제어기(140); 및
    상기 예측 도메인 프레임에 대한 정보, 상기 계수에 대한 정보, 상기 전환 계수에 대한 정보 또는 상기 프레임 스펙트럼을 인코딩하기 위한 리던던시 감소 인코더(150)를 포함하되,
    상기 전환 계수에 대한 정보는 예측 합성 스테이지의 초기화를 가능하도록 하는 정보를 포함하며, 상기 제어기(140)는 상기 이전 프레임의 LPC 분석을 기초로 상기 전환 계수에 대한 정보를 결정하기 위한 것이며,
    상기 제어기(140)는 상기 이전 프레임의 상기 인코딩된 데이터로부터 디코딩 가능한 것으로서 상기 이전 프레임 스펙트럼의 하이 패스 필터링된 버전을 기초로 상기 전환 계수에 대한 정보를 결정하기 위한 것인, 오디오 인코더.
  2. 청구항 1에 있어서, 상기 예측 코딩 분석 스테이지(110)는 LPC(LPC=Linear Prediction Coding) 분석을 기초로 상기 합성 필터의 상기 계수에 대한 정보 및 상기 예측 도메인 프레임에 대한 정보를 결정하기 위한 것 또는 상기 주파수 도메인 변환기(120)는 고속 푸리에 변환(FFT) 또는 변형된 이산 코사인 변환(MDCT)을 기초로 오디오 샘플의 프레임을 변환하기 위한 것인, 오디오 인코더.
  3. 청구항 1에 있어서, 상기 제어기(140)는 전환 계수에 대한 정보로서, 상기 LPC 분석을 기초로 합성 필터에 대한 계수에 대한 정보 및 예측 도메인 프레임에 대한 정보를 결정하기 위한 것인, 오디오 인코더.
  4. 청구항 1에 있어서, 상기 제어기(140)는 상기 전환 계수가 상기 이전 프레임에 중첩하는 오디오 샘플의 일 프레임을 나타내도록 상기 전환 계수에 대한 정보를 결정하는, 오디오 인코더.
  5. 청구항 4에 있어서, 상기 이전 프레임에 중첩하는 오디오 샘플의 프레임이 상기 이전 프레임의 단부에 중심을 둔, 오디오 인코더.
  6. 삭제
  7. 인코딩된 프레임을 취득하기 위하여 샘플링된 오디오 신호의 프레임을 인코딩하기 위한 방법으로서 - 일 프레임은 복수개의 시간 도메인 오디오 샘플을 포함함 - :
    오디오 샘플의 프레임을 기초로 합성 필터의 계수에 대한 정보 및 예측 도메인 프레임에 대한 정보를 결정하는 단계;
    프레임 스펙트럼을 취득하기 위하여 오디오 샘플의 프레임을 주파수 도메인으로 변환시키는 단계;
    일 프레임에 대해 인코딩된 데이터가 상기 합성 필터의 계수에 대한 정보 및 상기 예측 도메인 프레임에 대한 정보를 기초로 한 것인지 또는 상기 프레임 스펙트럼을 기초로 한 것인지를 판정하는 단계;
    현재 프레임의 인코딩된 데이터가 상기 계수에 대한 정보를 기초로 하는 것으로 판정하는 경우에는 전환 계수에 대한 정보를 결정하고, 이전 프레임의 인코딩된 데이터가 주파수 도메인 변환기에 의해 취득된 이전 프레임 스펙트럼을 기초로 인코딩되는 경우에는 상기 예측 도메인 프레임에 대한 정보를 결정하는 단계; 및
    상기 예측 도메인 프레임에 대한 정보, 상기 계수에 대한 정보, 상기 전환 계수에 대한 정보 또는 상기 프레임 스펙트럼을 인코딩하는 단계를 포함하되,
    상기 전환 계수에 대한 정보는 예측 합성 스테이지의 초기화를 가능하도록 하는 정보를 포함하고, 상기 전환 계수에 대한 정보의 상기 결정은 상기 이전 프레임의 LPC 분석을 기초로 수행되며,
    상기 전환 계수에 대한 정보의 결정은 상기 이전 프레임의 상기 인코딩된 데이터로부터 디코딩 가능한 것으로서 상기 이전 프레임 스펙트럼의 하이 패스 필터링된 버전을 기초로 상기 전환 계수에 대한 정보를 결정하는 것을 포함하는, 샘플링된 오디오 신호의 프레임을 인코딩하기 위한 방법.
  8. 샘플링된 오디오 신호의 프레임을 취득하기 위하여 인코딩된 프레임을 디코딩하기 위한 오디오 디코더(200)로서 - 일 프레임은 복수개의 시간 도메인 오디오 샘플을 포함함 - :
    예측 도메인 프레임에 대한 정보, 합성 필터에 대한 계수에 대한 정보 또는 프레임 스펙트럼을 취득하기 위하여 상기 인코딩된 프레임을 디코딩하기 위한 리던던시 리트리빙(redundancy retrieving) 디코더(210);
    상기 합성 필터에 대한 계수에 대한 정보 및 상기 예측 도메인 프레임에 대한 정보를 기초로 오디오 샘플의 예측된 프레임을 결정하기 위한 예측 합성 스테이지(220);
    상기 프레임 스펙트럼으로부터 변환된 프레임을 취득하기 위하여 상기 프레임 스펙트럼을 시간 도메인으로 변환시키기 위한 시간 도메인 변환기(230);
    상기 샘플링된 오디오 신호의 프레임을 취득하기 위하여 상기 변환된 프레임 및 상기 예측된 프레임을 결합하기 위한 결합기(240); 및
    이전 프레임이 변환된 프레임을 기초로 하고, 현재 프레임이 예측된 프레임을 기초로 하는 경우에 전환 처리(switch-over process)에 유효한 제어기(250)를 포함하며, 상기 제어기(250)는 상기 전환 처리에서, 상기 이전 프레임의 LPC 분석을 기초로 상기 예측 합성 스테이지(220)를 초기화하기 위하여 전환 계수를 상기 예측 합성 스테이지(220)에 제공하여, 상기 예측 합성 스테이지(200)가 상기 전환 처리가 유효해질 때 초기화되도록 구성되는, 오디오 디코더.
  9. 청구항 8에 있어서, 상기 리던던시 리트리빙 디코더(210)는 상기 인코딩된 프레임으로부터 전환 계수에 대한 정보를 디코딩하기 위한 것인, 오디오 디코더.
  10. 청구항 8에 있어서, 상기 예측 합성 스테이지(220)는 LPC 합성을 기초로 상기 예측 프레임을 결정하기 위한 것 또는 상기 시간 도메인 변환기(230)는 역 FFT 또는 역 MDCT를 기초로 상기 프레임 스펙트럼을 시간 도메인으로 변환시키기 위한 것인, 오디오 디코더.
  11. 청구항 8에 있어서, 상기 제어기(250)는 합성 필터에 대한 계수에 대한 이전 프레임 정보 및 예측 도메인 프레임에 대한 이전 프레임 정보를 취득하기 위하여 이전 프레임을 분석하기 위한 것이며, 상기 제어기(250)는 상기 합성 필터의 계수에 대한 상기 이전 프레임 정보를 전환 계수로서 상기 예측 합성 스테이지(220)에 제공하기 위한 것 또는 상기 제어기(250)는 트레이닝을 위하여 상기 예측 도메인 프레임에 대한 상기 이전 프레임 정보를 상기 예측 합성 스테이지(220)에 또한 제공하기 위한 것인, 오디오 디코더.
  12. 청구항 8에 있어서, 상기 예측 합성 스테이지(220)는 상기 이전 프레임의 단부에 중심을 둔 전환 예측 프레임을 결정하기 위한 것인, 오디오 디코더.
  13. 청구항 8에 있어서, 상기 제어기(250)는 상기 이전 프레임의 하이 패스 필터링된 버전을 분석하기 위한 것인, 오디오 디코더.
  14. 샘플링된 오디오 신호의 프레임을 취득하기 위하여 인코딩된 프레임을 디코딩하기 위한 방법으로서 - 일 프레임은 복수개의 시간 도메인 오디오 샘플을 포함함 - :
    예측 도메인 프레임에 대한 정보, 합성 필터에 대한 계수에 대한 정보 또는 프레임 스펙트럼을 취득하기 위하여 상기 인코딩된 프레임을 디코딩하는 단계;
    상기 합성 필터에 대한 계수에 대한 정보 및 상기 예측 도메인 프레임에 대한 정보를 기초로 오디오 샘플의 예측된 프레임을 결정하는 단계;
    상기 프레임 스펙트럼으로부터 변환된 프레임을 취득하기 위하여 상기 프레임 스펙트럼을 시간 도메인으로 변환시키는 단계;
    상기 샘플링된 오디오 신호의 프레임을 취득하기 위하여 상기 변환된 프레임 및 상기 예측된 프레임을 결합하는 단계;
    전환 처리(switch-over process)를 제어하는 단계 - 상기 전환 처리는 이전 프레임이 변환된 프레임을 기초로 하고, 현재 프레임이 예측된 프레임을 기초로 하는 경우에 유효함 - ; 및
    이전 프레임이 변환된 프레임을 기초로 하고, 현재 프레임이 예측된 프레임을 기초로 하는 경우에, 예측 합성 스테이지가 상기 전환 처리가 유효해질 때 초기화되도록 상기 이전 프레임의 LPC 분석을 기초로 초기화를 위하여 전환 계수가 제공되는, 전환 처리(switch-over process)를 유효화하는 단계를 포함하는, 인코딩된 프레임을 디코딩하기 위한 방법.
  15. 컴퓨터 프로그램이 컴퓨터 또는 프로세서 상에서 구동되는 경우, 청구항 7에 기재된 방법을 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램을 갖는 컴퓨터로 판독가능한 매체.
KR1020117003281A 2008-07-11 2009-07-08 샘플 오디오 신호의 프레임을 인코딩하기 위한 오디오 인코더 및 디코더 KR101227729B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US7985108P 2008-07-11 2008-07-11
US61/079,851 2008-07-11
US10382508P 2008-10-08 2008-10-08
US61/103,825 2008-10-08
PCT/EP2009/004947 WO2010003663A1 (en) 2008-07-11 2009-07-08 Audio encoder and decoder for encoding frames of sampled audio signals

Publications (2)

Publication Number Publication Date
KR20110052622A KR20110052622A (ko) 2011-05-18
KR101227729B1 true KR101227729B1 (ko) 2013-01-29

Family

ID=41110884

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020117003281A KR101227729B1 (ko) 2008-07-11 2009-07-08 샘플 오디오 신호의 프레임을 인코딩하기 위한 오디오 인코더 및 디코더

Country Status (19)

Country Link
US (1) US8751246B2 (ko)
EP (1) EP2311034B1 (ko)
JP (1) JP5369180B2 (ko)
KR (1) KR101227729B1 (ko)
CN (1) CN102105930B (ko)
AR (1) AR072556A1 (ko)
AU (1) AU2009267394B2 (ko)
BR (3) BRPI0910784B1 (ko)
CA (1) CA2730315C (ko)
CO (1) CO6351832A2 (ko)
ES (1) ES2558229T3 (ko)
HK (1) HK1157489A1 (ko)
MX (1) MX2011000369A (ko)
MY (1) MY156654A (ko)
PL (1) PL2311034T3 (ko)
RU (1) RU2498419C2 (ko)
TW (1) TWI441168B (ko)
WO (1) WO2010003663A1 (ko)
ZA (1) ZA201100090B (ko)

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461106B2 (en) 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
US8576096B2 (en) 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8209190B2 (en) 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
US8639519B2 (en) 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
MY152252A (en) * 2008-07-11 2014-09-15 Fraunhofer Ges Forschung Apparatus and method for encoding/decoding an audio signal using an aliasing switch scheme
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
EP3002750B1 (en) * 2008-07-11 2017-11-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder for encoding and decoding audio samples
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
WO2010044593A2 (ko) 2008-10-13 2010-04-22 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
KR101649376B1 (ko) 2008-10-13 2016-08-31 한국전자통신연구원 Mdct 기반 음성/오디오 통합 부호화기의 lpc 잔차신호 부호화/복호화 장치
US9384748B2 (en) 2008-11-26 2016-07-05 Electronics And Telecommunications Research Institute Unified Speech/Audio Codec (USAC) processing windows sequence based mode switching
US8200496B2 (en) 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8140342B2 (en) 2008-12-29 2012-03-20 Motorola Mobility, Inc. Selective scaling mask computation based on peak detection
US8219408B2 (en) 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8175888B2 (en) 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
KR101622950B1 (ko) * 2009-01-28 2016-05-23 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 그 장치
JP4977157B2 (ja) 2009-03-06 2012-07-18 株式会社エヌ・ティ・ティ・ドコモ 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
JP4977268B2 (ja) * 2011-12-06 2012-07-18 株式会社エヌ・ティ・ティ・ドコモ 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
US8428936B2 (en) * 2010-03-05 2013-04-23 Motorola Mobility Llc Decoder for audio signal including generic audio and speech frames
US8423355B2 (en) 2010-03-05 2013-04-16 Motorola Mobility Llc Encoder for audio signal including generic audio and speech frames
EP2581902A4 (en) 2010-06-14 2015-04-08 Panasonic Corp HYBRID AUDIO ENCODING DEVICE AND HYBRID AUDIO DECODING DEVICE
EP2466580A1 (en) 2010-12-14 2012-06-20 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Encoder and method for predictively encoding, decoder and method for decoding, system and method for predictively encoding and decoding and predictively encoded information signal
FR2969805A1 (fr) * 2010-12-23 2012-06-29 France Telecom Codage bas retard alternant codage predictif et codage par transformee
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
MX2013009303A (es) 2011-02-14 2013-09-13 Fraunhofer Ges Forschung Codec de audio utilizando sintesis de ruido durante fases inactivas.
EP4243017A3 (en) * 2011-02-14 2023-11-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method decoding an audio signal using an aligned look-ahead portion
US9037456B2 (en) * 2011-07-26 2015-05-19 Google Technology Holdings LLC Method and apparatus for audio coding and decoding
JPWO2013061584A1 (ja) * 2011-10-28 2015-04-02 パナソニック株式会社 音信号ハイブリッドデコーダ、音信号ハイブリッドエンコーダ、音信号復号方法、及び音信号符号化方法
SI2774145T1 (sl) * 2011-11-03 2020-10-30 Voiceage Evs Llc Izboljšane negovorne vsebine v celp dekoderju z nizko frekvenco
US9043201B2 (en) 2012-01-03 2015-05-26 Google Technology Holdings LLC Method and apparatus for processing audio frames to transition between different codecs
US9552818B2 (en) 2012-06-14 2017-01-24 Dolby International Ab Smooth configuration switching for multichannel audio rendering based on a variable number of received channels
US9123328B2 (en) * 2012-09-26 2015-09-01 Google Technology Holdings LLC Apparatus and method for audio frame loss recovery
US9129600B2 (en) 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
GB201219090D0 (en) * 2012-10-24 2012-12-05 Secr Defence Method an apparatus for processing a signal
CN103915100B (zh) * 2013-01-07 2019-02-15 中兴通讯股份有限公司 一种编码模式切换方法和装置、解码模式切换方法和装置
TR201908919T4 (tr) * 2013-01-29 2019-07-22 Fraunhofer Ges Forschung Celp benzeri kodlayıcılar için yan bilgi olmadan gürültü doldurumu.
MX346927B (es) 2013-01-29 2017-04-05 Fraunhofer Ges Forschung Énfasis de bajas frecuencias para codificación basada en lpc (codificación de predicción lineal) en el dominio de frecuencia.
PT2959481T (pt) 2013-02-20 2017-07-13 Fraunhofer Ges Forschung Aparelho e método para criar um sinal codificado ou para descodificar um sinal de áudio codificado usando uma parte de sobreposição múltipla
FR3003682A1 (fr) * 2013-03-25 2014-09-26 France Telecom Mixage partiel optimise de flux audio codes selon un codage par sous-bandes
FR3003683A1 (fr) * 2013-03-25 2014-09-26 France Telecom Mixage optimise de flux audio codes selon un codage par sous-bandes
KR20140117931A (ko) 2013-03-27 2014-10-08 삼성전자주식회사 오디오 디코딩 장치 및 방법
WO2014163638A1 (en) 2013-04-03 2014-10-09 Hewlett-Packard Development Company, L.P. Disabling counterfeit cartridges
RU2658128C2 (ru) 2013-06-21 2018-06-19 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для генерации адаптивной формы спектра комфотного шума
US9666202B2 (en) 2013-09-10 2017-05-30 Huawei Technologies Co., Ltd. Adaptive bandwidth extension and apparatus for the same
FR3013496A1 (fr) * 2013-11-15 2015-05-22 Orange Transition d'un codage/decodage par transformee vers un codage/decodage predictif
CN104751849B (zh) 2013-12-31 2017-04-19 华为技术有限公司 语音频码流的解码方法及装置
CN104934035B (zh) * 2014-03-21 2017-09-26 华为技术有限公司 语音频码流的解码方法及装置
US9685164B2 (en) * 2014-03-31 2017-06-20 Qualcomm Incorporated Systems and methods of switching coding technologies at a device
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980796A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
EP2980797A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder, method and computer program using a zero-input-response to obtain a smooth transition
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
FR3024582A1 (fr) 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
FR3024581A1 (fr) * 2014-07-29 2016-02-05 Orange Determination d'un budget de codage d'une trame de transition lpd/fd
EP3067886A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder for encoding a multichannel signal and audio decoder for decoding an encoded audio signal
CN106297813A (zh) * 2015-05-28 2017-01-04 杜比实验室特许公司 分离的音频分析和处理
WO2017050398A1 (en) * 2015-09-25 2017-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoder, decoder and methods for signal-adaptive switching of the overlap ratio in audio transform coding
WO2017220528A1 (en) * 2016-06-22 2017-12-28 Dolby International Ab Audio decoder and method for transforming a digital audio signal from a first to a second frequency domain
EP3483879A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation
WO2019091573A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an audio signal using downsampling or interpolation of scale parameters
EP3483886A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selecting pitch lag
EP3483884A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Signal filtering
EP3483883A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio coding and decoding with selective postfiltering
EP3483880A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Temporal noise shaping
EP3483878A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder supporting a set of different loss concealment tools
EP3483882A1 (en) 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Controlling bandwidth in encoders and/or decoders
WO2019091576A1 (en) 2017-11-10 2019-05-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoders, audio decoders, methods and computer programs adapting an encoding and decoding of least significant bits
US11694692B2 (en) 2020-11-11 2023-07-04 Bank Of America Corporation Systems and methods for audio enhancement and conversion

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5974374A (en) 1997-01-21 1999-10-26 Nec Corporation Voice coding/decoding system including short and long term predictive filters for outputting a predetermined signal as a voice signal in a silence period
WO2003090209A1 (en) 2002-04-22 2003-10-30 Nokia Corporation Method and device for obtaining parameters for parametric speech coding of frames
WO2008071353A2 (en) * 2006-12-12 2008-06-19 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung E.V: Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3912605B4 (de) 1989-04-17 2008-09-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Digitales Codierverfahren
US5533052A (en) * 1993-10-15 1996-07-02 Comsat Corporation Adaptive predictive coding with transform domain quantization based on block size adaptation, backward adaptive power gain control, split bit-allocation and zero input response compensation
JPH09506478A (ja) * 1994-10-06 1997-06-24 フィリップス エレクトロニクス ネムローゼ フェンノートシャップ 光放射半導体ダイオード及びこのようなダイオードの製造方法
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
ATE302991T1 (de) * 1998-01-22 2005-09-15 Deutsche Telekom Ag Verfahren zur signalgesteuerten schaltung zwischen verschiedenen audiokodierungssystemen
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US7424434B2 (en) * 2002-09-04 2008-09-09 Microsoft Corporation Unified lossy and lossless audio compression
US7328150B2 (en) 2002-09-04 2008-02-05 Microsoft Corporation Innovations in pure lossless audio compression
AU2003208517A1 (en) * 2003-03-11 2004-09-30 Nokia Corporation Switching between coding schemes
ES2281795T3 (es) * 2003-04-17 2007-10-01 Koninklijke Philips Electronics N.V. Sintesis de señal de audio.
JP2005057591A (ja) * 2003-08-06 2005-03-03 Matsushita Electric Ind Co Ltd オーディオ信号符号化装置及びオーディオ信号復号化装置
US7325023B2 (en) * 2003-09-29 2008-01-29 Sony Corporation Method of making a window type decision based on MDCT data in audio encoding
CA2457988A1 (en) * 2004-02-18 2005-08-18 Voiceage Corporation Methods and devices for audio compression based on acelp/tcx coding and multi-rate lattice vector quantization
US20070147518A1 (en) * 2005-02-18 2007-06-28 Bruno Bessette Methods and devices for low-frequency emphasis during audio compression based on ACELP/TCX
CN100561576C (zh) * 2005-10-25 2009-11-18 芯晟(北京)科技有限公司 一种基于量化信号域的立体声及多声道编解码方法与系统
KR20070077652A (ko) * 2006-01-24 2007-07-27 삼성전자주식회사 적응적 시간/주파수 기반 부호화 모드 결정 장치 및 이를위한 부호화 모드 결정 방법
CN101086845B (zh) * 2006-06-08 2011-06-01 北京天籁传音数字技术有限公司 声音编码装置及方法以及声音解码装置及方法
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
EP2458588A3 (en) * 2006-10-10 2012-07-04 Qualcomm Incorporated Method and apparatus for encoding and decoding audio signals
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
MX2011000375A (es) * 2008-07-11 2011-05-19 Fraunhofer Ges Forschung Codificador y decodificador de audio para codificar y decodificar tramas de una señal de audio muestreada.
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
KR20100007738A (ko) * 2008-07-14 2010-01-22 한국전자통신연구원 음성/오디오 통합 신호의 부호화/복호화 장치
EP2146344B1 (en) * 2008-07-17 2016-07-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding/decoding scheme having a switchable bypass
KR101414305B1 (ko) * 2009-10-20 2014-07-02 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 저 지연 애플리케이션들에서 사용하기 위한 오디오 신호 인코더, 오디오 신호 디코더, 오디오 콘텐츠의 인코딩된 표현을 제공하는 방법, 오디오 콘텐츠의 디코딩된 표현을 제공하는 방법 및 컴퓨터 프로그램
EP4358082A1 (en) * 2009-10-20 2024-04-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio signal encoder, audio signal decoder, method for encoding or decoding an audio signal using an aliasing-cancellation
CA2778240C (en) * 2009-10-20 2016-09-06 Fraunhofer Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Multi-mode audio codec and celp coding adapted therefore
TWI488177B (zh) * 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 使用頻譜域雜訊整形之基於線性預測的編碼方案

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5974374A (en) 1997-01-21 1999-10-26 Nec Corporation Voice coding/decoding system including short and long term predictive filters for outputting a predetermined signal as a voice signal in a silence period
WO2003090209A1 (en) 2002-04-22 2003-10-30 Nokia Corporation Method and device for obtaining parameters for parametric speech coding of frames
WO2008071353A2 (en) * 2006-12-12 2008-06-19 Fraunhofer-Gesellschaft Zur Förderung Der Angewandten Forschung E.V: Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream
WO2008071353A3 (en) 2006-12-12 2008-08-21 Fraunhofer Ges Forschung Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream

Also Published As

Publication number Publication date
MY156654A (en) 2016-03-15
AU2009267394B2 (en) 2012-10-18
PL2311034T3 (pl) 2016-04-29
EP2311034B1 (en) 2015-11-04
CN102105930A (zh) 2011-06-22
KR20110052622A (ko) 2011-05-18
BR122021009252B1 (pt) 2022-03-03
JP5369180B2 (ja) 2013-12-18
MX2011000369A (es) 2011-07-29
TWI441168B (zh) 2014-06-11
BRPI0910784B1 (pt) 2022-02-15
WO2010003663A1 (en) 2010-01-14
US20110173008A1 (en) 2011-07-14
AU2009267394A1 (en) 2010-01-14
BR122021009256B1 (pt) 2022-03-03
CA2730315A1 (en) 2010-01-14
JP2011527459A (ja) 2011-10-27
BRPI0910784A2 (pt) 2021-04-20
ES2558229T3 (es) 2016-02-02
TW201009815A (en) 2010-03-01
EP2311034A1 (en) 2011-04-20
ZA201100090B (en) 2011-10-26
CA2730315C (en) 2014-12-16
RU2498419C2 (ru) 2013-11-10
CN102105930B (zh) 2012-10-03
RU2011104004A (ru) 2012-08-20
CO6351832A2 (es) 2011-12-20
AR072556A1 (es) 2010-09-08
US8751246B2 (en) 2014-06-10
HK1157489A1 (en) 2012-06-29

Similar Documents

Publication Publication Date Title
KR101227729B1 (ko) 샘플 오디오 신호의 프레임을 인코딩하기 위한 오디오 인코더 및 디코더
US8862480B2 (en) Audio encoding/decoding with aliasing switch for domain transforming of adjacent sub-blocks before and subsequent to windowing
EP2591470B1 (en) Coder using forward aliasing cancellation
CA2871372C (en) Audio encoder and decoder for encoding and decoding audio samples
CA2672165A1 (en) Encoder, decoder and methods for encoding and decoding data segments representing a time-domain data stream
US9984696B2 (en) Transition from a transform coding/decoding to a predictive coding/decoding
AU2013200680B2 (en) Audio encoder and decoder for encoding and decoding audio samples

Legal Events

Date Code Title Description
A201 Request for examination
N231 Notification of change of applicant
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20151230

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20170113

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190115

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20200114

Year of fee payment: 8