KR20120125513A - 일반 오디오 및 음성 프레임들을 포함하는 오디오 신호를 위한 인코더 - Google Patents

일반 오디오 및 음성 프레임들을 포함하는 오디오 신호를 위한 인코더 Download PDF

Info

Publication number
KR20120125513A
KR20120125513A KR1020127023129A KR20127023129A KR20120125513A KR 20120125513 A KR20120125513 A KR 20120125513A KR 1020127023129 A KR1020127023129 A KR 1020127023129A KR 20127023129 A KR20127023129 A KR 20127023129A KR 20120125513 A KR20120125513 A KR 20120125513A
Authority
KR
South Korea
Prior art keywords
frame
audio
samples
coded
frames
Prior art date
Application number
KR1020127023129A
Other languages
English (en)
Other versions
KR101430332B1 (ko
Inventor
유다르 미탈
조나단 에이. 깁스
제임스 피. 애슐리
Original Assignee
모토로라 모빌리티 엘엘씨
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 모토로라 모빌리티 엘엘씨 filed Critical 모토로라 모빌리티 엘엘씨
Publication of KR20120125513A publication Critical patent/KR20120125513A/ko
Application granted granted Critical
Publication of KR101430332B1 publication Critical patent/KR101430332B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

오디오 프레임들을 인코딩하기 위한 방법은 프레임들의 시퀀스 내의 제1 오디오 프레임을 코딩함으로써 코딩된 오디오 샘플들의 제1 프레임을 생성하는 단계; 프레임들의 시퀀스 내의 제2 오디오 프레임의 적어도 일부를 코딩함으로써 코딩된 오디오 샘플들의 제2 프레임의 적어도 일부를 생성하는 단계; 및 오디오 갭 필러 샘플들을 생성하기 위한 파라미터들을 생성하는 단계를 포함하고, 여기에서, 파라미터들은 코딩된 오디오 샘플들의 제1 프레임의 가중된 세그먼트 또는 코딩된 오디오 샘플들의 제2 프레임의 일부의 가중된 세그먼트를 나타낸다.

Description

일반 오디오 및 음성 프레임들을 포함하는 오디오 신호를 위한 인코더{ENCODER FOR AUDIO SIGNAL INCLUDING GENERIC AUDIO AND SPEECH FRAMES}
본 개시는 일반적으로는 음성 및 오디오 처리에 관한 것으로, 특히 일반 오디오 및 음성 프레임들을 포함하는 오디오 신호를 처리하기 위한 인코더에 관한 것이다.
다수의 오디오 신호들은 더 음성 유사한 특성들, 또는 음악, 톤들, 배경 잡음, 반향 음성, 등에 더 전형적인 더 일반적인 오디오 특성들을 갖는 것으로서 분류될 수 있다. 음성 신호들을 처리하는데 적합한 소스-필터 모델들에 기초한 코덱들은 일반 오디오 신호들을 그렇게 효율적으로 처리하지 못한다. 그러한 코덱들은 코드 여기된 선형 예측(CELP) 코더들과 같은 선형 예측형 코딩(LPC) 코덱들을 포함한다. 음성 코더들은 음성 신호들을 로우 비트 레이트들로 처리하는 경향이 있다. 반대로, 주파수 도메인 변환 코덱들과 같은 일반 오디오 처리 시스템들은 음성 신호들을 아주 잘 처리하지 못한다. 프레임별 기반으로 오디오 신호가 더 또는 덜 음성 유사한지 여부를 결정하는 분류자 또는 구별자를 제공하고 분류에 기초하여 신호를 음성 코덱 또는 일반 오디오 코덱 중 어느 하나로 지향시키는 것은 공지되어 있다. 상이한 신호 타입들을 처리할 수 있는 오디오 신호 프로세서는 때때로 하이브리드 코어 코덱으로 지칭된다.
그러나, 각각 음성 및 일반 오디오 코덱들을 이용하여 음성 프레임들 및 일반 오디오 프레임들의 처리 사이에서 전이하는 것은 처리된 출력 신호에서 오디오 갭들의 형태로 된 불연속들을 생성하는 것으로 알려져 있다. 그러한 오디오 갭들은 종종 사용자 인터페이스에서 인지가능하고 일반적으로 바람직하지 못하다. 종래 기술 도 1은 출력 프레임들의 시퀀스에서 처리된 음성 프레임과 처리된 일반 오디오 프레임 사이에서 생성된 오디오 갭을 예시하고 있다. 도 1은 또한, 참조번호 102에서, 음성 프레임들 (m-2) 및 (m-1), 이어서 일반 오디오 프레임들 (m) 및 (m+1)로서 분류될 수 있는 입력 프레임들의 시퀀스를 또한 예시하고 있다. 샘플 인덱스 n은 프레임들의 시리즈 내에서 시간 n에서 얻어지는 샘플들에 대응한다. 이러한 그래프의 목적상, n=0의 샘플 인덱스는 프레임 (m)의 최종 샘플이 얻어지는 상대 시간에 대응한다. 여기에서, 프레임 (m)은 총 480개의 샘플들에 대해, 320개의 새로운 샘플들이 누적된 이후에 처리될 수 있고, 이들은 160개의 이전에 누적된 샘플들과 결합된다. 이러한 예에서, 다수의 샘플링 레이트들 및 프레임 크기들이 가능하지만, 샘플링 주파수는 16kHz이고, 대응하는 프레임 크기는 20밀리초이다. 음성 프레임들은 선형 예측형 코딩(LPC) 음성 코딩을 이용하여 처리될 수 있고, 여기에서 LPC 분석 윈도우들은 참조번호 104에서 예시되어 있다. 처리된 음성 프레임 (m-1)은 참조번호 106에 예시되어 있고, 이에 앞서 예시되어 있지 않고 입력 프레임 (m-2)에 대응하는 코딩된 음성 프레임 (m-2)이 선행된다. 도 1은 또한 참조번호 108에서, 중첩되는 코딩된 일반 오디오 프레임들을 예시하고 있다. 일반 오디오 분석/합성 윈도우들은 처리된 일반 오디오 프레임의 진폭 인벨로프에 대응한다. 처리된 프레임들(106 및 108)의 시퀀스는 또한 여기에서 음성 및 일반 오디오 프레임들 각각에 대해 룩-어헤드(look-ahead) 지연 및 오버랩-애드(overlap-add) 지연으로 지칭되는 알고리즘 처리 지연으로 인해 입력 프레임들의 시퀀스(102)에 대해 시간상 오프셋된다. 도 1의 참조번호 108에서 코딩된 일반 오디오 프레임들 (m) 및 (m+1)의 중첩되는 부분들은 참조번호 110에서 대응하는 순차적 처리된 일반 오디오 프레임들 (m) 및 (m+1)에 대해 가산적인 영향을 제공한다. 그러나, 참조번호 108에서의 코딩된 일반 오디오 프레임 (m)의 리딩 테일(leading tail)은, 선행하는 프레임이 코딩된 음성 프레임이므로, 인접하는 일반 오디오 프레임의 트레일링 테일(trailing tail)과 중첩되지 않는다. 그러므로, 참조번호 108에서의 대응하는 처리된 일반 오디오 프레임 (m)의 리딩 부분(leading portion)은 감소된 진폭을 가지고 있다. 코딩된 음성 및 일반 오디오 프레임들의 시퀀스를 결합하는 결과는 참조번호 110에서의 복합 출력 프레임들에 도시된 바와 같이, 처리된 출력 프레임들의 시퀀스에서 처리된 음성 프레임과 처리된 일반 오디오 프레임 사이의 오디오 갭이다.
발명의 명칭이 "Switching Between Coding Schemes"(노키아)인 미국공보 제2006/0173675호는 프레임별 기반으로, 적응형 멀티-레이트 광대역(AMR-WB) 코덱 과, 변형된 이산 코사인 변환(MDCT)을 사용하는 코덱, 예를 들면 MPEG3 코덱 또는 (AAC) 코덱 사이에서, 어느 것이든 가장 적절한 것을 선택함으로써 양쪽 음성 및 음악 모두를 수용하는 하이브리드 코더를 개시하고 있다. 노키아는 에일리어싱(aliasing) 에러의 최소화에 의해 특징지어지는 거의 완전한(near perfect) 재구성 속성을 가지는 특별 MDCT 분석/합성 윈도우를 이용하여, AMR-WB 코덱으로부터 MDCT 기반 코덱으로 스위칭할 때 발생하는 미-삭제된 에일리어싱 에러의 결과로서 발생하는 불연속들의 악 영향을 개선시킨다. 노키아에 의해 개시된 특별 MDCT 분석/합성 윈도우는 음성 프레임을 뒤따르는 제1 입력 음악 프레임에 적용되어 개선된 처리된 음악 프레임을 제공하는 3개의 구성요소의 중첩 사인곡선 기반 윈도우들 H0(n), H1(n), 및 H2(n)을 포함한다. 그러나, 이러한 방법은 H0(n), H1(n), 및 H2(n)에 의해 정의되는 연관된 스펙트럼 영역들의 언더-모델링으로부터 일어나는 신호 불연속들이 쉽게 발생한다. 즉, 가용할 수 있는 제한된 개수의 비트들은, 여전히 이전 음성 프레임의 마지막과 영역 H0(n)의 처음 사이의 거의 완전한 파형 매치를 생성하도록 요구되면서, 3가지 영역들에 걸쳐 분산될 필요가 있다.
본 발명의 다양한 양태들, 특징들 및 장점들은 이하에 기재된 첨부된 도면과 함께 이하의 상세한 설명의 주의깊은 고려 시에 본 기술분야의 통상의 기술자들에게 더 완전하게 명백하게 될 것이다. 도면들은 명료성을 위해 단순화되었고, 반드시 일정한 비율로 그려질 필요는 없다.
종래 기술 도 1은 오디오 갭을 가지는 음성 및 일반 오디오 프레임들의 통상적으로 처리된 시퀀스를 예시하고 있다.
도 2는 하이브리드 음성 및 일반 오디오 신호 코더의 개략적인 블록도이다.
도 3은 하이브리드 음성 및 일반 오디오 신호 디코더의 개략적인 블록도이다.
도 4는 오디오 신호 인코딩 프로세스를 예시하고 있다.
도 5는 비-통상적 코딩 프로세스를 당하는 음성 및 일반 오디오 프레임들의 시퀀스를 예시하고 있다.
도 6은 또 하나의 비-통상적 코딩 프로세스를 당하는 음성 및 일반 오디오 프레임들의 시퀀스를 예시하고 있다.
도 7은 오디오 디코딩 프로세스를 예시하고 있다.
도 2는 일부가 음성 프레임들이고 다른 일부는 덜 음성-유사한 프레임들인 프레임들의 입력 스트림을 코딩하도록 구성된 하이브리드 코어 코더(200)를 예시하고 있다. 덜 음성 유사한 프레임들은 여기에서 일반 오디오 프레임들로 지칭된다. 하이브리드 코어 코덱은 입력 오디오 신호 s(n)의 프레임들을 처리하는 모드 선택기(210)를 포함하고, 여기에서 n은 샘플 인덱스이다. 프레임 길이는 다수의 다른 변동들도 가능하지만, 샘플링 레이트가 20밀리초의 프레임 시간 인터벌에 대응하는 초당 16k 샘플들인 경우에, 오디오의 320개의 샘플들을 포함할 수 있다. 모드 선택기는 입력 프레임들의 시퀀스에서의 하나의 프레임이 각 프레임에 특정된 속성들 또는 특성들의 평가에 기초하여 더 또는 덜 음성-유사한 지 여부를 사정(assess)하도록 구성된다. 오디오 신호 구별 또는 더 일반적으로는 오디오 프레임 분류의 세부사항들은 본 개시의 범주를 벗어나지만, 본 기술분야의 통상의 기술자들에게 공지되어 있다. 모드 선택 코드워드는 멀티플렉서(220)에 제공된다. 코드워드는 프레임별 기반으로, 입력 신호의 대응하는 프레임이 처리되었던 모드를 나타낸다. 그러므로, 예를 들면, 입력 오디오 프레임은 음성 신호 또는 일반 오디오 신호로서 처리될 수 있고, 여기에서 코드워드는 프레임이 처리되었던 방법 및 특히 프레임을 처리하는데 어느 타입의 오디오 코더가 이용되었는지를 나타낸다. 코드워드는 또한 음성로부터 일반 오디오로의 전이 정보를 운반할 수 있다. 전이 정보는 이전 프레임 분류 타입으로부터 함축될 수 있지만, 정보가 송신되는 채널은 손실이 많고, 따라서 이전 프레임 타입에 관한 정보는 가용하지 않을 수 있다.
도 2에서, 코덱은 일반적으로 음성 프레임들을 코딩하는데 적합한 제1 코더(230), 및 일반 오디오 프레임들을 코딩하는데 적합한 제2 코더(240)를 포함한다. 하나의 실시예에서, 음성 코더는 음성 신호들을 처리하는데 적합한 소스-필터 모델에 기초하고 있고, 일반 오디오 코더는 시간 도메인 에일리어싱 제거(TDAC)에 기초한 선형 직교 랩핑된 변환이다. 하나의 구현에서, 음성 코더는 음성 신호들을 처리하는데 적합한 다른 코더들 중에서, 코드 여기된 선형 예측형(CELP) 코더에 전형적인 선형 예측형 코딩(LPC)을 활용할 수 있다. 일반 오디오 코더는 변형된 이산 코사인 변환(MDCT) 코덱, 또는 변형된 이산 사인 변환(MSCT) 또는 상이한 타입들의 이산 코사인 변환(DCT)에 기초한 MDCT의 형태들, 또는 DCT/이산 사인 변환(DST) 결합들로서 구현될 수 있다.
도 2에서, 제1 및 제2 코더들(230 및 240)은 모드 선택기(210)에 의해 선택되거나 결정된 모드에 기초하여 제어되는 선택 스위치(250)에 의해 입력 오디오 신호에 결합된 입력들을 가지고 있다. 예를 들면, 스위치(250)는 프로세서에 의해 모드 선택기의 코드워드 출력에 기초하여 제어될 수 있다. 스위치(250)는 음성 프레임들을 처리하기 위해 음성 코더(230)를 선택하고, 스위치는 일반 오디오 프레임들을 처리하기 위해 일반 오디오 코더를 선택한다. 각 프레임은 선택 스위치(250)에 따라, 단지 하나의 코더, 예를 들면 음성 코더 또는 일반 오디오 코더에 의해 처리될 수 있다. 더 일반적으로는, 단지 2개의 코더들만이 도 2에 예시되어 있지만, 프레임들은 수 개의 상이한 코더들 중 하나에 의해 코딩될 수 있다. 예를 들면, 3개 이상의 코더들 중 하나가 입력 오디오 신호의 특정 프레임을 처리하도록 선택될 수 있다. 그러나, 다른 실시예들에서, 각 프레임은 이하에 더 설명되는 바와 같이, 모든 코더들에 의해 코딩될 수 있다.
도 2에서, 각 코덱은 코더에 의해 처리되는 대응하는 입력 오디오 프레임에 기초하여, 인코딩된 비트스트림 및 대응하는 처리된 프레임을 생성한다. 음성 코더에 의해 생성된 처리된 프레임은
Figure pct00001
에 의해 표시되는 한편, 일반 오디오 코더에 의해 생성된 처리된 프레임은
Figure pct00002
에 의해 표시된다.
도 2에서, 코더들(230 및 240)의 출력 상의 스위치(252)는 선택된 코더의 코딩된 출력을 멀티플렉서(220)에게 결합시킨다. 더 구체적으로는, 스위치는 코더의 인코딩된 비트스트림 출력을 멀티플렉서에게 결합시킨다. 스위치(252)는 또한 모드 선택기(210)에 의해 선택되거나 결정된 모드에 기초하여 제어된다. 예를 들면, 스위치(252)는 모드 선택기의 코드워드 출력에 기초하여 프로세서에 의해 제어될 수 있다. 멀티플렉서는 코드워드를, 코드워드에 기초하여 선택된 대응하는 코더의 인코딩된 비트스트림 출력과 멀티플렉싱한다. 그러므로, 일반 오디오 프레임들에 대해, 스위치(252)는 일반 오디오 코더(240)의 출력을 멀티플렉서(220)에게 결합시키고, 음성 프레임들에 대해, 스위치(252)는 음성 코더(230)의 출력을 멀티플렉서에 결합시킨다. 일반 오디오 프레임 코딩 프로세스가 음성 인코딩 프로세스를 뒤따르는 경우에서, 특별한 "전이 모드" 프레임이 본 개시에 따라 활용된다. 전이 모드 인코더는 일반 오디오 코더(240) 및 오디오 갭 인코더(260)를 포함하고, 그 세부사항들은 이하와 같이 설명된다.
도 4는 하이브리드 오디오 신호 처리 코덱, 예를 들면 도 2의 하이브리드 코덱에서 구현된 코딩 프로세스(400)를 예시하고 있다. 참조번호 410에서, 코딩된 오디오 샘플들의 제1 프레임은 프레임들의 시퀀스에서 제1 오디오 프레임을 코딩함으로써 생성된다. 예로 든 실시예에서, 오디오 샘플들의 제1 코딩된 프레임은 음성 코덱을 이용하여 만들어지거나 생성된 코딩된 음성 프레임이다. 도 5에서, 입력 음성/오디오 프레임 시퀀스(502)는 순차적 음성 프레임들 (m-2) 및 (m-1), 및 후속되는 일반 오디오 프레임 (m)을 포함한다. 음성 프레임들 (m-2) 및 (m-1)은 부분적으로는 LPC 분석 윈도우들에 기초하여 코딩될 수 있고, 양쪽 모두는 참조번호 504에 예시되어 있다. 입력 음성 프레임(m-1)에 대응하는 코딩된 음성 프레임은 참조번호 506에 예시되어 있다. 이러한 프레임 전에는 입력 프레임 (m-2)에 대응하고 예시되지 않은 또 하나의 코딩된 음성 프레임이 선행될 수 있다. 코딩된 음성 프레임들은, LPC "룩-어헤드" 처리 버퍼와 연관된 알고리즘 지연으로부터 기인하는 인터벌, 즉 코딩된 음성 프레임의 마지막(또는 마지막 근처) 주위에 센터링되어 있는 LPC 파라미터들을 추정하는데 요구되는 프레임 앞의 오디오 샘플들만큼 대응하는 입력 프레임들에 대해 지연된다.
도 4에서, 참조번호 420에서, 코딩된 오디오 샘플들의 제2 프레임의 적어도 일부는 프레임들의 시퀀스 내의 제2 오디오 프레임의 적어도 일부를 코딩함으로써 생성된다. 제2 프레임은 제1 프레임에 인접하고 있다. 예로 든 실시예에서, 오디오 샘플들의 제2 코딩된 프레임은 일반 오디오 코덱을 이용하여 만들어지거나 생성된 코딩된 일반 오디오 프레임이다. 도 5에서, 입력 음성/오디오 프레임 시퀀스(502) 내의 프레임 "m"은 참조번호 508에서 예시되어 있는 TDAC 기반 선형 직교 래핑된 변환 분석/합성 윈도우 (m)에 기초하여 코딩되는 일반 오디오 프레임이다. 입력 프레임들(502)의 시퀀스 내의 후속 일반 오디오 프레임 (m+1)은 참조번호 508에 예시되어 있는 중첩되는 분석/합성 윈도우 (m+1)로 코딩된다. 도 5에서, 일반 오디오 분석/합성 윈도우들은 진폭 상, 처리된 일반 오디오 프레임에 대응한다. 도 5의 참조번호 508에서의 분석/합성 윈도우들 (m) 및 (m+1)의 중첩되는 부분들은 입력 프레임 시퀀스의 대응하는 순차적 처리된 일반 오디오 프레임들 (m) 및 (m+1)에 대해 가산적 영향을 제공한다. 그 결과, 입력 프레임 (m)에 대응하는 처리된 일반 오디오 프레임의 트레일링 테일 및 입력 프레임 (m+1)에 대응하는 인접하는 처리된 프레임의 리딩 테일은 감쇄되지 않는다는 것이다.
도 5에서, 일반 오디오 프레임들 (m)은 MDCT 코더를 이용하여 처리되고 이전 음성 프레임 (m-1)은 LPC 코더를 이용하여 처리되었으므로, -480과 -400 사이의 중첩 영역에서의 MDCT 출력은 제로이다. 일반 오디오 프레임 (m)의 모든 320개의 샘플들의 에일리어스 없는 생성을 가지고, 동시에 규칙적인 오디오 프레임의 MDCT 순서와 동일한 순서의 MDCT를 이용하여 후속적인 일반 오디오 프레임 (m+1)의 MDCT 출력과의 오버랩 애드(overlap add)를 위한 일부 샘플들을 생성하는 방법은 알려져 있지 않다. 본 개시의 하나의 양태에 따르면, 이하에 설명되는 바와 같이, 그렇지 않으면 처리된 음성 프레임을 뒤따르는 처리된 일반 오디오 프레임 사이에서 발생하였을 오디오 갭에 대해 보상이 제공된다.
적절한 에일리어스 제거를 보장하기 위해, M 샘플 오버랩-애드 영역 내의 상보형 윈도우들에 의해 이하의 속성들이 나타나야 된다.
Figure pct00003
그리고
Figure pct00004
여기에서, m은 현재 프레임 인덱스이고, n은 현재 프레임 내의 샘플 인덱스이며, wm(n)은 프레임 m에서의 대응하는 분석 및 합성 윈도우이고, M은 연관된 프레임 길이이다. 상기 기준을 만족하는 공통 윈도우 형태는 이하와 같이 주어진다.
Figure pct00005
그러나, 다수의 윈도우 형태들이 이들 조건들을 만족시킬 수 있다는 것은 공지되어 있다. 예를 들면, 본 개시에서, 일반 오디오 코딩 오버랩-애드 프로세스의 알고리즘 지연은 이하와 같이 2M 프레임 구조를 제로-패딩함으로써 감소된다.
Figure pct00006
이것은 단지 3M/2 샘플들, 또는 M=320의 프레임 길이에 대해 480개의 샘플들의 획득 이후에 처리가 시작되도록 허용함으로써 알고리즘 지연을 감소시킨다. 유의할 점은, w(n)이 2M개의 샘플들(50% 오버랩-애드를 가지는 MDCT 구조를 처리하는데 요구됨)에 대해 정의되지만, 단지 480개의 샘플들만이 처리에 필요하다는 점이다.
상기 수학식 1 및 2로 되돌아가면, 이전 프레임 (m-1)이 음성 프레임이었고 현재 프레임 (m)이 일반 오디오 프레임이었다면, 어떠한 오버랩-애드 데이터도 없을 것이고 실질적으로 프레임 (m-1)로부터의 윈도우는 제로가 되거나, wm-1(M+n)=0, 0≤n<M일 것이다. 그러므로, 수학식 1 및 2는 이하와 같이 된다.
Figure pct00007
그리고
Figure pct00008
이들 개정된 수학식들로부터, 수학식 3 및 4의 윈도우 함수는 이들 제한들을 만족시키지 않는다는 것이 명백하고, 사실상 존재하는 수학식 5 및 6에 대한 가능한 유일한 솔루션은 인터벌 M/2≤n<M에 대해 이하와 같다.
Figure pct00009
그리고
Figure pct00010
그러므로, 적절한 에일리어스 제거를 보장하기 위해, 본 개시에서 음성-대-오디오 프레임 전이 윈도우가 이하와 같이 주어진다.
Figure pct00011
그리고, 프레임 m에 대해 참조번호 508로 도 5에 도시되어 있다. 그리고 나서, "오디오 갭"은 0≤n<M/2에 대응하는 샘플들로서 형성되고, 이는 음성 프레임 (m-1)의 마지막 이후에 발생하며, 강제로 제로가 된다.
도 4에서, 참조번호 430에서, 오디오 갭 필러 샘플들 또는 보상 샘플들을 생성하기 위한 파라미터들이 생성되고, 여기에서 오디오 갭 필러 샘플들은 처리된 음성 프레임과 처리된 일반 오디오 프레임 사이의 오디오 갭을 보상하는데 이용될 수 있다. 이하에 더 설명되는 바와 같이, 파라미터들은 일반적으로 코딩된 비트스트림의 일부로서 멀티플렉싱되고, 나중 이용을 위해 저장되거나 디코더에 통신된다. 도 2에서, 우리는 이들을 "오디오 갭 샘플들 코딩된 비트스트림"이라 부른다. 도 5에서, 오디오 갭 필러 샘플들은 이하에 더 설명되는 바와 같이,
Figure pct00012
에 의해 표시된 코딩된 갭 프레임을 구성한다. 파라미터들은 코딩된 오디오 샘플들의 제1 프레임의 가중된 세그먼트, 및/또는 코딩된 오디오 프레임들의 제2 프레임의 일부의 가중된 세그먼트를 나타낸다. 오디오 갭 필러 샘플들은 일반적으로, 처리된 음성 프레임 및 처리된 일반 오디오 프레임 사이의 갭을 채우는 처리된 오디오 갭 프레임을 구성한다. 파라미터들은 저장되거나 또 다른 디바이스에 통신되어, 이하에 더 설명되는 바와 같이, 처리된 음성 프레임과 처리된 일반 오디오 프레임 사이의 오디오 갭을 채우기 위한 오디오 갭 필러 샘플들, 또는 프레임을 생성하는데 이용된다. 일부 이용 경우들에서 인코더에서 오디오 갭 필러 샘플들을 생성하는 것이 바람직하지만, 인코더가 반드시 오디오 갭 필러 샘플들을 생성하는 것은 아니다.
하나의 실시예에서, 파라미터들은 코딩된 오디오 샘플들의 제1 프레임, 예를 들면 음성 프레임의 가중된 세그먼트에 대한 제1 가중 파라미터 및 제1 인덱스, 및 코딩된 오디오 샘플들의 제2 프레임, 예를 들면 일반 오디오 프레임의 일부의 가중된 세그먼트에 대한 제2 가중 파라미터 및 제2 인덱스를 포함한다. 파라미터들은 일정한 값들 또는 함수들일 수 있다. 하나의 구현에서, 제1 인덱스는 입력 프레임들의 시퀀스의 기준 오디오 갭 샘플로부터 코딩된 오디오 샘플들의 제1 프레임(예를 들면, 코딩된 음성 프레임)의 세그먼트에서의 대응하는 샘플로의 제1 시간 오프셋을 지정하고, 제2 인덱스는 기준 오디오 갭 샘플로부터 코딩된 오디오 샘플들의 제2 프레임(예를 들면, 코딩된 일반 음성 프레임)의 일부의 세그먼트에서의 대응하는 샘플로의 제2 시간 오프셋을 지정한다. 제1 가중 파라미터는 제1 프레임의 인덱싱된 세그먼트의 대응하는 샘플들에 적용되는 제1 이득 인자를 포함한다. 유사하게, 제2 가중 파라미터는 제2 프레임의 일부의 인덱싱된 세그먼트의 대응하는 샘플들에 적용되는 제2 이득 인자를 포함한다. 도 5에서, 제1 오프셋은 T1이고, 제2 오프셋은 T2이다. 또한, 도 5에서, α는 제1 가중 파라미터를 나타내고 β는 제2 가중 파라미터를 나타낸다. 기준 오디오 갭 샘플은 코딩된 음성 프레임과 코딩된 일반 오디오 프레임 사이의 오디오 갭에서의 임의의 로케이션, 예를 들면 제1 또는 최종 로케이션들 또는 그 사이의 샘플이 될 수 있다. 우리는 기준 갭 샘플을 sg(n)으로 지칭하고, 여기에서 n=0, ..., L-1이며, L은 갭 샘플들의 개수이다.
파라미터들은 일반적으로 파라미터들을 이용하여 생성되는 오디오 갭 필러 샘플들, 및 오디오 갭에 대응하는 프레임들의 시퀀스 내의 샘플들의 세트 sg(n) 사이의 왜곡을 감소시키도록 선택되고, 여기에서 샘플들의 세트는 기준 오디오 갭 샘플들의 세트로 지칭된다. 그러므로, 일반적으로, 파라미터들은 입력 프레임들의 시퀀스 내의 기준 오디오 갭 샘플들의 세트의 함수인 왜곡 메트릭에 기초할 수 있다. 하나의 실시예에서, 왜곡 메트릭은 제곱 오차 왜곡 메트릭이다. 또 하나의 실시예에서, 왜곡 메트릭은 가중된 평균 제곱 오차 왜곡 메트릭이다.
하나의 특정 구현에서, 제1 인덱스는 코딩된 오디오 샘플들의 제1 프레임의 세그먼트와, 프레임들의 시퀀스 내의 기준 오디오 갭 샘플들의 세그먼트 사이의 상관에 기초하여 결정된다. 제2 인덱스는 또한 코딩된 오디오 샘플들의 제2 프레임의 일부의 세그먼트와, 기준 오디오 갭 샘플들의 세그먼트 사이의 상관에 기초하여 결정된다. 도 5에서, 제1 오프셋 및 가중된 세그먼트
Figure pct00013
은 참조번호 506에서 프레임들의 시퀀스(502) 내의 기준 갭 샘플들의 세트
Figure pct00014
와, 코딩된 음성 프레임과 상관시킴으로써 결정된다. 유사하게, 제2 오프셋 및 가중된 세그먼트
Figure pct00015
는 참조번호 508에서 프레임들의 시퀀스(502) 내의 샘플들의 세트 sg(n)와 코딩된 일반 오디오 프레임을 상관시킴으로써 결정된다. 그러므로, 일반적으로, 오디오 갭 필러 샘플들은 지정된 파라미터들, 및 코딩된 오디오 샘플들의 제1 및/또는 제2 프레임들에 기초하여 생성된다. 그러한 코딩된 오디오 갭 필러 샘플들을 포함하는 코딩된 갭 프레임
Figure pct00016
은 도 5에서 참조번호 510으로 예시되어 있다. 하나의 실시예에서, 파라미터들이 코딩된 오디오 샘플들의 제1 및 제2 프레임들의 가중된 세그먼트 양쪽 모두를 나타내는 경우에, 코딩된 갭 프레임의 오디오 갭 필러 샘플들은
Figure pct00017
에 의해 표현된다. 코딩된 갭 프레임 샘플들
Figure pct00018
은 코딩된 일반 오디오 프레임 (m)과 결합되어, 도 5에서 참조번호 512에 예시된 바와 같이 코딩된 음성 프레임 (m-1)과 비교적 연속적인 전이를 제공할 수 있다.
오디오 갭 필러 샘플들과 연관된 파라미터들을 결정하기 위한 세부사항들은 아래에 설명된다. sg는 갭 영역을 표현하는 길이 L=80의 입력 벡터라고 하자. 갭 영역은 이전 프레임 (m-1)의 음성 프레임 출력
Figure pct00019
및 현재 프레임 (m)의 일반 오디오 프레임 출력
Figure pct00020
의 일부로부터 추정
Figure pct00021
를 생성함으로써 코딩된다.
Figure pct00022
Figure pct00023
의 T번째 과거 샘플로부터 시작하는 길이 L의 벡터라고 하고,
Figure pct00024
Figure pct00025
의 T번째 미래 샘플로부터 시작되는 길이 L의 벡터라고 하자(도 5 참조). 그러면, 벡터
Figure pct00026
는 이하와 같이 얻어질 수 있다.
Figure pct00027
여기에서, T1, T2, α 및 β는 sg
Figure pct00028
사이의 왜곡을 최소화시키도록 얻어진다. T1 및 T2는 정수의 값으로 되어 있고, 여기에서 160≤T1≤260이며, 0≤T2≤80이다. 그러므로, T1 및 T2에 대한 결합들의 전체 개수는 101 x 81 = 8181 <8192이고, 따라서 이들은 13 비트들을 이용하여 결합되어 코딩될 수 있다. 6비트 스칼라 양자화기는 파라미터들 α 및 β의 각각을 코딩하는데 이용된다. 갭은 25 비트들을 이용하여 코딩된다.
이들 파라미터들을 결정하기 위한 방법은 이하와 같이 주어진다. 가중된 평균 제곱 오차 왜곡은 우선 이하에 의해 주어진다.
Figure pct00029
여기에서, W는 최적 파라미터들을 구하는데 이용되는 가중 매트릭스이고, T는 벡터 전치(transpose)를 나타낸다. W는 양의 정부호 매트릭스이고 양호하게는 대각 매트릭스이다. W가 단위 매트릭스인 경우, 왜곡은 평균 제곱된 왜곡이다.
이제, 우리는 수학식 11의 다양한 항들 사이의 자기 및 교차 상관을 이하와 같이 정의할 수 있다.
Figure pct00030
Figure pct00031
Figure pct00032
Figure pct00033
그리고
Figure pct00034
이들로부터, 우리는 이하를 추가로 정의할 수 있다.
Figure pct00035
Figure pct00036
Figure pct00037
수학식 10에서 왜곡을 최소화시키는 T1 및 T2의 값들은 이하를 최대화시키는 T1 및 T2의 값들이다.
Figure pct00038
이제, T* 1 및 T* 2를 수학식 20을 최대화시키는 최적 값들이라고 하면, 수학식 10의 계수들 α 및 β는 이하와 같이 얻어진다.
Figure pct00039
그리고
Figure pct00040
α 및 β의 값들은 6 비트 스칼라 양자화기들을 이용하여 후속적으로 양자화된다. T1 및 T2의 일부 값들에 대해, 수학식 20의 디터미넌트(determinant) δ가 제로인 거의 가능성없는 경우에, 수학식 20의 수식은 이하와 같이 평가된다.
Figure pct00041
또는,
Figure pct00042
양쪽 Rss 및 Raa가 모두 제로인 경우, S는 매우 작은 값으로 설정된다.
T1 및 T2에 대한 결합 완결 검색 방법(joint exhaustive search method)이 상기 설명되었다. 결합(joint) 검색은 일반적으로 복잡하지만, 다양한 비교적 낮은 복잡성 접근법들이 이러한 검색에 채택될 수 있다. 예를 들면, T1 및 T2에 대한 검색은 우선 1보다 큰 인자에 의해 데시메이팅(decimate)될 수 있고, 그리고나서 검색이 로컬화될 수 있다. 순차적 검색이 또한 이용될 수 있고, 여기에서 처음에 Rga=0으로 가정하여 T1의 몇몇 최적 값들이 얻어지고, 그리고나서 T2는 T1의 이들 값들에 걸쳐서만 검색된다.
상기 설명된 바와 같이 순차적 검색을 이용하는 것은 또한 제1 가중된 세그먼트
Figure pct00043
또는 제2 가중된 세그먼트
Figure pct00044
Figure pct00045
로 표현되는 코더 오디오 갭 필러 샘플들을 구성하는데 이용될 수 있는 경우를 발생시킨다. 즉, 하나의 실시예에서, 가중된 세그먼트들에 대한 단지 하나의 파라미터들의 세트가 생성되고 디코더에 의해 이용되어 오디오 갭 필러 샘플들을 재구성하는 것이 가능하다. 또한, 나머지에 대해 하나의 가중된 세그먼트가 일관되게 유리한 실시예들이 존재할 수 있다. 그러한 경우들에서, 왜곡은 가중된 세그먼트들 중 단지 하나만을 고려함으로써 감소될 수 있다.
도 6에서, 입력 음성 및 오디오 프레임 시퀀스(602), LPC 음성 분석 윈도우(604), 및 코딩된 갭 프레임(610)은 도 5와 동일하다. 하나의 실시예에서, 코딩된 음성 프레임의 트레일링 테일은 도 6의 참조번호 606에 예시된 바와 같이 테이퍼링되고, 코딩된 갭 프레임의 리딩 테일은 참조번호 612에 예시된 바와 같이 테이퍼링된다. 또 하나의 실시예에서, 코딩된 일반 오디오 프레임의 리딩 테일은 도 6의 참조번호 608에 예시된 바와 같이 테이퍼링되고, 코딩된 갭 프레임의 트레일링 테일은 참조번호 612에 예시된 바와 같이 테이퍼링된다. 시간-도메인 불연속들과 관련된 아티팩트들은 코딩된 갭 프레임의 양쪽 리딩 및 트레일링 테일들 모두가 테이퍼링되는 경우에 가장 효율적으로 감소될 가능성이 있다. 그러나, 일부 실시예들에서, 이하에 더 설명되는 바와 같이, 코딩된 갭 프레임의 리딩 테일 또는 트레일링 테일만을 테이퍼링하는 것이 유리할 수 있다. 다른 실시예에서, 어떠한 테이퍼링도 없다. 도 6에서, 참조번호 614에서, 출력 음성 프레임 (m-1)과 일반 프레임 (m)의 결합은 테이퍼링된 테일들을 가지는 코딩된 갭 프레임을 포함한다.
하나의 구현에서, 도 5를 참조하면, 참조번호 502에서의 일반 오디오 프레임 (m)의 모든 샘플들이 참조번호 508에서의 일반 오디오 분석/합성 윈도우에 포함되는 것은 아니다. 하나의 실시예에서, 참조번호 502에서의 일반 오디오 프레임 (m)의 제1 L개의 샘플들은 일반 오디오 분석/합성 윈도우로부터 제외된다. 제외되는 샘플들의 개수는 일반적으로 처리된 일반 오디오 프레임에 대한 인벨로프를 형성하는 일반 오디오 분석/합성 윈도우의 특성에 좌우된다. 하나의 실시예에서, 제외되는 샘플들의 개수는 80과 동일하다. 다른 실시예들에서, 더 적거나 더 많은 개수의 샘플들이 제외될 수 있다. 본 예에서, MDCT 윈도우의 남아있는 비-제로 영역의 길이는 규칙적인 오디오 프레임들에서 MDCT 윈도우의 길이보다 작은 L이다. 일반 오디오 프레임의 윈도우의 길이는 프레임의 길이 및 룩-어헤드(look-ahead) 길이의 합과 동일하다. 하나의 실시예에서, 전이 프레임의 길이는 규칙적인 오디오 프레임들에 대한 480 대신에 320-80+160=400이다.
오디오 코더가 어떠한 손실도 없이 현재 프레임의 모든 샘플들을 생성하는 경우에, 좌측 엔드가 직사각형 형태를 가지는 윈도우가 바람직하다. 그러나, 직사각형 형태를 가지는 윈도우를 이용하는 것은 결과적으로 고 주파수 MDCT 계수들에서 더 많은 에너지로 나타날 수 있고, 이는 상당한 손실없이 제한된 개수의 비트들을 이용하여 코딩하는 것이 더 어려울 수 있다. 그러므로, 적절한 주파수 응답을 가지기 위해, 스무드 전이(좌측에 M1=50 샘플 사인 윈도우 및 우측에서 M/2 샘플들 코사인 윈도우를 가짐)를 가지는 윈도우가 이용된다. 이것은 이하와 같이 기재된다.
Figure pct00046
본 예에서, 80+M1샘플들의 갭은 이전에 설명된 것에 대한 대안 방법을 이용하여 코딩된다. 50개 샘플들의 전이 영역을 가지는 스무드 윈도우가 직사각형 또는 스텝 윈도우 대신에 이용되므로, 대안 방법을 이용하여 코딩될 갭 영역은 M1=50 샘플들에 의해 확장되고, 그럼으로써 갭 영역의 길이를 130개의 샘플들로 만든다. 상기 설명된 동일한 포워드/백워드 예측 접근법은 이들 130개의 샘플들을 생성하는데 이용된다.
가중된 평균 제곱 방법들은 통상적으로 저 주파수 신호들에 양호하고 고 주파수 신호들의 에너지를 감소시키는 경향이 있다. 이러한 효과를 줄이기 위해, 신호들
Figure pct00047
Figure pct00048
는 상기 수학식 10에서
Figure pct00049
를 생성하기 이전에 제1차 사전-강조 필터(사전-강조 필터 계수 = 0.1)를 통해 통과될 수 있다.
오디오 모드 출력
Figure pct00050
는 지연 T2에 대해,
Figure pct00051
Figure pct00052
의 테이퍼링 영역과 중첩하도록, 테이퍼링 분석 및 합성 윈도우, 및 따라서
Figure pct00053
를 가질 수 있다. 그러한 상황들에서, 갭 영역 sg
Figure pct00054
와 매우 양호한 상관을 갖지 않을 수도 있다. 그러한 경우에,
Figure pct00055
를 등화기 윈도우 E와 승산하여 등화된 오디오 신호를 얻는 것이 바람직할 수 있다.
Figure pct00056
Figure pct00057
를 이용하는 대신에, 이제 이러한 등화된 오디오 신호가 수학식 10, 및 수학식 10에 뒤따르는 설명에 이용될 수 있다.
갭 프레임의 코딩에 이용되는 포워드/백워드 추정 방법은 일반적으로 갭 신호에 대한 양호한 매치를 생성하지만, 이는 종종 양쪽 엔드 포인트들에서, 즉 갭 영역과 일반 오디오 코딩된 부분 사이의 경계뿐만 아니라 음성 부분과 갭 영역들의 경계에서(도 5 참조)도 불연속들로 나타난다. 그러므로, 일부 실시예들에서, 음성 부분과 갭 부분의 경계에서 불연속의 효과를 감소시키기 위해, 우선 음성 부분의 출력이 예를 들면 15개의 샘플들만큼 확장된다. 확장된 음성는 정상적인 경우에 송신 동안에 손실된 프레임들을 재구성하는데 이용되는 음성 코더에서의 프레임 에러 완화 처리를 이용하여 여기를 확장시킴으로써 얻어질 수 있다. 이러한 확장된 음성 부분은
Figure pct00058
의 제1 15개의 샘플들과 오버랩 애드되어(사다리꼴의) 음성 부분 및 갭의 경계에서 스무딩된 전이를 얻는다.
음성 대 오디오 스위칭 프레임의 갭과 MDCT 출력의 경계에서의 스무딩된 전이를 위해,
Figure pct00059
의 최종 50개의 샘플들은 우선 (1-w2 m(n))에 의해 승산된 후
Figure pct00060
의 제1 50개의 샘플들에 부가된다.
도 3은 인코딩된 비트스트림, 예를 들면 도 2의 코더(200)에 의해 인코딩된 결합된 비트스트림을 디코딩하도록 구성된 하이브리드 코어 디코더(300)를 예시하고 있다. 일부 구현들에서, 가장 통상적으로는, 도 2의 코더(200) 및 도 3의 디코더(300)가 결합되어 코덱을 형성한다. 다른 구현들에서, 코더 및 디코더는 분리되어 실시되거나 구현될 수 있다. 도 3에서, 디멀티플렉서는 결합된 비트스트림의 구성하는 요소들을 분리한다. 비트스트림은 통신 채널을 통해, 예를 들면 무선 또는 유선-라인 채널을 통해 또 하나의 실체로부터 수신될 수 있거나, 또는 비트스트림은 디코더에 액세스가능하거나 이에 의해 액세스가능한 저장 매체로부터 얻어질 수 있다. 도 3에서, 결합된 비트스트림은 코드워드, 및 음성 및 일반 오디오 프레임들을 포함하는 코딩된 오디오 프레임들의 시퀀스로 분리된다. 코드워드는 프레임별로, 시퀀스의 특정 프레임이 음성(SP) 프레임인지 또는 일반 오디오(GA) 프레임인지 여부를 나타낸다. 전이 정보가 이전 프레임 분류 타입으로부터 함축될 수 있지만, 정보가 송신되는 채널은 손실이 많고 따라서 이전 프레임 타입에 관한 정보는 신뢰할 수 없거나 가용하지는 않을 수 있다. 그러므로, 일부 실시예들에서, 코드워드는 또한 음성로부터 일반 오디오로의 전이에 관한 정보를 운반할 수도 있다.
도 3에서, 디코더는 일반적으로 음성 프레임들을 코딩하는데 적합한 제1 디코더(320), 및 일반 오디오 프레임들을 디코딩하는데 적합한 제2 코더(330)를 포함한다. 하나의 실시예에서, 음성 디코더는 디코딩 음성 신호들을 처리하기에 적합한 소스-필터 모델 디코더에 기초하고 있고, 일반 오디오 디코더는 상기 설명된 바와 같이 일반 오디오 신호들을 디코딩하는데 적합한 시간 도메인 에일리어싱 제거(TDAC)에 기초한 선형 직교 랩핑된 변환 디코더이다. 더 일반적으로는, 음성 및 일반 오디오 디코더들의 구성은 코더의 것을 상보해야 한다.
도 3에서, 주어딘 오디오 프레임에 대해, 제1 및 제2 디코더들(320 및 330) 중 하나는 코드워드 또는 다른 수단에 기초하여 제어되는 선택 스위치(340)에 의해 디멀티플렉서의 출력에 결합되는 입력들을 가지고 있다. 예를 들면, 스위치는 모드 선택기의 코드워드 출력에 기초하여 프로세서에 의해 제어될 수 있다. 스위치(340)는 디멀티플렉서에 의한 오디오 프레임 타입 출력에 따라, 음성 프레임들을 처리하기 위한 음성 디코더(320), 및 일반 오디오 프레임들을 처리하기 위한 일반 오디오 디코더(330)를 선택한다. 각 프레임은 일반적으로 선택 스위치(340)에 따라, 단지 하나의 코더, 예를 들면 음성 코더 또는 일반 오디오 코더 중 어느 하나에 의해 처리된다. 그러나, 다르게는, 각 프레임을 양쪽 디코더들에 의해 디코딩한 이후에 선택이 발생할 수 있다. 더 일반적으로는, 단지 2개의 디코더들만이 도 3에 예시되어 있지만, 프레임들은 수개의 디코더들 중 하나에 의해 디코딩될 수 있다.
도 7은 하이브리드 오디오 신호 처리 코덱 또는 도 3의 적어도 하이브리드 디코더 부분에서 구현되는 디코딩 프로세스(700)를 예시하고 있다. 프로세스는 또한 이하에 더 설명되는 바와 같이 오디오 갭 필러 샘플들의 생성을 포함한다. 도 7에서, 참조번호 710에서, 코딩된 오디오 샘플들의 제1 프레임이 생성되고, 참조번호 720에서, 코딩된 오디오 샘플들의 제2 프레임의 적어도 일부가 생성된다. 도 3에서, 예를 들면, 디멀티플렉서(310)로부터의 비트스트림 출력이 코딩된 음성 프레임 및 코딩된 일반 오디오 프레임을 포함하는 경우에, 코딩된 샘플들의 제1 프레임은 음성 디코더(320)를 이용하여 생성되고, 코딩된 오디오 샘플들의 제2 프레임의 적어도 일부는 일반 오디오 디코더(330)를 이용하여 생성된다. 상기 설명된 바와 같이, 오디오 갭은 종종 코딩된 오디오 샘플들의 제1 프레임과, 코딩된 오디오 샘플들의 제2 프레임의 일부 사이에 형성되어, 결과적으로 사용자 인터페이스에서 바람직하지 못한 잡음으로 나타난다.
참조번호 730에서, 오디오 갭 필러 샘플들은 코딩된 오디오 샘플들의 제1 프레임의 가중된 세그먼트 및/또는 코딩된 오디오 샘플들의 제2 프레임의 일부의 가중된 세그먼트를 나타내는 파라미터들에 기초하여 생성된다. 도 3에서, 오디오 갭 샘플 디코더(350)는 파라미터들에 기초하여, 디코더(320)에 의해 생성된 처리된 음성 프레임
Figure pct00061
및/또는 일반 오디오 디코더(330)에 의해 생성된 처리된 일반 오디오 프레임
Figure pct00062
으로부터 오디오 갭 필러 샘플들
Figure pct00063
을 생성한다. 파라미터들은 코딩된 비트스트림의 일부로서 오디오 갭 디코더(350)에 통신된다. 파라미터들은 일반적으로 생성된 오디오 갭 샘플들 및 상기 설명된 기준 오디오 갭 샘플들의 세트 사이의 왜곡을 감소시킨다. 하나의 실시예에서, 파라미터들은 코딩된 오디오 샘플들의 제1 프레임의 가중된 세그먼트에 대한 제1 가중 파라미터 및 제1 인덱스, 및 코딩된 오디오 샘플들의 제2 프레임의 일부의 가중된 세그먼트에 대한 제2 가중 파라미터 및 제2 인덱스를 포함한다. 제1 인덱스는 오디오 갭 필러 샘플로부터, 코딩된 오디오 샘플들의 제1 프레임의 세그먼트에서의 대응하는 샘플까지의 제1 시간 오프셋을 지정하고, 제2 기준은 오디오 갭 필러 샘플로부터, 코딩된 오디오 샘플들의 제2 프레임의 일부의 세그먼트에서의 대응하는 샘플까지의 제2 시간 오프셋을 지정한다.
도 3에서, 오디오 갭 디코더(350)에 의해 생성된 오디오 필러 갭 샘플들은 오디오 갭 샘플들
Figure pct00064
을, 일반 오디오 디코더(330)에 의해 생성된 코딩된 오디오 샘플들
Figure pct00065
의 제2 프레임과 결합하는 시퀀서(360)에 통신된다. 시퀀서는 일반적으로 적어도 오디오 갭 필러 샘플들, 및 코딩된 오디오 샘플들의 제2 프레임의 일부를 포함하는 샘플의 시퀀스를 형성한다. 하나의 특정 구현에서, 시퀀스는 또한 코딩된 오디오 샘플들의 제1 프레임을 포함하고, 여기에서 오디오 갭 필러 샘플들은 코딩된 오디오 샘플들의 제1 프레임과, 코딩된 오디오 샘플들의 제2 프레임의 일부 사이의 오디오 갭을 적어도 부분적으로 채운다.
오디오 갭 프레임은 코딩된 오디오 샘플들의 제1 프레임과, 코딩된 오디오 샘플의 제2 프레임의 일부 사이의 오디오 갭의 적어도 일부를 채움으로써, 사용자에 의해 감지될 수 있는 임의의 가청 잡음을 제거하거나 적어도 감소시킨다. 스위치(370)는 디코딩된 프레임들이 출력 시퀀스에서 재결합되도록, 코드워드에 기초하여 음성 디코더(320) 또는 결합기(360)의 출력 중 어느 하나를 선택한다.
본 개시 및 그 최상의 모드들이 소유권을 확립하고 본 기술분야의 통상의 기술자들이 이를 만들고 이용할 수 있는 방식으로 설명되었지만, 여기에 개시된 예로 든 실시예들에 대한 등가물들이 있고 예로 든 실시예들에 의해서가 아니라 첨부된 청구항들에 의해 제한되어야 되는 본 발명들의 범주 및 사상에서 벗어나지 않고서도, 변형들 및 변동들이 만들어질 수 있다는 것은 이해할만하고 자명하다 할 것이다.

Claims (15)

  1. 오디오 프레임들을 인코딩하기 위한 방법으로서,
    제1 코딩 방법을 이용하여, 프레임들의 시퀀스 내의 제1 오디오 프레임을 코딩함으로써, 코딩된 오디오 샘플들의 제1 프레임을 생성하는 단계;
    제2 코딩 방법을 이용하여, 상기 프레임들의 시퀀스 내의 제2 오디오 프레임의 적어도 일부를 코딩함으로써, 코딩된 오디오 샘플들의 제2 프레임의 적어도 일부를 생성하는 단계; 및
    오디오 갭 필러 샘플들을 생성하기 위한 파라미터들을 생성하는 단계
    를 포함하고,
    상기 파라미터들은 상기 코딩된 오디오 샘플들의 제1 프레임의 가중된 세그먼트 또는 상기 코딩된 오디오 샘플들의 제2 프레임의 일부의 가중된 세그먼트를 나타내는 방법.
  2. 제1항에 있어서, 상기 생성된 오디오 갭 필러 샘플들과 상기 프레임들의 시퀀스 내의 기준 오디오 갭 샘플들의 세트 사이의 왜곡을 감소시키는 파라미터들을 선택함으로써 상기 파라미터들을 생성하는 단계를 포함하는 방법.
  3. 제1항에 있어서,
    상기 코딩된 오디오 샘플들의 제1 프레임과 상기 코딩된 오디오 샘플들의 제2 프레임의 일부가 결합된 경우에, 상기 코딩된 오디오 샘플들의 제1 프레임과 상기 코딩된 오디오 샘플들의 제2 프레임의 일부 사이에 오디오 갭이 형성되고,
    상기 방법은,
    상기 파라미터들에 기초하여 상기 오디오 갭 필러 샘플들을 생성하는 단계, 및
    상기 오디오 갭 필러 샘플들, 및 상기 코딩된 오디오 샘플들의 제2 프레임의 일부를 포함하는 시퀀스를 형성하는 단계를 더 포함하며,
    상기 오디오 갭 필러 샘플들은 상기 오디오 갭을 채우는 방법.
  4. 제1항에 있어서,
    상기 코딩된 오디오 샘플들의 제1 프레임의 가중된 세그먼트는 상기 코딩된 오디오 샘플들의 제1 프레임의 가중된 세그먼트에 대한 제1 가중 파라미터 및 제1 인덱스를 포함하고,
    상기 코딩된 오디오 샘플들의 제2 프레임의 일부의 가중된 세그먼트는 상기 코딩된 오디오 샘플들의 제2 프레임의 일부의 가중된 세그먼트에 대한 제2 가중 파라미터 및 제2 인덱스를 포함하는 방법.
  5. 제4항에 있어서,
    상기 제1 인덱스는 상기 프레임들의 시퀀스 내의 기준 오디오 갭 샘플로부터 상기 코딩된 오디오 샘플들의 제1 프레임 내의 대응하는 샘플까지의 제1 시간 오프셋을 지정하고,
    상기 제2 인덱스는 상기 기준 오디오 갭 샘플로부터 상기 코딩된 오디오 샘플들의 제2 프레임의 일부 내의 대응하는 샘플까지의 제2 시간 오프셋을 지정하는 방법.
  6. 제4항에 있어서,
    상기 코딩된 오디오 샘플들의 제1 프레임의 세그먼트와 상기 프레임들의 시퀀스 내의 기준 오디오 갭 샘플들의 세그먼트 사이의 상관에 기초하여 상기 제1 인덱스를 결정하는 단계, 및
    상기 코딩된 오디오 샘플들의 제2 프레임의 일부의 세그먼트와 상기 기준 오디오 갭 샘플들의 세그먼트 사이의 상관에 기초하여 상기 제2 인덱스를 결정하는 단계
    를 포함하는 방법.
  7. 제1항에 있어서,
    상기 오디오 갭 필러 샘플들을 생성하기 위한 파라미터들을 생성하는 단계를 포함하고,
    상기 파라미터들은 상기 코딩된 오디오 샘플들의 제1 프레임의 가중된 세그먼트, 및 상기 코딩된 오디오 샘플들의 제2 프레임의 일부의 가중된 세그먼트 양쪽 모두를 나타내는 방법.
  8. 제7항에 있어서, 상기 파라미터들은 이하의 수학식에 기초하고 있고,
    Figure pct00066

    여기에서, α는 상기 코딩된 오디오 샘플들의 제1 프레임의 세그먼트
    Figure pct00067
    의 제1 가중 인자이고, β는 상기 코딩된 오디오 샘플들의 제2 프레임의 일부의 세그먼트
    Figure pct00068
    에 대한 제2 가중 인자이며,
    Figure pct00069
    는 상기 오디오 갭 필러 샘플들을 나타내는 방법.
  9. 제8항에 있어서, 상기 프레임들의 시퀀스 내의 기준 오디오 갭 샘플들의 세트의 함수인 왜곡 메트릭에 기초하여 상기 파라미터들을 생성하는 단계를 포함하고, 상기 왜곡 메트릭은 제곱 오차 왜곡 메트릭(squared error distortion metric)인 방법.
  10. 제8항에 있어서, 기준 오디오 갭 샘플들의 세트의 함수인 왜곡 메트릭에 기초하여 상기 파라미터들을 생성하는 단계를 포함하고,
    상기 왜곡 메트릭은 이하의 수학식에 기초하며,
    Figure pct00070

    여기에서 sg는 상기 기준 오디오 갭 샘플들의 세트를 나타내는 방법.
  11. 제8항에 있어서,
    상기 프레임들의 시퀀스를 수신하는 단계를 더 포함하고,
    상기 제1 프레임은 상기 제2 프레임에 인접하며, 상기 제1 프레임은 상기 제2 프레임에 선행하고,
    상기 코딩된 오디오 샘플들의 제2 프레임의 일부는 일반 오디오 코딩 방법을 이용하여 생성되며, 상기 코딩된 오디오 샘플들의 제1 프레임은 음성 코딩 방법을 이용하여 생성되는 방법.
  12. 제1항에 있어서, 기준 오디오 갭 샘플들의 세트의 함수인 왜곡 메트릭에 기초하여 상기 파라미터들을 생성하는 단계를 포함하는 방법.
  13. 제1항에 있어서, 일반 오디오 코딩 방법을 이용하여 상기 코딩된 오디오 샘플들의 제2 프레임의 일부를 생성하는 단계를 포함하는 방법.
  14. 제13항에 있어서, 음성 코딩 방법을 이용하여 상기 코딩된 오디오 샘플들의 제1 프레임을 생성하는 단계를 포함하는 방법.
  15. 제1항에 있어서, 상기 프레임들의 시퀀스를 수신하는 단계를 더 포함하고, 상기 제1 프레임은 상기 제2 프레임에 인접하며, 상기 제1 프레임은 상기 제2 프레임에 선행하는 방법.
KR1020127023129A 2010-03-05 2011-03-01 일반 오디오 및 음성 프레임들을 포함하는 오디오 신호를 위한 인코더 KR101430332B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
IN218/KOL/2010 2010-03-05
IN217KO2010 2010-03-05
PCT/US2011/026640 WO2011109361A1 (en) 2010-03-05 2011-03-01 Encoder for audio signal including generic audio and speech frames

Publications (2)

Publication Number Publication Date
KR20120125513A true KR20120125513A (ko) 2012-11-15
KR101430332B1 KR101430332B1 (ko) 2014-08-13

Family

ID=44278589

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020127023129A KR101430332B1 (ko) 2010-03-05 2011-03-01 일반 오디오 및 음성 프레임들을 포함하는 오디오 신호를 위한 인코더

Country Status (8)

Country Link
US (1) US8423355B2 (ko)
EP (1) EP2543036B1 (ko)
KR (1) KR101430332B1 (ko)
CN (1) CN102834862B (ko)
BR (2) BR112012022444A2 (ko)
CA (1) CA2789297C (ko)
DK (1) DK2543036T3 (ko)
WO (1) WO2011109361A1 (ko)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7461106B2 (en) 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
US8576096B2 (en) * 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8175888B2 (en) 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
KR101137652B1 (ko) * 2009-10-14 2012-04-23 광운대학교 산학협력단 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법
WO2012086485A1 (ja) * 2010-12-20 2012-06-28 株式会社ニコン 音声制御装置および撮像装置
US9942593B2 (en) * 2011-02-10 2018-04-10 Intel Corporation Producing decoded audio at graphics engine of host processing platform
SG185519A1 (en) 2011-02-14 2012-12-28 Fraunhofer Ges Forschung Information signal representation using lapped transform
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
SG192721A1 (en) * 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion
ES2529025T3 (es) 2011-02-14 2015-02-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para procesar una señal de audio decodificada en un dominio espectral
CA2827000C (en) 2011-02-14 2016-04-05 Jeremie Lecomte Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
MX2013009304A (es) 2011-02-14 2013-10-03 Fraunhofer Ges Forschung Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad.
ES2639646T3 (es) 2011-02-14 2017-10-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación y decodificación de posiciones de impulso de pistas de una señal de audio
TWI488177B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 使用頻譜域雜訊整形之基於線性預測的編碼方案
CA2827335C (en) 2011-02-14 2016-08-30 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Audio codec using noise synthesis during inactive phases
US9037456B2 (en) 2011-07-26 2015-05-19 Google Technology Holdings LLC Method and apparatus for audio coding and decoding
US9043201B2 (en) 2012-01-03 2015-05-26 Google Technology Holdings LLC Method and apparatus for processing audio frames to transition between different codecs
US9065576B2 (en) * 2012-04-18 2015-06-23 2236008 Ontario Inc. System, apparatus and method for transmitting continuous audio data
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
DK2922053T3 (da) * 2012-11-15 2019-09-23 Ntt Docomo Inc Lydkodningsindretning, lydkodningsfremgangsmåde, lydkodningsprogram, lydafkodningsindretning, lydafkodningsfremgangsmåde og lydafkodningsprogram
KR102037691B1 (ko) * 2013-02-05 2019-10-29 텔레폰악티에볼라겟엘엠에릭슨(펍) 오디오 프레임 손실 은폐
RU2625444C2 (ru) 2013-04-05 2017-07-13 Долби Интернэшнл Аб Система обработки аудио
RU2639952C2 (ru) * 2013-08-28 2017-12-25 Долби Лабораторис Лайсэнзин Корпорейшн Гибридное усиление речи с кодированием формы сигнала и параметрическим кодированием
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980796A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for processing an audio signal, audio decoder, and audio encoder
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
FR3024582A1 (fr) * 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
US9595269B2 (en) * 2015-01-19 2017-03-14 Qualcomm Incorporated Scaling for gain shape circuitry
EP3483879A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation

Family Cites Families (79)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4560977A (en) * 1982-06-11 1985-12-24 Mitsubishi Denki Kabushiki Kaisha Vector quantizer
US4670851A (en) * 1984-01-09 1987-06-02 Mitsubishi Denki Kabushiki Kaisha Vector quantizer
US4727354A (en) * 1987-01-07 1988-02-23 Unisys Corporation System for selecting best fit vector code in vector quantization encoding
JP2527351B2 (ja) * 1987-02-25 1996-08-21 富士写真フイルム株式会社 画像デ―タの圧縮方法
US5067152A (en) * 1989-01-30 1991-11-19 Information Technologies Research, Inc. Method and apparatus for vector quantization
EP0419752B1 (en) * 1989-09-25 1995-05-10 Rai Radiotelevisione Italiana System for encoding and transmitting video signals comprising motion vectors
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
WO1993018505A1 (en) * 1992-03-02 1993-09-16 The Walt Disney Company Voice transformation system
JP3137805B2 (ja) * 1993-05-21 2001-02-26 三菱電機株式会社 音声符号化装置、音声復号化装置、音声後処理装置及びこれらの方法
IT1281001B1 (it) 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US6263312B1 (en) * 1997-10-03 2001-07-17 Alaris, Inc. Audio compression and decompression employing subband decomposition of residual signal and distortion reduction
DE69926821T2 (de) 1998-01-22 2007-12-06 Deutsche Telekom Ag Verfahren zur signalgesteuerten Schaltung zwischen verschiedenen Audiokodierungssystemen
US6253185B1 (en) * 1998-02-25 2001-06-26 Lucent Technologies Inc. Multiple description transform coding of audio using optimal transforms of arbitrary dimension
US6904174B1 (en) * 1998-12-11 2005-06-07 Intel Corporation Simplified predictive video encoder
US6480822B2 (en) * 1998-08-24 2002-11-12 Conexant Systems, Inc. Low complexity random codebook structure
JP4249821B2 (ja) * 1998-08-31 2009-04-08 富士通株式会社 ディジタルオーディオ再生装置
US6704705B1 (en) * 1998-09-04 2004-03-09 Nortel Networks Limited Perceptual audio coding
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
AU4201100A (en) * 1999-04-05 2000-10-23 Hughes Electronics Corporation Spectral phase modeling of the prototype waveform components for a frequency domain interpolative speech codec system
US6691092B1 (en) * 1999-04-05 2004-02-10 Hughes Electronics Corporation Voicing measure as an estimate of signal periodicity for a frequency domain interpolative speech codec system
US6236960B1 (en) * 1999-08-06 2001-05-22 Motorola, Inc. Factorial packing method and apparatus for information coding
US6504877B1 (en) * 1999-12-14 2003-01-07 Agere Systems Inc. Successively refinable Trellis-Based Scalar Vector quantizers
JP4149637B2 (ja) * 2000-05-25 2008-09-10 株式会社東芝 半導体装置
US6304196B1 (en) * 2000-10-19 2001-10-16 Integrated Device Technology, Inc. Disparity and transition density control system and method
AUPR105000A0 (en) * 2000-10-27 2000-11-23 Canon Kabushiki Kaisha Method for generating and detecting marks
JP3404024B2 (ja) * 2001-02-27 2003-05-06 三菱電機株式会社 音声符号化方法および音声符号化装置
JP3636094B2 (ja) * 2001-05-07 2005-04-06 ソニー株式会社 信号符号化装置及び方法、並びに信号復号装置及び方法
JP4506039B2 (ja) * 2001-06-15 2010-07-21 ソニー株式会社 符号化装置及び方法、復号装置及び方法、並びに符号化プログラム及び復号プログラム
US6658383B2 (en) * 2001-06-26 2003-12-02 Microsoft Corporation Method for coding speech and music signals
US6662154B2 (en) * 2001-12-12 2003-12-09 Motorola, Inc. Method and system for information signal coding using combinatorial and huffman codes
WO2003073741A2 (en) 2002-02-21 2003-09-04 The Regents Of The University Of California Scalable compression of audio and other signals
EP1483759B1 (en) 2002-03-12 2006-09-06 Nokia Corporation Scalable audio coding
JP3881943B2 (ja) 2002-09-06 2007-02-14 松下電器産業株式会社 音響符号化装置及び音響符号化方法
WO2004034379A2 (en) * 2002-10-11 2004-04-22 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
FR2852172A1 (fr) * 2003-03-04 2004-09-10 France Telecom Procede et dispositif de reconstruction spectrale d'un signal audio
AU2003208517A1 (en) * 2003-03-11 2004-09-30 Nokia Corporation Switching between coding schemes
CN100583241C (zh) 2003-04-30 2010-01-20 松下电器产业株式会社 音频编码设备、音频解码设备、音频编码方法和音频解码方法
JP2005005844A (ja) * 2003-06-10 2005-01-06 Hitachi Ltd 計算装置及び符号化処理プログラム
JP4123109B2 (ja) * 2003-08-29 2008-07-23 日本ビクター株式会社 変調装置及び変調方法並びに復調装置及び復調方法
SE527670C2 (sv) 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Naturtrogenhetsoptimerad kodning med variabel ramlängd
US7646875B2 (en) * 2004-04-05 2010-01-12 Koninklijke Philips Electronics N.V. Stereo coding and decoding methods and apparatus thereof
US20060022374A1 (en) * 2004-07-28 2006-02-02 Sun Turn Industrial Co., Ltd. Processing method for making column-shaped foam
US6975253B1 (en) * 2004-08-06 2005-12-13 Analog Devices, Inc. System and method for static Huffman decoding
US7161507B2 (en) * 2004-08-20 2007-01-09 1St Works Corporation Fast, practically optimal entropy coding
US20060047522A1 (en) * 2004-08-26 2006-03-02 Nokia Corporation Method, apparatus and computer program to provide predictor adaptation for advanced audio coding (AAC) system
JP4771674B2 (ja) * 2004-09-02 2011-09-14 パナソニック株式会社 音声符号化装置、音声復号化装置及びこれらの方法
EP1792306B1 (en) * 2004-09-17 2013-03-13 Koninklijke Philips Electronics N.V. Combined audio coding minimizing perceptual distortion
EP1818911B1 (en) 2004-12-27 2012-02-08 Panasonic Corporation Sound coding device and sound coding method
US20060190246A1 (en) * 2005-02-23 2006-08-24 Via Telecom Co., Ltd. Transcoding method for switching between selectable mode voice encoder and an enhanced variable rate CODEC
US7840411B2 (en) * 2005-03-30 2010-11-23 Koninklijke Philips Electronics N.V. Audio encoding and decoding
US7885809B2 (en) * 2005-04-20 2011-02-08 Ntt Docomo, Inc. Quantization of speech and audio coding parameters using partial information on atypical subsequences
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
KR101295729B1 (ko) * 2005-07-22 2013-08-12 프랑스 텔레콤 비트 레이트­규모 가변적 및 대역폭­규모 가변적 오디오디코딩에서 비트 레이트 스위칭 방법
WO2007026763A1 (ja) 2005-08-31 2007-03-08 Matsushita Electric Industrial Co., Ltd. ステレオ符号化装置、ステレオ復号装置、及びステレオ符号化方法
US8069035B2 (en) * 2005-10-14 2011-11-29 Panasonic Corporation Scalable encoding apparatus, scalable decoding apparatus, and methods of them
EP1959431B1 (en) 2005-11-30 2010-06-23 Panasonic Corporation Scalable coding apparatus and scalable coding method
ATE531037T1 (de) * 2006-02-14 2011-11-15 France Telecom Vorrichtung für wahrnehmungsgewichtung bei der tonkodierung/-dekodierung
US20070239294A1 (en) * 2006-03-29 2007-10-11 Andrea Brueckner Hearing instrument having audio feedback capability
US7230550B1 (en) * 2006-05-16 2007-06-12 Motorola, Inc. Low-complexity bit-robust method and system for combining codewords to form a single codeword
US7414549B1 (en) * 2006-08-04 2008-08-19 The Texas A&M University System Wyner-Ziv coding based on TCQ and LDPC codes
US7461106B2 (en) * 2006-09-12 2008-12-02 Motorola, Inc. Apparatus and method for low complexity combinatorial coding of signals
WO2008062990A1 (en) * 2006-11-21 2008-05-29 Samsung Electronics Co., Ltd. Method, medium, and system scalably encoding/decoding audio/speech
WO2008063035A1 (en) 2006-11-24 2008-05-29 Lg Electronics Inc. Method for encoding and decoding object-based audio signal and apparatus thereof
US7761290B2 (en) * 2007-06-15 2010-07-20 Microsoft Corporation Flexible frequency and time partitioning in perceptual transform coding of audio
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8576096B2 (en) * 2007-10-11 2013-11-05 Motorola Mobility Llc Apparatus and method for low complexity combinatorial coding of signals
US8209190B2 (en) * 2007-10-25 2012-06-26 Motorola Mobility, Inc. Method and apparatus for generating an enhancement layer within an audio coding system
US7889103B2 (en) * 2008-03-13 2011-02-15 Motorola Mobility, Inc. Method and apparatus for low complexity combinatorial coding of signals
US20090234642A1 (en) * 2008-03-13 2009-09-17 Motorola, Inc. Method and Apparatus for Low Complexity Combinatorial Coding of Signals
US8639519B2 (en) * 2008-04-09 2014-01-28 Motorola Mobility Llc Method and apparatus for selective signal coding based on core encoder performance
MX2011000369A (es) 2008-07-11 2011-07-29 Ten Forschung Ev Fraunhofer Codificador y decodificador de audio para codificar marcos de señales de audio muestreadas.
US20100088090A1 (en) * 2008-10-08 2010-04-08 Motorola, Inc. Arithmetic encoding for celp speech encoders
US8219408B2 (en) * 2008-12-29 2012-07-10 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8175888B2 (en) * 2008-12-29 2012-05-08 Motorola Mobility, Inc. Enhanced layered gain factor balancing within a multiple-channel audio coding system
US8200496B2 (en) * 2008-12-29 2012-06-12 Motorola Mobility, Inc. Audio signal decoder and method for producing a scaled reconstructed audio signal
US8140342B2 (en) * 2008-12-29 2012-03-20 Motorola Mobility, Inc. Selective scaling mask computation based on peak detection
US8442837B2 (en) * 2009-12-31 2013-05-14 Motorola Mobility Llc Embedded speech and audio coding using a switchable model core

Also Published As

Publication number Publication date
CN102834862B (zh) 2014-12-17
EP2543036A1 (en) 2013-01-09
DK2543036T3 (en) 2018-01-22
KR101430332B1 (ko) 2014-08-13
US20110218797A1 (en) 2011-09-08
CN102834862A (zh) 2012-12-19
US8423355B2 (en) 2013-04-16
EP2543036B1 (en) 2017-12-06
CA2789297A1 (en) 2011-09-09
WO2011109361A1 (en) 2011-09-09
BR112012022446A2 (pt) 2017-11-21
BR112012022444A2 (pt) 2017-10-03
CA2789297C (en) 2016-04-26

Similar Documents

Publication Publication Date Title
KR101430332B1 (ko) 일반 오디오 및 음성 프레임들을 포함하는 오디오 신호를 위한 인코더
KR101455915B1 (ko) 일반 오디오 및 음성 프레임을 포함하는 오디오 신호용 디코더
KR101854296B1 (ko) 시간 도메인 여기 신호를 변형하는 오류 은닉을 사용하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더 및 방법
KR101854297B1 (ko) 시간 도메인 여기 신호를 기초로 하는 오류 은닉을 사용하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더 및 방법
KR101380431B1 (ko) 스위칭가능한 모델 코어를 이용하는 내장된 스피치 및 오디오 코딩
KR101698905B1 (ko) 정렬된 예견 부를 사용하여 오디오 신호를 인코딩하고 디코딩하기 위한 장치 및 방법
JP2010020346A (ja) 音声信号および音楽信号を符号化する方法
JPH08123495A (ja) 広帯域音声復元装置
KR102171293B1 (ko) 음성 부호화 장치, 음성 부호화 방법, 음성 부호화 프로그램, 음성 복호 장치, 음성 복호 방법 및 음성 복호 프로그램
CN113826161A (zh) 用于检测待编解码的声音信号中的起音以及对检测到的起音进行编解码的方法和设备

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170727

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20190725

Year of fee payment: 6