KR100998450B1 - 오디오 코딩을 위한 인코더-보조 프레임 손실 은폐 기술 - Google Patents

오디오 코딩을 위한 인코더-보조 프레임 손실 은폐 기술 Download PDF

Info

Publication number
KR100998450B1
KR100998450B1 KR1020087012437A KR20087012437A KR100998450B1 KR 100998450 B1 KR100998450 B1 KR 100998450B1 KR 1020087012437 A KR1020087012437 A KR 1020087012437A KR 20087012437 A KR20087012437 A KR 20087012437A KR 100998450 B1 KR100998450 B1 KR 100998450B1
Authority
KR
South Korea
Prior art keywords
frame
domain data
frequency domain
sine
subset
Prior art date
Application number
KR1020087012437A
Other languages
English (en)
Other versions
KR20080070026A (ko
Inventor
류상욱
에디 엘 티 초이
사미르 쿠마 굽타
Original Assignee
퀄컴 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 퀄컴 인코포레이티드 filed Critical 퀄컴 인코포레이티드
Publication of KR20080070026A publication Critical patent/KR20080070026A/ko
Application granted granted Critical
Publication of KR100998450B1 publication Critical patent/KR100998450B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)

Abstract

오디오 신호를 디코딩하는 인코더-보조 프레임 손실 은폐 (FLC) 기술이 개시되어 있다. 디코더는, 오디오 신호의 에러 프레임을 폐기할 수도 있으며, 인코더로부터 송신된 사이드 정보 및 이웃하는 프레임들에 기초하여 폐기된 프레임을 정확하게 은폐하기 위해 인코더-보조 FLC 기술을 구현할 수도 있다. 인코더-보조 FLC 기술은, 이웃하는 프레임들의 주파수 도메인 데이터에 기초하여 프레임에 대한 주파수 도메인 데이터의 크기를 추정하고, 사이드 정보로서 인코더로부터 송신된 사인의 서브세트에 기초하여 주파수 도메인 데이터의 사인을 추정하는 것을 포함한다. 오디오 신호의 프레임에 대한 주파수 도메인 데이터는 음조 성분 및 잡음 성분을 포함한다. 랜덤 신호로부터 추정된 사인은 주파수 도메인 데이터의 잡음 성분에 대해 실질적으로 정확할 수도 있다. 그러나, 음조 성분에 대한 매우 정확한 사인 추정을 달성하기 위해, 인코더는 사이드 정보로서 주파수 도메인 데이터의 음조 성분에 대한 사인을 송신한다.
인코더, 디코더, 인코더-보조 프레임 손실 은폐 (FLC) 기술, 프레임

Description

오디오 코딩을 위한 인코더-보조 프레임 손실 은폐 기술{ENCODER-ASSISTED FRAME LOSS CONCEALMENT TECHNIQUES FOR AUDIO CODING}
본 출원은 2005년 10월 26일 출원된 미국 가출원 제 60/730,459 호 및 2005년 10월 31일 출원된 미국 가출원 제 60/732,012 호의 이점을 주장한다.
기술 분야
본 발명은 오디오 코딩 기술에 관한 것으로, 특히 오디오 코딩을 위한 프레임 손실 은폐 기술에 관한 것이다.
배경
오디오 코딩은, 위성 라디오, 디지털 라디오, 인터넷 스트리밍 (웹 라디오), 디지털 음악 플레이어, 및 다양한 이동 멀티미디어 애플리케이션과 같은 다수의 애플리케이션 및 환경에서 사용된다. 동화상 전문가 그룹 (MPEG) 에 따른 표준, 윈도우즈 미디어 오디오 (WMA), 및 돌비 연구소에 의한 표준과 같은 다수의 오디오 코딩 표준이 존재한다. 애플 컴퓨터사에 의해 판매된 "iPod" 디바이스에서 사용된 고급 오디오 코딩 (AAC) 표준과 같은, MP3 표준 및 MP3 표준에 대한 후속물을 포함하는 다수의 오디오 코딩 표준들이 계속 나타나고 있다. 일반적으로, 오디오 코딩 표준들은, 압축 기술을 사용하여 낮은 비트레이트, 높은 품질의 오디오 코딩의 달성을 추구한다. 일부 오디오 코딩은 "코딩이 오디오 신호를 열화시키지 않는다는 것을 의미하는 "무손실 (loss-less)" 이지만, 다른 오디오 코딩은 추가 압축을 달성하기 위해 어떤 손실을 도입할 수도 있다.
다수의 애플리케이션에서, 비디오 전화 (VT) 또는 스트리밍 비디오와 같은 애플리케이션에 대해 멀티 미디어 컨텐츠를 제공하기 위해 오디오 코딩이 비디오 코딩과 사용된다. 예를 들어, MPEG 에 따른 비디오 코딩 표준들은 종종, 오디오 및 비디오 코딩을 사용한다. 현재, MPEG 표준들은, MPEG-1, MPEG-2 및 MPEG-4 를 포함하지만, 다른 표준들이 나타날 가능성도 있다. 다른 예시적인 비디오 표준들은, 국제 전기통신 연합 (ITU) H.263 표준, ITU H.264 표준, 애플 컴퓨터사에 의해 개발된 QuickTime™ 기술, 마이크로소프트사에 의해 개발된 Video for Windows™, 인텔사에 의해 개발된 Indeo™, RealNetworks, Inc 로부터의 RealVideo™, 및 SuperMac, Inc 에 의해 개발된 Cinepak™ 을 포함한다. 일부 오디오 및 비디오 표준들은 개방형 소스이지만, 다른 것들은 소유권이 있는 상태이다. 다수의 다른 오디오 및 비디오 코딩 표준들이 계속 나타나고 발전할 것이다.
송신된 오디오 신호에서 발생하는 비트스트림 에러는, 가청 인공현상의 도입으로 인해, 디코딩된 오디오 신호에 심각한 영향을 미칠 수도 있다. 이러한 품질 열화를 해결하기 위해, 에러 검출 모듈 및 프레임 손실 은폐 (FLC) 모듈을 포함하는 에러 제어 블록이 디코더에 부가될 수도 있다. 수신된 비트스트림의 프레임에서 에러가 검출되면, 에러 검출 모듈은 에러 프레임에 대한 모든 비트를 폐기한다. 그 후, FLC 모듈은, 지각적으로 심리스 (seamless) 한 사운딩 오디오 신호를 생성하기 위한 시도로, 그 폐기된 프레임을 대체하기 위해 오디오 데이터를 추정한다.
디코더 프레임 손실 은폐를 위한 다양한 기술이 제안되었다. 그러나, 대부분의 FLC 기술은, 은폐된 오디오 신호 품질과 구현 비용 사이의 과도한 트레이드오프로 인해 손상을 받는다. 예를 들어, 폐기된 프레임을 묵음, 잡음, 또는 이전 프레임의 오디오 데이터로 단순히 대체하는 것은, 낮은 계산적 비용이지만 불량한 은폐 성능으로 인해 어떤 과도한 트레이드오프를 나타낸다. 폐기된 프레임을 은폐하기 위한 소스 모델링에 기초하는 고급 기술은, 만족할 만한 은폐 성능을 달성하기 위해 높거나 심지어 엄청난 구현 비용을 요구함으로써 다른 과도함을 초래한다.
요약
일반적으로, 본 발명은 오디오 신호를 디코딩하는 인코더-보조 프레임 손실 은폐 (FLC) 기술에 관한 것이다. 인코더로부터 오디오 신호의 프레임에 대한 오디오 비트스트림을 수신할 때, 디코더는 에러 검출을 수행할 수도 있고, 에러가 검출될 때 프레임을 폐기할 수도 있다. 디코더는, 인코더로부터의 오디오 비트스트림과 송신된 사이드 정보 및 이웃하는 프레임들에 기초하여, 폐기된 프레임을 정확하게 은폐하기 위해 인코더-보조 FLC 기술을 구현할 수도 있다. 인코더-보조 FLC 기술은, 이웃하는 프레임들의 주파수 도메인 데이터에 기초하여 프레임에 대한 주파수 도메인 데이터의 크기를 추정하며, 사이드 정보로서 인코더로부터 송신된 사인 (sign) 의 서브세트에 기초하여 주파수 도메인 데이터의 사인을 추정하는 것을 포함한다. 이러한 방식으로, 인코더-보조 FLC 기술은, 가청 인공현상 의 발생을 감소시킬 수도 있어서 지각적으로 심리스한 사운딩 오디오 신호를 생성할 수도 있다.
오디오 신호의 프레임에 대한 주파수 도메인 데이터는 음조 (tonal) 성분 및 잡음 성분을 포함한다. 랜덤 신호로부터 추정된 사인은 주파수 도메인 데이터의 잡음 성분에 대해 실질적으로 정확할 수도 있다. 그러나, 음조 성분에 대한 매우 정확한 사인 추정을 달성하기 위해, 인코더는 사이드 정보로서 주파수 도메인 데이터의 음조 성분에 대한 사인을 송신한다. 디코더로 송신된 사이드 정보의 양을 최소화시키기 위해, 인코더는 프레임내의 음조 성분의 위치를 송신하지 않는다. 대신, 인코더 및 디코더 양자는 동일한 동작을 사용하여 음조 성분의 위치를 자체 유도한다. 따라서, 인코더-보조 FLC 기술은, 인코더가 최소량의 사이드 정보를 송신하면서, 디코더에서 프레임 은폐 품질의 현저한 개선을 달성한다.
본 명세서에 설명하는 인코더-보조 FLC 기술은 윈도우즈 미디어 오디오 (WMA) 표준, MP3 표준, 및 AAC (고급 오디오 코딩) 표준과 같은 오디오 코딩 표준을 사용하는 멀티미디어 애플리케이션에서 구현될 수도 있다. AAC 표준의 경우에서, 오디오 신호의 프레임의 주파수 도메인 데이터는 변형 이산 코사인 변환 (MDCT) 계수에 의해 표현된다. MDCT 계수 각각은 음조 성분 또는 잡음 성분을 포함한다. 일 프레임은 1024개 MDCT 계수를 포함할 수도 있으며, MDCT 계수 각각은 크기 및 사인을 포함한다. 인코더-보조 FLC 기술은 폐기된 프레임에 대한 MDCT 계수의 크기 및 사인을 개별적으로 추정한다.
일 실시형태에서, 본 발명은 오디오 신호의 프레임을 은폐하는 방법을 제공 한다. 이 방법은, 프레임의 이웃하는 프레임에 기초하여 프레임에 대한 주파수 도메인 데이터의 크기를 추정하는 단계; 사이드 정보로서 인코더로부터 송신된 프레임에 대한 사인의 서브세트에 기초하여 프레임에 대한 주파수 도메인 데이터의 사인을 추정하는 단계; 및 프레임에 대한 주파수 도메인 데이터를 추정하기 위해 크기 추정치와 사인 추정치를 결합하는 단계를 포함한다.
다른 실시형태에서, 본 발명은 오디오 신호의 프레임을 은폐하는 명령들을 포함하는 컴퓨터 판독가능 매체를 제공한다. 이 명령들은, 프로그램가능한 프로세서로 하여금, 프레임의 이웃하는 프레임들에 기초하여 프레임에 대한 주파수 도메인 데이터의 크기를 추정하게 하며, 사이드 정보로서 인코더로부터 송신된 프레임에 대한 사인의 서브세트에 기초하여 프레임에 대한 주파수 도메인 데이터의 사인을 추정하게 한다. 또한, 이 명령들은, 프로그램가능한 프로세서로 하여금, 프레임에 대한 주파수 도메인 데이터를 추정하기 위해 크기 추정치와 사인 추정치를 결합하게 한다.
또 다른 실시형태에서, 본 발명은 사이드 정보로서 프레임에 대한 사인의 서브세트를 송신하는 인코더, 및 그 인코더로부터 프레임에 대한 사이드 정보를 수신하는 FLC 모듈을 포함하는 디코더를 구비하는 오디오 신호의 프레임을 은폐하는 시스템을 제공한다. 디코더내의 FLC 모듈은, 프레임의 이웃하는 프레임들에 기초하여 프레임에 대한 주파수 도메인 데이터의 크기를 추정하고, 수신된 사이드 정보에 기초하여 프레임에 대한 주파수 도메인 데이터의 사인을 추정하며, 프레임에 대한 주파수 도메인 데이터를 추정하기 위해 크기 추정치와 사인 추정치를 결합한다.
또 다른 실시형태에서, 본 발명은 오디오 신호의 프레임에 대한 주파수 도메인 데이터의 성분을 선택하는 성분 선택 모듈, 및 프레임에 대한 주파수 도메인 데이터로부터 선택된 성분에 대한 사인의 서브세트를 추출하는 사인 추출기를 구비하는 인코더를 제공한다. 이 인코더는 프레임에 대한 사인의 서브세트를 사이드 정보로서 디코더로 송신한다.
또 다른 실시형태에서, 본 발명은 프레임의 이웃하는 프레임들에 기초하여 오디오 신호의 프레임에 대한 주파수 도메인 데이터의 크기를 추정하는 크기 추정기, 및 사이드 정보로서 인코더로부터 송신된 프레임에 대한 사인의 서브세트에 기초하여 프레임에 대한 주파수 도메인 데이터의 사인을 추정하는 사인 추정기를 포함하는 FLC 모듈 구비하는 디코더를 제공한다. 이 디코더는 프레임에 대한 주파수 도메인 데이터를 추정하기 위해 크기 추정치와 사인 추정치를 결합한다.
본 명세서에 설명하는 기술은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합에서 구현될 수도 있다. 소프트웨어에서 구현되는 경우에, 이 기술은, 프로그램가능한 프로세서에 의해 실행될 때, 본 명세서에 설명한 방법들 중 하나 이상을 수행하는 명령들을 포함하는 프로그램 코드를 구비한 컴퓨터 판독가능 매체에 의해 부분적으로 실현될 수도 있다.
하나 이상의 실시형태의 상세가 첨부한 도면 및 아래의 상세한 설명에 설명된다. 본 발명의 다른 특징, 목적, 및 이점은 상세한 설명 및 도면, 및 청구범위로부터 명백할 것이다.
도면의 간단한 설명
도 1 은, 인코더-보조 프레임 손실 은폐 (FLC) 기술을 구현하는 오디오 인코더-디코더 (코덱) 를 통합한 오디오 인코딩 및 디코딩 시스템을 예시하는 블록도이다.
도 2 는, 도 1 로부터의 오디오 인코딩 및 디코딩 시스템으로 인코더-보조 프레임 손실 은폐를 수행하는 예시적인 동작을 예시하는 플로우차트이다.
도 3 은, 사이드 정보로서 송신될 프레임에 대한 사인의 서브세트를 생성하는 프레임 손실 은폐 모듈을 포함하는 예시적인 오디오 인코더를 예시하는 블록도이다.
도 4 는, 사이드 정보로서 인코더로부터 수신된 프레임에 대한 사인의 서브세트를 이용하는 프레임 손실 은폐 모듈을 포함하는 예시적인 오디오 디코더를 예시하는 블록도이다.
도 5 는, 사이드 정보로서 오디오 비트스트림과 송신될 프레임에 대한 사인의 서브세트를 생성하고 오디오 비트스트림을 인코딩하는 예시적인 동작을 예시하는 플로우차트이다.
도 6 은, 사이드 정보로서 인코더로부터 수신된 프레임에 대한 사인의 서브세트를 사용하여 프레임 손실 은폐를 수행하고 오디오 비트스트림을 디코딩하는 예시적인 동작을 예시하는 플로우차트이다.
도 7 은, 사이드 정보로서 송신될 프레임에 대한 사인의 서브세트를 생성하는 사인 추출기 및 성분 선택 모듈을 포함하는 또 다른 예시적인 오디오 인코더를 예시하는 블록도이다.
도 8 은, 사이드 정보로서 인코더로부터 수신된 프레임에 대한 사인의 서브세트를 이용하는 프레임 손실 은폐 모듈을 포함하는 또 다른 예시적인 오디오 디코더를 예시하는 블록도이다.
도 9 는, 사이드 정보로서 오디오 비트스트림과 송신될 프레임에 대한 사인의 서브세트를 생성하고 오디오 비트스트림을 인코딩하는 또 다른 예시적인 동작을 예시하는 플로우차트이다.
도 10 은, 사이드 정보로서 인코더로부터 수신된 프레임에 대한 사인의 서브세트를 사용하여 프레임 손실 은폐를 수행하고 오디오 비트스트림을 디코딩하는 또 다른 예시적인 동작을 예시하는 플로우차트이다.
도 11 은, 본 명세서에 설명한 인코더-보조 프레임 손실 은폐 기술의 프레임 손실율과 종래의 프레임 손실 은폐 기술의 프레임 손실율 사이의 품질 비교를 예시하는 도면이다.
상세한 설명
도 1 은, 인코더-보조 프레임 손실 은폐 (FLC) 기술을 구현하는 오디오 인코더-디코더 (코덱) 을 통합한 오디오 인코딩 및 디코딩 시스템 (2) 을 예시하는 블록도이다. 도 1 에 도시되어 있는 바와 같이, 시스템 (2) 은 제 1 통신 디바이스 (3) 및 제 2 통신 디바이스 (4) 를 포함한다. 시스템 (2) 은 또한, 통신 디바이스들 (3 및 4) 을 접속시키는 송신 채널 (5) 을 포함한다. 시스템 (2) 은 송신 채널 (5) 을 통해 통신 디바이스들 (3 및 4) 사이의 2-방향 오디오 데이터 송신을 지원한다.
예시된 실시형태에서, 통신 디바이스 (3) 는 FLC 모듈 (7) 을 갖는 오디오 코덱 (6) 및 멀티플렉싱 (mux)/디멀티플렉싱 (demux) 컴포넌트 (8) 를 포함한다. 통신 디바이스 (4) 는 mux/demux 컴포넌트 (9) 및 FLC 모듈 (11) 을 갖는 오디오 코덱 (10) 을 포함한다. 각각의 오디오 코덱 (6 및 10) 의 FLC 모듈 (7 및 11) 은, 본 명세서에 설명한 인코더-보조 FLC 기술에 따라, 인코더로부터 송신된 사이드 정보 및 이웃하는 프레임들에 기초하여 오디오 신호의 폐기된 프레임을 정확하게 은폐할 수도 있다. 다른 실시형태에서, FLC 모듈 (7 및 11) 은 인코더로부터 송신된 추가 사이드 정보를 이용하여 이웃하는 프레임들에 기초하여 오디오 신호의 다중의 폐기된 프레임을 정확하게 은폐할 수도 있다.
통신 디바이스 (3 및 4) 는 오디오 데이터를 전송 및 수신하도록 구성될 수도 있다. 통신 디바이스 (3 및 4) 는 무선 이동 단말기 또는 유선 단말기로서 구현될 수도 있다. 이 목적을 위해, 통신 디바이스 (3 및 4) 는 적절한 무선 송신기, 수신기, 모뎀, 및 무선 통신을 지원하기 위한 프로세싱 전자장비를 더 포함할 수도 있다. 무선 이동 단말기의 예들로는, 이동 무선 전화, 이동 개인 보조 단말기 (PDA), 이동 컴퓨터, 또는 무선 통신 능력 및 오디오 인코딩 및/또는 디코딩 능력이 장착된 다른 이동 디바이스를 포함한다. 유선 단말기의 예들로는, 데스크탑 컴퓨터, 비디오 전화, 네트워크 기구, 셋탑 박스, 대화형 텔레비전 등을 포함한다.
송신 채널 (5) 은 유선 또는 무선 통신 매체일 수도 있다. 무선 통신에서, 대역폭은, 매우 낮은 비트레이트가 종종 요구되기 때문에 중요한 관심사이다. 특히, 송신 채널 (5) 는 채널 (5) 을 통한 대량의 오디오 데이터의 송신을 매우 문제점으로 만드는 제한된 대역폭을 가질 수도 있다. 예를 들어, 송신 채널 (5) 은, 채널 (5) 에서의 물리적 제약, 또는 가능하게는 송신 채널 (5) 의 제공자에 의해 부과된 대역폭 할당 제약 또는 서비스 품질 (QoS) 제한으로 인해 제한된 대역폭을 갖는 무선 통신 링크일 수도 있다.
각각의 통신 디바이스 (3 및 4) 내의 오디오 코덱 (6 및 10) 각각은 동화상 전문가 그룹 (MPEG) 에 따른 표준, 돌비 연구소에 의한 표준, 윈도우즈 미디어 오디오 (WMA) 표준, MP3 표준, 및 고급 오디오 코딩 (AAC) 표준과 같은 오디오 코딩 표준들에 따라 오디오 데이터를 인코딩 및 디코딩한다. 일반적으로, 오디오 코딩 표준들은 압축 기술을 사용하여 낮은 비트레이트, 고품질 오디오 코딩의 달성을 추구한다. 일부 오디오 코딩은, 코딩이 오디오 신호를 열화시키지 않는 "무손실" 이지만, 다른 오디오 코딩은 추가 압축을 달성하기 위해 어떤 손실을 도입할 수도 있다.
일부 실시형태에서, 통신 디바이스 (3 및 4) 는 또한, 각각의 오디오 코덱 (6 및 10) 과 통합된 비디오 코덱 (미도시) 을 포함할 수도 있으며, 데이터 스트림의 오디오 및 비디오 부분을 처리하기 위한 적절한 mux/demux 컴포넌트 (8 및 9) 를 포함할 수도 있다. mux/demux 컴포넌트 (8 및 9) 는 국제 전기통신 연합 (ITU) H.223 멀티플렉서 프로토콜, 또는 사용자 데이터그램 프로토콜 (UDP) 과 같은 다른 프로토콜에 따를 수도 있다.
오디오 코딩은 비디오 전화 (VT) 또는 스트리밍 비디오와 같은 애플리케이션 에 대해 멀티미디어 컨텐츠를 제공하기 위해 비디오 코딩과 함께 사용될 수도 있다. 예를 들어, MPEG 에 따른 비디오 코딩 표준은 종종 오디오 및 비디오 코딩을 사용한다. MPEG 표준은 현재 MPEG-1, MPEG-2 및 MPEG-4 를 포함하지만, 다른 표준들이 나타날 가능성이 있다. 다른 예시적인 비디오 표준들은, ITU H.263 표준, ITU H.264 표준, 애플 컴퓨터사에 의해 개발된 QuickTime™ 기술, 마이크로소프트사에 의해 개발된 Video for Windows™, 인텔사에 의해 개발된 Indeo™, RealNetworks, Inc 로부터의 RealVideo™, 및 SuperMac, Inc 에 의해 개발된 Cinepak™ 를 포함한다.
예시를 위해, 통신 디바이스 (3 및 4) 각각이 오디오 데이터의 전송자 및 수신자 모두로서 동작할 수 있다고 가정한다. 통신 디바이스 (3) 로부터 통신 디바이스 (4) 로 송신된 오디오 데이터에 대해, 통신 디바이스 (3) 는 전송 디바이스이고, 통신 디바이스 (4) 는 수신 디바이스이다. 이러한 경우에서, 통신 디바이스 (3) 내의 오디오 코덱 (6) 은 인코더로서 동작할 수도 있고, 통신 디바이스 (4) 내의 오디오 코덱 (10) 은 디코더로서 동작할 수도 있다. 반대로, 통신 디바이스 (4) 로부터 통신 디바이스 (3) 로 송신된 오디오 데이터에 대해, 통신 디바이스 (3) 는 수신 디바이스이고, 통신 디바이스 (4) 는 전송 디바이스이다. 이러한 경우에서, 통신 디바이스 (3) 내의 오디오 코덱 (6) 은 디코더로서 동작할 수도 있고, 통신 디바이스 (4) 내의 오디오 코덱 (10) 은 인코더로서 동작할 수도 있다. 또한, 본 명세서에 설명하는 기술은 이러한 오디오 데이터를 전송만 하거나 수신만 하는 디바이스에 적용될 수도 있다.
개시된 기술에 따르면, 수신 디바이스로서 동작하는 통신 디바이스 (4) 는 전송 디바이스로서 동작하는 통신 디바이스 (3) 로부터 오디오 신호의 프레임에 대한 오디오 비트스트림을 수신한다. 통신 디바이스 (4) 내에서 디코더로서 동작하는 오디오 코덱 (10) 은 에러 검출을 수행할 수도 있고, 에러가 검출될 때 프레임을 폐기한다. 오디오 코덱 (10) 은 통신 디바이스 (3) 로부터의 오디오 비트스트림과 함께 송신된 사이드 정보에 기초하여, 폐기된 프레임을 정확하게 은폐하기 위한 인코더-보조 FLC 기술을 구현할 수도 있다. 인코더-보조 FLC 기술은, 이웃하는 프레임들의 주파수 도메인 데이터에 기초하여 프레임에 대한 주파수 도메인 데이터의 크기를 추정하며, 사이드 정보로서 인코더로부터 송신된 사인의 서브세트에 기초하여 주파수 도메인 데이터의 사인을 추정하는 것을 포함한다.
오디오 신호의 프레임에 대한 주파수 도메인 데이터는 음조 성분 및 잡음 성분을 포함한다. 랜덤 신호로부터 추정된 사인은 주파수 도메인 데이터의 잡음 성분에 대해 실질적으로 정확할 수도 있다. 그러나, 음조 성분에 대한 매우 정확한 사인 추정을 달성하기 위해, 인코더는 주파수 도메인 데이터의 음조 성분에 대한 사인을 사이드 정보로서 디코더로 송신한다.
예를 들어, 통신 디바이스 (4) 내에서 디코더로서 동작하는 오디오 코덱 (10) 의 FLC 모듈 (11) 은, 크기 추정기, 성분 선택 모듈, 및 사인 추정기를 포함할 수도 있지만, 이들 컴포넌트는 도 1 에 도시하지 않았다. 크기 추정기는 오디오 신호의 이웃하는 프레임들로부터의 주파수 도메인 데이터를 카피한다. 그 후, 크기 추정기는 폐기된 프레임에 대한 주파수 도메인 데이터의 크기를 추정하기 위해, 카피된 주파수 도메인 데이터의 에너지를 스케일링한다. 성분 선택 모듈은 프레임에 대한 주파수 도메인 데이터의 음조 성분과 잡음 성분 사이를 구별한다. 이러한 방식으로, 성분 선택 모듈은 프레임내의 음조 성분의 위치를 유도한다. 사인 추정기는, 사이드 정보로서 통신 디바이스 (3) 로부터 송신된 프레임에 대한 사인의 서브세트에 기초하여 성분 선택 모듈에 의해 선택된 음조 성분에 대한 사인을 추정하기만 한다. 그 후, 디코더로서 동작하는 오디오 코덱 (10) 은, 음조 성분에 대한 사인 추정치를 대응하는 크기 추정치와 결합한다.
통신 디바이스 (3) 내에서 인코더로서 동작하는 오디오 코덱 (6) 은, 성분 선택 모듈 및 사인 추출기를 포함할 수도 있지만, 이들 컴포넌트는 도 1 에 도시하지 않았다. 성분 선택 모듈은 프레임에 대한 주파수 도메인 데이터의 음조 성분과 잡음 성분 사이를 구별한다. 이러한 방식으로, 성분 선택 모듈은 프레임내의 음조 성분의 위치를 유도한다. 사인 추출기는 성분 선택 모듈에 의해 선택된 음조 성분에 대한 사인의 서브세트를 추출한다. 그 후, 추출된 사인은 사이드 정보로서, 인코딩된 오디오 비트스트림으로 팩킹 (pack) 된다. 예를 들어, 프레임에 대한 사인의 서브세트는 이웃하는 프레임에 대한 오디오 비트스트림에 부착될 수도 있다.
송신 채널 (5) 을 가로질러 송신된 사이드 정보의 양을 최소화시키기 위해, 인코더로서 동작하는 오디오 코덱 (6) 은 음조 성분에 대한 사인의 서브세트와 함께 프레임내의 음조 성분의 위치를 송신하지 않는다. 대신, 오디오 코덱 (6 및 10) 모두는 동일한 동작을 사용하여 음조 성분의 위치를 자체 유도한다. 다시 말해서, 인코더로서 동작하는 오디오 코덱 (6) 은 디코더로서 동작하는 오디오 코덱 (10) 과 동일한 성분 선택 동작을 수행한다. 이러한 방식으로, 인코더-보조 FLC 기술은, 최소량의 사이드 정보가 인코더로부터 송신되면서, 디코더에서 프레임 은폐 품질의 현저한 개선을 달성한다.
AAC 표준을 이용하는 오디오 코덱 (6 및 10) 의 경우에서, 오디오 신호의 프레임의 주파수 도메인 데이터는 변형 이산 코사인 변환 (MDCT) 계수에 의해 표현된다. 일 프레임은 1024개 MDCT 계수를 포함할 수도 있으며, MDCT 계수 각각은 크기 및 사인을 포함한다. MDCT 계수중 일부는 음조 성분을 포함하며, 나머지 MDCT 계수는 잡음 성분을 포함한다. 오디오 코덱 (6 및 10) 은 폐기된 프레임에 대한 MDCT 계수의 크기 및 사인을 개별적으로 추정하기 위해 인코더-보조 FLC 기술을 구현할 수도 있다. 다른 오디오 표준의 경우에서, 다른 형태의 변환 계수가 프레임에 대한 주파수 도메인 데이터를 나타낼 수도 있다. 또한, 프레임은 임의의 수의 계수를 포함할 수도 있다.
도 2 는, 도 1 로부터의 오디오 인코딩 및 디코딩 시스템 (2) 으로 인코더-보조 프레임 손실 은폐를 수행하는 예시적인 동작을 예시하는 플로우차트이다. 예시를 위해, 통신 디바이스 (3) 는 인코더로서 동작하는 오디오 코덱 (6) 을 갖는 전송 디바이스로서 동작하며, 통신 디바이스 (4) 는 디코더로서 동작하는 오디오 코덱 (10) 을 갖는 수신 디바이스로서 동작한다.
통신 디바이스 (3) 는 프레임 (m+1) 에 대한 오디오 신호를 샘플링하며, 통신 디바이스 (3) 내의 오디오 코덱 (6) 은 시간 도메인 데이터를 프레임 (m+1) 에 대한 주파수 도메인 데이터로 변환한다. 그 후, 오디오 코덱 (6) 은 주파수 도메인 데이터를 프레임 (m+1) 에 대한 오디오 비트스트림으로 인코딩한다 (12). 오디오 코덱 (6) 은 프레임 (m) 에 대한 주파수 도메인 데이터를 생성하기 위해 프레임 지연을 수행할 수 있다. 주파수 도메인 데이터는 음조 성분 및 잡음 성분을 포함한다. 오디오 코덱 (6) 은 프레임 (m) 에 대한 주파수 도메인 데이터의 음조 성분에 대한 사인의 서브세트를 추출한다 (13).
일 실시형태에서, 오디오 코덱 (6) 은 추정된 인덱스 서브세트에 기초하여 프레임 (m) 에 대한 주파수 도메인 데이터의 음조 성분에 대한 사인의 서브세트를 추출하기 위해 FLC 모듈 (7) 을 이용한다. 추정된 인덱스 서브세트는 프레임 (m) 에 대한 주파수 도메인 데이터의 추정된 크기로부터 프레임 (m) 내의 음조 성분의 위치를 식별한다. FLC 모듈 (7) 은 크기 추정기, 성분 선택기 모듈, 및 사인 추출기를 포함할 수도 있지만, FLC 모듈 (7) 의 이들 컴포넌트는 도 1 에 도시하지 않았다. 성분 선택 모듈은 크기 추정기로부터의 프레임 (m) 에 대한 주파수 도메인 데이터의 추정된 크기에 기초하여 추정된 인덱스 서브세트를 생성할 수도 있다.
다른 실시형태에서, 오디오 코덱 (6) 은 프레임 (m+1) 에 대한 주파수 도메인 데이터의 크기로부터 프레임 (m+1) 내의 음조 성분의 위치를 식별하는 인덱스 서브세트에 기초하여 프레임 (m) 에 대한 주파수 도메인 데이터의 음조 성분에 대한 사인의 서브세트를 추출한다. 이러한 경우에서, 프레임 (m) 에 대한 인덱스 서브세트가 프레임 (m+1) 에 대한 인덱스 서브세트와 거의 등가이다고 가정한다. 오디오 코덱 (6) 은 성분 선택 모듈 및 사인 추출기를 포함할 수도 있지만, 이들 컴포넌트는 도 1 에 도시하지 않았다. 성분 선택 모듈은 프레임 (m+1) 에 대한 주파수 도메인 데이터의 크기에 기초하여 인덱스 서브세트를 생성할 수도 있다.
오디오 코덱 (6) 은 사이드 정보로서, 프레임 (m+1) 에 대한 오디오 비트스트림에 프레임 (m) 의 음조 성분에 대한 사인의 서브세트를 부착한다. 오디오 코덱 (6) 은 음조 성분의 위치를 프레임 (m+1) 에 대한 오디오 비트스트림에 부착하지 않는다. 대신, 오디오 코덱 (6 및 10) 모두는 동일한 동작을 사용하여 음조 성분의 위치를 자체 유도한다. 이러한 방식으로, 이 기술은 프레임 (m+1) 에 대한 오디오 비트스트림에 부착될 사이드 정보의 양을 최소화시킨다. 그 후, 통신 디바이스 (3) 는 프레임 (m) 에 대한 사인의 서브세트를 포함하는 프레임 (m+1) 에 대한 오디오 비트스트림을 송신 채널 (5) 을 통해 통신 디바이스 (4) 로 송신한다 (14).
통신 디바이스 (4) 는 프레임 (m) 에 대한 오디오 비트스트림을 수신한다 (15). 통신 디바이스 (4) 내의 오디오 코덱 (10) 은 오디오 비트스트림에 대한 에러 검출을 수행하고, 에러가 오디오 비트스트림에서 발견될 때 프레임을 폐기한다 (16). 통신 디바이스 (4) 는 프레임 (m) 의 음조 성분에 대한 사인의 서브세트를 포함하는 프레임 (m+1) 에 대한 오디오 비트스트림을 수신한다 (17). 그 후, 오디오 코덱 (10) 은 통신 디바이스 (3) 로부터 프레임 (m+1) 에 대한 오디오 비트스트림과 함께 송신된 프레임 (m) 의 음조 성분에 대한 사인의 서브세트를 사용함으로써, 폐기된 프레임 (m) 에 대한 프레임 손실 은폐를 수행하기 위해 FLC 모듈 (11) 을 사용한다 (18). FLC 모듈 (11) 은 크기 추정기, 성분 선택 모듈, 및 사인 추정기를 포함할 수도 있지만, FLC 모듈 (11) 의 이들 컴포넌트는 도 1 에 도시하지 않았다.
FLC 모듈 (11) 내의 크기 추정기는 이웃하는 프레임들 (m-1 및 m+1) 에 대한 주파수 도메인 데이터에 기초하여 프레임 (m) 에 대한 주파수 도메인 데이터의 크기를 추정할 수도 있다. 일 실시형태에서, 성분 선택 모듈은 크기 추정기로부터의 프레임 (m) 에 대한 주파수 도메인 데이터의 추정된 크기에 기초하여 프레임 (m) 내의 음조 성분의 위치를 식별하는 추정된 인덱스 서브세트를 생성할 수도 있다. 그 후, 사인 추정기는 프레임 (m) 에 대한 추정된 인덱스 서브세트에 기초하여 프레임 (m) 에 대한 사인의 서브세트로부터 프레임 (m) 내의 음조 성분에 대한 사인을 추정할 수도 있다.
다른 실시형태에서, 성분 선택 모듈은 프레임 (m+1) 에 대한 주파수 도메인 데이터의 크기로부터 프레임 (m+1) 내의 음조 성분의 위치를 식별하는 인덱스 서브세트를 생성할 수도 있다. 이러한 경우에서, 프레임 (m) 에 대한 인덱스 서브세트가 프레임 (m+1) 에 대한 인덱스 서브세트에 거의 등가이다고 가정한다. 그 후, 사인 추정기는 프레임 (m+1) 에 대한 인덱스 서브세트에 기초하여 프레임 (m) 에 대한 사인의 서브세트로부터 프레임 (m) 내의 음조 성분에 대한 사인을 추정한다.
FLC 모듈 (11) 내의 사인 추정기는 랜덤 신호로부터 프레임 (m) 내의 잡음 성분에 대한 사인을 추정할 수도 있다. 그 후, 오디오 코덱 (10) 은 프레임 (m) 에 대한 주파수 도메인 데이터를 추정하기 위해, 음조 성분 및 잡음 성분에 대한 사인 추정치를 대응하는 크기 추정치와 결합한다. 그 후, 오디오 코덱 (10) 은 프레임 (m) 에 대한 추정된 주파수 도메인 데이터를 프레임 (m) 에 대한 오디오 신호의 추정된 시간 도메인 데이터로 디코딩한다 (19).
도 3 은 사이드 정보로서 송신될 프레임에 대한 사인의 서브세트를 생성하는 FLC 모듈 (33) 을 포함하는 예시적인 오디오 인코더 (20) 를 예시하는 블록도이다. 오디오 인코더 (20) 는 도 1 로부터의 각각의 통신 디바이스 (3 및 4) 내의 오디오 코덱 (6 및 10) 과 실질적으로 유사할 수도 있다. 도 3 에 예시된 바와 같이, 오디오 인코더 (20) 는 변환 유닛 (22), 코어 인코더 (24), 제 1 프레임 지연부 (30), 제 2 프레임 지연부 (32), 및 FLC 모듈 (33) 을 포함한다. 예시를 위해, 본 명세서에서는 오디오 인코더 (20) 를, 오디오 신호의 프레임의 주파수 도메인 데이터가 MDCT 계수로 표현되는 AAC 표준에 따르는 것으로서 설명한다. 또한, 변환 유닛 (22) 을 변형 이산 코사인 변환 유닛으로서 설명한다. 다른 실시형태에서, 오디오 인코더 (20) 는 상기 리스트된 임의의 오디오 코딩 표준, 또는 다른 표준을 따를 수도 있다.
본 명세서에서는, 이 기술을 오디오 신호의 프레임 (m) 을 은폐하는 것으로서 설명한다. 프레임 (m+1) 은 오디오 신호의 프레임 (m) 의 직후의 오디오 프레임을 나타낸다. 유사하게, 프레임 (m-1) 은 오디오 신호의 프레임 (m) 의 직전의 오디오 프레임을 나타낸다. 다른 실시형태에서, 인코더-보조 FLC 기술은 프레임 (m) 을 은폐하기 위해 프레임 (m) 의 직전 또는 직후가 아닌 프레임 (m) 의 이웃하는 프레임을 이용할 수도 있다.
변환 유닛 (22) 은 프레임 (m+1) 에 대한 오디오 신호의 샘플 xm +1[n] 을 수신하고, 그 샘플을 계수 Xm +1(k) 로 변환한다. 그 후, 코어 인코더 (24) 는 그 계수를 프레임 (m+1) 에 대한 오디오 비트스트림 (26) 으로 인코딩한다. FLC 모듈 (33) 은, 프레임 (m+1) 에 대한 계수 Xm +1(k) 뿐만 아니라 프레임 (m) 에 대한 계수 Xm(k) 및 프레임 (m-1) 에 대한 계수 Xm -1(k) 를 사용하여, 프레임 (m) 에 대한 계수 Xm(k) 의 음조 성분에 대한 사인 Sm (28) 의 서브세트를 생성한다. FLC 모듈 (33) 은 사이드 정보로서 프레임 (m+1) 에 대한 오디오 비트스트림 (26) 에 사인 Sm (28) 의 서브세트를 부착한다.
FLC 모듈 (33) 은 크기 추정기 (34), 성분 선택 모듈 (36), 사인 추출기 (38) 를 포함한다. 변환 유닛 (22) 은 프레임 (m+1) 에 대한 계수 Xm +1(k) 를 크기 추정기 (34) 및 제 1 프레임 지연부 (30) 로 전송한다. 제 1 프레임 지연부 (30) 는 프레임 (m) 에 대한 계수 Xm(k) 를 생성하여, 프레임 (m) 에 대한 계수를 제 2 프레임 지연부 (32) 로 전송한다. 제 2 프레임 지연부 (32) 는 프레임 (m-1) 에 대한 계수 Xm -1(k) 를 생성하여, 프레임 (m-1) 에 대한 계수를 크기 추정기 (34) 로 전송한다.
크기 추정기 (34) 는 프레임 (m+1 및 m-1) 에 대한 계수에 기초하여 프레임 (m) 에 대한 계수의 크기를 추정한다. 크기 추정기 (34) 는 프레임 (m) 에 대한 계수 크기를 추정하기 위해 다양한 보간 기술중 하나를 구현할 수도 있다. 예를 들어, 크기 추정기 (34) 는 프레임 (m-1) 에 대한 이전의 프레임 계수 Xm -1(k) 및 프레임 (m+1) 에 대한 다음의 프레임 계수 Xm +1(k) 의 에너지에 기초하여 에너지 보간을 구현할 수도 있다. 크기 추정은,
[수학식 1]
Figure 112008036909267-pct00001
와 같이 제공되며, 여기서,
Figure 112008036909267-pct00002
는,
[수학식 2]
Figure 112008036909267-pct00003
에 의해 계산된 에너지 스케일링 팩터이고, 여기서, Bb 는 b번째 스케일팩터 대역에서의 MDCT 계수의 세트이다. 다른 실시형태에서, 크기 추정기 (34) 는 프레임 (m) 의 직전 또는 직후가 아닌 프레임 (m) 의 이웃하는 프레임을 이용하여, 프레임 (m) 에 대한 계수의 크기를 추정할 수도 있다.
그 후, 크기 추정기 (34) 는 프레임 (m) 에 대한 추정된 계수 크기
Figure 112008036909267-pct00004
를 성분 선택 모듈 (36) 로 전송한다. 성분 선택 모듈 (36) 은, 프레임 (m) 에 대한 추정된 계수 크기를 정렬함으로써 프레임 (m) 의 음조 성분과 잡음 성분 사이를 구별한다. 가장 큰 크기 또는 가장 현저한 스펙트럼 피크를 갖는 계수가 음조 성분으로서 고려될 수도 있고, 나머지 계수가 잡음 성분으로 고려될 수도 있다.
선택된 음조 성분의 수는 송신될 사인의 소정의 수에 기초할 수도 있다. 예를 들어, 가장 높은 크기를 갖는 10개의 계수가 프레임 (m) 의 음조 성분으로서 선택될 수도 있다. 다른 경우에서, 성분 선택 모듈 (36) 은 10개 보다 많은 또는 적은 음조 성분을 선택할 수도 있다. 또 다른 경우에서, 프레임 (m) 에 대한 선택된 음조 성분의 수는 오디오 신호에 기초하여 변화할 수도 있다. 예를 들어, 오디오 신호가 오디오 신호의 다른 프레임에서 보다 프레임 (m) 에서 다수의 음조 성분을 포함하는 경우에, 성분 선택 모듈 (36) 은 다른 프레임으로부터 보다는 프레임 (m) 으로부터 다수의 음조 성분을 선택할 수도 있다.
다른 실시형태에서, 성분 선택 모듈 (36) 은 프레임 (m) 의 음조 성분과 잡음 성분 사이를 구별하기 위해 다양한 다른 방식을 사용하여 프레임 (m) 에 대한 추정된 계수 크기로부터 음조 성분을 선택할 수도 있다. 예를 들어, 성분 선택 모듈 (36) 은 일부 음향심리학 원리에 기초하여 계수의 서브세트를 선택할 수도 있다. FLC 모듈 (33) 은 오디오 인코더 (20) 의 복잡도 레벨이 허용하는 만큼 더욱 정확한 성분 구별방식을 이용할 수도 있다.
그 후, 성분 선택 모듈 (36) 은 프레임 (m) 에 대한 추정된 계수 크기로부터 선택된 음조 성분의 위치를 식별하는 추정된 인덱스 서브세트
Figure 112008036909267-pct00005
를 생성한다. 음조 성분은 가장 현저한 크기를 갖는 프레임 (m) 에 대한 계수로서 선택된다. 그러나, 프레임 (m) 에 대한 계수는, 프레임 (m) 의 은폐를 수행할 때 오디오 디코더에 이용가능하지 않다. 따라서, 인덱스 서브세트는 프레임 (m) 에 대한 추정된 계수 크기
Figure 112008036909267-pct00006
에 기초하여 유도되며, 추정된 인덱스 서브세트라 칭한다. 추정된 인덱스 서브세트는,
[수학식 3]
Figure 112008036909267-pct00007
과 같이 제공되며, 여기서, M 은 프레임 (m) 내의 MDCT 계수의 수이고, Thr 은
Figure 112008036909267-pct00008
이도록 결정된 임계값이며, Bm 은 송신될 사인의 수이다. 예를 들어, Bm 은 예시적인 실시형태에서 10개의 사인과 동일할 수도 있다. 다른 실시형태에서, Bm 은 10개 보다 크거나 작을 수도 있다. 또 다른 실시형태에서, Bm 은 프레임 (m) 의 오디오 신호에 기초하여 변화할 수도 있다.
성분 선택 모듈 (36) 은 프레임 (m) 에 대한 추정된 인덱스 서브세트를 사인 추출기 (38) 로 전송한다. 또한, 사인 추출기 (38) 는 제 1 프레임 지연부 (30) 로부터 프레임 (m) 에 대한 계수 Xm(k) 를 수신한다. 그 후, 사인 추출기 (38) 는 추정된 인덱스 서브세트에 의해 식별된 프레임 (m) 에 대한 계수 Xm(k) 로 부터 사인을 추출한다. 예를 들어, 추정된 인덱스 서브세트는 프레임 (m) 에 대한 추정된 계수 크기로부터 선택된 음조 성분을 식별하는 소정의 수, 예를 들어, 10개의 계수 인덱스를 포함한다. 그 후, 사인 추출기 (38) 는 추정된 인덱스 서브세트내의 인덱스와 동일한 인덱스 (k) 를 갖는 프레임 (m) 에 대한 계수 Xm(k) 에 대응하는 사인을 추출한다. 그 후, 사인 추출기 (38) 는 추정된 인덱스 서브세트에 의해 식별된 프레임 (m) 에 대한 음조 성분으로부터 추출된 사인 Sm (28) 의 서브세트를 프레임 (m+1) 에 대한 오디오 비트스트림 (26) 에 부착한다.
성분 선택 모듈 (36) 은 오디오 인코더 (20) 로부터의 송신을 수신하는 오디오 디코더와 동일한 동작을 사용하여 프레임 (m) 내의 음조 성분을 선택한다. 따라서, 프레임 (m) 에 대한 추정된 계수 크기로부터 선택된 음조 성분의 위치를 식별하는 동일한 추정된 인덱스 서브세트
Figure 112008036909267-pct00009
가 오디오 인코더 (20) 및 오디오 디코더 모두에서 생성될 수도 있다. 그 후, 오디오 디코더는 프레임 (m) 의 음조 성분에 대한 사인 Sm (28) 의 서브세트를, 추정된 인덱스 서브세트에 의해 식별된 프레임 (m) 의 적절한 추정된 계수 크기에 적용할 수도 있다. 이러한 방식으로, 오디오 인코더 (20) 가 사인 Sm (28) 의 서브세트와 함께 프레임 (m) 내의 음조 성분의 위치를 송신할 필요가 없기 때문에, 송신된 사이드 정보의 양이 최소화될 수도 있다.
도 4 는, 사이드 정보로서 인코더로부터 수신된 프레임에 대한 사인의 서브 세트를 이용하는 프레임 손실 은폐 모듈 (43) 을 포함하는 예시적인 오디오 디코더 (40) 를 예시하는 블록도이다. 오디오 디코더 (40) 는 도 1 로부터의 각각의 통신 디바이스 (3 및 4) 내의 오디오 코덱 (6 및 10) 과 실질적으로 유사할 수도 있다. 오디오 디코더 (40) 는 도 3 으로부터의 오디오 인코더 (20) 와 실질적으로 유사한 오디오 인코더로부터 오디오 비트스트림을 수신할 수도 있다. 도 4 에 예시된 바와 같이, 오디오 디코더 (40) 는 코어 디코더 (41), 에러 검출 모듈 (42), FLC 모듈 (43) 및 역변환 유닛 (50) 을 포함한다.
예시를 위해, 오디오 디코더 (40) 는 본 명세서에서, 오디오 신호의 프레임의 주파수 도메인 데이터가 MDCT 계수에 의해 표현되는 AAC 표준에 따르는 것으로서 설명될 것이다. 또한, 역변환 유닛 (50) 은 변형 이산 코사인 역변환 유닛으로서 설명될 것이다. 다른 실시형태에서, 오디오 디코더 (40) 는 상기 리스트된 임의의 오디오 코딩 표준을 따를 수도 있다.
코어 디코더 (41) 는 계수 Xm(k) 를 포함하는 프레임 (m) 에 대한 오디오 비트스트림을 수신하며, 프레임 (m) 에 대한 오디오 비트스트림을 에러 검출 모듈 (42) 로 전송한다. 그 후, 에러 검출 모듈 (42) 은 프레임 (m) 에 대한 오디오 비트스트림에 대해 에러 검출을 수행한다. 코어 디코더 (41) 는 사이드 정보로서 프레임 (m) 에 대한 사인 Sm (28) 의 서브세트 및 계수 Xm +1(k) 를 포함하는 프레임 (m+1) 에 대한 오디오 비트스트림 (26) 을 연속적으로 수신한다. 코어 디코더 (41) 는, 폐기되지 않는 경우에, 프레임 (m) 에 대한 계수를 생성하기 위해 제 1 프레임 지연부 (51) 를 사용하며, 프레임 (m+1) 에 대한 오디오 비트스트림으로부터 프레임 (m-1) 에 대한 계수를 생성하기 위해 제 2 프레임 지연부 (52) 를 사용한다. 프레임 (m) 에 대한 계수가 폐기되지 않은 경우에, 제 1 프레임 지연부 (51) 는 프레임 (m) 에 대한 계수를 멀티플렉서 (49) 로 전송한다. 제 2 프레임 지연부 (52) 는 프레임 (m-1) 에 대한 계수를 FLC 모듈 (43) 로 전송한다.
에러가 프레임 (m) 내에서 검출되지 않으면, 에러 검출 모듈 (42) 은, 프레임 (m) 에 대한 오디오 신호 샘플로 변환될 프레임 (m) 에 대한 계수 Xm(k) 를, 멀티플렉서 (49) 가 제 1 프레임 지연부 (51) 로부터 역변환 유닛 (50) 으로 직접 통과시키는 것을 가능하게 할 수도 있다.
에러가 프레임 (m) 내에서 검출되면, 에러 검출 모듈 (42) 은 프레임 (m) 에 대한 모든 계수를 폐기하며, 멀티플렉서 (49) 가 FLC 모듈 (43) 로부터의 프레임 (m) 에 대한 계수 추정치
Figure 112008036909267-pct00010
를 역변환 유닛 (50) 으로 통과시키는 것을 가능하게 할 수 있다. FLC 모듈 (43) 은 코어 디코더 (41) 로부터 프레임 (m+1) 에 대한 계수 Xm +1(k) 를 수신하고, 제 2 프레임 지연부 (52) 로부터 프레임 (m-1) 에 대한 계수 Xm -1(k) 를 수신한다. FLC 모듈 (43) 은 프레임 (m) 에 대한 계수의 크기를 추정하기 위해 프레임 (m+1 및 m-1) 에 대한 계수를 사용한다. 또한, FLC 모듈 (43) 은 프레임 (m) 에 대한 계수의 사인을 추정하기 위해 오디오 인코더 (20) 로부터 프레임 (m+1) 에 대한 오디오 비트스트림 (26) 과 함께 송신된 프레임 (m) 에 대한 사인 Sm (28) 의 서브세트를 사용한다. 그 후, FLC 모듈 (43) 은 프레임 (m) 에 대한 계수를 추정하기 위해 크기 추정치와 사인 추정치를 결합한다. FLC 모듈 (43) 은, 프레임 (m) 에 대한 계수 추정을 프레임 (m) 에 대한 오디오 신호의 추정된 샘플
Figure 112008036909267-pct00011
로 변환시키는 역변환 유닛 (50) 으로 계수 추정치
Figure 112008036909267-pct00012
를 전송한다.
FLC 모듈 (43) 은, 크기 추정기 (44), 성분 선택 모듈 (46), 및 사인 추정기 (48) 를 포함한다. 코어 디코더 (41) 는, 프레임 (m+1) 에 대한 계수 Xm +1(k) 를 크기 추정기 (44) 로 전송하고, 제 2 프레임 지연부 (52) 는 프레임 (m-1) 에 대한 계수 Xm -1(k) 를 크기 추정기 (44) 로 전송한다. 오디오 인코더 (20) 내의 크기 추정기 (34) 와 실질적으로 유사하게, 크기 추정기 (44) 는 프레임 (m+1 및 m-1) 에 대한 계수에 기초하여 프레임 (m) 에 대한 계수의 크기를 추정한다. 크기 추정기 (44) 는 프레임 (m) 에 대한 계수 크기를 추정하기 위해 다양한 보간 기술들 중 하나를 구현할 수도 있다. 예를 들어, 크기 추정기 (44) 는 프레임 (m-1) 에 대한 이전의 프레임 계수 Xm -1(k) 및 프레임 (m+1) 에 대한 다음의 프레임 계수 Xm+1(k) 의 에너지에 기초하여 에너지 보간을 구현할 수도 있다. 크기 추정은 상기 수학식 (1) 에 제공되었다. 다른 실시형태에서, 크기 추정기 (44) 는 프레임 (m) 에 대한 계수의 크기를 추정하기 위해 프레임 (m) 의 직전 또는 직후가 아닌 프레임 (m) 의 이웃하는 프레임을 이용할 수도 있다.
그 후, 크기 추정기 (44) 는 프레임 (m) 에 대한 추정된 계수 크기
Figure 112008036909267-pct00013
를 성분 선택 모듈 (46) 로 전송한다. 성분 선택 모듈 (46) 은 프레임 (m) 에 대한 추정된 계수 크기를 정렬함으로써 프레임 (m) 의 음조 성분과 잡음 성분 사이를 구별한다. 가장 큰 크기 또는 가장 현저한 스펙트럼 피크를 갖는 계수가 음조 성분으로서 고려될 수도 있으며, 나머지 계수가 잡음 성분으로서 고려될 수도 있다. 선택된 음조 성분의 수는 송신될 사인의 소정의 수에 기초할 수도 있다. 다른 경우에서, 프레임 (m) 에 대한 선택된 음조 성분의 수는 오디오 신호에 기초하여 변화할 수도 있다. 그 후, 성분 선택 모듈 (46) 은 프레임 (m) 에 대한 추정된 계수 크기로부터 선택된 음조 성분의 위치를 식별하는 추정된 인덱스 서브세트
Figure 112008036909267-pct00014
를 생성한다. 추정된 인덱스 서브세트는 상기 수학식 (3) 에 제공된다.
성분 선택 모듈 (46) 은, 오디오 비트스트림이 수신되는 오디오 인코더 (20) 내의 성분 선택 모듈 (36) 과 정확히 동일한 동작을 사용하여 프레임 (m) 내의 음조 성분을 선택한다. 따라서, 프레임 (m) 에 대한 추정된 계수 크기로부터 선택된 음조 성분의 위치를 식별하는 동일한 추정된 인덱스 서브세트
Figure 112008036909267-pct00015
가 오디오 인코더 (20) 및 오디오 디코더 (40) 모두에서 생성될 수도 있다. 그 후, 오디오 디코더 (40) 는 프레임 (m) 의 음조 성분에 대한 사인 Sm (28) 의 서브세트를, 추정된 인덱스 서브세트에 의해 식별된 프레임 (m) 의 적절한 추정된 계수 크기에 적용할 수도 있다.
성분 선택 모듈 (46) 은 프레임 (m) 에 대한 추정된 인덱스 서브세트를 사인 추정기 (48) 로 전송한다. 또한, 사인 추정기 (48) 는 오디오 인코더 (20) 로부터 프레임 (m+1) 에 대한 오디오 비트스트림 (26) 과 함께 송신된 프레임 (m) 에 대한 사인 Sm (28) 의 서브세트를 수신한다. 그 후, 사인 추정기 (48) 는 프레임 (m) 에 대한 음조 성분 및 잡음 성분 모두에 대한 사인을 추정한다.
잡음 성분의 경우에서, 사인 추정기 (48) 는 랜덤 신호로부터 사인을 추정한다. 음조 성분의 경우에서, 사인 추정기 (48) 는 추정된 인덱스 서브세트
Figure 112008036909267-pct00016
에 기초하여 사인 Sm (28) 의 서브세트로부터 사인을 추정한다. 예를 들어, 추정된 인덱스 서브세트는 프레임 (m) 에 대한 추정된 계수 크기로부터 선택된 음조 성분을 식별하는 소정의 수, 예를 들어, 10개의 계수 인덱스를 포함한다. 그 후, 사인 추정기 (48) 는, 추정된 인덱스 서브세트내의 인덱스들과 동일한 인덱스들 (k) 을 갖는 사인 Sm (28) 의 서브세트로서 프레임 (m) 의 음조 성분에 대한 사인을 추정한다. 사인 추정치
Figure 112008036909267-pct00017
는,
[수학식 4]
Figure 112008036909267-pct00018
와 같이 제공되며, 여기서, sgn() 은 사인 함수를 나타내고,
Figure 112008036909267-pct00019
은 선택된 음조 성분에 대응하는 계수의 추정된 인덱스 서브세트이며, Sm(k) 는 샘플 스페이스 {-1,1} 을 갖는 랜덤 변수이다.
상술한 바와 같이, 프레임 (m) 의 음조 성분에 대한 사인을 추정하기 위해, 오디오 디코더 (40) 는 프레임 (m) 의 원래 음조 성분의 대응하는 사인 뿐만 아니라 프레임 (m) 내의 음조 성분의 위치를 알 필요가 있다. 이러한 정보를 수신하기 위한 오디오 디코더 (40) 에 대한 단순한 방식은, 증가된 비트 레이트를 이용하여 오디오 인코더 (20) 로부터 오디오 디코더 (40) 로 파라미터 모두를 명시적으로 송신하는 것이다. 예시된 실시형태에서, 추정된 인덱스 서브세트
Figure 112008036909267-pct00020
는 정확히 동일한 유도 프로세스를 사용하여 오디오 인코더 (20) 및 오디오 디코더 (40) 모두에서 자체 유도되는 반면에, 추정된 인덱스 서브세트
Figure 112008036909267-pct00021
에 의해 인덱스된 프레임 (m) 의 음조 성분에 대한 사인은 사이드 정보로서 오디오 인코더 (20) 로부터 송신된다.
그 후, FLC 모듈 (43) 은 프레임 (m) 에 대한 계수를 추정하기 위해 크기 추정기 (44) 로부터의 크기 추정치
Figure 112008036909267-pct00022
와 사인 추정기 (48) 로부터의 사인 추정치 를 결합한다. 프레임 (m) 에 대한 계수 추정치
Figure 112008036909267-pct00024
는,
[수학식 5]
Figure 112008036909267-pct00025
와 같이 제공된다.
그 후, FLC 모듈 (43) 은, 프레임 (m) 에 대한 계수 추정치를 통과시키도록 인에이블된 멀티플렉서 (49) 를 통해 계수 추정치를 역변환 유닛 (50) 으로 전송하고, 이 역변환 유닛은 프레임 (m) 에 대한 계수 추정치를 프레임 (m) 에 대한 오디오 신호의 추정된 샘플
Figure 112008036909267-pct00026
로 변환한다.
도 5 는, 오디오 비트스트림을 인코딩하고, 사이드 정보로서 오디오 비트스트림과 송신될 프레임에 대한 사인의 서브세트를 생성하는 예시적인 동작을 예시하는 플로우차트이다. 본 명세서에서는, 이 동작을 도 3 으로부터의 오디오 인코더 (20) 를 참조하여 설명할 것이다.
변환 유닛 (22) 이 프레임 (m+1) 에 대한 오디오 신호의 샘플 xm +1[n] 을 수신하고, 이 샘플을 프레임 (m+1) 에 대한 계수 Xm +1(k) 로 변환한다 (54). 그 후, 코어 인코더 (24) 가 이 계수를 프레임 (m+1) 에 대한 오디오 비트스트림 (26) 으로 인코딩한다 (56). 변환 유닛 (22) 은 프레임 (m+1) 에 대한 계수 Xm +1(k) 를 크기 추정기 (34) 및 제 1 프레임 지연부 (30) 로 전송한다. 제 1 프레임 지연부 (30) 는 프레임 지연을 수행하고, 프레임 (m) 에 대한 계수 Xm(k) 를 생성한다 (58). 그 후, 제 1 프레임 지연부 (30) 는 프레임 (m) 에 대한 계수를 제 2 프레임 지연부 (32) 로 전송한다. 제 2 프레임 지연부 (32) 는 프레임 지연을 수행하고, 프레임 (m-1) 에 대한 계수 Xm -1(k) 를 생성한다 (60). 그 후, 제 2 프레임 지연부 (32) 는 프레임 (m-1) 에 대한 계수를 크기 추정기 (34) 로 전송한다.
크기 추정기 (34) 는 프레임 (m+1 및 m-1) 에 대한 계수에 기초하여 프레임 (m) 에 대한 계수의 크기를 추정한다 (62). 예를 들어, 크기 추정기 (34) 는 계수 크기를 추정하기 위해 수학식 (1) 에 제공된 에너지 보간 기술을 구현할 수도 있다. 그 후, 크기 추정기 (34) 는 프레임 (m) 에 대한 추정된 계수 크기
Figure 112008036909267-pct00027
를 성분 선택 모듈 (36) 로 전송한다. 성분 선택 모듈 (36) 은 프레임 (m) 에 대한 추정된 계수 크기를 정렬함으로써 프레임 (m) 의 음조 성분과 잡음 성분 사이를 구별한다. 가장 큰 크기를 갖는 계수가 음조 성분으로 고려될 수도 있고, 나머지 계수가 잡음 성분으로 고려될 수도 있다. 선택된 음조 성분의 수는 송신될 사인의 소정의 수에 기초할 수도 있다. 다른 경우에서, 프레임 (m) 에 대한 선택된 음조 성분의 수는 오디오 신호에 기초하여 변화할 수도 있다. 그 후, 성분 선택 모듈 (36) 은 프레임 (m) 에 대한 추정된 계수 크기로부터 선택된 음조 성분의 위치를 식별하는 추정된 인덱스 서브세트
Figure 112008036909267-pct00028
를 생성한다 (64).
성분 선택 모듈 (36) 은 프레임 (m) 에 대한 추정된 인덱스 서브세트를 사인 추출기 (38) 로 전송한다. 또한, 사인 추출기 (38) 는 프레임 (m) 에 대한 계 수 Xm(k) 를 제 1 프레임 지연부 (30) 로부터 수신한다. 그 후, 사인 추출기 (38) 는, 추정된 인덱스 서브세트에 의해 식별된 프레임 (m) 에 대한 계수 Xm(k) 로부터 사인을 추출한다 (66). 그 후, 사인 추출기 (38) 는 추정된 인덱스 서브세트에 의해 식별된 프레임 (m) 에 대한 음조 성분으로부터 추출된 사인 Sm (28) 의 서브세트를 프레임 (m+1) 에 대한 오디오 비트스트림 (26) 에 부착한다 (68).
도 6 은, 사이드 정보로서 인코더로부터 수신된 프레임에 대한 사인의 서브세트를 사용하여 프레임 손실 은폐를 수행하고 오디오 비트스트림을 디코딩하는 예시적인 동작을 예시하는 플로우차트이다. 이 동작은 도 4 로부터의 오디오 디코더 (40) 를 참조하여 본 명세서에서 설명한다.
코어 디코더 (41) 는 계수 Xm(k) 를 포함하는 프레임 (m) 에 대한 오디오 비트스트림을 수신한다 (72). 그 후, 에러 검출 모듈 (42) 은 프레임 (m) 에 대한 오디오 비트스트림에 대해 에러 검출을 수행한다 (74). 코어 디코더 (41) 는 사이드 정보로서 프레임 (m) 에 대한 사인 Sm (28) 의 서브세트 및 계수 Xm(k) 를 포함하는 프레임 (m+1) 에 대한 오디오 비트스트림 (26) 을 연속적으로 수신한다 (75). 코어 디코더 (41) 는 폐기되지 않은 경우에, 프레임 (m) 에 대한 계수를 생성하기 위해 제 1 프레임 지연부 (51) 를 사용하며, 프레임 (m+1) 에 대한 오디오 비트스트림으로부터 프레임 (m-1) 에 대한 계수를 생성하기 위해 제 2 프레임 지연부 (52) 를 사용한다. 프레임 (m) 에 대한 계수가 폐기되지 않은 경우 에, 제 1 프레임 지연부 (51) 는 프레임 (m) 에 대한 계수를 멀티플렉서 (49) 로 전송한다. 제 2 프레임 지연부 (52) 는 프레임 (m-1) 에 대한 계수를 FLC 모듈 (43) 로 전송한다.
에러가 프레임 (m) 내에서 검출되지 않으면, 에러 검출 모듈 (42) 은, 프레임 (m) 에 대한 오디오 신호 샘플로 변환될 프레임 (m) 에 대한 계수를, 멀티플렉서 (49) 가 제 1 프레임 지연부 (51) 로부터 역변환 유닛 (50) 으로 직접 통과시키는 것을 가능하게 할 수도 있다. 에러가 프레임 (m) 내에서 검출되면, 에러 검출 모듈 (42) 은 프레임 (m) 에 대한 모든 계수를 폐기하며, 멀티플렉서 (49) 가 FLC 모듈 (43) 로부터의 프레임 (m) 에 대한 계수 추정치를 역변환 유닛 (50) 으로 통과시키는 것을 가능하게 할 수 있다 (76).
코어 디코더 (41) 는 프레임 (m+1) 에 대한 계수 Xm +1(k) 를 크기 추정기 (44) 로 전송하고, 제 2 프레임 지연부 (52) 는 프레임 (m-1) 에 대한 계수 Xm -1(k) 를 크기 추정기 (44) 로 전송한다. 크기 추정기 (44) 는 프레임 (m+1 및 m-1) 에 대한 계수에 기초하여 프레임 (m) 에 대한 계수의 크기를 추정한다 (78). 예를 들어, 크기 추정기 (44) 는 계수 크기를 추정하기 위해 수학식 (1) 에 제공된 에너지 보간 기술을 구현할 수도 있다. 그 후, 크기 추정기 (44) 는 프레임 (m) 에 대한 추정된 계수 크기
Figure 112008036909267-pct00029
를 성분 선택 모듈 (46) 로 전송한다.
성분 선택 모듈 (46) 은 프레임 (m) 에 대한 추정된 계수 크기를 정렬함으로써 프레임 (m) 의 음조 성분과 잡음 성분 사이를 구별한다. 가장 큰 크기를 갖 는 계수가 음조 성분으로 고려될 수도 있으며, 나머지 계수가 잡음 성분으로 고려될 수도 있다. 선택된 음조 성분의 수는 송신될 사인의 소정의 수에 기초할 수도 있다. 다른 경우에서, 프레임 (m) 에 대한 선택된 음조 성분의 수가 오디오 신호에 기초하여 변화할 수도 있다. 그 후, 성분 선택 모듈 (46) 은 프레임 (m) 에 대한 추정된 계수 크기로부터 선택된 음조 성분의 위치를 식별하는 추정된 인덱스 서브세트
Figure 112008036909267-pct00030
를 생성한다 (80).
성분 선택 모듈 (46) 은, 오디오 비트스트림이 수신되는 오디오 인코더 (20) 내의 성분 선택 모듈 (36) 과 정확히 동일한 동작을 사용하여 프레임 (m) 내에서 음조 성분을 선택한다. 따라서, 프레임 (m) 에 대한 추정된 계수 크기로부터 선택된 음조 성분의 위치를 식별하는 동일한 추정된 인덱스 서브세트
Figure 112008036909267-pct00031
가 오디오 인코더 (20) 및 오디오 디코더 (40) 모두에서 생성될 수도 있다. 그 후, 오디오 디코더 (40) 는 프레임 (m) 의 음조 성분에 대한 사인 Sm (28) 의 서브세트를, 추정된 인덱스 서브세트에 의해 식별된 프레임 (m) 의 적절한 추정된 계수 크기에 적용할 수도 있다.
성분 선택 모듈 (46) 은 프레임 (m) 에 대한 추정된 인덱스 서브세트를 사인 추정기 (48) 로 전송한다. 또한, 사인 추정기 (48) 는 오디오 인코더 (20) 로부터 프레임 (m+1) 에 대한 오디오 비트스트림 (26) 과 함께 송신된 프레임 (m) 에 대한 사인 Sm (28) 의 서브세트를 수신한다. 그 후, 사인 추정기 (48) 는 프레 임 (m) 에 대한 음조 성분과 잡음 성분 모두에 대한 사인을 추정한다. 음조 성분의 경우에서, 사인 추정기 (48) 는 추정된 인덱스 서브세트에 기초하여 프레임 (m) 에 대한 사인 Sm (28) 의 서브세트로부터 사인을 추정한다 (82). 잡음 성분의 경우에서, 사인 추정기 (48) 는 랜덤 신호로부터 사인을 추정한다 (84).
그 후, FLC 모듈 (43) 은 프레임 (m) 에 대한 계수를 추정하기 위해 크기 추정기 (44) 로부터의 크기 추정치
Figure 112008036909267-pct00032
와 사인 추정기 (48) 로부터의 사인 추정치
Figure 112008036909267-pct00033
를 결합한다 (86). FLC 모듈 (43) 은, 프레임 (m) 에 대한 계수 추정을 프레임 (m) 에 대한 오디오 신호의 추정된 샘플
Figure 112008036909267-pct00034
로 변환하는 역변환 유닛 (50) 으로 계수 추정치
Figure 112008036909267-pct00035
를 전송한다 (88).
도 7 은, 사이드 정보로서 송신될 프레임에 대한 사인의 서브세트를 생성하는 사인 추출기 (104) 및 성분 선택 모듈 (102) 을 포함하는 또 다른 예시적 오디오 인코더 (90) 를 예시하는 블록도이다. 오디오 인코더 (90) 는 도 1 로부터의 각각의 통신 디바이스 (3 및 4) 내의 오디오 코덱 (6 및 10) 과 실질적으로 유사할 수도 있다. 도 7 에 예시된 바와 같이, 오디오 인코더 (90) 는 변환 유닛 (92), 코어 인코더 (94), 프레임 지연부 (100), 성분 선택 모듈 (102), 및 사인 추출기 (104) 를 포함한다. 예시를 위해, 오디오 인코더 (90) 를 본 명세서에서는, 오디오 신호의 프레임의 주파수 도메인 데이터가 MDCT 계수에 의해 표현되는 AAC 표준에 따르는 것으로서 설명할 것이다. 또한, 변환 유닛 (92) 을 변형 이 산 코사인 변환 유닛으로서 설명할 것이다. 다른 실시형태에서, 오디오 인코더 (90) 는 상기 리스트된 임의의 오디오 코딩 표준을 따를 수도 있다.
본 명세서에서는 이 기술을 오디오 신호의 프레임 (m) 을 은폐하는 것으로서 설명할 것이다. 프레임 (m+1) 은 오디오 신호의 프레임 (m) 의 직후의 오디오 프레임을 나타낸다. 유사하게, 프레임 (m-1) 은 오디오 신호의 프레임 (m) 의 직전의 오디오 프레임을 나타낸다. 다른 실시형태에서, 인코더-보조 FLC 기술은 프레임 (m) 을 은폐하기 위해 프레임 (m) 의 직전 또는 직후가 아닌 프레임 (m) 의 이웃하는 프레임들을 이용할 수도 있다.
변환 유닛 (92) 은 프레임 (m+1) 에 대한 오디오 신호의 샘플 xm +1[n] 을 수신하고, 그 샘플을 계수 Xm +1(k) 로 변환한다. 그 후, 코어 인코더 (94) 는 그 계수를 프레임 (m+1) 에 대한 오디오 비트스트림 (96) 으로 인코딩한다. 프레임 (m) 에 대한 사인 Sm (98) 의 서브세트를 생성하기 위해, 성분 선택 모듈 (102) 은 프레임 (m+1) 에 대한 계수 Xm +1(k) 를 사용하고, 사인 추출기 (104) 는 프레임 (m) 에 대한 계수 Xm(k) 를 사용한다. 사인 추출기 (104) 는 사인 Sm (98) 의 서브세트를 사이드 정보로서 프레임 (m+1) 에 대한 오디오 비트스트림 (96) 에 부착한다.
더욱 구체적으로, 변환 유닛 (92) 은 프레임 (m+1) 에 대한 계수 Xm +1(k) 를 성분 선택 모듈 (102) 및 프레임 지연부 (100) 로 전송한다. 프레임 지연부 (100) 는 프레임 (m) 에 대한 계수 Xm(k) 를 생성하고, 프레임 (m) 에 대한 계수를 사인 추출기 (104) 로 전송한다. 성분 선택 모듈 (102) 은 프레임 (m+1) 에 대한 계수 크기를 정렬함으로써 프레임 (m+1) 의 음조 성분과 잡음 성분 사이를 구별한다. 가장 큰 크기 또는 가장 현저한 스펙트럼 피크를 갖는 계수가 음조 성분으로 고려될 수도 있으며, 나머지 계수는 잡음 성분으로 고려될 수도 있다.
선택된 음조 성분의 수는 송신될 사인의 소정의 수에 기초할 수도 있다. 예를 들어, 가장 높은 크기를 갖는 10 개의 계수가 프레임 (m+1) 의 음조 성분으로서 선택될 수도 있다. 다른 경우에서, 성분 선택 모듈 (102) 은 10개 보다 많거나 작은 음조 성분을 선택할 수도 있다. 또 다른 경우에서, 프레임 (m+1) 에 대한 선택된 음조 성분의 수는 오디오 신호에 기초하여 변화할 수도 있다. 예를 들어, 오디오 신호가 오디오 신호의 다른 프레임들 보다는 프레임 (m+1) 에서 다수의 음조 성분을 포함하는 경우에, 성분 선택 모듈 (102) 은 다른 프레임들 보다는 프레임 (m+1) 로부터 다수의 음조 성분을 선택할 수도 있다.
다른 실시형태에서, 성분 선택 모듈 (102) 은 프레임 (m+1) 의 음조 성분과 잡음 성분 사이를 구별하기 위해, 다양한 다른 방식을 사용하여 프레임 (m+1) 에 대한 계수 크기로부터 음조 성분을 선택할 수도 있다. 예를 들어, 성분 선택 모듈 (102) 은 일부 음향심리학 원리에 기초하여 계수의 서브세트를 선택할 수도 있다. 오디오 인코더 (90) 는, 오디오 인코더 (90) 의 복잡도 레벨이 허용하는 만큼 더욱 정확한 성분 구별 방식을 이용할 수도 있다.
그 후, 성분 선택 모듈 (102) 은 프레임 (m+1) 에 대한 계수 크기로부터 선택된 음조 성분의 위치를 식별하는 인덱스 서브세트 Im +1 를 생성한다. 음조 성분은 가장 현저한 크기를 갖는 프레임 (m+1) 에 대한 계수로서 선택된다. 프레임 (m+1) 에 대한 계수는, 프레임 (m) 의 은폐를 수행할 때 오디오 디코더에 이용가능하다. 따라서, 인덱스 서브세트가 프레임 (m+1) 에 대한 계수 크기 Xm +1(k) 에 기초하여 유도된다. 인덱스 서브세트는,
[수학식 6]
Figure 112008036909267-pct00036
과 같이 제공되며, 여기서, M 은 프레임 (m+1) 내의 MDCT 계수의 수이고, Thr 은
Figure 112008036909267-pct00037
이도록 결정된 임계값이며, Bm +1 은 송신될 사인의 수이다. 예를 들어, Bm +1 은 10 개의 사인과 동일할 수도 있다. 다른 실시형태에서, Bm+1 은 10 개 보다 크거나 작을 수도 있다. 또 다른 실시형태에서, Bm +1 은 프레임 (m) 의 오디오 신호에 기초하여 변화할 수도 있다.
성분 선택 모듈 (102) 은 프레임 (m+1) 에 대한 인덱스 서브세트를 사인 추출기 (104) 로 전송한다. 또한, 사인 추출기 (104) 는 프레임 지연부 (100) 로부터 프레임 (m) 에 대한 계수 Xm(k) 를 수신한다. 프레임 (m) 에 대한 인덱스 서브세트가 프레임 (m+1) 에 대한 인덱스 서브세트와 거의 동일하다고 가정한다. 그 후, 사인 추출기 (104) 는 프레임 (m+1) 에 대한 인덱스 서브세트에 의해 식별된 프레임 (m) 에 대한 계수 Xm(k) 로부터 사인을 추출한다. 예를 들어, 인덱스 서브세트는, 프레임 (m+1) 에 대한 계수 크기로부터 선택된 음조 성분을 식별하는 소정의 수, 예를 들어, 10개의 계수 인덱스를 포함한다. 그 후, 사인 추출기 (104) 는 프레임 (m+1) 에 대한 인덱스 서브세트내의 인덱스들과 동일한 인덱스들 (k) 을 갖는 프레임 (m) 에 대한 계수 Xm(k) 에 대응하는 사인을 추출한다. 그 후, 사인 추출기 (104) 는 프레임 (m+1) 에 대한 인덱스 서브세트에 의해 식별된 프레임 (m) 에 대한 음조 성분으로부터 추출된 사인 Sm (98) 의 서브세트를 프레임 (m+1) 에 대한 오디오 비트스트림 (96) 에 부착한다.
성분 선택 모듈 (102) 은 오디오 디코더가 오디오 인코더 (90) 로부터의 송신을 수신하는 것과 정확히 동일한 동작을 사용하여 프레임 (m+1) 내의 음조 성분을 선택한다. 따라서, 프레임 (m+1) 에 대한 계수 크기로부터 선택된 음조 성분의 위치를 식별하는 동일한 인덱스 서브세트 Im +1 가 오디오 인코더 (90) 및 오디오 디코더 모두에서 생성될 수도 있다. 그 후, 오디오 디코더는 프레임 (m) 의 음조 성분에 대한 사인 Sm (98) 의 서브세트를 프레임 (m+1) 에 대한 인덱스 서브세트에 의해 식별된 프레임 (m) 의 적절한 추정된 계수 크기에 적용할 수도 있다. 이러한 방식으로, 송신된 사이드 정보의 양은, 오디오 인코더 (90) 가 사인 Sm (98) 의 서브세트와 함께 프레임 (m) 내의 음조 성분의 위치를 송신할 필요가 없기 때문에 최소화될 수도 있다.
도 8 은, 사이드 정보로서 인코더로부터 수신된 프레임에 대한 사인의 서브세트를 이용하는 프레임 손실 은폐 모듈 (113) 을 포함하는 또 다른 예시적 오디오 디코더 (110) 를 예시하는 블록도이다. 오디오 디코더 (110) 는 도 1 로부터의 각각의 통신 디바이스 (3 및 4) 내의 오디오 코덱 (6 및 10) 과 실질적으로 유사할 수도 있다. 오디오 디코더 (110) 는 도 7 로부터의 오디오 인코더 (90) 와 실질적으로 유사한 오디오 인코더로부터 오디오 비트스트림을 수신할 수도 있다. 도 8 에 예시된 바와 같이, 오디오 디코더 (110) 는 코어 디코더 (111), 에러 검출 모듈 (112), FLC 모듈 (113), 및 역변환 유닛 (120) 을 포함한다.
예시를 위해, 오디오 디코더 (110) 를 본 명세서에서는, 오디오 신호의 프레임의 주파수 도메인 데이터가 MDCT 계수에 의해 표현되는 AAC 표준에 따르는 것으로서 설명할 것이다. 또한, 역변환 유닛 (120) 을 변형 이산 코사인 역변환 유닛으로서 설명할 것이다. 다른 실시형태에서, 오디오 디코더 (110) 는 상기 리스트된 임의의 오디오 코딩 표준을 따를 수도 있다.
코어 디코더 (111) 는 계수 Xm(k) 를 포함하는 프레임 (m) 에 대한 오디오 비트스트림을 수신하고, 프레임 (m) 에 대한 오디오 비트스트림을 에러 검출 모듈 (112) 로 전송한다. 그 후, 에러 검출 모듈 (112) 은 프레임 (m) 에 대한 오디오 비트스트림에 대해 에러 검출을 수행한다. 코어 디코더 (111) 는 사이드 정보로서 프레임 (m) 에 대한 사인 Sm (98) 의 서브세트 및 계수 Xm +1(k) 를 포함하는 프레임 (m+1) 에 대한 오디오 비트스트림 (96) 을 연속적으로 수신한다. 코어 디코더 (111) 는 폐기되지 않은 경우에, 프레임 (m) 에 대한 계수를 생성하기 위해 제 1 프레임 지연부 (121) 를 사용하고, 프레임 (m+1) 에 대한 오디오 비트스트림으로부터 프레임 (m-1) 에 대한 계수를 생성하기 위해 제 2 프레임 지연부 (122) 를 사용한다. 프레임 (m) 에 대한 계수가 폐기되지 않은 경우에, 제 1 프레임 지연부 (121) 는 프레임 (m) 에 대한 계수를 멀티플렉서 (119) 로 전송한다. 제 2 프레임 지연부 (122) 는 프레임 (m-1) 에 대한 계수를 FLC 모듈 (113) 로 전송한다.
에러가 프레임 (m) 내에서 검출되지 않으면, 에러 검출 모듈 (112) 은, 프레임 (m) 에 대한 오디오 신호 샘플로 변환될 프레임 (m) 에 대한 계수 Xm(k) 를, 멀티플렉서 (119) 가 제 1 프레임 지연부 (121) 로부터 역변환 유닛 (120) 으로 직접 통과시키는 것을 가능하게 할 수도 있다.
에러가 프레임 (m) 내에서 검출되면, 에러 검출 모듈 (112) 은 프레임 (m) 에 대한 모든 계수를 폐기하며, 멀티플렉서 (119) 가 FLC 모듈 (113) 로부터의 프레임 (m) 에 대한 계수 추정치
Figure 112008036909267-pct00038
를 역변환 유닛 (120) 으로 통과시키는 것을 가능하게 할 수 있다. FLC 모듈 (113) 은 코어 디코더 (111) 로부터 프레임 (m+1) 에 대한 계수 Xm +1(k) 를 수신하고, 제 2 프레임 지연부 (122) 로부터 프레임 (m-1) 에 대한 계수 Xm -1(k) 를 수신한다. FLC 모듈 (113) 은 프레임 (m) 에 대 한 계수의 크기를 추정하기 위해 프레임 (m+1 및 m-1) 에 대한 계수를 사용한다. 또한, FLC 모듈 (113) 은 프레임 (m) 에 대한 계수의 사인을 추정하기 위해 오디오 인코더 (90) 로부터 프레임 (m+1) 에 대한 오디오 비트스트림 (96) 과 함께 송신된 프레임 (m) 에 대한 사인 Sm (98) 의 서브세트를 사용한다. 그 후, FLC 모듈 (113) 은 프레임 (m) 에 대한 계수를 추정하기 위해 크기 추정치와 사인 추정치를 결합한다. FLC 모듈 (113) 은, 프레임 (m) 에 대한 계수 추정치를 프레임 (m) 에 대한 오디오 신호의 추정된 샘플
Figure 112008036909267-pct00039
로 변환시키는 역변환 유닛 (120) 으로 계수 추정치
Figure 112008036909267-pct00040
를 전송한다.
FLC 모듈 (113) 은, 크기 추정기 (114), 성분 선택 모듈 (116), 및 사인 추정기 (118) 를 포함한다. 코어 디코더 (111) 는, 프레임 (m+1) 에 대한 계수 Xm+1(k) 를 크기 추정기 (114) 로 전송하고, 제 2 프레임 지연부 (122) 는 프레임 (m-1) 에 대한 계수 Xm -1(k) 를 크기 추정기 (114) 로 전송한다. 크기 추정기 (114) 는 프레임 (m+1 및 m-1) 에 대한 계수에 기초하여 프레임 (m) 에 대한 계수의 크기를 추정한다. 크기 추정기 (114) 는 프레임 (m) 에 대한 계수 크기를 추정하기 위해 다양한 보간 기술중 하나를 구현할 수도 있다. 예를 들어, 크기 추정기 (114) 는 프레임 (m-1) 에 대한 이전의 프레임 계수 Xm -1(k) 및 프레임 (m+1) 에 대한 다음의 프레임 계수 Xm +1(k) 의 에너지에 기초하여 에너지 보간을 구 현할 수도 있다. 계수 크기 추정치
Figure 112008036909267-pct00041
는 상기 수학식 (1) 에 제공되었다. 다른 실시형태에서, 인코더-보조 FLC 기술은 프레임 (m) 에 대한 계수의 크기를 추정하기 위해 프레임 (m) 의 직전 또는 직후가 아닌 프레임 (m) 의 이웃하는 프레임들을 이용할 수도 있다.
성분 선택 모듈 (116) 은 프레임 (m+1) 에 대한 계수 Xm +1(k) 를 수신하고, 프레임 (m+1) 에 대한 계수의 크기를 정렬함으로써 프레임 (m+1) 의 음조 성분과 잡음 성분 사이를 구별한다. 가장 큰 크기 또는 가장 현저한 스펙트럼 피크를 갖는 계수가 음조 성분으로 고려될 수도 있으며, 나머지 계수가 잡음 성분으로 고려될 수도 있다. 선택된 음조 성분의 수는 송신될 사인의 소정의 수에 기초할 수도 있다. 다른 경우에서, 프레임 (m+1) 에 대한 선택된 음조 성분의 수는 오디오 신호에 기초하여 변화할 수도 있다. 그 후, 성분 선택 모듈 (116) 은 프레임 (m+1) 에 대한 계수 크기로부터 선택된 음조 성분의 위치를 식별하는 인덱스 서브세트 Im +1 를 생성한다. 프레임 (m+1) 에 대한 인덱스 서브세트는 상기 수학식 (6) 에서 제공된다. 프레임 (m) 에 대한 인덱스 서브세트가 프레임 (m+1) 에 대한 인덱스 서브세트와 거의 동일하다고 가정한다.
성분 선택 모듈 (116) 은 오디오 비트스트림이 수신되는 오디오 인코더 (90) 내의 성분 선택 모듈 (102) 과 정확히 동일한 동작을 사용하여 프레임 (m+1) 내의 음조 성분을 선택한다. 따라서, 프레임 (m+1) 에 대한 계수 크기로부터 선택된 음조 성분의 위치를 식별하는 동일한 인덱스 서브세트 Im +1 가 오디오 인코더 (90) 및 오디오 디코더 (110) 모두에서 생성될 수도 있다. 그 후, 오디오 디코더 (110) 는 프레임 (m) 의 음조 성분에 대한 사인 Sm (98) 의 서브세트를 프레임 (m+1) 에 대한 인덱스 서브세트에 의해 식별된 프레임 (m) 의 적절한 추정된 계수 크기에 적용할 수도 있다.
성분 선택 모듈 (116) 은 프레임 (m+1) 에 대한 인덱스 서브세트를 사인 추정기 (118) 로 전송한다. 또한, 사인 추정기 (118) 는 인코더 (90) 로부터 프레임 (m+1) 에 대한 오디오 비트스트림 (96) 과 함께 송신된 프레임 (m) 에 대한 사인 Sm (98) 의 서브세트를 수신한다. 그 후, 사인 추정기 (118) 는 프레임 (m) 에 대한 음조 성분 및 잡음 성분 모두에 대한 사인을 추정한다.
잡음 성분의 경우에서, 사인 추정기 (118) 는 랜덤 신호로부터 사인을 추정한다. 음조 성분의 경우에서, 사인 추정기 (118) 는 프레임 (m+1) 에 대한 인덱스 서브세트에 기초하여 사인 Sm (98) 의 서브세트로부터 사인을 추정한다. 예를 들어, 인덱스 서브세트는 프레임 (m+1) 에 대한 계수 크기로부터 선택된 음조 성분을 식별하는 소정의 수, 예를 들어, 10개의 계수 인덱스를 포함한다. 그 후, 사인 추정기 (118) 는 프레임 (m+1) 에 대한 인덱스 서브세트내의 인덱스들과 동일한 인덱스들 (k) 을 갖는 사인 Sm (98) 의 서브세트로서 프레임 (m) 의 음조 성분에 대한 사인을 추정한다. 사인 추정치는,
[수학식 7]
Figure 112008036909267-pct00042
과 같이 제공되고, 여기서, sgn() 은 사인 함수를 나타내고, Im +1 은 선택된 음조 성분에 대응하는 계수의 인덱스 서브세트이며, Sm(k) 는 샘플 스페이스 {-1,1} 를 갖는 랜덤 변수이다.
상술한 바와 같이, 프레임의 음조 성분에 대한 사인을 추정하기 위해, 오디오 디코더 (110) 는 프레임 (m) 의 원래 음조 성분의 대응하는 사인 뿐만 아니라 프레임 (m) 내의 음조 성분의 위치를 알 필요가 있다. 이러한 정보를 수신하기 위한 오디오 디코더 (110) 에 있어서의 단순한 방식은, 증가된 비트 레이트를 이용하여 오디오 인코더 (90) 로부터의 파라미터를 모두 오디오 디코더 (110) 로 명시적으로 송신하는 것이다. 예시된 실시형태에서, 인덱스 서브세트 Im +1 은 정확히 동일한 유도 프로세스를 사용하여 오디오 인코더 (90) 및 오디오 디코더 (110) 모두에서 자체 유도되지만, 프레임 (m+1) 에 대한 인덱스 서브세트 Im +1 에 의해 인덱스된 프레임 (m) 의 음조 성분에 대한 사인은 사이드 정보로서 오디오 인코더 (90) 로부터 송신된다.
그 후, FLC 모듈 (113) 은 프레임 (m) 에 대한 계수를 추정하기 위해 크기 추정기 (114) 로부터의 크기 추정치
Figure 112008036909267-pct00043
와 사인 추정기 (118) 로부터의 사인 추정치
Figure 112008036909267-pct00044
를 결합한다. 프레임 (m) 에 대한 계수 추정치
Figure 112008036909267-pct00045
는 수학식 (5) 에 제공된다. 그 후, FLC 모듈 (113) 은 프레임 (m) 에 대한 계수 추정을 프레임 (m) 에 대한 오디오 신호의 추정된 샘플
Figure 112008036909267-pct00046
로 변환하는 역변환 유닛 (120) 으로 계수 추정치를 전송한다.
도 9 는, 사이드 정보로서 오디오 비트스트림과 함께 송신될 프레임에 대한 사인의 서브세트를 생성하고 오디오 비트스트림을 인코딩하는 또 다른 예시적인 동작을 예시하는 플로우차트이다. 이 동작을 본 명세서에서는 도 7 로부터의 오디오 인코더 (90) 를 참조하여 설명할 것이다.
변환 유닛 (92) 은 프레임 (m+1) 에 대한 오디오 신호의 샘플 xm +1[n] 을 수신하여, 그 샘플을 프레임 (m+1) 에 대한 계수 Xm +1(k) 로 변환한다 (124). 그 후, 코어 인코더 (94) 가 그 계수를 프레임 (m+1) 에 대한 오디오 비트스트림 (96) 으로 인코딩한다 (126). 변환 유닛 (92) 은 프레임 (m+1) 에 계수 Xm +1(k) 를 성분 선택 모듈 (102) 및 프레임 지연부 (100) 로 전송한다. 프레임 지연부 (100) 는 프레임 지연을 수행하고, 프레임 (m) 에 대한 계수 Xm(k) 를 생성한다 (128). 그 후, 프레임 지연부 (100) 는 프레임 (m) 에 대한 계수를 사인 추출기 (104) 로 전송한다.
성분 선택 모듈 (102) 은 프레임 (m+1) 에 대한 계수 크기를 정렬함으로써 프레임 (m+1) 의 음조 성분과 잡음 성분 사이를 구별한다. 가장 큰 크기를 갖 는 계수가 음조 성분으로 고려될 수도 있으며 나머지 계수가 잡음 성분으로 고려될 수도 있다. 선택된 음조 성분의 수는 송신될 사인의 소정의 수에 기초할 수도 있다. 다른 경우에서, 프레임 (m+1) 에 대한 선택된 음조 성분의 수는 오디오 신호에 기초하여 변화할 수도 있다. 그 후, 성분 선택 모듈 (102) 은 프레임 (m+1) 에 대한 계수 크기로부터 선택된 음조 성분을 식별하는 인덱스 서브세트 Im +1 를 생성한다 (130).
성분 선택 모듈 (102) 은 프레임 (m+1) 에 대한 인덱스 서브세트를 사인 추출기 (104) 로 전송한다. 또한, 사인 추출기 (104) 는 프레임 지연부 (100) 로부터 프레임 (m) 에 대한 계수 Xm(k) 를 수신한다. 프레임 (m) 에 대한 인덱스 서브세트가 프레임 (m+1) 에 대한 인덱스 서브세트와 거의 동일하다고 가정한다. 그 후, 사인 추출기 (104) 는 프레임 (m+1) 에 대한 인덱스 서브세트에 의해 식별된 프레임 (m) 에 대한 계수 Xm(k) 로부터 사인을 추출한다 (132). 그 후, 사인 추출기 (104) 는 프레임 (m+1) 에 대한 인덱스 서브세트에 의해 식별된 프레임 (m) 에 대한 음조 성분으로부터 추출된 사인 Sm (98) 의 서브세트를 프레임 (m+1) 에 대한 오디오 비트스트림 (96) 에 부착한다 (134).
도 10 은, 사이드 정보로서 인코더로부터 수신된 프레임에 대한 사인의 서브세트를 사용하여 프레임 손실 은폐를 수행하고 오디오 비트스트림을 디코딩하는 또 다른 예시적인 동작을 예시하는 플로우차트이다. 이 동작을 본 명세서에서는 도 8 로부터의 오디오 디코더 (110) 를 참조하여 설명할 것이다.
코어 디코더 (111) 는 계수 Xm(k) 를 포함하는 프레임 (m) 에 대한 오디오 비트스트림을 수신한다 (138). 그 후, 에러 검출 모듈 (112) 은 프레임 (m) 에 대한 오디오 비트스트림에 대해 에러 검출을 수행한다 (140). 코어 디코더 (111) 는 사이드 정보로서 프레임 (m) 에 대한 사인 Sm (98) 의 서브세트 및 계수 Xm+1(k) 를 포함하는 프레임 (m+1) 에 대한 오디오 비트스트림 (96) 을 연속적으로 수신한다 (141). 코어 디코더 (111) 는 폐기되지 않은 경우에, 프레임 (m) 에 대한 계수를 생성하기 위해 제 1 프레임 지연부 (121) 를 사용하고, 프레임 (m+1) 에 대한 오디오 비트스트림으로부터 프레임 (m-1) 에 대한 계수를 생성하기 위해 제 2 프레임 지연부 (122) 를 사용한다. 프레임 (m) 에 대한 계수가 폐기되지 않으면, 제 1 프레임 지연부 (121) 는 프레임 (m) 에 대한 계수를 멀티플렉서 (119) 로 전송한다. 제 2 프레임 지연부 (122) 는 프레임 (m-1) 에 대한 계수를 FLC 모듈 (113) 로 전송한다.
에러가 프레임 (m) 내에서 검출되지 않으면, 에러 검출 모듈 (112) 은, 프레임 (m) 에 대한 오디오 신호 샘플로 변환될 프레임 (m) 에 대한 계수를, 멀티플렉서 (119) 가 제 1 프레임 지연부 (121) 로부터 역변환 유닛 (120) 으로 직접 통과시키는 것을 가능하게 할 수도 있다. 에러가 프레임 (m) 내에서 검출되면, 에러 검출 모듈 (112) 은 프레임 (m) 에 대한 모든 계수를 폐기하며, 멀티플렉서 (119) 가 FLC 모듈 (113) 로부터의 프레임 (m) 에 대한 계수 추정치를 역변환 유닛 (120) 으로 통과시키는 것을 가능하게 할 수 있다 (142).
코어 디코더 (111) 는 프레임 (m+1) 에 대한 계수 Xm +1(k) 를 크기 추정기 (114) 로 전송하고, 제 2 프레임 지연부 (122) 는 프레임 (m-1) 에 대한 계수 Xm -1(k) 를 크기 추정기 (114) 로 전송한다. 크기 추정기 (114) 는 프레임 (m+1 및 m-1) 에 대한 계수에 기초하여 프레임 (m) 에 대한 계수의 크기를 추정한다 (144). 예를 들어, 크기 추정기 (114) 는 계수 크기를 추정하기 위해 수학식 (1) 에 제공된 에너지 보간 기술을 구현할 수도 있다.
성분 선택 모듈 (116) 은 프레임 (m+1) 에 대한 계수 Xm +1(k) 를 수신하고, 프레임 (m+1) 에 대한 계수의 크기를 정렬함으로써 프레임 (m+1) 의 음조 성분과 잡음 성분 사이를 구별한다. 가장 큰 크기를 갖는 계수가 음조 성분으로 고려될 수도 있으며, 나머지 계수가 잡음 성분으로 고려될 수도 있다. 선택된 음조 성분의 수는 송신될 사인의 소정의 수에 기초할 수도 있다. 다른 경우에서, 프레임 (m+1) 에 대한 선택된 음조 성분의 수는 오디오 신호에 기초하여 변화할 수도 있다. 그 후, 성분 선택 모듈 (116) 은 프레임 (m+1) 에 대한 계수 크기로부터 선택된 음조 성분의 위치를 식별하는 인덱스 서브세트 Im +1 를 생성한다 (146). 프레임 (m) 에 대한 인덱스 서브세트가 프레임 (m+1) 에 대한 인덱스 서브세트와 거의 동일하다고 가정한다.
성분 선택 모듈 (116) 은, 오디오 비트스트림이 수신되는 오디오 인코더 (90) 내의 성분 선택 모듈 (102) 과 정확히 동일한 동작을 사용하여 프레임 (m+1) 내의 음조 성분을 선택한다. 따라서, 프레임 (m+1) 에 대한 계수 크기로부터 선택된 음조 성분의 위치를 식별하는 동일한 인덱스 서브세트 Im +1 가 오디오 인코더 (90) 및 오디오 디코더 (110) 모두에서 생성될 수도 있다. 그 후, 오디오 디코더 (110) 는, 프레임 (m) 의 음조 성분에 대한 사인 Sm (98) 의 서브세트를 프레임 (m+1) 에 대한 인덱스 서브세트에 의해 식별된 프레임 (m) 의 적절한 추정된 계수 크기에 적용할 수도 있다.
성분 선택 모듈 (116) 은 프레임 (m+1) 에 대한 인덱스 서브세트를 사인 추정기 (118) 로 전송한다. 또한, 사인 추정기 (118) 는 인코더 (90) 로부터 프레임 (m+1) 에 대한 오디오 비트스트림 (96) 과 함께 송신된 프레임 (m) 에 대한 사인 Sm (98) 의 서브세트를 수신한다. 사인 추정기 (118) 는 프레임 (m+1) 에 대한 인덱스 서브세트에 기초하여 사인 Sm (98) 의 서브세트로부터 프레임 (m) 의 음조 성분에 대한 사인을 추정한다 (148). 사인 추정기 (118) 는 랜덤 신호로부터 잡음 성분에 대한 사인을 추정한다 (150).
그 후, FLC 모듈 (113) 은 프레임 (m) 에 대한 계수를 추정하기 위해 크기 추정기 (114) 로부터의 크기 추정치
Figure 112008036909267-pct00047
와 사인 추정기 (118) 로부터의 사인 추정치
Figure 112008036909267-pct00048
를 결합한다 (152). FLC 모듈 (113) 은, 프레임 (m) 에 대한 계수 추정치를 프레임 (m) 에 대한 오디오 신호의 추정된 샘플
Figure 112008036909267-pct00049
로 변환하는 역변환 유닛 (120) 으로 계수 추정치
Figure 112008036909267-pct00050
를 전송한다 (154).
도 11 은, 본 명세서에 설명한 인코더-보조 FLC 기술 (162) 의 프레임 손실율과 종래의 FLC 기술 (160) 의 프레임 손실율 사이의 품질 비교를 예시하는 도면이다. 이 비교는 0%, 5%, 10%, 15% 및 20% 의 프레임 손실율 (FLR) 하에서 2개의 FLC 방법 사이에서 수행된다. CD 로부터 샘플링된 다수의 모노 오디오 시퀀스가 48 kbps 의 비트레이트에서 인코딩되며, 그 인코딩된 프레임이 단일 프레임 손실로의 제한을 갖는 특정 레이트에서 랜덤하게 드롭된다.
본 명세서에서 설명한 인코더-보조 FLC 기술에 대해, 인코더가 사이드 정보로서 송신한 사인의 수가 모든 프레임에 대해 고정되며, 10 비트/프레임으로 제한되었으며, 이것은 0.43 kbps 의 비트레이트와 등가이다. 2개의 상이한 비트스트림, 즉, (i) 종래의 FLC 기술에 대한 48 kbps AAC 비트스트림, 및 (ii) 인코더-보조 FLC 기술에 대한 0.43 kbps 의 비트레이트에서의 사인 정보를 포함하는 47.57 kbps AAC 비트스트림이 생성되었다. 은폐된 오디오 품질의 주관적인 평가를 위해, 44.1 kHz 샘플링 레이트를 갖는 다양한 종류의 다성 (polyphonic) 오디오 시퀀스가 선택되며, 다양한 FLR 하에서 방법 양자에 의한 디코더 재구성이 비교되었다. 앵커를 갖는 멀티-자극 히든 참조 (MUSHRA) 테스트가 이용되었고, 11 명의 청취자에 의해 수행되었다.
도 11 로부터, 인코더-보조 FLC 기술 (162) 이 모든 FLR 에서 오디오 디코더 재구성 품질을 개선시킨다는 것을 알 수 있다. 예를 들어, 인코더-보조 FLC 기 술은 적당한 (5% 및 10%) FLR 에서 80 포인트 MUSHRA 스코어 보다 양호한 재구성 품질을 유지한다. 또한, 15% FLR 에서의 인코더-보조 FLR 기술 (162) 의 재구성 품질은 5% FLR 에서의 종래의 FLC 기술 (160) 의 재구성 품질과 통계적으로 등가이고, 이것은, 인코더-보조 FLC 기술에 의해 제공된 강화된 에러 내성을 나타낸다.
다수의 실시형태를 설명하였다. 그러나, 이들 실시형태에 대한 다양한 변형이 가능하며, 본 명세서에 제공된 원리가 다른 실시형태들에 또한 적용될 수도 있다. 본 명세서에 설명한 바와 같은 방법들은 하드웨어, 소프트웨어, 및/또는 펌웨어에서 구현될 수도 있다. 이러한 방법들의 다양한 작업이 마이크로프로세서, 통합된 제어기, 또는 IP 코어와 같은 로직 엘리먼트의 하나 이상의 어레이에 의해 실행가능한 명령들의 세트로서 구현될 수도 있다. 일 예에서, 하나 이상의 이러한 작업이 셀룰러 전화와 같은 개인 통신 디바이스의 다양한 디바이스의 동작을 제어하기 위해 구성된 이동국 모뎀 칩 또는 칩셋내의 실행을 위해 배열된다.
본 명세서에 설명한 기술은 범용 마이크로프로세서, 디지털 신호 프로세서 (DSP), 응용 주문형 집적 회로 (ASIC), 필드 프로그램가능 게이트 어레이 (FPGA), 또는 다른 등가의 로직 디바이스내에서 구현될 수도 있다. 소프트웨어에서 구현되면, 이 기술은 랜덤 액세스 메모리 (RAM), 판독전용 메모리 (ROM), 비휘발성 랜덤 액세스 메모리 (NVRAM), 전기적으로 제거가능한 프로그램가능 판독전용 메모리 (EEPROM), FLASH 메모리 등과 같은 컴퓨터-판독가능 매체상에서 명령들로서 수록될 수도 있다. 이 명령들은 하나 이상의 프로세서로 하여금, 본 명세서에 설 명한 기능의 특정 양태들을 수행하게 한다.
또 다른 예로서, 일 실시형태가 하드-유선 회로로서, 응용 주문형 집적 회로로서 제조된 회로 구성으로서, 또는 비휘발성 저장부에 로딩된 펌웨어 프로그램 또는 머신-판독가능 코드와 같이 데이터 저장 매체로부터 또는 거기에 로딩된 소프트웨어 프로그램으로서 부분적으로 또는 전체적으로 구현될 수도 있으며, 이러한 코드는 마이크로프로세서 또는 다른 디지털 신호 프로세싱 유닛과 같은 로직 엘리먼트의 어레이에 의해 실행가능한 명령들이다. 데이터 저장 매체는 (동적, 또는 정적 RAM, ROM, 및/또는 플래시 RAM 을 제한없이 포함할 수도 있는) 반도체 메모리, 강유전체, 오보닉, 중합체, 또는 상-변화 메모리와 같은 저장 엘리먼트의 어레이; 또는 자기 또는 광학 디스크와 같은 디스크 매체일 수도 있다.
본 명세서에서, 인코더로부터의 오디오 비트스트림과 함께 송신된 사이드 정보 및 이웃하는 프레임들에 기초하여 오디오 신호의 폐기된 프레임을 정확하게 은폐하는 디코더에서의 인코더-보조 프레임 손실 은폐를 위한 다양한 기술을 설명하였다. 이 인코더-보조 FLC 기술들은 또한, 인코더로부터 송신된 추가 사이드 정보를 이용하여 이웃하는 프레임에 기초하여 오디오 신호의 다중의 폐기된 프레임을 정확하게 은폐할 수도 있다. 이 인코더-보조 FLC 기술들은 이웃하는 프레임들의 주파수 도메인 데이터에 기초하여 프레임에 대한 주파수 도메인 데이터의 크기를 추정하며, 사이드 정보로서 인코더로부터 송신된 사인의 서브세트에 기초하여 주파수 도메인 데이터의 사인을 추정하는 것을 포함한다.
오디오 신호의 프레임에 대한 주파수 도메인 데이터는 음조 성분 및 잡음 성 분을 포함한다. 랜덤 신호로부터 추정된 사인은 주파수 도메인 데이터의 잡음 성분에 대해 실질적으로 정확할 수도 있다. 그러나, 음조 성분에 대한 매우 정확한 사인 추정을 달성하기 위해, 인코더는 사이드 정보로서 주파수 도메인 데이터의 음조 성분에 대한 사인을 송신한다. 디코더로 송신된 사이드 정보의 양을 최소화시키기 위해, 인코더는 프레임내의 음조 성분의 위치를 송신하지 않는다. 대신, 인코더 및 디코더 모두는 동일한 동작을 사용하여 음조 성분의 위치를 자체 유도한다. 이러한 방식으로, 인코더-보조 FLC 기술은, 최소량의 사이드 정보가 인코더로부터 송신되면서, 디코더에서 프레임 은폐 품질의 현저한 개선을 달성한다.
인코더-보조 FLC 기술을, 오디오 신호의 프레임의 주파수 도메인 데이터가 MDCT 계수에 의해 표현되는 AAC 표준을 이용하는 멀티미디어 애플리케이션에 관하여 본 명세서에서 주로 설명하였다. 이 기술은 임의의 다양한 오디오 코딩 표준을 사용하는 멀티미디어 애플리케이션에 적용될 수도 있다. 예를 들어, 이 표준들은 MPEG, WMA 표준, 돌비 연구소에 의한 표준, MP3 표준, 및 MP3 표준에 대한 후속물에 따른다. 이들 및 다른 실시형태들은 아래의 청구항의 범위내에 있다.

Claims (48)

  1. 오디오 신호의 프레임을 은폐하는 방법으로서,
    상기 프레임의 이웃하는 프레임들에 기초하여 상기 프레임에 대한 주파수 도메인 데이터의 크기를 추정하는 단계;
    사이드 정보로서 인코더로부터 송신된 상기 프레임에 대한 사인들 (signs) 의 서브세트에 기초하여 상기 프레임에 대한 주파수 도메인 데이터의 사인들을 추정하는 단계; 및
    상기 프레임에 대한 주파수 도메인 데이터를 추정하기 위해 크기 추정치와 사인 추정치를 결합하는 단계를 포함하는, 오디오 신호의 프레임 은폐 방법.
  2. 제 1 항에 있어서,
    상기 인코더로부터 주파수 도메인 데이터를 포함하는 상기 프레임에 대한 오디오 비트스트림을 수신하는 단계; 및
    상기 인코더로부터 이웃하는 프레임에 대한 오디오 비트스트림과 상기 프레임에 대한 상기 사이드 정보를 수신하는 단계를 더 포함하는, 오디오 신호의 프레임 은폐 방법.
  3. 제 1 항에 있어서,
    상기 인코더로부터 송신된 프레임에 대한 오디오 비트스트림에 대해 에러 검 출을 수행하는 단계; 및
    하나 이상의 에러가 검출될 때 상기 프레임에 대한 주파수 도메인 데이터를 폐기하는 단계를 더 포함하는, 오디오 신호의 프레임 은폐 방법.
  4. 제 1 항에 있어서,
    상기 프레임에 대한 상기 주파수 도메인 데이터의 크기를 추정하는 단계는, 상기 프레임의 선행 프레임과 상기 프레임의 후속 프레임의 에너지에 기초하여 에너지 보간을 수행하는 단계를 포함하는, 오디오 신호의 프레임 은폐 방법.
  5. 제 1 항에 있어서,
    상기 프레임에 대한 상기 주파수 도메인 데이터의 사인들을 추정하는 단계는,
    랜덤 신호로부터 상기 프레임에 대한 상기 주파수 도메인 데이터의 잡음 성분들에 대한 사인들을 추정하는 단계; 및
    상기 사이드 정보로서 상기 인코더로부터 송신된 상기 프레임에 대한 상기 사인들의 서브세트에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터의 음조 성분들에 대한 사인들을 추정하는 단계를 포함하는, 오디오 신호의 프레임 은폐 방법.
  6. 제 1 항에 있어서,
    상기 프레임에 대한 상기 주파수 도메인 데이터의 사인들을 추정하는 단계는,
    상기 프레임에 대한 상기 주파수 도메인 데이터의 음조 성분들을 선택하는 단계;
    상기 프레임내의 상기 음조 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하는 단계; 및
    상기 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 사인들의 서브세트로부터 상기 음조 성분들에 대한 사인들을 추정하는 단계를 포함하는, 오디오 신호의 프레임 은폐 방법.
  7. 제 6 항에 있어서,
    상기 음조 성분들을 선택하는 단계는,
    크기의 순서로 상기 주파수 도메인 데이터를 정렬하는 단계; 및
    상기 음조 성분들로서, 가장 높은 크기를 갖는 소정의 수의 상기 주파수 도메인 데이터를 선택하는 단계를 포함하는, 오디오 신호의 프레임 은폐 방법.
  8. 제 1 항에 있어서,
    상기 프레임에 대한 상기 주파수 도메인 데이터의 사인들을 추정하는 단계는,
    상기 프레임에 대한 상기 주파수 도메인 데이터의 상기 크기 추정치로부터 음조 성분들을 선택하는 단계;
    상기 프레임에 대한 상기 주파수 도메인 데이터의 상기 크기 추정치로부터 선택된 상기 음조 성분들의 위치들을 식별하는 추정된 인덱스 서브세트를 생성하는 단계; 및
    상기 프레임에 대한 상기 추정된 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 사인들의 서브세트로부터 상기 음조 성분들에 대한 사인들을 추정하는 단계를 포함하는, 오디오 신호의 프레임 은폐 방법.
  9. 제 1 항에 있어서,
    상기 프레임에 대한 상기 주파수 도메인 데이터의 사인들을 추정하는 단계는,
    상기 프레임의 이웃하는 프레임에 대한 주파수 도메인 데이터의 크기로부터 음조 성분들을 선택하는 단계;
    상기 이웃하는 프레임에 대한 상기 주파수 도메인 데이터의 상기 크기로부터 선택된 상기 음조 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하는 단계; 및
    상기 이웃하는 프레임에 대한 상기 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 사인들의 서브세트로부터 상기 음조 성분들에 대한 사인들을 추정하는 단계를 포함하는, 오디오 신호의 프레임 은폐 방법.
  10. 제 1 항에 있어서,
    주파수 도메인 데이터를 포함하는 상기 프레임에 대한 오디오 비트스트림을 디코더로 송신하는 단계; 및
    이웃하는 프레임에 대한 오디오 비트스트림과 상기 프레임에 대한 상기 사이드 정보를 상기 디코더로 송신하는 단계를 더 포함하는, 오디오 신호의 프레임 은폐 방법.
  11. 제 10 항에 있어서,
    상기 사이드 정보를 송신하는 단계는,
    상기 프레임에 대한 상기 주파수 도메인 데이터로부터 상기 사인들의 서브세트를 추출하는 단계; 및
    상기 사이드 정보로서, 상기 이웃하는 프레임에 대한 상기 오디오 비트스트림에 상기 사인들의 서브세트를 부착하는 단계를 포함하는, 오디오 신호의 프레임 은폐 방법.
  12. 제 11 항에 있어서,
    상기 프레임에 대한 상기 사인들의 서브세트를 추출하는 단계는,
    상기 프레임에 대한 상기 주파수 도메인 데이터의 음조 성분들을 선택하는 단계;
    상기 프레임내의 상기 음조 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하는 단계; 및
    상기 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터로부터 상기 음조 성분들에 대한 상기 사인들의 서브세트를 추출하는 단계를 포함하는, 오디오 신호의 프레임 은폐 방법.
  13. 제 12 항에 있어서,
    상기 음조 성분들을 선택하는 단계는,
    크기의 순서로 상기 주파수 도메인 데이터를 정렬하는 단계; 및
    상기 음조 성분들로서, 가장 높은 크기를 갖는 소정의 수의 상기 주파수 도메인 데이터를 선택하는 단계를 포함하는, 오디오 신호의 프레임 은폐 방법.
  14. 제 11 항에 있어서,
    상기 프레임에 대한 상기 사인들의 서브세트를 추출하는 단계는,
    상기 프레임의 이웃하는 프레임들에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터의 크기를 추정하는 단계;
    상기 프레임에 대한 상기 주파수 도메인 데이터의 크기 추정치로부터 음조 성분들을 선택하는 단계;
    상기 프레임에 대한 상기 주파수 도메인 데이터의 크기 추정치로부터 선택된 상기 음조 성분들의 위치들을 식별하는 추정된 인덱스 서브세트를 생성하는 단계; 및
    상기 프레임에 대한 상기 추정된 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터로부터 상기 음조 성분들에 대한 상기 사인들의 서브세트를 추출하는 단계를 포함하는, 오디오 신호의 프레임 은폐 방법.
  15. 제 11 항에 있어서,
    상기 프레임에 대한 상기 사인들의 서브세트를 추출하는 단계는,
    상기 이웃하는 프레임에 대한 주파수 도메인 데이터 크기로부터 음조 성분들을 선택하는 단계;
    상기 이웃하는 프레임에 대한 상기 주파수 도메인 데이터 크기로부터 선택된 상기 음조 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하는 단계; 및
    상기 이웃하는 프레임에 대한 상기 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터로부터 상기 음조 성분들에 대한 상기 사인들의 서브세트를 추출하는 단계를 포함하는, 오디오 신호의 프레임 은폐 방법.
  16. 제 1 항에 있어서,
    상기 인코더에 포함된 변환 유닛을 사용하여, 상기 프레임에 대한 시간 도메인 오디오 신호를 상기 프레임에 대한 주파수 도메인 데이터로 인코딩하는 단계; 및
    디코더에 포함된 역변환 유닛을 사용하여, 상기 프레임에 대한 상기 추정된 주파수 도메인 데이터를 상기 프레임에 대한 추정된 시간 도메인 데이터로 디코딩 하는 단계를 더 포함하는, 오디오 신호의 프레임 은폐 방법.
  17. 제 1 항에 있어서,
    상기 사이드 정보는 상기 프레임에 대한 주파수 도메인 데이터의 음조 성분들에 대한 사인의 서브세트를 포함하며,
    상기 방법은,
    상기 인코더를 사용하여 상기 프레임내의 상기 음조 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하는 단계;
    상기 인코더를 사용하여 상기 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터로부터 상기 음조 성분들에 대한 상기 사인들의 서브세트를 추출하는 단계;
    상기 사이드 정보로서 상기 음조 성분들에 대한 상기 사인들의 서브세트를 디코더로 송신하는 단계;
    상기 인코더와 동일한 프로세스를 사용하여 상기 디코더로 상기 프레임내의 상기 음조 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하는 단계; 및
    상기 인덱스 서브세트에 기초하여 상기 사인들의 서브세트로부터 상기 음조 성분들에 대한 사인들을 추정하는 단계를 더 포함하는, 오디오 신호의 프레임 은폐 방법.
  18. 오디오 신호의 프레임을 은폐하는 명령들을 포함하는 컴퓨터-판독가능 매체 로서,
    상기 명령들은, 프로그램가능한 프로세서로 하여금,
    상기 프레임의 이웃하는 프레임들에 기초하여 상기 프레임에 대한 주파수 도메인 데이터의 크기를 추정하고,
    사이드 정보로서 인코더로부터 송신된 상기 프레임에 대한 사인들의 서브세트에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터의 사인들을 추정하며,
    상기 프레임에 대한 주파수 도메인 데이터를 추정하기 위해 크기 추정치와 사인 추정치를 결합하게 하는, 컴퓨터-판독가능 매체.
  19. 제 18 항에 있어서,
    상기 명령들은, 상기 프로그램가능한 프로세서로 하여금,
    랜덤 신호로부터 상기 프레임에 대한 상기 주파수 도메인 데이터의 잡음 성분들에 대한 사인들을 추정하며,
    상기 사이드 정보로서 상기 인코더로부터 송신된 상기 프레임에 대한 상기 사인들의 서브세트에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터의 음조 성분들에 대한 사인들을 추정하게 하는, 컴퓨터-판독가능 매체.
  20. 제 18 항에 있어서,
    상기 명령들은, 상기 프로그램가능한 프로세서로 하여금,
    크기의 순서로 상기 프레임에 대한 상기 주파수 도메인 데이터를 정렬하고,
    상기 프레임에 대한 상기 주파수 도메인 데이터의 음조 성분들로서, 가장 높은 크기를 갖는 소정의 수의 상기 주파수 도메인 데이터를 선택하고,
    상기 프레임내의 상기 음조 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하며,
    상기 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 사인들의 서브세트로부터 상기 음조 성분들에 대한 사인들을 추정하게 하는, 컴퓨터-판독가능 매체.
  21. 제 18 항에 있어서,
    상기 프로그램가능한 프로세서로 하여금,
    상기 프레임에 대한 상기 주파수 도메인 데이터로부터 상기 사인들의 서브세트를 추출하고,
    상기 사이드 정보로서 이웃하는 프레임에 대한 오디오 비트스트림에 상기 사인들의 서브세트를 부착하며,
    상기 이웃하는 프레임에 대한 오디오 비트스트림과 상기 프레임에 대한 상기 사이드 정보를 디코더로 송신하게 하는 명령들을 더 포함하는, 컴퓨터-판독가능 매체.
  22. 제 21 항에 있어서,
    상기 명령들은, 상기 프로그램가능한 프로세서로 하여금,
    크기의 순서로 상기 프레임에 대한 상기 주파수 도메인 데이터를 정렬하고,
    상기 프레임에 대한 상기 주파수 도메인 데이터의 음조 성분들로서, 가장 큰 크기를 갖는 소정의 수의 상기 주파수 도메인 데이터를 선택하고,
    상기 프레임내의 음조 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하며,
    상기 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터로부터 상기 음조 성분들에 대한 상기 사인들의 서브세트를 추출하게 하는, 컴퓨터-판독가능 매체.
  23. 오디오 신호의 프레임을 은폐하기 위한 시스템으로서,
    사이드 정보로서 상기 프레임에 대한 사인들의 서브세트를 송신하는 인코더; 및
    상기 인코더로부터 상기 프레임에 대한 상기 사이드 정보를 수신하는 프레임 손실 은폐 (FLC) 모듈을 포함하는 디코더를 포함하며,
    상기 FLC 모듈은, 상기 프레임의 이웃하는 프레임들에 기초하여 상기 프레임에 대한 주파수 도메인 데이터의 크기를 추정하고, 상기 수신된 사이드 정보에 기초하여 상기 프레임에 대한 주파수 도메인 데이터의 사인들을 추정하며, 상기 프레임에 대한 주파수 도메인 데이터를 추정하기 위해 크기 추정치와 사인 추정치를 결합하는, 오디오 신호의 프레임 은폐 시스템.
  24. 제 23 항에 있어서,
    상기 FLC 모듈은, 상기 인코더로부터 송신된 상기 프레임에 대한 오디오 비트스트림에 대해 에러 검출을 수행하며, 하나 이상의 에러가 검출될 때 상기 프레임에 대한 주파수 도메인 데이터를 폐기하는 에러 검출 모듈을 포함하는, 오디오 신호의 프레임 은폐 시스템.
  25. 제 23 항에 있어서,
    상기 FLC 모듈은, 상기 프레임에 대한 상기 주파수 도메인 데이터의 크기를 추정하기 위해 상기 프레임의 선행 프레임과 상기 프레임의 후속 프레임의 에너지에 기초하여 에너지 보간을 수행하는 크기 추정기를 포함하는, 오디오 신호의 프레임 은폐 시스템.
  26. 제 23 항에 있어서,
    상기 FLC 모듈은,
    랜덤 신호로부터 상기 프레임에 대한 상기 주파수 도메인 데이터의 잡음 성분들에 대한 사인들을 추정하며,
    상기 사이드 정보로서 상기 인코더로부터 송신된 상기 프레임에 대한 상기 사인들의 서브세트에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터의 음조 성분들에 대한 사인들을 추정하는 사인 추정기를 포함하는, 오디오 신호의 프 레임 은폐 시스템.
  27. 제 26 항에 있어서,
    상기 FLC 모듈은, 크기의 순서로 상기 프레임에 대한 상기 주파수 도메인 데이터를 정렬하고, 상기 프레임에 대한 상기 주파수 도메인 데이터의 음조 성분들로서 가장 높은 크기를 갖는 소정의 수의 상기 주파수 도메인 데이터를 선택하며, 상기 프레임내의 상기 음조 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하는 성분 선택 모듈을 포함하며,
    상기 사인 추정기는 상기 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 사인들의 서브세트로부터 상기 음조 성분들에 대한 사인들을 추정하는, 오디오 신호의 프레임 은폐 시스템.
  28. 제 23 항에 있어서,
    상기 인코더는, 상기 프레임에 대한 상기 주파수 도메인 데이터로부터 상기 사인들의 서브세트를 추출하며, 상기 사이드 정보로서 이웃하는 프레임에 대한 오디오 비트스트림에 상기 사인들의 서브세트를 부착하는 사인 추출기를 포함하고,
    상기 인코더는 상기 이웃하는 프레임에 대한 상기 오디오 비트스트림과 상기 프레임에 대한 상기 사이드 정보를 상기 디코더로 송신하는, 오디오 신호의 프레임 은폐 시스템.
  29. 제 28 항에 있어서,
    상기 인코더는, 크기의 순서로 상기 프레임에 대한 상기 주파수 도메인 데이터를 정렬하고, 상기 프레임에 대한 상기 주파수 도메인 데이터의 음조 성분들로서 가장 높은 크기를 갖는 소정의 수의 상기 주파수 도메인 데이터를 선택하며, 상기 프레임내의 상기 음조 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하는 성분 선택 모듈을 포함하며,
    상기 사인 추출기는, 상기 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터로부터 상기 음조 성분들에 대한 상기 사인들의 서브세트를 추출하는, 오디오 신호의 프레임 은폐 시스템.
  30. 제 23 항에 있어서,
    상기 프레임에 대한 상기 주파수 도메인 데이터는, 변형 이산 코사인 변환 (MDCT) 계수들로 표현되는, 오디오 신호의 프레임 은폐 시스템.
  31. 제 23 항에 있어서,
    상기 인코더는, 상기 프레임에 대한 시간 도메인 오디오 신호를 상기 프레임에 대한 주파수 도메인 데이터로 인코딩하는 변환 유닛을 포함하며,
    상기 디코더는, 상기 프레임에 대한 상기 추정된 주파수 도메인 데이터를 상기 프레임에 대한 추정된 시간 도메인 데이터로 디코딩하는 역변환 유닛을 포함하는, 오디오 신호의 프레임 은폐 시스템.
  32. 제 31 항에 있어서,
    상기 인코더에 포함된 상기 변환 유닛은 변형 이산 코사인 변환 유닛을 포함하며,
    상기 디코더에 포함된 상기 역변환 유닛은 변형 이산 코사인 역변환 유닛을 포함하는, 오디오 신호의 프레임 은폐 시스템.
  33. 제 23 항에 있어서,
    상기 사이드 정보는 상기 프레임에 대한 주파수 도메인 데이터의 음조 성분들에 대한 사인들의 서브세트를 포함하고,
    상기 인코더는, 상기 인코더를 사용하여 상기 프레임내의 상기 음조 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하고, 상기 인코더를 사용하여 상기 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터로부터 상기 음조 성분들에 대한 상기 사인들의 서브세트를 추출하며, 상기 사이드 정보로서 상기 음조 성분들에 대한 상기 사인들의 서브세트를 상기 디코더로 송신하며,
    상기 디코더는, 상기 인코더와 동일한 프로세스를 사용하여 상기 디코더로 상기 프레임내의 상기 음조 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하며, 상기 인덱스 서브세트에 기초하여 상기 사인들의 서브세트로부터 상기 음조 성분들에 대한 사인들을 추정하는, 오디오 신호의 프레임 은폐 시스템.
  34. 오디오 신호의 프레임에 대한 주파수 도메인 데이터의 성분을 선택하는 성분 선택 모듈; 및
    상기 프레임에 대한 상기 주파수 도메인 데이터로부터 상기 선택된 성분들에 대한 사인들의 서브세트를 추출하는 사인 추출기를 포함하며,
    사이드 정보로서 상기 프레임에 대한 상기 사인들의 서브세트를 디코더로 송신하는, 인코더.
  35. 제 34 항에 있어서,
    상기 인코더는, 주파수 도메인 데이터를 포함하는 상기 프레임에 대한 오디오 비트스트림을 상기 디코더로 송신하며, 이웃하는 프레임에 대한 오디오 비트스트림과 상기 프레임에 대한 상기 사이드 정보를 상기 디코더로 송신하고,
    상기 사인 추출기는, 상기 이웃하는 프레임에 대한 상기 오디오 비트스트림에 상기 프레임에 대한 상기 사이드 정보를 부착하는, 인코더.
  36. 제 34 항에 있어서,
    상기 성분 선택 모듈은 상기 프레임내의 상기 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하는, 인코더.
  37. 제 34 항에 있어서,
    상기 선택된 성분들은 상기 프레임에 대한 상기 주파수 도메인 데이터의 음 조 성분들을 포함하고,
    상기 성분 선택 모듈은, 크기의 순서로 상기 프레임에 대한 상기 주파수 도메인 데이터를 정렬하며, 상기 음조 성분들로서, 가장 높은 크기를 갖는 소정의 수의 상기 주파수 도메인 데이터를 선택하는, 인코더.
  38. 제 34 항에 있어서,
    상기 프레임의 이웃하는 프레임들에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터의 크기를 추정하는 크기 추정기를 더 포함하고,
    상기 성분 선택 모듈은 상기 프레임에 대한 상기 주파수 도메인 데이터의 크기 추정치로부터 음조 성분들을 선택하고, 상기 프레임에 대한 상기 주파수 도메인 데이터의 크기 추정치로부터 선택된 상기 음조 성분들의 위치들을 식별하는 추정된 인덱스 서브세트를 생성하고,
    상기 사인 추출기는 상기 프레임에 대한 상기 추정된 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터로부터 상기 음조 성분들에 대한 상기 사인들의 서브세트를 추출하고,
    상기 인코더는 FLC 모듈을 포함하고,
    상기 크기 추정기, 상기 성분 선택 모듈 및 상기 사인 추출기는 상기 FLC 모듈에 포함되는, 인코더.
  39. 제 34 항에 있어서,
    상기 성분 선택 모듈은, 이웃하는 프레임에 대한 주파수 도메인 데이터 크기로부터 음조 성분들을 선택하고, 상기 이웃하는 프레임에 대한 상기 주파수 도메인 데이터 크기로부터 선택된 상기 음조 성분들의 위치들을 식별하는 인덱스 서브세트 를 생성하고,
    상기 사인 추출기는, 상기 이웃하는 프레임에 대한 상기 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터로부터 상기 음조 성분들에 대한 상기 사인들의 서브세트를 추출하는, 인코더.
  40. 프레임 손실 은폐 (FLC) 모듈을 포함하는 디코더로서,
    상기 FLC 모듈은,
    프레임의 이웃하는 프레임들에 기초하여 오디오 신호의 프레임에 대한 주파수 도메인 데이터의 크기를 추정하는 크기 추정기; 및
    사이드 정보로서 인코더로부터 송신된 상기 프레임에 대한 사인들의 서브세트에 기초하여 상기 프레임에 대한 주파수 도메인 데이터의 사인들을 추정하는 사인 추정기를 포함하며,
    상기 디코더는 상기 프레임에 대한 주파수 도메인 데이터를 추정하기 위해 크기 추정치와 사인 추정치를 결합하는, 디코더.
  41. 제 40 항에 있어서,
    상기 디코더는, 상기 인코더로부터, 주파수 도메인 데이터를 포함하는 상기 프레임에 대한 오디오 비트스트림을 수신하고, 상기 인코더로부터, 이웃하는 프레임에 대한 오디오 비트스트림과 상기 프레임에 대한 상기 사이드 정보를 수신하는, 디코더.
  42. 제 40 항에 있어서,
    상기 FLC 모듈은, 상기 인코더로부터 송신된 상기 프레임에 대한 오디오 비트스트림에 대해 에러 검출을 수행하고, 하나 이상의 에러가 검출될 때 상기 프레임에 대한 주파수 도메인 데이터를 폐기하는 에러 검출 모듈을 포함하는, 디코더.
  43. 제 40 항에 있어서,
    상기 FLC 모듈은, 상기 프레임에 대한 상기 주파수 도메인 데이터의 크기를 추정하기 위해 상기 프레임의 선행 프레임과 상기 프레임의 후속 프레임의 에너지에 기초하여 에너지 보간을 수행하는 크기 추정기를 포함하는, 디코더.
  44. 제 40 항에 있어서,
    상기 사인 추정기는, 랜덤 신호로부터 상기 프레임에 대한 상기 주파수 도메인 데이터의 잡음 성분들에 대한 사인들을 추정하고, 상기 사이드 정보로서 상기 인코더로부터 송신된 상기 프레임에 대한 상기 사인들의 서브세트에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터의 음조 성분들에 대한 사인들을 추정하는, 디코더.
  45. 제 40 항에 있어서,
    상기 FLC 모듈은, 상기 프레임에 대한 상기 주파수 도메인 데이터의 음조 성 분들을 선택하고, 상기 프레임내의 상기 음조 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하는 성분 선택 모듈을 포함하며,
    상기 사인 추정기는, 상기 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 사인들의 서브세트로부터 상기 음조 성분들에 대한 사인들을 추정하는, 디코더.
  46. 제 45 항에 있어서,
    상기 성분 선택 모듈은, 크기의 순서로 상기 주파수 도메인 데이터를 정렬하고, 상기 음조 성분들로서, 가장 높은 크기를 갖는 소정의 수의 상기 주파수 도메인 데이터를 선택하는, 디코더.
  47. 제 40 항에 있어서,
    상기 FLC 모듈은, 상기 프레임에 대한 상기 주파수 도메인 데이터의 상기 크기 추정치로부터 음조 성분들을 선택하고, 상기 프레임에 대한 상기 주파수 도메인 데이터의 상기 크기 추정치로부터 선택된 상기 음조 성분들의 위치들을 식별하는 추정된 인덱스 서브세트를 생성하는 성분 선택 모듈을 포함하며,
    상기 사인 추정기는, 상기 프레임에 대한 상기 추정된 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 사인들의 서브세트로부터 상기 음조 성분들에 대한 사인들을 추정하는, 디코더.
  48. 제 40 항에 있어서,
    상기 FLC 모듈은, 상기 프레임의 이웃하는 프레임에 대한 주파수 도메인 데이터의 크기로부터 음조 성분들을 선택하고, 상기 이웃하는 프레임에 대한 상기 주파수 도메인 데이터의 상기 크기로부터 선택된 상기 음조 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하는 성분 선택 모듈을 포함하며,
    상기 사인 추정기는, 상기 이웃하는 프레임에 대한 상기 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 사인들의 서브세트로부터 상기 음조 성분들에 대한 사인들을 추정하는, 디코더.
KR1020087012437A 2005-10-26 2006-10-25 오디오 코딩을 위한 인코더-보조 프레임 손실 은폐 기술 KR100998450B1 (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US73045905P 2005-10-26 2005-10-26
US60/730,459 2005-10-26
US73201205P 2005-10-31 2005-10-31
US60/732,012 2005-10-31
US11/431,733 US8620644B2 (en) 2005-10-26 2006-05-10 Encoder-assisted frame loss concealment techniques for audio coding
US11/431,733 2006-05-10

Publications (2)

Publication Number Publication Date
KR20080070026A KR20080070026A (ko) 2008-07-29
KR100998450B1 true KR100998450B1 (ko) 2010-12-06

Family

ID=37772833

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087012437A KR100998450B1 (ko) 2005-10-26 2006-10-25 오디오 코딩을 위한 인코더-보조 프레임 손실 은폐 기술

Country Status (8)

Country Link
US (1) US8620644B2 (ko)
EP (1) EP1941500B1 (ko)
JP (1) JP4991743B2 (ko)
KR (1) KR100998450B1 (ko)
CN (1) CN101346760B (ko)
AT (1) ATE499676T1 (ko)
DE (1) DE602006020316D1 (ko)
WO (1) WO2007051124A1 (ko)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008066836A1 (en) * 2006-11-28 2008-06-05 Treyex Llc Method and apparatus for translating speech during a call
KR101261524B1 (ko) * 2007-03-14 2013-05-06 삼성전자주식회사 노이즈를 포함하는 오디오 신호를 저비트율로부호화/복호화하는 방법 및 이를 위한 장치
CN101325537B (zh) * 2007-06-15 2012-04-04 华为技术有限公司 一种丢帧隐藏的方法和设备
KR100906766B1 (ko) * 2007-06-18 2009-07-09 한국전자통신연구원 키 재동기 구간의 음성 데이터 예측을 위한 음성 데이터송수신 장치 및 방법
CN101471073B (zh) * 2007-12-27 2011-09-14 华为技术有限公司 一种基于频域的丢包补偿方法、装置和系统
CN101588341B (zh) * 2008-05-22 2012-07-04 华为技术有限公司 一种丢帧隐藏的方法及装置
WO2009150290A1 (en) 2008-06-13 2009-12-17 Nokia Corporation Method and apparatus for error concealment of encoded audio data
CN102089815A (zh) * 2008-07-09 2011-06-08 Nxp股份有限公司 数字处理音频信号的方法和设备以及计算机程序产品
CN101958119B (zh) * 2009-07-16 2012-02-29 中兴通讯股份有限公司 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法
US8595005B2 (en) * 2010-05-31 2013-11-26 Simple Emotion, Inc. System and method for recognizing emotional state from a speech signal
CN104934036B (zh) 2010-11-22 2018-11-02 株式会社Ntt都科摩 音频编码装置、方法以及音频解码装置、方法
JP5724338B2 (ja) * 2010-12-03 2015-05-27 ソニー株式会社 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム
US9767823B2 (en) 2011-02-07 2017-09-19 Qualcomm Incorporated Devices for encoding and detecting a watermarked signal
US9767822B2 (en) 2011-02-07 2017-09-19 Qualcomm Incorporated Devices for encoding and decoding a watermarked signal
CN102810313B (zh) * 2011-06-02 2014-01-01 华为终端有限公司 音频解码方法及装置
WO2013048171A2 (ko) * 2011-09-28 2013-04-04 엘지전자 주식회사 음성 신호 부호화 방법 및 음성 신호 복호화 방법 그리고 이를 이용하는 장치
CN107103910B (zh) 2011-10-21 2020-09-18 三星电子株式会社 帧错误隐藏方法和设备以及音频解码方法和设备
CN103325373A (zh) * 2012-03-23 2013-09-25 杜比实验室特许公司 用于传送和接收音频信号的方法和设备
US9558750B2 (en) 2012-06-08 2017-01-31 Samsung Electronics Co., Ltd. Method and apparatus for concealing frame error and method and apparatus for audio decoding
KR20150056770A (ko) * 2012-09-13 2015-05-27 엘지전자 주식회사 손실 프레임 복원 방법 및 오디오 복호화 방법과 이를 이용하는 장치
US9280975B2 (en) * 2012-09-24 2016-03-08 Samsung Electronics Co., Ltd. Frame error concealment method and apparatus, and audio decoding method and apparatus
CN103714821A (zh) 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
CN105976824B (zh) * 2012-12-06 2021-06-08 华为技术有限公司 信号解码的方法和设备
MX2021000353A (es) * 2013-02-05 2023-02-24 Ericsson Telefon Ab L M Método y aparato para controlar ocultación de pérdida de trama de audio.
EP3333848B1 (en) * 2013-02-05 2019-08-21 Telefonaktiebolaget LM Ericsson (publ) Audio frame loss concealment
HUE052041T2 (hu) 2013-02-13 2021-04-28 Ericsson Telefon Ab L M Keret hiba javítás
AU2014283180B2 (en) * 2013-06-21 2017-01-05 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals
CA2913578C (en) 2013-06-21 2018-05-22 Michael Schnabel Apparatus and method for generating an adaptive spectral shape of comfort noise
EP2830064A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection
JP2017508188A (ja) 2014-01-28 2017-03-23 シンプル エモーション, インコーポレイテッドSimple Emotion, Inc. 適応型音声対話のための方法
EP2963648A1 (en) 2014-07-01 2016-01-06 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio processor and method for processing an audio signal using vertical phase correction
FR3024582A1 (fr) * 2014-07-29 2016-02-05 Orange Gestion de la perte de trame dans un contexte de transition fd/lpd
EP3230980B1 (en) * 2014-12-09 2018-11-28 Dolby International AB Mdct-domain error concealment
EP3301843A4 (en) * 2015-06-29 2018-05-23 Huawei Technologies Co., Ltd. Method for data processing and receiver device
EP3553777B1 (en) * 2018-04-09 2022-07-20 Dolby Laboratories Licensing Corporation Low-complexity packet loss concealment for transcoded audio signals
CN110908630A (zh) * 2019-11-20 2020-03-24 国家广播电视总局中央广播电视发射二台 音频处理方法、处理器、音频监测装置及设备
US11418876B2 (en) 2020-01-17 2022-08-16 Lisnr Directional detection and acknowledgment of audio-based data transmissions
US11361774B2 (en) * 2020-01-17 2022-06-14 Lisnr Multi-signal detection and combination of audio-based data transmissions
CN112365896B (zh) * 2020-10-15 2022-06-14 武汉大学 一种基于栈式稀疏自编码器的面向对象编码方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005059900A1 (en) 2003-12-19 2005-06-30 Telefonaktiebolaget Lm Ericsson (Publ) Improved frequency-domain error concealment

Family Cites Families (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4969192A (en) * 1987-04-06 1990-11-06 Voicecraft, Inc. Vector adaptive predictive coder for speech and audio
KR100220861B1 (ko) * 1989-01-27 1999-09-15 쥬더, 에드 에이. 고품질 오디오용 낮은 시지연 변환인코더, 디코더 및 인코딩/디코딩방법
US5504833A (en) * 1991-08-22 1996-04-02 George; E. Bryan Speech approximation using successive sinusoidal overlap-add models and pitch-scale modifications
US5233348A (en) * 1992-03-26 1993-08-03 General Instrument Corporation Variable length code word decoder for use in digital communication systems
US5745169A (en) * 1993-07-19 1998-04-28 British Telecommunications Public Limited Company Detecting errors in video images
CN1140001A (zh) * 1994-12-02 1997-01-08 索尼公司 数字信号的插值方法及其装置、以及记录媒体的记录和(或)再生装置及其方法
KR970011728B1 (ko) 1994-12-21 1997-07-14 김광호 음향신호의 에러은닉방법 및 그 장치
JPH08223049A (ja) * 1995-02-14 1996-08-30 Sony Corp 信号符号化方法及び装置、信号復号化方法及び装置、情報記録媒体並びに情報伝送方法
FR2741215B1 (fr) * 1995-11-14 1998-01-23 Matra Communication Procede de transmission d'une sequence de bits d'information avec protection selective contre les erreurs de transmission, procedes de codage et de correction pouvant etre mis en oeuvre dans un tel procede de transmission
JP3421962B2 (ja) 1996-10-14 2003-06-30 日本電信電話株式会社 欠落音響信号合成処理方法
WO1999050828A1 (en) * 1998-03-30 1999-10-07 Voxware, Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
US6240141B1 (en) * 1998-05-09 2001-05-29 Centillium Communications, Inc. Lower-complexity peak-to-average reduction using intermediate-result subset sign-inversion for DSL
US6073151A (en) * 1998-06-29 2000-06-06 Motorola, Inc. Bit-serial linear interpolator with sliced output
JP3567750B2 (ja) 1998-08-10 2004-09-22 株式会社日立製作所 圧縮音声再生方法及び圧縮音声再生装置
US6975254B1 (en) 1998-12-28 2005-12-13 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Methods and devices for coding or decoding an audio signal or bit stream
US6453287B1 (en) * 1999-02-04 2002-09-17 Georgia-Tech Research Corporation Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders
US6366888B1 (en) 1999-03-29 2002-04-02 Lucent Technologies Inc. Technique for multi-rate coding of a signal containing information
US7039581B1 (en) * 1999-09-22 2006-05-02 Texas Instruments Incorporated Hybrid speed coding and system
US7222070B1 (en) * 1999-09-22 2007-05-22 Texas Instruments Incorporated Hybrid speech coding and system
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
US6757654B1 (en) * 2000-05-11 2004-06-29 Telefonaktiebolaget Lm Ericsson Forward error correction in speech coding
FR2813722B1 (fr) 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
JP4190742B2 (ja) * 2001-02-09 2008-12-03 ソニー株式会社 信号処理装置及び方法
US6996523B1 (en) * 2001-02-13 2006-02-07 Hughes Electronics Corporation Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system
US6931373B1 (en) * 2001-02-13 2005-08-16 Hughes Electronics Corporation Prototype waveform phase modeling for a frequency domain interpolative speech codec system
WO2002071389A1 (fr) 2001-03-06 2002-09-12 Ntt Docomo, Inc. Procede et dispositif d'interpolation de donnees sonores, procede et dispositif de creation d'informations relatives aux donnees sonores, procede et dispositif de transmission des informations d'interpolation des donnees sonores, et programme et support d'enregistrement correspondants
JP4622164B2 (ja) 2001-06-15 2011-02-02 ソニー株式会社 音響信号符号化方法及び装置
DE10130233A1 (de) 2001-06-22 2003-01-02 Bosch Gmbh Robert Verfahren zur Störverdeckung bei digitaler Audiosignalübertragung
US7590525B2 (en) * 2001-08-17 2009-09-15 Broadcom Corporation Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US7200561B2 (en) * 2001-08-23 2007-04-03 Nippon Telegraph And Telephone Corporation Digital signal coding and decoding methods and apparatuses and programs therefor
EP1315148A1 (en) * 2001-11-17 2003-05-28 Deutsche Thomson-Brandt Gmbh Determination of the presence of ancillary data in an audio bitstream
US6751587B2 (en) * 2002-01-04 2004-06-15 Broadcom Corporation Efficient excitation quantization in noise feedback coding with general noise shaping
US7047187B2 (en) 2002-02-27 2006-05-16 Matsushita Electric Industrial Co., Ltd. Method and apparatus for audio error concealment using data hiding
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
CA2388352A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for frequency-selective pitch enhancement of synthesized speed
DE10236694A1 (de) * 2002-08-09 2004-02-26 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren
US7657427B2 (en) * 2002-10-11 2010-02-02 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US20040083110A1 (en) 2002-10-23 2004-04-29 Nokia Corporation Packet loss recovery based on music signal classification and mixing
JP2004194048A (ja) 2002-12-12 2004-07-08 Alps Electric Co Ltd オーディオデータの転送方法および再生方法
US6985856B2 (en) 2002-12-31 2006-01-10 Nokia Corporation Method and device for compressed-domain packet loss concealment
US7139959B2 (en) * 2003-03-24 2006-11-21 Texas Instruments Incorporated Layered low density parity check decoding for digital communications
EP1465349A1 (en) * 2003-03-31 2004-10-06 Interuniversitair Microelektronica Centrum Vzw Embedded multiple description scalar quantizers for progressive image transmission
US7356748B2 (en) * 2003-12-19 2008-04-08 Telefonaktiebolaget Lm Ericsson (Publ) Partial spectral loss concealment in transform codecs
EP1914722B1 (en) * 2004-03-01 2009-04-29 Dolby Laboratories Licensing Corporation Multichannel audio decoding
US7668712B2 (en) * 2004-03-31 2010-02-23 Microsoft Corporation Audio encoding and decoding with intra frames and adaptive forward error correction
KR100647290B1 (ko) * 2004-09-22 2006-11-23 삼성전자주식회사 합성된 음성의 특성을 이용하여 양자화/역양자화를선택하는 음성 부호화/복호화 장치 및 그 방법
US7831421B2 (en) * 2005-05-31 2010-11-09 Microsoft Corporation Robust decoder

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005059900A1 (en) 2003-12-19 2005-06-30 Telefonaktiebolaget Lm Ericsson (Publ) Improved frequency-domain error concealment

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Taleb et al. 'Partial Spectral Loss Concealment in Transform Coders', ICASSP'05, Vol.3, pp.185-188, March 2005

Also Published As

Publication number Publication date
CN101346760A (zh) 2009-01-14
DE602006020316D1 (de) 2011-04-07
ATE499676T1 (de) 2011-03-15
KR20080070026A (ko) 2008-07-29
US20070094009A1 (en) 2007-04-26
EP1941500A1 (en) 2008-07-09
JP2009514032A (ja) 2009-04-02
JP4991743B2 (ja) 2012-08-01
EP1941500B1 (en) 2011-02-23
CN101346760B (zh) 2011-09-14
WO2007051124A1 (en) 2007-05-03
US8620644B2 (en) 2013-12-31

Similar Documents

Publication Publication Date Title
KR100998450B1 (ko) 오디오 코딩을 위한 인코더-보조 프레임 손실 은폐 기술
KR102230623B1 (ko) 다중의 오디오 신호들의 인코딩
US8428959B2 (en) Audio packet loss concealment by transform interpolation
JP4991854B2 (ja) オーディオ信号に関連付けられるフレームを持つ窓を修正するためのシステムと方法
US7447639B2 (en) System and method for error concealment in digital audio transmission
KR101468458B1 (ko) 멀티 포인트 환경에서의 스케일러블 오디오
US8385366B2 (en) Apparatus and method for transmitting a sequence of data packets and decoder and apparatus for decoding a sequence of data packets
TWI446338B (zh) 可擴縮音訊處理方法及裝置
EP2022045B1 (en) Decoding of predictively coded data using buffer adaptation
Hwang Multimedia networking: From theory to practice
KR101647576B1 (ko) 스테레오 오디오 신호 인코더
WO2023197809A1 (zh) 一种高频音频信号的编解码方法和相关装置
US9984698B2 (en) Optimized partial mixing of audio streams encoded by sub-band encoding
Xie et al. ITU-T G. 719: A new low-complexity full-band (20 kHz) audio coding standard for high-quality conversational applications
WO2009146734A1 (en) Multi-channel audio coding
TWI394398B (zh) 用於傳輸資料分組序列的設備和方法以及用於對資料分組序列進行解碼的解碼器和設備
Kurniawati et al. Error concealment scheme for MPEG-AAC
JPH03148929A (ja) 適応変換符号化復号方法及び装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20131030

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20141030

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20150930

Year of fee payment: 6

LAPS Lapse due to unpaid annual fee