KR100998450B1 - 오디오 코딩을 위한 인코더-보조 프레임 손실 은폐 기술 - Google Patents
오디오 코딩을 위한 인코더-보조 프레임 손실 은폐 기술 Download PDFInfo
- Publication number
- KR100998450B1 KR100998450B1 KR1020087012437A KR20087012437A KR100998450B1 KR 100998450 B1 KR100998450 B1 KR 100998450B1 KR 1020087012437 A KR1020087012437 A KR 1020087012437A KR 20087012437 A KR20087012437 A KR 20087012437A KR 100998450 B1 KR100998450 B1 KR 100998450B1
- Authority
- KR
- South Korea
- Prior art keywords
- frame
- domain data
- frequency domain
- sine
- subset
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 103
- 230000005236 sound signal Effects 0.000 claims abstract description 78
- 238000001514 detection method Methods 0.000 claims description 30
- 239000000284 extract Substances 0.000 claims description 20
- 230000008569 process Effects 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 51
- 238000005516 engineering process Methods 0.000 description 15
- 230000005540 biological transmission Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000003595 spectral effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000013500 data storage Methods 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229920001690 polydopamine Polymers 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/02—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Detection And Prevention Of Errors In Transmission (AREA)
Abstract
오디오 신호를 디코딩하는 인코더-보조 프레임 손실 은폐 (FLC) 기술이 개시되어 있다. 디코더는, 오디오 신호의 에러 프레임을 폐기할 수도 있으며, 인코더로부터 송신된 사이드 정보 및 이웃하는 프레임들에 기초하여 폐기된 프레임을 정확하게 은폐하기 위해 인코더-보조 FLC 기술을 구현할 수도 있다. 인코더-보조 FLC 기술은, 이웃하는 프레임들의 주파수 도메인 데이터에 기초하여 프레임에 대한 주파수 도메인 데이터의 크기를 추정하고, 사이드 정보로서 인코더로부터 송신된 사인의 서브세트에 기초하여 주파수 도메인 데이터의 사인을 추정하는 것을 포함한다. 오디오 신호의 프레임에 대한 주파수 도메인 데이터는 음조 성분 및 잡음 성분을 포함한다. 랜덤 신호로부터 추정된 사인은 주파수 도메인 데이터의 잡음 성분에 대해 실질적으로 정확할 수도 있다. 그러나, 음조 성분에 대한 매우 정확한 사인 추정을 달성하기 위해, 인코더는 사이드 정보로서 주파수 도메인 데이터의 음조 성분에 대한 사인을 송신한다.
인코더, 디코더, 인코더-보조 프레임 손실 은폐 (FLC) 기술, 프레임
Description
본 출원은 2005년 10월 26일 출원된 미국 가출원 제 60/730,459 호 및 2005년 10월 31일 출원된 미국 가출원 제 60/732,012 호의 이점을 주장한다.
기술 분야
본 발명은 오디오 코딩 기술에 관한 것으로, 특히 오디오 코딩을 위한 프레임 손실 은폐 기술에 관한 것이다.
배경
오디오 코딩은, 위성 라디오, 디지털 라디오, 인터넷 스트리밍 (웹 라디오), 디지털 음악 플레이어, 및 다양한 이동 멀티미디어 애플리케이션과 같은 다수의 애플리케이션 및 환경에서 사용된다. 동화상 전문가 그룹 (MPEG) 에 따른 표준, 윈도우즈 미디어 오디오 (WMA), 및 돌비 연구소에 의한 표준과 같은 다수의 오디오 코딩 표준이 존재한다. 애플 컴퓨터사에 의해 판매된 "iPod" 디바이스에서 사용된 고급 오디오 코딩 (AAC) 표준과 같은, MP3 표준 및 MP3 표준에 대한 후속물을 포함하는 다수의 오디오 코딩 표준들이 계속 나타나고 있다. 일반적으로, 오디오 코딩 표준들은, 압축 기술을 사용하여 낮은 비트레이트, 높은 품질의 오디오 코딩의 달성을 추구한다. 일부 오디오 코딩은 "코딩이 오디오 신호를 열화시키지 않는다는 것을 의미하는 "무손실 (loss-less)" 이지만, 다른 오디오 코딩은 추가 압축을 달성하기 위해 어떤 손실을 도입할 수도 있다.
다수의 애플리케이션에서, 비디오 전화 (VT) 또는 스트리밍 비디오와 같은 애플리케이션에 대해 멀티 미디어 컨텐츠를 제공하기 위해 오디오 코딩이 비디오 코딩과 사용된다. 예를 들어, MPEG 에 따른 비디오 코딩 표준들은 종종, 오디오 및 비디오 코딩을 사용한다. 현재, MPEG 표준들은, MPEG-1, MPEG-2 및 MPEG-4 를 포함하지만, 다른 표준들이 나타날 가능성도 있다. 다른 예시적인 비디오 표준들은, 국제 전기통신 연합 (ITU) H.263 표준, ITU H.264 표준, 애플 컴퓨터사에 의해 개발된 QuickTime™ 기술, 마이크로소프트사에 의해 개발된 Video for Windows™, 인텔사에 의해 개발된 Indeo™, RealNetworks, Inc 로부터의 RealVideo™, 및 SuperMac, Inc 에 의해 개발된 Cinepak™ 을 포함한다. 일부 오디오 및 비디오 표준들은 개방형 소스이지만, 다른 것들은 소유권이 있는 상태이다. 다수의 다른 오디오 및 비디오 코딩 표준들이 계속 나타나고 발전할 것이다.
송신된 오디오 신호에서 발생하는 비트스트림 에러는, 가청 인공현상의 도입으로 인해, 디코딩된 오디오 신호에 심각한 영향을 미칠 수도 있다. 이러한 품질 열화를 해결하기 위해, 에러 검출 모듈 및 프레임 손실 은폐 (FLC) 모듈을 포함하는 에러 제어 블록이 디코더에 부가될 수도 있다. 수신된 비트스트림의 프레임에서 에러가 검출되면, 에러 검출 모듈은 에러 프레임에 대한 모든 비트를 폐기한다. 그 후, FLC 모듈은, 지각적으로 심리스 (seamless) 한 사운딩 오디오 신호를 생성하기 위한 시도로, 그 폐기된 프레임을 대체하기 위해 오디오 데이터를 추정한다.
디코더 프레임 손실 은폐를 위한 다양한 기술이 제안되었다. 그러나, 대부분의 FLC 기술은, 은폐된 오디오 신호 품질과 구현 비용 사이의 과도한 트레이드오프로 인해 손상을 받는다. 예를 들어, 폐기된 프레임을 묵음, 잡음, 또는 이전 프레임의 오디오 데이터로 단순히 대체하는 것은, 낮은 계산적 비용이지만 불량한 은폐 성능으로 인해 어떤 과도한 트레이드오프를 나타낸다. 폐기된 프레임을 은폐하기 위한 소스 모델링에 기초하는 고급 기술은, 만족할 만한 은폐 성능을 달성하기 위해 높거나 심지어 엄청난 구현 비용을 요구함으로써 다른 과도함을 초래한다.
요약
일반적으로, 본 발명은 오디오 신호를 디코딩하는 인코더-보조 프레임 손실 은폐 (FLC) 기술에 관한 것이다. 인코더로부터 오디오 신호의 프레임에 대한 오디오 비트스트림을 수신할 때, 디코더는 에러 검출을 수행할 수도 있고, 에러가 검출될 때 프레임을 폐기할 수도 있다. 디코더는, 인코더로부터의 오디오 비트스트림과 송신된 사이드 정보 및 이웃하는 프레임들에 기초하여, 폐기된 프레임을 정확하게 은폐하기 위해 인코더-보조 FLC 기술을 구현할 수도 있다. 인코더-보조 FLC 기술은, 이웃하는 프레임들의 주파수 도메인 데이터에 기초하여 프레임에 대한 주파수 도메인 데이터의 크기를 추정하며, 사이드 정보로서 인코더로부터 송신된 사인 (sign) 의 서브세트에 기초하여 주파수 도메인 데이터의 사인을 추정하는 것을 포함한다. 이러한 방식으로, 인코더-보조 FLC 기술은, 가청 인공현상 의 발생을 감소시킬 수도 있어서 지각적으로 심리스한 사운딩 오디오 신호를 생성할 수도 있다.
오디오 신호의 프레임에 대한 주파수 도메인 데이터는 음조 (tonal) 성분 및 잡음 성분을 포함한다. 랜덤 신호로부터 추정된 사인은 주파수 도메인 데이터의 잡음 성분에 대해 실질적으로 정확할 수도 있다. 그러나, 음조 성분에 대한 매우 정확한 사인 추정을 달성하기 위해, 인코더는 사이드 정보로서 주파수 도메인 데이터의 음조 성분에 대한 사인을 송신한다. 디코더로 송신된 사이드 정보의 양을 최소화시키기 위해, 인코더는 프레임내의 음조 성분의 위치를 송신하지 않는다. 대신, 인코더 및 디코더 양자는 동일한 동작을 사용하여 음조 성분의 위치를 자체 유도한다. 따라서, 인코더-보조 FLC 기술은, 인코더가 최소량의 사이드 정보를 송신하면서, 디코더에서 프레임 은폐 품질의 현저한 개선을 달성한다.
본 명세서에 설명하는 인코더-보조 FLC 기술은 윈도우즈 미디어 오디오 (WMA) 표준, MP3 표준, 및 AAC (고급 오디오 코딩) 표준과 같은 오디오 코딩 표준을 사용하는 멀티미디어 애플리케이션에서 구현될 수도 있다. AAC 표준의 경우에서, 오디오 신호의 프레임의 주파수 도메인 데이터는 변형 이산 코사인 변환 (MDCT) 계수에 의해 표현된다. MDCT 계수 각각은 음조 성분 또는 잡음 성분을 포함한다. 일 프레임은 1024개 MDCT 계수를 포함할 수도 있으며, MDCT 계수 각각은 크기 및 사인을 포함한다. 인코더-보조 FLC 기술은 폐기된 프레임에 대한 MDCT 계수의 크기 및 사인을 개별적으로 추정한다.
일 실시형태에서, 본 발명은 오디오 신호의 프레임을 은폐하는 방법을 제공 한다. 이 방법은, 프레임의 이웃하는 프레임에 기초하여 프레임에 대한 주파수 도메인 데이터의 크기를 추정하는 단계; 사이드 정보로서 인코더로부터 송신된 프레임에 대한 사인의 서브세트에 기초하여 프레임에 대한 주파수 도메인 데이터의 사인을 추정하는 단계; 및 프레임에 대한 주파수 도메인 데이터를 추정하기 위해 크기 추정치와 사인 추정치를 결합하는 단계를 포함한다.
다른 실시형태에서, 본 발명은 오디오 신호의 프레임을 은폐하는 명령들을 포함하는 컴퓨터 판독가능 매체를 제공한다. 이 명령들은, 프로그램가능한 프로세서로 하여금, 프레임의 이웃하는 프레임들에 기초하여 프레임에 대한 주파수 도메인 데이터의 크기를 추정하게 하며, 사이드 정보로서 인코더로부터 송신된 프레임에 대한 사인의 서브세트에 기초하여 프레임에 대한 주파수 도메인 데이터의 사인을 추정하게 한다. 또한, 이 명령들은, 프로그램가능한 프로세서로 하여금, 프레임에 대한 주파수 도메인 데이터를 추정하기 위해 크기 추정치와 사인 추정치를 결합하게 한다.
또 다른 실시형태에서, 본 발명은 사이드 정보로서 프레임에 대한 사인의 서브세트를 송신하는 인코더, 및 그 인코더로부터 프레임에 대한 사이드 정보를 수신하는 FLC 모듈을 포함하는 디코더를 구비하는 오디오 신호의 프레임을 은폐하는 시스템을 제공한다. 디코더내의 FLC 모듈은, 프레임의 이웃하는 프레임들에 기초하여 프레임에 대한 주파수 도메인 데이터의 크기를 추정하고, 수신된 사이드 정보에 기초하여 프레임에 대한 주파수 도메인 데이터의 사인을 추정하며, 프레임에 대한 주파수 도메인 데이터를 추정하기 위해 크기 추정치와 사인 추정치를 결합한다.
또 다른 실시형태에서, 본 발명은 오디오 신호의 프레임에 대한 주파수 도메인 데이터의 성분을 선택하는 성분 선택 모듈, 및 프레임에 대한 주파수 도메인 데이터로부터 선택된 성분에 대한 사인의 서브세트를 추출하는 사인 추출기를 구비하는 인코더를 제공한다. 이 인코더는 프레임에 대한 사인의 서브세트를 사이드 정보로서 디코더로 송신한다.
또 다른 실시형태에서, 본 발명은 프레임의 이웃하는 프레임들에 기초하여 오디오 신호의 프레임에 대한 주파수 도메인 데이터의 크기를 추정하는 크기 추정기, 및 사이드 정보로서 인코더로부터 송신된 프레임에 대한 사인의 서브세트에 기초하여 프레임에 대한 주파수 도메인 데이터의 사인을 추정하는 사인 추정기를 포함하는 FLC 모듈 구비하는 디코더를 제공한다. 이 디코더는 프레임에 대한 주파수 도메인 데이터를 추정하기 위해 크기 추정치와 사인 추정치를 결합한다.
본 명세서에 설명하는 기술은 하드웨어, 소프트웨어, 펌웨어, 또는 이들의 임의의 조합에서 구현될 수도 있다. 소프트웨어에서 구현되는 경우에, 이 기술은, 프로그램가능한 프로세서에 의해 실행될 때, 본 명세서에 설명한 방법들 중 하나 이상을 수행하는 명령들을 포함하는 프로그램 코드를 구비한 컴퓨터 판독가능 매체에 의해 부분적으로 실현될 수도 있다.
하나 이상의 실시형태의 상세가 첨부한 도면 및 아래의 상세한 설명에 설명된다. 본 발명의 다른 특징, 목적, 및 이점은 상세한 설명 및 도면, 및 청구범위로부터 명백할 것이다.
도면의 간단한 설명
도 1 은, 인코더-보조 프레임 손실 은폐 (FLC) 기술을 구현하는 오디오 인코더-디코더 (코덱) 를 통합한 오디오 인코딩 및 디코딩 시스템을 예시하는 블록도이다.
도 2 는, 도 1 로부터의 오디오 인코딩 및 디코딩 시스템으로 인코더-보조 프레임 손실 은폐를 수행하는 예시적인 동작을 예시하는 플로우차트이다.
도 3 은, 사이드 정보로서 송신될 프레임에 대한 사인의 서브세트를 생성하는 프레임 손실 은폐 모듈을 포함하는 예시적인 오디오 인코더를 예시하는 블록도이다.
도 4 는, 사이드 정보로서 인코더로부터 수신된 프레임에 대한 사인의 서브세트를 이용하는 프레임 손실 은폐 모듈을 포함하는 예시적인 오디오 디코더를 예시하는 블록도이다.
도 5 는, 사이드 정보로서 오디오 비트스트림과 송신될 프레임에 대한 사인의 서브세트를 생성하고 오디오 비트스트림을 인코딩하는 예시적인 동작을 예시하는 플로우차트이다.
도 6 은, 사이드 정보로서 인코더로부터 수신된 프레임에 대한 사인의 서브세트를 사용하여 프레임 손실 은폐를 수행하고 오디오 비트스트림을 디코딩하는 예시적인 동작을 예시하는 플로우차트이다.
도 7 은, 사이드 정보로서 송신될 프레임에 대한 사인의 서브세트를 생성하는 사인 추출기 및 성분 선택 모듈을 포함하는 또 다른 예시적인 오디오 인코더를 예시하는 블록도이다.
도 8 은, 사이드 정보로서 인코더로부터 수신된 프레임에 대한 사인의 서브세트를 이용하는 프레임 손실 은폐 모듈을 포함하는 또 다른 예시적인 오디오 디코더를 예시하는 블록도이다.
도 9 는, 사이드 정보로서 오디오 비트스트림과 송신될 프레임에 대한 사인의 서브세트를 생성하고 오디오 비트스트림을 인코딩하는 또 다른 예시적인 동작을 예시하는 플로우차트이다.
도 10 은, 사이드 정보로서 인코더로부터 수신된 프레임에 대한 사인의 서브세트를 사용하여 프레임 손실 은폐를 수행하고 오디오 비트스트림을 디코딩하는 또 다른 예시적인 동작을 예시하는 플로우차트이다.
도 11 은, 본 명세서에 설명한 인코더-보조 프레임 손실 은폐 기술의 프레임 손실율과 종래의 프레임 손실 은폐 기술의 프레임 손실율 사이의 품질 비교를 예시하는 도면이다.
상세한 설명
도 1 은, 인코더-보조 프레임 손실 은폐 (FLC) 기술을 구현하는 오디오 인코더-디코더 (코덱) 을 통합한 오디오 인코딩 및 디코딩 시스템 (2) 을 예시하는 블록도이다. 도 1 에 도시되어 있는 바와 같이, 시스템 (2) 은 제 1 통신 디바이스 (3) 및 제 2 통신 디바이스 (4) 를 포함한다. 시스템 (2) 은 또한, 통신 디바이스들 (3 및 4) 을 접속시키는 송신 채널 (5) 을 포함한다. 시스템 (2) 은 송신 채널 (5) 을 통해 통신 디바이스들 (3 및 4) 사이의 2-방향 오디오 데이터 송신을 지원한다.
예시된 실시형태에서, 통신 디바이스 (3) 는 FLC 모듈 (7) 을 갖는 오디오 코덱 (6) 및 멀티플렉싱 (mux)/디멀티플렉싱 (demux) 컴포넌트 (8) 를 포함한다. 통신 디바이스 (4) 는 mux/demux 컴포넌트 (9) 및 FLC 모듈 (11) 을 갖는 오디오 코덱 (10) 을 포함한다. 각각의 오디오 코덱 (6 및 10) 의 FLC 모듈 (7 및 11) 은, 본 명세서에 설명한 인코더-보조 FLC 기술에 따라, 인코더로부터 송신된 사이드 정보 및 이웃하는 프레임들에 기초하여 오디오 신호의 폐기된 프레임을 정확하게 은폐할 수도 있다. 다른 실시형태에서, FLC 모듈 (7 및 11) 은 인코더로부터 송신된 추가 사이드 정보를 이용하여 이웃하는 프레임들에 기초하여 오디오 신호의 다중의 폐기된 프레임을 정확하게 은폐할 수도 있다.
통신 디바이스 (3 및 4) 는 오디오 데이터를 전송 및 수신하도록 구성될 수도 있다. 통신 디바이스 (3 및 4) 는 무선 이동 단말기 또는 유선 단말기로서 구현될 수도 있다. 이 목적을 위해, 통신 디바이스 (3 및 4) 는 적절한 무선 송신기, 수신기, 모뎀, 및 무선 통신을 지원하기 위한 프로세싱 전자장비를 더 포함할 수도 있다. 무선 이동 단말기의 예들로는, 이동 무선 전화, 이동 개인 보조 단말기 (PDA), 이동 컴퓨터, 또는 무선 통신 능력 및 오디오 인코딩 및/또는 디코딩 능력이 장착된 다른 이동 디바이스를 포함한다. 유선 단말기의 예들로는, 데스크탑 컴퓨터, 비디오 전화, 네트워크 기구, 셋탑 박스, 대화형 텔레비전 등을 포함한다.
송신 채널 (5) 은 유선 또는 무선 통신 매체일 수도 있다. 무선 통신에서, 대역폭은, 매우 낮은 비트레이트가 종종 요구되기 때문에 중요한 관심사이다. 특히, 송신 채널 (5) 는 채널 (5) 을 통한 대량의 오디오 데이터의 송신을 매우 문제점으로 만드는 제한된 대역폭을 가질 수도 있다. 예를 들어, 송신 채널 (5) 은, 채널 (5) 에서의 물리적 제약, 또는 가능하게는 송신 채널 (5) 의 제공자에 의해 부과된 대역폭 할당 제약 또는 서비스 품질 (QoS) 제한으로 인해 제한된 대역폭을 갖는 무선 통신 링크일 수도 있다.
각각의 통신 디바이스 (3 및 4) 내의 오디오 코덱 (6 및 10) 각각은 동화상 전문가 그룹 (MPEG) 에 따른 표준, 돌비 연구소에 의한 표준, 윈도우즈 미디어 오디오 (WMA) 표준, MP3 표준, 및 고급 오디오 코딩 (AAC) 표준과 같은 오디오 코딩 표준들에 따라 오디오 데이터를 인코딩 및 디코딩한다. 일반적으로, 오디오 코딩 표준들은 압축 기술을 사용하여 낮은 비트레이트, 고품질 오디오 코딩의 달성을 추구한다. 일부 오디오 코딩은, 코딩이 오디오 신호를 열화시키지 않는 "무손실" 이지만, 다른 오디오 코딩은 추가 압축을 달성하기 위해 어떤 손실을 도입할 수도 있다.
일부 실시형태에서, 통신 디바이스 (3 및 4) 는 또한, 각각의 오디오 코덱 (6 및 10) 과 통합된 비디오 코덱 (미도시) 을 포함할 수도 있으며, 데이터 스트림의 오디오 및 비디오 부분을 처리하기 위한 적절한 mux/demux 컴포넌트 (8 및 9) 를 포함할 수도 있다. mux/demux 컴포넌트 (8 및 9) 는 국제 전기통신 연합 (ITU) H.223 멀티플렉서 프로토콜, 또는 사용자 데이터그램 프로토콜 (UDP) 과 같은 다른 프로토콜에 따를 수도 있다.
오디오 코딩은 비디오 전화 (VT) 또는 스트리밍 비디오와 같은 애플리케이션 에 대해 멀티미디어 컨텐츠를 제공하기 위해 비디오 코딩과 함께 사용될 수도 있다. 예를 들어, MPEG 에 따른 비디오 코딩 표준은 종종 오디오 및 비디오 코딩을 사용한다. MPEG 표준은 현재 MPEG-1, MPEG-2 및 MPEG-4 를 포함하지만, 다른 표준들이 나타날 가능성이 있다. 다른 예시적인 비디오 표준들은, ITU H.263 표준, ITU H.264 표준, 애플 컴퓨터사에 의해 개발된 QuickTime™ 기술, 마이크로소프트사에 의해 개발된 Video for Windows™, 인텔사에 의해 개발된 Indeo™, RealNetworks, Inc 로부터의 RealVideo™, 및 SuperMac, Inc 에 의해 개발된 Cinepak™ 를 포함한다.
예시를 위해, 통신 디바이스 (3 및 4) 각각이 오디오 데이터의 전송자 및 수신자 모두로서 동작할 수 있다고 가정한다. 통신 디바이스 (3) 로부터 통신 디바이스 (4) 로 송신된 오디오 데이터에 대해, 통신 디바이스 (3) 는 전송 디바이스이고, 통신 디바이스 (4) 는 수신 디바이스이다. 이러한 경우에서, 통신 디바이스 (3) 내의 오디오 코덱 (6) 은 인코더로서 동작할 수도 있고, 통신 디바이스 (4) 내의 오디오 코덱 (10) 은 디코더로서 동작할 수도 있다. 반대로, 통신 디바이스 (4) 로부터 통신 디바이스 (3) 로 송신된 오디오 데이터에 대해, 통신 디바이스 (3) 는 수신 디바이스이고, 통신 디바이스 (4) 는 전송 디바이스이다. 이러한 경우에서, 통신 디바이스 (3) 내의 오디오 코덱 (6) 은 디코더로서 동작할 수도 있고, 통신 디바이스 (4) 내의 오디오 코덱 (10) 은 인코더로서 동작할 수도 있다. 또한, 본 명세서에 설명하는 기술은 이러한 오디오 데이터를 전송만 하거나 수신만 하는 디바이스에 적용될 수도 있다.
개시된 기술에 따르면, 수신 디바이스로서 동작하는 통신 디바이스 (4) 는 전송 디바이스로서 동작하는 통신 디바이스 (3) 로부터 오디오 신호의 프레임에 대한 오디오 비트스트림을 수신한다. 통신 디바이스 (4) 내에서 디코더로서 동작하는 오디오 코덱 (10) 은 에러 검출을 수행할 수도 있고, 에러가 검출될 때 프레임을 폐기한다. 오디오 코덱 (10) 은 통신 디바이스 (3) 로부터의 오디오 비트스트림과 함께 송신된 사이드 정보에 기초하여, 폐기된 프레임을 정확하게 은폐하기 위한 인코더-보조 FLC 기술을 구현할 수도 있다. 인코더-보조 FLC 기술은, 이웃하는 프레임들의 주파수 도메인 데이터에 기초하여 프레임에 대한 주파수 도메인 데이터의 크기를 추정하며, 사이드 정보로서 인코더로부터 송신된 사인의 서브세트에 기초하여 주파수 도메인 데이터의 사인을 추정하는 것을 포함한다.
오디오 신호의 프레임에 대한 주파수 도메인 데이터는 음조 성분 및 잡음 성분을 포함한다. 랜덤 신호로부터 추정된 사인은 주파수 도메인 데이터의 잡음 성분에 대해 실질적으로 정확할 수도 있다. 그러나, 음조 성분에 대한 매우 정확한 사인 추정을 달성하기 위해, 인코더는 주파수 도메인 데이터의 음조 성분에 대한 사인을 사이드 정보로서 디코더로 송신한다.
예를 들어, 통신 디바이스 (4) 내에서 디코더로서 동작하는 오디오 코덱 (10) 의 FLC 모듈 (11) 은, 크기 추정기, 성분 선택 모듈, 및 사인 추정기를 포함할 수도 있지만, 이들 컴포넌트는 도 1 에 도시하지 않았다. 크기 추정기는 오디오 신호의 이웃하는 프레임들로부터의 주파수 도메인 데이터를 카피한다. 그 후, 크기 추정기는 폐기된 프레임에 대한 주파수 도메인 데이터의 크기를 추정하기 위해, 카피된 주파수 도메인 데이터의 에너지를 스케일링한다. 성분 선택 모듈은 프레임에 대한 주파수 도메인 데이터의 음조 성분과 잡음 성분 사이를 구별한다. 이러한 방식으로, 성분 선택 모듈은 프레임내의 음조 성분의 위치를 유도한다. 사인 추정기는, 사이드 정보로서 통신 디바이스 (3) 로부터 송신된 프레임에 대한 사인의 서브세트에 기초하여 성분 선택 모듈에 의해 선택된 음조 성분에 대한 사인을 추정하기만 한다. 그 후, 디코더로서 동작하는 오디오 코덱 (10) 은, 음조 성분에 대한 사인 추정치를 대응하는 크기 추정치와 결합한다.
통신 디바이스 (3) 내에서 인코더로서 동작하는 오디오 코덱 (6) 은, 성분 선택 모듈 및 사인 추출기를 포함할 수도 있지만, 이들 컴포넌트는 도 1 에 도시하지 않았다. 성분 선택 모듈은 프레임에 대한 주파수 도메인 데이터의 음조 성분과 잡음 성분 사이를 구별한다. 이러한 방식으로, 성분 선택 모듈은 프레임내의 음조 성분의 위치를 유도한다. 사인 추출기는 성분 선택 모듈에 의해 선택된 음조 성분에 대한 사인의 서브세트를 추출한다. 그 후, 추출된 사인은 사이드 정보로서, 인코딩된 오디오 비트스트림으로 팩킹 (pack) 된다. 예를 들어, 프레임에 대한 사인의 서브세트는 이웃하는 프레임에 대한 오디오 비트스트림에 부착될 수도 있다.
송신 채널 (5) 을 가로질러 송신된 사이드 정보의 양을 최소화시키기 위해, 인코더로서 동작하는 오디오 코덱 (6) 은 음조 성분에 대한 사인의 서브세트와 함께 프레임내의 음조 성분의 위치를 송신하지 않는다. 대신, 오디오 코덱 (6 및 10) 모두는 동일한 동작을 사용하여 음조 성분의 위치를 자체 유도한다. 다시 말해서, 인코더로서 동작하는 오디오 코덱 (6) 은 디코더로서 동작하는 오디오 코덱 (10) 과 동일한 성분 선택 동작을 수행한다. 이러한 방식으로, 인코더-보조 FLC 기술은, 최소량의 사이드 정보가 인코더로부터 송신되면서, 디코더에서 프레임 은폐 품질의 현저한 개선을 달성한다.
AAC 표준을 이용하는 오디오 코덱 (6 및 10) 의 경우에서, 오디오 신호의 프레임의 주파수 도메인 데이터는 변형 이산 코사인 변환 (MDCT) 계수에 의해 표현된다. 일 프레임은 1024개 MDCT 계수를 포함할 수도 있으며, MDCT 계수 각각은 크기 및 사인을 포함한다. MDCT 계수중 일부는 음조 성분을 포함하며, 나머지 MDCT 계수는 잡음 성분을 포함한다. 오디오 코덱 (6 및 10) 은 폐기된 프레임에 대한 MDCT 계수의 크기 및 사인을 개별적으로 추정하기 위해 인코더-보조 FLC 기술을 구현할 수도 있다. 다른 오디오 표준의 경우에서, 다른 형태의 변환 계수가 프레임에 대한 주파수 도메인 데이터를 나타낼 수도 있다. 또한, 프레임은 임의의 수의 계수를 포함할 수도 있다.
도 2 는, 도 1 로부터의 오디오 인코딩 및 디코딩 시스템 (2) 으로 인코더-보조 프레임 손실 은폐를 수행하는 예시적인 동작을 예시하는 플로우차트이다. 예시를 위해, 통신 디바이스 (3) 는 인코더로서 동작하는 오디오 코덱 (6) 을 갖는 전송 디바이스로서 동작하며, 통신 디바이스 (4) 는 디코더로서 동작하는 오디오 코덱 (10) 을 갖는 수신 디바이스로서 동작한다.
통신 디바이스 (3) 는 프레임 (m+1) 에 대한 오디오 신호를 샘플링하며, 통신 디바이스 (3) 내의 오디오 코덱 (6) 은 시간 도메인 데이터를 프레임 (m+1) 에 대한 주파수 도메인 데이터로 변환한다. 그 후, 오디오 코덱 (6) 은 주파수 도메인 데이터를 프레임 (m+1) 에 대한 오디오 비트스트림으로 인코딩한다 (12). 오디오 코덱 (6) 은 프레임 (m) 에 대한 주파수 도메인 데이터를 생성하기 위해 프레임 지연을 수행할 수 있다. 주파수 도메인 데이터는 음조 성분 및 잡음 성분을 포함한다. 오디오 코덱 (6) 은 프레임 (m) 에 대한 주파수 도메인 데이터의 음조 성분에 대한 사인의 서브세트를 추출한다 (13).
일 실시형태에서, 오디오 코덱 (6) 은 추정된 인덱스 서브세트에 기초하여 프레임 (m) 에 대한 주파수 도메인 데이터의 음조 성분에 대한 사인의 서브세트를 추출하기 위해 FLC 모듈 (7) 을 이용한다. 추정된 인덱스 서브세트는 프레임 (m) 에 대한 주파수 도메인 데이터의 추정된 크기로부터 프레임 (m) 내의 음조 성분의 위치를 식별한다. FLC 모듈 (7) 은 크기 추정기, 성분 선택기 모듈, 및 사인 추출기를 포함할 수도 있지만, FLC 모듈 (7) 의 이들 컴포넌트는 도 1 에 도시하지 않았다. 성분 선택 모듈은 크기 추정기로부터의 프레임 (m) 에 대한 주파수 도메인 데이터의 추정된 크기에 기초하여 추정된 인덱스 서브세트를 생성할 수도 있다.
다른 실시형태에서, 오디오 코덱 (6) 은 프레임 (m+1) 에 대한 주파수 도메인 데이터의 크기로부터 프레임 (m+1) 내의 음조 성분의 위치를 식별하는 인덱스 서브세트에 기초하여 프레임 (m) 에 대한 주파수 도메인 데이터의 음조 성분에 대한 사인의 서브세트를 추출한다. 이러한 경우에서, 프레임 (m) 에 대한 인덱스 서브세트가 프레임 (m+1) 에 대한 인덱스 서브세트와 거의 등가이다고 가정한다. 오디오 코덱 (6) 은 성분 선택 모듈 및 사인 추출기를 포함할 수도 있지만, 이들 컴포넌트는 도 1 에 도시하지 않았다. 성분 선택 모듈은 프레임 (m+1) 에 대한 주파수 도메인 데이터의 크기에 기초하여 인덱스 서브세트를 생성할 수도 있다.
오디오 코덱 (6) 은 사이드 정보로서, 프레임 (m+1) 에 대한 오디오 비트스트림에 프레임 (m) 의 음조 성분에 대한 사인의 서브세트를 부착한다. 오디오 코덱 (6) 은 음조 성분의 위치를 프레임 (m+1) 에 대한 오디오 비트스트림에 부착하지 않는다. 대신, 오디오 코덱 (6 및 10) 모두는 동일한 동작을 사용하여 음조 성분의 위치를 자체 유도한다. 이러한 방식으로, 이 기술은 프레임 (m+1) 에 대한 오디오 비트스트림에 부착될 사이드 정보의 양을 최소화시킨다. 그 후, 통신 디바이스 (3) 는 프레임 (m) 에 대한 사인의 서브세트를 포함하는 프레임 (m+1) 에 대한 오디오 비트스트림을 송신 채널 (5) 을 통해 통신 디바이스 (4) 로 송신한다 (14).
통신 디바이스 (4) 는 프레임 (m) 에 대한 오디오 비트스트림을 수신한다 (15). 통신 디바이스 (4) 내의 오디오 코덱 (10) 은 오디오 비트스트림에 대한 에러 검출을 수행하고, 에러가 오디오 비트스트림에서 발견될 때 프레임을 폐기한다 (16). 통신 디바이스 (4) 는 프레임 (m) 의 음조 성분에 대한 사인의 서브세트를 포함하는 프레임 (m+1) 에 대한 오디오 비트스트림을 수신한다 (17). 그 후, 오디오 코덱 (10) 은 통신 디바이스 (3) 로부터 프레임 (m+1) 에 대한 오디오 비트스트림과 함께 송신된 프레임 (m) 의 음조 성분에 대한 사인의 서브세트를 사용함으로써, 폐기된 프레임 (m) 에 대한 프레임 손실 은폐를 수행하기 위해 FLC 모듈 (11) 을 사용한다 (18). FLC 모듈 (11) 은 크기 추정기, 성분 선택 모듈, 및 사인 추정기를 포함할 수도 있지만, FLC 모듈 (11) 의 이들 컴포넌트는 도 1 에 도시하지 않았다.
FLC 모듈 (11) 내의 크기 추정기는 이웃하는 프레임들 (m-1 및 m+1) 에 대한 주파수 도메인 데이터에 기초하여 프레임 (m) 에 대한 주파수 도메인 데이터의 크기를 추정할 수도 있다. 일 실시형태에서, 성분 선택 모듈은 크기 추정기로부터의 프레임 (m) 에 대한 주파수 도메인 데이터의 추정된 크기에 기초하여 프레임 (m) 내의 음조 성분의 위치를 식별하는 추정된 인덱스 서브세트를 생성할 수도 있다. 그 후, 사인 추정기는 프레임 (m) 에 대한 추정된 인덱스 서브세트에 기초하여 프레임 (m) 에 대한 사인의 서브세트로부터 프레임 (m) 내의 음조 성분에 대한 사인을 추정할 수도 있다.
다른 실시형태에서, 성분 선택 모듈은 프레임 (m+1) 에 대한 주파수 도메인 데이터의 크기로부터 프레임 (m+1) 내의 음조 성분의 위치를 식별하는 인덱스 서브세트를 생성할 수도 있다. 이러한 경우에서, 프레임 (m) 에 대한 인덱스 서브세트가 프레임 (m+1) 에 대한 인덱스 서브세트에 거의 등가이다고 가정한다. 그 후, 사인 추정기는 프레임 (m+1) 에 대한 인덱스 서브세트에 기초하여 프레임 (m) 에 대한 사인의 서브세트로부터 프레임 (m) 내의 음조 성분에 대한 사인을 추정한다.
FLC 모듈 (11) 내의 사인 추정기는 랜덤 신호로부터 프레임 (m) 내의 잡음 성분에 대한 사인을 추정할 수도 있다. 그 후, 오디오 코덱 (10) 은 프레임 (m) 에 대한 주파수 도메인 데이터를 추정하기 위해, 음조 성분 및 잡음 성분에 대한 사인 추정치를 대응하는 크기 추정치와 결합한다. 그 후, 오디오 코덱 (10) 은 프레임 (m) 에 대한 추정된 주파수 도메인 데이터를 프레임 (m) 에 대한 오디오 신호의 추정된 시간 도메인 데이터로 디코딩한다 (19).
도 3 은 사이드 정보로서 송신될 프레임에 대한 사인의 서브세트를 생성하는 FLC 모듈 (33) 을 포함하는 예시적인 오디오 인코더 (20) 를 예시하는 블록도이다. 오디오 인코더 (20) 는 도 1 로부터의 각각의 통신 디바이스 (3 및 4) 내의 오디오 코덱 (6 및 10) 과 실질적으로 유사할 수도 있다. 도 3 에 예시된 바와 같이, 오디오 인코더 (20) 는 변환 유닛 (22), 코어 인코더 (24), 제 1 프레임 지연부 (30), 제 2 프레임 지연부 (32), 및 FLC 모듈 (33) 을 포함한다. 예시를 위해, 본 명세서에서는 오디오 인코더 (20) 를, 오디오 신호의 프레임의 주파수 도메인 데이터가 MDCT 계수로 표현되는 AAC 표준에 따르는 것으로서 설명한다. 또한, 변환 유닛 (22) 을 변형 이산 코사인 변환 유닛으로서 설명한다. 다른 실시형태에서, 오디오 인코더 (20) 는 상기 리스트된 임의의 오디오 코딩 표준, 또는 다른 표준을 따를 수도 있다.
본 명세서에서는, 이 기술을 오디오 신호의 프레임 (m) 을 은폐하는 것으로서 설명한다. 프레임 (m+1) 은 오디오 신호의 프레임 (m) 의 직후의 오디오 프레임을 나타낸다. 유사하게, 프레임 (m-1) 은 오디오 신호의 프레임 (m) 의 직전의 오디오 프레임을 나타낸다. 다른 실시형태에서, 인코더-보조 FLC 기술은 프레임 (m) 을 은폐하기 위해 프레임 (m) 의 직전 또는 직후가 아닌 프레임 (m) 의 이웃하는 프레임을 이용할 수도 있다.
변환 유닛 (22) 은 프레임 (m+1) 에 대한 오디오 신호의 샘플 xm +1[n] 을 수신하고, 그 샘플을 계수 Xm +1(k) 로 변환한다. 그 후, 코어 인코더 (24) 는 그 계수를 프레임 (m+1) 에 대한 오디오 비트스트림 (26) 으로 인코딩한다. FLC 모듈 (33) 은, 프레임 (m+1) 에 대한 계수 Xm +1(k) 뿐만 아니라 프레임 (m) 에 대한 계수 Xm(k) 및 프레임 (m-1) 에 대한 계수 Xm -1(k) 를 사용하여, 프레임 (m) 에 대한 계수 Xm(k) 의 음조 성분에 대한 사인 Sm (28) 의 서브세트를 생성한다. FLC 모듈 (33) 은 사이드 정보로서 프레임 (m+1) 에 대한 오디오 비트스트림 (26) 에 사인 Sm (28) 의 서브세트를 부착한다.
FLC 모듈 (33) 은 크기 추정기 (34), 성분 선택 모듈 (36), 사인 추출기 (38) 를 포함한다. 변환 유닛 (22) 은 프레임 (m+1) 에 대한 계수 Xm +1(k) 를 크기 추정기 (34) 및 제 1 프레임 지연부 (30) 로 전송한다. 제 1 프레임 지연부 (30) 는 프레임 (m) 에 대한 계수 Xm(k) 를 생성하여, 프레임 (m) 에 대한 계수를 제 2 프레임 지연부 (32) 로 전송한다. 제 2 프레임 지연부 (32) 는 프레임 (m-1) 에 대한 계수 Xm -1(k) 를 생성하여, 프레임 (m-1) 에 대한 계수를 크기 추정기 (34) 로 전송한다.
크기 추정기 (34) 는 프레임 (m+1 및 m-1) 에 대한 계수에 기초하여 프레임 (m) 에 대한 계수의 크기를 추정한다. 크기 추정기 (34) 는 프레임 (m) 에 대한 계수 크기를 추정하기 위해 다양한 보간 기술중 하나를 구현할 수도 있다. 예를 들어, 크기 추정기 (34) 는 프레임 (m-1) 에 대한 이전의 프레임 계수 Xm -1(k) 및 프레임 (m+1) 에 대한 다음의 프레임 계수 Xm +1(k) 의 에너지에 기초하여 에너지 보간을 구현할 수도 있다. 크기 추정은,
[수학식 1]
[수학식 2]
에 의해 계산된 에너지 스케일링 팩터이고, 여기서, Bb 는 b번째 스케일팩터 대역에서의 MDCT 계수의 세트이다. 다른 실시형태에서, 크기 추정기 (34) 는 프레임 (m) 의 직전 또는 직후가 아닌 프레임 (m) 의 이웃하는 프레임을 이용하여, 프레임 (m) 에 대한 계수의 크기를 추정할 수도 있다.
그 후, 크기 추정기 (34) 는 프레임 (m) 에 대한 추정된 계수 크기 를 성분 선택 모듈 (36) 로 전송한다. 성분 선택 모듈 (36) 은, 프레임 (m) 에 대한 추정된 계수 크기를 정렬함으로써 프레임 (m) 의 음조 성분과 잡음 성분 사이를 구별한다. 가장 큰 크기 또는 가장 현저한 스펙트럼 피크를 갖는 계수가 음조 성분으로서 고려될 수도 있고, 나머지 계수가 잡음 성분으로 고려될 수도 있다.
선택된 음조 성분의 수는 송신될 사인의 소정의 수에 기초할 수도 있다. 예를 들어, 가장 높은 크기를 갖는 10개의 계수가 프레임 (m) 의 음조 성분으로서 선택될 수도 있다. 다른 경우에서, 성분 선택 모듈 (36) 은 10개 보다 많은 또는 적은 음조 성분을 선택할 수도 있다. 또 다른 경우에서, 프레임 (m) 에 대한 선택된 음조 성분의 수는 오디오 신호에 기초하여 변화할 수도 있다. 예를 들어, 오디오 신호가 오디오 신호의 다른 프레임에서 보다 프레임 (m) 에서 다수의 음조 성분을 포함하는 경우에, 성분 선택 모듈 (36) 은 다른 프레임으로부터 보다는 프레임 (m) 으로부터 다수의 음조 성분을 선택할 수도 있다.
다른 실시형태에서, 성분 선택 모듈 (36) 은 프레임 (m) 의 음조 성분과 잡음 성분 사이를 구별하기 위해 다양한 다른 방식을 사용하여 프레임 (m) 에 대한 추정된 계수 크기로부터 음조 성분을 선택할 수도 있다. 예를 들어, 성분 선택 모듈 (36) 은 일부 음향심리학 원리에 기초하여 계수의 서브세트를 선택할 수도 있다. FLC 모듈 (33) 은 오디오 인코더 (20) 의 복잡도 레벨이 허용하는 만큼 더욱 정확한 성분 구별방식을 이용할 수도 있다.
그 후, 성분 선택 모듈 (36) 은 프레임 (m) 에 대한 추정된 계수 크기로부터 선택된 음조 성분의 위치를 식별하는 추정된 인덱스 서브세트 를 생성한다. 음조 성분은 가장 현저한 크기를 갖는 프레임 (m) 에 대한 계수로서 선택된다. 그러나, 프레임 (m) 에 대한 계수는, 프레임 (m) 의 은폐를 수행할 때 오디오 디코더에 이용가능하지 않다. 따라서, 인덱스 서브세트는 프레임 (m) 에 대한 추정된 계수 크기 에 기초하여 유도되며, 추정된 인덱스 서브세트라 칭한다. 추정된 인덱스 서브세트는,
[수학식 3]
과 같이 제공되며, 여기서, M 은 프레임 (m) 내의 MDCT 계수의 수이고, Thr 은 이도록 결정된 임계값이며, Bm 은 송신될 사인의 수이다. 예를 들어, Bm 은 예시적인 실시형태에서 10개의 사인과 동일할 수도 있다. 다른 실시형태에서, Bm 은 10개 보다 크거나 작을 수도 있다. 또 다른 실시형태에서, Bm 은 프레임 (m) 의 오디오 신호에 기초하여 변화할 수도 있다.
성분 선택 모듈 (36) 은 프레임 (m) 에 대한 추정된 인덱스 서브세트를 사인 추출기 (38) 로 전송한다. 또한, 사인 추출기 (38) 는 제 1 프레임 지연부 (30) 로부터 프레임 (m) 에 대한 계수 Xm(k) 를 수신한다. 그 후, 사인 추출기 (38) 는 추정된 인덱스 서브세트에 의해 식별된 프레임 (m) 에 대한 계수 Xm(k) 로 부터 사인을 추출한다. 예를 들어, 추정된 인덱스 서브세트는 프레임 (m) 에 대한 추정된 계수 크기로부터 선택된 음조 성분을 식별하는 소정의 수, 예를 들어, 10개의 계수 인덱스를 포함한다. 그 후, 사인 추출기 (38) 는 추정된 인덱스 서브세트내의 인덱스와 동일한 인덱스 (k) 를 갖는 프레임 (m) 에 대한 계수 Xm(k) 에 대응하는 사인을 추출한다. 그 후, 사인 추출기 (38) 는 추정된 인덱스 서브세트에 의해 식별된 프레임 (m) 에 대한 음조 성분으로부터 추출된 사인 Sm (28) 의 서브세트를 프레임 (m+1) 에 대한 오디오 비트스트림 (26) 에 부착한다.
성분 선택 모듈 (36) 은 오디오 인코더 (20) 로부터의 송신을 수신하는 오디오 디코더와 동일한 동작을 사용하여 프레임 (m) 내의 음조 성분을 선택한다. 따라서, 프레임 (m) 에 대한 추정된 계수 크기로부터 선택된 음조 성분의 위치를 식별하는 동일한 추정된 인덱스 서브세트 가 오디오 인코더 (20) 및 오디오 디코더 모두에서 생성될 수도 있다. 그 후, 오디오 디코더는 프레임 (m) 의 음조 성분에 대한 사인 Sm (28) 의 서브세트를, 추정된 인덱스 서브세트에 의해 식별된 프레임 (m) 의 적절한 추정된 계수 크기에 적용할 수도 있다. 이러한 방식으로, 오디오 인코더 (20) 가 사인 Sm (28) 의 서브세트와 함께 프레임 (m) 내의 음조 성분의 위치를 송신할 필요가 없기 때문에, 송신된 사이드 정보의 양이 최소화될 수도 있다.
도 4 는, 사이드 정보로서 인코더로부터 수신된 프레임에 대한 사인의 서브 세트를 이용하는 프레임 손실 은폐 모듈 (43) 을 포함하는 예시적인 오디오 디코더 (40) 를 예시하는 블록도이다. 오디오 디코더 (40) 는 도 1 로부터의 각각의 통신 디바이스 (3 및 4) 내의 오디오 코덱 (6 및 10) 과 실질적으로 유사할 수도 있다. 오디오 디코더 (40) 는 도 3 으로부터의 오디오 인코더 (20) 와 실질적으로 유사한 오디오 인코더로부터 오디오 비트스트림을 수신할 수도 있다. 도 4 에 예시된 바와 같이, 오디오 디코더 (40) 는 코어 디코더 (41), 에러 검출 모듈 (42), FLC 모듈 (43) 및 역변환 유닛 (50) 을 포함한다.
예시를 위해, 오디오 디코더 (40) 는 본 명세서에서, 오디오 신호의 프레임의 주파수 도메인 데이터가 MDCT 계수에 의해 표현되는 AAC 표준에 따르는 것으로서 설명될 것이다. 또한, 역변환 유닛 (50) 은 변형 이산 코사인 역변환 유닛으로서 설명될 것이다. 다른 실시형태에서, 오디오 디코더 (40) 는 상기 리스트된 임의의 오디오 코딩 표준을 따를 수도 있다.
코어 디코더 (41) 는 계수 Xm(k) 를 포함하는 프레임 (m) 에 대한 오디오 비트스트림을 수신하며, 프레임 (m) 에 대한 오디오 비트스트림을 에러 검출 모듈 (42) 로 전송한다. 그 후, 에러 검출 모듈 (42) 은 프레임 (m) 에 대한 오디오 비트스트림에 대해 에러 검출을 수행한다. 코어 디코더 (41) 는 사이드 정보로서 프레임 (m) 에 대한 사인 Sm (28) 의 서브세트 및 계수 Xm +1(k) 를 포함하는 프레임 (m+1) 에 대한 오디오 비트스트림 (26) 을 연속적으로 수신한다. 코어 디코더 (41) 는, 폐기되지 않는 경우에, 프레임 (m) 에 대한 계수를 생성하기 위해 제 1 프레임 지연부 (51) 를 사용하며, 프레임 (m+1) 에 대한 오디오 비트스트림으로부터 프레임 (m-1) 에 대한 계수를 생성하기 위해 제 2 프레임 지연부 (52) 를 사용한다. 프레임 (m) 에 대한 계수가 폐기되지 않은 경우에, 제 1 프레임 지연부 (51) 는 프레임 (m) 에 대한 계수를 멀티플렉서 (49) 로 전송한다. 제 2 프레임 지연부 (52) 는 프레임 (m-1) 에 대한 계수를 FLC 모듈 (43) 로 전송한다.
에러가 프레임 (m) 내에서 검출되지 않으면, 에러 검출 모듈 (42) 은, 프레임 (m) 에 대한 오디오 신호 샘플로 변환될 프레임 (m) 에 대한 계수 Xm(k) 를, 멀티플렉서 (49) 가 제 1 프레임 지연부 (51) 로부터 역변환 유닛 (50) 으로 직접 통과시키는 것을 가능하게 할 수도 있다.
에러가 프레임 (m) 내에서 검출되면, 에러 검출 모듈 (42) 은 프레임 (m) 에 대한 모든 계수를 폐기하며, 멀티플렉서 (49) 가 FLC 모듈 (43) 로부터의 프레임 (m) 에 대한 계수 추정치 를 역변환 유닛 (50) 으로 통과시키는 것을 가능하게 할 수 있다. FLC 모듈 (43) 은 코어 디코더 (41) 로부터 프레임 (m+1) 에 대한 계수 Xm +1(k) 를 수신하고, 제 2 프레임 지연부 (52) 로부터 프레임 (m-1) 에 대한 계수 Xm -1(k) 를 수신한다. FLC 모듈 (43) 은 프레임 (m) 에 대한 계수의 크기를 추정하기 위해 프레임 (m+1 및 m-1) 에 대한 계수를 사용한다. 또한, FLC 모듈 (43) 은 프레임 (m) 에 대한 계수의 사인을 추정하기 위해 오디오 인코더 (20) 로부터 프레임 (m+1) 에 대한 오디오 비트스트림 (26) 과 함께 송신된 프레임 (m) 에 대한 사인 Sm (28) 의 서브세트를 사용한다. 그 후, FLC 모듈 (43) 은 프레임 (m) 에 대한 계수를 추정하기 위해 크기 추정치와 사인 추정치를 결합한다. FLC 모듈 (43) 은, 프레임 (m) 에 대한 계수 추정을 프레임 (m) 에 대한 오디오 신호의 추정된 샘플 로 변환시키는 역변환 유닛 (50) 으로 계수 추정치 를 전송한다.
FLC 모듈 (43) 은, 크기 추정기 (44), 성분 선택 모듈 (46), 및 사인 추정기 (48) 를 포함한다. 코어 디코더 (41) 는, 프레임 (m+1) 에 대한 계수 Xm +1(k) 를 크기 추정기 (44) 로 전송하고, 제 2 프레임 지연부 (52) 는 프레임 (m-1) 에 대한 계수 Xm -1(k) 를 크기 추정기 (44) 로 전송한다. 오디오 인코더 (20) 내의 크기 추정기 (34) 와 실질적으로 유사하게, 크기 추정기 (44) 는 프레임 (m+1 및 m-1) 에 대한 계수에 기초하여 프레임 (m) 에 대한 계수의 크기를 추정한다. 크기 추정기 (44) 는 프레임 (m) 에 대한 계수 크기를 추정하기 위해 다양한 보간 기술들 중 하나를 구현할 수도 있다. 예를 들어, 크기 추정기 (44) 는 프레임 (m-1) 에 대한 이전의 프레임 계수 Xm -1(k) 및 프레임 (m+1) 에 대한 다음의 프레임 계수 Xm+1(k) 의 에너지에 기초하여 에너지 보간을 구현할 수도 있다. 크기 추정은 상기 수학식 (1) 에 제공되었다. 다른 실시형태에서, 크기 추정기 (44) 는 프레임 (m) 에 대한 계수의 크기를 추정하기 위해 프레임 (m) 의 직전 또는 직후가 아닌 프레임 (m) 의 이웃하는 프레임을 이용할 수도 있다.
그 후, 크기 추정기 (44) 는 프레임 (m) 에 대한 추정된 계수 크기 를 성분 선택 모듈 (46) 로 전송한다. 성분 선택 모듈 (46) 은 프레임 (m) 에 대한 추정된 계수 크기를 정렬함으로써 프레임 (m) 의 음조 성분과 잡음 성분 사이를 구별한다. 가장 큰 크기 또는 가장 현저한 스펙트럼 피크를 갖는 계수가 음조 성분으로서 고려될 수도 있으며, 나머지 계수가 잡음 성분으로서 고려될 수도 있다. 선택된 음조 성분의 수는 송신될 사인의 소정의 수에 기초할 수도 있다. 다른 경우에서, 프레임 (m) 에 대한 선택된 음조 성분의 수는 오디오 신호에 기초하여 변화할 수도 있다. 그 후, 성분 선택 모듈 (46) 은 프레임 (m) 에 대한 추정된 계수 크기로부터 선택된 음조 성분의 위치를 식별하는 추정된 인덱스 서브세트 를 생성한다. 추정된 인덱스 서브세트는 상기 수학식 (3) 에 제공된다.
성분 선택 모듈 (46) 은, 오디오 비트스트림이 수신되는 오디오 인코더 (20) 내의 성분 선택 모듈 (36) 과 정확히 동일한 동작을 사용하여 프레임 (m) 내의 음조 성분을 선택한다. 따라서, 프레임 (m) 에 대한 추정된 계수 크기로부터 선택된 음조 성분의 위치를 식별하는 동일한 추정된 인덱스 서브세트 가 오디오 인코더 (20) 및 오디오 디코더 (40) 모두에서 생성될 수도 있다. 그 후, 오디오 디코더 (40) 는 프레임 (m) 의 음조 성분에 대한 사인 Sm (28) 의 서브세트를, 추정된 인덱스 서브세트에 의해 식별된 프레임 (m) 의 적절한 추정된 계수 크기에 적용할 수도 있다.
성분 선택 모듈 (46) 은 프레임 (m) 에 대한 추정된 인덱스 서브세트를 사인 추정기 (48) 로 전송한다. 또한, 사인 추정기 (48) 는 오디오 인코더 (20) 로부터 프레임 (m+1) 에 대한 오디오 비트스트림 (26) 과 함께 송신된 프레임 (m) 에 대한 사인 Sm (28) 의 서브세트를 수신한다. 그 후, 사인 추정기 (48) 는 프레임 (m) 에 대한 음조 성분 및 잡음 성분 모두에 대한 사인을 추정한다.
잡음 성분의 경우에서, 사인 추정기 (48) 는 랜덤 신호로부터 사인을 추정한다. 음조 성분의 경우에서, 사인 추정기 (48) 는 추정된 인덱스 서브세트 에 기초하여 사인 Sm (28) 의 서브세트로부터 사인을 추정한다. 예를 들어, 추정된 인덱스 서브세트는 프레임 (m) 에 대한 추정된 계수 크기로부터 선택된 음조 성분을 식별하는 소정의 수, 예를 들어, 10개의 계수 인덱스를 포함한다. 그 후, 사인 추정기 (48) 는, 추정된 인덱스 서브세트내의 인덱스들과 동일한 인덱스들 (k) 을 갖는 사인 Sm (28) 의 서브세트로서 프레임 (m) 의 음조 성분에 대한 사인을 추정한다. 사인 추정치 는,
[수학식 4]
와 같이 제공되며, 여기서, sgn() 은 사인 함수를 나타내고, 은 선택된 음조 성분에 대응하는 계수의 추정된 인덱스 서브세트이며, Sm(k) 는 샘플 스페이스 {-1,1} 을 갖는 랜덤 변수이다.
상술한 바와 같이, 프레임 (m) 의 음조 성분에 대한 사인을 추정하기 위해, 오디오 디코더 (40) 는 프레임 (m) 의 원래 음조 성분의 대응하는 사인 뿐만 아니라 프레임 (m) 내의 음조 성분의 위치를 알 필요가 있다. 이러한 정보를 수신하기 위한 오디오 디코더 (40) 에 대한 단순한 방식은, 증가된 비트 레이트를 이용하여 오디오 인코더 (20) 로부터 오디오 디코더 (40) 로 파라미터 모두를 명시적으로 송신하는 것이다. 예시된 실시형태에서, 추정된 인덱스 서브세트 는 정확히 동일한 유도 프로세스를 사용하여 오디오 인코더 (20) 및 오디오 디코더 (40) 모두에서 자체 유도되는 반면에, 추정된 인덱스 서브세트 에 의해 인덱스된 프레임 (m) 의 음조 성분에 대한 사인은 사이드 정보로서 오디오 인코더 (20) 로부터 송신된다.
그 후, FLC 모듈 (43) 은 프레임 (m) 에 대한 계수를 추정하기 위해 크기 추정기 (44) 로부터의 크기 추정치 와 사인 추정기 (48) 로부터의 사인 추정치 를 결합한다. 프레임 (m) 에 대한 계수 추정치 는,
[수학식 5]
와 같이 제공된다.
그 후, FLC 모듈 (43) 은, 프레임 (m) 에 대한 계수 추정치를 통과시키도록 인에이블된 멀티플렉서 (49) 를 통해 계수 추정치를 역변환 유닛 (50) 으로 전송하고, 이 역변환 유닛은 프레임 (m) 에 대한 계수 추정치를 프레임 (m) 에 대한 오디오 신호의 추정된 샘플 로 변환한다.
도 5 는, 오디오 비트스트림을 인코딩하고, 사이드 정보로서 오디오 비트스트림과 송신될 프레임에 대한 사인의 서브세트를 생성하는 예시적인 동작을 예시하는 플로우차트이다. 본 명세서에서는, 이 동작을 도 3 으로부터의 오디오 인코더 (20) 를 참조하여 설명할 것이다.
변환 유닛 (22) 이 프레임 (m+1) 에 대한 오디오 신호의 샘플 xm +1[n] 을 수신하고, 이 샘플을 프레임 (m+1) 에 대한 계수 Xm +1(k) 로 변환한다 (54). 그 후, 코어 인코더 (24) 가 이 계수를 프레임 (m+1) 에 대한 오디오 비트스트림 (26) 으로 인코딩한다 (56). 변환 유닛 (22) 은 프레임 (m+1) 에 대한 계수 Xm +1(k) 를 크기 추정기 (34) 및 제 1 프레임 지연부 (30) 로 전송한다. 제 1 프레임 지연부 (30) 는 프레임 지연을 수행하고, 프레임 (m) 에 대한 계수 Xm(k) 를 생성한다 (58). 그 후, 제 1 프레임 지연부 (30) 는 프레임 (m) 에 대한 계수를 제 2 프레임 지연부 (32) 로 전송한다. 제 2 프레임 지연부 (32) 는 프레임 지연을 수행하고, 프레임 (m-1) 에 대한 계수 Xm -1(k) 를 생성한다 (60). 그 후, 제 2 프레임 지연부 (32) 는 프레임 (m-1) 에 대한 계수를 크기 추정기 (34) 로 전송한다.
크기 추정기 (34) 는 프레임 (m+1 및 m-1) 에 대한 계수에 기초하여 프레임 (m) 에 대한 계수의 크기를 추정한다 (62). 예를 들어, 크기 추정기 (34) 는 계수 크기를 추정하기 위해 수학식 (1) 에 제공된 에너지 보간 기술을 구현할 수도 있다. 그 후, 크기 추정기 (34) 는 프레임 (m) 에 대한 추정된 계수 크기 를 성분 선택 모듈 (36) 로 전송한다. 성분 선택 모듈 (36) 은 프레임 (m) 에 대한 추정된 계수 크기를 정렬함으로써 프레임 (m) 의 음조 성분과 잡음 성분 사이를 구별한다. 가장 큰 크기를 갖는 계수가 음조 성분으로 고려될 수도 있고, 나머지 계수가 잡음 성분으로 고려될 수도 있다. 선택된 음조 성분의 수는 송신될 사인의 소정의 수에 기초할 수도 있다. 다른 경우에서, 프레임 (m) 에 대한 선택된 음조 성분의 수는 오디오 신호에 기초하여 변화할 수도 있다. 그 후, 성분 선택 모듈 (36) 은 프레임 (m) 에 대한 추정된 계수 크기로부터 선택된 음조 성분의 위치를 식별하는 추정된 인덱스 서브세트 를 생성한다 (64).
성분 선택 모듈 (36) 은 프레임 (m) 에 대한 추정된 인덱스 서브세트를 사인 추출기 (38) 로 전송한다. 또한, 사인 추출기 (38) 는 프레임 (m) 에 대한 계 수 Xm(k) 를 제 1 프레임 지연부 (30) 로부터 수신한다. 그 후, 사인 추출기 (38) 는, 추정된 인덱스 서브세트에 의해 식별된 프레임 (m) 에 대한 계수 Xm(k) 로부터 사인을 추출한다 (66). 그 후, 사인 추출기 (38) 는 추정된 인덱스 서브세트에 의해 식별된 프레임 (m) 에 대한 음조 성분으로부터 추출된 사인 Sm (28) 의 서브세트를 프레임 (m+1) 에 대한 오디오 비트스트림 (26) 에 부착한다 (68).
도 6 은, 사이드 정보로서 인코더로부터 수신된 프레임에 대한 사인의 서브세트를 사용하여 프레임 손실 은폐를 수행하고 오디오 비트스트림을 디코딩하는 예시적인 동작을 예시하는 플로우차트이다. 이 동작은 도 4 로부터의 오디오 디코더 (40) 를 참조하여 본 명세서에서 설명한다.
코어 디코더 (41) 는 계수 Xm(k) 를 포함하는 프레임 (m) 에 대한 오디오 비트스트림을 수신한다 (72). 그 후, 에러 검출 모듈 (42) 은 프레임 (m) 에 대한 오디오 비트스트림에 대해 에러 검출을 수행한다 (74). 코어 디코더 (41) 는 사이드 정보로서 프레임 (m) 에 대한 사인 Sm (28) 의 서브세트 및 계수 Xm(k) 를 포함하는 프레임 (m+1) 에 대한 오디오 비트스트림 (26) 을 연속적으로 수신한다 (75). 코어 디코더 (41) 는 폐기되지 않은 경우에, 프레임 (m) 에 대한 계수를 생성하기 위해 제 1 프레임 지연부 (51) 를 사용하며, 프레임 (m+1) 에 대한 오디오 비트스트림으로부터 프레임 (m-1) 에 대한 계수를 생성하기 위해 제 2 프레임 지연부 (52) 를 사용한다. 프레임 (m) 에 대한 계수가 폐기되지 않은 경우 에, 제 1 프레임 지연부 (51) 는 프레임 (m) 에 대한 계수를 멀티플렉서 (49) 로 전송한다. 제 2 프레임 지연부 (52) 는 프레임 (m-1) 에 대한 계수를 FLC 모듈 (43) 로 전송한다.
에러가 프레임 (m) 내에서 검출되지 않으면, 에러 검출 모듈 (42) 은, 프레임 (m) 에 대한 오디오 신호 샘플로 변환될 프레임 (m) 에 대한 계수를, 멀티플렉서 (49) 가 제 1 프레임 지연부 (51) 로부터 역변환 유닛 (50) 으로 직접 통과시키는 것을 가능하게 할 수도 있다. 에러가 프레임 (m) 내에서 검출되면, 에러 검출 모듈 (42) 은 프레임 (m) 에 대한 모든 계수를 폐기하며, 멀티플렉서 (49) 가 FLC 모듈 (43) 로부터의 프레임 (m) 에 대한 계수 추정치를 역변환 유닛 (50) 으로 통과시키는 것을 가능하게 할 수 있다 (76).
코어 디코더 (41) 는 프레임 (m+1) 에 대한 계수 Xm +1(k) 를 크기 추정기 (44) 로 전송하고, 제 2 프레임 지연부 (52) 는 프레임 (m-1) 에 대한 계수 Xm -1(k) 를 크기 추정기 (44) 로 전송한다. 크기 추정기 (44) 는 프레임 (m+1 및 m-1) 에 대한 계수에 기초하여 프레임 (m) 에 대한 계수의 크기를 추정한다 (78). 예를 들어, 크기 추정기 (44) 는 계수 크기를 추정하기 위해 수학식 (1) 에 제공된 에너지 보간 기술을 구현할 수도 있다. 그 후, 크기 추정기 (44) 는 프레임 (m) 에 대한 추정된 계수 크기 를 성분 선택 모듈 (46) 로 전송한다.
성분 선택 모듈 (46) 은 프레임 (m) 에 대한 추정된 계수 크기를 정렬함으로써 프레임 (m) 의 음조 성분과 잡음 성분 사이를 구별한다. 가장 큰 크기를 갖 는 계수가 음조 성분으로 고려될 수도 있으며, 나머지 계수가 잡음 성분으로 고려될 수도 있다. 선택된 음조 성분의 수는 송신될 사인의 소정의 수에 기초할 수도 있다. 다른 경우에서, 프레임 (m) 에 대한 선택된 음조 성분의 수가 오디오 신호에 기초하여 변화할 수도 있다. 그 후, 성분 선택 모듈 (46) 은 프레임 (m) 에 대한 추정된 계수 크기로부터 선택된 음조 성분의 위치를 식별하는 추정된 인덱스 서브세트 를 생성한다 (80).
성분 선택 모듈 (46) 은, 오디오 비트스트림이 수신되는 오디오 인코더 (20) 내의 성분 선택 모듈 (36) 과 정확히 동일한 동작을 사용하여 프레임 (m) 내에서 음조 성분을 선택한다. 따라서, 프레임 (m) 에 대한 추정된 계수 크기로부터 선택된 음조 성분의 위치를 식별하는 동일한 추정된 인덱스 서브세트 가 오디오 인코더 (20) 및 오디오 디코더 (40) 모두에서 생성될 수도 있다. 그 후, 오디오 디코더 (40) 는 프레임 (m) 의 음조 성분에 대한 사인 Sm (28) 의 서브세트를, 추정된 인덱스 서브세트에 의해 식별된 프레임 (m) 의 적절한 추정된 계수 크기에 적용할 수도 있다.
성분 선택 모듈 (46) 은 프레임 (m) 에 대한 추정된 인덱스 서브세트를 사인 추정기 (48) 로 전송한다. 또한, 사인 추정기 (48) 는 오디오 인코더 (20) 로부터 프레임 (m+1) 에 대한 오디오 비트스트림 (26) 과 함께 송신된 프레임 (m) 에 대한 사인 Sm (28) 의 서브세트를 수신한다. 그 후, 사인 추정기 (48) 는 프레 임 (m) 에 대한 음조 성분과 잡음 성분 모두에 대한 사인을 추정한다. 음조 성분의 경우에서, 사인 추정기 (48) 는 추정된 인덱스 서브세트에 기초하여 프레임 (m) 에 대한 사인 Sm (28) 의 서브세트로부터 사인을 추정한다 (82). 잡음 성분의 경우에서, 사인 추정기 (48) 는 랜덤 신호로부터 사인을 추정한다 (84).
그 후, FLC 모듈 (43) 은 프레임 (m) 에 대한 계수를 추정하기 위해 크기 추정기 (44) 로부터의 크기 추정치 와 사인 추정기 (48) 로부터의 사인 추정치 를 결합한다 (86). FLC 모듈 (43) 은, 프레임 (m) 에 대한 계수 추정을 프레임 (m) 에 대한 오디오 신호의 추정된 샘플 로 변환하는 역변환 유닛 (50) 으로 계수 추정치 를 전송한다 (88).
도 7 은, 사이드 정보로서 송신될 프레임에 대한 사인의 서브세트를 생성하는 사인 추출기 (104) 및 성분 선택 모듈 (102) 을 포함하는 또 다른 예시적 오디오 인코더 (90) 를 예시하는 블록도이다. 오디오 인코더 (90) 는 도 1 로부터의 각각의 통신 디바이스 (3 및 4) 내의 오디오 코덱 (6 및 10) 과 실질적으로 유사할 수도 있다. 도 7 에 예시된 바와 같이, 오디오 인코더 (90) 는 변환 유닛 (92), 코어 인코더 (94), 프레임 지연부 (100), 성분 선택 모듈 (102), 및 사인 추출기 (104) 를 포함한다. 예시를 위해, 오디오 인코더 (90) 를 본 명세서에서는, 오디오 신호의 프레임의 주파수 도메인 데이터가 MDCT 계수에 의해 표현되는 AAC 표준에 따르는 것으로서 설명할 것이다. 또한, 변환 유닛 (92) 을 변형 이 산 코사인 변환 유닛으로서 설명할 것이다. 다른 실시형태에서, 오디오 인코더 (90) 는 상기 리스트된 임의의 오디오 코딩 표준을 따를 수도 있다.
본 명세서에서는 이 기술을 오디오 신호의 프레임 (m) 을 은폐하는 것으로서 설명할 것이다. 프레임 (m+1) 은 오디오 신호의 프레임 (m) 의 직후의 오디오 프레임을 나타낸다. 유사하게, 프레임 (m-1) 은 오디오 신호의 프레임 (m) 의 직전의 오디오 프레임을 나타낸다. 다른 실시형태에서, 인코더-보조 FLC 기술은 프레임 (m) 을 은폐하기 위해 프레임 (m) 의 직전 또는 직후가 아닌 프레임 (m) 의 이웃하는 프레임들을 이용할 수도 있다.
변환 유닛 (92) 은 프레임 (m+1) 에 대한 오디오 신호의 샘플 xm +1[n] 을 수신하고, 그 샘플을 계수 Xm +1(k) 로 변환한다. 그 후, 코어 인코더 (94) 는 그 계수를 프레임 (m+1) 에 대한 오디오 비트스트림 (96) 으로 인코딩한다. 프레임 (m) 에 대한 사인 Sm (98) 의 서브세트를 생성하기 위해, 성분 선택 모듈 (102) 은 프레임 (m+1) 에 대한 계수 Xm +1(k) 를 사용하고, 사인 추출기 (104) 는 프레임 (m) 에 대한 계수 Xm(k) 를 사용한다. 사인 추출기 (104) 는 사인 Sm (98) 의 서브세트를 사이드 정보로서 프레임 (m+1) 에 대한 오디오 비트스트림 (96) 에 부착한다.
더욱 구체적으로, 변환 유닛 (92) 은 프레임 (m+1) 에 대한 계수 Xm +1(k) 를 성분 선택 모듈 (102) 및 프레임 지연부 (100) 로 전송한다. 프레임 지연부 (100) 는 프레임 (m) 에 대한 계수 Xm(k) 를 생성하고, 프레임 (m) 에 대한 계수를 사인 추출기 (104) 로 전송한다. 성분 선택 모듈 (102) 은 프레임 (m+1) 에 대한 계수 크기를 정렬함으로써 프레임 (m+1) 의 음조 성분과 잡음 성분 사이를 구별한다. 가장 큰 크기 또는 가장 현저한 스펙트럼 피크를 갖는 계수가 음조 성분으로 고려될 수도 있으며, 나머지 계수는 잡음 성분으로 고려될 수도 있다.
선택된 음조 성분의 수는 송신될 사인의 소정의 수에 기초할 수도 있다. 예를 들어, 가장 높은 크기를 갖는 10 개의 계수가 프레임 (m+1) 의 음조 성분으로서 선택될 수도 있다. 다른 경우에서, 성분 선택 모듈 (102) 은 10개 보다 많거나 작은 음조 성분을 선택할 수도 있다. 또 다른 경우에서, 프레임 (m+1) 에 대한 선택된 음조 성분의 수는 오디오 신호에 기초하여 변화할 수도 있다. 예를 들어, 오디오 신호가 오디오 신호의 다른 프레임들 보다는 프레임 (m+1) 에서 다수의 음조 성분을 포함하는 경우에, 성분 선택 모듈 (102) 은 다른 프레임들 보다는 프레임 (m+1) 로부터 다수의 음조 성분을 선택할 수도 있다.
다른 실시형태에서, 성분 선택 모듈 (102) 은 프레임 (m+1) 의 음조 성분과 잡음 성분 사이를 구별하기 위해, 다양한 다른 방식을 사용하여 프레임 (m+1) 에 대한 계수 크기로부터 음조 성분을 선택할 수도 있다. 예를 들어, 성분 선택 모듈 (102) 은 일부 음향심리학 원리에 기초하여 계수의 서브세트를 선택할 수도 있다. 오디오 인코더 (90) 는, 오디오 인코더 (90) 의 복잡도 레벨이 허용하는 만큼 더욱 정확한 성분 구별 방식을 이용할 수도 있다.
그 후, 성분 선택 모듈 (102) 은 프레임 (m+1) 에 대한 계수 크기로부터 선택된 음조 성분의 위치를 식별하는 인덱스 서브세트 Im +1 를 생성한다. 음조 성분은 가장 현저한 크기를 갖는 프레임 (m+1) 에 대한 계수로서 선택된다. 프레임 (m+1) 에 대한 계수는, 프레임 (m) 의 은폐를 수행할 때 오디오 디코더에 이용가능하다. 따라서, 인덱스 서브세트가 프레임 (m+1) 에 대한 계수 크기 Xm +1(k) 에 기초하여 유도된다. 인덱스 서브세트는,
[수학식 6]
과 같이 제공되며, 여기서, M 은 프레임 (m+1) 내의 MDCT 계수의 수이고, Thr 은 이도록 결정된 임계값이며, Bm +1 은 송신될 사인의 수이다. 예를 들어, Bm +1 은 10 개의 사인과 동일할 수도 있다. 다른 실시형태에서, Bm+1 은 10 개 보다 크거나 작을 수도 있다. 또 다른 실시형태에서, Bm +1 은 프레임 (m) 의 오디오 신호에 기초하여 변화할 수도 있다.
성분 선택 모듈 (102) 은 프레임 (m+1) 에 대한 인덱스 서브세트를 사인 추출기 (104) 로 전송한다. 또한, 사인 추출기 (104) 는 프레임 지연부 (100) 로부터 프레임 (m) 에 대한 계수 Xm(k) 를 수신한다. 프레임 (m) 에 대한 인덱스 서브세트가 프레임 (m+1) 에 대한 인덱스 서브세트와 거의 동일하다고 가정한다. 그 후, 사인 추출기 (104) 는 프레임 (m+1) 에 대한 인덱스 서브세트에 의해 식별된 프레임 (m) 에 대한 계수 Xm(k) 로부터 사인을 추출한다. 예를 들어, 인덱스 서브세트는, 프레임 (m+1) 에 대한 계수 크기로부터 선택된 음조 성분을 식별하는 소정의 수, 예를 들어, 10개의 계수 인덱스를 포함한다. 그 후, 사인 추출기 (104) 는 프레임 (m+1) 에 대한 인덱스 서브세트내의 인덱스들과 동일한 인덱스들 (k) 을 갖는 프레임 (m) 에 대한 계수 Xm(k) 에 대응하는 사인을 추출한다. 그 후, 사인 추출기 (104) 는 프레임 (m+1) 에 대한 인덱스 서브세트에 의해 식별된 프레임 (m) 에 대한 음조 성분으로부터 추출된 사인 Sm (98) 의 서브세트를 프레임 (m+1) 에 대한 오디오 비트스트림 (96) 에 부착한다.
성분 선택 모듈 (102) 은 오디오 디코더가 오디오 인코더 (90) 로부터의 송신을 수신하는 것과 정확히 동일한 동작을 사용하여 프레임 (m+1) 내의 음조 성분을 선택한다. 따라서, 프레임 (m+1) 에 대한 계수 크기로부터 선택된 음조 성분의 위치를 식별하는 동일한 인덱스 서브세트 Im +1 가 오디오 인코더 (90) 및 오디오 디코더 모두에서 생성될 수도 있다. 그 후, 오디오 디코더는 프레임 (m) 의 음조 성분에 대한 사인 Sm (98) 의 서브세트를 프레임 (m+1) 에 대한 인덱스 서브세트에 의해 식별된 프레임 (m) 의 적절한 추정된 계수 크기에 적용할 수도 있다. 이러한 방식으로, 송신된 사이드 정보의 양은, 오디오 인코더 (90) 가 사인 Sm (98) 의 서브세트와 함께 프레임 (m) 내의 음조 성분의 위치를 송신할 필요가 없기 때문에 최소화될 수도 있다.
도 8 은, 사이드 정보로서 인코더로부터 수신된 프레임에 대한 사인의 서브세트를 이용하는 프레임 손실 은폐 모듈 (113) 을 포함하는 또 다른 예시적 오디오 디코더 (110) 를 예시하는 블록도이다. 오디오 디코더 (110) 는 도 1 로부터의 각각의 통신 디바이스 (3 및 4) 내의 오디오 코덱 (6 및 10) 과 실질적으로 유사할 수도 있다. 오디오 디코더 (110) 는 도 7 로부터의 오디오 인코더 (90) 와 실질적으로 유사한 오디오 인코더로부터 오디오 비트스트림을 수신할 수도 있다. 도 8 에 예시된 바와 같이, 오디오 디코더 (110) 는 코어 디코더 (111), 에러 검출 모듈 (112), FLC 모듈 (113), 및 역변환 유닛 (120) 을 포함한다.
예시를 위해, 오디오 디코더 (110) 를 본 명세서에서는, 오디오 신호의 프레임의 주파수 도메인 데이터가 MDCT 계수에 의해 표현되는 AAC 표준에 따르는 것으로서 설명할 것이다. 또한, 역변환 유닛 (120) 을 변형 이산 코사인 역변환 유닛으로서 설명할 것이다. 다른 실시형태에서, 오디오 디코더 (110) 는 상기 리스트된 임의의 오디오 코딩 표준을 따를 수도 있다.
코어 디코더 (111) 는 계수 Xm(k) 를 포함하는 프레임 (m) 에 대한 오디오 비트스트림을 수신하고, 프레임 (m) 에 대한 오디오 비트스트림을 에러 검출 모듈 (112) 로 전송한다. 그 후, 에러 검출 모듈 (112) 은 프레임 (m) 에 대한 오디오 비트스트림에 대해 에러 검출을 수행한다. 코어 디코더 (111) 는 사이드 정보로서 프레임 (m) 에 대한 사인 Sm (98) 의 서브세트 및 계수 Xm +1(k) 를 포함하는 프레임 (m+1) 에 대한 오디오 비트스트림 (96) 을 연속적으로 수신한다. 코어 디코더 (111) 는 폐기되지 않은 경우에, 프레임 (m) 에 대한 계수를 생성하기 위해 제 1 프레임 지연부 (121) 를 사용하고, 프레임 (m+1) 에 대한 오디오 비트스트림으로부터 프레임 (m-1) 에 대한 계수를 생성하기 위해 제 2 프레임 지연부 (122) 를 사용한다. 프레임 (m) 에 대한 계수가 폐기되지 않은 경우에, 제 1 프레임 지연부 (121) 는 프레임 (m) 에 대한 계수를 멀티플렉서 (119) 로 전송한다. 제 2 프레임 지연부 (122) 는 프레임 (m-1) 에 대한 계수를 FLC 모듈 (113) 로 전송한다.
에러가 프레임 (m) 내에서 검출되지 않으면, 에러 검출 모듈 (112) 은, 프레임 (m) 에 대한 오디오 신호 샘플로 변환될 프레임 (m) 에 대한 계수 Xm(k) 를, 멀티플렉서 (119) 가 제 1 프레임 지연부 (121) 로부터 역변환 유닛 (120) 으로 직접 통과시키는 것을 가능하게 할 수도 있다.
에러가 프레임 (m) 내에서 검출되면, 에러 검출 모듈 (112) 은 프레임 (m) 에 대한 모든 계수를 폐기하며, 멀티플렉서 (119) 가 FLC 모듈 (113) 로부터의 프레임 (m) 에 대한 계수 추정치 를 역변환 유닛 (120) 으로 통과시키는 것을 가능하게 할 수 있다. FLC 모듈 (113) 은 코어 디코더 (111) 로부터 프레임 (m+1) 에 대한 계수 Xm +1(k) 를 수신하고, 제 2 프레임 지연부 (122) 로부터 프레임 (m-1) 에 대한 계수 Xm -1(k) 를 수신한다. FLC 모듈 (113) 은 프레임 (m) 에 대 한 계수의 크기를 추정하기 위해 프레임 (m+1 및 m-1) 에 대한 계수를 사용한다. 또한, FLC 모듈 (113) 은 프레임 (m) 에 대한 계수의 사인을 추정하기 위해 오디오 인코더 (90) 로부터 프레임 (m+1) 에 대한 오디오 비트스트림 (96) 과 함께 송신된 프레임 (m) 에 대한 사인 Sm (98) 의 서브세트를 사용한다. 그 후, FLC 모듈 (113) 은 프레임 (m) 에 대한 계수를 추정하기 위해 크기 추정치와 사인 추정치를 결합한다. FLC 모듈 (113) 은, 프레임 (m) 에 대한 계수 추정치를 프레임 (m) 에 대한 오디오 신호의 추정된 샘플 로 변환시키는 역변환 유닛 (120) 으로 계수 추정치 를 전송한다.
FLC 모듈 (113) 은, 크기 추정기 (114), 성분 선택 모듈 (116), 및 사인 추정기 (118) 를 포함한다. 코어 디코더 (111) 는, 프레임 (m+1) 에 대한 계수 Xm+1(k) 를 크기 추정기 (114) 로 전송하고, 제 2 프레임 지연부 (122) 는 프레임 (m-1) 에 대한 계수 Xm -1(k) 를 크기 추정기 (114) 로 전송한다. 크기 추정기 (114) 는 프레임 (m+1 및 m-1) 에 대한 계수에 기초하여 프레임 (m) 에 대한 계수의 크기를 추정한다. 크기 추정기 (114) 는 프레임 (m) 에 대한 계수 크기를 추정하기 위해 다양한 보간 기술중 하나를 구현할 수도 있다. 예를 들어, 크기 추정기 (114) 는 프레임 (m-1) 에 대한 이전의 프레임 계수 Xm -1(k) 및 프레임 (m+1) 에 대한 다음의 프레임 계수 Xm +1(k) 의 에너지에 기초하여 에너지 보간을 구 현할 수도 있다. 계수 크기 추정치 는 상기 수학식 (1) 에 제공되었다. 다른 실시형태에서, 인코더-보조 FLC 기술은 프레임 (m) 에 대한 계수의 크기를 추정하기 위해 프레임 (m) 의 직전 또는 직후가 아닌 프레임 (m) 의 이웃하는 프레임들을 이용할 수도 있다.
성분 선택 모듈 (116) 은 프레임 (m+1) 에 대한 계수 Xm +1(k) 를 수신하고, 프레임 (m+1) 에 대한 계수의 크기를 정렬함으로써 프레임 (m+1) 의 음조 성분과 잡음 성분 사이를 구별한다. 가장 큰 크기 또는 가장 현저한 스펙트럼 피크를 갖는 계수가 음조 성분으로 고려될 수도 있으며, 나머지 계수가 잡음 성분으로 고려될 수도 있다. 선택된 음조 성분의 수는 송신될 사인의 소정의 수에 기초할 수도 있다. 다른 경우에서, 프레임 (m+1) 에 대한 선택된 음조 성분의 수는 오디오 신호에 기초하여 변화할 수도 있다. 그 후, 성분 선택 모듈 (116) 은 프레임 (m+1) 에 대한 계수 크기로부터 선택된 음조 성분의 위치를 식별하는 인덱스 서브세트 Im +1 를 생성한다. 프레임 (m+1) 에 대한 인덱스 서브세트는 상기 수학식 (6) 에서 제공된다. 프레임 (m) 에 대한 인덱스 서브세트가 프레임 (m+1) 에 대한 인덱스 서브세트와 거의 동일하다고 가정한다.
성분 선택 모듈 (116) 은 오디오 비트스트림이 수신되는 오디오 인코더 (90) 내의 성분 선택 모듈 (102) 과 정확히 동일한 동작을 사용하여 프레임 (m+1) 내의 음조 성분을 선택한다. 따라서, 프레임 (m+1) 에 대한 계수 크기로부터 선택된 음조 성분의 위치를 식별하는 동일한 인덱스 서브세트 Im +1 가 오디오 인코더 (90) 및 오디오 디코더 (110) 모두에서 생성될 수도 있다. 그 후, 오디오 디코더 (110) 는 프레임 (m) 의 음조 성분에 대한 사인 Sm (98) 의 서브세트를 프레임 (m+1) 에 대한 인덱스 서브세트에 의해 식별된 프레임 (m) 의 적절한 추정된 계수 크기에 적용할 수도 있다.
성분 선택 모듈 (116) 은 프레임 (m+1) 에 대한 인덱스 서브세트를 사인 추정기 (118) 로 전송한다. 또한, 사인 추정기 (118) 는 인코더 (90) 로부터 프레임 (m+1) 에 대한 오디오 비트스트림 (96) 과 함께 송신된 프레임 (m) 에 대한 사인 Sm (98) 의 서브세트를 수신한다. 그 후, 사인 추정기 (118) 는 프레임 (m) 에 대한 음조 성분 및 잡음 성분 모두에 대한 사인을 추정한다.
잡음 성분의 경우에서, 사인 추정기 (118) 는 랜덤 신호로부터 사인을 추정한다. 음조 성분의 경우에서, 사인 추정기 (118) 는 프레임 (m+1) 에 대한 인덱스 서브세트에 기초하여 사인 Sm (98) 의 서브세트로부터 사인을 추정한다. 예를 들어, 인덱스 서브세트는 프레임 (m+1) 에 대한 계수 크기로부터 선택된 음조 성분을 식별하는 소정의 수, 예를 들어, 10개의 계수 인덱스를 포함한다. 그 후, 사인 추정기 (118) 는 프레임 (m+1) 에 대한 인덱스 서브세트내의 인덱스들과 동일한 인덱스들 (k) 을 갖는 사인 Sm (98) 의 서브세트로서 프레임 (m) 의 음조 성분에 대한 사인을 추정한다. 사인 추정치는,
[수학식 7]
과 같이 제공되고, 여기서, sgn() 은 사인 함수를 나타내고, Im +1 은 선택된 음조 성분에 대응하는 계수의 인덱스 서브세트이며, Sm(k) 는 샘플 스페이스 {-1,1} 를 갖는 랜덤 변수이다.
상술한 바와 같이, 프레임의 음조 성분에 대한 사인을 추정하기 위해, 오디오 디코더 (110) 는 프레임 (m) 의 원래 음조 성분의 대응하는 사인 뿐만 아니라 프레임 (m) 내의 음조 성분의 위치를 알 필요가 있다. 이러한 정보를 수신하기 위한 오디오 디코더 (110) 에 있어서의 단순한 방식은, 증가된 비트 레이트를 이용하여 오디오 인코더 (90) 로부터의 파라미터를 모두 오디오 디코더 (110) 로 명시적으로 송신하는 것이다. 예시된 실시형태에서, 인덱스 서브세트 Im +1 은 정확히 동일한 유도 프로세스를 사용하여 오디오 인코더 (90) 및 오디오 디코더 (110) 모두에서 자체 유도되지만, 프레임 (m+1) 에 대한 인덱스 서브세트 Im +1 에 의해 인덱스된 프레임 (m) 의 음조 성분에 대한 사인은 사이드 정보로서 오디오 인코더 (90) 로부터 송신된다.
그 후, FLC 모듈 (113) 은 프레임 (m) 에 대한 계수를 추정하기 위해 크기 추정기 (114) 로부터의 크기 추정치 와 사인 추정기 (118) 로부터의 사인 추정치 를 결합한다. 프레임 (m) 에 대한 계수 추정치 는 수학식 (5) 에 제공된다. 그 후, FLC 모듈 (113) 은 프레임 (m) 에 대한 계수 추정을 프레임 (m) 에 대한 오디오 신호의 추정된 샘플 로 변환하는 역변환 유닛 (120) 으로 계수 추정치를 전송한다.
도 9 는, 사이드 정보로서 오디오 비트스트림과 함께 송신될 프레임에 대한 사인의 서브세트를 생성하고 오디오 비트스트림을 인코딩하는 또 다른 예시적인 동작을 예시하는 플로우차트이다. 이 동작을 본 명세서에서는 도 7 로부터의 오디오 인코더 (90) 를 참조하여 설명할 것이다.
변환 유닛 (92) 은 프레임 (m+1) 에 대한 오디오 신호의 샘플 xm +1[n] 을 수신하여, 그 샘플을 프레임 (m+1) 에 대한 계수 Xm +1(k) 로 변환한다 (124). 그 후, 코어 인코더 (94) 가 그 계수를 프레임 (m+1) 에 대한 오디오 비트스트림 (96) 으로 인코딩한다 (126). 변환 유닛 (92) 은 프레임 (m+1) 에 계수 Xm +1(k) 를 성분 선택 모듈 (102) 및 프레임 지연부 (100) 로 전송한다. 프레임 지연부 (100) 는 프레임 지연을 수행하고, 프레임 (m) 에 대한 계수 Xm(k) 를 생성한다 (128). 그 후, 프레임 지연부 (100) 는 프레임 (m) 에 대한 계수를 사인 추출기 (104) 로 전송한다.
성분 선택 모듈 (102) 은 프레임 (m+1) 에 대한 계수 크기를 정렬함으로써 프레임 (m+1) 의 음조 성분과 잡음 성분 사이를 구별한다. 가장 큰 크기를 갖 는 계수가 음조 성분으로 고려될 수도 있으며 나머지 계수가 잡음 성분으로 고려될 수도 있다. 선택된 음조 성분의 수는 송신될 사인의 소정의 수에 기초할 수도 있다. 다른 경우에서, 프레임 (m+1) 에 대한 선택된 음조 성분의 수는 오디오 신호에 기초하여 변화할 수도 있다. 그 후, 성분 선택 모듈 (102) 은 프레임 (m+1) 에 대한 계수 크기로부터 선택된 음조 성분을 식별하는 인덱스 서브세트 Im +1 를 생성한다 (130).
성분 선택 모듈 (102) 은 프레임 (m+1) 에 대한 인덱스 서브세트를 사인 추출기 (104) 로 전송한다. 또한, 사인 추출기 (104) 는 프레임 지연부 (100) 로부터 프레임 (m) 에 대한 계수 Xm(k) 를 수신한다. 프레임 (m) 에 대한 인덱스 서브세트가 프레임 (m+1) 에 대한 인덱스 서브세트와 거의 동일하다고 가정한다. 그 후, 사인 추출기 (104) 는 프레임 (m+1) 에 대한 인덱스 서브세트에 의해 식별된 프레임 (m) 에 대한 계수 Xm(k) 로부터 사인을 추출한다 (132). 그 후, 사인 추출기 (104) 는 프레임 (m+1) 에 대한 인덱스 서브세트에 의해 식별된 프레임 (m) 에 대한 음조 성분으로부터 추출된 사인 Sm (98) 의 서브세트를 프레임 (m+1) 에 대한 오디오 비트스트림 (96) 에 부착한다 (134).
도 10 은, 사이드 정보로서 인코더로부터 수신된 프레임에 대한 사인의 서브세트를 사용하여 프레임 손실 은폐를 수행하고 오디오 비트스트림을 디코딩하는 또 다른 예시적인 동작을 예시하는 플로우차트이다. 이 동작을 본 명세서에서는 도 8 로부터의 오디오 디코더 (110) 를 참조하여 설명할 것이다.
코어 디코더 (111) 는 계수 Xm(k) 를 포함하는 프레임 (m) 에 대한 오디오 비트스트림을 수신한다 (138). 그 후, 에러 검출 모듈 (112) 은 프레임 (m) 에 대한 오디오 비트스트림에 대해 에러 검출을 수행한다 (140). 코어 디코더 (111) 는 사이드 정보로서 프레임 (m) 에 대한 사인 Sm (98) 의 서브세트 및 계수 Xm+1(k) 를 포함하는 프레임 (m+1) 에 대한 오디오 비트스트림 (96) 을 연속적으로 수신한다 (141). 코어 디코더 (111) 는 폐기되지 않은 경우에, 프레임 (m) 에 대한 계수를 생성하기 위해 제 1 프레임 지연부 (121) 를 사용하고, 프레임 (m+1) 에 대한 오디오 비트스트림으로부터 프레임 (m-1) 에 대한 계수를 생성하기 위해 제 2 프레임 지연부 (122) 를 사용한다. 프레임 (m) 에 대한 계수가 폐기되지 않으면, 제 1 프레임 지연부 (121) 는 프레임 (m) 에 대한 계수를 멀티플렉서 (119) 로 전송한다. 제 2 프레임 지연부 (122) 는 프레임 (m-1) 에 대한 계수를 FLC 모듈 (113) 로 전송한다.
에러가 프레임 (m) 내에서 검출되지 않으면, 에러 검출 모듈 (112) 은, 프레임 (m) 에 대한 오디오 신호 샘플로 변환될 프레임 (m) 에 대한 계수를, 멀티플렉서 (119) 가 제 1 프레임 지연부 (121) 로부터 역변환 유닛 (120) 으로 직접 통과시키는 것을 가능하게 할 수도 있다. 에러가 프레임 (m) 내에서 검출되면, 에러 검출 모듈 (112) 은 프레임 (m) 에 대한 모든 계수를 폐기하며, 멀티플렉서 (119) 가 FLC 모듈 (113) 로부터의 프레임 (m) 에 대한 계수 추정치를 역변환 유닛 (120) 으로 통과시키는 것을 가능하게 할 수 있다 (142).
코어 디코더 (111) 는 프레임 (m+1) 에 대한 계수 Xm +1(k) 를 크기 추정기 (114) 로 전송하고, 제 2 프레임 지연부 (122) 는 프레임 (m-1) 에 대한 계수 Xm -1(k) 를 크기 추정기 (114) 로 전송한다. 크기 추정기 (114) 는 프레임 (m+1 및 m-1) 에 대한 계수에 기초하여 프레임 (m) 에 대한 계수의 크기를 추정한다 (144). 예를 들어, 크기 추정기 (114) 는 계수 크기를 추정하기 위해 수학식 (1) 에 제공된 에너지 보간 기술을 구현할 수도 있다.
성분 선택 모듈 (116) 은 프레임 (m+1) 에 대한 계수 Xm +1(k) 를 수신하고, 프레임 (m+1) 에 대한 계수의 크기를 정렬함으로써 프레임 (m+1) 의 음조 성분과 잡음 성분 사이를 구별한다. 가장 큰 크기를 갖는 계수가 음조 성분으로 고려될 수도 있으며, 나머지 계수가 잡음 성분으로 고려될 수도 있다. 선택된 음조 성분의 수는 송신될 사인의 소정의 수에 기초할 수도 있다. 다른 경우에서, 프레임 (m+1) 에 대한 선택된 음조 성분의 수는 오디오 신호에 기초하여 변화할 수도 있다. 그 후, 성분 선택 모듈 (116) 은 프레임 (m+1) 에 대한 계수 크기로부터 선택된 음조 성분의 위치를 식별하는 인덱스 서브세트 Im +1 를 생성한다 (146). 프레임 (m) 에 대한 인덱스 서브세트가 프레임 (m+1) 에 대한 인덱스 서브세트와 거의 동일하다고 가정한다.
성분 선택 모듈 (116) 은, 오디오 비트스트림이 수신되는 오디오 인코더 (90) 내의 성분 선택 모듈 (102) 과 정확히 동일한 동작을 사용하여 프레임 (m+1) 내의 음조 성분을 선택한다. 따라서, 프레임 (m+1) 에 대한 계수 크기로부터 선택된 음조 성분의 위치를 식별하는 동일한 인덱스 서브세트 Im +1 가 오디오 인코더 (90) 및 오디오 디코더 (110) 모두에서 생성될 수도 있다. 그 후, 오디오 디코더 (110) 는, 프레임 (m) 의 음조 성분에 대한 사인 Sm (98) 의 서브세트를 프레임 (m+1) 에 대한 인덱스 서브세트에 의해 식별된 프레임 (m) 의 적절한 추정된 계수 크기에 적용할 수도 있다.
성분 선택 모듈 (116) 은 프레임 (m+1) 에 대한 인덱스 서브세트를 사인 추정기 (118) 로 전송한다. 또한, 사인 추정기 (118) 는 인코더 (90) 로부터 프레임 (m+1) 에 대한 오디오 비트스트림 (96) 과 함께 송신된 프레임 (m) 에 대한 사인 Sm (98) 의 서브세트를 수신한다. 사인 추정기 (118) 는 프레임 (m+1) 에 대한 인덱스 서브세트에 기초하여 사인 Sm (98) 의 서브세트로부터 프레임 (m) 의 음조 성분에 대한 사인을 추정한다 (148). 사인 추정기 (118) 는 랜덤 신호로부터 잡음 성분에 대한 사인을 추정한다 (150).
그 후, FLC 모듈 (113) 은 프레임 (m) 에 대한 계수를 추정하기 위해 크기 추정기 (114) 로부터의 크기 추정치 와 사인 추정기 (118) 로부터의 사인 추정치 를 결합한다 (152). FLC 모듈 (113) 은, 프레임 (m) 에 대한 계수 추정치를 프레임 (m) 에 대한 오디오 신호의 추정된 샘플 로 변환하는 역변환 유닛 (120) 으로 계수 추정치 를 전송한다 (154).
도 11 은, 본 명세서에 설명한 인코더-보조 FLC 기술 (162) 의 프레임 손실율과 종래의 FLC 기술 (160) 의 프레임 손실율 사이의 품질 비교를 예시하는 도면이다. 이 비교는 0%, 5%, 10%, 15% 및 20% 의 프레임 손실율 (FLR) 하에서 2개의 FLC 방법 사이에서 수행된다. CD 로부터 샘플링된 다수의 모노 오디오 시퀀스가 48 kbps 의 비트레이트에서 인코딩되며, 그 인코딩된 프레임이 단일 프레임 손실로의 제한을 갖는 특정 레이트에서 랜덤하게 드롭된다.
본 명세서에서 설명한 인코더-보조 FLC 기술에 대해, 인코더가 사이드 정보로서 송신한 사인의 수가 모든 프레임에 대해 고정되며, 10 비트/프레임으로 제한되었으며, 이것은 0.43 kbps 의 비트레이트와 등가이다. 2개의 상이한 비트스트림, 즉, (i) 종래의 FLC 기술에 대한 48 kbps AAC 비트스트림, 및 (ii) 인코더-보조 FLC 기술에 대한 0.43 kbps 의 비트레이트에서의 사인 정보를 포함하는 47.57 kbps AAC 비트스트림이 생성되었다. 은폐된 오디오 품질의 주관적인 평가를 위해, 44.1 kHz 샘플링 레이트를 갖는 다양한 종류의 다성 (polyphonic) 오디오 시퀀스가 선택되며, 다양한 FLR 하에서 방법 양자에 의한 디코더 재구성이 비교되었다. 앵커를 갖는 멀티-자극 히든 참조 (MUSHRA) 테스트가 이용되었고, 11 명의 청취자에 의해 수행되었다.
도 11 로부터, 인코더-보조 FLC 기술 (162) 이 모든 FLR 에서 오디오 디코더 재구성 품질을 개선시킨다는 것을 알 수 있다. 예를 들어, 인코더-보조 FLC 기 술은 적당한 (5% 및 10%) FLR 에서 80 포인트 MUSHRA 스코어 보다 양호한 재구성 품질을 유지한다. 또한, 15% FLR 에서의 인코더-보조 FLR 기술 (162) 의 재구성 품질은 5% FLR 에서의 종래의 FLC 기술 (160) 의 재구성 품질과 통계적으로 등가이고, 이것은, 인코더-보조 FLC 기술에 의해 제공된 강화된 에러 내성을 나타낸다.
다수의 실시형태를 설명하였다. 그러나, 이들 실시형태에 대한 다양한 변형이 가능하며, 본 명세서에 제공된 원리가 다른 실시형태들에 또한 적용될 수도 있다. 본 명세서에 설명한 바와 같은 방법들은 하드웨어, 소프트웨어, 및/또는 펌웨어에서 구현될 수도 있다. 이러한 방법들의 다양한 작업이 마이크로프로세서, 통합된 제어기, 또는 IP 코어와 같은 로직 엘리먼트의 하나 이상의 어레이에 의해 실행가능한 명령들의 세트로서 구현될 수도 있다. 일 예에서, 하나 이상의 이러한 작업이 셀룰러 전화와 같은 개인 통신 디바이스의 다양한 디바이스의 동작을 제어하기 위해 구성된 이동국 모뎀 칩 또는 칩셋내의 실행을 위해 배열된다.
본 명세서에 설명한 기술은 범용 마이크로프로세서, 디지털 신호 프로세서 (DSP), 응용 주문형 집적 회로 (ASIC), 필드 프로그램가능 게이트 어레이 (FPGA), 또는 다른 등가의 로직 디바이스내에서 구현될 수도 있다. 소프트웨어에서 구현되면, 이 기술은 랜덤 액세스 메모리 (RAM), 판독전용 메모리 (ROM), 비휘발성 랜덤 액세스 메모리 (NVRAM), 전기적으로 제거가능한 프로그램가능 판독전용 메모리 (EEPROM), FLASH 메모리 등과 같은 컴퓨터-판독가능 매체상에서 명령들로서 수록될 수도 있다. 이 명령들은 하나 이상의 프로세서로 하여금, 본 명세서에 설 명한 기능의 특정 양태들을 수행하게 한다.
또 다른 예로서, 일 실시형태가 하드-유선 회로로서, 응용 주문형 집적 회로로서 제조된 회로 구성으로서, 또는 비휘발성 저장부에 로딩된 펌웨어 프로그램 또는 머신-판독가능 코드와 같이 데이터 저장 매체로부터 또는 거기에 로딩된 소프트웨어 프로그램으로서 부분적으로 또는 전체적으로 구현될 수도 있으며, 이러한 코드는 마이크로프로세서 또는 다른 디지털 신호 프로세싱 유닛과 같은 로직 엘리먼트의 어레이에 의해 실행가능한 명령들이다. 데이터 저장 매체는 (동적, 또는 정적 RAM, ROM, 및/또는 플래시 RAM 을 제한없이 포함할 수도 있는) 반도체 메모리, 강유전체, 오보닉, 중합체, 또는 상-변화 메모리와 같은 저장 엘리먼트의 어레이; 또는 자기 또는 광학 디스크와 같은 디스크 매체일 수도 있다.
본 명세서에서, 인코더로부터의 오디오 비트스트림과 함께 송신된 사이드 정보 및 이웃하는 프레임들에 기초하여 오디오 신호의 폐기된 프레임을 정확하게 은폐하는 디코더에서의 인코더-보조 프레임 손실 은폐를 위한 다양한 기술을 설명하였다. 이 인코더-보조 FLC 기술들은 또한, 인코더로부터 송신된 추가 사이드 정보를 이용하여 이웃하는 프레임에 기초하여 오디오 신호의 다중의 폐기된 프레임을 정확하게 은폐할 수도 있다. 이 인코더-보조 FLC 기술들은 이웃하는 프레임들의 주파수 도메인 데이터에 기초하여 프레임에 대한 주파수 도메인 데이터의 크기를 추정하며, 사이드 정보로서 인코더로부터 송신된 사인의 서브세트에 기초하여 주파수 도메인 데이터의 사인을 추정하는 것을 포함한다.
오디오 신호의 프레임에 대한 주파수 도메인 데이터는 음조 성분 및 잡음 성 분을 포함한다. 랜덤 신호로부터 추정된 사인은 주파수 도메인 데이터의 잡음 성분에 대해 실질적으로 정확할 수도 있다. 그러나, 음조 성분에 대한 매우 정확한 사인 추정을 달성하기 위해, 인코더는 사이드 정보로서 주파수 도메인 데이터의 음조 성분에 대한 사인을 송신한다. 디코더로 송신된 사이드 정보의 양을 최소화시키기 위해, 인코더는 프레임내의 음조 성분의 위치를 송신하지 않는다. 대신, 인코더 및 디코더 모두는 동일한 동작을 사용하여 음조 성분의 위치를 자체 유도한다. 이러한 방식으로, 인코더-보조 FLC 기술은, 최소량의 사이드 정보가 인코더로부터 송신되면서, 디코더에서 프레임 은폐 품질의 현저한 개선을 달성한다.
인코더-보조 FLC 기술을, 오디오 신호의 프레임의 주파수 도메인 데이터가 MDCT 계수에 의해 표현되는 AAC 표준을 이용하는 멀티미디어 애플리케이션에 관하여 본 명세서에서 주로 설명하였다. 이 기술은 임의의 다양한 오디오 코딩 표준을 사용하는 멀티미디어 애플리케이션에 적용될 수도 있다. 예를 들어, 이 표준들은 MPEG, WMA 표준, 돌비 연구소에 의한 표준, MP3 표준, 및 MP3 표준에 대한 후속물에 따른다. 이들 및 다른 실시형태들은 아래의 청구항의 범위내에 있다.
Claims (48)
- 오디오 신호의 프레임을 은폐하는 방법으로서,상기 프레임의 이웃하는 프레임들에 기초하여 상기 프레임에 대한 주파수 도메인 데이터의 크기를 추정하는 단계;사이드 정보로서 인코더로부터 송신된 상기 프레임에 대한 사인들 (signs) 의 서브세트에 기초하여 상기 프레임에 대한 주파수 도메인 데이터의 사인들을 추정하는 단계; 및상기 프레임에 대한 주파수 도메인 데이터를 추정하기 위해 크기 추정치와 사인 추정치를 결합하는 단계를 포함하는, 오디오 신호의 프레임 은폐 방법.
- 제 1 항에 있어서,상기 인코더로부터 주파수 도메인 데이터를 포함하는 상기 프레임에 대한 오디오 비트스트림을 수신하는 단계; 및상기 인코더로부터 이웃하는 프레임에 대한 오디오 비트스트림과 상기 프레임에 대한 상기 사이드 정보를 수신하는 단계를 더 포함하는, 오디오 신호의 프레임 은폐 방법.
- 제 1 항에 있어서,상기 인코더로부터 송신된 프레임에 대한 오디오 비트스트림에 대해 에러 검 출을 수행하는 단계; 및하나 이상의 에러가 검출될 때 상기 프레임에 대한 주파수 도메인 데이터를 폐기하는 단계를 더 포함하는, 오디오 신호의 프레임 은폐 방법.
- 제 1 항에 있어서,상기 프레임에 대한 상기 주파수 도메인 데이터의 크기를 추정하는 단계는, 상기 프레임의 선행 프레임과 상기 프레임의 후속 프레임의 에너지에 기초하여 에너지 보간을 수행하는 단계를 포함하는, 오디오 신호의 프레임 은폐 방법.
- 제 1 항에 있어서,상기 프레임에 대한 상기 주파수 도메인 데이터의 사인들을 추정하는 단계는,랜덤 신호로부터 상기 프레임에 대한 상기 주파수 도메인 데이터의 잡음 성분들에 대한 사인들을 추정하는 단계; 및상기 사이드 정보로서 상기 인코더로부터 송신된 상기 프레임에 대한 상기 사인들의 서브세트에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터의 음조 성분들에 대한 사인들을 추정하는 단계를 포함하는, 오디오 신호의 프레임 은폐 방법.
- 제 1 항에 있어서,상기 프레임에 대한 상기 주파수 도메인 데이터의 사인들을 추정하는 단계는,상기 프레임에 대한 상기 주파수 도메인 데이터의 음조 성분들을 선택하는 단계;상기 프레임내의 상기 음조 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하는 단계; 및상기 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 사인들의 서브세트로부터 상기 음조 성분들에 대한 사인들을 추정하는 단계를 포함하는, 오디오 신호의 프레임 은폐 방법.
- 제 6 항에 있어서,상기 음조 성분들을 선택하는 단계는,크기의 순서로 상기 주파수 도메인 데이터를 정렬하는 단계; 및상기 음조 성분들로서, 가장 높은 크기를 갖는 소정의 수의 상기 주파수 도메인 데이터를 선택하는 단계를 포함하는, 오디오 신호의 프레임 은폐 방법.
- 제 1 항에 있어서,상기 프레임에 대한 상기 주파수 도메인 데이터의 사인들을 추정하는 단계는,상기 프레임에 대한 상기 주파수 도메인 데이터의 상기 크기 추정치로부터 음조 성분들을 선택하는 단계;상기 프레임에 대한 상기 주파수 도메인 데이터의 상기 크기 추정치로부터 선택된 상기 음조 성분들의 위치들을 식별하는 추정된 인덱스 서브세트를 생성하는 단계; 및상기 프레임에 대한 상기 추정된 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 사인들의 서브세트로부터 상기 음조 성분들에 대한 사인들을 추정하는 단계를 포함하는, 오디오 신호의 프레임 은폐 방법.
- 제 1 항에 있어서,상기 프레임에 대한 상기 주파수 도메인 데이터의 사인들을 추정하는 단계는,상기 프레임의 이웃하는 프레임에 대한 주파수 도메인 데이터의 크기로부터 음조 성분들을 선택하는 단계;상기 이웃하는 프레임에 대한 상기 주파수 도메인 데이터의 상기 크기로부터 선택된 상기 음조 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하는 단계; 및상기 이웃하는 프레임에 대한 상기 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 사인들의 서브세트로부터 상기 음조 성분들에 대한 사인들을 추정하는 단계를 포함하는, 오디오 신호의 프레임 은폐 방법.
- 제 1 항에 있어서,주파수 도메인 데이터를 포함하는 상기 프레임에 대한 오디오 비트스트림을 디코더로 송신하는 단계; 및이웃하는 프레임에 대한 오디오 비트스트림과 상기 프레임에 대한 상기 사이드 정보를 상기 디코더로 송신하는 단계를 더 포함하는, 오디오 신호의 프레임 은폐 방법.
- 제 10 항에 있어서,상기 사이드 정보를 송신하는 단계는,상기 프레임에 대한 상기 주파수 도메인 데이터로부터 상기 사인들의 서브세트를 추출하는 단계; 및상기 사이드 정보로서, 상기 이웃하는 프레임에 대한 상기 오디오 비트스트림에 상기 사인들의 서브세트를 부착하는 단계를 포함하는, 오디오 신호의 프레임 은폐 방법.
- 제 11 항에 있어서,상기 프레임에 대한 상기 사인들의 서브세트를 추출하는 단계는,상기 프레임에 대한 상기 주파수 도메인 데이터의 음조 성분들을 선택하는 단계;상기 프레임내의 상기 음조 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하는 단계; 및상기 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터로부터 상기 음조 성분들에 대한 상기 사인들의 서브세트를 추출하는 단계를 포함하는, 오디오 신호의 프레임 은폐 방법.
- 제 12 항에 있어서,상기 음조 성분들을 선택하는 단계는,크기의 순서로 상기 주파수 도메인 데이터를 정렬하는 단계; 및상기 음조 성분들로서, 가장 높은 크기를 갖는 소정의 수의 상기 주파수 도메인 데이터를 선택하는 단계를 포함하는, 오디오 신호의 프레임 은폐 방법.
- 제 11 항에 있어서,상기 프레임에 대한 상기 사인들의 서브세트를 추출하는 단계는,상기 프레임의 이웃하는 프레임들에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터의 크기를 추정하는 단계;상기 프레임에 대한 상기 주파수 도메인 데이터의 크기 추정치로부터 음조 성분들을 선택하는 단계;상기 프레임에 대한 상기 주파수 도메인 데이터의 크기 추정치로부터 선택된 상기 음조 성분들의 위치들을 식별하는 추정된 인덱스 서브세트를 생성하는 단계; 및상기 프레임에 대한 상기 추정된 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터로부터 상기 음조 성분들에 대한 상기 사인들의 서브세트를 추출하는 단계를 포함하는, 오디오 신호의 프레임 은폐 방법.
- 제 11 항에 있어서,상기 프레임에 대한 상기 사인들의 서브세트를 추출하는 단계는,상기 이웃하는 프레임에 대한 주파수 도메인 데이터 크기로부터 음조 성분들을 선택하는 단계;상기 이웃하는 프레임에 대한 상기 주파수 도메인 데이터 크기로부터 선택된 상기 음조 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하는 단계; 및상기 이웃하는 프레임에 대한 상기 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터로부터 상기 음조 성분들에 대한 상기 사인들의 서브세트를 추출하는 단계를 포함하는, 오디오 신호의 프레임 은폐 방법.
- 제 1 항에 있어서,상기 인코더에 포함된 변환 유닛을 사용하여, 상기 프레임에 대한 시간 도메인 오디오 신호를 상기 프레임에 대한 주파수 도메인 데이터로 인코딩하는 단계; 및디코더에 포함된 역변환 유닛을 사용하여, 상기 프레임에 대한 상기 추정된 주파수 도메인 데이터를 상기 프레임에 대한 추정된 시간 도메인 데이터로 디코딩 하는 단계를 더 포함하는, 오디오 신호의 프레임 은폐 방법.
- 제 1 항에 있어서,상기 사이드 정보는 상기 프레임에 대한 주파수 도메인 데이터의 음조 성분들에 대한 사인의 서브세트를 포함하며,상기 방법은,상기 인코더를 사용하여 상기 프레임내의 상기 음조 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하는 단계;상기 인코더를 사용하여 상기 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터로부터 상기 음조 성분들에 대한 상기 사인들의 서브세트를 추출하는 단계;상기 사이드 정보로서 상기 음조 성분들에 대한 상기 사인들의 서브세트를 디코더로 송신하는 단계;상기 인코더와 동일한 프로세스를 사용하여 상기 디코더로 상기 프레임내의 상기 음조 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하는 단계; 및상기 인덱스 서브세트에 기초하여 상기 사인들의 서브세트로부터 상기 음조 성분들에 대한 사인들을 추정하는 단계를 더 포함하는, 오디오 신호의 프레임 은폐 방법.
- 오디오 신호의 프레임을 은폐하는 명령들을 포함하는 컴퓨터-판독가능 매체 로서,상기 명령들은, 프로그램가능한 프로세서로 하여금,상기 프레임의 이웃하는 프레임들에 기초하여 상기 프레임에 대한 주파수 도메인 데이터의 크기를 추정하고,사이드 정보로서 인코더로부터 송신된 상기 프레임에 대한 사인들의 서브세트에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터의 사인들을 추정하며,상기 프레임에 대한 주파수 도메인 데이터를 추정하기 위해 크기 추정치와 사인 추정치를 결합하게 하는, 컴퓨터-판독가능 매체.
- 제 18 항에 있어서,상기 명령들은, 상기 프로그램가능한 프로세서로 하여금,랜덤 신호로부터 상기 프레임에 대한 상기 주파수 도메인 데이터의 잡음 성분들에 대한 사인들을 추정하며,상기 사이드 정보로서 상기 인코더로부터 송신된 상기 프레임에 대한 상기 사인들의 서브세트에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터의 음조 성분들에 대한 사인들을 추정하게 하는, 컴퓨터-판독가능 매체.
- 제 18 항에 있어서,상기 명령들은, 상기 프로그램가능한 프로세서로 하여금,크기의 순서로 상기 프레임에 대한 상기 주파수 도메인 데이터를 정렬하고,상기 프레임에 대한 상기 주파수 도메인 데이터의 음조 성분들로서, 가장 높은 크기를 갖는 소정의 수의 상기 주파수 도메인 데이터를 선택하고,상기 프레임내의 상기 음조 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하며,상기 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 사인들의 서브세트로부터 상기 음조 성분들에 대한 사인들을 추정하게 하는, 컴퓨터-판독가능 매체.
- 제 18 항에 있어서,상기 프로그램가능한 프로세서로 하여금,상기 프레임에 대한 상기 주파수 도메인 데이터로부터 상기 사인들의 서브세트를 추출하고,상기 사이드 정보로서 이웃하는 프레임에 대한 오디오 비트스트림에 상기 사인들의 서브세트를 부착하며,상기 이웃하는 프레임에 대한 오디오 비트스트림과 상기 프레임에 대한 상기 사이드 정보를 디코더로 송신하게 하는 명령들을 더 포함하는, 컴퓨터-판독가능 매체.
- 제 21 항에 있어서,상기 명령들은, 상기 프로그램가능한 프로세서로 하여금,크기의 순서로 상기 프레임에 대한 상기 주파수 도메인 데이터를 정렬하고,상기 프레임에 대한 상기 주파수 도메인 데이터의 음조 성분들로서, 가장 큰 크기를 갖는 소정의 수의 상기 주파수 도메인 데이터를 선택하고,상기 프레임내의 음조 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하며,상기 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터로부터 상기 음조 성분들에 대한 상기 사인들의 서브세트를 추출하게 하는, 컴퓨터-판독가능 매체.
- 오디오 신호의 프레임을 은폐하기 위한 시스템으로서,사이드 정보로서 상기 프레임에 대한 사인들의 서브세트를 송신하는 인코더; 및상기 인코더로부터 상기 프레임에 대한 상기 사이드 정보를 수신하는 프레임 손실 은폐 (FLC) 모듈을 포함하는 디코더를 포함하며,상기 FLC 모듈은, 상기 프레임의 이웃하는 프레임들에 기초하여 상기 프레임에 대한 주파수 도메인 데이터의 크기를 추정하고, 상기 수신된 사이드 정보에 기초하여 상기 프레임에 대한 주파수 도메인 데이터의 사인들을 추정하며, 상기 프레임에 대한 주파수 도메인 데이터를 추정하기 위해 크기 추정치와 사인 추정치를 결합하는, 오디오 신호의 프레임 은폐 시스템.
- 제 23 항에 있어서,상기 FLC 모듈은, 상기 인코더로부터 송신된 상기 프레임에 대한 오디오 비트스트림에 대해 에러 검출을 수행하며, 하나 이상의 에러가 검출될 때 상기 프레임에 대한 주파수 도메인 데이터를 폐기하는 에러 검출 모듈을 포함하는, 오디오 신호의 프레임 은폐 시스템.
- 제 23 항에 있어서,상기 FLC 모듈은, 상기 프레임에 대한 상기 주파수 도메인 데이터의 크기를 추정하기 위해 상기 프레임의 선행 프레임과 상기 프레임의 후속 프레임의 에너지에 기초하여 에너지 보간을 수행하는 크기 추정기를 포함하는, 오디오 신호의 프레임 은폐 시스템.
- 제 23 항에 있어서,상기 FLC 모듈은,랜덤 신호로부터 상기 프레임에 대한 상기 주파수 도메인 데이터의 잡음 성분들에 대한 사인들을 추정하며,상기 사이드 정보로서 상기 인코더로부터 송신된 상기 프레임에 대한 상기 사인들의 서브세트에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터의 음조 성분들에 대한 사인들을 추정하는 사인 추정기를 포함하는, 오디오 신호의 프 레임 은폐 시스템.
- 제 26 항에 있어서,상기 FLC 모듈은, 크기의 순서로 상기 프레임에 대한 상기 주파수 도메인 데이터를 정렬하고, 상기 프레임에 대한 상기 주파수 도메인 데이터의 음조 성분들로서 가장 높은 크기를 갖는 소정의 수의 상기 주파수 도메인 데이터를 선택하며, 상기 프레임내의 상기 음조 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하는 성분 선택 모듈을 포함하며,상기 사인 추정기는 상기 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 사인들의 서브세트로부터 상기 음조 성분들에 대한 사인들을 추정하는, 오디오 신호의 프레임 은폐 시스템.
- 제 23 항에 있어서,상기 인코더는, 상기 프레임에 대한 상기 주파수 도메인 데이터로부터 상기 사인들의 서브세트를 추출하며, 상기 사이드 정보로서 이웃하는 프레임에 대한 오디오 비트스트림에 상기 사인들의 서브세트를 부착하는 사인 추출기를 포함하고,상기 인코더는 상기 이웃하는 프레임에 대한 상기 오디오 비트스트림과 상기 프레임에 대한 상기 사이드 정보를 상기 디코더로 송신하는, 오디오 신호의 프레임 은폐 시스템.
- 제 28 항에 있어서,상기 인코더는, 크기의 순서로 상기 프레임에 대한 상기 주파수 도메인 데이터를 정렬하고, 상기 프레임에 대한 상기 주파수 도메인 데이터의 음조 성분들로서 가장 높은 크기를 갖는 소정의 수의 상기 주파수 도메인 데이터를 선택하며, 상기 프레임내의 상기 음조 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하는 성분 선택 모듈을 포함하며,상기 사인 추출기는, 상기 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터로부터 상기 음조 성분들에 대한 상기 사인들의 서브세트를 추출하는, 오디오 신호의 프레임 은폐 시스템.
- 제 23 항에 있어서,상기 프레임에 대한 상기 주파수 도메인 데이터는, 변형 이산 코사인 변환 (MDCT) 계수들로 표현되는, 오디오 신호의 프레임 은폐 시스템.
- 제 23 항에 있어서,상기 인코더는, 상기 프레임에 대한 시간 도메인 오디오 신호를 상기 프레임에 대한 주파수 도메인 데이터로 인코딩하는 변환 유닛을 포함하며,상기 디코더는, 상기 프레임에 대한 상기 추정된 주파수 도메인 데이터를 상기 프레임에 대한 추정된 시간 도메인 데이터로 디코딩하는 역변환 유닛을 포함하는, 오디오 신호의 프레임 은폐 시스템.
- 제 31 항에 있어서,상기 인코더에 포함된 상기 변환 유닛은 변형 이산 코사인 변환 유닛을 포함하며,상기 디코더에 포함된 상기 역변환 유닛은 변형 이산 코사인 역변환 유닛을 포함하는, 오디오 신호의 프레임 은폐 시스템.
- 제 23 항에 있어서,상기 사이드 정보는 상기 프레임에 대한 주파수 도메인 데이터의 음조 성분들에 대한 사인들의 서브세트를 포함하고,상기 인코더는, 상기 인코더를 사용하여 상기 프레임내의 상기 음조 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하고, 상기 인코더를 사용하여 상기 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터로부터 상기 음조 성분들에 대한 상기 사인들의 서브세트를 추출하며, 상기 사이드 정보로서 상기 음조 성분들에 대한 상기 사인들의 서브세트를 상기 디코더로 송신하며,상기 디코더는, 상기 인코더와 동일한 프로세스를 사용하여 상기 디코더로 상기 프레임내의 상기 음조 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하며, 상기 인덱스 서브세트에 기초하여 상기 사인들의 서브세트로부터 상기 음조 성분들에 대한 사인들을 추정하는, 오디오 신호의 프레임 은폐 시스템.
- 오디오 신호의 프레임에 대한 주파수 도메인 데이터의 성분을 선택하는 성분 선택 모듈; 및상기 프레임에 대한 상기 주파수 도메인 데이터로부터 상기 선택된 성분들에 대한 사인들의 서브세트를 추출하는 사인 추출기를 포함하며,사이드 정보로서 상기 프레임에 대한 상기 사인들의 서브세트를 디코더로 송신하는, 인코더.
- 제 34 항에 있어서,상기 인코더는, 주파수 도메인 데이터를 포함하는 상기 프레임에 대한 오디오 비트스트림을 상기 디코더로 송신하며, 이웃하는 프레임에 대한 오디오 비트스트림과 상기 프레임에 대한 상기 사이드 정보를 상기 디코더로 송신하고,상기 사인 추출기는, 상기 이웃하는 프레임에 대한 상기 오디오 비트스트림에 상기 프레임에 대한 상기 사이드 정보를 부착하는, 인코더.
- 제 34 항에 있어서,상기 성분 선택 모듈은 상기 프레임내의 상기 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하는, 인코더.
- 제 34 항에 있어서,상기 선택된 성분들은 상기 프레임에 대한 상기 주파수 도메인 데이터의 음 조 성분들을 포함하고,상기 성분 선택 모듈은, 크기의 순서로 상기 프레임에 대한 상기 주파수 도메인 데이터를 정렬하며, 상기 음조 성분들로서, 가장 높은 크기를 갖는 소정의 수의 상기 주파수 도메인 데이터를 선택하는, 인코더.
- 제 34 항에 있어서,상기 프레임의 이웃하는 프레임들에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터의 크기를 추정하는 크기 추정기를 더 포함하고,상기 성분 선택 모듈은 상기 프레임에 대한 상기 주파수 도메인 데이터의 크기 추정치로부터 음조 성분들을 선택하고, 상기 프레임에 대한 상기 주파수 도메인 데이터의 크기 추정치로부터 선택된 상기 음조 성분들의 위치들을 식별하는 추정된 인덱스 서브세트를 생성하고,상기 사인 추출기는 상기 프레임에 대한 상기 추정된 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터로부터 상기 음조 성분들에 대한 상기 사인들의 서브세트를 추출하고,상기 인코더는 FLC 모듈을 포함하고,상기 크기 추정기, 상기 성분 선택 모듈 및 상기 사인 추출기는 상기 FLC 모듈에 포함되는, 인코더.
- 제 34 항에 있어서,상기 성분 선택 모듈은, 이웃하는 프레임에 대한 주파수 도메인 데이터 크기로부터 음조 성분들을 선택하고, 상기 이웃하는 프레임에 대한 상기 주파수 도메인 데이터 크기로부터 선택된 상기 음조 성분들의 위치들을 식별하는 인덱스 서브세트 를 생성하고,상기 사인 추출기는, 상기 이웃하는 프레임에 대한 상기 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터로부터 상기 음조 성분들에 대한 상기 사인들의 서브세트를 추출하는, 인코더.
- 프레임 손실 은폐 (FLC) 모듈을 포함하는 디코더로서,상기 FLC 모듈은,프레임의 이웃하는 프레임들에 기초하여 오디오 신호의 프레임에 대한 주파수 도메인 데이터의 크기를 추정하는 크기 추정기; 및사이드 정보로서 인코더로부터 송신된 상기 프레임에 대한 사인들의 서브세트에 기초하여 상기 프레임에 대한 주파수 도메인 데이터의 사인들을 추정하는 사인 추정기를 포함하며,상기 디코더는 상기 프레임에 대한 주파수 도메인 데이터를 추정하기 위해 크기 추정치와 사인 추정치를 결합하는, 디코더.
- 제 40 항에 있어서,상기 디코더는, 상기 인코더로부터, 주파수 도메인 데이터를 포함하는 상기 프레임에 대한 오디오 비트스트림을 수신하고, 상기 인코더로부터, 이웃하는 프레임에 대한 오디오 비트스트림과 상기 프레임에 대한 상기 사이드 정보를 수신하는, 디코더.
- 제 40 항에 있어서,상기 FLC 모듈은, 상기 인코더로부터 송신된 상기 프레임에 대한 오디오 비트스트림에 대해 에러 검출을 수행하고, 하나 이상의 에러가 검출될 때 상기 프레임에 대한 주파수 도메인 데이터를 폐기하는 에러 검출 모듈을 포함하는, 디코더.
- 제 40 항에 있어서,상기 FLC 모듈은, 상기 프레임에 대한 상기 주파수 도메인 데이터의 크기를 추정하기 위해 상기 프레임의 선행 프레임과 상기 프레임의 후속 프레임의 에너지에 기초하여 에너지 보간을 수행하는 크기 추정기를 포함하는, 디코더.
- 제 40 항에 있어서,상기 사인 추정기는, 랜덤 신호로부터 상기 프레임에 대한 상기 주파수 도메인 데이터의 잡음 성분들에 대한 사인들을 추정하고, 상기 사이드 정보로서 상기 인코더로부터 송신된 상기 프레임에 대한 상기 사인들의 서브세트에 기초하여 상기 프레임에 대한 상기 주파수 도메인 데이터의 음조 성분들에 대한 사인들을 추정하는, 디코더.
- 제 40 항에 있어서,상기 FLC 모듈은, 상기 프레임에 대한 상기 주파수 도메인 데이터의 음조 성 분들을 선택하고, 상기 프레임내의 상기 음조 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하는 성분 선택 모듈을 포함하며,상기 사인 추정기는, 상기 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 사인들의 서브세트로부터 상기 음조 성분들에 대한 사인들을 추정하는, 디코더.
- 제 45 항에 있어서,상기 성분 선택 모듈은, 크기의 순서로 상기 주파수 도메인 데이터를 정렬하고, 상기 음조 성분들로서, 가장 높은 크기를 갖는 소정의 수의 상기 주파수 도메인 데이터를 선택하는, 디코더.
- 제 40 항에 있어서,상기 FLC 모듈은, 상기 프레임에 대한 상기 주파수 도메인 데이터의 상기 크기 추정치로부터 음조 성분들을 선택하고, 상기 프레임에 대한 상기 주파수 도메인 데이터의 상기 크기 추정치로부터 선택된 상기 음조 성분들의 위치들을 식별하는 추정된 인덱스 서브세트를 생성하는 성분 선택 모듈을 포함하며,상기 사인 추정기는, 상기 프레임에 대한 상기 추정된 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 사인들의 서브세트로부터 상기 음조 성분들에 대한 사인들을 추정하는, 디코더.
- 제 40 항에 있어서,상기 FLC 모듈은, 상기 프레임의 이웃하는 프레임에 대한 주파수 도메인 데이터의 크기로부터 음조 성분들을 선택하고, 상기 이웃하는 프레임에 대한 상기 주파수 도메인 데이터의 상기 크기로부터 선택된 상기 음조 성분들의 위치들을 식별하는 인덱스 서브세트를 생성하는 성분 선택 모듈을 포함하며,상기 사인 추정기는, 상기 이웃하는 프레임에 대한 상기 인덱스 서브세트에 기초하여 상기 프레임에 대한 상기 사인들의 서브세트로부터 상기 음조 성분들에 대한 사인들을 추정하는, 디코더.
Applications Claiming Priority (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US73045905P | 2005-10-26 | 2005-10-26 | |
US60/730,459 | 2005-10-26 | ||
US73201205P | 2005-10-31 | 2005-10-31 | |
US60/732,012 | 2005-10-31 | ||
US11/431,733 US8620644B2 (en) | 2005-10-26 | 2006-05-10 | Encoder-assisted frame loss concealment techniques for audio coding |
US11/431,733 | 2006-05-10 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20080070026A KR20080070026A (ko) | 2008-07-29 |
KR100998450B1 true KR100998450B1 (ko) | 2010-12-06 |
Family
ID=37772833
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020087012437A KR100998450B1 (ko) | 2005-10-26 | 2006-10-25 | 오디오 코딩을 위한 인코더-보조 프레임 손실 은폐 기술 |
Country Status (8)
Country | Link |
---|---|
US (1) | US8620644B2 (ko) |
EP (1) | EP1941500B1 (ko) |
JP (1) | JP4991743B2 (ko) |
KR (1) | KR100998450B1 (ko) |
CN (1) | CN101346760B (ko) |
AT (1) | ATE499676T1 (ko) |
DE (1) | DE602006020316D1 (ko) |
WO (1) | WO2007051124A1 (ko) |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008066836A1 (en) * | 2006-11-28 | 2008-06-05 | Treyex Llc | Method and apparatus for translating speech during a call |
KR101261524B1 (ko) * | 2007-03-14 | 2013-05-06 | 삼성전자주식회사 | 노이즈를 포함하는 오디오 신호를 저비트율로부호화/복호화하는 방법 및 이를 위한 장치 |
CN101325537B (zh) * | 2007-06-15 | 2012-04-04 | 华为技术有限公司 | 一种丢帧隐藏的方法和设备 |
KR100906766B1 (ko) * | 2007-06-18 | 2009-07-09 | 한국전자통신연구원 | 키 재동기 구간의 음성 데이터 예측을 위한 음성 데이터송수신 장치 및 방법 |
CN101471073B (zh) * | 2007-12-27 | 2011-09-14 | 华为技术有限公司 | 一种基于频域的丢包补偿方法、装置和系统 |
CN101588341B (zh) * | 2008-05-22 | 2012-07-04 | 华为技术有限公司 | 一种丢帧隐藏的方法及装置 |
WO2009150290A1 (en) | 2008-06-13 | 2009-12-17 | Nokia Corporation | Method and apparatus for error concealment of encoded audio data |
CN102089815A (zh) * | 2008-07-09 | 2011-06-08 | Nxp股份有限公司 | 数字处理音频信号的方法和设备以及计算机程序产品 |
CN101958119B (zh) * | 2009-07-16 | 2012-02-29 | 中兴通讯股份有限公司 | 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法 |
US8595005B2 (en) * | 2010-05-31 | 2013-11-26 | Simple Emotion, Inc. | System and method for recognizing emotional state from a speech signal |
CN104934036B (zh) | 2010-11-22 | 2018-11-02 | 株式会社Ntt都科摩 | 音频编码装置、方法以及音频解码装置、方法 |
JP5724338B2 (ja) * | 2010-12-03 | 2015-05-27 | ソニー株式会社 | 符号化装置および符号化方法、復号装置および復号方法、並びにプログラム |
US9767823B2 (en) | 2011-02-07 | 2017-09-19 | Qualcomm Incorporated | Devices for encoding and detecting a watermarked signal |
US9767822B2 (en) | 2011-02-07 | 2017-09-19 | Qualcomm Incorporated | Devices for encoding and decoding a watermarked signal |
CN102810313B (zh) * | 2011-06-02 | 2014-01-01 | 华为终端有限公司 | 音频解码方法及装置 |
WO2013048171A2 (ko) * | 2011-09-28 | 2013-04-04 | 엘지전자 주식회사 | 음성 신호 부호화 방법 및 음성 신호 복호화 방법 그리고 이를 이용하는 장치 |
CN107103910B (zh) | 2011-10-21 | 2020-09-18 | 三星电子株式会社 | 帧错误隐藏方法和设备以及音频解码方法和设备 |
CN103325373A (zh) * | 2012-03-23 | 2013-09-25 | 杜比实验室特许公司 | 用于传送和接收音频信号的方法和设备 |
US9558750B2 (en) | 2012-06-08 | 2017-01-31 | Samsung Electronics Co., Ltd. | Method and apparatus for concealing frame error and method and apparatus for audio decoding |
KR20150056770A (ko) * | 2012-09-13 | 2015-05-27 | 엘지전자 주식회사 | 손실 프레임 복원 방법 및 오디오 복호화 방법과 이를 이용하는 장치 |
US9280975B2 (en) * | 2012-09-24 | 2016-03-08 | Samsung Electronics Co., Ltd. | Frame error concealment method and apparatus, and audio decoding method and apparatus |
CN103714821A (zh) | 2012-09-28 | 2014-04-09 | 杜比实验室特许公司 | 基于位置的混合域数据包丢失隐藏 |
CN105976824B (zh) * | 2012-12-06 | 2021-06-08 | 华为技术有限公司 | 信号解码的方法和设备 |
MX2021000353A (es) * | 2013-02-05 | 2023-02-24 | Ericsson Telefon Ab L M | Método y aparato para controlar ocultación de pérdida de trama de audio. |
EP3333848B1 (en) * | 2013-02-05 | 2019-08-21 | Telefonaktiebolaget LM Ericsson (publ) | Audio frame loss concealment |
HUE052041T2 (hu) | 2013-02-13 | 2021-04-28 | Ericsson Telefon Ab L M | Keret hiba javítás |
AU2014283180B2 (en) * | 2013-06-21 | 2017-01-05 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals |
CA2913578C (en) | 2013-06-21 | 2018-05-22 | Michael Schnabel | Apparatus and method for generating an adaptive spectral shape of comfort noise |
EP2830064A1 (en) | 2013-07-22 | 2015-01-28 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Apparatus and method for decoding and encoding an audio signal using adaptive spectral tile selection |
JP2017508188A (ja) | 2014-01-28 | 2017-03-23 | シンプル エモーション, インコーポレイテッドSimple Emotion, Inc. | 適応型音声対話のための方法 |
EP2963648A1 (en) | 2014-07-01 | 2016-01-06 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio processor and method for processing an audio signal using vertical phase correction |
FR3024582A1 (fr) * | 2014-07-29 | 2016-02-05 | Orange | Gestion de la perte de trame dans un contexte de transition fd/lpd |
EP3230980B1 (en) * | 2014-12-09 | 2018-11-28 | Dolby International AB | Mdct-domain error concealment |
EP3301843A4 (en) * | 2015-06-29 | 2018-05-23 | Huawei Technologies Co., Ltd. | Method for data processing and receiver device |
EP3553777B1 (en) * | 2018-04-09 | 2022-07-20 | Dolby Laboratories Licensing Corporation | Low-complexity packet loss concealment for transcoded audio signals |
CN110908630A (zh) * | 2019-11-20 | 2020-03-24 | 国家广播电视总局中央广播电视发射二台 | 音频处理方法、处理器、音频监测装置及设备 |
US11418876B2 (en) | 2020-01-17 | 2022-08-16 | Lisnr | Directional detection and acknowledgment of audio-based data transmissions |
US11361774B2 (en) * | 2020-01-17 | 2022-06-14 | Lisnr | Multi-signal detection and combination of audio-based data transmissions |
CN112365896B (zh) * | 2020-10-15 | 2022-06-14 | 武汉大学 | 一种基于栈式稀疏自编码器的面向对象编码方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005059900A1 (en) | 2003-12-19 | 2005-06-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Improved frequency-domain error concealment |
Family Cites Families (47)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4969192A (en) * | 1987-04-06 | 1990-11-06 | Voicecraft, Inc. | Vector adaptive predictive coder for speech and audio |
KR100220861B1 (ko) * | 1989-01-27 | 1999-09-15 | 쥬더, 에드 에이. | 고품질 오디오용 낮은 시지연 변환인코더, 디코더 및 인코딩/디코딩방법 |
US5504833A (en) * | 1991-08-22 | 1996-04-02 | George; E. Bryan | Speech approximation using successive sinusoidal overlap-add models and pitch-scale modifications |
US5233348A (en) * | 1992-03-26 | 1993-08-03 | General Instrument Corporation | Variable length code word decoder for use in digital communication systems |
US5745169A (en) * | 1993-07-19 | 1998-04-28 | British Telecommunications Public Limited Company | Detecting errors in video images |
CN1140001A (zh) * | 1994-12-02 | 1997-01-08 | 索尼公司 | 数字信号的插值方法及其装置、以及记录媒体的记录和(或)再生装置及其方法 |
KR970011728B1 (ko) | 1994-12-21 | 1997-07-14 | 김광호 | 음향신호의 에러은닉방법 및 그 장치 |
JPH08223049A (ja) * | 1995-02-14 | 1996-08-30 | Sony Corp | 信号符号化方法及び装置、信号復号化方法及び装置、情報記録媒体並びに情報伝送方法 |
FR2741215B1 (fr) * | 1995-11-14 | 1998-01-23 | Matra Communication | Procede de transmission d'une sequence de bits d'information avec protection selective contre les erreurs de transmission, procedes de codage et de correction pouvant etre mis en oeuvre dans un tel procede de transmission |
JP3421962B2 (ja) | 1996-10-14 | 2003-06-30 | 日本電信電話株式会社 | 欠落音響信号合成処理方法 |
WO1999050828A1 (en) * | 1998-03-30 | 1999-10-07 | Voxware, Inc. | Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment |
US6240141B1 (en) * | 1998-05-09 | 2001-05-29 | Centillium Communications, Inc. | Lower-complexity peak-to-average reduction using intermediate-result subset sign-inversion for DSL |
US6073151A (en) * | 1998-06-29 | 2000-06-06 | Motorola, Inc. | Bit-serial linear interpolator with sliced output |
JP3567750B2 (ja) | 1998-08-10 | 2004-09-22 | 株式会社日立製作所 | 圧縮音声再生方法及び圧縮音声再生装置 |
US6975254B1 (en) | 1998-12-28 | 2005-12-13 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Methods and devices for coding or decoding an audio signal or bit stream |
US6453287B1 (en) * | 1999-02-04 | 2002-09-17 | Georgia-Tech Research Corporation | Apparatus and quality enhancement algorithm for mixed excitation linear predictive (MELP) and other speech coders |
US6366888B1 (en) | 1999-03-29 | 2002-04-02 | Lucent Technologies Inc. | Technique for multi-rate coding of a signal containing information |
US7039581B1 (en) * | 1999-09-22 | 2006-05-02 | Texas Instruments Incorporated | Hybrid speed coding and system |
US7222070B1 (en) * | 1999-09-22 | 2007-05-22 | Texas Instruments Incorporated | Hybrid speech coding and system |
US6959274B1 (en) * | 1999-09-22 | 2005-10-25 | Mindspeed Technologies, Inc. | Fixed rate speech compression system and method |
US6757654B1 (en) * | 2000-05-11 | 2004-06-29 | Telefonaktiebolaget Lm Ericsson | Forward error correction in speech coding |
FR2813722B1 (fr) | 2000-09-05 | 2003-01-24 | France Telecom | Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif |
JP4190742B2 (ja) * | 2001-02-09 | 2008-12-03 | ソニー株式会社 | 信号処理装置及び方法 |
US6996523B1 (en) * | 2001-02-13 | 2006-02-07 | Hughes Electronics Corporation | Prototype waveform magnitude quantization for a frequency domain interpolative speech codec system |
US6931373B1 (en) * | 2001-02-13 | 2005-08-16 | Hughes Electronics Corporation | Prototype waveform phase modeling for a frequency domain interpolative speech codec system |
WO2002071389A1 (fr) | 2001-03-06 | 2002-09-12 | Ntt Docomo, Inc. | Procede et dispositif d'interpolation de donnees sonores, procede et dispositif de creation d'informations relatives aux donnees sonores, procede et dispositif de transmission des informations d'interpolation des donnees sonores, et programme et support d'enregistrement correspondants |
JP4622164B2 (ja) | 2001-06-15 | 2011-02-02 | ソニー株式会社 | 音響信号符号化方法及び装置 |
DE10130233A1 (de) | 2001-06-22 | 2003-01-02 | Bosch Gmbh Robert | Verfahren zur Störverdeckung bei digitaler Audiosignalübertragung |
US7590525B2 (en) * | 2001-08-17 | 2009-09-15 | Broadcom Corporation | Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform |
US7200561B2 (en) * | 2001-08-23 | 2007-04-03 | Nippon Telegraph And Telephone Corporation | Digital signal coding and decoding methods and apparatuses and programs therefor |
EP1315148A1 (en) * | 2001-11-17 | 2003-05-28 | Deutsche Thomson-Brandt Gmbh | Determination of the presence of ancillary data in an audio bitstream |
US6751587B2 (en) * | 2002-01-04 | 2004-06-15 | Broadcom Corporation | Efficient excitation quantization in noise feedback coding with general noise shaping |
US7047187B2 (en) | 2002-02-27 | 2006-05-16 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for audio error concealment using data hiding |
CA2388439A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for efficient frame erasure concealment in linear predictive based speech codecs |
CA2388352A1 (en) * | 2002-05-31 | 2003-11-30 | Voiceage Corporation | A method and device for frequency-selective pitch enhancement of synthesized speed |
DE10236694A1 (de) * | 2002-08-09 | 2004-02-26 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Vorrichtung und Verfahren zum skalierbaren Codieren und Vorrichtung und Verfahren zum skalierbaren Decodieren |
US7657427B2 (en) * | 2002-10-11 | 2010-02-02 | Nokia Corporation | Methods and devices for source controlled variable bit-rate wideband speech coding |
US20040083110A1 (en) | 2002-10-23 | 2004-04-29 | Nokia Corporation | Packet loss recovery based on music signal classification and mixing |
JP2004194048A (ja) | 2002-12-12 | 2004-07-08 | Alps Electric Co Ltd | オーディオデータの転送方法および再生方法 |
US6985856B2 (en) | 2002-12-31 | 2006-01-10 | Nokia Corporation | Method and device for compressed-domain packet loss concealment |
US7139959B2 (en) * | 2003-03-24 | 2006-11-21 | Texas Instruments Incorporated | Layered low density parity check decoding for digital communications |
EP1465349A1 (en) * | 2003-03-31 | 2004-10-06 | Interuniversitair Microelektronica Centrum Vzw | Embedded multiple description scalar quantizers for progressive image transmission |
US7356748B2 (en) * | 2003-12-19 | 2008-04-08 | Telefonaktiebolaget Lm Ericsson (Publ) | Partial spectral loss concealment in transform codecs |
EP1914722B1 (en) * | 2004-03-01 | 2009-04-29 | Dolby Laboratories Licensing Corporation | Multichannel audio decoding |
US7668712B2 (en) * | 2004-03-31 | 2010-02-23 | Microsoft Corporation | Audio encoding and decoding with intra frames and adaptive forward error correction |
KR100647290B1 (ko) * | 2004-09-22 | 2006-11-23 | 삼성전자주식회사 | 합성된 음성의 특성을 이용하여 양자화/역양자화를선택하는 음성 부호화/복호화 장치 및 그 방법 |
US7831421B2 (en) * | 2005-05-31 | 2010-11-09 | Microsoft Corporation | Robust decoder |
-
2006
- 2006-05-10 US US11/431,733 patent/US8620644B2/en not_active Expired - Fee Related
- 2006-10-25 DE DE602006020316T patent/DE602006020316D1/de active Active
- 2006-10-25 EP EP06846154A patent/EP1941500B1/en not_active Not-in-force
- 2006-10-25 JP JP2008538157A patent/JP4991743B2/ja not_active Expired - Fee Related
- 2006-10-25 KR KR1020087012437A patent/KR100998450B1/ko not_active IP Right Cessation
- 2006-10-25 AT AT06846154T patent/ATE499676T1/de not_active IP Right Cessation
- 2006-10-25 WO PCT/US2006/060237 patent/WO2007051124A1/en active Application Filing
- 2006-10-25 CN CN2006800488292A patent/CN101346760B/zh not_active Expired - Fee Related
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2005059900A1 (en) | 2003-12-19 | 2005-06-30 | Telefonaktiebolaget Lm Ericsson (Publ) | Improved frequency-domain error concealment |
Non-Patent Citations (1)
Title |
---|
Taleb et al. 'Partial Spectral Loss Concealment in Transform Coders', ICASSP'05, Vol.3, pp.185-188, March 2005 |
Also Published As
Publication number | Publication date |
---|---|
CN101346760A (zh) | 2009-01-14 |
DE602006020316D1 (de) | 2011-04-07 |
ATE499676T1 (de) | 2011-03-15 |
KR20080070026A (ko) | 2008-07-29 |
US20070094009A1 (en) | 2007-04-26 |
EP1941500A1 (en) | 2008-07-09 |
JP2009514032A (ja) | 2009-04-02 |
JP4991743B2 (ja) | 2012-08-01 |
EP1941500B1 (en) | 2011-02-23 |
CN101346760B (zh) | 2011-09-14 |
WO2007051124A1 (en) | 2007-05-03 |
US8620644B2 (en) | 2013-12-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100998450B1 (ko) | 오디오 코딩을 위한 인코더-보조 프레임 손실 은폐 기술 | |
KR102230623B1 (ko) | 다중의 오디오 신호들의 인코딩 | |
US8428959B2 (en) | Audio packet loss concealment by transform interpolation | |
JP4991854B2 (ja) | オーディオ信号に関連付けられるフレームを持つ窓を修正するためのシステムと方法 | |
US7447639B2 (en) | System and method for error concealment in digital audio transmission | |
KR101468458B1 (ko) | 멀티 포인트 환경에서의 스케일러블 오디오 | |
US8385366B2 (en) | Apparatus and method for transmitting a sequence of data packets and decoder and apparatus for decoding a sequence of data packets | |
TWI446338B (zh) | 可擴縮音訊處理方法及裝置 | |
EP2022045B1 (en) | Decoding of predictively coded data using buffer adaptation | |
Hwang | Multimedia networking: From theory to practice | |
KR101647576B1 (ko) | 스테레오 오디오 신호 인코더 | |
WO2023197809A1 (zh) | 一种高频音频信号的编解码方法和相关装置 | |
US9984698B2 (en) | Optimized partial mixing of audio streams encoded by sub-band encoding | |
Xie et al. | ITU-T G. 719: A new low-complexity full-band (20 kHz) audio coding standard for high-quality conversational applications | |
WO2009146734A1 (en) | Multi-channel audio coding | |
TWI394398B (zh) | 用於傳輸資料分組序列的設備和方法以及用於對資料分組序列進行解碼的解碼器和設備 | |
Kurniawati et al. | Error concealment scheme for MPEG-AAC | |
JPH03148929A (ja) | 適応変換符号化復号方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant | ||
FPAY | Annual fee payment |
Payment date: 20131030 Year of fee payment: 4 |
|
FPAY | Annual fee payment |
Payment date: 20141030 Year of fee payment: 5 |
|
FPAY | Annual fee payment |
Payment date: 20150930 Year of fee payment: 6 |
|
LAPS | Lapse due to unpaid annual fee |