KR20180118781A - 하이브리드 은닉 방법: 오디오 코덱들에서 주파수 및 시간 도메인 패킷 손실 은닉의 결합 - Google Patents

하이브리드 은닉 방법: 오디오 코덱들에서 주파수 및 시간 도메인 패킷 손실 은닉의 결합 Download PDF

Info

Publication number
KR20180118781A
KR20180118781A KR1020187028987A KR20187028987A KR20180118781A KR 20180118781 A KR20180118781 A KR 20180118781A KR 1020187028987 A KR1020187028987 A KR 1020187028987A KR 20187028987 A KR20187028987 A KR 20187028987A KR 20180118781 A KR20180118781 A KR 20180118781A
Authority
KR
South Korea
Prior art keywords
error concealment
audio
frequency
time domain
audio frame
Prior art date
Application number
KR1020187028987A
Other languages
English (en)
Other versions
KR102250472B1 (ko
Inventor
제레미 르콩트
아드리안 토마세크
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20180118781A publication Critical patent/KR20180118781A/ko
Application granted granted Critical
Publication of KR102250472B1 publication Critical patent/KR102250472B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • G10L19/025Detection of transients or attacks for time/frequency resolution switching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0002Codebook adaptations

Abstract

본 발명의 실시예들은 인코딩된 오디오 정보에서 오디오 프레임의 손실을 은닉하기 위한 오류 은닉 오디오 정보(802)를 제공하기 위한 오류 은닉 유닛(800, 800b)에 관한 것이다. 오류 은닉 유닛은 주파수 도메인 은닉(805)을 사용하여 제1 주파수 범위에 대한 제1 오류 은닉 오디오 정보 성분(807')을 제공한다. 오류 은닉 유닛은 또한, 시간 도메인 은닉(809)을 사용하여 제1 주파수 범위보다 더 낮은 주파수들을 포함하는 제2 주파수 범위에 대한 제2 오류 은닉 오디오 정보 성분(811')을 제공한다. 오류 은닉 유닛은 또한, 오류 은닉 오디오 정보를 얻기 위해 제1 오류 은닉 오디오 정보 성분(807')과 제2 오류 은닉 오디오 정보 성분(811')을 결합(812)한다. 본 발명의 다른 실시예들은 오류 은닉 유닛을 포함하는 디코더뿐만 아니라, 디코딩 및/또는 은닉을 위한 관련 인코더들, 방법들 및 컴퓨터 프로그램들에 관한 것이다.

Description

하이브리드 은닉 방법: 오디오 코덱들에서 주파수 및 시간 도메인 패킷 손실 은닉의 결합
1. 기술 분야
본 발명에 따른 실시예들은 시간 도메인 은닉 성분 및 주파수 도메인 은닉 성분을 기초로 하여, 인코딩된 오디오 정보에서 오디오 프레임의 손실을 은닉하기 위한 오류 은닉 오디오 정보를 제공하기 위한 오류 은닉 유닛들을 생성한다.
본 발명에 따른 실시예들은 인코딩된 오디오 정보를 기초로 하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더들을 생성하는데, 디코더들은 상기 오류 은닉 유닛들을 포함한다.
본 발명에 따른 실시예들은 필요하다면, 은닉 기능들에 사용될 인코딩된 오디오 정보 및 추가 정보를 제공하기 위한 오디오 인코더들을 생성한다.
본 발명에 따른 일부 실시예들은 시간 도메인 은닉 성분 및 주파수 도메인 은닉 성분을 기초로 하여, 인코딩된 오디오 정보에서 오디오 프레임의 손실을 은닉하기 위한 오류 은닉 오디오 정보를 제공하기 위한 방법들을 생성한다.
본 발명에 따른 일부 실시예들은 상기 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램들을 생성한다.
2. 발명의 배경
최근에 오디오 콘텐츠의 디지털 송신 및 저장을 위한 요구가 증가하고 있다. 그러나 오디오 콘텐츠는 흔히 신뢰할 수 없는 채널들을 통해 송신되는데, 이는 (예를 들어, 인코딩된 주파수 도메인 표현 또는 인코딩된 시간 도메인 표현과 같이, 예를 들어 인코딩된 표현의 형태로) 하나 또는 그보다 많은 오디오 프레임들을 포함하는 데이터 유닛들(예를 들어, 패킷들)이 손실되는 위험을 가져온다. 일부 상황들에서는, 손실된 오디오 프레임들의(또는 하나 또는 그보다 많은 손실된 오디오 프레임들을 포함하는, 패킷들과 같은 데이터 유닛들의) 반복(재전송)을 요구하는 것이 가능할 것이다. 그러나 이는 일반적으로 상당한 지연을 가져올 것이며, 따라서 오디오 프레임들의 엄청난 버퍼링을 요구할 것이다. 다른 경우들에는, 손실된 오디오 프레임들의 반복을 요구하는 것은 거의 불가능하다.
(상당한 양의 메모리를 소비할 것이고 또한 오디오 코딩의 실시간 능력들을 실질적으로 저하시킬) 엄청난 버퍼링을 제공하지 않으면서 오디오 프레임들이 손실되는 경우를 고려하여 양호한 또는 적어도 수용 가능한 오디오 품질을 획득하기 위해, 하나 또는 그보다 많은 오디오 프레임들의 손실을 처리하기 위한 개념들을 갖는 것이 바람직하다. 특히, 오디오 프레임들이 손실되는 경우에도, 양호한 오디오 품질 또는 적어도 수용 가능한 오디오 품질을 가져오는 개념들을 갖는 것이 바람직하다.
특히, 프레임 손실은 프레임이 적절하게 디코딩되지 않았음(특히, 출력될 시간에 디코딩되지 않았음)을 의미한다. 프레임이 완벽하게 검출되지 않은 경우, 또는 프레임이 너무 늦게 도착한 경우, 또는 비트 오류가 검출되는 경우(그러한 이유로, 프레임이 이용 가능하지 않고 은닉될 것이라는 의미에서 프레임이 손실됨), 프레임 손실이 발생할 수 있다. ("프레임 손실들"의 클래스의 일부인 것으로 유지될 수 있는) 이러한 실패들의 경우, 결과는 프레임을 디코딩하는 것이 불가능하다는 것이며, 오류 은닉 연산을 수행할 필요가 있다.
과거에는, 서로 다른 오디오 코딩 개념들에 이용될 수 있는 어떤 오류 은닉 개념들이 개발되었다.
고급 오디오 코덱(AAC: advanced audio codec)의 종래의 은닉 기술은 잡음 대체[1]이다. 이는 주파수 도메인에서 동작하며 잡음 및 음악 항목들에 적합하다.
그럼에도, 음성 세그먼트들의 경우, 주파수 도메인 잡음 대체는 흔히 시간 도메인에서 짜증스러운 "클릭" 인공물들로 끝나는 위상 불연속성을 발생시킨다는 것이 인정되었다.
따라서 ACELP형 시간 도메인 접근 방식이 분류기에 의해 결정된 음성 세그먼트들(예컨대, [2] 또는 [3]에서의 TD-TCX PLC)에 사용될 수 있다.
시간 도메인 은닉에 따른 한 가지 문제점은 전체 주파수 범위 상의 인공적으로 발생된 조화성이다. 짜증스러운 "비프(beep)" 인공물들이 발생될 수 있다.
시간 도메인 은닉의 다른 약점은 오류 없는 디코딩 또는 잡음 대체를 이용한 은닉에 비해 높은 계산상의 복잡성이다.
종래 기술의 손상들을 극복하기 위한 해결책이 필요하다.
3. 발명의 요약
본 발명에 따르면, 인코딩된 오디오 정보에서 오디오 프레임의 손실을 은닉하기 위한 오류 은닉 오디오 정보를 제공하기 위한 오류 은닉 유닛이 제공된다. 오류 은닉 유닛은 주파수 도메인 은닉을 사용하여 제1 주파수 범위에 대한 제1 오류 은닉 오디오 정보 성분을 제공하도록 구성된다. 오류 은닉 유닛은 시간 도메인 은닉을 사용하여 제1 주파수 범위보다 더 낮은 주파수들을 포함하는 제2 주파수 범위에 대한 제2 오류 은닉 오디오 정보 성분을 제공하도록 추가로 구성된다. 오류 은닉 유닛은 오류 은닉 오디오 정보를 얻기 위해 제1 오류 은닉 오디오 정보 성분과 제2 오류 은닉 오디오 정보 성분을 결합하도록 추가로 구성된다(여기서 오류 은닉에 관한 추가 정보가 선택적으로 또한 제공될 수 있다).
고주파들(대부분 잡음)에 대해서는 주파수 도메인 은닉을 그리고 저주파들(대부분 음성)에 대해서는 시간 도메인 은닉을 사용함으로써, (전체 주파수 범위에 걸쳐 시간 도메인 은닉을 사용함으로써 수반될) 잡음에 대한 인공적으로 발생된 강한 조화성이 방지되고, (전체 주파수 범위에 걸쳐 주파수 도메인 은닉을 사용함으로써 수반될) 앞서 언급한 클릭 인공물들 및 (전체 주파수 범위에 걸쳐 시간 도메인 은닉을 사용함으로써 수반될) 비프 인공물들이 또한 방지되거나 감소될 수 있다.
더욱이, (전체 주파수 범위에 걸쳐 시간 도메인 은닉이 사용될 때 수반되는) 계산상의 복잡성이 또한 감소된다.
특히, 전체 주파수 범위 상의 인공적으로 발생된 조화성의 문제점이 해결된다. 신호가 보다 낮은 주파수들(음성 항목들에 대해 이는 대개 최대 4㎑ 주위임)에서 강한 고조파들만을 갖는다면, 배경 잡음이 보다 높은 주파수들에 있는 경우에, 나이퀴스트 주파수까지의 발생된 고조파들은 짜증스러운 "비프" 인공물들을 발생시킬 것이다. 본 발명에 따라, 이러한 문제점이 극도로 감소되거나, 대부분의 경우에 해결된다.
본 발명의 한 양상에 따르면, 오류 은닉 유닛은, 제1 오류 은닉 오디오 정보 성분이 주어진 손실된 오디오 프레임의 고주파 부분을 나타내도록, 그리고 제2 오류 은닉 오디오 정보 성분이 주어진 손실된 오디오 프레임의 저주파 부분을 나타내도록, 주어진 손실된 오디오 프레임과 연관된 오류 은닉 오디오 정보가 주파수 도메인 은닉 및 시간 도메인 은닉 모두를 사용하여 획득되도록 구성된다.
본 발명의 한 양상에 따르면, 오류 은닉 유닛은 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 고주파 부분의 변환 도메인 표현을 사용하여 제1 오류 은닉 오디오 정보 성분을 유도하도록 구성되고, 그리고/또는 오류 은닉 유닛은 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 저주파 부분을 기초로 시간 도메인 신호 합성을 사용하여 제2 오류 은닉 오디오 정보 성분를 유도하도록 구성된다.
본 발명의 한 양상에 따르면, 오류 은닉 유닛은, 손실된 오디오 프레임의 고주파 부분의 변환 도메인 표현을 얻기 위해, 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 고주파 부분의 변환 도메인 표현의 스케일링된 또는 스케일링되지 않은 사본을 사용하도록, 그리고 제1 오류 은닉 오디오 정보 성분인 시간 도메인 신호 성분을 얻기 위해, 손실된 오디오 프레임의 고주파 부분의 변환 도메인 표현을 시간 도메인으로 변환하도록 구성된다.
본 발명의 한 양상에 따르면, 오류 은닉 유닛은, 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 저주파 부분을 기초로 하나 또는 그보다 많은 합성 자극 파라미터들 및 하나 또는 그보다 많은 합성 필터 파라미터들을 얻도록, 그리고 얻어진 합성 자극 파라미터들 및 얻어진 합성 필터 파라미터들을 기초로 신호 합성이 유도되는 또는 얻어진 합성 자극 파라미터들 및 얻어진 합성 필터 파라미터들과 동일한 신호 합성 자극 파라미터들 및 필터 파라미터들을 사용하여 제2 오류 은닉 오디오 정보 성분을 얻도록 구성된다.
본 발명의 한 양상에 따르면, 오류 은닉 유닛은 제1 주파수 범위 및/또는 제2 주파수 범위를 결정하고 그리고/또는 신호 적응적으로 변경하기 위한 제어를 수행하도록 구성된다.
이에 따라, 사용자 또는 제어 애플리케이션은 바람직한 주파수 범위들을 선택할 수 있다. 또한, 디코딩된 신호들에 따라 은닉을 수정하는 것이 가능하다.
본 발명의 한 양상에 따르면, 오류 은닉 유닛은, 하나 또는 그보다 많은 인코딩된 오디오 프레임들의 특성들과 하나 또는 그보다 많은 적절하게 디코딩된 오디오 프레임들의 특성들 사이에서 선택된 특성들을 기초로 제어를 수행하도록 구성된다.
이에 따라, 주파수 범위들을 신호의 특성들에 적응시키는 것이 가능하다.
본 발명의 한 양상에 따르면, 오류 은닉 유닛은, 하나 또는 그보다 많은 적절하게 디코딩된 오디오 프레임들의 조화성에 관한 정보를 얻도록, 그리고 조화성에 관한 정보를 기초로 제어를 수행하도록 구성된다. 추가로 또는 대안으로, 오류 은닉 유닛은, 하나 또는 그보다 많은 적절하게 디코딩된 오디오 프레임들의 스펙트럼 기울기에 관한 정보를 얻도록, 그리고 스펙트럼 기울기에 관한 정보를 기초로 제어를 수행하도록 구성된다.
이에 따라, 특별한 동작들을 수행하는 것이 가능하다. 예를 들어, 고조파들의 에너지 기울기가 주파수들에 걸쳐 일정한 경우에, 전체 주파수의 시간 도메인 은닉(주파수 도메인 은닉은 전혀 없음)을 실행하는 것이 바람직할 수 있다. 신호가 조화성을 포함하지 않는 경우에는 전체 스펙트럼의 주파수 도메인 은닉(시간 도메인 은닉은 전혀 없음)이 바람직할 수 있다.
본 발명의 한 양상에 따르면, 제2 주파수 범위(대부분 음성)에서의 조화성과 비교할 때 제1 주파수 범위(대부분 잡음)에서 조화성을 비교적 더 작게 하는 것이 가능하다.
본 발명의 한 양상에 따르면, 오류 은닉 유닛은, 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임이 어떤 주파수까지 조화성 임계치보다 더 강한 조화성을 포함하는지를 결정하도록, 그리고 그에 의존하여 제1 주파수 범위 및 제2 주파수 범위를 선택하도록 구성된다.
임계치와의 비교를 사용함으로써, 예를 들어, 잡음을 음성과 구별하는 것 그리고 시간 도메인 은닉을 사용하여 은닉될 주파수들 및 주파수 도메인 은닉을 사용하여 은닉될 주파수들을 결정하는 것이 가능하다.
본 발명의 한 양상에 따르면, 오류 은닉 유닛은, 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 스펙트럼 기울기가 더 작은 스펙트럼 기울기에서 더 큰 스펙트럼 기울기로 변경되는 주파수 경계를 결정 또는 추정하도록, 그리고 그에 의존하여 제1 주파수 범위 및 제2 주파수 범위를 선택하도록 구성된다.
작은 스펙트럼 기울기로는 상당히(또는 적어도 일반적으로) 평평한 주파수 응답이 발생하는 한편, 큰 스펙트럼 기울기로는 신호가 고대역에서보다 저대역에서 훨씬 더 많은 에너지를 갖는 것을 또는 그 반대로 의도하는 것이 가능하다.
즉, 작은(또는 더 작은) 스펙트럼 기울기는 주파수 응답이 "상당히" 평평함을 의미할 수 있는 반면, 큰(또는 더 큰) 스펙트럼 기울기로는 신호가 고대역에서보다 저대역에서 (예컨대, 스펙트럼 빈마다 또는 주파수 간격마다) (훨씬) 더 많은 에너지를 가지며 또는 그 반대이다.
기본적인(복잡하지 않은) 스펙트럼 기울기 추정을 수행하여 (예컨대, 직선으로 표현될 수 있는) 1차 함수일 수 있는 주파수 대역의 에너지의 추세를 얻는 것이 또한 가능하다. 이 경우, 에너지(예를 들어, 평균 대역 에너지)가 특정한(미리 결정된) 임계치보다 더 낮은 영역을 검출하는 것이 가능하다.
저대역은 거의 에너지를 갖지 않지만 고대역은 에너지를 갖는 경우라면, 일부 실시예들에서는 FD(예컨대, 주파수 도메인 은닉)만을 사용하는 것이 가능하다.
본 발명의 한 양상에 따르면, 오류 은닉 유닛은 제1(일반적으로 더 상위) 주파수 범위가 잡음형 스펙트럼 구조를 포함하는 스펙트럼 영역을 커버하게, 그리고 제2(일반적으로 더 하위) 주파수 범위가 고조파 스펙트럼 구조를 포함하는 스펙트럼 영역을 커버하게, 제1 주파수 범위 및 제2 주파수 범위를 조정하도록 구성된다.
이에 따라, 음성 및 잡음에 대해 서로 다른 은닉 기술들을 사용하는 것이 가능하다.
본 발명의 한 양상에 따르면, 오류 은닉 유닛은 고조파들과 잡음 간의 에너지 관계에 의존하여 제1 주파수 범위의 더 낮은 주파수 끝 및/또는 제2 주파수 범위의 더 높은 주파수 끝을 적응시키게 제어를 수행하도록 구성된다.
고조파들과 잡음 간의 에너지 관계를 분석함으로써, 시간 도메인 은닉을 사용하여 처리될 주파수들 및 주파수 도메인 은닉을 사용하여 처리될 주파수들을 양호한 확실성 수준으로 결정하는 것이 가능하다.
본 발명의 한 양상에 따르면, 오류 은닉 유닛은, 시간 도메인 은닉과 주파수 도메인 은닉 중 적어도 하나를 선택적으로 억제하기 위한 제어를 수행하도록 그리고/또는 오류 은닉 오디오 정보를 얻기 위해 시간 도메인 은닉만을 또는 주파수 도메인 은닉만을 수행하도록 구성된다.
이 속성은 특별한 동작들을 수행할 수 있게 한다. 예를 들어, 고조파들의 에너지 기울기가 주파수들에 걸쳐 일정할 때 주파수 도메인 은닉을 선택적으로 억제하는 것이 가능하다. 신호가 조화성을 포함하지 않는 경우(대부분 잡음), 시간 도메인 은닉이 억제될 수 있다.
본 발명의 한 양상에 따르면, 오류 은닉 유닛은, 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 스펙트럼 기울기의 변화가 주어진 주파수 범위에 걸쳐 미리 결정된 스펙트럼 기울기 임계치보다 더 작은지 여부를 결정 또는 추정하도록, 그리고 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 스펙트럼 기울기의 변화가 미리 결정된 스펙트럼 기울기 임계치보다 더 작다고 확인된다면 시간 도메인 은닉만을 사용하여 오류 은닉 오디오 정보를 얻도록 구성된다.
이에 따라, 스펙트럼 기울기의 전개를 관찰함으로써 시간 도메인 은닉으로만 동작할지 여부를 결정하기 위한 용이한 기술을 갖는 것이 가능하다.
본 발명의 한 양상에 따르면, 오류 은닉 유닛은, 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 조화성이 미리 결정된 조화성 임계치보다 더 작은지 여부를 결정 또는 추정하도록, 그리고 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 조화성이 미리 결정된 조화성 임계치보다 더 작다고 확인된다면 주파수 도메인 은닉만을 사용하여 오류 은닉 오디오 정보를 얻도록 구성된다.
이에 따라, 조화성의 전개를 관찰함으로써 주파수 도메인 은닉으로만 동작할지 여부를 결정하기 위한 해결책을 제공하는 것이 가능하다.
본 발명의 한 양상에 따르면, 오류 은닉 유닛은, 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 피치를 기초로 그리고/또는 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 피치의 시간 전개에 의존하여, 그리고/또는 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임과 손실된 오디오 프레임에 뒤따르는 적절하게 디코딩된 오디오 프레임 사이의 피치의 내삽에 의존하여, 은닉된 프레임의 피치를 적응시키도록 구성된다.
프레임마다 피치가 알려진다면, 과거 피치 값을 기초로, 은닉된 프레임 내에서 피치를 변경하는 것이 가능하다.
본 발명의 한 양상에 따르면, 오류 은닉 유닛은 인코더에 의해 송신된 정보를 기초로 제어를 수행하도록 구성된다.
본 발명의 한 양상에 따르면, 오류 은닉 유닛은 중첩 가산(OLA: overlap-and-add) 메커니즘을 사용하여 제1 오류 은닉 오디오 정보 성분과 제2 오류 은닉 오디오 정보 성분을 결합하도록 추가로 구성된다.
이에 따라, 제1 성분과 제2 성분 간의 오류 은닉 오디오 정보의 두 성분들 간의 결합을 용이하게 수행하는 것이 가능하다.
본 발명의 한 양상에 따르면, 오류 은닉 유닛은 제1 오류 은닉 오디오 정보 성분의 시간 도메인 표현을 얻기 위해, 주파수 도메인 오류 은닉에 의해 얻어진 스펙트럼 도메인 표현을 기초로 변형 이산 코사인 역변환(IMDCT: inverse modified discrete cosine transform)을 수행하도록 구성된다.
이에 따라, 주파수 도메인 은닉과 시간 도메인 은닉 사이에 유용한 인터페이스를 제공하는 것이 가능하다.
본 발명의 한 양상에 따르면, 오류 은닉 유닛은 중첩 가산을 가능하게 하기 위해, 제2 오류 은닉 오디오 정보 성분이 손실된 오디오 프레임보다 적어도 25 퍼센트 더 긴 시간 지속기간을 포함하게 제2 오류 은닉 오디오 정보 성분을 제공하도록 구성된다. 본 발명의 한 양상에 따르면, 오류 은닉 유닛은 시간 도메인에서 2개의 연속적인 프레임들을 얻기 위해 IMDCT를 2회 수행하도록 구성될 수 있다.
보다 저주파 부분과 고주파 부분 또는 경로들을 결합하기 위해, 시간 도메인에서 OLA 메커니즘이 수행된다. AAC형 코덱의 경우, 이는 하나보다 많은 프레임(일반적으로 1과 1/2 프레임들)이 하나의 은닉된 프레임에 대해 업데이트되어야 함을 의미한다. 이는 OLA의 분석 및 합성 방법이 1/2 프레임 지연을 갖기 때문이다. 변형 이산 코사인 역변환(IMDCT)이 사용될 때, IMDCT는 단 하나의 프레임을 발생시키며: 따라서 추가 1/2 프레임이 필요하다. 따라서 시간 도메인에서 2개의 연속적인 프레임들을 얻기 위해 IMDCT가 2회 호출될 수 있다.
특히, 프레임 길이가 AAC에 대해 미리 결정된 수의 샘플들(예컨대, 1024개의 샘플들)로 구성된다면, 인코더에서 MDCT 변환은 먼저 프레임 길이의 2배인 윈도우를 적용하는 것으로 구성된다. 디코더에서 MDCT 이후 그리고 중첩 가산 연산 이전에, 샘플들의 수는 또한 2배(예컨대, 2048)이다. 이러한 샘플들은 에일리어싱을 포함한다. 이 경우, 왼쪽 부분(1024개의 샘플들)에 대해 에일리어싱이 제거되는 것은 이전 프레임과의 중첩 가산 이후이다. 왼쪽 부분은 디코더에 의해 재생될 프레임에 대응한다.
본 발명의 한 양상에 따르면, 오류 은닉 유닛은 주파수 도메인 은닉의 다운스트림에서 제1 오류 은닉 오디오 정보 성분의 고역 통과 필터링을 수행하도록 구성된다.
이에 따라, 양호한 신뢰성 수준으로, 은닉 정보의 고주파 성분을 얻는 것이 가능하다.
본 발명의 한 양상에 따르면, 오류 은닉 유닛은 6㎑ 내지 10㎑, 바람직하게는 7㎑ 내지 9㎑, 보다 바람직하게는 7.5㎑ 내지 8.5㎑, 훨씬 더 바람직하게는 7.9㎑ 내지 8.1㎑, 그리고 훨씬 더 바람직하게는 8㎑의 차단 주파수로 고역 통과 필터링을 수행하도록 구성된다.
이 주파수는 잡음을 음성과 구별하는 데 특히 적합한 것으로 증명되었다.
본 발명의 한 양상에 따르면, 오류 은닉 유닛은 고역 통과 필터링의 더 낮은 주파수 경계를 신호 적응적으로 조정함으로써 제1 주파수 범위의 대역폭을 변경하도록 구성된다.
이에 따라, (임의의 상황에서) 음성 주파수들로부터 잡음 주파수들을 차단하는 것이 가능하다. 정확하게 차단하는 이러한 필터들(HP 및 LP)을 얻는 것은 대개 너무 복잡하기 때문에, 실제로는 (감쇠가 위 또는 아래 주파수에 대해서도 또한 완벽하지 않을 수 있더라도) 차단 주파수가 잘 정의되어 있다.
본 발명의 한 양상에 따르면, 오류 은닉 유닛은, 다운샘플링된 시간 도메인 표현이 손실된 오디오 프레임을 선행하는 오디오 프레임의 저주파 부분만을 나타내는, 손실된 오디오 프레임을 선행하는 오디오 프레임의 다운샘플링된 시간 도메인 표현을 얻기 위해, 손실된 오디오 프레임을 선행하는 오디오 프레임의 시간 도메인 표현을 다운샘플링하고, 그리고 손실된 오디오 프레임을 선행하는 오디오 프레임의 다운샘플링된 시간 도메인 표현을 사용하여 시간 도메인 은닉을 수행하고, 그리고 제2 오류 은닉 오디오 정보 성분을 얻기 위해 시간 도메인 은닉에 의해 제공된 은닉된 오디오 정보 또는 그것의 후처리된 버전을 업샘플링하여, 손실된 오디오 프레임을 선행하는 오디오 프레임을 완전히 나타내는 데 필요한 샘플링 주파수보다 더 작은 샘플링 주파수를 사용하여 시간 도메인 은닉이 수행되도록 구성된다. 업샘플링된 제2 오류 은닉 오디오 정보 성분은 다음에 제1 오류 은닉 오디오 정보 성분과 결합될 수 있다.
다운샘플링된 환경에서 동작함으로써, 시간 도메인 은닉은 감소된 계산상의 복잡성을 갖는다.
본 발명의 한 양상에 따르면, 오류 은닉 유닛은 다운샘플링된 시간 도메인 표현의 샘플링 레이트를 신호 적응적으로 조정함으로써 제2 주파수 범위의 대역폭을 변경하도록 구성된다.
이에 따라, 특히 신호의 상태들이 변화할 때(예를 들어, 특정 신호가 샘플링 레이트를 증가시킬 필요가 있을 때), 다운샘플링된 시간 도메인 표현의 샘플링 레이트를 적절한 주파수로 변경하는 것이 가능하다. 이에 따라, 예컨대 잡음을 음성과 분리할 목적으로, 선호되는 샘플링 레이트를 얻는 것이 가능하다.
본 발명의 한 양상에 따르면, 오류 은닉 유닛은 댐핑 지수(damping factor)를 사용하여 페이드아웃을 수행하도록 구성된다.
이에 따라, 후속하는 은닉된 프레임들을 점진적으로 열화시켜 이들의 강도를 감소시키는 것이 가능하다.
대개는, 하나보다 많은 프레임 손실이 존재할 때 페이드아웃을 한다. 대부분의 시간에, 이미 첫 번째 프레임 손실에 대해 어떤 종류의 페이드아웃을 적용하지만, 가장 중요한 부분은 폭발적인 오류(연이은 다수 프레임들의 손실)를 갖는다면, 묵음 또는 배경 잡음으로 잘 페이드아웃하는 것이다.
본 발명의 추가 양상에 따르면, 오류 은닉 유닛은 제1 오류 은닉 오디오 정보 성분을 유도하기 위해, 손실된 오디오 프레임을 선행하는 오디오 프레임의 스펙트럼 표현을 댐핑 지수를 사용하여 스케일링하도록 구성된다.
그러한 전략은 특히 본 발명에 적합한 깨끗한 열화를 달성하는 것을 가능하게 한다는 점이 주목되었다.
본 발명의 한 양상에 따르면, 오류 은닉 유닛은 제2 오류 은닉 오디오 정보 성분을 얻기 위해 시간 도메인 은닉의 출력 신호, 또는 그것의 업샘플링된 버전을 저역 통과 필터링하도록 구성된다.
이런 식으로, 제2 오류 은닉 오디오 정보 성분가 저주파 범위에 있는 것을 얻기 위한 용이하지만 신뢰할 수 있는 방식을 달성하는 것이 가능하다.
본 발명은 또한 인코딩된 오디오 정보를 기초로 하여, 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더에 관한 것으로, 오디오 디코더는 위에 나타낸 양상들 중 임의의 양상에 따른 오류 은닉 유닛을 포함한다.
본 발명의 한 양상에 따르면, 오디오 디코더는 오디오 프레임의 스펙트럼 도메인 표현의 인코딩된 표현을 기초로 오디오 프레임의 스펙트럼 도메인 표현을 얻도록 구성되며, 오디오 디코더는 오디오 프레임의 디코딩된 시간 표현을 얻기 위해, 스펙트럼 도메인-시간 도메인 변환을 수행하도록 구성된다. 오류 은닉 유닛은 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 스펙트럼 도메인 표현, 또는 그것의 일부를 사용하여 주파수 도메인 은닉을 수행하도록 구성된다. 오류 은닉 유닛은 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 디코딩된 시간 도메인 표현을 사용하여 시간 도메인 은닉을 수행하도록 구성된다.
본 발명은 또한, 인코딩된 오디오 정보에서 오디오 프레임의 손실을 은닉하기 위한 오류 은닉 오디오 정보를 제공하기 위한 오류 은닉 방법에 관한 것으로, 이 방법은:
- 주파수 도메인 은닉을 사용하여 제1 주파수 범위에 대한 제1 오류 은닉 오디오 정보 성분을 제공하는 단계,
- 시간 도메인 은닉을 사용하여 제1 주파수 범위보다 더 낮은 주파수들을 포함하는 제2 주파수 범위에 대한 제2 오류 은닉 오디오 정보 성분을 제공하는 단계, 및
- 오류 은닉 오디오 정보를 얻기 위해 제1 오류 은닉 오디오 정보 성분과 제2 오류 은닉 오디오 정보 성분을 결합하는 단계를 포함한다.
본 발명의 방법은 또한, 제1 주파수 범위 및 제2 주파수 범위를 신호 적응적으로 제어하는 단계를 포함할 수 있다. 이 방법은 또한, 적어도 하나의 손실된 오디오 프레임에 대한 오류 은닉 오디오 정보를 얻기 위해 시간 도메인 은닉만이 또는 주파수 도메인 은닉만이 사용되는 모드로 적응적으로 스위칭하는 단계를 포함할 수 있다.
본 발명은 또한, 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때 본 발명의 방법을 수행하기 위한 그리고/또는 본 발명의 오류 은닉 유닛 및/또는 본 발명의 디코더를 제어하기 위한 컴퓨터 프로그램에 관한 것이다.
본 발명은 또한, 입력 오디오 정보를 기초로 하여, 인코딩된 오디오 표현을 제공하기 위한 오디오 인코더에 관한 것이다. 오디오 인코더는: 입력 오디오 정보를 기초로 하여, 인코딩된 주파수 도메인 표현을 제공하도록 구성된 주파수 도메인 인코더, 및/또는 입력 오디오 정보를 기초로 하여, 인코딩된 선형 예측 도메인 표현을 제공하도록 구성된 선형 예측 도메인 인코더; 및 오디오 디코더 측에서 사용될, 시간 도메인 오류 은닉과 주파수 도메인 오류 은닉 사이의 크로스오버 주파수를 정의하는 크로스오버 주파수 정보를 결정하도록 구성된 크로스오버 주파수 결정기를 포함한다. 오디오 인코더는 인코딩된 주파수 도메인 표현 및/또는 인코딩된 선형 예측 도메인 표현 그리고 또한 크로스오버 주파수 정보를 인코딩된 오디오 표현에 포함하도록 구성된다.
이에 따라, 디코더 측에서 제1 주파수 범위 및 제2 주파수 범위를 인식할 필요가 없다. 이 정보는 인코더에 의해 쉽게 제공될 수 있다.
그러나 오디오 인코더는 예를 들어, 크로스오버 주파수를 결정하기 위해 오디오 디코더와 같은 동일한 개념들에 의존할 수 있다(여기서는 입력 오디오 신호가 디코딩된 오디오 정보 대신 사용될 수 있다).
본 발명은 또한, 입력 오디오 정보를 기초로 하여, 인코딩된 오디오 표현을 제공하기 위한 방법에 관한 것이다. 이 방법은:
- 입력 오디오 정보를 기초로 하여, 인코딩된 주파수 도메인 표현을 제공하기 위한 주파수 도메인 인코딩 단계, 및/또는 입력 오디오 정보를 기초로 하여, 인코딩된 선형 예측 도메인 표현을 제공하기 위한 선형 예측 도메인 인코딩 단계; 및
- 오디오 디코더 측에서 사용될, 시간 도메인 오류 은닉과 주파수 도메인 오류 은닉 사이의 크로스오버 주파수를 정의하는 크로스오버 주파수 정보를 결정하기 위한 크로스오버 주파수 결정 단계를 포함한다.
인코딩 단계는 인코딩된 주파수 도메인 표현 및/또는 인코딩된 선형 예측 도메인 표현 그리고 또한 크로스오버 주파수 정보를 인코딩된 오디오 표현에 포함하도록 구성된다.
본 발명은 또한 인코딩된 오디오 표현에 관한 것으로, 이는: 오디오 콘텐츠를 나타내는 인코딩된 주파수 도메인 표현, 및/또는 오디오 콘텐츠를 나타내는 인코딩된 선형 예측 도메인 표현; 그리고 오디오 디코더 측에서 사용될, 시간 도메인 오류 은닉과 주파수 도메인 오류 은닉 사이의 크로스오버 주파수를 정의하는 크로스오버 주파수 정보를 포함한다.
이에 따라, 제1 주파수 범위 및 제2 주파수 범위에 또는 제1 주파수 범위와 제2 주파수 범위 사이의 경계에 관련된 정보를 (예컨대, 이들의 비트스트림에) 포함하는 오디오 데이터를 간단히 송신하는 것이 가능하다. 따라서 인코딩된 오디오 표현을 수신하는 디코더는 FD 은닉 및 TD 은닉을 위한 주파수 범위들을 인코더에 의해 제공된 명령들에 간단히 적응시킬 수 있다.
본 발명은 또한 앞서 언급한 바와 같은 오디오 인코더 및 앞서 언급한 바와 같은 오디오 디코더를 포함하는 시스템에 관한 것이다. 제어는 오디오 인코더에 의해 제공된 크로스오버 주파수 정보를 기초로 제1 주파수 범위 및 제2 주파수 범위를 결정하도록 구성될 수 있다.
이에 따라, 디코더는 TD 은닉 및 FD 은닉의 주파수 범위들을 인코더에 의해 제공된 커맨드들로 적응적으로 수정할 수 있다.
4. 도면들의 간단한 설명
다음에, 본 발명의 실시예들이 첨부된 도면들을 참조하여 설명될 것이다.
도 1은 본 발명에 따른 은닉 유닛의 블록 개략도를 도시한다.
도 2는 본 발명의 일 실시예에 따른 오디오 디코더의 블록 개략도를 도시한다.
도 3은 본 발명의 다른 실시예에 따른 오디오 디코더의 블록 개략도를 도시한다.
도 4는 도 4a 및 도 4b에 의해 형성되며, 본 발명의 다른 실시예에 따른 오디오 디코더의 블록 개략도를 도시한다.
도 5는 시간 도메인 은닉의 블록 개략도를 도시한다.
도 6은 시간 도메인 은닉의 블록 개략도를 도시한다.
도 7은 주파수 도메인 은닉의 동작을 예시하는 도면을 도시한다.
도 8a는 본 발명의 일 실시예에 따른 은닉의 블록 개략도를 도시한다.
도 8b는 본 발명의 다른 실시예에 따른 은닉의 블록 개략도를 도시한다.
도 9는 발명의 은닉 방법의 흐름도를 도시한다.
도 10은 발명의 은닉 방법의 흐름도를 도시한다.
도 11은 윈도우 처리 및 중첩 가산 연산에 관한 본 발명의 동작의 상세를 도시한다.
도 12 - 도 18은 신호도들의 비교 예들을 도시한다.
도 19는 본 발명의 일 실시예에 따른 오디오 인코더의 블록 개략도를 도시한다.
도 20은 발명의 인코딩 방법의 흐름도를 도시한다.
5. 실시예들의 설명
본 섹션에서는, 본 발명의 실시예들이 도면들을 참조로 논의된다.
5.1 도 1에 따른 오류 은닉 유닛
도 1은 본 발명에 따른 오류 은닉 유닛(100)의 블록 개략도를 도시한다.
오류 은닉 유닛(100)은 인코딩된 오디오 정보에서 오디오 프레임의 손실을 은닉하기 위한 오류 은닉 오디오 정보(102)를 제공한다. 오류 은닉 유닛(100)은 적절하게 디코딩된 오디오 프레임(101)과 같은 오디오 정보에 의해 입력된다(적절하게 디코딩된 오디오 프레임은 과거에 디코딩된 것으로 의도된다).
오류 은닉 유닛(100)은 주파수 도메인 은닉을 사용하여 제1 주파수 범위에 대한 제1 오류 은닉 오디오 정보 성분(103)을 (예컨대, 주파수 도메인 은닉 유닛(105)을 사용하여) 제공하도록 구성된다. 오류 은닉 유닛(100)은 시간 도메인 은닉을 사용하여 제2 주파수 범위에 대한 제2 오류 은닉 오디오 정보 성분(104)을 (예컨대, 시간 도메인 은닉 유닛(106)을 사용하여) 제공하도록 추가로 구성된다. 제2 주파수 범위는 제1 주파수 범위보다 더 낮은 주파수들을 포함한다. 오류 은닉 유닛(100)은 오류 은닉 오디오 정보(102)를 얻기 위해 (예컨대, 결합기(107)를 사용하여) 제1 오류 은닉 오디오 정보 성분(103)과 제2 오류 은닉 오디오 정보 성분(104)을 결합하도록 추가로 구성된다.
제1 오류 은닉 오디오 정보 성분(103)은 주어진 손실된 오디오 프레임의 고주파 부분(또는 상대적으로 보다 고주파 부분)을 나타내는 것으로 의도될 수 있다. 제2 오류 은닉 오디오 정보 성분(104)은 주어진 손실된 오디오 프레임의 저주파 부분(또는 상대적으로 보다 저주파 부분)을 나타내는 것으로 의도될 수 있다. 손실된 오디오 프레임과 연관된 오류 은닉 오디오 정보(102)는 주파수 도메인 은닉 유닛(105)과 시간 도메인 은닉 유닛(106) 모두를 사용하여 얻어진다.
5.1.1 시간 도메인 오류 은닉
여기서는 시간 도메인 은닉(106)에 의해 구현될 수 있는 시간 도메인 은닉에 관련된 어떤 정보가 제공된다.
이에 따라, 오류 은닉 오디오 정보의 제2 오류 은닉 오디오 정보 성분을 획득하기 위해, 시간 도메인 은닉은 예를 들어, 손실된 오디오 프레임을 선행하는 하나 또는 그보다 많은 오디오 프레임들을 기초로 획득된 시간 도메인 여기 신호를 변형하도록 구성될 수 있다. 그러나 일부 단순한 실시예들에서, 시간 도메인 여기 신호는 변형 없이 사용될 수 있다. 달리 말하자면, 시간 도메인 은닉은 손실된 오디오 프레임을 선행하는 하나 또는 그보다 많은 인코딩된 오디오 프레임들에 대한(또는 이들을 기초로 하는) 시간 도메인 여기 신호를 획득(또는 유도)할 수 있고, 손실된 오디오 프레임을 선행하는 하나 또는 그보다 많은 적절하게 수신된 오디오 프레임들에 대해(또는 이들을 기초로 하여) 획득되는 상기 시간 도메인 여기 신호를 변형하여, 이로써 오류 은닉 오디오 정보의 제2 오류 은닉 오디오 정보 성분을 제공하는 데 사용되는 시간 도메인 여기 신호를 (변형에 의해) 획득할 수 있다. 즉, 변형된 시간 도메인 여기 신호(또는 변형되지 않은 시간 도메인 여기 신호)는 손실된 오디오 프레임과(또는 심지어 다수의 손실된 오디오 프레임들과) 연관된 오류 은닉 오디오 정보의 합성(예를 들어, LPC 합성)을 위한 입력으로서(또는 입력의 성분으로서) 사용될 수 있다. 손실된 오디오 프레임을 선행하는 하나 또는 그보다 많은 적절하게 수신된 오디오 프레임들을 기초로 획득된 시간 도메인 여기 신호를 기초로 오류 은닉 오디오 정보의 제2 오류 은닉 오디오 정보 성분을 제공함으로써, 가청 불연속성들이 방지될 수 있다. 다른 한편으로는, 손실된 오디오 프레임을 선행하는 하나 또는 그보다 많은 오디오 프레임들에 대해(또는 이러한 프레임들로부터) 유도되는 시간 도메인 여기 신호를 (선택적으로) 변형함으로써, 그리고 (선택적으로) 변형된 시간 도메인 여기 신호를 기초로 오류 은닉 오디오 정보를 제공함으로써, 오디오 콘텐츠의 특성들의 변경(예를 들면, 피치 변화)을 고려하는 것이 가능하고, (예를 들어, 결정론적(예를 들어, 적어도 대략 주기적인) 신호 성분을 "페이드 아웃"함으로써) 부자연스러운 청취 인상을 피하는 것이 또한 가능하다. 따라서 오류 은닉 오디오 정보가 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임들을 기초로 획득된 디코딩된 오디오 정보와의 어떤 유사성을 포함하는 것이 달성될 수 있고, 시간 도메인 여기 신호를 다소 변형함으로써 손실된 오디오 프레임을 선행하는 오디오 프레임과 연관된 디코딩된 오디오 정보와 비교될 때 오류 은닉 오디오 정보가 다소 상이한 콘텐츠를 포함하는 것이 또한 달성될 수 있다. (손실된 오디오 프레임과 연관된) 오류 은닉 오디오 정보의 제공을 위해 사용되는 시간 도메인 여기 신호의 변형은 예를 들어, 진폭 스케일링 또는 시간 스케일링을 포함할 수 있다. 그러나 다른 타입들의 변형(또는 심지어 진폭 스케일링과 시간 스케일링의 결합)이 가능하고, 여기서 바람직하게는 오류 은닉에 의해 (입력 정보로서) 획득된 시간 도메인 여기 신호와 변형된 시간 도메인 여기 신호 사이의 어느 정도의 관계는 유지되어야 한다.
결론적으로 말하면, 오디오 디코더는 하나 또는 그보다 많은 오디오 프레임들이 손실된 경우에도 오류 은닉 오디오 정보가 양호한 청취 인상을 제공하도록, 오류 은닉 오디오 정보를 제공할 수 있게 한다. 오류 은닉은 시간 도메인 여기 신호를 기초로 수행되는데, 여기서 손실된 오디오 프레임을 선행하는 하나 또는 그보다 많은 오디오 프레임들을 기초로 획득된 시간 도메인 여기 신호를 변형함으로써, 손실된 오디오 프레임 동안의 오디오 콘텐츠의 시간 특성들의 변화가 고려될 수 있다.
5.1.2 주파수 도메인 오류 은닉
여기서는 주파수 도메인 은닉(105)에 의해 구현될 수 있는 주파수 도메인 은닉에 관련된 어떤 정보가 제공된다. 그러나 본 발명의 오류 은닉 유닛에서, 아래에 논의되는 주파수 도메인 오류 은닉은 제한된 주파수 범위에서 수행된다.
그러나 여기서 설명되는 주파수 도메인 은닉은 단지 예들로서만 고려되어야 하며, 다른 또는 더 많은 고급 개념들이 또한 적용될 수 있다는 점이 주목되어야 한다. 즉, 본 명세서에서 설명되는 개념은 일부 특정 코덱들에 사용되지만, 모든 주파수 도메인 디코더들에 적용될 필요는 없다.
주파수 도메인 은닉 기능은 일부 구현들에서, (예를 들어, 주파수 도메인 은닉이 내삽을 사용한다면) 디코더의 지연을 하나의 프레임씩 증가시킬 수 있다. 일부 구현들에서(또는 일부 디코더들에서), 주파수 도메인 은닉은 마지막 주파수-시간 변환 직전의 스펙트럼 데이터에 대해 작용한다. 단일 프레임이 손상되는 경우에, 은닉은 예를 들어, 마지막(또는 마지막 중 하나) 양호한 프레임(적절하게 디코딩된 오디오 프레임)과 첫 번째 양호한 프레임 사이에서 내삽하여 누락 프레임에 대한 스펙트럼 데이터를 생성할 수 있다. 그러나 일부 디코더들은 내삽을 수행하는 것이 가능하지 않을 수 있다. 그러한 경우, 예를 들어, 이전 디코딩된 스펙트럼 값들의 복사 또는 외삽과 같이, 보다 간단한 주파수 도메인 은닉이 사용될 수 있다. 이전 프레임은 주파수-시간 변환에 의해 처리될 수 있으며, 그래서 여기서 대체될 누락 프레임은 이전 프레임이고, 마지막 양호한 프레임은 이전 프레임 전의 프레임이며, 첫 번째 양호한 프레임은 실제 프레임이다. 다수의 프레임들이 손상된다면, 은닉은 우선 마지막 양호한 프레임으로부터 약간 변형된 스펙트럼 값들을 기초로 페이드아웃을 구현한다. 양호한 프레임들이 이용 가능해지자마자, 은닉은 새로운 스펙트럼 데이터로 페이드인한다.
다음에, 실제 프레임은 프레임 번호 n이고, 내삽될 손상 프레임은 프레임 n-1이며, 마지막, 그러나 하나의 프레임은 번호 n-2를 갖는다. 손상 프레임의 윈도우 시퀀스 및 윈도우 형상의 결정이 아래 표로부터 이어진다:
표 1: (일부 AAC 군 디코더들 및 USAC에 사용되는)
내삽된 윈도우 시퀀스들 및 윈도우 형상들
Figure pct00001
프레임 n-2 및 프레임 n의 스케일 팩터 대역 에너지들이 계산된다. 이러한 프레임들 중 하나에서의 윈도우 시퀀스가 EIGHT_SHORT_SEQUENCE이고 프레임 n-1에 대한 최종 윈도우 시퀀스가 긴 변환 윈도우들 중 하나라면, 짧은 블록 스펙트럼 계수들의 주파수 라인 인덱스를 긴 블록 표현에 매핑함으로써 긴 블록 스케일 팩터 대역들에 대해 스케일 팩터 대역 에너지들이 계산된다. 각각의 스펙트럼 계수에 팩터를 곱한 더 이전 프레임 n-2의 스펙트럼을 재사용함으로써 새로운 내삽된 스펙트럼이 구축된다. 프레임 n-2의 짧은 윈도우 시퀀스 및 프레임 n의 긴 윈도우 시퀀스의 경우에 예외가 발생하는데, 여기서 실제 프레임 n의 스펙트럼은 내삽 팩터에 의해 변형된다. 이 팩터는 각각의 스케일 팩터 대역의 범위에 걸쳐 일정하며, 프레임 n-2 및 프레임 n의 스케일 팩터 대역 에너지 차이들로부터 유도된다. 마지막으로, 내삽된 스펙트럼 계수들의 부호가 랜덤하게 뒤집할 것이다.
완전하나 페이드아웃에는 5개의 프레임들이 걸린다. 마지막 양호한 프레임으로부터의 스펙트럼 계수들이 복사되고 다음의 팩터에 의해 감쇠되는데:
Figure pct00002
nFadeOutFrame은 마지막 양호한 프레임으로부터의 프레임 카운터이다.
페이드아웃하는 5개의 프레임들 이후, 은닉은 뮤팅(muting)으로 스위칭되는데, 이는 완전한 스펙트럼이 0으로 설정될 것임을 의미한다.
디코더는 양호한 프레임들을 다시 수신할 때 페이드인된다. 페이드인 프로세스는 역시 5개의 프레임들이 걸리며, 스펙트럼에 곱해지는 팩터는 다음과 같고:
Figure pct00003
여기서 nFadeOutFrame은 다수의 프레임들을 은닉한 이후 첫 번째 양호한 프레임으로부터의 프레임 카운터이다.
최근에, 새로운 해결책들이 소개되었다. 이러한 시스템들에 관련하여, 마지막 이전 양호한 프레임의 디코딩 직후 주파수 빈을 복사한 다음, TNS 및/또는 잡음 채움과 같은 다른 처리를 독립적으로 적용하는 것이 이제 가능하다.
다른 해결책들이 또한 EVS 또는 ELD에 사용될 수도 있다.
5.2. 도 2에 따른 오디오 디코더
도 2는 본 발명의 일 실시예에 따른 오디오 디코더(200)의 블록 개략도를 도시한다. 오디오 디코더(200)는 인코딩된 오디오 정보(210)를 수신하며, 이는 예를 들어, 주파수 도메인 표현으로 인코딩된 오디오 프레임을 포함할 수 있다. 인코딩된 오디오 정보(210)는 원칙적으로는, 신뢰할 수 없는 채널을 통해 수신되어, 이따금 프레임 손실이 발생한다. 프레임이 너무 늦게 수신 또는 검출되는 것, 또는 비트 오류가 검출되는 것이 또한 가능하다. 이러한 발생들은 프레임 손실의 영향을 가지며: 프레임이 디코딩에 이용 가능하지 않다. 이러한 실패들 중 하나에 대한 응답으로, 디코더는 은닉 모드로 동작할 수 있다. 오디오 디코더(200)는 인코딩된 오디오 정보(210)를 기초로, 디코딩된 오디오 정보(212)를 추가로 제공한다.
오디오 디코더(200)는 디코딩/처리(220)를 포함할 수 있는데, 이는 프레임 손실 없이, 인코딩된 오디오 정보를 기초로 하여 디코딩된 오디오 정보(222)를 제공한다.
오디오 디코더(200)는 (오류 은닉 유닛(100)에 의해 구현될 수 있는) 오류 은닉(230)을 더 포함하며, 이는 오류 은닉 오디오 정보(232)를 제공한다. 오류 은닉(230)은 오디오 프레임의 손실을 은닉하기 위한 오류 은닉 오디오 정보(232)를 제공하도록 구성된다.
즉, 디코딩/처리(220)는 주파수 도메인 표현의 형태로, 즉 인코딩된 표현의 형태로 인코딩되는 오디오 프레임들에 대한 디코딩된 오디오 정보(222)를 제공하는데, 이것의 인코딩된 값들은 서로 다른 주파수 빈들에서의 강도들을 기술한다. 달리 말하자면, 디코딩/처리(220)는 예를 들어, 주파수 도메인 오디오 디코더를 포함할 수 있으며, 이는 인코딩된 오디오 정보(210)로부터 한 세트의 스펙트럼 값들을 유도하고 주파수 도메인-시간 도메인 변환을 수행함으로써, 디코딩된 오디오 정보(222)를 구성하는 또는 추가 후처리가 존재하는 경우에는 디코딩된 오디오 정보(222)의 제공에 대한 기초를 형성하는 시간 도메인 표현을 유도한다.
게다가, 오디오 디코더(200)는 개별적으로 또는 조합하여 다음에 설명되는 특징들 및 기능들 중 임의의 것으로 보완될 수 있다는 점이 주목되어야 한다.
5.3. 도 3에 따른 오디오 디코더
도 3은 본 발명의 일 실시예에 따른 오디오 디코더(300)의 블록 개략도를 도시한다.
오디오 디코더(300)는 인코딩된 오디오 정보(310)를 수신하고 이를 기초로, 디코딩된 오디오 정보(312)를 제공하도록 구성된다. 오디오 디코더(300)는 ("비트스트림 디포머(deformer)" 또는 비트스트림 파서(parser)"로서 또한 지정될 수 있는) 비트스트림 분석기(320)를 포함한다. 비트스트림 분석기(320)는 인코딩된 오디오 정보(310)를 수신하고 이를 기초로, 주파수 도메인 표현(322) 및 가능하게는 추가 제어 정보(324)를 제공한다. 주파수 도메인 표현(322)은 예를 들어, 인코딩된 스펙트럼 값들(326), 인코딩된 스케일 팩터들(또는 LPC 표현)(328) 및 선택적으로, 예를 들어 잡음 채움, 중간 처리 또는 후처리와 같은 특정 처리 단계들을 제어할 수 있는 추가적인 부가 정보(330)를 포함할 수 있다. 오디오 디코더(300)는 또한 인코딩된 스펙트럼 값들(326)을 수신하고, 이들을 기초로, 한 세트의 디코딩된 스펙트럼 값들(342)을 제공하도록 구성되는 스펙트럼 값 디코딩(340)을 포함한다. 오디오 디코더(300)는 또한, 인코딩된 스케일 팩터들(328)을 수신하고 이를 기초로, 한 세트의 디코딩된 스케일 팩터들(352)을 제공하도록 구성될 수 있는 스케일 팩터 디코딩(350)을 포함할 수 있다.
스케일 팩터 디코딩에 대한 대안으로, 예를 들어 인코딩된 오디오 정보가 스케일 팩터 정보보다는 인코딩된 LPC 정보를 포함하는 경우에는, LPC-스케일 팩터 변환(354)이 사용될 수 있다. 그러나 일부 코딩 모드들에서는(예를 들어, USAC 오디오 디코더의 TCX 디코딩 모드에서 또는 EVS 오디오 디코더에서), 오디오 디코더 측에서 한 세트의 스케일 팩터들을 유도하는 데 한 세트의 LPC 계수들이 사용될 수 있다. 이러한 기능은 LPC-스케일 팩터 변환(354)에 의해 이루어질 수 있다.
오디오 디코더(300)는 또한 한 세트의 스케일링된 팩터들(352)을 한 세트의 스펙트럼 값들(342)에 적용함으로써 한 세트의 스케일링된 디코딩된 스펙트럼 값들(362)을 획득하도록 구성될 수 있는 스케일러(360)를 포함할 수 있다. 예를 들어, 다수의 디코딩된 스펙트럼 값들(342)을 포함하는 제1 주파수 대역은 제1 스케일 팩터를 사용하여 스케일링될 수 있고, 다수의 디코딩된 스펙트럼 값들(342)을 포함하는 제2 주파수 대역은 제2 스케일 팩터를 사용하여 스케일링될 수 있다. 이에 따라, 한 세트의 스케일링된 디코딩된 스펙트럼 값들(362)이 획득된다. 오디오 디코더(300)는 일부 처리를 스케일링된 디코딩된 스펙트럼 값들(362)에 적용할 수 있는 선택적 처리(366)를 더 포함할 수 있다. 예를 들어, 선택적 처리(366)는 잡음 채움 또는 일부 다른 연산들을 포함할 수 있다.
오디오 디코더(300)는 또한 스케일링된 디코딩된 스펙트럼 값들(362) 또는 그것의 처리된 버전(368)을 수신하고, 한 세트의 스케일링된 디코딩된 스펙트럼 값들(362)과 연관된 시간 도메인 표현(372)을 제공하도록 구성되는 주파수 도메인-시간 도메인 변환(370)을 포함할 수 있다. 예를 들어, 주파수 도메인-시간 도메인 변환(370)은 오디오 콘텐츠의 프레임 또는 서브프레임과 연관되는 시간 도메인 표현(372)을 제공할 수 있다. 예를 들어, 주파수 도메인-시간 도메인 변환은 (스케일링된 디코딩된 스펙트럼 값들로서 고려될 수 있는) 한 세트의 MDCT 계수들을 수신할 수 있고 이를 기초로, 시간 도메인 표현(372)을 형성할 수 있는 시간 도메인 샘플들의 블록을 제공할 수 있다.
오디오 디코더(300)는 시간 도메인 표현(372)을 수신하고 시간 도메인 표현(372)을 다소 변형함으로써 시간 도메인 표현(372)의 후처리된 버전(378)을 획득할 수 있는 후처리(376)를 선택적으로 포함할 수 있다.
오디오 디코더(300)는 또한 주파수 도메인-시간 도메인 변환(370)으로부터의 시간 도메인 표현(372) 및 스케일링된 디코딩된 스펙트럼 값들(362)(또는 이들의 처리된 버전(368))을 수신하는 오류 은닉(380)을 포함한다. 또한, 오류 은닉(380)은 하나 또는 그보다 많은 손실된 오디오 프레임들에 대한 오류 은닉 오디오 정보(382)를 제공한다. 즉, 오디오 프레임이 손실되어, 예를 들어 상기 오디오 프레임(또는 오디오 서브프레임)에 어떠한 인코딩된 스펙트럼 값들(326)도 이용 가능하지 않다면, 오류 은닉(380)은 손실된 오디오 프레임을 선행하는 하나 또는 그보다 많은 오디오 프레임들과 연관된 시간 도메인 표현(372) 및 스케일링된 디코딩된 스펙트럼 값들(362)(또는 이들의 처리된 버전(368))을 기초로 오류 은닉 오디오 정보를 제공할 수 있다. 오류 은닉 오디오 정보는 일반적으로 오디오 콘텐츠의 시간 도메인 표현일 수 있다.
오류 은닉(380)은 예를 들어, 위에 설명된 오류 은닉 유닛(100) 및/또는 오류 은닉(230)의 기능을 수행할 수 있다는 점이 주목되어야 한다.
오류 은닉과 관련하여, 오류 은닉은 프레임 디코딩과 동시에 발생하지 않는다는 점이 주목되어야 한다. 예를 들어, 프레임(n)이 양호하다면, 정상 디코딩을 수행하고, 결국에는 다음 프레임을 은닉해야 한다면 도움을 줄 어떤 변수를 저장하며, 그리고 나서 프레임(n+1)이 손실된다면, 이전 양호한 프레임으로부터 오는 변수를 제공하는 은닉 기능을 호출한다. 또한, 다음 프레임 손실에 대해 또는 다음 양호한 프레임으로의 복원에 대해 도움을 주도록 일부 변수들을 업데이트할 것이다.
오디오 디코더(300)는 또한 시간 도메인 표현(372)(또는 후처리(376)가 존재하는 경우에는 후처리된 시간 도메인 표현(378))을 수신하도록 구성되는 신호 결합(390)을 포함한다. 게다가, 신호 결합(390)은 일반적으로 또한, 손실된 오디오 프레임에 대해 제공된 오류 은닉 오디오 신호의 시간 도메인 표현인 오류 은닉 오디오 정보(382)를 수신할 수 있다. 신호 결합(390)은 예를 들어, 후속 오디오 프레임들과 연관된 시간 도메인 표현들을 결합할 수 있다. 뒤따르는 적절하게 디코딩된 오디오 프레임들이 존재하는 경우에, 신호 결합(390)은 이러한 뒤따르는 적절하게 디코딩된 오디오 프레임들과 연관된 시간 도메인 표현들을 결합(예를 들어, 중첩 가산)할 수 있다. 그러나 오디오 프레임이 손실된다면, 신호 결합(390)은 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임과 연관된 시간 도메인 표현과, 손실된 오디오 프레임과 연관된 오류 은닉 오디오 정보를 결합(예를 들어, 중첩 가산)함으로써, 적절하게 수신된 오디오 프레임과 손실된 오디오 프레임 사이의 원활한 전환을 할 수 있다. 마찬가지로, 신호 결합(390)은 손실된 오디오 프레임과 연관된 오류 은닉 오디오 정보와 손실된 오디오 프레임에 뒤따르는 다른 적절하게 디코딩된 오디오 프레임과 연관된 시간 도메인 표현(또는 다수의 연속적인 오디오 프레임들이 손실되는 경우에는 다른 손실된 오디오 프레임과 연관된 다른 오류 은닉 오디오 정보)을 결합(예를 들어, 중첩 가산)하도록 구성될 수 있다.
이에 따라, 신호 결합(390)은 적절하게 디코딩된 오디오 프레임들에 대해 시간 도메인 표현(372) 또는 그것의 후처리된 버전(378)이 제공되도록, 그리고 손실된 오디오 프레임들에 대해 오류 은닉 오디오 정보(382)가 제공되도록, 디코딩된 오디오 정보(312)를 제공할 수 있고, 후속 오디오 프레임들의 오디오 정보(이 정보가 주파수 도메인-시간 도메인 변환(370)에 의해 제공되는지 아니면 오류 은닉(380)에 의해 제공되는지에 관계없이) 사이에서 일반적으로 중첩 가산 연산이 수행된다. 일부 코덱들은 소거될 필요가 있는 중첩 가산 부분에 대해 어떤 에일리어싱을 갖기 때문에, 중첩 가산을 수행하기 위해 생성한 프레임의 절반에 대해 선택적으로 어떤 인공 에일리어싱을 생성할 수 있다.
오디오 디코더(300)의 기능은 도 2에 따른 오디오 디코더(200)의 기능과 유사하다는 점이 주목되어야 한다. 게다가, 도 3에 따른 오디오 디코더(300)는 본 명세서에서 설명되는 특징들 및 기능들 중 임의의 것으로 보완될 수 있다는 점이 주목되어야 한다. 특히, 오류 은닉(380)은 오류 은닉과 관련하여 본 명세서에서 설명되는 특징들 및 기능들 중 임의의 것으로 보완될 수 있다.
5.4. 도 4에 따른 오디오 디코더(400)
도 4는 본 발명의 다른 실시예에 따른 오디오 디코더(400)를 도시한다.
오디오 디코더(400)는 인코딩된 오디오 정보를 수신하고 이를 기초로, 디코딩된 오디오 정보(412)를 제공하도록 구성된다. 오디오 디코더(400)는 예를 들어, 인코딩된 오디오 정보(410)를 수신하도록 구성될 수 있으며, 서로 다른 오디오 프레임들이 서로 다른 인코딩 모드들을 사용하여 인코딩된다. 예를 들어, 오디오 디코더(400)는 다중 모드 오디오 디코더 또는 "스위칭" 오디오 디코더로서 고려될 수 있다. 예를 들어, 오디오 프레임들의 일부는 주파수 도메인 표현을 사용하여 인코딩될 수 있고, 인코딩된 오디오 정보는 스펙트럼 값들(예를 들어, FFT 값들 또는 MDCT 값들) 및 서로 다른 주파수 대역들의 스케일링을 표현하는 스케일 팩터들의 인코딩된 표현을 포함한다. 게다가, 인코딩된 오디오 정보(410)는 또한 오디오 프레임들의 "시간 도메인 표현" 또는 다수의 오디오 프레임들의 "선형 예측 코딩 도메인 표현"을 포함할 수 있다. (간단하게 "LPC 표현"으로도 또한 지명되는) "선형 예측 코딩 도메인 표현"은 예를 들어, 여기 신호의 인코딩된 표현 및 LPC 파라미터들(선형 예측 코딩 파라미터들)의 인코딩된 표현을 포함할 수 있으며, 선형 예측 코딩 파라미터들은 예를 들어, 시간 도메인 여기 신호를 기초로 오디오 신호를 재구성하는 데 사용되는 선형 예측 코딩 합성 필터를 기술한다.
다음에, 오디오 디코더(400)의 일부 세부사항들이 설명될 것이다.
오디오 디코더(400)는 예를 들어, 인코딩된 오디오 정보(410)를 분석하여 인코딩된 오디오 정보(410)로부터 예를 들어, 인코딩된 스펙트럼 값들, 인코딩된 스케일 팩터들 및 선택적으로, 추가적인 부가 정보를 포함하는 주파수 도메인 표현(422)을 추출할 수 있는 비트스트림 분석기(420)를 포함한다. 비트스트림 분석기(420)는 또한 예를 들어, 인코딩된 여기(426) 및 (인코딩된 선형 예측 파라미터들로도 또한 고려될 수 있는) 인코딩된 선형 예측 계수들(428)을 포함할 수 있는 선형 예측 코딩 도메인 표현(424)을 추출하도록 구성될 수 있다. 게다가, 비트스트림 분석기는 선택적으로, 인코딩된 오디오 정보로부터, 추가 처리 단계들을 제어하는 데 사용될 수 있는 추가적인 부가 정보를 추출할 수 있다.
오디오 디코더(400)는 예를 들어, 도 3에 따른 오디오 디코더(300)의 디코딩 경로와 실질적으로 동일할 수 있는 주파수 도메인 디코딩 경로(430)를 포함한다. 즉, 주파수 도메인 디코딩 경로(430)는 도 3을 참조하여 앞서 설명한 것과 같이, 스펙트럼 값 디코딩(340), 스케일 팩터 디코딩(350), 스케일러(360), 선택적 처리(366), 주파수 도메인-시간 도메인 변환(370), 선택적 후처리(376) 및 오류 은닉(380)을 포함할 수 있다.
오디오 디코더(400)는 또한 (LPC 합성이 시간 도메인에서 실행되기 때문에, 시간 도메인 디코딩 경로로도 또한 고려될 수 있는) 선형 예측 도메인 디코딩 경로(440)를 포함할 수 있다. 선형 예측 도메인 디코딩 경로는 비트스트림 분석기(420)에 의해 제공되는 인코딩된 여기(426)를 수신하고 이를 기초로, (디코딩된 시간 도메인 여기 신호의 형태를 취할 수 있는) 디코딩된 여기(452)를 제공하는 여기 디코딩(450)을 포함한다. 예를 들어, 여기 디코딩(450)은 인코딩된 변환 코딩된 여기 정보를 수신할 수 있고, 이를 기초로, 디코딩된 시간 도메인 여기 신호를 제공할 수 있다. 그러나 대안으로 또는 추가로, 여기 디코딩(450)은 인코딩된 ACELP 여기를 수신할 수 있고, 상기 인코딩된 ACELP 여기 정보를 기초로 디코딩된 시간 도메인 여기 신호(452)를 제공할 수 있다.
여기 디코딩을 위한 서로 다른 옵션들이 존재한다는 점이 주목되어야 한다. 예를 들어, CELP 코딩 개념들, ACELP 코딩 개념들, CELP 코딩 개념들과 ACELP 코딩 개념들의 변형들 및 TCX 코딩 개념을 정의하는 관련 표준들 및 문헌들이 참조된다.
선형 예측 도메인 디코딩 경로(440)는 선택적으로, 처리된 시간 도메인 여기 신호(456)가 시간 도메인 여기 신호(452)로부터 유도되는 처리(454)를 포함한다.
선형 예측 도메인 디코딩 경로(440)는 또한 인코딩된 선형 예측 계수들을 수신하고 이를 기초로, 디코딩된 선형 예측 계수들(462)을 제공하도록 구성되는 선형 예측 계수 디코딩(460)을 포함한다. 선형 예측 계수 디코딩(460)은 입력 정보(428)로서 선형 예측 계수의 상이한 표현들을 사용할 수 있고 출력 정보(462)로서 디코딩된 선형 예측 계수들의 상이한 표현들을 제공할 수 있다. 세부사항들에 대해, 선형 예측 계수들의 인코딩 및/또는 디코딩이 설명되는 서로 다른 표준 문서들이 참조된다.
선형 예측 도메인 디코딩 경로(440)는 선택적으로, 디코딩된 선형 예측 계수들을 처리하고 그것의 처리된 버전(466)을 제공할 수 있는 처리(464)를 포함한다.
선형 예측 도메인 디코딩 경로(440)는 또한 디코딩된 여기(452) 또는 그것의 처리된 버전(456), 및 디코딩된 산형 예측 계수들(462) 또는 그것들의 처리된 버전(466)을 수신하고, 디코딩된 시간 도메인 오디오 신호(472)를 제공하도록 구성되는 LPC 합성(선형 예측 코딩 합성)(470)을 포함한다. 예를 들어, LPC 합성(470)은 디코딩된 시간 도메인 오디오 신호(472)가 시간 도메인 여기 신호(452)(또는 456)를 필터링(합성 필터링)함으로써 획득되도록, 디코딩된 산형 예측 계수들(462)(또는 그것의 처리된 버전(466))에 의해 정의되는 필터링을 디코딩된 시간 도메인 여기 신호(452) 또는 그것의 처리된 버전에 적용하도록 구성될 수 있다. 선형 예측 도메인 디코딩 경로(440)는 선택적으로, 디코딩된 시간 도메인 오디오 신호(472)의 특성들을 개선 또는 조정하는 데 사용될 수 있는 후처리(474)를 포함할 수 있다.
선형 예측 도메인 디코딩 경로(440)는 또한 디코딩된 선형 예측 계수들(462)(또는 그것의 처리된 버전(466)) 및 디코딩된 시간 도메인 여기 신호(452)(또는 그것의 처리된 버전(456))를 수신하도록 구성되는 오류 은닉(480)을 포함한다. 오류 은닉(480)은 선택적으로, 예를 들어 피치 정보 같은 추가 정보를 수신할 수 있다. 결국, 오류 은닉(480)은 인코딩된 오디오 정보(410)의 프레임(또는 서브프레임)이 손실된 경우에, 시간 도메인 오디오 신호의 형태일 수 있는 오류 은닉 오디오 정보를 제공할 수 있다. 따라서 오류 은닉(480)은 오류 은닉 오디오 정보(482)의 특성들이 손실된 오디오 프레임을 선행하는 마지막으로 적절하게 디코딩된 오디오 프레임의 특성들에 실질적으로 적응되도록 오류 은닉 오디오 정보(482)를 제공할 수 있다. 오류 은닉(480)은 오류 은닉(100 및/또는 230 및/또는 380)과 관련하여 설명된 특징들 및 기능들 중 임의의 것을 포함할 수 있다는 점이 주목되어야 한다. 추가로, 오류 은닉(480)은 도 6의 시간 도메인 은닉과 관련하여 설명되는 특징들 및 기능들 중 임의의 것을 또한 포함할 수 있다는 점이 주목되어야 한다.
오디오 디코더(400)는 디코딩된 시간 도메인 오디오 신호(372)(또는 그것의 후처리된 버전(378)), 오류 은닉(380)에 의해 제공되는 오류 은닉 오디오 정보(382), 디코딩된 시간 도메인 오디오 신호(472)(또는 그것의 후처리된 버전(476)) 및 오류 은닉(480)에 의해 제공되는 오류 은닉 오디오 정보(482)를 수신하도록 구성되는 신호 결합기(또는 신호 결합(490))를 또한 포함한다. 신호 결합기(490)는 상기 신호들(372(또는 378), 382, 472(또는 476), 482)을 결합함으로써 디코딩된 오디오 정보(412)를 획득하도록 구성될 수 있다. 특히, 신호 결합기(490)에 의해 중첩 가산 연산이 적용될 수 있다. 이에 따라, 신호 결합기(490)는 서로 다른 엔티티들에 의해(예를 들어, 서로 다른 디코딩 경로들(430, 440)에 의해) 시간 도메인 오디오 신호가 제공되는 후속 오디오 프레임들 사이의 원활한 전환들을 제공할 수 있다. 그러나 후속 프레임들에 대해 동일한 엔티티(예를 들어, 주파수 도메인-시간 도메인 변환(370) 또는 LPC 합성(470))에 의해 시간 도메인 오디오 신호가 제공된다면, 신호 결합기(490)는 또한 원활한 전환들을 제공할 수 있다. 일부 코덱들은 소거될 필요가 있는 중첩 가산 부분에 대해 어떤 에일리어싱을 갖기 때문에, 중첩 가산을 수행하기 위해 생성한 프레임의 절반에 대해 선택적으로 어떤 인공 에일리어싱을 생성할 수 있다. 즉, 인공 시간 도메인 에일리어싱 보상(TDAC: time domain aliasing compensation)이 선택적으로 사용될 수 있다.
또한, 신호 결합기(490)는 (일반적으로 또한 시간 도메인 오디오 신호인) 오류 은닉 오디오 정보가 제공되는 프레임들로의 또는 프레임들로부터의 원활한 전환들을 제공할 수 있다.
요약하면, 오디오 디코더(400)는 주파수 도메인에서 인코딩되는 오디오 프레임들 및 선형 예측 도메인에서 인코딩되는 오디오 프레임들을 디코딩할 수 있게 한다. 특히, 신호 특성들에 의존하여(예를 들어, 오디오 인코더에 의해 제공되는 시그널링 정보를 사용하여) 주파수 도메인 디코딩 경로의 사용 및 선형 예측 도메인 디코딩 경로의 사용 간에 스위칭하는 것이 가능하다. 마지막 적절하게 디코딩된 오디오 프레임이 주파수 도메인에서(또는 동등하게, 주파수 도메인 표현으로) 인코딩되었는지 아니면 시간 도메인에서(또는 동등하게, 시간 도메인 표현으로, 또는 동등하게, 선형 예측 도메인에서, 또는 동등하게 선형 예측 도메인 표현으로) 인코딩되었는지에 의존하여, 프레임 손실의 경우에 오류 은닉 오디오 정보를 제공하기 위해 서로 다른 타입들의 오류 은닉이 사용될 수 있다.
5.5. 도 5에 따른 시간 도메인 은닉
도 5는 본 발명의 일 실시예에 따른 시간 도메인 오류 은닉의 블록 개략도를 도시한다. 도 5에 따른 오류 은닉은 그 전체가 500으로 표기되며, 도 1의 시간 도메인 은닉(106)을 구현할 수 있다. 그러나 간결하게 하기 위해 도 5에는 도시되지 않았지만, (예를 들어, 신호(510)에 적용되는) 시간 도메인 은닉의 입력에서 사용될 수 있는 다운샘플링, 및 시간 도메인 은닉의 출력에서 사용될 수 있는 업샘플링, 그리고 저역 통과 필터링이 또한 적용될 수 있다.
시간 도메인 오류 은닉(500)은 (신호(101)의 저주파 범위일 수 있는) 시간 도메인 오디오 신호(510)를 수신하고 이를 기초로, 제2 오류 은닉 오디오 정보 성분을 제공하는 데 사용될 수 있는 시간 도메인 오디오 신호(예컨대, 신호(104))의 형태를 취하는 오류 은닉 오디오 정보 성분(512)을 제공하도록 구성된다.
오류 은닉(500)은 선택적인 것으로 간주될 수 있는 프리엠퍼시스(pre-emphasis)(520)를 포함한다. 프리엠퍼시스는 시간 도메인 오디오 신호를 수신하고 이를 기초로, 프리엠퍼시스된 시간 도메인 오디오 신호(522)를 제공한다.
오류 은닉(500)은 또한 시간 도메인 오디오 신호(510) 또는 그것의 프리엠퍼시스된 버전(522)을 수신하고, 한 세트의 LPC 파라미터들(532)을 포함할 수 있는 LPC 정보(532)를 획득하도록 구성되는 LPC 분석(530)을 포함한다. 예를 들어, LPC 정보는 한 세트의 LPC 필터 계수들(또는 그것들의 표현) 및 (적어도 대략 LPC 분석의 입력 신호를 재구성하도록 LPC 필터 계수들에 따라 구성된 LPC 합성 필터의 여기를 위해 적응되는) 시간 도메인 여기 신호를 포함할 수 있다.
오류 은닉(500)은 또한 예를 들어, 이전에 디코딩된 오디오 프레임을 기초로 피치 정보(542)를 획득하도록 구성되는 피치 검색(540)을 포함한다.
오류 은닉(500)은 또한 LPC 분석의 결과를 기초로(예를 들어, LPC 분석에 의해 결정된 시간 도메인 여기 신호를 기초로), 그리고 가능하게는 피치 검색의 결과를 기초로 외삽된 시간 도메인 여기 신호를 획득하도록 구성될 수 있는 외삽(550)을 포함한다.
오류 은닉(500)은 또한 잡음 신호(562)를 제공하는 잡음 발생(560)을 포함한다. 오류 은닉(500)은 또한, 외삽된 시간 도메인 여기 신호(552) 및 잡음 신호(562)를 수신하고 이를 기초로, 결합된 시간 도메인 여기 신호(572)를 제공하도록 구성되는 결합기/페이더(fader)(570)를 포함한다. 결합기/페이더(570)는 외삽된 시간 도메인 여기 신호(552)와 잡음 신호(562)를 결합하도록 구성될 수 있으며, 페이딩이 수행될 수 있어, (LPC 합성의 입력 신호의 결정론적 성분을 결정하는) 외삽된 시간 도메인 여기 신호(552)의 상대적 기여는 시간 경과에 따라 감소하는 한편, 잡음 신호(562)의 상대적 기여는 시간 경과에 따라 증가한다. 그러나 결합기/페이더의 다른 기능이 또한 가능하다. 또한, 아래의 설명이 참조된다.
오류 은닉(500)은 또한 결합된 시간 도메인 여기 신호(572)를 수신하고 이를 기초로 시간 도메인 오디오 신호(582)를 제공하는 LPC 합성(580)을 포함한다. 예를 들어, LPC 합성은 또한, 결합된 시간 도메인 여기 신호(572)에 적용되어 시간 도메인 오디오 신호(582)를 유도하는 LPC 성형 필터를 기술하는 LPC 필터 계수들을 수신할 수 있다. LPC 합성(580)은 예를 들어, (예를 들어, LPC 분석(530)에 의해 제공되는) 하나 또는 그보다 많은 이전에 디코딩된 오디오 프레임들을 기초로 획득되는 LPC 계수들을 사용할 수 있다.
오류 은닉(500)은 또한 선택적인 것으로 간주될 수 있는 디엠퍼시스(de-emphasis)(584)를 포함한다. 디엠퍼시스(584)는 디엠퍼시스된 오류 은닉 시간 도메인 오디오 신호(586)를 제공할 수 있다.
오류 은닉(500)은 또한 선택적으로, 후속 프레임들(또는 서브프레임들)과 연관된 시간 도메인 오디오 신호들의 중첩 가산 연산을 수행하는 중첩 가산(590)을 포함한다. 그러나 오류 은닉은 또한 오디오 디코더 환경에서 이미 제공된 신호 결합을 사용할 수 있기 때문에, 중첩 가산(590)은 선택적인 것으로 간주되어야 한다는 점이 주목되어야 한다.
다음에, 오류 은닉(500)에 관한 일부 추가 세부사항들이 설명될 것이다.
도 5에 따른 오류 은닉(500)은 AAC_LC 또는 AAC_ELD로서 변환 도메인 코덱의 콘텍스트를 커버한다. 달리 말하자면, 오류 은닉(500)은 그러한 변환 도메인 코덱에서의(그리고 특히, 그러한 변환 도메인 오디오 디코더에서의) 사용을 위해 잘 적응된다. 변환 코덱만의 경우에(예를 들어, 산형 예측 도메인 디코딩 경로가 없을 때), 마지막 프레임으로부터의 출력 신호가 시작점으로서 사용된다. 예를 들어, 시간 도메인 오디오 신호(372)가 오류 은닉을 위한 시작점으로서 사용될 수 있다. 바람직하게는, 어떠한 여기 신호도 이용 가능하지 않으며, 단지 (하나 또는 그보다 많은) 이전 프레임들로부터의 (예를 들어, 시간 도메인 오디오 신호(372)와 같은) 출력 시간 도메인 신호만이 이용 가능하다.
다음에, 오류 은닉(500)의 서브 유닛들 및 기능들이 더 상세히 설명될 것이다.
5.5.1. LPC 분석
도 5의 실시예에서, 모든 은닉은 여기 도메인에서 이루어져 연속적인 프레임들 사이의 원활한 전환을 얻는다. 따라서 먼저 적절한 세트의 LPC 파라미터들을 찾는(또는 보다 일반적으로, 획득하는) 것이 필요하다. 도 5에 따른 실시예에서, LPC 분석(530)은 과거에 프리엠퍼시스된 시간 도메인 신호(522)에 대해 이루어진다. LPC 파라미터들(또는 LPC 필터 계수들)은 (예를 들어, 시간 도메인 오디오 신호(510)를 기초로, 또는 프리엠퍼시스된 시간 도메인 오디오 신호(522)를 기초로) 과거 합성 신호의 LPC 분석을 수행하여 여기 신호(예를 들어, 시간 도메인 여기 신호)를 얻는 데 사용된다.
5.5.2. 피치 검색
새로운 신호를 구성하기 위해 사용될 피치(예를 들어, 오류 은닉 오디오 정보)를 얻기 위한 서로 다른 접근 방식들이 존재한다.
AAC-LTP와 같은 장기 예측 필터(LTP(long-term-prediction) 필터)를 사용하는 코덱과 관련하여, 마지막 프레임이 LTP에 의한 AAC였다면, 고조파 부분을 발생시키기 위해 이러한 마지막 수신된 LTP 피치 래그(lag) 및 대응하는 이득을 사용한다. 이 경우, 신호에서 고조파 부분을 구성할지 여부를 결정하는 데 이득이 사용된다. 예를 들어, LTP 이득이 0.6(또는 임의의 다른 미리 결정된 값)보다 더 높다면, LTP 정보가 고조파 부분을 구성하는 데 사용된다.
이전 프레임으로부터 이용 가능한 어떠한 피치 정보도 존재하지 않는다면, 예를 들어 다음에 설명될 두 가지 해결책들이 존재한다.
예를 들어, 인코더에서 피치 검색을 수행하고 비트스트림에서 피치 래그 및 이득을 송신하는 것이 가능하다. 이는 LTP와 유사하지만, 적용되는 어떠한 필터링도 없다(또한 클린 채널에서는 어떠한 LTP 필터링도 없다).
대안으로, 디코더에서 피치 검색을 실행하는 것이 가능하다. TCX의 경우에 AMR-WB 피치 검색이 FFT 도메인에서 수행된다. ELD에서는, 예를 들어, MDCT 도메인이 사용되었다면, 위상들이 어긋나게 될 것이다. 따라서 피치 검색이 바람직하게는 여기 도메인에서 직접 수행된다. 이는 합성 도메인에서 피치 검색을 수행하는 것보다 더 나은 결과들을 제공한다. 여기 도메인에서의 피치 검색은 우선 정규화된 교차 상관 의해 개방 루프로 수행된다. 그리고 나서, 선택적으로, 특정 델타를 갖는 개방 루프 피치 주위에서 폐쇄 루프 검색을 수행함으로써 피치 검색을 개선한다. ELD 윈도우 처리 제한들로 인해, 잘못된 피치가 발견될 수 있고, 따라서 발견된 피치가 정확한지 또는 그렇지 않으면 이를 폐기할지를 또한 검증한다.
결론적으로 말하면, 손실된 오디오 프레임을 선행하는 마지막 적절하게 디코딩된 오디오 프레임의 피치가 오류 은닉 오디오 정보를 제공할 때 고려될 수 있다. 일부 경우들에는, 이전 프레임(즉, 손실된 오디오 프레임을 선행하는 마지막 프레임)의 디코딩으로부터 이용 가능한 피치 정보가 존재한다. 이 경우, 이러한 피치는 (가능하게는 시간 경과에 따른 피치 변화의 고려 및 어떤 외삽과 함께) 재사용될 수 있다. 은닉된 프레임의 끝에서 필요한 피치의 외삽 또는 예측을 시도하기 위해 과거의 하나보다 많은 프레임의 피치를 선택적으로 또한 재사용할 수 있다.
또한, 결정론적(예를 들어, 적어도 대략 주기적) 신호 성분의 강도(또는 상대 강도)를 기술하는 (예를 들어, 장기 예측 이득으로서 지명된) 이용 가능한 정보가 존재한다면, 이러한 값은 결정론적(또는 고조파) 성분이 오류 은닉 오디오 정보에 포함되어야 하는지 여부를 결정하는 데 사용될 수 있다. 즉, 상기 값(예를 들어, LTP 이득)을 미리 결정된 임계 값과 비교함으로써, 이전에 디코딩된 오디오 프레임으로부터 유도된 시간 도메인 여기 신호가 오류 은닉 오디오 정보의 제공을 위해 고려되어야 하는지 여부가 결정될 수 있다.
이전 프레임으로부터(또는 더 정확하게는, 이전 프레임의 디코딩으로부터) 이용 가능한 어떠한 피치 정보도 존재하지 않는다면, 다른 옵션들이 존재한다. 피치 정보는 오디오 인코더로부터 오디오 디코더로 송신될 수 있는데, 이는 오디오 디코더를 단순화하지만 비트레이트 오버헤드를 생성할 것이다. 대안으로, 피치 정보는 오디오 디코더에서, 예를 들어 여기 도메인에서, 즉 시간 도메인 여기 신호를 기초로 결정될 수 있다. 예를 들어, 이전의 적절하게 디코딩된 오디오 프레임으로부터 유도된 시간 도메인 여기 신호가 평가되어, 오류 은닉 오디오 정보의 제공을 위해 사용될 피치 정보를 식별할 수 있다.
5.5.3. 여기의 외삽 또는 고조파 부분의 생성
이전 프레임으로부터 획득된(손실된 프레임에 대해 방금 계산된 또는 다중 프레임 손실의 경우에는 이전의 손실된 프레임에서 이미 저장된) 여기(예를 들어, 시간 도메인 여기 신호)는 마지막 피치 사이클을 프레임의 1과 1/2을 얻는데 필요한 만큼 여러 번 복사함으로써 여기에서(예를 들어, LPC 합성의 입력 신호에서) (결정론적 성분 또는 대략 주기적 성분으로도 또한 지명된) 고조파 부분을 구성하는 데 사용된다. 복잡성을 피하기 위해, 또한 제1 손실 프레임에 대해서만 1과 1/2 프레임을 생성한 다음, 다음 프레임 손실에 대한 처리로 프레임의 1/2만큼 시프트하고 각각 단 하나의 프레임만을 생성할 수 있다. 그래서 항상 중첩의 프레임의 1/2에 액세스한다.
양호한 프레임(즉, 적절하게 디코딩된 프레임) 이후 처음 손실된 프레임의 경우에, (예를 들어, 손실된 오디오 프레임을 선행하는 마지막 적절하게 디코딩된 오디오 프레임을 기초로 획득된 시간 도메인 여기 신호의) 첫 번째 피치 사이클은 (ELD가 AAC-ELD 코어에서부터 SBR을 갖는 AAC-ELD 또는 AAC-ELD 듀얼 레이트 SBR에 이르는 실제로 넓은 샘플링 레이트 결합을 커버하기 때문에) 샘플링 레이트 의존 필터로 저역 통과 필터링된다.
보이스 신호의 피치는 거의 항상 변화한다. 따라서 위에 제시된 은닉은 복원에서 어떤 문제점들(또는 적어도 왜곡들)을 생성하는 경향이 있는데, 그 이유는 은닉된 신호의 끝의(즉, 오류 은닉 오디오 정보의 끝의) 피치가 흔히 첫 번째 양호한 프레임의 피치와 일치하지 않기 때문이다. 따라서 선택적으로, 일부 실시예들에서 은닉된 프레임 끝의 피치를 예측하여 복원 프레임의 시작에서 피치를 일치시키는 것이 시도된다. 예를 들어, (은닉된 프레임으로서 고려되는) 손실된 프레임 끝의 피치가 예측되는데, 예측의 목표는 손실된 프레임(은닉된 프레임) 끝의 피치를, 하나 또는 그보다 많은 손실된 프레임에 뒤따르는 처음 적절하게 디코딩된 프레임(처음 적절하게 디코딩된 프레임은 또한 "복원 프레임"으로 불림)의 시작에서의 피치에 가깝게 설정하는 것이다. 이는 프레임 손실된 동안에 또는 첫 번째 양호한 프레임 동안에(즉, 처음 적절하게 수신된 프레임 동안에) 수행될 수 있다. 훨씬 더 나은 결과들을 얻기 위해, 선택적으로 피치 예측 및 펄스 재동기화와 같은 어떤 종래의 툴들을 재사용하고 그것들을 적응시키는 것이 가능하다. 세부사항들을 위해, 예를 들어, 참조 [4] 및 [5]가 참조된다.
주파수 도메인 코덱에 장기 예측(LTP)이 사용된다면, 피치에 관한 시작 정보로서 래그를 사용하는 것이 가능하다. 그러나 일부 실시예들에서, 피치 윤곽을 더 잘 추적할 수 있도록 더 나은 입도를 갖는 것이 또한 바람직하다. 따라서 마지막 양호한(적절하게 디코딩된) 프레임의 시작과 끝에서 피치 검색을 수행하는 것이 바람직하다. 신호를 이동하는 피치에 적응시키기 위해, 최신 기술에 존재하는 펄스 재동기화를 사용하는 것이 바람직하다.
5.5.4. 피치의 이득
일부 실시예들에서, 원하는 레벨에 도달하기 위해 이전에 획득된 여기에 이득을 적용하는 것이 바람직하다. "피치의 이득"(예를 들어, 시간 도메인 여기 신호의 결정론적 성분의 이득, 즉 LPC 합성의 입력 신호를 획득하기 위해, 이전에 디코딩된 오디오 프레임으로부터 유도된 시간 도메인 여기 신호에 적용되는 이득)은 예를 들어, 시간 도메인에서 마지막 양호한(예를 들어, 적절하게 디코딩된) 프레임의 끝에서 정규화된 상관을 수행함으로써 획득될 수 있다. 상관의 길이는 2개의 서브프레임들의 길이와 동등할 수 있거나, 또는 적응적으로 변경될 수 있다. 지연은 고조파 부분의 생성을 위해 사용되는 피치 래그와 동등하다. 또한, 선택적으로 처음 손실된 프레임에 대해서만 이득 계산을 수행하고, 다음에는 뒤따르는 연속적인 프레임 손실에 대한 페이드아웃(감소된 이득)을 적용할 수 있다.
"피치의 이득"은 생성될 음색의 양(또는 결정론적, 적어도 대략 주기적 신호 성분들의 양)을 결정할 것이다. 그러나 인공 톤만을 갖지 않도록 어떤 성형된 잡음을 가산하는 것이 바람직하다. 매우 낮은 피치 이득을 얻는다면, 성형된 잡음으로만 구성되는 신호를 구성한다.
결론적으로 말하면, 일부 경우들에서, 예를 들어 이전에 디코딩된 오디오 프레임을 기초로 획득된 시간 도메인 여기 신호는 (예를 들어, LPC 분석을 위한 입력 신호를 획득하도록) 이득에 의존하여 스케일링된다. 이에 따라, 시간 도메인 여기 신호는 결정론적(적어도 대략 주기적) 신호 성분을 결정하기 때문에, 이득은 오류 은닉 오디오 정보에서 상기 결정론적(적어도 대략 주기적) 신호 성분들의 상대 강도를 결정할 수 있다. 추가로, 오류 은닉 오디오 정보는 오류 은닉 오디오 정보의 총 에너지가 적어도 어느 정도까지는, 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임에 그리고 이상적으로는 또한 하나 또는 그보다 많은 손실된 오디오 프레임을 뒤따르는 적절하게 디코딩된 오디오 프레임에 적응되도록, LPC 합성에 의해 또한 성형되는 잡음을 기초로 할 수 있다.
5.5.5. 잡음 부분의 생성
랜덤 잡음 발생기에 의해 "혁신"이 생성된다. 이러한 잡음은 선택적으로 유성 및 개시 프레임들에 대해 더 고역 통과 필터링되고 선택적으로 프리엠퍼시스된다. 고조파 부분의 저역 통과와 관련하여, 이러한 필터(예를 들어, 고역 통과 필터)는 샘플링 레이트 의존적이다. (예를 들어, 잡음 발생기(560)에 의해 제공되는) 이러한 잡음은 가능한 한 배경 잡음에 가까워지도록 LPC에 의해(예를 들어, LPC 합성(580)에 의해) 성형될 것이다. 고역 통과 특성은 또한 배경 잡음에 가까운 편안한 잡음을 얻도록 전대역 성형된 잡음만을 얻기 위해 특정 양의 프레임 손실 이후에 더는 어떠한 필터링도 존재하지 않도록 연속적인 프레임들에 걸쳐 선택적으로 변경된다.
(예를 들어, 결합/페이딩(570)에서 잡음(562)의 이득, 즉 잡음 신호(562)가 LPC 합성의 입력 신호(572)에 포함되는 데 사용되는 이득을 결정할 수 있는) 혁신 이득은 예를 들어, (피치가 존재한다면) 피치의 이전에 계산된 기여(예를 들어, 손실된 오디오 프레임을 선행하는 마지막 적절하게 디코딩된 오디오 프레임을 기초로 획득되는 시간 도메인 여기 신호의, "피치의 이득"을 사용하여 스케일링된, 스케일링된 버전)를 제거하고, 마지막 양호한 프레임의 끝에서 상관을 수행함으로써 계산된다. 피치 이득에 관한 한, 이는 처음 손실된 프레임에 대해서만 선택적으로 수행된 다음에 페이드아웃될 수 있지만, 이 경우에 페이드아웃은 완전한 뮤팅을 야기하는 0으로 또는 배경에 존재하는 추정 잡음 레벨로 가는 것일 수 있다. 상관의 길이는 예를 들어, 2개의 서브프레임들의 길이와 동등하며, 지연은 고조파 부분의 생성을 위해 사용되는 피치 래그와 동등하다.
선택적으로, 피치의 이득이 1이 아니라면 에너지 상실에 도달하도록 잡음에 그만큼 이득을 적용하기 위해 이 이득은 또한 (1-"피치의 이득")이 곱해진다. 선택적으로, 이러한 이득은 또한 잡음 지수가 곱해진다. 이러한 잡음 지수는 예를 들어, 이전의 유효 프레임으로부터(예를 들어, 손실된 오디오 프레임을 선행하는 마지막 적절하게 디코딩된 오디오 프레임으로부터) 나오는 것이다.
5.5.6. 페이드아웃
페이드아웃은 대부분 다중 프레임 손실에 사용된다. 그러나 페이드아웃은 또한 단일 오디오 프레임만이 손실된 경우에도 사용될 수 있다.
다중 프레임 손실의 경우에, LPC 파라미터들은 재계산되지 않는다. 마지막 계산된 것이 유지되거나, 또는 배경 형상으로 전환함으로써 LPC 은닉이 수행된다. 이 경우, 신호의 주기성은 0으로 수렴된다. 예를 들어, 손실된 오디오 프레임을 선행하는 하나 또는 그보다 많은 오디오 프레임들을 기초로 획득된 시간 도메인 여기 신호(552)는 시간 경과에 따라 점진적으로 감소되는 이득을 여전히 사용하고 있는 한편, 잡음 신호(562)는 일정하게 유지되거나 시간 경과에 따라 점진적으로 증가하고 있는 이득으로 스케일링되어, 시간 도메인 여기 신호(552)의 상대 가중이 잡음 신호(562)의 상대 가중과 비교할 때 시간 경과에 따라 감소된다. 그 결과, LPC 합성(580)의 입력 신호(572)는 더욱 더 "잡음 같이" 되고 있다. 따라서 "주기성"(또는 더 정확하게는, LPC 합성(580)의 출력 신호(582)의 결정론적 또는 적어도 대략 주기적 성분)은 시간 경과에 따라 감소된다.
신호(572)의 주기성 및/또는 신호(582)의 주기성이 0으로 수렴되는 수렴의 속도는 마지막으로 정확하게 수신된(또는 적절하게 디코딩된) 프레임의 파라미터들 및/또는 연속적인 소거된 프레임들의 수에 의존하고, 감쇠율(α)에 의해 제어된다. 감쇠율(α)은 추가로 LP 필터의 안정성에 의존한다. 선택적으로, 감쇠율(α)을 피치 길이에 따른 비로 변경하는 것이 가능하다. 피치(예를 들어, 피치와 연관된 주기 길이)가 실제로 길다면, α를 "정상"으로 유지하지만, 피치가 실제로 짧다면, 일반적으로 과거 여기의 동일 부분을 여러 번 복사하는 것이 필요하다. 이는 너무 인공적으로 빠르게 들릴 것이고, 따라서 이러한 신호를 보다 빠르게 페이드아웃하는 것이 바람직하다.
또 선택적으로, 이용 가능하다면, 피치 예측 출력을 고려할 수 있다. 피치가 예측된다면, 이는 피치가 이전 프레임에서 이미 변경되었고 그리고 나서 더 많은 프레임들을 손실할수록 사실에서 더 멀어진다는 것을 의미한다. 따라서 이러한 경우에 음색 부분의 페이드아웃의 속도를 약간 올리는 것이 바람직하다.
피치가 너무 많이 변경되고 있기 때문에 피치 예측이 실패한다면, 이는 피치 값들이 실제로 신뢰할 수 없다는 것을 또는 신호가 실제로 예측 불가능하다는 것을 의미한다. 따라서 또한, 더 빠르게 페이드아웃하는 것이(예를 들어, 하나 또는 그보다 많은 손실된 프레임들을 선행하는 하나 또는 그보다 많은 적절하게 디코딩된 오디오 프레임들을 기초로 획득된 시간 도메인 여기 신호(552)를 보다 빠르게 페이드아웃하는 것이) 바람직하다.
5.5.7. LPC 합성
시간 도메인으로 돌아가면, 2개의 여기들(음색 부분 및 잡음 부분)의 합에 대한 LPC 합성(580) 뒤에 디엠퍼시스를 수행하는 것이 바람직하다. 달리 말하자면, 손실된 오디오 프레임(음색 부분)을 선행하는 하나 또는 그보다 많은 적절하게 디코딩된 오디오 프레임들을 기초로 획득된 시간 도메인 여기 신호(552)와 잡음 신호(562)(잡음 부분)의 가중된 결합을 기초로 LPC 합성(580)을 수행하는 것이 바람직하다. 위에서 언급된 것과 같이, 시간 도메인 여기 신호(552)는 (LPC 합성(580)을 위해 사용되는 LPC 합성 필터의 특성을 기술하는 LPC 계수들에 추가하여) LPC 분석(530)에 의해 획득된 시간 도메인 여기 신호(532)와 비교할 때 변형될 수 있다. 예를 들어, 시간 도메인 여기 신호(552)는 LPC 분석(530)에 의해 획득된 시간 도메인 여기 신호(532)의 시간 스케일링된 사본일 수 있으며, 시간 도메인 여기 신호(552)의 피치를 원하는 피치에 적응시키도록 시간 스케일링이 사용될 수 있다.
5.5.8. 중첩 가산
변환 코덱만의 경우에, 최상의 중첩 가산을 얻기 위해, 은닉된 프레임보다 더 많은 프레임의 1/2에 대한 인공 신호를 생성하고 이에 대한 인공 에일리어싱을 생성한다. 그러나 다른 중첩 가산 개념들이 적용될 수 있다.
규칙적인 AAC 또는 TCX와 관련하여, 은닉으로부터 나오는 추가 1/2 프레임과 (AAC-LD로서 더 낮은 지연 윈도우들에 대해 1/2 또는 그 미만일 수 있는) 첫 번째 양호한 프레임의 첫 번째 부분 사이에 중첩 가산이 적용된다.
특별한 경우의 ELD(추가 저 지연)에서, 처음 손실된 프레임에 대해, 마지막 3개의 윈도우들로부터 적절한 기여를 얻도록 분석을 세 번 실행하는 것이 바람직하며, 다음에는 첫 번째 은닉 프레임 및 뒤따르는 모든 프레임들에 대해 분석이 한 번 더 실행된다. 그리고 나서 MDCT 도메인에서 다음 프레임에 대해 모든 적절한 메모리를 갖는 시간 도메인으로 돌아가도록 1회의 ELD 합성이 수행된다.
결론적으로 말하면, 손실된 오디오 프레임의 지속기간보다 더 긴 시간 지속기간 동안 LPC 합성(580)의 입력 신호(572)(및/또는 시간 도메인 여기 신호(552))가 제공될 수 있다. 이에 따라, 손실된 오디오 프레임보다 더 긴 시간 기간 동안 LPC 합성(580)의 출력 신호(582)가 또한 제공될 수 있다. 이에 따라, (결과적으로, 손실된 오디오 프레임의 시간 확장보다 더 긴 시간 기간 동안 획득되는) 오류 은닉 오디오 정보와 하나 또는 그보다 많은 손실된 오디오 프레임들을 뒤따르는 적절하게 디코딩된 오디오 프레임에 대해 제공되는 디코딩된 오디오 정보 사이에서 중첩 가산이 수행될 수 있다.
5.6 도 6에 따른 시간 도메인 은닉
도 6은 스위치 코덱에 사용될 수 있는 시간 도메인 은닉의 블록 개략도를 도시한다. 예를 들어, 도 6에 따른 시간 도메인 은닉(600)은 예를 들어, 도 3 또는 도 4의 오류 은닉(380)에서 시간 도메인 오류 은닉(106)을 대신할 수 있다.
스위칭된 코덱의 경우에(그리고 심지어 선형 예측 계수 도메인에서 디코딩만을 수행하는 코덱의 경우에도) 보통은 이전 프레임(예를 들어, 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임)으로부터 나오는 여기 신호(예를 들어, 시간 도메인 여기 신호)를 이미 갖는다. 그렇지 않으면(예를 들어, 시간 도메인 여기 신호가 이용 가능하지 않다면), 도 5에 따른 실시예에서 설명한 바와 같이 수행하는 것이, 즉 LPC 분석을 수행하는 것이 가능하다. 이전 프레임이 ACELP형이었다면, 또한 이미 마지막 프레임에 서브프레임들의 피치 정보를 갖는다. 마지막 프레임이 LTP(long term prediction)에 따른 변환 코딩 여기(TCX: transform coded excitation)였다면, 장기 예측으로부터 나오는 래그 정보를 또한 갖는다. 그리고 마지막 프레임이 장기 예측(LTP) 없이 주파수 도메인에 있었다면, 바람직하게는 (예를 들어, LPC 분석에 의해 제공되는 시간 도메인 여기 신호를 기초로) 여기 도메인에서 직접 피치 검색이 수행된다.
시간 도메인에서 디코더가 이미 일부 LPC 파라미터들을 사용하고 있다면, 그것들을 재사용하고 새로운 세트의 LPC 파라미터들을 외삽한다. LPC 파라미터들의 외삽은 과거 LPC, 예를 들어 코덱에 불연속적 송신(DTX: discontinuous transmission)이 존재한다면, DTX 전송 잡음 추정 동안에 유도되는 LPC 형상과 과거 3개의 프레임들의 평균을 기초로 한다.
모든 은닉은 여기 도메인에서 이루어져 연속적인 프레임들 사이의 원활한 전환을 얻는다.
다음에, 도 6에 따른 오류 은닉(600)이 더 상세히 설명될 것이다.
오류 은닉(600)은 과거 여기(610) 및 과거 피치 정보(640)를 수신한다. 게다가, 오류 은닉(600)은 오류 은닉 오디오 정보(612)를 제공한다.
오류 은닉(600)에 의해 수신되는 과거 여기(610)는 예를 들어, LPC 분석(530)의 출력(532)에 대응할 수 있다는 점이 주목되어야 한다. 게다가, 과거 피치 정보(640)는 예를 들어, 피치 검색(540)의 출력 정보(542)에 대응할 수 있다.
오류 은닉(600)은 위의 논의에서 참조된 그러한 외삽(550)에 대응할 수 있는 외삽(650)을 더 포함한다.
게다가, 오류 은닉은 위의 논의에서 참조된 그러한 잡음 발생기(560)에 대응할 수 있는 잡음 발생기(660)를 포함한다.
외삽(650)은 외삽된 시간 도메인 여기 신호(552)에 대응할 수 있는, 외삽된 시간 도메인 여기 신호(652)를 제공한다. 잡음 발생기(660)는 잡음 신호(562)에 대응할 수 있는 잡음 신호(662)를 제공한다.
오류 은닉(600)은 또한 외삽된 시간 도메인 여기 신호(652) 및 잡음 신호(662)를 수신하고 이를 기초로 LPC 합성(680)을 위한 입력 신호(672)를 제공하는 결합기/페이더(670)를 포함하고, 여기서 LPC 합성(680)은 위의 설명들이 또한 적용되는 그러한 LPC 합성(580)에 대응할 수 있다. LPC 합성(680)은 시간 도메인 오디오 신호(582)에 대응할 수 있는 시간 도메인 오디오 신호(682)를 제공한다. 오류 은닉은 또한, 디엠퍼시스(584)에 대응할 수 있고 디엠퍼시스된 오류 은닉 시간 도메인 오디오 신호(686)를 제공하는, 디엠퍼시스(684)를 (선택적으로) 포함한다. 오류 은닉(600)은 선택적으로 중첩 가산(590)에 대응할 수 있는 중첩 가산(690)을 포함한다. 그러나 중첩 가산(590)과 관련한 위의 설명들은 중첩 가산(690)에도 또한 적용된다. 즉, 중첩 가산(690)은 또한, LPC 합성의 출력 신호(682) 또는 디엠퍼시스의 출력 신호(686)가 오류 은닉 오디오 정보로서 고려될 수 있도록, 오디오 디코더의 전체 중첩 가산으로 대체될 수 있다.
결론적으로 말하면, 오류 은닉(600)은 LPC 분석 및/또는 피치 분석을 실행할 필요없이 오류 은닉(600)이 하나 또는 그보다 많은 이전에 디코딩된 오디오 프레임들로부터 직접 과거 여기 정보(610) 및 과거 피치 정보(640)를 획득한다는 점에서 오류 은닉(500)과 실질적으로 다르다. 그러나 오류 은닉(600)은 선택적으로, LPC 분석 및/또는 피치 분석(피치 검색)을 포함할 수 있다는 점이 주목되어야 한다.
다음에, 오류 은닉(600)의 일부 세부사항들이 더 상세히 설명될 것이다. 그러나 특정 세부사항들은 본질적인 특징들로서가 아닌 예들로서 고려되어야 한다는 점이 주목되어야 한다.
5.6.1. 피치 검색의 과거 피치
새로운 신호를 구성하기 위해 사용될 피치를 얻기 위한 다른 접근 방식들이 존재한다.
AAC-LTP와 같은 LPC 필터를 사용하는 코덱과 관련하여, (손실된 프레임을 선행하는) 마지막 프레임이 LTP에 따른 AAC라면, 마지막 LTP 피치 래그 및 대응하는 이득으로부터 오는 피치 정보를 갖는다. 이 경우, 신호에서 고조파 부분을 구성하길 원하는지 여부를 디코딩하기 위해 이득을 사용한다. 예를 들어, LTP 이득이 0.6보다 더 높다면, LTP 정보를 사용하여 고조파 부분을 구성한다.
이전 프레임으로부터 이용 가능한 어떠한 피치 정보도 갖지 않는다면, 예를 들어 두 가지 다른 해결책들이 존재한다.
한 가지 해결책은 인코더에서 피치 검색을 수행하고 비트스트림에서 피치 래그 및 이득을 송신하는 것이다. 이는 장기 예측(LTP)과 유사하지만, 어떠한 필터링도 적용하지 않는다(또한 클린 채널에서는 어떠한 LTP 필터링도 없다).
다른 해결책은 디코더에서 피치 검색을 실행하는 것이다. TCX의 경우에 AMR-WB 피치 검색이 FFT 도메인에서 수행된다. 예를 들어 TCX에서는, MDCT 도메인을 사용하고, 그러면 위상들이 어긋난다. 따라서 피치 검색은 바람직한 실시예에서는 (예를 들어, LPC 합성의 입력으로서 사용되는, 또는 LPC 합성을 위한 입력을 유도하는 데 사용되는 시간 도메인 여기 신호를 기초로) 여기 도메인에서 직접 수행된다. 이는 일반적으로 (예를 들어, 완전히 디코딩된 시간 도메인 오디오 신호를 기초로) 합성 도메인에서 피치 검색을 수행하는 것보다 더 나은 결과들을 제공한다.
(예를 들어, 시간 도메인 여기 신호를 기초로 한) 여기 도메인에서의 피치 검색은 우선 정규화된 교차 상관에 의해 개방 루프로 수행된다. 그리고 나서, 선택적으로, 특정 델타를 갖는 개방 루프 피치 주위에서 폐쇄 루프 검색을 수행함으로써 피치 검색이 개선될 수 있다.
바람직한 구현들에서는, 단순히 상관의 하나의 최대 값을 고려하지 않는다. 오류 발생이 쉽지 않은 이전 프레임으로부터의 피치 정보를 갖는다면, 정규화된 교차 상관 도메인의 5개의 가장 높은 값들 중 하나에 대응하지만 이전 프레임 피치에 가장 가까운 값에 대응하는 피치를 선택한다. 그리고 나서, 발견된 최대치가 윈도우 제한에 기인하는 잘못된 최대치가 아닌 것이 또한 입증된다.
결론적으로 말하면, 피치를 결정하기 위한 다른 접근 방식들이 존재하는데, 과거 피치(즉, 이전에 디코딩된 오디오 프레임과 연관된 피치)를 고려하는 것이 계산상 효율적이다. 대안으로, 피치 정보는 오디오 인코더로부터 오디오 디코더로 송신될 수 있다. 다른 대안으로, 오디오 디코더 측에서 피치 검색이 수행될 수 있는데, 피치 결정은 바람직하게는 시간 도메인 여기 신호를 기초로(즉, 여기 도메인에서) 수행된다. 특히 신뢰할 수 있고 정확한 피치 정보를 획득하기 위해 개방 루프 검색 및 폐쇄 루프 검색을 포함하는 2 단계 피치 검색이 수행될 수 있다. 대안으로 또는 추가로, 피치 검색이 신뢰할 수 있는 결과를 제공하는 것을 보장하기 위해 이전에 디코딩된 오디오 프레임으로부터의 피치 정보가 사용될 수 있다.
5.6.2. 여기의 외삽 또는 고조파 부분의 생성
이전 프레임으로부터 획득된(손실된 프레임에 대해 방금 계산된 또는 다중 프레임 손실의 경우에는 이전의 손실된 프레임에서 이미 저장된) 여기(예를 들어, 시간 도메인 여기 신호의 형태)는 마지막 피치 사이클(예를 들어, 시간 지속기간이 피치의 기간 지속기간과 동일한, 시간 도메인 여기 신호(610)의 일부분)을 예를 들어, (손실된) 프레임의 1과 1/2을 얻는데 필요한 만큼 여러 번 복사함으로써 여기(예를 들어, 외삽된 시간 도메인 여기 신호(662))에서 고조파 부분을 구성하는 데 사용된다.
훨씬 더 나은 결과들을 얻기 위해, 최신 기술로부터 공지된 일부 툴들을 재사용하고 이들을 적응시키는 것이 선택적으로 가능하다. 예를 들어, 참조 [4] 및/또는 참조 [5]가 참조될 수 있다.
보이스 신호의 피치는 거의 항상 변화한다는 점이 확인되었다. 따라서 위에 제시된 은닉은 복원에서 어떤 문제점들을 생성하는 경향이 있는데, 그 이유는 은닉된 신호의 끝의 피치가 흔히 첫 번째 양호한 프레임의 피치와 일치하지 않기 때문이라는 점이 확인되었다. 따라서 선택적으로, 은닉된 프레임 끝의 피치를 예측하여 복원 프레임의 시작에서 피치를 일치시키는 것이 시도된다. 이러한 기능은 예를 들어, 외삽(650)에 의해 수행될 것이다.
TCX에서의 LTP가 사용된다면, 피치에 관한 시작 정보로서 래그가 사용될 수 있다. 그러나 피치 윤곽을 더 잘 추적할 수 있도록 더 나은 입도를 갖는 것이 바람직하다. 따라서 마지막 양호한 프레임의 시작과 끝에서 피치 검색이 선택적으로 수행된다. 신호를 이동하는 피치에 적응시키기 위해, 최신 기술에 존재하는 펄스 재동기화가 사용될 수 있다.
결론적으로 말하면, (예를 들어, 손실된 프레임을 선행하는 마지막 적절하게 디코딩된 오디오 프레임과 연관된, 또는 이를 기초로 획득된 사간 도메인 여기 신호의) 외삽은 이전 오디오 프레임과 연관된 상기 시간 도메인 여기 신호의 시간 부분의 복사를 포함할 수 있는데, 복사된 시간 부분은 손실된 오디오 프레임 동안에 (예상되는) 피치 변화의 계산 또는 추정에 의존하여 수정될 수 있다. 피치 변화의 결정을 위해 다른 접근 방식들이 이용 가능하다.
5.6.3. 피치의 이득
도 6에 따른 실시예에서는, 원하는 레벨에 도달하기 위해 이전에 획득된 여기에 이득이 적용된다. 피치의 이득은 예를 들어, 마지막 양호한 프레임의 끝에서 시간 도메인의 정규화된 상관을 수행함으로써 획득된다. 예를 들어, 상관의 길이는 2개의 서브프레임들의 길이와 동등할 수 있으며, 지연은 (예를 들어, 시간 도메인 여기 신호를 복사하기 위한) 고조파 부분의 생성을 위해 사용되는 피치 래그와 동등할 수 있다. 시간 도메인에서의 이득 계산의 수행은 여기 도메인에서 이를 수행하는 것보다 훨씬 더 신뢰할 수 있는 이득을 제공한다는 것이 발견되었다. LPC는 매 프레임마다 변경되고, 그 다음에 이전 프레임에 대해 계산된 이득을 다른 LPC 세트에 의해 처리될 여기 신호에 적용하는 것은 시간 도메인에서 예상 에너지를 제공하지 않을 것이다.
피치의 이득은 생성될 음색의 양을 결정하지만, 인공 톤만 갖지 않도록 어떤 성형된 잡음이 또한 추가될 것이다. 매우 낮은 피치 이득이 얻어진다면, 성형된 잡음으로만 구성되는 신호가 구성될 수 있다.
결론적으로 말하면, 이전 프레임을 기초로 획득된 시간 도메인 여기 신호(또는 이전에 디코딩된 프레임에 대해 획득된, 또는 이전에 디코딩된 프레임과 연관된 시간 도메인 여기 신호)를 스케일링하도록 적용되는 이득이 조정됨으로써, LPC 합성(680)의 입력 신호 내의 그리고 그 결과, 오류 은닉 오디오 정보 내의 음색(또는 결정론적, 또는 적어도 대략 주기적) 성분의 가중을 결정한다. 상기 이득은 이전에 디코딩된 프레임의 디코딩에 의해 획득된 시간 도메인 오디오 신호에 적용되는 상관을 기초로 결정될 수 있다(여기서 상기 시간 도메인 오디오 신호는 디코딩 과정에서 수행되는 LPC 합성을 사용하여 획득될 수 있다.).
5.6.4. 잡음 부분의 생성
랜덤 잡음 발생기(660)에 의해 "혁신"이 생성된다. 이러한 잡음은 유성 및 개시 프레임들에 대해 더 고역 통과 필터링되고 선택적으로 프리엠퍼시스된다. 유성 및 개시 프레임들에 대해 선택적으로 수행될 수 있는 고역 통과 필터링 및 프리엠퍼시스는 도 6에 명시적으로 도시되지 않지만, 예를 들어 잡음 발생기(660) 내에서 또는 결합기/페이더(670) 내에서 수행될 수 있다.
잡음은 가능한 한 배경 잡음에 가까워지게 되도록 (예를 들어, 외삽(650)에 의해 획득되는 시간 도메인 여기 신호(652)와의 결합 후에) LPC에 의해 성형될 것이다.
예를 들어, (만일 존재한다면) 피치의 이전에 계산된 기여를 제거하고 마지막 양호한 프레임의 끝에서 상관을 수행함으로써 혁신 이득이 계산될 수 있다. 상관의 길이는 2개의 서브프레임들의 길이와 동등할 수 있으며, 지연은 고조파 부분의 생성을 위해 사용되는 피치 래그와 동등할 수 있다.
선택적으로, 피치의 이득이 1이 아니라면 에너지 상실에 도달하도록 잡음에 그만큼 이득을 적용하기 위해 이 이득은 또한 (1-피치의 이득)이 곱해질 수 있다. 선택적으로, 이러한 이득은 또한 잡음 지수가 곱해진다. 이러한 잡음 지수는 이전 유효한 프레임으로부터 나오는 것일 수 있다.
결론적으로 말하면, 오류 은닉 오디오 정보의 잡음 성분은 LPC 합성(680)(그리고 가능하게는, 디엠퍼시스(684))을 사용하여 잡음 발생기(660)에 의해 제공되는 잡음을 성형함으로써 획득된다. 추가로, 부가적인 고역 통과 필터링 및/또는 프리엠퍼시스가 적용될 수 있다. ("혁신 이득"으로도 또한 명시된) LPC 합성(680)의 입력 신호(672)에 대한 잡음 기여의 이득은 손실된 오디오 프레임을 선행하는 마지막 적절하게 디코딩된 오디오 프레임을 기초로 계산될 수 있고, 손실된 오디오 프레임을 선행하는 오디오 프레임으로부터 결정론적(또는 적어도 대략 주기적) 성분이 제거될 수 있으며, 그 다음에는 손실된 오디오 프레임을 선행하는 오디오 프레임의 디코딩된 시간 도메인 신호 내의 잡음 성분의 강도(또는 이득)를 결정하기 위해 상관이 수행될 수 있다.
선택적으로, 어떤 추가 변형들이 잡음 성분의 이득에 적용될 수 있다.
5.6.5. 페이드아웃
페이드아웃은 대부분 다중 프레임 손실에 사용된다. 그러나 페이드아웃은 또한 단일 오디오 프레임만이 손실된 경우에도 사용될 수 있다.
다중 프레임 손실의 경우에, LPC 파라미터들은 재계산되지 않는다. 마지막 계산된 것이 유지되거나, 또는 앞서 설명한 바와 같이 LPC 은닉이 수행된다.
신호의 주기성은 0으로 수렴된다. 수렴의 속도는 마지막으로 정확하게 수신된(또는 정확하게 디코딩된) 프레임의 파라미터들 및 연속적인 소거된(또는 손실된) 프레임들의 수에 의존하고, 감쇠율(α)에 의해 제어된다. 감쇠율(α)은 추가로 LP 필터의 안정성에 의존한다. 선택적으로, 감쇠율(α)은 피치 길이에 따른 비로 변경될 수 있다. 예를 들어, 피치가 실제로 길다면, α가 정상으로 유지될 수 있지만, 피치가 실제로 짧다면, 과거 여기의 동일 부분을 여러 번 복사하는 것이 바람직(또는 필요)할 수 있다. 이는 너무 인공적으로 빠르게 들릴 것이라는 점이 확인되었기 때문에, 신호는 이에 따라 더 빠르게 페이드아웃된다.
더욱이 선택적으로, 피치 예측 출력을 고려하는 것이 가능하다. 피치가 예측된다면, 이는 피치가 이전 프레임에서 이미 변경되었고 그리고 나서 더 많은 프레임들이 손실될수록 사실에서 더 멀어진다는 것을 의미한다. 따라서 이러한 경우에 음색 부분의 페이드아웃의 속도를 약간 올리는 것이 바람직하다.
피치가 너무 많이 변경되고 있기 때문에 피치 예측이 실패한다면, 이는 피치 값들이 실제로 신뢰할 수 없다는 것을 또는 신호가 실제로 예측 불가능하다는 것을 의미한다. 따라서 또한 더 빠르게 페이드아웃해야 한다.
결론적으로 말하면, LPC 합성(680)의 입력 신호(672)에 대한 외삽된 시간 도메인 여기 신호(652)의 기여는 일반적으로 시간 경과에 따라 감소된다. 이는 예를 들어, 시간 경과에 따라, 외삽된 시간 도메인 여기 신호(652)에 적용되는 이득 값을 감소시킴으로써 달성될 수 있다. 손실된 오디오 프레임을 선행하는 하나 또는 그보다 많은 오디오 프레임들(또는 그것의 하나 또는 그보다 많은 사본들)을 기초로 획득되는 시간 도메인 여기 신호(652)를 스케일링하도록 적용되는 이득을 점진적으로 감소시키는 데 사용되는 속도는 하나 또는 그보다 많은 오디오 프레임들의 하나 또는 그보다 많은 파라미터들에 의존하여(그리고/또는 연속적인 손실된 오디오 프레임들의 수에 의존하여) 조정된다. 특히, 피치 길이 및/또는 시간 경과에 따라 피치가 변경되는 레이트, 및/또는 피치 예측이 실패하는지 아니면 성공하는지의 문제가 상기 속도를 조정하는 데 사용될 수 있다.
5.6.6. LPC 합성
시간 도메인으로 돌아가면, 2개의 여기들(음색 부분(652) 및 잡음 부분(662))의 합(또는 일반적으로 가중된 결합)에 대해 LPC 합성(680)이 수행되고 디엠퍼시스(684)가 뒤따른다.
즉, 외삽된 시간 도메인 여기 신호(652)와 잡음 신호(662)의 가중된(페이딩) 결합의 결과는 결합된 시간 도메인 여기 신호를 형성하고 예를 들어, 합성 필터를 기술하는 LPC 계수들에 의존하여 상기 결합된 시간 도메인 여기 신호(672)를 기초로 합성 필터링을 수행하는 LPC 합성(680)에 입력된다.
5.6.7. 중첩 가산
은닉 동안에 다음 프레임의 모드가 무엇이 될 것인지(예를 들어, ACELP, TCX 또는 FD)는 알려지지 않기 때문에, 사전에 서로 다른 중첩들을 준비하는 것이 바람직하다. 최상의 중첩 가산을 얻기 위해, 다음 프레임이 변환 도메인(TCX 또는 FD)에 존재한다면, 예를 들어, 은닉된(손실된) 프레임보다 1/2 프레임 더 많은 프레임에 대해 인공 신호(예를 들어, 오류 은닉 오디오 정보)가 생성될 수 있다. 게다가, 이에 대해 인공 에일리어싱이 생성될 수 있다(여기서 인공 에일리어싱은 예를 들어, MDCT 중첩 가산에 적응될 수 있다).
양호한 중첩 가산을 얻고 시간 도메인(ACELP)에서 차후 프레임과의 불연속성이 없도록, 위에서와 같이, 그러나 에일리어싱 없이 수행하여, 긴 중첩 가산 윈도우들을 적용할 수 있거나, 정사각형 윈도우의 사용을 원한다면, 합성 버퍼의 끝에서 영 입력 응답(ZIR: zero input response)이 계산된다.
결론적으로 말하면, (예를 들어, ACELP 디코딩과 TCX 디코딩과 주파수 도메인 디코딩(FD 디코딩) 사이에서 스위칭할 수 있는) 스위칭 오디오 디코더에서, 주로 손실된 오디오 프레임에 대해 제공되지만 손실된 오디오 프레임에 뒤따르는 특정 시간 부분에 대해서도 제공되는 오류 은닉 오디오 정보와 하나 또는 그보다 많은 손실된 오디오 프레임들의 시퀀스를 뒤따르는 처음 적절하게 디코딩된 오디오 프레임에 대해 제공되는 디코딩된 오디오 정보 사이에서 중첩 가산이 수행될 수 있다. 후속 오디오 프레임들 사이의 전환시 시간 도메인 에일리어싱을 가져오는 디코딩 모드들에 대해서도 적절한 중첩 가산을 획득하기 위해, (예를 들어, 인공 에일리어싱으로서 명시된) 에일리어싱 제거 정보가 제공될 수 있다. 이에 따라, 손실된 오디오 프레임을 뒤따르는 처음 적절하게 디코딩된 오디오 프레임을 기초로 획득되는 시간 도메인 오디오 정보와 오류 은닉 오디오 정보 사이의 중첩 가산은 에일리어싱의 제거를 야기한다.
하나 또는 그보다 많은 손실된 오디오 프레임들의 시퀀스를 뒤따르는 처음 적절하게 디코딩된 오디오 프레임이 ACELP 모드로 인코딩된다면, 특정 중첩 정보가 계산될 수 있는데, 이는 LPC 필터의 영 입력 응답(ZIR)을 기초로 할 수 있다.
결론적으로 말하면, 오류 은닉(600)은 스위칭 오디오 코덱에서의 사용에 상당히 적합하다. 그러나 오류 은닉(600)은 또한 단지 TCX 모드에서 또는 ACELP 모드에서 인코딩된 오디오 콘텐츠만을 디코딩하는 오디오 코덱에서 사용될 수 있다.
5.6.8 결론
특히 양호한 오류 은닉은 시간 도메인 여기 신호를 외삽하고, 페이딩(예를 들어, 크로스 페이딩)을 사용하여 외삽의 결과를 잡음 신호와 결합하며, 크로스 페이딩의 결과를 기초로 LPC 합성을 수행하도록 앞서 언급된 개념에 의해 달성된다는 점이 주목되어야 한다.
5.7 도 7에 따른 주파수 도메인 은닉
도 7에 주파수 도메인 은닉이 도시된다. 단계(701)에서, 현재 오디오 정보가 적절하게 디코딩된 프레임을 포함하는지 여부가 (예컨대, CRC 또는 비슷한 전략을 기초로) 결정된다. 결정의 결과가 긍정적이라면, 702에서 적절하게 디코딩된 프레임의 스펙트럼 값이 적절한 오디오 정보로서 사용된다. 스펙트럼은 추가 사용을 위해(예컨대, 향후 부정확하게 디코딩된 프레임들이 이에 따라 은닉되도록) 버퍼에 기록된다(703).
결정의 결과가 부정적이라면, 단계(704)에서 (이전 사이클에서 단계(703)의 버퍼에 저장된) 이전 적절하게 디코딩된 오디오 프레임의 이전에 기록된 스펙트럼 표현(705)이 손상된(그리고 폐기된) 오디오 프레임을 대체하는 데 사용된다.
특히, 복사기 및 스케일러(707)가 이전 적절하게 디코딩된 오디오 프레임의 이전에 기록된 적절한 스펙트럼 표현(705)의 주파수 범위들(705a, 705b, …) 내의 주파수 빈들(또는 스펙트럼 빈들)의 스펙트럼 값들을 복사하고 스케일링하여, 손상된 오디오 프레임 대신 사용될 주파수 빈들(또는 스펙트럼 빈들)(706a, 706b, …)의 값들을 얻는다.
스펙트럼 값들 각각은 대역에 의해 전달되는 특정 정보에 따라 각각의 계수와 곱해질 수 있다. 또한, 연속적인 은닉들의 경우에 신호를 약화시켜 신호의 강도를 반복해서 감소시키도록 0 내지 1의 댐핑 지수들(708)이 사용될 수 있다. 또한, 스펙트럼 값들(706)에 잡음이 선택적으로 더해질 수 있다.
5.8.a) 도 8a에 따른 은닉
도 8a는 본 발명의 일 실시예에 따른 오류 은닉의 블록 개략도를 도시한다. 도 8a에 따른 오류 은닉 유닛은 그 전체가 800으로 표기되며, 앞서 논의한 오류 은닉 유닛들(100, 230, 380) 중 임의의 오류 은닉 유닛을 구현할 수 있다. 오류 은닉 유닛(800)은 인코딩된 오디오 정보에서 오디오 프레임의 손실을 은닉하기 위한 (앞서 논의한 실시예들의 정보(102, 232 또는 382)를 구현할 수 있는) 오류 은닉 오디오 정보(802)를 제공한다.
오류 은닉 유닛(800)에는 스펙트럼(803)(예컨대, 마지막 적절하게 디코딩된 오디오 프레임 스펙트럼의 스펙트럼, 또는 보다 일반적으로는, 이전 적절하게 디코딩된 오디오 프레임 스펙트럼의 스펙트럼, 또는 이것의 필터링된 버전) 및 프레임(예컨대, 오디오 프레임의 마지막 또는 이전 적절하게 디코딩된 시간 도메인 표현, 또는 마지막 또는 이전 pcm 버퍼링된 값)의 시간 도메인 표현(804)이 입력될 수 있다.
오류 은닉 유닛(800)은 제1 주파수 범위에서(또는 제1 주파수 범위 내에서) 동작할 수 있는 (적절하게 디코딩된 오디오 프레임의 스펙트럼(803)이 입력되는) 제1 부분 또는 경로, 및 제2 주파수 범위에서(또는 제2 주파수 범위 내에서) 동작할 수 있는 (적절하게 디코딩된 오디오 프레임의 시간 도메인 표현(804)이 입력되는) 제2 부분 또는 경로를 포함한다. 제1 주파수 범위는 제2 주파수 범위의 주파수들보다 더 높은 주파수들을 포함할 수 있다.
도 14는 제1 주파수 범위(1401)의 일례 및 제2 주파수 범위(1402)의 일례를 도시한다.
주파수 도메인 은닉(805)은 제1 부분 또는 경로에(제1 주파수 범위에) 적용될 수 있다. 예를 들어, AAC-ELD 오디오 코덱 내의 잡음 대체가 사용될 수 있다. 이 메커니즘은 마지막 양호한 프레임의 복사된 스펙트럼을 사용하며, 변형 이산 코사인 역변환(IMDCT)이 적용되어 시간 도메인으로 돌아가기 전에 잡음을 추가한다. 은닉된 스펙트럼은 IMDCT를 통해 시간 도메인으로 변환될 수 있다.
오류 은닉 유닛(800)에 의해 제공되는 오류 은닉 오디오 정보(802)는 제1 부분에 의해 제공되는 제1 오류 은닉 오디오 정보 성분(807')과 제2 부분에 의해 제공되는 제2 오류 은닉 오디오 정보 성분(811')의 결합으로서 얻어진다. 일부 실시예들에서, 제1 성분(807')은 손실된 오디오 프레임의 고주파 부분을 나타내는 것으로 의도될 수 있는 한편, 제2 성분(811')은 손실된 오디오 프레임의 저주파 부분을 나타내는 것으로 의도될 수 있다.
오류 은닉 유닛(800)의 제1 부분은 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 고주파 부분의 변환 도메인 표현을 사용하여 제1 성분(807')을 유도하는 데 사용될 수 있다. 오류 은닉 유닛(800)의 제2 부분은 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 저주파 부분을 기초로 시간 도메인 신호 합성을 사용하여 제2 성분(811')을 유도하는 데 사용될 수 있다.
바람직하게는, 오류 은닉 유닛(800)의 제1 부분과 제2 부분이 서로 병렬로(그리고/또는 동시에 또는 준-동시에) 동작한다.
제1 부분에서, 주파수 도메인 오류 은닉(805)은 제1 오류 은닉 오디오 정보(805')(스펙트럼 도메인 표현)를 제공한다.
변형 이산 코사인 역변환(IMDCT)(806)은 제1 오류 은닉 오디오 정보를 기초로 시간 도메인 표현(806')을 얻기 위해, 주파수 도메인 오류 은닉(805)에 의해 얻어진 스펙트럼 도메인 표현(805')의 시간 도메인 표현(806')을 제공하는 데 사용될 수 있다.
아래에서 설명되는 바와 같이, 시간 도메인에서 2개의 연속적인 프레임들을 얻기 위해 IMDCT를 2회 수행하는 것이 가능하다.
제1 부분 또는 경로에서는, 제1 오류 은닉 오디오 정보(805')의 시간 도메인 표현(806')을 필터링하고 고주파 필터링된 버전(807')을 제공하기 위해 고역 통과 필터(807)가 사용될 수 있다. 특히, 고역 통과 필터(807)는 주파수 도메인 은닉(805)의 다운스트림(예컨대, IMDCT(806) 앞 또는 뒤)에 위치될 수 있다. 다른 실시예들에서, 고역 통과 필터(807)(또는 일부 저주파 스펙트럼 빈들을 "차단"할 수 있는 추가 고역 통과 필터)는 주파수 도메인 은닉(805) 전에 위치될 수 있다.
고역 통과 필터(807)는 예를 들어, 6㎑ 내지 10㎑, 바람직하게는 7㎑ 내지 9㎑, 보다 바람직하게는 7.5㎑ 내지 8.5㎑, 훨씬 더 바람직하게는 7.9㎑ 내지 8.1㎑, 그리고 훨씬 더 바람직하게는 8㎑의 차단 주파수로 튜닝될 수 있다.
일부 실시예들에 따르면, 주파수 고역 통과 필터(807)의 더 낮은 주파수 경계를 신호 적응적으로 조정함으로써 제1 주파수 범위의 대역폭을 변경하는 것이 가능하다.
오류 은닉 유닛(800)의 (적어도 부분적으로는, 제1 주파수 범위의 주파수들보다 더 낮은 주파수들에서 동작하도록 구성되는) 제2 부분에서는, 시간 도메인 오류 은닉(809)이 제2 오류 은닉 오디오 정보(809')를 제공한다.
제2 부분에서, 시간 도메인 오류 은닉(809)의 업스트림에서는, 다운샘플링(808)이 적절하게 디코딩된 오디오 프레임의 시간 도메인 표현(804)의 다운샘플링된 버전(808')을 제공한다. 다운샘플링(808)은 손실된 오디오 프레임을 선행하는 오디오 프레임(804)의 다운샘플링된 시간 도메인 표현(808')을 얻을 수 있게 한다. 이러한 다운샘플링된 시간 도메인 표현(808')은 오디오 프레임(804)의 저주파 부분을 나타낸다.
제2 부분에서, 시간 도메인 오류 은닉(809)의 다운스트림에서는, 업샘플(810)이 제2 오류 은닉 오디오 정보(809')의 업샘플링된 버전(810')을 제공한다. 이에 따라, 제2 오류 은닉 오디오 정보 성분(811')을 얻기 위해, 시간 도메인 은닉(809)에 의해 제공된 은닉된 오디오 정보(809'), 또는 그 후처리된 버전을 업샘플링하는 것이 가능하다.
따라서 시간 도메인 은닉(809)은 바람직하게는, 적절하게 디코딩된 오디오 프레임(804)을 완전히 나타내는 데 필요한 샘플링 주파수보다 더 작은 샘플링 주파수를 사용하여 수행된다.
일 실시예에 따르면, 다운샘플링된 시간 도메인 표현(808')의 샘플링 레이트를 신호 적응적으로 조정함으로써 제2 주파수 범위의 대역폭을 변경하는 것이 가능하다.
제2 오류 은닉 오디오 정보 성분(811')을 얻기 위해, 저역 통과 필터(811)가 제공되어 시간 도메인 은닉의 출력 신호(809')(또는 업샘플(810)의 출력 신호(810'))를 필터링할 수 있다.
본 발명에 따르면, (고역 통과 필터(807)에 의해, 또는 다른 실시예들에서는 IMDCT(806) 또는 주파수 도메인 은닉(805)에 의해 출력된) 제1 오류 은닉 오디오 정보 성분과 (저역 통과 필터(811)에 의해 또는 다른 실시예들에서는 업샘플(810) 또는 시간 도메인 은닉(809)에 의해 출력된) 제2 오류 은닉 오디오 정보 성분이 중첩 가산(OLA) 메커니즘(812)을 사용하여 서로 구성(또는 결합)될 수 있다.
이에 따라, (앞서 논의한 실시예들의 정보(102, 232 또는 382)를 구현할 수 있는) 오류 은닉 오디오 정보(802)가 얻어진다.
5.8.b) 도 8b에 따른 은닉
도 8b는 오류 은닉 유닛(800)에 대한 변형(800b(을 도시한다(도 8a의 실시예의 모든 특징들이 본 변형에 적용될 수 있으며, 따라서 이들의 속성들은 반복되지 않는다). 제1 주파수 범위 및/또는 제2 주파수 범위를 결정하고 그리고/또는 신호 적응적으로 변경하도록 제어부(예컨대, 제어기)(813)가 제공된다.
제어부(813)는 마지막 스펙트럼(803) 및 마지막 pcm 버퍼링된 값(804)과 같은 하나 또는 그보다 많은 인코딩된 오디오 프레임들의 특성들과 하나 또는 그보다 많은 적절하게 디코딩된 오디오 프레임들의 특성들 사이에서 선택된 특성들을 기초로 할 수 있다. 제어부(813)는 또한, 이러한 입력들의 집합 데이터(적분 값들, 평균 값들, 통계 값들 등)를 기초로 할 수 있다.
일부 실시예들에서, (예컨대, 키보드, 그래픽 사용자 인터페이스, 마우스, 레버와 같은 적절한 입력 수단에 의해 얻어진) 선택(814)이 제공될 수 있다. 이 선택은 사용자에 의해 또는 프로세서에서 실행되는 컴퓨터 프로그램에 의해 입력될 수 있다.
제어부(813)는 (제공되는 경우에) 다운샘플러(808) 및/또는 업샘플러(810) 및/또는 저역 통과 필터(811) 및/또는 고역 통과 필터(807)를 제어할 수 있다. 일부 실시예들에서, 제어부(813)는 제1 주파수 범위와 제2 주파수 범위 사이의 차단 주파수를 제어한다.
일부 실시예들에서, 제어부(813)는 하나 또는 그보다 많은 적절하게 디코딩된 오디오 프레임들의 조화성에 관한 정보를 획득하고 조화성에 관한 정보를 기초로 주파수 범위들의 제어를 수행할 수 있다. 대안으로 또는 추가로, 제어부(813)는 하나 또는 그보다 많은 적절하게 디코딩된 오디오 프레임들의 스펙트럼 기울기에 관한 정보를 얻고 스펙트럼 기울기에 관한 정보를 기초로 제어를 수행할 수 있다.
일부 실시예들에서, 제어부(813)는 제2 주파수 범위에서의 조화성과 비교할 때 제1 주파수 범위에서 조화성이 비교적 더 작게 제1 주파수 범위 및 제2 주파수 범위를 선택할 수 있다.
제어부(813)가 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임이 어떤 주파수까지 조화성 임계치보다 더 강한 조화성을 포함하는지를 결정하고, 그에 의존하여 제1 주파수 범위 및 제2 주파수 범위를 선택하도록 본 발명을 구현하는 것이 가능하다.
일부 구현들에 따르면, 제어부(813)는 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 스펙트럼 기울기가 더 작은 스펙트럼 기울기에서 더 큰 스펙트럼 기울기로 변경되는 주파수 경계를 결정 또는 추정하고, 그에 의존하여 제1 주파수 범위 및 제2 주파수 범위를 선택할 수 있다.
일부 실시예들에서, 제어부(813)는 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 스펙트럼 기울기의 변화가 주어진 주파수 범위에 걸쳐 미리 결정된 스펙트럼 기울기 임계치보다 더 작은지 여부를 결정 또는 추정한다. 오류 은닉 오디오 정보(802)는 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 스펙트럼 기울기의 변화가 미리 결정된 스펙트럼 기울기 임계치보다 더 작다고 확인된다면 시간 도메인 은닉(809)만을 사용하여 얻어진다.
일부 실시예들에 따르면, 제어부(813)는 제1 주파수 범위가 잡음형 스펙트럼 구조를 포함하는 스펙트럼 영역을 커버하도록, 그리고 제2 주파수 범위가 고조파 스펙트럼 구조를 포함하는 스펙트럼 영역을 커버하도록, 제1 주파수 범위 및 제2 주파수 범위를 조정할 수 있다.
일부 구현들에서, 제어부(813)는 고조파들과 잡음 간의 에너지 관계에 의존하여 제1 주파수 범위의 더 낮은 주파수 끝 및/또는 제2 주파수 범위의 더 높은 주파수 끝을 적응시킬 수 있다.
본 발명의 일부 바람직한 양상들에 따르면, 제어부(813)는 시간 도메인 은닉(809)과 주파수 도메인 은닉(805) 중 적어도 하나를 선택적으로 억제하고 그리고/또는 오류 은닉 오디오 정보를 얻기 위해 시간 도메인 은닉(809)만을 또는 주파수 도메인 은닉(805)만을 수행한다.
일부 실시예들에서, 제어부(813)는 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 조화성이 미리 결정된 조화성 임계치보다 더 작은지 여부를 결정 및 추정한다. 오류 은닉 오디오 정보는 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 조화성이 미리 결정된 조화성 임계치보다 더 작다고 확인된다면 주파수 도메인 은닉(805)만을 사용하여 얻어질 수 있다.
일부 실시예들에서, 제어부(813)는 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 피치를 기초로 그리고/또는 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 피치의 시간 전개에 의존하여, 그리고/또는 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임과 손실된 오디오 프레임에 뒤따르는 적절하게 디코딩된 오디오 프레임 사이의 피치의 외삽에 의존하여, 은닉된 프레임의 피치를 적응시킨다.
일부 실시예들에서, 제어부(813)는 인코더에 의해 송신되는 데이터(예컨대, 크로스오버 주파수 또는 그와 관련된 데이터)를 수신한다. 이에 따라, 제어부(813)는 제1 및 제2 주파수 범위를 인코더에 의해 송신된 값에 적응시키도록 다른 블록들(예컨대, 블록들(807, 808, 810, 811))의 파라미터들을 수정할 수 있다.
5.9. 도 9에 따른 방법
도 9는 인코딩된 오디오 정보에서 오디오 프레임의 손실을 은닉하기 위한 (예컨대, 이전 예들에서 102, 232, 382 및 802로 표시된) 오류 은닉 오디오 정보를 제공하기 위한 오류 은닉 방법의 흐름도(900)를 도시한다. 이 방법은:
- 910에서, 주파수 도메인 은닉(예컨대, 105 또는 805)을 사용하여 제1 주파수 범위에 대한 제1 오류 은닉 오디오 정보 성분(예컨대, 103 또는 807')을 제공하는 단계,
- (단계(910)와 동시 또는 거의 동시일 수 있으며, 단계(910)와 병렬인 것으로 의도될 수 있는) 920에서, 시간 도메인 은닉(예컨대, 106, 500, 600 또는 809)을 사용하여 제1 주파수 범위보다 (적어도 일부) 더 낮은 주파수들을 포함하는 제2 주파수 범위에 대한 제2 오류 은닉 오디오 정보 성분(예컨대, 104 또는 811')을 제공하는 단계, 및
- 930에서, 오류 은닉 오디오 정보(예컨대, 102, 232, 382 또는 802)를 얻기 위해 제1 오류 은닉 오디오 정보 성분과 제2 오류 은닉 오디오 정보 성분을 결합(예컨대, 107 또는 812)하는 단계를 포함한다.
5.10. 도 10에 따른 방법
도 10은 제1 주파수 범위 및/또는 제2 주파수 범위를 결정하고 그리고/또는 신호 적응적으로 변경하기 위해 도 8b의 제어부(813) 또는 비슷한 제어부가 사용되는 도 9의 변형인 흐름도(1000)를 도시한다. 도 9의 방법에 관련하여, 이러한 변형은 예컨대, 사용자 선택(814) 또는 값(예컨대, 기울기 값 또는 조화성 값)과 임계치 값의 비교를 기초로 제1 주파수 범위 및 제2 주파수 범위가 결정되는 단계(905)를 포함한다.
특히, 단계(905)는 (앞서 논의한 것들 중 일부일 수 있는) 제어부(813)의 동작 모드들을 고려함으로써 수행될 수 있다. 예를 들어, 특정 데이터 필드에서 인코더로부터 데이터(예컨대, 크로스오버 주파수)가 송신되는 것이 가능하다. 단계(910) 및 단계(920)에서, 제1 주파수 범위 및 제2 주파수 범위가 인코더에 의해 (적어도 부분적으로) 제어된다.
5.11. 도 19에 따른 인코더
도 19는 일부 실시예들에 따라 본 발명을 구현하는 데 사용될 수 있는 오디오 인코더(1900)를 도시한다.
오디오 인코더(1900)는 입력 오디오 정보(1902)를 기초로 하여, 인코딩된 오디오 정보(1904)를 제공한다. 특히, 인코딩된 오디오 표현(1904)은 인코딩된 오디오 정보(210, 310, 410)를 포함할 수 있다.
일 실시예에서, 오디오 인코더(1900)는 입력 오디오 정보(1902)를 기초로 하여, 인코딩된 주파수 도메인 표현(1908)을 제공하도록 구성된 주파수 도메인 인코더(1906)를 포함할 수 있다. 인코딩된 주파수 도메인 표현(1908)은 스펙트럼 값들(1910) 및 스케일 팩터들(1912)을 포함할 수 있으며, 이들은 정보(422)에 대응할 수 있다. 인코딩된 주파수 도메인 표현(1908)은 인코딩된 오디오 정보(210, 310, 410)를 (또는 그 일부를) 구현할 수 있다.
일 실시예에서, 오디오 인코더(1900)는 입력 오디오 정보(1902)를 기초로 하여, 인코딩된 선형 예측 도메인 표현(1922)을 제공하도록 구성된 선형 예측 도메인 인코더(1920)를 (주파수 도메인 인코더에 대한 대안으로서 또는 주파수 도메인 인코더의 대체로서) 포함할 수 있다. 인코딩된 선형 예측 도메인 표현(1922)은 여기(1924) 및 선형 예측(1926)을 포함할 수 있는데, 이들은 인코딩된 여기(426) 및 인코딩된 선형 예측 계수(428)에 대응할 수 있다. 인코딩된 선형 예측 도메인 표현(1922)은 인코딩된 오디오 정보(210, 310, 410)를 (또는 그 일부를) 구현할 수 있다.
오디오 인코더(1900)는 크로스오버 주파수 정보(1932)를 결정하도록 구성된 크로스오버 주파수 결정기(1930)를 포함할 수 있다. 크로스오버 주파수 정보(1932)는 크로스오버 주파수를 정의할 수 있다. 크로스오버 주파수는 오디오 디코더(예컨대, 100, 200, 300, 400, 800b) 측에서 사용될, 시간 도메인 오류 은닉(예컨대, 106, 809, 920)과 주파수 도메인 오류 은닉(예컨대, 105, 805, 910) 간에 구별하는 데 사용될 수 있다.
오디오 인코더(1900)는 (예컨대, 비트스트림 결합기(1940)를 사용함으로써) 인코딩된 주파수 도메인 표현(1908) 및/또는 인코딩된 선형 예측 도메인 표현(1922) 그리고 또한 크로스오버 주파수 정보(1932)를 인코딩된 오디오 표현(1904)에 포함하도록 구성된다.
크로스오버 주파수 정보(1932)는 오디오 디코더 측에서 평가될 때, 오류 은닉 유닛(800b)과 같은 오류 은닉 유닛의 제어부(813)에 커맨드들 및/또는 명령들을 제공하는 역할을 가질 수 있다.
제어부(813)의 특징들을 반복하지 않으면서, 크로스오버 주파수 정보(1932)가 제어부(813)에 대해 논의된 것과 동일한 기능들을 가질 수 있다는 것이 간단히 언급될 수 있다. 즉, 크로스오버 주파수 정보는 크로스오버 주파수, 즉 선형 예측 도메인 은닉과 주파수 도메인 은닉 간의 주파수 경계를 결정하는 데 사용될 수 있다. 따라서 크로스오버 주파수 정보를 수신하여 사용할 때, 제어부(813)는 상당히 단순화될 수 있는데, 이는 이 경우에 제어부가 더는 크로스오버 주파수의 결정을 담당하지 않을 것이기 때문이다. 그보다는, 제어부는 인코딩된 오디오 표현으로부터 오디오 디코더에 의해 추출된 크로스오버 주파수 정보에 의존하여 필터들(807, 811)을 조정하는 것만이 필요할 수 있다.
제어부는 일부 실시예들에서, 2개의 서로 다른(원격) 유닛들: 크로스오버 주파수 정보(1932)를 결정하여, 결국 크로스오버 주파수를 결정하는 인코더 측 크로스오버 주파수 결정기, 및 크로스오버 주파수 정보를 수신하고 이를 기초로 디코더 오류 은닉 유닛(800b)의 성분들을 적절하게 설정함으로써 동작하는 디코더 측 제어기(813)로 세분되는 것으로 이해될 수 있다. 예를 들어, 제어기(813)는 (제공되는 경우에) 다운샘플러(808) 및/또는 업샘플러(810) 및/또는 저역 통과 필터(811) 및/또는 고역 통과 필터(807)를 제어할 수 있다.
그러므로 일 실시예에서, 시스템은:
- 제1 주파수 범위 및 제2 주파수 범위(예를 들어, 본 명세서에서 설명된 크로스오버 주파수 정보)에 연관된 정보(1932)를 포함하는 인코딩된 오디오 정보를 송신할 수 있는 오디오 인코더(1900);
- 오디오 디코더로 형성되며, 오디오 디코더는:
o 오류 은닉 유닛(800b)을 포함하고, 오류 은닉 유닛(800b)은:
■ 주파수 도메인 은닉을 사용하여 제1 주파수 범위에 대한 제1 오류 은닉 오디오 정보 성분(807')을; 그리고
■ 시간 도메인 은닉(809)을 사용하여 제1 주파수 범위보다 더 낮은 주파수들을 포함하는 제2 주파수 범위에 대한 제2 오류 은닉 오디오 정보 성분(811')을 제공하도록 구성되고,
o 여기서 오류 은닉 유닛은 인코더(1900)에 의해 송신된 정보(1932)를 기초로 제어(813)를 수행하도록 구성되고,
o 오류 은닉 유닛(800b)은 오류 은닉 오디오 정보(802)를 얻기 위해 제1 오류 은닉 오디오 정보 성분(807)과 제2 오류 은닉 오디오 정보 성분(811)을 결합하도록 추가로 구성된다.
(예를 들어, 인코더(1900) 및/또는 은닉 유닛(800b)을 사용하여 수행될 수 있는) 일 실시예에 따르면, 본 발명은 입력 오디오 정보(예컨대, 1902)를 기초로 하여, 인코딩된 오디오 표현(예컨대, 1904)을 제공하기 위한 방법(2000)(도 20)을 제공하며, 이 방법은:
- 입력 오디오 정보를 기초로 하여, 인코딩된 주파수 도메인 표현(예컨대, 1908)을 제공하기 위한 주파수 (예컨대, 블록(1906)에 의해 수행되는) 도메인 인코딩 단계, 및/또는 입력 오디오 정보를 기초로 하여, 인코딩된 선형 예측 도메인 표현(예컨대, 1922)을 제공하기 위한 (예컨대, 블록(1920)에 의해 수행되는) 선형 예측 도메인 인코딩 단계(2002); 및
- 오디오 디코더 측에서 사용될, (예컨대, 블록(809)에 의해 수행되는) 시간 도메인 오류 은닉과 (예컨대, 블록(805)에 의해 수행되는) 주파수 도메인 오류 은닉 사이의 크로스오버 주파수를 정의하는 크로스오버 주파수 정보(예컨대, 1932)를 결정하기 위한 (예컨대, 블록(1930)에 의해 수행되는) 크로스오버 주파수 결정 단계(2004)를 포함하며;
- 여기서 인코딩 단계는 인코딩된 주파수 도메인 표현 및/또는 인코딩된 선형 예측 도메인 표현 그리고 또한 크로스오버 주파수 정보를 인코딩된 오디오 표현에 포함하도록 구성된다.
또한, 인코딩된 오디오 표현은 그에 포함된 크로스오버 주파수 정보와 함께, 정보를 디코딩하고 프레임 손실의 경우에는, 은닉을 수행할 수 있는 수신기(디코더)에 (선택적으로) 제공 및/또는 송신(단계(2006))될 수 있다. 예를 들어, 디코더의 은닉 유닛(예컨대, 800b)은 도 10의 방법(1000)의 단계들(910-930)을 수행할 수 있는 한편, 방법(1000)의 단계(905)는 방법(2000)의 단계(2004)로 구현될 수 있다(또는 여기서 단계(905)의 기능은 오디오 인코더 측에서 수행되고, 단계(905)는 인코딩된 오디오 표현에 포함된 크로스오버 주파수 정보를 평가하는 것으로 대체된다).
본 발명은 또한 인코딩된 오디오 표현(예컨대, 1904)에 관한 것으로, 이는:
- 오디오 콘텐츠를 나타내는 인코딩된 주파수 도메인 표현(예컨대, 1908), 및/또는 오디오 콘텐츠를 나타내는 인코딩된 선형 예측 도메인 표현(예컨대, 1922); 및
- 오디오 디코더 측에서 사용될, 시간 도메인 오류 은닉과 주파수 도메인 오류 은닉 사이의 크로스오버 주파수를 정의하는 크로스오버 주파수 정보(예컨대, 1932)를 포함한다.
5.12 페이드아웃
위의 개시내용에 추가하여, 오류 은닉 유닛은 은닉된 프레임을 페이딩할 수 있다. 도 1, 도 8a 및 도 8b를 참조하면, 제1 오류 은닉 성분(105 또는 807')을 약화시키도록 (예컨대, 주파수 범위들(705a, 705b) 내의 주파수 빈들의 값들을 도 7의 댐핑 지수들(708)로 스케일링함으로써) FD 은닉(105 또는 805)에서 페이드아웃이 작동될 수 있다. 페이드아웃은 또한, 제2 오류 은닉 성분(104 또는 811')을 약화시키도록 값들을 적절한 댐핑 지수들로 스케일링함으로써 TD 은닉(809)에서 작동될 수 있다(결합기/페이더(570) 또는 위의 섹션 5.5.6 참조).
추가로 또는 대안으로, 오류 은닉 오디오 정보(102 또는 802)를 스케일링하는 것이 또한 가능하다.
6. 본 발명의 동작
여기서는 본 발명의 동작의 일례가 제공된다. 오디오 디코더(예컨대, 오디오 디코더(200, 300 또는 400))에서, 어떤 데이터 프레임이 손실될 수 있다. 이에 따라, 오류 은닉 유닛(예컨대, 100, 230, 380, 800, 800b)이 각각의 손실된 데이터 프레임에 대해, 이전 적절하게 디코딩된 오디오 프레임을 사용하여, 손실된 데이터 프레임들을 은닉하는 데 사용된다.
오류 은닉 유닛(예컨대, 100, 230, 380, 800, 800b)은 다음과 같이 동작한다:
- (예컨대, 제1 주파수 범위에서 제1 오류 은닉 오디오 정보 성분(807')을 얻기 위한) 제1 부분 또는 경로에서, 손실된 신호의 주파수 도메인 고주파 오류 은닉이 이전 적절하게 디코딩된 오디오 프레임의 주파수 스펙트럼 표현(예컨대, 803)을 사용하여 수행되고;
- 병렬로 그리고/또는 동시에(또는 실질적으로 동시에), (제2 주파수 범위에서 제2 오류 은닉 오디오 정보 성분을 얻기 위해) 제2 부분 또는 경로에서, 이전 적절하게 디코딩된 오디오 프레임(예컨대, pcm 버퍼링된 값)의 시간 도메인 표현(예컨대 804)에 대해 시간 도메인 은닉이 수행된다.
제1 주파수 범위의 주파수들 대부분이 FSout/4에 걸쳐 있고 제2 주파수 범위의 주파수들 대부분이 FSout/4(코어 샘플링 레이트) 아래에 있도록, (예컨대, 고역 통과 필터(807) 및 저역 통과 필터(811)에 대해) 차단 주파수(FSout/4)가 정의(예컨대, 사전 정의되거나, 미리 선택되거나, 제어기(813)와 같은 제어기에 의해, 예컨대 피드백과 같은 방식으로 제어)된다고 가설이 세워질 수 있다. FSout은 예를 들어, 46㎑ 내지 50㎑, 바람직하게는 47㎑ 내지 49㎑, 그리고 보다 바람직하게는 48㎑일 수 있는 값으로 설정될 수 있다.
FSout은 보통은(그러나 반드시 그렇지는 않고) 16㎑(코어 샘플링 레이트)보다 더 높다(예를 들어, 48㎑).
오류 은닉 유닛(예컨대, 100, 230, 380, 800, 800b)의 제2(저주파) 부분에서는, 다음 동작들이 실행될 수 있다:
- 다운샘플(808)에서, 적절하게 디코딩된 오디오 프레임의 시간 도메인 표현(804)이 원하는 코어 샘플링 레이트(여기서는 16㎑)로 다운샘플링되고;
- 809에서 시간 도메인 은닉이 수행되어 합성된 신호(809')를 제공하며;
- 업샘플(810)에서, 합성된 신호(809')가 업샘플링되어 출력 샘플링 레이트(FSout)로 신호(810')를 제공하고;
- 마지막으로, 신호(810')가 저역 통과 필터(811)로, 바람직하게는 코어 샘플링 레이트(예를 들어, 16㎑)의 1/2인 차단 주파수(여기서는 8㎑)로 필터링된다.
오류 은닉 유닛의 제1(고주파) 부분에서는, 다음 동작들이 실행될 수 있다:
- 주파수 도메인 은닉(805)이 (적절하게 디코딩된 프레임의) 입력 스펙트럼의 고주파 부분을 은닉하고;
- 주파수 도메인 은닉(805)에 의해 출력된 스펙트럼(805')이 합성된 신호(806')로서 (예컨대, IMDCT(806)를 통해) 시간 도메인으로 변환되고;
- 합성된 신호(806')가 바람직하게는 고역 통과 필터(807)로, 코어 샘플링 레이트(16㎑)의 1/2인 차단 주파수(8㎑)로 필터링된다.
보다 고주파 성분(예컨대, 103 또는 807')을 보다 저주파 성분(예컨대, 104 또는 811')과 결합하기 위해, 중첩 가산(OLA) 메커니즘(예컨대, 812)이 시간 도메인에서 사용된다. AAC형 코덱의 경우, 하나보다 많은 프레임(일반적으로 1과 1/2 프레임들)이 하나의 은닉된 프레임에 대해 업데이트되어야 한다. 이는 OLA의 분석 및 합성 방법이 1/2 프레임 지연을 갖기 때문이다. 추가 1/2 프레임이 필요하다. 따라서 시간 도메인에서 2개의 연속적인 프레임들을 얻기 위해 IMDCT(806)가 2회 호출된다. 은닉된 프레임들(1101)과 손실된 프레임들(1102) 간의 관계를 보여주는 도 11의 그래픽(1100)이 참조된다. 마지막으로, 저주파 부분과 고주파 부분이 합산되고, OLA 메커니즘이 적용된다.
특히, 도 8b에 도시된 장비를 사용하거나 도 10의 방법을 구현하면, 제1 주파수 범위 및 제2 주파수 범위의 선택을 수행하거나 예를 들어, 이전 적절하게 디코딩된 오디오 프레임 또는 프레임들의 조화성 및/또는 기울기를 기초로 크로스오버 주파수를 시간 도메인(TD: time domain)과 주파수 도메인(FD: frequency domain) 은닉 간에 동적으로 적응시키는 것이 가능하다.
예를 들어, 배경 잡음을 갖는 여성의 음성 항목의 경우, 신호는 5㎑로 다운샘플링될 수 있고, 시간 도메인 은닉은 신호의 가장 중요한 부분에 대해 양호한 은닉을 수행할 것이다. 그 다음, 잡음 부분이 주파수 도메인 은닉 방법으로 합성될 것이다. 이는 고정 크로스오버(또는 고정 다운샘플 팩터)와 비교하여 복잡성을 감소시키고 짜증스러운 "비프" 인공물들을 제거할 것이다(아래에서 논의되는 플롯들 참조).
프레임마다 피치가 알려진다면, 임의의 주파수 도메인 음색 은닉에 비해 시간 도메인 은닉의 한 가지 주요 이점을 사용하는 것이 가능하고: 과거 피치 값을 기초로, 은닉된 프레임 내에서 피치를 변경하는 것이 가능하다(지연 요건 허용시, 내삽에 향후 프레임을 사용하는 것이 또한 가능하다).
도 12는 오류 없는 신호를 갖는 도면(1200)을 도시하는데, 횡좌표는 시간을 나타내고, 종좌표는 주파수를 나타낸다.
도 13은 오류 발생이 쉬운 신호의 전체 주파수 대역에 시간 도메인 은닉이 적용되는 도면(1300)을 도시한다. TD 은닉에 의해 생성된 라인들은 오류 발생이 쉬운 신호의 전체 주파수 범위에 대해 인공적으로 발생된 조화성을 보여준다.
도 14는 본 발명의 결과들을 예시하는 도면(1400)을 보여주는데: (제1 주파수 범위(1401)에서, 여기서는 2.5㎑에 걸친) 잡음이 주파수 도메인 은닉(예컨대, 105 또는 805)에 의해 은닉되었고, (제2 주파수 범위(1402)에서, 여기서는 2.5㎑ 미만인) 음성이 시간 도메인 은닉(예컨대, 106, 500, 600 또는 809)에 의해 은닉되었다. 도 13과의 비교는 잡음 주파수 범위에 대해 인공적으로 발생된 조화성이 방지되었음을 이해할 수 있게 한다.
고조파들의 에너지 기울기가 주파수들에 걸쳐 일정하다면, 신호가 조화성을 포함하지 않는다면, 전체 주파수 TD 은닉을 하고 FD 은닉은 전혀 하지 않거나 또는 그 반대가 타당하다.
도 15의 도면(1500)으로부터 확인될 수 있듯이, 주파수 도메인 은닉은 위상 불연속성들을 발생시키는 경향이 있는 반면, 도 16의 도면(1600)으로부터 확인될 수 있듯이, 전체 주파수 범위에 적용되는 시간 도메인 은닉은 신호 위상을 유지하고 완벽하게 인공물 없는 출력을 발생시킨다.
도 17의 도면(1700)은 오류 발생이 쉬운 신호의 전체 주파수 대역에 대한 FD 은닉을 보여준다. 도 18의 도면(1800)은 오류 발생이 쉬운 신호의 전체 주파수 대역에 대한 TD 은닉을 보여준다. 이 경우, FD 은닉은 신호 특성들을 유지하는 반면, 전체 주파수에 대한 TD 은닉은 짜증스러운 "비프" 인공물을 생성하거나, 스펙트럼에서 뚜렷한 어떤 큰 홀을 생성할 것이다.
특히, 도 8에 도시된 장비를 사용하여 또는 10의 방법을 구현하여 도 15 - 도 18에 도시된 동작들 간에 시프트하는 것이 가능하다. 제어기(813)와 같은 제어기는 예컨대, 신호(에너지, 기울기, 조화성 등)를 분석함으로써, 신호가 강한 고조파들을 가질 때 도 16에 도시된 동작(TD 은닉만)에 도달할 결정을 작동시킬 수 있다. 비슷하게, 제어기(813)는 또한, 잡음이 두드러질 때 도 17에 도시된 동작(FD 은닉만)에 도달할 결정을 작동시킬 수 있다.
6.1. 실험 결과들을 기초로 한 결론들
AAC [1] 오디오 코덱의 종래의 은닉 기술은 잡음 대체이다. 이는 주파수 도메인에서 작동하고 있으며 이는 잡음 및 음악 항목들에 잘 맞는다. 음성 세그먼트들의 경우, 잡음 대체는 흔히 시간 도메인에서 짜증스러운 클릭 인공물들로 끝나는 위상 불연속성을 발생시킨다고 인식되었다. 따라서 ACELP형 시간 도메인 접근 방식이 분류기에 의해 결정된 ([2], [3]에서의 TD-TCX PLC와 같은) 음성 세그먼트들에 사용될 수 있다.
시간 도메인 은닉에 따른 한 가지 문제점은 전체 주파수 범위 상의 인공적으로 발생된 조화성이다. 신호가 보다 낮은 주파수들(음성 항목들에 대해 이는 대개 4㎑ 주위임)에서 강한 고조파들만을 갖는다면, 이로써 보다 높은 주파수들이 배경 잡음을 구성하고, 나이퀴스트까지의 발생된 고조파들은 짜증스러운 "비프" 인공물들을 발생시킬 것이다. 시간 도메인 접근 방식의 다른 약점은 오류 없는 디코딩 또는 잡음 대체를 이용한 은닉에 비해 높은 계산상의 복잡성이다.
계산상의 복잡성을 줄이기 위해, 청구된 접근 방식은 다음의 두 방법들의 결합을 사용한다:
더 저주파 부분에서의 시간 도메인 은닉, 여기서 음성 신호들은 이들의 가장 높은 영향을 가짐
더 고주파 부분에서의 주파수 도메인 은닉, 여기서 음성 신호들은 잡음 특성을 가짐.
6.1.1 저주파 부분(코어)
제1 마지막 pcm 버퍼가 원하는 코어 샘플링 레이트(여기서는 16㎑)로 다운샘플링된다.
시간 도메인 은닉 알고리즘이 수행되어 1과 1/2의 합성된 프레임들을 얻는다. 추가 1/2 프레임은 나중에 중첩 가산(OLA) 메커니즘에 필요하다.
합성된 신호는 출력 샘플링 레이트(FS_out)로 업샘플링되고 저역 통과 필터에 의해 FS_out/2의 차단 주파수로 필터링된다.
6.1.2 고주파 부분
고주파 부분의 경우, 임의의 주파수 도메인 은닉이 적용될 수 있다. 여기서, AAC-ELD 오디오 코덱 내의 잡음 대체가 사용될 것이다. 이 메커니즘은 마지막 양호한 프레임의 복사된 스펙트럼을 사용하며, IMDCT가 적용되어 시간 도메인으로 돌아가기 전에 잡음을 추가한다.
은닉된 스펙트럼은 IMDCT를 통해 시간 도메인으로 변환된다.
결국, 과거 pcm 버퍼와의 합성된 신호가 고역 통과 필터에 의해 FS_out/2의 차단 주파수로 필터링된다.
6.1.2 전체 부분
보다 저주파 부분과 고주파 부분을 결합하기 위해, 시간 도메인에서 중첩 가산 메커니즘이 수행된다. AAC형 코덱의 경우, 이는 하나보다 많은 프레임(일반적으로 1과 1/2 프레임들)이 하나의 은닉된 프레임에 대해 업데이트되어야 함을 의미한다. 이는 OLA의 분석 및 합성 방법이 1/2 프레임 지연을 갖기 때문이다. IMDCT는 단 하나의 프레임을 발생시키며, 따라서 추가 1/2 프레임이 필요하다. 따라서 시간 도메인에서 2개의 연속적인 프레임들을 얻기 위해 IMDCT가 2회 호출된다.
저주파 부분과 고주파 부분이 합산되고, 중첩 가산 메커니즘이 적용된다.
6.1.3 선택적인 확장들
마지막 양호한 프레임의 조화성 및 기울기를 기초로 TD 은닉과 FD 은닉 간에 크로스오버 주파수를 동적으로 적응시키는 것이 가능하다. 예를 들어, 배경 잡음을 갖는 여성의 음성 항목의 경우, 신호는 5㎑로 다운샘플링될 수 있고, 시간 도메인 은닉은 신호의 가장 중요한 부분에 대해 양호한 은닉을 수행할 것이다. 그 다음, 잡음 부분이 주파수 도메인 은닉 방법으로 합성될 것이다. 이는 고정 크로스오버(또는 고정 다운샘플 팩터)와 비교하여 복잡성을 감소시키고 짜증스러운 "비프" 인공물들을 제거할 것이다(도 12 - 도 14 참조).
6.1.4 실험의 결론들
도 13은 전체 주파수 범위에 대한 TD 은닉을 도시하고; 도 14는 하이브리드 은닉: TD 은닉을 이용하는 0 내지 2.5㎑(1402 참조) 및 FD 은닉을 이용하는 보다 상위 주파수들(1401 참조)을 도시한다.
그러나 고조파들의 에너지 기울기가 주파수들에 걸쳐 일정하다면(그리고 하나의 명확한 피치 또는 조화성이 검출된다면), 신호가 조화성을 포함하지 않는다면, 전체 주파수 TD 은닉을 하고 FD 은닉은 전혀 하지 않거나 또는 그 반대가 타당하다.
FD 은닉(도 15)은 위상 불연속성들을 발생시키는 반면, 전체 주파수 범위에 적용되는 TD 은닉(도 16)은 신호들의 위상을 유지하고 거의(어떤 경우들에는 심지어 완벽한) 인공물 없는 출력을 발생시킨다(실제 음색 신호들로 완벽한 인공물 없는 출력이 달성될 수 있다). FD 은닉(도 17)은 신호 특성을 유지하며, 이로써 전체 주파수 범위에 대한 TD 은닉(도 18)은 짜증스러운 "비프" 인공물을 생성한다.
프레임마다 피치가 알려진다면, 임의의 주파수 도메인 음색 은닉에 비해 시간 도메인 은닉의 한 가지 주요 이점을 사용하는 것이 가능하고: 과거 피치 값을 기초로, 은닉된 프레임 내에서 피치를 변경할 수 있다(지연 요건 허용시, 내삽에 또한 향후 프레임을 사용할 수 있다).
7. 추가 주목들
실시예들은 오디오 코덱들에 대한 주파수 및 시간 도메인 은닉의 결합을 포함하는 하이브리드 은닉 방법에 관한 것이다. 즉, 실시예들은 오디오 코덱들에 대한 주파수 및 시간 도메인에서의 하이브리드 은닉 방법에 관한 것이다.
AAC 군 오디오 코덱의 종래의 패킷 손실 은닉 기술은 잡음 대체이다. 이는 주파수 도메인(FDPLC - 주파수 도메인 패킷 손실 은닉(frequency domain packet loss concealment))에서 작동하고 있으며 잡음 및 음악 항목들에 잘 맞는다. 음성 세그먼트들의 경우, 이는 흔히 짜증스러운 클릭 인공물들로 끝나는 위상 불연속성을 발생시킨다고 확인되었다. 그 문제를 극복하기 위해, ACELP형 시간 도메인 접근 방식인 시간 도메인 패킷 손실 은닉(TDPLC: time domain packet loss concealment)이 음성과 같은 세그먼트들에 사용된다. TDPLC의 고주파 인공물들 및 계산상의 복잡성을 피하기 위해, 설명된 접근 방식은 두 은닉 방법들: 더 낮은 주파수들에 대한 TDPLC, 더 높은 주파수들에 대한 FDPLC 모두의 적응적 결합을 사용한다.
본 발명에 따른 실시예들은 다음의 개념들: ELD, XLD, DRM, MPEG-H 중 임의의 개념과 결합하여 사용될 수 있다.
8. 구현 대안들
일부 양상들은 장치와 관련하여 설명되었지만, 이러한 양상들은 또한 대응하는 방법의 설명을 나타내며, 여기서 블록 또는 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다는 점이 명백하다. 비슷하게, 방법 단계와 관련하여 설명한 양상들은 또한 대응하는 장치의 대응하는 블록 또는 항목 또는 특징의 설명을 나타낸다. 방법 단계들의 일부 또는 전부가 예를 들어, 마이크로프로세서, 프로그래밍 가능한 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해(또는 사용하여) 실행될 수도 있다. 일부 실시예들에서, 가장 중요한 방법 단계들 중 어떤 하나 또는 그보다 많은 단계들이 이러한 장치에 의해 실행될 수도 있다.
특정 구현 요건들에 따라, 본 발명의 실시예들은 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능 컴퓨터 시스템과 협력하는(또는 협력할 수 있는) 전자적으로 판독 가능 제어 신호들이 저장된 디지털 저장 매체, 예를 들어 플로피 디스크, DVD, 블루레이, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 수행될 수 있다. 따라서 디지털 저장 매체는 컴퓨터 판독 가능할 수도 있다.
본 발명에 따른 일부 실시예들은 본 명세서에서 설명한 방법들 중 하나가 수행되도록, 프로그래밍 가능 컴퓨터 시스템과 협력할 수 있는 전자적으로 판독 가능 제어 신호들을 갖는 데이터 반송파를 포함한다.
일반적으로, 본 발명의 실시예들은 컴퓨터 프로그램 제품이 컴퓨터 상에서 실행될 때, 방법들 중 하나를 수행하기 위해 작동하는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 프로그램 코드는 예를 들어, 기계 판독 가능 반송파 상에 저장될 수 있다.
다른 실시예들은 기계 판독 가능 반송파 상에 저장된, 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
즉, 본 발명의 방법의 한 실시예는 이에 따라, 컴퓨터 상에서 컴퓨터 프로그램이 실행될 때 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서 본 발명의 방법들의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하여 그 위에 기록된 데이터 반송파(또는 디지털 저장 매체, 또는 컴퓨터 판독 가능 매체)이다. 데이터 반송파, 디지털 저장 매체 또는 레코딩된 매체는 통상적으로 유형적이고 그리고/또는 비-일시적이다.
따라서 본 발명의 방법의 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 신호들의 데이터 스트림 또는 시퀀스이다. 신호들의 데이터 스트림 또는 시퀀스는 예를 들어, 데이터 통신 접속을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.
추가 실시예는 처리 수단, 예를 들어 본 명세서에서 설명한 방법들 중 하나를 수행하도록 구성 또는 적응된 컴퓨터 또는 프로그래밍 가능 로직 디바이스를 포함한다.
추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
본 발명에 따른 추가 실시예는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에(예를 들어, 전자적으로 또는 광학적으로) 전송하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어, 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수도 있다. 장치 또는 시스템은 예를 들어, 컴퓨터 프로그램을 수신기에 전송하기 위한 파일 서버를 포함할 수도 있다.
일부 실시예들에서, 프로그래밍 가능 로직 디바이스(예를 들어, 필드 프로그래밍 가능 게이트 어레이)는 본 명세서에서 설명한 방법들의 기능들 중 일부 또는 전부를 수행하는 데 사용될 수 있다. 일부 실시예들에서, 필드 프로그래밍 가능 게이트 어레이는 본 명세서에서 설명한 방법들 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게 임의의 하드웨어 장치에 의해 수행된다.
본 명세서에서 설명한 장치는 하드웨어 장치를 사용하여, 또는 컴퓨터를 사용하여, 또는 하드웨어 장치와 컴퓨터의 결합을 사용하여 구현될 수도 있다.
본 명세서에서 설명한 방법들은 하드웨어 장치를 사용하여, 또는 컴퓨터를 사용하여, 또는 하드웨어 장치와 컴퓨터의 결합을 사용하여 수행될 수도 있다.
앞서 설명한 실시예들은 단지 본 발명의 원리들에 대한 예시일 뿐이다. 본 명세서에서 설명한 배열들 및 세부사항들의 수정들 및 변형들이 다른 당업자들에게 명백할 것이라고 이해된다. 따라서 이는 본 명세서의 실시예들의 묘사 및 설명에 의해 제시된 특정 세부사항들로가 아닌, 첨부된 특허청구범위로만 한정되는 것을 취지로 한다.
9. 참고문헌
[1] 3GPP TS 26.402 "Enhanced aacPlus general audio codec; Additional decoder tools (Release 11)",
[2] J. Lecomte, et al, "Enhanced time domain packet loss concealment in switched speech/audio codec", submitted to IEEE ICASSP, Brisbane, Australia, Apr.2015.
[3] WO 2015063045 A1
[4] "Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pitch lag estimation", 2014, PCT/EP2014/062589
[5] "Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pulse "synchronization", 2014, PCT/EP2014/062578

Claims (41)

  1. 인코딩된 오디오 정보에서 오디오 프레임의 손실을 은닉하기 위한 오류 은닉 오디오 정보(102, 232, 382, 802)를 제공하기 위한 오류 은닉 유닛(100, 230, 380, 800, 800b)으로서,
    상기 오류 은닉 유닛은 주파수 도메인 은닉(105, 704, 805, 910)을 사용하여 제1 주파수 범위(1401)에 대한 제1 오류 은닉 오디오 정보 성분(103, 807')을 제공하도록 구성되고,
    상기 오류 은닉 유닛은 시간 도메인 은닉(106, 500, 600, 809, 920)을 사용하여 상기 제1 주파수 범위보다 더 낮은 주파수들을 포함하는 제2 주파수 범위(1402)에 대한 제2 오류 은닉 오디오 정보 성분(104, 512, 612, 811')을 제공하도록 추가로 구성되며,
    상기 오류 은닉 유닛은 상기 오류 은닉 오디오 정보를 얻기 위해 상기 제1 오류 은닉 오디오 정보 성분(103, 807')과 상기 제2 오류 은닉 오디오 정보 성분(104, 512, 612, 811')을 결합(107, 812, 930)하도록 추가로 구성되는,
    오류 은닉 유닛.
  2. 제1 항에 있어서,
    상기 오류 은닉 유닛은,
    상기 제1 오류 은닉 오디오 정보 성분(103, 807')이 주어진 손실된 오디오 프레임의 고주파 부분을 나타내도록, 그리고
    상기 제2 오류 은닉 오디오 정보 성분(104, 512, 612, 811')이 상기 주어진 손실된 오디오 프레임의 저주파 부분을 나타내도록,
    상기 주어진 손실된 오디오 프레임과 연관된 오류 은닉 오디오 정보가 상기 주파수 도메인 은닉(105, 704, 805, 910) 및 상기 시간 도메인 은닉(106, 500, 600, 809, 920) 모두를 사용하여 획득되도록 구성되는,
    오류 은닉 유닛.
  3. 제1 항 또는 제2 항에 있어서,
    상기 오류 은닉 유닛은 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 고주파 부분의 변환 도메인 표현을 사용하여 상기 제1 오류 은닉 오디오 정보 성분(103, 807')을 유도하도록 구성되고, 그리고/또는
    상기 오류 은닉 유닛은 상기 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 저주파 부분을 기초로 시간 도메인 신호 합성을 사용하여 상기 제2 오류 은닉 오디오 정보 성분(104, 512, 612, 811')을 유도하도록 구성되는,
    오류 은닉 유닛.
  4. 제1 항 내지 제3 항 중 어느 한 항에 있어서,
    상기 오류 은닉 유닛은,
    상기 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 고주파 부분의 변환 도메인 표현의 스케일링된 또는 스케일링되지 않은 사본을 사용하도록,
    상기 손실된 오디오 프레임의 고주파 부분의 변환 도메인 표현을 획득하도록, 그리고
    상기 제1 오류 은닉 오디오 정보 성분(103, 807')인 시간 도메인 신호 성분을 얻기 위해, 상기 손실된 오디오 프레임의 고주파 부분의 변환 도메인 표현을 시간 도메인으로 변환하도록 구성되는,
    오류 은닉 유닛.
  5. 제3 항 또는 제4 항에 있어서,
    상기 오류 은닉 유닛은, 상기 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 저주파 부분을 기초로 하나 또는 그보다 많은 합성 자극 파라미터들 및 하나 또는 그보다 많은 합성 필터 파라미터들을 얻도록, 그리고 얻어진 합성 자극 파라미터들 및 얻어진 합성 필터 파라미터들을 기초로 신호 합성이 유도되는 또는 상기 얻어진 합성 자극 파라미터들 및 상기 얻어진 합성 필터 파라미터들과 동일한 신호 합성 자극 파라미터들 및 필터 파라미터들을 사용하여 상기 제2 오류 은닉 오디오 정보 성분(104, 512, 612, 811')을 얻도록 구성되는,
    오류 은닉 유닛.
  6. 제1 항 내지 제5 항 중 어느 한 항에 있어서,
    상기 오류 은닉 유닛은 상기 제1 주파수 범위(1401) 및/또는 상기 제2 주파수 범위(1402)를 결정하고 그리고/또는 신호 적응적으로 변경하기 위한 제어(813)를 수행하도록 구성되는,
    오류 은닉 유닛.
  7. 제6 항에 있어서,
    상기 오류 은닉 유닛은 하나 또는 그보다 많은 인코딩된 오디오 프레임들의 특성들과 하나 또는 그보다 많은 적절하게 디코딩된 오디오 프레임들의 특성들 사이에서 선택된 특성들을 기초로 상기 제어(813)를 수행하도록 구성되는,
    오류 은닉 유닛.
  8. 제6 항 또는 제7 항에 있어서,
    상기 오류 은닉 유닛은, 하나 또는 그보다 많은 적절하게 디코딩된 오디오 프레임들의 조화성에 관한 정보를 얻도록, 그리고 상기 조화성에 관한 정보를 기초로 상기 제어(813)를 수행하도록 구성되고; 그리고/또는
    상기 오류 은닉 유닛은, 하나 또는 그보다 많은 적절하게 디코딩된 오디오 프레임들의 스펙트럼 기울기에 관한 정보를 얻도록, 그리고 상기 스펙트럼 기울기에 관한 정보를 기초로 상기 제어(813)를 수행하도록 구성되는,
    오류 은닉 유닛.
  9. 제8 항에 있어서,
    상기 오류 은닉 유닛은 상기 제2 주파수 범위(1402)에서의 조화성과 비교할 때 상기 제1 주파수 범위(1401)에서 조화성이 비교적 더 작게 상기 제1 주파수 범위 및 상기 제2 주파수 범위를 선택하도록 구성되는,
    오류 은닉 유닛.
  10. 제8 항 또는 제9 항에 있어서,
    상기 오류 은닉 유닛은, 상기 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임이 어떤 주파수까지 조화성 임계치보다 더 강한 조화성을 포함하는지를 결정하도록, 그리고 상기 결정에 의존하여 상기 제1 주파수 범위(1401) 및 상기 제2 주파수 범위(1402)를 선택하도록 구성되는,
    오류 은닉 유닛.
  11. 제8 항 내지 제10 항 중 어느 한 항에 있어서,
    상기 오류 은닉 유닛은, 상기 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 스펙트럼 기울기가 더 작은 스펙트럼 기울기에서 더 큰 스펙트럼 기울기로 변경되는 주파수 경계를 결정 또는 추정하도록, 그리고 상기 결정 또는 추정에 의존하여 상기 제1 주파수 범위 및 상기 제2 주파수 범위를 선택하도록 구성되는,
    오류 은닉 유닛.
  12. 제6 항 내지 제11 항 중 어느 한 항에 있어서,
    상기 오류 은닉 유닛(800b)은 인코더에 의해 송신된 정보를 기초로 상기 제어(813)를 수행하도록 구성되는,
    오류 은닉 유닛.
  13. 제1 항 내지 제12 항 중 어느 한 항에 있어서,
    상기 오류 은닉 유닛은 상기 제1 주파수 범위가 잡음형 스펙트럼 구조를 포함하는 스펙트럼 영역을 커버하게, 그리고 상기 제2 주파수 범위가 고조파 스펙트럼 구조를 포함하는 스펙트럼 영역을 커버하게, 상기 제1 주파수 범위 및 상기 제2 주파수 범위를 조정하도록 구성되는,
    오류 은닉 유닛.
  14. 제1 항 내지 제13 항 중 어느 한 항에 있어서,
    상기 오류 은닉 유닛은 고조파들과 잡음 간의 에너지 관계에 의존하여 상기 제1 주파수 범위(1401)의 더 낮은 주파수 끝 및/또는 상기 제2 주파수 범위(1402)의 더 높은 주파수 끝을 적응시키게 제어를 수행하도록 구성되는,
    오류 은닉 유닛.
  15. 제1 항 내지 제14 항 중 어느 한 항에 있어서,
    상기 오류 은닉 유닛은, 상기 시간 도메인 은닉(106, 500, 600, 809, 920)과 주파수 도메인 은닉(105, 704, 805, 910) 중 적어도 하나를 선택적으로 억제하기 위한 제어를 수행하도록 그리고/또는 상기 오류 은닉 오디오 정보를 얻기 위해 시간 도메인 은닉(106, 500, 600, 809, 920)만을 또는 상기 주파수 도메인 은닉(105, 704, 805, 910)만을 수행하도록 구성되는,
    오류 은닉 유닛.
  16. 제15 항에 있어서,
    상기 오류 은닉 유닛은,
    상기 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 스펙트럼 기울기의 변화가 주어진 주파수 범위에 걸쳐 미리 결정된 스펙트럼 기울기 임계치보다 더 작은지 여부를 결정 또는 추정하도록, 그리고
    상기 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 스펙트럼 기울기의 변화가 상기 미리 결정된 스펙트럼 기울기 임계치보다 더 작다고 확인된다면 상기 시간 도메인 은닉만을 사용하여 상기 오류 은닉 오디오 정보를 얻도록 구성되는,
    오류 은닉 유닛.
  17. 제15 항 또는 제16 항에 있어서,
    상기 오류 은닉 유닛은 상기 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 조화성이 미리 결정된 조화성 임계치보다 더 작은지 여부를 결정 또는 추정하도록, 그리고
    상기 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 조화성이 상기 미리 결정된 조화성 임계치보다 더 작다고 확인된다면 상기 주파수 도메인 은닉만을 사용하여 상기 오류 은닉 오디오 정보를 얻도록 구성되는,
    오류 은닉 유닛.
  18. 제1 항 내지 제17 항 중 어느 한 항에 있어서,
    상기 오류 은닉 유닛은, 상기 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 피치를 기초로 그리고/또는 상기 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 상기 피치의 시간 전개에 의존하여, 그리고/또는 상기 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임과 상기 손실된 오디오 프레임에 뒤따르는 적절하게 디코딩된 오디오 프레임 사이의 상기 피치의 내삽에 의존하여, 은닉된 프레임의 피치를 적응시키도록 구성되는,
    오류 은닉 유닛.
  19. 제1 항 내지 제18 항 중 어느 한 항에 있어서,
    상기 오류 은닉 유닛은 중첩 가산(OLA: overlap-and-add) 메커니즘(107, 812, 930)을 사용하여 상기 제1 오류 은닉 오디오 정보 성분(103, 807')과 상기 제2 오류 은닉 오디오 정보 성분(104, 512, 612, 811')을 결합(930)하도록 추가로 구성되는,
    오류 은닉 유닛.
  20. 제1 항 내지 제19 항 중 어느 한 항에 있어서,
    상기 오류 은닉 유닛은 중첩 가산(812)을 가능하게 하기 위해, 상기 제2 오류 은닉 오디오 정보 성분(104, 512, 612, 811')이 상기 손실된 오디오 프레임(1102)보다 적어도 25 퍼센트 더 긴 시간 지속기간을 포함하게 상기 제2 오류 은닉 오디오 정보 성분(104, 512, 612, 811')을 제공하도록 구성되는,
    오류 은닉 유닛.
  21. 제1 항 내지 제20 항 중 어느 한 항에 있어서,
    상기 오류 은닉 유닛은 상기 제1 오류 은닉 오디오 정보 성분의 시간 도메인 표현(806')을 얻기 위해, 상기 주파수 도메인 오류 은닉(805)에 의해 얻어진 스펙트럼 도메인 표현을 기초로 변형 이산 코사인 역변환(IMDCT: inverse modified discrete cosine transform)(806)을 수행하도록 구성되는,
    오류 은닉 유닛.
  22. 제21 항에 있어서,
    상기 오류 은닉 유닛은 상기 시간 도메인에서 2개의 연속적인 프레임들을 얻기 위해 IMDCT(806)를 2회 수행하도록 구성되는,
    오류 은닉 유닛.
  23. 제1 항 내지 제22 항 중 어느 한 항에 있어서,
    상기 오류 은닉 유닛은 상기 주파수 도메인 은닉(105, 704, 805, 910)의 다운스트림에서 상기 제1 오류 은닉 오디오 정보 성분(103, 806')의 고역 통과 필터링(807)을 수행하도록 구성되는,
    오류 은닉 유닛.
  24. 제23 항에 있어서,
    상기 오류 은닉 유닛은 6㎑ 내지 10㎑, 바람직하게는 7㎑ 내지 9㎑, 보다 바람직하게는 7.5㎑ 내지 8.5㎑, 훨씬 더 바람직하게는 7.9㎑ 내지 8.1㎑, and 훨씬 더 바람직하게는 8㎑의 차단 주파수로 고역 통과 필터링(807)을 수행하도록 구성되는,
    오류 은닉 유닛.
  25. 제23 항 또는 제24 항에 있어서,
    상기 오류 은닉 유닛은 상기 고역 통과 필터링(807)의 더 낮은 주파수 경계를 신호 적응적으로 조정함으로써 상기 제1 주파수 범위(1401)의 대역폭을 변경하도록 구성되는,
    오류 은닉 유닛.
  26. 제1 항 내지 제25 항 중 어느 한 항에 있어서,
    상기 오류 은닉 유닛은,
    다운샘플링된 시간 도메인 표현이 상기 손실된 오디오 프레임을 선행하는 오디오 프레임의 저주파 부분만을 나타내는, 상기 손실된 오디오 프레임을 선행하는 오디오 프레임의 다운샘플링된 시간 도메인 표현(808')을 얻기 위해, 상기 손실된 오디오 프레임을 선행하는 오디오 프레임의 시간 도메인 표현(804)을 다운샘플링(808)하고, 그리고
    상기 손실된 오디오 프레임을 선행하는 오디오 프레임의 상기 다운샘플링된 시간 도메인 표현(808')을 사용하여 상기 시간 도메인 은닉(106, 500, 600, 809, 920)을 수행하고, 그리고
    상기 제2 오류 은닉 오디오 정보 성분(104, 512, 612, 811')을 얻기 위해 상기 시간 도메인 은닉(106, 500, 600, 809, 920)에 의해 제공된 은닉된 오디오 정보(809') 또는 상기 은닉된 오디오 정보의 후처리된 버전을 업샘플링(810)하여,
    상기 손실된 오디오 프레임을 선행하는 오디오 프레임을 완전히 나타내는 데 필요한 샘플링 주파수보다 더 작은 샘플링 주파수를 사용하여 상기 시간 도메인 은닉(106, 500, 600, 809, 920)이 수행되도록 구성되는,
    오류 은닉 유닛.
  27. 제26 항에 있어서,
    상기 오류 은닉 유닛은 상기 다운샘플링된 시간 도메인 표현(808')의 샘플링 레이트를 신호 적응적으로 조정함으로써 상기 제2 주파수 범위(1402)의 대역폭을 변경하도록 구성되는,
    오류 은닉 유닛.
  28. 제1 항 내지 제27 항 중 어느 한 항에 있어서,
    상기 오류 은닉 유닛은 댐핑 지수(damping factor)를 사용하여 페이드아웃을 수행하도록 구성되는,
    오류 은닉 유닛.
  29. 제1 항 내지 제28 항 중 어느 한 항에 있어서,
    상기 오류 은닉 유닛은 상기 제1 오류 은닉 오디오 정보 성분(103, 807')을 유도하기 위해, 상기 손실된 오디오 프레임을 선행하는 오디오 프레임의 스펙트럼 표현을 상기 댐핑 지수를 사용하여 스케일링(707)하도록 구성되는,
    오류 은닉 유닛.
  30. 제1 항 내지 제29 항 중 어느 한 항에 있어서,
    상기 오류 은닉 유닛은 상기 제2 오류 은닉 오디오 정보 성분(104, 512, 612, 811')을 얻기 위해 상기 시간 도메인 은닉(106, 500, 600, 809, 920)의 출력 신호(809'), 또는 상기 출력 신호의 업샘플링된 버전(810')을 저역 통과 필터링(811)하도록 구성되는,
    오류 은닉 유닛.
  31. 인코딩된 오디오 정보(210, 310, 410)를 기초로 하여, 디코딩된 오디오 정보(212, 312, 412)를 제공하기 위한 오디오 디코더(200, 300, 400)로서,
    상기 오디오 디코더는 제1 항 내지 제30 항 중 어느 한 항에 따른 오류 은닉 유닛을 포함하는,
    오디오 디코더.
  32. 제31 항에 있어서,
    상기 오디오 디코더는 오디오 프레임의 스펙트럼 도메인 표현의 인코딩된 표현을 기초로 상기 오디오 프레임의 스펙트럼 도메인 표현을 얻도록 구성되며, 상기 오디오 디코더는 상기 오디오 프레임의 디코딩된 시간 표현을 얻기 위해, 스펙트럼 도메인-시간 도메인 변환을 수행하도록 구성되고,
    상기 오류 은닉 유닛은 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 스펙트럼 도메인 표현, 또는 상기 스펙트럼 도메인 표현의 일부를 사용하여 상기 주파수 도메인 은닉(105, 704, 805, 910)을 수행하도록 구성되며,
    상기 오류 은닉 유닛은 상기 손실된 오디오 프레임을 선행하는 적절하게 디코딩된 오디오 프레임의 디코딩된 시간 도메인 표현을 사용하여 상기 시간 도메인 은닉(106, 500, 600, 809, 920)을 수행하도록 구성되는,
    오디오 디코더.
  33. 인코딩된 오디오 정보에서 오디오 프레임의 손실을 은닉하기 위한 오류 은닉 오디오 정보를 제공하기 위한 오류 은닉 방법으로서,
    주파수 도메인 은닉(105, 704, 805, 910)을 사용하여 제1 주파수 범위에 대한 제1 오류 은닉 오디오 정보 성분(103, 807')을 제공하는 단계(910),
    시간 도메인 은닉(106, 500, 600, 809, 920)을 사용하여 상기 제1 주파수 범위보다 더 낮은 주파수들을 포함하는 제2 주파수 범위에 대한 제2 오류 은닉 오디오 정보 성분(104, 512, 612, 811')을 제공하는 단계(920), 및
    상기 오류 은닉 오디오 정보를 얻기 위해 상기 제1 오류 은닉 오디오 정보 성분(103, 807')과 상기 제2 오류 은닉 오디오 정보 성분(104, 512, 612, 811')을 결합하는 단계(930)를 포함하는,
    오류 은닉 방법.
  34. 제33 항에 있어서,
    상기 방법은 상기 제1 주파수 범위 및 상기 제2 주파수 범위를 신호 적응적으로 제어하는 단계(905)를 포함하는,
    오류 은닉 방법.
  35. 제34 항에 있어서,
    상기 방법은 적어도 하나의 손실된 오디오 프레임에 대한 오류 은닉 오디오 정보를 얻기 위해 시간 도메인 은닉(106, 500, 600, 809, 920)만이 또는 주파수 도메인 은닉(105, 704, 805, 910)만이 사용되는 모드로 신호 적응적으로 스위칭하는 단계를 포함하는,
    오류 은닉 방법.
  36. 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때 제33 항 또는 제35 항에 따른 방법을 수행하기 위한,
    컴퓨터 프로그램.
  37. 입력 오디오 정보(1902)를 기초로 하여, 인코딩된 오디오 표현(1904)을 제공하기 위한 오디오 인코더(1900)로서,
    상기 입력 오디오 정보를 기초로 하여, 인코딩된 주파수 도메인 표현(1908)을 제공하도록 구성된 주파수 도메인 인코더(1906), 및/또는 상기 입력 오디오 정보를 기초로 하여, 인코딩된 선형 예측 도메인 표현(1922)을 제공하도록 구성된 선형 예측 도메인 인코더(1920); 및
    오디오 디코더(200, 300, 400) 측에서 사용될, 시간 도메인 오류 은닉(809)과 주파수 도메인 오류 은닉(805) 사이의 크로스오버 주파수를 정의하는 크로스오버 주파수 정보(1932)를 결정하도록 구성된 크로스오버 주파수 결정기(1930)를 포함하며;
    상기 오디오 인코더(1900)는 상기 인코딩된 주파수 도메인 표현(1908) 및/또는 상기 인코딩된 선형 예측 도메인 표현(1922) 그리고 또한 상기 크로스오버 주파수 정보(1932)를 상기 인코딩된 오디오 표현(1904)에 포함하도록 구성되는,
    오디오 인코더.
  38. 입력 오디오 정보를 기초로 하여, 인코딩된 오디오 표현을 제공하기 위한 방법(2000)으로서,
    상기 입력 오디오 정보를 기초로 하여, 인코딩된 주파수 도메인 표현을 제공하기 위한 주파수 도메인 인코딩 단계, 및/또는 상기 입력 오디오 정보를 기초로 하여, 인코딩된 선형 예측 도메인 표현을 제공하기 위한 선형 예측 도메인 인코딩 단계(2002); 및
    오디오 디코더 측에서 사용될, 시간 도메인 오류 은닉과 주파수 도메인 오류 은닉 사이의 크로스오버 주파수를 정의하는 크로스오버 주파수 정보를 결정하기 위한 크로스오버 주파수 결정 단계(2004)를 포함하며;
    상기 인코딩된 주파수 도메인 표현(1908) 및/또는 상기 인코딩된 선형 예측 도메인 표현(1922) 그리고 또한 상기 크로스오버 주파수 정보(1932)는 상기 인코딩된 오디오 표현(1904)에 포함되는,
    입력 오디오 정보를 기초로 하여, 인코딩된 오디오 표현을 제공하기 위한 방법.
  39. 인코딩된 오디오 표현(1904)으로서,
    오디오 콘텐츠를 나타내는 인코딩된 주파수 도메인 표현(1908), 및/또는 오디오 콘텐츠를 나타내는 인코딩된 선형 예측 도메인 표현(1922); 및
    오디오 디코더(200, 300, 400) 측에서 사용될, 시간 도메인 오류 은닉(809)과 주파수 도메인 오류 은닉(805) 사이의 크로스오버 주파수를 정의하는 크로스오버 주파수 정보(1932)를 포함하는,
    인코딩된 오디오 표현.
  40. 시스템(1900, 200, 300, 400, 800b)으로서,
    제37 항에 따른 오디오 인코더(1900);
    제31 항 또는 제32 항에 따른 오디오 디코더(200, 300, 400)를 포함하며,
    상기 오디오 디코더는 제6 항 내지 제12 항 중 어느 한 항 또는 제6 항 내지 제12 항 중 어느 한 항과 결합하여 제13 항 내지 제25 항 중 어느 한 항에 따른 오류 은닉 유닛(800b)을 포함하고;
    상기 제어(813)는 상기 오디오 인코더(1900)에 의해 제공된 크로스오버 주파수 정보(1932)를 기초로 상기 제1 주파수 범위 및 상기 제2 주파수 범위를 결정하도록 구성되는,
    시스템.
  41. 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때 제38 항에 따른 방법을 수행하기 위한,
    컴퓨터 프로그램.
KR1020187028987A 2016-03-07 2016-05-25 하이브리드 은닉 방법: 오디오 코덱들에서 주파수 및 시간 도메인 패킷 손실 은닉의 결합 KR102250472B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP16159031 2016-03-07
EP16159031.0 2016-03-07
PCT/EP2016/061865 WO2017153006A1 (en) 2016-03-07 2016-05-25 Hybrid concealment method: combination of frequency and time domain packet loss concealment in audio codecs

Publications (2)

Publication Number Publication Date
KR20180118781A true KR20180118781A (ko) 2018-10-31
KR102250472B1 KR102250472B1 (ko) 2021-05-12

Family

ID=55521559

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187028987A KR102250472B1 (ko) 2016-03-07 2016-05-25 하이브리드 은닉 방법: 오디오 코덱들에서 주파수 및 시간 도메인 패킷 손실 은닉의 결합

Country Status (11)

Country Link
US (1) US10984804B2 (ko)
EP (1) EP3427256B1 (ko)
JP (1) JP6718516B2 (ko)
KR (1) KR102250472B1 (ko)
CN (1) CN109155133B (ko)
BR (1) BR112018067944B1 (ko)
CA (1) CA3016837C (ko)
ES (1) ES2797092T3 (ko)
MX (1) MX2018010753A (ko)
RU (1) RU2714365C1 (ko)
WO (1) WO2017153006A1 (ko)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111402905B (zh) * 2018-12-28 2023-05-26 南京中感微电子有限公司 音频数据恢复方法、装置及蓝牙设备
JP7130878B2 (ja) * 2019-01-13 2022-09-05 華為技術有限公司 高分解能オーディオコーディング
WO2020165265A1 (en) * 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method for lc3 concealment including full frame loss concealment and partial frame loss concealment
WO2020164753A1 (en) * 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method selecting an error concealment mode, and encoder and encoding method
EP3928312A1 (en) * 2019-02-21 2021-12-29 Telefonaktiebolaget LM Ericsson (publ) Methods for phase ecu f0 interpolation split and related controller
CN110264860B (zh) * 2019-06-14 2021-05-11 长春理工大学 一种基于多膜系阵列的多谱段图像伪装方法
CN113035208B (zh) * 2021-03-04 2023-03-28 北京百瑞互联技术有限公司 一种音频解码器的分级错误隐藏方法、装置及存储介质
CN117524253B (zh) * 2024-01-04 2024-05-07 南京龙垣信息科技有限公司 针对网络音频丢包的低延迟修复和隐藏方法及其设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6301558B1 (en) * 1997-01-16 2001-10-09 Sony Corporation Audio signal coding with hierarchical unequal error protection of subbands
EP1684267A2 (en) * 2005-01-20 2006-07-26 STMicroelectronics Asia Pacific Pte Ltd. Method and system for lost packet concealment in audio streaming transmission
KR20130044194A (ko) * 2011-10-21 2013-05-02 삼성전자주식회사 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
US20140142957A1 (en) * 2012-09-24 2014-05-22 Samsung Electronics Co., Ltd. Frame error concealment method and apparatus, and audio decoding method and apparatus
KR20150021034A (ko) * 2012-06-08 2015-02-27 삼성전자주식회사 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3632213B2 (ja) 1993-06-30 2005-03-23 ソニー株式会社 信号処理装置
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
US7447631B2 (en) * 2002-06-17 2008-11-04 Dolby Laboratories Licensing Corporation Audio coding system using spectral hole filling
FR2852172A1 (fr) * 2003-03-04 2004-09-10 France Telecom Procede et dispositif de reconstruction spectrale d'un signal audio
SE527669C2 (sv) 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Förbättrad felmaskering i frekvensdomänen
WO2007018709A2 (en) * 2005-07-25 2007-02-15 Thomson Licensing Method and apparatus for the concealment of missing video frames
US8798172B2 (en) * 2006-05-16 2014-08-05 Samsung Electronics Co., Ltd. Method and apparatus to conceal error in decoded audio signal
KR20070115637A (ko) * 2006-06-03 2007-12-06 삼성전자주식회사 대역폭 확장 부호화 및 복호화 방법 및 장치
US8010352B2 (en) * 2006-06-21 2011-08-30 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
KR101292771B1 (ko) 2006-11-24 2013-08-16 삼성전자주식회사 오디오 신호의 오류은폐방법 및 장치
JP4708446B2 (ja) 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
JP5618826B2 (ja) * 2007-06-14 2014-11-05 ヴォイスエイジ・コーポレーション Itu.t勧告g.711と相互運用可能なpcmコーデックにおいてフレーム消失を補償する装置および方法
CN101939782B (zh) * 2007-08-27 2012-12-05 爱立信电话股份有限公司 噪声填充与带宽扩展之间的自适应过渡频率
RU2443028C2 (ru) * 2008-07-11 2012-02-20 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Устройство и способ расчета параметров расширения полосы пропускания посредством управления фреймами наклона спектра
US8532998B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Selective bandwidth extension for encoding/decoding audio/speech signal
US8718804B2 (en) * 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
JP5849106B2 (ja) * 2011-02-14 2016-01-27 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 低遅延の統合されたスピーチ及びオーディオ符号化におけるエラー隠しのための装置及び方法
CN103714821A (zh) * 2012-09-28 2014-04-09 杜比实验室特许公司 基于位置的混合域数据包丢失隐藏
KR102238376B1 (ko) * 2013-02-05 2021-04-08 텔레폰악티에볼라겟엘엠에릭슨(펍) 오디오 프레임 손실 은폐를 제어하기 위한 방법 및 장치
KR20140126095A (ko) 2013-04-22 2014-10-30 주식회사 케이티 분전함
SG11201510463WA (en) 2013-06-21 2016-01-28 Fraunhofer Ges Forschung Apparatus and method for improved concealment of the adaptive codebook in acelp-like concealment employing improved pitch lag estimation
PL3011555T3 (pl) 2013-06-21 2018-09-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Rekonstrukcja ramki sygnału mowy
KR101854296B1 (ko) * 2013-10-31 2018-05-03 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 시간 도메인 여기 신호를 변형하는 오류 은닉을 사용하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더 및 방법
PT3288026T (pt) * 2013-10-31 2020-07-20 Fraunhofer Ges Forschung Descodificador áudio e método para fornecer uma informação de áudio descodificada utilizando uma ocultação de erro baseada num sinal de excitação no domínio de tempo
US9564141B2 (en) * 2014-02-13 2017-02-07 Qualcomm Incorporated Harmonic bandwidth extension of audio signals
NO2780522T3 (ko) * 2014-05-15 2018-06-09
TWI602172B (zh) 2014-08-27 2017-10-11 弗勞恩霍夫爾協會 使用參數以加強隱蔽之用於編碼及解碼音訊內容的編碼器、解碼器及方法
KR101686462B1 (ko) 2015-02-11 2016-12-28 삼성에스디에스 주식회사 사용자 행동 패턴을 기반으로 한 웹페이지 생성 방법 및 활용 방법
WO2017153299A2 (en) * 2016-03-07 2017-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Error concealment unit, audio decoder, and related method and computer program fading out a concealed audio frame out according to different damping factors for different frequency bands

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6301558B1 (en) * 1997-01-16 2001-10-09 Sony Corporation Audio signal coding with hierarchical unequal error protection of subbands
EP1684267A2 (en) * 2005-01-20 2006-07-26 STMicroelectronics Asia Pacific Pte Ltd. Method and system for lost packet concealment in audio streaming transmission
KR20130044194A (ko) * 2011-10-21 2013-05-02 삼성전자주식회사 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
KR20150021034A (ko) * 2012-06-08 2015-02-27 삼성전자주식회사 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
EP2874149A1 (en) * 2012-06-08 2015-05-20 Samsung Electronics Co., Ltd. Method and apparatus for concealing frame error and method and apparatus for audio decoding
US20150142452A1 (en) * 2012-06-08 2015-05-21 Samsung Electronics Co., Ltd. Method and apparatus for concealing frame error and method and apparatus for audio decoding
US20140142957A1 (en) * 2012-09-24 2014-05-22 Samsung Electronics Co., Ltd. Frame error concealment method and apparatus, and audio decoding method and apparatus

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ETSI TS 126 447 V12.0.0, EVS Codec Error Concealment of Lost Packets, 3GPP TS 26.447 version 12.0.0 Release 12, 2014.10.* *
Nam In Park, et al. A packet loss concealment technique improving quality of service for wideband speech coding in wireless sensor networks. International Journal of Distributed Sensor Networks, 2014.* *

Also Published As

Publication number Publication date
JP2019511738A (ja) 2019-04-25
BR112018067944B1 (pt) 2024-03-05
US20190005967A1 (en) 2019-01-03
US10984804B2 (en) 2021-04-20
CN109155133B (zh) 2023-06-02
MX2018010753A (es) 2019-01-14
EP3427256B1 (en) 2020-04-08
BR112018067944A2 (pt) 2019-09-03
CN109155133A (zh) 2019-01-04
CA3016837A1 (en) 2017-09-14
RU2714365C1 (ru) 2020-02-14
JP6718516B2 (ja) 2020-07-08
CA3016837C (en) 2021-09-28
KR102250472B1 (ko) 2021-05-12
ES2797092T3 (es) 2020-12-01
WO2017153006A1 (en) 2017-09-14
EP3427256A1 (en) 2019-01-16

Similar Documents

Publication Publication Date Title
US10283124B2 (en) Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal
CA2984050C (en) Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal
KR102250472B1 (ko) 하이브리드 은닉 방법: 오디오 코덱들에서 주파수 및 시간 도메인 패킷 손실 은닉의 결합

Legal Events

Date Code Title Description
A201 Request for examination
AMND Amendment
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant