KR20180123686A - 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 특성을 사용하는 에러 은닉 유닛, 오디오 디코더, 및 관련 방법과 컴퓨터 프로그램 - Google Patents

적절히 디코딩된 오디오 프레임의 디코딩된 표현의 특성을 사용하는 에러 은닉 유닛, 오디오 디코더, 및 관련 방법과 컴퓨터 프로그램 Download PDF

Info

Publication number
KR20180123686A
KR20180123686A KR1020187028548A KR20187028548A KR20180123686A KR 20180123686 A KR20180123686 A KR 20180123686A KR 1020187028548 A KR1020187028548 A KR 1020187028548A KR 20187028548 A KR20187028548 A KR 20187028548A KR 20180123686 A KR20180123686 A KR 20180123686A
Authority
KR
South Korea
Prior art keywords
audio frame
error concealment
decoded
concealment unit
lost
Prior art date
Application number
KR1020187028548A
Other languages
English (en)
Other versions
KR102192999B1 (ko
Inventor
제레미 르콩트
아드리안 토마세크
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베.
Publication of KR20180123686A publication Critical patent/KR20180123686A/ko
Application granted granted Critical
Publication of KR102192999B1 publication Critical patent/KR102192999B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Detection And Prevention Of Errors In Transmission (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

인코딩된 오디오 정보에서 오디오 프레임의 손실을 은닉하기 위한 에러 은닉 오디오 정보(107)를 제공하기 위한 에러 은닉 유닛(100), 방법, 및 컴퓨터 프로그램을 제공된다. 일 실시예에서, 에러 은닉 유닛은 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임에 기초하여 손실된 오디오 프레임에 대한 에러 은닉 오디오 정보를 제공한다. 에러 은닉 유닛은 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 특성에 기초하여 감쇠 인자(103)를 도출한다. 에러 은닉 유닛은 감쇠 인자(103)를 사용하여 페이드 아웃(104)을 수행한다.

Description

적절히 디코딩된 오디오 프레임의 디코딩된 표현의 특성을 사용하는 에러 은닉 유닛, 오디오 디코더, 및 관련 방법과 컴퓨터 프로그램
본 발명에 따른 실시예는 인코딩된 오디오 정보에서 하나의 오디오 프레임 또는 더 많은 오디오 프레임의 손실을 은닉하기 위한 에러 은닉 오디오 정보를 제공하기 위한 에러 은닉 유닛을 생성한다.
본 발명에 따른 실시예는 인코딩된 오디오 정보에 기초하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더를 생성하며, 디코더는 에러 은닉 유닛을 포함한다.
본 발명에 따른 일부 실시예는 인코딩된 오디오 정보에서 오디오 프레임의 손실을 은닉하기 위한 에러 은닉 오디오 정보를 제공하는 방법을 생성한다.
본 발명에 따른 일부 실시예는 상기 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 생성한다.
일부 실시예는 주파수 도메인 오디오 코덱에 대한 적응적 감쇠 인자의 사용과 관련된다.
최근에, 오디오 컨텐츠의 디지털 송신 및 저장에 대한 요구가 증가하고 있다. 그러나, 오디오 컨텐츠는 종종 신뢰할 수 없는 채널을 통해 송신되며, 이는 (예를 들어, 인코딩된 표현, 예를 들어, 인코딩된 주파수 도메인 표현 또는 인코딩된 시간 도메인 표현의 형태로) 하나 이상의 오디오 프레임을 포함하는 데이터 유닛(예를 들어, 패킷)이 손실되어 위험을 가져온다. 일부 상황에서는 손실된 오디오 프레임(또는 하나 이상의 손실된 오디오 프레임을 포함하는 패킷과 같은 데이터 유닛)의 반복(재전송)을 요청할 수 있을 것이다. 그러나, 이는 통상적으로 상당한 지연을 가져올 것이고, 따라서 오디오 프레임의 광대한 버퍼링을 필요로 할 것이다. 다른 경우, 손실된 오디오 프레임의 반복을 요청하는 것이 거의 불가능하다.
오디오 프레임이 광대한 버퍼링(많은 양의 메모리를 소비하고 또한 오디오 코딩의 실시간 능력을 실질적으로 저하시킬 수 있음)을 제공하지 않고 손실되는 경우에, 양호하거나 또는 적어도 수용 가능한 오디오 품질을 획득하기 위해, 하나 이상의 오디오 프레임의 손실을 다루는 개념을 갖는 것이 바람직하다. 특히, 오디오 프레임이 손실되는 경우에도 양호한 오디오 품질 또는 적어도 수용 가능한 오디오 품질을 가져오는 개념을 갖는 것이 바람직하다.
과거에는, 상이한 오디오 코딩 개념에서 이용될 수 있는 일부 에러 은닉 개념이 개발되었다. 고급 오디오 코덱(advanced audio codec, AAC)의 종래의 은닉 기술은 노이즈 대체이다. 주파수 도메인에서 동작하며 노이즈가 많은 음악 아이템에 적합하다.
대체 프레임의 강도(또는 스펙트럼 값)를 감소시키기 위해 페이드 아웃(fade out) 기술도 개발되었다. 이러한 기술은 종종 대체 프레임을 미리 결정된 계수(감쇠 인자)로 스케일링하는 것에 기초한다. 보통, 감쇠 인자는 0과 1 사이의 값으로 표현된다; 감쇠 인자가 낮을수록, 페이드 아웃이 강해진다.
패킷 손실의 경우, 음성 및 오디오 코덱은 보통 짜증스러운 반복 아티팩트를 방지하기 위해 0 또는 배경 노이즈쪽으로 페이딩한다. 예를 들어, G.719 [1]에서, 합성된 신호는 인자 0.5로 점감적으로 스케일링되고, 그 다음에 현재의 프레임에 대한 재구성된 변환 계수로서 사용된다. [2]와 같은 모든 AAC 제품군 디코더의 경우, 추가 지연이 허용되지 않는 경우,
Figure pct00001
와 동일한 일정한 감쇠 인자로 은닉된 스펙트럼이 페이드 아웃된다. 이 감쇠 인자는 신호 특성에 관계없이 전체 스펙트럼에 적용된다.
그러나, 특히 음성 또는 일시적인 신호의 경우, 그러한 페이드 아웃 기술은 완전히 만족스럽지는 않다. 첫 번째 손실된 프레임이 단어 끝 부분 바로 뒤에 있을 때, 노이즈 대체는 이전의 적절히 디코딩된 오디오 프레임, 즉 단어가 끝난 프레임의 반복을 의미할 것이다: 음성의 무의미한 부분(정보가 없음)이 반복될 것이며, 이는 짜증스러운 사후 에코를 의미한다. 예를 들어, 도 11(에코가 있지 않은 경우)과 비교하여 도 10(에코가 있는 경우)을 참조한다. 도 10 및 도 11은 세로 좌표에 주파수를 그리고 가로 좌표에 시간을 나타낸다(100ms 또는 hms 단위).
이 에코는 적절히 디코딩된 오디오 프레임의 반복의 피할 수 없는 직접적인 결과이다.
이러한 기술적 장애를 극복하는 것이 바람직할 것이다. G.729.1 [3]과 EVS [4]는 신호 특성의 안정성에 좌우되는 적응적 페이드 아웃 기술을 제안한다. 페이드 아웃 인자는 마지막으로 양호하게 수신된 수퍼 프레임 클래스의 파라미터 및 연속적으로 지워진 수퍼 프레임의 수에 좌우된다. 인자는 UNVOICED 수퍼 프레임에 대한 LP 필터의 안정성에 따라 또한 달라진다(VOICED 프레임과 UNVOICED 프레임 사이의 분류가 수행됨). AAC-ELD [5]와 같은 AAC 디코더에서 이용 가능한 신호 특성이 없기 때문에, 코덱은 고정 인자로 맹목적으로 은닉된 신호를 감쇠시키며, 이는 전술한 짜증스러운 반복 아티팩트를 초래할 수 있다.
일부 조건에서는, 짜증스러운 아티팩트가 스펙트럼 표현의 홀(hole)에 의해 생성될 수 있다는 것이 밝혀졌다.
종래 기술의 장애 중 적어도 일부의 발생을 극복하거나 적어도 감소시키는 해결책이 필요하다.
본 발명의 실시예에 따르면, 인코딩된 오디오 정보에서 오디오 프레임의 손실을 은닉하기 위한 에러 은닉 오디오 정보를 제공하기 위한 에러 은닉 유닛이 제공된다. 에러 은닉 유닛은 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임에 기초하여 주파수 도메인 은닉을 사용하여 에러 은닉 오디오 정보를 제공하도록 구성된다. 에러 은닉 유닛은 상이한 주파수 대역에 대한 상이한 감쇠 인자에 따라 은닉된 오디오 프레임을 페이드 아웃하도록 구성된다.
본 발명의 실시예에 따르면, 인코딩된 오디오 정보에서 오디오 프레임의 손실을 은닉하기 위한 에러 은닉 오디오 정보를 제공하기 위한 에러 은닉 유닛이 또한 제공된다. 에러 은닉 유닛은 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임에 기초하여 손실된 오디오 프레임에 대한 에러 은닉 오디오 정보를 제공하도록 구성된다. 에러 은닉 유닛은 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 특성에 기초하여 하나 이상의 감쇠 인자를 도출하도록 구성될 수 있다. 에러 은닉 유닛은 감쇠 인자(들)를 사용하여 페이드 아웃을 수행하도록 구성된다.
따라서, 사후 에코 아티팩트에 의해 야기된 문제는 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 특성의 분석에 기초한 기술을 사용함으로써 극복될 수 있다는 것이 관찰되었다. 신호의 특성은 신호의 에너지에 대한 정확한 정보를 제공하는데, 이는 오디오 정보를 분류하고 이러한 분류에 따라 은닉된 오디오 프레임을 감쇠시키는 데 사용될 수 있다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 시간 도메인 표현의 특성에 기초하여 감쇠 인자를 도출하도록 구성될 수 있다.
예를 들어, 이전의 적절히 디코딩된 오디오 프레임이 단순히 그러한 시간 도메인 표현의 양태에 기초하여 단어 또는 음성의 끝(또는 일반적으로 시간의 경과에 따른 에너지의 감소)을 포함한다는 것을 인식하는 것이 가능하다. 또한, (시간 변조, 일시적인 특성, 및 다른 것과 같은) 디코딩된 오디오 프레임의 상이한 특징이 디코딩된 표현으로부터 양호한 정확성으로 도출될 수 있다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 디코딩된 시간 도메인 표현의 분석을 수행하고, 분석에 기초하여 감쇠 인자를 도출하도록 구성될 수 있다.
따라서, 디코딩된 시간 도메인 표현을 분석함으로써 감쇠 인자를 직접 도출하는 것이 가능하다. 디코딩된 표현을 분석하는 것은 통상적으로 디코딩의 입력 파라미터를 사용하여 신호의 특성을 추정하는 것보다 훨씬 정확하다. 이 경우, 분석은 인코더에서 행해지지 않는다.
대안적으로, 일부 신호 특성은 인코더에서 계산되고, 디코더가 감쇠 인자를 결정할 비트스트림으로 전송된다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 시간적 에너지 트렌드에 기초하여 감쇠 인자를 도출하도록 구성될 수 있다.
실제로, 에너지 트렌드를 분석함으로써 (잘못 수신된 프레임을 "대체할") 적절히 디코딩된 오디오 프레임의 성질을 결정할 수 있다는 것이 주목되었다. 음성(및 음악과 같은 다른 의도된 오디오 정보)은 일반적으로 노이즈보다 많은 에너지를 의미하므로, 프레임에서의 에너지의 감소는 단어의 종료의 발생의 지표로서 사용될 수 있다. 따라서, 이전에 적절히 디코딩된 오디오 프레임의 결정된 성질에 기초하여 오디오 정보를 상이하게 페이드 아웃하는 것이 가능하다. 상이한 성질의 프레임에 상이한 페이딩을 적용함으로써, 사후 에코 아티팩트의 발생을 감소시키는 것이 가능하다.
(시간 도메인 표현의 형태를 취할 수 있는) 디코딩된 표현은 인코딩된 표현보다 더 밀접하게 오디오 신호의 시간적 진화를 나타내고, 따라서 디코딩된 표현의 특성에 기초하여 하나의 감쇠 인자(또는 심지어 다수의 감쇠 인자)를 도출하는 것이 유리하다는 것을 알게 되었다(여기서 디코딩된 표현의 특성은 예를 들어 디코딩된 표현의 분석에 의해 도출될 수 있다).
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현 또는 그것의 가중된 버전의 제1 부분의 에너지를 컴퓨팅하고, 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현 또는 그것의 가중된 버전의 제2 부분의 에너지를 컴퓨팅하도록 구성될 수 있다. 디코딩된 표현의 제1 부분의 시작은 디코딩된 표현의 제2 부분의 시작에 시간적으로 선행하거나, 제1 부분의 시간 값의 평균은 제2 부분의 시간 값의 평균에 시간적으로 선행한다. 에러 은닉 유닛은 제1 부분의 에너지 및 제2 부분의 에너지에 따라 감쇠 인자를 컴퓨팅하도록 구성될 수 있다.
따라서, 에너지 트렌드(예를 들어, 에너지 트렌드 값에 의해 구체화됨)를 계산하는 것이 가능하다: 프레임의 시간적으로 이전의 부분이 프레임의 후속하는 부분보다 많은 에너지를 갖는다면, 음성의 끝(또는 일반적으로 시간의 경과에 따른 에너지의 감소)은 충분한 정도의 확실성으로 결정될 수 있다. 특히, 프레임의 제1 부분은 제2 부분을 포함할 수 있다(또는 그 반대의 경우도 마찬가지이다). 제1 부분의 시간의 평균은 제2 부분의 시간의 평균에 선행한다(예를 들어, 제1 부분의 중심은 제2 부분의 중심에 시간적으로 선행한다).
특히, 디코딩된 표현의 제2 부분은 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 샘플의 마지막 구간을 포함할 수 있다. 디코딩된 표현의 제1 부분은 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 모든 샘플, 또는 제2 부분에 중첩하는 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 샘플의 구간을 포함할 수 있어, 제1 부분의 샘플 중 적어도 일부가 제2 부분의 모든 샘플에 선행한다.
따라서, 본 발명의 실시예에 기초를 둔 이론적 근거 중 하나는 짜증스러운 반복 아티팩트는 대부분 손실된 프레임이 음성의 끝을 뒤따를 때 발생한다는 관찰에 기초한다: 무음 또는 노이즈를 재생하는 대신에, 단어의 단편이 쓸데없이 반복된다. 이것은 본 발명의 실시예가 예를 들어 마지막으로 적절히 디코딩된 오디오 프레임이 단어(또는 음성)의 끝, 또는 일반적으로 에너지 레벨이 급격하게 떨어지는 프레임에 뒤따르는 프레임이라는 것을 인식함으로써, 손실된 프레임(또는 연속하는 손실된 프레임의 시퀀스 중 첫 번째 프레임)이 단어(또는 음성)의 끝에 뒤따르는 프레임이라는 것을 인식하는 것에 기초하는 이유 중 하나이다.(프레임이 80ms와 같이 다소 긴 일부 경우에는, 프레임 손실이 에너지 쇠퇴 도중에 나타날지라도, 어떤 종류의 사후 에코가 있을 수 있다.)
감쇠 인자를 획득하기 위해,
- 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 끝 부분, 또는 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 스케일링된 버전의 끝 부분에서의 에너지, 및
- 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현, 또는 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 스케일링된 버전에서의 총 에너지 간의 몫을 컴퓨팅하는 것이 가능하다.
제1 부분은 프레임의 모든 샘플을 포함할 수 있지만, 제2 부분은 동일한 프레임의 두 번째 절반(또는 클레임의 두 번째 절반의 일부)의 샘플만을 포함할 수 있다; 제2 부분과 연관된 에너지와 관련된 값을 제1 부분(예를 들어, 전체 프레임)과 연관된 에너지와 관련된 값으로 나눔으로써, 값이 획득될 수 있다(제1 부분이 전체 프레임을 포함할 때, 값은 0과 1 사이일 수 있고, 백분율로 표현될 수 있다): 값(또는 백분율)이 낮을수록, 프레임이 단어의 끝(또는 시간의 경과에 따른 에너지의 상당한 감소)을 포함할 가능성이 크다.
일부 실시예에서, 0과 동일한 몫은 에너지가 제2 부분의 샘플에 존재하지 않는다는 것을 암시할 수 있는데, 이는 제2 부분의 샘플이 고유한 정보로서 "무음"을 전달함을 나타낸다.
일 실시예에 따르면, 시간적 에너지 트렌드(fac)는 공식
Figure pct00002
을 사용하여 계산될 수 있으며,
여기서 값 L은 샘플의 프레임 길이이고, xk는 샘플링된 신호 값에 기초한 값이고, wk는 가중치 인자이고, c는 0.5와 0.9 사이, 바람직하게는 0.6과 0.8 사이, 보다 바람직하게는 0.65와 0.75 사이, 더욱 더 바람직하게는 0.7의 값이다. 값 L은 샘플의 프레임 길이(예를 들어, 1024와 같은 수) 일 수 있고, xk는 샘플링된 신호 값일 수 있고, wk는 가중치 인자일 수 있고, c는 0.5와 0.9 사이, 바람직하게는 0.6과 0.8 사이, 보다 바람직하게는 0.65와 0.75 사이, 그리고 더욱 더 바람직하게는 0.7의 값일 수 있다.
특히,
Figure pct00003
은 (특히 윈도우에 의해 가중된) 프레임의 마지막 샘플의 적분 에너지(특히, 윈도우에 의해 가중됨)를 계속 고려할 수 있으며, 한편
Figure pct00004
는 전체 프레임에 연관된 적분 에너지를 나타낸다.
다음 조건을 검증하는 가중치 인자가 또한 계산될 수 있다:
Figure pct00005
적절한 가중치 인자는
Figure pct00006
임을 알게 되었으며,
여기서 d는 0.4와 0.6 사이, 바람직하게는 0.49와 0.51 사이, 보다 바람직하게는 0.499와 0.501 사이, 그리고 더욱 더 바람직하게는 0.5의 값이고; 여기서 h는 0.15와 0.25 사이, 바람직하게는 0.19와 0.21 사이, 보다 바람직하게는 0.199와 0.201 사이, 그리고 더욱 더 바람직하게는 0.2의 값이고; 여기서 g는 0.05와 0.15 사이, 바람직하게는 0.09와 0.11 사이, 그리고 보다 바람직하게는 0.1의 값이다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 이전의 은닉된 오디오 프레임에 대한 감쇠 인자를 감소시키고, 감소된 감쇠 인자를 사용하여 이전에 은닉된 오디오 프레임에 뒤따르는 적어도 하나의 후속하는 은닉된 오디오 프레임을 페이드 아웃하도록 구성될 수 있다.
이 해결책은 다수의 연속하는 프레임이 잘못 디코딩될 때 특히 유리하다. 이러한 방식으로, 오디오 신호가 적절히 감쇠될 것이다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 적어도 3개의 연속하는 은닉된 오디오 프레임에 대해 지수 함수적인 것을 초과하는 시간 쇠퇴에 따라 페이드 아웃을 수행하도록 구성될 수 있다.
페이드 아웃과 연관된 감쇠 인자에 대한 지수 함수적인 것을 초과하는 시간 쇠퇴가 바람직하고, 페이딩의 우아함과 오디오 정보의 강도를 감소시킬 필요성 사이의 양호한 절충을 획득하는 것을 허용한다는 것을 알게 되었다. 특히, 특히 적절한 쇠퇴는 이전의 감쇠 인자에 제2 연속하는 손실된 프레임에서 이전의 감쇠 인자에 0.9를, 제3 연속하는 손실된 프레임에서 0.75를, 제3 연속하는 손실된 프레임 대해 0.5를, 제4 및 제5 연속하는 손실된 프레임에서 0.2를 반복적으로 곱함으로써 획득된다는 것을 알게 되었다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 시간적 에너지 트렌드를 정량적으로 기술하는 에너지 트렌드 값을 결정하도록 구성될 수 있다. 에러 은닉 유닛은 또한 에너지 트렌드 값 또는 그것의 스케일링된 버전을 사용하여 감쇠 인자를 정의하도록 구성될 수 있다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 현재의 에너지 트렌드 값이 시간의 경과에 따른 비교적 작은 에너지 감소를 나타내는 미리 결정된 범위 내에 있으면, 현재의 에너지 트렌드 값보다 낮은 미리 결정된 값으로 감쇠 인자를 설정하도록 구성될 수 있다.
따라서, 시간적 에너지 트렌드가 1에 가깝다면(또는 적어도, (1/2)1/2일 수 있는 임계치보다 크다면), 적절히 디코딩된 오디오 프레임이 음성의 끝(또는 어쨌거나 에너지가 급격하게 감소하는 오디오 프레임이 아닌 것)을 포함하지 않는다는 것이 충분한 정도의 확실성으로 결정될 수 있다. 따라서, 고정된 감쇠 값을 사용하는 것이 가능하다.
본 발명의 일 양태에 따르면, 에러 은닉은 현재의 에너지 트렌드 값이 미리 결정된 범위 밖에 있고, 시간의 경과에 따른 비교적 큰 에너지 감소를 나타낸다면, 감쇠 인자가 현재의 에너지 트렌드 값과 동일하도록, 또는 달라지는 에너지 트렌드 값에 선형적으로 달라지도록 감쇠 인자를 결정하도록 구성될 수 있다.
따라서, 시간적 에너지 트렌드가 임계치(예를 들어, 1/21/2일 수 있음)보다 작으면, 적절히 디코딩된 오디오 프레임이 단어(또는 음성)의 끝을 포함한다는 것이 충분한 정도의 확실성으로 결정될 수 있다. 따라서, 감소된 감쇠 값을 사용하여 페이드 아웃을 가속화할 수 있으며, 따라서 본 발명에 따라 사후 에코를 피할 수 있다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은
- 바람직하게는 비트스트림 정보에 기초하여 또는 신호 분석에 기초하여, 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임이 노이즈와 같은 것으로 인식되면, 제2 미리 결정된 값(예를 들어,
Figure pct00007
일 수 있음)보다 작은 감쇠를 나타내는 제1 미리 결정된 값(예를 들어, 0.95 또는 0.97과 1 사이의 값일 수 있음)으로 감쇠 인자를 설정하고/하거나,
- 바람직하게는 비트스트림 정보에 기초하여 또는 신호 분석에 기초하여, 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임이 음성이 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임에서 끝나지 않는 음성과 같은 거라고 인식되면, 제2 미리 결정된 값으로 감쇠 인자를 설정하고/하거나,
- 바람직하게는 비트스트림 정보에 기초하여 또는 신호 분석에 기초하여, 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임이 음성이 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임에서 쇠퇴하거나 끝나는 음성과 같은 거라고 인식되면, 에너지 트렌드 값 또는 그것의 스케일링된 버전에 기초한 값으로 감쇠 인자를 설정하도록 구성될 수 있다.
(예를 들어, 프레임에서 끝나는 노이즈/음성, 계속되는 음성과 같이) 적절히 디코딩된 오디오 프레임을 분류함으로써, 3개의 상이한 페이딩이 수행될 수 있다:
-(노이즈에 대해 바람직한) 노이즈에 대한 작은 페이딩 또는 페이딩 없음;
-(짜증스러운 에코의 위험이 없는) 음성이 적절히 디코딩된 오디오 프레임에서 끝나지 않을 때 중간 페이딩;
- 음성이 적절히 디코딩된 오디오 프레임에서 종료될 때 강한 페이딩(따라서 짜증스러운 에코의 영향을 줄임).
에러 은닉은 상이한 다른 주파수 대역에 대해 상이한 감쇠 인자를 결정하도록 구성된다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 감쇠 인자가 손실된 오디오 프레임쪽으로 손실된 오디오 프레임에 선행하는 마지막으로 적절히 디코딩된 오디오 프레임의 끝 부분에서의 에너지 레벨의 시간적 진화의 외삽을 반영하도록 감쇠 인자를 도출하도록 구성된다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 손실된 오디오 프레임의 은닉된 스펙트럼 표현을 도출하기 위해 감쇠 인자를 사용하여 손실된 오디오 프레임에 선행하는 오디오 프레임의 스펙트럼 표현을 스케일링하도록 구성된다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 손실된 오디오 프레임의 은닉된 스펙트럼 표현을 도출하기 위해 감쇠 인자를 사용하여 손실된 오디오 프레임에 선행하는 오디오 프레임의 스펙트럼 표현을 스케일링하도록 구성된다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현을 획득하기 위해 스펙트럼 도메인-시간 도메인 변환을 수행하도록 구성된다.
본 발명의 실시예에 따르면, 인코딩된 오디오 정보에서 오디오 프레임의 손실을 은닉하는 에러 은닉 오디오 정보 방법이 제공되며, 방법은 다음의 단계:
- 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 특성에 기초하여 감쇠 인자를 도출하는 단계, 및
- 감쇠 인자를 사용하여 페이드 아웃을 수행하는 단계를 포함한다.
방법은 전술한 발명의 양태 중 임의의 것과 조합하여 사용될 수 있다.
본 발명의 실시예에 따라면, 컴퓨터 프로그램이 컴퓨터 상에서 실행될 때, 본 발명의 방법을 수행하고/하거나 전술한 본 발명의 제품 실시예를 제어하기 위한 컴퓨터 프로그램이 제공된다.
본 발명의 실시예에 따르면, 인코딩된 오디오 정보에 기초하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더가 제공되며, 오디오 디코더는 전술한 바와 같은 에러 은닉 유닛을 포함하거나 전술한 바와 같은 방법을 구현한다.
본 발명의 실시예에 따르면, 인코딩된 오디오 정보에서 오디오 프레임의 손실을 은닉하기 위한 에러 은닉 오디오 정보를 제공하는 에러 은닉 유닛이 제공되며, 여기서 에러 은닉 유닛은 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임에 기초하여 에러 은닉 오디오 정보를 제공하도록 구성된다. 에러 은닉 유닛은 상이한 주파수 대역에 대해 상이한 감쇠 인자를 사용하여 페이드 아웃을 수행하도록 구성된다.
오디오 프레임의 동일한 스펙트럼 표현의 상이한 대역에 상이한 감쇠 인자를 사용하는 것이 가능하다는 것을 알게 되었다. 따라서, 예를 들어 음성과 같은 (또는 거의 음성을 포함하는) 주파수 대역(또는 스펙트럼 빈(bin))보다는 노이즈와 같은 주파수 대역(또는 스펙트럼 빈)에 상이한 감쇠 인자를 적용하는 것이 가능하기 때문에, 스펙트럼 홀로 인한 짜증스러운 아티팩트의 발생을 피하는 것이 가능하다.
따라서, 감쇠 인자는 상이한 주파수 대역 또는 상이한 스펙트럼 빈의 신호 특성, 또는 상이한 주파수 대역 또는 스펙트럼 빈에서의 에너지의 시간적 진화에 적응될 수 있다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 스펙트럼 도메인 표현의 특성에 기초하여 감쇠 인자를 도출하도록 구성될 수 있다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 유성음 주파수 대역을 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 무성음 또는 노이즈와 같은 주파수 대역보다 빠르게 페이드 아웃시키기 위해 하나 이상의 감쇠 인자를 적응시키도록 구성될 수 있다.
각각의 주파수 대역(또는 스펙트럼 빈)에 대해 페이드 아웃을 적응시킴으로써, 최적의 페이딩 거동을 획득하는 것이 가능하다: 특히, 음성과 연관된 스펙트럼 대역은 노이즈와 연관된 스펙트럼 대역보다 빠르게 감쇠될 수 있으며, 따라서 오디오 디코딩된 정보를 듣는 사람의 짜증을 감소시킨다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 손실된 오디오 프레임에 선행하고 스펙트럼 빈당 비교적 높은 에너지를 갖는 적절히 디코딩된 오디오 프레임의 하나 이상의 주파수 대역을 손실된 오디오 프레임에 선행하고 스펙트럼 빈당 비교적 낮은 에너지를 갖는 적절히 디코딩된 오디오 프레임의 하나 이상의 주파수 대역보다 빠르게 페이드 아웃시키기 위해 하나 이상의 감쇠 인자를 적응시키도록 구성될 수 있다.
본 발명의 이론적 근거에 따르면, 스펙트럼 빈당 비교적 높은 에너지를 갖는 대역은 노이즈보다 많은 음성 정보를 포함할 것으로 예상된다. 따라서, 낮은 에너지(노이즈와 같은) 주파수 대역을 천천히 페이드 아웃하면서 이러한 음성 관련 대역의 감쇠를 증가시키는 것이 제안된다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 적어도 하나의 주파수 대역에 대해, 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임에서의 적어도 하나의 주파수 대역에 연관된 에너지 값과 임계치 사이의 비교에 기초하여, 감쇠 인자를 설정하도록 구성될 수 있다.
임계치와의 비교는 특히 결과가 음성 또는 노이즈 중 어느 일방과 관련된 정보를 전달할 것으로 예상되는 대역의 결정인 간단한(그러나 중요한) 테스트를 수행하는 것을 허용한다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 적어도 하나의 주파수 대역에 연관된 에너지 값이 임계치보다 낮으면 적어도 하나의 주파수 대역에 대해 미리 결정된 감쇠 인자를 사용하도록 구성될 수 있다. 에러 은닉 유닛은 적어도 하나의 주파수 대역에 연관된 에너지 값이 임계치보다 높으면 적어도 하나의 주파수 대역에 대해 미리 결정된 감쇠 인자보다 작은 감쇠 인자를 사용하도록 구성될 수 있다.
따라서, 높은 에너지 대역은 낮은 에너지 대역보다 빠르게 감쇠되고, 따라서 청취자의 짜증을 감소시킬 것이다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 적어도 하나의 주파수 대역에 연관된 에너지 값이 임계치보다 낮으면 적어도 하나의 주파수 대역에 대해 비교적 느린 페이드 아웃을 나타내는 감쇠 인자를 사용하도록 구성될 수 있다. 에러 은닉 유닛은 적어도 하나의 주파수 대역에 연관된 에너지 값이 임계치보다 높으면 적어도 하나의 주파수 대역에 대해 비교적 빠른 페이드 아웃을 나타내는 감쇠 인자를 사용하도록 구성될 수 있다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 적어도 하나의 주파수 대역에 연관된 에너지 값이 임계 값보다 낮으면 감쇠 인자를 미리 결정된 값으로 정의하도록 구성될 수 있다. 에러 은닉 유닛은 적어도 하나의 주파수 대역에 연관된 에너지 값이 임계 값보다 높으면, 적어도 하나의 주파수 대역과 관련된 에너지 값이 임계 값보다 낮은 경우보다 적어도 하나의 주파수 대역을 빠르게 페이드 아웃시키기 위해, 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 시간적 에너지 트렌드 값에 기초하여 적어도 하나의 주파수 대역에 대한 감쇠 인자를 도출하도록 구성될 수 있다.
낮은 에너지 대역보다 (음성과 관련이 있을 것으로 예상되는) 높은 에너지 대역을 빠르게 감쇠시키는 것이 가능할뿐만 아니라, 적절히 디코딩된 오디오 프레임의 진화에 따라 대역을 페이드 아웃시키는 것이 또한 가능하다. 예를 들어, 적절히 디코딩된 오디오 프레임의 에너지 진화가 후자가 단어(또는 음성)가 끝난 프레임인 것을 나타낸다면, 음성과 관련된 것으로 예상되는 보다 높은 에너지 대역의 감쇠를 증가시키는 것이 바람직하다. 따라서, 적절히 디코딩된 오디오 프레임이 단어의 끝을 포함할 때 짜증스러운 에코 아티팩트를 피할 수 있다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 상이한 주파수 대역에 대해 상이한 임계치를 정의하도록 구성될 수 있다.
예를 들어 빈이 많이 있지만 강도가 낮은 대역은 노이즈에 연관될 것으로 예상될 수 있다. 반대로, 높은 에너지를 갖는 대역은 음성에 연관될 것으로 예상될 수 있다. 따라서, 상이한 대역에 대해 상이한 임계치와 상이한 비교를 행함으로써 이러한 대역 간의 구분이 획득될 수 있다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 적어도 하나의 주파수 대역의 에너지 값, 또는 평균 에너지 값, 또는 예상되는 에너지 값에 기초하여 임계치를 설정하도록 구성될 수 있다.
예를 들어, 낮은 에너지를 갖는 대역은 노이즈에 연관될 것으로 예상될 수 있다. 반대로, 높은 에너지를 갖는 대역은 음성에 연관될 것으로 예상될 수 있다. 따라서, 각각의 대역에 대해, 대역의 에너지 값, 또는 평균 에너지 값, 또는 예상되는 에너지 값에 좌우되는 임계치를 선택함으로써 이들 대역 간의 구분이 획득될 수 있다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 에너지 값과 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 전체 스펙트럼에서의 스펙트럼 라인의 수 사이의 비율에 기초하여 임계치를 설정하도록 구성될 수 있다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 시간적 에너지 트렌드에 기초하여 임계치를 설정하도록 구성될 수 있다.
시간적 에너지 트렌드는 적절히 디코딩된 오디오 프레임이 단어의 끝이 프레임에 있는지 아닌지의 정보를 포함하는지 여부에 대한 정보를 포함할 수 있다. 짜증스러운 에코 아티팩트를 피하기 위해 단어의 끝을 포함하는 오디오 프레임에 뒤따르는 프레임을 보다 빠르게 감쇠시키는 것이 바람직하다. 따라서, 시간적 에너지 트렌드에 기초하여 임계치를 선택하는 것이 바람직할 수 있다. 적절히 디코딩된 프레임에서 종료되는 단어의 확률이 높을수록(에너지 트렌드가 0에 가까울수록), 임계치가 낮을수록, 대역의 감쇠가 빠르다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 공식
Figure pct00008
을 사용하여 i번째 주파수 대역에 대한 임계치를 설정하도록 구성될 수 있다.
값 nbOfLinesi는 i번째 주파수 대역에서의 라인의 수일 수 있고,
Figure pct00009
이다.
값 fac는 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임에서의 시간적 에너지 트렌드를 나타내는 양, 또는 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임에서의 시간적 에너지 트렌드를 나타내는 양으로부터 도출된 감쇠 값일 수 있다. 값 energytotal은 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 모든 주파수 대역에 걸친 총 에너지일 수 있다. 값 nbOfTotalLines는 손실된 오디오 프레임을 선행하여 적절히 디코딩된 오디오 프레임의 스펙트럼 라인의 총 수일 수 있다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 상이한 스케일 인자 대역에 대해 상이한 감쇠 인자를 사용하여 페이드 아웃을 수행하도록 구성될 수 있다. 역 양자화된 스펙트럼 값을 스케일링하기 위한 상이한 스케일 인자는 상이한 스케일 인자 대역과 연관될 수 있다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 손실된 오디오 프레임의 은닉된 스펙트럼 표현을 도출하기 위해 감쇠 인자를 사용하여 손실된 오디오 프레임에 선행하는 오디오 프레임의 스펙트럼 표현을 스케일링하도록 구성될 수 있다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 손실된 오디오 프레임의 은닉된 스펙트럼 표현을 도출하기 위해, 상이한 감쇠 인자를 사용하여 손실된 오디오 프레임에 선행하는 오디오 프레임의 스펙트럼 표현의 상이한 주파수 대역을 스케일링함으로써, 상이한 페이드 아웃 속도로 상이한 주파수 대역의 스펙트럼 값을 페이드 아웃시키도록 구성될 수 있다.
따라서, 음성과 같은 정보를 포함하는 대역이 노이즈를 포함하는 대역보다 감쇠되는 적당한 은닉을 획득하는 것이 가능하다.
본 발명의 일 양태에 따르면, 에러 은닉은
- 바람직하게는 비트스트림 정보에 기초하여 또는 신호 분석에 기초하여, 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임이 노이즈와 같은 것으로 인식되면, 제2 미리 결정된 값(예를 들어, 약 1/21/2)보다 작은 감쇠를 나타내는 제1 미리 결정된 값(예를 들어, 0.95와 1 사이)으로 주어진 주파수 대역에 연관된 감쇠 인자를 설정하고/하거나,
- 바람직하게는 비트스트림 정보에 기초하여 또는 신호 분석에 기초하여, 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임이 음성이 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임에서 끝나지 않는 음성과 같은 거라고 인식되면, 제2 미리 결정된 값으로 주어진 주파수 대역에 연관된 감쇠 인자를 설정하고/하거나,
- 바람직하게는 비트스트림 정보에 기초하여 또는 신호 분석에 기초하여, 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임이 음성이 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임에서 쇠퇴하거나 끝나는 음성과 같은 거라고 인식되면, 에너지 트렌드 값 또는 그것의 스케일링된 버전에 기초한 값으로 주어진 주파수 대역에 연관된 감쇠 인자를 설정하도록 구성될 수 있다.
예를 들어, 음성(또는 음악과 같은 의도된 오디오 정보)을 포함하는 정보와 노이즈를 포함하는 정보를 포함하는 대역을 구별하는 것이 가능하다. 의도된 오디오 정보를 포함하는 대역은 노이즈를 포함하는 대역보다 빠르게 감쇠될 수 있다. 이전에 디코딩된 오디오 프레임이 단어(또는 음성 또는 어쨌든 의도된 오디오 정보)의 끝을 포함하는 경우, 감쇠는 (예를 들어 감쇠 인자를 감소시킴으로써) 비교적 증가된다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 주어진 주파수 대역의 에너지를 임계치와 비교하도록 구성될 수 있다. 에러 은닉 유닛은 주어진 주파수 대역의 에너지가 임계치보다 크면, 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 시간적 에너지 트렌드에 기초하여 도출된, 주어진 주파수 대역에 대한 스케일링 인자를 제공하도록 구성될 수 있다. 에러 은닉 유닛은 바람직하게는 비트스트림 정보에 기초하여 또는 신호 분석에 기초하여, 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임이 노이즈와 같은 것으로 인식되면, 그리고 주어진 주파수 대역의 에너지가 임계치보다 작다면, 제2 미리 결정된 값보다 작은 감쇠를 나타내는 제1 미리 결정된 값으로 감쇠 인자를 설정하도록 구성될 수 있다. 에러 은닉 유닛은 바람직하게는 비트스트림 정보에 기초하여 또는 신호 분석에 기초하여, 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임이 노이즈와 같은 것이 아니라고 인식되면, 제2 미리 결정된 값으로 감쇠 인자를 설정하도록 구성될 수 있다.
본 발명의 일 양태에 따르면, 에러 은닉 유닛은 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현을 획득하기 위해 스펙트럼 도메인-시간 도메인 변환을 수행하도록 구성될 수 있다.
본 발명의 실시예는 또한 인코딩된 오디오 정보에서 오디오 프레임의 손실을 은닉하기 위한 에러 은닉 오디오 정보를 제공하는 방법에 관한 것이며, 방법은:
- 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임에 기초하여 에러 은닉 오디오 정보를 제공하는 단계; 및
- 상이한 주파수 대역에 대해 상이한 감쇠 인자를 사용하여 페이드 아웃을 수행하는 단계를 포함한다.
본 발명의 방법은 전술한 양태 중 하나 이상을 구현할 수 있다.
본 발명의 실시예는 또한 컴퓨터 프로그램이 컴퓨터상에서 실행될 때 본 발명의 방법들을 수행하기 위한 및/또는 전술한 제품 양태를 구현하기 위한 컴퓨터 프로그램에 관한 것이다.
본 발명의 실시예는 또한 전술한 바와 같은 에러 은닉 유닛을 포함하는 오디오 디코더에 관한 것이다.
오디오 디코더는 상이한 스케일 인자를 사용하여 손실된 오디오 프레임에 선행하는 오디오 프레임의 스펙트럼 표현의 상이한 스케일 인자 대역의 스펙트럼 값을 스케일링하도록 구성될 수 있다.
전술 한 양태는 서로 조합될 수 있다.
본 발명에 따른 실시예는 첨부된 도면을 참조하여 후속하여 설명될 것이며, 여기서:
도 1은 본 발명에 따른 은닉 유닛의 개략적인 블록도를 도시한다;
도 2는 본 발명의 실시예에 따른 오디오 디코더의 개략적인 블록 개략도를 도시한다;
도 3은 본 발명의 다른 실시예에 따른 오디오 디코더의 개략적인 블록 개략도를 도시한다;
도 4는 본 발명의 일 실시예에 따른 주파수 도메인 은닉의 개략적인 블록도를 도시한다;
도 5는 본 발명의 일 실시예에 따른 에너지 트렌드 값의 계산에 대한 특정예를 도시한다;
도 6은 본 발명의 실시예에 따른 에너지 트렌드를 계산하는 데 사용되는 프레임의 구획의 특정예를 도시한다;
도 7은 본 발명의 일 실시예에 따른 에너지 트렌드 값을 계산하는 데 사용되는 가중치("수정된 hann 윈도우")의 다이어그램을 도시한다;
도 8은 본 발명의 일 실시예에 따른 감쇠 인자를 계산하는 데 사용된 수단의 실시예를 도시한다;
도 9는 본 발명의 은닉하는 방법의 실시예를 도시한다;
도 10-11은 신호 다이어그램의 비교예를 도시한다;
도 12는 본 발명의 일 실시예에 따른 임계치의 정의의 예를 도시한다;
도 13은 신호 다이어그램의 비교예를 도시한다;
도 14-15는 본 발명의 일 실시예에 따른 감쇠 인자를 계산하는 데 사용된 수단의 실시예를 도시한다;
도 16은 본 발명의 은닉하는 방법의 실시예를 도시한다.
본 섹션에서는, 본 발명의 실시예가 도면을 참조하여 논의된다.
5.1 도 1에 따른 에러 은닉 유닛
도 1은 본 발명에 따른 에러 은닉 유닛(100)의 개략적인 블록도를 도시한다.
에러 은닉 유닛(100)은 인코딩된 오디오 정보에서 오디오 프레임의 손실을 은닉하기 위한 에러 은닉 오디오 정보(107)를 제공한다. 에러 은닉 유닛(100)은 적절히 디코딩된 오디오 프레임의 스펙트럼 버전(또는 표현)(101)과 같은 오디오 정보에 의해 입력된다. 또한, 에러 은닉 유닛(100)은 적절히 디코딩된 오디오 프레임(특히, 스펙트럼 값이 101로 입력된 것과 동일한 적절히 디코딩된 오디오 프레임)의 시간 도메인 버전(102)(또는 표현)과 같은 오디오 정보에 의해 입력된다. 사후 처리된 버전(102')이 시간 도메인 신호(102) 대신에 사용될 수 있다(이하에서는, 사후 처리된 버전(102')을 사용하여 본 발명을 구체화할 수 있음에도 불구하고, 간결성을 위해 시간 도메인 신호(102)만이 참조된다.)
에러 은닉 유닛(100)은 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현(102)의 특성에 기초하여 하나 이상의 감쇠 인자(103)를 도출하도록 구성된다.
에러 은닉 유닛(100)은 감쇠 인자(103)를 사용하여 페이드 아웃을 수행하도록 구성된다.
페이드 아웃의 예는 감쇠 인자(103)를 사용하여 적절히 디코딩된 오디오 프레임의 스펙트럼 버전(101)을 스케일링하기 위해 스케일러(104)에 의해 구현될 수 있다.
감쇠 인자 결정기(110)는 적절히 디코딩된 오디오 프레임의 시간 도메인 버전(102)에 기초하여 감쇠 인자(103)를 도출하도록 구현될 수 있다.
감쇠 인자 결정기(110)는 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 시간 도메인 표현(102)의 특성에 기초하여 감쇠 인자(103)를 도출할 수 있다.
에너지 트렌드 분석기(111)는 적절히 디코딩된 오디오 프레임(102)의 분석을 수행하는 데 사용될 수 있다. 일부 구현 예에 따르면, 프레임에서의 에너지 트렌드가 분석될 수 있다.
감쇠 인자 매퍼(mapper)(또는 계산기)(112)는 (예를 들어, 다수의 연속하는 잘못된 데이터 프레임이 획득되는 경우) 감쇠 인자를 스케일링하는 데 사용될 수 있다.
또한, 노이즈 가산기(117)에 의해, 은닉된 프레임의 주파수 도메인 표현(107)을 도출하기 위해, 주파수 도메인 표현(101)의 스케일링된 버전(105)에 노이즈가 임의적으로 가산될 수 있다.
에러 은닉 유닛(100)의 일 실시예에 따라면, 적절히 디코딩된 프레임의 스펙트럼 표현(101)은 임의적으로 상이한 대역으로 나누어질 수 있음에 주목한다; 스케일러(104)는 이 경우에, 각각의 대역에 하나씩 복수의 스케일 인자를 채택할 수 있다.
5.2 도 2에 따른 에러 은닉 유닛
도 2는 본 발명의 실시예에 따른 오디오 디코더(200)의 개략적인 블록 개략도를 도시한다. 오디오 디코더(200)는 예를 들어 주파수 도메인 표현으로 인코딩된 오디오 프레임을 포함할 수 있는 인코딩된 오디오 정보(210)를 수신한다. 인코딩된 오디오 정보(210)는 원칙적으로 신뢰할 수 없는 채널을 통해 수신되어 프레임 손실이 수시로 발생한다. 오디오 디코더(200)는 또한 인코딩된 오디오 정보(210)에 기초하여 디코딩된 오디오 정보(212)를 제공한다.
오디오 디코더(200)는 프레임 손실이 없는 경우에 인코딩된 오디오 정보에 기초하여 디코딩된 오디오 정보를 제공하는 디코딩/처리(220)를 포함할 수 있다.
오디오 디코더(200)는 에러 은닉 오디오 정보(232)를 제공하는 에러 은닉(230)(이는 에러 은닉 유닛(100)에 의해 구현될 수 있음)을 더 포함한다. 에러 은닉(230)은 오디오 프레임의 손실을 은닉하기 위한 에러 은닉 오디오 정보(232)(105, 107)를 제공하도록 구성된다.
다시 말해, 디코딩/처리(220)는 주파수 도메인 표현의 형태로, 즉 인코딩된 표현의 형태로 인코딩되는 오디오 프레임에 대한 디코딩된 오디오 정보(222)를 제공할 수 있으며, 그 인코딩된 표현의 값은 상이한 주파수 빈의 강도를 기술한다. 다르게 말하면, 디코딩/처리(220)는 예를 들어 주파수 도메인 오디오 디코더를 포함할 수 있으며, 주파수 도메인 오디오 디코더는 인코딩된 오디오 정보(210)로부터 스펙트럼 값의 세트를 도출하고, 주파수 도메인-시간 도메인 변환을 수행함으로써, 디코딩된 오디오 정보(222)를 구성하거나 추가적인 사후 처리가 있는 경우 디코딩된 오디오 정보(122)의 제공을 위한 기반을 형성하는 시간 도메인 표현을 도출한다.
또한, 오디오 디코더(200)는 다음에서 설명되는 특징 및 기능 중 임의의 것으로, 개별적으로 또는 조합하여 보충될 수 있음을 알 것이다.
에러 은닉(230)은 또한 일부 실시예에서 상이한 감쇠 인자로 상이한 대역을 페이드 아웃시킬 수 있다.
5.3 도 3에 따른 오디오 디코더
도 3은 본 발명의 실시예에 따른 오디오 디코더(300)의 개략적인 블록 개략도를 도시한다.
오디오 디코더(300)는 인코딩된 오디오 정보(310)를 수신하고 그에 기초하여 디코딩된 오디오 정보(312)를 제공하도록 구성된다. 오디오 디코더(300)는 ( "비트스트림 포맷해제기"또는 "비트스트림 파서"로도 지칭될 수도 있는) 비트스트림 분석기(320)를 포함한다. 비트스트림 분석기(320)는 인코딩된 오디오 정보(310)를 수신하고, 그것에 기초하여 주파수 도메인 표현(322) 및 가능하게는 추가적인 제어 정보(324)를 제공한다. 주파수 도메인 표현(322)은 예를 들어 인코딩된 스펙트럼 값(326), 인코딩된 스케일 인자(328), 및 임의적으로 예를 들어 노이즈 필링, 중간 처리, 또는 사후 처리와 같은 특정 처리 단계를 제어할 수 있는 추가적인 부가 정보(330)를 포함할 수 있다. 오디오 디코더(300)는 또한 인코딩된 스펙트럼 값(326)을 수신하고, 그것에 기초하여 디코딩된 스펙트럼 값 세트(342)를 제공하도록 구성된 스펙트럼 값 디코딩(340)을 포함한다. 오디오 디코더(300)는 인코딩된 스케일 인자(328)를 수신하고, 그것에 기초하여 디코딩된 스케일 인자(352)의 세트를 제공하도록 구성될 수 있는 스케일 인자 디코딩(350)을 또한 포함할 수 있다.
스케일 인자 디코딩 대신에, 예를 들어 인코딩된 오디오 정보가 스케일 인자 정보가 아니라 인코딩된 LPC 정보를 포함하는 경우에, LPC-스케일 인자 전환(354)이 사용될 수 있다. 그러나, 일부 코딩 모드에서 (예를 들어, EVS 오디오 디코더 또는 USAC 오디오 디코더의 TCX 디코딩 모드에서), LPC 계수의 세트가 오디오 디코더 측에서 스케일 인자 세트를 도출하는데 사용될 수 있다. 이 기능은 LPC- 스케일 인자 전환(354)에 의해 얻을 수 있다.
오디오 디코더(300)는 또한 스케일링된 인자 세트(352)를 스펙트럼 값 세트(342)에 적용함으로써 스케일링되고 디코딩된 스펙트럼 값 세트(362)를 획득하도록 구성될 수 있는 스케일러(360)를 포함할 수 있다. 예를 들어, 다수의 디코딩된 스펙트럼 값(342)을 포함하는 제1 주파수 대역은 제1 스케일 인자를 사용하여 스케일링될 수 있고, 다수의 디코딩된 스펙트럼 값(342)을 포함하는 제2 주파수 대역은 제2 스케일 인자를 사용하여 스케일링될 수 있다. 따라서, 스케일링되고 디코딩된 스펙트럼 값 세트(362)가 획득된다. 오디오 디코더(300)는 스케일링되고 디코딩된 스펙트럼 값(362)에 일부 처리를 적용할 수 있는 임의적인 처리(366)를 더 포함할 수 있다. 예를 들어, 임의적인 처리(366)는 노이즈 필링 또는 일부 다른 동작을 포함할 수 있다.
오디오 디코더(300)는 또한 스케일링되고 디코딩된 스펙트럼 값(362) 또는 그것의 처리된 버전(378)을 수신하고, 스케일링되고 디코딩된 스펙트럼 값 세트(362)와 연관된 시간 도메인 표현(372)을 제공하도록 구성되는 주파수 도메인-시간 도메인 변환(370)을 포함할 수 있다. 예를 들어, 주파수 도메인-시간 도메인 변환(370)은 오디오 컨텐츠의 프레임 또는 서브 프레임과 연관된 시간 도메인 표현(372)을 제공할 수 있다. 예를 들어, 주파수 도메인-시간 도메인 변환은 (스케일링되고 디코딩된 스펙트럼 값으로 간주될 수 있는) MDCT 계수 세트를 수신하고, 그것에 기초하여 시간 도메인 표현(372)을 형성할 수 있는 시간 도메인 샘플의 블록을 제공할 수 있다.
오디오 디코더(300)는 시간 도메인 표현(372)을 수신하고, 시간 도메인 표현(372)을 다소 수정함으로써, 시간 도메인 표현(372)의 사후 처리된 버전(378)을 획득할 수 있는 사후 처리(376)를 임의적으로 포함할 수 있다.
본 발명에 따르면, 오디오 디코더(300)는 (은닉 유닛(100 또는 230) 중 하나에 의해 구현될 수 있는) 에러 은닉(380)을 포함한다. 에러 은닉(380)은 (값(101)을 구현할 수 있는) 디코딩된 스펙트럼 값(362) 또는 그들의 포트 처리된 버전(368)을 수신한다.
에러 은닉 유닛(380)은 또한 주파수 도메인-시간 도메인 변환으로부터 (값(102)을 구현할 수 있는) 시간 도메인 표현(372) 또는 임의적인 사후 처리(376)로부터 (값(102')을 구현할 수 있는) 사후 처리된 값(378)을 수신한다. 그러나, 에러 은닉이 상이한 주파수 대역에 상이한 감쇠 인자를 적용하지만, 적절히 디코딩된 오디오 프레임의 디코딩된 표현에 기초하여 하나 이상의 감쇠 인자를 도출하지 않는 실시예에서는, 에러 은닉(380)이 신호(372, 378)를 수신할 필요가 없을 수 있다.
또한, 에러 은닉(380)은 하나 이상의 손실된 오디오 프레임에 대한 에러 은닉 오디오 정보(382)를 제공한다. 오디오 프레임이 손실되어, 예를 들어 인코딩된 스펙트럼 값(326)이 상기 오디오 프레임(또는 오디오 서브 프레임)에 대해 이용 가능하지 않으면, 에러 은닉(380)은 에러 은닉 오디오 정보를 제공할 수 있다. 에러 은닉 오디오 정보는 (주파수 도메인-시간 도메인 변환기(370)에 제공될 수 있는) 오디오 컨텐츠의 주파수 도메인 표현 또는 (신호 조합(390)에 제공될 수 있는) 오디오 컨텐츠의 시간 도메인 표현일 수 있다.
에러 은닉(380)은 예를 들어 전술된 에러 은닉 유닛(100) 및/또는 에러 은닉(230)의 기능을 수행할 수 있음을 알 것이다. 에러 은닉(380)은 시간 도메인 은닉 신호(382)를 신호 조합(390)에 출력하거나, 주파수 도메인 은닉 신호(382')를 주파수 도메인-시간 도메인 변환(370)으로 출력할 수 있다.
에러 은닉과 관련하여, 에러 은닉은 프레임 디코딩과 동시에 발생하지 않는다는 것을 알 것이다. 예를 들어, 프레임 n이 양호하면 정상적인 디코딩을 수행하고, 그 끝에서, 다음 프레임을 은닉해야 한다면, 도움이 되는 일부 변수를 저장하고, 그 다음에, 프레임 n+1이 손실되면, 은닉 기능을 호출하여 이전의 양호한 프레임에서 생기는 변수를 제공한다. 또한 다음 프레임 손실 또는 다음으로 양호한 프레임으로의 복구를 돕기 위해 일부 변수를 업데이트할 것이다.
오디오 디코더(300)는 또한 시간 도메인 표현(372)(또는 사후 처리(376)가 있는 경우 사후 처리된 시간 도메인 표현(378))을 수신하도록 구성된 신호 조합(390)을 포함한다. 또한, 신호 조합(390)은 통상적으로 또한 손실된 오디오 프레임에 제공된 에러 은닉 오디오 신호의 시간 도메인 표현인 에러 은닉 오디오 정보(382)를 수신할 수 있다. 신호 조합(390)은 예를 들어 후속하는 오디오 프레임과 연관된 시간 도메인 표현을 조합할 수 있다. 후속하는 적절히 디코딩된 오디오 프레임이 있는 경우에, 신호 조합(390)은 이들 후속하는 적절히 디코딩된 오디오 프레임과 연관된 시간 도메인 표현을 조합(예를 들어, 중첩 및 가산)할 수 있다. 그러나, 오디오 프레임이 손실되면, 신호 조합(390)은 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임과 연관된 시간 도메인 표현과 손실된 오디오 프레임과 연관된 에러 은닉 오디오 정보를 조합(예를 들어, 중첩 및 가산)함으로써, 적절히 수신된 오디오 프레임과 손실된 오디오 프레임 사이에 부드러운 전이를 가질 수 있다. 유사하게, 신호 조합(390)은 손실된 오디오 프레임과 연관된 에러 은닉 오디오 정보와 손실된 오디오 프레임에 뒤따르는 다른 적절히 디코딩된 오디오 프레임(다수의 연속하는 오디오 프레임이 손실된 경우, 다른 손실된 오디오 프레임과 연관된 다른 에러 은닉 오디오 정보)과 연관된 시간 도메인 표현을 조합(예를 들어, 중첩 및 가산)하도록 구성될 수 있다.
따라서, 신호 조합(390)은 시간 도메인 표현(372) 또는 그것의 사후 처리된 버전(378)이 적절히 디코딩된 오디오 프레임에 대해 제공되고, 에러 은닉 오디오 정보(382)가 손실된 오디오 프레임에 대해 제공되도록 디코딩된 오디오 정보(312)를 제공할 수 있으며, 여기서 중첩 및 가산 동작은 후속하는 오디오 프레임의(주파수 도메인-시간 도메인 변환(370)에 의해 제공되는지 또는 에러 은닉(380)에 의해 제공되는지에 관계없이) 오디오 정보 간에 통상적으로 수행된다. 일부 코덱은 제거될 필요가 있는 중첩 및 가산 부분에 대해 약간의 앨리어싱을 가지며, 임의적으로 중첩 가산을 수행하기 위해 생성한 프레임의 절반에 대해 약간의 인공적인 앨리어싱을 생성할 수 있다.
오디오 디코더(300)의 기능은 도 2에 따른 오디오 디코더(200)의 기능과 유사하다는 것을 알 것이다. 또한, 도 3에 따른 오디오 디코더(300)는 본 명세서에 설명된 특징 및 기능 중 임의의 것에 의해 보충될 수 있음을 알 것이다. 특히, 에러 은닉(380)은 에러 은닉과 관련하여 본 명세서에서 설명된 특징 및 기능 중 임의의 것으로 보충될 수 있다.
일 실시예에서, 에러 은닉(380)은 예를 들어 도 14를 참조하여 아래에 설명된 바와 같이 스케일 인자 대역에 대한 은닉을 수행할 수 있다. 이 경우에, 감쇠 인자는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 특성에 기초하여 제공되거나 제공되지 않을 수 있다.
5.4 주파수 도메인 에러 은닉 및 페이드 아웃
본 명세서에서, 에러 은닉 유닛(100)에 의해 구현되거나 사용될 수 있는 주파수 도메인 은닉에 관한 일부 정보가 제공된다. 예를 들어, 아래에서 설명되는 기능은 스케일러(104)에서 부분적으로 또는 전체적으로 획득될 수 있다.
주파수 도메인 은닉 기능은 하나의 프레임만큼 디코더의 지연을 증가시킨다.
주파수 도메인 은닉은 예를 들어 최종 주파수-시간 전환 직전의 스펙트럼 데이터에 작용한다. 단일 프레임이 손상된 경우에, 은닉은 누락된 프레임에 대한 스펙트럼 데이터를 생성하기 위해 마지막(또는 마지막 중 하나) 양호한 프레임(적절히 디코딩된 오디오 프레임)과 첫 번째 양호한 프레임 사이를 보간할 수 있다. 이전의 프레임은 주파수 - 시간 전환(예를 들어, 주파수 도메인-시간 도메인 변환(370))에 의해 처리될 수 있다. 다수 프레임이 손상되었다면, 은닉은 마지막으로 양호한 프레임으로부터 약간 수정된 스펙트럼 값에 따라 먼저 페이드 아웃을 구현한다. 양호한 프레임이 이용 가능하자마자, 은닉은 새로운 스펙트럼 데이터에서 페이드된다.
주파수 도메인 은닉이 도 4에 도시되어 있다. 단계(401)에서, (예를 들어, CRC 또는 유사한 전략에 기초하여) 현재의 오디오 정보가 적절히 디코딩된 프레임을 포함하는지가 결정된다. 결정의 결과가 긍정적이면, 402에서 적절히 디코딩된 프레임의 스펙트럼 값이 적절한 오디오 정보로서 사용된다. 스펙트럼은 또한 추후 사용을 위해 버퍼(403)에 기록된다.
결정의 결과가 부정적(손상된 프레임)이면, 단계(404)에서, (이전의 사이클에서 단계(403)에서 버퍼에 저장된) 이전의 적절히 디코딩된 오디오 프레임의 이전에 기록된 스펙트럼 표현(405)이 사용되어 손상된 (그리고 폐기된) 오디오 프레임을 "대체한다".
특히, 복사기 및 스케일러(407)는 이전의 적절히 디코딩된 오디오 프레임의 이전에 기록된 적절히 디코딩된 스펙트럼 표현(405)의 주파수 범위에 있는 주파수 빈(또는 스펙트럼 빈)(405a, 405b, …의 스펙트럼 값을 복사하고 스케일링하여, 손상된 오디오 프레임 대신에 사용될 주파수 빈(또는 스펙트럼 빈(406a, 406b, …의 값을 획득한다.
스펙트럼 값 각각은 대역에 의해 전달되는 특정 정보에 따라 공통 스케일링 값 또는 각각의 계수(또는 감쇠 인자)가 곱해질 수 있다. 또한, 임의적으로 노이즈가 스펙트럼 값(406)에 부가될 수 있다.
또한, 하나 이상의 감쇠 인자(410)가 연속적인 은닉의 경우에 신호를 감쇠시켜 신호의 강도를 반복적으로 감소시키는 데 사용될 수 있다.
특히, 일부 실시예에서, 상이한 대역(예를 들어, 스케일 인자 대역)을 상이하게 감쇠시키기 위해 상이한 감쇠 인자(410)가 임의적으로 사용될 수 있다.
결론적으로, 복사기 및 스케일러(407)는 스케일러(104)를 구현할 수 있고, 단계(404)는 임의적으로 노이즈 삽입 기(107)의 기능을 또한 포함할 수 있다.
5.5 적절히 디코딩된 오디오 프레임의 시간적 에너지 트렌드의 분석
본 발명의 실시예에 따르면, 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 시간 도메인 표현(예를 들어, 102, 102', 372, 378)의 특성에 기초하여 (예를 들어, 110, 230, 380, 또는 404에서) 감쇠 인자를 도출하는 것이 가능하다.
도 5는 분석기(111)를 구현할 수 있는 에너지 트렌드 분석기(500)의 예를 도시한다. 에너지 트렌드 분석기(500)는 적절히 디코딩된 오디오 프레임의 시간 도메인 표현의 샘플이 저장되는 메모리 부분(예를 들어, 버퍼)(501)을 포함한다. 일부 실시예에 따르면 샘플의 수는 1024일 수 있다. 버퍼의 각각의 필드는 하나의 샘플의 값을 저장한다.
제1 부분(502)은 특정 개수의 샘플 또는 모든 샘플에 의해 형성될 수 있다. 제2 부분(503)은 특정 개수의 샘플, 예를 들어 샘플의 마지막 30%(예를 들어, 1024개 중 약 307개의 샘플), 또는 프레임의 두 번째 절반의 샘플의 서브 세트에 의해 형성될 수 있다. 제1 부분(502)의 시간의 평균은 제2 부분(503)의 시간의 평균에 선행한다. 제1 부분(502)의 중요한 개수의 샘플은 제2 부분(503)의 샘플의 대부분에 선행할 수 있다.
504에서, 제2 부분(503)의 에너지에 관련된 (또는 제2 부분(503)의 에너지를 나타내는) 값(504')이 계산될 수 있다. 또한, 가중치 블록(506)에 의해 획득된 가중치 값(507)이 또한 제2 부분(503)에 적용될 수 있다. 예를 들어, 에너지 트렌드 계산기는 (예를 들어, 차이 또는 몫을 컴퓨팅함으로써) 에너지 트렌드 값을 도출하기 위해 값(504', 505')을 포함할 수 있다.
505에서, 제1 부분(505)의 에너지와 관련된 값(505')이 계산될 수 있다.
에너지 트렌드 계산기(508)는 에너지 트렌드 값(509)을 획득하기 위해 사용될 수 있으며, 예를 들어 감쇠 인자를 계산하기 위해 사용될 수 있다.
일부 실시예에 따르면, 적절히 디코딩된 오디오 프레임의 주파수 도메인 표현의 상이한 스펙트럼 대역에 대해 상이한 감쇠 인자를 사용하도록 은닉이 수행되더라도, 에너지 트렌드 값은 동일한 프레임의 상이한 대역에 대해 달라지지 않는다. 오히려, 단일 에너지 트렌드 값이 주어진 프레임에 대해 컴퓨팅될 수 있다.
5.6 프레임의 제1 부분 제2 부분
(예를 들어, 에너지 트렌드 값의 계산을 위해) 프레임의 제1 부분 및 제2 부분을 획득하기 위해 (또는 선택하기 위해), 몇 가지 전략이 사용될 수 있다.
도 6a는 제1 부분(502)이 샘플의 처음 구간에 의해 형성되는 반면, 제2 부분(503)은 프레임의 모든 샘플을 포함하는 것을 도시한다. 대안적인 실시예에서, 제1 부분은 프레임의 처음 구간에서만 취해진 샘플의 그룹에 의해 형성되고, 한편 제2 부분은 (처음 구간뿐만 아니라) 전체 프레임 전반에 걸쳐 취해진 샘플의 그룹에 의해 형성된다.
도 6b는 제1 부분(502)이 프레임의 샘플을 모두(또는 거의 모두) 포함하고, 한편 제2 부분(503)이 샘플의 최종 구간(또는 그룹)에 의해 형성되는 것을 도시한다. 예를 들어, 제1 부분(502)은 1024개의 샘플을 포함할 수 있고, 제2 부분(503)은 샘플의 마지막 30%만을 포함할 수 있다.
도 6c는 제1 부분(502)이 프레임의 처음 샘플을 포함하고, 한편 제2 부분(503)이 샘플의 최종 구간(또는 그룹)을 포함하는 것을 도시한다.
도 6d는 제1 부분의 샘플의 대부분(또는 커다란 그룹)이 제2 부분의 샘플의 대부분(또는 커다란 그룹)에 선행하도록, 제1 부분 및 제2 부분이 2개의 상이한 구간(또는 2개의 상이한 구간으로부터만 취해진 샘플의 그룹)인 실시예를 도시한다.
샘플 각각이 시간 t0, t1, t2 … tL에 연관되고 (각각 t0 및 tL은 프레임의 첫 번째 및 마지막 샘플 인스턴트, 예를 들어, 프레임의 첫 번째 및 1024번째 샘플임), 프레임의 일부분이 일반적으로 인스턴트 kinitial에서 시작하여 인스턴트 kfinal에서 종료하는 시간 인스턴트의 구간에 의해 형성되면, 제1 구간의 시간의 평균은
Figure pct00010
에 의해 제공된다.
예를 들어, 도 6a의 제2 부분(503)의 시간의 평균 및 도 6b의 제1 부분(502)의 시간의 평균은 정확히 프레임의 중간에 있다.
도 6(b)의 실시예는 바람직한 실시예로 고려되며, 다음 단락에서 참조될 것이다.
5.7 시간적 에너지 트렌드
시간적 에너지 트렌드 값(예를 들어, 509)은 공식
Figure pct00011
을 사용하여 (예를 들어, 트렌드 계산기(508)에서) 계산될 수 있으며,
여기서 L은 샘플에서 (예를 들어, 적절히 디코딩된 오디오 프레임의) 프레임 길이이고, xk는 샘플링된 신호 값(예를 들어, 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 값)이고, wk는 가중치 인자이고, c는 0.5과 0.9 사이, 바람직하게는 0.6과 0.8 사이, 보다 바람직하게는 0.65와 0.75 사이, 그리고 더욱 더 바람직하게는 0.7의 값이다.
Figure pct00012
은 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 제2 부분의 적분 에너지(예를 들어, 최종 구간)를 계속 고려한다;
Figure pct00013
은 적절히 디코딩된 오디오 프레임의 제1 부분(이 경우,도 6(b)에 표시된 전체 프레임)에 관련된 적분 에너지를 계속 고려한다.
오디오 프레임의 제1 부분과 제2 부분을 도 6(b)와 같이 정의함으로써, 시간적 에너지 트렌드 값 fac는 0과 1 사이의 값이다. 그 경우에, 시간적 에너지 트렌드 fac는 백분율을 의미할 수 있다: 모든 에너지가 프레임의 마지막 구간에 분포되면, 에너지 트렌드의 백분율은 100%일 것이다. 모든 에너지가 프레임의 시작 부분에 분포되면, 에너지 트렌드는 0%일 것이다.
다음 조건을 검증하는 가중치 인자는 또한 다음의 방정식
Figure pct00014
을 확인하여 계산될 수 있다.
적절한 가중치 인자는
Figure pct00015
임을 알게 되었으며,
여기서 d는 0.4와 0.6 사이, 바람직하게는 0.49와 0.51 사이, 보다 바람직하게는 0.499와 0.501 사이, 그리고 더욱 더 바람직하게는 0.5의 값이고; 여기서 h는 0.15와 0.25 사이, 바람직하게는 0.19와 0.21 사이, 보다 바람직하게는 0.199와 0.201 사이, 그리고 더욱 더 바람직하게는 0.2의 값이고; 여기서 g는 0.05와 0.15 사이, 바람직하게는 0.09와 0.11 사이, 그리고 보다 바람직하게는 0.1의 값이다.
다시 말해, 윈도우 값 wk이 정규화될 수 있다.
도 7은 가중치 인자의 그래픽 표현(700)을 나타낸다.
에너지 트렌드 값은 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 시간적 에너지 트렌드를 정량적으로 설명한다. 그 값 또는 그것의 스케일링된 (또는 제한된) 버전은 감쇠 인자(예를 들어, 103 또는 410)를 정의하는 데 사용될 수 있다.
5.8.1 감쇠 인자의 계산
도 8a는 계산기(112)를 구현할 수 있는 감쇠 인자 계산기(800)의 예를 도시한다. 블록(804)에서, 에너지 트렌드 값(801)(예를 들어, 509)은 임계치(802)와 비교된다. 감쇠 인자(803)(값(103 또는 410)을 구현할 수 있음)가 획득된다.
감쇠 인자(803)는 현재의 에너지 트렌드 값이 시간의 경과에 따른 비교적 작은 에너지 감소를 나타내는 미리 결정된 범위 내에 있는 경우, (예를 들어, 에너지 트렌드 값과 비교할 때 더 시간의 경과에 따른 큰 감쇠 또는 에너지 감소를 나타내는) 현재의 에너지 트렌드 값보다 낮은 미리 결정된 값으로 (예를 들어, 블록(804)에 의해) 설정될 수 있다.
감쇠 인자(803)는 또한 현재의 에너지 트렌드 값(801)과 동일하게 설정될 수 있거나, 현재의 에너지 트렌드 값(801)이 미리 결정된 범위 밖에 있고, 시간의 경과에 따라 비교적 큰 에너지 감소를 나타낸다면, 가변 에너지 트렌드 값(801)에 따라 선형 적으로 달라질 수 있다.
특히, 상이한 대역에 대해 상이한 감쇠 인자가 정의되는 경우, 적절히 디코딩된 오디오 프레임의 각각의 대역에 대해 상이한 감쇠 인자(803)가 획득될 수 있다. 예를 들어, 상이한 임계치(802)가 각각의 주파수 대역에 대해 정의될 수 있다.
도 8b는 추가적인 예로서, 에너지 트렌드 값(예를 들어, 509 또는 801)을 사용하여 이행된 감쇠 인자의 결정(810)을 도시한다. 811에서, 에너지 트렌드 값의 분석이 수행된다. 분석은 전술한 예 중 하나에 따라 시간적 에너지 트렌드 값을 계산하는 것을 고려할 수 있다.
적절히 디코딩된 오디오 프레임이 대부분 노이즈를 포함하는 것으로 인식되면, 예를 들어 0.98 또는 1로 감쇠 인자를 정의함으로써, 812에서 작은 감쇠(또는 전혀 감쇠 없음)이 수행된다.
적절히 디코딩된 오디오 프레임이 대부분 음성을 포함하지만, 단어가 적절히 디코딩된 오디오 프레임에서 종료되지 않는다고 (또는 에너지 트렌드 값이 시간의 경과에 따라 비교적 작은 에너지 감소를 나타낸다고) 인식되면, 예를 들어 감쇠 인자 0.7071을 정의함으로써 813에서 감소된 (중간) 감쇠가 수행된다.
적절히 디코딩된 오디오 프레임이 동일한 프레임에서 종료하는 음성을 포함한다고 (또는 에너지 트렌드 값이 적절히 디코딩된 오디오 프레임에서 상당한 에너지 감소를 나타낸다고) 인식되면, 빠른 감쇠가 814에서 수행된다. 시간적 에너지 트렌드 값이 상기와 같이 계산되는 경우(그리고 프레임의 제1 및 제2 부분이 도 6(b)의 실시예와 유사하게 정의되는 경우), 감쇠 인자(803)를 에너지 트렌드 값(801)(또는 509)의 동일한 값(또는 스케일링된 값)으로 정의하는 것도 가능하다.
기본적으로, 감쇠 인자가 손실된 오디오 프레임쪽으로 손실된 오디오 프레임에 선행하는 마지막으로 적절히 디코딩된 오디오 프레임의 끝 부분에 에너지 레벨의 시간적 진화의 외삽을 반영하는 실시예를 수행하는 것이 가능하다.
특히, 상이한 대역에 대해 상이한 감쇠 인자가 정의될 대, 적절히 디코딩된 오디오 프레임의 각각의 대역에 대해 단계(811 -814)가 수행될 수 있다.
5.8.2 감쇠 인자의 쇠퇴
다수의 연속하는 프레임이 손실되는 경우에, 감쇠 인자가 예를 들어 지수 함수적인 것을 초과하는 쇠퇴에 뒤이어 쇠퇴되도록 에러 은닉 유닛을 구성하는 것이 가능하다.
도 8c는 스케일러(807)가 감쇠 인자(803)의 스케일링된 버전(803')을 제공하는 도 8a의 변형 예를 도시한다. 비교 블록(804)이 에너지 트렌드 값(801)을 임계치(802)와 비교함으로써 동작하는 동안, 감쇠 인자(803)는 버퍼(804)에 기억된다. 2개의 연속하는 프레임이 손실되면, 제2 손실된 프레임 또는 일반적으로 후속하는 프레임 또는 현재의 프레임에 대한 감쇠 인자를 획득하기 위해, 버퍼(804)에 기억된 (제1 손실된 프레임 또는 이전의 프레임에 대해 사용된) 감쇠 인자에 룩업 테이블(805)에 포함된 인자가 곱해진다.
연속하는 프레임 손실의 경우, 현재의 프레임의 감쇠 인자 fac는 이전의 프레임의 감쇠 인자 fac-1에 좌우될 수 있다:
Figure pct00016
여기서 nbLost는 연속하는 손실된 프레임 수이다. 이는 인해 빠른 페이드 아웃으로 인한 사후 에코가 줄어들게 한다.
특히, 상이한 감쇠 인자가 상이한 대역에 대해 정의될 때, 상이한 쇠퇴가 상이한 주파수 대역에 적용될 수 있다.
5.9 발명의 방법
도 9a는 인코딩된 오디오 정보에서 오디오 프레임의 손실을 은닉하기 위한 에러 은닉 오디오 정보를 제공하는 에러 은닉 방법(900)을 도시하며, 이는 다음의 단계:
- 910에서, 손실된 오디오 프레임에 선행하는 (예를 들어, 501에 포함된) 적절히 디코딩된 오디오 프레임의 디코딩된 표현(예를 들어, 102)의 특성에 기초하여 감쇠 인자(예를 들어, 감쇠 인자(103, 803 또는 803')를 도출하는 단계, 및
- 920에서, 감쇠 인자를 사용하여 (예를 들어, 811-814) 페이드 아웃을 수행하는 단계를 포함한다.
도 9b는 적절히 디코딩된 오디오 프레임의 에너지 트렌드 값이 분석되는 단계(905)가 단계(910) 전에 수행되는 변형예(900b)를 도시한다.
특히, 상이한 대역에 대해 상이한 감쇠 인자가 정의될 때, 방법은 적절히 디코딩된 오디오 프레임의 상이한 대역에 대해 (예를 들어, 반복에 의해) 반복된다.
6. 본 발명의 실시예의 동작 및 실험 결과
이는 본 발명에 따른 은닉된 프레임을 페이드 아웃시키기 위한 것이다.
도 10은 숫자 1002 및 1003으로 표시된 일부 프레임이 종래 기술로 은닉된 신호의 스펙트럼 뷰를 갖는 다이어그램(1000)을 도시한다. 이전의 적절히 디코딩된 프레임에서 음성은 종료되었지만, 짜증스러운 에코는 인위적으로 해석된다.
특히 음성이나 일시적인 신호의 경우, 정적 감쇠 인자로는 충분하지 않다. 예를 들어, 첫 번째 손실된 프레임이 단어 끝 직후라면, 이는 짜증스러운 사후 에코를 초래할 것이다(왼쪽 도면 아래 참조). 이를 방지하기 위해, 감쇠 인자가 현재의 신호에 대해 적응되어야 한다. G.729.1 [3] 및 EVS [4]에 따르면, 신호 특성의 안정성에 좌우되는 적응적 페이드 아웃 기술이 제안된다. 따라서, 인자는 마지막으로 양호하게 수신된 수퍼 프레임 클래스의 파라미터 및 연속적으로 지워진 수퍼 프레임의 수에 좌우된다. 인자는 또한 UNVOICED 수퍼 프레임에 대한 LP 필터의 안정성에 좌우된다. AAC-ELD [5]와 같은 AAC 디코더에서 이용 가능한 신호 특성이 없기 때문에, 코덱은 고정 인자로 맹목적으로 은닉된 신호를 감쇠시키며, 이는 전술한 짜증스러운 반복 아티팩트를 초래할 수 있다.
일 실시예에서의 문제를 해결하기 위해, 첫 번째 손실된 프레임에 대한 새로운 감쇠 인자 fac를 계산하기 위해 (예를 들어, 적절히 디코딩된 오디오 프레임의) 마지막으로 합성된 양호한 프레임 x의 시간적 에너지 트렌드 값이 관찰된다. 마지막 프레임 x에서 시간의 경과에 따른 에너지 레벨 진화는 감쇠 인자를 결정할 다음 프레임에 외삽된다. 따라서, 감쇠 인자는 전체 이전의 양호한 프레임 x의 에너지와 관련하여 x의 마지막 샘플의 에너지를 설정함으로써 계산된다:
Figure pct00017
여기서 L은 프레임 길이이고, wk는 수정된 hann 윈도우이다:
Figure pct00018
윈도우의 형상은
Figure pct00019
이도록 설계된다.
정적 감쇠 인자인 0.7071이 항상 전체 스펙트럼에 적용되는 [1]과 비교하여, 디폴트 값인 0.7071보다 낮으면, 계산된 감쇠 인자 fac가 사용될 것이고; 그렇지 않으면, fac=0.7071이 사용될 것이다. 어떤 경우에는, 신호가 유성음, 노이즈, 또는 개시 특성을 갖는지에 대한, 신호의 에너지 안정성 또는 신호 클래스일 수 있는 신호 특성에 대한 사전 지식이 있다. 그 다음에, (예를 들어, 손실된 오디오 프레임 선행하는 적절히 디코딩된 오디오 프레임이 노이즈가 많은 것으로 분류된다면) 계산된 감쇠 인자를 사용하여 느리게 페이드 아웃하는 것이 가끔 유용하다. 예를 들어, 신호가 정말 노이즈가 많으면, 에너지를 일정하게 유지하고자 할 것이며, 이는 단일 프레임 손실에 특히 도움이 된다. 마지막으로, 감쇠 인자는 1로 최대화되어 높은 에너지 증가 아티팩트를 방지할 수 있다.
최신 기술 [1]에서, 스펙트럼은 다수의 프레임 손실 동안 0.7071의 상수 인자에 의해 스케일링된다. 본 발명의 접근법에서, 적응적 감쇠 인자는 제1 은닉 프레임에서만 사용된다. 연속하는 프레임 손실의 경우, 현재의 프레임의 감쇠 인자 fac는 이전의 프레임의 감쇠 인자(fac-1)에 좌우될 수 있다:
Figure pct00020
여기서 nbLost는 연속하는 손실된 프레임 수이다. 이는 보다 빠른 페이드 아웃(또는 현재의 프레임이 손실된 프레임 시퀀스의 두 번째, 세 번째, 네 번째, ..., 손실된 프레임인지 여부를 나타내는 지표)로 인한 사후 에코가 줄어들게 한다.
도 11에서 알 수 있는 바와 같이, (종래 기술에서 짜증스러운 에코에 의해 영향을 받은) 영역(1002 및 1003)은 이제 유리하게 "다듬어졌다".
7. 본 개시의 다른 실시예
도 14는 동일한 적절히 디코딩된 오디오 프레임의 상이한 주파수 대역(또는 빈)이 상이하게 감쇠되는 에러 은닉(1400)을 도시한다. 가능하기는 하지만, 도 14를 구현하기 위해 도 1 또는 도 3을 구현하는 것은 꼭 필요한 것은 아니다.
도 2 및 도 4를 참조하면, 에러 은닉 유닛(100)은 인코딩된 오디오 정보에서 오디오 프레임의 손실을 은닉하기 위한 에러 은닉 오디오 정보를 제공할 목적으로 획득된다. 에러 은닉 유닛은 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임에 기초하여 에러 은닉 오디오 정보를 제공하도록 구성된다. 에러 은닉 유닛은 상이한 주파수 대역에 대해 상이한 감쇠 인자를 사용하여 페이드 아웃을 수행하도록 구성된다.
상이한 메모리 부분(예를 들어, 버퍼)(405a, 405b, ..., 405g)에 기억된 상이한 빈은 상이한 감쇠 인자(1408a, 1408b, ., 1408g)(스케일러(407a, 407b, ..., 407g)에서 빈 값을 곱하는 감쇠 인자)에 의해 스케일링되어, 은닉 오디오 정보의 상이한 메모리 부분(406a, 406b, ..., 406g)에 기억된 상이한 빈을 획득한다.
일 실시예에 따르면, 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 스펙트럼 도메인 표현의 특성에 기초하여 상이한 감쇠 인자를 도출하는 것이 가능하다.
도 14는 적절히 디코딩된 오디오 프레임의 FD 표현이 상이한 주파수 대역들(1403a, 1403b, ..., 1403g) 사이에서 블록(1402)에서 세분되는 것을 도시한다. 각각의 대역의 하나 이상의 스펙트럼 빈 값은 1404a, 1404b, ..., 1404g에서 스케일링된다. 후속하여, 대역의 값은 서로로 구성되고 (전술한 블록(370)과 동일 할 수 있는) 블록(1406)에서 변환되고 은닉 오디오 정보(1407)로서 사용될 수 있다.
블록(1402)은 실제로는 존재하지 않으며, 간단한 실시예에서, 스펙트럼 빈 값의 논리적 인 그룹만을 나타낸다. 유사하게, 블록(1405)은 실제로는 존재하지 않고, 수정된 (스케일링된) 스펙트럼 값의 논리적 조합을 나타낸다.
손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 유성음 주파수 대역(또는 비교적 높은 에너지를 갖는 주파수 대역)을 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 무성음 또는 노이즈와 같은 주파수 대역보다 빠르게 페이드 아웃시키기 위해 하나 이상의 감쇠 인자를 적응시키는 것이 가능하다.
일 실시예에 따르면, 손실된 오디오 프레임에 선행하고 스펙트럼 빈당 비교적 높은 에너지를 갖는 적절히 디코딩된 오디오 프레임의 하나 이상의 주파수 대역(즉, 전체 스펙트럼의 i번째 대역)을 손실된 오디오 프레임에 선행하고 스펙트럼 빈당 비교적 낮은 에너지를 갖는 적절히 디코딩된 오디오 프레임의 하나 이상의 주파수 대역보다 빠르게 페이드 아웃시키기 위해 감쇠 인자(1408a, 1408b, …1408g)를 적응시키는 것이 가능하다.
도 15a에서 볼 수 있는 바와 같이, 비교 블록(1504)에서, 에러 은닉 유닛은 적어도 하나의 주파수 대역(1403a, 1403b, …1403g)에 대해, 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임에서의 적어도 하나의 주파수 대역에 연관된 에너지 값(1501)과 임계치(1502)를 비교에 기초하여, 감쇠 인자(1503)를 설정하는 것이 가능하다.
일 실시예에 따르면, 적어도 하나의 주파수 대역에 연관된 에너지 값이 임계치보다 낮으면 적어도 하나의 주파수 대역에 대해 미리 결정된 감쇠 인자를 사용하는 것이 가능하다. 적어도 하나의 주파수 대역에 연관된 에너지 값이 임계치보다 높으면, 적어도 하나의 주파수 대역에 대한 미리 결정된 감쇠 인자(일반적으로 말하면, 더 강한 감쇠 또는 더 빠른 페이드 아웃을 나타낼 수 있음)보다 작은 감쇠 인자를 사용하는 것이 가능하다.
일 실시예에 따르면, 적어도 하나의 주파수 대역에 연관된 에너지 값이 임계치보다 낮으면, 적어도 하나의 주파수 대역에 대해 비교적 느린 페이드 아웃을 나타내는 감쇠 인자를 사용하는 것이 가능하다. 에러 은닉 유닛은 적어도 하나의 주파수 대역에 연관된 에너지 값이 임계치보다 높으면 적어도 하나의 주파수 대역에 대해 비교적 빠른 페이드 아웃을 나타내는 감쇠 인자를 사용하도록 구성될 수 있다.
일 실시예에 따르면, 적어도 하나의 주파수 대역에 연관된 에너지 값이 임계치보다 낮으면, 감쇠 인자를 미리 결정된 값으로 정의하는 것이 가능하다. 적어도 하나의 주파수 대역에 연관된 에너지 값이 임계 값보다 높으면, 적어도 하나의 주파수 대역과 관련된 에너지 값이 임계 값보다 낮은 경우보다 적어도 하나의 주파수 대역을 빠르게 페이드 아웃시키기 위해, 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 시간적 에너지 트렌드 값에 기초하여 적어도 하나의 주파수 대역에 대한 감쇠 인자를 도출하는 것이 가능하다.
도 15b는 하나의 대역(예를 들어, 적절히 디코딩된 오디오 프레임의 스펙트럼의 i번째 대역)의 에너지와 관련된 값을 임계치(예를 들어, 임계치(1502))와 비교함으로써 이행되는 결정(1510)을 도시한다. 1511에서, 결정이 수행된다. 결정은 전술한 예 중 하나에 따라 i번째 주파수 대역에서의 시간적 에너지 트렌드 값을 계산하는 것을 고려할 수 있다(도 5 및 도 8b, 그리고 상세한 설명에서 관련 부분 참조).
적절히 디코딩된 오디오 프레임의 i번째 대역이 노이즈를 포함하는 것으로 인식되면(예를 들어, 대역의 에너지와 관련된 값이 임계치 아래에 있음), 예를 들어 감쇠 인자를 0.95와 1 사이에 포함된 값으로 정의함으로써, 작은 감쇠(또는 감쇠가 전혀 없음)가 1512에서 이행된다.
i번째 대역이 음성을 포함하지만 단어가 적절히 디코딩된 오디오 프레임에서 종료되지 않는 (또는 시간의 경과에 따른 에너지 감소가 미리 결정된 임계치보다 작은) 것으로 인식되면, 예를 들어 감쇠 인자 0.7071을 정의함으로써, 1513에서 감소된 감쇠가 이행된다.
특히, 적절히 디코딩된 오디오 프레임의 i번째 대역이 동일한 프레임에서 종료되는 음성 요소를 포함하는 것으로 인식되면, 1514에서 강한 감쇠가 이행된다. 시간적 에너지 트렌드 값이 상기와 같이 계산되는 경우(그리고 프레임의 제1 및 제2 부분이 도 6(b)의 실시예와 유사하게 정의되는 경우), 감쇠 인자를 대역 i에 대한 에너지 트렌드 값(801)과 동일한 값(또는 스케일링된 값)으로 정의하는 것도 가능하다.
그러나, 본 발명을 (1512 또는1513에서 사용된 바와 같은) 오직 2개의 감쇠 인자로 제한할 필요는 없다. 또한 2개를 초과하는 디폴트 인자를 정의하는 것이 가능하다: 예를 들어 중간 감쇠(1513)로서 0.7071과 유사한 값; 보다 낮은 대역에 대해서는 0.9; 중간 대역에 대해서는 0.95; 작은 감쇠 인자(1512)로서 보다 높은 대역에 대해서는 0.95, 또는 작은 감쇠 인자(1512)로서 신호 클래스가 VOICED이면 0.9, 그리고 신호 클래스가 UNVOICED이면 0.95, 등.
도 15c에서 알 수 있는 바와 같이, 상이한 주파수 대역(i, i+1 등)에 대해 상이한 임계치(1501i, 1501(i+1) 등)를 정의하여 상이한 감쇠 인자(1503i, 1503(i+1) 등)를 획득하는 것이 가능하다. 임계치가 주파수에 따라 달라지는 도 12에 예가 제공되며, 이는 상이한 대역(또는 스케일 인자 대역)의 에너지와 관련된 값이 다른 임계치와 비교된다는 것을 의미한다.
특히, 적어도 하나의 주파수 대역의 에너지 값, 또는 평균 에너지 값, 또는 예상되는 에너지 값에 기초하여 임계치를 설정하는 것이 가능하다.
일 실시예에 따르면, 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 에너지 값과 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 전체 스펙트럼에서의 스펙트럼 라인의 수 사이의 비율에 기초하여 임계치를 설정하는 것이 가능하다.
임계치는 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 시간적 에너지 트렌드 값에 기초할 수 있다.
i번째 주파수 대역에 대한 임계치는 공식
Figure pct00021
을 사용하여 획득될 수 있다.
여기서 nbOfLinesi은 i번째 주파수 대역에서의 라인의 수이고,
여기서
Figure pct00022
이다.
값 fac는 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임에서의 시간적 에너지 트렌드 값, 또는 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임에서의 시간적 에너지 트렌드 값을 나타내는 양으로부터 도출된 감쇠 값일 수 있다. 값 energytotal은 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 모든 주파수 대역에 걸친 총 에너지이다. 값 nbOfTotalLines는 손실된 오디오 프레임을 선행하여 적절히 디코딩된 오디오 프레임의 스펙트럼 라인의 총 수이다.
대역은 스케일 인자 대역일 수 있으며, 그 스펙트럼 값은 상이한 스케일 인자를 사용하여 스케일링된다. 역 양자화된 스펙트럼 값을 스케일링하기 위한 상이한 스케일 인자는 상이한 스케일 인자 대역과 연관된다. 손실된 오디오 프레임의 은닉된 스펙트럼 표현을 도출하기 위해 감쇠 인자를 사용하여 손실된 오디오 프레임에 선행하는 오디오 프레임의 스펙트럼 표현을 스케일링하는 것이 가능하다.
손실된 오디오 프레임의 은닉된 스펙트럼 표현을 도출하기 위해, 상이한 감쇠 인자를 사용하여 손실된 오디오 프레임에 선행하는 오디오 프레임의 스펙트럼 표현의 상이한 주파수 대역을 스케일링함으로써, 상이한 페이드 아웃 속도로 상이한 주파수 대역의 스펙트럼 값을 페이드 아웃시키는 것이 가능하다.
도 15b를 참조하면, 적절히 디코딩된 프레임의 각각의 i번째 대역에 대해:
- 1512에서, 바람직하게는 비트스트림 정보에 기초하여 또는 신호 분석에 기초하여, 1511에서 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임이 노이즈와 같은 것으로 인식되면, 제2 미리 결정된 값보다 작은 감쇠를 나타내는 제1 미리 결정된 값으로 i번째 주파수 대역에 연관된 감쇠 인자를 설정하고/하거나,
- 1513에서, 바람직하게는 비트스트림 정보에 기초하여 또는 신호 분석에 기초하여, 1511에서, 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임이 음성이 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임에서 끝나지 않는 음성과 같은 거라고 인식되면, 제2 미리 결정된 값으로 i번째 주파수 대역에 연관된 감쇠 인자를 설정하고/하거나,
- 1514에서, 바람직하게는 비트스트림 정보에 기초하여 또는 신호 분석에 기초하여, 1511에서, 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임이 음성이 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임에서 쇠퇴하거나 끝나는 음성과 같은 거라고 인식되면, 에너지 트렌드 값 또는 그것의 스케일링된 버전에 기초한 값으로 i번째 주파수 대역에 연관된 감쇠 인자를 설정하고;
- 1511에서, 새로운 대역 i+1이 선택되고, 상기 절차가 새로운 대역에 대해 반복되는 것이 가능하다.
일 실시예에 따르면, 에러 은닉 유닛은 주어진 i번째 주파수 대역의 에너지를 임계치(예를 들어, 1502)와 비교하도록 구성되고,
- 에러 은닉 유닛은 주어진 i번째 주파수 대역의 에너지가 임계치보다 크면, 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 시간적 에너지 트렌드 값에 기초하여 도출된, 주어진 i번째 주파수 대역에 대한 스케일링 인자를 제공하고;
- 에러 은닉 유닛은 바람직하게는 비트스트림 정보에 기초하여 또는 신호 분석에 기초하여, 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임이 노이즈와 같은 것으로 인식되면, 그리고 주어진 i번째 주파수 대역의 에너지가 임계치보다 작다면, 제2 미리 결정된 값보다 작은 감쇠를 나타내는 제1 미리 결정된 값으로 감쇠 인자를 설정하고/하거나(예를 들어, 1512에서);
- 에러 은닉 유닛은 바람직하게는 비트스트림 정보에 기초하여 또는 신호 분석에 기초하여, 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임이 노이즈와 같은 것이 아니라고 인식되면, 제2 미리 결정된 값으로 감쇠 인자를 설정하도록 구성된다.
일 실시예에 따르면, 에러 은닉 유닛은 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현(예를 들어, 1407)을 획득하기 위해 (예를 들어 1406에서) 스펙트럼 도메인-시간 도메인 변환을 수행한다.
도 16a는 인코딩된 오디오 정보에서 오디오 프레임의 손실을 은닉하기 위한 에러 은닉 오디오 정보를 제공하는 에러 은닉 방법(1600)을 도시하며, 여기서 적절히 디코딩된 오디오 프레임의 스펙트럼 표현은 1, 2, ..., i 등의 대역으로 세분되며, 방법은 다음의 단계:
- 1605에서, 제1 대역 1을 선택하는 단계(예를 들어, i:=1);
- 910에서, 대역 i에 대한 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 특성에 기초하여 감쇠 인자를 도출하는 단계;
- 920에서, 대역 i에 대한 감쇠 인자를 사용하여 페이드 아웃을 수행하는 단계;
- 1630에서, 새로운 대역 i+1을 선택하는 단계;
- 적절히 디코딩된 오디오 프레임의 스펙트럼 뷰의 모든 대역에 대해 이 진행을 반복하는 단계를 포함한다.
도 16b는 적절히 디코딩된 오디오 프레임의 에너지 트렌드 값이 분석되는 것이 수행되는 단계(905)가 단계(910, 도 16a 참조) 전에 수행되는 변형예(1600b)를 도시한다.
방법(1600 및 1600b)에서, 방법(900 및 900b)의 참조 번호는 방법의 다른 실시예들 사이의 유사성을 이해할 수 있도록 유지된다.
8. 본 발명의 실시예의 동작 및 실험 결과
본 발명의 일 양태에 따르면, 상이한 감쇠 인자를 사용하여 신호의 상이한 대역을 페이딩함으로써 은닉 프레임을 페이드 아웃하는 것이 유리하다는 것이 본 명세서에서 발견되었다.
동일한 속도로 신호의 모든 부분을 감쇠시키는 것이 항상 바람직한 것은 아니라는 것이 밝혀졌다. 예를 들어, 배경 노이즈를 갖는 음성의 경우에, 스펙트럼의 홀에서 생기는 짜증스러운 아티팩트를 피하기 위해 너무 많은 배경 노이즈를 페이드 아웃하지 않고 신호의 유성음 부분을 페이드 아웃하길 바란다. 따라서, 일부 실시예에서, 감쇠 인자는 신호의 상이한 주파수 도메인에 상이하게 적용된다. 이것은 LPC 또는 스케일 인자에 기초하여 행해질 수 있다.
한 가지 응용은 아래에 설명된 스케일 인자 대역에 좌우되는 감쇠이다(도 12 참조).
최첨단 기술의 방법에서 나타날 수 있는 낮은 에너지 스케일 인자 대역(scale factor band, SFB)의 에너지 갭/스펙트럼 홀을 방지하기 위해, 감쇠 인자는 스케일 인자 대역 측면에서 적용될 것이다. SFB의 에너지가 특정 임계치보다 높으면, 적응된 감쇠 인자 fac(예를 들어, 섹션 5.7에 설명된 바와 같이 획득될 수 있음)가 사용될 것이다. 그렇지 않으면, 0.7071(1/21/2)의 디폴트 감쇠 인자가 적용될 것이다(예를 들어, 도 12 참조). 일부 경우에, 임계치보다 낮은 SFB를 페이드 아웃하여, 그 부분이 0이 되지 않도록 하는 것이 이로우며, 이는 신호가 페이딩 아웃 화이트 노이즈쪽으로 페이딩되고 있음을 의미한다.
임계치는 예를 들어 각각의 대역의 라인 수에 좌우될 수 있다. 이는, SFB i에 있어서, 임계치는
Figure pct00023
이며,
여기서 nbOfLinesi는 i번째 SFB의 라인의 수이고,
Figure pct00024
이며,
여기서 nbOfTotalLines는 전체 스펙트럼의 전체 라인의 수이고, energytotal은 모든 SFB에 걸친 총 에너지이다.
일 예가 도 13a 및 도 13b의 결과에 의해 제공될 수 있으며(세로 좌표: 100ms 또는 hms 단위의 시간, 가로 좌표: 주파수), 여기서 감쇠되지 않은 신호의 그래프(1300a)가 감쇠된 신호의 그래프(1300b)와 비교된다. 보다 높은 감쇠 영역(1301)(대부분 음성, 특히 음성이 종료된 프레임)은 변화가 없는 영역(1302)에 대한 상응하는 위치(대부분 감쇠가 없는 노이즈)에 도시되어 있다. 특히, 도 13a에서 발생할 수 있는 보다 높은 감쇠 영역(1301)은 도 13b에서 적절히 감쇠되고, 따라서 짜증스러운 에코를 감소시킨다. 반대로, 바람직하게는, 영역(1302)의 노이즈는 감쇠되지 않는다.
9. 결론
주파수 도메인 오디오 코덱에서 패킷 손실 은닉을 위한 적응적 페이드 아웃이 설명되었다.
패킷 손실의 경우, 음성 및 오디오 코덱은 보통 짜증스러운 반복 아티팩트를 방지하기 위해 0 또는 배경 노이즈쪽으로 페이딩한다. 모든 AAC 제품군 디코더의 경우, 은닉된 스펙트럼은 신호 특성에 관계없이 상수 감쇠 인자로 페이드 아웃된다. 특히, 음성이나 일시적인 신호의 경우, 정적 감쇠 인자로는 충분하지 않다. 따라서, 본 발명에 따른 실시예는 마지막 양호한 프레임의 시간적 에너지 트렌드 값에 좌우되는 적응적 감쇠 인자를 계산한다. 또한, 스펙트럼의 짜증스러운 홀을 피하기 위해 은닉된 스펙트럼에 주파수 적응적 감쇠가 적용된다.
실시예는 ELD, XLD, DRM 또는 MPEG-H와 같은 기술 분야에서, 예를 들어 그러한 종류의 오디오 디코더와 조합하여 사용될 수 있다.
10. 추가 서명
패킷 손실의 경우, 음성 및 오디오 코덱은 보통 짜증스러운 반복 아티팩트를 방지하기 위해 0 또는 배경 노이즈쪽으로 페이딩한다.
모든 AAC 제품군 디코더의 경우, 은닉된 스펙트럼은 신호 특성에 관계없이 상수 감쇠 인자로 페이드 아웃된다.
특히 음성이나 일시적인 신호의 경우, 정적 감쇠 인자로는 충분하지 않다.
따라서, 마지막 양호한 프레임의 시간적 에너지 트렌드에 따라 적응적 감쇠 인자를 계산하기 위한 도구가 제공된다.
또한, 스펙트럼의 짜증스러운 홀을 피하기 위해 은닉된 스펙트럼에 주파수 적응적 감쇠가 적용된다.
11. 구현 대안
일부 양태가 장치의 맥락에서 설명되었지만, 이들 양태가 또한 대응하는 방법의 설명을 나타내는 것이 명백하며, 여기서 블록 및 디바이스는 방법 단계 또는 방법 단계의 특징에 대응한다. 유사하게, 방법 단계의 문맥에서 설명된 양태는 또한 대응하는 블록 또는 품목 또는 대응하는 장치의 특징의 설명을 나타낸다. 방법 단계의 일부 또는 전부는 예를 들어, 마이크로프로세서, 프로그램 가능 컴퓨터 또는 전자 회로와 같은 하드웨어 장치에 의해 (또는 사용하여) 실행될 수 있다. 일부 실시예에서, 가장 중요한 방법 단계 중 하나 이상이 그러한 장치에 의해 실행될 수 있다.
특정 구현 요건에 따라, 본 발명의 실시예는 하드웨어로 또는 소프트웨어로 구현될 수 있다. 구현은 각각의 방법이 수행되도록 프로그래밍 가능한 컴퓨터 시스템과 협력하는 (또는 협력할 수 있는) 전기적으로 판독 가능한 제어 신호가 저장된, 디지털 저장 매체, 예를 들어, 플로피 디스크, DVD, 블루 레이, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 수행될 수 있다. 따라서, 디지털 저장 매체는 컴퓨터 판독 가능할 수 있다.
본 발명에 따른 일부 실시예는 본 명세서에 설명된 방법 중 하나가 수행되도록 프로그램 가능 컴퓨터 시스템과 협력할 수 있는 전자 판독 가능 제어 신호를 갖는 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시예는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동될 때 방법들 중 하나를 수행하도록 동작하는 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있다. 프로그램 코드는 예를 들어 머신 판독 가능 캐리어에 저장될 수 있다.
다른 실시예는 기계 판독 가능 캐리어 상에 저장된, 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함한다.
다시 말해, 본 발명의 방법의 실시예는, 따라서, 컴퓨터 프로그램이 컴퓨터 상에서 구동될 때, 본 명세서에 설명된 방법 중 하나를 수행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
따라서, 본 발명의 방법의 다른 실시예는 그 위에 기록된, 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 포함하는 데이터 캐리어(또는 디지털 저장 매체 또는 컴퓨터 판독 가능 매체)이다. 데이터 캐리어, 디지털 저장 매체, 또는 기록 매체는 통상적으로 유형 및/또는 비일시적이다.
따라서, 본 발명의 방법의 다른 실시예는 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호의 시퀀스이다. 데이터 스트림 또는 신호의 시퀀스는 데이터 통신 접속을 통해, 예를 들어 인터넷을 통해 전송되도록 구성될 수 있다.
다른 실시예는 본 명세서에 설명된 방법 중 하나를 수행하도록 구성되거나 적응된 프로세싱 수단, 예를 들어 컴퓨터 또는 프로그램 가능 논리 디바이스를 포함한다.
다른 실시예는 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
본 발명에 따른 다른 실시예는 본 명세서에 설명된 방법 중 하나를 수행하기 위한 컴퓨터 프로그램을 수신기에(예를 들어, 전자적으로 또는 광학적으로) 전송하도록 구성된 장치 또는 시스템을 포함한다. 수신기는 예를 들어 컴퓨터, 모바일 디바이스, 메모리 디바이스 등일 수 있다. 장치 또는 시스템은 예를 들어 컴퓨터 프로그램을 수신기에 전송하기 위한 파일 서버를 포함할 수 있다.
일부 실시예에서, 프로그램 가능 논리 디바이스(예를 들어, 필드 프로그램 가능 게이트 어레이)는 본 명세서에 설명된 방법의 기능 중 일부 또는 전부를 수행하는 데 사용될 수 있다. 일부 실시예에서, 필드 프로그램 가능 게이트 어레이는 본 명세서에 설명된 방법 중 하나를 수행하기 위해 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법은 바람직하게는 임의의 하드웨어 장치에 의해 수행된다.
본 명세서에 설명된 장치는 하드웨어 장치를 사용하거나, 컴퓨터를 사용하거나, 하드웨어 장치와 컴퓨터의 조합을 사용하여 구현될 수 있다.
본 명세서에 설명된 방법은 하드웨어 장치를 사용하거나, 컴퓨터를 사용하거나, 하드웨어 장치와 컴퓨터의 조합을 사용하여 수행될 수 있다.
위에서 설명된 실시예는 본 발명의 원리를 예시하기 위한 것일 뿐이다. 본 명세서에 설명된 구성 및 세부사항의 수정 및 변형은 본 기술분야의 통상의 기술자에게 명백할 것으로 이해된다. 따라서, 곧 있을 청구범위의 범위에 의해서만 제한되고 본 명세서의 실시예에 대한 기술 및 설명에 의해 제공된 특정 세부사항에 의해서만 한정되는 것은 아니다.
12. 참고문헌
[1] 3GPP TS 26.402 "Enhanced aacPlus general audio codec; Additional decoder tools(Release 11)"
[2] J. Lecomte, et al, "Enhanced time domain packet loss concealment in switched speech/audio codec", submitted to IEEE ICASSP, Brisbane, Australia, Apr.2015.
[3] WO 2015063045 A1
[4] "Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pitch lag estimation", 2014, PCT/EP2014/062589
[5] "Apparatus and method for improved concealment of the adaptive codebook in ACELP-like concealment employing improved pulse synchronization", 2014, PCT/EP2014/062578

Claims (28)

  1. 인코딩된 오디오 정보(210)에서 오디오 프레임의 손실을 은닉하기 위한 에러 은닉 오디오 정보(107, 232, 382)를 제공하기 위한 에러 은닉 유닛(100, 230, 380)에 있어서,
    상기 에러 은닉 유닛은 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임(102, 403, 501)에 기초하여 상기 손실된 오디오 프레임에 대한 에러 은닉 오디오 정보를 제공하도록 구성되고,
    상기 에러 은닉 유닛은 상기 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 특성에 기초하여 하나 이상의 감쇠 인자(103, 410, 803, 1408a-1408c)를 도출하도록(804, 811, 910, 1504) 구성되고,
    상기 에러 은닉 유닛은 상기 감쇠 인자(103, 410, 803, 1408a-1408c)를 사용하여 페이드 아웃(104, 404, 812-814, 920)을 수행하도록 구성되는 것을 특징으로 하는 에러 은닉 오디오 정보를 제공하기 위한 에러 은닉 유닛.
  2. 제1항에 있어서,
    상기 에러 은닉 유닛은 상기 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 시간 도메인 표현(102, 372)의 특성에 기초하여 상기 감쇠 인자(103, 410, 803, 1408a-1408c)를 도출하도록 구성되는 것을 특징으로 하는 에러 은닉 오디오 정보를 제공하기 위한 에러 은닉 유닛.
  3. 제2항에 있어서,
    상기 에러 은닉 유닛은 상기 디코딩된 시간 도메인 표현(102)의 분석(111, 500)을 수행하고, 상기 디코딩된 시간 도메인 표현의 분석에 기초하여 상기 감쇠 인자(103, 410, 803, 1408a-1408c)를 도출하도록 구성되는 것을 특징으로 하는 에러 은닉 오디오 정보를 제공하기 위한 에러 은닉 유닛.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 에러 은닉 유닛은 상기 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 시간적 에너지 트렌드(509, 801)에 기초하여 상기 감쇠 인자(103, 410, 803, 1408a-1408c)를 도출하도록 구성되는 것을 특징으로 하는 에러 은닉 오디오 정보를 제공하기 위한 에러 은닉 유닛.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 에러 은닉 유닛은 상기 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임(501)의 디코딩된 표현 또는 상기 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임(501)의 디코딩된 표현의 가중된 버전의 제1 부분(502)의 에너지를 컴퓨팅하도록 구성되는 것을 특징으로 하는 에러 은닉 오디오 정보를 제공하기 위한 에러 은닉 유닛.
  6. 제5항에 있어서,
    상기 에러 은닉 유닛은 상기 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 버전 또는 상기 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 가중된 버전의 제2 부분(503)의 에너지를 컴퓨팅하도록 구성되는 것을 특징으로 하는 에러 은닉 오디오 정보를 제공하기 위한 에러 은닉 유닛.
  7. 제5항 또는 제6항에 있어서,
    상기 디코딩된 표현의 제1 부분의 시작이 상기 디코딩된 표현의 제2 부분의 시작에 시간적으로 선행하도록, 상기 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현 또는 상기 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 가중된 버전의 제2 부분(503)의 에너지를 컴퓨팅하도록 구성되는 것을 특징으로 하는 에러 은닉 오디오 정보를 제공하기 위한 에러 은닉 유닛.
  8. 제5항 내지 제7항 중 어느 한 항에 있어서,
    상기 제1 부분의 시간 값의 평균이 상기 제2 부분의 시간 값의 평균에 시간적으로 선행하도록, 상기 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현 또는 상기 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 가중된 버전의 제2 부분(503)의 에너지를 컴퓨팅하도록 구성되는 것을 특징으로 하는 에러 은닉 오디오 정보를 제공하기 위한 에러 은닉 유닛.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 에러 은닉 유닛은 상기 제1 부분의 에너지 및 상기 제2 부분의 에너지에 따라 상기 감쇠 인자(103, 410, 803, 1408a-1408c)를 컴퓨팅하도록 구성되는 것을 특징으로 하는 에러 은닉 오디오 정보를 제공하기 위한 에러 은닉 유닛.
  10. 제5항 내지 제9항 중 어느 한 항에 있어서,
    상기 디코딩된 표현의 제2 부분은 상기 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 샘플의 마지막 구간을 포함하고,
    상기 디코딩된 표현의 제1 부분은 상기 제1 부분의 샘플 중 적어도 일부가 상기 제2 부분의 모든 샘플에 선행하도록, 상기 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 모든 샘플, 또는 상기 제2 부분에 중첩하는 상기 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 샘플의 구간을 포함하는 것을 특징으로 하는 에러 은닉 오디오 정보를 제공하기 위한 에러 은닉 유닛.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,
    상기 에러 은닉 유닛은
    상기 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 끝 부분, 또는 상기 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 스케일링된 버전의 끝 부분에서의 에너지와,
    상기 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현, 또는 상기 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 스케일링된 버전에서의 총 에너지 간의 몫을 컴퓨팅하도록 구성되는 것을 특징으로 하는 에러 은닉 오디오 정보를 제공하기 위한 에러 은닉 유닛.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서,
    상기 에러 은닉 유닛은 공식
    Figure pct00025

    을 사용하여 상기 시간적 에너지 트렌드를 컴퓨팅하도록 구성되며,
    L은 샘플의 프레임 길이이고, xk는 샘플링된 신호 값이고, wk는 가중치 인자이고, c는 0.5와 0.9 사이, 바람직하게는 0.6과 0.8 사이, 보다 바람직하게는 0.65와 0.75 사이, 그리고 더욱 더 바람직하게는 0.7의 값인 것을 특징으로 하는 에러 은닉 오디오 정보를 제공하기 위한 에러 은닉 유닛.
  13. 제8항에 있어서,
    상기 에러 은닉 유닛은 상기 가중치 인자를 결정하여 조건
    Figure pct00026

    을 검증하도록 구성되는 것을 특징으로 하는 에러 은닉 오디오 정보를 제공하기 위한 에러 은닉 유닛.
  14. 제12항 또는 제13항에 있어서,
    상기 에러 은닉 유닛은
    Figure pct00027

    와 같이 상기 가중치 인자를 결정하도록 구성되며,
    d는 0.4과 0.6 사이, 바람직하게는 0.49와 0.51 사이, 보다 바람직하게는 0.499와 0.501 사이, 그리고 더욱 더 바람직하게는 0.5의 값이고,
    h는 0.15와 0.25 사이, 바람직하게는 0.19와 0.21 사이, 보다 바람직하게는 0.199와 0.201 사이, 그리고 더욱 더 바람직하게는 0.2의 값이고,
    g는 0.05와 0.15 사이, 바람직하게는 0.09와 0.11 사이, 그리고 보다 바람직하게는 0.1의 값인 것을 특징으로 하는 에러 은닉 오디오 정보를 제공하기 위한 에러 은닉 유닛.
  15. 제1항 내지 제14항 중 어느 한 항에 있어서,
    상기 에러 은닉 유닛은 이전의 은닉된 오디오 프레임에 대한 상기 감쇠 인자(103, 410, 803, 1408a-1408c)를 감소시키고, 감소된 감쇠 인자(103, 410, 803, 1408a-1408c)를 사용하여 상기 이전의 은닉된 오디오 프레임에 뒤따르는 적어도 하나의 후속하는 은닉된 오디오 프레임을 페이드 아웃하도록 구성되는 것을 특징으로 하는 에러 은닉 오디오 정보를 제공하기 위한 에러 은닉 유닛.
  16. 제14항 또는 제15항에 있어서,
    상기 에러 은닉 유닛은 적어도 3개의 연속하는 은닉된 오디오 프레임에 대해 지수 함수적인 것을 초과하는 시간 쇠퇴에 따라 상기 페이드 아웃을 수행하도록 구성되는 것을 특징으로 하는 에러 은닉 오디오 정보를 제공하기 위한 에러 은닉 유닛.
  17. 제1항 내지 제16항 중 어느 한 항에 있어서,
    상기 에러 은닉 유닛은 상기 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 시간적 에너지 트렌드를 정량적으로 기술하는 에너지 트렌드 값을 결정하도록 구성되고,
    상기 에러 은닉 유닛은 상기 에너지 트렌드 값 또는 상기 에너지 트렌드 값의 스케일링된 버전을 사용하여 상기 감쇠 인자(103, 410, 803, 1408a-1408c)를 정의하도록 구성되는 것을 특징으로 하는 에러 은닉 오디오 정보를 제공하기 위한 에러 은닉 유닛.
  18. 제16항 또는 제17항에 있어서,
    상기 에러 은닉 유닛은 현재의 에너지 트렌드 값이 시간의 경과에 따른 비교적 작은 에너지 감소를 나타내는 미리 결정된 범위 내에 있으면, 상기 현재의 에너지 트렌드 값보다 낮은 미리 결정된 값으로 상기 감쇠 인자(103, 410, 803, 1408a-1408c)를 설정하도록 구성되는 것을 특징으로 하는 에러 은닉 오디오 정보를 제공하기 위한 에러 은닉 유닛.
  19. 제17항 또는 제18항에 있어서,
    상기 에러 은닉은 현재의 에너지 트렌드 값이 미리 결정된 범위 밖에 있고, 시간의 경과에 따른 비교적 큰 에너지 감소를 나타낸다면, 상기 감쇠 인자가 상기 현재의 에너지 트렌드 값과 동일하도록, 또는 달라지는 에너지 트렌드 값에 선형적으로 달라지도록 상기 감쇠 인자(103, 410, 803, 1408a-1408c)를 결정하도록 구성되는 것을 특징으로 하는 에러 은닉 오디오 정보를 제공하기 위한 에러 은닉 유닛.
  20. 제1항 내지 제19항 중 어느 한 항에 있어서,
    상기 에러 은닉 유닛은
    바람직하게는 비트스트림 정보에 기초하여 또는 신호 분석에 기초하여, 상기 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임이 노이즈와 같은 것으로 인식되면, 제2 미리 결정된 값보다 작은 감쇠를 나타내는 제1 미리 결정된 값으로 상기 감쇠 인자(103, 410, 803, 1408a-1408c)를 설정하고/하거나,
    바람직하게는 비트스트림 정보에 기초하여 또는 신호 분석에 기초하여, 상기 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임이 음성이 상기 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임에서 끝나지 않는 음성과 같은 거라고 인식되면, 상기 제2 미리 결정된 값으로 상기 감쇠 인자(103, 410, 803, 1408a-1408c)를 설정하고/하거나,
    바람직하게는 비트스트림 정보에 기초하여 또는 신호 분석에 기초하여, 상기 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임이 음성이 상기 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임에서 쇠퇴하거나 끝나는 음성과 같은 거라고 인식되면, 에너지 트렌드 값 또는 상기 에너지 트렌드 값의 스케일링된 버전에 기초한 값으로 상기 감쇠 인자(103, 410, 803, 1408a-1408c)를 설정하도록 구성되는 것을 특징으로 하는 에러 은닉 오디오 정보를 제공하기 위한 에러 은닉 유닛.
  21. 제1항 내지 제20항 중 어느 한 항에 있어서,
    상기 에러 은닉 유닛은 상이한 주파수 대역에 대해 상이한 감쇠 인자(103, 410, 803, 1408a-1408c)를 결정하도록 구성되는 것을 특징으로 하는 에러 은닉 오디오 정보를 제공하기 위한 에러 은닉 유닛.
  22. 제1항 내지 제21항 중 어느 한 항에 있어서,
    상기 에러 은닉 유닛은 상기 감쇠 인자(103, 410, 803, 1408a-1408c)가 상기 손실된 오디오 프레임쪽으로 상기 손실된 오디오 프레임에 선행하는 마지막으로 적절히 디코딩된 오디오 프레임의 끝 부분에 에너지 레벨의 시간적 진화의 외삽을 반영하도록 감쇠 인자(103, 410, 803, 1408a-1408c)를 도출하도록 구성되는 것을 특징으로 하는 에러 은닉 오디오 정보를 제공하기 위한 에러 은닉 유닛.
  23. 제1항 내지 제22항 중 어느 한 항에 있어서,
    상기 에러 은닉 유닛은 상기 감쇠 인자(103, 410, 803, 1408a-1408c)를 사용하여 상기 손실된 오디오 프레임에 선행하는 오디오 프레임의 오디오 컨텐츠를 페이드 아웃시키도록 구성되는 것을 특징으로 하는 에러 은닉 오디오 정보를 제공하기 위한 에러 은닉 유닛.
  24. 제1항 내지 제23항 중 어느 한 항에 있어서,
    상기 에러 은닉 유닛은 상기 손실된 오디오 프레임의 은닉된 스펙트럼 표현을 도출하기 위해 상기 감쇠 인자(103, 410, 803, 1408a-1408c)를 사용하여 상기 손실된 오디오 프레임에 선행하는 오디오 프레임의 스펙트럼 표현을 스케일링하도록 구성되는 것을 특징으로 하는 에러 은닉 오디오 정보를 제공하기 위한 에러 은닉 유닛.
  25. 제1항 내지 제24항 중 어느 한 항에 있어서,
    상기 에러 은닉 유닛은 상기 손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현을 획득하기 위해 스펙트럼 도메인-시간 도메인 변환을 수행하도록 구성되는 것을 특징으로 하는 에러 은닉 오디오 정보를 제공하기 위한 에러 은닉 유닛.
  26. 인코딩된 오디오 정보에서 오디오 프레임의 손실을 은닉하기 위한 에러 은닉 오디오 정보를 제공하는 에러 은닉 방법에 있어서,
    손실된 오디오 프레임에 선행하는 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 특성에 기초하여 감쇠 인자(103, 410, 803, 1408a-1408c)를 도출하는 단계, 및 상기 감쇠 인자를 사용하여 페이드 아웃을 수행하는 단계를 포함하는 것을 특징으로 하는 에러 은닉 오디오 정보를 제공하는 에러 은닉 방법.
  27. 컴퓨터 프로그램에 있어서,
    상기 컴퓨터 프로그램은 컴퓨터 상에서 실행될 때 제26항에 따른 방법을 수행하는 것을 특징으로 하는 컴퓨터 프로그램.
  28. 인코딩된 오디오 정보에 기초하여 디코딩된 오디오 정보를 제공하기 위한 오디오 디코더에 있어서,
    상기 오디오 디코더는 제1항 내지 제27항 중 어느 한 항에 따른 에러 은닉 유닛을 포함하는 것을 특징으로 하는 오디오 디코더.
KR1020187028548A 2016-03-07 2017-03-03 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 특성을 사용하는 에러 은닉 유닛, 오디오 디코더, 및 관련 방법과 컴퓨터 프로그램 KR102192999B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP16159033.6 2016-03-07
EP16159033 2016-03-07
EP16171444.9 2016-05-25
EP16171444 2016-05-25
PCT/EP2017/055107 WO2017153300A1 (en) 2016-03-07 2017-03-03 Error concealment unit, audio decoder, and related method and computer program using characteristics of a decoded representation of a properly decoded audio frame

Publications (2)

Publication Number Publication Date
KR20180123686A true KR20180123686A (ko) 2018-11-19
KR102192999B1 KR102192999B1 (ko) 2020-12-18

Family

ID=58213109

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187028548A KR102192999B1 (ko) 2016-03-07 2017-03-03 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 특성을 사용하는 에러 은닉 유닛, 오디오 디코더, 및 관련 방법과 컴퓨터 프로그램

Country Status (11)

Country Link
US (2) US10937432B2 (ko)
EP (1) EP3427258B1 (ko)
JP (1) JP6883047B2 (ko)
KR (1) KR102192999B1 (ko)
CN (1) CN109155134B (ko)
BR (1) BR112018068060A2 (ko)
CA (1) CA3016730C (ko)
ES (1) ES2870959T3 (ko)
MX (1) MX2018010756A (ko)
RU (1) RU2712093C1 (ko)
WO (1) WO2017153300A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10225395B2 (en) * 2015-12-09 2019-03-05 Whatsapp Inc. Techniques to dynamically engage echo cancellation
MX2018010756A (es) 2016-03-07 2019-01-14 Fraunhofer Ges Forschung Unidad de ocultamiento de error, decodificador de audio, y método relacionado y programa de computadora que usa características de una representación decodificada de una trama de audio decodificada apropiadamente.
WO2020164751A1 (en) * 2019-02-13 2020-08-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder and decoding method for lc3 concealment including full frame loss concealment and partial frame loss concealment
US20220172733A1 (en) * 2019-02-21 2022-06-02 Telefonaktiebolaget Lm Ericsson (Publ) Methods for frequency domain packet loss concealment and related decoder
CN113035208B (zh) * 2021-03-04 2023-03-28 北京百瑞互联技术有限公司 一种音频解码器的分级错误隐藏方法、装置及存储介质
CN114613372B (zh) * 2022-02-21 2022-10-18 北京富通亚讯网络信息技术有限公司 一种音频传输抗丢包的错误隐藏技术方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0747884A2 (en) * 1995-06-07 1996-12-11 AT&T IPM Corp. Codebook gain attenuation during frame erasures
WO2008151408A1 (en) * 2007-06-14 2008-12-18 Voiceage Corporation Device and method for frame erasure concealment in a pcm codec interoperable with the itu-t recommendation g.711
WO2014123471A1 (en) * 2013-02-05 2014-08-14 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for controlling audio frame loss concealment
WO2015003027A1 (en) * 2013-07-05 2015-01-08 Dolby International Ab Packet loss concealment apparatus and method, and audio processing system
WO2015063045A1 (en) * 2013-10-31 2015-05-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal
KR20160022363A (ko) * 2013-06-21 2016-02-29 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 에러 은닉 동안 스위칭된 오디오 코딩 시스템들을 위해 개선된 신호 페이드 아웃을 위한 장치 및 방법

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6675054B1 (en) 1998-04-20 2004-01-06 Sun Microsystems, Inc. Method and apparatus of supporting an audio protocol in a network environment
US6597961B1 (en) * 1999-04-27 2003-07-22 Realnetworks, Inc. System and method for concealing errors in an audio transmission
JP4449108B2 (ja) * 1999-08-05 2010-04-14 パナソニック株式会社 音声復号装置
FR2813722B1 (fr) * 2000-09-05 2003-01-24 France Telecom Procede et dispositif de dissimulation d'erreurs et systeme de transmission comportant un tel dispositif
SE527669C2 (sv) 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Förbättrad felmaskering i frekvensdomänen
WO2006079349A1 (en) 2005-01-31 2006-08-03 Sonorit Aps Method for weighted overlap-add
US20070282601A1 (en) * 2006-06-02 2007-12-06 Texas Instruments Inc. Packet loss concealment for a conjugate structure algebraic code excited linear prediction decoder
CN101155140A (zh) * 2006-10-01 2008-04-02 华为技术有限公司 音频流错误隐藏的方法、装置和系统
ES2947516T3 (es) * 2006-10-25 2023-08-10 Fraunhofer Ges Forschung Aparato y procedimiento para la generación de valores de subbanda de audio de valor complejo
KR101292771B1 (ko) * 2006-11-24 2013-08-16 삼성전자주식회사 오디오 신호의 오류은폐방법 및 장치
JP4708446B2 (ja) 2007-03-02 2011-06-22 パナソニック株式会社 符号化装置、復号装置およびそれらの方法
EP2136358A4 (en) 2007-03-16 2011-01-19 Panasonic Corp LANGUAGE ANALYSIS DEVICE, LANGUAGE ANALYSIS PROCEDURE, LANGUAGE ANALYSIS PROGRAM AND SYSTEM INTEGRATION CIRCUIT
DE102007018484B4 (de) * 2007-03-20 2009-06-25 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Senden einer Folge von Datenpaketen und Decodierer und Vorrichtung zum Decodieren einer Folge von Datenpaketen
JP5012897B2 (ja) 2007-07-09 2012-08-29 日本電気株式会社 音声パケット受信装置、音声パケット受信方法、およびプログラム
FR2929466A1 (fr) 2008-03-28 2009-10-02 France Telecom Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
CN102057424B (zh) 2008-06-13 2015-06-17 诺基亚公司 用于经编码的音频数据的错误隐藏的方法和装置
EP2975610B1 (en) 2010-11-22 2019-04-24 Ntt Docomo, Inc. Audio encoding device and method
RU2630390C2 (ru) * 2011-02-14 2017-09-07 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для маскирования ошибок при стандартизированном кодировании речи и аудио с низкой задержкой (usac)
US9047863B2 (en) 2012-01-12 2015-06-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for criticality threshold control
WO2013183977A1 (ko) 2012-06-08 2013-12-12 삼성전자 주식회사 프레임 에러 은닉방법 및 장치와 오디오 복호화방법 및 장치
US9633662B2 (en) 2012-09-13 2017-04-25 Lg Electronics Inc. Frame loss recovering method, and audio decoding method and device using same
EP3011555B1 (en) 2013-06-21 2018-03-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Reconstruction of a speech frame
BR112015031181A2 (pt) 2013-06-21 2017-07-25 Fraunhofer Ges Forschung aparelho e método que realizam conceitos aperfeiçoados para tcx ltp
ES2746034T3 (es) * 2013-10-31 2020-03-04 Fraunhofer Ges Forschung Decodificador de audio y método para proporcionar una información de audio decodificada usando un ocultamiento de error sobre la base de una señal de excitación de dominio de tiempo
EP2922056A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation
MX2018010756A (es) 2016-03-07 2019-01-14 Fraunhofer Ges Forschung Unidad de ocultamiento de error, decodificador de audio, y método relacionado y programa de computadora que usa características de una representación decodificada de una trama de audio decodificada apropiadamente.
MX2018010754A (es) * 2016-03-07 2019-01-14 Fraunhofer Ges Forschung Unidad de ocultamiento de error, decodificador de audio y método relacionado y programa de computadora que desaparece una trama de audio ocultada de acuerdo con factores de amortiguamiento diferentes para bandas de frecuencia diferentes.

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0747884A2 (en) * 1995-06-07 1996-12-11 AT&T IPM Corp. Codebook gain attenuation during frame erasures
WO2008151408A1 (en) * 2007-06-14 2008-12-18 Voiceage Corporation Device and method for frame erasure concealment in a pcm codec interoperable with the itu-t recommendation g.711
WO2014123471A1 (en) * 2013-02-05 2014-08-14 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for controlling audio frame loss concealment
US20150228287A1 (en) * 2013-02-05 2015-08-13 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for controlling audio frame loss concealment
KR20160022363A (ko) * 2013-06-21 2016-02-29 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 에러 은닉 동안 스위칭된 오디오 코딩 시스템들을 위해 개선된 신호 페이드 아웃을 위한 장치 및 방법
WO2015003027A1 (en) * 2013-07-05 2015-01-08 Dolby International Ab Packet loss concealment apparatus and method, and audio processing system
WO2015063045A1 (en) * 2013-10-31 2015-05-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
EVS Codec Error Concealment of Lost Packets (3GPP TS 26.447 version 12.0.0 Release 12). ETSI TS 126 447 V12.0.0. 2014.10. *

Also Published As

Publication number Publication date
BR112018068060A2 (pt) 2019-01-08
CN109155134A (zh) 2019-01-04
ES2870959T3 (es) 2021-10-28
JP2019512733A (ja) 2019-05-16
RU2712093C1 (ru) 2020-01-24
KR102192999B1 (ko) 2020-12-18
US20210056977A1 (en) 2021-02-25
US11386906B2 (en) 2022-07-12
US20190005965A1 (en) 2019-01-03
JP6883047B2 (ja) 2021-06-02
US10937432B2 (en) 2021-03-02
EP3427258B1 (en) 2021-03-31
EP3427258A1 (en) 2019-01-16
CA3016730C (en) 2021-09-28
CN109155134B (zh) 2023-05-23
CA3016730A1 (en) 2017-09-14
WO2017153300A1 (en) 2017-09-14
MX2018010756A (es) 2019-01-14

Similar Documents

Publication Publication Date Title
KR102192998B1 (ko) 상이한 주파수 대역에 대한 상이한 감쇠 인자에 따라 은닉된 오디오 프레임을 페이드 아웃하는 에러 은닉 유닛, 오디오 디코더, 및 관련 방법과 컴퓨터 프로그램
US10249309B2 (en) Audio decoder and method for providing a decoded audio information using an error concealment modifying a time domain excitation signal
US10283124B2 (en) Audio decoder and method for providing a decoded audio information using an error concealment based on a time domain excitation signal
KR102192999B1 (ko) 적절히 디코딩된 오디오 프레임의 디코딩된 표현의 특성을 사용하는 에러 은닉 유닛, 오디오 디코더, 및 관련 방법과 컴퓨터 프로그램

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant