KR20160045917A

KR20160045917A - 오디오 프레임 손실 은폐를 제어하기 위한 방법 및 장치

Info

Publication number: KR20160045917A
Application number: KR1020167009636A
Authority: KR
Inventors: 스테판 브르흔; 요나스 스베드베르그
Original assignee: 텔레폰악티에볼라겟엘엠에릭슨(펍)
Priority date: 2013-02-05
Filing date: 2014-01-22
Publication date: 2016-04-27
Also published as: WO2014123471A1; MY170368A; CN108899038B; EP2954518B1; US20190267011A1; CN104969290B; AU2014215734B2; ES2750783T3; SG10201700846UA; MX2020001307A; RU2020122689A; AU2016225836B2; PL3125239T3; CA2900354A1; DK3125239T3; PH12018500083A1; PH12018500083B1; US9293144B2; AU2018203449B2; CA2978416A1

Abstract

본 발명의 예시의 실시형태에 따르면, 수신된 오디오 시그널의 손실된 오디오 프레임을 위한 은폐 방법을 제어하기 위한 그 방법 및 장치가 개시된다. 손실된 오디오 프레임을 은폐하기 위한 디코더에 대한 방법은, 이전에 수신된 및 복원된 오디오 시그널의 성질에 있어서, 또는 관찰된 프레임 손실의 통계적인 성질에 있어서, 손실된 프레임의 대체가 상대적으로 감소된 품질을 제공하는 조건을 검출한다. 조건이 검출되는 경우, 대체 프레임 스펙트럼의 위상 또는 스펙트럼 매그니튜드를 선택적으로 조정함으로써, 은폐 방법을 수정한다.

Description

오디오 프레임 손실 은폐를 제어하기 위한 방법 및 장치{METHOD AND APPARATUS FOR CONTROLLING AUDIO FRAME LOSS CONCEALMENT}

본 출원은 수신된 오디오 시그널의 손실된 오디오 프레임을 위한 은폐 방법을 제어하기 위한 방법 및 장치와 관련된다.

통상적인 오디오 통신 시스템은 프레임으로 스피치 및 오디오 시그널을 전송하는데, 이는 우선 송신 측면은, 예를 들어 전송 패킷 내의 논리적인 유닛으로서 실질적으로 인코딩 및 전송되는, 예를 들어 20-40 ms의 짧은 세그먼트 또는 프레임으로 시그널을 배열하는 것을 의미한다. 수신기는 각각의 이들 유닛을 디코딩하고 대응하는 시그널 프레임들을 복원하는데, 이들은 차례로 복원된 시그널 샘플의 연속적인 시퀀스로서 최종적으로 출력한다. 인코딩에 앞서서, 마이크로폰으로부터의 아날로그 스피치 또는 오디오 시그널을 오디오 샘플의 시퀀스로 변환하는 아날로그 투 디지털(A/D) 변환 단계가 통상적으로 있게 된다. 반대로, 수신 단부에서, 로우드스피커 플레이백을 위해 복원된 디지털 시그널 샘플의 시퀀스를 시간 연속적인 아날로그 시그널로 변환하는, 전형적으로 최종인 D/A 변환 단계가 있게 된다.

그런데, 스피치 및 오디오 시그널을 위한 이러한 전송 시스템은 전송 에러를 겪을 수 있는데, 이 전송 에러는 하나 또는 다수의 전송된 프레임이 복원을 위해 수신기에서 이용할 수 없는 상황을 발생시킬 수 있다. 이 경우, 디코더는 각각의 삭제된, 즉 이용할 수 없는 프레임에 대한 대체 시그널을 생성해야 한다. 이는, 수신기-측면 시그널 디코더의, 소위 프레임 손실 또는 에러 은폐 유닛에서 행해진다. 프레임 손실 은폐의 목적은, 가능한 들을 수 없게 프레임 손실을 만들고, 그러므로 복원된 시그널 품질에 대한 프레임 손실의 충격을 가능한 많이 완화하는 것이다.

통상적인 프레임 손실 은폐 방법은, 예를 들어 이전에 수신된 코덱 파라미터의 반복의 형태를 적용함으로써, 코덱의 구조 또는 아키텍처에 의존할 수 있다. 이러한 파라미터 반복 기술은 사용된 코덱의 특정 파라미터에 명확하게 의존적이고, 그러므로 다른 구조를 갖는 다른 코덱에 대해서 용이하게 적용가능하지 않다. 현재의 프레임 손실 은폐 방법은, 손실된 프레임에 대한 대체 프레임을 생성하기 위해서, 예를 들어 이전에 수신된 프레임의 파라미터를 프리징(freezing) 및 추정하는 개념을 적용할 수 있다. 종래 기술 프레임 손실 은폐 방법의 이들 상태는 소정의 버스트 손실 핸들링 방안을 포함한다. 일반적으로, 열 내의 다수의 프레임 손실 후, 합성된 시그널은 이것이 긴 버스트 에러 후 완전히 뮤트(mute)될 때까지, 감쇠된다. 더욱이, 기본적으로 반복 및 추정되는 코딩 파라미터는 감쇠가 완수되도록 및 스펙트럼의 피크가 평탄해지도록 수정된다.

전형적으로, 현재 최신 프레임 손실 은폐 기술은, 손실된 프레임에 대한 대체 프레임을 생성하기 위해서 이전에 수신된 프레임의 파라미터를 프리징 및 추정하는 개념을 적용한다. AMR 또는 AMR-WB와 같은 선형 예측 코덱과 같은 많은 파라미터의 스피치 코덱은, 전형적으로 더 일찍 수신된 파라미터를 프리징(freeze)하거나 또는 그 소정 추정을 사용 및 이들과 함께 디코더를 사용한다. 근본적으로, 원리는 코딩/디코딩을 위한 주어진 모델을 갖고 프리징된 또는 추정된 파라미터와 동일한 모델을 적용하는 것이다. AMR 및 AMR-WB의 프레임 손실 은폐 기술은 대표적인 것으로 간주될 수 있다. 이들은, 대응하는 표준 사양에서 상세히 명기된다.

오디오 코덱의 클래스 중에서 많은 코덱이 코딩 주파수 도메인 기술에 대해서 적용된다. 이는, 소정의 주파수 도메인 변환 후, 코딩 모델이 스펙트럼의 파라미터에 적용되는 것을 의미한다. 디코더는 수신된 파라미터로부터 시그널 스펙트럼을 복원하고, 최종적으로 스펙트럼을 시간 시그널로 변환한다. 전형적으로, 시간 시그널은 프레임 바이 프레임 복원된다. 이러한 프레임은 오버랩 애드(overlap-add) 기술에 의해 최종 복원된 시그널에 결합된다. 오디오 코덱의 경우에 있어서도, 전형적으로, 최신 에러 은폐가 손실된 프레임을 위한 동일한 또는 적어도 유사한 디코딩 모델에 적용된다. 이전에 수신된 프레임으로부터의 주파수 도메인 파라미터는 프리징 또는 적합하게 추정되고, 그 후, 주파수-대-시간 도메인 변환에서 사용된다. 이러한 기술들에 대한 예들은, 3GPP 표준에 따른 3GPP 오디오 코덱으로 제공된다.

전형적으로, 프레임 손실 은폐를 위한 현재 최신 솔루션은 품질 손상을 겪을 수 있다. 중요 문제점은, 파라미터 프리징 및 추정 기술 및 심지어 손실된 프레임에 대한 동일한 디코더 모델의 재적용이 이전에 디코딩된 시그널 프레임으로부터 손실된 프레임으로의 매끄럽고 신뢰할 수 있는 시그널 에볼루션을 항상 보장하지 않는 것이다. 전형적으로, 이는 대응하는 품질 충격을 갖는 가청 시그널 불연속들을 발생시킨다.

스피치 및 오디오 전송 시스템에 대한 프레임 손실 은폐를 위한 새로운 방안이 기술된다. 새로운 방안은, 종래의 프레임 손실 은폐 기술로 달성할 수 있는 품질에 걸친 프레임 손실에 있어서, 품질을 향상시킨다.

본 발명 실시형태의 목적은, 바람직하게는 복원된 시그널의 최상의 가능한 사운드 품질이 달성되도록 기술된 관련된 새로운 방법의 타입인, 프레임 손실 은폐 방안을 제어하는 것이다. 실시형태는, 시그널의 성질들 및 프레임 손실의 시간적인 분배의 성질들에 대해서 모두 이 복원 품질을 최적화하는 것이 목표이다. 특히, 프레임 손실 은폐가 양호한 품질을 제공하는데 있어서의 문제는, 오디오 시그널이 에너지 온셋 또는 오프셋과 같은 강하게 변화하는 성질을 가질 때 또는 이것이 스펙트럼적으로 매우 변동하는 경우들에서 일어난다. 이 경우, 기술된 은폐 방법은 온셋, 오프셋 또는 스펙트럼의 변동을 반복할 수 있는데, 오리지널 시그널 및 대응하는 품질 손실로부터의 큰 편차를 발생시킨다.

다른 문제의 경우는, 프레임 손실의 버스트가 연이어 발생하는 것이다. 개념적으로, 기술된 방법에 따른 프레임 손실 은폐를 위한 방안은, 귀찮은 음색의 아티팩츠(tonal artifacts)가 여전히 발생할 수 있는 것으로 판명됨에도, 이러한 경우에 대처할 수 있다. 본 발명 실시형태의 다른 목적은, 가장 높은 가능한 정도로 이러한 아티팩츠를 완화하는 것이다.

제1측면에 따르면, 손실된 오디오 프레임을 은폐하는 디코더를 위한 방법은, 이전에 수신된 및 복원된 오디오 시그널의 성질에 있어서, 또는 관찰된 프레임 손실의 통계적인 성질에 있어서, 손실된 프레임의 대체가 상대적으로 감소된 품질을 제공하는 조건을 검출하는 단계를 포함하여 구성된다. 조건이 검출되는 경우, 대체 프레임 스펙트럼의 위상 또는 스펙트럼 매그니튜드를 선택적으로 조정함으로써, 은폐 방법을 수정한다.

제2측면에 따르면, 디코더는 손실된 오디오 프레임의 은폐를 구현하도록 구성되고, 이전에 수신된 및 복원된 오디오 시그널의 성질에 있어서, 또는 관찰된 프레임 손실의 통계적인 성질에 있어서, 손실된 프레임의 대체가 상대적으로 감소된 품질을 제공하는 조건을 검출하는 제어기를 포함하여 구성된다. 이러한 조건이 검출되는 경우, 제어기는 대체 프레임 스펙트럼의 위상 또는 스펙트럼 매그니튜드를 선택적으로 조정함으로써, 은폐 방법을 수정하도록 구성된다.

디코더는, 예를 들어 모바일 폰과 같은 장치에서 구현될 수 있다.

제3측면에 따라서, 수신기는 상기된 제2측면에 따른 디코더를 포함하여 구성된다.

제4측면에 따르면, 손실된 오디오 프레임을 은폐하기 위한 컴퓨터 프로그램이 규정되고, 컴퓨터 프로그램은, 프로세서에 의해 구동될 때, 프로세서가, 상기된 제1측면과 일치해서, 손실된 오디오 프레임을 은폐하게 하는 명령을 포함하여 구성된다.

제5측면에 따르면, 컴퓨터 프로그램 프로덕트는 상기된 제4측면에 따른 컴퓨터 프로그램을 기억하는 컴퓨터 판독가능한 매체를 포함하여 구성된다.

실시형태 해결에 의한 장점은, 상기된 은폐 방법으로만 달성된 프레임에 더 걸쳐서도, 코딩된 스피치 및 오디오 시그널에서 프레임 손실의 가청 충격을 완화하도록 허용하는, 적응 프레임 손실 은폐 방법의 제어를 해결하는 것이다. 실시형태의 일반적인 이익은, 손실된 프레임에 대해서도 복원된 시그널의 매끄럽고 신뢰할 수 있는 에볼루션을 제공하는 것이다. 프레임 손실의 가청 충격은 최신 기술을 사용하는 것과 비교해서 크게 감소된다.

본 발명의 예시의 실시형태를 더 완전히 이해하기 위해서, 첨부된 도면과 관련된 이하 상세한 설명이 참조되는데:
도 1은 직사각형 윈도우 함수를 나타낸 도면.
도 2는 해밍 윈도우와 직사각형 윈도우의 결합을 나타낸 도면.
도 3은 윈도우 함수의 매그니튜드 스펙트럼의 예를 나타낸 도면.
도 4는 주파수 f_k를 갖는 일례의 사인 곡선 시그널의 라인 스펙트럼을 도시한 도면.
도 5는 주파수 f_k를 갖는 윈도우의 사인 곡선 시그널의 스펙트럼을 나타낸 도면.
도 6은 분석 프레임에 기반한 DFT의 그리드 포인트의 매그니튜드에 대응하는 바(bar)를 도시한 도면.
도 7은 DFT 그리드 포인트 P1, P2 및 P3를 통한 포물선 피팅(fitting)을 도시하는 도면.
도 8은 윈도우 스펙트럼의 메인 로우브의 피팅을 도시하는 도면.
도 9는 DFT 그리드 포인트 P1 및 P2를 통한 메인 로우브 근사 함수 P의 피팅을 도시하는 도면.
도 10은 수신된 오디오 시그널의 손실된 오디오 프레임을 위한 은폐 방법을 제어하기 위한 본 발명의 실시형태에 따른 일례의 방법의 흐름도.
도 11은 수신된 오디오 시그널의 손실된 오디오 프레임을 위한 은폐 방법을 제어하기 위한 본 발명의 실시형태에 따른 다른 예의 방법을 도시하는 흐름도.
도 12는 본 발명의 다른 예의 실시형태를 도시하는 도면.
도 13은 본 발명의 실시형태에 따른 일례의 장치를 나타내는 도면.
도 14는 본 발명의 실시형태에 따른 다른 예의 장치를 나타내는 도면.
도 15는 본 발명의 실시형태에 따른 다른 예의 장치를 나타내는 도면.

기술된 새로운 프레임 손실 은폐 기술을 위한 새로운 제어 방안은, 도 10에 나타낸 바와 같이 다음의 단계를 포함한다. 방법이 디코더 내의 제어기에서 구현될 수 있는 것에 유의해야 한다.

1. 이전에 수신된 및 복원된 오디오 시그널의 성질에 있어서 또는 관찰된 프레임 손실의 통계적인 성질에 있어서 조건을 검출, 이에 대해서 기술된 방법에 따른 손실된 프레임의 대체가 상대적으로 감소된 품질을 제공한다, 101.

2. 단계 1에서 조건이 검출되는 경우, 방법의 엘리먼트를 수정, 이에 따라서 대체 프레임 스펙트럼이 위상 또는 스펙트럼 매그니튜드를 선택적으로 조정함으로써 Z(m) = Y(m)·e^jθ _k에 의해 계산된다, 102.

사인 곡선의 분석

새로운 제어 기술이 적용될 수 있는 프레임 손실 은폐 기술의 제1단계는, 이전에 수신된 시그널의 부분의 사인 곡선의 분석을 포함한다. 이 사인 곡선 분석의 목적은 그 시그널의 메인 사인 곡선의 주파수를 발견하는 것이고, 기저의 상정은 시그널이 제한된 수의 개별 사인 곡선으로 이루어지는, 즉 이것이 다음의 타입의 멀티-사인 시그널로 이루어지는 것이다:

이 방정식에서 K는 시그널이 구성하는 것으로 상정되는 사인 곡선의 수이다. 인덱스 k = 1 ...K를 갖는 각각의 사인 곡선에 대해서, a_k는 진폭, f_k는 주파수, 및

은 위상이다. 샘플링 주파수는 f_s로 표시되고, 시간 이산 시그널 샘플 s(n)의 시간 인덱스는 n으로 표시된다.

가능한 한 사인 곡선의 정확한 주파수를 발견하는 것은 중요하다. 이상적인 사인 곡선의 시그널은 라인 주파수 f_k를 갖는 라인 스펙트럼을 갖게 되는 한편, 그들의 참 값의 발견은 원리적으로 무한 측정 시간을 요구하게 된다. 그러므로, 이들이, 본 명세서에서 기술된 사인 곡선의 분석에 대해서 사용된 시그널 세그먼트에 대응하는 짧은 측정 주기에 기반해서만 추정될 수 있으므로, 실제로 이들 주파수를 발견하는 것은 어렵다; 이 시그널 세그먼트는, 이하 분석 프레임으로서 언급된다. 다른 어려움은, 시그널이, 실제로, 시간-가변이 될 수 있는 것인데, 이는 상기 방정식의 파라미터가 시간에 걸쳐서 변화하는 것을 의미한다. 그러므로, 한편으로 측정이 보다 정확해 지게 하는 긴 분석 프레임을 사용하는 것이 바람직하고; 다른 한편으로 짧은 측정 주기가 가능한 한 시그널 변화를 더 잘 극복하기 위해서 필요하게 된다. 양호한 트레이드 오프는, 예를 들어 20-40 ms 정도의 분석 프레임 길이를 사용하는 것이다.

사인 곡선 f_k의 주파수를 식별하는 바람직한 가능성은 분석 프레임의 주파수 도메인 분석을 만드는 것이다. 이 목적을 위해서, 분석 프레임은, 예를 들어 DFT 또는 DCT 또는 유사한 주파수 도메인 변환에 의해 주파수 도메인으로 변환된다. 분석 프레임의 DFT이 사용되는 경우, 스펙트럼은 다음으로 주어진다:

이 방정식에서, w(n)은 윈도우 함수를 표시하고, 이와 함께 길이 L의 분석 프레임이 추출 및 가중된다. 전형적인 윈도우 함수는, 예를 들어 직사각형 윈도우인데, 이는 도 1에 나타낸 바와 같이 n∈[0 ...L-1]에 대해서 1과 등가이고, 그렇지 않으면 0이다. 여기서, 분석 프레임이 시간 인덱스 n=0 ...L-1로 참조 되도록 이전에 수신된 오디오 시그널의 시간 인덱스가 설정되는 것으로 상정된다. 스펙트럼의 분석을 위해 더 적합할 수 있는 다른 윈도우 함수는, 예를 들어 해밍 윈도우, 해닝(Hanning) 윈도우, 카이저(Kaiser) 윈도우 또는 블랙맨(Blackman) 윈도우이다. 특히 유용한 것으로 밝혀진 윈도우 함수는, 해밍 윈도우와 직사각형 윈도우의 결합이다. 이 윈도우는, 도 2에 나타낸 바와 같이, 길이 L1의 해밍 윈도우의 좌측 반과 같은 상승하는 에지 형상과, 길이 L1의 해밍 윈도우의 우측 반과 같은 하강하는 에지 형상 및, 윈도우가 L-L1의 길이에 대해서 1과 등가인 상승하는 에지와 하강하는 에지 사이를 갖는다.

윈도윙된 분석 프레임의 매그니튜드 스펙트럼의 피크 |X(m)|는, 요구된 사인 곡선의 주파수 f_k의 근사를 구성한다. 그런데, 이 근사의 정확성은 DFT의 주파수 스페이싱에 의해 제한된다. 블록 길이 L을 갖는 DFT와 함께, 정확성은

로 제한된다.

실험은, 이 레벨의 정확성이 본 명세서에서 기술된 방법의 범위 내에서 너무 낮게 될 수 있는 것을 나타낸다. 개선된 정확성이 다음의 고려의 결과에 기반해서 획득될 수 있다:

윈도윙된 분석 프레임의 스펙트럼은, DFT의 그리드 포인트에서 실질적으로 샘플링된, 사인 곡선 모델 시그널 S(Ω)의 라인 스펙트럼을 갖는 윈도우 함수의 스펙트럼의 콘볼루션으로 주어진다:

사인 곡선 모델 시그널의 스펙트럼 표현을 사용함으로써, 이는 다음과 같이 쓰여질 수 있다

그러므로, 샘플링된 스펙트럼은 다음과 같이 주어진다

m = 0 ...L-1과 함께,

이 고려에 기반해서, 분석 프레임의 매그니튜드 스펙트럼에서 관찰된 피크가 K 사인 곡선을 갖는 윈도윙된 사인 곡선의 시그널로부터 기인하는 것으로 추정되는데, 여기서 참의 사인 곡선 주파수가 피크 근방에서 발견된다.

m_k를 관찰된 k번째 피크의 DFT 인덱스(그리드 포인트)로 놓으면, 대응하는 주파수는

인데, 이는 참의 사인 곡선의 주파수 f_k의 근사로 간주될 수 있다. 참의 사인 곡선 주파수 f_k는 간격

내에 놓이는 것으로 상정될 수 있다.

명확성을 위해서, 윈도우 함수의 스펙트럼과 사인 곡선 모델 시그널의 라인 스펙트럼의 스펙트럼과의 콘볼루션이 윈도우 함수 스펙트럼의 주파수-시프트된 버전의 중첩으로서 이해될 수 있고, 이에 의해 시프트 주파수가 사인 곡선의 주파수인 것에 유의하자. 그 다음, 이 중첩은 DFT 그리드 포인트에서 샘플링된다. 이들 단계는 다음의 도면들로 도시된다. 도 3은 일례의 윈도우 함수의 매그니튜드 스펙트럼을 도시한다. 도 4는 단일 사인 곡선의 주파수를 갖는 일례의 사인 곡선 시그널의 매그니튜드 스펙트럼(라인 스펙트럼)을 나타낸다. 도 5는 사인 곡선의 주파수에서 주파수-시프트된 윈도우 스펙트럼을 복제 및 중첩하는 윈도우의 사인 곡선 시그널의 매그니튜드 스펙트럼을 나타낸다. 도 6의 바는 분석 프레임의 DFT를 계산함으로써 획득한 윈도윙된 사인 곡선의 DFT의 그리드 포인트의 매그니튜드에 대응한다. 모든 스펙트럼이 정규화 주파수 파라미터 Ω와 함께 주기적이고, 여기서 Ω = 2π이며, 샘플링 주파수 f_s에 대응하는 것에 유의해야 한다.

이전에 논의 및 도 6의 도시는, 참의 사인 곡선 주파수의 양호한 근사가 사용된 주파수 도메인 변환의 주파수 레졸루션을 통한 서치의 레졸루션을 증가시키는 것을 통해서만 발견될 수 있는 것을 제안한다.

사인 곡선의 주파수 f_k의 양호한 근사를 발견하기 위한 하나의 바람직한 방식은, 포물선 보간을 적용하는 것이다. 하나의 이러한 접근은, 포물선을 피크를 에워싸는 DFT 매그니튜드 스펙트럼의 그리드 포인트를 통해 피팅하는(fit: 맞추는) 것이고, 포물선 최대에 속하는 각각의 주파수를 계산하는 것이다. 포물선의 차수를 위한 적합한 선택은 2이다. 상세하게는, 다음의 과정이 적용될 수 있다:

1. 윈도윙된 분석 프레임의 DFT의 피크를 식별. 피크 서치는 피크의 수 K 및 피크의 대응하는 DFT 인덱스를 산출하게 된다. 피크 서치는, 전형적으로 DFT 매그니튜드 스펙트럼 또는 로그의 DFT 매그니튜드 스펙트럼 상에서 만들어질 수 있다.

2. 대응하는 DFT 인덱스 m_k를 갖는 각각의 피크 k(k = 1 ...K와 함께)에 대해서, 3개의 포인트 ｛P1; P2; P3｝ = ｛( m_k -1, log(|X(m_k -1)|);(m_k, log(|X(m_k)|);(m_k +1, log(|X(m_k +1)|)｝를 통한 포물선을 피팅한다. 이는,

에 의해 규정되는 포물선의 포물선 계수 b_k(0), b_k(1), b_k(2)로 귀결된다.

이 포물선 피팅은 도 7에 도시된다.

3. 각각의 K 포물선에 대해서, 포물선이 그 최대를 갖는 q의 값에 대응하는 보간된 주파수 인덱스

를 계산한다. 사인 곡선 주파수 f_k에 대한 근사로서

를 사용한다.

기술된 접근은 양호한 결과를 제공하지만, 포물선이 윈도우 함수의 매그니튜드 스펙트럼 |W(Ω)|의 메인 로우브의 형상에 근사하지 않으므로, 소정의 제한들을 가질 수 있다. 이를 행하는 대안적인 방안은, 이하 기술된 바와 같이 메인 로우브 근사를 사용하는 개선된 주파수 추정이다. 이 대안의 메인 아이디어는,

의 메인 로우브에 근사하는 함수 P(q)를, 피크를 에워싸고 함수 최대에 속하는 각각의 주파수를 계산하는, DFT 매그니튜드 스펙트럼의 그리드 포인트를 통해 피팅하는 것이다. 함수 P(q)는 윈도우 함수의 주파수-시프트된 매그니튜드 스펙트럼

과 동일하게 될 수 있다. 그런데, 수치의 편의상, 이는, 예를 들어 함수 최대의 간단한 계산을 허용하는 다항식이 되어야 한다. 다음의 상세한 과정이 적용될 수 있다:

1. 윈도윙된 분석 프레임의 DFT의 피크를 식별. 피크 서치는 피크의 수 K 및 피크의 대응하는 DFT 인덱스를 산출하게 된다. 전형적으로, 피크 서치는 DFT 매그니튜드 스펙트럼 또는 로그의 DFT 매그니튜드 스펙트럼에 대해서 만들어질 수 있다.

2. 주어진 간격(q₁,q₂)에 대한 윈도우 함수의 매그니튜드 스펙트럼

또는 로그의 매그니튜드 스펙트럼

에 근사하는 함수 P(q)를 도출. 윈도우 스펙트럼 메인 로우브에 근사하는 근사 함수의 선택이 도 8에 의해 도시된다.

3. 대응하는 DFT 인덱스 m_k를 갖는 각각의 피크 k(k = 1 ...K와 함께)에 대해서, 주파수-시프트된 함수

를 윈도우의 사인 곡선 시그널의 연속적인 스펙트럼의 기대의 참 피크를 둘러싸는 2개의 DFT 그리드 포인트를 통해 피팅한다. 그러므로, |X(m_k- 1)|이 |X(m_k+1)|보다 크면,

를 포인트｛P₁; P₂｝ = ｛(m_k-1, log(|X(m_k-1)|);(m_k, log(|X(m_k)|)｝를 통해 피팅하고, 그렇지 않으면 포인트 ｛P₁; P₂｝ = ｛(m_k, log(|X(m_k)|);(m_k+1, log(|X(m_k+1)|)｝를 통해 피팅한다. 단순화를 위해서, P(q)는 차수 2 또는 4의 다항식이 되게 선택될 수 있다. 이는, 단계 2의 근사를 단순한 선형 회귀 계산 및 간단한

의 계산에 부여한다. 간격(q₁,q₂)은 모든 피크에 대해서, 고정 및 동일하게 선택될 수 있고, 예를 들어(q₁,q₂) = (-1,1) 또는 적응할 수 있다. 적응할 수 있는 접근에 있어서, 간격은, 함수

가 관련된 DFT 그리드 포인트 ｛P₁; P₂｝의 범위 내의 윈도우 함수 스펙트럼의 메인 로우브를 고정하도록 선택될 수 있다. 피팅 프로세스는 도 9에 시각화된다.

4. 윈도윙된 사인 곡선 시그널의 연속적인 스펙트럼이 그 피크를 갖는 것으로 기대되는, 각각의 K 주파수 시프트 파라미터

에 대해서, 사인 곡선 주파수 f_k에 대한 근사로서

을 계산한다.

전송된 시그널은, 시그널이 주파수가 소정 기본 주파수 f₀의 정수 배인 사인 파로 이루어지는 것을 의미하는 고조파이다. 이는, 시그널이, 예를 들어 보이싱된 스피치 또는 유지된 소정의 악기의 톤(tone)에 대해서와 같이 매우 주기적일 때의 경우이다. 이는, 실시형태의 사인 곡선 모델의 주파수가 독립적이지 않지만, 고조파 관련성을 갖고, 동일한 기본 주파수로부터 기인하는 것을 의미한다. 이 고조파 성질의 고려는, 결과적으로 사인 곡선의 컴포넌트 주파수의 분석을 실질적으로 향상할 수 있다.

하나의 개선 가능성이 이하와 같이 요약된다:

1. 시그널이 고조파인지를 체크. 이는, 예를 들어 프레임 손실에 앞서서 시그널의 주기성을 평가함으로써 수행된다. 하나의 간단한 방법은, 시그널의 자기 상관 분석을 수행하는 것이다. 소정 시간 래그 τ> 0 에 대한 이러한 자기 상관 함수의 최대는 인디케이터로서 사용될 수 있다. 이 최대의 값이 주어진 문턱을 초과하면, 시그널은 고조파로서 간주될 수 있다. 그 다음, 대응하는 시간 래그 τ는

를 통한 기본 주파수와 관련된 시그널의 주기에 대응한다.

많은 선형 예측 스피치 코딩 방법은, 적응 코드북을 사용하는 소위 개방 또는 폐쇄된-루프 피치 예측 또는 CELP 코딩을 적용한다. 또한, 이러한 코딩 방법으로 도출된 피치 이득 및 연관된 피치 래그 파라미터는, 시그널이 고조파이면 및 각각 시간 래그에 대해서이면, 유용한 인디케이터이다.

f₀를 획득하기 위한 또 다른 방법이 이하 기술된다.

2. 정수 범위 1 ...J_max 내의 각각의 고조파 인덱스 j에 대해서, 고조파 주파수 f_j = j·f₀의 근방 내에 분석 프레임의 (로그의) DFT 매그니튜드 스펙트럼이 있는지 체크한다. f_j의 근방은 f_j 둘레의 델타 범위로서 규정될 수 있는데, 여기서 델타는 DFT 주파수 레졸루션

, 즉 간격

에 대응한다.

대응하는 추정된 사인 곡선의 주파수 f^{^^} _k를 갖는 피크가 존재하는 경우, f^{^^^} _{k =}j·f₀로 f^{^^} _k를 대체한다.

상기된 2-단계 과정에 대해서, 소정 분리 방법으로부터 인디케이서를 반듯이 사용할 필요 없이, 함축적으로 및 가능하게는 반복하는 양식으로, 시그널이 고조파인지 체크 및 기본 주파수의 도출을 만들기 위한 가능성이 있다. 일례의 이러한 기술은 다음과 같이 주어진다:

세트의 후보 값 ｛f_0,1·f_0,P｝ 중 각각의 f_0,p에 대해서, 과정 단계 2를, 대체하는 f^{^^} _k 없이 DFT 피크가, 즉 f_0,p의 정수 배인 고조파 주파수 둘레의 근방 내에 얼마나 많이 존재하는 지를 카운팅하는 것을 통해서, 적용한다. 기본 주파수 f_0,pmax를 식별하는데, 이에 대해서 최대 수의 피크가 고조파 주파수에서 또는 둘레에서 획득된다. 이 최대 수의 피크가 주어진 문턱을 초과하면, 시그널은 고조파가 되는 것으로 상정된다. 이 경우, f_0,pmax가 기본 주파수가 되는 것으로 추정될 수 있고, 이와 함께, 그 다음 단계 2가 실행되어, 개선된 사인 곡선의 주파수 f^{^^^} _k를 발생시킨다. 그런데, 더 바람직한 대안은, 우선 고조파 주파수와 일치하는 것으로 발견된 피크 주파수 f^{^^} _k에 기반해서, 기본 주파수 f₀를 최적화하는 것이다. 주파수 f^{^^} _k(m), m = 1 ...M에서 소정 세트의 M 스펙트럼의 피크와 일치하는 것으로 발견된 세트의 M 고조파, 즉 소정 기본 주파수의 정수 배 ｛n_1·n_M｝를 추정하면, 기저의 (최적화된) 기본 주파수 f_0,opt가 고조파 주파수와 스펙트럼의 피크 주파수 사이의 에러를 최소화시키기 위해서 계산될 수 있다. 최소화된 에러가 평균 제곱 에러

이면, 최적의 기본 주파수는,

로서 계산된다.

초기 세트의 후보 값 ｛ f_{0,1 ...}f_0,P｝은 DFT 피크 또는 추정된 사인 곡선의 주파수 f^{^} _k의 주파수로부터 획득될 수 있다.

추정된 사인 곡선의 주파수 f^{^} _k의 정확성을 향상시키기 위한 또 다른 가능성은, 그들의 시간적인 에볼루션을 고려하는 것이다. 이 목적을 위해서, 다수의 분석 프레임으로부터의 사인 곡선 주파수의 추정은, 예를 들어 평균 또는 예측에 의해 결합될 수 있다. 평균 또는 예측에 앞서서, 추정된 스펙트럼의 피크를 각각의 동일한 기저의 사인 곡선에 접속하는 피크 추적이 적용될 수 있다.

사인 곡선 모델을 적용

이하 기술된 프레임 손실 은폐 동작을 수행하기 위한 사인 곡선 모델의 적용이 이하와 같이 기술될 수 있다.

대응하는 인코딩된 정보가 이용될 수 없으므로, 코딩된 시그널의 주어진 세그먼트가 디코더에 의해 복원될 수 없는 것으로 상정된다. 이 세그먼트에 앞선 시그널의 부분을 이용할 수 있는 것으로, 더 상정된다. n = 0 ...N-1과 함께 y(n)를 이용할 수 없는 세그먼트가 되게 놓는데, 이에 대해서 대체 프레임 z(n)이 이용할 수 있는 이전에 디코딩된 시그널이 되게 n<0과 함께 y(n)이 생성되어야 한다. 그 다음, 제1단계에서, 길이 L 및 스타트 인덱스 n_-1의 이용할 수 시그널의 프로토타입 프레임이 윈도우 함수 w(n)로 추출되고, 주파수 도메인으로, 예를 들어 DFT에 의해 변환된다:

.

윈도우 함수는 사인 곡선의 분석에서 상기된 윈도우 함수 중 하나가 될 수 있다. 바람직하게는, 수치의 복잡성을 감소시키기 위해서, 주파수 도메인 변환된 프레임은 사인 곡선의 분석 동안 사용된 하나와 동일하게 되어야 한다.

다음 단계에서, 사인 곡선 모델 추정이 적용된다. 프로토타입 프레임의 DFT에 따라서 다음과 같이 쓰일 수 있다:

다음 단계는, 사용된 윈도우 함수의 스펙트럼이 제로에 근접한 주파수 범위에서만 상당한 기여를 갖는 것을 실현한다. 도 3에 도시된 바와 같이, 윈도우 함수의 매그니튜드 스펙트럼은 제로에 근접한 주파수에 대해서 크고, 그렇지 않으면 작다(샘플링 주파수의 반에 대응하는 -π로부터 π까지의 정규화 주파수 범위). 그러므로, 근사로서, 윈도우 스펙트럼 W(m)이 작은 양수인 m_min 및 m_max와 함께 간격 M = [-m_min, m_max]에 대해서만 비-제로인 것으로 상정된다. 특히, 윈도우 함수 스펙트럼의 근사가 사용되어, 각각의 k에 대해서 상기 표현에서 시프트된 윈도우 스펙트럼의 기여가 엄격히 비-오버래핑 되도록 한다. 그러므로, 각각의 주파수 인덱스에 대한 상기 방정식에서, 최대에서만 항상 하나의 피가수(summand)로부터, 즉 하나의 시프트된 윈도우 스펙트럼으로부터의 기여가 있게 된다. 이는, 상기 표현이 다음의 근사 표현으로 감소되는 것을 의미한다:

음이 아닌 m∈Mk에 대해서 및 각각의 k에 대해서,

.

여기서, M_k는 정수 간격을 표시

, 여기서 m_min,k 및 m_max,k는 상기 설명된 제약을 충족하여, 간격이 오버래핑되지 않도록 한다. m_min,k 및 m_max,k에 대한 적합한 선택은 이들을 작은 정수 값

, 예를 들어

= 3으로 설정하는 것이다. 그런데, 2개의 이웃하는 사인 곡선의 주파수 f_k 및 f_k+1와 관련된 DFT 인덱스가 2

보다 작으면,

는

로 설정되어, 간격이 오버래핑되지 않는 것을 보장하도록 한다. 함수 floor(.)는 이보다 작거나 등가인 함수 인수(argument)에 가장 근접한 정수이다.

실시형태에 따른 다음 단계는 상기 표현에 따른 사인 곡선 모델을 적용 및 시간으로 그 K 사인 곡선을 전개하는 것이다. 프로토타입 프레임의 시간 인덱스와 비교한 삭제된 세그먼트의 시간 인덱스가 n_-1 샘플과 다르다는 추정은, 사인 곡선의 위상이 다음과 같이 전개되는 것을 의미한다

.

그러므로, 전개된 사인 곡선 모델의 DFT 스펙트럼은 이하와 같이 주어진다:

.

이에 따라 시프트된 윈도우 함수 스펙트럼이 오버랩핑하지 않는 근사를 다시 적용하는 것은:

음이 아닌 m∈M_k에 대해서 및 각각의 k에 대해서,

를 제공한다.

프로토타입 프레임 Y_-1(m)의 DFT를 전개된 사인 곡선 모델 Y₀(m)의 DFT와 근사를 사용해서 비교하면, 매그니튜드 스펙트럼이 변경되지 않고 남는 한편, 각각의 m∈M_k에 대해서 위상이

로 시프트되는 것을 발견한다. 그러므로, 각각의 사인 곡선의 근방에서 프로토타입 프레임의 주파수 스펙트럼 계수는 사인 곡선의 주파수 f_k 및 손실된 오디오 프레임과 프로토타입 프레임 n_-1 사이의 시간 차이에 비례해서 시프트된다.

그러므로, 실시형태에 따라서, 대체 프레임은 다음의 표현에 의해 계산될 수 있다:

음이 아닌 m∈M_k에 대해서 및 각각의 k에 대해서, Z(m) = Y(m)·e^jθ _k와 함께, z(n) = IDTF｛Z(m)｝.

특정 실시형태는 어떤 간격 M_k에 속하지 않는 DFT 인덱스에 대한 위상 랜덤화를 해결한다. 상기된 바와 같이, 간격 M_k, k = 1 ...K는 이들이 엄격히 비-오버래핑이 되게 설정되어야 하는데, 이는 간격의 사이즈를 제어하는 소정 파라미터

를 사용해서 수행된다.

는 2개의 이웃하는 사인 곡선의 주파수 거리와 관련해서 작게 될 수도 있다. 그러므로, 이 경우 2개의 간격 사이의 갭이 있게 될 수도 있다. 결과적으로, 대응하는 DFT 인덱스 m에 대해서 상기 표현 Z(m) = Y(m)·e^jθ _k에 따른 위상 시프트가 규정된 것은 없다. 이 실시형태에 따른 적합한 선택은 이들 인덱스에 대한 위상을 랜덤화하는 것인데, Z(m) = Y(m)·ej^2πrand(.)를 산출하며, 여기서 함수 rand(.)는 소정 난수로 복귀한다.

이것이, 간격 M_k의 사이즈를 최적화하기 위해 복원된 시그널의 품질에 유익한 것을 발견되었다. 특히, 간격은 시그널이 매우 음색(tonal)적이면, 즉 이것이 명백하고 구별되는 스펙트럼의 피크일 때, 크게 되어야 한다. 이는, 예를 들어 시그널이 명백한 주기성을 갖는 고조파일 때의 경우이다. 시그널이 더 넓은 스펙트럼의 최대와 함께 덜 확연한 스펙트럼의 구조를 갖는 다른 경우에 있어서는, 작은 간격을 사용하는 것이 더 양호한 품질을 발생하는 것을 발견했다. 이 발견은, 또 다른 개선을 이끌어 내는데, 이에 따라서 간격 사이즈가 시그널의 성질에 따라 적용된다. 하나의 실현은 음색(tonality) 또는 주기성 검출기를 사용하는 것이다. 이 검출기가 시그널을 음색적인 것으로서 식별하면, 간격 사이즈를 제어하는

-파라미터는 상대적으로 큰 값으로 설정된다. 그렇지 않으면,

-파라미터는 상대적으로 작은 값으로 설정된다.

상기에 기반해서, 오디오 프레임 손실 은폐 방법은 다음의 단계를 포함한다:

1. 옵션으로 개선된 주파수 추정을 사용해서, 사인 곡선 모델의 구성을 이루는 사인 곡선의 주파수 f_k를 획득하기 위해서, 이용할 수 있는, 이전에 합성된 시그널의 세그먼트를 분석.

2. 이용할 수 있는 이전에 합성된 시그널로부터 프로토타입 프레임 y_-1을 추출하고, 그 프레임의 DFT를 계산.

3. 사인 곡선의 주파수 f_k 및 프로토타입 프레임과 대체 프레임 사이의 시간 전개 n_-1에 응답해서 위상 시프트 θ_K를 계산. 옵션으로, 이 단계에서, 간격 M의 사이즈가 오디오 시그널의 음색에 응답해서 적응될 수도 있다.

4. 각각의 사인 곡선 k에 대해서, 사인 곡선 주파수 f_k 둘레 근방과 관련된 DFT 인덱스에 대해서 선택적으로 θ_K를 갖는 프로토타입 프레임 DFT의 위상을 전개.

5. 단계 4에서 획득된 스펙트럼의 역 DFT 계산.

시그널 및 프레임 손실 성질 분석 및 검출

상기된 방법은, 오디오 시그널의 성질이 이전에 수신된 및 복원된 시그널 프레임 및 손실된 프레임으로부터의 짧은 시간 듀레이션(duration) 동안 상당히 변경되지 않는다는 가정에 기반한다. 이 경우 이전에 복원된 프레임의 매그니튜드 스펙트럼을 유지 및 이전에 복원된 시그널에서 검출된 사인 곡선의 메인 컴포넌트의 위상을 전개하는 것은 매우 양호한 선택이다. 그런데, 이러한 가정이 잘못된 경우가 있는데, 예를 들어 갑작스런 에너지 변경 또는 갑작스런 스펙트럼의 변경에 따른 트랜션트이다.

본 발명에 따른 트랜션트 검출기의 제1실시형태는, 결과적으로 이전에 복원된 시그널 내에서의 에너지 변동에 기반한다. 도 11에 도시된 이 방법은, 소정의 분석 프레임의 좌측 부분 및 우측 부분 내의 에너지를 계산한다, 113. 분석 프레임은 상기된 사인 곡선의 분석을 위해 사용된 프레임과 동일하게 될 수 있다. 분석 프레임의 부분(좌측 또는 우측)은 분석 프레임의 처음 또는 각각의 나중 반 또는, 예를 들어 분석 프레임의 처음 또는 각각의 나중 1/4이 될 수 있다, 110. 각각의 에너지 계산은 이들 부분적인 프레임 내의 샘플의 제곱을 합산함으로써 수행된다:

및

여기서 y(n)은 분석 프레임을 표시하고, n_left 및 n_right는 사이즈 N_part 모두인 부분적인 프레임의 각각의 스타트 인덱스를 표시한다.

이제, 좌측 및 우측 부분적인 프레임 에너지는 시그널 불연속의 검출을 위해 사용된다. 이는 비율을 계산함으로써 수행된다

.

갑작스런 에너지 감소(오프셋)를 갖는 불연속은, 비율 R_l/r이 소정 문턱(예를 들어 10)을 초과하면 검출될 수 있다, 115. 유사하게, 갑작스런 에너지 증가(온셋)를 갖는 불연속은, 비율 R_l/r이 소정 다른 문턱(예를 들어, 0.1) 아래이면 검출될 수 있다, 117.

상기된 은폐 방법의 문맥에 있어서, 상기 규정된 에너지 비율은 많은 경우너무 둔감한 인디케이터가 될 수 있다. 특히, 실재 시그널 및 특히 뮤직에 있어서는, 어떤 주파수에서의 톤이 갑작스럽게 출현하는 한편 어떤 다른 주파수에서의 소정의 다른 톤이 갑작스럽게 정지하는 경우가 있다. 상기-규정된 에너지 비율로 이러한 시그널 프레임을 분석하는 것은, 어떤 경우에서는, 이 인디케이터가 다른 주파수에 둔감하므로, 적어도 하나의 톤에 대해서 잘못된 검출 결과를 이끌어 내게 된다.

이 문제점에 대한 솔루션은 다음의 실시형태에 기술된다. 트랜션트 검출은 이제 시간 주파수 평면에서 수행된다. 분석 프레임은 좌측 및 우측 부분적인 프레임으로 다시 구획된다, 110. 이를 통해서, 이들 2개의 부분적인 프레임(예를 들어, 해밍 윈도우에 의한 적합한 윈도윙 후, 111)은, 예를 들어 N_part-포인트 DFT에 의해 주파수 도메인으로 변환된다, 112.

및

, m = 0 ...N_part-1와 함께.

이제, 트랜션트 검출이 인덱스 m과 함께 각각의 DFT 빈에 대해서 주파수 선택적으로 수행될 수 있다. 좌측 및 우측 부분적인 프레임 매그니튜드 스펙트럼의 파워를 사용해서, 각각의 DFT 인덱스 m에 대해서, 각각의 에너지 비율이 다음과 같이 계산될 수 있다, 113,

.

실험들은, DFT 빈 레졸루션으로의 주파수 선택적인 트랜션트 검출이 통계적인 변동(추정 에러)에 기인해서 상대적으로 부정확한 것을 나타낸다. 동작의 품질은, 주파수 밴드에 기반한 주파수 선택적인 트랜션트 검출이 만들어질 때, 보다 개선되는 것이 발견되었다. l_k = [m_k-1 + 1, ..., m_k]를 m_k-1+ 1로부터 m_k로의 DFT 빈을 커버하는 k번째 간격, k = 1 ...K를 명기하는 것으로 놓으면, 이들 간격은 K 주파수 밴드를 규정한다. 주파수 그룹 선택적인 트랜션트 검출은, 이제 좌측 및 우측 부분적인 프레임의 각각의 밴드 에너지 사이의 밴드 와이즈(band-wise) 비율에 기반한다:

.

간격 l_k = [m_k-1 + 1, ..., m_k]이 주파수 밴드

에 대응하고, 여기서 f_s가 오디오 샘플링 주파수를 표시하는 것에 유의하자.

가장 낮은 하부 주파수 밴드 바운더리 m₀는 0으로 설정될 수 있지만 또한 하부 주파수와 함께 성장하는 추정 에러를 완화하기 위해서 더 큰 주파수에 대응하는 DFT 인덱스로 설정될 수도 있다. 가장 높은 상부 주파수 밴드 바운더리 m_K는

로 설정될 수 있지만, 바람직하게는 트랜션트가 여전히 상당한 가청 효과를 갖는 소정 하부 주파수에 대응해서 선택된다.

이들 주파수 밴드 사이즈 또는 폭에 대한 적합한 선택은 이들을 등가 사이즈, 예를 들어 다수의 100 Hz의 폭으로 만드는 것이다. 다른 바람직한 방식은, 휴먼 청각의 임계 밴드의 사이즈 다음에 주파수 밴드 폭을 만드는, 즉 이들을 청각의 시스템의 주파수 레졸루션에 관련시키는 것이다. 이는, 1 kHz까지의 주파수에 대해서 동등한 주파수 밴드 폭을 근사적으로 만들기 위한 및, 이들을 지수적으로 1 kHz 이상으로 증가시키기 위한 것을 의미한다. 지수적인 증가는, 예를 들어 밴드 인덱스 k로 증분할 때 주파수 대역폭을 2배로 하는 것을 의미한다.

2개의 부분적인 프레임의 에너지 비율에 기반했던 트랜션트 검출기의 제1실시형태에 기술된 바와 같이, 2개의 부분적인 프레임의 밴드 에너지 또는 DFT 빈 에너지와 관련된 어떤 비율은 소정의 문턱과 비교된다. 각각의 (주파수 선택적인) 오프셋 검출 115에 대한 상부 문턱 및 (주파수 선택적인) 온셋 검출 117에 대한 각각의 하부 문턱이 각각 사용된다.

프레임 손실 은폐 방법의 적응에 적합한 또 다른 오디오 시그널 의존적인 인디케이터는 디코더에 전송된 코덱 파라미터에 기반할 수 있다. 예를 들어, 코덱은 ITU-T G.718와 같은 멀티-모드 코덱이 될 수 있다. 이러한 코덱은 다른 시그널 타입에 대해서 특정 코덱 모드를 사용할 수 있고, 프레임 손실 직전의 프레임 모드에서의 코덱 모드의 변경은 트랜션트에 대한 인디케이터로서 간주될 수 있다.

프레임 손실 은폐의 적응을 위한 다른 유용한 인디케이터는, 보이싱 성질 및 전송된 시그널과 관련된 코덱 파라미터이다. 보이싱은, 휴먼 보컬 트랙트(tract)의 주기적인 성문음의 여기(glottal excitation)에 의해 생성된 높은 주기적인 스피치와 관련된다.

또 다른 바람직한 인디케이터는 시그널 콘텐츠가 뮤직 또는 스피치로 추정되는지이다. 이러한 인디케이터는 전형적으로 코덱의 부분이 될 수 있는 시그널 분류기로부터 획득될 수 있다. 코덱이 이러한 분류를 수행하고, 디코더에 대한 코딩 파라미터로서 이용할 수 있는 대응하는 분류 결정을 만드는 경우, 이 파라미터는 바람직하게는 프레임 손실 은폐 방법을 적응하기 위해 사용되는 시그널 콘텐츠 인디케이터로서 사용된다.

프레임 손실 은폐 방법의 적응을 위해 바람직하게 사용된 다른 인디케이터는, 프레임 손실의 버스트니스(burstiness)이다. 프레임 손실의 버스트니스는, 연이은 다수의 프레임 손실이 일어나서, 프레임 손실 은폐 방법이 그 동작을 위해 유효한 최근에 디코딩된 시그널 부분을 사용하기 어렵게 만드는 것을 의미한다. 최신 인디케이터는 연이은 관찰된 프레임 손실의 버스트 수 n_burst이다. 이 카운터는 각각의 프레임 손실에 따라 하나 증분되고, 유효 프레임의 수취에 따라 제로로 리셋된다. 또한, 이 인디케이터는, 본 발명의 본 예의 콘텍스트에서 사용된다.

프레임 손실 은폐 방법의 적응

상기 수행된 단계가 프레임 손실 은폐 동작의 적응을 제안하는 조건을 가리키는 경우, 대체 프레임의 스펙트럼의 계산은 수정된다.

대체 프레임 스펙트럼의 오리지널 계산은 표현 Z(m) = Y(m)·e^jθ _K에 따라 수행되는 한편, 이제 매그니튜드 및 위상 모두를 수정하는 적응이 도입된다. 매그니튜드는 2개의 팩터 α(m) 및 β(m)로 스케일링함으로써 수정되고, 위상은 부가적인 위상 컴포넌트

(m)로 수정된다. 이는 대체 프레임의 다음의 수정된 계산을 이끌어 낸다:

.

오리지널(비-적응된) 프레임-손실 은폐 방법이 α(m) = 1, β(m) = 1, 및

(m) = 0이면 사용되는 것에 유의하자. 그러므로, 이들 각각의 값은 디폴트이다.

매그니튜드 적응을 도입하는 일반적인 목적은 프레임 손실 은폐 방법의 가청 아티팩츠를 회피하는 것이다. 이러한 아티팩츠는 트랜션트 사운드의 반복으로부터 발생하는 뮤직의 또는 음색의 사운드 또는 이상한 사운드가 된다. 이러한 아티팩츠는 차례로 품질 저하를 발생시키고, 그 회피는 기술된 적응의 목적이다. 이러한 적응에 적합한 방식은 대체 프레임의 매그니튜드 스펙트럼을 적합한 디그리(degree)로 수정하는 것이다.

도 12는 은폐 방법 수정의 실시형태를 도시한다. 매그니튜드 적응, 123은 바람직하게는 버스트 손실 카운터 n_burst가 소정 문턱 thr_burst, 예를 들어 thr_burst = 3을 초과하면 수행된다, 121. 이 경우, 1보다 작은 값이 감쇠 팩터, 예를 들어 α(m) = 0.1에 대해서 사용된다.

그런데, 점차 증가하는 디그리로 감쇠를 수행하는 것이 유익한 것을 발견했다. 이를 완수하는 하나의 바람직한 실시형태는, 프레임 당 감쇠, att_per_frame의 로그의 증가를 명기하는 로그의 파라미터를 규정하는 것이다. 그 다음, 버스트 카운터가 문턱을 초과하는 경우, 점차 증가하는 감쇠 팩터가 다음에 의해 계산된다

.

여기서 상수 c는 단지 스케일링 상수이며, 예를 들어 데시벨(dB)로 파라미터 att_per_frame를 명기하도록 허용한다.

부가적인 바람직한 적응은, 시그널이 뮤직 또는 스피치로 추정되는지의 인디케이터에 응답해서 수행된다. 스피치 콘텐츠와 비교해서 뮤직 콘텐츠에 대해서, 문턱 thr_burst을 증가시키고 프레임 당 감쇠를 감소시키는 것이 바람직하다. 이는, 낮은 디그리로 프레임 손실 은폐 방법의 적응을 수행하는 것과 동등하다. 적응의 이 종류의 배경은, 뮤직이 일반적으로 스피치보다 더 긴 손실 버스트에 덜 민감한 것이다. 그러므로, 오리지널, 즉 수정되지 않은 프레임 손실 은폐 방법은, 이 경우 적어도 연이은 프레임 손실의 더 큰 수에 대해서 여전히 바람직하다.

매그니튜드 감쇠 팩터에 관한 은폐 방법의 또 다른 적응은, 바람직하게는 인디케이터 R_{l/r, band}(k) 또는 대안적으로 R_l/r(m) 또는 R_l/r가 문턱을 통과한 것에 기반해서 트랜지션이 검출된 경우 수행된다, 122. 이 경우, 적합한 적응 액션, 125은 제2매그니튜드 감쇠 팩터 β(m)를 수정해서, 전체 감쇠가 2개의 팩터의 프로덕트 α(m)·β(m)에 의해 제어되도록 하는 것이다.

β(m)는 가리켜진 트랜션트에 응답해서 설정된다. 오프셋이 검출되는 경우, 팩터 β(m)는 바람직하게는 오프셋의 에너지 감소를 반영하도록 바람직하게 선택된다. 적합한 선택은 β(m)를 검출된 이득 변경으로 설정하는 것이다:

m∈I_k, k - 1 ...K에 대해서

.

온셋이 검출되는 경우, 대체 프레임에서의 에너지 증가를 제한하는 것이 바람직한 것을 발견했다. 이 경우, 팩터가, 예를 들어 1의 소정의 고정된 값으로 설정될 수 있는데, 감쇠가 없지만 어떤 진폭도 또한 없는 것을 의미한다.

상기에 있어서, 매그니튜드 감쇠 팩터가 바람직하게는 주파수 선택적으로, 즉 개별적으로 계산된 팩터로 각각의 주파수 밴드에 대해서 적용된다. 밴드 접근이 사용되지 않는 경우, 대응하는 매그니튜드 감쇠 팩터가 유사한 방식으로 여전히 획득될 수 있다. 그 다음, β(m)가, 주파수 선택적인 트랜션트 검출이 DFT 빈 레벨 상에서 사용되는 경우, 개별적으로 각각의 DFT 빈에 대해서 설정될 수 있다. 또는, 주파수 선택적인 트랜션트 인디케이션이 전혀 사용되지 않는 경우, β(m)는 모든 m에 대해서 전반적으로 동일하게 될 수 있다.

매그니튜드 감쇠 팩터의 또 다른 바람직한 적응은, 부가적인 위상 컴포넌트

(m)에 의한 위상의 수정과 함께 수행된다. 주어진 m에 대해서 이러한 위상 수정이 사용되는 경우, 감쇠 팩터 β(m)는 더 감소한다. 바람직하게는, 위상 수정의 디그리도 고려된다. 위상 수정이 적당하면, β(m)만이 약간 스케일 다운되는 한편, 위상 수정이 강하면, β(m)가 더 큰 디그리로 스케일 다운된다.

위상 적응을 도입하는 일반적인 목적은, 생성된 대체 프레임에서 너무 강한 음색 또는 시그널 주기성을 회피하는 것인데, 이는 차례로 품질 저하를 발생시키게 된다. 이러한 적응에 적합한 방식은 위상을 적합한 디그리 랜덤화 또는 디더(dither)하는 것이다.

이러한 위상 디더링은, 부가적인 위상 컴포넌트

(m)가 소정 제어 팩터로 스케일된 랜덤 값으로 설정되면 완수된다:

(m) = a(m)·rand(·).

함수 rand(.)로 획득된 랜덤 값은, 예를 들어 소정의 의사-난수 생성기에 의해 생성된다. 여기서, 이것은 간격 [0, 2π] 내에서 난수를 제공하는 것으로 상정된다.

상기 방정식에서 스케일링 팩터 a(m)는 디그리(digree)를 제어하는데, 이에 의해 오리지널 위상 θ_K이 디더된다. 다음의 실시형태는 이 스케일링 팩터의 제어에 의해 위상 적응을 해결한다. 스케일링 팩터의 제어는 상기된 매그니튜드 수정 팩터의 제어와 유사한 방식으로 수행된다.

제1실시형태에 따라서, 스케일링 팩터 a(m)는 버스트 손실 카운터에 응답해서 적응된다. 버스트 손실 카운터 n_burst가 소정 문턱 thr_burst를 초과하면, 예를 들어 thr_burst = 3이면, 0보다 큰 값, 예를 들어 a(m) = 0.2가 사용된다.

그런데, 점차 증가하는 디그리로 디더링을 수행하는 것이 유익한 것을 발견했다. 이를 완수하는 하나의 바람직한 실시형태는, 프레임 당 디터링에서의 증가를 명기하는 파라미터, dith_increase_per_frame를 규정하는 것이다. 그 다음, 버스트 카운터가 문턱을 초과하는 경우, 점차 증가하는 디더링 제어 팩터가 다음과 같이 계산된다

.

상기 공식에 있어서, a(m)은 1의 최대 값으로 제한되어야 하고, 이에 대해서 전체 위상 디더링이 달성되는 것에 유의하자.

위상 디터링을 개시하기 위해 사용된 버스트 손실 문턱 값 thr_burst이 매그니튜드 감쇠에 대해서 사용된 것과 동일한 문턱이 될 수 있는 것에 유의하자. 그런데, 양호한 품질은 이들 문턱을 개별적으로 최적의 값으로 설정함으로써 획득될 수 있는데, 이는 일반적으로 이들 문턱들이 다르게 될 수 있는 것을 의미한다.

부가적인 바람직한 적응이 인디케이터 시그널이 뮤직 또는 스피치로 추정되는지에 응답해서 수행된다. 스피치 콘텐츠와 비교해서 뮤직 콘텐츠에 대해서, 문턱 thr_burst을 증가시키는 것이 바람직한데, 스피치와 비교함에 따라 뮤직에 대한 위상 디더링이 연이은 더 손실된 프레임의 경우에서만 행해지는 것을 의미한다. 이는, 낮은 디그리로 뮤직에 대한 프레임 손실 은폐 방법의 적응을 수행하는 것과 동등하다. 이 종류의 적응의 배경은, 뮤직이 스피치보다 더 긴 손실 버스트에 대해서 일반적으로 덜 민감한 것이다. 그러므로, 오리지널의, 즉 수정되지 않은 프레임 손실 은폐 방법이 이 경우에 대해서, 연이은 적어도 더 큰 수의 프레임 손실들에 대해서 여전히 바람직하다.

또 다른 바람직한 실시형태는, 검출된 트랜션트에 응답해서 위상 디더링을 적응하는 것이다. 이 경우, 더 강한 디그리의 위상 디더링이 DFT 빈 m에 대해서 사용될 수 있는데, 이에 대해서 트랜션트는 그 빈, 대응하는 주파수 밴드의 또는 전체 프레임의 DFT 빈 모두에 대해서 가리겨질 수 있다.

상기된 방안의 부분은 고조파 시그널 및 특히 보이싱된 스피치에 대한 프레임 손실 은폐 방법의 최적화를 해결한다.

상기된 바와 같이 개선된 주파수 추정을 사용하는 방법이 실현되지 않는 경우, 보이싱된 스피치 시그널에 대한 품질을 최적화하는 프레임 손실 은폐 방법에 대한 다른 적응 가능성은, 뮤직 및 스피치를 포함하는 일반적인 오디오 시그널에 대해서 보다 스피치에 대해서 특히 설계 및 최적화된 소정의 다른 프레임 손실 은폐 방법으로 스위칭하는 것이다. 이 경우, 시그널이 보이싱된 스피치 시그널을 포함하여 구성되는 인디케이터가 상기된 방안과 다른 스피치-최적화된 프레임 손실 은폐 방안을 선택하기 위해 사용된다.

실시형태는, 도 13에 도시된 바와 같이, 디코더 내의 제어기에 적용된다. 도 13은 실시형태에 따른 디코더의 계략적인 블록도이다. 디코더(130)는 인코딩된 오디오 시그널을 수신하도록 구성된 입력 유닛(132)을 포함하여 구성된다. 도면은 논리적인 프레임 손실 은폐-유닛(134)에 의한 프레임 손실 은폐를 도시하는데, 이는 디코더가 상기된 실시형태에 따라서 손실된 오디오 프레임의 은폐를 구현하도록 구성된다. 더욱이, 디코더는 상기된 실시형태를 구현하기 위한 제어기(136)를 포함하여 구성된다. 제어기(136)는 이전에 수신된 및 복원된 오디오 시그널의 성질에 있어서 또는 관찰된 프레임 손실의 통계적인 성질에 있어서 조건을 검출하도록 구성되는데, 이에 대해서 기술된 방법에 따른 손실된 프레임의 대체가 상대적으로 감소된 품질을 제공한다. 이러한 경우, 조건이 검출되고, 제어기(136)는 은폐 방법의 엘리먼트를 수정하도록 구성되고, 이에 따라서 대체 프레임 스펙트럼이 위상 또는 스펙트럼 매그니튜드를 선택적으로 조정함으로써 Z(m) = Y(m)·e^jθ _k로 계산된다. 검출이 검출기 유닛(146)에 의해 수행될 수 있고, 수정이 도 14에 도시된 바와 같이 수정기 유닛(148)에 의해 수행될 수 있다.

디코더 및 그 포함하는 유닛들은 하드웨어로 구현될 수 있다. 디코더의 유닛들의 기능을 달성하기 위해 사용 및 결합될 수 있는 회로 엘리먼트의 다수의 변형이 있다. 이러한 변형들은 실시형태에 의해 망라된다. 디코더의 특정 예의 하드웨어 구현은, 일반-목적 전자 장치 회로 및 애플리케이션-특정 회로 모두를 포함하는, 디지털 시그널 프로세서(DSP) 하드웨어 및 집적 회로 기술로의 구현이다.

본 명세서에서 기술된 디코더(150)는, 오디오 시그널을 복원하기 위해서, 대안적으로, 예를 들어 도 15에 도시된 바와 같이, 즉 적합한 스토리지 또는 메모리(156)를 갖는 하나 이상의 프로세서(154) 및 충분한 소프트웨어(155)에 의해 구현되는데, 그러므로 이는 도 13에 도시된 바와 같이 본 명세서에 기술된 실시형태에 따라 오디오 프레임 손실 은폐를 수행하는 것을 포함한다. 인입하는 인코딩된 오디오 시그널이 입력(IN)(152)에 의해 수신되는데, 이에 대해서 프로세서(154) 및 메모리(156)가 접속된다. 소프트웨어로부터 획득된 디코딩된 및 복원된 오디오 시그널은 출력(OUT)(158)으로부터 출력된다.

상기된 기술은, 예를 들어 수신기에서 사용될 수 있는데, 이는 퍼스널 컴퓨터와 같은 모바일 장치(예를 들어, 모바일 폰, 랩탑) 또는 정지 장치 내에서 사용될 수 있다.

상호 작용하는 유닛 또는 모듈의 선택만 아니라 유닛의 네이밍은 예시를 위한 것이며, 개시된 처리 액션을 실행할 수 있게 하기 위해서 복수의 대안적인 방식이 구성될 수 있는 것으로 이해되어야 한다.

이 개시 내용에 기술된 유닛 또는 모듈은 논리적인 엔티티로서 간주되고, 분리된 물리적인 엔티티로서 요구되지 않는 것에 유의해야 한다. 본 명세서에 기술된 기술의 범위는 다른 실시형태를 완전히 망라하며, 이들 실시형태는 본 기술 분야의 당업자에 대해서 명백하게 될 수 있고, 본 개시 내용의 범위는 이에 따라 제한되지 않는 것으로 이해되어야 한다.

명확하게 기재하지 않는 한 단수의 엘리먼트는 "하나 이상이"아니라 "하나의 및 하나만"을 의미할 의도는 아니다. 본 기술 분야의 당업자에 공지된 상기된 실시형태의 엘리먼트에 대한 모든 구조적인 및 기능적인 등가물은 참조로 본 명세서에 통합되고, 이에 의해 망라되는 것으로 의도된다. 더욱이, 이는 본 명세서에 개시된 기술에 의해 해결되게 발견된 각각의 모든 문제를 해결하기 위한 장치 또는 방법에 대해서 필수적이지 않다.

상기된 설명에 있어서, 제한하지 않는 설명의 목적을 위해서, 개시된 기술의 완전한 이해를 제공하기 위해서 특정 아키텍처, 인터페이스, 기술 등을 설명하도록 특정 세부 사항이 설명된다. 그런데, 개시된 기술이 다른 실시형태들 및/또는 이들 특정 세부 사항으로부터 출발한 실시형태의 결합으로 실시될 수 있는 것은 당업자에게 명백하다. 즉, 본 기술 분야의 당업자는 본 명세서에 명확히게 기술되거나 나타내지 않더라도, 개시된 기술의 원리를 구현하는 다양한 배열을 고안할 수 있다. 소정의 예들에 있어서, 불필요한 상세 설명으로 개시된 기술의 설명을 불명확하게 하지 않기 위해서, 공지된 장치, 회로 및 방법의 상세한 설명은 생략된다. 개시된 기술의 원리, 측면 및 실시형태만 아니라 이들의 특정 예를 열거하는 모든 기재들은 내용은, 그 구조적인 및 기능적인 등가물 모두를 망라하도록 의도된다. 부가적으로, 이러한 등가물은 현재 공지된 등가물만 아니라 미래에 개발된 등가물, 예들 들어 구조에 관계없이 동일한 기능을 수행하는 개발된 어떤 엘리먼트를 포함하도록 의도된다.

따라서, 예를 들어, 본 기술 분야의 당업자에 의하면, 본 명세서의 도면들은, 기술의 원리를 구현하는 도시의 회로 또는 다른 기능 유닛 및/또는, 이러한 컴퓨터 또는 프로세서가 도면에 명확하게 도시되지 않았음에도, 컴퓨터 판독가능한 매체에서 실질적으로 반복될 수 있고, 컴퓨터 또는 프로세서에 의해 실행될 수 있는 다양한 프로세스의 개념적인 뷰를 나타낼 수 있는 것으로 이해한다.

기능 블록을 포함하는 다양한 엘리먼트의 기능이, 회로 하드웨어 및/또는, 컴퓨터 판독가능한 매체에 기억된 코딩된 명령의 형태로 소프트웨어를 실행할 수 있는 하드웨어와 같은 하드웨어의 사용을 통해서 제공될 수 있다. 따라서, 이러한 기능 및 도시된 기능 블록들은, 하드웨어-구현된 및/또는 컴퓨터-구현된 것으로서, 따라서 머신-구현된 것으로서 이해된다.

상기된 실시형태는, 본 발명의 몇몇 예시적인 예들로서 이해된다. 본 기술 분야의 당업자에 의해서는, 다양한 수정, 결합 및 변경이 본 발명의 범위를 벗어남이 없이 실시형태를 만들 수 있는 것으로 이해한다. 특히, 다른 실시형태에서의 다른 부분 솔루션은, 기술적으로 가능한 다른 구성으로 결합될 수 있다.

130 디코더,
132 입력,
134 프레임 손실 은폐,
136 제어기.

Claims

수신된 오디오 시그널의 손실된 오디오 프레임을 위한 은폐 방법을 제어하기 위한 방법으로서:
- 오리지널 은폐 방법이 대체 프레임을 생성하기 위해서 사용될 때, 이전에 수신된 및 복원된 오디오 시그널의 성질에 있어서, 차선의 복원 품질을 이끌어 낼 수 있는 트랜션트 조건을 검출(101, 122)하는 단계와;
- 트랜션트 조건이 검출될 때, 대체 프레임 스펙트럼의 스펙트럼 매그니튜드를 선택적으로 조정함으로써, 오리지널 은폐 방법을 수정(102, 125)하는 단계와;
- 오리지널 은폐 방법이 대체 프레임을 생성하기 위해 사용될 때, 관찰된 프레임 손실의 통계적인 성질에 있어서, 차선의 복원 품질을 이끌어 낼 수 있는 제2조건을 더 검출(101, 121)하는 단계와;
- 제2조건이 검출될 때, 대체 프레임 스펙트럼의 스펙트럼 매그니튜드를 선택적으로 조정함으로써, 오리지널 은폐 방법을 더 수정(102, 123, 127)하는 단계를 포함하여 구성되는 것을 특징으로 하는 방법.
제1항에 있어서,
오리지널 은폐 방법이:
- 이전에 수신된 또는 복원된 오디오 시그널로부터 세그먼트를 추출하는 단계로서, 상기 세그먼트가 프로토타입 프레임으로서 사용되는, 추출하는 단계와;
- 사인 곡선 모델의 사인 곡선의 주파수를 획득하기 위해서 사인 곡선 모델을 프로토타입 프레임에 적용하는 단계와;
- 대체 프레임을 생성하기 위해서 획득된 사인 곡선을 시간-전개하는 단계를 포함하여 구성되는 것을 특징으로 하는 방법.
제2항에 있어서,
시간-전개하는 단계가 θ_k에 의해 획득된 사인 곡선(k)과 관련된 스펙트럼의 계수의 위상을 전개하는 단계를 포함하여 구성되고, 대체 프레임 스펙트럼의 계산이 Z(m) = Y(m)·e^jθ _k에 따라 수행되고, Y(m)은 프로토타입 프레임의 주파수 도메인 표현인 것을 특징으로 하는 방법.
제1항 내지 제3항 중 어느 한 항에 있어서,
트랜션트 조건이 검출된 오프셋을 포함하여 구성되는 것을 특징으로 하는 방법.
제1항에 있어서,
트랜션트 검출이 주파수 도메인에서 수행되는 것을 특징으로 하는 방법.
제5항에 있어서,
트랜션트 검출이 주파수 밴드에 기반해서 주파수 선택적으로 수행되는 것을 특징으로 하는 방법.
제6항에 있어서,
주파수 밴드 폭이 휴먼 청각의 임계 밴드의 사이즈를 따르는 것을 특징으로 하는 방법.
제6항 또는 제7항에 있어서,
대체 프레임의 스펙트럼 매그니튜드를 선택적으로 조정하는 것이 주파수 밴드 내에서 검출된 트랜션트에 응답해서 주파수 밴드 선택적으로 수행되는 것을 특징으로 하는 방법.
제1항에 있어서,
제2조건이 다수의 연속적인 프레임 손실의 발생인 것을 특징으로 하는 방법.
제9항에 있어서,
스펙트럼 매그니튜드가 점진적으로 증가하는 디그리로 감쇠를 수행함으로써 검출된 다수의 연속적인 프레임 손실에 응답해서 조정되는 것을 특징으로 하는 방법.
제10항에 있어서,
제2감쇠 팩터가 가리켜진 트랜션트에 응답해서 설정되고, 전체 감쇠가 제1 및 제2감쇠 팩터의 프로덕트에 의해 제어되는 것을 특징으로 하는 방법.
제1항에 있어서,
오리지널 은폐 방법이, 제2조건이 검출될 때, 대체 프레임 스펙트럼의 위상을 선택적으로 조정함으로써 더 수정되는 것을 특징으로 하는 방법.
제12항에 있어서,
대체 프레임 스펙트럼의 위상의 조정이 위상 스펙트럼의 랜덤화 또는 디더링을 포함하여 구성되는 것을 특징으로 하는 방법.
제13항에 있어서,
위상 스펙트럼이 점차 증가하는 디그리로 디더링을 수행함으로써 조정되는 것을 특징으로 하는 방법.
제1항에 따른 방법을 수행하기 위한 수단을 포함하여 구성되는 것을 특징으로 하는 장치.
프로세서(154)와,
명령(155)을 기억하는 메모리(156)를 포함하는 장치로서, 프로세서에 의해 실행될 때, 장치가,
- 오리지널 은폐 방법이 대체 프레임을 생성하기 위해서 사용될 때, 이전에 수신된 및 복원된 오디오 시그널의 성질에 있어서, 차선의 복원 품질을 이끌어 낼 수 있는 트랜션트 조건을 검출하고;
- 트랜션트 조건이 검출될 때, 대체 프레임 스펙트럼의 스펙트럼 매그니튜드를 선택적으로 조정함으로써, 오리지널 은폐 방법을 수정하며;
- 오리지널 은폐 방법이 대체 프레임을 생성하기 위해 사용될 때, 관찰된 프레임 손실의 통계적인 성질에 있어서, 차선의 복원 품질을 이끌어 낼 수 있는 제2조건을 더 검출하며;
- 제2조건이 검출될 때, 대체 프레임 스펙트럼의 스펙트럼 매그니튜드를 선택적으로 조정함으로써, 오리지널 은폐 방법을 더 수정하는 것을 특징으로 하는 장치.
제16항에 있어서,
오리지널 은폐 방법을 사용해서 대체 프레임을 생성할 때, 장치가:
- 이전에 수신된 또는 복원된 오디오 시그널로부터 세그먼트를 추출하고, 상기 세그먼트가 프로토타입 프레임으로서 사용되며;
- 사인 곡선 모델의 사인 곡선의 주파수를 획득하기 위해서 사인 곡선 모델을 프로토타입 프레임에 적용하고;
- 대체 프레임을 생성하기 위해서 획득된 사인 곡선을 시간-전개하는 것을 특징으로 하는 장치.
제17항에 있어서,
시간-전개가 θ_k에 의해 획득된 사인 곡선(k)과 관련된 스펙트럼의 계수의 위상을 전개함으로써 수행되고, 대체 프레임 스펙트럼의 계산이 Z(m) = Y(m)·e^jθ _k에 따라 수행되고, Y(m)은 프로토타입 프레임의 주파수 도메인 표현인 것을 특징으로 하는 장치.
제16항 내지 제18항 중 어느 한 항에 있어서,
트랜션트 검출기를 더 포함하여 구성되는 것을 특징으로 하는 장치.
제19항에 있어서,
트랜션트 검출기가 주파수 도메인 내에서 트랜션트 검출을 수행하도록 구성된 것을 특징으로 하는 장치.
제20항에 있어서,
트랜션트 검출기가 주파수 밴드에 기반해서 주파수 선택적인 트랜션트 검출을 수행하도록 구성된 것을 특징으로 하는 장치.
제21항에 있어서,
대체 프레임의 스펙트럼 매그니튜드를 선택적으로 조정하는 것이 주파수 밴드 내에서 검출된 트랜션트에 응답해서 주파수 밴드 선택적으로 수행되는 것을 특징으로 하는 장치.
제16항에 있어서,
제2조건이 다수의 연속적인 프레임 손실의 발생인 것을 특징으로 하는 장치.
제23항에 있어서,
스펙트럼 매그니튜드가 점진적으로 증가하는 디그리로 감쇠를 수행함으로써 검출된 다수의 연속적인 프레임 손실에 응답해서 조정되는 것을 특징으로 하는 장치.
제24항에 있어서,
제2감쇠 팩터가 가리켜진 트랜션트에 응답해서 설정되고, 전체 감쇠가 제1 및 제2감쇠 팩터의 프로덕트에 의해 제어되는 것을 특징으로 하는 장치.
제16항에 있어서,
장치가, 제2조건이 검출될 때, 대체 프레임 스펙트럼의 위상을 선택적으로 조정함으로써 오리지널 은폐 방법을 더 수정되도록 구성되는 것을 특징으로 하는 장치.
제26항에 있어서,
대체 프레임 스펙트럼의 위상의 조정이 위상 스펙트럼의 랜덤화 또는 디더링을 포함하여 구성되는 것을 특징으로 하는 장치.
제15항 또는 제16항에 있어서,
장치가 모바일 장치 내의 디코더인 것을 특징으로 하는 장치.
컴퓨터 판독가능한 코드 유닛을 포함하여 구성되는 컴퓨터 프로그램(155)을 기억하는 검퓨터 판독가능 매체로서, 장치 상에서 구동할 때, 장치가:
- 오리지널 은폐 방법이 대체 프레임을 생성하기 위해서 사용될 때, 이전에 수신된 및 복원된 오디오 시그널의 성질에 있어서, 차선의 복원 품질을 이끌어 낼 수 있는 트랜션트 조건을 검출(101)하고;
- 트랜션트 조건이 검출될 때, 대체 프레임 스펙트럼의 스펙트럼 매그니튜드를 선택적으로 조정함으로써, 오리지널 은폐 방법을 수정(102)하며;
- 오리지널 은폐 방법이 대체 프레임을 생성하기 위해 사용될 때, 관찰된 프레임 손실의 통계적인 성질에 있어서, 차선의 복원 품질을 이끌어 낼 수 있는 제2조건을 더 검출하며;
- 제2조건이 검출될 때, 대체 프레임 스펙트럼의 스펙트럼 매그니튜드를 선택적으로 조정함으로써, 오리지널 은폐 방법을 더 수정하는 것을 특징으로 하는 것을 특징으로 하는 검퓨터 판독가능 매체.
디코더(130)로서:
- 인코딩된 오디오 시그널을 수신하도록 구성된 입력 유닛(132)과;
- 손실된 오디오 프레임을 은폐하도록 구성된 논리적인 프레임 손실 은폐-유닛(134)과;
- 오리지널 은폐 방법이 대체 프레임을 생성하기 위해서 사용될 때, 이전에 수신된 및 복원된 오디오 시그널의 성질에 있어서, 차선의 복원 품질을 이끌어 낼 수 있는 트랜션트 조건을 검출하고; 트랜션트 조건이 검출될 때, 대체 프레임 스펙트럼의 스펙트럼 매그니튜드를 선택적으로 조정함으로써, 손실된 오디오 프레임의 오리지널 은폐를 수정하도록 구성된 제어기(136)를 포함하여 구성되고; 제어기는 오리지널 은폐 방법이 대체 프레임을 생성하기 위해 사용될 때, 관찰된 프레임 손실의 통계적인 성질에 있어서, 차선의 복원 품질을 이끌어 낼 수 있는 제2조건을 더 검출하며; 제2조건이 검출될 때, 대체 프레임 스펙트럼의 스펙트럼 매그니튜드를 선택적으로 조정함으로써, 오리지널 은폐 방법을 더 수정하는 것을 특징으로 하는 것을 특징으로 디코더.
제30항에 있어서,
제어기(136)가, 이전에 수신된 및 복원된 오디오 시그널의 성질에 있어서, 또는 관찰된 프레임 손실의 통계적인 성질에 있어서, 조건의 검출을 수행하기 위한 검출기 유닛(146) 및 은폐 방법의 수정을 수행하기 위한 수정기 유닛(148)을 포함하여 구성되는 것을 특징으로 하는 디코더.