KR101757338B1 - 오디오 신호의 대체 프레임에 대한 스펙트럼 계수들을 획득하기 위한 방법과 장치, 오디오 디코더, 오디오 수신기 및 오디오 신호들의 전송을 위한 시스템 - Google Patents

오디오 신호의 대체 프레임에 대한 스펙트럼 계수들을 획득하기 위한 방법과 장치, 오디오 디코더, 오디오 수신기 및 오디오 신호들의 전송을 위한 시스템 Download PDF

Info

Publication number
KR101757338B1
KR101757338B1 KR1020167001006A KR20167001006A KR101757338B1 KR 101757338 B1 KR101757338 B1 KR 101757338B1 KR 1020167001006 A KR1020167001006 A KR 1020167001006A KR 20167001006 A KR20167001006 A KR 20167001006A KR 101757338 B1 KR101757338 B1 KR 101757338B1
Authority
KR
South Korea
Prior art keywords
frame
alternate
spectrum
phase
peak
Prior art date
Application number
KR1020167001006A
Other languages
English (en)
Other versions
KR20160024918A (ko
Inventor
자닌 수코브스키
랄프 스페르슈나이더
고란 마르코비치
볼프강 예거스
크리스티안 헴리히
베른트 에들러
랄프 가이거
Original Assignee
프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베. filed Critical 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에.베.
Publication of KR20160024918A publication Critical patent/KR20160024918A/ko
Application granted granted Critical
Publication of KR101757338B1 publication Critical patent/KR101757338B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

오디오 신호의 대체 프레임(m)을 위한 스펙트럼 계수들을 획득하는 장치가 설명된다. 오디오 신호의 스펙트럼의 음조 성분은 대체 프레임(m)을 선행하는 프레임들의 스펙트럼 내에 존재하는 피크를 기초로 하여 검출된다. 스펙트럼의 음조 성분에 대해 대체 프레임(m)의 스펙트럼 내의 피크(502) 및 그것의 주변에 대한 스펙트럼 계수들이 예측되고, 스펙트럼의 비-음조 성분에 대해 대체 프레임(m)을 위한 스펙트럼 계수 또는 대체 프레임(m)을 선행하는 프레임의 상응하는 스펙트럼 계수가 사용된다.

Description

오디오 신호의 대체 프레임에 대한 스펙트럼 계수들을 획득하기 위한 방법과 장치, 오디오 디코더, 오디오 수신기 및 오디오 신호들의 전송을 위한 시스템{METHOD AND APPARATUS FOR OBTAINING SPECTRUM COEFFICIENTS FOR A REPLACEMENT FRAME OF AN AUDIO SIGNAL, AUDIO DECODER, AUDIO RECEIVER AND SYSTEM FOR TRANSMITTING AUDIO SIGNALS}
본 발명은 코딩된 오디오 신호들의 전송 분야에 관한 것으로서, 특히, 오디오 신호의 교체 프레임에 대한 스펙트럼 계수들을 획득하기 위한 방법과 장치, 오디오 디코더, 오디오 수신기 및 오디오 신호들의 전송을 위한 시스템에 관한 것이다. 실시 예들은 이전에 수신된 프레임들을 기초로 하여 교체 프레임에 대한 스펙트럼을 구성하기 위한 접근법에 관한 것이다.
종래 기술에서, 오디오 수신기에서 프레임-손실을 처리하는 몇몇 접근법이 설명된다. 예를 들면, 오디오 또는 음향 코덱의 수신기 측 상에서 프레임이 손실될 때, 다음과 같이, 참고문헌 [1]에서 설명된 것과 같은 프레임-손실-취소(frame-loss-cancellation)를 위한 간단한 방법이 사용될 수 있다:
● 마지막으로 수신된 프레임의 반복
● 손실된 프레임의 뮤팅(muting), 또는
● 부호 스크램블링(sign scrambling).
부가적으로 참고문헌 [1]에서, 서브-대역들 내의 예측기(predictor)를 사용하는 고급 기술이 존재한다. 예측기 기술은 그때 부호 스크램블링과 결합되고, 이러한 서브-대역의 스펙트럼 계수들을 위하여 어느 방법이 사용될 것인지를 결정하기 위하여 서브-대역 방식 판정 기준으로서 예측 이득이 사용된다.
참고문헌 [2]에서, 변형 이산 코사인 변환(MDCT, 이하 MDCT로 표기) 도메인 코덱을 위하여 시간 도메인 내의 파형 신호 외삽법(waveform signal extrapolation)이 사용된다. 이러한 종류의 접근법은 음향을 포함하여 모노포닉 신호(monophonic signal)들에 뛰어날 수 있다.
만일 하나의 프레임 지연이 허용되면, 손실된 프레임의 구성을 위하여 주변 프레임들의 보간이 사용될 수 있다. 그러한 접근법이 참고문헌 [3]에서 설명되는데, 지수(m)를 갖는 손실된 프레임의 음조 성분(tonal component)들의 크기들이 m-1 및 m+1로 지수화된 이웃하는 프레임들을 사용하여 보간된다. 음조 성분들에 대한 MDCT 계수 부호들을 정의하는 부가 정보는 비트-스트림 내에 전송된다. 다른 비-음조 MDCT 계수들에 대하여 부호 스크램블링이 사용된다. 음조 성분들은 가장 높은 크기들을 갖는 미리 결정된 고정된 수의 스펙트럼 계수들로서 결정된다. 이러한 접근법은 음조 성분들로서 가장 높은 크기들을 갖는 n 스펙트럼 계수들을 선택한다:
Figure 112016004083242-pct00001
도 7은 예를 들면 참고문헌 [4]에서 설명된 것과 같이 전송되는 부가 정보 없이 보간 접근법을 표현하는 블록 다이어그램을 도시한다. 보간 접근법은 MDCT(MDCT)을 사용하여 주파수 도메인 내에 코딩된 오디오 프레임들을 기초로 하여 작동한다. 프레임 보간 블록(700)은 손실된 프레임을 선행하는 프레임 및 손실된 프레임을 뒤따르는 프레임의 MDCT 계수들을 수신되는데, 더 구체적으로 도 7과 관련하여 설명되는 접근법에서, 선행 프레임의 MDCT 계수들(Cm-1 (k)) 및 뒤따르는 프레임의 MDCT 계수들(Cm+1 (k))이 프레임 보간 블록(700)에서 수신된다. 프레임 보간 블록(700)은 수신기에서 손실되었거나 또는 다른 이유들에 의해, 예를 들면 수신된 데이터 내의 오차들 등에 기인하여 수신기에서 처리될 수 없는 현재 프레임에 대한 보간된 MDCT 계수(
Figure 112016004083242-pct00002
)를 발생시킨다. 프레임 보간 블록(700)에 의해 출력된 보간된 MDCT 계수(
Figure 112016004083242-pct00003
)는 스케일 인자 대역 내의 크기 스케일링(magnitude scaling)을 야기하는 블록(702) 및 지수 세트를 갖는 크기 스케일링을 야기하는 블록(704)에 적용되고, 각각의 블록(702 및 704)은 각각, 인자(
Figure 112016004083242-pct00004
)에 의해 스케일링되는 MDCT 계수(
Figure 112016004083242-pct00005
)를 출력한다. 블록(702)의 출력 신호는 수신된 입력 신호를 기초로 하여 피크 검출 블록(708) 내로 입력되는 슈도 스펙트럼(
Figure 112016004083242-pct00006
)을 발생시키는 슈도 스펙트럼 블록(706) 내로 입력되고 신호는 검출된 피크들을 나타낸다. 블록(702)에 의해 제공되는 신호는 또한 블록(708)에 의해 발생된 피크 검출 신호에 응답하여, 수신된 신호의 신호 변화를 야기하고 스펙트럼 조성 블록(spectrum composition block, 710)에 스펙트럼 변형된 MDCT 계수(
Figure 112016004083242-pct00007
)를 출력하는 랜덤 부호 변화 블록(random sign change block, 712)에 적용된다. 블록(704)에 제공된 스케일링된 신호는 블록(708)에 의해 제공된 피크 검출 신호에 응답하여, 블록(704)에 의해 제공된 스케일링된 신호의 부호 부종을 야기하고 스펙트럼 조성 블록(710)에 의해 출력되는 보간된 MDCT 계수신된 신호들을 기초로 하여, 보간된 MDCT 계수(
Figure 112016004083242-pct00008
)를 발생시키는 스펙트럼 조성 블록(710)에 변형된 MDCT 계수(
Figure 112016004083242-pct00009
)를 출력하는 부호 보정 블록(sign correction block, 714)에 적용된다. 도 7에 도시된 것과 같이, 블록(708)에 의해 제공되는 피크 검출 신호는 또한 스케일링된 MDCT 계수를 발생시키는 블록(704)에 제공된다.
도 7은 블록(714)의 출력에서 음조 성분들과 관련된 손실된 프레임에 대한 스펙트럼 계수들(
Figure 112016004083242-pct00010
)을 발생시키고, 블록(712)의 출력에서 비-음조 성분들에 대한 스펙트럼 계수들(
Figure 112016004083242-pct00011
)이 제공되며 따라서 음조 및 비-음조 성분들을 위하여 수신된 스펙트럼 계수들을 기초로 하여 스펙트럼 조성 블록(710)에서 손실된 프레임과 관련된 스펙트럼에 대한 스펙트럼 계수들이 제공된다.
도 7의 블록 다이어그램에서 설명된 프레임 손실 은닉(Frame Loss concealment, FLC) 기술의 운영이 이제 더 상세히 설명될 것이다.
도 7에서, 기본적으로, 4가지 모듈이 구별될 수 있다:
● 형상화-잡음 삽입 모듈(shaped-noise insertion module)(프레임 보간(700), 스케일 인자 대역(702) 내의 크기 스케일링 및 임의 부호 변화(712)를 포함하는)
● MDCT 빈 분류 모듈(MDCT bin classification module) (슈도 스펙트럼(706) 및 피크 검출(708)을 포함하는),
● 음조 은닉 운영 모듈(지수 세트(704) 및 부호 보정(714) 내의 크기 스케일링을 포함하는), 및
● 스펙트럼 조성(710)
접근법은 다음의 일반적인 공식을 기초로 한다:
Figure 112016004083242-pct00012
Figure 112016004083242-pct00013
는 빈-방식 보간에 의해 유도된다(블록(700) "프레임 보간" 참조):
Figure 112016004083242-pct00014
α*(k)는 기하 평균을 사용하여 에너지 보간에 의해 유도된다::
● 모든 성분을 위한 스케일 인자 대역 방식(블록(702) "스케일인자 대역 내의 크기 스케일링" 참조) 및
● 음조 성분들을 위한 지수 서브-셋 방식(블록(704) "지수 세트 내의 크기 스케일링" 참조):
Figure 112016004083242-pct00015
● 음조 성분들에 대하여 α=cos(πf l )으로 나타낼 수 있고, 여기서 f l 은 음조 성분의 주파수이다.
간단한 평활 운영에 의해 유도되는, 슈도 파워 스펙트럼을 기초로 하여 에너지들(E)이 유도된다:
Figure 112016004083242-pct00016
s*(k)는 비-음조 성분들을 위하여 임의로 ±1로 설정되고(블록(712) "임의 부호 변화" 참조) 음조 성분들을 위하여 +1 또는 -1로 설정된다(블록(714) "부호 보정" 참조).
피크 검출은 근본적인 정현파(sinusoid)들과 상응하는 스펙트럼 피크들의 정확한 위치들을 검출하기 위하여 슈도 파워 스펙트럼 내의 국부 최대값(local maxima)을 검색하는 것과 같이 실행된다. 이는 참고문헌 [5]에 설명되는 MPEG-1 음향심리학적 모델에 적용되는 음조 식별 과정을 기초로 한다. 이 중에서 MDCT 빈들과 그것의 중심에서 검출된 피크와 관련하여 분석 윈도우의 주 로브(main-lobe)의 대역폭을 갖는 지수 서브-셋이 정의된다. 그러한 빈들은 정현파의 음조 지배적(tone dominant) MDCT 빈들로서 처리되고, 지수 서브-셋은 개별 음조 성분으로서 처리된다.
부호 보정(s * (k))은 모든 빈의 부호들을 플리핑하거나(flip), 또는 하나도 플리핑하지 않는다. 합성에 의한 분석을 사용하여 결정이 실행되는데, 즉 스위칭 주파수 변조(Switching Frequency Modulation, SFM)가 둘 모두를 위하여 유도되고 낮은 스위칭 주파수 변조를 갖는 버전이 선택된다. 스위칭 주파수 변조 유도를 위하여, 파워 스펙트럼이 필요한데, 이는 차례로 변형 이산 사인 변환(MDST, 이하 MDST로 표기) 계수들을 필요로 한다. 복잡도를 관리 가능하도록 유지하기 위하여, 음조 성분에 대해 MDST 계수들만이 유도되고, 또한 이러한 음조 성분의 MDCT 계수들만을 사용한다.
도 8은 도 7의 접근법과 비교할 때 개선되고 참고문헌 [6]에서 설명되는 전체 프레임 손실 은닉 기술의 블록 다이어그램을 도시한다. 도 8에서, 손실된 프레임을 선행하는 마지막 프레임 및 손실된 프레임을 뒤따르는 첫 번째 프레임의 MDCT 계수들(C m-1 C m+1 )이 MDCT 빈 분류 블록(800)에서 수신된다. 이러한 계수들은 또한 형태화-잡음 삽입 블록(82) 및 음조 성분들 블록(804)을 위한 MDCT 추정에 제공된다. 블록(804)에서 또한 분류 블록(800)에 의해 제공되는 출력 신호가 수신될 뿐만 아니라 각각, 손실된 프레임을 선행하는 두 번째 마지막 프레임 및 손실된 프레임을 뒤따르는 두 번째 프레임의 MDCT 계수들(C m-2 C m+2 )이 수신된다. 블록(804)은 음조 성분들에 대한 손실된 프레임의 MDCT 계수들(
Figure 112016004083242-pct00017
)을 발생시키고, 형상화-잡음 삽입 블록(802)은 비-음조 성분들에 대한 손실된 프레임(
Figure 112016004083242-pct00018
)을 위한 MDCT 스펙트럼 계수들을 발생시킨다. 이러한 계수들은 출력에서 손실된 프레임에 대한 스펙트럼 계수들(
Figure 112016004083242-pct00019
)을 발생시키는 스펙트럼 조성 블록(806)에 제공된다. 형상화-잡음 삽입 블록(802)은 추정 블록(804)에 의해 발생되는 시스템(I T )에 응답하여 운영된다.
참고문헌 [4]와 관련하여 다음의 변형들이 흥미롭다:
● 피크 검출을 위하여 사용되는 슈도 파워 스펙트럼이 다음과 같이 유도된다:
Figure 112016004083242-pct00020
● 지각적으로 무관하거나 또는 스퓨리어스 피크(spurious peak)들을 제거하기 위하여, 피크 검출은 제한된 스펙트럼 범위에만 적용되고 슈도 풔워 스펙트럼의 절대 최대에 대한 상대 임계를 초과하는 국부 최대값만이 고려된다. 나머지 피크들은 그것들의 크기의 내림 차순으로 분류되고, 사전에 지정된 수의 최고 서열 최대값이 음조 피크들로서 분류된다.
● 접근법은 다음의 일반적인 공식(α는 이번에 부호화됨(signed))을 기초로 한다:
Figure 112016004083242-pct00021
Figure 112016004083242-pct00022
은 위에서와 같이 유도되나, α의 유도는 다음의 접근법에 따라 더 진보된다:
Figure 112016004083242-pct00023
E m , E m -1 , E m +1 을 아래와 같이 대체하고
Figure 112016004083242-pct00024
반면에 다음의 공식은:
Figure 112016004083242-pct00025
α에서 2차 방정식인 표현을 생산한다. 따라서, 주어진 MDCT 추정을 위하여, 곱셈 상관 인자(A1, A2, A3는 변환 매트릭스들이다)를 위한 두 가지 후보군(반대편 부호들을 갖는)이 존재한다. 더 나은 추정의 선택은 참고문헌 [4]에 설명된 것과 유사하게 실행된다.
● 이러한 고급 접근법은 이전 및 뒤따르는 프레임의 MDST 계수들을 유도하기 위하여 프레임 손실 이전 및 이후에 두 개의 프레임을 필요로 한다.
참고문헌 [7]에서 지연 없는 버전이 제안된다:
● 시작 지점으로서, 보간 공식(
Figure 112016004083242-pct00026
)이 재사용되나, 프레임(m-1)을 위하여 적용되고, 다음을 야기한다:
Figure 112016004083242-pct00027
● 그리고 나서, 보간 결과(
Figure 112016004083242-pct00028
)는 진정한 추정(여기서는, 인자 2가 상관 인자의 일부분이 되고: α=2cos(πf l )), 이는 다음에 이르게 한다:
C m (k) = αC m -1 (k) - C m-2 (k)
● 상관 인자는 두 개의 이전 프레임의 에너지들을 관찰함으로써 결정된다. 에너지 계산으로부터, 이전 프레임의 MDST 계수들은 대략 다음과 같다:
Figure 112016004083242-pct00029
● 그리고 나서, 정현과 에너지가 다음과 같이 계산된다:
Figure 112016004083242-pct00030
● 유사하게, 프레임(m-2)에 대한 정현파 에너지가 계산되고, α와 독립적인 E m-2 에 의해 표시된다.
● 다음과 같은 에너지 요구량의 사용은:
E m -1 (α) = E m -2
다시 α에서 2차 방정식인 표현을 생산한다.
● 계산된 후보군들을 위한 선택 과정은 이전과 같이 실행되나, 판정 규칙은 이전 프레임의 파워 스펙트럼만을 간주한다.
주파수 도메인 내의 또 다른 지연 없는 프레임 손실 은닉이 참고문헌 [8]에서 설명된다. 참고문헌 [8]의 내용은 일반성을 잃지 않고 다음과 같이 단순화될 수 있다:
● 시간 신호의 이산 푸리에 변환(DFT)를 사용하는 예측:
(a) 수신된 코딩된 주파수 도메인 계수들(C m )과 상응하는 디코딩된 시간 도메인 신호로부터 이산 푸리에 변환 스펙트럼을 획득한다.
(b) 그 다음 프레임(C m +1) 내의 손실 주파수 도메인 계수들을 예측하기 위하여, 선형 위상 변이를 추정하여, 이산 푸리에 변환 크기들을 변조한다.
● 수신된 주파수 스펙트럼으로부터의 크기 추정을 사용하는 예측:
(a) 다음과 같이, 입력으로서 C m 을 사용하여 C' m S' m 을 발견한다:
Figure 112016004083242-pct00031
여기서 Qm(k)는 Cm(k)와 상응하는 이산 푸리에 변환 계수의 크기이다.
(b) 다음을 계산한다:
Figure 112016004083242-pct00032
(c) 크기 및 위상의 선형 외삽법을 실행한다:
Figure 112016004083242-pct00033
C m 으로부터 C' m S' m 을 계산하기 위하여 필터들을 사용하고 Cm+ 1(k)를 획득하기 위하여 위에서와 같이 진행한다.
● Cm+ 1(k)를 계산하기 위하여 적응 필터(adaptive filter)를 사용한다:
Figure 112016004083242-pct00034
예측되는 스펙트럼 계수들의 선택은 참고문헌 [8]에서 언급되나, 상세히 설명되지는 않는다.
참고문헌 [9]에서 준-정상(quasi-stationary) 신호들을 위하여, 연속적인 프레임들 사이의 위상 차이는 거의 일정하고 부분 주파수에만 의존한다는 사실이 인정되었다. 그러나, 마지막 두 개의 복소 스펙트럼(complex spectrum)으로부터의 선형 보간만이 사용된다.
AMR-WB+(참고문헌 [10] 참조)에서 참고문헌 [11]에서 설명되는 방법이 사용된다. 참고문헌 [11]에서의 방법은 이는 또한 현재 프레임의 일부분만이 손실되는 것을 가정하여, 현재 프레임의 이용 가능한 스펙트럼 계수들을 사용하는 의미에서 참고문헌 [8]에서 설명된 방법의 확장이다. 그러나, 프레임의 완전한 손실의 상황은 참고문헌 [11]에서는 고려되지 않는다.
MDCT 도메인 내의 또 다른 지연 없는 프레임 손실 은닉이 참고문헌 [12]에서 설명된다. 참고문헌 [12]에서 우선 손실된 P번째 프레임이 다중-고조파 프레임인지가 결정된다. 만일 P번째 프레임 앞의 K 프레임들 중에서 K0 프레임 이상이 임계 값보다 작은 스펙트럼 평탄도(spectrum flatness)를 가지면 손실된 P번째 프레임은 다중 고조파 프레임이다. 만일 손실된 P번째 프레임이 다중 고조파 프레임이면 손실된 P번째 프레임을 예측하기 위하여 MDCT-MDST 도메인 내의 (P-K)번째 내지 (P-2)번째 프레임들이 사용된다. 만일 그것의 파워 스펙트럼이 두 개의 인접한 파워 스펙트럼 계수들보다 크면 스펙트럼 계수가 피크이다. (P-1)번째 프레임을 위하여 참고문헌 [13]에서 설명되는 것과 같은 슈도 스펙트럼이 사용된다.
스펙트럼 계수들의 세트(Sc)는 다음과 같이 L1 파워 스팩트럼 계수들로부터 구성된다:
각각의 L1 프레임들 내의 피크들로 구성되는 L1 세트들(S1,..., SL1)을 획득하는데, 각각의 세트 내의 피크들의 수는 각각 N1, ..., NL1이다. S1,..., SL1의 L1 세트들로부터 세트(S1)를 선택한다. 세트(S1) 내의 각각의 피크 계수(mj, j=1...Nj)를 위하여, 모든 다른 피크 세트에 속하는 mj, m± 1, ..., m±k 중에서 어떠한 주파수 계수가 존재하는지를 판단한다. 만일 존재하면, 모든 주파수(mj, m± 1, ..., m±k)를 주파수 세트(Sc) 내로 넣는다. 만일 모든 다른 피크 세트에 속하는 주파수 계수가 존재하지 않으면, 바로 프레임 내의 모든 주파수 계수를 주파수 세트(Sc) 내로 넣는다. 상기 k는 비-음의(nonnegative) 정수이다. 세트(Sc) 내의 모든 스펙트럼 계수를 위하여, 위상은 (P-K)번째 내지 (P-2)번째 MDCT-MDST 프레임들 중에서 L2 프레임들을 사용하여 예측된다. 예측은 선형 외삽을 사용하거나(L2=2일 때) 또는 선형 핏(linear fit)을 사용하여(L2>2일 때) 수행된다. 선형 외삽을 위하여:
Figure 112016004083242-pct00035
여기서 p, t1 및 t2는 프레임 지수들이다.
세트(Sc) 내에 존재하지 않는 스펙트럼 계수들은 특별한 방법의 설명 없이, (P-1)번째 프레임 이전의 복수의 프레임을 사용하여 획득된다.
본 발명의 목적은 오디오 신호의 대체 프레임에 대한 스펙트럼 계수들을 획득하기 위한 향상된 접근법을 제공하는 것이다.
본 발명의 목적은 청구항 1의 방법, 청구항 34의 비-일시적 컴퓨터 프로그램 제품, 청구항 35 또는 청구항 36의 장치, 청구항 37의 오디오 코더, 청구항 38의 오디오 수신기 및 청구항 39의 오디오 신호들의 전송을 위한 시스템에 의해 달성된다.
본 발명은 오디오 신호의 대체 프레임에 대한 스펙트럼 계수들을 획득하기 위한 방법을 제공하는데, 방법은 다음의 단계를 포함한다:
대체 프레임을 선행하는 프레임들의 스펙트럼 내에 존재하는 피크를 기초로 하여 오디오 신호의 스펙트럼의 음조 성분을 검출하는 단계;
스펙트럼의 음조 성분에 대해, 대체 프레임의 스펙트럼 내의 피크 및 그 주변에 대한 스펙트럼 계수들을 예측하는 단계; 및
스펙트럼의 비-음조 성분에 대해, 대체 프레임의 예측되지 않은 스펙트럼 계수 또는 대체 프레임을 선행하는 프레임의 상응하는 스펙트럼 계수를 사용하는 단계.
본 발명은 오디오 신호의 대체 프레임에 대한 스펙트럼 계수들을 획득하기 위한 장치를 제공하는데, 장치는:
대체 프레임을 선행하는 프레임들의 스펙트럼 내에 존재하는 피크를 기초로 하여 오디오 신호의 스펙트럼의 음조 성분을 검출하도록 구성되는 검출기; 및
스펙트럼의 음조 성분에 대해, 대체 프레임의 스펙트럼 내의 피크 및 그 주변에 대한 스펙트럼 계수들을 예측하도록 구성되는 예측기;를 포함하고,
스펙트럼의 비-음조 성분에 대해, 대체 프레임의 예측되지 않은 스펙트럼 계수 또는 대체 프레임을 선행하는 프레임의 상응하는 스펙트럼 계수가 사용된다.
본 발명은 오디오 신호의 대체 프레임에 대한 스펙트럼 계수들을 획득하기 위한 장치를 제공하는데, 장치는 오디오 신호의 대체 프레임에 대한 스펙트럼 계수들을 획득하기 위한 본 발명에 따라 운영하도록 구성된다.
본 발명은 오디오 신호의 대체 프레임에 대한 스펙트럼 계수들을 획득하기 위한 본 발명의 장치를 포함하는, 오디오 디코더를 제공한다.
본 발명은 본 발명의 오디오 디코더를 포함하는, 오디오 수신기를 제공한다.
본 발명은 오디오 신호들의 전송을 위한 시스템을 제공하고, 시스템은:
코딩된 오디오 신호를 발생시키도록 구성되는 인코더; 및
코딩된 오디오 신호를 수신하고, 코딩된 오디오 신호를 디코딩하도록 구성되는 본 발명의 디코더;를 포함한다.
본 발명은 컴퓨터 상에서 실행될 때, 오디오 신호의 대체 프레임에 대한 스펙트럼 계수들을 획득하기 위한 본 발명의 방법을 수행하는, 명령들을 저장하는 컴퓨터로 판독 가능한 매체를 포함하는 비-일시적 컴퓨터 프로그램 제품을 제공한다.
본 발명의 접근법은 바람직한데 그 이유는 본 발명이 뛰어난 품질을 갖고 또한 어떠한 부가적인 지연을 도입하지 않고 음조 신호들의 뛰어난 프레임 손실 은닉을 제공하기 때문이다. 본 발명의 저지연 코덱은 바람직한데 그 이유는 본 발명이 음향 및 오디오 신호들 모두에서 잘 실행되고 예를 들면 오류 발생이 쉬운 환경에서, 특히 고정 음조 신호들을 위하여 달성되는 뛰어난 프레임 손실 은닉으로부터 이득을 갖기 때문이다. 모노포닉 및 폴리포닉(polyphonic) 신호들의 지연 없는 프레임 손실 은닉이 제안되는데, 이는 비-음조 신호들의 저하 없이 음조 신호들을 위한 뛰어난 결과를 제공한다.
본 발명의 실시 예들에 따르면, MDCT 도메인 내의 음조 성분들의 향상된 은닉이 제공된다. 실시 예들은 주파수 도메인 코덱 또는 스위칭된 음향/주파수 도메인 코덱과 협력하는 오디오 및 음향 코딩에 관한 것으로서, 특히 MDCT 도메인 내의 프레임 손실 은닉에 관한 것이다. 실시 예들에 따르면, 본 발명은 이전에 수신된 프레임들을 기초로 하여 손실된 프레임을 위한 MDCT 스펙트럼을 구성하기 위한 지연 없는 방법을 제안하는데, 마지막 수신된 프레임은 MDCT을 사용하여 주파수 도메인 내의 코딩된다.
바람직한 실시 예들에 따르면, 본 발명의 접근법은 만일 빈이 음조이면 판정을 개선하도록 마지막 실제 스펙트럼을 사용하거나, 또는 음조 온셋(onset) 또는 오프셋 중 어느 하나의 더 나은 검출을 위한 피치 정보(pitch information)를 사용하여, 피크의 정확한 위치 또는 장소를 획득하기 위하여 예를 들면 마지막 두 번째 복소 스펙트럼을 사용하여, 음조인 스펙트럼의 부분들의 검출을 포함하고, 피치 정보는 비트스트림 내에 이미 존재하거나 또는 디코더 측에서 유도된다. 또한, 본 발명의 접근법은 은닉되려는 고조파의 신호 적응 폭의 제공을 포함한다. 고조파의 일부분인 각각의 스펙트럼 계수의 프레임들 사이의 위상 변이 또는 위상 차이의 계산이 또한 제공되고, 이러한 계산은 마지막 두 번째 수신된 복합 MDCT 스펙트럼(CMDCT)의 필요성 없이, 마지막 이용 가능한 스펙트럼, 예를 들면 복합 MDCT 스펙트럼을 기초로 한다. 실시 예들에 따르면, 위상 차이는 마지막 수신된 복합 MDCT 스펙트럼을 사용하여 개선되고, 개선은 연속적으로 손실된 프레임들의 수에 의존하여, 적응적일 수 있다. 복합 MDCT 스펙트럼은 코덱 프레이밍을 갖는 어떠한 정렬에 대한 필요성도 방지하기 때문에 바람직한 디코딩된 시간 도메인 신호로부터 구성될 수 있고, 이는 낮은 오버랩 윈도우들의 특성들을 이용함으로써 가능한 한 손실 프레임에 가깝도록 복소 스펙트럼의 구성을 허용한다. 본 발명의 실시 예들은 시간 도메인 또는 주파수 도메인 은닉을 사용하기 위하여 프레임 당 판정(per frame decision)을 제공한다.
본 발명의 접근법은 바람직한데, 그 이유는 프레임이 손실되었을 때 또는 프레임이 대체될 필요가 있을 때 완전히 수신기 측에서 이미 이용 가능한 정보를 기초로 하여 운영하고 수신되는데 필요한 부가적인 부가 정보에 대한 어떠한 필요성도 존재하지 기 때문이며 따라서 또한 부가적인 부가 정보를 수신하거나 또는 현존하는 정보로부터 부가적인 부가 정보를 쉽게 유도하기 위한 필요성을 고려하면 종래 기술의 접근법들에서 발생하는 부가적인 지연들을 위한 어떠한 소스도 존재하지 않는다.
본 발명의 접근법은 위에 설명된 종래 기술의 장치와 비교할 때 바람직한데 그 이유는 본 발명의 접근법을 적용할 때 번 발명의 발명자들에 의해 인식된, 뒤에 설명되는 그러한 접근법들의 단점들이 방지되기 때문이다.
참고문헌 [1]에서 설명되는 프레임 손실 은닉을 위한 방법들은 충분히 강력하지 않고 음조 신호들을 위한 충분히 뛰어난 결과들을 생산하지 않는다.
참고문헌 [2]에서 설명되는 것과 같은, 시간 도메인 내의 파형 신호 외삽법은 폴리포닉 신호들을 처리할 수 없고 매우 고정적인, 음조 신호들의 은닉을 위한 증가된 복잡도를 필요로 하는데, 그 이유는 정확한 피치 래그(pitch lag)가 결정되어야만 하기 때문이다.
참고문헌 [3]에서 부가적인 지연이 도입되고 상당한 부가 정보가 필요하다. 음조 성분 선택은 매우 단순하고 비-음조 성분들 중에서 많은 피크를 선택할 것이다.
참고문헌 [4]에서 설명되는 방법은 디코더 측 상의 미리보기(look-ahead)를 필요로 하고 따라서 하나의 프레임의 부가적인 지연을 도입한다. 피크 검출을 위한 평활된 슈도 파워 스펙트럼의 사용은 피크들의 위치의 정확도를 감소시킨다. 이는 또한 검출의 신뢰성을 감소시키는데 그 이유는 단지 하나의 프레임에서만 출현하는 잡음으로부터 피크들을 검출할 것이기 때문이다.
참고문헌 [6]에서 설명되는 방법은 디코더 측 상의 미리보기를 필요로 하고 따라서 두 프레임의 부가적인 지연을 도입한다. 음조 성분 선택은 두 프레임 내의 음조 성분들을 위하여 개별적으로 검사하지 않고, 평균 스펙트럼에 의존하며, 따라서 피크 검출 임계들을 조정하는 것을 불가능하게 만드는 너무 많은 거짓 양성(false positive) 또는 거짓 음성을 가질 수 있다. 피크들의 위치는 정확할 수 없을 것인데 그 이유는 슈도 파워 스펙트럼이 사용되기 때문이다. 피크 검색을 위한 제한된 스펙트럼 범위는 슈도 파워 스펙트럼이 사용되기 때문에 일어나는 설명된 문제점들을 위한 해결책처럼 보인다.
참고문헌 [11]에서 설명되는 방법은 참고문헌 [6]에서 설명되는 방법을 기초로 하고 따라서 동일한 단점들을 갖는다. 이는 단지 부가적인 지연을 극복한다.
참고문헌 [8]에서 스펙트럼 계수가 신호의 음조 부분에 속하는 지의 판정에 관한 어떠한 상세한 설명도 존재하지 않는다. 그러나, 음조 스펙트럼 대수 검출 및 은닉 사이의 시너지 효과가 중요하고 따라서 음조 성분들의 뛰어난 검출이 중요하다. 또한, C' m S' m 을 계산하기 위하여 C m C m-1 모두에 의존하여 필터들을 사용하는 것이 인식되지 않았다(즉, C m , C m-1 S m -1 , C m C m-1 이 이용 가능할 때 S m -1 이 계산될 수 있기 때문에). 또한, 낮은 오버랩 윈도우들로 주어지는, 코딩된 신호 프레이밍에 정렬되지 않은 복소 스펙트럼을 계산하기 위한 가능성을 사용하는 것이 인식되지 않았다. 게다가, 두 번째 마지막 복소 스펙트럼만을 기초로 하여 프레임들 사이의 위상 차이를 계산하기 위한 가능성을 사용하는 것이 인식되지 않았다.
참고문헌 [12]에서 적어도 세 개의 이전 프레임은 메모리 내에 저장되어야만 하고, 이에 의해 메모리 요구량이 상당히 증가한다. 음조 은닉을 사용할 것인지의 판정은 잘못될 수 있고 하나 이상의 고조파를 갖는 프레임은 다중 고조파가 없는 프레임으로 분류될 수 있다. 마지막 수신된 MDCT 프레임은 손실된 MDCT 스펙트럼의 예측을 향상시키기 위하여 바로 사용되지 않으나, 음조 성분들의 검색에서만 사용된다. 고조파를 위하여 은닉되려는 MDCT 계수들의 수는 고정되나, 잡음 레벨에 의존하여, 하나의 고조파를 구성하는 MDCT 계수들의 가변 수(variable number)를 갖는 것이 바람직하다.
아래에서, 첨부된 도면들을 참조하여 본 발명의 실시 예들이 더 상세히 설명될 것이다.
도 1은 디코더 측에서 본 발명의 접근법을 구현하여 오디오 신호들을 전송하기 위한 시스템의 단순화된 블록 다이어그램을 도시한다.
도 2는 일 실시 예에 따른 본 발명의 접근법의 플로우 다이어그램을 도시한다.
도 3은 이웃하는 프레임들을 위한 MDCT 윈도우들을 오버래핑하는 개략적인 표현이다.
도 4는 일 실시 예에 따라 피크를 선택하기 위한 단계들을 도시한 플로우 다이어그램이다.
도 5는 하나 이상의 피크가 검출되는 프레임의 파워 스펙트럼의 개략적인 표현이다.
도 6은 "프레임 인-비트윈(frame in-between)"의 일례를 도시한다.
도 7은 전송되는 부가 정보 없이 보간 접근법을 표현하는 블록 다이어그램을 도시한다.
도 8은 도 7과 비교할 때 전체 개선된 FLC 기술의 블록 다이어그램을 도시한다.
다음에서, 본 발명의 접근법을 위한 실시 예들이 더 상세히 설명될 것이며 첨부된 도면들에서 동일하거나 유사한 기능을 갖는 구성요소들은 동일한 도면보호들로 표시되는 것을 이해하여야 한다. 아래에 MDCT을 사용하여 단지 마지막 두 개의 수신된 프레임이 코딩되면 주파수 도메인 내에서 은닉이 수행되는, 본 발명의 접근법의 실시 예들이 설명될 것이다. 두 개의 MDCT 프레임을 수신한 후에 프레임 손실에 대한 시간 또는 주파수 도메인 은닉을 사용하는지의 판정에 대한 상세내용이 또한 설명될 것이다. 아래에 설명되는 실시 예들과 관련하여 마지막 두 개의 프레임이 주파수 도메인 내에 코딩되는 필요성은 본 발명의 접근법의 적용 가능성을 감소시키지 않는데 스위칭된 코덱에서 주파수 도메인은 고정적인 음조 신호들을 위하여 사용될 것이기 때문이다.
도 1은 디코더 측에서 본 발명의 접근법을 구현하는 오디오 신호들의 전송을 위한 시스템의 단순화된 블록 다이어그램을 도시한다. 시스템은 입력(102)에서 오디오 신호(104)를 수신하는 인코더(100)를 포함한다. 인코더는 수신된 오디오 신호(104)를 기초로 하여, 인코더(100)의 출력(106)에서 제공되는 인코딩된 오디오 신호를 발생시키도록 구성된다. 인코더는 오디오 신호의 프레임들이 MDCT을 사용하여 코딩되는 것과 같이 인코딩된 오디오 신호를 제공할 수 있다. 일 실시 예에 따르면 인코더(100)는 도면부호 110에서 표시된 것과 같이, 오디오 신호의 무선 전송을 허용하기 위한 안테나(108)를 포함한다. 다른 실시 예들에서, 인코더는 예를 들면 도면부호 112에서 표시된 것과 같이, 유선 연결 라인을 통하여 출력(106)에서 제공되는 인코딩된 오디오 신호를 출력할 수 있다.
시스템은 인코더(106)에 의해 제공된 인코딩된 오디오 신호가 수신되는 입력(122)을 갖는 디코더(120)를 더 포함한다. 일 실시 예에 따르면, 디코더(120)는 인코더(100)로부터 무선 전송(110)을 수신하기 위한 안테나(124)를 포함할 수 있다. 또 다른 실시 예에서, 입력(122)은 인코딩된 오디오 신호를 수신하기 위하여 유선 전송(112)으로의 연결을 제공할 수 있다. 디코더(120)의 입력(122)에서 수신된 오디오 신호는 디코더(120)에 의해 디코딩되려는 수신된 오디오 신호의 코딩된 프레임이 대체될 필요가 있는지를 결정하는 검출기(126)에 적용된다. 예를 들면, 실시 예들에 따르면, 이는 검출기(126)가 이전 프레임을 뒤따라야만 하는 프레임이 디코더에서 수신되지 않는 것을 결정할 때 또는 수신된 프레임이 디코더 측(120)에서 그것의 디코딩을 방지하는 오류들을 가질 때의 경우일 수 있다. 검출기(126)에서 디코딩을 위하여 존재하는 프레임이 이용 가능한 것으로 결정되는 경우에, 프레임은 디코더(120)의 출력에서 디코딩된 오디오 프레임의 스트림 또는 디코딩된 오디오 신호(132)가 출력되도록 인코딩된 프레임의 디코딩이 수행되는 디코딩 블록(128)으로 진행할 것이다.
블록(126)에서 현재 처리되려는 프레임이 대체가 필요하다는 것이 결정되는 경우에, 대체가 필요하고 검출기 회로(126) 내에 버퍼링될 수 있는 현재 프레임을 선행하는 프레임들이 대체의 스펙트럼이 음조 성분들을 포함하는지를 결정하는 음조 검출기(134)에 제공된다. 어떠한 음조 성분도 제공되지 않는 경우에, 이는 잡음 발생기 또는 또 다른 종래의 잡음 발생 방법, 예를 들면 부호 스크램블링 등을 사용함으로써 발생될 수 있는 비-예측 계수들인 스펙트럼 계수들을 발생시키는 잡음 발생기/메모리 블록(136)에 표시된다. 대안으로서, 스펙트럼의 비-음조 성분들을 위한 미리 정의된 스펙트럼 계수들이 메모리, 예를 들면 룰-업 테이블(look-up table)로부터 획득될 수 있다. 대안으로서, 스펙트럼이 음조 성분들을 포함하지 않는 것이 결정될 때, 비=예측된 스펙트럼 계수들의 발생 대신에, 대체를 선행하는 프레임들 중 하나의 상응하는 스펙트럼 특성이 선택될 수 있다.
음조 검출기(134)가 스펙트럼이 음조 성분들을 포함한다는 사실을 검출하는 경우에, 각각의 신호는 뒤에 설명되는 본 발명의 실시 예들에 따라, 대체 프레임에 대한 스펙트럼 계수들을 예측하는 예측기(138)에 표시된다. 대체 프레임을 위하여 결정된 각각의 계수들은 이러한 스펙트럼 계수들을 기초로 하여, 손실 또는 대체 프레임의 디코딩이 수행되는 디코딩 블록(128)에 제공된다.
도 1에 도시된 것과 같이, 음조 검출기(134), 잡음 발생기(136) 및 예측기(138)는 디코더(120) 내의 대체 프레임에 대한 스펙트럼 계수들을 획득하기 위한 장치(140)를 정의한다. 도시된 구성요소들은 하드웨어 및/또는 소프트웨어 부품들, 예를 들면 적절하게 프로그래밍된 처리 유닛들을 사용하여 구현될 수 있다.
도 2는 일 실시 예에 따른 본 발명의 접근법의 플로우 다이어그램을 도시한다. 제 1 단계(S200)에서 예를 들면 도 1에 도시된 것과 같이 디코더(120)에서 인코딩된 오디오 신호가 수신된다. 수신된 오디오 신호는 MDCT을 사용하여 코딩되는 각각의 오디오 프레임들의 형태일 수 있다.
단계(S202)에서 디코더(120)에 의해 처리되려는 현재 프레임이 대체될 필요가 있는지가 결정된다. 대체 프레임은 예를 들면 수신된 데이터 등에서의 오류에 기인하여 프레임이 처리될 수 없는 경우에, 또는 수신기/디코더(120)로의 전송 동안에 손실된 경우에, 또는 프레임이 인코더 측으로부터 디코더 측을 향하여 시간에 맞게 수신되지 않은 경우에, 디코더 측에서 필요할 수 있다. 일 실시 예에 따르면, 만일 마지막 두 개의 수신된 프레임을 위하여 피치 정보가 이용 가능하고 만일 피치가 변경되지 않으면, 단계(S204)에서 주파수 돔네인 은닉이 바람직한 것으로 결정된다. 그렇지 않으면, 시간 도메인 은닉이 적용되어야만 하는 것으로 결정된다. 대안의 실시 예에서, 피치는 디코딩된 신호를 사용하고, 피치가 존재하는 경우에 그리고 그것이 서브-프레임들 상에서 일정한 경우에, 주파수 도메인 은닉이 사용되는 판정을 다시 사용하여 서브-프레임 기반으로 계산될 수 있고, 그렇지 않으면 시간 도메인 은닉이 사용된다.
본 발명의 또 다른 실시 예에서, 검출기, 예를 들면 디코더(120) 내의 검출기(126)가 제공될 수 있고, 검출기는 부가적으로 두 번째부터 마지막 프레임 또는 마지막 프레임 또는 대체 프레임을 선행하는 이러한 프레임들 모두의 스펙트럼을 분석하는 것과 구성될 수 있고, 발견된 피크를 기초로 하여, 신호가 모노포닉인지 또는 폴리포닉인지를 판정하도록 구성될 수 있다. 신호가 폴리포닉인 경우에, 피치 정보의 존재와 관계없이, 주파수 도메인 은닉이 사용될 것이다. 부가적으로, 디코더(120) 내의 검출기(126)는 신호 내의 음조 성분들의 수가 미리 정의된 임계를 초과하는지 아닌지를 나타내기 위하여 대체 프레임을 선행하는 하나 이상의 프레임을 분석하는 것과 같은 방법으로 구성될 수 있다. 신호 내의 음조 성분들의 수가 미리 정의된 임계를 초과하는 경우에 주파수 도메인 은닉이 사용될 것이다.
단계(S204)에서 예를 들면 위에 언급된 기준을 적용함으로써 주파수 도메인 은닉이 사용되려는 것을 결정하는 경우에, 방법은 선행하는 프레임들의 스펙트럼 내에 존재하는 하나 이상의 피크, 즉 실질적으로 마지막 두 번째 프레임 및 대체 프레임을 선행하는 마지막 프레임의 스펙트럼 내의 동일한 위치에 존재하는 하나 이상의 피크를 기초로 하여 오디오 신호의 스펙트럼의 음조 부분 또는 음조 성분이 검출되는, 단계(S206)로 진행한다. 단계(S208)에서 스펙트럼의 음조 부분이 존재하는지가 결정된다. 예를 들면 선행 프레임들, 즉 마지막 두 번째 프레임 및 마지막 프레임으로부터 유도 가능한 정보를 기초로 하여, 대체 프레임의 스펙트럼 내의 하나 이상의 피크 및 그것들의 주변에 대한 하나 이상의 스펙트럼 계수가 예측되는, 단계(S210)로 진행한다. 단계(S210)에서 예측된 스펙트럼 계수(들)는 예를 들면 도 1에 도시된 디코딩 블록(128)으로 진행하고, 따라서 단계(212)에 도시된 것과 같이, 단계(210)로부터의 스펙트럼 계수들을 기초로 하여 인코딩된 오디오 신호의 프레임의 디코딩이 실행될 수 있다.
단계(S208)에서 스펙트럼의 어떠한 음조 부분도 존재하지 않는 것으로 결정되는 경우에, 방법은 대체 프레임을 위하여 비-예측된 스펙트럼 계수 또는 프레임의 디코딩을 위하여 단계(S212)에 제공되는 대체 프레임을 선행하는 프레임의 상응하는 스펙트럼 계수를 사용하는, 단계(S214)로 진행한다.
단계(S204)에서 어떠한 주파수 도메인 은닉도 바람직하지 않은 것으로 결정되는 경우에, 방법은 대체되려는 프레임의 종래의 시간 도메인 은닉이 실행되는 단계(S216)로 진행하고 단계(216)에서의 과정에 의해 발생된 스펙트럼 계수들을 기초로 하여 단계(S212)에서 인코딩된 신호의 프레임이 디코딩된다.
단계(S202)에서 현재 처리되는 오디오 신호 내의 어떠한 대체 프레임도 존재하지 않는 것으로 결정되는 경우에, 즉 현재 처리되는 프레임이 종래의 접근법들을 사용하여 완전히 디코딩될 수 있는 경우에, 방법은 인코딩된 오디오 신호의 프레임의 디코딩을 위하여 바로 단계(S212)로 진행한다.
다음에서, 본 발명의 실시 예들에 따라 도 다른 상세내용이 설명될 것이다.
파워 스펙트럼 계산
m-2로 지수화된, 마지막 두 번째 프레임을 위하여, MDST 계수들(S m -2)이 디코딩된 시간 도메인 신호로부터 직접적으로 계산된다.
마지막 프레임을 위하여 마지막 수신된 프레임의 MDCT 계수들(C m -1)로부터 계산되는, 추정된 MDST 스펙트럼이 사용된다(예를 들면, 참고문헌 [13] 참조):
Figure 112016004083242-pct00036
프레임들(m-2, m-1)을 위한 파워 스펙트럼은 다음과 같이 계산되는데:
Figure 112016004083242-pct00037
여기서 S m - 1(k)는 프레임(m-1) 내의 MDST 계수이고,
C m - 1(k)는 프레임(m-1) 내의 MDCT 계수이며,
S m -2(k)는 프레임(m-2) 내의 MDCT 계수이며,
C m -2(k)는 프레임(m-2) 내의 MDCT 계수이다
획득된 파워 스펙트럼은 다음과 같이 평활화된다:
Figure 112016004083242-pct00038
음조 성분들의 검출
마지막 두 개의 프레임(m-2 및 m-1) 내에 존재하는 피크들은 음조 성분들의 대표들로서 고려된다. 연속적인 피크들의 존재는 음조 성분들 및 잡음 신호들 내에서 임의로 발생하는 피크들 사이의 구별을 허용한다.
피치 정보
피치 정보가 이용 가능한 것으로 추정된다:
● 인코더 측 상에서 계산되고 비트 스트림 내에서 이용 가능하거나, 또는
● 디코더 측 상에서 계산됨.
피치 정보는 아래의 모든 조건이 충족되어야만 사용된다:
● 피치 이득이 0보다 크다.
● 피치 래그가 마지막 두 개의 프레임 내에서 일정하다.
● 기본 주파수가 100㎐보다 크다.
기본 주파수는 피치 래그로부터 계산된다:
Figure 112016004083242-pct00039
만일 N>5 고조파들이 스펙트럼 내에 가장 강력한 F'0 = n·F 0가 존재하면 F 0F'0로 설정된다. 만일 고조파들(n·F 0)의 위치들에서 충분히 강력한 피크들이 존재하지 않으면 F 0는 신뢰할 수 없다.
일 실시 예에 따르면, 피치 정보는 도 3에 도시된 MDCT의 오른쪽 경계에 정렬되는 프레이밍 상에서 계산된다. 이러한 정렬은 산호의 음조 부분들의 보간에 이득인데 그 이유는 은닉을 필요로 하는 부분인, 오버랩 영역(300)이 또한 피치 래그 계산을 위하여 사용되기 때문이다.
또 다른 실시 예에서, 피치 정보는 비트-스트림 내에 전달될 수 있고 깨끗한 채널 내에서 사용되며 따라서 은닉을 위한 어떠한 부가적인 비용이 발생하지 않는다.
엔벨로프
다음에서 뒤에 설명되는 피크 선택(peak picking)을 위하여 필요한, 스펙트럼 엔벨로프를 획득하기 위한 과정이 설명된다.
마지막 두 개의 프레임 내의 각각의 파워 스펙트럼의 엔벨로프는 길이(L)의 이동 평균 필터(moving average filter)를 사용하여 계산된다:
Figure 112016004083242-pct00040
필터 길이는 기본 주파수에 의존한다(그리고 범위 [7,23]에 제한될 수 있다):
Figure 112016004083242-pct00041
LF 0 사이의 이러한 연결은 참고문헌 [14]에서 설명되는 과정과 유사하나, 본 발명에서는 룩-어헤드(look-ahead)를 포함하는 현재 프레임으로부터의 피치 정보가 사용되고, 참고문헌 [14]는 대화자(talker)에 특이적인 평균 피치를 사용한다. 만일 기본 주파수가 이용 가능하지 않거나 또는 신뢰할 수 없으면, 필터 길이(L)는 15로 설정된다.
피크 선택
피크들은 처음에 미리 정의된 임계들을 기초로 하여 프레임(m-1)의 파워 스펙트럼 내에서 검색된다. 프레임(m-1) 내의 피크들의 위치를 기초로 하여, 프레임(m-2)의 파워 스펙트럼 내의 검색을 위한 임계들이 적응된다. 따라서 두 프레임(m-1 및 m-2) 모두에 존재하는 피크들이 발견되나, 정확한 위치는 프레임(m-2) 내의 파워 스펙트럼을 기초로 한다. 이러한 순서는 중요한데 그 이유는 프레임(m-1) 내의 파워 스펙트럼이 추정된 MDST만을 사용하여 계산되고 따라서 피크의 위치가 정확하지 않기 때문이다. 프레임(m-1)의 MDCT이 사용되는 것이 또한 중요한데, 그 이유는 프레임(m-2) 내에서만 존재하고 프레임(m-1) 내에 존재하지 않는 음조들을 계속하는 것이 바람직하지 않기 때문이다. 도 4는 일 실시 예에 따라 피크를 선택하기 위하여 위의 단계들을 나타내는 플로우 다이어그램을 도시한다. 단계(S400)에서 피크들은 하나 이상의 미리 정의된 임계를 기초로 하여 대체 프레임을 선행하는 마지막 프레임(m-1)의 파워 스펙트럼 내에서 검색된다. 단계(S402)에서, 하나 이상의 임계가 적응된다. 단계(S404)에서 피크들이 하나 이상의 적응된 임계를 기초로 하여 대체 프레임을 선행하는 마지막 두 번째 프레임(m-2)의 파워 스펙트럼 내에서 검색된다.
도 5는 하나 이상의 피크가 검출된 프레임의 파워 스펙트럼의 개략적인 표현이다. 도 5에서, 위에 설명된 것과 같이 결정될 수 있거나 또는 다른 알려진 접근법들에 의해 결정될 수 있는 엔벨로프(500)가 도시된다. 도 5에서 원들에 의해 표현되는 다수의 피크 후보군이 도시된다.
피크 후보군 중에서, 하나의 피크의 발견이 아래에 더 상세히 설명될 것이다. 도 5는 발견된 피크(502)뿐만 아니라 거짓 피크(false peak, 504) 및 잡음을 표현하는 피크(506)를 도시한다. 게다가, 스펙트럼 계수의 왼쪽 풋(left foot, 508) 및 오른쪽 풋(510)이 도시된다.
일 실시 예에 따르면, 피크의 발견은 다음의 단계들(도 4에서의 단계(S400))을 사용하여 수행된다.:
● 만일 다음의 모든 기준이 충족되면 스펙트럼 계수는 음조 피크 후보군으로서 분류된다:
○ 평활된 파워 스펙트럼 및 엔벨로프(500) 사이의 비율이 특정 임계보다 크다;
Figure 112016004083242-pct00042
○ 평활된 파워 스펙트럼 및 엔벨로프(500) 사이의 비율이 그것의 주변 이웃들보다 크다. 이는 국부 최대값을 의미한다.
● 국부 최대값은 스펙트럼 계수(k)의 왼쪽 풋(508) 및 오른쪽 풋(510)을 발견함으로써 그리고 왼쪽 풋(508) 및 오른쪽 풋(510) 사이의 최대를 발견함으로써 결정된다. 거짓 피크(504)가 사이드 로브(side lobe) 또는 양자화 잡음에 의해 야기될 수 있는, 도 4에서 알 수 있는 것과 같이, 이러한 단계는 필요하다.
마지막 두 번째 프레임(m-2)의 파워 스펙트럼(P m -2) 내의 피크 검색을 위한 임계들은 다음과 같이 설정된다(도 4에서의 단계(S402)).
P m -2에서의 지수(i)에서 피크 주위의 스펙트럼 계수들(k∈[i-1,i+1])에서,
Figure 112016004083242-pct00043
● 만일 F 0가 이용 가능하고 신뢰할 수 있으면 각각의 n∈[1,N]을 위하여 k = [n·F 0]을 설정하고 frac = n·F 0-k:
Figure 112016004083242-pct00044
만일 P m -1 내의 지수(i)에서 피크 주위에 k∈[i-1,i+1]이면 제 1 단계에서 설정된 임계들은 덮어쓰고(overwritten),
● 모든 지수를 위하여:
Threshold(k)=20.8dB
음조 피크들은 다음의 단계들에 의해 마지막 두 번째 프레임(m-2)의 파워 스펙트럼(P m -2) 내에서 발견된다(도 4에서의 단계(S404)).
● 만일 아래와 같으면 스펙트럼 계수는 음조 피크로서 분류된다:
○ 파워 스펙트럼 및 엔벨로프 사이의 비율이 임계보다 크다:
Figure 112016004083242-pct00045
○ 파워 스펙트럼 및 엔벨로프 사이의 비율이 국부 최대값을 의미하는, 그것의 주변 이웃들보다 크다.
● 국부 최대값은 스펙트럼 계수(k)의 왼쪽 픗(508) 및 오른쪽 풋(510)의 발견에 의해 그리고 왼쪽 픗(508) 및 오른쪽 풋(510) 사이의 최대값의 발견에 의해 결정된다.
● 왼쪽 픗(508) 및 오른쪽 풋(510)은 또한 음조 피크(502)의 주변, 즉 음조 은닉 방법이 사용될 음조 성분의 스펙트럼 빈들을 정의한다.
위에 설명된 방법의 사용은 도 4에서의 오른쪽 피크(506)만이 프레임들 중 하나에 존재하는 것을 나타내는데, 즉, 프레임들(m-1 또는 m-2) 모두에 존재하지 않는다. 따라서, 이러한 피크는 잡음으로서 표시되고 음조 성분으로서 선택되지 않는다.
정현파 파라미터 추출
정현파 신호(
Figure 112016004083242-pct00046
)를 위하여 N/2(MDCT 홉(hop) 크기)를 위한 변이는 다음의 신호를 야기한다:
Figure 112016004083242-pct00047
따라서,
위상 변이(
Figure 112016004083242-pct00048
)가 존재하는데, 여기서 l은 피크의 지수이다. 따라서 위상 변이는 입력 주파수의 부분(fractional part) 및 홀수 스펙트럼 계수들을 위한 부가적인 π의 추가에 의존한다.
주파수의 부분(△l)은 예를 들면, 참고문헌 [15]에서 설명되는 방법을 사용하여 유도될 수 있다:
● 서브-대역(k=l) 내의 신호의 크기가 국부 최대값이면, △l은 서브-대역들(k=l-1 및 k=l+1) 내의 신호의 크기들의 비율을 계산함으로써, 즉 다음을 평가함으로써 결정될 수 있으며:
Figure 112016004083242-pct00049
윈도우의 크기 응답의 근사치가 사용되는데:
Figure 112016004083242-pct00050
여기서 b는 주 로브의 폭이다. 이러한 표현에서의 상수(G)는 추정의 최대 절대 오차를 최소화하기 위하여 27.4/20.0으로 조정되었으며,
● 근사치의 주파수 응답을 대체하고 다음과 같이 허용하고:
Figure 112016004083242-pct00051
다음에 이르게 한다:
Figure 112016004083242-pct00052
.
MDCT 예측
발견되는 모든 스펙트럼 및 그것들의 주변들을 위하여, MDCT 예측이 사용된다. 모든 다른 스펙트럼 계수를 위하여 부호 스크램블링 또는 유사한 잡음 발생 방법이 사용될 수 있다.
모든 스펙트럼 계수는 발견되는 피크들에 속하고 그것들의 주변들은 K로서 표시되는 세트에 속한다. 예를 들면, 도 5에서 피크(502)는 음조 성분을 표현하는 피크로서 식별되었다. 피크(502)의 주변은 미리 정의된 수의 이웃하는 스펙트럼 계수들에 의해, 예를 들면, 왼쪽 풋(508)과 오른쪽 풋(510) 및 풋들(508, 510)의 계수들에 의해 표현될 수 있다.
실시 예들에 따르면, 피크의 주변은 피크(502) 주위의 미리 정의된 수의 계수들에 의해 정의된다. 피크의 주변은 피크(502)로부터 왼쪽 상의 계수들의 제 1 수(first number) 및 피크(502)로부터 오른쪽 상의 계수들의 제 2 수를 포함할 수 있다. 피크(502)로부터 왼쪽 상의 계수들의 제 1 수 및 피크(502)로부터 오른쪽 상의 계수들의 제 2 수는 동일하거나 또는 서로 다를 수 있다.
고도화 음성 서비스(Enhanced Voice Service, EVS) 표준을 적용하는 실시 예들에 따르면 미리 정의된 수의 이웃하는 계수들은 예를 들면 음조 성분을 검출하는 단계 이전에, 제 1 단계에서 설정되거나 도는 고정될 수 있다. 고도화 음성 서비스 표준에서 피크(502)로부터 왼쪽 상에 세 개의 계수, 른쪽 상에 세 개의 계수 및 피크(502, 즉 모두 7개가 사용될 수 있다(이러한 수는 복잡도 이유들로 인해 선택되었으나, 어떠한 다른 수가 또한 사용될 것이다).
실시 예들에 따르면, 피크의 주변의 크기는 적응적이다. 음조 성분을 표현하는 것으로서 식별되는 피크들의 주변들은 두 개의 피크 주위의 주변들이 오버랩하지 않는 것과 같이 변형될 수 있다. 실시 예들에 따르면, 피크는 항상 그것의 주변과 함께 고려되고 그것들은 함께 음조 성분을 정의한다.
손실된 프레임 내의 MDCT 계수들의 예측을 위하여, 마지막 두 번째 내의 파워 스펙트럼(복소 스펙트럼의 크기)이 사용된다:
Figure 112016004083242-pct00053
.
대체 프레임 내의 손실된 MDCT 계수는 다음과 같이 추정된다:
Figure 112016004083242-pct00054
.
다음에서 일 실시 예에 따른 위상(φ m (k))을 계산하기 위한 방법이 설명될 것이다.
위상 예측
발견된 모든 스펙트럼 피크를 위하여, 부분 주파수(△l)가 위에 설명된 것과 같이 계산되고 위상 변이는 다음과 같은데:
Figure 112016004083242-pct00055
여기서 △φ는 프레임들 사이의 위상 변이이다. 이는 피크 및 그것의 주변 내의 계수들에 대하여 동일하다.
피크 위치 및 주변들(k∈K)에서의 각각의 스펙트럼 계수를 위한 위상이 다음의 표현을 사용하여 마지막 두 번째 수신된 프레임 내에서 계산된다:
Figure 112016004083242-pct00056
.
손실된 프레임 내의 위상은 다음과 같이 예측된다:
Figure 112016004083242-pct00057
.
일 실시 예에 따르면, 개선된 위상 변이가 사용될 수 있다.
피크 위치 및 주변들에서의 각각의 스펙트럼 계수를 위한 계산된 위상(φ m -2(k))의 사용은 다음과 같이 유도될 수 있는 프레임(m-1) 내의 MDST의 추정을 허용하는데:
Figure 112016004083242-pct00058
여기서
Q m -2(k)는 프레임(m-2) 내의 파워 스펙트럼(복소 스펙트럼의 크기)이다.
이러한 MDST 추정 및 수신된 MDCT으로부터 프레임(m-1) 내의 위상의 추정이 유도된다:
Figure 112016004083242-pct00059
.
추정된 위상은 위상 변이를 개선하도록 사용되는데:
Figure 112016004083242-pct00060
여기서:
φ m - 1(k)는 프레임(m-1) 내의 복소 스펙트럼의 위상이고,
φ m - 2(k)는 프레임(m-2) 내의 복소 스펙트럼의 위상이다.
손실된 프레임 내의 위상은 다음과 같이 예측된다:
Figure 112016004083242-pct00061
.
이러한 실시 예에 따른 위상 변이 개선은 정현파의 예측을 향상시킨다. 만일 신호의 음조 부분의 페이드-아웃(fade-out) 속도가 느리면, 다수의 프레임 손실 이후에, 음조 부분은 지배적이 된다. 정현파 성분들의 서로 다른 위상 변이들에 기인하는, 정현파 내의 변동은 불쾌한 아티팩트(artifact)들을 생산한다.
이러한 문제점을 극복하기 위하여, 실시 예들에 따르면, 세 번째 손실된 프레임으로부터 시작하여, 그것을 둘러싸는 모든 스펙트럼 계수를 위하여 피크(지수(k)를 갖는)의 위상 차이가 사용된다(k-l은 왼쪽 풋의 지수이고 k+u는 오른쪽 풋의 지수이다):
Figure 112016004083242-pct00062
.
또 다른 실시 예들에 따르면, 전이(transition)가 제공된다. 높은 감쇠를 갖는 두 번째 손실된 프레임 내의 스펙트럼 계수들은 피크의 위상 차이를 사용하고 작은 감쇠를 갖는 계수들은 보정된 위상 차이를 사용한다:
Figure 112016004083242-pct00063
.
크기 개선
다른 실시 예들에 따르면, 위에 설명된 위상 변이 개선의 적용 대신에, 크기 개선을 사용하는 또 다른 접근법이 사용될 수 있는데:
Figure 112016004083242-pct00064
여기서 l은 피크의 지수이고, 부분 주파수(△l)는 위에 설명된 것과 같이 계산된다. 위상 변이는 다음과 같다:
Figure 112016004083242-pct00065
.
에너지의 증가를 방지하기 위하여, 개선된 크기는 또 다른 실시 예들에 따르면, 마지막 두 번째 프레임으로부터의 크기에 의해 제한될 수 있다:
Figure 112016004083242-pct00066
.
또한, 또 다른 실시 예들에 따르면, 그것의 페이딩을 위하여 크기의 감소가 사용될 수 있다:
Figure 112016004083242-pct00067
.
"프레임 인-비트윈"을 사용하는 위상 예측
대체 프레임을 선행하는 프레임들 상에 스펙트럼 계수들의 예측을 두는 대신에, 다른 실시 예들에 따르면, 위상 예측은 "프레임 인-비트인"(또한 "중간(intermediate" 프레임으로서 언급되는)을 사용할 수 있다. 도 6은 "프레임 인-비트인"을 위한 일례를 도시한다. 도 6에서 대체 프레임을 선행하는 마지막 프레임(602, m-1), 대체 프레임을 선행하는 마지막 두 번째 프레임(m-2), 및 프레임 인-비트윈(604, m-1.5)가 관련 MDCT 윈도우들(606 내지 610)과 함께 도시된다.
만일 관련 MDCT 윈도우 오버랩이 50% 미만이면 손실된 프레임에 가까운 복합 MDCT 스펙트럼을 획득하는 것이 가능하다. 이는 MDCT 윈도우(606 또는 608)와 동일하나 코덱 프레임으로부터 의 프레임 길이의 반을 위한 변이를 갖는, 파선의 윈도우(610)를 사용하여 프레임 인-비트윈(m-1.5)을 위한 복합 MDCT 스펙트럼을 획득하도록 허용한다. 프레임 인-비트윈(604, m-1.5)이 손실된 프레임(m)에 시간적으로 더 가깝기 때문에, 그것의 스펙트럼 특성들은 마지막 두 번째 프레임(m-2)과 손실된 프레임(m) 사이의 스펙트럼 특성보다 손실된 프레임(m)의 스펙트럼 특성에 더 유사할 것이다.
이러한 실시 예에서, MDST 계수들(S m -1.5) 및 MDCT 계수들(C m -1.5)의 계산 모두는 디코딩된 시간 도메인 신호로부터 직접적으로 수행되고, MDST 및 MDCT은 복합 MDCT을 구성한다. 대안으로서, 복합 MDCT은 이웃에 존재하는 MDCT 계수들로부터 매트릭스 운영들을 사용하여 유도될 수 있다.
파워 스펙트럼 계산은 위에 설명된 것과 같이 수행되고, 음조 성분들의 검출은 위에 설명된 것과 같이 수행되는데 m-2번째 프레임이 m-1.5번째 프레임에 의해 대체된다.
정현파 신호(
Figure 112016004083242-pct00068
)를 위하여 N/4(MDCT 홉 크기)를 위한 변이는 다음의 신호를 야기한다:
Figure 112016004083242-pct00069
.
이는 위상 변이(
Figure 112016004083242-pct00070
)를 야기한다. 따라서, 위상 변이는 입력 주파수의 부분 및
Figure 112016004083242-pct00071
의 부가적인 추가에 의존하는데, 여기서 l은 피크의 지수이다. 부분 주파수의 검출은 위에 설명된 것과 같이 수행된다.
손실된 프레임 내의 MDCT 계수들의 예측을 위하여, m-1.5 프레임으로부터의 크기가 사용된다:
Figure 112016004083242-pct00072
손실된 MDCT 계수는 다음과 같이 추정된다:
Figure 112016004083242-pct00073
.
위상(
Figure 112016004083242-pct00074
)은 다음을 사용하여 계산될 수 있다:
Figure 112016004083242-pct00075
.
또한, 실시 예들에 따르면, 위에 설명된 위상 변이 개선은 다음과 같이 적용될 수 있다:
Figure 112016004083242-pct00076
또한 피크를 둘러싸는 모든 스펙트럼 계수를 위한 위상 변이의 피크의 위상 변이로의 수렴이 위에 설명된 것과 같이 사용될 수 있다.
장치의 맥락에서 일부 양상들이 설명되었으나, 이러한 양상들은 또한 블록 또는 장치가 방법 단계 또는 방법 단계의 특징과 상응하는, 상응하는 방법의 설명을 나타낸다는 것은 자명하다. 유사하게, 방법 단계의 맥락에서 설명된 양상들은 또한 상응하는 장치의 상응하는 블록 또는 아이템 또는 특징을 나타낸다.
특정 구현 요구사항들에 따라, 본 발명의 실시 예들은 하드웨어 또는 소프트웨어에서 구현될 수 있다. 구현은 각각의 방법이 실행될 것과 같이 프로그램가능 컴퓨터 시스템과 협력하는(또는 협력할 수 있는), 그 안에 저장되는 전자적으로 판독 가능한 제어 신호들을 갖는, 디지털 저장 매체, 예를 들면, 플로피 디스크, DVD, CD, ROM, PROM, EPROM, EEPROM 또는 플래시 메모리를 사용하여 실행될 수 있다. 따라서, 디지털 저장 매체는 컴퓨터로 판독 가능할 수 있다.
본 발명에 따른 일부 실시 예들은 여기에 설명된 방법들 중 어느 하나가 실행되는 것과 같이, 프로그램가능 컴퓨터 시스템과 협력할 수 있는, 전자적으로 판독 가능한 제어 신호들을 갖는 비-일시적 데이터 캐리어를 포함한다.
일반적으로, 본 발명의 실시 예들은 프로그램 코드를 갖는 컴퓨터 프로그램 제품으로서 구현될 수 있으며, 프로그램 코드는 컴퓨터 프로그램 제품이 컴퓨터 상에서 구동할 때 방법들 중 어느 하나를 실행하도록 운영될 수 있다. 프로그램 코드는 예를 들면, 기계 판독가능 캐리어 상에 저장될 수 있다.
다른 실시 예들은 기계 판독가능 캐리어 상에 저장되는, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함한다.
바꾸어 말하면, 본 발명의 방법의 일 실시 예는 따라서, 컴퓨터 프로그램이 컴퓨터 상에 구동할 때, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 프로그램 코드를 갖는 컴퓨터 프로그램이다.
본 발명의 방법의 또 다른 실시 예는 따라서, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 포함하는, 그 안에 기록되는 데이터 캐리어(또는 디지털 저장 매체, 또는 컴퓨터 판독가능 매체)이다.
본 발명의 방법의 또 다른 실시 예는 따라서, 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램을 나타내는 데이터 스트림 또는 신호들의 시퀀스이다. 데이터 스트림 또는 신호들의 시퀀스는 예를 들면 데이터 통신 연결, 예를 들면 인터넷을 거쳐 전송되도록 구성될 수 있다.
또 다른 실시 예는 여기에 설명된 방법들 중 어느 하나를 실행하도록 구성되거나 혹은 적용되는, 처리 수단, 예를 들면 컴퓨터, 또는 프로그램가능 논리 장치를 포함한다.
또 다른 실시 예는 그 안에 여기에 설명된 방법들 중 어느 하나를 실행하기 위한 컴퓨터 프로그램이 설치된 컴퓨터를 포함한다.
일부 실시 예들에서, 여기에 설명된 방법들 중 일부 또는 모두를 실행하기 위하여 프로그램가능 논리 장치(예를 들면, 필드 프로그램가능 게이트 어레이)가 사용될 수 있다. 일부 실시 예들에서, 필드 프로그램가능 게이트 어레이는 여기에 설명된 방법들 중 어느 하나를 실행하기 위하여 마이크로프로세서와 협력할 수 있다. 일반적으로, 방법들은 바람직하게는 어떠한 하드웨어 장치에 의해 실행된다.
여기에 설명되는 장치는 하드웨어 장치를 사용하거나, 또는 컴퓨터를 사용하거나, 또는 하드웨어 장치와 컴퓨터의 조합을 사용하여 구현될 수 있다.
위에 설명된 실시 예들은 단지 본 발명의 원리들을 위한 설명이다. 여기에 설명된 배치들과 상세내용들의 변형과 변경은 통상의 지식을 가진 자들에 자명할 것이라는 것을 이해할 것이다. 따라서, 본 발명은 여기에 설명된 실시 예들의 설명에 의해 표현된 특정 상세내용이 아닌 특허 청구항의 범위에 의해서만 한정되는 것으로 의도된다.
종래 기술 참고문헌
[1] P. Lauber and R. Sperschneider, "Error Concealment for Compressed Digital Audio," in AES 111th Convention, New York, USA, 2001.
[2] C. J. Hwey, "Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment". Patent US 6,351,730 B2, 2002.
[3] S. K. Gupta, E. Choy and S.-U. Ryu, "Encoder-assisted frame loss concealment techniques for audio coding". Patent US 2007/094009 A1.
[4] S.-U. Ryu and K. Rose, "A Frame Loss Concealment Technique for MPEG-AAC," in 120th AES Convention, Paris, France, 2006.
[5] ISO/IEC JTC1/SC29/WG11, Information technology -- Coding of moving pictures and associated, International Organization for Standardization, 1993.
[6] S.-U. Ryu and R. Kenneth, An MDCT domain frame-loss concealment technique for MPEG Advanced Audio Coding, Department od Electrical and Computer Engineering, University of California, 2007.
[7] S.-U. Ryu, Source Modeling Approaches to Enhanced Decoding in Lossy Audio Compression and Communication, UNIVERSITY of CALIFORNIA Santa Barbara, 2006.
[8] M. Yannick, "Method and apparatus for transmission error concealment of frequency transform coded digital audio signals". Patent EP 0574288 B1, 1993.
[9] Y. Mahieux, J.-P. Petit and A. Charbonnier, "Transform coding of audio signals using correlation between successive transform blocks," in Acoustics, Speech, and Signal Processing, 1989. ICASSP-89., 1989.
[10] 3GPP; Technical Specification Group Services and System Aspects, Extended Adaptive Multi-Rate - Wideband (AMR-WB+) codec, 2009.
[11] A. Taleb, "Partial Spectral Loss Concealment in Transform Codecs". Patent US 7,356,748 B2.
[12] C. Guoming, D. Zheng, H. Yuan, J. Li, J. Lu, K. Liu, K. Peng, L. Zhibin, M. Wu and Q. Xiaojun, "Compensator and Compensation Method for Audio Frame Loss in Modified Discrete Cosine Transform Domain". Patent US 2012/109659 A1.
[13] L. S. M. Dauder, "MDCT Analysis of Sinusoids: Exact Results and Applications to Coding Artifacts Reduction," IEEE TRANSACTIONS ON SPEECH AND AUDIO PROCESSING, pp. 302-312, 2004.
[14] D. B. Paul, "The Spectral Envelope Estimation Vocoder," IEEE Transactions on Acoustics, Speech, and Signal Processing, pp. 786-794, 1981.
[15] A. Ferreira, "Accurate estimation in the ODFT domain of the frequency, phase and magnitude of stationary sinusoids," 2001 IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, pp. 47-50, 2001.
100 : 인코더
102 : 인코더의 입력
104 : 오디오 신호
106 : 인코더의 출력
108 : 안테나
110 : 무선 전송
112 : 유선 전송
124 : 안테나
120 : 디코더
122 : 디코더의 입력
126 : 검출기
132 : 디코딩된 오디오 신호
128 : 디코딩 블록
134 : 음조 검출기
136 : 잡음 발생기/메모리 블록
138 : 예측기
140 : 스펙트럼 계수들을 획득하기 위한 장치
500 : 엔벨로프
502 : 피크
504 : 거짓 피크
506 : 잡음을 표현하는 피크
508 : 스펙트럼 계수의 왼쪽 풋
510 : 스펙트럼 계수의 오른쪽 풋
604 : 프레임 인-비트윈
606, 608 610 : MDCT 윈도우

Claims (42)

  1. 오디오 신호의 대체 프레임에 대한 스펙트럼 계수들을 획득하기 위한 방법에 있어서,
    대체 프레임(m)을 선행하는 프레임들(m-1, m-2)의 스펙트럼 내에 존재하는 피크를 기초로 하여 오디오 신호의 스펙트럼의 음조 성분을 검출하는 단계(S206);
    상기 스펙트럼의 상기 음조 성분에 대해, 상기 대체 프레임(m)의 상기 스펙트럼 내의 피크 및 그것의 주변(surrounding)을 위한 스펙트럼 계수들을 예측하는 단계(S210); 및
    상기 스펙트럼의 비-음조 성분에 대해, 상기 대체 프레임(m)을 위한 비-예측된 스펙트럼 계수 또는 상기 대체 프레임(m)을 선행하는 프레임의 상응하는 스펙트럼 계수를 사용하는 단계(S214);를 포함하는 것을 특징으로 하는 방법.
  2. 제 1항에 있어서,
    상기 대체 프레임(m)의 상기 스펙트럼 내의 피크 및 그것의 주변에 대한 상기 스펙트럼 계수들은 상기 대체 프레임(m)을 선행하는 프레임(m-2)의 복소 스펙트럼의 크기 및 상기 대체 프레임(m)의 상기 복소 스펙트럼의 예측된 위상을 기초로 하여 예측되고,
    상기 대체 프레임(m)의 상기 복소 스펙트럼의 상기 위상은 상기 대체 프레임(m)을 선행하는 프레임(m-2)의 상기 복소 스펙트럼의 상기 위상 및 상기 대체 프레임(m)을 선행하는 상기 프레임들(m-1, m-2) 사이의 위상 변이를 기초로 하여 예측되는 것을 특징으로 하는 방법.
  3. 제 2항에 있어서,
    상기 대체 프레임(m)의 상기 스펙트럼 내의 피크 및 그것의 주변에 대한 상기 스펙트럼 계수들은 상기 대체 프레임(m)을 선행하는 마지막에서 두 번째 프레임(m-2)의 상기 복소 스펙트럼의 상기 크기 및 상기 대체 프레임(m)의 상기 복소 스펙트럼의 상기 예측된 위상을 기초로 하여 예측되고,
    상기 대체 프레임(m)의 상기 복소 스펙트럼의 상기 위상은 상기 대체 프레임(m)을 선행하는 상기 마지막에서 두 번째 프레임(m-2)의 상기 복소 스펙트럼을 기초로 하여 예측되는 것을 특징으로 하는 방법.
  4. 제 2항에 있어서, 상기 대체 프레임(m)의 상기 복소 스펙트럼의 상기 위상은 상기 대체 프레임(m)을 선행하는 상기 프레임(m-2) 내의 상기 피크 및 그것의 주변에서 각각의 스펙트럼 계수를 위한 위상을 기초로 하여 예측되는 것을 특징으로 하는 방법.
  5. 제 2항에 있어서, 상기 대체 프레임(m)을 선행하는 상기 프레임들(m-1, m-2) 사이의 위상 변이는 각각의 상기 프레임들 내의 피크 및 그것의 주변에서 각각의 스펙트럼 계수에 대하여 동일한 것을 특징으로 하는 방법.
  6. 제 1항에 있어서, 상기 음조 성분은 상기 피크 및 그것의 주변에 의해 정의되는 것을 특징으로 하는 방법.
  7. 제 1항에 있어서, 상기 피크의 주변은 상기 피크 주위의 미리 정의된 수의 계수들에 의해 정의되는 것을 특징으로 하는 방법.
  8. 제 1항에 있어서, 상기 피크의 주변은 상기 피크로부터 왼쪽 상의 계수들의 제 1 수(first number) 및 상기 피크로부터 오른쪽 상의 계수들의 제 2 수(second number)를 포함하는 것을 특징으로 하는 방법.
  9. 제 8항에 있어서, 상기 계수들의 제 1 수는 왼쪽 풋(508) 및 상기 피크 사이의 계수들과 왼쪽 풋(508)의 계수를 포함하고, 상기 계수들의 제 2 수는 오른쪽 풋(510) 및 상기 피크 사이의 계수들과 오른쪽 풋(510)의 계수를 포함하는 것을 특징으로 하는 방법.
  10. 제 8항에 있어서, 상기 피크로부터 왼쪽 상의 상기 계수들의 제 1 수 및 상기 피크로부터 오른쪽 상의 상기 계수들의 제 2 수는 동일하거나 또는 다른 것을 특징으로 하는 방법.
  11. 제 10항에 있어서, 상기 피크로부터 왼쪽 상의 상기 계수들의 제 1 수는 3이고 상기 피크로부터 오른쪽 상의 상기 계수들의 제 2 수는 3인 것을 특징으로 하는 방법.
  12. 제 7항에 있어서, 상기 피크 주위의 미리 정의된 수의 계수들은 상기 음조 성분을 검출하는 단계 이전에 설정되는 것을 특징으로 하는 방법.
  13. 제 1항에 있어서, 상기 피크의 상기 주변의 크기는 적응적인 것을 특징으로 하는 방법.
  14. 제 13항에 있어서, 상기 피크의 상기 주변은 두 개의 피크 주위의 주변들이 오버랩되지 않도록 선택되는 것을 특징으로 하는 방법.
  15. 제 1항에 있어서,
    상기 대체 프레임(m)의 상기 스펙트럼 내의 피크 및 그것의 주변에 대한 상기 스펙트럼 계수는 상기 대체 프레임(m)을 선행하는 마지막에서 두 번째 프레임(m-2)의 복소 스펙트럼의 크기 및 상기 대체 프레임의 상기 복소 스펙트럼의 상기 예측된 위상을 기초로 하여 예측되고,
    상기 대체 프레임의 상기 복소 스펙트럼의 상기 위상은 상기 대체 프레임(m)을 선행하는 마지막 프레임(m-1)의 상기 복소 스펙트럼의 상기 위상 및 상기 대체 프레임(m)을 선행하는 상기 마지막 프레임 및 상기 마지막에서 두 번째 프레임(m-2) 사이의 개선된 위상 변이를 기초로 하여 예측되며,
    상기 대체 프레임(m)을 선행하는 상기 마지막 프레임(m-1)의 상기 복소 스펙트럼의 상기 위상은 상기 대체 프레임(m)을 선행하는 상기 마지막에서 두 번째 프레임(m-2)의 상기 복소 스펙트럼의 상기 크기, 상기 대체 프레임(m)을 선행하는 상기 마지막에서 두 번째 프레임(m-2)의 상기 복소 스펙트럼의 상기 위상, 상기 대체 프레임(m)을 선행하는 상기 마지막 프레임(m-1) 및 상기 마지막에서 두 번째 프레임(m-2) 사이의 상기 위상 변이 및 상기 마지막 프레임(m-1)의 실제 스펙트럼을 기초로 하여 결정되며,
    상기 개선된 위상 차이는 상기 대체 프레임(m)을 선행하는 상기 마지막 프레임(m-1)의 상기 복소 스펙트럼의 상기 위상 및 상기 대체 프레임(m)을 선행하는 상기 마지막에서 두 번째 프레임(m-2)의 상기 복소 스펙트럼의 상기 위상을 기초로 하여 결정되는 것을 특징으로 하는 방법.
  16. 제 15항에 있어서, 상기 위상 차이의 개선은 연속적으로 손실된 프레임의 수를 기초로 하여 적응적인 것을 특징으로 하는 방법.
  17. 제 16항에 있어서, 세 번째 손실된 프레임으로부터 시작하여, 피크에 대해 결정된 위상 차이는 상기 피크를 둘러싸는 상기 스펙트럼 계수들의 예측을 위하여 사용되는 것을 특징으로 하는 방법.
  18. 제 17항에 있어서, 두 번째 손실된 프레임 내의 상기 스펙트럼 계수들의 예측을 위하여, 상기 대체 프레임(m)을 선행하는 마지막 프레임(m-1) 내의 위상 변이가 상기 위상 차이가 미리 정의된 임계와 동일하거나 또는 아래일 때 상기 피크에 대하여 결정된 위상 변이는 주변 스펙트럼 계수들에 대한 상기 스펙트럼 계수들의 예측을 위하여 사용되고, 상기 대체 프레임(m)을 선행하는 상기 마지막 프레임(m-1) 내의 위상 변이가 상기 미리 정의된 임계 위일 때 각각의 상기 주변 스펙트럼 계수들에 대하여 결정된 위상 변이는 상기 주변 스펙트럼 계수들의 상기 스펙트럼 계수들의 예측을 위하여 사용되는 것을 특징으로 하는 방법.
  19. 제 2항에 있어서, 상기 대체 프레임(m)의 상기 스펙트럼 내의 상기 피크 및 그것의 주변에 대한 상기 스펙트럼 계수는 상기 대체 프레임(m)을 선행하는 마지막 프레임(m-1)의 상기 복소 스펙트럼의 개선된 크기 및 상기 대체 프레임(m)의 상기 복소 스펙트럼의 상기 예측되는 위상을 기초로 하여 예측되고,
    상기 대체 프레임(m)의 상기 복소 스펙트럼의 상기 위상은 상기 대체 프레임(m)을 선행하는 마지막에서 두 번째 프레임(m-2)의 상기 복소 스펙트럼의 상기 위상을 기초로 하여 예측되고 상기 복소 스펙트럼의 위상 및 상기 대체 프레임(m)을 선행하는 상기 마지막 프레임(m-1) 및 상기 마지막에서 두 번째 프레임(m-2) 사이의 위상 변이의 두 배인 것을 특징으로 하는 방법.
  20. 제 19항에 있어서, 상기 대체 프레임(m)을 선행하는 상기 마지막 프레임(m-1)의 상기 복소 스펙트럼의 상기 개선된 크기는 상기 대체 프레임(m)을 선행하는 상기 마지막 프레임(m-1)의 실제 스펙트럼의 실제 스펙트럼 계수, 상기 대체 프레임(m)을 선행하는 상기 마지막에서 두 번째 프레임(m-2)의 상기 복소 스펙트럼의 위상 및 상기 대체 프레임(m)을 선행하는 상기 마지막 프레임(m-1)과 상기 마지막에서 두 번째 프레임(m-2) 사이의 위상 변이를 기초로 하여 결정되는 것을 특징으로 하는 방법.
  21. 제 19항에 있어서, 상기 대체 프레임(m)을 선행하는 상기 마지막 프레임(m-1)의 상기 복소 스펙트럼의 상기 개선된 크기는 상기 대체 프레임(m)을 선행하는 상기 마지막에서 두 번째 프레임(m-2)의 상기 복소 스펙트럼의 상기 크기에 의해 제한되는 것을 특징으로 하는 방법.
  22. 제 2항에 있어서,
    상기 대체 프레임(m)의 상기 스펙트럼 내의 상기 피크 및 그것의 주변에 대한 상기 스펙트럼 계수는 상기 대체 프레임(m)을 선행하는 마지막 프레임(m-1) 및 마지막에서 두 번째 프레임(m-1) 사이의 중간 프레임의 복소 스펙트럼의 크기 및 상기 대체 프레임(m)의 상기 복소 스펙트럼의 예측되는 위상을 기초로 하여 예측되는 것을 특징으로 하는 방법.
  23. 제 22항에 있어서,
    상기 대체 프레임(m)의 상기 복소 스펙트럼의 위상은 상기 대체 프레임(m)을 선행하는 상기 중간 프레임의 상기 복소 스펙트럼의 위상 및 상기 대체 프레임(m)을 선행하는 중간 프레임들 사이의 위상 변이를 기초로 하여 예측되고,
    상기 대체 프레임(m)의 상기 복소 스펙트럼의 위상은 상기 대체 프레임(m)을 선행하는 상기 마지막 프레임(m-1)의 상기 복소 스펙트럼의 위상 및 상기 대체 프레임(m)을 선행하는 중간 프레임들 사이의 개선된 위상 변이를 기초로 하여 예측되며, 상기 개선된 위상 변이는 상기 대체 프레임(m)을 선행하는 상기 마지막 프레임(m-1)의 상기 복소 스펙트럼의 위상 및 상기 대체 프레임(m)을 선행하는 상기 중간 프레임의 상기 복소 스펙트럼의 위상을 기초로 하여 결정되는 것을 특징으로 하는 방법.
  24. 제 1항에 있어서, 상기 오디오 신호의 스펙트럼의 음조 성분을 검출하는 단계는:
    하나 이상의 미리 정의된 임계를 기초로 하여 상기 대체 프레임(m)을 선행하는 마지막 프레임(m-1)의 상기 스펙트럼 내의 피크들을 검색하는 단계(S400);
    상기 하나 이상의 임계를 적응시키는 단계(S402); 및
    상기 하나 이상의 적응된 임계를 기초로 하여 상기 대체 프레임(m)을 선행하는 마지막에서 두 번째 프레임(m-2)의 상기 스펙트럼 내의 피크들을 검색하는 단계(S404);를 포함하는 것을 특징으로 하는 방법.
  25. 제 24항에 있어서, 상기 하나 이상의 임계를 적응시키는 단계는 상기 대체 프레임(m)을 선행하는 상기 마지막 프레임(m-1)의 상기 스펙트럼 및 스펙트럼 엔벨로프를 기초로 하거나 또는 기본 주파수를 기초로 하여, 상기 대체 프레임(m)을 선행하는 상기 마지막 프레임(m-1)에서 발견된 피크 주위의 영역 내의 상기 대체 프레임(m)을 선행하는 상기 마지막에서 두 번째 프레임(m-2)의 상기 스펙트럼 내의 피크의 검색을 위한 상기 하나 이상의 임계를 설정하는 단계를 포함하는 것을 특징으로 하는 방법.
  26. 제 25항에 있어서, 상기 기본 주파수는 상기 대체 프레임(m)을 선행하는 상기 마지막 프레임(m-1)의 신호 및 상기 대체 프레임(m)을 선행하는 상기 마지막 프레임(m-1)의 룩-어헤드를 위한 것인 것을 특징으로 하는 방법.
  27. 제 26항에 있어서, 상기 대체 프레임(m)을 선행하는 상기 마지막 프레임(m-1)의 상기 룩-어헤드는 상기 룩-어헤드를 사용하여 인코더에서 계산되는 것을 특징으로 하는 방법.
  28. 제 24항에 있어서, 상기 하나 이상의 임계를 적응시키는 단계는 상기 대체 프레임(m)을 선행하는 상기 마지막 프레임(m-1)에서 발견된 피크 주위가 아닌 영역 내의 상기 대체 프레임(m)을 선행하는 상기 마지막에서 두 번째 프레임(m-2)의 상기 스펙트럼 내의 피크의 검색을 위한 상기 하나 이상의 임계를 미리 정의된 임계 값으로 설정하는 단계를 포함하는 것을 특징으로 하는 방법.
  29. 제 1항에 있어서,
    상기 대체 프레임(m)을 위하여 상기 오디오 신호의 음조 성분들을 위한 스펙트럼 계수들의 예측을 사용하여 시간 도메인 은닉(concealment) 또는 주파수 도메인 은닉을 적용하는지를 결정하는 단계(S204)를 포함하는 것을 특징으로 하는 방법.
  30. 제 29항에 있어서, 상기 주파수 도메인 은닉은 상기 대체 프레임(m)을 선행하는 마지막 프레임(m-1) 및 상기 대체 프레임(m)을 선행하는 마지막에서 두 번째 프레임(m-2)이 일정한 피치를 갖는 경우에 또는 상기 대체 프레임(m)을 선행하는 또는 하나 이상의 프레임의 분석이 상기 신호 내의 음조 성분들의 수가 미리 정의된 임계를 초과하는 것을 나타내는 경우에 적용되는 것을 특징으로 하는 방법.
  31. 제 1항에 있어서, 상기 오디오 신호의 상기 프레임들은 변형 이산 코사인 변환(MDCT)을 사용하여 코딩되는 것을 특징으로 하는 방법.
  32. 제 1항에 있어서, 상기 대체 프레임(m)은, 수신된 데이터 내의 오류에 기인하여, 오디오 신호 수신기에서 처리될 수 없는 프레임, 혹은 상기 오디오 신호 수신기로의 전송 동안에 손실된 프레임, 혹은 상기 오디오 신호 수신기에서 시간에 맞게 수신되지 않은 프레임을 포함하는 것을 특징으로 하는 방법.
  33. 제 1항에 있어서, 비-예측된 스펙트럼 계수는 잡음 발생 방법을 사용하거나 또는 메모리로부터 미리 정의된 스펙트럼 계수를 사용하여 발생되는 것을 특징으로 하는 방법.
  34. 컴퓨터 상에서 실행될 때, 제 1항 내지 33항 중 어느 한 항의 방법을 수행하는 컴퓨터 프로그램을 저장한 컴퓨터 판독 가능 기록 매체.
  35. 오디오 신호의 대체 프레임(m)을 위한 스펙트럼 계수들을 획득하기 위한 장치에 있어서,
    대체 프레임(m)을 선행하는 프레임들의 스펙트럼 내에 존재하는 피크를 기초로 하여 오디오 신호의 스펙트럼의 음조 성분을 검출하도록 구성되는 검출기(134); 및
    스펙트럼의 음조 성분에 대해 상기 대체 프레임(m)의 상기 스펙트럼 내의 상기 피크 및 그것의 주변에 대한 음조 성분을 예측하도록 구성되는 예측기(138);를 포함하고,
    상기 스펙트럼의 비-음조 성분에 대해 상기 대체 프레임(m)에 대한 비-예측된 스펙트럼 계수 또는 상기 대체 프레임(m)을 선행하는 프레임의 상응하는 스펙트럼 계수가 사용되는 것을 특징으로 하는 장치.
  36. 오디오 신호의 대체 프레임(m)을 위한 스펙트럼 계수들을 획득하기 위한 장치에 있어서, 상기 장치는 제 1항 내지 33항 중 어느 한 항의 방법에 따라 운영하도록 구성되는 것을 특징으로 하는 장치.
  37. 제 35항의 장치를 포함하는 오디오 디코더.
  38. 제 36항의 장치를 포함하는 오디오 디코더.
  39. 제 37항의 오디오 디코더를 포함하는 오디오 수신기.
  40. 제 38항의 오디오 디코더를 포함하는 오디오 수신기.
  41. 오디오 신호의 전송을 위한 시스템에 있어서,
    코딩된 오디오 신호를 발생시키도록 구성되는 인코더(100); 및
    상기 코딩된 오디오 신호를 수신하고 상기 코딩된 오디오 신호를 디코딩하도록 구성되는 제 37항에 따른 디코더(120);를 포함하는 것을 특징으로 하는 시스템.
  42. 오디오 신호의 전송을 위한 시스템에 있어서,
    코딩된 오디오 신호를 발생시키도록 구성되는 인코더(100); 및
    상기 코딩된 오디오 신호를 수신하고 상기 코딩된 오디오 신호를 디코딩하도록 구성되는 제 38항에 따른 디코더(120);를 포함하는 것을 특징으로 하는 시스템.

KR1020167001006A 2013-06-21 2014-06-20 오디오 신호의 대체 프레임에 대한 스펙트럼 계수들을 획득하기 위한 방법과 장치, 오디오 디코더, 오디오 수신기 및 오디오 신호들의 전송을 위한 시스템 KR101757338B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP13173161.4 2013-06-21
EP13173161 2013-06-21
EP14167072.9 2014-05-05
EP14167072 2014-05-05
PCT/EP2014/063058 WO2014202770A1 (en) 2013-06-21 2014-06-20 Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals

Publications (2)

Publication Number Publication Date
KR20160024918A KR20160024918A (ko) 2016-03-07
KR101757338B1 true KR101757338B1 (ko) 2017-07-26

Family

ID=50980298

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167001006A KR101757338B1 (ko) 2013-06-21 2014-06-20 오디오 신호의 대체 프레임에 대한 스펙트럼 계수들을 획득하기 위한 방법과 장치, 오디오 디코더, 오디오 수신기 및 오디오 신호들의 전송을 위한 시스템

Country Status (18)

Country Link
US (3) US9916834B2 (ko)
EP (1) EP3011556B1 (ko)
JP (1) JP6248190B2 (ko)
KR (1) KR101757338B1 (ko)
CN (2) CN111627451B (ko)
AU (1) AU2014283180B2 (ko)
BR (1) BR112015032013B1 (ko)
CA (1) CA2915437C (ko)
ES (1) ES2633968T3 (ko)
HK (1) HK1224075A1 (ko)
MX (1) MX352099B (ko)
MY (1) MY169132A (ko)
PL (1) PL3011556T3 (ko)
PT (1) PT3011556T (ko)
RU (1) RU2632585C2 (ko)
SG (1) SG11201510513WA (ko)
TW (1) TWI562135B (ko)
WO (1) WO2014202770A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019178108A1 (en) * 2018-03-13 2019-09-19 The Nielsen Company (Us), Llc Methods and apparatus to extract a pitch-independent timbre attribute from a media signal

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG11201510513WA (en) * 2013-06-21 2016-01-28 Fraunhofer Ges Forschung Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals
KR102547480B1 (ko) * 2014-12-09 2023-06-26 돌비 인터네셔널 에이비 Mdct-도메인 에러 은닉
TWI576834B (zh) * 2015-03-02 2017-04-01 聯詠科技股份有限公司 聲頻訊號的雜訊偵測方法與裝置
WO2016142002A1 (en) * 2015-03-09 2016-09-15 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder, method for encoding an audio signal and method for decoding an encoded audio signal
US10504525B2 (en) 2015-10-10 2019-12-10 Dolby Laboratories Licensing Corporation Adaptive forward error correction redundant payload generation
JP6611042B2 (ja) * 2015-12-02 2019-11-27 パナソニックIpマネジメント株式会社 音声信号復号装置及び音声信号復号方法
EP3246923A1 (en) 2016-05-20 2017-11-22 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing a multichannel audio signal
CN106101925B (zh) * 2016-06-27 2020-02-21 联想(北京)有限公司 一种控制方法及电子设备
WO2018049279A1 (en) * 2016-09-09 2018-03-15 Dts, Inc. System and method for long-term prediction in audio codecs
RU2652434C2 (ru) * 2016-10-03 2018-04-26 Виктор Петрович Шилов Способ приемопередачи дискретных информационных сигналов
CN106533394B (zh) * 2016-11-11 2019-01-04 江西师范大学 一种基于自适应滤波器幅频响应的高精度频率估计方法
EP3454336B1 (en) * 2017-09-12 2020-11-04 Dolby Laboratories Licensing Corporation Packet loss concealment for critically-sampled filter bank-based codecs using multi-sinusoidal detection
JP6907859B2 (ja) * 2017-09-25 2021-07-21 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
CN108055087B (zh) * 2017-12-30 2024-04-02 天津大学 利用长肢领航鲸叫声谐波数量进行编码的通信方法及装置
US20220172733A1 (en) * 2019-02-21 2022-06-02 Telefonaktiebolaget Lm Ericsson (Publ) Methods for frequency domain packet loss concealment and related decoder
CN113129910A (zh) * 2019-12-31 2021-07-16 华为技术有限公司 音频信号的编解码方法和编解码装置
CN113111618B (zh) * 2021-03-09 2022-10-18 电子科技大学 一种基于改进的经验小波变换的模拟电路故障诊断方法
CN113655529B (zh) * 2021-08-17 2022-11-29 南京航空航天大学 一种针对高采样率的被动磁信号优化提取和检测方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007051124A1 (en) 2005-10-26 2007-05-03 Qualcomm Incorporated Encoder-assisted frame loss concealment techniques for audio coding

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2130952A5 (ko) * 1971-03-26 1972-11-10 Thomson Csf
US4771465A (en) * 1986-09-11 1988-09-13 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech sinusoidal vocoder with transmission of only subset of harmonics
FR2692091B1 (fr) 1992-06-03 1995-04-14 France Telecom Procédé et dispositif de dissimulation d'erreurs de transmission de signaux audio-numériques codés par transformée fréquentielle.
JP3328532B2 (ja) * 1997-01-22 2002-09-24 シャープ株式会社 デジタルデータの符号化方法
WO1999050828A1 (en) * 1998-03-30 1999-10-07 Voxware, Inc. Low-complexity, low-delay, scalable and embedded speech and audio coding with adaptive frame loss concealment
US6496797B1 (en) * 1999-04-01 2002-12-17 Lg Electronics Inc. Apparatus and method of speech coding and decoding using multiple frames
AU4072400A (en) * 1999-04-05 2000-10-23 Hughes Electronics Corporation A voicing measure as an estimate of signal periodicity for frequency domain interpolative speech codec system
US6636829B1 (en) * 1999-09-22 2003-10-21 Mindspeed Technologies, Inc. Speech communication system and method for handling lost frames
SE0004187D0 (sv) * 2000-11-15 2000-11-15 Coding Technologies Sweden Ab Enhancing the performance of coding systems that use high frequency reconstruction methods
SE0004818D0 (sv) * 2000-12-22 2000-12-22 Coding Technologies Sweden Ab Enhancing source coding systems by adaptive transposition
US7447639B2 (en) * 2001-01-24 2008-11-04 Nokia Corporation System and method for error concealment in digital audio transmission
US6879955B2 (en) * 2001-06-29 2005-04-12 Microsoft Corporation Signal modification based on continuous time warping for low bit rate CELP coding
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
US7356748B2 (en) 2003-12-19 2008-04-08 Telefonaktiebolaget Lm Ericsson (Publ) Partial spectral loss concealment in transform codecs
EP1722359B1 (en) * 2004-03-05 2011-09-07 Panasonic Corporation Error conceal device and error conceal method
CN1989548B (zh) * 2004-07-20 2010-12-08 松下电器产业株式会社 语音解码装置及补偿帧生成方法
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
KR100770839B1 (ko) * 2006-04-04 2007-10-26 삼성전자주식회사 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치
US8024192B2 (en) * 2006-08-15 2011-09-20 Broadcom Corporation Time-warping of decoded audio signal after packet loss
KR100788706B1 (ko) * 2006-11-28 2007-12-26 삼성전자주식회사 광대역 음성 신호의 부호화/복호화 방법
KR101291193B1 (ko) * 2006-11-30 2013-07-31 삼성전자주식회사 프레임 오류은닉방법
US8935158B2 (en) * 2006-12-13 2015-01-13 Samsung Electronics Co., Ltd. Apparatus and method for comparing frames using spectral information of audio signal
EP2162880B1 (en) * 2007-06-22 2014-12-24 VoiceAge Corporation Method and device for estimating the tonality of a sound signal
US7885819B2 (en) * 2007-06-29 2011-02-08 Microsoft Corporation Bitstream syntax for multi-process audio decoding
US8489396B2 (en) * 2007-07-25 2013-07-16 Qnx Software Systems Limited Noise reduction with integrated tonal noise reduction
US8428957B2 (en) * 2007-08-24 2013-04-23 Qualcomm Incorporated Spectral noise shaping in audio coding based on spectral dynamics in frequency sub-bands
PL2304719T3 (pl) * 2008-07-11 2017-12-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Koder audio, sposoby dostarczania strumienia audio oraz program komputerowy
EP2346029B1 (en) * 2008-07-11 2013-06-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder, method for encoding an audio signal and corresponding computer program
US8532983B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Adaptive frequency prediction for encoding or decoding an audio signal
CN101521012B (zh) * 2009-04-08 2011-12-28 武汉大学 Mdct域信号能量与相位补偿方法及其装置
CN101958119B (zh) * 2009-07-16 2012-02-29 中兴通讯股份有限公司 一种改进的离散余弦变换域音频丢帧补偿器和补偿方法
PL2471061T3 (pl) * 2009-10-08 2014-03-31 Fraunhofer Ges Forschung Działający w wielu trybach dekoder sygnału audio, działający w wielu trybach koder sygnału audio, sposoby i program komputerowy stosujące kształtowanie szumu oparte o kodowanie z wykorzystaniem predykcji liniowej
RU2591011C2 (ru) * 2009-10-20 2016-07-10 Фраунхофер-Гезелльшафт цур Фёрдерунг дер ангевандтен Форшунг Е.Ф. Кодер аудиосигнала, декодер аудиосигнала, способ кодирования или декодирования аудиосигнала с удалением алиасинга (наложения спектров)
US9117458B2 (en) * 2009-11-12 2015-08-25 Lg Electronics Inc. Apparatus for processing an audio signal and method thereof
US20130006644A1 (en) * 2011-06-30 2013-01-03 Zte Corporation Method and device for spectral band replication, and method and system for audio decoding
CA2848275C (en) * 2012-01-20 2016-03-08 Sascha Disch Apparatus and method for audio encoding and decoding employing sinusoidal substitution
PL2874149T3 (pl) * 2012-06-08 2024-01-29 Samsung Electronics Co., Ltd. Sposób i urządzenie do ukrywania błędu ramki oraz sposób i urządzenie do dekodowania audio
WO2014042439A1 (ko) * 2012-09-13 2014-03-20 엘지전자 주식회사 손실 프레임 복원 방법 및 오디오 복호화 방법과 이를 이용하는 장치
US9401153B2 (en) * 2012-10-15 2016-07-26 Digimarc Corporation Multi-mode audio recognition and auxiliary data encoding and decoding
WO2014123469A1 (en) * 2013-02-05 2014-08-14 Telefonaktiebolaget L M Ericsson (Publ) Enhanced audio frame loss concealment
EP3098811B1 (en) * 2013-02-13 2018-10-17 Telefonaktiebolaget LM Ericsson (publ) Frame error concealment
SG11201510513WA (en) * 2013-06-21 2016-01-28 Fraunhofer Ges Forschung Method and apparatus for obtaining spectrum coefficients for a replacement frame of an audio signal, audio decoder, audio receiver and system for transmitting audio signals

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007051124A1 (en) 2005-10-26 2007-05-03 Qualcomm Incorporated Encoder-assisted frame loss concealment techniques for audio coding

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Pierre Lauber, Ralph Sperschneider. "Error concealment for compressed digital audio." Audio Engineering Society 111th Convention. 2001.09.24.*
Sang-Uk Ryu, Kenneth Roseh. An mdct domain frame-loss concealment technique for mpeg advanced audio coding. IEEE International Conference on Acoustics, Speech and Signal Processing-ICASSP'07. 2007.*

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019178108A1 (en) * 2018-03-13 2019-09-19 The Nielsen Company (Us), Llc Methods and apparatus to extract a pitch-independent timbre attribute from a media signal
US10482863B2 (en) 2018-03-13 2019-11-19 The Nielsen Company (Us), Llc Methods and apparatus to extract a pitch-independent timbre attribute from a media signal
US10629178B2 (en) 2018-03-13 2020-04-21 The Nielsen Company (Us), Llc Methods and apparatus to extract a pitch-independent timbre attribute from a media signal
US10902831B2 (en) 2018-03-13 2021-01-26 The Nielsen Company (Us), Llc Methods and apparatus to extract a pitch-independent timbre attribute from a media signal
US11749244B2 (en) 2018-03-13 2023-09-05 The Nielson Company (Us), Llc Methods and apparatus to extract a pitch-independent timbre attribute from a media signal

Also Published As

Publication number Publication date
CN111627451B (zh) 2023-11-03
HK1224075A1 (zh) 2017-08-11
WO2014202770A1 (en) 2014-12-24
US20180108361A1 (en) 2018-04-19
US10475455B2 (en) 2019-11-12
PL3011556T3 (pl) 2017-10-31
CN111627451A (zh) 2020-09-04
CA2915437A1 (en) 2014-12-24
JP2016526703A (ja) 2016-09-05
TW201506908A (zh) 2015-02-16
BR112015032013B1 (pt) 2021-02-23
BR112015032013A2 (pt) 2017-07-25
US20200020343A1 (en) 2020-01-16
AU2014283180A1 (en) 2016-02-11
US9916834B2 (en) 2018-03-13
JP6248190B2 (ja) 2017-12-13
CN105408956A (zh) 2016-03-16
RU2016101336A (ru) 2017-07-26
PT3011556T (pt) 2017-07-13
MY169132A (en) 2019-02-18
KR20160024918A (ko) 2016-03-07
RU2632585C2 (ru) 2017-10-06
TWI562135B (en) 2016-12-11
ES2633968T3 (es) 2017-09-26
CA2915437C (en) 2017-11-28
MX352099B (es) 2017-11-08
AU2014283180B2 (en) 2017-01-05
US11282529B2 (en) 2022-03-22
EP3011556A1 (en) 2016-04-27
MX2015017369A (es) 2016-04-06
SG11201510513WA (en) 2016-01-28
CN105408956B (zh) 2020-03-27
US20160104490A1 (en) 2016-04-14
EP3011556B1 (en) 2017-05-03

Similar Documents

Publication Publication Date Title
KR101757338B1 (ko) 오디오 신호의 대체 프레임에 대한 스펙트럼 계수들을 획득하기 위한 방법과 장치, 오디오 디코더, 오디오 수신기 및 오디오 신호들의 전송을 위한 시스템
US11581003B2 (en) Harmonicity-dependent controlling of a harmonic filter tool
US10706865B2 (en) Apparatus and method for selecting one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
CN105247614B (zh) 音频编码器和解码器
WO2007052612A1 (ja) ステレオ符号化装置およびステレオ信号予測方法
JP2019506633A (ja) 改良されたミッド/サイド決定を持つ包括的なildを持つmdct m/sステレオのための装置および方法
Ryu et al. An mdct domain frame-loss concealment technique for mpeg advanced audio coding
EP2551848A2 (en) Method and apparatus for processing an audio signal
JP2023507073A (ja) 音声符号化のための周波数領域における階調信号の長期予測のための符号化器、復号化器、符号化方法及び復号化方法
Sperschneider et al. Delay-less frequency domain packet-loss concealment for tonal audio signals
KR102424897B1 (ko) 상이한 손실 은닉 도구들의 세트를 지원하는 오디오 디코더
JP5182112B2 (ja) デコード装置および音声符号化方式推定方法
US20170140765A1 (en) Apparatus and method for comfort noise generation mode selection

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant