KR100959701B1 - 오디오 신호의 시간 워핑된 변형 변환 코딩 - Google Patents

오디오 신호의 시간 워핑된 변형 변환 코딩 Download PDF

Info

Publication number
KR100959701B1
KR100959701B1 KR1020087010642A KR20087010642A KR100959701B1 KR 100959701 B1 KR100959701 B1 KR 100959701B1 KR 1020087010642 A KR1020087010642 A KR 1020087010642A KR 20087010642 A KR20087010642 A KR 20087010642A KR 100959701 B1 KR100959701 B1 KR 100959701B1
Authority
KR
South Korea
Prior art keywords
warping
frame
frames
information
spectral coefficients
Prior art date
Application number
KR1020087010642A
Other languages
English (en)
Other versions
KR20080066760A (ko
Inventor
라르스 빌레뫼스
Original Assignee
돌비 스웨덴 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 스웨덴 에이비 filed Critical 돌비 스웨덴 에이비
Publication of KR20080066760A publication Critical patent/KR20080066760A/ko
Application granted granted Critical
Publication of KR100959701B1 publication Critical patent/KR100959701B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/002Dynamic bit allocation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/022Blocking, i.e. grouping of samples in time; Choice of analysis windows; Overlap factoring
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/06Determination or coding of the spectral characteristics, e.g. of the short-term prediction coefficients
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)

Abstract

어느 2개의 이웃하는 프레임들에 대한 공동의 시간 워핑이, 다음 블록 변환이 워핑 정보를 추가적으로 이용하도록 추정될 때, 연속하는 오디오 프레임들을 가지는 오디오 신호의 스펙트럼 표현이 보다 더 효율적으로 도출될 수 있다. 따라서, 복원 동안에 오버랩 및 가산 과정을 성공적으로 적용하는데 필요한 윈도우 함수들이 도출되어 적용될 수 있으며, 이 윈도우 함수들은 이미 시간 워핑으로 인해 신호의 리-샘플링을 알고 있는 것이다. 따라서, 가청 불연속성을 도입하지 않고서도 시간-워핑된 신호들의 블록-기반 변환 코딩 향상된 효율을 가지고 이용될 수 있다.
Figure R1020087010642
워핑, 워핑 추정기, 오버랩 및 가산

Description

오디오 신호의 시간 워핑된 변형 변환 코딩{Time Warped Modified Transform Coding of Audio Signals}
본 발명은 오디오 소스 코딩 시스템에 관한 것으로서, 특히 블록 기반 변환(block-based transform)을 이용하는 오디오 코딩 기술에 관한 것이다.
오디오 및 비디오 콘텐트(content)의 인코딩에 대한 여러 가지 방식이 이 분야에 알려져 있다. 일반적으로 그 목적은 물론 신호의 복원 품질을 저하시키지 않으면서 비트-세이빙(bit-saving) 방식으로 콘텐트를 인코딩하는 것이다.
최근에, 오디오 및 비디오 콘텐트의 인코딩에 대한 새로운 접근방식들이 개발되었으며, 그 중 변환-기반 지각 오디오 코딩이 정상 신호(stationary signal)에 대한 가장 큰 이득을 얻으며, 큰 변환 사이즈일 때 적용될 수 있다. (예를 들어, T. Painter 및 A. Spanias의 "Perceptual coding of digital audio", Proceedings of the IEEE, Vol. 88, No. 4, 2000년 4월, 451-513 페이지 참조). 오디오의 정상 부분들은 종종 고정된 유한 수를 가지는 정상 시누소이드(sinusoid)에 의해 잘 모델링된다. 일단 변환 사이즈가 이 성분들을 분해하기에 충분하도록 크면, 주어진 왜곡 타깃을 위해 고정된 수의 비트가 요구된다. 이 변환 사이즈를 더 증가시킴으로써, 점점 더 큰 오디오 신호의 세그먼트들이 비트 수요를 증가시키지 않고 설명될 것이다. 그러나 비정상 신호(non-stationary signal)들에 대해서는, 변환 사이즈의 축소가 필요하게 되고 그럼으로써 코딩 이득이 급격하게 감소할 것이다. 이 문제를 극복하기 위하여, 급격한 변화 및 과도 이벤트 동안, 평균 코딩 비용을 크게 증가시키지 않으면서 변환 사이즈 스위칭이 적용될 수 있다. 즉, 과도 이벤트가 감지될 경우에, 함께 인코딩될 샘플들의 블록 사이즈(프레임 사이즈)가 감소된다. 보다 더 지속적인 과도 신호들에 대해서는, 물론 비트 레이트가 극적으로 증가될 것이다.
지속적인 과도 거동에 대하여 특히 흥미로운 예는 국부적인 고조(harmonic) 신호의 피치 변화이며, 이는 주로 말이나 노래의 음성 부분에서 일어나지만, 또한 몇몇 음악 악기의 비브라토(vibrato) 및 글리산도(glissando)로부터 발생될 수 있다. 조화 신호를 갖게 되면, 즉, 신호가 시간 축을 따라 동일한 간격으로 분포된 신호 피크들을 갖게 되면, 피치라는 용어는 신호의 인접하는 피크들 간의 시간의 반전(inverse)을 나타낸다. 따라서 이러한 신호는, 상기 피크와 동일한 베이스 주파수와 높은 차수의 고조파로 이루어진, 완벽한 고조파 스펙트럼을 가진다. 보다 더 일반적으로 설명하면, 피치는 국부적인 고조 신호 내에서 2개의 이웃하는 대응 신호 부분들 간의 시간의 반전으로 정의될 수 있다. 그러나, 만일 피치 및 그에 따른 베이스 주파수가 시간과 더불어 변한다면, 그것이 유성음일 때, 스펙트럼이 점점 더 복잡해지고, 그에 따라 인코딩은 비효율적이 된다.
신호의 피치와 밀접한 관계를 가지는 파라미터는 신호의 워핑(warp)이다. 시간 t 에서의 신호가 p(t)와 동일한 피치를 갖고, 이 피치 값이 시간에 대하여 부드럽게 변한다면, 시간 t에서의 신호에 대한 워핑은 다음의 로그 도함수(logarithmic derivative)에 의해 정의된다.
Figure 112008031660615-pct00001
고조 신호의 경우에, 이러한 워핑의 정의는, 피치의 배수 또는 분수의 관점에서, 고조 성분 및 시스템적인 에러의 특정한 선택에 영향을 받지 않는다. 워핑은 로그 도메인에서 주파수 변화를 나타낸다. 워핑에 대한 자연 단위는 헤르츠 [Hz]이지만, 음악 용어에 있어서 상수 워핑
Figure 112008031660615-pct00002
을 가지는 신호는 초당 옥타브의
Figure 112008031660615-pct00003
[oct/s]의 스위프 속도를 갖는 스위프(sweep)이다. 음성 신호들은 10 oct/s까지의 워핑들과, 2 oct/s 부근의 평균 워핑을 나타낸다.
변환 코더들의 전형적인 프레임 길이(블록 길이)가 너무 커서 상대적인 피치 변화가 상기 프레임 내에서 상당하기 때문에, 그러한 사이즈의 워핑 또는 피치 변화는 이들 코더의 주파수 분석에 대한 혼화(scrambling)를 야기하게 된다. 일정 비트 레이트가 요구되는 경우에, 이것이 양자화의 조도(coarseness)를 증가시킴으로써만 극복될 수 있기 때문에, 이러한 효과가 양자화 노이즈의 도입을 유발하고, 이는 종종 잔향으로 인지되게 된다.
이 문제를 극복할 수 있는 하나의 기술은 시간 워핑이다. 시간-워핑된 코딩 에 대한 개념은 가변 속도를 가지는 테이프 레코더를 예로 들어 가장 잘 설명된다. 오디오 신호를 레코딩할 때, 모든 음성 세그먼트에 걸쳐서 일정한 피치를 갖도록 속도가 동적으로 조정된다. 얻어진 국부적 정상 오디오 신호가, 적용된 테이프 속도 변화와 함께 인코딩된다. 이어 디코더 측에서, 반대 속도 변화로 재생이 행해진다. 그러나, 상술한 바와 같은 단순한 시간 워핑을 적용하는 것은 몇 가지 심각한 단점을 갖는다. 무엇보다도, 절대 테이프 속도가 결국 제어 불가능하게 되어, 전체 인코딩된 신호의 지속 시간 및 대역폭 제한을 위반하게 된다. 복원을 위해서는, 특히 저 비트-레이트에서 실질적인 비트-레이트 오버헤드를 도입하도록, 테이프 속도에 관한(또는 균등적으로 신호 피치에 관한) 부수 정보(side information)가 전송되어야 한다.
시간-워핑된 신호의 지속 시간을 제어할 수 없는 문제를 극복하기 위한, 종래 기술의 통상적인 접근 방식은, 각 세그먼트의 지속 시간이 보존되도록, 시간 워핑에 의해, 신호의 연속적인 비-오버래핑(non-overlapping) 세그먼트들, 즉 개별 프레임들을 독립적으로 처리하는 것이다. 이러한 접근은 예를 들어 Yang등에 의한 "Pitch synchronous modulated lapped transform of the linear prediction residual of speech", Proceedings of ICSP '98, 591-594 페이지에 개시되어 있다. 이러한 방식의 중요한 단점은, 처리된 신호가 세그먼트들 내에서 정상이더라도, 피치가 각 세그먼트 경계에서 점프(jump)를 나타낼 것이라는 것이다. 이들 점프는 필연적으로 후속 오디오 코더의 코딩 효율 손실을 야기하며, 디코딩된 신호에 가청 불연속성이 도입된다.
시간 워핑은 또한 여러 가지 다른 코딩 기술에서 구현된다. 예를 들어, 미국특허출원 제2002/0120445호는 신호 세그먼트들이 블록-기반 변환 코딩 이전에 지속 시간에서 약간 수정되는 기술을 개시한다. 이는 블록들의 경계에서 큰 신호 성분들을 회피하여, 단일 세그먼트들의 지속 시간에 약간의 변화를 수용한다.
시간 워핑을 이용하는 다른 기술이 미국특허 제6,169,970호에 개시되었으며, 여기서는 시간 워핑이 음성 인코더의 장기(long-term) 예측기의 성능을 높이기 위해 적용된다. 같은 맥락으로, 미국특허출원 제2005/0131681호에서, 음성 신호의 CELP 코딩을 위한 예비-처리(pre-processing) 유닛이 개시되었으며, 이는 각기 하나의 백화(whitened) 피치 펄스를 포함하는, 비-오버래핑 간격들 사이에, 조각별(piecewise) 선형 워핑을 적용한다. 마지막으로, 음성 프레임에 2차 시간 워핑 함수를 적용함으로써 음성 피치 추정을 개선하는 방법이 (R.J. Sluijter and A.J.E.M. Janssen, "A time warper for speech signals" IEEE workshop on Speech Coding'99, June 1999, 150-152페이지)에 개시되어 있다.
요약하면, 종래기술의 워핑 기술들은 공히 프레임 경계들에 불연속성을 도입하는 문제와, 신호의 피치 변화를 나타내는 파라미터를 전송하는데 상당한 양의 추가적인 비트 레이트가 요구되는 문제를 가진다.
본 발명의 목적은 시간 워핑을 이용하여 오디오 신호에 대한 보다 효율적인 코딩을 제공하는 것이다.
본 발명의 제1 측면에 따르면, 상기 목적은 제1 프레임, 상기 제1 프레임을 뒤따르는 제2 플레임, 및 상기 제2 프레임을 뒤따르는 제3프레임을 가지는 오디오 신호의 표현을 도출하는 인코더에 의해 달성되며, 상기 인코더는: 상기 제1 및 상기 제2 프레임에 대한 제1 워핑 정보를 추정하고 상기 제2 및 상기 제3 프레임에 대한 제2 워핑 정보를 추정하는 워핑 추정기로서, 상기 워핑 정보들은 상기 오디오 신호의 피치를 나타내는 것인, 워핑 추정기; 상기 제1 워핑 정보를 이용하여 상기 제1 및 상기 제2 프레임에 대한 제1 스펙트럼 계수들을 도출하고 상기 제2 워핑 정보를 이용하여 상기 제2 및 상기 제3 프레임에 대한 제2 스펙트럼 계수들을 도출하는 스펙트럼 분석기; 및 상기 제1 및 상기 제2 스펙트럼 계수들을 포함하는 상기 오디오 신호의 상기 표현을 출력하는 출력 인터페이스를 포함한다.
본 발명의 제2 측면에 따르면, 이 목적은 제1 프레임, 상기 제2 프레임을 뒤따르는 제2 프레임, 및 상기 제2 프레임을 뒤따르는 제3 프레임을 가지는 오디오 신호를 제1 워핑 정보, 제2 워핑 정보, 제1 스펙트럼 계수들, 및 제2 스펙트럼 계수들을 이용하여 복원하는 디코더로서, 상기 제1 워핑 정보는 상기 제1 및 상기 제2 프레임에 대한 상기 오디오 신호의 피치를 나타내고, 상기 제2 워핑 정보는 상기 제2 및 제3 프레임에 대한 상기 오디오 신호의 피치를 나타내고, 상기 제1 스펙트럼 계수들은 상기 제1 및 상기 제2 프레임에 대한 스펙트럼 계수이고, 상기 제2 스펙트럼 계수들은 상기 제2 및 상기 제3 프레임에 대한 스펙트럼 계수인, 디코더에 의해 달성되며, 상기 디코더는: 상기 제1 스펙트럼 계수들 및 상기 제1 워핑 정보를 이용하여 제1 결합된 프레임을 도출하고, 제2 스펙트럼 계수들 및 상기 제2 워핑 정보를 이용하여 제2 결합된 프레임을 도출하는 스펙트럼 값 프로세서로서, 상기 제1 결합된 프레임은 상기 제1 및 상기 제2 프레임에 관한 정보를 가지고 상기 제2 결합된 프레임은 상기 제2 및 상기 제3 프레임에 관한 정보를 가지는 것인, 스펙트럼 값 프로세서; 및 상기 제1 결합된 프레임과 상기 제2 결합된 프레임을 이용하여 상기 제2 프레임을 복원하는 합성기를 포함한다.
본 발명의 제3 측면에 따르면, 이 목적은 제1 프레임, 상기 제1 프레임을 뒤따르는 제2 프레임, 및 상기 제2 프레임을 뒤따르는 제3 프레임을 가지는 오디오 신호의 표현을 도출하는 방법에 의해 달성되며, 상기 방법은: 상기 제1 및 상기 제2 프레임에 대한 제1 워핑 정보와 상기 제2 및 상기 제3 프레임에 대한 제2 워핑 정보를 추정하는 추정 단계로서, 상기 워핑 정보는 상기 오디오 신호의 피치를 나타내는 것인, 추정 단계; 상기 제1 워핑 정보를 이용하여 상기 제1 및 상기 제2 프레임에 대한 제1 스펙트럼 계수들을 도출하고 상기 제2 워핑 정보를 이용하여 상기 제2 및 상기 제3 프레임에 대한 제2 스펙트럼 계수들을 도출하는 도출 단계; 및 상기 제1 및 상기 제2 스펙트럼 계수들을 포함하는 상기 오디오 신호의 상기 표현을 출력하는 출력 단계를 포함한다.
본 발명의 제4 측면에 따르면, 이 목적은 제1 프레임, 상기 제2 프레임을 뒤따르는 제2 프레임, 및 상기 제2 프레임을 뒤따르는 제3 프레임을 가지는 오디오 신호를 제1 워핑 정보, 제2 워핑 정보, 제1 스펙트럼 계수들, 및 제2 스펙트럼 계수들을 이용하여 복원하는 방법으로서, 상기 제1 워핑 정보는 상기 제1 및 상기 제2 프레임에 대한 상기 오디오 신호의 피치를 나타내고, 상기 제2 워핑 정보는 상기 제2 및 제3 프레임에 대한 상기 오디오 신호의 피치를 나타내고, 상기 제1 스펙트럼 계수들은 상기 제1 및 상기 제2 프레임에 대한 스펙트럼 계수이고, 상기 제2 스펙트럼 계수들은 상기 제2 및 상기 제3 프레임에 대한 스펙트럼 계수인, 복원하는 방법에 의해 달성되며, 상기 방법은: 상기 제1 스펙트럼 계수들 및 상기 제1 워핑 정보를 이용하여 제1 결합된 프레임을 도출하고, 제2 스펙트럼 계수들 및 상기 제2 워핑 정보를 이용하여 제2 결합된 프레임을 도출하는 도출 단계로서, 상기 제1 결합된 프레임은 상기 제1 및 상기 제2 프레임에 관한 정보를 가지고 상기 제2 결합된 프레임은 상기 제2 및 상기 제3 프레임에 관한 정보를 가지는 것인, 도출 단계; 및 상기 제1 결합된 프레임 및 상기 제2 결합된 프레임을 이용하여 상기 제2 프레임을 복원하는 복원 단계를 포함한다.
본 발명의 제5 측면에 따르면, 이 목적은 제1 프레임, 상기 제1 프레임을 뒤따르는 제2 프레임, 및 상기 제2 프레임을 뒤따르는 제3 프레임을 가지는 오디오 신호의 표현에 의해 달성되며, 상기 표현은: 상기 제1 및 상기 제2 프레임에 대한 제1 스펙트럼 계수들로서 상기 제1 및 상기 제2 프레임의 워핑된 표현의 스펙트럼 조성을 나타내는 제1 스펙트럼 계수들; 및 상기 제2 및 상기 제3 프레임의 워핑 표현의 스펙트럼 조성을 나타내는 제2 스펙트럼 계수들을 포함한다.
본 발명의 제6 측면에 따르면, 이는 컴퓨터에서 구동될 때 상기의 방법들 중 어느 방법을 수행하는 프로그램 코드를 가지는 컴퓨터 프로그램에 의해 달성된다.
본 발명은 어느 2개의 이웃하는 프레임에 대하여 공동의 시간 워핑이, 다음 블록 변환이 워핑 정보를 추가적으로 이용할 수 있도록 추정될 때, 연속하는 오디오 프레임들을 가지는 오디오 신호의 스펙트럼 표현이 보다 더 효율적으로 도출 될 수 있다는 연구결과에 기반을 두고 있다.
따라서, 복원 동안에 오버랩 및 가산 과정을 성공적으로 적용하는데 필요한 윈도우 함수들이 도출되어 적용될 수 있으며, 이 윈도우 함수들은 이미 시간 워핑으로 인해 신호의 리-샘플링을 알고 있는 것이다. 따라서, 가청 불연속성을 도입하지 않고서도 시간-워핑된 신호들의 블록-기반 변환 코딩 향상된 효율을 가지고 이용될 수 있다.
본 발명은 따라서 종래 기술의 문제점들에 대한 매력적인 해답을 제공한다. 한편, 오디오 신호의 세그먼트화에 관한 문제가 특별한 오버랩 및 가산 기술에 의해 극복되며, 이는 시간-워핑된 연산들을 윈도우 연산과 통합하고 블록 변환의 시간 오프셋을 도입하는 것이다. 얻어진 연속 시간 변환들은 완벽한 복원 능력을 가지며, 그들의 이산 시간 대상들은 복원 동안 디코더에서 적용된 리샘플링 기술의 품질에 의해서만 제한된다. 이러한 특징은 얻어진 오디오 코딩 구성의 고 비트 레이트 수렴을 제공한다. 신호의 무손실 전송은 전송 비트 레이트를 높임으로써 발생되는 양자화의 조도(coarseness)를 감소시킴으로써 원칙적으로 달성될 수 있다. 이는 예를 들어 순수한 파라메트릭 코딩 방법들에 의해서는 달성될 수 없다.
본 발명의 다른 이점은 시간 워핑을 반전시키기 위하여 전송에 필요한 추가적인 정보에 대한 비트 레이트 수요의 강력한 감소이다. 이는 피치 부수 정보가 아닌 워핑 파라미터 부수 정보를 전송함으로써 달성된다. 이는 많은 피치-파라미터 기반 오디오 코딩 방법들의 경우에 정확한 피치 검출에 대해 심각한 의존성을 갖는데 반하여, 본 발명은 낮은 정도의 파라미터 의존성을 갖는다는 다른 이점을 갖는다. 이는 피치 파라미터 전송이 국부적인 고조(harmonic) 신호 기본 주파수의 검출을 요구하기 때문이며, 이는 항상 용이하게 달성될 수 있는 것이 아니다. 따라서 본 발명의 구성은, 상술한 워핑 파라미터의 정의가 주어지면, 명백하게 높은 고조파의 검출이 전송되는 워핑 파라미터를 왜곡하지 않기 때문에, 높은 견고성을 가진다.
본 발명의 하나의 실시예에서, 인코딩 구성이 연속적인 프레임들, 특히 서로를 뒤따르는 제1, 제2, 및 제3 프레임으로 배치된 오디오 신호를 인코딩하는데 적용된다. 제2 프레임의 신호에 관한 모든 정보가, 제1과 제2 프레임의 결합의 스펙트럼 표현 그리고 제1 및 제2 프레임에 대한 워핑 파라미터 시퀀스에 의해서 뿐만 아니라 제2와 제3 프레임의 결합의 스펙트럼 표현 그리고 제2와 제3 프레임에 대한 워핑 파라미터 시퀀스에 의해서 제공된다. 본 발명의 개념의 시간 워핑을 이용하면, 프레임 경계들에서 신속한 피치 변화를 도입할 필요 없고 그리고 도입의 결과로서 추가적인 가청 불연속성이 없이, 오버랩 및 가산 복원이 가능해진다.
본 발명의 다른 실시예에서, 워핑 파라미터 시퀀스가 기지의 피치-트랙킹(tracking) 알고리즘들을 이용하여 도출되며, 이는 이들 기지의 알고리즘들의 이용을 가능하게 하고 그럼으로써 기존의 코딩 구성으로 본 발명이 용이하게 구현될 수 있게 한다.
본 발명의 다른 실시예에서, 워핑은 오디오 신호가 워핑 파라미터들에 의한 지시에 따라 시간-워핑될 경우에 프레임들 내에 있는 오디오 신호의 피치가 가능한한 일정하도록 구현된다.
본 발명의 다른 실시예에서, 워핑 파라미터 시퀀스가 스펙트럼 계수들의 인코딩된 표현이 최소화되도록 선택되는 경우에 인코딩 동안 높은 계산 복잡성을 감수하여 비트 레이트가 훨씬 더 감소된다.
본 발명의 다른 실시예에서, 본 발명의 인코딩 및 디코딩이 윈도우 함수(윈도잉), 리샘플링, 및 블록 변환의 적용으로 분해된다. 이러한 분해는, 특히 변환에 대하여, 기존의 소프트웨어 및 하드웨어의 구현예들이 본 발명의 코딩 개념을 효율적으로 구현하는데 이용될 수 있다는 큰 장점을 가진다. 디코더 측에서는, 오버래핑과 가산의 다른 독립적인 단계가 신호를 복원하기 위해 도입된다.
본 발명의 대안적인 실시예에서, 추가적인 스펙트럼 가중(weighting)이 시간 도메인으로의 변환 이전에 신호의 스펙트럼 계수들에 적용된다. 그렇게 함으로써 디코더 측에서의 계산 복잡성이 더 감소되는 이점을 가지며, 이는 그럼으로써 신호 리샘플링에 대한 계산 복잡성이 더 감소될 수 있기 때문이다.
용어 "피치(pitch)"는 일반적인 의미로 해석된다. 이 용어는 또한 워핑 정보와 관계있는 장소들과 관련하여 피치 변화를 커버한다. 워핑 정보가 절대 피치에 대한 접근을 제공하고 않지만 상대적 또는 표준화된 피치 정보를 제공하는 상황이 있을 수 있다. 따라서 y-축 상의 값들이 없이 정확한 피치 곡선 형상을 얻을 경우에, 워핑 정보가 주어지면, 신호의 피치에 관한 설명을 얻을 수 있다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예들을 설명한다.
도 1은 본 발명의 워핑 맵의 예를 나타내는 도면.
도 2, 2a 및 2b는 본 발명의 워핑-의존 윈도우의 적용을 나타내는 도면.
도 3a 및 3b는 본 발명의 리샘플링에 대한 예를 나타내는 도면.
도 4a 및 4b는 디코더 측에서 본 발명의 신호 합성을 나타내는 도면.
도 5a 및 5b는 디코더 측에서 본 발명의 윈도잉(windowing)에 대한 예를 나타내는 도면.
도 6a 및 6b는 디코더 측에서 본 발명의 시간 워핑에 대한 예를 나타낸 도면.
도 7은 디코더 측에서 본 발명의 오버랩 및 가산 과정에 대한 예를 나타내는 도면.
도 8은 본 발명에 따른 오디오 인코더에 대한 예를 나타내는 도면.
도 9는 본 발명에 따른 오디오 디코더에 대한 예를 나타내는 도면.
도 10은 본 발명에 따른 디코더의 다른 예를 나타내는 도면.
도 11은 본 발명의 개념에 대한 역방향-호환의 구현예를 나타내는 도면.
도 12는 본 발명의 인코딩 구현에 대한 블록도.
도 13은 본 발명의 디코딩의 예에 대한 블록도.
도 14는 본 발명의 디코딩의 다른 예에 대한 블록도.
도 15a 및 15b는 본 발명의 개념을 효율적으로 구현하는 실현가능한 코딩을 나타내는 도면.
하기의 실시예들은 단지 오디오 신호의 시간 워핑된 변환 코딩을 위한 본 발명의 원리들을 설명하기 위한 것이다. 여기에 설명된 배치 및 세부사항의 수정물들 및 변경물들이 당해 기술 분야의 다른 이들에게 자명하다는 것을 이해하여야 한다. 따라서 본 발명은, 실시예에 대한 예시와 설명을 위해 여기에 주어진 특정 세부사항 들에 의해서가 아니라, 청구 범위에 의해서만 한정되는 것을 의도하고 있다.
다음에서는 본 발명의 개념에 대한 이해를 돕기 위해 워핑 및 블록 변환의 기본 아이디어 및 개념들을 간단하게 살펴볼 것이며, 이들은 첨부된 도면을 참조하여 하기에서 상세하게 설명될 것이다.
일반적으로, 시간-워핑된 변환의 특징들은 연속-시간 신호들의 도메인에서 가장 잘 도출된다. 다음 단락들은 일반 이론을 설명하고 나서 이산-시간 신호들에 대한 본 발명의 응용으로 특화되고 전환될 것이다. 이러한 전환에서의 주요 단계는 평균 샘플 밀도가 보존되도록, 즉 오디오 신호의 지속 시간이 변경되지 않도록, 연속-시간 신호들에서 수행된 좌표의 변경을 이산-시간 신호들의 비균일 리샘플링으로 대체하는 것이다.
t-축 간격 I를 s-축 간격 J로 맵핑하는 연속 미분가능한 순 증가 함수 Ψ로 나타낸 시간 좌표의 변경을
Figure 112008031660615-pct00004
으로 나타낸다.
따라서 Ψ(t)는 시간-의존 량의 시간-축을 변환하는데 이용될 수 있는 함수이며, 이는 시간 이산의 경우에서 리샘플링과 균등하다. 하기의 논의에서, t-축 간 격 I는 통상의 시간-도메인에서의 간격이고 x-축 간격 J는 워핑된 시간 도메인에서의 간격이라는 것을 유념한다.
간격 J에 있는 유한 에너지의 신호들에 대한 직교정규(orthonormal) 베이시스
Figure 112008031660615-pct00005
가 주어지면, 아래 규칙에 의해 간격 I에 있는 유한 에너지의 신호들에 대한 직교정규 베이시스
Figure 112008031660615-pct00006
를 구한다.
Figure 112008031660615-pct00007
(1)
무한 시간 간격 I가 주어지면, I를 세그멘팅하고 나서 표준화된 워핑 맵의 리스케일링된 조각들을 함께 접합하여 Ψ를 구함으로써, 시간 워핑의 국부적인 세부사항이 얻어질 수 있다.
표준화된 워핑 맵은 단위 간격(unit interval) [0,1]을 그 자체로 맵핑하는 연속 미분가능 및 순 증가 함수이다. 세그먼트화 점들
Figure 112008031660615-pct00008
(여기서는,
Figure 112008031660615-pct00009
임)의 시퀀스, 및 표준화된 워핑 맵
Figure 112008031660615-pct00010
의 대응 시퀀스로부터 시작하여 다음 식을 구한다.
Figure 112008031660615-pct00011
(2)
여기서
Figure 112008031660615-pct00012
이고, 시퀀스
Figure 112008031660615-pct00013
Figure 112008031660615-pct00014
이 연속 미분가능하게 되도록 조정된다. 이는 표준화된 워핑 맵들
Figure 112008031660615-pct00015
의 시퀀스로부터 타입
Figure 112008031660615-pct00016
의 스 케일의 아핀(affine) 변경까지의
Figure 112008031660615-pct00017
를 정의한다.
세그먼트화
Figure 112008031660615-pct00018
에 적합한,
Figure 112008031660615-pct00019
를 간격 J에 있는 유한 에너지의 신호들에 대한 직교정규 베이시스라고 하면, 오버랩 팩터가 정수 K라는 점에서, 만일
Figure 112008031660615-pct00020
또는
Figure 112008031660615-pct00021
일 경우에
Figure 112008031660615-pct00022
이다.
본 발명은 K = 1 의 경우가 오버랩이 없는 종래 기술에 해당하기 때문에, K ≥ 2의 경우에 주목한다. 많지 않은 구성들이 현재 K ≥ 3에 대해 공지되어 있다는 것을 유념한다. 본 발명의 개념에 대한 특정 예가, 변형 이산 코사인 변환(MDCT) 및 다른 이산 시간 겹쳐진 변환(discrete time lapped transform)에도 이용되는 국부적 3차 베이시스를 포함하는 K = 2에 대하여 전개될 것이다.
세그먼트화로부터의
Figure 112008031660615-pct00023
의 구성이 국부적이라고 하면, 정수 P일 경우에,
Figure 112008031660615-pct00024
Figure 112008031660615-pct00025
Figure 112008031660615-pct00026
에 대하여
Figure 112008031660615-pct00027
에 의존하지 않는다. 마지막으로, 구성은
Figure 112008031660615-pct00028
으로의 세그먼트화의 아핀 변경이
Figure 112008031660615-pct00029
으로의 베이시스 변경이 되도록 이루어진다. 그러면, 아래식
Figure 112008031660615-pct00030
(3)
이 간격 I에 있는 유한 에너지의 신호들에 대한 시간-워핑된 직교정규이며, 이는, 식(2)의 파라미터 시퀀스들
Figure 112008031660615-pct00031
Figure 112008031660615-pct00032
의 초기화에 독립적인, 세그먼트 포인트들
Figure 112008031660615-pct00033
과 표준화된 워핑 맵들
Figure 112008031660615-pct00034
의 시퀀스로부터 잘 정의된다. 이것은
Figure 112008031660615-pct00035
또 는
Figure 112008031660615-pct00036
일 경우에
Figure 112008031660615-pct00037
라는 점에서 주어진 세그먼트화에 알맞고,
Figure 112008031660615-pct00038
이,
Figure 112008031660615-pct00039
또는
Figure 112008031660615-pct00040
에 대한
Figure 112008031660615-pct00041
Figure 112008031660615-pct00042
또는
Figure 112008031660615-pct00043
에 대한 표준화된 워핑 맵들
Figure 112008031660615-pct00044
에 의존하지 않는다는 점에서 국부적으로 정의된다.
합성 파형 (3)은, 야코비안(Jacobian) 팩터
Figure 112008031660615-pct00045
로 인해, 연속적이지만 반드시 미분가능한 것은 아니다. 이 때문에, 그리고, 이산-시간 경우에서의 계산 부하의 감소로 인해, 유도된 배직교(biorthogonal) 시스템이 또한 구성될 수 있다. 상수
Figure 112008031660615-pct00046
이 있고, 시퀀스
Figure 112008031660615-pct00047
에 대해 아래식 (4)라고 하면,
Figure 112008031660615-pct00048
(4)
Figure 112008031660615-pct00049
(5)
식 (5)은 간격 I에 있는 유한 에너지를 갖는 신호들의 공간에 대하여 리에스(Riesz) 베이스의 배직교 쌍을 정의한다.
따라서,
Figure 112008031660615-pct00050
뿐만 아니라
Figure 112008031660615-pct00051
이 분석에 이용될 수 있지만,
Figure 112008031660615-pct00052
을 합성 파형으로서 이용하고,
Figure 112008031660615-pct00053
를 분석 파형으로서 이용하는 것이 특히 바람직하다.
상술한 일반적인 고려사항에 근거하여, s-축 상의 얻어진 세그먼트화에 적합 한 국부적 코사인 베이시스를 이용함으로써, 균일한 세그먼트
Figure 112008031660615-pct00054
및 오버랩 팩터
Figure 112008031660615-pct00055
의 경우를 위한 본 발명의 개념의 예가 다음 단락들에서 도출될 것이다.
비-균일 세그먼트화를 처리하는데 필요한 변형예들은 자명하며, 따라서 본 발명의 개념이 또한 비-균일 세그먼트화에 적용가능하다는 것을 유념하여야 한다. 예를 들어, M.W. Wickerhauser에 의해 제안된 예, "Adapted wavelet analysis from theory to software", A. K. Peters, 1994, Chapter 4와 같이, 국부적 코사인 베이시스의 구축을 위한 출발점은 라이징 컷오프(rising cutoff) 함수
Figure 112008031660615-pct00056
이며,
Figure 112008031660615-pct00057
에 대하여
Figure 112008031660615-pct00058
,
Figure 112008031660615-pct00059
에 대하여
Figure 112008031660615-pct00060
, 그리고 액티브 영역
Figure 112008031660615-pct00061
에서
Figure 112008031660615-pct00062
이다.
세그먼트화
Figure 112008031660615-pct00063
가 주어지면, 각 간격
Figure 112008031660615-pct00064
에 있는 윈도우는 식(6)에 따라 구성될 수 있으며,
Figure 112008031660615-pct00065
, (6)
이는 컷오프 중간점들
Figure 112008031660615-pct00066
및 컷오프 반지름들
Figure 112008031660615-pct00067
을 가진다. 이는 위커하우저(Wickerhauser)의 중간 점 구성에 대응한다.
Figure 112008031660615-pct00068
의 경우에, 직교정규 베이시스는 식(7)로부터 얻 어지며,
Figure 112008031660615-pct00069
, (7)
여기서 주파수 인덱스
Figure 112008031660615-pct00070
이다. 이 구성이 상술한
Figure 112008031660615-pct00071
및 아핀 불변성을 가지는 국부성 조건을 따른다는 것을 증명하는 것은 쉽다. t-축 상의 얻어진 워핑된 베이시스 (3)은 이 경우에
Figure 112008031660615-pct00072
에 대하여 다음 형태로 다시 나타낼 수 있다.
Figure 112008031660615-pct00073
(8)
여기서
Figure 112008031660615-pct00074
는 그 자체 상에 간격 [0,2]의 연속 미분가능한 맵핑을 형성하도록
Figure 112008031660615-pct00075
Figure 112008031660615-pct00076
을 함께 접합함으로써 정의된다.
Figure 112008031660615-pct00077
(9)
이는 다음 식 (10)에 적용하여 얻어진다.
Figure 112008031660615-pct00078
(10)
Figure 112008031660615-pct00079
의 구성이 도 1에 도시되었으며, x-축 상의 표준화된 시간과 y-축 상의 워핑된 시간을 보여준다. 도 1은 특히 k = 0인 경우에 대하여 논의될 것이며, 이는
Figure 112008031660615-pct00080
를 구축하여 표준화된 시간 0에서 표준화된 시간 1까지 지속하는 제1 프레임(10) 및 표준화된 시간 1에서 표준화된 시간 2까지 지속하는 제2 프레임(12)에 대한 워핑 함수를 유도하기 위한 것이다. 나아가, 제1 프레임(10)은 워핑 함수(14)를 가지고 제2 프레임(12)은 워핑 함수(16)를 가진다고 가정하며, 이는 시간 축이 워핑 함수(14 및 16)들에 의해 나타낸 바와 같이 변환될 경우에 개별 프레임들 내에서 동일한 피치를 얻도록 도출된 것이다. 워핑 함수(14)는
Figure 112008031660615-pct00081
에 대응하고 워핑 함수(16)는
Figure 112008031660615-pct00082
에 대응한다는 것을 유념하여야 한다. 식 (9)에 따라, 결합된 워핑 함수
Figure 112008031660615-pct00083
(18)은 워핑 함수(14 및 16)들을 함께 접합하여 간격 [0,2]의 연속 미분가능한 맵을 그 자체 상으로 형성함으로써 구성된다. 그 결과, 점(1,1)이 (1,a)로 변환되며, 여기서 a는 식(9)의
Figure 112008031660615-pct00084
에 대응한다.
본 발명의 개념이 오버랩 및 가산 시나리오에서의 시간 워핑의 적용에 관한 것이기 때문에, 프레임(12)과 다음 프레임(20)에 대한 다음 결합된 워핑 함수를 구축하는 예가 또한 도 1에 도시된다. 오버랩 및 가산 원리에 따라, 프레임(12)의 전체 복원을 위해서는, 워핑 함수(18 및 22)들에 대한 지식이 필요하다는 것을 유념하여야 한다.
또한 독립적으로 도출된 2개의 워핑 함수를 함께 접합하는 것이 반드시 적합한 결합된 워핑 함수 φ(18, 22)를 도출하는 유일한 방식이 아니라는 것을 유념하여야 하며, φ가 또한 적합한 워핑 함수를, 2개의 연속하는 프레임에 직접 적용함 으로써 도출될 수 있기 때문이다. 그들의 정의 도메인들의 오버랩 상에서, 2개의 워핑 함수의 아핀 일관성을 가지는 것이 바람직하다.
식(6)에 따르면, 식(8)의 윈도우 함수는 다음 식 (11)에 의해 정의되며,
Figure 112008031660615-pct00085
(11)
이는 간격
Figure 112008031660615-pct00086
에서 제로로부터 1로 증가하고, 간격
Figure 112008031660615-pct00087
에서 1로부터 제로로 감소한다.
상수
Figure 112008031660615-pct00088
가 있고, 모든 k에 대하여,
Figure 112008031660615-pct00089
이라면,
식(8)의 배직교 버전이 또한 도출될 수 있다. 식(4)에서
Figure 112008031660615-pct00090
을 선택하면 식(5)의 특화(specialization)가 얻어진다.
Figure 112008031660615-pct00091
(12)
따라서, 연속 시간의 경우에 대하여, 결합된 워핑 함수에 의존하는 합성 및 분석 함수(식(12))가 도출된다. 이러한 의존성은 오리지널 신호에 관한 정보의 손실 없이 오버랩 및 가산 시나리오 내에서 시간 워핑을 가능하게, 즉 신호의 완벽한 복원을 가능하게 한다.
구현 목적으로, 식(12) 내에서 수행된 연산들이, 일련의 연속하는 개별 처리 단계들로 분해될 수 있다는 것을 유념한다. 그렇게 하는 것 중에서 특히 매력적인 방식은 먼저 신호의 윈도잉을 수행하고, 이어 윈도잉된 신호의 리샘플링을 수행하고, 마지막으로 변환을 수행하는 것이다.
통상적인 것과 마찬가지로, 오디오 신호들이, 주어진 샘플 주파수로 샘플링된 이산 샘플 값으로서, 디지털적으로 저장되고 전송되며, 다음에서는 본 발명의 개념의 구현을 위해 주어진 상기 예가 이산의 경우에서 적용되는 되는 것을 설명한다.
분석 적분 및 합성 파형을 이산화(discretizing)함으로써, 시간-워핑된 변형 이산 코사인 변환(TWMDCT)이 시간-워핑된 코사인 베이시스로부터 얻어질 수 있다. 다음 설명은 배직교 베이시스(식(12) 참조)에 근거한다. 직교의 경우(8)를 처리하는데 필요한 변경들은 야코비안 팩터
Figure 112008031660615-pct00092
에 의한 추가적인 시간 도메인 가중(weighting)으로 이루어진다. 워핑이 적용되지 않는 특별한 경우에는, 양자 구성이 모두 보통의 MDCT로 변형된다. L이 변형 사이즈라고 가정하고, 분석되는 신호
Figure 112008031660615-pct00093
가 어떤
Figure 112008031660615-pct00094
에 대한
Figure 112008031660615-pct00095
(rad/s)에 의해 제한된 대역이라고 가정한다. 이는 신호가 샘플링 주기 1/L마다 샘플들에 의해 표시될 수 있도록 한다.
분석 계수들은 다음 식에 의해 주어진다.
Figure 112008031660615-pct00096
(13)
윈도잉된 신호 부분
Figure 112008031660615-pct00097
을 정의하고, 적분(13)에서
Figure 112008031660615-pct00098
Figure 112008031660615-pct00099
의 교체를 수행하면 다음식이 얻어진다.
Figure 112008031660615-pct00100
(14)
본 발명이 교시하는 이러한 적분을 이산화하는데 특히 매력적인 방식은 샘플 점들
Figure 112008031660615-pct00101
를 선택하는 것이며, 여기서
Figure 112008031660615-pct00102
는 정수 값이다. 부드러운 워핑과 상술한 대역 제한을 가정하면, 이는 다음의 근사치를 제공하며,
Figure 112008031660615-pct00103
(15)
여기서,
Figure 112008031660615-pct00104
(16).
식(15)의 합계 적분은
Figure 112008031660615-pct00105
에 의해 정의된다. 이것은
Figure 112008031660615-pct00106
을 포함하고, 각 끝에서 이 간격을 넘어서 연장되고 그럼으로써 점(point)의 총 수는 2L이다. 윈도잉으로 인해, 상기 결과는 어떤 정수
Figure 112008031660615-pct00107
에 대하여
Figure 112008031660615-pct00108
일 경우에 발생할 수 있는 에지 처리의 경우들에 영향을 받지 않는다.
합계(식(15))가 타입 IV의 DCT가 뒤따르는 기본적은 폴딩 연산들에 의해 계 산될 수 있다는 것이 잘 알려져 있기 때문에, 식(15)의 연산들을 일련의 연속 연산들 및 변환들로 분해하여 기존의 효율적인 하드웨어 및 소프트웨어 구현들, 특히 DCT(이산 코사인 변환)을 이용하는 것이 적합할 수 있다. 이산화된 적분에 따르면, 주어진 이산 시간 신호는 x(t)의 샘플링 주기 1/L로 등거리인 샘플들로서 번역될 수 있다. 따라서, 윈도잉의 첫 번째 단계는
Figure 112008031660615-pct00109
에 대한 다음식이 될 것이다:
Figure 112008031660615-pct00110
(17)
(
Figure 112008031660615-pct00111
에 따라 추가적인 오프셋을 도입하는)식(15)에 의해 설명된 블록 변환 이전에, 다음식의 맵핑인 리샘플링이 요구된다.
Figure 112008031660615-pct00112
(18)
리샘플링 연산은 비-등거리 리샘플링에 대한 모든 적합한 방법에 의해 수행될 수 있다.
요약하면, 본 발명의 시간-워핑된 MDCD는 윈도잉 연산, 리샘플링 및 블록-변환으로 분해될 수 있다.
개별적인 단계들이 다음에서 도 2 내지 3b를 참조하여 간략하게 설명될 것이다. 도 2 내지 3b는 합성적으로 발생된 피치 신호의 단지 2개의 윙도잉된 신호 블록만을 고려하는 시간 워핑 MDCT 인코딩의 단계를 보여준다. 각 개별 프레임은 1024 샘플을 포함하고, 따라서 2개의 고려된 결합 프레임(24 및 26)(오리지널 프레임(30과 32) 및 오리지널 프레임(32와 34)의 각각은 2048 샘플로 이루어지며, 또한 2개의 윈도잉된 결합 프레임은 1024 샘플의 오버랩을 가진다. 도 2 내지 2b는 x-축에서 처리될 3개 프레임의 표준화된 시간을 보여준다. 시간 축 상에 있어서, 제1 프레임(30)은 0에서부터 1까지 이르고, 제2 프레임(32)은 1에서부터 2까지 이르고, 제3 프레임은 2에서부터 3에 이른다. 따라서, 표준화된 시간 도메인에서, 각 시간 단위는 1024 신호 샘플을 갖는 하나의 완전한 프레임에 해당한다. 표준화된 분석 윈도우들은 표준화된 시간 간격 [0,2]와 [1,3]을 스팬(span)한다. 다음의 고려사항의 목적은 신호의 중간 프레임(32)을 복구하는 것이다. 외측 신호 프레임(32, 34)의 복원이 인접하는 윈도잉된 신호 세그먼트들로부터의 데이터를 요구하기 때문에, 이 복원은 여기에서 고려되지 않는다. 도 1에 도시된 결합된 워핑 맵들은 도 2의 신호로부터 유도된 워핑 맵들이며, 이는 본 발명에 따른 3개의 연속하는 표준화된 워핑 맵(점선 곡선)을 2개의 오버래핑하는 워핑 맵들(실선 곡선)로의 결합을 나타내는 것이다. 상술한 바와 같이, 본 발명의 결합된 워핑 맵(18 및 22)들은 신호 분석을 위해 유도된다. 나아가, 워핑의 아핀 불변성으로 인해, 이 곡선은 오리지널 2개의 세그먼트에서와 같이 동일한 워핑을 가지는 워핑 맵을 나타낸다.
도 2는 실선 그래프에 의해 나타낸 오리지널 신호를 보여준다. 그것의 규격화된 펄스-열(pulse-train)은 시간과 더불어 선형적으로 성장하는 피치를 가지며, 따라서 워핑이 피치의 로그 도함수로 정의되는 것을 고려하면 그것은 포지티브 및 감소하는 워핑을 가진다. 도 2에서, 식(17)을 이용하여 유도된 바와 같은 본 발명 의 분석 윈도우들이 점선 곡선으로서 슈퍼임포즈된다. (예를 들어 MDCT에서와 같이)표준 대칭 윈도우로부터의 편차는 상기 워핑이 가장 큰 곳, 즉 제1 세그먼트 [0,1]에서 가장 크다는 것을 유념하여야 한다. 윈도우들 단독의 수학적 정의는 식(11)의 윈도우들을 리샘플링함으로서 주어지며, 리샘플링은 식(17) 우측의 제2 팩터에 의해 표현된 바와 같이 구현된다.
도 2a 및 2b는 도 2의 윈도우들을 개별 신호 세그먼트들에 적용하는 본 발명의 윈도잉의 결과를 나타낸다.
도 3a 및 3b는 도 2a 및 2b의 윈도잉된 신호 블록들의 워핑 파라미터 의존 리샘플링의 결과를 나타내며, 이 리샘플링은 도 1의 실선 곡선에 의해 주어진 워핑 맵들에 의해 나타낸 바와 같이 수행된다. 표준화된 시간 간격 [0,1]은 워핑 시간 간격 [0,a]에 맵핑되어, 윈도잉된 신호 블록의 좌측 절반의 압축과 균등하게 된다. 결과적으로, 상기 윈도잉된 신호 블록의 우측 절반의 확장이 수행되어, 간격 [1,2]를 [a,2]로 맵핑한다. 상기 워핑 맵은 일정한 피치를 가지는 워핑된 신호를 유도할 목적으로 상기 신호로부터 도출되기 때문에, 상기 워핑(식(18)에 따른 리샘플링)의 결과는 일정한 피치를 가지는 윈도잉된 신호 블록이다. 상기 워핑 맵과 상기 신호 간의 불일치가 지금 시점에서는 여전히 가변적인 신호 블록을 가져오며, 이는 최종 복원을 방해하지 않는다는 것을 유념하여야 한다.
다음 블록 변환의 오프-셋은, 간격 [m, m+1]이 식(15)에서 L = 1024를 가지는 이산 샘플들
Figure 112008031660615-pct00113
= 1,0,...L-1에 대응하도록, 원들에 의해 표시된다. 이는 블록 변환의 변조 파형들이 m의 짝수 대칭의 점과 m+1의 홀수 대칭의 점을 공유한다는 것과 균등한 의미이다. 나아가, a가 2m과 동일하고 그럼으로써 m이 0과 a 사이의 중간점이고 m+1이 a와 2의 중간점이 된다는 것이 중요하다. 요약하면, 도 3a 및 3b는 식(18)에 의해 설명된 본 발명의 리샘플링 이후의 상황을 나타내며, 식(18)은 물론 워핑 파라미터들에 의존하는 것이다.
도 3a 및 3b에 있는 신호들의 시간-워핑된 변환 도메인 샘플들은 이어서 양자화 및 코딩되고, 표준화된 워핑 맵들
Figure 112008031660615-pct00114
를 나타내는 워핑 부수 정보와 더불어 디코더로 전송될 수 있다. 양자화가 통상적인 공지 기술이기 때문에, 특별한 양자화 규칙을 이용하는 양자화는 다음 도면들에서 도시하지 않고, 디코더 측에서의 신호의 복원에 초점을 맞추고 있다.
본 발명의 하나의 실시예에서, 디코더는 디코딩된 시간-워핑된 변환 도메인 샘플들
Figure 112008031660615-pct00115
과 더불어 워핑 맵 시퀀스를 수신하며, 여기서 상기 가정한 신호의 대역 제한으로 인해 n ≥ L에 대해
Figure 112008031660615-pct00116
= 0이라고 가정할 수 있다. 인코더 측에서와 같이, 이산 시간 합성을 달성하기 위한 시작점은 식(12)의 합성 파-형들을 이용하는 연속 시간 복원을 고려하는 것일 것이다:
Figure 112008031660615-pct00117
(19)
여기서,
Figure 112008031660615-pct00118
(20)
그리고,
Figure 112008031660615-pct00119
(21)
식(19)은 통상의 윈도잉된 변환 합성의 오버랩 및 가산(ad) 과정이다. 분석 단계에서와 같이, 점들
Figure 112008031660615-pct00120
에서 식(21)을 샘플링하는 것이 바람직하며, 그에 따라 다음 식을 제공되며,
Figure 112008031660615-pct00121
(22)
이는 다음 단계들에 의해 용이하게 계산된다: 처음에, 규칙
Figure 112008031660615-pct00122
에 따른 오프셋 파라미터
Figure 112008031660615-pct00123
에 따라, 2L에서의 확장이 뒤따르는, 샘플들로의 타입 IV의 DCT. 다음에, 윈도우
Figure 112008031660615-pct00124
를 이용한 윈도잉이 수행된다.
Figure 112008031660615-pct00125
가 구해지면, 다음 식의 리샘플링이
Figure 112008031660615-pct00126
(23)
등거리 샘플 점들
Figure 112008031660615-pct00127
에 있는 신호 세그먼트
Figure 112008031660615-pct00128
를 제공하며, 이는 식(19)에서 설명된 오버랩 및 가산 연산을 위해 준비되는 것이다.
리샘플링 방법이 아주 자유롭게 다시 선택되며 이는 인코더에서와 동일할 필요는 없다. 본 발명의 하나의 실시예에서, 스플라인(spline) 보간 기반 방법이 이용되며, 여기서 스플라인 함수들의 차수는, 계산 복잡성과 복원 품질 간의 절충을 위해, 대역 제한 파라미터 q의 함수로서 조정될 수 있다. 파라미터 q의 통상 값은 q = 1/3이며, 종종 2차 스플라인이 충분한 경우이다.
이하에서는 도 3a 및 3b에 도시된 신호에 대한 디코딩이 도 4a 내지 7에 의해 설명될 것이다. 여기서는 블록 변환 및 변환 파라미터의 전송에 대해서는 설명되지 않음을 다시 한 번 강조하는 바이며, 이는 그것들이 통상적으로 알려진 기술이기 때문이다. 디코딩 과정을 위한 시작으로서, 도 4a 및 4b는 역(reverse) 블록 변환이 이미 수행되어 도 4a 및 4b에 도시된 신호들이 얻어진 구성을 보여준다. 역 블록 변환의 한 가지 중요한 특징은 도 3a 및 3b의 오리지널 신호에는 있지 않은 신호 성분들의 가산이며, 이는 이미 설명한 바와 같이 합성 함수들의 대칭 특성에 기인한다. 특히, 합성 함수는 m에 관하여는 짝수 대칭을, m+1에 관하여는 홀수 대칭을 가진다. 따라서, 간격 [0,a]에서는, 포지티브 신호 성분들이 역 블록 변환에 가산되고 반면 간격 [a,2]에서는 네거티브 신호 성분들이 가산된다. 그에 더해, 합성 윈도잉 연산에 이용된 본 발명의 윈도우 함수는 도 4a 및 4b에서 점선 곡선으로 나타낸 바와 같이 슈퍼임포즈된다.
워핑 시간 도메인에서의 합성 윈도의 수학적 정의가 식(11)의 의해 주어진다. 도 5a 및 5b는 본 발명의 윈도잉의 적용 이후에, 여전히 워핑 시간 도메인에 있는 신호를 보여준다.
도 6a 및 6b는 마지막으로 도 5a 및 5b의 신호들에 대한 워핑 파라미터-의존 리샘플링의 결과를 보여준다.
마지막으로, 도 7은 신호의 합성의 마지막 단계인, 오버랩-가산(overlap- and-add) 연산의 결과를 보여준다. (식(19) 참조). 오버랩-가산 연산은 도 6a 및 6b의 파형들의 중첩(superposition)이다. 상술한 바와 같이, 완전히 복원되는 유일한 프레임은 중간 프레임(32)이며, 도 2의 오리지널 상태와의 비교는 상기 중간 프레임(32)이 높은 충실도를 갖도록 복원되었음을 보여준다. 역 블록 변환 중에 도입된, 방해가 되는 추가 신호 성분들의 정확한 소거는 오직 도 1의 상기 2개의 결합된 워핑 맵(14 및 22)들이 오버래핑된 표준화 시간 간격 [1,2] 내의 아핀 맵만이 다르다는 것이 본 발명의 중요한 특징이기 때문에 가능하다. 이것의 결과는 신호 부분들과 워핑 시간 세그먼트들 [a,2]와 [1,b]의 윈도우들 간에 일치가 있다는 것이다. 도 4a와 4b를 고려하면, 세그먼트 [1,b]를 [a,2]로의 선형 스트레칭이 신호 그래프들과 윈도우 절반들이 표준 MDCT의 공지의 시간 도메인 알리아스(aliasing) 소거 원리를 보여주도록 한다. 이미 알리아스가 소거된 신호는 이어 통상의 역 워핑 맵에 의해 표준화된 시간 간격 [1,2]로 간단히 맵핑될 수 있다.
본 발명의 다른 실시예에 따르면, 계산 복잡성의 추가적인 감소가 주파수 도메인에서의 사전-필터링(pre-filtering) 단계의 적용에 의해 달성될 수 있다는 점을 유념한다. 이는 단순한 전송된 샘플 값들 dkn의 사전-가중(pre-weighting)에 의해 구현될 수 있다. 이러한 사전-필터링은 예를 들어, M. Unser, A. Aldroubi, and M. Eden의 "B-spline signal processing part II-efficient design and applications"에 개시되어 있다. 구현을 위해서는 윈도잉 연산 이전에 역 블록 변환의 출력에 적용되는 B-스플라인 리샘플링이 필요하다. 이 실시예 내에서, 상기 리샘플링이 변형된
Figure 112008031660615-pct00129
를 갖는 식(22)에 의해 유도된 바와 같은 신호에 관해 행해진다. 윈도우 함수
Figure 112008031660615-pct00130
의 적용은 또한 수행되지 않는다. 따라서 상기 리샘플링은, 신호 세그먼트의 각 단부에서, 블록 변환의 선택에 의해 유도되는 주기성 및 대칭성의 관점에서 에지 상태에 주의하여야 한다. 이어서 윈도우
Figure 112008031660615-pct00131
를 이용한 리샘플링 이후에 필요한 윈도잉이 수행된다.
요약하면, 본 발명의 디코더의 제1 실시예에 따르면, 역 시간-워핑된 MDCT는, 개별 단계로 분해될 경우에, 다음 단계들을 포함한다:
· 역 변환
· 윈도잉
· 리샘플링
· 오버랩 및 가산
본 발명의 제2 실시예에 따르면, 역 시간-워핑된 MDCT는 다음을 포함한다:
· 스펙트럼 가중(Spectral weighting)
· 역 변환
· 리샘플링
· 윈도잉
· 오버랩 및 가산
전체 표준화된 워핑 맵들이 자명한 (
Figure 112008031660615-pct00132
)인 워핑이 적용되지 않은 경우에, 상술한 본 발명의 실시예는 통상적인 MDCT와 정확하게 일치한다는 것을 유념한다.
이하 상술한 특징들을 포함하는 본 발명의 다른 실시예들이 도 8 내지 15를 참조하여 상세하게 설명된다.
도 8은 본 발명의 오디오 인코더의 예를 도시한 도면으로서, 오디오 인코더는 입력으로서 디지털 오디오 신호(100)를 수신하고 본 발명의 시간-워핑된 변환 코딩 개념을 포함하는 디코더로 전송될 비트 스트림을 발생한다. 디지털 오디오 입력 신호(100)는 내추럴 오디오 신호 또는 사전 처리된 오디오 신호일 수 있으며, 여기서 예를 들어 상기 사전 처리는 입력 신호의 스펙트럼을 백화하는 백화 연산일 수 있다. 본 발명의 인코더는 워핑 파라미터 추출기(101) 워핑 변환기(102), 지각 모델 계산기(103), 워핑 코더(104), 인코더(105), 및 멀티플렉서(106)를 포함한다. 워핑 파라미터 추출기(101)는, 워핑 변환기(102)와 워핑 코더(104)로 입력되는 워핑 파라미터 시퀀스를 추정한다. 워핑 변환기(102)는 디지털 오디오 입력 신호(100)의 시간 워핑된 스펙트럼 표현을 도출한다. 시간 워핑된 스펙트럼 표현은 양자화 및 예를 들어 미분 코딩과 같은 가능한 다른 코딩을 위해 인코더(105)로 입력된다. 인코더(105)는 추가적으로 지각 모델 계산기(103)에 의해 제어된다. 예를 들어, 상기 양자화의 조도는 주로 다른 신호 성분들에 의해 마스킹된 신호 성분들 이 인코딩될 때 증가될 수 있다. 워핑 코더(104)는 워핑 파라미터 시퀀스를 인코딩하여 상기 비트 스트림 내에서의 전송 동안 그 사이즈를 줄인다. 이는 예를 들어 상기 파라미터들의 양자화, 또는 예를 들어 미분 코딩 또는 엔트로피-코딩 기술 및 산술 코딩(arithmetic coding) 기술을 포함할 수 있다.
멀티플렉서(106)는 워핑 코더(104)로부터의 인코딩된 워핑 파라미터 시퀀스와 디지털 오디오 입력 신호(100)의 인코딩된 시간-워핑된 스펙트럼 표현을 수신하여 양 데이터 모두를 인코더에 의해 출력된 비트 스트림으로 멀티플렉싱한다.
도 9는 호환성 비트 스트림(200)을 수신하여 출력으로서 복원된 오디오 신호를 도출하는 시간-워핑된 디코더의 예를 나타낸다. 상기 디코더는 디-멀티플렉서(de-multiplexer: 201), 워핑 디코더(202), 디코더(203), 및 역 워핑 변환기(204)를 포함한다. 디-멀티플렉서는 상기 비트 스트림을 인코딩된 워핑 파라미터 시퀀스로 디-멀티플렉싱하며, 인코딩된 워핑 파라미터 시퀀스는 워핑 디코더(202)로 입력된다. 디-멀티플렉서는 또한 상기 오디오 신호의 시간-워핑된 스펙트럼 표현을 디-멀티플렉싱하며, 이는 디코더(203)로 입력되고, 이 디코더(203)는 도 8에서 대응하는 오디오 인코더(105)의 역(inverse)이다. 워핑 디코더(202)는 워핑 파라미터 시퀀스의 복원을 도출하고 디코더(203)는 오리지널 오디오 신호의 시간-워핑된 스펙트럼 표현을 도출한다. 워핑 파라미터 시퀀스의 표현과 시간-워핑된 스펙트럼 표현은 역 워핑 변환기(204)로 입력되며, 역 워핑 변환기(204)는 오디오 신호의 시간-워핑된 오버래핑 변환에 관한 본 발명의 개념을 구현한 디지털 오디오 출력 신호를 도출한다.
도 10은 시간-워핑된 변환 디코더의 다른 실시예를 보여주며, 여기서는 워핑 파라미터 시퀀스가 상기 디코더 자체에서 도출된다. 도 10에 도시된 대안적인 실시예는 디코더(203), 워핑 추정기(301), 및 역 워핑 변환기(204)를 포함한다. 디코더(203)와 역 워핑 변환기(204)는 이전 실시예에서 대응하는 장치들과 동일한 기능을 공유하며, 따라서 다른 실시예에서의 이들 장치에 대한 설명은 완전히 상호 호환될 수 있다. 워핑 추정기(301)는 초기 주파수 도메인 피치 추정치들을 현재 주파수 도메인 피치 추정치와 결합함으로써 디코더(203)에 의해 출력된 시간-워핑된 스펙트럼 표현의 실제 워핑을 도출한다. 따라서 워핑 파라미터 시퀀스가 묵시적으로 시그널링되며, 이는 추가적인 워핑 파라미터 정보가 디코더에 입력된 비트스트림에 전송될 필요가 없기 때문에 비트 레이트가 더 절약될 수 있는 큰 이점을 가진다.
도 11은 본 발명의 개념의 시간-워핑된 디코딩이 가능하지 않은 종래 기술의 디코더들이 사용될 때의 본 발명의 개념에 대한 역방향 호환성을 보여준다. 이러한 디코더는 상기 추가적인 워핑 정보를 무시할 것이며, 따라서 비트 스트림을 아무런 워핑도 수행하지 않는 역 변환기(401)로 공급되는 주파수 도메인 신호로 디코딩한다. 본 발명의 인코더에서의 시간-워핑된 변환에 의해 수행된 주파수 분석은 아무 시간 워핑을 포함하지 않는 변환과 잘 동조되기 때문에, 워핑 데이터를 무시하는 디코더가 여전히 의미 있는 오디오 출력을 생성할 것이다. 이는 시간 워핑으로 인한 오디오 품질의 저하를 감수하고 수행되는 것이며, 종래 기술의 디코더들에서는 되돌려 지지 않는다.
도 12는 본 발명의 방법의 시간-워핑된 변환에 대한 블록도이다. 본 발명의 시간-워핑된 변환은 윈도잉 단계(501), 리샘플링 단계(502), 및 블록 변환 단계(503)를 포함한다. 처음에, 입력 신호가 개별 인코딩 단계 501 내지 503에 대한 추가 입력인 워핑 파라미터 시퀀스에 따른 오배래핑 윈도우 시퀀스로 윈도잉된다. 윈도잉된 입력 신호 세그먼트 각각은 리샘플링 단계(502)에서 순차적으로 리샘플링되며, 여기서 리샘플링은 상기 워핑 파라미터 시퀀스에 의해 지시된 바와 같이 수행된다.
블록 변환 단계(503) 내에서, 전형적으로 기지의 이산 삼각(trigonometric) 변환을 이용하여 도출된다. 따라서 상기 변환은 윈도잉되고 리샘플링된 신호 세그먼트에 대하여 수행된다. 상기 블록 변환이 또한 워핑 파라미터 시퀀스로부터 도출된 오프셋 값에 의존한다는 것을 유념한다.
도 13은 역 시간-워핑된 변환 방법에 대한 플로우챠트이다. 이 방법은 역 블록 변환(601) 단계, 윈도잉 단계(602), 리샘플링 단계(603), 및 오버래핑 및 가산 단계(604)를 포함한다. 변환 도메인 신호의 각 프레임이 역 블록 변환(601)에 의해 시간 도메인 신호로 변환된다. 상기 인코딩 단계에 대응하여, 블록 변환은 역 블록 변환 단계(601), 윈도잉 단계(602), 및 리샘플링 단계(603)에 대한 추가적인 입력으로서 역할하는 상기 수신된 파라미터 시퀀스로부터 도출된 오프셋 값에 의존한다. 블록 변환(601)에 의해 도출된 신호 세그먼트가 워핑 파라미터 시퀀스를 이용하여 윈도잉 단계(602)에서 순차적으로 윈도잉되고 리샘플링 단계(603)에서 리샘플링된다. 마지막으로, 오버래핑 및 가산 단계(604)에서, 윈도잉 및 리샘플링된 세그먼트가 통상의 오버랩 및 가산 연산으로 이전에 역 변환된 세그먼트들에 추가되어, 시간 도메인 출력 신호의 복원을 가져온다.
도 14는 본 발명의 역 시간-워핑된 변환기의 대안적인 실시예를 보여주며, 이는 계산 복잡성을 추가적으로 감소시기키 위해 실행된다. 디코더가 도 13의 디코더와 동일한 기능을 부분적으로 공유한다. 따라서 양 실시예들에서의 동일한 기능적 블록들에 대한 설명은 완전히 상호 호환적일 수 있다. 대안적 실시예는 상기 역 블록 변환(610) 전에 스펙트럼 사전-가중 단계(701)를 수행한다는 점이 도 13의 실시예와 다르다. 이 고정 스펙트럼 사전-가중 단계는 상기 블록 변환의 선택에 의해 도입된 주기성 및 대칭성을 가지는 시간 도메인 필터링과 균등하다. 이러한 필터링 연산은 어느 스플라인 기반 리-샘플링 방법들의 일부이며, 다음의 변형된 리샘플링(702)의 계산 복잡성을 줄일 수 있게 해준다. 이러한 리샘플링이 이제 블록 변환의 선택에 의해 도입된 주기성 및 대칭성을 가지는 신호 도메인에서 수행된다. 따라서 변형된 윈도잉 단계(703)가 리샘플링(702) 이후에 수행된다. 마지막으로, 오버래핑 및 가산 단계(604)에서, 상기 윈도잉되고 리샘플링된 세그먼트가 복원된 시간 도메인 출력 신호를 제공하는 통상의 오버랩 및 가산 과정을 이용하여 이전에 역-변환된 세그먼트에 가산된다.
도 15a 및 15b는 본 발명의 개념의 시간-워핑된 코딩의 장점을 나타내는 도면이며, 시간 워핑이 적용 및 비적용된 동일한 신호의 스펙트럼 표현들을 보여준다. 도 15a는 16 kHz에서 샘플링된 남성의 음성 신호 세그먼트에 대한 변환 사이즈 1024의 변형된 이산 코사인 변환으로부터 유래된 스펙트럼 라인들의 프레임을 나타낸다. 얻어진 주파수 해상도는 7.8 Hz이며, 이 도면에서는 대역폭 4.7 kHz에 대응하는 처음 600 라인들만이 플롯팅되었다. 기본 주파수와 플롯팅으로부터 알 수 있는 바와 같이, 상기 세그먼트는 대략 155 Hz의 평균 피치를 가지는 음성이다. 또한 도 15a로부터 알 수 있는 바와 같이, 피치-주파수 중에 처음 약간의 고조파들은 확연하게 식별할 수 있지만, 높은 주파수 쪽으로는, 상기 분석이 점차 조밀해지고 뒤섞여지고 있다. 이는 분석되는 신호 세그먼트의 길이 내에서의 피치의 변화에 기인한다. 따라서 고 주파수 영역에 대한 중간부의 코딩이 디코딩에 가청 인공음을 도입하지 않도록 하기 위해서는 실질적으로 상당한 양의 비트가 요구된다. 역으로, 비트 레이트를 고정할 경우에, 실질적으로 상당한 양의 왜곡이 양자화 조도를 높이는데 필요한 요구에 의해 불가피하게 발생한다.
도 15b는 본 발명에 따른 시간-워핑된 변형 이산 코사인 변환으로부터 얻어진 스펙트럼 라인들의 프레임을 나타낸 도면이다. 명백하게, 도 15a에서 이용된 동일한 오리지널 남성의 오디오 신호가 이용되었다. 상기 변환 파라미터들이 도 15와 동일하지만, 상기 신호에 적합한 시간-워핑된 변환의 사용은 스펙트럼 표현에 대하여 가시적인 극적 효과를 가진다. 추가적인 워핑 데이터를 코딩하는데 따른 비용을 고려하더라도, 상기 시간-워핑된 변환 도메인에서의 신호의 성기고(sparse) 조직화된 특성은 훨씬 좋은 등급의 왜곡 거동을 제공한다.
이미 설명한 바와 같이, 피치 또는 스피드 정보의 전송을 대신하는 워핑 파라미터의 전송은 추가적인 요구 비트 레이트를 극적으로 감소시키는 뛰어난 효과를 갖는다. 따라서 다음의 단락들에서는, 필요한 워핑 파라미터 정보를 전송하는 본 발명의 구성을 상세하게 설명한다.
시간 t에서 워핑 a(t)를 가지는 신호의 경우에, 국부적 코사인 베이시스(식(8), (12) 참조)를 위한 표준화된 워핑 맵 시퀀스
Figure 112008031660615-pct00133
의 최적 선택이 다음 식을 통해 얻어진다.
Figure 112008031660615-pct00134
(24)
그러나, 이러한 워핑 맵 시퀀스를 나타내는데 필요한 정보의 양이 너무 크고 a(t)의 점별(pointwise) 값의 정의와 측정이 어렵다. 실질적인 목적에 따라, 워핑 업데이트 간격
Figure 112008031660615-pct00135
이 결정되고, 각 워핑 맵
Figure 112008031660615-pct00136
Figure 112008031660615-pct00137
파라미터들에 의해 나타내어진다. 약 10-20 ms의 워핑 업데이트 간격이 일반적으로 음성 신호에 대해서 충분하다.
Figure 112008031660615-pct00138
Figure 112008031660615-pct00139
으로부터
Figure 112008031660615-pct00140
을 얻는 식(9)의 구성과 마찬가지로, 적합한 아핀 리-스케일링 연산들을 통한 N개의 표준화된 워핑 맵에 의해, 연속 미분가능 표준화된 워핑 맵이 접합될 수 있다.
Figure 112008031660615-pct00141
(25)
여기서
Figure 112008031660615-pct00142
는 워핑 파라미터이다.
Figure 112008031660615-pct00143
에 의해 맵
Figure 112008031660615-pct00144
의 워핑을 정의하면, 3개 맵 전부가 t=1/2에서
Figure 112008031660615-pct00145
와 동일한 워핑이 된다. 지수 맵은 전체 간격
Figure 112008031660615-pct00146
에서 상수 맵을 가지며,
Figure 112008031660615-pct00147
가 작은 값들인 경우에, 다른 2개의 맵이 이 상수 값으로부터 매우 작은 편차를 나타낸다. 리샘플링(23)을 위해 디코더에 적용된 주어진 워핑 맵에 대해서, 그 역이 인코더에서의 리샘플링(식(18))을 위해 필요하다. 이 반전에 대한 결과의 주요 부분은 표준화된 워핑 맵들의 반전으로부터 비롯한다. 2차 맵의 반전에는 제곱근 연산들이 필요하며, 지수 맵의 반전에는 로그(logarithm)가 필요하며, 유리수 뫼비우스 맵(rational Moebius map)의 역은 취소(negated)된 워핑 파라미터를 가지는 뫼비우스 맵이다. 지수 함수들 및 나눗셈들은 비교적 비용이 많이 들기 때문에, 디코더에서의 계산에 있어서 최대한 용이함에 대한 초점은 조각별(piecewise) 2차 워핑 맵 시퀀스
Figure 112008031660615-pct00148
에 이르게 된다.
이어 표준화된 워핑 맵
Figure 112008031660615-pct00149
가 다음의 요구조건에 따라 N 개의 워핑 파라미터
Figure 112008031660615-pct00150
에 의해 완전히 정의된다.
· 그것은 표준화된 워핑 맵이다;
· 그것은 부드러운 프로토타입(prototype) 워핑 맵들(25) 중의 하나의 스케일링된 복사본들에 의해 결합된다;
· 그것은 연속 미분가능하다;
· 그것은 다음 식을 만족시킨다;
Figure 112008031660615-pct00151
(26)
본 발명은 워핑 파라미터들이 전형적으로 약 0.5 Hz의 스텝 사이즈까지 선형적으로 양자화될 수 있다는 것을 교시한다. 결과 정수 값들이 이어 코딩된다. 대안적으로, 도함수
Figure 112008031660615-pct00152
가 표준화된 피치 곡선으로 해석될 수 있으며 여기서 상기 값들은
Figure 112008031660615-pct00153
(27)
전형적으로 0.005인, 고정 스텝 사이즈까지 양자화된다. 이 경우에 얻어진 정수 값들은 또한 순차적으로 또는 계층적인(hierarchical) 방식으로 차(difference) 코딩된다. 양자의 경우 모두, 얻어진 부수 정보 비트 레이트는 전형적으로 초당 수백 비트이며, 이는 단지 음성 코덱에서 피치 데이터를 나타내는데 필요한 레이트의 일부일 뿐이다.
큰 계산 능력을 갖춘 인코더는 코딩 비용을 최적으로 줄이거나 스펙트럼 라인들의 성김성(sparsity)의 크기를 최대화하는 워핑 데이터 시퀀스를 결정할 수 있다. 덜 비싼 과정은, 피치 트랙이 존재하고 피치 값들에서 큰 점프를 나타내지 않는 간격들에서, 측정된 피치 함수
Figure 112008031660615-pct00154
를 제공하는 피치 트랙킹과, 조각별 선형 함수
Figure 112008031660615-pct00155
를 가지는 피치 곡선에 대한 근사치 산출을 위한 기지의 방법들을 이용하는 것이다. 그러면 추정된 워핑 시퀀스가 다음 식,
Figure 112008031660615-pct00156
(28)
에 의해 피치 트랙킹 간격들 내부에서 주어진다. 이들 간격의 외부에서는 상기 워핑이 제로로 설정된다. 피치 주기 배가(doubling)와 같은, 피치 추정치에서의 시스템적인 에러는 워핑 추정치에 아주 작게 영향을 준다는 것을 유념한다.
도 10에 도시한 바와 같이, 본 발명의 대안적인 실시예에서는, 워핑 파라미터 시퀀스가 워핑 추정기에 의해 디코딩된 변환 도메인 데이터로부터 도출될 수 있다. 원리는 변환 데이터의 각 프레임에 대하여 또는 후속하는 디코딩된 신호 블록들의 피치들로부터 주파수 도메인 피치를 계산하는 것이다. 이어 워핑 정보가 식(28)과 유사한 식으로부터 도출된다.
본 발명의 개념의 응용이 주로 싱글 오디오 채널 시나리오에서 본 발명의 시간 워핑을 적용하는 것으로 설명되었다. 당연히 본 발명의 개념은 그러한 모노포닉(monophonic) 시나리오 내에서의 이용에 제한되지 않는다. 나아가 전송되는 싱글 또는 다중 채널이 본 발명의 개념을 이용하여 코딩될 수 있는 다중-채널 코딩 응용 내에서, 본 발명의 개념에 의해 달성될 수 있는 높은 코딩 이득을 이용하는 것이 큰 장점일 수 있다.
더욱이, 워핑은 일반적으로 x에 의존하는 임의의 함수의 x-축의 변환으로서 정의 될 수 있다. 따라서 본 발명의 개념은 또한 명시적으로 시간에 의존하지 않는 함수들 또는 신호의 표현이 워핑되는 시나리오들에 적용될 수 있다. 예를 들어, 신호의 주파수 표현의 워핑이 또한 구현될 수 있다.
나아가, 본 발명의 개념은 또한 위의 단락들에서 설명된 바와 같이 동일한 길이가 아닌 임의의 세그먼트 길이로 분할된 신호들에 바람직하게 적용될 수 있다.
이전 단락들에 제공된 베이스 함수들 및 이산화(discretization)의 이용은 또한 본 발명의 개념을 적용하는 하나의 바람직한 실시에로서 이해되어야 한다. 다른 응용들에 대해서는, 다른 베이스 함수들 및 다른 이산화들이 또한 이용될 수 있다. 본 발명의 방법들의 어느 구현 요구조건에 따라, 본 발명의 방법들은 하드웨어 또는 소프트웨어로 구현될 수 있다. 상기 구현은 디지털 저장 매체, 특히 저장된 전자적으로 판독가능한 제어 신호들을 가지고 본 발명의 방법들이 수행되도록 프로그램가능한 컴퓨터 시스템과 협동하는 디스크, DVD, 또는 CD를 이용하여 수행될 수 있다. 따라서 일반적으로 본 발명은 기계-판독형 캐리어에 저장되고 컴퓨터에서 구동될 때 본 발명의 방법들을 수행하는 프로그램 코드를 가지는 컴퓨터 프로그램 제품이다. 다시 말해서, 본 발명의 방법들은 상기 컴퓨터 프로그램이 컴퓨터에서 구동될 때 본 발명의 방법들 중 적어도 하나를 수행하는 프로그램 코드를 가지는 컴퓨터 프로그램이다.
상술한 것들이 그의 특정한 실시예들을 참조하여 도시되고 설명되었지만, 형태 및 세부사항에서의 다양한 다른 변경들이 본 발명의 사상과 범위를 벗어남 없이 해당 분야에서 통상의 지식을 가진 자에 의해 이해될 수 있을 것이다. 다양한 변경들이 여기에 개시되고 청구범위들에 의해 이해되는 넓은 개념으로부터 이탈되지 않고 다른 실시예들에 적합하게 구성될 수 있음을 이해하여야 한다.
어느 2개의 이웃하는 프레임들에 대한 공동의 시간 워핑이, 다음 블록 변환 이 워핑 정보를 추가적으로 이용하도록 추정될 때, 연속하는 오디오 프레임들을 가지는 오디오 신호의 스펙트럼 표현이 보다 더 효율적으로 도출될 수 있다. 따라서, 복원 동안에 오버랩 및 가산 과정을 성공적으로 적용하는데 필요한 윈도우 함수들이 도출되어 적용될 수 있으며, 이 윈도우 함수들은 이미 시간 워핑으로 인해 신호의 리-샘플링을 알고 있는 것이다. 따라서, 가청 불연속성을 도입하지 않고서도 시간-워핑된 신호들의 블록-기반 변환 코딩 향상된 효율을 가지고 이용될 수 있다.

Claims (37)

  1. 제1 프레임, 상기 제1 프레임을 뒤따르는 제2 프레임, 및 상기 제2 프레임을 뒤따르는 제3프레임을 가지는 시간 도메인 오디오 신호의 표현을 도출하는 인코더에 있어서:
    상기 제1 및 상기 제2 프레임에 대한 제1 워핑 정보를 추정하고 상기 제2 및 상기 제3 프레임에 대한 제2 워핑 정보를 추정하는 워핑 추정기로서, 상기 워핑 정보들은 상기 오디오 신호의 피치 정보를 나타내는 것인, 워핑 추정기;
    상기 제1 워핑 정보를 이용하여 상기 제1 및 상기 제2 프레임에 대한 제1 스펙트럼 계수들을 도출하고 상기 제2 워핑 정보를 이용하여 상기 제2 및 상기 제3 프레임에 대한 제2 스펙트럼 계수들을 도출하는 스펙트럼 분석기; 및
    상기 제1 및 상기 제2 스펙트럼 계수들을 포함하는 상기 오디오 신호의 상기 표현을 출력하는 출력 인터페이스를 포함하는 것을 특징으로 하는 인코더.
  2. 청구항 1에 있어서,
    상기 워핑 추정기는, 프레임의 워핑된 표현 내에 있는 피치가 워핑되지 않은 프레임 내의 피치보다 더 일정하게 되도록 하는 워핑 정보를 추정하고,
    워핑되지 않은 프레임들로부터 도출된 워핑된 표현은 상기 워핑 정보에 의해 지시된 바에 따라 상기 워핑되지 않은 프레임들 내에 있는 오디오 신호의 시간 축을 변환하는 것을 특징으로 하는 인코더.
  3. 청구항 1에 있어서,
    상기 워핑 추정기는, 상기 프레임들에 있는 상기 피치의 변화에 관한 정보를 이용하여, 상기 워핑 정보를 추정하는 것을 특징으로 하는 인코더.
  4. 청구항 3에 있어서,
    상기 워핑 추정기는, 상기 피치의 변화가 소정의 최대 피치 변화보다 낮을 때만 상기 피치의 변화에 관한 정보가 이용되도록, 상기 워핑 정보를 추정하는 것을 특징으로 하는 인코더.
  5. 청구항 1에 있어서,
    상기 워핑 추정기는, 프레임으로부터 도출된 워핑된 표현의 스펙트럼 표현이 상기 프레임의 스펙트럼 표현 보다 더 성기게 배치되도록, 상기 워핑 정보를 추정하고,
    상기 프레임들로부터 도출된 상기 워핑된 표현은 상기 워핑 정보에 의한 지시에 따라 상기 프레임들 내에 있는 상기 오디오 신호의 시간 축을 변환하는 것을 특징으로 하는 인코더.
  6. 청구항 1에 있어서,
    상기 워핑 추정기는, 표현들 양자 모두가 동일한 인코딩 규칙을 이용하여 도출된 경우에 프레임들로부터 도출된 워핑된 표현의 스펙트럼 계수들의 인코딩된 표 현이 상기 프레임들의 스펙트럼 계수들의 인코딩된 표현 보다 더 낮도록 상기 워핑 정보를 추정하고,
    상기 프레임들로부터 도출된 워핑된 표현은 상기 워핑 정보에 의한 지시에 따라 상기 프레임들 내에 있는 상기 오디오 신호의 시간 축을 변환하는 것을 특징으로 하는 인코더.
  7. 청구항 1에 있어서,
    이산 샘플 값의 시퀀스에 의해 주어진 오디오 신호의 표현을 도출하는 것을 특징으로 하는 인코더.
  8. 청구항 1에 있어서,
    상기 워핑 추정기는, 프레임들로부터 도출된 워핑된 표현이 상기 대응 프레임들과 동일한 길이의 오디오 신호를 나타내도록, 상기 워핑 정보를 추정하고,
    상기 프레임들로부터 도출된 워핑 표현은 상기 워핑 정보에 의한 지시에 따라 상기 프레임들 내에 있는 상기 오디오 신호의 시간 축을 변환하는 것을 특징으로 하는 인코더.
  9. 청구항 1에 있어서,
    상기 워핑 추정기는, 제1 해당 프레임의 제1 중간 워핑 정보와 제2 해당 프레임의 제2 중간 워핑 정보가 결합 규칙을 이용하여 결합되도록, 상기 워핑 정보를 추정하는 것을 특징으로 하는 인코더.
  10. 청구항 9에 있어서,
    상기 결합 규칙은, 상기 제1 중간 워핑 정보의 리스케일링된 워핑 파라미터 시퀀스가 상기 제2 중간 워핑 정보의 리스케일링된 워핑 파라미터 시퀀스와 연결되도록, 이루어진 것을 특징으로 하는 인코더.
  11. 청구항 10에 있어서,
    상기 결합 규칙은, 얻어진 워핑 정보가 연속 미분가능한 워핑 파라미터 시퀀스를 포함하도록, 이루어진 것을 특징으로 하는 인코더.
  12. 청구항 1에 있어서,
    상기 워핑 추정기는, 상기 워핑 정보가 워핑 파라미터들의 증가 시퀀스를 포함하도록, 상기 워핑 정보를 추정하는 것을 특징으로 하는 인코더
  13. 청구항 1에 있어서,
    상기 워핑 추정기는, 상기 워핑 정보가 간격 [0,2]를 그 자체 상으로 맵핑하는 연속 미분가능한 리샘플링 규칙을 나타내도록, 상기 워핑 정보를 추정하는 것을 특징으로 하는 인코더.
  14. 청구항 1에 있어서,
    상기 스펙트럼 분석기는 상기 워핑 정보에 따른 코사인 베이시스를 이용하여 상기 스펙트럼 계수들들 도출하는 것을 특징으로 하는 인코더.
  15. 청구항 1에 있어서,
    상기 스펙트럼 분석기는 2개 프레임의 가중된 표현을 이용하여 상기 스펙트럼 계수들을 도출하는 것을 특징으로 하는 인코더.
  16. 청구항 15에 있어서,
    상기 스펙트럼 분석기는, 상기 2개 프레임의 가중된 표현이 윈도우 함수를 상기 2개 프레임에 적용함으로써 얻어지도록, 상기 스펙트럼 계수들을 도출하고,
    상기 윈도우 함수는 상기 워핑 정보에 의존하는 것을 특징으로 하는 인코더.
  17. 청구항 1에 있어서,
    상기 스펙트럼 분석기는 상기 프레임들의 리샘플링된 표현을 이용하여 상기 스펙트럼 계수들을 도출하는 것을 특징으로 하는 인코더.
  18. 청구항 17에 있어서,
    상기 스펙트럼 분석기는, 상기 리샘플링된 표현이 상기 워핑 정보에 의한 지시에 따라 상기 프레임들의 시간 축을 변환하도록 도출하는 것을 특징으로 하는 인 코더.
  19. 청구항 1에 있어서,
    상기 도출된 워핑 정보는 상기 오디오 신호의 상기 피치에 대하여 표준화된 상기 오디오 신호의 피치 변화를 나타내는 것을 특징으로 하는 인코더.
  20. 청구항 1에 있어서,
    상기 워핑 추정기는 상기 워핑 정보가 워핑 파라미터들의 시퀀스를 포함하도록 상기 워핑 정보를 추정하고,
    각 워핑 파라미터는 상기 오디오 신호의 유한 길이 간격을 나타내는 것을 특징으로 하는 인코더.
  21. 청구항 1에 있어서,
    상기 출력 인터페이스는 상기 워핑 정보를 더 포함하는 것을 특징으로 하는 인코더.
  22. 청구항 1에 있어서,
    상기 출력 인터페이스는 상기 워핑 정보의 양자화된 표현을 더 포함하는 것을 특징으로 하는 인코더.
  23. 제1 프레임, 상기 제2 프레임을 뒤따르는 제2 프레임, 및 상기 제2 프레임을 뒤따르는 제3 프레임을 가지는 오디오 신호를 제1 워핑 정보, 제2 워핑 정보, 제1 스펙트럼 계수들, 및 제2 스펙트럼 계수들을 이용하여 복원하는 디코더로서, 상기 제1 워핑 정보는 상기 제1 및 상기 제2 프레임에 대한 상기 오디오 신호의 피치 정보를 나타내고, 상기 제2 워핑 정보는 상기 제2 및 제3 프레임에 대한 상기 오디오 신호의 피치 정보를 나타내고, 상기 제1 스펙트럼 계수들은 상기 제1 및 상기 제2 프레임에 대한 스펙트럼 계수이고, 상기 제2 스펙트럼 계수들은 상기 제2 및 상기 제3 프레임에 대한 스펙트럼 계수이며, 상기 디코더는:
    상기 제1 스펙트럼 계수들 및 상기 제1 워핑 정보를 이용하여 제1 결합된 프레임을 도출하고, 제2 스펙트럼 계수들 및 상기 제2 워핑 정보를 이용하여 제2 결합된 프레임을 도출하는 스펙트럼 값 프로세서로서, 상기 제1 결합된 프레임은 상기 제1 및 상기 제2 프레임에 관한 정보를 가지고 상기 제2 결합된 프레임은 상기 제2 및 상기 제3 프레임에 관한 정보를 가지는 것인, 스펙트럼 값 프로세서; 및
    상기 제1 결합된 프레임과 상기 제2 결합된 프레임을 이용하여 상기 제2 프레임을 복원하는 합성기를 포함하는 것을 특징으로 하는 디코더.
  24. 청구항 23에 있어서,
    상기 스펙트럼 값 프로세서는 상기 결합된 프레임들을 도출하기 위하여 코사인 베이스 함수들을 이용하고,
    상기 코사인 베이스 함수들은 상기 워핑 정보에 의존하는 것을 특징으로 하 는 디코더.
  25. 청구항 24에 있어서,
    상기 스펙트럼 값 프로세서는, 상기 스펙트럼 계수들에 관하여 상기 코사인 베이스 함수들을 이용하는 것이 결합된 프레임의 시간-워핑된(time-warped) 비가중(unweighted) 표현을 산출하도록, 상기 코사인 베이스 함수들을 이용하는 것을 특징으로 하는 디코더.
  26. 청구항 23에 있어서,
    상기 스펙트럼 값 프로세서는 상기 결합된 프레임들의 샘플 값들에 가중치를 적용하기 위하여 윈도우 함수를 이용하고,
    상기 윈도우 함수는 상기 워핑 정보에 의존하는 것을 특징으로 하는 디코더.
  27. 청구항 25에 있어서,
    상기 스펙트럼 값 프로세서는, 윈도우 함수가 결합된 프레임의 상기 시간-워핑된 비가중 표현에 적용될 때 결합된 프레임의 시간-워핑된 표현을 산출하도록, 상기 윈도우 함수를 이용하는 것을 특징으로 하는 디코더.
  28. 청구항 23에 있어서,
    상기 스펙트럼 값 프로세서는, 워핑 정보에 의한 지시에 따라 결합된 프레임 들의 표현들의 시간 축을 변환함으로써 결합된 프레임을 도출하도록, 상기 워핑 정보를 이용하는 것을 특징으로 하는 디코더.
  29. 청구항 23에 있어서,
    상기 합성기는 상기 제1 결합된 프레임과 상기 제2 결합된 프레임을 가산하여 상기 제2 프레임을 복원하는 것을 특징으로 하는 디코더.
  30. 청구항 23에 있어서,
    이산 샘플 값들의 시퀀스에 의하여 표현된 오디오 신호를 복원하는 것을 특징으로 하는 디코더.
  31. 청구항 23에 있어서,
    상기 제1 및 상기 제2 스펙트럼 계수들로부터 상기 제1 및 상기 제2 워핑 정보를 도출하는 워핑 추정기를 더 포함하는 것을 특징으로 하는 디코더.
  32. 청구항 23에 있어서,
    상기 스펙트럼 값 프로세서는, 소정 가중 팩터를 상기 스펙트럼 계수들에 적용하는, 상기 스펙트럼 계수들의 가중을 수행하는 것을 특징으로 하는 디코더.
  33. 제1 프레임, 상기 제1 프레임을 뒤따르는 제2 프레임, 및 상기 제2 프레임을 뒤따르는 제3 프레임을 가지는 오디오 신호의 표현을 도출하는 방법에 있어서:
    상기 제1 및 상기 제2 프레임에 대한 제1 워핑 정보와 상기 제2 및 상기 제3 프레임에 대한 제2 워핑 정보를 추정하는 추정 단계로서, 상기 워핑 정보는 상기 오디오 신호의 피치 정보를 나타내는 것인, 추정 단계;
    상기 제1 워핑 정보를 이용하여 상기 제1 및 상기 제2 프레임에 대한 제1 스펙트럼 계수들을 도출하고 상기 제2 워핑 정보를 이용하여 상기 제2 및 상기 제3 프레임에 대한 제2 스펙트럼 계수들을 도출하는 도출 단계; 및
    상기 제1 및 상기 제2 스펙트럼 계수들을 포함하는 상기 오디오 신호의 상기 표현을 출력하는 출력 단계를 포함하는 것을 특징으로 하는 방법.
  34. 제1 프레임, 상기 제2 프레임을 뒤따르는 제2 프레임, 및 상기 제2 프레임을 뒤따르는 제3 프레임을 가지는 오디오 신호를 제1 워핑 정보, 제2 워핑 정보, 제1 스펙트럼 계수들, 및 제2 스펙트럼 계수들을 이용하여 복원하는 방법으로서, 상기 제1 워핑 정보는 상기 제1 및 상기 제2 프레임에 대한 상기 오디오 신호의 피치 정보를 나타내고, 상기 제2 워핑 정보는 상기 제2 및 제3 프레임에 대한 상기 오디오 신호의 피치 정보를 나타내고, 상기 제1 스펙트럼 계수들은 상기 제1 및 상기 제2 프레임에 대한 스펙트럼 계수이고, 상기 제2 스펙트럼 계수들은 상기 제2 및 상기 제3 프레임에 대한 스펙트럼 계수이며, 상기 방법은:
    상기 제1 스펙트럼 계수들 및 상기 제1 워핑 정보를 이용하여 제1 결합된 프레임을 도출하고, 제2 스펙트럼 계수들 및 상기 제2 워핑 정보를 이용하여 제2 결 합된 프레임을 도출하는 도출 단계로서, 상기 제1 결합된 프레임은 상기 제1 및 상기 제2 프레임에 관한 정보를 가지고 상기 제2 결합된 프레임은 상기 제2 및 상기 제3 프레임에 관한 정보를 가지는 것인, 도출 단계; 및
    상기 제1 결합된 프레임 및 상기 제2 결합된 프레임을 이용하여 상기 제2 프레임을 복원하는 복원 단계를 포함하는 것을 특징으로 하는 방법.
  35. 컴퓨터에서 구동될 때 제1 프레임과 상기 제1 프레임을 뒤따르는 제2 프레임과 상기 제2 프레임을 뒤따르는 제3 프레임을 가지는 오디오 신호의 표현을 도출하는 방법을 수행하는 프로그램 코드를 가지는 컴퓨터 프로그램으로서,
    상기 방법은:
    상기 제1 및 상기 제2 프레임에 대한 제1 워핑 정보와 상기 제2 및 상기 제3 프레임에 대한 제2 워핑 정보를 추정하는 추정 단계로서, 상기 워핑 정보는 상기 오디오 신호의 피치 정보를 나타내는 것인, 추정 단계;
    상기 제1 워핑 정보를 이용하여 상기 제1 및 상기 제2 프레임에 대한 제1 스펙트럼 계수들을 도출하고 상기 제2 워핑 정보를 이용하여 상기 제2 및 상기 제3 프레임에 대한 제2 스펙트럼 계수들을 도출하는 도출 단계; 및
    상기 제1 및 상기 제2 스펙트럼 계수들을 포함하는 상기 오디오 신호의 상기 표현을 출력하는 출력 단계를 포함하는 것인, 컴퓨터 프로그램.
  36. 컴퓨터에서 구동될 때 제1 프레임, 상기 제2 프레임을 뒤따르는 제2 프레임, 및 상기 제2 프레임을 뒤따르는 제3 프레임을 가지는 오디오 신호를 제1 워핑 정보, 제2 워핑 정보, 제1 스펙트럼 계수들, 및 제2 스펙트럼 계수들을 이용하여 복원하는 방법을 수행하는 프로그램 코드를 가지는 컴퓨터 프로그램으로서, 상기 제1 워핑 정보는 상기 제1 및 상기 제2 프레임에 대한 상기 오디오 신호의 피치 정보를 나타내고, 상기 제2 워핑 정보는 상기 제2 및 제3 프레임에 대한 상기 오디오 신호의 피치 정보를 나타내고, 상기 제1 스펙트럼 계수들은 상기 제1 및 상기 제2 프레임에 대한 스펙트럼 계수이고, 상기 제2 스펙트럼 계수들은 상기 제2 및 상기 제3 프레임에 대한 스펙트럼 계수이며,
    상기 방법은:
    상기 제1 스펙트럼 계수들 및 상기 제1 워핑 정보를 이용하여 제1 결합된 프레임을 도출하고, 제2 스펙트럼 계수들 및 상기 제2 워핑 정보를 이용하여 제2 결합된 프레임을 도출하는 도출 단계로서, 상기 제1 결합된 프레임은 상기 제1 및 상기 제2 프레임에 관한 정보를 가지고 상기 제2 결합된 프레임은 상기 제2 및 상기 제3 프레임에 관한 정보를 가지는 것인, 도출 단계; 및
    상기 제1 결합된 프레임 및 상기 제2 결합된 프레임을 이용하여 상기 제2 프레임을 복원하는 복원 단계를 포함하는 것인, 컴퓨터 프로그램.
  37. 제1 프레임, 상기 제1 프레임을 뒤따르는 제2 프레임, 및 상기 제2 프레임을 뒤따르는 제3 프레임을 가지는 오디오 신호의 표현으로서, 상기 표현은:
    상기 제1 및 상기 제2 프레임에 대한 제1 스펙트럼 계수들로서 상기 제1 및 상기 제2 프레임의 워핑된 표현의 스펙트럼 조성을 나타내는 제1 스펙트럼 계수들; 및
    상기 제2 및 상기 제3 프레임의 워핑 표현의 스펙트럼 조성을 나타내는 제2 스펙트럼 계수들을 포함하는 것을 특징으로 하는 표현.
KR1020087010642A 2005-11-03 2006-10-24 오디오 신호의 시간 워핑된 변형 변환 코딩 KR100959701B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US73351205P 2005-11-03 2005-11-03
US60/733,512 2005-11-03
US11/464,176 2006-08-11
US11/464,176 US7720677B2 (en) 2005-11-03 2006-08-11 Time warped modified transform coding of audio signals

Publications (2)

Publication Number Publication Date
KR20080066760A KR20080066760A (ko) 2008-07-16
KR100959701B1 true KR100959701B1 (ko) 2010-05-24

Family

ID=37507461

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020087010642A KR100959701B1 (ko) 2005-11-03 2006-10-24 오디오 신호의 시간 워핑된 변형 변환 코딩

Country Status (14)

Country Link
US (3) US7720677B2 (ko)
EP (7) EP2306455B1 (ko)
JP (4) JP4927088B2 (ko)
KR (1) KR100959701B1 (ko)
CN (2) CN102592602B (ko)
AT (1) ATE395687T1 (ko)
DE (1) DE602006001194D1 (ko)
DK (1) DK1807825T3 (ko)
ES (5) ES2604758T3 (ko)
HK (2) HK1105159A1 (ko)
MY (1) MY141264A (ko)
PL (1) PL1807825T3 (ko)
TW (1) TWI320172B (ko)
WO (1) WO2007051548A1 (ko)

Families Citing this family (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US8682652B2 (en) * 2006-06-30 2014-03-25 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
US9653088B2 (en) * 2007-06-13 2017-05-16 Qualcomm Incorporated Systems, methods, and apparatus for signal encoding using pitch-regularizing and non-pitch-regularizing coding
KR101380170B1 (ko) * 2007-08-31 2014-04-02 삼성전자주식회사 미디어 신호 인코딩/디코딩 방법 및 장치
TWI455064B (zh) * 2007-12-20 2014-10-01 Thomson Licensing 聲影文件突起映圖之決定方法和裝置
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
EP2107556A1 (en) * 2008-04-04 2009-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio transform coding using pitch correction
CN102150201B (zh) 2008-07-11 2013-04-17 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码
AU2013206265B2 (en) * 2008-07-11 2015-05-28 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Providing a time warp activation signal and encoding an audio signal therewith
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
EP2144231A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme with common preprocessing
EP2211335A1 (en) 2009-01-21 2010-07-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for obtaining a parameter describing a variation of a signal characteristic of a signal
EP2674943B1 (en) 2009-01-28 2015-09-02 Dolby International AB Improved harmonic transposition
BR122019023709B1 (pt) 2009-01-28 2020-10-27 Dolby International Ab sistema para gerar um sinal de áudio de saída a partir de um sinal de áudio de entrada usando um fator de transposição t, método para transpor um sinal de áudio de entrada por um fator de transposição t e meio de armazenamento
KR101701759B1 (ko) 2009-09-18 2017-02-03 돌비 인터네셔널 에이비 입력 신호를 전위시키기 위한 시스템 및 방법, 및 상기 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 저장 매체
WO2011048815A1 (ja) * 2009-10-21 2011-04-28 パナソニック株式会社 オーディオ符号化装置、復号装置、方法、回路およびプログラム
US9338523B2 (en) * 2009-12-21 2016-05-10 Echostar Technologies L.L.C. Audio splitting with codec-enforced frame sizes
CA2792500C (en) * 2010-03-10 2016-05-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio signal decoder, audio signal encoder, methods and computer program using a sampling rate dependent time-warp contour encoding
EP2372704A1 (en) 2010-03-11 2011-10-05 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Signal processor and method for processing a signal
KR101809298B1 (ko) * 2010-10-06 2017-12-14 파나소닉 주식회사 부호화 장치, 복호 장치, 부호화 방법 및 복호 방법
TWI488177B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 使用頻譜域雜訊整形之基於線性預測的編碼方案
SG192721A1 (en) * 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion
MX2013009304A (es) 2011-02-14 2013-10-03 Fraunhofer Ges Forschung Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad.
ES2639646T3 (es) 2011-02-14 2017-10-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación y decodificación de posiciones de impulso de pistas de una señal de audio
SG192745A1 (en) 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Noise generation in audio codecs
ES2529025T3 (es) 2011-02-14 2015-02-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para procesar una señal de audio decodificada en un dominio espectral
CA2827000C (en) 2011-02-14 2016-04-05 Jeremie Lecomte Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
CA2827335C (en) 2011-02-14 2016-08-30 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Audio codec using noise synthesis during inactive phases
SG185519A1 (en) * 2011-02-14 2012-12-28 Fraunhofer Ges Forschung Information signal representation using lapped transform
WO2014108393A1 (en) 2013-01-08 2014-07-17 Dolby International Ab Model based prediction in a critically sampled filterbank
CA2964362C (en) * 2013-06-21 2020-03-31 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Jitter buffer control, audio decoder, method and computer program
EP2830065A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for decoding an encoded audio signal using a cross-over filter around a transition frequency
EP2830055A1 (en) * 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Context-based entropy coding of sample values of a spectral envelope
FR3020732A1 (fr) * 2014-04-30 2015-11-06 Orange Correction de perte de trame perfectionnee avec information de voisement
EP3000110B1 (en) * 2014-07-28 2016-12-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Selection of one of a first encoding algorithm and a second encoding algorithm using harmonics reduction
EP3107096A1 (en) * 2015-06-16 2016-12-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Downscaled decoding
CN117238300A (zh) 2016-01-22 2023-12-15 弗劳恩霍夫应用研究促进协会 使用帧控制同步来编码或解码多声道音频信号的装置和方法
CN110998722B (zh) * 2017-07-03 2023-11-10 杜比国际公司 低复杂性密集瞬态事件检测和译码
EP3483879A1 (en) * 2017-11-10 2019-05-15 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Analysis/synthesis windowing function for modulated lapped transformation

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000074039A1 (en) * 1999-05-26 2000-12-07 Koninklijke Philips Electronics N.V. Audio signal transmission system
EP1271471A2 (en) 2001-06-29 2003-01-02 Microsoft Corporation Signal modification based on continuous time warping for low bitrate celp coding

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3519830A1 (de) * 1985-06-03 1986-12-18 Ruhrkohle Ag, 4300 Essen Verfahren zur kohlehydrierung mit integrierten raffinationsstufen
JPH01233835A (ja) * 1988-03-14 1989-09-19 Mitsubishi Electric Corp 音声時間軸圧縮符号化装置
JPH0546199A (ja) * 1991-08-21 1993-02-26 Matsushita Electric Ind Co Ltd 音声符号化装置
JPH0784597A (ja) * 1993-09-20 1995-03-31 Fujitsu Ltd 音声符号化装置および音声復号化装置
AU3690197A (en) 1996-08-02 1998-02-25 Universite De Sherbrooke Speech/audio coding with non-linear spectral-amplitude transformation
PL193723B1 (pl) * 1997-04-07 2007-03-30 Koninkl Philips Electronics Nv Sposób i urządzenie do kodowania sygnału mowy oraz sposób i urządzenie do dekodowania sygnału mowy
US6169970B1 (en) * 1998-01-08 2001-01-02 Lucent Technologies Inc. Generalized analysis-by-synthesis speech coding method and apparatus
US6182042B1 (en) * 1998-07-07 2001-01-30 Creative Technology Ltd. Sound modification employing spectral warping techniques
US6330533B2 (en) 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
US6502066B2 (en) * 1998-11-24 2002-12-31 Microsoft Corporation System for generating formant tracks by modifying formants synthesized from speech units
US6782360B1 (en) * 1999-09-22 2004-08-24 Mindspeed Technologies, Inc. Gain quantization for a CELP speech coder
US6959274B1 (en) * 1999-09-22 2005-10-25 Mindspeed Technologies, Inc. Fixed rate speech compression system and method
AU2001276893A1 (en) 2000-07-13 2002-01-30 Qualcomm Incorporated Maximum distance block coding scheme
CN1408146A (zh) * 2000-11-03 2003-04-02 皇家菲利浦电子有限公司 音频信号的参数编码
EP1262952B1 (en) * 2001-05-28 2006-08-16 Texas Instruments Incorporated Programmable melody generator
US6941263B2 (en) * 2001-06-29 2005-09-06 Microsoft Corporation Frequency domain postfiltering for quality enhancement of coded speech
DE60232560D1 (de) 2001-08-31 2009-07-16 Kenwood Hachioji Kk Vorrichtung und Verfahren zur Erzeugung eines Signals mit konstanten Grundfrequenz und Vorrichtung sowie Verfahren zum Synthetisieren von Sprachsignalen unter Verwendung dieser Signals mit konstanten Grundfrequenz.
JP3994332B2 (ja) * 2001-09-27 2007-10-17 株式会社ケンウッド 音声信号圧縮装置、音声信号圧縮方法、及び、プログラム
EP1439524B1 (en) 2002-07-19 2009-04-08 NEC Corporation Audio decoding device, decoding method, and program
CN1290036C (zh) 2002-12-30 2006-12-13 国际商业机器公司 根据机器可读词典建立概念知识的计算机系统及方法
EP1604352A4 (en) * 2003-03-15 2007-12-19 Mindspeed Tech Inc SINGLE NOISE DELETION MODEL
US7587254B2 (en) * 2004-04-23 2009-09-08 Nokia Corporation Dynamic range control and equalization of digital audio using warped processing
US7433463B2 (en) 2004-08-10 2008-10-07 Clarity Technologies, Inc. Echo cancellation and noise reduction method
US7676362B2 (en) * 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
US8155965B2 (en) * 2005-03-11 2012-04-10 Qualcomm Incorporated Time warping frames inside the vocoder by modifying the residual
US8355907B2 (en) * 2005-03-11 2013-01-15 Qualcomm Incorporated Method and apparatus for phase matching frames in vocoders
US7917561B2 (en) 2005-09-16 2011-03-29 Coding Technologies Ab Partially complex modulated filter bank
US7720677B2 (en) * 2005-11-03 2010-05-18 Coding Technologies Ab Time warped modified transform coding of audio signals
US7873511B2 (en) * 2006-06-30 2011-01-18 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Audio encoder, audio decoder and audio processor having a dynamically variable warping characteristic
US8010350B2 (en) * 2006-08-03 2011-08-30 Broadcom Corporation Decimated bisectional pitch refinement
DE602007004502D1 (de) * 2006-08-15 2010-03-11 Broadcom Corp Neuphasierung des status eines dekodiergerätes nach einem paketverlust
US8239190B2 (en) * 2006-08-22 2012-08-07 Qualcomm Incorporated Time-warping frames of wideband vocoder
PL2165328T3 (pl) * 2007-06-11 2018-06-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kodowanie i dekodowanie sygnału audio zawierającego część impulsową i część stacjonarną
EP2077550B8 (en) * 2008-01-04 2012-03-14 Dolby International AB Audio encoder and decoder
MY154452A (en) * 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
CN102150201B (zh) * 2008-07-11 2013-04-17 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码
WO2011048815A1 (ja) * 2009-10-21 2011-04-28 パナソニック株式会社 オーディオ符号化装置、復号装置、方法、回路およびプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000074039A1 (en) * 1999-05-26 2000-12-07 Koninklijke Philips Electronics N.V. Audio signal transmission system
EP1271471A2 (en) 2001-06-29 2003-01-02 Microsoft Corporation Signal modification based on continuous time warping for low bitrate celp coding

Also Published As

Publication number Publication date
CN101351840B (zh) 2012-04-04
EP4290512A2 (en) 2023-12-13
JP6125324B2 (ja) 2017-05-10
EP4290513A3 (en) 2024-02-14
ES2967257T3 (es) 2024-04-29
TW200719319A (en) 2007-05-16
MY141264A (en) 2010-04-16
PL1807825T3 (pl) 2009-01-30
JP4927088B2 (ja) 2012-05-09
EP3319086A1 (en) 2018-05-09
HK1254427A1 (zh) 2019-07-19
ES2307287T3 (es) 2008-11-16
KR20080066760A (ko) 2008-07-16
US20100204998A1 (en) 2010-08-12
US7720677B2 (en) 2010-05-18
EP2306455A1 (en) 2011-04-06
EP3319086B1 (en) 2021-02-17
ES2646814T3 (es) 2017-12-18
EP1807825B1 (en) 2008-05-14
HK1105159A1 (en) 2008-02-01
ES2863667T3 (es) 2021-10-11
EP2306455B1 (en) 2017-09-27
US20130218579A1 (en) 2013-08-22
EP3852103A1 (en) 2021-07-21
EP1807825A1 (en) 2007-07-18
ATE395687T1 (de) 2008-05-15
JP2012068660A (ja) 2012-04-05
US8412518B2 (en) 2013-04-02
EP4290512A3 (en) 2024-02-14
EP1953738A1 (en) 2008-08-06
DK1807825T3 (da) 2008-09-08
EP3852103B1 (en) 2023-11-29
JP6084595B2 (ja) 2017-02-22
EP4290513A2 (en) 2023-12-13
US20070100607A1 (en) 2007-05-03
EP1953738B1 (en) 2016-10-12
JP2013210654A (ja) 2013-10-10
TWI320172B (en) 2010-02-01
ES2604758T3 (es) 2017-03-09
US8838441B2 (en) 2014-09-16
DE602006001194D1 (de) 2008-06-26
WO2007051548A1 (en) 2007-05-10
JP2009515207A (ja) 2009-04-09
CN102592602A (zh) 2012-07-18
JP5323164B2 (ja) 2013-10-23
CN102592602B (zh) 2015-11-25
CN101351840A (zh) 2009-01-21
JP2015018274A (ja) 2015-01-29

Similar Documents

Publication Publication Date Title
KR100959701B1 (ko) 오디오 신호의 시간 워핑된 변형 변환 코딩
AU2009231135B2 (en) Audio transform coding using pitch correction
EP0698876B1 (en) Method of decoding encoded speech signals
JP2003044097A (ja) 音声信号および音楽信号を符号化する方法
Eriksson et al. On waveform-interpolation coding with asymptotically perfect reconstruction

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130507

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20140512

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20150508

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20160509

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20170508

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20180509

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20190515

Year of fee payment: 10