KR20020084201A - 오디오 또는 음성 신호를 인코딩하기 위한 파라메트릭인코더 및 방법 - Google Patents

오디오 또는 음성 신호를 인코딩하기 위한 파라메트릭인코더 및 방법 Download PDF

Info

Publication number
KR20020084201A
KR20020084201A KR1020027012154A KR20027012154A KR20020084201A KR 20020084201 A KR20020084201 A KR 20020084201A KR 1020027012154 A KR1020027012154 A KR 1020027012154A KR 20027012154 A KR20027012154 A KR 20027012154A KR 20020084201 A KR20020084201 A KR 20020084201A
Authority
KR
South Korea
Prior art keywords
filters
samples
frequency
signal
unit
Prior art date
Application number
KR1020027012154A
Other languages
English (en)
Inventor
덴브린커알버터스씨.
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20020084201A publication Critical patent/KR20020084201A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 오디오 또는 음성 신호를 정현 코드 데이터로 인코딩하는 파라메트릭 인코더에 관한 것이다. 이러한 파라메트릭 인코더들은 일반적으로 상기 신호(s)를 적어도 하나의 단일 스케일 세그먼트(xm(n))(m=1 내지 M)로 분할하여 상기 세그먼트(xm(n))의 샘플들(xm(0) 내지 xm(L-1))을 출력하는 분할 유닛(12), 및 상기 샘플들로부터 상기 세그먼트(xm(n))를 나타내는 정현 코드 데이터를 추정하는 정현 추정 유닛(140)을 포함한다. 본 발명의 목적은 요구되는 시간-주파수 분해능 트레이드-오프가 용이하게 달성되도록 하는 파라메트릭 인코더 및 방법을 개선하는 것이다. 이것은, 출력 샘플들(xm(0) 내지 xm(L-1))을 주파수-왜곡 도메인으로 변형하기 위해 주파수-왜곡 동작을 수행하도록 하는 분할 유닛(120)을 구현하고, 정현 추정 유닛(140)에 의해 출력된 정현 코드 데이터를 신호(s)의 원래의 주파수 도메인에 재-매핑하기 위한 후처리 필터(160)를 제공함으로써 달성된다.

Description

오디오 또는 음성 신호를 인코딩하기 위한 파라메트릭 인코더 및 방법{Parametric encoder and method for encoding an audio or speech signal}
이러한 인코더들 및 방법들은 일반적으로 이 기술분야에 공지되어 있고, 예를 들어, 비.에들러(B.Edler), 에이치.펀하겐(H.Purnhagen), 및 씨.피어키디스(C.Ferekidis)의 "ASAC - 매우 낮은 비트 레이트용 분석/합성 코덱(ASAC - Analysis/synthesis codec for very low bit rates)", 1996년 5월 11-14일, 코펜하겐, 프리프린트 4179(F-6) 100thAES 회의에 개시되어 있다. 이러한 공지된 파라메트릭 인코더가 도 4 및 도 5에 도시되어 있다.
도 5에 따르면, 인코더는 수신된 오디오 또는 음성 신호를, 샘플들(xm(0), ..., xm(L-1))을 갖는 적어도 하나의 단일 스케일 세그먼트(xm(l))로 분할하는 분할 유닛(120')을 포함한다. 이러한 샘플들은 정현 추정 유닛(140')에 의해 수신되어, 상기 세그먼트(xm(n))를 나타내는 정현 코드 데이터를 추정한다. 이러한 정현 코드 데이터는 일반적으로 채널을 통해 송신되거나 기록 매체 상에 저장되기 전에 데이터 스트림으로 병합된다.
도 4는 분할 유닛(120')을 더 상세하게 도시한다(공지되어 있음). 알 수 있는 바와 같이, 오디오 또는 음성 신호(s(n))는 연속적인 필터들(122_1', 122_2', ..., 122_L-1')을 포함하는 탭핑된 지연 라인(tapped delay line)에 입력된다. 원래의 오디오 또는 음성 신호(s(n)=y0(nD)), 및 상기 L-1개의 필터들(122_1' 내지 122_L-1')의 출력 신호들(y'1(nD) 내지 yL-1(nD))은 샘플링 유닛(124')에 입력되고, 이 샘플링 유닛은 세그먼트(xm(l))의 L개의 샘플들(xm(0), ..., xm(L-1))을 생성하기 위해서, 바람직하게는 다운 샘플링 유닛으로서 구현된다.
도 4 및 도 5에 따른 공지된 파라메트릭 인코더에 의해 생성된 단일 스케일 세그먼트들은, 그 세그먼트 길이 및 그에 따른 그 주파수 분해능이, 분할된 오디오 또는 음성 신호의 실제 주파수 범위와 관계없이 일정한 것을 특징으로 한다. 다른 말로 표현하면, 통상의 인코더들에서 제공되는 단일 스케일 정현 추정 메카니즘은 요구되는 시간-주파수 분해능 트레이드-오프에 대한 문제점들이 있다. 특히, 신호 s의 저주파수 범위들에 대해서는 고품질의 오디오 코딩을 위해 고주파수 분해능이 요구되지만, 다른 주파수 범위들에 대해서는 더 낮은 주파수 분해능(즉, 더 작은 세그먼트 길이(L))이면 충분할 것이다.
이러한 문제점들을 극복하기 위해서, 멀티-스케일 모델들이 제안되어 왔다(예를 들어, 티.에스.버마(T.S.Verma), 에스.엔.레빈(S.N.Levine) 및 제이.오.스미스 Ⅲ(J.O.Smith Ⅲ)의 "변형된 광대역 오디오에 대한 멀티 분해능 정현모델링(Multiresolution sinusoidal modeling for wideband audio with modifications)", 1998년 시애틀, ICASSP-98). 이 멀티-스케일 모델들은 신호(s)의 상이한 주파수 범위들에 상이한 세그먼트 길이(L)를 제공한다. 그러나, 이 멀티-스케일 모델들은 스케일들 상에서 성분들을 스캐터링하고 및/또는 상이한 스케일들로 검색된 데이터를 병합하는 문제들을 초래한다. 더 상세하게, 스캐터링 문제는, 통상 발생된 세그먼트들이 중복되고, 그에 따라, 상기 세그먼트들의 샘플들이 2개의 생성된 세그먼트들의 샘플들간에 가능한 명백한 분리가 존재하지 않는 것으로 인해(고도의 노력을 적용하는 것은 제외함) 2번 처리될 수도 있다고 하는 문제를 다룬다.
본 발명은 오디오 또는 음성 신호를 정현 코드 데이터(sinusoidal code data)로 인코딩하기 위한 파라메트릭 인코더 및 방법에 관한 것이다.
도 1은 본 발명에 따른 파라메트릭 인코더의 바람직한 제 1 실시예를 도시하는 도면.
도 2는 본 발명에 따른 파라메트릭 인코더의 바람직한 제 2 실시예를 도시하는 도면.
도 3은 본 발명에 따른 파라메트릭 인코더의 바람직한 제 3 실시예를 도시하는 도면.
도 4는 이 기술분야에 공지된 파라메트릭 인코더를 도시하는 상세도.
도 5는 이 기술분야에 공지된 파라메트릭 인코더를 도시하는 전체 블록도.
이와 같은 종래 기술로부터, 본 발명의 목적은, 요구되는 시간-주파수 분해능 트레이드-오프가 상술된 멀티-스케일 모델들의 문제점들(즉, 스케일들 상에서 성분들을 스캐터링하고 및/또는 서로 다른 스케일들로 검색된 데이터를 병합하는 문제점)없이 수립될 수 있도록, 오디오 또는 음성 신호를 인코딩하는 공지된 파라메트릭 인코더 및 방법을 개선하는 것이다.
이러한 목적은 청구항 1항의 내용에 의해 해결된다. 더 상세하게는, 공지된 파라메트릭 인코더에 대해서, 청구항 1항에 따르면, 분할 유닛은 또한, 출력 샘플들을 주파수-왜곡된(frequency-warped) 도메인으로 변환하기 위해 주파수-왜곡 동작을 수행하도록 구현되고, 정현 추정 유닛으로부터 출력된 상기 정현 코드 데이터를 신호(s)의 원래의 도메인에 재-매핑하기 위한 후처리 필터를 제공한다.
청구된 파라메트릭 인코더의 분할 유닛은 신호(s)를 적어도 하나의 단일 스케일 세그먼트(xm(l))로 분할한다. 상기 분할 유닛은 단일 스케일 세그먼트들만을 생성하기 때문에, 이 기술분야에 공지된 멀티-스케일 모델들의 문제점들은 여기서는 발생되지 않는다. 대신, 주파수-왜곡 동작을 적용함으로써, 즉, 신호(s)의 상이한 주파수 범위들에 상이한 주파수 분해능들을 제공함으로써, 요구되는 시간-주파수 분해능 트레이드-오프가 어떠한 문제점들도 없이 단일 스케일 세그먼트들에 대해 유익하게 수립될 수 있다.
여기서, 한방향(unilateral) 주파수-왜곡은 일반적으로 종래 기술, 예를 들어, 오디오의 선형 예측 코딩, 오디오 균등화 및 일반적인 필터 설계에 의해 공지되어 있지만, 본 발명에 제안된 바와 같은 정현 코딩에 대해서는 공지되어 있지 않다. 양방향(bilateral) 주파수 왜곡은 오디오 처리에 적용되지 않았다.
이와 같은 파라메트릭 인코더의 유익한 실시예들은 종속항에 기술된다.
상기 목적은 또한 청구항 9항에 따른 오디오 또는 음성 신호를 인코딩하는 방법에 의해 해결된다. 상기 방법의 이점들은 파라메트릭 인코더에 대해 상술된 이점들에 대응한다.
이하, 본 발명에 따른 파라메트릭 인코더의 바람직한 실시예들이 도 1 내지 도 3을 참조하여 설명된다.
도 1은 오디오 또는 음성 신호(s(n))를 정현 코드 데이터(scd)로 인코딩하는 본 발명에 따른 파라메트릭 인코더의 바람직한 제 1 실시예를 도시한다. 파라메트릭 인코더는 상기 신호(s)를 적어도 하나의 단일 스케일 세그먼트(xm(n))(m=1 내지 M, 여기서 m은 현재의 다운-샘플링 단계를 나타냄)로 분할하는 분할 유닛(120)을 포함한다. 더 상세하게, 상기 분할 유닛(120)은 다수의 L-1개 필터들(122_1 내지 122_L-1)을 포함하며, 이 필터들은 상기 필터들 중 제 1 필터(122_1)의 입력에서 신호(s(n))를 수신하도록 직렬로 접속된다. 상기 분할 유닛(120)은 또한, 단일 스케일 세그먼트(xm(l))(l=0 내지 L-1)의 L개의 샘플들(xm(0) 내지 xm(L-1))을 생성하기 위해 상기 신호(s(n)=y0(n))와, 상기 L-1개의 필터들(122_1 내지 122_L-1)의 출력 신호들(y1(n) 내지 yL-1(n))을 수신하고, 바람직하게는 다운-샘플링하는 샘플링 유닛(124)을 포함한다. 상기 제 1 실시예에서, L-1개 필터들(122_1 내지 122_L-1)모두는,
(1)
로 정의된 전달 함수(A(z))를 갖는 올-패스(all-pass) 필터들로서 구현되며, 식(1)에서, *는 복소 공액(complex-conjugation)을 나타내고 |λ|<1이다. 일반적으로, λ는 실수값이고 λ≠0이다.
제 1 실시예에서, 처리는 다음과 같다.
오디오 신호(s)는,
y0(n) = s(n)(2)
yl= yl-1* α (l = 1, 2, ..., L-1)(3)
인 출력들(yl(n))(l=0,1,...,L-1)을 갖는 탭핑된(tapped) 올-패스 라인에 대한 입력이며, 식(3)에서 *는 컨볼루션(convolution)을 나타내고, α는 전달 함수(A(z))와 관련된 임펄스 응답을 나타낸다. 출력들(yl)은 다운-샘플링(D 시간마다 판독됨)되고,
xm(l) = yl(mD)(4)
인 세그먼트(xm)로서 정의되며,
여기서, D는 샘플링 유닛(140)의 다운-샘플링 인자를 나타낸다. 상기 샘플링 유닛(124)에 의해 출력된 신호는 세그먼트(xm)의 샘플들(xm(l))(l=0 내지 L-1)을 나타내는 것으로 고려된다.
중요한 점은, 필터들(122_1 내지 122_L-1)(제 1 실시예에 따른 필터들)은 올-패스 필터들로서 구현되기 때문에, 샘플링 유닛(124)에 의해 출력된 샘플들은 주파수-왜곡된 도메인에 있다는 것을 유념해야 한다는 것이다.
상기 샘플들(xm(l))(l=0 내지 L-1)은 세그먼트(xm)를 나타내는 정현 코드 데이터를 추정하기 위해 정현 추정 유닛(140)에 입력된다. 추정은 상기 주파수-왜곡된 샘플들에 대해 푸리에 변환을 수행하고, 이어서, 예를 들어, 피크를 피킹(pick)함으로써 행해질 수도 있다.
또다른 중요한 점은, 상기 정현 추정 유닛(140)에 의해 출력되는 정현 코드 데이터가 주파수-왜곡된 도메인에 있다는 것을 유념해야 한다는 것이다. 따라서, 상기 정현 코드 데이터는 오디오 또는 음성 신호(s)의 원래의 주파수 도메인에 재-매핑(즉, 왜곡-해제(de-warp))되어야 한다. 이것은 상기 정현 추정 유닛(140)에 이어지는 후처리 필터(160)에 의해 행해진다. 상기 후처리 필터(160)의 출력은 원래의 신호 세그먼트(xm)와 관련된 재-매핑된 정현 코드 데이터에 대응한다.
정현 추정 후, 상기 후처리 필터(160)가 종료됨에 따른 후속 처리 단계는 나머지 모델링이다. 나머지 모델링의 가장 저렴한 방법은 파워 스펙트럼 밀도 함수들에 대한 파라메트릭 모델을 사용하는 것이다. 이러한 방법은, 잡음 모델링 주파수-왜곡이 사용될 수 있기 때문에, 정현 추정과 잡음 추정의 통합을 허용한다.
제 1 실시예에서, 상기 샘플링 유닛(120)에 의해 왜곡된 주파수 왜곡된 샘플들은, 이 기술분야에 공지된 멀티-스케일 모델들의 문제점들이 여기서는 발생하지 않는 단일 스케일 세그먼트(xm)에 속한다. 올-패스 필터들과 같은 필터들의 실시예들로 인해, 주파수-왜곡 동작은 샘플링 유닛(124)의 출력에서 주파수-왜곡된 샘플들이 발생되도록 수행된다. 주파수 왜곡 동작으로 인해, 신호(s)에 대해 요구되는 시간-도메인 분해능 트레이드-오프가 달성된다. 그러나, 불리하게, 원래의 오디오 또는 음성 신호의 파워 스펙트럼 밀도 함수가 약간 수정된다.
도 2는 실질적으로 제 1 실시예에 대응하는 파라메트릭 인코더의 제 2 실시예를 도시한다. 특히, 제 2 실시예의 샘플링 유닛(124), 정현 추정 유닛(140) 및 후처리 필터(160)는 제 1 실시예의 대응 유닛들과 동일하다. 또한, 필터들(122_3 내지 122_L-1)은 식(1)에 따른 전달 함수(A(z))를 갖는 1차 올-패스 필터들로서 구현되기 때문에, 상기 필터들(122_3 내지 122_L-1)은 제 1 실시예의 각 필터들에 대응한다.
그러나, 제 2 실시예는, 분할 유닛(120)의 필터들의 직렬 접속에서의 제 1 필터(122_1)가 다음과 같은 전달 함수(A0(z))를 갖는 것이 다르다.
(5)
또한, 제 2 필터(122_2)는 올-패스 필터로서 구현되지 않으며, 그 대신 다음 전달 함수(A1(z))를 가지며,
(6)
식(5) 및 식(6)에서 λ는 일반적으로 실수값이다.
λ>0에 대해서 전달 함수들(A0(z), A1(z)) 모두는 저역 필터를 나타내지만, λ<0에 대해서 전달 함수들은 고역 필터를 나타낸다.
제 2 실시예의 이점들은 제 1 실시예에 대응한다. 또한, 원래의 오디오 또는 음성 신호(s)의 파워 스펙트럼 밀도 함수의 모양이 더 잘 유지된다.
제 1 실시예 및 제 2 실시예의 문제점은 도입된 주파수 왜곡 동작이 한방향 장치로서 동작한다는 것이다. 과거는 왜곡되며, 각 주파수에 대한 시간-스케일이 실제로 서로 다르다는 사실 때문에, 추정된 주파수들은 순간 주파수들의 이전의 몇몇 n개의 샘플들에 대한 양호한 추정들이며, 여기서, 순간 주파수들의 지연들을 나타내는 n은 순간 주파수들 자신에 의존한다. 다른 말로 표현하면, 이와 같은 지연의 존재는 용인되지만 그 주파수 의존도는 회피되어야 하는데, 그 이유는 이러한 주파수 의존도가 인코딩 목적에 대해서는 불리하기 때문이며, 인코딩 목적을 위해서는 잘 정의된 순간에 순간적인 주파수들의 추정이 요구된다.
이를 달성하기 위해서, 양방향 동작(즉, 과거와 미래 모두의 왜곡)에 대한 주파수-왜곡 절차를 확장하는 것이 제안되었다. 후자는 실시예 1 및 실시예 2에 고려된 메카니즘들로는 가능하지 않은데, 이는 이 메카니즘들이 무한-임펄스 응답 IIR-필터들에 기초하기 때문이다.
그러나, 유한 세그먼트의 주파수-왜곡을 고려하고 이상적으로 무한히 긴 왜곡된 신호의 유한 부분을 관찰하면, IIR-필터들을 사용하는 처리는 매트릭스-벡터 곱셈으로 감소된다. 이 경우에, 파라메트릭 인코더는 도 3에 도시된 본 발명의 제 3 실시예에 따라 구현될 수 있다. 이 실시예에 따르면, 수신된 오디오 또는 음성 신호는 탭핑된 지연 라인에 입력되고, 이어서 상기 오디오 또는 음성 신호(s) 및 탭핑된 지연 라인의 L-1개의 필터들(122_1 내지 122_L-1)의 출력 신호들(yl(n) 내지 yL-1(n))은, -N1, -N1+1, ..., 0, ..., N2-1, N2(N1,N2>0)로 인덱스되는 N1+1+N2개의 샘플들을 갖는 세그먼트(xm)를 생성하는 샘플링 유닛(124)에 입력된다. 중요한 점은, 제 3 실시예에 한해서 수행되는 샘플링 동작은 도 4를 참조하여 설명되는 이 기술분야에 공지된 샘플링 동작에 대응하며, 샘플링 유닛의 출력에서 통상의 샘플링 동작으로부터 발생하는 샘플들()은 아직 주파수-왜곡된 도메인에 있지 않다는 것을 유념해야 한다는 것이다.
샘플들을 주파수-왜곡된 도메인으로 변환하기 위해서, 양방향 왜곡 동작은 부가적으로 제공된 양방향 왜곡 유닛(126)(바람직하게는, 상기 샘플링 유닛(120) 내에 제공됨)에 의해 수행된다. 상기 유닛은, 다음과 같은 매트릭스 표기법으로 쓰여진, 상기 언급된 매트릭스-벡터 곱셈을 수행한다.
(7)
변환 매트릭스(B)는 상이한 주파수-왜곡 동작들에 대해 계산될 수 있으며, 특히, 본 발명의 실시예 1 또는 실시예 2에 따른 주파수-왜곡 동작들이 제 3 실시예에 의해 시뮬레이트되거나 실현되도록 계산될 수 있다. 상기 양방향 왜곡 유닛(126)에 의해 출력되는 샘플들은 (입력 샘플들과는 반대로) 실시예 1 또는 실시예 2에 따른 샘플링 유닛(120)에 의해 출력되는 샘플들과 동일한 원하는 주파수-왜곡된 도메인에 있다. 도 3으로부터 알 수 있는 바와 같이, 변형된 샘플들은 원하는 정현 코드 데이터를 추정하는 정현 추정 유닛(140)에 출력되고, 마지막으로 주파수-왜곡된 도메인에서의 정현 코드 데이터가 상기 추정 유닛(140)에 의해 추정되어 신호(s)의 원래의 주파수 도메인에 매핑시키기 위한 후처리 필터(160)에 입력된다. 이어서, 실시예 2가 실시예 3에 의해 시뮬레이트되도록, 변환 매트릭스(B)를 계산하기 위한 예가 제공된다.
이러한 시뮬레이션을 달성하기 위해서, 유한 지원(finite support)을 갖는 세그먼트(x0(n))의 주파수-왜곡이 고려된다. 더 상세하게, 상기 세그먼트의 샘플들은 -N1, -N1+1, ..., 0, ..., N2(N1, N2> 0)로 인덱스된다. 관련된 왜곡된 신호는(n)으로 표기되고, 원칙적으로 무한 지원을 갖는다.
샘플(x(n)) 및 관련된 왜곡 신호의 푸리에 변환들은 다음과 같이 주어지며,
여기서,이다. 올-패스 부분의 위상 특징에 따른 주파수-왜곡에 대해서는, 주파수 변수들간에 다음 관계가 주어진다.
(8)
또는,(9)
이로부터 다음 식이 유도되며,
(10)
보간 함수(q)의 정의는 다음과 같고,
(11)
은 n-도메인에 대한 역 푸리에 변환을 나타낸다. 더 상세하게는 다음과 같다.
매트릭스 표기(이 특수 경우에 대한 표기법에서 λ는 뺌)에서, 식(7)은 다음과 같이 쓸 수 있다.
(12)
즉, 계단식으로 된 올-패스 필터들의 열-방식(column-wise)의 임펄스 응답들이 나타난다. 실제로, 절단된(윈도우된) 왜곡 신호()는 또다른 처리를 위해 사용될 것이다. 이것을 가정하면,의 부분은 -M1내지 M2의 범위가 고려될 것이다(M1 M2> 0 및 N1 N2). 이때, 매트릭스의 대략 절반은 0과 같다. 양의 λ에 대해서, 절단된의 지원은 사실상 x의 지원보다 더 짧을 것이다.
매트릭스의 행들은 실시예 2에 설명된 필터들의 (절단된) 임펄스 응답에 대응한다.
상술된 실시예들은 본 발명을 제한하기보다는 설명하기 위한 것이며, 이 기술분야에 숙련된 사람들은 첨부된 청구항들의 범위를 벗어나지 않고 많은 대안적인 실시예들을 설계할 수 있을 것이라는 점을 유념해야 한다. 청구항들에서, 괄호 안의 임의의 참조부호들은 청구항을 제한하는 것으로서 해석되어서는 안된다. 단어 "포함한다"는 청구항에 기술된 것 이외의 다른 소자들이나 단계들의 존재를 배제하는 것이 아니다. 본 발명은 여러 개의 개별적인 소자들을 포함하는 하드웨어에 의해 구현되거나, 적절히 프로그램된 컴퓨터에 의해 구현될 수 있다. 여러 수단을 열거하는 장치 청구항에서, 이러한 여러 수단들은 하나의 수단 및 동일한 하드웨어 항목으로 구현될 수 있다. 서로 다른 종속항들에서 특정 치수가 인용되는 것은 단순히 이러한 측정치들의 조합이 유리하게 사용될 수 있음을 나타내는 것은 아니다.

Claims (9)

  1. 오디오 또는 음성 신호(s)를 정현 코드 데이터(sinusoidal code data)로 인코딩하는 파라메트릭 인코더로서,
    - 상기 신호(s)를 적어도 하나의 단일 스케일 세그먼트(xm(n))(m=1 내지 M)로 분할하여 상기 세그먼트(xm(n))의 샘플들(xm(0) 내지 xm(L-1))을 출력하는 분할 유닛(120); 및
    - 상기 수신된 샘플들(xm(0) 내지 xm(L-1))로부터 상기 세그먼트(xm(n))를 나타내는 상기 정현 코드 데이터를 추정하는 정현 추정 유닛(140)을 포함하는, 상기 파라메트릭 인코더에 있어서,
    - 상기 분할 유닛(120)은 또한 상기 출력 샘플들(xm(0) 내지 xm(L-1))을 주파수-왜곡된 도메인으로 변환하기 위해 주파수-왜곡 동작을 수행하도록 구현되며,
    - 상기 정현 추정 유닛(140)으로부터 출력된 상기 정현 데이터를 상기 신호(s)의 원래의 주파수 도메인으로 재-매핑하는 후처리 필터(160)가 제공되는 것을 특징으로 하는, 파라메트릭 인코더.
  2. 제 1 항에 있어서,
    상기 분할 유닛(120)은,
    - L-1개의 다수의 필터들(122_1 내지 122_L-1)로서, 상기 필터들 중 제 1 필터(122_1)의 입력에서 상기 신호(s(n))를 수신하도록 직렬로 접속되는, 상기 L-1개의 다수의 필터들(122_1 내지 122_L-1); 및
    - 세그먼트(xm)의 L개의 샘플들(xm(0) 내지 xm(L-1) 또는내지)을 생성하기 위해 상기 신호(s(n)=y0(n))와, 상기 L-1개 필터들(122_1 내지 122_L-1)의 출력 신호들(y1(n) 내지 yL-1(n))을 수신하여 샘플링하는 샘플링 유닛(124)을 포함하는 것을 특징으로 하는, 파라메트릭 인코더.
  3. 제 2 항에 있어서,
    상기 필터들(122_1 내지 122_L-1) 중 적어도 일부는 올-패스 필터들(all-pass filters)로서 구현되는 것을 특징으로 하는, 파라메트릭 인코더.
  4. 제 3 항에 있어서,
    상기 일부의 필터들(122_1 내지 122_L-1)은,
    에 따른 전달 함수(A(z))를 각각 갖는 1차 올-패스 필터들로서 구현되고, 여기서, λ*는 복소 공액을 나타내고, λ는 바람직하게 실수값인 것을 특징으로 하는, 파라메트릭 인코더.
  5. 제 4 항에 있어서,
    다수의 모든 필터들(122_1 내지 122_L-1)은,
    에 따른 전달 함수(A(z))를 각각 갖는 1차 올-패스 필터로서 구현되고, 여기서, λ*는 복소 공액을 나타내고, λ는 바람직하게 실수값인 것을 특징으로 하는, 파라메트릭 인코더.
  6. 제 4 항에 있어서,
    상기 신호(s(n))를 수신하는 상기 직렬 접속에서의 제 1 필터(122_1)는,
    에 따른 전달 함수(A0(z))를 갖고, 상기 직렬 접속에서 상기 제 1 필터(122_1) 다음에 이어지는 제 2 필터(122_2)는,
    에 따른 전달 함수(A1(z))를 갖고, 나머지 필터들(122_3 내지 122_L-1) 각각은 청구항 4항에 따른 전달 함수(A(z))를 갖는 1차 올-패스 필터들인 것을 특징으로 하는, 파라메트릭 인코더.
  7. 제 2 항에 있어서,
    - 상기 분할 유닛(120)에서, 직렬로 접속되는 상기 다수의 L-1개의 필터들(122_1 내지 122_L-1)은 A(z)=z-1의 전달 함수를 갖는 상기 각 필터들로 탭핑된 지연-라인(tapped delay-line)으로서 구현되고,
    - 상기 샘플링 유닛(124)에 의해 출력된, 신호(s)의 원래의 주파수-도메인에서의 샘플들(내지)을, 상기 샘플들(내지)에 양방향(bi-lateral) 주파수-왜곡 동작을 적용함으로써 주파수-왜곡된 도메인으로 변형된 샘플들(xm(-M1) 내지 xm(M2))로 변형하여, 상기 변형된 샘플들(xm(-M1) 내지 xm(M2))을 상기 정현 추정 유닛(140)에 출력하는 양방향 왜곡 유닛(126)이 더 제공되는 것을 특징으로 하는, 파라메트릭 인코더.
  8. 제 7 항에 있어서,
    상기 양방향 왜곡 유닛(126)은 샘플들()을,
    에 따라 샘플들(xm)로 변환하며, 여기서, q 컬럼 방향(columnwise)은 올-패스 필터들(122_1 내지 122_L-1)의 탭핑된 라인의 임펄스 응답들을 나타내는, 파라메트릭 인코더.
  9. 오디오 또는 음성 신호(s)를 정현 코드 데이터로 인코딩하는 방법으로서,
    - 상기 신호(s)를 샘플들(xm(0) 내지 xm(L-1))을 갖는 적어도 하나의 단일 스케일 세그먼트(xm(n))(m=1 내지 M)로 분할하는 단계; 및
    - 상기 수신된 샘플들(xm(0) 내지 xm(L-1))로부터 상기 세그먼트(xm(n))를 나타내는 상기 정현 코드 데이터를 추정하는 단계를 포함하는, 상기 인코딩 방법에 있어서,
    - 상기 샘플들(xm(0) 내지 xm(L-1))이 주파수-왜곡된 도메인에 제공되도록 주파수-왜곡 동작이 수행되고,
    - 상기 주파수-왜곡된 도메인에서 추정되는 상기 정현 데이터는 상기신호(s)의 원래의 주파수 도메인에 재-매핑되는 것을 특징으로 하는, 인코딩 방법.
KR1020027012154A 2001-01-16 2001-12-19 오디오 또는 음성 신호를 인코딩하기 위한 파라메트릭인코더 및 방법 KR20020084201A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP01200143.4 2001-01-16
EP01200143 2001-01-16
EP01202718.1 2001-07-17
EP01202718 2001-07-17
PCT/IB2001/002682 WO2002056300A1 (en) 2001-01-16 2001-12-19 Parametric encoder and method for encoding an audio or speech signal

Publications (1)

Publication Number Publication Date
KR20020084201A true KR20020084201A (ko) 2002-11-04

Family

ID=26076811

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020027012154A KR20020084201A (ko) 2001-01-16 2001-12-19 오디오 또는 음성 신호를 인코딩하기 위한 파라메트릭인코더 및 방법

Country Status (5)

Country Link
US (1) US20020152072A1 (ko)
JP (1) JP2004518164A (ko)
KR (1) KR20020084201A (ko)
CN (1) CN1235191C (ko)
WO (1) WO2002056300A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009514008A (ja) * 2005-10-26 2009-04-02 エルジー エレクトロニクス インコーポレイティド マルチチャンネルオーディオ信号の符号化及び復号化方法とその装置
CN104778948B (zh) * 2015-04-29 2018-05-01 太原理工大学 一种基于弯折倒谱特征的抗噪语音识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999016050A1 (en) * 1997-09-23 1999-04-01 Voxware, Inc. Scalable and embedded codec for speech and audio signals

Also Published As

Publication number Publication date
CN1429385A (zh) 2003-07-09
US20020152072A1 (en) 2002-10-17
CN1235191C (zh) 2006-01-04
WO2002056300A1 (en) 2002-07-18
JP2004518164A (ja) 2004-06-17

Similar Documents

Publication Publication Date Title
AU2010257205B2 (en) Efficient filtering with a complex modulated filterbank
DK2337224T3 (en) Filter unit and method for generating subband filter pulse response
Evangelista Pitch-synchronous wavelet representations of speech and music signals
Søndergaard et al. The linear time frequency analysis toolbox
EP0698876B1 (en) Method of decoding encoded speech signals
Zhang et al. Efficient design of orthonormal wavelet bases for signal representation
Kahles et al. Oversampling for nonlinear waveshaping: Choosing the right filters
KR20020084201A (ko) 오디오 또는 음성 신호를 인코딩하기 위한 파라메트릭인코더 및 방법
JP3211832B2 (ja) ディジタルオーディオ信号のプリエコーを低減するためのフィルタリング方法およびその装置
Kim Lossless wideband audio compression: Prediction and transform
Bai et al. Multirate synthesis of reverberators using subband filtering
EP1356458A1 (en) Parametric encoder and method for encoding an audio or speech signal
O'Neill The representation of continuous speech with a periodically sampled orthogonal basis
JPH11119797A (ja) 信号分析合成方法および信号分析合成装置
JPH0580795A (ja) 信号処理方法
JPS593497A (ja) 規則合成方式における補間制御方式
Kim Lossless Wideband Audio Compression
Comer A wavelet-based technique for reducing noise in audio signals
JPS63226699A (ja) 極零分析装置
JPS5855992A (ja) 音声分析合成方式
MX2008009527A (en) Efficient filtering with a complex modulated filterbank

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
NORF Unpaid initial registration fee