KR20020084206A - 오디오 또는 스피치 신호의 파라메트릭 코딩 - Google Patents

오디오 또는 스피치 신호의 파라메트릭 코딩 Download PDF

Info

Publication number
KR20020084206A
KR20020084206A KR1020027012176A KR20027012176A KR20020084206A KR 20020084206 A KR20020084206 A KR 20020084206A KR 1020027012176 A KR1020027012176 A KR 1020027012176A KR 20027012176 A KR20027012176 A KR 20027012176A KR 20020084206 A KR20020084206 A KR 20020084206A
Authority
KR
South Korea
Prior art keywords
sinusoidal
data
segment
code data
extension
Prior art date
Application number
KR1020027012176A
Other languages
English (en)
Other versions
KR100849375B1 (ko
Inventor
알버트스 씨. 덴브링커
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20020084206A publication Critical patent/KR20020084206A/ko
Application granted granted Critical
Publication of KR100849375B1 publication Critical patent/KR100849375B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

알려진 인코더(100)는 적어도 하나의 세그먼트 x(n)으로 오디오 또는 스피치 신호를 세그먼팅하기 위한 세그먼팅 유닛(110)과 확장자(n)가 주어진 기준들에 대해 가능한 한 양호하게 세그먼트 x(n)을 근사하도록 세그먼트 x(n)으로부터 주어진 확장자(n)의 주파수 및 진폭 데이터의 형태로 사인곡선 코드 데이터를 계산하기 위한 계산 유닛(120)을 포함한다. 사인곡선 코드 데이터의 계산을 간단하고 저렴한 방법에서 수행될 수 있도록 알려진 인코더를 개선하는 것이 발명의 목적이다. 이 목적은 사인곡선 코드 데이터를 계산함으로써 본 발명에 따라 그리고 이하 확장자에 따른 세그먼트 x(n)에 대해 해결된다.

Description

오디오 또는 스피치 신호의 파라메트릭 코딩{Parametric coding of an audio or speech signal}
오디오 및 스피치 신호들은 바람직하게 신호들의 데이터를 압축하기 위해 채널을 통해 송신되거나 또는 저장 매체(storage medium)에 저장되기 전에 인코드된다. 오디오 또는 스피치 신호들은 사인곡선 코드 데이터에 의해 실질적으로 표현되고, 따라서 특정 인코더들은 이들 신호들의 인코딩을 위해 전문화된 이 기술에서 알려져있다. 그런 파라메트릭 인코더는 예를 들어 이. 비. 조지(E.B George)와 엠. 제이. 티. 스미스(M.J.T.Smith)의 "최소 스퀘어 사인곡선 표현에 기초된 새로운 스피치 코딩 모델(A new speech coding model based on a least-squares sinusoidal representation)"로부터 알려진다. Proc. 1987에서 Int. Conf. Acoust. 스피치 신호 처리.(ICASSP87). pp 1641-1644, 달라스 TX, 6-9 April 1987. IEEE, Picataway, NJ. 설명된 파라메트릭 인코더는 도 5에 도시된다. 도 5에 따라서, 파라메트릭 인코더(500)는 수신된 오디오 또는 스피치 신호들 s를 적어도 하나의 유한 세그먼트(finite segment) x(n)로 세그먼팅하기 위한 세그먼팅 유닛(segmentation unit)(510)을 포함한다.
이 세그먼트 x(n)은 계산 유닛(calculation unit)(520)으로 입력된다. 이 계산 유닛(520)은 확장자가 주어진 기준들, 예를 들어 가중된 스퀘어 에러의 최저화, 에 대해 가능한 한 양호하게 세그먼트 x(n)을 근사하도록 세그먼트 x(n)으로부터 주어진 확장자의 위상 및 진폭 데이터의 형태로 사인곡선 코딩 신호를 계산한다. 언급된 파라메트릭 인코더에 대해, 확장자는가 진폭 파라미터및 위상 파라미터의 다항식 계수들(polynomial coefficients)을 갖는 이하의 식에 의해 제공된다:
...(1)
이고,
...(2)
...(3)
이 계산 유닛(520)은 세크먼트 x(n)의 주파수 스펙트럼에서 이 주파수들을 피킹(picking)함으로써, 예를 들어 k=1에 대해(따라서), 수신된 세그먼트 x(n)로부터 위상 계수들를 계산하기 위한 주파수 예측 유닛(frequency estimation unit)(522)을 포함한다. 사인곡선 코드 데이터의 위상의 부분을 표현하는 이들 위상 계수들는 한편으로는 멀티플렉서(multiplexer)(530)로 출력되고, 다른 한편으로는 패턴 발생 유닛(pattern generation unit)(524)으로 입력된다. 이 패턴 발생 유닛은 식(3)에 따라 위상 파라미터(n)을 계산하는 역할을 한다.
패턴 발생 유닛(524)는 이하의 식에 따라 확장자(n)의 복수개의 JxL 구성성분들를 더 발생한다:
복수개의 JxL 구성성분들는 세그먼팅 유닛(510)으로부터 출력된 수신된 세그먼트 x(n) 뿐만 아니라, 수신된 구성성분들로부터 최적의 진폭 데이터를 정하는, 진폭 예측 유닛(amplitude estimation unit)(526)으로 입력된다.
이 위상 계수들와 진폭들는 세그먼트 x(n)의 근사치로서 확장자(n)을 표현하는, 사인곡선 코드 데이터를 형성한다. 이들 사인곡선 코드 데이터는 저장 매체에 저장되거나 또는 채널을 통해 송신될 수 있는 데이터 스트림을 형성하기 위해 멀티플렉서(530)에 의해 멀티플렉싱된다.
식(1)에 의해, 설명되고 파라메트릭 인코더(500)로부터 알려진 것과 같이 확장자(n)는 오디오 또는 스피치 신호의 개개의 세그먼트들 x(n)을 위한 적당한 근사치를 제공한다. 그러나, 사인곡선 코드 데이터의 계산은 다소 복잡하게된다.
본 발명의 목적은 종래의 기술로부터 시작하여 오디오 또는 스피치 신호를 사인곡선 코드 데이터로 인코딩하기 위해 알려진 파라메트릭 인코더 및 방법을 개선하고, 그런 송신 또는 저장 후 이 사인곡선 코드 데이터로부터 오디오 또는 스피치 신호의 근사치를 재구성하기 위해 알려진 파라메트릭 디코더 및 방법을 개선하여 이 사인곡선 코드 데이터의 계산이 더 간단하고 값 싼 방법으로 수행되게 하는 데 있다.
이 목적은 청구항 1의 주제에 의해서 해결된다. 특히, 이 목적은 아래의 확장자에 대해 사인곡선 코드 데이터,를 계산하도록 계산 유닛을 적용함으로써 해결된다:
이고,
여기서,
i : 상기 확장자(n)의 구성성분을 표현;
j, k : 파라미터들을 표현;
n : 이산 시간 파라미터를 표현;
: 사인곡선 데이터 중 하나로서 위상 계수를 표현
: 선형적으로 독립 함수들 J의 세트 중 j번째 예를 표현;
: 위상; 그리고
,: 사인곡선 코드 데이터의 부분들을 표현하는 구성성분들의 선형적으로 관련된 진폭 값들을 표현
유리하게, 청구된 확장자(n)의 특정 세그먼트 x(n)을 정확하게 기술하도록 사인곡선 데이터를 정의하려고 시도할 때 발생하는 최적화 문제(optimisation problem)는 해결하기 쉽다. 쉬운 계산은 위상 계수들를 제외한, 진폭 데이터가 청구된 확장자(n)에 선형적으로 관련된다는 사실로부터 기인한다. 이에 영차(zeroth order) 위상 계수는 나타나지 않고, 반면 그런 구성성분은의 형태에서내에 존재한다.
게다가, 유리하게 청구된 확장자는 결과로 사인곡선 코드 데이터를 정하기 위해 더 많은 자유도(more degrees of freedom)를 제공하고, 청구된 확장자는 이 기술에서 알려진 확장자보다 더 광범위하고 개개의 세크먼트 x(n)의 더 적절한 근사치를 제공한다.
이 발명의 제 1 실시예에 따라서, 선형적으로 독립 함수(n) 는(n) =으로 설정된다. 이 방법에서, 청구된 확장자는 다항식 확장자로 제한된다.
게다가 청구된 파라메트릭 인코더 및 특히 청구된 계산 유닛의 유리한 실시예들은 종속하는 인코더 청구항들의 주제이다.
위에 확인된 목적은 청구항 6에 청구된 것과 같은 오디오 또는 스피치 신호를 인코딩하기 위한 방법에 의해서 더 해결된다. 이 방법의 잇점들 및 실시예들은 파라메트릭 인코더를 위해 위에 설명된 것과 같은 잇점들 및 실시예들에 대응한다.
위에 확인된 목적은 청구항 11에 따라 송신되거나 또는 다시 저장된 코드 데이터로부터 오디오 또는 스피치 신호의 근사치를 재구성하기 위한 파라메트릭 디코더에 의해 더 해결된다. 특히, 목적은 이하의 식에 따라 사인곡선,로부터 상기 세그먼트들를 재구성하도록 알려진 신시사이져(synthesiser)를 적용함으로써 해결된다:
이고,
여기서,
i : 확장자(n)의 구성성분을 표현;
j, k : 파라미터들을 표현;
n : 이산 시간 파라미터를 표현;
: 선형적으로 독립 함수들 J의 세트 중 j번째 예를 표현;
: 사인곡선 데이터 중 하나로서 위상 계수를 표현
: 위상; 그리고
,: 상기 사인곡선 데이터의 부분들을 표현하는 구성성분들의 선형적으로 관련된 진폭 값들을 표현
유리하게, 청구된 확장자의 계산은 이 기술에 알려진 확장자들의 계산보다 더 쉽다. 이것은 영차 위상 계수의 상기 확장 및 생략내에서 진폭 데이터의 선형적인 관계때문이다.
확장자의 쉬운 계산 때문에 그것의 근사치의 형태에서, 원래 오디오 신호 및 스피치 신호 s의 재구성은 더 값싸고 더 빠르게 현실화될 수 있다.
위에 확인된 목적은 청구항 12에 의해 청구된 것처럼 디코딩 방법에 의해 더 해결된다. 이 방법의 잇점들은 파라메트릭 디코더를 참고함으로써 위에 언급된 잇점들에 일치한다.
다섯개의 도면들은 설명을 수반한다.
이 발명은 각각 청구항들 1 및 6의 전제부들에 따라 오디오 또는 스피치 신호를 사인곡선 코드 데이터(sinusoidal code data)로 인코딩하기 위한 파라메트릭 인코더(parametric encoder) 및 방법에 관한 것이다.
이 발명은 또한 각각 청구항들 11 및 12의 전제부들에 따라 사인곡선 코드 데이터로부터 오디오 또는 스피치 신호의 근사치(approximation)를 재구성하기 위한 파라메트릭 디코더 및 방법에 관한 것이다.
도 1은 이 발명에 따른 파라메트릭 인코더의 제 1 실시예를 도시한 도면.
도 2는 이 발명에 따른 파라메트릭 인코더의 제 2 실시예를 도시한 도면.
도 3은 이 발명에 따른 파라메트릭 인코더의 제 2 실시예의 동작을 도시한 순서도.
도 4는 이 발명의 실시예에 따른 파라메트릭 디코더를 보인 도면.
도 5는 이 기술에서 알려진 것과 같은 파라메트릭 인코더를 보인 도면.
이 발명의 양호한 실시예들을 설명하기 전에, 이 발명의 주제에 대한 일부 기본적인 설명들은 제공된다.
이 발명은 사인곡선 오디오 또는 스피치 신호 s의 세그먼트 x(n)을 근사하기 위한 확장자(n)을 제안한다. 이 확장자(n)은 이 후 사인곡선 코드 데이터로서 또한 지칭되는 위상 및 주파수 데이터에 의해 표현된다. 사인곡선 코드 데이터는 확장자(n)가 주어진 기준, 예를 들어 가중된 스퀘어 에러의 최저화, 에 대해 가능한 한 양호하게 오디오 또는 스피치 신호의 세그먼트 x(n)을 근사하도록 정한다. 다르게 표현하면, 이 사인곡선 코드 데이터는 최적화 문제를 해결함으로써 정해져야 한다. 사인곡선 코드 데이터가 특정 세그먼트 x(n)을 최적으로 근사하기 위해 정해진 후, 그것은 이 세그먼트들 x(n) 및 따라서 또한 오디오 또는 스피치 신호 s를 표현하는 코드 데이터로서 저장 매체에 저장되거나 또는 채널을 통해 송신될 수 있다. 바람직하게, 저장 또는 송신되기 전에, 이 사인곡선 코드 데이터는 관계없거나 또는 여분의 데이터가 사인곡선 코드 데이터로부터 제거되는 방법으로 인코드 및/또는 클리닝(clean)될 것이다.
제 1 실시예에 따라 사인곡선 코드 데이터의 발생은 도 1에 참고됨으로써 지금 설명된다.
도 1은 입력 오디오 또는 스피치 신호 s를 표현하는 이 사인곡선 코드 데이터를 발생하기 위한 파라메트릭 인코더(100)의 양호한 제 1 실시예를 도시한다. 수신된 신호 s는 이 신호 s를 적어도 하나의 세그먼트 x(n)로 세그먼팅하기 위한 세그먼팅 유닛(110)으로 입력된다. 이 세그먼트 x(n)은 이하의 확장자(n)가 주어진 기준, 예를 들어 가중된 제곱 에러의 최저화, 에 대한 가능한 한 양호하게 계산 유닛(120)으로 입력되는 세그먼트 x(n)를 근사하도록 그런 사인곡선 코드 데이터를 발생하기 위한 계산 유닛(120)으로 입력된다:
...(4)
이고,
...(5)
그리고 여기서,
i, j, k : 파라미터들을 표현;
n : 이산 시간 파라미터를 표현;
: 사인곡선 데이터 중 하나로서 위상 계수를 표현
: 선형적으로 독립 함수들 J의 설정으로부터 j번째 예를 표현;
: 위상; 그리고
,: 이 사인곡선 데이터의 부분들을 표현하는 구성성분들의 선형적으로 관련된 진폭 값들을 표현
이 계산유닛(120)에 의해 정해질 사인곡선 코드 데이터는 위상그리고 진폭 데이터이다.
이하의 식(4)의 항는 i = 1 - L인 확장자(n)의 i번째 구성성분으로서 이하 지칭된다:
...(6)
계산 유닛(120)은 개개의 수신된 세그먼트 x(n)을 표현하는 식(5)에 따라 확장자(n)의 i = 1 - L인 모든 구성성분들에 대해 k = 1-K인 복수개의 LxK 위상 계수들를 정하기 위한 주파수 예측 유닛(122)를 포함한다. 이 복수개의 LxK 주파수들는 식(5)에 따라 i = 1 - L인 복수개의 L 주파수 파라미터들(n)을 계산하기 위한 패턴 발생 유닛(124)으로 입력된다. 패턴 발생 유닛(124)은 이하에 따라 i = 1 - L인 구성성분들에 대한 패턴들의 복수개의 JxL 쌍들을 발생하기 위해 더 적응된다:
i = 1 - L 및 j = 0 - (J - 1)에 대해,
이 복수개의 패턴들의 쌍들은 세그먼트 x(n)과 함께 확장자(n)의 모든 구성성분들의 모두 수신된 패턴들에 대해 복수개의 JxL 진폭 데이터및 모두 수신된 패턴들에 대해 복수개의 JxL 진폭 데이터를 정하기 위한 진폭 예측 유닛(126)으로 입력된다.
계산 유닛(120) 그리고 특히 주파수 예측 유닛(122) 및 진폭 예측 유닛(126)은 위상 데이터및 진폭 데이터를 포함하는 이 사인곡선 데이터가 세그먼트 x(n)과 확장자(n) 사이에 기준 "가중된 스퀘어 에러 E" 이 (대략) 충족되도록 정해지고 최적화되게 적응된다.
파라메트릭 인코더(100)는 저장 매체에 저장되거나 또는 채널을 통해 송신될 데이터 스트림으로 이 주파수 예측 유닛(122)에 의해 출력된 복수개의 LxK 위상 계수들및 진폭 예측 유닛(126)에 의한 출력된 복수개의 JxL 진폭 데이터를 변환하기 위한 멀티플렉서(130)을 더 포함한다.
도 2는 파라메트릭 인코더(100')의 제 2 실시예를 도시한다. 파라메트릭 이코더(100)와 같이, 파라메트릭 인코더(100')는 또한 입력 오디오 또는 스피치 신호 s로부터 이 사인곡선 코드 데이터를 발생하기 위해 사용된다. 파라메트릭 인코더(100')의 동작은 세그먼팅 유닛(110)의 동작에 대응한다. 결과적으로, 세그먼팅 유닛(110')은 그것의 출력에서 수신된 신호 s의 세그먼트들 x(n)을 발생한다. 이 세그먼트 x(n)은 계산 유닛(120')에 입력된다. 이 계산 유닛(120)의 제 1 실시예와는 다르게, 계산 유닛(120')은 세그먼트(n)의 모든 구성성분들에 대해 동시에 복수개의 사인곡선 코드 데이터를 계산하는 것이 아니라 확장자의 i = 1 - L인 각각의 구성성분에 대해 순차적으로 이 사인곡선 코드 데이터를 발생한다.이 계산 방법은 합성에 의한 분석(analysis by synthesis) 또는 매칭 추적 알고리즘(matching pursuit algorithm)으로서 이 기술에 일반적으로 알려져있다. 그러나, 종래의 기술에서, 이 발명의 응용은 식(4)에 따라서 청구된 확장자로부터 다른 확장들을 위해서만 알려진다.
이하에서, 계산 유닛(120')의 이 제 2 실시예의 동작은 도 2 및 도 3를 참고함으로써 설명된다. 특히, 식(4)에 따른 확장자의 사인곡선 코드 데이터의 계산은 세그먼팅 유닛(110')에 의해 세그먼트 출력과 식 (4)에 따른 그것의 확장자사이에 가중된 스퀘어가 최저화되도록 설명된다.
제 1 주기 i = 1에서, 확장자의 i = 1을 갖는 제 1 구성성분의 사인곡선 코드 데이터는 도 3에서 계산된다(방법 단계 a).
이것을 성취하기 위해서, 세그먼팅 유닛(110')의 출력, x(n)은= x(n)으로 설정된다(방법 단계 b 참고).
이 제 1 주기에서, 세그먼팅 유닛(110')의 이 출력은 입력값로부터 k = 1 - K를 갖는 복수개의 K 위상 계수들를 정하기 위한 주파수 예측 유닛(122')로 입력된다(방법 단계 c 참고). 이 주파수 계수들은 검색된 사인곡선 코드의 위상을 표한하고 그 후 계산 유닛으로부터 출력된다. 게다가, 위상 계수들은 식(5)에 따라 제 1 구성성분 C1에 대해 위상를 계산하기 위한 패턴발생 유닛(124')으로 입력된다(방법 단계 d 참고). 패턴 발생 유닛(124')은 이하의 식을 갖는 구성성분에 대해 j = 0 - (J-1)을 갖는 복수개의 2xJ 패턴들을 발생하기 위해 더 제공된다(방법 단계 e 참고):
i = 1에 대해,
이들 발생된 패턴들은 파라미터와 함께 진폭 예측 유닛(126')으로 입력된다. 이 진폭 예측 유닛(126')은 수신된 입력 데이터로부터 i = 1을 갖는 구성성분에 대해 이 패턴들에 대한 복수개의 J 진폭들및 이 패턴들를 위한 복수개의 J 진폭들를 정하는 역할을 한다(방법 단계 f 참고). 계산된 진폭들는 세그먼트 x(n)의 확장자를 표현하는 사인곡선 데이터의 진폭 부분을 형성하고 그 후 i = 1인 제 1 구성성분 Ci를 표현하는 데이터 스트림으로(이 위상 데이터와 함께) 병합되도록 하기 위해 계산 유닛(120')으로부터 출력된다. 게다가, 이 진폭 데이터는 그것들의 개별적인 패턴들와 함께 이하의 식에 따라 i = 1을 갖는 구성성분 Ci를계산하기 위해 신시사이져(128')로 입력된다(방법 단계 g 참고):
이 구성성분 Ci는 주파수 예측 유닛(122')으로 입력되는 값로부터 감산하기 위해 감산 유닛(129')으로 입력된다. 감산 유닛(129')의 출력에서 발생하는 차이(difference)는 i = 1를 갖는로서 지칭된다(방법 단계 h 참고).
확장자를 위한 제 1 구성요소 C1 및 그것의 사인곡선 데이터,를 계산하기 위한 제 1 주기는 지금 종료되었다. 결과적으로, 파라미터 i는 세그먼트의 구성성분들 Ci의 전체 수 L에 비교된다(방법 단계 i 참고). i < L 이면, 방법 단계들 c)에서 i)는 i = i + 1에 대해 반복된다. 이들 경우에서, i ≥1에 대해 세그먼팅 유닛(122')로부터의 출력은 주파수 예측 유닛(122')의 입력으로부터 단절된다; 대신, 주파수 예측 유닛(122')의 입력은 차이들를 수신하기 위한 감산 유닛(129')의 출력과 연결된다. 그러나, i ≥L이면, 확장자의 모든 L 구성성분들의 사인곡선 코드 데이터는 계산되고 그 후 계산 유닛(120.)에 의해 수행된 계산 과정은 특정 세그먼트에 대해 종료된다. 결과적으로, 전체 과정은 입력 오디오 또는 스피치 신호의 연속적인 세그먼트에 대해 반복될 것이다.
도 4는 수신된 입력 데이터로부터 오디오 또는 스피치 신호 s의 근사치를 재구성하기 위한 파라메트릭 디코더(400)를 도시한다. 이들 수신된 입력 데이터는 저장 매체로부터 복원되거나 송신된 후의 데이터 스트림의 데이터와 일치한다.
파라메트릭 디코더(400)는 수신된 입력 데이터로부터 오디오 및/또는 스피치 신호 s의 근사치의 세그먼트들를 표현하는 사인곡선 코드 데이터,를 선택하기 위한 선택 유닛(420)을 포함한다. 파라메트릭 디코더(400)는 수신된 사인곡선 코드 데이터로부터 세그먼트를 재구성하기 위한 신시사이져(440)과 재구성된 세그먼트를 링크함으로써 근사치를 재구성하기 위한 결합 유닛(460)을 더 포함한다.
위에 언급된 실시예들은 이 발명을 제한하기 보다는 오히려 예시하기 위함이고, 이 기술에서 숙련된 자는 첨부된 청구항들의 범위로부터 벗어나지 않는 많은 대안적인 실시예들을 설계할 수 있다는 것을 유의해야 한다. 청구항들에서, 괄호안의 임의의 참고 표시들은 청구항을 제한하는 것으로 해석되지 않을 것이다. 단어 "포함하다(comprise)"는 청구항에서 리스트된 것 이외의 요소들 또는 단계들의 존재를 배제하지 않는다. 이 발명은 몇개의 다른 요소들을 포함하는 하드웨어에 의해서, 그리고 적절하게 프로그램된 컴퓨터에 의해서 구현될 수 있다. 몇개의 수단들을 나열한 장치 청구항에서, 몇개의 이들 수단은 하드웨어의 하나 및 동일한 아이템으로부터 실시된다. 특정 수단들이 서로 다른 종속 청구항들에서 인용되었다는 단순한 사실이 이들 방법들의 결합이 잇점으로 사용될 수 없음을 지시하는 것은 아니다.

Claims (14)

  1. 오디오 또는 스피치 신호(s)를 사인곡선 코드 데이터(sinusoidal code data)로 인코딩하기 위한 파라메트릭 인코더(parametric encoder)(100, 100')에 있어서,
    -상기 신호 s를 적어도 하나의 세그먼트 x(n)로 세그먼팅하기 위한 세그먼팅 유닛(segmentation unit)(110, 110')과;
    -상기 확장자(n)이 주어진 기준에 대해 가능한 한 양호하게 세그먼트 x(n)을 근사하도록 세그먼트 x(n)으로부터 주어진 확장자(n)의 위상 및 진폭 데이터의 형태로 상기 사인곡선 코드 신호를 계산하기 위한 계산 유닛(120, 120')을 포함하고;
    상기 계산 유닛(120, 120')은 이하의 확장자(n)에 대한 사인곡선 코드 데이터,를 계산하도록 적응되는 것을 특징으로 하는, 파라메트릭 인코더.
    이고,
    여기서,
    i, j, k : 파라미터들을 표현;
    n : 이산 시간 파라미터를 표현
    : 확장자(n)의 i번째 구성성분을 표현;
    : 상기 사인곡선 데이터 중 하나로서 위상 계수를 표현
    : 선형적으로 종속 함수들 J의 세트 중 j번째를 표현;
    : 위상; 및
    ,: 상기 사인곡선 데이터의 부분들을 표현하는 상기 구성성분들의 선형적으로 관련된 진폭 값들을 표현
  2. 제 1항에 있어서,
    (n) =를 특징으로 하는, 파라메트릭 인코더.
  3. 제 1항에 있어서,
    상기 계산 유닛(120)은
    -상기 수신된 세그먼트 x(n)을 표현하는 확장자(n)의 모든 구성성분들에 대해 i=1-L 및 k=1-K를 가진 복수개의 LxK 위상 계수들을 결정하기 위한 주파수 예측 유닛(frequency estimation unit)(122)와;
    -이하의 식에 따라 위상 계수들로부터 i-1-L인 복수개의 L 위상들를 계산하고:
    이하의 식에 따라 i=1-L을 갖는 구성성분에 대해 패턴들의 복수개의 JxL 쌍들을 발생하기 위한 패턴 발생 유닛(pattern generating unit)(124)과:
    i=1-L 및 j=0-(J-1)에 대해,
    그리고
    -확장자(n)의 모든 구성성분들의 패턴들에 대한 복수개의 진폭들및 패턴들에 대한 복수개의 JxL 진폭들를 결정하기 위한 진폭 예측 유닛(amplitude estimation unit)(126)을 포함하고,
    상기 사인곡선 데이터,는 세그먼트 x와 그것의 확장자(n) 사이에 가중된 스퀘어 에러 E(squared error E)가 최저화되는 기준에 대해 적어도 대략적으로 최적화되는 것을 특징으로 하는, 파라메트릭 인코더.
  4. 제 1항에 있어서,
    상기 사인곡선 코드를 데이터 스트림으로 병합하기 위한 멀티플렉서(multiplexer)(130)를 특징으로 하는, 파라메트릭 인코더.
  5. 제 1항에 있어서,
    상기 계산 유닛(120')은
    -입력 값으로부터 구성성분에 대해 k=1-K인 복수개의 K 위상 계수를 결정하기 위한 주파수 예측 유닛(122')으로서 i=1인 제 1 구성성분 C1에 대한 입력값은=x(n)으로 설정되는 주파수 예측 유닛과;
    이하의 식에 따라 상기 복수개의 위상 계수들로부터 구성성분 Ci에 대해 상기 위상들 를 계산하고:
    이하의 식을 갖는 구성성분 Ci에 대해 j=1-J인 복수개의 2xJ 패턴들를 발생하기 위한 패턴 발생 유닛(124')과:
    -수신된 세트먼트 x(n) 및 수신된 복수개의 패턴들로부터 상기 구성성분들 Ci의 이 패턴들에 대해 복수개의 J 진폭들및 J 진폭들을 정하기 위한 진폭 예측 유닛(126')과;
    -이하의 식에 따라 상기 복수개의 2xJ 패턴들그리고 복수개의 진폭들로부터 구성성분 Ci를 재구성하기 위한 신시사이져(synthesiser)(128')과:
    그리고
    -상기 구성성분 Ci+1을 표현하는 사인곡선 코드 데이터를 계산하기 위한 상기 주파수 예측 유닛(122')의 입력을 지향하는 새로운 입력값으로서 결과 차이(difference)를 제공하기 위해서 입력값으로부터 상기 구성요소 Ci를 감산하기 위한 감산 유닛(subtraction unit)(129')을 포함하고;
    상기 사인곡선 데이터,는 상기 세그먼트 x와 확장자사이에 상기 가중된 스퀘어 에러 E가 최소화되는 기준에 대해 최적화하는 것을 특징으로 하는, 파라메트릭 인코더.
  6. 오디오 또는 스피치 신호 s를 사인곡선 코드 데이터로 인코딩하기 위한 파라메트릭 코딩 방법에 있어서,
    -상기 신호 s를 적어도 하나의 세그먼트 x(n)으로 세그먼팅하는 단계와;
    -상기 확장자가 이하의 식으로 정의되는 것을 특징으로 하는 주어진 기준에 대해 가능한 한 양호하게 세그먼트 x(n)을 근사하도록 세그먼트 x(n)으로부터 주어진 확장자의 위상 및 진폭 데이터의 형태로 상기 사인곡선 코드 데이터를 계산하는 단계를 포함하는, 파라메트릭 코딩 방법.
    이고,
    여기서,
    i : 상기 확장자n)의 구성성분 Ci를 표현;
    j, k : 파라미터들을 표현;
    n : 선형적으로 독립 함수들 J의 세트 중 j번째 예를 표현;
    : 선형적으로 종속 함수들 J의 세트 중 j번째를 표현;
    : 상기 사인곡선 데이터 중 하나로서 위상 계수를 표현
    : 위상; 그리고
    ,: 상기 사인곡선 데이터의 부분들을 표현하는 구성성분들의 선형적으로 관련된 진폭 값들을 표현
  7. 제 6항에 있어서,(n) =를 특징으로 하는, 파라메트릭 코딩 방법.
  8. 제 6항에 있어서,
    상기 주파수들은 상기 확장자의 주파수 도메인내의 최대 주파수들을 피킹(picking)함으로써 정의되는 것을 특징으로 하는, 파라메트릭 코딩 방법.
  9. 제 6항에 있어서,
    상기 세그먼트 x와 확장자사이에 가중된 스퀘어 에러가 최소화되는 기준을 이행하기 위해 진폭들의 정의는:
    -상기 수신된 세크먼트 x(n)의 모든 구성성분들 Ci에 대해 i=1-L 및 k=1-K인 복수개의 LxK 위상 계수들를 정하는 단계와;
    -이하의 식에 따라 상기 위상 계수들로부터 i=1-L인 복수개의 L 위상들(n)을 계산하는 단계와:
    -이하의 식에 따라 i=1-L인 상기 구성성분들 Ci에 대해 패턴들의 복수개의 JxL 쌍들을 발생하는 단계와:
    -상기 확장자의 모든 계수들 Ci의 패턴들의 모든 쌍들을 위한 복수개의 JxL 진폭들및 복수개의 JxL 진폭들을 정하는 단계를 포함하는, 파라메트릭 코딩 방법.
  10. 제 6항에 있어서,
    상기 세그먼트 x와 확장자사이에 가중된 스퀘어 에러가 최저화되는 기준을 이행하기 위해서 진폭들의 정의는:
    a) i=1 설정
    b)== x(n);
    c)입력값로부터 상기 구성성분 Ci에 대해 k=1인 복수개의 K 위상 계수들를 정하는 단계와;
    d)이하의 식에 따라 상기 복수개의 위상 계수들로부터 계수 Ci에 대한 상기 위상들을 계산하는 단계와:
    e)이하의 식을 갖는 상기 구성성분들 Ci에 대해 j=0-(J-1)에서 복수개의 2xJ 패턴들,를 발생하는 단계와:
    f) 상기 수신된 세트먼트 x(n) 및 상기 수신된 복수개의 패턴들로부터 상기 구성성분 Ci에 대해 상기 패턴들을 위한 복수개의 J 진폭들및 복수개의 J 진폭들를 정하는 단계와;
    g)이하의 식에 따라 패턴들 pij의 상기 복수개의 J 쌍들 및 상기 복수개의 진폭들로부터 상기 구성성분 Ci를 구성하는 단계와;
    h)결과 차이를 계산하기 위해 상기 구성성분 Ci를 입력값으로부터 감산하는 단계와;
    i)L이 주어진 수의 구성성분들인, i ≥ L인지 아닌지를 체크하는 단계와;
    j)i < L이면, c) i=i+1인 단계 c)로부터 다시 시작함으로써 상기 단계들을 반복하는 단계와; 그리고
    k)i ≥L이면, 상기 확장자의 모든 L 구성성분들의 상기 사인곡선 코드 데이터는 계산되고 그 후 상기 과정은 종료되는 단계를 포함하는, 파라메트릭 코딩방법.
  11. 송신되거나 또는 복원된 코드 데이터로부터 오디오 또는 스피티 신호 s의 근사치를 재구성하기 위한 파라메트릭 디코더(400)에 있어서,
    -상기 수신된 송신되거나 또는 복원된 코드 데이터로부터 상기 근사치의 세그먼트들를 표현하는 사인곡선 코드 데이터를 선택하기 위한 선택 유닛(420)과;
    -상기 수신된 사인곡선 코드 데이터로부터 상기 세그먼트들를 재구성하기 위한 신시사이져(synthesiser)(440)와; 그리고
    -상기 오디오 또는 스피치 신호 s의 상기 근사치를 형성하도록 일련의 세그먼트들를 결합하기 위한 결합 유닛(460)을 포함하고;
    상기 사인곡선 코드 데이터는 상기 세그먼트의 적어도 하나의 구성성분을 위한 복수개의 주파수 및 진폭 값들이고;
    상기 신시사이져는 이하의 식에 따라 상기 사인곡선 코드 데이터로부터 상기 세그먼트들를 재구성하도록 적용되는 것을 특징으로 하는, 파라메트릭 디코더.
    이고,
    여기서,
    i : 상기 확장자(n)의 구성성분 Ci를 표현;
    j,k : 파라미터들을 표현;
    n : 이산 시간 파라미터를 표현;
    : 선형적으로 독립 함수들 J의 세트 중 상기 j번째 예를 표현;
    : 상기 사인곡선 데이터 중 하나로서 상기 위상 계수 값들을 표현
    : 위상; 그리고
    : 상기 사인곡선 데이터의 부분들을 표현하는 상기 구성성분들의 상기 선형적으로 관련된 진폭 값들을 표현
  12. 송신되거나 또는 복원된 코드 데이터로부터 오디오 또는 스피치 신호 s의 근사치를 재구성하기 위한 디코딩 방법에 있어서,
    -상기 수신된 송신되거나 또는 복원된 코드 데이터로부터 상기 근사치의 세그먼트들를 표현하는 사인곡선 코드 데이터를 선택하는 단계와;
    -상기 수신된 사인곡선 코드 데이터로부터 상기 세그먼트들을 재구성하는 단계와; 그리고
    -상기 오디오 또는 스피치 신호 s의 상기 근사치를 형성하도록 일련의 세그먼트들를 함께 결합하는 단계를 포함하고;
    상기 사인곡선 코드 데이터는 상기 세그먼트의 적어도 하나의 구성성분을 위한 복수개의 위상 및 진폭 값들이고,
    상기 재구성 단계에서, 상기 세그먼트들는 이하의 식에 따라 상기 사인곡선 코드 데이터로부터 재구성되는 것을 특징으로 하는, 디코딩 방법.
    이고,
    여기서,
    i : 상기 확장자(n)의 구성성분 Ci를 표현;
    j,k : 파라미터들을 표현;
    n : 이산 시간 파라미터를 표현;
    : 선형적으로 독립 함수들 J의 설정으로부터 상기 j번째 예를 표현;
    : 상기 사인곡선 데이터 중 하나로서 상기 위상 계수 값들을 표현
    : 위상; 그리고
    ,: 상기 사인곡선 데이터의 부분들을 표현하는 상기 구성성분들의 상기 선형적으로 포함된 진폭 값들을 표현
  13. 오디오 또는 스피치 신호의 근사치의 세크먼트들를 표현하는 사인곡선 코드 데이터를 포함하는 데이터 스트림에 있어서,
    상기 사인곡선 코드 데이터는 상기 세그먼트의 적어도 하나의 구성성분을 위한 복수개의 위상 및 진폭이고,
    상기 세그먼트는 이하의 식으로 정의되는 것을 특징으로 하는, 데이터 스트림.
    이고,
    여기서,
    i : 상기 확장자(n)의 구성성분 Ci를 표현;
    j,k : 파라미터들을 표현;
    n : 이산 시간 파라미터를 표현;
    : 선형적으로 독립 함수들 J의 세트 중 상기 j번째 예를 표현;
    : 상기 사인곡선 데이터 중에 하나로서 상기 위상 계수 값들을 표현
    : 위상; 그리고
    ,: 상기 사인곡선 데이터의 부분들을 표현하는 상기 구성성분들의 선형적으로 관련된 진폭 값들을 표현
  14. 제 13항에 청구된 것과 같은 데이터 스트림이 저장되어 있는 저장 매체.
KR1020027012176A 2001-01-16 2001-12-20 오디오 또는 스피치 신호의 파라메트릭 코딩 KR100849375B1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
EP01200142 2001-01-16
EP01200142.6 2001-01-16
EP01202612 2001-07-06
EP01202612.6 2001-07-06

Publications (2)

Publication Number Publication Date
KR20020084206A true KR20020084206A (ko) 2002-11-04
KR100849375B1 KR100849375B1 (ko) 2008-07-31

Family

ID=26076810

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020027012176A KR100849375B1 (ko) 2001-01-16 2001-12-20 오디오 또는 스피치 신호의 파라메트릭 코딩

Country Status (6)

Country Link
US (1) US7050970B2 (ko)
JP (1) JP2004518163A (ko)
KR (1) KR100849375B1 (ko)
CN (1) CN1293534C (ko)
BR (1) BR0109237A (ko)
WO (1) WO2002056299A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013048171A3 (ko) * 2011-09-28 2013-05-23 엘지전자 주식회사 음성 신호 부호화 방법 및 음성 신호 복호화 방법 그리고 이를 이용하는 장치

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005008628A1 (en) * 2003-07-18 2005-01-27 Koninklijke Philips Electronics N.V. Low bit-rate audio encoding
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
KR101380170B1 (ko) * 2007-08-31 2014-04-02 삼성전자주식회사 미디어 신호 인코딩/디코딩 방법 및 장치
KR101435411B1 (ko) * 2007-09-28 2014-08-28 삼성전자주식회사 심리 음향 모델의 마스킹 효과에 따라 적응적으로 양자화간격을 결정하는 방법과 이를 이용한 오디오 신호의부호화/복호화 방법 및 그 장치
CN106851482A (zh) * 2017-03-24 2017-06-13 北京时代拓灵科技有限公司 一种全景声扬声器体感实时交互系统及交互方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4937873A (en) * 1985-03-18 1990-06-26 Massachusetts Institute Of Technology Computationally efficient sine wave synthesis for acoustic waveform processing
JPH10149199A (ja) * 1996-11-19 1998-06-02 Sony Corp 音声符号化方法、音声復号化方法、音声符号化装置、音声復号化装置、電話装置、ピッチ変換方法及び媒体
US6115689A (en) 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
US6029126A (en) 1998-06-30 2000-02-22 Microsoft Corporation Scalable audio coder and decoder
KR20010072778A (ko) * 1999-06-18 2001-07-31 요트.게.아. 롤페즈 개선된 인코더를 갖는 오디오 전송 시스템

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013048171A3 (ko) * 2011-09-28 2013-05-23 엘지전자 주식회사 음성 신호 부호화 방법 및 음성 신호 복호화 방법 그리고 이를 이용하는 장치
US9472199B2 (en) 2011-09-28 2016-10-18 Lg Electronics Inc. Voice signal encoding method, voice signal decoding method, and apparatus using same

Also Published As

Publication number Publication date
US20020156621A1 (en) 2002-10-24
CN1293534C (zh) 2007-01-03
KR100849375B1 (ko) 2008-07-31
US7050970B2 (en) 2006-05-23
JP2004518163A (ja) 2004-06-17
CN1429384A (zh) 2003-07-09
BR0109237A (pt) 2002-12-03
WO2002056299A1 (en) 2002-07-18

Similar Documents

Publication Publication Date Title
US5451951A (en) Method of, and system for, coding analogue signals
RU2328775C2 (ru) Улучшенное маскирование ошибки в области частот
EP0766230B1 (en) Method and apparatus for coding speech
JP2002372996A (ja) 音響信号符号化方法及び装置、音響信号復号化方法及び装置、並びに記録媒体
US5673364A (en) System and method for compression and decompression of audio signals
EP1385150B1 (en) Method and system for parametric characterization of transient audio signals
KR100849375B1 (ko) 오디오 또는 스피치 신호의 파라메트릭 코딩
JPH0590974A (ja) 前反響処理方法およびその装置
JP4606171B2 (ja) オーディオデコーダ、オーディオプレーヤ、オーディオシステム、符号化方法及び復号化方法
KR20030011912A (ko) 오디오 코딩
KR101380170B1 (ko) 미디어 신호 인코딩/디코딩 방법 및 장치
US7426462B2 (en) Fast codebook selection method in audio encoding
US5822721A (en) Method and apparatus for fractal-excited linear predictive coding of digital signals
EP3248190B1 (en) Method of encoding, method of decoding, encoder, and decoder of an audio signal
KR20050049543A (ko) 위상 갱신을 사용한 사인 오디오 코딩
JP2002366195A (ja) 音声符号化パラメータ符号化方法及び装置
ITMI951379A1 (it) Metodo e relativi apparati di codifica e di decodifica di un segnale vocale campionato
Rebolledo et al. A multirate voice digitizer based upon vector quantization
KR100238324B1 (ko) 오디오 신호의 에러 은닉 방법과 그 장치
JP3731575B2 (ja) 符号化装置及び復号装置
EP1356457A1 (en) Parametric coding of an audio or speech signal
JPH05206955A (ja) 反復性をもつサンプル化されたアナログ信号のコード化方法およびその装置
KR19990061574A (ko) 다중 펄스 여기 선형 예측 부호화/복호화방법 및 그 장치
JPH06132823A (ja) 符号化方式
Jensen et al. Time-differential encoding of sinusoidal model parameters for multiple successive segments

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110720

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee