KR20020070373A - 오디오 신호들의 사인 곡선 모델 기초 코딩 - Google Patents

오디오 신호들의 사인 곡선 모델 기초 코딩 Download PDF

Info

Publication number
KR20020070373A
KR20020070373A KR1020027008652A KR20027008652A KR20020070373A KR 20020070373 A KR20020070373 A KR 20020070373A KR 1020027008652 A KR1020027008652 A KR 1020027008652A KR 20027008652 A KR20027008652 A KR 20027008652A KR 20020070373 A KR20020070373 A KR 20020070373A
Authority
KR
South Korea
Prior art keywords
function
input signal
signal
sub
frame
Prior art date
Application number
KR1020027008652A
Other languages
English (en)
Inventor
리차드 헤우스덴스
리넷 바핀
윌렘 비. 클레이진
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20020070373A publication Critical patent/KR20020070373A/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L2019/0001Codebooks
    • G10L2019/0013Codebook search algorithms
    • G10L2019/0014Selection criteria for distances

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 신호 코딩의 방법 및 장치에 관한 것이다. 사인 곡선 모델링을 위한 합성에 의한 분석 알고리듬이 사용된다. 모델링될 입력 신호는 복수의 프레임들을 생성하기 위해 적시에 분할된다. 사전으로 부터의 함수들은 각 프레임 내에 포함된 입력 신호의 섹션의 근사화를 형성하기 위해 선택되고, 이 선택은 정신 음향 표준에 기초하여 수행된다. 이 방법의 한 실시예에서, 함수 사전은 복합 지수들로 구성되고 이들은 각 프레임 내에 포함된 입력 신호의 선택을 구성하기 위해 반복적으로 선택된다. 이 정신 음향 표준은 다음 단계에서 모델링될 나머지 신호의 변경 마스킹 임계값에 따라 각 반복 후에 적응한다.

Description

오디오 신호들의 사인 곡선 모델 기초 코딩{Sinusoidal model based coding of audio signals}
사인 곡선 모델링은 신호 코딩의 잘 알려진 방법이다. 코딩될 입력 신호는 각 프레임에 인가되는 사인 곡선 모델링 기술에 의해 수많은 프레임들로 분할된다. 각 프레임의 사인 곡선 모델링은 이 프레임에 포함된 입력 신호의 부분을 나타내기 위해 진폭, 주파수, 위상 및 감폭 계수(damping coefficients)에 의해 파라미터화된 사인 곡선 신호들의 세트를 찾는 단계를 포함한다.
사인 곡선 모델링은 입력 신호 내의 스펙터럼 피크들(spectral peaks)을 픽킹(pick)하는 단계를 포함할 수 있다. 대안적으로, 합성에 의한 분석 기술들(analysis-by-synthesis techniques)이 사용될 수도 있다. 일반적으로, 합성에 의한 분석 기술들은 입력 프레임 내에 포함된 가장 큰 에너지의 사인 곡선 신호를 반복적으로 식별하고 제거하는 단계를 포함한다. 합성에 의한 분석을 수행하기 위한 알고리즘은, 충분한 사인 곡선 성분들이 식별되면, 입력 신호의 정확한 표현을 생성할 수 있다.
위에 설명된 바와 같은 합성에 의한 분석의 제한은, 가장 큰 에너지를 갖는 사인 곡선 성분이 가장 인식적으로 중요한 것이 아닐수도 있다는 것이다. 사인 곡선 모델링을 수행하기 위한 목적이 입력 신호를 나타내는데 필요한 정보의 양을 줄이는데 있는 상황에서, 스펙트럼 성분들의 에너지에 따라 입력 신호를 모델링하는 것은 스펙트럼 성분들의 인식 중요성에 따라 입력 신호를 모델링하는 것 보다 덜 효율적일 수 있다. 인간 청취 시스템의 정신 음향(psychoacoustic)을 고려하게 하는 한 알려진 기술은 가중된 매칭 추적(weighted matching pursuits)이다. 일반적으로, 매칭 추적 알고리즘들은 과잉 사전(redundant dictionary)으로부터 선택된 요소들의 유한한 확장에 의해 입력 신호를 근사화한다. 이 가중된 매칭 추적 방법을 사용하여, 사전 요소들은 인식 가중에 따라 스케일링(scale)된다.
가중된 매칭 추적 방법을 더 잘 설명하기 위해, 일반 매칭 추적 알고리즘이 설명될 것이다. 이 일반 매칭 추적 알고리즘은 힐버트 공간(; Hilbert space) 내의 유닛 표준 요소들의 완전한 사전으로부터 함수들을 선택한다. 사전이 요소들(gr)을 포함하고로 주어지면,는 사전 요소들의 폐쇄 선형 스팬(closed linear span)이다. 의 입력 신호는 사전 요소들(gr) 상으로 투사되고 입력 신호(x)에 가장 잘 매칭되는 요소는 나머지 신호를 형성하기 위해 입력 신호(x)로부터 감산된다. 이 절차는 새로운 입력 신호로 취해진 이전 단계로 부터의 나머지와 함께 반복한다. m-1 반복들 후의 나머지를 Rm-1x로 나타내고 Rm-1x에 가장 잘 매칭하는 사전 요소를 grm으로 나타내면, 반복(m)에서 나머지는 다음식(1)에 따라 분해된다.
여기서 grm∈ D 이므로
Rmx와 grm의 직교성은
을 암시한다.
이 알고리즘은, 사전 요소들(gr)이 인간 청각 인식을 고려하기 위해 스케일링될 때, 가중된 매칭 추적이 된다.
사전 요소들의 가중에 의해 도입되는 바이어스 때문에, 가중된 매칭 추적 알고리즘은, 모델링될 신호가 사전 요소들 중 하나를 포함할 때, 정확한 사전 요소를 선택하지 못할 수 있다. 또한, 이 가중된 매칭 추적 알고리즘은 입력 신호를 수많은 프레임들로 분할하기 위해 입력 신호를 윈도우화하여 도입된 사이드 로브 피크들(side lobe peaks)과 모델링될 신호의 실제 성분들 사이를 분별하기 어려울 수 있다.
본 발명의 양호한 실시예들의 목적은, 제한된 길이의 프레임 내에 포함된 신호의 섹션들을 근사화할 때, 사전 요소들의 선택에서 개선들을 제공하는 합성에 의한 분석에 기초하여 예를 들어 사인 곡선 모델링의 방법을 제공하는 것이다. 이런 목적을 위하여, 본 발명은 독립항들에 정의된 바와 같은 신호 코딩 방법, 코딩 장치, 및 전송 장치를 제공한다.
본 발명은 신호 코딩 방법 및 이를 위한 장치에 관한 것이며, 특히, 배타적인 것은 아니지만 오디오 신호들을 코딩하기 위한 방법 및 장치에 관한 것이다.
도 1은 본 발명의 가르침에 따라 동작하는 코딩 장치의 실시예를 도시한다.
도 2는 본 발명의 실시예에 따른 전송 장치를 도시한다.
본 발명의 제 1 양상은,
(a) 입력 신호를 수신하는 단계;
(b) 각각이 상기 입력 신호의 섹션을 포함하는 복수의 프레임들을 생성하기 위해 상기 입력 신호를 적시에 분할하는 단계;
(c) 각 프레임 내의 상기 신호의 근사화를 형성하기 위해 함수 사전으로부터 함수들을 선택하는 단계에 의해 정의된다.
상기 단계(c)의 선택 절차는, 복수의 프레임들 내의 각 프레임을 정의하는 윈도우 함수의 적과 주파수의 함수로서 표현되는 가중치 함수의 적과 같은 조합과 모델링될 입력 신호의 섹션에 기초하는 표준에 기초하여 수행되고, 윈도우 함수의 적과 모델링될 입력 신호의 섹션은 주파수의 함수로서 표현된다. 이 표준은 다음식(3)과 같이 정의될 수 있다.
여기서, Rx는 모델링될 입력 신호의 섹션을 나타내고,는 주파수의 함수로서 표현된 가중치 함수의 푸리에 변환을 나타내고,는 주파수의 함수로서 표현되는 Rx와 복수의 프레임들 내의 각 프레임 w 을 정의하는 윈도우 함수의적의 푸리에 변환을 나타낸다.
양호하게, 이 표준은 단계(c)의 선택 절차를 돕기 위해 인간 청취의 정신 음향의 지식을 통합한다.
양호하게, 인간 청취의 정신 음향의 지식은 함수를 통해 표준내에 통합된다. 양호하게,은 인간 청취 시스템의 마스킹 임계값(masking threshold)에 기초한다. 양호하게,은 마스킹 임계값의 역이다.
양호하게, 단계(c)의 선택 절차는 복수의 하부 단계들에서 수행되며, 각 하부 단계에서 함수 사전으로 부터의 단일 함수가 식별된다.
양호하게, 제 1 하부 단계에서 식별된 함수는 나머지 신호를 형성하기 위해 프레임 내의 입력 신호로부터 감산되고, 각 하부 순서 하부 단계에서 함수가 부가적인 나머지 신호를 형성하기 위해 나머지 신호로부터 식별되고 감산된다.
양호하게, 각 하부 단계에서 식별된 함수들의 합은 각 프레임 내의 신호의 근사화를 형성한다.
양호하게, 이 표준은 단계(c)의 선택 절차의 각 하부 단계에 적응한다.
양호하게, 새로운 표준은 현재 나머지 신호에 기초하여 단계(c)의 선택 절차의 각 하부 단계에서 유발된다. 양호하게, 나머지 신호가 각 하부 단계에서 변함에 따라,는 나머지 신호의 마스킹 특성들을 고려하기 위해 업데이트된다. 양호하게,는 예를 들어 MPEG 레이어 3 표준에 정의된 모델들인 마스킹 임계값의 알려진 모델들에 따라 계산되어 업데이트된다. 대안적인 실시예들에서, 함수는 각반복에서 나머지의 마스킹 특성들을 다시 추정하는 것에 의해 부가되는 계산적인 부하를 제거하기 위해 상수를 취할 수 있다. 적합하게, 함수는 수렴을 보장하기 위해 입력 신호의 마스킹 임계값에 기초하여 상수를 취할 수 있다. 입력 신호의 마스킹 임계값은 MPEG 레이어 3 표준에 정의된 모델들과 같은 알려진 모델에 따라 또한 양호하게 계산된다.
양호하게, 함수는 인간 청취 시스템의 마스킹 임계값에 기초하고 코딩된 프레임 내의 입력 신호의 섹션에 대해 마스킹 임계값의 역이고 마스킹 임계값의 알려진 모델을 사용하여 계산된다.
양호하게, 표준은 다음의 내적에 따라 유발된다.
양호하게, 반복(m)에서 나머지는 Rmx로 나타내고 이전 반복으로부터 가중치 함수는로 나타내면, 함수 사전으로부터 식별된 함수는를 최소화하고, 여기서를 사용하여 계산된 표준을 나타낸다.
양호하게, 오디오 코딩의 방법의 수렴은 모든 m>0 동안 λ>0 가 존재하는 원리의 유효성에 의해 보장되므로이며, 여기서 x는 모델링될 입력 신호의 초기 섹션을 나타낸다.
양호하게, 오디오 코딩의 방법의 수렴은 각 서브 단계에서 마스킹 임계값의 각 프레임 내의 증가 또는 불변(invariance)에 의해 보장되어, 전체 주파수 범위 f∈[0,1]에 걸쳐이다.
윈도우 함수는 한닝 윈도우(Hanning window)일 수 있다. 이 윈도우 함수는 해밍 윈도우(Hamming window)일 수 있다. 이 윈도우 함수는 직사각 윈도우일 수 있다. 이 윈도우 함수는 어떠한 적합한 윈도우일 수 있다.
본 발명은 이 방법에 따라 동작하는 코딩 장치를 포함한다.
본 발명을 더욱 잘 이해할 수 있도록 하기 위해, 그리고 어떻게 효과를 가져올 수 있는지 설명하기 위해, 이제 본 발명의 양호한 실시예들이 다음의 도면들의 도움으로 단지 예시적인 방식으로 설명된다.
다음의 실시예들의 각각에서, 오디오 코딩 절차에서 특정 단계들이 설명된다. 즉, 각 프레임 내의 신호의 근사화를 형성하기 위해 함수 사전으로부터 함수들을 선택하는 단계가 설명된다. 이 선택 단계는 설명된 오디오 코딩 방법 내의 중요한 제 3 단계(c)이며 또한 (a) 입력 신호를 수신하는 단계; 및 (b) 이 입력 신호의 섹션을 각각 포함하는 복수의 프레임들을 생성하기 위해 이 입력 신호를 적시에 분할하는 단계인 초기 단계들을 포함한다.
위에서 인용되는 단계(a 및 b)는 수많은 신호 코딩 방법들에 공통이고 부가적인 정보없이도 당업자에 의해 잘 이해될 것이다.
아래에 설명되는 본 발명의 실시예들 각각에서, 선택 단계(c)는 각 프레임 내의 신호의 근사화를 형성하기 위해 함수 사전으로부터 함수들을 선택하는 단계를 포함하고, 이 선택 절차는로 정의되는 표준에 기초하여 수행되고, 여기서, Rx는 모델링될 입력 신호의 섹션을 나타내고,는 주파수의 함수로서 표현된 가중치 함수의 푸리에 변환을 나타내고,는 주파수의 함수로서 표현되는 Rx 및 복수의 프레임들 내의 각 프레임 w을 정의하는 윈도우 함수의 적의 푸리에 변환을 나타낸다.
본 발명의 제 1 실시예가 이제 설명된다. 이 실시예에서 사전 요소들은 복합 지수(complex exponential)들을 포함하여,이고 여기서 r∈[0,1]에 대해이다.
반복(m)에서 최고의 매칭 사전 요소를 찾기 위해, Rm-1x의 내적과 사전 요소들 각각이 추정된다. 이 실시예에서, 내적들<Rm-1x,gr>의 추정은 다음식(5)에 의해 주어진다.
함수는, 이전 반복으로부터 나머지 신호에 기초하여 알려진 모델을 사용하여 모델링됨에 따라, 인간 청각 시스템의 마스킹 임계값의 역을 포함한다는 점에서 인간 청취의 정신 음향의 지식을 통합한다. 처음 반복에서, 마스킹 임계값은 입력 신호에 기초하여 모델링된다.
그후, 최고의 매칭 사전 요소는 공지되고 앞서 설명한 식(2)에 따라 추정되고 나머지는 식(1)에 따라 추정된다.
본 발명의 이 실시예에 대해 설명된 바와 같은 구조화된 사전의 사용은 내적들<Rm-1x,gr>을 추정하는 계산적인 복잡성을 상당히 감소시킬 수 있다. 본 발명의 이 실시예에서 설명된 바와 같은 복합 지수들의 사전의 경우에, 식(5)이 다음식(6) 푸리에 변환을 사용하여 계산될 수 있다.
따라서, 모든 r에 대해 <Rm-1x,gr>를 계산하기 위해, wRm-1x의 푸리에 변환이 계산되고 이 결과는로 곱해진다. 그후 적의 역 푸리에 변환은 계산되고, 이 결과는 w*로 곱해지고, 그후 푸리에 변환된다. 이 방식에서, 식(6)의 결과는 3개의 푸리에 변환 연산자들을 사용하여 계산될 수 있다.
이 반복에서 최고의 매칭 사전 요소가 일단 선택되면, 이것은 감산의 결과가 다음 반복에서 모델링될 신호를 형성하면서 나머지 신호로부터 감산된다. 이 방식으로, 각 반복에서 식별된 사전 요소들의 합을 포함하는 근사화가 이루어질 수 있다.
그 복소 공액으로 각 복합 지수 함수 의 합을 취하여 실제 값 사인 곡선이 생성될 수 있다. 이 방식에서, 실제 입력 신호가 추정될 수 있다. 이 기술은 각 반복에서 발견되어야할 사전 요소들(g* r,gr)의 쌍을 요구한다. 실제 사인 곡선 신호를 재구성하기 위해, 내적<g* r,gr>는 또한 반드시 발견되어야 한다. 이들 내적들은 푸리에 변환들의 입장에서 효율적인 구현을 갖지 못하지만, 0 또는 1/2로부터 떠나 r 동안 <g* r,gr>0의 값 때문에 r 값들의 범위의 대부분에 대해 내적들을 계산하는 것을 피할 수 있다. 이 이유에 대해 최고의 매칭 세트 <g* r,gr>를 추정하는 복잡성은 최고의 매칭 지수 함수(gr)를 발견하는 것과 동일한 중대성의 순서를 갖는다.
제 2 실시예는 위에서 설명한 제 1 실시예에 기초한 것이지만, 이것과는 N이 매우 크다는 점에서 다르다. 이 경우에,는 디락 델타 함수(Dirac delta function)으로 가는 경향이 있고 다음식(5)은
다음식(7)으로 감소된다.
따라서, 매칭 추적 알고리즘이 gr∈ D를 선택하여서,
이다.
이 실시예에서, 각 반복에서 얻어진 결과는 나머지 신호의 대수의 스펙트럼과 대수의 마스킹 임계값 사이의 최대 절대차를 준다.
가 반복(m)에서 마스킹 임계값의 역수(reciprocal)라면 이 절차는 나머지 신호 스펙트럼과 마스킹 임계값 사이의 절대 차가 가장 큰 위치에 위치된 복합 지수를 선택한다. 식(2)에 따라 각 반복에서 요구되는 사전 요소를 식별하기 위해 요구되는 내적들을 추정하는 것은, 많은 수의 사전 요소들이 존재할 때, 제 1 및 제 2 실시예들에 대해 계산적으로 집중적이 될 것이다.
본 발명의 제 3 실시예는 입력 신호를 수신하고 분할하는 데에 관한 제 1 및 제 2 발명의 방법들의 단계들을 공유한다. 유사하게, 함수 사전으로부터 식별된 함수가 다음 반복에서 모델링될 나머지를 생성하기 위해 사용된다. 하지만 제 3 실시예에서 함수는 각 반복에서 나머지의 마스킹 특성들에 따라 적응하지 않지만 반복 수의 독립성을 갖는다. 식(1)이 다음식(9)으로 감소될 수 있다는 것은 어떠한 일반 내적에 대해서도 알려져있다.
그러므로, 만약가 반복 수의 상수 독립을 갖는다면, 식(4)의 내적에 의해 유발된 바와 같은 본 발명의 표준의 정의를 사용하여 각 반복에서 요구되는 단지 여분의 계산들은 내적들<grm,gr>을 추정하는 것이다. 이들 내적들의 값은 즉 모든사전 요소들과 각 사전 요소의 내적들은 미리 계산될 수 있고 메모리에 저장될 수 있다. 만약 함수가 모든 주파수들에 걸쳐 단일한 것과 같이 유지된다면, 본 방법은 알려진 매칭 추적 알고리즘으로 감소한다. 그러나,가 어떠한 일반 형식을 취할 수도 있다. 특별히 유리한 배열은 완전 입력 신호의 마스킹 임계값의 역에가 동일하도록 유지하는 것이다. 이 배열은 위로 불일치에 따라 수렴하고 계산의 용이성의 견지에서 장점을 갖는다.
이제 도 1을 참조하여, 본 발명의 가르침에 따라 동작하는 코딩 장치의 실시예를 계락적인 형식으로 도시한다.
도 1에서, 그 입력에서 오디오 신호(Ain)를 수신하고 코드 C를 출력하기 전에 이것을 본원에 설명된 방법들 중 어떠한 것이든지 따라서 처리한다. 코더(10)는 매칭 추적 알고리즘의 사용에 의해 사인 곡선 파라메터들을 추정하며, 여기서, 예를 들어 인간 청취 시스템의 정신-음향 특성들이 신호 공간에 정신-음향 적응성 표준을 정의하여 고려된다.
위에 설명된 실시예들은 연설 또는 다른 음성 신호들에 관련하여 사용하기에 특히 적합한 신호 코딩을 위한 방법들을 제공한다. 본 발명의 실시예들에 따른 방법들은 인간 청취 시스템의 정신 음향의 지식을 통합하고( 그래서 함수가 인간 청취 시스템의 마스킹 임계값의 역이된다.) 코딩될 신호가 계산적인 복잡성의 중요한 증가없이 제한되어 지속될 때 다른 알려진 방법들에 대해 장점들을 제공한다.
도 2는 본 발명의 실시예에 따른 전송 장치(1)를 도시하고, 이 전송 장치는도 1에 도시된 바와 같은 코딩 장치(10)를 포함한다. 또한 전송 장치(1)는 예를 들어 오디오 신호인 입력 신호(Ain)를 얻기위한 소스(11)를 더 포함한다. 이 소스(11)는 예를 들어 마이크로폰 또는 수신 유닛/안테나 일 수 있다. 이 입력 신호(Ain)는 코딩 장치(10)에 공급되며, 코딩된 신호(C)를 얻기 위해 입력 신호를 코딩한다. 코드(C)는 출력 유닛(12)에 공급되고 전송을 위해 필요한 만큼 코드(C)를 안으로 적응시킨다. 출력 유닛(12)은 멀티플렉서, 변조기 등일 수 있다. 코드(C)에 기초한 출력 신호[C]가 전송된다. 출력 신호[C]는 원격 수신기에 전송될 수 있지만, 또한 지역 수신기 또는 저장 매체에도 전송될 수 있다.
비록 본 발명의 실시예들이 오디오 코딩에 관하여 설명되었지만, 본 발명의 방법이 다른 신호 코딩 응용들에서도 완전히 또는 일부가 활용될 수 있음이 당업자에게 명백할 것이다.
위에 설명된 실시예들은 본 발명을 제한하는 예시가 아니며 당업자는 첨부된 청구항들의 범위로부터 벗어나지 않고 수많은 대안적인 실시예들을 설계할 수 있을 것이다. 청구항들에서, 괄호안의 어떤 참조 기호들은 청구항을 제한하는 것으로 해석되어서는 안된다. 단어 "포함"은 청구항에 나열된 것과 다른 요소들 또는 단계들의 존재를 배척하지 않는다. 본 발명은 몇몇 현저한 소자들을 포함하는 하드웨어의 수단으로, 그리고 적절히 프로그램된 컴퓨터의 수단으로 구현될 수 있다. 몇몇 수단들을 열거하는 장치 청구항에서, 이들 수단들의 몇몇은 하드웨어의 동일한 아이템과 하드웨어 하나로 구현될 수 있다. 특정 방법들이 상호 다른 종속 청구항들에서 인용되는 단순한 사실은 이들 방법들의 조합이 유리하게 사용될 수 없음을 나타내는 것은 아니다.

Claims (19)

  1. 신호 코딩 방법에 있어서,
    (a) 입력 신호를 수신하는 단계;
    (b) 각각이 상기 입력 신호의 섹션을 포함하는 복수의 프레임들을 생성하기 위해 상기 입력 신호를 적시에 분할하는 단계; 및
    (c) 각 프레임 내의 상기 신호의 근사화(approximation)를 형성하기 위해 함수 사전으로 부터 함수들을 선택하는 단계를 포함하고,
    상기 단계(c)의 선택 절차는, 상기 복수의 프레임들 내의 각 프레임을 정의하는 윈도우 함수의 적(a product of a window function)과 주파수의 함수로서 표현되는 가중치 함수(a weighting function)의 적과 같은 조합과 모델링될 상기 입력 신호의 상기 섹션에 기초하는 표준(norm)에 기초하여 수행되고, 상기 윈도우 함수의 적과 모델링될 상기 입력 신호의 섹션은 주파수의 함수로서 표현되는, 신호 코딩 방법.
  2. 제 1 항에 있어서,
    상기 표준은로 정의되며,
    여기서, Rx는 모델링될 상기 입력 신호의 섹션을 나타내고,는 주파수의 함수로서 표현된 상기 가중치 함수를 나타내고,는 Rx와 복수의 프레임들 내의 각 프레임 w을 정의하는 상기 윈도우 함수의 적의 푸리에 변환과 같은 변환을 나타내는, 신호 코딩 방법.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 가중치 함수는 상기 단계(c)의 선택 절차를 돕기 위해 인간 청취의 정신 음향(the psychoacoustics of human hearing)의 지식을 통합하는, 신호 코딩 방법.
  4. 제 3 항에 있어서,
    상기 인간 청취의 정신 음향의 지식은 상기 함수를 통해 상기 표준내에 통합되는, 신호 코딩 방법.
  5. 제 4 항에 있어서,
    상기는 인간 청취 시스템(the human auditory system)의 마스킹 임계값(masking threshold)에 기초하고, 상기 마스킹 임계값의 역(inverse)인, 신호 코딩 방법.
  6. 제 5 항에 있어서,
    상기는 상기 마스킹 임계값의 알려진 모델을 사용하여 계산되는, 신호코딩 방법.
  7. 제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 단계(c)의 선택 절차는 복수의 하부 단계들에서 수행되며, 각 하부 단계에서 함수 사전으로 부터의 단일 함수가 식별되는, 신호 코딩 방법.
  8. 제 7 항에 있어서,
    제 1 하부 단계에서 식별된 함수는 나머지 신호를 형성하기 위해 상기 프레임 내의 상기 입력 신호로부터 감산되고, 각 하부 순서 하부 단계에서 함수가 부가적인 나머지 신호를 형성하기 위해 상기 나머지 신호로부터 식별되고 감산되면서, 각 하부 단계에서 식별된 함수들의 합은 각 프레임 내의 신호의 근사화를 형성하는, 신호 코딩 방법.
  9. 제 1 항 내지 제 8 항 중 어느 한 항에 있어서,
    상기 표준은 상기 단계(c)의 선택 절차의 각 하부 단계에 적응하는, 신호 코딩 방법.
  10. 제 9 항에 있어서,
    새로운 표준이 현재 나머지 신호에 기초하여 상기 단계(c)의 선택 절차의 각 하부 단계에서 유도되면서, 또한는 상기 나머지 신호의 마스킹 특성들을 고려하기 위해 업데이트되는, 신호 코딩 방법.
  11. 제 1 항 또는 제 2 항에 있어서,
    상기 가중치 함수는 반복 수의 독립을 유지하는, 신호 코딩 방법.
  12. 제 11 항에 있어서,
    상기는 상기 인간 청취 시스템의 상기 마스킹 임계값에 기초하며, 코딩되는 프레임 내의 입력 신호의 섹션에 대한 상기 마스킹 임계값의 역이고, 상기 마스킹 임계값의 알려진 모델을 사용하여 계산되는, 신호 코딩 방법.
  13. 제 1 항 내지 제 12 항 중 어느 한 항에 있어서,
    상기 표준은 내적에 따라 유발되는, 신호 코딩 방법.
  14. 제 13 항에 있어서,
    반복(m)에서 나머지를 Rmx로 나타내고 이전 반복으로부터 가중치 함수를로 나타내면, 상기 함수 사전으로부터 식별된 함수는를 최소화하며,를 사용하여 계산된 상기 표준을 나타내는, 신호 코딩 방법.
  15. 제 14 항에 있어서,
    오디오 코딩의 방법의 수렴은, 모든 m>0 동안 λ>0 가 존재하는 원리의 유효성에 의해 보장되므로이며, 상기 x는 모델링될 상기 입력 신호의 초기 섹션을 나타내는, 신호 코딩 방법.
  16. 제 13 항에 있어서,
    상기 오디오 코딩의 방법의 수렴은 각 서브 단계에서 상기 마스킹 임계값의 각 프레임 내의 증가 또는 불변에 의해 보장되어, 전체 주파수 범위 f∈[0,1]에 걸쳐인, 신호 코딩 방법.
  17. 제 1 항 내지 제 16 항 중 어느 한 항에 있어서,
    상기 윈도우 함수는 한닝 윈도우(Hanning window), 해밍 윈도우(Hamming window), 직사각 윈도우, 또는 다른 적합한 윈도우 중 어느 하나인, 신호 코딩 방법.
  18. 제 1 항 내지 제 17 항 중 어느 한 항의 방법에 따라 동작하는 코딩 장치(10).
  19. 전송 장치(1)에 있어서,
    입력 신호를 제공하기 위한 소스(11);
    코딩된 신호를 얻기 위해 상기 입력 신호를 코딩하기 위한 청구항 18 항에 따른 코딩 장치(10); 및
    상기 코딩된 신호를 출력하기 위한 출력 유닛을 포함하는, 전송 장치.
KR1020027008652A 2000-11-03 2001-10-31 오디오 신호들의 사인 곡선 모델 기초 코딩 KR20020070373A (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP00203856.0 2000-11-03
EP00203856 2000-11-03
EP01201685.3 2001-05-08
EP01201685 2001-05-08
PCT/EP2001/012721 WO2002037476A1 (en) 2000-11-03 2001-10-31 Sinusoidal model based coding of audio signals

Publications (1)

Publication Number Publication Date
KR20020070373A true KR20020070373A (ko) 2002-09-06

Family

ID=26072835

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020027008652A KR20020070373A (ko) 2000-11-03 2001-10-31 오디오 신호들의 사인 곡선 모델 기초 코딩

Country Status (8)

Country Link
US (1) US7120587B2 (ko)
EP (1) EP1338001B1 (ko)
JP (1) JP2004513392A (ko)
KR (1) KR20020070373A (ko)
CN (1) CN1216366C (ko)
AT (1) ATE354850T1 (ko)
DE (1) DE60126811T2 (ko)
WO (1) WO2002037476A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8725519B2 (en) 2006-12-29 2014-05-13 Samsung Electronics Co., Ltd. Audio encoding and decoding apparatus and method thereof

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8271200B2 (en) * 2003-12-31 2012-09-18 Sieracki Jeffrey M System and method for acoustic signature extraction, detection, discrimination, and localization
US7079986B2 (en) * 2003-12-31 2006-07-18 Sieracki Jeffrey M Greedy adaptive signature discrimination system and method
US8478539B2 (en) 2003-12-31 2013-07-02 Jeffrey M. Sieracki System and method for neurological activity signature determination, discrimination, and detection
US7587313B2 (en) * 2004-03-17 2009-09-08 Koninklijke Philips Electronics N.V. Audio coding
US7751572B2 (en) 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
KR100788706B1 (ko) * 2006-11-28 2007-12-26 삼성전자주식회사 광대역 음성 신호의 부호화/복호화 방법
KR101149448B1 (ko) * 2007-02-12 2012-05-25 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법
KR101346771B1 (ko) * 2007-08-16 2013-12-31 삼성전자주식회사 심리 음향 모델에 따른 마스킹 값보다 작은 정현파 신호를효율적으로 인코딩하는 방법 및 장치, 그리고 인코딩된오디오 신호를 디코딩하는 방법 및 장치
KR101441898B1 (ko) * 2008-02-01 2014-09-23 삼성전자주식회사 주파수 부호화 방법 및 장치와 주파수 복호화 방법 및 장치
US8805083B1 (en) 2010-03-21 2014-08-12 Jeffrey M. Sieracki System and method for discriminating constituents of image by complex spectral signature extraction
US9558762B1 (en) 2011-07-03 2017-01-31 Reality Analytics, Inc. System and method for distinguishing source from unconstrained acoustic signals emitted thereby in context agnostic manner
US9886945B1 (en) 2011-07-03 2018-02-06 Reality Analytics, Inc. System and method for taxonomically distinguishing sample data captured from biota sources
US9691395B1 (en) 2011-12-31 2017-06-27 Reality Analytics, Inc. System and method for taxonomically distinguishing unconstrained signal data segments
JP5799707B2 (ja) * 2011-09-26 2015-10-28 ソニー株式会社 オーディオ符号化装置およびオーディオ符号化方法、オーディオ復号装置およびオーディオ復号方法、並びにプログラム
US11030524B2 (en) * 2017-04-28 2021-06-08 Sony Corporation Information processing device and information processing method

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1062963C (zh) * 1990-04-12 2001-03-07 多尔拜实验特许公司 用于产生高质量声音信号的解码器和编码器
JP3446216B2 (ja) * 1992-03-06 2003-09-16 ソニー株式会社 音声信号処理方法
US5651090A (en) * 1994-05-06 1997-07-22 Nippon Telegraph And Telephone Corporation Coding method and coder for coding input signals of plural channels using vector quantization, and decoding method and decoder therefor
JP3707153B2 (ja) * 1996-09-24 2005-10-19 ソニー株式会社 ベクトル量子化方法、音声符号化方法及び装置
FI973873A (fi) * 1997-10-02 1999-04-03 Nokia Mobile Phones Ltd Puhekoodaus

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8725519B2 (en) 2006-12-29 2014-05-13 Samsung Electronics Co., Ltd. Audio encoding and decoding apparatus and method thereof

Also Published As

Publication number Publication date
EP1338001A1 (en) 2003-08-27
DE60126811T2 (de) 2007-12-06
JP2004513392A (ja) 2004-04-30
DE60126811D1 (de) 2007-04-05
CN1216366C (zh) 2005-08-24
ATE354850T1 (de) 2007-03-15
CN1408110A (zh) 2003-04-02
US7120587B2 (en) 2006-10-10
EP1338001B1 (en) 2007-02-21
US20030009332A1 (en) 2003-01-09
WO2002037476A1 (en) 2002-05-10

Similar Documents

Publication Publication Date Title
KR20020070373A (ko) 오디오 신호들의 사인 곡선 모델 기초 코딩
TW546630B (en) Optimized local feature extraction for automatic speech recognition
JP4810422B2 (ja) 符号化装置、復号化装置、およびこれらの方法
JP7053545B6 (ja) 臨界サンプリングされたフィルタバンクにおけるモデル・ベースの予測
EP0673014B1 (en) Acoustic signal transform coding method and decoding method
Vaseghi Multimedia signal processing: theory and applications in speech, music and communications
EP2573765B1 (en) Audio encoder and decoder
US8155954B2 (en) Device and method for generating a complex spectral representation of a discrete-time signal
KR20000010994A (ko) 오디오 신호 부호화 방법 및 복호화 방법, 오디오 신호 부호화장치 및 복호화 장치
TW201131555A (en) Frequency band enlarging apparatus and method, encoding apparatus and method, decoding apparatus and method, and program
WO2005034080A2 (en) A method of making a window type decision based on mdct data in audio encoding
JPH09181611A (ja) 信号符号化装置及び方法
KR20050020728A (ko) 음성 처리 시스템, 음성 처리 방법 및 음성 프레임 평가방법
EP1673765B1 (en) A method for grouping short windows in audio encoding
CA2156558C (en) Speech-coding parameter sequence reconstruction by classification and contour inventory
US7610198B2 (en) Robust quantization with efficient WMSE search of a sign-shape codebook using illegal space
US7647223B2 (en) Robust composite quantization with sub-quantizers and inverse sub-quantizers using illegal space
JPH0844399A (ja) 音響信号変換符号化方法および復号化方法
EP0688012B1 (en) A speech recognizer
KR20160147942A (ko) 오디오 코딩 방법 및 관련 장치
JP3218679B2 (ja) 高能率符号化方法
JP2000259190A (ja) オーディオ信号圧縮方法及びオーディオ信号復号方法とオーディオ信号圧縮装置
EP0713208B1 (en) Pitch lag estimation system
KR20190019688A (ko) 음성 신호 대역폭 확장 장치 및 방법
Mustière et al. Low-cost modifications of Rao-Blackwellized particle filters for improved speech denoising

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application