KR101008529B1 - 오디오 인코딩에서의 정현파 선택 - Google Patents

오디오 인코딩에서의 정현파 선택 Download PDF

Info

Publication number
KR101008529B1
KR101008529B1 KR1020057011277A KR20057011277A KR101008529B1 KR 101008529 B1 KR101008529 B1 KR 101008529B1 KR 1020057011277 A KR1020057011277 A KR 1020057011277A KR 20057011277 A KR20057011277 A KR 20057011277A KR 101008529 B1 KR101008529 B1 KR 101008529B1
Authority
KR
South Korea
Prior art keywords
sinusoids
candidate
sinusoid
frequency band
audio signal
Prior art date
Application number
KR1020057011277A
Other languages
English (en)
Other versions
KR20050085744A (ko
Inventor
안드레아스 제이. 거리트스
브린커 알버투스 씨. 덴
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20050085744A publication Critical patent/KR20050085744A/ko
Application granted granted Critical
Publication of KR101008529B1 publication Critical patent/KR101008529B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

본 발명은 복수의 정현파들에 의해 오디오 신호중 적어도 일부를 표현(12)함으로써 오디오 신호(x(t))를 인코딩(1)하는 방법에 관한 것으로서, 상기 방법은 상기 오디오 신호의 제 1 세그먼트에 대하여 분석을 수행하는 단계, 상기 분석에 기초하여 후보 정현파들을 선택하는 단계, 후보 정현파들중 적어도 하나에 대하여, 상기 후보 정현파의 주파수 주위의 로컬 주파수 대역을 규정하는 단계, 상기 로컬 주파수 대역 내의 후보 정현파들중 적어도 하나가 배제되는 상기 로컬 주파수 대역 내의 주파수 성분들의 진폭들을 조합하는 단계, 및 진폭들의 조합에 의존하여 상기 후보 정현파를 선택된 정현파로서 선택하는 단계를 포함한다. 본 발명에 따라 정현파들을 선택하면 주어진 오디오 품질을 위하여 보다 적은 수의 정현파들이 인코딩될 것이며, 이것은 주어진 오디오 품질을 위한 비트-레이트 면에서 유용하다.
Figure R1020057011277
인코딩, 오디오 신호, 세그먼트, 정현파, 진폭.

Description

오디오 인코딩에서의 정현파 선택{Sinusoid selection in audio encoding}
본 발명은 오디오 신호를 재생하는데 관련된 정현파들(Sinusoids)이 선택되고, 그 파라미터들이 인코딩되는 오디오 신호의 코딩에 관한 것이다.
정현파 오디오 인코더(sinusoidal audio encoder)에서는, 오디오 신호의 적어도 일부가 복수의 정현파들에 의해 나타내어지고, 그 정현파들은 통상 자신들의 주파수들, 자신들의 진폭들 및 선택적으로 자신들의 위상들(phases)에 의해 기술된다. 인코딩 처리에서, 오디오 신호는 시간 세그먼트들로 분할되는데, 그 세그먼트들은 자신들의 주파수 콘텐츠들에 대해 분석된다. 통상적으로, 오디오 인코더에서 사용되는 세그먼트 크기는 5 내지 60 ms의 범위내에 있다. 각각의 세그먼트에 대하여, 복수의 정현파들이 선택되며, 그들의 파라미터들이 후속하여 코딩된다. 주어진 오디오 품질에 대한 비트 레이트(bit rate)를 최소화하기 위하여, 관련된 정현파들만이 선택되어 인코딩될 필요가 있는데, 예를 들어 인코딩된 오디오 신호를 수용 가능한 지각 품질(acceptable perceptual quality)로 재생하기 위해 필요한 그러한 정현파들만이 선택되어 인코딩될 필요가 있다.
알. 맥올레이(R, McAulay) 및 티. 쿼티에리(T. Quartiery)의 "정현파 표현에 기초한 음성 분석/합성(Speech analysis/synthesis based on sinusoidal representation.)", 음향학, 음성 및 신호 처리에 대한 IEEE 회보(IEEE transactions on Acoustics, Speech and Signal Processing), 1986, 43:744-754는 피크-픽킹(peak-picking)이라 칭하는 정현파를 선택하는 방법을 개시한다. 피크-픽킹 방법은 진폭 스펙트럼에서 피크를 갖는 그러한 주파수들의 선택을 포함한다. 정현파들을 선택하는 다른 방법은 알. 호이스덴스(R. Heusdens) 및 에스. 반 데 파르(S. van de Par)로부터의 논문 "정신음향적인 정합 추적들을 이용한 오디오 및 음성의 비율-왜곡 최적 정현파 모델링(Rate-distortion optimal sinusodial modeling of audio and speech using psychoacoustical matching pursuits)", 음향. 음성 및 신호에 관한 IEEE 국제 컨퍼런스 회보(Proc. IEEE Int. Conf. Acoust. Speech and signal Proc.), 올랜도(미국)(Orlando(USA)), 2002에 의해 개시된 바와 같은 정합 추적(matching pursuit)이라 칭하는 반복 처리이다. 모든 반복마다, 진폭 스펙트럼에서 최대 피크를 갖는 주파수가 선택되고 나서, 신호로부터 감산된다. 나머지 신호가 다음 반복에서 사용된다. 상기 처리는 통상적으로 고정된 수의 정현파들이 선택될 때 중단된다.
피크-픽킹 방법(peak-picking method)으로 인한 문제점은 모든 피크들이 선택되기 때문에, 얼마나 많은 정현파들이 평가되는지가 미리 알려지지 않는다는 것이다. 특히, 진폭 스펙트럼이 잡음이 있을때, 너무 많은 정현파들이 선택된다. 피크-픽킹과 대조적으로, 정합 추적에서는 선택된 정현파들의 수가 고정된다. 결과적으로, 모든 관련 정현파들이 선택된다는 것을 보장하기 위하여, 이 고정된 수는 높게 설정되어야 한다. 또 다시, 너무 많은 정현파들이 선택될 것이다. 너무 많은 정현파들의 선택은, 모든 이들 정현파들이 인코딩되어야만 하기 때문에, 비트 레이트가 높아진다. 다른 단점은 처리시에 추가 비용이 든다는 것이다. 예를 들어, 지각 모델링(perceptual modeling)은 인간의 귀에 의해 들릴 수 있는 단지 그 부분의 오디오 신호만을 인코딩하기 위하여 많은 오디오 인코더들에서 사용된 처리이다. 이 모델링은 고가의 처리일 수 있고, 결과적으로, 복수의 정현파들이 분석되어야만 한다는 것은 바람직하지 않다.
본 발명의 목적은 주어진 오디오 품질을 위한 비트-레이트에 대하여 유용한 오디오 인코딩을 제공하는 것이다. 이를 위하여, 본 발명은 독립 청구항들에 정의된 바와 같은 인코딩 방법, 오디오 인코더 및 오디오 시스템을 제공한다. 유용한 실시예들은 종속 청구항들에서 정의된다.
본 발명의 제 1 특징은 오디오 신호의 적어도 일부를 복수의 정현파들로 나타냄으로써 상기 오디오 신호를 인코딩하는 방법을 제공하며, 상기 방법은 오디오 신호의 제 1 세그먼트에 대하여 분석을 수행하는 단계, 상기 분석들에 기초하여 후보 정현파들을 선택하는 단계, 후보 정현파들중 적어도 하나에 대하여, 상기 후보 정현파의 주파수 주위의 로컬 주파수 대역을 규정하는 단계, 상기 로컬 주파수 대역 내의 후보자 정현파들중 적어도 하나가 배제되는 상기 로컬 주파수 대역 내의 주파수 성분들의 진폭들을 조합하는 단계, 및 진폭들의 조합에 의존하여 상기 후보 정현파를 선택된 정현파들로서 선택하는 단계를 포함한다. 후보 정현파들을 선택하는 상기 분석은 통상적으로 주파수 분석일 것이다. 이와같은 주파수 분석은 예를 들어, 피크-픽킹 또는 정합 추적과 같은 종래의 정현파 선택 기술에서 사용된다. 상기 후보 정현파들에 적용된 선택 과정에 대하여, 오디오 신호의 제 2 세그먼트에 대하여 분석이 수행된다. 통상적으로, 제 2 세그먼트는 후보 정현파들의 선택에서 사용된 제 1 세그먼트와 동일하지만, 반드시 이와 같을 필요는 없다. 상기 로컬 주파수 대역 내의 후보 정현파들중 적어도 하나가 배제되는 상기 로컬 주파수 대역 내의 주파수 성분들의 진폭들을 조합함으로써, 상기 후보 정현파의 로컬 주파수 대역 내의 배경 주파수 성분에 대한 측정치가 얻어진다. 이 측정치를 사용함으로써, 보다 양호한 선택이 행해진다. 단지 선택된 정현파들만이 인코딩된다. 결과적으로, 선택 과정은 주어진 오디오 품질을 위하여 보다 적은 수의 정현파들이 인코딩되도록 할 것이며, 이것은 주어진 오디오 품질을 위한 비트-레이트의 면에서 유용하다.
본 발명의 부가의 특징에 따르면, 상기 후보 정현파의 주파수 주위의 상기 로컬 주파수 대역의 대역폭은 상기 후보 정현파의 주파수에 의존하여 규정된다. 상기 후보 정현파의 주파수에 대한 상기 의존 때문에, 상기 선택 과정은 상이한 주파수들에 대하여 적절하게 조정될 수 있다.
본 발명의 더 부가의 특징에 따르면, 상기 후보 정현파의 주파수에 대한 상기 의존은 인간의 오디오 지각에 기초한다. 이와같은 의존의 일례는 바크 대역폭(Bark bandwidth)에 의해 규정된다. 바크는 지각 주파수의 단위이며, 종래 기술에 알려져 있다. 다른 예들은 멜 스케일(Mel scale) 및 ERB 스케일이며, 이것들 또한 종래 기술에 알려져 있다. 인간의 오디오 지각을 고려함으로써, 후보 정현파를 선택된 정현파로서 선택하는 보다 양호한 판정이 행해진다.
본 발명의 실시예에서, 상기 후보 정현파의 진폭이 상기 진폭들의 조합과 관련하여 중요할 때, 상기 후보 정현파가 선택된 정현파로서 선택되며, 그 중요성은 상기 후보 정현파의 진폭과, 상기 로컬 주파수 대역 내의 후보 정현파들중 적어도 하나가 배제되는 상기 후보 정현파의 로컬 주파수 대역 내의 주파수 성분들의 가중된 평균 진폭 사이의 차에 대해 문턱치를 설정함으로써 평가된다. 상기 차에 대해 문턱치를 설정함으로써, 후보 정현파의 피크니스(peakiness)를 결정하는 적절한 방법이 얻어진다.
본 발명의 부가의 실시예에서, 상기 후보 정현파의 진폭의 상기 중요성은 상기 후보 정현파의 진폭과, 상기 로컬 주파수 대역 내의 후보 정현파들중 적어도 하나가 배제되는 상기 후보 정현파의 로컬 주파수 대역 내의 주파수 성분들의 가중된 평균 진폭 사이의 차, 및 상기 로컬 주파수 대역 내의 후보 정현파들중 적어도 하나가 배제되는 상기 로컬 주파수 대역 내의 주파수 성분들의 진폭들의 가중된 편차의 비에 대해 문턱치를 설정함으로써 평가된다. 상기 편차에 대하여, 예를 들어, 표준 편차의 정의가 사용될 수 있다. 상기 비에 대해 문턱치를 설정함으로써, 후보 정현파의 피크니스를 결정하는 다른 적절한 방법이 얻어진다.
본 발명의 더 부가의 실시예에서, 선택된 정현파들에 대해 부가의 선택 과정이 적용된다. 이 부가의 선택 과정은 선택된 정현파들중 적어도 하나에 대하여, 소정의 시점에서의 상기 선택된 정현파의 위상이 다른 시점에 결정되는 상기 선택된 정현파의 위상으로부터 예측될 수 있는 정도로 규정되는 위상 일치성(phase consistency)을 결정하는 단계, 및 그 위상 일치성이 미리 결정된 문턱값보다 높을 때, 상기 선택된 정현파를 부가의 선택 정현파로서 선택하는 단계를 포함한다. 소정의 시점에서의 상기 선택된 정현파의 위상은 예측 시간과 결정 시간 사이의 시간차와 그 주파수가 알려질 때, 다른 시점에 결정되는 상기 선택된 정현파의 위상으로부터 예측될 수 있다. 본 발명은 정현파들이 인코딩된 오디오 신호를 재생시키기 위하여 디코더에서 합성될 때, 정현파의 위상들이 일치될 것이라는 견해를 토대로 한다. 위상들이 일치되는 인코딩용의 그러한 정현파들을 선택함으로써, 보다 양호한 선택이 행해진다. 부가의 선택은 그 진폭과 관계없는 정현파의 위상을 토대로 한다. 결과적으로, 부가의 선택은 이전의 선택 과정에 의해 선택되는 선택 정현파들의 수에 비하여 부가의 선택 정현파의 수를 더 감소시킬 수 있다. 단지 부가의 선택 정현파들만이 인코딩될 것이다. 결과적으로, 부가의인 선택 과정으로 인해, 주어진 오디오 품질을 위해 인코딩될 정현파들의 수가 더 작아질 것이며, 이것은 주어진 오디오 품질을 위한 비트-레이트의 면에서 유용하다. 진폭들에 기초한 선택 과정과 위상 일치성에 기초한 부가의 선택 과정 사이의 독립성 때문에, 양 선택 과정들을 병행할 수 있다. 그리고 나서, 양 선택 과정들이 후보 정현파들로부터 선택을 행한 후에, 그 결과가 조합될 수 있다.
본 발명의 더 부가의 실시예에서, 상기 선택된 정현파의 위상 일치성은 오디오 신호의 제 3 세그먼트를 적어도 제 1 및 제 2 부분으로 분할하고, 적어도 제 1 및 제 2 부분에서 상기 선택된 정현파의 실제 위상을 결정하고, 제 2 부분에서의 실제 위상을 예측하기 위한 입력으로서 기능하도록 제 1 부분의 실제 위상을 사용하고, 실제 위상과 제 2 부분의 예측된 위상 사이의 예측 에러에 기초하여 상기 선택된 정현파의 위상 일치성을 결정함으로써 결정된다. 통상적으로, 제 3 세그먼트는 이전 선택 과정에서 사용된 제 2 세그먼트와 동일하지만, 반드시 이와 같을 필요는 없다. 본 실시예의 장점은 상기 선택된 정현파의 실제 위상이 그 분석을 위하여 오디오 신호의 일부가 입력으로서 필요로 되는 FFT 과정와 같은 주파수 분석을 수행함으로써 용이하게 결정될 수 있다는 것이다.
본 발명의 상술된 특징 및 다른 특징들이 이하에 서술된 실시예들로부터 명백해질 것이며, 상기 실시예들을 참조하여 설명될 것이다.
도 1은 본 발명에 따른 오디오 인코더의 실시예를 도시한 도면.
도 2는 본 발명에 따른 후보 정현파들에 적용된 선택 과정을 나타내는 블럭도를 도시한 도면.
도 3은 선택된 정현파들의 위상 일치성을 결정하기 위하여 오디오 세그먼트를 보다 작은 부분으로 분할하는 예를 도시한 도면.
도 4는 본 발명에 따른 오디오 시스템의 실시예를 도시한 도면.
도면은 본 발명을 이해하는데 필요한 그러한 요소들만을 도시하고 있다.
도 1은 입력 오디오 신호(x(t))를 얻기 위한 입력 유닛(10)을 포함하는 본 발명에 따른 오디오 인코더(1)의 실시예를 도시한 것이다. 오디오 인코더(1)는 입력 신호를 세 가지 성분들: 과도 신호 성분들, 정현파 신호 성분들 및 잡음 신호 성분들로 분할한다. 오디오 인코더(1)는 과도 인코더(11), 정현파 인코더(12) 및 잡음 분석기(13)를 포함한다.
과도 인코더(11)는 과도 검출기(TD)(110), 과도 분석기(TA)(111) 및 과도 합성기(transient synthesizer)(TS)(112)를 포함한다. 우선, 신호(x(t))는 과도 검출기(110), 과도 분석기(111) 및 감산기(15)에 진입한다. 과도 검출기(110)는 과도 신호 성분이 존재하는지와 어디에 위치하는지를 평가한다. 이 정보는 과도 분석기(111)에 공급된다. 이 정보는 또한 유용한 신호-유도 분할을 달성하기 위하여 정현파 분석기(SA)(120) 또는 잡음 분석기(NA)(13)에서 사용될 수 있다. 과도 분석기(111)는 과도 신호 성분(의 주요 부분)을 추출하는 것을 시도한다. 이것은 예를 들어, 형상 함수를 사인 세그먼트와 정합시키고 형상 함수 아래의 콘텐츠, 가령, (작은) 수의 정현파들을 결정함으로써 행해진다. 이 정보는 과도 코드(CT) 내에 포함된다. 과도 코드(CT)는 과도 합성기(112) 및 멀티플렉서(14)에 제공된다. 합성된 과도 신호 성분은 감산기(15)에서 입력 신호(x(t))로부터 감산되어, 정현파 분석기(120) 및 부가의 감산기(16)에 제공되는 신호(x1)가 된다. 정현파 분석기(120)는 정현파 신호 성분들을 결정한다. 이 정보는 정현파 분석기(SS)(121) 및 멀티플렉서(14)에 제공되는 정현파 코드(CS) 내에 포함된다. 정현파 코드(CS)로부터, 정현파 신호 성분들은 정현파 합성기(121)에 의해 재구성된다. 이 신호는 감산기(16)에서 입력 신호(x1)로부터 감산된다. 남아있는 신호(x2)는 (큰) 과도 신호 성분들 및 (주요) 정현파 신호 성분들이 없으므로, 주로 잡음으로 이루어진다고 가정된다. 결과적으로, 신호(x2)는 잡음이 자신의 스펙트럼 및 시간 인벨롭(spectral and temporal envelope)에 대해 분석되는 잡음 분석기(13)에 제공된다. 이 정보는 잡음 코드(CN) 내에 포함된다. 멀티플렉서(14)에서, 코드(CT,CS 및 CN)를 포함하는 오디오 스트림(AS)이 구성된다. 오디오 스트림(AS)은 예를 들어, 데이터 버스, 안테나 시스템, 저장 매체 등에 제공된다.
다음에서, 본 발명의 실시예에 따른 정현파 분석기(120)에서의 정현파들의 선택이 논의될 것이다. 단지 적은 수의 정현파들이 분석될 때, 실제로 거의 행해지지는 않지만, 과도 분석기(11)에서 정현파 선택 과정을 사용할 수 있다. 정현파의 실제 선택이 수행되기 전에, 우선 다수의 후보 정현파들이 선택된다. 오디오 신호의 제 1 세그먼트에 대한 분석이 수행되며, 이 분석으로부터 후보 정현파들이 선택된다. 이 선택은 예를 들어, 제 1 세그먼트에 대한 주파수 분석을 사용하는 피크-픽킹 또는 정합 추적과 같은 종래의 기술에 의해 수행될 수 있다. 그 결과는 더 특정한 정현파 선택 과정에 적절한 다수의 후보 정현파들일 것이다. 도 2는 본 발명에 따른 후보 정현파들에 적용된 선택 과정을 나타내는 블럭도이다. 이러한 후보 정현파들의 주파수들은 Fq=(f1,f2,...,fR)에 후보 정현파들의 수(R) 및 헤르츠(Hz)로 규정된 주파수(fi)로 저장된다. 제 2 세그먼트는 주파수 분석에 적절하게 윈도우될 수 있고, 이것은 윈도우된 세그먼트(windowed segment)(xw)를 발생시킨다. 제 2 세그먼트는 통상적으로 후보 정현파들의 선택에서 사용된 제 1 세그먼트와 동일하지만, 상이한 제 2 세그먼트가 또한 사용될 수 있다. 우선, 전처리 단계(PP)가 수행된다. (I)에서, Fq로부터의 각각의 주파수(fi)에 대하여, 후보 정현파는 합성되고 윈도우된 세그먼트(xw)로부터 감산된다. (II)에서, 결과적인 세그먼트(xws)는 길이(P)로 제로-패드(zero-pad)되고 예를 들어, FFT 과정에 의해 자신의 주파수 성분에 대해 분석된다. 결과적인 진폭 스펙트럼은 |Xs|로 표시된다. 다음으로, (III)에서, 세그먼트(xw)는 길이(P)로 제로-패드되고 진폭 스펙트럼 |X|을 발생시키는 주파수들을 감산함이 없이 자신의 주파수 성분들에 대해 분석된다. 전처리 단계 이후에, 선택 과정은 (IV)에 의해 초기화된 Fq로부터 주파수(fi)를 가지는 선택된 정현파들중 적어도 하나에 대하여 시작된다. (V)에서, 로컬 주파수 대역은 상기 주파수(fi) 주위에서 결정된다. 로컬 주파수 대역을 규정하기 위하여, 상이한 규정가 사용될 수 있다. 이 경우에, 가령, 임계 대역폭,
Figure 112005032129129-pct00001
에 의해 규정된 바크 대역폭을 사용하는 것이 선택된다. 헤르츠(Hz)로 규정된 임계 대역폭(b(fi))으로부터, 경계 주파수들(fa 및 fb)은,
Figure 112005032129129-pct00002
에 의해 결정된다. 스펙트럼은,
Figure 112005032129129-pct00003
에 따라서 주파수(fspect)와 관련하여 0에서 (P-1)까지 진행하는 인덱스(ispect)로 인덱싱되며, 여기서 Fs는 샘플링 주파수(가령, 44.1kHz)이다. 결과적으로, 경계 주파수들(fa 및 fb)에 대응하는 스펙트럼에서의 인덱스들(ia 및 ib)은,
Figure 112005032129129-pct00004
에 의해 결정된다. 여기서, round(r)은 가장 가까운 정수에 대한 r의 라운딩을 나타낸다. 로컬 주파수 대역이 규정된 이상, 후보 정현파의 주파수 대역(
Figure 112008079963040-pct00005
)의 평균값은,
Figure 112005032129129-pct00006
에 의해 |Xs|로부터 (VI)에서 계산되며, 여기서 As(k)는 인덱스(k)에서 진폭 스펙트럼(|Xs|)의 주파수 성분의 진폭이며, Wl(k)는 인덱스(k)에 따른 가중 팩터이다. 가중 팩터는 모든 k에 대하여 상수일 수 있다. 그러나, 가중 팩터는 또한 예를 들어, 경계 효과를 감소시키기 위하여 경계 주파수 인덱스들(ia 및 ib)중 하나에 보다 가까운 인덱스(k)에 대하여 감소할 수 있다. 후보 정현파는 자신의 로컬 주파수 대역 내의 다른 진폭들에 따라 선택된 정현파로서 선택될 것이다. 그러므로, 후보 정현파를 선택된 정현파로 선택하는 방법은 (5)에서 계산된 바와 같은 후보 정현파의 주파수 대역(
Figure 112008079963040-pct00007
)의 가중된 평균 진폭 및 진폭 스펙트럼에서의 그 인덱스(ifi)가,
Figure 112005032129129-pct00008
에 의해 결정될 수 있는 후보 정현파(Ai=A(ifi))을 토대로 한 기준을 사용하는 것이다.
본 발명의 부가의 실시예에서, 선택 과정에서 사용된 기준은,
Figure 112005032129129-pct00009
에 의해 (VI)에서 계산되는 후보 정현파의 로컬 주파수 대역의 표준 편차(σi)를 또한 포함한다. 여기서, W2(k)는 인덱스(k)에 따른 부가의 가중 팩터이다. 부가의 가중 팩터는 모든 k에 대하여 상수일 수 있다. 그러나, 부가의 가중 팩터는 또한 예를 들어, 경계 효과를 감소시키기 위하여 경계 주파수 인덱스들(ia 및 ib)중 하나에 보다 가까운 인덱스(k)에 대하여 감소할 수 있다. W2(k)는 (5)에서 사용된 W1(k)와 동일하게 선택될 수 있지만, 반드시 dl와 같을 필요는 없다. 후보 정현파(Ai)의 진폭으로부터, 후보 정현파의 주파수 대역의 평균 진폭(σi) 및 표준 편차(
Figure 112008079963040-pct00010
), 후보 정현파의 피크니스에 대한 측정치인 비율(ri)이 규정될 수 있다:
Figure 112005032129129-pct00011
선택 기준(VIII)에서, 이 비율(ri)은 문턱값(Ti)과 비교된다. 문턱값(Ti)은 예를 들어, 고정된 문턱값 또는 후보 정현파의 주파수(fi), 주파수 스펙트럼에서의 주파수의 인덱스(ifi) 및/또는 주파수 분석에 사용된 샘플들의 수(P)와 같은 임의의 파라미터들에 따른 문턱값일 수 있다. 문턱값(Ti)에 대한 규정의 일례는,
Figure 112005032129129-pct00012
이다.
비율(ri)이 문턱값(Ti)보다 위에 있는 경우, 주파수(fi)의 후보 정현파는 인코딩을 위해 유지된다(S). 그렇지 않은 경우, 후보 정현파는 거절된다(NS).
본 발명의 더 부가의 실시예에서, 선택된 정현파들의 부가의 선택이 수행된다. 그러므로, 이전 선택 과정을 토대로 한 선택된 정현파들의 주파수들은 F=(f1,f2,...,fL)에 선택된 정현파들의 수(L) 및 헤르츠(Hz)로 규정된 주파수(fi)로 저장된다. 선택된 정현파들중 적어도 하나에 대하여, 선택된 정현파의 위상 일치성을 토대로 하는 부가의 선택 과정이 적용될 것이다. 선택된 정현파의 위상 일치성은 소정의 시점에서의 상기 선택된 정현파의 위상이 다른 시점에서 결정되는 상기 선택된 정현파의 위상으로부터 예측될 수 있는 정도로 규정된다. 다음으로, 상기 선택된 정현파는 상기 위상 일치성이 미리 결정된 문턱값보다보다 높을 때, 부가의 선택된 정현파로 선택된다.
본 발명의 더 부가의 실시예에서, 선택된 정현파의 위상 일치성은 우선 오디오 신호의 제 3 세그먼트를 보다 작은 부분들로 분할함으로써 결정된다. 이 제 3 세그먼트는 통상적으로 이전 선택 과정에서 사용된 제 2 세그먼트와 동일하지만, 상이한 제 3 세그먼트가 사용될 수 있다. 두 개 또는 그 이상의 보다 작은 부분들은 선택된 정현파의 위상 일치성을 결정하는데 사용 가능해야만 한다. 보다 작은 부분들은 서로 중첩될 수 있지만, 반드시 이와 같을 필요는 없다. 제 3 세그먼트(xs)는 예를 들어, 도 3에 도시된 바와 같이 세 개의 중첩하는 보다 작은 부분들로 분할될 수 있다. N이 제 3 세그먼트(xs)의 샘플들의 수이고 N이 짝수인 경우, 보다 작은 부분들은,
Figure 112005032129129-pct00013
으로 규정되며, 여기서, M=N/2이고 1≤k≤M이다. 보다 작은 부분들(xs1, xs2 및 xs3)은 각각 길이 M을 갖는다. 각각의 이러한 보다 작은 부분들에 대하여, F로부터 주파수(fi)를 가지는 선택된 정현파의 실제 위상들이 결정된다. 이 목적을 위하여, 보다 작은 부분들은 주파수 분석에 적절하게 윈도우될 수 있고, 그 이후에, FFT와 같은 주파수 분석이 수행될 수 있다. 위상 결정을 위한 위치들의 일례가 도 3에 φ1, φ2, φ3로 도시되어 있다. 다음으로, 위상들이 예측될 수 있는데, 이 경우에, 보다 작은 부분 1에서 2로, 2에서 3으로 및 1에서 3으로 예측될 수 있다. 실제와 예측 위상들 사이의 차들은 선택된 정현파에 대한 다음 예측 에러들을 발생시키고,
Figure 112005032129129-pct00014
여기서, 예측 에러들은 모듈로 센스(mod(2π)) 내에 있고, 위상들(φ1, φ2 및 φ3)은 라디안으로 제공되고, T는 초로 제공되고 T=M/Fs로 규정된다. 이러한 예측 에러들(E)을 토대로 한 임의의 기준을 사용하여, 선택된 정현파는 부가의 선택된 정현파로 더 선택될 수 있다. 가능한 기준은 다음의 조건들중 적어도 하나가 참인 경우의 테스트일 수 있고,
Figure 112005032129129-pct00015
여기서, c는 통상적으로 제 3 세그먼트(xs)의 샘플들의 수(N) 및 보다 작은 부분들(xs1, xs2 및 xs3)의 샘플들의 수(M)에 따른다. C에 대한 규정의 일례는
Figure 112005032129129-pct00016
이다.
도 4는 도 1에 도시된 바와 같은 오디오 인코더(1)를 포함하는 본 발명에 따른오디오 시스템의 실시예를 도시한 것이다. 이와 같은 시스템은 기록 및/또는 전송 특성들을 제공한다. 오디오 신호(x(t))는 오디오 플레이어, 마이크로폰 또는 오디오 입력 커넥터 등과 같은 오디오 신호 획득 장치(41)에 의하여 얻어진다. 오디 오 신호(x(t))는 도 1에 도시된 바와 같은 오디오 인코더(1)에 대한 입력의 역할을 한다. 출력 오디오 스트림(AS)은 출력 인코더(1)에서 포맷팅 유닛(42)에 제공되는데, 이 유닛은 무선 접속, 데이터 버스 또는 저장 매체일 수 있는 통신 채널(43)에 적절하게 오디오 스트림(AS)을 포맷한다. 통신 채널(43)이 저장 매체인 경우에, 저장 매체는 시스템에서 고정되거나 이동 가능한 디스크, 메모리 스틱 등일 수 있다. 통신 채널은 오디오 시스템의 부분일 수 있지만, 종종 오디오 시스템의 외부에 존재할 것이다.
상술된 실시예들이 본 발명을 제한하기 보다는, 오히려 설명하는 것이라는 것과, 당업자들이 첨부된 청구항들의 범위를 벗어나지 않고 많은 대안 실시예들을 설계할 수 있다는 것을 주의해야만 한다. 청구항들에서, 괄호 사이의 임의의 참조 부호들은 청구항을 제한하는 것으로 해석되지 않아야 한다. "포함하는"이라는 단어는 청구항에 올라간 요소들 또는 단계들과 다른 요소 또는 단계의 존재를 배제하지 않는다. 본 발명은 몇 개의 별개의 요소들을 포함하는 하드웨어, 및 적절하게 프로그래밍된 컴퓨터에 의하여 구현될 수 있다. 몇 개의 수단들을 열거한 장치 청구항에서, 몇 개의 이러한 수단들은 하나 및 동일한 항의 하드웨어로 구현될 수 있다. 서로 상이한 종속 청구항에서 특정한 방법들이 재인용된다는 단순한 사실은 이러한 방법들이 조합이 유용하게 사용될 수 없다는 것을 나타내지 않는다.
요약하면, 본 발명은 복수의 정현파들에 의하여 상기 오디오 신호의 적어도 일부를 나타냄으로써 오디오 신호를 인코딩하는 방법을 제공하며, 상기 방법은 상기 오디오 신호의 제 1 세그먼트에 대한 분석을 수행하는 단계, 상기 분석에 기초하여 후보 정현파들을 선택하는 단계, 후보 정현파들중 적어도 하나에 대하여, 상기 후보 정현파의 주파수 주의의 로컬 주파수 대역을 규정하는 단계, 상기 로컬 주파수 대역 내의 후보 정현파들중 적어도 하나가 배제되는 상기 로컬 주파수 대역 내의 주파수 성분들의 진폭들을 조합하는 단계, 및 진폭들의 조합에 따라 상기 후보 정현파를 선택된 정현파들로서 선택하는 단계를 포함한다. 본 발명에 따라 정현파들을 선택하면 주어진 오디오 품질을 위하여 보다 작은 수의 정현파들이 인코딩될 것이며, 이것은 주어진 오디오 품질을 위한 비트-레이트의 면에서 유용하다.

Claims (10)

  1. 오디오 신호의 적어도 일부를 복수의 정현파들로 나타냄으로써 상기 오디오 신호를 인코딩하는 방법으로서,
    상기 오디오 신호의 제 1 세그먼트에 대하여 분석을 수행하는 단계;
    상기 분석에 기초하여 후보 정현파들을 선택하는 단계;
    상기 후보 정현파들중 적어도 하나에 대하여, 상기 후보 정현파의 주파수 주위의 로컬 주파수 대역을 규정하는 단계;
    상기 로컬 주파수 대역 내의 상기 후보 정현파들중 적어도 하나가 배제되는 상기 로컬 주파수 대역 내의 주파수 성분들의 진폭들을 조합하는 단계; 및
    진폭들의 조합에 의존하여 상기 후보 정현파를 선택된 정현파로서 선택하는 단계를 포함하고,
    상기 후보 정현파의 진폭이 상기 진폭들의 조합에 대하여 중요할때, 상기 후보 정현파는 선택된 정현파로서 선택되며, 그 중요성은 상기 후보 정현파의 진폭과, 상기 로컬 주파수 대역 내의 상기 후보 정현파들중 적어도 하나가 배제되는 상기 후보 정현파의 로컬 주파수 대역 내의 주파수 성분들의 가중된 평균 진폭 사이의 차에 대해 문턱치를 설정함으로써 평가되는, 오디오 신호 인코딩 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 오디오 신호의 적어도 일부를 복수의 정현파들로 나타냄으로써 상기 오디오 신호를 인코딩하는 오디오 인코더로서,
    상기 오디오 신호의 제 1 세그먼트에 대하여 분석을 수행하는 수단;
    상기 분석에 기초하여 후보 정현파들을 선택하는 수단;
    상기 후보 정현파들중 적어도 하나에 대하여, 상기 후보 정현파의 주파수 주위의 로컬 주파수 대역을 규정하는 수단;
    상기 로컬 주파수 대역 내의 상기 후보 정현파들중 적어도 하나가 배제되는 상기 로컬 주파수 대역 내의 주파수 성분들의 진폭들을 조합하는 수단; 및
    진폭들의 조합에 의존하여 상기 후보 정현파를 선택된 정현파로서 선택하는 수단을 포함하고,
    상기 오디오 인코더는 상기 선택된 정현파들 중에서 부가의 선택을 행하도록 더 구상되며, 그 부가의 선택을 위하여,
    상기 선택된 정현파들중 적어도 하나에 대하여, 소정의 시점에서의 상기 선택된 정현파의 위상이 다른 시점에 결정되는 상기 선택된 정현파의 위상으로부터 예측될 수 있는 정도로 규정되는 위상 일치성을 결정하는 수단; 및
    그 위상 일치성이 미리 결정된 문턱값보다 높을 때, 상기 선택된 정현파를 부가로 선택된 정현파로서 부가로 선택하는 수단을 더 포함하는, 오디오 인코더.
  9. 삭제
  10. 삭제
KR1020057011277A 2002-12-19 2003-11-20 오디오 인코딩에서의 정현파 선택 KR101008529B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP02080420.9 2002-12-19
EP02080420 2002-12-19

Publications (2)

Publication Number Publication Date
KR20050085744A KR20050085744A (ko) 2005-08-29
KR101008529B1 true KR101008529B1 (ko) 2011-01-14

Family

ID=32668778

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057011277A KR101008529B1 (ko) 2002-12-19 2003-11-20 오디오 인코딩에서의 정현파 선택

Country Status (7)

Country Link
US (1) US20070112573A1 (ko)
EP (1) EP1576583A2 (ko)
JP (1) JP2006510938A (ko)
KR (1) KR101008529B1 (ko)
CN (1) CN100559468C (ko)
AU (1) AU2003295178A1 (ko)
WO (1) WO2004057575A2 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4351284B2 (ja) * 2004-08-05 2009-10-28 エルジー エレクトロニクス インコーポレイティド 周波数層収束方式の利用の一時停止方法
ATE547898T1 (de) 2006-12-12 2012-03-15 Fraunhofer Ges Forschung Kodierer, dekodierer und verfahren zur kodierung und dekodierung von datensegmenten zur darstellung eines zeitdomänen-datenstroms
KR101413967B1 (ko) * 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화 방법 및 복호화 방법, 및 그에 대한 기록 매체, 오디오 신호의 부호화 장치 및 복호화 장치
KR101441898B1 (ko) * 2008-02-01 2014-09-23 삼성전자주식회사 주파수 부호화 방법 및 장치와 주파수 복호화 방법 및 장치
US9055374B2 (en) * 2009-06-24 2015-06-09 Arizona Board Of Regents For And On Behalf Of Arizona State University Method and system for determining an auditory pattern of an audio segment
US9020080B2 (en) * 2011-06-16 2015-04-28 Lockheed Martin Corporation Method and system to adaptively cancel sinusoidal interference from a signal processing system
US9672833B2 (en) * 2014-02-28 2017-06-06 Google Inc. Sinusoidal interpolation across missing data

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5054072A (en) * 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
JP3134455B2 (ja) * 1992-01-29 2001-02-13 ソニー株式会社 高能率符号化装置及び方法
ES2165389T3 (es) * 1993-05-31 2002-03-16 Sony Corp Aparato y metodo para codificar o descodificar señales, y medio de grabacion.
KR100861884B1 (ko) * 2000-06-20 2008-10-09 코닌클리케 필립스 일렉트로닉스 엔.브이. 정현파 코딩 방법 및 장치
AU2003276636A1 (en) * 2002-12-19 2004-07-14 Koninklijke Philips Electronics N.V. Sinusoid selection in audio encoding

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LEVINE S. et al. "Multiresolution sinusoidal modeling for wideband audio with modifications" In : PROCEEDINGS OF IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. MAY, 1998.*
PURNHAGEN H. et al. "Sinusoidal coding using loudness-based component selection" In : PROCEEDINGS OF 2002 IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. MAY 13-17, 2002.*

Also Published As

Publication number Publication date
EP1576583A2 (en) 2005-09-21
AU2003295178A1 (en) 2004-07-14
WO2004057575A3 (en) 2004-09-30
CN1729509A (zh) 2006-02-01
AU2003295178A8 (en) 2004-07-14
WO2004057575A2 (en) 2004-07-08
KR20050085744A (ko) 2005-08-29
US20070112573A1 (en) 2007-05-17
CN100559468C (zh) 2009-11-11
JP2006510938A (ja) 2006-03-30

Similar Documents

Publication Publication Date Title
EP1141947B1 (en) Variable rate speech coding
Hardwick A 4.8 kbps multi-band excitation speech coder
US8315860B2 (en) Interoperable vocoder
US6078880A (en) Speech coding system and method including voicing cut off frequency analyzer
US6377916B1 (en) Multiband harmonic transform coder
US8612215B2 (en) Method and apparatus to extract important frequency component of audio signal and method and apparatus to encode and/or decode audio signal using the same
US6081776A (en) Speech coding system and method including adaptive finite impulse response filter
US6119082A (en) Speech coding system and method including harmonic generator having an adaptive phase off-setter
US6138092A (en) CELP speech synthesizer with epoch-adaptive harmonic generator for pitch harmonics below voicing cutoff frequency
US6094629A (en) Speech coding system and method including spectral quantizer
US20080033585A1 (en) Decimated Bisectional Pitch Refinement
EP2492911B1 (en) Audio encoding apparatus, decoding apparatus, method, circuit and program
KR20010021226A (ko) 디지털 음향 신호 부호화 장치, 디지털 음향 신호 부호화방법 및 디지털 음향 신호 부호화 프로그램을 기록한 매체
RU2368018C2 (ru) Кодирование аудиосигнала с низкой скоростью передачи битов
US7197454B2 (en) Audio coding
US20050091041A1 (en) Method and system for speech coding
McAulay et al. Mid-rate coding based on a sinusoidal representation of speech
US5839102A (en) Speech coding parameter sequence reconstruction by sequence classification and interpolation
KR101008529B1 (ko) 오디오 인코딩에서의 정현파 선택
US6115685A (en) Phase detection apparatus and method, and audio coding apparatus and method
KR20050085761A (ko) 오디오 인코딩에서의 사인곡선 선택
US20060009967A1 (en) Sinusoidal audio coding with phase updates
US20050259822A1 (en) Sinusoidal audio coding
KR20050017088A (ko) 사인 곡선 오디오 부호화

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
LAPS Lapse due to unpaid annual fee