KR100727276B1 - 개선된 인코더 및 디코더를 갖는 전송 시스템 - Google Patents

개선된 인코더 및 디코더를 갖는 전송 시스템 Download PDF

Info

Publication number
KR100727276B1
KR100727276B1 KR1020017005317A KR20017005317A KR100727276B1 KR 100727276 B1 KR100727276 B1 KR 100727276B1 KR 1020017005317 A KR1020017005317 A KR 1020017005317A KR 20017005317 A KR20017005317 A KR 20017005317A KR 100727276 B1 KR100727276 B1 KR 100727276B1
Authority
KR
South Korea
Prior art keywords
signal
segments
deriving
audio
audio signal
Prior art date
Application number
KR1020017005317A
Other languages
English (en)
Other versions
KR20010089371A (ko
Inventor
우멘아놀더스더블유제이
덴블링커알베르투스씨
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20010089371A publication Critical patent/KR20010089371A/ko
Application granted granted Critical
Publication of KR100727276B1 publication Critical patent/KR100727276B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • G10L19/0208Subband vocoders
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B14/00Transmission systems not characterised by the medium used for transmission

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

사인곡선 오디오 인코더에서, 주파수 스펙트럼의 상이한 부분들을 분석하기 위해 상이한 타임 스케일들을 사용하는 것으로 공지되어 있다. 종래 기술의 인코더에서, 서브-밴드 필터링은 입력 신호를 다수의 서브-밴드들로 분할하는데 사용된다. 입력 신호를 서브-밴드들로 분할함으로써, 2개의 서브-밴드들의 경계에서 신호 성분이 양쪽 서브-밴드 신호들에 표현되는 결과로 될 수 있다. 이러한 신호 성분들의 이중 표현은 이러한 성분들을 코딩할 때 여러 문제점을 야기할 수 있다. 본 발명에 따라서, 신호 성분들이 다중 표현들을 갖는 것을 피하기 위한 방지 수단(46, 48, 58, 68; 88, 92, 96)을 사용하도록 제안된다.
전송 시스템, 스펙트럼 추정 단위, 주파수 선택기, 방지 수단, 서브-밴드 필터링

Description

개선된 인코더 및 디코더를 갖는 전송 시스템{Transmission system with improved encoder and decoder}
본 발명은 오디오 인코더를 갖는 전송기를 포함하는 전송 시스템에 관한 것으로서, 상기 오디오 인코더는 오디오 신호를 나타내는 입력 신호로부터 적어도 제 1 신호 세그먼트들 및 제 2 세그먼트들을 유도하기 위한 세크멘팅 수단을 포함하고, 제 1 신호 세크먼트들은 제 2 신호 세그먼트들보다 길고, 오디오 인코더는 상기 제 1 및 제 2 신호 세크먼트들로부터 인코딩된 오디오 신호를 유도하기 위한 수단을 포함하고, 전송기는 전송 매체를 통해 인코딩된 오디오 신호를 수신기에 전송하기 위한 전송 수단을 포함하고, 수신기는 전송 매체로부터 인코딩된 오디오 신호를 수신하기 위한 수신 수단을 포함하고, 수신기는 인코딩된 오디오 신호로부터 디코딩된 오디오 신호를 유도하기 위한 오디오 디코더를 더 포함한다.
본 발명은 또한 전송기, 인코더, 인코딩 방법, 인코딩 방법을 수행하기 위한 컴퓨터 프로그램을 갖는 매체, 및 인코딩 방법을 수행하기 위한 컴퓨터 프로그램을 전달하는 신호에 관한 것이다.
청구항 1의 전문에 따른 전송 시스템은 미국 특허 제 5,886,276 호에 공지되어 있다.
그러한 전송 시스템들 및 오디오 인코더들은 오디오 신호들이 제한된 전송 용량을 가진 전송 매체를 통해 전송되어야 하거나 제한된 기억 용량을 가진 기억 매체에 저장되어야 하는 애플리케이션들에 사용된다. 그러한 애플리케이션들의 예들은 인터넷을 통한 오디오 신호들의 전송, 이동 전화로부터 기지국으로의 오디오 신호들의 전송 및 그 반대의 경우, 및 CD-ROM, 반도체 기억 장치 또는 하드 디스크 드라이브에 오디오 신호들을 저장하는 것이다.
오디오 인코더들의 상이한 동작 이론들은 최적의 비트 전송 속도로 양질의 음질을 얻으려고 노력해왔다. 이러한 동작 방법들 중 하나는, 전송될 오디오 신호가 통상 복수의 10 내지 20 ms의 고정된 길이를 가진 복수의 세그먼트들로 분할된는 것이다. 상기 세크먼트들의 각각에서, 오디오 신호는 진폭들, 주파수들, 및 혹은 위상들에 의해 정의된 사인곡선들일 수 있는 복수의 신호 성분들에 의해 표현된다.
전송기는 신호 성분들의 진폭들 및 주파수들의 표현을 수신기에 전송한다. 전송기에 의해 수행된 동작들은 채널 코딩, 인터리빙(interleaving), 및 변조(modulation)를 포함할 수 있다.
수신 수단은 전송 채널로부터 오디오 신호를 표현하는 신호를 수신하고 복조(demodulation), 디인터리빙(de-interleaving), 및 채널 디코딩과 같은 동작들을 수행한다. 디코더는 수신 수단으로부터 오디오 신호의 표현을 획득하고 인코딩된 신호에 의해 기술된 복수의 사인곡선들을 발생시키고 사인곡선들을 출력 신호에 조합시킴으로써 재현된 오디오 신호를 유도한다.
이들 오디오 인코더들에 관한 문제는 신호 세그먼트들에 대한 적당한 길이(시간 단위임)를 선택하는 것이다. 신호 세그먼트들이 길다면, 신호 성분들의 결정(determination)에 대한 좋은 주파수 분해능(frequency resolution)은 가능하나, 제한된 시간 분해능의 결과로서, 프리 에코(pre-echo)라는 현상이 발생할 수 있다. 프리 에코들은 갑작스런 오디오 신호와 같은 사건이 그 사건의 실질적인 발생전에 이미 들을수 있을 때 발생한다. 신호 세그먼트들이 짧다면 프리 에코와 같은 문제는 발생하지 않으나, 낮은 주파수들을 가진 신호 성분들의 결정에 대한 주파수 분해능은 급격하게 감소된다.
이것을 개선하기 위해, 위의 미국 특허에서 입력 신호는 서브-밴드 필터(sub-band filter)에 의해 다수의 서브 밴드들로 분할되고, 서브 밴드들의 각각에 대해 신호 세그먼트들의 상이한 길이가 선택된다. 신호 세그먼트들의 길이는 대응하는 서브-밴드의 주파수 범위에 반비례하여 선택된다.
이러한 접근법의 문제점은 서브-밴드 필터의 트랜지션 밴드(transition band) 주위에 위치한 신호 성분들에 대한 인코딩 품질이 다른 신호 성분들보다 낮다라는 것이다.
본 발명의 목적은 위의 문제가 해결되는 전문(preamble)에 따른 전송 시스템을 제공하는 것이다.
위의 목적을 달성하기 위해, 본 발명에 따른 전송 시스템은, 인코딩 수단이 인코딩된 오디오 신호에서 단일 신호 성분의 다중 표현들이 발생하는 것을 방지하기 위한 방지 수단을 포함하는 것을 특징으로 한다.
본 발명은 종래 기술에 의한 시스템에서 서브-밴드 필터의 트랜지션 밴드들에서의 주파수들이 입력 신호의 동일 신호 성분에 관한 다중 표현들을 이끌어낸다는 인식에 기초한다. 이러한 다중 표현들은 심리 음향 모델(psycho-acoustical model)이 전송될 신호 성분들을 결정하는데 사용될 때에는 바람직하지 않다. 더욱이 인코딩된 신호에서 두번 표현된 신호 성분을 다시 모으는 것은 어렵다. 다중 표현들은 또한 신호 성분의 다중 표현이 없는 것보다 큰 비트 전송 속도를 가져온다.
단일 신호 성분의 이러한 다중 표현들을 방지하거나 억제시키기 위한 방지 수단을 사용함으로써, 관련된 문제들이 또한 제거된다.
본 발명의 실시예에서, 방지 수단은 상기 제 1 신호 세그먼트들을 표현하는 인코딩된 오디오 신호의 일부로부터 합성 오디오 신호를 유도하기 위한 합성 수단과 입력 신호를 표현하는 신호로부터 합성 오디오 신호를 감산함으로서 제 2 신호 세그먼트들을 유도하기 위한 감산 수단을 포함한다. 제 2 신호 세그먼트들을 얻기 위해 오디오 신호를 표현하는 신호로부터 제 1 신호 세그먼트들을 표현하는 합성 오디오 신호를 감산함으로써, 제 1 신호 세그먼트들로부터 결정된 신호 성분들이 오디오 신호를 표현하는 상기 신호로부터 제거되는 것이 실현된다. 따라서, 이러한 신호 성분들은 제 2 신호 세그먼트들에 존재하지 않거나 매우 감소된다. 이러한 방식으로 상기 단일 신호 성분들의 다중 표현들을 피할 수 있다.
본 발명의 다른 실시예에서, 세그먼팅 수단은 입력 신호로부터 다른(futher) 신호 세그먼트들을 유도하기 위해 구성되고, 상기 다른 신호 세그먼트들은 제 1 신호 세그먼트들보다 길고, 오디오 인코더는 또한 다른 신호 세그먼트들에 기초하여 인코딩된 오디오 신호를 유도하기 위해 구성되고, 오디오 인코더는 상기 다른 신호 세그먼트들을 표현하는 인코딩된 오디오 신호의 일부로부터 다른 합성 신호를 유도하기 위한 합성 수단과 입력 신호를 표현하는 신호로부터 다른 합성 오디오 신호를 감산함으로써 제 1 신호 세그먼트들을 유도하기 위한 감산 수단을 포함한다. 적어도 3개의 상이한 길이들을 가진 연속한 세그먼트들을 사용하는 것이 유리하다는 것은 실험에 의해 알려져 있으며, 이는 세그먼트에서 주기들의 수가 너무 크거나 너무 작지 않을 수 있기 때문이다.
본 발명의 다른 실시예에서, 오디오 인코더는 입력 신호로부터 필터링된 신호를 유도하기 위한 필터를 포함하고, 오디오 인코더는 필터링된 신호로부터 제 1 신호 세그먼트들을 유도하기 위해 구성된다. 입력 신호를 필터링함으로써 잔류 신호 성분들의 결정을 더 신뢰할 수 있게 하여 상기 입력 신호로부터 일부 신호 성분들을 제거하는 것이 가능하다. 제 1 신호 세그먼트들에 더 이상 존재하지 않는 신호 성분들은 그들이 결정되는 제 2(또는 다른) 신호 세그먼트들에는 존재한다. 따라서, 출력 신호의 완전한 기술이 얻어진다.
본 발명의 또 다른 실시예는 코딩 수단이 심리 음향 관련 스케일(psycho- acoustical relevant scale)로 진폭들을 표현하도록 구성되는 것을 특징으로 한다. 진폭을 표현하기 위해 심리 음향 관련 스케일을 사용하는 것은 전송 채널의 보다 효과적인 사용의 결과로 되며, 이는 보다 적은 심벌들이 소정의 다이나믹 범위로 신호를 표현하기 위해 필요하기 때문이다. 이러한 심리 음향 관련 스케일은 예를 들면, 로그 스케일(logarithmic scale)일 수 있다.
본 발명은 첨부 도면들을 참조하여 이제 기술될 것이다.
도 1은 본 발명이 사용될 수 있는 전송 시스템을 도시하는 도면.
도 2는 도 1에 따른 전송 시스템에 사용되는 본 발명에 따른 사인곡선에 대한 분석 유닛(8)을 도시하는 도면.
도 3은 도 2에 따른 분석 유닛(8)에 사용된 신호 세그먼트들을 도시하는 도면.
도 4는 도 1에 따른 전송 시스템에 사용되는 본 발명에 따른 잡음 분석기(noise analyzer; 14)를 도시한 도면.
도 1에 따른 전송 시스템에서, 전송되는 오디오 신호는 전송기(2)의 입력에 인가된다. 전송기(2)에서, 입력 신호는 오디오 인코더(4)에 인가된다. 오디오 인코더(4)에서, 입력 신호는 감산기(12)의 제 1 입력 및 분석 유닛(8)의 입력에 인가된다. 분석 유닛(8)은 입력 신호에 존재하는 사인파 신호 성분들의 진폭들, 위상들, 및 주파수들을 결정한다.
사인파 신호 성분들의 진폭들, 위상들, 및 주파수들을 표현하는 출력 신호를 운반하는 분석 유닛(8)의 출력은 합성기(10)의 입력과 멀티플렉서(16)의 입력에 접속된다. 합성기(synthesizer)는 분석 유닛(8)으로부터 수신된 진폭들, 위상들, 및 주파수들에 기초하여 복수의 사인곡선들로 이루어진 합성 오디오 신호를 발생시킨다.
합성 오디오 신호를 전달하는 합성기(10)의 출력은 감산기(12)의 제 2 입력에 인가된다. 이 감산기(12)는 입력 신호로부터 합성기(10)에 의해 발생된 합성 오디오 신호를 감산한다.
감산기(12)의 출력 신호는 잡음 분석기(14)에 인가된다. 이 잡음 분석기(14)는 그 입력에서의 잡음 신호의 스펙트럼을 결정한다. 상기 잡음 스펙트럼의 표현은 멀티플렉서(16)에 인가된다. 멀티플렉서(16)는 분석기(8) 및 잡음 분석기(14)로부터의 신호들을 조합된 신호로 조합한다.
양호하게는 멀티플렉서(16)는 분석기(8)에 의해 결정된 어떤 신호 성분들이 지각적으로 적절한지 결정하기 위해 심리 음향 모델을 사용한다. 이러한 지각적으로 적절한 신호 성분들만이 전송된다. 지각적으로 적절한 신호 성분들을 결정하기 위해 심리 음향 모델의 사용하는 것은 주파수 영역 인코더들에서 일반적으로 사용되고, 따라서 기술분야에서 숙련된 자들에게는 널리 공지되어 있다.
멀티플렉서(16)의 출력 신호는 오디오 인코더(4)의 출력 신호를 구성한다. 오디오 인코더(4)의 이러한 출력은 전송 유닛(6)의 입력에 접속되고, 이 전송 유닛(6)은 전송 매체(3)를 통해 수신기(24)에 전송하는데 적절한 신호를 발생시킨다. 전송 유닛(6)은 채널 코딩, 인터리빙, 및 변조와 같은 동작들을 수행한다.
전송 매체(3)로부터의 신호는 수신기(24)의 수신 유닛(18)에 인가된다. 수신 유닛(18)은 복조, 디인터리빙, 및 채널 디코딩과 같은 동작들을 수행한다.
수신 유닛(18)의 출력은 오디오 디코더(22)의 입력에 접속된다. 오디오 디코더(22)에서, 수신 유닛으로부터의 신호는 디멀티플렉서(20)에 인가되고, 이 디멀티플렉서(20)는 분석기(8)에 의해 결정된 사인파 신호 성분들을 표현하는 제 1 신호 및 분석기(14)에 의해 결정된 잡음 스펙트럼을 표현하는 제 2 신호를 제공한다.
제 1 신호는 제 1 신호로부터 합성 신호를 유도하는 사인파 합성기(26)에 인가된다. 합성기(26)는 인코더(4)에 사용된 합성기(10)와 유사하다. 제 2 신호는 제 2 신호에 의해 정의된 스펙트럼으로 잡음 신호를 발생시키는 잡음 합성기(28)에 인가된다. 이것은 랜덤한 위상들이 스펙트럼 성분들에 할당된 수신된 스펙트럼에 IFFT를 수행함으로서 행해질 수 있다. 사인곡선 합성기(26) 및 잡음 합성기(28)의 출력 신호들은 입력 오디오 신호의 복사(replica)를 얻기 위해 가산기(30)에 의해 가산된다.
도 2 에 따른 분석기(8)에서, 입력 신호는 세크멘테이션 유닛(42) 및 저역 통과 필터(30)의 입력에 인가된다. 세크멘테이션 유닛(42)은 입력 신호부터 360개의 샘플들을 포함하는 세그먼트들을 선택한다. 입력 신호의 44.1 kHz의 샘플링 속도는 8.16 ms의 분석 주기에 해당한다.
저역 통과 필터(30)의 출력은 인자 3만큼 샘플 속도를 감소시키는 데시메이터(decimator)(32)의 입력에 접속된다. 저역 통과 필터(30)는 안티-에일리어싱(anti-aliasing)을 제공하고 500 Hz의 차단 주파수를 가진다. 이 차단 주파수는 안티 에일리어싱에 대해 필요한 것보다 실질적으로 낮으나, 거의 감소되지 않은 대응하는 분석 윈도우(analysis window)에 낮은 수의 주기들을 갖는 신호들만을 통과시키도록 설계된다.
데시메이터(32)의 출력 신호는 세그먼팅 유닛(40)의 입력 및 저역 통과 필터(34)의 입력에 접속된다. 세그먼팅 유닛(40)은 데시메이터(32)의 출력 신호로부터 360개의 샘플들을 포함하는 세그먼트들을 선택한다. 14.7 kHz의 (감소된) 샘플링 속도는 24.5 ms의 분석 주기에 대응한다.
저역 통과 필터(34)는 165 Hz의 차단 주파수를 가진다. 저역 통과 필터(34)의 출력은 데시메이터(36)의 입력에 접속되고, 데시메이터(36)는 인자 3 만큼 샘플링 속도를 다시 감소시킨다. 데시메이터(36)의 출력은 256개의 샘플들을 포함하는 세그먼트들을 선택하는 세그먼팅 유닛(38)의 입력에 접속된다. 4.9 kHz의 샘플 속도(두 배로 감소됨)는 52.2 ms의 분석 주기에 대응한다.
세그먼팅 유닛(38)의 출력 신호는 스펙트럼 추정 유닛(44)에 인가되고, 스펙트럼 추정 유닛(44)은 퓨리에 영역에서의 피크 피킹(peak picking)과 후속의 파인 서치(fine search)에 의해 스펙트럼 성분들을 결정한다. 사인파 성분들의 추정에 관한 여러 방법들이 오디오 코딩의 당업자들에게 널리 공지되어 있다.
스펙트럼 추정 유닛(44)의 출력은 주파수 선택기(50)의 입력에 접속된다. 이 주파수 선택기는 적절히 한정된 범위의 주파수 성분들만을 선택한다. 본 실시예에서, 선택기(50)는 133 Hz의 최대 주파수를 가진 주파수 성분들만을 선택한다. 더 높은 주파수를 가진 스펙트럼 성분들은 간단히 버려진다. 보정기(52)는 선택된 신호 성분들의 진폭 및 위상값들을 보정한다. 이러한 보정은 필터(34)에 의해 도입된 진폭 및 위상 왜곡(phase distortion)을 보상하는데 필요하다. 이 필터의 전달함수는 알려져 있기 때문에, 필요한 보정 인자는 용이하게 결정될 수 있다.
보정기(52)의 출력은 합성기(54)에 인가되고, 합성기(54)는 보정기(52)의 출력 신호에 기초하여 합성 스피치 신호를 발생시킨다. 합성기(54)에 의해 제공된 합성 오디오 신호의 샘플 속도는 데시메이터(32)의 출력에서의 샘플 속도에 대응한다. 합성기(54)에 의해 제공된 합성 오디오 신호는 감산기(46)에 의해 세그먼팅 유닛(40)의 출력 신호로부터 감산된다. 합성기(54) 및 감산기(46)의 조합은 본 발명에 따른 방지 수단의 일부이다. 따라서, 추정 유닛(44)에 의해 결정되고, 선택 유닛(50)에 의해 선택된 신호 성분들은 세그먼팅 수단(40)의 출력 신호로부터 실질적으로 제거된다.
감산기(46)의 출력 신호는 상기 출력 신호에서 스펙트럼 성분들을 결정하는 스펙트럼 추정 유닛(55)에 전해진다. 후속하여, 선택 유닛은 400 Hz 이하의 주파수를 갖는 신호 성분들만을 선택한다.
보정기(52) 및 선택기(56)의 출력들은 조합기(58)의 입력들에 접속된다. 조합기(58)는 상이한 지속시간을 갖는 신호 세그먼트들로부터 유도된 주파수 추정치를 조합한다. 더 세밀한 타임스케일(짧은 세그먼트들)에서 거의 동일한 주파수가 더 타임스케일에서 발견될 수 있기 때문에, 대응하는 신호 성분들은 단일 신호 성분에 의해 표현될 수 있다. 본 실시예에서 이러한 조합은 10-3 rad이하로 주파수가 상이할 때 발생할 것이다. 조합기(58)는 또한 방지 수단의 일부이다.
조합기(58)의 출력은 필터(30)의 진폭 및 위상 왜곡을 보정하기 위해 보정기(62)에 전달된다. 보정기(62)의 출력 신호는 합성기(60)의 입력에 인가되고, 이 합성기(60)는 식별된 신호 성분들에 기초하여 합성 오디오 신호를 발생시킨다. 합성기(60)에 의해 발생된 합성 오디오 신호는 감산기(48)에 의해 세그먼팅 유닛(42)의 출력 신호로부터 감산된다. 합성기(60) 및 감산기(48)의 조합은 본 발명에 따른 방지 수단의 일부이다. 감산기(48)의 출력 신호는 스펙트럼 추정 유닛(64)에 전달되고, 이 추정 유닛은 그 입력 신호에서 신호 성분들을 결정한다. 이들 신호 성분들은 보정기(62)의 출력 신호와 함께 조합기(68)에 전달되고, 이 조합기는 입력 신호에서 발견된 모든 사인파들의 표현을 결정한다. 추정기(44)에 결정되는 사인파들의 최대 수는 5가 되도록 선택되고, 분석기(44, 55) 모두에 의해 결정되는 사인곡선들의 최대 수는 10이고, 분석기들(44, 55, 64)에 의해 결정된 사인파들의 전체 수는 60이 되도록 선택된다.
세그먼팅 유닛들(38, 40, 42)의 출력 신호들은 상이한 길이들을 가지고 있기 때문에, 분석은 또한 상이한 타임 스케일로 수행된다. 단위 신호 성분의 다중 표현들을 억제하거나 방지하기 위한 방지 수단들은 합성기들(54, 60), 감산기들(46, 48), 및 조합기들(58, 68)이다. 그러나, 합성기들 및 감산기들의 조합만이 방지 수단에 사용되거나, 조합기들만이 방지 수단에 사용되는 것은 생각될 수 있다.
도 3에 따른 다이어그램들에서, 분석기(8)에 사용된 신호 세그먼트들이 디스플레이되어 있다. 그래프들(70, 71, 72)은 T1 에서 관련된 신호 세그먼트들을 도시한다.
그래프(70)는 T1 에서 세그먼팅 유닛(42)의 출력에서 이용가능한 세그먼트들을 도시한다. 세그먼트는 N=360 샘플들을 포함한다. 그래프(71)는 T1 에서 세그먼팅 유닛(40)의 출력에서 이용가능한 세그먼트를 도시한다. 이 세그먼트는 또한 N=360 샘플들을 포함한다.
그래프(72)는 T1 에서 세그먼팅 유닛(38)의 출력에서 이용가능한 세그먼트를 도시한다. 세그먼트는 지금 M=256 샘플들을 포함한다. 이러한 그래프들로부터 상이한 지속시간을 가진 신호 세그먼트들이 분석에 사용된다는 것은 명백하다.
그래프(73, 74, 75)는 후속의 분석 T2 에서 신호 세그먼트들을 도시한다. 모든 세그먼트들은 가장 짧은 세그먼트의 지속지간에 걸쳐 오른쪽으로 이동되는 것을 볼 수 있다. 이것은 완전한 분석은 주기 T로 발생할 수 있기 때문이다. 그래프(76, 77, 78)은 T2 보다 T 만큼 늦은 T3 에서 신호 세그먼트들을 도시한다.
도 4에 따른 잡음 분석기(14)에서, 입력 신호는 세그먼팅 수단(80, 82, 84)의 입력에 인가된다. 세그먼팅 수단(80)은 입력 신호로부터 1024 샘플들의 세그먼트들을 유도하기 위해 구성된다. 세그먼팅 수단(82)은 입력 신호로부터 512 샘플들의 세그먼트들을 유도하기 위해 구성되고, 세그먼팅 수단(84)은 입력 신호로부터 256 신호 샘플들의 신호 세그먼트를 유도하기 위해 구성된다.
세그멘팅 수단(80)의 출력은 더 낮은 주파수 범위에 대해 주파수 스펙트럼을 결정하도록 FFT 프로세서(86)의 입력에 접속된다. FFT 프로세서(86)는 1024 포인트 FFT를 수행하기 위해 배열된다. 세그멘팅 수단(82)의 출력은 FFT 프로세서(90)의 입력에 접속된다. FFT 프로세서(90)는 512 포인트 FFT를 수행한다. 세그멘팅 수단(84)의 출력은 FFT 프로세서(94)의 입력에 접속된다. FFT 프로세서(94)는 256 포인트 FFT를 수행한다.
도 1의 멀티플렉서(16)에 심리 음향 모델을 응용하기 위해서는, ERB 빈(bin) 당(per) 잡음 전력으로 잡음 스펙트럼을 표현하는 것이 바람직하다. 그렇게 함으로서, FFT 처리기들(86, 90, 94)에 의해 결정된 FFT 빈들에서의 값들은 ERB 변환기들(88, 92, 96)에 의해 각각 18, 7 및 18 ERB 빈들로 변형된다. 모든 ERB 빈들은 상이한 주파수 범위를 커버하기 때문에, ERB 변압기들(88, 92, 96)은 신호 성분의 다중 표현을 방지하기 위한 억제 수단을 구성한다. FFT 처리기들(86, 90, 94)은 완전한 FFT를 수행하는 것이 아니라 상기 FFT에 대응하는 ERB 빈들을 결정하기 위해 필요한 주파수 빈들만을 결정하는 부분적인 FFT만을 수행한다. 그러한 경우에, 억제 수단은 또한 FFT 처리기들(86, 90, 94)을 포함한다.
ERB 변압기들(88, 92, 96)은 상기 ERB에 의해 정의된 범위에 있는 FFT 빈들에 전력을 부가시킴으로서 각 ERB 빈에 대한 값을 유도한다. ERB 변압기에 의해 수행될 변형은 다음의 매트릭스 형태로 쓰여질 수 있다.
Y(n)=W(n) ㆍ P (1)
(1)에서, Y(n)은 각각의 ERB 빈에서 전력이고, n은 ERB 빈의 랭크의 수를 표현한다. P 는 FFT 빈들에서의 전력을 성분으로 포함하는 벡터이며, 다음과 같이 정의될 수 있다.
P = [│X(0)│2, │X(1)│2, ...│X(L-1)│2]T (2)
(2)에서, │X(k)│2 은 k 번째 FFT 빈에서 전력이다. L은 FFT에 포함된 포인트들의 수이다. 벡터 W(n)은 ERB 빈과 FFT 빈 사이의 오버랩을 표현한다. 만일 f1 이 ERB 빈의 하한을 표현하고 f2 가 상기 ERB 빈의 상한 주파수를 표현한다면, 백터 성분 W(n,k)에 대해 다음과 같이 쓰여질 수 있다.
Figure 112007001715263-pct00010
(3)
(3)에서, b는 FFT 빈 사이즈이며, 이는 fS/L이다. 모든 ERB를 얻기 위해 n에 대한 상이한 값들을 취하면 다음의 매트릭스 곱셈의 결과로 된다.
Y = W P (4)
ERB에서의 전력은 멀티플렉서(16)에 사용된 심리 음향 모델에 의한 사용을 위해 잡음 분석기(14)의 부가적인 출력에 전달된다.
잡음 합성기(28)는 ERB 빈들로부터 FFT 빈들을 얻기 위해 W 의 역변환
Figure 112007001715263-pct00002
필요하다. 이 역
Figure 112007001715263-pct00003
는 W 가 결정된 것과 동일한 방식으로 얻어질 수 있다. 이 역
Figure 112007001715263-pct00004
는 다음식에 의해 계산될 수 있다.
Figure 112001009769231-pct00005
(5)
43 ERB 전력 값들은 43 ERB 전력값들에 3차 다항식의 피트를 수행하는 피팅(fitting) 수단(98)에 전달된다. 따라서, 추정된 전력들은 시간으로 정렬된다(그들은 상이한 분석 세그먼트 크기들로 측정된다). 이러한 피팅 절차는 계수 43으로부터 계수 4로의 데이터의 감소의 결과로 된다. 피트를 수행하기 전에, ERB 빈들에서의 진폭은 로그 스케일 또는 그것의 근사값들과 같은 심리 음향 관련 스케일의 값들로 변형된다.
합성기(28)에서, 43 ERB 전력 값들은 4 계수로 정의된 3차 다항식에 따라 계산된다. 합성은 분석에서 행해진 것과 같은 ERB 전력들의 상이한 그룹에 대해 상이한 타임 스케일로 발생한다.
본 발명은 양호한 실시예를 참조하여 기술되었으나, 이것들은 제한적인 예들이 아닌 것으로 이해되어야 한다. 따라서, 다양한 변형들이 본 발명의 범위를 벗어나지 않으며 청구범위에 의해 정의된 바와 같이 당업자들에게는 명백하다.
예를 들면, 비록 실시예들에서는 후속의 신호 세그먼트들이 오버랩핑하지 않으나 부분적으로 오버랩하는 것은 가능하다. 또한, 실시예들에서 개시된 것과는 상이한 방지 수단은 조합시 존재할 필요가 없고 분리하여 사용될 수 있다.
요약하면, 사인파 오디오 인코더는 주파수 스펙트럼의 상이한 부분들을 분석하기 위해 상이한 타임 스케일들을 사용하는 것으로 공지되어 있다. 종래 기술의 인코더들은 입력 신호를 다수의 서브-밴드들로 분할하기 위해 사용된다.
입력 신호를 서브-밴드들로 분할함으로써, 2개의 서브 밴드들의 경계에서의 신호 성분은 2개의 서브-밴드 신호들에서 표현의 결과로 된다. 이러한 신호 성분들의 더블 표현은 이러한 성분들을 코딩할 때 여러 문제들을 일으킬 수 있다. 본 발명에 따르면, 신호 성분들이 다중의 표현들을 갖는 것을 피하기 위한 방지 수단(46, 48, 58, 68; 88, 92, 96)이 사용되도록 제안된다.
비록 실시예들에서는 후속의 신호 세그먼트들이 오버랩핑하지 않으나 부분적으로 오버랩하는 것은 가능하다. 또한, 실시예들에서 개시된 것과는 상이한 방지 수단은 조합시 존재할 필요가 없고 분리하여 사용될 수 있다.

Claims (15)

  1. 오디오 인코더를 가지는 전송기를 포함하는 전송 시스템으로서,
    상기 오디오 인코더는 오디오 신호를 표현하는 입력 신호로부터 적어도 제 1 신호 세그먼트들 및 제 2 신호 세그먼트들을 유도하기 위한 세그먼팅 수단를 포함하고, 상기 제 1 신호 세그먼트들은 상기 제 2 신호 세그먼트들보다 길고, 상기 오디오 인코더는 상기 제 1 및 제 2 신호 세그먼트들로부터 인코딩된 오디오 신호를 유도하기 위한 인코딩 수단을 포함하고, 상기 전송기는 통신 매체를 통해 수신기에 상기 인코딩된 오디오 신호를 전송하기 위한 전송 수단을 포함하고, 상기 수신기는 상기 전송 매체로부터 상기 인코딩된 오디오 신호를 수신하기 위한 수신 수단을 포함하고, 상기 수신기는 상기 인코딩된 오디오 신호로부터 디코딩된 오디오 신호를 유도하기 위한 오디오 디코더를 더 포함하는, 상기 전송 시스템에 있어서,
    상기 인코딩 수단은 단일 신호 성분의 다중 표현들이 상기 인코딩된 오디오 신호에 발생되는 것을 방지하기 위한 방지 수단을 포함하는 것을 특징으로 하는, 전송 시스템.
  2. 제 1 항에 있어서,
    상기 방지 수단은 상기 제 1 신호 세그먼트들을 표현하는 상기 인코딩된 오디오 신호의 일부로부터 합성 오디오 신호를 유도하기 위한 합성 수단과, 상기 입력 신호를 표현하는 신호로부터 상기 합성 오디오 신호를 감산함으로써 상기 제 2 신호 세그먼트들을 유도하기 위한 감산 수단을 포함하는 것을 특징으로 하는, 전송 시스템.
  3. 제 2 항에 있어서,
    상기 세그먼팅 수단들은 상기 입력 신호로부터 다른 신호 세그먼트들을 유도하기 위해 배치되고, 상기 다른 신호 세그먼트들은 상기 제 1 신호 세그먼트들보다 길고, 상기 오디오 인코더는 또한 상기 다른 신호 세그먼트들에 기초하여 상기 인코딩된 오디오 신호를 유도하기 위해 배치되고, 상기 방지 수단은 상기 다른 신호 세그먼트들을 표현하는 상기 인코딩된 오디오 신호의 일부로부터 다른 합성 신호를 유도하기 위한 다른 합성 수단과 상기 입력 신호를 표현하는 신호로부터 상기 다른 합성 오디오 신호를 감산함으로써 상기 제 1 신호 세그먼트들을 유도하기 위한 다른 감산 수단을 포함하는 것을 특징으로 하는, 전송 시스템.
  4. 제 1 항에 있어서,
    상기 오디오 인코더는 상기 입력 신호로부터 필터링된 신호를 유도하기 위한 필터를 포함하고, 상기 오디오 인코더는 상기 필터링된 신호로부터 상기 제 1 신호 세그먼트들을 유도하기 위해 구성된 것을 특징으로 하는, 전송 시스템.
  5. 제 4 항에 있어서,
    상기 필터는 감소된 샘플 속도로 상기 제 1 신호 세그먼트들을 얻기 위한 데시메이션(decimation) 수단을 포함하는 것을 특징으로 하는, 전송 시스템.
  6. 제 1 항에 있어서,
    상기 인코딩 수단은 심리 음향 관련 스케일(psycho-acoustical relevant scale)로 진폭들을 표현하도록 구성된 것을 특징으로 하는, 전송 시스템.
  7. 오디오 인코더를 갖는 전송기로서, 상기 오디오 인코더는 오디오 신호를 표현하는 입력 신호로부터 적어도 제 1 신호 세그먼트들 및 제 2 신호 세그먼트들을 유도하기 위한 세그먼팅 수단을 포함하고, 상기 제 1 신호 세그먼트들은 상기 제 2 신호 세그먼트들보다 길고, 상기 오디오 인코더는 상기 제 1 및 제 2 신호 세그먼트들로부터 인코딩된 오디오 신호를 유도하기 위한 인코딩 수단을 포함하고, 상기 전송기는 상기 인코딩된 오디오 신호를 전송하기 위한 전송 수단을 포함하는, 상기 전송기에 있어서,
    상기 인코딩 수단은 단일 신호 성분의 다중 표현들이 상기 인코딩된 오디오 신호에 발생되는 것을 방지하는 방지 수단을 포함하는 것을 특징으로 하는, 전송기.
  8. 제 7 항에 있어서,
    상기 방지 수단은 상기 제 1 신호 세그먼트들을 표현하는 상기 인코딩된 오디오 신호의 일부로부터 합성 오디오 신호를 유도하기 위한 합성 수단과 상기 입력 신호를 표현하는 신호로부터 상기 합성 오디오 신호를 감산함으로써 상기 제 2 신호 세그먼트들을 유도하기 위한 감산 수단을 포함하는 것을 특징으로 하는, 전송기.
  9. 오디오 신호를 표현하는 입력 신호로부터 적어도 제 1 신호 세그먼트들 및 제 2 신호 세그먼트들을 유도하기 위한 세그먼팅 수단을 포함하는 오디오 인코더로서, 상기 제 1 신호 세그먼트들은 상기 제 2 신호 세그먼트들 보다 길고, 상기 오디오 인코더는 상기 제 1 및 제 2 신호 세그먼트들로부터 인코딩된 오디오 신호를 유도하기 위한 인코딩 수단을 포함하는, 상기 오디오 인코더에 있어서,
    상기 인코딩 수단은 상기 인코딩된 오디오 신호에서 단일 신호 성분의 다중 표현들이 발생하는 것을 방지하기 위한 방지 수단을 포함하는 것을 특징으로 하는, 오디오 인코더.
  10. 제 9 항에 있어서,
    상기 방지 수단은 상기 제 1 신호 세그먼트들을 표현하는 상기 인코딩된 오디오 신호의 일부로부터 합성 오디오 신호를 유도하기 위한 합성 수단과, 상기 입력 신호를 표현하는 신호로부터 상기 합성 오디오 신호를 감산함으로써 상기 제 2 신호 세그먼트들을 유도하기 위한 감산 수단을 포함하는 것을 특징으로 하는, 오디오 인코더.
  11. 오디오 신호를 표현하는 입력 신호로부터 적어도 제 1 신호 세그먼트들 및 제 2 신호 세그먼트들을 유도하는 단계를 포함하는 오디오 인코딩 방법으로서, 상기 제 1 신호 세그먼트들은 상기 제 2 신호 세그먼트들보다 길고, 상기 방법은 상기 제 1 및 제 2 신호 세그먼트들로부터 인코딩된 오디오 신호를 유도하는 단계를 포함하는, 상기 오디오 인코딩 방법에 있어서,
    상기 방법은 단일 신호 성분의 다중 표현들이 상기 인코딩된 오디오 신호에서 발생되는 것을 방지하는 단계를 포함하는 것을 특징으로 하는, 오디오 인코딩 방법.
  12. 제 11 항에 있어서,
    상기 방법은 상기 제 1 신호 세그먼트들을 표현하는 상기 인코딩된 오디오 신호의 일부로부터 합성 오디오 신호를 유도하는 단계와,
    상기 입력 신호를 표현하는 신호로부터 상기 합성 오디오 신호를 감산함으로써 상기 제 2 신호 세그먼트들을 유도하는 단계를 포함하는 것은 특징으로 하는, 오디오 인코딩 방법.
  13. 제 11 항에 따른 상기 방법을 처리기가 수행하게 하는 프로그램을 갖는 컴퓨터 판독가능 기록 매체.
  14. 삭제
  15. 삭제
KR1020017005317A 1999-08-27 2000-08-24 개선된 인코더 및 디코더를 갖는 전송 시스템 KR100727276B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP99202785 1999-08-27
EP99202785.4 1999-08-27

Publications (2)

Publication Number Publication Date
KR20010089371A KR20010089371A (ko) 2001-10-06
KR100727276B1 true KR100727276B1 (ko) 2007-06-13

Family

ID=8240580

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020017005317A KR100727276B1 (ko) 1999-08-27 2000-08-24 개선된 인코더 및 디코더를 갖는 전송 시스템

Country Status (8)

Country Link
US (1) US6654723B1 (ko)
EP (1) EP1125282B1 (ko)
JP (1) JP2003508806A (ko)
KR (1) KR100727276B1 (ko)
CN (1) CN1145929C (ko)
DE (1) DE60022732T2 (ko)
ES (1) ES2248112T3 (ko)
WO (1) WO2001016941A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7930170B2 (en) * 2001-01-11 2011-04-19 Sasken Communication Technologies Limited Computationally efficient audio coder
JP4622164B2 (ja) * 2001-06-15 2011-02-02 ソニー株式会社 音響信号符号化方法及び装置
US8331445B2 (en) 2004-06-01 2012-12-11 Qualcomm Incorporated Method, apparatus, and system for enhancing robustness of predictive video codecs using a side-channel based on distributed source coding techniques

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970064267A (ko) * 1996-02-21 1997-09-12 요트. 게. 아. 롤페즈 Mpeg2 형태의 신호들을 디코딩하는 장치
KR19990070930A (ko) * 1998-02-26 1999-09-15 구본준 동영상 데이타 및 음성 데이타 송수신 장치

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08223049A (ja) * 1995-02-14 1996-08-30 Sony Corp 信号符号化方法及び装置、信号復号化方法及び装置、情報記録媒体並びに情報伝送方法
US5974376A (en) * 1996-10-10 1999-10-26 Ericsson, Inc. Method for transmitting multiresolution audio signals in a radio frequency communication system as determined upon request by the code-rate selector
US5886276A (en) * 1997-01-16 1999-03-23 The Board Of Trustees Of The Leland Stanford Junior University System and method for multiresolution scalable audio signal encoding
KR100261254B1 (ko) * 1997-04-02 2000-07-01 윤종용 비트율 조절이 가능한 오디오 데이터 부호화/복호화방법 및 장치
JP3134817B2 (ja) * 1997-07-11 2001-02-13 日本電気株式会社 音声符号化復号装置
US6460153B1 (en) * 1999-03-26 2002-10-01 Microsoft Corp. Apparatus and method for unequal error protection in multiple-description coding using overcomplete expansions

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR970064267A (ko) * 1996-02-21 1997-09-12 요트. 게. 아. 롤페즈 Mpeg2 형태의 신호들을 디코딩하는 장치
KR19990070930A (ko) * 1998-02-26 1999-09-15 구본준 동영상 데이타 및 음성 데이타 송수신 장치

Also Published As

Publication number Publication date
CN1335979A (zh) 2002-02-13
WO2001016941A1 (en) 2001-03-08
ES2248112T3 (es) 2006-03-16
JP2003508806A (ja) 2003-03-04
KR20010089371A (ko) 2001-10-06
EP1125282B1 (en) 2005-09-21
DE60022732D1 (de) 2005-10-27
CN1145929C (zh) 2004-04-14
US6654723B1 (en) 2003-11-25
DE60022732T2 (de) 2006-06-14
EP1125282A1 (en) 2001-08-22

Similar Documents

Publication Publication Date Title
US10529347B2 (en) Methods, apparatus and systems for determining reconstructed audio signal
FI84538C (fi) Foerfarande foer transmission av digitaliska audiosignaler.
KR970007663B1 (ko) 신호 양자화 장치 및 방법
JP3881943B2 (ja) 音響符号化装置及び音響符号化方法
KR100220861B1 (ko) 고품질 오디오용 낮은 시지연 변환인코더, 디코더 및 인코딩/디코딩방법
KR100550399B1 (ko) 다중 오디오 채널을 저 비트율로 부호화 및 복호화하기위한 장치와 그 방법
US5127054A (en) Speech quality improvement for voice coders and synthesizers
AU2003243441B2 (en) Audio coding system using characteristics of a decoded signal to adapt synthesized spectral components
US5754127A (en) Information encoding method and apparatus, and information decoding method and apparatus
JP5295372B2 (ja) デジタルオーディオ信号におけるプリエコーの減衰
KR100727276B1 (ko) 개선된 인코더 및 디코더를 갖는 전송 시스템
EP0482699B1 (en) Method for coding and decoding a sampled analog signal having a repetitive nature and a device for coding and decoding by said method
EP2355094B1 (en) Sub-band processing complexity reduction
JPH07273656A (ja) 信号処理方法及び装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20100531

Year of fee payment: 4

LAPS Lapse due to unpaid annual fee