KR20060131766A - 오디오 코딩 - Google Patents

오디오 코딩 Download PDF

Info

Publication number
KR20060131766A
KR20060131766A KR1020067010715A KR20067010715A KR20060131766A KR 20060131766 A KR20060131766 A KR 20060131766A KR 1020067010715 A KR1020067010715 A KR 1020067010715A KR 20067010715 A KR20067010715 A KR 20067010715A KR 20060131766 A KR20060131766 A KR 20060131766A
Authority
KR
South Korea
Prior art keywords
signal
parameters
audio
pulse train
coder
Prior art date
Application number
KR1020067010715A
Other languages
English (en)
Inventor
안드레아스 제이. 게리츠
알베르투스 씨. 덴 브린커
펠리프 리에라 팔로우
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20060131766A publication Critical patent/KR20060131766A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/093Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters using sinusoidal excitation models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

오디오 코더는 오디오 신호(x)의 다수 연속 세그먼트 각각에 대하여 각각의 샘플링된 신호 값 세트를 처리하도록 구성된다. 코더는 오디오 신호의 각각의 사인곡선 성분들에 대응하는 하나 이상의 사인곡선 코드들(CS)을 제공하기 위하여 샘플링된 신호 값들을 분석하도록 구성된 분석기(TSA)를 포함한다. 감산기는 제1 잔여 신호(r1)를 제공하기 위하여 오디오 신호에서 사인곡선 성분들에 대응하는 신호를 뺀다. 모델러(SEG)는 제1 잔여 신호의 주파수 스펙트럼에 근사한 주파수 응답을 가지는 필터의 제1 필터 파라미터들(Ps)을 결정함으로써 제1 잔여 신호(r1)의 주파수 스펙트럼을 모델링한다. 또다른 감산기는 제2 잔여 신호(r2)를 제공하기 위하여 제1 잔여 신호에서 제1 필터 파라미터들에 대응하는 신호를 뺀다. 또다른 모델러(RPE)는 각각의 펄스 트레인 파라미터들(L0)을 제공하기 위하여 펄스 트레인 코더(RPE)를 이용하여 제2 잔여 신호의 성분들(r2, r3)을 모델링한다. 비트 스트림 발생기(15)는 사인곡선 코드들(CS), 제1 필터 파라미터들(Ps) 및 펄스 트레인 파라미터들(L0)을 포함하는 엔코딩횐 오디오 스트림(AS)을 발생한다.
오디오 코더, 오디오 신호, 잔여 신호, 사인곡선, 오디오 스트림

Description

오디오 코딩{Audio coding}
본 발명은 오디오 신호들 코딩 및 디코딩에 관한 것이다.
도 1에 관하여, 특히 사인곡선 코더의 파라미터 코딩 스킴은 미국 공개 특허 제2001/0032087A1에 기술된다. 이러한 코더에서, 채널(10)로부터 수신되는 입력 오디오 신호 x(t)는 통상적으로 길이가 20ms인 몇 개의(오버랩핑) 세그먼트 또는 프레임으로 분할된다. 각각의 세그먼트는 비상주 성분(CT), 사인곡선 성분(CS) 및 잡음 성분(CN)으로 분해된다(또한, 이러한 것들이 본 발명의 목적에 관련되지 않지만 고조파 복소수와 같은 입력 오디오 신호의 다른 성분들을 유도하는 것이 가능하다.).
코더의 제1 단은 비상주 검출기(TD)(110), 비상주 분석기(TA)(111) 및 비상주 합성기(TS)(112)를 포함하는 비상주 코더(11)를 포함한다. 검출기(110)는 비상주 신호 성분이 있는 지와 그 위치를 추정한다. 이러한 정보는 비상주 분석기(111)에 제공된다. 비상주 신호 성분의 위치가 결정되는 경우, 비상주 분석기(111)는 비상주 신호 성분을 추출하려고 시도한다. 바람직하게는 추정된 개시 위치에서 개시하는 신호 세그먼트에 형태 함수를 매칭하고, 예를 들면 (적은) 수의 사인곡선 성분을 이용하여 그 형태 함수 하에서 콘텐츠를 결정한다. 이러한 정보는 비상주 코드(CT)에 포함된다.
비상주 코드(CT)는 비상주 합성기(112)에 공급된다. 합성된 비상주 신호 성분은 감산기(16)에서 입력 신호x(t)로부터 감해져서, 신호(x2)가 된다.
신호(x2)는 사인곡선 코더(13)에 공급되고, 그것은 사인곡선 분석기(SA)(130)에서 분석되며, 이것은 (결정적인) 사인곡선 성분들을 결정한다. 사인곡선 코딩의 최종 결과는 사인곡선 코드(CS)이고, 예시적인 사인곡선 코드(CS)의 종래의 발생을 기술하는 보다 상세한 일례는 PCT 특허 출원 WO00/79519A1에 공급된다.
사인곡선 코더에서 발생되는 사인곡선 코드(CS)로부터, 사인곡선 신호 성분은 사인곡선 합성기(SS)(131)에 의하여 재구성된다. 이러한 신호는 감산기(17)에서 사인곡선 코더(13)에 관하여 입력(x2)에서 감해져서, (대형) 비상주 신호 성분들 및 (주요) 결정적 사인곡선 성분들이 결여된 남은 신호(x3)가 된다.
남은 신호(x3)는 주로 잡음을 포함하는 것으로 가정되며, 잡음 분석기(14)는 예를 들면, PCT 특허 출원 WO01/89086A1에 기술되는 바와 같이 이러한 잡음을 대표하는 잡음 코드(CN)를 생성한다.
도 2(a) 및 (b)는 도 1의 통상적으로 잡음 분석기(14)용으로 적절한 엔코 더(NE) 및 도 6(후술됨)의 잡음 합성기(33)용 대응 디코더(ND)의 형태를 도시한다. 도 1의 잔여 신호(x3)에 대응하는 제1 오디오 신호(r1)은 신호를 스펙트럼으로 평평하게 하고 소정 순서의 예측 계수(Ps)를 생성하는 제1 선형 예측(SE)단을 포함하는 잡음 엔코더를 실행한다. 보다 일반적으로, 라규에레 필터(laguerre filter)는, 이.지.피. 슈이제르스, 에이.더블유.제이. 오오멘, 에이.씨. 덴 브린케르 앤 에이.제이. 게리츠, "고품질 오디오용 파라미터 코딩의 발전", 오디오의 모델 베이스드 프로세싱 및 코딩(MPCA-2002)에 관한 Proc. 1st IEEE 베네룩스 워크숍, 루이벤, 벨기에, 2002년 11월 15일, pp73-79에 기재된 바와 같이, 신호의 주파수 민감 평탄화를 제공하는데 사용될 수 있다. 잔여(residual)(r2)는 파라미터 세트 Pt와 가능하게는 시간적으로 평탄화된 잔여(r3)를 생성하는 시간 엔벨로프 추정기(TE)를 실행시킨다. 파라미터들(Pt)은 시간 엔벨로프를 기술하는 이득 세트일 수 있다. 다르게는, 그들은 이득 엔벨로프와 함께 정규화된 시간 엔벨로프를 기술하는, 선형 스펙트럼 쌍(LSPs) 또는 선형 스펙트럼 주파수(LSPs)와 같은 주파수 영역에서 선형 예측으로부터 유도되는 파라미터들일 수 있다.
파라미터 디코더(ND)에서, 합성 화이트 잡음 시퀀스는 (WNG에서) 생성되어, 시간적으로 스펙트럼적으로 평탄한 엔벨로프를 가진 신호(r3')가 된다. 시간 엔벨로프 생성기(TEG)는 수신되어, 양자화된 파라미터들 Pt'에 기초하여 시간 엔벨로프를 부가하고, 스펙트럼 엔벨로프 생성기(SEG, 시변 필터)는 도 6의 신호(yn)에 대응 하는 잡음 신호(r1)이 되는, 수신되어, 양자화된 파라미터들 Ps'에 기초하여 스펙트럼 엔벨로프를 부가한다.
다중화기(15)에서, 오디오 스트림(AS)이 구성되며, 코드들(CT, CS, CN)을 포함한다.
사인곡선 코더(13) 및 잡음 분석기(14)는 모든 또는 대부분의 세그먼트들에 사용되며, 비트 레이트 버짓(budget)의 대부분이 된다.
파라미터 오디오 코더들이 예를 들면, 20kbit/s의 비교적 낮은 비트 레이트들의 양호한 품질에 공평함을 제공할 수 있음은 이미 공지되어 있다. 그러나, 보다 높은 비트 레이트에서, 품질은 비트 레이트를 증가시키는 함수가 오히려 낮은 경우에 증가한다. 따라서, 초과 비트 레이트는 훌륭한 또는 비상주한 품질을 얻고자 할 경우 요구된다. 따라서, 예를 들면 파형 코더들의 것에 비교되는 비트 레이트의 파라미터 코딩을 사용하여 투명도를 얻기가 어렵다. 이것은 비트 버짓의 초과 사용없이 투명 품질에 좋은 파라미터 오디오 코더들을 구성하기가 어렵다는 것을 의미한다.
투명하게 되는 파라미터 코딩에서의 근본적인 어려움의 원인은 정의되는 오브젝트들에 있다. 파라미터 코더는 음조 성분들(사인곡선) 및 잡음 성분들(잡음 코더)을 엔코딩하는데 있어서 매우 효율적이다. 그러나, 실제 오디오에서, 많은 신호 성분들은 그레이 영역에 있다: 그들은 잡음에 의해 정확하게 모델링될 수 없거나 또는 사인곡선들로서 모델링될 수 없다. 따라서, 파라미터 오디오 코더에서 오브젝트들의 정의는, 매체 품질 레벨에 대하여 뷰의 비트 레이트 포인트에서 매우 유익하여도, 우수하거나 또는 투명한 품질 레벨들에 도달할 때의 좁은 통로이다.
동시에, 종래의 오디오 코더들(부대역 및 변환)은 통상적으로 44.1kHz에서 샘플링된 스테레오 신호들에 대하여 80-130kbit/s 순으로 임의 비트 레이트들의 투명 코딩 품질에 좋다. 변환 및 파라미터 코더들의 결합드은(소위 말하는 하이브리드 코더들)은 예를 들면, 2002년 5월 24일자로 출원된 유럽 특허 출원 제02077032호(대리인 서류 번호 ID.609811/PHNL020478)에 기술된 바와 같이 제안되어 왔다. 여기서, 다른 방법으로 부대역 코딩될 오디오 신호의 스펙트럼-시간 간격들은, 오디오 품질을 유지하면서 비트 레이트를 감소시키고자 하는 시도에서 잡음 파라미터들에 있어서 선택적으로 디코딩된다.
대안적으로, 변환 또는 부대역 코더는 도 1에 도시된 타입의 파라미터 코더를 이용하여 종속 접속된다. 그러나, 파라미터 코더가 변환 또는 부대역 코더보다 선행하는 이러한 구성의 예상 코딩 이득은 최소이다. 이것은 오디오 신호의 지각적으로 매우 중요한 영역들이 사인곡선 코더에 의해 포획되기 때문으로 변환/부대역 코더에서의 이득을 코딩할 가능성은 아주 적게 된다.
샘플당 적은 수의 비트들을 사용하여 모델링하는 오디오 코더들은, 에이.하마 및 유.케이. 레인, "광대역 오디오 코딩용 휘어진 낮은-지연 CELP", Proc. AES 17th Int. Conf.에 기재된다: 고품질 오디오 코딩, pp 207-215, 플로렌스, 이탈리아, 1999년 9월 2-5일 ; 에스. 신할, "멀티-퍼러스 LPC를 이용한 고품질 오디오 코딩", Proc. 1990 Int. Conf.. 어커스틱 스피치 시그널 프로세스(ICASSP90), 페이지 1101-1104, 애틀랜타 조지아주, 1990년, IEEE 피카타웨이, 뉴저지지; 엑스. 린, "합성 기술에 의한 분석을 이용한 고품질 오디오 코딩", Proc. 1991 Int. Conf. 어커스틱 스피치 시그널 프로세스(ICASSP91), pp3617-3620, 애틀랜타 조지아, 1991년, IEEE 피카타웨이, 뉴저지. 다수의 연구에서, 이러한 코딩 전략은 모노 신호들에 대한 2bit/sample(44.1kHz 오디오에 대하여 88.2bit/s)에 대응하는 비트 레이트들의 투명 품질에 좋게 할 수 있다. 그러한 관점에서, 그것들은 부대역 또는 변환 코더들의 성능을 초과하지 않는다.
본 발명의 목적은 파라미터 오디오 코더를 제공하는 데 있으며, 그것의 비트 레이트는 일정 범위에 걸쳐 제어 가능하고 그것은 종래 코더들에 비교되는 비트 레이트의 고품질 레벨들을 제공한다.
본 발명에 따라, 청구항 제1항에 따른 방법이 제공된다.
본 발명은 펄스 트레인 코더에 잡음 코더를 추가함으로써 파라미터 코더에 스칼라빌리티를 제공한다. 이것은 광범위한 비트 레이트 동작 포인트들을 제공하고, 복잡한 대형 오버헤드를 도입하지 않고도 한 개 코더에 2개 전략을 합병한다.
잡음 코더내에서의 코딩 전략들은 세기들 및 약점들에 의하여 보충한다. 예를 들면, 펄스 트레인 코더의 선형 예측기는 음조 오디오 세그먼트를 기술할 때 비효율적이지만, 사인곡선 코더는 상기를 효율적으로 할 수 있다. 따라서, 음조 아이템형 하프시코드에 대하여, 펄스 트레인 코더는 잔여의 거친 양자화에 대하여 투명 품질을 전달하기가 불가능하다. 다른 신호들에 대하여, 펄스 트레인 코더 선형 예측단의 예측 순서는 잔여의 거친 양자화를 허용할 정도로 매우 높아야 한다. 잡음형 신호들에 대하여, 잔여 신호의 십진화는 문제가 되며 밝기 손실을 초래한다.
양호한 실시예에서, 코딩 전략들은 파라미터 코더 및 부가적인(비트 레이트 제어형) 펄스 트레인 레이어를 사용하여 베이스 레이어를 형성하도록 결합된다. 결합된 기술들에 요구되는 비틀 레이트 리소스들은, 양 방법들이 스펙트럼 평탄화를 적용하기 때문에 기술마다의 비트 레이트 요구 조건들보다 적으며, 그 결과로서 상기 단계에 요구되는 비트들은 한 번 투자하기만 하면 된다. 양호한 실시예에 있어서, 20-120kbit/s(스테레오 신호들에 대하여)로부터의 비트 레이트 범위는 성능에 있어서 최신 기술의 코더보다 더 낫게 또는 그것과 비교될 정도로 커버링될 수 있다.
본 발명의 실시예는 첨부 도면을 참조하여 일례로서 기술되게 된다.
도 1은 종래의 파라미터 코더를 도시하는 도면.
도 2(a) 및 (b)는 종래의 파라미터 잡음 엔코더(NE)와 그에 대응하는 잡음 디코더(ND)를 각각 도시하는 도면.
도 3은 본 발명의 양호한 실시예에 따른 모노 엔코더의 개략도.
도 4는 본 발명의 제1 실시예에 따른 모노 디코더의 개략도.
도 5는 본 발명의 제2 실시예에 따른 모노 디코더의 개략도.
양호한 실시예에서, 도 1에 도시된 타입의 파라미터 오디오 코더는 피. 크 론(P. Kroon), 이.에프. 데프레테레(E.F. Deprettere) 및 알.제이. 슬루이터(R.J. Sluijter), "정규 펄스 여기-스피치의 효과적이고 효율적인 다중펄스 코딩에 관한 새로운 방법", IEEE Trans. 어커스틱.스피치, 시그널 프로세스, 34, 1984년에 기술된 타입의 펄스 트레인 코더에 보충된다. 그럼에도 불구하고, 상기 실시예는 정규 펄스 여기(PPE) 코더에 의하여 기술되며, 본 발명은 미국 특허 제4,932,061호에 기재된 다중펄스 여기(MPE) 기술들, 또는 케이.쟈르빈넨(K. Jarvinen), 제이.바이니오(J. Vainio), 피.카파넨(P.Kapanen), 티.혼카넨(T. Honkanen), 피.하아비스토(P.Haavisto), 알. 살라미(R.Salami), 씨.랄플람(C.Laflamme), J-P. 아돌(J-P. Adoul), "GSM 강화형 풀 레이트 스피치 코덱", Proc. ICASS--97, 머니치(독일), 1997년 4월 21-24, Volumn 2, pp771-774에 기재된 ACELP 코더에 있어서 동일하게 실행될 수 있으며, 각각은 제1 LP 베이스드 스펙트럼 평탄화 단계를 포함한다.
양호한 실시예에서, 코더로부터 요구되는 품질에 따른 전체 비트 레이트 버짓은, 파라미터 코더에 의해 사용 가능한 비트-레이트 B와 RPE 십진 인자 D에 반비례하는 RPE 코딩 버짓으로 분할된다.
도 3을 참조하여, 입력 오디오 신호(x)는 도 1의 파라미터 코더의 블록(11, 13)에 (비상주 및 사인곡선 분석) 대응하는 블록 TSA 내에서 우선 처리된다. 따라서, 상기 블록은 도 1에 도시된 바와 같이 비상주신호들 및 잡음에 관련된 파라미터들을 생성한다. 비트 레이트 B가 제공되는 경우, 블록 BRC(비트 레이트 제어)는 바람직하게는 사인곡선들의 수를 제한하고, 바람직하게는 사인곡선 및 비상주 신호들의 총 비트 레이트는 거의 B와 동일하며, 통상적으로 대략 20kbit/s로 세팅된다.
파형은 블록 TSA에 의해 생성되고 블록 BRC에 의해 수정되는 비상주 및 사인곡선 파라미터들(CT, CS)을 이용하여 도 1의 블록들(121, 131)에 대응하는 블록 TSS(비상주 및 사인곡선 합성기)에 의해 생성된다. 이러한 신호는 입력 신호(x)에서 감해져서, 도 1에서 잔여(x3)에 대응하는 신호(r1)가 된다. 통상적으로, 신호(r1)는 사인곡선 및 비상주 신호들을 포함하지 않는다.
신호(r1)로부터, 스펙트럼 엔벨로프는 종래 기술 도 2(a)에서 처럼 선형 예측 또는 라규에레 필터를 사용하여 블록(SE)에서 추정되어 제거된다. 선택된 필터의 예측 계수들(Ps)은 종래 타입 잡음 코드들(CN)의 일부로서 디코더에 전송되도록 비트스트림 AS에 기록된다. 그런 다음, 시간 엔벨로프는 종래 기술 도 2(a)에 다시 기술되는 이득과 함께, 예를 들면 선형 스펙트럼 쌍(LSP) 또는 선형 스펙트럼 주파수(LSF) 계수들을 생성하는 블록(TE)에서 제거된다. 임의의 경우에, 시간 평탄화로부터 생성되는 계수들(Pt)은 종래 타입 잡음 코드(CN)의 일부로서 디코더에 전송되도록 비트스트림 AS에 기록된다. 통상적으로, 계수들(PS, PT)은 4-5kbit/s의 비트 레이트 버짓을 요구한다.
펄스 트레인 코더가 제1 스펙트럼 평탄화 단계를 사용하기 때문에, RPE 코더는 비트 레이트 버짓이 PRE 코더에 할당되는 지에 따라 블록 SE에 의해 생성되는 스펙트럼적으로 평탄화된 신호(r2)에 선택적으로 적용될 수 있다. 대안적인 실시예에서, 점선으로 표시되는 바와 같이, RPE 코더는 블록(TE)에 의해 생성되는 스펙트 럼적으로 시간적으로 평탄화된 신호(r3)에 적용된다.
배경 기술에서 언급되는 문서들에서 알려졌듯이, RPE 코더는 잔여 신호(r2/r3)에서 분석기-바이-합성기 방법으로 서치를 실행한다. 십진 인자 D가 제공되는 경우, RPE 서치 절차는 오프셋, RPE 펄스의 진폭들(예를 들면, -1, 0, 1을 갖는 삼진 펄스들) 및 이득 파라미터가 초래된다. 이러한 정보는 RPE 코딩이 사용되는 경우에 다중화기(MUX)에 의해 디코더에 전송되도록 오디오 스트림 AS에 포함되는 레이어(L0)에 저장된다.
통상적으로, RPE 코더는 적어도 40kbit/s 등의 비트 레이트를 요구하며, 따라서 품질 요구 조건으로서 전환되어, 엔코더의 비트 버짓은 품질 범위의 보다 높은 쪽으로 증가된다. RPE 코더가 초기에 사용되는 품질 범위의 보다 낮은 부분에 대하여, 비트 레이트 B는 파라미터 코더만이 혼자 사용되는 경우 최대 비트 레이트보다 적게 감소된다. 이것은 그 버짓에 비례하여 증가하는 품질을 갖는 코더에 대하여 명시되는 총 비트 레이트 버짓을 단조롭게 증가시키는 것을 가능하게 한다.
실험들은 특히 높은 십진 인자들(예를 들면, D=8)을 사용하여 재구성되는 신호의 밝기에서 손실을 초래한다는 것을 보여준다. RPE 시퀀스에 임의 낮은 레벨 잡음을 부가함으로써 상기 문제점이 완화된다. 잡음 레벨을 결정하기 위하여, 이득(g)은 예를 들면, 코딩된 RPE 시퀀스로부터 발생되는 신호와 잔여 신호(r2/r3)간의 에너지/전력 차에 기초하여 계산된다. 이러한 이득은 또한 레이어 L0 정보의 일 부로서 디코더에 전송된다.
도 4을 참조하여, RPE 블록이 잔여 신호(r2)를 처리하는 도 1의 실시예와 호환 가능한 디코더의 제1 실시예가 도시된다. 역다중화기(DeM)는 들어오는 오디오 스트림 AS'를 판독하고, 종래에서와 같이 사인곡선, 비상주 및 잡음 코드들(CS, CT, CN,(PS, PT))을 각각의 합성기들(SiS, TrS, TEG/SEG)에 제공한다. 종래에서와 같이, 화이트 잡음 발생기(WNG)는 시간 엔벨로프 발생기(TEG)에 입력 신호를 공급한다. 실시예에서, 정보가 유용한 경우, 펄스 트레인 발생기(PTG)는 레이어(L0)로부터 펄스 트레인을 발생하고, 이것은 여기 신호(r2')를 공급하도록 블록 Mx에 혼합된다. 엔코더에서 알 수 있듯이, 잡음 코드들(CN,(PS, PT)) 및 레이어(L0)가 동일 잔여 신호(r2)와 독립적으로 발생되는 경우, 그것들이 발생하는 신호들은 합성된 여기 신호(r2')에 정확한 에너지 레벨을 제공하도록 수정된 이득이 되도록 요구된다. 이 실시예에서, 혼합기(Mx)에서, 블록들(TEG, PTG)에 의해 생성되는 신호들은 가중된 주파수이며, 낮은 주파수들에 대하여 대부분의 신호들(r2)은 펄스 코딩된 정보(L0)로부터 유도되고, 고 주파수에 대하여 대부분의 신호들(r2)은 합성된 잡음 소스 WNG/TEG로부터 유도된다.
여기 신호(r2')는 코드들(Ps)에 따라 합성된 잡음 신호(r1)를 생성하는 스펙트럼 엔벨로프 발생기(SEG)에 공급된다. 이러한 신호는 출력 신호
Figure 112006038813744-PCT00001
를 생성하도 록 종래의 비상주 및 사인곡선 합성기들에 의해 생성된 합성 신호들에 부가된다.
다른 실시예에서, 펄스 트레인 발생기(PTG)에 의해 생성된 신호는 점선으로 표시된 바와 같이 시간 엔벨로프 발생기에의 입력으로서 WNG에 의해 생성되는 신호 대신에 사용된다.
도 5를 참조하여, 디코더의 제2 실시예는, RPE 블록이 잔여 신호(r3)를 처리하는 도 1의 실시예와 대응한다. 여기서, 화이트 잡음 발생기(WNG)에 의해 발생되어 코더에 의해 결정되는 이득(g)에 기초하여 블록(We)에 의해 처리되는 신호; 펄스 트레인 발생기(PTG)에 의해 발생된 펄스 트레인은 여기 신호(r3)를 구성하도록 부가된다. 레이어(L0) 정보가 블록(We) 내에서 이용 가능한 경우에, 잡음 시퀀스는 낮은 시퀀스들을 제거하기 위하여 고역 통과 필터링되며, 디코더의 제1 실시예에서 와 같이 재구성된 여기 신호를 지각적으로 저하시키며, 합성된 잡음 신호의 이러한 구성 성분은 잡음 베이스드 여기 신호보다 오히려 펄스 트레인 발생기의 출력에 기초한다. 물론, 레이어(L0) 정보가 이용 가능하지 않은 경우에, 화이트 잡음은 시간 엔벨로프 발생기 블록(TEG)에 여기 신호(r3')로서 공급되도록 블록(We)을 통해 공급된다.
시간 엔벨로프 계수(PT)는 이전과 같이 처리되는 합성 신호(r2')를 공급하도록 블록(TEG)에 의해 여기 신호(r3')에 부과된다. 전술된 바와 같이, 상기는 펄스 트레인 여기가 통상적으로 밝기에서 약간의 손실을 발생하며, 이것은 적절하게 가 중된 부가 잡음 시퀀스에 있어서 제거될 수 있다. 가중은 이득 인자(g)에 각각 기초하는 단순 진폭 또는 스펙트럼 성형을 포함할 수 있다.
전술된 바와 같이, 신호는 예를 들면, 라규에레 필터에 의해 블록(SEG:스펙트럼 엔벨로프 발생기)에서 필터링되며, 이것은 스펙트럼 엔벨로프를 신호에 부가한다. 그런 다음, 그 결과 생성된 신호는 이전과 같이 합성된 사인곡선 및 비상주 신호에 부가된다.
도 4 또는 도 5에서 어떠한 PTG도 사용되지 않는 경우 디코딩 스킴은 잡음 코더만을 사용하는 종래의 사인곡선 코더와 유사함을 알 수 있다. PTG가 사용되는 경우에, RPE 시퀀스는 부가되며, 이것은 재구성된 신호를 향상시킨다. 즉 보다 높은 오디오 품질을 제공한다.
도 5의 실시예에서, 완벽한 프레임에 대하여 정해진 이득이 사용되는 표준 펄스 코더(RPE 또는 MPE)와 대조하여 도 5의 실시예에서, 시간 엔벨로프는 신호(r2')에 통합됨에 주목해야 한다. 이러한 시간 엔벨로프를 사용함으로써, 프레임마다의 고정된 이득에 비교되는 이득 프로필에서의 보다 높은 유연성 때문에 보다 나은 사운드 품질을 얻을 수 있다.

Claims (22)

  1. 오디오 신호(x)를 엔코딩하는 방법으로서, 상기 방법은 상기 신호의 복수의 세그먼트들 각각에 대하여,
    상기 오디오 신호의 각각의 사인곡선 성분들에 대응하는 하나 이상의 사인곡선 코드들(CS)을 제공하도록 샘플링된 신호 값들을 분석하는 단계(TSA)와;
    제1 잔여 신호(residual signal; r1)를 제공하도록 상기 오디오 신호에서 상기 사인곡선 성분들에 대응하는 신호를 감(subtract)하는 단계와;
    상기 제1 잔여 신호의 주파수 스펙트럼에 근사한 주파수 응답을 가지는 필터의 제1 필터 파라미터들(Ps)을 결정함으로써 상기 제1 잔여 신호(r1)의 주파수 스펙트럼을 모델링하는 단계(SE)와;
    제2 잔여 신호(r2)를 제공하도록 상기 제1 잔여 신호에서 상기 제1 필터 파라미터들에 대응하는 신호를 감하는 단계와;
    각각의 펄스 트레인 파라미터들(pulse train parameters; L0)을 공급하도록 펄스 트레인 코더(RPE)로 상기 제2 잔여 신호의 성분(r2, r3)을 모델링하는 단계(RPE)와;
    상기 사인곡선 코드들(CS), 상기 제1 필터 파라미터들(Ps) 및 상기 펄스 트레인 파라미터들(L0)을 포함하는 엔코딩된 오디오 스트림(AS)을 발생하는 단계를 포 함하는, 오디오 신호 엔코딩 방법.
  2. 제1항에 있어서, 제2 파라미터들(Pt)을 결정함으로써 각각의 제2 잔여 신호의 시간 엔벨로프(temporal envelope)를 모델링하는 단계(TE)와;
    상기 제2 파라미터들에 대응하는 시간 엔벨로프를 상기 제2 잔여 신호로부터 제거함으로써 제3 잔여 신호(r3)를 제공하는 단계를 더 포함하며,
    상기 제2 잔여 신호의 상기 성분은 각각의 제3 잔여 신호(r3)를 포함하고,
    상기 발생하는 단계는 상기 엔코딩된 오디오 스트림(AS)에 상기 제2 파라미터들을 포함시키는, 오디오 신호 엔코딩 방법.
  3. 제1항에 있어서, 제2 파라미터들(PT)을 결정함으로써 상기 제2 잔여 신호의 시간 엔벨로프를 모델링하는 단계(TEG) 더 포함하며,
    상기 제2 잔여 신호의 상기 성분은 상기 제2 잔여 신호(r2)를 포함하고,
    상기 발생하는 단계는 상기 엔코딩된 오디오 스트림(AS)에 상기 제2 파라미터들을 포함시키는, 오디오 신호 엔코딩 방법.
  4. 제2항 또는 제3항에 있어서, 상기 펄스 트레인 파라미터들에 대응하는 신호와 각각의 제2 잔여 신호의 상기 성분(r2,r3)간의 차를 추정하는 단계를 더 포함하 며,
    상기 발생하는 단계는 상기 엔코딩된 오디오 스트림(AS)에 상기 차(g)의 인디케이터를 포함시키는, 오디오 신호 엔코딩 방법.
  5. 제1항에 있어서, 상기 펄스 트레인 코더는 정규 펄스 여기(regular pulse excitation; RPE) 코더, 다중 펄스 여기(multiple-pulse excitation; MPE) 코더, 또는 ACELP 코더 중 하나인, 오디오 신호 엔코딩 방법.
  6. 제1항에 있어서, 상기 제1 필터 파라미터(Ps)는 라규에르(Laguerre) 또는 선형 예측 필터 파라미터들(Linear Prediction filter parameters) 중 하나인, 오디오 신호 엔코딩 방법.
  7. 제2항 또는 제3항에 있어서, 상기 제2 파라미터들(PT)은 각각의 이득들과 함께, 선형 예측 파라미터들 또는 선형 스펙트럼 쌍(Line Spectral Pairs; LSP) 또는 선형 스펙트럼 주파수들(Line Spectral Frequencies; LSF) 계수들 중 하나를 포함하는, 오디오 신호 엔코딩 방법.
  8. 제1항에 있어서, 상기 오디오 신호에서 비상주 신호 성분(transient signal component)의 위치를 추정하는 단계(TSA)와;
    상기 비상주 신호에 형태 파라미터들 및 위치 파라미터를 가지는 형태 함수를 매칭시키는 단계와;
    상기 형태 함수를 기술하는 상기 위치 및 형태 파라미터들을 상기 오디오 스트림(AS)에 포함시키는 단계(15)를 더 포함하는, 오디오 신호 엔코딩 방법.
  9. 제1항에 있어서, 상기 사인곡선 성분들의 수는 제1 비트 레이트 버짓(bit rate budget)(B)에 의해 한정되며, 상기 펄스 트레인 코더는 제2 비트 레이트 버짓 내에서 상기 펄스 트레인 파라미터들(L0)을 생성하도록 한정되고, 상기 제1 및 제2 비트 레이트 버짓들의 합은 요구되는 엔코딩 품질에 따른 범위에서 선택되는, 오디오 신호 엔코딩 방법.
  10. 오디오 스트림을 디코딩하는 방법에 있어서,
    오디오 신호의 복수의 세그먼트들 각각에 대하여 사인곡선 코드들(CS), 펄스 트레인 파라미터들(L0) 및 제1 필터 파라미터들(Ps)을 포함하는 엔코딩된 오디오 스트림(AS')을 판독하는 단계(DeM)와;
    상기 오디오 신호의 각각의 사인곡선 성분들을 합성하기 위해 상기 사인곡선 코드들을 사용하는 단계(SiS)와;
    여기 신호를 생성하기 위해 상기 펄스 트레인 파라미터들(L0)을 사용하는 단계(PTG)와;
    상기 여기 신호를 포함하는 성분인 제1 신호(r2')에 상기 제1 필터 파라미터들(Ps)에 따른 스펙트럼 엔벨로프를 부과하는 단계와;
    합성된 오디오 신호
    Figure 112006038813744-PCT00002
    를 생성하도록 상기 합성된 사인곡선 성분들과 상기 스펙트럼적으로 필터링된 신호를 부가하는 단계를 포함하는, 오디오 스트림 디코딩 방법.
  11. 제10항에 있어서, 상기 엔코딩된 오디오 스트림은 제2 파라미터들(PT)을 포함하며, 상기 방법은,
    상기 여기 신호를 포함하는 성분인 제2 신호(r3')에 상기 제2 필터 파라미터들(PT)에 따른 시간 엔벨로프를 부과하는 단계(TEG)를 포함하며,
    상기 제1 신호는 상기 시간 필터링된 신호(r2')를 포함하는, 오디오 스트림 디코딩 방법.
  12. 제11항에 있어서,
    화이트 잡음 신호(white noise signal)를 발생하는 단계(WNG)와;
    상기 제2 신호(r3')를 공급하도록 상기 여기 신호에 상기 화이트 잡음 신호를 부가하는 단계를 더 포함하는, 오디오 스트림 디코딩 방법.
  13. 제12항에 있어서, 상기 화이트 잡음 신호를 고역 통과 필터링(high-pass filtering)하는 단계(We)를 더 포함하는, 오디오 스트림 디코딩 방법.
  14. 제12항에 있어서, 상기 화이트 잡음 신호에 인가되는 이득은 상기 오디오 스트림으로부터 판독되는, 오디오 스트림 디코딩 방법.
  15. 제10항에 있어서, 상기 엔코딩된 오디오 스트림은 제1 필터 파라미터들(PT)을 포함하며, 상기 방법은:
    상기 여기 신호에 상기 제2 필터 파라미터들(Ps)에 따른 시간 도메인 엔벨로프를 부과하는 단계(TEG)를 더 포함하고,
    상기 스펙트럼 엔벨로프는 상기 시간 필터링된 신호(r2')에 부과되는, 오디오 스트림 디코딩 방법.
  16. 제10항에 있어서, 상기 엔코딩된 오디오 스트림은 제2 필터 파라미터들(PT)을 포함하고, 상기 방법은:
    화이트 잡음 신호를 발생하는 단계(WNG)와;
    상기 화이트 잡음 신호에 상기 제2 필터 파라미터들(PS)에 따른 시간 도메인 엔벨로프를 부과하는 단계(TEG)와,
    상기 제2 신호(r2')를 제공하도록 상기 여기 신호와 상기 시간 필터링된 화이트 잡음 신호를 혼합하는 단계를 더 포함하며,
    상기 스펙트럼 엔벨로프는 상긴 제2 신호(r2')에 부과되는, 오디오 스트림 디코딩 방법.
  17. 제16항에 있어서, 상기 혼합 단계는 상기 시간 필터링된 화이트 잡음 신호 및 상기 여기 신호를 스펙트럼적으로 가중시키는 단계를 포함하는, 오디오 스트림 디코딩 방법.
  18. 오디오 신호(x)의 복수의 연속적인 세그먼트들 각각에 대하여 샘플링된 신호 값들의 각각의 세트를 처리하도록 구성된 오디오 코더에 있어서,
    상기 오디오 신호의 각각의 사인곡선 성분들에 대응하는 하나 이상의 사인곡선 코드들(CS)을 제공하기 위해 상기 샘플링된 신호 값들을 분석하도록 구성된 분석기(TSA)와;
    제1 잔여 신호(r1)를 제공하도록 상기 제1 잔여 신호에서 상기 제1 필터 파라미터들에 대응하는 신호를 감하도록 구성된 감산기와;
    상기 제1 잔여 신호의 주파수 스펙트럼에 근사한 주파수 응답을 가지는 필터의 제1 필터 파라미터들(Ps)을 결정함으로써, 상기 제1 잔여 신호(r1)의 주파수 스 펙트럼을 모델링하도록 구성된 모델러(modeller)(SEG)와;
    제2 잔여 신호(r2)를 제공하도록 상기 제1 잔여 신호에서 상기 제1 필터 파라미터들에 대응하는 신호를 감하도록 구성된 감산기와;
    각각의 펄스 트레인 파라미터들(L0)을 제공하기 위하여, 펄스 트레인 코더(RPE)로 상기 제2 잔여 신호의 성분(r2, r3)을 모델링하도록 구성된 모델러(RPE)와;
    상기 사인곡선 코드들(CS), 상기 제1 필터 파라미터들(Ps) 및 상기 펄스 트레인 파라미터들(L0)을 포함하는 엔코딩된 오디오 스트림(AS)을 발생하는 비트 스트림 발생기(15)를 포함하는, 오디오 코더.
  19. 오디오 재생기에 있어서,
    오디오 신호의 복수의 세그먼트들 각각에 대하여, 사인곡선 코드들(CS), 펄스 트레인 파라미터들(L0), 제1 필터 파라미터들(Ps)을 포함하는 엔코딩된 오디오 스트림(AS')을 판독하는 수단(DeM)과;
    상기 오디오 신호의 각각의 사인곡선 성분들을 합성하기 위하여 상기 사인곡선 코드들을 사용하도록 구성된 합성기(SiS)와;
    상기 펄스 트레인 파라미터들(L0)로부터 상기 여기 신호를 발생하는 수단(PTG)과;
    상기 여기 신호를 포함하는 성분인 제1 신호(r2')에 상기 제1 필터 파라미터들(Ps)에 따른 스펙트럼 엔벨로프를 부과하는 수단(SEG)과;
    합성된 오디오 신호
    Figure 112006038813744-PCT00003
    를 생성하도록 상기 합성된 사인곡선 성분들 및 상기 스펙트럼적으로 필터링된 신호를 부가하는 가산기를 포함하는, 오디오 재생기.
  20. 제18항의 오디오 코더와 청구항 제19항의 오디오 재생기를 포함하는 오디오 시스템.
  21. 오디오 신호(x)의 각각의 사인곡선 성분들에 대응하는 사인곡선 코드들(CS)과; 제1 잔여 신호의 주파수 스펙트럼에 근사한 주파수 응답을 가지는 필터의 제1 필터 파라미터들(Ps)로서, 상기 제1 잔여 신호는 상기 오디오 신호에 대응하며 상기 사인곡선 성분들에 대응하는 신호는 감해지는, 상기 제1 필터 파라미터들(Ps); 및 제2 잔여 신호의 성분(r2, r3)으로부터 모델링된 펄스 트레인 파라미터들(L0)을 포함하며, 상기 제2 잔여 신호는 제1 잔여 신호에 대응하고 상기 제1 필터 파라미터들에 대응하는 신호는 감해지는, 오디오 스트림(AS).
  22. 청구항 제21항의 오디오 스트림(AS)이 저장되는 기억 매체.
KR1020067010715A 2003-12-01 2004-11-24 오디오 코딩 KR20060131766A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP03104472 2003-12-01
EP03104472.0 2003-12-01

Publications (1)

Publication Number Publication Date
KR20060131766A true KR20060131766A (ko) 2006-12-20

Family

ID=34639308

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020067010715A KR20060131766A (ko) 2003-12-01 2004-11-24 오디오 코딩

Country Status (6)

Country Link
US (1) US20070106505A1 (ko)
EP (1) EP1692688A1 (ko)
JP (1) JP2007512572A (ko)
KR (1) KR20060131766A (ko)
CN (1) CN1886783A (ko)
WO (1) WO2005055204A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022010189A1 (ko) * 2020-07-06 2022-01-13 한국전자통신연구원 천이구간 부호화 왜곡에 강인한 오디오 부호화/복호화 장치 및 방법

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101124626B (zh) * 2004-09-17 2011-07-06 皇家飞利浦电子股份有限公司 用于最小化感知失真的组合音频编码
US20080212784A1 (en) * 2005-07-06 2008-09-04 Koninklijke Philips Electronics, N.V. Parametric Multi-Channel Decoding
US20090308229A1 (en) * 2006-06-29 2009-12-17 Nxp B.V. Decoding sound parameters
KR20080073925A (ko) * 2007-02-07 2008-08-12 삼성전자주식회사 파라메트릭 부호화된 오디오 신호를 복호화하는 방법 및장치
GB0704622D0 (en) * 2007-03-09 2007-04-18 Skype Ltd Speech coding system and method
KR101413968B1 (ko) * 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화, 복호화 방법 및 장치
KR101413967B1 (ko) * 2008-01-29 2014-07-01 삼성전자주식회사 오디오 신호의 부호화 방법 및 복호화 방법, 및 그에 대한 기록 매체, 오디오 신호의 부호화 장치 및 복호화 장치
CN102460574A (zh) * 2009-05-19 2012-05-16 韩国电子通信研究院 用于使用层级正弦脉冲编码对音频信号进行编码和解码的方法和设备
WO2014096236A2 (en) 2012-12-19 2014-06-26 Dolby International Ab Signal adaptive fir/iir predictors for minimizing entropy
KR101413969B1 (ko) * 2012-12-20 2014-07-08 삼성전자주식회사 오디오 신호의 복호화 방법 및 장치

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69029120T2 (de) * 1989-04-25 1997-04-30 Toshiba Kawasaki Kk Stimmenkodierer
FI98163C (fi) * 1994-02-08 1997-04-25 Nokia Mobile Phones Ltd Koodausjärjestelmä parametriseen puheenkoodaukseen
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US6298322B1 (en) * 1999-05-06 2001-10-02 Eric Lindemann Encoding and synthesis of tonal audio signals using dominant sinusoids and a vector-quantized residual tonal signal
CN1154975C (zh) * 2000-03-15 2004-06-23 皇家菲利浦电子有限公司 用于声频编码的拉盖尔函数
US7233896B2 (en) * 2002-07-30 2007-06-19 Motorola Inc. Regular-pulse excitation speech coder

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022010189A1 (ko) * 2020-07-06 2022-01-13 한국전자통신연구원 천이구간 부호화 왜곡에 강인한 오디오 부호화/복호화 장치 및 방법

Also Published As

Publication number Publication date
US20070106505A1 (en) 2007-05-10
CN1886783A (zh) 2006-12-27
WO2005055204A1 (en) 2005-06-16
JP2007512572A (ja) 2007-05-17
EP1692688A1 (en) 2006-08-23

Similar Documents

Publication Publication Date Title
EP1756807B1 (en) Audio encoding
US8706480B2 (en) Audio encoder for encoding an audio signal having an impulse-like portion and stationary portion, encoding methods, decoder, decoding method, and encoding audio signal
EP1141946B1 (en) Coded enhancement feature for improved performance in coding communication signals
JP4180677B2 (ja) 音声符号化並びに復号化方法及びその装置
EP2132731B1 (en) Method and arrangement for smoothing of stationary background noise
Bessette et al. A wideband speech and audio codec at 16/24/32 kbit/s using hybrid ACELP/TCX techniques
KR20060131766A (ko) 오디오 코딩
US7197454B2 (en) Audio coding
KR20070029751A (ko) 오디오 인코딩 및 디코딩
JP3558031B2 (ja) 音声復号化装置
Shlomot et al. Hybrid coding of speech at 4 kbps
JP2001051699A (ja) 無音声符号化を含む音声符号化・復号装置、復号化方法及びプログラムを記録した記録媒体
JP3296411B2 (ja) 音声符号化方法および復号化方法
Yang et al. Pitch synchronous multi-band (PSMB) speech coding
JP2853170B2 (ja) 音声符号化復号化方式
JP2000305597A (ja) 音声圧縮のコード化
JP3071800B2 (ja) 適応ポストフィルタ
Ritz et al. Wideband Speech Coding at 4 kbps using Waveform Interpolation
KR100624545B1 (ko) 티티에스 시스템의 음성압축 및 합성방법
Ritz et al. Low bit rate wideband WI speech coding
KR20060131729A (ko) 과도 오디오 신호 성분들의 인코딩
JP3274451B2 (ja) 適応ポストフィルタ及び適応ポストフィルタリング方法
KR20070030816A (ko) 오디오 인코딩
Skoglund et al. A combined WI and MELP coder at 5.2 kbps
Schuijers et al. Progress on parametric coding for high quality audio

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid