KR20030011912A - 오디오 코딩 - Google Patents

오디오 코딩 Download PDF

Info

Publication number
KR20030011912A
KR20030011912A KR1020027017325A KR20027017325A KR20030011912A KR 20030011912 A KR20030011912 A KR 20030011912A KR 1020027017325 A KR1020027017325 A KR 1020027017325A KR 20027017325 A KR20027017325 A KR 20027017325A KR 20030011912 A KR20030011912 A KR 20030011912A
Authority
KR
South Korea
Prior art keywords
signal
audio
sampling frequency
parameters
audio signal
Prior art date
Application number
KR1020027017325A
Other languages
English (en)
Inventor
반데케르코프레온엠
오멘아르놀도더블류제이
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20030011912A publication Critical patent/KR20030011912A/ko

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/10Digital recording or reproducing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/10Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a multipulse excitation

Abstract

본 발명은 오디오 신호(x)의 코딩을 제공하며, 코딩된 비트스트림(AS) 의미 및 구문은 특정 샘플링 주파수에 관련되지 않는다. 따라서, 프레임 길이 같은 암시적 파라미터들을 포함하는, 오디오 신호(x)를 재생하도록 요구되는 모든 비트스트림 파라미터들(CT, CS, CN)은 절대 주파수들 및 절대 타이밍에 관련되므로, 샘플링 주파수에 관련되지 않는다.

Description

오디오 코딩{audio coding}
지각력 코더(perceptual coder)들은 마스킹(masking)으로 불리는 인간 청취계의 현상에 의존한다. 보통 인간의 귀는 광범위의 주파수들에 민감하다. 그러나, 많은 신호 에너지가 하나의 주파수로 존재하는 경우, 이 귀는 근방 주파수들에서 더 낮은 에너지를 들을 수 없는데, 즉 더 고성의 주파수는 더 부드러운 주파수들을 마스커(masker)로 불리는 더 고성의 주파수로 마스킹하며, 그 더 부드러눈 주파수는 타깃(target)이라 칭한다. 지각력 코더들은 마스킹된 주파수들에 관한 정보를 버림으로써 신호 대역폭을 절약한다. 그 결과는 원래 신호와 같지 않지만, 적절히 계산되어, 인간의 귀는 그 차이를 들을 수 없다. 2가지 특정 유형의 지각력 코더들은 변환 코더들 및 부대역 코더들(sub-band coders)이다.
통상, 변환 코더들에서, 들어오는 오디오 신호는, 각각이 하나 또는 그 이상의 세그먼트들을 포함한, 하나 또는 그 이상의 프레임들을 포함하는 비트스트림에 인코딩된다. 상기 인코더는 주어진 샘플링 주파수에서 획득한 샘플들의 블록들(세그먼트들)로 나누며, 이들은 신호의 스펙트럼 특성들을 식별하도록 주파수 영역으로 변환된다. 결과로서 생긴 계수들은 완전한 정확도로 전송되지 않지만, 그 대신에 덜 정확한 것에 대한 보답으로 단어 길이에서 절약되도록 양자화된다. 디코더는 잡음층(noise floor)이 더 높은, 형성된 원래의 버전을 생성하도록 역 변환을 수행한다. 통상, 계수 주파수 값들은 변환 길이 및 샘플링 주파수에 의해 암시적으로 결정되거나, 바꾸어 말하면, 변환 계수에 대응하는 주파수 (범위)는 샘플링 레이트에 바로 관련되어 있다.
부대역 코더(SBC; sub-band coder)들은 변환 코더들과 같은 방식으로 동작하지만, 여기서 주파수 영역으로의 변환은 부대역 필터에 의해 행해진다. 부대역 신호들은 전송 전에 양자화 및 코딩된다. 각각의 부대역의 중심 주파수 및 대역폭은 필터 구조 및 샘플링 주파수에 의해 다시 암시적으로 결정된다.
통상적으로 변환 코더들의 경우 및 특히 부대역 코더들의 경우 모두에 있어서, 적용된 필터들의 해상도는 변환 또는 부대역 필터 뱅크가 동작하는 샘플링 주파수로 바로 스케일링된다.
그러나, 다수의 신호들은 결정적 성분만이 아니라 비결정적 또는 통계적 잡음 성분을 포함하고, 선형 예측 코딩(LPC; Linear Predictive Coding)은 이러한 유형의 스펙트럼 형상 또는 신호의 성분을 나타내도록 이용되는 한 기술이다. 통상, LPC 방식의 코더는 노이지 성분 또는 신호로부터 샘플들의 블록들을 얻어, 샘플들의 블록의 스펙트럼 형상을 나타내는 필터 파리미터들을 생성한다. 그 다음, 디코더는 원래의 신호로부터 계산된 필터 파라미터들을 이용하여, 같은 샘플링 레이트에서 합성 잡음을 생성하고, 원래 신호의 스펙트럼 형상의 근사치로 신호를 생성한다. 그러나, 디코더가 원래의 샘플링 주파수와 관련된 필터 파라미터들을 이용하여 작동되어야만 하는 하나의 특정 샘플링 주파수를 위해 이러한 코더들을 설계한다는 것을 알 수 있다. 예측 필터 파라미터들은 이 샘플링 주파수에만 유효한데, 왜냐하면 올바른 출력을 발생시키기 위하여 특정 샘플링 주파수에서 예측 에러가 발생될 것이기 때문이다.(매우 특정한 경우들에서, 다른 샘플링 주파수, 예컨대 샘플링 주파수의 정확히 1/2에서 디코더를 작동시킬 수 있다.)
그러나, 전반적으로 상술되었고, 예를 들어 PCT 공보 제 WO97/21310에 예시되는 것들을 포함하는 본 명세서에 제기된 기존의 저 비트 레이트 오디오 코딩 시스템들에 관한 문제는, 인코더에 의해 생성된 비트스트림이, 그 비트스트림이 인코더에 의해 생성되었던 샘플링 주파수에 관련되고, 그 샘플링 주파수에서 디코더는 시간 영역 PCM(펄스 코드 변조) 출력 신호를 발생하도록 작동해야만 한다는 것이다. 따라서, 디코더에서 이용될 샘플링 주파수는 디코더를 위한 파라미터로서 비트스트림 구문에 포함되거나 다른 방식으로 디코더에 알려져 있는 것이다.
또한, 디코더 하드웨어는 코딩된 비트스트림을 생성하도록 인코더에 의해 이용될 수 있는 임의의 샘플링 주파수에서 동작할 수 있는 클록킹 회로를 필요로 한다. 출력 샘플링 주파수의 스케일링에 의해 디코더를 위한 계산 작업에 관한 스케일가능성이 존재하지 않거나, 다수의 이산적 단계들에 제한된다.
본 발명은 오디오 신호들의 코딩 및 디코딩에 관한 것이다. 특히, 본 발명은 고상(solid-state) 오디오 또는 인터넷 오디오에서 이용되는 저 비트 레이트 오디오 코딩에 관한 것이다.
도 1은 본 발명에 따른 오디오 코더의 실시예를 도시하는 도면.
도 2는 본 발명에 따른 오디오 플레이어의 실시예를 도시하는 도면.
도 3은 오디오 코더 및 오디오 플레이어를 포함하는 시스템을 도시하는 도면.
본 발명은 오디오 신호를 인코딩하는 방법을 제공하는 것으로, 상기 방법은샘플링된 신호 값들을 생성하도록 제 1 샘플링 주파수에서 오디오 신호를 샘플링하는 단계, 오디오 신호의 파라메트릭 표현을 생성하도록 샘플링된 신호 값들을 분석하는 단계, 및 상기 오디오 신호가 상기 샘플링 주파수와 관계없이 합성되도록 상기 제 1 샘플링 주파수와 관계없고 상기 오디오 신호를 나타내는 파라메트릭 표현을 포함하는 인코딩된 오디오 스트림을 생성하는 단계를 포함한다.
따라서, 프레임 길이같은 암시적인 파라미터들을 포함하는, 오디오 신호를 재생하도록 요구되는 상기 코딩된 비트스트림 의미 및 구문은 절대 주파수들 및 절대 타이밍에 관련되며, 그러므로 샘플링 주파수에 관련되지 않는다.
이와 같이, 디코더의 출력 샘플링 주파수는 인코더에 대한 입력 신호의 샘플링 주파수에 관련될 필요가 없고, 그래서 인코더 및 디코더는 서로 독립적으로, 사용자 선택 샘플링 주파수에서 작동할 수 있다.
그러므로, 디코더는 예컨대, 디코더 하드웨어의 클록킹 회로에 의해 지원된 단일 샘플링 주파수 또는 디코더 하드웨어 플랫폼의 처리 능력에 의해 지원된 최고 샘플링 주파수에서 작동할 수 있다.
본 발명의 바람직한 실시예에서, 파라메트릭 표현의 성분들은 과도(transient) 신호 성분들의 위치 및 형상 파라미터들, 및 링크된 신호 성분들을 나타내는 트랙들을 포함한다. 이러한 경우, 상기 파라미터들은 절대 시간들 및 주파수들로서 인코딩되거나, 코더 샘플링 주파수와 관계없는 절대 시간들 및 주파수들을 나타낼 수 있다. 또한, 본 실시예에서, 파라메트릭 표현의 성분은 원래의 코더 샘플링 주파수와 관계없는 오디오 신호의 잡음 성분을 나타내는 라인 스펙트럼 주파수들을 포함한다.
이제, 첨부된 도면을 참조로 본 발명의 실시예를 기술하기로 한다.
본 발명의 바람직한 실시예 도 1에서, 인코더는 2000년 3월 15일(대리인 참조번호:PH-NL000120)자로 출원된, 유럽특허공보 제 00200939.7 호에 기술된 유형의 사인파 코더(sinusoidal coder)이다. 앞의 경우 및 바람직한 실시예의 양자 모두에서, 오디오 코더(1)는 소정의 샘플링 주파수에서 입력 오디오 신호를 샘플링하고 그 결과로 오디오 신호의 디지털 표현 x(t)가 얻어진다. 이는 시간 스케일 t을 샘플링 레이트에 의존하게 한다. 그 다음, 코더(1)는 샘플링된 입력 신호를 3개의 성분들 즉, 과도 신호 성분들, 유지된 결정적 성분들, 및 유지된 확률적 성분들로 분리한다. 오디오 코더(1)는 과도 코더(11), 사인파 코더(13) 및 잡음 코더(14)를 포함한다. 오디오 코더는 선택적으로 이득 압축 메커니즘(GC; gain compression mechanism)(12)을 포함한다.
본 발명의 유리한 실시예에서, 유지된 코딩 전에 과도 코딩이 수행된다. 이는 과도 신호 성분들이 유지된 코더들에서 능률적으로 또한 최적으로 코딩되지 않기 때문에 유리하다. 과도 신호 성분들을 코딩하는데 유지된 코더들을 이용하면, 많은 노력을 필요로 하는데, 예컨대 유지된 사인파들 만으로 과도 신호 성분을 코딩하는 것이 힘들다는 것을 상상할 수 있다. 따라서, 유지된 코딩 전에 코딩될 오디오 신호로부터 과도 신호 성분들을 제거하는 것이 유리하다. 또한, 과도 코더에서 유도된 과도 시작 위치를 적응형 분할(적응형 프레이밍)을 위해 유지된 코더들에서 이용할 수 있음을 알 것이다.
그럼에도 불구하고, 본 발명은 유럽특허공보 제00200939.7호에 개시된 과도 코딩의 특정 용도에 한정되지 않으며, 예시적인 목적들만을 위해 제공된다.
과도 코더(11)는 과도 디코더(TD)(110), 과도 분석기(TA)(111) 및 과도 합성기(TS)(112)를 포함한다. 먼저, 신호 x(t)가 과도 디코더(110)로 들어간다. 이 디코더(110)는 과도 신호 성분 및 그의 위치가 있는지를 추정한다. 이 정보는 과도 분석기(111)에 공급된다. 또한, 이 정보는 유리한 신호 유도 분할(signal-induced segmentation)을 얻도록 사인파 코더(13) 및 잡음 코더(14)에서 이용될 수 있다. 과도 신호 성분의 위기를 결정하면, 과도 분석기(111)는 과도 신호 성분(의 주요 부분)을 추출하려고 한다. 바람직하게 추정된 시작 위치에서 시작하는 신호 세그먼트에 형상 함수(shape function)를 정합시키고, 예를 들어 사인파 성분들의 (작은) 숫자를 채용함으로써, 형상 함수 아래의 컨텐츠를 결정한다. 이 정보는 과도 코드 CT에 포함되며 상기 과도 코드 CT을 생성하는 것에 대한 보다 상세한 정보는 유럽특허공보 제 00200939.7호에 제공된다. 어쨌든, 예를 들어 과도 분석기가 형상 함수같은 Meixner을 채용하는 경우에, 그 다음에 과도 코드 CT가 과도가 시작하는 시작 위치 즉, 과도의 사인파를 위한 주파수, 진폭 및 위상 데이터뿐만 아니라, 실질적으로 초기 개시율을 나타내는 파라미터 및 실질적으로 쇠퇴율을 나타내는 파라미터를 포함할 수 있음을 알 수 있다. 따라서, 본 발명을 구현하기 위하여, 시작 위치는 예컨대, 프레임 내의 샘플수보다는 오히려 시간값으로 전송되어야 하고, 사인파 주파수들은 절대값들 또는 변환 샘플링 주파수로부터 단지 유도할 수 있거나 이에 비례하는 값들보다 오히려 절대값들을 나타내는 식별자들을 이용하여 전송되어야 한다. 종래 기술 시스템들에서, 후자의 선택들은 이산값들인, 인코딩 및 압축하기에 용이한 것으로 통상 직관적으로 선택된다. 그러나, 이것은 디코더에게 오디오 신호를 재생하기 위하여 샘플링 주파수를 재생하라고 요구하다.
또한, 과도 신호 성분이 진폭 엔벨로프에서 스텝 같은 변화인 경우에 형상 함수가 스텝 표시를 포함할 수 있음을 알 수 있다. 이러한 경우, 과도 위치는 오직 사인파 및 잡음 모듈을 합성하는 동안에 분할에 영향을 미친다. 그러나 다시, 샘플링 주파수에 관련되는, 스텝 같은 변화의 위치는 샘플수보다는 오히려 시간값으로 인코딩된다.
과도 코드 CT는 과도 합성기(112)에 공급된다. 서브트랙터(16)에서 입력 신호 x(t)로부터 합성된 과도 신호 성분을 빼내어 신호 x1이 된다. 이러한 경우, GC(12)를 생략하여, X1=X2이다. 신호 x2는 (결정적인) 사인파 성분들을 결정하는 사인파 분석기(SA)(130)에서 분석되는 사인파 코더(13)에 공급된다. 결과로서 생긴 정보는 사인파 코드 CS에 포함되고, 예시적인 사인파 코드 CS의 발생을 나타내는 보다 상세한 계는 PCT 특허 출원 제 PCT/EP00/05344(대인인 참조번호:N 017502)에제공된다. 대안적으로, 기본적 구현예는 1986년, 43:744-754, Signal IEEE Trans.Acoust., Speech, Signal Precess.의 R.McAulay al T.Quartieri에 의한 "Speech analysis/synthesis based on sinusoidal representation" 또는 1996년, Technical note MPEG95/0414r, Int.Oraganisation for Standardisation ISO/IEC JTC1/SC29/WG11의 B.Edler, H.Purnhagen 및 C.Ferekidis에 의한 "Technical description of the MPEG-4 audio-coding proposal from the University of Hannover and Deutsche Bundespost Teleckrm AG(revised)"에 개시되어 있다.
그러나, 요컨대, 바람직한 실시예의 사인파 코더는 하나의 프레임 세그먼트에서 다음에 링크된 사인파 성분들의 트랙들로서 입력 신호 x2를 인코딩한다. 이 트랙들은 처음에 주어진 세그먼트-태생-에서 시작하는 사인파를 위한 시작 주파수, 시작 진폭 및 위상에 의해 나타내진다. 이후, 트랙은 트랙이 끝(종결)나는 세그먼트까지 주파수 차이들, 진폭 차이들 및 가능한한 위상 차이들(연속들)에 의한 후속 세그먼트들에서 나타내진다. 실제, 위상 차이들을 코딩하는 중에 이득이 거의 없다고 결정될 수 있다. 따라서, 위상 정보는 전혀 연산들을 위해 인코딩될 필요가 없고, 위상 정보는 연속적인 위상 재구성을 이용하여 재생될 수도 있다. 다시, 본 발명을 구현하기 위하여, 시작 주파수들는 절대값들로서 사인파 코드 CS 내에 인코딩되거나 상기 인코딩된 신호를 확보하기 위해 절대 주파수들을 나타내는 식별자들은 샘플링 주파수와 관계없다.
사인파 코드 CS에서, 사인파 신호 성분은 사인파 합성기(SS)(131)에 의해 재구성된다. 이 신호는 입력 x2에서 사인파 코더(13)에의 서브트랙터(17)에서 빼져 (큰)과도 신호 성분들 및 (주요한) 결정적 사인파 성분들이 없는 신호 x3이 된다.
결과로서 생긴 신호 x3은 주로 잡음을 포함한다고 가정되고, 바람직한 실시예의 잡음 분석기(14)는 이 잡음을 나타내는 잡음 코드 CN을 생성한다. 통상적으로, 예컨대 2000년 5월 17일에 제출된 PCT 공보 No.PCT/EP00/04599에서와 같이, 잡음의 스펙트럼은 등가 직사각 대역폭(ERB; Equivalent Rectangular Bandwidth) 스케일에 따른 조합된 AR(자동 희귀) MA(이동 평균) 필터 파라미터들(pi,qi)을 갖는 잡음 코더에 의해 모델링된다. 도 2의 디코더내에서는, 필터 파라미터들은 주로 필터인, 잡음의 스펙트럼에 근사한 주파수 응답을 갖는 잡음 합성기 NS(33)에 공급된다. NS(33)는 ARMA 필터링 파라미터들(pi,qi)로 화이트 잡음 신호를 필터링함으로써 재구성된 잡음 yN를 생성하고, 그 후 이것을 합성된 과도 yT 및 사인파 yS 신호들에 부가한다.
그러나, ARMA 필터링 파라미터들(pi,qi)은 잡음 분석기의 샘플링 주파수에 다시 의존하고, 그리하여 본 발명을 구현하기 위하여, 이 파라미터들은 인코딩 전에 라인 스펙트럼 페어(LSP)로서도 알려진 라인 스펙트럼 주파수들(LSF)로 변환된다. 이 LSF 파라미터들이 절대 주파수 그리드 또는 ERB 스케일에 관련된 그리드 또는 바르크 스케일(Bark scale)에 나타내질 수 있다. LSP에 관한 상세한 정보는 1984년 ICASSP 페이지. 1.10.1, F.K.Soong 및 B.H.Juang에 의한 "Line Spectrum Pair(LSP) and speech data compression"에서 찾을 수 있다. 어떤 경우들에서, 이 경우(pi,qi) 독립된 샘플링 주파수이고 반대로 디코더에서 필요로 되는 LSF에의 인코더 샘플링 주파수에 의존하는 한 유형의 선형 예측 필터 유형 계수들로부터의 이러한 변환은 널리 알려져 있어, 여기에 더 논의되지 않는다. 그러나, 디코더내의 필터 계수들(p'i,q'i)에의 LSF 변환이, 잡음 합성기(33)가 잡음 샘플들을 생성하는 주파수를 참조하여 행해져, 디코더가 원래 샘플링되는 방식과 관계없이 잡음 신호 yN을 생성하게 함을 알 수 있다.
사인파 코더(13)에서의 상황과 유사하게, 잡음 분석기(14)가 또한 새로운 분석 블록을 시작하는 위치로서 과도 신호 성분의 시작 위치를 이용할 수 있음을 알 수 있다. 따라서, 사인파 분석기(130) 및 잡음 분석기(14)의 세그먼트 크기들은 반드시 같지는 아니다.
최종적으로, 멀티플렉서(15)에서, 코드들 CT, CS 및 CN을 포함하는 오디오 스트림(AS)이 구성된다. 이 오디오 스트림(AS)은 예컨대, 데이터 버스, 안테나 시스템, 저장 매체 등에 공급된다.
도 2는 본 발명에 따른 오디오 플레이어(3)를 도시한다. 예를 들어 도 1에 따른 인코더에 의해 발생되는 오디오 스트림 AS'은 데이터 버스, 안테나 시스템, 저장 매체 등으로부터 얻어진다. 오디오 스트림 AS은 코드들 CT, CS 및 CN을 얻도록 디멀티플렉서(30)에서 디멀티플렉싱된다. 이 코드들은 과도 합성기(31), 사인파 합성기(32) 및 잡음 합성기(33)에 각각 공급된다. 과도 코드 CT에서, 과도 신호 성분들은 과도 합성기(31)에서 계산된다. 이 경우, 과도 코드는 형상 함수를 나타내고, 상기 형상은 수신된 파라미터들에 기초하여 계산된다. 또한, 형상 함수는 사인파 성분들의 주파수들 및 진폭들에 기초하여 계산된다. 과도 코드 CT가 스텝을 나타내면, 이후 과도가 계산되지 않는다. 총 과도 신호 yT는 모든 과도들의 합이다.
적응형 프레이밍을 사용하면, 이후 과도 위치들로부터, 사인파 합성 SS(32) 및 잡음 합성 NS(33)을 위한 분할이 계산된다. 사인파 코드 CS는 주어진 세그먼트에 대한 사인파들의 합으로 기재되는 신호 생성하도록 이용된다. 잡음 코드 CN은 잡음 신호 yN을 생성하도록 이용된다. 이를 행하기 위해, 프레임 세그먼트를 위한 라인 스펙트럼 주파수들은 먼저 화이트 잡음이 잡음 합성기에 의해 발생되는 주파수를 위해 제공되는 ARMA 필터링 파라미터들로 변환되고, 이들은 오디오 신호의 잡음 성분을 생성하도록 화이트 잡음 값들과 조합된다. 어떤 경우, 후속 프레임 세그먼트들은 예컨대, 중복-부가 방법에 의해 부가된다.
총 신호 y(t)는 과도 신호 yT 와 임의의 진폭 분해(g)의 곱의 합 및 사인파 신호 yS 및 잡음 신호 yN의 합을 포함한다. 오디오 플레이어는 두 개의 각각의 신호들을 합하도록 가산기들(36 및 37)을 포함한다. 총 신호는 예컨대 스피커인 출력 유닛(35)에 공급된다.
도 3은 도 1에 도시된 오디오 코더(1) 및 도 2에 도시된 오디오 플레이어(3)를 포함하는 본 발명에 따른 오디오 시스템을 도시한다. 이러한 시스템은 재생하고 기록하는 특성들을 제공한다. 오디오 스트림(AS)은 무선 접속, 데이터(20) 버스 또는 저장 매체일 수 있는, 통신 채널(2)을 통해 오디오 코더로부터 오디오 플레이어에 공급된다. 이 경우, 통신 채널(2)은 저장 매체이고, 이 저장 매체는 시스템에 고정되거나 제거가능 디스크, 메모리 스틱 등일 수 있다. 통신 채널(2)은 오디오 시스템의 일부일 수 있지만, 그러나 종종 오디오 시스템 밖에 있을 것이다.
요컨대, 바람직한 실시예의 코더가 3개 유형의 성분들, 즉
·절대 주파수들이 비트스트림에서 전송되는 사인파 성분들,
·프레임 세그먼트 내의 절대 위치 과도 위치가 전송되고, 과도 엔벨로프가 절대 시간 스케일에 지정되는 과도 성분들,
·라인 스펙트럼 주파수들이 비트스트림에서 전송되는 잡음 성분들로의 광대역 오디오 신호의 분해에 기초한다.
또한, 프레임 길이는 최신식의 코더들에서와 같이 샘플들의 수 대신에 절대 시간에 지정되어야만 한다.
이러한 코더에 대하여, 디코더는 어떤 샘플링 주파수로 작동할 수 있다. 그러나, 샘플링 주파수가 비트스트림에 포함되는 어떤 성분의 두 번째로 가장 높은 주파수라면 물론 단지 완전한 대역폭을 얻을 수 있다. 어떤 적용을 위해, 비트스트림에서 이용할 수 있는 완전한 대역폭을 얻기 위하여 디코더에서 이용될 최소의 대역폭(또는 샘플링 주파수)을 미리 규정할 수 있다. 보다 바람직한 실시예에서, 추천된 최소 대역폭(또는 샘플링 주파수)는 비트스트림 예컨대, 하나 또는 그 이상의 비트들을 나타내는 형태에 포함된다. 이 추천된 최소 대역폭은 비트스트림에서 이용할 수 있는 완전한 대역폭을 얻기 위하여 이용될 최소 대역폭/샘플링 주파수를 결정하도록 적당한 디코더에서 이용될 수 있다.
또한, 시간 스케일링 및 피치 시프트(pitch shift)가 본래 이러한 시스템에 의해 지원됨을 알아야 한다. 시간 스케일링은 간단히 인코더에 의해 선택된 것과는 다른 절대 프레임 길이를 이용하는 것을 포함한다. 피치 시프트는 모든 절대 주파수들을 어떤 인자로 간단히 곱하여 얻어질 수 있다.
DSP(디지털 신호 프로세서) 또는 범용 컴퓨터로 작동하는 소프트웨어, 전용 하드웨어에서 본 발명을 구현할 수 있다는 것은 이해될 것이다. 본 발명은 본 발명에 따른 인코딩 방법을 실행하기 위한 컴퓨터 프로그램을 휴대하는 CD-ROM 또는 DVD-ROM과 같은 유형 매체에서 구현될 수 있다. 또한, 본 발명은 인터넷과 같은 데이터 네트워크를 통해 전송되는 신호 또는 방송 서비스에 의해 전송되는 신호로서 구현될 수 있다.
상기 언급한 실시예들이 본 발명을 제한하기 보다는 예시일 뿐이고, 본 기술분야에 숙련된 자들이 첨부된 청구범위의 범위를 벗어나지 않는 여러 대안의 실시예들을 설계할 수 있다는 것에 유의한다. 청구항에서, 괄호 사이에 위치한 임의의 참조 부호들은 청구범위를 제한하는 것으로 해석되지 않을 것이다. 단어 "포함하는"는 청구항에 열거된 것과는 다른 요소들 및 단계들의 존재를 배제하지 않는다. 본 발명은 여러 서로 다른 요소들을 포함하는 하드웨어에 의해, 적절히 프로그램된 컴퓨터에 의해 구현될 수 있다. 여러 수단을 열거하는 장치 청구항에서, 상기 여러 수단들은 하드웨어의 하나 또는 같은 아이템에 의해 구현될 수 있다. 어떤 측정치들이 서로 다른 종속항들에서 재인용된다는 단순한 사실은 이 측정치들의 조합이 유리하게 이용될 수 없다는 것을 나타내지는 않는다.
요컨대, 오디오 신호 코딩은 코딩된 비트스트림 의미 및 구문이 특정 샘플링 주파수에 관련되지 않는 경우에 제공된다. 따라서, 프레임 길이와 같은 암시적인 파라미터들을 포함하는, 오디오 신호를 재생하도록 요구되는 모든 비트스트림 파라미터들은 절대 주파수 및 절대 타이밍에 관련되고, 따라서 샘플링 주파수에 관련되지 않는다.

Claims (17)

  1. 오디오 신호(x)를 인코딩(1)하는 방법에 있어서,
    샘플링된 신호 값들을 생성하도록 제 1 샘플링 주파수에서 상기 오디오 신호(x)를 샘플링하는 단계,
    상기 오디오 신호의 파라메트릭 표현을 생성하도록 상기 샘플링된 신호 값들을 분석하는 단계(11, 13, 14), 및
    상기 오디오 신호가 상기 샘플링 주파수와 관계없이 합성되도록 상기 제 1 샘플링 주파수와 관계없고 상기 오디오 신호를 나타내는 파라메트릭 표현을 포함하는 인코딩된 오디오 스트림(AS)을 생성하는 단계를 포함하는, 오디오 신호 인코딩 방법.
  2. 제 1 항에 있어서,
    잡음 성분의 타깃 스펙트럼에 근사한 주파수 응답을 갖는 필터의 필터 파라미터들(pi, qi)을 결정함으로써 상기 오디오 신호의 상기 잡음 성분을 모델링하는 단계(14), 및
    상기 필터 파라미터들을 상기 제 1 샘플링된 주파수와 관계없는 파라미터들로 변환하는 단계를 더 포함하는, 오디오 신호 인코딩 방법.
  3. 제 2 항에 있어서,
    상기 필터 파라미터들은 자동 희귀(pi) 및 이동 평균(qi) 파라미터들이고, 상기 독립 파라미터들은 라인 스펙트럼 주파수들을 나타내는, 오디오 신호 인코딩 방법.
  4. 제 3 항에 있어서,
    상기 독립 파라미터들은 절대 주파수들 또는 바르크 스케일(Bark scale) 또는 ERB 스케일 중의 하나로 나타내지는, 오디오 신호 인코딩 방법.
  5. 제 1 항에 있어서,
    상기 오디오 신호에서의 과도 신호 성분의 위치를 추정하는 단계(110),
    상기 과도 신호에 대한 형상 파라미터들 및 위치 파라미터를 갖는 형상 함수를 정합하는 단계(111, 112)로서, 상기 위치 파라미터는 상기 오디오 신호(x)에서 상기 과도 신호 성분의 절대 시간 위치를 나타내는, 상기 형상 함수를 정합하는 단계(111, 112), 및
    상기 오디오 스트림(AS)에서 상기 형상 함수를 기술하는 상기 위치 및 형상 파라미터들을 포함하는 단계(15)를 포함하는, 오디오 신호 인코딩 방법.
  6. 제 5 항에 있어서,
    상기 정합하는 단계는 초기 증가 이후 쇠퇴하는 상기 과도 신호 성분에 응답하여 실질적으로 지수적인 초기 행동과 실질적으로 대수적인 쇠퇴 행동을 갖는 형상 함수를 제공하는, 오디오 신호 인코딩 방법.
  7. 제 5 항에 있어서,
    상기 형상 함수의 초기 행동은 실질적으로 tn에 따르고, 상기 형상 함수의 쇠퇴 행동은 실질적으로 e-αt에 따르며,
    여기서 t는 시간이고 n 및 α는 파라미터들인, 오디오 신호 인코딩 방법.
  8. 제 5 항에 있어서,
    상기 정합하는 단계는 상기 과도 신호 성분이 진폭에서의 스텝과 같은 변화인 것에 응답하여 스텝 과도를 나타내는 형상 함수를 제공하는, 오디오 신호 인코딩 방법.
  9. 제 6 항에 있어서,
    이득 제어 메커니즘에서 상기 형상 함수를 이용하여 적어도 하나의 유지된 코딩 스테이지(13)에 공급되는 상기 오디오 신호 일부를 평탄화하는(flattening) 단계(12)를 더 포함하는, 오디오 신호 인코딩 방법.
  10. 제 1 항에 있어서,
    후속하는 신호 세그먼트들에 존재하는 링크된 신호를 성분들을 나타내는 트랙들을 결정하고 이미 결정된 링크된 신호 성분들의 파라미터들에 기초하여 트랙들을 연장함으로써 상기 오디오 신호의 유지된 신호 성분을 모델링하는 단계(13)를 더 포함하며,
    트랙에서의 제 1 신호 성분에 대한 상기 파라미터들은 상기 신호 성분의 절대 주파수를 나타내는 파라미터를 포함하는, 오디오 신호 인코딩 방법.
  11. 제 1 항에 있어서,
    상기 인코딩된 비트스트림을 생성하는 단계는 상기 비트스트림에서 상기 제 1 샘플링 주파수의 지시기 또는 디코더에 의해 이용될 추천 최소 대역폭을 포함하는 단계를 포함하는, 오디오 신호 인코딩 방법.
  12. 오디오 스트림을 디코딩하는 방법에 있어서,
    코더 샘플링 주파수와 관계없는 파라메트릭 표현(CT, CS, CN)을 포함한 오디오 신호(x)를 나타내는 인코딩된 오디오 스트림(AS')을 판독하는 단계, 및
    상기 파라메트릭 표현을 채용하여 상기 샘플링 주파수와 관계없이 상기 오디오 신호를 합성하는 단계(31, 32, 33)를 포함하는, 오디오 스트림 디코딩 방법.
  13. 오디오 코더(1)에 있어서,
    샘플링된 신호 값들을 생성하도록 제 1 샘플링 주파수에서 상기 오디오 신호(x)를 샘플링하는 샘플러,
    상기 오디오 신호의 파라메트릭 표현을 생성하도록 상기 샘플링된 신호 값들을 분석하는 분석기(11, 13, 14), 및
    상기 오디오 신호가 상기 샘플링 주파수와 관계없이 합성되도록 상기 제 1 샘플링 주파수와 관계없고 상기 오디오 신호를 나타내는 파라메트릭 표현을 포함하는 인코딩된 오디오 스트림(AS)을 생성하는 비트스트림 생성기(15)를 포함하는, 오디오 코더(1).
  14. 오디오 플레이어(3)에 있어서,
    코더 샘플링 주파수와 관계없는 파라메트릭 표현(CT, CS, CN)을 포함하는 오디오 신호(x)를 나타내는 인코딩된 오디오 스트림(AS')을 판독하는 수단, 및
    상기 파라미터들을 채용하여 상기 샘플링 주파수와 관계없이 상기 오디오 신호를 합성하도록 배치되는 합성기(31, 32, 33)를 포함하는 오디오 플레이어(3).
  15. 청구항 13에 청구되는 오디오 코더(1) 및 청구항 14에 청구되는 오디오 플레이어(2)를 포함하는 오디오 시스템.
  16. 상기 오디오 신호가 상기 샘플링 주파수와 관계없이 합성되게 하는 코더 샘플링 주파수와 관계없고 오디오 신호를 나타내는 파라미터들을 포함하는, 오디오 스트림(AS).
  17. 청구항 16에 청구되는 오디오 스트림(AS)이 저장되는, 저장 매체.
KR1020027017325A 2001-04-18 2002-04-09 오디오 코딩 KR20030011912A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP01201404.9 2001-04-18
EP01201404 2001-04-18

Publications (1)

Publication Number Publication Date
KR20030011912A true KR20030011912A (ko) 2003-02-11

Family

ID=8180169

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020027017325A KR20030011912A (ko) 2001-04-18 2002-04-09 오디오 코딩

Country Status (8)

Country Link
US (1) US7197454B2 (ko)
EP (1) EP1382035A1 (ko)
JP (1) JP2004519741A (ko)
KR (1) KR20030011912A (ko)
CN (1) CN1240048C (ko)
BR (1) BR0204834A (ko)
PL (1) PL365018A1 (ko)
WO (1) WO2002084646A1 (ko)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60214027T2 (de) * 2001-11-14 2007-02-15 Matsushita Electric Industrial Co., Ltd., Kadoma Kodiervorrichtung und dekodiervorrichtung
RU2325046C2 (ru) * 2002-07-16 2008-05-20 Конинклейке Филипс Электроникс Н.В. Аудиокодирование
AU2003274524A1 (en) * 2002-11-27 2004-06-18 Koninklijke Philips Electronics N.V. Sinusoidal audio coding
EP1642265B1 (en) * 2003-06-30 2010-10-27 Koninklijke Philips Electronics N.V. Improving quality of decoded audio by adding noise
JP4782006B2 (ja) * 2003-07-18 2011-09-28 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 低ビットレートオーディオ符号化
KR20060131729A (ko) * 2003-09-09 2006-12-20 코닌클리케 필립스 일렉트로닉스 엔.브이. 과도 오디오 신호 성분들의 인코딩
US8065139B2 (en) * 2004-06-21 2011-11-22 Koninklijke Philips Electronics N.V. Method of audio encoding
JP5063364B2 (ja) * 2005-02-10 2012-10-31 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声合成方法
KR20070025905A (ko) * 2005-08-30 2007-03-08 엘지전자 주식회사 멀티채널 오디오 코딩에서 효과적인 샘플링 주파수비트스트림 구성방법
KR101317269B1 (ko) * 2007-06-07 2013-10-14 삼성전자주식회사 정현파 오디오 코딩 방법 및 장치, 그리고 정현파 오디오디코딩 방법 및 장치
KR20090008611A (ko) * 2007-07-18 2009-01-22 삼성전자주식회사 오디오 신호의 인코딩 방법 및 장치
KR101425355B1 (ko) * 2007-09-05 2014-08-06 삼성전자주식회사 파라메트릭 오디오 부호화 및 복호화 장치와 그 방법
US8190440B2 (en) * 2008-02-29 2012-05-29 Broadcom Corporation Sub-band codec with native voice activity detection
KR20090110244A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 시맨틱 정보를 이용한 오디오 신호의 부호화/복호화 방법 및 그 장치
KR101599875B1 (ko) * 2008-04-17 2016-03-14 삼성전자주식회사 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 부호화 방법 및 장치, 멀티미디어의 컨텐트 특성에 기반한 멀티미디어 복호화 방법 및 장치
KR20090110242A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 신호를 처리하는 방법 및 장치

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS55153159A (en) * 1979-05-15 1980-11-28 Sony Corp Digital signal recorder
JPS59500988A (ja) * 1982-04-29 1984-05-31 マサチユ−セツツ インステイテユ−ト オブ テクノロジ− ボイスエンコ−ダおよびシンセサイザ
JP3548230B2 (ja) * 1994-05-30 2004-07-28 キヤノン株式会社 音声合成方法及び装置
JP3559588B2 (ja) * 1994-05-30 2004-09-02 キヤノン株式会社 音声合成方法及び装置
IT1281001B1 (it) * 1995-10-27 1998-02-11 Cselt Centro Studi Lab Telecom Procedimento e apparecchiatura per codificare, manipolare e decodificare segnali audio.
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
ATE206859T1 (de) 1995-12-07 2001-10-15 Koninkl Philips Electronics Nv Verfahren und vorrichtung zur kodierung, übertragung und dekodierung eines nicht-pcm- bitstromes zwischen einer vorrichtung mit digitaler vielseitiger platte und einer mehrkanal-wiedergabevorrichtung
JPH10187195A (ja) * 1996-12-26 1998-07-14 Canon Inc 音声合成方法および装置
US6356569B1 (en) * 1997-12-31 2002-03-12 At&T Corp Digital channelizer with arbitrary output sampling frequency
EP0957579A1 (en) * 1998-05-15 1999-11-17 Deutsche Thomson-Brandt Gmbh Method and apparatus for sampling-rate conversion of audio signals

Also Published As

Publication number Publication date
JP2004519741A (ja) 2004-07-02
EP1382035A1 (en) 2004-01-21
US20020156619A1 (en) 2002-10-24
US7197454B2 (en) 2007-03-27
WO2002084646A1 (en) 2002-10-24
BR0204834A (pt) 2003-06-10
PL365018A1 (en) 2004-12-27
CN1461467A (zh) 2003-12-10
CN1240048C (zh) 2006-02-01

Similar Documents

Publication Publication Date Title
KR101178114B1 (ko) 복수의 입력 데이터 스트림을 믹싱하기 위한 장치
JP3577324B2 (ja) オーディオ信号の符号化方法
JP3592473B2 (ja) 周波数領域内のlpc予測による時間領域内での知覚ノイズ整形
KR101689489B1 (ko) 공간 오디오 객체 코딩에서 시간/주파수 분해능의 하위 호환 가능한 동적 적응을 위한 인코더, 디코더 및 방법들
KR100331166B1 (ko) 오디오신호를 코딩하기 위한 방법 및 장치와 비트스트림을디코딩하기 위한 방법 및 장치
JP3878952B2 (ja) オーディオ信号コーディング中にノイズ置換を信号で知らせる方法
CN102150202B (zh) 对音频/语音信号进行编码和解码的方法和设备
KR101798117B1 (ko) 후방 호환성 다중 해상도 공간적 오디오 오브젝트 코딩을 위한 인코더, 디코더 및 방법
US7197454B2 (en) Audio coding
US6678655B2 (en) Method and system for low bit rate speech coding with speech recognition features and pitch providing reconstruction of the spectral envelope
JP4359499B2 (ja) オーディオ信号の編集
MXPA06006497A (es) Metodo para el ocultamiento de errores en el dominio de frecuencia, mejorado.
Gomez et al. Recognition of coded speech transmitted over wireless channels
US6750789B2 (en) Device and method for determining a coding block raster of a decoded signal
US9620139B2 (en) Adaptive linear predictive coding/decoding
KR20080092823A (ko) 부호화/복호화 장치 및 방법
JP2002076904A (ja) 符号化されたオーディオ信号の復号化方法、及び符号化されたオーディオ信号の復号化装置
Moriya et al. AT 1 BIT/SAMPLE
JP2002073067A (ja) オーディオ信号の復号方法、及びオーディオ信号の復号装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
NORF Unpaid initial registration fee