KR20070001111A - 신호를 시간 스케일링하는 방법 및 장치 - Google Patents

신호를 시간 스케일링하는 방법 및 장치 Download PDF

Info

Publication number
KR20070001111A
KR20070001111A KR1020067015305A KR20067015305A KR20070001111A KR 20070001111 A KR20070001111 A KR 20070001111A KR 1020067015305 A KR1020067015305 A KR 1020067015305A KR 20067015305 A KR20067015305 A KR 20067015305A KR 20070001111 A KR20070001111 A KR 20070001111A
Authority
KR
South Korea
Prior art keywords
time
parameter value
signal
frequency sample
frequency
Prior art date
Application number
KR1020067015305A
Other languages
English (en)
Inventor
에릭 지. 피. 스츄이저스
안드레아스 제이. 게리츠
아놀더스 더블유. 제이. 우멘
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20070001111A publication Critical patent/KR20070001111A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Communication Control (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Synchronisation In Digital Transmission Systems (AREA)
  • Television Systems (AREA)

Abstract

디코더(501)는 인코딩된 모노 신호 및 스테레오 데이터를 포함하는 비트 스트림을 수신한다. 시간 스케일 프로세서(503)는 시간 스케일링된 모노 신호를 발생시킨다. 시간-대-주파수 프로세서는 시간 스케일링된 신호의 주파수 샘플을 발생시키고 블록 길이는 고정되고 시간 스케일링에 독립적이다. 파라미터 스테레오 디코더(509)는 주파수 샘플 블록에 관하여 스테레오 신호를 발생시키고 이들은 주파수-대-시간 프로세서(511)에 의해 시간 영역으로 변환된다. 동기화 프로세서(515)는 파라미터 값과 주파수 샘플 블록 사이의 시간 연관성을 결정함으로써 스테레오 데이터를 시간 스케일링된 신호에 동기화시킨다. 파라미터 값과 시간 연관성은 동기화된 스테레오 파라미터 값과 다른 주파수 샘플 블록을 결정하는데 사용된다. 본 발명은 특히 MPEG-4 인코딩된 신호로부터 시간 스케일링된 스테레오 신호의 낮은 복잡성 생성에 적합하다.
시간 스케일링, 오디오 신호, 오디오 코딩

Description

신호를 시간 스케일링하는 방법 및 장치{Method and apparatus for time scaling of a signal}
본 발명은 신호의 시간 스케일링(time scaling)을 위한 방법 및 장치에 관한 것으로, 특히 오디오 신호의 시간 스케일링을 위한 방법 및 장치에 관한 것이다.
최근, 디지털 형태로 A/V의 분산 및 저장이 큰 폭으로 증가하고 있다. 따라서, 수많은 코딩 표준들 및 프로토콜들이 개선되어 왔다.
오디오 코딩 및 압축 기술들은 오디오 파일이 상대적으로 낮은 데이터 사이즈 및 높은 품질로 예를 들어, 인터넷을 포함하는 데이터 네트워크를 통해 편리하게 배포될 수 있도록 하는 매우 효율적인 오디오 인코딩을 제공한다.
코딩 표준의 일례는 비디오 및 오디오 양자를 위한 규격의 디코더를 제공하는 모션 픽쳐 엑스퍼트 그룹-4(MPEG-4) 코딩 표준이다. MPEG-4 코딩 표준의 보다 상세는 "Coding of Audio Visual Objects", MPEG-4:ISO/IEC 14496에서 찾을 수 있다.
오디오 신호의 재생 속도 및 지속을 변경시키기 위해 감지된 피치(pitch)를 변경함이 없이 오디오 신호에 적용되는 기술은 시간 스케일링 또는 템포 스케일링으로 알려져 있다. 예를 들어, 오디오/비디오 동기화, 언어 학습, 청각장애를 가진 사람을 위한 도구, 자동 응답기, 음성 북 등을 포함하여, 시간 스케일링에 관하여 수많은 흥미있는 응용이 있다.
일반적으로, 시간 스케일링은 후-처리 기술(post-processing technique)로서 적용된다. 따라서, 종래 파형 코드화된 구성요소에 관해, 정규의 디코딩과 복잡한 스케일링 처리 양자가 수행되어야만 하므로, 복잡성에 추가량이 도입된다. 게다가, 시간 스케일링 처리는 전형적으로 인공물을 디코딩된 신호에 도입하기 때문에 시간 스케일링된 신호의 품질을 떨어뜨린다. 조건에 맞는 품질을 달성하기 위해 계산적 요구의 증가를 초래하는 매우 복잡한 시간 스케일링 알고리즘을 사용할 필요가 있다.
파형 코딩에 비해 파라미터 오디오 코딩의 장점은 오디오 신호의 파라미터 표현이 예를 들어, 시간 및/또는 피치 스케일링 처리와 같은 효과 처리를 용이하게 한다. 파라미터 오디오 코딩의 일례는 2003년 3월 22-25일 네덜란드, 암스테르담, 114번째 AES Convention, Preprint 5852, Erik Schuijers, Werner Oomen, Bert den Brinker 및 Jeroen Breebaart에 의한 "Advances in Parametric Coding for High-Quality Audio"에서 찾을 수 있다.
이러한 파라미터 코딩 체계는 현재 표준화 중이고 현재 MPEG-4 확장2,"Coding of Moving Pictures and Audio, Parametric coding for High Quality Audio", ISO/IEC 14496-3:2001/FPDAM2, JTC1/SC29/WG11에 기재되어 있으며 ISO/IEC 14496-3:2001/AMD2에 정식으로 표준화될 것이다. 편의를 위해, MPEG-4 확장 2라는 용어가 본 명세에서 사용될 것이다. MPEG-4 확장 2에 따름에 있어 스테레오 오디오 신호는 다음 파라미터 데이터에 의해 표현된다.
오디오 신호의 비-정지적 부분을 나타내는 일시적 파라미터 데이터.
오디오 신호의 음색 부분을 나타내는 시누소이드(sinusoid) 파라미터 데이터.
오디오 신호의 비-음색(또는 확률) 부분을 나타내는 노이즈 파라미터 데이터.
스테레오 이미지 데이터.
MPEG-4 확장 2는 파라미터 스테레오(PS) 알고리즘에 의해 인코딩될 스테레오 신호를 제공한다. PS에 있어서, 스테레오 오디오 인코딩은 모노 신호와 스테레오 이미지 파라미터의 적은 양에 따라 스테레오 오디오 신호를 코딩함으로써 달성된다. 그 결과 모노 신호는 (파라미터) 모노 인코더에 의해 인코딩될 수 있다. 디코더에서, 모노 인코딩된 채널은 스테레오 이미지 파라미터를 디코딩된 모노 신호에 적용함으로써 스테레오 채널로 확장된다. 이 스테레오 파라미터는 인터-채널 강도 차(Inter-Channel Intensity Differences(IID)), 인터-채널 시간 또는 페이즈 차(Inter-Channel Time or Phase differences(ITD 또는 IPD) 및 인터-채널 일관성(Inter-Channel Coherence(ICC))(또는 인터-채널 크로스-상관(Inter-Channel Cross-Correlations)로 구성된다.
도 1은 종래 분야에 따른 MPEG-4 확장 2 파라미터 스테레오 디코더의 일례를 도시한다.
디코더(100)는 들어오는 MPEG-4 확장 2 비트 스트림을 수신하고 이를 역-다 중화하는 수신기(101)를 포함한다. 이 수신기(101)는 일시적, 시누소이드 및 노이즈 파라미터가 공급되는 디코딩 유닛(103)에 결합된다. 이에 따라, 디코딩 유닛(103)은 모노 신호를 발생시킨다.
디코딩 유닛(103)은 수신기(101)에 또한 결합되는 스테레오 프로세서(105)에 결합된다. 이 스테레오 프로세서(105)는 디코딩 유닛(103)으로부터 모노 신호를 그리고 수신기(101)로부터 스테레오 이미지 데이터를 수신하고 이에 반응하여 MPEG-4 확장 2 파라미터 스테레오 디코딩 알고리즘에 따라 스테레오 신호를 발생시킨다.
파라미터 오디오 코딩은 디코더에서 수행될 비교적 낮은 복잡성을 갖는 시간 스케일링을 허용한다. 도 2는 종래 분야에 따른 MPEG-4 확장 2 시간 및/또는 피치 스케일링 파라미터 스테레오 디코더(200)의 일례를 도시한다. 이 디코더(200)는 시간/피치 스케일 유닛(201)을 더 포함하는 것을 제외하고는 도 1의 디코더(100)와 동일하다. 디코더(200)와 디코더(100)의 대응하는 블록은 도 1 및 2에서 동일한 참조 부호를 가진다.
시간/피치 스케일 유닛(201)은 수신기(100)와 디코딩 유닛(103) 사이에 결합된다. 이 시간/피치 스케일 유닛(201)은 파라미터 데이터가 디코딩된 신호를 발생하기 위해 사용되기 전에 파라미터 데이터를 변경하도록 할 수 있다. 따라서 파라미터는 소정의 템포 및 피치를 달성하기 위해 변경될 수 있다.
도 3은 종래 분야에 따른 파라미터 스테레오 디코더(300)를 도시한다. 이 파라미터 스테레오 디코더(300)는 디코딩 유닛(103)으로부터 시간 영역 모노 신호를 수신하고 이에 반응하여 비상관기(decorrelator)(305)에서 비 상관된 신호를 발생 시킨다. 모노 신호는 모노 신호의 주파수 영역 표현을 발생시키는 제 1 영역 변환 프로세서(303)에 또 공급된다. 유사하게, 비 상관된 신호는 비 상관된 신호의 주파수 영역 표현을 발생시키는 제 2 영역 변환 프로세서(305)에 공급된다.
제 1 및 제 2 영역 변환 프로세서(303, 305)는 파라미터 스테레오 유닛(307)에 결합되고, 여기서, 신호는 좌 우 주파수 영역 채널을 발생시키기 위해 처리된다. 특히, MPEG-4 확장 2의 스테레오 이미지 파라미터는 시변 주파수 의존 파라미터이다. 따라서, 주파수 영역 샘플은,
- 스케일링(인터-채널 강도 차 파라미터를 나타내는),
- 회전(인터-채널 페이즈 차 파라미터를 나타내는) 및
- 믹싱(인터-채널 일관성 파라미터를 나타내는)에 의해 변경된다.
그 결과, 좌 우 신호에 대한 주파수 영역 표현이 생성된다.
파라미터 스테레오 디코더 유닛(307)은 주파수 영역 좌 우 채널 각각에 공급되는 제 1 인버스 변환 프로세서(309)와 제 2 인버스 변환 프로세서(311)에 결합되며 이에 반응하여 시간 영역 좌 우 채널을 생성한다.
통상, 주파수 영역 변환에 대한 시간 영역은 (분석) 윈도윙(windowing)에 이어 고속 푸리에 변환(FFT)에 의해 수행되고 시간 영역 변환에 대한 주파수 영역은 인버스 고속 푸리에 변환(iFFT)에 이어 (종합) 윈도윙에 의해 수행되며 계속하여 중첩하고 연속적 블록으로부터의 합성 데이터를 추가한다.
시간 스케일링이 적용될 때, 적절한 스테레오 이미지 파라미터가 파라미터 스테레오 디코더 유닛(307)에서 우측 샘플에 적용되는 것을 보장하기 위해 적합한 동기화는 시간 스케일링된 모노 신호(및 비상관된 신호) 및 스테레오 이미지 파라미터 사이에 유지된다는 것이 필수적이라는 것을 이해할 것이다.
통상, 동기화는 시간-대-주파수 및 주파수-대-시간 변환 양자에 적용되는 윈도우 사이즈를 조절함으로써 달성된다. 예를 들어, 모노 신호의 시간 스케일링이 템포를 증가시키는 것이라면, 보다 작은 시간 영역 샘플은 연속적인 스테레오 파라미터 값 사이에 발생될 필요가 있다. 그 결과, 보다 짧은 분석 및 종합 윈도우는 (인버스) 영역 변환 프로세서(303, 305, 309 및 311)에 적용된다. 그러나, 계산적 복잡성 관점에서, (인버스)변환 길이는 일정하게 유지하는 것이 바람직하다. 그러므로, 소정의 변환 길이까지로 하여 분석 및 종합 윈도우의 제로 패딩(padding)이 적용된다.
종래의 접근방식에 있어서, 스테레오 파라미터는 비트 스트림으로부터 직접 취해지고 파라미터 스테레오 디코더 유닛(307)에 의해 처리되는데 사용된다. 따라서, 파라미터 스테레오 디코더 유닛(307)의 스테레오 파라미터 및 블록 처리는 고유의 비-시간 스케일링된 신호와 동기화되는 것이 고려될 수 있다. 이를 보상하기 위해, FFT 및 iFFT의 블록 시간은 윈도윙 기술의 사용에 따라 변경된다. 이 접근방식은 매우 유연하고 높은 정밀도를 갖는 정확한 시간 스케일링이 되게 한다.
윈도윙과 FFT와 연관된 복잡성은 매우 높고, 특히 메모리 요구에 있어서 그러하다. 파라미터 스테레오 디코딩 툴의 복잡성을 감소시키기 위해, 파라미터 스테레오 디코더에 있어서 시간-대-주파수 및 주파수-대-시간 변환을 다운 샘플링된(down-sampled) 복소 지수형(complex-exponential) 조정된 필터 뱅크로 대체하는 것이 바람직하다. 복소값 서브 대역 영역 샘플은 복소 지수 조정된 프로토타입 필터로 입력 신호의 컨버루션(필터링)에 의해 발생된다. 분해 기술의 응용에 의해 이 필터링을 수행하는데 요구되는 곱셈 및 덧셈의 수가 최소화된다. 다운 샘플링된 복소 지수 조정된 필터 뱅크의 상세는 2002년 11월 15일 벨기에 루벤에서의 Model Base Processing and Coding of Audio(MPCA-2002)의 제 1 회 IEEE Benelux Workshop에서 P.Ekstrand, Proc에 의한 "Bandwidth extension of audio Signals by Spectral Band replication"에서 찾을 수 있다.
FFT 기반 방식의 분석/종합 윈도윙의 유연성과 반대로, 복소 조정된 필터 뱅크의 사용은 변환과 처리에 기초한 고정된 블록에 귀결된다. 전형적 64-대역 복소 조정된 필터 뱅크의 경우, 효율적인 각 64 입력 샘플 블록을 위해, 복소 값 서브 대역 영역 샘플은 도 4에 도시된 바와 같이 발생된다(낮은 세 개의 대역은 스테레오 개조를 위해 요구된 증가된 주파수 분해능에 관한 주파수로 더 분할된다). 이러한 각 블록과 연관된 시간 간격은 고정된다. 그러나, 시간 스케일링된 신호에 관한 시간 간격은 일정하기 때문에, 비-시간 스케일링된 신호의 대응하는 시간 간격의 길이는 적용되는 시간 스케일링에 의존하여 변화한다. 예를 들어, 증가된 템포에 관하여, 시간 스케일링된 모노 신호의 64 샘플은 원래의 인코딩된 비-시간 스케일링된 시간 신호의 64 샘플 이상에 대응할 것이다. 비트 스트림의 스테레오 이미지 파라미터 값은 원래의 인코딩된 비-시간 스케일링된 신호와 본질적으로 동기화되고 시간-대-주파수 영역 변환은 시간 스케일링을 보상할 수 없기 때문에, 스테레오 이미지 파라미터는 일반적으로 스테레오 디코딩 유닛의 주파수 영역 샘플과 동기화되 지 않을 것이다.
그러므로, 시간 스케일링에 관한 개선된 시스템은 유리하고 특히 증가된 유연성, 낮은 복잡성, 기능 및/또는 신호 품질이 가능한 시스템이 유리하다. 특히, 감소된 복잡성 및/또는 개선된 동기화를 갖는 MPEG-4 스테레오 신호의 시간 스케일링에 관한 개선된 시스템은 장점을 가진다.
따라서, 본 발명은 단독으로 또는 어느 조합으로 상술한 하나 이상의 단점을 완화, 경감 또는 제거하고자 하는 것이 바람직하다.
본 발명의 첫 번째 특징에 따르면, 제 1 신호 및 확장 데이터를 포함하는 입력 신호를 수신하는 수단; 상기 제 1 신호의 시간 스케일링된 신호를 발생시키는 수단; 상기 시간 스케일링된 신호에 관한 다수의 주파수 샘플 블록을 발생시키는 수단, 각 주파수 샘플 블록은 상기 시간 스케일링된 신호의 고정된 시간 간격에 대응하고, 상기 고정된 시간 간격은 시간 스케일링 팩터로부터 독립적이며; 상기 확장 데이터의 제 1 파라미터 값과 상기 시간 스케일링된 신호의 연관된 제 1 시간 간격을 갖는 제 1 주파수 샘플 블록 사이에 제 1 시간 연관성을 결정하는 수단; 상기 제 1 시간 연관성과 상기 제 1 파라미터 값에 따라 제 2 주파수 샘플 블록과 연관된 제 2 파라미터 값을 결정하는 수단; 상기 제 2 파라미터 값에 따라 상기 제 2 주파수 샘플 블록의 데이터를 변경하는 수단; 및 상기 주파수 샘플 블록으로부터 시간 영역 출력 샘플 블록을 발생시키는 수단을 포함하는 신호를 시간 스케일링하는 장치가 제공된다.
본 발명은 신호의 효율적인 시간 스케일링을 제공한다. 제 1 신호는 구체적으로 인코딩되는 신호일 수 있다. 특히, 본 발명은 시간 스케일링된 신호의 고정된 길이 영역 전송 블록 사용을 가능케 한다. 따라서, (주파수) 영역 전송 블록의 길이는 시간 스케일링 팩터로부터 독립적이다. 특히, 본 발명은 시간 스케일링된 신호가 가변 길이(시간 스케일링 값의 기능에 따라) 블록 변환에 의해 보상될 것을 요구할 필요없이 신호의 시간 스케일링을 가능케 한다. 그러므로, 시간 스케일링된 신호의 가변 윈도윙에 관한 요구는 완화되거나 제거된다. 대신, 주파수 샘플 블록 발생 수단, 데이터 변경 수단 및 시간 영역 출력 샘플 블록 발생 수단이 시간 스케일링된 신호의 고정된 샘플 수에 대응하는 고정된 사이즈 블록 스텝에서의 데이터를 모두 처리한다. 고정된 수는 시간 스케일링으로부터 독립적이다. 특히, 주파수 샘플의 수와 스케일링된 시간 신호의 시간 샘플 수 사이의 고정비율이 바람직하고 하나의 주파수 샘플은 각 시간 샘플마다 발생 된다. 따라서, 예를 들어, 64 샘플의 블록 스텝 사이즈에 관하여, 다수의 주파수 샘플 블록을 발생시키는 수단은 64 주파수 샘플을 발생시키는 것이 바람직하다. 실제 블록 처리는 다른 블록으로부터의 데이터를 포함할 수 있다. 예를 들어, 다수의 주파수 샘플 블록을 발생시키는 수단은 블록 사이즈를 초과하는 다수의 샘플상에서의 변환에 기초할 수 있다.
이는 특히 낮은 복잡성 처리를 허용하고 특히 간략화된 영역 전송 기능성의 사용을 가능케 한다. 특히, 본 발명은 다운 샘플링된 복소 지수 조정된 필터 뱅크를 사용하는 시간 스케일링을 가능케 한다.
본 발명은 확장 데이터의 파라미터 값과 시간 스케일링된 신호를 동기화시키는 낮은 복잡성과 고성능 수단을 제공한다. 특히, 본 발명은 시간 스케일링된 신호에 적용되는 시간 스케일링에 대응시키는 시간 스케일링 파라미터 값의 간단한 처리를 가능케 한다.
본 발명의 특징을 따르면 제 1 시간 연관성을 결정하는 수단은 상기 제 1 파라미터 값과 연관된 시각에 대응하는 연관된 시간 간격을 갖는 상기 제 1 주파수 샘플 블록을 결정하는 것을 포함한다.
이는 간단한 구현을 가능케 하고 시간 연관성을 결정하는 적절한 방식은 파라미터 값과 시간 스케일링된 신호 사이의 동기화시키기 위해 사용될 수 있다. 소정의 파라미터 값에 관한 시간 연관성은 수신된 비트 스트림 내 파라미터 값의 비-스케일링된 시각에 대응하는 주파수 샘플 블록을 단순히 지시할 수 있다.
본 발명의 다른 특징에 따르면, 제 1 시간 연관성은 상기 제 1 시간 간격 내 파라미터 값의 시간 위치의 지시를 포함한다.
시간 연관성은 파라미터 값의 부분(fractional) 시간 지시를 포함한다. 특히, 이 지시는 파라미터 값이 적용되는 제 1 시간 간격의 상대적 일부분(fraction)을 나타내는 상대적 시간 지시일 수 있다. 이는 확장 데이터와 시간 스케일링된 신호 사이의 동기화를 보다 개선시키고 근접시킬 수 있다. 특히, 계산된 제 2 파라미터 값의 정확성을 실질적으로 개선시키고 파라미터 값의 보다 높은 시간 분해능 스케일링을 가능케 하여 세밀한 시간 스케일링 분해능을 제공한다.
본 발명의 다른 특징을 따르면, 장치는 확장 데이터의 제 3 파라미터 값과 제 3 주파수 샘플 블록 사이의 제 2 시간 연관성을 결정하는 수단을 더 포함하고 제 2 파라미터 값을 결정하는 수단은 상기 제 1 파라미터 값, 상기 제 1 시간 연관성, 상기 제 3 파라미터 값 및 상기 제 2 시간 연관성에 따라 보간(interpolation)이 수행 가능하다. 상기 보간은 선형 보간이 바람직하다.
이는 복잡성이 낮음에도 불구하고 높은 성능 구현을 가능케 한다. 특히, 제 2 파라미터 값이 소정의 시각 동안 정확하게 결정되게 하는, 높은 시간 분해능으로 제 2 파라미터 값을 결정하는 효율적 수단을 가능케 한다.
본 발명의 다른 특징을 따르면, 제 1 시간 연관성은 이전의 시간 연관성에 따라 제 1 시간 연관성을 결정할 수 있다.
본 발명의 다른 특징을 따르면, 장치는 확장 데이터의 연속적인 파라미터 값사이의 스케일링된 시간 오프셋을 결정하는 수단을 더 포함하고 제 1 시간 연관성을 결정하는 수단은 이전 파라미터 값과 스케일링된 시간 오프셋에 따라 제 1 파라미터 값의 시간을 결정할 수 있고 시각에 따라 시간 연관성을 생성할 수 있다.
전형적으로, 확장 데이터의 파라미터 값은 정기적으로 예를 들어, 인코딩된 비-시간 스케일링된 신호의 매 1024 샘플에서 생길 수 있다. 따라서, 비-스케일링된 시간 영역에 있어서, 연속적인 파라미터 값의 시간 오프셋은 1024 샘플이다. 대응하는 스케일링된 시간 오프셋은 시간 스케일링된 신호와 다를 것이다. 예를 들어, 만약 재생율이 10% 증가하였다면 1024 샘플은 시간 스케일링된 신호의 922 샘플에 대응할 것이다. 따라서, 시간 스케일링된 신호에 대한 제 1 파라미터 값의 시각은 이전 파라미터 값의 시간 스케일링된 샘플 더하기 922 샘플로서 결정될 수 있다. 이는 시간 스케일링된 신호와 파라미터 값을 동기화하는 간단한 수단을 제공한다.
시간 연관성은 시간 샘플 블록에 관련하여 결정되는 것이 바람직하다. 예를 들어, 시간 샘플 블록이 시간 스케일링된 신호의 64 샘플을 포함한다면, 2.75라는 시간 지시는 제 3 블록의 48번째 샘플에 대응한다. 또한 스케일링된 시간 오프셋은 시간 샘플 블록에 관련하여 결정되는 것이 바람직하다. 따라서, 922라는 스케일링된 시간 오프셋은 14.41 시간 샘플 블록의 스케일링된 시간 오프셋과 동등하다. 이전 파라미터 값이 2.75라는 스케일링된 시간 영역에서 일어난다면, 다음의 파라미터 값은 2.75+14.41=17.16이라는 스케일링된 영역 시간 즉, 시간 샘플 블록 17의 스케일링된 시간 샘플 10에 대응하려고 결정될 수 있다.
본 발명의 다른 특징에 따르면, 제 2 파라미터 값을 결정하는 수단은 시간 연관성에 따라 제 1 시간 간격 내 제 1 파라미터를 공칭 시간 위치(nominal time position)에 관련시킬 수 있고 제 1 파라미터 값과 공칭 시간 위치에 따라 제 2 파라미터 값을 결정할 수 있다. 제 2 파라미터 값을 결정하는 수단은 제 1 파라미터 값과 공칭 시간 위치에 반응하여 보간에 따라 제 2 파라미터 값을 결정할 수 있는 것이 바람직하다.
특히, 공칭 시간 위치는 시간 샘플 블록의 중간 시각일 수 있다. 예를 들어, 17.16이라는 제 1 파라미터 값의 계산된 시각을 가질 때 이는 17.5라는 위치라고 가정하는 제 1 파라미터 값과 이는 2.5라는 위치라고 가정하는 이전 파라미터 값 사이의 보간이 수행된다. 정확한 시각 연관성은 다음 파라미터의 시각을 결정하는데 사용되는 것이 바람직하다. 따라서, 다음의 파라미터 값은 17.16+14.41=31.57에서 일어나도록 결정되는 것이 바람직하다.
명의 위치는 예를 들어, 중간점, 종점, 제 1 시간 간격과 관련된 양자화되거나 정수 시간 값일 수 있다. 이 특징은 시간 연관성의 시간 지시의 고 스케일링된 시간 영역 정확성을 보장하면서 제 2 파라미터 값의 결정을 간략화할 수 있다.
입력 신호는 파라미터 인코딩된 오디오 신호이며 특히 MPEG-4 인코딩된 오디오 신호(예를 들어, MPEG-4 확장 2 인코딩된 오디오 신호와 같은)인 것이 바람직하다.
본 발명의 다른 특징을 따르면, 주파수 샘플 블록을 발생시키는 수단은 복소 지수 조정된 필터 뱅크(예를 들어, QMF 기반 필터 뱅크)를 포함한다. 유사하게 시간 영역 출력 샘플 블록을 발생시키는 수단은 복소 지수 조정된 필터 뱅크를 포함하는 것이 바람직하다. 따라서, 본 발명은 복잡성이 감소된 타임 스케일링 디코더를 용이하게 하거나 가능케 하며 특히 바람직하게 영역 변환과 연관된 분석 윈도윙에 대한 요구가 제거될 수 있다.
본 발명의 다른 특징을 따르면, 확장 데이터는 파라미터 스테레오 데이터를 포함하고 바람직하게는 제 1 파라미터 값은, 인터-채널 강도 차 파라미터들; 인터-채널 시간 또는 페이즈 차 파라미터들; 및 인터-채널 일관성 파라미터들로 이루어지는 그룹으로부터 선택된 스테레오 이미지 파라미터의 파라미터 값이다. 바람직하게는, 제 2 파라미터 값을 결정하는 수단은 파라미터 스테레오 프로토콜에 따라 특히 MPEG-4 확장 2에 기술된 파라미터 스테레오 프로토콜에 따라 주파수 샘플 블록을 처리할 수 있다. 바람직하게는 변경 수단은 적어도 제 1 스테레오 채널 주파수 샘플 블록이 발생하도록 제 2 주파수 샘플 블록의 데이터를 변경할 수 있다. 그러므로 본 발명은 MPEG-4 파라미터 스테레오 비트 스트림으로부터 스테레오 신호의 효과적인 낮은 복잡성 생성을 가능케 한다.
대안적으로 또는 추가적으로, 확장 데이터는 공간적 오디오 데이터를 포함할 수 있다. 예를 들어, 확장 데이터는 예를 들어, 중앙 및 후방 채널과 같은 공간적 채널의 발생을 더 포함할 수 있다.
본 발명의 다른 측면을 따르면, 신호를 시간 스케일링하는 방법을 제공하는데 상기 방법은, 제 1신호 및 확장 데이터를 포함하는 입력 신호를 수신하는 단계; 상기 제 1 신호의 시간 스케일링된 신호를 발생시키는 단계; 상기 시간 스케일링된 신호에 관한 주파수 샘플 블록을 발생시키는 수단, 각 주파수 샘플 블록은 상기 시간 스케일링된 신호의 고정된 시간 간격에 대응하고, 상기 고정된 시간 간격은 시간 스케일링 팩터에 독립적이며; 상기 확장 데이터의 제 1 파라미터 값과 상기 시간 스케일링된 신호의 연관된 제 1 시간 간격을 갖는 제 1 주파수 샘플 블록 사이의 제 1 시간 연관성을 결정하는 단계; 상기 제 1 시간 연관성과 상기 제 1 파라미터 값에 따라 제 2 주파수 샘플 블록과 연관된 제 2 파라미터 값을 결정하는 단계; 상기 제 2 파라미터 값에 따라 제 2 주파수 샘플 블록의 데이터를 변경하는 단계; 및 상기 주파수 샘플 블록으로부터 시간 영역 출력 샘플 블록을 발생시키는 단계를 포함한다.
이러한 그리고 다른 측면에 있어서, 본 발명의 특징과 장점은 하기의 실시 예를 참조하여 명백해지고 명료화될 것이다.
본 발명의 실시 예는 도면을 참조하여 일례를 통해 기술될 것이다.
도 1은 종래 분야에 따른 MPEG-4 확장 2 파라미터 스테레오 디코더의 일례를 도시하는 도면.
도 2는 종래 분야에 따른 MPEG-4 확장 2 시간 스케일링 파라미터 스테레오 디코더의 일례를 도시하는 도면.
도 3은 종래 분야에 따른 파라미터 스테레오 디코더를 도시하는 도면.
도 4는 주파수 샘플 블록을 포함하는 시간-주파수 도형을 도시하는 도면.
도 5는 본 발명의 실시예에 따라 시간 스케일링 디코더를 도시한 것이다.
도 6은 본 발명의 실시예에 따라 시간 스케일링된 파라미터 값을 결정하는 방법을 도시하는 그래픽도.
하기 설명은 오디오 시간 스케일링 디코더 및 특히 시간 스케일링 기능을 포함하는 MPEG-4 확장 2 스테레오 디코더에 적용가능한 본 발명의 실시예에 관하여 집중된다. 그러나, 본 발명은 이 응용에 한정되는 것이 아니고 많은 다른 신호 및 응용에 적용될 수 있음을 이해할 것이다.
비록 특정한 기재가 여기에 기재된 본 실시예, 원리, 대안 및 특징에 집중된다 하더라도 본 특정 실시예를 반드시 한정하는 것이 아니며 다른 적합한 실시예에 선택적으로 적용될 수 있음을 이해할 것이다.
도 5는 본 발명의 실시예에 따른 시간 스케일링 디코더(500)를 도시한다.
시간 스케일링 디코더(500)는 외부 또는 내부 소스(도시하지 않음)로부터 MPEG-4 확장 2 인코딩된 스테레오 신호를 수신하는 수신기(501)를 포함한다. 이 수신기(501)는 예를 들어, 네트워크 연결로부터 MPEG-4 확장 2 비트 스트림을 수신하거나 내부 메모리 또는 프로세서로부터 신호를 회복할 수 있다.
MPEG-4 확장 2 비트 스트림은 일시적, 시누소이드 그리고 노이즈 파라미터 데이터의 형태로 파라미터 인코딩된 모노 신호를 포함한다. 게다가, MPEG-4 확장 2 비트 스트림은 파라미터 인코딩된 스테레오 이미지 파라미터 형태의 확장 데이터를 포함한다. 특히, MPEG-4 확장 2 비트 스트림은 인터-채널 강도 차(IID) 파라미터, 인터-채널 시간 또는 페이즈 차(ITD) 파라미터 및 인터-채널 일관성(ICC) 파라미터 형태의 스테레오 확장 데이터를 포함한다.
수신기(501)는 일시적, 시누소이드 및 노이즈 파라미터를 포함하는 인코딩된 신호 데이터에 공급되는 시간 스케일 프로세서(503)에 결합된다. 시간 스케일 프로세서(503)는 템포 및 피치 요구에 따라 일시적, 시누소이드 및 노이즈 파라미터를 처리한다. 따라서, 시간 스케일 프로세서(503)는 소정의 피치 및 재생율을 갖는 시간 스케일링된 일시적, 시누소이드 및 노이즈 파라미터를 발생시킨다. 어느 적절한 파라미터의 시간 스케일 처리는 본 발명을 손상시키지 않는 한 적용될 수 있다는 것을 이해할 것이다. 예를 들어, 시누소이드 종합 윈도우 및 노이즈 포장(envelope)의 길이는 시간 스케일될 수 있다.
시간 스케일 프로세서(503)는 시간 스케일 프로세서(503)로부터 시간 스케일링된 일시적, 시누소이드 및 노이즈 파라미터를 수신하는 모노 신호 디코더(505)에 결합된다. 이에 따라, 모노 신호 디코더(505)는 시간 스케일링된 모노 신호를 발생시킨다. 시간 스케일링된 일시적, 시누소이드 및 노이즈 파라미터는 MPEG-4 확장 2 호환가능 파라미터인 것이 바람직하고 특히 모노 신호 디코더(505)는 당업자에게 잘 알려진 바와 같이 종래의 MPEG-4 확장 2 파라미터 디코딩 알고리즘을 채용할 수 있다.
특히, 모노 신호 디코더(505)는 디코딩된 시간 스케일 펄스 코드 조절(PCM) 신호를 발생시킨다. 시간 스케일링된 신호는 원래의 인코딩된 신호의 실시간 정합과는 다른 실시간 정합을 가진다. 예를 들어, 10% 증가된 템포에 대응하는 시간 스케일링이 적용되면, 원래의 인코딩된 신호에 대한 1초에 대응하는 시간 간격은 시간 스케일링된 신호의 0.9초라는 시간 스케일링된 시간 간격에 대응할 것이다. 48kHz라는 동일한 샘플율을 가정할 때, 원래의 모노 인코딩된 신호는 48000 샘플을 포함하는 한편 시간 스케일링된 신호는 오직 0.9·48000=43200 샘플을 포함할 것이다. 시간 스케일링된 시간 간격 및 소정의 비-시간 스케일링된 시간 간격에 대응하는 샘플 수는 적용된 시간 스케일링의 범위에 의존할 것임이 명백하다.
모노 신호 디코더(505)는 시간 스케일링된 신호를 수신하는 시간-대-주파수 프로세서(507)에 결합된다. 시간-대-주파수 프로세서(507)는 시간 스케일링된 신호를 시간 영역 샘플의 동일한 수에 대응하는 연속적인 주파수 샘플 블록으로 변환시킨다. 특정 실시예에 있어서, 시간-대-주파수 프로세서(507)는 64 시간 스케일링된 신호 샘플의 각 블록을 블록 기반 상에 계속하여 처리되는 64 서브 대역 영역 샘플의 블록으로 효과적으로 변환시킨다.
고정된 사이즈로 분할되는 샘플은 시간 스케일 프로세서(503)에 의해 적용된 시간 스케일 팩터에 독립적이다. 따라서, 각 블록은 시간 스케일링된 신호의 고정된 시간 간격에 대응한다. 예를 들어, 48kHz이라는 샘플율에 관하여, 각 블록은 시간 스케일링의 크기와 무관하게 64/48000kHz=1.33msec라는 간격에 대응한다. 그러나, 연관된 시간 스케일 간격이 시간 스케일링된 신호에 관련하여 고정되기 때문에, 원래의 인코딩된 신호의 대응하는 시간 간격은 적용된 시간 스케일 팩터에 기초하여 변화될 것이다.
시간-대-주파수 프로세서(507)는 시간 스케일링된 신호의 각 블록에 관하여 주파수 샘플 블록을 발생시킨다. 따라서, 각 블록 처리 단계에서, 시간-대-주파수 프로세서(507)는 시간 스케일링된 신호의 64 시간 샘플에 대응하는 64 주파수 샘플을 발생시킨다. 그러나, 시간-대-주파수 프로세서(507)는 주파수 샘플 블록의 발생에 있어 이 64 시간 샘플에 비해 다른 샘플을 포함할 수 있다.
특히, 시간-대-주파수 프로세서(507)는 주파수 샘플 블록을 발생시키는 다운 샘플링된 복소 지수 조정된 필터 뱅크를 포함한다.
유사하게, FFT 처리 복소 지수 조정된 필터 뱅크는 복소 조정된 변환을 활용한다. 기술된 실시예(예를 들어, QMF 기반 필터 뱅크)의 복소 지수 조정된 필터 뱅크는 변환에 있어 640 입력 샘플을 사용하는 64 출력 샘플을 발생시킨다. 그러나, 블록 단계(또는 홉 사이즈(hop-size)는 단지 64 샘플이다. 따라서, 제 1 640 입력 샘플은 64 필터된 계수의 제 1 세트를 부여하고, 최후의 640-64=576에 더하여 64 새로운 입력은 64 필터된 계수 등의 제 2 세트를 발생하기 위해 사용된다. 따라서, 변환 자체가 현재 블록보다 많이 확장되더라도, 시간 스케일링된 신호의 64 샘플의 입력 블록은 64 주파수 영역 샘플을 포함하는 주파수 샘플 블록이 될 것이다.
따라서, 시간 스케일링된 신호의 64 샘플의 각 시간 샘플 블록에 관하여, 시간-대-주파수 프로세서(507)는 도 4에 도시된 바와 같이 64 주파수 샘플의 주파수 샘플 블록을 효과적으로 발생시킨다.
시간-대-주파수 프로세서(507)는 파라미터 스테레오 파라미터 뿐만 아니라 주파수 샘플 블록을 수신하는 파라미터 스테레오 디코더(509)에 결합된다. 이 파라미터 스테레오 디코더(509)는 좌 우 채널 주파수 영역 신호를 발생시키기 위해 파라미터 스테레오 파라미터에 따라 각 주파수 샘플 블록을 처리한다.
특히, 적절한 서브 대역 IID 파라미터에 따라 개별적 주파수 샘플을 스케일하고 ITD 파라미터에 따라 파라미터를 순환시킨다.
비-상관된 신호의 발생 없이 스테레오 신호의 발생에 집중된 상술은 간결함과 명확화를 위한 것임을 이해할 것이다. 그러나, 실제 응용에 있어서, 당업자가 이해하는 바와 같이 개선된 품질은 비-상관된 신호의 발생과 처리에 의해 달성된다. 특히, 모노 신호 및 비-상관된 신호는 ICC 파라미터에 따라 혼합된다.
따라서, 파라미터 스테레오 디코더(509)는 주파수 샘플 스테레오 블록(또는 좌 우 채널에 대응하는 두 개의 주파수 영역 샘플 블록을 동등하게 발생시킬 수 있다)을 발생시킬 수 있다. 이는 파라미터 스테레오 디코더(509)는 적절한 MPEG-4 확장 2 호환가능 파라미터 스테레오 디코딩 알고리즘에 따라 주파수 샘플 블록을 처리한다. 따라서, 파라미터 스테레오 디코더(509)는 적어도 제 1 스테레오 채널 주 파수 샘플 블록을 발생시키기 위해 주파수 샘플 블록의 데이터를 변경할 수 있다.
파라미터 스테레오 디코더(509)는 제 1 및 제 2 주파수-대-시간 프로세서(511, 513)에 결합된다. 제 1 주파수-대-시간 프로세서(511)는 변경된 주파수 샘플 블록을 수신하고 특히 제 1 주파수-대-시간 프로세서(511)는 좌측 채널에 대응하는 변경된 주파수 샘플 블록의 샘플을 수신하고 제 2 주파수-대-시간 프로세서(513)는 좌측 채널에 대응하는 변경된 주파수 샘플 블록의 샘플을 수신한다.
제 1 및 제 2 주파수-대-시간 프로세서(511, 513)는 주파수-대-시간 영역 변환을 수행하고 따라서 좌 우 스테레오 채널 각각에 관한 시간 영역 샘플 블록을 발생시킨다. 따라서, 시간 스케일링된 스테레오 신호가 제공된다.
파라미터 스테레오 디코더(509)의 처리는 주파수 영역 블록 기반 처리이다. 64 주파수 서브 대역 샘플의 각 주파수 샘플 블록은 시간 스케일링된 신호의 64 시간 샘플의 시간 샘플 블록에 효과적으로 대응하고, 따라서 각 주파수 샘플 블록은 시간 스케일 팩터에 독립적인 시간 스케일링된 신호의 시간 간격과 연관된다. 결국, 각 주파수 샘플 블록은 원래 인코딩된 비-시간 스케일링된 신호의 가변 시간 간격에 대응한다. 비-스케일링된 시간 간격의 길이는 시간 스케일 팩터에 의존한다.
그러나, 파라미터 스테레오 디코더(509)에 의해 사용된 스테레오 이미지 파라미터는 MPEG-4 확장 2 비트 스트림 내에 수신되고 원래의 비-시간 스케일링된 신호의 시간 정합과 동기화된다. 따라서, 파라미터 스테레오 디코더(509)에 의해 처리가 수행될 때 파라미터 값과 시간 스케일링된 신호를 동기화할 것이 필요하다.
하나의 선택은 시간 스케일링 팩터에 따라 샘플 블록 사이즈를 변화시키거나 시간 스케일링 팩터에 따라 각 블록에 연관된 시간 스케일링된 시간 간격을 동등하게 변화시킴으로써 가변 사이즈 샘플 블록을 사용하는 거이다. 그러나, 상술한 바와 같이, 이는 복잡한 동작을 요구하고 특히 교호 윈도윙을 요구함으로써 높은 계산적 부담을 초래한다.
현 실시예에 있어서, 시간 스케일링된 신호의 고정된 시간 간격 블록 처리는 유지되고 대신 스테레오 이미지 파라미터 값이 발생되고 이는 고정된 시간 블록 처리와 호환가능하다. 따라서, 시간 스케일링된 신호와 블록 기반 처리 사이의 시간 관계를 변경함으로써의 동기화보다 오히려 스테레오 파라미터를 고정된 시간 블록 처리에 동기화함으로써 동기화가 달성된다.
따라서, 시간 스케일링 디코더(500)는 수신기(501)에 결합되는 동기화 프로세서(515)와 파라미터 스테레오 디코더(509)를 포함하고 수신기(501)로부터 비-시간 스케일링된 스테레오 파라미터를 수신하고 시간 스케일링된 모노 신호와 동기화되고 고정된 사이즈 블록 처리와 동기화되는 스테레오 파라미터를 발생시킨다.
특히, 동기화 프로세서(514)는 스테레오 파라미터 값과 주파수 샘플 블록 사이의 시간 연관성을 결정할 수 있다. 간단한 실시예에 있어서, 간단하게 시간 연관성은 대응하는 샘플 주파수 블록 스테레오 파라미터 값의 지시를 포함한다. 예를 들어, 스테레오 파라미터가 비-스케일링된 시간 신호에서 매 64 샘플의 16 블록이 갱신되고 시간 스케일링 팩터가 시간 스케일링된 신호의 단지 15 블록에 대응하는 64 샘플의 16 비-시간 스케일링된 블록이라면, 동기화 프로세서(515)는 매 15번째 블록에 따라 스테레오 파라미터와 연관된 주파수 샘플 블록을 간단히 결정한다.
이 예에 있어서, 스테레오 파라미터 값은 매 15번째 주파수 샘플 블록으로부터 수신된다. 다른 주파수 블록의 스테레오 파라미터 값은 수신된 스테레오 파라미터 값 사이의 보간에 의해 계산될 수 있다. 따라서, 적용되는 주파수 샘플 블록 스테레오 파라미터 값 결정 후, 다른 주파수 샘플 블록의 파라미터 값은 이러한 파라미터 값과 이들이 속하는 주파수 샘플 블록의 타이밍에 따라 결정된다.
이는 구현을 간략하게 하게 특히 블록 처리(즉, 비-스케일링된 시간 영역에서의 64 샘플의 단계에서)의 고정된 시간 간격에 대응하는 시간 스케일링 팩터에 적합하다. 그러나, 시간 스케일링 팩터의 세분 정밀도에 관하여, 계산된 파라미터 값은 소정 품질을 달성하는데 너무 부정확하다. 따라서, 파라미터 값이 속한다고 고려되는 주파수 샘플 블록의 시간 간격 내 스테레오 파라미터 값의 시간 위치를 더 지시하여 시간 연관성을 결정하는 것이 전형적으로 바람직하다.
이하에 있어서, 본 접근은 일례와 함께 도시되며 시간 스케일링이 수행됨으로써 비-시간 스케일링된 신호의 16 블록은 14.5 블록으로 시간 스케일링된다. 따라서, 동일한 샘플링 주파수로 가정하면, 시간 스케일 프로세서(503)는 원래 신호의 16·64 샘플=1024 샘플이 시간 스케일링된 신호의 14.5·64 샘플=934 샘플로 스케일링되도록 인코딩된 파라미터를 변경할 수 있다. 일례에 있어서, 스테레오 파라미터의 새로운 값은 매 16 블록, 즉 원래 비-시간 스케일링된 신호의 매 1024 샘플이 수신된다.
도 6은 이 일례에 따라 시간 스케일링된 파라미터 값을 결정하는 방법을 그 래프로 도시한다. 이하에 있어서, 스테레오 파라미터의 시간 지시가 연관된 주파수 샘플 블록 시간 간격에 관련하여 부여된다. 따라서, 도 6의 일례에 있어서, 제 1 주파수 샘플 블록은 0 부터 1까지의 시간 지시에 대응하고, 제 2 주파수 샘플 블록은 1부터 2 까지 등의 시간 간격에 대응한다.
도시된 바와 같이, 초기 파라미터 값은 1.5 시간에서 수신된다. 스케일링된 시간 영역에서의 파라미터 사이의 스케일링된 시간 오프셋은 14.5 블록이고 대응하는 다음 파라미터 값의 시각은 도 6에 도시된 바와 같이 1.5 + 14.5 = 16으로 계산될 수 있다. 따라서, 스테레오 파라미터 값은 시각 1.5 및 시각 16에서 알려지고 따라서 주파수 샘플 블록을 개재하기에 적합한 적절한 스테레오 파라미터 값은 간단한 보간에 의해 결정된다. 예를 들어, 시각 1.5에서의 파라미터 값이 x1이고 시각 16에서의 파라미터 값이 x2 라면, 제 3 주파수 샘플 블록(시각 2.5에 대응하는)에 관한 적절한 파라미터 값은 다음으로부터 계산된다.
Figure 112006054523997-PCT00001
보다 일반적으로, 복소 지수 조정된 필터 뱅크에 기반한 파라미터 스테레오 디코더에 있어서, 스테레오 서브 대역 신호는 전형적으로 다음 방정식에 의해 구성된다.
Figure 112006054523997-PCT00002
여기서, 신호
Figure 112006054523997-PCT00003
Figure 112006054523997-PCT00004
는 복소 값 서브 대역 영역 모노를 나타내고 서브 대역 인덱스에 관한 비-상관 신호 k, n은 서브 대역 샘플 인덱스를 나타내며 매트릭스
Figure 112006054523997-PCT00005
Figure 112006054523997-PCT00006
는 파라미터 조작 매트릭스를 나타낸다.
이전 그리고 현재(반드시 정수일 필요는 없다) 스케일링된 파라미터 위치는 각각
Figure 112006054523997-PCT00007
Figure 112006054523997-PCT00008
로 표시된다. 수신된 스테레오 파라미터에 기초하여, 벡터
Figure 112006054523997-PCT00009
Figure 112006054523997-PCT00010
가 계산된다.
만약
Figure 112006054523997-PCT00011
Figure 112006054523997-PCT00012
가 이전 단계에서 계산된다면, 조작 매트릭스는
Figure 112006054523997-PCT00013
에 관하여 다음으로부터 계산된다.
Figure 112006054523997-PCT00014
따라서 본 실시예는 시간 스케일링된 모노 신호로 시간 정합된 스테레오 파라미터 값을 발생시키는 낮은 복잡성을 갖는 방법과 파라미터 스테레오 디코더(509)의 고정된 스케일 시간 영역 간격 블록 처리를 제공한다. 이는 보다 간단한 영역 변환 기능이 사용되는 것과 같이 복잡성이 상당히 감소시킬 수 있다.
일례에 있어서, 상술한 보간은 수신된 파라미터 값에 관하여 결정된 실제 부분 시각을 사용하여 수행되었다. 그러나, 몇몇 실시예에서, 공칭 시각에 기초하여 보간을 수행하는 것이 바람직하다. 특히 이는 처리의 복잡성을 감소시킬 수 있고 특히 조작과 분할을 요구하는 복합체 및 자원의 필요성을 감소하거나 제거할 수 있다.
따라서, 소정의 파라미터 값에 관한 부분 시각을 결정한 후에, 더욱 처리를 위해 시간 간격 내에서 공칭 시간 위치에 연관된다. 따라서, 결정된 시간 위치는, 보간을 위해, 가장 가까운 공칭값, 예를 들어, 대응하는 주파수 샘플 블록 시간 간격의 중간점으로 시프트된다. 그러나, 결정된 시각의 부분 값은 다음 파라미터 값의 시각 계산이 사용되는 것이 바람직하다.
특정 예와 같이, 시각 16.0에서 발생하는 도 6의 파라미터 값은 보간을 위해 시각 16.5(또는 15.5)로 이동된다. 따라서 제 3 주파수 샘플 블록(시각 2.5에 대응하는)에 관한 파라미터 값의 보간은 다음으로부터 계산된다.
Figure 112006054523997-PCT00015
그러나, 다음 파라미터 값에 관한 다음 시각의 계산은 정밀한 값 즉 시각 16.0 + 14.5 = 30.5에서 고려될 다음 파라미터 값에 여전히 기초할 것이다. 이와 같이, 정확한 평균 파라미터 주파수 갱신은 유지될 것이다.
보간을 위한 파라미터 값의 시간 시프트는 파라미터 값에 대응하는 다른 샘플을 발생시킨다. 그러나, 시프트는 전형적으로 64 샘플 미만이기 때문에, 시프트에 의해 도입된 가청 인공물은 없다.
일반적으로, 시간 스케일링된 파라미터 값의 갱신율은 동기화가 유지되는 것을 보장하기 위해 시간 스케일링된 모노 신호와 동기화되는 것이 중요하다는 것이 이해될 것이다. 그러나, 마이너 절대 시간 오프셋(64 샘플 미만을 말한다)은 인식된 품질 상에 하찮은 효과를 가진다.
이전 그리고 현재(반드시 정수일 필요는 없다) 파라미터 값 시각을 각각
Figure 112006054523997-PCT00016
Figure 112006054523997-PCT00017
로 표시할 때, 비-정수 파라미터 위치
Figure 112006054523997-PCT00018
Figure 112006054523997-PCT00019
를 정수 위치
Figure 112006054523997-PCT00020
Figure 112006054523997-PCT00021
로 매핑하는 다른 방법은 다음 반복에 의해 부여된다. N은 블록의 샘플 수(예를 들어, 64)이다. 다음 값은 결정된다.
Figure 112006054523997-PCT00022
여기서,
Figure 112006054523997-PCT00023
는 이전 정수 위치이다.
현재 정수 파라미터 위치는 이어 다음과 같이 계산된다.
Figure 112006054523997-PCT00024
반복을 초기화하기 위해,
Figure 112006054523997-PCT00025
이다.
본 발명은 하드웨어, 소프트웨어, 펌웨어 또는 어느 이들의 조합을 포함하는 형태로 적합하게 구현될 수 있다. 그러나, 바람직하게는 본 발명은 하나 이상의 데이터 프로세서 및/또는 디지털 신호 프로세서상에서 구동되는 컴퓨터 소프트웨어로서 구현되는 것이다. 본 발명의 실시예의 요소와 구성은 물리적으로, 기능적으로 그리고 논리적으로 어느 적합한 방식으로 구현된다. 사실 기능성은 단일 유닛으로, 다수의 유닛으로 또는 다른 기능적 유닛의 일부분으로 구현된다. 본 발명은 단일 유닛으로 또는 다른 유닛과 프로세서 사이에 물리적 그리고 기능적으로 분산되어 구현될 수 있다.
본 발명을 바람직한 실시예에 관련하여 상술하였지만, 여기에 설명한 특정 형태로 한정하고자 하는 것이 아니다. 오히려, 본 발명의 범위는 오직 동반하는 청구항에 의해서만 제한된다. 청구항에 있어서, 포함한다는 표현은 다른 요소 또는 단계의 존재를 배제하는 것이 아니다. 게다가, 개별적으로 리스트된 다수의 수단, 요소 또는 방법 단계는 예를 들어, 단일 유닛 또는 프로세서에 의해 구현될 수 있다. 또한, 개별 특징은 다른 청구항에 포함될 수 있으며, 이는 가능한 유리하게 결합될 수 있으며, 다른 청구항의 삽입은 특징의 조합이 실행가능 및/또는 유리하지 않다는 것을 내포하는 것이 아니다. 또한, 단수의 언급은 다수를 배제하는 것이 아 니다. 따라서 "하나('a', 'an')", "제 1(first)", "제 2(second)" 등은 다수를 제외하는 것이 아니다.

Claims (17)

  1. 신호를 시간 스케일링하는 장치에 있어서,
    제 1 신호 및 확장 데이터를 포함하는 입력 신호를 수신하는 수단(501);
    상기 제 1 신호의 시간 스케일링된 신호를 발생시키는 수단(503, 505);
    상기 시간 스케일링된 신호에 대한 다수의 주파수 샘플 블록들을 발생시키는 수단(507)으로서, 각 주파수 샘플 블록은 상기 시간 스케일링된 신호의 고정된 시간 간격에 대응하고, 상기 고정된 시간 간격은 시간 스케일링 팩터로부터 독립적인, 상기 주파수 샘플 블록들을 발생시키는 수단(507);
    상기 확장 데이터의 제 1 파라미터 값과 상기 시간 스케일링된 신호의 연관된 제 1 시간 간격을 갖는 제 1 주파수 샘플 블록 사이의 제 1 시간 연관성을 결정하는 수단(515);
    상기 제 1 시간 연관성과 상기 제 1 파라미터 값에 따라 제 2 주파수 샘플 블록과 연관된 제 2 파라미터 값을 결정하는 수단(515);
    상기 제 2 파라미터 값에 따라 상기 제 2 주파수 샘플 블록의 데이터를 변경하는 수단(509); 및
    상기 주파수 샘플 블록들로부터 시간 영역 출력 샘플 블록들을 발생시키는 수단(511, 513)을 포함하는, 시간 스케일링 장치.
  2. 제 1 항에 있어서, 상기 제 1 시간 연관성을 결정하는 수단(515)은 상기 제 1 파라미터 값과 연관된 시각과 대응하는 연관된 시간 간격을 갖는 제 1 주파수 샘플 블록을 결정할 수 있는, 시간 스케일링 장치.
  3. 제 1 항에 있어서, 상기 제 1 시간 연관성은 상기 제 1 시간 간격 내에서 파라미터 값의 시간 위치의 지시를 포함하는, 시간 스케일링 장치.
  4. 제 1 항에 있어서, 상기 확장 데이터의 제 3 파라미터 값과 제 3 주파수 샘플 블록 사이의 제 2 시간 연관성을 결정하는 수단(515)을 더 포함하고, 상기 제 2 파라미터 값을 결정하는 수단(515)은 상기 제 1 파라미터 값, 상기 제 1 시간 연관성, 상기 제 3 파라미터 값 및 상기 제 2 시간 연관성에 따라 보간을 수행할 수 있는, 시간 스케일링 장치.
  5. 제 4 항에 있어서, 상기 보간은 선형 보간인, 시간 스케일링 장치.
  6. 제 1 항에 있어서, 상기 제 1 시간 연관성을 결정하는 수단(515)은 이전 시간 연관성에 따라 상기 제 1 시간 연관성을 결정할 수 있는, 시간 스케일링 장치.
  7. 제 1 항에 있어서, 상기 확장 데이터의 연속적인 파라미터 값들 사이의 스케일링된 시간 오프셋을 결정하는 수단(515)을 더 포함하고, 상기 제 1 시간 연관성을 결정하는 수단(515)은 이전 파라미터 값과 스케일링된 시간 오프셋에 따라 상기 제 1 파라미터 값의 시각을 결정하고 상기 시각에 따라 상기 시간 연관성을 생성할 수 있는, 시간 스케일링 장치.
  8. 제 7 항에 있어서, 상기 제 2 파라미터 값을 결정하는 수단(515)은 시간 연관성에 따라 제 1 시간 간격 내 공칭 시간 위치(nominal time position)를 상기 제 1 파라미터 값에 관련시킬 수 있고 상기 제 1 파라미터 값과 상기 공칭 시간 위치에 따라 상기 제 2 파라미터 값을 결정할 수 있는, 시간 스케일링 장치.
  9. 제 8 항에 있어서, 상기 제 2 파라미터 값을 결정하는 수단(515)은 상기 제 1 파라미터 값과 상기 공칭 시간 위치에 반응하여 보간에 따라 상기 제 2 파라미터 값을 결정할 수 있는, 시간 스케일링 장치.
  10. 제 1 항에 있어서, 상기 입력 신호는 파라미터 인코딩된 오디오 신호인, 시간 스케일링 장치.
  11. 제 1 항에 있어서, 상기 주파수 샘플 블록들을 발생시키는 수단(507)은 복소 지수형 조정된 필터 뱅크들을 포함하는, 시간 스케일링 장치.
  12. 제 1 항에 있어서, 상기 확장 데이터는 파라미터 스테레오 데이터를 포함하는, 시간 스케일링 장치.
  13. 제 12항에 있어서,
    상기 제 1 파라미터 값은:
    a. 인터-채널 강도 차 파라미터들;
    b. 인터-채널 시간 또는 페이즈 차 파라미터들; 및
    c. 인터-채널 일관성 파라미터들로 이루어지는 그룹으로부터 선택된 스테레오 이미지 파라미터의 파라미터 값인, 시간 스케일링 장치.
  14. 제 1 항에 있어서, 상기 변경 수단(509)은 적어도 제 1 스테레오 채널 주파수 샘플 블록이 발생하도록 상기 제 2 주파수 샘플 블록의 데이터를 변경할 수 있는, 시간 스케일링 장치.
  15. 신호를 시간 스케일링하는 방법에 있어서,
    제 1 신호 및 확장 데이터를 포함하는 입력 신호를 수신하는 단계;
    상기 제 1 신호의 시간 스케일링된 신호를 발생시키는 단계;
    상기 시간 스케일링된 신호에 대한 주파수 샘플 블록들을 발생시키는 수단으로서, 각 주파수 샘플 블록은 상기 시간 스케일링된 신호의 고정된 시간 간격에 대응하고, 상기 고정된 시간 간격은 시간 스케일링 팩터로부터 독립적인, 상기 주파수 샘플 블록들을 발생시키는 수단;
    상기 확장 데이터의 제 1 파라미터 값과 상기 시간 스케일링된 신호의 연관 된 제 1 시간 간격을 갖는 제 1 주파수 샘플 블록 사이의 제 1 시간 연관성을 결정하는 단계;
    상기 제 1 시간 연관성과 상기 제 1 파라미터 값에 따라 제 2 주파수 샘플 블록과 연관된 제 2 파라미터 값을 결정하는 단계;
    상기 제 2 파라미터 값에 따라 상기 제 2 주파수 샘플 블록의 데이터를 변경하는 단계; 및
    상기 주파수 샘플 블록들로부터 시간 영역 출력 샘플 블록들을 발생시키는 단계를 포함하는, 시간 스케일링 방법.
  16. 제 15항에 따른 방법을 수행할 수 있게 하는 컴퓨터 프로그램.
  17. 제 16항에 따른 컴퓨터 프로그램을 포함하는 기록 매체.
KR1020067015305A 2004-01-28 2005-01-14 신호를 시간 스케일링하는 방법 및 장치 KR20070001111A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04100306.2 2004-01-28
EP04100306 2004-01-28

Publications (1)

Publication Number Publication Date
KR20070001111A true KR20070001111A (ko) 2007-01-03

Family

ID=34814365

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020067015305A KR20070001111A (ko) 2004-01-28 2005-01-14 신호를 시간 스케일링하는 방법 및 장치

Country Status (11)

Country Link
US (1) US7734473B2 (ko)
EP (1) EP1711937B1 (ko)
JP (1) JP2007519967A (ko)
KR (1) KR20070001111A (ko)
CN (1) CN1914668B (ko)
AT (1) ATE447226T1 (ko)
BR (1) BRPI0507124A (ko)
DE (1) DE602005017358D1 (ko)
ES (1) ES2335221T3 (ko)
RU (1) RU2381569C2 (ko)
WO (1) WO2005073958A1 (ko)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8027478B2 (en) * 2004-04-16 2011-09-27 Dublin Institute Of Technology Method and system for sound source separation
FR2888699A1 (fr) * 2005-07-13 2007-01-19 France Telecom Dispositif de codage/decodage hierachique
US9159333B2 (en) * 2006-06-21 2015-10-13 Samsung Electronics Co., Ltd. Method and apparatus for adaptively encoding and decoding high frequency band
CN101479788B (zh) * 2006-06-29 2012-01-11 Nxp股份有限公司 声音帧长度适配
US8571875B2 (en) 2006-10-18 2013-10-29 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding and/or decoding multichannel audio signals
KR101434198B1 (ko) * 2006-11-17 2014-08-26 삼성전자주식회사 신호 복호화 방법
JP5103880B2 (ja) * 2006-11-24 2012-12-19 富士通株式会社 復号化装置および復号化方法
JP5554065B2 (ja) * 2007-02-06 2014-07-23 コーニンクレッカ フィリップス エヌ ヴェ 複雑さの軽減されたパラメトリックステレオデコーダ
KR20080073925A (ko) * 2007-02-07 2008-08-12 삼성전자주식회사 파라메트릭 부호화된 오디오 신호를 복호화하는 방법 및장치
WO2009010831A1 (en) * 2007-07-18 2009-01-22 Nokia Corporation Flexible parameter update in audio/speech coded signals
WO2010040381A1 (en) * 2008-10-06 2010-04-15 Telefonaktiebolaget L M Ericsson (Publ) Method and apparatus for delivery of aligned multi-channel audio
CN103474076B (zh) * 2008-10-06 2017-04-12 爱立信电话股份有限公司 用于输送对齐的多通道音频的方法和设备
EP2214161A1 (en) * 2009-01-28 2010-08-04 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for upmixing a downmix audio signal
TWI621332B (zh) 2009-02-18 2018-04-11 杜比國際公司 用於高頻重建或參數立體聲之複指數調變濾波器組
JP5581449B2 (ja) * 2010-08-24 2014-08-27 ドルビー・インターナショナル・アーベー Fmステレオ無線受信機の断続的モノラル受信の隠蔽
TWI516138B (zh) * 2010-08-24 2016-01-01 杜比國際公司 從二聲道音頻訊號決定參數式立體聲參數之系統與方法及其電腦程式產品
JP5734517B2 (ja) * 2011-07-15 2015-06-17 華為技術有限公司Huawei Technologies Co.,Ltd. 多チャンネル・オーディオ信号を処理する方法および装置
US9378748B2 (en) * 2012-11-07 2016-06-28 Dolby Laboratories Licensing Corp. Reduced complexity converter SNR calculation
EP2987166A4 (en) * 2013-04-15 2016-12-21 Nokia Technologies Oy BESTIMMER FOR MULTI-CHANNEL AUDIOSIGNAL CODIER MODE
US9686609B1 (en) * 2013-06-28 2017-06-20 Avnera Corporation Low power synchronous data interface
CN104347077B (zh) * 2014-10-23 2018-01-16 清华大学 一种立体声编解码方法
JP6763194B2 (ja) * 2016-05-10 2020-09-30 株式会社Jvcケンウッド 符号化装置、復号装置、通信システム
US10210874B2 (en) * 2017-02-03 2019-02-19 Qualcomm Incorporated Multi channel coding

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5175769A (en) * 1991-07-23 1992-12-29 Rolm Systems Method for time-scale modification of signals
US5828994A (en) * 1996-06-05 1998-10-27 Interval Research Corporation Non-uniform time scale modification of recorded audio
JP3465628B2 (ja) * 1999-05-06 2003-11-10 ヤマハ株式会社 オーディオ信号の時間軸圧伸方法及び装置
JP3430968B2 (ja) * 1999-05-06 2003-07-28 ヤマハ株式会社 ディジタル信号の時間軸圧伸方法及び装置
US6278387B1 (en) * 1999-09-28 2001-08-21 Conexant Systems, Inc. Audio encoder and decoder utilizing time scaling for variable playback
US6842735B1 (en) * 1999-12-17 2005-01-11 Interval Research Corporation Time-scale modification of data-compressed audio information
JP2001255894A (ja) * 2000-03-13 2001-09-21 Sony Corp 再生速度変換装置及び方法
JP2002268700A (ja) * 2001-03-09 2002-09-20 Canon Inc 音響情報符号化装置及び復号装置及び方法及びコンピュータプログラム及び記憶媒体
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7079905B2 (en) * 2001-12-05 2006-07-18 Ssi Corporation Time scaling of stereo audio
US7239999B2 (en) * 2002-07-23 2007-07-03 Intel Corporation Speed control playback of parametric speech encoded digital audio
US6982377B2 (en) * 2003-12-18 2006-01-03 Texas Instruments Incorporated Time-scale modification of music signals based on polyphase filterbanks and constrained time-domain processing

Also Published As

Publication number Publication date
CN1914668A (zh) 2007-02-14
ATE447226T1 (de) 2009-11-15
US20090192804A1 (en) 2009-07-30
EP1711937A1 (en) 2006-10-18
US7734473B2 (en) 2010-06-08
BRPI0507124A (pt) 2007-06-19
RU2381569C2 (ru) 2010-02-10
RU2006127273A (ru) 2008-02-10
EP1711937B1 (en) 2009-10-28
DE602005017358D1 (de) 2009-12-10
CN1914668B (zh) 2010-06-16
ES2335221T3 (es) 2010-03-23
WO2005073958A1 (en) 2005-08-11
JP2007519967A (ja) 2007-07-19

Similar Documents

Publication Publication Date Title
KR20070001111A (ko) 신호를 시간 스케일링하는 방법 및 장치
RU2693648C2 (ru) Устройство и способ для кодирования или декодирования многоканального сигнала с использованием повторной дискретизации спектральной области
RU2550525C2 (ru) Аппаратный блок, способ и компьютерная программа для преобразования расширения сжатого аудио сигнала с помощью сглаженного значения фазы
CA2603027C (en) Device and method for generating a data stream and for generating a multi-channel representation
KR101290486B1 (ko) 다운믹스 오디오 신호를 업믹싱하는 장치, 방법 및 컴퓨터 프로그램
JP4834539B2 (ja) オーディオ信号合成
JP6185592B2 (ja) 空間オーディオオブジェクト符号化における信号依存ズーム変換のためのエンコーダ、デコーダおよび方法
JP6285939B2 (ja) 後方互換性のある多重分解能空間オーディオオブジェクト符号化のためのエンコーダ、デコーダおよび方法
IL266580A (en) Method and device for adjustable control of decorrelation filters
KR20060122695A (ko) 오디오 신호의 디코딩 방법 및 장치
MXPA06008450A (en) Savoury food composition comprising low-trans triglyceride fat composition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E601 Decision to refuse application