KR20060132697A - 트랜스코더 및 트랜스코딩 방법 - Google Patents

트랜스코더 및 트랜스코딩 방법 Download PDF

Info

Publication number
KR20060132697A
KR20060132697A KR1020067016423A KR20067016423A KR20060132697A KR 20060132697 A KR20060132697 A KR 20060132697A KR 1020067016423 A KR1020067016423 A KR 1020067016423A KR 20067016423 A KR20067016423 A KR 20067016423A KR 20060132697 A KR20060132697 A KR 20060132697A
Authority
KR
South Korea
Prior art keywords
data
parametric
extension data
parametric extension
transcoder
Prior art date
Application number
KR1020067016423A
Other languages
English (en)
Inventor
아놀두스 더블유. 제이. 우멘
에릭 지. 피. 슈이저스
마크 더블유. 티. 클레인 미드디링크
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20060132697A publication Critical patent/KR20060132697A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M7/00Conversion of a code where information is represented by a given sequence or number of digits to a code where the same, similar or subset of information is represented by a different sequence or number of digits
    • H03M7/30Compression; Expansion; Suppression of unnecessary data, e.g. redundancy reduction

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

트랜스코더는 인코딩된 데이터를 나타내고 제 1인코딩 데이터 및 제 1 파라메트릭 확장 데이터를 포함하는 입력 데이터를 수신하는 수신기(101)를 포함한다. 인코딩된 데이터는 디코더(103)에 공급된다. 디코더(103)의 출력은 다른 인코딩 프로토콜에 따라 또는 다른 인코딩 파라미터들을 사용하여 제 2 인코딩된 데이터를 생성하는 인코더(105)에 공급된다. 제 1파라메트릭 확장 데이터는 제 1 파라메트릭 확장 데이터로부터 제 2 파라메트릭 확장 데이터를 직접 생성하는 확장 데이터 프로세서(109)에 공급된다. 제 2 인코딩된 데이터 및 제 2 파라메트릭 확장 데이터는 개별적으로 결정된 파라메트릭 확장 데이터를 포함하는 트랜스코딩된 신호를 생성하기 위하여 출력 프로세서(107)에서 결합된다. 파라메트릭 확장 데이터는 오디오 비트스트림에 대한 스펙트럼 대역 복제(SBR) 또는 파라메트릭 스테레오(PS) 확장 데이터일 수 있다. 파라메트릭 확장 데이터의 개별 트랜스코딩을 수행함으로써 품질이 개선될 뿐만아니라 복잡성이 감소된다.
파라메트릭 확장 데이터, 트랜스코더, 스펙트럼 대역 복제

Description

트랜스코더 및 트랜스코딩 방법{A transcoder and method of transcoding therefore}
본 발명은 트랜스코더 및 트랜스코딩 방법, 특히 오디오 신호의 트랜스코딩에 관한 것이다.
최근 몇년동안, 디지털 형식으로 A/V 콘텐츠의 분배 및 저장은 현저하게 증가되었다. 따라서, 예컨대 MPEG-2 오디오 및 비디오 코딩을 포함하는 다수의 코딩 표준들 및 프로토콜들이 개발되었다.
오디오 신호들의 디지털 코딩을 위한 가장 널리 공지된 코딩 표준들중 하나는 ISO/IEC JTC1/SC29/WG11 MPEG, IS11172-3, 정보 기술, 즉 최대 약 1.5Mbit/s에서 디지털 저장 미디어용 동영상 및 연관된 오디오의 코딩 및 일반적으로 MP3로서 언급된 오디오, MPEG-1, 1992에 기술된 MPEG-1 계층 3 표준이다. 예로서, MP3는 노래의 30 또는 40 메가바이트 디지털 PCM(펄스 코드 변조) 스테레오 오디오 기록이 예컨대 3 또는 4 메가바이트 MP3 파일로 압축되도록 한다. 정확한 압축비는 MP3 코딩된 오디오의 적정 품질에 따른다. 오디오 코딩 표준의 다른 예는 ISO/IEC JTC1/SC29/WG11 MPEG, IS13818-7, 정보 기술, 즉 동화상 및 연관된 오디오의 일반적 코딩, 7편: 차세대 오디오 코딩, 1997에 기술된 AAC(차세대 오디오 코딩)이다.
MP3 또는 AAC와 같은 오디오 코딩 및 압축 기술들은 비교적 낮은 데이터 크기 및 고품질의 오디오 파일들이 예컨대 인터넷을 포함하는 데이터 네트워크들을 통해 분배되도록 하는 비트율 측면에서 효율적인 오디오 코딩을 위하여 제공한다. 그러나, 대역폭 필요조건을 감소하거나 또는 코딩된 신호들의 품질을 증가시킬 수 있는 더 효율적인 기술들은 바람직하다. 예컨대, 지난해에 인터넷을 통한 오디오 파일들의 분배 증가는 네트워크 부하의 누적을 유발하였다. 게다가, 낮은 인코딩 데이터율들은 다운로드 시간을 추가로 감소시킬 것이다.
결과적으로, 더 효율적인 코딩 기술들을 제공하기 위하여 획기적인 연구가 착수되었다. 그러나, 기존 코딩 기술들의 널리 퍼진 보급으로 인하여, 새로운 기술들이 기존 코딩 기술들중 하나 이상의 기술과 역방향으로 호환가능하도록 하는 것이 바람직하다.
오디오 신호들을 인코딩하기 위하여 최근에 개발된 두개의 기술들은 스펙트럼 대역 복제(SBR) 및 파라메트릭 스테레오(PS) 코딩으로서 공지되어 있다. 이들 기술들은 역방향 호환 방식으로 임의의 오디오 코딩 방식으로서 적용될 수 있다. 특히, SBR 및 PS는 예컨대 MP3 또는 AAC 포맷으로 오디오 신호를 코딩하기 위하여 비트율을 감소시키는데 사용될 수 있는 강화 데이터를 생성한다. 강화 데이터는 종래의 디코더들이 부가 데이터를 무시하도록 MP3 또는 AAC 데이터 스트림의 보조 데이터 섹션들에 저장될 수 있다.
파라메트릭 스테레오(PS)에서, 스테레오 오디오 코딩은 예컨대 MP3 또는 AAC를 사용하여 단일 모노 신호만을 인코딩함으로써 수행된다. 더욱이, 스테레오 이 미징 파라미터들은 인코더에서 결정되며 개별 확장 데이터로서 데이터 스트림에 포함된다. 디코더에서, 모노 인코딩된 채널은 스테레오 이미징 파라미터들에 따라 두개의 채널들에 대하여 모노 인코딩된 신호를 다르게 처리함으로써 스테레오 채널들로 확장된다. 이들 파라미터들은 채널간 강도 차이들(IID), 채널간 시간 또는 위상 차이들(ITD 또는 IPD) 및 채널간 상호상관들(ICC)로 구성된다.
스펙트럼 대역 복제(SBR) 강화 인코더에서는 인코딩될 오디오 신호의 저주파수 대역이 추출된다. 이러한 저주파수 대역은 예컨대 MPE3 또는 AAC와 같은 적절한 인코딩 기술을 사용하여 실질적으로 인코딩된다. 더욱이, SBR 인코더는 강화 데이터로서 데이터 스트림에 포함된 고주파수 파라미터들을 생성한다. 따라서, 오디오 신호의 고주파수 대역은 저주파수 대역과 동일한 방식으로 인코딩되지 않으나 파라메트릭하게 인코딩된다. 특히, 고주파수 대역은 고주파수 대역을 생성하기 위하여 전치 신호가 어떻게 처리되는지(예컨대, 엔벨로프 수정에 의하여)를 지시하는 데이터를 포함하는 고주파수 파라미터들과 함께 저주파수 대역의 전치에 의하여 생성된다. SBR 디코더는 고주파수 파라미터들을 추출하고, 고주파수 파라미터들에 따라 전치된 저주파수 대역을 수정함으로써 고주파수 대역을 생성한다. 특히, SBR 고주파수 파라미터들은 다음과 같은 정보를 포함한다.
Figure 112006058152102-PCT00001
전치 정보(즉, 저주파수 대역 부대역들 및 고주파수 대역 부대역들간의 매핑을 지시하는 정보).
스펙트럼 엔벨로프 정보. 스펙트럼 엔벨로프 정보는 SBR 처리후에 부대역들의 에너지 값들을 지시한다.
Figure 112006058152102-PCT00003
잡음 플로어 데이터. 잡음 플로어 데이터는 전치된 신호의 추정된 에너지(이러한 추정은 SBR 디코더에서 계산됨)와 함께 고주파수 대역 신호에 추가될 잡음량을 지시한다.
Figure 112006058152102-PCT00004
선택적으로, 고주파수 성분들(예컨대, 고주파수 대역에 존재하나 저주파수 대역에 존재하지 않는 고조파).
SBR 강화 MP3는 mp3PRO 인코더로서 공지되며, SBR 강화 AAC 인코더는 aacPlus 또는 고효율(HE)-AAC 인코더로서 공지된다.
SBR 및 PS에 대하여, 강화 파라미터들은 강화 파라미터들의 데이터율이 보조 데이터 섹션들의 이용가능한 용량을 초과하지 않는한 코어-코딩 방식의 보조 데이터 부분으로 효율적으로 인코딩될 수 있다. 레가시 디코더들은 이러한 보조 데이터를 처리하지 않으나 코어-인코딩된 데이터만을 디코딩할 것이다. SBR에 대하여 이는 대역 제한 신호이며, PS에 대하여 이는 전체 대역 모노랄 신호이다. 이러한 방식에서, 역방향 호환성들은 품질이 저하됨에도 불구하고 오디오 신호들이 레가시 디코더들에 의하여 생성되기 때문에 오디오 신호들로서 유지된다.
다양한 다른 코딩 표준들 및 기술들로 인하여, 다른 코딩 표준들 또는 동일한 코딩 표준의 다른 코딩 세팅들간의 트랜스코딩하는데 종종 편리하다. 따라서, 트랜스코딩은 포맷 A의 비트-스트림을 다른 코딩 파라미터들(예컨대, 비트율, 샘플링율)을 가진 동일한 포맷 A 또는 다른 포맷 B로 변환하기 위하여 사용된다. 종래에, 트랜스코더는 입력 신호가 입력 데이터의 포맷에 따라 우선 디코딩되고 다음으로 출력 데이터 스트림의 포맷에 따라 재인코딩되도록 디코더 및 인코더의 직렬 결 합을 구현한다.
일반적으로, 이는 품질 손실을 유발할 것이다. 트랜스코딩의 문제는 코딩 방식들이 SBR 및/또는 PS와 같은 파라메트릭 확장 방식들과 결합될때 더 복잡해진다. 이들 확장 방식들이 파라메트릭화된 형식으로 신호의 부분들을 나타내기 때문에, 가능한 충실하게 파형을 나타내는 것과 비교하여 트랜스코딩의 결과로서 상당한 품질 저하가 예상된다.
게다가, 트랜스코딩의 복잡성은 디코더가 입력 확장 데이터를 처리해야 하고 인코더가 새로운 확장 데이터를 생성해야 하기 때문에 파라메트릭 확장들로 인하여 증가할 수 있다. 이는 예컨대 비용을 증가시킬 뿐만아니라 계산 요건들, 지연 등을 유발할 수 있다.
그러므로, 개선된 트랜스코딩이 유리하며, 특히 성능을 개선하고 품질을 향상시키며 데이터율 및/또는 복잡성을 감소시키는 트랜스코딩이 유리하다.
따라서, 본 발명은 바람직하게 앞서 기술된 단점들중 하나 이상을 단일 또는 임의의 결합으로 완화하거나 또는 경감하거나 또는 제거하는 것이다.
본 발명의 제 1양상에 따르면, 인코딩된 신호를 나타내고 제 1 파라메트릭 확장 데이터를 포함하는 입력 데이터를 수신하기 위한 수단; 제 1 파라메트릭 확장 데이터로부터 제 2 파라메트릭 확장 데이터를 결정하기 위한 수단; 및 제 2 파라메트릭 확장 데이터를 포함하는 트랜스코딩된 데이터를 생성하기 위한 수단을 포함하는 트랜스코더가 제공된다.
본 발명의 발명자들은 트랜스코딩된 데이터에 대한 파라메트릭 확장 데이터가 입력 데이터의 파라메트릭 확장 데이터로부터 직접 생성될 수 있다는 것을 인식하였다. 따라서, 본 발명은 디코딩 및 재인코딩 프로세스에 파라메트릭 학장 데이터가 포함될 것을 요구하지 않고 트랜스코더에서 파라메트릭 확장 데이터의 개선된 처리를 위하여 제공될 수 있다. 따라서, 본 발명은 트랜스코더의 복잡성을 감소시킬 수 있다. 선택적으로 또는 부가적으로, 트랜스코더는 개선된 품질의 파라메트릭 확장 데이터가 결정될 수 있고 디코딩 및 재인코딩 프로세스와 연관된 품질 감소가 완화 또는 제거될 수 있기 때문에 트랜스코딩된 데이터의 품질을 개선할 수 있다.
파라메트릭 확장 데이터는 인코딩된 데이터의 품질을 강화하기 위하여 파라메트릭 디코더에 의하여 사용될 수 있는 파라미터 데이터를 포함할 수 있다. 파라메트릭 확장 데이터는 오디오 신호의 완전한 부분 또는 특정 부분을 기술하는 오디오 신호 소스 모델에 따라 파라미터들을 표현한다.
예컨대, 제 1 및/또는 제 2 파라메트릭 확장 데이터는 예컨대 스펙트럼 대역 복제(SBR) 프로세스의 확장 데이터에 대응할 수 있으며 예컨대 전치 정보, 스펙트럼 엔벨로프 데이터 및/또는 잡음 플로어 데이터를 포함할 수 있다. 다른 예로서, 제 1 및/또는 제 2 파라메트릭 확장 데이터는 예컨대 파라메트릭 스테레오(PS) 프로세서의 학장 데이터에 대응할 수 있으며, 예컨대 채널간 강도 차이들(IID) 데이터, 채널간 시간 또는 위상 차이들(ITD 또는 IPD) 데이터 및/또는 채널간 상호상관(ICC) 데이터를 포함할 수 있다. 제 3 예로서, 제 1 및/또는 제 2 파라메트릭 확장 데이터는 공간 다중-채널 확장 데이터에 대응할 수 있다. 예컨대, 인코딩된 신호는 역방향 호환가능 스테레오 신호일 수 있으며, 파라메트릭 확장 데이터는 예컨대 중심 및 후위 채널들과 같은 추가 공간 채널들을 생성하는 데이터를 포함할 수 있다.
입력 데이터는 입력 데이터 스트림일 수 있으며, 트랜스코딩된 데이터는 트랜스코딩된 데이터 스트림일 수 있다.
본 발명의 특징에 따르면, 입력 데이터는 인코딩된 신호와 연관된 제 1 인코딩 데이터를 더 포함하며, 트랜스코더는 제 1 인코딩 데이터를 트랜스코딩하여 제 2 인코딩 데이터를 생성하기 위한 수단을 포함하며, 이 생성 수단은 제 2 인코딩 데이터 및 제 2 파라메트릭 확장 데이터를 결합함으로써 트랜스코딩된 데이터를 생성하도록 동작할 수 있다.
제 1 인코딩 데이터는 제 1 인코딩 표준에 따라 인코딩될 수 있으며, 단지 제 1 인코딩 데이터에 기초하여 개별 디코딩을 수행할 수 있도록 충분한 정보를 포함할 수 있다. 제 1 파라메트릭 확장 데이터는 인코딩된 신호를 강화하기 위하여 적절한 디코더에 의하여 사용될 수 있는 강화 데이터일 수 있다. 제 1 인코딩된 데이터 및 파라메트릭 확장 데이터는 개별적으로 트랜스코딩될 수 있어서 트랜스코딩 프로세스들을 개별적으로 최적화할 수 있고 이에 따라 성능을 개선하고 및/또는 복잡성을 감소시킬 수 있다.
본 발명의 다른 특징에 따르면, 결정 수단은 제 1 파라메트릭 확장 데이터의 적어도 일부 데이터 값들을 복사함으로써 제 2 파라메트릭 데이터의 적어도 일부를 결정할 수 있다. 이는 구현의 복잡성을 감소시키고 및/또는 트랜스코딩된 데이터 스트림의 품질을 증가시킬 수 있다. 특히, 적어도 일부 데이터값들의 복사는 임의의 트랜스코딩 현상들이 이들 데이터 값들에 도입되는 것을 방지할 수 있다.
본 발명의 또 다른 특징에 따르면, 결정 수단은 제 2 파라메트릭 확장 데이터의 데이터값들을 최적화하기 위한 수단을 포함한다. 결정 수단은 트랜스코딩된 데이터 스트림에 대한 데이터값들을 적절하게 재양자화할 수 있다. 예컨대, 비트율은 제 1 파라메트릭 확장 데이터에 대하여 사용되는 것보다 제 2 파라메트릭 확장 데이터의 적어도 하나의 데이터값에 대하여 다른(예컨대, 개략) 양자화를 사용함으로써 감소될 수 있다. 재양자화는 제 1 파라메트릭 확장 데이터로부터 제 2 파라메트릭 확장 데이터로 복사되는 데이터값들에 적용될 수 있거나, 또는 예컨대 보간법에 의하여 제 1 파라메트릭 확장 데이터로부터 유도된 데이터값들에 적용될 수 있다.
본 발명의 또 다른 특징에 따르면, 결정 수단은 제 2 파라메트릭 확장 데이터의 데이터값들을 인코딩하기 위한 수단을 포함한다. 결정 수단은 트랜스코딩된 데이터 스트림에 대한 데이터값들을 적절하게 재인코딩할 수 있다. 재인코딩은 제 1 파라메트릭 확장 데이터로부터 제 2 파라메트릭 확장 데이터로 복사되는 데이터값들에 적용될 수 있거나, 또는 예컨대 보간법에 의하여 제 1 파라메트릭 확장 데이터로부터 유도된 데이터값들에 적용될 수 있다.
본 발명의 다른 특징에 따르면, 결정 수단은 제 1 파라메트릭 확장 데이터의 파라메트릭 확장 데이터값들간의 보간법에 의하여 제 2 파라메트릭 데이터의 적어도 일부를 결정할 수 있다. 이는 트랜스코딩된 출력 스트림에 적합한 제 2 파라메트릭 확장 데이터를 결정하는 덜 복잡한 수단을 제공한다. 용어 보간법은 여기에서 보간법 및 외삽법을 포함하는 것으로 사용된다.
본 발명의 또 다른 특징에 따르면, 결정 수단은 제 1파라메트릭 확장 데이터의 비상주 데이터를 결정하고 비상주 데이터에 응답하여 제 2 파라메트릭 확장 데이터를 생성하기 위한 수단을 포함한다. 결정된 비상주 데이터는 예컨대 비상주 데이터값일 수 있거나 또는 비상주 데이터 위치일 수 있다. 이는 트랜스코딩된 데이터의 품질을 개선시킬 수 있으며, 특히 인코딩된 신호 및 트랜스코딩된 출력 스트림사이를 근접하게 일치시킬 수 있다. 비상주 데이터값들은 인코딩된 신호의 급격한 변화들에 대응하는 입력 신호에 포함될 수 있다. 특히, 제 1 파라메트릭 확장 데이터는 인코딩된 신호의 특징들에 따라 랜덤 간격들로 발생하는 비상주 값들외에 주기적으로 발생하는 정규 데이터값들을 포함할 수 있다. 비상주 값들은 예컨대 보간법에 의하여 제 2 파라메트릭 확장 데이터에 포함될 데이터값들을 계산하기 위하여 사용될 수 있다.
본 발명의 또 다른 특징에 따르면, 결정 수단은 제 2 파라메트릭 확장 데이터에서 적어도 하나의 비상주 데이터 파라미터를 포함하도록 동작할 수 있다. 이는 비상주 값에 포함된 정보가 트랜스코딩된 데이터에 유지되어 품질을 개선하도록 하며 및/또는 비상주 값들을 포함하는 파라메트릭 확장 데이터의 트랜스코딩 복잡성을 감소시킬 수 있다.
본 발명의 또 다른 특징에 따르면, 결정 수단은 제 2 파라메트릭 확장 데이터를 결정하기전에 제 1 파라메트릭 확장 데이터를 필터링하기 위한 수단을 포함한다. 이는 트랜스코딩된 데이터의 품질을 개선시킬 수 있으며, 특히 보간 동작들과 연관된 저역통과 필터링을 보상함으로써 고주파수 성능을 개선시킬 수 있다.
본 발명의 또 다른 특징에 따르면, 입력 데이터 및 트랜스코딩된 데이터는 비동기 프레임 구조들을 가지며, 제 2 파라메트릭 확장 데이터 결정 수단은 제 1파라메트릭 확장 데이터의 제 1프레임의 제 1데이터값 및 제 1 파라메트릭 확장 데이터의 제 2프레임의 제 2 데이터값에 응답하여 트랜스코딩된 데이터의 프레임과 연관된 적어도 하나의 데이터값을 결정하도록 동작할 수 있다. 이는 비동기 프레임 구조들을 가진 인코딩 포맷들간의 단순하고 효율적이며 및/또는 고품질의 트랜스코딩을 제공한다. 입력 데이터 및 트랜스코딩된 데이터의 비동기 프레임 구조들은 특히 다른 프레임 길이들을 가질 수 있다.
본 발명의 또 다른 특징에 따르면, 결정 수단은 제 1 데이터값 및 제 2데이터값사이를 보간함으로써 적어도 하나의 데이터를 결정하도록 동작할 수 있다. 이는 트랜스코딩된 출력 스트림에 적합한 제 2파라메트릭 확장 데이터를 결정하는 단순한 수단을 제공한다. 용어 보간법은 보간법 및 외삽법 둘다를 포함하는 것으로 여기에서 사용된다.
본 발명의 또 다른 특징에 따르면, 제 1데이터값은 제 1의 복수의 주파수 부대역들과 관련된 복수의 부값들을 포함하며, 제 2데이터값은 제 2의 복수의 주파수 부대역과 관련된 복수의 부값들을 포함하며, 결정 수단은 제 3의 복수의 주파수 부대역들과 관련된 복수의 부값을 포함하도록 적어도 하나의 데이터값을 결정할 수 있다. 이는 트랜스코딩된 출력 스트림에 적합한 제 2 파라메트릭 확장 데이터를 결정하는 단순한 수단을 제공한다.
본 발명의 또 다른 특징에 따르면, 제 1, 제 2 및 제 3의 복수의 부대역들은 동일한 수의 주파수 부대역들을 포함한다. 이는 트랜스코딩된 출력 스트림에 적합한 제 2 파라메트릭 데이터를 결정하는 단순한 수단을 제공한다.
본 발명의 또 다른 특징에 따르면, 제 1의 복수의 부대역들은 제 2의 복수의 부대역들보다 더 많은 주파수 부대역들을 포함하며, 제 3의 복수의 부대역들은 제 1의 복수의 부대역들과 동일한 수의 주파수 부대역들을 포함한다. 이는 트랜스코딩된 출력 스트림에 적합한 제 2 파라메트릭 확장 데이터를 결정하는 단순한 수단을 제공한다.
제 1 및/또는 제 2 파라메트릭 확장 데이터는 스펙트럼 대역 복제(SBR) 파라메트릭 확장 데이터 및/또는 파라메트릭 스테레오(PS) 파라메트릭 확장 데이터를 포함할 수 있다.
본 발명의 또 다른 특징에 따르면, 파라메트릭 확장 데이터는 트랜스코딩된 비트 스트림의 보조 데이터 섹션에 포함된다. 이는 역방향 호환성을 제공할 수 있다. 레가시 디코더들은 보조(또는 부가) 데이터 섹션들을 무시함으로써 트랜스코딩된 비트 스트림을 디코딩할 수 있다.
바람직하게, 인코딩된 신호는 오디오 신호이다.
본 발명의 제 2양상에 따르면, 인코딩된 신호를 나타내고 제 1 파라메트릭 확장 데이터를 포함하는 입력 데이터를 수신하는 단계; 제 1 파라메트릭 확장 데이터로부터 제 2 파라메트릭 확장 데이터를 결정하는 단계; 및 제 2 파라메트릭 확장 데이터를 포함하는 트랜스코딩된 데이터를 생성하는 단계를 포함하는 트랜스코딩 방법이 제공된다.
본 발명의 이들 및 다른 양상들, 특징들 및 장점들은 이하에 기술된 실시예(들)을 참조로할때 더욱더 명백해 질 것이다.
본 발명의 실시예는 도면들을 참조로할때 단지 예로서 기술될 것이다.
도 1은 본 발명의 실시예에 따른 트랜스코더의 블록도.
도 2는 본 발명의 실시예에 따른 파라메트릭 확장 데이터의 데이터값들에 대한 보간법을 기술한 도면.
도 3은 본 발명의 실시예에 따른 파라메트릭 확장 데이터의 데이터값들에 대한 보간법을 기술한 도면.
도 4는 본 발명의 실시예에 따른 선형 보간기의 원리를 기술한 도면.
도 5는 본 발명의 실시예에 따른 선형 보간기의 필터에 대한 주파수 응답을 기술한 도면.
도 6은 mp3PRO 입력 스트림 및 aacPlus 트랜스코딩된 데이터 스트림간의 예시적인 시정렬을 기술한 도면.
도 7은 입력 데이터 스트림의 엔벨로프 데이터값들의 타이밍 예를 기술한 도면.
도 8은 입력 데이터 스트림의 엔벨로프 데이터값들의 다른 타이밍 예를 기술 한 도면.
이하의 설명은 오디오 트랜스코더에, 특히 스펙트럼 대역 복제(SBR) 또는 파라메트릭 스테레오(PS) 파라메트릭 확장 데이터를 포함하는 입력 및 출력 신호들사이를 트랜스코딩하는 오디오 트랜스코더에 적용가능한 본 발명의 실시예에 집중한다. 그러나, 본 발명이 이들 실시예들에 제한되지 않고 많은 다른 트랜스코더들 및 확장 데이터에 적용될 수 있다는 것이 인식될 것이다.
도 1은 본 발명의 실시예에 따른 트랜스코더(100)의 블록도를 기술한다.
실시예에 따르면, 파라메트릭 확장 데이터의 트랜스코딩과 연관된 품질 저하들은 입력 데이터의 파라메트릭 확장 데이터로부터 출력 트랜스코딩된 데이터에 대한 파라메트릭 확장 데이터를 직접 생성함으로써 완화 또는 경감될 수 있다. 특정 실시예에서, 입력 데이터는 주어진 인코딩 프로토콜에 따라 인코딩된 신호에 대응하는 인코딩 데이터를 포함한다. 실시예에서, 파라메트릭 확장 데이터는 디코딩된 신호의 품질을 개선하기 위하여 적절한 인코더들에 의하여 사용될 수 있는 강화 데이터이다. 예컨대, 인코딩 데이터는 MP3 또는 AAC와 같은 오디오 인코딩 표준에 따라 인코딩된 신호를 포함할 수 있으며, 파라메트릭 확장 데이터는 SBR 및/또는 PS 강화 데이터를 포함할 수 있다.
특히, 트랜스코더(100)는 인코딩된 신호 및 파라메트릭 확장 데이터를 포함하는 입력 데이터 스트림을 수신하는 수신기(101)를 포함한다. 수신기(101)는 입력 데이터 스트림을 디멀티플렉싱하고 입력 파라메트릭 확장 데이터로부터 입력 인 코딩된 데이터를 분리하도록 동작할 수 있다.
수신기(101)는 인코딩된 데이터가 입력되는 디코더(103)에 접속된다. 실시예에서, 디코더(103)는 적절한 인코딩 표준에 따른 입력 인코딩된 데이터를 디코딩하며, 기본 오디오 신호의 펄스 코드 변조된 표현을 생성한다.
디코더(103)는 펄스 코드 변조된 데이터를 수신하며 출력 인코딩된 데이터를 생성하기 위하여 신호를 인코딩하는 인코더(105)에 접속된다. 인코더(105)의 표준 또는 인코딩 프로토콜은 입력 인코딩된 데이터의 인코딩 프로토콜과 다른 실시예이다. 예컨대, 입력 신호는 MP3 인코딩 표준에 따라 인코딩될 수 있으며, 인코더(105)는 AAC 표준에 따라 동작할 수 있다.
일부 실시예들에서, 동일한 인코딩 프로토콜 또는 표준은 다른 인코딩 파라미터들과 함께 사용될 수 있다. 예컨대, 인코더(105)는 디코더(103)와 다른 비트율에서 동일한 인코딩 표준을 사용할 수 있다.
디코더(105)는 인코딩된 데이터가 출력되는 출력 프로세서(107)에 접속된다. 출력 프로세서(107)는 트랜스코딩된 데이터 스트림의 인코딩된 데이터를 포함한다.
수신기(101)는 입력 파라메트릭 확장 데이터가 제공되는 확장 데이터 프로세서(109)에 접속된다. 확장 데이터 프로세서(109)는 입력 파라메트릭 확장 데이터로부터 출력 파라메트릭 확장 데이터를 결정한다. 출력 파라메트릭 확장 데이터는 출력 인코딩된 데이터에 대한 파라메트릭 확장 데이터와 호환가능하게 생성된다.
확장 데이터 프로세서(109)는 출력 파라메트릭 확장 데이터가 제공되는 출력 프로세서(107)에 접속된다. 출력 프로세서(107)는 트랜스코딩된 데이터 스트림의 출력 파라메트릭 확장 데이터를 포함한다.
따라서, 바람직한 실시예에서, 인코딩된 신호는 인코더 및 트랜스코더의 종래의 직렬 결합을 적합하게 함으로써 트랜스코딩된다. 더욱이, 입력 데이터의 파라메트릭 확장 데이터는 출력 데이터 스트림에 대한 적절한 파라메트릭 확장 데이터를 생성하도록 개별적으로 처리된다. 따라서, 파라메트릭 확장 데이터는 트랜스코딩된 데이터 스트림의 품질을 증가시키기 위하여 선택적으로 처리될 수 있다. 게다가, 단순한 트랜스코더는 전형적으로 출력 파라메트릭 확장 데이터의 생성을 위하여 필요한 처리가 전형적으로 비교적 단순하고 디코더 및 인코더가 파라메트릭 확장 데이터를 무시할 수 있기 때문에 실행될 수 있다.
입력 데이터 스트림 및 출력 데이터 스트림이 정렬되는 단순한 실시예에서, 데이터는 전형적으로 입력 파라메트릭 확장 데이터로부터 출력 파라메트릭 확장 데이터로 직접 복사될 수 있다. 예컨대, PS 확장 데이터를 포함하는 제 1비트율에서의 MP3 데이터 스트림을 다른 비트율에 다른 MP3 데이터 스트림으로의 트랜스코딩은 디코더 및 인코더에 의하여 MP3 데이터를 트랜스코딩하고 입력 스트림의 보조(또는 부가) 데이터 섹션들로부터 출력 데이터 스트림의 보조(또는 부가) 데이터 섹션들로 PS 확장 데이터를 직접 복사함으로써 달성될 수 있다.
확장 데이터 프로세서(109)는 일부 실시예들에서 출력 파라메트릭 확장 데이터의 데이터값들을 재인코딩 및/또는 재양자화하는 기능을 포함할 수 있다. 예컨대, 채널간 강도 차이들에 대한 데이터값들은 PS 파라메트릭 확장 데이터의 데이터율을 감소시키기 위하여 개략 양자화로 양자화될 수 있다. 유사하게, 데이터값들 의 다른 인코딩은 예컨대 고에러 저항과 같은 적정 특징을 제공하기 위하여 사용될 수 있다.
전형적으로, 출력 파라메트릭 확장 데이터의 데이터값들의 양자화 및 인코딩은 데이터값들이 입력 파라메트릭 확장 데이터의 데이터값들에 기초하여 계산함으로써 유도될때 특히 유리하다.
일부 실시예들에서 단지 파라메트릭 확장 데이터가 트랜스코더에 의하여 수정될 수 있다는 것이 인식될 것이다. 예컨대, 트랜스코딩은 비트 스트림의 보조 데이터 섹션들로부터 파라메트릭 확장 데이터를 추출할 수 있으며, 주어진 알고리즘에 따라 파라메트릭 확장 데이터를 수정하며, 보조 데이터 섹션들에 파라메트릭 확장 데이터를 재삽입한다.
입력 및 출력 데이터 스트림들의 프레임 길이들이 정렬되지 않은 일부 실시예들에서, 출력 파라메트릭 확장 데이터의 데이터값들은 입력 파라메트릭 확장 데이터의 데이터값들로부터 보간법(외삽법 포함)에 의하여 결정될 수 있다. 이러한 방법은 파라미터들이 시간에 대하여 느리게 변화하는 경향이 있기 때문에 대부분의 파라메트릭 확장 데이터 파라미터들에 대하여 적합하다.
이하의 설명은 채널간 강도 차이 데이터값들과 관련한 실시예를 더 상세히 기술하나 동일한 원리들이 많은 다른 파라미터들에 적용될 수 있다는 것이 인식될 것이다.
도 2는 본 발명의 실시예에 따른 파라메트릭 확장 데이터의 데이터값들의 보간법을 기술한다.
예에서, 입력 파라메트릭 확장 데이터는 ha(즉, ha의 홉-크기(또는 프레임 크기를 가진)의 규칙적 시간간격들에서 IID 값들을 포함한다. 입력 파라미터 확장 데이터의 IID 값들은 도 2에서 십자형들로 지시되며, 이는 시간간격 t0, t1, 및 t2에서 입력 파라메트릭 확장 데이터의 3개의 IID 값들을 상세히 도시한다.
예에서, 출력 파라메트릭 확장 데이터는 ha(즉, hb의 작은 홉-크기(또는 프레임 크기를 가진)보다 작은 hb의 규칙적 시간간격들에서 IID 값들을 포함하는데 필요하다. 입력 파라미터 확장 데이터의 IID 값들은 도 2에서 원들로 지시되며, 이는 시간간격 t'0, t'1, 및 t'2에서 출력 파라메트릭 확장 데이터의 3개의 IID 값들을 상세히 도시한다.
실시예에서, 확장 데이터 프로세서(109)는 보간법에 의하여 출력 IID 값들을 생성하도록 동작할 수 있다. 상세하게, 도 2에 기술된 바와같이, 출력 IID 값들은 주변 입력 IID 값들간의 단일 선형 보간법에 의하여 생성된다. 따라서, 시간 t'0 및 t'1에서 출력 IID 값들은 t0 및 t1에서 입력 IID 값들로부터 생성되며, t'2에서 출력 IID 값은 t1 및 t2에서 입력 IID 값들로부터 생성된다.
선형 보간법 대신에 다른 형태들의 보간법 또는 외삽법이 사용될 수 있다는 것이 인식될 것이다.
일부 파라메트릭 오디오 코딩 방식들에서, 부가적 파라메트릭 확장 데이터 파라미터들은 비상주 위치들에서 생성된다. 예컨대, PS 파라메트릭 확장 데이터는 전형적으로 거의 규칙적인 간격들에서의 IID 데이터값들 뿐만아니라 중요한 고속 전이들이 IID 신호에서 검출될때 포함되는 비상주 IID 값들을 포함한다.
도 3은 본 발명의 실시예에 따른 파라메트릭 확장 데이터의 데이터값들의 보간법을 기술한다. 도 3의 예는 부가적 비상주 IID 데이터가 시간 간격 tT에서 입력 파라메트릭 확장 데이터에 포함되는 것을 제외하고 도 2의 예에 대응한다.
tT에서 IID 값에 포함된 정보를 유지하기 위하여, 확장 데이터 프로세서(109)는 tT에서 부가적 비상주 IID 값을 생성하도록 동작할 수 있다. 특히, 확장 데이터 프로세서(109)는 tT에서의 IID 값을 제 2 파라메트릭 확장 데이터에 직접 복사한다.
더욱이, 비상주 입력 IID 값은 적절할때 보간을 위하여 사용된다. 따라서, 도 3에 기술된 바와같이, t'2에서 출력 IID 값은 tT 및 t2에서 입력 IID 값들로부터 지금 생성된다.
선형 보간법은 고속 변화 파라미터들이 스무스하게 되도록 기본 신호를 저역통과 필터링한다. PS IID 파라미터들에 대하여, 이는 좁혀진 스테레오 이미지를 야기할 것이다. 이러한 현상을 보상하기 위하여, IID 파라미터들은 이들이 양자화되기전에 필터링될 수 있다.
MP3(PRO)+PS 비트-스트림의 PS 확장 데이터가 aac(Plus)+PS 비트-스트림의 PS 확장 데이터로 번역되는 특정 예가 이하에 기술된다. 이들 비트 스트림의 PS 파라미터들에 대한 44.1kHz의 샘플링 주파수에서 전형적인 홉-크기들은 각각 1152 샘플들(MP3 데이터의 2 그래뉼들 또는 1 프레임) 및 1024 샘플들(AAC 데이터의 1 프레임)이다.
선형 보간법을 사용하는 PS 파라미터 번역은 도 4에 도시된 바와같이 해석될 수 있다. 도 4는 선형 보간기(400)의 원리도를 기술한다.
선형 보간기(401)는 IID 파라미터들을 9의 인자로 업샘플링하는 업샘플러(401)를 포함한다. 결과적인 신호는 삼각 임펄스 응답을 가진 필터(403)에 의하여 보간된다(필터링된다). 최종적으로, 신호는 다운샘플러(405)에 의하여 8의 인자로 다운샘플링된다.
도 5는 도 4의 주파수 응답을 기술한다. 이는 저역통과 필터링을 통해 삼각 임펄스 응답이 생성될 수 있다는 것을 명확하게 알 수 있다.
선형 보간법에 의하여 야기된 스무딩을 보상하기 위하여, IID 값들 x(n)은 이하의 FIR(유한 임펄스 응답) 필터에 의하여 필터링될 수 있다.
Figure 112006058152102-PCT00005
여기서 a는 바람직하게 선형 위상 임펄스 응답, 즉 ak=aK-k-1이다. 재양자화될 필요가 있는 최종 IID 값은 지연 보상되어 이하의 수식으로부터 계산될 수 있다.
Figure 112006058152102-PCT00006
여기서, c는 z(n)의 전력이 x(n)의 전력과 동일하도록 세팅될 수 있는 전력-보상 상수이다. 앞의 예에서, a=[-0.18,1,-0.18]가 사용될 수 있다(K=3).
더 진보한, 따라서 계산적으로 더 고가의 실시예에서, 도 4에 기술된 실제 업 및 다운 샘플링이 수행될 수 있으며, 비삼각 임펄스 응답은 재샘플링 재구성을 추가로 개선하기 위하여 사용될 수 있다.
이하에서, 입력 데이터 및 트랜스코딩된 데이터가 비동기 프레임 구조들을 가지는 특정 실시예가 기술될 것이다. 특히, 제 1인코딩 프로토콜로부터 다른 프레임 길이를 가진 제 2인코딩 프로토콜로 인코딩된 데이터를 트랜스코딩하는 트랜스코더가 기술될 것이다. 본 설명은 SBR 확장 데이터를 가진 MP3 비트스트림(aacPlus 비트스트림)을 SBR 확장 데이터를 가진 AAC 비트스트림(aacPlus 비트스트림)으로 인코딩하는 실시예에 집중할 것이다.
실시예에서는 MP3 인코딩 및 AAC 인코딩의 대역폭이 거의 동일하다고 가정한다. 특히, 트랜스코더는 입력 비트스트림으로부터 MP3 인코딩의 대역폭을 결정할 수 있으며 AAC 인코더를 동일한 대역폭을 가지도록 세팅할 수 있다.
SBR 확장 데이터의 엔벨로프 및 잡음 플로어 데이터값들은 프레임에서 그들이 발생하는 시간 및 횟수와 관련된 제약들을 가진다. SBR 디코더는 전형적으로 코어 오디오 프레임당 부대역 샘플들의 수(예컨대, mp3PRO에 대하여 N=18 및 aacPlus에 대하여 N=32)를 계산하는 부대역 분석을 수행한다. 시간 임계 신호들을 조절하기 위하여, 프레임에서 제 1 엔벨로프의 시작 경계 및 마지막 엔벨로프의 정지 경계는 mp3PRO내에 일 수 있으며, aacPlus는 각각 [0,6](제 1 엔벨로프의 시작 경계) 및 [N-1, N-1+6](마지막 엔벨로프의 정지 경계)사이에서 변화할 수 있다. 결과적으로, 만일 N이 입력 인코딩 프로토콜 및 출력 인코딩 프로토콜에 대하여 다르면, 입력 비트스트림으로부터 트랜스코딩된 비트스트림으로 엔벨로프 또는 잡음 플로어 값들을 단순하게 복사하는 것이 항상 가능하지 않다.
도 6은 mp3PRO 입력 스트림 aacPlus 트랜스코딩된 데이터 스트림간의 엔벨로프 데이터값들에 대한 예시적인 시정렬을 기술한다. 예에서는 mp3PRO 프레임 1, 2 및 3으로부터의 엔벨로프 데이터값들이 aacPlus 비트스트림의 대응 프레임들에 직접 복사될 수 있는 것으로 보일 수 있다. 그러나, MP3PRO 프레임 4의 엔벨로프 데이터값에 대하여, 일부 데이터는 aacPlus 비트 스트림의 한 프레임과 관련되는 반면에 다른 데이터는 aacPlus 비트 스트림의 다른 프레임과 관련될 것이다. 비록 도 6이 특히 엔벨로프 데이터를 기술할지라도, 잡음 플로어값들을 포함하는 다른 데이터값들에 원리가 적용될 수 있다는 것이 인식될 것이다.
엔벨로프 및 잡음 플로어 데이터는 이것이 aacPlus 비트 스트림의 제약들 위반하지 않는한 단순하게 복사될 수 있다. 그러나, 만일 이러한 복사가 가능하지 않으면, 엔벨로프 및 잡음 플로어 데이터값들(의 일부)은 하나의 엔벨로프 및 잡음 플로어 데이터값에 결합되어야 한다.
도 7은 입력 데이터 스트림의 엔벨로프 데이터값들의 타이밍에 대한 예를 기술한다. 특히, 도 7은 MP3PRO 비트스트림의 두개의 엔벨로프 데이터값들을 도시한 다. 제 1 엔벨로프 데이터값 E1은 t0 내지 t1의 시간 간격을 커버하며, 제 2 엔벨로프 데이터값 E2는 t1 내지 t2의 시간간격을 커버한다. 각각의 엔벨로프 데이터 값들 E1 및 E2는 복수의 부값들 E1,1, E1,2, E1,3, E1,4, E2,1, E2,2, E2,3, E2,4,를 포함하며, 이들 부값의 각각은 특정 예에서 특정 주파수 대역에 대한 스케일 인자이다. 따라서, 부값들의 수는 프레임의 주파수 분석에 따른다.
도 7의 예에서, AACPlus 트랜스코딩된 데이터 스트림은 MP3PRO 데이터 스트림의 두개의 시간 간격을 중첩하는 시간 간격 t'1-t'0에서 프레임을 포함한다. 따라서, 새로운 엔벨로프 데이터값은 시간 간격 t'1-t'0동안 생성되어야 하며, 특히 확장 데이터 프로세서(109)는 예컨대 이하와 같은 엔벨로프 데이터값들 E1 및 E2의 스케일 인자들사이에서 보간법에 의하여 결정된 스케일 인자들을 포함하는 엔벨로프 데이터값을 생성할 수 있다.
Figure 112006058152102-PCT00007
유사한 수식들은 다른 스케일 인자값들 E'1,2, E'1,2 및 E'1,2를 생성하도록 적용될 수 있다.
SBR에는 엔벨로프 데이터값들에 대한 두개의 가능한 주파수 분석들이 존재한다(잡음 플로어들은 단지 하나의 가능한 주파수 분석을 가진다). 따라서, 다른 주파수 분석들을 가진 엔벨로프들(의 부분들)이 결합될 필요가 있다. 이러한 경우 에, 확장 데이터 프로세서(109)는 바람직하게 고주파수 분석에 따라 엔벨로프 데이터값들을 생성한다. 이는 도 8에 도시된 예와 함께 기술된다.
도 8은 MP3PRO 비트스트림의 두개의 엔벨로프 데이터값들 E1, E2를 도시한다. 이의 예는 제 2 엔벨로프 데이터값 E2가 단지 두개의 부값들 E2,1, E2,2만을 포함한다는 것을 제외하고 도 7과 동일하다. AACPlus 트랜스코딩된 데이터 스트림의 시간 간격 t'1-t'0동안 엔벨로프 데이터값은 예컨대 이하의 수식에 따른 보간에 의하여 결정될 수 있다.
Figure 112006058152102-PCT00008
유사한 수식들이 다른 스케일 인자값들 E'1 ,2, E'1 ,2 및 E'1 ,2를 생성하도록 적용될 수 있다.
임의의 적절한 확장 데이터가 사용될 수 있다는 것이 인식될 것이다. 예컨대, 파라메트릭 확장 데이터는 공간 오디오 코딩 데이터일 수 있다. 예컨대, 스테레오 이미지 데이터를 포함하는 것보다 오히려, 다중-채널 이미지는 확장 데이터에 포함되는 것으로 파라미터화될 수 있다. 이러한 일 실시예에 따르면, 스테레오 인코딩된 신호는 역방향 호환가능 성분으로서 포함될 수 있으며, 파라메트릭 확장 데이터는 이들을 다중-채널 표현(예컨대, 2개의 채널 내지 5개의 채널)으로 변환할 수 있는 데이터를 포함할 수 있다. 물론, 예컨대 1개의 채널 내지 5개의 채널, 2 개의 채널 내지 4개의 채널 등으로 변환하는 다른 시나리오들이 가능하다.
본 발명은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 결합을 포함하는 임의의 적절한 형태로 구현될 수 있다. 그러나, 바람직하게, 본 발명은 하나 이상의 데이터 프로세서들 및/또는 디지털 신호 프로세서들상에서 실행되는 컴퓨터 소프트웨어로서 구현된다. 본 발명의 실시예의 엘리먼트들 및 컴포넌트들은 임의의 적절한 방식으로 물리적으로, 기능적으로 및 논리적으로 구현될 수 있다. 실제로, 기능은 단일 유닛으로, 또는 다수의 유닛으로, 또는 다른 기능 유닛들의 일부분으로서 구현될 수 있다. 마찬가지로, 본 발명은 단일 유닛으로 구현될 수 있거나 또는 다른 유닛들 및 프로세서들사이에 물리적으로 그리고 기능적으로 분배될 수 있다.
비록 본 발명이 바람직한 실시예와 관련하여 기술되었을지라도, 본 발명은 여기에 기술된 특정 실시예에 제한되지 않는다. 오히려, 본 발명의 범위는 첨부된 청구항들에 의해서만 제한된다. 청구항들에서, 용어 "포함한다"는 다른 엘리먼트들 또는 단계들의 존재를 배제하지 않는다. 게다가, 비록 개별적으로 리스트될지라도, 다수의 수단들, 엘리먼트들 또는 방법 단계들은 예컨대 단일 유닛 또는 프로세서에 의하여 구현될 수 있다. 부가적으로, 비록 개별 특징들이 다른 청구항들에 포함될 수 있을지라도, 이들 특징들은 유리하게 결합될 수 있으며, 다른 청구항들에의 포함은 특징들의 결합이 실행가능하지 않고 및/또는 유리하지 않는 것을 의미하지 않는다. 더욱이, 단수는 복수를 배제하지 않는다. 따라서, 단수, "제 1" 및 "제 2" 등은 복수를 배제하지 않는다.

Claims (20)

  1. 트랜스코더(100)에 있어서,
    인코딩된 신호를 나타내고 제 1 파라메트릭 확장 데이터를 포함하는 입력 데이터를 수신하기 위한 수단(101);
    상기 제 1 파라메트릭 확장 데이터로부터 제 2 파라메트릭 확장 데이터를 결정하기 위한 수단(109); 및
    상기 제 2 파라메트릭 확장 데이터를 포함하는 트랜스코딩된 데이터를 생성하기 위한 수단(107)을 포함하는 트랜스코더.
  2. 제 1항에 있어서, 상기 입력 데이터는 상기 인코딩된 신호와 연관된 제 1 인코딩 데이터를 포함하고,
    상기 트랜스코더(100)는 제 2 인코딩 데이터를 생성하기 위하여 상기 제 1 인코딩 데이터를 트랜스코딩하기 위한 수단(103, 105)을 더 포함하고,
    상기 생성 수단(107)은 상기 제 2 인코딩 데이터와 상기 제 2 파라메트릭 확장 데이터를 결합함으로써 상기 트랜스코딩된 데이터를 생성하도록 동작할 수 있는, 트랜스코더.
  3. 제 1항에 있어서, 상기 결정 수단(109)은 상기 제 1 파라메트릭 확장 데이터의 적어도 일부 데이터값들을 복사함으로써 상기 제 2 파라메트릭 데이터의 적어도 일부를 결정하도록 동작할 수 있는, 트랜스코더.
  4. 제 1항에 있어서, 상기 결정 수단(109)은 상기 제 2 파라메트릭 확장 데이터의 데이터값들을 양자화하기 위한 수단을 포함하는, 트랜스코더.
  5. 제 1항에 있어서, 상기 결정 수단(109)은 상기 제 2 파라메트릭 확장 데이터의 데이터값들을 인코딩하기 위한 수단을 포함하는, 트랜스코더.
  6. 제 1항에 있어서, 상기 결정 수단(109)은 상기 제 1 파라메트릭 확장 데이터의 파라메트릭 확장 데이터값들간의 보간에 의하여 상기 제 2 파라메트릭 데이터의 적어도 일부를 결정하도록 동작할 수 있는, 트랜스코더.
  7. 제 1항에 있어서, 상기 결정 수단(109)은 상기 제 1파라메트릭 확장 데이터의 비상주 데이터를 식별하고, 상기 비상주 데이터에 응답하여 상기 제 2 파라메트릭 확장 데이터를 생성하기 위한 수단을 포함하는, 트랜스코더.
  8. 제 7항에 있어서, 상기 결정 수단(109)은 상기 제 2 파라메트릭 확장 데이터에 적어도 하나의 비상주 데이터 파라미터를 포함하도록 동작할 수 있는, 트랜스코더.
  9. 제 1항에 있어서, 상기 결정 수단(109)은 상기 제 2 파라메트릭 확장 데이터를 결정하기 전에 상기 제 1 파라메트릭 확장 데이터를 필터링하기 위한 수단을 포함하는, 트랜스코더.
  10. 제 1항에 있어서, 상기 입력 데이터 및 상기 트랜스코딩된 데이터는 비동기 프레임 구조를 가지고,
    상기 제 2 파라메트릭 확장 데이터를 결정하기 위한 수단(109)은 상기 제 1 파라메트릭 확장 데이터의 제 1프레임의 제 1데이터값 및 상기 제 1 파라메트릭 확장 데이터의 제 2프레임의 제 2데이터값에 응답하여 상기 트랜스코딩된 데이터의 프레임과 연관된 적어도 하나의 데이터값을 결정하도록 동작할 수 있는, 트랜스코더.
  11. 제 10항에 있어서, 상기 결정 수단(109)은 적어도 상기 제 1 데이터값과 상기 제 2 데이터값사이를 보간함으로써 상기 적어도 하나의 데이터값을 결정하도록 동작할 수 있는, 트랜스코더.
  12. 제 10항에 있어서, 상기 제 1 데이터값은 제 1의 복수의 주파수 부대역(sub-band)들과 관련된 복수의 부값(sub-value)들을 포함하고, 상기 제 2 데이터값은 제 2의 복수의 주파수 부대역들과 관련된 복수의 부값들을 포함하고,
    상기 결정 수단(109)은 제 3의 복수의 주파수 부대역들과 관련된 복수의 부 값들을 포함하기 위해 상기 적어도 하나의 데이터값을 결정하도록 동작할 수 있는, 트랜스코더.
  13. 제 12항에 있어서, 상기 제 1, 제 2 및 제 3의 복수의 부대역들은 동일한 수의 주파수 부대역들을 포함하는, 트랜스코더.
  14. 제 12항에 있어서, 상기 제 1의 복수의 부대역들은 상기 제 2의 복수의 부대역들보다 많은 주파수 부대역들을 포함하고, 상기 제 3의 복수의 부대역들은 상기 제 1의 복수의 부대역들과 동일한 수의 주파수 부대역들을 포함하는, 트랜스코더.
  15. 제 1항에 있어서, 상기 제 2 파라메트릭 확장 데이터는 스펙트럼 대역 복제(Spectral Band Replication: SBR) 파라메트릭 확장 데이터인, 트랜스코더.
  16. 제 1항에 있어서, 상기 제 2 파라메트릭 확장 데이터는 파라메트릭 스테레오(Parametric Stereo: PS) 파라메트릭 확장 데이터인, 트랜스코더.
  17. 제 1항에 있어서, 상기 인코딩된 신호는 오디오 신호인, 트랜스코더.
  18. 트랜스코딩 방법에 있어서,
    인코딩된 신호를 나타내고 제 1 파라메트릭 확장 데이터를 포함하는 입력 데 이터를 수신하는 단계;
    상기 제 1 파라메트릭 확장 데이터로부터 제 2 파라메트릭 확장 데이터를 결정하는 단계; 및
    상기 제 2 파라메트릭 확장 데이터를 포함하는 트랜스코딩된 데이터를 생성하는 단계를 포함하는 트랜스코딩 방법.
  19. 제 18항에 따른 방법을 수행할 수 있도록 하는 컴퓨터 프로그램.
  20. 제 19항에 청구된 컴퓨터 프로그램을 포함하는 레코드 캐리어.
KR1020067016423A 2004-02-16 2005-01-31 트랜스코더 및 트랜스코딩 방법 KR20060132697A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04100607 2004-02-16
EP04100607.3 2004-02-16

Publications (1)

Publication Number Publication Date
KR20060132697A true KR20060132697A (ko) 2006-12-21

Family

ID=34854699

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020067016423A KR20060132697A (ko) 2004-02-16 2005-01-31 트랜스코더 및 트랜스코딩 방법

Country Status (7)

Country Link
US (1) US20080260048A1 (ko)
EP (1) EP1719117A1 (ko)
JP (1) JP2007524124A (ko)
KR (1) KR20060132697A (ko)
CN (1) CN1918634A (ko)
TW (1) TW200531554A (ko)
WO (1) WO2005078707A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101341317B1 (ko) * 2006-09-20 2013-12-12 톰슨 라이센싱 오디오 신호를 트랜스코딩하는 방법 및 장치

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006113153A (ja) * 2004-10-12 2006-04-27 Sharp Corp 1ビット信号のダウンサンプリング装置、ダウンサンプリング方法、マルチチャンネルオーディオ装置、及びマルチチャンネルオーディオ装置の音声再生方法
SE0402651D0 (sv) 2004-11-02 2004-11-02 Coding Tech Ab Advanced methods for interpolation and parameter signalling
JP2006243043A (ja) * 2005-02-28 2006-09-14 Sanyo Electric Co Ltd 高域補間装置及び再生装置
CN101213592B (zh) * 2005-07-06 2011-10-19 皇家飞利浦电子股份有限公司 用于参量多声道解码的设备和方法
KR100878766B1 (ko) * 2006-01-11 2009-01-14 삼성전자주식회사 오디오 데이터 부호화 및 복호화 방법과 장치
TWI309531B (en) * 2006-01-19 2009-05-01 Realtek Semiconductor Corp Waveform generator and related method thereof
KR100923156B1 (ko) * 2006-05-02 2009-10-23 한국전자통신연구원 멀티채널 오디오 인코딩 및 디코딩 시스템 및 방법
EP1855271A1 (en) * 2006-05-12 2007-11-14 Deutsche Thomson-Brandt Gmbh Method and apparatus for re-encoding signals
DE602006009927D1 (de) * 2006-08-22 2009-12-03 Harman Becker Automotive Sys Verfahren und System zur Bereitstellung eines Tonsignals mit erweiterter Bandbreite
US7725311B2 (en) 2006-09-28 2010-05-25 Ericsson Ab Method and apparatus for rate reduction of coded voice traffic
KR101149448B1 (ko) * 2007-02-12 2012-05-25 삼성전자주식회사 오디오 부호화 및 복호화 장치와 그 방법
DE102007007830A1 (de) * 2007-02-16 2008-08-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines Datenstroms und Vorrichtung und Verfahren zum Lesen eines Datenstroms
KR101411900B1 (ko) * 2007-05-08 2014-06-26 삼성전자주식회사 오디오 신호의 부호화 및 복호화 방법 및 장치
TW200921643A (en) * 2007-06-27 2009-05-16 Koninkl Philips Electronics Nv A method of merging at least two input object-oriented audio parameter streams into an output object-oriented audio parameter stream
US8457958B2 (en) * 2007-11-09 2013-06-04 Microsoft Corporation Audio transcoder using encoder-generated side information to transcode to target bit-rate
KR101253278B1 (ko) * 2008-03-04 2013-04-11 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 복수의 입력 데이터 스트림을 믹싱하는 장치 및 방법
AU2012202581B2 (en) * 2008-03-04 2012-10-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Mixing of input data streams and generation of an output data stream therefrom
KR101629862B1 (ko) * 2008-05-23 2016-06-24 코닌클리케 필립스 엔.브이. 파라메트릭 스테레오 업믹스 장치, 파라메트릭 스테레오 디코더, 파라메트릭 스테레오 다운믹스 장치, 파라메트릭 스테레오 인코더
JP5551694B2 (ja) 2008-07-11 2014-07-16 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 多くのスペクトルエンベロープを計算するための装置および方法
EP4293665A3 (en) * 2008-10-29 2024-01-10 Dolby International AB Signal clipping protection using pre-existing audio gain metadata
PL3246919T3 (pl) * 2009-01-28 2021-03-08 Dolby International Ab Ulepszona transpozycja harmonicznych
PL3985666T3 (pl) 2009-01-28 2023-05-08 Dolby International Ab Ulepszona transpozycja harmonicznych
EP2249334A1 (en) * 2009-05-08 2010-11-10 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio format transcoder
US11657788B2 (en) 2009-05-27 2023-05-23 Dolby International Ab Efficient combined harmonic transposition
TWI556227B (zh) 2009-05-27 2016-11-01 杜比國際公司 從訊號的低頻成份產生該訊號之高頻成份的系統與方法,及其機上盒、電腦程式產品、軟體程式及儲存媒體
JP5267362B2 (ja) 2009-07-03 2013-08-21 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置
CN101989429B (zh) 2009-07-31 2012-02-01 华为技术有限公司 转码方法、装置、设备以及系统
KR101701759B1 (ko) 2009-09-18 2017-02-03 돌비 인터네셔널 에이비 입력 신호를 전위시키기 위한 시스템 및 방법, 및 상기 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터 판독가능 저장 매체
US8300703B2 (en) * 2009-09-22 2012-10-30 Texas Instruments Incorporated System and method for adaptively allocating resources in a transcoder
KR101137652B1 (ko) * 2009-10-14 2012-04-23 광운대학교 산학협력단 천이 구간에 기초하여 윈도우의 오버랩 영역을 조절하는 통합 음성/오디오 부호화/복호화 장치 및 방법
KR101710113B1 (ko) * 2009-10-23 2017-02-27 삼성전자주식회사 위상 정보와 잔여 신호를 이용한 부호화/복호화 장치 및 방법
EP2502231B1 (en) * 2009-11-19 2014-06-04 Telefonaktiebolaget L M Ericsson (PUBL) Bandwidth extension of a low band audio signal
US8521520B2 (en) * 2010-02-03 2013-08-27 General Electric Company Handoffs between different voice encoder systems
US9047875B2 (en) 2010-07-19 2015-06-02 Futurewei Technologies, Inc. Spectrum flatness control for bandwidth extension
US20120035940A1 (en) * 2010-08-06 2012-02-09 Samsung Electronics Co., Ltd. Audio signal processing method, encoding apparatus therefor, and decoding apparatus therefor
JP5714180B2 (ja) 2011-05-19 2015-05-07 ドルビー ラボラトリーズ ライセンシング コーポレイション パラメトリックオーディオコーディング方式の鑑識検出
EP2682941A1 (de) * 2012-07-02 2014-01-08 Technische Universität Ilmenau Vorrichtung, Verfahren und Computerprogramm für frei wählbare Frequenzverschiebungen in der Subband-Domäne
RU2610588C2 (ru) * 2012-11-07 2017-02-13 Долби Интернешнл Аб Вычисление отношения сигнал-шум конвертора с уменьшенной сложностью
CN117253498A (zh) 2013-04-05 2023-12-19 杜比国际公司 音频信号的解码方法和解码器、介质以及编码方法
US10541979B2 (en) * 2015-02-17 2020-01-21 Synopsys, Inc. Multiport content encryption engine
JP6648431B2 (ja) * 2015-07-13 2020-02-14 富士通株式会社 照合プログラム、照合方法および照合装置
EP3182411A1 (en) * 2015-12-14 2017-06-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an encoded audio signal
MX2018012490A (es) 2016-04-12 2019-02-21 Fraunhofer Ges Forschung Codificador de audio para codificar una se?al de audio, metodo para codificar una se?al de audio y programa de computadora en consideracion de una region espectral del pico detectada en una banda de frecuencia superior.
CN107742521B (zh) * 2016-08-10 2021-08-13 华为技术有限公司 多声道信号的编码方法和编码器
TWI834582B (zh) 2018-01-26 2024-03-01 瑞典商都比國際公司 用於執行一音訊信號之高頻重建之方法、音訊處理單元及非暫時性電腦可讀媒體
CN113689864B (zh) * 2021-10-27 2022-01-18 北京百瑞互联技术有限公司 一种音频数据处理方法、装置及存储介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3283200B2 (ja) * 1996-12-19 2002-05-20 ケイディーディーアイ株式会社 符号化音声データの符号化レート変換方法および装置
US6961432B1 (en) * 1999-04-29 2005-11-01 Agere Systems Inc. Multidescriptive coding technique for multistream communication of signals
US6526357B1 (en) * 1999-08-09 2003-02-25 Gambro, Inc. Associated parameter measuring and/or monitoring such as in the evaluation of pressure differences
US6978236B1 (en) * 1999-10-01 2005-12-20 Coding Technologies Ab Efficient spectral envelope coding using variable time/frequency resolution and time/frequency switching
GB0003954D0 (en) * 2000-02-18 2000-04-12 Radioscape Ltd Method of and apparatus for converting a signal between data compression formats
US20030028386A1 (en) * 2001-04-02 2003-02-06 Zinser Richard L. Compressed domain universal transcoder
US7634399B2 (en) * 2003-01-30 2009-12-15 Digital Voice Systems, Inc. Voice transcoder
US7318027B2 (en) * 2003-02-06 2008-01-08 Dolby Laboratories Licensing Corporation Conversion of synthesized spectral components for encoding and low-complexity transcoding

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101341317B1 (ko) * 2006-09-20 2013-12-12 톰슨 라이센싱 오디오 신호를 트랜스코딩하는 방법 및 장치

Also Published As

Publication number Publication date
CN1918634A (zh) 2007-02-21
EP1719117A1 (en) 2006-11-08
US20080260048A1 (en) 2008-10-23
TW200531554A (en) 2005-09-16
JP2007524124A (ja) 2007-08-23
WO2005078707A1 (en) 2005-08-25

Similar Documents

Publication Publication Date Title
KR20060132697A (ko) 트랜스코더 및 트랜스코딩 방법
JP5302980B2 (ja) 複数の入力データストリームのミキシングのための装置
JP5215994B2 (ja) 損失エンコ−ドされたデータ列および無損失拡張データ列を用いた、原信号の無損失エンコードのための方法および装置
RU2387022C2 (ru) Масштабируемый аудиокодер без потерь и авторское инструментальное средство
TWI441162B (zh) 音訊信號合成器、音訊信號編碼器、用於產生合成音訊信號及資料流的方法、電腦可讀取媒體及電腦程式
KR100608062B1 (ko) 오디오 데이터의 고주파수 복원 방법 및 그 장치
EP2229677B1 (en) A method and an apparatus for processing an audio signal
EP2981956B1 (en) Audio processing system
JP5171842B2 (ja) 時間領域データストリームを表している符号化および復号化のための符号器、復号器およびその方法
KR101455915B1 (ko) 일반 오디오 및 음성 프레임을 포함하는 오디오 신호용 디코더
US8428941B2 (en) Method and apparatus for lossless encoding of a source signal using a lossy encoded data stream and a lossless extension data stream
JP3391686B2 (ja) 符号化されたオーディオ信号を復号する方法及び装置
CN101118747B (zh) 保真度优化的预回声抑制编码
JP6474845B2 (ja) 軽減された計算量の変換器snr計算
TWI390502B (zh) 編碼信號之處理方法
WO2003036624A1 (en) Method of transmission of wideband audio signals on a transmission channel with reduced bandwidth
KR20070002065A (ko) 스케일러블 무손실 음성 코덱 및 오서링 툴
JP2003523535A (ja) 複数のデータ圧縮フォーマット間でのオーディオ信号の変換方法及び装置
JP2004538502A (ja) オーディオ信号の編集
JP2904427B2 (ja) 欠落音声補間装置
JP2003099095A (ja) オーディオ符号化装置、方法、記録媒体及びプログラム

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid