KR100933548B1 - 비상관 신호의 시간적 엔벨로프 정형화 - Google Patents

비상관 신호의 시간적 엔벨로프 정형화 Download PDF

Info

Publication number
KR100933548B1
KR100933548B1 KR1020077020406A KR20077020406A KR100933548B1 KR 100933548 B1 KR100933548 B1 KR 100933548B1 KR 1020077020406 A KR1020077020406 A KR 1020077020406A KR 20077020406 A KR20077020406 A KR 20077020406A KR 100933548 B1 KR100933548 B1 KR 100933548B1
Authority
KR
South Korea
Prior art keywords
signal
uncorrelated
spectral
derived
smoothed
Prior art date
Application number
KR1020077020406A
Other languages
English (en)
Other versions
KR20070102738A (ko
Inventor
크리스토퍼 크죌링
라르스 빌레뫼스
쥐르겐 헤르
사샤 디치
Original Assignee
돌비 스웨덴 에이비
프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 스웨덴 에이비, 프라운호퍼-게젤샤프트 츄어 푀르더룽 데어 안게반텐 포르슝에.파우. filed Critical 돌비 스웨덴 에이비
Publication of KR20070102738A publication Critical patent/KR20070102738A/ko
Application granted granted Critical
Publication of KR100933548B1 publication Critical patent/KR100933548B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Stereophonic System (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Image Analysis (AREA)
  • Stereo-Broadcasting Methods (AREA)
  • Holo Graphy (AREA)

Abstract

평활화된 스펙트럼 간의 에너지 분포를 기술하는 이득 인자를 도출하기 위해 그 평활화된 스펙트럼을 이용하기 전에 원시 신호와 비상관 신호의 스펙트럼을 평활화하는 데에 스펙트럼 평활기가 이용되는 경우, 및 비상관 신호의 엔벨로프를 시간적으로 정형화하기 위해 그 도출된 이득 인자가 엔벨로프 정형화기에 의해 이용되는 경우에, 원시 신호로부터 도출된 비상관 신호의 엔벨로프가 추가적인 왜곡의 도입 없이 정형화될 수 있다.
비상관 신호, 엔벨로프, 정형화, 평활화, 스펙트럼, 에너지 분포, 이득 인자

Description

비상관 신호의 시간적 엔벨로프 정형화{TEMPORAL ENVELOPE SHAPING OF DECORRELATED SIGNALS}
본 발명은 신호의 시간적 엔벨로프 정형화에 관한 것이고, 특히 스테레오 또는 다중 채널 오디오 신호의 재구성 중에 다운믹스 신호 및 추가적인 제어 데이터로부터 도출되는 비상관 신호의 시간적 엔벨로프 정형화에 관한 것이다.
오디오 코딩에 있어서 최근의 발전에 따라, 스테레오(또는 모노) 신호 및 대응하는 제어 데이터에 기초하여 오디오 신호의 다중 채널 표현을 재생성할 수 있게 되었다. 이들 방법은, 돌비 프로로직(Dolby Prologic)과 같은 기존의 행렬 기반 솔루션과는 실질적으로 상이하며, 그 이유는 전송된 모노 또는 스테레오 채널에 기초하여 서라운드 채널의 재생성("업믹스"라 함)을 제어하기 위해 추가적인 제어 데이터가 전송되기 때문이다. 이러한 파라메트릭 다중 채널 오디오 디코더들은, M개의 전송 채널과 추가적인 제어 데이터에 기초하여 N개의 채널을 재구성한다. 여기서, N>M 이다. 추가적인 제어 데이터를 사용하면, N개의 채널 모두를 전송하는 것보다 상당히 낮은 데이터 레이트(data rate: 데이터비율 또는 데이터전송속도)를 얻게 되어, 코딩을 매우 효율적으로 할 수 있고, 동시에 M개의 채널과 N개의 채널간의 호환성을 보장할 수 있다. M개의 채널은, 단일의 모노 채널, 스테레오 채널, 또는 5.1 채널의 표현일 수 있다. 따라서, 7.2 채널 원시 신호를 5.1 채널 후방 호환(backwards compatible) 신호로 다운믹싱하는 것이 가능하게 되고, 공간적 오디오 파라미터들은, 공간적 오디오 디코더로 하여금, 적은 량의 추가적인 비트 레이트 오버헤드에서 원시 7.2 채널의 매우 유사한 버전을 재생하게 할 수 있다.
이들 파라메트릭 서라운드 코딩 방법은 통상적으로, 시간 및 주파수 변동 ILD(Inter Channel Level Difference) 량과 ICC(Inter Channel Coherence) 량에 기초하는 그 서라운드 신호의 파라미터화를 포함한다. 이들 파라미터들은, 원시 다중 채널 신호의 채널 쌍들 간의 전력 비 및 상관관계를 기술한다. 디코더 프로세스에서, 재생성된 다중 채널 신호는, 그 전송된 ILD 파라미터들에 의해 기술된 모든 채널 쌍들 간에 그 수신된 다운믹스 채널들의 에너지를 분배함으로써 얻어진다. 하지만, 서로 다른 채널의 신호들이 서로 다르더라도, 다중 채널 신호는 모든 채널 간에 동일한 전력 분배를 가지므로, 매우 넓은 사운드의 청취 감을 가져오고, 정확한 공간감(wideness)은, ICC 파라미터에 의해 기술된 것과 동일한 비상관 버전과 그 신호들을 혼합함으로써 얻어진다.
그 신호의 비상관 버전(종종 "웨트 신호"라고도 함)은, 전역 통과 필터와 같은 잔향기에 신호(이 신호를 "드라이 신호"라고 함)를 통과시킴으로써 얻어진다. 비상관기로부터의 출력은, 통상적으로 매우 평활한 시간 응답을 가진다. 따라서, 디락(dirac) 입력 신호는, 감쇄하는(decaying) 노이즈 버스트 아웃을 야기한다. 비상관 버전과 원시 신호를 혼합하는 때에, 환호성(applause) 신호와 같은 과도 신호 형태에 대해서는, 드라이 신호와의 일치를 더욱 확실하게 하기 위해서, 그 비상 관 신호의 시간적 엔벨로프를 정형화하는 것이 중요하다. 이를 실패하면, 프리-에코(pre-echo) 형태의 아티팩트 때문에, 더 큰 룸사이즈로 지각(perception)하는 등 자연스럽지 않은 사운드 과도 현상을 야기한다.
낮은 시간 해상도를 가진 주파수 변환 도메인에서 다중 채널 재구성이 수행되는 시스템에서는, MPEG-4 AAC와 같은 지각적 오디오 코덱의 시간적 노이즈 정형화 [제이. 헤르(J.Herre) 및 제이.디. 존스톤(J.D.Johnston)의 논문, "Enhancing the performance of perceptual audio coding by using temporal noise shaping(TNS),"(101st AES Convention, Los Angeles, 1996년 11월)]와 같은 정형화 양자화 노이즈에 이용되는 것과 유사하게, 시간적 엔벨로프 정형화가 채용된다. 이것은, 주파수 빈(frequency bin)들에 대한 예측을 통해서 성취되며, 여기서 시간적 엔벨로프는 드라이 신호에 대해 주파수 방향으로의 선형 예측에 의해 평가되고, 그 얻어진 필터가 웨트 신호에 대해 주파수 방향으로 적용된다.
예를 들면, 비상관기로서 지연 라인 및 업믹싱될 신호로서 환호성 또는 총성과 같은 강한 과도 신호를 고려할 수 있다. 엔벨로프 정형화가 수행되지 아니하면, 스테레오 또는 다중 채널 신호를 재구성하기 위해, 그 신호의 감쇄 버전이 원시 신호와 결합된다. 이러한 과도 신호는 지연 시간으로 분리되어, 그 업믹싱된 신호 내에서 2배로 존재하고, 원치 않는 에코 효과를 야기하게 된다.
매우 극단적인 신호에 대해 좋은 결과를 얻기 위해, 비상관 신호의 시간적 엔벨로프가 매우 높은 시간 해상도로 정형화될 필요가 있고, 이로써 과도 신호의 감쇄 에코를 제거하거나, 이때 그 에너지를 반송 채널에 포함된 에너지 레벨까지로 감소시킴으로써 그 감쇄 에코를 차폐하게 된다.
이러한 비상관 신호의 광대역 이득 조절은, 1ms 정도로 짧은 윈도우에 대해 수행된다 [미국 특허 출원 번호 11/006492, 발명의 명칭: "Diffuse Sound Shaping for BCC Schemes and the Like", 출원일: 2004년 12월 7일]. 비상관 신호에 대한 이득 조절의 높은 시간 해상도는, 추가적인 왜곡을 불가피하게 야기한다. 비-극단적인 신호, 즉, 비상관 신호의 시간적 정형화가 매우 중대하지 아니한 신호에 대한 추가적인 왜곡을 최소화하기 위해, 소정의 기준에 따라 시간적 정형화 알고리즘이 스위칭 온/오프되는 인코더 또는 디코더에, 검출 메카니즘이 채용되어 있다. 이에 따른 문제점은, 이러한 시스템이 검출기의 조절(tuning)에 매우 민감하게 될 수 있다는 것이다.
이하의 설명에 있어서, 용어 "비상관 신호" 내지 "웨트 신호"는 다운믹스 신호의 가능성 있는(ILD 파라미터 및 ICC 파라미터에 따라) 이득-조절된 비상관 버전에 대해 이용되고, 용어 "다운믹스 신호", "직접 신호", 내지 "드라이 신호"는 가능성 있는 이득-조절된 다운믹스 신호에 대해 이용된다.
종래 기술의 구현에 있어서, 높은 시간 해상도 이득 조절, 즉, 밀리-초 정도로 짧은 드라이 신호의 샘플들에 기초하는 이득 조절은, 비-극단적인 신호에 대한 상당히 큰 추가적인 왜곡을 야기하게 된다. 이들은, 예로서 음악 신호와 같은 원활한 시간 진행을 가져야 하는 비과도 신호들이다. 이러한 비-극단적 신호에 대해 이득 조절을 스위칭 온/오프하는 종래 기술의 기법은, 검출 메카니즘에 있어서 오디오 지각의 품질에 대한 새로운 그리고 매우 강한 의존성을 가지게 되며, 이는 물 론 대체로 불리한 점으로 되며, 이러한 검출이 실패하는 경우에는, 더욱 추가적인 왜곡을 야기하게 된다.
본 발명의 목적은, 추가적인 신호 왜곡의 발생을 방지하면서 비상관 신호의 엔벨로프를 더욱 효율적으로 정형화하는 기법을 제공하는 것이다.
본 발명의 제1 태양에 따르면, 전술한 목적은, 원시 신호로부터 도출된 비상관 신호 또는 상기 원시 신호와 상기 비상관 신호를 결합함으로써 도출된 결합 신호를 처리하는 장치로서, 평활 신호를 얻기 위해 상기 비상관 신호, 상기 비상관 신호로부터 도출된 신호, 상기 원시 신호, 상기 원시 신호로부터 도출된 신호, 또는 상기 결합 신호의 스펙트럼 평활화를 수행하는 스펙트럼 평활기, 이 스펙트럼 평활기는 상기 평활 신호가 평활화 전의 대응하는 신호보다 더 평활화된 스펙트럼을 가지도록 동작하는, 스펙트럼 평활기; 및 상기 평활 신호의 정보를 이용하여 상기 비상관 신호 또는 상기 결합 신호에 대해 시간적 엔벨로프 정형화를 수행하는 시간적 엔벨로프 정형화기를 포함하는 장치에 의해 성취된다.
본 발명의 제2 태양에 따르면, 전술한 목적은, 적어도 2개의 채널을 가진 다중 채널 신호로부터 도출된 원시 신호를 수신하고, 상기 다중 채널 신호의 제1 채널과 제2 채널의 상호관계를 기술하는 공간 파라미터들을 수신하는 입력 인터페이스; 상기 공간 파라미터들을 이용하여 상기 원시 신호로부터 비상관 신호를 도출하는 비상관기; 평활 신호를 얻기 위해 상기 비상관 신호, 상기 비상관 신호로부터 도출된 신호, 상기 원시 신호, 상기 원시 신호로부터 도출된 신호, 또는 상기 원시 신호와 상기 비상관 신호를 결합함으로써 도출된 결합 신호의 스펙트럼 평활화를 수행하는 스펙트럼 평활기, 상기 스펙트럼 평활기는 상기 평활 신호가 평활화 전의 대응하는 신호보다 더 평활화된 스펙트럼을 가지도록 동작하는, 스펙트럼 평활기; 및 상기 평활 신호의 정보를 이용하여 상기 비상관 신호 또는 상기 결합 신호에 대해 시간적 엔벨로프 정형화를 수행하는 시간적 엔벨로프 정형화기를 포함하는 공간적 오디오 디코더에 의해 성취된다.
본 발명의 제3 태양에 따르면, 전술한 목적은, 원시 신호로부터 도출된 비상관 신호 또는 상기 원시 신호와 상기 비상관 신호를 결합함으로써 도출된 결합 신호를 처리하는 장치를 가진 수신기 또는 오디오 재생기로서, 평활 신호를 얻기 위해 상기 비상관 신호, 상기 비상관 신호로부터 도출된 신호, 상기 원시 신호, 상기 원시 신호로부터 도출된 신호, 또는 상기 결합 신호의 스펙트럼 평활화를 수행하는 스펙트럼 평활기로서, 상기 스펙트럼 평활기는 상기 평활 신호가 평활화 전의 대응하는 신호보다 더 평활화된 스펙트럼을 가지도록 동작하는, 스펙트럼 평활기; 및 상기 평활 신호의 정보를 이용하여 상기 비상관 신호 또는 상기 결합 신호에 대해 시간적 엔벨로프 정형화를 수행하는 시간적 엔벨로프 정형화기를 포함하는, 수신기 또는 오디오 재생기에 의해 성취된다.
본 발명의 제4 태양에 따르면, 전술한 목적은, 원시 신호로부터 도출된 비상관 신호 또는 상기 원시 신호와 상기 비상관 신호를 결합함으로써 도출된 결합 신호를 처리하는 방법으로서, 평활 신호를 얻기 위해 상기 비상관 신호, 상기 비상관 신호로부터 도출된 신호, 상기 원시 신호, 상기 원시 신호로부터 도출된 신호, 또는 상기 결합 신호를 스펙트럼 평활화하는 단계로서, 상기 평활 신호는 평활화 전의 대응하는 신호보다 더 평활화된 스펙트럼을 가지는, 스펙트럼 평활화 단계; 및 상기 평활 신호의 정보를 이용하여 상기 비상관 신호 또는 상기 결합 신호에 대해 시간적 엔벨로프 정형화하는 단계를 포함하는 방법에 의해 성취된다.
본 발명의 제5 태양에 따르면, 전술한 목적은, 원시 신호로부터 도출된 비상관 신호 또는 상기 원시 신호와 상기 비상관 신호를 결합함으로써 도출된 결합 신호를 처리하는 방법을 가진, 수신 방법 또는 오디오 재생 방법으로서, 상기 방법은: 평활 신호를 얻기 위해 상기 비상관 신호, 상기 비상관 신호로부터 도출된 신호, 상기 원시 신호, 상기 원시 신호로부터 도출된 신호, 또는 상기 결합 신호를 스펙트럼-평활화하는 단계로서, 상기 평활 신호는 평활화 전의 대응하는 신호보다 더 평활화된 스펙트럼을 가지는, 스펙트럼 평활화 단계; 및 상기 평활 신호의 정보를 이용하여 상기 비상관 신호 또는 상기 결합 신호에 대해 시간적 엔벨로프 정형화하는 단계를 포함하는 수신 방법 또는 오디오 재생 방법에 의해 성취된다.
본 발명의 제6 태양에 따르면, 전술한 목적은, 컴퓨터에서 실행될 때, 전술한 방법중의 어느 하나 방법을 수행하는 컴퓨터 프로그램에 의해 성취된다.
본 발명은, 평활화된 스펙트럼 간의 에너지 분포를 기술하는 이득 인자를 도출하기 위해 그 평활화된 스펙트럼을 이용하여 비상관 신호의 스펙트럼을 평활화하거나 결합 신호 및 원시 신호의 스펙트럼을 평활화하는 데에 스펙트럼 평활기가 이용되는 경우, 및 비상관 신호의 시간적 엔벨로프 또는 결합 신호의 시간적 엔벨로프를 정형화하기 위해 그 도출된 이득 인자가 엔벨로프 정형화기에 의해 이용되는 경우에, 원시 신호로부터 도출된 비상관 신호의 엔벨로프 또는 원시 신호와 비상관 신호의 결합에 의해 도출된 결합신호의 엔벨로프가 추가적인 왜곡의 도입 없이 정형화될 수 있다는 것에 기초한다.
스펙트럼 평활화는, 과도 신도가 이미 더 평활화된 스펙트럼을 가지고 있기 때문에, 그 과도 신호가 평활화에 거의 영향을 받지 않는다는 이점을 가진다. 또한, 비과도 신호에 대해 도출된 이득 인자는 거의 1에 가깝게 된다. 따라서, 과도 신호를 정형화해야 하고 비과도 신호를 변경하지 않아야 하는 두 가지의 요구사항이, 디코딩 프로세스 동안 엔벨로프 정형화를 스위칭 온/오프하지 않고도, 일시에 만족될 수 있다.
원시 신호와, 그 원시 신호로부터 도출된 비상관 신호와의 결합인 결합 신호의 정형화에 대해서도 동일한 이점이 얻어진다. 이러한 결합은, 먼저 원시 신호로부터 비상관 신호를 도출하고, 이들 두 신호를 단순히 가산함으로써 도출될 수도 있다. 예를 들면, 정형화에 이용되는 이득 인자를 도출하기 위해, 결합 신호의 평활화된 스펙트럼 및 원시 신호의 평활화된 스펙트럼을 이용하여 그 결합 신호를 정형화함으로써, 가능성 있는 프리-에코 형태의 아티팩트가 결합 신호 내에서 억제된다는 이점이 있다.
본 발명은, 다중 채널 오디오 신호의 재구성에 자주 이용되는 비상관 신호의 시간적 엔벨로프를 정형화하는 과제에 관한 것이다. 본 발명은, 다른 신호 형태에 대해 도입된 왜곡을 최소화하면서도, 환호성 신호에 대해 높은 시간 해상도를 유지하는 방법을 제안한다. 본 발명은, 도입되는 왜곡의 량을 상당히 감소시키는 단기간 에너지 조절을 수행하여, 시간적 엔벨로프 정형화 알고리즘의 동작을 제어하는 매우 정교한 검출기에 덜 의존하고 더욱 강고한(robust) 알고리즘을 구현하는 기법을 개시한다.
본 발명은 다음과 같은 특징을 가진다.
- 시간적 엔벨로프 정형화에 이용되는 시간 세그멘트보다 상당히 긴 시간 세그멘트에 대해, 직접 사운드 신호 또는 그 직접 사운드 신호로부터 도출된 신호의 스펙트럼 평활화를 수행하는 것;
- 시간적 엔벨로프 정형화에 이용되는 시간 세그멘트보다 상당히 긴 시간 세그멘트에 대해, 비상관 신호의 스펙트럼 평활화를 수행하는 것;
- 장기간 스펙트럼 평활화된 신호에 기초하여 엔벨로프 정형화에 이용된 짧은 시간 세그멘트에 대한 이득 인자를 계산하는 것;
- LPC(Linear Predictive Coding)에 의해 시간 도메인에서 스펙트럼 평활화를 수행하는 것;
- 필터 뱅크의 부대역 도메인에서 스펙트럼 평활화를 수행하는 것;
시간적 엔벨로프의 주파수 방향 기반 예측 이전에 스펙트럼 평활화를 수행하는 것;
- 시간적 엔벨로프의 주파수 방향 기반 예측을 위해 에너지 보정을 수행하는 것.
비상관 신호의 매우 단기간의 광대역 에너지 보정을 시도할 때에 일어날 수 있는, 다음과 같은 문제점은 본 발명에 의해 완전히 또는 상당히 감소된다.
- 시간적 정형화가 요구되지 않은, 특히 신호 세그멘트에 대한 상당한 량의 왜곡이 도입되는 문제점;
- 임의의 신호에 대해 그 도입된 왜곡으로 인하여, 단기간 에너지 보정이 수행되어야 하는 경우임을 지시하는 검출기에 대한 큰 의존성이 야기되는 문제점.
본 발명은, 높은 시간 해상도를 유지하고 추가적인 왜곡을 최소화하는, 그 요구된 이득 조절을 계산하는 방법을 개시한다. 이것은, 본 발명을 이용하는 공간적 오디오 시스템이, 시간적 정형화가 요구되지 않는 항목에 대한 추가적인 왜곡이 최소로 유지되기 때문에, 비-극단적 항목에 대해 시간적 정형화 알고리즘을 스위칭 온/오프하는 검출 메카니즘에 의존하지 않는다는 것을 의미한다.
본 발명은 또한, 변환 도메인 내에서 주파수 방향으로의 선형 예측에 의해 평가를 하는 경우에, 웨트 신호에 적용될, 드라이 신호의 시간적 엔벨로프의 향상된 평가를 얻는 방법을 개시한다.
본 발명의 일 실시예에서는, 본 발명에 따른 비상관 신호를 처리하는 장치가, 드라이 신호로부터의 웨트 신호의 도출 이후에, 1-2 업믹서의 신호 처리 경로에 적용된다.
먼저, 웨트 신호의 스펙트럼 평활화된 표현 및 드라이 신호의 스펙트럼 평활화된 표현이, 다수의 연속하는 시간 도메인 샘플들(일 프레임)에 대해 계산된다. 웨트 신호 및 드라이 신호의 이들 스펙트럼 평활화된 표현에 기초하여, 웨트 신호의 적은 개수의 샘플의 에너지를 조절하기 위한 이득 인자가, 웨트 신호 및 드라이 신호의 스펙트럼 평활화된 표현에 기초하여 계산된다. 스펙트럼 평활화에 의해, 본질적으로 평활한 신호인 과도 신호의 스펙트럼이 거의 변경되지 않고, 주기적 신호들의 스펙트럼이 크게 변경된다. 따라서, 평활화된 스펙트럼을 가진 신호 표현에 의해, 과도 신호가 현저한 경우에는 비상관 웨트 신호의 엔벨로프를 크게 정형화하고, 원활한 또는 주기적인 신호가 드라이 채널의 대부분의 에너지를 반송하고 있는 경우에는 웨트 신호의 엔벨로프만을 정형화하는 것을 구현할 수 있다. 이로써, 본 발명은, 시간적 엔벨로프 정형화가 기본적으로 요구되지 않는, 특히 신호 세그멘트에 대해서, 그 신호에 추가되는 왜곡의 량을 상당히 감소시킨다. 또한, 단기간 에너지 보정이 적용되어야 하는 경우를 나타내는 종래 기술의 검출기에 대한 큰 의존성도 회피할 수 있다.
본 발명의 다른 실시예에 있어서, 본 발명에 따른 장치는, 업믹싱된 모노포닉 신호를 계산하기 위해, 원시 신호와 그 원시 신호로부터 도출된 비상관 신호를 결합하는 업믹서에 의해 도출되는 업믹싱된(결합된) 모노포닉 신호에 대해 작용한다. 이러한 업믹싱은, 다중 채널 신호의 대응하는 원시 채널의 음향 특성을 가진 개개의 채널들을 도출하기 위한 다중 채널 신호의 재구성 중에 이용되는 표준적인 기법이다. 본 발명의 장치는 이러한 업믹싱 이후에 적용될 수 있기 때문에, 기존의 구성이 용이하게 확장될 수 있다.
본 발명의 다른 실시예 있어서, 비상관 신호의 시간적 엔벨로프 정형화는 필터 뱅크의 부대역 도메인 내에서 구현된다. 다양한 부대역 신호의 평활화된 스펙트럼 표현들이, 다수의 연속하는 샘플들에 대해 개별적으로 각각의 부대역에서 도출된다. 스펙트럼 평활화가 이루어진 장기간 스펙트럼에 기초하여, 드라이 신호에 따라 웨트 신호의 엔벨로프를 정형화하는 데에 이용되는 이득 인자가 원시 신호의 더욱 짧은 시간 주기를 나타내는 샘플에 대해 계산된다. 이 재구성된 오디오 신호의 지각적 품질(perceptual quality)에 관련한 이점은, 전술한 예와 동일하다. 또한, 필터 뱅크 표현에서 본 발명의 기법을 구현하는 가능성은, 필터 뱅크 표현을 이용하는 기존의 다중 채널 오디오 디코더가, 큰 구조적 및 계산적 수고 없이도 본 발명의 기법을 구현하기 위해 변형될 수 있다는 이점을 가진다.
본 발명의 다른 실시예에서, 웨트 신호의 시간적 엔벨로프 정형화는 선형 예측을 이용하여 부대역 도메인에서 수행된다. 따라서, 선형 예측은 필터 뱅크의 주파수 방향으로 적용되어, 그 필터 뱅크에서 자연적으로 이용될 수 있는 것보다 높은 시간 해상도로 그 신호를 정형화할 수 있게 한다. 최종의 에너지 보정은, 필터 뱅크의 다수의 연속하는 부대역 샘플에 대한 이득 곡선들을 평가함으로써 계산된다.
본 발명의 전술한 실시예의 변형에 있어서, 스펙트럼의 백색화를 기술하는 파라미터들의 평가가 필터 뱅크의 이웃하는 시간 샘플에 대해 원활하게 이루어 진다. 따라서, 과도 신호가 존재하는 경우에 그 스펙트럼을 백색화하기 위해, 잘못 도출된 역 필터들을 적용할 위험성은 더욱 감소하게 된다.
도 1a는 1-2 업믹서 단계(stage) 내에의 본 발명의 장치의 어플리케이션을 도시하고;
도 1b는 본 발명의 어플리케이션의 다른 예를 도시하고;
도 2a는 본 발명의 대체적 배치(placement)의 가능성을 도시하고;
도 2b는 본 발명의 배치의 다른 예를 도시하고;
도 3a는 다중 채널 오디오 디코더내의 본 발명의 장치의 이용을 도시하고;
도 3b는 다른 다중 채널 오디오 디코더내의 본 발명의 장치를 도시하고;
도 4a는 본 발명의 장치의 바람직한 실시예를 도시하고;
도 4b는 도 4a에 도시된 본 발명의 장치의 변형을 도시하고;
도 4c는 선형 예측 코딩의 예를 도시하고;
도 4d는 선형 예측 코딩에서 대역폭 확장 인자의 어플리케이션을 도시하고;
도 5a는 본 발명의 스펙트럼 평활기를 도시하고;
도 5b는 장기간 에너지 보정의 어플리케이션 기법을 도시하고;
도 6은 단기간 에너지 보정의 어플리케이션 기법을 도시하고;
도 7a는 QMF-필터 뱅크 디자인내의 본 발명의 장치를 도시하고;
도 7b는 도 7a에 도시된 본 발명의 장치를 상세히 도시하고;
도 8는 다중 채널 오디오 디코더내의 본 발명의 장치의 이용을 도시하고;
도 9는 QMF 기반 디자인에서 역 필터링 후의 본 발명의 장치의 어플리케이션을 도시하고;
도 10는 필터 뱅크 표현을 가진 신호의 시간 대 주파수 표현을 도시하고;
도 11는 본 발명의 디코더를 가진 전송 시스템을 도시한다.
도 1은, 공간 파라미터들을 추가적으로 이용하여, 제공된 모노 채널(105)을 2개의 스테레오 채널(107 및 108)로 업믹싱하는 1-2 채널 파라메트릭 업믹싱 장치 100를 도시한다. 파라메트릭 업믹싱 장치(100)는 파라메트릭 스테레오 업믹서(110), 비상관기(112), 및 본 발명에 따른 비상관 신호를 처리하는 장치(114)를 포함한다.
전송된 모노포닉 신호(105)는 파라메트릭 스테레오 업믹서(110)와 비상관기(112)에 입력되고, 그 비상관기는, 그 전송된 신호(105)로부터 비상관 신호를 비상관 규칙을 이용하여 도출하며, 이 비상관 규칙은 예를 들면, 주어진 시간 동안 그 신호를 지연시킴으로써 구현될 수 있다. 비상관기(112)에 의해 생성된 비상관 신호는, 본 발명의 장치(정형화기)(114)에 입력되고, 이 정형화기는 그 전송된 모노포닉 신호를 입력으로서 추가적으로 수신한다. 그 전송된 모노포닉 신호는, 이하에서 상세히 설명하는 바와 같이, 비상관 신호의 엔벨로프를 정형화하는 데에 이용되는 정형화 규칙들을 도출하기 위해 필요하다.
비상관 신호의 정형화된 엔벨로프 표현이 파라메트릭 스테레오 업믹서에 입력되고, 그 업믹서는 그 전송된 모노포닉 신호(105)로부터 그리고 그 비상관 신호의 정형화된 엔벨로프 표현으로부터 스테레오 신호의 좌측 채널(107) 및 우측 채널(108)을 도출한다.
본 발명의 개념 및 본 발명의 다양한 실시예를 용이하게 이해하기 위해, 추가적으로 제공된 특별한 파라미터들을 이용하여 그 전송된 모노포닉 신호를 스테레오 신호로 처리하는 업믹싱 프로세스를 이하에서 설명한다.
종래 기술로 알려진 바와 같이, 2개의 오디오 채널은 다운믹스 채널 및 그 2 개의 원시 채널의 에너지 분포에 대한 정보(이에 기초하여 다운믹싱이 이루어짐) 및 그 2개의 원시 채널 간의 상관관계에 대한 정보를 가진 일 세트의 공간 파라미터들에 기초하여 재구성될 수 있다. 도 1에 도시된 실시예는 본 발명의 프레임 워크를 예시한다.
도 1에 있어서, 다운믹싱된 모노 신호(105)는 비상관기 유니트(112)와 업믹싱 모듈(110)에 공급된다. 비상관기 유니트(112)는 동일한 주파수 특성 및 동일한 장기간 에너지를 가진 입력 신호(105)의 비상관 버전을 생성한다. 업믹싱 모듈은 공간 파라미터들에 기초하여 업믹싱 행렬을 계산하고, 출력 채널들(107 및 108)이 합성된다. 업믹싱 모듈(110)은 다음과 같은 식으로 표현될 수 있다.
Figure 112007064895531-pct00001
여기서, 파라미터들 Cl, Cr, α, 및 β는 ILD 파라미터로부터 도출되고, ICC 파라미터들은 비트스트림으로 전송된다. 신호 X[k]는 수신된 다운믹스 신호(105)이고, 신호 Q[k]는 비상관 신호이고, 이는 입력 신호(105)의 비상관 버전이다. 출력 신호들(107 및 108)은 Y1[k] 및 Y2[k]로 나타낸다.
새로운 모듈(114)이 비상관기 모듈(112)의 출력인 신호의 시간적 엔벨로프를 정형화하여, 그 시간적 엔벨로프가 입력 신호(105)의 시간적 엔벨로프와 일치하도록 구성되어 있다. 모듈(100)은 상세히 후술될 것이다.
전술한 바 및 도 1에 의해 분명하듯이, 업믹싱 모듈은 다운믹스 신호와 그의 비상관 버전의 선형 결합을 생성한다. 또한, 비상관 신호와 다운믹스 신호의 합은, 간략히 전술한 바와 같은 업믹싱에서 또는 후속하는 단계에서 이루어 질 수 있다는 것은 분명하다. 따라서, 2개의 출력 채널(107 및 108)은 4개의 출력 채널로 대체될 수 있고, 여기서 2개의 출력 채널은 제1 채널의 비상관 버전과 직접-신호 버전을 포함하고, 다른 2개의 출력 채널은 제2 채널의 비상관 버전과 직접-신호 버전을 포함하고 있다. 이는, 전술한 업믹싱 관계식을 다음의 관계식들로 대체함으로써 성취될 수 있다.
Figure 112007064895531-pct00002
계속하여, 재구성된 출력 채널은 관계식으로부터 얻어진다.
Figure 112007064895531-pct00003
이와 같이, 본 발명의 장치는, 도 1에 도시된 바와 같이, 최종의 업믹싱 전에 뿐만 아니라 그 업믹싱 후에도 디코딩 기법으로 구현될 수 있다는 것은 명확하다. 더욱이, 본 발명의 장치는 시간 도메인뿐만 아니라 QMF 부대역 도메인에서도 비상관 신호의 엔벨로프를 정형화하는 데에 이용될 수 있다.
도 1b는 본 발명의 다른 바람직한 실시예를 도시하며, 여기서 본 발명의 정형화기(114)는 그 전송된 모노포닉 신호(105)로부터 도출된 결합 신호(118) 및 그 전송된 모노포닉 신호(105)로부터 도출된 비상관 신호(116)를 정형화하는 데에 이용된다. 도 1b의 실시예는 도 1의 실시예에 기초한다. 따라서, 동일한 기능을 가 진 구성요소는 동일한 부재번호로 나타낸다.
비상관기(112)는 그 전송된 모노포닉 신호(105)로부터 비상관 신호(116)를 도출한다. 믹서(117)는 그 비상관 신호(116) 및 그 전송된 모노포닉 신호(105)를 입력으로서 수신하고, 그 전송된 모노포닉 신호(105)와 그 비상관 신호(116)를 결합하여 결합 신호(118)를 도출한다.
본 명세서에서, "결합"은 2개 또는 그 이상의 입력 신호로부터 단일의 신호를 도출하는 데에 적당한 어떠한 방법일 수도 있다. 가장 간단한 예로서, 전송된 모노포닉 신호(105)와 비상관 신호(116)를 단순히 가산함으로써 결합 신호(118)가 도출될 수 있다.
정형화기(114)는, 정형화될 결합 신호(118)를 입력으로서 수신한다. 정형화의 이득 인자들을 도출하기 위해, 그 전송된 모노포닉 신호(105)가 정형화기(114)에 입력된다. 부분적 비상관 신호(119)가, 정형화기(114)의 출력에서, 추가적인 가청 아티팩트의 도입 없이도 도출되며, 이는 비상관 신호 성분 및 원시 신호 성분을 가진다.
도 2는, 웨트 신호 부분의 엔벨로프 정형화가 업믹싱 후에 수행되는 구성을 도시한다.
도 2는, 본 발명의 파라메트릭 스테레오 업믹서(120) 및 비상관기(112)를 도시한다. 모노포닉 신호(105)가 비상관기(112)로 그리고 파라메트릭 스테레오 업믹서(120)로 입력된다. 비상관기(112)는, 모노포닉 신호(105)로부터 비상관 신호를 도출하고, 그 비상관 신호를 파라메트릭 스테레오 업믹서(120)에 입력한다. 파라 메트릭 스테레오 업믹서(120)는, 도 1에서 전술한 파라메트릭 스테레오 업믹서(110)에 기초한다. 파라메트릭 스테레오 업믹서(120)가 파라메트릭 스테레오 업믹서(110)와 다른 점은, 파라메트릭 스테레오 업믹서(120)가 좌측 채널의 드라이 부분(122a) 및 웨트 부분(122b)을 도출하고 우측 채널의 드라이 부분(124a) 및 웨트 부분(124b)을 도출한다는 점이다. 다시 말하면, 파라메트릭 스테레오 업믹서(120)는, 두 채널의 드라이 신호 부분들과 웨트 신호 부분들을 각각 별도로 업믹싱한다. 이는, 전술한 관계식들에 의해 구현될 수도 있다.
웨트 신호 부분들(122a 및 124a)이 업믹싱되더라도 정형화되어 있지 않을 수 있기 때문에, 도 2에 도시된 본 발명의 업믹싱의 구성에는, 제1 정형화기(126a) 및 제2 정형화기(126b)가 추가적으로 존재한다. 제1 정형화기(126a)는 정형화될 웨트 신호(122b)를 그 입력으로서 수신하고, 좌측 신호(122a)의 복제본(copy)을 그 기준 신호로서 수신한다. 제1 정형화기(126a)의 출력에는, 정형화된 드라이 신호(128a)가 제공된다. 제2 정형화기(126b)는 우측 드라이 신호(124b) 및 우측 웨트 신호(124a)를 그 입력으로 수신하고, 우측 채널의 정형화된 웨트 신호(128b)를 그 출력에서 도출한다. 원하는 좌측 신호(107) 및 우측 신호(108)를 최종적으로 도출하기 위해, 본 발명의 구성에는 제1 믹서(129a) 및 제2 믹서(129b)가 존재한다. 제1 믹서(129a)는, 좌측 업믹싱된 신호(122a)의 복제본 및 정형화된 웨트 신호(128b)를 입력으로서 수신하고, 그 출력에서 좌측 신호(107)를 도출한다. 마찬가지로, 제2 믹서(129b)는, 드라이 우측 신호(124a) 및 정형화된 웨트 우측 신호(128b)를 입력으로서 수신하고, 우측 채널(108)를 도출한다. 도 2에 도시된 바와 같이, 이러한 구성은 도 1에 도시된 실시예에 대체 구성으로서 동작될 수 있다.
도 2b는 도 2에 도시된 전술한 실시예의 변형으로서 본 발명의 바람직한 일 실시예를 도시하고, 동일한 구성요소는 동일한 부재번호로 나타낸다.
도 2b에 도시된 실시예에서, 웨트 신호(122b)는 그의 드라이 대응 부분(122a)과 우선 혼합되어 좌측 중간 채널(L*)이 도출되고, 웨트 신호(142b)는 그의 드라이 대응 부분(142a)와 혼합되어 우측 중간 채널(R*)이 도출된다. 따라서, 좌측 정보를 포함하는 채널과 우측 정보를 포함하는 채널이 생성된다. 하지만, 웨트 신호 성분들(122b 및 124b)에 의해 가청 아티팩트를 도입할 가능성이 여전히 존재한다. 그래서, 중간 신호(L* 및 R*)는, 드라이 신호 부분(122a 및 124a)을 입력으로 추가적으로 수신하는 대응하는 정형화기(126a 및 126b)에 의해 각각 정형화된다. 따라서, 최종적으로, 원하는 공간적 성질을 가진 좌측 채널(107) 및 우측 채널(108)이 도출될 수 있다.
요약하면, 도 2b에 도시된 실시예가 도 2b에 도시된 실시예와 다른 점은, 웨트 신호 및 드라이 신호가 우선 업믹싱되고, 이로써 도출된 결합 신호(L* 및 R*)에 대해 정형화가 수행된다는 점이다. 따라서, 도 2b는, 2개의 채널을 도출해야 하는 공통적 문제점을, 기존에 이용된 비상관 신호 부분들에 의한 가청 왜곡의 도입 없이, 해결하는 대체적인 구성을 도시한다. 정형화될 결합 신호를 도출하기 위해 2개의 신호 부분을 결합하는 다른 방법으로서, 예를 들면, 신호를 승산하거나 폴딩(folding)하는 방법 등이, 신호들의 스펙트럼 평활화된 표현을 이용하여 정형화하는 본 발명의 개념을 구현하는 데에 적절히 이용될 수 있다.
도 3a에 도시된 바와 같이, 2개의 채널 재구성 모듈을 캐스케이드 형태로 연결하여, 모노 다운믹스 채널(130)로부터 예로서 5.1 채널들을 반복적으로 재생성하는 트리 구조 시스템을 구성할 수 있다. 도 3a에서는, 본 발명에 따른 수개의 업믹싱 모듈을 캐스케이드 형태로 연결하여 모노 다운믹스 채널(130)로부터 5.1채널들을 재생성한다.
도 3a에 도시된 5.1 채널 오디오 디코더(132)는, 트리 구조로 배열된 수개의 1-2 업믹서(100)를 포함한다. 당해 기술 분야에 공지된 바와 같이, 업믹싱은 모노 채널들의 스테레오 채널들로의 계속적인 업믹싱에 의해 반복적으로 수행된다. 하지만, 비상관 신호를 처리하기 위한 본 발명의 장치를 포함하는 1-2 업믹서 블록들(100)을 이용하여, 재구성된 5.1 오디오 신호의 지각적 품질을 향상시킨다.
본 발명에 있어서, 비상관기로부터의 신호는, 그 신호가 그의 드라이 대응 부분과 혼합되는 때에 원치 않는 아티팩트를 야기시키지 않도록 하기 위해서 시간적 엔벨로프의 정확한 정형화가 수행되어야 한다. 시간적 엔벨로프의 정형화는, 도 1에 도시된 바와 같이 비상관 유니트 후에 직접 수행될 수 있다. 대안으로서, 도 2에 도시된 바와 같이, 비상관기 후에 드라이 신호 및 웨트 신호에 대해 별도로 업믹싱이 수행되고, 합성 필터링 후에 그 2개의 신호가 시간 도메인에서 최종으로 합산될 수도 있다. 대안으로서, 이것은 필터 뱅크 도메인에서도 수행될 수 있다.
전술한 바와 같은, 드라이 신호와 웨트 신호를 별도로 생성하는 것을 지원하기 위해, 본 발명의 다른 실시예에서는, 도 3b에 도시된 계층 구조가 이용될 수 있다. 도 3b는 수개의 캐스케이드형 변형 업믹싱 모듈(152)를 포함하는 제1 계층형 디코더(150)와 수개의 캐스케이드형 변형 업믹싱 모듈(156)를 포함하는 제2 계층형 디코더(154)를 도시한다.
드라이 신호 경로와 웨트 신호 경로를 별도로 생성하기 위해서, 모노포닉 다운믹스 신호(130)가 분할되어 제1 계층형 디코더(150)와 제2 계층형 디코더(154)로 입력된다. 제1 계층형 디코더(150)의 변형 업믹싱 모듈들(152)이 5.1 채널 오디오 디코더(132)의 업믹싱 모듈들(100)과 다른 점은, 이들이 단지 이들의 출력에서 드라이 신호 부분들을 제공한다는 것이다. 또한, 제2 계층형 디코더(154)의 변형 업믹싱 모듈들(156)은 단지 그들의 출력에서 웨트 신호 부분들을 제공한다. 따라서, 도 3a에서 전술한 바와 동일한 계층 구조를 구현함으로써, 5.1 채널 신호의 드라이 신호 부분들은 제1 계층형 디코더(150)에 의해 생성되고, 5.1 채널 신호의 웨트 신호 부분들은 제2 계층형 디코더(154)에 의해 생성된다. 결국, 웨트 신호와 드라이 신호의 생성은 예로서 필터 뱅크 도메인에서 수행될 수 있고, 이 두 신호 부분들의 결합은 시간 도메인에서 수행될 수 있다.
본 발명은, 매우 짧은 시간 세그멘트, 즉, 1ms 범위의 시간 세그멘트를 이용하는 비상관 신호를 변형하는 경우에 도입되는 왜곡을 최소화하기 위해서는, 웨트 신호의 시간적 엔벨로프의 정형화를 하는 데에 계속하여 이용되는 평가된 엔벨로프의 추출을 하는 데에 이용되는 신호들이 평가 프로세스 이전에 장기간 스펙트럼 평활화 또는 백색화 처리를 거쳐야 한다는 것을 개시한다. 비상관 신호의 시간적 엔벨로프의 정형화는, 부대역 도메인 또는 시간 도메인에서 단기간 에너지 조절에 의해 수행될 수 있다. 본 발명에서 도입된 백색화 단계는, 에너지 평가가 가능하면 긴 주파수 타일에서 계산되는 것을 보장한다. 다시 말하면, 신호 세그멘트의 지속 시간이 매우 짧기 때문에, 에너지 계산에 이용된 "데이터 포인트의 개수"를 최소화하기 위해, 가능하면 긴 주파수 범위에 대해 단기간 에너지를 평가하는 것이 중요하다. 하지만, 주파수 범위내의 일 부분이 나머지 부분보다 매우 현저한 경우에, 즉, 스펙트럼 기울기가 가파른 경우에, 유효한 데이터 포인트의 개수는 너무 적게 되고, 그 얻어진 평가는 평가별로 달라지기 쉬워, 적용된 이득 값에 불필요한 요동(fluctuation)을 부가하게 된다.
본 발명은, 비상관 신호의 시간적 엔벨로프가 주파수 방향으로의 예측에 의해 정형화되는 경우에 [제이. 헤르(J.Herre) 및 제이.디. 존스톤(J.D.Johnston)의 논문, "Enhancing the performance of perceptual audio coding by using temporal noise shaping(TNS)"(101st AES Convention, Los Angeles, 1996년 11월)], 비상관 신호에 적용되어야 할 시간적 엔벨로프의 양호한 평가를 얻기 위해, 예측기를 평가하는 데에 이용되는 주파수 스펙트럼이 백색화 단계(whitening stage)를 거쳐야 한다는 것을 개시한다. 또한, 스펙트럼 백색화 없이 스펙트럼 기울기가 가파르게 된 경우에서와 같이, 스펙트럼의 적은 부분에 그 평가가 기초하는 것은 바람직하지 않다.
도 4a는 시간 도메인에서 동작하는 본 발명에 따른 바람직한 실시예를 도시한다. 본 발명에 따른 비상관 신호를 처리하는 장치(200)는, 정형화될 웨트 신호(202) 및 드라이 신호(204)를 입력으로서 수신하고, 도 4에는 도시되어 있지 아니하지만 그 웨트 신호(202)는 드라이 신호(204)로부터 도출된다.
비상관 신호(202)를 처리하는 장치(200)는, 제1 고역 통과 필터(206), 제1 선형 예측 장치(208), 제1 역 필터(210), 및 제1 지연부(212)를 드라이 신호의 신호 경로상에 포함하고, 제2 고역 통과 필터(220), 제2 선형 예측 장치(222), 제2 역 필터(224), 저역 통과 필터(226), 및 제2 지연부(228)를 웨트 신호의 신호 경로상에 포함한다. 이 장치는, 이득 계산기(230), 승산기(엔벨로프 정형화기)(232), 및 가산기(업믹서)(234)를 더 포함한다.
드라이 신호 측에서, 드라이 신호의 입력은 분할되어, 제1 고역 통과 필터(206) 및 제1 지연부(212)로 입력된다. 고역 통과 필터(206)의 출력은, 제1 선형 예측 장치(208)의 입력에 그리고 제1 역 필터(210)의 제1 입력에 연결되어 있다. 제1 선형 예측 장치(208)의 출력은 역 필터(210)의 제2 입력에 연결되어 있고, 역 필터(210)의 출력은 이득 계산기(230)의 제1 입력에 연결되어 있다. 웨트 신호 경로에서, 웨트 신호(202)는 분할되어, 제2 고역 통과 필터(220)의 입력에 그리고 저역 통과 필터(226)의 입력에 입력된다. 저역 통과 필터(226)의 출력은 제2 지연부(228)에 연결되어 있다. 제2 고역 통과 필터(220)의 출력은 제2 선형 예측 장치(222)의 입력에 그리고, 제2 역 필터(224)의 제1 입력에 연결되어 있다. 제2 선형 예측 장치(222)의 출력은 제2 역 필터(224)의 제2 입력에 연결되고, 그의 출력은 이득 계산기(230)의 제2 입력에 연결되어 있다. 엔벨로프 정형화기(232)는 그 제1 입력에서, 제2 고역 통과 필터(220)의 출력에서 공급되는 고역 통과 필터링된 웨트 신호(202)를 수신한다. 엔벨로프 정형화기(232)의 제2 입력은, 이득 계산기(230)의 출력에 연결되어 있다. 엔벨로프 정형화기(232)의 출력은 가산기(234) 의 제1 입력에 연결되고 있고, 그의 제2 입력에서는 제1 지연부(212)의 출력으로부터 공급되는 지연된 드라이 신호를 수신하고, 그의 제3 입력에서는 제2 지연부(228)의 출력으로부터 공급되는 웨트 신호의 지연된 저주파 부분을 수신한다. 가산기(232)의 출력에는, 처리가 완료된 신호가 공급된다.
도 4a에 도시된 본 발명의 바람직한 실시예에서는, 비상관기로부터 나오는 신호(웨트 신호(202)) 및 그 대응하는 드라이 신호(204)가 제2 고역 통과 필터(220) 및 제1 고역 통과 필터(206)에 각각 입력되고, 이들 두 신호는 대략 2kHz의 차단 주파수에서 고역 통과 필터링된다. 웨트 신호(202)는, 제2 고역 통과 필터(220)의 저지 대역(stop band)과 유사한 경로를 가진 저역 통과 필터(226)에 의해 저역 통과 필터링된다. 따라서, 비상관(웨트) 신호(202)의 시간적 엔벨로프 정형화는 단지 2kHz 이상의 주파수 범위에서 수행된다. (시간적 엔벨로프 정형화를 거치지 않은) 웨트 신호(202)의 저역 통과 부분은 제2 지연부(208)에 의해 지연되어, 비상관 신호(202)의 고역 통과 부분의 시간적 엔벨로프의 정형화 시에 도입된 지연을 보상한다. 이는 드라이 신호 부분(204)에 대해서 동일하여, 제1 지연부(212)에 의해 동일한 지연 시간이 수신되고, 따라서, 가산기(234)에서, 그 웨트 신호(203)의 처리된 고역 통과 필터링된 부분, 그 웨트 신호(202)의 지연된 저역 통과 부분, 및 지연된 드라이 신호(204)는 가산되거나 업믹싱되어, 최종으로 처리된 업믹싱된 신호를 얻게 된다.
본 발명에 따르면, 고역 통과 필터링 후에, 장기간 스펙트럼 엔벨로프가 평가될 수 있다. 유의할 점은, 장기간 스펙트럼 엔벨로프 평가를 위해 이용된 시간 세그멘트가 실제의 시간적 엔벨로프 정형화에 이용되는 시간 세그멘트보다 충분히 길다는 것이다. 스펙트럼 엔벨로프 평가 및 후속하는 역 필터링은 전형적으로 20ms의 범위에서 시간 세그멘트에 대해 동작하고, 시간적 엔벨로프 정형화는 1ms의 범위에서 정확도를 가지고 시간적 엔벨로프를 정형화하는 것을 목적으로 한다. 도 4a에 도시된 본 발명의 바람직한 실시예에서, 스펙트럼 백색화는, 드라이 신호에 대해 동작하는 제1 역 필터(210)와 웨트 신호(202)에 대해 동작하는 제2 역 필터(224)에 의한 역 필터링에 의해 수행된다. 제1 역 필터(210)와 제2 역 필터(224)의 요구된 필터 계수들을 얻기 위해, 이들 신호의 스펙트럼 엔벨로프가 제1 선형 예측 장치(208)와 제2 선형 예측 장치(222)에 의한 선형 예측에 의해 평가된다. 신호의 스펙트럼 엔벨로프(H(z))는 다음과 같은 관계식으로 나타낸 선형 예측을 이용하여 얻어질 수 있다.
Figure 112007064895531-pct00004
여기서, A(z)는 다음과 같이 나타낸다.
Figure 112007064895531-pct00005
A(z)는 자체 상관법 또는 공분산(covariance)법을 이용하여 얻어진 다항식이고 [라비너(Rabiner)와 샤퍼(Schafer)의 저서, "Digital Processing of Speech signals"의 제8장, Prentice Hall, Inc., Englewood Cliffs, New Jersey 07632, ISBN 0-13-213603-1], G는 이득 인자이다. 전술한 다항식의 차수(p)는 예측기 차수라 한다.
도 4a에 도시한 바와 같이, 신호의 스펙트럼 엔벨로프의 선형 예측은 드라이 신호 부분(204)과 웨트 신호 부분(202)에 대해 병렬로 수행된다. 신호의 스펙트럼 엔벨로프의 이들 평가에 의해, 고역 통과 필터링된 드라이 신호(204) 및 웨트 신호(202)의 역 필터링이 수행되며, 즉, 스펙트럼의 평활화(스펙트럼 백색화)가 수행되며, 한편 이들 신호내의 에너지가 보존되어야 한다. 스펙트럼 백색화의 정도, 즉 평활화된 스펙트럼이 편평한 정도는, 변화하는 예측기 차수(p)에 의해, 즉, 다항식 A(z)의 차수를 제한함으로써, 그리고 H(z)로 나타내는 미세 구조의 양을 제한하게 됨으로써, 제어될 수 있다. 대안으로서, 대역폭 확장 인자가 다항식 A(z)에 적용될 수 있다. 대역폭 확장 인자는 다항식 A(z)에 기초하여 다음의 관계식에 따라 정의된다.
Figure 112007064895531-pct00006
시간적 엔벨로프 정형화 및 대역폭 확장 인자(ρ)의 효과는 도 4c 및 도 4d에 도시되어 있다.
도 4c는 제1 선형 예측 장치(208) 및 제2 선형 예측 장치(222)에 의해 수행되는, 신호의 스펙트럼 엔벨로프의 평가의 일 예를 도시한다. 도 4c의 스펙트럼 표현을 위해서, 주파수는 Hz 단위로 x축에 나타내고, 그 주어진 주파수에서 전송된 에너지는 dB 단위로 Y축에 나타낸다.
실선 240은 처리된 신호의 원시 스펙트럼 엔벨로프를 나타내고, 쇄선 242는 표시된 등거리 주파수 값에서의 스펙트럼 엔벨로프의 값을 이용하는 선형 예측 코 딩(LPC)의해 얻어진 결과를 나타낸다. 도 4c에 도시된 예에서, 예측기 차수(p)는 30이고, 이는 예측된 스펙트럼 엔벨로프(242)와 실제의 스펙트럼 엔벨로프(240)의 근접한 일치를 나타내는 상당히 높은 값의 예측기 차수이다. 이것은, 그 예측기의 차수가 높아짐에 따라, 그 예측기는 더욱 정교한 표현할 수 있다는 사실 때문이다.
도 4d는 예측기 차수(p)를 감소시키거나 대역폭 확장 인자(ρ)를 적용하는 효과를 도시한다. 도 4d는 평가된 엔벨로프의 2개의 예를 도 4c의 동일한 표현으로 도시하여, 주파수를 x축에 에너지를 y축에 나타내고 있다. 평가된 엔벨로프(244)는, 주어진 예측기 차수에서 선형 예측 코딩으로부터 얻어진 스펙트럼 엔벨로프를 표현한다. 필터링된 엔벨로프(246)는, 감소된 예측기 차수(p)를 가진 동일한 신호 또는, 대안으로서, 적용된 대역폭 확장 인자(ρ)를 가진 동일한 신호에 대한 선형 예측 코딩의 결과를 도시한다. 도시된 바와 같이, 필터링된 엔벨로프(246)는 평가된 엔벨로프(244)보다 더욱 평활화되어 있다. 이것은, 평가된 엔벨로프(244)와 필터링된 엔벨로프(246)가 매우 다르게 되는 주파수에서, 그 필터링된 엔벨로프(246)가 그 평가된 엔벨로프(244)보다 덜 정밀한 실제의 엔벨로프를 기술한다는 것을 의미한다. 따라서, 필터링된 엔벨로프(246)에 기초하는 역 필터링은 평활화된 스펙트럼을 생성하며, 이것은 역 필터링 처리에서 그 평가된 엔벨로프(244)로부터의 파라미터들을 이용하여 더 평활화되어 있다. 역 필터링은 이하에서 설명한다.
선형 예측 장치에 의해 예측된 파라미터들 또는 계수들(αk)은, 역 필터 들(210 및 224)에 의해, 신호들의 스펙트럼 평활화를 수행하는 데에, 즉, 다음의 역 필터 함수를 이용하는 역 필터링에 이용된다.
Figure 112007064895531-pct00007
여기서, p는 예측기 차수를, ρ는 선택사항으로서의 대역폭 확장 인자를 나타낸다.
계수들(αk)은, 자체 상관법 또는 공분산법과 같은 서로 다른 방식으로 얻어 질 수 있다. 일반적인 실시에서는, 시스템의 안정성을 보장하기 위해서, 그 평가에 일정한 종류의 완화가 가해진다. 자체 상관법을 이용하는 경우에, 이것은 상관 벡터의 제로-래그(zero-lag) 값들을 오프셋함으로써 용이하게 실현될 수 있다. 이것은, A(z)를 평가하는 데에 이용된 신호에 일정한 레벨의 백색 노이즈를 부가하는 것과 동등하다.
이득 계산기(230)는, 드라이 신호의 엔벨로프에 정형화된 웨트 신호의 엔벨로프의 요구사항을 수행하기 위해, 단기간 타겟 에너지, 즉, 웨트 신호의 단일 샘플 내에서 필요한 에너지를 계산한다. 이들 에너지는, 스펙트럼 평활화된 드라이 신호 및 스펙트럼 평활화된 웨트 신호에 기초하여 계산된다. 그리고, 도출된 이득 조절 값이, 엔벨로프 정형화기(232)에 의해 웨트 신호에 적용될 수 있다.
이득 계산기(230)를 상세히 설명하기 전에, 역 필터링 중에, 역 필터들(210 및 224)의 이득 인자(G)가 고려될 필요가 있다는 것에 유의하여야 한다. 제1 채널은 업믹싱 처리에 이용되는 ILD 파라미터들 및 ICC 파라미터들에 따라 제2 채널에 대한 특정의 에너지 비를 가지며, 동작되는 드라이 신호 및 웨트 신호는 매 채널에 대한 2개의 출력 신호를 생성하는 업믹싱 처리로부터의 출력 신호들 이기 때문에, ILD 파라미터들 및 ICC 파라미터들이 시간적 엔벨로프 정형화의 과정에서 유효하게 되는 시간 세그멘트에 대한 평균에 있어서 이러한 관계가 유지되어야 한다는 것은 필수적이다. 다시 말하면, 비상관 신호를 처리하는 장치(200)는, 처리되는 세그멘트에 대해 신호의 평균 에너지를 동일하게 유지하면서, 비상관 신호의 시간적 엔벨로프를 변경하여야 한다.
이득 계산기(230)는 2개의 스펙트럼 평활화된 신호에 대해 동작하고, 역 필터링에 이용된 세그멘트보다 더욱 짧은 시간 세그멘트들에 대해 웨트 신호에 대한 어플리케이션을 위한 단기간 이득 함수를 계산한다. 예를 들면, 역 필터링을 위한 세그멘트 길이는 2048개의 샘플인 경우에, 단기간 이득 인자들은 64의 길이를 가진 샘플들에 대해 계산될 수도 있다. 이것은, 2048개의 샘플 길이에 대해 평활화된 스펙트럼에 기초하여, 이득 인자들이, 더욱 짧은 신호의 세그멘트들, 예들 들면, 64개의 세그멘트들을 이용하여 시간적 에너지 정형화를 위해 도출된다.
계산된 이득 인자들의 웨트 신호에 대한 어플리케이션은, 그 계산된 이득 인자들에 샘플 파라미터들을 승산하는 엔벨로프 정형화기(232)에 의해 수행된다. 최종적으로, 고역 통과 필터링된 그리고 엔벨로프 정형화된 웨트 신호가, 가산기(업믹서)(234)에 의해 저주파 부분에 부가되어, 엔벨로프 정형화기(234)의 출력에서, 최종적으로 처리된 그리고 엔벨로프 정형화된 웨트 신호를 산출된다.
서로 다른 이득 인자들 간의 에너지 보존 및 원활한 전이가 역 필터링 동안 그리고 이득 인자의 어플리케이션 동안의 주안점이므로, 이웃하는 샘플들의 이득 인자들간의 원활한 전이를 보장하기 위해, 윈도우 함수가 그 계산된 이득 인자들에 추가적으로 적용될 수도 있다. 따라서, 역 필터링 및 그 계산된 단기간 이득 인자들의 웨트 신들에의 어플리케이션을, 전술한 예와 마찬가지로, 역 필터링을 위한 세그멘트를 길이를 2048로 가정하고 단기간 이득 인자들의 계산을 위한 세그멘트 길이를 64로 가정하여, 도 5a, 도 5b, 및 도 6을 참조하여 상세히 설명한다.
도 4b는 본 발명에 따른 비상관 신호를 처리하는 장치(200)의 변형을 도시하고, 여기서 엔벨로프 정형화된 웨트 신호는 엔벨로프 정형화 후에 고역 통과 필터(240)에 적용된다. 바람직한 실시예에서, 고역 통과 필터(224)는 필터링된 웨트 신호(202)의 부분을 도출하는 고역 통과 필터(220)와 동일한 특성을 가진다. 따라서, 고역 통과 필터(240)는, 그 비상관 신호의 처리되지 않은 저역 통과 부분과 그 신호의 처리된 고역 통과 부분의 합산에 불일치가 일어나게 하는, 비상관 신호에 도입된 왜곡이 신호의 고역 통과 특성을 변경하지 않는 것을 보장한다.
전술한 본 발명의 구현에 있어서의 몇 가지 중요한 특징을 다시 강조하여 개시한다.
- 스펙트럼 평활화는, 단기간 에너지 조절에 이용되는 시간 세그멘트보다 상당히 길게 되는 시간 세그멘트의 스펙트럼 엔벨로프 표현(특별한 예로서는, LPC)을 계산함으로써, 수행된다.
- 스펙트럼 평활 신호는, 비상관(웨트) 신호의 정확한 시간적 엔벨로프를 평가하고 적용하는 데에 이용되는 에너지 평가(그 이득 값이 계산됨)를 계산하는 데 에만 이용된다.
- 웨트 신호와 드라이 신호 간의 평균 에너지 비가 유지되어, 시간적 엔벨로프만이 변형된다. 따라서, 처리되는 신호 세그멘트(즉, 전형적으로 1024 또는 2048개의 샘플을 포함하는 일 프레임)에 대한 이득 값(G)의 평균은, 대부분의 신호중의 하나와 근사적으로 동일하다.
도 5a는 본 발명에 따른 비상관 신호를 처리하는 장치(200) 내에 제1 역 필터(210) 및 제2 역 필터(224)로서 이용되는 역 필터를 상세히 설명하기 위한 도이다. 역 필터(300)는, 역 변환기(302), 제1 에너지 계산기(304), 제2 에너지 계산기(306), 이득 계산기(308), 및 이득 적용기(310)를 포함한다. 역 변환기(302)는(선형 예측 코딩에 의해 도출된) 필터 계수들(312) 및 신호 X(k)(314)를 입력으로서 수신한다. 신호(314)의 복제본이 제1 에너지 계산기(304)에 입력된다. 역 변환기는, 필터 계수들(312)에 기초하여, 길이 2049을 가진 신호 세그멘트를 위한 신호(314)에 역 변환을 적용한다. 이득 인자(G)가 1로 설정되어, 평활 신호(316)(Xflat(z))가 다음의 관계식에 따라 입력 신호(314)로부터 도출된다.
Figure 112007064895531-pct00008
이 역 필터링은 반드시 에너지를 보존할 필요는 없기 때문에, 평활 신호의 장기간 에너지는 장기간 이득 인자(Glong)에 의해 보존되어야 한다. 따라서, 신호(214)가 제1 에너지 계산기(304)에 입력되고, 평활 신호(316)가 제2 에너지 계산 기(306)에 입력되면, 여기서 신호의 에너지(E) 및 평활 신호의 에너지(Eflat)가 다음과 같이 계산된다.
Figure 112007064895531-pct00009
여기서, 스펙트럼 엔벨로프 평가 및 역 필터링를 위한 현재의 세그멘트의 길이는 2048개의 샘플이다.
따라서, 이득 인자(Glong)는 다음과 같은 관계식을 이용하는 이득 계산기(308)에 의해 계산된다.
Figure 112007064895531-pct00010
평활 신호(316)를 그 도출된 이득 인자(Glong)와 승산함으로써, 에너지 보존이 이득 적용기(310)에 의해 보장될 수 있다. 이웃하는 신호 세그멘트들 간의 원활한 전이를 보장하기 위해, 바람직한 실시예에서는, 이득 인자(Glong)가 윈도우 함수를 이용하여 평활 신호(316)에 적용된다. 따라서, 오디오 신호의 지각적 품질을 크게 교란할 수도 있는, 신호의 음량크기(loudness)의 점프가 방지될 수 있다.
장기간 이득 인자(Glong)은 예를 들면 도 5b에 따라 적용될 수 있다. 도 5는 가능한 윈도우 함수를 나타내며, 그 그래프에서 샘플의 개수는 x축에 나타내고, 이득 인자(G)는 y축에 나타낸다. 2048개의 샘플의 전체 프레임을 스캐닝하는 윈도우는, 이전의 프레임(319)로부터 이득 값을 페이드-아웃 하는 데에, 현재 프레임의 이득 값(320)을 페이드-인 하는 데에 이용된다.
본 발명에 따른 비상관 신호를 처리하는 장치(200)내의 역 필터들(300)을 적용하는 것은, 입력 신호들의 에너지가 더욱 보존되면서 그 역 필터들 이후의 신호들이 스펙트럼 평활화되는 것을 확실하게 한다.
평활화된 웨트 신호 및 드라이 신호에 기초하여, 이득 인자 계산이 이득 계산기(230)에 의해 수행될 수 있다. 이는 다음의 단락에서 더욱 상세히 설명되며, 이웃하는 신호 세그멘트들을 스케일링하는 데에 이용되는 이득 인자들의 원활한 전이를 확실하게 하기 위해 윈도우 함수가 추가로 도입된다. 도 6에 도시된 예에서, 이웃하는 세그멘트들에 대해 계산된 이득 인자들은 각각 64개의 샘플에 대해 유효하여, 이들은 윈도우 함수 Win(k)에 의해 추가로 스케일링된다. 단일의 세그멘트 내의 에너지는 다음의 관계식에 의해 계산되며, 여기서 N은 스펙트럼 평활화에 이용된 장기간 세그멘트, 즉, 2048개의 샘플을 가진 세그멘트 내의 세그멘트 수를 나타낸다.
Figure 112007064895531-pct00011
여기서, win(k)는 윈도우 함수(322)이고, 이는 예로서 64개의 샘플의 길이를 가진다. 다시 말하면, 단기간 이득 함수는, 더욱 짧은 시간 세그멘트들에 대해서 계산되지만, 장기간 이득 인자(Glong)의 이득 계산과 유사하게 계산된다. 단일의 단기간 샘플에 적용될 단일의 이득 값(GN)은, 다음과 같은 관계식에 따라 이득 계산 기(230)에 의해 계산된다.
Figure 112007064895531-pct00012
도 6에 도시된 바와 같이, 상기의 계산된 이득 값들은, 윈도우 오버랩 추가 세그멘트를 이용하여 웨트 신호에 적용된다. 본 발명의 바람직한 실시예에서, 오버랩 추가 윈도우는 44.1kHz 샘플링 레이트에서 32개의 샘플 길이를 가진다. 다른 실시예에서는, 64-샘플 윈도우가 이용된다. 전술한 바와 같이, 시간 도메인에서 본 발명을 구현하는 특징중의 하나는, 시간적 엔벨로프 정형화의 시간 해상도의 선택 자유도가 있다는 것이다. 도 6에 도시된 윈도우는 또한, 이득 값(gn-1, gn,…, gN)이 계산되는 모듈(230)에서 이용된다.
유의할 점은, 웨트 신호와 드라이 신호 간의 에너지 관계가 ILD 파라미터들과 ICC 파라미터들에 기초하여 업믹싱에 의해 계산되어 그 처리된 세그멘트에 대해 유지되어야 한다는 요구사항이 주어지면, 이득 값(gn-1, gn,…, gN)을 평균하여 얻어진 평균 이득 값이 대다수의 신호에 대한 것과 근사적으로 동일하여야 한다는 것이다. 따라서, 본 발명의 다른 실시예에서, 장기간 이득 조절의 계산을 다시 참조하면, 그 이득 인자는 다음과 같이 계산될 수 있다.
Figure 112007064895531-pct00013
이로써, 웨트 신호와 드라이 신호는 정규화되고, 이들 간의 장기간 에너지 비는 근사적으로 유지된다.
앞의 단락들에서 설명한 본 발명의 예들은 시간 도메인에서 비상관 신호의 시간적 엔벨로프 정형화를 수행하지만, 시간적 정형화 모듈은, 최종의 업믹싱 단계에 비상관기 신호를 이용하기 이전에 비상관기 유니트의 QMF 부대역 신호 출력에 대해서도 동작하도록 구성될 수 있다는 것은, 웨트 신호와 드라이 신호의 도출로부터 분명해 진다.
이것은 도 7a에 도시되어 있다. 인입하는 모노 신호(400)는 QMF 필터 뱅크(402)에 입력되어, 모노포닉 신호(400)의 부대역 표현을 도출한다. 따라서, 신호 처리 블록(404)에서, 각각의 부대역에 대해 개별적으로 업믹싱이 수행된다. 따라서, 최종의 재구성된 좌측 신호(406)은 QMF 합성 블록(408)에 의해 제공될 수 있고, 최종의 재구성된 우측 채널(410)은 QMF 합성 블록(412)에 의해 제공될 수 있다.
신호 처리 블록(404)의 일 예가 도 7b에 도시되어 있다. 신호 처리 블록(404)은 비상관기(413), 본 발명에 따른 비상관 신호를 처리하는 장치(414), 및 업믹서(415)를 포함한다.
단일의 부대역 샘플(416)은 신호 처리 블록(404)에 입력된다. 비상관기(413)는, 비상관 신호를 처리하는 장치(414)(정형화기)에 입력된 부대역 샘플(416)로부터 비상관 샘플을 도출한다. 정형화기(414)는 부대역 샘플(416)의 복제본을 제2 입력으로서 수신한다. 본 발명에 따른 정형화기(414)는, 본 발명에 따른 시간적 엔벨로프 정형화를 수행하고, 부대역 샘플(416)을 제2 입력으로서 추가 적으로 수신하는 업믹서(415)의 제1 입력에 정형화된 비상관 신호를 제공한다. 업믹서(415)는 부대역 샘플(416) 및 정형화된 비상관 샘플로부터 좌측 부대역 샘플(417) 및 우측 부대역 샘플(418)을 도출한다.
서로 다른 부대역 샘플들에 대한 다수의 신호 처리 블록들(404)를 통합함으로써, 좌측 부대역 샘플들 및 우측 부대역 샘플들이 필터 뱅크 도메인의 각각의 부대역에 대해 계산될 수 있다.
다중 채널 구현에 있어서, 신호 처리는 QMF 도메인에서 통상적으로 수행된다. 전술한 바와 같이, 비상간 신호와 그 신호의 직접 버전의 최종 합산이 실제로 재구성된 출력 신호를 형성하기 직전에의 최종 단계에서 수행될 수 있다는 것이 명확하다. 그래서, 그 정형화 모듈이 ICC 파라미터와 ILD 파라미터에 의해 규정된 대로 그 비상관 신호의 에너지를 변경할 수 없고 직접 신호와 매우 일치하는 시간적 엔벨로프를 비상관 신호에게 제공하는 단기간 에너지를 변경할 수만 있다면, 2개의 신호 성분의 가산 직전에 그 정형화 모듈이 수행될 수 있다.
업믹싱 및 합성 이전에 QMF 부대역 도메인에서 본 발명에 따라 동작하는 것 또는 업믹싱 및 합성 이후에 시간 도메인에서 본 발명에 따라 동작하는 것은 이점과 불리한 점을 모두 가진 서로 다른 두 가지 방법이다. 전자는 가장 간단한 방법으로서, 그 것이 동작하는 필터 뱅크의 시간 해상도에 제한되지만, 최소의 계산 량을 요구한다. 한편, 후자는 추가적인 합성 필터 뱅크를 요구하므로, 추가적인 계산 복잡도가 존재하지만, 시간 해상도를 선택하는 데에 완전한 자유도를 가진다.
전술한 바와 같이, 다중 채널 디코더는 도 8에 도시된 바와 같이 부대역 도 메인에서 신호 처리를 대부분 수행한다. 따라서, 모노포닉 다운믹스 신호(420), 즉, 원시 5.1 채널 오디오 신호의 다운믹스 신호는, 모노포닉 신호(420)의 부대역 표현을 도출하는 QMF 필터 뱅크(421)에 입력된다. 실제의 업믹싱 및 신호 재구성은 부대역 도메인에서 신호 처리 블록(422)에 의해 수행된다. 최종의 단계로서, 좌-전방 채널(424a), 우-전방 채널(424b), 좌-서라운드 채널(424c), 우-서라운드 채널(424d), 중심 채널(424e), 및 저주파 강화 채널(424f)을 포함하는 원시 5.1 채널 신호가, QMF 합성에 의해 도출된다.
도 9는 본 발명의 다른 실시예를 도시하며, 신호 정형화는 그 처리 이후에 시간 도메인으로 시프트되고, 스테레오포닉 신호의 업믹싱은 부대역 도메인에서 수행된다.
모노포닉 입력 신호(430)는 필터 뱅크(432)에 입력되어, 모노포닉 신호(430)으로부터 다수의 부대역 표현이 도출된다. 그 신호 처리 및 모노포닉 신호의 4개의 신호로의 업믹싱은 신호 처리 블록(434)에 의해 수행되어, 좌측 드라이 신호(436a), 좌측 웨트 신호(436b), 우측 드라이 신호(438a), 및 우측 웨트 신호(438b)의 부대역 표현들이 도출된다. QMF 합성(440) 후에, 시간 도메인에서 동작하는 본 발명에 따른 비상관 신호를 처리하는 장치(200)를 이용하여, 최종의 좌측 신호(442)가, 좌측 드라이 신호(436a) 및 좌측 웨트 신호(436b)로부터 도출될 수 있다. 동일한 방식으로, 최종의 우측 신호(444)가 우측 드라이 신호(438a) 및 우측 웨트 신호(438b)로부터 도출될 수 있다.
전술한 바와 같이, 본 발명은 시간 도메인 신호에 대한 동작 만으로 제한되 지 않는다. 단기간 에너지 평가와 그 조절을 결합한 장기간 스펙트럼 평활화에서의 본 발명의 특징은, 부대역 필터 뱅크에서 구현될 수 있다. 전술한 예에서는 QMF 필터 뱅크가 이용되었지만, 본 발명은 이러한 특별한 필터 뱅크 표현 만으로 제한되지 않는다는 것은 이해되어야 한다. 본 발명의 시간 도메인에서 구현에 따르면, 시간적 엔벨로프의 평가에 이용되는 신호, 즉, 처리 유니트로 들어가는 드라이 신호 및 비상관 신호는, 저주파 범위에서 QMF 부대역이 0으로 설정되어 있는 QMF 필터 뱅크 표현의 경우에, 고역 통과 필터링된다. 다음의 단락에서는 본 발명의 QMF 부대역 도메인에서의 이용을 예시하며, 여기서, m은 부대역, 즉, 원시 신호의 주파수 범위를 나타내고, N은 그 부대역 표현내의 샘플의 수를 나타내고, 장기간 스펙트럼 평활화에 이용되는 신호 부대역은 N개의 샘플을 포함한다.
먼저, 다음과 같은 가정을 한다.
Figure 112007064895531-pct00014
여기서, Qdry(m, n)와 Qwet(m, n)는 드라이 신호와 웨트 신호를 가진 QMF 부대역 행렬들이고, Edry(m, n)와 Ewet(m, n)는 부대역 샘플들의 대응하는 에너지이다. 여기서, m 은 대략 2kHz에 대응하도록 선택되며 mstart에서 시작하는 부대역을 나타내고, n은 0부터 N까지 범위의 부대역 샘플 지수이고, N은 대략 20ms에 대응하는 일 프레임 내의 부대역 샘플의 개수로서, 바람직한 실시예에서는, 32이다.
전술한 에너지 행렬들에 대해서, 스펙트럼 엔벨로프가 그 프레임내의 모든 부대역 샘플에 대한 평균으로서 계산된다. 이것은 장기간 스펙트럼 엔벨로프에 대응한다.
Figure 112007064895531-pct00015
Figure 112007064895531-pct00016
또한, 그 프레임에 대한 평균 총 에너지는 다음과 같 계산된다.
Figure 112007064895531-pct00017
이들 관계식에 기초하여, 2개의 행렬에 대해 평활화 이득 곡선이 계산될 수 있다.
Figure 112007064895531-pct00018
그 계산된 이득 곡선을 웨트 신호와 드라이 신호에 대한 에너지 행렬에 적용함으로써, 장기간 스펙트럼 평활화 에너지 행렬이 다음과 같이 얻어진다.
Figure 112007064895531-pct00019
전술한 에너지 행렬은, QMF 도메인에서 가용한 가장 높은 시간 해상도를 이용하는 웨트 신호의 시간적 엔벨로프를 계산하고 적용하는 데에 이용된다.
Figure 112007064895531-pct00020
부대역 도메인에서의 본 발명의 구현에 대한 설명으로부터, 단기간 시간적 엔벨로프 평가 또는 단기간 에너지 평가/조절과 결합하여 장기간 스펙트럼 백색화를 수행하는 본 발명은 시간 도메인에서의 LPC의 이용 만으로 제한되지 않는다는 것은 명확하다.
본 발명의 다른 실시예에서는, 시간적 엔벨로프 정형화를 웨트 신호에 적용하기 전에, 본 발명의 스펙트럼 평활화를 수행하기 위해, 시간적 엔벨로프 정형화가 주파수 방향으로 부대역 도메인에서 이용된다.
주파수 도메인에서 낮은 시간 해상도로 표현된 신호가 그 신호의 주파수 표현의 주파수 방향으로서 필터링에 의해 시간적 엔벨로프 정형화될 수 있다는 것은, 종래 기술에 공지되어 있다. 이것은, 장기간의 변환에서 표현되는 신호의 그 도입된 양자화 노이즈를 정형화하기 위해, 지각적 오디오 코덱에 이용된다 [제이. 헤르(J.Herre) 및 제이.디. 존스톤(J.D.Johnston)의 논문, "Enhancing the performance of perceptual audio coding by using temporal noise shaping(TNS)"(101st AES Convention, Los Angeles, 1996년 11월)].
64개의 채널을 가진 QMF 필터 뱅크와 640개의 샘플을 가진 전형적인 필터를 가정하면, QMF 부대역 표현의 시간 해상도는, 시간적 정형화가 ms 범위에서 윈도우 상에 시간 도메인에서 수행되는 경우보다 더 높지 않다는 것은 분명하다. 그 OMF 에 자연적으로 이용될 수 있는 것보다 더 높은 시간 해상도로 OMF 도메인에서 신호 를 정형화하는 방법의 하나는, 주파수 방향에서의 선형 예측을 수행하는 것이다. 따라서, 어떤 QMF 슬롯, 즉, 부대역 샘플 n에 대해 QMF 도메인에서 드라이 신호를 관찰하면, 다음의 관계식이 얻어진다.
Figure 112007064895531-pct00021
다음과 같은 관계식으로 나타내는 선형 예측기가 평가될 수 있다.
Figure 112007064895531-pct00022
여기서, An(Z)는 다음과 같은 다항식으로 나타낸다.
Figure 112007064895531-pct00023
이 다항식은, 자체 상관법 또는 공분산법을 이용하여 얻어진다. 전술한 시간 도메인에서의 LPC와는 달리, 여기에서 평가된 선형 예측기는 주파수 방향에서 복소 QMF 부대역 샘플을 예측하도록 구성되어 있다는 것을, 유의하여야 한다.
도 10은 QMF의 시간/주파수 행렬을 도시하고 있다. 각각의 열은 QMF 시간 슬롯, 즉, 부대역 샘플에 대응한다. 행들은 부대역들에 대응한다. 도 10에 도시한 바와 같이, 선형 예측기의 평가와 어플리케이션은 각각의 열에 대해 독립적으로 수행된다. 또한, 도 10에 도시된, 하나의 열은 처리되고 있는 하나의 프레임에 대응한다. 백색화 이득 곡선 gwet(m)과 gdry(m)이 평가되는 프레임의 크기도 도 10에 도시되어 있다. 예로서, 하나의 프레임의 크기, 12는 12개의 열이 동시에 처리되는 것을 의미한다.
전술한 본 발명에 따른 실시예에서는, 주파수 방향으로의 선형 예측은, 신호의 복소 QMF 표현으로 수행된다. 다시, 64개의 채널을 가진 QMF 필터 뱅크와 640개의 샘플을 가진 전형적인 필터를 가정하고, 예측기가 복소 신호에 대해 동작하는 것에 유의하면, 매우 낮은 차수의 복소 예측기가, 그 예측기가 적용되는 QMF 슬롯내의 신호의 시간적 엔벨로프를 추적하는 데에 충분하다. 바람직한 선택으로서, 예측기 차수는 1이다.
그 평가된 필터 Hn은 특정의 부대역 샘플에 대한 QMF 신호의 시간적 엔벨로프, 특히, 그 부대역 샘플을 관찰함으로써 가용하지 않은 시간적 엔벨로프에 대응한다(하나의 샘플만이 가용하기 때문이다). 서브-샘플 시간적 엔벨로프는, 다음과 같은 관계식에 따라 그 평가된 필터를 통해 주파수 방향으로 그 신호를 필터링함으로써 신호 Qwet 에 적용될 수 있다.
Figure 112007064895531-pct00024
여기서, m 은, 예측기 평가에 이용되고 시간적 정형화가 수행되는 QMF 슬롯 내지 부대역 샘플이다.
비상관기에 의해 생성된 웨트 신호가 매우 평활한 시간적 엔벨로프를 가질지라도, 그 드라이 신호에 적용하기 전에, 우선 그 웨트 신호에 대해 어떤 시간적 엔벨로프를 제거하는 것이 바람직하다. 이것은, 웨트 신호 일지라도, 전술한 바와 같이, 주파수 방향으로의 선형 예측을 이용하여 동일한 시간적 엔벨로프를 수행하고, 웨트 신호를 역 필터링하여 얻어진 필터를 이용하여, 드라이 신호의 시간적 엔 벨로프를 적용하기 전에 어떤 시간적 엔벨로프를 제거하는 것에 의해, 성취될 수 있다.
웨트 신호의 시간적 엔벨로프를 가능하면 더욱 일치시키기 위해서, 드라이 신호의 주파수 방향에서의 선형 예측기에 의한 시간적 엔벨로프의 평가가 가능하면 양호하게 수행되는 것이 중요하다. 본 발명은, 선형 예측에 의한 시간적 엔벨로프의 평가 이전에, 드라이 신호가 장기간 스펙트럼 평활화를 거치는 것을 하는 것을 개시하고 있다. 전술한 바와 같이 계산된 이득 곡선은 다음의 관계식으로 표현된다.
Figure 112007064895531-pct00025
따라서, 이 이득 곡선은, 다음의 관계식에 따라, 시간적 엔벨로프 평가에 이용된 드라이 신호에 적용되어야 한다.
Figure 112007064895531-pct00026
여기서, n은 QMF 슬롯을 나타내고, m은 부대역 지수를 나타낸다. 이 이득 보정 곡선이, 처리되고 있는 현재의 프레임내의 모든 부대역 샘플에 대해 동일하다는 것은 분명하다. 이는, 장기간 스펙트럼 엔벨로프를 제거하기 위해, 이 이득 곡선이 그 요구된 주파수 선택 이득 조절에 대응하기 때문에, 당연하다. 그 산출된 복소 QMF 표현 Qflat dry(m,n)은 전술한 바와 같은 선택 예측을 이용하는 시간적 엔벨로프 필터를 평가하는 데에 이용된다.
LPC 필터링에 의해 제공된 추가적인 시간 해상도는 과도 드라이 신호에 대한 웨트 신호를 정형화하는 것을 목적으로 한다. 하지만, LPC 평가에 대한 하나의 QMF 슬롯의 제한된 데이터 세트를 이용하기 때문에, 정밀한 시간적 정형화가 카오스적인 (chaotic) 패턴으로 적용될 위험은 여전히 있다. 과도 드라이 신호에 대한 성능을 유지하면서도 이러한 위험을 감소시키기 위해, LPC 평가는 몇 개의 시간 슬롯에 대해 원활하게 되도록 할 수 있다. 이러한 원활화는, 고립된 과도 현상에 대한 그 적용된 필터 뱅크 분석의 주파수 방향 공분산 구조의 시간에 따른 추이를 고려하여야 한다. 특히, 일차 예측이고, 총 오버샘플링 인자가 2인 기수적으로 (oddly) 적층된 복소 변조 필터 뱅크의 경우에, 본 발명에 개시된 원활화는 시간 슬롯에 이용된 예측 계수(an)에 대한 다음과 같은 변형을 포함한다.
Figure 112007064895531-pct00027
여기서, d≥1은 예측 블록의 시간 방향으로의 크기를 정의한다.
도 11은, 6개의 원시 채널을 다운믹스(602), 즉, 모노포닉으로 되거나 수개의 이산 채널 및 추가적인 공간 파라미터들(604)을 포함하는 다운믹스(602)로 다운믹싱하는 5.1 채널 인코더(600)을 가진, 5.1 입력 채널의 전송 시스템을 도시한다. 다운믹스(602)는, 공간 파라미터들(604)와 함께 오디오 디코더(610)에 전송된다.
디코더(610)는, 본 발명에 따른 비상관 신호들의 시간적 정형화를 포함하는, 다운믹스 신호(602)의 업믹싱을 수행하기 위해, 본 발명에 따른 비상관 신호를 처리하는 하나 이상의 장치를 가진다. 따라서, 이러한 전송 시스템에서, 디코더 측에 대한 본 발명에 따른 어플리케이션은, 재구성된 5.1 채널 신호의 지각적 품질의 향상을 가져온다.
본 발명에 따른 전술한 실시예들은, 본 발명의 원리 및 비상관 신호의 향상된 시간적 정형화를 위한 방법을 단지 예시적으로 설명한다. 따라서, 그 구성의 변형과 변경이 가능하다는 것은, 당해 기술 분야의 전문가라면 상세한 설명을 통해 분명하게 이해할 것이다. 따라서, 본 발명은 청구범위에 의해서만 제한되며, 실시예의 설명에 기재된 특정의 상세한 설명에 의해서는 제한되지 아니한다는 것이 의도된다. 또한, 본 발명은 2개의 채널 및 5.1 채널을 예로서 설명되어 있다는 것이 이해되어야 하고, 임의의 채널 구성에도 동일한 원리가 채용될 수 있고, 따라서 특정 개수의 입력 채널 및 출력 채널을 가진 특정의 채널 구성 내지 실시예에만 제한되지 아니한다는 것은 당해 기술 분야의 전문가라면 분명히 이해할 것이다. 본 발명은, 신호의 비상관 버전을 이용하는 어떠한 다중 채널 재구성에도 적용될 수 있고, 따라서 본 발명은 전술한 예시적 설명에 이용된 다중 채널 구성을 구현하는 특별한 방식에만 제한되지 아니하다는 것은 당해 기술 분야의 전문가라면 분명히 이해할 것이다.
요약하면, 본 발명은 기본적으로, 가용한 다운믹스 신호와 추가적인 제어 데이터에 기초하는 오디오 신호의 다중 채널 재구성에 관한 것이다. 공간 파라미터들이, 원시 채널들의 다운믹스에 주어진 다중 채널 특성을 표현하는 인코더 측에 대해서 추출된다. 이 다운믹스 신호와 공간적 표현은, 재구성된 채널과 동일한 비상관 버전과 다운믹스 신호의 결합을 분배함으로써, 그 원시 다중 채널 신호의 매우 유사한 표현을 재생성 하도록, 디코더에 이용된다. 본 발명은, 스테레오 디지 털 무선 전송(DAB, XM 위성 라디오 등)과 같은 후방 호환 다운믹스 신호를 원하는 시스템에 이용될 수 있고, 또한 다중 채널 신호의 매우 콤팩트한 표현을 요구하는 시스템에도 이용될 수 있다.
스펙트럼의 평활화는, 전술한 예시에서 LPC 분석에 의해 도출된 필터계수들에 기초하여 역 필터링에 의해 수행된다. 평활화된 스펙트럼을 가진 신호를 생성하는 다른 동작이 본 발명의 다른 실시예를 구현하는 데에 적절히 이용될 수 있다는 것은 이해될 것이다. 이러한 어플리케이션에 의해, 동일한 이점 및 특성을 가진 재구성된 신호를 구현하게 될 것이다.
다중 채널 오디오 디코더 내에, 본 발명의 적용되는 신호 경로의 위치는, 본 발명에 따른 비상관 신호를 처리하는 장치를 이용하여, 그 재구성된 오디오 신호의 지각적 품질을 향상시키는 본 발명의 개념과는 무관하다.
바람직한 실시예에서는, 웨트 신호의 고역 통과 필터링된 부분이 본 발명에 따라 엔벨로프 정형화되고 있지만, 본 발명은 전대역의(full) 스펙트럼을 가진 웨트 신호에도 또한 적용될 수 있다.
이득 보정을 장기간 스펙트럼 평활화 신호에 그리고 단지간 엔벨로프 정형화 이득 인자에 인가하는 데에 이용된 윈도우 함수는, 단지 예로서 제시되어 있다는 것이 이해되어야 한다. 처리될 신호의 이웃하는 세그멘트 간의 이득 함수의 원활한 전이를 가능하게 하는 데에 다른 윈도우 함수가 이용될 수도 있다는 것은 분명하다.
본 발명의 방법들의 구체적 실시 요구 사항에 따라서는, 본 발명의 방법은 하드웨어적 또는 소프트웨어적으로 구현될 수도 있다. 이러한 구현은, 전자적으로 판독가능한 제어 신호가 저장된, 디지털 저장 매체, 특히 디스크 또는 CD를 이용하여 수행될 수 있고, 본 발명의 방법이 수행되는 프로그램가능한 컴퓨터 시스템과 협동하여 실현될 수도 있다. 일반적으로, 본 발명은 또한, 컴퓨터 프로그램 제품이 컴퓨터에서 실행될 때, 기계 판독가능한 캐리어 상에 저장된 본 발명의 방법을 수행하기 위한 프로그램 코드가 포함하는 그 컴퓨터 프로그램 제품으로 포함한다. 다시 말하면, 본 발명의 방법들은, 컴퓨터 프로그램이 컴퓨터에서 실행될 때, 적어도 하나의 본 발명의 방법을 수행하기 위한 프로그램 코드를 가진 컴퓨터 프로그램으로 실행될 수도 있다.
이상 본 발명은 그 특정의 실시예를 참조하여 도시되고 설명되었지만, 본 발명의 사상 및 범위를 벗어나지 아니하고도 여러 가지 다른 형태로 변경될 수 있다는 것은 당해 기술 분야의 전문가에게 이해될 것이다. 본 발명의 다양한 변형이, 하기의 청구범위에 개시된 본 발명의 사상을 벗어나지 아니하고도, 서로 다른 실시예를 채용하여 이루어 질 수 있다는 것은 이해되어야 한다.

Claims (18)

  1. 원시 신호로부터 도출된 비상관 신호 또는 상기 원시 신호와 상기 비상관 신호를 결합함으로써 도출된 결합 신호를 처리하는 장치로서,
    제1 평활 신호를 얻기 위해 상기 비상관 신호, 상기 비상관 신호로부터 도출된 신호, 또는 상기 결합 신호의 스펙트럼 평활화를 수행하고, 제2 평활 신호를 얻기 위해 상기 원시 신호 또는 상기 원시 신호로부터 도출된 신호의 스펙트럼 평활화를 수행하는 스펙트럼 평활기, 상기 스펙트럼 평활기는 평활 신호가 평활화 전의 대응하는 신호보다 더 평활화된 스펙트럼을 가지도록 동작하는, 스펙트럼 평활기; 및
    상기 제1 및 제2 평활 신호의 정보를 이용하여 상기 비상관 신호 또는 상기 결합 신호에 대해 시간적 엔벨로프 정형화를 수행하는 시간적 엔벨로프 정형화기를 포함하는 장치.
  2. 제1항에 있어서,
    상기 시간적 엔벨로프 정형화기는, 이득 인자를 이용하여 상기 비상관 신호 또는 상기 결합 신호의 시간적 엔벨로프를 정형화하는 동작을 하는, 상기 장치.
  3. 제1항에 있어서,
    상기 시간적 엔벨로프 정형화기는, 상기 제1 평활 신호 및 상기 제2 평활 신호의 대응하는 부분들 내에 포함된 에너지들을 비교하여 도출된 이득 인자를 이용하여 상기 비상관 신호 또는 상기 결합 신호의 상기 시간적 엔벨로프를 정형화하도록 동작하는 것인, 상기 장치.
  4. 제1항에 있어서,
    상기 스펙트럼 평활기는, 상기 원시 신호로부터 상기 평활화된 마스터 신호를 도출하는 동작을 하는 것인, 상기 장치.
  5. 제1항에 있어서,
    상기 스펙트럼 평활기는, 상기 원시 신호로부터 도출된 상기 신호로부터 상기 평활화된 마스터 신호를 도출하는 동작을 하는, 상기 장치.
  6. 제1항에 있어서,
    상기 스펙트럼 평활기는, 상기 비상관 신호 또는 상기 결합 신호의 제1 부분을 평활화하는 동작을 하고,
    상기 시간적 엔벨로프 정형화기는, 상기 비상관 신호 또는 상기 결합 신호의 제2 부분을 정형화하는 동작을 하고, 상기 제2 부분은 상기 제1 부분에 포함되는, 상기 장치.
  7. 제6항에 있어서,
    상기 제1 부분의 크기는 상기 제2 부분의 크기의 10배 이상 큰, 상기 장치.
  8. 제1항에 있어서,
    상기 스펙트럼 평활기는, 선형 예측 코딩에 의해 도출된 필터 계수들을 이용하는 필터링에 의해 상기 스펙트럼을 평활화하는 동작을 하는, 상기 장치.
  9. 제8항에 있어서,
    상기 스펙트럼 평활기는, 시간 방향으로의 선형 예측을 이용하여 도출된 필터링 계수들을 이용하는 필터링에 의해 상기 스펙트럼을 평활화하는, 상기 장치.
  10. 제1항에 있어서,
    상기 스펙트럼 평활기는, 시간 도메인내의 신호의 스펙트럼-평활화된 표현을 얻는 동작을 하는, 상기 장치.
  11. 제1항에 있어서,
    상기 스펙트럼 평활기는, 부대역 도메인내의 신호의 스펙트럼-평활화된 표현을 얻는 동작을 하는, 상기 장치.
  12. 제1항에 있어서,
    상기 스펙트럼 평활기 및 상기 시간적 엔벨로프 정형화기는, 주어진 주파수 임계값을 넘는 전대역(full) 스펙트럼 비상관 신호의 모든 주파수를 처리하는 동작을 하는, 상기 장치.
  13. 원시 신호로부터 도출된 비상관 신호 또는 상기 원시 신호와 상기 비상관 신호를 결합함으로써 도출된 결합 신호를 처리하는 방법으로서,
    제1 평활 신호를 얻기 위해 상기 비상관 신호, 상기 비상관 신호로부터 도출된 신호 또는 상기 결합 신호를 스펙트럼 평활화하고, 제2 평활 신호를 얻기 위해 상기 원시 신호 또는 상기 원시 신호로부터 도출된 신호를 스펙트럼 평활화하는 단계, 평활 신호는 평활화 전의 대응하는 신호보다 더 평활화된 스펙트럼을 가지는, 스펙트럼 평활화 단계; 및
    상기 제1 및 제2 평활 신호의 정보를 이용하여 상기 비상관 신호 또는 상기 결합 신호에 대해 시간적 엔벨로프 정형화하는 단계를 포함하는 방법.
  14. 적어도 2개의 채널을 가진 다중 채널 신호로부터 도출된 원시 신호를 수신하고, 상기 다중 채널 신호의 제1 채널과 제2 채널의 상호관계를 기술하는 공간 파라미터들을 수신하는 입력 인터페이스;
    상기 공간 파라미터들을 이용하여 상기 원시 신호로부터 비상관 신호를 도출하는 비상관기;
    제1 평활 신호를 얻기 위해 상기 비상관 신호, 상기 비상관 신호로부터 도출된 신호 또는 상기 원시 신호와 상기 비상관 신호를 결합함으로써 도출된 결합 신호의 스펙트럼 평활화를 수행하고, 제2 평활 신호를 얻기 위해 상기 원시 신호 또는상기 원시 신호로부터 도출된 신호의 스펙트럼 평활화를 수행하는 스펙트럼 평활기, 상기 스펙트럼 평활기는 평활 신호가 평활화 전의 대응하는 신호보다 더 평활화된 스펙트럼을 가지도록 동작하는, 스펙트럼 평활기; 및
    상기 제1 및 제2 평활 신호의 정보를 이용하여 상기 비상관 신호 또는 상기 결합 신호에 대해 시간적 엔벨로프 정형화를 수행하는 시간적 엔벨로프 정형화기를 포함하는 공간적 오디오 디코더.
  15. 제1항에 따른 비상관 신호를 처리하는 장치를 가진, 수신기 또는 오디오 재생기.
  16. 제13항에 따른 비상관 신호를 처리하는 방법을 가진, 수신 방법 또는 오디오 재생 방법.
  17. 컴퓨터에서 실행될 때, 제13항 또는 제16항에 따른 방법을 수행하는 컴퓨터 프로그램이 저장된 컴퓨터-판독형 저장매체.
  18. 삭제
KR1020077020406A 2005-04-15 2006-04-05 비상관 신호의 시간적 엔벨로프 정형화 KR100933548B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US67158305P 2005-04-15 2005-04-15
US60/671,583 2005-04-15
PCT/EP2006/003097 WO2006108543A1 (en) 2005-04-15 2006-04-05 Temporal envelope shaping of decorrelated signal

Publications (2)

Publication Number Publication Date
KR20070102738A KR20070102738A (ko) 2007-10-19
KR100933548B1 true KR100933548B1 (ko) 2009-12-23

Family

ID=36636920

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077020406A KR100933548B1 (ko) 2005-04-15 2006-04-05 비상관 신호의 시간적 엔벨로프 정형화

Country Status (11)

Country Link
US (1) US7983424B2 (ko)
EP (1) EP1829424B1 (ko)
JP (1) JP4804532B2 (ko)
KR (1) KR100933548B1 (ko)
CN (2) CN101138274B (ko)
AT (1) ATE421845T1 (ko)
DE (1) DE602006004959D1 (ko)
HK (2) HK1118168A1 (ko)
MY (1) MY144377A (ko)
TW (1) TWI338446B (ko)
WO (1) WO2006108543A1 (ko)

Families Citing this family (76)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20070065401A (ko) * 2004-09-23 2007-06-22 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 데이터를 처리하는 시스템 및 방법, 프로그램구성요소, 및 컴퓨터-판독가능 매체
CN101138274B (zh) * 2005-04-15 2011-07-06 杜比国际公司 用于处理去相干信号或组合信号的设备和方法
JP4988716B2 (ja) 2005-05-26 2012-08-01 エルジー エレクトロニクス インコーポレイティド オーディオ信号のデコーディング方法及び装置
WO2006126844A2 (en) * 2005-05-26 2006-11-30 Lg Electronics Inc. Method and apparatus for decoding an audio signal
US8082157B2 (en) * 2005-06-30 2011-12-20 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
AU2006266655B2 (en) * 2005-06-30 2009-08-20 Lg Electronics Inc. Apparatus for encoding and decoding audio signal and method thereof
US8626503B2 (en) * 2005-07-14 2014-01-07 Erik Gosuinus Petrus Schuijers Audio encoding and decoding
CN101248483B (zh) * 2005-07-19 2011-11-23 皇家飞利浦电子股份有限公司 多声道音频信号的生成
US8577483B2 (en) * 2005-08-30 2013-11-05 Lg Electronics, Inc. Method for decoding an audio signal
JP5173811B2 (ja) * 2005-08-30 2013-04-03 エルジー エレクトロニクス インコーポレイティド オーディオ信号デコーディング方法及びその装置
US7788107B2 (en) * 2005-08-30 2010-08-31 Lg Electronics Inc. Method for decoding an audio signal
US8396717B2 (en) * 2005-09-30 2013-03-12 Panasonic Corporation Speech encoding apparatus and speech encoding method
KR101218776B1 (ko) 2006-01-11 2013-01-18 삼성전자주식회사 다운믹스된 신호로부터 멀티채널 신호 생성방법 및 그 기록매체
TWI329462B (en) * 2006-01-19 2010-08-21 Lg Electronics Inc Method and apparatus for processing a media signal
JP5054035B2 (ja) * 2006-02-07 2012-10-24 エルジー エレクトロニクス インコーポレイティド 符号化/復号化装置及び方法
KR100773562B1 (ko) 2006-03-06 2007-11-07 삼성전자주식회사 스테레오 신호 생성 방법 및 장치
DE602006021347D1 (de) * 2006-03-28 2011-05-26 Fraunhofer Ges Forschung Verbessertes verfahren zur signalformung bei der mehrkanal-audiorekonstruktion
US8571875B2 (en) 2006-10-18 2013-10-29 Samsung Electronics Co., Ltd. Method, medium, and apparatus encoding and/or decoding multichannel audio signals
DE102007018032B4 (de) * 2007-04-17 2010-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Erzeugung dekorrelierter Signale
ES2452348T3 (es) 2007-04-26 2014-04-01 Dolby International Ab Aparato y procedimiento para sintetizar una señal de salida
US8180062B2 (en) 2007-05-30 2012-05-15 Nokia Corporation Spatial sound zooming
KR101464977B1 (ko) * 2007-10-01 2014-11-25 삼성전자주식회사 메모리 관리 방법, 및 멀티 채널 데이터의 복호화 방법 및장치
JP5243556B2 (ja) 2008-01-01 2013-07-24 エルジー エレクトロニクス インコーポレイティド オーディオ信号の処理方法及び装置
AU2008344132B2 (en) * 2008-01-01 2012-07-19 Lg Electronics Inc. A method and an apparatus for processing an audio signal
JP4921611B2 (ja) * 2009-04-03 2012-04-25 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
AU2012204119B2 (en) * 2009-04-03 2014-04-03 Ntt Docomo, Inc. Speech encoding device, speech decoding device, speech encoding method, speech decoding method, speech encoding program, and speech decoding program
JP4932917B2 (ja) 2009-04-03 2012-05-16 株式会社エヌ・ティ・ティ・ドコモ 音声復号装置、音声復号方法、及び音声復号プログラム
US20120045065A1 (en) * 2009-04-17 2012-02-23 Pioneer Corporation Surround signal generating device, surround signal generating method and surround signal generating program
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
PL2491551T3 (pl) * 2009-10-20 2015-06-30 Fraunhofer Ges Forschung Urządzenie do dostarczania reprezentacji sygnału upmixu w oparciu o reprezentację sygnału downmixu, urządzenie do dostarczania strumienia bitów reprezentującego wielokanałowy sygnał audio, sposoby, program komputerowy i strumień bitów wykorzystujący sygnalizację sterowania zniekształceniami
AU2010321013B2 (en) 2009-11-20 2014-05-29 Dolby International Ab Apparatus for providing an upmix signal representation on the basis of the downmix signal representation, apparatus for providing a bitstream representing a multi-channel audio signal, methods, computer programs and bitstream representing a multi-channel audio signal using a linear combination parameter
US8718290B2 (en) 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
EP2362375A1 (en) * 2010-02-26 2011-08-31 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Apparatus and method for modifying an audio signal using harmonic locking
PL2545551T3 (pl) 2010-03-09 2018-03-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Poprawiona charakterystyka amplitudowa i zrównanie czasowe w powiększaniu szerokości pasma na bazie wokodera fazowego dla sygnałów audio
KR101412117B1 (ko) 2010-03-09 2014-06-26 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 재생 속도 또는 피치를 변경할 때 오디오 신호에서 과도 사운드 이벤트를 처리하기 위한 장치 및 방법
ES2522171T3 (es) 2010-03-09 2014-11-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para procesar una señal de audio usando alineación de borde de patching
CA3097372C (en) 2010-04-09 2021-11-30 Dolby International Ab Mdct-based complex prediction stereo coding
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
US8793126B2 (en) 2010-04-14 2014-07-29 Huawei Technologies Co., Ltd. Time/frequency two dimension post-processing
US9378754B1 (en) 2010-04-28 2016-06-28 Knowles Electronics, Llc Adaptive spatial classifier for multi-microphone systems
WO2012009851A1 (en) 2010-07-20 2012-01-26 Huawei Technologies Co., Ltd. Audio signal synthesizer
JP6075743B2 (ja) 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
TWI516138B (zh) 2010-08-24 2016-01-01 杜比國際公司 從二聲道音頻訊號決定參數式立體聲參數之系統與方法及其電腦程式產品
US8908874B2 (en) * 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
AU2012218409B2 (en) * 2011-02-18 2016-09-15 Ntt Docomo, Inc. Speech decoder, speech encoder, speech decoding method, speech encoding method, speech decoding program, and speech encoding program
EP2707873B1 (en) * 2011-05-09 2015-04-08 Dolby International AB Method and encoder for processing a digital stereo audio signal
EP2817802B1 (en) * 2012-02-24 2016-12-07 Dolby International AB Audio processing
US20130282372A1 (en) * 2012-04-23 2013-10-24 Qualcomm Incorporated Systems and methods for audio signal processing
JP5997592B2 (ja) * 2012-04-27 2016-09-28 株式会社Nttドコモ 音声復号装置
EP2743922A1 (en) 2012-12-12 2014-06-18 Thomson Licensing Method and apparatus for compressing and decompressing a higher order ambisonics representation for a sound field
US9294855B2 (en) * 2013-01-02 2016-03-22 Samsung Electronics Co., Ltd. Apparatus and method for processing audio signal
WO2014168777A1 (en) * 2013-04-10 2014-10-16 Dolby Laboratories Licensing Corporation Speech dereverberation methods, devices and systems
JP6224827B2 (ja) 2013-06-10 2017-11-01 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 分配量子化及び符号化を使用した累積和表現のモデル化によるオーディオ信号包絡符号化、処理及び復号化の装置と方法
JP6224233B2 (ja) 2013-06-10 2017-11-01 フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン 分配量子化及び符号化を使用したオーディオ信号包絡の分割によるオーディオ信号包絡符号化、処理及び復号化の装置と方法
EP2830061A1 (en) 2013-07-22 2015-01-28 Fraunhofer Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding and decoding an encoded audio signal using temporal noise/patch shaping
JP6242489B2 (ja) * 2013-07-29 2017-12-06 ドルビー ラボラトリーズ ライセンシング コーポレイション 脱相関器における過渡信号についての時間的アーチファクトを軽減するシステムおよび方法
JP6531649B2 (ja) 2013-09-19 2019-06-19 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム
KR20230011480A (ko) 2013-10-21 2023-01-20 돌비 인터네셔널 에이비 오디오 신호들의 파라메트릭 재구성
EP2866227A1 (en) 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
CN105706166B (zh) * 2013-10-31 2020-07-14 弗劳恩霍夫应用研究促进协会 对比特流进行解码的音频解码器设备和方法
EP4407609A3 (en) * 2013-12-02 2024-08-21 Top Quality Telephony, Llc A computer-readable storage medium and a computer software product
JP6593173B2 (ja) 2013-12-27 2019-10-23 ソニー株式会社 復号化装置および方法、並びにプログラム
JP6035270B2 (ja) * 2014-03-24 2016-11-30 株式会社Nttドコモ 音声復号装置、音声符号化装置、音声復号方法、音声符号化方法、音声復号プログラム、および音声符号化プログラム
ES2738723T3 (es) * 2014-05-01 2020-01-24 Nippon Telegraph & Telephone Dispositivo de generación de secuencia envolvente combinada periódica, método de generación de secuencia envolvente combinada periódica, programa de generación de secuencia envolvente combinada periódica y soporte de registro
WO2015173423A1 (en) * 2014-05-16 2015-11-19 Stormingswiss Sàrl Upmixing of audio signals with exact time delays
US9583115B2 (en) * 2014-06-26 2017-02-28 Qualcomm Incorporated Temporal gain adjustment based on high-band signal characteristic
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
TWI587286B (zh) 2014-10-31 2017-06-11 杜比國際公司 音頻訊號之解碼和編碼的方法及系統、電腦程式產品、與電腦可讀取媒體
WO2016066743A1 (en) * 2014-10-31 2016-05-06 Dolby International Ab Parametric encoding and decoding of multichannel audio signals
CA2985019C (en) 2016-02-17 2022-05-03 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Post-processor, pre-processor, audio encoder, audio decoder and related methods for enhancing transient processing
JP6846822B2 (ja) * 2016-04-27 2021-03-24 国立大学法人富山大学 オーディオ信号処理装置、オーディオ信号処理方法、およびオーディオ信号処理プログラム
US9820073B1 (en) 2017-05-10 2017-11-14 Tls Corp. Extracting a common signal from multiple audio signals
CN109841223B (zh) * 2019-03-06 2020-11-24 深圳大学 一种音频信号处理方法、智能终端及存储介质
KR20220042165A (ko) * 2019-08-01 2022-04-04 돌비 레버러토리즈 라이쎈싱 코오포레이션 공분산 평활화를 위한 시스템 및 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0797324A2 (en) 1996-03-22 1997-09-24 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
WO2004086817A2 (en) 2003-03-24 2004-10-07 Koninklijke Philips Electronics N.V. Coding of main and side signal representing a multichannel signal

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5822360A (en) * 1995-09-06 1998-10-13 Solana Technology Development Corporation Method and apparatus for transporting auxiliary data in audio signals
US5890125A (en) * 1997-07-16 1999-03-30 Dolby Laboratories Licensing Corporation Method and apparatus for encoding and decoding multiple audio channels at low bit rates using adaptive selection of encoding method
SE9903553D0 (sv) * 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
US6175631B1 (en) * 1999-07-09 2001-01-16 Stephen A. Davis Method and apparatus for decorrelating audio signals
EP1158494B1 (en) 2000-05-26 2002-05-29 Lucent Technologies Inc. Method and apparatus for performing audio coding and decoding by interleaving smoothed critical band evelopes at higher frequencies
US8782254B2 (en) * 2001-06-28 2014-07-15 Oracle America, Inc. Differentiated quality of service context assignment and propagation
JP2004072507A (ja) * 2002-08-07 2004-03-04 Rohm Co Ltd ステレオ信号処理用ノイズシェーパ
CN100507485C (zh) * 2003-10-23 2009-07-01 松下电器产业株式会社 频谱编码装置和频谱解码装置
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
CN101138274B (zh) * 2005-04-15 2011-07-06 杜比国际公司 用于处理去相干信号或组合信号的设备和方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0797324A2 (en) 1996-03-22 1997-09-24 Lucent Technologies Inc. Enhanced joint stereo coding method using temporal envelope shaping
US20030187663A1 (en) 2002-03-28 2003-10-02 Truman Michael Mead Broadband frequency translation for high frequency regeneration
WO2004086817A2 (en) 2003-03-24 2004-10-07 Koninklijke Philips Electronics N.V. Coding of main and side signal representing a multichannel signal

Also Published As

Publication number Publication date
CN101138274A (zh) 2008-03-05
TWI338446B (en) 2011-03-01
HK1118168A1 (en) 2009-01-30
EP1829424A1 (en) 2007-09-05
MY144377A (en) 2011-09-15
US20060239473A1 (en) 2006-10-26
WO2006108543A1 (en) 2006-10-19
JP2008536183A (ja) 2008-09-04
CN102163429B (zh) 2013-04-10
KR20070102738A (ko) 2007-10-19
TW200705804A (en) 2007-02-01
US7983424B2 (en) 2011-07-19
HK1160980A1 (en) 2012-08-17
CN102163429A (zh) 2011-08-24
WO2006108543A9 (en) 2007-09-13
EP1829424B1 (en) 2009-01-21
DE602006004959D1 (de) 2009-03-12
ATE421845T1 (de) 2009-02-15
JP4804532B2 (ja) 2011-11-02
CN101138274B (zh) 2011-07-06

Similar Documents

Publication Publication Date Title
KR100933548B1 (ko) 비상관 신호의 시간적 엔벨로프 정형화
EP1738356B1 (en) Apparatus and method for generating multi-channel synthesizer control signal and apparatus and method for multi-channel synthesizing
Herre et al. The reference model architecture for MPEG spatial audio coding
RU2329548C2 (ru) Устройство и способ создания многоканального выходного сигнала или формирования низведенного сигнала
EP1649723B1 (en) Multi-channel synthesizer and method for generating a multi-channel output signal
KR101104578B1 (ko) 비상관기, 그 비상관기를 이용하는 오디오 디코더, 오디오 입력신호에 근거한 출력신호의 발생방법 및 기록매체
US8081764B2 (en) Audio decoder
KR101001835B1 (ko) 멀티 채널 오디오 재구성에서 신호 셰이핑을 위한 개선 방법
CA2610430C (en) Channel reconfiguration with side information
US8553895B2 (en) Device and method for generating an encoded stereo signal of an audio piece or audio datastream
JP7009437B2 (ja) マルチチャネル・オーディオ信号のパラメトリック・エンコードおよびデコード
KR102482162B1 (ko) 오디오 인코더 및 디코더

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121130

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20131128

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20141201

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20151130

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20161130

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20171129

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20181128

Year of fee payment: 10