KR20180042392A - 오디오 디코더 및 디코딩 방법 - Google Patents

오디오 디코더 및 디코딩 방법 Download PDF

Info

Publication number
KR20180042392A
KR20180042392A KR1020187008298A KR20187008298A KR20180042392A KR 20180042392 A KR20180042392 A KR 20180042392A KR 1020187008298 A KR1020187008298 A KR 1020187008298A KR 20187008298 A KR20187008298 A KR 20187008298A KR 20180042392 A KR20180042392 A KR 20180042392A
Authority
KR
South Korea
Prior art keywords
audio
parameters
low frequency
frequency components
base signals
Prior art date
Application number
KR1020187008298A
Other languages
English (en)
Other versions
KR102517867B1 (ko
Inventor
더크 제로엔 브리바트
데이비드 매튜 쿠퍼
레이프 요나스 사무엘손
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
돌비 인터네셔널 에이비
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션, 돌비 인터네셔널 에이비 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority to KR1020237011008A priority Critical patent/KR20230048461A/ko
Publication of KR20180042392A publication Critical patent/KR20180042392A/ko
Application granted granted Critical
Publication of KR102517867B1 publication Critical patent/KR102517867B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2460/00Details of hearing devices, i.e. of ear- or headphones covered by H04R1/10 or H04R5/033 but not provided for in any of their subgroups, or of hearing aids covered by H04R25/00 but not provided for in any of its subgroups
    • H04R2460/03Aspects of the reduction of energy consumption in hearing devices
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Reduction Or Emphasis Of Bandwidth Of Signals (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

오디오 채널들 또는 객체들의 제2 제시를 데이터 스트림으로 표현하는 방법으로서, 방법은 (a) 한 세트의 베이스 신호들을 제공하는 단계 - 베이스 신호들은 오디오 채널들 또는 객체들의 제1 제시를 표현함 -; (b) 한 세트의 변환 파라미터들을 제공하는 단계 - 변환 파라미터들은 제1 제시를 제2 제시로 변환하도록 의도되고; 변환 파라미터들은 적어도 2개의 주파수 대역에 대해 추가로 지정되고 주파수 대역들 중 적어도 하나에 대한 한 세트의 다중 탭 컨볼루션 행렬 파라미터들을 포함함 - 를 포함한다.

Description

오디오 디코더 및 디코딩 방법
관련 출원에 대한 상호 참조
본 출원은 2015년 8월 25일에 출원된 미국 가출원 제62/209,742호 및 2015년 10월 8일에 출원된 유럽 특허 출원 제15189008.4호의 이득을 주장하며, 그것의 각각은 전체적으로 참조로 이로써 포함된다.
기술분야
본 발명은 신호 처리의 분야에 관한 것으로, 특히, 공간화 성분들을 갖는 오디오 신호들의 효율적 송신을 위한 시스템을 개시한다.
명세서 도처에서 배경 기술의 임의의 논의는 그러한 기술이 널리 공지되거나 분야에서 공통적 일반 지식의 일부를 형성한다는 허가로 결코 간주되지 않아야 한다.
오디오의 콘텐츠 생성, 코딩, 분배 및 재현은 채널 기반 포맷으로 전통적으로 수행되며, 즉, 하나의 구체적 타겟 재생 시스템은 콘텐츠 에코시스템 도처에서 콘텐츠를 위해 구상된다. 그러한 타겟 재생 시스템 오디오 포맷들의 예들은 모노, 스테레오, 5.1, 7.1 등이다.
콘텐츠가 의도된 것과 상이한 재생 시스템 상에 재현되면, 다운믹싱 또는 업믹싱 프로세스가 적용될 수 있다. 예를 들어, 5.1 콘텐츠는 구체적 다운믹스 방정식들을 이용함으로써 스테레오 재생 시스템을 통해 재현될 수 있다. 다른 예는 7.1 스피커 셋업을 통한 스테레오 인코딩 콘텐츠의 재생이며, 그것은 소위 업믹싱 프로세스를 포함할 수 있으며, 이 프로세스는 스테레오 신호에 존재하는 정보에 의해 가이드될 수 있거나 가이드될 수 없다. 업믹싱이 가능한 시스템은 Dolby Laboratories Inc로부터의 돌비 프로 로직(Dolby Pro Logic)이다(Roger Dressler, "Dolby Pro Logic Surround Decoder, Principles of Operation", www.Dolby.com).
스테레오 또는 다중 채널 콘텐츠가 헤드폰들을 통해 재현될 때, 헤드 관련 임펄스 응답들(head-related impulse responses)(HRIRs), 또는 바이너럴 룸 임펄스 응답들(binaural room impulse responses)(BRIRs)에 의해 다중 채널 스피커 셋업을 시뮬레이션하는 것이 종종 바람직하며, 그들은 무반향 또는 반향(시뮬레이션된) 환경 각각에서, 음향 경로를 각각의 확성기로부터 고막들로 시뮬레이션한다. 특히, 오디오 신호들은 청취자가 각각의 개별 채널의 위치를 결정하는 것을 허용하는 바이너럴 간 레벨 차이들(inter-aural level differences)(ILDs), 바이너럴 간 시간 차이들(inter-aural time differences)(ITDs) 및 스펙트럼 큐들(spectral cues)을 복귀시키기 위해 HRIR들 또는 BRIR들과 컨볼빙(convolving)된다. 음향 환경(잔향)의 시뮬레이션은 또한 특정 지각된 거리를 달성하는 것을 돕는다.
음원 국부화 및 가상 스피커 시뮬레이션
스테레오, 다중 채널 또는 객체 기반 콘텐츠가 헤드폰들을 통해 재현될 때, 헤드 관련 임펄스 응답들(HRIRs), 또는 바이너럴 룸 임펄스 응답들(BRIRs)과의 컨볼루션에 의해 다중 채널 스피커 셋업 또는 한 세트의 별개 가상 음향 객체들을 시뮬레이션하는 것이 종종 바람직하며, 그들은 무반향 또는 반향(시뮬레이션된) 환경 각각에서, 음향 경로를 각각의 확성기로부터 고막들로 시뮬레이션한다.
특히, 오디오 신호들은 청취자가 각각의 개별 채널 또는 객체의 위치를 결정하는 것을 허용하는 바이너럴 간 레벨 차이들(ILDs), 바이너럴 간 시간 차이들(ITDs) 및 스펙트럼 큐들을 복귀시키기 위해 HRIR들 또는 BRIR들과 컨볼빙된다. 음향 환경(이른 반사들 및 늦은 잔향)의 시뮬레이션은 특정 지각된 거리를 달성하는 것을 돕는다.
도 1을 참조하면, 4 HRIR(예를 들어, 14)에 의한 처리를 위한 콘텐츠 저장소(12)에서 판독되는, 2개의 객체 또는 채널 신호(xi)(13, 11)를 렌더링하는 처리 흐름에 대한 개략적 개요인 10이 예시된다. 그 다음, HRIR 출력들은 재생을 위한 헤드폰 스피커 출력들을 헤드폰들(18)을 통해 청취자에게 생성하기 위해, 각각의 채널 신호에 대해 합산된다(15, 16). HRIR들의 기본 원리는 예를 들어, Wightman 등(1989)에 설명된다.
HRIR/BRIR 컨볼루션 접근법은 수개의 결점들과 함께 오며, 그들 중 하나는 헤드폰 재생을 위해 요구되는 처리의 실질적 양이다. HRIR 또는 BRIR 컨볼루션은 모든 입력 객체 또는 채널에 개별적으로 적용될 필요가 있고, 따라서 복잡도는 전형적으로 채널들 또는 객체들의 수에 따라 선형적으로 증가한다. 헤드폰들이 전형적으로 배터리 구동 휴대용 디바이스들과 함께 사용됨에 따라, 높은 계산 복잡도는 배터리 수명을 실질적으로 단축하므로 바람직하지 않다. 더욱이, 동시에 활성인 100보다 많은 객체들로 구성될 수 있는 객체 기반 오디오 콘텐츠의 도입에 따라, HRIR 컨볼루션의 복잡도는 종래의 채널 기반 콘텐츠에 대한 것보다 실질적으로 더 높을 수 있다.
파라메트릭 코딩 기술들
계산 복잡도는 콘텐츠 편집지원(authoring), 분배 및 재현을 수반하는 에코시스템 내에서 채널 또는 객체 기반 콘텐츠의 전달을 위한 유일한 문제는 아니다. 많은 실제 상황들에서, 그리고 특히 이동 애플리케이션들에 대해, 콘텐츠 전달에 이용가능한 데이터 속도는 심하게 제약된다. 소비자들, 방송인들 및 콘텐츠 제공자들은 48 및 192 kbits/s 사이의 전형적 비트 속도들을 갖는 손실 지각 오디오 코덱들을 사용하여 스테레오(2-채널) 오디오 콘텐츠를 전달하고 있었다. MPEG-1 계층 3(Brandenberg 등, 1994), MPEG AAC(Bosi 등, 1997) 및 돌비 디지털(Andersen 등, 2004)과 같은 이러한 종래의 채널 기반 오디오 코덱들은 채널들의 수에 따라 거의 선형으로 스케일링되는 비트 속도를 갖는다. 그 결과, 수십 또는 심지어 수백의 객체들의 전달은 소비자 전달 목적들을 위해 비실제적이거나 심지어 이용가능하지 않은 비트 속도들을 야기한다.
종래의 지각 오디오 코덱들을 사용하여 스테레오 콘텐츠 전달을 위해 요구되는 비트 속도와 비교가능한 비트 속도들에서 복합 객체 기반 콘텐츠의 전달을 허용하기 위해, 소위 파라메트릭 방법들은 지난 10년 동안 연구 및 개발을 겪게 되었다. 이러한 파라메트릭 방법들 비교적 낮은 수의 베이스 신호들로부터 큰 수의 채널들 또는 객체들의 재구성을 허용한다. 이러한 베이스 신호들은 원래 객체들 또는 채널들의 재구성을 허용하기 위해 부가(파라메트릭) 정보로 증대되는, 종래의 오디오 코덱들을 사용하여 송신기로부터 수신기로 전달될 수 있다. 그러한 기술들의 예들은 파라메트릭 스테레오(Schuijers 등, 2004), MPEG 서라운드(Herre 등, 2008), 및 MPEG 공간 오디오 객체 코딩(Herre 등, 2012)이다.
파라메트릭 스테레오 및 MPEG 서라운드와 같은 기술들의 중요한 양태는 이러한 방법들이 단일의, 미리 결정된 제시의 파라메트릭 재구성(예를 들어, 파라메트릭 스테레오에서의 스테레오 확성기들, 및 MPEG 서라운드에서의 5.1 확성기들)을 목표로 하는 것이다. MPEG 서라운드의 경우에, 헤드폰 버추얼라이저는 헤드폰들을 위한 가상 5.1 확성기 셋업을 발생시키는 디코더에 통합될 수 있으며, 가상 5.1 스피커들은 확성기 재생을 위한 5.1 확성기 셋업에 대응한다. 따라서, 이러한 제시들은 헤드폰 제시가 동일한(가상) 확성기 레이아웃을 확성기 제시로 표현한다는 점에서 독립적이지 않다. 다른 한편, MPEG 공간 오디오 객체 코딩은 후속 렌더링을 필요로 하는 객체들의 재구성을 목표로 한다.
이제 도 2를 참조하면, 채널들 및 객체들을 지원하는 파라메트릭 시스템(20)이 개요로 설명될 것이다. 시스템은 인코더(21) 및 디코더(22) 부분들로 분할된다. 인코더(21)는 채널들 및 객체들(23)을 입력들로 수신하고, 제한된 수의 베이스 신호들과 다운 믹스(24)를 발생시킨다. 부가적으로, 일련의 객체/채널 재구성 파라미터들(25)이 계산된다. 신호 인코더(26)는 다운믹서(24)로부터 베이스 신호들을 인코딩하고, 계산된 파라미터들(25)뿐만 아니라, 객체들이 결과적 비트 스트림에 어떻게 렌더링되어야 하는지를 표시하는 객체 메타데이터(27)를 포함한다.
디코더(22)가 우선 베이스 신호들을 디코딩한 후에(29), 송신된 재구성 파라미터들(31)의 도움으로 채널 및/또는 객체 재구성(30)이 이어진다. 결과적 신호들은 (이들이 채널들이면) 직접 재현될 수 있거나 (이들이 객체들이면) 렌더링될 수 있다(32). 후자에 대해, 각각 재구성된 객체 신호는 그것의 연관된 객체 메타데이터(33)에 따라 렌더링된다. 그러한 메타데이터의 일 예는 위치 벡터(예를 들어 3차원 좌표 시스템에서의 객체의 x, y, 및 z 좌표)이다.
디코더 행렬화
객체 및/또는 채널 재구성(30)은 시간 및 주파수 가변 행렬 연산들에 의해 달성될 수 있다. 디코딩된 베이스 신호들(35)은 s가 베이스 신호 인덱스이고, n이 샘플 인덱스인 zs[n]에 의해 표시되면, 제1 단계는 전형적으로 변환 또는 필터 뱅크에 의해 베이스 신호들의 변환을 포함한다.
매우 다양한 변환들 및 필터 뱅크들, 예컨대 이산 푸리에 변환(Discrete Fourier Transform)(DFT), 수정된 이산 코사인 변환(Modified Discrete Cosine Transform)(MDCT), 또는 직교 미러 필터(Quadrature Mirror Filter)(QMF) 뱅크가 사용될 수 있다. 그러한 변환 또는 필터 뱅크의 출력은 Zs[k, b]에 의해 표시되며 b는 부대역 또는 스펙트럼 인덱스이고, k는 프레임, 슬롯 또는 부대역 시간 또는 샘플 인덱스이다.
대부분의 경우들에서, 부대역들 또는 스펙트럼 인덱스들은 공통 객체/채널 재구성 파라미터들을 공유하는 더 작은 세트의 파라미터 대역들(p)에 매핑된다. 이것은
Figure pct00001
에 의해 표시될 수 있다. 다시 말해, B(p)는 파라미터 대역 인덱스(p)에 속하는 한 세트의 연속 부대역들(b)을 표현한다. 역으로, p(b)는 부대역(b)이 매핑되는 파라미터 대역 인덱스(p)를 언급한다. 그 다음, 부대역 또는 변환 도메인 재구성 채널들 또는 객체들(
Figure pct00002
)은 신호들(Zi)을 행렬들(M[p(b)])과 행렬화함으로써 획득된다:
Figure pct00003
그 후에, 시간 도메인 재구성 채널 및/또는 객체 신호들(yj[n])은 역 변환, 또는 합성 필터 뱅크에 의해 획득된다.
상기 프로세스는 전형적으로 부대역 샘플들, 슬롯들 또는 프레임들(k)의 특정한 제한 범위에 적용된다. 다시 말해, 행렬들(M[p(b)])은 전형적으로 시간에 따라 갱신/수정된다. 표기의 단순화를 위해, 이러한 갱신들은 여기서 표시되지 않는다. 그러나, 행렬(M[p(b)])과 연관되는 한 세트의 샘플들(k)의 처리가 시간 변화 프로세스일 수 있는 것이 고려된다.
재구성된 신호들(J)의 수가 베이스 신호들(S)의 수보다 상당히 더 큰 일부 경우들에서, 재구성된 출력 신호들에 포함될 수 있는 하나 이상의 베이스 신호를 조작하는 임의적 역상관기 출력들(Dm[k, b])을 사용하는 것이 종종 도움이 된다:
Figure pct00004
도 3은 도 2의 채널 또는 객체 재구성 유닛(30)의 하나의 형태를 더 상세히 개략적으로 예시한다. 입력 신호들(35)이 우선 분석 필터 뱅크들(41)에 의해 처리된 후에, 임의적 역상관(D1, D2)(44) 및 행렬화(42), 및 합성 필터 뱅크(43)가 이어진다. 행렬(M[p(b)]) 조작은 재구성 파라미터들(31)에 의해 제어된다.
객체/채널 재구성을 위한 최소 평균 제곱 에러(Minimum mean square error)(MMSE) 예측
상이한 전략들 및 방법들이 한 세트의 베이스 신호들(Zs[k, b])로부터 객체들 또는 채널들을 재구성하기 위해 존재하지만, 하나의 특정 방법은 원하고 재구성된 신호 사이의 L2 노옴(norm)을 최소화하는 행렬 계수들(M)을 유도하기 위해 상관들 및 공분산 행렬들을 사용하는 최소 평균 제곱 에러(MMSE) 예측기로 종종 언급된다. 이러한 방법에 대해, 베이스 신호들(zs[n])은 입력 객체 또는 채널 신호들(Xi[n])의 선형 조합으로 인코더의 다운믹서(24)에서 발생되는 것으로 가정된다:
Figure pct00005
채널 기반 입력 콘텐츠에 대해, 진폭 패닝 이득들(gi,s)은 전형적으로 일정한 반면에, 객체의 의도된 위치가 시간 변환 객체 메타데이터에 의해 제공되는 객체 기반 콘텐츠에 대해, 이득들(gi,s)은 따라서 시간 변화될 수 있다. 이러한 방정식은 또한 변환 또는 부대역 도메인에서 공식화될 수 있으며, 그 경우에 한 세트의 이득들(gi,s[k])은 모든 주파수 빈/대역(k)을 위해 사용되고, 그와 같이, 이득들(gi,s[k])은 주파수 변화에 이루어질 수 있다:
Figure pct00006
역상관기들을 우선 무시하는 디코더 행렬(42)은 이하를 생성한다:
Figure pct00007
또는 행렬 공식화에서, 명료성을 위해 부대역 인덱스(b) 및 파라미터 대역 인덱스(p)를 생략한다:
Y = ZM
Z = XG
인코더에 의해 행렬 계수들(M)을 계산하는 기준은 디코더 출력들(
Figure pct00008
)과 원래 입력 객체들/채널들(Xj) 사이의 제곱 에러를 표현하는 평균 제곱 에러(E)를 최소화하는 것이다:
Figure pct00009
그 다음, E를 최소화하는 행렬 계수들은 이하에 의해 행렬 표기로 주어진다:
Figure pct00010
엡실론은 규칙화 상수이고, (*)는 복소 공액 전치 연산자이다. 이러한 연산은 각각의 파라미터 대역(p)에 대해 독립적으로 수행될 수 있어, 행렬(M[p(b)])를 생성한다.
표현 변환을 위한 최소 평균 제곱 에러( MMSE ) 예측
객체들 및/또는 채널들의 재구성 외에, 파라메트릭 기술들은 하나의 표현을 다른 표현으로 변환하기 위해 사용될 수 있다. 그러한 표현 변환의 일 예는 확성기 재생을 위해 의도되는 스테레오 믹스를 헤드폰들을 위한 바이너럴 표현으로 변환하는 것이거나, 그 역도 또한 같다.
도 4는 하나의 그러한 표현 변환을 위한 방법(50)에 대한 제어 흐름을 예시한다. 객체 또는 채널 오디오는 우선 혼성 직교 미러 필터 분석 뱅크(54)에 의해 인코더(52)에서 처리된다. 확성기 렌더링 행렬(G)은 진폭 패닝 기술들(amplitude panning techniques)을 사용하는 객체 메타데이터에 기초하여 계산되고 저장 매체(51)에 저장되는 객체 신호들(Xi)에 적용되어(55), 스테레오 확성기 제시(Zs)를 야기한다. 이러한 확성기 제시는 오디오 코더(57)에 의해 인코딩될 수 있다.
부가적으로, 바이너럴 렌더링 행렬(H)은 HRTF 데이터베이스(59)를 사용하여 발생되고 적용된다(58). 이러한 행렬(H)은 스테레오 확성기 믹스를 입력으로 사용하여 바이너럴 믹스의 재구성을 허용하는 바이너럴 신호들(Yj)을 계산하기 위해 사용된다. 행렬 계수들(M)은 오디오 인코더(57)에 의해 인코딩된다.
송신된 정보는 인코더(52)로부터 디코더(53)로 송신되며 그것은 성분들(M 및 Zs)을 포함하기 위해 패킹(packing)되지 않는다(61). 확성기들이 재현 시스템으로 사용되면, 확성기 제시는 채널 정보(Zs)를 사용하여 재현되고 따라서 행렬 계수들(M)은 폐기된다. 다른 한편, 헤드폰 재생에 대해, 확성기 제시는 우선 혼성 QMF 합성 및 재현(60) 전에 시간 및 주파수 가변 행렬(M)을 적용함으로써 바이너럴 제시로 변환된다(62).
행렬화 요소(62)로부터의 원하는 바이너럴 출력이 행렬 표기로 기입되면 이하와 같다:
Y = XH
그 다음, 행렬 계수들(M)은 이하에 의해 인코더(52)에서 획득될 수 있다:
Figure pct00011
이러한 적용에서, 58에서 적용되는 인코더 행렬(H)의 계수들은 전형적으로 헤드폰들 상의 음원 국부화에 지각적으로 매우 관련있는 바이너럴 간 시간 차이들의 복귀를 허용하기 위해, 예를 들어 지연 또는 위상 수정 요소를 갖는 복소수 값이다. 다시 말해, 바이너럴 렌더링 행렬(H)은 복소수 값이고, 따라서 변환 행렬(M)은 복소수 값이다. 음원 국부화 큐들의 지각적으로 투명한 복귀에 대해, 인간 청각 시스템의 주파수 분해능을 모방하는 주파수 분해능이 요구되는 것이 제시되었다(Breebaart 2010).
상기 섹션들에서, 최소 평균 제곱 에러 기준은 행렬 계수들(M)을 결정하기 위해 이용된다. 일반성의 손실 없이, 행렬 계수들을 계산하는 다른 널리 공지된 기준들 또는 방법들은 최소 평균 제곱 에러 원리를 대체하거나 증가시키기 위해 유사하게 사용될 수 있다. 예를 들어, 행렬 계수들(M)은 고차 에러 항들을 사용하여, 또는 L1 노옴의 최소화(예를 들어, 최소 절대 편차 기준)에 의해 계산될 수 있다. 더욱이, 비음수 인수분해 또는 최적화 기술들, 비파라메트릭 추정기들, 최대 우도 추정기들, 및 비슷한 것을 포함하는 다양한 방법들이 이용될 수 있다. 부가적으로, 행렬 계수들은 반복 또는 기울기 하강 프로세스들, 보간 방법들, 발견적 방법들, 동적 프로그래밍, 기계 학습, 퍼지 최적화, 시뮬레이션 어닐링, 또는 폐쇄 형식 솔루션들을 사용하여 계산될 수 있고, 합성에 의한 분석 기술들이 사용될 수 있다. 마지막으로 그러나 역시 주요한 것이지만, 행렬 계수 추정은 다양한 방식들, 예를 들어 값들의 범위, 규칙화 조건, 에너지 보존 요건들의 중복 및 비슷한 것을 제한함으로써, 다양한 방식들로 제약될 수 있다.
변환 및 필터 뱅크 요건들
적용, 및 객체들 또는 채널들이 재구성되는지에 따라, 특정 요건들은 도 3의 필터 뱅크 유닛(41)을 위한 변환 또는 필터 뱅크 주파수 분해능에 중첩될 수 있다. 가장 실제적인 적용들에서, 주파수 분해능은 주어진 비트 속도(파라미터들의 수에 의해 결정됨) 및 복잡도를 위한 최상의 지각된 오디오 품질을 제공하기 위해 인간 청력 시스템의 가정된 분해능에 매칭된다. 인간 청각 시스템은 비선형 주파수 분해능을 갖는 필터 뱅크로 생각될 수 있는 것이 공지되어 있다. 이러한 필터들은 임계 대역들로 언급되고(Zwicker, 1961) 거의 자연 대수이다. 낮은 주파수들에서, 임계 대역들은 100 Hz 폭 미만인 반면에, 높은 주파수들에서, 임계 대역들은 1 kHz보다 더 넓은 것으로 발견될 수 있다.
이러한 비선형 작용은 필터 뱅크 디자인에 도달할 때 도전들을 제기할 수 있다. 변환들 및 필터 뱅크들은 주파수 분해능이 주파수에 걸쳐 일정하면, 그들의 처리 구조에서 대칭들을 사용하여 매우 효율적으로 구현될 수 있다.
이것은 변환 길이, 또는 부대역들의 수가 낮은 주파수들에서 임계 대역폭에 의해 결정되고, DFT 빈들을 소위 파라미터 대역들 위로의 매핑이 비선형 주파수 분해능을 모방하기 위해 이용될 수 있는 것을 암시한다. 그러한 매핑 프로세스는 예를 들어 Breebaart 등, (2005) 및 Breebaart 등, (2010)에 설명된다. 이러한 접근법의 하나의 결점은 매우 긴 변환이 낮은 주파수 임계 대역폭 제한을 충족시키도록 요구되는 반면에, 변환이 높은 주파수들에서 비교적 길다는(또는 비효율적이라는) 점이다. 낮은 주파수들에서 주파수 분해능을 증대시키는 대안 솔루션은 혼성 필터 뱅크 구조를 사용하는 것이다. 그러한 구조에서, 2개의 필터 뱅크의 캐스케이드가 이용되며, 제2 필터 뱅크는 첫번째의 분해능을 증대시키지만, 가장 낮은 부대역들 중 수개에서만 증대시킨다(Schuijers 등, 2004).
도 5는 Schuijers 등에 정리되는 것과 유사한 혼성 필터 뱅크 구조(41)의 하나의 형태를 예시한다. 입력 신호(z[n])는 우선 복소수 값 직교 미러 필터 분석 뱅크(complex-valued Quadrature Mirror Filter analysis bank)(CQMF)(71)에 의해 처리된다. 그 후에, 신호들은 인자(Q) 예를 들어 72만큼 다운 샘플링되어 부대역 신호들(Z[k, b])을 야기하며 k는 부대역 샘플 인덱스이고, b는 부대역 주파수 인덱스이다. 더욱이, 결과적 부대역 신호들 중 적어도 하나는 제2(나이퀴스트) 필터 뱅크(74)에 의해 처리되는 반면에, 나머지 부대역 신호들은 나이퀴스트 필터 뱅크에 의해 도입되는 지연을 보상하기 위해 지연된다(75). 이러한 특정 예에서, 필터 뱅크들의 캐스케이드는 비선형 주파수 분해능을 갖는 6 파라미터 대역(p = (1,...,6)) 위로 매핑되는 8 부대역(b = 1,...,8)을 야기한다. 대역들(76)은 단일 파라미터 대역(p=6)을 형성하기 위해 함께 병합된다.
이러한 접근법의 이득은 더욱 많은(더 좁은) 부대역들을 갖는 단일 필터 뱅크를 사용하는 것과 비교하여 더 낮은 복잡도이다. 그러나, 단점은 전체 시스템의 지연이 상당히 증가하고, 따라서, 메모리 사용이 또한 상당히 더 높아져 전력 소비의 증가를 야기한다는 것이다.
종래 기술의 제한들
도 4로 돌아가면, 한 세트의 베이스 신호들(Zs)로부터 채널들, 객체들, 또는 제시 신호들(
Figure pct00012
)을 재구성하기 위해, 종래 기술이 역상관기들의 사용으로 가능한 한 증대되는, 행렬화(62)의 개념을 이용하는 것이 제안된다. 이것은 종래 기술을 일반 방식으로 설명하기 위해 이하의 행렬 공식화를 초래한다:
Figure pct00013
행렬 계수들(M)은 예를 들어 파라메트릭 스테레오 코딩을 위한 Breebaart 등 2005 또는 다중 채널 디코딩을 위한 Herre 등, (2008)에 설명된 바와 같이, 인코더로부터 디코더로 직접 송신되거나, 음원 국부화 파라미터들로부터 유도된다. 더욱이, 이러한 접근법은 또한 복소수 값 행렬 계수들을 사용함으로써 채널간 위상 차이들을 복귀시키기 위해 사용될 수 있다(예를 들어 Breebaart 등, 2010 및 Breebaart, 2005 참조).
도 6에 예시된 바와 같이, 실제로, 복소수 값 행렬 계수들을 사용하는 것은 원하는 지연(80)이 구분적 일정 위상 근사치(81)에 의해 표현되는 것을 암시한다. 원하는 위상 응답이 주파수에 의한 선형 감소 위상을 가진 순수 지연(80)(파선)인 것을 가정하면, 종래 기술 복소수 값 행렬화 동작은 구분적 일정 근사치(81)(실선)를 야기한다. 근사치는 행렬(M)의 분해능을 증가시킴으로써 개선될 수 있다. 그러나, 이것은 2개의 중요한 단점을 갖는다. 그것은 필터 뱅크의 분해능의 증가를 필요로 하여, 더 높은 메모리 사용, 더 높은 계산 복잡도, 더 긴 레이턴시, 및 따라서 더 높은 전력 소비를 야기한다. 그것은 또한 더 많은 파라미터들이 송신되는 것을 필요로 하여, 더 높은 비트 속도를 야기한다.
모든 이러한 단점들은 이동 및 배터리 구동 디바이스들에 특히 문제가 있다. 그것은 더 최적인 솔루션이 이용가능하면 유리할 것이다.
발명의 목적은 상이한 제시들에서의 재현을 위해 오디오 신호들을 인코딩하고 디코딩하는 개선된 형태를 그것의 바람직한 형태로, 제공하는 것이다.
본 발명의 제1 양태에 따라, 오디오 채널들 또는 객체들의 제2 제시를 데이터 스트림으로 표현하는 방법이 제공되며, 방법은 (a) 한 세트의 베이스 신호들을 제공하는 단계 - 베이스 신호들은 오디오 채널들 또는 객체들의 제1 제시를 표현함 -; (b) 한 세트의 변환 파라미터들을 제공하는 단계 - 변환 파라미터들은 제1 제시를 제2 제시로 변환하도록 의도되고; 변환 파라미터들은 적어도 2개의 주파수 대역에 대해 추가로 지정되고 주파수 대역들 중 적어도 하나에 대한 한 세트의 다중 탭 컨볼루션 행렬 파라미터들을 포함함 - 를 포함한다.
세트의 필터 계수들은 유한 임펄스 응답(finite impulse response)(FIR) 필터를 표현할 수 있다. 세트의 베이스 신호들은 일련의 시간 세그먼트들로 분배되는 것이 바람직하고, 한 세트의 변환 파라미터들은 각각의 시간 세그먼트를 위해 제공될 수 있다. 필터 계수들은 복소수 값일 수 있는 적어도 하나의 계수를 포함할 수 있다. 제1 또는 제2 제시는 헤드폰 재생을 위해 의도될 수 있다.
일부 실시예들에서, 더 높은 주파수들과 연관되는 변환 파라미터들은 신호 위상을 수정하지 않는 반면에, 더 낮은 주파수들에 대해, 변환 파라미터들은 신호 위상을 수정한다. 세트의 필터 계수들은 다중 탭 컨볼루션 행렬을 처리하기 위해 조작가능할 수 있는 것이 바람직하다. 세트의 필터 계수들은 낮은 주파수 대역을 처리하기 위해 이용될 수 있는 것이 바람직하다.
세트의 베이스 신호들 및 세트의 변환 파라미터들은 데이터 스트림을 형성하기 위해 조합되는 것이 바람직하다. 변환 파라미터들은 세트의 베이스 신호들의 높은 주파수 부분의 행렬 조작을 위한 높은 주파수 오디오 행렬 계수들을 포함할 수 있다. 일부 실시예들에서, 세트의 베이스 신호들의 높은 주파수 부분의 중간 주파수 부분에 대해, 행렬 조작은 복소수 값 변환 파라미터들을 포함할 수 있는 것이 바람직하다.
본 발명의 추가 양태에 따라, 인코딩된 오디오 신호를 디코딩하기 위한 디코더가 제공되며, 인코딩된 오디오 신호는 오디오의 재현을 위해 의도되는 한 세트의 오디오 베이스 신호들을 제1 오디오 제시 포맷으로 포함하는 제1 제시; 및 제1 제시 포맷의 오디오 베이스 신호들을 제2 제시 포맷으로 변환하기 위한 한 세트의 변환 파라미터들 - 변환 파라미터들은 적어도 높은 주파수 오디오 변환 파라미터들 및 낮은 주파수 오디오 변환 파라미터들을 포함하며, 낮은 주파수 변환 파라미터들은 다중 탭 컨볼루션 행렬 파라미터들을 포함함 - 을 포함하고, 디코더는 세트의 오디오 베이스 신호들, 및 세트의 변환 파라미터들을 분리하기 위한 제1 분리 유닛, 다중 탭 컨볼루션 행렬 파라미터들을 오디오 베이스 신호들의 낮은 주파수 성분들에 적용하기 위한 행렬 승산 유닛 - 컨볼루션을 낮은 주파수 성분들에 적용하기 위해, 컨볼빙된 낮은 주파수 성분들을 생성함 -; 및 스칼라 높은 주파수 성분들을 생성하기 위해 높은 주파수 오디오 변환 파라미터들을 오디오 베이스 신호들의 높은 주파수 성분들에 적용하기 위한 스칼라 승산 유닛; 시간 도메인 출력 신호를 제2 제시 포맷으로 생성하기 위해 컨볼빙된 낮은 주파수 성분들 및 스칼라 높은 주파수 성분들을 조합하기 위한 출력 필터 뱅크를 포함한다.
행렬 승산 유닛은 오디오 베이스 신호들의 낮은 주파수 성분들의 위상을 수정할 수 있다. 일부 실시예들에서, 다중 탭 컨볼루션 행렬 변환 파라미터들은 복소수 값인 것이 바람직하다. 높은 주파수 오디오 변환 파라미터들은 또한 복소수 값인 것이 바람직하다. 게다가, 세트의 변환 파라미터들은 실수 값 더 높은 주파수 오디오 변환 파라미터들을 포함할 수 있다. 일부 실시예들에서, 디코더는 오디오 베이스 신호들을 낮은 주파수 성분들 및 높은 주파수 성분들로 분리하기 위한 필터들을 더 포함할 수 있다.
본 발명의 추가 양태에 따라, 인코딩된 오디오 신호를 디코딩하는 방법이 제공되며, 인코딩된 오디오 신호는 오디오의 재현을 위해 의도되는 한 세트의 오디오 베이스 신호들을 제1 오디오 제시 포맷으로 포함하는 제1 제시; 및 제1 제시 포맷인 오디오 베이스 신호들을 제2 제시 포맷으로 변환하기 위한 한 세트의 변환 파라미터들 - 변환 파라미터들은 적어도 높은 주파수 오디오 변환 파라미터들 및 낮은 주파수 오디오 변환 파라미터들을 포함하고, 낮은 주파수 변환 파라미터들은 다중 탭 컨볼루션 행렬 파라미터들을 포함함 - 을 포함하고, 방법은 컨볼빙된 낮은 주파수 성분들을 생성하기 위해 오디오 베이스 신호들의 낮은 주파수 성분들을 낮은 주파수 변환 파라미터들과 컨볼빙하는 단계; 승산된 높은 주파수 성분들을 생성하기 위해 오디오 베이스 신호들의 높은 주파수 성분들을 높은 주파수 변환 파라미터들과 승산하는 단계; 제2 제시 포맷을 통한 재생을 위한 출력 오디오 신호 주파수 성분들을 생성하기 위해 컨볼빙된 낮은 주파수 성분들 및 승산된 높은 주파수 성분들을 조합하는 단계를 포함한다.
일부 실시예들에서, 인코딩된 신호는 다수의 시간 세그먼트들을 포함할 수 있고, 방법은 보간된 낮은 주파수 오디오 변환 파라미터들을 포함하는, 보간된 변환 파라미터들을 생성하기 위해 인코딩된 신호의 다수의 시간 세그먼트들의 변환 파라미터들을 보간하는 단계; 및 컨볼빙된 낮은 주파수 성분들의 다수의 시간 세그먼트들을 생성하기 위해 오디오 베이스 신호들의 낮은 주파수 성분들의 다수의 시간 세그먼트들을 보간된 낮은 주파수 오디오 변환 파라미터들과 컨볼빙하는 단계를 포함할 수 있는 것이 추가로 바람직하다.
인코딩된 오디오 신호의 세트의 변환 파라미터들은 시간 가변일 수 있는 것이 바람직하고, 방법은 다수의 세트의 중간 컨볼빙된 낮은 주파수 성분들을 생성하기 위해 낮은 주파수 성분들을 다수의 시간 세그먼트들에 대한 낮은 주파수 변환 파라미터들과 컨볼빙하는 단계; 컨볼빙된 낮은 주파수 성분들을 생성하기 위해 다수의 세트의 중간 컨볼빙된 낮은 주파수 성분들을 보간하는 단계를 포함할 수 있는 것이 추가로 바람직하다.
보간은 다수의 세트의 중간 컨볼빙된 낮은 주파수 성분들의 중복 및 가산 방법을 이용할 수 있다.
발명의 실시예들은 이제, 첨부 도면들을 참조하여, 예로서만, 설명될 것이다.
도 1은 2개의 소스 객체에 대한 HRIR 컨볼루션 프로세스의 개략적 개요를 예시하며, 각각의 채널 또는 객체는 한 쌍의 HRIR들/BRIR들에 의해 처리된다.
도 2는 채널들 및 객체들을 지원하는 일반 파라메트릭 코딩 시스템을 개략적으로 예시한다.
도 3은 도 2의 채널 또는 객체 재구성 유닛(30)의 하나의 형태를 더 상세히 개략적으로 예시한다.
도 4는 스테레오 확성기 제시를 바이너럴 헤드폰들 제시로 변환하는 방법의 데이터 흐름을 예시한다.
도 5는 종래 기술에 따른 혼성 분석 필터 뱅크 구조를 개략적으로 예시한다.
도 6은 종래 기술에 의해 획득되는 원하는(파선) 및 실제(실선) 위상 응답의 비교를 예시한다.
도 7은 발명의 일 실시예에 따른 예시적 인코더 필터 뱅크 및 파라미터 매핑 시스템을 개략적으로 예시한다.
도 8은 일 실시예에 따른 디코더 필터 뱅크 및 파라미터 매핑을 개략적으로 예시한다.
도 9는 스테레오를 바이너럴 제시들로의 변환을 위한 인코더를 예시한다.
도 10은 스테레오를 바이너럴 제시들로의 변환을 위한 디코더를 개략적으로 예시한다.
참조문헌들
Wightman, F. L., and Kistler, D. J. (1989). "Headphone simulation of free-field listening. I. Stimulus synthesis," J. Acoust. Soc. Am. 85, 858-867.
Schuijers, Erik, et al. (2004). "Low complexity parametric stereo coding." Audio Engineering Society Convention 116. Audio Engineering Society.
Herre, J., Kjorling, K., Breebaart, J., Faller, C., Disch, S., Purnhagen, H.,... & Chong, K. S. (2008). MPEG surround-the ISO/MPEG standard for efficient and compatible multichannel audio coding. Journal of the Audio Engineering Society, 56(11), 932-955.
Herre, J., Purnhagen, H., Koppens, J., Hellmuth, O., ., Engdeg
Figure pct00014
rd, J., Hilpert, J., & Oh, H. O. (2012). MPEG Spatial Audio Object Coding-the ISO/MPEG standard for efficient coding of interactive audio scenes. Journal of the Audio Engineering Society, 60(9), 655-673.
Brandenburg, K., & Stoll, G. (1994). ISO/MPEG-1 audio: A generic standard for coding of high-quality digital audio. Journal of the Audio Engineering Society, 42(10), 780-792.
Bosi, M., Brandenburg, K., Quackenbush, S., Fielder, L., Akagiri, K., Fuchs, H., & Dietz, M. (1997). ISO/IEC MPEG-2 advanced audio coding. Journal of the Audio engineering society, 45(10), 789-814.
Andersen, R. L., Crockett, B. G., Davidson, G. A., Davis, M. F., Fielder, L. D., Turner, S. C., ... & Williams, P. A. (2004, October). Introduction to Dolby digital plus, an enhancement to the Dolby digital coding system. In Audio Engineering Society Convention 117. Audio Engineering Society.
Zwicker, E. (1961). Subdivision of the audible frequency range into critical bands(Frequenzgruppen). The Journal of the Acoustical Society of America,(33(2)), 248.
Breebaart, J., van de Par, S., Kohlrausch, A., & Schuijers, E. (2005). Parametric coding of stereo audio. EURASIP Journal on Applied Signal Processing, 2005, 1305-1322.
Breebaart, J., Nater, F., & Kohlrausch, A. (2010). Spectral and spatial parameter resolution requirements for parametric, filter-bank-based HRTF processing. Journal of the Audio Engineering Society, 58(3), 126-140.
Breebaart, J., van de Par, S., Kohlrausch, A., & Schuijers, E. (2005). Parametric coding of stereo audio. EURASIP Journal on Applied Signal Processing, 2005, 1305-1322.
이러한 바람직한 실시예는 낮은 주파수 분해능을 갖는 필터 뱅크들에 적용될 수 있는 한 세트의 베이스 신호들로부터 객체들, 채널들 또는 '제시들'을 재구성하는 방법을 제공한다. 일 예는 나이퀴스트(혼성) 필터 뱅크 없이 적용될 수 있는 헤드폰 재생을 위해 의도되는 바이너럴 제시로 스테레오 제시의 변환이다. 감소된 디코더 주파수 분해능은 다중 탭, 컨볼루션 행렬에 의해 보상된다. 이러한 컨볼루션 행렬은 수개의 탭들(예를 들어 2개)만을 필요로 하고, 실제 경우들에서, 낮은 주파수들에서만 요구된다. 이러한 방법 (1)은 디코더의 계산 복잡도를 감소시키고, (2)는 디코더의 메모리 사용을 감소시키고, (3)은 파라미터 비트 속도를 감소시킨다.
바람직한 실시예에서, 바람직하지 않은 디코더 측 계산 복잡도 및 메모리 요건들을 극복하는 시스템 및 방법이 제공된다. 이것은 인코더에서 높은 주파수 분해능을 제공하고, 디코더에서 제약된(더 낮은) 주파수 분해능을 이용하고(예를 들어, 대응하는 인코더에 사용되는 것보다 상당히 나쁜 주파수 분해능을 사용함), 다중 탭(컨볼루션) 행렬을 이용하여 감소된 디코더 주파수 분해능을 보상함으로써 구현될 수 있다.
전형적으로, 높은 주파수 행렬 분해능은 낮은 주파수들에서만 요구되므로, 다중 탭(컨볼루션) 행렬은 낮은 주파수들에서 사용될 수 있는 반면에, 종래의(무상태) 행렬은 나머지(더 높은) 주파수들을 위해 사용될 수 있다. 다시 말해, 낮은 주파수들에서, 행렬은 입력 및 출력의 각각의 조합을 조작하는 한 세트의 FIR 필터들을 표현하는 반면에, 높은 주파수들에서, 무상태 행렬이 사용된다.
인코더 필터 뱅크 및 파라미터 매핑
도 7은 일 실시예에 따른 예시적 인코더 필터 뱅크 및 파라미터 매핑 시스템을 예시한다(90). 이러한 예시적 실시예(90)에서, 8 부대역(b = 1,...,8), 예를 들어 91은 혼성(캐스케이드) 필터 뱅크(92) 및 나이퀴스트 필터 뱅크(93)에 의해 초기에 발생된다. 그 후에, 제1 4개의 부대역은 컨볼루션 행렬(M[k, p = 1])을 계산하기 위해 동일한 파라미터 대역(p = 1) 위로 매핑되며(94), 예를 들어, 행렬은 이제 부가 인덱스(k)를 갖는다. 나머지 부대역들(b = 5,...,8)은 무상태 행렬들(M[p(b)])을 사용하여 파라미터 대역들(p = 2, 3) 위로 매핑된다(95, 96).
디코더 필터 뱅크 및 파라미터 매핑
도 8은 대응하는 예시적 디코더 필터 뱅크 및 파라미터 매핑 시스템(100)을 예시한다. 인코더와 대조적으로, 어떠한 나이퀴스트 필터 뱅크가 존재하지 않으며, 나이퀴스트 필터 뱅크 지연을 보상하기 위해 임의의 지연들이 있지 않다. 디코더 분석 필터 뱅크(101)는 인자(Q)만큼 다운 샘플링되는 5 부대역(b = 1,...,5)만 예를 들어 102를 발생시킨다. 제1 부대역은 컨볼루션 행렬(M[k, p = 1])에 의해 처리되는 반면에(103), 나머지 대역들은 종래 기술에 따라 무상태 행렬들에 의해 처리된다(104, 105).
상기 예가 인코더(90)에서 나이퀴스트 필터 뱅크를 적용하고 디코더(100)에서만 제1 CQMF 부대역에 대한 대응하는 컨볼루션 행렬을 적용하지만, 동일한 프로세스는 다수의 부대역에 적용될 수 있으며, 가장 낮은 부대역(들)에만 반드시 적용되는 것은 아니다.
인코더 실시예
특히 유용한 일 실시예는 확성기 제시를 바이너럴 제시로의 변환이다. 도 9는 제시 변환을 위한 제안된 방법을 사용하여 인코더(110)를 예시한다. 한 세트의 입력 채널들 또는 객체들(Xi[n])은 우선 필터 뱅크(111)를 사용하여 변환된다. 필터 뱅크(111)는 혼성 복소 직교 미러 필터(hybrid complex quadrature mirror filter)(HCQMF) 뱅크이지만, 다른 필터 뱅크 구조들은 동등하게 사용될 수 있다. 결과적 부대역 표현들((Xi[k, b]))은 두 번 처리된다(112, 113).
첫번째로 113에서, 인코더의 출력을 위해 의도되는 한 세트의 베이스 신호들(Zs[k, b])을 발생시킨다(113). 이러한 출력은 예를 들어, 결과적 신호들이 확성기 재생을 위해 의도되도록 진폭 패닝 기술들을 사용하여 발생될 수 있다.
두번째로 112에서, 한 세트의 원하는 변환된 신호들(Yj[k, b])을 발생시킨다(112). 이러한 출력은 예를 들어, 결과적 신호들이 헤드폰 재생을 위해 의도되도록 HRIR 처리를 사용하여 발생될 수 있다. 그러한 HRIR 처리는 필터 뱅크 도메인에서 이용될 수 있지만, HRIR 컨볼루션에 의해 시간 도메인에서 동등하게 수행될 수 있다. HRIR들은 데이터베이스(114)로부터 획득된다.
그 후에, 컨볼루션 행렬(M[k, p])은 태핑된 지연 라인(116)을 통해 베이스 신호들(Zs[k, b])을 공급함으로써 획득된다. 지연 라인들의 탭들 각각은 MMSE 예측기 단(115)에 대한 부가 입력들의 역할을 한다. 이러한 MMSE 예측기 단은 원하는 변환된 신호들(Yj[k, b])과 도 8의 디코더(100)의 출력 사이의 에러를 최소화하는 컨볼루션 행렬(M[k, p])을 계산하여, 컨볼루션 행렬들을 적용한다. 그 다음, 행렬 계수들(M[k, p])이 이하에 의해 주어진다는 결론이 나온다:
Figure pct00015
이러한 공식화에서, 행렬(Z)은 태핑된 지연 라인들의 모든 입력들을 포함한다.
주어진 부대역(b)에 대한 하나의 신호(
Figure pct00016
)의 재구성을 위한 경우를 초기에 취하면, 태핑된 지연 라인들로부터 A 입력들이 있으며, 하나는 이하를 갖는다:
Figure pct00017
결과적 컨볼루션 행렬 계수들(M[k, p])은 베이스 신호들(zs[n])과 함께 양자화되고, 인코딩되고, 송신된다. 그 다음, 디코더는 입력 신호들(Zs[k, b])로부터 (
Figure pct00018
)를 재구성하기 위해 컨볼루션 프로세스를 사용할 수 있다:
Figure pct00019
또는 컨볼루션 표현을 사용하여 상이하게 기입된다:
Figure pct00020
컨볼루션 접근법은 선형(무상태) 행렬 프로세스와 혼합될 수 있다.
추가 구별은 복소수 값 및 실수 값 무상태 행렬화 사이에서 이루어질 수 있다. 낮은 주파수들(전형적으로 1 kHz 아래)에서, 컨볼루션 프로세스(A>1)는 지각 주파수 스케일과 비슷한 채널간 성질들의 정확한 재구성을 허용하는 것이 바람직하다. 대략 2 또는 3 kHz까지의 중간 주파수들에서, 인간 청력 시스템은 채널간 위상 차이들에 민감하지만, 그러한 위상의 재구성을 위한 매우 높은 주파수 분해능을 필요로 하지 않는다. 이것은 단일 탭(무상태), 복소수 값 행렬이 충분한 것을 암시한다. 더 높은 주파수들에 대해, 인간 청각 시스템은 파형 미세 구조 위상에 거의 둔감하고, 및 실수 값, 무상태 행렬화는 충분하다. 증가하는 주파수들에 따라, 파라미터 대역 위로 매핑되는 필터 뱅크 출력들의 수는 전형적으로 인간 청각 시스템의 비선형 주파수 분해능을 반영하기 위해 증가한다.
다른 실시예에서, 인코더에서의 제1 및 제2 제시들이 교환되며, 예를 들어, 제1 제시는 헤드폰 재생을 위해 의도되고, 제2 제시는 확성기 재생을 위해 의도된다. 이러한 실시예에서, 확성기 제시(제2 제시)는 적어도 2개의 주파수 대역에서의 시간 의존 변환 파라미터들을 제1 제시에 적용함으로써 발생되며, 변환 파라미터들은 주파수 대역들 중 적어도 하나에 대한 한 세트의 필터 계수들을 포함하는 것으로 추가로 지정된다.
일부 실시예들에서, 제1 제시는 각각의 세그먼트에 대한 변환 파라미터들의 개별 세트에서, 일련의 세그먼트들로 일시적으로 분배될 수 있다. 추가 개선에서, 세그먼트 변환 파라미터들이 이용가능하지 않은 경우, 파라미터들은 이전 계수들로부터 보간될 수 있다.
디코더 실시예
도 10은 디코더(120)의 일 실시예를 예시한다. 입력 비트스트림(121)은 베이스 신호 비트 스트림(131) 및 변환 파라미터 데이터(124)로 분할된다. 그 후에, 베이스 신호 디코더(123)는 베이스 신호들(z[n])을 디코딩하며, 베이스 신호들은 분석 필터 뱅크(125)에 의해 나중에 처리된다. 부대역(b = 1,...,5)을 갖는 결과적 주파수 도메인 신호들(Z[k,b])은 행렬 승산 유닛들(126, 129 및 130)에 의해 처리된다. 특히, 행렬 승산 유닛(126)은 복소수 값 컨볼루션 행렬(M[k,p=1])을 주파수 도메인 신호(Z[k, b=1])에 적용한다. 더욱이, 행렬 승산 유닛(129)은 복소수 값, 단일 탭 행렬 계수들(M[p=2])을 신호(Z[k, b=2])에 적용한다. 마지막으로, 행렬 승산 유닛(130)은 실수 값 행렬 계수들(M[p=3])을 주파수 도메인 신호들(Z[k, b=3,...,5])에 적용한다. 행렬 승산 유닛 출력 신호들은 합성 필터 뱅크(127)에 의해 시간 도메인 출력(128)으로 변환된다. z[n], Z[k] 등에 대한 참조들은 임의의 구체적 베이스 신호보다는 오히려, 세트의 베이스 신호들을 언급한다. 따라서, z[n], Z[k] 등은 zs[n], Zs[k] 등으로 해석될 수 있으며, 여기서 0 ≤ s < N이고, N은 베이스 신호들의 수이다.
다시 말해, 행렬 승산 유닛(126)은 베이스 신호들(Z[k])의 부대역(b=1)의 현재 샘플들 및 베이스 신호들(Z[k])의 부대역(b=1)의 이전 샘플들(예를 들어, Z[k-a], 여기서 0 < a < A이고, A는 1보다 더 큼)의 가중된 조합들로부터 출력 신호(
Figure pct00021
)의 부대역(b=1)의 출력 샘플들을 결정한다. 출력 신호(
Figure pct00022
)의 부대역(b=1)의 출력 샘플들을 결정하기 위해 사용되는 가중치들은 신호에 대한 복소수 값 컨볼루션 행렬(M[k, p=1])에 대응한다.
더욱이, 행렬 승산 유닛(129)은 베이스 신호들(Z[k])의 부대역(b=2)의 현재 샘플들의 가중된 조합들로부터 출력 신호(
Figure pct00023
)의 부대역(b=2)의 출력 샘플들을 결정한다. 출력 신호(
Figure pct00024
)의 부대역(b=2)의 출력 샘플들을 결정하기 위해 사용되는 가중치들은 복소수 값, 단일 탭 행렬 계수들(M[p=2])에 대응한다.
최종적으로, 행렬 승산 유닛(130)은 베이스 신호들(Z[k])의 부대역들(b=3,...,5)의 현재 샘플들의 가중된 조합들로부터 출력 신호(
Figure pct00025
)의 부대역들(b=3,...,5)의 출력 샘플들을 결정한다. 출력 신호(
Figure pct00026
)의 부대역들(b=3,...,5)의 출력 샘플들을 결정하기 위해 사용되는 가중치들은 실수 값 행렬 계수들(M[p=3])에 대응한다.
일부 경우들에서, 베이스 신호 디코더(123)는 분석 필터 뱅크(125)에 의해 제공되는 것과 동일한 주파수 분해능에서 신호들을 조작할 수 있다. 그러한 경우들에서, 베이스 신호 디코더(125)는 시간 도메인 신호들(z[n])보다는 오히려 주파수 도메인 신호들(Z[k])을 출력하도록 구성될 수 있으며, 그 경우에 분석 필터 뱅크(125)가 생략될 수 있다. 더욱이, 일부 사례들에서, 실수 값 행렬 계수들 대신에, 복소수 값 단일 탭 행렬 계수들을, 주파수 도메인 신호들(Z[k, b = 3,...,5])에 적용하는 것이 바람직할 수 있다.
실제로, 행렬 계수들(M)은 예를 들어 베이스 신호들의 개별 프레임들을 행렬 계수들(M)과 연관시킴으로써 시간에 따라 갱신될 수 있다. 대안적으로, 또는 부가적으로, 행렬 계수들(M)은 타임 스탬프들로 증가되며, 타임 스탬프들은 베이스 신호들(z[n])의 어느 시간 또는 간격에 행렬들이 적용되어야 하는 것을 표시한다. 행렬 갱신들과 연관되는 송신 비트 속도를 감소시키기 위해, 갱신들의 수가 이상적으로 제한되어, 행렬 갱신들의 시간 부족 분배(time-sparse distribution)를 야기한다. 행렬들의 그러한 드문 갱신들은 행렬의 하나의 인스턴스로부터 다음 인스턴스로 순조로운 전이들을 보장하기 위해 전용 처리를 필요로 한다. 행렬들(M)은 베이스 신호들(Z)의 구체적 시간 세그먼트들(프레임들) 및/또는 주파수 영역들과 연관되어 제공될 수 있다. 디코더는 시간에 따라 행렬(M)의 후속 인스턴스들로부터 순조로운 전이를 보장하기 위해 여러가지 보간 방법들을 이용할 수 있다. 그러한 보간 방법의 일 예는 신호들(Z)의 중복, 윈도우 프레임들을 계산하고, 그러한 특정 프레임과 연관되는 행렬 계수들(M)을 사용하여 그러한 프레임 각각에 대한 대응하는 세트의 출력 신호들(Y)을 계산하는 것이다. 그 다음, 후속 프레임들은 순조로운 크로스 페이드 전이(smooth cross-faded transition)를 제공하는 중복-가산 기술을 사용하여 결집될 수 있다. 대안적으로, 디코더는 행렬들(M)과 연관되는 타임 스탬프들을 수신할 수 있으며, 그들은 구체적 시간 인스턴스들에서 원하는 행렬 계수들을 설명한다. 타임 스탬프들 사이의 오디오 샘플들에 대해, 행렬(M)의 행렬 계수들은 순조로운 전이들을 보장하기 위해 보간을 위한 선형, 입방, 대역 제한, 또는 다른 수단을 사용하여 보간될 수 있다. 시간에 걸친 보간 외에, 유사한 기술들은 주파수에 걸친 행렬 계수들을 보간하기 위해 사용될 수 있다.
따라서, 본 문헌은 오디오 채널들 또는 객체들(Xi)의 제2 제시를 대응하는 디코더(100)에 송신되거나 제공되는 데이터 스트림으로 표현하는 방법(및 대응하는 인코더(90))을 설명한다. 방법은 베이스 신호들(Zs)을 제공하는 단계를 포함하며, 상기 베이스 신호들은 오디오 채널들 또는 객체들(Xi)의 제1 제시를 표현한다. 상기 기술된 바와 같이, 베이스 신호들(Zs)은 제1 렌더링 파라미터들(G)을 사용하여(즉 현저하게 제1 이득 행렬을 사용하여, 예를 들어 진폭 패닝을 위해) 오디오 채널들 또는 객체들(Xi)로부터 결정될 수 있다. 제1 제시는 확성기 재생 또는 헤드폰 재생을 위해 의도될 수 있다. 다른 한편, 제2 제시는 헤드폰 재생 또는 확성기 재생을 위해 의도될 수 있다. 따라서, 확성기 재생으로부터 헤드폰 재생으로의 변환(또는 그 역도 또한 같음)이 수행될 수 있다.
방법은 변환 파라미터들(M)(현저하게 하나 이상의 변환 행렬)을 제공하는 단계를 더 포함하며, 상기 변환 파라미터들(M)은 상기 제1 제시의 베이스 신호들(Zs)을 상기 제2 제시의 출력 신호들(
Figure pct00027
)로 변환하도록 의도된다. 변환 파라미터들은 본 문헌에 기술된 바와 같이 결정될 수 있다. 특히, 제2 제시에 대한 원하는 출력 신호들(Yj)은 제2 렌더링 파라미터들(H)을 사용하여 오디오 채널들 또는 객체들(Xi)로부터 결정될 수 있다(본 문헌에 기술된 바와 같음). 변환 파라미터들(M)은 원하는 출력 신호들(Yj)로부터(예를 들어 최소 평균 제곱 에러 기준을 사용하여) 출력 신호들(
Figure pct00028
)의 편차를 최소화함으로써 결정될 수 있다.
훨씬 더 특별히, 변환 파라미터들(M)은 부대역 도메인에서(즉 상이한 주파수 대역들에 대해) 결정될 수 있다. 이러한 목적을 위해, 부대역 도메인 베이스 신호들(Z[k,b])은 인코더 필터 뱅크(92, 93)를 사용하여 B 주파수 대역들에 대해 결정될 수 있다. 주파수 대역들의 수(B)는 1보다 더 크며, 예를 들어 B는 4, 6, 8, 10 이상이다. 본 문헌에 설명되는 예들에서, B=8 또는 B=5이다. 상기 기술된 바와 같이, 인코더 필터 뱅크(92, 93)는 B 주파수 대역들의 높은 주파수 대역들보다 더 높은 주파수 분해능을 갖는 B 주파수 대역들의 낮은 주파수 대역들을 제공하는 혼성 필터 뱅크를 포함할 수 있다. 더욱이, B 주파수 대역들에 대한 부대역 도메인 요망 출력 신호들(Y[k,b])이 결정될 수 있다. 하나 이상의 주파수 대역에 대한 변환 파라미터들(M)은 하나 이상의 주파수 대역 내의 원하는 출력 신호들(Yj)로부터(예를 들어 최소 평균 제곱 에러 기준을 사용하여) 출력 신호들(
Figure pct00029
)의 편차를 최소화함으로써 결정될 수 있다.
따라서, 변환 파라미터들(M)은 적어도 2개의 주파수 대역에 대해(현저하게 B 주파수 대역들에 대해) 지정될 수 있다. 더욱이, 변환 파라미터들은 주파수 대역들 중 적어도 하나에 대한 한 세트의 다중 탭 컨볼루션 행렬 파라미터들을 포함할 수 있다.
따라서, 오디오 채널들/객체들의 제1 제시의 베이스 신호들로부터 오디오 채널들/객체들의 제2 제시의 출력 신호들을 결정하는 방법(및 대응하는 디코더)이 설명된다. 제1 제시는 확성기 재생을 위해 사용될 수 있고 제2 제시는 헤드폰 재생을 위해 사용될 수 있다(또는 그 역도 또한 같음). 출력 신호들은 상이한 주파수 대역들에 대한 변환 파라미터들을 사용하여 결정되며, 주파수 대역들 중 적어도 하나에 대한 변환 파라미터들은 다중 탭 컨볼루션 행렬 파라미터들을 포함한다. 주파수 대역들 중 적어도 하나에 대한 다중 탭 컨볼루션 행렬 파라미터들을 사용하는 결과로서, 디코더(100)의 계산 복잡도는 디코더에 의해 사용되는 필터 뱅크의 주파수 분해능을 감소시킴으로써 현저하게 감소될 수 있다.
예를 들어, 다중 탭 컨볼루션 행렬 파라미터들을 사용하여 제1 주파수 대역에 대한 출력 신호를 결정하는 단계는 출력 신호의 제1 주파수 대역의 현재 샘플을 베이스 신호들의 제1 주파수 대역의 현재, 및 하나 이상의 이전 샘플의 가중된 조합으로 결정하는 단계를 포함할 수 있으며, 가중된 조합을 결정하기 위해 사용되는 가중치들은 제1 주파수 대역에 대한 다중 탭 컨볼루션 행렬 파라미터들에 대응한다. 제1 주파수 대역에 대한 다중 탭 컨볼루션 행렬 파라미터들 중 하나 이상은 전형적으로 복소수 값이다.
더욱이, 제2 주파수 대역에 대한 출력 신호를 결정하는 단계는 출력 신호의 제2 주파수 대역의 현재 샘플을 베이스 신호들의 제2 주파수 대역의 현재 샘플들의 가중된 조합으로 결정하는 단계를 포함할 수 있으며(그리고 베이스 신호들의 제2 주파수 대역의 이전 샘플들에 기초하지 않음), 가중된 조합을 결정하기 위해 사용되는 가중치들은 제2 주파수 대역에 대한 변환 파라미터들에 대응한다. 제2 주파수 대역에 대한 변환 파라미터들은 복소수 값일 수 있거나, 대안적으로 실수 값일 수 있다.
특히, 동일한 세트의 다중 탭 컨볼루션 행렬 파라미터들은 B 주파수 대역들의 적어도 2개의 인접한 주파수 대역에 대해 결정될 수 있다. 도 7에 예시된 바와 같이, 단일 세트의 다중 탭 컨볼루션 행렬 파라미터들은 나이퀴스트 필터 뱅크에 의해 제공되는 주파수 대역들에 대해(즉 비교적 높은 주파수 분해능을 갖는 주파수 대역들에 대해) 결정될 수 있다. 이것을 행함으로써, 디코더(100) 내의 나이퀴스트 필터 뱅크의 사용이 생략될 수 있으며, 그것에 의해 (제2 제시에 대한 출력 신호들의 품질을 유지하면서) 디코더(100)의 계산 복잡도를 감소시킨다.
더욱이, 동일한 실수 값 변환 파라미터는 적어도 2개의 인접한 높은 주파수 대역에 대해 결정될 수 있다(도 7의 맥락에 예시된 바와 같음). 이것을 행함으로써, 디코더(100)의 계산 복잡도는 (제2 제시에 대한 출력 신호들의 품질을 유지하면서) 추가로 감소될 수 있다.
해석
본 명세서 도처에서 "일 실시예", "일부 실시예들" 또는 "일 실시예"에 대한 참조는 실시예와 관련하여 설명되는 특정 특징, 구조 또는 특성이 본 발명의 적어도 일 실시예에 포함되는 것을 의미한다. 따라서, 본 명세서 도처의 다양한 장소들에서 구들 "하나의 실시예에서", "일부 실시예들에서" 또는 "일 실시예에서"의 출현들은 반드시 동일한 실시예를 전부 언급하는 것은 아니지만, 언급할 수 있다. 더욱이, 특정 특징들, 구조들 또는 특성들은 하나 이상의 실시예에서, 본 개시내용으로부터 본 기술분야의 통상의 기술자에게 분명한 바와 같이, 임의의 적절한 방식으로 조합될 수 있다.
본원에 사용되는 바와 같이, 달리 지정되지 않는 한, 서수 형용사들 "제1", "제2", "제3" 등의 사용은 공통 객체를 설명하기 위해, 유사한 객체들의 상이한 인스턴스들이 언급되고 있는 것을 표시할 뿐이고, 그렇게 설명되는 객체들이 시간적으로, 공간적으로, 순위로, 또는 임의의 다른 방식으로, 주어진 시퀀스에 있어야 하는 것을 암시하도록 의도되지 않는다.
아래의 청구항들 및 본원의 설명에서, 용어들 구성하는(comprising), 구성되는(comprised of) 또는 구성하는(which comprises) 중 어느 하나는 뒤따르는 적어도 요소들/특징들을 포함하지만, 다른 것들을 배제하지 않는 것을 의미하는 개방 용어이다. 따라서, 용어 "포함하는"은 청구항들에 사용될 때, 그 후에 열거되는 수단 또는 요소들 또는 단계들에 제한되는 것으로 해석되지 않아야 한다. 예를 들어, A 및 B를 포함하는 표현 디바이스의 범위는 요소들(A 및 B)로만 구성되는 디바이스들에 제한되지 않아야 한다. 본원에 사용되는 바와 같이 용어들 포함하는(including) 또는 포함하는(which includes) 또는 포함하는(that includes) 중 어느 하나는 또한 용어를 뒤따르는 적어도 요소들/특징들을 포함하지만, 다른 것들을 배제하지 않는 것을 또한 의미하는 개방 용어이다. 따라서, "포함하는"은 "구성하는"과 동의어이고 "구성하는"을 의미한다.
본원에 사용되는 바와 같이, 용어 "예시적"은 품질을 표시하는 것과 대조적으로, 예들을 제공하는 의미에 사용된다. 즉, "예시적 실시예"는 필연적으로 예시적 품질의 일 실시예인 것과 대조적으로, 일 예로 제공되는 일 실시예이다.
발명의 예시적 실시예들의 상기 설명에서, 발명의 다양한 특징들이 개시내용을 간소화하고 다양한 발명 양태들 중 하나 이상의 이해를 원조하는 목적을 위해 단일 실시예, 도면, 또는 그것의 설명에서 함께 그룹화된다는 점이 이해되어야 한다. 그러나, 이러한 개시내용의 방법은 청구된 발명이 각각의 청구항에서 분명히 나열되는 것보다 더 많은 특징들을 필요로 한다는 의도를 반영하는 것으로 해석되지 않아야 한다. 오히려, 이하의 청구항들이 반영하는 바와 같이, 발명 양태들은 단일의 상술한 개시된 실시예의 모든 특징들 미만으로 있다. 따라서, 상세한 설명을 뒤따르는 청구항들은 이로써 이러한 상세한 설명으로 분명히 포함되며, 각각의 청구항은 본 발명의 개별 실시예로서 그 자체로 기초한다.
더욱이, 본원에 설명되는 일부 실시예들이 일부를 포함하지만 다른 실시예들에 포함되는 다른 특징들을 포함하지 않는 한, 상이한 실시예들의 특징들의 조합들은 본 기술분야의 통상의 기술자들에 의해 이해되는 바와 같이, 발명의 범위 내에 있는 것으로 의미되고, 상이한 실시예들을 형성한다. 예를 들어, 이하의 청구항들에서, 청구된 실시예들 중 어느 것은 임의의 조합으로 사용될 수 있다.
더욱이, 실시예들의 일부는 컴퓨터 시스템의 프로세서에 의해 또는 기능을 수행하는 다른 수단에 의해 구현될 수 있는 방법 또는 방법의 요소들의 조합으로 본원에 설명된다. 따라서, 그러한 방법 또는 방법의 요소를 수행하는 필요한 명령어들을 갖는 프로세서는 방법 또는 방법의 요소를 수행하는 수단을 형성한다. 더욱이, 본원에 설명되는 장치 실시예의 요소는 발명을 수행하는 목적을 위해 요소에 의해 수행되는 기능을 수행하는 수단의 일 예이다.
본원에 제공되는 설명에서, 다수의 구체적 상세들이 제시된다. 그러나, 발명의 실시예들이 이러한 구체적 상세들 없이 실시될 수 있다는 점이 이해된다. 다른 사례들에서, 널리 공지된 방법들, 구조들 및 기술들은 이러한 설명의 이해를 모호하게 하지 않도록 상세히 도시되지 않았다.
유사하게, 용어 "결합된"은 청구항들에 사용될 때, 직접 연결들에만 제한되는 것으로 해석되지 않아야 한다는 점이 주목되어야 한다. 용어들 "결합된" 및 "연결된"은 그들의 파생어들과 함께 사용될 수 있다. 이러한 용어들이 서로 동의어들로 의도되지 않는다는 점이 이해되어야 한다. 따라서, 표현 "디바이스 B에 결합되는 디바이스 A"의 범위는 디바이스들 또는 시스템들에 제한되지 않으며, 디바이스 A의 출력은 디바이스 B의 입력에 직접 연결된다. 그것은 다른 디바이스들 또는 수단들을 포함하는 경로일 수 있는 A의 출력과 B의 입력 사이의 경로에 존재하는 것을 의미한다. "결합된"은 2개 이상의 요소가 직접적으로 물리 또는 전기 접촉되는 것, 또는 2개 이상의 요소가 서로 직접 접촉하지 않지만 서로 아직도 협력하거나 상호작용하는 것을 의미할 수 있다.
따라서, 발명의 바람직한 실시예들인 것으로 생각되는 것이 설명되었지만, 본 기술분야의 통상의 기술자들은 다른 그리고 추가 수정들이 발명의 사상으로부터 벗어나는 것 없이 그것에 이루어질 수 있는 것, 및 발명의 범위 내에 있는 것으로 모든 그러한 변경들 및 수정들을 청구하도록 의도되는 것을 인식할 것이다. 예를 들어, 상기 주어진 임의의 공식들은 사용될 수 있는 절차들을 나타낼 뿐이다. 기능성은 블록도들로부터 추가되거나 삭제될 수 있고 동작들은 기능 블록들 중에서 교환될 수 있다. 단계들은 본 발명의 범위 내에서 설명되는 방법들에 추가되거나 삭제될 수 있다. 본 발명의 다양한 양태들은 이하의 열거된 예시된 실시예들(enumerated example embodiments)(EEESs)로부터 이해될 수 있다:
EEE 1. 오디오 채널들 또는 객체들의 제2 제시를 데이터 스트림으로 표현하는 방법으로서, 방법은,
(a) 한 세트의 베이스 신호들을 제공하는 단계 - 상기 베이스 신호들은 오디오 채널들 또는 객체들의 제1 제시를 표현함 -;
(b) 한 세트의 변환 파라미터들을 제공하는 단계 - 상기 변환 파라미터들은 상기 제1 제시를 상기 제2 제시로 변환하도록 의도되고; 상기 변환 파라미터들은 적어도 2개의 주파수 대역에 대해 추가로 지정되고 주파수 대역들 중 적어도 하나에 대한 한 세트의 다중 탭 컨볼루션 행렬 파라미터들을 포함함 -
를 포함하는 방법.
EEE 2. EEE 1에 있어서, 상기 세트의 필터 계수들은 유한 임펄스 응답(FIR) 필터를 표현하는 방법.
EEE 3. 임의의 이전 EEE에 있어서, 상기 세트의 베이스 신호들은 일련의 시간 세그먼트들로 분배되고, 한 세트의 변환 파라미터들은 각각의 시간 세그먼트를 위해 제공되는 방법.
EEE 4. 임의의 이전 EEE에 있어서, 상기 필터 계수들은 복소수 값인 적어도 하나의 계수를 포함하는 방법.
EEE 5. 임의의 이전 EEE에 있어서, 제1 또는 제2 제시는 헤드폰 재생을 위해 의도되는 방법.
EEE 6. 임의의 이전 EEE에 있어서, 더 높은 주파수들과 연관되는 변환 파라미터들은 신호 위상을 수정하지 않는 반면에, 더 낮은 주파수들에 대해, 변환 파라미터들은 신호 위상을 수정하는 방법.
EEE 7. 임의의 이전 EEE에 있어서, 상기 세트의 필터 계수들은 다중 탭 컨볼루션 행렬을 처리하기 위해 조작가능한 방법.
EEE 8. EEE 7에 있어서, 상기 세트의 필터 계수들은 낮은 주파수 대역을 처리하기 위해 이용되는 방법.
EEE 9. 임의의 이전 EEE에 있어서, 상기 세트의 베이스 신호들 및 상기 세트의 변환 파라미터들은 상기 데이터 스트림을 형성하기 위해 조합되는 방법.
EEE 10. 임의의 이전 EEE에 있어서, 상기 변환 파라미터들은 상기 세트의 베이스 신호들의 높은 주파수 부분의 행렬 조작을 위한 높은 주파수 오디오 행렬 계수들을 포함하는 방법.
EEE 11. EEE 10에 있어서,상기 세트의 베이스 신호들의 높은 주파수 부분의 중간 주파수 부분에 대해, 행렬 조작은 복소수 값 변환 파라미터들을 포함하는 방법.
EEE 12. 인코딩된 오디오 신호를 디코딩하기 위한 디코더로서, 상기 인코딩된 오디오 신호는,
상기 오디오의 재현을 위해 의도되는 한 세트의 오디오 베이스 신호들을 제1 오디오 제시 포맷으로 포함하는 제1 제시; 및
상기 제1 제시 포맷인 상기 오디오 베이스 신호들을 제2 제시 포맷으로 변환하기 위한 한 세트의 변환 파라미터들 - 상기 변환 파라미터들은 적어도 높은 주파수 오디오 변환 파라미터들 및 낮은 주파수 오디오 변환 파라미터들을 포함하고, 상기 낮은 주파수 변환 파라미터들은 다중 탭 컨볼루션 행렬 파라미터들을 포함함 - 을 포함하며,
디코더는,
세트의 오디오 베이스 신호들, 및 세트의 변환 파라미터들을 분리하기 위한 제1 분리 유닛,
상기 다중 탭 컨볼루션 행렬 파라미터들을 오디오 베이스 신호들의 낮은 주파수 성분들에 적용하기 위한 행렬 승산 유닛 - 컨볼루션을 낮은 주파수 성분들에 적용하기 위해, 컨볼빙된 낮은 주파수 성분들을 생성함 -; 및
스칼라 높은 주파수 성분들을 생성하기 위해 상기 높은 주파수 오디오 변환 파라미터들을 오디오 베이스 신호들의 높은 주파수 성분들에 적용하기 위한 스칼라 승산 유닛;
시간 도메인 출력 신호를 상기 제2 제시 포맷으로 생성하기 위해 상기 컨볼빙된 낮은 주파수 성분들 및 상기 스칼라 높은 주파수 성분들을 조합하기 위한 출력 필터 뱅크
를 포함하는 디코더.
EEE 13. EEE 12에 있어서, 상기 행렬 승산 유닛은 오디오 베이스 신호들의 낮은 주파수 성분들의 위상을 수정하는 디코더.
EEE 14. EEE 12 또는 EEE 13에 있어서, 상기 다중 탭 컨볼루션 행렬 변환 파라미터들은 복소수 값인 디코더.
EEE 15. EEE 12 내지 EEE 14 중 어느 하나에 있어서, 상기 높은 주파수 오디오 변환 파라미터들은 복소수 값인 디코더.
EEE 16. EEE 15에 있어서, 상기 세트의 변환 파라미터들은 실수 값 더 높은 주파수 오디오 변환 파라미터들을 더 포함하는 디코더.
EEE 17. EEE 12 내지 EEE 16 중 어느 하나에 있어서, 오디오 베이스 신호들을 상기 낮은 주파수 성분들 및 상기 높은 주파수 성분들로 분리하기 위한 필터들을 더 포함하는 디코더.
EEE 18. 인코딩된 오디오 신호를 디코딩하는 방법으로서, 인코딩된 오디오 신호는,
오디오의 재현을 위해 의도되는 한 세트의 오디오 베이스 신호들을 제1 오디오 제시 포맷으로 포함하는 제1 제시; 및
상기 제1 제시 포맷인 상기 오디오 베이스 신호들을 제2 제시 포맷으로 변환하기 위한 한 세트의 변환 파라미터들 - 상기 변환 파라미터들은 적어도 높은 주파수 오디오 변환 파라미터들 및 낮은 주파수 오디오 변환 파라미터들을 포함하고, 상기 낮은 주파수 변환 파라미터들은 다중 탭 컨볼루션 행렬 파라미터들을 포함함 - 을 포함하며,
방법은,
컨볼빙된 낮은 주파수 성분들을 생성하기 위해 오디오 베이스 신호들의 낮은 주파수 성분들을 낮은 주파수 변환 파라미터들과 컨볼빙하는 단계;
승산된 높은 주파수 성분들을 생성하기 위해 오디오 베이스 신호들의 높은 주파수 성분들을 높은 주파수 변환 파라미터들과 승산하는 단계;
제2 제시 포맷을 통한 재생을 위한 출력 오디오 신호 주파수 성분들을 생성하기 위해 상기 컨볼빙된 낮은 주파수 성분들 및 상기 승산된 높은 주파수 성분들을 조합하는 단계
를 포함하는 방법.
EEE 19. EEE 18에 있어서, 상기 인코딩된 신호는 다수의 시간 세그먼트들을 포함하고, 상기 방법은,
보간된 낮은 주파수 오디오 변환 파라미터들을 포함하는, 보간된 변환 파라미터들을 생성하기 위해 인코딩된 신호의 다수의 시간 세그먼트들의 변환 파라미터들을 보간하는 단계; 및
상기 컨볼빙된 낮은 주파수 성분들의 다수의 시간 세그먼트들을 생성하기 위해 오디오 베이스 신호들의 낮은 주파수 성분들의 다수의 시간 세그먼트들을 보간된 낮은 주파수 오디오 변환 파라미터들과 컨볼빙하는 단계를 더 포함하는 방법.
EEE 20. EEE 18에 있어서, 상기 인코딩된 오디오 신호의 세트의 변환 파라미터들은 시간 가변이고, 상기 방법은,
다수의 세트의 중간 컨볼빙된 낮은 주파수 성분들을 생성하기 위해 낮은 주파수 성분들을 다수의 시간 세그먼트들에 대한 낮은 주파수 변환 파라미터들과 컨볼빙하는 단계;
상기 컨볼빙된 낮은 주파수 성분들을 생성하기 위해 다수의 세트의 중간 컨볼빙된 낮은 주파수 성분들을 보간하는 단계를 더 포함하는 방법.
EEE 21. EEE 19 또는 EEE 20에 있어서, 상기 보간하는 단계는 다수의 세트의 중간 컨볼빙된 낮은 주파수 성분들의 중복 및 가산 방법을 이용하는 방법.
EEE 22. EEE 18 내지 EEE 21 중 어느 하나에 있어서, 오디오 베이스 신호들을 상기 낮은 주파수 성분들 및 상기 높은 주파수 성분들로 필터링하는 단계를 더 포함하는 방법.
EEE 23. EEE 1 내지 EEE 11, 및 EEE 18 내지 EEE 22 중 어느 하나의 방법에 따라 컴퓨터의 동작을 위한 프로그램 명령어들을 포함하는 컴퓨터 판독가능 비일시적 저장 매체.

Claims (25)

  1. 오디오 채널들 또는 객체들의 제2 제시(presentation)를 데이터 스트림으로 표현하기 위한 방법으로서,
    (a) 베이스 신호들을 제공하는 단계 - 상기 베이스 신호들은 상기 오디오 채널들 또는 객체들의 제1 제시를 표현함 -; 및
    (b) 변환 파라미터들을 제공하는 단계 - 상기 변환 파라미터들은 상기 제1 제시의 베이스 신호들을 상기 제2 제시의 출력 신호들로 변환하도록 의도되고; 상기 변환 파라미터들은 적어도 2개의 주파수 대역에 대해 각각 지정되고 상기 주파수 대역들 중 적어도 하나에 대한 한 세트의 다중 탭 컨볼루션 행렬 파라미터들을 포함하고; 상기 제1 제시는 확성기 재생을 위해 의도되고 상기 제2 제시는 헤드폰 재생을 위해 의도되거나, 그 역도 또한 같음 -
    를 포함하는 방법.
  2. 제1항에 있어서,
    상기 다중 탭 컨볼루션 행렬 파라미터들은 유한 임펄스 응답(FIR) 필터를 나타내는 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 베이스 신호들은 일련의 시간 세그먼트들로 분배되고, 변환 파라미터들은 각각의 시간 세그먼트를 위해 제공되는 방법.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서,
    상기 다중 탭 컨볼루션 행렬 파라미터들은 복소수 값인 적어도 하나의 계수를 포함하는 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 베이스 신호들을 제공하는 단계는 제1 렌더링 파라미터들을 사용하여 상기 오디오 채널들 또는 객체들로부터 상기 베이스 신호들을 결정하는 단계를 포함하고;
    상기 방법은 제2 렌더링 파라미터들을 사용하여 상기 오디오 채널들 또는 객체들로부터 상기 제2 제시에 대한 원하는 출력 신호들을 결정하는 단계를 포함하고;
    상기 변환 파라미터들을 제공하는 단계는 상기 원하는 출력 신호들로부터 상기 출력 신호들의 편차를 최소화함으로써 상기 변환 파라미터들을 결정하는 단계를 포함하는 방법.
  6. 제5항에 있어서,
    상기 변환 파라미터들을 결정하는 단계는,
    인코더 필터 뱅크를 사용하여 B 주파수 대역들에 대한 부대역 도메인 베이스 신호들을 결정하는 단계;
    상기 인코더 필터 뱅크를 사용하여 상기 B 주파수 대역들에 대한 부대역 도메인 원하는 출력 신호들을 결정하는 단계; 및
    상기 B 주파수 대역들의 적어도 2개의 인접한 주파수 대역에 대한 동일한 세트의 다중 탭 컨볼루션 행렬 파라미터들을 결정하는 단계
    를 포함하는 방법.
  7. 제6항에 있어서,
    상기 인코더 필터 뱅크는 상기 B 주파수 대역들의 높은 주파수 대역들보다 더 높은 주파수 분해능을 갖는 상기 B 주파수 대역들의 낮은 주파수 대역들을 제공하는 혼성 필터 뱅크를 포함하고;
    상기 적어도 2개의 인접한 주파수 대역은 낮은 주파수 대역들인 방법.
  8. 제7항에 있어서,
    상기 변환 파라미터들을 결정하는 단계는 적어도 2개의 인접한 높은 주파수 대역에 대한 동일한 실수 값 변환 파라미터를 결정하는 단계를 포함하는 방법.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 적어도 2개의 주파수 대역은 더 낮은 주파수 대역 및 더 높은 주파수 대역을 포함하고,
    상기 더 높은 주파수 대역에 대해 지정되는 상기 변환 파라미터들은 상기 베이스 신호들의 신호 위상을 수정하지 않고,
    상기 더 낮은 주파수 대역에 대해 지정되는 상기 변환 파라미터들은 상기 베이스 신호의 신호 위상을 수정하는 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,
    상기 다중 탭 컨볼루션 행렬 파라미터들은 낮은 주파수 대역을 처리하기 위해 이용되는 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서,
    상기 베이스 신호들 및 상기 변환 파라미터들은 상기 데이터 스트림을 형성하기 위해 조합되는 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서,
    상기 변환 파라미터들은 상기 베이스 신호들의 높은 주파수 부분의 행렬 조작을 위한 높은 주파수 오디오 행렬 계수들을 포함하는 방법.
  13. 제12항에 있어서,
    상기 베이스 신호들의 높은 주파수 부분의 중간 주파수 부분에 대해, 상기 행렬 조작은 복소수 값 변환 파라미터들을 포함하는 방법.
  14. 인코딩된 오디오 신호를 디코딩하기 위한 디코더로서,
    상기 인코딩된 오디오 신호는,
    상기 인코딩된 오디오 신호의 재현을 위해 의도되는 오디오 베이스 신호들을 제1 오디오 제시 포맷으로 포함하는 제1 제시; 및
    상기 제1 제시 포맷인 상기 오디오 베이스 신호들을 제2 제시 포맷의 출력 신호들로 변환하기 위한 변환 파라미터들 - 상기 변환 파라미터들은 높은 주파수 오디오 변환 파라미터들 및 낮은 주파수 오디오 변환 파라미터들을 포함하고, 상기 낮은 주파수 변환 파라미터들은 다중 탭 컨볼루션 행렬 파라미터들을 포함하고, 상기 제1 제시 포맷은 확성기 재생을 위해 의도되고 상기 제2 제시 포맷은 헤드폰 재생을 위해 의도되거나, 그 역도 또한 같음 -
    을 포함하고,
    상기 디코더는,
    상기 오디오 베이스 신호들 및 상기 변환 파라미터들을 분리하기 위한 제1 분리 유닛;
    상기 다중 탭 컨볼루션 행렬 파라미터들을 상기 오디오 베이스 신호들의 낮은 주파수 성분들에 적용하기 위한 행렬 승산 유닛 - 컨볼루션을 상기 낮은 주파수 성분들에 적용하기 위해, 컨볼빙된(convolved) 낮은 주파수 성분들을 생성함 -;
    스칼라 높은 주파수 성분들을 생성하기 위해 상기 높은 주파수 오디오 변환 파라미터들을 상기 오디오 베이스 신호들의 높은 주파수 성분들에 적용하기 위한 스칼라 승산 유닛; 및
    상기 제2 제시 포맷의 시간 도메인 출력 신호를 생성하기 위해 상기 컨볼빙된 낮은 주파수 성분들 및 상기 스칼라 높은 주파수 성분들을 조합하기 위한 출력 필터 뱅크
    를 포함하는 디코더.
  15. 제14항에 있어서,
    상기 행렬 승산 유닛은 상기 오디오 베이스 신호들의 낮은 주파수 성분들의 위상을 수정하는 디코더.
  16. 제14항 또는 제15항에 있어서,
    상기 다중 탭 컨볼루션 행렬 변환 파라미터들은 복소수 값인 디코더.
  17. 제14항 내지 제16항 중 어느 한 항에 있어서,
    상기 높은 주파수 오디오 변환 파라미터들은 복소수 값인 디코더.
  18. 제17항에 있어서,
    상기 변환 파라미터들은 실수 값 높은 주파수 오디오 변환 파라미터들을 더 포함하는 디코더.
  19. 제14항 내지 제18항 중 어느 한 항에 있어서,
    상기 오디오 베이스 신호들을 상기 낮은 주파수 성분들 및 상기 높은 주파수 성분들로 분리하기 위한 필터들을 더 포함하는 디코더.
  20. 인코딩된 오디오 신호를 디코딩하기 위한 방법으로서,
    상기 인코딩된 오디오 신호는,
    상기 인코딩된 오디오 신호의 재현을 위해 의도되는 오디오 베이스 신호들을 제1 오디오 제시 포맷으로 포함하는 제1 제시; 및
    상기 제1 제시 포맷인 상기 오디오 베이스 신호들을 제2 제시 포맷의 출력 신호들로 변환하기 위한 변환 파라미터들 - 상기 변환 파라미터들은 높은 주파수 오디오 변환 파라미터들 및 낮은 주파수 오디오 변환 파라미터들을 포함하고, 상기 낮은 주파수 변환 파라미터들은 다중 탭 컨볼루션 행렬 파라미터들을 포함하고, 상기 제1 제시 포맷은 확성기 재생을 위해 의도되고 상기 제2 제시 포맷은 헤드폰 재생을 위해 의도되거나, 그 역도 또한 같음 -
    을 포함하고,
    상기 방법은,
    컨볼빙된 낮은 주파수 성분들을 생성하기 위해 상기 오디오 베이스 신호들의 낮은 주파수 성분들을 상기 낮은 주파수 변환 파라미터들과 컨볼빙하는 단계;
    승산된 높은 주파수 성분들을 생성하기 위해 상기 오디오 베이스 신호들의 높은 주파수 성분들을 상기 높은 주파수 변환 파라미터들과 승산하는 단계;
    상기 제2 제시 포맷에 대한 출력 오디오 신호 주파수 성분들을 생성하기 위해 상기 컨볼빙된 낮은 주파수 성분들 및 상기 승산된 높은 주파수 성분들을 조합하는 단계
    를 포함하는 방법.
  21. 제20항에 있어서,
    상기 인코딩된 오디오 신호는 다수의 시간 세그먼트들을 포함하고,
    상기 방법은,
    보간된 낮은 주파수 오디오 변환 파라미터들을 포함하는, 보간된 변환 파라미터들을 생성하기 위해 상기 인코딩된 오디오 신호의 다수의 시간 세그먼트들의 변환 파라미터들을 보간하는 단계; 및
    상기 컨볼빙된 낮은 주파수 성분들의 다수의 시간 세그먼트들을 생성하기 위해 상기 오디오 베이스 신호들의 낮은 주파수 성분들의 다수의 시간 세그먼트들을 상기 보간된 낮은 주파수 오디오 변환 파라미터들과 컨볼빙하는 단계
    를 더 포함하는 방법.
  22. 제20항에 있어서,
    상기 인코딩된 오디오 신호의 변환 파라미터들은 시간 가변이고, 상기 오디오 베이스 신호들의 낮은 주파수 성분들을 컨볼빙하는 단계는,
    다수의 세트의 중간 컨볼빙된 낮은 주파수 성분들을 생성하기 위해 상기 오디오 베이스 신호들의 낮은 주파수 성분들을 다수의 시간 세그먼트들에 대한 상기 낮은 주파수 변환 파라미터들과 컨볼빙하는 단계; 및
    상기 컨볼빙된 낮은 주파수 성분들을 생성하기 위해 상기 다수의 세트의 중간 컨볼빙된 낮은 주파수 성분들을 보간하는 단계
    를 포함하는 방법.
  23. 제20항 또는 제22항에 있어서,
    상기 보간하는 단계는 상기 다수의 세트의 중간 컨볼빙된 낮은 주파수 성분들의 중복 및 가산 방법을 이용하는 방법.
  24. 제20항 내지 제23항 중 어느 한 항에 있어서,
    상기 오디오 베이스 신호들을 상기 낮은 주파수 성분들 및 상기 높은 주파수 성분들로 필터링하는 단계를 더 포함하는 방법.
  25. 제1항 내지 제13항 및 제20항 내지 제24항 중 어느 한 항의 방법에 따른 컴퓨터의 동작을 위한 프로그램 명령어들을 포함하는 컴퓨터 판독가능 비일시적 저장 매체.
KR1020187008298A 2015-08-25 2016-08-23 오디오 디코더 및 디코딩 방법 KR102517867B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020237011008A KR20230048461A (ko) 2015-08-25 2016-08-23 오디오 디코더 및 디코딩 방법

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201562209742P 2015-08-25 2015-08-25
US62/209,742 2015-08-25
EP15189008.4 2015-10-08
EP15189008 2015-10-08
PCT/US2016/048233 WO2017035163A1 (en) 2015-08-25 2016-08-23 Audo decoder and decoding method

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020237011008A Division KR20230048461A (ko) 2015-08-25 2016-08-23 오디오 디코더 및 디코딩 방법

Publications (2)

Publication Number Publication Date
KR20180042392A true KR20180042392A (ko) 2018-04-25
KR102517867B1 KR102517867B1 (ko) 2023-04-05

Family

ID=54288726

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020187008298A KR102517867B1 (ko) 2015-08-25 2016-08-23 오디오 디코더 및 디코딩 방법
KR1020237011008A KR20230048461A (ko) 2015-08-25 2016-08-23 오디오 디코더 및 디코딩 방법

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020237011008A KR20230048461A (ko) 2015-08-25 2016-08-23 오디오 디코더 및 디코딩 방법

Country Status (12)

Country Link
US (3) US10672408B2 (ko)
EP (3) EP4254406A3 (ko)
JP (2) JP6797187B2 (ko)
KR (2) KR102517867B1 (ko)
CN (3) CN108353242B (ko)
AU (3) AU2016312404B2 (ko)
CA (1) CA2999271A1 (ko)
EA (2) EA201992556A1 (ko)
ES (1) ES2956344T3 (ko)
HK (1) HK1257672A1 (ko)
PH (1) PH12018500649A1 (ko)
WO (1) WO2017035163A1 (ko)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6797187B2 (ja) 2015-08-25 2020-12-09 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ・デコーダおよびデコード方法
KR20240028560A (ko) 2016-01-27 2024-03-05 돌비 레버러토리즈 라이쎈싱 코오포레이션 음향 환경 시뮬레이션
JP7023848B2 (ja) 2016-01-29 2022-02-22 ドルビー ラボラトリーズ ライセンシング コーポレイション バイノーラル・ダイアログ向上
FR3048808A1 (fr) * 2016-03-10 2017-09-15 Orange Codage et decodage optimise d'informations de spatialisation pour le codage et le decodage parametrique d'un signal audio multicanal
CN110326310B (zh) 2017-01-13 2020-12-29 杜比实验室特许公司 串扰消除的动态均衡
DE112019004193T5 (de) * 2018-08-21 2021-07-15 Sony Corporation Audiowiedergabevorrichtung, audiowiedergabeverfahren und audiowiedergabeprogramm
JP2021184509A (ja) * 2018-08-29 2021-12-02 ソニーグループ株式会社 信号処理装置、信号処理方法、及び、プログラム
MX2021012309A (es) 2019-04-15 2021-11-12 Dolby Int Ab Mejora de dialogo en codec de audio.
JP7286876B2 (ja) * 2019-09-23 2023-06-05 ドルビー ラボラトリーズ ライセンシング コーポレイション 変換パラメータによるオーディオ符号化/復号化
CN112133319A (zh) * 2020-08-31 2020-12-25 腾讯音乐娱乐科技(深圳)有限公司 音频生成的方法、装置、设备及存储介质
CN112489668B (zh) * 2020-11-04 2024-02-02 北京百度网讯科技有限公司 去混响方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100063113A (ko) * 2007-10-09 2010-06-10 코닌클리즈케 필립스 일렉트로닉스 엔.브이. 바이노럴 오디오 신호를 생성하기 위한 방법 및 장치
KR20110082553A (ko) * 2008-10-07 2011-07-19 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 멀티-채널 오디오 신호의 바이노럴 렌더링

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1995034883A1 (fr) 1994-06-15 1995-12-21 Sony Corporation Processeur de signaux et dispositif de reproduction sonore
US5956674A (en) 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
US6115689A (en) * 1998-05-27 2000-09-05 Microsoft Corporation Scalable audio coder and decoder
JP4300380B2 (ja) * 1999-12-02 2009-07-22 ソニー株式会社 オーディオ再生装置およびオーディオ再生方法
AU2002343151A1 (en) * 2001-11-23 2003-06-10 Koninklijke Philips Electronics N.V. Perceptual noise substitution
US7548852B2 (en) 2003-06-30 2009-06-16 Koninklijke Philips Electronics N.V. Quality of decoded audio by adding noise
JP4171675B2 (ja) 2003-07-15 2008-10-22 パイオニア株式会社 音場制御システム、および音場制御方法
EP1683133B1 (en) * 2003-10-30 2007-02-14 Koninklijke Philips Electronics N.V. Audio signal encoding or decoding
US8363865B1 (en) 2004-05-24 2013-01-29 Heather Bottum Multiple channel sound system using multi-speaker arrays
US7720230B2 (en) 2004-10-20 2010-05-18 Agere Systems, Inc. Individual channel shaping for BCC schemes and the like
DE102005010057A1 (de) 2005-03-04 2006-09-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Erzeugen eines codierten Stereo-Signals eines Audiostücks oder Audiodatenstroms
KR100891686B1 (ko) * 2005-08-30 2009-04-03 엘지전자 주식회사 오디오 신호의 인코딩 및 디코딩 장치, 및 방법
KR101562379B1 (ko) 2005-09-13 2015-10-22 코닌클리케 필립스 엔.브이. 공간 디코더 유닛 및 한 쌍의 바이노럴 출력 채널들을 생성하기 위한 방법
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
WO2007080211A1 (en) * 2006-01-09 2007-07-19 Nokia Corporation Decoding of binaural audio signals
JP5147727B2 (ja) * 2006-01-19 2013-02-20 エルジー エレクトロニクス インコーポレイティド 信号デコーディング方法及び装置
CN101379553B (zh) * 2006-02-07 2012-02-29 Lg电子株式会社 用于编码/解码信号的装置和方法
KR100983286B1 (ko) * 2006-02-07 2010-09-24 엘지전자 주식회사 부호화/복호화 장치 및 방법
US8174415B2 (en) 2006-03-31 2012-05-08 Silicon Laboratories Inc. Broadcast AM receiver, FM receiver and/or FM transmitter with integrated stereo audio codec, headphone drivers and/or speaker drivers
CN101136202B (zh) * 2006-08-29 2011-05-11 华为技术有限公司 音频信号处理系统、方法以及音频信号收发装置
EP2102858A4 (en) 2006-12-07 2010-01-20 Lg Electronics Inc METHOD AND DEVICE FOR PROCESSING AN AUDIO SIGNAL
US8527282B2 (en) 2007-11-21 2013-09-03 Lg Electronics Inc. Method and an apparatus for processing a signal
EP2224431A1 (en) * 2009-02-26 2010-09-01 Research In Motion Limited Methods and devices for performing a fast modified discrete cosine transform of an input sequence
TWI557723B (zh) * 2010-02-18 2016-11-11 杜比實驗室特許公司 解碼方法及系統
PL3570278T3 (pl) * 2010-03-09 2023-03-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Rekonstrukcja wysokiej częstotliwości wejściowego sygnału audio przy użyciu kaskadowych banków filtrów
AU2011358654B2 (en) * 2011-02-09 2017-01-05 Telefonaktiebolaget L M Ericsson (Publ) Efficient encoding/decoding of audio signals
EP2719197A2 (en) * 2011-06-13 2014-04-16 Shakeel Naksh Bandi P Pyarejan SYED System for producing 3 dimensional digital stereo surround sound natural 360 degrees (3d dssr n-360)
US8653354B1 (en) 2011-08-02 2014-02-18 Sonivoz, L.P. Audio synthesizing systems and methods
TWI479905B (zh) 2012-01-12 2015-04-01 Univ Nat Central Multi-channel down mixing device
EP2658120B1 (en) 2012-04-25 2016-04-13 GN Resound A/S A hearing aid with improved compression
US8781008B2 (en) * 2012-06-20 2014-07-15 MagnaCom Ltd. Highly-spectrally-efficient transmission using orthogonal frequency division multiplexing
US9384741B2 (en) * 2013-05-29 2016-07-05 Qualcomm Incorporated Binauralization of rotated higher order ambisonics
US9369818B2 (en) * 2013-05-29 2016-06-14 Qualcomm Incorporated Filtering with binaural room impulse responses with content analysis and weighting
US9025711B2 (en) * 2013-08-13 2015-05-05 Applied Micro Circuits Corporation Fast filtering for a transceiver
CN103763037B (zh) * 2013-12-17 2017-02-22 记忆科技(深圳)有限公司 一种动态补偿接收器及动态补偿接收方法
JP6797187B2 (ja) 2015-08-25 2020-12-09 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ・デコーダおよびデコード方法
AU2016311335B2 (en) 2015-08-25 2021-02-18 Dolby International Ab Audio encoding and decoding using presentation transform parameters

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20100063113A (ko) * 2007-10-09 2010-06-10 코닌클리즈케 필립스 일렉트로닉스 엔.브이. 바이노럴 오디오 신호를 생성하기 위한 방법 및 장치
KR20110082553A (ko) * 2008-10-07 2011-07-19 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 멀티-채널 오디오 신호의 바이노럴 렌더링

Also Published As

Publication number Publication date
CN111970630A (zh) 2020-11-20
EP3342188A1 (en) 2018-07-04
KR20230048461A (ko) 2023-04-11
AU2023202400A1 (en) 2023-05-11
AU2016312404A1 (en) 2018-04-12
CN108353242A (zh) 2018-07-31
EP3748994B1 (en) 2023-08-16
HK1257672A1 (zh) 2019-10-25
EA201890557A1 (ru) 2018-08-31
WO2017035163A1 (en) 2017-03-02
JP2018529121A (ja) 2018-10-04
US20200357420A1 (en) 2020-11-12
JP6797187B2 (ja) 2020-12-09
CN111970629A (zh) 2020-11-20
AU2021201082A1 (en) 2021-03-11
US20230360659A1 (en) 2023-11-09
US20220399027A1 (en) 2022-12-15
AU2016312404A8 (en) 2018-04-19
US11705143B2 (en) 2023-07-18
EA034371B1 (ru) 2020-01-31
US11423917B2 (en) 2022-08-23
ES2956344T3 (es) 2023-12-19
CN108353242B (zh) 2020-10-02
KR102517867B1 (ko) 2023-04-05
JP2023053304A (ja) 2023-04-12
EP4254406A3 (en) 2023-11-22
EA201992556A1 (ru) 2021-03-31
EP3342188B1 (en) 2020-08-12
WO2017035163A9 (en) 2017-05-18
AU2021201082B2 (en) 2023-01-19
CN111970629B (zh) 2022-05-17
EP4254406A2 (en) 2023-10-04
AU2016312404B2 (en) 2020-11-26
US20180233156A1 (en) 2018-08-16
PH12018500649A1 (en) 2018-10-01
EP3748994A1 (en) 2020-12-09
CA2999271A1 (en) 2017-03-02
CN111970630B (zh) 2021-11-02
US10672408B2 (en) 2020-06-02

Similar Documents

Publication Publication Date Title
AU2021201082B2 (en) Audio decoder and decoding method
CA2999328C (en) Audio encoding and decoding using presentation transform parameters
US12002480B2 (en) Audio decoder and decoding method
JP7229218B2 (ja) データ・ストリームを形成するための方法、媒体、システム
EA041656B1 (ru) Аудиодекодер и способ декодирования

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right