KR20130101522A - 확산 사운드의 공간 오디오 인코딩 및 재생 - Google Patents

확산 사운드의 공간 오디오 인코딩 및 재생 Download PDF

Info

Publication number
KR20130101522A
KR20130101522A KR1020137008267A KR20137008267A KR20130101522A KR 20130101522 A KR20130101522 A KR 20130101522A KR 1020137008267 A KR1020137008267 A KR 1020137008267A KR 20137008267 A KR20137008267 A KR 20137008267A KR 20130101522 A KR20130101522 A KR 20130101522A
Authority
KR
South Korea
Prior art keywords
audio
metadata
audio signal
engine
echo
Prior art date
Application number
KR1020137008267A
Other languages
English (en)
Other versions
KR101863387B1 (ko
Inventor
장-마르크 조트
제임스 디. 존스톤
스테픈 알. 해스팅스
Original Assignee
디티에스, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 디티에스, 인코포레이티드 filed Critical 디티에스, 인코포레이티드
Publication of KR20130101522A publication Critical patent/KR20130101522A/ko
Application granted granted Critical
Publication of KR101863387B1 publication Critical patent/KR101863387B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10KSOUND-PRODUCING DEVICES; METHODS OR DEVICES FOR PROTECTING AGAINST, OR FOR DAMPING, NOISE OR OTHER ACOUSTIC WAVES IN GENERAL; ACOUSTICS NOT OTHERWISE PROVIDED FOR
    • G10K15/00Acoustics not otherwise provided for
    • G10K15/08Arrangements for producing a reverberation or echo sound
    • G10K15/12Arrangements for producing a reverberation or echo sound using electronic time-delay networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/15Aspects of sound capture and related signal processing for recording or reproduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Stereophonic System (AREA)

Abstract

방법 및 장치는 콘텐츠 생성기에 의해 제어되고 원하는 정도 및 양의 확산을 표현하는 시간-가변 메타데이터와 동기식 관계로 "건조" 오디오 트랙 또는 "스템"을 인코딩하고, 전송하거나 또는 레코딩함으로써 멀티채널 오디오를 프로세싱한다. 오디오 트랙은 확산 및 바람직하게는 또한 믹스 및 감쇠 파라미터를 표현하는 동기화된 메타데이터와 관련하여 압축되고 전송된다. 확산 메타데이터로부터 오디오 스템의 분리는 로컬 재생 환경의 특성을 고려하여 수신기에서 재생의 맞춤화를 용이하게 한다.

Description

확산 사운드의 공간 오디오 인코딩 및 재생 {SPATIAL AUDIO ENCODING AND REPRODUCTION OF DIFFUSE SOUND}
상호 참조 문헌
본 출원은 2010년 9월 8일 출원된 미국 가출원 제61/380,975호의 우선권을 주장한다.
발명의 분야
본 발명은 일반적으로 고충실도 오디오 재생에 관한 것으로서, 더 구체적으로는 디지털 오디오, 특히 인코딩 또는 압축된 멀티채널 오디오 신호의 발신, 전송, 레코딩 및 재생에 관한 것이다.
디지털 오디오 레코딩, 전송 및 재생은 오디오 및/또는 비디오 정보를 레코딩하여 청취자에 전송하기 위해 표준 선명도(definition) DVD, 고선명도 광학 매체(예를 들어, "블루레이 디스크") 또는 자기 저장 장치(하드 디스크)와 같은 다수의 매체를 이용하고 있다. 라디오, 마이크로파, 광 파이버 또는 케이블형 네트워크와 같은 더 임시적인 채널이 또한 디지털 오디오를 전송하고 수신하는 데 사용된다. 오디오 및 비디오 전송을 위해 이용 가능한 증가하는 대역폭은 다양한 멀티채널 압축된 오디오 포맷의 광범위한 채택을 유도한다. 일 이러한 대중적인 포맷이 DTS Inc.에 양도된 미국 특허 제5,974,380호, 제5,978,762호 및 제6,487,535호에 설명되어 있다(상표명 "DTS" 서라운드 사운드 하에서 광범위하게 입수 가능함).
홈 뷰잉을 위해 소비자에게 배포된 많은 오디오 콘텐츠는 극장에서 릴리즈된 극장 장편 영화에 대응한다. 사운드트랙은 통상적으로 상당한 크기의 극장 환경에서 극장 상연을 향한 뷰와 믹싱된다. 이러한 사운드트랙은 통상적으로 청취자(극장에 착석하고 있는)가 하나 이상의 스피커에 근접해 있지만, 다른 스피커들로부터 멀리 있을 수 있다고 가정한다. 대화는 통상적으로 중앙 프론트 채널에 제한된다. 좌/우 및 서라운드 이미징은 취해진 좌석 배열에 의해 그리고 극장의 크기에 의해 제약된다. 요약하면, 극장 사운드트랙은 더 대형의 극장에서의 재생에 가장 적합된 믹스로 이루어진다.
다른 한편으로, 가정 청취자는 통상적으로 설득력 있는 공간 음향 이미지를 더 양호하게 허용하도록 배열된 더 고품질 서라운드 사운드 스피커를 갖는 작은 룸에 착석한다. 홈시어터는 소형이고 짧은 반향 시간을 갖는다. 가정을 위한 그리고 극장 청취를 위한 상이한 믹스를 릴리즈하는 것이 가능하지만, 이는 거의 행해지지 않는다(가능하게는 경제적 이유로). 레가시 콘텐츠에 대해, 원본 멀티-트랙 "스템"(원본의 믹싱되지 않은 사운드 파일)이 이용 가능하지 않을 수도 있기 때문에(또는 권리를 얻기가 어렵기 때문에) 통상적으로 가능하지 않다. 큰 룸 및 작은 룸의 모두를 향한 뷰와 믹싱하는 사운드 엔지니어는 반드시 절충을 행해야 한다. 사운드트랙 내로의 반향 또는 확산 사운드의 도입은 다양한 재생 공간의 반향 특성의 차이에 기인하여 특히 문제가 있다.
이 상황은 홈시어터 청취자, 심지어 고가의 서라운드-사운드 시스템에 투자한 청취자를 위한 최적보다 못한 음향 경험을 산출한다.
Baumgarte 등의 미국 특허 제7,583,805호는 파라메트릭 코딩(parametric coding)을 위한 채널간 상관 큐에 기초하여 오디오 신호의 스테레오 및 멀티채널 합성을 위한 시스템을 제안하고 있다. 이들의 시스템은 전송된 조합된 (합산) 신호로부터 유도되는 확산 사운드를 생성한다. 이들의 시스템은 원격 회의와 같은 낮은 비트레이트 용례를 위해 명백하게 의도된다. 전술된 특허는 주파수 도메인 표현에서 시뮬레이팅된 확산 신호를 생성하기 위해 시간 대 주파수 변환 기술, 필터 및 반향의 사용을 개시하고 있다. 개시된 기술은 믹싱 엔지니어에 예술적 제어를 제공하지 않고, 레코딩 중에 측정된 채널간 상관성(coherence)에 기초하여 시뮬레이팅된 반향 신호의 제한된 범위만을 합성하는 데 적합하다. 개시된 "확산" 신호는 인간의 귀가 자연적으로 분석할 수 있는 적절한 종류의 "확산" 또는 "비상관화"보다는 오디오 신호의 분석적 측정에 기초한다. Baumgarte의 특허에 개시된 반향 기술은 또한 다소 연산 수요적이고, 따라서 더 실용적인 구현예에서 비효율적이다.
본 발명에 따르면, 방법 및 장치는 콘텐츠 생성기에 의해 제어되고 원하는 정도 및 양의 확산을 표현하는 시간-가변 메타데이터와 동기식 관계로 "건조" 오디오 트랙 또는 "스템"을 인코딩하고, 전송하거나 또는 레코딩함으로써 멀티채널 오디오를 조절하기 위한 다수의 실시예가 제공된다. 오디오 트랙은 확산 및 바람직하게는 또한 믹스 및 감쇠 파라미터를 표현하는 동기화된 메타데이터와 관련하여 압축되고 전송된다. 확산 메타데이터로부터 오디오 스템의 분리는 로컬 재생 환경의 특성을 고려하여 수신기에서 재생의 맞춤화를 용이하게 한다.
본 발명의 제1 양태에서, 사운드를 표현하는 인코딩된 디지털 오디오 신호를 조절하기 위한 방법이 제공된다. 이 방법은 청취 환경에서 상기 오디오 신호 데이터의 원하는 렌더링을 파라메트릭하게 표현하는 인코딩된 메타데이터를 수신하는 단계를 포함한다. 메타데이터는 적어도 하나의 오디오 채널 내에 지각적 확산 오디오 효과를 구성하도록 디코딩되는 것이 가능한 적어도 하나의 파라미터를 포함한다. 방법은 상기 디지털 오디오 신호를 상기 파라미터에 응답하여 구성된 상기 지각적 확산 오디오 효과로 프로세싱하여, 프로세싱된 디지털 오디오 신호를 생성하는 단계를 포함한다.
다른 실시예에서, 전송 또는 레코딩을 위해 디지털 오디오 입력 신호를 조절하기 위한 방법이 제공된다. 방법은 인코딩된 디지털 오디오 신호를 생성하기 위해 상기 디지털 오디오 입력 신호를 압축하는 것을 포함한다. 방법은 사용자 입력에 응답하여 메타데이터의 세트를 생성함으로써 계속되고, 상기 메타데이터의 세트는 원하는 재생 신호를 생성하기 위해 상기 디지털 오디오 신호의 적어도 하나의 채널에 인가될 사용자 선택 가능 확산 특성을 표현한다. 방법은 조합된 인코딩된 신호를 생성하기 위해 동기식 관계로 상기 인코딩된 디지털 오디오 신호 및 상기 메타데이터의 세트를 멀티플렉싱함으로써 완료된다.
대안적인 실시예에서, 재생을 위해 디지털화된 오디오를 인코딩하고 재생하기 위한 방법이 제공된다. 방법은 인코딩된 오디오 신호를 생성하기 위해 디지털화된 오디오 신호를 인코딩하는 것을 포함한다. 방법은 사용자 입력에 응답하고 상기 인코딩된 오디오 신호와 동기식 관계로 시간-가변 렌더링 파라미터의 세트를 인코딩함으로써 계속된다. 렌더링 파라미터는 가변 지각적 확산 효과의 사용자 선택을 표현한다.
본 발명의 제2 양태에서, 디지털 방식으로 표현된 오디오 데이터로 레코딩된, 레코딩된 데이터 저장 매체가 제공된다. 레코딩된 데이터 저장 매체는 데이터 프레임 내로 포맷된 멀티채널 오디오 신호를 표현하는 압축된 오디오 데이터와, 상기 압축된 오디오 데이터와 동기식 관계로 전달하도록 포맷된 사용자 선택된 시간-가변 렌더링 파라미터의 세트를 포함한다. 렌더링 파라미터는 재생시에 상기 멀티채널 오디오 신호를 수정하기 위해 인가될 시간-가변 확산 효과의 사용자 선택을 표현한다.
다른 실시예에서, 디지털 오디오 신호를 조절하기 위한 구성 가능한 오디오 확산 프로세서로서, 상기 디지털 오디오 신호와 동기식 관계로 렌더링 파라미터를 수신하도록 배열된 파라미터 디코딩 모듈을 포함하는 구성 가능한 오디오 확산 프로세서가 제공된다. 확산 프로세서의 바람직한 실시예에서, 구성 가능한 반향기 모듈은 상기 디지털 오디오 신호를 수신하도록 배열되고 상기 파라미터 디코딩 모듈로부터 제어에 응답한다. 반향기 모듈은 상기 파라미터 디코딩 모듈로부터의 제어에 응답하여 시간 감쇠 상수를 변경하도록 동적으로 재구성 가능하다.
본 발명의 제3 양태에서, 인코딩된 오디오 신호를 수신하고 복제 디코딩된 오디오 신호를 재생하는 방법이 제공된다. 인코딩된 오디오 신호는 멀티채널 오디오 신호를 표현하는 오디오 데이터 및 상기 오디오 데이터와 동기식 관계로 전달하도록 포맷된 사용자 선택된 시간-가변 렌더링 파라미터의 세트를 포함한다. 방법은 상기 인코딩된 오디오 신호 및 상기 렌더링 파라미터를 수신하는 것을 포함한다. 방법은 복제 오디오 신호를 생성하도록 상기 인코딩 오디오 신호를 디코딩함으로써 계속된다. 방법은 상기 렌더링 파라미터에 응답하여 오디오 확산 프로세서를 구성하는 것을 포함한다. 방법은 지각적 확산 복제 오디오 신호를 생성하기 위해 상기 오디오 확산 프로세서로 상기 복제 오디오 신호를 프로세싱함으로써 완료된다.
다른 실시예에서, 멀티채널 디지털 오디오 신호로부터 멀티채널 오디오 사운드를 재생하는 방법이 제공된다. 방법은 지각적 확산 방식으로 상기 멀티채널 오디오 신호의 제1 채널을 재생하는 것을 포함한다. 방법은 지각적 직접 방식으로 적어도 하나의 다른 채널을 재생함으로써 완료된다. 제1 채널은 재생 전에 디지털 신호 프로세싱에 의해 지각적 확산 효과로 조절될 수 있다. 제1 채널은 명백한 사운드 소스를 확산하는 심리음향 효과를 생성하기 위해 충분히 복잡한 방식으로 변하는 주파수 의존성 지연을 도입함으로써 조절될 수 있다.
본 발명의 이들 및 다른 특징 및 장점은 첨부 도면과 함께 취한 이하의 바람직한 실시예의 상세한 설명으로부터 당 기술 분야의 숙련자들에게 명백할 것이다.
도 1은 기능적 모듈이 블록에 의해 상징적으로 표현되어 있는, 본 발명의 인코더 양태의 시스템 레벨 개략 다이어그램.
도 2는 기능적 모듈이 상징적으로 표현되어 있는, 본 발명의 디코더 양태의 시스템 레벨 개략 다이어그램.
도 3은 본 발명에 의해 사용을 위한 오디오, 제어 및 메타데이터를 팩킹하기 위해 적합한 데이터 포맷의 도면.
도 4는 기능적 모듈이 상징적으로 표현되어 있는, 본 발명에 사용된 오디오 확산 프로세서의 개략 다이어그램.
도 5는 기능적 모듈이 상징적으로 표현되어 있는, 도 4의 확산 엔진의 실시예의 개략 다이어그램.
도 5b는 기능적 모듈이 상징적으로 표현되어 있는, 도 4의 확산 엔진의 대안적인 실시예의 개략 다이어그램.
도 5c는 통상의 수평 라우드스피커 레이아웃에서 5-채널 유틸리티 확산기에 의해 청취자의 귀에서 얻어진 주파수(최대 400 Hz) 대 이간(interaural) 위상차(라디안 단위)의 예시적인 음파 플롯.
도 6은 기능적 모듈이 상징적으로 표현되어 있는, 도 5에 포함된 반향기 모듈의 개략 다이어그램.
도 7은 기능적 모듈이 상징적으로 표현되어 있는, 도 6의 반향기 모듈의 서브모듈을 구현하기 위해 적합한 전역 통과 필터의 개략 다이어그램.
도 8은 기능적 모듈이 상징적으로 표현되어 있는, 도 6의 반향기 모듈의 서브모듈을 구현하기 위해 적합한 피드백 콤 필터의 개략 다이어그램.
도 9는 도 5의 2개의 반향기(상이한 특정 파라미터를 갖는)를 비교하는, 간단화된 예에 대한 정규화된 주파수의 함수로서 지연의 그래프.
도 10은 본 발명의 디코더 양태에 사용을 위해 적합한 재생 환경에 관련하여 재생 환경 엔진의 개략 다이어그램.
도 11은 도 5의 확산 엔진에 사용을 위한 이득 및 지연 매트릭스를 계산하기 위해 유용한 "가상 마이크로폰 어레이"를 도시하고 있는, 몇몇 구성 요소가 상징적으로 표현되어 있는 다이어그램.
도 12는 기능적 모듈이 상징적으로 표현되어 있는, 도 4의 환경 엔진의 믹싱 엔진 서브모듈의 개략 다이어그램.
도 13은 본 발명의 인코더 양태에 따른 방법의 절차 흐름도.
도 14는 본 발명의 디코더 양태에 따른 방법의 절차 흐름도.
본 발명은 오디오 신호, 말하자면 물리적 사운드를 표현하는 신호의 프로세싱에 관한 것이다. 이들 신호는 디지털 전자 신호에 의해 표현된다. 이어지는 설명에서, 아날로그 파형이 개념을 도시하기 위해 도시되어 있거나 설명될 수 있지만, 본 발명의 통상의 실시예는 디지털 바이트 또는 워드의 타임 시리즈의 콘텍스트에서 동작할 것이고, 상기 바이트 또는 워드는 아날로그 신호 또는 (궁극적으로) 물리적 사운드의 이산 근사를 형성한다. 이산 디지털 신호는 주기적으로 샘플링된 오디오 파형의 디지털 표현에 대응한다. 당 기술 분야에 공지된 바와 같이, 파형은 적어도 관심 주파수에 대한 나이퀴스트(Nyquist) 샘플링 이론을 만족하는 데 충분한 레이트에서 샘플링되어야 한다. 예를 들어, 통상의 실시예에서, 대략 44만 1천 샘플/초의 샘플링 레이트가 사용될 수 있다. 96 kHz와 같은 더 높은 오버샘플링 레이트가 대안적으로 사용될 수 있다. 양자화 방안 및 비트 해상도는 당 기술 분야에 잘 알려진 원리에 따라, 특정 용례의 요구를 만족하도록 선택되어야 한다. 본 발명의 기술 및 장치는 통상적으로 다수의 채널 내에서 서로 독립적으로 적용될 것이다. 예를 들어, 이는 "서라운드" 오디오 시스템(2개 초과의 채널을 갖는)의 콘텍스트에서 사용될 수 있다.
본 명세서에 사용될 때, "디지털 오디오 신호" 또는 "오디오 신호"는 단순히 수학적 추상 개념을 설명하는 것이 아니라, 대신에 머신 또는 장치에 의해 검출이 가능한 물리적 매체에 실시되거나 전달되는 정보를 나타낸다. 이 용어는 기록된 또는 전송된 신호를 포함하고, 펄스 코드 변조(PCM)를 포함하는 임의의 형태의 인코딩에 의한 전달을 포함하는 것으로 이해되어야 하지만, PCM에 한정되는 것은 아니다. 출력 또는 입력 또는 실제로 중간 오디오 신호는 MPEG, ATRAC, AC3 또는 미국 특허 제5,974,380호, 제5,978,762호 및 제6,487,535호에 설명된 바와 같이 DTS, Inc.의 독점 방법을 포함하는 임의의 다양한 공지의 방법에 의해 인코딩되거나 압축될 수 있다. 계산의 몇몇 수정예가 당 기술 분야의 숙련자들에게 명백한 바와 같이, 특정 압축 또는 인코딩 방법을 수용하도록 요구될 수 있다.
본 명세서에서, 용어 "엔진"은 빈번히 사용되는 데, 예를 들어 "생성 엔진", "환경 엔진" 및 믹싱 엔진"을 칭한다. 이 용어는 설명된 특정 기능을 수행하도록 프로그램되거나 구성된 임의의 프로그램 가능 또는 다른 방식으로 구성된 전자 논리 및/또는 산술 신호 프로세싱 모듈을 칭한다. 예를 들어, "환경 엔진"은 본 발명의 일 실시예에서, 그 "환경 엔진"에 속하는 기능을 실행하기 위해 프로그램 모듈에 의해 제어된 프로그램 가능 마이크로프로세서이다. 대안적으로, 필드 프로그램 가능 게이트 어레이(FPGA), 프로그램 가능 디지털 신호 프로세서(DSP), 응용 주문형 집적 회로(ASIC) 또는 다른 등가의 회로가 본 발명의 범주로부터 벗어나지 않고 "엔진" 또는 서브프로세스의 임의의 하나의 실현에 이용될 수 있다.
당 기술 분야의 숙련자들은 본 발명의 적합한 실시예가 단지 하나의 마이크로프로세서만을 필요로 할 수 있다는 것을 또한 인식할 수 있을 것이다(다중 프로세서에 의한 병렬 프로세싱이 성능을 향상시킬 수 있지만). 따라서, 도면에 도시되어 있고 본 명세서에 설명된 다양한 모듈은 프로세서 기반 구현의 콘텍스트에서 고려될 때 절차 또는 일련의 동작을 표현하는 것으로 이해될 수 있다. 오디오 데이터의 스트링 상에서 순차적으로 동작함으로써 믹싱, 필터링 및 다른 동작을 수행하는 것이 디지털 신호 프로세싱의 분야에 공지되어 있다. 따라서, 당 기술 분야의 숙련자는 C 또는 C++과 같은 기호 언어로 프로그래밍함으로써 어떻게 다양한 모듈을 구현하는지를 인식할 수 있을 것이고, 이는 이어서 특정 프로세서 플랫폼 상에서 구현될 수 있다.
본 발명의 시스템 및 방법은 프로듀서 및 사운드 엔지니어가 극장에서 그리고 가정에서 양호하게 재생할 수 있는 단일 믹스를 생성할 수 있게 한다. 부가적으로, 이 방법은 DTS 5.1 "디지털 서라운드" 포맷(전술됨)과 같은 표준 포맷으로 하위 호환성 극장 믹스를 생성하는 데 사용될 수도 있다. 본 발명의 시스템은 인간 청각 시스템(HAS)이 직접적인 것으로서, 즉 사운드의 인식된 소스에 대응하는 방향으로부터 도달하는 것으로서 검출되는 사운드와 확산인, 즉 청취자 "주위에 있거나" 또는 "둘러싸거나" 또는 "에워싸는" 사운드 사이를 구별한다. 예를 들어 단지 청취자의 일 측면 또는 방향에서만 확산하는 사운드를 생성할 수 있다는 것을 이해하는 것이 중요하다. 이 경우에 직접과 확산 사이의 차이는 소스 방향을 국부화하는 능력 대 사운드가 도달하는 공간의 상당한 영역을 국부화하는 능력이다.
직접 사운드는, 인간 오디오 시스템의 견지에서 몇몇 이간 시간 지연(ITD)과 이간 레벨차(ILD)(양자 모두 주파수의 함수임)를 갖고 양 귀에 도달하는 사운드이고, ITD 및 ILD는 모두 다수의 임계 대역에서 주파수의 범위에 걸쳐 일정한 방향을 지시한다(Brian C. J. Moore에 의한 "The Psychology of Hearing"에 설명된 바와 같이). 확산 신호는 반대로, 신호 방향으로부터 도달하는 것에 반대로, 예를 들어 주위에 있는 반향의 감각에 대응하는 상황인, ITD 및 ILD의 주파수 또는 시간을 가로질러 일관성이 거의 없을 수 있는 점에서 "스크램블링된" ITD 및 ILD를 가질 수 있다. 본 발명의 문맥에서 사용될 때, "확산 사운드"는 이하의 조건 1) 파형의 선단 에지(낮은 주파수에서) 및 고주파수에서 파형 포락선이 다양한 주파수에서 귀에 동시에 도달하지 않는 조건과, 2) 2개의 귀 사이의 이간 시간차(ITD)가 주파수에 따라 실질적으로 변하는 조건 중 적어도 하나 및 가장 바람직하게는 모두가 발생하도록 음향 상호 작용에 의해 프로세싱되거나 영향을 받는 사운드를 칭한다. "확산 신호" 또는 "지각적 확산 신호"는 본 발명의 문맥에서 청취자에 재생될 때 확산 사운드의 효과를 생성하기 위해 전자식으로 또는 디지털 방식으로 프로세싱되어 있는 (일반적으로 멀티채널) 오디오 신호를 칭한다.
지각적 확산 사운드에서, 도달 시간 및 ITD의 시간 편차는 사운드 소스를 확산하는 심리음향 효과를 유발하는 데 충분한 주파수를 갖는 복잡한 불규칙적인 편차를 나타낸다.
본 발명에 따르면, 확산 신호는 바람직하게는 이하에 설명된 간단한 반향 방법(바람직하게는, 또한 이하에 설명되는 믹싱 프로세스와 조합하여)을 사용함으로써 바람직하게 생성된다. 신호 프로세싱 단독에 의해 또는 예를 들어 "확산 스피커" 또는 스피커의 세트와 같은 멀티-라디에이터 스피커 시스템으로부터 2개의 귀에서의 신호 프로세싱 및 도달 시간에 의해 확산 사운드를 생성하는 다른 방법이 존재한다.
본 명세서에 사용될 때 "확산"의 개념은 화학적 확산, 상기 열거된 심리음향 효과를 생성하지 않는 비상관화 방법 또는 다른 기술 분야 및 과학 분야에서 발생하는 용어 "확산"의 임의의 다른 비관련된 사용과 혼동되어서는 안된다.
본 명세서에 사용될 때, "전송" 또는 "채널을 통한 전송"은 이들에 한정되는 것은 아니지만, 전자 전송, 광학 전송, 위성 릴레이, 유선 또는 무선 통신, 인터넷 또는 LAN 또는 WAN과 같은 데이터 네트워크를 통한 전송, 자기, 광학 또는 다른 형태(DVD, "블루레이" 디스크 등을 포함하는)와 같은 내구성 매체 상의 기록을 포함하는, 상이한 시간 또는 장소에 발생할 수 있는 재생을 위해 데이터를 전송하고, 저장하거나 기록하는 임의의 방법을 의미한다. 이와 관련하여, 전송, 아카이빙 또는 중간 저장을 위한 레코딩은 채널을 통한 전송의 인스턴스로 고려될 수도 있다.
본 명세서에 사용될 때, "동기식" 또는 "동기식 관계"는 신호와 서브 신호 사이의 시간적 관계를 보존하거나 암시하는 데이터 또는 신호의 임의의 구조화 방법을 의미한다. 더 구체적으로, 오디오 데이터와 메타데이터 사이의 동기식 관계는 그 모두가 시간 가변 또는 가변 신호인 메타데이터와 오디오 데이터 사이의 규정된 시간적 동기성을 보존하거나 암시하는 임의의 방법을 의미한다. 몇몇 예시적인 동기화 방법은 시간 도메인 멀티플렉싱(TDMA), 인터리빙, 주파수 도메인 멀티플렉싱, 타임-스탬프된 패킷, 다중 인덱싱된 동기화 가능 데이터 서브-스트림, 동기식 또는 비동기식 프로토콜, IP 또는 PPP 프로토콜, 블루레이 디스크 연합 또는 DVD 표준, MP3 또는 다른 규정된 포맷에 의해 규정된 프로토콜을 포함한다.
본 명세서에 사용될 때, "수신하다" 또는 "수신기"는 송신된 신호 또는 저장 매체로부터 데이터를 수신하고, 판독하고, 디코딩하고, 또는 검색하는 모든 방법을 의미한다.
본 명세서에 사용될 때, "디멀티플렉서" 또는 "언팩커"는 렌더링 파라미터와 같은 다른 인코딩된 메타데이터로부터 오디오 신호를 언팩킹하고, 디멀티플렉싱하거나 분리하는 데 사용이 가능한 실행 가능한 장치 또는 방법, 예를 들어 컴퓨터 프로그램 모듈을 의미한다. 데이터 구조는 렌더링 파라미터를 표현하기 위해 본 발명에 사용된 오디오 신호 데이터 및 메타데이터에 부가하여 다른 헤더 데이터 및 메타데이터를 포함할 수 있다는 것을 명심해야 한다.
본 명세서에 사용될 때, "렌더링 파라미터"는 레코딩된 또는 전송된 사운드가 수신시에 그리고 재생 전에 수정되도록 의도되는 방식으로 상징적으로 또는 요약에 의해 전달되는 파라미터의 세트를 나타낸다. 이 용어는 특히 재생시에 상기 멀티채널 오디오 신호를 수정하기 위해, 수신기에 인가될 하나 이상의 시간 가변 반향 효과의 크기 및 품질의 사용자 선택을 표현하는 파라미터의 세트를 포함한다. 바람직한 실시예에서, 이 용어는 또한 예를 들어 다중 오디오 채널의 세트의 믹싱을 제어하기 위한 믹싱 계수의 세트와 같은 다른 파라미터를 포함한다. 본 명세서에 사용될 때, "수신기" 또는 "수신기/디코더"는 전송되거나 레코딩된 디지털 오디오 신호를 수신하고, 디코딩하거나 재생하는 것이 가능한 임의의 디바이스를 광범위하게 칭한다. 예를 들어 오디오-비디오 수신기로서 임의의 제한된 개념으로 제한되는 것은 아니다.
시스템 개요:
도 1은 본 발명에 따른 오디오를 인코딩하고, 전송하고, 재생하기 위한 시스템의 시스템 레벨 개요를 도시하고 있다. 대상 사운드(102)는 음향 환경(104)에서 발산하고, 멀티채널 마이크로폰 장치(106)에 의해 디지털 오디오 신호로 변환된다. 마이크로폰, 아날로그 대 디지털 변환기, 증폭기 및 인코딩 장치의 몇몇 장치는 디지털화된 오디오를 생성하기 위해 공지의 구성으로 사용될 수 있다는 것이 이해될 수 있을 것이다. 대안적으로 또는 라이브 오디오에 부가하여, 아날로그 또는 디지털 방식으로 레코딩된 오디오 데이터("트랙")는 레코딩 디바이스(107)에 의해 상징화된 바와 같이, 입력 오디오 데이터를 공급할 수 있다.
본 발명의 바람직한 사용 모드에서, 조작될 오디오 소스(라이브 또는 레코딩된)는 실질적으로 "건조" 형태로, 달리 말하면 비교적 비반향적 환경에서 또는 상당한 에코가 없는 직접 사운드로서 캡처되어야 한다. 캡처된 오디오 소스는 일반적으로 "스텝"이라 칭한다. 때때로 설명된 엔진을 사용하여, 양호한 공간 인상을 제공하는 위치에서 다른 신호 레코딩된 "라이브"와 몇몇 직접 스템을 믹싱하는 것이 허용 가능하다. 그러나, 이는 극장(큰 룸)에서 이러한 사운드를 양호하게 렌더링하는 데 있어서 문제점의 기인하여 극장에서는 일반적이지 않다. 실질적으로 건조 스템의 사용은 반향적 극장(몇몇 반향이 믹서 제어 없이 극장 빌딩 자체로부터 오게 되는)에서 사용을 위해 오디오 소스 트랙의 건조 특성을 보존하면서 엔지니어가 메타데이터의 형태의 원하는 확산 또는 반향 효과를 추가할 수 있게 한다.
메타데이터 생성 엔진(108)은 오디오 신호 입력(사운드를 표현하는 라이브 또는 레코딩된 소스로부터 유도됨)을 수신하고 믹싱 엔지니어(110)의 제어 하에 상기 오디오 신호를 프로세싱한다. 엔지니어(110)는 또한 메타데이터 생성 엔진(108)과 인터페이스하는 입력 디바이스(109)를 경유하여 메타데이터 생성 엔진(108)과 상호 작용한다. 사용자 입력에 의해, 엔지니어는 오디오 신호와 동기식 관계로 예술적인 사용자 선택을 표현하는 메타데이터의 생성을 지시하는 것이 가능하다. 예를 들어, 믹싱 엔지니어(110)는 입력 디바이스(109)를 경유하여, 직접/확산 오디오 특성(메타데이터에 의해 표현됨)을 동기화된 영화적인 장면 변화에 정합하도록 선택한다.
이 문맥에서 "메타데이터"는 일련의 인코딩된 또는 양자화된 파라미터에 의해서와 같이, 추상화된, 파라미터화된 또는 요약 표현을 나타내는 것으로 이해되어야 한다. 예를 들어, 메타데이터는 반향기가 수신기/디코더에 구성될 수 있는 반향 파라미터의 표현을 포함한다. 메타데이터는 믹싱 계수 및 채널간 지연 파라미터와 같은 다른 데이터를 또한 포함할 수 있다. 생성 엔진(108)에 의해 생성된 메타데이터는 대응 오디오 데이터의 특정 시간 간격에 속하는 프레임 메타데이터를 갖는 일시적 "프레임" 또는 증분에서 시간 가변적일 것이다.
오디오 데이터의 시간 가변 스트림이 멀티채널 인코딩 장치(112)에 의해 인코딩되거나 압축되어, 동일한 시간에 속하는 대응 메타데이터와 동기식 관계로 인코딩된 오디오 데이터를 생성한다. 메타데이터 및 인코딩된 오디오 신호 데이터의 모두는 바람직하게는 멀티채널 멀티플렉서(114)에 의해 조합된 데이터 포맷으로 멀티플렉싱된다. 임의의 공지의 멀티채널 오디오 압축 방법이 오디오 데이터를 인코딩하기 위해 이용될 수 있지만, 특정 실시예에서 미국 특허 제5,974,380호, 제5,978,762호 및 제6,487,535호에 설명된 인코딩 방법(DTS 5.1 오디오)이 바람직하다. 무손실 또는 스케일 가능성 인코딩과 같은 다른 확장 및 개량이 또한 오디오 데이터를 인코딩하는 데 이용될 수 있다. 멀티플렉서는 구문을 프레이밍함으로써 또는 소정의 다른 동기화 데이터의 추가에 의해 메타데이터와 대응 오디오 데이터 사이의 동기식 관계를 보존해야 한다.
생성 엔진(108)은 생성 엔진(108)이 사용자 입력에 기초하여, 동적 오디오 환경을 표현하는 인코딩된 메타데이터의 시간 가변 스트림을 생성하는 점에서 전술된 이전의 인코더와는 상이하다. 이를 수행하기 위한 방법은 도 14와 관련하여 이하에 더 구체적으로 설명된다. 바람직하게는, 이와 같이 생성된 메타데이터는 조합된 비트 포맷 또는 "프레임"으로 멀티플렉싱되거나 팩킹되고, 데이터 프레임의 사전 규정된 "보조 데이터" 필드에 삽입되어, 역호환성을 허용한다. 대안적으로, 메타데이터는 1차 오디오 데이터 전송 스트림과 동기화되도록 몇몇 수단과 별도로 전송될 수 있다.
생성 프로세스 중에 모니터링을 허용하기 위해, 생성 엔진(108)은 스피커(120)에서 모니터링 신호를 재생하기 위해 조합된 오디오 스트림 및 메타데이터를 디멀티플렉싱하고 디코딩하는 모니터링 디코더(116)와 인터페이스된다. 모니터링 스피커(120)는 바람직하게는 표준화된 공지의 배열[5개의 채널 시스템을 위한 ITU-R BS775(1993년)와 같은]로 배열되어야 한다. 표준화된 또는 일관적인 배열의 사용은 믹싱을 용이하게 하고, 재생은 실제 환경과 표준화된 또는 공지의 모니터링 환경 사이의 비교에 기초하여 실제 청취 환경에 맞춤화될 수 있다. 모니터링 시스템(116, 120)은 청취자에 의해 지각될 수 있는 바와 같이, 엔지니어가 메타데이터 및 인코딩된 오디오의 효과를 지각할 수 있게 한다(수신기/디코더와 관련하여 이하에 설명됨). 청각 피드백에 기초하여, 엔지니어는 원하는 심리음향 효과를 재현하기 위해 더 정확한 선택을 행하는 것이 가능하다. 더욱이, 믹싱 아티스트는 "극장"과 "홈시어터" 세팅 사이에서 스위칭하는 것이 가능할 것이고, 따라서 양자를 동시에 제어하는 것이 가능할 수 있다.
모니터링 디코더(116)는 도 2와 관련하여 이하에 더 상세히 설명되는 수신기/디코더에 실질적으로 동일하다.
인코딩 후에, 오디오 데이터 스트림은 통신 채널(130)을 통해 전송되고, 또는 (등가적으로) 몇몇 매체(예를 들어, DVD 또는 "블루레이" 디스크와 같은 광학 디스크) 상에 레코딩된다. 본 명세서에 있어서, 레코딩은 특정 전송의 경우를 고려할 수도 있다는 것이 이해되어야 한다. 데이터는 예를 들어 주기적 중복 검사(CRC) 또는 다른 에러 보정에 의해, 추가의 포맷팅 및 동기화 정보, 물리적 채널 인코딩 등에 의해 전송 또는 레코딩을 위해 다양한 레이어로 더 인코딩될 수도 있다는 것이 또한 이해되어야 한다. 이들 통상의 전송 양태는 본 발명의 동작과 간섭하지 않는다.
다음에 도 2를 참조하면, 전송 후에, 오디오 데이터 및 메타데이터("비트스트림"과 함께)가 수신되고 메타데이터는 디멀티플렉서(232)에서 분리된다(예를 들어, 사전 결정된 포맷을 갖는 데이터 프레임의 간단한 디멀티플렉싱 또는 언팩킹에 의해). 인코딩된 오디오 데이터는 오디오 인코더(112)에 의해 이용된 것과 상보적인 수단에 의해 오디오 디코더(236)에 의해 디코딩되고 환경 엔진(240)의 데이터 입력에 송신된다. 메타데이터는 메타데이터 디코더/언팩커(238)에 의해 언팩킹되고 환경 엔진(240)의 제어 입력에 송신된다. 환경 엔진(240)은 동적 시간 가변 방식으로 때때로 수신되고 업데이트되는 수신된 메타데이터에 의해 제어된 방식으로 오디오 데이터를 수신하고, 조절하고, 리믹싱한다. 수정된 또는 "렌더링된" 오디오 신호는 이어서 환경 엔진으로부터 출력되고, (직접적으로 또는 궁극적으로) 청취 환경(246)에서 스피커(244)에 의해 재생된다.
다중 채널이 원하는 예술적 효과에 따라 이 시스템에서 함께 또는 개별적으로 제어될 수 있다는 것이 이해되어야 한다.
본 발명의 시스템의 더 상세한 설명이 다음에 제공되어, 더 일반화된 시스템 레벨 용어로 상기에 언급되어 있는 구성 요소 또는 서브모듈의 구조 및 기능을 더 구체적으로 설명한다. 인코더 양태의 구성 요소 또는 서브모듈이 먼저 설명되고, 이어서 수신기/디코더 양태의 설명이 이어진다.
메타데이터 생성 엔진:
본 발명의 인코딩 양태에 따르면, 디지털 오디오 데이터는 전송 또는 저장에 앞서 메타데이터 생성 엔진(108)에 의해 조작된다.
메타데이터 생성 엔진(108)은 본 발명에 따라 오디오 및 메타데이터를 프로세싱하도록 프로그램된 전용 워크스테이션 또는 범용 컴퓨터로서 구현될 수도 있다.
본 발명의 메타데이터 생성 엔진(108)은 확산 및 직접 사운드(제어된 믹스에서)의 이후의 합성을 제어하고, 개별 스템 또는 믹스의 반향 시간을 더 제어하고, 합성될 시뮬레이팅된 음향 반향의 밀도를 더 제어하고, 피드백 콤 필터의 카운트, 길이 및 이득, 환경 엔진(이하의 설명됨) 내의 전역통과 필터의 카운트, 길이 및 이득을 더 제어하고, 신호의 지각된 방향 및 거리를 더 제어하도록 충분한 메타데이터를 인코딩한다. 비교적 작은 데이터 공간(예를 들어, 초당 수 킬로비트)이 인코딩된 메타데이터를 위해 사용될 수 있는 것이 고려된다.
바람직한 실시예에서, 메타데이터는 N개의 입력 채널로부터 M 출력 채널로 맵핑을 특징화하고 제어하는 데 충분한 믹싱 계수 및 지연의 세트를 더 포함하고, 여기서 N 및 M은 동일할 필요는 없고 어느 하나가 더 클 수도 있다.
필드 설명
a1 직접 렌더링 플래그
X 여기 코드(표준화된 잔향 세트에 대해)
T60 반향 감쇠 시간 파라미터
F1 내지 Fn 확산 및 믹싱 엔진과 관련하여
이하에 설명되는 "확산성" 파라미터
a3 내지 an 반향 밀도 파라미터
B1 내지 bn 반향 셋업 파라미터
C1 내지 cn 소스 위치 파라미터
D1 내지 dn 소스 거리 파라미터
L1 내지 ln 지연 파라미터
G1 내지 gn 믹싱 계수(이득값)
표 1은 본 발명에 따라 생성된 예시적인 메타데이터를 나타낸다. 필드 a1은 "직접 렌더링" 플래그를 나타내는 데, 이는 합성 확산의 도입 없이 재생될 채널(예를 들어, 고유 반향을 갖고 레코딩된 채널)에 대한 옵션을 각각의 채널에 대해 지정하는 코드이다. 이 플래그는 믹싱 엔지니어가 수신기에서 확산 효과로 프로세싱되도록 선택하지 않는 트랙을 지정하기 위해 믹싱 엔지니어에 의해 사용자 제어된다. 예를 들어, 실용적인 믹싱 상황에서, 엔지니어는 "건조" 상태(반향 또는 확산의 부재시에)로 레코딩되지 않은 채널(트랙 또는 "스템")에 마주치게 될 수 있다. 이러한 스템에 대해, 환경 엔진이 부가의 확산 또는 반향을 도입하지 않고 이러한 채널을 렌더링할 수 있도록 이 사실을 플래그할 필요가 있다. 본 발명에 따르면, 직접이건 확산이건 간에 임의의 입력 채널(스템)이 직접 재생을 위해 태그도리 수 있다. 이 특징은 시스템의 융통성을 상당히 증가시킨다. 본 발명의 시스템은 따라서 직접 및 확산 입력 채널 사이의 분리(및 이하에 설명되는 확산 출력 채널로부터 직접 출력 채널의 독립적인 분리)를 허용한다.
"X"로 나타낸 필드는 이전에 개발된 표준화된 잔향 세트와 연관된 여기 코드를 위해 보류된다. 대응 표준화된 잔향 세트는 확산 엔진과 관련하여 이하에 설명되는 바와 같이, 디코더/재생 장비에 저장되고 메모리로부터 룩업에 의해 검색될 수 있다.
필드 "T60"은 반향 감쇠 파라미터를 나타내거나 상징화한다. 당 기술 분야에서, 심벌 "T60"은 종종 환경 내의 반향 볼륨이 직접 사운드의 볼륨보다 60 데시벨 미만으로 강하하게 하기 위해 요구되는 시간을 칭하는 데 사용된다. 이 심벌은 따라서 본 명세서에 사용되지만, 반향 감쇠 시간의 다른 메트릭이 대치될 수 있다는 것이 이해되어야 한다. 바람직하게는, 파라미터는 감쇠 시간 상수에 관련되어야 하여(감쇠 지수 함수의 지수에서와 같이), 감쇠가 이하의 식과 유사한 형태로 즉시 합성화될 수 있게 되고,
Figure pct00001
(식 1)
여기서, k는 감쇠 시간 상수이다. 하나 초과의 T60 파라미터가 다중 채널, 다중 스템 또는 다중 출력 채널 또는 합성 청취 공간의 지각된 기하학 구조에 대응하여 전송될 수 있다.
파라미터 A3 내지 An은 확산 엔진의 얼마나 많은 시뮬레이팅된 반사가 오디오 채널에 적요오딜 수 있는지를 직접 제어하는 밀도값 또는 밀도값들(예를 들어, 지연의 길이 또는 지연의 샘플의 수에 대응하는 값)을 표현한다(각각의 채널에 대해). 확산 엔진과 관련하여 이하에 더 상세히 설명되는 바와 같이, 더 작은 밀도값이 덜 복잡한 확산을 생성할 수 있을 것이다. "더 낮은 밀도"는 일반적으로 음악적 세팅에 부적절하지만, 예를 들어 경질(금속, 콘크리트, 암석...) 벽을 갖는 룸 내에서 또는 잔향이 매우 "펄럭거리는(fluttery)" 캐릭터를 가져야 하는 다른 상황에서, 영화 캐릭터들이 파이프를 통해 이동할 때 매우 현실적이다.
파라미터 B1 내지 Bn은 환경 엔진(이하에 설명됨) 내의 반향 모듈의 구성을 완전히 표현하는 "잔향 셋업"값을 표현한다. 일 실시예에서, 이들 값은 인코딩된 카운트, 스테이지의 길이 및 하나 이상의 피드백 콤 필터의 이득 및 반향 엔진(이하에 상세히 설명됨) 내의 슈뢰더(Schroeder) 전역 패스 필터의 카운트, 길이 및 이득을 표현한다. 게다가, 또한 전송 파라미터의 대안으로서, 환경 엔진은 프로파일에 의해 편성된 미리 선택된 잔향값의 데이터베이스를 가질 수 있다. 이러한 경우에, 생성 엔진은 저장된 프로파일로부터 프로파일을 상징적으로 표현하거나 선택하는 메타데이터를 전송한다. 저장된 프로파일은 메타데이터를 위한 심벌 코드를 절약함으로써 덜 융통성이지만 큰 압축을 제공한다.
반향에 관련하는 메타데이터에 부가하여, 생성 엔진은 디코더에서 믹싱 엔진을 제어하기 위해 추가의 메타데이터를 생성하고 전송해야 한다. 표 1을 재차 참조하면, 추가의 세트의 파라미터는 바람직하게는, 사운드 소스의 위치(가상적 청취자 및 의도된 합성 "룸" 또는 "공간"에 대한) 또는 마이크로폰 위치를 지시하는 파라미터, 재생된 채널 내의 직접/확산 혼합물을 제어하기 위해 디코더에 의해 사용되는 거리 파라미터(D1 내지 DN)의 세트, 디코더로부터 상이한 출력 채널로의 오디오의 도달의 타이밍을 제어하는 데 사용되는 지연값(L1 내지 LN)의 세트 및 상이한 출력 채널 내의 오디오의 진폭의 변화를 제어하기 위해 디코더에 의해 사용되는 이득값(G1 내지 Gn)의 세트를 포함한다. 이득값은 오디오 믹스의 직접 및 확산 채널을 위해 개별적으로 지정될 수 있고 또는 간단한 시나리오를 위해 전체적으로 지정될 수도 있다.
전술된 믹싱 메타데이터는 본 발명의 전체 시스템의 입력 및 출력의 견지에 이해될 수 있는 바와 같이, 일련의 매트릭스로서 적합하게 표현된다. 본 발명의 시스템은 가장 일반적인 레벨에서, 복수의 N 입력 채널을 M 출력 채널에 맵핑하고, 여기서 N 및 M은 동일한 필요는 없고 어느 하나가 더 클 수도 있다. 차원 N×M의 매트릭스(G)는 N 입력 채널로부터 M 출력 채널로 맵핑하기 위해 일반적인 완전한 세트의 이득값을 지정하는 데 충분하다는 것을 용이하게 알 수 있을 것이다. 유사한 N×M 매트릭스가 입력-출력 지연 및 확산 파라미터를 완전히 지정하기 위해 적합하게 사용될 수 있다. 대안적으로, 코드의 시스템은 더 빈번하게 사용된 믹싱 매트릭스를 정확하게 표현하는 데 사용될 수 있다. 매트릭스는 이어서 각각의 코드가 대응 매트릭스와 연관된 저장된 코드북을 참조하여 디코더에서 용이하게 복구될 수 있다.
도 3은 시간 도메인에서 멀티플렉싱된 오디오 데이터 및 메타데이터를 전송하기 위해 적합한 일반화된 데이터 포맷을 도시하고 있다. 구체적으로, 이 예시적인 포맷은 DTS, Inc.에 양도된 미국 특허 제5,974,380호에 개시된 포맷의 확장이다. 예시적인 데이터 프레임이 일반적으로 도면 부호 300으로 도시되어 있다. 바람직하게는, 프레임 헤더 데이터(302)가 데이터 프레임의 시작 부근에 전달되고, 이어서 오디오 데이터가 복수의 오디오 서브프레임(304, 306, 308, 310)으로 포맷된다. 헤더(302) 내의 또는 선택적 데이터 필드(312) 내의 하나 이상의 플래그가 메타데이터 확장(314)의 존재 및 길이를 지시하는 데 사용될 수 있고, 이는 데이터 프레임의 종점에 또는 종점 부근에 유리하게 포함될 수 있다. 다른 데이터 포맷이 사용될 수 있고, 역호환성을 보존하여 레가시 자료가 본 발명에 따라 디코더 상에 재생될 수 있게 되는 것이 바람직하다. 더 오래된 디코더는 그 확장 필드 내의 메타데이터를 무시하도록 프로그램된다.
본 발명에 따르면, 압축된 오디오 및 인코딩된 메타데이터는 멀티플렉싱되거나 다른 방식으로 동기화되고, 이어서 머신 판독 가능 매체 상에 레코딩되거나 통신 채널을 통해 수신기/디코더에 전송된다.
메타데이터 생성 엔진:
사용자의 관점으로부터, 메타데이터 생성 엔진을 사용하는 방법은 간단하고, 공지의 엔지니어링 실시와 유사하다. 바람직하게는, 메타데이터 생성 엔진은 그래픽 사용자 인터페이스(GUI)에 합성 오디오 환경("룸")의 표현을 표시한다. GUI는 청취자 위치(예를 들어, 중심에서) 및 룸 크기 및 형상의 몇몇 그래픽 표현과 함께, 다양한 스템 또는 사운드 소스의 위치, 크기 및 확산을 상징적으로 표시하도록 프로그램될 수 있다. 마우스 또는 키보드 입력 디바이스(109)를 사용하여, 그리고 그래픽 사용자 인터페이스(GUI)를 참조하여, 믹싱 엔지니어는 동작하는 시간 간격을 레코딩된 스템으로부터 선택한다. 예를 들어, 엔지니어는 시간 인덱스로부터 시간 간격을 선택할 수 있다. 엔지니어는 이어서 선택된 시간 간격 도안 스템을 위한 합성 사운드 환경을 상호 작용식으로 변경하기 위해 입력을 입력한다. 상기 입력에 기초하여, 메타데이터 생성 엔진은 적절한 메타데이터를 계산하고, 이를 포맷하고, 대응 오디오 데이터와 조합되도록 때때로 멀티플렉서(114)에 통과시킨다. 바람직하게는, 표준화된 프리셋의 세트가 빈번하게 마주치는 음향 환경에 대응하여 GUI로부터 선택 가능하다. 프리셋에 대응하는 파라미터는 이어서 메타데이터를 생성하도록 사전 저장된 룩업 테이블로부터 검색된다. 표준화된 프리셋에 부가하여, 맞춤화된 음향 시뮬레이션을 생성하기 위해 숙련된 엔지니어가 사용할 수 있는 수동 제어가 바람직하게 제공된다.
반향 파라미터의 사용자의 선택은 도 1과 관련하여 전술된 바와 같은, 모니터링 시스템의 사용에 의해 보조된다. 따라서, 반향 파라미터는 모니터링 시스템(116, 120)으로부터 음향 피드백에 기초하여 원하는 효과를 생성하도록 선택될 수 있다.
수신기/디코더:
디코더 양태에 따르면, 본 발명은 디지털 오디오 신호의 수신, 프로세싱, 조절 및 재생을 위한 방법 및 장치를 포함한다. 전술된 바와 같이, 디코더/재생 장비 시스템은 멀티플렉서(232), 오디오 디코더(236), 메타데이터 디코더/언팩커(238), 환경 엔진(240), 스피커 또는 다른 출력 채널(244), 청취 환경(246) 및 바람직하게는 또한 재생 환경 엔진을 포함한다.
디코더/재생 장비의 기능 블록이 도 4에 더 상세히 도시되어 있다. 환경 엔진(240)은 믹싱 엔진(404)과 직렬의 확산 엔진(402)을 포함한다. 각각은 이하에 더 상세히 설명된다. 환경 엔진(240)은 다차원 방식으로 동작하여, N 입력을 M 출력에 맵핑하고 여기서 N 및 M은 정수이다(잠재적으로는 동일하지 않고, 어느 하나가 큰 정수일 수 있음).
메타데이터 디코더/언팩커(238)는 멀티플렉싱된 포맷으로 인코딩되고, 전송되거나 레코딩된 데이터를 입력으로서 수신하고 출력을 위해 메타데이터 및 오디오 신호 데이터를 분리한다. 오디오 신호 데이터는 디코더(236)에 라우팅되고[입력(236IN)으로서], 메타데이터는 다양한 필드로 분리되고 제어 데이터로서 환경 엔진(240)의 제어 입력에 출력된다. 반향 파라미터는 확산 엔진(402)에 송신되고, 믹싱 및 지연 파라미터가 믹싱 엔진(416)에 송신된다.
디코더(236)는 데이터를 인코딩하는 데 사용되는 것에 상보적인 방법 및 장치에 의해 인코딩된 오디오 신호 데이터를 수신하고 이를 디코딩한다. 디코딩된 오디오는 적절한 채널로 편성되고 환경 엔진(240)에 출력된다. 디코더(236)의 출력은 믹싱 및 필터링 동작을 허용하는 임의의 형태로 표현된다. 예를 들어, 특정 용례에 대한 충분한 비트 깊이를 갖는 선형 PCM이 적합하게 사용될 수 있다.
확산 엔진(402)은 믹싱 및 필터링 동작을 허용하는 형태로 디코딩된, N 채널 디지털 오디오 입력을 디코더(236)로부터 수신한다. 본 발명에 따른 엔진(402)은 디지털 필터의 사용을 허용하는 시간 도메인 표현에서 동작하는 것이 현재 바람직하다. 본 발명에 따르면, 무한 임펄스 응답(IIR) 토폴로지는 실제 물리적 음향 시스템(저역 통과에 더하여 위상 분산 특성)을 더 정확하게 시뮬레이팅하는 분산을 갖기 때문에 매우 바람직하다.
확산 엔진:
확산 엔진(402)은 신호 입력(408)에서 (N 채널) 신호 입력 신호를 수신하고, 디코딩되고 디멀티플렉싱된 메타데이터가 제어 입력(406)에 의해 수신된다. 엔진(402)은 반향 및 지연을 추가하기 위해 메타데이터에 의해 그리고 그에 응답하여 제어되는 방식으로 입력 신호(408)를 조절하여, 이에 의해 직접 및 확산 오디오 데이터(다중 프로세싱된 채널 내의)를 생성한다. 본 발명에 따르면, 확산 엔진은 적어도 하나의 "확산" 채널(412)을 포함하는 중간 프로세싱된 채널(410)을 생성한다. 직접 채널(414) 및 확산 채널(412)의 모두를 포함하는 다중 프로세싱된 채널(410)이 이어서 메타데이터 디코더/언팩커(238)로부터 수신된 믹싱 메타데이터의 제어 하에서 믹싱 엔진(416)에서 믹싱되어, 믹싱된 디지털 오디오 출력(420)을 생성한다. 구체적으로, 믹싱된 디지털 오디오 출력(420)은 수신된 메타데이터의 제어 하에서 믹싱된, 복수의 M 채널의 믹싱된 직접 및 확산 오디오를 제공한다. 특정의 신규한 실시예에서, M 채널의 출력은 특정화된 "확산" 스피커를 통한 재생을 위해 적합한 하나 이상의 전용 "확산" 채널을 포함할 수 있다.
이제, 도 5를 참조하면, 확산 엔진(402)의 실시예의 부가의 상세가 보여질 수 있다. 명료화를 위해, 단지 하나의 오디오 채널만이 도시되어 있고, 멀티채널 오디오 시스템에서, 복수의 이러한 채널이 병렬 분기에 사용될 수 있을 것이라는 것이 이해되어야 한다. 이에 따라, 도 5의 채널 경로는 N 채널 시스템(N개의 스템을 병렬로 프로세싱하는 것이 가능함)에 대해 실질적으로 N회 복제될 것이다. 확산 엔진(402)은 구성 가능한 수정된 슈뢰더-무어러(Schroeder-Moorer) 반향기로서 설명될 수 있다. 통상의 슈뢰더-무어러 반향기와는 달리, 본 발명의 반향기는 FIR "조기-반사" 단계를 제거하고 피드백 경로에 IIR 필터를 추가한다. 피드백 경로 내의 IIR 필터는 피드백 내의 분산을 생성할 뿐만 아니라 주파수의 함수로서 가변 T60을 생성한다. 이 특성은 지각적 확산 효과를 생성한다.
입력 노드(502)에서 입력 오디오 채널 데이터가 프리필터(504)에 의해 사전 필터링되고 D.C 성분이 D.C 차단 스테이지(506)에 의해 제거된다. 프리필터(504)는 5-탭 FIR 저역 통과 필터이고, 이는 자연 반향에서 발견되지 않은 고주파수 에너지를 제거한다. DC 차단 스테이지(506)는 15 Hz 이하의 에너지를 제거하는 IIR 고역 통과 필터이다. DC 차단 스테이지(506)는 어떠한 DC 성분도 갖지 않는 입력을 보장할 수 없으면 필요하다. DC 차단 스테이지(506)의 출력은 반향 모듈["잔향 세트"(508)]을 통해 공급된다. 각각의 채널의 출력은 스케일링 모듈(520) 내의 적절한 "확산 이득"에 의한 곱셈에 의해 스케일링된다. 확산 이득은 입력 데이터를 수반하는 메타데이터로서 수신된 직접/확산 파라미터에 기초하여 계산된다(상기 표 1 및 관련 설명 참조). 각각의 확산 신호 채널은 이어서 출력 채널(526)을 생성하기 위해 대응 직접 성분[입력(502)으로부터 순방향으로 공급되고 직접 이득 모듈(524)에 의해 스케일링됨]과 합산된다[합산 모듈(522)에서].
대안적인 실시예에서, 확산 엔진은 확산 이득 및 지연과 직접 이득 및 지연이 확산 효과가 인가되기 전에 인가되도록 구성된다. 이제, 도 5b를 참조하면, 확산 엔진(402)의 대안적인 실시예의 부가의 상세가 보여질 수 있다. 명료화를 위해, 단지 하나의 오디오 채널이 도시되어 있고, 멀티채널 오디오 시스템에서, 복수의 이러한 채널은 병렬 분기로 사용될 수 있을 것이라는 것이 이해되어야 한다. 이에 따라, 도 5b의 오디오 채널 경로는 N 채널 시스템(N개의 스템을 병렬로 프로세싱하는 것이 가능한)에 대해 실질적으로 N회 복제될 것이다. 확산 엔진은 채널당 특정 확산 효과 및 확산 및 직접 이득 및 지연의 정도를 이용하는 구성 가능한 유틸리티 확산기로서 설명될 수 있다.
오디오 입력 신호(408)는 확산 엔진 내에 입력되고, 적절한 직접 이득 및 지연은 이에 따라 채널당 인가된다. 그 후에, 적절한 확산 이득 및 지연은 채널당 오디오 입력 신호에 인가된다. 그 후에, 오디오 입력 신호(408)는 채널당 오디오 출력 신호에 확산 밀도 또는 효과를 인가하기 위해 유틸리티 확산기[UD1 내지 UD3]의 뱅크(이하에 더 설명됨)에 의해 프로세싱된다. 확산 밀도 또는 효과는 하나 이상의 메타데이터 파라미터에 의해 결정 가능할 수 있다.
각각의 오디오 채널(408)에 대해, 각각의 출력 채널에 규정된 지연 및 이득 기여의 상이한 세트가 존재한다. 기여는 직접 이득 및 지연과 확산 이득 및 지연으로서 정의된다.
그 후에, 모든 오디오 입력 채널로부터 조합된 기여가 유틸리티 확산기의 뱅크에 의해 프로세싱되어, 상이한 확산 효과가 각각의 입력 채널에 인가되게 된다. 구체적으로, 기여는 각각의 입력 채널/출력 채널 접속의 직접 및 확산 이득 및 지연을 규정한다.
일단 프로세싱되면, 확산 및 직접 신호(412, 414)가 믹싱 엔진(416)에 출력된다.
반향 모듈:
각각의 반향 모듈은 잔향 세트(508 내지 514)를 포함한다. 각각의 개별 잔향 세트(508 내지 514)는 바람직하게는 도 6에 도시되어 있는 바와 같이, 본 발명에 따라 구현된다. 다중 채널이 실질적으로 병렬로 프로세싱되지만, 단지 하나의 채널만이 설명의 명료화를 위해 도시되어 있다. 입력 노드(602)에서 입력 오디오 채널 데이터는 직렬의 하나 이상의 슈뢰더 전역 통과 필터(604)에 의해 프로세싱된다. 바람직한 실시예에서 2개의 이러한 것이 사용되기 때문에, 2개의 이러한 필터(604, 606)가 직렬로 도시되어 있다. 필터링된 신호는 이어서 복수의 병렬 분기로 분할된다. 각각의 분기는 피드백 콤 필터(608 내지 620)에 의해 필터링되고, 콤 필터의 필터링된 출력은 합산 노드(622)에서 조합된다. 메타데이터 디코더/언팩커(238)에 의해 디코딩된 T60 메타데이터가 피드백 콤 필터(608 내지 620)를 위한 이득을 계산하는 데 사용된다. 계산 방법에 대한 부가의 상세는 이하에 제공된다.
피드백 콤 필터(608 내지 620)의 길이(스테이지, Z-n) 및 슈뢰더 전역 통과 필터(604, 606) 내의 샘플 지연의 수는 바람직하게는 이하의 이유로, 즉 출력 확산을 형성하기 위해 소수의 세트로부터 선택되고, 루프가 일시적으로 절대로 일치하지 않는(이러한 일치 시간에 신호를 보강할 수 있음) 것을 보장하는 것이 유리하다. 소수 샘플 지연값의 사용은 이러한 일치 및 보강을 배제한다. 바람직한 실시예에서, 7개의 전역 통과 지연의 세트 및 7개의 콤 지연의 독립적인 세트가 사용되어, 디폴트 파라미터(디코더에 저장됨)로부터 유도 가능한 최대 49개의 비상관된 반향기 조합을 제공한다.
바람직한 실시예에서, 전역 통과 필터(604, 606)는 소수로부터 주의 깊게 선택된 지연을 사용하고, 구체적으로 각각의 오디오 채널(604, 606)에서 604 및 606에서 지연의 합이 120개의 샘플 주기로 합산되도록 지연을 사용한다. (120으로 합산하는 이용 가능한 다수의 소수의 쌍이 존재한다.) 상이한 소수 쌍이 바람직하게는 재생된 오디오 신호를 위한 ITD 내의 다이버시티를 생성하기 위해 상이한 오디오 신호 채널에 사용된다. 각각의 피드백 콤 필터(608 내지 620)는 900개의 샘플 간격 이상의 범위 및 가장 바람직하게는 900 내지 3000 샘플 주기의 범위의 지연을 사용한다. 너무 많은 상이한 소수의 사용은 이하에 더 상세히 설명되는 바와 같이, 주파수의 함수로서 지연의 매우 복잡한 특성을 초래한다. 복잡한 주파수 또는 지연 특성은 재생될 때 주파수 의존성 감쇠를 도입할 수 있는 사운드를 생성함으로써 지각적으로 확산되는 사운드를 생성한다. 따라서, 대응 재생된 사운드에 대해, 오디오 파형의 선단 에지는 다양한 주파수에서 귀 내에 동시에 도달하지 않고, 저주파수는 다양한 주파수에서 귀 내에 동시에 도달하지 않는다.
확산 사운드 필드의 생성
확산 필드에서, 사운드가 도래하는 방향을 식별하는 것이 불가능하다.
일반적으로, 확산 사운드 필드의 전형적인 예는 룸 내의 반향의 사운드이다. 확산의 지각은 또한 반향성이 아닌 사운드 필드에서 경험될 수 있다(예를 들어, 박수, 비, 바람 노이즈 또는 윙윙거리는 벌레의 무리에 의해 둘러싸인 것).
단선율 레코딩은 반향의 감각(즉, 사운드 감쇠가 시간이 연장되는 감각)을 캡처할 수 있다. 그러나, 반향 사운드 필드의 확산의 감각을 재생하는 것은 유틸리티 확산기로 이러한 단선율 레코딩을 프로세싱하는 것, 또는 더 일반적으로 재생된 사운드 상에 확산을 부여하도록 설계된 전자음향 재생을 이용하는 것을 필요로 할 것이다.
홈시어터 내의 확산 사운드 재생은 다수의 방식으로 성취될 수 있다. 일 방식은 확산 감각을 생성하는 스피커 또는 라우드스피커 어레이를 실제로 구성하는 것이다. 이러한 것이 실행 불가능할 때, 확산 방사 패턴을 전달하는 사운드바형 장치를 생성하는 것이 또한 가능하다. 마지막으로, 이들 모두가 이용 불가능하고 표준 멀티채널 라우드스피커 재생 시스템을 경유하는 렌더링이 요구될 때, 확산 감각이 경험될 수 있는 정도로 임의의 하나의 도달의 일관성을 붕괴할 수 있는 직접 경로들 사이의 간섭을 생성하기 위해 유틸리티 확산기를 사용할 수 있다.
유틸리티 확산기는 라우드스피커 또는 헤드폰 상에 공간 사운드 확산의 감각을 생성하도록 의도된 오디오 프로세싱 모듈이다. 이는 라우드스피커 채널 신호들 사이의 일관성을 일반적으로 파괴하거나 비상관화하는 다양한 오디오 프로세싱 알고리즘을 사용함으로써 성취될 수 있다.
유틸리티 확산기를 구현하는 일 방법은 멀티채널 인공 반향을 위해 원래 설계된 알고리즘을 이용하고 단일 입력 채널로부터 또는 다수의 상관된 채널로부터(도 6 및 동반 본문에 나타낸 바와 같이) 다수의 비상관/비일관적 채널을 출력하기 위해 이 알고리즘을 구성하는 것을 포함한다. 이러한 알고리즘은 주목할만한 반향 효과를 생성하지 않는 유틸리티 확산기를 얻도록 수정될 수도 있다.
유틸리티 확산기를 구현하는 제2 방법은 단선율 오디오 신호로부터 공간적으로 확장된 사운드 소스(점 소스와는 반대로)를 시뮬레이팅하기 위해 원래 설계된 알고리즘을 이용하는 것을 포함한다. 이러한 알고리즘은 포락선 사운드(반향의 감각을 생성하지 않고)를 시뮬레이팅하도록 수정될 수 있다.
유틸리티 확산기는 라우드스피커 출력 채널(도 5b에 도시된 바와 같이) 중 하나에 각각 인가된 짧은 감쇠 반향기(T60 = 0.5초 이하)의 세트를 이용함으로써 간단히 실현될 수 있다. 바람직한 실시예에서, 이러한 유틸리티 확산기는 하나의 모듈 내의 시간 지연, 뿐만 아니라 모듈들 사이의 차동 시간 지연이 주파수 상에서 복잡한 방식으로 변경하여, 저주파수에서 청취자에 도달의 위상의 분산, 뿐만 아니라 고주파수에서 신호 포락선의 수정을 초래하는 것을 보장하도록 설계된다. 이러한 확산기는 주파수를 가로질러 대략적으로 일정한 T60을 가질 수 있고 자체로 실제 "반향" 사운드를 위해 사용되지 않을 것이기 때문에, 전형적인 반향기는 아니다.
예로서, 도 5c는 이러한 유틸리티 확산기에 의해 생성된 이간 위상차를 플롯팅하고 있다. 수직 스케일은 라디안이고, 수평 스케일은 0 Hz 내지 약 400 Hz의 주파수 도메인의 섹션이다. 수평 스케일은 상세가 가시화되도록 팽창된다. 척도는 샘플 또는 시간 단위가 아니라 라디안 단위라는 것을 명심하라. 이 플롯은 어떻게 이간 시간차가 심하게 혼란되는지를 명백하게 도시하고 있다. 한쪽 귀에서 주파수를 가로지르는 시간 지연은 도시되어 있지 않지만, 이는 본질적으로 유사하지만 약간 덜 복잡하다.
유틸리티 확산을 실현하기 위한 대안적인 접근법은 Faller, C, "Parametric multichannel audio coding: synthesis of coherence cues" IEEE Trans. on Audio, Speech, and Language Processing, Vol. 14, no. 1, 2006년 1월에 더 설명된 바와 같은 주파수-도메인 인공 반향, 또는Kendall, G., "The decorrelation of audio signals and its impact on spatial imagery" Computer Music Journal, Vol. 19, no. 4, 1995년 겨울 및 Boueri, M. 및 Kyriakakis, C. "Audio signal decorrelation based on a critical band approach" 117차 AES 총회, 2004년 10월에 더 설명된 바와 같은 주파수 도메인에서 또는 시간 도메인에서 실현된 전역 통과 필터의 사용을 포함한다.
확산이 하나 이상의 건조 채널로부터 지정되는 상황에서, 유틸리티 확산기와 동일한 엔진이지만 콘텐츠 생성기에 의해 요구되는 T60 대 주파수 프로파일을 생성하는 간단한 수정을 갖는 엔진을 사용하여 실제 지각 반향 뿐만 아니라 유틸리티 확산의 모두를 제공하는 것이 전적으로 가능하기 때문에, 더 통상적인 반향 시스템이 매우 적절하다. 도 6에 도시되어 있는 것과 같은 수정된 슈뢰더-무어러 반향기는 콘텐츠 생성기에 의해 요구되는 바와 같이, 엄격하게 유틸리티 확산 또는 가청 반향을 제공할 수 있다. 이러한 시스템이 사용될 때, 각각의 반향기에 사용된 지연은 서로소가 되도록 유리하게 선택될 수 있다. (이는 유사하지만 서로소인 수의 세트를 피드백 콤 필터, "슈뢰더 섹션" 내의 동일한 총 지연에 가산하는 상이한 쌍의 소수 또는 1-탭 전역 통과 필터 내의 샘플 지연으로서 사용함으로써 용이하게 성취된다.) 유틸리티 확산은 또한 Jot, J.-M. 및 Chaigne A.의 "Digital delay networks for designing artificial reverberations" 90차 AES 총회, 1991년 2월에 더 설명된 바와 같은 멀티채널 재귀 반향 알고리즘으로 성취될 수 있다.
전역 통과 필터:
이제, 도 7을 참조하면, 도 6의 슈뢰더 전역 통과 필터(604, 606) 중 하나 또는 모두를 구현하기 위해 적합한 전역 통과 필터가 도시되어 있다. 입력 노드(702)에서 입력 신호는 합산 노드(704)에서 피드백 신호(이하에 설명됨)와 합산된다. 704로부터의 출력은 분기 노드(708)에서 순방향 분기(710) 및 지연 분기(712)로 분기된다. 지연 분기(712)에서, 신호는 샘플 지연(714)에 의해 지연된다. 전술된 바와 같이, 바람직한 실시예에서, 지연은 604 및 606의 지연이 120 샘플 주기로 합산되도록 바람직하게 선택된다. (지연 시간은 44.1 kHz 샘플링 레이트에 기초하는 데 - 다른 간격이 동일한 심리음향 효과를 보존하면서 다른 샘플링 레이트로 스케일링하도록 선택될 수 있다.) 순방향 분기(712)에서, 순방향 신호가 합산 노드(720)에서 곱해진 지연과 합산되어 722에서 필터링된 출력을 생성한다. 분기 노드(708)에서 지연된 신호는 또한 피드백 경로 내에서 피드백 이득 모듈(724)에 의해 곱해져서 피드백 신호를 입력 합산 노드(704)(전술됨)에 제공한다. 통상의 필터 디자인에서, 순방향 이득 및 역방향 이득은 하나가 다른 것으로부터 반대 부호를 가져야 하는 것을 제외하고는 동일한 값으로 설정될 것이다.
피드백 콤 필터:
도 8은 피드백 콤 필터(도 6의 608 내지 620)의 각각에 대해 사용 가능한 적합한 디자인을 도시하고 있다.
802에서 입력 신호는 피드백 신호(이하에 설명됨)와 합산 노드(803)에서 합산되고, 합은 샘플 지연 모듈(804)에 의해 지연된다. 804의 지연된 출력은 노드(806)에서 출력된다. 피드백 경로에서, 806에서 출력은 필터(808)에 의해 필터링되고 이득 모듈(810) 내의 피드백 이득 팩터에 의해 곱해진다. 바람직한 실시예에서, 이 필터는 이하에 설명되는 바와 같이 IIR 필터이어야 한다. 이득 모듈 또는 증폭기(810)[노드(812)에서]의 출력은 전술된 바와 같이, 피드백 신호로서 사용되고, 803에서 입력 신호와 합산된다.
a) 샘플 지연(804)의 길이, b) 0 < g < 1이 되도록 하는 이득 파라미터(g)[도면에서 이득(810)으로서 도시되어 있음] 및 c) 상이한 주파수를 선택적으로 감쇠시킬 수 있는 IIR 필터[도 8의 필터(808)]에 대한 계수와 같은 특정 변수가 도 8에서 피드백 콤 필터 내에서 제어를 받게된다. 본 발명에 따른 콤 필터에서, 하나 또는 바람직하게는 그 이상의 이들 변수는 디코딩된 메타데이터(#에서 디코딩됨)에 응답하여 제어된다. 통상의 실시예에서, 필터(808)는 자연 반향이 더 낮은 주파수를 강조하는 경향이 있기 때문에 저역 통과 필터이어야 한다. 예를 들어, 공기 및 다수의 물리적 반사기(예를 들어, 벽, 개구 등)는 일반적으로 저역 통과 필터로서 작용한다. 일반적으로, 필터(808)는 장면에 적절한 T60 대 주파수 프로파일을 에뮬레이트하기 위해 특정 이득 세팅을 갖고 적합하게 선택된다[도 1의 메타데이터 엔진(108)에서]. 다수의 경우에, 디폴트 계수가 사용될 수 있다. 음조가 덜 좋은 세팅 또는 특정 효과에 대해, 믹싱 엔지니어는 다른 필터값을 지정할 수 있다. 게다가, 믹싱 엔지니어는 표준 필터 디자인 기술을 경유하여 대부분의 임의의 T60 프로파일의 T60 성능을 모방하기 위해 새로운 필터를 생성할 수 있다. 이들은 IIR 계수의 1차 또는 2차 섹션 세트의 견지에서 지정될 수 있다.
반향 변수의 결정:
메타데이터로서 수신되고 메타데이터 디코더/언팩커(238)에 의해 디코딩된 파라미터("T60")의 견지에서 잔향 세트(도 5의 508 내지 514)를 규정할 수 있다. 용어 "T60"은 사운드의 반향을 60 데시벨(dB)만큼 감쇠하기 위해, 초 단위의 시간을 지시하도록 당 기술 분야에 사용된다. 예를 들어, 콘서트홀에서, 반향 반사는 60 dB만큼 감쇠하기 위해 4초 정도를 소요할 수도 있고, 이 홀을 "4.0의 T60 값"을 갖는 것으로서 설명할 수 있다. 본 명세서에 사용될 때, 반향 감쇠 파라미터 또는 T60은 일반적으로 지수 감쇠 모델에 대한 감쇠 시간의 일반화된 척도를 나타내는 데 사용된다. 이는 60 데시벨만큼 감쇠하기 위한 시간의 척도에 반드시 한정되는 것은 아니고, 인코더 및 디코더가 일관적으로 상보적인 방식으로 파라미터를 사용하면, 다른 감쇠 시간이 사운드의 감쇠 특성을 동등하게 지정하는 데 사용될 수 있다.
반향기의 "T60"을 제어하기 위해, 메타데이터 디코더는 피드백 콤 필터 이득값의 적절한 세트를 계산하고, 이어서 상기 필터 이득값을 설정하도록 반향기에 이득값을 출력한다. 이득값이 1.0에 근접할수록, 반향이 더 길게 계속될 것이고, 1.0에 동일한 이득에 의해, 반향은 결코 감소하지 않을 것이고, 1.0을 초과하는 이득에 의해, 반향은 계속적으로 증가할 것이다("피드백 스크리치" 종류의 사운드를 생성함). 본 발명의 특히 신규한 실시예에 따르면, 식 2가 피드백 콤 필터의 각각에 대해 이득값을 컴퓨팅하는 데 사용된다.
Figure pct00002
(식 2)
여기서, 오디오에 대한 샘플링 레이트는 "fs"에 의해 제공되고, sample_delay는 특정 콤 필터에 의해 부여된 시간 지연이다[공지의 샘플 레이트(fs)에서 샘플의 수로 표현됨]. 예를 들어, 1777의 sample_delay 길이를 갖는 피드백 콤 필터를 갖고 초당 44,100 샘플의 샘플링 레이트를 갖는 입력 오디오를 갖고, 4.0초의 T60을 요구하면, 이하와 같이 계산할 수 있다.
Figure pct00003
(식 3)
슈뢰더-무어러 반향기에 대한 수정예에서, 본 발명은 각각의 것이 그 값이 상기에 나타낸 바와 같이 계산되는 이득을 갖는, 상기 도 6에 도시되어 있는 바와 같이 병렬의 7개의 피드백 콤 필터를 포함하여, 모든 7개는 일관적인 T60 감쇠 시간을 갖게 되고, 또한 서로소의 sample_delay 길이에 기인하여, 병렬 콤 필터는 합산될 때 직교하여 유지하고, 따라서 인간 청각 시스템에서 복잡한 확산 감각을 생성하도록 믹싱된다.
일관적인 사운드를 반향기에 제공하기 위해, 피드백 콤 필터의 각각 내에 동일한 필터(808)를 적합하게 사용할 수 있다. 본 발명에 따르면, 이 목적으로 "무한 임펄스 응답"(IIR) 필터를 사용하는 것이 매우 바람직하다. 디폴트 IIR 필터는 공기의 자연 저역 통과 효과에 유사한 저역 통과 효과를 제공하도록 설계된다. 다른 디폴트 필터가, 매우 상이한 환경의 감각을 생성하기 위해 상이한 주파수에서 T60(그 최대값이 상기에 지정되어 있음)을 변경하기 위해 "복재", "경질면" 및 "극단적으로 연성" 반사 특성과 같은 다른 효과를 제공할 수 있다.
본 발명의 특히 신규한 실시예에서, IIR 필터(808)의 파라미터는 수신된 메타데이터의 제어 하에서 가변적이다. IIR 필터의 특성을 변경함으로써, 본 발명은 "주파수 T60 응답"의 제어를 성취하여, 사운드의 몇몇 주파수가 다른 것들보다 빨리 감쇠하게 한다. 믹싱 엔지니어[메타데이터 엔진(108)을 사용하는]는 이들이 예술적으로 적합할 때 비범한 효과를 생성하기 위해 필터(808)에 적용을 위한 다른 파라미터를 지시할 수 있지만, 이들은 모두 동일한 IIR 필터 내부에서 취급된다는 것을 주목하라. 콤의 수는 또한 전송된 메타데이터에 의해 제어된 파라미터이다. 따라서, 음향적으로 매력적인 장면에서, 콤의 수는 더 "튜브형" 또는 "플러터 에코" 사운드 품질을 제공하기 위해 감소될 수 있다(믹싱 엔지니어의 제어 하에서).
바람직한 실시예에서, 슈뢰더 전역 통과 필터의 수는 전송된 메타데이터의 제어 하에서 또한 가변적이다, 주어진 실시예는 0개, 1개, 2개 또는 그 이상을 가질 수도 있다. (단지 2개만이 명료화를 보존하기 위해 도면에 도시되어 있다.) 이들은 부가의 시뮬레이팅된 반사를 도입하고 예측 불가능한 방식으로 오디오 신호의 위상을 변경하는 기능을 한다. 게다가, 슈뢰더 섹션은 요구될 때 그 자신에 비범한 사운드 효과를 제공할 수 있다.
본 발명의 바람직한 실시예에서, 수신된 메타데이터[사용자 제어 하에서 메타데이터 생성 엔진(108)에 의해 미리 생성된]의 사용은 슈뢰더 전역 통과 필터의 수를 변경함으로써, 피드백 콤 필터의 수를 변경함으로써, 그리고 이들 필터 내부의 파라미터를 변경함으로써, 이 반향기의 사운드를 제어한다. 콤 필터 및 전역 통과 필터의 수를 증가시키는 것은 반향에서 반사의 밀도를 증가시킬 것이다. 채널당 7개의 콤 필터 및 2개의 전역 통과 필터의 디폴트값이 실험적으로 결정되어 있어 콘서트홀 내부의 반향을 시뮬레이팅하기 위해 적합한 자연-사운딩 잔향을 제공한다. 하수구 파이프의 내부와 같은 매우 간단한 반향 환경을 시뮬레이팅할 때, 콤 필터의 수를 감소시키는 것이 적합하다. 이 이유로, 메타데이터 필드 "밀도"가 얼마나 많은 콤 필터가 사용되어야 하는지를 지정하기 위해 제공된다(전술된 바와 같이).
반향기를 위한 세팅의 완전한 세트는 "reverb_set"를 규정한다. reverb_set는 구체적으로, 전역 통과 필터의 수, 각각에 대한 sample_delay 값 및 각각에 대한 sample_delay 값, 피드백 콤 필터의 수와 함께, 각각에 대한 sample_delay 값 및 각각의 피드백 콤 필터 내부의 필터(808)로서 사용될 IIR 필터 계수의 지정된 세트에 의해 규정된다.
맞춤화 잔향 세트를 언팩킹하는 것에 부가하여, 바람직한 실시예에서, 메타데이터 디코더/언팩커 모듈(238)은 상이한 값을 갖지만 유사한 평균 sample_delay 값을 갖는 다중 사전 규정된 reverb_set를 저장한다. 메타데이터 디코더는 전술된 바와 같이 전송된 오디오 비트스트림의 메타데이터 필드 내에 수신된 여기 코드에 응답하여 저장된 잔향 세트로부터 선택한다.
전역 통과 필터(604, 606) 및 다수의 다양한 콤 필터(608 내지 620)의 조합은 각각의 채널 내에 매우 복잡한 지연 대 주파수 특성을 생성하고, 더욱이 상이한 채널 내의 상이한 지연 세트의 사용은 지연이 a) 채널 내의 상이한 주파수에 대해 그리고 b) 동일한 또는 상이한 주파수에 대한 채널 중에 변하는 극단적으로 복잡한 관계를 생성한다. 멀티채널 스피커 시스템("서라운드 사운드 시스템")에 출력할 때, 이는 (메타데이터에 의해 안내될 때) 오디오 파형의 선단 에지(또는 고주파수에 대한 포락선)가 다양한 주파수에서 귀에 동시에 도달하지 않도록 주파수 의존성 지연을 갖는 상황을 생성한다. 더욱이, 오른쪽 귀 및 왼쪽 귀는 서라운드 사운드 장치에서 상이한 스피커 채널로부터 선택적으로 사운드를 수신하기 때문에, 본 발명에 의해 생성된 복잡한 변동은 포락선의 선단 에지에 대해(고주파수에 대해) 또는 저주파수 파형을 발생시켜 상이한 주파수에 대한 가변 이간 시간 지연을 갖고 귀에 도달하게 한다. 이들 조건은 "지각적 확산" 오디오 신호, 궁극적으로 이러한 신호가 재생될 때 "지각적 확산" 사운드를 생성한다.
도 9는 전역 패스 필터 및 잔향 세트의 모두에 대한 상이한 지연의 세트로 프로그램된 2개의 상이한 반향기 모듈로부터 개략화된 지연 대 주파수 출력 특성을 도시하고 있다. 지연은 샘플링 주기에 제공되고, 주파수는 나이퀴스트 주파수로 정규화된다. 가청 스펙트럼의 작은 부분이 표현되고, 단지 2개의 채널만이 도시되어 있다. 곡선 902 및 904는 주파수를 가로질러 복잡한 방식으로 변한다는 것을 알 수 있다. 본 발명자들은 이 변동이 서라운드 시스템(예를 들어, 7개의 채널로 확장됨)에서 지각 확산의 설득력 있는 감각을 생성한다는 것을 발견하였다.
도 9의 (개략화된) 그래프에 도시되어 있는 바와 같이, 본 발명의 방법 및 장치는 복수의 마루, 골 및 변곡을 갖는, 지연과 주파수 사이의 복잡한 불규칙한 관계를 생성한다. 이러한 특성은 지각적 확산 효과에 대해 바람직하다. 따라서, 본 발명의 바람직한 실시예에 따르면, 주파수 의존성 지연(하나의 채널 내에 또는 채널들 사이에 있건간에)은 복잡하고 불규칙적인 특징을 갖는 데 -- 사운드 소스를 확산하는 심리음향 효과를 야기하기 위해 충분히 복잡하고 불규칙하다. 이는 간단한 통상의 필터(저역 통과, 대역 통과, 쉘빙 등과 같은)로부터 발생하는 것들과 같은 간단한 예측 가능한 위상 대 주파수 변동으로 혼란되지 않아야 한다. 본 발명의 지연 대 주파수 특성은 가청 스펙트럼을 가로질러 분배된 복수의 극에 의해 생성된다.
직접 및 확산 중간 신호의 믹싱에 의한 거리의 시뮬레이팅 :
사실상, 귀가 오디오 소스로부터 매우 이격되어 있으면, 단지 확산 사운드만이 청취될 수 있다. 귀가 오디오 소스에 근접함에 따라, 몇몇 직접 및 몇몇 확산이 청취될 수 있다. 귀가 오디오 소스에 매우 근접하면, 단지 직접 오디오만이 청취될 수 있다. 사운드 재생 시스템은 직접 및 확산 오디오 사이의 믹스를 변경함으로써 오디오 소스로부터 거리를 시뮬레이팅할 수 있다.
환경 엔진은 거리를 시뮬레이팅하기 위해 원하는 직접/확산비를 표현하는 메타데이터를 "인지"(수신)할 필요만이 있다. 더 정확하게는, 본 발명의 수신기에서, 수신된 메타데이터는 "확산성"이라 칭하는 파라미터로서 원하는 직접/확산비를 표현한다. 이 파라미터는 바람직하게는 생성 엔진(108)과 관련하여 전술된 바와 같이, 믹싱 엔지니어에 의해 미리 설정된다. 확산성이 지정되지 않고 확산 엔진의 사용이 지정되면, 디폴트 확산성 값은 적합하게는 0.5로 설정될 수 있다[이는 임계 거리(청취자가 동일한 양의 직접 및 확산 사운드를 청취하는 거리)를 표현함].
일 적합한 파라미터 표현에서, "확산성" 파라미터(d)는 0≤d≤1이 되도록 하는 사전 규정된 범위 내의 메타데이터 변수이다. 정의에 의해, 0.0의 확산성 값은 절대적으로 확산 성분이 없이 완전히 직접적일 수 있고, 1.0의 확산성 값은 직접 성분이 없이 완전히 확산적일 수 있고, 그 사이에서 이하의 식으로서 컴퓨팅된 "diffuse_gain" 및 "direct_gain" 값을 사용하여 믹싱할 수 있다.
Figure pct00004
(식 4)
따라서, 본 발명은 사운드 소스로의 원하는 거리의 지각 효과를 생성하기 위해, 식 3에 따라, 수신된 "확산성" 메타데이터 파라미터에 기초하여 확산 및 직접 성분을 각각의 스템에 대해 믹싱한다.
재생 환경 엔진:
본 발명의 바람직한 특히 신규한 실시예에서, 믹싱 엔진은 "재생 환경" 엔진(도 4의 424)과 통신하고, 로컬 재생 환경의 특정 특성을 개략적으로 지정하는 파라미터의 세트를 그 모듈로부터 수신한다. 전술된 바와 같이, 오디오 신호는 "건조" 형태(상당한 분위기 또는 반향이 없음)로 미리 레코딩되거나 인코딩되어 있다. 특정 로컬 환경에서 확산 및 직접 오디오를 최적으로 재생하기 위해, 믹싱 엔진은 로컬 재생을 위한 믹스를 향상시키기 위해 전송된 메타데이터 및 로컬 파라미터의 세트에 응답한다.
재생 환경 엔진(424)은 로컬 재생 환경의 특정 특성을 측정하고, 파라미터의 세트를 추출하고, 이들 파라미터를 로컬 재생 렌더링 모듈에 통과시킨다. 재생 환경 엔진(424)은 이어서 출력 신호를 생성하기 위해 오디오 신호 및 확산 신호에 인가되어야 하는 지연을 보상하는 M 출력의 세트 및 이득 계수 행렬에 대한 수정을 계산한다.
도 10에 도시되어 있는 바와 같이, 재생 환경 엔진(424)은 로컬 음향 환경(1004)의 정량적 측정을 추출한다. 추정된 또는 추출된 변수들 중에는, 룸 치수, 룸 체적, 로컬 반향 시간, 스피커의 수, 스피커 배치 및 기하학 구조가 있다. 다수의 방법이 로컬 환경을 측정하거나 추정하는 데 사용될 수 있다. 가장 간단한 것 중에는 키패드 또는 단말형 디바이스(1010)를 통해 직접 사용자 입력을 제공하는 것이 있다. 마이크로폰(1012)은 또한 재생 환경 엔진(424)에 신호 피드백을 제공하는 데 사용될 수 있어, 공지의 방법에 의한 룸 측정 및 캘리브레이션을 허용한다.
본 발명의 바람직한 특히 신규한 실시예에서, 재생 환경 모듈 및 메타 데이터 디코딩 엔진은 믹싱 엔진으로의 제어 입력을 제공한다. 이들 제어 입력에 응답하여 믹싱 엔진은 중간 합성 확산 채널을 포함하는 제어 가능하게 지연된 오디오 채널을 믹싱하여, 로컬 재생 환경에 적합하도록 수정된 출력 오디오 채널을 생성한다.
재생 환경 모듈로부터 데이터에 기초하여, 환경 엔진(240)은 각각의 입력에 대해 방향 및 거리 데이터 및 각각의 출력에 대해 방향 및 거리 데이터를 사용하여, 어떻게 입력을 출력에 믹싱하는지를 결정할 것이다. 각각의 입력 스템의 거리 및 방향은 수신된 메타데이터(표 1 참조) 내에 포함되고, 출력을 위한 거리 및 방향은 청취 환경에서 스피커 위치를 측정하고, 가정하거나 다른 방식으로 결정함으로써 재생 환경 엔진에 의해 제공된다.
다양한 렌더링 모델이 환경 엔진(240)에 의해 사용될 수 있다. 환경 엔진의 일 적합한 구현예는 도 11에 도시되어 있는 바와 같은 렌더링 모델로서 시뮬레이팅된 "가상 마이크로폰 어레이"를 사용한다. 시뮬레이션은 출력 디바이스당 하나의 마이크로폰으로, 재생 환경의 청취 센터(1104) 주위에 배치된 마이크로폰의 가상적 클러스터(일반적으로 1102로 도시되어 있음)를 가정하고, 각각의 마이크로폰은 환경의 중심에서 테일을 갖는 광선 상에 정렬되고 헤드는 각각의 출력 디바이스[스피커(1106)]를 향해 안내되고, 바람직하게는 마이크로폰 픽업은 환경의 중심으로부터 등간격으로 이격되는 것으로 가정된다.
가상 마이크로폰 모델은 각각의 실제 스피커(실제 재생 환경에서 위치됨)로부터 가상적 마이크로폰의 각각에서 원하는 볼륨 및 지연을 생성할 수 있는 행렬(동적으로 가변적인)을 계산하는 데 사용된다. 임의의 스피커로부터 특정 마이크로폰으로의 이득은 공지의 위치에서 각각의 스피커에 대해, 마이크로폰에서 원하는 이득을 실현하는 데 요구된 출력 볼륨을 계산하기에 충분하다는 것이 명백할 것이다. 유사하게, 스피커 위치의 지식은 신호 도달 시간을 모델에 정합하기 위해(공기 내의 음속을 가정함으로써) 임의의 필요한 지연을 형성하는 데 충분해야 한다. 렌더링 모델의 목적은 따라서 규정된 청취 위치에서 가상적 마이크로폰에 의해 생성될 수 있는 마이크로폰 신호의 원하는 세트를 생성할 수 있는 출력 채널 이득 및 지연의 세트를 규정하는 것이다. 바람직하게는, 동일한 또는 유사한 청취 위치 및 가상 마이크로폰이 전술된 생성 엔진에 사용되어 원하는 믹스를 규정한다.
"가상 마이크로폰" 렌더링 모델에서, 계수의 세트(Cn)가 가상 마이크로폰(1102)의 방향성을 모델링하는 데 사용된다. 이하에 나타낸 식을 사용하여, 각각의 가상 마이크로폰에 대한 각각의 입력의 이득을 컴퓨팅할 수 있다. 몇몇 이득은 제로에 매우 가깝게 평가될 수 있고("무시할만한" 이득), 이 경우에 이 가상 마이크로폰에 대한 입력을 무시할 수 있다. 무시할 수 없는 이득을 갖는 각각의 입력-출력 다이애드(dyad)에 대해, 렌더링 모델은 계산된 이득을 사용하여 입력-출력 다이애드로부터 믹스하도록 믹싱 엔진에 명령하고, 이득이 무시할만하면, 어떠한 믹싱도 이 다이애드에 대해 수행될 필요가 없다. (믹싱 엔진은 이하의 믹싱 엔진 섹션에 완전히 설명될 것인 "mixop"의 형태의 명령이 제공된다. 계산된 이득이 무시할만하면, mixop는 간단히 생략될 수 있다.) 가상 마이크로폰에 대한 마이크로폴 이득 계수는 모든 가상 마이크로폰에 대해 동일할 수 있고, 또는 상이할 수 있다. 계수는 임의의 적합한 수단에 의해 제공될 수 있다. 예를 들어, "재생 환경" 시스템이 직접 또는 유사 측정에 의해 이들을 제공할 수 있다. 대안적으로, 데이터는 사용자에 의해 입력되거나 미리 저장될 수 있다. 5.1 및 7.1과 같은 표준화된 스피커 구성에 대해, 계수는 표준화된 마이크로폰/스피커 셋업에 기초하여 내장될 수 있을 것이다.
이하의 식이 가상 마이크로폰 렌더링 모델에서 가상적 "가상" 마이크로폰에 대한 오디오 소스(스템)의 이득을 계산하는 데 사용될 수 있다.
Figure pct00005
(식 5)
행렬 cij, pij 및 kij는 가상적 마이크로폰의 방향성 이득 특성을 표현하는 행렬을 특징화한다. 이들은 실제 마이크로폰으로부터 측정될 수 있고 또는 모델로부터 가정될 수 있다. 간단화된 가정은 행렬을 간단화하는 데 사용될 수 있다. 하첨자 s는 오디오 스템을 식별하고, 하첨자 m은 가상적 마이크로폰을 식별한다. 변수 세타(θ)는 하첨자로 나타낸 객체(오디오 스템에 대해 s, 가상 마이크로폰에 대해 m)의 수평각을 표현한다. 파이(φ)는 수직각(대응 하첨자 객체의)을 표현하는 데 사용된다.
특정 가상 마이크로폰에 대한 소정의 스템의 지연은 이하의 식들로부터 발견될 수 있다.
Figure pct00006
(식 6)
Figure pct00007
(식 7)
Figure pct00008
(식 8)
Figure pct00009
(식 9)
Figure pct00010
(식 10)
Figure pct00011
(식 11)
Figure pct00012
(식 12)
Figure pct00013
(식 13)
가상 마이크로폰이 가상적 고리 상에 놓이는 것으로 가정되는 경우에, radiusm 변수는 밀리초 단위에 지정된 반경을 나타낸다(매체, 가능하게는 실온 및 압력에서의 공기 내의 사운드에 대해). 적절한 변환에 의해, 모든 각도 및 거리가 재생 환경에서 실제 또는 근사된 스피커 위치에 기초하여 상이한 좌표 시스템으로부터 측정되거나 계산될 수 있다. 예를 들어, 간단한 삼각 관계가 당 기술 분야에 공지된 바와 같이, 데카르트 좌표계(x, y, z)로 표현된 스피커 위치에 기초하여 각도를 계산하는 데 사용될 수 있다.
소정의 특정 오디오 환경은 환경을 위해 확산 엔진을 어떻게 구성하는지를 지정하기 위해 특정 파라미터를 제공할 수 있다. 바람직하게는, 이들 파라미터는 재생 환경 엔진(240)에 의해 측정되거나 추정될 수 있지만, 대안적으로 사용자에 의해 입력되거나 적당한 가정에 기초하여 미리 프로그램될 수 있다. 임의의 이들 파라미터가 생략되면, 디폴트 확산 엔진 파라미터가 적합하게 사용될 수 있다. 예를 들어, 단지 T60이 지정되면, 모든 다른 파라미터는 이들의 디폴트값에서 설정되어야 한다. 확산 엔진에 의해 적용된 잔향을 가질 필요가 있는 2개 이상의 입력 채널이 존재하면, 이들은 함께 믹싱될 것이고 그 결과로 믹스는 확산 엔진을 통해 실행할 수 있다. 다음에, 확산 엔진의 확산 출력은 믹싱 엔진으로의 다른 이용 가능한 입력으로서 처리될 수 있고, mixop는 확산 엔진의 출력으로부터 그 믹스가 생성될 수 있다. 확산 엔진은 다중 채널을 지원할 수 있고, 입력 및 출력의 모두는 확산 엔진 애의 특정 채널에 유도되거나 그로부터 취해질 수 있다는 것을 주목하라.
믹싱 엔진:
믹싱 엔진(416)은 믹싱 계수의 세트 및 바람직하게는 또한 메타데이터 디코더/언팩커(238)로부터 지연의 세트를 제어 입력으로서 수신한다. 신호가 입력함에 따라, 이는 확산 엔진(402)으로부터 중간 신호 채널(410)을 수신한다. 본 발명에 따르면, 입력은 적어도 하나의 중간 확산 채널(412)을 포함한다. 특히 신규한 실시예에서, 믹싱 엔진은 또한 로컬 재생 환경의 특성에 따라 믹스를 수정하는 데 사용될 수 있는 재생 환경 엔진(424)으로부터 입력을 수신한다.
전술된 바와 같이[생성 엔진(108)과 관련하여], 전술된 믹싱 메타데이터는 본 발명의 전체 시스템의 입력 및 출력의 견지에서 이해될 수 있는 바와 같이, 일련의 매트릭스로서 통상적으로 표현된다. 본 발명의 시스템은 가장 일반적인 레벨에서, 복수의 N 입력 채널을 M 출력 채널에 맵핑하고, 여기서 N 및 M은 동일할 필요가 없고 어느 하나가 더 클 수도 있다. 치수 N×M의 차원의 행렬(G)이 N 입력 채널로부터 M 출력 채널로 맵핑하기 위해 이득값의 일반적인 완전한 세트를 지정하는 데 충분하다는 것을 쉽게 알 수 있을 것이다. 마찬가지로, 입력-출력 지연과 확산 파라미터를 완전히 특정하기 위해 N×M 행렬이 편리하게 사용될 수 있다. 대안적으로, 코드의 시스템이 더 빈번하게 사용된 믹싱 행렬을 간결하게 표현하는 데 사용될 수 있다. 행렬은 이어서 각각의 코드가 대응 행렬과 연관되는 저장된 코드북을 참조하여 디코더에서 용이하게 복구될 수 있다.
따라서, N 입력을 M 출력에 믹싱하기 위해, 각각의 샘플 시간에 대해 행(N 입력에 대응함)에 이득 매트릭스의 i번째 열(i=1 내지 M)을 곱하기 위해 충분하다. 유사한 동작이 각각의 N 대 M 출력 채널 맵핑을 위해 직접/확산 믹스 및 (N 대 M 맵핑)을 적용하도록 지연을 지정하는 데 사용될 수 있다. 더 간단한 스칼라 및 벡터 표현(융통성의 견지에서 소정의 희생으로)을 포함하는 다른 표현 방법이 이용될 수 있다.
통상의 믹서와는 달리, 본 발명에 따른 믹싱 엔진은 지각적 확산 프로세싱을 위해 특히 식별된 적어도 하나의(및 바람직하게는 하나 초과의) 입력 스템을 포함하고, 더 구체적으로 환경 엔진은 믹싱 엔진이 지각적 확산 채널을 입력으로서 수신할 수 있도록 메타데이터의 제어 하에 구성 가능하다. 지각적 확산 입력 채널은 a) 본 발명에 따라 지각적으로 관련된 반향길 하나 이상의 오디오 채널을 프로세싱함으로써 생성되어 있는 것, 또는 b) 대응 메타데이터에 의해서와 같이 식별되고 자연 반향 음향 환경에서 레코딩된 스템일 수 있다.
따라서, 도 12에 도시되어 있는 바와 같이, 믹싱 엔진(416)은 환경 엔진에 의해 생성된 하나 이상의 확산 채널(1204)에 더하여 중간 오디오 신호(1202)(N 채널)를 포함하는 N'개의 오디오 입력의 채널을 수신한다. 믹싱 엔진(416)은 로컬 환경에서 재생을 위해 M 출력 채널(1210, 1212)의 세트를 생성하기 위해 믹싱 제어 계수의 세트(수신된 메타데이터로부터 디코딩된)의 제어하에서 곱하고 합산함으로써 N'개의 오디오 입력 채널(1202, 1204)을 믹싱한다. 일 실시예에서, 전용 확산 출력(1212)은 전용 확산 라디에이터 스피커를 통한 재생을 위해 차별화된다. 다중 오디오 채널은 이어서 증폭기(1214)에 의해 증폭된 아날로그 신호로 변환된다. 증폭된 신호는 스피커(244)의 어레이를 구동한다.
특정 믹싱 계수는 메타데이터 디코더/언팩커(238)에 의해 때때로 수신된 메타데이터에 응답하여 시간이 변한다. 특정 믹스는 또한 바람직한 실시예에서, 로컬 재생 환경에 대한 정보에 응답하여 변한다. 로컬 재생 정보는 바람직하게는 전술된 바와 같이 재생 환경 모듈(424)에 의해 제공된다.
바람직한 신규한 실시예에서, 믹싱 엔진은 또한 수신된 메타데이터로부터 그리고 바람직하게는 또한 재생 환경의 로컬 특성에 의존하여 디코딩된 지정된 지연을 각각의 입력-출력 쌍에 적용한다. 수신된 메타데이터는 각각의 입력 채널/출력 채널 쌍에 믹싱 엔진에 의해 적용될(이는 이어서 로컬 재생 환경에 기초하여 수신기에 의해 수정됨) 지연 매트릭스를 포함하는 것이 바람직하다.
이 동작은 "mixop"(MIX OPeration 명령)으로서 나타낸 파라미터의 세트를 참조하여 다른 용어로 설명될 수 있다. 디코딩된 메타데이터로부터 수신된[데이터 경로(1216)를 경유하여] 제어 데이터 및 재생 환경 엔진으로부터 수신된 다른 파라미터에 기초하여, 믹싱 엔진은 재생 환경의 렌더링 모델[모듈(1220)로서 표현됨]에 기초하여 지연 및 이득 계수(함께 "mixop")를 계산한다.
믹스 엔진은 바람직하게는 수행될 믹싱을 지정하기 위해 "mixop"을 사용할 것이다. 적합하게는, 각각의 특정 출력에 믹싱되는 각각의 특정 입력에 대해, 각각의 단일 mixop(바람직하게는 이득 및 지연 필드의 모두를 포함함)이 생성될 것이다. 따라서, 단일 입력은 가능하게는 각각의 출력 채널에 대한 mixop을 생성할 수 있다. 일반화를 위해, N×M mixop은 N 입력 채널로부터 M 출력 채널로 맵핑하는 데 충분하다. 예를 들어, 7개의 출력 채널로 재생되는 7-채널 입력은 잠재적으로 직접 채널 단독으로 49개 정도의 이득 mixop을 생성할 수 있고, 더 많은 것이 확산 엔진(402)으로부터 수신된 확산 채널을 고려하기 위해 본 발명의 7 채널 실시예에서 요구된다. 각각의 mixop는 입력 채널, 출력 채널, 지연 및 이득을 지정한다. 선택적으로, mixop는 마찬가지로 적용될 출력 필터를 지정할 수 있다. 바람직한 실시예에서, 시스템은 특정 채널이 "직접 렌더링" 채널로서 식별되게 한다(메타데이터에 의해). 이러한 채널이 또한 diffuse_flag 세트(메타데이터 내에)를 가지면, 이는 확산 엔진을 통해 통과하지 않고 믹싱 엔진의 확산 입력에 입력될 수 있다.
통상의 시스템에서, 특정 출력은 저주파수 효과 채널(LFE)로서 별도로 처리될 수 있다. LFE로서 태그된 출력은 본 발명의 주제가 아닌 방법에 의해 특정하게 처리된다. LFE 신호는 개별 전용 채널 내에서 처리될 수 있다(확산 엔진 및 믹싱 엔진을 바이패스함으로써).
본 발명의 장점은 인코딩의 시점에 직접 및 확산 오디오의 분리와, 이어서 디코딩 및 재생의 시점에 확산 효과의 합성에 놓여 있다. 룸 효과로부터 직접 오디오의 이 분할은, 특히 재생 환경이 믹싱 엔지니어에 알려진 선험이 아닌 경우에, 다양한 재생 환경에서 더 효과적인 재생을 허용한다. 예를 들어, 재생 환경이 작은 음향적으로 건조한 스튜디오이면, 확산 효과는 장면이 이를 요구할 때 큰 극장을 시뮬레이팅하도록 추가될 수 있다.
본 발명의 이 장점은 특정예에 의해 양호하게 예시되는 데, 모차르트에 대한 잘 알려진 인기 있는 영화에서, 오페라 장면은 비엔나 오페라 하우스에 세팅된다. 이러한 장면이 본 발명의 방법에 의해 전송되면, 음악은 "건조" 상태로 또는 사운드의 다소 직접 세트로서 레코딩될 것이다(다중 채널 내에서). 메타데이터는 이어서 재생시에 요구 합성 확산에 메타데이터 엔진(108)에서 믹싱 엔지니어에 의해 추가될 수 있다. 이에 응답하여, 디코더에서 적절한 합성 반향이 재생 극장이 가정의 거실과 같은 작은 룸이면 추가될 것이다. 다른 한편으로, 재생 극장이 큰 강당이면, 로컬 재생 환경에 기초하여, 메타데이터 디코더는 더 적은 합성 반향이 추가될 수 있는 점에서 직접형일 수 있다(과도한 반향 및 최종적인 흐린 효과를 회피하기 위해).
통상의 오디오 전송 방안은 실제 룸의 룸 임펄스 응답이 디콘볼루션에 의해 현실적으로(실제로) 제거될 수 없기 때문에, 로컬 재생에 등가의 조정을 허용하지 않는다. 몇몇 시스템은 로컬 주파수 응답을 보상하려고 시도하지만, 이러한 시스템은 반향을 진정하게 제거하지 않고 전송된 오디오 신호 내에 존재하는 반향을 실제로 제거할 수 없다. 대조적으로, 본 발명은 다양한 재생 환경에서, 재생시에 합성 또는 적절한 확산 효과를 용이하게 하는 메타데이터와 조화된 조합으로 직접 오디오를 전송한다.
직접 및 확산 출력 및 스피커:
본 발명의 바람직한 실시예에서, 오디오 출력(도 2의 243)은 오디오 입력 채널(스템)의 수와는 수가 상이할 수 있는 복수의 오디오 채널을 포함한다. 본 발명의 디코더의 바람직한 특히 신규한 실시예에서, 전용 확산 출력은 바람직하게는 확산 사운드의 재생을 위해 특정화된 적절한 스피커에 라우팅되어야 한다. US2009/0060236A1호로서 공개된 미국 특허 출원 제11/847096호에 설명된 시스템과 같은 개별 직접 및 확산 입력 채널을 갖는 조합형 직접/확산 스피커가 유리하게 이용될 수 있다. 대안적으로, 전술된 반향 방법을 사용함으로써, 확산 감각이 전술된 반향/확산 시스템의 사용에 의해 생성된 청취룸 내의 고의적인 채널간 간섭을 렌더링하는 직접 오디오의 5개 또는 7개의 채널의 상호 작용에 의해 생성될 수 있다.
본 발명의 방법의 특정 실시예 :
본 발명의 더 특정의 실용 실시예에서, 환경 엔진(240), 메타데이터 디코더/언팩커(228) 및 심지어 오디오 디코더(236)는 하나 이상의 범용 마이크로프로세서 상에 또는 특정화된 프로그램 가능 집적 DSP 시스템과 제휴하여 범용 마이크로프로세서에 의해 구현될 수 있다. 이러한 시스템은 절차 관점으로부터 가장 종종 설명된다. 절차 관점으로부터 볼 때, 도 1 내지 도 12에 도시되어 있는 모듈 및 신호 경로는 소프트웨어 모듈의 제어 하에서, 특히 본 명세서에 설명된 모든 오디오 프로세싱 기능을 실행하도록 요구된 명령을 포함하는 소프트웨어 모듈의 제어 하에서 마이크로프로세서에 의해 실행된 절차에 대응한다는 것이 용이하게 인식될 수 있을 것이다. 예를 들어, 피드백 콤 필터는 당 기술 분야에 공지된 바와 같이, 중간 결과를 저장하기 위해 충분한 랜덤 액세스 메모리와 조합하여 프로그램 가능 마이크로프로세서에 의해 용이하게 실현된다. 본 명세서에 설명된 모든 모듈, 엔진 및 구성 요소(믹싱 엔지니어 이외에)는 특정하게 프로그램된 컴퓨터에 의해 유사하게 실현될 수 있다. 부유점 또는 고정점 산술을 포함하는 다양한 데이터 표현이 사용될 수 있다.
이제 도 13을 참조하면, 수신 및 디코딩 방법의 절차도가 일반적인 레벨에서 도시되어 있다. 방법은 복수의 메타데이터 파라미터를 갖는 오디오 신호를 수신함으로써 단계 1310에서 시작한다. 단계 1320에서, 오디오 신호는 인코딩된 메타데이터가 오디오 신호로부터 언팩킹되고 오디오 신호가 지정된 오디오 채널로 분리되도록 디멀티플렉싱된다. 메타데이터는 복수의 렌더링 파라미터, 믹싱 계수 및 지연의 세트를 포함하고, 이들 모두는 상기 표 1에 더 규정되어 있다. 표 1은 예시적인 메타데이터 파라미터를 제공하고, 본 발명의 범주를 한정하도록 의도된 것은 아니다. 당 기술 분야의 숙련자는 오디오 신호 특성의 확산을 규정하는 다른 메타데이터 파라미터가 본 발명에 따라 비트스트림 내에서 전달될 수 있다는 것을 이해할 수 있을 것이다.
방법은 오디오 채널(다중 오디오 채널의)이 공간적 확산 효과를 포함하도록 필터링되는지를 판정하기 위해 메타데이터 파라미터를 프로세싱함으로써 단계 1330에서 계속된다. 적절한 오디오 채널은 의도된 공간적 확산 효과를 포함하도록 잔향 세트에 의해 프로세싱된다. 잔향 세트는 상기 반향 모듈 섹션에서 설명되었다. 방법은 로컬 음향 환경을 형성하는 재생 파라미터를 수신함으로써 단계 1340에서 계속된다. 각각의 로컬 음향 환경은 고유하고, 각각의 환경은 오디오 신호의 공간적 확산 효과에 상이하게 영향을 미칠 수 있다. 로컬 음향 환경의 특성을 고려하고 오디오 신호가 그 환경에서 재생될 때 자연적으로 발생할 수 있는 임의의 공간적 확산 편차를 보상하는 것은 인코더에 의해 의도된 바와 같은 오디오 신호의 재생을 촉진한다.
방법은 메타데이터 파라미터 및 재생 파라미터에 기초하여 필터링된 오디오 채널을 믹싱함으로써 단계 1350에서 계속된다. 일반화된 믹싱은 모든 M 입력으로부터 가중 기여도를 각각의 N 출력에 믹싱하는 것을 포함한다는 것이 이해되어야 하고, 여기서 N 및 M은 각각 출력 및 입력의 수이다. 믹싱 동작은 전술된 바와 같이 "mixops"의 세트에 의해 적합하게 제어된다. 바람직하게는, 지연의 세트(수신된 메타데이터에 기초하는)가 또한 믹싱 단계의 부분으로서 도입된다(또한 전술된 바와 같이). 단계 1360에서, 오디오 채널은 하나 이상의 라우드스피커를 통한 재생을 위해 출력된다.
도 14를 참조하면, 본 발명의 인코딩 방법 양태는 일반적인 레벨로 도시되어 있다. 디지털 오디오 신호가 단계 1410에서 수신될 수 있다(이 신호는 캡처된 라이브 사운드로부터, 전송된 디지털 신호로부터 또는 레코딩된 파일의 재생으로부터 발신될 수 있음). 신호는 압축되거나 인코딩된다(단계 1416). 오디오와 동기식 관계로, 믹싱 엔지니어("사용자")는 입력 디바이스 내로 제어 선택을 입력한다(단계 1420). 입력은 원하는 확산 효과 및 멀티채널 믹스를 결정하거나 선택한다. 인코딩 엔진은 원하는 효과 및 믹스에 적절한 메타데이터를 생성하거나 계산한다(단계 1430). 오디오는 본 발명의 디코딩 방법에 따라 수신기/디코더에 의해 디코딩되고 프로세싱된다(전술됨, 단계 1440). 디코딩된 오디오는 선택된 확산 및 믹스 효과를 포함한다. 디코딩된 오디오는 모니터링 시스템에 의해 믹싱 엔지니어에 재생되어 그/그녀가 원하는 확산 및 믹스 효과를 검증할 수 있게 된다(모니터링 단계 1450). 소스 오디오가 사전 레코딩된 소스로부터 오면, 엔지니어는 원하는 효과가 성취될 때까지 이 프로세스를 재반복하는 옵션을 가질 것이다. 마지막으로, 압축된 오디오는 확산 및 (바람직하게는) 믹스 특성을 표현하는 메타데이터와 동기식 관계로 전송된다(단계 1460). 바람직한 실시예의 이 단계는 머신 판독 가능 매체 상의 전송 또는 레코딩을 위해 조합된 데이터 포맷으로 압축된 (멀티채널) 오디오 스트림과 메타데이터를 멀티플렉싱하는 것을 포함할 것이다.
다른 양태에서, 본 발명은 전술된 방법에 의해 인코딩된 신호로 기록된 머신 판독 가능 기록 가능 매체를 포함한다. 시스템 양태에서, 본 발명은 전술된 방법 및 장치에 따른 조합된 인코딩, 전송(또는 레코딩) 및 수신/디코딩의 시스템을 또한 포함한다.
프로세서 아키텍처의 변형예가 이용될 수 있다는 것이 명백할 것이다. 예를 들어, 다수의 프로세서는 병렬 또는 직렬 구성으로 사용될 수 있다. 전용 "DSP"(디지털 신호 프로세서) 또는 디지털 필터 디바이스가 필터로서 이용될 수 있다. 오디오 다중 채널은 신호를 멀티플렉싱함으로써 또는 병렬 프로세서를 실행함으로써 함께 프로세싱될 수 있다. 입력 및 출력은 병렬, 직렬, 인터리빙 또는 인코딩을 포함하는 다양한 방식으로 포맷될 수 있다.
본 발명의 다수의 예시적인 실시예가 도시되어 있고 설명되었지만, 수많은 다른 변형 및 대안 실시예가 당 기술 분야의 숙련자들에게 발생할 것이다. 이러한 변형 및 대안 실시예가 고려되고, 첨부된 청구범위에 규정된 바와 같은 본 발명의 사상 및 범주로부터 벗어나지 않고 이루어질 수 있다.
102: 사운드 104: 음향 환경
106: 멀티채널 마이크로폰 장치 107: 레코딩 디바이스
108: 메타데이터 생성 엔진 109: 입력 디바이스
110: 믹싱 엔지니어 120: 스피커
240: 환경 엔진 246: 청취 환경

Claims (8)

  1. 사운드를 표현하는 인코딩된 디지털 오디오 신호를 조절하기 위한 방법에 있어서,
    청취 환경에서 상기 오디오 신호 데이터의 원하는 렌더링을 파라메트릭하게 표현하는 인코딩된 메타데이터 - 상기 메타데이터는 적어도 하나의 오디오 채널 내에 지각적 확산 오디오 효과를 구성하도록 디코딩되는 것이 가능한 적어도 하나의 파라미터를 포함함 - 를 수신하는 단계와,
    프로세싱된 디지털 오디오 신호를 생성하기 위해, 상기 디지털 오디오 신호를 상기 파라미터에 응답하여 구성된 상기 지각적 확산 오디오 효과로 프로세싱하는 단계를 포함하는,
    인코딩된 디지털 오디오 신호 조절 방법.
  2. 제1항에 있어서, 상기 디지털 오디오 신호를 프로세싱하는 단계는 적어도 2개의 오디오 채널을 비상관(decorrelating)하기 위한 적어도 하나의 유틸리티 확산기를 포함하는 것인, 인코딩된 디지털 오디오 신호 조절 방법.
  3. 제2항에 있어서, 상기 유틸리티 확산기는 적어도 하나의 짧은 감쇠 반향기를 포함하는 것인, 인코딩된 디지털 오디오 신호 조절 방법.
  4. 제3항에 있어서, 상기 짧은 감쇠 반향기는 시간에 걸친 감쇠의 척도(T60)가 0.5초 이하가 되도록 구성되는 것인, 인코딩된 디지털 오디오 신호 조절 방법.
  5. 제4항에 있어서, 상기 짧은 감쇠 반향기는 T60이 주파수를 가로질러 실질적으로 일정하도록 구성되는 것인, 인코딩된 디지털 오디오 신호 조절 방법.
  6. 제3항에 있어서, 상기 디지털 오디오 신호를 프로세싱하는 단계는 적어도 2개의 출력 채널 내에 성분을 갖는 프로세싱된 오디오 신호를 생성하는 단계를 포함하고,
    상기 적어도 2개의 출력 채널은 적어도 하나의 직접 사운드 채널 및 적어도 하나의 확산 사운드 채널을 포함하고,
    상기 확산 사운드 채널은 주파수-도메인 인공 반향 필터로 상기 오디오 신호를 프로세싱함으로써 상기 오디오 신호로부터 유도되는 것인, 인코딩된 디지털 오디오 신호 조절 방법.
  7. 제2항에 있어서, 상기 디지털 오디오 신호를 프로세싱하는 단계는 시간 또는 주파수 도메인에서 전역 통과 필터로 상기 오디오 신호를 필터링하는 단계를 더 포함하는, 인코딩된 디지털 오디오 신호 조절 방법.
  8. 제7항에 있어서, 상기 디지털 오디오 신호를 프로세싱하는 단계는 원하는 확산 밀도를 표현하는 적어도 제2 파라미터를 얻기 위해 상기 메타데이터를 디코딩하는 단계를 더 포함하고,
    상기 확산 사운드 채널은 상기 확산 밀도를 근사하도록 상기 제2 파라미터에 응답하여 구성되는 것인, 인코딩된 디지털 오디오 신호 조절 방법.
KR1020137008267A 2010-09-08 2011-09-08 확산 사운드의 공간 오디오 인코딩 및 재생 KR101863387B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US38097510P 2010-09-08 2010-09-08
US61/380,975 2010-09-08
PCT/US2011/050885 WO2012033950A1 (en) 2010-09-08 2011-09-08 Spatial audio encoding and reproduction of diffuse sound

Publications (2)

Publication Number Publication Date
KR20130101522A true KR20130101522A (ko) 2013-09-13
KR101863387B1 KR101863387B1 (ko) 2018-05-31

Family

ID=45770737

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020137008267A KR101863387B1 (ko) 2010-09-08 2011-09-08 확산 사운드의 공간 오디오 인코딩 및 재생

Country Status (7)

Country Link
US (3) US8908874B2 (ko)
EP (1) EP2614445B1 (ko)
JP (1) JP5956994B2 (ko)
KR (1) KR101863387B1 (ko)
CN (1) CN103270508B (ko)
PL (1) PL2614445T3 (ko)
WO (1) WO2012033950A1 (ko)

Families Citing this family (110)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101805212B1 (ko) * 2009-08-14 2017-12-05 디티에스 엘엘씨 객체-지향 오디오 스트리밍 시스템
PL2478519T3 (pl) 2009-10-21 2013-07-31 Fraunhofer Ges Forschung Rewerberator i sposób rewerberacji sygnału audio
US8908874B2 (en) 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction
US9165558B2 (en) 2011-03-09 2015-10-20 Dts Llc System for dynamically creating and rendering audio objects
WO2013028577A2 (en) * 2011-08-19 2013-02-28 Redbox Automated Retail, Llc System and method for importing ratings for media content
US9959543B2 (en) * 2011-08-19 2018-05-01 Redbox Automated Retail, Llc System and method for aggregating ratings for media content
WO2013061337A2 (en) * 2011-08-29 2013-05-02 Tata Consultancy Services Limited Method and system for embedding metadata in multiplexed analog videos broadcasted through digital broadcasting medium
WO2013057948A1 (ja) * 2011-10-21 2013-04-25 パナソニック株式会社 音響レンダリング装置および音響レンダリング方法
CN103947202A (zh) * 2011-11-30 2014-07-23 英特尔公司 感知媒体编码
US9319821B2 (en) * 2012-03-29 2016-04-19 Nokia Technologies Oy Method, an apparatus and a computer program for modification of a composite audio signal
KR101915258B1 (ko) * 2012-04-13 2018-11-05 한국전자통신연구원 오디오 메타데이터 제공 장치 및 방법, 오디오 데이터 제공 장치 및 방법, 오디오 데이터 재생 장치 및 방법
KR101935020B1 (ko) * 2012-05-14 2019-01-03 한국전자통신연구원 오디오 데이터 제공 방법 및 장치, 오디오 메타데이터 제공 방법 및 장치, 오디오 데이터 재생 방법 및 장치
TWI590234B (zh) 2012-07-19 2017-07-01 杜比國際公司 編碼聲訊資料之方法和裝置,以及解碼已編碼聲訊資料之方法和裝置
US9460729B2 (en) 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
KR20140046980A (ko) 2012-10-11 2014-04-21 한국전자통신연구원 오디오 데이터 생성 장치 및 방법, 오디오 데이터 재생 장치 및 방법
KR102049602B1 (ko) 2012-11-20 2019-11-27 한국전자통신연구원 멀티미디어 데이터 생성 장치 및 방법, 멀티미디어 데이터 재생 장치 및 방법
CN104956689B (zh) * 2012-11-30 2017-07-04 Dts(英属维尔京群岛)有限公司 用于个性化音频虚拟化的方法和装置
US10725726B2 (en) 2012-12-20 2020-07-28 Strubwerks, LLC Systems, methods, and apparatus for assigning three-dimensional spatial data to sounds and audio files
WO2014111829A1 (en) * 2013-01-17 2014-07-24 Koninklijke Philips N.V. Binaural audio processing
JP6174326B2 (ja) * 2013-01-23 2017-08-02 日本放送協会 音響信号作成装置及び音響信号再生装置
BR112015018352A2 (pt) * 2013-02-05 2017-07-18 Koninklijke Philips Nv aparelho de áudio e método para operar um sistema de áudio
IN2015MN01952A (ko) 2013-02-14 2015-08-28 Dolby Lab Licensing Corp
WO2014126688A1 (en) 2013-02-14 2014-08-21 Dolby Laboratories Licensing Corporation Methods for audio signal transient detection and decorrelation control
TWI618050B (zh) 2013-02-14 2018-03-11 杜比實驗室特許公司 用於音訊處理系統中之訊號去相關的方法及設備
EP2962300B1 (en) * 2013-02-26 2017-01-25 Koninklijke Philips N.V. Method and apparatus for generating a speech signal
WO2014164361A1 (en) 2013-03-13 2014-10-09 Dts Llc System and methods for processing stereo audio content
WO2014151092A1 (en) * 2013-03-15 2014-09-25 Dts, Inc. Automatic multi-channel music mix from multiple audio stems
WO2014160717A1 (en) * 2013-03-28 2014-10-02 Dolby Laboratories Licensing Corporation Using single bitstream to produce tailored audio device mixes
TWI530941B (zh) 2013-04-03 2016-04-21 杜比實驗室特許公司 用於基於物件音頻之互動成像的方法與系統
JP6204682B2 (ja) * 2013-04-05 2017-09-27 日本放送協会 音響信号再生装置
JP6204684B2 (ja) * 2013-04-05 2017-09-27 日本放送協会 音響信号再生装置
CN105264600B (zh) 2013-04-05 2019-06-07 Dts有限责任公司 分层音频编码和传输
JP6204683B2 (ja) * 2013-04-05 2017-09-27 日本放送協会 音響信号再生装置、音響信号作成装置
CN108806704B (zh) 2013-04-19 2023-06-06 韩国电子通信研究院 多信道音频信号处理装置及方法
CN108810793B (zh) 2013-04-19 2020-12-15 韩国电子通信研究院 多信道音频信号处理装置及方法
TWM487509U (zh) 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
WO2014210284A1 (en) 2013-06-27 2014-12-31 Dolby Laboratories Licensing Corporation Bitstream syntax for spatial voice coding
TWI673707B (zh) 2013-07-19 2019-10-01 瑞典商杜比國際公司 將以L<sub>1</sub>個頻道為基礎之輸入聲音訊號產生至L<sub>2</sub>個揚聲器頻道之方法及裝置,以及得到一能量保留混音矩陣之方法及裝置,用以將以輸入頻道為基礎之聲音訊號混音以用於L<sub>1</sub>個聲音頻道至L<sub>2</sub>個揚聲器頻道
EP2830047A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for low delay object metadata coding
EP2830045A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concept for audio encoding and decoding for audio channels and audio objects
EP2830050A1 (en) 2013-07-22 2015-01-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for enhanced spatial audio object coding
WO2015012594A1 (ko) * 2013-07-23 2015-01-29 한국전자통신연구원 잔향 신호를 이용한 다채널 오디오 신호의 디코딩 방법 및 디코더
US9319819B2 (en) * 2013-07-25 2016-04-19 Etri Binaural rendering method and apparatus for decoding multi channel audio
EP3028273B1 (en) * 2013-07-31 2019-09-11 Dolby Laboratories Licensing Corporation Processing spatially diffuse or large audio objects
KR102243395B1 (ko) * 2013-09-05 2021-04-22 한국전자통신연구원 오디오 부호화 장치 및 방법, 오디오 복호화 장치 및 방법, 오디오 재생 장치
WO2015038475A1 (en) 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation Dynamic range control for a wide variety of playback environments
WO2015038522A1 (en) * 2013-09-12 2015-03-19 Dolby Laboratories Licensing Corporation Loudness adjustment for downmixed audio content
EP2866227A1 (en) * 2013-10-22 2015-04-29 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method for decoding and encoding a downmix matrix, method for presenting audio content, encoder and decoder for a downmix matrix, audio encoder and audio decoder
CN117376809A (zh) 2013-10-31 2024-01-09 杜比实验室特许公司 使用元数据处理的耳机的双耳呈现
CN107770718B (zh) 2014-01-03 2020-01-17 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
CN104768121A (zh) 2014-01-03 2015-07-08 杜比实验室特许公司 响应于多通道音频通过使用至少一个反馈延迟网络产生双耳音频
JP6254864B2 (ja) * 2014-02-05 2017-12-27 日本放送協会 複数音源配置装置、複数音源配置方法
EP2942982A1 (en) 2014-05-05 2015-11-11 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. System, apparatus and method for consistent acoustic scene reproduction based on informed spatial filtering
PL3800898T3 (pl) 2014-05-28 2023-12-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Procesor danych i transport danych kontrolnych użytkownika do dekoderów audio i modułów renderowania
EP3163902A4 (en) * 2014-06-30 2018-02-28 Sony Corporation Information-processing device, information processing method, and program
CN106463132B (zh) * 2014-07-02 2021-02-02 杜比国际公司 对压缩的hoa表示编码和解码的方法和装置
EP2963949A1 (en) * 2014-07-02 2016-01-06 Thomson Licensing Method and apparatus for decoding a compressed HOA representation, and method and apparatus for encoding a compressed HOA representation
CN105336332A (zh) 2014-07-17 2016-02-17 杜比实验室特许公司 分解音频信号
WO2016049106A1 (en) 2014-09-25 2016-03-31 Dolby Laboratories Licensing Corporation Insertion of sound objects into a downmixed audio signal
EP3518236B8 (en) * 2014-10-10 2022-05-25 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
EP3048818B1 (en) * 2015-01-20 2018-10-10 Yamaha Corporation Audio signal processing apparatus
CN105992120B (zh) 2015-02-09 2019-12-31 杜比实验室特许公司 音频信号的上混音
PL3550859T3 (pl) * 2015-02-12 2022-01-10 Dolby Laboratories Licensing Corporation Wirtualizacja słuchawkowa
AU2016219043A1 (en) * 2015-02-13 2017-09-28 Fideliquest Llc Digital audio supplementation
EP3067885A1 (en) 2015-03-09 2016-09-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for encoding or decoding a multi-channel signal
US9916836B2 (en) 2015-03-23 2018-03-13 Microsoft Technology Licensing, Llc Replacing an encoded audio output signal
PL3311379T3 (pl) 2015-06-17 2023-03-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Kontrola głośności dla interaktywności użytkownika w systemach kodowania audio
DE102015008000A1 (de) * 2015-06-24 2016-12-29 Saalakustik.De Gmbh Verfahren zur Schallwiedergabe in Reflexionsumgebungen, insbesondere in Hörräumen
US9934790B2 (en) 2015-07-31 2018-04-03 Apple Inc. Encoded audio metadata-based equalization
CN112492501B (zh) 2015-08-25 2022-10-14 杜比国际公司 使用呈现变换参数的音频编码和解码
JP2017055149A (ja) * 2015-09-07 2017-03-16 ソニー株式会社 音声処理装置および方法、符号化装置、並びにプログラム
US10341770B2 (en) 2015-09-30 2019-07-02 Apple Inc. Encoded audio metadata-based loudness equalization and dynamic equalization during DRC
US20170208112A1 (en) * 2016-01-19 2017-07-20 Arria Live Media, Inc. Architecture for a media system
KR102640940B1 (ko) * 2016-01-27 2024-02-26 돌비 레버러토리즈 라이쎈싱 코오포레이션 음향 환경 시뮬레이션
US9949052B2 (en) 2016-03-22 2018-04-17 Dolby Laboratories Licensing Corporation Adaptive panner of audio objects
US10673457B2 (en) * 2016-04-04 2020-06-02 The Aerospace Corporation Systems and methods for detecting events that are sparse in time
CN105957528A (zh) * 2016-06-13 2016-09-21 北京云知声信息技术有限公司 音频处理方法及装置
CA3032603A1 (en) 2016-08-01 2018-02-08 Magic Leap, Inc. Mixed reality system with spatialized audio
US9653095B1 (en) 2016-08-30 2017-05-16 Gopro, Inc. Systems and methods for determining a repeatogram in a music composition using audio features
US10701508B2 (en) * 2016-09-20 2020-06-30 Sony Corporation Information processing apparatus, information processing method, and program
US10187740B2 (en) * 2016-09-23 2019-01-22 Apple Inc. Producing headphone driver signals in a digital audio signal processing binaural rendering environment
JP6481905B2 (ja) * 2017-03-15 2019-03-13 カシオ計算機株式会社 フィルタ特性変更装置、フィルタ特性変更方法、プログラムおよび電子楽器
US10623883B2 (en) * 2017-04-26 2020-04-14 Hewlett-Packard Development Company, L.P. Matrix decomposition of audio signal processing filters for spatial rendering
JP6926640B2 (ja) * 2017-04-27 2021-08-25 ティアック株式会社 目標位置設定装置及び音像定位装置
US10531196B2 (en) * 2017-06-02 2020-01-07 Apple Inc. Spatially ducking audio produced through a beamforming loudspeaker array
US11303689B2 (en) 2017-06-06 2022-04-12 Nokia Technologies Oy Method and apparatus for updating streamed content
JP6670802B2 (ja) * 2017-07-06 2020-03-25 日本放送協会 音響信号再生装置
EP3698201A4 (en) 2017-10-17 2020-12-09 Magic Leap, Inc. MIXED REALITY SPACE AUDIO
WO2019078034A1 (ja) * 2017-10-20 2019-04-25 ソニー株式会社 信号処理装置および方法、並びにプログラム
US11109179B2 (en) * 2017-10-20 2021-08-31 Sony Corporation Signal processing device, method, and program
GB201718341D0 (en) 2017-11-06 2017-12-20 Nokia Technologies Oy Determination of targeted spatial audio parameters and associated spatial audio playback
WO2019147064A1 (ko) * 2018-01-26 2019-08-01 엘지전자 주식회사 오디오 데이터를 송수신하는 방법 및 그 장치
US11477510B2 (en) 2018-02-15 2022-10-18 Magic Leap, Inc. Mixed reality virtual reverberation
GB2572419A (en) * 2018-03-29 2019-10-02 Nokia Technologies Oy Spatial sound rendering
GB2572650A (en) 2018-04-06 2019-10-09 Nokia Technologies Oy Spatial audio parameters and associated spatial audio playback
WO2019197709A1 (en) 2018-04-10 2019-10-17 Nokia Technologies Oy An apparatus, a method and a computer program for reproducing spatial audio
CN112236940A (zh) 2018-05-30 2021-01-15 奇跃公司 用于滤波器参数的索引方案
GB2574239A (en) 2018-05-31 2019-12-04 Nokia Technologies Oy Signalling of spatial audio parameters
JP7138484B2 (ja) * 2018-05-31 2022-09-16 株式会社ディーアンドエムホールディングス 音響プロファイル情報生成装置、コントローラ、マルチチャンネルオーディオ装置、およびコンピュータで読み取り可能なプログラム
JP6652990B2 (ja) * 2018-07-20 2020-02-26 パナソニック株式会社 サラウンドオーディオ信号処理のための装置及び方法
KR102662234B1 (ko) * 2018-07-25 2024-05-03 이글 어코스틱스 매뉴팩쳐링, 엘엘씨 사운드를 발생할 뿐만 아니라 싱크와 소스 둘 다로서 동시에 동작하도록 구성된 블루투스 스피커
KR102049603B1 (ko) * 2018-10-30 2019-11-27 한국전자통신연구원 오디오 메타데이터 제공 장치 및 방법, 오디오 데이터 제공 장치 및 방법, 오디오 데이터 재생 장치 및 방법
WO2020102156A1 (en) 2018-11-13 2020-05-22 Dolby Laboratories Licensing Corporation Representing spatial audio by means of an audio signal and associated metadata
US11399252B2 (en) 2019-01-21 2022-07-26 Outer Echo Inc. Method and system for virtual acoustic rendering by time-varying recursive filter structures
CN110400575B (zh) * 2019-07-24 2024-03-29 腾讯科技(深圳)有限公司 通道间特征提取方法、音频分离方法和装置、计算设备
GB2593419A (en) * 2019-10-11 2021-09-29 Nokia Technologies Oy Spatial audio representation and rendering
WO2021081435A1 (en) 2019-10-25 2021-04-29 Magic Leap, Inc. Reverberation fingerprint estimation
US11363402B2 (en) 2019-12-30 2022-06-14 Comhear Inc. Method for providing a spatialized soundfield
CN112083379B (zh) * 2020-09-09 2023-10-20 极米科技股份有限公司 基于声源定位的音频播放方法、装置、投影设备及介质
CN116453523B (zh) * 2023-06-19 2023-09-08 深圳博瑞天下科技有限公司 针对高并发的语音ai节点统筹处理方法及装置

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4332979A (en) 1978-12-19 1982-06-01 Fischer Mark L Electronic environmental acoustic simulator
JP2901240B2 (ja) * 1987-04-13 1999-06-07 ダイナベクター 株式会社 リバーブ発生装置
US4955057A (en) 1987-03-04 1990-09-04 Dynavector, Inc. Reverb generator
US6252965B1 (en) 1996-09-19 2001-06-26 Terry D. Beard Multichannel spectral mapping audio apparatus and method
CN1419795A (zh) * 2000-06-30 2003-05-21 皇家菲利浦电子有限公司 校准麦克风的设备和方法
JP2001067089A (ja) * 2000-07-18 2001-03-16 Yamaha Corp 残響効果装置
US7107110B2 (en) * 2001-03-05 2006-09-12 Microsoft Corporation Audio buffers with audio effects
US20030007648A1 (en) * 2001-04-27 2003-01-09 Christopher Currell Virtual audio system and techniques
US7583805B2 (en) * 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
US7116787B2 (en) 2001-05-04 2006-10-03 Agere Systems Inc. Perceptual synthesis of auditory scenes
US7006636B2 (en) 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
US7292901B2 (en) 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US7394903B2 (en) 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
SE0400998D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
CN104112450A (zh) * 2004-06-08 2014-10-22 皇家飞利浦电子股份有限公司 音频编码器,音频解码器,编码与解码音频信号的方法及音频设备
US7756713B2 (en) * 2004-07-02 2010-07-13 Panasonic Corporation Audio signal decoding device which decodes a downmix channel signal and audio signal encoding device which encodes audio channel signals together with spatial audio information
US8204261B2 (en) * 2004-10-20 2012-06-19 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Diffuse sound shaping for BCC schemes and the like
WO2006108543A1 (en) * 2005-04-15 2006-10-19 Coding Technologies Ab Temporal envelope shaping of decorrelated signal
US8300841B2 (en) 2005-06-03 2012-10-30 Apple Inc. Techniques for presenting sound effects on a portable media player
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
GB0523946D0 (en) 2005-11-24 2006-01-04 King S College London Audio signal processing method and system
US8154636B2 (en) 2005-12-21 2012-04-10 DigitalOptics Corporation International Image enhancement using hardware-based deconvolution
EP1974347B1 (en) 2006-01-19 2014-08-06 LG Electronics Inc. Method and apparatus for processing a media signal
SG135058A1 (en) * 2006-02-14 2007-09-28 St Microelectronics Asia Digital audio signal processing method and system for generating and controlling digital reverberations for audio signals
US8126152B2 (en) * 2006-03-28 2012-02-28 Telefonaktiebolaget L M Ericsson (Publ) Method and arrangement for a decoder for multi-channel surround sound
US8488796B2 (en) 2006-08-08 2013-07-16 Creative Technology Ltd 3D audio renderer
US8345887B1 (en) * 2007-02-23 2013-01-01 Sony Computer Entertainment America Inc. Computationally efficient synthetic reverberation
US8204240B2 (en) * 2007-06-30 2012-06-19 Neunaber Brian C Apparatus and method for artificial reverberation
US9031267B2 (en) * 2007-08-29 2015-05-12 Microsoft Technology Licensing, Llc Loudspeaker array providing direct and indirect radiation from same set of drivers
US8509454B2 (en) * 2007-11-01 2013-08-13 Nokia Corporation Focusing on a portion of an audio scene for an audio signal
KR20090110242A (ko) * 2008-04-17 2009-10-21 삼성전자주식회사 오디오 신호를 처리하는 방법 및 장치
US8315396B2 (en) * 2008-07-17 2012-11-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus and method for generating audio output signals using object based metadata
US8908874B2 (en) 2010-09-08 2014-12-09 Dts, Inc. Spatial audio encoding and reproduction

Also Published As

Publication number Publication date
US8908874B2 (en) 2014-12-09
PL2614445T3 (pl) 2017-07-31
EP2614445A1 (en) 2013-07-17
JP2013541275A (ja) 2013-11-07
US9728181B2 (en) 2017-08-08
US9042565B2 (en) 2015-05-26
EP2614445A4 (en) 2014-05-14
CN103270508B (zh) 2016-08-10
CN103270508A (zh) 2013-08-28
JP5956994B2 (ja) 2016-07-27
US20150332663A1 (en) 2015-11-19
US20120057715A1 (en) 2012-03-08
KR101863387B1 (ko) 2018-05-31
EP2614445B1 (en) 2016-12-14
WO2012033950A1 (en) 2012-03-15
US20120082319A1 (en) 2012-04-05

Similar Documents

Publication Publication Date Title
KR101863387B1 (ko) 확산 사운드의 공간 오디오 인코딩 및 재생
CN107851449B (zh) 基于编码音频元数据的均衡
JP5467105B2 (ja) オブジェクトベースのメタデータを用いてオーディオ出力信号を生成するための装置および方法
EP2382803B1 (en) Method and apparatus for three-dimensional acoustic field encoding and optimal reconstruction
CN1655651B (zh) 用于合成听觉场景的方法和设备
CN101133680B (zh) 用于产生已编码立体声信号的设备及方法
JP2015509212A (ja) 空間オーディオ・レンダリング及び符号化
JP2005157278A (ja) 全周囲音場創生装置、全周囲音場創生方法、及び全周囲音場創生プログラム
Tsakostas et al. Binaural rendering for enhanced 3d audio perception
WO2023169819A2 (en) Spatial audio rendering of reverberation
Etlinger A musically motivated approach to spatial audio for large venues

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
GRNT Written decision to grant