KR100904985B1 - 오디오 채널 변환 - Google Patents

오디오 채널 변환 Download PDF

Info

Publication number
KR100904985B1
KR100904985B1 KR1020037010231A KR20037010231A KR100904985B1 KR 100904985 B1 KR100904985 B1 KR 100904985B1 KR 1020037010231 A KR1020037010231 A KR 1020037010231A KR 20037010231 A KR20037010231 A KR 20037010231A KR 100904985 B1 KR100904985 B1 KR 100904985B1
Authority
KR
South Korea
Prior art keywords
channels
channel
output
signal
input
Prior art date
Application number
KR1020037010231A
Other languages
English (en)
Other versions
KR20030079980A (ko
Inventor
마크 프랭클린 데이비스
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20030079980A publication Critical patent/KR20030079980A/ko
Application granted granted Critical
Publication of KR100904985B1 publication Critical patent/KR100904985B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/002Non-adaptive circuits, e.g. manually adjustable or static, for enhancing the sound image or the spatial distribution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround

Abstract

음장을 나타내는 M 오디오 입력 채널들을 동일한 음장을 나타내는 N 오디오 출력 채널들로 변환하기 위한 프로세스에 관한것으로, 각각의 채널은 일 방향으로부터 도달하는 오디오를 나타내는 단일 오디오 스트림이고, M 및 N은 양의 전체 정수이며, M은 적어도 2이고, 상기 프로세스는 각각 하나 이상의 출력 채널들을 가지는, 하나 이상의 출력 채널들의 세트를 발생시킨다. 각각의 세트는 두 개 이상의 공간적으로 인접한 입력 채널들과 연계되고 세트내 각각의 출력 채널은 두 개 이상의 입력 채널들의 상관의 측정치 및 두 개 이상의 입력 채널들의 레벨 상호관계를 결정하는 것을 포함하는 프로세스에 의해 발생된다.

Description

오디오 채널 변환{AUDIO CHANNEL TRANSLATION}
본 발명은 오디오 신호 처리에 관한 것이다. 보다 상세하게는, 본 발명은 음장을 나타내는 M 오디오 입력 채널들을 동일한 음장을 나타내는 N 오디오 출력 채널들로 변환시키는 것에 관한 것으로, 각각의 채널은 일 방향으로부터 도달하는 오디오를 나타내는 단일 오디오 스트림이고, M 및 N 은 전체 양의 정수들이고, M은 적어도 2이다.
인간이 비록 두개의 귀만을 가지고 있지만, 머리전달함수(Head Related Transfer Functions(HRTFs)) 및 머리 동작 같은, 다수의 국부화 큐(localization cues)에 의존하여 3차원 실체(entity)로서 음을 듣는다. 그러므로, 충분한 충실도의 음 재생은 전체 3D 음장의 재생 및 유지, 또는 적어도 그것에 대한 지각적 큐들을 필요로 한다. 불행하게도, 사운드 레코딩 기술은 3D 음장의 포착으로 지향되지 않고, 사운드의 2D면의 포착을 향해서도 지향되지 않으며, 또한 사운드의 1D 선의 포착을 향해서 조차도 지향되지 않는다. 현재의 사운드 레코딩 기술은 제로 차원의 불연속 오디오 채널들의 포착, 보존 및 재현을 향해서만 지향되고 있다.
에디슨의 사운드 녹음에 관한 최초 발명 이래로 대부분의 충실도 개선을 위한 노력은 최초 아날로그 변조-그루브(modulated-groove) 실린더/디스크 매체의 결 함을 개선하는데 초점이 맞춰졌다. 이런 결함들은 제한되고, 균일하지 않은 주파수 응답, 잡음, 왜곡, 와우(wow), 플러터(flutter), 속도 정확도, 마멸(wear), 오염, 및 복사 생성 손실(copying generation loss)을 포함했다. 전자 증폭, 테이프 레코딩, 잡음 감소 및 일부 차량 보다 비싼 레코드 플레이어들을 포함하는, 별도 개선의 단편적인 시도가 몇차례 있었지만, 통상적인 개별 채널 품질에 관한 문제점들은 일반적으로는 디지털 레코딩의 단일 개발, 그리고 특히 오디오 컴팩 디스크의 도입 때까지 아마도 결국 해결되지 않았을 것이었다. 그 이래로, 24bits/96kHz 샘플링까지 디지털 레코딩의 품질을 더 확장하는 일부 노력을 제외하고, 오디오 재생 연구의 주된 노력들은 주로 지각적 코더들을 사용하여 개별적인 채널 품질을 유지하는데 필요한 데이터의 량을 감소시키고, 공간 충실도를 증가시키는데 집중되었다. 후자의 문제가 이 문서의 주제이다.
공간 충실도를 개선시키는 노력은 두개의 방향들로 진행되었다: 전체 음장의 지각적 큐(perceptual cue)들을 운반하기 위한 노력, 및 실질적 최초 음장에 대한 근사치를 운반하기 위한 노력으로 진행되었다. 전자(former)의 수단을 채용하는 시스템들의 실시예들은 스테레오 레코딩(binaural recording) 및 2-스피커-기반 가상 서라운드 시스템을 포함한다. 그러한 시스템들은 특히 일부 방향들로 음들을 신뢰적으로 로컬라이징하는데서, 그리고 헤드폰의 사용 또는 고정된 단일 청취자 위치를 필요로 하는데서, 다수의 불리한 결함들을 나타낸다.
거실이든 또는 영화관 같은 상업적 현장이든, 다수의 청취자들에 대한 공간 음의 재현을 위해, 확실한(viable) 대안만이 실질적인 최초 음장에 근사하도록 노 력해왔다. 불연속 채널 특성의 사운드 레코딩이 주어진다면, 날짜 기입을 위한 대부분의 노력들이 재현 채널들의 수의 보존적 증가라 칭해질 수 있는 것들을 포함했던 것은 놀라운 일이 아니다. 대표적인 시스템들은 초기 50년대의 패닝-모노 3-스피커 필름 사운드트랙들, 60년대의 통상적인 스테레오 사운드, 4채널 시스템들, 70년대의 매트릭스를 사용하는, 70mm 필름, 돌비 서라운드의 5채널 불연속 마그네틱 사운드트랙, 90년대의 AC-3 5.1 채널 서라운드, 및 최근의, 서라운드-EX 6.1 채널 서라운드를 포함한다. "돌비(Dolby)", "프로로직(Pro Logic)" 및 "서라운드 EX(Surround EX)"는 돌비 라보라토리스 라이센싱 코포레이션의 상표들이다. 1 정도 또는 다른 것을 위해, 이런 시스템들은 모노포닉 재현에 비견되는 향상된 공간 재생을 제공한다. 그러나, 다수의 채널들을 믹싱하는 것은 콘텐츠 생산자에게 보다 큰 시간 및 비용 손실을 입히고 결과의 인지는 통상적으로 연속 음장 보다는 오히려 적은 산란된, 불연속 채널들 중 하나이다. 돌비 프로 로직 디코딩의 양태들은 본문에 그 전체가 참고로 인용되는 미국 특허 제4,799,260호에 기술되어 있다. AC-3의 상세항목은 1995년 12월 20일자 "디지털 오디오 압축 표준(AC-3)", 차세대 텔레비젼 시스템 위원회(ATSC), 문서 A/52에 기술되어 있다(인터넷 월드와이드웹 www.atsc.org/Standards/A52/a_52.doc에서 입수가능). 1999년 7월 22일자 에라타 시트(Errata Sheet)를 참고할 수 있다(인터넷 월드와이드웹의 www.dolby.com/tech/ATSC_err.pdf에서 입수가능).
본 발명의 통찰 기초 양태
소스-프리 파 매체(source-free wave medium)의 임의 분포를 재생성(recreating)하기 위한 기초는 일부 영역내 파장이 그 영역의 경계를 따라 압력 분포에 의해 완전히 특정화되는 것을 규정하는 가우스 이론에 의해 제공된다. 이것은 거실의 영역내 콘서트 홀의 음장의 재생산이 거실, 방음벽들을 콘서트 홀내에 개념적으로 위치시키는 것이 가능하여, 그 각각이 벽의 바로 내측에 상응하는 확성기에 적절한 증폭을 위해 결합된, 무한 갯수의 극소 마이크로폰들을 갖는 벽의 외측을 꽃줄로 장식하여 벽들이 음향적으로 투명하게 전기적으로 수행하는 것을 포함한다. 마이크로폰들과 스피커들 사이에 적절한 기록 매체를 삽입하여, 비실용적인 경우, 정확한 3D 사운드 재현의 완벽한 시스템이 실현된다. 오로지 나머지 설계 일은 시스템을 실용적으로 하는 것이다.
실용성을 향한 제1단계는 관련 신호가 약 20Hz의 대역한계치를 가져, 보다 통상적인 임시 샘플링 이론의 변형인, 공간 샘플링 이론의 적용을 허용하는 것을 인지하여 취해질 수 있다. 후자는 연속적인 대역한계 임시 파형이 소스의 최고 주파수의 적어도 두배 비율로 불연속 샘플링되는 경우 정보의 손실이 없는 것으로 생각한다. 전자의 이론은 공간 샘플링 간격이 정보 손실을 방지하기 위하여 가장 짧은 파장의 최소한 두배 밀도 정도여야 하는 것을 규정하기 위해 동일한 고려를 따른다. 공기에서 20 kHz의 파장이 약 3/8"이기 때문에, 정확한 3D 사운드 시스템이 겨우 3/16" 이격된 확성기들 및 마이크로폰들의 어레이로 구현될 수 있음을 함축한다. 통상적인 9'×12' 룸의 모든 표면들상에서 연장되는 경우, 이것은 무한 갯수를 넘어 고려가능한 개선이지만 여전히 비실용적인, 약 250만 채널들까지 수행된다. 여전히 그것은 음장이 적절한 보간의 적용을 통해 복원될 수 있는, 공간 샘플들로서의 불연속 채널들의 어레이를 사용하는 기본적인 수단을 설정하고 있다.
일단 음장이 특성화되면, 원칙적으로 디코더가 임의의 출력 확성기를 위해 공급된 최적 신호를 유도하는 것이 가능하다. 그러한 디코더에 제공된 채널들은 "카디널(cardinal)", "전송" 및 "입력" 채널들로서 다양하게 본문에서 칭해지고 카디널 채널들 중 하나의 위치에 상응하지 않는 위치를 갖는 임의의 출력 채널은 "중간" 채널로서 칭해질 것이다. 출력 채널은 또한 카디널 입력 채널의 위치와 일치하는 위치를 가질 수 있다.
그러므로, 불연속 채널 공간 샘플들 또는 카디널 채널들의 수를 감소시키는 것이 바람직하다. 그렇게 행하기 위한 한가지 가능한 기본은 1500Hz 이상에서 귀가 개별 사이클들을 따르지 않으며, 오로지 임계 대역 포락선만을 따른다는 사실이다. 이것은 1500Hz 또는 약 3"와 같은 정도의 채널 공간을 허용할 수 있다. 이것은 9'×12' 룸에 대해 약 6000 채널까지 총계를 감소시킬 것이어서, 이전 장치에 비견되는 약 249만 채널의 유용한 절약을 초래한다.
여하튼, 공간 샘플링 채널들의 갯수의 추가적인 감소가 정신음향 국부화 한계치까지의 어필을 통해 이론적으로 가능하다. 집중된 사운드에 대한, 해상도의 수평 한계는 약 1정도의 아크(1degree of arc.)이다. 상응하는 수직 해상도의 한계는 약 5정도이다. 이런 밀도가 구 둘레로 적절하게 연장된다면, 그 결과는 수백 내지 수천 채널일 수 있다.
발명의 설명
본 발명에 따르면, 프로세스는 음장을 나타내는 M 오디오 입력 채널들을 동일한 음장을 나타내는 N 오디오 출력 채널들로 변환하고, 여기에서, 각각의 채널은 일 방향으로부터 도달하는 단일 오디오 스트림 이며, M 및 N은 양의 전체 정수이고, M은 적어도 2이다. 하나 이상의 출력 채널 세트들이 발생되는데, 그 각각의 세트는 하나 이상의 출력 채널들을 가진다. 각각의 세트는 두 개 이상의 공간적으로 인접한 입력 채널들을 가지며, 세트내 각각의 출력 채널은 두 개 이상의 입력 채널들의 상관 및 두 개 이상의 입력 채널들의 수준 상호관계의 측정치를 결정하는 것을 포함하는 프로세스에 의해 생성된다.
본 발명의 일 양태에 있어, 다수의 출력 채널 세트들은 두 개 이상의 입력 채널들과 연계되며 프로세스는 각각의 세트 또는 세트들이 그 출력 채널 또는 채널들이 연계되는 입력 채널들의 수에 따라 평가되도록 계층 순서에 따라 각각의 출력 채널 세트가 연계되는 입력 채널들의 상관을 결정하고, 입력채널들의 가장 큰 수는 가장 큰 순위를 가지며, 상기 처리는 이들의 계층 순서에 따라 순서대로 세트들을 처리한다. 부가적인 본 발명의 양태에 따라, 처리는 보다 높은 차수의 세트들을 처리한 결과를 고려한다.
본 발명의 재생 또는 디코딩 양태는 일 방향으로부터 도달하는 오디오를 나타내는 각각의 M 오디오 입력 채널들이, 기존 믹싱 기술, 콘솔, 및 포맷들과 호환되게하는 추가적인 사이드 체인 정보의 요구 없이도(사이드 체인 또는 보조 정보의 사용이 선택적임), 각각의 소스 방향(즉, 소스 방향이 최근접 기본 채널 또는 채널들에 근본적으로 매핑되는 것으로 추정됨)의 패시브-매트릭스 최근접-이웃 진폭-패 닝된(amplitude-panned) 인코딩에 의해 발생되었음을 추정한다. 비록 그러한 소스 신호들이 패시브 인코딩 매트릭스를 명백하게 채용하여 생성될 수 있을지라도, 대부분의 통상적인 레코딩 기술들은 그러한 소스 신호들을 고유하게 발생시킨다(그래서, "유효 인코딩 매트릭스"를 구성함). 본 발명의 재생 또는 디코딩 양태는 일부 가능한 시간 지연을 고려하여 중간 방향들로부터 도달하는 사운드들이 가장 근접한 마이크로폰들(수평 어레이로, 가장 근접한 쌍의 마이크로폰들에 대해 특정하게)로 원칙적으로 매핑되기 때문에, 5개의 실질 지향성 마이크로폰들과 제도될 수 있는 바와 같이, 고유 레코딩 소스 신호들과 또한 대부분 호환가능하다.
본 발명의 양태에 따른 디코터 또는 디코딩 프로세스는 결합된 처리 모듈들 또는 모듈 기능들의 격자(이하, "디코딩 모듈")로서 구현될 수 있으며, 그 각각은 디코딩 모듈과 결합된 두 개 이상의 가장 근접한 공간적으로 인접한 기본 채널들로부터 하나 이상의 출력 채널들(또는, 변형적으로, 하나 이상의 출력 채널들을 발생시키는데 유용한 제어 신호들)을 발생시키기 위해 사용된다. 출력 채널들은 특정 디코딩 모듈과 연계된 가장 근접한 공간적으로 인접한 기본 채널들의 오디오 신호들의 관련 부분들을 나타낸다. 이하 보다 상세히 설명하면, 디코딩 모듈들은 모듈들이 노드들을 공유하고 디코딩 모듈들의 계층이 존재한다는 의미에서 서로 느슨하게 결합되어 있다. 모듈들은 이들이 결합되는 기본 채널들의 수에 따라 계층에서 정렬된다(가장 큰 수의 연계된 기본 채널들을 갖는 모듈 또는 모듈들이 최상위로 랭크되는). 감독 루틴 기능(supervisory routine function)은 공통 노드 신호들이 공정하게 공유되고 보다 높은 차수의 디코더 모듈들이 낮은 차수 모듈들의 출력에 영향을 미칠수 있도록 모듈들 상에 지배한다.
각각의 디코더 모듈은, 사실상, 매트릭스를 포함할 수 있어, 그것이 가변 메트릭스의 계수들 또는 모든 출력신호들을 발생시키기 위하여 고정된 매트릭스로부터의 출력들 또는 그것으로의 입력들의 스케일 팩터들을 변화시키기 위해, 다른 디코더 모듈들에 의해 발생된 제어 신호들과 함께 사용되게 한다.
디코더 모듈들은 지각적으로 투명한 재생을 제공하기 위해 시도하도록 인간 귀의 동작을 모방한다. 각각의 디코더 모듈은 광대역 또는 다중대역 구조 또는 기능, 후자의 경우는 연속 필터뱅크를 구비함, 또는 예를 들어 각각의 대역에서 동일한 필수 처리를 사용하는 변환기반 프로세서의 블럭-구성으로 구현될 수 있다.
기본 발명이 일반적으로 M 입력 채널의 N 출력 채널들로의 공간 변환에 관한 것이지만, 여기서, M 및 N은 양의 전체 정수들이고 M은 적어도 2이며, 본 발명의 다른 양태는 N 출력 채널들을 수신하는 스피커의 수량이, 확성기가 위치되는 곳 이외 공간의 위치들에서의 인지된 음 이미지의 생성물인, 가상 이미징에 현명하게 의존하여 실질적 수로 감소될 수 있는 것이다. 가상 이미징의 가장 통상적인 용도는 채널들 사이의 모노 신호를 패닝하여 두 스피커들 사이에서 이미지 부분 경로를 스테레오 재생하는 것이다. 가상 이미징은 부족한 수의 채널들을 갖는 그룹 프리젠테이션을 위한 실행가능한 기술로 고려되지 않는데, 이는 그것이 청취자가 두 개의 스피커들로부터 동일거리에, 또는 거의 그 정도에 있도록 요구하기 때문이다. 영화관에 있어, 예를 들면, 좌 및 우 전면 스피커들은 다수의 청중들에 대해 중심 이미지의 유용한 팬텀 이미징을 얻기에는 지나치게 멀리 떨어져 있고, 그래서, 다수의 대화원으로서 중심 채널이 중요한 경우, 물리적 중심 스피커가 대신에 사용된다.
그러나, 스피커들의 밀도가 증가됨에 따라서, 가상 이미징이 다수의 청중들을 위한 임의 쌍의 스피커들 사이에서 실용적인 점, 적어도 팬들이 평활한 범위까지 도달할 것이며; 충분한 스피커들을 가지고, 스피커들 사이의 갭들은 그와 같이 더이상 인지되지 않는다. 그러한 어레이는 초기에 유도된 2백만 어레이로부터 거의 구분되지 않는 포텐셜을 가진다.
본 발명의 양태들을 시험하기 위하여, 각각의 벽에 수평 배열된 5개의 스피커들, 공통적인 코너 스피커들을 고려하여 총 16개, 약 45도의 수직각도로 청취자의 상부에 위치된 6개의 스피커를 더하고, 바로 상부의 하나의 단일 스피커를 더하여, 총 23개, 서브우퍼/LFE 채널을 더하여, 총24개를 전개했고, 모두 24채널 재생을 위해 PC 셋업으로부터 제공된다. 현대 전문용어로 이 시스템이 23.1채널 시스템으로 칭해질 수 있지만, 단순화하기 위해 본문에서는 24채널 시스템으로 칭해질 수 있을 것이다.
도1은 방금 기술된 시험 배치의 방식으로 이상적인 디코딩 배치를 개략적으로 도시하는 평면도이다. 5개의 광범위한 수평 기본 채널들이 외부 원상에 정사각형 1',3',5',9' 및 13'으로 도시되어 있다. 아마도 상관(correlation) 또는 생성된 반향(reverberation)을 통해 5개의 광범위한 카디널(cardinals)으로부터 유도되거나 또는 별도로 공급된, 수직 채널은 중심의 파쇄된 정사각형(23')으로 도시되어 있다. 23개의 광범위한 출력 채널들이 번호가 매겨진 원(1-23)들로 도시되어 있다. 16개의 출력 채널들의 외부 원은 수평면상에 있고, 6개의 출력 채널들의 내부원은 수평면상의 45도에 있다. 출력 채널(23)은 하나 이상의 청취자들 바로 위에 있다. 5개의 2입력 디코딩 모듈들은 각 쌍의 수평 기본 채널들 사이에 연결된, 외부 원 둘레의 화살표(24-28)로 도시되어 있다. 5개의 추가적인 2입력 수직 디코딩 모듈들은 수직 채널을 각각의 수평 카디널들에 연결하는 화살표(29-33)로 도시되어 있다. 출력 채널(21), 상승된 중앙 후면 채널은 출력 채널(21)과 카디널 채널(9,13,23) 사이의 화살표들로 도시된 3입력 디코딩 모듈로부터 유도된다. 그래서, 각각의 모듈은 개개의 두쌍 또는 세쌍의 가장 근접한 공간적으로 인접한 카디널 채널들과 연계되어 있다. 도1에 나타난 디코딩 모듈들이 3,4 또는 5개의 출력 채널들을 가지지만, 디코딩 모듈은 임의의 적당한 수의 출력 채널들을 가질 수 있다. 출력 채널들은 하나 이상의 카니널 채널들에 대한 중간 또는 카디널 채널들과 동일한 위치에 위치될 수 있다. 그러므로, 도1의 실시예에 있어, 각각의 카디널 채널 위치들이 또한 출력 채널이다. 둘 또는 세개의 디코딩 모듈들이 각각의 입력 채널을 공유한다.
기술되는 바와 같이, 본 발명의 설계 목표는 재생 프로세서가 스피커들의 배열 및 임의의 수를 가지고 작동하는 개념에서 할 수 있어야 하는 것이며, 그래서, 24채널 어레이가 예시지만 본 발명의 일 양태에 따른 확고한 연속 인지 음장을 달성하기 위해 필요한 배치 및 밀도의 비고유한 실시예로서 사용될 것이다.
크고, 가능하게는 사용자-선택가능한, 재현 채널의 수를 사용할 수 있도록 하기 위한 욕망은 그것이 적어도 하나의 옵션으로서 상기 24개의 채널들을 유도하기 위하여 재생 프로세서에 전달되어야만 하는 불연속 채널들의 수 및/또는 다른 정보의 의문을 증가시킨다. 분명하게는, 콘텐츠 생산자들이 그 많은 별도의 채널들 을 믹싱해야만 하도록 하는 것은 부담이될 것이라는 사실을 제외하고는 하나의 가능한 수단이 24개의 불연속 채널들을 단순히 전송하며, 다수의 채널들로서 전송하기 위한 전송 매체에 대해서, 24채널 배치가 단지 다수의 가능성 중 하나로서 그렇게 하지 않는 것이 바람직하며 공통의 전송 신호 어레이로부터 보다 많거나 또는 적은 재현 채널들을 고려하는 것은 바람직하다.
출력 채널들을 복구하기 위한 한가지 방법은, 그러한 채널들의 밀도가 그것에 대해 허용하기에 충분히 우수한 것으로 추정하는 경우, 수학적 공간 보간법, 각각의 출력에 대한 전송 채널들의 고정된 가중합을 사용하는 것이다. 그러나, 이것은 단일 신호의 일시 보간법(temporal interpolation)을 이행하기 위한 수백-탭(multi-hundred-tap) FIR 필터의 사용과 유사한, 수천 내지 수백만 전송 채널들을 필요로 한다. 실질적인 수의 전송 채널로의 감소는, 단지 얼마나 많은 채널들이 완벽한 음장의 인지를 분배하기 위해 필요한지의 의문을 미답상태로 남겨놓은채, 정신음향 원리 및 훨씬 더 적은 채널들로부터의 보다 더 공격적이고, 역동적인 보간법의 적용을 필요로 한다.
이런 의문은 본 발명에 의해 몇년전에 이행된 실험을 통해 제기되고 최근에는 다른 것에 의해 반복되었다. 초기의 실험을 위한 기초는, 적어도, 채용된 임의의 HRTF의 부분적인 결함 및 헤드 모션 큐의 손실 때문에, 통상적인 2채널 스테레오 레코딩이 현실적 좌/우 이미지 스프레드를 재생할 수 있지만 엉뚱한 전방/후방 국부화를 초래하는 관측이었다. 이런 결함을 회피하기 위해, 듀얼-바이노럴(dual-binaural)(4-채널) 레코딩이 사람의 머리 크기에 상응하는 공간의 두 쌍의 지향성 마이크로폰들을 사용하여 만들어 졌다. 결과적인 레코딩은 음향 크로스 커플링 효과를 경감시키도록 머리에 인접한 공간의 네개의 스피커들을 통해 재생되었다. 마이크로폰 및 스피커들의 상응하는 불연속 위치들로부터 명백한 전방/후방 정보를 더한, 각 쌍의 스피커들로부터의 진폭 국부화 큐 및 현실적인 좌/우 타이밍을 제공했다. 결과는 높이 정보의 실행가능한 재현만을 손실했던 단독으로 강제적인 서라운드 사운드 표현이었다. 다른 것의 최근 실험은 중앙 전방 채널 및 두 개의 높이 채널을 부가했고, 유사하게 현실적이 되도록 보고되었고, 아마도 심지어 추가적인 높이 정보를 통해 개선되었다.
그러므로, 정신음향 고려 및 실험적 증거 둘 모두로부터, 관련 지각 정보가, 아마도 하나 이상의 수직 채널들에 더하여, 아마도 4 내지 5 "바이노럴-형(binaural-like)" 수평 채널에서 전송될 수 있다. 그러나, 바이노럴 채널 쌍들의 신호 크로스피드 특성은, 중간범위 및 낮은 주파수들에서 매우 작은 분리가 존재하기 때문에, 확성기를 통해 그룹에 직접 재생하기에는 이들이 적절하지 않게 만들었다. 디코더 내에서 그것을 원상태로 돌려야만 하도록 인코더에 크로스피드를 도입하기보다는(바이노럴 쌍을 위해 시행되는 바와 같이), 채널들을 분리상태로 유지하고 가장 인접한 전송 채널들로부터 출력 채널 신호들을 혼합하기에 보다 직접적이고 단순하다. 필요하다면, 패시브 매트릭스 디코더를 가지고 보다 적은 채널들에 대한 선택적 다운믹스를 더하여, 이것이 디코더 없이 유사한 수의 스피커들을 통해 직접적인 재생을 허용하는 것 뿐만아니라, 적어도 수평면에서 기존의 표준 5.1채널 배치에 필수적으로 상응한다. 일부 가능한 시간 지연을 허용하며, 중간 방향들로부터 도달하는 사운드들이 가장 인접한 마이크로폰들(수평 어레이로, 특히 가장 인접한 쌍의 마이크로폰들에 대해)로 매핑하는 경향 때문에, 5개의 실질 지향성 마이크로폰을 가지고 만들어 질 수 있는 바와 같이, 고유의 레코딩들과 대체로 호환가능하다.
그러므로, 지각적 견지에서, 채널 변환 디코더가 표준 5.1 채널 프로그램을 수용하고, 상기 24채널 어레이의 16 수평 스피커들을 포함하는, 수평 배열된 임의의 수의 스피커들을 통해 그것을 수긍되게 재현하는 것이 가능해야 한다. 디지털 시네마 시스템을 위해 때때로 제시되는 바와 같이, 수직 채널을 추가하여, 대부분의 청취 위치들에서 연속 음장 지각 대상을 함께 분배하는 개별적으로 유도되고, 지각적으로 유효한 신호들을 갖는 전체 24채널 어레이를 제공하는 것이 가능해야 한다. 물론, 인코딩 부위의 미세 그레인 소스 채널(fine grain source channel)들에 대한 접근이 존재하는 경우, 이들에 대한 추가적인 정보가 디코더 제한을 위한 선-보상을 위해 인코드 매트릭스 스케일 팩터들을 능동적으로 변경하기 위해 사용될 수 있거나, 또는, 아마도 AC-3(돌비 디지털) 다채널 코딩에 사용된 결합좌표와 유사한, 추가적인 사이드-체인 (보조) 정보로서 포함될 수 있지만, 지각적으로, 그러한 가외 정보(extra information)는 필연적이지 않아야 하며; 실질적으로 그러한 정보의 포함을 요구하는 것은 바람직하지 않다. 채널 변환 디코더의 의도된 작동은 5.1 채널 소스들을 갖는 작동으로 제한되지 않으며, 보다 적거나 또는 많은 것을 사용할 수 있지만, 신뢰가능한 성능이 5.1 채널 소스들로부터 얻어질 수 있는 믿음에 대한 적어도 일부의 정당화(justification)가 존재한다.
이것은 전송 채널들의 희소 어레이로부터 중간 출력 채널들을 어떻게 추출하는지의 의문을 답이없는 상태로 남겨둔다. 본 발명의 일 양태에 의해 제시된 해법은 가상 이미징의 개념을 다시, 그러나 다소 다른 방식으로 개발하는 것이다. 가상 이미징은 청취자가 각각의 스피커로부터 거의 등거리에 위치되도록 요구하기 때문에, 희소 스피커 어레이들을 갖는 그룹 프리젠테이션을 위해 실행가능하지 않음이 이미 인지되었다. 그러나, 가장 근접한 실질 출력 채널들 사이에 진폭 패닝되었던 신호들에 대한 중간 팬텀 채널들의 지각을 허용하는, 우연히 그렇게 위치되는 청취자에 대해 그것은 그럭저럭 작동할 것이다. 그러므로, 그것은 채널 변환 디코더가 일련의 모듈 보간 신호 프로세서들 구성되는 본 발명의 일 양태에 제시되는데, 상기 프로세서들 각각은 선택적으로 위치된 청취자를 유효하게 에뮬레이팅하고, 그렇지 않으면 무엇이 각각 진폭-패닝된 신호들로부터 가상 이미지들지 추출하깅 위해 인간 청각기관과 유사한 방식으로 기능하며, 이들을 실질 확성기에 제공하고; 스피커들은 바람직하게도 고유 가상 이미징이 이들 사이의 나머지 갭들에 충진될 수 있도록 충분히 밀집되게 배열되었다.
일반적으로, 각각의 디코딩 모듈은 예를 들어, (오버헤드) 캐노피(canopy)에 대해서 스피커들의 어레이가 3개 이상의 카디널 채널들일 수 있는 가장 인접한 전송 카디널 채널들로부터 그 입력들을 유도한다. 두 개 이상의 카디널 채널들을 포함하는 출력 채널들을 발생시키는 한가지 방식은 다른 모듈들의 입력들을 제공하는 일부 짝(pair-wise) 디코딩 모듈들의 출력들을 가지는 일련의 짝 작동을 채용하도록 한다. 그러나, 이것은 두가지 결함을 가진다. 하나는 캐스캐이딩 디코딩 모듈들 이 다중 캐스캐이드 시간 상수를 도입하여, 청취가능한 위치 가공물을 초래하는 다른것들 보다 신속하게 반응하는 일부 출력 채널들을 초래한다. 두번째 결함은 쌍 상관이 중간 또는 유도된 출력 채널들을 쌍 사이의 라인을 따라서만 위치 시킬 수 있고; 3개 이상의 카디널들의 사용이 이런 제한을 제거하는 것이다. 결과적으로, 공통 쌍 상관에 대한 연장은 3 개 이상의 출력 신호들을 상관시키도록 개발되었고; 이런 기술이 이하 기술된다.
인간 귀의 수평 위치측정(localization)은 두 개의 위치측정 큐들:두 귀 사이의(interaural) 진폭 차 및 두 귀 사이의 시간 차에서 이미 예측된다. 후자의 큐는 ±600 마이크로초 정도의 근접 시간 정렬된 신호 쌍들에 대해서만 유효하다. 실질적인 효과는 두 개의 실질적인 채널들의 공통 신호 내용이 상광되거나 또는 거의 그러한 것으로 추정하면, 팬텀 중간 이미지들이 특정 좌/우 진폭 차이에 상응하는 위치들에서만 발생할 것이다. (주의: 두 개의 신호들은 +1 내지 -1 범위의 크로스 상관 값들을 가질 수 있다. 완전히 상관된 신호들(상관관계=1)은 동일한 파형 및 시간 정렬을 가지지만 중심-밖(off-center) 이미지 위치들에 상응하는 다른 진폭들을 가질 수 있다.) 신호 쌍의 상관이 1이하로 감소됨에 따라, 지각된 이미지는, 두 개의 비상관 신호들에 대해, 중간 이미지가 전혀 존재하지 않고, 별도의 그리고 구분되는 좌 및 우 이미지들만이 존재할 때 까지 유포될 것이다. 음의 상관은, 비록 두개의 이미지들이 넓게 유포된것으로 나타날 수 있지만, 일반적으로 비상관 신호 쌍들에 유사하게 귀에 의해 처리된다. 상관들은 임계 대역 기반, 및 약 1500Hz 이상에서 시행되고, 임계 대역 신호 포락선은 인간 계산 요건(MIPS)을 절약하기 위해 신호들 그 자체 대신에 사용된다.
수직 위치측정은 HRTF 피나 큐들 및 머리 이동을 갖는 수평 큐들의 역동적 모듈레이션에 따라, 약간 보다 더 복잡하지만, 최종 효과는 패닝된 진폭, 크로스 상관, 및 상응하는 지각 이미지 위치 및 통합과 관련하여 수평 위치측정과 유사하다. 그러나, 수직 공간 해상도는 수평 해상도 보다 덜 정밀하며, 적절한 보간 성능을 위한 조밀한 카디널 채널의 어레이를 요구하지는 않는다.
인간 귀의 동작을 모방하는 지향성 프로세서들을 사용하는 장점은 신호처리에 대한 임의의 결함 또는 제한들이 인간 귀의 유사한 결함들 및 제한들에 의해 지각적으로 차단되어야 하는 것이며, 이는 기관이 최초 완전 연속 재현으로부터 거의 구분할 수 없는 것으로 지각될 확률을 허용한다.
본 발명은 얼마나 많거나 또는 적은 출력 채널들이 이용가능한지를 유효하게 사용하도록 설계될 지라도, 바람직하게도 크고 다소 임시적이지만 그럼에도 불구하고 실질적인 수의 재현 채널/확성기들을 채용하도록 의도되며, 기존 5.1 채널 서라운드 트랙들 및 가능한 차세대 11- 또는 12-채널 디지털 영화 사운드트랙을 포함하는, 유사하거나 또는 보다 작은 수의 인코딩 채널들을 소스 물질로서 사용한다.
본 발명의 구현은 바람직하게도 4개의 원리들: 에러 억제, 우성의 억제(dominant containment), 일정한 전력 및 동기 평활화(synchronized smoothing)를 나타내야 한다.
에러 억제는 디코딩 에러의 가능성이 주어지는 경우, 각각의 소스의 디코딩된 위치가 어떤 정당한 의미에서는 그 진정한, 의도된 방향 가까이 있어야 한다. 이것은 디코딩 전략에 있어 일정 정도의 보수주의를 요구한다. 에러들의 경우에 가능하게는 보다 큰 공간 불균형에 의해 수반된 보다 공격적인 디코딩의 전망과 직면하는 경우, 확실한 공간 억제 대신에 덜 정밀한 디코딩을 수용하는 것이 일반적으로 바람직하다. 보다 정밀한 디코딩이 확실하게 적용될 수 있는 상황에서 조차, 다이나믹 신호 상태가 가청 가공물들을 초래하는, 공격적인 모드와 보수적인 모드 사이에서 디코더가 래칫(ratchet)하도록 할 가능성이 존재한다면 그렇게 하는 것이 현명하지 않을 수 있다.
에러 억제의 보다 억제된 변형인, 우성 억제는 단일의 잘 규정된 우성 신호가 가장 근접한 이웃 출력 채널들에 대해서만 디코더에 의해 패닝되어야하는 요건이다. 이런 상태는 우성 신호들에 대한 이미지 통합을 유지하고 매트릭스 디코더의 지각된 불연속성에 공헌하도록 필요하다. 신호가 우성이지만, 우성 신호("반-우성(anti-dominant) 계수들/신호")를 유도하기 위해 사용된 것들에 대한 상보적인 다른 출력 채널 매트릭스 계수들에 직접 인가하거나 또는 관련 카디널 신호들로부터 그것을 감산하여 그것은 다른 출력채널들로부터 억제된다.
일정한 전력 디코딩은 전체 디코딩된 출력 전력이 입력 전력과 동일할 뿐만아니라, 전달된 카디널 어레이로 인코딩된 각각의 채널 및 지향성 신호의 입력/출력 전력을 균등하게 한다. 이것은 이득-펌핑 가공(gain-pumping artifacts)을 최소화한다.
동기 평활화는 신호 의존 평활화 시간 상수들을 시스템들에 인가하고 디코딩 모듈내 임의의 평활화 네트워크가 신속한 시간 상수 모드로 스위칭되는 경우, 모듈 내의 모든 다른 평활화 네트워크들이 유사하게 스위칭되는 것을 요구한다. 이것은 이전의 우성 방향으로부터 느리게 페이드/패닝(fade/pan)하도록 나타나는 신규 우성 지향성 신호를 가지는 것을 방지하는 것이다.
도1은 이상화된 디코더 배치의 평면도를 도시하는 개략도이다.
디코딩 모듈
임의의 소스 방향을 인코딩하는 것이 가장 근접한 카디널 채널들을 기본적으로 매핑하는 것으로 추정하기 때문에, 채널 변환 디코딩은 일반적인 의미로 출력 채널들을, 보다 상세하게는 중간 출력 채널들을, 인간귀와 유사한 방식으로 일반적으로 각각 모든 전송된 채널들의 서브세트로부터 복원하는 일련의 반자율적인 디코딩 모듈들을 기반으로 한다.
인간귀와 유사한 방식으로, 디코딩 모듈의 동작은 공칭의 진행중인 기본 방향을 결정하기 위한 진폭비들 및 이미지의 상대적인 폭을 결정하기 위한 크로스 상관의 결합을 기반으로 한다.
진폭비 및 크로스 상관으로부터 유도된 제어 정보를 사용하여, 프로세서는 이후 출력 채널 오디오 신호들을 추출한다. 이것이 왜곡 생성물의 발생을 회피하기 위해, 선형 기반에서 최적으로 행해지기 때문에, 디코더는 관련 신호를 포함하는 카디널 채널들의 가중 합을 형성한다. (이하 설명되는 바와 같이, 가중 합의 계산에서 비-이웃 카디널들에 대한 정보를 포함하는 것이 또한 바람직할 수 있다.) 이 런 제한되지만 다이나믹한 보간의 형태는 보다 통상적으로는 매트릭싱으로 칭해진다. 소스내에서, 소정의 신호가 가장 근접한 M 카디널 채널들로 매핑(진폭 패닝)되는 경우, 문제점은 M:N 매트릭스 디코딩 중 하나이다. 달리 말하자면, 출력 채널들이 입력 채널들의 상대적이 비율을 나타낸다.
특히, 2-입력 디코딩 모듈들의 경우에, 이것은 Lt/Rt 인코딩 신호들에 상응하는 쌍 디코딩 모듈 입력들을 갖는, 이제 클래식한 돌비 프로 로직 매트릭스 디코더와 같은, 액티브 2:N 매트릭스 디코더들에 의해 처리된 이슈와 매우 유사하다.
주의: 2:N 매트릭스 디코더의 출력은 때때로 카디널 채널들로서 칭해진다. 그러나, 이 문서는 채널 변환 디코더의 입력 채널들로 칭해지는 "카디널"을 사용한다.
그러나, 선행 기술 액티브 2:N 디코더들과 본 발명에 따른 디코딩 모듈의 작동 사이에 적어도 하나의 큰 차이가 존재한다. 전자가 좌/우 위치를 지시하기 위해 좌/우 진폭들을 사용하는데 비해, 채널 변환 디코더에 대해서도 요구되는 바와 같이, 이들은 또한 특히 Lt/Rt 인코딩 채널들의 합/차의 비에 의존하여, 전방/후방 위치를 지시하도록 채널간 위상을 사용한다.
그러한 액티브 2:N 디코더 배치에 두 가지 문제가 존재한다. 하나는 완전히 상관되지만(정면), 중심밖 신호들이, 예를 들어, 전체-이하-전방 위치(전체 반-상관 중심밖 후방 신호)를 부정확하게 가리키는, 무한대 이하의 합/차 비를 초래할 것이라는 점이다. 결과는 다소 왜곡된 디코딩 공간이다. 두번째 결함은 위치 매핑이 고유의 디코딩 에러들을 도입하는 다수-대-하나라는 것이다. 예를 들어, 4:2:4 매트릭스 시스템에서, 전방-입력(Front-In) 또는 후방-입력(Rear-In) 쌍을 가지지 않는, 좌-입력/우-입력을 가지지 않는 비상관 전방-입력/후방-입력이거나 또는 비상관된 모든 4개의 입력들로 인해 문제가 되는, 비상관된 좌-입력(Left-In) 및 우-입력(Right-In) 신호 쌍은 동일한 망(net)의 비상관 Lt/Rt 쌍으로 매핑될 것이다. 비상관된 Lt/Rt 신호쌍과 직면한 디코더는, 모든 출력 채널들에 대한 사운드에 공헌하는 패시브 매트릭스를 사용하는, " 매트릭스를 완화시킬" 수 밖에 없다. 동시에 좌-출력/우출력만의, 또는 전방-출력/후방-출력만의 신호 어레이로 디코딩할 수 없다.
이하 문제는, N:2:N 매트릭싱 시스템들에서 전방/후방 위치를 코딩하기 위한 채널간 위상의 사용이 전방/후방 위치를 판정하기 위해 위상을 사용하지 않는, 인간 귀의 동작에 대해 역으로 동작한다는 점이다. 본 발명은 전방/후방 위치가 그들의 상대적인 위상 또는 극성들에 따라 상이한 방향들로 할당하지 않고, 카디널 채널들의 추정된 방향들에 의해 지시되도록, 적어도 3개의 비동일선상의 카디널 채널들에서 최적으로 작동한다. 그와 같이, 한쌍의 비상관(uncorrelated) 또는 반-상관(anti-correlated) 채널 변환 카디널 신호들은 중간 신호 없이 그리고 지시된 "후방" 방향 없이 격리된 카디널-출력 채널 신호들에 명백하게 디코딩한다. (그런데, 이것은 디코더가 중심 및 서라운드 채널들에 이 신호들의 합 및 차이를 제공하기 때문에 비상관 좌-입력 및 우-입력 신호들이 감소 분리되는, 액티브 2:N 디코더들에서 불행한 "중심 다중충돌(center pileup)" 효과를 방지한다.) 물론, N:M 채널 변환 시스템을 가지고, N=4,5인 2:N 디코더를 캐스캐이딩하여 Lt/Rt 신호 쌍 을 공간적으로 확장시키는 것이 원칙적으로 가능하지만, 그러한 경우, 중심 다중충돌과 같은 2:N 디코더의 임의의 제한들이 채널 다중화 출력들에 영향을 미친다. 이러한 기능들을 2-채널 Lt/Rt 신호들을 수용하기 위해 구성된 채널 변환 디코더에 결합하고, 그러한 경우들에, 나머지 처리를 대체로 손상되지 않게 남겨두는 후방 방위를 가지는 음의 상관 신호들을 해석하도록 그 반응을 수정하는 것이 가능하다. 그러나, 그러한 경우에서 조차도, 두개의 전송된 채널들만을 가지는 결과를 초래하는 디코딩 모호성(decoding ambiguities)이 남을 것이다.
그러므로, 각각의 디코딩 모듈은, 특히 두개의 입력 채널들을 가지는 그것들은 거부 또는 수정된 전방/후방 검출, 및 임의 갯수의 출력 채널들을 가지는 종래 기술의 액티브 2:N 디코더를 닮았다. 물론, 이것이, N이 M 이상이고, M 미지수를 갖는 N 일차방정식을 기본적으로 포함함에 따라, 보다 작은 수로부터 큰 수의 채널들을 고유하게 추출하도록 매트릭싱을 사용하는 것은 수학적으로 불가능하다. 그러므로, 디코딩 모듈이 종종 다중 액티브 소스 방향 신호들의 면전에서 완벽한 채널 복원 보다 덜 나타날 수 있을 것으로 기대된다. 그러나, 단지 두 개의 귀들을 사용하는 것으로 제한된, 인간 청각 기관은 동일한 제한을 받아, 시스템이 불연속적으로 인지되도록 하여, 심지어 모든 채널들이 작동한다. 다른 채널들이 묵음되는 분리된 채널 품질은 하나의 스피커 근처에 위치될 수 있는 청취자들을 수용하도록 여전히 고려된다.
확실히 하기 위해, 귀는 주파수-의존 기반으로 작동중이지만, 대부분의 음향 이미지들이 광대역 시스템으로서 프로 로직 디코더들을 갖는 성공적인 실험 경험과 함께, 모든 주파수들에서 유사하게 상관될 것으로 가정하면, 광대역 채널 변환 시스템이 또한 일부 응용들에서 만족스런 성능을 가질 수 있을 것으로 기대된다. 다중대역 채널 변환 디코딩은 또한 대역단위 기반으로 유사한 처리를 사용하고 각각의 경우에 동일한 인코딩 신호를 사용하여 가능하게 될 수 있어서, 개별 대역들의 수 및 대역폭은 디코더 구현기까지 자유 파라미터로서 남겨질 수 있다. 다중대역 처리가 광대역 처리보다 큰 MIPS를 필요로할 것 같을 지라도, 계산 요구들은 입력 신호들이 데이터 블럭들로 분할되고 프로세스가 블럭 기반으로 수행되는 경우 훨씬 크게될 수는 없다.
본 발명의 디코딩 모듈들에 의해 사용가능한 알고리즘을 기술하기 이전에, 공유된 노드들의 문제에 대해 먼저 고려된다.
공유노드
디코딩 모듈들에 의해 사용된 카디널 채널 그룹들이 모두 독립적이었다면, 디코딩 모듈들은 그들 스스로 독립적인, 자율 엔티티(autonomous entities)들일 수 있다. 그러나, 그러한 것이 보통의 경우는 아니다. 주어진 전송 채널이 일반적으로 두 개 이상의 이웃한 카디널 채널들에 별개의 출력 신호들을 분배할 것이다. 독립적인 디코딩 모듈들이 어레이를 디코딩하기 위해 사용되는 경우, 각각이 이웃 채널들의 출력 신호들에 의해 영향을 받아 아마도 심각한 디코딩 오류들을 초래한다. 사실상, 이웃한 디코딩 모듈들의 두 출력 신호들은 두 신호들 모두를 포함하는 공통 카디널 노드의 증가된 레벨 때문에, 서로를 향해, "끌어당기거나(pull)" 또는 인력으로 끌리게(gravitate) 될 것이다. 상기 경우에서와 같이, 신호들이 다이나믹 한 경우에는, 상호작용의 양이 너무 지나쳐, 아마도 크게 못마땅한 특성의 신호 의존 다이나믹 위치지정 에러들을 유도한다. 이런 문제는 이들이 단일의, 분리된 채널 쌍만을 디코더 입력으로서 사용하기 때문에, 프로 로직 및 다른 액티브 2:N 디코딩과 함께 발생하지는 않는다.
그러므로, "공유 노드" 효과를 포상하는 것이 필요하다. 그렇게 하기 위해 한가지 가능한 방식은 공통 노드를 공유하는 인접 디코딩 모듈의 출력 신호를 복원하기 위해 노력하기 이전에, 공통 노드로부터 하나의 복원된 신호를 감산해야될 것이다. 이것은 종종 대체시스템으로서 가능하지 않고, 각각의 디코딩 모듈은 그 입력 채널들에 제공된 공통 출력 신호 에너지의 양을 평가하며, 감독 루틴은 그 이웃 출력 신호 에너지의 평가치를 각각의 모듈에 정보제공한다.
공통 에너지의 쌍 계산
예를 들어, 카디널 채널 쌍 A/B가 개별적인, 비상관 신호들 Y 및 Z를 따라 공통 신호 X를 포함하는 것으로 가정하라:
A = 0.707X + Y
B = 0.707X + Z
여기에서, 0.707 =
Figure 112003028647970-pct00001
의 환산계수(scalefactor)는 가장 인접한 이웃 카디 널 채널들에 대한 파워 보존 매핑(power preserving mapping)을 제공한다.
Figure 112003028647970-pct00002
X 및 Y 가 비상관되기 때문에,
Figure 112003028647970-pct00003
그래서,
Figure 112003028647970-pct00004
즉, X 및 Y가 비상관되기 때문에, 카디널 채널 A의 총 에너지는 신호 X 및 Y의 에너지들의 합이다.
유사하게는:
Figure 112003028647970-pct00005
X, Y 및 Z가 비상관이기 때문에, A 및 B의 평균 백터곱은:
Figure 112003028647970-pct00006
그래서, 또한 독립된, 비상관 신호들을 포함할 수 있는 두 개의 이웃한 카디널 채널들에 의해 동등하게 분배된 출력 신호의 경우에는, 신호들의 평균 백터곱이 각 채널의 공통 신호 성분의 에너지와 등가이다. 공통 신호가 동등하게 분배되지 않는 경우, 즉, 그것이 카디널들 중 하나를 향해 패닝되는 경우, 평균 백터곱은 개별 채널 공통 에너지 평가치가 채널 진폭들의 비의 제곱근에 의해 정규화되어 유도될 수 있는, A 및 B의 에너지 공통 성분들 사이의 기하 평균일 것이다. 실질 시간 평균들은 진행 활동을 반영하기 위해, 적절한 감쇠 시간 상수를 가지는 누설 적분기(leaky integrator)로 계산된다. 시간 상수 평활화는 비선형 공격 및 감쇠 시간 옵션들을 가지고 정교화될 수 있고, 다중대역 시스템에서 주파수로 스케일링될 수 있다.
공통 에너지의 고 차수 계산
3개 이상의 입력들을 가지고 디코딩 모듈들의 공통 에너지를 유도하기 위하여, 모든 입력 신호들의 평균 벡터곱을 형성하는 것이 필요하다. 입력들의 쌍 처리를 단순히 이행하는 것은 각 쌍의 입력들과 모든 것에 대해 공통인 신호 사이의 별도의 출력 신호들 사이에서 구분하는데 실패할 것이다.
예를 들어, 비상관 신호들, W, Y, Z 및 공통 신호 X로 이루어진 3개의 카디 널 채널들, A, B, 및 C를 고려하면:
A = X + W
B = X + Y
C = X + Z
평균 벡터곱이 계산되면, W, Y 및 Z의 조합을 포함하는 모든 항들이 2차 계산에서와 같이, 소거되어, X3의 평균을 남긴다:
Figure 112003028647970-pct00007
불행하게도, X가 예상되는 바와 같이 제로 평균 시간 신호인 경우, 그 세제곱의 평균은 제로이다. X의 임의의 제로가 아닌 값에 대해 양인, 평균하는 X2과는 달리, X3은 X와 동일한 부호를 가져서, 양 및 음의 공헌물들이 소거되기 쉬울 것이다. 분명하게, 동일물이 홀수의 모듈 입력들에 상응하는 X의 임의의 홀수 제곱을 유지하지만, 2이상의 지수들조차도 또한 오류를 유발할 수 있는데; 예를 들어 성분들(X,X,-X,-X )을 갖는 4 입력들이 (X,X,X,X)와 동일한 곱/평균을 가질 것이다.
이런 문제는 평균 곱 기술의 변형을 채용하여 해결되었다. 평균화되기 이전에, 각각의 곱의 부호는 곱의 절대 값을 취하여 버려진다. 곱의 각 항의 부호들이 검사된다. 이들이 모두 동일한 경우, 곱의 절대값은 애버리저(averager)에 제공된다. 어느 부호라도 다른 것들과 상이한 경우, 곱의 음의 절대값은 평균 된다. 가능 한 동일-부호 조합의 수는 가능한 다른-부호 조합들의 수와 동일하지 않을 수 있기 때문에, 동일 내지 다른 부호 조합들의 수의 비로 이루어진 가중 팩터가 부상을 위해 부정(negated) 절대값 곱들에 적용된다. 예를 들어, 3-입력 모듈이 8개의 가능성 중에서 부호가 동일하게 될 두개의 방식을 가져, 부호가 다르게될 6개의 가능한 방식을 남기면, 스케일 팩터는 2/6=1/3이 된다. 이런 보상은, 디코딩 모듈의 모든 입력들에 공통인 신호 성분이 존재하는 경우 및 그 경우에만, 적분 또는 합산 곱이 양의 방향으로 성장하게 한다.
그러나, 다른 차수의 평균들이 비교가능하도록, 이들은 모두 동일한 차원을 가져야만 한다. 통상적인 2차 상관은 2-입력 곱셈 및 그로 인한 에너지 및 파워의 차원을 갖는 량의 평균을 포함한다. 그러므로, 고차 상관으로 평균화된 항들은 또한 파워의 차원을 갖도록 수정되어야만 한다. 그러므로 k 차 상관에 대해, 개별적인 곱 절대값은 평균되기 이전에 파워 2/k까지 증가되어야 한다.
물론, 차수에 관계없이, 모듈의 개별적인 입력 노드 에너지들이 필요하다면 노드 신호에 상응하는 제곱의 평균으로 계산될 수 있고, 처음에 k번째 파워까지 증가될 필요가 없어 2차 량까지 감소된다.
공유 노드: 이웃 레벨
카디널 채널 신호의 평균 제곱 및 수정된 벡터곱을 사용함으로써, 공통 출력 채널 신호 에너지의 량이 평가될 수 있다. 상기 실시예는 단일 보간 프로세서를 포함했지만, 하나 이상의 A/B(/C) 노드들이 그 자신의 공통 신호 성분을 갖는 다른 모듈에 대해 공통이라면, 임의의 다른 신호들과 비상관되고, 상기 계산된 평균 벡 터곱은 영향받지 않을 것이어서, 계산이 임의의 이미지 풀링 효과들과 본질적으로 무관하게 된다. (주목:두개의 출력 신호들이 비상관되지 않는 경우, 이들은 디코더들 일부를 용이하게 풀링할 것이지만 인간귀에 대한 유사한 효과를 가져야 해서, 다시 시스템 작동이 인간 청각에 대해 충실하게 유지되어야 한다.)
일단 각각의 디코딩 모듈이 각각의 그 카디널 노드들에서 평가된 공통 출력 채널 신호 에너지를 계산했다면, 감독 루틴 기능은, 이하 기술되는 바와 같이 출력 채널 신호들의 추출이 진행될 수 있는 지점에서, 각각의 다른 공통 에너지를 이웃 모듈들에 정보제공할 수 있다. 한 노드의 모듈에 의해 사용된 공통 에너지의 계산은 다른 차수의 아마도 오버래핑하는 모듈들의 계층을 고려해야만 하며 동일한 노드들을 공유하는 임의의 낮은 차수 모듈의 평가된 공통 에너지로부터 높은 차수 모듈의 공통 에너지를 뺀다.
예를 들어, 두 개의 수평 방향들을 나타내는 두 개의 인접 카디널 채널 A 및 B가 존재하고, 이에 더하여 수직 방향을 나타내는 카디널 채널 C가 존재한다고 가정하고, 부가적으로 신호 에너지 X2을 갖는, 내부 방향(즉,A, B, 및 C의 한계치 내에서 하나)을 나타내는 중간 또는 유도된 출력 채널의 존재를 가정하라. 입력(A,B,C)들을 갖는, 3-입력 모듈의 공통 에너지는 X2이 될 것이지만, 2-입력 모듈(A,B), (B,C) 및 (A,C)도 또한 공통 에너지가 될 것이다. A-결합된 모듈 (A,B,C),(A,B) 및 (A,C)의 공통 에너지가 단순히 부가되는 경우, 결과는 X2 대신에 3X2이다. 공통 노드 에너지의 계산이 정정되도록, 먼저 각각의 높은 차수 모듈의 공통 에너지가 각각의 오버래핑 저-레벨 모듈의 공통 에너지의 평가치로부터 감산되어, 높은 차수 모듈(A,B,C)의 공통 에너지 X2이 두 개의 2-입력 모듈들의 공통 에너지 평가치로부터 감산되고, 결과 각각의 경우에 0이 되고, 노드 A에서의 순수 공통 에너지 평가치는 X2 + 0 + 0 = X2과 동일하게 된다.
출력 채널 신호 추출
주목되는 바와 같이, 선형으로 전송된 채널로부터 출력 채널들의 집합(ensemble)을 복원하는 프로세스는, 출력 채널 신호들을 유도하기 위해 카디널 ㅐ널들의 가중 합들을 형성하는, 기본적으로 매트릭싱의 하나이다. 매트릭스 스케일 팩터들의 최적 선택은 일반적으로 신호 의존적이다. 실상, 현재 액티브한 출력 채널들의 수가 시스템을 정확하게 억제시키는, 전송된 채널들의 수와 동일하다면(그러나, 다른 방향들을 나타냄), 효과적인 인코딩 매트릭스의 정확한 역수를 계산하고 소스 신호들의 격리된 버전을 복원하는 것이 수학적으로 가능하다.
불행하게도, 특히 다중대역 기반에서 계산적으로 요구되고 높은 정확도의 부동 포인트 구현을 향해 지향되는, 적지 않게 존재하는 이런 수단을 갖는 문제들이 존재한다. 비록 중간 신호들이 가장 근접한 이웃 카디널 채널들에 대해 패닝되는 것으로 추정되지만, 유효 인코딩 매트릭스의 수학적 역수 또는 유사-역수(pseudo-inverse)는 일반적으로 노드 공유 효과 때문에 모든 카디널 채널들로부터 각각의 출력 채널까지의 분포를 포함할 것이다. 실상 불가피하게 존재하게 되는 바와 같 이, 디코딩에 임의의 결함들이 존재하는 경우, 카디널 채널 신호는 대단히 바람직하지 않은, 공간적으로 그것으로부터 멀리 이동된 출력 채널로부터 재생될 수 있다. 추가적으로, 유사-역수 계산은 사운드를 최대한 주변에 유포시키고 최소 분리를 제공하는 최소- RMS-에너지 솔루션을 제공하는 경향이 있으며; 이것은 상당히 의도와 ㅡ 상반된다.
공간적 디코딩 오류들이 고유하게 포함되는 실질적인, 내결함성(fault-tolerant) 디코더를 구현하기 위하여, 신호 검출에 사용되는 것과 동일한 모듈 구성이 신호 추출을 위해 채용된다.
출력 신호들이 디코딩 모듈에 의해 복원되는 추출 프로세스의 상세항목이 이어진다. 모듈에 연결된 각각의 출력 채널의 유효 위치가 신호를 그 물리적 위치에 패닝할 필요가 없을 진폭비, 즉 그 방향에 상응하는 유효 매트릭스 인코딩 계수들의 비에 의해 표시되도록 추정되는 것을 주목하라. 0으로 나뉘어지는 문제를 방지하기 위해, 비율들은 통상적으로 모든 그 입력 채널들의 매트릭스 계수들(일반적으로 1)의 RMS 합 이상의 하나의 채널의 매트릭스 계수의 몫(quotient)로서 계산된다. 예를 들어, 입력들 L 및 R을 갖는 2-입력 모듈에 있어, 사용된 에너지 비는 0 내지 1 동작바른(well-behaved) 범위를 가지는, L 및 R 에너지들("L-비")의 합 이사의 L 에너지일 수 있다. 2-입력 디코딩 모듈이 유효 인코딩 매트릭스 계수 쌍들 (1.0,0), (0.89,0.45), (0.71,0.71), (0.45,0.89) 및 (0,1.0)을 구비한 5개의 출력 채널들을 가지는 경우, 상응하는 L-비(ratios)들은, 각각의 스케일 팩터 쌍이 1.0의 RMS합을 가지기 때문에, 1.0, 0.89, 0.71, 0.45, 및 0이다.
디코딩 모듈의 각각의 입력 노드(카디널 채널)의 신호 에너지로부터 이웃 디코딩 모듈들에 의해 청구된 임의의 노드 공유 신호 에너지를 감산하여, 나머지 계산을 위해 사용된 정규화된 입력 신호 파워 레벨들을 초래한다.
지배적인 방향 지시기는 상대적인 에너지에 의해 가중된, 카디널 방향들의 벡터 합으로서 계산된다. 2 입력 모듈에 대해, 이것은 정규화된 입력 신호 파워 레벨들의 L-비가 되도록 단순화시킨다.
지배적인 방향을 출력 채널들을 브라켓(bracketing)하는 출력 채널들은 2단계의 지배적인 방향 L-비를 출력 채널들의 L-비들에 비교하여 결정된다. 예를 들어, 상기 5-출력-디코딩-모듈 입력들의 L-비가 0.75라면, 제2 및 제3 출력 채널들은, 0.89 > 0.75 > 0.71 이기 때문에, 주 신호 방향을 브라켓한다.
주 신호를 가장 근접한 브라켓팅 채널들에 매핑하기 위한 패닝 스케일 팩터들은 채널들의 반-지배적인(anti-dominant) 신호 레벨의 비로부터 계산된다. 특정 출력 채널과 연계된 반-지배 신호는 상응하는 디코딩 모듈의 입력 신호들이 출력 채널의 반-지배적인 매트릭스 스케일 팩터들과 매트릭스될 때를 초래하는 신호이다. 출력 채널의 반-지배적인 매트릭스 스케일 팩터들은 단일 지배적인 신호가 의문의 출력 채널로 패닝될 때 제로 출력을 초래하는 RMS 합=1.0을 갖는 이들 스케일 팩터들이다. 출력 채널의 인코드 매트릭스 스케일 팩터들이 (A,B)인 경우, 채널의 반-지배적인 스케일 팩터들은 단지 (B,-A)이다.
증명
단일의 지배적인 신호가 인코드 스케일 팩터(A,B)를 갖는 출력 채널로 패닝 되는 경우, 신호는 진폭(kA,kB)들을 가져야만하며, k는 전체 신호의 진폭이다. 이후, 그러한 채널에 대한 반-지배적인 신호는 (kA*B-kB*A)=0이다.
그래서, 지배적인 신호가 RMS=1 (X,Y)로 정규화된 입력 진폭들을 구비한 2-입력 모듈 이력 신호들(x(t),y(t))로 이루어진다면, 추출된 지배적인 신호는 dom(t)=Xx(t) + Yy(t)가 될 것이다. 이런 신호의 위치가 각각 매트릭스 스케일 팩터들 (A,B) 및 (C,D)를 가지는 출력 채널들에 의해 브라켓된다면, 전자의 채널에 대한 dom(t)을 스케일링하는 지배적인 신호 스케일 팩터는:
SF(A,B)=sqrt((DX-CY)/((DX-CY)+(BX-AY)))일 것인데 반해,
후자의 채널에 대한 등가의 지배적인 신호 스케일 팩터는:
SF(C,D)=sqrt((BX-AY)/((DX-CY)+(BX-AY)))이다.
지배적인 방향이 하나의 출력 채널로부터 다른 것으로 패닝됨에 따라, 이들 두 개의 스케일 팩터들은 0과 일정한 파워 합을 갖는 하나 사이의 대향 방향들로 이동된다.
반-지배적인 신호가 모든 비-지배적인 채널들로 적절한 이득 스케일링을 가지고 계산되고 패닝된다. 반-지배적인 신호는 임의의 지배적인 신호가 결핍된 매트릭싱 신호이다. 디코딩 모듈에 대한 입력들이 정규화 진폭(X,Y)들을 갖는 (x(t),y(t))인 경우, 비-지배적인 출력 채널들의 위치들에 관계없이, 지배적인 신호는 Xx(t) + Yy(t)이고 반-지배적인 신호는 Yx(t)-Xy(t)이다.
지배적인/반-지배적인 신호 분포에 더하여, 제2 신호 분포는 파워를 보존하기 위해 스케일링된, 기본적으로 상기 출력 채널 매트릭스 스케일 팩터들인, "패시 브" 매트릭스를 사용하여, 계산된다.
추출 프로세스의 상세항목을 다시 살펴보면, 최종 출력 신호들은 크로스페이드 팩터(crossfade factor)를 유도하기 위해 디코딩 모듈의 입력 신호 크로스-상관을 사용하여, 지배적인 그리고 패시브한 신호 분포들의 가중 크로스페이드 합으로서 계산된다. 상관=1에 대해서는, 지배적인/반-지배적인 분포가 독점적으로 사용된다. 상관이 감소됨에 따라, 출력 신호 어레이가 패시브 분포로 크로스-페이딩하여 넓혀져, 출력 채널들의 수에 의존하여 통상적으로 0.2 내지 0.4의 상관의 낮은 양의 값에서 완성된다. 상관이 더욱 0을 향해 떨어짐에 따라, 패시브 진폭 출력 분포는 외측으로 점진적으로 굽혀져서, 그러한 신호들에 대한 인간귀의 응답을 모방하여, 출력 채널 레벨들을 감소시킨다.
수직 처리
여태까지 기술된 대부분의 처리는 출력 및 카디널 채널들의 방향에 관계 없이, 이웃 카디널 채널들로부터 출력 채널 신호들의 추출에 적용된다. 그러나, 귀의 수평 지향(horizontal orientation) 때문에, 인간 청각 국부화는 수평으로보다는 수직 방향으로 채널간 상관에 대해 덜 민감하게되는 경향이 있다. 인간 귀의 작동에 충실하게 유지하기 위해, 그것을 적용하기 이전에 왜곡함수(warping function)를 가지고 상관 신호를 처리하는 것과 같이, 수직 지향 입력 채널들을 사용하여 보간 프로세서들에서 상관 억제를 완화시키는 것이 바람직할 수 있다. 그러나, 그것은 수평 채널들에 대해 동일한 처리의 사용이 임의의 가청 페널티를 포함하지 않아, 전체 디코더의 구성을 단순화하는 것일 수 잇다.
엄밀하게 말하자면, 수직 정보는 상부 및 하부로부터의 사운드 모두를 포함하고, 기술된 디코더 구조는 어느 하나와 균등하게 잘 잘동하지만, 실상 하부로부터 나오는 것으로 정상적으로 인지된 고유 사운드가 작아서, 그러한 처리 및 채널들은 아마도 시스템의 감지 공간 충실도를 심각하게 손상시키지 않고 생략될 수 있다.
그러한 견해는 물론 임의의 수직 채널이 결핍된 기존 5.1 채널 서라운드 물질로의 채널 변환의 적용에서 실질적으로 중요할 수 있다. 그러나, 그것은 다수 또는 모든 수평 채널들을 통해 패닝되는, 플라이-오버(fly-overs) 같은 수직 정보를 포함할 수 있다. 그러므로, 이웃하지 않은 채널들 또는 채널들의 그룹들 사이에서 상관을 찾음으로써, 그러한 소스 물질로부터 가상 수직 채널을 추출하는 것이 가능해야 한다. 그러한 상관들이 존재하는 경우, 이들은 일반적으로 청취자 하부 보다는 상부로부터의 수직 정보의 존재를 나타낼 것이다. 일부 경우들에서, 아마도 의도된 청취 환경의 모델에 핵심이되는, 반향 발생기로부터 가상 수직 정보를 유도하는 것이 또한 가능할 수 있다. 일단 가상 수직 채널이 5.1-채널 소스로부터 추출 또는 유도되면, 상기 기술된 24-채널 장치 같은, 다수의 채널들로의 확장은, 실질 수직 채널이 제공되었던 것처럼 진행될 수 있다.
지향성 메모리
상기 디코딩 모듈 제어 발생의 작동이 프로 로직 디코더 같은 2:N 액티브 디코더와 유사한 한가지 관심은 프로세스의 "메모리"만이 기본 제어 신호들을 유도하는 평활화 네트워크들에 있다는 것이다. 때맞춰 임의의 한 점에는, 하나의 지배적 인 방향 및 입력 상관의 하나의 값만이 존재하며; 신호 추출은 이런 신호들로부터 직접 진행된다.
그러나, 특히 복잡한 음향 환경들(원형의 칵테일 파티 같은)에서, 인간귀는 일정 정도의 위치 기억을 나타내고, 관성에서 명백하게 국부화되는 주어진 방향으로부터의 간단히 지배적인 사운드가 동일한 소스로부터 나오는 것으로 감지되는 일반 방향으로부터의 다른, 덜 명백하게 국부화가능한 사운드들을 초래할 것이다.
최근의 지배적인 방향들의 트랙을 유지하기 위해 명백한 메커니즘을 더하여 디코딩 모듈들( 그리고, 실상은, 프로 로직 디코딩에서도)에서 이런 효과를 모방하고, 방향적으로 모호한 신호 상태의 간격 동안 최근 지배적인 방향들을 향해 출력 신호 분배를 가중하는 것이 가능하다. 이것은 감지된 재생 불연속성 및 복잡한 신호 어레이들의 안정성을 향상시킬 수 있다.
수정된 상관 및 선택 채널 믹싱
상기된 바와 같이, 각각의 디코딩 모듈의 분포 결정이 그 입력 신호들의 일치 상호상관에 기초한다. 이것은 일부 상태들하에서 출력 신호 내용의 량을 과소평가할 수 있다. 이것은, 예를 들어, 비-중심 방향들이 동일하지 않은 진폭들과 함께 약간 다른 도달 시간들을 가지는 본래 기록된 신호와 함께 발생되어, 감소된 상관값을 초래한다. 효과는 넓은-간격의 마이크로폰들이 사용되는 경우 적당하게 연장된 채널간 지연을 가지고 과장될 수 있다. 보상을 위해, 상관 계산이 약간 높은 처리 MIPS 요구를 손상시켜, 채널간 시간 지연들의 범위를 포함하도록 연장될 수 있다. 또한, 청각 신경 상의 신경세포(neurons)가 약 1msec의 효과적인 시간 상수를 가지기 때문에, 보다 현실적인 상관값들은 1msec. 시간 상수를 가지는 평활장치(smoother)를 가지고 먼저 정류된 오디오를 평활화하여 얻어질 수 있다.
추가적으로, 콘텐츠 생성기(content producer)가 강하게 비상관된 채널들을 갖는 기존의 5.1 채널 프로그램을 가지면, 채널 변환 디코더를 가지고 처리될 때 유포의 균등성이 인접채널들을 약간 믹싱하여 증가되어, 상관을 증가시키고, 이것은 채널 변환 디코딩 모듈이 그 중간 출력 채널들 사이에서 보다 균등하게 유포되도록 할 것이다. 그러한 믹싱은 선택적으로 행해질 수 있어, 예를 들면, 다이알로그 트랙의 조밀성을 보존하기 위해 중심 전방 채널 신호가 믹싱되지 않은채로 있게 한다.
음향 압축/확장
인코딩 처리가 다수의 채널들의 소수까지 믹싱하는 것을 포함할 때, 소정 형태의 이득 보상이 제공되지 않는다면 인코딩 신호의 클리핑을 위한 가능성이 존재한다. 이런 문제는 통상적인 매트릭스 인코딩에서도 존재하지만, 주어진 출력 채널로 믹싱되는 채널들의 수가 보다 크기 때문에, 잠재적으로느 채널 변환을 위해 보다 더 크게 중요하다. 그러한 경우들의 클리핑을 방지하기 위해, 전체 이득 스케일 팩터가 인코더에 의해 유도되고 인코딩된 비트스트림 형태로 디코더에 전송된다. 일반적으로는, 이런 값은 0dB이지만, 클리핑을 방지하기 위해 인코더에 의해 0이 아닌 감쇄 값으로 설정되어, 디코더가 등가량의 보상 이득을 제공한다.
디코더가 그러한 스케일 팩터 프로그램이 결핍된 기존의 다중채널을 처리하기 위해 사용되는 경우(예를 들어, 기존의 5.1 채널 사운드트랙), 그것은 추정값( 아마도 0dB)을 갖는 고정 스케일 팩터를 선택적으로 사용할 수 있거나, 또는 신호레벨 및/또는 다이나믹스에 기반한 확장 함수를 적용하거나, 또는 가능하게는 디코더 이득을 조절하기 위해 다이얼로그 정규화 값(dialog normalization value)과 같은 유효한 메타데이터를 사용한다.
본 발명 및 그 다양한 양태들은 아날로그 회로에서, 또는 보다 가능하게는, 디지털 신호 프로세서들, 프로그램된 일반목적 디지털 컴퓨터들, 및/또는 특정 목적 디지털 컴퓨터들에서 이행된 소프트웨어 함수들로서 구현될 수 있다. 아날로그와 디지털 신호 스트림들 사이의 인터페이스들은 적절한 하드웨어로, 및/또는 소프트웨어 및/또는 펌웨어에서의 함수들로서 이행될 수 있다.

Claims (11)

  1. 음장(soundfield)을 나타(represent)내는 M 오디오 입력 채널들을 동일한 음장을 나타내는 N 오디오 출력 채널들로 변환하는 방법으로서, 각 채널은 일 방향으로부터 도달하는 오디오를 나타내는 단일 오디오 스트림이며, M 및 N은 양의 정수이고, M은 2 이상의 양의 정수인, 변환 방법에 있어서,
    복수의 디코딩 모듈 기능(modular function)을 포함하며, 상기 복수의 모듈 기능은 상기 M 입력 채널들 중 하나를 공유하며, 각 모듈 기능은:
    상기 N 채널들의 서브세트를 각각 구성하는 1 이상의 출력 채널을 발생시키는 매트릭스를 포함하며 상기 디코딩 모듈 기능과 관련된 가장 가까운 공간적으로 인접한 카디널 채널(cardinal channel)들 중 2 이상에 응답하여 그 매트릭스를 제어하거나, 또는
    상기 디코딩 모듈 기능과 관련된 가장 가까운 공간적으로 인접한 카디널 채널들 중 2 이상에 응답하여 제어 신호를 발생시키는데, 상기 제어 신호가 다른 디코딩 모듈 기능들에 의해 발생된 제어 신호들과 함께 가변 매트릭스의 계수를 변동시키도록 사용되어 모든 출력 채널들을 발생시키거나, 또는
    상기 디코딩 모듈 기능과 관련된 가장 가까운 공간적으로 인접한 카디널 채널들 중 2 이상에 응답하여 제어 신호들을 발생시키는데, 상기 제어 신호가 다른 디코딩 모듈 기능들에 의해 발생된 제어 신호들과 함께 고정형 매트릭스로의 입력들 또는 고정형 매트릭스로부터의 출력들의 스케일 팩터들을 변동시키는데 사용되어 모든 출력 채널들을 발생시키는, 변환 방법.
  2. 제1항에 있어서, 상기 모듈 기능들은 입력 채널들의 개수에 따라 계층적으로 순서화되며, 그 계층 순서에 따라 입력 신호들의 공유를 제어하도록 모듈 기능들과 소통하는 감독 루틴 기능(supervisory routine function)을 더 포함하는, 변환 방법.
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 삭제
  8. 삭제
  9. 삭제
  10. 삭제
  11. 삭제
KR1020037010231A 2001-02-07 2002-02-07 오디오 채널 변환 KR100904985B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US26728401P 2001-02-07 2001-02-07
US60/267,284 2001-02-07
PCT/US2002/003619 WO2002063925A2 (en) 2001-02-07 2002-02-07 Audio channel translation

Publications (2)

Publication Number Publication Date
KR20030079980A KR20030079980A (ko) 2003-10-10
KR100904985B1 true KR100904985B1 (ko) 2009-06-26

Family

ID=23018136

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020037010231A KR100904985B1 (ko) 2001-02-07 2002-02-07 오디오 채널 변환

Country Status (11)

Country Link
EP (1) EP1410686B1 (ko)
JP (1) JP2004526355A (ko)
KR (1) KR100904985B1 (ko)
CN (1) CN1275498C (ko)
AT (1) ATE390823T1 (ko)
AU (1) AU2002251896B2 (ko)
CA (1) CA2437764C (ko)
DE (1) DE60225806T2 (ko)
HK (1) HK1066966A1 (ko)
MX (1) MXPA03007064A (ko)
WO (1) WO2002063925A2 (ko)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7660424B2 (en) 2001-02-07 2010-02-09 Dolby Laboratories Licensing Corporation Audio channel spatial translation
US7551745B2 (en) * 2003-04-24 2009-06-23 Dolby Laboratories Licensing Corporation Volume and compression control in movie theaters
US8290603B1 (en) 2004-06-05 2012-10-16 Sonos, Inc. User interfaces for controlling and manipulating groupings in a multi-zone media system
US8086752B2 (en) 2006-11-22 2011-12-27 Sonos, Inc. Systems and methods for synchronizing operations among a plurality of independently clocked digital data processing devices that independently source digital data
US8234395B2 (en) 2003-07-28 2012-07-31 Sonos, Inc. System and method for synchronizing operations among a plurality of independently clocked digital data processing devices
US11106425B2 (en) 2003-07-28 2021-08-31 Sonos, Inc. Synchronizing operations among a plurality of independently clocked digital data processing devices
US11106424B2 (en) 2003-07-28 2021-08-31 Sonos, Inc. Synchronizing operations among a plurality of independently clocked digital data processing devices
US11294618B2 (en) 2003-07-28 2022-04-05 Sonos, Inc. Media player system
US10613817B2 (en) 2003-07-28 2020-04-07 Sonos, Inc. Method and apparatus for displaying a list of tracks scheduled for playback by a synchrony group
US11650784B2 (en) 2003-07-28 2023-05-16 Sonos, Inc. Adjusting volume levels
ITRM20030559A1 (it) * 2003-12-03 2005-06-04 Fond Scuola Di San Giorgio Apparecchiatura per l'acquisizione e misura dei dati e
US7394903B2 (en) * 2004-01-20 2008-07-01 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Apparatus and method for constructing a multi-channel output signal or for generating a downmix signal
EP2065885B1 (en) 2004-03-01 2010-07-28 Dolby Laboratories Licensing Corporation Multichannel audio decoding
US9977561B2 (en) 2004-04-01 2018-05-22 Sonos, Inc. Systems, methods, apparatus, and articles of manufacture to provide guest access
US8024055B1 (en) 2004-05-15 2011-09-20 Sonos, Inc. Method and system for controlling amplifiers
US8868698B2 (en) 2004-06-05 2014-10-21 Sonos, Inc. Establishing a secure wireless network with minimum human intervention
US8326951B1 (en) 2004-06-05 2012-12-04 Sonos, Inc. Establishing a secure wireless network with minimum human intervention
WO2006011367A1 (ja) * 2004-07-30 2006-02-02 Matsushita Electric Industrial Co., Ltd. オーディオ信号符号化装置および復号化装置
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
US7283634B2 (en) * 2004-08-31 2007-10-16 Dts, Inc. Method of mixing audio channels using correlated outputs
WO2006050112A2 (en) * 2004-10-28 2006-05-11 Neural Audio Corp. Audio spatial environment engine
JP4997781B2 (ja) * 2006-02-14 2012-08-08 沖電気工業株式会社 ミックスダウン方法およびミックスダウン装置
KR100763919B1 (ko) 2006-08-03 2007-10-05 삼성전자주식회사 멀티채널 신호를 모노 또는 스테레오 신호로 압축한 입력신호를 2 채널의 바이노럴 신호로 복호화하는 방법 및 장치
US8483853B1 (en) 2006-09-12 2013-07-09 Sonos, Inc. Controlling and manipulating groupings in a multi-zone media system
US9202509B2 (en) 2006-09-12 2015-12-01 Sonos, Inc. Controlling and grouping in a multi-zone media system
US8788080B1 (en) 2006-09-12 2014-07-22 Sonos, Inc. Multi-channel pairing in a media system
US8290782B2 (en) * 2008-07-24 2012-10-16 Dts, Inc. Compression of audio scale-factors by two-dimensional transformation
BRPI0913460B1 (pt) * 2008-09-11 2024-03-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparelho e método para prover um conjunto de indicadores espaciais na base de um sinal de microfone e aparelho para prover um sinal de áudio de dois canais e um conjunto de indicadores espaciais
US8023660B2 (en) 2008-09-11 2011-09-20 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. Apparatus, method and computer program for providing a set of spatial cues on the basis of a microphone signal and apparatus for providing a two-channel audio signal and a set of spatial cues
CN104837107B (zh) 2008-12-18 2017-05-10 杜比实验室特许公司 音频通道空间转换
WO2010113434A1 (ja) 2009-03-31 2010-10-07 パナソニック株式会社 音響再生装置及び音響再生方法
US10158958B2 (en) 2010-03-23 2018-12-18 Dolby Laboratories Licensing Corporation Techniques for localized perceptual audio
JP5323210B2 (ja) 2010-09-30 2013-10-23 パナソニック株式会社 音響再生装置および音響再生方法
US11265652B2 (en) 2011-01-25 2022-03-01 Sonos, Inc. Playback device pairing
US11429343B2 (en) 2011-01-25 2022-08-30 Sonos, Inc. Stereo playback configuration and control
US8938312B2 (en) 2011-04-18 2015-01-20 Sonos, Inc. Smart line-in processing
US9042556B2 (en) 2011-07-19 2015-05-26 Sonos, Inc Shaping sound responsive to speaker orientation
US9729115B2 (en) 2012-04-27 2017-08-08 Sonos, Inc. Intelligently increasing the sound level of player
US9008330B2 (en) 2012-09-28 2015-04-14 Sonos, Inc. Crossover frequency adjustments for audio speakers
US9774973B2 (en) * 2012-12-04 2017-09-26 Samsung Electronics Co., Ltd. Audio providing apparatus and audio providing method
MX366000B (es) * 2013-03-29 2019-06-24 Samsung Electronics Co Ltd Aparato de audio y metodo de provision de audio del mismo.
CN104424971B (zh) * 2013-09-02 2017-09-29 华为技术有限公司 一种音频文件播放方法及装置
US9244516B2 (en) 2013-09-30 2016-01-26 Sonos, Inc. Media playback system using standby mode in a mesh network
US9226087B2 (en) 2014-02-06 2015-12-29 Sonos, Inc. Audio output balancing during synchronized playback
US9226073B2 (en) 2014-02-06 2015-12-29 Sonos, Inc. Audio output balancing during synchronized playback
US10248376B2 (en) 2015-06-11 2019-04-02 Sonos, Inc. Multiple groupings in a playback system
JP2019530312A (ja) * 2016-10-04 2019-10-17 オムニオ、サウンド、リミテッドOmnio Sound Limited ステレオ展開技術
US10712997B2 (en) 2016-10-17 2020-07-14 Sonos, Inc. Room association based on name
JP2024048967A (ja) * 2022-09-28 2024-04-09 パナソニックIpマネジメント株式会社 音場再現装置、音場再現方法及び音場再現システム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10174199A (ja) 1996-12-11 1998-06-26 Fujitsu Ltd スピーカ音像制御装置
US6009179A (en) 1997-01-24 1999-12-28 Sony Corporation Method and apparatus for electronically embedding directional cues in two channels of sound
EP1054575A2 (en) * 1999-05-17 2000-11-22 Bose Corporation Directional decoding

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0054575B1 (en) * 1980-12-18 1985-05-22 Kroy Inc. Printing apparatus and tape-ribbon cartridge therefor
US6198827B1 (en) * 1995-12-26 2001-03-06 Rocktron Corporation 5-2-5 Matrix system
AUPP271598A0 (en) * 1998-03-31 1998-04-23 Lake Dsp Pty Limited Headtracked processing for headtracked playback of audio signals
US6757659B1 (en) * 1998-11-16 2004-06-29 Victor Company Of Japan, Ltd. Audio signal processing apparatus

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10174199A (ja) 1996-12-11 1998-06-26 Fujitsu Ltd スピーカ音像制御装置
US6009179A (en) 1997-01-24 1999-12-28 Sony Corporation Method and apparatus for electronically embedding directional cues in two channels of sound
EP1054575A2 (en) * 1999-05-17 2000-11-22 Bose Corporation Directional decoding
JP2000350300A (ja) 1999-05-17 2000-12-15 Bose Corp 指向性復号方法及び装置

Also Published As

Publication number Publication date
DE60225806T2 (de) 2009-04-30
ATE390823T1 (de) 2008-04-15
KR20030079980A (ko) 2003-10-10
CN1275498C (zh) 2006-09-13
CA2437764A1 (en) 2002-08-15
AU2002251896B2 (en) 2007-03-22
DE60225806D1 (en) 2008-05-08
MXPA03007064A (es) 2004-05-24
AU2002251896A2 (en) 2002-08-19
JP2004526355A (ja) 2004-08-26
HK1066966A1 (en) 2005-04-01
CN1524399A (zh) 2004-08-25
WO2002063925A2 (en) 2002-08-15
WO2002063925A3 (en) 2004-02-19
EP1410686B1 (en) 2008-03-26
CA2437764C (en) 2012-04-10
WO2002063925A8 (en) 2004-03-25
EP1410686A2 (en) 2004-04-21

Similar Documents

Publication Publication Date Title
KR100904985B1 (ko) 오디오 채널 변환
US11805379B2 (en) Audio channel spatial translation
AU2002251896A1 (en) Audio channel translation
US7660424B2 (en) Audio channel spatial translation
KR100988293B1 (ko) 오디오 채널 공간 트랜스레이션
Kyriakakis Fundamental and technological limitations of immersive audio systems
US20040062401A1 (en) Audio channel translation
WO2004019656A2 (en) Audio channel spatial translation
US20190289418A1 (en) Method and apparatus for reproducing audio signal based on movement of user in virtual space
Malham Approaches to spatialisation
Omoto et al. Hypotheses for constructing a precise, straightforward, robust and versatile sound field reproduction system
Sporer et al. Wave field synthesis
Kyriakakis et al. Immersive audio for the desktop
CN114363793A (zh) 双声道音频转换为虚拟环绕5.1声道音频的系统及方法
Glasgal Achieving Physiological Realism in Music Recording and Reproduction

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130611

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140611

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20150608

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20160613

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20170613

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20180612

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20190613

Year of fee payment: 11