KR101496754B1 - 다운믹싱 제한 - Google Patents

다운믹싱 제한 Download PDF

Info

Publication number
KR101496754B1
KR101496754B1 KR1020137011777A KR20137011777A KR101496754B1 KR 101496754 B1 KR101496754 B1 KR 101496754B1 KR 1020137011777 A KR1020137011777 A KR 1020137011777A KR 20137011777 A KR20137011777 A KR 20137011777A KR 101496754 B1 KR101496754 B1 KR 101496754B1
Authority
KR
South Korea
Prior art keywords
subgroup
downmixing
audio signal
delete delete
coefficients
Prior art date
Application number
KR1020137011777A
Other languages
English (en)
Other versions
KR20130080852A (ko
Inventor
론다 윌슨
마이클 워드
스티븐 베네치아
로저 드레슬러
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20130080852A publication Critical patent/KR20130080852A/ko
Application granted granted Critical
Publication of KR101496754B1 publication Critical patent/KR101496754B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Stereophonic System (AREA)
  • Control Of Amplification And Gain Control (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Amplifiers (AREA)

Abstract

본 발명은 출력 오디오 신호가 서브그룹으로 분할된 입력 오디오 신호로부터 획득되는 다운믹싱 기술에 관한 것이다. 가변 공통 이득 제한 인수는 서브그룹 내 입력 신호로부터 기여도를 조절하는 모든 다운믹싱 계수에 적용된다. 서브그룹 내 신호 값들 사이의 비를 보존하면서, 본 발명은 상이한 입력 신호 서브그룹의 이득을 상이한 정도로 제한하는 것을 가능하게 하여, 상대적으로 더 인식가능한 신호가 상대적으로 덜 제한될 수 있게 한다. 이것은 이득 제한을 가지거나 없이 신호 부분들 사이에 덜 인식가능한 방식으로 전이하면서 일관된 대화 레벨을 달성하는 것을 가능하게 한다. 본 발명의 실시예는 방법, 믹싱 시스템 및 컴퓨터 프로그램 제품을 포함한다.

Description

다운믹싱 제한{DOWNMIX LIMITING}
관련 출원에 대한 상호 참조
본 출원은 2010년 11월 12일에 출원된 미국 특허 가출원 제61/413,237호의 우선권을 청구하며, 상기 기초출원은 그 전체 내용이 본 명세서에 참조 문헌으로 완전히 병합된다.
기술 분야
본 발명은 일반적으로 아날로그 또는 디지털 오디오 신호 처리 기술에 관한 것이다. 보다 상세하게는 본 발명은 다수의 오디오 신호를 더 적은 수의 오디오 신호로 다운믹싱하는 것에 관한 것이다.
본 명세서에 사용된 바와 같이, 다운믹싱은 M개의 입력 오디오 신호(또는 채널)에 의해 인코딩된 정보로부터 N개(1≤N<M)의 출력 오디오 신호(또는 채널)를 유도하는 동작을 말한다. 고품질 다운믹싱에 대한 일반적인 예상은 입력 및 출력 신호 사이에 낮은 정보 손실, 호환가능한 대화 레벨 및 높은 음향 심리학적 충실도를 포함한다.
다운믹싱은 파형 부가, 변환 계수 부가, 가중된 평균 등에 의해 종종 2개의 신호를 하나로 결합하는 것을 포함한다. 스테레오에서 모노로의 다운믹싱은 다음 수식 1과 같은 간단한 관계로 표현될 수 있으나,
Figure 112013040026987-pct00001
(1)
일반적인 M개에서 N개로의 다운믹싱은 다음 수식 2와 같은 매트릭스 형태로 표시될 수 있다:
Figure 112013040026987-pct00002
(2)
여기서, 다운믹싱 계수(αk1, ..., αkM)로 표현되는, 주어진 출력 채널(yk)에 기여하는 입력 채널들 사이에 상대적인 가중치 분배는 기술적 고려사항으로부터 따라오거나 재생하는 오디오 소스의 공간적 레이아웃과 관련될 수 있다. 다운믹싱 계수의 상대적 비율을 정한 후에, 다운믹싱의 이득은 다른 관련 사항, 특히 하나의 입력 채널이 여러 출력 채널에 기여하는 경우에 에너지 보존에 의해 결정될 수 있다. 다른 상황에서, 우선순위는 일정한 대화 레벨을 유지하는 것일 수 있다. 이 요구조건은 오디오 부분들이 상이한 유형의 믹싱이나 인코딩에 의해 획득되었지만 서로 끊김없이 오디오 부분들을 결합하는 것을 가능하게 한다.
대화 레벨 요구조건에 응답하여 또는 에너지 보존으로 이득이 선택되었는지에 상관없이 다운믹싱에서 자주 나타내는 곤란함은 출력 신호가 그 허가된 범위를 초과하는 것이다. 출력 신호의 클립핑이나 재생하는 오디오 장비의 손상을 피하기 위하여, 이 기술 분야에 일반적인 관행은 범위외 값(out-of-range value)이 생성될 수 있는 시점에 또는 그 부근에 국부적으로 또는 전체적으로 이득을 감소시키는 것이다. 출력 신호(yk)가 범위 외에 있다고 가정하면, 전체 이득은 다음 수식 (3)으로 제한될 수 있다:
Figure 112013040026987-pct00003
(3)
여기서 0<
Figure 112013040026987-pct00004
<1는 제한 인수(limiting factor)이다. 또한 다음 수식 4에 의해 yk에 기여하는 신호의 이득만을 감소시키는 것도 가능하다:
Figure 112013040026987-pct00005
(4)
제한 인수가 얼마나 적용되는지에 상관없이, 대화 레벨을 충족하고 음향 심리적으로 인지가능하지 않은 방식으로 제한을 수행하는 요구조건은 명백히 모순적이다. 이득을 보다 국부적으로 제한하는 것은 대화 레벨의 일관성에 바람직하지만 보다 급격하고 보다 인지가능한 이득 변화를 초래한다. 유사하게, 연장된 시간 기간 동안 제한을 수행하는 것은 하나의 문제를 개선시키지만 다른 문제를 악화시킨다. 그리하여, 개선된 다운믹싱 기술이 요구된다.
종래기술과 연관된 문제 중 하나 이상을 극복하거나, 완화하거나 적어도 경감하기 위하여, 본 발명의 목적은 음향 심리학적으로 덜 눈에 띄는 방식으로 오디오 스트림을 다운믹싱하는 기술을 제공하는 것이다. 본 발명의 특정 목적은 출력 신호(들)를 클립핑하는 것을 회피하면서 일관된 대화 레벨을 가능하게 하는 다운믹싱 기술을 제공하는 것이다. 본 발명의 다른 특정 목적은 이들 일반적인 특성을 가지면서 오디오의 동적, 시간적 및/또는 공간적 특성을 보존하는데 적합한 다운믹싱 기술을 제공하는 것이다.
본 발명은 독립 청구항에 따른 방법, 믹싱 시스템 및 컴퓨터 프로그램 제품을 제공하는 것에 의해 이들 목적 중 적어도 하나를 달성한다. 종속 청구항은 본 발명의 유리한 실시예를 한정한다.
제1 측면에서, 본 발명은 입력 데이터를 운반하는 복수의 입력 오디오 신호를 적어도 하나의 출력 오디오 신호로 다운믹싱하는 방법을 제공한다. 본 방법의 믹싱 특성은 최대 다운믹싱 계수, 출력 오디오 신호(들)에 대한 적어도 하나의 범위내 조건, 및 서브그룹으로 입력 신호의 분할에 좌우된다. 본 방법은 범위내 조건(들)을 만족시키기 위하여 일반적인 제한 인수에 의해 동일한 서브 그룹에 속하는 모든 최대 다운믹싱 계수를 다운스케일링하는 것에 의해 최대 다운믹싱 계수로부터 다운믹싱 계수를 유도하는 단계를 포함한다. 이렇게 유도된 다운믹싱 계수는 입력 신호를 다운믹싱하기에 적합하다.
제2 측면에서, 본 발명은 제1 측면의 방법을 수행하도록 적응된 믹싱 시스템을 제공한다. 제3 측면에서, 본 발명은 프로그래밍가능한 컴퓨터로 하여금 제1 측면의 방법을 수행하게 하는 컴퓨터 프로그램 제품을 제공한다.
본 발명은 일반적인 제한 인수가 적어도 2개의 서브 그룹 중에서 하나의 서브그룹으로 입력 신호의 기여도를 제어하는 모든 다운믹싱 계수에 적용되는 것을 개시한다. 이에 의하여 상이한 입력 신호를 상이한 정도로 제한할 때, 상대적으로 더 인식가능한 신호가 상대적으로 덜 제한될 수 있다. 이것은 이득 제한을 가지거나 없이 신호 부분들 사이에 이산 전이와 일관된 대화 레벨을 결합하는 것을 더 용이하게 한다.
첨부된 청구범위에서, 각 신호는 아날로그(연속적인 값) 또는 디지털(이산적인 값)일 수 있는 것이 주목된다. "서브그룹"은 하나의 입력 신호 또는 여러 입력 신호를 포함할 수 있다. 신호에서 "범위 내 조건(in-range condition)"은 신호에 대한 상한(upper bound), 신호에 대한 하한(lower bound), 또는 하한과 상한을 가지는 구간에 있도록 신호에 대한 요구조건을 말할 수 있다. 범위내 조건은 특정 시간 세그먼트, 시간 세그먼트 세트에 적용될 수 있으며 또는 제한없이 전체 신호에 적용되는 전체적일 수 있다. "범위내 조건"과 "비-클립 조건(non-clip condition)"이라는 용어는 본 명세서에서 상호 교환가능하게 사용될 수 있고, 마찬가지로 "제한 인수"와 "이득 제한 인수"라는 용어도 그러한 것으로 이해된다. 각 서브그룹에 대해 제한 인수는 입력 신호 그 자체에 할당된 최대 다운믹싱 계수에뿐만 아니라 입력 신호에 의해 운반되는 입력 데이터에 기초하여 결정된다. 마지막으로, 다운믹싱 동작 그 자체, 즉, 출력 신호를 얻기 위해 입력 신호들을 선형 결합하는 것은 이 기술 분야에서 그 자체가 알려져 있는 기술에 의해 수행될 수 있다는 것이 주목된다.
적용되는 비국부적인 범위 내 조건, 비국부적인 평활한 공정(하기 참조), 또는 유사한 조치를 제외하고는, 본 발명은 실시간 및 오프라인 실시예, 예를 들어, 파일마다 처리하는 것을 포함한다.
일 실시예에서, 적어도 하나의 서브그룹은 2개 이상의 입력 신호를 포함한다. 일반적인 제한 인수가 모두 이들 입력 신호에 대해 다운믹싱 계수를 다운스케일링하는데 사용되므로, 여러 입력 신호들 사이에 상당한 관계는 다운믹싱 하에서 보존될 수 있다. 그리하여, 입력 신호에 의해 운반되는 인식된 동적, 시간적, 음색적적, 및/또는 공간적 표현은 전체적으로 이 실시예에 따라 다운믹싱하는 것에 의해 제한된 정도로만 영향을 받는다.
이전 실시예의 추가 개선예에서, 입력 신호는 좌측 채널과 채널; 좌측 채널, 중심 채널 및 우측 채널; 좌측 및 우측 광역 채널; 좌측 및 우측 중심 채널; 및 좌측, 중심 및 우측 사라운드 채널과 같은 공간적으로 관련된 오디오 채널에 대응한다.
일 실시예에서, 다운믹싱 계수는 가능한 한 크게 유지된다. 이것은 일관된 대화 레벨에 바람직하다. 예를 들어, 범위내 조건이 엄격하지 않은 불균형(inequality)인 경우, 제한 인수는 상한 값(또는 '샤프한' 값 또는 '타이트한' 값 또는 '정확한' 값), 즉, 범위내 조건에서 균형을 산출하는 값과 같거나 이에 근접하게 설정될 수 있다. 바람직하게는, 다운믹싱 계수는 상한으로부터 결정된 값으로부터 20%를 초과하여 상이하여서는 안되고, 보다 바람직하게는 10%를 초과하여 상이하여서는 안되며, 가장 바람직하게는 5%를 초과하여 상이하여서는 안 된다. 다운믹싱 계수의 평활화(하기 참조)를 더 포함하는 실시예에서, 평활화 전에 다운믹싱 계수가 가지는 값에 상기 조건들 중 하나를 부과하는 것이 바람직하다.
일 실시예에서, 출력 신호는 시간 세그먼트로 분할된다. 이 시간 세그먼트는 동일하거나 동일하지 않은 길이를 가질 수 있고, 이 세그먼트는 아날로그 데이터의 샘플링, 신호의 변환 기반 처리의 결과일 수 있거나 또는 일부 유사한 공정으로부터 초래될 수 있다. 시간 세그먼트는 다수의 샘플로 구성될 수 있다. 대안적으로, 시간 세그먼트는 다수의 블록으로 구성될 수 있고, 각 블록은 다수의 샘플을 포함한다. 입력 신호는 유사하거나 상이한 시간 세그먼트로 분할될 수 있거나 분할되지 않을 수 있다. 이 실시예에 따른 방법은 이 시간 세그먼트에 관한 입력 데이터를 감안하여 별도로 각 시간 세그먼트에서 범위내 조건을 만족시킬 것을 시도할 수 있다. 본 방법은 모든 시간 세그먼트에 또는 일부 시간 세그먼트에 범위내 조건을 만족시키도록 구성될 수 있다. 입력 신호를 느리게 변경하기 위하여, 후자의 옵션은 모든 시간 세그먼트가 고려될 필요는 없으므로 제한된 품질 감소로 연산 부하를 감소시킬 수 있다.
여러 출력 신호로 다운믹싱하는 것을 제공하기에 적합한 변형예에서, 본 방법은 별개의 시간 세그먼트에서 그러나 공동으로 모든 출력 신호에 대해 범위내 조건을 만족시키도록 구성될 수 있다. 이것은 출력 신호의 인식된 공간 균형을 보존할 수 있다.
시간 세그먼트로 분할된 출력 신호를 제공하는 실시예는 평활화(또는 조절)와 유리하게 결합될 수 있다. 일례로서, 상이한 시간 세그먼트에 대해 얻어진 특정 다운믹싱 계수의 값은 (시간) 시퀀스로 처리될 수 있고 평활화 동작을 받을 수 있다. 평활화된 다운믹싱 계수가 비평활화된 다운믹싱 계수 대신에 다운믹싱 동작에 사용될 수 있다. 하나 또는 여러 선택된 다운믹싱 계수 또는 모든 다운믹싱 계수는 평활화를 받을 수 있으며; 이들 공정은 서로 병렬로 동작할 수 있다. 이 기술 분야에 통상의 지식을 가진 자라면 특정 서브그룹에 대해 제한 인수를 평활화하는 것이 이 서브그룹 내 입력 신호에 작용하는 다운믹싱 계수를 평활화한 것과 동일한 결과를 산출하는 것을 구현할 수 있을 것이므로; 이들 두 접근법은 본 발명의 범위 내에 있지만 본 명세서에서는 상세히 설명될 필요가 없다.
평활화는 이 기술 분야에 그 자체로 알려진 임의의 적절한 공정에 의해 수행될 수 있다. 바람직하게는 평활화는 변화율에 대한 상한에 의해 지배된다. 이런 방식으로 평활화 후에 세그먼트 방식의 값의 시퀀스의 분리된 값이 급격한 변화를 회피하기 위하여 적절히 변하는 값의 다운 방향 및 업 방향 기울기(ramp)에 의해 둘러싸일 수 있다. 이 기울기는 dB 스케일과 같은 선형 또는 로그 스케일(logarithmic scale)에서의 일관된 증가 또는 감소에 의해 특징지어질 수 있다. 그리하여, 증가 또는 감소율(절대값으로)이 너무 크지 않도록 평활화된 다운믹싱 계수를 획득하기 위하여 다운믹싱 계수 값을 조절하는 것에 의해, 다운믹싱된 신호의 이득 제한된 부분과 비제한된 부분 사이에 점진적이고 그리하여 덜 인식되는 전이들이 획득될 수 있다. 다른 바람직한 옵션은 원래의 값을 감소시키거나 유지하는 것에 의해 다운믹싱 계수를 조절하는 것에 의해 평활화를 수행하는 것이다. 원래의 다운믹싱 계수를 증가시키는 것은 범위내 조건이 더 이상 만족되지 않을 수 있으므로 회피되어야 한다.
일 실시예에서, 입력 신호의 적어도 하나의 서브 그룹이 이 서브그룹 내 입력 신호에 작용하는 다운믹싱 계수를 결정하는데 사용되는 제한 인수에 대한 하한과 연관된다. 이 하한은 본 발명의 이 실시예가 하한을 초과하는 해법만을 찾는 것에 의해 출력 신호에 대해 범위내 조건을 만족시키려는 시도를 한다는 점에서 선험적 한계이다. 이것은 관련 서브그룹으로부터 기여도가 임의로 작게 되지 않는 것을 보장한다.
이전 실시예의 다른 개선예에서, 제1 및 제2 서브그룹(primary and secondary subgroup)은 각 제한 인수에 대한 다른 하한(선험적)과 연관된다. 제1 서브그룹과 연관된 하한은 제2 서브그룹과 연관된 하한 이상이다. 이것은 서브 그룹들 사이에 상대적 균형을 한정하는데 사용될 수 있다. 예를 들어, 제1 서브그룹은 제2 서브그룹보다 상대적으로 더 큰 음향 심리학적 중요성이 주어질 수 있다.
다른 실시예에서, 범위내 조건을 만족시키는 제한 인수값에 대한 검색은 제1 그룹에 바람직하도록 구성될 수 있다. 특히, 이 실시예에 따른 방법은 범위내 조건을 만족시키는 제한 인수값을 검색하도록 구성될 수 있으며, 여기서 제1 서브그룹 제한 인수는 제1 서브그룹에 대한 제한 인수에 대한 상한이거나 이에 근접하다.
이전 실시예에 대한 변형예에서, 상한 및 하한은 제1 서브그룹과 제2 서브그룹에 대한 각 제한 인수에 대해 한정될 수 있다. 이 실시예에 따른 방법은 초기에 상한과 같은 제1 서브그룹 제한 인수를 포함하는 해법을 찾도록 구성된다. 제2 서브그룹 제한 인수는 상한 및 하한 사이에서 변한다. 이때, 범위내 조건에 대한 해법이 발견되지 않으면, 본 방법은 하한과 같은 제2 서브그룹 제한 인수를 포함하는 해법을 찾는다. 제1 서브그룹 제한 인수는 상한과 하한 사이에서 변한다. 달리 말하면, 본 방법은 초기에는 제한 인수를 최대 값(일관된 대화 레벨을 최상으로 보존할 수 있는)으로 설정하고, 이후 범위내 조건이 만족되는 한 쌍의 제한 인수가 발견될 때까지 선택적인 방식으로 이를 감소시킨다. 선택적인 감소는 초기에는 제2 서브그룹 제한 인수를 하한으로 감소시키고, 이후 필요한 경우, 제1 서브그룹 제한 인수를 감소시키는 것을 포함한다. 유리하게는 이것은 인식적으로 보다 중요한 것으로 한정될 수 있는 제1 채널(primary channel)이 이득 제한에 의해 가능한 한 적게 영향을 받는 것을 보장한다.
제1 및 제2 서브그룹이 구별되는 상기 실시예를 참조하면, 제1 서브그룹은 음향 심리학적 관점으로부터 보다 중요한 채널에 대응하는 신호를 포함할 수 있다. 이들은 청취자 앞 절반 공간에 위치된 오디오 소스에 의해 재생되도록 의도된 채널을 포함하며; 제2 그룹은 나머지 채널, 구체적으로 청취자 뒤쪽 또는 측면에서 재생되도록 의도된 것을 수집할 수 있다. 다른 모델에 의하여, 제1 채널은 청취자(또는 청취자의 귀)와 실질적으로 동일한 높이에 위치되고 및/또는 실질적으로 수평으로 전파하는 오디오 소스에 의해 재생되도록 의도된 것일 수 있고; 제2 그룹은 다른 높이에서 재생하고 및/또는 비수평적으로 전파하기 위해 나머지 채널을 포함할 수 있다. 더 다른 옵션으로, 제1 서브그룹은 전방 절반 공간에서 재생되는 채널로 구성되고 청취자와 실질적으로 동일한 높이에 있을 수 있다.
일 실시예에서, 서브그룹 중 적어도 하나는 이 서브그룹에 대한 제한 인수에 대한 상한과 연관된다. 여러 서브그룹이 제한 인수에 대한 상한이 할당되고 본 방법은 해법으로 가능한 최대 제한 인수 값을 검색하도록 구성된 실시예에서, 상한인 제한 인수를 결합하는 것은 허용가능한 해법이다. 이 상황에서, 상이한 서브그룹으로부터 오는 입력 신호들 사이에 미리 한정된 최대 다운믹싱 계수로 표현된 비율이 다운믹싱 하에서 보존되도록 상한을 동일한 것으로 설정하는 것이 바람직하다.
일 실시예는 공간적으로 관련된 채널에 대응하는 적어도 2개의 출력 오디오 신호를 제공하도록 구성된다. 이 공간적으로 관련된 채널은 다음 채널 그룹, 즉, 전방 채널, 서라운드 채널, 후방 서라운드 채널, 직접 서라운드 채널, 광역 채널, 중심 채널, 측면 채널, 높은 채널, 수직 높은 채널 또는 이들의 결합 중 하나에 속할 수 있다. 본 발명은 공동으로 모든 출력 채널에 대한 범위내 조건을 만족시키기 위하여 각 서브그룹에 대해 하나의 제한 인수를 유도하는 것을 개시한다. 이것은 입력 신호의 인식된 공간 균형을 출력 신호의 대응하는 균형으로 변환할 수 있고, 이에 따라 오디오 소스의 인식된 위치의 원치않는 드리프트 및 유사한 문제를 회피할 수 있다. 하나의 특정 실시예에서, 공통 제한 인수를 결정하는 것은 2개의 서브 단계에서 일어날 수 있다. 첫째, 다운믹싱 계수는 관련된 서브그룹 내 입력 신호로부터 유도된 (공간적으로 관련된) 출력 신호 각각에 대한 범위내 조건을 만족시키는, 최대 다운믹싱 계수와 예비 제한 인수의 곱으로 결정된다. 둘째, 이 서브그룹에 적용되는 제한 인수는 제1 서브단계에서 상기 출력 신호에 대해 유도된 모든 예비 제한 인수의 최소값을 추출하는 것에 의해 획득된다.
일 실시예에서, 인코딩 시스템은 복수의 오디오 신호를 수신하고, 이를 본 발명에 따라 적어도 하나의 다운믹싱 신호로 다운믹싱하고, 비트 스트림으로 다운믹싱 신호(들)를 인코딩하도록 적응된다.
일 실시예에서, 디코딩 시스템은 본 발명에 따라 생성된 다운믹싱 사양과 오디오 신호를 인코딩하는 비트스트림을 수신하도록 적응된다. 다운믹싱 사양은 다운믹싱 계수 및/또는 서브 그룹으로의 신호의 분할을 포함할 수 있다. 디코더는 예를 들어 다운믹싱 계수를 적용하는 것에 의해 다운믹싱 사양에 따라 오디오 신호를 적어도 하나의 다운믹싱 신호로 다운믹싱하도록 더 적응된다.
일 실시예에서, 디코딩 시스템은 입력 포트, 디코더, 및 믹서를 포함할 수 있다. 디코딩 시스템은 본 발명에 따라 생성된 사양에 따라 신호를 디코딩하고 다운믹싱하도록 적응된다. 전술한 바와 같이, 본 발명은 신호의 각 서브그룹 내에 공통인 배수 제한 인수에 의해 범위 내 조건을 만족시키기 위하여 다운믹싱 게수를 다운스케일링하는 것을 개시한다. 이것은 하나의 서브그룹 내 신호에 적용되는 계수의 비는 일정한 반면, 다른 서브그룹 내 신호에 적용되는 계수의 비는 가변적이라는 것을 의미한다. 여기서, "일정"과 "가변"이라는 용어는 다운믹싱 계수의 상이한 세트 사이에 가능한 변경을 말한다. 예를 들어, 다운믹싱 계수의 하나의 세트는 각 시간 세그먼트에 대해 계산될 수 있다. 그러나, 본 발명이 개시하는 바와 같이, 다운믹싱 시스템은 이 세트 내 다운믹싱 계수들 사이 특정 비를 보존한다. 비 중 일부는 가변적이므로, 디코딩 시스템은 (예를 들어 제1 서브그룹에 있는) 상대적으로 더 인식가능한 신호를 상대적으로 덜 제한하도록 적응될 수 있다. 이것은 이득 제한을 가지거나 없이 신호 부분들 사이에 이산 전이와 일관된 대화 레벨을 결합하는 것을 더 용이하게 한다. 서브 그룹이 2개 이상의 신호를 포함하는 경우, 디코딩 시스템은 결합된 디코딩 및 다운믹싱 하에서 이들 신호들 사이에 중요한 관계를 보존할 수 있으며, 이에 입력 신호에 의해 전달되는 인식된 동적, 시간적, 음색적 및/또는 공간적 영향이 전체적으로 작은 정도로만 영향을 미칠 수 있게 된다.
본 발명은 청구범위에 언급된 특징의 모든 가능한 조합에 관한 것이라는 것이 주목된다.
본 발명은 이제 첨부 도면을 참조하여 보다 상세히 설명된다.
도 1은 일 실시예에 따라 믹싱 시스템의 일부의 일반화된 블록도;
도 2는 일 실시예에 따라 제1 및 제2 서브그룹에 대한 믹싱 요소의 선택을 도시한 그래프;
도 3은 일 실시예에 따라 최대 다운믹싱 계수에 기초하여 제한 인수에 대한 허용가능한 구간의 선택을 도시한 2개의 그래프;
도 4는 일 실시예에 따라 믹싱 시스템의 일반화된 블록도;
도 5는 일 실시예의 일부를 형성하는 평활화 공정을 도시한 도면.
도 1은 본 발명의 일 실시예에 따른 믹싱 시스템(100)의 일부를 도시한다. 본 시스템(100)은 k번째 출력 신호에 대해 이하 범위내 조건을 만족시키도록 적응된다:
Figure 112013040026987-pct00006
(5)
제1 곱셈기(101)와 합산기(103)는 1번째, 2번째 및 4번째 입력 신호에 기초하여 k번째 출력 신호를 다음과 같이 연산한다:
yk = αk1x1 + αk2x2 + αk4x4
여기서 αk1, αk2, αk4는 제한이 없을 때 입력 신호의 상대적 가중치를 결정하는 미리 한정된 최대 다운믹싱 계수이다. 미리 한정된 분할에 의하여, 1번째 및 4번째 입력 신호는 제1 서브그룹에 속하는 반면, 2번째 및 3번째 입력 신호는 제2 서브그룹에 속한다. 서브그룹으로 이러한 분할을 감안하여, 제어기(104)는 다음 수식 6에서 제한 인수(
Figure 112013040026987-pct00007
1,
Figure 112013040026987-pct00008
2 > 0)의 값을 선택하는 것에 의해 범위내 조건(5)을 만족시키는 시도를 한다:
yk =
Figure 112013040026987-pct00009
1k1x1 + αk4x4) +
Figure 112013040026987-pct00010
2 αk2 x2 (6)
도 1을 참조하면, 제2 곱셈기(102)는 입력 신호에 제한 인수(
Figure 112013040026987-pct00011
1,
Figure 112013040026987-pct00012
2)를 적용한다. 제어기(104)는 출력 신호(yk)의 값에 응답하여 제한 인수(
Figure 112013040026987-pct00013
1,
Figure 112013040026987-pct00014
2)의 값을 선택한다.
이제 전술한 전체 믹싱 시스템(100)을 참조하면, 다운믹싱에서 입력 신호를 제한하는 동작은 매트릭스 표기로 다음과 같이 표현될 수 있다. 제한 없는 다운믹싱은 관계 Y=AX를 따르며, 여기서 X, Y는 입력 및 출력 신호 벡터이고,
Figure 112013040026987-pct00015
제한이 있는 다운믹싱은 다음 수식, 즉,
Y = (
Figure 112013040026987-pct00016
1A1 +
Figure 112013040026987-pct00017
2A2)X
를 따르고,
여기서
Figure 112013040026987-pct00018
Figure 112013040026987-pct00019
이다.
명백히, 범위내 조건(Y≤
Figure 112013040026987-pct00020
,
Figure 112013040026987-pct00021
≤Y, 및
Figure 112013040026987-pct00022
≤Y≤
Figure 112013040026987-pct00023
)(여기서
Figure 112013040026987-pct00024
,
Figure 112013040026987-pct00025
는 상수 벡터이다) 중 하나를 부과하면, 제한 인수(
Figure 112013040026987-pct00026
1,
Figure 112013040026987-pct00027
2)는 모든 출력 신호에 대한 범위내 조건이 공동으로 만족될 만큼 충분히 작게 선택된다.
본 발명에 따른 이득 제한은 상기 서브그룹을 상이하게 처리하는 것에 의해 덜 인식되게 만들어질 수 있다. 제1 서브그룹{y1, y4}은 제1 서브그룹으로 처리될 수 있는 반면, 제2 서브그룹{y2, y3}은 제2 서브그룹으로 처리될 수 있다. 예를 들어, 제1 서브그룹에서 신호는 제1 음향 심리학적 중요성이 있는 전방 좌측과 전방 우측 신호에 대응할 수 있다. 제2 서브그룹에서 신호는 비 전방 오디오 소스에 의해 재생되도록 의도되어 중요성이 낮은 서라운드 좌측 및 서라운드 우측에 대응할 수 있다.
2개의 서브 그룹의 불균일한 중요성을 반영하기 위하여, 이 실시예에 따른 믹싱 시스템(100)은 구간(L1
Figure 112013040026987-pct00028
1≤U1)으로부터 제1 제한 인수(primary limiting factor)를 선택하고 구간(L2
Figure 112013040026987-pct00029
2≤U2)으로부터 제2 제한 인수를 선택할 수 있다. 적절하게는 L1, L2 > 0.
이것은 이제 최대 다운믹싱 계수로 표현된 믹싱 비율을 보존하는 상한이 가능한 경우 동일한 것, 즉, U1=U2=1인 것으로 가정한 일례를 들어 설명된다. 또한
Figure 112013040026987-pct00030
인 것으로 가정한다.
명백히, 수식 6에서 αk1x1 + αk4x4 = 0.5이고 αk2x2=0.4인 상황에서, 이득 제한은 필요치 않아서 제한 인수는 (
Figure 112013040026987-pct00031
1,
Figure 112013040026987-pct00032
2)=(1,1)로 설정될 수 있고 범위내 조건을 여전히 만족시킬 수 있으며, 즉, 최대 다운믹싱 계수는 다운믹싱 계수로 적용된다.
이제, 수식 6에서 αk1x1 + αk4x4=0.8이고 αk2x2=0.4인 경우, 범위내 조건(
Figure 112013040026987-pct00033
)은 도 2에 도시된 바와 같이, (L1, L2), (1, L2), (1, 1/2), (3/4, 1) 및 (L1, 1)에서 코너에 오각형 영역 내에 제한 인수 쌍(
Figure 112013040026987-pct00034
1,
Figure 112013040026987-pct00035
2)으로 만족된다. 이미 언급된 이유 때문에 이득은 바람직하게는 필요한 것보다 더 제한되지 않는 것이 바람직하며 이에 따라 시스템(100)은 바람직하게는 (1, 1/2)와 (3/4, 1) 사이에 에지 세그먼트로부터 제한 인수를 선택하는 것에 의해 상한(또는 '샤프한') 해법(yk=1)을 찾는 시도를 한다. 또한, 제1 입력 채널이 아니라 제2 입력 채널을 제한하는 것이 유리하며 이것은 이 세그먼트에 대해 우측 극단(최고
Figure 112013040026987-pct00036
1)에서 한 쌍의 제한 인수를 선택하는 것을 변환한다. 이것은 해법(
Figure 112013040026987-pct00037
1,
Figure 112013040026987-pct00038
2)=(1, 1/2)을 초래하며, k번째 출력 신호는 다음 수식, 즉,
Figure 112013040026987-pct00039
로 주어진다.
그러나, L2 > 1/2이면, 제1 제한 인수(
Figure 112013040026987-pct00040
1)는 상한(U1=1) 미만일 필요가 있다. 제2 서브그룹에 비해 제1 서브그룹을 최대한 선호하기 위해 제한 인수의 바람직한 선택은
Figure 112013040026987-pct00041
이다.
시스템(100)이 이전 단락의 예에서 설명된 것과 상이한 방법으로 제한 인수를 검색하도록 구성된 이 실시예의 변형에서, 제1 서브그룹은 제2 서브그룹보다 더 큰 하한과 연관된 것, 즉, L1 > L2에 의해 유리할 수 있다.
일 실시예에서, 믹싱 시스템(100)은 최대 다운믹싱 계수에 기초하여 제한 인수에 대한 적절한 상한 및 하한을 결정할 수 있다. 범위내 조건이 -1≤Y≤1인 경우, 수 W≤1가 제공되고 한계는 다음 형태로 쓰여진다:
L1= mpW, L2= msW, U1= U2= W (7)
이 실시예는
Figure 112013040026987-pct00042
(8)
을 사용하며, 여기서 P는 제1 서브그룹 내 신호에 적용된 다운믹싱 계수의 절대값의 합이고, S는 제2 서브그룹 내 신호에 적용된 다운믹싱 계수의 절대값의 합이다. 상수 값 0<Q<1을 가변시키는 것에 의해, 제1 신호가 아니라 제2 신호를 제한하려는 시스템(100)의 경향이 더 또는 덜 표현되게 만들어질 수 있다. 전술한 예에서,
Figure 112013040026987-pct00043
이고
Figure 112013040026987-pct00044
이다.
도 3a 및 도 3b에서, 도트 영역은 다음 이중 부등식을 만족시키는 제한 인수의 선택(
Figure 112013040026987-pct00045
1,
Figure 112013040026987-pct00046
2)을 나타낸다:
-1 ≤ W(mpP + msS) ≤ 1
이것은 상기 범위내 조건이 다운믹싱 계수와 동일한 부호와 단위 크기를 가지는, 즉, 일부 k에 대해서는 모든 ℓ에 대해
Figure 112013040026987-pct00047
또는 모든 ℓ에 대해
Figure 112013040026987-pct00048
을 가지는 모든 입력 신호의 최악의 상황에 해당하는 것이다. 해쉬 서브 영역(hashed sub-area)은 제1 신호가 제2 신호보다 덜 제한되는 제한 인수의 선택을 나타낸다. 수식 7, 8에서 하한은 최악의 경우에 범위내 조건이 바로 만족되는(즉, '샤프하게' 만족되는) 제한 값의 선택을 나타낸다. 예시를 위하여, 상수 Q는 1/2로 설정되었다. 이 실시예는 제한 인수가 이 값보다 더 작게 선택될 필요가 없다는 구현에 기초한다. 이 예시적인 실시예를 이해하면, 이 기술 분야에 통상의 지식을 가진 자라면 -1 ≤ Y ≤ 1과는 다른 범위내 조건으로 이를 생성할 수 있을 것이다.
도 4는 8개의 오디오 채널을 2개의 채널로 다운믹싱하는 믹싱 시스템(400)을 도시한다. 시스템(400)은 구성부(420), 제어기(이득 제한부)(440) 및 믹싱부(460)를 포함하는 3층 구조를 구비한다. 구성부(420)는 시스템(400)의 특성을 구성하는 파라미터에 기초하여 제한 인수에 적절한 구간을 결정하도록 적응된다. 제한 제어기(440)는 구성부(420)에 의해 공급되는 구간에 기초하여 그리고 또한 믹싱부(460)에 의해 공급되는 특정 입력 데이터에 기초하여 믹싱부(460)에 의해 적용될 다운믹싱 계수의 값을 결정하도록 적응된다. 믹싱부(460)는 입력 오디오 신호의 벡터(X = [L8 R8 C LFE Ls Rs Lrs Rrs]T)를 수신하고 이를 믹서(462)에 의하여 다운믹싱 계수를 사용하여 출력 오디오 신호의 벡터(Y = [L R]T)로 다운믹싱하도록 적응된다.
믹싱 시스템(400)은 시간 세그먼트로 분할된 신호를 처리하도록 적응된다. 일례로서, 신호는 본 명세서에 참조 문헌으로 병합된 J.R. Stuart 등의 논문 "MLPlosslesscompression" (Meridian Audio Ltd., Huntingdon, England)에 설명된 디지털 분배 포맷에 부합할 수 있다. 이 분배 포맷에서, 블록(또는 액세스 유닛)은 40개 내지 160개의 샘플 사이에 형성되고 패킷(재시작 구간에 대응하는)은 고정된 개수의 블록으로 형성된다. 128개의 블록으로 구성되고 재시작 헤더를 포함하는 패킷은 이 예를 위하여 시간 세그먼트로 간주될 수 있다.
구성부(420)는, 최대 다운믹싱 계수의 매트릭스, 즉,
Figure 112013040026987-pct00049
를 수신하고,
입력 신호를 제1 서브그룹(청취자의 전방에 및 대략 귀 레벨에서 재생하도록 의도된 L8, R8, C)과 제2 서브그룹(Ls, Rs, Lrs, Rrs)으로의 분할을 한정하는 마스킹 매트릭스, 즉,
Figure 112013040026987-pct00050
Figure 112013040026987-pct00051
를 수신하는 유닛(421)을 포함한다. 저주파수 영향(LFE) 채널만을 포함하는 제3 서브그룹은 이 믹싱 시스템(400)에서 임의의 출력 신호에 기여하지 않는다. 수신 유닛(421)은 전술한 수(P, S)를 연산하고 마스킹 믹싱 매트릭스를 형성한다.
Figure 112013040026987-pct00052
여기서 ·는 요소별(또는 아다마드(Hadamard)) 매트릭스 곱을 나타낸다. 최대 다운믹싱 계수는 대칭이므로, 이 수는 다음과 같다:
P = 1 + 10-3/20 및 S = 1 + 1 = 2.
구성부(420)는 제1 및 제2 서브그룹을 위한 각 제한 인수에 대해 상한과 하한을 연산하는 유닛(423, 424, 434)을 더 포함한다. 제1 유닛(423)은 적용되는 범위내 조건을 결정하는 파라미터(maxaudio)의 값, 수신 유닛(421)으로부터 획득된 P, S의 값에 기초하여 및 제1 및 제2 제한 인수에 대해 공통 상한(W)에 기초하여 중간 값, 즉,
Figure 112013040026987-pct00053
을 결정한다. 상한(mW)의 값은 시스템(400)에 구성 파라미터로서 제1 유닛(423)에 직접 공급될 수 있다. 이것은 또한 도 4에 도시된 바와 같이 대화 크기 값(dialogue norm value)에 기초하여 상한(W)을 계산하는 변환기(422)에 의해 공급될 수 있고; 예시적인 예로서, 상한은 다음 관계식, 즉,
Figure 112013040026987-pct00054
으로 주어질 수 있으며, 여기서 dialnorm8ch는 오디오의 8 채널 입력 표현에 속한 대화 크기를 나타내고, dialnorm2ch는 2채널 출력 표현에서 원하는 대화 크기이다. 상한과 하한의 계산으로 되돌아가면, 제2 유닛(424)은
Figure 112013040026987-pct00055
에 기초하여 수식 8에 의해 주어진 변수 mp, ms를 평가하도록 적응된다. 마지막으로, 제3 및 제4 유닛(425, 426)은 mp, W, 및 ms, W를 각각 수신하고, 수식 7을 사용하여 제한 인수에 대해 제1 및 제2 상한 및 하한을 유도하도록 적응된다.
이제 제어기(440)를 참조하면, 출력 채널(L)은 파라미터(maxaudio)에 의해 한정된 범위내 조건을 만족시키기 위하여 제1 및 제2 제한 인수(
Figure 112013040026987-pct00056
PL,
Figure 112013040026987-pct00057
SL)가 가질 필요가 있는 값을 결정하기 위한 연관된 제한기(442)를 구비한다. 제한기(442)는 한번에 하나의 시간 세그먼트에 대한 값을 결정하고, 전술한 방식으로 이를 수행하도록 구성될 수 있어서, 제2 입력 신호에 비해 제1 입력 신호에 유리하게 한다. 주어진 시간 세그먼트에서, 제한기(442)는 범위내 파라미터(maxaudio)에, 제한기(442)가 제한 인수(
Figure 112013040026987-pct00058
1,
Figure 112013040026987-pct00059
2)를 선택하도록 허용된 구간([L1, U1], [L2, U2])에, 그리고 시간 세그먼트에 대한 입력 신호 데이터에 기초하여 결정을 한다. 이 실시예에서, 입력 데이터는 다음 수식에 의해 주어지는 신호(L2P, L2S)의 형태로 예비 믹서(441)로부터 제한기(442)로 공급된다:
Figure 112013040026987-pct00060
예비 믹서(441)는 입력 신호(X) 또는 가능하게는 L2P, L2R, R2P, R2S를 연산하는데 충분한 서브세트(예를 들어, LFE를 포함하지 않는)를 획득하기 위하여 입력 포트(461)에 통신가능하게 연결된다. 다른 출력 채널(R)에 대한 제한기(443)는 L2P, L2S 대신에 신호(R2P, R2S)를 수신하고
Figure 112013040026987-pct00061
PR,
Figure 112013040026987-pct00062
SR을 출력하는 것을 제외하고는 L 제한기(442)와 유사한 방식으로 구성된다.
이후, 출력 채널로 가는 입력 채널들 사이에 균형을 복구하기 위하여, 좌측 및 우측 제1 제한 인수(
Figure 112013040026987-pct00063
PL,
Figure 112013040026987-pct00064
PR)는
Figure 112013040026987-pct00065
P = min{
Figure 112013040026987-pct00066
PL,
Figure 112013040026987-pct00067
PR}를 리턴하도록 적응된 최소 추출기(444)에 공급된다. 유사하게, 좌측 및 우측 제2 제한 인수(
Figure 112013040026987-pct00068
SL,
Figure 112013040026987-pct00069
SR)는
Figure 112013040026987-pct00070
S = min{
Figure 112013040026987-pct00071
SL,
Figure 112013040026987-pct00072
SR}를 출력하도록 구성된 다른 최소 추출기(445)에 공급된다.
이 실시예에서, 제1 및 제2 제한 인수{
Figure 112013040026987-pct00073
P(n),
Figure 112013040026987-pct00074
S(n)}(여기서 n 은 시간 세그먼트 지수이다)의 시간 시퀀스를 평활화하는 것은 제한 인수의 평활화된 시퀀스{
Figure 112013040026987-pct00075
}를 리턴하는 조절기(446, 447)에 의해 수행된다. 조절기(446, 447)의 기능은 하기에 보다 상세히 설명된다. 이 실시예에서, 조절기(446, 447)는 각 버퍼(448, 449)에 의해 지원되고 이는 조절기(446, 447)로 하여금 현재 것보다 더 많은 제한 인수의 값에 작용하게 한다. 버퍼(448, 449)는 시프트 레지스터로서 구현될 수 있다.
제어기(440)에 의해 수행되는 최종 단계로서, 곱셈기(450, 451)와 합산기(452)는 평활화된 제한 인수와 마스킹된 믹싱 매트릭스를 사용하여 n 번째 시간 세그먼트에 적용될 이하 다운믹싱 매트릭스를 연산한다:
Figure 112013040026987-pct00076
전술한 바와 같이, 믹싱부(460)는 입력 신호(X)를 수신하고 이를 예미 믹서(441)에 공급하는 입력 포트(461)를 포함한다. 입력 포트(461)는 입력 신호(X)를 믹서(461)에 더 제공하고 믹서(461)는 다운믹싱 매트릭스를 수신하고 다음 수식을 평가하도록 적응된다:
Figure 112013040026987-pct00077
.
도 5는 조절기(446, 447) 중 하나 또는 둘 모두에 의해 제공되는 평활화의 일례를 도시한다. 평활화 전(상부 곡선)과 평활화 후(하부 곡선) 제한 인수는 반 로그(semi-logarithmic) 다이어그램으로 도시되었다. 높은 입력 신호 값으로 야기될 수 있는 비 평활화된 값에서 샤프한 다운방향 피크는 최대(절대값) 변화율 조건이 만족되는 것을 보장하기 위하여 평활화된 값에서 넓은 피크에 대응한다. 이 예에서, 넓은 것은 양측이다. 또한, 피크의 위치와 진폭이 보존된다. 룩어헤드 필터(look-ahead filter)에 의하여 이를 달성하는 것이 가능하다. 허용가능한 변화율(Rm)[시간 세그먼트마다 신호 유닛]과 신호 크기에서 최대로 예상되는 변화(Am)[신호 유닛]에 대해 적절한 수의 탭은 (Am/Rm)이고, 룩어헤드 기간은 세그먼트 길이와 탭의 수를 곱한 것과 대략 같다. 전술한 바와 같이 평활화에서 다운믹싱 계수의 개별 세그먼트 값을 증가시키는 것에 의해 이를 조절하는 것은 바람직하지 않은데 이는 이것이 평활화에 의해 영향을 받은 시간 세그먼트에서 범위내 조건을 위반할 수 있기 때문이다.
유사한 구현에서, 조절기(446, 447)는 본 명세서에 참조 문헌으로 병합된 US3252105에서 예시된 유형의 율 제한 필터(rate-limiting filter)에 의해 실현될 수 있다. 이 필터는 제한 인수와 다운믹싱될 입력 신호의 충분한 동기성을 보장하기 위해 적절한 지연 라인과 함께 적용되는 것이 바람직하다. 도 4에 도시된 실시예에서, 지연 라인은 입력 포트(461)와 믹서(462) 사이에 배열될 수 있고 버퍼(448, 449)의 사이즈에 대응할 수 있다.
본 발명의 다른 실시예는 이 기술 분야에 통상의 지식을 가진 자라면 전술한 설명으로부터 명백하게 될 것이다. 본 설명과 도면이 실시예와 예시를 개시하는 것이지만 본 발명은 특정 예시로 제한되는 것은 아니다. 수많은 변경과 변형이 첨부 청구범위에 의해 한정된 본 발명의 범위를 벗어남이 없이 이루어질 수 있을 것이다.
전술한 시스템 및 방법은 소프트웨어, 펌웨어, 하드웨어, 또는 이들의 조합으로 구현될 수 있다. 하드웨어 구현에서, 전술한 설명에서 언급된 기능 유닛들 사이에 작업의 분할은 물리적인 유닛으로 분할하는 것에 반드시 대응하는 것은 아니며, 이와 반대로, 하나의 물리적 요소는 다수의 기능을 구비할 수 있고, 하나의 작업은 협력하여 여러 물리적 요소에 의해 수행될 수 있다. 특정 요소 또는 모든 요소는 디지털 신호 프로세서 또는 마이크로프로세서에 의해 실행되는 소프트웨어로 구현되거나 또는 하드웨어 또는 응용 특정 집적 회로로 구현될 수 있다. 이러한 소프트웨어는 컴퓨터 저장 매체(또는 비 일시적인 매체)와 통신 매체(또는 일시적인 매체)를 포함할 수 있는 컴퓨터 판독가능한 매체에서 분배될 수 있다. 이 기술 분야에 통상의 지식을 가진 자에게는 잘 알려진 바와 같이, 컴퓨터 저장 매체는 컴퓨터 판독가능한 명령, 데이터 구조, 프로그램 모듈 또는 다른 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술에서 구현되는 휘발성과 비휘발성, 이동식과 비이동식 매체를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래쉬 메모리, 또는 다른 메모리 기술, CD-ROM, DVD(digital versatile disk), 또는 다른 광학 디스크 저장매체, 자기 카세트, 자기 테이프, 자기 디스크 저장매체, 또는 다른 자기 저장 디바이스, 또는 원하는 정보를 저장하는데 사용될 수 있고 컴퓨터에 의해 액세스될 수 있는 임의의 다른 매체를 포함하나 이로 제한되는 것은 아니다. 또한, 통신 매체는 일반적으로 컴퓨터 판독가능한 명령, 데이터 구조, 프로그램 모듈, 또는 반송파 또는 다른 전송 메커니즘과 같은 변조된 데이터 신호에 있는 다른 데이터를 구현하며 임의의 정보 전달 매체를 포함한다.

Claims (51)

  1. 입력 데이터를 포함하는 복수의 입력 오디오 신호를 적어도 하나의 출력 오디오 신호로 다운믹싱하는 방법으로서,
    최대 다운믹싱 계수들이 미리 한정되고, 상기 적어도 하나의 출력 오디오 신호에 대한 적어도 하나의 범위 내 조건이 미리 한정되며, 상기 입력 오디오 신호는 미리 한정된 서브그룹으로 분할되고,
    상기 적어도 하나의 출력 오디오 신호에 대한 상기 범위 내 조건은, 상기 적어도 하나의 출력 오디오 신호에 대한 상한이거나, 상기 적어도 하나의 출력 오디오 신호에 대한 하한이거나, 상기 적어도 하나의 출력 오디오 신호가 상한과 하한을 가진 구간 내에 유지되어야 한다는 요건인, 상기 방법은:
    상기 입력 데이터를 감안하여 상기 적어도 하나의 출력 오디오 신호에 대한 범위 내 조건을 만족시키기 위하여 각 서브그룹 내에서 공통인 제한 인수와 상기 최대 다운믹싱 계수들의 곱으로 다운믹싱 계수들을 결정하는 단계; 및
    상기 복수의 입력 오디오 신호를 공간적으로 관련된 채널들에 대응하는 적어도 2개의 출력 오디오 신호로 다운믹싱하기 위해 상기 다운믹싱 계수들을 적용하는 단계를 포함하며,
    상기 다운믹싱 계수들은 상기 공간적으로 관련된 채널들에 대응하는 적어도 2개의 출력 오디오 신호 각각에 대한 범위 내 조건을 공동으로 만족시키기 위하여 모든 출력 오디오 신호와 각 서브그룹 내에서 공통인 제한 인수와 상기 최대 다운믹싱 계수들의 곱으로 결정되고,
    상기 다운믹싱 계수들을 결정하는 단계는:
    서브그룹 내 상기 입력 오디오 신호가 기여하는 출력 오디오 신호 각각에 대해 최대 다운믹싱 계수와 예비 제한 인수의 곱으로 다운믹싱 계수를 결정하는 서브 단계; 및
    상기 예비 제한 인수의 최소값을 선택하는 것에 의해 상기 서브그룹 내에서 공통인 제한 인수를 결정하는 서브 단계를 포함하는, 다운믹싱하는 방법.
  2. 제1항에 있어서, 상기 입력 오디오 신호의 서브그룹 중 적어도 하나는 2개 이상의 입력 오디오 신호를 포함하는, 다운믹싱하는 방법.
  3. 제1항에 있어서, 서브그룹 내 입력 오디오 신호는 공간적으로 관련된 오디오 채널들에 대응하는, 다운믹싱하는 방법.
  4. 제1항에 있어서, 상기 다운믹싱 계수들은 상기 범위 내 조건이 최대 20퍼센트 마진에 의해 만족되는 방식으로 결정되는, 다운믹싱하는 방법.
  5. 제1항에 있어서, 상기 출력 오디오 신호는 시간 세그먼트들로 분할되고, 다운믹싱 계수들의 세그먼트 세트(a segment-wise set of downmix coeficients)는, 시간 세그먼트 내 상기 입력 데이터를 참조하여 독립적으로 출력 신호의 상한을 만족시키기 위하여 각 서브그룹 내 공통인 제한 인수와 상기 최대 다운믹싱 계수들의 곱으로 복수의 시간 세그먼트 각각에 대해 결정되는, 다운믹싱하는 방법.
  6. 제5항에 있어서,
    다운믹싱 계수들의 세그먼트 세트(a segment-wise set of downmix coefficients)는, 하나의 시간 세그먼트 내 상기 입력 데이터를 참조하여 독립적으로, 공간적으로 관련된 채널들에 대응하는 상기 적어도 2개의 출력 오디오 신호 각각에 대해 범위 내 조건을 공동으로 만족시키기 위하여 각 서브그룹 내에 공통인 제한 인수와 상기 최대 다운믹싱 계수들의 곱으로 복수의 시간 세그먼트 각각에 대해 결정되는, 다운믹싱하는 방법.
  7. 제6항에 있어서,
    다운믹싱 계수들의 상기 세그먼트 세트들로부터 다운믹싱 계수의 세그먼트 값들의 시퀀스를 한정하는 단계;
    상기 다운믹싱 계수의 세그먼트 값들의 시퀀스를 평활화하는 단계; 및
    상기 복수의 입력 오디오 신호를 다운믹싱하기 위해 상기 평활화된 세그먼트 값들을 적용하는 단계를 포함하는, 다운믹싱하는 방법.
  8. 제7항에 있어서, 상기 세그먼트 값들의 시퀀스는 변화율의 상한을 적용하는 것에 의해 평활화되는, 다운믹싱하는 방법.
  9. 제1항에 있어서, 적어도 하나의 서브 그룹은 이 서브그룹에 대한 제한 인수의 하한과 연관된, 다운믹싱하는 방법.
  10. 제9항에 있어서, 제1 및 제2 서브그룹이 한정되고, 상기 제1 서브그룹과 연관된 상기 제한 인수에 대한 하한은 상기 제2 서브그룹과 연관된 상기 제한 인수에 대한 하한보다 더 큰, 다운믹싱하는 방법.
  11. 제1항에 있어서, 제1 및 제2 서브그룹이 미리 한정되고, 상기 제1 서브그룹은 상기 제한 인수에 대한 상한과 연관되며,
    상기 다운믹싱 계수들을 결정하는 단계는 상기 제1 서브그룹에 대한 상기 제한 인수의 값으로 상기 제1 서브그룹에 대한 상기 제한 인수의 상한을 설정하는 것을 포함하는, 다운믹싱하는 방법.
  12. 제11항에 있어서, 제1 및 제2 서브그룹은 미리 한정되고, 각각은 제한 인수에 대한 각 상한 및 각 하한과 연관되며(L1
    Figure 112014080688155-pct00108
    1≤U1, L2
    Figure 112014080688155-pct00109
    2≤U2),
    상기 다운믹싱 계수들을 결정하는 단계는:
    상기 제1 서브그룹 제한 인수가 상한과 동일하게 되도록 하여(
    Figure 112014080688155-pct00110
    1=U1, L2
    Figure 112014080688155-pct00111
    2≤U2) 제한 인수의 서브공간 내에서 상기 적어도 하나의 출력 오디오 신호에 대한 범위 내 조건을 만족시키도록 초기 시도하는 서브단계; 및
    상기 초기 시도가 실패하는 경우, 상기 제2 서브그룹 제한 인수가 하한과 동일하게 되도록 하여(L1
    Figure 112014080688155-pct00112
    1≤U1,
    Figure 112014080688155-pct00113
    2=L2) 제한 인수의 서브공간 내에서 상기 적어도 하나의 출력 오디오 신호에 대한 범위 내 조건을 만족시키도록 추가로 시도하는 서브단계를 포함하는, 다운믹싱하는 방법.
  13. 제10항에 있어서, 상기 제1 서브그룹은 다음 그룹, 즉,
    (i) 청취자에 대해 전방 절반 공간에 위치된 오디오 소스에 의해 재생하기 위한 채널,
    (ii) 청취자와 실질적으로 동일한 높이에 위치된 오디오 소스에 의해 재생하기 위한 채널
    중 하나로부터의 채널에 대응하며,
    상기 제2 서브그룹은 (i) 또는 (ii)와는 다른 채널에 대응하는, 다운믹싱하는 방법.
  14. 제13항에 있어서, 상기 제1 서브그룹은 다음 그룹, 즉,
    (iii) 전방 채널,
    (iv) 중심 채널,
    (v) 광역 채널
    중 하나로부터의 채널에 대응하고,
    상기 제2 서브그룹은 (iii), (iv) 또는 (v)와는 다른 채널에 대응하는, 다운믹싱하는 방법.
  15. 제1항에 있어서, 적어도 하나의 서브그룹은 상기 제한 인수에 대한 상한과 연관된, 다운믹싱하는 방법.
  16. 제15항에 있어서, 2개 이상의 서브그룹은 상기 제한 인수에 대한 공통 상한과 연관된, 다운믹싱하는 방법.
  17. 제1항에 있어서,
    상기 공간적으로 관련된 채널들은 다음 채널 그룹, 즉, 전방 채널, 서라운드 채널, 후방 서라운드 채널, 광역 채널, 중심 채널, 측면 채널 중 하나에 속하는, 다운믹싱하는 방법.
  18. 삭제
  19. 복수의 오디오 신호를 비트 스트림으로 인코딩하는 방법으로서,
    복수의 오디오 신호를 수신하는 단계;
    제1항의 다운믹싱 방법에 따라 상기 오디오 신호를 다운믹스 신호로 다운믹싱하는 단계; 및
    상기 다운믹스 신호를 비트 스트림으로 인코딩하는 단계를 포함하는, 인코딩하는 방법.
  20. 삭제
  21. 제1항 내지 제17항 및 제19항 중 어느 한 항의 방법을 수행하는 컴퓨터 실행가능한 명령을 저장하는 데이터 캐리어.
  22. 디코딩 방법으로서,
    복수의 인코딩된 오디오 신호를 포함하는 비트 스트림 및 제1항 내지 제17항 중 어느 한 항의 방법에 따라 결정된 다운믹싱 계수들로부터 얻어지는 믹싱 매트릭스를 수신하는 단계;
    디코딩된 오디오 신호를 생성하기 위해 상기 인코딩된 오디오 신호를 디코딩하는 단계; 및
    상기 믹싱 매트릭스에 따라 상기 디코딩된 오디오 신호를 하나 이상의 출력 오디오 신호로 믹싱하는 단계를 포함하는, 디코딩 방법.
  23. 제22항의 디코딩 방법을 수행하는 컴퓨터 실행가능한 명령을 저장하는 데이터 캐리어.
  24. 믹싱 시스템(400)으로서,
    입력 데이터를 포함하는 복수의 입력 오디오 신호를 수신하는 입력 포트(461);
    구성부(420)로서,
    최대 다운믹싱 계수들,
    적어도 하나의 출력 오디오 신호에 대한 범위 내 조건, 및
    상기 복수의 입력 오디오 신호의 서브그룹들로의 분할을 수신하고,
    상기 적어도 하나의 출력 오디오 신호에 대한 상기 범위 내 조건은, 상기 적어도 하나의 출력 오디오 신호에 대한 상한이거나, 상기 적어도 하나의 출력 오디오 신호에 대한 하한이거나, 상기 적어도 하나의 출력 오디오 신호가 상한과 하한을 가진 구간 내에 유지되어야 한다는 요건인, 상기 구성부(420);
    상기 입력 데이터를 참조하여 상기 적어도 하나의 출력 오디오 신호에 대한 범위 내 조건을 만족시키기 위하여 각 서브그룹 내에 공통인 제한 인수와 상기 최대 다운믹싱 계수들의 곱으로 다운믹싱 계수들을 결정하는 제어기(440); 및
    상기 복수의 입력 오디오 신호를 적어도 2개의 공간적으로 관련된 출력 오디오 신호로 다운믹싱하기 위해 상기 제어기(440)에 의해 결정된 상기 다운믹싱 계수들을 적용하는 믹서(462)를 포함하고;
    상기 제어기(440)는 상기 출력 오디오 신호 각각에 대한 범위 내 조건을 공동으로 만족시키기 위하여 상기 제한 인수와 상기 최대 다운믹싱 계수들의 곱으로 상기 다운믹싱 계수들을 결정하도록 적응되고, 상기 제한 인수는 모든 출력 오디오 신호와 각 서브그룹 내에서 공통이고;
    상기 제어기(440)는:
    서브그룹 내 상기 입력 오디오 신호가 기여하는 상기 출력 오디오 신호 각각에 대해 최대 다운믹싱 계수와 예비 제한 인수의 곱으로 다운믹싱 계수를 결정하는 수단(442, 443); 및
    상기 예비 제한 인수의 최소값을 선택하는 것에 의해 상기 서브그룹 내에서 공통인 제한 인수를 결정하는 최소 추출기(minimum extractor)(444, 445)를 포함하는, 믹싱 시스템(400).
  25. 디코딩 시스템으로서,
    복수의 인코딩된 오디오 신호를 포함하는 비트 스트림 및 제1항 내지 제17항 중 어느 한 항의 방법에 따라 결정된 다운믹싱 계수들로부터 얻어지는 믹싱 매트릭스를 수신하는 입력 포트;
    디코딩된 오디오 신호를 생성하기 위해 상기 인코딩된 오디오 신호를 디코딩하는 디코더; 및
    상기 믹싱 매트릭스에 따라 상기 디코딩된 오디오 신호를 하나 이상의 출력 오디오 신호로 믹싱하는 믹서를 포함하는, 디코딩 시스템.
  26. 삭제
  27. 삭제
  28. 삭제
  29. 삭제
  30. 삭제
  31. 삭제
  32. 삭제
  33. 삭제
  34. 삭제
  35. 삭제
  36. 삭제
  37. 삭제
  38. 삭제
  39. 삭제
  40. 삭제
  41. 삭제
  42. 삭제
  43. 삭제
  44. 삭제
  45. 삭제
  46. 삭제
  47. 삭제
  48. 삭제
  49. 삭제
  50. 삭제
  51. 삭제
KR1020137011777A 2010-11-12 2011-11-10 다운믹싱 제한 KR101496754B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US41323710P 2010-11-12 2010-11-12
US61/413,237 2010-11-12
PCT/US2011/060128 WO2012064929A1 (en) 2010-11-12 2011-11-10 Downmix limiting

Publications (2)

Publication Number Publication Date
KR20130080852A KR20130080852A (ko) 2013-07-15
KR101496754B1 true KR101496754B1 (ko) 2015-02-27

Family

ID=45094240

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020137011777A KR101496754B1 (ko) 2010-11-12 2011-11-10 다운믹싱 제한

Country Status (18)

Country Link
US (1) US9224400B2 (ko)
EP (1) EP2638543B1 (ko)
JP (1) JP5684917B2 (ko)
KR (1) KR101496754B1 (ko)
CN (1) CN103201792B (ko)
AR (1) AR083783A1 (ko)
AU (1) AU2011326473B2 (ko)
BR (1) BR112013011471B1 (ko)
CA (1) CA2815190C (ko)
HK (1) HK1187442A1 (ko)
IL (1) IL225858A (ko)
MX (1) MX2013004922A (ko)
MY (1) MY164714A (ko)
RU (1) RU2565015C2 (ko)
SG (1) SG190050A1 (ko)
TW (1) TWI462087B (ko)
UA (1) UA105336C2 (ko)
WO (1) WO2012064929A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106465028B (zh) * 2014-06-06 2019-02-15 索尼公司 音频信号处理装置和方法、编码装置和方法以及程序
CN107004421B (zh) * 2014-10-31 2020-07-07 杜比国际公司 多通道音频信号的参数编码和解码
JP2018101452A (ja) * 2016-12-20 2018-06-28 カシオ計算機株式会社 出力制御装置、コンテンツ記憶装置、出力制御方法、コンテンツ記憶方法、プログラム及びデータ構造

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090222272A1 (en) * 2005-08-02 2009-09-03 Dolby Laboratories Licensing Corporation Controlling Spatial Audio Coding Parameters as a Function of Auditory Events

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3252105A (en) 1962-06-07 1966-05-17 Honeywell Inc Rate limiting apparatus including active elements
US6122619A (en) * 1998-06-17 2000-09-19 Lsi Logic Corporation Audio decoder with programmable downmixing of MPEG/AC-3 and method therefor
US7502743B2 (en) * 2002-09-04 2009-03-10 Microsoft Corporation Multi-channel audio encoding and decoding with multi-channel transform selection
US7792670B2 (en) * 2003-12-19 2010-09-07 Motorola, Inc. Method and apparatus for speech coding
CA2572805C (en) 2004-07-02 2013-08-13 Matsushita Electric Industrial Co., Ltd. Audio signal decoding device and audio signal encoding device
US7391870B2 (en) * 2004-07-09 2008-06-24 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E V Apparatus and method for generating a multi-channel output signal
US7761304B2 (en) 2004-11-30 2010-07-20 Agere Systems Inc. Synchronizing parametric coding of spatial audio with externally provided downmix
US7751572B2 (en) 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
US20060262936A1 (en) * 2005-05-13 2006-11-23 Pioneer Corporation Virtual surround decoder apparatus
JP2009500657A (ja) * 2005-06-30 2009-01-08 エルジー エレクトロニクス インコーポレイティド オーディオ信号をエンコーディング及びデコーディングするための装置とその方法
KR20070003593A (ko) 2005-06-30 2007-01-05 엘지전자 주식회사 멀티채널 오디오 신호의 인코딩 및 디코딩 방법
EP2084901B1 (en) 2006-10-12 2015-12-09 LG Electronics Inc. Apparatus for processing a mix signal and method thereof
EP2513899B1 (en) * 2009-12-16 2018-02-14 Dolby International AB Sbr bitstream parameter downmix

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090222272A1 (en) * 2005-08-02 2009-09-03 Dolby Laboratories Licensing Corporation Controlling Spatial Audio Coding Parameters as a Function of Auditory Events

Also Published As

Publication number Publication date
IL225858A0 (en) 2013-06-27
SG190050A1 (en) 2013-06-28
HK1187442A1 (zh) 2014-04-04
AR083783A1 (es) 2013-03-20
US9224400B2 (en) 2015-12-29
IL225858A (en) 2016-09-29
TW201237847A (en) 2012-09-16
RU2013126726A (ru) 2014-12-20
UA105336C2 (ru) 2014-04-25
EP2638543B1 (en) 2016-01-27
US20130230177A1 (en) 2013-09-05
JP5684917B2 (ja) 2015-03-18
JP2013546021A (ja) 2013-12-26
TWI462087B (zh) 2014-11-21
KR20130080852A (ko) 2013-07-15
WO2012064929A1 (en) 2012-05-18
AU2011326473B2 (en) 2015-12-24
MY164714A (en) 2018-01-30
MX2013004922A (es) 2013-06-28
CA2815190C (en) 2017-06-20
CA2815190A1 (en) 2012-05-18
CN103201792B (zh) 2015-09-09
AU2011326473A1 (en) 2013-05-23
RU2565015C2 (ru) 2015-10-10
BR112013011471B1 (pt) 2021-04-27
EP2638543A1 (en) 2013-09-18
CN103201792A (zh) 2013-07-10
BR112013011471A2 (pt) 2020-11-24

Similar Documents

Publication Publication Date Title
US8045719B2 (en) Rendering center channel audio
US9307338B2 (en) Upmixing method and system for multichannel audio reproduction
US8521314B2 (en) Hierarchical control path with constraints for audio dynamics processing
KR100644715B1 (ko) 능동적 오디오 매트릭스 디코딩 방법 및 장치
KR101438389B1 (ko) 오디오 매트릭스 디코딩 방법 및 장치
EP3811515B1 (en) Multichannel audio enhancement, decoding, and rendering in response to feedback
EP3014901B1 (en) Improved rendering of audio objects using discontinuous rendering-matrix updates
US8259970B2 (en) Adaptive remastering apparatus and method for rear audio channel
KR101439205B1 (ko) 오디오 매트릭스 인코딩 및 디코딩 방법 및 장치
WO2005124999A2 (en) Peak-limiting mixer for multiple audio tracks
KR101496754B1 (ko) 다운믹싱 제한
KR20170078648A (ko) 멀티채널 오디오 신호의 파라메트릭 인코딩 및 디코딩
KR101296765B1 (ko) 스피커와 청취자 위치를 반영한 능동적 오디오 매트릭스 디코딩 방법 및 장치
EP3725100B1 (en) Spatially aware dynamic range control system with priority
US20220159395A1 (en) Adaptive loudness normalization for audio object clustering
US20230413000A1 (en) Method for generating a conversion filter for converting a multidimensional output audio signal into a two-dimensional audio signal for listening
KR102509783B1 (ko) 자동 사운드 레벨 조절 기능을 가진 증폭기
US9653065B2 (en) Audio processing device, method, and program
KR20200017969A (ko) 오디오 장치 및 그 제어방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20180208

Year of fee payment: 4