KR20230147638A - 바이노럴 오디오를 위한 가상화기 - Google Patents

바이노럴 오디오를 위한 가상화기 Download PDF

Info

Publication number
KR20230147638A
KR20230147638A KR1020237029526A KR20237029526A KR20230147638A KR 20230147638 A KR20230147638 A KR 20230147638A KR 1020237029526 A KR1020237029526 A KR 1020237029526A KR 20237029526 A KR20237029526 A KR 20237029526A KR 20230147638 A KR20230147638 A KR 20230147638A
Authority
KR
South Korea
Prior art keywords
input signal
reverberation
binaural
center
virtualizer
Prior art date
Application number
KR1020237029526A
Other languages
English (en)
Inventor
씨. 필립 브라운
유싱 하오
쉬메이 유
지롱 양
Original Assignee
돌비 레버러토리즈 라이쎈싱 코오포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 돌비 레버러토리즈 라이쎈싱 코오포레이션 filed Critical 돌비 레버러토리즈 라이쎈싱 코오포레이션
Publication of KR20230147638A publication Critical patent/KR20230147638A/ko

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • H04S7/306For headphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/05Generation or adaptation of centre channel in multi-channel audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Stereophonic System (AREA)
  • Multimedia (AREA)

Abstract

왼쪽, 오른쪽 및 중앙 채널을 생성하기 위해 왼쪽 및 오른쪽 입력 신호를 업믹스하고, 왼쪽 및 오른쪽 입력 신호를 업믹스된 왼쪽 및 오른쪽 채널과 각각 중앙 전용 잔향량 값에 의해 주어진 비율로 믹스하고, 그 후 가상화 이전에 믹스의 출력에 잔향을 적용함으로써 바이노럴 가상화를 제공하기 위한 시스템 및 방법이 제공된다. 이는 두 개의 상이한 필터링 모드: 표준 모드 및 단순화된 모드 사이의 모드 스위칭에 의해 추가로 단순화될 수 있다.

Description

바이노럴 오디오를 위한 가상화기
관련 출원에 대한 상호 참조
본 출원은 명칭이 "LIGHTWEIGHT VIRTUALIZER FOR BINAURAL SIGNAL GENERATION FROM STEREO"이고, 2022년 1월 6일에 출원된 미국 가출원 번호 제63/266,500호와 2021년 3월 31일에 출원된 미국 가출원 번호 제63/168,340호, 및 2021년 2월 25일에 출원된 국제 출원 번호 제PCT/CN2021/077922호에 대한 우선권을 주장하며, 이의 내용은 그 전체가 본원에 참조로 통합된다.
본 개시는 바이노럴 처리(binaural processing)에 대한 개선에 관한 것이다. 더욱 구체적으로, 본 개시는 바이노럴 처리를 위한 경량 프로세스를 제공하기 위한 방법 및 시스템에 관한 것이다.
오디오 시스템은 통상적으로, (라디오 수신기, 스마트폰, 랩톱 컴퓨터, 데스크톱 컴퓨터, 태블릿, 텔레비전 등과 같은) 오디오 소스 및 스피커로 구성된다. 일부 경우에서, 스피커 예를 들어, 헤드폰 및 이어버드(earbuds)는 청취자의 귀 근처에 착용된다. 이 상황에서, 귀에 근접하지 않은 외부 스피커의 오디오 품질을 에뮬레이트(emulate)하는 것이 때때로 바람직하다. 이는 오디오를 근위 스피커(proximal speakers)(이하 헤드폰으로 지칭됨)로 전송하기 전에 바이노럴 효과를 생성하기 위해 사운드를 합성함으로써 행해질 수 있다.
이 섹션에서 설명되는 접근법은 반드시 이전에 생각되었거나 추구되었던 접근법이 아니라, 추구될 수 있던 접근법이다. 그러므로, 달리 지시되지 않는 한, 이 섹션에서 설명되는 접근법 중 임의의 것이 단지 이 섹션에 포함된 것만으로 종래 기술로서 한정하는 것으로 가정되지 않아야 한다. 유사하게, 달리 지시되지 않는 한, 이 섹션을 기초로 하나 이상의 접근법에 대해 식별된 문제점이 임의의 종래 기술에서 인식된 것으로 가정되지 않아야 한다.
오디오를 스피커로 전송하기 전에 바이노럴 효과를 생성하기 위해 사운드를 합성하는 동안, 모든 오디오 소스가 이 합성을 행하도록 설정되는 것은 아니고, 일반적인 합성 회로는 헤드폰 또는 이어버드에 포함되기에 너무 메모리 집약적이고 복잡하다.
본원에 설명된 방법 및 시스템/디바이스는 채널-수준 제어된 잔향(reverb)으로 양질의 바이노럴 효과를 생성하는 더 낮은 복잡도(경량) 수단을 제공한다. 이는 무엇보다도, 보통 실현 가능하지 않은 헤드폰 및 이어버드를 포함하는, 소형 디바이스에서 바이노럴 가상화 구현을 허용한다.
본원의 개시는 헤드폰, 이어버드, 또는 메모리 및 복잡도에 민감한 다른 디바이스에 포함될 수 있는 경량 바이노럴 가상화를 제공하기 위한 시스템 및 방법을 설명한다. 시스템 및 방법은 오디오 디코더의 일부로 구현될 수 있다.
본 발명의 실시예는 바이노럴 가상화를 제공하는 디바이스이고, 디바이스는: 왼쪽 입력 신호 및 오른쪽 입력 신호의 입력; 가상화기; 왼쪽 입력 신호 및 오른쪽 입력 신호를 오른쪽 채널, 왼쪽 채널 및 중앙 채널로 변환하도록 구성된 업믹서(upmixer); 중앙 전용 잔향량 값에 기초하여 왼쪽 입력 신호를 왼쪽 채널과 결합하고, 중앙 전용 잔향량 값에 기초하여 오른쪽 입력 신호를 오른쪽 채널과 결합하도록 구성되어 믹서 출력을 생성하는 믹서; 및 가상화기에 대한 믹서 출력에 잔향을 적용하도록 구성된 잔향 모듈을 포함한다.
본 발명의 실시예는 바이노럴 가상화를 제공하기 위한 방법이고, 방법은: 왼쪽 입력 신호 및 오른쪽 입력 신호의 입력을 수신하는 단계; 왼쪽 입력 신호 및 오른쪽 입력 신호를 오른쪽 채널, 왼쪽 채널 및 중앙 채널로 업믹스하는 단계; 중앙 전용 잔향량 값에 기초하여 왼쪽 입력 신호를 왼쪽 채널과 결합하고, 중앙 전용 잔향량 값에 기초하여 오른쪽 입력 신호를 상기 오른쪽 채널과 결합하고, 그로 인해 믹서 출력을 생성하는 단계; 가상화기에 대한 믹서 출력에 잔향을 적용하는 단계를 포함한다.
이들 실시예는 예시적이며 제한적이지 않다: 다른 실시예가 본원의 개시에 기초하여 구상될 수 있다.
도 1은 경량 가상화기의 예시적인 사용을 예시한다.
도 2는 바이노럴 오디오의 예를 예시한다.
도 3은 경량 가상화기에 대한 예시적인 설정을 예시한다.
도 4는 경량 가상화기에 대한 잔향 제어의 예를 예시한다.
도 5a-5b는 예시적인 경량 가상화기 설정을 예시한다. 도 5a는 간단한 가상화기를 도시하고, 도 5b는 더욱 효율적인 가상화기를 예시한다.
도 6a-6b는 잔향 생성 모드의 예를 예시한다. 도 6a는 전체 모드를 도시하고, 도 6b는 단순화된 모드를 예시한다.
도 7은 경량 가상화기에 대한 예시적인 업믹서 프로세스를 예시한다.
도 8은 경량 가상화기 방법의 예를 도시한다.
본원에서 사용된 "경량"은 회로의 감소된 메모리 및 복잡도 구현을 지칭한다. 이는 회로의 풋프린트(footprint) 및 에너지 소비를 감소시킨다.
본원에서 사용된 "HRIR"은 머리 관련된 임펄스 응답(head related impulse response)을 지칭한다. 이는 귀가 소스로부터 사운드를 어떻게 수신하는 지를 설명하는 HRTF(머리 관련 전달 함수, head related transfer function)의 시간 도메인 표현으로 생각될 수 있다.
본원에서 사용된 "ITD"는 각각의 귀가 소스로부터 주어진 사운드의 인스턴스로부터 수신하는 시간 차이를 설명하는 귀간 시간 차이(interaural time difference)를 지칭한다.
본원에서 사용된 "ILD"는 각각의 귀가 소스로부터의 사운드의 주어진 인스턴스로부터 수신하는 인지된 진폭의 차이를 설명하는 귀간 수준 차이(interaural level difference)를 지칭한다.
본원에서 사용된 "버터워스 필터(Butterworth filter)"는 본질적으로 통과 대역이 평탄한 필터를 지칭한다.
본원에서 사용된 "바이노럴"은 청취자로부터 일정 거리에 그리고 서로 일 거리에 배치된 복수의 스피커의 효과로 각각의 귀에 별개로 전송된 사운드를 지칭한다.
본원에서 사용된 "가상화기"는 바이노럴 사운드를 합성할 수 있는 시스템을 지칭한다.
본원에서 사용된 "업믹싱"은 M개의 입력 채널이 N개의 출력 채널로 변환되는 프로세스이고, 여기서 N > M(정수)이다. "업믹서"는 업믹싱을 수행하는 모듈이다.
본원에서 사용된 "신호"는 시스템으로부터 출력 또는 입력된 오디오 또는 비디오의 전자적 표현이다. 신호는 스테레오(좌우 신호가 분리됨)일 수 있다. 본원에서 사용된 "채널"은 시스템에 의해 처리되는 신호의 일부이다. 채널의 예는 왼쪽, 오른쪽 및 중앙이다.
본원에서 사용된 "모듈"은 특정 기능을 동작시키는 하드웨어, 소프트웨어 또는 펌웨어의 일부를 지칭한다. 모듈이 구현 시, 반드시 서로 물리적으로 분리되는 것은 아니다.
본원에서 사용된 "입력 스테이지"는 디바이스에 대한 입력 신호를 수신하는 것을 다루는 하드웨어 및/또는 소프트웨어/펌웨어를 지칭한다.
도 1은 경량 가상화기의 사용의 예를 도시한다. 사용자는 이어버드, 유선 또는 무선 오버이어 헤드폰(over-ear headphones) 또는 휴대용 스피커와 같은 스테레오 청취 디바이스(110)에 연결된, 스마트폰 또는 태블릿과 같은 모바일 디바이스(105)를 갖는다. 모바일 디바이스(105) 상에서 실행되는 사운드-제공 애플리케이션("앱")이 바이노럴 사운드를 제공하지 않는 경우, 경량 가상화기를 갖는 청취 디바이스(110)는 바이노럴 효과를 합성할 수 있다.
도 2는 바이노럴 사운드의 예를 도시한다. 합성되지 않은 시스템에서, 두 개의 스피커(205)가 청취자의 앞의 좌측 및 우측에 배치된다. 배치는 각각의 스피커로부터 청취자의 귀(220)에 가까운 경로(210)가 반대쪽 귀(220)까지의 경로(215)에 비해 영이 아닌 ITD 및 ILD 즉, "크로스토크(crosstalk)" 제공하게 한다. 가상화는 헤드폰(220)에 대해 이 효과를 합성하려고 시도한다.
C. Phillip Brown, "A Structural Model for Binaural Sound Synthesis(스피치 및 오디오 처리에 대한 IEEE 트랜잭션, vol. 6, No. 5, 1998년 9월)"로부터의 HRIR 머리 모델은 ITD 및 ILD의 조합이다. ITD 모델은 우드워스(Woodworth) 및 슐로스베르그(Schlosberg)의 공식에 기초한 머리 반경 및 각도에 관련된다(Woodworth, R. S. 및 Schlosberg, H. (1962), Experimental Psychology (Holt, New York), pp. 348-361 참조). 앙각이 0으로 설정되면, 공식은 다음과 같아진다:
[수학식 1]
크기 응답(두영(head-shadow))을 참작하기 위해 최소 위상 필터를 추가함으로써, 이는 ILD 큐를 근사화할 수 있다. ILD 필터는 관찰된 주파수 종속 지연을 추가적으로 제공할 수 있다.
[수학식 2]
ITD 및 ILD를 캐스케이딩(cascading)함으로써, 시간 도메인의 필터는 다음과 같다:
[수학식 3]
[수학식 4]
고조파 생성기는 대부분 중앙 채널을 기초로 고조파를 생성할 수 있다. 고조파 생성기는 가상 저음 효과를 제공하는 것을 목표로 한다. 고조파 생성기는 고조파를 생성하기 위해 그 자체의 샘플당 곱셈을 사용한다.
[수학식 5]
등화기는 예를 들어, SO. J. Orfanidis, "High-Order Digital Parametric Equalizer Design", J. Audio Eng. Soc., vol. 53, Number 11, pp. 1026-1046, (2005년 11월)로부터의 방법을 사용하여 파라메트릭 또는 쉘빙 필터(parametric or shelving filters)를 적용할 수 있다.
도 3은 예시적인 기본 경량 가상화기 레이아웃을 도시한다. 왼쪽 및 오른쪽 입력 신호로 구성된 입력(305)은 가상화기 모듈(390)에 대한 왼쪽 및 오른쪽 잔향을 생성하기 위해 업믹싱(310) 전에 잔향 모듈로 전송될 뿐만 아니라, 왼쪽 및 오른쪽 입력 신호를 왼쪽, 오른쪽 및 중앙 채널로 변환하기 위해 업믹서 모듈(315)로 전송된다. 그 후, 이들은 개선된 사운드 품질을 위해 고조파 생성기(320) 및 등화기(325)로 전송될 수 있다. 가상화기 모듈(390)은 헤드폰에 대한 바이노럴 출력(395)을 합성하기 위해 잔향 출력과, 왼쪽, 오른쪽 및 중앙 채널을 취한다.
일부 실시예에서, 총 잔향량 값에 기초하여 진폭을 조정함으로써 채널에 대한 잔향량을 제어함으로써 바이노럴 사운드가 합성된다.
도 4는 잔향 제어의 예를 도시한다. 가상화기(400)에 의한 처리 이전에, 왼쪽 및 오른쪽 입력 신호(405)와, 왼쪽 및 오른쪽 잔향 채널(410)이 믹서(412)에 의해 결합된다. 이들은 어떠한 잔향도 없음(no reverb)(이 예에서. 0)과 최대 잔향(full reverb)(이 예에서, 1) 사이의 값을 갖는 총 잔향 값(reverb_amount)에 의해 조정된다. 믹싱은 총 잔향 값에 비례한다. 믹싱은 다음과 같이 표현될 수 있다:
[수학식 6]
여기서 α는 총 잔향 값이고, 는 잔향 신호 입력(Lrev 및 Rrev)이고, x는 원래 입력(L 및 R 채널)이다. 잔향량은 잔향량 변화에 의한 작은 결함(glitches)을 회피하기 위해 1차 평활화 필터를 통해 블록별로 평활화될 수 있다.
믹서 출력(413)은 ipsi(415-I) 및 콘트라(contra, 415-C) 필터를 통해 통과되고, 그 후 중앙 채널(420)과 믹싱되고, 가상화된 바이노럴 신호 출력(425)을 생성한다.
총 잔향량의 제어는 가상화의 제어를 허용하고, 그로 인해 헤드폰의 제조자가 헤드폰의 특정 하드웨어에 가상화를 적응시키는 것을 허용하거나, 및/또는 사용자가 가상화 경험을 조정하는 것을 허용한다. 일부 실시예에서, 중앙 전용 잔향량은 예를 들어 헤드폰과 페어링된 디바이스의 앱으로부터 API(application programming interface)에 의해 제어될 수 있다. 이 제어는 (예를 들어, 오디오에서 잔향을 감소시켜야 하는 음성의 검출 시) 모바일 디바이스의 소프트웨어에 의해 자동화될 수 있거나, 또는 이는 맞춤형 가상화 경험을 제공하기 위해 사용자 인터페이스를 통해 사용자에 의해 설정/조정될 수 있거나 또는 둘 모두일 수 있다. 일부 실시예에서, 중앙 전용 잔향량은, 하드웨어가 잔향을 어떻게 다루는지를 기초로 최선의 균형을 제공하기 위해, 헤드폰 그 자체(예를 들어, 소프트웨어/펌웨어의 미리 설정된 값 또는 오프셋 값)에 의해 설정되거나 조정된다.
일부 실시예에서, 중앙 전용 잔향량은 (서로 상이한 값을 갖는 옵션이 주어지면) 총 잔향량과는 독립적으로 제어된다. 이는 예를 들어, 중앙 채널에 대한 음성 오디오 상에서 너무 많은 잔향을 회피하면서 가상화된 3D 경험을 제공하기에 충분한 음악에 대한 잔향을 갖도록 중앙 대(왼쪽+오른쪽) 잔향량을 제어하는 데 도움을 준다.
중앙 채널 상에서 잔향을 생성하기 위한 간단한 방식이 도 5a에 도시된다. 잔향 모듈(505)은 업믹서(510)로부터 왼쪽 및 오른쪽 채널과 함께 중앙 채널을 공급받는다. 이 예에 도시된 바와 같이, 제한기(515)는 디지털 범위의 클리핑 아웃(clipping out)을 회피하는 데 사용될 수 있다.
중앙 채널 상에 잔향을 생성하기 위한 더욱 효율적인 방식이 도 5b에 도시된다. 그 대신에, 잔향 모듈(555)은 입력 채널(565)과 업믹서(560)의 업믹스된 왼쪽 및 오른쪽 채널(570)로부터의 업믹스된 입력으로부터 공급된다. 믹싱은 도 4에 도시된 믹싱과 유사하게 중앙 전용 잔향 값(center_reverb_amount)에 의해 제어된다. L 및 R 입력 신호는 그들에 적용되는 center_reverb_amount(δ)를 갖는 한편(이득 블록(575) 참조), 업믹스된 L 및 R 채널은 그들에 적용되는 1에 대한 center_reverb_amount의 가법 역원(additive inverse)(1 - δ)을 갖는다(이득 블록(576) 참조). 그 효과는 중앙 전용 잔향 값이 최대(예를 들어, 1)이면, 중앙 채널이 전체(full) 잔향을 가질 것이라는 것이다(잔향 모듈(555)은 본질적으로 중앙 채널을 포함하는, 업믹스 전 왼쪽 및 오른쪽 입력 신호만을 수신할 것이다). 중앙 전용 잔향 값이 어떠한 잔향도 없으면(예를 들어, 0), 중앙 채널은 어떠한 잔향도 갖지 않을 것이다(잔향 모듈(555)은 중앙 채널이 제거된, 업믹스 후 왼쪽 및 오른쪽 채널만을 수신할 것이다). 그 사이의 값은 중앙 전용 잔향을 비례적으로 조정할 것이다(예를 들어, 0.5는 중앙이 왼쪽 및 오른쪽 채널의 잔향의 절반을 가질 것이다). 왼쪽 및 오른쪽 잔향량은 중앙 전용 잔향 값에 의해 변경되지 않고 유지된다 - 이들은 전체 잔향 설정이 무엇인지에 의해서만 제어될 것이다.
중앙 전용 잔향 값과 총 잔향 값은 모두 API에 의해 별개로 제어할 수 있다.
효율적인 잔향 생성 방법(예를 들어, 도 5b)은 간단한 시스템(예를 들어, 도 5a)에 비해 메모리 사용량 및 복잡도 모두를 절감하고, 이는 반향 생성기가 보통 시스템의 메모리 사용량 및 복잡도의 큰 부분에 기여하기 때문에, 시스템을 심지어 더욱 간단하게 만드는 중요한 단계이다.
일부 실시예에서, 믹스 비율은 다음과 같은 구간별 비선형 함수(piecewise non-linear function)로서 제어된다:
[수학식 7]
여기서 r은 중앙 전용 잔향 값(예를 들어, API 설정)이고, A는 결과를 정규화하기 위한(일정한 볼륨을 제공하기 위한) 상수이고, w는 중앙 채널에서 왼쪽 또는 오른쪽 채널(예를 들어, 왼쪽 채널)의 비율을 제공하는 업믹서로부터의 값이고, thr은 임계 값이고 은 적용되는 중앙 전용 잔향량이다. 이는 왼쪽 및 오른쪽 채널에서 덜 대칭적인 오디오 콘텐츠를 회피하는데 도움을 준다.
일부 실시예에서, 잔향 생성은 두 개의 복잡도 모드 사이에서 스위칭될 수 있다.
도 6a 및 6b는 잔향 생성을 위한 가변 복잡도를 제공하는 예를 도시한다.
도 6a는 일반(전체 복잡도) 동작 모드를 도시한다. 여기서, 잔향 생성기는 저역 통과(예를 들어, 버터워스) 필터(605)와 함께 작동하고, 콤 필터(comb filter, 610)로 공급하고, 그 후 전역 통과 필터(615)에 공급하여 위상을 변경한다. 콤 필터(610)는 상이한 레이턴시 값을 갖는 다수의 유한 임펄스 응답(Infinite Impulse Response, IIR) 필터로 구성된다. 이는 메모리 및 복잡도 집약적이고, 원하는 것보다 더 강한 잔향을 생성할 수 있다.
콤 필터 및 전대역 통과 필터의 Z 도메인 표현은 다음과 같다:
[수학식 8]
[수학식 9]
여기서 g1 및 g2는 반사 이득이고 d는 샘플의 지연이다.
도 6b는 단순화된 모드를 도시하며, 저역 통과 필터(655)는 (큰 방을 시뮬레이션하기 위해) 더 긴 위상 지연 및 더 강한 반사율을 갖는 전역 통과 필터(660)에 직접적으로 공급된다. 통상적으로 더 선명한 사운드를 보상하여 더욱 약한 잔향을 갖는 오디오를 제공하도록 오디오의 볼륨이 또한 증폭된다. 단순화된 모드는 일반 모드에 비해 메모리 사용량 및 복잡도를 감소시키고, 따라서 필요할 때(예를 들어, 메모리 및 복잡도가 중요한 경우) 모드를 스위칭하기 위한 능력은 경량 가상화기가 다양한 상황에서 동작하는 데 도움을 준다.
추가적인 실시예의 다음 설명은 추가적인 실시예와 이전에 설명된 실시예의 차이점에 초점을 맞출 것이다. 그러므로, 두 실시예에 공통되는 특징은 다음의 설명으로부터 생략될 것이고, 따라서 다음의 설명이 달리 요구하지 않는 한, 이전에 설명된 실시예의 특징이 추가적인 실시예에서 구현되거나 또는 추가적인 실시예에서 적어도 구현될 수 있다고 가정되어야 한다. 일부 실시예에서, 경량 가상화기는 가상화가 필요하지 않은지를 검출하고, 가상화를 우회할 수 있다. 이는 API 명령어, 기계 학습 도출된 바이노럴 검출에 의해(예를 들어, 그 전체가 본원에 참조로 통합되는 Chunmao Zhang 등의 "Blind Detection Of Binauralized Stereo Content", WO2019/209930A1 참조)이거나, 또는 가상화를 갖는 것으로 알려진 모바일 디바이스 또는 모바일 디바이스 앱의 식별을 수신함으로써 있을 수 있다.
도 7은 업믹서(2-3 채널 업믹스)의 예를 도시한다. 이는 왼쪽 및 오른쪽 채널로부터 가상 중앙 채널을 도출하고, 따라서 왼쪽 및 오른쪽의 비상관을 달성하고, 바이노럴 신호의 분리가능성을 향상시킨다. 업믹스 프로세스는 피드백이 없는 활성 매트릭스 디코딩의 형태이다(예를 들어, 그 전체가 본원에 참조로 통합되는, C. Phillip Brown, "Method and System for Frequency Domain Active Matrix Decoding without Feedback", WO 2010/083137 A1 참조). 업믹서는 왼쪽 및 오른쪽 채널의 합을 중앙 채널로 간주하고, 왼쪽 및 오른쪽 채널 사이의 차이를 측면 채널로 간주한다. 네 개의 채널의 파워(power)가 계산되고 평활화될 수 있다. 왼쪽, 오른쪽, 앞, 뒤의 파워 비율은 파워로부터 도출될 수 있다. 왼쪽, 오른쪽, 앞, 뒤의 업믹스 계수는 비선형 파워 비율로부터 계산된다. 도출된 가상 중앙 채널은 가중된 왼쪽 및 오른쪽 채널의 선형 조합이다. 이 예에서 채널은 왼쪽, 오른쪽, 중앙 및 측면 채널을 제공하기 위해 합산되고 차분된다(differenced)(705). 파워 합 및 차(710)는 그것의 파워 수준을 제공하며, 이는 그 후 평활화된다(715). 왼쪽, 오른쪽, 앞 및 뒤에 대한 파워 비율이 도출되고(720), 업믹스 계수가 계산되고(725), 중앙 채널이 도출된다(730).
도 8은 기본적인 경량 가상화 방법의 예시적인 흐름도를 도시한다. 시스템은 입력 스테이지(805)에서 오디오 소스로부터 왼쪽 및 오른쪽 입력 신호를 취한다. 그 후, 이들은 왼쪽, 오른쪽 및 중앙 채널의 업믹스된 버전으로 업믹스된다(810). 그 후, 업믹스된 왼쪽 및 오른쪽 채널 및 입력 신호는 시스템 또는 API에 의해 설정된 중앙 전용 잔향량(830), 비례 스케일에 기초하여 믹스된다(815). 그 후, 또한, 시스템 또는 API에 의해 설정되는(840) 총 잔향량을 기초로 혼합 채널에 잔향(820)이 제공된다. 그 후, 이는 추가적인 처리(예를 들어, 입력 또는 포스트-처리된 입력을 통한 가상화)를 위해 왼쪽 및 오른쪽 잔향 채널로 출력된다(835).
본 개시의 여러 실시예가 설명되었다. 그럼에도 불구하고, 본 개시의 사상 및 범주를 벗어나지 않고 다양한 수정이 이루어질 수 있다는 것이 이해될 것이다. 따라서, 다른 실시예는 다음 청구범위 내에 있다.
위에 제시된 예는 통상의 기술자에게 본 개시의 실시예를 어떻게 만들고 사용하는 지에 대한 완전한 개시 및 설명으로 제공되며, 발명자/발명자들이 그의 개시로 간주하는 것의 범주를 제한하려는 것으로 의도되지 않는다.
통상의 기술자에게 자명한 본원에 개시된 방법 및 시스템을 수행하기 위한 위에서 설명된 모드의 수정은 다음의 청구범위의 범주 내에 있는 것으로 의도된다. 본 명세서에서 언급된 모든 특허 및 공보는 본 개시가 속하는 통상의 기술자의 수준을 나타낸다.
본 개시는 물론 변할 수 있는 특정 방법 또는 시스템에 제한되지 않는다는 것이 이해되어야 한다. 본원에 사용된 용어는 오직 특정한 예시적인 실시예를 설명하기 위한 목적이며, 제한하려는 것으로 의도되지 않는다는 것이 또한 이해되어야 한다. 본 명세서 및 첨부된 특허청구범위에 사용된, 단수 형태 "하나의(a, an)" 및 "그(the)"는 내용이 달리 명확하게 지시하지 않는 한 복수의 지시대상을 포함한다. "복수의"란 용어는 내용이 달리 명확하게 지시하지 않는 한 두 개 이상의 지시대상을 포함한다. 달리 정의되지 않는 한, 본원에 사용된 모든 기술적 및 과학적 용어는 본 개시가 속하는 통상의 기술자에 의해 보통 이해되는 것과 동일한 의미를 갖는다.

Claims (19)

  1. 바이노럴 가상화(binaural virtualization)를 제공하는 디바이스로서, 상기 디바이스는:
    왼쪽 입력 신호 및 오른쪽 입력 신호를 수신하도록 구성된 입력 스테이지;
    상기 왼쪽 입력 신호 및 상기 오른쪽 입력 신호의 오디오에 바이노럴 효과를 생성하는 가상화를 수행하도록 구성된 가상화기;
    상기 왼쪽 입력 신호 및 상기 오른쪽 입력 신호를 오른쪽 채널, 왼쪽 채널 및 중앙 채널로 변환하도록 구성된 업믹서(upmixer);
    중앙 전용 잔향량 값(center-only reverb amount value)에 기초하여 상기 왼쪽 입력 신호를 상기 왼쪽 채널과 결합하고, 상기 중앙 전용 잔향량 값에 기초하여 상기 오른쪽 입력 신호를 상기 오른쪽 채널과 결합하여 믹서 출력을 생성하도록 구성되는 믹서; 및
    가상화된 바이노럴 신호 출력을 출력하는 상기 가상화기로 입력되는 상기 믹서 출력에 잔향을 적용하도록 구성된 잔향 모듈을 포함하는, 디바이스.
  2. 제1항에 있어서, 상기 잔향 모듈은 상기 잔향을 총 잔향량 값으로 조정하도록 구성되는, 디바이스.
  3. 제2항에 있어서, 상기 중앙 전용 잔향량 값과 상기 총 잔향량 값은 독립적으로 설정되는, 디바이스.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 업믹서와 상기 가상화기 사이에 고조파 생성기 및 등화기 중 적어도 하나를 더 포함하는, 디바이스.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 디바이스는 상기 왼쪽 입력 신호 및 상기 오른쪽 입력 신호가 이미 바이노럴인지를 검출하도록 구성되는, 디바이스.
  6. 제5항에 있어서, 상기 디바이스는 상기 왼쪽 입력 신호 및 상기 오른쪽 입력 신호의 소스로부터 식별을 수신함으로써, 상기 왼쪽 입력 신호 및 상기 오른쪽 입력 신호가 이미 바이노럴인지를 검출하는, 디바이스.
  7. 제5항에 있어서, 상기 디바이스는 기계 학습 바이노럴 검출에 의해 상기 왼쪽 입력 신호 및 상기 오른쪽 입력 신호가 이미 바이노럴인지를 검출하는, 디바이스.
  8. 제5항에 있어서, 상기 디바이스는 API 명령어에 의해 상기 왼쪽 입력 신호 및 상기 오른쪽 입력 신호가 이미 바이노럴인지를 검출하는, 디바이스.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서, 상기 가상화기는 오디오 디코더의 일부인, 디바이스.
  10. 바이노럴 가상화를 제공하기 위한 방법으로서, 상기 방법은:
    왼쪽 입력 신호 및 오른쪽 입력 신호의 입력을 수신하는 단계;
    상기 왼쪽 입력 신호 및 상기 오른쪽 입력 신호를 오른쪽 채널, 왼쪽 채널 및 중앙 채널로 업믹스하는 단계;
    중앙 전용 잔향량 값에 기초하여 상기 왼쪽 입력 신호를 상기 왼쪽 채널과 결합하고, 상기 중앙 전용 잔향량 값에 기초하여 상기 오른쪽 입력 신호를 상기 오른쪽 채널과 결합하고, 그로 인해 믹서 출력을 생성하는 단계; 및
    가상화기에 입력되는 상기 믹서 출력에 잔향을 적용하는 단계; 및
    상기 가상화기로부터 출력되는 가상화된 바이노럴 신호를 출력하는 단계를 포함하는, 방법.
  11. 제10항에 있어서, 상기 잔향을 총 잔향량 값으로 조정하는 단계를 더 포함하는, 방법.
  12. 제11항에 있어서, 상기 중앙 전용 잔향량 값과 상기 총 잔향량 값은 API에 의해 설정되는, 방법.
  13. 제10항 내지 제12항 중 어느 한 항에 있어서, 상기 업믹스하는 단계 이후, 고조파 생성 및 등화 중 적어도 하나를 더 포함하는, 방법.
  14. 제10항 내지 제13항 중 어느 한 항에 있어서, 상기 왼쪽 입력 신호 및 상기 오른쪽 입력 신호가 이미 바이노럴인지를 검출하는 단계를 더 포함하는, 방법.
  15. 제14항에 있어서, 상기 검출하는 단계는 상기 왼쪽 입력 신호 및 상기 오른쪽 입력 신호의 소스로부터 식별을 수신함으로써 행해지는, 방법.
  16. 제14항에 있어서, 상기 검출하는 단계는 기계 학습 바이노럴 검출에 의해 행해지는, 방법.
  17. 제14항에 있어서, 상기 검출하는 단계는 API 명령어에 의해 행해지는, 방법.
  18. 제10항 내지 제17항 중 어느 한 항에 있어서, 표준 필터 모드와 단순화된 필터 모드 사이에서 스위칭하는 단계를 더 포함하고, 상기 표준 필터 모드는 콤 필터(comb filter)를 사용하는 것을 포함하고 상기 단순화된 필터링 모드는 사용하지 않는, 방법.
  19. 비일시적 컴퓨터 판독 가능 매체로서, 제10항 내지 제18항 중 어느 한 항의 방법의 단계를 수행하도록 구성된 데이터를 포함하는, 비일시적 컴퓨터 판독 가능 매체.
KR1020237029526A 2021-02-25 2022-02-25 바이노럴 오디오를 위한 가상화기 KR20230147638A (ko)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
CN2021077922 2021-02-25
CNPCT/CN2021/077922 2021-02-25
US202163168340P 2021-03-31 2021-03-31
US63/168,340 2021-03-31
US202263266500P 2022-01-06 2022-01-06
US63/266,500 2022-01-06
PCT/US2022/017823 WO2022182943A1 (en) 2021-02-25 2022-02-25 Virtualizer for binaural audio

Publications (1)

Publication Number Publication Date
KR20230147638A true KR20230147638A (ko) 2023-10-23

Family

ID=83049489

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237029526A KR20230147638A (ko) 2021-02-25 2022-02-25 바이노럴 오디오를 위한 가상화기

Country Status (5)

Country Link
EP (1) EP4298804A1 (ko)
JP (1) JP2024507535A (ko)
KR (1) KR20230147638A (ko)
BR (1) BR112023017137A2 (ko)
WO (1) WO2022182943A1 (ko)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI449442B (zh) 2009-01-14 2014-08-11 Dolby Lab Licensing Corp 用於無回授之頻域主動矩陣解碼的方法與系統
EP3090573B1 (en) * 2014-04-29 2018-12-05 Dolby Laboratories Licensing Corporation Generating binaural audio in response to multi-channel audio using at least one feedback delay network
JP7279080B2 (ja) 2018-04-27 2023-05-22 ドルビー ラボラトリーズ ライセンシング コーポレイション バイノーラル化ステレオ・コンテンツのブラインド検出
EP3895451B1 (en) * 2019-01-25 2024-03-13 Huawei Technologies Co., Ltd. Method and apparatus for processing a stereo signal

Also Published As

Publication number Publication date
WO2022182943A1 (en) 2022-09-01
BR112023017137A2 (pt) 2023-09-26
EP4298804A1 (en) 2024-01-03
JP2024507535A (ja) 2024-02-20

Similar Documents

Publication Publication Date Title
EP1817939B1 (en) A stereo widening network for two loudspeakers
EP2384028B1 (en) Signal generation for binaural signals
CA2744459C (en) Surround sound virtualizer and method with dynamic range compression
EP1194007B1 (en) Method and signal processing device for converting stereo signals for headphone listening
CN108632714B (zh) 扬声器的声音处理方法、装置及移动终端
EP3406085A1 (en) Audio enhancement for head-mounted speakers
US8971542B2 (en) Systems and methods for speaker bar sound enhancement
EP2466914B1 (en) Speaker array for virtual surround sound rendering
Bai et al. Upmixing and downmixing two-channel stereo audio for consumer electronics
EP3446499A1 (en) An active monitoring headphone and a method for regularizing the inversion of the same
KR20170095344A (ko) 오디오 신호 처리 장치 및 오디오 신호를 필터링하는 방법
US10547927B1 (en) Systems and methods for processing an audio signal for replay on stereo and multi-channel audio devices
EP1617707A2 (en) Sound reproducing apparatus and method for providing virtual sound source
EP3599775B1 (en) Systems and methods for processing an audio signal for replay on stereo and multi-channel audio devices
KR20230147638A (ko) 바이노럴 오디오를 위한 가상화기
CN113645531B (zh) 一种耳机虚拟空间声回放方法、装置、存储介质及耳机
JP2004023486A (ja) ヘッドホンによる再生音聴取における音像頭外定位方法、及び、そのための装置
CN116918355A (zh) 用于双耳音频的虚拟器
US11832079B2 (en) System and method for providing stereo image enhancement of a multi-channel loudspeaker setup
US20150006180A1 (en) Sound enhancement for movie theaters
KR101264152B1 (ko) 오디오 ld 제어 방법 및 장치
Faller Upmixing and beamforming in professional audio
Zotter et al. Low-frequency trick to improve externalization with non-individual HRIRs
US20140376725A1 (en) Sound enhancement for powered speakers
US20150236664A1 (en) Sound enhancement for television speakers