KR20180127508A - 포커스 거리에 가까운 사운드 소스들을 강조하는 공간 오디오 처리 - Google Patents

포커스 거리에 가까운 사운드 소스들을 강조하는 공간 오디오 처리 Download PDF

Info

Publication number
KR20180127508A
KR20180127508A KR1020187032537A KR20187032537A KR20180127508A KR 20180127508 A KR20180127508 A KR 20180127508A KR 1020187032537 A KR1020187032537 A KR 1020187032537A KR 20187032537 A KR20187032537 A KR 20187032537A KR 20180127508 A KR20180127508 A KR 20180127508A
Authority
KR
South Korea
Prior art keywords
audio
spatial audio
scene
spatial
distance
Prior art date
Application number
KR1020187032537A
Other languages
English (en)
Other versions
KR102319880B1 (ko
Inventor
베르네르 파울뤼스 요세퓌스 데 브레인
레온 마리아 반 데 커르크호프
Original Assignee
코닌클리케 필립스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 엔.브이. filed Critical 코닌클리케 필립스 엔.브이.
Publication of KR20180127508A publication Critical patent/KR20180127508A/ko
Application granted granted Critical
Publication of KR102319880B1 publication Critical patent/KR102319880B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/54Controlling the output signals based on the game progress involving acoustic signals, e.g. for simulating revolutions per minute [RPM] dependent engine sounds in a driving game or reverberation against a virtual wall
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/12Circuits for transducers, loudspeakers or microphones for distributing signals to two or more loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/60Methods for processing data by generating or executing the game program
    • A63F2300/6063Methods for processing data by generating or executing the game program for sound processing
    • A63F2300/6081Methods for processing data by generating or executing the game program for sound processing generating an output signal, e.g. under timing constraints, for spatialization
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F2300/00Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game
    • A63F2300/80Features of games using an electronically generated display having two or more dimensions, e.g. on a television screen, showing representations related to the game specially adapted for executing a specific type of game
    • A63F2300/8082Virtual reality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/307Frequency adjustment, e.g. tone control

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Stereophonic System (AREA)

Abstract

공간 오디오 처리 장치는 공간 오디오 컴포넌트들 및 관련 위치 데이터를 포함하는 오디오 장면을 설명하는 오디오 장면 데이터를 수신하기 위한 수신기(101)를 포함한다. 오디오 컴포넌트들은 오디오 객체들로서 제공될 수 있다. 거리 유닛(105)은 오디오 장면 내의 기준 위치로부터의 거리를 나타내는 포커스 거리를 포함하는 위치 지시를 제공한다. 어댑터(103)는 오디오 장면의 적어도 하나의 다른 공간 오디오 컴포넌트에 대한 공간 오디오 컴포넌트의, 오디오 레벨, 주파수 분포, 또는 확산의 정도와 같은 인식 강조 특성을, 포커스 거리와 기준 위치로부터 공간 오디오 컴포넌트의 위치까지의 오디오 장면 내의 거리 사이의 차이를 반영하는 차이 척도에 응답하여 적응시킨다. 오디오 렌더러(107)는 수신된 위치 데이터를 사용하여 결과적인 오디오 장면을 렌더링한다. 접근법은 오디오 장면 내의 포커스 거리에서 오디오를 강조할 수 있다.

Description

포커스 거리에 가까운 사운드 소스들을 강조하는 공간 오디오 처리
본 발명은 공간 오디오 처리(spatial audio processing)에 관한 것으로서, 배타적이 아니라 구체적으로는 가상 현실 응용들을 위한 공간 오디오 처리에 관한 것이다.
공간 오디오 응용들은 다양하고 광범위해졌으며, 점차 많은 시청각 경험들의 적어도 일부를 형성하고 있다. 사실상, 새롭고 개선된 공간 경험들 및 응용들이 계속 개발되고 있으며, 이는 오디오 처리 및 렌더링에 대한 증가된 수요들을 유발한다.
예를 들어, 최근 몇 해 동안, 가상 현실(Virtual Reality, VR) 및 증강 현실(Augmented Reality, AR)에 대한 관심이 증가하였고, 다수의 구현들 및 응용들이 소비자 시장에 진입하고 있다. 사실상, 경험을 렌더링하는 것은 물론, 그러한 응용들에 적합한 데이터를 캡처링 또는 기록하기 위한 장비가 개발되고 있다. 예를 들어, 게이밍 콘솔들이 완전한 VR 경험을 제공할 수 있게 하기 위한 비교적 저가의 장비가 개발되고 있다. 이러한 경향은 단기간 내에 상당한 크기에 도달하는 VR 및 AR 시장에 대해 계속될 것이고, 사실상 속도가 증가할 것으로 예상된다.
가상 현실 또는 증강 현실의 개념은 매우 넓은 분야의 개념들을 포함한다. 이것은 사용자가 3D 가상 세계에서 그가 실제 생활에서 하는 것과 같이(예를 들어, 그의 머리를 물리적으로 움직여 둘러보거나 심지어 물리적으로 돌아다님) 내비게이팅하는 완전 몰입 시나리오들을 포함할 수 있거나, 예를 들어 가상 세계에서의 내비게이션이 명확한 제어들에 의해 행해지는 더 간단한 시나리오들을 포함할 수 있다.
그러나, 지금까지의 대부분의 노력은 제공되는 경험의 시각적인 측면에 집중되었는데, 즉 그것은 삼차원 적응성 시각적 경험들을 캡처링 및 렌더링하기 위한 접근법들의 개발에 집중되었다.
예를 들어, 360도(2D 및 3D) 비디오 캡처링을 위한 다양한 시스템들이 최근에 개발되었다. 특히 흥미로운 VR 비디오 캡처링 기술은 ("플렌옵틱" 카메라("plenoptic" camera)로도 알려진) 소위 "광 필드 카메라(light field camera)"이다. 그러한 카메라들은 간단히 이미지 내의 장면의 광 강도를 캡처링할 뿐만 아니라, 광이 카메라에 도달하는 방향도 캡처링한다. 이것은 기록된 이미지의 다양한 타입의 후-처리를 가능하게 한다. 특히, 이것은 이미지가 기록된 후에 이미지의 포커스 평면(focal plane)이 변경되는 것을 가능하게 한다. 실제 용어들에서, 이것은 이미지를 렌더링할 때 (카메라 관점에 대해) 인-포커스 거리(in-focus distance)를 변경할 수 있다는 것을 의미한다.
구형 배열의 다수의 광 필드 카메라들로 구성되는, VR 응용들을 위한 구형 카메라 시스템(spherical camera system)을 제공하는 것이 제안되었다. 그러한 카메라 시스템은 후-처리에서 포커스 거리(focal distance) 및/또는 줌(zoom)을 변경할 수 있게 하면서 360도 3D 파노라마 기록들의 캡처링을 가능하게 한다.
비디오 측에서의 그러한 개발들은 몰입 및 상호작용 시각 콘텐츠 및 경험들을 생성하기 위한 소정 범위의 가능성들을 제공한다. 그러나, 일반적으로, 개선되고 더 적합한 공간 오디오 경험들을 제공하는 것에는 더 적은 관심이 집중되었다. 사실상, 전형적으로, 오디오 솔루션들은 덜 적응적이며, 일부 오디오 소스들의 위치가 변경될 수 있는 것이 유일한 적응성일 수 있는 통상적인 공간 오디오 경험을 주로 사용하는 경향이 있다.
따라서, 개선된 공간 오디오 시스템이 유리할 것이고, 특히 증가된 유연성, 개선된 적응성, 개선된 가상 현실 경험, 개선된 성능, 증가된 사용자 제어 또는 적응, 사용자 측 조작 및/또는 개선된 공간 오디오 경험을 가능하게 하는 오디오 처리 접근법이 유리할 것이다.
따라서, 본 발명은 전술한 불리한 점들 중 하나 이상을 단독으로 또는 임의의 조합으로 바람직하게 완화, 경감 또는 제거하고자 한다.
본 발명의 일 양태에 따르면, 공간 오디오 처리 장치로서, 오디오 장면(audio scene)을 설명하는 오디오 장면 데이터를 수신하기 위한 수신기(101)로서, 오디오 장면 데이터는 공간 오디오 컴포넌트들을 설명하는 오디오 데이터 및 공간 오디오 컴포넌트들 중 적어도 일부에 대한 오디오 장면 내의 위치들을 설명하는 위치 데이터를 포함하는, 수신기(101); 오디오 장면 내의 기준 위치로부터의 거리를 나타내는 가변 포커스 거리(variable focus distance)를 제공하기 위한 거리 유닛(105); 오디오 장면의 적어도 하나의 다른 공간 오디오 컴포넌트에 대한 공간 오디오 컴포넌트들 중 적어도 제1 공간 오디오 컴포넌트의 인식 강조 특성(perceptual emphasis property)을, 가변 포커스 거리와 기준 위치로부터 제1 공간 오디오 컴포넌트의 위치까지의 오디오 장면 내의 거리 사이의 차이를 반영하는 차이 척도(difference measure)에 응답하여 적응시키기 위한 어댑터(103); 공간 오디오 컴포넌트들을 렌더링하기 위한 오디오 렌더러(audio renderer)로서, 렌더링은 위치 데이터에 응답하고, 제1 공간 오디오 컴포넌트의 렌더링은 어댑터가 인식 강조 특성을 적응시키는 것에 후속하는, 오디오 렌더러를 포함하는, 공간 오디오 처리 장치가 제공된다.
접근법은 많은 실시예들에서 개선된 공간 오디오 경험을 제공할 수 있다. 특히, 접근법은 예로서 개선된 가상 현실 경험을 제공할 수 있으며, 예로서 시각적 인식과 오디오 인식 사이의 더 가까운 상관성을 가능하게 할 수 있다. 많은 실시예들에서, 접근법은 일관된 공간 경험을 유지하면서 개선된 사용자 포커스를 제공할 수 있다. 예를 들어, 가상 현실 환경에서, 접근법은 변함없고 일관된 가상 현실 환경을 유지하면서, 즉 포커스 변화의 함수로서 오디오 소스들을 서로에 대해 움직이지 않고, 사용자 특성들(예를 들어, 머리 또는 눈 움직임)의 변화들에 적응하는 개선된 사용자 포커싱을 가능하게 할 수 있다.
접근법은 렌더링된 오디오 스테이지의 개선된 사용자 측/렌더링 시간 적응을 제공할 수 있다. 이것은 제공되는 오디오 경험의 증가된 사용자 제어를 제공할 수 있다. 특히, 이것은 특정 오디오 소스들을 다른 오디오 소스들에 비해 렌더링 측면에서 강조하는 것을 가능하게 할 수 있다.
접근법은 현재의 청취 특성들 또는 선호들에 여전히 적응되는 개선된 공간 일관성과 함께 공간 렌더링에 적합한 오디오 신호/오디오 데이터를 제공할 수 있다. 특히, 이것은 많은 실시예들에서 사용자의 현재 포커스에 대응하는 오디오 소스들의 강조를 가능하게 한다.
개선은 전형적으로 비교적 낮은 복잡성으로 달성될 수 있으며, 접근법은 많은 시나리오들에서 비교적 저가의 구현을 가능하게 할 수 있다.
기준 위치는 특히 오디오 장면 내의 청취자 또는 청취 위치일 수 있다(특히, 가상 오디오 장면 내의 청취자의 위치를 나타내는 가상 위치일 수 있다).
포커스 거리는 기준 포인트에 대해 가변적이다. 어댑터는 가변 포커스 거리에 대한 변화들에 응답하여 제1 공간 오디오 컴포넌트에 대한 인식 강조 특성을 변경하도록 배열될 수 있다.
기준 위치는 오디오 장면 내의 가변 위치일 수 있다. 가변 포커스 거리는 기준 위치와 독립적일 수 있다. 많은 실시예들에서, 가변 포커스 거리의 제어는 기준 위치의 제어와 독립적일 수 있다. 특히, 가변 포커스 거리는 고정/불변 기준 위치에 대해 변경될 수 있다. 어댑터는 변함없는 기준 위치에 대한 포커스 거리의 변화들에 응답하여 적응을 변경하도록 배열될 수 있다.
특정 오디오 소스들을 설명하는 오디오 데이터에 더하여, 오디오 데이터는 비-포인트(non-point) 소스들 또는 사실상 비-국지화된(또는 심지어는 비-공간적인) 오디오 소스들을 나타내는 데이터를 포함할 수 있다. 예를 들어, 분산된 주변 배경 사운드 또는 잡음을 설명하는 오디오 데이터가 포함될 수 있다. 일부 실시예들에서, 오디오 컴포넌트들 중 적어도 일부는 포인트 소스들일 수 있다.
일부 실시예들에서, 공간 오디오 컴포넌트들 각각 또는 그들 중 적어도 일부에 대해 별개의 오디오 데이터가 제공될 수 있는데, 즉 오디오 컴포넌트는 오디오 컴포넌트와 오직 관련된 정보를 제공하는 오디오 데이터에 의해 설명될 수 있다. 일부 실시예들에서, 각각의 공간 오디오 컴포넌트는 별개의, 완전한 그리고 개별적인 오디오 데이터 세트에 의해 표현될 수 있다. 각각의 오디오 컴포넌트는 예로서 별개의 오디오 객체로서 표현될 수 있고, 단일 오디오 소스에 대응할 수 있다.
일부 실시예들에서, 오디오 데이터는 개별 공간 오디오 소스가 추출될 수 있는 하나 이상의 오디오 신호들을 설명할 수 있다. 예를 들어, 오디오 데이터는 예로서 사전결정된 위치들에 대응하는 복수의 공간 오디오 채널들을 표현/설명할 수 있으며, 개별 오디오 컴포넌트들은 (예로서, 주요 컴포넌트 분석(Principal Component Analysis)을 사용하여) 오디오 채널 데이터로부터 추출될 수 있다. 다른 예로서, 오디오는 MPEG에 의해 표준화된 '공간 오디오 객체 코딩(Spatial Audio Object Coding)'으로 알려진 오디오 포맷에 따라 표현될 수 있다.
위치 데이터는 공간 오디오 컴포넌트들의 공간 위치들을 표현할 수 있다. 공간 오디오 컴포넌트에 대한 위치 데이터는 공간 오디오 컴포넌트에 의해 표현되는 오디오 소스에 대한 오디오 장면 내의 위치를 나타낼 수 있다. 위치는 아마도 (예로서, 사용자 입력에 응답하여) 렌더러에 의해 변경될 수 있는 추천 위치일 수 있다.
많은 실시예들에서, 렌더러는 가변 포커스 거리와 독립적으로 제1 공간 오디오 컴포넌트에 대한 렌더링 위치를 결정할 수 있다. 렌더러는 가변 포커스 거리와 독립적인 위치에 제1 오디오 컴포넌트를 렌더링할 수 있다. 많은 시나리오들에서, 렌더러는 제1 공간 오디오 컴포넌트에 대한 위치 데이터에 의해 지시되는 오디오 장면 내의 위치에 대응하는 위치에 제1 오디오 컴포넌트를 렌더링할 수 있다.
오디오 장면은 공간 및 비-공간 오디오 컴포넌트들에 의해 표현될 수 있다. 공간 오디오 컴포넌트들은 특히 포인트 소스들일 수 있는 공간 오디오 소스들을 나타낼 수 있다.
가변 포커스 거리는 예를 들어 수동 사용자 입력으로부터 획득될 수 있거나, 예로서 사용자 거동 분석에 기초하여 자동으로 결정될 수 있다. 가변 포커스 거리는 오디오 장면 내의 기준 위치로부터, 특히 사용자가 포커싱하고 있는(포커싱하고 있는 것으로 가정/추정되는) 오디오 장면 내의 포인트, 평면 또는 거리와 같은 (타겟) 포커스까지의 거리를 나타낼 수 있다. 그러나, 접근법은 청취자가 실제로 이 거리에 계속 포커싱하는 것을 요구하지 않는다는 것을 알 것이다. 오히려, 가변 포커스 거리라는 용어는 공간 오디오 처리 장치가 적응에 대한 기준으로 사용하는 거리를 지칭한다(용어 "포커스"는 단지 라벨로 간주될 수 있다). 공간 오디오 처리 장치는 가변 포커스 거리에 더 가까운 오디오 컴포넌트들이 강조되어 전형적으로 증가된 사용자 포커스를 제공하도록 오디오 컴포넌트들을 적응시킬 수 있다.
인식 강조 특성은 오디오 컴포넌트의 임의의 특성일 수 있으며, 특히 오디오 장면 내의 오디오 컴포넌트의 인식된 강조를 반영할 수 있다. 인식 강조 특성은 특히 오디오 레벨 특성, 주파수 분포 특성 및 확산 특성(diffuseness property) 중 적어도 하나일 수 있다.
일부 실시예들에서, 인식 강조 특성은 제1 공간 오디오 컴포넌트에 대한 오디오 레벨이다.
이것은 많은 실시예들에서 특히 유리한 사용자 경험을 제공할 수 있다. 이것은 특히 예로서 시각 및 오디오 렌더링 양자가 예로서 가상 현실 장면의 동일한 양태들에 대한 강조를 적응시키는 것을 가능하게 하고, 이들이 동적으로 변경되는 것을 추가로 가능하게 하는, 예로서 시각적 경험과 밀접하게 매칭될 수 있는 개선된 오디오 사용자 경험을 제공할 수 있다. 접근법은 사용자에게 현재 가장 흥미로운 것들과 같은 특정 오디오 소스들의 개선되고/되거나 강조된 인식을 가능하게 할 수 있다.
차이 척도에 의존하는 오디오 레벨 변화는 전형적으로 10 dB 이하, 종종 6 dB 이하의 진폭 변화일 수 있다.
어댑터는 인식 강조 특성을 적응시킴으로써 제1 공간 오디오 컴포넌트에 대한 적응된 인식 강조 특성을 생성할 수 있다. 오디오 렌더러는 적응된 인식 강조 특성에 응답하여 제1 공간 오디오 컴포넌트를 렌더링하도록 배열될 수 있다.
본 발명의 선택적인 특징에 따르면, 어댑터는 가변 포커스 거리와 기준 위치로부터 제1 공간 오디오 컴포넌트의 위치까지의 오디오 장면 내의 거리 사이의 차이의 연속 함수로서 인식 강조 특성의 값을 결정하도록 배열된다.
함수는 점진적 함수(gradual function)일 수 있으며, 따라서 인식 강조 특성의 값, 예로서 이득 또는 오디오 레벨은 포커스 거리와 주어진 오디오 컴포넌트까지의 거리 사이의 차이의 점진적 변화들에 대해 점진적으로 변경될 수 있다. 이것은 특히 포커스가 주어진 변경되지 않은 기준/청취 위치에 대해 동적으로 변경될 때 더 자연스런 오디오 경험이 되도록 인식되는 유리한 효과를 제공할 수 있다. 본 발명의 선택적인 특징에 따르면, 어댑터는 감소하는 차이를 나타내는 차이 척도에 대해 적어도 하나의 다른 공간 오디오 컴포넌트에 비해 제1 공간 오디오 컴포넌트에 대한 이득을 증가시키도록 배열된다.
이것은 많은 실시예들에서 특히 유리한 동작을 제공할 수 있다. 이것은 비교적 낮은 복잡성을 가능하게 하면서 높은 성능을 제공할 수 있다. 이득 변화는 많은 실시예들에서 10 dB 이하, 종종 6 dB 이하일 수 있다.
오디오 컴포넌트들에 대한 이득은 차이 척도의 단조 감소 함수일 수 있다.
본 발명의 선택적인 특징에 따르면, 이득은 차이 척도의 함수로서 결정되며, 함수는 가변 포커스 거리보다 작은 기준 위치로부터 제1 오디오 컴포넌트 컴포넌트의 위치까지의 거리들에 대해 그리고 가변 포커스 거리보다 큰 기준 위치로부터 제1 공간 오디오 컴포넌트의 위치까지의 거리들에 대해 비대칭이다.
이것은 많은 실시예들에서 개선된 사용자 경험을 제공할 수 있다.
본 발명의 선택적인 특징에 따르면, 인식 강조 특성은 제1 공간 오디오 컴포넌트에 대한 주파수 신호 분포이다.
이것은 많은 실시예들에서 특히 유리한 사용자 경험을 제공할 수 있다. 이것은 특히 예로서 시각 및 오디오 렌더링 양자가 예로서 가상 현실 장면의 동일한 양태들에 대한 강조를 적응시키는 것을 가능하게 하고, 이들이 동적으로 변경되는 것을 추가로 가능하게 하는, 예로서 시각적 경험과 밀접하게 매칭될 수 있는 개선된 오디오 사용자 경험을 제공할 수 있다. 접근법은 사용자에게 현재 가장 흥미로운 것들과 같은 특정 오디오 소스들의 개선되고/되거나 강조된 인식을 가능하게 할 수 있다.
많은 실시예들에서, 어댑터는 감소하는 차이 척도에 대해 신호 분포를 더 낮은 주파수들로부터 더 높은 주파수들을 향해 점차 바이어스시키도록 배열될 수 있다. 어댑터는 감소하는 차이 척도에 대해 고주파수 신호 에너지를 저주파수 신호 에너지에 비해 증가시키도록 배열될 수 있다.
본 발명의 선택적인 특징에 따르면, 어댑터는 차이 척도에 응답하여 적어도 하나의 다른 공간 오디오 컴포넌트의 주파수 종속 필터링을 변경하도록 배열된다.
이것은 효율적인 구현을 제공할 수 있고/있거나 개선된 성능을 제공할 수 있다. 어댑터는 차이 척도에 의존하는 주파수 등화(equalization) 또는 필터링을 제공할 수 있다.
본 발명의 선택적인 특징에 따르면, 인식 강조 특성은 제1 공간 오디오 컴포넌트에 대한 확산 특성이다.
이것은 많은 실시예들에서 특히 유리한 사용자 경험을 제공할 수 있다. 이것은 특히 예로서 시각 및 오디오 렌더링 양자가 예로서 가상 현실 장면의 동일한 양태들에 대한 강조를 적응시키는 것을 가능하게 하고, 이들이 동적으로 변경되는 것을 추가로 가능하게 하는, 예로서 시각적 경험과 밀접하게 매칭될 수 있는 개선된 오디오 사용자 경험을 제공할 수 있다. 접근법은 사용자에게 현재 가장 흥미로운 것들과 같은 특정 오디오 소스들의 개선되고/되거나 강조된 인식을 가능하게 할 수 있다.
본 발명의 선택적인 특징에 따르면, 어댑터는 감소하는 차이를 나타내는 차이 척도에 대해 오디오 장면의 적어도 하나의 다른 공간 오디오 컴포넌트에 비해 제1 공간 오디오 컴포넌트에 대한 확산의 정도를 감소시키도록 배열된다.
이것은 많은 응용들에서 개선된 사용자 경험을 제공할 수 있다. 특히, 이것은 많은 응용들에서 사용자에게 현재 특히 흥미로운 오디오가 더 특정적이고 잘 정의된 오디오 소스들로서 인식되는 것을 가능하게 할 수 있고, 예를 들어 이들이 인식되고 있는 사운드 스테이지에서 더 두드러지는 것을 가능하게 할 수 있다.
본 발명의 선택적인 특징에 따르면, 차이 척도는 기준으로부터 제1 공간 오디오 컴포넌트의 위치로의 방향에 추가로 의존한다.
이것은 많은 실시예들에서 개선된 사용자 경험을 제공할 수 있다.
본 발명의 선택적인 특징에 따르면, 오디오 장면 데이터는 공간 오디오 컴포넌트들 중 적어도 일부를 나타내는 오디오 객체들을 포함한다.
접근법은 오디오 객체들에 대한 특히 효율적인 동작을 가능하게 하여 개선된 효과 및 그에 따른 개선된 사용자 경험을 유발할 수 있다.
오디오 장면 데이터는 오디오 장면 내의 오디오 객체들의 위치들을 나타내는 위치 데이터, 예를 들어 메타-데이터를 추가로 포함할 수 있다.
본 발명의 선택적인 특징에 따르면, 거리 유닛은 청취자 머리 및 눈 추적 중 적어도 하나에 응답하여 가변 포커스 거리를 결정하도록 배열된다.
접근법은 예를 들어 사용자 움직임에 대한 자동화된 적응을 가능하게 하여, 예를 들어 일관되고 몰입적인 가상 현실 사용자 경험을 가능하게 할 수 있다. 이것은 사용자에게 제공되는 시각적 경험과 오디오 경험 사이의 강한 응집을 가능하게 할 수 있다.
본 발명의 선택적인 특징에 따르면, 어댑터는 제1 공간 오디오 컴포넌트에 대한 양귀간 도달 시간차(Interaural Time Difference)를 변경시키지 않고 인식 강조 특성을 적응시키도록 배열된다.
이것은 많은 실시예들에서 사용자 경험을 실질적으로 개선할 수 있으며, 예를 들어 사운드 소스들의 인식되는 위치들을 유지하면서 오디오 장면 내의 사운드 소스들의 상대적인 강조가 사용자의 현재 선호들에 동적으로 적응되는 것을 가능하게 할 수 있다.
본 발명의 선택적인 특징에 따르면, 어댑터는 인식 강조 특성을 적응시켜 가변 포커스 거리가 기준 위치로부터 제1 공간 오디오 컴포넌트의 위치까지의 거리보다 큰 증가하는 차이 척도에 대해 제1 오디오 컴포넌트의 강조를 감소시키도록 배열된다.
이것은 유리한 효과를 제공할 수 있으며, 사실상 특히 더 먼 오디오 컴포넌트들을 포함하는 오디오 장면 내의 상이한 영역들에 대한 증가된 포커스를 가능하게 할 수 있다.
많은 실시예들에서, 렌더러는 제1 공간 오디오 컴포넌트에 대한 위치 데이터에 의해 지시되는 위치에 적어도 제1 공간 오디오 컴포넌트를 렌더링하도록 배열된다.
이것은 많은 실시예들에서 매력적인 사용 시나리오를 제공할 수 있고, 특히 생성된 오디오 장면의 공간 특성들을 변경하지 않고 장면 내의 다른 객체들에 대한 강조의 동적 적응을 가능하게 할 수 있다.
설명된 바와 같은 오디오 처리 장치를 포함하는 가상 현실 시스템이 제공될 수 있다.
접근법은 개선된 가상 현실 경험을 제공할 수 있다.
가상 현실 시스템은 오디오 장면과 매칭되는 가상(예를 들어, 삼차원) 시각 장면을 렌더링하기 위한 비디오 렌더러를 추가로 포함할 수 있다.
본 발명의 일 양태에 따르면, 공간 오디오 처리 방법으로서, 오디오 장면을 설명하는 오디오 장면 데이터를 수신하는 단계로서, 오디오 장면 데이터는 공간 오디오 컴포넌트들을 설명하는 오디오 데이터 및 공간 오디오 컴포넌트 중 적어도 일부에 대한 오디오 장면 내의 위치들을 설명하는 위치 데이터를 포함하는, 오디오 장면을 설명하는 오디오 장면 데이터를 수신하는 단계; 오디오 장면 내의 기준 위치로부터의 거리를 나타내는 가변 포커스 거리를 제공하는 단계; 오디오 장면의 적어도 하나의 다른 공간 오디오 컴포넌트에 대한 공간 오디오 컴포넌트들 중 적어도 제1 공간 오디오 컴포넌트의 인식 강조 특성을, 가변 포커스 거리와 기준 위치로부터 제1 공간 오디오 컴포넌트의 위치까지의 오디오 장면 내의 거리 사이의 차이를 반영하는 차이 척도에 응답하여 적응시키는 단계; 및 인식 강조 특성의 적응에 후속하여, 제1 공간 오디오 컴포넌트를 포함하는 공간 오디오 컴포넌트들을 렌더링하는 단계로서, 렌더링은 위치 데이터에 응답하는, 제1 공간 오디오 컴포넌트를 포함하는 공간 오디오 컴포넌트들을 렌더링하는 단계를 포함하는, 공간 오디오 처리 방법이 제공된다.
본 발명의 이들 및 다른 양태들, 특징들 및 이점들이 이하에 설명되는 실시예(들)로부터 명백할 것이고 그것을 참조하여 설명될 것이다.
본 발명의 실시예들이 도면들을 참조하여 단지 예로서 설명될 것이다.
도 1은 본 발명의 일부 실시예들에 따른 공간 오디오 처리 장치의 일부 요소들을 예시하는 도면.
도 2는 본 발명의 일부 실시예들에 따른 가상 현실 시스템의 일부 요소들을 예시하는 도면.
하기의 설명은 적응성 시청각 렌더링 시스템에, 특히 사용자에게 가상 현실 경험을 제공하기 위한 가상 현실 시스템에 적용가능한 본 발명의 실시예들에 집중한다. 그러나, 본 발명은 이러한 응용에 제한되는 것이 아니라, 많은 다른 공간 오디오 프로세스들 및 응용들에 적용될 수 있다는 것을 알 것이다.
도 1은 본 발명의 일부 실시예들에 따른 공간 오디오 처리 장치의 일부 요소들을 예시한다.
공간 오디오 처리 장치는 공간 위치들과 관련된 공간 오디오 컴포넌트들을 포함하는 오디오 장면을 설명하는 오디오 장면 데이터를 수신하도록 배열된 오디오 수신기(101)를 포함한다. 오디오 장면 데이터는 다수의 오디오 컴포넌트들을 설명하는 오디오 데이터를 포함한다. 각각의 오디오 컴포넌트는 (포인트 사운드 소스, 분산 소스, 또는 사실상 비-공간적으로 배치된 확산(예를 들어, 주변) 소스일 수 있는) 사운드 소스에 대응할 수 있다. 또한, 오디오 장면 데이터는 오디오 컴포넌트들 중 하나, 다수 또는 전부에 대한 위치 정보를 제공하는 위치 데이터를 포함한다.
특정 예에서, 오디오 장면은 다수의 오디오 객체들에 의해 표현되며, 각각의 오디오 객체는 독립적이고 별개인 오디오 소스이다. 따라서, 각각의 오디오 객체는 다른 오디오 객체들과 별개로 처리되고 렌더링될 수 있다. 특히, 많은 실시예들에서, 오디오 장면 데이터는 오디오 데이터의 개별 세트들을 포함하며, 각각의 세트는 오디오 객체의 완전한 오디오 설명을 제공한다. 또한, 개별 위치 데이터는 오디오 객체들 각각(또는 적어도 일부)에 대해 제공될 수 있다.
따라서, 일부 실시예들에서, 각각의 오디오 컴포넌트는 다른 오디오 컴포넌트들과 독립적으로 그리고 별개로 처리될 수 있는 개별 오디오 객체일 수 있다.
따라서, 특정 예에서, 오디오 장면 데이터는 각각의 오디오 객체에 대한 위치 정보를 추가로 포함할 수 있다. 특히, 오디오 장면 데이터는 오디오 객체들의 전부 또는 일부에 대한 위치 정보를 제공하는 메타데이터를 포함할 수 있다. 따라서, 오디오 장면 데이터는 오디오 컴포넌트들(및 특히 오디오 객체들)에 의해 표현된 다수의 오디오 소스들을 포함하는 오디오 장면을 설명한다. 특히, 오디오 장면 데이터는 오디오 소스들에 의해 생성된 오디오뿐만 아니라 오디오 장면 내의 그들의 위치 양자에 대한 정보를 포함한다.
많은 실시예들에서, 오디오 컴포넌트들/오디오 객체들의 적어도 일부는 단일 관련 위치를 갖는 포인트 오디오 소스들에 대응할 것이다. 일부 실시예들에서, 오디오 장면 데이터는 포인트 소스 오디오 소스들에 대응하지 않는 오디오 컴포넌트들을 포함할 수 있다. 예를 들어, 오디오 소스들 중 하나 이상은 더 발산 또는 분산된 오디오 소스들에 대응할 수 있다. 사실상, 일부 시나리오들에서, 오디오 컴포넌트들 중 하나 이상은 예를 들어 확산된 주변 사운드들을 표현하는 오디오 소스들과 같은 완전히 분산된 오디오 소스들에 대응할 수 있다.
오디오 수신기(101)는 오디오 컴포넌트들 중 적어도 하나를 적응시키도록 배열된 어댑터(103)에 결합된다. 적응은 거리 유닛(105)으로부터 수신되는 가변 포커스 거리에 기초한다.
따라서, 거리 유닛(105)은 어댑터(103)에 가변 포커스 거리를 제공하도록 배열된다. 가변 포커스 거리는 청취자/사용자가 그의 의도를 포커싱하고 있는 것으로 현재 간주/가정/추정되는 오디오 장면에서의 거리 또는 심지어 위치의 지시를 제공할 수 있다. 가변 포커스 거리는 오디오 장면 내의 기준 위치로부터의 거리를 나타낸다. 따라서, 가변 포커스 거리는 오디오 장면 내의 현재 기준 위치로부터의 거리를 제공한다. 기준 위치는 특히 청취자/사용자/시청자가 있는 것으로 간주되는 청취 위치일 수 있고, 따라서 가변 포커스 거리에 의해 지시된 거리는 사용자가 현재 포커싱하고 있는(또는 포커싱하기를 원하는) 거리인 것으로 가정되며, 어댑터(103)는 기준 위치로부터의 이 거리에서 오디오 소스들에 대한 인식 강조가 증가될 수 있도록 오디오 컴포넌트들 중 적어도 하나를 적응시키도록 배열된다.
일부 실시예들에서, 가변 포커스 거리는 특정 사용자 입력으로부터 제공될 수 있다. 예를 들어, 거리 유닛(105)은 예를 들어 슬라이더(slider) 형태의 사용자 입력을 포함할 수 있다. 이어서, 사용자는 포커스 거리를 직접 변경하기 위해 그러한 슬라이더를 수동으로 조정할 수 있다. 따라서, 일부 실시예들에서, 가변 포커스 거리는 사용자에 의해 수동으로 직접 설정될 수 있다. 다른 실시예들에서, 가변 포커스 거리는 예를 들어 눈 움직임을 추적함으로써 자동 또는 반-자동으로 결정될 수 있다. 포커스 거리는 장면 내의 주어진 기준 포인트/청취 포인트에 대해 변경될 수 있다. 특히, 고정된/변경되지 않은 기준 포인트에 대해, 포커스 거리는 변경될 수 있고, 따라서 상이한 값들로 설정될 수 있다.
간소화를 위해, 가변 포커스 거리는 하기에서는 또한 포커스 거리로 간단히 지칭될 것이다.
일부 실시예들에서, 포커스 거리는 거리가 예를 들어 기하학적 계산에 의해 또는 관련 데이터를 추출함으로써 결정될 수 있는 오디오 장면 내의 삼차원 위치를 제공할 수 있다. 따라서, 일부 경우들에서, 포커스 거리는 기준 위치까지의 거리가 계산될 수 있는 삼차원 위치에 의해 제공될 수 있다. 다른 실시예들에서, 포커스 거리는 일차원 지시만을 포함할 수 있다. 예를 들어, 이것은 포커스 거리로 직접 사용될 수 있는 단일 거리 값을 직접 제공할 수 있다.
포커스 거리는 일부 실시예들에서 삼차원 오디오 장면과 관련된 삼차원 거리일 수 있지만, 다른 실시예들에서는 이차원 또는 일차원 거리일 수 있는데, 즉 포커스 거리는 예를 들어 삼차원 공간 중 단지 2개 또는 1개의 차원과 관련될 수 있다.
어댑터(103)는 오디오 컴포넌트들의 위치 및 포커스 거리에 응답하여 오디오 컴포넌트들 중 하나 이상의 인식 강조 특성을 적응시키도록 배열된다. 인식 강조 특성은 오디오 장면 내의 오디오 컴포넌트의 인식된 강조에 영향을 줄 수 있는 임의의 특성일 수 있다. 따라서, 인식 강조 특성을 수정함으로써, 오디오 소스의 상대적인 인식된 중요성 또는 차별성이 수정될 수 있다. 이러한 방식으로, 주어진 오디오 컴포넌트는 오디오 장면에서 더 두드러지도록 (또는 덜 두드러지도록) 수정될 수 있다.
특히, 제1 공간 오디오 컴포넌트로 지칭되는 주어진 공간 오디오 컴포넌트에 대해, 인식 강조 특성은 포커스 거리와 기준 위치로부터 제1 공간 오디오 컴포넌트의 위치까지의 거리 사이의 차이를 반영하는 차이 척도에 응답하여 적어도 하나의 다른 오디오 컴포넌트에 대해 수정된다.
거리는 삼차원 거리(구체적으로 삼차원 유클리드 거리(Euclidian distance))일 수 있거나, 예를 들어 이차원 또는 일차원 경험일 수 있다. 예를 들어, 거리는 이차원 평면 상의 또는 삼차원 좌표계의 축과 같은 일차원 방향 상의 삼차원 거리의 투영으로서 결정될 수 있다. 예를 들어, 오디오 장면은 유클리드 삼차원 좌표계(x, y 및 z 좌표들)에서의 위치들에 의해 표현될 수 있다. 거리는 그러한 좌표계에서의 삼차원 거리(예를 들어, 각각의 좌표에 대한 제곱된 차이의 근으로서 결정됨)와 관련될 수 있다. 그러나, 거리는 2개의 좌표들에서의 거리로서 결정될 수도 있다(즉, 좌표들 중 하나는 무시될 수 있다). 일부 실시예들에서, 거리는 하나의 좌표만을 고려하여(예를 들어, z-좌표만을 고려하여) 결정될 수 있다.
예를 들어, 거리는 오디오 장면 내의 기준 위치로부터 원하는 포커스 포인트까지의 삼차원 거리를 나타내는 데 사용될 수 있다. 다른 예로서, 거리는 이차원 포커스 평면을 정의하는 일차원 거리일 수 있다.
따라서, 어댑터(103)는 오디오 장면 내의 기준 위치와 제1 공간 오디오 컴포넌트의 위치 사이의 거리를 결정할 수 있다. 일부 실시예들에서, 기준 위치는 고정될 수 있고, 사실상 오디오 장면은 이 기준 위치에 관하여 설명될 수 있다. 예를 들어, 모든 오디오 소스들/오디오 컴포넌트들/오디오 객체들의 위치들은 명목상의 기준 위치에 관하여 주어질 수 있다. 오디오 컴포넌트로부터 기준 위치까지의 거리는 오디오 컴포넌트의 위치의 좌표 값들로부터 직접 계산될 수 있다. 사실상, 위치들이 극좌표들에 의해 주어지면, 길이 좌표는 제1 공간 오디오 컴포넌트와 (오디오 장면 내의) 기준 위치 사이의 거리로서 직접 사용될 수 있다. 예를 들어 직각 좌표들이 사용되면, 거리는 간단한 기하학적 계산들에 의해 계산될 수 있다.
기준 위치는 오디오 장면 내의 기준 위치이다. 따라서, 어댑터(103)는 제1 공간 오디오 컴포넌트의 위치가 가상 오디오 장면 내의 가상 기준 위치와 어떻게 관련되는지에 따라 제1 공간 오디오 컴포넌트의 특성을 적응시키도록 배열된다.
어댑터(103)는 이 거리, 즉 이하 오디오 소스 거리로 지칭되는, 제1 공간 오디오 컴포넌트의 위치로부터 기준 위치까지의 거리를 포커스 거리와 비교하고, 이들이 서로 얼마나 벗어나는지를 나타내는 차이 척도를 생성한다. 차이 척도는 오디오 컴포넌트 거리와 포커스 거리 사이의 증가하는 차이에 대해 증가하는 값/차이(또는 절대값/차이)를 가질 수 있다. 차이 척도는 오디오 컴포넌트 거리와 포커스 거리 사이의 차이의 단조 및 연속 함수일 수 있다.
특정 응용의 개별 요구들 및 선호들에 따라 상이한 실시예들에서 상이한 차이 척도들이 사용될 수 있다는 것을 알 것이다. 많은 실시예들 및 시나리오들에서, 2개의 거리들을 서로 간단히 감산하는 간단한 차이 척도가 사용될 수 있다.
이어서, 어댑터(103)는 이 차이 척도에 기초하여 제1 공간 오디오 컴포넌트의 인식 강조 특성을 다른 공간 오디오 컴포넌트들 중 하나 이상에 대해 적응시킬 수 있다. 전형적으로, 제1 오디오 컴포넌트의 인식 강조 특성이 적응된다(따라서, 적응은 모든 다른 오디오 컴포넌트들과 상대적일 것이다). 그러나, 일부 실시예들에서, 다른 공간 오디오 컴포넌트들 중 하나 이상 또는 전형적으로 전부의 인식 강조 특성이 수정되어, 제1 공간 오디오 컴포넌트의 인식 강조 특성이 변경되지 않음에도 불구하고 제1 공간 오디오 컴포넌트의 인식 강조 특성과 다른 오디오 컴포넌트(들)의 인식 강조 특성 간의 관계가 변경되게 할 수 있다는 것을 알 것이다.
인식 강조 특성은 특히 다른 공간 오디오 컴포넌트들 중 하나 이상에 대한 제1 공간 오디오 컴포넌트의 (오디오) 레벨일 수 있다. 특히, 어댑터(103)는 차이 척도에 응답하여 제1 오디오 컴포넌트의 레벨을 적응시키도록 배열될 수 있으며, 특히 차이 척도가 낮을수록, 즉 오디오 컴포넌트 거리가 포커스 거리에 가까울수록 오디오 레벨을 증가시키도록 배열될 수 있다.
따라서, 제1 오디오 컴포넌트가 포커스 거리에 가깝다면, 제1 오디오 컴포넌트에 대응하는 오디오 소스의 레벨은 제1 오디오 컴포넌트가 포커스 거리로부터 더 멀리 떨어져 있을 때에 비해 증가될 것이다. 따라서, 오디오 소스가 청취자의 현재의 (가정/지시된) 포커스에 가깝다면, 오디오 소스의 볼륨이 증가되어 오디오 소스가 오디오 장면에서 더 두드러지게 될 것이다. 이러한 방식으로, 다른 오디오 소스들에 관한 오디오 소스에 대한 강조는 오디오 소스가 청취자의 현재 포커스의 위치에 얼마나 가까운지에 의존할 것이다.
어댑터(103)는 제1 오디오 컴포넌트에 대한 레벨을 증가시키기보다는 오디오 장면 내의 하나 이상의 다른 오디오 컴포넌트들에 대한 레벨을 감소시킬 수 있거나, 사실상 이들 양자를 수행할 수 있음을 알 것이다. 예를 들어, 감소하는 차이 척도에 대해, 오디오 레벨은 장면에 대한 전체적인 조합된 오디오 레벨이 일정하게 유지되도록 제1 오디오 컴포넌트에 대해 증가될 수 있고 모든 다른 오디오 컴포넌트들에 대해 감소될 수 있다.
어댑터(103)는 모든 오디오 컴포넌트들의, 또는 예를 들어 포인트 오디오 소스들에 대응하는 모든 오디오 컴포넌트들과 같은 예로서 오디오 컴포넌트들의 적합한 서브세트에 유사한 처리를 적용하도록 진행할 수 있음을 알 것이다. 따라서, 어댑터(103)는 기준 위치까지의 거리, 특히 이 거리와 포커스 거리 사이의 차이에 의존하는 상이한 위치들에서의 가중치들로 오디오 스테이지에 걸쳐 가변 이득 또는 가중 함수를 효과적으로 적용할 수 있다. 오디오 컴포넌트가 포커스 거리에 가까울수록 이득이 높아질 수 있다. 이러한 방식으로, 어댑터(103)는 청취자의 특정 현재 포커스에 더 가까운 오디오 소스들이 인식된 오디오 장면에서 더 두드러지게 강조되도록 (오디오 컴포넌트들에 의해 형성된) 오디오 스테이지에 적응 또는 수정을 적용할 수 있다.
어댑터(103)는 공간 오디오 컴포넌트들을 렌더링함으로써 오디오 장면을 렌더링하도록 배열된 오디오 렌더러(107)에 결합된다. 오디오 렌더러(107)는 (예를 들어, 나중에 더 상세히 설명될 바와 같이 양귀 처리(binaural processing)에 의해 생성된 신호들과 함께 서라운드 사운드 배열 또는 헤드폰들을 사용하여) 오디오 컴포넌트들이 주어진 위치로부터 시작된 것으로 인식되도록 오디오 컴포넌트들을 렌더링할 수 있는 공간 렌더러이다. 따라서, 오디오 렌더러(107)는 오디오 장면을 효과적으로 재생할 수 있다.
오디오 렌더러(107)는 오디오 장면 데이터로부터 추출된 위치 데이터를 수신하고, 수신된 위치 데이터에 기초하여 적어도 하나의 오디오 컴포넌트에 대해 결정되는 위치들에 오디오 컴포넌트들을 렌더링하도록 진행한다. 특히, 오디오 렌더러는 위치 데이터에 의해 지시된 것들에 대응하는 위치들에 하나 이상의 오디오 컴포넌트들을 렌더링하도록 배열될 수 있다. 따라서, 오디오 장면은 위치 정보가 유지되는 상태에서 렌더링되고, 오디오 장면의 인식된 공간 구조는 입력 데이터에 의해 주어진 것과 동일하게 유지된다. 그러나, 오디오 소스들은 원하는 예를 들어 포커스 평면에 가까운 오디오 소스들이 포커스 평면으로부터 더 멀리 떨어진 오디오 컴포넌트에 비해 더 강조되도록 수정될 수 있다. 따라서, 특정 관심의 오디오 소스들이 더 두드러질 수 있는 동시에 공간 일관성 및 배열은 오디오 장면이 공간적으로 변경된 것으로 인식되지 않도록 동일하게 유지된다.
일부 실시예들에서, 렌더러는 오디오 컴포넌트들 중 하나 이상의 위치를 정정 또는 수정할 수 있다는 것을 알 것이다. 예를 들어, 사용자는 렌더러에 사용자 입력을 제공함으로써 장면 내의 특정 오디오 컴포넌트의 위치를 시프팅시키도록 배열될 수 있다.
도 1의 시스템의 접근법은 많은 실시예들에서 개선된 사용자 경험을 제공할 수 있고, 특히 더 유연한 사용자 경험을 제공할 수 있으며, 이 경우에 사용자에 대한 오디오 제시는 사용자의 현재 특성들에 적응되어, 사용자가 포커스를 오디오 장면의 상이한 부분들로 동적으로 그리고 유연하게 변경하는 것을 가능하게 한다. 따라서, 접근법은 수신된 오디오 장면 데이터에 기초하여 고정되고 유연하지 않은 오디오 스테이지가 렌더링되게 하기보다는, 사용자가 동적으로 (수동 또는 자동으로) 선택되는 상이한 오디오 소스들을 하이라이트 또는 강조할 수 있게 하는 사용자 측 적응을 가능하게 한다.
가변 포커스 거리는 많은 실시예들에서 사용자에 의해 동적으로 변경될 수 있다. 사실상, 예를 들어 가상 현실 응용들에서와 같은 많은 실시예들에서, 사용자는 오디오 장면 내의 기준 포인트를 제어하도록 배열될 수 있으며, 이 경우에 기준 포인트는 오디오 장면 내의 청취 위치에 대응한다. 기준 포인트의 제어는 많은 실시예들에서 사용자에 의해, 예로서 조이스틱, 게임 패드, 키보드, 모션 검출기 등의 사용에 의해 수동으로 제어될 수 있다. 그러나, 이 제어에 더하여, 사용자는 오디오 장면 내의 포커스를 제어할 수도 있다. 이것은 기준 위치에 관하여 제공되는 가변 포커스 거리에 의해 달성된다. 특히, 주어진 기준 포인트에 대해, 포커스 거리는 그러한 기준 포인트에 관하여 상이한 포커스 포인트들/영역들을 제공하도록 변경될 수 있다. 사실상, 포커스 거리의 제어 및 기준 포인트의 제어는 서로 독립적일 수 있다.
따라서, 포커스 거리는 기준 포인트에 대해 가변적이며, 기준 포인트에 의해 정의되는 고정 또는 사전결정된 영역이 아니다. 가변 포커스 거리는 예를 들어 사용자 입력에 응답하여 결정되어, 예를 들어 사용자가 오디오 장면 내의 고정된 청취/기준 위치에 대해 오디오 장면 내의 오디오 포커스를 동적으로 변경하는 것을 가능하게 할 수 있다. 일부 실시예들에서, 포커스 거리는 예를 들어 머리 움직임 또는 눈 움직임의 검출과 같은 자동화된 사용자 거동 검출에 응답하여 동적으로 결정될 수 있다. 이것은 예를 들어 청취자가 오디오 장면 내의 고정된 청취 위치에 머물지만 장면 내에서 오디오 포커스를 동적으로 변경하는 것을 가능하게 할 수 있게 한다. 따라서, 청취자는 오디오 장면에서 포커스를 동적으로 변경할 수 있는데, 예를 들어 장면의 상이한 부분들에서 사운드 소스들을 선택할 수 있다.
공간 오디오 처리 장치는 특히 시각적인 접근과 유사한 효과를 제공할 수 있는데, 예를 들어 렌더링 시에 포커스에 있는 장면 내의 객체들이 선택될 수 있도록 사용자 측에서 포커스 평면을 동적으로 변경할 수 있다.
예를 들어, 장면은 광 필드 카메라에 의해 캡처링될 수 있고, 결과적인 이미지 데이터는 인코딩 및 분배될 수 있다. 또한, 장면의 오디오는 마이크들의 세트에 의해 캡처링되어, 상이한 오디오 컴포넌트들에 대해 공간 특성들이 결정되는 것을 가능하게 할 수 있다. 오디오 컴포넌트들 및 관련 위치 정보를 설명하는 대응하는 오디오 장면 데이터가 생성될 수 있고, 이미지 데이터 및 오디오 장면 데이터를 포함하는 시청각 신호가 생성될 수 있다.
시청각 신호가 분배될 수 있고, 이어서 최종 사용자 디바이스는 대응하는 시청각 데이터를 처리하여 삼차원 시청각 경험을 렌더링할 수 있게 된다.
특히, 이미지 데이터는 렌더링 시에 포커스 평면이 선택되면서 이미지가 생성되도록 사용자 측에서 처리될 수 있다. 예를 들어, 슬라이더가 사용자에게 제공되어, 사용자가 단지 슬라이더를 움직여서 장면에서 포커스 평면을 앞뒤로 움직이는 것을 가능하게 할 수 있다. 이것은 상이한 이미지 객체들이 슬라이더의 설정 및 시청 위치까지의 그들의 거리에 따라 포커스에 들어가거나 나오게 할 것이다.
동시에, 슬라이더는 포커스 평면에 가까운 오디오 소스들이 포커스 평면으로부터 더 먼 오디오 소스들에 비해 강조되도록 공간 오디오 처리 장치를 제어할 수 있다. 사실상, 기준 위치는 이미지에 대한 시청자 위치에 대응할 수 있으며(즉, 그것은 장면의 이미지가 캡처링될 때의 광 필드 카메라의 위치에 대응할 수 있음), 포커스 거리는 이 위치로부터 포커스 평면까지의 거리에 대응하도록 설정될 수 있다. 결과적으로, 포커스 평면에 가까운 오디오 객체들은 예를 들어 포커스 평면이 다른 거리들에 있을 때의 레벨에 비해 증가된 오디오 레벨을 가질 것이다.
일례로, 접근법은 슬라이더를 제공할 수 있으며, 이 경우에 사용자는 이미지에서 포커스 평면을 앞뒤로 움직일 수 있는 동시에 오디오가 포커스 평면 변화들과 매칭되도록 적응되는 것을 경험할 수 있다. 따라서, 사운드 소스(예를 들어, 스피커 또는 라디오)에 대응하는 이미지 객체가 포커스에 들어갈 때, 사운드 소스는 또한 오디오 장면에서 더 크고 더 두드러진다.
따라서, 접근법은 사용자가 장면에서 무엇을 포커싱할지에 대한 유연한 사용자 측 선택/제어를 제공하기 위해 (예를 들어, 광 필드 카메라 및 공간적으로 민감한 마이크 배열들을 사용하여 실제 장면을 캡처링함으로써 도출된) 가상 장면을 나타내는 시청각 데이터를 처리할 수 있다. 오디오 및 비디오 측들은 서로 지원하고 대응하는 경험들을 제공하여 실질적으로 더 흥미롭고 바람직한 사용자 경험을 제공하도록 배열될 수 있다. 특히, 사용자 액션들이 동적으로 변경되는 장면의 제시 및 사용자 인식을 유발하여 사용자가 장면의 인식을 제어할 수 있는 가상 현실 효과가 제공될 수 있다.
많은 실시예들에서, 어댑터(103)는 가변 포커스 거리와 기준 위치로부터 제1 공간 오디오 컴포넌트의 위치까지의 오디오 장면 내의 거리 사이의 차이의 연속 함수로서 오디오 레벨 또는 이득과 같은 인식 강조 특성의 값을 결정할 수 있다. 오디오 컴포넌트들이 포커스로부터 멀리 떨어질수록 오디오 컴포넌트들의 강조가 점차 감소하도록 점진적 의존성이 제공될 수 있다. 이것은 포커스 거리가 동적으로 변경될 때 특히 중요한 유리한 효과를 제공할 수 있다.
특히, 접근법은 사용자가 고정된 청취 위치와 관련하여 오디오 장면에서 포커스를 동적으로 움직여 오디오 컴포넌트들이 포커스에 들어가거나 나가게 할 수 있는 실시예에서 특히 유리할 수 있다. 연속 함수에 의해 달성되는 점진적인 효과는 이러한 결과가 훨씬 더 자연스럽고 덜 현저한 효과가 되게 할 것이다.
어댑터(103)는 또한 많은 실시예들에서 인식 강조 특성을 적응시켜 가변 포커스 거리가 기준 위치로부터 제1 공간 오디오 컴포넌트의 위치까지의 거리보다 큰 증가하는 차이 척도에 대해 제1 오디오 컴포넌트의 강조를 감소시키도록 배열된다. 따라서, 청취자에 가까운 오디오 소스들에 강조를 줄 뿐만 아니라, 어댑터는 예를 들어 오디오 컴포넌트들이 청취 위치에 가까울수록, 그리고 그에 따라 오디오 컴포넌트들이 포커스 거리에 의해 지시되는 포커스 영역으로부터 멀수록 오디오 컴포넌트들에 대한 오디오 레벨 또는 이득을 감소시킴으로써 강조를 감소시킬 수 있다.
그러한 효과는 청취 위치에서 더 멀리 있는 영역들에 강조가 위치될 수 있는 개선된 경험을 제공할 수 있다. 예를 들어, 오디오 및 시각 렌더링 양자를 제공하는 가상 현실 시청각 경험을 위해, 사용자는 예를 들어 기준 위치에 가까운 스피커로부터 예를 들어 장면의 배경 내의 텔레비전으로 포커스를 변경할 수 있다. 이것은 시각적 포커스가 스피커로부터 텔레비전으로 시프팅되게 하여 스피커가 덜 현저하고 텔레비전이 더 현저하게 할 수 있다. 텔레비전이 더 커질 뿐만 아니라 스피커가 또한 더 조용해지는 동일한 효과가 오디오 도메인에서 제공된다. 예를 들어, 렌더링은 스피커가 선명하고 크게 들리는 것으로부터 텔레비전이 선명하고 크게 들리는 것으로 변경할 수 있다. 따라서, 청취자에 대한 효과는 청취자가 스피커를 "듣는" 것으로부터 청취자가 텔레비전을 "듣는" 것으로 오디오가 자동으로 적응되는 것일 수 있다.
도 2는 사용자에게 삼차원 시청각 장면을 렌더링하면서 사용자가 오디오 장면의 제시에 동적으로 적응하는 것을 가능하게 하도록, 특히 사용자가 장면의 제시를 동적으로 변경하는 것을 가능하게 하도록 배열되는 가상 현실 시스템을 개시한다. 사실상, 사용자는 장면에서 포커스를 변경할 수 있고, 많은 실시예들에서 청취 및 시청 방향 또는 위치를 동적으로 변경할 수도 있다.
가상 현실 시스템은 장면을 설명하는 시청각 데이터를 수신하는 시청각 수신기(201)를 포함한다. 시청각 데이터는 전술한 바와 같은 오디오 장면 데이터를 포함하고, 또한 삼차원 이미지(또는 비디오) 데이터를 포함한다.
가상 현실 시스템은 도 1의 공간 오디오 처리 장치를 포함하며, 시청각 수신기(201)는 오디오 장면 데이터를 추출하여 그것을 오디오 수신기(101)에 공급하도록 배열되며, 이 경우에 오디오 장면 데이터는 전술한 바와 같이 어댑터(103)에 의해 처리될 수 있다.
어댑터(103)는 오디오 렌더러(107)에 결합되며, 이 오디오 렌더러는 오디오 트랜스듀서들(203)의 세트에 추가로 결합된다. 오디오 렌더러(107)는 어댑터(103)에 의한 적응 후에 오디오 컴포넌트들을 렌더링하여, 수정된 오디오 장면이 오디오 트랜스듀서들(203)을 통해 렌더링되게 하도록 배열된다. 그러나, 렌더링은 원래의 위치 데이터에 기초하며, 많은 경우들에 오디오 컴포넌트들은 위치 데이터에 의해 지시된 위치들에 대응하도록 렌더링된다.
오디오 트랜스듀서들(203)은 예를 들어 헤드폰들 또는 이어폰들일 수 있고, 오디오 렌더러(107)는 삼차원 공간 경험을 제공하기 위해 그러한 헤드폰들 또는 이어폰들을 구동하기 위한 기능을 포함할 수 있다. 예를 들어, 오디오 렌더러(107)는 당업자에게 알려질 바와 같이 머리 관련 전달 함수들(Head Related Transfer Functions, HRTFs) 등을 사용하는 오디오 컴포넌트들의 처리를 포함하는 양귀 처리 및 렌더링을 위한 기능을 포함할 수 있다.
일부 실시예들에서, 오디오 트랜스듀서들(203)은 청취자에게 공간 경험을 제공하도록 위치된 복수의 스피커들일 수 있다. 예를 들어, 오디오 트랜스듀서들은 예를 들어 5.1 또는 7.1 서라운드 사운드 스피커 구성을 형성하는 서라운드 사운드 스피커들의 세트일 수 있다.
오디오 렌더러(107)는 오디오 장면을 렌더링하기 위한 임의의 적합한 접근법을 사용하도록 배열될 수 있으며, 공간 오디오 렌더링을 위한 많은 상이한 접근법들이 개별 실시예의 특정 선호들 및 요구들에 적합한 접근법을 구현할 수 있는 당업자에게 알려질 것이라는 것을 알 것이다.
오디오 경로에 대한 기능의 분배는 상이한 실시예들 사이에서 변경될 수 있음도 알 것이다. 예를 들어, 일부 실시예들에서, 오디오 수신기(101)는 예를 들어 개별 오디오 객체들에 적용되는 오디오 디코딩을 수행하여 각각의 오디오 컴포넌트에 대한 별개의 오디오 신호를 생성할 수 있다. 어댑터(103)는 상이한 오디오 컴포넌트들에 대한 가변 이득들을 구현할 수 있으며, 이 경우에 주어진 오디오 컴포넌트에 대한 이득은 오디오 컴포넌트에 대한 차이 척도에 의존한다. 이어서, 결과적인 오디오 신호들은 오디오 렌더러(107)에 의해 HRTF 함수들에 의해 처리되고, 헤드폰에 대한 양귀 신호로 조합될 수 있다.
다른 예로서, 오디오 객체들에 대한 오디오 데이터는 (차이 척도에 기초하여 결정된) 개별 오디오 객체에 대한 상대적인 레벨 조정/이득을 나타내는 어댑터(103)로부터의 데이터와 함께 오디오 렌더러(107)에 직접 공급될 수 있다. 그 다음, 오디오 렌더러(107)는 오디오 객체들을 디코딩하고, 레벨 조정을 적용하고, 결과적인 오디오 신호들을 (개별 오디오 객체의 위치에 의존하는 각각의 채널에 대한 가중치들을 이용하여) 서라운드 사운드 스피커들에 대한 오디오 채널 신호들로 조합할 수 있다.
따라서, 도 1 및 2는 오디오 경로에서의 기능의 특정 분배, 시퀀스 및 분할을 도시하지만, 다른 실시예들은 기능의 다른 분배들, 시퀀스들 또는 분할들을 구현할 수 있다는 것을 알 것이다. 예를 들어, 이득 조정은 예를 들어 렌더링의 일부일 수 있거나, 예를 들어 오디오 데이터의 디코딩에 앞서 수행될 수 있다.
가상 현실 시스템은 또한 시청각 수신기(201) 및 디스플레이 수단(207)에 결합되는 비디오 렌더러(205)를 포함한다.
디스플레이 수단(207)은 사용자에게 시각적 출력을 제공하여 사용자가 수신된 시청각 데이터에 의해 표현된 장면을 시청할 수 있게 하도록 배열된다. 디스플레이 수단(207)은 이차원 디스플레이일 수 있거나 삼차원 디스플레이, 또는 예로서 한 쌍의 스테레오 이미지 안경(stereo image glasses)일 수 있다. 디스플레이 수단(207)은 특히 많은 실시예들에서 가상 현실 헤드셋을 위한 스테레오 디스플레이들의 세트일 수 있거나, 예로서 무안경 입체 디스플레이(autostereoscopic display)일 수 있다.
비디오 렌더러(205)는 시청각 수신기(201)로부터 시각 장면 데이터를 수신하고, 디스플레이 수단(207)을 구동하여 장면의 시각적 표현을 제시하도록 배열된다. 삼차원 이미지 또는 비디오 데이터로부터 디스플레이들(2D 또는 3D인지에 관계없음)을 구동하기 위한 많은 상이한 접근법들 및 기술들이 당업자에게 알려질 것이며, 임의의 적합한 접근법이 사용될 수 있다는 것을 알 것이다.
특정 예에서, 수신되는 삼차원 이미지 데이터는 광 필드 카메라로부터 수신된다. 따라서, 비디오 렌더러(205)는 예를 들어 특정 거리에 포커스를 갖는 이미지를 생성하기 위해 데이터를 처리함으로써 이차원 출력 이미지를 생성할 수 있는데, 즉 비디오 렌더러(205)는 수신된 시각 데이터를 처리하여 가변 포커스 평면을 제공하도록 배열될 수 있다.
비디오 렌더러(205)는 거리 유닛(105)에 결합되고, 또한 포커스 거리를 수신하도록 배열된다. 이어서, 비디오 렌더러(205)는 포커스 거리의 지시에 따라 포커스 평면을 조정할 수 있다.
따라서, 시스템에서, 사용자는 슬라이더와 같은 수동 입력을 수동으로 조절하여, 제시된 이미지에서 포커스 평면을 앞뒤로 움직일 수 있다. 이러한 시각적인 적응에 따라, 오디오는 현재의 포커스 평면에 가까이 위치되는 오디오 객체들이 다른 오디오 객체들에 비해 강조되도록 적응된다. 따라서, 시청각 제시가 사용자 단에서 동적으로 수정될 수 있는 유연한 시스템을 사용자에게 제공하는 바람직한 사용자 경험이 제공될 수 있다. 예를 들어, 사용자는 제시를 수동으로 적응시킬 수 있다. 또한, 오디오 및 시각적 표현의 밀접하게 링크된 적응이 제공되어 매우 일관된 사용자 경험을 제공할 수 있다.
일부 실시예들에서, 이것은 사용자에 의해 변경될 수 있는 고정 포인트로부터의 거리의 형태의 포커스 거리일 뿐만 아니라, 사실상, 일부 실시예들에서, 사용자는 가상 장면에서 사용자의 위치(또는 예를 들어 시청 방향)를 적응시킬 수도 있다는 것을 알 것이다. 예를 들어, 일부 실시예들에서, 시각 데이터는 가상 환경의 삼차원 모델의 형태로 제공될 수 있고, 오디오 장면 데이터는 해당 모델에 링크된 오디오 객체들로서 제공될 수 있다(특히, 오디오 객체들의 위치들은 모델 내의 위치들로서 주어진다). 사용자는 가상 환경에서 사용자의 가상 위치의 움직임을 제어할 수 있고, 비디오 렌더러(205)는 제시된 이미지(들)를 동적으로 변경하여 이러한 움직임을 반영할 수 있다. 또한, 어댑터(103)는 현재 기준 위치로부터 오디오 객체들까지의 거리를 동적으로 계산할 수 있고, 오디오 객체들에 대한 오디오 레벨/이득을 동적으로 적응시켜 이러한 변화들을 반영할 수 있다.
어댑터(103)는 특히, 실제로 장면 내의 대응하는 오디오 소스/오디오 컴포넌트의 위치의 변화를 유발하지 않고 오디오 레벨과 같은 인식 강조 특성을 적응시키도록 배열될 수 있다. 특히, 유연한 정정에도 불구하고 오디오 소스들/오디오 컴포넌트들의 상대적 위치들은 동일하게 유지될 수 있다. 사실상, 적응은 수신된 위치 데이터에 영향을 미치는 것이 아니라, 오히려 이것은 오디오 렌더러(107)에 공급되어, 그것을 공간 오디오 장면을 렌더링하는 데 사용될 수 있다. 많은 시나리오들에서, 이것은 위치 데이터에 의해 지시된 위치들에 오디오 컴포넌트들을 위치시킬 수 있고, 따라서 오디오 컴포넌트들의 위치들이 원래의 위치들에 렌더링되게 할 수 있다. 따라서, 개별 오디오 컴포넌트들의 인식 강조/차별성은 서로 상대적으로 변경될 수 있는 반면, 위치들을 동일하게 유지된다.
따라서, 인식 강조 특성의 변화에도 불구하고, 어댑터(103)는 인식된 위치를 실질적으로 변경시키지 않고 적응을 수행할 수 있다. 따라서, 오디오 컴포넌트의 렌더링에 의해 제공된 공간 큐들(spatial cues)은 차이 척도에 응답하여 수행되는 적응과는 실질적으로 독립적일 수 있다.
사실상, 대부분의 실시예들에서, 어댑터(103)는 다른 오디오 컴포넌트들에 대한 오디오 컴포넌트의 타이밍의 어떠한 변화도 없이 인식 강조 특성을 수정하도록 배열될 수 있는데, 즉 어댑터(103)는 공간 오디오 컴포넌트들 사이의 시간적 관계의 변경 없이 인식 강조 특성을 적응시키도록 배열된다. 특히, 청취자의 귀들에서의 상대적 도달 시간들은 포커스 거리에 응답하여 변경되지 않으며, 따라서 상이한 오디오 소스들에 대한 상대적 양귀간 도달 시간차들(ITDs)은 일정하게 유지된다. ITD는 전형적으로 가장 중요한 인식 공간 큐이기 때문에, 오디오 소스들의 위치들은 오디오 장면 내의 동일한 위치들로부터 인식될 것이다. 따라서, 사용자는 오디오 장면에서 사용자 포커스 거리에 가까운 오디오 소스들이 강조되지만 오디오 소스들은 동일한 위치들에 유지된다고 인식할 것이다.
전술한 바와 같이, 어댑터(103)는 오디오 장면의 적어도 하나의 다른 오디오 컴포넌트에 대한 공간 오디오 컴포넌트들 중 적어도 제1 공간 오디오 컴포넌트의 오디오 레벨을 오디오 장면에서의 기준 위치로부터 제1 공간 오디오 컴포넌트의 위치까지의 거리와 포커스 거리 사이의 차이를 반영하는 차이 척도에 응답하여 적응시키도록 배열될 수 있다. 전형적으로, 오디오 레벨은 복수의 오디오 객체들에 대해 적응될 수 있으며, 일부 시나리오들에서 모든 오디오 컴포넌트들의 오디오 레벨이 수정될 수 있다.
어댑터(103)는 특히 공간 오디오 컴포넌트들에 대해 이득을 적용하도록 배열될 수 있으며, 이 경우에 공간 오디오 컴포넌트에 대한 이득은 포커스 거리와 기준 위치로부터 공간 오디오 컴포넌트까지의 거리 사이의 차이에 의존한다. 특히, 어댑터(103)는 감소하는 척도를 나타내는 차이 척도에 대해 다른 오디오 컴포넌트들에 비해 공간 오디오 컴포넌트에 대한 이득을 증가시킬 수 있다. 따라서, 이득은 오디오 컴포넌트들에 적용될 수 있고, 이 경우에 이득은 차이 척도의 단조 감소 함수이다.
일부 실시예들에서, 이득은 차이 척도의 함수로서 결정된 주어진 이득 팩터(gain factor)를 개별 오디오 컴포넌트들에 곱함으로써 생성될 수 있다. 이득은 예를 들어 일부 실시예들에서 오디오 컴포넌트의 디코딩 후에 적용될 수 있다. 특히, 디코딩된 신호 값들은 이득 팩터에 의해 곱해질 수 있다. 다른 예로서, 일부 실시예들에서 이득은 인코딩된 오디오 데이터를 직접 정정함으로써 수행될 수 있다. 예를 들어, 개별 오디오 컴포넌트들이 명목상의 오디오 레벨 신호 데이터 및 대응하는 오디오 소스의 오디오 레벨을 나타내는 관련 파라미터로서 제공되는 경우, 어댑터(103)는 오디오 레벨 파라미터를 간단히 수정할 수 있다.
따라서, 어댑터(103)는 개별 오디오 컴포넌트들의 레벨들을 사용자 관점에 대해 선택된 "인-포커스" 거리에 대한 그들의 거리에 따라 서로에 대해 수정하도록 배열될 수 있다.
개별 오디오 컴포넌트들의 레벨들은, 선택된 인-포커스 거리에서 그의 최대값을 갖고 (사용자 관점에서 볼 때) 이러한 인-포커스 거리로부터의 방사상 거리를 증가시키기 위해 점차 감소하는 레벨 가중 곡선을 사용하여 수정될 수 있다. 일례로, 가우스 곡선이 사용될 수 있다.
일부 실시예들에서, 이득은 기준 위치로부터 포커스 거리에 대한 제1 오디오 컴포넌트의 위치까지의 거리들에 대해 비대칭인 차이 척도의 함수로서 결정된다. 따라서, 함수는 포커스 거리보다 크거나 포커스 거리보다 작은 오디오 컴포넌트까지의 거리에 대해 비대칭으로 변경될 수 있다.
특히, 많은 실시예들에서, 이득은 주어진 거리 차이에 대해 포커스 거리보다 작은 거리들에 대한 것보다 포커스 거리보다 큰 거리들에 대해 더 낮을 수 있다. 특히, 일부 실시예들에서, 오디오 컴포넌트들에 대한 최소 오디오 레벨은 포커스 거리보다 더 멀리 떨어진 오디오 컴포넌트들에 대한 것보다 포커스 거리보다 사용자에 더 가까운 오디오 컴포넌트들에 적용될 수 있다(또는 아마도 그 반대일 수 있다).
그러한 접근법은 많은 시나리오들에서 개선된 사용자 경험을 제공할 수 있다. 이것은 특히 많은 사용자들에게 더 현실적으로 보일 수 있는 적응성 오디오 장면을 제공할 수 있다. 접근법은 사용자에 가까운 오디오 소스들이 전형적으로 중요하고 상대적으로 높은(또는 사소하지 않은) 레벨들을 갖는 것으로 인식되는 반면에 더 먼 오디오 소스들이 매우 낮은 레벨들을 가질 수 있음을 반영할 수 있다. 따라서, 접근법은 너무 과도한 감쇠로 인해 비현실적인 오디오 장면이 인식되는 것을 방지하면서도, 그러한 효과를 야기하지 않는 오디오 소스들의 더 높은 감쇠를 허용할 수 있다. 따라서, 접근법은 청취자에 더 가까운 객체들이 더 멀리 떨어진 객체들보다 높은 사운드 레벨을 갖는 자연적 특성("1/r 법칙")을 보존하는 데 도움이 될 수 있다.
설명된 접근법은 광 필드 카메라들로부터의 이미지들을 보완하는 데 특히 적합할 수 있으며, 이 경우에 포커스 평면은 사용 시에 사용자에 의해 조정될 수 있다. 사실상, 접근법은 렌더링된 오디오 장면의 "인-포커스" 거리의 렌더링-시간 변경을 가능하게 하는 상호작용 오디오 처리 메커니즘을 허용할 수 있다. 오디오 포커싱 제어 메커니즘은 시스템의 시각적 부분에 대한 대응하는 포커싱 제어 메커니즘에 결합될 수 있고, 단일 제어 파라미터는 양쪽 양식의 포커싱 메커니즘들을 제어 및 정렬하는 데 사용될 수 있다. 따라서, 동일한 제어가 사용자에 의해 인식되는 시각적 포커스 및 오디오 포커스 양자에 영향을 미칠 수 있다.
예를 들어 마이크 어레이들에 기초하는 빔 형성 기술들을 사용하는 오디오 줌잉과 달리, 전술한 접근법은 사용자에 대해 상이한 거리 계층들에 위치되지만 서로에 대한 그리고 사용자에 대한 자신들의 공간적 관계를 그대로 유지하는 소스들의 사운드 레벨들을 균형화하려고 시도할 수 있다. 사실상, 빔 형성 기술들은 소정의 방향으로부터 또는 공간 내의 소정의 포인트에 있는 사운드 소스로부터 오는 사운드를 가능한 한 많이 격리하여 모든 다른 사운드 소스들/방향들을 가능한 한 많이 억제하려고 시도한다. 현재의 접근법은 주어진 포커스 거리에 가까운 사운드 소스들을 동적으로 강조할 수 있으며, 이는 광 필드 카메라들에 대한 포스트-포커싱(post-focusing) 개념에 대응한다. 그러한 카메라들의 경우, 다른 거리들에 있는 시각적 객체들은 렌더링된 이미지에서 여전히 보이며, 그들의 공간적 관계는 동일하게 유지되지만, 포커스 평면이 변경됨에 따라 상이한 객체들의 상대적인 선명도가 변경될 수 있다. 현재의 접근법은 오디오에 대한 대응하는 효과를 제공할 수 있으며, 이 경우에 모든 오디오 소스들이 유지되지만, 일부 오디오 소스들은 선택된 포커스 평면에 가까울 때 인식적으로 더 중요해진다.
일부 실시예들에서, 360-도(또는 심지어 3D 구형) VR 렌더링 시나리오가 제공될 수 있다. 설명된 오디오 처리 접근법은 사용자로 하여금 예를 들어 주변을 둘러보며 가상 장면 내의 객체들이 최대 "선명도"로 보이고 들리는 그의 관점에 관한 거리에 걸쳐 제어하는 것을 가능하게 할 수 있다. 즉, 이것은 줌잉 거리에 있는 객체들이 효과적으로 사용자에게 더 가까워지는(또는 등가적으로 사용자의 관점이 줌잉 포인트를 향해 움직이는) 알려진 "줌잉" 접근법 다음의 대안적인 상호작용 메커니즘이다.
이전의 설명은 수정되는 인식 강조 특성이 개별 오디오 컴포넌트들에 대한 오디오 레벨(또는 이득)인 실시예들에 집중되었다. 그러나, 다른 실시예들에서, 포커스 거리에 가까운 오디오 컴포넌트들의 강조 또는 예를 들어 인식된 "선명도"를 변경하기 위해 다른 특성들이 추가로 또는 대안적으로 적응될 수 있다.
일부 실시예들에서, 인식 강조 특성은 제1 공간 오디오 컴포넌트에 대한 확산 특성일 수 있다. 렌더링된 오디오 신호의 확산은 오디오 소스가 어떻게 국지화된 것으로 인식되는지에 영향을 줄 수 있다. 전형적으로, 오디오 신호의 확산 특성들의 척도가 증가함에 따라, 인식된 발산 또는 비-국지성이 증가한다. 반대로, 확산 특성을 감소시킴으로써, 오디오 소스는 (포인트 소스에 더 가까운) 더 국지화된 특정 오디오 소스로서 인식될 수 있다. 따라서, 확산의 정도가 감소될 때, 오디오 소스는 "더 선명한" 것으로 인식될 수 있다.
많은 실시예들에서, 어댑터(103)는 감소하는 척도를 나타내는 차이 척도에 대해 다른 공간 컴포넌트들 중 하나 이상에 비해 제1 공간 오디오 컴포넌트에 대한 확산의 정도를 감소시키도록 배열될 수 있다. 따라서, 어댑터(103)는 차이 척도의 함수로서 확산 파라미터를 결정할 수 있고, 확산 파라미터는 차이 척도가 작을수록 확산 정도를 감소시키도록 수정된다.
일부 실시예들에서, 확산 파라미터는 오디오 컴포넌트가 렌더링될 때 적용되어야 하는 확산을 나타내는 파라미터를 정정함으로써 직접 정정될 수 있다. 예를 들어, ADM, MDA 및 MPEG-H 3D 오디오와 같은 객체-기반 오디오를 지원하는 일부 오디오 표준들은 이미, 렌더링된 객체들의 확산을 제어하는 데 사용될 수 있는 객체 메타데이터를 포함한다. 레벨 수정에 대해 설명된 것과 유사한 가중 함수가 오디오 객체들의 확산 특성들에 적용될 수 있고, 최소 확산 가중이 선택된 인-포커스 거리에 있는 객체들에 적용되고(따라서 이들은 최대한 "선명하게" 렌더링됨), 인-포커스 거리로부터 방사상 거리가 증가하는 객체들에 대한 확산 가중을 증가시킨다(따라서, 인-포커스 거리로부터 멀리 떨어져 위치된 객체들은 더 많이 그리고 아마도 고도로 확산된 것으로 렌더링된다).
다른 예로서, 어댑터(103)는 차이 척도에 따라 오디오 신호의 시간 도메인 발산을 수정하도록 배열될 수 있다. 예를 들어, 오디오 컴포넌트에 대한 오디오 신호는 임펄스 응답과 컨벌루션될(convolved) 수 있다. 매우 국지화된 소스의 경우, 임펄스 응답은 매우 짧은 시간 간격으로 집중된 에너지를 가질 수 있으며, 특히 단일 디랙(Dirac) 펄스일 수 있다. 그러나, 더 확산된 소스의 경우, 에너지는 증가하는 수의 반사들에 대응하는 더 긴 지속 기간에 걸쳐 발산될 수 있으며, 예를 들어 개별 반사들보다는 발산 응답들에 대응하는 반향 꼬리들(reverberation tails)을 포함할 수 있다. 따라서, 임펄스 응답은 반향 효과 등을 포함할 수 있다. 일부 실시예들에서, 어댑터(103)는 예를 들어 상이한 확산 정도들에 대응하는 복수의 사전결정된 임펄스 응답들 사이에서 선택할 수 있다. 선택은 차이 척도에 기초할 수 있으며, 선택된 임펄스 응답은 오디오 신호에 적용되어, 오디오 컴포넌트가 포커스 거리에 얼마나 가까운지에 의존하는 확산을 유발할 수 있다.
그러한 예들에서, 오디오 컴포넌트의 시간 렌더링은 정정되어 확산을 도입할 수 있다. 그러나, 대안적으로 또는 추가로, 공간 렌더링이 오디오 컴포넌트의 확산을 증가시키도록 수정될 수 있다. 그러한 접근법들에서, 청취자의 두 귀들 사이의 상관성은 오디오 컴포넌트의 확산을 증가시키도록 감소될 수 있다.
특히, 인식된 확산은 청취자의 귀들 사이의 상관성뿐만 아니라 신호들의 시간적 발산에 의존할 수 있다. 오디오 응용들에 대한 확산에 관한 더 많은 정보는 예를 들어 문헌["Acoustics and Audio Technology (Acoustics: Information and Communication)" by Mendel Kleiner, J Ross Publishing, 2011, ISBN 1604270527 or "Communication Acoustics" by Pulkki, John Wiley & Sons, 2015, ISBN 1118866541]에서 확인될 수 있다.
특히, 인식된 확산은 전형적으로 직접 사운드와 반향 사운드 사이의 레벨 차이에 의존한다. 이 차이의 지시는 하기로서 직접 결정될 수 있다:
Figure pct00001
또는 예를 들어 레벨들 사이의 비로서:
Figure pct00002
또는 전체 레벨에 대한 반향 신호 레벨의 비율로서:
Figure pct00003
여기서, LDirect는 직접 사운드 컴포넌트들의 레벨이고, LReverberation은 반향 사운드 컴포넌트들의 레벨이며, LInd는 이들 사이의 관계의 지시이다(이 지시는 확산이 증가함에 따라 증가한다).
따라서, 일부 실시예들에서, 어댑터(103)는 차이 척도에 응답하여 반향 사운드의 레벨에 대한 직접 사운드의 레벨 사이의 관계를 적응시키도록 배열될 수 있으며, 특히 증가하는 차이 척도에 대해 직접 사운드에 비해 반향 사운드의 레벨을 증가시킬 수 있다.
직접 사운드 및 반향 사운드는 개별 선호들 및 요구들에 따라 상이한 실시예들에서 상이한 방식들로 정의, 결정 및 제어될 수 있음을 알 것이다. 예를 들어, 일부 실시예들에서, 직접 사운드 컴포넌트는 직접 사운드 경로들에(예를 들어, 임펄스 응답 내의 모든 디랙 펄스들에) 대응하는 모든 피크들에 대응할 수 있고, 나머지 신호는 반향 사운드 컴포넌트에 대응할 수 있다.
다른 실시예들에서, 사운드 컴포넌트들은 시간에만 기초하여 구별될 수 있는데, 직접 사운드 컴포넌트들은 제1 시간 임계치 미만의 전송 시간으로 청취자에게 도달하는 컴포넌트들에 대응하는 것들로서 결정되고, 반향 사운드는 제2 시간 임계치(전형적으로 제1 시간 임계치보다 큼)보다 긴 전송 시간으로 청취자에게 도달하는 컴포넌트들에 대응하는 것들로서 결정된다. 예를 들어, 주어진 공간 오디오 컴포넌트에 대한 오디오 신호는 임펄스 응답을 갖는 (확산) 필터에 의해 처리될 수 있다. 직접 사운드의 레벨은 예로서 20-100 msec의 제1 시간 임계치 전의 임펄스 응답의 에너지로서 결정될 수 있다. 이것은 전형적인 방 안에서의 직접 사운드 및 초기 반사들에 대응한다. 반향 사운드의 레벨은 예로서 70-150 msec의 제2 시간 임계치 후의 임펄스 응답의 에너지로서 결정될 수 있다. 이것은 전형적인 방 안에서의 (전형적으로 구별되지 않는) 반향에 대응할 수 있다.
어댑터(103)는 예를 들어 직접 사운드와 반향 사운드 사이의 원하는 관계, 및 그에 따른 원하는 확산 변화를 유발하는 임펄스 응답을 제공하기 위해 상이한 임펄스 응답들을 갖는 상이한 (확산) 필터들 사이에서 전환할 수 있다. 예를 들어, 탐색표가 다수의 임펄스 응답들과 함께 제공될 수 있고, 어댑터(103)는 차이 척도에 기초하여 이들 사이에서 선택할 수 있다.
대안적으로 또는 추가로, 어댑터(103)는 언급된 바와 같이 차이 척도에 따라 청취자의 두 귀들에서의 신호들 사이의 상관성을 변경시키도록 배열될 수 있다. 특히, 어댑터(103)는 차이 척도에 따라 양귀간 상관성을 변경시키도록 배열될 수 있으며, 특히 증가하는 차이 척도에 대해 양귀간 상관성을 감소시키도록 배열될 수 있다.
특히, 양귀간 교차-상관 계수(interaural cross-correlation coefficient, ICCC)가 하기로서 정의될 수 있다:
Figure pct00004
여기서, x(t)와 y(t)는 두 귀들의 신호들이고, τ는 (청취자에 대한 사운드 소스의 방향에 의존하는) 채널들 사이의 오프셋이며, t1과 t2는 적분에 대한 적합한 시간 제한들이다(이는 전형적으로 예를 들어 50-100 msec를 초과할 수 있다).
어댑터(103)는 신호를 처리하여 차이 척도에 따라 ICCC를 적응시키도록 배열될 수 있다. 예를 들어, 임펄스 응답들은 필터들의 뱅크(bank)에 대해 저장될 수 있으며, 임펄스 응답들은 좌우 귀에 대해 상이하다. 차이의 정도, 및 그에 따른 좌우 귀 사이의 상관성은 상이한 필터 쌍들에 대해 상이할 수 있고, 따라서 어댑터(103)는 차이 척도에 따라 원하는 ICCC를 유발하는 한 쌍의 임펄스 응답들을 선택할 수 있다. 특정 예로서, 임펄스 응답들은 상이한 주파수 대역들에 대해 약간 상이한 지연들을 가질 수 있으며, 지연들은 (주파수의 함수로서) 좌우 귀 각각에 대해 상이하게 변경될 수 있다.
양귀간 교차-상관을 제어함에 의한 확산의 제어는 종종 헤드폰 렌더링 응용들에 특히 적합할 수 있는 반면, 직접 대 반향 사운드를 제어함에 의한 확산의 제어는 종종 공간 라우드스피커(loudspeaker) 구성을 사용하는 렌더링에 더 적합할 수 있다.
이러한 방식으로, 포커스 거리에 가까운 오디오 소스들은 포커스 거리로부터 더 멀리 있는 오디오 소스들보다 더 구체적이고 공간적으로 한정적인 것으로 인식될 수 있다.
일부 실시예들에서, 어댑터(103)는 추가로 또는 대안적으로 제1 공간 오디오 처리 장치에 대한 차이 척도에 따라 제1 공간 오디오 컴포넌트에 대한 주파수 신호 분포를 정정하도록 배열될 수 있다.
따라서, 오디오 컴포넌트의 주파수 도메인에서의 에너지 분포는 차이 척도에 따라 변경될 수 있다. 어댑터(103)는 특히, 차이 척도에 의존하는 주파수 응답을 갖는 필터를 적용함으로써 오디오 컴포넌트 신호를 필터링할 수 있다. 예를 들어, 어댑터(103)는 저역 통과 필터 및 고역 통과 필터에 의해 신호를 필터링한 다음, 필터링된 신호들의 가중 조합에 의해 조합 신호를 생성할 수 있다. 가중치들은 차이 척도의 함수로서 결정될 수 있다.
어댑터(103)는 특히, 차이 척도가 작을수록, 즉 오디오 컴포넌트가 포커스 거리에 가까울수록 저주파수 신호 컴포넌트들에 비해 고주파수 신호 컴포넌트들을 증가시킬 수 있다.
오디오 소스는 종종, 증가하는 고주파수 콘텐츠를 가질 때 더 현저해지고 더 두드러지게(그리고 예를 들어 점차 "선명하게") 인식될 수 있다. 따라서, 시스템은 오디오 객체가 포커스 거리에 가까울수록 저주파수 콘텐츠에 비해 고주파수 콘텐츠를 증폭하여, 포커스 거리에 더 가까운 오디오 객체들이 더 구별되고 현저하게 할 수 있다.
다른 예로서, 시스템은 특정 주파수 대역/영역에서 주파수 콘텐츠를 강조할 수 있다. 예를 들어, 중간-고주파수 대역은 상이한 오디오 소스들의 인식된 강조를 수정하도록 증폭/감쇠될 수 있다.
따라서, 일부 실시예들에서, 공간 오디오 컴포넌트는 (렌더링될 때) 차이 척도에 의존하는 주파수 응답을 갖는 필터에 의해 필터링될 수 있다. 예를 들어, 수정된 오디오 신호가 하기로서 생성될 수 있다:
Figure pct00005
여기서,
Figure pct00006
는 주파수 도메인에서의 공간 오디오 컴포넌트에 대한 원래의 오디오 신호이고, H(f,Δ)는 차이 척도 Δ에 의존하는 필터이다.
특히, 시스템은 먼저 공간 오디오 컴포넌트에 대한 오디오 데이터를 디코딩하여 시간 도메인 오디오 신호를 생성할 수 있고, 그 다음 이것은 FFT를 사용하여 주파수 도메인으로 변환될 수 있다. 각각의 빈(bin)에서, 주파수 도메인 신호는 필터 계수에 의해 곱해질 수 있으며, 적어도 일부 빈들에 대한 필터 계수는 차이 척도의 함수로서 결정된다.
일부 실시예들에서, 비교적 복잡한 함수들이 차이 척도의 함수로서 각각의 개별 필터 계수를 결정하기 위해 사용될 수 있다. 그러나, 많은 실시예들에서, 비교적 간단한 접근법이 사용될 수 있다.
예를 들어, 많은 실시예들에서, 주파수 중간 범위에 대한 계수는 1일 수 있는데, 즉 해당 빈에서의 오디오 신호 값은 수정되지 않는다. 높은 주파수들의 경우, 계수는 증가하는 차이 척도에 대해 증가할 수 있지만, 낮은 주파수들의 경우, 계수는 감소하는 차이 척도에 대해 감소될 수 있다. 따라서, 고주파수 강조는 감소하는 차이 척도에 대해 저주파수 강조에 비해 증가되는데, 즉 고주파수 콘텐츠는 포커스 거리에 가까운 오디오 객체들에 대해 강조되고, 더 멀리 떨어진 소스들에 대해서는 강조 해제된다.
많은 실시예들에서, 어댑터(103)는 차이 척도에 의존하는 상이한 주파수 응답들을 갖는 상이한 필터들의 범위 사이에서 선택하도록 배열될 수 있다. 따라서, 탐색표는 필터들의 뱅크를 포함할 수 있고, 어댑터(103)는 차이 척도에 기초하여 이들 사이에서 선택할 수 있다.
그러한 필터들은 많은 실시예들에서 오디오 컴포넌트의 신호의 주파수 분포는 물론, 이것의 확산 양자를 변경할 수 있다는 것을 알 것이다. 따라서, 저장된 필터 응답은 주파수 응답 및 양귀간 교차 상관 양자, 및/또는 직접 및 반향 사운드 컴포넌트들 사이의 관계를 변경할 수 있다.
많은 실시예들에서, 공간 오디오 컴포넌트 신호의 주파수 선택적 필터링은 신호의 전체 에너지/레벨이 수정되지 않도록 정규화를 포함할 수 있다.
따라서, 시스템에서, 상이한 오디오 소스들의 인식 강조/강조 해제는 신호 에너지가 주파수 도메인에서 어떻게 분포되는지를 수정함으로써 전체적으로 또는 부분적으로 달성될 수 있다. 특히, 차이 척도에 의존하는 주파수 응답을 갖는 필터에 의한 필터링이 공간 오디오 컴포넌트 신호에 적용되어, 주파수 신호 분포(특히, 신호의 에너지가 주파수 도메인에서 어떻게 분포되는지)가 차이 척도의 함수로서 변경되게 할 수 있다.
주파수 신호 분포는 주파수 도메인에서의 신호 에너지의 분포로서 결정될 수 있다. 예를 들어, 공간 오디오 컴포넌트에 대한 오디오 신호의 세그먼트가 선택되고, FFT를 사용하여 주파수 도메인으로 변환될 수 있다. 적응 전에, 이것은 주파수 도메인에서 주어진 신호 분포에 대응하는 주어진 주파수 값들의 세트를 제공할 수 있다(각각의 값은 특정 주파수 빈에서의 에너지를 나타낸다). 동일한 접근법이 수정된 오디오 신호에, 즉 차이 척도에 의존하는 적응이 수행된 후에 적용될 수 있다. 상이한 주파수 빈들의 주파수 값들은 이제 주파수 도메인에서 오디오 신호의 상이한 에너지 분포에 대응하여 변경되었을 수 있다. 적응이 차이 척도에 의존함에 따라, 적어도 일부 주파수 빈들에서의 값들도 차이 척도에 의존할 것이고, 따라서 차이 척도의 함수인 상이한 주파수 신호 분포가 달성된다.
주파수 신호 분포의 간단한 척도/지시는 간단히 더 높은 주파수 간격에서의 에너지에 비해 더 낮은 주파수 간격에서의 에너지일 수 있다. 이 관계는 많은 실시예들에서 차이 척도에 따라 수정될 수 있다.
그러한 주파수 신호 분포는 신호들 상에서 직접 측정될 수 있는 반면에, 차이 척도에 기초하는 주파수 신호 분포의 수정은 전형적으로 어떠한 명확한 측정도 없이 수행되지만, 주파수 변경 필터들의 적용으로부터 간단히 발생하며, 이 경우에 필터들은 차이 척도에 의존한다는 것을 알 것이다.
일부 실시예들에서, 오디오 컴포넌트들의 처리는 오디오 소스 위치로부터 기준 위치까지의 거리에 의존할 뿐만 아니라, 오디오 소스 위치로부터 기준 위치로의 방향에도 의존할 수 있는데, 즉 차이 척도는 기준 위치로부터 제1 공간 오디오 컴포넌트의 위치로의 방향에 의존할 수 있다. 특히, 차이 척도는 기준 위치로부터 보았을 때 포커스 거리에 의해 지시된 위치와 제1 공간 오디오 컴포넌트의 위치 사이의 방위각 및 고도 차이 중 적어도 하나에 의존할 수 있다. 따라서, 그러한 실시예들에서, 예를 들어 사용자에 의해 제공되는 포커스 거리는, 거리가 결정될 수 있고 기준 위치에 대한 방위각 및/또는 고도가 결정될 수 있는 위치로서 제공될 수 있다. 다른 실시예들에서, 포커스 거리는 거리 값을 직접 제공할 수 있고, 또한 특정 위치를 정의하는 위치 지시를 포함할 수 있다.
일부 실시예들에서, 차이 척도는 예를 들어 오디오 소스로부터 기준 위치까지의 거리에 의존하는 값 및 오디오 소스로부터 기준 위치로의 방향에 의존하는 값과 같은 복수의 값들을 포함하는 합성 값일 수 있다.
따라서, 많은 실시예들에서, 시스템은 오디오 컴포넌트들에 대해 더 차별화된 강조를 제공할 수 있으며, 특히 사용자가 포커싱하는 방향에 있는 오디오 객체들에 대한 강조를 증가시킬 수 있다. 예를 들어, 사용자는 시청 방향 및 거리를 지시할 수 있으며, 차이 척도는 오디오 컴포넌트들이 지시된 위치에 얼마나 가까운지를 반영할 수 있다. 인식 강조 특성(예를 들어, 오디오 레벨, 확산 정도 및/또는 주파수 분포)을 정정하기 위한 설명된 접근법들은 결정된 차이 척도에 기초하여 적용될 수 있다.
접근법은 많은 상황들에서 개선된 사용자 경험을 제공할 수 있다. 사실상, 오디오가 대응하는 비디오와 조합되는 많은 사용 경우들에서, 공간 내의 임의의 곳에 선택된 인-포커스 거리에 위치되는 모든 오디오 객체들을 "인-포커스"가 되게 하는 것은 바람직하지 않을 수 있다. 오히려, 시청 방향 주위의 제한된 공간 범위 내에 있거나 사용자의 실제 시야 내에 있는 것들만 강조되는 것이 바람직할 수 있다. 이러한 방식으로 오디오의 "포커싱"을 제한하는 것은 예를 들어 (사용자의 관점 및 방향에 대해) 사용자의 뒤에 위치되는 객체들을 포함하여, 선택된 인-포커스 거리에 있는 모든 오디오 객체들에 최대 레벨 가중을 적용하는 것보다 바람직할 수 있다.
설명된 바와 같이, 이것은 전술한 바와 같이 그러나 시청 방향에서 최소로 그리고 시청 방향에 대해 증가하는 각도(방위각 및/또는 고도)에 대해서는 물론, 포커스 거리와 오디오 객체 대 기준 위치 거리 사이의 증가하는 거리 차이에 대해 증가하는 값들로 차이 척도를 적용함으로써 구현될 수 있다. 사용자가 그의 머리를 움직이는(또는 더 일반적으로 그의 시청 방향을 변경하는) 동적 VR 시나리오에서, 이 가중 함수는 그에 따라 수정될 수 있다.
일례로서, 거리 척도는 오디오 컴포넌트의 삼차원 위치와 포커스 거리 데이터에 의해 지시된 삼차원 위치 사이의 거리를 결정함으로써 계산될 수 있다. 삼차원에서의 거리를 반영하는 이 거리는 일부 실시예들에서 차이 척도로서 직접 사용될 수 있다. 일부 실시예들에서, 상이한 차원들은 상이하게 가중될 수 있음을 알 것이다.
다른 예로서, 차이 척도는 2개의 가중 곡선의 곱으로서 도출될 수 있으며, 그 중 하나는 포커스 거리에 대한 오디오 객체 대 기준 위치 거리에 의존하고, 다른 하나는 포커스 방향과 오디오 객체 대 기준 위치 방향 사이의 차이에 의존할 수 있다.
이전 예들에서, 사용자는 포커스 지시, 특히 포커스 거리를 수동으로 제어할 수 있다. 그러나, 많은 실시예들에서, 공간 오디오 처리 장치는 머리, 특히 사용자의 눈들을 추적하는 트래커(tracker)를 포함할 수 있다. 이어서, 포커스 거리는 이 머리 또는 눈 추적에 의해 결정될 수 있다. 트래커는 특히 사용자에 대한 포커스 위치를 결정하기 위해 시선 또는 시야 검출을 수행할 수 있다. 특히 적응성 피사계 심도 추적으로 지칭되는 접근법들을 포함하여 그러한 기능을 위한 다양한 접근법들이 개발되었다.
이어서, 차이 척도는 이 자동 검출에 기초하여 결정될 수 있으며, 오디오 장면은 사용자의 포커스 포인트에 가까운 오디오 객체들에 대한 강조를 증가시키도록 처리될 수 있다. 따라서, 접근법은 사용자가 시각 장면에서 보고 있는 곳에 근접한 오디오 소스들에 대해 증가된 포커스를 제공하도록 오디오 장면을 자동으로 적응시키는 시스템을 제공할 수 있다. 따라서, 시스템은 예를 들어 사용자가 그의 눈들을 포커싱하는 거리를 자동으로 결정할 수 있으며, 이 정보는 비디오 및 오디오 포커싱 양자를 제어하는 데 사용될 수 있다.
설명된 실시예들은 오디오 장면 데이터가 공간 오디오 컴포넌트들 중 적어도 일부, 전형적으로는 전부를 나타내는 개별 오디오 객체들을 포함하는 구현들에 집중되었다. 또한, 명백한 위치 정보가, 예를 들어 메타데이터로서, 오디오 객체들에 대해 존재한다고 가정되었다.
따라서, 많은 실시예들에서, 오디오 장면은 오디오 데이터 및 특히 위치 정보를 포함할 수 있는 관련 메타데이터, 및 예를 들어 제안된 레벨 정보, 반향 파라미터 등과 같은 렌더링 정보에 의해 개별적으로 표현되는 다수의 오디오 객체들에 의해 설명될 수 있다.
최근에는 개별 오디오 소스들을 개별 오디오 객체들로서 표현하는 다수의 오디오 포맷을 개발하는 데 상당한 노력을 기울여 왔다. 따라서, 특정 (명목상 또는 기준) 위치들에 대응하는 오디오 채널들에 의해 오디오 장면을 표현하기보다는, 각각이 (예를 들어, 배경, 확산 및 주변 사운드 소스들을 포함하는) 특정 오디오 소스를 나타내는 개별 오디오 객체들을 제공하는 것이 제안되었다. 전형적으로, 오디오 객체들은 사운드 스테이지 내의 오디오 객체의 타겟 위치를 나타내는 (선택적) 위치 정보와 함께 제공될 수 있다. 따라서, 그러한 접근법들에서, 오디오 소스는 특정한 사전결정된 (라우드스피커) 위치들과 관련된 오디오 채널들에 행하는 기여에 의해서보다는, 별개의 단일 오디오 객체로서 표현될 수 있다.
예를 들어, 오디오 객체들을 지원하기 위해, MPEG는 '공간 오디오 객체 코딩'(ISO/IEC MPEG-D SAOC)으로 알려진 포맷을 표준화했다. DTS, 돌비 디지털(Dolby Digital) 및 MPEG 서라운드와 같은 멀티채널 오디오 코딩 시스템들과 달리, SAOC는 오디오 채널들보다는 개별 오디오 객체들의 효율적 코딩을 제공한다. MPEG 서라운드에서는 각각의 라우드스피커 채널이 사운드 객체들의 상이한 믹스(mix)에서 비롯된 것으로 간주될 수 있지만, SAOC는 멀티채널 믹스 내의 개별 사운드 객체들의 위치의 상호작용 조작을 가능하게 한다.
MPEG 서라운드와 유사하게, SAOC은 또한 모노 또는 스테레오 다운믹스를 생성한다. 또한, 객체 파라미터들이 계산되고 포함된다. 디코더 측에서, 사용자는 위치, 레벨, 등화와 같은 개별 객체들의 다양한 특징들을 제어하거나, 심지어 반향과 같은 효과들을 적용하기 위해 이러한 파라미터들을 조작할 수 있다.
SAOC는 더 유연한 접근법을 가능하게 하며, 특히 재생 채널들만에 더하여 오디오 객체들을 전송함으로써 더 렌더링 기반의 적응성을 가능하게 한다. 이것은 디코더 측으로 하여금 공간이 라우드스피커들에 의해 적절하게 커버되는 경우에 오디오 객체들을 공간 내의 임의의 위치들에 배치할 수 있게 한다. 이러한 방식으로, 전송된 오디오와 재생 또는 렌더링 구성 간에 어떠한 관계도 없으므로 임의의 라우드스피커 구성들이 사용될 수 있다. 이것은 예를 들어 라우드스피커들이 의도된 위치들에 거의 없는 전형적인 거실 내의 홈 시네마 구성들에 유리하다. SAOC에서, 이것은 객체들이 사운드 장면에 배치되는 디코더 측에서 결정된다. 그러나, 오디오 객체들의 렌더링 측 조작이 지원되지만, 전형적으로는 적합한 사운드 스테이지를 여전히 제공하면서 사용자 입력들을 요구하지 않고 오디오가 렌더링될 수 있는 것이 바람직하다. 특히, 오디오가 링크된 비디오 신호와 함께 제공될 때, 오디오 소스들은 이미지 내의 위치들에 대응하는 위치들에 렌더링되는 것이 바람직하다. 따라서, 오디오 객체들은 종종 개별 오디오 객체에 대한 제안된 렌더링 위치를 나타내는 타겟 위치 데이터와 함께 제공될 수 있다.
오디오 객체 기반 포맷들의 다른 예들은 문헌[MPEG-H 3D Audio [ISO/IEC 23008-3 (DIS): Information technology ― High efficiency coding and media delivery in heterogeneous environments ― Part 3: 3D audio, 2014.]], 문헌[ADM [EBU Tech 3364 "Audio Definition Model Ver. 1.0", 2014]] 및 독점 표준들, 예를 들어 문헌[Dolby Atmos [SMPTE TC-25CSS10 WG on ,,Interoperable Immersive Sound Systems for Digital Cinema", 2014]] 및 문헌[DTS-MDA [ETSI document TS 103 223, "The Multi-Dimensional Audio (MDA) Content Creation Format Specification with Extensions for Consumer Environments", 2014]]을 포함한다.
오디오 장면 데이터는 장면 내의 다양한 오디오 소스들에 대한 다수의 상이한 오디오 객체들을 지정하는 오디오 데이터를 포함할 수 있다. 이러한 오디오 객체들 중 일부는 어떠한 특정 위치와도 관련되지 않는 확산 또는 일반 사운드들일 수 있다. 예를 들어, 하나 이상의 오디오 객체들은 배경 또는 주변 사운드들을 나타내는 주변 또는 배경 오디오 객체들일 수 있다. 그러나 다른 오디오 객체들은 사운드 스테이지 내의 특정 위치들에 대응하는 특정 사운드 소스들과 관련될 수 있다. 따라서, 시청각 신호는 특정 오디오 객체들에 대한 원하는 위치들의 지시들을 제공하는 위치 데이터도 포함할 수 있는데, 즉 그것은 오디오 객체들에 대한 타겟 위치 데이터를 포함할 수 있다.
일부 시나리오들에서는 하나 이상의 오디오 객체들이 특정 이미지 객체들과 관련될 수 있다. 예를 들어, 오디오 객체는 이미지에서 사람으로부터의 음성에 대응할 수 있다. 따라서, 이 오디오 객체는 사람 또는 더 구체적으로는(예를 들어, 클로즈업의 경우) 사람의 입에 대응하는 이미지 객체와 관련될 수 있다. 시청각 신호는 그러한 예에서 3D 이미지 내의 대응하는 이미지 객체(즉, 스피커(또는 스피커의 입))의 위치를 나타내는 음성 및 위치 데이터를 설명하는 오디오 데이터를 포함할 수 있다.
다른 오디오 객체들의 경우, 삼차원 이미지에 대한 관련성은 특정 이미지 객체에 대한 관련성이 아니라, 3D 이미지에 의해 표현된 장면에 더 간접적으로 관련될 수 있다. 예를 들어, 오디오는 (예로서, 폐색, 거리 또는 크기로 인해) 렌더링된 이미지에서 보이지 않는 소스로부터 발생될 수 있다.
따라서, 오디오 객체들은 전형적으로 특정의 사전결정된 또는 기준 위치에 대해 제공된 오디오 채널 컴포넌트들이 아니라 전형적으로 장면 내의 개별 사운드 소스들에 대응한다. 특히, 오디오 객체들 중 하나 이상은 3D 이미지 내의 하나의 이미지 객체에 직접 관련될 수 있다(예를 들어, 음성 오디오 객체는 스피커를 나타내는 이미지 객체와 관련될 수 있다). 주어진 오디오 객체에 대한 위치 데이터는 오디오 객체에 의해 표현된 사운드 소스의 장면 내의 위치를 나타낼 수 있다.
위치 데이터는 모든 오디오 객체들에 대해 포함될 필요는 없다는 것을 알 것이다. 특히, 일부 오디오 객체들은 특정 위치들을 갖는 사운드 소스들에 대응하는 것이 아니라, 확산 또는 발산 소스 위치들을 가질 수 있다. 예를 들어, 일부 오디오 객체들은 특정 위치들로부터 렌더링되도록 의도되지 않은 주변 또는 배경 사운드에 대응할 수 있다.
설명된 접근법은 오디오 객체들을 포함하는 오디오 장면 데이터와 함께 사용될 때 특히 유리할 수 있지만, 다른 실시예들에서는 오디오 데이터가 다른 방식들로 제공될 수 있음을 알 것이다. 예를 들어, 오디오 장면 데이터는 예를 들어 그것이 통상적인 서라운드 사운드 오디오 신호를 제공할 수 있는 것과 같이, 복수의 공간 오디오 채널들에 대한 데이터를 제공할 수 있다. 오디오 수신기(101)는 그러한 실시예들에서 예를 들어 주요 컴포넌트 분석(Principal Component Analysis, PCA) 또는 다른 적합한 오디오 추출 접근법을 사용하여 오디오 컴포넌트들을 추출하도록 배열될 수 있다. 그러한 기술들은 또한 추출된 오디오 컴포넌트들에 대한 추정된 위치를 제공할 수 있다. 이어서, 결과적인 오디오 컴포넌트들 및 위치 정보는 오디오 객체들에 대해 설명된 바와 같이 처리될 수 있다.
위의 설명은 명료함을 위해 상이한 기능 회로들, 유닛들 및 프로세서들을 참조하여 본 발명의 실시예들을 설명하였음을 알 것이다. 그러나, 본 발명으로부터 벗어남이 없이 상이한 기능 회로들, 유닛들 또는 프로세서들 간의 기능의 임의의 적합한 분배가 사용될 수 있음이 명백할 것이다. 예를 들어, 별개의 프로세서들 또는 제어기들에 의해 수행되도록 예시된 기능이 동일한 프로세서 또는 제어기들에 의해 수행될 수 있다. 따라서, 특정 기능 유닛들 또는 회로들에 대한 참조들은 오로지 엄격한 논리적 또는 물리적 구조 또는 조직을 나타내기보다는 설명된 기능을 제공하기 위한 적합한 수단에 대한 참조들로 간주되어야 한다.
본 발명은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 조합을 포함한 임의의 적합한 형태로 구현될 수 있다. 본 발명은 선택적으로 하나 이상의 데이터 프로세서들 및/또는 디지털 신호 프로세서들 상에서 실행되는 컴퓨터 소프트웨어로서 적어도 부분적으로 구현될 수 있다. 본 발명의 실시예의 요소들 및 컴포넌트들은 임의의 적합한 방식으로 물리적으로, 기능적으로 그리고 논리적으로 구현될 수 있다. 사실상, 기능은 단일 유닛에서, 복수의 유닛들에서, 또는 다른 기능 유닛들의 일부로서 구현될 수 있다. 그렇기 때문에, 본 발명은 단일 유닛에서 구현될 수 있거나, 상이한 유닛들, 회로들 및 프로세서들 간에 물리적으로 그리고 기능적으로 분배될 수 있다.
본 발명이 일부 실시예들과 관련하여 설명되었지만, 본 명세서에 기재된 특정 형태로 제한되도록 의도되지 않는다. 오히려, 본 발명의 범주는 첨부된 청구범위에 의해서만 제한된다. 또한, 소정 특징이 특정 실시예들과 관련하여 설명되는 것처럼 보일 수 있지만, 당업자는 설명된 실시예들의 다양한 특징들이 본 발명에 따라 조합될 수 있음을 인식할 것이다. 청구범위에서, 용어 '포함하는'은 다른 요소들 또는 단계들의 존재를 배제하지 않는다.
또한, 개별적으로 열거되지만, 복수의 수단들, 요소들, 회로들 또는 방법 단계들은 예를 들어 단일 회로, 유닛 또는 프로세서에 의해 구현될 수 있다. 또한, 개별 특징들이 상이한 청구항들에 포함될 수 있지만, 이들은 아마도 유리하게 조합될 수 있으며, 상이한 청구항들에의 포함은 특징들의 조합이 실현가능하지 않고/않거나 유리하지 않다는 것을 암시하지는 않는다. 또한, 하나의 카테고리의 청구항들에의 소정 특징의 포함은 이 카테고리로의 제한을 암시하는 것이 아니라, 오히려 그 특징이 적절한 바에 따라 다른 청구항 카테고리들에 동등하게 적용될 수 있음을 나타낸다. 또한, 청구항들에서의 특징들의 순서는 특징들이 작용되어야 하는 임의의 특정 순서를 암시하지는 않으며, 특히 방법 청구항에서의 개별 단계들의 순서는 단계들이 이 순서대로 수행되어야 함을 암시하지는 않는다. 오히려, 단계들은 임의의 적합한 순서로 수행될 수 있다. 또한, 단수형 언급은 복수를 배제하지 않는다. 따라서, 단수형 표현("a", "an"), "제1", "제2" 등에 대한 언급은 복수를 배제하지 않는다. 청구범위에서의 참조 부호들은 단지 명료화 예로서 제공되며, 어떤 방식으로도 청구범위의 범주를 제한하는 것으로 해석되지 않아야 한다.

Claims (15)

  1. 공간 오디오 처리 장치(spatial audio processing apparatus)로서,
    오디오 장면(audio scene)을 설명하는 오디오 장면 데이터를 수신하기 위한 수신기(101)로서, 상기 오디오 장면 데이터는 공간 오디오 컴포넌트들을 설명하는 오디오 데이터 및 상기 공간 오디오 컴포넌트들 중 적어도 일부에 대한 상기 오디오 장면 내의 위치들을 설명하는 위치 데이터를 포함하는, 상기 수신기(101);
    상기 오디오 장면 내의 기준 위치로부터의 거리를 나타내는 가변 포커스 거리(variable focus distance)를 제공하기 위한 거리 유닛(105);
    상기 오디오 장면의 적어도 하나의 다른 공간 오디오 컴포넌트에 대한 상기 공간 오디오 컴포넌트들 중 적어도 제1 공간 오디오 컴포넌트의 인식 강조 특성(perceptual emphasis property)을, 상기 가변 포커스 거리와 상기 기준 위치로부터 상기 제1 공간 오디오 컴포넌트의 위치까지의 상기 오디오 장면 내의 거리 사이의 차이를 반영하는 차이 척도(difference measure)에 응답하여 적응시키기 위한 어댑터(103);
    상기 공간 오디오 컴포넌트들을 렌더링하기 위한 오디오 렌더러(audio renderer)로서, 상기 렌더링은 상기 위치 데이터에 응답하고, 상기 제1 공간 오디오 컴포넌트의 상기 렌더링은 상기 어댑터(103)가 상기 인식 강조 특성을 적응시키는 것에 후속하는, 상기 오디오 렌더러
    를 포함하는, 공간 오디오 처리 장치.
  2. 제1항에 있어서, 상기 어댑터(103)는 상기 가변 포커스 거리와 상기 기준 위치로부터 상기 제1 공간 오디오 컴포넌트의 상기 위치까지의 상기 오디오 장면 내의 상기 거리 사이의 차이의 연속 함수로서 상기 인식 강조 특성의 값을 결정하도록 배열되는, 공간 오디오 처리 장치.
  3. 제2항에 있어서, 상기 어댑터(103)는 감소하는 차이를 나타내는 상기 차이 척도에 대해 상기 적어도 하나의 다른 공간 오디오 컴포넌트에 비해 상기 제1 공간 오디오 컴포넌트에 대한 이득을 증가시키도록 배열되는, 공간 오디오 처리 장치.
  4. 제3항에 있어서, 상기 이득은 상기 차이 척도의 함수로서 결정되며, 상기 함수는 상기 가변 포커스 거리보다 작은 상기 기준 위치로부터 상기 제1 공간 오디오 컴포넌트의 상기 위치까지의 거리들에 대해 그리고 상기 가변 포커스 거리보다 큰 상기 기준 위치로부터 상기 제1 공간 오디오 컴포넌트의 상기 위치까지의 거리들에 대해 비대칭인, 공간 오디오 처리 장치.
  5. 제1항에 있어서, 상기 인식 강조 특성은 상기 제1 공간 오디오 컴포넌트에 대한 주파수 신호 분포인, 공간 오디오 처리 장치.
  6. 제5항에 있어서, 상기 어댑터는 상기 차이 척도에 응답하여 상기 적어도 하나의 다른 공간 오디오 컴포넌트의 주파수 종속 필터링을 변경하도록 배열되는, 공간 오디오 처리 장치.
  7. 제1항에 있어서, 상기 인식 강조 특성은 상기 제1 공간 오디오 컴포넌트에 대한 확산 특성(diffuseness property)인, 공간 오디오 처리 장치.
  8. 제7항에 있어서, 상기 어댑터는 감소하는 차이를 나타내는 상기 차이 척도에 대해 상기 오디오 장면의 상기 적어도 하나의 다른 공간 오디오 컴포넌트에 비해 상기 제1 공간 오디오 컴포넌트에 대한 확산의 정도를 감소시키도록 배열되는, 공간 오디오 처리 장치.
  9. 제1항에 있어서, 상기 차이 척도는 상기 기준으로부터 상기 제1 공간 오디오 컴포넌트의 상기 위치로의 방향에 추가로 의존하는, 공간 오디오 처리 장치.
  10. 제1항에 있어서, 상기 오디오 장면 데이터는 상기 공간 오디오 컴포넌트들 중 적어도 일부를 나타내는 오디오 객체들을 포함하는, 공간 오디오 처리 장치.
  11. 제1항에 있어서, 상기 거리 유닛(105)은 청취자 머리 및 눈 추적 중 적어도 하나에 응답하여 상기 가변 포커스 거리를 결정하도록 배열되는, 공간 오디오 처리 장치.
  12. 제1항에 있어서, 상기 어댑터(103)는 상기 제1 공간 오디오 컴포넌트에 대한 양귀간 도달 시간차(Interaural Time Difference)를 변경시키지 않고 상기 인식 강조 특성을 적응시키도록 배열되는, 공간 오디오 처리 장치.
  13. 제1항에 있어서, 상기 어댑터(103)는 상기 인식 강조 특성을 적응시켜 상기 기준 위치로부터 상기 제1 공간 오디오 컴포넌트의 상기 위치까지의 상기 거리보다 큰 상기 가변 포커스 거리에 대한 증가하는 차이 척도에 대해 상기 제1 오디오 컴포넌트의 강조를 감소시키도록 배열되는, 공간 오디오 처리 장치.
  14. 공간 오디오 처리 방법으로서,
    오디오 장면을 설명하는 오디오 장면 데이터를 수신하는 단계로서, 상기 오디오 장면 데이터는 공간 오디오 컴포넌트들을 설명하는 오디오 데이터 및 상기 공간 오디오 컴포넌트 중 적어도 일부에 대한 상기 오디오 장면 내의 위치들을 설명하는 위치 데이터를 포함하는, 상기 오디오 장면을 설명하는 오디오 장면 데이터를 수신하는 단계;
    상기 오디오 장면 내의 기준 위치로부터의 거리를 나타내는 가변 포커스 거리를 제공하는 단계;
    상기 오디오 장면의 적어도 하나의 다른 공간 오디오 컴포넌트에 대한 상기 공간 오디오 컴포넌트들 중 적어도 제1 공간 오디오 컴포넌트의 인식 강조 특성을, 상기 가변 포커스 거리와 상기 기준 위치로부터 상기 제1 공간 오디오 컴포넌트의 위치까지의 상기 오디오 장면 내의 거리 사이의 차이를 반영하는 차이 척도에 응답하여 적응시키는 단계; 및
    상기 인식 강조 특성의 상기 적응에 후속하여, 상기 제1 공간 오디오 컴포넌트를 포함하는 상기 공간 오디오 컴포넌트들을 렌더링하는 단계로서, 상기 렌더링은 상기 위치 데이터에 응답하는, 상기 제1 공간 오디오 컴포넌트를 포함하는 상기 공간 오디오 컴포넌트들을 렌더링하는 단계
    를 포함하는, 공간 오디오 처리 방법.
  15. 컴퓨터 프로그램 제품으로서,
    상기 프로그램이 컴퓨터 상에서 실행될 때 제14항의 단계들 모두를 수행하도록 구성된 컴퓨터 프로그램 코드 수단을 포함하는, 컴퓨터 프로그램 제품.
KR1020187032537A 2016-04-12 2017-04-06 포커스 거리에 가까운 사운드 소스들을 강조하는 공간 오디오 처리 KR102319880B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP16164787.0 2016-04-12
EP16164787 2016-04-12
PCT/EP2017/058172 WO2017178309A1 (en) 2016-04-12 2017-04-06 Spatial audio processing emphasizing sound sources close to a focal distance

Publications (2)

Publication Number Publication Date
KR20180127508A true KR20180127508A (ko) 2018-11-28
KR102319880B1 KR102319880B1 (ko) 2021-11-02

Family

ID=55759468

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187032537A KR102319880B1 (ko) 2016-04-12 2017-04-06 포커스 거리에 가까운 사운드 소스들을 강조하는 공간 오디오 처리

Country Status (8)

Country Link
US (1) US10440496B2 (ko)
EP (1) EP3443762B1 (ko)
JP (1) JP6878458B2 (ko)
KR (1) KR102319880B1 (ko)
CN (1) CN109076306B (ko)
BR (1) BR112018070813A2 (ko)
RU (1) RU2735652C2 (ko)
WO (1) WO2017178309A1 (ko)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10609475B2 (en) 2014-12-05 2020-03-31 Stages Llc Active noise control and customized audio system
US10945080B2 (en) 2016-11-18 2021-03-09 Stages Llc Audio analysis and processing system
EP3343349B1 (en) * 2016-12-30 2022-06-15 Nokia Technologies Oy An apparatus and associated methods in the field of virtual reality
WO2019008625A1 (ja) * 2017-07-03 2019-01-10 日本電気株式会社 信号処理装置、信号処理方法およびプログラムを記憶する記憶媒体
US10165388B1 (en) * 2017-11-15 2018-12-25 Adobe Systems Incorporated Particle-based spatial audio visualization
EP3503102A1 (en) * 2017-12-22 2019-06-26 Nokia Technologies Oy An apparatus and associated methods for presentation of captured spatial audio content
EP3506080B1 (en) * 2017-12-27 2023-06-07 Nokia Technologies Oy Audio scene processing
EP3506661A1 (en) 2017-12-29 2019-07-03 Nokia Technologies Oy An apparatus, method and computer program for providing notifications
GB201800918D0 (en) * 2018-01-19 2018-03-07 Nokia Technologies Oy Associated spatial audio playback
WO2019147064A1 (ko) * 2018-01-26 2019-08-01 엘지전자 주식회사 오디오 데이터를 송수신하는 방법 및 그 장치
EP3550860B1 (en) * 2018-04-05 2021-08-18 Nokia Technologies Oy Rendering of spatial audio content
CN113993060A (zh) 2018-04-09 2022-01-28 杜比国际公司 用于mpeg-h 3d音频的三自由度(3dof+)扩展的方法、设备和系统
US11375332B2 (en) 2018-04-09 2022-06-28 Dolby International Ab Methods, apparatus and systems for three degrees of freedom (3DoF+) extension of MPEG-H 3D audio
EP3595337A1 (en) * 2018-07-09 2020-01-15 Koninklijke Philips N.V. Audio apparatus and method of audio processing
EP3595336A1 (en) * 2018-07-09 2020-01-15 Koninklijke Philips N.V. Audio apparatus and method of operation therefor
GB2591066A (en) * 2018-08-24 2021-07-21 Nokia Technologies Oy Spatial audio processing
US20220122616A1 (en) * 2019-01-25 2022-04-21 Sony Group Corporation Information processing device and information processing method
GB2584629A (en) * 2019-05-29 2020-12-16 Nokia Technologies Oy Audio processing
GB2584837A (en) * 2019-06-11 2020-12-23 Nokia Technologies Oy Sound field related rendering
KR20210048271A (ko) * 2019-10-23 2021-05-03 엘지전자 주식회사 복수 객체에 대한 자동 오디오 포커싱 방법 및 장치
GB2589082A (en) * 2019-11-11 2021-05-26 Nokia Technologies Oy Audio processing
EP3873112A1 (en) * 2020-02-28 2021-09-01 Nokia Technologies Oy Spatial audio
CN116018824A (zh) * 2020-08-20 2023-04-25 松下电器(美国)知识产权公司 信息处理方法、程序和音响再现装置
JP7371595B2 (ja) * 2020-09-15 2023-10-31 横河電機株式会社 装置、システム、方法およびプログラム
WO2022178194A1 (en) * 2021-02-18 2022-08-25 Dathomir Laboratories Llc Decorrelating objects based on attention
US11967335B2 (en) * 2021-09-03 2024-04-23 Google Llc Foveated beamforming for augmented reality devices and wearables

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006074589A (ja) * 2004-09-03 2006-03-16 Matsushita Electric Ind Co Ltd 音響処理装置
JP2011092302A (ja) * 2009-10-27 2011-05-12 Konami Digital Entertainment Co Ltd ゲーム装置、ゲーム装置の制御方法、及びプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3258816B2 (ja) * 1994-05-19 2002-02-18 シャープ株式会社 3次元音場空間再生装置
JP3907413B2 (ja) * 2001-01-12 2007-04-18 株式会社ケンウッド 音響検出装置
EP1227392A2 (en) * 2001-01-29 2002-07-31 Hewlett-Packard Company Audio user interface
US8509454B2 (en) * 2007-11-01 2013-08-13 Nokia Corporation Focusing on a portion of an audio scene for an audio signal
US8520872B2 (en) 2008-08-14 2013-08-27 Samsung Electronics Co., Ltd. Apparatus and method for sound processing in a virtual reality system
WO2011095913A1 (en) * 2010-02-02 2011-08-11 Koninklijke Philips Electronics N.V. Spatial sound reproduction
JP2011188287A (ja) * 2010-03-09 2011-09-22 Sony Corp 映像音響装置
EP2564601A2 (en) * 2010-04-26 2013-03-06 Cambridge Mechatronics Limited Loudspeakers with position tracking of a listener
JP6078556B2 (ja) * 2012-01-23 2017-02-08 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. オーディオ・レンダリング・システムおよびそのための方法
JP5825176B2 (ja) * 2012-03-29 2015-12-02 富士通株式会社 携帯端末、音源位置制御方法および音源位置制御プログラム
US9674609B2 (en) * 2013-08-19 2017-06-06 Yamaha Corporation Speaker device and audio signal processing method
US9143880B2 (en) * 2013-08-23 2015-09-22 Tobii Ab Systems and methods for providing audio to a user based on gaze input

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006074589A (ja) * 2004-09-03 2006-03-16 Matsushita Electric Ind Co Ltd 音響処理装置
JP2011092302A (ja) * 2009-10-27 2011-05-12 Konami Digital Entertainment Co Ltd ゲーム装置、ゲーム装置の制御方法、及びプログラム

Also Published As

Publication number Publication date
KR102319880B1 (ko) 2021-11-02
RU2018139285A (ru) 2020-05-12
US20190174246A1 (en) 2019-06-06
BR112018070813A2 (pt) 2019-07-16
EP3443762A1 (en) 2019-02-20
RU2735652C2 (ru) 2020-11-05
EP3443762B1 (en) 2020-06-10
WO2017178309A1 (en) 2017-10-19
JP6878458B2 (ja) 2021-05-26
CN109076306A (zh) 2018-12-21
RU2018139285A3 (ko) 2020-05-13
US10440496B2 (en) 2019-10-08
CN109076306B (zh) 2021-04-13
JP2019514293A (ja) 2019-05-30

Similar Documents

Publication Publication Date Title
KR102319880B1 (ko) 포커스 거리에 가까운 사운드 소스들을 강조하는 공간 오디오 처리
WO2018211166A1 (en) Vr audio superzoom
US20140037117A1 (en) Method and system for upmixing audio to generate 3d audio
US11877135B2 (en) Audio apparatus and method of audio processing for rendering audio elements of an audio scene
US20210329400A1 (en) Spatial Audio Rendering Point Extension
CN112369048A (zh) 音频装置和其操作的方法
WO2019193244A1 (en) An apparatus, a method and a computer program for controlling playback of spatial audio
CN114631332A (zh) 比特流中音频效果元数据的信令
RU2815621C1 (ru) Аудиоустройство и способ обработки аудио

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant