KR20230088428A - 시청각 렌더링 장치 및 그 동작 방법 - Google Patents

시청각 렌더링 장치 및 그 동작 방법 Download PDF

Info

Publication number
KR20230088428A
KR20230088428A KR1020237016166A KR20237016166A KR20230088428A KR 20230088428 A KR20230088428 A KR 20230088428A KR 1020237016166 A KR1020237016166 A KR 1020237016166A KR 20237016166 A KR20237016166 A KR 20237016166A KR 20230088428 A KR20230088428 A KR 20230088428A
Authority
KR
South Korea
Prior art keywords
rendering
coordinate system
category
audio
user
Prior art date
Application number
KR1020237016166A
Other languages
English (en)
Inventor
파울루스 헨리쿠스 안토니우스 딜렌
Original Assignee
코닌클리케 필립스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 엔.브이. filed Critical 코닌클리케 필립스 엔.브이.
Publication of KR20230088428A publication Critical patent/KR20230088428A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/003Navigation within 3D models or images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T19/00Manipulating 3D models or images for computer graphics
    • G06T19/006Mixed reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • H04S7/303Tracking of listener position or orientation
    • H04S7/304For headphones
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computer Graphics (AREA)
  • Remote Sensing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Stereophonic System (AREA)
  • Processing Or Creating Images (AREA)

Abstract

시청각 렌더링 장치는 시청각 항목들을 수신하는 수신기(201)를 포함하고, 수신기(209)는, 입력 좌표계를 참조하여 제공된 입력 포즈들 및 렌더링 카테고리를 나타내는 렌더링 카테고리 표시들을 포함하는 메타데이터를 수신한다. 수신기(213)는 사용자 머리 움직임 데이터를 수신하고, 맵퍼(211)는 사용자 머리 움직임 데이터에 응답하여 렌더링 좌표계에서의 렌더링 포즈들에 입력 포즈들을 맵핑한다. 렌더러(203)는 렌더링 포즈들을 사용하여 시청각 항목들을 렌더링한다. 각각의 렌더링 카테고리는 실세계 좌표계로부터 카테고리 좌표계로의 상이한 좌표계 변환과 연계되고, 적어도 하나의 카테고리 좌표계는 실세계 좌표계 및 렌더링 좌표계에 대해 가변적이다. 맵퍼는, 렌더링 카테고리 표시에 응답하여 시청각 항목에 대한 렌더링 카테고리를 선택하고, 그리고 다양한 사용자 머리 움직임에 대한 카테고리 좌표계에서의 고정 포즈들에 대응하는 렌더링 포즈들에 입력 포즈를 맵핑하며, 카테고리 좌표계는 렌더링 카테고리의 좌표계 변환으로부터 결정된다.

Description

시청각 렌더링 장치 및 그 동작 방법
본 발명은 시청각 렌더링(audiovisual rendering) 장치 및 그 동작 방법에 관한 것으로, 특히, 이러한 것을 사용하여 예컨대, 증강/가상 현실 애플리케이션을 지원하는 것에 관한 것이지만, 전적으로 그런 것은 아니다.
시청각 콘텐츠에 기초한 경험의 다양성 및 범위는 이러한 콘텐츠를 이용하고 소비하는 새로운 서비스 및 방식이 계속 개발되고 도입됨에 따라 최근에 상당히 증가하였다. 특히, 많은 공간적 및 대화형 서비스, 애플리케이션, 및 경험이 사용자에게 더 참여적이고 몰입적인 경험을 제공하도록 개발되고 있다.
그러한 애플리케이션들의 예들은 빠르게 주류가 되고 있는 가상 현실(VR), 증강 현실(AR), 및 혼합 현실(MR) 애플리케이션들이며, 다수의 솔루션들이 소비자 시장을 목표로 한다. 다수의 표준이 또한 다수의 표준화 기구에 의해 개발 중이다. 그러한 표준화 활동은, 예를 들어 스트리밍, 브로드캐스팅, 렌더링 등을 포함한 VR/AR/MR 시스템의 다양한 양태에 대한 표준을 활발하게 개발하고 있다.
VR 애플리케이션은 상이한 세계/환경/장면에 있는 사용자에 상응하는 사용자 경험을 제공하는 경향이 있는 반면, AR(혼합 현실(MR)을 포함함) 애플리케이션은 현재 환경에 있는 사용자에 상응하지만 추가적인 정보 또는 가상 객체 또는 정보가 추가된 사용자 경험을 제공하는 경향이 있다. 이에 따라, VR 애플리케이션은 완전 몰입적인 합성적으로 생성된 세계/장면을 제공하는 경향이 있는 반면, AR 애플리케이션은 사용자가 물리적으로 존재하는 실제 장면에 오버레이된 부분 합성 세계/장면을 제공하는 경향이 있다. 그러나, 상기 용어는 종종 상호 교환적으로 사용되고 겹치는 정도가 높다. 하기에서, 용어 가상 현실/VR은 가상 현실 및 증강 현실 둘 모두를 나타내는 데 사용될 것이다.
예로서, 점점 더 인기 있는 서비스는, 사용자가 시스템과 활발하게 그리고 동적으로 상호작용하여 렌더링의 파라미터들을 변경시킬 수 있어서, 이것이 사용자의 포지션 및 배향에 있어서의 움직임 및 변경들에 적응할 방식으로 이미지들 및 오디오를 제공하는 것이다. 많은 애플리케이션들에서의 매우 매력적인 특징은, 예를 들어, 뷰어(viewer)가 제시되는 장면 내에서 이동하고 "둘러볼" 수 있게 하는 것과 같은, 뷰어의 효과적인 뷰잉 포지션 및 뷰잉 방향을 변경하는 능력이다.
그러한 특징은 특히 가상 현실 경험이 사용자에게 제공될 수 있게 할 수 있다. 이것은 사용자가 가상 환경에서 (비교적) 자유롭게 돌아다니고 그의 포지션 및 그가 보고 있는 곳을 동적으로 변경할 수 있게 할 수 있다. 통상적으로, 이러한 가상 현실 애플리케이션은 장면의 3차원 모델에 기초하며, 상기 모델은 특정한 요청된 뷰(view)를 제공하기 위해 동적으로 평가된다. 이러한 접근법은, 예를 들어, 컴퓨터 및 콘솔에 대해, 예컨대 1인칭 슈터 카테고리에서의 게임 애플리케이션에서 잘 알려져 있다.
특히 가상 현실 애플리케이션들에 대해, 제시되는 이미지가 3차원 이미지인 것이 또한 바람직하다. 실제로, 뷰어의 몰입을 최적화하기 위해, 사용자가 제시된 장면을 3차원 장면으로서 경험하는 것이 통상적으로 바람직하다. 실제로, 가상 현실 경험은 바람직하게는 사용자가 가상 세계에 대한 그/그녀 자신의 포지션, 카메라 뷰포인트(camera viewpoint), 및 시간적 순간을 선택할 수 있게 하여야 한다.
시각적 렌더링에 더하여, 대부분의 VR/AR 애플리케이션들은 대응하는 오디오 경험을 추가로 제공한다. 많은 애플리케이션들에서, 오디오는 바람직하게는, 오디오 소스들이 시각적 장면 내의 대응하는 객체들(현재 가시적인 객체들 및 현재 가시적이지 않은(예컨대, 사용자의 뒤에 있는) 객체들 둘 모두를 포함함)의 포지션들에 대응하는 포지션들로부터 도달하는 것으로 인식되는 공간적 오디오 경험을 제공한다. 이에 따라, 오디오 및 비디오 장면들은 바람직하게는 일관된 것으로 인식되며, 이들 둘 모두는 완전한 공간 경험을 제공한다.
오디오의 경우, 지금까지 주로 바이노럴 오디오 렌더링 기술을 사용한 헤드폰 재생에 초점을 맞추어 왔다. 많은 시나리오들에서, 헤드폰 재생은 사용자에게 매우 몰입적인 개인화된 경험을 가능하게 한다. 머리추적(headtracking)을 사용하면, 사용자의 머리 움직임들에 반응하는 렌더링이 이루어질 수 있으며, 이는 몰입감을 매우 증가시킨다.
IVAS(Immersive Voice and Audio Service)들의 목적으로, 3GPP 컨소시엄은 소위 IVAS 코덱(3GPP SP-170611 'New WID on EVS Codec Extension for Immersive Voice and Audio Services')을 개발한다. 이러한 코덱은 다양한 오디오 스트림들을 수신단에서의 재생에 적합한 형태로 변환하는 렌더러를 포함한다. 특히, 오디오는 헤드폰 또는 헤드폰이 내장된 머리 장착 VR 디바이스들을 통한 재생을 위해 바이노럴 포맷으로 렌더링될 수 있다.
많은 그러한 애플리케이션들에서, 렌더링 디바이스는 3차원 오디오 및/또는 시각적 장면을 기술하는 입력 데이터를 수신할 수 있고, 렌더러는 이러한 데이터를 렌더링하여 3차원 장면의 인식을 제공하는 시청각 경험을 사용자에게 제공하도록 배열될 수 있다.
그러나, 적합한 경험을 제공하는 것은 많은 애플리케이션들에서 어려운 전망이고, 특히, 사용자에게 바람직한 경험이 제공되도록 머리 움직임들에 응답하여 렌더링을 적응시키는 것은 어려운 일이다.
예를 들어, 사운드 소스들의 방향 및 거리의 인간 인식은 소스로부터 양쪽 귀로의 사운드의 (전형적으로 상이한) 지연 및 필터링으로 인한 것뿐만 아니라, 대체로는 이들이 회전들과 같은 머리 움직임들에 따라 변하는 방식으로 인한 것으로 알려져 있다. 유사하게, 시각적 객체들의 시차 및 유사한 움직임은 강한 3차원 시각적 큐들을 제공한다. 무의식적으로, 우리는 일상 생활에서 우리의 머리를 (종종 미묘하게) 움직이고 흔들기 때문에, 사운드가 유사하게 미묘하지만 명확한 방식들로 변화하고, 이는 우리가 익숙한 몰입적인 '우리 주변의(around us)' 듣는/보는 경험을 상당히 증가시킨다.
헤드폰 재생을 이용한 실험들은, 사운드 소스로부터 귀로의 사운드 경로들이 필터들에 의해 적절하게 모델링되더라도, 이들을 정적으로 만드는 것에 의해(즉, 머리 움직임 관련 변화들의 부족에 의함), 몰입적인 경험이 감소되고 사운드가 "우리의 머리 속에" 있는 것처럼 보이는 경향이 있을 수 있음을 보여주었다.
따라서, 몰입적인 가상 세계의 인상을 생성하기 위해, 실세계에 대해 고정된 것으로 인식되는 포지션들에서의 오디오 소스들 및/또는 시각적 객체들을 렌더링하는 일부 애플리케이션들이 개발되었다. 그러나, 이것은 최적으로 행하기에 어려운 동작이며, 항상 원하는 사용자 경험으로 이어지지 않을 수 있다. 일부 애플리케이션들에서, 머리 움직임을 따르고, 그에 따라 사용자의 머리에 대해 고정된 것처럼 보이는 3차원 장면이 제시된다. 이는 많은 애플리케이션들에서 바람직한 경험일 수 있지만, 다른 애플리케이션들에서는 부자연스러운 경험을 제공할 수 있으며, 예를 들어, 가상 장면에 "존재하는" 몰입적인 경험을 허용하지 않을 수 있다. US10015620B2호는 사용자를 나타내는 기준 배향에 대해 오디오가 렌더링되는 다른 예를 개시한다.
그러나, 그러한 애플리케이션들은 많은 실시예들에서 적합한 사용자 경험들을 제공할 수 있는 반면, 이들은 일부 애플리케이션들에 대해 최적의 또는 심지어 원하는 사용자 경험들을 제공하지 않는 경향이 있다.
따라서, 시청각 항목들의 렌더링을 위한, 특히 가상/증강/혼합 현실 경험/애플리케이션을 위한 개선된 접근법이 유리할 것이다. 특히, 개선된 동작, 증가된 유연성, 감소된 복잡성, 용이한 구현, 개선된 사용자 경험, 오디오 및/또는 시각적 장면의 보다 일관된 인식, 개선된 맞춤화, 개선된 개인화; 개선된 가상 현실 경험, 및/또는 개선된 성능 및/또는 동작을 허용하는 접근법이 유리할 것이다.
따라서, 본 발명은 상술된 단점 중 하나 이상을 단독으로 또는 임의의 조합으로 바람직하게 완화, 경감 또는 제거하는 것을 추구한다.
본 발명의 양태에 따르면, 시청각 렌더링 장치가 제공되며, 시청각 렌더링 장치는, 시청각 항목들을 수신하도록 배열된 제1 수신기; 시청각 항목들 중 적어도 일부의 각각에 대한 렌더링 카테고리 표시들 및 입력 포즈들을 포함하는 메타데이터를 수신하도록 배열된 메타데이터 수신기로서, 입력 포즈들은 입력 좌표계를 참조하여 제공되고, 렌더링 카테고리 표시들은 렌더링 카테고리들의 세트로부터의 렌더링 카테고리를 나타내는, 상기 메타데이터 수신기; 사용자의 머리 움직임을 나타내는 사용자 머리 움직임 데이터를 수신하도록 배열된 수신기; 사용자 머리 움직임 데이터에 응답하여 렌더링 좌표계에서의 렌더링 포즈들에 입력 포즈들을 맵핑하도록 배열된 맵퍼로서, 렌더링 좌표계는 머리 움직임에 대해 고정되는, 상기 맵퍼; 및 렌더링 포즈들을 사용하여 시청각 항목들을 렌더링하도록 배열된 렌더러를 포함하고; 각각의 렌더링 카테고리는 실세계 좌표계로부터 카테고리 좌표계로의 좌표계 변환과 연계되고, 좌표계 변환은 상이한 카테고리들에 대해 상이하고, 적어도 하나의 카테고리 좌표계는 실세계 좌표계 및 렌더링 좌표계에 대해 가변적이며; 맵퍼는, 제1 시청각 항목에 대한 렌더링 카테고리 표시에 응답하여 제1 시청각 항목에 대해 렌더링 카테고리들의 세트로부터 제1 렌더링 카테고리를 선택하도록, 그리고 다양한 사용자 머리 움직임에 대한 제1 카테고리 좌표계에서의 고정 포즈들에 대응하는 렌더링 좌표계에서의 렌더링 포즈들에 제1 시청각 항목에 대한 입력 포즈를 맵핑하도록 배열되고, 제1 카테고리 좌표계는 제1 렌더링 카테고리에 대한 제1 좌표계 변환으로부터 결정된다.
이 접근법은 많은 실시예들에서 개선된 사용자 경험을 제공할 수 있고, 구체적으로는, 특히 사회적 또는 공유 경험들을 포함하여, 많은 가상 현실(증강 및 혼합 현실을 포함함) 애플리케이션들에 대한 개선된 사용자 경험을 제공할 수 있다. 이 접근법은 시청각 항목들의 렌더링 동작 및 공간적 인식이 개별 시청각 항목들에 개별적으로 적응될 수 있는 매우 유연한 접근법을 제공할 수 있다. 이 접근법은 예컨대, 일부 시청각 항목들이 실세계에 대해 완전히 고정된 것처럼 보이도록 렌더링될 수 있게 하고, 일부 시청각 항목들이 (사용자 머리 움직임들 후에) 사용자에 완전히 고정된 것처럼 보이도록 렌더링될 수 있게 하며, 일부 시청각 항목들이 일부 움직임들에 대해 실세계에서 고정되고 다른 움직임들에 대해서는 사용자를 따르는 것처럼 보이도록 렌더링될 수 있게 할 수 있다. 이 접근법은 많은 실시예들에서, 시청각 항목이 사용자를 실질적으로 따르는 것으로 인식되는 유연한 렌더링을 허용할 수 있지만, 여전히 시청각 항목의 공간적 머리 밖(out-of-the-head) 경험을 제공할 수 있다.
이 접근법은 많은 실시예들에서 복잡성 및 리소스 요건들을 감소시킬 수 있고, 많은 실시예들에서 렌더링 동작들의 소스 측 제어를 허용할 수 있다.
렌더링 카테고리는 시청각 항목이 머리 배향에 고정되거나 머리 배향에 고정되지 않는 공간적 특성(각각, 대응하는 청취자 포즈 의존적 포지션 및 청취자 포즈 비의존적 포지션)을 갖는 오디오 소스를 나타내는지 여부를 나타낼 수 있다. 렌더링 카테고리는 오디오 요소가 다이제틱(diegetic)인지 아닌지를 나타낼 수 있다.
많은 실시예들에서, 맵퍼는, 제2 시청각 항목에 대한 렌더링 카테고리 표시에 응답하여 제2 시청각 항목에 대해 렌더링 카테고리들의 세트로부터 제2 렌더링 카테고리를 선택하도록, 그리고 다양한 사용자 머리 움직임에 대한 제2 카테고리 좌표계에서의 고정 포즈들에 대응하는 렌더링 좌표계에서의 렌더링 포즈들에 제1 시청각 항목에 대한 입력 포즈를 맵핑하도록 추가로 배열될 수 있고, 제2 카테고리 좌표계는 제2 렌더링 카테고리에 대한 제2 좌표계 변환으로부터 결정된다. 맵퍼는 유사하게, 제3, 제4, 제5 등의 시청각 항목에 대해 그러한 동작들을 수행하도록 배열될 수 있다.
시청각 항목은 오디오 항목 및/또는 시각적/비디오/이미지/장면 항목일 수 있다. 시청각 항목은 시청각 항목들에 의해 표현되는 장면의 장면 객체의 시각적 또는 오디오 표현일 수 있다. 용어 시청각 항목은 일부 실시예들에서, 용어 오디오 항목(또는 요소)에 의해 대체될 수 있다. 용어 시청각 항목은 일부 실시예들에서, 용어 시각적 항목(또는 장면 객체)에 의해 대체될 수 있다.
많은 실시예들에서, 렌더러는 렌더링 포즈들을 사용하여 시청각 항목들(오디오 항목들임)에 바이노럴 렌더링을 적용함으로써 바이노럴 렌더링 디바이스에 대한 바이노럴 오디오 신호들을 생성 출력하도록 배열될 수 있다.
용어 포즈는 포지션 및/또는 배향을 나타낼 수 있다. 용어 "포즈"는 일부 실시예들에서, 용어 "포지션"에 의해 대체될 수 있다. 용어 "포즈"는 일부 실시예들에서, 용어 "배향"에 의해 대체될 수 있다. 용어 "포즈"는 일부 실시예들에서, 용어 "포지션 및 배향"에 의해 대체될 수 있다.
수신기는 사용자의 머리 움직임을 나타내는 실세계 좌표계를 참조하여 실세계 사용자 머리 움직임 데이터를 수신하도록 배열될 수 있다.
렌더러는 렌더링 포즈들을 사용하여 시청각 항목들을 렌더링하도록 배열되고, 이때 시청각 항목들은 렌더링 좌표계에서 참조/위치된다.
맵퍼는, 상이한 다양한 사용자 머리 움직임을 나타내는 머리 움직임 데이터에 대한 제1 카테고리 좌표계에서의 고정 포즈들에 대응하는 렌더링 좌표계에서의 렌더링 포즈들에 제1 시청각 항목에 대한 입력 포즈를 맵핑하도록 배열될 수 있다.
일부 실시예들에서, 렌더링 카테고리 표시들은 오디오 항목에 대한 오디오 유형 또는 시각적 요소에 대한 장면 객체 유형과 같은 소스 유형을 나타낸다.
이것은 많은 실시예들에서 개선된 사용자 경험을 제공할 수 있다. 렌더링 카테고리 표시들은, 스피치 오디오; 음악 오디오; 전경 오디오; 배경 오디오; 보이스 오버 오디오(voice over audio); 및 내레이터 오디오의 그룹으로부터의 적어도 하나의 오디오 소스 유형을 포함하는 오디오 소스 유형들의 세트로부터의 오디오 소스 유형을 나타낼 수 있다.
본 발명의 선택적 특징에 따르면, 제2 카테고리에 대한 제2 좌표계 변환은, 제2 카테고리에 대한 카테고리 좌표계가 사용자 머리 움직임과 정렬되도록 한다.
이것은 많은 실시예들에서 개선된 사용자 경험 및/또는 개선된 성능 및/또는 용이한 구현을 제공할 수 있다. 그것은 특히, 일부 시청각 항목들이 사용자의 머리에 대해 고정된 것처럼 보일 수 있는 반면 다른 것들은 그렇지 않다는 것을 뒷받침할 수 있다.
본 발명의 선택적 특징에 따르면, 제3 카테고리에 대한 제3 좌표계 변환은, 제3 카테고리에 대한 카테고리 좌표계가 실세계 좌표계와 정렬되도록 한다.
이것은 많은 실시예들에서 개선된 사용자 경험 및/또는 개선된 성능 및/또는 용이한 구현을 제공할 수 있다. 그것은 특히, 일부 시청각 항목들이 실세계에 대해 고정된 것처럼 보일 수 있는 반면 다른 것들은 그렇지 않다는 것을 뒷받침할 수 있다.
본 발명의 선택적 특징에 따르면, 제1 좌표계 변환은 사용자 머리 움직임 데이터에 의존한다.
이것은 많은 실시예들에서 개선된 사용자 경험 및/또는 개선된 성능 및/또는 용이한 구현을 제공할 수 있다. 그것은 특히, 일부 애플리케이션들에서, 시청각 항목 포즈가 사용자의 전체 움직임들을 따르지만 더 작은/더 빠른 머리 움직임들을 따르지는 않는 매우 유리한 경험을 제공할 수 있어, 그에 의해, 개선된 머리 밖 경험을 갖는 개선된 사용자 경험을 제공할 수 있다.
본 발명의 선택적 특징에 따르면, 제1 좌표계 변환은 평균 머리 포즈에 의존한다.
본 발명의 선택적 특징에 따르면, 제1 좌표계 변환은 제1 카테고리 좌표계를 평균 머리 포즈와 정렬시킨다.
본 발명의 선택적 특징에 따르면, 상이한 렌더링 카테고리에 대한 상이한 좌표계 변환은 사용자 머리 움직임 데이터에 의존하고, 제1 좌표계 변환 및 상이한 좌표계 변환에 대한 사용자 머리 움직임에의 의존성은 상이한 시간적 평균화 특성들을 갖는다.
본 발명의 선택적 특징에 따르면, 시청각 렌더링 장치는 사용자 몸통(torso) 포즈를 나타내는 사용자 몸통 포즈 데이터를 수신하기 위한 수신기를 포함하고, 제1 좌표계 변환은 사용자 몸통 포즈 데이터에 의존한다.
이것은 많은 실시예들에서 개선된 사용자 경험 및/또는 개선된 성능 및/또는 용이한 구현을 제공할 수 있다. 그것은 특히, 일부 애플리케이션들에서, 시청각 항목 포즈가 사용자의 전체 움직임들을 따르지만 더 작은/더 빠른 머리 움직임들을 따르지는 않는 매우 유리한 경험을 제공할 수 있어, 그에 의해, 개선된 머리 밖 경험을 갖는 개선된 사용자 경험을 제공할 수 있다.
본 발명의 선택적 특징에 따르면, 제1 좌표계 변환은 평균 몸통 포즈에 의존한다.
본 발명의 선택적 특징에 따르면, 제1 좌표계 변환은 제1 카테고리 좌표계를 사용자 몸통 포즈와 정렬시킨다.
본 발명의 선택적 특징에 따르면, 시청각 렌더링 장치는 외부 디바이스의 포즈를 나타내는 디바이스 포즈 데이터를 수신하기 위한 수신기를 추가로 포함하고, 제1 좌표계 변환은 디바이스 포즈 데이터에 의존한다.
이것은 많은 실시예들에서 개선된 사용자 경험 및/또는 개선된 성능 및/또는 용이한 구현을 제공할 수 있다. 그것은 특히, 일부 애플리케이션들에서, 시청각 항목 포즈가 사용자의 전체 움직임들을 따르지만 더 작은/더 빠른 머리 움직임들을 따르지는 않는 매우 유리한 경험을 제공할 수 있어, 그에 의해, 개선된 머리 밖 경험을 갖는 개선된 사용자 경험을 제공할 수 있다.
본 발명의 선택적 특징에 따르면, 제1 좌표계 변환은 평균 디바이스 포즈에 의존한다.
본 발명의 선택적 특징에 따르면, 제1 좌표계 변환은 제1 카테고리 좌표계를 디바이스 포즈와 정렬시킨다.
본 발명의 선택적 특징에 따르면, 맵퍼는, 사용자의 움직임을 나타내는 사용자 움직임 파라미터에 응답하여 제1 렌더링 카테고리를 선택하도록 배열된다.
본 발명의 선택적 특징에 따르면, 맵퍼는, 사용자의 움직임을 나타내는 사용자 움직임 파라미터에 응답하여 실세계 좌표계와 사용자 머리 움직임 데이터에 대한 좌표계 사이의 좌표계 변환을 결정하도록 배열된다.
본 발명의 선택적 특징에 따르면, 맵퍼는, 사용자 머리 움직임 데이터에 응답하여 사용자 움직임 파라미터를 결정하도록 배열된다.
본 발명의 선택적 특징에 따르면, 적어도 일부 렌더링 카테고리 표시들은, 적어도 일부 렌더링 카테고리 표시들에 대한 시청각 항목들이 다이제틱 시청각 항목들인지 또는 비다이제틱(non-diegetic) 시청각 항목들인지를 나타낸다.
본 발명의 선택적 특징에 따르면, 시청각 항목들은 오디오 항목들이고, 렌더러는, 렌더링 포즈들을 사용하여 오디오 항목들에 바이노럴 렌더링을 적용함으로써 바이노럴 렌더링 디바이스에 대한 바이노럴 오디오 신호들을 생성 출력하도록 배열된다.
본 발명의 다른 양태에 따르면, 시청각 항목들을 렌더링하는 방법이 제공되며, 방법은, 시청각 항목들을 수신하는 단계; 시청각 항목들 중 적어도 일부의 각각에 대한 렌더링 카테고리 표시들 및 입력 포즈들을 포함하는 메타데이터를 수신하는 단계로서, 입력 포즈들은 입력 좌표계를 참조하여 제공되고, 렌더링 카테고리 표시들은 렌더링 카테고리들의 세트로부터의 렌더링 카테고리를 나타내는, 상기 메타데이터를 수신하는 단계; 사용자의 머리 움직임을 나타내는 사용자 머리 움직임 데이터를 수신하는 단계; 사용자 머리 움직임 데이터에 응답하여 렌더링 좌표계에서의 렌더링 포즈들에 입력 포즈들을 맵핑하는 단계로서, 렌더링 좌표계는 머리 움직임에 대해 고정되는, 상기 입력 포즈들을 맵핑하는 단계; 및 렌더링 포즈들을 사용하여 시청각 항목들을 렌더링하는 단계를 포함하고; 각각의 렌더링 카테고리는 실세계 좌표계로부터 카테고리 좌표계로의 좌표계 변환과 연계되고, 좌표계 변환은 상이한 카테고리들에 대해 상이하고, 적어도 하나의 카테고리 좌표계는 실세계 좌표계 및 렌더링 좌표계에 대해 가변적이며; 방법은, 제1 시청각 항목에 대한 렌더링 카테고리 표시에 응답하여 제1 시청각 항목에 대해 렌더링 카테고리들의 세트로부터 제1 렌더링 카테고리를 선택하는 단계, 및 다양한 사용자 머리 움직임에 대한 제1 카테고리 좌표계에서의 고정 포즈들에 대응하는 렌더링 좌표계에서의 렌더링 포즈들에 제1 시청각 항목에 대한 입력 포즈를 맵핑하는 단계를 포함하고, 제1 카테고리 좌표계는 제1 렌더링 카테고리에 대한 제1 좌표계 변환으로부터 결정된다.
본 발명의 이들 및 다른 양태, 특징 및 이점은 이하에 설명되는 실시예(들)로부터 명백할 것이며 그것을 참조하여 설명될 것이다.
본 발명의 실시예가 도면을 참조하여 단지 예로서 설명될 것이다.
도 1은 클라이언트 서버 기반 가상 현실 시스템의 예를 예시한다.
도 2는 본 발명의 일부 실시예들에 따른 시청각 렌더링 장치의 요소들의 예를 예시한다.
도 3은 도 2의 시청각 렌더링 장치에 의한 가능한 렌더링 접근법의 예를 예시한다.
도 4는 도 2의 시청각 렌더링 장치에 의한 가능한 렌더링 접근법의 예를 예시한다.
도 5는 도 2의 시청각 렌더링 장치에 의한 가능한 렌더링 접근법의 예를 예시한다.
도 6은 도 2의 시청각 렌더링 장치에 의한 가능한 렌더링 접근법의 예를 예시한다.
도 7은 도 2의 시청각 렌더링 장치에 의한 가능한 렌더링 접근법의 예를 예시한다.
다음의 설명은 오디오 항목들 및 시각적 항목들 둘 모두를 포함하는 시청각 항목들이 오디오 렌더링 및 시각적 렌더링 둘 모두를 포함하는 렌더링에 의해 제시되는 실시예들에 초점을 맞출 것이다. 그러나, 설명된 접근법들 및 원리들은 또한, 예컨대, 오디오 항목들의 오디오 렌더링에만, 또는 비디오 장면 내의 시각적 객체들과 같은 시각적 항목들의 비디오/시각적/이미지 렌더링에만 개별적으로 그리고 별도로 적용될 수 있다는 것이 이해될 것이다.
설명은 또한 가상 현실 애플리케이션들에 초점을 맞출 것이지만, 설명된 접근법들이 증강 및 혼합 현실 애플리케이션들을 포함하여, 많은 다른 애플리케이션들에서 사용될 수 있다는 것이 이해될 것이다.
사용자가 가상 또는 증강 세계에서 돌아다닐 수 있게 하는 가상 현실(증강 및 혼합 현실을 포함함) 경험들은 점점 더 대중화되고 있고 그러한 요구들을 충족시키기 위한 서비스들이 개발되고 있다. 많은 그러한 접근법들에서, 시각적 및 오디오 데이터는 사용자의(또는 뷰어의) 현재 포즈를 반영하기 위해 동적으로 생성될 수 있다.
이 분야에서, 용어들 배치와 포즈는 포지션 및/또는 방향/배향에 대한 공통 용어로서 사용된다. 예컨대 객체, 카메라, 머리, 또는 뷰의 포지션과 방향/배향의 조합은 포즈 또는 배치로 지칭될 수 있다. 따라서, 배치 또는 포즈 표시는 최대 6개의 값들/성분들/자유도들을 포함할 수 있으며, 이때 각각의 값/성분은 전형적으로, 대응하는 객체의 포지션/위치(location) 또는 배향/방향의 개별 특성을 기술한다. 물론, 많은 상황들에서, 배치 또는 포즈는, 예를 들어, 하나 이상의 성분들이 고정되거나 무관한 것으로 간주되는 경우 더 적은 성분들에 의해 표현될 수 있다(예컨대, 모든 객체들이 동일한 높이에 있고 수평 배향을 갖는 것으로 간주되는 경우, 4개의 성분들은 객체의 포즈의 전체 표현을 제공할 수 있다). 하기에서, 용어 포즈는 1개 내지 6개의 값(최대 가능한 자유도에 대응함)에 의해 표현될 수 있는 포지션 및/또는 배향을 지칭하는 데 사용된다.
많은 VR 애플리케이션들은 최대 자유도 - 즉, 포지션 및 배향 각각의 3 자유도가 총 6 자유도를 초래함 - 를 갖는 포즈에 기초한다. 따라서, 포즈는 6 자유도를 나타내는 6개의 값들의 벡터 또는 세트에 의해 표현될 수 있고, 따라서 포즈 벡터는 3차원 포지션 및/또는 3차원 방향 표시를 제공할 수 있다. 그러나, 다른 실시예들에서, 포즈는 더 적은 값들에 의해 표현될 수 있다는 것이 이해될 것이다.
뷰어에 대한 최대 자유도를 제공하는 것에 기초하는 시스템 또는 엔티티(entity)는 전형적으로 6 자유도(6DoF)를 갖는 것으로 지칭된다. 많은 시스템들 및 엔티티들은 배향 또는 포지션만을 제공하며 이들은 전형적으로 3 자유도(3DoF)를 갖는 것으로 알려져 있다.
전형적으로, 가상 현실 애플리케이션은 좌안 및 우안에 대한 별개의 뷰 이미지들의 형태로 3차원 출력을 생성한다. 이어서, 이들은, 전형적으로 VR 헤드셋의 개별 좌안 및 우안 디스플레이들과 같은, 적합한 수단에 의해 사용자에게 제시될 수 있다. 다른 실시예들에서, 하나 이상의 뷰 이미지가 예를 들어 무안경 입체 디스플레이 상에 제시될 수 있거나, 실제로 몇몇 실시예들에서 단일 2차원 이미지만이 (예를 들어, 종래의 2차원 디스플레이를 사용하여) 생성될 수 있다.
유사하게, 주어진 뷰어/사용자/청취자 포즈에 대해, 장면의 오디오 표현이 제공될 수 있다. 오디오 장면은 전형적으로, 오디오 소스들이 원하는 포지션들로부터 유래하는 것으로 인식되는 공간적 경험을 제공하도록 렌더링된다. 오디오 소스들이 장면에서 정적일 수 있기 때문에, 사용자 포즈의 변화들은 사용자의 포즈에 대한 오디오 소스의 상대적 포지션의 변화를 초래할 것이다. 따라서, 오디오 소스의 공간적 인식은 사용자에 대한 새로운 포지션을 반영하도록 변화할 수 있다. 오디오 렌더링은 이에 따라 사용자 포즈에 의존하여 적응될 수 있다.
뷰어 또는 사용자 포즈 입력은 상이한 애플리케이션들에서 상이한 방식들로 결정될 수 있다. 많은 실시예들에서, 사용자의 물리적 움직임은 직접 추적될 수 있다. 예를 들어, 사용자 영역을 조사하는 카메라가 사용자의 머리(또는 심지어 눈(시선-추적(eye-tracking))를 검출하고 추적할 수 있다. 많은 실시예들에서, 사용자는 외부 및/또는 내부 수단에 의해 추적될 수 있는 VR 헤드셋을 착용할 수 있다. 예를 들어, 헤드셋은 헤드셋 및 그에 따라 머리의 움직임 및 회전에 관한 정보를 제공하는 가속도계들 및 자이로스코프들을 포함할 수 있다. 일부 예들에서, VR 헤드셋은 신호들을 송신할 수 있거나, 또는 외부 센서가 VR 헤드셋의 포지션 또는 배향을 결정하는 것을 가능하게 하는 (예컨대, 시각적) 식별자들을 포함할 수 있다.
일부 시스템들에서, VR 애플리케이션은, 예컨대, 임의의 원격 VR 데이터 또는 프로세싱을 사용하지 않거나 심지어 그에 대한 어떠한 액세스도 갖지 않는 독립형 디바이스에 의해, 뷰어에게 로컬로 제공될 수 있다. 예를 들어, 게임 콘솔과 같은 디바이스는 장면 데이터를 저장하기 위한 저장소, 뷰어 포즈를 수신/생성하기 위한 입력부, 및 장면 데이터로부터 대응하는 이미지 및(/또는) 오디오를 생성하기 위한 프로세서를 포함할 수 있다.
다른 시스템들에서, VR/장면 데이터는 원격 디바이스 또는 서버로부터 제공될 수 있다
예를 들어, 원격 디바이스는 오디오 장면을 나타내는 오디오 데이터를 생성할 수 있고, 오디오 장면 내의 상이한 오디오 소스들에 대응하는 오디오 성분들/객체들/신호들 또는 다른 오디오 요소들을 이들의 포지션을 나타내는 포지션 정보(이는 예컨대, 움직이는 객체들에 대해 동적으로 변경될 수 있음)와 함께 송신할 수 있다. 오디오 요소들은 특정 포지션들과 연관된 요소들을 포함할 수 있지만, 또한 더 분산된 또는 확산 오디오 소스들에 대한 요소들을 포함할 수 있다. 예를 들어, 일반적인(비로컬화된) 배경 사운드, 주변 사운드, 확산 반향 등을 나타내는 오디오 요소들이 제공될 수 있다.
이어서, 로컬 VR 디바이스는, 예컨대, 오디오 성분들에 대한 오디오 소스들의 상대적 포지션을 반영하는 적절한 바이노럴 프로세싱을 적용함으로써 오디오 요소들을 적절하게 렌더링할 수 있다.
유사하게, 원격 디바이스는 시각적 오디오 장면을 나타내는 시각적/비디오 데이터를 생성할 수 있고, 시각적 장면 내의 상이한 객체들에 대응하는 시각적 장면 성분들/객체들/신호들 또는 다른 시각적 요소들을 이들의 포지션을 나타내는 포지션 정보(이는 예컨대, 움직이는 객체들에 대해 동적으로 변경될 수 있음)와 함께 송신할 수 있다. 시각적 항목들은 특정 포지션들과 연관된 요소들을 포함할 수 있지만, 또한 더 분산된 소스들에 대한 비디오 항목들을 포함할 수 있다.
일부 실시예들에서, 시각적 항목들은, 예를 들어, 개별 장면 객체들의 디스크립션들(예컨대, 치수들, 텍스처, 불투명도, 반사율 등)로서와 같이, 개별 및 별개의 항목들로서 제공될 수 있다. 대안적으로 또는 추가적으로, 시각적 항목들은, 예컨대, 상이한 객체들의 디스크립션들 및 그들의 서로에 대한 관계를 포함하는, 장면의 전체 모델의 일부로서 표현될 수 있다.
VR 서비스를 위해, 중앙 서버는 이에 따라 일부 실시예들에서, 3차원 장면을 나타내는 시청각 데이터를 생성할 수 있으며, 구체적으로 로컬 클라이언트/디바이스에 의해 렌더링될 수 있는, 다수의 오디오 항목들에 의한 오디오 및 다수의 비디오 항목들에 의한 시각적 장면을 나타낼 수 있다.
도 1은 중앙 서버(101)가, 예를 들어, 예컨대 인터넷과 같은 네트워크(105)를 통해, 다수의 원격 클라이언트들(103)과 연락을 취하는 VR 시스템의 예를 예시한다. 중앙 서버(101)는 잠재적으로 많은 수의 원격 디바이스들(103)을 동시에 지원하도록 배열될 수 있다.
그러한 접근법은 많은 시나리오들에서, 예컨대, 상이한 디바이스들, 통신 요건들 등에 대한 복잡성과 리소스 요구들 사이에 개선된 트레이드오프(trade-off)를 제공할 수 있다. 예를 들어, 장면 데이터는, 뷰어 포즈를 수신하고 장면 데이터를 로컬로 프로세싱하여 뷰어 포즈의 변화들을 반영하기 위해 오디오 및/또는 비디오를 렌더링하는 로컬 렌더링 디바이스(원격 클라이언트(103))로 한번만 또는 비교적 드물게 송신될 수 있다. 이러한 접근법은 효율적인 시스템 및 매력적인 사용자 경험을 제공할 수 있다. 이는 예를 들어, 장면 데이터가 중앙에 저장, 생성, 및 유지될 수 있게 하면서, 요구되는 통신 대역폭을 실질적으로 감소시키는 한편, 낮은 레이턴시 실시간 경험을 제공할 수 있다. 이는 예를 들어 VR 경험이 복수의 원격 디바이스들에 제공되는 애플리케이션들에 적합할 수 있다.
도 2는 많은 애플리케이션들 및 시나리오들에서 개선된 시청각 렌더링을 제공할 수 있는 시청각 렌더링 장치의 요소들을 예시한다. 특히, 시청각 렌더링 장치는 많은 VR 애플리케이션들에 대한 개선된 렌더링을 제공할 수 있고, 시청각 렌더링 장치는 구체적으로 도 1의 VR 클라이언트(103)에 대한 프로세싱 및 렌더링을 수행하도록 배열될 수 있다.
도 2의 오디오 장치는 장면의 3차원 인식을 제공하기 위해 공간적 오디오 및 비디오를 렌더링함으로써 3차원 장면을 렌더링하도록 배열된다. 시청각 렌더링 장치의 특정 설명은 오디오 및 비디오 둘 모두에 설명된 접근법을 제공하는 애플리케이션에 초점을 맞출 것이지만, 다른 실시예들에서, 그 접근법은 오디오 또는 비디오/시각적 프로세싱에만 적용될 수 있고, 실제로, 일부 실시예들에서, 렌더링 장치는 단지 오디오를 렌더링하기 위한 또는 단지 비디오를 렌더링하기 위한 기능을 포함할 수 있으며, 즉, 시청각 렌더링 장치는 임의의 오디오 렌더링 장치 또는 임의의 비디오 렌더링 장치일 수 있다는 것이 이해될 것이다.
시청각 렌더링 장치는 로컬 또는 원격 소스로부터 시청각 항목들을 수신하도록 배열되는 제1 수신기(201)를 포함한다. 특정 예에서, 제1 수신기(201)는 서버(101)로부터 시청각 항목들을 기술하는 데이터를 수신한다. 제1 수신기(201)는 가상 장면을 기술하는 데이터를 수신하도록 배열될 수 있다. 데이터는 장면의 시각적 디스크립션을 제공하는 데이터를 포함할 수 있고, 장면의 오디오 디스크립션을 제공하는 데이터를 포함할 수 있다. 따라서, 오디오 장면 디스크립션 및 시각적 장면 디스크립션은 수신된 데이터에 의해 제공될 수 있다.
오디오 항목들은 인코딩된 오디오 신호들과 같은 인코딩된 오디오 데이터일 수 있다. 오디오 항목들은 상이한 유형들의 신호들 및 성분들을 포함하는 상이한 유형들의 오디오 요소들일 수 있고, 실제로 많은 실시예들에서, 제1 수신기(201)는 상이한 유형들/포맷들의 오디오를 정의하는 오디오 데이터를 수신할 수 있다. 예를 들어, 오디오 데이터는 오디오 채널 신호들, 개별 오디오 객체들, 고차 앰비소닉(Higher Order Ambisonics, HOA) 등과 같은 장면 기반 오디오 등에 의해 표현되는 오디오를 포함할 수 있다. 오디오는 예를 들어, 렌더링될 주어진 오디오 성분에 대한 인코딩된 오디오로 표현될 수 있다.
제1 수신기(201)는, 시청각 항목들을 기술하는 수신된 데이터에 기초하여 장면을 렌더링하도록 진행하는 렌더러(203)에 커플링된다. 인코딩된 데이터의 경우에, 렌더러(203)는 또한 데이터를 디코딩하도록 배열될 수 있다(또는 일부 실시예들에서, 디코딩은 제1 수신기(201)에 의해 수행될 수 있다).
구체적으로, 렌더러(203)는, 뷰어의 현재 뷰잉 포즈에 대응하는 이미지들을 생성하도록 배열되는 이미지 렌더러(205)를 포함할 수 있다. 예를 들어, 데이터는 공간적 3D 이미지 데이터(예컨대, 장면의 이미지들 및 깊이 또는 모델 디스크립션)를 포함할 수 있고, 이로부터 시각적 렌더러(203)는 당업자에게 알려질 바와 같이 스테레오 이미지들(사용자의 좌안 및 우안에 대한 이미지)을 생성할 수 있다. 이미지들은, 예를 들어 VR 헤드셋의 개별 좌안 및 우안 디스플레이들을 통해 사용자에게 제시될 수 있다.
렌더러(203)는, 오디오 항목들에 기초하여 오디오 신호들을 생성함으로써 오디오 장면을 렌더링하도록 배열되는 오디오 렌더러(207)를 추가로 포함한다. 이 예에서, 오디오 렌더러(207)는, 사용자의 좌측 귀 및 우측 귀에 대한 바이노럴 오디오 신호들을 생성하는 바이노럴 오디오 렌더러이다. 바이노럴 오디오 신호들은 원하는 공간적 경험을 제공하기 위해 생성되고, 전형적으로는, 구체적으로 사용자가 착용하는 헤드셋의 일부일 수 있는 헤드폰 또는 이어폰에 의해 재생되며, 헤드셋은 또한 좌안 및 우안 디스플레이들을 포함한다.
따라서, 많은 실시예들에서, 오디오 렌더러(207)에 의한 오디오 렌더링은 헤드폰을 착용한 사용자에 대해 원하는 공간적 효과를 제공하기 위해 적합한 바이노럴 전달 함수들을 사용하는 바이노럴 렌더 프로세스이다. 예를 들어, 오디오 렌더러(207)는 바이노럴 프로세싱을 사용하여 특정 포지션으로부터 도달하는 것으로 인식될 오디오 성분을 생성하도록 배열될 수 있다.
바이노럴 프로세싱은 청취자의 귀에 대한 개별 신호들을 사용하여 사운드 소스들의 가상 포지셔닝에 의해 공간적 경험을 제공하는 데 사용되는 것으로 알려져 있다. 적절한 바이노럴 렌더링 프로세싱을 이용하여, 청취자가 임의의 원하는 방향으로부터의 사운드를 인식하기 위해 고막에서 요구되는 신호들이 계산될 수 있고, 신호들은 이들이 원하는 효과를 제공하도록 렌더링될 수 있다. 이어서, 이러한 신호들은 헤드폰 또는 크로스토크 제거 방법(밀접하게 이격된 스피커들을 통한 렌더링에 적합함) 중 어느 하나를 사용하여 고막에서 재생성된다. 바이노럴 렌더링은, 청취자의 귀에 대한 신호들을 생성하여, 인간 청각 시스템을 속여서 원하는 포지션들로부터 사운드가 나오는 것으로 인식하게 하는 것을 초래하기 위한 접근법인 것으로 간주될 수 있다.
바이노럴 렌더링은 머리, 귀 및 반사면들, 예컨대 어깨의 음향 특성들로 인해 사람마다 다른 바이노럴 전달 함수들에 기초한다. 예를 들어, 바이노럴 필터들은 다양한 위치들에서의 다수의 소스들을 시뮬레이션하는 바이노럴 레코딩을 생성하는 데 사용될 수 있다. 이는 예컨대, 사운드 소스의 포지션에 대응하는 머리 관련 임펄스 응답(Head Related Impulse Response, HRIR)들의 쌍으로 각각의 사운드 소스를 컨볼빙함으로써 실현될 수 있다.
바이노럴 전달 함수들을 결정하기 위한 잘 알려진 방법은 바이노럴 레코딩이다. 이는, 전용 마이크로폰 배열을 사용하고 헤드폰을 사용하여 재생하도록 의도된 사운드를 레코딩하는 방법이다. 레코딩은 피험자의 외이도 내에 마이크로폰을 배치하거나, 또는 마이크로폰이 내장된 더미 헤드, 즉 귓바퀴(pinnae)(외이)를 포함하는 버스트(bust)를 사용하여 이루어진다. 귓바퀴를 포함하는 그러한 더미 헤드의 사용은 레코딩을 청취하는 사람이 레코딩 동안 존재한 것처럼 매우 유사한 공간감(spatial impression)을 제공한다.
예컨대, 2D 또는 3D 공간의 특정 위치에서의 사운드 소스로부터 인간 귀 내에 또는 그 근처에 배치된 마이크로폰으로의 응답들을 측정함으로써, 적절한 바이노럴 필터들이 결정될 수 있다. 그러한 측정들에 기초하여, 사용자의 귀에 대한 음향 전달 함수들을 반영하는 바이노럴 필터들이 생성될 수 있다. 바이노럴 필터들은 다양한 위치들에서의 다수의 소스들을 시뮬레이션하는 바이노럴 레코딩을 생성하는 데 사용될 수 있다. 이는 예컨대, 사운드 소스의 원하는 포지션에 대한 측정된 임펄스 응답들의 쌍으로 각각의 사운드 소스를 컨볼빙함으로써 실현될 수 있다. 사운드 소스가 청취자 주위에서 이동하고 있다는 착각을 생성하기 위해, 많은 수의 바이노럴 필터들이 전형적으로 소정의 공간 해상도, 예컨대, 10도로 요구된다.
머리 관련 바이노럴 전달 함수들은 예컨대, 머리 관련 임펄스 응답(HRIR)들로서, 또는 동등하게 머리 관련 전달 함수(Head Related Transfer Function, HRTF)들 또는 바이노럴 룸 임펄스 응답(Binaural Room Impulse Response, BRIR)들, 또는 바이노럴 룸 전달 함수(Binaural Room Transfer Function, BRTF)들로서 표현될 수 있다. 주어진 포지션으로부터 청취자의 귀(또는 고막)로의 (예컨대, 추정된 또는 가정된) 전달 함수는 예를 들어, 주파수 도메인에서 주어질 수 있는데, 이 경우, 그것은 전형적으로 HRTF 또는 BRTF로 지칭되거나, 또는 시간 도메인에서 주어질 수 있는데, 이 경우 그것은 전형적으로 HRIR 또는 BRIR로 지칭된다. 일부 시나리오들에서, 머리 관련 바이노럴 전달 함수들은 음향 환경의 그리고 구체적으로는 측정들이 이루어지는 룸의 양태들 또는 특성들을 포함하는 것으로 결정되는 반면, 다른 예들에서는, 사용자 특징들만이 고려된다. 제1 유형의 함수들의 예들은 BRIR들 및 BRTF들이다.
따라서, 오디오 렌더러(207)는 전형적으로 많은 다수의 상이한 포지션들에 대한 바이노럴 전달 함수들을 갖는 저장소를 포함할 수 있으며, 이때 각각의 바이노럴 전달 함수는, 그 포지션으로부터 유래하는 것으로 인식되기 위해 오디오 신호가 어떻게 프로세싱/필터링되어야 하는지의 정보를 제공한다. 복수의 오디오 신호들/소스들에 바이노럴 프로세싱을 개별적으로 적용하고 결과를 조합하는 것은 사운드 스테이지의 적절한 포지션들에 포지셔닝된 다수의 오디오 소스들로 오디오 장면을 생성하는 데 사용될 수 있다.
오디오 렌더러(207)는 사용자의 머리에 대해 주어진 포지션으로부터 유래하는 것으로 인식될 주어진 오디오 요소에 대해, 원하는 포지션에 가장 밀접하게 매칭하는 저장된 바이노럴 전달 함수를 선택 및 검색할 수 있다(또는 일부 경우에는 이를, 복수의 밀접한 바이노럴 전달 함수들 사이를 보간함으로써 생성할 수 있다). 이어서, 그것은 선택된 바이노럴 전달 함수를 오디오 요소의 오디오 신호에 적용하여, 그에 의해, 좌측 귀에 대한 오디오 신호 및 우측 귀에 대한 오디오 신호를 생성할 수 있다.
좌측 및 우측 귀 신호의 형태의 생성된 출력 스테레오 신호는 이어서 헤드폰 렌더링에 적합하고, 사용자의 헤드셋에 공급되는 구동 신호들을 생성하기 위해 증폭될 수 있다. 이어서, 사용자는 오디오 요소가 원하는 포지션으로부터 유래하는 것으로 인식할 것이다.
오디오 항목들은 일부 실시예들에서 또한, 예컨대, 음향 환경 효과들을 추가하도록 프로세싱될 수 있다는 것이 이해될 것이다. 예를 들어, 오디오 항목은 반향 또는 예컨대, 역상관/확산성을 추가하도록 프로세싱될 수 있다. 많은 실시예들에서, 이러한 프로세싱은 오디오 요소 신호에 대해 직접적으로 보다는 생성된 바이노럴 신호에 대해 수행될 수 있다.
따라서, 오디오 렌더러(207)는 오디오 신호들을 생성하여, 주어진 오디오 요소가 렌더링되게 하여, 헤드폰을 착용한 사용자가 그 오디오 요소를 원하는 포지션으로부터 수신된 것으로 인식하도록 배열될 수 있다. 다른 오디오 항목들은 예컨대, 가능하게는 분산 및 확산될 수 있고, 이와 같이 렌더링될 수 있다.
예컨대, 헤드폰을 사용하여 공간적 오디오의 렌더링을 위한, 그리고 구체적으로는 바이노럴 렌더링을 위한 많은 알고리즘들 및 접근법들이 당업자에게 알려져 있을 것이고, 임의의 적합한 접근법이 본 발명으로부터 벗어남이 없이 사용될 수 있다는 것이 이해될 것이다.
시청각 렌더링 장치는, 시청각 항목들에 대한 메타데이터를 수신하도록 배열된 메타데이터 수신기인 제2 수신기(209)를 추가로 포함한다. 특히, 메타데이터는 시청각 항목들 중 하나 이상에 대한 포지션 데이터를 포함한다. 메타데이터는 시청각 항목들 중 하나 이상에 대한 포지션을 나타내는 입력 포지션들을 포함할 수 있다.
수신된 시청각 데이터는 장면을 기술하는 오디오 및/또는 시각적 데이터를 포함할 수 있다. 시청각 데이터는 구체적으로 장면 내의 오디오 소스들 및/또는 시각적 객체들에 대응하는 시청각 항목들의 세트에 대한 시청각 데이터를 포함한다. 일부 오디오 항목들은 장면 내의 특정 포지션 및/또는 배향(여기서 포지션 및/또는 배향은 움직이는 객체에 대해 동적으로 변경될 수 있음)과 연관되는 장면 내의 로컬화된 오디오 소스들을 나타낼 수 있다. 시각적 데이터는 장면 객체들을 기술하는 데이터를 포함하여, 이들의 시각적 표현이 생성될 수 있게 하고 사용자에게 제시되는 이미지/비디오(전형적으로, 헤드셋의 별개의 디스플레이들을 사용하는 3D 이미지)로 표현될 수 있게 할 수 있다.
종종, 오디오 요소는 가상 장면 내의 특정 장면 객체에 의해 생성된 오디오를 나타낼 수 있고, 따라서 장면 객체(예컨대, 말하는 인간)의 것에 대응하는 포지션에서의 오디오 소스를 나타낼 수 있다. 그러한 경우에, 오디오 항목 및 대응하는 시각적 장면 객체 둘 모두에 대해(그리고 유사하게 배향에 대해) 동일한 포지션 데이터/표시가 포함되고 사용될 수 있다.
다른 요소들은, 예를 들어 확산될 수 있는 주변 또는 배경 노이즈와 같은 더 분산된 또는 확산 오디오 소스들을 나타낼 수 있다. 다른 예로서, 일부 오디오 요소들은, 예를 들어, 공간적으로 잘 정의된 오디오 소스로부터의 확산 반향과 같은, 로컬화된 오디오 소스들로부터의 오디오의 비공간적으로 로컬화된 성분들을 완전히 또는 부분적으로 나타낼 수 있다.
유사하게, 일부 시각적 장면 객체들은 확장된 포지션들을 가질 수 있고, 예컨대, 포지션 데이터는 장면 객체에 대한 중심 또는 기준 포지션을 나타낼 수 있다.
메타데이터는, 시청각 항목들의 포지션 및/또는 배향, 및 구체적으로는 오디오 소스 및/또는 시각적 장면 객체 또는 요소의 포지션 및/또는 배향을 나타내는 포즈 데이터를 포함할 수 있다. 포즈 데이터는 예를 들어, 항목들의 각각의, 또는 적어도 일부의 포지션을 정의하는 절대적 포지션 및/또는 배향 데이터를 포함할 수 있다.
포즈들은 입력 좌표계를 참조하여 제공되며, 즉, 입력 좌표계는 제2 수신기에 의해 수신된 메타데이터에서 제공된 포즈 표시들에 대한 기준 좌표계이다. 입력 좌표계는 전형적으로, 표현되는/렌더링되는 장면을 참조하여 고정되는 것이다. 예를 들어, 장면은 가상(또는 실제) 장면일 수 있는데, 여기서 오디오 소스들 및 장면 객체들은 그 장면을 참조하여 제공되는 포지션들에 존재하며, 즉, 입력 좌표계는 전형적으로 시청각 데이터에 의해 표현되는 장면에 대한 장면 좌표계이다.
장면의 사용자 표현을 제공하기 위해, 장면은 뷰어 또는 사용자 포즈로부터 렌더링될 것이며, 즉, 장면은 장면 내의 주어진 뷰어/사용자 포즈에서 인식될 바와 같이 그리고 그 뷰어 포즈에 대해 인식될 오디오 및 이미지들을 제공하는 오디오 및 시각적 렌더링으로 렌더링될 것이다.
렌더러(203)에 의한 렌더링은 사용자의 머리 및 머리 움직임들에 대해 고정되는 렌더링 좌표계에 대해 수행된다. 렌더링된 오디오 신호들의 재생은 전형적으로, 헤드폰/이어폰 및 눈에 대한 개별 디스플레이들과 같은 머리 착용 또는 장착 재생 디바이스이다. 전형적으로, 재생은 오디오 및 비디오 재생 수단을 포함하는 헤드셋 디바이스에 의한 것이다. 렌더러는 재생 디바이스/수단을 참조하여 렌더링된 시청각 항목들을 생성하도록 배열되고, 사용자의 포즈는 재생 디바이스/수단을 참조하여 일정한/고정된 것으로 가정된다. 예를 들어, 오디오 소스의 포지션은 헤드폰(즉, 렌더링 좌표계에서의 포지션)에 대해 결정되고, 그 포지션에 대한 적절한 HRTF 필터들은, 오디오 소스들이 렌더링 좌표계에서의 요구된 상대적 포지션으로부터 도달하는 것으로 인식되도록 오디오 신호들을 렌더링하기 위해 검색 및 사용된다. 유사하게, 주어진 장면 객체에 대해, 디스플레이들에 대한 상대적 포지션이 결정되고(즉, 렌더링 좌표계에서의 포지션), 이러한 포지션에 대한 좌측 및 눈 포즈들 각각으로부터의 뷰들에 대응하는 이미지들이 결정된다.
따라서, 렌더링 좌표계는 사용자의 머리에 고정되는 좌표계인 것으로 간주될 수 있고, 구체적으로 머리 움직임들 또는 실제로 사용자의 포즈 변화들에 독립적인 렌더링 좌표계로서 간주될 수 있다. 재생 디바이스는 (오디오이든, 시각적이든, 또는 오디오 및 시각적 둘 모두이든) 사용자 머리에 대해 그리고 이에 따라 렌더링 좌표계에 대해 고정된 것으로 가정/간주된다.
사용자 머리 움직임에 대해 고정되는 렌더링 좌표계는 렌더링된 시청각 항목들을 재생하기 위한 재생 디바이스에 대해 고정된 재생 좌표계에 대응하는 것으로 간주될 수 있다. 용어 렌더링 좌표계는 재생 디바이스/수단 좌표계와 동등할 수 있고, 그것에 의해 대체될 수 있다. 유사하게, 용어 '렌더링 좌표계가 사용자 머리 움직임에 대해 고정됨'은 "재생 디바이스/수단 좌표계가 렌더링된 시청각 항목들을 재생하기 위한 재생 디바이스에 대해 고정됨"과 동등할 수 있고, 그것에 의해 대체될 수 있다.
렌더러가 렌더링 좌표계를 참조하여 포즈들에 기초하여 렌더링을 수행하고 시청각 항목들에 대한 포즈들이 입력 좌표계를 참조하여 제공됨에 따라, 시청각 렌더링 장치는, 렌더링 좌표계에서의 렌더링 포지션들에 입력 좌표계에서의 입력 포지션들을 맵핑하도록 배열되는 맵퍼(211)를 포함한다.
시청각 렌더링 장치는, 사용자 머리 움직임을 나타내는 사용자 머리 움직임 데이터를 수신하기 위한 머리 움직임 데이터 수신기(213)를 포함한다. 사용자 머리 움직임 데이터는 실세계에서의 사용자의 머리 움직임을 나타낼 수 있고, 전형적으로 실세계 좌표계를 참조하여 제공된다. 머리 움직임 데이터는 실세계에서의 사용자의 머리의 절대적 또는 상대적 움직임을 나타낼 수 있고, 구체적으로 실세계 좌표계에 대한 절대적 또는 상대적 사용자 포즈 변화들을 반영할 수 있다. 머리 움직임 데이터는 머리 포즈(배향 및/또는 포지션)의 변화(또는 변화 없음)를 나타낼 수 있고, 또한 머리 포즈 데이터로 지칭될 수 있다.
머리 움직임을 검출하고 표현하기 위한 많은 상이한 가능한 접근법들이 알려져 있고, 임의의 적합한 접근법이 본 발명으로부터 벗어남이 없이 사용될 수 있다는 것이 이해될 것이다. 머리 움직임 데이터 수신기(213)는 구체적으로, 당업계에 알려진 바와 같이 VR 헤드셋 또는 VR 머리 움직임 검출기로부터 머리 움직임 데이터를 수신할 수 있다.
맵퍼(211)는 머리 움직임 데이터 수신기(213)에 커플링되고 사용자 머리 움직임 데이터를 수신한다. 맵퍼는, 사용자 머리 움직임 데이터에 응답하여 입력 좌표계에서의 입력 포지션들과 렌더링 좌표계에서의 렌더링 포지션들 사이의 맵핑을 수행하도록 배열된다. 예를 들어, 맵퍼(211)는 사용자 머리 움직임 데이터를 계속 프로세싱하여 실세계 좌표계에서 현재 사용자 포즈를 계속 추적할 수 있다. 이어서, 입력 포즈들과 렌더링 포즈들 사이의 맵핑은 사용자 포즈들에 기초할 수 있다.
예를 들어, 많은 애플리케이션들에서, 사용자에게, 그가 표현되는 3차원 장면에 존재하는 것처럼 경험을 제공하는 것이 바람직하다. 따라서, 렌더링된 오디오 및 이미지들은 사용자 머리 움직임들을 따르는 사용자 포즈들을 반영하도록 요구된다. 따라서, 시청각 항목들이 실세계를 참조하여 고정된 것으로 인식되도록 렌더링되는 것이 바람직한데, 이는 이것이 (전형적으로 가상) 장면의 렌더링에서 실세계 움직임들을 재생되도록 하기 때문이다.
그러한 시나리오에서, 렌더링 포즈들에 대한 입력 포즈들의 맵핑은, 시청각 항목들이 실세계에 대해 고정된 것처럼 보이도록, 즉 이들이 실세계를 참조하여 고정되는 것으로 인식되게 렌더링되도록 한다. 따라서, 동일한 입력 포즈는 사용자 머리 포즈의 변화를 반영하기 위해 상이한 렌더링 포즈들에 맵핑된다. 예를 들어, 사용자가 그의 머리를 예컨대, 30°만큼 돌리면, 실세계 장면은 사용자가 -30°만큼 회전한 것을 참조한다. 맵퍼(211)는, 입력 포즈들로부터 렌더링 포즈들로의 맵핑이 사용자 머리 회전 이전의 상황에 대한 추가 30° 회전을 포함하게 수정되도록, 대응하는 변화를 수행할 수 있다. 결과적으로, 시청각 항목들은 렌더링 좌표계에서 상이한 포즈들에 있을 것이지만, 동일한 실세계 포즈에 있는 것으로 인식될 것이다. 따라서, 맵핑은, 시청각 항목들이 실세계를 참조하여 고정되는 것으로 인식되고 따라서 매우 자연적인 경험이 제공되도록 동적으로 변경될 수 있다.
예를 들어, 몰입적인 가상 세계의 착각을 생성하기 위해, 3차원 오디오 및/또는 시각적 렌더링은 전형적으로, 특히 (3 공간 자유도 또는 3-DoF, 예컨대, 요, 피치, 롤의) 머리 배향 변화들을 포함하는 머리 포즈들에 대해 렌더링이 보상되는 머리 추적에 의해 제어된다. 렌더링은 시청각 항목들이 사용자에 대해 고정된 것으로 인식되도록 한다. 이러한 머리 추적 및 결과적인 렌더링 적응의 효과는 정적 렌더링과 비교하여, 렌더링된 콘텐츠의 높은 현실성(realism) 및 머리 밖 인식이다.
그러나, 다른 접근법은 렌더링 좌표계에 대해 고정되는 렌더링 포즈들에 입력 포즈들을 맵핑하는 것이다. 이는 예를 들어, 맵퍼(211)가, 맵핑이 머리 움직임 데이터에 독립적이고 구체적으로 사용자 포즈의 변화들이 입력 포즈들과 렌더링 포즈들 사이의 변경된 맵핑을 초래하지 않는 렌더링 포즈들에 대한 입력 포즈들의 고정 맵핑을 적용하는 것에 의해 행해질 수 있다. 그러한 맵핑의 효과는 효과적으로, 인식된 장면이 머리와 함께 이동하는 것, 즉, 그것이 사용자의 머리에 대해 정적이라는 것이다. 이것이 대부분의 장면들에 대해 부자연스러운 것처럼 보일 수 있지만, 그것은 일부 시나리오들에서는 유리할 수 있다. 예를 들어, 그것은 음악에 대한 또는 예컨대, 내레이터와 같이, 장면의 일부가 아닌 사운드를 청취하는 것에 대한 바람직한 경험을 제공할 수 있다.
상이한 시청각 항목들에 상이한 접근법들을 적용하는 것이 가능하다. MPEG 용어에서, 용어들 "머리 배향에 고정된" 또는 "머리 배향에 고정되지 않은"은 사용자 움직임들을 완전히 따르거나 무시하거나 하기 위해 렌더링될 오디오 항목들을 지칭하는 데 사용된다.
예를 들어, 오디오 항목은 "머리에 고정되지 않은" 것으로 간주될 수 있으며, 이는 그것이 (가상 또는 실제) 환경에서 고정 위치를 갖도록 의도된 오디오 요소임을 의미하고, 따라서 그들의 렌더링은 사용자의 머리 배향(의 변화들)에 동적으로 적응된다. 다른 오디오 항목은 "머리에 고정된" 것으로 간주될 수 있으며, 이는 그것이 사용자의 머리에 대해 고정 위치를 갖도록 의도된 오디오 항목임을 의미한다. 그러한 오디오 항목들은 청취자 포즈에 독립적으로 렌더링될 수 있다. 따라서, 그러한 오디오 항목들의 렌더링은 사용자의 머리 배향(의 변화들)을 고려하지 않으며, 다시 말해서 그러한 오디오 항목들은 사용자가 그의 머리를 돌릴 때 상대적 포지션이 변경되지 않는 오디오 요소들(예를 들어, 비공간적 오디오, 예컨대 주변 노이즈 또는 예컨대, 상대적 포지션을 변경시키지 않고서 사용자를 따르도록 의도된 음악)이다.
설명된 시스템에서, 제2 수신기(209)는, 시청각 항목들 중 적어도 일부에 대한 렌더링 카테고리 표시를 또한 포함하는 메타데이터를 수신하도록 배열된다. 렌더링 카테고리 표시는 렌더링 카테고리들의 세트로부터의 렌더링 카테고리를 나타내고, 시청각 항목의 렌더링은 시청각 항목에 대해 표시된 렌더링 카테고리에 따라 수행된다. 상이한 렌더링 카테고리들은 상이한 렌더링 파라미터들 및 동작들을 정의할 수 있다.
렌더링 카테고리 표시들은 렌더링 카테고리들의 세트로부터 렌더링 카테고리를 선택하는 데 사용될 수 있는 임의의 표시일 수 있다. 많은 실시예들에서, 그것은 렌더링 카테고리를 선택할 목적으로만 제공되는 데이터일 수 있고/있거나 하나의 카테고리를 직접적으로 특정하는 데이터일 수 있다. 다른 실시예들에서, 렌더링 카테고리 표시는, 추가적인 정보를 또한 제공할 수 있거나 대응하는 시청각 항목의 일부 디스크립션을 제공할 수 있는 표시일 수 있다. 일부 실시예들에서, 렌더링 카테고리 표시는 렌더링 카테고리를 선택할 때 고려되는 하나의 파라미터일 수 있고, 다른 파라미터들이 또한 고려될 수 있다.
특정 예로서, 일부 실시예들에서, 오디오 항목들은, 오디오 항목들이 상이한 유형들의 신호들 및 성분들을 포함하는 상이한 유형들의 오디오 항목들일 수 있는 인코딩된 오디오 신호들과 같은 인코딩된 오디오 데이터일 수 있으며, 실제로 많은 실시예들에서, 메타데이터 수신기(201)는 상이한 유형들/포맷들의 오디오를 정의하는 메타데이터를 수신할 수 있다. 예를 들어, 오디오 데이터는 오디오 채널 신호들, 개별 오디오 객체들, 고차 앰비소닉(HOA) 등에 의해 표현되는 오디오를 포함할 수 있다. 메타데이터는 오디오 항목들의 일부로서 또는 각각의 오디오 항목에 대한 오디오 유형을 기술하는 오디오 항목들과는 별개로 포함될 수 있다. 이러한 메타데이터는 렌더링 카테고리 표시일 수 있고, 오디오 항목에 대한 적절한 렌더링 카테고리를 선택하는 데 사용될 수 있다.
렌더링 카테고리들은 구체적으로 상이한 기준 좌표계들과 연관되고, 구체적으로 각각의 렌더링 카테고리는 실세계 좌표계로부터 카테고리 좌표계로의 좌표계 변환과 연계된다. 구체적으로, 각각의 카테고리에 대해, 좌표계 변환이 정의될 수 있으며, 이는, 실세계 좌표계, 예컨대 구체적으로 머리 움직임 데이터가 참조하여 제공되는 실세계 좌표계를, 그 변환에 의해 주어진 상이한 좌표계로 변환할 수 있다. 상이한 카테고리들이 상이한 좌표계 변환들을 갖기 때문에, 이들은 상이한 카테고리 기준 시스템들과 연계될 것이다.
좌표계 변환은 전형적으로, 카테고리들 중 하나, 일부, 또는 모두에 대해, 동적 좌표계 변환이다. 따라서, 좌표계 변환은 전형적으로 고정 또는 정적 좌표계 변환이 아니고, 시간에 따라 그리고 상이한 파라미터들에 의존하여 변할 수 있다. 예를 들어, 더 상세히 후술될 바와 같이, 좌표계 변환은, 예컨대 사용자 몸통 움직임들, 외부 디바이스 움직임들, 및/또는 실제로 심지어 머리 움직임 데이터와 같은 동적으로 변화하는 파라미터들에 의존할 수 있다. 따라서, 카테고리에 대한 좌표계 변환은 많은 실시예들에서 사용자 움직임 파라미터에 의존하는 시간적으로 변하는 좌표계 변환이다. 사용자 움직임 파라미터는 실세계 좌표계에 대한 사용자의 움직임을 나타낼 수 있다.
주어진 시청각 항목에 대해 맵퍼(211)에 의해 수행되는 맵핑은, 시청각 항목이 속하는 것으로 표시되는 렌더링 카테고리에 대한 카테고리 좌표계에 의존한다. 구체적으로, 렌더링 카테고리 표시에 기초하여, 맵퍼(211)는 시청각 항목의 렌더링을 위해 사용되도록 의도된 렌더링 카테고리를 결정할 수 있다. 이어서, 맵퍼는 선택된 카테고리와 연계된 좌표계 변환을 결정할 수 있다. 이어서, 맵퍼(211)는 입력 포즈들로부터 렌더링 포즈들로의 맵핑을 수행하도록 진행하여, 이들이 선택된 좌표계 변환으로부터 생성되는 카테고리 좌표계에서의 고정 포즈들에 대응하게 할 수 있다.
따라서, 카테고리 좌표계는 기준 좌표계로 간주될 수 있으며, 그 기준 좌표계를 참조하여 시청각 항목들이 고정되도록 렌더링된다. 카테고리 좌표계는 또한, (주어진 카테고리에 대해) 기준 좌표계 또는 고정 기준 좌표계로 지칭될 수 있다.
많은 실시예들에서, 하나의 렌더링 카테고리는, 시청각 항목들에 의해 표현되는 오디오 소스들 및 장면 객체들이 이전에 설명된 바와 같이 실세계에 대해 고정되는 렌더링에 대응할 수 있다. 그러한 실시예들에서, 좌표계 변환은, 카테고리에 대한 카테고리 좌표계가 실세계 좌표계와 정렬되도록 한다. 그러한 카테고리에 대해, 좌표계 변환은 고정 좌표계 변환일 수 있고, 예를 들어, 실세계 좌표계의 통합(unity) 일대일 맵핑일 수 있다. 따라서, 카테고리 좌표계는 효과적으로 실세계 좌표계, 또는 예컨대, 고정, 정적 변형(translation), 스케일링, 및/또는 회전일 수 있다.
많은 실시예들에서, 하나의 렌더링 카테고리는, 시청각 항목들에 의해 표현되는 오디오 소스들 및 장면 객체들이 머리 움직임, 즉 렌더링 좌표계에 대해 고정되는 렌더링에 대응할 수 있다. 그러한 실시예들에서, 좌표계 변환은, 카테고리에 대한 카테고리 좌표계가 사용자의 머리/재생 디바이스/렌더링 좌표계와 정렬되도록 한다. 그러한 카테고리에 대해, 좌표계 변환은 사용자 머리 움직임을 완전히 따르는 좌표계 변환일 수 있다. 예를 들어, 머리의 임의의 회전 다음에 좌표계 변환에서의 대응하는 회전이 뒤따르고, 사용자의 머리의 임의의 포지션 변화 다음에 좌표계 변환에서의 동일한 변화가 뒤따른다. 따라서, 그러한 렌더링 카테고리에 따르면, 좌표계 변환이 머리 움직임 데이터를 따르도록 동적으로 수정되어, 생성된 카테고리 좌표계가 렌더링 좌표계와 정렬되게 하여, 이에 의해, 이전에 설명된 바와 같이 입력 좌표계로부터 렌더링 좌표계로의 고정 맵핑을 초래한다.
필수적인 것은 아니지만, 많은 실시예들에서, 렌더링 카테고리들은 이에 따라, 시청각 항목이 실세계 좌표계에 대해 고정되어 렌더링되는 카테고리 및 렌더링 좌표계에 대해 고정되어 렌더링되는 카테고리를 포함할 수 있다. 그러나, 설명된 시스템에서, 렌더링 카테고리들 중 하나 이상은, 시청각 항목이 실세계 좌표계도 아니고 렌더링 좌표계도 아닌 좌표계에서 고정되는 렌더링 카테고리를 포함하며, 즉, 시청각 항목의 렌더링이 실세계에서도 고정되지 않고 사용자의 머리에 대해서도 고정되지 않는 렌더링 카테고리가 제공된다. 이에 따라, 적어도 하나의 카테고리 좌표계는 실세계 좌표계 및 렌더링 좌표계에 대해 가변적이다. 구체적으로, 좌표계는 렌더링 좌표계와 상이하고 실세계 좌표계와 상이하며, 실제로 이들과 카테고리 좌표계 사이의 차이는 일정하지 않고 변할 수 있다.
따라서, 적어도 하나의 렌더링 카테고리는 실세계에 고정되지 않고 사용자에도 고정되지 않는 렌더링을 제공할 수 있다. 오히려, 그것은 많은 실시예들에서, 중간의(in-between) 경험을 제공할 수 있다.
예를 들어, 좌표계 변환은 업데이트 기준이 충족되는 경우를 제외하고 대응하는 좌표계가 실세계에 대해 고정되도록 할 수 있다. 그러나, 기준이 충족되면, 좌표계 변환은 실세계 좌표계와 카테고리 좌표계 사이에 상이한 관계를 제공하도록 적응할 수 있다. 예를 들어, 맵핑은, 시청각이 실세계 좌표계에 대해 고정되어 렌더링되도록, 즉, 시청각 항목이 고정 포지션에 있는 것처럼 보이도록 할 수 있다. 그러나, 사용자가 그들의 머리를 주어진 양보다 많이 회전시키면, 실세계 좌표계와 카테고리 좌표계 사이의 관계가 이 회전을 보상하도록 변경된다. 예를 들어, 사용자의 머리 움직임이 예컨대, 20°보다 작은 한, 시청각 항목은 고정 포지션에 있도록 렌더링된다. 그러나, 사용자가 그의 머리를 20°보다 많이 움직이면, 카테고리 좌표계는 실세계 좌표계에 대해 20°만큼 회전된다. 이는 움직임들이 충분히 작은 한, 사용자가 렌더링된 시청각 항목에 대해 자연적인 3차원 경험을 인식하는 경험을 제공할 수 있다. 그러나, 머리 움직임이 큰 경우, 시청각 항목의 렌더링은 수정된 머리 포지션과 재정렬된다.
특정 예로서, 내레이터에 대응하는 오디오 소스는 초기에 사용자 바로 앞에 포지셔닝되도록 제시될 수 있다. 사용자 움직임들이 작은 경우, 오디오는 내레이터가 동일한 포지션에서 정적인 것으로 인식되도록 렌더링된다. 이는 자연적인 경험 및 인식을 제공하며, 특히 내레이터의 머리 밖 인식을 제공한다. 그러나, 사용자가 그의 머리를 원래 방향으로부터 내레이터 오디오 소스를 향하여 예컨대, 20°보다 많이 회전시키면, 시스템은 사용자의 새로운 배향 앞에 내레이터 오디오 소스를 재포지셔닝하기 위해 맵핑을 적응시킨다. 이 지점 주위의 움직임들이 작은 경우, 내레이터 오디오 소스는 (실세계 좌표계에 대해) 이러한 새로운 고정 포지션에서 렌더링된다. 이러한 새로운 오디오 소스 포지션에 대해 움직임이 주어진 임계치를 다시 초과하면, 카테고리 좌표계, 및 이에 따라 내레이터 오디오 소스의 인식된 포지션의 업데이트가 다시 수행될 수 있다. 따라서, 사용자에게는, 더 작은 움직임들에 대해 실세계와 관련하여 고정되지만 더 큰 움직임들에 대해서는 사용자를 따르는 내레이터가 제공될 수 있다. 설명된 예에서, 그것은 내레이터가 고정된 것처럼 인식되게 할 수 있고 머리 움직임에 대해 적절한 공간적 큐들을 제공할 수 있지만, (예컨대, 사용자가 완전히 180°를 도는 경우라도) 항상 실질적으로 사용자 앞에 있을 수 있다.
이 접근법에서, 메타데이터는 복수의 시청각 항목들에 대한 렌더링 카테고리 표시자들을 포함하여, 이에 의해, 소스단(source end)이 수신단에서 유연한 렌더링을 제어하는 것을 허용하며, 이때 렌더링은 구체적으로 개별 시청각 항목에 적응된다. 예를 들어, 상이한 공간적 렌더링 및 인식이, 예컨대 배경 음악, 내레이션, 장면에서 고정된 특정 객체들에 대응하는 오디오 소스들, 대화 등에 대응하는 항목들에 적용될 수 있다.
일부 실시예들에서, 렌더링 카테고리에 대한 좌표계 변환은 사용자 머리 움직임 데이터에 의존한다. 따라서, 일부 실시예들에서, 좌표계 변환을 변화시키는 적어도 하나의 파라미터는 사용자 머리 움직임 데이터에 의존한다.
많은 실시예들에서, 좌표계 변환은 사용자 머리 움직임 데이터로부터 결정된 사용자 머리 포즈 특성 또는 파라미터에 의존할 수 있다. 예를 들어, 이전에 설명된 바와 같이, 사용자 머리 포즈가 소정량보다 많은 회전을 나타내면, 좌표계 변환은 그 양에 대응하는 회전을 포함하도록 적응할 수 있다. 다른 예로서, 맵퍼(211)는, 주어진 지속기간보다 더 오랫동안 (충분히) 일정한 포즈를 사용자가 유지했음을 검출할 수 있고, 만약 그렇다면, 좌표계 변환은 렌더링 좌표계에서의 주어진 포지션에, 즉, 사용자에 대해 특정 포지션으로(예컨대, 사용자 바로 앞에) 시청각 항목을 포지셔닝하도록 적응할 수 있다.
일부 실시예들에서, 좌표계 변환은 평균 머리 포즈에 의존한다. 특히, 일부 실시예들에서, 좌표계 변환은, 카테고리 좌표계가 평균 머리 포즈와 정렬되도록 할 수 있다. 일부 실시예들에서, 좌표계 변환은, 카테고리 좌표계가 평균 머리 포즈에 대해 고정되도록 할 수 있다.
평균 머리 포즈는, 예를 들어, 적합한 컷오프 주파수를 갖는 저역 통과 필터에 의해 머리 포즈 측정치를 저역 통과 필터링함으로써, 예컨대 구체적으로, 적합한 지속기간의 윈도우에 걸쳐 비가중 평균화를 적용함으로써, 결정될 수 있다.
일부 실시예들에서, 렌더링에 대한 기준은, 하나 이상의 렌더링 카테고리들에 대해, 평균 머리 배향(h)인 것으로 선택될 수 있다. 이는, 시청각 항목이 더 느리고, 더 긴 지속적인 머리 배향 변화들을 따르는 효과를 생성하여, 사운드 소스를 머리와 관련하여 동일한 스폿에(예컨대, 얼굴 앞에) 머무는 것처럼 보이게 하지만, 빠른 머리 움직임들은 시청각 항목을 머리에 대해서보다는 실세계에 대해 고정된 것처럼 보이게(그리고 이에 따라 또한 가상 세계에서 고정된 것처럼 보이게) 할 것이다. 따라서, 일상 생활 동안 전형적인 작고 빠른 머리 움직임들은 여전히 사용자를 따르는 시청각 항목의 전반적인 인식을 허용하면서 여전히 몰입적인 머리 밖 착각을 생성할 것이다.
일부 실시예들에서, 적응 및 추적은 비선형이 되어서, 머리가 크게 회전하는 경우, 평균 머리 배향 기준이 예컨대, 순간 머리 배향에 비해 소정의 최대 각도보다 많이 벗어나지 않도록 '클립핑'되게 할 수 있다. 예를 들어, 이러한 최대치가 20도인 경우, 머리가 그러한 +/- 20도 내에서 "흔들리는" 한, 머리 밖 경험이 실현된다. 머리가 빠르게 회전하고 최대치를 넘어서면, 기준은 머리 배향을 따를 것이고(최대 20도 뒤처짐), 일단 움직임이 정지되면, 기준은 다시 안정화된다.
일부 실시예들에서, 적어도 하나의 렌더링 카테고리는 사용자 몸통 포즈에 의존하는 좌표계 변환과 연관된다. 그러한 실시예들에서, 시청각 렌더링 장치는, 사용자 몸통 포즈를 나타내는 사용자 몸통 포즈 데이터를 수신하도록 배열되는 몸통 포즈 수신기(215)를 포함할 수 있다.
몸통 포즈는 예컨대, 몸통 상에 포지셔닝되거나 착용된 전용 관성 센서 유닛에 의해 결정될 수 있다. 다른 예로서, 몸통 포즈는, 스마트폰과 같은 스마트 디바이스가 포켓 안에 착용되는 동안 그 스마트 디바이스 내의 센서들에 의해 결정될 수 있다. 또 다른 예로서, 코일들이 각각 사용자의 몸통 및 머리에 배치될 수 있고, 몸통에 대한 머리 움직임들이 이들 사이의 커플링의 변화들에 기초하여 결정될 수 있다.
그러한 실시예들에서, 좌표계 변환을 변화시키는 적어도 하나의 파라미터는 몸통 포즈 데이터에 의존한다.
많은 실시예들에서, 좌표계 변환은 몸통 포즈 데이터로부터 결정된 몸통 포즈 데이터 특성 또는 파라미터에 의존할 수 있다.
예를 들어, 몸통 포즈 데이터 포즈가 소정량보다 많은 몸통의 회전을 나타내면, 좌표계 변환은 그 양에 대응하는 회전을 포함하도록 적응할 수 있다. 다른 예로서, 맵퍼(211)는, 주어진 지속기간보다 더 오랫동안 (충분히) 일정한 몸통 포즈를 사용자가 유지했음을 검출할 수 있고, 만약 그렇다면, 좌표계 변환은 렌더링 좌표계에서의 주어진 포지션에 시청각 항목을 포지셔닝하도록 적응할 수 있으며, 여기서 그 포지션은 몸통 포즈에 대응한다.
특히, 일부 실시예들에서, 좌표계 변환은, 카테고리 좌표계가 사용자 몸통 포즈와 정렬되도록 할 수 있다. 일부 실시예들에서, 좌표계 변환은, 카테고리 좌표계가 사용자 몸통 포즈에 대해 고정되도록 할 수 있다. 따라서, 일부 실시예들에서, 시청각 항목은 사용자 몸통을 따르도록 렌더링될 수 있고, 따라서, 시청각 항목이 사용자의 바디 전체의 움직임을 따르지만 몸통에 대한 머리 움직임들에 대해 고정된 것처럼 보이는 인식 및 경험이 제공될 수 있다. 이것은 사용자를 따르는 시청각 항목의 머리 밖 인식 및 렌더링 둘 모두의 바람직한 경험을 제공할 수 있다.
일부 실시예들에서, 좌표계 변환은 평균 몸통 포즈에 의존할 수 있다. 평균 몸통 포즈는 예를 들어, 적합한 컷오프 주파수를 갖는 저역 통과 필터에 의해 머리 포즈 측정치를 저역 통과 필터링함으로써, 예컨대 구체적으로, 적합한 지속기간의 윈도우에 걸쳐 비가중 평균화를 적용함으로써, 결정될 수 있다.
따라서, 일부 실시예들에서, 렌더링 카테고리들 중 하나 이상은 순간 또는 평균 가슴/몸통 배향(t)과 정렬되는 렌더링에 대한 기준을 제공하는 좌표계 변환을 채용할 수 있다. 이러한 방식으로, 시청각 항목은 사용자의 얼굴 앞이 아니라 사용자의 바디 앞에 머무는 것처럼 보일 수 있다. 가슴/몸통에 대해 머리를 회전시킴으로써, 시청각 항목은 여전히 다양한 방향들로부터 인식될 수 있어, 다시 몰입적인 머리 밖 경험을 크게 증가시킬 수 있다.
일부 실시예들에서, 렌더링 카테고리에 대한 좌표계 변환은 외부 디바이스의 포즈를 나타내는 디바이스 포즈 데이터에 의존한다. 그러한 실시예들에서, 시청각 렌더링 장치는, 디바이스 몸통 포즈를 나타내는 디바이스 포즈 데이터를 수신하도록 배열되는 디바이스 포즈 수신기(217)를 포함할 수 있다.
디바이스는 예를 들어, 사용자에 대해 착용되거나, 휴대되거나, 부착되거나, 또는 달리 고정된 (것으로 가정된) 디바이스일 수 있다. 많은 실시예들에서, 외부 디바이스는 예를 들어, 모바일 폰 또는 개인용 디바이스, 예컨대 예를 들어, 포켓 안의 스마트폰, 바디 장착 디바이스, 또는 핸드헬드 디바이스(예컨대, 시각적 VR 콘텐츠를 보기 위해 사용되는 스마트 디바이스)일 수 있다.
많은 디바이스들은 디바이스의 상대적 또는 절대적 배향을 허용하는 자이로(gyro)들, 가속도계들, GPS 수신기들 등을 포함한다. 이어서, 디바이스는 현재의 상대적 또는 절대적 배향을 결정하고, 이를 전형적으로 무선인 적합한 통신을 사용하여 디바이스 포즈 수신기(217)로 송신할 수 있다. 예를 들어, 통신은 WiFi 또는 블루투스 접속들을 통해 이루어질 수 있다.
그러한 실시예들에서, 좌표계 변환을 변화시키는 적어도 하나의 파라미터는 디바이스 포즈 데이터에 의존한다.
많은 실시예들에서, 좌표계 변환은 디바이스 포즈 데이터로부터 결정된 디바이스 포즈 데이터 특성 또는 파라미터에 의존할 수 있다.
예를 들어, 디바이스 포즈 데이터 포즈가 소정량보다 많은 디바이스의 회전을 나타내면, 좌표계 변환은 그 양에 대응하는 회전을 포함하도록 적응할 수 있다. 다른 예로서, 맵퍼(211)는, 주어진 지속기간보다 더 오랫동안 (충분히) 일정한 몸통 포즈를 디바이스가 유지했음을 검출할 수 있고, 만약 그렇다면, 좌표계 변환은 렌더링 좌표계에서의 주어진 포지션에 시청각 항목을 포지셔닝하도록 적응할 수 있으며, 여기서 그 포지션은 디바이스 포즈에 대응한다.
특히, 일부 실시예들에서, 좌표계 변환은, 카테고리 좌표계가 디바이스 포즈와 정렬되도록 할 수 있다. 일부 실시예들에서, 좌표계 변환은, 카테고리 좌표계가 디바이스 포즈에 대해 고정되도록 할 수 있다. 따라서, 일부 실시예들에서, 시청각 항목은 디바이스 포즈를 따르도록 렌더링될 수 있고, 따라서 시청각 항목이 디바이스 움직임을 따르는 인식 및 경험이 제공될 수 있다. 디바이스는 많은 실제 사용자 시나리오들에서 사용자 포즈 기준의 양호한 표시를 제공할 수 있다. 예를 들어, 바디 착용 디바이스 또는 예컨대, 포켓 안의 스마트폰은 전체로서 사용자의 움직임의 양호한 반영을 제공할 수 있다. 그것은 상대적 머리 움직임들을 결정하기 위한 양호한 기준을 제공할 수 있고, 따라서, 시청각 항목이 사용자의 더 큰 움직임들을 따르게 하면서 머리 움직임들에 대한 현실적 응답을 조합하는 경험을 제공할 수 있다.
또한, 기준으로서의 외부 디바이스의 사용은 매우 실용적일 수 있고, 바람직한 사용자 경험으로 이어지는 기준을 제공할 수 있다. 이 접근법은, 종종 사용자에 의해 이미 착용되거나 휴대되고 디바이스 포즈를 결정 및 송신하기 위해 필요한 기능을 포함하는 디바이스들에 기초할 수 있다. 예를 들어, 대부분의 사람들은 현재, 디바이스 포즈를 결정하기 위한 가속도계들 등 및 디바이스 포즈 데이터를 시청각 렌더링 장치에 송신하기에 적합한 통신 수단(예컨대, 블루투스)을 이미 포함하는 스마트폰을 휴대한다.
일부 실시예들에서, 좌표계 변환은 평균 디바이스 포즈에 의존할 수 있다. 평균 디바이스 포즈는 예를 들어, 적합한 컷오프 주파수를 갖는 저역 통과 필터에 의해 디바이스 포즈 측정치를 저역 통과 필터링함으로써, 예컨대 구체적으로, 적합한 지속기간의 윈도우에 걸쳐 비가중 평균화를 적용함으로써, 결정될 수 있다.
따라서, 일부 실시예들에서, 렌더링 카테고리들 중 하나 이상은 순간 또는 평균 디바이스 배향과 정렬되는 렌더링에 대한 기준을 제공하는 좌표계 변환을 채용할 수 있다. 이러한 방식으로, 시청각 항목은, 디바이스가 이동될 때 움직이지만 머리 움직임들과 관련하여 고정된 채로 머물도록 디바이스에 대해 고정 포지션에 머무는 것처럼 보일 수 있어, 이에 의해, 더 자연스러운 느낌 및 몰입적인 머리 밖 경험을 제공할 수 있다.
따라서, 이 접근법은, 메타데이터가 시청각 항목들의 렌더링을 제어하는 데 사용될 수 있어서, 이들이 개별적으로 제어되어 상이한 시청각 항목들에 대해 상이한 사용자 경험들을 제공할 수 있게 하는 접근법을 제공할 수 있다. 경험은 실세계에서 완전히 고정되지 않거나 사용자를 완전히 따르지도 않는(머리에 고정됨) 시청각 항목들의 인식들을 제공하는 하나 이상의 옵션들을 포함한다. 구체적으로, 시청각 항목이 어느 정도까지 실세계를 참조하여 고정되어 렌더링되고 어느 정도까지 사용자의 움직임들을 따르는 중간의 경험들이 제공될 수 있다.
가능한 렌더링 카테고리들은 일부 실시예들에서 미리결정될 수 있고, 이때 각각의 카테고리는 미리결정된 좌표계 변환과 연관된다는 것이 이해될 것이다. 그러한 실시예들에서, 시청각 렌더링 장치는 좌표계 변환들을 저장하거나, 또는 동등하게 적절한 경우, 각각의 카테고리에 대해, 좌표계 변환에 대응하는 맵핑들을 직접 저장할 수 있다. 맵퍼(211)는, 선택된 렌더링 카테고리에 대한 저장된 좌표계 변환(또는 맵핑)을 검색하고, 이를 시청각 항목에 대한 맵핑을 수행할 때 적용하도록 배열될 수 있다.
예를 들어, 제1 시청각 항목에 대해, 렌더링 카테고리 표시자는 그것이 제1 카테고리에 따라 렌더링되어야 한다는 것을 나타낼 수 있다. 제1 카테고리는 머리 포즈에 고정된 시청각 항목들을 렌더링하기 위한 것일 수 있고, 따라서 맵퍼는 입력 포즈와 렌더링 포즈 사이에 고정된 일대일 맵핑을 제공하는 맵핑을 검색할 수 있다. 제2 시청각 항목에 대해, 렌더링 카테고리 표시자는 그것이 제2 카테고리에 따라 렌더링되어야 한다는 것을 나타낼 수 있다. 제2 카테고리는 실세계에 고정된 시청각 항목들을 렌더링하기 위한 것일 수 있고, 따라서 맵퍼는 머리 움직임이 보상되어 실제 공간에서의 고정 포지션들에 대응하는 렌더링 포즈들을 초래하도록 맵핑을 적응시키는 좌표계 변환을 검색할 수 있다. 제3 시청각 항목에 대해, 렌더링 카테고리 표시자는 그것이 제3 카테고리에 따라 렌더링되어야 한다는 것을 나타낼 수 있다. 제3 카테고리는 디바이스 포즈 또는 몸통 포즈에 고정된 시청각 항목들을 렌더링하기 위한 것일 수 있다. 맵퍼는, 디바이스 또는 몸통 포즈에 대한 머리 움직임이 보상되어 디바이스 또는 몸통 포즈에 대해 고정되는 시청각 항목의 렌더링을 초래하도록 맵핑을 적응시키는 좌표계 변환 또는 맵핑을 검색할 수 있다.
상이한 렌더링 카테고리들은 상이한 좌표계 변환들과 연관되어 맵핑이 카테고리 좌표계와 관련하여 고정되는 렌더링 포지션들을 초래하게 하는 반면, 맵퍼(211)는 그러한 좌표계 변환 또는 카테고리 좌표계를 명시적으로 결정할 필요가 없다는 것이 이해될 것이다. 오히려, 전형적인 실시예들에서, 생성된 렌더링 포즈들이 카테고리 좌표계에 대해 고정되도록 개별 렌더링 카테고리에 대해 맵핑 함수가 정의된다. 예를 들어, 디바이스(또는 몸통) 포즈에 대한 머리 포즈의 함수인 맵핑 함수는 디바이스(또는 몸통) 포즈에 대해 고정되는 카테고리 좌표계에 대해 고정되는 렌더링 포지션들에 입력 포지션들을 직접 맵핑하는 데 사용될 수 있다.
일부 실시예들에서, 메타데이터는 복수의 렌더링 카테고리들 중 하나 이상을 부분적으로 또는 완전히 특성화, 기술 및/또는 정의하는 데이터를 포함할 수 있다. 예를 들어, 메타데이터는 렌더링 카테고리 표시들 외에도, 카테고리들 중 하나 이상에 대해 적용될 좌표계 변환 및/또는 맵핑 함수를 기술하는 데이터를 또한 포함할 수 있다. 예를 들어, 메타데이터는, 제1 렌더링 카테고리가 입력 포지션들로부터 렌더링 포지션들로의 고정 맵핑을 요구하고, 제2 카테고리가 항목들이 실세계에 대해 고정된 것처럼 보이도록 머리 움직임을 완전히 보상하는 맵핑을 요구하고, 제3 렌더링 카테고리에서는, 항목들이 더 작고 더 빠른 머리 움직임들에 대해 고정된 것처럼 보이지만 또한 느린 평균 움직임들에 대해서는 사용자를 따르는 것처럼 보이는 중간의 경험이 인식되도록 평균 머리 움직임에 대한 머리 움직임에 대해 맵핑이 보상되어야 한다는 것을 나타낼 수 있다.
상이한 실시예들에서, 상이한 접근법들 및 데이터가 렌더링 카테고리 표시들로서 사용될 수 있다. 일부 실시예들에서, 각각의 카테고리는 예컨대, 카테고리 번호와 연관될 수 있고, 렌더링 카테고리 표시는 시청각 항목에 대해 사용될 카테고리의 번호를 직접 제공할 수 있다.
많은 실시예들에서, 렌더링 카테고리 표시는 시청각 항목의 특성 또는 특징을 나타낼 수 있고, 이는 특정 렌더링 카테고리 표시에 맵핑될 수 있다.
일부 실시예들에서, 렌더링 카테고리 표시는 구체적으로, 시청각 항목이 다이제틱 시청각 항목인지 또는 비다이제틱 시청각 항목인지를 나타낼 수 있다. 다이제틱 시청각 항목은, 예컨대 제시되는 필름 또는 스토리의 장면에 속하는 것일 수 있고; 다시 말해서, 다이제틱 시청각 항목은 필름, 스토리 등 내의 소스들(예컨대, 스크린플레이에서의 배우, 자연 영화에서의 새와 그의 사운드들 등)로부터 유래한다. 비다이제틱 시청각 항목들은 상기 필름 또는 스토리 외부로부터 유래하는 항목들(예컨대, 디렉터의 오디오 코멘터리, 무드 음악 등)일 수 있다. 많은 시나리오들에서, MPEG 용어에 따르면, 다이제틱 시청각 항목은 "머리 배향에 고정되지 않은" 것에 대응할 수 있고, 비다이제틱 시청각 항목은 "머리 배향에 고정된" 것에 대응할 수 있다.
일부 실시예들에서, 실제로 2개의 렌더링 카테고리들만이 있을 수 있는데, 구체적으로, 하나는 다이제틱인 것으로 표시되는 시청각 항목들의 렌더링에 대응할 수 있고, 하나는 비다이제틱인 것으로 표시되는 시청각 항목들의 렌더링에 대응할 수 있다.
예를 들어, 일부 애플리케이션들 및 시스템들에서, 다이제틱 시그널링은 시청각 렌더링 장치에 대해 하류로 전달될 수 있고, 원하는 렌더링 거동은 도 3에 대하여 예시화된 바와 같이, 이러한 시그널링에 의존할 수 있다.
Figure pct00001
기준으로서 실세계 배향을 이용한 머리 추적을 사용함으로써, 다이제틱 소스(D)는 가상 세계(V)에서의 그의 위치에 확고히 머물러 있는 것처럼 보이도록 요구되며, 따라서 실세계를 참조하여 고정된 것처럼 보이도록 렌더링되어야 한다. 필름 애플리케이션에 대한 주어진 예에서, 배우의 음성이 사용자 바로 앞에서 렌더링되고 사용자가 머리를 좌측으로 50도 회전시키면, 사운드는 우측으로 50도 투영된 헤드폰에 렌더링되어, 이에 의해, 그것을 동일한 가상 위치에 머무는 것처럼 보이게 할 것이다.
Figure pct00002
비다이제틱 사운드 소스(N)는 대신에, 머리 배향에 독립적으로 렌더링될 수 있다. 다시 말해서, 오디오는 머리에 대한 '하드 커플링된' 고정 포지션에(예컨대, 머리 앞에) 머물고, 머리와 함께 회전한다. 이는, 오디오에 머리 배향 의존적 맵핑을 적용하지 않고, 오히려 입력 포지션들로부터 렌더링 포지션들로의 고정 맵핑을 사용함으로써 달성된다. 필름 예에서, 디렉터의 코멘터리 오디오는 사용자 앞에서 정확하게 렌더링될 수 있고, 임의의 머리 움직임은 이것에 영향을 미치지 않을 것이며, 즉, 사운드는 머리 앞에 머문다.
도 2의 시청각 렌더링 장치는, 적어도 하나의 선택가능한 렌더링 카테고리가, 시청각 항목들의 렌더링이 일부 움직임들에 대해 실제/가상 세계와 관련하여 고정되게 하지만 다른 움직임들에 대해서는 사용자를 따르게 하는 시청각 항목들의 렌더링을 허용하는 보다 유연한 접근법을 제공하도록 배열된다. 이 접근법은 구체적으로 비다이제틱 시청각 항목들에 적용될 수 있다.
특정 예에서, 비다이제틱 사운드 소스들을 렌더링하기 위한 대안적이거나 추가적인 옵션들은 다음 중 하나 이상을 포함할 수 있다:
Figure pct00003
렌더링에 대한 기준은 (도 4에 예시된 바와 같이) 평균 머리 배향/포즈( h )인 것으로 선택될 수 있다. 이는, 비다이제틱 사운드 소스가 더 느리고, 더 긴 지속적인 머리 배향 변화들을 따르는 효과를 생성하여, 사운드 소스를 머리와 관련하여 동일한 스폿에(예컨대, 얼굴 앞에) 머무는 것처럼 보이게 하지만, 빠른 머리 움직임들은 비다이제틱 사운드 소스를 (머리에 대해서보다는) 가상 세계에서 고정된 것처럼 보이게 할 것이다. 따라서, 일상 생활 동안 전형적인 작고 빠른 머리 움직임들은 여전히 몰입적인 머리 밖 착각을 생성할 것이다.
일부 실시예들에 대한 개선으로서, 비다이제틱 오디오는 전형적으로 동일한 가상 포지션에 적어도 밀접하게 머물도록 요구되기 때문에, 추적은 비선형이 되어서, 머리가 크게 회전하는 경우, 평균 머리 배향 기준이 예컨대, 순간 머리 배향에 비해 소정의 최대 각도보다 많이 벗어나지 않도록 '클립핑'되게 할 수 있다. 예를 들어, 이러한 최대치가 20도인 경우, 머리가 그러한 +/- 20도 내에서 "흔들리는" 한, 머리 밖 경험이 실현된다. 머리가 빠르게 회전하고 최대치를 넘어서면, 기준은 머리 배향을 따를 것이고(최대 20도 뒤처짐), 일단 움직임이 정지되면, 기준은 다시 안정화된다.
Figure pct00004
머리 추적에 대한 기준은 (도 5에 예시된 바와 같이) 순간 또는 평균 가슴/몸통 배향/포즈( t )인 것으로 선택될 수 있다. 이러한 방식으로, 비다이제틱 콘텐츠는 사용자의 얼굴보다는 사용자의 바디 앞에 머무는 것처럼 보일 것이다. 가슴/몸통에 대해 머리를 회전시킴으로써, 비다이제틱 콘텐츠는 여전히 다양한 방향들로부터 들을 수 있어, 다시 몰입적인 머리 밖 경험을 크게 증가시킬 수 있다.
Figure pct00005
머리 추적에 대한 기준은 모바일 폰 또는 바디 착용 디바이스와 같은 외부 디바이스의 순간 또는 평균 배향/포즈로 선택될 수 있다. 이러한 방식으로, 비다이제틱 콘텐츠는 사용자의 얼굴보다는 디바이스 앞에 머무는 것처럼 보일 것이다. 디바이스에 대해 머리를 회전시킴으로써, 비다이제틱 콘텐츠는 여전히 다양한 방향들로부터 들을 수 있어, 다시 몰입적인 머리 밖 경험을 크게 증가시킬 수 있다.
일부 실시예들에서, 렌더링은 사용자 움직임에 의존하여 상이한 모드들에서 동작하도록 배열될 수 있다. 예를 들어, 사용자 움직임이 움직임 기준을 충족하면, 시청각 렌더링 장치는 제1 모드에서 동작할 수 있고, 그렇지 않으면, 그것은 제2 모드에서 동작할 수 있다. 이 예에서, 2개의 모드들은 동일한 렌더링 카테고리 표시에 대해 상이한 카테고리 좌표계들을 제공할 수 있으며, 즉, 사용자 움직임에 의존하여, 시청각 렌더링 장치는 상이한 좌표계들을 참조하여 고정된 주어진 렌더링 카테고리 표시로 주어진 시청각 항목을 렌더링할 수 있다.
일부 실시예들에서, 맵퍼(211)는, 사용자의 움직임을 나타내는 사용자 움직임 파라미터에 응답하여 주어진 렌더링 카테고리 표시에 대한 렌더링 카테고리를 선택하도록 배열될 수 있다. 따라서, 사용자 움직임 파라미터에 의존하여 주어진 시청각 항목 및 렌더링 카테고리 표시 값에 대해 상이한 렌더링 카테고리들이 선택될 수 있다. 구체적으로, 사용자 움직임 파라미터가 제1 기준을 충족하면, 가능한 렌더링 카테고리 표시 값들과 렌더링 카테고리들의 세트 사이의 주어진 연계성(linking)이 수신된 렌더링 카테고리 표시에 대한 렌더링 카테고리를 선택하는 데 사용될 수 있다. 그러나, 기준이 충족되지 않으면(또는 예컨대, 상이한 기준이 충족되면), 맵퍼(211)는 가능한 렌더링 카테고리 표시 값들과 렌더링 카테고리들의 동일한 또는 상이한 세트 사이의 상이한 연계성을 사용하여, 수신된 렌더링 카테고리 표시에 대한 렌더링 카테고리를 선택할 수 있다.
이 접근법은 예를 들어, 시청각 렌더링 장치가 모바일 사용자 및 정지된 사용자에 대해 상이한 렌더링 및 경험들을 제공하는 것을 가능하게 할 수 있다.
일부 실시예들에서, 렌더링 카테고리의 선택은 또한, 예컨대 사용자 설정 또는 애플리케이션(예컨대, 모바일 디바이스 상의 앱)에 의한 구성 설정과 같은 다른 파라미터들에 의존할 수 있다.
다른 접근법에서, 맵퍼는, 사용자의 움직임을 나타내는 사용자 움직임 파라미터에 응답하여 선택된 카테고리의 좌표계 변환에 대한 기준으로서 사용되는 실세계 좌표계와 사용자 머리 움직임 데이터가 참조하여 제공되는 좌표계 사이의 좌표계 변환을 결정하도록 배열될 수 있다.
따라서, 일부 실시예들에서, 렌더링의 적응은 머리 움직임을 나타내는 (전형적으로 실세계) 좌표계에 대해 변할 수 있는 기준에 관련되는 렌더링 카테고리의 좌표계 변환에 의해 도입될 수 있다. 예를 들어, 사용자 움직임에 기초하여, 일부 보상이 머리 움직임 데이터에 적용될 수 있고, 예컨대, 전체로서 사용자의 일부 움직임에 대한 오프셋에 적용될 수 있다. 예로서, 사용자가 예컨대, 보트에 탑승한 경우, 사용자 머리 움직임 데이터는 바디에 대한 사용자의 움직임, 또는 보트에 대한 바디의 움직임을 나타낼 수 있을 뿐만 아니라, 보트의 움직임을 반영할 수 있다. 이는 바람직하지 않을 수 있으며, 이에 따라 맵퍼(211)는 보트의 움직임으로 인한 사용자의 움직임의 성분을 반영하는 사용자 움직임 파라미터 데이터에 대한 머리 움직임 데이터를 보상할 수 있다. 이어서, 생성된 수정된/보상된 머리 움직임 데이터는 보트의 움직임에 대해 보상된 좌표계에 대해 주어지고, 선택된 카테고리 좌표계 변환은 이러한 수정된 좌표계에 직접 적용되어 원하는 렌더링 및 사용자 경험을 달성할 수 있다.
사용자 움직임 파라미터는 임의의 적합한 방식으로 결정될 수 있다는 것이 이해될 것이다. 예를 들어, 일부 실시예들에서, 그것은 관련 데이터를 제공하는 전용 센서들에 의해 결정될 수 있다. 예를 들어, 가속도계들 및/또는 자이로스코프들은 사용자를 운반하는 자동차 또는 보트와 같은 차량에 부착될 수 있다.
많은 실시예들에서, 맵퍼는, 사용자 머리 움직임 데이터 자체에 응답하여 사용자 움직임 파라미터를 결정하도록 배열될 수 있다. 예를 들어, 예컨대 주기적 성분들(예컨대, 보트를 움직이는 파도에 대응함)을 식별하는 기본 움직임 분석, 또는 장기간 평균화는 사용자 움직임 파라미터를 나타내는 사용자 파라미터를 결정하는 데 사용될 수 있다.
일부 실시예들에서, 2개의 상이한 렌더링 카테고리들에 대한 좌표계 변환은 사용자 머리 움직임 데이터에 의존할 수 있지만, 의존성들은 상이한 시간 평균화 특성들을 갖는다. 예를 들어, 하나의 렌더링 카테고리는 평균 머리 움직임에 의존하지만 상대적으로 낮은 평균화 시간(즉, 평균화 저역 통과 필터에 대한 상대적으로 높은 컷오프 주파수)을 갖는 좌표계 변환과 연관될 수 있는 반면, 다른 렌더링 카테고리는 또한, 평균 머리 움직임에 의존하지만 더 높은 평균화 시간(즉, 평균화 저역 통과 필터에 대한 상대적으로 낮은 컷오프 주파수)을 갖는 좌표계 변환과 연관된다.
예로서, 맵퍼(211)는, 사용자가 정적 환경에 포지셔닝되는 고려사항을 반영하는 기준에 대해 머리 움직임 데이터를 평가할 수 있다. 예를 들어, 저역 통과 필터링된 포지션 변화는 주어진 임계치와 비교될 수 있고, 임계치 미만인 경우, 사용자는 정적 환경에 있는 것으로 간주될 수 있다. 이 경우, 렌더링은 다이제틱 및 비다이제틱 오디오 항목들에 대해 전술한 특정 예에서와 같을 수 있다. 그러나, 포지션 변화가 임계치 초과인 경우, 사용자는 예컨대 산책하는 동안, 또는 자동차, 열차 또는 비행기와 같은 운송수단을 사용하는 동안, 모바일 설정에 있는 것으로 간주될 수 있다. 이 경우, 다음의 렌더링 접근법들이 적용될 수 있다(도 6 및 도 7을 또한 참조):
Figure pct00006
비다이제틱 사운드 소스들(N)은 비다이제틱 사운드 소스를 주로 얼굴 앞에 유지하기 위해, 기준으로서 평균 머리 배향( h )을 사용하여 렌더링될 수 있지만, 여전히 작은 머리 움직임들을 허용하여 '머리 밖' 경험을 생성할 수 있다. 다른 예들에서, 예컨대, 사용자 몸통 또는 디바이스 포즈들이 기준으로서 사용될 수 있다. 따라서, 이러한 접근법은 정적인 경우에 다이제틱 사운드 소스들에 사용될 수 있는 접근법에 대응할 수 있다.
Figure pct00007
다이제틱 사운드 소스들(D)은 또한, 기준으로서 평균 머리 배향( h )을 사용하여, 그러나 더 장기간의 평균 머리 배향( h ')에 대응하는 추가 오프셋으로 렌더링될 수 있다. 따라서, 이 경우, 다이제틱 가상 사운드 소스들은 가상 세계(V)에 대해 고정 위치들에 있는 것처럼 보일 것이지만, 이러한 가상 세계(V)는 '사용자와 함께 이동하는' 것처럼 보이고, 즉, 그것은 사용자에 대해 다소 고정된 배향을 유지한다. 순간 머리 배향으로부터 h '을 획득하는 데 사용되는 평균화(또는 다른 필터 프로세스)는 전형적으로 h 에 대해 사용된 것보다 실질적으로 느리게 선택된다. 따라서, 비다이제틱 소스들은 더 빠른 머리 움직임들을 따를 것인 반면, 다이제틱 콘텐츠(및 전체로서 가상 세계(V))는 사용자의 머리와 재배향하는데 시간이 걸릴 것이다.
위의 설명은 명료함을 위해 상이한 기능 회로, 유닛 및 프로세서를 참조하여 본 발명의 실시예를 설명하였음을 인식할 것이다. 그러나, 본 발명으로부터 벗어남이 없이 상이한 기능 회로, 유닛 또는 프로세서 간의 기능의 임의의 적합한 분산이 사용될 수 있음이 명백할 것이다. 예를 들어, 별개의 프로세서 또는 제어기에 의해 수행되도록 예시된 기능이 동일한 프로세서 또는 제어기에 의해 수행될 수 있다. 따라서, 특정 기능 유닛 또는 회로에 대한 언급은 오로지 엄격한 논리적 또는 물리적 구조 또는 조직을 나타내기보다는 설명된 기능을 제공하기 위한 적합한 수단에 대한 언급으로 간주되어야 한다.
본 발명은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 조합을 포함한 임의의 적합한 형태로 구현될 수 있다. 본 발명은 선택적으로 하나 이상의 데이터 프로세서 및/또는 디지털 신호 프로세서 상에서 실행되는 컴퓨터 소프트웨어로서 적어도 부분적으로 구현될 수 있다. 본 발명의 실시예의 요소 및 성분은 임의의 적합한 방식으로 물리적으로, 기능적으로 그리고 논리적으로 구현될 수 있다. 실제로 기능은 단일 유닛에서, 복수의 유닛에서, 또는 다른 기능 유닛들의 일부로서 구현될 수 있다. 그렇기 때문에, 본 발명은 단일 유닛에서 구현될 수 있거나, 상이한 유닛, 회로 및 프로세서 간에 물리적으로 그리고 기능적으로 분산될 수 있다.
본 발명이 몇몇 실시예와 관련하여 설명되었지만, 본 발명은 본 명세서에 기재된 특정 형태로 제한되도록 의도되지 않는다. 오히려, 본 발명의 범위는 첨부된 청구범위에 의해서만 제한된다. 또한, 소정 특징이 특정 실시예와 관련하여 설명되는 것처럼 보일 수 있지만, 당업자는 설명된 실시예의 다양한 특징이 본 발명에 따라 조합될 수 있음을 인식할 것이다. 청구범위에서, 용어 '포함하는'은 다른 요소 또는 단계의 존재를 배제하지 않는다.
또한, 개별적으로 열거되지만, 복수의 수단, 요소, 회로 또는 방법 단계는 예를 들어 단일 회로, 유닛 또는 프로세서에 의해 구현될 수 있다. 또한, 개개의 특징이 상이한 청구범위에 포함될 수 있지만, 이들은 아마도 유리하게 조합될 수 있으며, 상이한 청구범위에의 포함은 특징의 조합이 실현 가능하지 않고/않거나 유리하지 않다는 것을 암시하지 않는다. 또한 하나의 카테고리의 청구항들에의 소정 특징의 포함은 이 카테고리로의 제한을 암시하는 것이 아니라, 오히려 그 특징이 적절한 바에 따라 다른 청구항 카테고리들에 동등하게 적용될 수 있음을 나타낸다. 또한, 청구범위에서의 특징의 순서는 특징이 작용되어야 하는 임의의 특정 순서를 암시하지 않으며, 특히 방법 청구항에서의 개별 단계의 순서는 단계가 이 순서대로 수행되어야 함을 암시하지 않는다. 오히려, 단계는 임의의 적합한 순서로 수행될 수 있다. 또한, 단수형 언급은 복수를 배제하지 않는다. 이에 따라 "단수표현(a, an)", "제1", "제2" 등에 대한 언급은 복수를 배제하지 않는다. 청구범위에서의 참조 부호는 단지 명료화 예로서 제공되며, 어떤 방식으로도 청구범위의 범주를 제한하는 것으로 해석되지 않아야 한다.

Claims (18)

  1. 시청각 렌더링(audiovisual rendering) 장치로서,
    시청각 항목들을 수신하도록 배열된 제1 수신기(201);
    상기 시청각 항목들 중 적어도 일부의 각각에 대한 렌더링 카테고리 표시들 및 입력 포즈들을 포함하는 메타데이터를 수신하도록 배열된 메타데이터 수신기(209)로서, 상기 입력 포즈들은 입력 좌표계를 참조하여 제공되고, 상기 렌더링 카테고리 표시들은 렌더링 카테고리들의 세트로부터의 렌더링 카테고리를 나타내는, 상기 메타데이터 수신기(209);
    사용자의 머리 움직임을 나타내는 사용자 머리 움직임 데이터를 수신하도록 배열된 수신기(213);
    상기 사용자 머리 움직임 데이터에 응답하여 렌더링 좌표계에서의 렌더링 포즈들에 상기 입력 포즈들을 맵핑하도록 배열된 맵퍼(211)로서, 상기 렌더링 좌표계는 상기 머리 움직임에 대해 고정되는, 상기 맵퍼(211); 및
    상기 렌더링 포즈들을 사용하여 상기 시청각 항목들을 렌더링하도록 배열된 렌더러(203)를 포함하고;
    각각의 렌더링 카테고리는 실세계 좌표계로부터 카테고리 좌표계로의 좌표계 변환과 연계되고, 상기 좌표계 변환은 상이한 카테고리들에 대해 상이하고, 적어도 하나의 카테고리 좌표계는 상기 실세계 좌표계 및 상기 렌더링 좌표계에 대해 가변적이며;
    상기 맵퍼는, 제1 시청각 항목에 대한 렌더링 카테고리 표시에 응답하여 상기 제1 시청각 항목에 대해 상기 렌더링 카테고리들의 세트로부터 제1 렌더링 카테고리를 선택하도록, 그리고 다양한 사용자 머리 움직임에 대한 제1 카테고리 좌표계에서의 고정 포즈들에 대응하는 상기 렌더링 좌표계에서의 렌더링 포즈들에 상기 제1 시청각 항목에 대한 입력 포즈를 맵핑하도록 배열되고, 상기 제1 카테고리 좌표계는 상기 제1 렌더링 카테고리에 대한 제1 좌표계 변환으로부터 결정되는, 시청각 렌더링 장치.
  2. 제1항에 있어서, 제2 카테고리에 대한 제2 좌표계 변환은, 상기 제2 카테고리에 대한 카테고리 좌표계가 상기 사용자 머리 움직임과 정렬되도록 하는, 시청각 렌더링 장치.
  3. 제1항 또는 제2항에 있어서, 제3 카테고리에 대한 제3 좌표계 변환은, 상기 제3 카테고리에 대한 카테고리 좌표계가 상기 실세계 좌표계와 정렬되도록 하는, 시청각 렌더링 장치.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 제1 좌표계 변환은 상기 사용자 머리 움직임 데이터에 의존하는, 시청각 렌더링 장치.
  5. 제4항에 있어서, 상기 제1 좌표계 변환은 평균 머리 포즈에 의존하는, 시청각 렌더링 장치.
  6. 제5항에 있어서, 상기 제1 좌표계 변환은 상기 제1 카테고리 좌표계를 평균 머리 포즈와 정렬시키는, 시청각 렌더링 장치.
  7. 제4항 내지 제6항 중 어느 한 항에 있어서, 상이한 렌더링 카테고리에 대한 상이한 좌표계 변환은 상기 사용자 머리 움직임 데이터에 의존하고, 상기 제1 좌표계 변환 및 상기 상이한 좌표계 변환에 대한 상기 사용자 머리 움직임에의 의존성은 상이한 시간적 평균화 특성들을 갖는, 시청각 렌더링 장치.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 사용자 몸통(torso) 포즈를 나타내는 사용자 몸통 포즈 데이터를 수신하도록 배열된 수신기(215)를 추가로 포함하고, 상기 제1 좌표계 변환은 상기 사용자 몸통 포즈 데이터에 의존하는, 시청각 렌더링 장치.
  9. 제8항에 있어서, 상기 제1 좌표계 변환은 상기 제1 카테고리 좌표계를 사용자 몸통 포즈와 정렬시키는, 시청각 렌더링 장치.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서, 외부 디바이스의 포즈를 나타내는 디바이스 포즈 데이터를 수신하도록 배열된 수신기(217)를 추가로 포함하고, 상기 제1 좌표계 변환은 상기 디바이스 포즈 데이터에 의존하는, 시청각 렌더링 장치.
  11. 제10항에 있어서, 상기 제1 좌표계 변환은 상기 제1 카테고리 좌표계를 디바이스 포즈와 정렬시키는, 시청각 렌더링 장치.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서, 상기 맵퍼(211)는, 상기 사용자의 움직임을 나타내는 사용자 움직임 파라미터에 응답하여 상기 제1 렌더링 카테고리를 선택하도록 배열되는, 시청각 렌더링 장치.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서, 상기 맵퍼(211)는, 상기 사용자의 움직임을 나타내는 사용자 움직임 파라미터에 응답하여 상기 실세계 좌표계와 상기 사용자 머리 움직임 데이터에 대한 좌표계 사이의 좌표계 변환을 결정하도록 배열되는, 시청각 렌더링 장치.
  14. 제12항 또는 제13항에 있어서, 상기 맵퍼(211)는, 상기 사용자 머리 움직임 데이터에 응답하여 상기 사용자 움직임 파라미터를 결정하도록 배열되는, 시청각 렌더링 장치.
  15. 제1항 내지 제14항 중 어느 한 항에 있어서, 적어도 일부 렌더링 카테고리 표시들은, 상기 적어도 일부 렌더링 카테고리 표시들에 대한 상기 시청각 항목들이 다이제틱(diegetic) 시청각 항목들인지 또는 비다이제틱(non-diegetic) 시청각 항목들인지를 나타내는, 시청각 렌더링 장치.
  16. 제1항 내지 제15항 중 어느 한 항에 있어서, 상기 시청각 항목들은 오디오 항목들이고, 상기 렌더러(211)는, 상기 렌더링 포즈들을 사용하여 상기 오디오 항목들에 바이노럴 렌더링을 적용함으로써 바이노럴 렌더링 디바이스에 대한 바이노럴 오디오 신호들을 생성 출력하도록 배열되는, 시청각 렌더링 장치.
  17. 시청각 항목들을 렌더링하는 방법으로서,
    시청각 항목들을 수신하는 단계;
    상기 시청각 항목들 중 적어도 일부의 각각에 대한 렌더링 카테고리 표시들 및 입력 포즈들을 포함하는 메타데이터를 수신하는 단계로서, 상기 입력 포즈들은 입력 좌표계를 참조하여 제공되고, 상기 렌더링 카테고리 표시들은 렌더링 카테고리들의 세트로부터의 렌더링 카테고리를 나타내는, 상기 메타데이터를 수신하는 단계;
    사용자의 머리 움직임을 나타내는 사용자 머리 움직임 데이터를 수신하는 단계;
    상기 사용자 머리 움직임 데이터에 응답하여 렌더링 좌표계에서의 렌더링 포즈들에 상기 입력 포즈들을 맵핑하는 단계로서, 상기 렌더링 좌표계는 상기 머리 움직임에 대해 고정되는, 상기 입력 포즈들을 맵핑하는 단계; 및
    상기 렌더링 포즈들을 사용하여 상기 시청각 항목들을 렌더링하는 단계를 포함하고;
    각각의 렌더링 카테고리는 실세계 좌표계로부터 카테고리 좌표계로의 좌표계 변환과 연계되고, 상기 좌표계 변환은 상이한 카테고리들에 대해 상이하고, 적어도 하나의 카테고리 좌표계는 상기 실세계 좌표계 및 상기 렌더링 좌표계에 대해 가변적이며;
    상기 방법은, 제1 시청각 항목에 대한 렌더링 카테고리 표시에 응답하여 상기 제1 시청각 항목에 대해 상기 렌더링 카테고리들의 세트로부터 제1 렌더링 카테고리를 선택하는 단계, 및 다양한 사용자 머리 움직임에 대한 제1 카테고리 좌표계에서의 고정 포즈들에 대응하는 상기 렌더링 좌표계에서의 렌더링 포즈들에 상기 제1 시청각 항목에 대한 입력 포즈를 맵핑하는 단계를 포함하고, 상기 제1 카테고리 좌표계는 상기 제1 렌더링 카테고리에 대한 제1 좌표계 변환으로부터 결정되는, 시청각 항목들을 렌더링하는 방법.
  18. 컴퓨터 프로그램 제품으로서, 상기 프로그램이 컴퓨터 상에서 실행될 때 제17항의 모든 단계들을 수행하도록 적응된 컴퓨터 프로그램 코드 수단을 포함하는, 컴퓨터 프로그램 제품.
KR1020237016166A 2020-10-13 2021-10-11 시청각 렌더링 장치 및 그 동작 방법 KR20230088428A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP20201448.6A EP3985482A1 (en) 2020-10-13 2020-10-13 Audiovisual rendering apparatus and method of operation therefor
EP20201448.6 2020-10-13
PCT/EP2021/078039 WO2022078952A1 (en) 2020-10-13 2021-10-11 Audiovisual rendering apparatus and method of operation therefor

Publications (1)

Publication Number Publication Date
KR20230088428A true KR20230088428A (ko) 2023-06-19

Family

ID=72852418

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237016166A KR20230088428A (ko) 2020-10-13 2021-10-11 시청각 렌더링 장치 및 그 동작 방법

Country Status (6)

Country Link
US (1) US20230377276A1 (ko)
EP (2) EP3985482A1 (ko)
JP (1) JP2023546839A (ko)
KR (1) KR20230088428A (ko)
CN (1) CN116529773A (ko)
WO (1) WO2022078952A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4307722A1 (en) * 2022-07-15 2024-01-17 Bayerische Motoren Werke Aktiengesellschaft Road-based vehicle and method and system for controlling an acoustic output device in a road-based vehicle
US20240163629A1 (en) * 2022-11-11 2024-05-16 Bang & Olufsen, A/S Adaptive sound scene rotation

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3796776B2 (ja) * 1995-09-28 2006-07-12 ソニー株式会社 映像音声再生装置
RU2523961C2 (ru) 2009-02-13 2014-07-27 Конинклейке Филипс Электроникс Н.В. Слежение за положением головы
WO2017218973A1 (en) * 2016-06-17 2017-12-21 Edward Stein Distance panning using near / far-field rendering
GB201800920D0 (en) * 2018-01-19 2018-03-07 Nokia Technologies Oy Associated spatial audio playback
GB2575511A (en) * 2018-07-13 2020-01-15 Nokia Technologies Oy Spatial audio Augmentation

Also Published As

Publication number Publication date
EP3985482A1 (en) 2022-04-20
US20230377276A1 (en) 2023-11-23
CN116529773A (zh) 2023-08-01
WO2022078952A1 (en) 2022-04-21
EP4229601A1 (en) 2023-08-23
JP2023546839A (ja) 2023-11-08

Similar Documents

Publication Publication Date Title
US11877135B2 (en) Audio apparatus and method of audio processing for rendering audio elements of an audio scene
JP7170069B2 (ja) オーディオ装置及びその動作方法
US20240098446A1 (en) Head tracked spatial audio and/or video rendering
US20230377276A1 (en) Audiovisual rendering apparatus and method of operation therefor
JP7519991B2 (ja) オーディオビジュアルデータを処理するための装置及び方法
US20230283976A1 (en) Device and rendering environment tracking
US20230254660A1 (en) Head tracking and hrtf prediction
US20220036075A1 (en) A system for controlling audio-capable connected devices in mixed reality environments
RU2823573C1 (ru) Аудиоустройство и способ обработки аудио
RU2815621C1 (ru) Аудиоустройство и способ обработки аудио
RU2815366C2 (ru) Аудиоустройство и способ обработки аудио
RU2798414C2 (ru) Аудиоустройство и способ обработки аудио
WO2023150486A1 (en) Gesture controlled audio and/or visual rendering