KR20210024567A - 이미지 데이터 스트림을 생성하기 위한 장치 및 방법 - Google Patents

이미지 데이터 스트림을 생성하기 위한 장치 및 방법 Download PDF

Info

Publication number
KR20210024567A
KR20210024567A KR1020217001915A KR20217001915A KR20210024567A KR 20210024567 A KR20210024567 A KR 20210024567A KR 1020217001915 A KR1020217001915 A KR 1020217001915A KR 20217001915 A KR20217001915 A KR 20217001915A KR 20210024567 A KR20210024567 A KR 20210024567A
Authority
KR
South Korea
Prior art keywords
image data
interest
scene
visual
gaze
Prior art date
Application number
KR1020217001915A
Other languages
English (en)
Inventor
빌헬무스 헨드리쿠스 알폰수스 브룰스
바트 크룬
Original Assignee
코닌클리케 필립스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 엔.브이. filed Critical 코닌클리케 필립스 엔.브이.
Publication of KR20210024567A publication Critical patent/KR20210024567A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/012Head tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0346Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of the device orientation or free movement in a 3D space, e.g. 3D mice, 6-DOF [six degrees of freedom] pointers using gyroscopes, accelerometers or tilt-sensors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
    • H04N13/279Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals the virtual viewpoint locations being selected by the viewers or determined by tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/332Displays for viewing with the aid of special glasses or head-mounted displays [HMD]
    • H04N13/344Displays for viewing with the aid of special glasses or head-mounted displays [HMD] with head-mounted left-right displays
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • H04N13/383Image reproducers using viewer tracking for tracking with gaze detection, i.e. detecting the lines of sight of the viewer's eyes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6587Control parameters, e.g. trick play commands, viewpoint selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/302Image reproducers for viewing without the aid of special glasses, i.e. using autostereoscopic displays

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Processing Or Creating Images (AREA)
  • User Interface Of Digital Computer (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

예컨대 가상 현실 애플리케이션에 대하여 장면의 뷰들을 표현하는 이미지 데이터 스트림을 생성하기 위한 장치. 장치는 관찰자의 머리 포즈 및 상대적 눈 포즈 둘 모두를 나타내는 시선 표시를 수신하는 수신기(203)를 포함한다. 머리 포즈는 머리 위치를 포함하고, 상대적 눈 포즈는 머리 포즈에 대한 눈 포즈를 나타낸다. 결정기(205)는 시선 표시에 대응하는 장면 내의 통상적으로 작고/ 좁은, 시각적 관심 영역을 결정한다. 구체적으로, 시선 지점 주위의 영역이 식별될 수 있다. 생성기(209)는 시각적 관심 영역의 외측보다 시각적 관심 영역에 대하여 더 높은 품질 레벨/ 데이터 속도를 갖는 장면에 대한 이미지 데이터를 포함하도록 이미지 데이터 스트림을 생성한다.

Description

이미지 데이터 스트림을 생성하기 위한 장치 및 방법
본 발명은 이미지 데이터 스트림을 생성하기 위한 장치 및 방법에 관한 것으로 특히, 그러나 배타적이지 않게, 장면에 액세스하는 가상 현실 애플리케이션을 위한 이미지 데이터 스트림의 생성에 관한 것이다.
이미지 및 비디오 애플리케이션들의 다양성 및 범위는 최근 몇 년간 실질적으로 증가하였으며, 비디오를 이용하고 소비하는 새로운 서비스들 및 방식들이 계속하여 개발되고 도입되고 있다.
예를 들어, 점점 더 대중화되고 있는 하나의 서비스는 관찰자(viewer)가 렌더링의 파라미터들을 변경하기 위해 시스템과 능동적으로 그리고 동적으로 상호작용할 수 있는 방식으로 이미지 시퀀스들을 제공하는 것이다. 많은 애플리케이션에서 매우 매력적인 특징은, 예를 들어 관찰자가 제시되는 장면에서 움직이고 "둘러보는" 것을 가능하게 하는 것과 같은, 관찰자의 유효 관찰 포지션 및 관찰 방향을 변경하는 능력이다.
그러한 특징은 특히 가상 현실 경험이 사용자에게 제공되는 것을 가능하게 할 수 있다. 이것은 사용자가 가상 환경에서 (비교적) 자유롭게 이동하고 그의 위치 및 그가 보고 있는 곳을 동적으로 변경하는 것을 허용할 수 있다. 전형적으로, 그러한 가상 현실 애플리케이션들은 장면의 3차원 모델에 기초하며, 이 모델은 특정 요청된 뷰(view)를 제공하기 위해 동적으로 평가된다. 이러한 접근법은 예를 들어 컴퓨터 및 콘솔에 대한 1인칭 슈터의 카테고리에서와 같은 게임 애플리케이션으로부터 잘 알려져 있다.
특히 가상 현실 애플리케이션들에 대해, 제시되는 이미지가 3차원 이미지인 것이 또한 바람직하다. 실제로, 관찰자의 몰입을 최적화하기 위해, 전형적으로 사용자가 제시된 장면을 3차원 장면으로서 경험하는 것이 바람직하다. 실제로, 가상 현실 경험은 바람직하게는 사용자가 가상 세계에 대한 그/그녀 자신의 위치, 카메라 뷰 포인트(viewpoint), 및 시간적 순간을 선택하는 것을 허용해야 한다.
전형적으로, 가상 현실 애플리케이션들은 이들이 장면의 미리결정된 모델에 기초하고, 전형적으로 가상 세계의 인공 모델에 기초한다는 점에서 본질적으로 제한된다. 가상 현실 경험이 현실 세계 캡처에 기초하여 제공될 수 있다면 바람직할 것이다. 그러나, 많은 경우에, 그러한 접근법은 매우 제한되거나 현실 세계의 가상 모델이 현실 세계 캡처들로부터 구축될 것을 요구하는 경향이 있다. 이어서, 이러한 모델을 평가함으로써 가상 현실 경험이 생성된다.
그러나, 현재의 접근법들은 준최적(suboptimal)인 경향이 있고, 종종 높은 계산 또는 통신 리소스 요건을 갖는 경향이 있고/있거나, 예컨대 감소된 품질 또는 제한된 자유를 갖는 준최적의 사용자 경험을 제공하는 경향이 있다.
애플리케이션의 일례로서, 가상 현실 안경이 시장에 진입했다. 이러한 안경은 관찰자가 캡처된 360도(파노라마) 비디오를 경험할 수 있게 한다. 이러한 360도 비디오는 종종, 개별 이미지들이 단일 구면 매핑으로 함께 스티칭(stitching)되는 카메라 리그(camera rig)들을 사용하여 미리 캡처된다. 360도 비디오에 대한 일반적인 스테레오 포맷들은 상/하 및 좌/우이다. 논-파노라마 스테레오 비디오와 유사하게, 좌안 및 우안 픽처(picture)들은 단일 H.264 비디오 스트림의 일부로서 압축된다. 단일 프레임을 디코딩한 후에, 관찰자는 그/그녀 주위의 세계를 보기 위해 그/그녀의 머리를 회전시킨다. 일례는, 관찰자가 360 도 둘러보기 효과를 경험할 수 있고, 상이한 위치들로부터 기록된 비디오 스트림들 사이에서 개별적으로 스위칭할 수 있는 기록이다. 전환할 때, 다른 비디오 스트림이 로딩되는데, 이는 경험을 중단시킨다.
스테레오 파노라마 비디오 접근법의 한 가지 결점은 관찰자가 가상 세계에서 포지션을 변경할 수 없다는 점이다. 파노라마 스테레오 비디오 이외의 파노라마 깊이 맵의 인코딩 및 송신은 클라이언트 측에서의 관찰자의 작은 병진 운동의 보상을 허용할 수 있지만, 그러한 보상은 본질적으로 작은 변동 및 움직임으로 제한될 것이며, 몰입적이고 자유로운 가상 현실 경험을 제공할 수 없을 것이다.
관련 기술은 깊이 맵을 갖는 다수의 시점이 단일 비디오 스트림으로 인코딩 및 송신되는 자유 시점 비디오이다. 비디오 스트림의 비트 레이트는 잘 알려진 시간 예측 스킴(temporal prediction scheme)에 더하여 시점들 간의 각도 의존성을 이용함으로써 감소될 수 있다. 그러나, 이러한 접근법은 여전히 높은 비트 레이트를 요구하며, 생성될 수 있는 이미지 면에서 제한적이다. 그것은 3차원 가상 현실 세계에서 완전히 자유로운 움직임의 경험을 사실상 제공할 수 없다.
유감스럽게도, 종래 기술들 중 어느 것도 이상적인 경험을 전달할 수 없으며, 종종 포지션 및 관찰 방향의 변화의 자유에 있어서 제한적인 경향이 있다. 또한, 이러한 기술들은 매우 높은 데이터 레이트를 요구하고 개별 이미지들/뷰들의 생성에 필요한 것보다 더 많은 데이터를 포함하는 데이터 스트림을 제공하는 경향이 있다.
많은 애플리케이션들에서, 구체적으로 가상 현실 애플리케이션들의 경우에, 이미지 데이터 스트림은 이미지 데이터 스트림이 장면 내의 사용자의(가상) 위치를 반영하도록 장면을 표현하는 데이터로부터 생성된다. 이러한 이미지 데이터 스트림은 통상적으로 동적으로 그리고 실시간으로 생성되어 가상 장면 내의 사용자의 움직임을 반영하도록 한다. 이미지 데이터 스트림은 렌더러에 제공될 수 있으며, 이는 이미지 데이터 스트림의 이미지 데이터로부터 이미지들을 사용자에 렌더링한다. 많은 애플리케이션들에서, 렌더러에 대한 이미지 데이터 스트림의 제공은 대역폭이 제한된 통신 링크를 통한다. 예를 들어, 이미지 데이터 스트림은 원격 서버에 의해 생성되고, 예컨대 통신망을 통해 렌더링 디바이스에 전송될 수 있다.
그러나, 예컨대 이러한 애플리케이션들에 대한 문제는 그것들이 가장 실용적인 애플리케이션들에 대하여 매우 높은 데이터 속도를 필요로 한다는 것이다. 예를 들어, 360° 비디오 스트리밍에 기초하여 가상 현실 경험을 제공하는 것이 제안되었는데, 장면의 완전한 360° 뷰가 서버에 의해 주어진 관찰자 위치에 대하여 제공됨으로써 클라이언트가 상이한 방향들에 대하여 뷰들을 생성할 수 있게 한다. 그러나, 이는 가장 실용적인 애플리케이션들에서 바람직하지 않거나 또는 이용가능하지 않은 극도로 높은 데이터 속도를 초래한다.
구체적으로, 가상 현실(VR)의 유망한 애플리케이션들 중 하나는 전방향 비디오(예컨대 VR360 또는 VR180)이다. 여기서 특정 뷰포인트로부터의 완전한 비디오는 (예컨대 ERP 투사를 이용하여) 하나의(또는 그 이상의) 직사각형 윈도 상으로 맵핑된다. MPEG는 이러한 접근법을 표준화하였고, 또한 이는 결국 매우 높은 데이터 속도로 이어질 것임을 예상하였다.
뷰 구면을 소수의 사전결정된 타일들로 분할하고 이어서 이것들을 상이한 품질 레벨들에서 클라이언트로 전송하는 것이 제안되었다. 그러나, 이는 여전히 통상적으로 매우 높은 데이터 속도를 초래하고, 추가로 사용자에 제시되는 렌더링된 이미지들에 대해 달성되는 화질을 저하시키는 경향이 있다. MPEG VR360 및 VR180의 경우, 관찰자가 (그 순간에) 보고 있는 부분('타일')만은 최고 해상도 및 화질로 그리고 나머지(주위) 부분은 저해상도로 요청하는 것이 가능하다. 그러나, 이는 여전히 높은 데이터 속도를 필요로 하며, 통상적인 가상 현실 고글/ 헤드셋의 시야각은 예컨대 HDTV(수평으로 ~30 도)와 비교하여 훨씬 넓기 때문에(수평으로 ~100 도), 비디오 데이터 속도는 또한 HDTV를 위한 것보다 훨씬 높을 것이다(예컨대 10 배).
따라서, 개선된 접근법이 유리할 것이다. 특히, 개선된 동작, 증가된 유연성, 개선된 가상 현실 경험, 감소된 데이터 속도, 용이해진 배포, 감소된 복잡성, 용이해진 구현, 감소된 저장 요건, 증가된 화질, 및/또는 개선된 성능 및/또는 동작을 허용하는 접근접이 유리할 것이다.
따라서, 본 발명은 전술한 불리한 점들 중 하나 이상을 단독으로 또는 임의의 조합으로 바람직하게 완화, 경감 또는 제거하고자 한다.
본 발명의 양태에 따라 3차원 장면의 뷰들을 표현하는 이미지 데이터 스트림을 생성하기 위한 장치가 제공되어 있으며, 장치는: 관찰자의 머리 포즈 및 상대적 눈 포즈 둘 모두를 나타내는 시선 표시를 수신하기 위한 수신기 - 머리 포즈는 머리 위치를 포함하고 상대적 눈 포즈는 머리 포즈에 대한 눈 포즈를 나타냄 -; 시선 표시에 대응하는 3차원 장면 내의 3차원 위치를 갖는 시각적 관심 영역을 결정하기 위한 결정기; 장면에 대한 이미지 데이터를 포함하도록 이미지 데이터 스트림을 생성하기 위한 생성기 - 이미지 데이터는 적어도 시각적 관심 영역에 대한 제1 이미지 데이터 및 시각적 관심 영역 밖의 장면에 대한 제2 이미지 데이터를 포함하도록 생성됨 -를 포함하고, 생성기는 제2 이미지 데이터보다 제1 이미지 데이터에 대하여 더 높은 품질 레벨을 갖게 이미지 데이터를 생성하도록 배열되고; 결정기는 시선 표시의 시선 거리 표시에 응답하여 시각적 관심 영역을 결정하도록 배열된다.
발명은 많은 실시예들에서 장면에 대한 개선된 및/또는 더 실용적인 이미지 데이터를 제공할 수 있다. 그 접근법은 많은 실시예들에서 유연하고, 효율적이며, 높은 성능의 가상 현실(VR) 애플리케이션들에 매우 적합한 이미지 데이터를 제공할 수 있다. 많은 실시예들에서, 화질과 데이터 속도 사이에서 실질적으로 개선된 트레이드오프를 갖는 VR 애플리케이션을 허용하거나 또는가능하게 할 수 있다. 많은 실시예들에서, 이는 개선된 인식 화질 및/또는 감소된 데이터 속도를 허용할 수 있다. 이 접근법은 예컨대 장면을 표현하는 데이터가 중앙에 저장되고, 잠재적으로 복수의 원격 VR 클라이언트들을 지원하는 VR 애플리케이션들에 특히 적합할 수 있다.
시선 표시는 관찰자의 시선 지점을 나타낼 수 있다. 머리 포즈 및 상대적 눈 포즈는 조합하여 시선 지점에 대응할 수 있고, 시선 표시는 예를 들어 이 시선 지점에 대응하는 장면 내의 위치를 표시할 수 있다.
많은 실시예들에서, 시각적 관심 영역은 시선 지점에 대응하는 영역일 수 있다. 특히, 시각적 관심 영역은 시선 표시에 의해 표시되는 시선 지점에 관한 기준을 충족시키는 장면의 영역으로서 결정될 수 있다. 기준은 예를 들어 근접 요건일 수 있다.
이미지 데이터 스트림은 머리 포즈에 대응하는 뷰포트들에 대한 비디오 데이터를 포함할 수 있다. 제1 및 제2 이미지 데이터는 뷰포트에 대한 이미지 데이터일 수 있다. 제2 데이터는 머리 포즈로부터의 시야에 대응하는 이미지의 적어도 일부에 대한 이미지 데이터일 수 있다.
이미지 데이터 스트림은 연속적인 데이터 스트림일 수 있고, 예컨대 뷰 이미지들의 스트림 및/또는 3차원 데이터의 스트림일 수 있다. 화질 레벨은 많은 실시예들에서 (공간적 및/또는 시간적) 데이터 속도와 동일할 수 있다. 구체적으로, 생성기는, 제2 이미지 데이터보다 제1 이미지 데이터에 대하여 더 높은 데이터 속도를 갖게 이미지 데이터를 생성하도록 배열될 수 있다는 점에서, 제2 이미지 데이터보다 제1 이미지 데이터에 대하여 더 높은 품질 레벨을 갖게 이미지 데이터를 생성하도록 배열될 수 있다.
시각적 관심 영역은 장면 내의 3차원 영역일 수 있다. 시선 표시는 머리 포즈의 위치로부터 시선 지점까지의 거리의 표시를 포함할 수 있다. 결정기는 (관찰자 위치로부터) 시각적 관심 영역까지의 거리를 결정하도록 배열될 수 있고, 생성기는 거리에 응답하여 제1 데이터를 결정하도록 배열될 수 있다.
시선 표시의 시선 거리 표시는 머리 포즈/ 관찰자 포즈로부터 시선 지점까지의 거리를 나타낼 수 있다. 결정기는 시선 표시에 대응하는 장면의 콘텐츠에 응답하여 시각적 관심 영역을 결정하도록 배열될 수 있다.
장면은 가상 장면일 수 있고, 구체적으로 인공 가상 장면일 수 있거나, 또는 예컨대 캡처된 실제 세계 장면, 또는 증강 현실 장면일 수 있다.
본 발명의 옵션적 특징부에 따라, 결정기는 적어도 한 방향으로 머리 포즈에 대하여 10 도 이하의 확장을 갖게 시각적 관심 영역을 결정하도록 배열된다.
이는 많은 실시예에서 개선된 성능을 제공할 수 있다. 시각적 관심 영역은 작은 확장을 갖도록 결정될 수 있으며, 구체적으로 사용자의 시야각보다 훨씬 낮을 수 있고, 장면의 이미지들을 사용자에 제시하는 데 사용될 때 통상적인 디스플레이 시야각보다 훨씬 낮을 수 있다. 예를 들어, VR 헤드셋들은 통상적으로 약 100°의 시야각을 제공한다. 본 발명자는 품질 레벨이 좁은 시야각의 외측에서 감소되는 것에 의해 인식 화질이 (상당히 또는 통상적으로 현저하게) 영향을 받지 않을 것임을 알게 되었다.
일부 실시예들에서, 결정기는 머리 포즈에 대하여 10 도 이하의 수평 확장을 갖게 시각적 관심 영역을 결정하도록 배열될 수 있다. 일부 실시예들에서, 결정기는 머리 포즈에 대하여 10 도 이하의 수직 확장을 갖게 시각적 관심 영역을 결정하도록 배열될 수 있다.
본 발명의 옵션적 특징부에 따라, 시각적 관심 영역은 장면 객체에 대응한다.
이는 많은 실시예에서 개선된 성능을 제공할 수 있다.
본 발명의 옵션적 특징부에 따라, 결정기는 장면 내의 장면 객체의 움직임을 추적하도록 배열되고 결정기는 추적된 움직임에 응답하여 시각적 관심 영역을 결정하도록 배열된다.
이는 많은 실시예들에서 개선된 성능을 제공할 수 있고, 특히 통상적으로 사용자의 실제 현재 초점에 더 밀접하게 대응하는 시각적 관심 영역이 결정될 수 있도록 할 수 있다.
본 발명의 옵션적 특징부에 따라, 결정기는 장면에 대한 저장된 사용자 보기 거동에 응답하여 시각적 관심 영역을 결정하도록 배열된다.
이는 많은 실시예들에서 개선된 성능을 제공할 수 있고, 특히 통상적으로 사용자의 실제 현재 초점에 더 밀접하게 대응하는 시각적 관심 영역이 결정될 수 있도록 할 수 있다.
본 발명의 옵션적 특징부에 따라, 결정기는 저장된 사용자 보기 거동이 더 높은 보기 빈도를 나타내는 장면의 영역들에 시각적 관심 영역을 편중시키도록 배열된다.
이는 통상적으로 시각적 관심 영역의 개선된 결정을 제공할 수 있고, 개선된 성능을 제공할 수 있다.
결정기는 저장된 사용자 보기 거동이 더 낮은 보기 빈도를 나타내는 장면의 영역들에 비하여, 저장된 사용자 보기 거동이 더 높은 보기 빈도를 나타내는 장면의 영역들에 시각적 관심 영역을 편중시키도록 배열될 수 있다.
영역/ 객체에 대한 더 높은 보기 빈도는 그 영역/ 객체가 보기 빈도가 더 낮은 영역/ 객체보다 더 많이 사용자의 시각적 관심의 주제였음을 반영할 수 있다.
본 발명의 옵션적 특징부에 따라, 결정기는 장면의 상이한 영역들 사이의 이전의 보기 거동 관계들을 나타내는 관계 데이터에 응답하여 예측된 시각적 관심 영역을 결정하도록 배열되며; 생성기는 예측된 시각적 관심 영역에 대한 제3 이미지 데이터를 이미지 데이터 스트림에 포함하도록 배열되고; 생성기는 예측된 시각적 관심 영역 밖의 제2 이미지 데이터보다 제3 이미지 데이터에 대하여 더 높은 품질 레벨을 갖게 이미지 데이터를 생성하도록 배열된다.
이는 많은 실시예에서 개선된 성능을 제공할 수 있다. 구체적으로, 이는 많은 실시예들에서 많은 통상적인 사용자 거동들에 대하여 끊김 또는 지연 없는 개선된 인식 화질을 허용할 수 있다.
결정기는 현재 시각적 관심 영역과 예측된 시각적 관심 영역의 뷰들 사이의 높은 뷰 상관관계를 나타내는 관계 데이터에 응답하여 예측된 시각적 관심 영역을 결정하도록 배열될 수 있다.
본 발명의 옵션적 특징부에 따라, 관계 데이터는 적어도 한 명의 관찰자에 의한 이전의 시선 이동들을 나타내며; 결정기는 관계 데이터가 임계치를 초과하는 시각적 관심 영역으로부터 제1 영역으로의 시선 이동들의 빈도를 나타내는 장면의 제1 영역으로서 예측된 시각적 관심 영역을 결정하도록 배열된다.
이는 많은 실시예에서 개선된 성능을 제공할 수 있다.
본 발명의 옵션적 특징부에 따라, 결정기는 시각적 관심 영역에 대응하는 장면 객체의 이동 데이터에 응답하여 예측된 시각적 관심 영역을 결정하도록 배열되고; 생성기는 예측된 시각적 관심 영역에 대한 제3 이미지 데이터를 포함하도록 배열되고; 생성기는 예측된 시각적 관심 영역 밖의 제2 이미지 데이터보다 제3 이미지 데이터에 대하여 더 높은 품질 레벨을 갖게 이미지 데이터를 생성하도록 배열된다.
이는 많은 실시예에서 개선된 성능을 제공할 수 있다.
본 발명의 옵션적 특징부에 따라, 생성기는 관찰 포즈에 대한 뷰포트들에 대응하는 이미지들을 포함하는 비디오 데이터 스트림으로서 이미지 데이터 스트림을 생성하도록 배열된다.
이는 VR 경험이 원격 서버로부터 제공되는 많은 실시예들을 포함하는 많은 실시예들에서 특히 유리한 접근법을 제공할 수 있다. 이는 예컨대 상대적으로 낮은 데이터 속도 요건을 여전히 유지하면서 VR 클라이언트의 복잡성을 감소시킨다.
본 발명의 옵션적 특징부에 따라, 결정기는 장면 내의 시각적 관심 영역의 이동과 시선 표시의 변화 사이의 상관관계에 응답하여 시각적 관심 영역에 대한 신뢰도 측정치를 결정하도록 배열되고; 생성기는 신뢰도 측정치에 응답하여 제1 이미지 데이터에 대한 화질을 결정하도록 배열된다.
본 발명의 옵션적 특징부에 따라, 장치는 가상 장면에 대한 가상 현실 애플리케이션을 실행하도록 배열되는 가상 현실 프로세서를 포함하며, 여기서 가상 현실 애플리케이션은 시선 표시를 생성하고, 이미지 데이터 스트림으로부터 관찰자에 대한 뷰포트에 대응하는 이미지를 렌더링하도록 배열된다.
본 발명의 옵션적 특징부에 따라, 장치는 원격 클라이언트로부터 시선 표시를 수신하고, 이미지 데이터 스트림을 원격 클라이언트로 전송하도록 추가로 배열된다.
본 발명의 옵션적 특징부에 따라, 생성기는 머리 포즈에 응답하여 이미지 데이터에 대한 뷰포트를 결정하고, 뷰포트에 응답하여 제1 데이터를 결정하도록 배열된다.
본 발명의 양태에 따라 3차원 장면의 뷰들을 표현하는 이미지 데이터 스트림을 생성하는 방법이 제공되어 있으며, 방법은: 관찰자의 머리 포즈 및 상대적 눈 포즈 둘 모두를 나타내는 시선 표시를 수신하는 단계 - 머리 포즈는 머리 위치를 포함하고 상대적 눈 포즈는 머리 포즈에 대한 눈 포즈를 나타냄 -; 시선 표시에 대응하는 3차원 장면 내의 3차원 위치를 갖는 시각적 관심 영역을 결정하는 단계; 장면에 대한 이미지 데이터를 포함하도록 이미지 데이터 스트림을 생성하는 단계 - 이미지 데이터는 적어도 시각적 관심 영역에 대한 제1 이미지 데이터 및 시각적 관심 영역 밖의 장면에 대한 제2 이미지 데이터를 포함하도록 생성됨 -를 포함하고, 이미지 데이터는 제2 이미지 데이터보다 제1 이미지 데이터에 대하여 더 높은 품질 레벨을 갖고; 시각적 관심 영역을 결정하는 단계는 시선 표시의 시선 거리 표시에 응답하여 시각적 관심 영역을 결정하는 단계를 포함한다.
본 발명의 이들 및 다른 태양들, 특징들 및 이점들이 후술되는 실시예(들)로부터 명백할 것이고 그것을 참조하여 설명될 것이다.
본 발명의 실시예들이 도면들을 참조하여 단지 예로서 설명될 것이다.
도 1은 가상 현실 경험을 제공하기 위한 클라이언트 서버 배열의 예를 도시한다.
도 2는 본 발명의 일부 실시예들에 따른 장치의 구성요소들의 예를 도시한다.
도 3은 도 2의 장치의 일부 구현예들에 의해 생성될 수 있는 뷰 이미지들의 예를 도시한다.
사용자가 가상 세계에서 여기저기 움직이게 하는 가상 경험들은 점점 더 대중화되고 있고, 그러한 요구를 만족시키기 위한 서비스들이 개발되고 있다. 그러나, 효율적인 가상 현실 서비스들의 제공은, 특히 경험이 완전히 가상으로 생성된 인공 세계에 대해서보다는 오히려 현실 세계 환경의 캡처에 기초하는 것이라면 매우 어렵다.
많은 가상 현실 애플리케이션들에서, 장면 내의 가상 관찰자의 포즈를 반영하는 관찰자 포즈 입력이 결정된다. 이어서 가상 현실 장치/ 시스템/ 애플리케이션은 관찰자 포즈에 대응하는 관찰자에 대한 장면의 뷰들 및 뷰포트들에 대응하는 하나 이상의 이미지들을 생성한다.
통상적으로, 가상 현실 애플리케이션은 좌안 및 우안에 대한 별도의 뷰 이미지들의 형태로 3차원 출력을 생성한다. 이어서 이들은 통상적으로 VR 헤드셋의 개별 좌우안 디스플레이와 같은 적합한 수단에 의해 사용자에게 제시될 수 있다. 다른 실시예들에서, 이미지는 예컨대 무안경 방식(autostereoscopic) 디스플레이(이 경우에 관찰자 포즈에 대하여 다량의 뷰 이미지들이 생성될 수 있음)으로 제시될 수 있거나, 또는 실제로 일부 실시예들에서 단지 하나의 2차원 이미지만이 생성될 수 있다(예컨대 종래의 2차원 디스플레이를 이용).
관찰자 포즈 입력은 상이한 애플리케이션들에서 상이한 방식으로 결정될 수 있다. 많은 실시예들에서, 사용자의 물리적 움직임은 직접 추적될 수 있다. 예를 들어, 사용자 영역을 조사하는 카메라는 사용자의 머리(또는 심지어 눈)을 검출 및 추적할 수 있다. 많은 실시예들에서, 사용자는 외부 및/또는 내부 수단에 의해 추적될 수 있는 VR 헤드셋을 착용할 수 있다. 예를 들어, 헤드셋은 헤드셋의, 그리고 그에 따른 머리의 움직임 및 회전에 관한 정보를 제공하는 가속도계 및 자이로스코프를 포함할 수 있다. 일부 예들에서, VR 헤드셋은 신호들을 전송할 수 있거나 또는 외부 센서가 VR 헤드셋의 움직임을 결정하게 하는 (예컨대 시각적) 식별자들을 포함할 수 있다.
일부 시스템들에서, 관찰자 포즈는 수동 수단으로, 예컨대 사용자가 조이스틱 또는 유사한 수동 입력을 수동으로 제어함으로써 제공될 수 있다. 예를 들어, 사용자는 제1 아날로그 조이스틱을 한 손으로 제어함으로써 장면에서 가상 관찰자를 수동으로 이동시키고, 다른 손으로 제2 아날로그 조이스틱을 수동으로 이동시킴으로써 가상 관찰자가 보고 있는 방향을 수동으로 제어할 수 있다.
일부 애플리케이션들에서 수동 및 자동 접근법들의 조합은 입력 관찰자 포즈를 생성하는 데 사용될 수 있다. 예를 들어, 헤드셋은 머리의 배향을 추적할 수 있고, 장면 내의 관찰자의 이동/ 위치는 조이스틱을 이용하는 사용자에 의해 제어될 수 있다.
이미지들의 생성은 가상 세계/ 환경/ 장면의 적합한 표현에 기초한다. 일부 애플리케이션들에서, 완전 3차원 모델이 장면에 대하여 제공될 수 있고, 특정 관찰자 포즈로부터의 장면의 뷰는 이 모델을 평가함으로써 결정될 수 있다. 다른 시스템들에서, 장면은 상이한 캡처 포즈들로부터 캡처된 뷰들에 대응하는 이미지 데이터에 의해 표현될 수 있다. 예를 들어, 복수의 캡처 포즈들이 있다면, 완전한 구면 이미지가 3차원(심도 데이터)으로 함께 저장될 수 있다. 이러한 접근법에서, 캡처 포즈들과는 다른 포즈들에 대한 뷰 이미지들은 3차원 이미지 프로세싱, 예컨대, 구체적으로 뷰 시프팅 알고리즘을 이용함으로써 생성될 수 있다. 장면이 개별 뷰 지점들/ 위치들/ 포즈들에 대하여 저장된 뷰 데이터에 의해 설명/ 참조되는 시스템에서, 이들은 또한 앵커 뷰 지점들/ 위치들/ 포즈들로서 지칭될 수 있다. 통상적으로 상이한 지점들/ 위치들/ 포즈들로부터 이미지들을 캡처함으로써 실제 세계 환경이 캡처되면, 이러한 캡처 지점들/ 위치들/ 포즈들은 또한 앵커 지점들/ 위치들/ 포즈들이다.
통상적인 VR 애플리케이션은 현재 관찰자 포즈에 대한 장면에 대한 뷰포트들에 대응하는 (적어도) 이미지들을 그에 따라 제공하는데, 이미지들은 관찰자 포즈의 변화를 반영하도록 동적으로 업데이트되고, 이미지들은 가상 장면/ 환경/ 세계를 표현하는 데이터에 기초하여 생성된다.
이 분야에서, 배치 및 포즈라는 용어들은 위치 및/또는 방향/배향에 대한 공통 용어로서 사용된다. 예컨대, 객체, 카메라, 헤드, 또는 뷰의 위치와 방향/배향의 조합은 포즈 또는 배치로 지칭될 수 있다. 따라서, 배치 또는 포즈 표시는 6개의 값/성분/자유도를 포함할 수 있고 각각의 값/성분은 전형적으로 대응하는 객체의 위치/위치설정 또는 배향/방향의 개별 특성을 기술한다. 물론, 많은 상황에서, 예를 들어 하나 이상의 성분이 고정되거나 무관한 것으로 고려되는 경우, 배치 또는 포즈가 더 적은 성분으로 표현되거나 더 적은 성분을 갖는 것으로 고려될 수 있다(예를 들어, 모든 객체가 동일한 높이에 있고 수평 배향을 갖는 것으로 고려되는 경우, 4개의 성분이 객체의 포즈에 대한 완전한 표현을 제공할 수 있다). 이하에서, 포즈라는 용어는 1 내지 6개의 값들(최대 가능한 자유도에 대응함)에 의해 표현될 수 있는 위치 및/또는 배향을 지칭하는 데 사용된다.
많은 VR 애플리케이션들은, 즉 위치 및 배향의 각각의 3 자유도가 전체 6 자유도를 만들어내는 최대 자유도를 갖는 포즈에 기초한다. 따라서, 포즈는 6 자유도를 표현하는 6개의 값의 벡터 또는 세트에 의해 표현될 수 있고, 따라서 포즈 벡터는 3차원 위치 및/또는 3차원 방향 표시를 제공할 수 있다. 그러나, 다른 실시예들에서, 포즈는 더 적은 값에 의해 표현될 수 있다는 것을 알 것이다.
관찰자에 최대 자유도를 제공하는 것을 기초로 하는 시스템 또는 개체는 통상적으로 6 자유도(6DoF)를 갖는 것으로 지칭된다. 많은 시스템들 및 개체들은 하나의 배향 또는 위치만을 제공하며, 통상적으로 3 자유도(3DoF)를 갖는 것으로 알려져 있다.
일부 시스템들에서, VR 애플리케이션은 예컨대 임의의 원격 VR 데이터 또는 프로세싱을 사용하지 않거나, 또는 심지어 액세스조차 하지 않는 독립형 디바이스에 의해 관찰자에 국소적으로 제공될 수 있다. 예를 들어, 게임 콘솔과 같은 디바이스는 장면 데이터를 저장하기 위한 저장부, 관찰자 포즈를 수신 / 생성하기 위한 입력부, 및 장면 데이터로부터 대응하는 이미지들을 생성하기 위한 프로세서를 포함할 수 있다.
다른 시스템들에서, VR 애플리케이션은 관찰자로부터 원격으로 구현 및 수행될 수 있다. 예를 들어, 사용자에 국한된 디바이스는 이동/ 포즈 데이터를 검출/ 수신할 수 있으며, 이는 데이터를 프로세싱하여 관찰자 포즈를 생성하는 원격 디바이스에 전송된다. 이어서 원격 디바이스는 장면을 설명하는 장면 데이터에 기초하여 관찰자 포즈에 대한 적합한 뷰 이미지들을 생성할 수 있다. 이어서 뷰 이미지들은 그것들이 제시되는 관찰자에 국한된 디바이스로 전송된다. 예를 들어, 원격 디바이스는 로컬 디바이스에 의해 직접 제시되는 비디오 스트림(통상적으로 스테레오/ 3D 비디오 스트림)을 직접 생성할 수 있다. 따라서, 이러한 예에서, 로컬 디바이스는 이동 데이터를 전송 및 수신된 비디오 데이터를 제시하는 것을 제외하고 어떠한 VR 프로세싱도 수행하지 않을 수 있다.
장면 데이터는 구체적으로 3D 장면을 설명하는 3D(3차원) 장면 데이터일 수 있다. 3D 장면은 (통상적으로 3개의 직교 축을 구비한) 장면 좌표계를 참조하여 3D 장면의 콘텐츠를 기술하는 3D 장면 데이터에 의해 표현될 수 있다.
많은 시스템들에서, 기능은 로컬 디바이스 및 원격 디바이스에 걸쳐 분배될 수 있다. 예를 들어, 로컬 디바이스는 수신된 입력 및 센서 데이터를 프로세싱하여 원격 VR 디바이스에 연속적으로 전송되는 관찰자 포즈들을 생성할 수 있다. 이어서 원격 VR 디바이스는 대응하는 뷰 이미지들을 생성하고 제시를 위하여 이것들을 로컬 디바이스에 전송할 수 있다. 다른 시스템들에서, 원격 VR 디바이스는 직접 뷰 이미지들을 생성하지 않지만 관련 장면 데이터를 선택하고 이것을 로컬 디바이스에 전송할 수 있고, 이어서 로컬 디바이스가 제시되는 뷰 이미지들을 생성할 수 있다. 예를 들어, 원격 VR 디바이스는 가장 가까운 캡처 지점을 식별하고, 대응하는 장면 데이터(예컨대 캡처 지점으로부터의 구면 이미지 및 심도 데이터)를 추출하고 이것을 로컬 디바이스에 전송할 수 있다. 이어서 로컬 디바이스는 수신된 장면 데이터를 프로세싱하여 특정, 현재 뷰 포즈에 대한 이미지들을 생성할 수 있다. 뷰 포즈는 통상적으로 머리 포즈에 대응할 것이고, 뷰 포즈에 대한 참조는 통상적으로 머리 포즈에 대한 참조에 대응하는 것으로 동등하게 간주될 수 있다.
도 1은 원격 VR 서버(101)가 클라이언트 VR 서버(103)와 예컨대, 인터넷과 같은 네트워크(105)와 통신하는 VR 시스템의 이러한 예를 도시한다. 서버(103)는 잠재적으로 다수의 클라이언트 디바이스들(101)을 동시에 지원하도록 배열될 수 있다.
이러한 접근법은 많은 시나리오들에서 예컨대 상이한 디바이스들에 대한 복잡성과 리소스 요구, 통신 요건 등 사이의 개선된 트레이드오프를 제공할 수 있다. 예를 들어, 관찰자 포즈 및 대응하는 장면 데이터는 더 큰 간격으로 전송될 수 있는데, 로컬 디바이스는 관찰자 포즈 및 수신된 장면 데이터를 국부적으로 프로세싱하여 실시간 낮은 지연 경험을 제공한다. 이는 예를 들어 장면 데이터가 중앙에서 저장, 생성, 및 유지되게 하면서, 요구되는 통신 대역폭을 실질적으로 감소시키는 한편, 낮은 지연 경험을 제공할 수 있다. 이는 예를 들어 VR 경험이 복수의 원격 디바이스들에 제공되는 애플리케이션들에 적합할 수 있다.
도 2는 본 발명의 일부 실시예들에 따른 많은 시나리오들에서 개선된 가상 현실 경험을 제공할 수 있는 장치의 구성요소들을 도시한다. 장치는 장면을 특징짓는 데이터에 기초하여 관찰자 포즈에 대응하는 이미지 데이터 스트림을 생성할 수 있다.
일부 실시예들에서, 장치는 관찰자의 움직임을 검출하는 센서들 또는 관찰자에 관련된 장비로부터 데이터를 수신하도록 배열되는 센서 입력 프로세서(201)를 포함한다. 센서 입력은 구체적으로 관찰자의 머리 포즈를 나타내는 데이터를 수신하도록 배열된다. 센서 입력에 응답하여, 센서 입력 프로세서(201)는 관찰자의 현재 머리 포즈를 결정/추정하도록 배열되며, 이는 통상의 기술자가 알 것이다. 예를 들어, 헤드셋으로부터의 가속 및 자이로 센서 데이터에 기초하여, 센서 입력 프로세서(201)는 헤드셋의 위치 및 배향 및 그럼으로써 관찰자의 머리를 추정 및 추적할 수 있다. 대안적으로 또는 추가적으로, 카메라는 예컨대 뷰잉 환경을 캡처하는 데 사용될 수 있고, 카메라로부터의 이미지들을 사용하여 관찰자의 머리 위치 및 배향을 추정 및 추적할 수 있다. 하기 설명은 머리 포즈가 6 자유도로 결정되는 실시예들에 초점을 맞추겠지만, 더 적은 자유도가 다른 실시예들에서 고려될 수 있음이 이해될 것이다.
머리 포즈 관련 데이터에 더하여, 센서 입력 프로세서(201)는 관찰자 눈의 눈 포즈에 대하여 달라지는 입력 센서 데이터를 추가로 수신한다. 이 데이터로부터, 센서 입력 프로세서(201)는 머리에 대한 관찰자의 눈 포즈(들)의 추정치를 생성할 수 있다. 예를 들어, VR 헤드셋은 VR 헤드셋에 대한 사용자의 눈의 각각의 배향, 및 그럼으로써 머리 포즈에 대한 배향을 검출하는 동공 추적기를 포함할 수 있다. 눈 센서 입력 데이터에 기초하여, 센서 입력 프로세서(201)는 머리 포즈에 대한 관찰자의 눈의 눈 포즈를 나타내는 상대적 눈 포즈 표시자를 결정할 수 있다. 많은 실시예들에서, 상대적 눈 포즈(들)는 6 자유도로 결정될 수 있지만, 다른 실시예들에서 더 적은 자유도가 고려될 수 있음이 이해될 것이다. 특히, 눈 포즈 표시자는 머리에 대한 눈 배향 그리고 그에 따른 머리 포즈에 대한 눈 배향만을 반영하도록 생성될 수 있다. 이는 특히 머리에 대한 눈/ 동공의 상대적인 위치 변화가 상대적으로 무시할 수 있는 경향이 있음을 반영한다.
구체적인 예로서, 사용자는 고글/ 헤드셋에 대한 눈 움직임을 검출할 수 있는 적외선 눈 추적기 센서들을 포함하는 VR 고글 또는 VR 헤드셋을 착용할 수 있다.
센서 입력 프로세서(201)는 시선 표시를 생성하기 위하여 머리 포즈 표시자 및 눈 포즈 표시자를 조합하도록 배열된다. 눈의 광학 축들이 만나는 지점은 시선 지점으로 알려져 있고, 시선 표시는 이 시선 지점을 나타낸다. 시선 표시는 현재 관찰자 위치로부터 시선 지점까지의 방향을 구체적으로 표시할 수 있고, 통상적으로 시선 지점까지의 방향 및 거리 둘 모두를 나타낼 수 있다. 따라서, 많은 실시예들에서, 시선 표시자는 (관찰자 위치에 대한) 시선 지점까지의 거리를 나타낸다.
그 예에서, 시선 표시는 눈 포즈를 추적하고 그럼으로써 눈의 광학 축들의 수렴을 결정하는 것에 기초하여 적어도 시선 지점의 방향으로서, 그리고 통상적으로 시선 지점의 위치로서 결정될 수 있다.
장면은 통상적으로 연관된 3D 좌표계를 이용한 3D 장면일 수 있다. 장면은 장면의 콘텐츠의 3D 설명을 제공하는 3D 데이터에 의해 표현될 수 있다. 3D 데이터는 3D 장면 좌표계와 연관될 수 있다.
시선 표시는 3D 장면에서 시선 지점을 나타내고, 구체적으로 장면 좌표에 표현되는 시선 지점을 나타낼 수 있다.
시선 지점 표시는 3D 장면에서 3D 위치를 나타낼 수 있고, 구체적으로 3D 장면에서 3D 위치를 정의하는 3개의 좌표 파라미터들을 나타내거나 또는 포함할수 있다(그리고 3개의 좌표 파라미터들은 구체적으로 장면 좌표를 표현함). 따라서, 시선 지점 표시는 디스플레이 또는 뷰포트 상의 위치의 표시일뿐만 아니라, 3D 장면 좌표계에서 위치를 정의 또는 기술할 수 있다.
시선 표시는 따라서 관찰자 포즈에 대한 방위각 및 고도 정보뿐만 아니라 또한 거리를 포함할 수 있다. 전술된 코멘트들은 필요한 부분만 약간 수정하여 시선 지점 자체에 적용된다.
도 2의 장치는 센서 입력 프로세서(201)로부터 시선 표시를 수신하도록 배열되는 수신기(203)를 추가로 포함한다. 전술된 바와 같이 시선 표시는 머리 포즈를 나타낼 뿐만 아니라, 시선 지점을 나타내고 머리 위치 및 상대적 눈 포즈 둘 모두를 반영한다.
수신기(203)는 시각적 관심 프로세서(205)에 결합되고, 이는 시선 표시에 대응하는 장면에서 시각적 관심 영역을 결정하도록 배열된다. 시각적 관심 영역은 시선 표시에 의해 표시되는 바와 같이 관찰자의 시각적 관심 또는 초점을 반영하는데, 즉 이는 관찰자가 "보고 있는", 그리고 그의 시각적 관심을 집중시키는 곳을 반영하는 것으로 간주될 수 있다. 시각적 관심 영역은 관찰자가 현재 관심을 기울이고 있는 장면 내의 영역으로 간주될 수 있다.
시각적 관심 프로세서(205)는 영역이 시선 표시에 관한 기준을 충족시키도록 장면 내의 영역을 결정할 수 있다. 이 기준은 구체적으로 근접 기준을 포함할 수 있고, 이 근접 기준은 영역의 일부와 시선 표시에 의해 표시된 시선 지점 사이의 거리 측정 결과가 임계치 미만인 것을 요구할 수 있다. 결정된 영역은 시선 표시를 고려하여 결정된 것이기 때문에, 시스템에 의해 사용자가 이 영역에 자신의 관심을 집중시키는 증가된 확률을 나타내는 것으로 가정된다. 따라서, 그 영역이 시선 표시를 고려하여 결정되었기 때문에, 사용자의 가능성있는 시각적 관심의 표시로서 유용한 것으로 간주되고, 따라서 그것은 시각적 관심 영역이다.
시각적 관심 영역은 3D 장면의 영역이고, 3D 장면 내의 설정위치/ 위치와 연관된다. 시각적 관심 영역은 3D 장면 내의 적어도 하나의 위치와 연관될 수 있거나 또는 이에 의해 결정/ 정의될 수 있고, 위치는 장면 좌표계에 표현될 수 있다. 위치는 통상적으로 3개의 장면 좌표에 의해 표현되는 3D 장면 내의 적어도 하나의 3D 위치에 의해 표현될 수 있다.
많은 실시예들에서, 시각적 관심 영역은 3D 장면 내의 3D 영역일 수 있고, 3D 장면 좌표계 내에 설명/ 결정/ 정의될 수 있다. 시각적 관심 영역은 종종, 예컨대 장면 객체에 대응하는 연속적인 3D 영역이다.
따라서 시각적 관심 영역은 통상적으로 거리 표시를 포함하는 관찰자 위치에 대한 3D 관계를 갖는다. 그 결과, 관찰자의 변화는 관찰자 포즈와 시선 지점 사이의 공간적 관계의 변화, 및 그에 따라 시각적 관심 영역의 변화를 야기할 것이며, 이는 투사 표면이 편평하든 또는 (예컨대 투사 표면과 같이) 만곡되어 있든 시선 지점 및 시각적 관심 영역이 2D 투사 표면 상의 지점들/ 영역들인 경우와는 상이하다.
시각적 관심 영역은 통상적으로 시선 지점을 포함하는 영역으로서 생성될 수 있고, 통상적으로 시선 지점 또는 이에 매우 가까운 영역으로서 생성된다. 상이한 접근법들 및 기준이 시선 지점에 대응하는 시각적 관심 영역을 결정하는 데 사용될 수 있음이 이해될 것이다. 아래 더 상세하게 기재되는 바와 같이, 시각적 관심 영역은 예를 들어 시선 표시에 의해 표시되는 바와 같이 시선 지점에 가까운 장면 내의 객체로서 결정될 수 있다. 예를 들어, 장면 객체와 시선 지점 사이의 추정된 거리가 주어진 임계치 미만이고, 장면 객체가 이 시선 지점에 대하여 가장 가까운 장면 객체인 경우, 이 장면 객체는 시각적 관심 영역으로서 결정될 수 있다.
시각적 관심 영역은 따라서 장면 내의 영역이며, 실제 세계 또는 장면을 지칭한다. 시각적 관심 영역은 관찰자에 대한 뷰포트의 주어진 영역으로서 결정되는 것 뿐만 아니라 오히려 장면 자체에서 영역을 한정한다. 일부 실시예들에서, 시각적 관심 영역은 2차원 영역으로서 결정될 수 있지만, 대부분의 실시예들에서 시각적 관심 영역은 예컨대 보는 위치에 대한 방위각 및 고도 간격에 의해 정의될 뿐만 아니라 종종 거리/ 심도 값 또는 간격을 포함한다. 예를 들어, 시각적 관심 영역은 방위각 범위, 고도 범위, 및 거리 범위를 각각 정의하는 3개의 간격에 의해 형성되는 영역으로서 결정될 수 있다. 다른 예로서, 시각적 관심 영역은 장면/세계 좌표계에서 3개의 공간 성분의 범위로서 결정될 수 있다(예컨대 시각적 관심 영역은 x-성분 범위, y-성분 범위, 및 z-성분 범위에 의해 정의되는 직사각형 프리즘 또는 직육면체로서 결정될 수 있음). 일부 실시예들에서, 시각적 관심 영역은 시선 지점에 충분히 가까운(또는 포함하는) 장면 객체의 3차원 형상으로서 결정될 수 있다.
시각적 관심 영역은 통상적으로 관찰자 포즈에 대한 3차원 관계를 갖는 영역으로서 결정된다. 다시 말해서, 시각적 관심 영역은 관찰자 포즈에 관련하여 예컨대 뷰 포트의 영역 또는 뷰 포즈로부터의 구면으로서 결정될 수 있을 뿐만 아니라 또한 뷰 포즈까지의 거리를 가질 수 것이다. 시각적 관심 프로세서(205)는 그에 따라 시선 표시의 시선 거리 표시에 응답하여 그에 따라 시각적 관심 영역을 결정하도록 배열된다. 따라서, 시각적 관심 영역을 결정할 때 고려되는 시선의 방향뿐만 아니라 뷰 포즈로부터 시선 지점까지의 거리에 따라 시각적 관심 영역이 또한 결정될 것이다.
일부 실시예들에서, 시각적 관심 영역은 시선 표시에만 의존할수 있지만, 많은 실시예들에서, 예컨대 어느 장면 객체들이 현재 시선 지점에 대응하는지와 같은 장면의 콘텐츠를 고려함으로써 추가로 결정될 수 있다. 따라서, 시각적 관심 프로세서(205)는 장면/ 세계를 설명하는 장면 데이터를 포함하는 장면 저장부(207)에 결합된다. 이 장면 데이터는 예를 들어 3차원 모델로서 저장될수 있지만, 많은 실시예들에서 다수의 캡처/ 앵커 위치들에 대한 3차원 뷰 이미지 데이터의 형태일 수 있다.
장면 데이터는 구체적으로 장면의 3D 설명을 제공하는 3D 장면 데이터이다. 장면 데이터는 장면 좌표계를 참조하여 장면을 설명할 수 있다.
장치는 시각적 관심 프로세서(205), 장면 저장부(207)에, 그리고 예를 들어 또한 센서 입력 프로세서(201)에 결합되는 이미지 데이터 생성기(209)를 추가로 포함한다. 이미지 데이터 생성기(209)는 장면의 뷰들을 나타내는 이미지 데이터 스트림을 생성하도록 배열된다. 도 2의 예에서, 이미지 데이터 생성기(209)는 센서 입력 프로세서(201)로부터 관찰자 포즈를 수신한다. 그 예에서, 관찰자 포즈는 머리 포즈를 나타내고, 이미지 데이터 생성기(209)는 관찰자 포즈에 대응하는 뷰들을 렌더링하기 위한 이미지 데이터를 생성하도록 배열된다. 따라서, 특정 예에서, 이미지 데이터 생성기(209)는 관찰자 머리 포즈에 응답하여 이미지 데이터를 생성한다.
일부 실시예들에서, 이미지 데이터 생성기(209)는 뷰 포즈에 대한 뷰포트들에 대응하는 뷰 이미지들을 직접 생성할 수 있다. 이러한 실시예들에서, 이미지 데이터 생성기(209)는 적합한 VR 디바이스에 의해 직접 렌더링될 수 있는 뷰 이미지들을 그에 따라 직접 합성할 수 있다. 예를 들어, 이미지 데이터 생성기(209)는 주어진 뷰 위치에 대하여 관찰자의 좌안 및 우안에 대응하는 스테레오 이미지들을 포함하는 비디오 스트림들을 생성할 수 있다. 비디오 스트림들은 예컨대 VR 헤드셋에 직접 제공하거나 이를 제어하는 렌더러에 제공될 수 있고, 뷰 이미지 비디오 스트림들은 직접 제시될 수 있다.
그러나, 도 2의 예에서, 이미지 데이터 생성기(209)는 관찰자 포즈(구체적으로 머리 포즈)에 대한 뷰 이미지들을 합성하기 위한 이미지 데이터를 포함하도록 이미지 데이터 스트림을 생성하도록 배열된다.
구체적으로, 그 예에서, 이미지 데이터 생성기(209)는 이미지 합성기(211)에 결합되는데, 이는 이미지 데이터 생성기(209)로부터 수신된 이미지 데이터 스트림에 응답하여 관찰자 포즈에 대한 뷰 이미지들을 합성하도록 배열된다. 이미지 데이터 스트림은 관찰자 포즈에 가까운 또는 직접 대응하는 3차원 이미지 데이터를 포함하도록 구체적으로 선택될 수 있다. 이어서 이미지 합성기(211)는 이것을 프로세싱하여 사용자에게 제시될 수 있는 관찰자 포즈에 대한 뷰 이미지들을 합성할 수 있다.
이러한 접근법은 예를 들어 이미지 데이터 생성기(209)와 이미지 합성기(211)가 상이한 속도로 동작하도록 허용할 수 있다. 예를 들어, 이미지 데이터 생성기(209)는 낮은 빈도로, 예컨대, 말하자면. 2초에 한번 새로운 관찰자 포즈를 평가하도록 배열될 수 있다. 이미지 데이터 스트림은 이 관찰자 포즈에 대응하는 3차원 이미지 데이터를 갖도록 그에 따라 생성될 수 있어서, 현재 관찰자 포즈에 대한 3차원 이미지 데이터는 2초에 한번 업데이트될 수 있다.
대조적으로, 이미지 합성기(211)는 현재 뷰 포즈의 뷰포트들에 대한 뷰 이미지들을 훨씬 더 빠르게 합성할 수 있는데, 예컨대 새로운 이미지들은 예컨대 초당 30 회 생성되어 사용자에게 제공될 수 있다. 관찰자는 그에 따라 초당 30 프레임의 프레임 속도를 경험할 것이다. 사용자 움직임으로 인해, 개별적인 뷰 이미지/ 프레임에 대한 뷰 포즈는 이미지 데이터 생성기(209)가 이미지 데이터를 생성했던 기준 뷰 포즈로부터 벗어날 수 있고, 따라서 이미지 합성기(211)는 일부 뷰 시프팅 등을 수행할 수 있다.
이 접근법은 그에 따라 이미지 데이터 생성기(209)가 훨씬 더 느리게 동작하게 할 수 있으며, 본질적으로 실시간 동작은 이미지 합성기(211)에 제한될 수 있다. 이미지 데이터 생성기(209)에 대한 복잡성 및 리소스 요구를 감소시킬 수 있다. 또한, 이미지 합성기(211)에 대한 복잡성 및 리소스 요건은 통상적으로 상대적으로 낮은데, 그 이유는 뷰 이동이 상대적으로 작은 경향이 있기 때문이며, 그렇기 때문에 낮은 복잡성 알고리즘도 충분히 높은 품질을 이끌 것이다. 또한, 그 접근법은 실질적으로 이미지 데이터 생성기(209)와 이미지 합성기(211) 사이의 연결/ 링크에 필요한 대역폭을 감소시킬 수 있다. 이는, 특히, 예를 들어 각각 도 1의 VR 서버(101) 및 VR 클라이언트(103)에서와 같이 이미지 데이터 생성기(209) 및 이미지 합성기(211)가 서로로부터 원격으로 위치되어 있는 실시예들에서 중요한 특징일 수 있다.
이미지 데이터 생성기(209)는 장면 저장부(207)로부터 추출된 장면 데이터에 기초하여 이미지 데이터를 생성한다. 구체적인 예로서, 장면 저장부(207)는 잠재적으로 많은 수의 캡처 또는 앵커 지점들로부터의 장면에 대한 이미지 데이터를 포함할 수 있다. 예를 들어, 장면 내에 대량의 위치들이 있는 경우에, 장면 저장부(207)는 연관된 심도 데이터와 함께 완전한 구면 이미지를 저장할 수 있다. 이미지 데이터 생성기(209)는 이러한 상황에서 센서 입력 프로세서(201)로부터 수신된 현재 관찰자 포즈에 가장 가까운 앵커 지점을 결정할 수 있다. 이어서 이는 대응하는 구면 이미지 및 심도 데이터를 추출하고 이것들을 이미지 합성기(211)로 전송할 수 있다. 그러나, 통상적으로, 이미지 데이터 생성기(209)는 전체 구면 이미지(및 심도 데이터)를 전송하지 않지만, 이것의 적합한 일부분을 전송을 위해 선택할 것이다. 이러한 일부분은 타일로 지칭될 수 있다. 타일은 통상적으로 예컨대 영역의 1/16 내지 1/64와 같은 구면 이미지의 매우 상당 부분을 반영할 것이다. 실제로, 타일은 통상적으로 현재 뷰 포즈에 대한 뷰 포트보다 더 클 것이다. 선택되는 타일은 뷰 포즈의 배향으로부터 결정될 수 있다.
일부 실시예들에서, 이미지 합성기(211)는 이미지 데이터 생성기(209)에 포함되는 것으로 고려될 수 있고, 이미지 데이터 생성기(209)는 사용자의 뷰포트들에 대한 뷰 이미지들을 포함하는 이미지 데이터 스트림을 직접 생성할 수 있음이 이해될 것이다(예컨대 도 2의 이미지 합성기(211)의 출력에 대응함. 다시 말해서, 일부 실시예들에서 이미지 스트림 생성기(1207) 및 도 2를 참조하여 기술된 이미지 합성기(211)의 기능은, 이미지 데이터 생성기(209) 및 이미지 합성기(211)의 기능이 단일 기능 개체에 집적되어 관찰자/ 사용자의 직접 뷰 이미지들을 포함하는 출력 데이터 스트림을 직접 생성하는 다른 실시예들에서의 조합된 구현예에 동일하게 적용될 수 있음).
도 2의 장치에서, 이미지 데이터 생성기(209)는 시각적 관심 프로세서(205)에 추가로 결합되고, 이로부터 이미지 데이터 생성기(209)는 결정된 시각적 관심 영역의 정보를 수신한다. 이미지 데이터 생성기(209)는 시각적 관심 영역에 응답하여 생성된 이미지 데이터의 상이한 부분들의 화질을 적응시키도록 배열된다. 구체적으로, 이미지 데이터 생성기(209)는 시각적 관심 영역 밖(적어도 일부 부분들)보다 시각적 관심 영역에 대하여 화질이 더 뛰어나도록 화질을 설정하도록 배열된다. 따라서, 이미지 데이터 생성기(209)는 시각적 관심 영역에 대한 생성된 이미지 데이터의 화질이 시각적 관심 영역 밖을 표현하는 이미지 데이터(의 적어도 일부)보다 높은, 다양한 화질을 갖게 이미지 데이터를 생성할 수 있다.
시각적 관심 영역이 3D 장면 내의 영역이고, 관찰자 포즈에 대한 심도/ 거리 파라미터/ 특성을 갖기 때문에, 시각적 관심 영역과 이미지 데이터 사이의 관계는 다양한 관찰자 포즈에 대하여 달라진다. 구체적으로, 이미지 데이터의 어떤 부분이 시각적 관심 영역에 대응하고, 따라서 이미지 데이터의 어떤 부분이 더 높은 품질로 제공되어야 하는지는 거리에 따라 달라진다. 이미지 데이터 생성기(209)는 관찰자 포즈로부터 시각적 관심 영역까지의 거리에 응답하여 시각적 관심 영역에 대응하는 제1 이미지 데이터를 결정하도록 그에 따라 배열된다.
이는 예컨대 디스플레이 상에서 또는 이미지에서 시선 지점을 결정하고 이것에 따라 포비티드 이미지(foveated image)를 생성하는 것과는 상이함에 주의한다. 이러한 접근법에서, 시선 지점은 (동일한 초점을 갖는) 관찰자 위치의 변화에 대하여 변하지 않으며, 포비티드 이미지는 변경되지 않을 것이다. 그러나, 관찰자 위치로부터 시각적 관심 영역까지의 거리가 달라지는, 3D 장면 내의 3D 시각적 관심 영역의 경우, 초점이 일정하게, 예컨대 동일한 장면 객체 상에 유지될 때에도 관찰자 포즈가 변함에 따라 시각적 관심 영역에 대응하는 이미지 데이터가 변할 것이다.
이미지 데이터 생성기(209)는 이러한 변화들을 고려하도록 배열될 수 있다. 예를 들어, 이미지 데이터 생성기(209)는 시각적 관심 영역을 이미지 데이터가 제공되는 뷰포트들 상으로 투사하고, 이어서 투사에 응답하여 제1 데이터를 결정하도록 배열될 수 있다. 구체적으로, (더 높은 품질로 제공될) 제1 이미지 데이터는 뷰포트 상으로의 시각적 관심 영역의 투사 주위의 뷰포트의 섹션의 이미지 데이터로서 결정될 수 있다.
예를 들어, 수신된 관찰자 포즈에 기초하여, 이미지 데이터 생성기(209)는 가장 가까운 캡처 위치를 식별하고, 그 위치에 대한 구면 이미지 및 심도 데이터를 검색할 수 있다. 이어서 이미지 데이터 생성기(209)는 타일(예컨대 관찰자 포즈를 포함하는 120° 방위각 및 90° 고도 타일)을 결정하도록 진행할 수 있다. 이어서 시각적 관심 영역에 대응하는 타일 내의 영역을 결정하도록 진행할 수 있다. 이는 구체적으로 관찰자 포즈에 기초하여 구면 이미지에 의해 표현되는 표면 상으로의 시각적 관심 영역의 선형 투사를 추적함으로써 수행될 수 있다. 예컨대 구체적으로, 직선이 관찰자 위치로부터 시각적 관심 영역의 지점들로 투사될 수 있고, 시각적 관심 영역에 대응하는 타일/ 이미지의 영역은 이 선들과 구면 표면/ 이미지 뷰포트와의 교차의 영역으로서 결정될 수 있다.
따라서 이미지 데이터 생성기(209)는 시각적 관심 영역을 나타내는 타일의 일부분을 식별할 수 있다. 예를 들어, 시각적 관심 영역이 장면 객체에 대응하는 경우, 이미지 데이터 생성기(209)는 타일 내에서 장면 객체를 포함하는 영역을 식별할 수 있다. 이어서 이미지 데이터 생성기(209)는 타일에 대한 이미지 데이터를 생성하되, 식별된 영역에 대한 이미지 데이터의 품질이 타일의 나머지보다 더 높도록 진행할 수 있다. 생성된 이미지 데이터는 이어서 이미지 데이터 스트림에 포함되고, 이미지 합성기(211)에 공급된다.
타일들을 이용하는 이점은 그것들은 통상적으로 프리-인코딩된 비디오(DASH의 소위 "트랙")에 의해 표현될 수 있으며, 이는 이어서 클라이언트 인코딩 또는 트랜스코딩마다 요구하지 않고 전송을 위해 선택될 수 있다는 것이다. 설명된 접근법은 이러한 타일들에 사용하기에 적합할 수 있다. 특히, 많은 실시예들에서 이미지 데이터 생성기(209)는 주어진 타일에 대하여 전송 전에 타일을 프로세싱하여, 프로세싱이 시각적 관심 영역에 대응하는 특정 영역을 제외하고 타일에 대한 데이터 속도를 감소시키도록 할 수 있다. 따라서, 현재 관찰자의 시각적 관심을 갖는 것으로 추정된 특정 영역에 대하여 높은 품질(데이터 속도)을 갖고, 타일의 나머지에 대하여 더 낮은 품질(데이터 속도)을 갖는 결과물 타일이 생성되고 전송된다.
다른 실시예들에서, 다수의 더 작은 타일들이 상이한 화질로 저장될 수 있다. 예를 들어, 각각의 타일은 10° 이하의 시야각에 대응할 수 있다. 이어서 더 큰 조합된 타일은 시각적 관심 영역에 대응하는 영역에 대하여 높은 품질 타일들을 선택하고, 조합된 타일의 나머지에 대하여 더 낮은 품질 타일들을 선택함으로써 형성될 수 있다.
이미지 데이터 생성기(209)가 사용자에게 표시하기 위한 뷰포트 이미지들을 직접 생성하는 실시예들에서, 시각적 관심 영역에 대응하는 뷰포트 이미지들 내의 영역들은 시각적 관심 영역 밖의 뷰포트의 영역들보다 더 높은 품질(공간적 및/또는 시간적 데이터 속도)로 생성될 수 있다(예컨대 전술한 내용들은 적용가능한 것으로 고려될 수 있지만, 타일들은 머리 포즈에 대한 뷰 포트(들)에 대응하도록 선택됨).
이미지 데이터의 화질을 변경하기 위한 상이한 접근법들은 통상의 기술자에게 공지되어 있으며, 임의의 적합한 접근법들이 사용될 수 있음이 이해될 것이다. 많은 실시예들에서, 데이터 속도(공간적 및/또는 시간적)의 변동은 화질의 변동에 대응할 수 있다. 따라서, 많은 실시예들에서, 이미지 데이터 생성기(209)는 제2 이미지 데이터보다 제1 이미지 데이터에 대하여 더 높은 데이터/비트 속도를 갖게 이미지 데이터를 생성하도록 배열될 수 있다. 데이터/비트 속도의 변동은 공간적 및/또는 시간적 데이터/ 비트 속도일 수 있다. 구체적으로, 이미지 데이터 생성기(209)는 제2 이미지 데이터보다 제1 이미지 데이터에 대하여 면적당 더 많은 비트 및/또는 초당 더 많은 비트를 갖게 이미지 데이터를 생성하도록 배열될 수 있다.
이미지 데이터 생성기(209)는 예를 들어 시각적 관심 영역의 영역 밖의 영역에 대하여 장면 저장부(207)로부터 검색된 데이터를 더 낮은 품질 레벨로 다시 인코딩(트랜스코딩)하고 이어서 더 낮은 품질 버전을 전송할 수 있다. 다른 실시예들에서, 장면 저장부(207)는 상이한 캡처 지점들에 대하여 이미지들의 2개의 상이한 인코딩된 버전을 포함할 수 있고, 이미지 데이터 생성기(209)는 시각적 관심 영역의 영역과 타일의 나머지 부분 각각에 대한 상이한 버전들로부터 데이터를 선택함으로써 상이한 품질을 생성할 수 있다.
이미지 데이터 생성기(209)는 공간적 해상도, 시간적 해상도, 압축 레벨, 양자화 레벨(워드 길이) 등과 같은 상이한 파라미터들을 조정함으로써 품질 레벨을 다르게 할 수 있음이 이해될 것이다. 예를 들어, 더 높은 품질 레벨은 다음 중 적어도 하나에 의해 달성된다: 더 높은 프레임 속도; 더 높은 해상도; 더 긴 워드 길이; 및 감소된 이미지 압축 레벨.
따라서, 이미지 데이터 생성기(209)는 시각적 관심 영역에 대한 화질이 외측보다 더 높은 이미지 데이터 스트림을 생성한다. 따라서, 장면의 특정 부분이 시선 지점에 기초하여 식별되고, 따라서 머리 포즈 및 상대적 눈 포즈 둘 모두를 반영하고, 이 부분은 더 높은 품질로 표시된다. 높은 품질은 관찰자가 집중하고 있을 가능성이 있는 장면 부분, 및 통상적으로 장면 객체에 대하여 그에 따라 제공된다.
이 접근법은 차별화된 접근법을 제공할 수 있는데, 여기서 시각적 관심 영역은 관찰자에 대한 뷰포트의 작은 영역에 대응할 수 있고, 이는 뷰포트 전체보다 가능성있게 실질적으로 더 높은 품질 레벨에서 제시된다. 이 접근법의 중요한 특징은 시각적 관심 영역에 대응하는 높은 품질 영역/ 지역이 전체 뷰포트/ 영역의 매우 작은 부분을 형성할 수 있다는 것이다. 실제로, 많은 실시예들에서, 시각적 관심 프로세서(205)는 관찰자의 관찰자 위치에 대하여 10° 이하(또는 일부 실시예들에서 심지어 5° 이하)의 수평 확장을 갖게 시각적 관심 영역을 결정하도록 배열된다. 따라서, 시각적 관심 영역은 10° 미만(또는 5° 미만)의 관찰자의 뷰(및 뷰포트)에 대응할 수 있고, 따라서 증가된 품질은 매우 작은 영역으로 제한된다. 유사하게, 많은 실시예들에서, 시각적 관심 프로세서(205)는 관찰자의 관찰자 위치에 대하여 10° 이하(또는 일부 실시예들에서 심지어 5° 이하)의 수직 확장을 갖게 시각적 관심 영역을 결정하도록 배열된다.
실제로, 본 발명자는 인간 품질 인식은 매우 제한적이고 구체적이며, 장면 내의 관찰자의 현재 시선 지점에서 장면 콘텐츠에 대응하는 특정 작은 뷰 간격의 높은 품질을 제공함으로써, 관찰자는 전체 뷰포트가 높은 품질로 제시된다고 인식할 것임을 알게 되었다. 본 발명자는 이것이 장면 내의 사용자들의 시선을 추적하고 품질 레벨들을 그에 따라 적응시킴으로써 VR 애플리케이션에서의 데이터 속도를 실질적으로 감소시키는 데 사용될 수 있음을 추가로 알게 되었다.
실제로, 많은 시나리오들에서, 인간이 선명도/ 품질을 완전히 인식하는 각도는 매우 낮을 수 있고, 종종 겨우 1도 또는 작은 각도의 영역이다. 그러나, 개선된 품질을 갖는 넒은 영역을 결정함으로써, 관련 영역의 더 적은 업데이트가 필수적이고, 그럼으로써 더 높은 품질 영역의 적응 및 전송을 용이하게 하는 것이 달성될 수 있다. 실제로, 많은 실시예들에서 5 내지 10° 수준의 확장이 매우 유리한 트레이드오프를 제공한다는 것이 밝혀졌다.
이 접근법의 효과는 위 사진은 전체 뷰 포인트에 대하여 동일한(높은) 품질을 갖는 가능한 뷰 이미지를 나타내는 도 3의 사진들에 의해 예시될 수 있다. 아래 사진은 도 2의 장치에 의해 생성될 수 있는 가능한 뷰 이미지의 예이다. 이 예에서, 사용자의 현재 시선에 대응하는 시각적 관심 영역은 우측의 세 명 주위에서 식별되었다. 이 예에서, 이 세명 주위의 대응하는 영역(이 예에서 ~ 전체 영역의 1/3 × 1/3)의 품질은 위 사진과 동일하게 높은 레벨로 유지되었지만, 나머지 이미지에 대하여(예컨대 더 높은 압축 레벨로 트랜스코딩함으로써) 품질은 감소되었다. 두 사진을 보면, 품질 차이가 분명하게 보인다. 그러나, 좌측의 세명에 시각적으로 집중하고 있는 사용자의 경우, 통상적으로 품질 차이가 주목되지 않을 것이다. 실제로, 두 장의 사진이 디스플레이 상에 중첩되어 디스플레이가 어떠한 공간적 변동 없이 이미지들 사이에서 빠르게 스위칭할 수 있도록 하는 테스트가 수행되었다. 시험 객체들이 시각적 관심 영역(즉 좌측의 세명)에 대응하는 영역에 집중되는 경우, 두 이미지 사이에 품질 차이가 인식되지 않았다.
많은 실시예들에서, 이미지 데이터 생성기(209)는 시선 표시 및/또는 머리 포즈에 응답하여 이미지 데이터에 대한 뷰포트를 결정하고, 뷰포트에 응답하여 제1 데이터를 결정하도록 배열될 수 있다.
구체적으로, 뷰포트는 예컨대 헤드셋의 디스플레이에 대응할 수 있고, 사용자는 헤드셋의 디스플레이를 통해, 그럼으로써 디스플레이에 대응하는 뷰포트들를 통해 장면을 효과적으로 볼 수 있다. 그러나, 사용자가 운신하거나 또는 머리 방향 등을 바꿈에 따라, 그는 장면이 보이는 뷰포트들에 효과적으로 대응하는 장면의 상이한 부분들을 보게 될 것이다. 따라서, 뷰포트들은 3D 장면에서 이동할 것이고, 실제로 3D 장면에서 위치 및 배향을 변경할 것이다.
많은 실시예들에서, 이미지 데이터 생성기(209)는 추가로 이를 고려할 수 있다. 이미지 데이터 생성기(209)는 구체적으로 2단계 접근법으로 이것을 행할 수 있다. 첫째, 머리 포즈는 그 포즈에 대한 관찰자의 뷰에 대응하는 뷰포트의 포즈를 결정하도록 사용될 수 있다. 예를 들어, 뷰포트는 머리의 방향으로 머리 위치로부터 사전결정된 크기 및 거리의 뷰포트로서 결정될 수 있다. 이어서, 예컨대 3D 장면 데이터로부터 뷰포트에 대응하는 이미지를 생성함으로써 이 뷰포트를 나타내는 데 필요한 이미지 데이터를 결정하도록 진행할 수 있다. 이어서 이미지 데이터 생성기(209)는 시각적 관심 영역을 고려하고 관찰자 포즈에 기초하여 이를 뷰포트 상에 투사하도록 진행할 수 있다. 이어서 뷰포트의 대응하는 영역은 결정될 수 있고, 대응하는 이미지 데이터는 식별될 수 있다. 이어서 이 이미지 데이터는 이 영역 밖의 뷰포트의 이미지 데이터보다 더 높은 품질에서 생성될 수 있다.
많은 실시예들에서, 이러한 접근법은 다수의 뷰포트들, 예컨대 구체적으로 각 눈에 대한 뷰포트에 대하여 반복될 수 있다.
도 2의 장치는 많은 실시예들에서 예를 들어 관찰자에 국한되는 게임 콘솔과 같은 단일 디바이스에서 구현될 수 있다. 그러나, 많은 다른 실시예들에서, 장치의 구성요소들은 관찰자로부터 원격일 수 있다. 예를 들어, 많은 실시예들에서, 도 1의 것과 같은 클라이언트/ 서버 접근법이 채용되어, 도 2의 일부 구성요소들은 클라이언트 디바이스에 위치되고 일부는 서버 내에 위치될 수 있다.
예를 들어, 많은 실시예들에서, 수신기(203), 시각적 관심 프로세서(205), 장면 저장부(207), 및 이미지 데이터 생성기(209)는 서버(103)에 위치할 수 있다. 구성요소들은 복수의 서버들 사이에 공유될 수 있고, 따라서 중앙집중된 장면 데이터에 기초하여 복수의 동시 VR 애플리케이션들을 지원할 수 있다.
많은 실시예들에서, 이미지 데이터 생성기(209)는 서버(103)에 위치할 수 있고, 이미지 합성기(211)는 클라이언트에 위치할 수 있다. 이를 통해, 서버(103)는 현재 뷰 포즈에 대응하는 뷰 이미지들을 정확하게 생성하기 위하여 (작은) 조정을 행하는 데 국부적으로 사용될 수 있는 3D 이미지 데이터를 연속적으로 제공할 수 있다. 이는 필요한 데이터 속도를 감소시킬 수 있다. 그러나, 다른 실시예들에서, 이미지 합성기(211)는 서버(103)에 위치할 수 있고(실제로 이미지 데이터 생성기(209) 및 이미지 합성기(211)의 기능은 조합될 수 있음) 서버(103)는 사용자에 직접 제시될 수 있는 뷰 이미지들을 직접 생성할 수 있다. 일부 경우들에서 따라서 서버(103)에 전송된 이미지 데이터 스트림은 뷰 이미지들을 생성하도록 국부적으로 프로세싱될 수 있는 3D 이미지 데이터를 포함할 수 있고, 다른 경우들에서는 사용자에게 제시할 뷰 이미지들을 직접 포함할 수 있다.
많은 실시예들에서, 센서 입력 프로세서(201)는 클라이언트(101)에 포함되고, 수신기(203)는 서버(103)에 포함될 수 있다. 따라서, 클라이언트(101)는 예컨대 VR 헤드셋으로부터 입력 데이터를 수신 및 프로세싱하여 단일 조합 시선 표시를 생성할 수 있고, 이는 이어서 수신기(203)로 전송된다. 일부 실시예들에서, 클라이언트(101)는 센서 입력(가능하게는 부분적으로 프로세싱됨) 또는 개별적인 눈 포즈 및 머리 포즈 데이터를 서버(103)에 직접 전달할 수 있고, 이어서 여기서 조합된 시선 표시를 결정할 수 있다. 실제로, 시선 표시는 예컨대 장면 내의 위치를 나타내는 단일 값 또는 벡터로서 생성될 수 있거나, 또는 예컨대 머리 포즈 및 상대적 눈 포즈의 별개의 표현들과 같은 별개의 파라미터들의 조합에 의해 표현될 수 있다.
시각적 관심 프로세서(205)는 상이한 실시예들에서 시각적 관심 영역을 선택하기 위한 상이한 알고리즘 및 기준을 사용할 수 있다. 일부 예들에서, 그것은 장면 내의 3차원 시각적 관심 영역을 한정할 수 있는데, 구체적으로 시선 표시에 의해 표시된 시선 지점의 위치를 포함하는, 또는 이에 중심을 둔 장면 내의 사전결정된 영역으로서 시각적 관심 영역을 결정할 수 있다.
예를 들어, 시선 표시는, 예컨대 직각 좌표(x,y,z) 또는 극좌표(방위각, 고도, 거리)로서 주어진 장면 내에 지점을 직접 표시할 수 있다. 이어서 시각적 관심 영역은 시선 지점에 중심을 둔 사전결정된 크기의 프리즘으로서 결정될 수 있다.
그러나, 많은 실시예들에서, 시각적 관심 프로세서(205)는 시선 표시에 대응하는 장면의 콘텐츠에 응답하여 시각적 관심 영역을 결정하도록 배열된다.
많은 실시예들에서 시각적 관심 프로세서(205)는 시선 지점 주위의 장면을 평가할 수 있다. 예를 들어, 시각적 관심 프로세서(205)는 예를 들어 동일한 색상 및/또는 세기와 같은 동일한 시각적 특성들을 갖는, 시선 지점 주위의 영역을 식별할 수 있다. 이어서 이 영역은 시각적 관심 영역으로서 간주될 수 있다. 구체적인 예로서, 시선 지점은 현재 뷰 위치(예컨대 머리 포즈에 의해 표시되는 머리 위치)에 대한 3차원 벡터로서 제공될 수 있다. 시각적 관심 프로세서(205)는 머리 포즈에 기초하여 캡처된 3D 이미지를 선택하고 3D 이미지의 캡처 지점에 대하여 시선 지점을 결정할 수 있다. 이는 이어서 결정된 시선 지점에 대응하는 3D 이미지의 일부를 결정하고 이것이 시각적으로 균질한 영역의 일부인지 평가할 수 있다. 그렇다면, 이 영역은, 예컨대 최대 크기에 해당하는 시각적 관심 영역으로서 결정될 수 있다.
많은 실시예들에서, 시각적 관심 프로세서(205)는 장면 객체에 대응할 시각적 관심 영역을 결정할 수 있다. 예컨대, 시선 지점이 이러한 객체의 지점에 충분히 가깝거나, 또는 직접 매칭되는 경우, 시각적 관심 프로세서(205)는 객체에 대응하도록 시각적 관심 영역을 설정할 수 있다.
일부 실시예들에서, 시스템은 예를 들어 사람의 장면 내의 위치의 명시적 정보와 같은 장면 객체들의 명시적 정보를 가질수 있다. 시선 지점이 사람에 충분히 가까운 것으로 검출되는 경우, 관찰자가 효과적으로 이 사람을 보고 있는 것으로 가정될 수 있고, 따라서 시각적 관심 프로세서(205)는 그 사람에 대응하도록 시각적 관심 영역을 설정할 수 있다. 예를 들어, 사람의 투박한 윤곽이 (예컨대 모델 기반 접근법을 이용하는 VR 시스템에 의해) 알려진 경우, 시각적 관심 프로세서(205)는 그 사람을 포함하는 경계 상자로서 시각적 관심 영역을 결정하도록 진행할 수 있다. 이러한 상자의 크기는 사람 전체가 상자 안에 있게 보장하도록 선택될 수 있고, 예컨대 원하는 시야각(예컨대 5°)에 대응하도록 결정될 수 있다.
다른 예로서, 장면 데이터가 상이한 캡처 지점들로부터의 3D 이미지 데이터로 구성된 경우, 시각적 관심 프로세서(205)는 예컨대 시선 지점에 대응하고, 균질한 색상을 갖고, 좁고/ 제한된 심도 범위인 영역으로서 장면 객체를 동적으로 결정할 수 있다. 예를 들어, 시각적 관심 프로세서(205)는 자동으로 캡처된 이미지 데이터에서 얼굴을 검출할 수 있는 안면 검출을 포함할 수 있다. 이어서 시각적 관심 영역은 이 동적으로 검출된 장면 객체에 대응하도록 설정될 수 있다.
많은 실시예들에서, 시각적 관심 프로세서(205)는 장면 내의 장면 객체의 움직임을 추적하도록 배열되는 추적기를 추가로 포함할 수 있고, 시각적 관심 영역은 추적된 움직임에 응답하여 결정될 수 있다. 이는 적합한 시각적 관심 영역의 더 정확한 결정을 제공할 수 있다. 예를 들어, 객체가 장면 내에서 움직이고 있음(예컨대 차가 주행하고, 공이 움직이는 등)이 알려지거나 또는 추정될 수 있다. 이 움직임의 특성은 공지되거나 또는 추정될 수 있다. 구체적으로, 장면 내의 객체의 방향 및 속력이 결정될 수 있다. 시각적 관심 프로세서(205)가 이 움직이는 객체에 대응하는 시각적 관심 영역을 결정하는 경우, 시각적 관심 프로세서(205)는 움직임을 추적하여 이것이 시선 표시의 변화와 매칭되는지 확인할 수 있다. 그렇다면, 관찰자가 객체를 보고 있고, 그 움직임을 뒤쫓고/ 객체를 추적하고 있다고 가정되고, 시각적 관심 영역은 객체에 대응하는 것으로 유지된다. 그러나, 시선 표시가 객체의 움직임을 뒤쫓지 않는 경우, 시각적 관심 프로세서(205)는 그 객체가 시각적 관심 영역으로서 적합하지 않다고 결정할 수 있고, 따라서 상이한 시각적 관심 영역을 선택하거나, 또는 현재로서는 유지되는 시각적 관심이 없고, 따라서 시각적 관심 영역을 결정하는 것이 적절하지 않다고 결정하도록 진행할 수 있다(여기서 모든 타일은 예컨대 중간 해상도로 (예컨대 높은 품질 시각적 관심 영역 이미지 데이터 및 낮은 품질 비-시각적 관심 영역 이미지 데이터가 전송되는 때와 같은 대응하는 총 데이터 속도로) 전송될 수 있음).
이 접근법은 추가적인 시간적 일관성을 제공할 수 있고, 시각적 관심 프로세서(205)가 사용자의 관심을 더 가깝게 반영하는 시각적 관심 영역을 결정하게 할 수 있다.
많은 실시예들에서, 시각적 관심 프로세서(205)는 이전의 시선 표시 및/또는 관찰자 포즈에 대하여 결정된 시각적 관심 영역들을 고려함으로써 시각적 관심 영역을 결정하도록 배열될 수 있다. 예를 들어, 현재 시각적 관심 영역은 이전의 것과 매칭되도록 결정될 수 있다. 구체적인 경우로서, 시각적 관심 영역의 결정은 통상적으로 저역 통과 필터링 효과를 겪을 수 있는데, 즉 동일한 장면 영역은 후속 시선 표시들이 이전의 시선 표시들과 너무 다르지 않는 한 후속 시선 표시들에 대한 시각적 관심 영역으로서 선택될 수 있다.
시스템은 "스냅" 효과를 제공할 수 있으며, 여기서 시각적 관심 영역은, 예컨대, 시선 지점의 변화와 객체의 이동 사이의 상관관계가 (적합한 기준에 따라) 충분히 가깝게 매칭되는 한, 장면 객체에 링크된다. 시각적 관심 영역으로서의 장면 객체의 이러한 선택은 예컨대 시선 지점이 다른 객체에 더 가까운 것으로 검출되는 경우에도 진행할 수 있다. 그러나, 시선 지점이 장면 객체 이동에 관련하여 상관관계 요건을 충족하지 않는 경우, 시각적 관심 프로세서(205)는 다른 장면 객체 (통상적으로 가장 가까운 장면 객체)에 대응하도록 시각적 관심 영역을 변경할수 있거나 또는 현재 시선 지점 주위의 사전결정된 영역으로 시각적 관심 영역을 설정할 수 있다 (또는 실제로 현재로서는 특정 시각적 관심 영역이 없다고 결정함(예컨대 사용자가 빠르게 장면/ 뷰포트를 스캐닝하는 것에 대응함)).
일부 실시예들에서, 시각적 관심 프로세서(205)는 시각적 관심 영역의 움직임과 시선 표시의 변화 사이의 상관관계에 응답하여 시각적 관심 영역에 대한 신뢰도 측정을 결정하도록 배열될 수 있다. 구체적으로, 시선 표시에 의해 표시된 바와 같이 시선 지점의 변화를 검출하고 이들을, 관찰자가 시각적 관심 영역(예컨대 시각적 관심 영역에 대응하는 객체)의 움직임을 추적하고 있는 경우에 야기되는 시선 지점의 변화와 비교함으로써, 관찰자가 실제로 자신의 시각적 관심을 이 객체/ 영역에 집중하고 있다는 것이 얼마나 가능성 있는지 나타내는 측정치가 결정될 수 있다. 상관관계가 높은 경우, 예컨대 뷰 포즈로부터 보이는 바와 같은 객체 위치의 변화가 시선 지점의 대응하는 움직임에 의해 매칭되는 경우, 관찰자가 실제로 자신의 관심을 대응하는 객체에 집중하고 있을 확률이 매우 높고 시각적 관심 영역 신뢰도 값은 높게 설정될 수 있다. 상관관계가 낮은 경우, 신뢰도 값은 더 낮게 설정될 수 있다. 실제로, 많은 실시예들에서, 상관관계 측정치는 직접 신뢰도 측정치로서 결정 및 사용될 수 있다(또는 예컨대 신뢰도 측정치는 상관관계 측정치의 단조증가함수로서 결정될 수 있음).
이러한 실시예들에서, 이미지 데이터 생성기(209)는, 예컨대 데이터 속도에 의해 표현되는 바와 같이, 결정된 신뢰도 측정치에 기초하여 시각적 관심 영역에 대하여 품질 레벨을 설정하도록 배열될 수 있다. 구체적으로, 품질 레벨은 증가하는 신뢰도에 대하여 증가될 수 있다(예를 들어 시각적 관심 영역의 이미지 데이트에 대한 공간적 및/또는 시간적 데이터 속도를 결정하는 데 단조 함수가 사용될 수 있음).
이는 동작을 제공할 수 있는데, 여기서 관찰자가 특정 영역/ 객체에 집중하고 있음이 매우 가능성 높다고 장치가 결정하는 경우, 이는 매우 높은 품질로 도시되고, 통상적으로 대부분의 뷰 이미지/ 뷰 포트는 실질적으로 더 낮은 품질로 도시된다. 그러나, 대신에 사용자가 현재 검출된 영역/ 객체에 집중하고 있음이 낮은 확률로 고려되는 경우, 영역/ 객체와 이미지/ 뷰포트의 나머지 사이의 품질 차이는 실질적으로 감소될 수 있다. 실제로, 신뢰도 측정치가 충분히 낮은 경우, 이미지 데이터 생성기(209)는 시각적 관심 영역에 대한 데이터 및 생성된 데이터의 나머지에 대한 품질 레벨을 실질적으로 동일하게 설정할 수 있다. 이는 관찰자가 자신의 초점을 검출된 시각적 관심 영역에 제한하지 않는 경우 발생할 수 있는 인식 품질 "플리커(flicker)"를 감소시킬 수 있다. 또한, 일정한 데이터 속도 제한이 있는 경우, 예를 들어 이를 통해, 시각적 관심 영역에 대하여 감소된 데이터 속도가 타일/ 뷰 포트의 나머지에 대한 데이터 속도를 증가시키는 데 사용되도록 할 수 있다.
많은 실시예들에서, 이미지 데이터 생성기(209)는 예컨대 시각적 관심 영역 이미지 데이터과 연관된 높은 품질 레벨과 비-시각적 관심 영역 이미지 데이터와 연관된 낮은 품질 레벨 사이와 같이, 신뢰도 측정치에 따라, 두 품질 레벨들 사이에서 스위칭하도록 배열될 수 있다. 그러나, 많은 실시예들에서, 이미지 데이터 생성기(209)는 신뢰도 측정치에 따라 많은 상이한 품질 레벨들 사이에서 스위칭되도록 배열될 수 있다.
많은 실시예들에서, 시각적 관심 프로세서(205)는 장면에 대한 저장된 사용자 보기 거동에 응답하여 시각적 관심 영역을 결정하도록 배열될 수 있다. 저장된 사용자 보기 거동은 장면의 이전의 뷰들에 대한 빈도/ 분포를 반영할 수 있고, 구체적으로 장면의 이전의 뷰들에 대하여 시선 지점들의 공간적 빈도 분포를 반영할 수 있다. 시선 지점은 예컨대 완전 3차원 위치, 방향, 또는 예컨대 거리와 같은 하나 이상의 파라미터들에 의해 예컨대 반영될 수 있다.
일부 실시예들에서, 장치는 장면 내의 사용자의 시선 지점들을 모니터링 및 추적하고 사용자가 가장 자주 보고 있는 곳을 결정하도록 배열될 수 있다. 예를 들어, 시각적 관심 프로세서(205)는, 시선 지점이 개별 객체에 충분히 가까이 있는 횟수가 얼만큼인지 결정함으로써 평가되는, 사용자가 특정 장면 객체들을 보는 것으로 고려되는 빈도를 추적할 수 있다. 구체적으로, 개별 장면 객체들이 어떻게 시각적 관심 영역으로서 선택되는지 모니터링될 수 있다. 시각적 관심 프로세서(205)는 이러한 실시예들에서, 예컨대 각각의 장면 객체에 대하여, 개별 장면 객체들이 시각적 관심 영역으로서 선택되었던 횟수의 누계를 유지할 수 있다.
시각적 관심 영역을 결정할 때, 시각적 관심 프로세서(205)는 저장된 사용자 보기 거동을 고려할 수 있고, 구체적으로 시각적 관심 영역의 선택/ 결정을 더 높은 보기 빈도를 갖는 영역들/객체들에 편중할 수 있다. 예를 들어, 주어진 관찰자 포즈 및 시선 지점에 대하여, 시각적 관심 프로세서(205)는 적합한 뷰포트를 결정할 수 있고, 이 뷰포트 내의 일부 잠재적 후보 장면 객체들을 식별할 수 있다. 이어서 시선 지점이 개별 장면 객체에 얼마나 가까운지 그리고 장면 객체들이 이전에 얼마나 자주 시각적 관심 영역으로서 선택되었는지에 따라, 객체들 중 하나를 시각적 관심 영역으로서 선택할 수 있다. "인기있는" 장면 객체들에 대한 편중은 시선 지점에 가장 가까운 객체가 아니라 가장 가까운 객체보다 더 가능성있는 후보인 장면 객체가 선택되게 할 수 있다.
상이한 접근법들 및 알고리즘들이 상이한 실시예들에서 이전의 사용자 거동을 고려하는 데 사용될 수 있다. 예를 들어, 비용 측정치가 각각의 장면 객체에 대하여 결정될 수 있으며, 이는 시선 지점까지의 거리 및 이전의 보기 거동 및 구체적으로 장면 객체가 이전에 시각적 관심 영역으로서 얼마나 자주 선택되었는지에 관해 나타내는 빈도 측정치에 따라 달라진다. 이어서 시각적 관심 프로세서(205)는 가장 낮은 비용 측정치를 갖는 장면 객체를 시각적 관심 영역으로서 선택할 수 있다.
시각적 관심 프로세서(205)는 저장된 사용자 보기 거동이 더 낮은 보기 빈도를 나타내는 장면의 영역들에 비하여, 저장된 사용자 보기 거동이 더 높은 보기 빈도를 나타내는 장면의 영역들에 시각적 관심 영역을 그에 따라 편중시킬 수 있다. 이러한 접근법은 개선된 사용자 경험 및 사용자의 실제 시각적 초점에 대응할 가능성이 더 높은 시각적 관심 영역의 선택을 가져올 수 있다.
사용자 보기 거동은 동일한 VR 세션 동안의 보기 거동 및 동일한 사용자를 반영할 수 있다. 따라서, 시각적 관심 프로세서(205)는 예컨대 예컨대 어떤 장면 객체들이 시각적 관심 영역들로서 선택되는지 나타내는 데이터를 저장할 수 있다. 이어서 시각적 관심 영역의 후속 선택은 개별 장면 객체들의 선택의 빈도를 후속 선택에 대하여 고려할 수 있다.
일부 실시예들에서, 보기 거동은 이전의 VR 세션들의 거동을 반영할 수 있고, 실제로 다수의 사용자들의 보기 거동을 반영할 수 있다. 예를 들어, 시각적 관심 프로세서(205)가 도 1의 서버(103)에서 구현되어서 많은 상이한 사용자들에 서비스를 제공하는 실시예들에서, 모든 사용자들 및 모든 VR 세션들에 대한 개별 장면 객체들(또는 더 일반적으로 영역들)의 선택은 저장된 보기 거동 데이터에 반영될 수 있다. 따라서 시각적 관심 영역의 선택은 장면 데이터에 액세스할 때 예컨대 이전의 통계적 사용자 거동에 추가적으로 응답할 수 있다.
많은 실시예들에서, 시각적 관심 프로세서(205)는 예측된 시각적 관심 영역을 추가로 결정하도록 배열될 수 있다. 예측된 시각적 관심 영역은 관찰자의 추정된 미래의 시각적 관심을 나타내고, 따라서 구체적으로 현재 시선 지점에 대응하지 않지만 대신에 예상되는 미래의 시선 지점에 대응할 수 있다. 따라서 예측된 시각적 관심 영역은 미래에 선택될 수 있는 시각적 관심 영역의 표시/ 추정일 수 있다.
시각적 관심 프로세서(205)는 장면의 상이한 영역들 사이의, 구체적으로 상이한 장면 객체들 사이의 이전의 보기 거동 관계들을 나타내는 관계 데이터에 응답하여 예측된 시각적 관심 영역을 결정할 수 있다.
본 발명자는 많은 애플리케이션들에서, 콘텐츠의 상이한 부분들 사이의 통상적인 또는 더 빈번한 이동이 존재하고, 이러한 사용자 거동이 개선된 성능을 제공하기 위해 기록 및 사용될 수 있음을 알게 되었다.
시각적 관심 프로세서(205)는 구체적으로 예측된 시각적 관심 영역에 대한 추가적인 이미지 데이터를 포함할 수 있고, 여기서 이 이미지 데이터는 예측된 시각적 관심 영역의 외측보다 더 높은 품질 레벨에 있다. 특히, 현재 시각적 관심 영역에 대한 이미지 데이터를 제공하기 위하여 전술된 접근법들은 또한 예측된 시각적 관심 영역에 대한 이미지 데이터를 제공하도록 적용될 수 있다. 따라서, 일부 실시예들에서, 이미지 데이터 생성기(209)는 품질 레벨이 실질적으로 더 높을 수 있는 현재 및 예측된 시각적 관심 영역에 대응하는 영역들을 제외하고, 주어진 타일에 대하여 주어진 품질의 이미지 데이터를 포함하는 데이터 스트림을 생성할 수 있다.
시각적 관심 프로세서(205)는 현재 시각적 관심 영역과 예측된 시각적 관심 영역의 뷰들 사이의 높은 뷰(잉) 상관관계를 나타내는 관계 데이터에 응답하여 예측된 시각적 관심 영역을 결정할 수 있다.
관계 데이터는 통상적으로 관찰자에 의해 장면에 액세스하는 이전의 시선 이동들을 나타낼 수 있고, 시각적 관심 프로세서(205)는 예측된 시각적 관심 영역을, 관계 데이터가 시각적 관심 영역으로부터 기준을 충족하는 제1 영역으로의 시선 이동들의 시선 이동 빈도를 나타내는 영역으로서 결정할 수 있다. 기준은 통상적으로 시선 이동 빈도가 임계치 초과이거나 또는 예컨대 시각적 관심 영역으로부터 가까운 장면 객체들로의 시선 이동 빈도들의 세트 중 가장 높은 빈도임을 요구할 수 있다.
예를 들어, 다수의 VR 세션들 동안, 시각적 관심 프로세서(205)는 사용자들이 어떻게 그들의 초점을 변경하는지 반영하는 데이터를 수집할 수 있다. 이는 예를 들어 어떤 장면 객체들이 시각적 관심 영역으로서 선택되고 구체적으로 어떤 선택 변화가 일어나는지 저장함으로써 수행될 수 있다. 주어진 장면 객체에 대하여, 시각적 관심 프로세서(205)는 주어진 거리 내의 각각의 다른 장면 객체에 대하여 주어진 장면 객체로부터 장면 객체로 선택의 변화가 일어날 때마다 기록할 수 있다. 주어진 장면 객체가 현재 시각적 관심 영역으로서 선택되면, 시각적 관심 프로세서(205)는 제2 장면 객체가 대부분 종종 다음에 선택되는, 즉 사용자의 시각적 관심이 통상적으로 스위칭되는 장면 객체임을 식별하기 위하여 저장된 데이터를 평가하도록 진행할 수 있다.
이어서 시각적 관심 프로세서(205)는 현재 시각적 관심 영역 및 예측된 시각적 관심 영역에 대하여 특히 높은 품질의 데이터를 전송하도록 진행할 수 있다. 결과적으로, 뷰 이미지들은, 사용자의 현재 시각적 초점뿐만 아니라 사용자의 예측된/ 예상된 다음 시각적 초점에 대하여 특히 높은 품질을 갖는 사용자에 대하여 생성될 수 있다. 실제로, 사용자가 그 때 시각적 초점의 예상된 변화를 만드는 경우, 그는 직접 그리고 어떠한 지연 또는 딜레이 없이 전체 이미지의 높은 품질을 인식할 것이다.
구체적인 예로서, 테니스 경기의 실감나고 몰입된 관찰자 경험의 형태의 VR 경험이 고려될 수 있는데, 여기서 사용자에게 스탠드에 앉아 있는 관중이 되는 경험을 제공할 수 있다. 그 시나리오에서, 사용자는 자신의 위치 또는 머리 배향을 변경할 수 있는, 예컨대 둘러보거나, 상이한 위치로 이동할수 있다. 그 예에서, 장면 객체들은 두 명의 선수, 심판, 네트, 볼 보이 또는 볼 걸 등에 대응할 수 있다.
이러한 애플리케이션에서, 보기 거동 데이터를 생성하는 것은 이것이 두 명의 선수에 대응하는 장면 객체들이 시각적 관심 영역들로서 매우 빈번하게 선택되는, 즉 사용자 초점이 대부분 선수들과 있음을 보여주는 것일 가능성이 있다. 따라서, 시선 표시가 시선 지점이 예컨대 네트 또는 볼 보이에 더 가까움을 나타내더라도 시각적 관심 프로세서(205)는 선수 객체들 중 하나를 시각적 관심 영역으로서 선택할 가능성이 더 클 수 있다.
또한, 관계 거동은 시각적 관심 영역이 종종 제1 선수로부터 제2 선수로, 그리고 그 반대로 스위칭되는 것을 반영할 수 있다. 따라서, 제1 선수 객체가 현재 시각적 관심 영역으로서 선택되면, 시각적 관심 프로세서(205)는 제2 선수 객체를 예측된 시각적 관심으로서 결정할 수 있거나 그 반대일 수 있다. 이어서 이미지 데이터 생성기(209)는 현재 뷰 포즈에 대응하는 타일에 대하여 주어진 품질을 갖게 이미지 데이터를 생성할 수 있지만, 작은 영역들에 대하여 실질적으로 더 높은 품질을 갖는다. 유사하게, 이미지 합성기(211)는 선수들 주위의 매우 작은 영역들(말하자면, 제1 선수 및 제2 선수 주위의 5° 미만)을 제외하고 주어진 품질을 갖게 뷰 이미지들을 생성할 수 있으며, 여기는 품질이 실질적으로 더 높다. 사용자의 시선이 상이한 선수들 사이에서 스위칭될 때 일관되게 높은 품질이 사용자에 의해 그에 따라 인식된다.
이러한 접근법은 관찰자 포즈의 변화와 일치한다는 것에 또한 유의하여야 한다. 구체적으로, 관찰자 포즈가 하나의 위치로부터, 예컨대 사용자가 경기가 보이는 스탠드 내의 상이한 위치를 선택하는 것에 대응하는 다른 위치로 변경되는 경우, 시각적 관심 영역들을 선택하는 것에 관한 데이터는 여전히 유용하다. 구체적으로, 선수들에 대응하는 장면 객체들이 시각적 관심 영역들에 대한 강력한 후보임을 나타내는 이전의 데이터는, 사용자가 시선을 한 선수로부터 다른 선수로, 즉 선수 장면 객체들 사이에서 자주 변경함을 나타내는, 여전히 관련있는, 그대로의 관계 데이터이다. 물론, 구체적인 뷰 이미지들에 대한 시각적 관심 영역들의 투사는 뷰포트의 변화에 따라 변할 것이다.
일부 실시예들에서, 시각적 관심 프로세서(205)는 시각적 관심 영역에 대응하는 장면 객체의 이동 데이터에 응답하여 예측된 시각적 관심 영역을 결정하도록 배열될 수 있다. 예측된 시각적 관심 영역은 예를 들어 이동하고 있는 장면 객체가 향하고 있는 영역으로서 결정될 수 있는, 즉 그것은 장면 객체의 추정된 또는 예측된 미래의 위치에 대응할 수 있다. 그 접근법은 예컨대 사용자가 예컨대 너무 빠르게 움직여서 현재 시각적 관심 영역을 연속적으로 업데이트하고 대응하는 높은 품질 데이터를 전송하는 것이 딜레이 또는 허용불가능한 지연을 유발할 수 있는, 빠르게 움직이는 객체를 추적하고 있는 경우에 개선된 성능을 제공할 수 있다. 예를 들어, 사용자가 축구 게임에서 공을 쫓고 있는 경우, 연속적으로 대응하는 객체를 추적하고 작은 주위 영역에 대하여 높은 품질 데이터를 전송하는 접근법이 적합할 수 있는 것은 공이 느리게 움직이고 있는 경우(예컨대 패스)이지만, 공이 빠르게 움직이고 있는 경우(예컨대 슛 또는 골 킥)는 아니다. 후자의 경우에, 시스템은 예컨대 공이 골인될 것임을 예측할 수 있고, 결과적으로 공이 골대에 도달하기 전에 골 영역에 대한 높은 품질 데이터가 전송될 수 있다.
이전의 예들은 주어진 더 높은 화질이 시각적 관심 영역에 대응하는 영역(또는 예측된 시각적 관심 영역)에 대하여 선택되고 (예컨대 뷰포트의) 다른 영역들에 대하여 주어진 더 낮은 품질이 선택되는 실시예들에 초점을 맞추었다. 그러나, 많은 실시예들에서 화질의 점진적인 변화가 적용될 수 있다.
예를 들어, 시각적 관심 영역에 대응하는 뷰 이미지 내의 초점 지점이 식별될 수 있고, 이미지 영역이 초점 지점에 더 가까울수록 뷰 이미지 내의 이미지 영역의 품질은 증가될 수 있다. 예컨대 뷰 이미지의 인코딩은 많은 인코딩 기법들로부터 공지된 바와 같이, MPEG와 같은 매크로-불록들에 기초할 수 있다. 각각의 매크로블록에 할당되는 비트의 수는 (및 그럼으로써 매크로-블록의 품질은) 매크로-블록과 초점 지점 사이의 거리의 함수로서 결정될 수 있다. 함수는 거리가 증가함에 따라 단조롭게 감소할 수 있어서, 매크로-블록이 초점 지점에 가까워질수록 품질이 증가하는 것을 보장한다. 함수의 특성은 원하는 점진적인 품질 분포를 제공하기 위하여 선택될 수 있음이 이해될 것이다. 예를 들어, 가우시안(Gaussian) 품질/ 비트 할당 분포를 제공하기 위한 함수가 선택될 수 있다.
일부 실시예들에서 다음이 제공될 수 있다:
장면의 뷰들을 표현하는 이미지 데이터 스트림을 생성하기 위한 장치로서,
관찰자의 머리 포즈 및 상대적 눈 포즈 둘 모두를 나타내는 시선 표시를 수신하기 위한 수신기(203) - 머리 포즈는 머리 위치를 포함하고 상대적 눈 포즈는 머리 포즈에 대한 눈 포즈를 나타냄 -;
시선 표시에 대응하는 장면 내의 시각적 관심 영역을 결정하기 위한 결정기(205);
장면에 대한 이미지 데이터를 포함하도록 이미지 데이터 스트림을 생성하기 위한 생성기(209) - 이미지 데이터는 적어도 시각적 관심 영역에 대한 제1 이미지 데이터 및 시각적 관심 영역 밖의 장면에 대한 제2 이미지 데이터를 포함하도록 생성됨 -를 포함하고, 생성기(209)는 제2 이미지 데이터보다 제1 이미지 데이터에 대하여 더 높은 품질 레벨을 갖게 이미지 데이터를 생성하도록 배열된다.
장면의 뷰들을 표현하는 이미지 데이터 스트림을 생성하는 방법으로서,
관찰자의 머리 포즈 및 상대적 눈 포즈 둘 모두를 나타내는 시선 표시를 수신하는 단계 - 머리 포즈는 머리 위치를 포함하고 상대적 눈 포즈는 머리 포즈에 대한 눈 포즈를 나타냄 -;
시선 표시에 대응하는 장면 내의 시각적 관심 영역을 결정하는 단계;
장면에 대한 이미지 데이터를 포함하도록 이미지 데이터 스트림을 생성하는 단계 - 이미지 데이터는 적어도 시각적 관심 영역에 대한 제1 이미지 데이터 및 시각적 관심 영역 밖의 장면에 대한 제2 이미지 데이터를 포함하도록 생성됨 -를 포함하고, 이미지 데이터는 제2 이미지 데이터보다 제1 이미지 데이터에 대하여 더 높은 품질 레벨을 갖는다.
상기 설명은 명료함을 위해 상이한 기능 회로들, 유닛들 및 프로세서들을 참조하여 본 발명의 실시예들을 기술하였음을 알 것이다. 그러나, 본 발명으로부터 벗어남이 없이 상이한 기능 회로들, 유닛들 또는 프로세서들 간의 기능의 임의의 적합한 분배가 사용될 수 있음이 명백할 것이다. 예를 들어, 별개의 프로세서들 또는 제어기들에 의해 수행되도록 예시된 기능이 동일한 프로세서 또는 제어기들에 의해 수행될 수 있다. 따라서, 특정 기능 유닛들 또는 회로들에 대한 언급들은 오로지 엄격한 논리적 또는 물리적 구조 또는 조직을 나타내기보다는 기술된 기능을 제공하기 위한 적합한 수단에 대한 언급들로 간주되어야 한다.
본 발명은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 조합을 포함한 임의의 적합한 형태로 구현될 수 있다. 본 발명은 선택적으로 하나 이상의 데이터 프로세서 및/또는 디지털 신호 프로세서 상에서 실행되는 컴퓨터 소프트웨어로서 적어도 부분적으로 구현될 수 있다. 본 발명의 실시예의 요소들 및 컴포넌트들은 임의의 적합한 방식으로 물리적으로, 기능적으로 그리고 논리적으로 구현될 수 있다. 실제로, 기능은 단일 유닛에서, 복수의 유닛에서, 또는 다른 기능 유닛들의 일부로서 구현될 수 있다. 그렇기 때문에, 본 발명은 단일 유닛에서 구현될 수 있거나, 상이한 유닛들, 회로들 및 프로세서들 간에 물리적으로 그리고 기능적으로 분배될 수 있다.
본 발명이 일부 실시예들과 관련하여 설명되었지만, 본 발명은 본 명세서에 기재된 특정 형태로 제한되도록 의도되지 않는다. 오히려, 본 발명의 범주는 첨부된 청구항들에 의해서만 제한된다. 또한, 특징이 특정 실시예들과 관련하여 설명되는 것으로 보일 수 있지만, 당업자는 설명된 실시예들의 다양한 특징들이 본 발명에 따라 조합될 수 있다는 것을 인식할 것이다. 청구항들에서, 용어 '포함하는'은 다른 요소들 또는 단계들의 존재를 배제하지 않는다.
또한, 개별적으로 열거되지만, 복수의 수단, 요소, 회로 또는 방법 단계는 예를 들어 단일 회로, 유닛 또는 프로세서에 의해 구현될 수 있다. 또한, 개별 특징들이 상이한 청구항들에 포함될 수 있지만, 이들은 아마도 유리하게 조합될 수 있으며, 상이한 청구항들에의 포함은 특징들의 조합이 실현 가능하지 않고/않거나 유리하지 않다는 것을 암시하지는 않는다. 또한, 하나의 카테고리의 청구항들에의 특징의 포함은 이러한 카테고리로의 제한을 암시하는 것이 아니라, 오히려 그 특징이 적절한 대로 다른 청구항 카테고리들에 동등하게 적용될 수 있음을 나타낸다. 또한, 청구항들에서의 특징들의 순서는 특징들이 작용되어야 하는 임의의 특정 순서를 암시하지는 않으며, 특히 방법 청구항에서의 개별 단계들의 순서는 단계들이 이러한 순서로 수행되어야 함을 암시하지는 않는다. 오히려, 단계들은 임의의 적합한 순서로 수행될 수 있다. 또한, 단수형 언급들은 복수를 배제하지 않는다. 따라서, 단수형 표현("a", "an"), "제1", "제2" 등에 대한 언급들은 복수를 배제하지 않는다. 청구항들에서의 참조 부호들은 단지 명료화 예로서 제공되며, 어떤 방식으로도 청구항들의 범주를 제한하는 것으로 해석되지 않아야 한다.

Claims (15)

  1. 3차원 장면의 뷰들을 표현하는 이미지 데이터 스트림을 생성하기 위한 장치로서,
    관찰자의 머리 포즈 및 상대적 눈 포즈 둘 모두를 나타내는 시선 표시를 수신하기 위한 수신기(203) - 상기 머리 포즈는 머리 위치를 포함하고 상기 상대적 눈 포즈는 상기 머리 포즈에 대한 눈 포즈를 나타냄 -;
    상기 시선 표시에 대응하는 상기 3차원 장면 내의 3차원 위치를 갖는 시각적 관심 영역을 결정하기 위한 결정기(205);
    상기 장면에 대한 이미지 데이터를 포함하도록 상기 이미지 데이터 스트림을 생성하기 위한 생성기(209) - 상기 이미지 데이터는 적어도 상기 시각적 관심 영역에 대한 제1 이미지 데이터 및 상기 시각적 관심 영역 밖의 상기 장면에 대한 제2 이미지 데이터를 포함하도록 생성됨 -를 포함하고, 상기 생성기(209)는 상기 제2 이미지 데이터보다 상기 제1 이미지 데이터에 대하여 더 높은 품질 레벨을 갖게 상기 이미지 데이터를 생성하도록 배열되고;
    상기 결정기(205)는 상기 시선 표시의 시선 거리 표시에 응답하여 상기 시각적 관심 영역을 결정하도록 배열되는, 장치.
  2. 제1항에 있어서, 상기 결정기(205)는 적어도 한 방향으로 상기 머리 포즈에 대하여 10 도 이하의 확장을 갖게 상기 시각적 관심 영역을 결정하도록 배열되는, 장치.
  3. 제1항 또는 제2항에 있어서, 상기 시각적 관심 영역은 장면 객체에 대응하는, 장치.
  4. 제3항에 있어서, 상기 결정기(205)는 상기 장면 내의 상기 장면 객체의 움직임을 추적하도록 배열되고, 상기 결정기(205)는 상기 추적된 움직임에 응답하여 상기 시각적 관심 영역을 결정하도록 배열되는, 장치.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 결정기(205)는 상기 장면에 대한 저장된 사용자 보기 거동에 응답하여 상기 시각적 관심 영역을 결정하도록 배열되는, 장치.
  6. 제5항에 있어서, 상기 결정기(205)는 상기 저장된 사용자 보기 거동이 더 높은 보기 빈도를 나타내는 상기 장면의 영역들에 상기 시각적 관심 영역을 편중시키도록 배열되는, 장치.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, 상기 결정기(205)는 상기 장면의 상이한 영역들 사이의 이전의 보기 거동 관계들을 나타내는 관계 데이터에 응답하여 예측된 시각적 관심 영역을 결정하도록 배열되고; 상기 생성기(209)는 상기 예측된 시각적 관심 영역에 대한 제3 이미지 데이터를 상기 이미지 데이터 스트림에 포함하도록 배열되고; 상기 생성기(209)는 상기 예측된 시각적 관심 영역 밖의 상기 제2 이미지 데이터보다 상기 제3 이미지 데이터에 대하여 더 높은 품질 레벨을 갖게 상기 이미지 데이터를 생성하도록 배열되는, 장치.
  8. 제7항에 있어서, 상기 관계 데이터는 적어도 한 명의 관찰자에 의한 이전의 시선 이동들을 나타내고; 상기 결정기(205)는 상기 관계 데이터가, 임계치를 초과하는, 상기 시각적 관심 영역으로부터 상기 제1 영역으로의 시선 이동들의 빈도를 나타내는 상기 장면의 제1 영역으로서 상기 예측된 시각적 관심 영역을 결정하도록 배열되는, 장치.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서, 상기 결정기(205)는 상기 시각적 관심 영역에 대응하는 장면 객체의 이동 데이터에 응답하여 예측된 시각적 관심 영역을 결정하도록 배열되고; 상기 생성기(209)는 상기 예측된 시각적 관심 영역에 대하여 상기 제3 이미지 데이터를 포함하도록 배열되고; 상기 생성기(209)는 상기 예측된 시각적 관심 영역 밖의 상기 제2 이미지 데이터보다 상기 제3 이미지 데이터에 대하여 더 높은 품질 레벨을 갖게 상기 이미지 데이터를 생성하도록 배열되는, 장치.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서, 상기 생성기(209)는 상기 머리 포즈에 대한 뷰포트들에 대응하는 이미지들을 포함하는 비디오 데이터 스트림으로서 상기 이미지 데이터 스트림을 생성하도록 배열되는, 장치.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서, 상기 결정기(205)는 상기 장면 내의 상기 시각적 관심 영역의 이동과 상기 시선 표시의 변화들 사이의 상관관계에 응답하여 상기 시각적 관심 영역에 대한 신뢰도 측정치를 결정하도록 배열되고; 상기 생성기(209)는 상기 신뢰도 측정치에 응답하여 상기 제1 이미지 데이터에 대한 상기 품질을 결정하도록 배열되는, 장치.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서, 상기 장면에 대한 애플리케이션을 실행하도록 배열되는 프로세서를 추가로 포함하고, 상기 애플리케이션은 상기 시선 표시를 생성하고, 상기 이미지 시선 표시로부터 상기 관찰자에 대한 뷰포트에 대응하는 이미지를 렌더링하도록 배열되는, 장치.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서, 원격 클라이언트(103)로부터 상기 시선 표시를 수신하고 상기 이미지 데이터 스트림을 상기 원격 클라이언트(103)로 전송하도록 추가로 배열되는, 장치.
  14. 제1항에 있어서, 상기 생성기(209)는 상기 머리 포즈에 응답하여 상기 이미지 데이터에 대한 뷰포트를 결정하고, 상기 뷰포트에 응답하여 상기 제1 데이터를 결정하도록 배열되는, 장치.
  15. 3차원 장면의 뷰들을 표현하는 이미지 데이터 스트림을 생성하는 방법으로서,
    관찰자의 머리 포즈 및 상대적 눈 포즈 둘 모두를 나타내는 시선 표시를 수신하는 단계 - 상기 머리 포즈는 머리 위치를 포함하고 상기 상대적 눈 포즈는 상기 머리 포즈에 대한 눈 포즈를 나타냄 -;
    상기 시선 표시에 대응하는 상기 3차원 장면 내의 3차원 위치를 갖는 시각적 관심 영역을 결정하는 단계;
    상기 장면에 대한 이미지 데이터를 포함하도록 상기 이미지 데이터 스트림을 생성하는 단계 - 상기 이미지 데이터는 적어도 상기 시각적 관심 영역에 대한 제1 이미지 데이터 및 상기 시각적 관심 영역 밖의 상기 장면에 대한 제2 이미지 데이터를 포함하도록 생성됨 -를 포함하고, 상기 이미지 데이터는 상기 제2 이미지 데이터보다 상기 제1 이미지 데이터에 대하여 더 높은 품질 레벨을 갖고; 상기 시각적 관심 영역을 결정하는 단계는 상기 시선 표시의 시선 거리 표시에 응답하여 상기 시각적 관심 영역을 결정하는 단계를 포함하는, 방법.
KR1020217001915A 2018-06-22 2019-06-17 이미지 데이터 스트림을 생성하기 위한 장치 및 방법 KR20210024567A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18179291.2 2018-06-22
EP18179291.2A EP3588970A1 (en) 2018-06-22 2018-06-22 Apparatus and method for generating an image data stream
PCT/EP2019/065799 WO2019243215A1 (en) 2018-06-22 2019-06-17 Apparatus and method for generating an image data stream

Publications (1)

Publication Number Publication Date
KR20210024567A true KR20210024567A (ko) 2021-03-05

Family

ID=62784016

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217001915A KR20210024567A (ko) 2018-06-22 2019-06-17 이미지 데이터 스트림을 생성하기 위한 장치 및 방법

Country Status (8)

Country Link
US (1) US20210258554A1 (ko)
EP (2) EP3588970A1 (ko)
JP (1) JP7480065B2 (ko)
KR (1) KR20210024567A (ko)
CN (1) CN112585987B (ko)
BR (1) BR112020025897A2 (ko)
TW (1) TWI828711B (ko)
WO (1) WO2019243215A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
CN115314696A (zh) * 2021-05-08 2022-11-08 中国移动通信有限公司研究院 一种图像信息的处理方法、装置、服务器及终端
US20230081605A1 (en) * 2021-09-16 2023-03-16 Apple Inc. Digital assistant for moving and copying graphical elements
WO2023233829A1 (ja) * 2022-05-30 2023-12-07 株式会社Nttドコモ 情報処理装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030067476A1 (en) * 2001-10-04 2003-04-10 Eastman Kodak Company Method and system for displaying an image
US7883415B2 (en) * 2003-09-15 2011-02-08 Sony Computer Entertainment Inc. Method and apparatus for adjusting a view of a scene being displayed according to tracked head motion
KR20120055991A (ko) * 2010-11-24 2012-06-01 삼성전자주식회사 영상처리장치 및 그 제어방법
AU2011204946C1 (en) * 2011-07-22 2012-07-26 Microsoft Technology Licensing, Llc Automatic text scrolling on a head-mounted display
WO2013068882A2 (en) * 2011-11-09 2013-05-16 Koninklijke Philips Electronics N.V. Display device and method
WO2015100490A1 (en) * 2014-01-06 2015-07-09 Sensio Technologies Inc. Reconfiguration of stereoscopic content and distribution for stereoscopic content in a configuration suited for a remote viewing environment
KR102611448B1 (ko) * 2014-05-29 2023-12-07 네버마인드 캐피탈 엘엘씨 콘텐트를 전달 및/또는 콘텐트를 재생하기 위한 방법들 및 장치
WO2015186439A1 (ja) * 2014-06-03 2015-12-10 株式会社 日立メディコ 画像処理装置及び立体視表示方法
US9774887B1 (en) * 2016-09-19 2017-09-26 Jaunt Inc. Behavioral directional encoding of three-dimensional video
US10218968B2 (en) * 2016-03-05 2019-02-26 Maximilian Ralph Peter von und zu Liechtenstein Gaze-contingent display technique
US10169846B2 (en) * 2016-03-31 2019-01-01 Sony Interactive Entertainment Inc. Selective peripheral vision filtering in a foveated rendering system
JP2018026692A (ja) * 2016-08-10 2018-02-15 株式会社日立製作所 作業支援システム、撮影装置、及び表示装置
JP6996514B2 (ja) * 2016-10-26 2022-01-17 ソニーグループ株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
GB2555501B (en) * 2017-05-04 2019-08-28 Sony Interactive Entertainment Europe Ltd Head mounted display and method
CN107396077B (zh) * 2017-08-23 2022-04-08 深圳看到科技有限公司 虚拟现实全景视频流投影方法和设备

Also Published As

Publication number Publication date
TW202015399A (zh) 2020-04-16
BR112020025897A2 (pt) 2021-03-16
TWI828711B (zh) 2024-01-11
EP3811631A1 (en) 2021-04-28
EP3588970A1 (en) 2020-01-01
CN112585987B (zh) 2023-03-21
JP7480065B2 (ja) 2024-05-09
CN112585987A (zh) 2021-03-30
WO2019243215A1 (en) 2019-12-26
US20210258554A1 (en) 2021-08-19
JP2021527974A (ja) 2021-10-14

Similar Documents

Publication Publication Date Title
JP7480065B2 (ja) 画像データストリームを生成するための装置および方法
US20210233304A1 (en) Systems and associated methods for creating a viewing experience
US20180350136A1 (en) Systems and associated methods for creating a viewing experience
US11694390B2 (en) Apparatus and method for generating images of a scene
US20190335166A1 (en) Deriving 3d volumetric level of interest data for 3d scenes from viewer consumption data
JP7480163B2 (ja) 画像の奥行きマップの処理
KR20210059775A (ko) 이미지 합성
US11710273B2 (en) Image processing
US20230154106A1 (en) Information processing apparatus, information processing method, and display apparatus
KR20200128661A (ko) 뷰 이미지를 생성하기 위한 장치 및 방법
US11187895B2 (en) Content generation apparatus and method
JP7471307B2 (ja) シーンの画像表現
van Gemert Dynamic Viewport-Adaptive Rendering in Distributed Interactive VR Streaming: Optimizing viewport resolution under latency and viewport orientation constraints
WO2020190893A1 (en) Capturing and transforming wide-angle video information
NZ743078A (en) Systems and associated methods for creating a viewing experience
JP2020534726A (ja) 全方位ビデオの符号化のための方法および装置

Legal Events

Date Code Title Description
A201 Request for examination