KR20230133974A - 이미지 합성 시스템 및 그를 위한 방법 - Google Patents

이미지 합성 시스템 및 그를 위한 방법 Download PDF

Info

Publication number
KR20230133974A
KR20230133974A KR1020237028206A KR20237028206A KR20230133974A KR 20230133974 A KR20230133974 A KR 20230133974A KR 1020237028206 A KR1020237028206 A KR 1020237028206A KR 20237028206 A KR20237028206 A KR 20237028206A KR 20230133974 A KR20230133974 A KR 20230133974A
Authority
KR
South Korea
Prior art keywords
image
view
area
depth
pose
Prior art date
Application number
KR1020237028206A
Other languages
English (en)
Inventor
기스트 바르톨로메우스 윌헬무스 다미아누스 반
바르트 크룬
Original Assignee
코닌클리케 필립스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 엔.브이. filed Critical 코닌클리케 필립스 엔.브이.
Publication of KR20230133974A publication Critical patent/KR20230133974A/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/275Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals
    • H04N13/279Image signal generators from 3D object models, e.g. computer-generated stereoscopic image signals the virtual viewpoint locations being selected by the viewers or determined by tracking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/156Mixing image signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/111Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation
    • H04N13/117Transformation of image signals corresponding to virtual viewpoints, e.g. spatial image interpolation the virtual viewpoint locations being selected by the viewers or determined by viewer tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/10Processing, recording or transmission of stereoscopic or multi-view image signals
    • H04N13/106Processing image signals
    • H04N13/128Adjusting depth or disparity

Abstract

이미지 합성 장치는 3차원 장면의 적어도 일부를 설명하는 3차원 이미지 데이터를 수신하는 제1 수신기(201), 및 뷰어에 대한 뷰 포즈를 수신하는 제2 수신기(203)를 포함한다. 이미지 영역 회로(207)는 3차원 이미지 데이터 내의 적어도 제1 이미지 영역을 결정하고, 깊이 회로(209)는 3차원 이미지 데이터의 깊이 데이터로부터 제1 이미지 영역에 대한 깊이 표시를 결정한다. 영역 회로(211)는 제1 이미지 영역에 대한 제1 영역을 결정한다. 뷰 합성 회로(205)는 3차원 이미지 데이터로부터 뷰 이미지를 생성하며, 여기서 뷰 이미지는 뷰 포즈로부터의 3차원 장면의 뷰를 표현한다. 뷰 합성 회로(205)는 깊이 표시 및 뷰 포즈와 제1 영역 사이의 거리에 응답하여 뷰 이미지 내의 제1 이미지 영역에 대한 투명도를 적응시키도록 배열된다.

Description

이미지 합성 시스템 및 그를 위한 방법
본 발명은 이미지 합성 시스템에 관한 것이며, 특히, 그러나 비배타적으로, 몰입형 비디오 응용을 위한 뷰 합성(view synthesis)을 지원하는 이미지 합성 장치에 관한 것이다.
이미지 및 비디오 응용들의 다양성 및 범위는 최근 수년간 대폭적으로 증가했으며, 비디오를 이용하고 소비하는 새로운 서비스들 및 방식들이 계속해서 개발되고 도입되고 있다.
예를 들어, 점점 더 인기가 있는 하나의 서비스는 뷰어(viewer)가 렌더링의 파라미터들을 변경하기 위해 시스템과 능동적으로 그리고 동적으로 상호작용할 수 있는 방식으로 이미지 시퀀스들을 제공하는 것이다. 많은 응용에서의 매우 매력적인 특징은 뷰어의 유효 뷰잉 위치(viewing position) 및 뷰잉 방향(viewing direction)을 변경하여, 이를테면 예를 들어 뷰어가 제시되는 장면 내에서 움직이고 둘러보는 것을 가능하게 하는 능력이다.
그러한 특징은 특히 가상 현실 경험이 사용자에게 제공될 수 있게 할 수 있다. 이것은 사용자가 예를 들어 가상 환경 내에서 (비교적) 자유롭게 돌아다니고 그의 위치 및 그가 보고 있는 곳을 동적으로 변경할 수 있게 할 수 있다. 전형적으로, 그러한 가상 현실(VR) 응용들은 장면의 3차원 모델에 기초하며, 그 모델은 특정한 요청된 뷰(view)를 제공하기 위해 동적으로 평가된다. 이러한 접근법은, 컴퓨터들 및 콘솔들에 대해, 예컨대 1인칭 슈터들의 카테고리에서, 예를 들어 게임 응용들로부터 잘 알려져 있다. 다른 예들은 증강 현실(AR) 또는 혼합 현실(MR) 응용들을 포함한다.
제안된 비디오 서비스 또는 응용의 예는, 비디오가 예컨대, VR 헤드셋 상에서 재생되어 3차원 경험을 제공하는, 몰입형 비디오이다. 몰입형 비디오의 경우, 뷰어는 제시된 장면을 보고 그 내에서 돌아다닐 수 있는 자유를 가져서, 이것이 상이한 뷰포인트(viewpoint)들로부터 보이는 것으로서 인지될 수 있게 한다. 그러나, 많은 전형적인 접근법들에서, 움직임의 양은, 예를 들어, 전형적으로 장면의 비디오 캡처가 수행된 뷰포인트에 대응할 수 있는 공칭 뷰포인트(nominal viewpoint) 주위의 비교적 작은 영역으로 제한된다. 그러한 응용들에서, 기준 뷰포인트(들)에 비교적 가까운 뷰포인트들에 대한 고품질의 뷰 이미지 합성을 허용하지만 뷰포인트가 기준 뷰포인트들로부터 너무 많이 벗어나는 경우에는 저하되는 3차원 장면 정보가 종종 제공된다.
몰입형 비디오는 종종 6자유도(6DoF) 또는 3DoF+ 비디오로 지칭될 수 있다. MPEG 몰입형 비디오(MPEG Immersive Video, MIV)[1]는 몰입형 비디오를 가능하게 하고 표준화하기 위해 기존 비디오 코덱들 위에 메타데이터가 사용되는 새로운 표준이다.
몰입형 비디오에서의 문제는, 뷰어가 충분한 품질의 6DoF 경험을 갖는 3d-공간인 뷰잉-공간(viewing-space)이 제한된다는 것이다. 뷰어가 뷰잉 공간 외부로 이동함에 따라, 뷰 이미지들을 합성하는 것으로부터 기인하는 저하들 및 에러들은 점점 더 커지고 허용불가능한 사용자 경험이 발생할 수 있다. 생성된 뷰 이미지들에서의 에러들, 아티팩트들, 및 부정확성들은 구체적으로, 제공된 3D 비디오 데이터가 뷰 합성을 위한 충분한 정보(예컨대, 역폐색 데이터(de-occlusion data))를 제공하지 않는 것으로 인해 발생할 수 있다.
예를 들어, 몰입형 비디오 데이터는 장면의, 깊이를 갖는 멀티뷰(multi-view with depth, MVD) 표현의 형태로 제공될 수 있다. 장면은 다수의 공간적으로 구별되는 카메라들에 의해 캡처될 수 있고, 캡처된 이미지들은 깊이 맵들과 함께 제공될 수 있다. 그러나, 그러한 표현이 역폐색된 영역들에 대한 충분한 이미지 데이터를 포함하지 않을 가능성은, 뷰포인트들이 MVD 데이터가 캡처되었던 기준 뷰포인트들과 점점 더 상이해짐에 따라, 크게 증가한다. 따라서, 뷰어가 공칭 위치로부터 멀어지게 이동함에 따라, 새로운 뷰포인트로부터 역폐색되어야 하지만 소스 뷰들로부터 누락되는 이미지 부분들은 그러한 이미지 부분들을 설명하는 이미지 데이터로부터 직접 합성될 수 없다. 또한, 불완전한 깊이 맵들은, 뷰 합성을 수행할 때 특히 합성 동작의 필수적 부분인 뷰 워핑의 일부로서 왜곡들을 야기할 수 있다. 합성되는 뷰포인트들이 원래 카메라 뷰포인트로부터 멀어질수록, 합성된 뷰에서의 왜곡들은 더 심해진다. 따라서, 사용자가 뷰잉 공간으로부터 이동함에 따라, 렌더링된 뷰 이미지들의 품질은 저하되고, 품질은 전형적으로 뷰잉 공간 외부로의 비교적 작은 움직임들에 대해서도 허용불가능하게 될 수 있다.
이러한 근본적인 문제를 해결하기 위해, MPEG 몰입형 비디오(MIV) 표준 ISO/IEC JTC1 SC29 WG11 (MPEG) N19212의 5번째 작업 초안은 뷰잉-공간 외부로의 그러한 움직임을 취급하기 위한 제안들을 포함한다. 이 표준은 뷰어가 뷰잉 공간 외부로 이동할 때 수행될 수 있는 상이한 동작들 및 모드들을 제안한다:
Figure pct00001
그러나, 이러한 접근법들은 일부 시나리오들에서 바람직한 성능을 제공할 수 있지만, 모든 응용들 및 서비스들에 대해 이상적이지 않은 경향이 있다. 그것들은 구체적으로 비교적 복잡하거나 비실용적일 수 있고, 종종 최적이 아닌 사용자 경험을 야기할 수 있다. 특히, VHM_RENDER, VHM_EXTRAP 모드들은 왜곡된 뷰를 야기하지만 뷰어를 배향된 상태로 유지하는 반면, VHM_FADE, VHM_RESET, VHM_STRETCH, VHM_ROTATE 모드들은 왜곡들을 방지하지만 기껏해야 몰입감을 떨어뜨리거나, 또는 심지어 뷰어가 방향 감각을 잃게 만들 수 있다.
따라서, 개선된 접근법이 유리할 것이다. 특히, 개선된 동작, 증가된 유연성, 개선된 몰입형 사용자 경험, 감소된 복잡성, 용이한 구현, 증가된 합성 이미지 품질, 개선된 렌더링, 사용자에 대한 증가된 (아마도 가상) 움직임 자유, 개선된 사용자 경험, 및/또는 개선된 성능 및/또는 동작을 허용하는 접근법이 유리할 것이다.
따라서, 본 발명은 전술한 불리한 점들 중 하나 이상을 단독으로 또는 임의의 조합으로 바람직하게 완화, 경감 또는 제거하고자 한다.
본 발명의 일 양태에 따르면, 이미지 합성 장치가 제공되며, 이는, 3차원 장면의 적어도 일부를 설명하는 3차원 이미지 데이터를 수신하도록 배열된 제1 수신기; 3차원 이미지 데이터 내의 적어도 제1 이미지 영역을 결정하도록 배열된 이미지 영역 회로; 제1 이미지 영역에 대한 3차원 이미지 데이터의 깊이 데이터로부터 제1 이미지 영역에 대한 깊이 표시를 결정하도록 배열된 깊이 회로; 제1 이미지 영역에 대한 제1 영역을 결정하도록 배열된 영역 회로; 뷰어에 대한 뷰 포즈(view pose)를 수신하도록 배열된 제2 수신기; 3차원 이미지 데이터로부터 뷰 이미지를 생성하도록 배열된 뷰 합성 회로로서, 뷰 이미지는 뷰 포즈로부터의 3차원 장면의 뷰를 표현하는, 뷰 합성 회로를 포함하며; 뷰 합성 회로는 깊이 표시 및 뷰 포즈와 제1 영역 사이의 거리에 응답하여 뷰 이미지 내의 제1 이미지 영역의 투명도를 적응시키도록 배열되고, 뷰 합성 회로는, 뷰 포즈와 제1 영역 사이의 증가하는 거리에 대해 그리고 깊이 표시가 제1 이미지 영역에 대해 감소하는 깊이를 나타내는 것에 대해, 투명도를 증가시키도록 배열된다.
본 발명은 많은 실시예들 및 시나리오들에서 개선된 사용자 경험을 제공할 수 있다. 그것은 예를 들어 AR, VR 및/또는 MR 응용들에 대해 이미지 품질과 움직임의 자유 사이의 개선된 트레이드-오프를 가능하게 할 수 있다. 이 접근법은 많은 경우들에서 더 몰입적인 사용자 경험을 제공할 수 있고 몰입형 비디오 응용들에 매우 적합할 수 있다. 이 접근법은 품질 저하의 인지를 감소시킬 수 있고, 예를 들어 뷰 이미지에서의 상당한 아티팩트들 또는 에러들이 인위적이거나 결함이 있는 경험의 인지를 초래할 위험을 감소시킬 수 있다. 이 접근법은 예를 들어, 장면에서 일관성 있고(coherent) 일관된(consistent) 움직임을 갖는 개선된 경험을 사용자에게 제공할 수 있다.
이 접근법은 예를 들어 장면의 제한된 캡처에 기초한 개선된 AR/VR/MR 응용들을 가능하게 할 수 있다.
투명도는 반투명도일 수 있다. 제1 영역은 3차원 이미지 데이터가 이미지 합성에 충분한 것으로 지정되는 뷰 포즈들의 세트일 수 있다. 그러한 지정은 합성 품질 기준이 충족되는 것에 대해 응답하는 것일 수 있으며, 합성 품질 기준은 제1 이미지 영역의 이미지 표현에 대한 품질 척도가 임계치를 초과한다는 요건을 포함하고, 이미지 표현은 수신된 3차원 데이터로부터 (뷰 합성 회로에 의해) 생성된다. 뷰 합성 회로는 상이한 뷰 포즈들에 대한 3차원 이미지 데이터로부터 생성된 이미지 표현에 대한 품질 척도를 결정하도록 배열될 수 있다. 제1 영역은 품질 척도가 임계치를 초과하는 뷰 포즈들을 포함하도록 생성될 수 있다.
3차원 이미지 데이터는 3차원 장면의 전체 또는 부분 설명일 수 있다. 포즈는 위치 및/또는 배향일 수 있다.
3차원 이미지 데이터는 멀티뷰 이미지들의 세트를 포함할 수 있다. 3차원 이미지 데이터는 하나 이상의 이미지들에 대한 깊이 맵과 같은 깊이 정보를 포함할 수 있다. 3차원 이미지 데이터는 상이한 뷰 포즈들에 대한 장면의 복수의 이미지들을 포함할 수 있다. 3차원 이미지 데이터는 장면의 멀티뷰 플러스 깊이(multi-view plus depth, MVD) 표현을 포함할 수 있다.
이미지 영역은 이미지 객체에 대응할 수 있다. 용어 '제1 이미지 영역'은 일부 실시예들에서 용어 '제1 이미지 객체' 또는 '제1 장면 객체'로 대체될 수 있다. 제1 이미지 영역은 일부 실시예들에서 단일 픽셀일 수 있다. 용어 '제1 이미지 영역'은 일부 실시예들에서 용어 '제1 픽셀'로 대체될 수 있다.
임의의 적합한 거리 또는 차이 척도가 거리를 결정하는 데 사용될 수 있으며, 즉 임의의 적합한 거리 척도가 뷰 포즈와 뷰잉 영역 사이의 거리에 대해 사용될 수 있다.
이미지 영역은 구체적으로 배경 영역에 대응하지 않는 입력 이미지의 영역에 대응하도록 생성될 수 있다. 제1 이미지 영역은 배경 픽셀들을 포함하지 않는 이미지 영역일 수 있다. 제1 이미지 영역은 장면의 전경 객체(foreground object)를 표현하는 이미지 영역일 수 있다. 전경 객체는 배경 객체가 아닌 객체일 수 있다.
본 발명의 선택적 특징에 따르면, 뷰 합성 회로는 뷰 포즈와 제1 영역 사이의 거리가 임계치를 초과하는 경우 이미지 영역이 완전히 투명한 채로 뷰 이미지를 생성하도록 배열된다.
이는 유리하고 전형적으로 효율적인 동작을 제공할 수 있고, 많은 시나리오들에서 개선된 사용자 경험을 가능하게 할 수 있다. 특히, 그것은 뷰 포즈가 뷰잉 영역과 너무 많이 상이한 경우 전형적으로 전경 객체들이 비가시적이 되게 할 수 있다. 특히, 예를 들어 전경 객체들이 상당히 감소된 품질로 제시되기보다는 사라지게 만드는 것은, 많은 시나리오들에서 많은 사용자들에게 더 직관적인 경험들을 제공할 수 있다.
임계치는 깊이 표시에 의존할 수 있다. 임계치는 일부 실시예들에서 0일 수 있다.
본 발명의 선택적 특징에 따르면, 뷰 합성 회로는 거리가 임계치를 초과하지 않는 경우 이미지 영역이 완전히 투명하지 않은 채로 뷰 이미지를 생성하도록 배열된다.
이는 유리하고 전형적으로 효율적인 동작을 제공할 수 있고/있거나, 많은 시나리오들에서 개선된 사용자 경험을 가능하게 할 수 있다.
본 발명의 선택적 특징에 따르면, 뷰 합성 회로는 거리가 임계치를 초과하지 않는 경우 이미지 영역이 불투명한 채로 뷰 이미지를 생성하도록 배열된다.
이는 유리하고 전형적으로 효율적인 동작을 제공할 수 있고/있거나, 많은 시나리오들에서 개선된 사용자 경험을 가능하게 할 수 있다. 예를 들어, 전경 객체가 완전히 존재하는(완전 불투명한) 것으로 또는 완전히 비가시적인/부재하는(완전히 투명한) 것으로 인지되는 많은 실시예들에서, 많은 실시예들에서 유리할 수 있다.
본 발명의 선택적 특징에 따르면, 이미지 합성은, 이미지 영역 회로가 제1 이미지 영역에 대한 제2 영역을 결정하는 것을 추가로 포함하고, 뷰 합성 회로는, 이미지 영역이, 뷰 포즈가 제2 영역 내부에 있는 경우 불투명하고, 뷰 포즈가 제2 영역 외부 및 제1 영역 내부에 있는 경우 부분적으로 투명하고, 그리고 뷰 포즈가 제1 영역 외부에 있는 경우 완전히 투명한 채로, 뷰 이미지를 생성하도록 배열된다.
이것은 많은 실시예들에서 개선된 사용자 경험을 제공할 수 있다. 이 접근법은, 예를 들어, 전격 객체를, 뷰 포즈가 캡처 포즈들에 충분히 가까울 때 완전히 존재/불투명하고, 뷰 포즈가 캡처 포즈들로부터 너무 멀 때 완전히 부재/투명한 것으로 인지되도록 제시하고, 투명도는 이들 영역 사이에서 점진적으로 증가하도록 할 수 있다.
제2 뷰잉 영역은 제1 영역 내부에 있을/그에 의해 둘러싸일 수 있다.
본 발명의 선택적 특징에 따르면, 제1 영역은 깊이 표시에 의존한다.
이는 많은 실시예들에서 유리한 동작 및/또는 개선된 사용자 경험을 제공할 수 있다.
일부 실시예들에서, 이미지 영역 회로는 깊이 표시에 응답하여 제1 뷰잉 영역의 형상 및 크기 중 적어도 하나를 적응시키도록 배열될 수 있다.
본 발명의 선택적 특징에 따르면, 제1 영역은 이미지 영역의 형상 복잡성에 의존한다.
이는 많은 실시예들에서 유리한 동작 및/또는 개선된 사용자 경험을 제공할 수 있다.
일부 실시예들에서, 이미지 영역 회로는 형상 복잡성 척도에 응답하여 제1 뷰잉 영역의 형상 및 크기 중 적어도 하나를 적응시키도록 배열될 수 있다.
일부 실시예들에서, 이미지 영역 회로는 이미지 영역에 대한 시차 변동 척도에 응답하여 제1 뷰잉 영역의 형상 및 크기 중 적어도 하나를 적응하도록 배열될 수 있다.
시차 변동 척도는 주어진 뷰포인트 시프트에 대한 이미지 영역의 픽셀들에 대한 시차의 변동을 나타낼 수 있다.
본 발명의 선택적 특징에 따르면, 제1 영역은 이미지 영역에 대한 뷰 시프트/포즈 변화 감도에 의존한다.
이는 많은 실시예들에서 유리한 동작 및/또는 개선된 사용자 경험을 제공할 수 있다.
본 발명의 선택적 특징에 따르면, 제1 영역은 3차원 이미지 데이터에 포함된 제1 이미지 영역에 대한 역폐색 데이터의 양에 의존한다.
이는 많은 실시예들에서 유리한 동작 및/또는 개선된 사용자 경험을 제공할 수 있다.
본 발명의 선택적 특징에 따르면, 거리의 함수로서 투명도를 결정하기 위한 함수는 뷰잉 포즈의 변화들에 대한 히스테리시스를 포함한다.
이는 많은 실시예들에서 유리한 동작 및/또는 개선된 사용자 경험을 제공할 수 있다.
본 발명의 선택적 특징에 따르면, 3차원 이미지 데이터는 3차원 이미지의 입력 이미지 중 적어도 하나에 대한 이미지 영역들의 표시를 추가로 포함하고, 이미지 영역 회로는 이미지 영역들의 표시에 응답하여 제1 이미지 영역을 결정하도록 배열된다.
이는 많은 실시예들에서 유리한 동작 및/또는 개선된 사용자 경험을 제공할 수 있다. 이 접근법은 많은 실시예들에서 복잡성 및/또는 계산 부담을 감소시킬 수 있다.
본 발명의 선택적 특징에 따르면, 3차원 이미지 데이터는 3차원 이미지의 적어도 하나의 입력 이미지에 대한 주어진 영역의 표시를 추가로 포함하고, 영역 회로는 주어진 영역의 표시에 응답하여 제1 영역을 결정하도록 배열된다.
이는 많은 실시예들에서 유리한 동작 및/또는 개선된 사용자 경험을 제공할 수 있다. 이 접근법은 많은 실시예들에서 복잡성 및/또는 계산 부담을 감소시킬 수 있다.
본 발명의 선택적 특징에 따르면, 뷰 합성 회로는 뷰 이미지의 적어도 제1 픽셀에 대해 멀티뷰 이미지의 상이한 이미지들로부터 도출된 다수의 후보 픽셀 값들 사이에서 선택하도록 배열되고, 뷰 합성 회로는, 거리가 임계치 초과인 것에 대해 뒤쪽으로 가장 먼 픽셀을 선택하고, 그리고 거리가 임계치 미만인 것에 대해 앞쪽으로 가장 먼 픽셀을 선택하도록 배열되며, 뒤쪽으로 가장 먼 픽셀은 뷰 포즈로부터 가장 먼 깊이를 나타내는 깊이 값과 연관되고, 앞쪽으로 가장 먼 픽셀은 뷰 포즈에 가장 가까운 깊이를 나타내는 깊이 값과 연관된다.
이는 많은 실시예들에서 유리한 동작 및/또는 개선된 사용자 경험을 제공할 수 있다.
그것은 특히 효율적이고 낮은 복잡성 동작을 가능하게 할 수 있다.
본 발명의 일 양태에 따르면, 이미지 신호가 존재하며, 이미지 신호는: 3차원 장면의 적어도 일부를 설명하는 3차원 이미지 데이터; 및 3차원 이미지 데이터의 렌더링이, 3차원 이미지 데이터의 이미지의 이미지 영역에 대한 깊이 표시 및 렌더링된 이미지에 대한 뷰 포즈와 이미지 영역에 대한 기준 영역 사이의 거리에 응답하여, 렌더링된 이미지 내의 이미지 영역에 대한 투명도를 적응시키는 것을 포함해야 하는지 여부를 나타내는 데이터 필드를 포함한다.
본 발명의 선택적 특징에 따르면, 이미지 신호는 이미지 영역 및 기준 영역의 표시 중 적어도 하나를 포함한다.
본 발명의 일 양태에 따르면, 전술한 바와 같은 이미지 신호를 생성하도록 배열된 이미지 신호 장치가 제공된다.
본 발명의 일 양태에 따르면, 이미지 합성 방법이 제공되며, 이 방법은: 3차원 장면의 적어도 일부를 설명하는 3차원 이미지 데이터를 수신하는 단계; 3차원 이미지 데이터 내의 적어도 제1 이미지 영역을 결정하는 단계; 제1 이미지 영역에 대한 3차원 이미지 데이터의 깊이 데이터로부터 제1 이미지 영역에 대한 깊이 표시를 결정하는 단계; 제1 이미지 영역에 대한 제1 영역을 결정하는 단계; 뷰어에 대한 뷰 포즈를 수신하는 단계; 3차원 이미지 데이터로부터 뷰 이미지를 생성하는 단계로서, 뷰 이미지는 뷰 포즈로부터의 3차원 장면의 뷰를 표현하는, 3차원 이미지 데이터로부터 뷰 이미지를 생성하는 단계를 포함하며; 뷰 이미지를 생성하는 단계는, 깊이 표시 및 뷰 포즈와 제1 영역 사이의 거리에 응답하여 뷰 이미지 내의 제1 이미지 영역에 대한 투명도를 적응시키는 단계를 포함하고, 투명도는, 뷰 포즈와 제1 영역 사이의 증가하는 거리에 대해 그리고 깊이 표시가 제1 이미지 영역에 대해 감소하는 깊이를 나타내는 것에 대해, 증가한다.
본 발명의 이들 및 다른 양태들, 특징들 및 이점들이 이하에 설명되는 실시예(들)로부터 명백할 것이며 그것을 참조하여 설명될 것이다.
본 발명의 실시예들이 도면을 참조하여 단지 예로서 설명될 것이다.
도 1은 3D 객체의 이미지 및 깊이 캡처의 예를 예시한다.
도 2는 본 발명의 일부 실시예들에 따른 이미지 합성 장치의 요소들의 예를 예시한다.
3차원 비디오 캡처, 배포, 및 제시는 일부 응용들 및 서비스들에서 점점 더 인기 있고 바람직해지고 있다. 특정 접근법은 몰입형 비디오로 알려져 있으며, 전형적으로 비교적 작은 머리 움직임들 및 회전들과 같은 작은 뷰어 움직임들을 허용하는 실세계 장면 및 종종 실시간 이벤트의 뷰들의 제공을 포함한다. 예를 들어, 예컨대 뷰어의 작은 머리 움직임들에 뒤따르는 뷰들의 로컬 클라이언트 기반 생성을 허용하는 스포츠 이벤트의 실시간 비디오 방송은 스탠드에 앉아 있는 사용자가 스포츠 이벤트를 지켜보는 인상을 제공할 수 있다. 사용자는 예를 들어 둘러볼 수 있고, 스탠드의 그 위치에 존재하는 관중의 경험과 유사한 자연스러운 경험을 가질 것이다. 최근에, 실세계 장면들의 3D 캡처링에 기초한 위치 추적 및 3D 상호작용 지원 응용들을 갖는 디스플레이 디바이스들의 보급이 증가하고 있다. 이러한 디스플레이 디바이스들은 향상된 3차원 사용자 경험을 제공하는 몰입형 비디오 응용들에 매우 적합하다.
실세계 장면에 대한 그러한 서비스들을 제공하기 위해, 장면은 전형적으로 상이한 위치들로부터 캡처되며 상이한 카메라 캡처 포즈들이 사용된다. 결과적으로, 멀티-카메라 캡처링 및 예를 들어 6DoF(6 자유도) 처리의 관련성 및 중요성이 빠르게 증가하고 있다. 응용들은 라이브 콘서트, 라이브 스포츠, 및 텔레프레전스를 포함한다. 자신의 뷰포인트(viewpoint)를 선택하는 자유는 정규 비디오에 비해 프레전스의 느낌을 증가시킴으로써 이러한 응용들을 풍요롭게 한다. 또한, 관찰자가 라이브 캡처된 장면을 내비게이팅하고 그와 상호작용할 수 있는 몰입 시나리오들이 구상될 수 있다. 방송 응용들에 대해, 이것은 프로덕션 측에서의 실시간 깊이 추정 및 클라이언트 디바이스에서의 실시간 뷰 합성을 요구할 수 있다. 깊이 추정 및 뷰 합성 둘 모두는 에러들을 도입하고, 이러한 에러들은 알고리즘들의 구현 상세들에 의존한다.
이 분야에서, 용어들 '배치'와 '포즈'는 위치 및/또는 방향/배향에 대한 공통 용어로서 사용된다. 예컨대 객체, 카메라, 머리, 또는 뷰의 위치와 방향/배향의 조합은 포즈 또는 배치로 지칭될 수 있다. 따라서, 배치 또는 포즈 표시는 6개의 값/성분/자유도를 포함할 수 있으며, 각각의 값/성분은 전형적으로 대응하는 객체의 위치/로케이션 또는 배향/방향의 개별 속성을 설명한다. 물론, 많은 상황에서, 예를 들어 하나 이상의 성분이 고정되거나 무관한 것으로 고려되는 경우, 배치 또는 포즈가 더 적은 성분들을 갖는 것으로 고려되거나 더 적은 성분들로 표현될 수 있다(예를 들어, 모든 객체가 동일한 높이에 있고 수평 배향을 갖는 것으로 고려되는 경우, 4개의 성분이 객체의 포즈의 완전한 표현을 제공할 수 있다). 하기에서, 용어 '포즈'는 1개 내지 6개의 값(최대 가능한 자유도에 대응함)에 의해 표현될 수 있는 위치 및/또는 배향을 지칭하는 데 사용된다. 용어 '포즈'는 용어 '배치'로 대체될 수 있다. 용어 '포즈'는 용어 '위치' 및/또는 '배향'으로 대체될 수 있다. 용어 '포즈'는 용어 '위치' 및 '배향'으로(포즈가 위치 및 배향 둘 모두의 정보를 제공하는 경우), 용어 '위치'로(포즈가 (아마도 단지) 위치의 정보를 제공하는 경우), 또는 '배향'으로(포즈가 (아마도 단지) 배향의 정보를 제공하는 경우) 대체될 수 있다.
장면을 표현하기 위한 종종 사용되는 접근법은 깊이를 갖는 멀티뷰(multi-view with depth, MVD) 표현 및 캡처로 알려져 있다. 그러한 접근법에서, 장면은 연관된 깊이 데이터를 갖는 복수의 이미지들에 의해 표현되며, 여기서 이미지들은 전형적으로 제한된 캡처 영역으로부터의 상이한 뷰 포즈들을 표현한다. 이미지들은 실제로 복수의 카메라들 및 깊이 센서들을 포함하는 카메라 리그를 사용함으로써 캡처될 수 있다.
이러한 캡처 시스템의 예가 도 1에 도시되어 있다. 도면은 배경(103) 전방에 장면 객체(101)를 포함하는 캡처될 장면을 도시한다. 복수의 캡처 카메라들(105)이 캡처 영역(105) 내에 위치된다. 캡처링의 결과는 멀티뷰 이미지 및 깊이 표현에 의한, 즉 복수의 캡처 포즈들에 대해 제공되는 이미지 및 깊이에 의한, 3D 장면의 표현일 수 있다. 이에 따라 멀티뷰 이미지 및 깊이 표현은 캡처 구역으로부터의 3D 장면의 설명을 제공할 수 있다. 이에 따라, 3D 장면을 표현하는 데이터는, 시각 데이터가 3D 장면의 설명을 제공하는 캡처 구역으로부터의 3D 장면의 표현을 제공할 수 있다.
MVD 표현은 뷰 합성을 수행하는 데 사용될 수 있으며, 이에 의해 주어진 뷰 포즈로부터의 장면의 뷰 이미지들이 생성될 수 있다. 뷰 포즈는, 뷰 포즈로부터의 장면의 뷰(들)의 이미지가 생성되어 사용자에게 제시될 수 있도록, MVD 표현의 이미지들을 뷰 포즈로 뷰 시프트하는 것을 요구할 수 있다. 뷰 시프트 및 합성은 깊이 데이터에 기초하며, 예를 들어, MVD 이미지(들) 및 뷰 포즈 이미지 내의 위치들 사이의 시차 시프트는 장면 내의 대응하는 객체의 깊이에 의존한다.
생성된 뷰 이미지들의 품질은 뷰 합성 동작에 이용가능한 이미지들 및 깊이 정보에 의존할 것이다. 그것은 또한 요구되는 뷰 시프팅의 양에 의존한다.
예를 들어, 뷰 시프팅은 전형적으로, 예컨대 뷰 시프팅에 사용되는 메인 이미지에서 보이지 않을 수 있는 이미지의 부분들의 역폐색을 야기한다. 이러한 구멍들은, 이들이 역폐색된 요소들을 캡처했다면 다른 이미지들로부터의 데이터에 의해 채워질 수 있지만, 또한 전형적으로 새로운 뷰포인트에 대해 역폐색되는 이미지 부분들이 또한 다른 소스 뷰들로부터 누락되는 것이 가능하다. 그 경우, 뷰 합성은 예컨대 주변 데이터에 기초하여 데이터를 추정할 필요가 있다. 역폐색 프로세스는 본질적으로 부정확성들, 아티팩트들, 및 에러들을 도입하는 프로세스인 경향이 있다. 또한, 이는 뷰 시프트의 양에 따라 증가하는 경향이 있으며, 구체적으로 뷰-합성 동안 누락 데이터(구멍들)의 가능성은 이미지들의 캡처 포즈들로부터의 증가하는 거리에 따라 증가한다.
가능한 왜곡들의 다른 소스는 불완전한 깊이 정보일 수 있다. 종종 깊이 정보는, 깊이 값들이 깊이 추정(예컨대, 소스 이미지들 사이의 디스패리티 추정에 의해) 또는 완벽하지 않은 측정치(예컨대, 레인징)에 의해 생성되고 따라서 깊이 값들은 에러들 및 부정확성들을 포함할 수 있는, 깊이 맵들에 의해 제공된다. 뷰 시프팅은 깊이 정보에 기초하며, 불완전한 깊이 정보는 합성된 이미지(들)에서 에러들 또는 부정확성들을 초래한다. 합성된 뷰포인트가 원래 카메라 뷰포인트로부터 멀어질수록, 합성된 타겟 뷰 이미지에서의 왜곡들은 심해진다.
따라서, 뷰 포즈가 캡처 포즈들로부터 점점 더 멀리 이동함에 따라, 합성된 이미지의 품질은 저하되는 경향이 있을 것이다. 뷰 포즈가 캡처 포즈들로부터 충분히 멀리 떨어져 있는 경우, 이미지 품질은 허용불가능한 정도로 감소하고 불량한 사용자 경험이 경험될 수 있다.
이러한 문제들을 해결하기 위한 다수의 상이한 접근법들이 제안되었지만, 이들은 부적당하며(suboptimal) 구체적으로 사용자 움직임을 바람직하지 않게 제한하거나 바람직하지 않은 사용자 영향을 도입하는 경향이 있다. 도 2는 많은 시나리오들에서 보다 바람직한 사용자 경험을 달성할 수 있는 성능 및 접근법을 제공할 수 있는 뷰 합성 장치/시스템을 예시한다.
도 2는 예를 들어 몰입형 비디오 경험을 위한 뷰 이미지들을 생성하는 데 사용될 수 있는 이미지 합성 장치의 예를 예시한다. 이미지 합성 장치는 3차원 장면의 적어도 일부를 설명하는 3차원 이미지 데이터를 수신하도록 배열된 제1 수신기(201)를 포함한다. 3D 이미지 데이터는 구체적으로 상이한 위치들에서의 카메라들에 의해 캡처된 실세계 장면을 설명할 수 있다.
많은 실시예들에서, 3D 이미지 데이터는 멀티뷰 이미지들을 포함할 수 있고, 따라서 상이한 뷰포인트들로부터의 장면의 복수의 (동시) 이미지들을 포함할 수 있다. 많은 실시예들에서, 3D 이미지 데이터는, 단일 이미지 및 연관된 깊이 맵이 제공되는, 이미지 및 깊이 맵 표현의 형태일 수 있다. 하기의 설명은, 3D 이미지 데이터가 상이한 뷰포인트들로부터의 적어도 2개의 이미지들을 포함하는 멀티뷰 플러스 깊이 표현이며 이미지들 중 적어도 하나가 연관된 깊이 맵을 갖는 실시예에 초점을 맞출 것이다. 수신된 데이터가 예를 들어 명시적인 깊이 맵을 갖지 않는 멀티뷰 데이터 표현인 경우, 깊이 맵은 구체적으로 멀티뷰 표현의 상이한 이미지들을 사용하는 디스패리티 추정 접근법과 같은 적합한 깊이 추정 알고리즘을 사용하여 생성될 수 있다는 것이 이해될 것이다.
따라서, 특정 예에서, 제1 수신기(201)는 복수의 이미지들 및 깊이 맵(들)을 사용하여 3D 장면을 설명하는 MVD 이미지 데이터를 수신하며, 이는 이후로 또한 소스 이미지들 및 소스 깊이 맵들로 지칭될 것이다. 비디오 경험에 대해 그러한 3D 이미지들의 시간적 시퀀스가 제공된다는 것이 이해될 것이다.
이미지 합성 시스템은 뷰어에 대한(그리고 구체적으로 3차원 장면 내의) 뷰 포즈를 수신하도록 배열된 제2 수신기(203)를 추가로 포함한다. 뷰 포즈는 뷰어가 장면을 보는 위치 및/또는 배향을 표현하고, 그것은 구체적으로 장면의 뷰들이 생성되어야 하는 포즈를 제공할 수 있다. 뷰 포즈를 결정하고 제공하기 위한 많은 상이한 접근법들이 알려져 있고 임의의 적합한 접근법이 사용될 수 있다는 것이 이해될 것이다. 예를 들어, 제2 수신기(203)는 사용자에 의해 착용된 VR 헤드셋, 눈 추적기 등으로부터 포즈 데이터를 수신하도록 배열될 수 있다.
제1 및 제2 수신기들은 임의의 적합한 방식으로 구현될 수 있으며, 로컬 메모리, 네트워크 연결들, 무선 연결들, 데이터 매체들 등을 포함한 임의의 적합한 소스로부터 데이터를 수신할 수 있다.
수신기들은 주문형 집적 회로(ASIC)와 같은 하나 이상의 집적 회로로서 구현될 수 있다. 일부 실시예들에서, 수신기들은, 예를 들어 중앙 처리 유닛, 디지털 신호 처리 유닛, 또는 마이크로제어기 등과 같은 적합한 프로세서(들) 상에서 실행되는 펌웨어 또는 소프트웨어와 같은 하나 이상의 프로그래밍된 처리 유닛으로서 구현될 수 있다. 그러한 실시예들에서, 처리 유닛은 온-보드(on-board) 또는 외부 메모리, 클록 구동 회로부, 인터페이스 회로부, 사용자 인터페이스 회로부 등을 포함할 수 있다는 것이 이해될 것이다. 그러한 회로부는 처리 유닛의 일부로서, 집적 회로들로서, 그리고/또는 별개의 전자 회로부로서 추가로 구현될 수 있다.
제1 및 제2 수신기들(201, 203)은 뷰 합성 회로(205)에 결합되며, 이는 수신된 3차원 이미지 데이터로부터 적어도 하나의 뷰 이미지를 생성하도록 배열되고, 여기서 뷰 이미지는 뷰 포즈로부터의 3차원 장면의 뷰를 표현하기 위해 생성된다. 따라서, 뷰 합성 회로(205)는 수신된 이미지 데이터 및 뷰 포즈로부터 3D 장면에 대한 뷰 이미지들을 생성한다.
종종 우안을 위한 뷰 이미지/객체 및 좌안을 위한 뷰 이미지/객체를 포함하는 스테레오 이미지/이미지 객체가 생성된다는 것이 이해될 것이다. 이에 따라, 뷰 이미지들이 예를 들어 AR/VR 헤드셋을 통해 사용자에게 제시되는 경우, 그것은 3D 장면이 뷰 포즈로부터 보여지는 것처럼 보일 것이다.
따라서, 뷰 합성 회로(205)는 전형적으로 깊이에 기초하여 멀티뷰 이미지들의 뷰 시프팅을 수행하도록 배열된다. 이는 전형적으로, 당업자에게 알려진 바와 같이, 픽셀들을 시프팅하는 것(시차 변화들에 대응하는 적절한 디스패리티를 반영하도록 픽셀 위치들을 변경하는 것), 역폐색(전형적으로 다른 이미지들로부터의 인필링(infilling)에 기초한), 상이한 이미지들로부터의 픽셀들을 조합하는 것 등과 같은 기법들을 포함할 것이다.
이미지들을 합성하기 위한 많은 알고리즘들 및 접근법들이 알려져 있고 임의의 적합한 접근법이 뷰 합성 회로(205)에 의해 사용될 수 있다는 것이 이해될 것이다.
이에 따라 이미지 합성 장치는 3D 장면에 대한 뷰 이미지들을 생성할 수 있다. 게다가, 사용자가 장면 내에서 돌아다니는 것에 대응하여, 뷰 포즈가 동적으로 변할 수 있기 때문에, 3D 장면의 뷰는 뷰 포즈들의 변화들을 반영하도록 연속적으로 업데이트될 수 있다. 정적 장면의 경우, 동일한 소스 뷰 이미지들이 출력 뷰 이미지들을 생성하는 데 사용될 수 있지만, 비디오 응용들의 경우, 상이한 소스 이미지들이 상이한 뷰 이미지들을 생성하는 데 사용될 수 있으며, 예를 들어, 각각의 출력 이미지에 대해 소스 이미지들 및 깊이의 새로운 세트가 수신될 수 있다. 이에 따라, 처리는 프레임 기반일 수 있다. 하기에서, 설명의 명확성 및 간결성을 위해 정적 장면이 고려될 것이다. 그러나, 접근법은, 단순히 주어진 시간/프레임에 대해 수신된 소스 이미지들 및 깊이에 기초하여 그 시간/프레임에 대한 출력 뷰 이미지들을 생성함으로써, 동적 장면들에 동일하게 적용된다는 것이 이해될 것이다.
뷰 합성 회로(205)는 뷰 포즈의 옆으로의 움직임에 대해 상이한 각도들로부터의 것이도록 장면 및 장면 객체들의 뷰를 생성하도록 배열된다. 뷰 포즈가 그것이 상이한 방향/배향에 있도록 변하는 경우, 뷰 합성 회로(205)는 상이한 각도로부터의 것이도록 3차원 장면 객체의 뷰를 생성하도록 배열된다. 이에 따라, 뷰 포즈가 변함에 따라, 장면 객체들은 장면 내에서 정적이고 고정된 배향을 갖는 것으로 인지될 수 있다. 뷰어는 효과적으로 움직이고 객체를 상이한 방향으로부터 볼 수 있다.
뷰 합성 회로(205)는 주문형 집적 회로(ASIC)와 같은 하나 이상의 집적 회로를 포함한 임의의 적합한 방식으로 구현될 수 있다. 일부 실시예들에서, 수신기들은, 예를 들어 중앙 처리 유닛, 디지털 신호 처리 유닛, 또는 마이크로제어기 등과 같은 적합한 프로세서(들) 상에서 실행되는 펌웨어 또는 소프트웨어와 같은 하나 이상의 프로그래밍된 처리 유닛으로서 구현될 수 있다. 그러한 실시예들에서, 처리 유닛은 온-보드 또는 외부 메모리, 클록 구동 회로부, 인터페이스 회로부, 사용자 인터페이스 회로부 등을 포함할 수 있다는 것이 이해될 것이다. 그러한 회로부는 처리 유닛의 일부로서, 집적 회로들로서, 그리고/또는 별개의 전자 회로부로서 추가로 구현될 수 있다.
앞서 언급한 바와 같이, 뷰 합성에서의 문제는, 뷰가 합성되는 뷰 포즈가, 제공된 장면 이미지 데이터의 캡처 포즈들과 점점 더 상이해짐에 따라 품질이 감소한다는 것이다. 실제로, 뷰 포즈가 캡처 포즈들로부터 너무 멀리 이동하는 경우, 생성된 이미지는 상당한 아티팩트들 및 에러들로 허용 불가능할 수 있다.
도 2의 장치는 이러한 문제를 해결하고 완화할 수 있는 접근법들을 구현하고 기능들을 포함한다. 특히, 뷰 합성 회로(205)는 3D 이미지 내의 이미지 영역에 대한 제1 영역을 결정하고, 뷰 포즈와 뷰잉 영역 사이의 거리에 따라 그 이미지 영역의 투명도를 적응시키도록 배열될 수 있다. 제1 영역은, 하기에서, 제1 영역으로, 또는 더 빈번하게는 (제1) 뷰잉 영역으로 지칭될 것이다.
뷰 합성 회로(205)는 뷰 포즈가 뷰잉 영역에 얼마나 가까운지에 따라 예를 들어 객체의 투명도를 적응시킬 수 있고, 특히 그것은 뷰잉 영역에 대한 뷰 포즈의 증가하는 거리에 대해 투명도를 증가시킨다. 특정 예로서, 뷰어가 뷰 포즈가 뷰잉 영역/캡처 포즈들로부터 너무 멀어지도록 이동하는 경우, 전경 객체들 중 하나 이상은 완전히 투명한 것으로서 렌더링될 수 있다. 그러한 예에서, 뷰 포즈가 캡처 포즈들로부터 너무 멀리 이동하는 경우, 전경 객체들은 예를 들어 상당한 에러들 및 아티팩트들로 렌더링/제시되기보다는 장면으로부터 보이지 않게 되고 사라질 수 있다.
이미지 영역에 대한 투명도의 적응은 또한 이미지 영역에 대한 깊이 표시에 의존하고, 특히 투명도는 감소하는 깊이에 대해 증가될 수 있다. 따라서, 투명도는 다수의 고려사항들에 기초하여 적응되고, 구체적으로 이미지 영역의 깊이 및 뷰 포즈와 뷰잉 영역 사이의 거리 둘 모두에 의존한다.
이는, 많은 시나리오들 및 응용들에서, 심하게 저하된 전경 객체들을 제시하는 것에 비해 개선된 사용자 경험을 제공할 수 있다. 이 접근법은, 상이한 깊이들에 있는 영역들/객체들을 상이하게 처리함으로써 개선된 성능이 달성될 수 있으며, 구체적으로 앞쪽으로 더 먼 영역들/객체들이 뒤쪽으로 더 먼 영역들/객체들보다(구체적으로 배경보다) 품질이 상당히 더 저하되는 경향이 있다는, 발명자의 인식을 반영한다.
뷰 합성 회로(205)는, 3D 이미지 내의 하나 이상의 이미지 영역들, 구체적으로 멀티뷰 이미지 표현 내의 이미지들 중 하나의 이미지의 이미지 영역을 결정하도록 배열된 이미지 영역 회로(207)를 추가로 포함한다. 이미지 영역은 예를 들어 장면 객체 또는 장면 객체의 일부에 대응하도록 결정될 수 있다. 일부 실시예들에서, 이미지 영역은 예를 들어, 약 10,000, 1000, 100, 또는 심지어 10개 픽셀 미만의 영역과 같은 비교적 작은 영역으로서 결정될 수 있다. 실제로, 일부 실시예들에서, 이미지 영역은 단지 단일 픽셀일 수 있다.
이미지 영역은 객체(구체적으로, 장면 객체)일 수 있다.
하나 이상의 이미지 영역들을 결정하기 위해 상이한 접근법들이 사용될 수 있다. 예를 들어, 일부 실시예들에서, 각각의 픽셀은 별개의 이미지 영역인 것으로 간주될 수 있다. 다른 실시예들에서, 예컨대 입력 이미지는, 각각의 타일이 이미지 영역인, 상이한 타일들로 타일링될 수 있다. 예를 들어, 미리 결정된 타일링이 수행될 수 있고, 따라서 각각의 이미지 영역은 미리 결정된 이미지 영역에 대응할 수 있다.
그러나, 많은 실시예들에서, 이미지 영역들의 동적 결정이 수행될 수 있다. 예를 들어, 이미지는 장면 객체 또는 그의 일부에 대응하는 것으로 간주되는 다수의 이미지 세그먼트들로 세그멘테이션될 수 있다. 예를 들어, 세그멘테이션은 픽셀 색상 및 밝기와 같은 이미지 속성들에 대해 응답하는 것일 수 있다. 따라서, 유사한 시각적 속성들을 가지며 따라서 동일한 객체의 일부일 가능성이 있는 것으로 간주되는 이미지 영역들이 생성될 수 있다. 세그멘테이션은 대안적으로 또는 추가적으로 이미지에서의 전이부들을 검출하고 이미지 영역들 사이의 경계들의 표시들로서 그러한 전이부들을 사용하는 것에 기초할 수 있다.
많은 실시예들에서, 이미지 영역들의 결정은 대안적으로 또는 추가적으로 깊이 맵들/깊이 정보의 고려에 기초할 수 있다. 예를 들어, 이미지 영역들은, 시각적 동질성을 고려하는 것에 추가적으로 또는 대안적으로, 또한 깊이 동질성을 고려하여, 이미지 영역들이 유사한 깊이들을 갖도록 형성되어 그것들이 동일한 장면 객체에 속할 가능성이 더 높도록 할 수 있다. 유사하게, 깊이 전이부들이 식별되어 이미지 영역들의 에지들을 찾는 데 사용될 수 있다.
일부 실시예들에서, 장면 객체들이 검출될 수 있고, 객체들에 대응하는 이미지 영역들이 식별될 수 있다.
이미지 영역들을 결정하기 위한, 특히 객체 검출/추정 및/또는 이미지 세그멘테이션을 위한 많은 상이한 접근법들 및 알고리즘들이 알려져 있고 임의의 적합한 접근법이 사용될 수 있다는 것이 이해될 것이다.
위의 예들에서, 이미지 영역들은 3D 이미지에 기초하여 생성된다. 일부 실시예들에서, 이미지 영역들은 이미지 영역들을 설명하는 수신된 메타데이터에 기초하여 결정될 수 있다. 예를 들어, 3D 이미지는 하나 이상의 이미지 영역들을 식별하는 메타데이터를 또한 포함하는 비트스트림으로 수신될 수 있다. 예를 들어, 각각의 픽셀 또는 픽셀들의 블록(예컨대, 각각의 매크로-블록에 대한)에 대해 픽셀들이 배경 또는 전경 픽셀들인지를 식별하는 메타데이터가 수신될 수 있다. 이어서, 이미지 영역은 전경 픽셀들의 인접한 영역으로서 결정될 수 있다.
이미지 영역 회로(207)는 각각의 이미지 영역에 대한 깊이 표시를 결정하도록 배열되는 깊이 표시 회로(209)에 결합된다. 깊이 표시는 이미지 영역의 깊이를 나타낸다.
이미지 영역에 대한 깊이 표시는 이미지 영역에 대한 깊이 속성을 반영하는 임의의 표시 또는 값일 수 있고, 특히 이미지 영역의 깊이를 반영하는 임의의 표시일 수 있다.
3차원 이미지 데이터의 깊이 데이터로부터 그러한 깊이 표시를 결정하기 위한 임의의 적합한 함수 또는 알고리즘이 사용될 수 있으며, 사용된 특정 결정 및 깊이 표시는 개별 실시예의 특정 속성들 및 요건들에 의존할 수 있다는 것이 이해될 것이다.
많은 실시예들에서, 이미지 영역에 대한 깊이 표시는 이미지 영역에 대한 깊이 값들의 함수로서 주어진 깊이 값으로서 결정될 수 있으며, 깊이 값들은 3차원 이미지 데이터의 깊이 데이터에 포함된다. 3차원 이미지 데이터의 깊이 데이터의 깊이 값들과 깊이 표시 사이의 함수 및 관계는 특정 실시예에 의존할 것이다.
깊이 표시는, 예를 들어, 이미지 영역 내의 픽셀들에 대한 모든 깊이 값들을 고려하고, 예컨대 이미지 영역의 픽셀들에 대한 평균, 중간, 최대 또는 최소 깊이로서 깊이 표시를 결정함으로써, 결정될 수 있다. 일부 실시예들에서, 깊이 표시는 단순히 이미지 영역이 속하는 깊이 간격의 표시 또는 이진 값일 수 있다. 예를 들어, 깊이 표시는 단순히 대응하는 이미지 영역이 배경인지 또는 전경인지의 표시일 수 있다. 물론, 많은 다른 옵션들이 가능하고 유리하며, 개별 실시예에 대해 요구되는 효과 및 성능을 제공하기 위해 사용될 수 있다. 실제로, 상기의 내용은 단지 예들일 뿐이며, 이미지 영역의 깊이의 표시를 생성하기 위한 많은 다른 옵션들이 가능하고, 본 발명으로부터 벗어남이 없이 사용될 수 있다.
입력 소스 수신기(401) 및 깊이 표시 회로(209)는 뷰 합성 회로(205)에 결합되며, 이는 결정된 뷰잉 영역들을 설명하는 데이터 및 연관된 깊이 표시들을 제공받는다.
뷰 합성 장치는 이미지 영역(들)에 대한 뷰잉 영역을 결정하도록 배열된 뷰 영역 회로(211)를 추가로 포함한다. 복수의 이미지 영역들이 결정/생성되는 일부 실시예들에서, 뷰 영역 회로(211)는 이미지 영역들의 전부 또는 일부에 공통인 뷰잉 영역을 생성하도록 배열될 수 있다. 다른 실시예들에서, 각각의 개별 이미지 영역에 대해 개별 뷰잉 영역이 생성될 수 있다. 따라서, 상이한 이미지 영역들은 동일하거나 상이한 뷰잉 영역들에 연결될 수 있다.
뷰잉 영역/제1 영역은 이미지 영역에 대한 공칭 영역 또는 기준 영역일 수 있다. 기준 또는 공칭 영역은, 이미지 영역에 대해, 기준이 충족되는 영역으로서 결정될 수 있다. 정확한 기준은 특정 실시예에 의존할 수 있다. 많은 실시예들에서, 기준은 예를 들어 기하학적 기준일 수 있고, 뷰잉/공칭/기준 영역은 제1 이미지 영역에 대한 캡처 영역 및/또는 이미지 영역에 대한 기하학적 기준이 충족되는 영역으로서 결정될 수 있다. 예를 들어, 3D 이미지 데이터는 하나 이상의 캡처 영역들 및/또는 포인트들로부터의 3차원 장면의 뷰들을 표현하는 이미지 데이터를 제공할 수 있다. 뷰잉 영역은 캡처 영역들/포인트들에 대한 기하학적 기준이 충족되는 영역으로서 결정될 수 있다. 뷰잉 영역은 구체적으로 캡처 영역들/포인트에 대한 근접성 기준이 충족되는 영역으로서 결정될 수 있다.
이미지 영역에 대한 뷰잉 영역은 이미지 영역이 주어진 최소 품질로 합성될/뷰 시프트될 수 있는 것으로 간주되는 포즈들의 영역일 수 있고, 구체적으로, 표현이, 충분히 높은 품질인 이미지 영역으로 뷰 이미지들이 생성될 수 있도록 하는 데이터를 제공하는, 포즈들의 세트일 수 있다. 따라서, 뷰잉 영역에 대하여 뷰잉 영역 내에 속하는 뷰 포즈들의 경우, 이미지 영역에 대한 충분한 품질의 뷰 이미지들을 생성하는 것이 가능한 것으로 간주된다. 뷰잉 영역 외부에 있는 뷰 포즈들의 경우, 이미지 영역에 대한 충분한 품질의 뷰 이미지들이 생성될 수 있다는 것이 보장되지 않는 것으로 간주될 수 있다.
뷰잉 영역(전형적으로 그의 경계, 윤곽 또는 에지에 의해 표현됨)의 정확한 선택/결정/특성화는 물론, 개별 실시예의 특정 선호들 및 요건들에 의존할 것이다. 예를 들어, 일부 실시예들에서, 뷰잉 영역은 캡처 구역에 직접 대응하도록 결정될 수 있는데, 즉 그것은 캡처 포즈들이 걸쳐 있는 구역일 수 있다. 많은 실시예들에서, 뷰잉 영역은, 포즈와, 가장 가까운 캡처 포즈 사이의 거리 척도가 기준을 충족하는 포즈들을 포함하도록 결정될 수 있다.
뷰잉 영역은 일부 실시예들에서 3차원 이미지 데이터에 대한 캡처 영역에 대한 근접성 기준이 충족되는 영역인 것으로 결정될 수 있다. 정확한 근접성 요건은 개별 실시예의 요건들 및 선호들에 의존할 것이다.
일부 실시예들에서, 뷰잉 영역은 이미지 영역의 합성을 위한 이미지 품질 척도가 임계치를 초과하는 영역으로서 결정될 수 있다. 사용되는 이미지 품질 척도는 구현예의 특정 선호들에 의존할 수 있다. 예를 들어, 일부 실시예들에서, 품질 척도는, 수신된 3D 이미지 데이터로부터 합성을 수행하는 데 필요한 뷰 시프트 크기들의 함수로서, 그리고/또는 얼마나 많은 역폐색이 보간에 의해 보상되어야 하는지의 추정치 등으로서 결정될 수 있다. 일부 실시예들에서, 뷰잉 영역은 정적일 수 있고, 구체적으로 모든 이미지 영역들에 대해 동일할 수 있다. 다른 실시예들에서, 뷰잉 영역은 이미지 영역(들)의 속성들에 응답하여 동적으로 결정될 수 있다. 이 경우, 상이한 이미지 영역들은 상이한 뷰잉 영역들을 가질 수 있고, 뷰잉 영역은 구체적으로 각각의 이미지 영역에 대해 결정될 수 있다.
많은 실시예들에서, 뷰잉 영역은 RN 공간의 포즈들의 서브세트로서 정의될 수 있으며, 여기서 N은 고려되는 차원들의 수일 수 있다. 구체적으로 많은 6DoF 응용들과 같은 많은 실시예들에서, N은 6과 동일하며 전형적으로 위치를 표시하는 3개의 좌표/차원 및 배향(/방향/회전)을 표시하는 3개의 좌표에 대응할 것이다. 일부 실시예들에서, N은 6 미만일 수 있으며, 이는 몇몇 차원들이 고려되지 않는(그리고 구체적으로 무시되거나 고정된 것으로 간주되는) 것에 대응한다.
일부 실시예들에서, 위치 차원들 또는 좌표들만이 고려되고, 일부 실시예들에서는 배향 차원들만이 고려된다. 그러나, 많은 실시예들에서, 적어도 하나의 위치 차원 및 하나의 배향 차원이 고려된다.
뷰잉 영역은 전형적으로 적어도 2차원이고, 적어도 2개의 좌표/차원이 상이한 값들을 갖는 포즈들을 포함한다. 많은 실시예들에서, 뷰잉 영역은 적어도 3차원이고, 적어도 3개의 좌표/차원이 상이한 값들을 갖는 포즈들을 포함한다. 뷰잉 영역은 전형적으로 적어도 2차원 또는 3차원 구역이다. 뷰잉 영역은 전형적으로 적어도 2개의 차원에서 변화하는 포즈들을 포함한다.
많은 실시예들에서, 뷰잉 영역은 상이한 배향들을 갖는 포즈들을 포함한다. 이에 따라, 뷰잉 영역은 종종 적어도 하나의 배향 좌표/차원에 대한 0이 아닌 확장을 갖는다.
대부분의 실시예들에서, 뷰잉 영역은 적어도 하나의 배향 차원 및 적어도 하나의 위치 차원에 대한 확장을 갖는다. 이에 따라, 대부분의 실시예들에서, 위치 및 배향 둘 모두가 시스템에 의해 고려된다.
많은 실시예들에서, 뷰잉 영역은 단순히 기준 또는 바람직한 뷰잉 포즈에 대한 미리 결정된 거리가 주어진 임계치보다 작은 포즈들의 영역으로서 결정될 수 있다. 다른 실시예들에서, 거리는 주어진 캡처 영역에 대하여 측정될 수 있다. 후술하는 바와 같이, 일부 실시예들에서, 뷰잉 영역이 다수의 상이한 파라미터들 등에 의존하는 보다 복잡한 고려사항들이 적용될 수 있다. 그러나, 일반적으로, 이미지 영역(들)에 대한 뷰잉 영역을 결정하기 위한 임의의 적합한 접근법이 사용될 수 있으며, 이 접근법은 뷰잉 영역(들)을 결정하는 임의의 특정 방식으로 제한되지 않는다는 것이 이해될 것이다.
많은 실시예들에서, 주어진 이미지 영역에 대한 뷰잉 영역은, 주어진 이미지 영역의 고품질 합성이 수신된 3D 이미지 데이터로부터 달성될 가능성이 있는 영역으로서 결정될 수 있지만, 이는 필수적인 것은 아니며 다른 접근법들이 사용될 수 있다. 예를 들어, 뷰잉 영역은 사용자를 바이어싱하도록 요구되는 영역으로서 결정될 수 있다. 예를 들어, 게임 또는 가상 현실 응용의 경우, 사용자를 특정 위치 또는 영역으로 바이어싱하는 것이 바람직할 수 있다. 예를 들어, 그러한 접근법은, 3D 이미지 데이터 내의 가상 객체가 객체의 일측 또는 양측으로부터 실질적으로 캡처된 이미지 데이터에 의해 표현됨에도 불구하고, 사용자를 이러한 객체 바로 앞의 위치로 바이어싱하는 데 사용될 수 있다. 따라서, 적응형 투명도는, 최적의 합성 품질을 제공하지 않을 수 있지만 합성 품질/프로세스와 관련 없는 목적들을 포함하는 다른 목적들에 선호될 수 있는 위치로 사용자를 바이어싱하는 데 사용될 수 있다.
많은 실시예들에서, 뷰 영역 회로(211)는 3차원 이미지 데이터에 대한 적어도 하나의 캡처 포즈에 응답하여 제1 영역을 결정하도록 배열될 수 있다. 뷰 영역 회로(211)는 구체적으로, 3차원 이미지 데이터에 대한 하나 이상의 캡처 포즈들에 대한 근접성 기준이 충족되는 것에 응답하여 제1 영역을 결정하도록 배열될 수 있다. 예를 들어, 제1 영역은 3차원 이미지 데이터에 대한 적어도 하나의 캡처 포즈에 대한 근접성 기준이 충족되는 영역으로서 결정될 수 있다.
많은 실시예들에서, 제1 영역은, 3차원 이미지 데이터가 제공되는 기준이 되는 캡처 영역일 수 있다.
3차원 이미지 데이터는 캡처/기준 포즈에 연결된 3차원 이미지 데이터를 제공할 수 있다. 캡처/기준 포즈는 3차원 이미지 데이터 중 적어도 일부가 인지되는/캡처되는 포즈일 수 있다. 제1 영역은 캡처/기준 포즈에 근접한 위치로서 결정될 수 있다(예를 들어, 제1 영역 내의 포즈들로부터 기준/캡처 포즈까지의 거리가 주어진 거리보다 작다는 것과 같은, 근접성 기준이 충족됨).
일부 경우들에서, 3차원 이미지 데이터에 대해 하나 초과의 기준/캡처 포즈가 제공될 수 있다. 그러한 경우들에서, 뷰잉 영역의 결정은, 하나, 그 초과, 또는 모든 기준/캡처 포즈들을 선택하는 것, 및 선택된 캡처/기준 포즈들 중 적어도 하나에 대한 근접성 기준이 충족되는 포즈들의 영역으로서 뷰잉 영역을 결정하는 것을 포함할 수 있다.
제1 (뷰잉) 영역과 제1 이미지 영역은 많은 실시예들에서 중첩되지 않을 수 있다. 많은 실시예들에서, 어떠한 포즈도(그리고 가능하게는 어떠한 위치도) 제1 (뷰잉) 구역 및 제1 이미지 구역 둘 모두에 속하지 않는다.
뷰잉 영역은 요구되는 특정 선호에 따라 적응형 투명도에 대한 기초를 제공하기 위한 임의의 기준 또는 공칭 영역으로서 결정될 수 있다.
제1 뷰잉 영역은 뷰 포즈에 대한 바람직한 영역을 나타내는 바람직한 뷰잉 영역일 수 있다.
일부 실시예들에서, 수신된 데이터는 뷰잉 영역의 표시 또는 뷰잉 영역을 결정하는 데 사용될 수 있는 파라미터들을 포함할 수 있다. 따라서, 수신된 데이터는 공칭 및/또는 기준 영역을 설명하거나 그것이 결정될 수 있도록 하는 데이터를 포함할 수 있다. 이어서, 이러한 공칭/기준 영역은 원하는 효과를 제공하기 위해 설명된 적응형 투명도에 대한 기준으로서 사용될 수 있다.
예를 들어, 3D 이미지 데이터는 이전에 설명된 바와 같이 MVD 캡처에 의해 생성될 수 있고, 이미지들 및 깊이 맵들과 함께, 캡처 영역의 표시, 또는 직접적으로 뷰잉 영역이 3D 이미지 데이터에 포함될 수 있다.
뷰 합성 회로(205)는 수신된 3D 이미지에 기초하여, 이에 따라 특정 실시예에서 MVD 이미지들 및 깊이에 기초하여, 뷰 포즈에 대한 장면의 이미지(구체적으로, VR 헤드셋을 위한 이미지들의 스테레오 세트)를 생성하도록 배열된다.
그러나, 뷰 합성 회로(205)는 추가로, 이미지 영역(들)에 대한 뷰잉 영역과 뷰 포즈 사이의 관계에 기초하여 이미지 영역(들)의 적응형 렌더링을 수행하고, 그리고 구체적으로 이미지 영역(들)에 대한 뷰잉 영역과 뷰 포즈 사이의 관계에 기초하여 이미지 영역(들)의 투명도를 적응시키도록 배열된다.
뷰 합성 회로(205)는 구체적으로, 이미지 영역에 대한 깊이 표시 및 뷰 포즈와 뷰잉 영역 사이의 거리에 응답하여 뷰 이미지 내의 이미지 영역의 투명도/반투명도를 적응시키도록 배열된다. 뷰 합성 회로(205)는, 뷰 포즈와 제1 영역 사이의 증가하는 거리에 대해, 그리고 깊이 표시가 제1 이미지 영역에 대해 감소하는 깊이를 나타내는 것에 대해, 투명도가 증가하도록 투명도를 적응시키도록 배열된다.
예를 들어, 투명도는 깊이 표시 및 뷰 포즈와 뷰잉 영역 사이의 거리의 함수로서 결정될 수 있다. 함수는 깊이 표시에 단조적이고, 구체적으로 깊이 표시가 감소하는 깊이를 나타내는 것에 따라 단조적으로 증가한다. 깊이는 배경을 향해 증가하는 것으로 간주된다. 함수는 또한 뷰 포즈와 제1 영역 사이의 거리의 단조 증가 함수이다.
하기에서, 접근법은 제1 이미지 영역으로 지칭되는 하나의 이미지 영역을 참조하여 설명될 것이지만, 접근법은 더 많은, 그리고 전형적으로 모든, 식별된 이미지 영역들에 대해 반복될 수 있다는 것이 이해될 것이다. 일부 실시예들에서 투명도는 복수의 이미지 객체들에 대해 공통인 것으로 결정될 수 있다는 것이 또한 이해될 것이다.
특정 예로서, 일부 실시예들에서, 뷰 합성 회로(205)는 뷰 포즈와 뷰잉 영역 사이의 거리가 클수록 투명도를 증가시키도록 배열될 수 있다. 예를 들어, 뷰 포즈가 뷰잉 영역 내에 있을 때, 이미지 영역은 완전한 불투명도로 렌더링될 수 있지만, 뷰 포즈가 뷰잉 영역 외부로 점 더 이동함에 따라, 주어진 거리에서 이미지 영역이 완전히 투명하게 렌더링될 때까지 투명도는 증가될 수 있으며, 즉 뷰잉 영역으로부터 더 멀리 떨어져 있는 뷰 포즈의 경우, 이미지 영역에 의해 표현된 이미지 객체는 비가시적이게 될 수 있고, 이미지 영역이 보이게 되기보다는 이미지의 배경이 보여질 수 있다.
따라서, 몰입형 비디오 응용에 적용될 때의 그러한 예에서, 뷰 포즈가 뷰잉 영역을 넘어서는 것은, 모든 이미지 영역들이 비가시적이게 되고 완전히 투명하게 되어 몰입형 비디오 장면의 배경만이 제시되도록 하는 결과를 야기할 수 있다. 그러한 예에서, 전경 객체들은 배경으로 대체될 수 있다. 배경은 예를 들어, 이용가능할 때 MVD 표현의 상이한 이미지들로부터 생성되거나 또는 데이터가 이용가능하지 않은 경우에는 인페인팅(in-painting)에 의해 생성될 수 있다. 이러한 접근법은 전경 객체들을 완전히 투명하게 함으로써 궁극적인 형태의 역폐색을 야기할 수 있다. 이는, 폐색된 데이터가 3D 이미지 데이터로부터 이용가능하다는(이용가능하게 된다는) 기대를 요구하거나 그에 기초할 수 있거나, 또는 즉석에서(on the fly) 생성될 수 있다(예를 들어, 주변 영역들로부터 인페인팅됨).
이러한 접근법은 일차 뷰잉 공간을 효과적으로 확장할 수 있으며, 여기서 장면은 배경만이 보여지는 이차 뷰잉 공간에 대해 고품질로 완전히 제시/렌더링된다. 실제로, 발명자들은, 이미지 품질 저하가, 더 가까운 전경 객체들에 대해서보다 배경 및 더 멀리 떨어진 객체들에 대해 더 작은 경향이 있으므로, 이차 뷰잉 공간의 인지된 품질이 여전히 높게 유지될 수 있다는 것을 인식하였다. 따라서, 뷰어가 뷰잉 영역으로부터 점점 더 멀리 이동함에 따라, 점점 더 불량한 품질의 전경 객체들을 렌더링하는 대신에, 이들은 비가시적이게 되지만, 배경, 및 따라서 일반적인 장면은 여전히 가시적이게 될 수 있다. 사용자는, 뷰어에 가까운 불량한 품질의 렌더링된 이미지들은 사라지지만 장면 전체는 여전히 남아 있고 여전히 충분한 품질인 경험을 제공받을 수 있다. 그러한 경험은 일부 응용들 및 시나리오들의 경우 사용자에게 부자연스러워 보일 수 있지만, 그것은 많은 실시예들 및 응용들에서 실질적으로 더 유리하고 종종 직관적인 사용자 경험을 제공할 수 있다. 사용자는 예를 들어, 전경 객체들이 사라지기 시작하는 것을 알아챌 때, 직관적으로 자신이 멀리 이동했음을 인식할 수 있고 다시 뷰잉 영역으로 이동하기 시작할 것이다. 또한, 일부 상황들에서, 사용자는 정확히 전경 객체 주위를 볼 수 있기 위해, 즉 그 뒤에 있는 객체들 또는 배경을 보기 위해, 뷰잉 영역으로부터 멀리 이동할 수 있다. 그러한 경우, 전경 객체가 투명하게 되고 사용자가 그것을 관통해 볼 수 있게 하는 것은 매우 바람직한 경험일 수 있다. 또한, 사용자가 원하는 뷰잉 영역으로부터 너무 멀리 이동할 때 저하된 품질의 문제를 해결하기 위한 다른 제안된 접근법들과 대조적으로, 이 접근법은, 사용자가 여전히 장면에서 자신의 위치에 대한 인지에서의 일관성을 경험할 수 있게 할 수 있고, 예를 들어 더 바람직한 위치로 내비게이팅할 수 있을 것이다. 이 접근법은 많은 시나리오들에서 더 몰입적인 경험을 제공할 수 있다.
뷰 합성 회로(205)는 제1 이미지 영역에 대한 투명도를 결정하고, 결정된 투명도를 갖는 제1 이미지 영역을 갖는 뷰 이미지를 생성하도록 배열된다. 따라서, 뷰 합성 회로(205)는, 깊이 표시 및 뷰 포즈와 제1 영역 사이의 거리에 응답하여 결정된 투명도로 생성되는 제1 이미지 영역을 갖는 뷰 이미지를 생성하도록 배열된다. 뷰 합성 회로(205)는, (적응된) 투명도를 결정하고 (적응된) 투명도를 제1 이미지 영역에 적용함으로써 뷰 이미지 내의 제1 이미지 영역의 투명도를 적응시킬 수 있다. (적응된) 투명도는 깊이 표시 및 뷰 포즈와 뷰잉 영역 사이의 거리에 응답하여 결정된다. 적응된 투명도는 구체적으로 제1 이미지 영역 내의 객체들/성분들/부분들에 대한 알파 값으로서 결정될 수 있고, 뷰 합성 회로(205)는 이러한 객체들/ 성분들/부분들에 대한 알파 값을 사용하여 뷰 이미지를 생성하도록 배열될 수 있다. 그러한 투명도/알파 값들에 기초하여 뷰 이미지를 생성하기 위한 알고리즘들은 당업자에게 알려져 있으며, 따라서 본 명세서에서 더 상세히 설명되지 않을 것임이 이해될 것이다.
따라서, 예를 들어 객체의 투명도는 상이한 거리들에 의존할 수 있다. 많은 실시예들에서, 깊이 표시에 대한 의존성은 뷰 포즈로부터 객체까지의 거리에 대한 의존성을 제공하는데, 즉 (뷰 포즈에 대한) 객체 거리가 투명도를 결정하는 데 사용된다. 또한, 뷰 포즈로부터 뷰잉 영역까지의 거리는 객체의 투명도를 적응시키는 데 사용될 수 있다. 따라서, (뷰잉 영역에 대한) 뷰 포즈의 변화를 반영하는 뷰 포즈 변화 거리가 또한 고려된다. 예를 들어, 캡처 영역에 대응하는 뷰잉 영역에 대해, 투명도는 객체 거리 및 뷰 포즈 변화 거리 둘 모두에 의존하여 적응된다. 그러한 고려사항들은 실질적으로 개선된 효과를 제공할 수 있다.
적응은 구체적으로, 투명도/반투명도가, 감소하는 객체 깊이/객체 거리에 대해 증가하고 뷰 포즈와 뷰잉 영역 사이의 증가하는 거리에 대해, 즉 증가하는 뷰 포즈 변화 거리에 대해 증가하도록, 수행될 수 있다.
상이한 고려사항들이 분리 불가능한 및/또는 비선형 및/또는 승법(multiplicative) 효과를 가질 수 있다. 예를 들어, 다음에 따른 적응이 적용될 수 있다:
Figure pct00002
깊이 표시 및 (뷰잉 영역에 대한) 뷰 포즈 거리에 대한 투명도의 의존성은 많은 실시예들에서 분리 불가능할 수 있고, 비선형 및/또는 승법적일 수 있다.
적응은 깊이 표시와 뷰잉 포즈 거리의 보강 조합일 수 있다. 구체적으로, 뷰 포즈와 뷰잉 영역 사이의 거리를 A로 나타내고 깊이 표시를 B로 나타내면, 제1 이미지 영역의 투명도에 대한 함수 f(A,B)는 다음 속성들을 가질 수 있다:
Figure pct00003
임의의 B에 대해 f(A, B)와 A 사이에 음이 아닌 상관관계가 있다
임의의 A에 대해 f(A, B)와 B 사이에 음이 아닌 상관관계가 있다
일부 B에 대해 f(A, B)와 A 사이에 양의 상관관계가 있다
일부 A에 대해 f(A, B)와 B 사이에 양의 상관관계가 있다.
이전 예들에서, 이미지 영역(들)은 수신된 3D 이미지 또는 메타데이터에 기초하여 결정된다. 이 예에서, 이미지 영역은 3D 입력 이미지에 참조할 수 있고, 구체적으로 가장 가까운 MVD 이미지와 같은 뷰 합성에 사용되는 이미지들 중 하나 내의 영역일 수 있다. 다른 실시예들에서, 이미지 영역은 예를 들어 출력 이미지에 참조될 수 있다. 예를 들어, 입력 3D 입력 이미지의 이미지 객체 또는 영역에 대해, 출력 이미지 내의 대응하는 영역은 객체 또는 영역의 깊이를 고려하여 결정될 수 있다. 예를 들어, 깊이에 대해 요구되는 시차 시프팅이 결정될 수 있고, 입력 이미지 또는 이미지들 내의 이미지 객체에 대응하는 출력 이미지 내의 이미지 영역이 결정될 수 있다. 전형적으로, 이미지 영역은 상이한 이미지들로부터의 병진들에 의해 계산된 가장 앞쪽의 픽셀들에 의해 채워질 것이지만(이것은 사람이 뷰잉 라인을 따라 보게 될 것이기 때문에), 현재 접근법에서 이 이미지 영역의 픽셀들 중 하나 이상의 투명도는 뷰 포즈와 뷰잉 영역 사이의 거리에 기초하여 적응될 수 있다. 구체적으로, 출력 뷰 이미지의 이미지 영역 내의 주어진 픽셀에 대해, 가장 앞쪽의 픽셀 값(또는 시차 시프팅 후 하나의 이미지만 픽셀을 제공하는 경우 유일한 픽셀)의 투명도는 픽셀에 의존한다.
이미지 영역은 3차원 입력 이미지의 입력 이미지 내의 이미지 영역일 수 있다. 이미지 영역은 3차원 멀티뷰 입력 이미지의 입력 이미지의 이미지 영역일 수 있다. 이미지 영역은 합성된 출력 뷰 이미지 내의 이미지 영역에 대한 가장 앞쪽의 픽셀들을 제공하는 3차원 입력 이미지의 입력 이미지 내의 이미지 영역일 수 있다. 이미지 영역은 합성된 출력 뷰 이미지 내의 주어진 픽셀 영역에 대응하는 입력 이미지 내의 이미지 영역일 수 있다.
픽셀들의 투명도는 구체적으로 알파 값일 수 있고, 따라서 적어도 하나의 픽셀에 대한 알파 값은 뷰 포즈와 뷰잉 영역 사이의 거리에 의존할 수 있다. 픽셀 값에 대한 투명도는 뒤쪽으로 더 먼 장면 객체들(배경을 포함함)이 보이는 정도를 반영할 수 있다. 구체적으로, 출력 뷰 이미지 내의 픽셀에 대해, 픽셀 값은 (전형적으로 시차 시프팅에 의해) 3D 입력 이미지로부터 생성된 가장 앞쪽의 픽셀 값과 뒤쪽으로 더 먼 픽셀 값의 조합으로서 생성될 수 있다. 뒤쪽으로 더 먼 픽셀 값은 (전형적으로 시차 시프팅에 의해 또는 인필링에 의해) 3D 입력 이미지로부터 생성된 픽셀 값일 수 있다. 뒤쪽으로 더 먼 픽셀 값은 배경 픽셀일 수 있다.
특정 예로서, 출력 뷰 이미지는 출력 뷰 이미지 내의 각각의 픽셀에 대해 뷰 입력 이미지들 각각 내의 대응하는 소스 픽셀을 찾음으로써 생성될 수 있다. 주어진 입력 이미지 내의 소스 픽셀은, 소스 이미지로부터 출력 뷰 이미지로의 뷰 포인트 시프트로부터 기인하는 시차 시프트 후 소스 픽셀이 출력 픽셀의 위치에 있게 되는 픽셀로서 결정될 수 있다. 일부 소스 이미지들의 경우, 그러한 픽셀이 존재하지 않을 수 있고(예컨대, 그것은 역폐색된 픽셀일 수 있음), 따라서 뷰 합성 회로(205)는 소스 이미지들의 수를 초과하지 않지만 더 작을 수 있는 소스 픽셀들의 수를 식별할 수 있다. 소스 픽셀들 각각은 깊이와 추가로 연관된다. 통상적으로, 가장 낮은 깊이를 갖는, 즉 소스 카메라에 가장 가까운 소스 픽셀이 선택될 것인데, 이는 이것이 가장 앞쪽에 있는 객체에 대응할 것이고 따라서 픽셀에 의해 표현된 뷰 방향에서 뷰 포즈로부터 뷰어에 의해 보이게 되는 것일 수 있기 때문이다. 그러나, 현재 접근법의 예에서, 뷰 합성 회로(205)는, 뷰 포즈가 뷰잉 영역 내에 속하는 경우(또는 이것의 임계 거리 내에 있는 경우) 이 접근법을 사용하도록 진행할 수 있지만, 그렇지 않은 경우 그것은 뒤쪽으로 가장 먼, 즉 뷰 포즈로부터 가장 멀리 있는 소스 픽셀을 선택하도록 진행할 수 있다. 전형적으로, 이 픽셀은 배경 픽셀일 것이다. 따라서, 이는 앞쪽으로 가장 먼 픽셀에 의해 표현된 객체를 완전히 투명하거나 비가시적이게 효과적으로 렌더링할 것이고, 이 객체를 제시하는 대신에, 배경이 제시될 것이다. 그러한 접근법에서, 소스 이미지 내의 이미지 영역은, 뷰 시프팅/워핑 후 주어진 출력 픽셀의 위치에 있는 픽셀로서 결정될 수 있다.
추가 고려사항들이 포함될 수 있다는 것이 이해될 것이다. 예를 들어, 소스 픽셀들의 세트가 모두 비-배경 객체들에 대응하는 경우(예를 들어, 그들의 거리가 임계치보다 작은 경우), 소스 픽셀들 중 어느 것도 출력 이미지에 적합하지 않은 것으로 결정될 수 있고, 대신에 예를 들어, 이웃 배경 픽셀들로부터 인필링함으로써 적합한 값이 발견될 수 있다.
따라서, 일부 예들에서, 뷰 합성 회로(205)는 출력 이미지의 적어도 제1 픽셀에 대해 입력 멀티뷰 이미지들의 이미지 영역들로부터의 다수의 후보 픽셀 값들 사이에서 선택하도록 배열될 수 있다. 이 예에서, 선택은 픽셀들에 대한 깊이에 기초할 수 있지만, 이는 뷰 포즈와 제1 뷰잉 영역 사이의 거리가 임계치 미만인지 여부에 의존할 수 있다. 만약 그렇다면, 뷰 합성 회로(205)는 앞쪽으로 가장 먼 픽셀을 선택하고, 그렇지 않은 경우 그것은 뒤쪽으로 가장 먼 픽셀을 선택한다.
뒤쪽으로 가장 먼 픽셀은 후방에 가장 가깝고/가깝거나 뷰 포즈로부터 가장 먼 깊이를 나타내는 깊이 값과 연관된 픽셀일 수 있다. 앞쪽으로 가장 먼 픽셀은 전방에 가장 가까운/뷰 포즈에 가장 가까운 깊이를 나타내는 깊이 값과 연관되는 픽셀일 수 있다. 뒤쪽으로 가장 먼 픽셀은 뷰 포즈로부터 가장 먼 픽셀일 수 있다. 뒤쪽으로 가장 먼 픽셀은 뷰 포즈에 가장 가까운 픽셀일 수 있다.
그러한 접근법은 기존의 접근법에 대한 수정이 낮은 복잡성 알고리즘을 가능하게 하는 매우 효율적인 구현을 제공할 수 있으며, 여기서 전경 객체들은 뷰 포즈가 뷰잉 영역으로부터 너무 멀리 이동할 때 비가시적이게 될/사라질 수 있다.
일부 실시예들에서, 뷰 합성 회로(205)는, 뷰 포즈와 뷰잉 영역 사이의 거리(이후로, 간결성을 위해 뷰 거리로 지칭됨)가 0일 수 있는 주어진 임계치를 초과하는 경우 이미지 영역이 완전히 투명한 채로 뷰 이미지를 생성하도록 배열될 수 있다. 따라서, 그러한 경우들에서, 뷰 합성 회로(205)는, 뷰잉 거리가 충분히 높은 경우 전경 객체들이 완전히 비가시적인/존재하지 않는 채로 뷰 이미지를 렌더링할 수 있다.
유사하게, 일부 실시예들에서, 뷰 합성 회로(205)는 추가적으로 또는 대안적으로, 뷰 거리가 임계치를 초과하지 않는 경우 이미지 영역이 불투명한 채로 뷰 이미지를 생성하도록 배열될 수 있다. 따라서, 그러한 경우들에서, 뷰 합성 회로(205)는, 뷰잉 거리가 충분히 낮은 경우 전경 객체들이 완전히 가시적인/존재하는 채로 뷰 이미지를 렌더링할 수 있다.
접근법들은, 뷰 거리가 임계치를 초과하는지 여부에 따라 전경 객체들이 완전히 존재하거나 완전히 부재하도록(완전히 불투명하거나 완전히 투명하도록) 조합될 수 있다.
이는 일부 실시예들에서 매우 바람직한 효과일 수 있으며, 예를 들어 사용자가 바람직한 포즈들로부터 너무 멀리 이동했으며 그가 뷰잉 영역을 향해 다시 이동해야 한다는 명확한 표시를 사용자에게 제공할 수 있다.
많은 실시예들에서, 뷰 합성 회로(205)는 투명도가 적용된 채로 제1 이미지 영역을 렌더링하기 위해 뷰 이미지를 생성하도록 배열되며, 여기서 투명도는 제1 이미지 영역에 대한 깊이 표시 및 뷰 포즈와 제1 영역 사이의 거리 둘 모두에 의존하여 결정된다.
투명도가 완전 불투명보다 작을 때, 뷰 이미지는 제1 이미지 영역에 대해 다른 시각적 요소에 대한 기여를 포함하도록 생성된다. 제1 이미지 영역을 표현하는 뷰 이미지의 픽셀들에 대한 픽셀 광 세기 값들은, 제1 이미지 영역의 적어도 하나의 시각적 요소로부터의 기여들과, 적어도 하나의 다른 시각적 요소로부터의 기여들의 가중된 조합으로서 생성될 수 있다. 다른 시각적 요소는 구체적으로 뷰 포즈로부터 제1 이미지 영역 뒤에 있는 객체(장면의 배경을 포함함)일 수 있다. 그러나, 일부 시나리오들에서, 적어도 하나의 다른 시각적 요소는 가능하게는, 특정 시각적 속성(예컨대, 흑색 또는 회색 배경)과 같은, 장면에 직접적으로 대응하지 않는 요소일 수 있다. 제1 이미지 영역의 시각적 요소(들)로부터의 기여에 대한 가중은 감소하는 투명도를 위해 증가할 수 있다. 제1 이미지 영역에 속하지 않는 시각적 요소(들)로부터의 기여에 대한 가중은 증가하는 투명도를 위해 증가할 수 있다.
따라서, 뷰 이미지는, 증가하는 투명도를 위해 제1 이미지 영역이 점점 더 투시적으로(see-through) 되는 채로 생성될 수 있다. 전형적으로, 증가하는 투명도는, 제1 이미지 영역 뒤의 장면이 부분적으로 가시적이 되도록, 뷰 이미지 내의 제1 이미지 영역의 "투시성(see-throughness)"을 증가시키는 효과를 제공할 것이다. 따라서, 전형적으로, 증가하는 투명도는 제1 이미지 영역 뒤의 장면 객체들이 제1 이미지 영역을 통해 점점 더 가시적이 되게 할 것이다. 구체적으로, 많은 실시예들에서, 장면의 배경은 제1 이미지 영역을 통해 점점 더 가시적이 될 수 있다.
일부 실시예들에서, 투명도는, 장면의 일부가 아니고 대신에 균일한 색상 또는 미리 결정된 텍스트와 같은, 고정된 또는 일정한 시각적 속성들을 갖는 요소들인 요소들로부터의 시각적 기여를 포함함으로써 생성될 수 있다.
따라서, 많은 실시예들에서, 투명도가 증가됨에 따라, 제1 이미지 영역은 점점 더 투시적이 되고 따라서 제1 이미지 영역의 객체(들)는 페이드 어웨이된다. 대부분의 실시예들에서, 이어서, 제1 이미지 영역 뒤에 있는 장면의 가시성은 가시적이 될 것이고, 따라서 제1 이미지 영역의 객체(들)는 그것의 뒤의 장면을 드러내기 위해 점진적으로 페이드될 것이다.
뷰 합성 회로(205)는 감소하는 투명도를 위해 제1 이미지 영역에 대응하는 뷰 이미지 내의 픽셀들(에 대한 광 세기 픽셀 값들)에 제1 이미지 영역으로부터의 (상대적) 기여를 증가시킴으로써 (적응된) 투명도를 적용하도록 배열될 수 있다.
대안적으로 또는 추가적으로, 뷰 합성 회로(205)는 증가하는 투명도를 위해 제1 이미지 영역에 대응하는 뷰 이미지 내의 픽셀들(에 대한 광 세기 픽셀 값들)에 제1 이미지 영역의 것이 아닌 요소들로부터 (상대적) 기여를 증가시킴으로써 (적응된) 투명도를 적용하도록 배열될 수 있다.
뷰 합성 회로(205)는 많은 실시예들에서, 증가하는 투명도를 위해 제1 이미지 영역 뒤의 3차원 장면의 일부가 점점 더 가시적이게 되도록, 뷰 이미지 내의 제1 이미지 영역의 투명도를 적응시키도록 배열될 수 있다.
뷰 합성 회로(205)는 많은 실시예들에서, 증가하는 투명도를 위해 제1 이미지 영역 뒤의 3차원 장면의 일부가 뷰 이미지에 대한 증가하는 기여를 제공하도록, 뷰 이미지 내의 제1 이미지 영역의 투명도를 적응시키도록 배열될 수 있다. 일부 실시예들에서, 뷰 거리가 현재 임계치 초과 또는 미만인지에 따라 임계치가 적응되도록 히스테리시스가 포함될 수 있다. 따라서, 불투명한 객체들을 투명으로 전환하기 위해, 사용자는 뷰 거리를 주어진 제1 값 미만으로부터 그 초과로 증가시키기 위해 이동하도록 요구되고, 투명한 객체들을 불투명으로 전환하기 위해, 사용자는 뷰 거리를 주어진 제2 값 초과로부터 그 미만으로 감소시키기 위해 이동하도록 요구되며, 여기서 제1 값은 제2 값보다 높다. 그러한 접근법은, 전경 객체들이 존재하거나 존재하지 않는 것으로 인지되는 것 사이에서 깜박이는 핑퐁 효과를 피할 수 있다.
따라서, 일부 실시예들에서, 거리의 함수로서의 투명도는 뷰잉 포즈의 변화들에 대한 히스테리시스를 포함할 수 있다.
히스테리시스는 비율(rate) 독립적인 히스테리시스일 수 있다. 거리의 함수로서의 투명도는 히스테리시스 루프일 수 있다. 투명도의 값들은 거리의 변화의 방향에 의존할 수 있다. 일부 실시예들에서, 뷰 합성 회로(205)는 이미지 영역 및 구체적으로 전경 객체들의 투명도에서의 보다 점진적인 변동을 갖는 뷰 이미지들을 생성하도록 배열될 수 있다. 예를 들어, 일부 실시예들에서, 투명도(이 분야에서 종종 알파 값에 의해 표현됨)는 증가하는 뷰 거리에 대해 점진적으로 증가될 수 있다. 투명도는 뷰 거리의 단조 증가 함수일 수 있다.
부분적으로 투명한 객체들을 생성하는 그러한 접근법은 이진 접근법과 조합될 수 있다. 예를 들어, 단지 단일 뷰잉 영역이 결정되는 대신에, 2개의 뷰잉 영역이, 하나가 다른 하나 내에 있는 것으로서, 결정될 수 있다. 그러한 실시예에서, 뷰 이미지는, 이미지 영역들이, 뷰 포즈가 내측 뷰잉 영역 내부에 있는 경우 불투명한 채로 그리고 뷰 포즈가 외측 뷰잉 영역 외부에 있는 경우 완전히 투명한 채로, 생성될 수 있다. 2개의 영역들 사이의 뷰어 포즈들의 경우, 투명도는 내측 뷰잉 영역에 대한 거리의 단조 증가 함수로서 점진적으로 증가될 수 있다(또는 동등하게 외측 뷰잉 영역에 대한 거리의 단조 증가 함수로서 점진적으로 감소될 수 있다). 그러한 접근법은, 뷰어가 이동함에 따라 객체들이 즉각적으로 나타나거나 사라지지 않고 오히려 중간 영역을 통해 점진적으로 전이하는, 점진적 사용자 경험을 제공할 수 있다. 그러한 접근법에서, 객체들은 점진적으로 나타날/사라질 수 있으며, 이는 예를 들어, 그 효과로 인해 뷰잉 불편함이 경험되는 경우에 완화시킬 수 있다.
일부 실시예들에서, 주어진 양보다 많이 뷰잉 영역을 초과하는 뷰 포즈는 몰입형 비디오 장면의 배경만이 시각화되는 결과를 야기할 수 있다. 이와 같이, 뷰어는 몰입감을 유지할 수 있다. 이를 위해 전경 객체들은 이용가능할 때에는 배경으로 대체하거나 또는 그렇지 않을 때에는 인페인팅될 수 있다.
이 접근법은, 장면이 완전히 렌더링/합성되는 일차 뷰잉 영역을 배경만이 렌더링/합성되는 이차로 확장할 수 있다. 이차 뷰잉 영역은, 일차보다 더 크지만, 깊이-맵들이 뷰-합성에 관여되므로 또한 제한될 수 있다.
따라서, 일부 실시예들에서, 뷰 거리가 임계치를 초과하는 경우, 장면은 예컨대 더 이상 제시되지 않을 수 있다. 예를 들어, 이전에 설명된 종래 기술의 모드들 중 하나가 이러한 상황에서 적용될 수 있다.
위의 예들에서, 이 접근법은 하나의 뷰잉 영역과 관련하여 주로 설명되었지만, 언급된 바와 같이, 접근법은 상이한 이미지 영역들에 개별적으로 적용될 수 있다. 상이한 이미지 영역들에 대해 상이한 뷰잉 영역들이 결정될 수 있다. 예를 들어, 깊이에 따라, 이미지 영역들은 미리 결정된 카테고리들의 세트로 분류될 수 있으며, 이때 이들 각각은 상이한 크기의 이미지 영역과 연관된다.
이 접근법은 구체적으로, 뷰 포즈가 일차 뷰잉 공간을 넘어서는 경우, 전경 객체들이, 이용가능할 때에는 배경으로 대체되고 그렇지 않을 때에는 인페인팅되도록 구현될 수 있다. 누락된 데이터의 인페인트 영역들의 크기는 클 수 있다. 이는 전경 객체들의 크기 및 다른 뷰들에서의 배경 정보의 이용가능성에 의존한다. 일부 실시예들에서, 다른 뷰들로부터 이용가능한 상당한 배경을 갖는 전경 객체들만이 제거되는데, 즉, 투명도는, 데이터가 역폐색에 이용가능한지 여부에 의존할 수 있다. 그러한 전경 객체들은 전형적으로 가장 작은 객체들이고, 앞쪽으로 가장 멀다/가장 앞에 있다. 인페인팅된 영역들은 배경의 약간의 블러링의 인지를 야기할 수 있다. 그러나, 그러한 블러링은 미미하거나 허용가능할 수 있으며 전형적으로 시간적으로 안정적일 수 있다. 배경의 약간의 블러링이 발생할 수 있더라도, 임의의 시각적 왜곡들은 기존의 접근법들보다 덜 방해가 되는 것으로 인지된다는 것이 밝혀졌다.
많은 실시예들에서, 뷰잉 영역은 상이한 파라미터들, 특히 합성 동작의 품질에 영향을 미치는 파라미터들에 동적으로 의존할 수 있다. 예를 들어, 3D 입력 이미지에서 제공되는 데이터가 더 많을수록, 주어진 뷰 포즈에 대해 합성될 수 있는 뷰 이미지의 품질은 더 양호하고, 그에 따라 품질 저하는 더 낮아질 수 있다. 일부 실시예들에서, 뷰 영역 회로(211)는, 품질에 영향을 미치는 파라미터에 따라 뷰잉 영역을 적응시키도록, 그리고 구체적으로 뷰잉 영역의 크기 및 형상 중 적어도 하나를 적응시키도록 배열된다.
많은 실시예들에서, 이미지 영역에 대한 뷰잉 영역은 이미지 영역에 대한 뷰 시프트 감도/뷰 포즈 변화 감도에 의존할 수 있다. 이미지 영역에 대한 뷰 시프트 감도/뷰 포즈 변화 감도는, 이미지 영역이, 뷰 시프트/뷰 포즈 변화 합성을 수행하는 것으로부터 기인하는 왜곡에 얼마나 민감한지를 반영할 수 있다. 이미지 영역에 대한 뷰 포인트 변화 감도는 뷰 포즈의 변화에 대한 이미지 영역의 감도를 나타낼 수 있다.
이는 동작을 정제하는 데 사용될 수 있다. 예를 들어, 카메라에 비교적 가깝고 비교적 복잡한 객체는 비교적 멀고 평평한 객체보다 더 작은 뷰잉 영역을 가질 수 있다.
일부 실시예들에서, 뷰 영역 회로(211)는 이미지 영역/객체에 대한 깊이 표시에 따라 이미지 영역/ 객체에 대한 뷰잉 영역을 적응시키도록 배열된다. 구체적으로, 뷰 영역 회로(211)는 뷰잉 영역에 대한 깊이 표시에 응답하여 이미지 영역에 대한 뷰잉 영역의 형상 및 크기 중 적어도 하나를 적응시키도록 배열될 수 있다.
많은 실시예들에서, 이미지 영역의 크기는, 깊이 표시가 이미지 영역이 뒤쪽으로 더 멀리 있음을 나타낼수록, 증가될 수 있다. 예를 들어, 뷰 포즈에 비교적 가까운 객체에 대한 뷰잉 영역은 뷰 포즈로부터 비교적 멀리 있는 객체에 대한 뷰잉 영역보다 더 작다. 따라서, 객체가 전경에 더 가까울수록, 전경 객체가 비가시적이 되기 전에 뷰잉 영역은 더 작아지고 따라서 뷰 포즈의 움직임은 더 작아진다.
전형적으로, 품질 저하는 객체가 뷰어에 가까울수록 증가할 수 있고, 따라서 뷰잉 영역을 깊이 표시에 적응시킴으로써, 품질 저하를 반영하기 위해 객체들의 투명도가 더 유연하게 적응되는, 더 점진적인 사용자 경험이 달성될 수 있다.
일부 실시예들에서, 주어진 이미지 영역에 대한 뷰 영역, 구체적으로 뷰잉 영역의 크기 및/또는 형상은 이미지 영역의 형상 복잡성에 의존한다. 일부 실시예들에서, 뷰 영역 회로(211)는 형상 복잡성 척도에 응답하여 제1 뷰잉 영역의 형상 및 크기 중 적어도 하나를 적응시키도록 배열된다.
뷰 합성의 뷰 시프팅 부분은 더 복잡한 형상들에 대해서보다 이미지 영역/객체의 단순한 형상들에 대해 더 적은 왜곡들을 도입하는 경향이 있다. 예를 들어, 단순한 형상들은 이웃하는 픽셀들 사이에 더 큰 일관성을 갖고, 복잡한 형상들보다 더 적은 역폐색을 갖는 경향이 있다. 따라서, 이미지 영역에 대한 뷰잉 영역의 크기는 증가하는 형상 복잡성에 대해 증가될 수 있다.
형상 복잡성은 상이한 실시예들에서 상이한 척도들에 따라 결정될 수 있다. 예를 들어, 형상 복잡성은 대수적 복잡성일 수 있다. 예를 들어, 형상 복잡성은 뷰잉 영역이 얼마나 많은 면들에 의해 표현되는지, 그러한 면들 사이의 각도들 등에 의존하여 결정될 수 있다.
일부 실시예들에서, 이미지 영역에 대한 뷰잉 영역은 이미지 영역에 대한 시차 변동 척도에 의존할 수 있다. 뷰 합성 회로(205)는 이미지 영역에 대한 시차 변동 척도에 응답하여 이미지 영역에 대한 뷰잉 영역의 형상 및 크기 중 적어도 하나를 적응시키도록 배열될 수 있다. 시차 변동 척도는 주어진 뷰포인트 시프트에 대한 이미지 영역의 픽셀들에 대한 시차의 변동을 나타낼 수 있다. 시차 변동 척도는 구체적으로 이미지 영역에 대한 깊이 변동 척도일 수 있다.
뷰 영역 회로(211)는, 예를 들어, 이미지 영역 내의 큰 시차 또는 깊이 변동에 대해 더 작도록 뷰잉 영역을 결정하도록 배열될 수 있다. 깊이에 있어서, 따라서 뷰 포인트 시프트를 수행할 때 요구되는 시차에 있어서 큰 변동이 있는 경우, 왜곡들 또는 부정확성들이 도입될 가능성은 더 높을 수 있다. 이는 예를 들어 더 많은 역폐색을 야기할 수 있다. 따라서, 주어진 이미지 영역에 대한 시차 또는 깊이 변동이 클수록, 뷰잉 영역은 더 작을 수 있고, 따라서 이미지 영역이 투명해지기 시작하기 전에 뷰 포즈의 변동은 더 작다.
뷰 영역 회로(211)는 뷰잉 영역에 대해 제공된 깊이 정보의 깊이 품질에 기초하여 이미지 영역에 대한 뷰잉 영역을 결정하도록 배열될 수 있다. 객체의 깊이 품질은, 객체가 제1 (실제) 카메라 뷰로부터 제2 (실제) 카메라 뷰로 얼마나 잘 재-투영될 수 있는지의 표시일 수 있다. 예를 들어, (낮은 형상 복잡성을 갖는) 바닥 표면은 높은 깊이 품질을 가질 가능성이 있을 것이다. 깊이 품질은 많은 실시예들에서 결정하기가 비교적 쉬울 수 있다. 예를 들어, MVD 표현의 입력 이미지의, MVD 표현의 다른 입력의 위치로의 뷰 시프트는 입력 이미지에 대한 깊이 데이터에 기초하여 수행될 수 있다. 이미지 영역에 대한 결과는 MVD 표현의 입력 이미지 내의 대응하는 데이터와 비교될 수 있고, 깊이 품질은 이 비교에 기초할 수 있다. 합성된 이미지가 입력 이미지에 가까울수록, 깊이 품질은 더 높다.
이미지 영역에 대한 뷰잉 영역은 3차원 이미지 데이터에 포함되는 이미지 영역에 대한 역폐색 데이터의 양에 의존할 수 있다. 많은 실시예들에서, 뷰 영역 회로(211)는 수신된 3D 데이터에서 이미지 영역에 대해 얼마나 많은 역폐색 데이터가 이용가능한지에 따라 이미지 영역에 대한 뷰잉 영역의 형상 및 크기 중 적어도 하나를 적응시키도록 배열될 수 있다.
예를 들어, 수신된 3D 이미지 데이터가 캡처 포즈로부터의 이미지 영역을 실질적으로 상이한 각도에서 뷰잉하는 다른 이미지를 포함하는 경우, 이는 개선된 역폐색을 허용할 수 있는 상당한 추가 데이터를 제공할 수 있다. 이용가능한 역폐색 데이터가 많을수록, 뷰잉 영역은 더 크게 만들어질 수 있다. 이는, 이용가능한 역폐색 데이터가 많을수록, 뷰 시프트로부터 저하가 발생할 가능성이 더 적다는 것을 반영한다.
멀티뷰 표현의 입력 이미지 내의 이미지 영역에 대한 역폐색 데이터의 양은, 예를 들어, 입력 이미지에 대한 캡처 포즈로 표현의 모든 상이한 뷰 이미지들의 뷰 시프트를 수행함으로써 결정될 수 있다. 이어서, 그러한 뷰 합성에 의해 결정된 이미지 영역에 대한 데이터, 구체적으로 깊이는, 원래의 이미지 영역과 비교될 수 있다. 차이가 높을수록, 더 많은 역폐색 데이터가 존재하는 것으로 간주될 수 있는데, 이는, 차이들이, 상이한 이미지들이 현재 입력 이미지 포즈로부터의 가시선 내에 있는 상이한 객체들을 캡쳐했음을 반영할 수 있기 때문이다.
일부 실시예들에서, 이용가능한 역폐색 데이터가 많을수록, 뷰잉 영역은 더 작게 만들어질 수 있다. 이는, 이용가능한 역폐색 데이터가 많을수록, 배경에 대한 정확한 뷰를 생성하는 것이 더 쉬울 것이고, 따라서 전경 이미지 영역/객체의 제거 후 제시된 장면의 품질은 더 높다는 것을 반영할 수 있다.
실제로, 역폐색 데이터가 이용가능하지 않은 경우 역폐색은 인페인팅을 요구할 수 있으므로, 전경 객체를 비가시적이게 만드는 렌더링에 대해 품질 저하가 또한 발생할 수 있다. 이는 예를 들어 전경 객체들의 크기 및 다른 뷰들에서의 배경 정보의 이용가능성에 의존한다. 일부 실시예들에서, 다른 뷰들로부터 이용가능한 상당한 배경을 갖는 전경 객체들만이 제거될 수 있다. 따라서, 역폐색 데이터가 이용가능하지 않은 경우, 매우 큰(그리고 가능하게는 무한한) 뷰잉 영역이 생성될 수 있는 반면, 역폐색 데이터가 전경 객체의 부재 시 배경을 합성하는 데 이용가능한 경우, 작은 뷰잉 영역이 결정될 수 있다. 이들은 전형적으로 가장 작은 객체들이고, 가장 앞에 있다.
뷰잉 영역이 어떻게 적응될 수 있는지의 위의 예들은 또한 뷰 거리에 대한 투명도의 의존성에 적용될 수 있고, 즉, 따라서 함수는 또한 뷰잉 영역 결정에 영향을 주기 위해 전술된 파라미터들 중 임의의 것에 의존할 수 있다.
일부 실시예들에서, 설명된 바와 같은 뷰 합성 장치는 이미지 영역들을 결정하고, 그리고 예컨대 수신된 데이터를 전경 및 배경 이미지 영역들로 분할하기 위한 동작들을 수행할 수 있다. 유사하게, 이전 설명에서, 상이한 이미지 영역들에 대한 뷰잉 영역들을 결정하기 위한 동작들이 수행된다. 그러나, 일부 실시예들에서, 수신된 입력 데이터는 이미지 영역들 및/또는 뷰잉 영역들을 설명하는 데이터를 포함할 수 있다.
예를 들어, 도 2의 뷰 합성 장치는 디코더 기반 구현예일 수 있고, 입력 데이터는 인코더로부터 수신될 수 있다. 3D 이미지 데이터를 제공하는 것에 더하여, 이미지 데이터 스트림은 입력 이미지들 중 적어도 하나에 대해 이미지 영역들을 설명하는 추가 데이터를 포함할 수 있다.
예를 들어, 수신된 3D 이미지 데이터는 주어진 입력 이미지(예를 들어, 멀티뷰 표현)에 대해, 각각의 픽셀에 대해 픽셀이 전경 픽셀인지 또는 배경 픽셀인지를 나타내는 이미지 영역 맵을 포함할 수 있다. 다른 실시예들에서, 3D 이미지 데이터는 예를 들어 각각의 비-배경 픽셀에 대해 픽셀이 속하는 이미지 영역의 아이덴티티를 표시할 수 있다.
그러한 실시예들에서, 이미지 영역 회로(207)는 수신된 데이터 표시들에 응답하여 이미지 영역들을 결정하도록 배열될 수 있다. 예를 들어, 그것은 각각의 전경 픽셀이 이미지 영역인 것으로 간주할 수 있다. 다른 예로서, 그것은 인접 전경 픽셀들의 세트를 이미지 영역으로 그룹화할 수 있다. 수신된 데이터가 이미지 영역의 식별을 포함하는 경우, 이미지 영역 회로(207)는 동일한 식별이 제공되는 픽셀들을 이미지 영역으로 그룹화할 수 있다.
일부 실시예들에서, 수신된 3D 데이터는 적용되어야 하는 뷰잉 영역의 표시를 포함할 수 있다. 뷰잉 영역은 모든 이미지 영역들/객체들에 적용되어야 하는 고정된 뷰잉 영역일 수 있거나, 예를 들어, 상이한 이미지 영역들에 대해 또는 이미지 영역들과 연관된 상이한 속성들에 대해 상이한 뷰잉 영역들이 정의될 수 있다.
그러한 경우, 뷰 영역 회로(211)는 뷰잉 영역의 수신된 표시에 응답하여 뷰잉 영역을 결정할 수 있다. 예를 들어, 그것은 단순히 수신된 데이터에 정의된 뷰잉 영역을 사용할 수 있다.
그러한 정보를 포함하는 데이터 스트림들을 사용하는 것의 이점은 그것이 디코더 측에서의 복잡성 및 자원 수요를 실질적으로 감소시킬 수 있다는 것이다. 이는 예를 들어, 데이터가 많은 디코더들에 분산되고 따라서 중앙집중식 동작이 전체 자원 수요를 감소시킬 수 있고 상이한 사용자들에게 일관된 경험을 제공할 수 있는 실시예들에서 중요할 수 있다. 전형적으로, 제어를 위한 더 많은 정보 및/또는 옵션들이 또한 인코더 측에서 이용가능할 수 있다. 예를 들어, 뷰잉 영역들 또는 이미지 영역들의 수동 결정이 실용적일 수 있다.
많은 실시예들에서, 인코더와 같은 이미지 신호 장치는, 3D 이미지 데이터를 포함하고 추가로 렌더링을 위한 설명된 접근법이 적용되어야 하는지 여부를 나타내는 데이터 필드/플래그를 포함하는 이미지 신호를 생성하도록 배열될 수 있다.
따라서, 이미지 신호 장치는, 3차원 장면의 적어도 일부를 설명하는 3차원 이미지 데이터; 및 3차원 이미지 데이터의 렌더링이, 3차원 이미지 데이터의 이미지의 이미지 영역에 대한 깊이 표시 및 렌더링된 이미지에 대한 뷰 포즈와 이미지 영역에 대한 뷰잉 영역 사이의 거리에 응답하여, 렌더링된 이미지 내의 이미지 영역에 대한 투명도를 적응시키는 것을 포함해야 하는지 여부를 나타내는 데이터 필드를 포함하는 이미지 신호를 생성할 수 있다.
구체적인 예로서, 설명된 접근법은 MPEG 몰입형 비디오(MIV) 표준 ISO/IEC JTC1 SC29 WG11 (MPEG) N19212의 5번째 작업 초안에서 제공된 가능한 모드들의 목록에 추가 동작 모드로서 추가될 수 있으며, 뷰잉-공간 외부의 그러한 움직임을 취급하기 위한 제안들을 포함한다. 예를 들어, 할당되지 않은 값에 대한 모드 ID 비트들(예컨대, 7 내지 63)은 하나 이상의 전경 객체들을 투명하게 만드는 설명된 접근법이 채용될 수 있음을 나타내기 위해 사용될 수 있다.
언급된 바와 같이, 일부 실시예들에서, 이미지 영역 결정은 합성 장치(디코더) 또는 이미지 신호 장치(인코더)에서의 처리에 기초할 수 있다. 디코더에서 그렇게 하는 것은 디코딩을 더 (계산적으로) 비싸게 만든다. 인코더에서 그렇게 하는 것은 더 실현 가능하지만, 배경 영역들에 대한 정보가 디코더로 전송될 것을 요구한다. 바람직한 트레이드오프는 실시예에 의존할 수 있다.
하기에서, 이미지를 전경(FG) 및 배경(BG)으로 이진 분리하는 것에 기초하고 이미지 영역들이 FG 영역들/픽셀들에 대응하는 구체적인 접근법이 설명될 것이다. 구체적 예에서, FG 및 BG로의 세그멘테이션은 인코더 측에서 수행된다.
이 접근법은 하기 단계들을 따른다:
1. 소스-뷰 당 조밀한 FG/BG 세그멘테이션을 계산한다. 그 결과, 색상 및 깊이 속성들 다음으로, 각각의 픽셀은 FG 또는 BG 라벨을 갖는다.
2. a) MIV '엔티티' 확장이 FG/BG 세그멘테이션 맵을 디코더로 전송하는 데 사용될 수 있다. 그렇게 하기 위해, MIV 인코더는 추가 입력으로서 획득된 픽셀 당 FG/BG 세그멘테이션을 포함하는 이진 엔티티 맵을 수신할 수 있다. 이어서 생성된 비트스트림은 직사각형 텍스처 아틀라스 패치마다, 엔티티 ID(예를 들어, '배경' 라벨) 및 '점유(occupancy)'를 통해 픽셀 레벨에 대한 그 라벨의 정제를 식별하는 메타데이터를 갖는다. 이는 디코더가 세그멘테이션 맵을 재구성할 수 있게 한다.
b) 대안적으로, 새로운 '배경' 플래그가 구체적으로 이러한 목적을 위해 표준에 추가된다.
3. 배경 뷰잉을 위한 제2 뷰잉 공간은 비트스트림 메타데이터에 넣어진다. MIV 표준은 현재 다수의 뷰잉 공간들을 지원하지 않는다. 그러나, 그것은 'guard_band_size'가 (일차) 뷰잉 공간에 대해 특정될 수 있게 한다. 이는 더 큰 이차 뷰잉 공간을 효과적으로 산출하지만, 일차 뷰잉 공간(뷰잉 영역)과 동일한 형상을 갖는다. 대안적으로, MIV 표준에 대한 수정이 다수의 뷰잉 공간들을 가능하게 하기 위해 채용될 수 있거나 또는 비-표준화된 방식이 선택되어야 한다.
디코더에서, 조밀한 FG/BG 라벨들은 디코딩된 비트스트림으로부터 재구성되고, 프리미티브들(예컨대, 삼각형들)을 렌더링하는 정점들에 부착된다. 뷰-합성을 위해 예컨대 OpenGL을 사용할 때, 라벨들은 '텍스처'에 넣어지고 정점-셰이더에 의해 샘플링될 수 있다. 선택적으로, 정점-셰이더는 속성으로서 세그멘테이션 라벨을 정점에 부착할 수 있다. 뷰어가 뷰잉-공간 경계를 넘어서 이동할 때: FG 라벨을 갖는 모든 정점들은 유효 클립-공간 외부에서 그들의 출력 값을 설정함으로써 직접 폐기되거나; 또는, 부착된 세그멘테이션 라벨은 이후 단계에서 그것을 거기에서 폐기하는 데 사용된다. (지오메트리 및 프래그먼트 셰이더들은 프리미티브들을 폐기하는 직접적인 수단을 갖는다). 뷰-합성 프로세스에서 전경 객체들을 폐기하는 것은 누락된 데이터의 크기를 증가시킬 가능성이 있을 것이다. 그 누락된 데이터를 인페인팅하는 프로세스는 일반 디코딩 프로세스에서 이미 이용가능하며 추가로 설명되지 않을 것이다.
이미지를 전경 및 배경으로 세그멘테이션하기 위해(FG/BG 세그멘테이션) 상이한 접근법들이 사용될 수 있다. 그 프로세스의 핵심에는 연결성 메트릭, 즉 이웃하는 픽셀들이 어떻게 연결되는지를 반영하는 메트릭이 있을 수 있다. 일 예에서, 세계 좌표 공간 거리(미터)가 이러한 목적을 위해 사용될 수 있다. 각각의 픽셀은 - 깊이-맵을 사용하는 것을 통해 -, 세계 공간(x,y,z) 좌표를 갖는다. 2개의 이웃하는 픽셀이 특정 임계치(예컨대, 깊이-맵 품질에 따라, 2 cm) 미만인 거리를 가질 때, 그것들은 연결된 것으로 간주된다. 그들 자신 또는 바닥 표면에만 연결되는 픽셀들의 클러스터들(영역들)인 별개의 객체들을 정의한다.
FG/BG 세그멘테이션을 수행하기 위해 하기 단계들이 사용될 수 있다:
1. 바닥 표면을 찾는다. 이 실시예에서, 선택된 세계 좌표계의 z-성분(높이)이 바닥 표면에 직교한 것으로 예상한다. 그렇지 않은 경우, 그렇게 만들기 위해 추가 단계가 수행될 수 있다. 이미지 내의 모든 픽셀에 대해, z-성분(높이)의 가장 작은 값('z-floor')을 찾는다. 이를 강력하게 수행하기 위해, 예를 들어 가장 작은 z-값들의 1-백분위수의 평균이 취해진다. 'z-floor'에 가까운 z-값을 갖는 이미지 내의 모든 픽셀을 라벨링한다. 이 목적을 위해 임계치(연결성 임계치와 동일할 수 있음)가 사용된다.
2. 이미지에서 라벨링되지 않은 픽셀들에 대해, 연결 성분 분석을 수행한다.
3. 배경 데이터가 다른 소스 뷰들로부터 이용가능한 전경 픽셀들의 영역들을 의미하는 '이용가능한 은닉 층들'의 영역들을 찾는다. 특정 소스 뷰에 대해 이들을 찾기 위해: 그 소스 뷰의 깊이-맵은 모든 다른 이용가능한 소스 뷰들로부터 합성된다. 이제 역방향(reversed) z-버퍼링(OpenGL: glDepthFunc(GL_TRUE))만을 이용하며, 이는 합성 프로세스에서 배경에 우선순위가 주어지는 것을 의미한다. 일반 뷰-합성의 경우, 우선순위는 전경에 주어진다. 역방향 z-버퍼링을 사용함으로써, 합성 결과는 모든 이용가능한 배경을 포함한다. 그것은 많은 전경 객체들이 사라졌거나 배경에 의해 침식되는 왜곡된 이미지이다. 그것은 분석용으로만 사용되는데: 원래의 깊이-맵과 역으로 합성된 것 사이의 차이를 슬라이싱(임계처리)함으로써, 이용가능한 은닉 층을 갖는 전경 영역들이 - 이진 픽셀-맵을 통해 - 식별된다.
4. 유의한 은닉 층 부분을 갖는 성분들은 '전경'으로 분류된다. 이어서, 유의성은 '이용가능한 은닉 층'을 갖는 연결 성분의 면적을 그 성분의 전체 면적으로 나눔으로써 결정된다. 그 분수가 클수록, 그것이 전경 객체임을 나타내는 그 성분에 의해 더 많은 배경이 폐색된다. 선택적으로 '전경' 분류에는, 그들을 다른 전경 객체들로부터 구분하기 위해 그것의 성분 번호가 덧붙여질 수 있다.
5. 분류되지 않은 픽셀들은 '배경'으로 분류된다.
본 발명은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 조합을 포함한 임의의 적합한 형태로 구현될 수 있다. 본 발명은 선택적으로 하나 이상의 데이터 프로세서 및/또는 디지털 신호 프로세서 상에서 실행되는 컴퓨터 소프트웨어로서 적어도 부분적으로 구현될 수 있다. 본 발명의 실시예의 요소들 및 컴포넌트들은 임의의 적합한 방식으로 물리적으로, 기능적으로 그리고 논리적으로 구현될 수 있다. 실제로 기능은 단일 유닛에서, 복수의 유닛에서, 또는 다른 기능 유닛들의 일부로서 구현될 수 있다. 그렇기 때문에, 본 발명은 단일 유닛에서 구현될 수 있거나, 상이한 유닛들, 회로들 및 프로세서들 간에 물리적으로 그리고 기능적으로 분산될 수 있다.
이 분야에서의 표준 용어에 따라, 용어 '픽셀'은 픽셀과 연관된 속성, 예컨대 픽셀에 의해 표현된 장면의 부분/요소의 광 세기, 깊이, 위치를 지칭하는 데 사용될 수 있다. 예를 들어, 픽셀의 깊이, 또는 픽셀 깊이는 그 픽셀에 의해 표현되는 객체의 깊이를 지칭하는 것으로 이해될 수 있다. 유사하게, 픽셀의 밝기, 또는 픽셀 밝기는 그 픽셀에 의해 표현되는 객체의 밝기를 지칭하는 것으로 이해될 수 있다.
본 발명이 일부 실시예들과 관련하여 설명되었지만, 본 발명은 본 명세서에 기재된 특정 형태로 제한되도록 의도되지 않는다. 오히려, 본 발명의 범위는 첨부된 청구항들에 의해서만 제한된다. 또한, 소정 특징이 특정 실시예들과 관련하여 설명되는 것처럼 보일 수 있지만, 당업자는 설명된 실시예들의 다양한 특징들이 본 발명에 따라 조합될 수 있음을 인식할 것이다. 청구항들에서, 용어 '포함하는'은 다른 요소들 또는 단계들의 존재를 배제하지 않는다.
또한, 개별적으로 열거되지만, 복수의 수단, 요소, 회로 또는 방법 단계는 예를 들어 단일 회로, 유닛 또는 프로세서에 의해 구현될 수 있다. 또한, 개개의 특징들이 상이한 청구항들에 포함될 수 있지만, 이들은 아마도 유리하게 조합될 수 있으며, 상이한 청구항들에의 포함은 특징들의 조합이 실현 가능하지 않고/않거나 유리하지 않다는 것을 암시하지 않는다. 또한 하나의 카테고리의 청구항들에의 소정 특징의 포함은 이 카테고리로의 제한을 암시하는 것이 아니라, 오히려 그 특징이 적절한 바에 따라 다른 청구항 카테고리들에 동등하게 적용될 수 있음을 나타낸다. 또한, 청구항들에서의 특징들의 순서는 특징들이 작용되어야 하는 임의의 특정 순서를 암시하지 않으며, 특히 방법 청구항에서의 개별 단계들의 순서는 단계들이 이 순서대로 수행되어야 함을 암시하지 않는다. 오히려, 단계들은 임의의 적합한 순서로 수행될 수 있다. 또한, 단수형 언급은 복수를 배제하지 않는다. 이에 따라 "부정관사(a, an)", "제1", "제2" 등에 대한 언급은 복수를 배제하지 않는다. 청구항들에서의 참조 부호들은 단지 명료화 예로서 제공되며, 어떤 방식으로도 청구항들의 범위를 제한하는 것으로 해석되지 않아야 한다.
일반적으로, 이미지 합성 장치, 이미지 신호, 이미지 합성 방법, 및 그 방법을 구현하는 컴퓨터 프로그램의 예들이 아래의 실시예들에 의해 명시된다.
실시예들:
실시예 1. 이미지 합성 장치로서,
3차원 장면의 적어도 일부를 설명하는 3차원 이미지 데이터를 수신하도록 배열된 제1 수신기(201);
3차원 데이터 내의 적어도 제1 영역을 결정하도록 배열된 이미지 영역 회로(207);
3차원 이미지 데이터의 깊이 데이터로부터 제1 이미지 영역에 대한 깊이 표시를 결정하도록 배열된 깊이 회로(209);
제1 이미지 영역에 대한 제1 뷰잉 영역을 결정하도록 배열된 뷰잉 영역 회로(211);
뷰어에 대한 뷰 포즈를 수신하도록 배열된 제2 수신기(203);
3차원 이미지 데이터로부터 뷰 이미지를 생성하도록 배열된 뷰 합성 회로(205)로서, 뷰 이미지는 뷰 포즈로부터의 3차원 장면의 뷰를 표현하는, 뷰 합성 회로(205)를 포함하며; 여기서,
뷰 합성 회로(205)는 깊이 표시 및 뷰 포즈와 제1 뷰잉 영역 사이의 거리에 응답하여 뷰 이미지 내의 제1 이미지 영역에 대한 투명도를 적응시키도록 배열된다.
실시예 2. 실시예 1에 있어서, 뷰 합성 회로(205)는 거리가 임계치를 초과하는 경우 이미지 영역이 완전히 투명한 채로 뷰 이미지를 생성하도록 배열되는, 이미지 합성 장치.
실시예 3. 실시예 2에 있어서, 뷰 합성 회로(205)는 거리가 임계치를 초과하지 않는 경우 이미지 영역이 완전히 투명하지 않은 채로 뷰 이미지를 생성하도록 배열되는, 이미지 합성 장치.
실시예 4. 실시예 2에 있어서, 뷰 합성 회로(205)는 거리가 임계치를 초과하지 않는 경우 이미지 영역이 불투명한 채로 뷰 이미지를 생성하도록 배열되는, 이미지 합성 장치.
실시예 5. 임의의 이전 실시예에 있어서, 이미지 합성 장치는, 이미지 영역 회로(207)가 제1 이미지 영역에 대한 제2 뷰잉 영역을 결정하는 것을 추가로 포함하고, 뷰 합성 회로(205)는, 이미지 영역이, 뷰 포즈가 제2 뷰잉 영역 내부에 있는 경우 불투명하고, 뷰 포즈가 제2 뷰잉 영역 외부 및 제1 뷰잉 영역 내부에 있는 경우 부분적으로 투명하고, 뷰 포즈가 제1 뷰잉 영역 외부에 있는 경우 완전히 투명한 채로, 뷰 이미지를 생성하도록 배열되는, 이미지 합성 장치.
실시예 6. 임의의 이전 실시예에 있어서, 제1 뷰잉 영역은 깊이 표시에 의존하는, 이미지 합성 장치.
실시예 7. 임의의 이전 실시예에 있어서, 제1 뷰잉 영역은 이미지 영역의 형상 복잡성에 의존하는, 이미지 합성 장치.
실시예 8. 임의의 이전 실시예에 있어서, 제1 뷰잉 영역은 이미지 영역에 대한 뷰 시프트 감도에 의존하는, 이미지 합성 장치.
실시예 9. 임의의 이전 실시예에 있어서, 제1 뷰잉 영역은 3차원 이미지 데이터에 포함된 제1 이미지 영역에 대한 역폐색 데이터의 양에 의존하는, 이미지 합성 장치.
실시예 10. 임의의 이전 실시예에 있어서, 거리의 함수로서 투명도를 결정하기 위한 함수는 뷰잉 포즈의 변화들에 대한 히스테리시스를 포함하는, 이미지 합성 장치.
실시예 11. 임의의 이전 실시예에 있어서, 3차원 이미지 데이터는 3차원 이미지의 입력 이미지 중 적어도 하나에 대한 이미지 영역들의 표시를 추가로 포함하고, 이미지 영역 회로(207)는 이미지 영역들의 표시에 응답하여 제1 이미지 영역을 결정하도록 배열되는, 이미지 합성 장치.
실시예 12. 임의의 이전 실시예에 있어서, 3차원 이미지 데이터는 3차원 이미지의 입력 이미지 중 적어도 하나에 대한 뷰잉 영역의 표시를 추가로 포함하고, 뷰잉 영역 회로(211)는 뷰잉 영역의 표시에 응답하여 제1 뷰잉 영역을 결정하도록 배열되는, 이미지 합성 장치.
실시예 13. 임의의 이전 실시예에 있어서, 뷰 합성 회로(205)는 뷰 이미지의 적어도 제1 픽셀에 대해 멀티뷰 이미지의 상이한 이미지들로부터 도출된 다수의 후보 픽셀 값들 사이에서 선택하도록 배열되고, 뷰 합성 회로(205)는, 거리가 임계치 초과인 것에 대해 뒤쪽으로 가장 먼 픽셀을 선택하고, 그리고 거리가 임계치 미만인 것에 대해 앞쪽으로 가장 먼 픽셀을 선택하도록 배열되는, 이미지 합성 시스템.
실시예 14. 이미지 신호로서,
3차원 장면의 적어도 일부를 설명하는 3차원 이미지 데이터; 및
3차원 이미지 데이터의 렌더링이, 3차원 이미지 데이터의 이미지의 이미지 영역에 대한 깊이 표시 및 렌더링된 이미지에 대한 뷰 포즈와 이미지 영역에 대한 뷰잉 영역 사이의 거리에 응답하여, 렌더링된 이미지 내의 이미지 영역에 대한 투명도를 적응시키는 것을 포함해야 하는지 여부를 나타내는 데이터 필드를 포함하는, 이미지 신호.
실시예 15. 실시예 14에 있어서, 이미지 영역 및 뷰잉 영역의 표시 중 적어도 하나를 추가로 포함하는, 이미지 신호.
실시예 16. 실시예 14 또는 실시예 15에 따른 이미지 신호를 생성하도록 배열된 이미지 신호 장치.
실시예 17. 이미지 합성 방법으로서,
3차원 장면의 적어도 일부를 설명하는 3차원 이미지 데이터를 수신하는 단계;
3차원 데이터 내의 적어도 제1 이미지 영역을 결정하는 단계;
3차원 이미지 데이터의 깊이 데이터로부터 제1 이미지 영역에 대한 깊이 표시를 결정하는 단계;
제1 이미지 영역에 대한 제1 뷰잉 영역을 결정하는 단계;
뷰어에 대한 뷰 포즈를 수신하는 단계;
3차원 이미지 데이터로부터 뷰 이미지를 생성하는 단계로서, 뷰 이미지는 뷰 포즈로부터의 3차원 장면의 뷰를 표현하는, 3차원 이미지 데이터로부터 뷰 이미지를 생성하는 단계를 포함하며; 뷰 이미지를 생성하는 단계는, 깊이 표시 및 뷰 포즈와 제1 뷰잉 영역 사이의 거리에 응답하여 뷰 이미지 내의 제1 이미지 영역에 대한 투명도를 적응시키는 단계를 포함하는, 이미지 합성 방법.
18. 컴퓨터 프로그램 제품으로서, 상기 프로그램이 컴퓨터 상에서 실행될 때 실시예 17의 단계들 모두를 수행하도록 구성된 컴퓨터 프로그램 코드 수단을 포함하는, 컴퓨터 프로그램 제품.
본 발명은 첨부된 청구범위에서 더 구체적으로 정의된다.

Claims (18)

  1. 이미지 합성 장치로서,
    3차원 장면의 적어도 일부를 설명하는 3차원 이미지 데이터를 수신하도록 배열된 제1 수신기(201);
    상기 3차원 이미지 데이터 내의 적어도 제1 이미지 영역을 결정하도록 배열된 이미지 영역 회로(207);
    상기 제1 이미지 영역에 대한 상기 3차원 이미지 데이터의 깊이 데이터로부터 상기 제1 이미지 영역에 대한 깊이 표시를 결정하도록 배열된 깊이 회로(209);
    상기 제1 이미지 영역에 대한 제1 영역을 결정하도록 배열된 영역 회로(211);
    뷰어(viewer)에 대한 뷰 포즈(view pose)를 수신하도록 배열된 제2 수신기(203);
    상기 3차원 이미지 데이터로부터 뷰 이미지를 생성하도록 배열된 뷰 합성 회로(205)로서, 상기 뷰 이미지는 상기 뷰 포즈로부터의 상기 3차원 장면의 뷰를 표현하는, 상기 뷰 합성 회로(205)를 포함하며,
    상기 뷰 합성 회로(205)는 상기 깊이 표시 및 상기 뷰 포즈와 상기 제1 영역 사이의 거리에 응답하여 상기 뷰 이미지 내의 상기 제1 이미지 영역의 투명도를 적응시키도록 배열되고, 상기 뷰 합성 회로(205)는, 상기 뷰 포즈와 상기 제1 영역 사이의 증가하는 거리에 대해 그리고 상기 깊이 표시가 상기 제1 이미지 영역에 대해 감소하는 깊이를 나타내는 것에 대해, 투명도를 증가시키도록 배열되는, 이미지 합성 장치.
  2. 제1항에 있어서, 상기 뷰 합성 회로(205)는 상기 뷰 포즈와 상기 제1 영역 사이의 상기 거리가 임계치를 초과하는 경우 상기 이미지 영역이 완전히 투명한 채로 상기 뷰 이미지를 생성하도록 배열되는, 이미지 합성 장치.
  3. 제2항에 있어서, 상기 뷰 합성 회로(205)는 상기 거리가 상기 임계치를 초과하지 않는 경우 상기 이미지 영역이 완전히 투명하지 않은 채로 상기 뷰 이미지를 생성하도록 배열되는, 이미지 합성 장치.
  4. 제2항에 있어서, 상기 뷰 합성 회로(205)는 상기 거리가 상기 임계치를 초과하지 않는 경우 상기 이미지 영역이 불투명한 채로 상기 뷰 이미지를 생성하도록 배열되는, 이미지 합성 장치.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 이미지 합성 장치는, 상기 이미지 영역 회로(207)가 상기 제1 이미지 영역에 대한 제2 영역을 결정하도록 배열되는 것을 추가로 포함하고, 상기 뷰 합성 회로(205)는, 상기 이미지 영역이, 상기 뷰 포즈가 상기 제2 영역 내부에 있는 경우 불투명하고, 상기 뷰 포즈가 상기 제2 영역 외부 및 상기 제1 영역 내부에 있는 경우 부분적으로 투명하고, 그리고 상기 뷰 포즈가 상기 제1 영역 외부에 있는 경우 완전히 투명한 채로, 상기 뷰 이미지를 생성하도록 배열되는, 이미지 합성 장치.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서, 상기 제1 영역은 상기 깊이 표시에 의존하는, 이미지 합성 장치.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, 상기 제1 영역은 상기 이미지 영역의 형상 복잡성에 의존하는, 이미지 합성 장치.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 제1 영역은 상기 이미지 영역에 대한 뷰 포즈 변화 감도에 의존하는, 이미지 합성 장치.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서, 상기 제1 영역은 상기 3차원 이미지 데이터에 포함된 상기 제1 이미지 영역에 대한 역폐색 데이터(de-occlusion data)의 양에 의존하는, 이미지 합성 장치.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서, 상기 거리의 함수로서 상기 투명도를 결정하기 위한 함수는 상기 뷰잉 포즈의 변화들에 대한 히스테리시스를 포함하는, 이미지 합성 장치.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서, 상기 3차원 이미지 데이터는 상기 3차원 이미지의 입력 이미지 중 적어도 하나에 대한 이미지 영역들의 표시를 추가로 포함하고, 상기 이미지 영역 회로(207)는 상기 이미지 영역들의 표시에 응답하여 상기 제1 이미지 영역을 결정하도록 배열되는, 이미지 합성 장치.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서, 상기 3차원 이미지 데이터는 상기 3차원 이미지의 적어도 하나의 입력 이미지에 대한 주어진 영역의 표시를 추가로 포함하고, 상기 영역 회로(211)는 상기 주어진 영역의 상기 표시에 응답하여 상기 제1 영역을 결정하도록 배열되는, 이미지 합성 장치.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서, 상기 뷰 합성 회로(205)는 상기 뷰 이미지의 적어도 제1 픽셀에 대해 멀티뷰 이미지(multi-view image)의 상이한 이미지들로부터 도출된 다수의 후보 픽셀 값들 사이에서 선택하도록 배열되고, 상기 뷰 합성 회로(205)는, 상기 거리가 임계치 초과인 것에 대해 뒤쪽으로 가장 먼 픽셀을 선택하고, 그리고 상기 거리가 상기 임계치 미만인 것에 대해 앞쪽으로 가장 먼 픽셀을 선택하도록 배열되며, 뒤쪽으로 가장 먼 픽셀은 상기 뷰 포즈로부터 가장 먼 깊이를 나타내는 깊이 값과 연관되고, 앞쪽으로 가장 먼 픽셀은 상기 뷰 포즈에 가장 가까운 깊이를 나타내는 깊이 값과 연관되는, 이미지 합성 시스템.
  14. 이미지 신호로서,
    3차원 장면의 적어도 일부를 설명하는 3차원 이미지 데이터; 및
    상기 3차원 이미지 데이터의 렌더링이, 상기 3차원 이미지 데이터의 이미지의 이미지 영역에 대한 깊이 표시 및 렌더링된 이미지에 대한 뷰 포즈와 상기 이미지 영역에 대한 기준 영역 사이의 거리에 응답하여, 상기 렌더링된 이미지 내의 상기 이미지 영역에 대한 투명도를 적응시키는 것을 포함해야 하는지 여부를 나타내는 데이터 필드를 포함하는, 이미지 신호.
  15. 제14항에 있어서, 상기 이미지 영역 및 상기 기준 영역의 표시 중 적어도 하나를 추가로 포함하는, 이미지 신호.
  16. 제14항 또는 제15항에 따른 이미지 신호를 생성하도록 배열된 이미지 신호 장치.
  17. 이미지 합성 방법으로서,
    3차원 장면의 적어도 일부를 설명하는 3차원 이미지 데이터를 수신하는 단계;
    상기 3차원 이미지 데이터 내의 적어도 제1 이미지 영역을 결정하는 단계;
    상기 제1 이미지 영역에 대한 상기 3차원 이미지 데이터의 깊이 데이터로부터 상기 제1 이미지 영역에 대한 깊이 표시를 결정하는 단계;
    상기 제1 이미지 영역에 대한 제1 영역을 결정하는 단계;
    뷰어에 대한 뷰 포즈를 수신하는 단계;
    상기 3차원 이미지 데이터로부터 뷰 이미지를 생성하는 단계로서, 상기 뷰 이미지는 상기 뷰 포즈로부터의 상기 3차원 장면의 뷰를 표현하는, 상기 3차원 이미지 데이터로부터 뷰 이미지를 생성하는 단계를 포함하며; 상기 뷰 이미지를 생성하는 단계는, 상기 깊이 표시 및 상기 뷰 포즈와 상기 제1 영역 사이의 거리에 응답하여 상기 뷰 이미지 내의 상기 제1 이미지 영역에 대한 투명도를 적응시키는 단계를 포함하고, 상기 투명도는, 상기 뷰 포즈와 상기 제1 영역 사이의 증가하는 거리에 대해 그리고 상기 깊이 표시가 상기 제1 이미지 영역에 대해 감소하는 깊이를 나타내는 것에 대해, 증가하는, 이미지 합성 방법.
  18. 컴퓨터 프로그램 제품으로서, 상기 프로그램이 컴퓨터 상에서 실행될 때 제17항의 단계들 모두를 수행하도록 구성된 컴퓨터 프로그램 코드 수단을 포함하는, 컴퓨터 프로그램 제품.
KR1020237028206A 2021-01-21 2022-01-13 이미지 합성 시스템 및 그를 위한 방법 KR20230133974A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP21152810.4A EP4033754A1 (en) 2021-01-21 2021-01-21 An image synthesis system and method therefor
EP21152810.4 2021-01-21
PCT/EP2022/050573 WO2022157052A1 (en) 2021-01-21 2022-01-13 An image synthesis system and method therefor

Publications (1)

Publication Number Publication Date
KR20230133974A true KR20230133974A (ko) 2023-09-19

Family

ID=74205674

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237028206A KR20230133974A (ko) 2021-01-21 2022-01-13 이미지 합성 시스템 및 그를 위한 방법

Country Status (8)

Country Link
US (1) US20240080431A1 (ko)
EP (2) EP4033754A1 (ko)
JP (1) JP2024504337A (ko)
KR (1) KR20230133974A (ko)
CN (1) CN116746142A (ko)
CA (1) CA3208634A1 (ko)
TW (1) TW202239201A (ko)
WO (1) WO2022157052A1 (ko)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4125252B2 (ja) * 2004-03-02 2008-07-30 株式会社東芝 画像生成装置、画像生成方法、及び画像生成プログラム
JP6407460B1 (ja) * 2018-02-16 2018-10-17 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム

Also Published As

Publication number Publication date
TW202239201A (zh) 2022-10-01
US20240080431A1 (en) 2024-03-07
EP4033754A1 (en) 2022-07-27
JP2024504337A (ja) 2024-01-31
CA3208634A1 (en) 2022-07-28
WO2022157052A1 (en) 2022-07-28
CN116746142A (zh) 2023-09-12
EP4282155A1 (en) 2023-11-29

Similar Documents

Publication Publication Date Title
CN103609105B (zh) 用于生成用于显示器的信号的方法和设备
US10368046B2 (en) Method and apparatus for generating a three dimensional image
WO2019159617A1 (ja) 画像処理装置、画像処理方法およびプログラム
CA3008922A1 (en) Processing a depth map for an image
CN113170213A (zh) 图像合成
JP2022522504A (ja) 画像の奥行きマップの処理
EP3616399B1 (en) Apparatus and method for processing a depth map
KR20230133974A (ko) 이미지 합성 시스템 및 그를 위한 방법
US20220174259A1 (en) Image signal representing a scene
KR20240026222A (ko) 이미지 생성
KR102659115B1 (ko) 이미지 생성 장치 및 그를 위한 방법
KR20220090574A (ko) 이미지 합성 시스템 및 그를 위한 방법
KR20210076975A (ko) 이미지 생성 장치 및 그를 위한 방법