KR20220062591A - 장면의 이미지 캡처의 품질을 평가하기 위한 장치 및 방법 - Google Patents

장면의 이미지 캡처의 품질을 평가하기 위한 장치 및 방법 Download PDF

Info

Publication number
KR20220062591A
KR20220062591A KR1020227011907A KR20227011907A KR20220062591A KR 20220062591 A KR20220062591 A KR 20220062591A KR 1020227011907 A KR1020227011907 A KR 1020227011907A KR 20227011907 A KR20227011907 A KR 20227011907A KR 20220062591 A KR20220062591 A KR 20220062591A
Authority
KR
South Korea
Prior art keywords
images
quality
model
poses
circuit
Prior art date
Application number
KR1020227011907A
Other languages
English (en)
Inventor
크리스티안 바레캄프
Original Assignee
코닌클리케 필립스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 엔.브이. filed Critical 코닌클리케 필립스 엔.브이.
Publication of KR20220062591A publication Critical patent/KR20220062591A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01BMEASURING LENGTH, THICKNESS OR SIMILAR LINEAR DIMENSIONS; MEASURING ANGLES; MEASURING AREAS; MEASURING IRREGULARITIES OF SURFACES OR CONTOURS
    • G01B11/00Measuring arrangements characterised by the use of optical techniques
    • G01B11/24Measuring arrangements characterised by the use of optical techniques for measuring contours or curvatures
    • G01B11/245Measuring arrangements characterised by the use of optical techniques for measuring contours or curvatures using a plurality of fixed, simultaneously operating transducers
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C11/00Photogrammetry or videogrammetry, e.g. stereogrammetry; Photographic surveying
    • G01C11/02Picture taking arrangements specially adapted for photogrammetry or photographic surveying, e.g. controlling overlapping of pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T15/003D [Three Dimensional] image rendering
    • G06T15/10Geometric effects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • G06T7/55Depth or shape recovery from multiple images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/21805Source of audio or video content, e.g. local disk arrays enabling multiple viewpoints, e.g. using a plurality of cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30168Image quality inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/56Particle system, point based geometry or rendering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis
    • H04N2013/0081Depth or disparity estimation from stereoscopic image signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Databases & Information Systems (AREA)
  • Signal Processing (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Processing (AREA)
  • Testing, Inspecting, Measuring Of Stereoscopic Televisions And Televisions (AREA)
  • Studio Devices (AREA)
  • Processing Or Creating Images (AREA)
  • Image Generation (AREA)
  • Image Analysis (AREA)

Abstract

이미지 캡처에 대한 품질을 평가하기 위한 장치는 장면의 모델을 저장하기 위한 저장소(101), 및 모델로부터 렌더링함으로써 카메라 구성에 대한 가상 캡처 이미지들을 생성하기 위한 캡처 회로(105)를 포함한다. 깊이 생성 회로(107)는 모델로부터 모델 깊이 데이터를 생성하고, 깊이 추정 회로(111)는 가상 캡처 이미지들로부터 추정 깊이 데이터를 생성한다. 제1 합성 회로(109) 및 제2 합성 회로(113)는 각각 모델 깊이 데이터 또는 추정 깊이 데이터에 기초하여 가상 캡처 이미지들을 처리함으로써 테스트 포즈들에 대한 제1 및 제2 뷰 이미지들을 생성한다. 기준 회로(103)는 모델에 기초하여 렌더링함으로써 테스트 포즈들에 대한 기준 이미지들을 생성한다. 품질 회로(115)는 제1 뷰 이미지들, 제2 뷰 이미지들, 및 기준 이미지들의 비교에 기초하여 품질 메트릭을 생성한다.

Description

장면의 이미지 캡처의 품질을 평가하기 위한 장치 및 방법
본 발명은 복수의 카메라에 의한 장면(scene)의 이미지 캡처에 대한, 예컨대 구체적으로 가상 현실 렌더링을 위한 실재의 이벤트들의 비디오 캡처에 대한 품질을 평가하기 위한 장치 및 방법에 관한 것이다.
이미지 및 비디오 응용들의 다양성 및 범위는 최근 수년간 상당히 증가했으며, 이미지 및 비디오를 이용하고 소비하는 새로운 서비스들 및 방식들이 계속해서 개발 및 도입되고 있다.
예를 들어, 점점 더 인기가 있는 하나의 서비스는 뷰어(viewer)가 렌더링의 파라미터들을 변경하기 위해 시스템과 능동적으로 그리고 동적으로 상호작용할 수 있는 방식으로 이미지 시퀀스들을 제공하는 것이다. 많은 응용에서의 매우 매력적인 특징은 뷰어의 유효 뷰잉 위치(viewing position) 및 뷰잉 방향(viewing direction)을 변경하여, 이를테면 예를 들어 뷰어가 제시되는 장면 내에서 이동하고 "둘러보는" 것을 가능하게 하는 능력이다.
그러한 특징은 특별히 가상 현실 경험이 사용자에게 제공될 수 있게 할 수 있다. 이것은 사용자가 예를 들어 가상 환경에서 (비교적) 자유롭게 돌아다니고 그의 위치 및 그가 보고 있는 곳을 동적으로 변경할 수 있게 할 수 있다. 전형적으로, 그러한 가상 현실 응용들은 장면의 3차원 모델에 기초하며, 그 모델은 특정한 요청된 뷰(view)를 제공하기 위해 동적으로 평가된다. 이러한 접근법은, 컴퓨터들 및 콘솔들에 대해, 예컨대 1인칭 슈터들의 카테고리에서, 예를 들어 게임 응용들로부터 잘 알려져 있다.
많은 관심을 끌고 있는 다른 응용은 작은 머리 움직임들 및 회전들과 같은 작은 뷰어 움직임들을 허용하는 실세계 장면 및 종종 실시간 이벤트의 뷰들의 제공이다. 예를 들어, 예컨대 뷰어의 작은 머리 움직임들에 뒤따르는 뷰들의 로컬 클라이언트 기반 생성을 허용하는 스포츠 이벤트의 실시간 비디오 방송은 스탠드에 앉아 있는 사용자가 스포츠 이벤트를 지켜보는 인상을 제공할 수 있다. 사용자는 예를 들어 둘러볼 수 있고, 스탠드의 그 위치에 존재하는 관중의 경험과 유사한 자연스러운 경험을 가질 것이다.
실세계 장면에 대한 그러한 서비스들을 제공하기 위해, 상이한 위치들로부터 장면을 캡처하는 것이 요구되고, 이에 따라 상이한 카메라 캡처 포즈(camera capture pose)들이 사용된다. 그러나, 이것은 종종 복수의 카메라를 동시에 사용하는 것을 비롯해 복잡하고 값비싼 캡처 프로세스들을 요구하는 경향이 있다. 따라서 캡처 프로세스에 대해 요구되는 복잡도 및 리소스들을 최소화하는 것이 바람직하다. 그러나, 원하는 성능을 야기할 최소 캡처 셋업을 결정하는 것은 종종 매우 어렵고, 종종 그것은 상이한 캡처 구성들이 실제 환경에서 물리적으로 구현되고 테스트될 것을 요구한다.
최근에, 실세계 장면들의 3D 캡처링에 기초한 위치 추적 및 3D 상호작용 지원 응용들을 갖는 디스플레이 디바이스들의 보급이 증가하고 있다. 결과적으로, 멀티-카메라 캡처링 및 예를 들어 6DoF(6 자유도) 처리의 관련성 및 중요성이 빠르게 증가하고 있다. 응용들은 라이브 콘서트, 라이브 스포츠, 및 텔레프레전스를 포함한다. 자신의 뷰포인트(viewpoint)를 선택하는 자유는 정규 비디오에 비해 프레전스의 느낌을 증가시킴으로써 이러한 응용들을 풍요롭게 한다. 또한, 관찰자가 라이브 캡처된 장면을 내비게이팅하고 그와 상호작용할 수 있는 몰입 시나리오들이 구상될 수 있다. 방송 응용들에 대해, 이것은 프로덕션 측에서의 실시간 깊이 추정 및 클라이언트 디바이스에서의 실시간 뷰 합성을 요구할 수 있다. 깊이 추정 및 뷰 합성 둘 모두는 에러들을 도입하고, 이러한 에러들은 알고리즘들의 구현 상세들에 의존한다. 또한, 최적의 카메라 구성은 의도된 응용 및 캡처되는 장면의 3D 구조에 의존한다.
6DoF 비디오 캡처/생성 및 압축을 위한 경쟁 방법들은 종종 시각적으로, 그리고, 압축의 경우에, 또한 정량적으로 비교된다. 그러나, 품질은 종종 카메라 센서들의 유형, 그들의 공간적 구성(예를 들어, 간격), 및 카메라 파라미터들에 의해 더 많이 결정된다. 그러한 캡처 구성들을 비교하는 것은 종종 비용이 많이 드는데, 그 이유는 그것이 고가의 장비 및 노동 집약적인 셋업들의 생성을 수반하기 때문이다.
예를 들어 라이브 6DoF 비디오를 제작하는 것은 다수의 카메라를 이용한 비디오 캡처, 실시간 깊이 추정, 압축, 스트리밍 및 재생을 요구하며, 개발 동안 올바른 선택들을 행하기 위해, 시스템 파라미터들(예를 들어, 카메라들의 수 및 그들 사이의 거리들) 및 깊이 추정 알고리즘들 또는 다른 처리가 이미지 품질에 미치는 영향을 미리 예측할 수 있는 것에 대한 요구가 존재한다.
결과적으로, 다양한 캡처 구성들 및 처리를 평가할 수 있는 것에 대한 요구가 증가하고 있지만, 이것은 본질적으로, 전형적으로 실험 셋업들을 생성하고 셋업들을 사용하여 시험 이벤트들 및 장면들을 캡처하는 것에 의해 이들을 평가함으로써 수행되는 어려운 프로세스이다.
따라서, 캡처/카메라 구성들 및/또는 관련 처리의 품질을 평가하기 위한 개선된 접근법이 바람직할 것이다. 특히, 개선된 동작, 증가된 유연성, 용이한 구현, 용이한 동작, 용이한 평가, 감소된 비용, 감소된 복잡도, 및/또는 개선된 성능을 가능하게 하는 접근법이 유리할 것이다.
따라서, 본 발명은 전술한 불리한 점들 중 하나 이상을 단독으로 또는 임의의 조합으로 바람직하게 완화, 경감 또는 제거하고자 한다.
본 발명의 태양에 따르면, 이미지 캡처에 대한 품질을 평가하기 위한 장치가 제공되며, 이 장치는, 장면의 모델을 저장하기 위한 저장소; 카메라 구성의 복수의 카메라 포즈들에 대한 가상 캡처 이미지들을 생성하기 위한 캡처 회로로서, 모델에 기초하여 카메라 포즈들에 대한 이미지들을 렌더링함으로써 가상 캡처 이미지들을 생성하도록 배열되는, 상기 캡처 회로; 모델로부터 가상 캡처 이미지들에 대한 모델 깊이 데이터를 생성하기 위한 깊이 생성 회로; 장면의 영역 내의 복수의 테스트 포즈들에 대한 제1 뷰 이미지들을 생성하기 위해 모델 깊이 데이터에 기초하여 가상 캡처 이미지들을 처리하기 위한 제1 합성 회로; 가상 캡처 이미지들에 기초하여 가상 캡처 이미지들에 대한 추정 깊이 데이터를 생성하기 위한 깊이 추정 회로; 복수의 테스트 포즈들에 대한 제2 뷰 이미지들을 생성하기 위해 추정 깊이 데이터에 기초하여 가상 캡처 이미지들을 처리하기 위한 제2 합성 회로; 모델에 기초하여 복수의 테스트 포즈들에 대한 이미지들을 렌더링함으로써 복수의 테스트 포즈들에 대한 기준 이미지들을 생성하기 위한 기준 회로; 제1 뷰 이미지들, 제2 뷰 이미지들, 및 기준 이미지들의 비교에 응답하여 카메라 구성, 제1 뷰 이미지들을 생성하기 위한 처리, 및 제2 뷰 이미지들을 생성하기 위한 처리 중 적어도 하나에 대한 품질 메트릭(quality metric)을 생성하기 위한 품질 회로를 포함한다.
본 발명은 카메라 구성 및/또는 연관된 처리의 품질을 평가하기 위한 유리한 접근법을 제공할 수 있다. 그것은 예를 들어 캡처 시스템이 구현 및 테스트될 것을 요구함이 없이 상이한 카메라 구성들 및/또는 관련 처리를 평가 및/또는 비교하는 데 특히 유리할 수 있다. 이 접근법은 상이한 캡처 접근법들이 이것이 구현되기 전에 특정 응용에 대해 평가될 수 있게 할 수 있다. 이에 따라, 설계 결정들 및 캡처 파라미터들이 수행되는 분석에 기초하여 평가 및 선택될 수 있다.
캡처 이미지들을 고려함이 없이 직접 렌더링에 의해 생성된 테스트 포즈들에 대한 둘 모두의 이미지들, 모델로부터 생성된 깊이 데이터에 기초하여 생성된 뷰 이미지들, 및 추정 깊이 데이터에 기초하여 생성된 뷰 이미지들의 고려는 특히 유리한 정보를 제공할 수 있다. 그것은 예를 들어 (카메라 구성에 더 많은 카메라 포즈들을 추가하는 것에 의해서든 또는 깊이 모드를 개선하는 것에 의해서든지 간에) 깊이 추정을 개선함으로써 완화될 수 있는 에러들 및 아티팩트들과, 개선된 깊이 추정에 의해 개선될 수 없는 에러들 및 아티팩트들 사이의 구별을 가능하게 할 수 있다.
이 접근법은 캡처부터 테스트 포즈들에 대한 뷰 이미지들의 합성까지의 전체 처리 경로의 정확한 평가를 제공할 수 있어서, 달성될 수 있는 결과적인 품질의 더 정확한 평가를 제공할 수 있다.
제1 합성 회로 및 제2 합성 회로의 처리는 구체적으로, 인코딩 및 디코딩을 포함하여, 분배 경로의 일부 또는 모든 처리 블록들을 포함할 수 있다.
몇몇 실시예들에서, 장치는 복수의 상이한 카메라 구성들에 대한 품질 메트릭들을 생성하도록, 그리고 품질 메트릭들에 응답하여 복수의 상이한 카메라 구성들 중에서 카메라 구성을 선택하도록 배열될 수 있다.
포즈는 위치 및/또는 배향일 수 있다.
본 발명의 선택적인 특징에 따르면, 제1 합성 회로 및 제2 합성 회로에 의한 처리 중 적어도 하나는, 가상 캡처 이미지들 중 제1 가상 캡처 이미지에 대한 깊이 맵 모델(depth map model)을 생성하는 것, 및 깊이 맵 모델을 사용하여 제1 가상 캡처 이미지를 복수의 테스트 포즈들 중의 테스트 포즈로 뷰 시프팅(view shifting)하는 것을 포함한다.
이 접근법은 뷰 합성을 위해 깊이 맵들을 사용하는 캡처 및 렌더링 시스템들의 특히 유리한 평가를 제공할 수 있다.
본 발명의 선택적인 특징에 따르면, 제1 합성 회로 및 제2 합성 회로에 의한 처리 중 적어도 하나는, 가상 캡처 이미지들로부터 결정된 적어도 하나의 깊이 모델을 사용하여 3D 포인트들의 세트를 결정하는 것, 가상 캡처 이미지들 중 적어도 하나의 가상 캡처 이미지를 사용하여 각각의 3D 포인트에 대한 컬러를 결정하는 것, 및 3D 포인트들의 투영에 기초하여 복수의 테스트 포즈들 중의 테스트 포즈에 대한 새로운 이미지를 합성하는 것을 포함한다.
이 접근법은 뷰 합성을 위해 3D 포인트 깊이 표현들을 사용하는 캡처 및 렌더링 시스템들의 특히 유리한 평가를 제공할 수 있다.
본 발명의 선택적인 특징에 따르면, 품질 회로는 제1 뷰 이미지들에 대한 제1 품질 메트릭 및 제2 뷰 이미지들에 대한 제2 품질 메트릭을 포함하도록 품질 메트릭을 결정하도록 배열된다.
이것은 많은 실시예들에서 특히 유리한 평가를 제공할 수 있고, 구체적으로 깊이 추정으로부터 기인하는 영향들과 비이상적인 깊이 추정에 의해 야기되지 않는 영향들 사이의 구별을 가능하게 할 수 있다.
본 발명의 선택적인 특징에 따르면, 품질 회로는 복수의 카메라 구성들에 대한 품질 메트릭들을 결정하도록, 그리고 제1 품질 메트릭 및 제2 품질 메트릭 둘 모두에 응답하여 복수의 카메라 구성들 사이에서 선택하도록 배열된다.
이 접근법은 상이한 카메라 구성들 사이에서 평가 및 선택하기 위한 특히 유리한 접근법을 제공할 수 있다.
본 발명의 선택적인 특징에 따르면, 품질 회로는 적어도 제1 품질 메트릭이 제1 기준을 충족시키는 것; 제2 품질 메트릭이 제2 기준을 충족시키는 것; 및 제1 품질 메트릭 및 제2 품질 메트릭에 대한 차이 척도가 제3 기준을 충족시키는 것에 응답하여 복수의 카메라 구성들 사이에서 카메라 구성을 선택하도록 배열된다.
이것은 많은 실시예들에서 특히 유리한 성능을 제공할 수 있다.
본 발명의 선택적인 특징에 따르면, 품질 회로는 각각의 제2 뷰 이미지에 대한 신호 대 잡음 척도를 생성하도록, 그리고 제2 뷰 이미지들에 대한 신호 대 잡음 척도들에 응답하여 품질 메트릭을 생성하도록 배열된다.
이것은 품질 메트릭을 결정하기 위한 특히 유리한 접근법을 제공할 수 있다. 특히, 신호 대 잡음 척도가 카메라 구성들 및 관련 처리의 영향을 평가하는 데 특히 유리할 수 있다는 것이 인식되었다.
신호 대 잡음비는 구체적으로 피크 신호 대 잡음비일 수 있다.
몇몇 실시예들에서, 품질 회로는 각각의 제1 뷰 이미지에 대한 신호 대 잡음 척도를 생성하고, 제1 뷰 이미지들에 대한 신호 대 잡음 척도들에 응답하여 품질 메트릭을 생성하도록 배열될 수 있다.
다른 실시예들에서, 예를 들어 VMAF(Video Multimethod Assessment Fusion) 척도들과 같은, 신호 대 잡음 척도 또는 피크 신호 대 잡음 척도와는 다른 척도들이 사용될 수 있다.
본 발명의 선택적인 특징에 따르면, 제1 합성 회로 및 제2 합성 회로 중 적어도 하나의 처리는, 가상 캡처 이미지들의 인코딩 및 디코딩을, 인코딩 및 디코딩된 가상 캡처 이미지들에 기초한 이미지 합성 전에 포함한다.
이 접근법은 카메라 구성들의 그리고 인코딩/디코딩 알고리즘들의 영향들 둘 모두를 동시에 고려하는 것을 포함하는 특히 유리한 평가를 제공할 수 있다.
인코딩 및 디코딩은 예를 들어 프레임/비디오 인코딩/디코딩을 포함할 수 있고, 이미지 또는 깊이 다운-스케일링, 및 이미지와 깊이를 함께 단일 텍스처(이미지)로 패킹하는 것, 비트스트림 포맷팅 등과 같은 다양한 동작을 포함할 수 있다.
본 발명의 선택적인 특징에 따르면, 제1 합성 회로 및 제2 합성 회로 중 적어도 하나의 처리는, 가상 캡처 이미지들과 연관된 깊이 데이터 및 추정 깊이 데이터 중 적어도 하나의 인코딩 및 디코딩을, 모델 깊이 데이터 및 추정 깊이 데이터 중 적어도 하나에 기초한 이미지 합성 전에 포함한다.
이 접근법은 카메라 구성들의 그리고 인코딩/디코딩 알고리즘들의 영향들 둘 모두를 동시에 고려하는 것을 포함하는 특히 유리한 평가를 제공할 수 있다.
본 발명의 선택적인 특징에 따르면, 인코딩은 손실 인코딩을 포함한다.
본 발명의 선택적인 특징에 따르면, 적어도 몇몇 카메라 포즈들은 적어도 몇몇 테스트 포즈들과 동일하다.
본 발명의 선택적인 특징에 따르면, 카메라 포즈들보다 10배 이상 더 많은 테스트 포즈들이 존재한다.
본 발명의 선택적인 특징에 따르면, 카메라 위치들은 1차원 배열을 형성하는 반면, 테스트 위치들은 2차원 또는 3차원 배열을 형성한다.
본 발명의 선택적인 특징에 따르면, 2개의 테스트 위치들 사이의 최대 거리는 1 미터 이하이다.
몇몇 실시예들에서, 2개의 테스트 위치들 사이의 최대 거리는 10 미터 이하이다.
몇몇 실시예들에서, 2개의 테스트 위치들 사이의 최대 거리는 10 미터 이상이다.
본 발명의 태양에 따르면, 이미지 캡처에 대한 품질을 평가하는 방법이 제공되며, 이 방법은, 장면의 모델을 저장하는 단계; 카메라 구성의 복수의 카메라 포즈들에 대한 가상 캡처 이미지들을, 모델에 기초하여 카메라 포즈들에 대한 이미지들을 렌더링함으로써 생성하는 단계; 모델로부터 가상 캡처 이미지들에 대한 모델 깊이 데이터를 생성하는 단계; 장면의 영역 내의 복수의 테스트 포즈들에 대한 제1 뷰 이미지들을 생성하기 위해 모델 깊이 데이터에 기초하여 가상 캡처 이미지들을 처리하는 단계; 가상 캡처 이미지들에 기초하여 가상 캡처 이미지들에 대한 추정 깊이 데이터를 생성하는 단계; 복수의 테스트 포즈들에 대한 제2 뷰 이미지들을 생성하기 위해 추정 깊이 데이터에 기초하여 가상 캡처 이미지들을 처리하는 단계; 모델에 기초하여 복수의 테스트 포즈들에 대한 이미지들을 렌더링함으로써 복수의 테스트 포즈들에 대한 기준 이미지들을 생성하는 단계; 제1 뷰 이미지들, 제2 뷰 이미지들, 및 기준 이미지들의 비교에 응답하여 카메라 구성, 제1 뷰 이미지들을 생성하기 위한 처리, 및 제2 뷰 이미지들을 생성하기 위한 처리 중 적어도 하나에 대한 품질 메트릭을 생성하는 단계를 포함한다.
본 발명의 이들 및 다른 태양들, 특징들 및 이점들이 이하에 설명되는 실시예(들)로부터 명백할 것이고 그것을 참조하여 설명될 것이다.
본 발명의 실시예들이 도면을 참조하여 단지 예로서 설명될 것이다.
도 1은 복수의 카메라에 의한 장면의 이미지 캡처에 대한 품질을 평가하기 위한 장치의 요소들의 예를 예시한다.
도 2는 도 1의 장치에 대한 테스트 포즈들의 뷰잉 영역의 예를 예시한다.
도 3은 도 1의 장치의 제2 합성 회로 및/또는 제1 합성 회로에 의해 에뮬레이트될 수 있는 처리 기능들의 예를 예시한다.
도 4는 도 1의 장치의 제2 합성 회로 및/또는 제1 합성 회로에 의해 에뮬레이트될 수 있는 처리 기능들의 예를 예시한다.
도 5는 장면을 캡처 및 렌더링하기 위한 실험 셋업의 예를 예시한다.
도 6은 도 1의 장치에 의한 캡처 이미지(captured image)들을 선택하는 예를 예시한다.
도 7은 도 1의 장치에 의해 결정된 품질 척도들의 예를 예시한다.
도 8은 도 1의 장치에 의해 결정된 품질 척도들의 예를 예시한다.
도 9는 도 1의 장치에 의해 상이한 카메라 구성들에 기초하여 결정된 깊이 맵들의 예를 예시한다.
도 10은 도 1의 장치에 의해 생성된 뷰 이미지들의 상세들의 예를 예시한다.
도 1은 복수의 카메라에 의한 장면의 이미지 캡처링의 품질을 평가하기 위한 장치의 요소들의 예를 예시한다. 장치는 구체적으로 다른 뷰포인트들로부터의 이미지들을 합성하기 위해 이미지들의 캡처링 및 이러한 캡처 이미지들의 처리를 위한 품질 메트릭을 결정할 수 있다. 장치는 특정 카메라 구성 및/또는 장면의 캡처 이미지들의 처리에 대하여 장면의 모델을 평가하는 것에 기초한다.
장치는 장면의 모델을 저장하는 모델 저장소(101)를 포함한다. 장면은 실제 장면을 표현하는 가상 장면일 수 있거나, 완전히 인위적으로 생성된 장면일 수 있다. 그러나, 본 접근법의 이점은 장면이 캡처 카메라 구성 및 처리가 사용될 장면에 밀접하게 대응하도록 선택되거나 생성될 수 있다는 것이다. 예를 들어, 가상 장면은, 평가가 수행되는 시스템이 시스템에서의 축구 경기를 캡처하는 데 사용되도록 의도되는 경우, 축구 경기장에 대응하도록 선택될 수 있다. 다른 예로서, 콘서트 홀의 가상 장면이 사용될 수 있는데, 이는 품질 평가가 이 콘서트 홀에서의 콘서트를 캡처하는 응용에 대한 것인 경우에 그러하다. 몇몇 시나리오들에서, 보다 일반적인 장면이 고려될 수 있다. 예를 들어, 조사 중인 시스템이 풍경을 캡처하도록 의도되는 경우, 일반적인 전형적 가상 풍경 장면이 캡처될 수 있다. 몇몇 경우들에서, 모델은 실제 장면으로부터 생성될 수 있고, 이에 따라 모델에 의해 표현되는 장면은 가상 또는 실제 장면일 수 있다.
장면의 모델은 장면/모델 내의 위치들에 대한 뷰 이미지들 및 깊이들이 결정될 수 있게 하는 임의의 3차원 모델일 수 있다. 전형적으로, 모델은 3차원 객체들, 객체 특성들(예를 들어, 광학 특성들), 및 광원들에 의해 표현될 수 있다. 다른 예로서, 모델은 관련 텍스처들을 갖는 다수의 메시로 이루어질 수 있다. 알베도와 같은 특성들이 객체들의 표면에 부착될 수 있다. 뷰 이미지들은 객체 투명도 및 다수의 산란과 같은 물리학을 설명하는 진보한 광선-추적 방법들을 사용하여 모델로부터 형성될 수 있다.
모델에 기초하여, 장치는 하기에 설명될 바와 같이 다양한 접근법들을 사용하여 장면의 영역 내의 복수의 테스트 포즈에 대한 이미지들을 합성할 수 있다. 이어서 상이한 접근법들의 결과들이 비교될 수 있고, 품질 메트릭들이 이 비교에 기초하여 결정될 수 있다.
이 분야에서, 용어들 '배치'와 '포즈'는 위치 및/또는 방향/배향에 대한 공통 용어로서 사용된다. 예컨대 객체, 카메라, 머리, 또는 뷰의 위치와 방향/배향의 조합은 포즈 또는 배치로 지칭될 수 있다. 따라서, 배치 또는 포즈 표시는 6개의 값/성분/자유도를 포함할 수 있으며, 각각의 값/성분은 전형적으로 대응하는 객체의 위치/로케이션 또는 배향/방향의 개별 특성을 기술한다. 물론, 많은 상황에서, 예를 들어 하나 이상의 성분이 고정되거나 무관한 것으로 고려되는 경우, 배치 또는 포즈가 더 적은 성분들을 갖는 것으로 고려되거나 더 적은 성분들로 표현될 될 수 있다(예를 들어, 모든 객체가 동일한 높이에 있고 수평 배향을 갖는 것으로 고려되는 경우, 4개의 성분이 객체의 포즈의 완전한 표현을 제공할 수 있다). 하기에서, 용어 '포즈'는 (최대 가능한 자유도에 대응하는) 1개 내지 6개의 값에 의해 표현될 수 있는 위치 및/또는 배향을 지칭하는 데 사용된다.
테스트 포즈들 및 이들에 의해 커버되는 영역은 평가되는 특정 응용/시스템에 따라 선택될 수 있다. 많은 실시예들에서, 테스트 포즈들은 비교적 작은 영역을 커버하도록 선택될 수 있다. 구체적으로, 많은 실시예들에서, 테스트 포즈들은 1 미터 이하의 임의의 2개의 테스트 포즈 사이의 최대 거리를 갖도록 선택될 수 있다. 예를 들어, 도 2에 예시된 바와 같이, 비교적 많은 수의 테스트 포즈들이 (대략) 0.5 m x 0.5 m의 영역 내의 규칙적인 수평 그리드로서 선택될 수 있다. 도시된 예에서, 테스트 포즈들의 수는 3 cm의 그리드 거리를 갖고서 15 x 15(즉, 225개의 포즈)이다. 원하는 정확도와 계산 복잡도 사이의 선호하는 트레이드-오프에 따라 상이한 실시예들에서 더 많은 또는 더 적은 테스트 포즈들이 사용될 수 있다는 것이 인식될 것이다. 그러나, 많은 실시예들에서, 적합한 계산 복잡도에 대해 높은 정확도를 제공하기 위해 50개, 100개, 200개 또는 5000개 이상의 테스트 포즈를 갖는 것이 유리하다.
작은 영역 내에 많은 수의 테스트 포즈들을 사용하는 예는 특히 캡처 이미지들이 뷰어에게 얼마간의 제한된 이동 자유를 제공하는 데 사용되는, 예를 들어 사용자가 장면 내에서 자유롭게 여기저기로 이동할 수 없지만 그의 머리를 공칭 위치로부터 약간 움직이거나 돌릴 수 있는 응용에 대해 매우 정확한 결과들을 제공할 수 있다. 그러한 응용들은 점점 더 인기가 있고, 예를 들어 지정된 위치들로부터 스포츠 이벤트들을 보는 것과 같은, 많은 바람직한 응용들을 제공한다.
다른 실시예들에서, 장면은 더 많이 상이한 위치들로부터 보이도록 요구될 수 있고, 예를 들어 사용자가 장면 내에서 더욱 여기저기로 이동할 수 있는 것, 또는 이벤트가 상이한 위치들로부터 보일 수 있는 것이 요구될 수 있다. 그러한 실시예들에서, 더 큰 구역/영역을 커버하는 테스트 포즈들이 선택될 수 있다.
품질 메트릭의 결정은 캡처/카메라 구성에 기초하는데, 즉 품질 메트릭은 특정 카메라 구성에 대해 결정될 수 있다. 카메라 구성은 카메라가 장면의 이미지를 캡처할 수 있는 하나의 또는 전형적으로 더 많은 카메라 포즈를 포함한다. 이에 따라 카메라 구성의 카메라 포즈들은 장면의 캡처를 위한 포즈들을 나타내고, 평가 및 품질 메트릭은 특정 카메라 구성이 장면을 캡처하기에 얼마나 적합한지를 결정하는 데 사용될 수 있다. 카메라 구성은 또한 캡처 구성으로 지칭될 수 있다.
이에 따라, 모델 및 카메라 구성은 그에 따라서 실제 장면 및 장면을 캡처하기 위해 셋업에서 사용될 수 있는 카메라 포즈들을 나타낼 수 있다.
많은 응용들에서, 카메라 구성은 비교적 적은 수의 카메라들을 포함하고, 실제로 카메라 포즈들의 수는 전형적으로 15개, 10개, 또는 5개 이하의 카메라이다.
이에 따라, 전형적으로, 테스트 포즈들의 수는 카메라 포즈들의 수보다 상당히 더 많고, 전형적으로 10배 이상 많다. 이것은 종종 시스템에 대한 품질 메트릭의 정확하고, 철저하고, 유리한 결정을 제공할 수 있다.
몇몇 실시예들에서, 많은 수의 캡처 카메라들이 고려될 수 있다. 예를 들어, 축구 경기장에 대해, 요구되는 플라이-어라운드 모션(fly-around motion)의 유형에 따라 카메라들의 수는 쉽게 수백개에 이를 수 있다. 그러나, 그러한 실시예들에서도, 평가에 사용되는 (잠재적으로 상당히) 더 많은 수의 테스트 포즈들이 있을 수 있다.
게다가, 도 2의 예에서와 같이, 캡처 카메라들의 카메라 포즈들/위치들은 종종 (적어도 카메라들 중 일부에 대해) 테스트 포즈들/위치들과 일치할 수 있다. 이것은 실용적인 접근법을 제공하고, 예를 들어, 얼마간의 계산 복잡도를 감소시킬 수 있다. 또한, 일치하는 캡처 포즈들 및 테스트 포즈들을 갖는 것은 알고리즘들이 올바르게 작동하는 기본 테스트를 제공할 수 있는데, 왜냐하면 MSE=0이고 따라서 PSNR이 정의되지 않기 때문이다(그것은 나눗셈을 포함함).
많은 실시예들에서, 카메라 구성은 1차원 배열을 형성하는, 그리고 종종 캡처 카메라들의 선형 배열에 대응하는 카메라 위치들을 포함한다. 이것은 종종 매우 실용적이고 많은 실용적인 카메라 리그(camera rig)들이 선형 배열로 배열된다. 그러한 실시예들에서, 테스트 포즈들의 위치들은 종종 2차원 또는 3차원 배열로 배열된다. 이에 따라 테스트 포즈들은 측방 뷰 시프트들로부터 기인하는 영향뿐만 아니라 다른 방향들에서의 시프트들로부터 기인하는 영향을 반영할 수 있으며, 그에 의해 보다 전형적인 사용자 거동을 반영할 수 있다.
특정 예가 도 2에 도시되어 있으며, 여기서 6개의 일렬로 늘어선 카메라 포즈가 225개의 테스트 포즈 중 6개(테스트 포즈들 주위의 링들에 의해 표시됨)와 정렬된다. 테스트 포즈들은 카메라 포즈들 주위에 배열되고, 그에 의해 공칭 중심 위치로부터의 이동들이 품질에 어떻게 영향을 미칠 수 있는지의 결정을 허용한다.
모델 저장소(101)는 모델에 기초하여 테스트 포즈들에 대한 이미지들을 렌더링함으로써 복수의 테스트 포즈들에 대한 기준 이미지들을 생성하도록 배열된 기준 회로(103)에 결합된다.
기준 회로(103)는 모델을 직접 평가하고 이미지들을 렌더링함으로써 기준 이미지들을 생성하도록 배열된다. 이에 따라, 기준 이미지들의 렌더링은 캡처 이미지들 또는 카메라 구성과는 독립적이다. 렌더링은 모델에 그리고 특정 테스트 포즈에 직접적으로 의존한다. 상이한 렌더링 알고리즘들이 상이한 실시예들에서 사용될 수 있다는 것이 인식될 것이다. 그러나, 많은 실시예들에서, 기준 이미지들의 렌더링은 저장된 모델에 기초하여 광선 추적 기술들에 의해 이루어진다.
특정 예로서, 렌더링은 포토리얼리스틱 게임들 및 영화 콘텐츠를 생성하기 위해 개발된 Unity, Unreal 및 Blender(오픈 소스)와 같은 구매 가능한 패키지들을 사용할 수 있다. 그러한 진보한 패키지들은 전형적으로 포토리얼리스틱 이미지들을 제공할 뿐만 아니라, 예를 들어, 깊이와 같은 다른 데이터의 출력을 허용할 수 있다.
이에 따라 기준 이미지들은 모델 및 테스트 포즈들에만 기초하며, 전형적으로 매우 높은 정확도로 생성될 수 있는데, 왜냐하면 렌더링이 어떠한 가정들 또는 잠재적으로 잡음이 많거나 왜곡하는 프로세스도 요구하지 않기 때문이다. 따라서, 기준 이미지들은 특정 테스트 포즈들로부터의 뷰의 정확한 표현들을 제공하는 것으로 간주될 수 있다.
모델은 카메라 구성의 카메라 포즈들에 대한 가상 캡처 이미지들을 생성하도록 배열된 캡처 회로(105)에 추가로 결합된다. 이에 따라 캡처 회로(105)는 카메라 포즈들로부터의 뷰를 반영하는 가상 캡처 이미지들, 및 이에 따라 그러한 포즈들에 위치된 카메라들에 의해 캡처될 이미지들을 렌더링한다.
캡처 카메라들은 몇몇 경우들에서 예를 들어 광각 어안 렌즈들을 포함할 수 있다는 점에 유의해야 한다. 그러한 카메라들을 광선-추적할 때, 시각 왜곡들을 갖는 광각 이미지 및 깊이가 발생할 것이다. 이것은 이러한 이미지들을, 주어진 사람의 눈이 받는 더 제한된 뷰포트(viewport)를 예측할 수 있는 테스트 이미지와는 상이하게 만든다.
가상 캡처 이미지들을 렌더링하는 데 사용되는 렌더링 알고리즘은 모델에 기초하며, 구체적으로 테스트 포즈들에 대한 이미지들을 렌더링하기 위해 기준 회로(103)에 의해 사용되는 것과 동일한 알고리즘일 수 있다. 실제로, 카메라 포즈들이 테스트 포즈들 중 일부와 일치하는 예들에서, 동일한 렌더링이 그러한 포즈들에 대한 기준 이미지들 및 카메라 포즈들에 대한 가상 카메라 이미지들 둘 모두를 생성하는 데 사용될 수 있다.
이에 따라, 캡처 이미지들은 주어진 모델/장면에 대한 카메라 구성의 포즈들에서 카메라들에 의해 캡처될 이미지들에 대응한다.
모델 저장소(101)는 캡처 이미지들에 대한 모델 깊이 데이터를 생성하도록 배열된 깊이 생성 회로(107)에 추가로 결합된다. 모델 깊이 데이터는 모델로부터 생성되고, 캡처 이미지들 또는 그의 콘텐츠에 기초하지 않는다. 모델 깊이 데이터는 구체적으로 캡처 이미지들의 각각의 픽셀로부터 이미지에 의해 표현된 가장 가까운 객체까지의 모델 내의 거리를 결정함으로써 배열될 수 있다. 이에 따라 모델 깊이 데이터는 모델의 기하학적 특성들을 평가함으로써 생성될 수 있고, 예를 들어 캡처 이미지들을 생성하는 광선 추적 알고리즘의 일부로서 결정될 수 있다.
이에 따라 모델 깊이 데이터는 캡처 이미지들의 콘텐츠에 대한 모델 내의 실제 깊이를 나타내며 그렇기 때문에 실측 깊이 데이터(ground truth depth data)로 간주될 수 있는데, 즉 그것은 매우 정확한 깊이 데이터로 간주될 수 있다.
깊이 생성 회로(107) 및 캡처 회로(105)는 장면의 영역 내의 복수의 테스트 포즈에 대한 제1 뷰 이미지들을 생성하기 위해 모델 깊이 데이터에 기초하여 가상 캡처 이미지들의 처리를 수행하도록 배열된 제1 합성 회로(109)에 결합된다.
이에 따라, 제1 합성 회로(109)는 캡처 이미지들 및 모델 깊이 데이터에 기초하여, 즉 실측 깊이 데이터에 기초하여 복수의 테스트 포즈에 대한 뷰 이미지들을 합성하기 위한 기능을 포함할 수 있다. 합성은 숙련자에게 알려질 바와 같이 뷰 시프팅 등을 포함할 수 있다.
게다가, 몇몇 실시예들에서, 제1 합성 회로(109)는 합성 동작만을 포함할 수 있지만, 많은 실시예에서, 처리는 평가된 응용/시스템에 대한 처리 또는 분배 경로의 일부인 다수의 기능 또는 동작을 추가로 포함할 수 있다. 예를 들어, 나중에 더 상세히 설명될 바와 같이, 처리는 인코딩, 디코딩, 압축, 압축 해제, 뷰 선택, 통신 에러 도입 등을 포함할 수 있다.
이에 따라 제1 합성 회로(109)는 캡처 이미지들에 기초하여 그리고 실측 깊이를 가정하여 합성될 수 있는 이미지들을 생성할 수 있다. 이에 따라 결과적인 이미지는 특정 캡처 구성뿐만 아니라 처리의 영향을 반영할 수 있다.
모델 저장소(101)는 가상 캡처 이미지들에 기초하여 가상 캡처 이미지들에 대한 추정 깊이 데이터를 생성하도록 배열된 깊이 추정 회로(111)에 추가로 결합된다. 이에 따라, 모델 자체에 기초하여 깊이를 결정하는 깊이 생성 회로(107)와는 대조적으로, 깊이 추정 회로(111)는 캡처 이미지들에 기초하여 깊이 데이터를 결정한다.
구체적으로, 깊이 추정 회로(111)는 평가되는 응용/시스템에서 사용될 깊이 추정을 위한 기술들에 기초하여 깊이 추정을 수행할 수 있다. 예를 들어, 깊이 추정은 상이한 캡처 이미지들에서 대응하는 이미지 객체들을 검출하고 이들 사이의 디스패리티를 결정함으로써 수행될 수 있다. 깊이 추정치들은 그러한 디스패리티들에 의해 주어질 수 있다.
이에 따라 추정 깊이 데이터는 실제 응용 및 처리에 의해 생성될 깊이 추정치들을 나타낼 수 있고, 이에 따라 이러한 깊이 추정에 의해 도입될 결함들, 에러들 및 아티팩트들을 반영할 것이다. 추정 깊이 데이터는 모델 깊이 데이터보다 덜 정확한 것으로 간주될 수 있지만, 평가되는 응용/시스템에서 실제로 결정되고 사용될 깊이의 더 양호한 추정치일 수 있다.
깊이 추정 회로(111) 및 캡처 회로(105)는 복수의 테스트 포즈에 대한 제2 뷰 이미지들을 생성하기 위해 추정 깊이 데이터에 기초하여 가상 캡처 이미지들의 처리를 수행하도록 배열된 제2 합성 회로(113)에 결합된다.
이에 따라, 제2 합성 회로(113)는 캡처 이미지들 및 추정 깊이 데이터에 기초하여, 즉 평가되는 응용에 의해 생성된 예상 깊이 데이터에 기초하여 복수의 테스트 포즈에 대한 뷰 이미지들을 합성하기 위한 기능을 포함할 수 있다. 합성은 숙련자에게 알려질 바와 같이 뷰 시프팅 등을 포함할 수 있다.
게다가, 몇몇 실시예들에서, 제2 합성 회로(113)는, 제1 합성 회로(109)와 같이, 합성 동작만을 포함할 수 있지만, 많은 실시예에서, 처리는 인코딩, 디코딩, 압축, 압축 해제, 뷰 선택, 통신 에러 도입 등과 같은, 평가되는 응용/시스템에 대한 처리 또는 분배 경로의 일부인 다수의 기능 또는 동작을 추가로 포함할 수 있다.
이에 따라 제2 합성 회로(113)는 캡처 이미지들 자체에 기초하여 합성될 수 있는 이미지들을 생성할 수 있다. 결과적인 이미지는 특정 캡처 구성뿐만 아니라 처리의 영향을 반영할 수 있다. 또한, 제2 뷰 이미지들은 비이상적인 깊이 추정의 영향을 반영할 수 있고, 평가 중인 응용 및 시스템에서 최종 사용자에 대해 생성될 것으로 예상되는 이미지들을 직접 반영할 수 있다.
기준 회로(103), 제1 합성 회로(109), 및 제2 합성 회로(113)는 제1 뷰 이미지들, 제2 뷰 이미지들, 및 기준 이미지들의 비교에 응답하여 제1 품질 메트릭을 생성하도록 배열된 품질 회로(115)에 결합된다.
품질 메트릭은 구체적으로 상이한 이미지들이 얼마나 유사한지를 반영하도록 결정될 수 있다. 구체적으로, 많은 실시예들에서 품질 메트릭은 (동일한 테스트 포즈들에 대해 그리고 임의의 적합한 차이 척도 또는 메트릭에 따라) 제1 뷰 이미지들, 제2 뷰 이미지들, 및 기준 이미지들 사이의 감소하는 차이에 대한 증가하는 품질을 반영할 수 있다.
품질 메트릭은 카메라 구성의 특성들뿐만 아니라 (제1 및 제2 뷰 이미지들 둘 모두에 대해) 수행되는 처리의 특성들 둘 모두를 반영할 수 있다. 이에 따라, 품질 메트릭은 카메라 구성, 제1 뷰 이미지들을 생성하기 위한 처리, 및 제2 뷰 이미지들을 생성하기 위한 처리 중 적어도 하나의 영향을 반영하도록 생성될 수 있다. 전형적으로, 메트릭은 이들 모두를 반영하도록 생성될 수 있다.
이에 따라 장치는 복잡한, 값비싼, 그리고/또는 어려운 테스트들 및 캡처들이 수행될 것을 요구함이 없이 상이한 카메라 구성들 및/또는 상이한 처리의 품질 영향을 평가하기 위한 매우 효율적이고 정확한 접근법을 제공할 수 있다.
이 접근법은 특히 유리한 평가를 제공할 수 있고, 특히 실측 데이터에 그리고 실제 추정 데이터에 기초하여 생성된 둘 모두의 뷰 이미지들의 고려는 특히 유리한 정보를 제공할 수 있다. 이것은 임의의 캡처에 의존하지 않는 기준 이미지들과의 비교에 의해 더욱 악화된다. 예를 들어, 이것을 기준 이미지들과 비교함으로써 특정 접근법의 품질 영향이 얼마나 큰지를 평가하는 것이 가능할 뿐만 아니라, 또한 깊이 추정을 개선함으로써 상당한 개선이 달성될 수 있는지를 결정하는 것이 가능하다. 깊이 추정 불완전들의 영향 및/또는 캡처 구성에 대한 그들의 의존은 전통적으로 평가 및 구별하기가 매우 복잡하고, 현재의 접근법은 그렇지 않으면 매우 어려운 고도로 효율적이고 유용한 평가를 제공할 수 있다.
특히, 주어진 캡처 구성에 대해, 깊이 추정이 더 낮은 품질인지 또는 (폐색을 야기하는) 뷰 시프팅이 더 낮은 품질인지를 검출하는 능력은 유용하다. 예를 들어, 실측 깊이 및 추정 깊이 둘 모두가 열등한 품질을 야기하는 경우에, 캡처 구성이 더 많은 카메라를 필요로 하거나 뷰 시프팅이 너무 간단하고 (폐색을 처리하기 위해) 더 많은 기준을 포함할 필요가 있거나, 또는 더 정교한 예측 방법이 필요하다.
상이한 품질 메트릭들, 및 그러한 메트릭들을 결정하기 위한 알고리즘들 및 절차들이 개별 실시예의 특정 선호들 및 요건들에 따라 상이한 실시예들에서 사용될 수 있다는 것이 인식될 것이다. 구체적으로, 품질 메트릭 결정은, 사용되는 특정 깊이 추정 및 이미지 합성 접근법들을 비롯해, 정확한 카메라 구성과 이미지 및 깊이 데이터의 처리에 의존할 수 있다.
많은 실시예들에서, 기준 이미지들은 "올바른" 이미지들인 것으로 간주될 수 있고, 제1 뷰 이미지들 및 제2 뷰 이미지들을 "이상적인" 기준 이미지들과 각각 비교함으로써 2개의 품질 메트릭이 생성될 수 있다. 동일한 테스트 포즈에 대해 이것과 기준 이미지 사이의 차이에 기초하여 각각의 뷰 이미지에 대해 부분 품질 메트릭이 결정될 수 있다. 이어서 부분 품질 메트릭들이 결합, 예를 들어 합산되거나 평균되어 각각 제1 뷰 이미지들의 세트 및 제2 뷰 이미지들의 세트 각각에 대한 품질 메트릭을 제공할 수 있다. 품질 메트릭은 2개의 품질 메트릭을 포함하도록 생성될 수 있다(이에 따라 품질 메트릭은 복수의 성분을 포함할 수 있다).
많은 실시예에서, 품질 회로(115)는 제1 뷰 이미지들의 세트의 각각의 뷰 이미지에 대한 신호 대 잡음 척도를 생성하도록 배열될 수 있고, 품질 메트릭은 제1 뷰 이미지들에 대한 이러한 신호 대 잡음 척도들에 응답하여 생성될 수 있다. 예를 들어, 신호 대 잡음 척도들은 예컨대 신호 대 잡음 척도들을 평균함으로써 단일 척도로 결합될 수 있다.
유사하게, 많은 실시예에서, 품질 회로는 제2 뷰 이미지들의 세트의 각각의 뷰 이미지에 대한 신호 대 잡음 척도를 생성하도록 배열될 수 있고, 품질 메트릭은 제2 뷰 이미지들에 대한 이러한 신호 대 잡음 척도들에 응답하여 생성될 수 있다. 예를 들어, 신호 대 잡음 척도들은 예컨대 신호 대 잡음 척도들을 평균함으로써 단일 척도로 결합될 수 있다.
특정 예로서, 예를 들어 다음과 같은 피크 신호 대 잡음비(PSNR)가 사용될 수 있으며,
Figure pct00001
,
여기서,
Figure pct00002
는 뷰 이미지들의 RGB 컬러 채널들에 걸친 평균 제곱 에러이다.
Figure pct00003
은 모든 상황에서 절대 비디오 품질을 평가하기 위한 최적의 메트릭으로 간주되지 않을 수 있지만, 본 발명자는 그것이 단일 데이터세트 내에서 기준 근거를 제공하는 것이 유용한 도 1의 시스템에서의 비교 및 평가에 특히 유용하다는 것을 인식하였다.
제1 합성 회로(109) 및 제2 합성 회로(113)에 의해 수행되는 처리는 앞서 설명된 바와 같이 간단히 캡처 이미지들 및 관련 깊이 데이터(각각 실측 및 추정 깊이 데이터)에 기초하여 적합한 뷰포인트 시프팅 알고리즘들을 사용하여 다른 포즈들에 대한 뷰 이미지들을 합성하는 뷰 합성 동작에 있을 수 있다. 그러한 접근법은 예를 들어 평가되는 특정 카메라 구성의 품질 영향의 합리적인 평가를 제공할 수 있는 품질 메트릭을 생성할 수 있다. 그것은 예를 들어 복수의 카메라 구성이 실세계 장면을 캡처하는 데 사용할 적합한 카메라 구성을 결정하기 위해 평가되는 프로세스에서 사용될 수 있다.
그러나, 많은 실시예들에서, 시스템은 분배의 특정 처리 및 이미지들의 캡처링부터 이미지들의 렌더링까지의 처리와 같은 다른 태양들의 평가를 포함할 수 있다.
도 3은 제1 합성 회로(109) 및 제2 합성 회로(113)의 처리에 포함될 수 있는 처리의 예를 예시한다.
이 예에서, 캡처 이미지는 이미지 인코딩 기능(301)에 공급되고, 깊이 데이터는 깊이 인코딩 기능(303)에 공급되며, 이들은 각각 캡처 이미지 및 관련 깊이 데이터의 인코딩을 수행한다. 제1 합성 회로(109) 및 제2 합성 회로(113)에 의해 수행되는 인코딩은 구체적으로 평가되는 시스템에서 사용되는 인코딩 알고리즘과 정확히 동일할 수 있다.
중요하게도, 캡처 이미지 데이터에 대해 그리고 깊이 데이터에 대해 수행되는 인코딩은 캡처 이미지 및/또는 깊이에 포함된 정보가 적합한 데이터 스트림으로 인코딩될 때 손실되는 손실 인코딩일 수 있다. 이에 따라, 많은 실시예들에서, 이미지/깊이 데이터의 인코딩은 또한 이미지/깊이 데이터의 압축을 포함한다. 구체적으로 손실, 인코딩 및 압축의 영향은 전형적으로 그것이 다른 영향들 및 처리와 상호작용하기 때문에 평가하기가 매우 어렵고, 이에 따라 결과적인 영향은 종종 인코딩 자체와는 다른 특징들에 의존한다. 그러나, 도 1의 장치는 그러한 영향들이 평가 및 고려될 수 있게 한다.
인코딩은 이미지들/프레임들/깊이를 분배를 위해 비트스트림으로 변환하는 임의의 태양을 포함할 수 있다는 것, 그리고 디코딩은 비트스트림으로부터 이미지들/프레임들/깊이를 복구하는 데 요구되는 임의의 처리 또는 동작을 포함할 수 있다는 것이 인식되어야 한다. 예를 들어, 인코딩 및 디코딩은 이미지 또는 깊이 다운-스케일링, 이미지 및 깊이를 함께 단일 텍스처(이미지)로 패킹하는 것, 비트스트림 포맷팅, 압축 등을 포함한 다양한 동작을 포함할 수 있다. 제1 합성 회로(109) 및 제2 합성 회로(113)에 의해 평가 및 구현될 정확한 동작들은 특정 실시예의 선호들 및 요건들에 의존할 것이다.
전형적인 분배 시스템에서, 인코딩된 데이터는 전형적으로 인코딩된 캡처 이미지 데이터뿐만 아니라 깊이 데이터 둘 모두를 포함하는 단일 데이터 스트림으로 통신될 수 있다. 따라서 제1 합성 회로(109) 및/또는 제2 합성 회로(113)는 또한 이러한 통신을 반영하는 처리를 포함할 수 있다. 이것은 예를 들어 레이턴시 및/또는 통신 에러들을 도입할 수 있는 통신 기능(305)에 의해 달성될 수 있다.
제1 합성 회로(109) 및/또는 제2 합성 회로(113)는 캡처 이미지 데이터 및 깊이 데이터 각각에 대한 디코딩 기능들(307, 309)을 추가로 포함할 수 있다. 따라서 이러한 디코딩 기능들(307, 309)은 평가되는 분배 시스템의 클라이언트/수신 단에서 수행되는 디코딩에 대응할 수 있다. 그들은 전형적으로 인코더들(301, 303)에 의해 수행되는 인코딩에 상보적일 수 있다.
이어서 디코딩된 이미지 데이터 및 깊이 데이터는 테스트 포즈들에 대한 이미지들을 합성하도록 배열된 이미지 합성기에 의해 사용된다.
이에 따라, 제1 합성 회로(109) 및 제2 합성 회로(113)의 처리는 이미지 합성 자체를 포함할 수 있을 뿐만 아니라, 카메라들에 의한 이미지들의 캡처링부터 테스트 포즈들에 대한 뷰들의 제시까지의 통신/분배의 일부 또는 실제로 모든 태양들을 포함할 수 있다. 또한, 처리는 평가되는 실세계 시스템에서 사용되는 것과 매칭될 수 있고, 실제로 정확히 동일한 알고리즘, 절차들, 및 실제로 코드가 사용될 수 있다. 따라서, 장치는 카메라 구성을 평가하는 효율적인 수단을 제공할 수 있을 뿐만 아니라, 또한 뷰 이미지들을 생성하기 위해 분배 및 처리에 포함되는 잠재적으로 모든 처리 및 기능의 정확한 평가를 가능하게 한다.
이 접근법의 특별한 이점은 그것이 적절하고 적당한 것으로 간주되는 기능들 및 특징들을 정확히 포함하도록 적응될 수 있다는 것이다. 게다가, 처리는 평가 중인 시스템에서 사용되는 것과 정확히 동일한 알고리즘들 및 기능들을 포함할 수 있고, 이에 따라 이 접근법은 시스템에서 달성될 수 있는 품질의 정확한 표시를 제공할 수 있다.
이미지들 및 깊이를 인코딩, 디코딩, 통신, 및 일반적으로 처리하기 위한 많은 변형 및 알고리즘이 알려져 있다는 것, 그리고 임의의 적합한 접근법이 사용될 수 있다는 것이 인식될 것이다. 다른 실시예에서, 더 많은 또는 더 적은 기능이 제1 합성 회로(109) 및/또는 제2 합성 회로(113)에 의한 처리에 포함될 수 있다는 것이 또한 인식될 것이다. 예를 들어, 처리는 뷰 합성을 수행할 때 상이한 캡처 이미지들 사이에서 선택하기 위한 기능을 포함할 수 있거나, 이미지 조작(예를 들어, 공간 필터링)이 인코딩 전에 적용될 수 있거나, 샤프니스 처리가 디코딩 후에 수행될 수 있거나 등등이다.
도 3은 캡처 이미지 데이터 및 깊이 데이터에 적용될 본질적으로 동일한 처리를 도시하지만, 이것은 필수적이거나 본질적인 것은 아니며 특정 실시예에 의존할 수 있다는 것이 또한 인식될 것이다. 예를 들어, 깊이 데이터가 깊이 맵의 형태인 경우, 이미지 데이터 처리와 유사한 기능들이 종종 사용될 수 있는 반면, 깊이 데이터가 예를 들어 3D 메시에 의해 표현되는 경우, 깊이 및 이미지 데이터의 처리에 있어서 상당한 차이들이 있을 수 있다.
유사하게, 대부분의 실시예에서, 제1 합성 회로(109) 및 제2 합성 회로(113)에 의한 처리는 실질적으로 같거나, 가능하게는 심지어 동일하다. 많은 실시예에서, 유일한 차이점은 하나의 합성 회로는 실측 깊이 데이터를 사용하는 반면 다른 것은 추정 깊이 데이터를 사용한다는 것이다. 그러나, 다른 실시예들에서, 제1 합성 회로(109)와 제2 합성 회로(113)에 의한 처리에 있어서 차이들이 있을 수 있다는 것이 인식될 것이다. 이것은 예를 들어 계산 부담을 줄이기 위해 행해질 수 있거나, 예를 들어 실측 깊이 데이터와 추정 깊이 데이터가 상이한 포맷들로 제공되는 시나리오를 반영할 수 있다.
이 접근법의 특별한 이점은 그것이, 예를 들어, 새로운 뷰들을 합성할 때 깊이의 상이한 표현들 및 깊이를 처리하기 위한 상이한 프로세스들에 쉽게 적응될 수 있다는 것이다.
특히, 몇몇 실시예들에서, 실측 깊이 데이터 및 추정 깊이 데이터 중 적어도 하나는 구체적으로 각각의 캡처 이미지에 대한 깊이 맵일 수 있는 깊이 맵 모델에 의해 표현될 수 있다. 그러한 깊이 맵들은 종종 이미지 데이터에 대해 또한 사용되는 알고리즘들을 사용하여 인코딩 및 디코딩될 수 있다.
그러한 실시예들에서, 제1 합성 회로(109) 및 제2 합성 회로(113)에 의해 수행되는 이미지 합성 기능은 깊이 맵 모델을 사용하여 가상 캡처 이미지의, 테스트 포즈로의 뷰 시프팅을 수행할 수 있다. 구체적으로, 캡처 이미지들의 픽셀들은 이미지 내의 그 픽셀에 대해 표시된 깊이/디스패리티에 의존하는 양만큼 시프트될 수 있다. 이것은 역폐색(de-occlusion)이 발생할 때 생성 이미지들 내의 구멍들을 야기할 수 있다. 그러한 구멍들은 예를 들어 숙련자에게 알려진 바와 같은 인필링(infilling) 또는 보간에 의해 채워질 수 있다.
깊이 맵 모델을 사용하는 것은 많은 시스템들에서 유리할 수 있고, 도 1의 장치는 그러한 처리를 정확하게 반영하도록 적응될 수 있다.
다른 실시예들에서, 다른 깊이 데이터가 채용될 수 있고 다른 이미지 합성 알고리즘들이 사용될 수 있다.
예를 들어, 많은 실시예들에서, 깊이는 다수의 캡처 이미지로부터 생성된 단일 3D 모델에 의해 표현될 수 있다. 3D 모델은 예를 들어 공간 내의 복수의 3D 포인트에 의해 표현될 수 있다. 다수의 캡처 이미지를 결합함으로써 3D 포인트들 각각에 대해 컬러가 결정될 수 있다. 3D 포인트 모델이 세계-공간 내에 있기 때문에, 임의의 뷰가 그것으로부터 합성될 수 있다. 하나의 접근법은 예를 들어 테스트 포즈에 따라 각각의 3D 포인트를 투영하고 이미지를 형성하는 것이다. 이러한 프로세스는 포인트 투영, 깊이 순서의 유지, 및 주어진 3D 포인트에 대응하는 컬러를 주어진 테스트 포즈 가상 카메라 이미지 내의 투영된 픽셀 위치에 매핑하는 것을 사용할 것이다. 깊이 순서의 유지는 가시 표면들만이 이미지 내에 존재하는 것을 확실하게 할 것이다. 이른바 스플래팅(splatting)이 포인트들이 타겟 픽셀의 일부를 커버할 때 그들의 기여를 가중하는 데 사용될 수 있다.
다른 변형들 및 옵션들에 관해서, 도 1의 장치는 또한 그러한 접근법에 쉽게 적응될 수 있고, 그러한 접근법들의 특히 매력적인 평가를 제공할 수 있다. 많은 실시예에서, 그러한 복잡한 접근법은 단순히 동일한 코드/알고리즘을 제1 합성 회로(109) 및/또는 제2 합성 회로(113)에 의한 처리에 포함시킴으로써 처리의 나머지와 함께 평가될 수 있다.
이 접근법은 앞서 언급된 바와 같이 주어진 카메라 구성 및 처리에 대해 달성될 수 있는 정확하고 신뢰성 있는 품질 평가를 가능하게 할 수 있다. 이 접근법은 어떠한 복잡한 물리적 셋업 및 측정도 요구함이 없이 카메라 구성(또는 다양한 카메라 구성들)에 대해 품질 평가들이 이루어질 수 있게 한다. 또한, 시스템은 뷰 이미지들을 생성하기 위한 캡처 이미지들의 처리, 분배 및 합성에 포함되는 다양한 기능들의 품질 평가를 제공할 수 있다. 실제로, 장치는 카메라 구성들, 이미지/깊이 처리(예를 들어, 통신을 포함함), 또는 이들 둘 모두의 유리한 품질 평가를 제공할 수 있다.
장치는 특히 상이한 가능한 카메라 구성들 사이에서 선택하는 데 사용될 수 있다. 상이한 카메라 구성들 사이에서 선택하기 위해 전용 물리적 측정들 및 테스트들을 수행하는 것은 번거롭고 비용이 많이 들 것이지만, 도 1의 장치는 상이한 카메라 구성들 사이에서 비교하는 데 사용될 수 있는 정확한 품질 평가를 가능하게 한다.
다른 실시예들에서, 특정 카메라 구성이 사용될 수 있고, 장치는 예를 들어 제1 합성 회로(109) 및/또는 제2 합성 회로(113)에 의한 처리에 포함하는 처리 단계들 중 하나 이상에 대한 상이한 알고리즘들 또는 파라미터 설정들을 비교하는 데 사용될 수 있다. 예를 들어, 2개의 대안적인 깊이 추정 기술들 사이에서 선택할 때, 도 1의 장치는 둘 모두의 깊이 추정 기술들에 대한 품질 메트릭을 결정하는 데 사용될 수 있고 최상의 것이 선택될 수 있다.
이것의 중요한 이점은 평가되는 특정 특징이 시스템의 다수의 태양들에 기초하여 평가될 수 있다는 것이다. 예를 들어, 캡처 이미지들 또는 그 자체의 깊이 추정의 간단한 비교는 비교적 부정확한 평가를 야기할 가능성이 있는데, 왜냐하면 그것이 예를 들어 상이한 기능들 사이의 상호작용을 포함하지 않기 때문이다.
3가지 유형의 합성 이미지들, 즉 캡처 이미지들의 고려 없이 생성된 기준 이미지들, 진정한 깊이를 고려하여 생성된 제1 뷰 이미지들, 및 추정 깊이를 고려하여 생성된 제2 뷰 이미지들의 사용은 많은 실시예에서 특히 유리하다.
구체적으로, 장면의 모델에 기초하여 평가되는 시스템은 캡처 이미지들로부터 합성된 뷰 이미지들을 평가하기 위한 매우 정확한 기준선을 가능하게 한다. 기준 이미지들은 테스트 포즈들로부터의 "올바른" 이미지들 또는 뷰들로 간주될 수 있는 것에 대한 신뢰성 있는 기준을 제공한다. 이에 따라 그러한 기준 이미지들과의 비교는 뷰 이미지들이 테스트 포즈들로부터 실제로 보여질/캡처될 것과 얼마나 가깝게 매칭되는지에 대한 매우 신뢰성 있고 정확한 표시들을 제공할 수 있다.
게다가, 실측 깊이 데이터 및 추정 깊이 데이터 둘 모두에 기초하여 합성 뷰 이미지를 생성하는 것은 품질 영향을 평가하는 데 특히 유리한 추가 정보를 제공한다. 물론, 그것은 사용된 깊이 추정 알고리즘의 품질 및 품질 영향을 평가하는 데 특히 유용할 수 있다. 이에 따라 그것은 상이한 깊이 추정 알고리즘들 사이에서 선택하는 데 매우 유리할 수 있다.
그러나, 2가지 유형의 깊이 데이터의 고려의 유리함은 또한 처리 또는 카메라 구성의 다른 요소들을 평가하기 위한 유리한 정보를 제공할 수 있다. 예를 들어, 다수의 카메라는 전형적으로 너무 많은 픽셀들 및 너무 높은 비트레이트를 의미한다. 따라서 이미지/깊이 패킹 및 압축이 종종 필요하다. 이미지/깊이 패킹 및 압축이 에러 성능을 좌우하는지 여부를 결정하기 위해, 패킹 및 압축은 명확한 비교를 제공하기 위하여 완전히 생략될 수 있다.
실제로, 하나 이상의 인근 캡처 이미지에 대해 완벽한 깊이가 이용 가능할지라도, 상이한 뷰포인트에 대해 이미지를 완벽하게 합성하는 것은 여전히 가능하지 않다. 이것에 대한 명백한 이유는 폐색 아티팩트들 및 조명 변화들을 포함한다(기준 뷰들과의 각도가 증가할 때 둘 모두의 영향들이 증가함). 이러한 유형의 에러 또는 열화는 모델링 에러 또는 뷰 합성 에러로 지칭될 수 있다.
깊이 추정은 다른 불확실성을 추가하고, 실제로 에러들은 몇몇 위치들에서 매우 클 수 있으며, 사실 전체 합성은 깊이 추정 에러들로 인해 잠재적으로 실패할 수 있다.
실측 깊이 및 추정 깊이 둘 모두에 대한, PSNR과 같은, 품질 메트릭들을 결정하는 것은 카메라 구성을 업데이트하는 방법 및 또한 최대 품질이 달성되었는지 여부의 더 나은 판단을 가능하게 한다. 예를 들어, 실측 깊이를 사용하는 PSNR이 추정 깊이에 대한 PSNR보다 실질적으로 더 양호하지 않은 경우, 추가의 캡처 포즈들 또는 물리적 카메라들을 추가하는 것은 유용하지 않을 수 있다.
이 접근법은 앞서 언급된 바와 같이 상이한 카메라 구성들 사이에서 선택하는 데 사용될 수 있다. 예를 들어, 다양한 가능한 카메라 구성들이 고려될 수 있고, 품질 메트릭이 모든 가능한 카메라 구성들에 대해 도 1의 장치에 의해 결정될 수 있다. 카메라 구성의 복잡도(예를 들어, 카메라들의 수에 의해 표현됨)와 결과적인 품질 사이의 최상의 트레이드-오프가 달성되는 카메라 구성이 선택될 수 있다.
많은 실시예들에서, 도 1의 장치에 의해 생성된 품질 메트릭은 앞서 언급된 바와 같이 제1 뷰 이미지들이 기준 이미지들과 얼마나 가깝게 매칭되는지를 반영하는 제1 품질 메트릭 및 제2 뷰 이미지들이 기준 이미지들과 얼마나 가깝게 매칭되는지를 반영하는 제2 품질 메트릭 둘 모두를 포함할 수 있다.
많은 그러한 실시예들에서, 주어진 카메라 구성의 선택은 제1 및 제2 품질 메트릭 둘 모두가 기준을 충족시키는 것을 필요로 할 수 있다. 예를 들어, 기준은 둘 모두의 품질 메트릭들이 임계치를 초과하는 것, 즉 뷰 이미지들과 기준 이미지들 사이의 차이들이 임계치 미만인 것을 요구할 수 있다.
그러나, 또한, 제1 품질 메트릭 및 제2 품질 메트릭이 서로 충분히 가까울 것이 또한 요구될 수 있는데, 즉 이들 사이의 차이가 주어진 임계치 미만일 것이 요구될 수 있다. 이러한 요건은 깊이가 충분히 정확하게 추정되어 깊이 관련 추정 에러들이 실제로 주어진 캡처 구성을 배치할 때 품질 문제들을 야기할 가능성이 적을 것이라는 신뢰를 제공한다는 점에서 추가의 고려 사항을 제공할 수 있다.
특정 예로서, 장치는 상이한 가능한 카메라 구성들 사이에서 선택하는 데 사용될 수 있다. 카메라 구성들은 그들의 선호되는 상태의 순서로 개별적으로 그리고 순차적으로 평가될 수 있다. 예를 들어, 카메라 구성들은 그들의 복잡도의 순서로 평가될 수 있는데, 예를 들어 카메라 구성들이 각각 3개, 5개, 7개, 9개의 카메라의 선형 배열에 대응하는 경우, 장치는 먼저 3-카메라 카메라 구성을, 뒤이어 5-카메라 카메라 구성, 뒤이어 7-카메라 카메라 구성을, 그리고 마지막으로 뒤이어 9-카메라 카메라 구성을 평가할 수 있다. 장치는 제1 품질 메트릭이 제1 기준을 충족시키고(예를 들어, 그것이 임계치를 초과함), 제2 품질 메트릭이 제2 기준을 충족시키고(예를 들어, 그것이 임계치를 초과함); 제1 품질 메트릭 및 제2 품질 메트릭에 대한 차이 척도가 제3 기준을 충족시키는, 구체적으로 차이 척도가 임계치 미만인 카메라 구성이 결정될 때까지 이러한 카메라 구성들을 순서대로 평가할 수 있다.
이러한 선택 기준은 제1 및 제2 품질 메트릭들이 각각 합성 품질이 충분하다는 것을 나타내기 때문에 특히 유리할 수 있으며, 차이가 작기 때문에 깊이 추정이 실패하지 않는다는 신뢰를 갖는다 - 그것이 실측을 사용할 때와 유사한 합성 결과들을 야기하므로 -.
몇몇 실시예들에서, 제1 품질 메트릭과 제2 품질 메트릭 사이의 차이는 제1 및 제2 (합성된) 뷰 이미지들 사이의 PSNR(또는 다른 적합한 신호 대 잡음비)의 결정에 의해 간접적으로 계산될 수 있다. 이것은 유리한 추가 정보를 제공할 수 있다. 예를 들어, 제1 및 제2 뷰 이미지들 둘 모두의 PSNR이 기준 이미지들과 비교할 때 높지만 서로 비교할 때 낮은 경우, 그 특정 구성/깊이 추정 알고리즘에서의 신뢰는 제1 및 제2 뷰 이미지들 사이의 PSNR이 또한 낮은 경우에 비해 더 적다.
이 접근법은 구체적으로는 6DoF(자유도) 비디오 캡처의 목적으로 상이한 카메라 캡처 구성들 및/또는 이미지 처리를 비교하기 위해 컴퓨터 그래픽(CG) 모델들 및 이미지 시뮬레이션을 사용할 수 있다. 미리 정의된 뷰잉 영역 및 샘플링 위치들/테스트 포즈들의 세트가 주어지면, 각각의 캡처 구성에 대해 단일의 (가능하게는 합성) 품질 메트릭이 계산될 수 있고, 이러한 품질 메트릭들은 최상의 카메라 구성을 선택하는 데 사용될 수 있으며, 그에 의해 예를 들어 성능을 평가하기 위해 각각의 시스템을 실제로 구축하고 테스트할 필요성을 회피할 수 있다.
6DoF 비디오 캡처/생성 및 압축을 위한 경쟁 방법들은 종종 시각적으로, 그리고, 압축의 경우에, 또한 정량적으로 비교된다. 그러나, 품질은 종종 카메라 센서들의 유형, 그들의 공간적 구성(예를 들어, 간격) 및 카메라 파라미터들에 의해 더 많이 결정된다. 그러한 캡처 구성들을 비교하는 것은 종종 비용이 많이 드는데, 그 이유는 그것이 고가의 장비 및 노동 집약적인 셋업들의 생성을 수반하기 때문이다. 본 접근법 및 도 1의 장치는 이러한 문제들을 해결할 수 있다.
구체적으로, 2개 이상의 잠재적인 캡처 구성(및/또는 처리 접근법)을 비교하기 위해, 응용에 적합한 CG 장면(예를 들어, 축구장)이 사용되고 모델에 의해 표현될 수 있다. 이어서 (전형적으로 그리드 상의) 샘플 테스트 포즈들의 세트가 미리-설정된 6DoF 뷰잉 영역의 경계들 내에 정의될 수 있다. 예를 들어 포토리얼리스틱 이미지들의 형태의 가상 캡처 이미지들이 각각의 카메라 포즈에 대해 그리고 평가될 각각의 캡처 구성에 대해 렌더링될 수 있다. 이어서 필요한 처리(예를 들어, 깊이 추정 및 압축)가 추정 깊이 데이터 및 실측 데이터 둘 모두를 사용하여 렌더링된 캡처 이미지들에 적용된다. 다음 단계로서, 뷰 이미지들이 6DoF 뷰잉 영역 내의 테스트 포즈들의 세트에 대해 예측/합성된다. 결과들이 기준 이미지들과 비교될 수 있고, 각각의 캡처 구성에 대해, 단일 품질 메트릭(예를 들어, 모든 샘플들에 걸친 최대 예측 에러)이 계산될 수 있다. 마지막으로, 모든 캡처 구성들의 품질 메트릭들이 비교될 수 있고, 최소 에러를 갖는 구성이 선택될 수 있다.
이 접근법은 특히 상이한 카메라 구성들 및 관련 처리를 평가할 때 감소된 비용을 가능하게 할 수 있다. 이 접근법에서, 시스템의 성능은 값비싼 카메라 장비를 구매하고 예를 들어 스포츠 경기장 주위에 설치할 것을 요구함이 없이 평가될 수 있다. 오히려 평가는 예를 들어 현실적인 CG 축구 모델(경기장 및 플레이어들을 포함함)에 기초할 수 있다. 광선-추적된 이미지들이 또한 깊이를 추정하는 데 사용되어서, 계산 품질이 상당히 낮게 유지될 수 있게 할 수 있다.
하기에서, 특정 예가 더 상세히 설명될 것이다. 도 1의 장치는 이 예에서 구체적으로 주어진 카메라 캡처 구성에 대한 취득을 시뮬레이션하기 위해 가상 장면들의 광선-추적된 이미지들을 사용하는 품질 평가 접근법을 제공할 수 있다. 이미지들은 실시간 깊이 추정 및 뷰-합성 소프트웨어로 전달된다. 이어서 미리-설정된 뷰잉 구역의 테스트 포즈들에 대해 뷰들이 합성되고, 결과적인 이미지들이 광선-추적된 이미지들(기준 이미지들)과 비교된다. 실측 깊이로부터 합성된 이미지들 및 추정 깊이로부터 합성된 이미지들 둘 모두를 광선-추적된 이미지들과 비교함으로써 모델링 에러들이 깊이 추정 에러들로부터 격리될 수 있다.
라이브 6DoF 비디오를 제작하는 것은 다수의 카메라들을 이용한 비디오 캡처, 실시간 깊이 추정, 압축, 스트리밍 및 재생을 요구한다. 이러한 컴포넌트들 모두는 개발 중이고, 이미 만들어져 있는 솔루션은 찾기 어렵다. 개발 동안 올바른 선택들을 하기 위해, 시스템 파라미터들(예를 들어, 카메라들 간의 기준선 거리) 및 깊이 추정 알고리즘들이 이미지 품질에 미치는 영향을 미리 예측할 수 있는 것이 요구된다. 도 1의 장치는 이러한 특정 예에서 그러한 문제들을 해결하고 효율적인 품질 평가 접근법을 제공할 수 있다.
이 예는 영화 창작 및 게임 개발에 일반적으로 사용되는 그래픽 렌더링 엔진인 Blender에 의해 지원되는 모델을 사용한 실제 평가에 기초한다. 이 예에서, Python 인터페이스(예를 들어, 버전 2.79에 대한)가 3 cm의 간격을 갖는 15x15개 앵커들의 규칙적인 그리드 내에 위치된 카메라들에 대한 광선 추적된 이미지들을 생성하는 데 사용된다. 결과적인 뷰잉 구역은 관찰자가 그의/그녀의 머리를 앞뒤로 그리고 좌우로 움직일 수 있게 한다(도 2 참조). 특히, 서 있는 사람에 대한 뷰잉 구역은 제한된 머리 움직임 시차를 허용한다. 주어진 세트의 캡처 카메라 포즈들로부터의 뷰 합성의 품질은 테스트 포즈들의 균일한 그리드 상에서 평가된다.
테스트 포즈들에 대한 기준 이미지들뿐만 아니라 캡처 이미지들을 생성하기 위해 15x15개 이미지들의 Blender 광선 추적을 자동화하는 데 Python이 사용된다. 3 cm의 샘플 간격이 특정 예에서 테스트 포즈들에 대해 x-방향 및 y-방향 둘 모두에서 사용된다. 캡처 리그의 설계를 위해 사전 조사할 핵심 파라미터들 중 하나는 카메라 간격(기준선)이다. 캡처 이미지들을 생성하기 위해 광선 추적된 이미지들을 사용하는 것은 의도된 뷰잉 구역 내의 주어진 최소 품질 레벨에 대한 최적의 기준선의 발견을 허용한다. 대표적인 장면들로서, MakeHuman 소프트웨어를 사용하여 구성된 사람 장면(이하, Human으로 지칭됨) 및 Blender 데모 파일들에 기초한 자동차 장면(이하, Car로 지칭됨)의 캡처를 고려하여 특정 접근법을 분석하였다.
성능 및 시스템 파라미터들을 간단한 척도와 비교하기 위해, 피크 신호 대 잡음비가 사용되며:
Figure pct00004
,
여기서
Figure pct00005
는 RGB 컬러 채널들에 걸친 평균 제곱 에러이다. 또한, 추정 깊이에 기초한 합성 뷰 이미지들을 실측 생성된 이미지들을 사용하여 생성된 합성 이미지들과 시각적으로 비교하였다.
이 예는 도 4에 도시된 바와 같은 시스템을 평가하는 것에 기초하며, 관련 처리는 제1 합성 회로(109) 및 제2 합성 회로(113)에 의해 구현된다.
도 4는 캡처부터 클라이언트 디바이스 상의 렌더링까지의 알고리즘 블록들을 도시한다. 라이브 방송 경우에 대해, 깊이 추정 및 멀티-뷰 레지스트레이션(registration)은 쌍들 또는 카메라들에 대한 내적 및 외적 파라미터들의 교정에 뒤이어 멀티-카메라 포즈 정밀화 단계를 포함할 수 있다. 구체적으로, 프로세스는 디스패리티 추정에 뒤이어, 분류기가 추정 디스패리티가 올바르거나 잘못된 것일 확률을 결정하는 것을 포함할 수 있다. 처리는 30 ㎐에서 실시간 성능을 달성하기 위해 GPU 상에서 구현될 수 있다. 시간적 양방향 필터는 깊이 에러들이 적어도 시간적으로 교란하지 않도록 깊이 맵들이 시간의 함수로서 매끄럽게 변하는 것을 보장할 수 있다.
도 5는 열을 이루어 배열된 6개의 카메라에 대응하는 카메라 구성을 갖는 캡처 리그(501), 처리 유닛(503), 및 디스플레이(505)를 포함하는 실험 셋업의 예를 도시한다. 시스템은 640x1080 해상도의 6-카메라 피드들을 처리하고, 6개의 깊이 맵을 계산하고, 6개의 이미지 및 6개의 깊이 맵을 함께 단일 4K 비디오 프레임으로 패킹하고, 이것을 인코딩하는데, 이들 모두를 30 fps로 실시간으로 행한다. 이에 따라 그러한 시스템은 라이브-스트리밍을 위한 스케일링 가능 저비용 (소비자 하드웨어) 솔루션을 형성한다: 타겟 해상도에 따라, 2개, 4개 또는 6개의 카메라가 단일 PC에 부착될 수 있고, 각각의 PC의 출력은 공통 서버로 스트리밍될 수 있다. 다수의 비디오의 프레임 동기화는 캡처 측에서 처리된다. 각각의 PC의 4K 출력은 그래픽 카드 상에 존재하는 인코더 칩을 사용하여 인코딩된다. 시스템은 통상의 H.264 또는 HEVC 비디오를 출력할 수 있거나, 적응형 스트리밍을 가능하게 하기 위해 HLS/MPEG-DASH 비디오 프래그먼트들을 직접 생성할 수 있다.
클라이언트 측에서, 뷰들이 패킹된 비디오로서 수신되고 플랫폼 특정 하드웨어 디코더를 사용하여 디코딩된다. 디코딩 후에 언패킹이 이어지며, 여기서 필요한 기준 캡처 뷰들 및 깊이 맵들이 패킹된 프레임으로부터 추출된다. 깊이 맵들은 버텍스 셰이더를 사용하여 메시로 변환된다.
스트림 선택이 특정 포즈에 대한 뷰들을 생성하는 데 사용되는 캡처 포즈들에 대응하는 스트림들의 서브세트를 선택하기 위해 클라이언트 디바이스에서 실행된다(도 6 참조). 예를 들어, 클라이언트가 메타데이터로서 이용 가능한 기준 뷰들
Figure pct00006
의 모델 행렬들
Figure pct00007
을 갖는다고 가정될 수 있다. 스트림 선택이 각각의 눈에 대한 4x4 뷰 행렬들
Figure pct00008
Figure pct00009
을 사용하여 2개의 가장 가까운 기준 뷰포인트들을 선택한다. 가장 가까운 뷰포인트는 다음을 사용하여 계산되며:
Figure pct00010
,
여기서,
Figure pct00011
는 뷰
Figure pct00012
에 대한 모델 행렬이고, 동차 좌표
Figure pct00013
이고,
Figure pct00014
는 좌안 또는 우안의 뷰 행렬이다.
이것은 기본적으로, 각각의 눈에 대해, 관련 깊이 정보를 갖는 가장 가까운 캡처 이미지들(전형적으로 2개)이 눈 이미지를 예측하는 데 사용되는 접근법에 대응한다. 절대값 심볼은 벡터를 3D 공간 내의 스칼라 거리로 변환한다. 행렬 V는 눈의 위치 및 배향을 기술하고, 행렬 M은 각각의 기준 뷰의 위치 및 배향을 기술한다. argmin i는 단지 최소 거리가 모든 기준 카메라들에 걸쳐 취해진다는 것을 나타낸다.
이 예에서, 처리 및 뷰 합성은 3D 메시들에 기초할 수 있다. 구체적으로, 초기화 시에, 고정된 크기의 정삼각형 메시가 생성된다. 깊이 맵의 샘플링을 통해, 버텍스 셰이더는 메시의 각각의 버텍스를 클립-스페이스 동차 출력 위치로 직접 변환하며:
Figure pct00015
,
여기서,
Figure pct00016
는 입력 텍스처 좌표들
Figure pct00017
에서 깊이 맵으로부터 도출된 디스패리티이고,
Figure pct00018
는 디스패리티 대 깊이 행렬이고,
Figure pct00019
는 주어진 눈에 대한 모델, 뷰 및 투영 행렬의 곱이다. 특정 예에 대해, 간단한 프래그먼트 셰이더가 사용될 수 있지만, 그것은 원칙적으로 개선된 이미지 품질을 위해 더 진보한 폐색 처리 및/또는 블렌딩을 행하기 위해 사용될 수 있다. 가장 가까운 기준 뷰 및 두 번째로 가장 가까운 기준 뷰 둘 모두는 최종 이미지를 예측하기 위해 함께 블렌딩될 수 있다. 이것은 원칙적으로 6DoF 비디오에 대한 스케일링 가능 솔루션을 허용하며, 여기서 잠재적으로 매우 많은 뷰들의 제한된 서브-세트만이 그/그녀가 이동하는 동안 사용자에게 스트리밍된다. 블렌딩은 예를 들어 기준 뷰들의 근접도에만 의존할 수 있으며:
Figure pct00020
,
여기서,
Figure pct00021
Figure pct00022
는 가장 가까운 그리고 두 번째로 가장 가까운 캡처 뷰들/이미지들까지의 x-축을 따른 거리들이다. 이러한 간단한 블렌딩 방정식은 뷰들 사이의 지각적으로 매끄러운 전이들과 폐색 영역들에서의 뷰 합성의 약간 더 낮은 정확도 사이의 트레이드-오프를 나타낸다.
예를 들어, 도 7 및 도 8은 3개의 상이한 카메라 기준선(카메라 캡처 포즈들 사이의 12 cm, 6 cm 및 3 cm 거리)에 대한 뷰잉 구역 내의 PSNR 변화들을 도시한다.
도 7은 추정 디스패리티/깊이(하부 열)와 비교된 실측 디스패리티(상부 열)를 사용한 변화하는 카메라 기준선에 대한 30-50 dB의 스케일에서의 뷰잉 구역 내부의 장면 Human에 대한 PSNR [dB]를 도시한다. 원들은 카메라 위치들을 나타낸다.
도 8은 추정 디스패리티/깊이(하부 열)와 비교된 실측 디스패리티(상부 열)를 사용한 변화하는 카메라 기준선에 대한 30-50 dB의 스케일에서의 뷰잉 구역 내부의 장면 Car에 대한 PSNR [dB]를 도시한다. 원들은 카메라 위치들을 나타낸다.
이에 따라, 각각의 도면의 상부 열은 실측 깊이 맵들로 생성되는 반면, 하부 열은 추정 깊이 맵들을 사용하여 생성된다. 실측 깊이 및 추정 깊이는 유사한 패턴을 야기하며: 기준선이 작을수록, 뷰잉 구역 내의 PSNR은 더 높다. 하기의 표는 24x24 cm 영역에 걸친 최소 PSNR이 보고되는 2개의 장면에 대한 결과들을 요약한다.
Figure pct00023
PSNR 값들은 Human 장면과 비교할 때 Car 장면에 대해 계통적으로 더 낮다는 것을 알 수 있다. 이것은 픽셀당 단일 깊이 값을 갖는 모델이 분명히 너무 간단한 자동차 내의 투명 객체들(창문들)로 인한 것이다. Car 장면에 대해, 깊이 추정기는 빛나는 그리고/또는 투명한 객체 부분들에 대해 실패할 수 있다.
이 접근법은 실측 깊이와 추정 깊이의 직접적인 비교를 가능하게 한다. 도 9는 Human에 대한 그러한 비교를 도시한다. 도 9는 상이한 카메라 기준선들에 대한 실측 대 추정 디스패리티/깊이를 예시한다. 추정 이미지들을 생성하기 위해, 스케일링을 적용하여 기준선 차이를 보상하였다. 더 큰 기준선에서의 에러들이 더 작은 기준선에서 사라진다.
더 작은 기준선은 더 적은 디스패리티 추정 에러들을 야기한다는 것을 알 수 있다. 이것은 합성이 더 작은 공간 거리에서의 캡처 뷰들로부터 발생하고 폐색/조명 차이들이 더 작은 기준선들에 대해 더 작기 때문에 이해 가능하다.
광선-추적된 실측 이미지들이 이용 가능하기 때문에, 테스트 포즈들에 대한 광선-추적된 이미지들(기준 이미지들), 실측에 기초한 합성 이미지들, 및 깊이 추정에 기초한 합성 이미지들 사이에서 시각적 비교가 이루어질 수 있다. 도 10은 Car 장면에 대한 그러한 비교를 도시하며, 구체적으로 광선-추적된 기준 이미지들, 실측 깊이를 사용하여 합성된 뷰 이미지들, 및 뷰잉 구역 내의 상이한 위치들에 대한, 즉 상이한 기준 포즈들에 대한 이미지들에 대한 추정 깊이(
Figure pct00024
)를 사용하여 합성된 뷰 이미지들 사이의 시각적 비교를 도시한다.
실측 깊이를 사용할 때 광선-추적된 이미지들(기준 이미지들)과 합성 이미지들 사이에 임의의 가시적인 차이들이 거의 없다는 것을 알 수 있다. 추정 깊이를 사용할 때, 얼마간의 이미지 블러링이 발생한다.
이 예의 장치는 예를 들어 광선-추적된 이미지들에 기초한 시뮬레이션 접근법이 예를 들어 6DoF 비디오 방송 시스템의 품질을 예측할 수 있게 할 수 있다. 예를 들어 카메라 간격, 실시간 깊이 추정 및 뷰 합성으로 인해 에러들 또는 열화들이 발생할 수 있고, 설명된 접근법은 이들 모두를 평가할 수 있다.
이 접근법은 추정 에러들로부터의 모델링 에러들의 분리/격리를 가능하게 하며, 이는 깊이 추정 및 뷰 합성을 개선하려고 시도할 때 유용하다. 이 접근법은 더 복잡한(360도) 캡처 리그들 또는 잠재적으로 매우 큰 카메라 어레이들의 설계에 사용될 수 있다.
위의 설명은 명료함을 위해 상이한 기능 회로들, 유닛들 및 프로세서들을 참조하여 본 발명의 실시예들을 설명하였음이 인식될 것이다. 그러나, 본 발명으로부터 벗어남이 없이 상이한 기능 회로들, 유닛들 또는 프로세서들 간의 기능의 임의의 적합한 분산이 사용될 수 있음이 명백할 것이다. 예를 들어, 별개의 프로세서들 또는 컨트롤러들에 의해 수행되도록 예시된 기능이 동일한 프로세서 또는 컨트롤러에 의해 수행될 수 있다. 따라서, 특정 기능 유닛들 또는 회로들에 대한 언급들은 오로지 엄격한 논리적 또는 물리적 구조 또는 조직을 나타내기보다는 설명된 기능을 제공하기 위한 적합한 수단에 대한 언급들로 간주되어야 한다.
본 발명은 하드웨어, 소프트웨어, 펌웨어 또는 이들의 임의의 조합을 포함한 임의의 적합한 형태로 구현될 수 있다. 본 발명은 선택적으로 하나 이상의 데이터 프로세서 및/또는 디지털 신호 프로세서 상에서 실행되는 컴퓨터 소프트웨어로서 적어도 부분적으로 구현될 수 있다. 본 발명의 실시예의 요소들 및 컴포넌트들은 임의의 적합한 방식으로 물리적으로, 기능적으로 그리고 논리적으로 구현될 수 있다. 실제로, 기능은 단일 유닛에서, 복수의 유닛에서 또는 다른 기능 유닛들의 일부로서 구현될 수 있다. 그렇기 때문에, 본 발명은 단일 유닛에서 구현될 수 있거나, 상이한 유닛들, 회로들 및 프로세서들 간에 물리적으로 그리고 기능적으로 분산될 수 있다.
본 발명이 몇몇 실시예들과 관련하여 설명되었지만, 본 발명은 본 명세서에 기재된 특정 형태로 제한되도록 의도되지 않는다. 오히려, 본 발명의 범위는 첨부된 청구항들에 의해서만 제한된다. 또한, 소정 특징이 특정 실시예들과 관련하여 설명되는 것처럼 보일 수 있지만, 당업자는 설명된 실시예들의 다양한 특징들이 본 발명에 따라 조합될 수 있음을 인식할 것이다. 청구항들에서, 용어 '포함하는'은 다른 요소들 또는 단계들의 존재를 배제하지 않는다.
또한, 개별적으로 열거되지만, 복수의 수단, 요소, 회로 또는 방법 단계는 예를 들어 단일 회로, 유닛 또는 프로세서에 의해 구현될 수 있다. 또한, 개별 특징들이 상이한 청구항들에 포함될 수 있지만, 이들은 아마도 유리하게도 조합될 수 있으며, 상이한 청구항들에의 포함은 특징들의 조합이 실현 가능하지 않고/않거나 유리하지 않다는 것을 암시하지는 않는다. 또한 하나의 카테고리의 청구항들에의 소정 특징의 포함은 이 카테고리로의 제한을 암시하는 것이 아니라, 오히려 그 특징이 적절한 바에 따라 다른 청구항 카테고리들에 동등하게 적용될 수 있음을 나타낸다. 또한, 청구항들에서의 특징들의 순서는 특징들이 작용되어야 하는 임의의 특정 순서를 암시하지는 않으며, 특히 방법 청구항에서의 개별 단계들의 순서는 단계들이 이 순서대로 수행되어야 함을 암시하지는 않는다. 오히려, 단계들은 임의의 적합한 순서로 수행될 수 있다. 또한, 단수형 언급은 복수를 배제하지 않는다. 이에 따라 "부정관사(a, an)", "제1", "제2" 등에 대한 언급은 복수를 배제하지 않는다. 청구항들에서의 참조 부호들은 단지 명료화 예로서 제공되며, 어떤 방식으로도 청구항들의 범주를 제한하는 것으로 해석되지 않아야 한다.

Claims (15)

  1. 이미지 캡처에 대한 품질을 평가하기 위한 장치로서,
    장면(scene)의 모델을 저장하기 위한 저장소(101);
    카메라 구성의 복수의 카메라 포즈(camera pose)들에 대한 가상 캡처 이미지들을 생성하기 위한 캡처 회로(105)로서, 상기 모델에 기초하여 상기 카메라 포즈들에 대한 이미지들을 렌더링함으로써 상기 가상 캡처 이미지들을 생성하도록 배열되는, 상기 캡처 회로(105);
    상기 모델로부터 상기 가상 캡처 이미지들에 대한 모델 깊이 데이터를 생성하기 위한 깊이 생성 회로(107);
    상기 장면의 영역 내의 복수의 테스트 포즈들에 대한 제1 뷰 이미지들을 생성하기 위해 상기 모델 깊이 데이터에 기초하여 상기 가상 캡처 이미지들을 처리하기 위한 제1 합성 회로(109);
    상기 가상 캡처 이미지들에 기초하여 상기 가상 캡처 이미지들에 대한 추정 깊이 데이터를 생성하기 위한 깊이 추정 회로(111);
    상기 복수의 테스트 포즈들에 대한 제2 뷰 이미지들을 생성하기 위해 상기 추정 깊이 데이터에 기초하여 상기 가상 캡처 이미지들을 처리하기 위한 제2 합성 회로(113);
    상기 모델에 기초하여 상기 복수의 테스트 포즈들에 대한 이미지들을 렌더링함으로써 상기 복수의 테스트 포즈들에 대한 기준 이미지들을 생성하기 위한 기준 회로(103);
    상기 제1 뷰 이미지들, 상기 제2 뷰 이미지들, 및 상기 기준 이미지들의 비교에 응답하여 상기 카메라 구성, 상기 제1 뷰 이미지들을 생성하기 위한 상기 처리, 및 상기 제2 뷰 이미지들을 생성하기 위한 상기 처리 중 적어도 하나에 대한 품질 메트릭(quality metric)을 생성하기 위한 품질 회로(115)를 포함하는, 이미지 캡처에 대한 품질을 평가하기 위한 장치.
  2. 제1항에 있어서, 상기 제1 합성 회로(109) 및 상기 제2 합성 회로(113)에 의한 상기 처리 중 적어도 하나는, 상기 가상 캡처 이미지들 중 제1 가상 캡처 이미지에 대한 깊이 맵 모델(depth map model)을 생성하는 것, 및 상기 깊이 맵 모델을 사용하여 상기 제1 가상 캡처 이미지를 상기 복수의 테스트 포즈들 중의 테스트 포즈로 뷰 시프팅(view shifting)하는 것을 포함하는, 이미지 캡처에 대한 품질을 평가하기 위한 장치.
  3. 제1항 또는 제2항에 있어서, 상기 제1 합성 회로(109) 및 상기 제2 합성 회로(113)에 의한 상기 처리 중 적어도 하나는, 상기 가상 캡처 이미지들로부터 결정된 적어도 하나의 깊이 모델을 사용하여 3D 포인트들의 세트를 결정하는 것, 상기 가상 캡처 이미지들 중 적어도 하나의 가상 캡처 이미지를 사용하여 각각의 3D 포인트에 대한 컬러를 결정하는 것, 및 상기 3D 포인트들의 투영에 기초하여 상기 복수의 테스트 포즈들 중의 테스트 포즈에 대한 새로운 이미지를 합성하는 것을 포함하는, 이미지 캡처에 대한 품질을 평가하기 위한 장치.
  4. 제1항 내지 제3항 중 어느 한 항에 있어서, 상기 품질 회로(311)는 상기 제1 뷰 이미지들에 대한 제1 품질 메트릭 및 상기 제2 뷰 이미지들에 대한 제2 품질 메트릭을 포함하도록 상기 품질 메트릭을 결정하도록 배열되는, 이미지 캡처에 대한 품질을 평가하기 위한 장치.
  5. 제4항에 있어서, 상기 품질 회로(311)는 복수의 카메라 구성들에 대한 품질 메트릭들을 결정하도록, 그리고 상기 제1 품질 메트릭 및 상기 제2 품질 메트릭 둘 모두에 응답하여 상기 복수의 카메라 구성들 사이에서 선택하도록 배열되는, 이미지 캡처에 대한 품질을 평가하기 위한 장치.
  6. 제5항에 있어서, 상기 품질 회로(311)는 적어도,
    상기 제1 품질 메트릭이 제1 기준을 충족시키는 것,
    상기 제2 품질 메트릭이 제2 기준을 충족시키는 것, 및
    상기 제1 품질 메트릭 및 상기 제2 품질 메트릭에 대한 차이 척도가 제3 기준을 충족시키는 것
    에 응답하여 상기 복수의 카메라 구성들 사이에서 카메라 구성을 선택하도록 배열되는, 이미지 캡처에 대한 품질을 평가하기 위한 장치.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서, 상기 품질 회로(311)는 각각의 제2 뷰 이미지에 대한 신호 대 잡음 척도를 생성하도록, 그리고 상기 제2 뷰 이미지들에 대한 상기 신호 대 잡음 척도들에 응답하여 상기 품질 메트릭을 생성하도록 배열되는, 이미지 캡처에 대한 품질을 평가하기 위한 장치.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서, 상기 제1 합성 회로(109) 및 상기 제2 합성 회로(113) 중 적어도 하나의 상기 처리는, 상기 가상 캡처 이미지들의 인코딩 및 디코딩을, 인코딩 및 디코딩된 가상 캡처 이미지들에 기초한 이미지 합성 전에 포함하는, 이미지 캡처에 대한 품질을 평가하기 위한 장치.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서, 상기 제1 합성 회로(109) 및 상기 제2 합성 회로(113) 중 적어도 하나의 상기 처리는, 상기 가상 캡처 이미지들과 연관된 상기 깊이 데이터 및 상기 추정 깊이 데이터 중 적어도 하나의 인코딩 및 디코딩을, 상기 모델 깊이 데이터 및 상기 추정 깊이 데이터 중 상기 적어도 하나에 기초한 이미지 합성 전에 포함하는, 이미지 캡처에 대한 품질을 평가하기 위한 장치.
  10. 제8항 또는 제9항에 있어서, 상기 인코딩은 손실 인코딩을 포함하는, 이미지 캡처에 대한 품질을 평가하기 위한 장치.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서, 적어도 몇몇 카메라 포즈들은 적어도 몇몇 테스트 포즈들과 동일한, 이미지 캡처에 대한 품질을 평가하기 위한 장치.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서, 카메라 포즈들보다 10배 이상 더 많은 테스트 포즈들이 존재하는, 이미지 캡처에 대한 품질을 평가하기 위한 장치.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서, 상기 카메라 위치들은 1차원 배열을 형성하는 반면, 상기 테스트 위치들은 2차원 또는 3차원 배열을 형성하는, 이미지 캡처에 대한 품질을 평가하기 위한 장치.
  14. 이미지 캡처에 대한 품질을 평가하는 방법으로서,
    장면의 모델을 저장하는 단계;
    카메라 구성의 복수의 카메라 포즈들에 대한 가상 캡처 이미지들을, 상기 모델에 기초하여 상기 카메라 포즈들에 대한 이미지들을 렌더링함으로써 생성하는 단계;
    상기 모델로부터 상기 가상 캡처 이미지들에 대한 모델 깊이 데이터를 생성하는 단계;
    상기 장면의 영역 내의 복수의 테스트 포즈들에 대한 제1 뷰 이미지들을 생성하기 위해 상기 모델 깊이 데이터에 기초하여 상기 가상 캡처 이미지들을 처리하는 단계;
    상기 가상 캡처 이미지들에 기초하여 상기 가상 캡처 이미지들에 대한 추정 깊이 데이터를 생성하는 단계;
    상기 복수의 테스트 포즈들에 대한 제2 뷰 이미지들을 생성하기 위해 상기 추정 깊이 데이터에 기초하여 상기 가상 캡처 이미지들을 처리하는 단계;
    상기 모델에 기초하여 상기 복수의 테스트 포즈들에 대한 이미지들을 렌더링함으로써 상기 복수의 테스트 포즈들에 대한 기준 이미지들을 생성하는 단계;
    상기 제1 뷰 이미지들, 상기 제2 뷰 이미지들, 및 상기 기준 이미지들의 비교에 응답하여 상기 카메라 구성, 상기 제1 뷰 이미지들을 생성하기 위한 상기 처리, 및 상기 제2 뷰 이미지들을 생성하기 위한 상기 처리 중 적어도 하나에 대한 품질 메트릭을 생성하는 단계를 포함하는, 이미지 캡처에 대한 품질을 평가하는 방법.
  15. 컴퓨터 프로그램 제품으로서, 상기 프로그램이 컴퓨터 상에서 실행될 때 제14항의 단계들 모두를 수행하도록 구성된 컴퓨터 프로그램 코드 수단을 포함하는, 컴퓨터 프로그램 제품.
KR1020227011907A 2019-09-12 2020-09-08 장면의 이미지 캡처의 품질을 평가하기 위한 장치 및 방법 KR20220062591A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP19196992.2 2019-09-12
EP19196992.2A EP3792877A1 (en) 2019-09-12 2019-09-12 Apparatus and method for evaluating a quality of image capture of a scene
PCT/EP2020/075045 WO2021048107A1 (en) 2019-09-12 2020-09-08 Apparatus and method for evaluating a quality of image capture of a scene

Publications (1)

Publication Number Publication Date
KR20220062591A true KR20220062591A (ko) 2022-05-17

Family

ID=67956478

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227011907A KR20220062591A (ko) 2019-09-12 2020-09-08 장면의 이미지 캡처의 품질을 평가하기 위한 장치 및 방법

Country Status (9)

Country Link
US (1) US11978187B2 (ko)
EP (2) EP3792877A1 (ko)
JP (1) JP7527351B2 (ko)
KR (1) KR20220062591A (ko)
CN (1) CN114364962A (ko)
BR (1) BR112022004415A2 (ko)
CA (1) CA3153833A1 (ko)
TW (1) TW202126033A (ko)
WO (1) WO2021048107A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230025347A1 (en) * 2021-07-19 2023-01-26 Mediatek Inc. Graphics fusion technology scene detection and resolution controller
DE102021121080A1 (de) 2021-08-13 2023-02-16 Inline3D GmbH Messvorrichtung und Verfahren zur Messung eines Objekts
DE102021121073A1 (de) 2021-08-13 2023-02-16 Inline3D GmbH Messvorrichtung und Verfahren zur Messung eines Objektes
TWI779808B (zh) * 2021-08-30 2022-10-01 宏碁股份有限公司 影像處理方法
US20230269499A1 (en) * 2022-02-23 2023-08-24 Sony Group Corporation Method for automatic sensor pixel arrangement optimized for multiple camera tasks

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9406132B2 (en) 2010-07-16 2016-08-02 Qualcomm Incorporated Vision-based quality metric for three dimensional video
EP2765775A1 (en) 2013-02-06 2014-08-13 Koninklijke Philips N.V. System for generating intermediate view images
EP3435670A1 (en) * 2017-07-25 2019-01-30 Koninklijke Philips N.V. Apparatus and method for generating a tiled three-dimensional image representation of a scene
EP3509308A1 (en) * 2018-01-05 2019-07-10 Koninklijke Philips N.V. Apparatus and method for generating an image data bitstream
JP6407460B1 (ja) 2018-02-16 2018-10-17 キヤノン株式会社 画像処理装置、画像処理方法およびプログラム

Also Published As

Publication number Publication date
CN114364962A (zh) 2022-04-15
TW202126033A (zh) 2021-07-01
EP4028995A1 (en) 2022-07-20
US20220383476A1 (en) 2022-12-01
CA3153833A1 (en) 2021-03-18
US11978187B2 (en) 2024-05-07
BR112022004415A2 (pt) 2022-05-31
JP7527351B2 (ja) 2024-08-02
JP2022548853A (ja) 2022-11-22
EP3792877A1 (en) 2021-03-17
WO2021048107A1 (en) 2021-03-18

Similar Documents

Publication Publication Date Title
US11978187B2 (en) Apparatus and method for evaluating a quality of image capture of a scene
Azevedo et al. Visual distortions in 360° videos
KR20170127505A (ko) 환경 측정들을 하고 및/또는 3d 이미지 렌더링에서 이러한 측정들을 사용하기 위한 방법들 및 장치
KR102499904B1 (ko) 가상 현실 미디어 콘텐트 내에 포함시키기 위해 실세계 장면의 맞춤화된 뷰의 가상화된 투영을 생성하기 위한 방법들 및 시스템들
US20180310025A1 (en) Method and technical equipment for encoding media content
CN114009012B (zh) 内容分发方法、图像捕获和处理系统、回放系统、操作回放系统的方法及计算机可读介质
CA3113757A1 (en) Image synthesis
US11348252B1 (en) Method and apparatus for supporting augmented and/or virtual reality playback using tracked objects
BR112021014627A2 (pt) Aparelho e método para renderizar imagens a partir de um sinal de imagem que representa uma cena, aparelho e método para gerar um sinal de imagem que representa uma cena, produto de programa de computador, e sinal de imagem
RU2732989C2 (ru) Способ, устройство и система для формирования видеосигнала
CN114897681A (zh) 基于实时虚拟视角插值的多用户自由视角视频方法及系统
EP3716217A1 (en) Techniques for detection of real-time occlusion
EP4114008A1 (en) Image generation
US11688124B2 (en) Methods and apparatus rendering images using point clouds representing one or more objects
EP4246988A1 (en) Image synthesis
US20220174259A1 (en) Image signal representing a scene
EP4254958A1 (en) Compression of depth maps