KR102467262B1

KR102467262B1 - 송신장치, 송신방법 및 프로그램

Info

Publication number: KR102467262B1
Application number: KR1020210016229A
Authority: KR
Inventors: 타카시 하나모토
Original assignee: 캐논 가부시끼가이샤
Priority date: 2017-09-19
Filing date: 2021-02-04
Publication date: 2022-11-16
Also published as: CN109525831B; CN111343447A; CN109525831A; JP6433559B1; US11750786B2; KR20190032228A; US20200344456A1; EP3473311A1; CN111343447B; EP3721957A1; JP2019054488A; KR20210016021A; ES2807075T3; EP3473311B1; US10757388B2; KR102215166B1; US20230353716A1; US20220060670A1; US20190089942A1; US11196973B2

Abstract

가상 시점 영상의 생성을 위해 사용되는 3차원 형상 데이터를 제공하는 제공장치는, 통신장치로부터 데이터 요구를 수신하고, 수신한 데이터 요구의 송신원인 통신장치에 대하여, 제1 3차원 형상 데이터, 및 제1 3차원 형상 데이터와는 품질이 다른 제2 3차원 형상 데이터를 포함하는 복수의 3차원 형상 데이터 중 어느 것을 제공할 것인지 결정하고, 복수의 3차원 형상 데이터 중에서 결정된 3차원 형상 데이터를 상기 수신한 데이터 요구에 대한 응답으로서 통신장치에 대해 제공한다.

Description

송신장치, 송신방법 및 프로그램{Transmitting apparatus, transmitting method and program}

본 발명은, 가상 시점 영상에 관한 처리를 행하는 송신장치, 송신방법 및 프로그램에 관한 것이다.

자유 시점 영상(가상 시점 영상) 기술은, 복수의 실제 카메라 영상을 사용하여, 3차원 공간내의 임의의 위치에 배치한 가상 카메라로부터의 영상을 재현하는 기술의 일례이다. 가상 시점 영상 기술에서는, 피사체의 3차원 형상을 추정함으로써, 임의의 가상 카메라 위치에서 얻은 영상을 생성한다. 피사체의 모델 데이터(3차원 형상과 텍스처 화상)를 유저의 단말에 송신함으로써, 유저에 의해 행해진 인터랙티브한 조작에 대응한 가상 시점 영상을 생성하는 것이 가능하다. 그러나, 피사체의 모델 데이터의 데이터량은 방대하기 때문에, 모델 데이터의 송신은 통신 대역을 압박해 버린다. 일본국 특허 제5563545호 공보는, 송신되는 데이터량을 삭감하는 방법으로서, 형상의 변화량에 따라 3차원 형상의 구성 밀도를 변동시키는 구성을 제안하고 있다.

그렇지만, 일본국 특허 제5563545호 공보는, 형상의 구성 밀도에만 착안하고 있기 때문에, 유저에게 있어서 필요한 정보가 결핍할 우려가 있다. 따라서, 일본국 특허 제5563545호 공보에 기재된 데이터량의 삭감 수단은, 가상 시점 영상을 생성하기 위한 모델 데이터를 생성하는데 맞지 않다.

본 발명의 일 실시형태는, 가상 시점 영상을 재생하기 위한 모델 데이터의 데이터량을 효율적으로 삭감 가능하게 하는 3차원 형상 데이터의 송신장치 및 송신방법을 개시한다.

본 발명의 일면에 따르면, 가상 시점 영상의 생성을 위해 사용되는 3차원 형상 데이터를 제공하도록 구성된 제공장치로서, 통신장치로부터 데이터 요구를 수신하는 수신 수단과, 상기 수신 수단이 수신한 데이터 요구의 송신원인 상기 통신장치에 대하여, 제1 3차원 형상 데이터, 및 상기 제1 3차원 형상 데이터와는 품질이 다른 제2 3차원 형상 데이터를 포함하는 복수의 3차원 형상 데이터 중 어느 것을 제공할 것인지 결정하는 결정 수단과, 상기 결정 수단에 의해 상기 복수의 3차원 형상 데이터 중에서 결정된 3차원 형상 데이터를, 상기 수신 수단이 수신한 상기 데이터 요구에 대한 응답으로서 상기 통신장치에 대해 제공하는 제공 수단을 구비한 제공장치가 제공된다.

본 발명의 또 다른 일면에 따르면, 가상 시점 영상의 생성을 위해 사용되는 3차원 형상 데이터를 제공하는 제공방법으로서, 통신장치로부터 데이터 요구를 수신하는 단계와, 상기 수신된 데이터 요구의 송신원인 상기 통신장치에 대하여, 제1 3차원 형상 데이터, 및 상기 제1 3차원 형상 데이터와는 품질이 다른 제2 3차원 형상 데이터를 포함하는 복수의 3차원 형상 데이터 중 어느 것을 제공할 것인지 결정하는 단계와, 상기 복수의 3차원 형상 데이터 중에서 결정된 3차원 형상 데이터를, 상기 수신된 데이터 요구에 대한 응답으로서 상기 통신장치에 대해 제공하는 단계를 포함하는 제공방법이 제공된다.

본 발명의 또 다른 일면에 따르면, 컴퓨터에, 가상 시점 영상의 생성을 위해 사용되는 3차원 형상 데이터를 제공하는 제공방법을 실행하게 하는, 컴퓨터 판독가능한 기억매체에 기억된 컴퓨터 프로그램으로서, 상기 제공방법은, 통신장치로부터 데이터 요구를 수신하는 단계와, 상기 수신된 데이터 요구의 송신원인 상기 통신장치에 대하여, 제1 3차원 형상 데이터, 및 상기 제1 3차원 형상 데이터와는 품질이 다른 제2 3차원 형상 데이터를 포함하는 복수의 3차원 형상 데이터 중 어느 것을 제공할 것인지 결정하는 단계와, 상기 복수의 3차원 형상 데이터 중에서 결정된 3차원 형상 데이터를, 상기 수신된 데이터 요구에 대한 응답으로서 상기 통신장치에 대해 제공하는 단계를 포함하는 컴퓨터 프로그램이 제공된다.

본 발명의 또 다른 일면에 따르면, 복수의 촬상장치로 촬영함으로써 얻어진 복수의 촬영 화상에 근거하여 생성된 복수의 3차원 형상 데이터로부터 가상 시점 영상의 생성을 위해 사용되는 3차원 형상 데이터를 판정하는 판정 수단 - 상기 복수의 3차원 형상 데이터는 복수의 점 또는 복셀에 의해 나타내는 3차원 형상 데이터와 메쉬에 의해 나타내는 3차원 형상 데이터를 포함함; 및 상기 판정 수단에 의해 판정된 3차원 형상 데이터를 다른 장치에 송신하는 송신 수단을 구비한 송신장치가 제공된다.

본 발명의 또 다른 일면에 따르면, 복수의 촬상장치로 촬영함으로써 얻어진 복수의 촬영 화상에 근거하여 생성된 복수의 3차원 형상 데이터로부터 가상 시점 영상의 생성을 위해 사용되는 3차원 형상 데이터를 판정하는 판정 단계 - 상기 복수의 3차원 형상 데이터는 복수의 점 또는 복셀에 의해 나타내는 3차원 형상 데이터와 메쉬에 의해 나타내는 3차원 형상 데이터를 포함함; 및 상기 판정 단계에서 판정된 3차원 형상 데이터를 다른 장치에 송신하는 송신 단계를 포함하는 송신방법이 제공된다.

본 발명의 또 다른 특징은 (첨부도면을 참조하여 주어지는) 이하의 실시형태의 상세한 설명으로부터 명백해질 것이다.

도 1a는, 화상 표시 시스템의 구성과, 화상 처리장치의 구성을 나타내는 블럭도다.
도 1b는, 표시장치의 구성을 나타내는 블럭도다.
도 2는, 화상 표시 시스템에 있어서의 카메라의 배치를 나타내는 개요도다.
도 3은, 가상 시점 영상의 송신의 처리를 나타내는 흐름도다.
도 4는, 계층 모델 데이터 생성의 처리를 나타내는 흐름도다.
도 5a 내지 도 5c는, 계층 모델 데이터의 개요를 나타낸 도면이다.
도 6a 내지 도 6d는, 속성 데이터의 개요를 나타낸 도면이다.
도 7은, 속성 데이터의 생성 처리를 나타내는 흐름도다.
도 8a 및 도 8b는, 모델 데이터 송신 처리를 나타내는 흐름도다.
도 9a 및 도 9b는, 표시장치의 GUI를 나타낸 도면이다.
도 10은, 가상 시점 영상의 생성 처리를 나타내는 흐름도다.
도 11a 및 도 11b는, 송신용 데이터를 나타낸 도면이다.
도 12a 및 도 12b는, 속성 데이터의 수정 처리를 설명하는 도면이다.
도 13a 내지 도 13c는, 속성 데이터의 수정 처리의 다른 예를 설명하는 도면이다.

이하, 본 발명의 실시형태에 대해서, 도면을 참조해서 설명한다. 이때, 이하의 실시형태는 본 발명을 한정하는 것은 아니고, 또한, 본 실시형태에서 설명되고 있는 특징의 조합의 모두가 본 발명의 해결 수단에 필수적인 것이라고는 할 수 없다. 이때, 동일한 구성에 대해서는, 동일한 부호를 붙여 설명한다.

제1 실시형태

제1실시형태에서는, 유저 단말에서 인터랙티브한 가상 시점 영상의 재생시에 필요한 모델 데이터의 송신 방법에 관해서 설명한다. 여기에서는, 설명을 간단하게 하기 위해서, 송신원인 서버가 1개이고, 수신처인 클라이언트가 복수인 케이스를 상정한다. 로케이션을 축구 경기가 행해지는 스타디움 내로 설정하고, 서버인 화상 처리장치가 스타디움 내에 존재하고, 관객석에 있어서, 유저가 클라이언트인 표시장치(스마트 폰, 태블릿 등의 단말)를 조작하여, 가상 시점 영상을 열람한다. 이때, 본 실시형태에 있어서, 가상 시점 영상은, 가상적으로 설정된 시점에서 시청한 영상을 의미한다. "가상 시점 영상"에 유사한 용어로서, "자유 시점 영상"과 "임의 시점 영상" 등의 호칭도 존재한다.

도 1a는, 제1 실시형태에 따른, 화상 처리장치의 구성 예와 화상 표시 시스템의 구성 예를 나타낸 블럭도다. 제공장치로서의 화상 처리장치(100)는, 가상 시점 영상의 생성을 위해 사용되는 3차원 형상 데이터와 텍스처 데이터를, 데이터 요구를 행한 통신장치(본 실시형태에서는, 유저 단말(130)(표시장치))에 제공한다. 화상 처리장치(100)는, CPU(101), 메인 메모리(102), 기억부(103), 입력부(104), 표시부(105), 외부 I/F부(106), 버스(107)를 구비한다. CPU(101)은, 연산 처리와 각종 프로그램을 실행한다. 메인 메모리(102)는, 처리에 필요한 프로그램, 데이터, 작업 영역 등을 CPU(101)에게 제공한다. 기억부(103)는, 화상처리 프로그램, GUI 표시에 필요한 각종 데이터 등을 격납한다. 기억부(103)에는, 예를 들면, 하드디스크나 실리콘 디스크 등의 불휘발성 메모리가 사용된다. 입력부(104)는, 키보드나 마우스 등의 장치이며, 서버 관리자로부터의 조작 입력을 접수한다. 표시부(105)는 GUI의 표시를 행한다. 외부 I/F부(106)는, LAN(108)을 거쳐 카메라 장치군이나 표시 장치군과 접속하여, 영상 데이터, 제어신호 데이터와 모델 데이터의 송수신을 행한다. 버스(107)는 상기한 각 부를 접속하고, 데이터 전송을 행한다.

LAN(108)은 유선 및/또는 무선으로 구성되고, 화상 처리장치, 카메라 장치군, 표시장치군, 분석 장치 사이에서의 데이터 송수신에 이용된다. 카메라 장치군은 복수의 카메라(120)로 구성된다. 각각의 카메라(120)는 LAN(108) 경유로 화상 처리장치(100)와 접속되어 있고, 화상 처리장치(100)로부터의 제어신호를 기초로, 카메라(120)는 촬영의 개시와 정지, 카메라 설정(셔터 스피드, 초점거리, 조리개 값 등)의 변경, 촬영 데이터의 전송을 행한다. 표시장치군은, 복수의 유저 단말(130)(스마트 폰이나 태블릿 등)로 구성된다. 각각의 유저 단말(130)은 LAN(108) 경유로 화상 처리장치(100)와 접속되어 있고, 화상 처리장치(100)로부터 가상 시점 영상의 열람에 필요한 모델 데이터를 수신한다. 유저 단말(130)은, 수신한 모델 데이터를 사용하여, 가상 시점 영상을 생성 및 표시한다. LAN(108)의 통신 대역은 유한하기 때문에, 유저 단말(130)이 수신가능한 모델 데이터의 사이즈는 유저 수에 의존한다. 분석 장치(140)는, 카메라(120)의 영상과 피사체에 설치한 각종 센서로부터의 다양한 종류의 정보를 사용하여, 피사체의 플레이의 종류를 분석한다. 이때, 분석 장치(140)는 옵션이며, 필수적인 구성요소는 아니다. 이때, 시스템 구성에 대해서는, 상기 이외에도, 여러가지 구성요소가 존재한다. 예를 들면, LAN(108) 대신에, 인터넷이나 WAN 등을 거쳐, 각종 디바이스가 접속되어도 된다. 또한, 예를 들면, 화상 처리장치(100), 복수의 카메라(120)와 분석 장치(140)가 LAN(108)을 거쳐 접속됨으로써 화상처리 시스템을 형성하고, 해당 화상처리 시스템과 유저 단말(130)이 인터넷 등에 의해 접속되어도 된다.

도 1b는, 제1 실시형태에 따른, 표시장치로서의 유저 단말(130)의 구성을 나타내는 블럭도다. 유저 단말(130)은, CPU(131), 메인 메모리(132), 기억부(133), 입력부(134), 표시부(135), 외부 I/F부(136), 버스(137)를 구비한다. CPU(131)은, 연산 처리와 각종 프로그램을 실행한다. 메인 메모리(132)는, 처리에 필요한 프로그램, 데이터, 작업 영역 등을 CPU(131)에게 제공한다. 기억부(133)는, 가상 시점 영상을 생성, 표시하기 위한 화상처리 프로그램, GUI 표시에 필요한 각종 데이터 등을 격납한다. 기억부(133)에는, 예를 들면, 하드디스크나 실리콘 디스크 등의 불휘발성 메모리가 사용된다. 입력부(134)는, 키보드, 마우스, 터치패널 등의 장치이며, 가상 시점 영상을 관찰하는 유저로부터의 조작 입력을 접수한다. 표시부(135)는, 가상 시점 영상과 GUI의 표시를 행한다. 외부 I/F부(136)는, LAN(108)과 접속하고, 예를 들면, 화상 처리장치(100)로부터 송신된, 가상 시점 영상을 재생하기 위한 모델 데이터를 수신한다. 버스(137)는 상기한 각 부를 접속하고, 데이터 전송을 행한다.

도 2는, 복수의 카메라(120)의 배치를 나타낸 도면이다. 축구 경기를 행하는 필드(201) 위에 복수의 피사체(202)가 존재하고, 복수의 카메라(120)가 필드(201)를 둘러싸도록 배치되어 있다. 복수의 카메라(120)는 주로 관객석 등에 배치되고, 각 카메라(120)가 필드(201)를 촬영하도록 초점거리와 촬영 방향이 설정되어 있다.

도 3은, 화상 처리장치(100)에 의한 3차원 형상 데이터 및 텍스처 데이터를 제공하기 위한 일련의 처리 과정을 나타낸 흐름도다. 스텝 S301에서는, 화상 처리장치(100)는, 카메라(120)의 촬영에 의해 얻어진 영상을 취득하고, 영상중의 피사체마다, 데이터 사이즈가 다른 복수의 계층(도 5a에서 상세히 설명한다)의 모델 데이터를 생성한다. 스텝 S301의 처리에 관해서는, 도 4에서 상세히 설명한다. 스텝 S302에서는, 화상 처리장치(100)는, 촬영 대상이 되는 경기 카테고리의 지정을 접수한다. 여기에서는, "축구", "럭비", "피겨" 등의 경기 카테고리명의 지정을 접수한다. 스텝 S303에서는, 화상 처리장치(100)는, 스텝 S302에서 접수한 경기의 종별 및 분석 장치(140)로부터의 데이터를 기초로, 가상 시점 영상 생성에 필요한 모델 데이터의 계층이 기술된 속성 데이터를 생성한다. 도 6a 내지 도 6d의 참조에 의해 후술하는 바와 같이, 속성 데이터는, 영상중의 콘텐츠의 속성과 요구되는 계층을 관련시키는 데이터다. 스텝 S303의 처리에 관해서는, 도 7의 참조에 의해 후술한다. 스텝 S304에서는, 화상 처리장치(100)는, 속성 데이터에 의해 요구되는 계층의 모델 데이터를 피사체마다 선택해서 송신용 모델 데이터를 구성하고, 표시장치인 유저 단말(130)로부터의 리퀘스트에 따라 송신용 모델 데이터를 송신한다. 이 송신용 모델 데이터의 구축에 있어서, LAN(108)의 통신 대역의 사용 상태 등도 고려된다. 스텝 S304의 처리에 관해서는, 도 8a 및 도 8b의 참조에 의해 후술한다.

도 4는, 인터랙티브한 가상 시점 영상의 생성에 필요한 모델 데이터를 복수의 계층에 대해서 생성하는 처리를 나타낸 흐름도이며, 스텝 S301의 처리의 상세를 나타내고 있다. 스텝 S401에 있어서, 화상 처리장치(100)(CPU(101))는, 스타디움과 관객석 등의 배경 모델 데이터를 생성한다. 배경 모델 데이터는, 선수 등의 특정 오브젝트 이외의 영역의 3차원 형상을 표시하는 배경 형상 데이터 및 배경 형상 데이터에 대응하는 텍스처 데이터를 포함한다. 예를 들면, 배경 모델 데이터는 3차원 형상을 구축하는 메쉬 데이터와, 색을 재현하기 위한 텍스처 데이터로 구성되고, 3D 레이저 스캐너, 다시점 스테레오법 등을 사용해서 생성된다.

스텝 S402 이후에서는, 선수 등의 특정 오브젝트의 3차원 형상을 표시하는 오브젝트 형상 데이터 및 이 오브젝트 형상 데이터에 대응하는 텍스처 데이터를, 품질이 다른 복수의 계층에서 생성한다. 스텝 S402에 있어서, CPU(101)은, 카메라(120)에 대하여, 촬영시의 노광이 적절하게 되도록 하는 카메라 설정의 변경과, 촬영 개시의 신호를 송신한다. 촬영 개시의 신호에 따라, 카메라(120)는 촬영을 개시하고, 영상 데이터를 LAN(108) 경유로 화상 처리장치(100)에 전송한다. 화상 처리장치(100)는, 카메라(120)로부터의 영상 데이터를 수신하고, 메인 메모리(102)에 전개한다. 화상 처리장치(100)는, 영상 데이터를, 각 카메라의 영상 프레임을 동일한 타임 코드마다 통합하여 얻어진 다시점 프레임으로서 관리한다. 또한, 이때, 화상 처리장치(100)는, 각 카메라의 위치 및 자세를 Structure from Motion 등의 방법을 사용해서 산출하여, 카메라의 위치 및 자세를 기억해둔다.

스텝 S403에 있어서, CPU(101)은, 영상 데이터로부터 특정 오브젝트로서의 피사체군의 윤곽을 추출하고, Visual-hull 등의 방법을 사용해서 피사체군의 3차원 형상 및 위치를 생성한다. 피사체군의 윤곽 추출은, 1대의 카메라의 카메라 영상의 전체 프레임에 있어서 중간값 필터를 사용함으로써 취득가능하다. 또한, 3차원 형상은 점군 데이터, 혹은 복셀 데이터로서 출력된다. 본 처리는, 전체 타임 코드의 다시점 프레임에 대해 실시되고, 다시점 프레임 단위로 전체 피사체의 형상 점군 데이터(고밀도 점군을 사용하여 표현된 형상 데이터)이 생성된다. 생성된 형상 점군 데이터는 기억부(103)에 보존된다.

스텝 S404에 있어서, CPU(101)은, 스텝 S403에서 생성한 형상 점군 데이터에 대하여 솎아냄을 행하고, 남은 점군을 연결시켜서 면(삼각형 폴리곤)을 구성하는 메쉬를 형성하여, 피사체를 나타내는 메쉬를 생성한다. 메쉬 형성에는, 주지의 기술을 적용가능하고, 예를 들면, Ball Pivoting 등의 방법을 사용할 수 있다. CPU(101)은, 다시점 프레임 단위로 생성한 모든 형상 점군 데이터에 대해 메쉬 형성 처리를 실행하고, 얻어진 데이터(저밀도의 메쉬 데이터)를 기억부(103)에 보존한다. 스텝 S405에 있어서, CPU(101)은, 스텝 S404에서 생성한 메쉬에 대해 부착할 텍스처 데이터(피사체의 텍스처)를 생성한다. 피사체의 텍스처의 생성에는 주지의 기술을 적용가능하다. CPU(101)은, 다시점 프레임 단위로 생성한 모든 메쉬 데이터에 대해 텍스처를 생성하고, 얻어진 데이터를 기억부(103)에 보존한다.

스텝 S406에 있어서, CPU(101)은, 영상의 첫 번째 타임 코드에 해당하는 다시점 프레임(초기 프레임)으로부터 생성된 메쉬와 텍스처를 기억부(103)로부터 판독하고, 메인 메모리(102)에 전개한다. 스텝 S407에 있어서, CPU(101)은, 스텝 S406로드한 판독한 메쉬에 대해 메쉬의 자세를 제어하기 위한 본(bone)을 짜넣는다. 본은, 도 5c에 나타낸 것과 같이, 인간의 뼈와 같은 구조를 갖고, 관절(502)과, 관절(502)끼리를 연결하는 뼈대(503)를 가지고, 메쉬(501)의 내부에 격납된다. 본은 미리 준비되어 있고, 메쉬에 맞춰서 사이즈와 초기 관절 위치를 변경함으로써, 다양한 메쉬에 격납가능하다. 메쉬(501)와 본은 연동해서 변형하기 때문에, 관절(502)의 위치를 이동함으로써, 메쉬(501)에 다양한 자세 및 동작(앉는다, 달린다, 찬다 등)을 재현시키는 것이 가능하다. 또한, 각각의 관절(502)의 위치는 뼈대(503)에 의해 이동이 제한되기 때문에, 보다 인간에 유사한 동작을 재현할 수 있다.

스텝 S408에 있어서, CPU(101)은, 카메라 영상을 사용해서 전체 피사체의 관절 위치를 추정한다. 관절 위치의 추정에는 주지의 기술을 적용하는 것이 가능하다. 예를 들면, 기계학습을 사용하여, 영상의 2차원에서의 관절 위치(x(n, i, k, t), y(n, i, k, t))를 취득한다. 여기에서, 0≤x<화상의 가로 폭, 0≤y<화상의 세로 폭, 0≤n<카메라 수, 0≤i<피사체 수, 0≤k<관절 수, 0≤t<프레임 수다. 적어도 2대 이상의 카메라 영상에 있어서 2차원 관절 위치를 취득후, 스텝 S402에서 구한 각 카메라의 위치를 기초로 삼각측량을 사용해서 3차원에서의 관절 위치(X(i, k, t), Y(i, k, t)， Z(i, k, t))를 취득한다. 이때, X, Y, Z는 3차원 공간에 있어서의 좌표값이고, 0≤i<피사체 수, 0≤k<관절 수, 0≤t<프레임 수다. 이에 따라, 피사체의 각 관절의 이동 궤적, 즉, 자세의 변천이 취득된다.

스텝 S409에 있어서, CPU(101)은, 스텝 S407에서 생성한 본의 관절 위치를, 스텝 S408에서 생성한 3차원 관절 위치와 다시점 프레임 단위에서 관련시켜, 메쉬 및 본의 자세 변천을 일으킨다(애니메이션화한다). 이것에 의해, 메쉬와 텍스처에 대해, 영상 선두의 다시점 프레임의 데이터만 준비할 필요가 있고, 관절 위치의 궤적을 표시하는 소량의 애니메이션 데이터를 부가하는 것 만으로 되므로, 실질적으로 모델 데이터가 시간축 방향으로의 압축이 되어, 데이터량을 대폭 삭감할 수 있다.

스텝 S410에서는, CPU(101)은, 스텝 S403 내지 스텝 S409에서 생성한 모델 데이터를, 도 5a의 표(5a)에 나타내는 계층구조로서 유지한다. 표(5a)에 있어서, 계층은 3단계로 나누어져 있고, 각각 단계는 3차원 형상과 텍스처로 구성된다. 계층3은, 최고계층이며, 3차원 형상으로서 스텝 S403에서 생성된 점군 데이터를, 텍스처로서 스텝 S402에서 취득된 카메라 영상을 포함하고, 데이터량이 가장 크고, 생성되는 가상 시점 영상의 화질이 가장 높다. 계층2는, 3차원 형상으로서 스텝 S404에서 생성된 메쉬 데이터를 포함하고, 텍스처로서 스텝 S405에서 생성된 텍스처 데이터를 포함하고, 중간의 데이터량 및 생성되는 가상 시점 영상의 중간의 화질을 갖는다. 계층1은, 본 실시형태에서는, 최저계층이며, 3차원 형상으로서 스텝 S406에서 취득된 메쉬 데이터와 스텝 S409에서 취득된 애니메이션 데이터를 포함하고, 텍스처로서 스텝 S406에서 취득된 텍스처 데이터를 포함한다. 계층1의 모델 데이터는 데이터량이 가장 가볍고, 가상 시점 영상의 화질은 가장 낮다. 이렇게, 각 계층은, 다른 계층과 화질 및 데이터량이 다르다. 계층마다 재현가능한 항목을 도 5b의 표(5b)에 요약했다. 계층이 내려감에 따라, 표현가능한 항목 수가 감소하기 때문에, 데이터 송신시에는 콘텐츠에 따라 적절한 계층을 선택할 필요가 있다.

스텝 S411에 있어서, 분석 장치(140)가 존재할 경우, CPU(101)은, 분석 장치(140)로부터 취득한 분석 데이터인 피사체의 플레이 정보(슛, 패스, 클리어 등의 플레이 내용)와, 모델 데이터를 관련시킨다. 이에 따라, 예를 들면, 슛팅시에 원하는 계층의 3차원 형상와 텍스처 데이터를 추출하는 처리 등을 실시 가능해 진다. 이상의 처리에 의해, 계층구조를 가지는 모델 데이터의 생성이 완료한다.

도 6a 내지 도 6d는, 모델 데이터의 압축에 필요하게 되는, 속성 데이터를 설명한 도면이다. 본 실시형태에서는, 속성 데이터에는, 경기 카테고리 속성, 에어리어 속성, 시합 속성의 3종류의 속성이 존재하고, 압축 효과는 시합 속성에 대해 가장 크고 에어리어 속성에 대해 두 번째로 크고 경기 카테고리 속성에 대해 가장 작다. 각 속성 데이터에는, 가상 시점 영상 생성에 요구되는 모델 데이터의 계층(요구 계층)이 기술되어 있고, 요구 계층은 경기 카테고리 속성에 대해 최저의 정밀도로, 에어리어 속성에 대해서는 두 번째 높은 정밀도로, 시합 속성에 대해서는 가장 높은 정밀도로 분류되어 있다.

경기 카테고리 속성에는, 도 6a의 표(6a)에 나타낸 것과 같이, 콘텐츠의 속성으로서의 경기의 종류마다 요구 계층이 기술되어 있다. 예를 들면, 아메리칸 풋볼에서는, 선수가 헬멧을 쓰고 있어, 얼굴이 은폐되어 있기 때문에, 텍스처의 요구 계층은 낮다. 한편, 피겨 스케이팅과 축구에서는, 선수의 얼굴과나 표정을 분명히 볼 필요가 있기 때문에, 텍스처에의 요구 계층이 높다. 또한, 3차원 형상에 관해서, 아메리칸 풋볼과 축구에서는 선수의 플레이 위치가 중요해서, 형상의 상세와 움직임의 원활함에 대한 니즈가 낮기 때문에, 요구 계층은 낮다. 한편, 피겨 스케이팅에서는, 연기시의 움직임이 중요하기 때문에, 3차원 형상에 대한 요구 계층은 높아진다. 이렇게, 경기 카테고리마다 3차원 형상과 텍스처에 대해 요구 계층을 결정하고, 가장 높은 계층을 그 경기 카테고리의 요구 계층으로 정의한다.

에어리어 속성에 대해서는, 도 6c의 표(6c)에 나타낸 것과 같이, 각각의 경기 카테고리의 경기장에 대해서, 콘텐츠의 속성으로서의 에어리어(경기장의 일부)마다 요구 계층이 기술되어 있다. 예를 들면, 축구에서는, 도 6b에 나타낸 것과 같이, 골 앞인 에어리어 0 및 1은 주목받는 플레이의 발생율이 높기 때문에, 요구 계층이 가장 높다. 코너킥 등이 발생하는 에어리어 2가 다음으로 요구 계층이 높고, 에어리어 0, 1 및 2 이외의 영역의 요구 계층은 낮다. 이때, 도 6b에서는 에어리어 2가 1개소에만 나타나 있지만, 실제는 필드의 4구석에 에어리어 2가 설정된다. 이상을 근거로 하여, 에어리어의 영역 정보와 그것에 대응하는 요구 계층을 도 6c의 표(6c)와 같이 기술하고, 이것을 축구의 에어리어 속성으로 사용한다. 한편, 피겨 스케이팅과 같이, 피사체가 어느 영역에서 주목할 플레이를 행하는 영역을 좁히는 것이 불가능한 경기 카테고리에서는, 에어리어 속성을 정의하지 않는다.

시합 속성에서는, 도 6d의 표(6d)에 나타낸 것과 같이, 콘텐츠의 속성으로서 에어리어 및 타임 코드가 사용되고, 에어리어 및 타임 코드마다 요구 계층이 기술되어 있다. 예를 들면, 축구의 경우, 분석 장치(140)로부터, 어떤 플레이(슛 등)가 어느 타임 코드에서 발생했는지를 취득할 수 있다. 그 때문에, 주목도가 높은 플레이가 발생한 타임 코드(기간)에 있어서 요구 계층을 높이고, 그 이외의 타임 코드에서는 요구 계층을 저하시키는 것 등의 처리에 의해, 압축 효율을 높이는 것이 가능하다. 이때, 시합 속성의 생성에는 분석 장치(140)가 필수적이기 때문에, 분석 장치(140)가 접속되지 않고 있는 경우에는, 시합 속성은 정의할 수 없다.

도 7은, 속성 데이터를 생성하는 처리를 나타낸 흐름도이며, 스텝 S303의 처리의 산세를 나타내고 있다. 스텝 S701에 있어서, CPU(101)은, 콘텐츠에 에어리어 속성이 정의되어 있는지 아닌지를 판단한다. 판정 결과가 YES인 경우에는 스텝 S702로 처리를 진행하고, 판정 결과가 NO인 경우에는 스텝 S704로 처리가 진행한다. 스텝 S702에 있어서, CPU(101)은, 콘텐츠에 시합 속성이 정의되어 있는지 아닌지를 판단한다. 판정 결과가 YES인 경우에는 스텝 S703으로 처리를 진행하고, 판정 결과가 NO인 경우에는 스텝 S705로 처리가 진행한다. 시합 속성이 존재할 경우(스텝 S701 및 S702에서 YES), 스텝 S703에 있어서, CPU(101)은, 속성 데이터로서 시합 속성을 선택한다. 에어리어 속성이 존재하지 않을 경우(스텝 S701에서 N0), 스텝 S704에 있어서, CPU(101)은, 속성 데이터로서 경기 카테고리 속성을 선택한다. 에어리어 속성이 존재하지만 시합 속성이 존재하지 않을 경우(스텝 S701에서 YES, 스텝 S702에서 N0), 스텝 S705에 있어서, CPU(101)은, 속성 데이터로서 에어리어 속성을 선택한다. 스텝 S706에서는, CPU(101)은, 선택된 속성을 기초로, 도 6a 내지 도 6d에 나타낸 표 6a, 6c, 6d와 같은 속성 데이터를 생성한다. 예를 들면, 콘텐츠에 에어리어 속성으로서 에어리어 0, 1, 2의 범위를 나타내는 좌표(예를 들면, (x0, y0) 내지 (x1, y1) 등)가 정의되어 있을 경우, CPU(101)은 이 좌표를 사용해서 표 6c와 같은 속성 데이터를 생성한다. 또한, 콘텐츠에 에어리어 속성과 함께 주목도가 높은 플레이가 발생한 타임 코드가 포함되어 있을 경우, CPU(101)은, 표 6d와 같은 속성 데이터를 생성한다.

도 8a 및 도 8b는, 모델 데이터를 표시장치에 송신하는 처리를 나타낸 흐름도이며, 스텝 S304의 상세를 나타내고 있다. 스텝 S801에 있어서, CPU(101)은, 서버인 화상 처리장치(100)를 클라이언트인 표시장치(유저 단말(130))로부터의 리퀘스트 대기 상태로 한다. 스텝 S802에 있어서, 유저 단말(130)(CPU(131))은, 가상 시점 영상의 시청자인 유저에 의해 행해진 유저 단말(130)에의 소정의 조작에 따라 영상재생용의 어플리케이션을 기동한다. 스텝 S803에 있어서, 유저 단말(130)(CPU(131))은, 유저가 시청하고 싶은 콘텐츠를 선택한다. 콘텐츠 선택에는 어플리케이션이 사용된다. 영상재생용의 어플리케이션의 기동후, 유저 단말(130)(CPU(131))은, 도 9a에 나타낸 것과 같은 콘텐츠 선택 윈도우(901)를 표시부(135)에 표시한다. 유저는 원하는 아이콘(902)을 터치함으로써, 원하는 콘텐츠를 선택할 수 있다. 콘텐츠가 선택되면, 유저 단말(130)(CPU(131))은, 화상 처리장치(100)에 대해 모델 데이터를 다운로드하기 위한 데이터 요구(리퀘스트)를 송신한다. 그때, 유저 단말(130)(CPU(131))은, 유저 단말(130)의 표시장치(표시부(135))의 디스플레이 해상도와, CPU(131)와 GPU의 스펙 정보도 화상 처리장치(100)에 송신한다.

이때, 유저 단말(130)은, 콘텐츠 선택 윈도우(901)를 표시하기 위해서, 화상 처리장치(100)로부터 선택 대상이 되는 콘텐츠의 리스트를 취득해 둔다. 리스트 내부의 콘텐츠의 각각은, 시간적으로 연속한 다시점 프레임들의 그룹에 대응한다. 예를 들면, 플레이 내용(분석 장치(140)의 분석 결과)에 근거하여, 그 플레이가 발생한 부근의 타임 코드를 포함하는 일련의 다시점 프레임을 사용하여 1개의 콘텐츠가 생성되어도 된다. 예를 들면, 스텝 S411에서 설명한 바와 같이, 플레이 정보마다 관련된 모델 데이터를 1개의 콘텐츠로 사용해도 된다. 또는, 예를 들면, 시합의 전반의 다시점 프레임과 시합의 후반의 다시점 프레임에 대해 별개의 콘텐츠가 생성되어도 된다. 이때, 각 콘텐츠에는, 플레이 내용과 그 발생 위치에 근거하여 자동적으로 설정된 가상 카메라의 위치 및 자세(방향)가 정의되어도 된다.

화상 처리장치(100)는, 스텝 S801에서, 유저 단말(130)로부터 송신 대상인 콘텐츠의 리퀘스트를 접수하면, 스텝 S804 이후의 처리에 의해, 송신 대상으로 하는 계층을 결정하고, 결정된 계층에 대한 모델 데이터를 송신한다. 우선, 스텝 S804에서는, 화상 처리장치(100)의 CPU(101)이 통신회선의 비어 있는 대역을 취득한다. 스텝 S805에 있어서, CPU(101)은, 유저 단말(130)로부터 수신한 스펙 정보에 근거하여 모델 데이터의 스펙 계층을 설정한다. 예를 들면, CPU와 GPU의 성능이 로우 엔드이면, 처리부하가 높은 계층3이나 계층2의 모델 데이터를 처리할 수 없으므로, 스펙 계층을 계층1로 설정한다. 디스플레이 해상도가 낮은 경우에는, 계층간의 차이가 인식하기 어려우므로, 스펙 계층을 계층2 이하(즉 계층1 또는 계층2)로 설정한다. 스텝 S806에서는, CPU(101)은, 스텝 S805에서 설정된 스펙 계층이 계층1인지 아닌지를 판단한다. 계층1인 경우에는, 처리는 스텝 S811로 진행되고, 그 이외의 경우에는, 처리는 스텝 S807에 진행한다.

스텝 S807에 있어서, CPU(101)은, 스텝 S303에서 생성된 속성 데이터를 사용해서 송신용 모델 데이터를 생성한다. 송신용 모델 데이터는, 도 11a 및 도 11b에 나타낸 것과 같이, 타임 코드마다 생성된다. 도 11a는 0번째 타임 코드에 있어서의 송신용 데이터다. 통신용 데이터는, 데이터 구조를 기술하는 헤더부와, 배경 모델 데이터와, 피사체 모델 데이터로 구성되고, 피사체마다(선수마다) 요구 계층에 대응하는 계층의 데이터를 유지한다. 단, 모든 피사체가 최저계층인 계층1의 모델 데이터를 반드시 유지하는 것으로 한다. 이것은, 후술하는 가상 시점 영상 생성시에 모델 데이터를 이용하기 때문이다. 도 11b는 1번째 타임 코드의 송신용 데이터를 나타낸다. 배경 모델 데이터는 중복하기 때문에, 삭감되어 있다. 또한, 각 피사체의 모델 데이터의 계층도 속성 데이터에 따라 변경되어 있다. 전체 타임 코드에 대한 데이터를 서로 연결시킴으로써 송신용 모델 데이터가 얻어진다. 이때, 요구 계층이 스펙 계층보다도 상위의 계층일 경우, 그 요구 계층을 스펙 계층까지 끌어 내린다. 이렇게, 표시장치(유저 단말(130)의 표시부(135))의 능력에 근거하여 송신용 모델 데이터를 구성하는 모델 데이터의 계층이 제한된다.

스텝 S808에서는, CPU(101)은, 스텝 S804에서 취득한 통신회선의 비어 있는 대역과, 스텝 S807에서 생성한 송신용 모델 데이터의 사이즈에 근거하여, 송신용 모델 데이터를 송신가능한지를 판단한다. 통신 가능하다고 판단된 경우(YES), 처리는 스텝 S814로 진행되고, 통신할 수 없다고 판단된 경우(NO), 처리는 스텝 S809로 진행한다. 스텝 S809에 있어서, CPU(101)은, 속성 데이터에 기술되어 있는 요구 계층을 1단계 만큼 저하시켜서 송신용 모델 데이터를 생성한다. 예를 들면, 도 6c의 표(6c)의 에어리어0에 대한 요구 계층은 3으로부터 2로 저하시키고, 에어리어2에 대한 요구 계층은 2로부터 1로 저하시킨다. 단, 요구 계층이 1인 경우에는, 더 이상 저하시킬 수 없다. 스텝 S810에서는, CPU(101)은, 스텝 S804에서 취득한 통신회선의 비어 있는 대역과 스텝 S809에서 생성한 송신용 모델 데이터의 사이즈에 근거하여, 송신용 모델 데이터를 송신가능한지를 판단한다. 송신가능할 경우, 처리는 스텝 S814로 진행되고, 송신가능하지 않을 경우, 처리는 스텝 S811로 진행한다. 스텝 S811에서는, CPU(101)은 모든 요구 계층을 1에 설정해서 송신용 모델 데이터를 생성한다. 스텝 S812에서는, CPU(101)은, 스텝 S804에서 취득한 통신회선의 비어 있는 대역과, 스텝 S811에서 생성한 송신용 데이터의 사이즈에 근거하여, 송신용 모델 데이터를 송신가능한지를 판단한다. 판정 결과가 YES인 경우, 처리는 스텝 S814로 진행되고, 판정 결과가 NO인 경우, 처리는 스텝 S813으로 진행한다. 스텝 S813에서는, CPU(101)은, 통신회선에 빈 공간이 존재할 때까지(다른 유저가 통신을 완료할 때까지) 대기한다. 스텝 S814에 있어서, 화상 처리장치(100)는, 송신용 모델 데이터를, 스텝 S801에서 수신한 리퀘스트에 대한 응답으로서 표시장치(유저 단말(130))에 송신한다.

스텝 S815에서는, 유저 단말(130)(CPU(131))이 모델 데이터를 수신한다. 스텝 S816에서는, CPU(131)이, 수신한 모델 데이터를 사용해서, 가상 시점 영상을 생성하고, 가상 시점 영상을 표시부(135)에 재생한다. 유저 단말(130)에 있어서 어플리케이션을 실행하고 있는 CPU(131)은, 화상 처리장치(100)로부터 모델 데이터를 수신하면, 도 9b에 나타낸 것과 같은 가상 시점 윈도우(903)로 천이한다. 가상 시점 윈도우(903)에서는, 선수 모델 데이터(904)와 배경 모델 데이터(905)가 표시되어 있고, 화면에의 터치 조작 등에 따라 임의의 카메라 위치/방향/화각에서 영상을 표시하는 것이 가능하다. 또한, 타임코드 슬라이더바(906)를 사용하여, 임의의 타임 코드의 영상으로 이동하는 것도 가능하다. 이하, 도 10을 참조하여, 가상 시점 영상의 생성에 관해서 설명한다.

도 10은, 유저 단말(130)에 의해 행해지는 가상 시점 영상생성의 처리를 설명한 흐름도이며, 스텝 S816의 상세를 나타내고 있다. 스텝 S1001에서는, CPU(131)은, 유저의 터치 조작에 맞춘 가상 카메라의 위치, 방향, 화각을 설정한다. 스텝 S1002에서는, CPU(131)은, 계층1의 모델 데이터를 사용하여, 설정된 가상 카메라의 위치, 방향, 화각에 있어서의 영상 생성을 행한다(영상1). 영상 생성은, 주지의 컴퓨터 그래픽스의 기술을 사용함으로써 실시가능하다.

스텝 S1003에서는, CPU(131)은, 송신된 모델 데이터에 계층2의 모델 데이터가 존재하는지 아닌지를 판단한다. 판정 결과가 YES인 경우, 처리는 스텝 S1004로 진행되고, 판정 결과가 NO인 경우, 처리는 스텝 S1005로 진행한다. 스텝 S1004에 있어서, CPU(131)은, 계층2의 모델 데이터를 사용하여, 설정된 가상 카메라의 위치, 방향, 화각에 있어서의 영상 생성을 행한다(영상2). 스텝 S1005에 있어서, CPU(131)은, 송신된 모델 데이터에 계층3의 모델 데이터가 존재하는지 아닌지를 판단한다. 판정 결과가 YES인 경우, 처리는 스텝 S1006으로 진행되고, 판정 결과가 NO인 경우, 처리는 스텝 S1010로 진행한다. 스텝 S1006에서는, CPU(131)은, 계층3의 모델 데이터를 사용하여, 설정된 가상 카메라의 위치, 방향, 화각에 있어서의 영상 생성을 행한다(영상3).

스텝 S1007에서는, CPU(131)은, 연속하는 타임 코드(이전 타임 코드와 현재 타임 코드)에서 선수 모델의 계층에 차이가 있는지를 판단한다. 이것은, 예를 들면, 타임 코드0에서는 선수2의 계층이 1이고, 타임 코드1에서는 선수2의 계층이 3이 되는 케이스다. 차이가 있을 경우, 처리는 스텝 S1008로 진행되고, 차이가 없을 경우, 처리는 스텝 S1009로 진행한다. 스텝 S1008에서는, CPU(131)은, 영상1과 영상2, 또는, 영상1과 영상3을 합성(예를 들면, 알파블렌딩)해서 피사체 영상을 생성한다. 이것은, 타임 코드간에서 계층에 차이가 있을 경우, 화질이 급격하게 변동하는 것을 막기 위해 행해진다. 한편, 스텝 S1009에서는, CPU(131)은, 영상1의 피사체 영역을 고화질을 갖는 영상2 또는 영상3으로 치환해서 피사체 영상을 생성한다. 스텝 S1010에서는, CPU(131)은, 배경 모델을 렌더링해서 배경 영상을 생성한다. 스텝 S1011에서는, CPU(131)은, 피사체 영상과 배경 영상을 합성하여, 가상 시점 영상을 생성한다. 이때, 스텝 S1007에 있어서, 타임 코드0에서는 선수2의 계층이 2이지만, 타임 코드1에서는 계층이 1이 되는 경우(연속하는 타임 코드에 있어서 계층이 저하하는 경우)에는, 차이가 없다고 판단하고 있다. 이러한 종류의 케이스에서는, 피사체의 중요도가 저하하고 있어, 화질이 급격하게 변화되어도 문제가 없기 때문이다. 이때, 상기 설명에서는, 계층1로부터 계층2 또는 계층3으로 영상이 변화한 경우에 영상의 합성을 행하도록 하고, 다른 경우에는 합성을 행하지 않도록 했지만, 이것에 한정되는 것은 아니다. 예를 들면, 피사체의 모델 데이터의 계층이 변화한 경우에, 변화되지 않은 계층의 피사체 영상과 변화후의 계층의 피사체 영상을 합성하여도 된다.

이상에서 설명한 바와 같이, 제1 실시형태의 화상 처리장치에 따르면, 피사체마다의 3차원의 모델 데이터가 복수의 계층에서 생성되고, 경기 카테고리나 실제 시합의 분석 결과 등의 콘텐츠의 특성을 기초로 피사체의 중요도가 결정된다. 그리고, 중요도에 따라 송신용 모델 데이터를 구성하는 모델 데이터의 계층이 설정되므로, 인터랙티브한 조작에 대응한 가상 시점 영상을 위한 모델 데이터를 적절히 생성하고, 또한, 효율적으로 송신할 수 있다.

제2실시형태

제2실시형태에서는, 피사체의 경기에의 관여도 및 주목도와, 유저의 기호성에 근거하여 속성 데이터를 수정하는 구성에 관해서 설명한다. 이때, 제1 실시형태와 중복하는 시스템 및 처리의 설명은 생략한다.

제1실시형태에서는, 경기의 종류, 에어리어, 중요한 플레이 등의 발생 이벤트를 사용하여, 각 피사체의 모델 데이터의 중요성을 판단하고, 사용할 계층을 결정했다. 제2실시형태에서는, 피사체인 선수의 주목도(예를 들면, 유명선수인가 아닌지). 유저의 기호성(예를 들면, 유저가 좋아하는 선수인지 아닌지), 경기에의 관여도(예를 들면, 볼로부터의 거리)를 사용해서 요구 계층을 더 변경한다. 도 12a에 있어서, 표(12a)는, 주목도, 기호성, 관여도에 근거한 계층의 변경 예를 나타내고 있다. 볼과 선수와의 거리인 관여도는, CPU(101)가, 영상 데이터를 해석해서 자동적으로 취득한다. 주목도 및 기호성은, 유저 단말(130) 상의 소정의 유저 인터페이스을 거쳐 유저가 설정한 내용이다. 유저에 의해 행해진 설정은, 유저 단말(130)로부터 통신에 의해 화상 처리장치(100)에 통지된다. 표(12a)의 요구 계층의 란은, 속성 데이터에 근거하여 결정된 각 피사체의 모델 데이터의 계층의 예다. 표(12a)의 S1201 및 S1203의 란에 기재된 계층은, 도 12b의 흐름도의 S1201 및 S1203에 있어서, 주목도, 기호성 및 관여도에 근거한 변경으로부터 발생된 계층을 나타내고 있다.

도 12b는, 도 3의 스텝 S303에 있어서 속성 데이터를 생성한 후에, 각 피사체(선수)에 대해서 행하는 계층의 변경 처리를 설명한 흐름도다. 스텝 S1201에 있어서, 화상 처리장치(100)의 CPU(101)은, 표(12a) 중의 주목도와 기호성에 근거하여, 각 선수의 계층을 변경한다. 예를 들면, 주목도 및 기호성이 모두 낮은 선수에 대해서는, 요구 계층을 1만큼 낮추고. 주목도와 기호성이 모두 높은 선수에 관해서는 요구 계층을 최고계층으로 설정하는 것과 같이, 미리 설정된 룰에 따라 계층이 변경된다. 본 예에서는, 선수 N은 요구 계층이 계층 1이었지만, 선수 N이 높은 주목도와 기호성을 갖기 때문에, 계층을 3으로 증가시켰다. 한편, 선수1은 요구 계층이 계층2이었지만, 선수1이 낮은 주목도와 기호성을 갖기 때문에, 계층을 1로 줄였다.

스텝 S1202에서는, CPU(101)은, 변동후에 송신용 모델 데이터의 사이즈가 증가하는지 아닌지를 판단한다. 판정 결과가 YES인 경우에는 스텝 S1203으로 진행되고, 판정 결과가 NO인 경우에는 처리를 종료한다. 스텝 S1203에서는, 송신용 모델 데이터의 사이즈를 줄이기 위해서, 표(12a)의 관여도(볼로부터의 거리)에 따라, 계층을 낮춘다. 예를 들면, 선수2는 스텝 S1201 후에 계층3이었지만, 선수2와 볼과의 거리가 증가하므로, 선수2의 경기에의 관여도가 낮다고 판단하여, 선수2를 계층2로 끌어 내린다. 예를 들면, CPU(101)은, 복수의 선수 중, 볼로부터의 거리가 임계값 미만인 선수(특정 오브젝트)의 3차원 형상 데이터의 품질이, 볼로부터의 거리가 해당 임계값 이상인 선수의 3차원 형상 데이터의 품질보다도 높아지도록, 표시장치(130)에 제공할 모델 데이터(3차원 형상 데이터, 텍스처 데이터)를 결정한다.

이상에서 설명한 바와 같이, 제2실시형태에 따르면, 피사체마다 생성된 복수의 계층의 모델 데이터로부터 사용할 계층을 선택할 때, 피사체의 주목도, 유저의 기호성 및 경기에의 관여도 등의, 개개의 피사체에 관한 속성이 고려된다. 그 결과, 보다 적절한 송신용 모델 데이터를 생성할 수 있고, 인터랙티브 조작에 대응한 가상 시점 영상을 위한 모델 데이터를 효율적으로 송신할 수 있다. 이때, 상기 설명에서는, 개개의 피사체에 관한 속성으로서, 관여도, 주목도 및 기호성을 예시했지만, 이것들에 한정되는 것이 아니다. 스텝 S1201에서는 주목도와 기호성의 양쪽을 고려했지만, 이들 중에서 한 개를 고려하는 구성을 사용할 수도 있다.

제3실시형태

제2실시형태에서는, 개개의 피사체에 대해 설정되는 속성에 근거하여 요구 계층을 변경하는 구성을 설명했다. 제3실시형태에서는, 3차원 모델 데이터를 스트림 송신할 때에, 가상 카메라의 위치, 자세 및 화각에 따라 요구 계층을 변경하여, 송신용 모델 데이터를 최적화하는 구성에 관해서 설명한다. 이때, 제1 실시형태 및 제2실시형태와 중복하는 시스템 및 처리의 설명은 생략한다.

스트림 송신에서는, 화상 처리장치(100)로부터 타임 코드 M의 모델 데이터를 송신하고, 표시장치에서 수신 및 재생을 행한다. 그후, 유저 단말(130)로부터 가상 카메라의 위치 및 자세를 피드백하고, 피드백된 위치 및 자세를 기초로, 화상 처리장치(100)는 타임 코드 M+1의 모델 데이터를 송신한다. 이러한 처리를 순차 반복하는 것에 의해, 전체 데이터의 수신을 기다리지 않고, 표시장치에 의해 인터랙티브한 가상 시점 영상을 재생 가능하다. 이때, 이전 타임 코드의 가상 카메라 위치 및 자세를 고려함으로써, 보다 최적의 계층을 선택하는 것이 가능하다.

도 13a는, 어떤 타임 코드 M에서의 가상 카메라의 위치/자세/화각을 나타내고 있다. 이때, 가상 카메라의 화각 내 및 화각에 가까운 선수는, 다음의 타임 코드의 영상에도 포함될 가능성이 높다. 한편, 화각에서 멀리 떨어진 선수가 영상에 포함될 가능성이 낮다. 또한, 가상 카메라로부터의 거리가 크면, 계층간의 화질 차이가 발생하기 어렵다. 이들의 항목을 도 13b의 표(13b)에 요약한다. 이때, 표(13b)에 있어서는, 속성 데이터에 근거하여 설정된 요구 계층이 도 13c의 처리(스텝 S1301 및 S1303)에 의해 변경되는 예가 표시되고 있다.

도 13c는, 스트리밍중에 계층 조정을 행하는 처리를 설명한 흐름도다. 스텝 S1301에 있어서, CPU(101)은, 각 선수가 카메라의 화각 내(○)인지, 화각에 가까운 영역에 존재하는지(△), 또는 화각 내가 아닌지(×)와, 가상 카메라와 선수 사이의 거리에 근거하여, 요구 계층을 변경한다. 예를 들면, 선수 N은 요구 계층이 1이었지만, 화각 내에 가깝고, 가상 카메라와의 거리가 짧기 때문에, 선수 N의 계층을 3으로 끌어 올린다. 한편, 선수2는 요구 계층이 3이었지만, 가상 카메라와의 거리가 멀기 때문에, 선수2의 계층을 2로 끌어 내린다.

스텝 S1302에서는, CPU(101)은, 변경후에 송신용 모델 데이터의 사이즈가 증가하는지 아닌지를 판단한다. 판정 결과가 YES인 경우, 처리는 스텝 S1303으로 진행되고, 판정 결과가 NO인 경우에는 처리를 종료한다. 스텝 S1303에서는, CPU(101)은, 사이즈를 줄이기 위해서, 가상 카메라의 이동 속도와, 가상 카메라와 선수간의 거리에 따라, 계층을 끌어 내린다. 이때, 가상 카메라의 이동 속도는 이전 프레임 및 그 이전의 프레임에 있어서의 위치 및 자세의 변화량에 근거하여 계산된다. 예를 들면, 가상 카메라의 이동 속도가 고속인 경우를 생각한다. 이 경우, 선수2는 스텝 S1301 후에 있어서 계층2이었지만, 가상 카메라로부터의 거리가 크기 때문에, 선수2가 영상 내를 상당히 고속으로 이동하게 된다. 이 때문에, 계층마다의 화질의 차이는 거의 발생하지 않는다고 판단하여, 계층을 계층1로 끌어 내린다.

이상에서 설명한 바와 같이, 제3실시형태에 따르면, 유저 단말에 의해 지정된 가상 카메라의 위치/자세/화각을 기초로 피사체의 계층이 변경되므로, 가상 카메라의 상태에 따라 적절한 송신용 모델 데이터를 생성할 수 있다. 이때, 상기한 실시형태에서는, 피사체마다 데이터 사이즈가 다른 복수의 계층의 모델 데이터를 생성하는 예를 중심으로 설명했다. 그러나, 복수의 피사체 중, 1 또는 복수의 특정한 피사체에 대해서만 복수의 계층의 모델 데이터를 생성하는 것도 가능하다.

기타 실시형태

본 발명의 실시형태는, 본 발명의 전술한 실시형태(들)의 1개 이상의 기능을 수행하기 위해 기억매체('비일시적인 컴퓨터 판독가능한 기억매체'로서 더 상세히 언급해도 된다)에 기록된 컴퓨터 실행가능한 명령(예를 들어, 1개 이상의 프로그램)을 판독하여 실행하거나 및/또는 전술한 실시예(들)의 1개 이상의 기능을 수행하는 1개 이상의 회로(예를 들어, 주문형 반도체 회로(ASIC)를 포함하는 시스템 또는 장치의 컴퓨터나, 예를 들면, 전술한 실시형태(들)의 1개 이상의 기능을 수행하기 위해 기억매체로부터 컴퓨터 실행가능한 명령을 판독하여 실행함으로써, 시스템 또는 장치의 컴퓨터에 의해 수행되는 방법에 의해 구현될 수도 있다. 컴퓨터는, 1개 이상의 중앙처리장치(CPU), 마이크로 처리장치(MPU) 또는 기타 회로를 구비하고, 별개의 컴퓨터들의 네트워크 또는 별개의 컴퓨터 프로세서들을 구비해도 된다. 컴퓨터 실행가능한 명령은, 예를 들어, 기억매체의 네트워크로부터 컴퓨터로 주어져도 된다. 기록매체는, 예를 들면, 1개 이상의 하드디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 분산 컴퓨팅 시스템의 스토리지, 광 디스크(콤팩트 디스크(CD), 디지털 다기능 디스크(DVD), 또는 블루레이 디스크(BD)^TM 등), 플래시 메모리소자, 메모리 카드 등을 구비해도 된다.

본 발명은, 상기한 실시형태의 1개 이상의 기능을 실현하는 프로그램을, 네트워크 또는 기억매체를 개입하여 시스템 혹은 장치에 공급하고, 그 시스템 혹은 장치의 컴퓨터에 있어서 1개 이상의 프로세서가 프로그램을 읽어 실행하는 처리에서도 실행가능하다. 또한, 1개 이상의 기능을 실현하는 회로(예를 들어, ASIC)에 의해서도 실행가능하다.

예시적인 실시형태들을 참조하여 본 발명을 설명하였지만, 본 발명이 이러한 실시형태에 한정되지 않는다는 것은 자명하다. 이하의 청구범위의 보호범위는 가장 넓게 해석되어 모든 변형, 동등물 구조 및 기능을 포괄하여야 한다.

Claims

송신장치로서,
복수의 촬상장치로 촬영함으로써 얻어진 복수의 촬영 화상에 근거하여 생성된 복수의 3차원 형상 데이터로부터 가상 시점 영상의 생성을 위해 사용되는 3차원 형상 데이터를 판정하는 판정 수단 - 상기 복수의 3차원 형상 데이터는 복수의 점 또는 복셀에 의해 나타내는 3차원 형상 데이터와 메쉬에 의해 나타내는 3차원 형상 데이터를 포함함; 및
상기 판정 수단에 의해 판정된 3차원 형상 데이터를 다른 장치에 송신하는 송신 수단을 구비하고,
상기 판정 수단은 다른 장치의 표시부에 표시된 가상 시점 영상의 콘텐츠에 따라 다른 장치에 송신될 3차원 형상 데이터를 판정하는 송신장치.
삭제
송신장치로서,
복수의 촬상장치로 촬영함으로써 얻어진 복수의 촬영 화상에 근거하여 생성된 복수의 3차원 형상 데이터로부터 가상 시점 영상의 생성을 위해 사용되는 3차원 형상 데이터를 판정하는 판정 수단 - 상기 복수의 3차원 형상 데이터는 복수의 점 또는 복셀에 의해 나타내는 3차원 형상 데이터와 메쉬에 의해 나타내는 3차원 형상 데이터를 포함함; 및
상기 판정 수단에 의해 판정된 3차원 형상 데이터를 다른 장치에 송신하는 송신 수단을 구비하고,
상기 복수의 점 또는 복셀에 의해 나타내는 3차원 형상 데이터는 촬영 대상의 제1 종류와 관련되고, 상기 메쉬에 의해 나타내는 3차원 형상 데이터는 촬영 대상의 제2 종류와 관련되며,
상기 판정 수단은 상기 복수의 촬상장치에 의해 촬영될 촬영 대상의 종류에 근거하여 상기 가상 시점 영상의 생성을 위해 사용되는 3차원 형상 데이터를 판정하는 송신장치.
제 3 항에 있어서,
상기 촬영 대상의 종류는 상기 복수의 촬상장치에 의해 촬영된 경기의 종류를 포함하는 송신장치.
제 3 항에 있어서,
상기 촬영 대상의 종류는 상기 복수의 촬상장치에 의해 촬영될 에어리어의 종류를 포함하는 송신장치.
제 3 항에 있어서,
상기 촬영 대상의 종류는 상기 복수의 촬상장치에 의해 촬영될 플레이의 종류를 포함하는 송신장치.
제 3 항에 있어서,
상기 판정 수단은,
제1 촬영 대상이 상기 복수의 촬상장치에 의해 촬영되는 경우, 복수의 점 또는 복셀에 의해 나타내는 3차원 형상 데이터를, 상기 제1 촬영 대상에 관한 가상 시점 영상의 생성을 위해 사용되는 3차원 형상 데이터로서 판정하고,
상기 제1 촬영 대상과는 다른 제2 촬영 대상이 상기 복수의 촬상장치에 의해 촬영되는 경우, 메쉬에 의해 나타내는 3차원 형상 데이터를, 상기 제2 촬영 대상에 대한 가상 시점 영상의 생성을 위해 사용되는 3차원 형상 데이터로서 판정하는 송신장치.
제 3 항에 있어서,
상기 촬영 대상의 종류는 다른 장치로부터 취득된 정보에 근거해서 특정되는 송신장치.
제 3 항에 있어서,
상기 송신 수단은, 유저가 상기 촬영 대상의 종류를 특정하게 하는 화면을 다른 장치의 표시부가 표시하도록 하는 정보를, 다른 장치에 송신하는 송신장치.
제 1 항에 있어서,
상기 판정 수단은 다른 장치로부터 취득된 정보에 근거하여 가상 시점 영상의 생성을 위해 사용되는 3차원 형상 데이터를 판정하는 송신장치.
송신장치로서,
복수의 촬상장치로 촬영함으로써 얻어진 복수의 촬영 화상에 근거하여 생성된 복수의 3차원 형상 데이터로부터 가상 시점 영상의 생성을 위해 사용되는 3차원 형상 데이터를 판정하는 판정 수단 - 상기 복수의 3차원 형상 데이터는 복수의 점 또는 복셀에 의해 나타내는 3차원 형상 데이터와 메쉬에 의해 나타내는 3차원 형상 데이터를 포함함; 및
상기 판정 수단에 의해 판정된 3차원 형상 데이터를 다른 장치에 송신하는 송신 수단을 구비하고,
상기 판정 수단은 생성될 가상 시점 영상의 타임 코드에 근거하여 가상 시점 영상의 생성을 위해 사용되는 3차원 형상 데이터를 판정하는 송신장치.
송신장치로서,
복수의 촬상장치로 촬영함으로써 얻어진 복수의 촬영 화상에 근거하여 생성된 복수의 3차원 형상 데이터로부터 가상 시점 영상의 생성을 위해 사용되는 3차원 형상 데이터를 판정하는 판정 수단 - 상기 복수의 3차원 형상 데이터는 복수의 점 또는 복셀에 의해 나타내는 3차원 형상 데이터와 메쉬에 의해 나타내는 3차원 형상 데이터를 포함함; 및
상기 판정 수단에 의해 판정된 3차원 형상 데이터를 다른 장치에 송신하는 송신 수단을 구비하고,
상기 판정 수단은 상기 송신장치와 다른 장치를 연결하는 통신회선의 비어 있는 대역에 근거하여 가상 시점 영상의 생성을 위해 사용되는 3차원 형상 데이터를 판정하는 송신장치.
제 1 항에 있어서,
상기 판정 수단은 프로세서의 능력 및 다른 장치의 표시부의 능력 중 적어도 하나에 근거하여 가상 시점 영상의 생성을 위해 사용되는 3차원 형상 데이터를 판정하는 송신장치.
제 1 항에 있어서,
상기 판정 수단은 다른 장치를 사용하는 유저의 기호성에 근거하여 가상 시점 영상의 생성을 위해 사용되는 3차원 형상 데이터를 판정하는 송신장치.
송신장치로서,
복수의 촬상장치로 촬영함으로써 얻어진 복수의 촬영 화상에 근거하여 생성된 복수의 3차원 형상 데이터로부터 가상 시점 영상의 생성을 위해 사용되는 3차원 형상 데이터를 판정하는 판정 수단 - 상기 복수의 3차원 형상 데이터는 복수의 점 또는 복셀에 의해 나타내는 3차원 형상 데이터와 메쉬에 의해 나타내는 3차원 형상 데이터를 포함함; 및
상기 판정 수단에 의해 판정된 3차원 형상 데이터를 다른 장치에 송신하는 송신 수단을 구비하고,
상기 판정 수단은,
상기 복수의 촬상장치에 의해 촬영된 3차원 형상 데이터에 의해 나타내는 오브젝트의 주목도 및 상기 복수의 촬상장치에 의해 촬영된 경기에의 상기 오브젝트의 관여도 중 적어도 하나에 근거하여 가상 시점 영상의 생성을 위해 사용되는 3차원 형상 데이터를 판정하는 송신장치.
제 1 항에 있어서,
상기 복수의 3차원 형상 데이터는 관절과 뼈대에 근거해서 나타내는 3차원 형상 데이터를 더 포함하는 송신장치.
제 1 항에 있어서,
상기 판정 수단은 상기 복수의 촬영 화상에 근거하여 상기 복수의 3차원 형상 데이터를 생성할 수 있는 송신장치.
송신장치로서,
복수의 촬상장치로 촬영함으로써 얻어진 복수의 촬영 화상에 근거하여 생성된 복수의 3차원 형상 데이터로부터 가상 시점 영상의 생성을 위해 사용되는 3차원 형상 데이터를 판정하는 판정 수단 - 상기 복수의 3차원 형상 데이터는 복수의 점 또는 복셀에 의해 나타내는 3차원 형상 데이터와 메쉬에 의해 나타내는 3차원 형상 데이터를 포함함; 및
상기 판정 수단에 의해 판정된 3차원 형상 데이터를 다른 장치에 송신하는 송신 수단을 구비하고,
상기 판정 수단은,
상기 복수의 촬영 화상에 근거하여 복수의 점에 의해 나타내는 제1 3차원 형상 데이터를 생성하고,
생성된 상기 제1 3차원 형상 데이터에 근거하여 상기 메쉬에 의해 나타내는 제2 3차원 형상 데이터를 생성하는 송신장치.
제 1 항에 있어서,
상기 판정 수단은 상기 복수의 촬영 화상에 근거하여 가상 시점 영상의 생성을 위해 사용되는 3차원 형상 데이터로서 판정될 3차원 형상 데이터를 생성하는 송신장치.
송신방법으로서,
복수의 촬상장치로 촬영함으로써 얻어진 복수의 촬영 화상에 근거하여 생성된 복수의 3차원 형상 데이터로부터 가상 시점 영상의 생성을 위해 사용되는 3차원 형상 데이터를 판정하는 판정 단계 - 상기 복수의 3차원 형상 데이터는 복수의 점 또는 복셀에 의해 나타내는 3차원 형상 데이터와 메쉬에 의해 나타내는 3차원 형상 데이터를 포함함; 및
상기 판정 단계에서 판정된 3차원 형상 데이터를 다른 장치에 송신하는 송신 단계를 포함하고,
상기 판정 단계에서, 다른 장치에 송신될 3차원 형상 데이터는 다른 장치의 표시부에 표시된 가상 시점 영상의 콘텐츠에 따라 판정되는 송신방법.
컴퓨터가 제 1 항 및 제 3 항 내지 제 19 항 중 어느 한 항에 따른 송신장치로서 기능하도록 하는 프로그램을 기억한 컴퓨터 판독가능한 기억매체.