WO2023228289A1 - 映像修正装置、映像修正方法、及びプログラム - Google Patents

映像修正装置、映像修正方法、及びプログラム Download PDF

Info

Publication number
WO2023228289A1
WO2023228289A1 PCT/JP2022/021306 JP2022021306W WO2023228289A1 WO 2023228289 A1 WO2023228289 A1 WO 2023228289A1 JP 2022021306 W JP2022021306 W JP 2022021306W WO 2023228289 A1 WO2023228289 A1 WO 2023228289A1
Authority
WO
WIPO (PCT)
Prior art keywords
dimensional image
attribute value
importance attribute
dimensional
polygon mesh
Prior art date
Application number
PCT/JP2022/021306
Other languages
English (en)
French (fr)
Inventor
笑添 趙
隆文 奥山
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2022/021306 priority Critical patent/WO2023228289A1/ja
Publication of WO2023228289A1 publication Critical patent/WO2023228289A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings

Definitions

  • the present disclosure relates to a technique for modifying a three-dimensional image composed of textures and polygon meshes.
  • client-side AR Augmented Reality
  • a mechanism is needed to dynamically configure the visibility information of a VR (Virtual Reality) device and the user's position in the virtual space and apply it to distribution control.
  • These three-dimensional images which are volumetric videos, are animation data composed of textures and polygon meshes (also simply referred to as "meshes"), and are rendered together with the virtual environment on the client side terminal to create AR or The user can view the video by displaying it on the display of a VR terminal or the like.
  • volumetric video requires a large amount of data and requires a wide bandwidth when distributed over a network.
  • Non-Patent Documents disclosing volumetric video distribution techniques include Non-Patent Document 1, Non-Patent Document 2, and Non-Patent Document 3.
  • Non-Patent Document 1 proposes a method in which a server renders a volumetric video based on head movements detected by an AR or VR device on the client side, converts it into a two-dimensional image, and sends it to the client. ing.
  • Non-Patent Document 2 proposes a method in which a server delivers a volumetric video generated in real time to a client-side terminal in real time, and the client-side terminal renders and plays the video.
  • Non-Patent Document 3 proposes a method in which a server dynamically changes the Level Of Detail of a volumetric video according to the network band, thereby reducing the amount of data required for playback.
  • volumetric video distribution involves a large amount of data and requires a large network bandwidth for distribution, so an efficient distribution method is required.
  • Non-Patent Document 1 since the server needs to perform rendering for each user, the load on the server is heavy, and when the number of users increases, the server resources are divided to reduce the number of viewpoint videos that each user views. Possible quality deterioration. Furthermore, it is necessary to frequently receive location information of the VR headset from the client with low delay, and satisfying the Motion to Photon delay of 20 ms, at which so-called VR sickness begins to occur, places a heavy burden on both the network and the server.
  • Non-Patent Document 2 requires a communication band of 4 Gbps, and it is difficult to always secure a stable communication band of 4 Gbps on lines that can be used by consumers in the future. Furthermore, since the load on the network line is heavy, the available bandwidth for other users using the same network becomes narrower, reducing the user's quality of experience.
  • Non-Patent Document 3 when the usable bandwidth of the network is narrow, the surface (front) of the three-dimensional (3D) data visible to the viewer of the volumetric video being viewed, as well as the subject's face, hands, etc. This reduces the image quality and Level of Detail, including areas that require high image quality, resulting in a significant drop in the quality of the user's experience.
  • the present invention has been made in view of the above points, and it is an object of the present invention to reduce the playback load on communication terminals on the server and client sides without degrading the user's experience quality as much as possible.
  • the invention according to claim 1 provides a video modification device for modifying a three-dimensional video constituted by a texture and a polygon mesh, wherein a three-dimensional image, which is a frame, is created from data of the three-dimensional video.
  • a three-dimensional image acquisition unit that acquires data; and a first importance attribute value assigning unit that assigns a first importance attribute value to each vertex of the polygon mesh of the three-dimensional model in the three-dimensional image data.
  • a two-dimensional image output unit that outputs data of each two-dimensional image seen from the virtual viewpoint of each virtual camera with respect to the three-dimensional model;
  • a bone estimation unit that obtains each bone information of the data of each two-dimensional image and compares each bone estimation reliability related to the each bone information using machine learning, a two-dimensional image selection unit that selects data of a predetermined two-dimensional image whose degree is higher than a predetermined rank, and based on the bone information of the data of the predetermined two-dimensional image selected by the two-dimensional image selection unit, Selecting an area indicating a specific part of the three-dimensional model in the data of the predetermined two-dimensional image, and selecting an area of the three-dimensional model that is adjacent to the area indicating the specific part and having the same color as the specific part.
  • a partial region selection unit that selects a region indicating an adjacent part of
  • a second importance attribute value assigning unit that assigns an importance attribute value of
  • a simplification unit that simplifies data of the three-dimensional image by increasing the degree of simplification of the geometry of the polygon mesh related to each vertex to which the importance attribute value is assigned.
  • FIG. 1 is an overall configuration diagram of a communication system according to a first embodiment.
  • FIG. 1 is an electrical hardware configuration diagram of an image correction device according to a first embodiment.
  • FIG. 2 is an electrical hardware configuration diagram of a communication terminal according to the present embodiment.
  • FIG. 1 is a functional configuration diagram of an image correction device according to a first embodiment.
  • 7 is a flowchart showing processing of the video correction device according to the first embodiment.
  • 7 is a flowchart showing processing of the video correction device according to the first embodiment.
  • FIG. 3 is a diagram showing vertices of a polygon mesh. It is a conceptual diagram in which a plurality of virtual cameras are arranged around a three-dimensional model.
  • FIG. 1 is an overall configuration diagram of a communication system according to a first embodiment.
  • FIG. 1 is an electrical hardware configuration diagram of an image correction device according to a first embodiment.
  • FIG. 2 is an electrical hardware configuration diagram of a communication terminal according to the present embodiment.
  • FIG. 1 is a
  • FIG. 2 is a diagram showing a two-dimensional image of a three-dimensional model viewed from a virtual viewpoint of an arbitrary virtual camera.
  • FIG. 3 is a diagram showing bone information of a three-dimensional model of a two-dimensional image.
  • FIG. 3 is a diagram showing a polygon mesh of a three-dimensional model of a two-dimensional image.
  • FIG. 3 is a diagram showing facial bone information of a three-dimensional model of a two-dimensional image.
  • FIG. 3 is a diagram showing a polygon mesh of a face of a three-dimensional model of a two-dimensional image and an adjacent part (neck) of the face.
  • FIG. 3 is a diagram showing a polygon mesh of a three-dimensional model of a two-dimensional image after simplification.
  • FIG. 2 is a functional configuration diagram of an image correction device according to a second embodiment.
  • 7 is a flowchart illustrating the processing of the video correction device according to the second embodiment.
  • 7 is a flowchart
  • FIG. 1 is an overall configuration diagram of a communication system according to a first embodiment.
  • the communication system 1 of this embodiment is constructed by a video correction device 3 and a communication terminal 5.
  • the communication terminal 5 is managed and used by a user.
  • the video correction device 3 and the communication terminal 5 can communicate via a communication network 100 such as the Internet.
  • the connection form of the communication network 100 may be either wireless or wired.
  • the image correction device 3 is configured by one or more computers.
  • the video modification device 3 When the video modification device 3 is configured by a plurality of computers, it may be referred to as a "video modification device” or a "video modification system.”
  • the image modification device 3 modifies a three-dimensional image (a volumetric video, a hologram, etc.) composed of textures and polygon meshes.
  • the communication terminal 5 is a computer, and in FIG. 1, a notebook computer is shown as an example.
  • a user here, a video retoucher
  • the image correction device 3 may perform processing alone without using the communication terminal 5.
  • FIG. 2 is an electrical hardware configuration diagram of the video correction device.
  • the video correction device 3 is a computer that includes a CPU (Central Processing Unit) 301, a ROM (Read Only Memory) 302, a RAM (Random Access Memory) 303, and an SSD (Solid State Drive) 304. , an external device connection I/F (Interface) 305, a network I/F 306, a media I/F 309, and a bus line 310.
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • SSD Solid State Drive
  • the CPU 301 controls the operation of the entire video correction device 3.
  • the ROM 302 stores programs used to drive the CPU 301, such as IPL (Initial Program Loader).
  • RAM 303 is used as a work area for CPU 301.
  • the SSD 304 reads or writes various data under the control of the CPU 301.
  • an HDD Hard Disk Drive
  • SDD Serial Digital
  • the external device connection I/F 305 is an interface for connecting various external devices.
  • External devices in this case include a display, speaker, keyboard, mouse, USB (Universal Serial Bus) memory, printer, and the like.
  • the network I/F 306 is an interface for data communication via the communication network 100.
  • the media I/F 309 controls reading or writing (storage) of data to a recording medium 309m such as a flash memory.
  • the recording media 309m also include DVDs (Digital Versatile Discs), Blu-ray Discs (registered trademark), and the like.
  • the bus line 310 is an address bus, a data bus, etc. for electrically connecting each component such as the CPU 301 shown in FIG. 2.
  • FIG. 3 is an electrical hardware configuration diagram of the communication terminal.
  • the communication terminal 5 is a computer that includes a CPU 501, ROM 502, RAM 503, SSD 504, external device connection I/F (Interface) 505, network I/F 506, display 507, pointing device 508, and media. It includes an I/F 509 and a bus line 510.
  • I/F Interface
  • the CPU 501 controls the entire operation of the communication terminal 5.
  • the ROM 502 stores programs used to drive the CPU 501 such as IPL.
  • RAM 503 is used as a work area for CPU 501.
  • the SSD 504 reads or writes various data under the control of the CPU 501. Note that an HDD (Hard Disk Drive) may be used instead of the SSD 504.
  • HDD Hard Disk Drive
  • the external device connection I/F 505 is an interface for connecting various external devices.
  • External devices in this case include a display, speaker, keyboard, mouse, USB memory, printer, and the like.
  • the network I/F 506 is an interface for data communication via the communication network 100.
  • the display 507 is a type of display means such as liquid crystal or organic EL (Electro Luminescence) that displays various images.
  • the pointing device 508 is a type of input means for selecting and executing various instructions, selecting a processing target, moving a cursor, and the like. Note that when user Y uses a keyboard, the function of pointing device 508 may be turned off.
  • the media I/F 509 controls reading or writing (storage) of data to a recording medium 509m such as a flash memory.
  • the recording media 509m also include DVDs, Blu-ray Discs (registered trademark), and the like.
  • the bus line 510 is an address bus, a data bus, etc. for electrically connecting each component such as the CPU 501 shown in FIG. 4.
  • FIG. 4 is a functional configuration diagram of the video correction device in the first embodiment. Note that the image correction device 3a in FIG. 4 is an example of the image correction device in FIG.
  • the video correction device 3a includes an input section 30, a three-dimensional image acquisition section 31, a first importance attribute value assignment section 32, a two-dimensional image output section 33, a bone estimation section 34, and a two-dimensional image selection section 35. , a partial region selection section 36 , a second importance attribute value assignment section 38 , a simplification section 40 , and an output section 41 .
  • Each of these units is a function realized by instructions from the CPU 301 in FIG. 2 based on a program.
  • the input unit 30 receives input of data of a three-dimensional image to be corrected from the communication terminal 5 of the user (video corrector) and via the network I/F 306.
  • the three-dimensional image acquisition unit 31 acquires three-dimensional image data, which is a frame, from three-dimensional video data.
  • the first importance attribute value assigning unit 32 assigns a first importance attribute value (for example, 0.5) to each vertex of the polygon mesh of the three-dimensional model m in the three-dimensional image data.
  • FIG. 7 is a diagram showing vertices of a polygon mesh. As shown in FIG. 7, in the case of a rectangular polygon mesh, the polygon mesh pm1 has four vertices vt1, vt2, vt3, and vt4. Furthermore, polygon mesh pm2 adjacent to polygon mesh pm1 has four vertices vt2, vt3, vt5, and vt6.
  • the two-dimensional image output unit 33 outputs data of each two-dimensional image seen from the virtual viewpoint of each virtual camera with respect to the three-dimensional model.
  • FIG. 8 is a conceptual diagram in which a plurality of virtual cameras are arranged around a three-dimensional model. As shown in FIG. 8, a plurality of virtual cameras vc1 to vc8 are arranged around the three-dimensional model m. Note that the number of virtual cameras may be any number as long as it is one or more. Furthermore, the virtual cameras may or may not be arranged at equal intervals.
  • FIG. 9A is a diagram showing a two-dimensional image seen from a virtual viewpoint of an arbitrary virtual camera with respect to a three-dimensional model.
  • the two-dimensional image output unit 33 outputs data of each two-dimensional image as shown in FIG. 9A.
  • the bone estimation unit 34 obtains bone information for each two-dimensional image data by estimating bones for each two-dimensional image data.
  • FIG. 9B is a diagram showing bone information of a three-dimensional model of a two-dimensional image.
  • the bone estimation unit 34 obtains bone information as shown in FIG. 9B.
  • FIG. 10A is a diagram showing facial bone information of a three-dimensional model of a two-dimensional image.
  • FIG. 10A is an enlarged view of the face shown in FIG. 9B and adjacent parts (peripheral parts) of the face.
  • the two-dimensional image selection unit 35 compares the bone estimation reliability related to each piece of bone information using machine learning, and the bone estimation reliability is higher than a predetermined rank (for example, third) among the data of each two-dimensional image. Select data of a predetermined two-dimensional image. For example, as shown in FIG. 8, when eight virtual cameras vc1 to vc8 are arranged, the two-dimensional image selection unit 35 selects the data of which two-dimensional image among the top three with the highest bone estimation reliability. Alternatively, two-dimensional image data with the highest bone estimation reliability may be selected.
  • the partial region selection section 36 selects a specific part (such as a face) of the three-dimensional model m in the predetermined two-dimensional image data based on the bone information of the predetermined two-dimensional image data selected by the two-dimensional image selection section 35. Select the area that shows. Further, the partial region selection unit 36 selects an area that is adjacent to a region that indicates a specific region (such as a face) and that indicates an adjacent region (such as a neck) of the three-dimensional model m that has the same color as the specific region. .
  • FIG. 9C is a diagram showing a polygon mesh of a three-dimensional model of a two-dimensional image.
  • FIG. 10B is a diagram showing a polygon mesh of the face of the three-dimensional model of the two-dimensional image and the adjacent part (neck) of the face.
  • FIG. 10B is an enlarged view of the face in FIG. 9C and adjacent parts (peripheral parts) of the face.
  • a neck polygon mesh pm12 is shown as an adjacent region adjacent to the face polygon mesh pm11.
  • the second importance attribute value assigning unit 38 assigns a second importance attribute value (( For example, 1.0).
  • the simplification unit 40 reduces the degree of simplification of the polygon mesh associated with each vertex assigned with the second importance attribute value, compared to the degree of simplification of the geometry of the polygon mesh associated with each vertex assigned the first importance attribute value.
  • the three-dimensional image data is simplified by increasing the degree of simplification for the geometry.
  • FIG. 11 is a diagram showing a polygon mesh of a three-dimensional model of a two-dimensional image after simplification. As shown in Figure 11, the degree of simplification of the geometry of parts exposed from clothing (face, neck, hands, arms, shins, knees, and parts of thighs) is low, and the degree of simplification of the geometry of clothing parts is low. It's getting expensive.
  • the simplification unit 40 does not simplify at all, but may simplify it slightly by setting it to 0.9, for example. Furthermore, the first importance attribute value may be high and the second importance attribute value may be low. In this case, the simplification unit 40 performs detailing (densification) to obtain the same result as shown in FIG. 11.
  • the output unit 41 outputs the simplified three-dimensional image data. Examples of the output method include transmitting three-dimensional image data to the communication terminal 5 or the like, or generating and outputting a three-dimensional video composed of frames as the three-dimensional image.
  • FIGS. 6 to 11. 5 and 6 are flowcharts showing the processing of the video correction device according to the first embodiment.
  • the input unit 30 inputs the data of the three-dimensional image to be corrected from the communication terminal 5 of the user (video corrector) and via the network I/F 306. Accept input.
  • the three-dimensional image acquisition unit 31 acquires three-dimensional image data, which is a frame, from three-dimensional video data.
  • the first importance attribute value assigning unit 32 assigns a first importance attribute value (for example, 0.5) to each vertex of the polygon mesh of the three-dimensional model m in the three-dimensional image data.
  • the two-dimensional image output unit 33 outputs data of each two-dimensional image seen from the virtual viewpoint of each virtual camera with respect to the three-dimensional model.
  • the bone estimating unit 34 obtains bone information for each two-dimensional image data by estimating bones for each two-dimensional image data.
  • the two-dimensional image selection unit 35 compares the bone estimation reliability related to each piece of bone information using machine learning, and selects a predetermined two-dimensional image whose bone estimation reliability is higher than a predetermined rank among the data of each two-dimensional image. Select image data.
  • the partial area selection unit 36 selects a specific part (face etc.).
  • the partial area selection unit 36 selects an area indicating an adjacent part (neck, etc.) of the three-dimensional model m that is adjacent to the area indicating the specific part (face, etc.) and has the same color as the specific part. select.
  • the second importance attribute value assigning unit 38 assigns a second importance attribute instead of the first importance attribute value to each vertex of the polygon mesh of the area indicating the specific part and the area indicating the adjacent part. Assign a value.
  • the simplification unit 40 determines the degree of simplification for each vertex assigned the second importance attribute value, compared to the degree of simplification for the geometry of the polygon mesh associated with each vertex assigned the first importance attribute value. Three-dimensional image data is simplified by increasing the degree of simplification of the polygon mesh geometry.
  • the output unit 41 outputs the simplified three-dimensional image data.
  • the simplification unit 40 is configured to remove parts of the three-dimensional model m other than parts that need to be made high-quality such as the face and hands (parts wearing clothes, etc.). Therefore, the degree of simplification of the geometry of the polygon mesh is increased, and the degree of simplification of the geometry of the polygon mesh is not increased (or is not simplified at all) for parts such as faces and hands that require high image quality. This makes it possible to reduce the playback load on the server and client-side communication terminals without degrading the user's experience quality as much as possible.
  • FIGS. 12 to 14 a second embodiment will be described using FIGS. 12 to 14. Note that the overall configuration and electrical hardware configuration of the second embodiment are the same as those of the first embodiment, and therefore the description thereof will be omitted. Further, among the functional configurations of the second embodiment, the same functional configurations as those of the first embodiment are given the same reference numerals, and the description thereof will be omitted.
  • FIG. 12 is a functional configuration diagram of the video correction device in the second embodiment. Note that the image correction device 3b in FIG. 4 is an example of the image correction device in FIG.
  • the video correction device 3b includes an input section 30, a three-dimensional image acquisition section 31, a first importance attribute value assigning section 32, a two-dimensional image output section 33, an image recognition section 37, a second importance attribute It has a value assigning section 38, a third importance attribute value assigning section 39, a simplifying section 40, and an output section 41.
  • Each of these units is a function realized by instructions from the CPU 301 in FIG. 2 based on a program.
  • the image recognition unit 37 image-recognizes a region indicating a specific part (face, etc.) of the three-dimensional model in the data of each two-dimensional image output by the two-dimensional image output unit 33.
  • This image recognition method is based on a general technique.
  • the third importance attribute value assigning unit 39 assigns a first importance attribute value to each vertex of the polygon mesh of the adjacent region of the three-dimensional model adjacent to the region of the specific region (face, etc.) as the distance from the region indicating the specific region increases.
  • a predetermined importance attribute value that differs in stages is assigned until the importance attribute value is reached.
  • the simplification unit 40 of the present embodiment determines the degree of simplification for the geometry of the polygon mesh related to each vertex assigned the first importance attribute value, for each vertex assigned a predetermined importance attribute value.
  • the third importance attribute value assigning unit 39 starts from the region of the second importance attribute value (for example, 1.0), and uses the importance attribute value (predetermined (importance attribute value) is applied a recursive process of linear decrease. This recursive process is repeated starting from the next connected vertex, and ends when the value decreases to the same value (for example, 0.5) as the initial value (first importance successive value).
  • FIGS. 13 and 14 are flowcharts showing the processing of the video correction device according to the second embodiment. Note that steps S31 to S34 have the same processing contents as steps S11 to S14 of the first embodiment, so a description thereof will be omitted.
  • the second importance attribute value assigning unit 38 assigns a second importance attribute value instead of the first importance attribute value to each vertex of the polygon mesh of the area indicating the specific part.
  • the third importance attribute value assigning unit 39 assigns the first importance attribute to each vertex of the polygon mesh of the adjacent region of the three-dimensional model adjacent to the region of the specific region as the distance from the region indicating the specific region increases. A predetermined importance attribute value that differs in stages is assigned until the value is reached.
  • the simplification unit 40 generates a polygon mesh for each vertex to which a predetermined importance attribute value has been assigned, based on the degree of simplification for the geometry of the polygon mesh for each vertex to which the first importance attribute value has been assigned.
  • the degree of simplification for the geometry of Simplify is the degree of simplification for the geometry of Simplify.
  • the output unit 41 outputs the simplified three-dimensional image data.
  • the simplification unit 40 of the second embodiment increases the degree of simplification of the geometry of the polygon mesh in stages, so viewers of 3D images will feel less discomfort, and the user (viewer) will have a better experience. Quality can be improved.
  • the present invention is not limited to the above-described embodiments, and may have the following configuration or processing (operation).
  • the image correction device 3 can be realized by a computer and a program, but this program can also be recorded on a (non-temporary) recording medium or provided via the communication network 100.
  • a notebook computer is shown as an example of the communication terminal 5, but it is not limited to this, and examples include a desktop computer, a tablet terminal, a smartphone, a smart watch, a car navigation device, a refrigerator, A microwave oven or the like may be used.
  • Each CPU 301, 501 may be not only a single CPU but also a plurality of CPUs.
  • Communication system Video correction device 5 Communication terminal 30 Input section 31 Three-dimensional image acquisition section 32 First importance attribute value assignment section 33 Two-dimensional image output section 34 Bone estimation section 35 Two-dimensional image selection section 36 Partial area selection section 37 Image recognition unit 38 Second importance attribute value assigning unit 39 Third importance attribute value assigning unit 40 Simplifying unit 41 Output unit

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Image Generation (AREA)

Abstract

本開示は、テクスチャ及びポリゴンメッシュによって構成された三次元映像を配信するにあたって、ユーザの体感品質を極力落とさないで、サーバ及びクライアント側の通信端末の再生負荷を軽減することを目的とする。 そのため、本開示の装置は、三次元モデルの顔や手等の高画質にする必要がある部分以外の部分(服を着ている部分等)に対して、ポリゴンメッシュのジオメトリに対する簡素化度合いを高くし、顔や手等の高画質にする必要がある部分に対して、ポリゴンメッシュのジオメトリに対する簡素化度合いを高くしない(又は全く簡素化しない)。これにより、ユーザの体感品質を極力落とさないで、サーバ及びクライアント側の通信端末の再生負荷を軽減することができる。

Description

映像修正装置、映像修正方法、及びプログラム
 本開示は、テクスチャ及びポリゴンメッシュによって構成された三次元映像を修正する技術に関する。
 高品質なボリュメトリックビデオ又はホログラムに代表される6自由度(6DoF)のコンテンツのネットワークを通した配信の実現には、データ圧縮、ネットワーク又はシステム状況以外に、クライアント側のAR(Augmented Reality)又はVR(Virtual Reality)又は用のデバイスの視界情報、仮想空間でのユーザの位置を動的に構成し、配信制御へ適用していく仕組みが必要である。これらのボリュメトリックビデオである三次元映像はテクスチャとポリゴンメッシュ(単に「メッシュ」ともいう)で構成されたアニメーションデータであり、クライアント側の端末で仮想環境と合わせてレンダリングをすることで、AR又はVR用等の端末のディスプレイ上に表示されることで、ユーザが視聴できる。一方、ボリュメトリックビデオはデータ量が大きく、ネットワーク配信を行ったときに広い帯域を必要とする。
 ボリュメトリックビデオ配信技術が開示された文献として、非特許文献1、非特許文献2、及び非特許文献3が挙げられる。
 非特許文献1では、サーバが、クライアント側のからAR又はVR用のデバイスによって検出された頭の動きに基づいて、ボリュメトリックビデオのレンダリングを行い、二次元映像にしてクライアントに送る手法が提案されている。
 また、非特許文献2では、サーバがリアルタイムで生成されたボリュメトリックビデオをリアルタイムにクライアント側の端末に配信し、クライアント側の端末がレンダリングして再生する手法が提案されている。
 さらに、非特許文献3では、サーバが、ネットワーク帯域に応じてボリュメトリックビデオのLevel Of Detailを動的に変更させることで、再生に必要なデータ量を削減する手法が提案されている。
Serhan Gul, Dimitri Podborski, Thomas Buchholz, Thomas Schierl, Cornelius Hellge, "Low-latency cloud-based volumetric video streaming using head motion prediction"<https://arxiv.org/abs/2001.06466> Sergio Orts-Escolano, Christoph Rhemann, et al., "Holoportation: Virtual 3D Teleportation in Real-time", UIST 2016, October 16-19, 2016〈http://dx.doi.org/10.1145/2984511.2984517〉 HoloStream/Arctrus<https://arcturus.studio/holostream>
 しかし、ボリュメトリックビデオ配信は、データ量が大きく、配信に必要なネットワーク帯域が大きいため、効率的に配信する手法が求められている。
 非特許文献1の手法では、サーバがユーザごとにレンダリングを行う必要があるため、サーバの負担が大きく、ユーザ数が増えたときに、サーバのリソースの分割により、それぞれのユーザが視聴する視点映像品質の劣化が考えられる。更に、高頻度でクライアントからVRヘッドセットの位置情報を低遅延で行う必要があり、所謂VR酔いが発生し始めるMotion to Photon 遅延を20msに満たすことは、ネットワークとサーバの両方の負担が大きい。
 また、非特許文献2の手法では,通信帯域に4Gbps必要であり、将来的な消費者が使える回線において常に安定した4Gbpsの通信帯域の確保が難しい。更に、ネットワークの回線への負荷が大きいため、同一のネットワークを使用するほかのユーザの使用可能帯域が狭まり、ユーザの体感品質を落としてしまう。
 更に、非特許文献3の手法では、ネットワークの使用可能帯域が狭いときには、視聴中のボリュメトリックビデオの視聴者が見える三次元(3D)データの面(前面)、更に被写体の顔や手等の高画質にする必要がある部分も含めて、画質とLevel Of Detailを落としてしまうため、大幅なユーザの体感品質の低下をもたらしてしまう。
 本発明は、上記の点に鑑みてなされたものであって、ユーザの体感品質を極力落とさないで、サーバ及びクライアント側の通信端末の再生負荷を軽減することを目的とする。
 上記課題を解決するため、請求項1に係る発明は、テクスチャ及びポリゴンメッシュによって構成された三次元映像を修正する映像修正装置であって、前記三次元映像のデータからフレームである三次元画像のデータを取得する三次元画像取得部と、前記三次元画像のデータにおける三次元モデルの前記ポリゴンメッシュの各頂点に対し、第1の重要度属性値を付与する第1の重要度属性値付与部と、前記三次元モデルに対して各仮想カメラの仮想視点から見える各二次元画像のデータを出力する二次元画像出力部と、前記各二次元画像のデータに対してボーン推定することで、前記各二次元画像のデータの各ボーン情報を得るボーン推定部と、機械学習を用いて前記各ボーン情報に係る各ボーン推定信頼度を比較し、前記各二次元画像のデータのうち前記ボーン推定信頼度が所定順位以上に高い所定の二次元画像のデータを選択する二次元画像選択部と、前記二次元画像選択部によって選択された前記所定の二次元画像のデータの前記ボーン情報に基づいて、前記所定の二次元画像のデータにおける前記三次元モデルの特定部位を示す領域を選択すると共に、前記特定部位を示す領域に隣接する領域であって前記特定部位と同種の色である前記三次元モデルの隣接部位を示す領域を選択する部分領域選択部と、前記特定部位を示す領域及び前記隣接部位を示す領域のポリゴンメッシュの各頂点に対し、前記第1の重要度属性値に替えて第2の重要度属性値を付与する第2の重要度属性値付与部と、前記第1の重要度属性値が付与された各頂点に係るポリゴンメッシュのジオメトリに対する簡素化度合いに比べて、前記第2の重要度属性値が付与された各頂点に係るポリゴンメッシュのジオメトリに対する簡素化度合いを高くすることで、前記三次元画像のデータを簡素化する簡素化部と、を有する映像修正装置である。
 以上説明したように本発明によれば、ユーザの体感品質を極力落とさないで、サーバ及びクライアント側の通信端末の再生負荷を軽減することができるという効果を奏する。
第1の実施形態に係る通信システムの全体構成図である。 第1の実施形態に係る映像修正装置の電気的なハードウェア構成図である。 本実施形態に係る通信端末の電気的なハードウェア構成図である。 第1の実施形態に係る映像修正装置の機能構成図である。 第1の実施形態に係る映像修正装置の処理を示すフローチャートである。 第1の実施形態に係る映像修正装置の処理を示すフローチャートである。 ポリゴンメッシュの頂点を示す図である。 複数の仮想カメラを三次元モデルの周りに配置した概念図である。 三次元モデルに対して任意の仮想カメラの仮想視点から見える二次元画像を示した図である。 二次元画像の三次元モデルのボーン情報を示した図である。 二次元画像の三次元モデルのポリゴンメッシュを示した図である。 二次元画像の三次元モデルの顔のボーン情報を示した図である。 二次元画像の三次元モデルの顔及び顔の隣接部分(首)のポリゴンメッシュを示す図である。 簡素化した後の二次元画像の三次元モデルのポリゴンメッシュを示した図である。 第2の実施形態に係る映像修正装置の機能構成図である。 第2の実施形態に係る映像修正装置の処理を示すフローチャートである。 第2の実施形態に係る映像修正装置の処理を示すフローチャートである。
 以下、図面に基づいて本発明の実施形態を説明する。
 ●第1の実施形態
 〔実施形態のシステム構成〕
 まず、図1を用いて、第1の実施形態の通信システムの全体構成について説明する。図1は、第1の実施形態に係る通信システムの全体構成図である。
 図1に示されているように、本実施形態の通信システム1は、映像修正装置3、及び通信端末5によって構築されている。通信端末5は、ユーザによって管理及び使用される。
 また、映像修正装置3と通信端末5は、インターネット等の通信ネットワーク100を介して通信することができる。通信ネットワーク100の接続形態は、無線又は有線のいずれでも良い。
 映像修正装置3は、単数又は複数のコンピュータによって構成されている。映像修正装置3が複数のコンピュータによって構成されている場合には、「映像修正装置」と示しても良いし、「映像修正システム」と示しても良い。
 映像修正装置3は、テクスチャ及びポリゴンメッシュによって構成された三次元映像(ボリュメトリックビデオ又はホログラム等)を修正する。
 通信端末5は、コンピュータであり、図1では、一例としてノート型パソコンが示されている。図1では、ユーザ(ここでは、映像修正者)が、通信端末5を操作する。なお、通信端末5を用いずに、映像修正装置3単独で処理をしてもよい。
 〔ハードウェア構成〕
 <映像修正装置のハードウェア構成>
 次に、図2を用いて、映像修正装置3の電気的なハードウェア構成を説明する。図2は、映像修正装置の電気的なハードウェア構成図である。
 映像修正装置3は、コンピュータとして、図2に示されているように、CPU(Central Processing Unit)301、ROM(Read Only Memory)302、RAM(Random Access Memory)303、SSD(Solid State Drive)304、外部機器接続I/F(Interface)305、ネットワークI/F306、メディアI/F309、及びバスライン310を備えている。
 これらのうち、CPU301は、映像修正装置3全体の動作を制御する。ROM302は、IPL(Initial Program Loader)等のCPU301の駆動に用いられるプログラムを記憶する。RAM303は、CPU301のワークエリアとして使用される。
 SSD304は、CPU301の制御に従って各種データの読み出し又は書き込みを行う。なお、SDD304の代わりに、HDD(Hard Disk Drive)を用いても良い。
 外部機器接続I/F305は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、ディスプレイ、スピーカ、キーボード、マウス、USB(Universal Serial Bus)メモリ、及びプリンタ等である。
 ネットワークI/F306は、通信ネットワーク100を介してデータ通信をするためのインターフェースである。
 メディアI/F309は、フラッシュメモリ等の記録メディア309mに対するデータの読み出し又は書き込み(記憶)を制御する。記録メディア309mには、DVD(Digital Versatile Disc)やBlu-ray Disc(登録商標)等も含まれる。
 バスライン310は、図2に示されているCPU301等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
 <通信端末のハードウェア構成>
 次に、図3を用いて、通信端末5の電気的なハードウェア構成を説明する。図3は、通信端末の電気的なハードウェア構成図である。
 通信端末5は、コンピュータとして、図3に示されているように、CPU501、ROM502、RAM503、SSD504、外部機器接続I/F(Interface)505、ネットワークI/F506、ディスプレイ507、ポインティングデバイス508、メディアI/F509、及びバスライン510を備えている。
 これらのうち、CPU501は、通信端末5全体の動作を制御する。ROM502は、IPL等のCPU501の駆動に用いられるプログラムを記憶する。RAM503は、CPU501のワークエリアとして使用される。
 SSD504は、CPU501の制御に従って各種データの読み出し又は書き込みを行う。なお、SSD504の代わりに、HDD(Hard Disk Drive)を用いてもよい。
 外部機器接続I/F505は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、ディスプレイ、スピーカ、キーボード、マウス、USBメモリ、及びプリンタ等である。
 ネットワークI/F506は、通信ネットワーク100を介してデータ通信をするためのインターフェースである。
 ディスプレイ507は、各種画像を表示する液晶や有機EL(Electro Luminescence)などの表示手段の一種である。
 ポインティングデバイス508は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。なお、ユーザYがキーボードを使う場合は、ポインティングデバイス508の機能をOFFにしてもよい。
 メディアI/F509は、フラッシュメモリ等の記録メディア509mに対するデータの読み出し又は書き込み(記憶)を制御する。記録メディア509mには、DVDやBlu-ray Disc(登録商標)等も含まれる。
 バスライン510は、図4に示されているCPU501等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
 〔第1の実施形態の映像修正装置の機能構成〕
 次に、図4を用いて、映像修正装置の機能構成について説明する。図4は、第1の実施形態における映像修正装置の機能構成図である。なお、図4の映像修正装置3aは、図1の映像修正装置の一例である。
 図4において、映像修正装置3aは、入力部30、三次元画像取得部31、第1の重要度属性値付与部32、二次元画像出力部33、ボーン推定部34、二次元画像選択部35、部分領域選択部36、第2の重要度属性値付与部38、簡素化部40、及び出力部41を有する。これら各部は、プログラムに基づき図2のCPU301による命令によって実現される機能である。
 これらのうち、入力部30は、ユーザ(映像修正者)の通信端末5から、及びネットワークI/F306を介して、修正対象である三次元映像のデータの入力を受け付ける。
 三次元画像取得部31は、三次元映像のデータからフレームである三次元画像のデータを取得する。
 第1の重要度属性値付与部32は、三次元画像のデータにおける三次元モデルmのポリゴンメッシュの各頂点に対し、第1の重要度属性値(例えば、0.5)を付与する。図7は、ポリゴンメッシュの頂点を示す図である。図7に示すように、四角形のポリゴンメッシュの場合、ポリゴンメッシュpm1には4つの頂点vt1,vt2,vt3,vt4が存在する。また、ポリゴンメッシュpm1に隣接するポリゴンメッシュpm2には4つの頂点vt2,vt3,vt5,vt6が存在する。
 二次元画像出力部33は、三次元モデルに対して各仮想カメラの仮想視点から見える各二次元画像のデータを出力する。図8は、複数の仮想カメラを三次元モデルの周りに配置した概念図である。図8に示すように、三次元モデルmの周りには、複数の仮想カメラvc1~vc8が配置されている。なお、仮想カメラの数は1つ以上であればいくつでも良い。また、各仮想カメラは等間隔に配置しても良いし、等間隔に配置しなくてもよい。
 また、図9Aは、三次元モデルに対して任意の仮想カメラの仮想視点から見える二次元画像を示した図である。二次元画像出力部33は、図9Aに示すような各二次元画像のデータを出力する。
 ボーン推定部34は、各二次元画像のデータに対してボーン推定することで、各二次元画像のデータのボーン情報を得る。図9Bは、二次元画像の三次元モデルのボーン情報を示した図である。ボーン推定部34は、図9Bに示すようなボーン情報を得る。図10Aは、二次元画像の三次元モデルの顔のボーン情報を示した図である。図10Aは、図9Bの顔及び顔の隣接部位(周辺部位)を拡大した図である。
 二次元画像選択部35は、機械学習を用いて各ボーン情報に係るボーン推定信頼度を比較し、各二次元画像のデータのうちボーン推定信頼度が所定順位(例えば、3番目)以上に高い所定の二次元画像のデータを選択する。例えば、図8に示すように、8つの仮想カメラvc1~vc8が配置されている場合、二次元画像選択部35は、ボーン推定信頼度が高い上位3つのうちのいずれの二次元画像のデータを選択しても良いし、一番ボーン推定信頼度が高い二次元画像のデータを選択してもよい。
 部分領域選択部36は、二次元画像選択部35によって選択された所定の二次元画像のデータのボーン情報に基づいて、所定の二次元画像のデータにおける三次元モデルmの特定部位(顔等)を示す領域を選択する。また、部分領域選択部36は、特定部位(顔等)を示す領域に隣接する領域であって特定部位と同種の色である三次元モデルmの隣接部位(首等)を示す領域を選択する。図9Cは、二次元画像の三次元モデルのポリゴンメッシュを示した図である。図10Bは、二次元画像の三次元モデルの顔及び顔の隣接部分(首)のポリゴンメッシュを示す図である。図10Bは、図9Cの顔及び顔の隣接部位(周辺部位)を拡大した図である。図10Aに示すように、顔のポリゴンメッシュpm11の隣接する隣接部位として、首のポリゴンメッシュpm12が示されている。
 第2の重要度属性値付与部38は、特定部位を示す領域及び隣接部位を示す領域のポリゴンメッシュの各頂点に対し、第1の重要度属性値に替えて第2の重要度属性値(例えば、1.0)を付与する。
 簡素化部40は、第1の重要度属性値が付与された各頂点に係るポリゴンメッシュのジオメトリに対する簡素化度合いに比べて、第2の重要度属性値が付与された各頂点に係るポリゴンメッシュのジオメトリに対する簡素化度合いを高くすることで、三次元画像のデータを簡素化する。図11は、簡素化した後の二次元画像の三次元モデルのポリゴンメッシュを示した図である。図11に示すように、衣服から露出している部位(顔、首、手、腕
、すね、膝、太ももの一部)のジオメトリに対する簡素化度合いは低く、衣服部分のジオメトリに対する簡素化度合いは高くなっている。
 なお、第2の重要度属性値が1.0の場合、簡素化部40は全く簡素化しないが、例えば、0.9等にして若干簡素化してもよい。また、第1の重要度属性値が高く、第2の重要度属性値が低くても良い。この場合、簡素化部40は、詳細化(密度化)することで、図11に示すように同じ結果になる。
 出力部41は、簡素化後の三次元画像のデータを出力する。出力方法としては、通信端末5等に対して、三次元画像のデータを送信したり、この三次元画像としてのフレームによって構成された三次元映像を生成して出力したりすることが挙げられる。
 〔第1の実施形態の処理又は動作〕
 続いて、図6乃至図11を用いて、第1の実施形態の処理又は動作について説明する。図5及び図6は、第1の実施形態に係る映像修正装置の処理を示すフローチャートである。
 S11:図5に示されているように、まず、入力部30は、ユーザ(映像修正者)の通信端末5から、及びネットワークI/F306を介して、修正対象である三次元映像のデータの入力を受け付ける。
 S12:三次元画像取得部31は、三次元映像のデータからフレームである三次元画像のデータを取得する。
 S13:第1の重要度属性値付与部32は、三次元画像のデータにおける三次元モデルmのポリゴンメッシュの各頂点に対し、第1の重要度属性値(例えば、0.5)を付与する。
 S14:二次元画像出力部33は、三次元モデルに対して各仮想カメラの仮想視点から見える各二次元画像のデータを出力する。
 S15:ボーン推定部34は、各二次元画像のデータに対してボーン推定することで、各二次元画像のデータのボーン情報を得る。
 S16:二次元画像選択部35は、機械学習を用いて各ボーン情報に係るボーン推定信頼度を比較し、各二次元画像のデータのうちボーン推定信頼度が所定順位以上に高い所定の二次元画像のデータを選択する。
 S17:部分領域選択部36は、二次元画像選択部35によって選択された所定の二次元画像のデータのボーン情報に基づいて、所定の二次元画像のデータにおける三次元モデルmの特定部位(顔等)を示す領域を選択する。
 S18:更に、部分領域選択部36は、特定部位(顔等)を示す領域に隣接する領域であって特定部位と同種の色である三次元モデルmの隣接部位(首等)を示す領域を選択する。
 S19:第2の重要度属性値付与部38は、特定部位を示す領域及び隣接部位を示す領域のポリゴンメッシュの各頂点に対し、第1の重要度属性値に替えて第2の重要度属性値を付与する。
 S20:簡素化部40は、第1の重要度属性値が付与された各頂点に係るポリゴンメッシュのジオメトリに対する簡素化度合いに比べて、第2の重要度属性値が付与された各頂点に係るポリゴンメッシュのジオメトリに対する簡素化度合いを高くすることで、三次元画像のデータを簡素化する。
 S21:出力部41は、簡素化後の三次元画像のデータを出力する。
 以上により、第1の実施形態の処理又は動作の説明が終了する。
 〔第1の実施形態の効果〕
 以上説明したように本実施形態によれば、簡素化部40は、三次元モデルmの顔や手等の高画質にする必要がある部分以外の部分(服を着ている部分等)に対して、ポリゴンメッシュのジオメトリに対する簡素化度合いを高くし、顔や手等の高画質にする必要がある部分に対して、ポリゴンメッシュのジオメトリに対する簡素化度合いを高くしない(又は全く簡素化しない)。これにより、ユーザの体感品質を極力落とさないで、サーバ及びクライアント側の通信端末の再生負荷を軽減することができる。
 ●第2の実施形態
 続いて、図12乃至図14を用いて、第2の実施形態について説明する。なお、第2の実施形態の全体構成、電気的なハードウェア構成に関しては、第1の実施形態と同様であるため、説明を省略する。また、第2の実施形態の機能構成のうち、第1の実施形態の機能構成と同様の機能構成については同じ符号を付して説明を省略する。
 〔第2の実施形態の映像修正装置の機能構成〕
 図12を用いて、映像修正装置の機能構成について説明する。図12は、第2の実施形態における映像修正装置の機能構成図である。なお、図4の映像修正装置3bは、図1の映像修正装置の一例である。
 図12において、映像修正装置3bは、入力部30、三次元画像取得部31、第1の重要度属性値付与部32、二次元画像出力部33、画像認識部37、第2の重要度属性値付与部38、第3の重要度属性値付与部39、簡素化部40、及び出力部41を有する。これら各部は、プログラムに基づき図2のCPU301による命令によって実現される機能である。
 これらのうち、入力部30、三次元画像取得部31、第1の重要度属性値付与部32、二次元画像出力部33、第2の重要度属性値付与部38、簡素化部40、及び出力部41は、第1の実施形態と同様であるため、第2の実施形態に特有の機能構成について説明する。
 画像認識部37は、二次元画像出力部33によって出力された各二次元画像のデータにおける三次元モデルの特定部位(顔等)を示す領域を画像認識する。この画像認識の手法は、一般的な技術による。
 第3の重要度属性値付与部39は、特定部位(顔等)の領域に隣接する三次元モデルの隣接領域のポリゴンメッシュの各頂点に対し、特定部位を示す領域から離れるにつれて第1の重要度属性値になるまで段階的に異なる所定の重要度属性値を付与する。この場合、本実施形態の簡素化部40は、第1の重要度属性値が付与された各頂点に係るポリゴンメッシュのジオメトリに対する簡素化度合いに対し、所定の重要度属性値が付与された各頂点に係るポリゴンメッシュのジオメトリに対する簡素化度合いを段階的に高くして、第2の重要度属性値が付与された各頂点に係るポリゴンメッシュのジオメトリに対する簡素化度合いを最も高くすることで、三次元画像のデータを簡素化する。
 例えば、第3の重要度属性値付与部39は、第2の重要度属性値(例えば、1.0)の領域を起点とし、第2の重要度属性値ではない接続頂点の重要度属性値(所定の重要度属性値)を線形減少の再帰処理を適用していく。この再帰処理は、また次の接続頂点を起点とし、繰り返され初期値(第1の重要度続映値)と同一値(例えば、0.5)にまで減少した時点で処理が終了する。
 〔第2の実施形態の処理又は動作〕
 続いて、図13及び図14を用いて、第2の実施形態の処理又は動作について説明する。図13及び図14は、第2の実施形態に係る映像修正装置の処理を示すフローチャートである。なお、ステップS31~S34は、第1の実施形態のステップS11~S14と同様の処理内容であるため、説明を省略する。
 S35:二次元画像出力部33によって出力された各二次元画像のデータにおける三次元モデルの特定部位(顔等)を示す領域を画像認識する。
 S36:第2の重要度属性値付与部38は、特定部位を示す領域のポリゴンメッシュの各頂点に対し、第1の重要度属性値に替えて第2の重要度属性値を付与する。
 S37:第3の重要度属性値付与部39は、特定部位の領域に隣接する三次元モデルの隣接領域のポリゴンメッシュの各頂点に対し、特定部位を示す領域から離れるにつれて第1の重要度属性値になるまで段階的に異なる所定の重要度属性値を付与する。
 S38:簡素化部40は、第1の重要度属性値が付与された各頂点に係るポリゴンメッシュのジオメトリに対する簡素化度合いに対し、所定の重要度属性値が付与された各頂点に係るポリゴンメッシュのジオメトリに対する簡素化度合いを段階的に高くして、第2の重要度属性値が付与された各頂点に係るポリゴンメッシュのジオメトリに対する簡素化度合いを最も高くすることで、三次元画像のデータを簡素化する。
 S39:出力部41は、簡素化後の三次元画像のデータを出力する。
 〔第2の実施形態の効果〕
 以上説明したように本実施形態によれば、第1の実施形態と同様の効果を奏する。また、第2の実施形態の簡素化部40は、段階的にポリゴンメッシュのジオメトリに対する簡素化度合いを高くするため、三次元映像の閲覧者には違和感が少なく、よりユーザ(閲覧者)の体感品質を向上させることができる。
 〔補足〕
 本発明は上述の実施形態に限定されるものではなく、以下に示すような構成又は処理(動作)であってもよい。
(1)映像修正装置3はコンピュータとプログラムによっても実現できるが、このプログラムを(非一時的な)記録媒体に記録することも、通信ネットワーク100を介して提供することも可能である。
(2)上記実施形態では、通信端末5の一例としてノート型パソコンが示されているが、これに限るものではなく、例えば、デスクトップパソコン、タブレット端末、スマートフォン、スマートウォッチ、カーナビゲーション装置、冷蔵庫、電子レンジ等であってもよい。
(3)各CPU301,501は、単一だけでなく、複数であってもよい。
1 通信システム
3 映像修正装置
5 通信端末
30 入力部
31 三次元画像取得部
32 第1の重要度属性値付与部
33 二次元画像出力部
34 ボーン推定部
35 二次元画像選択部
36 部分領域選択部
37 画像認識部
38 第2の重要度属性値付与部
39 第3の重要度属性値付与部
40 簡素化部
41 出力部

Claims (8)

  1.  テクスチャ及びポリゴンメッシュによって構成された三次元映像を修正する映像修正装置であって、
     前記三次元映像のデータからフレームである三次元画像のデータを取得する三次元画像取得部と、
     前記三次元画像のデータにおける三次元モデルの前記ポリゴンメッシュの各頂点に対し、第1の重要度属性値を付与する第1の重要度属性値付与部と、
     前記三次元モデルに対して各仮想カメラの仮想視点から見える各二次元画像のデータを出力する二次元画像出力部と、
     前記各二次元画像のデータに対してボーン推定することで、前記各二次元画像のデータの各ボーン情報を得るボーン推定部と、
     機械学習を用いて前記各ボーン情報に係る各ボーン推定信頼度を比較し、前記各二次元画像のデータのうち前記ボーン推定信頼度が所定順位以上に高い所定の二次元画像のデータを選択する二次元画像選択部と、
     前記二次元画像選択部によって選択された前記所定の二次元画像のデータの前記ボーン情報に基づいて、前記所定の二次元画像のデータにおける前記三次元モデルの特定部位を示す領域を選択すると共に、前記特定部位を示す領域に隣接する領域であって前記特定部位と同種の色である前記三次元モデルの隣接部位を示す領域を選択する部分領域選択部と、
     前記特定部位を示す領域及び前記隣接部位を示す領域のポリゴンメッシュの各頂点に対し、前記第1の重要度属性値に替えて第2の重要度属性値を付与する第2の重要度属性値付与部と、
     前記第1の重要度属性値が付与された各頂点に係るポリゴンメッシュのジオメトリに対する簡素化度合いに比べて、前記第2の重要度属性値が付与された各頂点に係るポリゴンメッシュのジオメトリに対する簡素化度合いを高くすることで、前記三次元画像のデータを簡素化する簡素化部と、
     を有する映像修正装置。
  2.  前記簡素化部は、前記第1の重要度属性値が付与された各頂点に係るポリゴンメッシュのジオメトリに対して簡素化しない、請求項1に記載の映像修正装置。
  3.  テクスチャ及びポリゴンメッシュによって構成された三次元映像を修正する映像修正装置が実行する映像修正方法であって、
     前記映像修正装置は、
     前記三次元映像のデータからフレームである三次元画像のデータを取得する三次元画像取得処理と、
     前記三次元画像のデータにおける三次元モデルの前記ポリゴンメッシュの各頂点に対し、第1の重要度属性値を付与する第1の重要度属性付与処理と、
     前記三次元モデルに対して各仮想カメラの仮想視点から見える各二次元画像のデータを出力する二次元画像出力処理と、
     前記各二次元画像のデータに対してボーン推定することで、前記各二次元画像のデータの各ボーン情報を得るボーン推定処理と、
     機械学習を用いて前記各ボーン情報に係る各ボーン推定信頼度を比較し、前記各二次元画像のデータのうち前記ボーン推定信頼度が所定順位以上に高い所定の二次元画像のデータを選択する二次元画像選択処理と、
     前記二次元画像選択処理によって選択された前記所定の二次元画像のデータの前記ボーン情報に基づいて、前記所定の二次元画像のデータにおける前記三次元モデルの特定部位を示す領域を選択すると共に、前記特定部位を示す領域に隣接する領域であって前記特定部位と同種の色である前記三次元モデルの隣接部位を示す領域を選択する部分領域選択処理と、
     前記特定部位を示す領域及び前記隣接部位を示す領域のポリゴンメッシュの各頂点に対し、前記第1の重要度属性値に替えて第2の重要度属性値を付与する第2の重要度属性付与処理と、
     前記第1の重要度属性値が付与された各頂点に係るポリゴンメッシュのジオメトリに対する簡素化度合いに比べて、前記第2の重要度属性値が付与された各頂点に係るポリゴンメッシュのジオメトリに対する簡素化度合いを高くすることで、前記三次元画像のデータを簡素化する簡素化処理と、
     を実行する映像修正方法。
  4.  コンピュータに、請求項3に記載の方法を実行させるプログラム。
  5.  テクスチャ及びポリゴンメッシュによって構成された三次元映像を修正する映像修正装置であって、
     前記三次元映像のデータからフレームである三次元画像のデータを取得する三次元画像取得部と、
     前記三次元画像のデータにおける三次元モデルの前記ポリゴンメッシュの各頂点に対し、第1の重要度属性値を付与する第1の重要度属性値付与部と、
     前記三次元モデルに対して各仮想カメラの仮想視点から見える各二次元画像のデータを出力する二次元画像出力部と、
     前記各二次元画像のデータにおける前記三次元モデルの特定部位を示す領域を画像認識する画像認識部と、
     前記特定部位を示す領域のポリゴンメッシュの各頂点に対し、前記第1の重要度属性値に替えて第2の重要度属性値を付与する第2の重要度属性値付与部と、
     前記特定部位の領域に隣接する前記三次元モデルの隣接領域のポリゴンメッシュの各頂点に対し、前記特定部位を示す領域から離れるにつれて前記第1の重要度属性値になるまで段階的に異なる所定の重要度属性値を付与する第3の重要度属性値付与部と、
     前記第1の重要度属性値が付与された各頂点に係るポリゴンメッシュのジオメトリに対する簡素化度合いに対し、前記所定の重要度属性値が付与された各頂点に係るポリゴンメッシュのジオメトリに対する簡素化度合いを前記段階的に高くして、前記第2の重要度属性値が付与された各頂点に係るポリゴンメッシュのジオメトリに対する簡素化度合いを最も高くすることで、前記三次元画像のデータを簡素化する簡素化部と、
     を有する映像修正装置。
  6.  前記簡素化部は、前記第1の重要度属性値が付与された各頂点に係るポリゴンメッシュのジオメトリに対して簡素化しない、請求項5に記載の映像修正装置。
  7.  テクスチャ及びポリゴンメッシュによって構成された三次元映像を修正する映像修正装置が実行する映像修正方法であって、
     前記映像修正装置は、
     前記三次元映像のデータからフレームである三次元画像のデータを取得する三次元画像取得処理と、
     前記三次元画像のデータにおける三次元モデルの前記ポリゴンメッシュの各頂点に対し、第1の重要度属性値を付与する第1の重要度属性付与処理と、
     前記三次元モデルに対して各仮想カメラの仮想視点から見える各二次元画像のデータを出力する二次元画像出力処理と、
     前記各二次元画像のデータにおける前記三次元モデルの特定部位を示す領域を画像認識する画像認識処理と、
     前記特定部位を示す領域のポリゴンメッシュの各頂点に対し、前記第1の重要度属性値に替えて第2の重要度属性値を付与する第2の重要度属性付与処理と、
     前記特定部位の領域に隣接する前記三次元モデルの隣接領域のポリゴンメッシュの各頂点に対し、前記特定部位を示す領域から離れるにつれて前記第1の重要度属性値になるまで段階的に異なる所定の重要度属性値を付与する第3の重要度属性付与処理と、
     前記第1の重要度属性値が付与された各頂点に係るポリゴンメッシュのジオメトリに対する簡素化度合いに対し、前記所定の重要度属性値が付与された各頂点に係るポリゴンメッシュのジオメトリに対する簡素化度合いを前記段階的に高くして、前記第2の重要度属性値が付与された各頂点に係るポリゴンメッシュのジオメトリに対する簡素化度合いを最も高くすることで、前記三次元画像のデータを簡素化する簡素化処理と、
     を実行する映像修正方法。
  8.  コンピュータに、請求項7に記載の方法を実行させるプログラム。
PCT/JP2022/021306 2022-05-24 2022-05-24 映像修正装置、映像修正方法、及びプログラム WO2023228289A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/021306 WO2023228289A1 (ja) 2022-05-24 2022-05-24 映像修正装置、映像修正方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/021306 WO2023228289A1 (ja) 2022-05-24 2022-05-24 映像修正装置、映像修正方法、及びプログラム

Publications (1)

Publication Number Publication Date
WO2023228289A1 true WO2023228289A1 (ja) 2023-11-30

Family

ID=88918639

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/021306 WO2023228289A1 (ja) 2022-05-24 2022-05-24 映像修正装置、映像修正方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2023228289A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018134914A1 (ja) * 2017-01-18 2018-07-26 富士通株式会社 モデリング装置、モデリング方法、およびモデリングプログラム
JP2020119292A (ja) * 2019-01-24 2020-08-06 キヤノン株式会社 情報処理装置、情報処理方法、データ構造、及びプログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018134914A1 (ja) * 2017-01-18 2018-07-26 富士通株式会社 モデリング装置、モデリング方法、およびモデリングプログラム
JP2020119292A (ja) * 2019-01-24 2020-08-06 キヤノン株式会社 情報処理装置、情報処理方法、データ構造、及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XIAOTIAN ZHAO, TAKAFUMI OKUYAMA: "Volumetric video streaming data reduction using fixed one side 3D data", ITE TECHNICAL REPORT, EIZO JOHO MEDIA GAKKAI, TOKYO, JP, vol. 45, no. 13 (ME2021-59), 4 June 2021 (2021-06-04), JP , pages 93 - 98, XP009550236, ISSN: 1342-6893 *

Similar Documents

Publication Publication Date Title
US20210099706A1 (en) Processing of motion information in multidimensional signals through motion zones and auxiliary information through auxiliary zones
US20180189980A1 (en) Method and System for Providing Virtual Reality (VR) Video Transcoding and Broadcasting
US10284753B1 (en) Virtual reality media content generation in multi-layer structure based on depth of field
US8102428B2 (en) Content-aware video stabilization
TW201946463A (zh) 藉由所關注區域之制定的異步時間及空間翹曲
US20190371045A1 (en) Dynamic local temporal-consistent textured mesh compression
CN113661471A (zh) 混合渲染
KR20200037442A (ko) 포인트-클라우드 스트리밍을 위한 방법 및 장치(method and apparatus for point-cloud streaming)
US10554713B2 (en) Low latency application streaming using temporal frame transformation
Li et al. A log-rectilinear transformation for foveated 360-degree video streaming
TW201702807A (zh) 根據參考部分之位置以處理部分沈浸式視訊內容之方法及 裝置
US11379952B1 (en) Foveated image capture for power efficient video see-through
CN111292236A (zh) 使用交叉分辨率调整而减少中央凹注视渲染中的混叠伪像
JP6066755B2 (ja) 描画処理装置および描画処理方法
GB2564866A (en) Method of and data processing system for providing an output surface
KR102282189B1 (ko) 밉맵 생성 방법 및 장치
WO2023228289A1 (ja) 映像修正装置、映像修正方法、及びプログラム
JP2023530548A (ja) マルチプレーン画像圧縮
EP3948790B1 (en) Depth-compressed representation for 3d virtual scene
JP2018005226A (ja) Vramでマルチソースメディアをオーバーレイするシステム及び方法
CN110136272B (zh) 用于向远程用户虚拟应用彩妆效果的系统和方法
CN113452870A (zh) 视频处理方法和装置
US20240144602A1 (en) Distribution control system, distribution control apparatus, distribution control method, and program
WO2024089875A1 (ja) 配信制御システム、配信制御装置、配信制御方法、及びプログラム
JP2023536035A (ja) オーバースムージングプログレッシブ画像

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22943693

Country of ref document: EP

Kind code of ref document: A1