WO2022249536A1 - Information processing device and information processing method - Google Patents
Information processing device and information processing method Download PDFInfo
- Publication number
- WO2022249536A1 WO2022249536A1 PCT/JP2022/001270 JP2022001270W WO2022249536A1 WO 2022249536 A1 WO2022249536 A1 WO 2022249536A1 JP 2022001270 W JP2022001270 W JP 2022001270W WO 2022249536 A1 WO2022249536 A1 WO 2022249536A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- information
- user
- information processing
- target object
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T19/00—Manipulating 3D models or images for computer graphics
Definitions
- the present technology relates to an information processing device and an information processing method applicable to VR (Virtual Reality) video distribution and the like.
- Non-Patent Document 1 describes saliency map estimation processing for an omnidirectional image.
- planar images in various camera directions are extracted from the omnidirectional image, and a saliency map for each planar image is estimated by a saliency map estimation model for planar images.
- the saliency maps for each planar image are integrated and horizontally biased toward the horizontal in the center of the image to estimate the saliency map of the omnidirectional image.
- VR images virtual images
- the distribution of virtual images (virtual images) such as VR images is expected to spread, and there is a demand for technology that enables the distribution of high-quality virtual images.
- the purpose of the present technology is to provide an information processing device and an information processing method capable of realizing high-quality virtual video distribution.
- an information processing apparatus includes a rendering unit, an estimation unit, and a generation unit.
- the rendering unit generates two-dimensional video data according to the user's field of view by executing rendering processing on three-dimensional space data forming a virtual space based on field-of-view information about the user's field of view.
- the estimation unit estimates a recognition position recognized by the user of a recognition target object recognized by the user in an area outside the user's visual field in the virtual space.
- the generating unit generates a saliency map representing saliency in the out-of-field region based on the estimated recognition position of the recognition target object in the out-of-field region.
- the recognition position of the recognition target object in the out-of-field area is estimated.
- a saliency map in the out-of-view region is generated based on the estimated recognition position. This makes it possible to generate a high-precision saliency map in the out-of-field region, and to use the saliency map to deliver high-quality virtual video.
- the estimation unit may set, as the recognition target object, an object that has been rendered before the current time.
- the two-dimensional video data may be composed of a plurality of frame images that are continuous in time series.
- the estimation unit performs the virtual space corresponding to the position of the recognition target object in the most recent past frame image that includes the recognition target object.
- the recognition position may be estimated based on the position within.
- the estimation unit may estimate a position in the virtual space corresponding to the position of the recognition target object in the most recent frame image as the recognition position.
- the estimation unit estimates, as the recognition position, a position shifted in the moving direction of the recognition target object from a position in the virtual space corresponding to the position of the recognition target object in the most recent frame image. good too.
- the estimation unit estimates a position in the virtual space where the sound is generated when determining that the user has recognized a sound emitted by the recognition target object. , may be estimated as the recognition position.
- the three-dimensional space data may include three-dimensional space description data defining the configuration of the virtual space and three-dimensional object data defining a three-dimensional object in the virtual space.
- the three-dimensional space description data may include role information representing a role of the object to be recognized, and fixed position information representing a fixed position related to the role.
- the estimating unit determines that, for the recognition target object set with predetermined role information that is not included in the frame image at the current time, the recognition target object set with the same role information was rendered by the current time. , the home position associated with the role may be inferred as the recognition position.
- the estimating unit determines, if the recognition target object for which the same role information is set has been rendered at the fixed position related to the role by the current time, may be estimated as the recognition position.
- the three-dimensional space data may include three-dimensional space description data defining the configuration of the virtual space and three-dimensional object data defining a three-dimensional object in the virtual space.
- the three-dimensional space description data may include role information representing a role of the object to be recognized, and fixed position information representing a fixed position related to the role.
- the estimation unit estimates the sound emitted by the recognition target object set with the same role information by the current time.
- the fixed position associated with the role may be estimated as the recognized position when it is determined that the user has recognized it.
- the estimation unit determines that the user has recognized a sound emitted while the recognition target object, for which the same role information is set, is in the fixed position related to the role by the current time, may be estimated as the recognition position.
- the estimation unit may estimate the recognition position based on the position of the recognition target object in the two-dimensional video data in which the recognition target object is rendered.
- the generation unit may generate the saliency map in which saliency based on bottom-up attention in the out-of-field area is zero.
- the generation unit may generate the saliency map representing saliency based on top-down attention in the out-of-field area based on the recognition position of the recognition target object in the out-of-field area.
- the generation unit may generate the saliency map in the out-of-field region and a saliency map representing saliency of the two-dimensional video data.
- the information processing device may further include a prediction unit that generates the future visual field information as predicted visual field information based on the saliency map.
- the rendering section may generate the two-dimensional image data based on the predicted field-of-view information.
- the field-of-view information may include at least one of a viewpoint position, a line-of-sight direction, a line-of-sight rotation angle, a position of the user's head, or a rotation angle of the user's head.
- the field-of-view information may include the rotation angle of the user's head.
- the prediction unit may predict the future head rotation angle of the user based on the saliency map.
- the two-dimensional video data may be composed of a plurality of frame images that are continuous in time series.
- the rendering section may generate a frame image based on the predicted field-of-view information and output it as a predicted frame image.
- An information processing method is an information processing method executed by a computer system, in which rendering processing is performed on three-dimensional space data forming a virtual space based on visual field information regarding a user's visual field. to generate two-dimensional image data according to the user's field of view.
- a recognition position recognized by the user of a recognition target object recognized by the user is estimated in an area outside the user's field of view in the virtual space.
- a saliency map representing saliency in the out-of-field region is generated based on the estimated recognition position of the recognition target object in the out-of-field region.
- FIG. 4 is a schematic diagram for explaining an example of a virtual video viewable by a user;
- FIG. 4 is a schematic diagram for explaining rendering processing;
- 1 is a schematic diagram showing a configuration example of a server-side rendering system;
- FIG. 4 is a schematic diagram for explaining a recognition target object and recognition positions;
- 4 is a flow chart showing an example of rendering video generation;
- FIG. 7 is a diagram for explaining the flowchart shown in FIG. 6 and is a schematic diagram showing timings of acquisition and generation of each information.
- FIG. 4 is a schematic diagram showing an example of generating a saliency map based on bottom-up attention;
- FIG. 4 is a schematic diagram showing an example of generating a saliency map based on bottom-up attention;
- FIG. 4 is a schematic diagram showing an example of generating a saliency map based on bottom-up attention;
- FIG. 4 is a schematic diagram showing an example of generating a saliency map based on bottom-up attention
- FIG. 5 is a schematic diagram for explaining a problem of the omnidirectional saliency map of the comparative example
- FIG. 10 is a schematic diagram showing an example of information described in a scene description file used as scene description information in Example 2
- FIG. 11 is a schematic diagram showing an example of information described in a scene description file used as scene description information in Example 3
- FIG. 11 is a schematic diagram showing an example of information described in a scene description file used as scene description information in Example 3
- FIG. 11 is a schematic diagram for explaining estimation of a recognition position of a recognition target object in Example 3
- FIG. 11 is a schematic diagram for explaining estimation of a recognition position of a recognition target object in Example 3; 7 is a flow chart showing an example of estimating a recognition position of a recognition target object; 10 is a flow chart showing an example of generating an omnidirectional saliency map; FIG. 4 is a schematic diagram showing an example of an omnidirectional saliency map; 1 is a block diagram showing a hardware configuration example of a computer (information processing device) that can implement a server device and a client device; FIG.
- FIG. 1 is a schematic diagram showing a basic configuration example of a server-side rendering system.
- FIG. 2 is a schematic diagram for explaining an example of a virtual video viewable by a user.
- FIG. 3 is a schematic diagram for explaining rendering processing. Note that the server-side rendering system can also be called a server-rendering media distribution system.
- the server-side rendering system 1 includes an HMD (Head Mounted Display) 2, a client device 3, and a server device 4.
- HMD 2 is a device used to display virtual images to user 5 .
- the HMD 2 is worn on the head of the user 5 and used.
- VR video is distributed as virtual video
- an immersive HMD 2 configured to cover the field of view of the user 5 is used.
- AR Augmented Reality
- a device other than the HMD 2 may be used as a device for providing the user 5 with virtual images.
- a virtual image may be displayed on a display provided in a television, a smartphone, a tablet terminal, a PC (Personal Computer), or the like.
- 6DoF images are provided as VR images to a user 5 wearing an immersive HMD 2 .
- the user 5 can view the video in a range of 360 degrees around the front, back, left, right, and up and down in the virtual space S that is a three-dimensional space.
- the user 5 freely moves the position of the viewpoint, the line-of-sight direction, etc. in the virtual space S, and freely changes the visual field (visual field range) 7 of the user.
- the image 8 displayed to the user 5 is switched according to the change in the field of view 7 of the user 5 .
- the user 5 can view the surroundings in the virtual space S with the same feeling as in the real world by performing actions such as changing the direction of the face, tilting the face, and looking back.
- the server-side rendering system 1 according to the present embodiment can distribute photorealistic free-viewpoint video, and can provide a viewing experience at a free-viewpoint position.
- the HMD 2 acquires field-of-view information.
- the visual field information is information about the visual field 7 of the user 5 .
- the field-of-view information includes any information that can specify the field-of-view 7 of the user 5 within the virtual space S.
- the visual field information includes the position of the viewpoint, the line-of-sight direction, the rotation angle of the line of sight, and the like.
- the visual field information includes the position of the user's 5 head, the rotation angle of the user's 5 head, and the like.
- the rotation angle of the line of sight can be defined, for example, by a rotation angle around an axis extending in the line of sight direction.
- the rotation angle of the head of the user 5 can be defined by a roll angle, a pitch angle, and a yaw angle when the three mutually orthogonal axes set with respect to the head are the roll axis, the pitch axis, and the yaw axis. It is possible. For example, let the axis extending in the front direction of the face be the roll axis. When the face of the user 5 is viewed from the front, the axis extending in the horizontal direction is defined as the pitch axis, and the axis extending in the vertical direction is defined as the yaw axis.
- the roll angle, pitch angle, and yaw angle with respect to these roll axis, pitch axis, and yaw axis are calculated as the rotation angle of the head. Note that it is also possible to use the direction of the roll axis as the direction of the line of sight. In addition, any information that can specify the field of view of the user 5 may be used. As the field-of-view information, one of the information exemplified above may be used, or a plurality of pieces of information may be combined and used.
- the method of acquiring visual field information is not limited. For example, it is possible to acquire visual field information based on the detection result (sensing result) by the sensor device (including the camera) provided in the HMD 2 .
- the HMD 2 is provided with a camera and a distance measuring sensor whose detection range is around the user 5, an inward facing camera capable of imaging the left and right eyes of the user 5, and the like.
- the HMD 2 is provided with an IMU (Inertial Measurement Unit) sensor and a GPS.
- the position information of the HMD 2 acquired by GPS can be used as the viewpoint position of the user 5 and the position of the user's 5 head.
- the positions of the left and right eyes of the user 5 may be calculated in more detail.
- self-position estimation of the user 5 may be performed based on the detection result by the sensor device provided in the HMD 2 .
- the self-position it is possible to calculate the position information of the HMD 2 and the attitude information such as which direction the HMD 2 faces. View information can be obtained from the position information and orientation information.
- Algorithms for estimating the self-position of the HMD 2 are also not limited, and any algorithms such as SLAM (Simultaneous Localization and Mapping) may be used.
- head tracking for detecting the movement of the head of the user 5 and eye tracking for detecting the movement of the user's 5 right and left line of sight may be performed.
- any device or any algorithm may be used to acquire the field-of-view information.
- a smartphone or the like is used as a device for displaying a virtual image to the user 5
- the face (head) or the like of the user 5 may be captured, and the visual field information may be obtained based on the captured image.
- a device including a camera, an IMU, or the like may be worn around the head or eyes of the user 5 .
- Any machine learning algorithm using, for example, a DNN (Deep Neural Network) or the like may be used to generate the visual field information.
- AI artificial intelligence
- the HMD 2 and the client device 3 are connected so as to be able to communicate with each other.
- the form of communication for communicably connecting both devices is not limited, and any communication technique may be used.
- wireless network communication such as WiFi, short-range wireless communication such as Bluetooth (registered trademark), and the like.
- the HMD 2 transmits the field-of-view information to the client device 3 .
- the HMD 2 and the client device 3 may be configured integrally. That is, the functions of the client device 3 may be installed in the HMD 2 .
- the client device 3 and the server device 4 have hardware necessary for computer configuration, such as CPU, ROM, RAM, and HDD (see FIG. 18).
- the information processing method according to the present technology is executed by the CPU loading the program according to the present technology prerecorded in the ROM or the like into the RAM and executing the program.
- the client device 3 and the server device 4 can be implemented by any computer such as a PC (Personal Computer).
- PC Personal Computer
- hardware such as FPGA and ASIC may be used.
- the client device 3 and the server device 4 are not limited to having the same configuration.
- the client device 3 and the server device 4 are communicably connected via a network 9 .
- the network 9 is constructed by, for example, the Internet, a wide area communication network, or the like.
- any WAN (Wide Area Network), LAN (Local Area Network), or the like may be used, and the protocol for constructing the network 9 is not limited.
- the client device 3 receives the field-of-view information transmitted from the HMD 2 .
- the client device 3 also transmits the field-of-view information to the server device 4 via the network 9 .
- the server device 4 receives the field-of-view information transmitted from the client device 3 .
- the server device 4 renders two-dimensional video data (rendered video) corresponding to the field of view 7 of the user 5 by executing rendering processing on the three-dimensional space data that constitutes the virtual space S based on the field-of-view information.
- the server device 4 corresponds to an embodiment of an information processing device according to the present technology. An embodiment of an information processing method according to the present technology is executed by the server device 4 .
- the 3D spatial data includes scene description information and 3D object data.
- the scene description information corresponds to three-dimensional space description data defining the configuration of the virtual space S (three-dimensional space).
- the scene description information includes various metadata for reproducing each scene of 6DoF content.
- the three-dimensional object data is data defining a three-dimensional object in the virtual space S (three-dimensional space). That is, it becomes the data of each object that constitutes each scene of the 6DoF content.
- data of three-dimensional objects such as people and animals, and data of three-dimensional objects such as buildings and trees are stored.
- data of a three-dimensional object such as the sky or the sea that constitutes the background or the like is stored.
- a plurality of types of objects may be collectively configured as one three-dimensional object, and the data thereof may be stored.
- the three-dimensional object data is composed of, for example, mesh data that can be expressed as polyhedral shape data and texture data that is data to be applied to the faces of the mesh data. Alternatively, it consists of a set of points (point cloud) (Point Cloud).
- the server device 4 reproduces the virtual space S that constitutes each scene by arranging the three-dimensional objects in the three-dimensional space based on the scene description information.
- an XYZ coordinate system is set in the virtual space S, and a three-dimensional object is placed at a position defined by the coordinate values.
- the coordinate values correspond to positional information in the virtual space S, and can also be called world coordinates.
- a method for setting the XYZ coordinate system in the virtual space S is not limited, and any setting method may be adopted.
- the image viewed by the user 5 is clipped (rendering processing) to generate a rendered image, which is a two-dimensional image viewed by the user 5 .
- the server device 4 encodes the generated rendered video and transmits it to the client device 3 via the network 9 .
- the rendered image corresponding to the user's field of view 7 can also be said to be the image of the viewport (display area) corresponding to the user's field of view 7 .
- the client device 3 decodes the encoded rendered video transmitted from the server device 4 . Also, the client device 3 transmits the decoded rendered video to the HMD 2 . As shown in FIG. 2 , the HMD 2 reproduces the rendered video and displays it to the user 5 .
- the image 8 displayed to the user 5 by the HMD 2 may be hereinafter referred to as a rendered image 8 .
- FIG. 2 Another delivery system for 6DoF video as illustrated in FIG. 2 is a client-side rendering system.
- the client device 3 executes rendering processing on the three-dimensional space data based on the field-of-view information to generate two-dimensional video data (rendering video 8).
- a client-side rendering system can also be referred to as a client-rendered media delivery system.
- it is necessary to deliver 3D space data (3D space description data and 3D object data) from the server device 4 to the client device 3 .
- the three-dimensional object data is composed of mesh data or point cloud data. Therefore, the amount of data distributed from the server device 4 to the client device 3 becomes enormous.
- the client device 3 is required to have a considerably high processing capacity in order to execute rendering processing.
- the rendered image 8 after rendering is distributed to the client device 3 .
- the processing load on the client device 3 side can be offloaded to the server device 4 side, and even when the client device 3 with low processing capability is used, the user 5 can experience 6DoF video. becomes.
- the generated rendered image 8 is encoded and transmitted to the client device 3 via the network 9 .
- the client device 3 decodes the received rendered image 8 and transmits it to the HMD 2 .
- the HMD 2 displays the received rendered image 8 to the user 5 .
- the server-side rendering system 1 is constructed so as to execute such a processing flow in real time in accordance with changes in the field of view of the user 5 .
- this response delay can also be expressed as (Motion-to-Photon Latency: T_m2p). It is desirable that the delay time of this response delay be kept within 20 msec, which is the limit of human perception.
- the Head Motion information includes Position information (X, Y, Z) representing the positional movement of the head of the user 5 and Orientation information (yaw, pitch, roll) representing the rotational movement of the head of the user 5.
- Position information (X, Y, Z) corresponds to position information in the virtual space S and is defined by coordinate values (world coordinates) of the XYZ coordinate system set in the virtual space S.
- Orientation information (yaw, pitch, roll) is defined by roll, pitch, and yaw angles with respect to the mutually orthogonal roll, pitch, and yaw axes set on the head of the user 5 .
- Head Motion information (X, Y, Z, yaw, pitch, roll) is used as the user's 5 visual field information.
- the present technology can be applied even when other information is used as the field-of-view information.
- the server-side rendering system 1 acquires the field-of-view information of the user 5 in real time, and displays a rendered image to the user 5 .
- the time at which the visual field information of the user 5 is acquired by the server-side rendering system 1 will be described as "current time”. That is, the time at which the visual field information of the user 5 is acquired by the HMD 2 will be described as the "current time”.
- the visual field information acquired at the "current time” is transmitted to the server device 4, the rendered image 8 is generated, and a response delay (T_m2p time) may occur until the HMD 2 displays it. have a nature.
- FIG. 4 is a schematic diagram showing a configuration example of the server-side rendering system 1 according to an embodiment of the present technology.
- a server-side rendering system 1 shown in FIG. 4 includes an HMD 2 , a client device 3 and a server device 4 .
- HMD2 can acquire the user's 5 visual field information (Head Motion information) in real time. As described above, the time when the Head Motion information is acquired by the HMD 2 is the current time.
- the HMD 2 acquires Head Motion information and transmits it to the client device 3 at a predetermined frame rate. Therefore, the "head motion information at the current time” is repeatedly transmitted to the client device 3 at a predetermined frame rate. Similarly, the “head motion information at the current time” is repeatedly transmitted from the client device 3 to the server device 4 at a predetermined frame rate.
- the frame rate for obtaining Head Motion information (the number of times Head Motion information is obtained/second) is set so as to synchronize with the frame rate of the rendering video 8, for example.
- the rendered image 8 is composed of a plurality of frame images that are continuous in time series. Each frame image is generated at a predetermined frame rate.
- the frame rate for Head Motion information acquisition is set so as to synchronize with the frame rate of this rendered image 8 .
- AR glasses or a display may be used as a device for displaying virtual images to the user 5 .
- the server device 4 has a data input unit 11 , a head motion information recording unit 12 , a prediction unit 13 , a rendering unit 14 , an encoding unit 15 and a communication unit 16 .
- the server device 4 also has a saliency map generator 17 , a saliency map recorder 18 , and a recognition position estimator 19 .
- These functional blocks are implemented, for example, by the CPU executing the program according to the present technology, and the information processing method according to the present embodiment is executed.
- dedicated hardware such as an IC (integrated circuit) may be used as appropriate.
- the data input unit 11 reads 3D space data (scene description information and 3D object data) and outputs it to the rendering unit 14 .
- the three-dimensional space data is stored, for example, in the storage unit 68 (see FIG. 18) within the server device 4 .
- the three-dimensional spatial data may be managed by a content server or the like communicably connected to the server device 4 . In this case, the data input unit 11 acquires three-dimensional spatial data by accessing the content server.
- the communication unit 16 is a module for performing network communication, short-range wireless communication, etc. with other devices.
- a wireless LAN module such as WiFi
- a communication module such as Bluetooth (registered trademark) are provided.
- communication with the client device 3 via the network 9 is realized by the communication unit 16 .
- the head motion information recording unit 12 records the visual field information (head motion information) received from the client device 3 via the communication unit 16 in the storage unit 68 (see FIG. 18).
- a buffer or the like for recording field-of-view information may be configured.
- the “head motion information at the current time” transmitted at a predetermined frame rate is accumulated and held in the storage unit 68 .
- the prediction unit 13 generates future visual field information as predicted visual field information based on an omnidirectional saliency map (omnidirectional saliency map).
- the future Head Motion information of the user 5 is predicted and generated as predicted Head Motion information.
- the predicted Head Motion information includes future Position information (X, Y, Z) and future Orientation information (yaw, pitch, roll). That is, in this embodiment, the position of the head and the rotation angle of the head are predicted based on the omnidirectional saliency map.
- the rendering unit 14 executes rendering processing illustrated in FIG. That is, the rendering image 8 corresponding to the user's 5 visual field 7 is generated by executing the rendering process on the three-dimensional space data based on the visual field information regarding the user's 5 visual field.
- the rendering unit 14 generates frame images forming the rendered video 8 based on the predicted view information (predicted Head Motion information) generated by the prediction unit 13 .
- a frame image generated based on the predicted Head Motion information is hereinafter referred to as a predicted frame image 20 .
- the rendering unit 14 includes, for example, a reproduction unit that reproduces the virtual space S, a renderer, a parameter setting unit that sets rendering parameters, and the like.
- Rendering parameters include a resolution map that indicates the resolution of each area. In addition, any configuration may be adopted as the rendering unit 14 .
- the encoding unit 15 performs encoding processing (compression encoding) on the rendered video 8 (predicted frame image 20) to generate distribution data.
- the distribution data is transmitted to the client device 3 via the communication section 16 .
- the encoding process is executed in real time for each area of the rendered video 8 (predicted frame image 20) based on the QP map (quantization parameter). More specifically, in the present embodiment, the encoding unit 15 switches the quantization precision (QP: Quantization Parameter) within the predicted frame image 20 for each region, so that the points of interest and important points in the predicted frame image 20 are Image quality deterioration due to area compression can be suppressed.
- QP Quantization Parameter
- the QP value is a value that indicates the step of quantization in lossy compression efficiency.
- the higher the QP value the smaller the encoding amount, the higher the compression efficiency, and the lower the image quality deterioration due to compression.
- the encoding unit 15 is composed of, for example, an encoder, a parameter setting unit for setting encoding parameters, and the like.
- Encoding parameters include the above-described QP map and the like. For example, a QP map is generated based on the resolution map set by the parameter setting section of the rendering section 14 .
- any configuration may be adopted as the encoding unit 15 .
- the saliency map generator 17 generates an omnidirectional saliency map.
- the saliency map generation unit 17 generates not only a saliency map for the field of view representing the saliency of the rendered video (two-dimensional video data) 8 viewed by the user 5, A saliency map is also generated.
- the saliency map for the field of view is information that is quantitatively expressed by estimating how easily each pixel of the rendered image 8 attracts attention from the mechanism of human visual attention.
- the saliency map in the out-of-field region can be generated as a map in which the saliency of each pixel is calculated when the out-of-field region of the user 5 is expressed as a 2D image.
- the generation of the omnidirectional saliency map will be described in detail later.
- a saliency map is also called a saliency map.
- the full sky can also be said to be a full celestial sphere.
- the saliency map recording unit 18 records the omnidirectional saliency map generated by the saliency map generating unit 17 in the storage unit 68 (see FIG. 18).
- a buffer or the like for recording the omnidirectional saliency map may be configured.
- the recognition position estimating unit 19 estimates the recognition position of the recognition target object recognized by the user 5 in an area outside the visual field 7 of the user 5 in the virtual space S, which is recognized by the user 5 .
- a recognition target object is an object that is assumed to be recognized by the user 5 among objects in the 6DoF content that the user 5 is viewing. For example, an object that the user 5 has viewed by the current time is set as a recognition target object. That is, an object that has been rendered as a rendering target by the current time is set as a recognition target object. In addition, an object that has not been viewed by the current time but whose sound is recognized by the user may be set as a recognition target object.
- the object that emitted the sound may be regarded as being recognized by the user 5 and may be set as a recognition target object.
- the type or content of the sound may be used as a condition for determining whether or not to set the recognition target object.
- the recognition position is defined by XYZ coordinate values (world coordinates) on the virtual space S shown in FIG.
- the position where the user 5 would recognize in his brain that the recognition target object is now is estimated as the recognition position. Therefore, the recognition position does not necessarily match the position where the recognition target object actually exists in the 6DoF content.
- the recognized position can also be said to be a grasped position grasped by the user 5 .
- FIG. 5 is a schematic diagram for explaining a recognition target object and recognition positions.
- the image SP for the whole sky of the virtual space S is represented by a horizontally elongated image.
- the omnidirectional image SP is often stored as an equirectangular image.
- the user's field of view 7 to be predicted will simply be described as the user's field of view 7 .
- the predicted frame image 20 will be described as the frame image 20 .
- a virtual space S In the scene shown in FIG. 5, in a virtual space S, three persons P1 to P3 and each object of a blinking lighting device L are arranged. In addition, tree, grass, road, and building objects are also arranged.
- a frame image 20 including the person P1 is rendered.
- the person P1 is set as the recognition target object.
- the position (world coordinates) in the virtual space S where the person P1 is arranged is estimated as the recognition position. In this way, it is possible to estimate the recognition position based on the position of the recognition target object in the two-dimensional image data in which the recognition target object is rendered.
- the persons P2 and P3 on the left side and the object of the blinking illumination device L on the right side are arranged in the outside-of-view area 21 that is not included in the user's 5 field of view 7 . Therefore, the persons P2 and P3 and the lighting device L are not rendered. As a result, although the persons P2 and P3 and the lighting device L are arranged in the virtual space S, it is determined that they are not recognized by the user 5, and they are not set as recognition target objects.
- the field of view 7 of the user 5 is turned to the left at the timing shown in FIG. 5B.
- Persons P2 and P3 are included in the field of view 7 of user 5 and rendered.
- the persons P2 and P3 are set as recognition target objects.
- the positions (world coordinates) in the virtual space S where the persons P2 and P3 are arranged are estimated as the recognition positions.
- the person P1 is out of the field of view 7 of the user 5 and is located in the out-of-view area 21.
- the setting as the recognition target object is maintained. Since lighting device L is not rendered, it is not set as a recognition target object.
- the recognition position estimating unit 19 can highly accurately estimate the recognition position in the brain of the user 5 with respect to the movement of the recognition target object in the out-of-field area 21 as shown in FIG. 5C.
- the rendering unit 14 functions as an embodiment of a rendering unit according to the present technology.
- the recognition position estimation unit 19 functions as an embodiment of an estimation unit according to the present technology.
- the saliency map generator 17 functions as an embodiment of a generator according to the present technology.
- the prediction unit 13 functions as an embodiment of a prediction unit according to the present technology.
- the client device 3 has a communication section 23 , a decoding section 24 and a rendering section 25 .
- These functional blocks are implemented, for example, by the CPU executing the program according to the present technology, and the information processing method according to the present embodiment is executed.
- dedicated hardware such as an IC (integrated circuit) may be used as appropriate.
- the communication unit 23 is a module for performing network communication, short-range wireless communication, etc. with other devices. For example, a wireless LAN module such as WiFi and a communication module such as Bluetooth (registered trademark) are provided.
- the decoding unit 24 executes decoding processing on the distribution data. As a result, the encoded rendered video 8 (predicted frame image 20) is decoded.
- the rendering unit 25 executes rendering processing so that the decoded rendered image 8 (predicted frame image 20) can be displayed by the HMD 2.
- the server device 4 that has received the "Current Time Head Motion Information” generates future predicted Head Motion information for the response delay (T_m2p time).
- a predicted frame image 20 is generated based on the predicted Head Motion information and displayed to the user 5 by the HMD 2 . If the predicted Head Motion information can be generated with very high accuracy, it will be possible to display the rendering image 8 according to the user's 5 field of view 7 in the future for the response delay (T_m2p time) from the "current time", which is the problem of response delay. is sufficiently suppressible.
- the inventor has studied Head Motion prediction.
- the prediction error of Head Motion prediction tends to increase as the frequency of the head motion signal (sensoring result) increases. Due to the characteristics of the human body, movements in the rotational direction are capable of rapid changes (movements with high frequency), but in positional movements such as forward/backward, up/down, and left/right, there is a tendency that high-frequency movements with abrupt changes are difficult. It is in. Therefore, of these two types of motion, the prediction error for motion (X, Y, Z) toward positional movement is low, and the impact on viewing is very small.
- the present inventor focused on the omnidirectional saliency map in order to improve the accuracy of head motion prediction, especially for motion in the rotational direction (yaw, pitch, roll).
- By generating an omnidirectional saliency map with high accuracy and using it for head motion prediction it is possible to perform prediction accuracy for motion in the rotational direction (yaw, pitch, roll) with extremely high accuracy.
- FIG. 6 is a flow chart showing an example of rendering video generation.
- FIG. 7 is a diagram for explaining the flowchart shown in FIG. 6, and shows the timing of acquisition of Head Motion information, generation of predicted Head Motion information, generation of predicted frame image 20, and generation of the omnidirectional saliency map. It is a schematic diagram.
- the field of view information is acquired from the client device 3 at a predetermined frame rate, and the predicted Head Motion information, the predicted frame image 20, and the omnidirectional conspicuous image are obtained at the same frame rate.
- FIG. 7 schematically shows the 1st frame to the 25th frame where the processing is started.
- a frame with a square graphic represents that the data described on the left side has been acquired/generated.
- the numbers in the square figures indicate which frame the data corresponds to.
- the communication unit 16 measures the network delay with the client device 3 and identifies the estimated time of the target (step 101). That is, the response delay (T_m2p time) is measured and T_m2p time is specified as the predicted time.
- T_m2p time the response delay
- head motion information in a frame a predetermined number of frames later than the frame corresponding to the "current time” is predicted and generated as predicted head motion information.
- the predetermined number of frames the number of frames corresponding to T_m2p time, which is the prediction time, is set. For example, in this embodiment, it is assumed that Head Motion information five frames ahead is predicted.
- the head motion information of the fifteenth frame which is five frames ahead, is predicted and generated as predicted head motion information.
- the specific number of frames is not limited and may be set arbitrarily.
- the communication unit 16 acquires Head Motion information from the client device 3 (step 102). As shown in FIG. 7, Head Motion information is acquired at a predetermined frame rate from the first frame. The Head Motion information acquired in each frame is used as is as the data corresponding to that frame.
- the prediction unit 13 determines whether or not the amount of head motion information required for prediction of the head motion information has accumulated (step 103).
- the specific number of frames is not limited and may be set arbitrarily.
- the head motion information of the 10th frame is obtained, it is determined that the amount of head motion information required for prediction of the head motion information has accumulated, and the result of step 103 is Yes, and the process proceeds to step 104 .
- the prediction unit 13 determines whether or not the omnidirectional saliency map corresponding to the "head motion information at the current time" acquired at step 102 has already been generated.
- the historical information of the visual field information (head motion information) up to the current time and the omnidirectional saliency map corresponding to the current time are input, and the predicted visual field information (predicted head motion information) is generated.
- the omnidirectional saliency map corresponding to the current time is the omnidirectional saliency map generated in the past.
- the saliency map for the visual field representing the saliency of the predicted frame image 20 generated based on the predicted visual field information (predicted Head Motion information) predicted in the past, and the predicted visual field information predicted in the past. It is an omnidirectional saliency map including a saliency map in an out-of-field region not included in the field of view 7 (predicted field of view) of the user 5 based on (predicted Head Motion information).
- the omnidirectional saliency map corresponding to the "head motion information at the current time” means the omnidirectional saliency map corresponding to the frame from which the "head motion information at the current time” is acquired in the example shown in FIG. do. That is, if the numbers in the squares representing the Head Motion information and the numbers in the squares representing the omnidirectional saliency map are equal to each other, the corresponding "current time Head Motion information ” and the omnidirectional saliency map.
- step 104 it is determined whether or not an omnidirectional saliency map corresponding to 10 frames (a omnidirectional saliency map represented by a square figure with the number 10 written therein) has been generated. . As shown in FIG. 7, up to the 10th frame, the predicted Head Motion information has not yet been generated, and the predicted frame image 20 has not yet been generated. Therefore, since the omnidirectional saliency map has not been generated, step 104 results in No, and the process proceeds to step 105 .
- an omnidirectional saliency map corresponding to 10 frames a omnidirectional saliency map represented by a square figure with the number 10 written therein
- the prediction section 13 generates predicted visual field information (predicted Head Motion information) based on history information of visual field information (Head Motion information) up to the current time.
- the predicted Head Motion information may be generated based only on the history information of the Head Motion information up to the current time.
- at frame 10 based on the history information of the head motion information from frame 1 to frame 10, future predicted head motion information for the next five frames is generated. Therefore, as shown in FIG. 7, in the 10th frame, predicted Head Motion information corresponding to 15 frames five frames in the future is generated (predicted Head Motion information represented by a square figure with the number 15 written therein). information).
- a specific algorithm for generating predicted Head Motion information based on history information of Head Motion information up to the current time is not limited, and any algorithm may be used. For example, any machine learning algorithm may be used.
- the rendering unit 14 executes the rendering process illustrated in FIG. 3 based on the predicted Head Motion information to generate the rendered video 8 (predicted frame image 20) (step 106).
- a predicted frame image 20 corresponding to 15 frames is generated based on future predicted Head Motion information five frames ahead.
- the recognition position estimation unit 19 estimates the recognition position of the recognition target object in the out-of-field area (step 107).
- the recognition target object recognized by the user 5 is estimated.
- the saliency map generator 17 generates an omnidirectional saliency map corresponding to 15 frames based on the predicted frame image 20 and the estimated recognition position (step 108).
- the generated omnidirectional saliency map is recorded and held by the saliency map recording unit 18 .
- the omnidirectional saliency map corresponding to the 15th frame is recorded.
- a frame image five frames ahead is generated as the predicted frame image 20 in the frame corresponding to the "current time”.
- an omnidirectional saliency map for the next five frames is generated.
- a frame image generated at the "current time” that is, a frame image generated in a frame corresponding to the "current time” is referred to as a "frame image at the current time”. Therefore, in this embodiment, the future predicted frame image 20 generated in the frame corresponding to the "current time” corresponds to the "current time frame image”.
- the “frame image (predicted frame image) corresponding to the current time” corresponds to a frame image (predicted frame image) generated five frames in the past.
- the predictive frame image 20 is encoded by the encoding unit 15 .
- the communication unit 16 also transmits the encoded predicted frame image 20 to the client device 3 (step 109).
- the predicted frame image 20 generated in the tenth frame is transmitted to the HMD 2 via the client device 3 and displayed to the user 5 as the first frame of the 6DoF video content.
- distribution of virtual video is started in which the influence of response delay is sufficiently suppressed.
- the rendering unit 14 determines whether or not the processing for all frame images has been completed (step 110).
- step 110 becomes No and the process returns to step 102 .
- step 104 is No, and the processing flow from step 105 to step 106 is executed.
- the omnidirectional saliency map corresponding to frame 15 generated in past frame 10 exists as the omnidirectional saliency map corresponding to the acquired "head motion information at the current time”. Therefore, step 104 becomes Yes and the process proceeds to step 111 .
- step 111 the history information of the visual field information (Head Motion information) up to the current time and the omnidirectional saliency map corresponding to the current time are input, and future Head Motion information is predicted as predicted Head Motion information. generated.
- a specific algorithm for generating predicted Head Motion information by inputting historical information of Head Motion information and an omnidirectional saliency map is not limited, and any algorithm may be used. For example, any machine learning algorithm may be used. From then on, until frame 25, step 104 is Yes and the omnidirectional saliency map is used to generate highly accurate predicted Head Motion information. If processing for all frame images is completed, step 109 becomes Yes, and video generation and distribution processing are completed.
- Examples of generating saliency maps based on bottom-up attention include brightness, color, direction, direction of movement, depth, etc. that induce extrinsic attention (bottom-up attention) by visual stimuli before humans recognize objects. are extracted from the input video (2D image).
- a final saliency map is generated by calculating each feature map so as to assign a high saliency to an area in which the value indicating each feature value is significantly different from the surroundings, and integrating them.
- FIG. 8 is a schematic diagram illustrating an example of bottom-up attention-based saliency map generation that can be performed by the system.
- a predicted frame image 20 is input as an input frame.
- a feature amount extraction process is performed on the predicted frame image 20, and each feature amount of luminance, color, and direction that attracts bottom-up attention is extracted.
- the predicted frame image 20 or the like of the previous frame may be used for feature extraction.
- a feature image is generated by converting the feature amount into luminance for each feature amount of luminance, color, and direction, and a Gaussian pyramid of the feature image is generated.
- a depth map and a motion vector map image are acquired as parameters (rendering information) related to rendering processing from the renderer that configures the rendering unit 14 .
- a depth map is data including distance information (depth information) to an object to be rendered.
- a motion vector map image is data containing motion information of an object to be rendered.
- a depth map image is used as a depth feature image to generate a Gaussian pyramid.
- the motion vector map image is used as a motion direction feature image to generate a Gaussian pyramid.
- Center-surround difference processing is performed on the Gaussian pyramid of each feature.
- a feature map is generated for each feature amount of brightness, color, direction, motion direction, and depth.
- a saliency map 22 based on bottom-up attention is generated by integrating the feature maps of these feature amounts.
- Specific algorithms for feature quantity extraction processing, Gaussian pyramid generation processing, center-surround difference processing, and feature map integration processing for each feature quantity are not limited. For example, each process can be implemented using a well-known technique.
- the depth map image obtained from the renderer is not the depth values estimated by performing 2D image analysis or the like on the predicted frame image 20, but the accurate values obtained in the rendering process. Therefore, by directly receiving the depth map image from the renderer and using it as feature information of "depth” for generating the saliency map 22, it is possible to generate the saliency map 22 with high precision and accuracy.
- the motion vector map image obtained from the renderer is not the values estimated by performing 2D image analysis or the like on the predicted frame image 20, but the accurate values obtained in the rendering process. Therefore, by directly receiving this depth map image from the renderer and using it for generating the saliency map 22 as the feature information of the "movement direction", it is possible to generate a more accurate and more accurate saliency map.
- feature quantities such as “brightness” and “color” can also be calculated in the rendering process and used as rendering information.
- the algorithm for generating a bottom-up attention-based saliency map is not limited and any other algorithm may be used.
- any machine learning algorithm may be used.
- feature information such as "depth” and "motion direction” may be acquired and used.
- Saliency is given to objects because top-down attention is directed after object recognition and as attention based on its meaning. For example, an object such as a human face that is generally likely to attract people's interest is detected from an image and saliency is added. In addition, based on the type of object (idol, baseball player, vehicle, etc.), the importance of the object in 6DoF content, the user's preference for the object (degree of interest or preference, etc.), etc. Salience is given.
- the algorithm for generating a top-down attention-based saliency map is not limited and any algorithm may be used. For example, any machine learning algorithm may be used.
- a method of generating an omnidirectional saliency map will be described as a comparative example.
- a 2D image is rendered for each viewport while changing the viewport for the entire virtual space S at regular intervals (hereinafter, this rendered 2D image is referred to as a viewport image).
- a saliency map based on bottom-up attention and a saliency map based on top-down attention as described above are generated and integrated.
- the omnidirectional saliency map of this comparative example provides the user 5 with information representing the saliency of all viewport images. That is, for the user 5, the information represents the conspicuity when all areas within the virtual area S are within the field of view.
- FIG. 9 is a schematic diagram for explaining the problem of the omnidirectional saliency map 30 of the comparative example.
- saliency based on top-down attention generated by persons P1 to P3 and saliency based on bottom-up attention generated by lighting device L are schematically illustrated as white areas.
- the salience due to bottom-up attention is practically equal to zero with no visual stimulus because it is invisible outside the field of view of the user 5 .
- the omnidirectional saliency map 30 of the comparative example is created on the premise that all regions in the virtual space S are within the field of view. Therefore, if the omnidirectional saliency map 30 of the comparative example is used as it is for prediction of visual field information, saliency outside the field of view and unrecognizable by the user 5 adversely affects the prediction of visual field information. For example, at the timing shown in FIG. 5A, the user 5 does not recognize the blinking lighting device L on the right side. In the omnidirectional saliency map 30 of the comparative example, as shown in FIG. 9A, saliency based on bottom-up attention is given to the pixel region of the lighting device L that is blinking. As a result, salience that does not exist in the brain of the user 5 is generated, which adversely affects prediction of visual field information.
- the object visually recognized in the past may be moving in the outside-of-field-of-view area 21 .
- the user 5 is unaware of the movement of the object. Therefore, the user should recognize that the object will be at a position corresponding to the situation grasped when the object was viewed last time. For example, if an object were stationary, it would perceive that the object would be where it was last seen. Also, if the object was moving when it was last seen, it is thought that the object would be at a position some distance along the moving direction from the last seen position.
- the omnidirectional saliency map 30 of the comparative example it is assumed that the moving object and the moved object are also within the field of view. gender is given.
- the object is stationary when last seen, i.e. if the object has not moved since then, salience occurs at a position completely different from the perceived position in the brain (grasp position). do. If the object was moving when the object was last seen, there is no problem if the perceived position (grasped position) where the object is supposed to be around here in the brain matches the actual position of the object. On the other hand, the possibility that the position expected by the user and the actual position of the object match is not necessarily high. Therefore, there is a high possibility that salience will occur at a position different from the recognition position (grasping position) in the brain. For example, at the timing shown in FIG. 5C, the user 5 does not recognize the movement of the person P1.
- the omnidirectional saliency map 30 of the comparative example As shown in FIG. 9B, saliency based on top-down caution is given to the person P1 near the lighting device L1. As a result, salience that does not exist in the brain of the user 5 is generated, which adversely affects prediction of visual field information. Thus, the omnidirectional saliency map 30 of the comparative example does not consider saliency outside the viewport (outside the field of view). Therefore, if the omnidirectional saliency map 30 of the comparative example is used as it is for Head Orientation prediction of where to direct the viewport from the current viewport to the next, the prediction accuracy will conversely decrease, or it will be useless. The purpose of improving prediction accuracy cannot be achieved. In order to achieve high prediction accuracy, it is important to accurately reflect the actual attention of the user 5 to the inside and outside of the field of view.
- the recognition position estimation unit 19 sets the recognition target object and estimates the recognition position of the recognition target object. These processes are executed for each frame. Several examples of estimating the recognition position of the recognition target object will be described below.
- An object to be rendered by the rendering unit 14 is set as a recognition target object.
- the person P1 is set as the recognition target object.
- persons P1 and P2 are set as recognition target objects.
- the recognition position of each set recognition target object is estimated each time a "frame image at the current time" (future predicted frame image 20 generated at the current time) is generated.
- the recognition position is estimated based on the position in the virtual space S corresponding to the position of the recognition target object in the frame image.
- the person P1 is included in the frame image (predicted frame image) 20, so based on the position in the virtual space S corresponding to the position of the person P1 in the frame image 20, the person P1 is estimated.
- the position in the virtual space S corresponding to the position of the person P1 in the frame image 20 becomes the position of the person P1 arranged in the virtual space S when the frame image 20 is rendered.
- the position of the person P1 is estimated as the recognized position recognized by the user 5 . If a state in which the person P1 is moving is rendered, that is, if the user 5 recognizes that the person P1 is moving, the virtual space S corresponding to the position of the person P1 in the frame image 20 is displayed.
- a position shifted along the moving direction from the position in the virtual space S, that is, the position of the person P1 arranged in the virtual space S, may be estimated as the recognition position recognized by the user 5 .
- the amount of shift may be appropriately set to an amount that the user 5 will predict the destination of movement.
- the position in the virtual space S corresponding to the position of the person P1 in the frame image 20 is directly estimated as the recognition position.
- the positions in the virtual space S corresponding to the positions of the persons P2 and P3 in the frame image 20 are estimated as the recognition positions recognized by the user 5 with respect to the persons P2 and P3. be done.
- the recognition position is estimated.
- the position in the virtual space S corresponding to the position of the recognition target object in the most recent frame image 20 is directly estimated as the recognition position.
- the most recent frame image in the past can also be said to be the last rendered frame image.
- the frame image 20 does not include the person P1.
- the position in the virtual space S corresponding to the position of the person P1 in the frame image 20 at the timing shown in FIG. 5A is estimated as the recognition position.
- the person P1 is moving toward the illumination device L in the out-of-field area 21 .
- the most recent frame image 20, that is, the position in the virtual space S corresponding to the position of the person P1 in the frame image 20 at the timing shown in FIG. 5A is maintained as the recognition position. This makes it possible to suppress the occurrence of salience that is not in the brain of the user 5, and it is possible to predict the visual field information with high accuracy.
- the position in the virtual space S corresponding to the position of the recognition target object in the rendered frame image 20 is updated and stored as the recognition position.
- the recognition target object not included in the frame image 20 at the current time the position in the virtual space S corresponding to the position of the recognition target object in the most recent frame image 20 is held as the recognition position. In this way, updating of the recognized position may be performed for each frame.
- FIG. 10 is a schematic diagram showing an example of information described in a scene description file used as scene description information in this embodiment.
- each object information described in the scene description file is associated with audio data such as footsteps and voice emitted from the object. Based on this information, the renderer renders the associated audio data from each object position.
- the following information is stored as object information.
- audio data information of "voice and footsteps 1" and “voice and footsteps 2" are linked to video object information of "hidden person 1" and "hidden person 2".
- the audio data of "Voice and footsteps 1" and “Voice and footsteps 2" are, for example, responses such as "It's okay” or “It's okay” to the demon's call "Is it okay?" is mentioned.
- the recognition position estimating unit 19 receives, from the renderer, the presence/absence information of audio data linked to each object, the current volume information, and the like. Then, the user 5 currently hears the sound emitted from the object depending on whether or not it exceeds a reference value (threshold), which is the volume level used as a reference for judging that the user 5 can hear and recognize the sound. to determine whether it is aware of Note that the reference volume level may be set arbitrarily. Assume that there is linked audio data and that the sound volume level exceeds the standard. In this case, the current position of the object within the virtual space S, that is, the position where the sound is generated within the virtual space S is estimated as the recognition position recognized by the user 5 . That is, in the present embodiment, when it is determined that the user 5 has recognized the sound emitted by the recognition target object that is not included in the "frame image at the current time", the position where the sound is generated in the virtual space S is estimated as the recognition position.
- a reference value which is the volume level used as
- the recognized positions of people hiding are estimated based on the voices of people playing hide-and-seek. For example, it is assumed that "hidden person 1", which is not included in the frame image, utters a voice saying "that's bad”. If the volume of the voice exceeds the reference value, it is determined that the voice was heard by the user 5, and the current position in the virtual space S of the "hidden person 1" is estimated as the recognition position. This makes it possible to suppress the occurrence of saliency that is not in the brain of the user 5, and it is possible to predict visual field information with high accuracy. Note that when the sound emitted from the recognition target object is interrupted and cannot be heard, the last heard position, that is, the most recently heard position in the past, is maintained as the recognition position.
- Example 3 If the user 5 has viewed a scene similar to the scene currently viewed in the past, the user 5 may grasp the position of the object by associating it from the memory at that time.
- the present embodiment 3 is devised assuming such a case, and the recognition position in the brain of the user 5 is estimated based on the past viewing information in the same scene as the present.
- 11 and 12 are schematic diagrams showing an example of information described in a scene description file used as scene description information in this embodiment.
- the role information of each object in the current scene and the fixed position information (world coordinates) at the time of the role are stored in each object information described in the scene description file. be done. That is, the scene description file stores role information representing the role of the object to be recognized and the fixed position (world coordinates) related to the role.
- object information In the examples shown in FIGS. 11 and 12, the following information is stored as object information. Name...Name of object Position...Position of object Url...Address of 3D object data Role...Role information FixedPos...Fixed position information about role
- FIGS. 11 and 12 in a baseball scene, role information and fixed position information are stored for the offensive and defensive players "A Tadashi Ao" and "B Kawa Bsuke". ing.
- FIG. 11 is a scene description file for attack
- FIG. 12 is a scene description file for defense.
- the attack scene description file and the defense scene description file are updated with each other.
- each scene description file for attack and defense is updated. For example, when the scene description file is updated from FIG. 11 to FIG. 12 according to the change of offense and defense, the role of "Ata Ao" changes from the role of "next batter” to the role of "first baseman".
- FIGS. 13 and 14 are schematic diagrams for explaining the estimation of the recognition position of the recognition target object in the third embodiment.
- a baseball stadium is constructed as the virtual space S, and the player 32 "Ao Ada” and the player 33 "Bsuke Bagawa” are also arranged in the virtual space S.
- the line of sight of the eye in the drawing corresponds to the field of view (predicted field of view) 7 of the user 5, and a frame image (predicted frame image) 20 of the region of the field of view 7 is generated.
- FIG. 13A first, user 5 is watching a scene in which "Ao Ada” player 32 is playing first base.
- the user 5 understands that the "A husband A” 32 is on first base in the defensive scene.
- the player 32 "A Tao A” is set as a recognition target object.
- the player 32 of "A Dao A” becomes the "next batter” and moves to the next batter's circle.
- FIG. 13B the user 5 follows and watches the "Ata Ao" player 32 moving to the next batter's circle. After that, as shown in FIG.
- the user 5 directs the field of view 7 toward the player "Bsuke Bagawa” 33 who has become a "batter” and watches the batting.
- player A Tao 32 the object to be recognized, player A Tao 32, is present outside the field of view and is not included in the frame image 20.
- FIG. 14B the offense and defense are changed, and the player 32 of "A Tao A” moves to the position of first base as a "first baseman".
- FIG. 14B the user 5 faces the spectator seats with the field of view 7 and watches the spectators in the cheering seats.
- a player 32 of "A Tao A” moves to first base in an area outside the field of view of user 5, and user 5 does not see the movement.
- the user 5 can grasp that the "A Den A Fu" player 32 is currently on the defense due to the offense-defense change. 13A in the past, he knows that the player 32 is on first base when he is on defense. Therefore, it is conceivable that the user 5 will associate the player 32 in the mind of the user 5 with the player 32 on first base, as in the case of viewing in FIG. 13A, and update the position in the mind.
- the recognition position estimation unit 19 estimates the recognition position of the player 32 as the ⁇ first base position'', which is a fixed position related to the role of ⁇ first baseman''. . That is, in the viewing in FIG.
- the player 32 "A Tao A” corresponds to a recognition target object for which predetermined role information (“first baseman") that is not included in the "frame image at the current time” is set. Then, if the player 32 who has been rendered with the same role information (“first baseman”) has been rendered by the current time, the fixed position (“position of first baseman”) related to the role has been rendered. ) is estimated as the recognition position. As a result, it is possible to suppress the occurrence of saliency that is not in the user's brain, and it is possible to predict visual field information with high accuracy.
- viewing the scene in which the role of the player ⁇ A Field A'' player 32 is the ⁇ first baseman'' may be viewed in another baseball game in the past.
- the "position of first base” is displayed. ” may be estimated as the recognition position. That is, as long as the recognition target object with the same role information set is rendered by the current time, it is possible to estimate the fixed position related to the role as the recognition position.
- the "first base position” may be estimated as the recognized position. That is, until the current time, the recognition target object ("A man A” player 32) to whom the same role information (“first baseman") is set is in a fixed position ("first base position") related to the role. A home position associated with the role (“first base position") may be inferred as the perceived position if it has been rendered. As a result, the recognition position can be estimated when the user surely grasps that the player "A Tao A" 32 is at the "first base position” during defense. On the other hand, most of the recognition target objects for which role information is set are in the "fixed position", so there is a high possibility that the state of being in the "fixed position” will be rendered.
- the recognition position estimation unit 19 determines whether or not the user 5 is visually recognizing the recognition target object based on whether or not the recognition target object has been rendered in the frame image (prediction frame image) 20, and determines whether or not the recognition target object has been rendered.
- the position of the target object on the virtual space S is estimated as the recognition position.
- the sound information used in (Example 2) and the role information and fixed position information used in (Example 3) are not acquired.
- the sound information used in (Example 2) and the role information and fixed position information used in (Example 3) are acquired. In the absence of this information, the last viewed position (last rendered position) is maintained as the perceived position.
- the information with the next highest priority is assumed to be sound information emitted from the object to be recognized, and (Embodiment 2) is executed. That is, the recognition position is estimated based on the presence/absence of audio data linked to the recognition target object and the current generation status information (occurrence position, volume information, etc.) of the audio data.
- the recognition position is estimated based on the presence/absence of audio data linked to the recognition target object and the current generation status information (occurrence position, volume information, etc.) of the audio data.
- Role information and fixed position information are acquired as information with the next highest priority, and (Example 3) is executed. That is, the recognition position is estimated based on the past viewing experience information of the user 5 in the same scene as the current scene and the fixed position information of the recognition target object in that scene. When neither visual information nor sound information is acquired, a position that seems to be associated with the position from the past viewing experience of the same scene as the present is estimated as the recognized position. If there is no visual information, sound information, role information, or positional information, the user 5 is unaware of the existence of the object, so the user 5 pays zero attention to the object (the object to be recognized is set to no recognition position).
- FIG. 15 is a flowchart showing an example of estimating the recognition position of the recognition target object.
- the process shown in FIG. 15 can also be said to be a process example in which the processes of (Example 1) to (Example 3) are integrated.
- Rendering information and scene information for all objects to be recognized in the scene are obtained (step 201).
- Rendering information includes any information regarding the rendering of the object to be recognized.
- the rendering information includes history information of rendering of the recognition target object up to the current time, position information of the recognition target object in the frame image 20, and the like.
- the scene information includes scene description information about the object to be recognized. For example, it includes history information of scene description information up to the current time. Note that in step 301, an object that is rendered for the first time in the "frame image at the current time" is also set as a recognition target object, and rendering information and frame information are acquired.
- step 202 It is determined whether or not there is an unprocessed object to be recognized (step 202). If there is an unprocessed object to be recognized (Yes in step 202), one unprocessed object to be recognized is selected, and the processing from step 203 onwards is executed.
- step 203 It is determined whether or not the selected object to be recognized is included in the "frame image at the current time" (that is, whether or not it has been rendered) (step 203). If the recognition target object is included in the "frame image at the current time" (Yes in step 203), the current role information of the recognition target object is added to the role list (step 204).
- the role list is a list to which the role information is input when the recognition target object for which the role information is set has been viewed (that is, rendered) by the current time. If no role information is set for the object to be recognized, addition to the role list is not executed.
- the role list can also be said to be a role watched list.
- a recognition position is estimated to the position of the current object to be recognized (step 205).
- the current position of the object to be recognized corresponds to the position in the virtual space S corresponding to the position of the object to be recognized in the "frame image at the current time".
- the initial recognition position is estimated in step 205 .
- the recognition positions of the recognition target objects whose recognition positions have been estimated by the current time are updated. Of course, there may be cases where the result is the same as the recognition position estimated in the past.
- the estimation of the recognition position of this recognition target object is completed, and the process returns to step 202 .
- step 206 If the object to be recognized is not included in the "frame image at the current time" (No in step 203), audio data is associated with the object to be recognized and the sound volume at the time of current rendering exceeds the reference value. It is determined whether there is (step 206). If step 206 is affirmative (Yes in step 206), the current role (role information) of the recognized object is added to the role list (step 204). As described above, in the present embodiment, even if it is determined that the user 5 has recognized a sound emitted by a recognition target object for which the same role information is set by the current time, the recognition target object for which the same role information is set is rendered.
- Adding the role to the role list is performed as if A recognition position is estimated to the position of the current object to be recognized (step 205).
- the current position of the recognition target object corresponds to the position in the virtual space S where the sound emitted from the recognition target object is generated.
- the recognition positions of the recognition target objects whose estimated positions have been estimated by the current time are updated.
- the estimation of the recognition position of this recognition target object is completed, and the process returns to step 202 .
- step 206 If step 206 is negative (No in step 206), it is determined whether the current role of the object to be recognized has changed since the last time the recognition position was updated (step 207). If the current role has not changed since the last time the recognized position was updated (No in step 207), the recognized position is not updated (ie, the recognized position has not changed). Then, return to step 202 .
- Step 208 it is determined whether or not the user 5 has viewed the scene of the recognition target object's current role in the past. The determination of step 208 is performed by referring to whether the current role information of the object to be recognized is entered in the role list. If the role list is populated with the current role information of the object to be recognized, step 208 is affirmative. If the role list is not populated with current role information for the object to be recognized, step 208 is negative.
- the recognition position is not updated (that is, the recognition position is unchanged). Then, return to step 202 . If the user 5 has viewed the scene of the current role of the recognition target object in the past (Yes in step 208), the recognition position is estimated to be the current position of the recognition target object (step 209).
- the position of the current object to be recognized corresponds to the home position associated with the role.
- the recognition positions of the recognition target objects whose estimated positions have been estimated in past frames by the current time are updated. The estimation of the recognition position of this recognition target object is completed, and the process returns to step 202 .
- step 210 the process of estimating the recognition positions of all recognition target objects ends (step 210). As shown in FIG. 15, by using visual information, current sound information, and past viewing information, it is possible to estimate the recognition position of the recognition target object with high accuracy.
- the home position associated with the role was estimated as the recognized position.
- the fixed position related to the role is determined. A position may be estimated as a perceived position.
- FIG. 16 is a flowchart illustrating an example of generating an omnidirectional saliency map.
- a saliency map for the visual field is generated based on the "frame image at the current time".
- a saliency map including both saliency based on bottom-up attention and saliency based on top-down attention is generated as a saliency map for the field of view.
- saliency based on bottom-up attention and saliency based on top-down attention are each detected separately and added together to generate a saliency map for the field of view corresponding to the final viewport image.
- a sky omnidirectional saliency map (in this embodiment, an equirectangular image in which all pixels have a value of zero) is prepared, and a field segment saliency map is pasted.
- any other method may be used as a method for avoiding occurrence of salience based on bottom-up attention in the out-of-field area. For example, once a saliency map for the whole sky (including both bottom-up attention-based saliency and top-down attention-based saliency) is generated, a method of masking the area outside the field of view is adopted. good too.
- the method of pasting the saliency map for the field of view in the field of view area of the omnidirectional saliency map of the sky as in the present embodiment, it is possible to reduce the processing load and shorten the processing time. It is also possible to shorten the length.
- step 302 The recognition positions of all the recognition target objects in the out-of-field region estimated by the recognition position estimation unit 19 are obtained (step 302). It is determined whether or not there is an object to be recognized (hereinafter referred to as an out-of-field object) in an unprocessed out-of-field area (step 303). If there is an unprocessed out-of-view object (Yes in step 303), one unprocessed out-of-view object is selected, and the process of step 304 is executed.
- an out-of-field object an object to be recognized
- step 304 the position of the out-of-field object in the omnidirectional saliency map (position on the 2D map) is calculated based on the recognized position in the virtual space S of the out-of-field object.
- Top-down saliency generated by out-of-view objects is placed at the calculated positions.
- Out-of-view objects are objects that have been rendered in the past. Therefore, out-of-view objects have previously been saliency detected in step 301 based on top-down attention. For example, the saliency value of each pixel along the shape of the object is detected. In this embodiment, top-down attention-based salience for the recognized objects detected in step 301 is preserved.
- step 304 the retained top-down attention-based saliency (shape and value) is reused and placed on the omnidirectional saliency map. This top-down attention-based saliency-based placement of out-of-view objects is complete and the process returns to step 303 .
- step 304 a method of generating a saliency map (top-down caution) for the entire omnidirectional area once and then adjusting the saliency occurrence position in the out-of-field region in accordance with the estimated recognition position is adopted.
- the rendering process can be done only in the viewport, and the processing load can be reduced. . Also, the processing time can be shortened.
- step 302 If there is no unprocessed out-of-view object (No in step 302), the generation process of the omnidirectional saliency map in which top-down attention-based saliency of the out-of-view object is generated based on the recognition position ends. do.
- Top-down attention-based saliency is generated at the recognition position that the user 5 recognizes in the brain. That is, a saliency map representing saliency based on top-down attention in the out-of-field region is generated based on the recognition position of the recognition target object in the out-of-field region. This makes it possible to prevent unnecessary salience from being generated from a position different from the recognition position in the brain, and to solve the above problems (2) and (3).
- FIG. 17 is a schematic diagram showing an example of the omnidirectional saliency map generated by this embodiment.
- FIG. 17A is an example of the omnidirectional saliency map 35 generated at the timing shown in FIG. 5A.
- FIG. 17B is an example of the omnidirectional saliency map 35 generated at the timing shown in FIG. 5C.
- FIG. 17A in the omnidirectional saliency map 35 generated at the timing shown in FIG. 5A, saliency based on top-down attention of only the person P1 recognized by the user 5 occurs. No saliency based on the bottom-up attention of the lighting device L that is not recognized by the user 5 occurs. Also, saliency based on top-down attention of persons P1 and P2 who are not recognized by user 5 does not occur.
- the omnidirectional saliency map 35 generated according to the present embodiment avoids the occurrence of saliency that is not in the brain of the user 5, resulting in a highly accurate omnidirectional saliency map. ing.
- the recognition position of the recognition target object in the out-of-view area 21 is estimated. Based on the estimated recognition position, an all-dome saliency map 35 is generated, including a saliency map in the out-of-view region 21 . This makes it possible to reflect the attention of the user 5 to the outside of the visual field in the omnidirectional saliency map 35 according to the viewing situation at that time. As a result, it is possible to generate a highly accurate omnidirectional saliency map 35 .
- a highly accurate and accurate omnidirectional saliency map 35 is generated, it is possible to generate prediction Head Motion information (especially Orientation information) with extremely high accuracy, and the problem of response delay (T_m2p time) can be sufficiently resolved. can be suppressed to In other words, it is possible to use the omnidirectional saliency map 35 to deliver high-quality virtual video.
- the highly accurate omnidirectional saliency map 35 generated in this embodiment can also be used for other purposes.
- the case where 6DoF video is distributed as the virtual image is taken as an example.
- the present technology is not limited to this, and can be applied when 3DoF video, 2D video, or the like is distributed.
- the virtual image instead of the VR video, an AR video or the like may be distributed.
- the present technology can also be applied to stereo images (for example, right-eye images and left-eye images) for viewing 3D images.
- the present technology is applicable to content displaying any virtual space in which an out-of-view area may occur.
- the saliency map of the out-of-view area is not limited to the saliency map of the entire area of the virtual space, and a saliency map of a partial area of the virtual space that is the out-of-view area may be generated.
- FIG. 18 is a block diagram showing a hardware configuration example of a computer (information processing device) 60 that can implement the server device 4 and the client device 3.
- the computer 60 includes a CPU 61, a ROM (Read Only Memory) 62, a RAM 63, an input/output interface 65, and a bus 64 connecting them together.
- a display unit 66, an input unit 67, a storage unit 68, a communication unit 69, a drive unit 70, and the like are connected to the input/output interface 65.
- the display unit 66 is a display device using liquid crystal, EL, or the like, for example.
- the input unit 67 is, for example, a keyboard, pointing device, touch panel, or other operating device.
- the input portion 67 includes a touch panel
- the touch panel can be integrated with the display portion 66 .
- the storage unit 68 is a non-volatile storage device such as an HDD, flash memory, or other solid-state memory.
- the drive unit 70 is a device capable of driving a removable recording medium 71 such as an optical recording medium or a magnetic recording tape.
- the communication unit 69 is a modem, router, or other communication equipment for communicating with other devices that can be connected to a LAN, WAN, or the like.
- the communication unit 69 may use either wired or wireless communication.
- the communication unit 69 is often used separately from the computer 60 .
- Information processing by the computer 60 having the hardware configuration as described above is realized by cooperation of software stored in the storage unit 68 or the ROM 62 or the like and the hardware resources of the computer 60 .
- the information processing method according to the present technology is realized by loading a program constituting software stored in the ROM 62 or the like into the RAM 63 and executing the program.
- the program is installed in the computer 60 via the recording medium 61, for example.
- the program may be installed on the computer 60 via a global network or the like.
- any computer-readable non-transitory storage medium may be used.
- An information processing method and a program according to the present technology may be executed by a plurality of computers communicably connected via a network or the like to construct an information processing apparatus according to the present technology. That is, the information processing method and program according to the present technology can be executed not only in a computer system configured by a single computer, but also in a computer system in which a plurality of computers work together.
- a system means a set of multiple components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a single device housing a plurality of modules within a single housing, are both systems.
- the information processing method according to the present technology and the execution of the program by the computer system include, for example, acquisition of visual field information, execution of rendering processing, setting of recognition target objects, estimation of recognition positions, generation of omnidirectional saliency maps, etc. It includes both the case where it is executed by a single computer and the case where each process is executed by different computers. Execution of each process by a predetermined computer includes causing another computer to execute part or all of the process and obtaining the result. That is, the information processing method and program according to the present technology can also be applied to a configuration of cloud computing in which a plurality of devices share and jointly process one function via a network.
- a rendering unit that generates two-dimensional video data corresponding to the user's field of view by executing rendering processing on three-dimensional space data that constitutes a virtual space based on field-of-view information related to the user's field of view; an estimation unit for estimating a recognition position recognized by the user of a recognition target object recognized by the user in an area outside the user's field of view in the virtual space; and a generation unit that generates a saliency map representing saliency in the out-of-field region based on the estimated recognition position of the recognition target object in the out-of-field region.
- the information processing device sets an object that has been rendered as a target for rendering up to a current time as the recognition target object.
- the information processing device according to (1) or (2) The two-dimensional video data is composed of a plurality of frame images that are continuous in time series, For the recognition target object not included in the frame image at the current time, the estimation unit determines a position in the virtual space corresponding to the position of the recognition target object in the most recent frame image in which the recognition target object is included. An information processing device that estimates the recognition position based on.
- the information processing device includes three-dimensional space description data defining the configuration of the virtual space and three-dimensional object data defining a three-dimensional object in the virtual space, the three-dimensional space description data includes role information representing a role of the object to be recognized and positional information representing a fixed position associated with the role;
- the estimating unit confirms that, for the recognition target object set with predetermined role information that is not included in the frame image at the current time, the recognition target object set with the same role information was rendered by the current time. In some cases, the information processing device estimates the home position associated with the role as the recognition position.
- the estimating unit determines, if the recognition target object for which the same role information is set has been rendered at the fixed position related to the role by the current time, is estimated as the recognition position.
- the information processing device includes three-dimensional space description data defining the configuration of the virtual space and three-dimensional object data defining a three-dimensional object in the virtual space, the three-dimensional space description data includes role information representing a role of the object to be recognized and positional information representing a fixed position associated with the role; For the recognition target object set with predetermined role information that is not included in the frame image at the current time, the estimation unit detects the sound emitted by the recognition target object set with the same role information by the current time.
- an information processing apparatus that estimates the fixed position related to the role as the recognized position when it is determined that the position has been recognized.
- the information processing device (10) The information processing device according to (9), If the estimation unit determines that the user has recognized a sound emitted while the recognition target object, for which the same role information is set, is in the fixed position related to the role by the current time, information processing apparatus that estimates the fixed position related to the position as the recognition position. (11) The information processing device according to any one of (1) to (10), The information processing apparatus, wherein the estimation unit estimates the recognition position based on the position of the recognition target object in the two-dimensional video data in which the recognition target object is rendered.
- the information processing device according to any one of (1) to (11), The information processing apparatus, wherein the generation unit generates the saliency map in which saliency based on bottom-up attention in the out-of-field region is zero.
- the information processing device according to any one of (1) to (12), The information processing apparatus, wherein the generation unit generates the saliency map representing saliency based on top-down attention in the out-of-field region based on the recognition position of the recognition target object in the out-of-field region.
- the information processing device according to any one of (1) to (13), The information processing apparatus, wherein the generation unit generates the saliency map in the out-of-field region and a saliency map representing saliency of the two-dimensional video data.
- the information processing device according to any one of (1) to (14), further comprising: A prediction unit that generates the future visual field information as predicted visual field information based on the saliency map, The information processing apparatus, wherein the rendering unit generates the two-dimensional video data based on the predicted field-of-view information.
- the visual field information includes at least one of a viewpoint position, a line-of-sight direction, a line-of-sight rotation angle, a position of the user's head, or a rotation angle of the user's head.
- the information processing device includes a rotation angle of the user's head, The prediction unit predicts a future head rotation angle of the user based on the saliency map.
- Information processing apparatus (18) The information processing device according to any one of (15) to (17), The two-dimensional video data is composed of a plurality of frame images that are continuous in time series, The information processing apparatus, wherein the rendering unit generates a frame image based on the predicted field-of-view information and outputs it as a predicted frame image.
Landscapes
- Engineering & Computer Science (AREA)
- Computer Graphics (AREA)
- Computer Hardware Design (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Processing Or Creating Images (AREA)
Abstract
Description
本技術は、VR(Virtual Reality:仮想現実)映像の配信等に適用可能な情報処理装置、及び情報処理方法に関する。 The present technology relates to an information processing device and an information processing method applicable to VR (Virtual Reality) video distribution and the like.
近年、全天周カメラ等により撮影された、全方位を見回すことが可能な全天周映像が、VR映像として配信されるようになってきている。さらに最近では、視聴者(ユーザ)が、全方位見回し(視線方向を自由に選択)することができ、3次元空間中を自由に移動することができる(視点位置を自由に選択することができる)6DoF(Degree of Freedom)映像(6DoFコンテンツとも称する)を配信する技術の開発が進んでいる。
このような6DoFコンテンツは、時刻毎に、視聴者の視点位置、視線方向及び視野角(視野範囲)に応じて、1つもしくは複数の3次元オブジェクトで3次元空間を動的に再現するものである。
このような映像配信においては、視聴者の視野範囲に応じて、視聴者に提示する映像データを動的に調整(レンダリング)することが求められる。例えば、このような技術の一例としては、特許文献1に開示の技術を挙げることができる。
In recent years, omnidirectional video that is captured by an omnidirectional camera or the like and that allows users to look around in all directions has come to be distributed as VR video. Furthermore, recently, a viewer (user) can look around in all directions (freely select the line-of-sight direction) and can move freely in three-dimensional space (freely select the viewpoint position). ) Technology for distributing 6DoF (Degree of Freedom) video (also referred to as 6DoF content) is being developed.
Such 6DoF content dynamically reproduces a three-dimensional space with one or more three-dimensional objects according to the viewer's viewpoint position, line-of-sight direction, and viewing angle (viewing range) at each time. be.
In such video distribution, it is required to dynamically adjust (render) video data to be presented to the viewer according to the viewing range of the viewer. For example, as an example of such technology, the technology disclosed in
また非特許文献1には、全天球画像に対する顕著性マップの推定処理について記載されている。
この推定処理では、全天球画像から様々なカメラ方向の平面画像が抽出され、平面画像用の顕著性マップ推定モデルにより、各平面画像に対する顕著性マップが推定される。各平面画像に対する顕著性マップが統合され、また画像中央の水平線方向に水平線バイアスがかけられて、全天球画像の顕著性マップが推定される。
Non-Patent
In this estimation processing, planar images in various camera directions are extracted from the omnidirectional image, and a saliency map for each planar image is estimated by a saliency map estimation model for planar images. The saliency maps for each planar image are integrated and horizontally biased toward the horizontal in the center of the image to estimate the saliency map of the omnidirectional image.
VR映像等の仮想的な映像(仮想映像)の配信は普及していくと考えられ、高品質な仮想映像の配信を可能とする技術が求められている。 The distribution of virtual images (virtual images) such as VR images is expected to spread, and there is a demand for technology that enables the distribution of high-quality virtual images.
以上のような事情に鑑み、本技術の目的は、高品質な仮想映像の配信を実現することが可能な情報処理装置、及び情報処理方法を提供することにある。 In view of the circumstances as described above, the purpose of the present technology is to provide an information processing device and an information processing method capable of realizing high-quality virtual video distribution.
上記目的を達成するため、本技術の一形態に係る情報処理装置は、レンダリング部と、推定部と、生成部とを具備する。
前記レンダリング部は、ユーザの視野に関する視野情報に基づいて、仮想空間を構成する3次元空間データに対してレンダリング処理を実行することにより、前記ユーザの視野に応じた2次元映像データを生成する。
前記推定部は、前記仮想空間の前記ユーザの視野に含まれない視野外領域における、前記ユーザが認識している認識対象オブジェクトの前記ユーザが認識している認識位置を推定する。
前記生成部は、推定された前記視野外領域における前記認識対象オブジェクトの前記認識位置に基づいて、前記視野外領域における顕著性を表す顕著性マップを生成する。
To achieve the above object, an information processing apparatus according to an aspect of the present technology includes a rendering unit, an estimation unit, and a generation unit.
The rendering unit generates two-dimensional video data according to the user's field of view by executing rendering processing on three-dimensional space data forming a virtual space based on field-of-view information about the user's field of view.
The estimation unit estimates a recognition position recognized by the user of a recognition target object recognized by the user in an area outside the user's visual field in the virtual space.
The generating unit generates a saliency map representing saliency in the out-of-field region based on the estimated recognition position of the recognition target object in the out-of-field region.
この情報処理装置では、視野外領域における認識対象オブジェクトの認識位置が推定される。推定された認識位置に基づいて、視野外領域における顕著性マップが生成される。これにより、視野外領域における高精度の顕著性マップを生成することが可能となり、顕著性マップを用いて高品質な仮想映像の配信を実現することが可能となる。 In this information processing device, the recognition position of the recognition target object in the out-of-field area is estimated. A saliency map in the out-of-view region is generated based on the estimated recognition position. This makes it possible to generate a high-precision saliency map in the out-of-field region, and to use the saliency map to deliver high-quality virtual video.
前記推定部は、現在時刻までにレンダリング対象となったことがあるオブジェクトを、前記認識対象オブジェクトとして設定してもよい。 The estimation unit may set, as the recognition target object, an object that has been rendered before the current time.
前記2次元映像データは、時系列に連続する複数のフレーム画像により構成されてもよい。この場合、前記推定部は、現在時刻のフレーム画像に含まれない前記認識対象オブジェクトについて、前記認識対象オブジェクトが含まれる過去の直近のフレーム画像内の前記認識対象オブジェクトの位置に対応する前記仮想空間内の位置に基づいて、前記認識位置を推定してもよい。 The two-dimensional video data may be composed of a plurality of frame images that are continuous in time series. In this case, for the recognition target object that is not included in the frame image at the current time, the estimation unit performs the virtual space corresponding to the position of the recognition target object in the most recent past frame image that includes the recognition target object. The recognition position may be estimated based on the position within.
前記推定部は、前記直近のフレーム画像内の前記認識対象オブジェクトの位置に対応する前記仮想空間内の位置を、前記認識位置として推定してもよい。 The estimation unit may estimate a position in the virtual space corresponding to the position of the recognition target object in the most recent frame image as the recognition position.
前記推定部は、前記直近のフレーム画像内の前記認識対象オブジェクトの位置に対応する前記仮想空間内の位置から前記認識対象オブジェクトの移動方向に沿ってシフトした位置を、前記認識位置として推定してもよい。 The estimation unit estimates, as the recognition position, a position shifted in the moving direction of the recognition target object from a position in the virtual space corresponding to the position of the recognition target object in the most recent frame image. good too.
前記推定部は、現在時刻のフレーム画像に含まれない前記認識対象オブジェクトについて、前記認識対象オブジェクトが発する音を前記ユーザが認識したと判定した場合に、前記音の前記仮想空間内における発生位置を、前記認識位置として推定してもよい。 For the recognition target object that is not included in the frame image at the current time, the estimation unit estimates a position in the virtual space where the sound is generated when determining that the user has recognized a sound emitted by the recognition target object. , may be estimated as the recognition position.
前記3次元空間データは、前記仮想空間の構成を定義する3次元空間記述データと、前記仮想空間における3次元オブジェクトを定義する3次元オブジェクトデータとを含んでもよい。この場合、前記3次元空間記述データは、前記認識対象オブジェクトの役割を表す役割情報、及び前記役割に関連する定位置を表す定位置情報を含んでもよい。また前記推定部は、現在時刻のフレーム画像に含まれない所定の役割情報が設定された前記認識対象オブジェクトについて、現在時刻までに、同じ役割情報が設定された前記認識対象オブジェクトがレンダリングされたことがある場合に、前記役割に関連する前記定位置を前記認識位置として推定してもよい。 The three-dimensional space data may include three-dimensional space description data defining the configuration of the virtual space and three-dimensional object data defining a three-dimensional object in the virtual space. In this case, the three-dimensional space description data may include role information representing a role of the object to be recognized, and fixed position information representing a fixed position related to the role. Further, the estimating unit determines that, for the recognition target object set with predetermined role information that is not included in the frame image at the current time, the recognition target object set with the same role information was rendered by the current time. , the home position associated with the role may be inferred as the recognition position.
前記推定部は、現在時刻までに同じ役割情報が設定された前記認識対象オブジェクトが前記役割に関連する前記定位置にいる状態がレンダリングされたことがある場合に、前記役割に関連する前記定位置を前記認識位置として推定してもよい。 The estimating unit determines, if the recognition target object for which the same role information is set has been rendered at the fixed position related to the role by the current time, may be estimated as the recognition position.
前記3次元空間データは、前記仮想空間の構成を定義する3次元空間記述データと、前記仮想空間における3次元オブジェクトを定義する3次元オブジェクトデータとを含んでもよい。この場合、前記3次元空間記述データは、前記認識対象オブジェクトの役割を表す役割情報、及び前記役割に関連する定位置を表す定位置情報を含んでもよい。また前記推定部は、現在時刻のフレーム画像に含まれない所定の役割情報が設定された前記認識対象オブジェクトについて、現在時刻までに、同じ役割情報が設定された前記認識対象オブジェクトが発する音を前記ユーザが認識したと判定した場合に、前記役割に関連する前記定位置を前記認識位置として推定してもよい。 The three-dimensional space data may include three-dimensional space description data defining the configuration of the virtual space and three-dimensional object data defining a three-dimensional object in the virtual space. In this case, the three-dimensional space description data may include role information representing a role of the object to be recognized, and fixed position information representing a fixed position related to the role. For the recognition target object set with predetermined role information that is not included in the frame image at the current time, the estimation unit estimates the sound emitted by the recognition target object set with the same role information by the current time. The fixed position associated with the role may be estimated as the recognized position when it is determined that the user has recognized it.
前記推定部は、現在時刻までに同じ役割情報が設定された前記認識対象オブジェクトが前記役割に関連する前記定位置にいる状態で発した音を前記ユーザが認識したと判定した場合に、前記役割に関連する前記定位置を前記認識位置として推定してもよい。 If the estimation unit determines that the user has recognized a sound emitted while the recognition target object, for which the same role information is set, is in the fixed position related to the role by the current time, may be estimated as the recognition position.
前記推定部は、前記認識対象オブジェクトがレンダリングされている前記2次元映像データ内の前記認識対象オブジェクトの位置に基づいて、前記認識位置を推定してもよい。 The estimation unit may estimate the recognition position based on the position of the recognition target object in the two-dimensional video data in which the recognition target object is rendered.
前記生成部は、前記視野外領域におけるボトムアップ注意に基づく顕著性がゼロとなる前記顕著性マップを生成してもよい。 The generation unit may generate the saliency map in which saliency based on bottom-up attention in the out-of-field area is zero.
前記生成部は、前記視野外領域における前記認識対象オブジェクトの前記認識位置に基づいて、前記視野外領域におけるトップダウン注意に基づく顕著性を表す前記顕著性マップを生成してもよい。 The generation unit may generate the saliency map representing saliency based on top-down attention in the out-of-field area based on the recognition position of the recognition target object in the out-of-field area.
前記生成部は、前記視野外領域における前記顕著性マップと、前記2次元映像データの顕著性を表す顕著性マップとを生成してもよい。 The generation unit may generate the saliency map in the out-of-field region and a saliency map representing saliency of the two-dimensional video data.
前記情報処理装置は、さらに、前記顕著性マップに基づいて、未来の前記視野情報を予測視野情報として生成する予測部を具備してもよい。この場合、前記レンダリング部は、前記予測視野情報に基づいて、前記2次元映像データを生成してもよい。 The information processing device may further include a prediction unit that generates the future visual field information as predicted visual field information based on the saliency map. In this case, the rendering section may generate the two-dimensional image data based on the predicted field-of-view information.
前記視野情報は、視点の位置、視線方向、視線の回転角度、前記ユーザの頭の位置、又は前記ユーザの頭の回転角度の少なくとも1つを含んでもよい。 The field-of-view information may include at least one of a viewpoint position, a line-of-sight direction, a line-of-sight rotation angle, a position of the user's head, or a rotation angle of the user's head.
前記視野情報は、前記ユーザの頭の回転角度を含んでもよい。この場合、前記予測部は、前記顕著性マップに基づいて、未来の前記ユーザの頭の回転角度を予測してもよい。 The field-of-view information may include the rotation angle of the user's head. In this case, the prediction unit may predict the future head rotation angle of the user based on the saliency map.
前記2次元映像データは、時系列に連続する複数のフレーム画像により構成されてもよい。この場合、前記レンダリング部は、前記予測視野情報に基づいてフレーム画像を生成し、予測フレーム画像として出力してもよい。 The two-dimensional video data may be composed of a plurality of frame images that are continuous in time series. In this case, the rendering section may generate a frame image based on the predicted field-of-view information and output it as a predicted frame image.
本技術の一形態に係る情報処理方法は、コンピュータシステムが実行する情報処理方法であって、ユーザの視野に関する視野情報に基づいて、仮想空間を構成する3次元空間データに対してレンダリング処理を実行することにより、前記ユーザの視野に応じた2次元映像データを生成することを含む。
前記仮想空間の前記ユーザの視野に含まれない視野外領域における、前記ユーザが認識している認識対象オブジェクトの前記ユーザが認識している認識位置が推定される。
推定された前記視野外領域における前記認識対象オブジェクトの前記認識位置に基づいて、前記視野外領域における顕著性を表す顕著性マップが生成される。
An information processing method according to one embodiment of the present technology is an information processing method executed by a computer system, in which rendering processing is performed on three-dimensional space data forming a virtual space based on visual field information regarding a user's visual field. to generate two-dimensional image data according to the user's field of view.
A recognition position recognized by the user of a recognition target object recognized by the user is estimated in an area outside the user's field of view in the virtual space.
A saliency map representing saliency in the out-of-field region is generated based on the estimated recognition position of the recognition target object in the out-of-field region.
以下、本技術に係る実施形態を、図面を参照しながら説明する。 Hereinafter, embodiments according to the present technology will be described with reference to the drawings.
[サーバサイドレンダリングシステム]
本技術に係る一実施形態として、サーバサイドレンダリングシステムを構成する。まず図1~図3を参照して、サーバサイドレンダリングシステムの基本的な構成例及び基本的な動作例について説明する。
図1は、サーバサイドレンダリングシステムの基本的な構成例を示す模式図である。
図2は、ユーザが視聴可能な仮想映像の一例を説明するための模式図である。
図3は、レンダリング処理を説明するための模式図である。
なお、サーバサイドレンダリングシステムを、サーバレンダリング型のメディア配信システムと呼ぶことも可能である。
[Server-side rendering system]
A server-side rendering system is configured as an embodiment according to the present technology. First, a basic configuration example and a basic operation example of a server-side rendering system will be described with reference to FIGS. 1 to 3. FIG.
FIG. 1 is a schematic diagram showing a basic configuration example of a server-side rendering system.
FIG. 2 is a schematic diagram for explaining an example of a virtual video viewable by a user.
FIG. 3 is a schematic diagram for explaining rendering processing.
Note that the server-side rendering system can also be called a server-rendering media distribution system.
図1に示すように、サーバサイドレンダリングシステム1は、HMD(Head Mounted Display)2と、クライアント装置3と、サーバ装置4とを含む。
HMD2は、ユーザ5に仮想映像を表示するために用いられるデバイスである。HMD2は、ユーザ5の頭部に装着されて使用される。
例えば、仮想映像としてVR映像が配信される場合には、ユーザ5の視野を覆うように構成された没入型のHMD2が用いられる。
仮想映像として、AR(Augmented Reality:拡張現実)映像が配信される場合には、ARグラス等が、HMD2として用いられる。
ユーザ5に仮想映像を提供するためのデバイスとして、HMD2以外のデバイスが用いられてもよい。例えば、テレビ、スマートフォン、タブレット端末、及びPC(Personal Computer)等に備えられたディスプレイにより、仮想映像が表示されてもよい。
As shown in FIG. 1, the server-
For example, when VR video is distributed as virtual video, an
When an AR (Augmented Reality) video is distributed as a virtual video, AR glasses or the like are used as the
A device other than the
図2に示すように、本実施形態では、没入型のHMD2を装着したユーザ5に対して、6DoF映像がVR映像として提供される。
ユーザ5は、3次元空間からなる仮想空間S内において、前後、左右、及び上下の全周囲360°の範囲で映像を視聴することが可能となる。例えばユーザ5は、仮想空間S内にて、視点の位置や視線方向等を自由に動かし、自分の視野(視野範囲)7を自由に変更させる。このユーザ5の視野7の変更に応じて、ユーザ5に表示される映像8が切替えられる。ユーザ5は、顔の向きを変える、顔を傾ける、振り返るといった動作をすることで、現実世界と同じような感覚で、仮想空間S内にて周囲を視聴することが可能となる。
このように、本実施形態に係るサーバサイドレンダリングシステム1では、フォトリアルな自由視点映像を配信することが可能となり、自由な視点位置での視聴体験を提供することが可能となる。
As shown in FIG. 2, in this embodiment, 6DoF images are provided as VR images to a
The
As described above, the server-
本実施形態では、HMD2により、視野情報が取得される。
視野情報は、ユーザ5の視野7に関する情報である。具体的には、視野情報は、仮想空間S内におけるユーザ5の視野7を特定することが可能な任意の情報を含む。
例えば、視野情報として、視点の位置、視線方向、視線の回転角度等が挙げられる。また視野情報として、ユーザ5の頭の位置、ユーザ5の頭の回転角度等が挙げられる。
視線の回転角度は、例えば、視線方向に延在する軸を回転軸とする回転角度により規定することが可能である。またユーザ5の頭の回転角度は、頭に対して設定される互いに直交する3つの軸をロール軸、ピッチ軸、ヨー軸とした場合の、ロール角度、ピッチ角度、ヨー角度により規定することが可能である。
例えば、顔の正面方向に延在する軸をロール軸とする。ユーザ5の顔を正面から見た場合に左右方向に延在する軸をピッチ軸とし、上下方向に延在する軸をヨー軸とする。これらロール軸、ピッチ軸、ヨー軸に対する、ロール角度、ピッチ角度、ヨー角度が、頭の回転角度として算出される。なお、ロール軸の方向を、視線方向として用いることも可能である。
その他、ユーザ5の視野を特定可能な任意の情報が用いられてよい。視野情報として、上記で例示した情報が1つ用いられてもよいし、複数の情報が組み合わされて用いられてもよい。
In this embodiment, the
The visual field information is information about the
For example, the visual field information includes the position of the viewpoint, the line-of-sight direction, the rotation angle of the line of sight, and the like. The visual field information includes the position of the user's 5 head, the rotation angle of the user's 5 head, and the like.
The rotation angle of the line of sight can be defined, for example, by a rotation angle around an axis extending in the line of sight direction. Further, the rotation angle of the head of the
For example, let the axis extending in the front direction of the face be the roll axis. When the face of the
In addition, any information that can specify the field of view of the
視野情報を取得する方法は限定されない。例えば、HMD2に備えられたセンサ装置(カメラを含む)による検出結果(センシング結果)に基づいて、視野情報を取得することが可能である。
例えば、HMD2に、ユーザ5の周囲を検出範囲とするカメラや測距センサ、ユーザ5の左右の目を撮像可能な内向きカメラ等が設けられる。また、HMD2に、IMU(Inertial Measurement Unit)センサやGPSが設けられる。
例えば、GPSにより取得されるHMD2の位置情報を、ユーザ5の視点位置や、ユーザ5の頭の位置として用いることが可能である。もちろん、ユーザ5の左右の目の位置等がさらに詳しく算出されてもよい。
また、ユーザ5の左右の目の撮像画像から、視線方向を検出することも可能である。
また、IMUの検出結果から、視線の回転角度や、ユーザ5の頭の回転角度を検出することも可能である。
The method of acquiring visual field information is not limited. For example, it is possible to acquire visual field information based on the detection result (sensing result) by the sensor device (including the camera) provided in the
For example, the
For example, the position information of the
It is also possible to detect the line-of-sight direction from the captured images of the left and right eyes of the
It is also possible to detect the rotation angle of the line of sight and the rotation angle of the head of the
また、HMD2に備えらえたセンサ装置による検出結果に基づいて、ユーザ5(HMD2)の自己位置推定が実行されてもよい。例えば、自己位置推定により、HMD2の位置情報、及びHMD2がどの方向を向いているか等の姿勢情報を算出することが可能である。当該位置情報や姿勢情報から、視野情報を取得することが可能である。
HMD2の自己位置を推定するためのアルゴリズムも限定されず、SLAM(Simultaneous Localization and Mapping)等の任意のアルゴリズムが用いられてもよい。
また、ユーザ5の頭の動きを検出するヘッドトラッキングや、ユーザ5の左右の視線の動きを検出するアイトラッキングが実行されてもよい。
Further, self-position estimation of the user 5 (HMD 2 ) may be performed based on the detection result by the sensor device provided in the
Algorithms for estimating the self-position of the
Moreover, head tracking for detecting the movement of the head of the
その他、視野情報を取得するために、任意のデバイスや任意のアルゴリズムが用いられてもよい。例えば、ユーザ5に対して仮想映像を表示するデバイスとして、スマートフォン等が用いられる場合等では、ユーザ5の顔(頭)等が撮像され、その撮像画像に基づいて視野情報が取得されてもよい。
あるいは、ユーザ5の頭や目の周辺に、カメラやIMU等を備えるデバイスが装着されてもよい。
視野情報を生成するために、例えばDNN(Deep Neural Network:深層ニューラルネットワーク)等を用いた任意の機械学習アルゴリズムが用いられてもよい。例えばディープラーニング(深層学習)を行うAI(人工知能)等を用いることで、視野情報の生成精度を向上させることが可能となる。
なお機械学習アルゴリズムの適用は、本開示内の任意の処理に対して実行されてよい。
In addition, any device or any algorithm may be used to acquire the field-of-view information. For example, when a smartphone or the like is used as a device for displaying a virtual image to the
Alternatively, a device including a camera, an IMU, or the like may be worn around the head or eyes of the
Any machine learning algorithm using, for example, a DNN (Deep Neural Network) or the like may be used to generate the visual field information. For example, by using AI (artificial intelligence) or the like that performs deep learning, it is possible to improve the generation accuracy of view information.
Note that application of machine learning algorithms may be performed for any of the processes within this disclosure.
HMD2と、クライアント装置3とは、互いに通信可能に接続されている。両デバイスを通信可能に接続するための通信形態は限定されず、任意の通信技術が用いられてよい。例えば、WiFi等の無線ネットワーク通信や、Bluetooth(登録商標)等の近距離無線通信等を用いることが可能である。
HMD2は、視野情報を、クライアント装置3に送信する。
なお、HMD2とクライアント装置3とが一体的構成されてもよい。すなわちHMD2に、クライアント装置3の機能が搭載されてもよい。
The
The
Note that the
クライアント装置3、及びサーバ装置4は、例えばCPU、ROM、RAM、及びHDD等のコンピュータの構成に必要なハードウェアを有する(図18参照)。CPUがROM等に予め記録されている本技術に係るプログラムをRAMにロードして実行することにより、本技術に係る情報処理方法が実行される。
例えばPC(Personal Computer)等の任意のコンピュータにより、クライアント装置3、及びサーバ装置4を実現することが可能である。もちろんFPGA、ASIC等のハードウェアが用いられてもよい。
もちろん、クライアント装置3とサーバ装置4とが互いに同じ構成を有する場合に限定される訳ではない。
The
For example, the
Of course, the
クライアント装置3とサーバ装置4とは、ネットワーク9を介して、通信可能に接続されている。
ネットワーク9は、例えばインターネットや広域通信回線網等により構築される。その他、任意のWAN(Wide Area Network)やLAN(Local Area Network)等が用いられてよく、ネットワーク9を構築するためのプロトコルは限定されない。
The
The
クライアント装置3は、HMD2から送信された視野情報を受信する。またクライアント装置3は、視野情報を、ネットワーク9を介して、サーバ装置4に送信する。
The
サーバ装置4は、クライアント装置3から送信された視野情報を受信する。またサーバ装置4は、視野情報に基づいて、仮想空間Sを構成する3次元空間データに対してレンダリング処理を実行することにより、ユーザ5の視野7に応じた2次元映像データ(レンダリング映像)を生成する。
サーバ装置4は、本技術に係る情報処理装置の一実施形態に相当する。サーバ装置4により、本技術に係る情報処理方法の一実施形態が実行される。
The
The
図3に示すように、3次元空間データは、シーン記述情報と、3次元オブジェクトデータとを含む。
シーン記述情報は、仮想空間S(3次元空間)の構成を定義する3次元空間記述データに相当する。シーン記述情報は、6DoFコンテンツの各シーンを再現するための種々のメタデータを含む。
3次元オブジェクトデータは、仮想空間S(3次元空間)における3次元オブジェクトを定義するデータである。すなわち6DoFコンテンツの各シーンを構成する各オブジェクトのデータとなる。
例えば、人物や動物等の3次元オブジェクトのデータや、建物や木等の3次元オブジェクトのデータが格納される。あるいは、背景等を構成する空や海等の3次元オブジェクトのデータが格納される。複数の種類の物体がまとめて1つの3次元オブジェクトとして構成され、そのデータが格納されてもよい。
3次元オブジェクトデータは、例えば、多面体の形状データとして表すことのできるメッシュデータとその面に張り付けるデータであるテクスチャデータとにより構成される。あるいは、複数の点の集合(点群)で構成される(Point Cloud)。
As shown in FIG. 3, the 3D spatial data includes scene description information and 3D object data.
The scene description information corresponds to three-dimensional space description data defining the configuration of the virtual space S (three-dimensional space). The scene description information includes various metadata for reproducing each scene of 6DoF content.
The three-dimensional object data is data defining a three-dimensional object in the virtual space S (three-dimensional space). That is, it becomes the data of each object that constitutes each scene of the 6DoF content.
For example, data of three-dimensional objects such as people and animals, and data of three-dimensional objects such as buildings and trees are stored. Alternatively, data of a three-dimensional object such as the sky or the sea that constitutes the background or the like is stored. A plurality of types of objects may be collectively configured as one three-dimensional object, and the data thereof may be stored.
The three-dimensional object data is composed of, for example, mesh data that can be expressed as polyhedral shape data and texture data that is data to be applied to the faces of the mesh data. Alternatively, it consists of a set of points (point cloud) (Point Cloud).
図3に示すように、サーバ装置4は、シーン記述情報に基づいて、3次元空間に3次元オブジェクトを配置することにより、各シーンを構成する仮想空間Sを再現する。
図3に示すように、仮想空間SにはXYZ座標系が設定されおり、座標値により規定される位置に、3次元オブジェクトが配置される。座標値は、仮想空間S上における位置情報に相当し、ワールド座標ともいえる。仮想空間SにXYZ座標系を設定する方法は限定されず、任意の設定方法が採用されてよい。
再現された仮想空間Sを基準として、ユーザ5から見た映像を切り出すことにより(レンダリング処理)、ユーザ5が視聴する2次元映像であるレンダリング映像を生成する。
サーバ装置4は、生成したレンダリング映像をエンコードし、ネットワーク9を介してクライアント装置3に送信する。
なお、ユーザの視野7に応じたレンダリング映像は、ユーザの視野7に応じたビューポート(表示領域)の映像ともいえる。
As shown in FIG. 3, the
As shown in FIG. 3, an XYZ coordinate system is set in the virtual space S, and a three-dimensional object is placed at a position defined by the coordinate values. The coordinate values correspond to positional information in the virtual space S, and can also be called world coordinates. A method for setting the XYZ coordinate system in the virtual space S is not limited, and any setting method may be adopted.
Using the reproduced virtual space S as a reference, the image viewed by the
The
Note that the rendered image corresponding to the user's field of
クライアント装置3は、サーバ装置4から送信された、エンコードされたレンダリング映像をデコードする。また、クライアント装置3は、デコードしたレンダリング映像を、HMD2に送信する。
図2に示すように、HMD2により、レンダリング映像が再生され、ユーザ5に対して表示される。以下、HMD2によりユーザ5に対して表示される映像8を、レンダリング映像8と記載する場合がある。
The
As shown in FIG. 2 , the
[サーバサイドレンダリングシステムの利点]
図2に例示するような6DoF映像の他の配信システムとして、クライアントサイドレンダリングシステムが挙げられる。
クライアントサイドレンダリングシステムでは、クライアント装置3により、視野情報に基づいて3次元空間データに対してレンダリング処理が実行され、2次元映像データ(レンダリング映像8)が生成される。クライアントサイドレンダリングシステムを、クライアントレンダリング型のメディア配信システムと呼ぶことも可能である。
クライアントサイドレンダリングシステムでは、サーバ装置4からクライアント装置3に、3次元空間データ(3次元空間記述データ及び3次元オブジェクトデータ)を配信する必要がある。
3次元オブジェクトデータは、メッシュデータにより構成されたり、点群データ(Point Cloud)により構成される。従ってサーバ装置4からクライアント装置3への配信データ量は、膨大になってしまう。また、レンダリング処理を実行するために、クライアント装置3には、かなり高い処理能力が求められる。
[Advantages of server-side rendering system]
Another delivery system for 6DoF video as illustrated in FIG. 2 is a client-side rendering system.
In the client-side rendering system, the
In the client-side rendering system, it is necessary to deliver 3D space data (3D space description data and 3D object data) from the
The three-dimensional object data is composed of mesh data or point cloud data. Therefore, the amount of data distributed from the
これに対して、本実施形態に係るサーバサイドレンダリングシステム1では、レンダリング後のレンダリング映像8がクライアント装置3に配信される。これにより、配信データ量を十分に抑えることが可能となる。すなわち少ない配信データ量にて、ユーザ5に対して、膨大な3次元オブジェクトデータから構成される大空間の6DoF映像を、体験させることが可能となる。
また、クライアント装置3側の処理負荷を、サーバ装置4側にオフロードすることが可能となり、処理能力が低いクライアント装置3が用いられる場合でも、ユーザ5に対して6DoF映像を体験させることが可能となる。
On the other hand, in the server-
In addition, the processing load on the
[応答遅延の問題]
サーバサイドレンダリングシステム1では、ユーザ5の視野情報やレンダリング後のレンダリング映像8が、ネットワーク9を介して送受信される。従って、視点の移動等に応じたレンダリング映像8の表示に関して、応答遅延が発生する可能性がある。
例えば、ユーザ5が、頭を動かすといった動作により、視野7を変更させる。HMD2により視野情報が取得され、クライアント装置3に送信される。クライアント装置3は、受信した視野情報を、ネットワーク9を介して、サーバ装置4に送信する。
サーバ装置4は、受信したユーザ5の視野情報に基づいて、3次元空間データに対してレンダリング処理を実行し、レンダリング映像8を生成する。生成されたレンダリング映像8はエンコードされて、ネットワーク9を介してクライアント装置3に送信される。
クライアント装置3は、受信したレンダリング映像8をデコードし、HMD2に送信する。HMD2は、受信したレンダリング映像8を、ユーザ5に対して表示する。
このような処理フローを、ユーザ5の視野の変更に応じてリアルタイムで実行するように、サーバサイドレンダリングシステム1が構築される。この場合、ユーザ5が視野を変更させてから、それがHMD2の映像として反映されるまでの遅延が、応答遅延として発生してしまう可能性がある。
なお、この応答遅延を、(Motion-to-Photon Latency:T_m2p)と表現することも可能である。この応答遅延の遅延時間は、人間の知覚限界とされる20msec以下に収めることが望ましいとされている。
[Response delay problem]
In the server-
For example, the
The
The
The server-
Note that this response delay can also be expressed as (Motion-to-Photon Latency: T_m2p). It is desirable that the delay time of this response delay be kept within 20 msec, which is the limit of human perception.
本技術は、上記の応答遅延の問題を解決するために非常に有効な技術となる。以下、本技術が適用されたサーバサイドレンダリングシステム1の実施形態について詳しく説明する。
以下の実施形態では、ユーザ5の視野情報として、Head Motion情報が用いられる場合を例に挙げる。
Head Motion情報は、ユーザ5の頭の位置移動を表現するPosition情報(X、Y、Z)と、ユーザ5の頭の回転移動の動きを表現するOrientation情報(yaw、pitch、roll)とを含む。
Position情報(X、Y、Z)は、仮想空間S上における位置情報に相当し、仮想空間Sに設定されたXYZ座標系の座標値(ワールド座標)により規定される。
Orientation情報(yaw、pitch、roll)は、ユーザ5の頭に設定された互いに直交するロール軸、ピッチ軸、ヨー軸に関するロール角度、ピッチ角度、ヨー角度により規定される。
もちろん、本技術の適用が、ユーザ5の視野情報としてHead Motion情報(X、Y、Z、yaw、pitch、roll)が用いられる場合に限定される訳ではない。視野情報として、他の情報が用いられる場合でも、本技術は適用可能である。
This technique is a very effective technique for solving the above problem of response delay. Hereinafter, an embodiment of the server-
In the following embodiments, a case in which Head Motion information is used as the visual field information of the
The Head Motion information includes Position information (X, Y, Z) representing the positional movement of the head of the
Position information (X, Y, Z) corresponds to position information in the virtual space S and is defined by coordinate values (world coordinates) of the XYZ coordinate system set in the virtual space S.
Orientation information (yaw, pitch, roll) is defined by roll, pitch, and yaw angles with respect to the mutually orthogonal roll, pitch, and yaw axes set on the head of the
Of course, application of the present technology is not limited to the case where Head Motion information (X, Y, Z, yaw, pitch, roll) is used as the user's 5 visual field information. The present technology can be applied even when other information is used as the field-of-view information.
また、以下の実施形態では、サーバサイドレンダリングシステム1により、ユーザ5の視野情報がリアルタイムで取得され、ユーザ5に対してレンダリング映像が表示される。
サーバサイドレンダリングシステム1により、ユーザ5の視野情報が取得される時刻を、「現在時刻」として説明を行う。すなわち、HMD2によりユーザ5の視野情報が取得される時刻を「現在時刻」として説明を行う。
上記したように、「現在時刻」に取得された視野情報がサーバ装置4まで送信され、レンダリング映像8が生成されて、HMD2により表示されるまでに、応答遅延(T_m2p時間分)が発生する可能性がある。
本技術を適用することで、「現在時刻」からの応答遅延の問題を十分に抑制することが可能となり、高品質な仮想映像の配信が実現される。
Further, in the following embodiments, the server-
The time at which the visual field information of the
As described above, the visual field information acquired at the "current time" is transmitted to the
By applying this technology, it is possible to sufficiently suppress the problem of response delays from the "current time", realizing high-quality virtual video distribution.
図4は、本技術の一実施形態に係るサーバサイドレンダリングシステム1の構成例を示す模式図である。
図4に示すサーバサイドレンダリングシステム1は、HMD2と、クライアント装置3と、サーバ装置4とを含む。
HMD2は、ユーザ5の視野情報(Head Motion情報)をリアルタイムで取得することが可能である。上記したように、HMD2によりHead Motion情報が取得される時刻が、現在時刻となる。
HMD2は、所定のフレームレートで、Head Motion情報を取得し、クライアント装置3に送信する。従って、クライアント装置3には、所定のフレームレートで、「現在時刻のHead Motion情報」が、繰り返し送信されることになる。
同様に、クライアント装置3からサーバ装置4にも、所定のフレームレートで「現在時刻のHead Motion情報」が、繰り返し送信される。
FIG. 4 is a schematic diagram showing a configuration example of the server-
A server-
HMD2 can acquire the user's 5 visual field information (Head Motion information) in real time. As described above, the time when the Head Motion information is acquired by the
The
Similarly, the “head motion information at the current time” is repeatedly transmitted from the
Head Motion情報取得のフレームレート(Head Motion情報の取得回数/秒)は、例えば、レンダリング映像8のフレームレートに同期するように設定される。
例えば、レンダリング映像8は、時系列に連続する複数のフレーム画像により構成される。各フレーム画像は、所定のフレームレートで生成される。このレンダリング映像8のフレームレートと同期するように、Head Motion情報取得のフレームレートが設定される。もちろんこれに限定される訳ではない。
また上記したように、ユーザ5に対して、仮想映像を表示するデバイスとして、ARグラスやディスプレイが用いられてもよい。
The frame rate for obtaining Head Motion information (the number of times Head Motion information is obtained/second) is set so as to synchronize with the frame rate of the
For example, the rendered
Also, as described above, AR glasses or a display may be used as a device for displaying virtual images to the
サーバ装置4は、データ入力部11と、Head Motion情報記録部12と、予測部13と、レンダリング部14と、エンコード部15と、通信部16とを有する。またサーバ装置4は、顕著性マップ生成部17と、顕著性マップ記録部18と、認識位置推定部19とを有する。
これらの機能ブロックは、例えばCPUが本技術に係るプログラムを実行することで実現され、本実施形態に係る情報処理方法が実行される。なお各機能ブロックを実現するために、IC(集積回路)等の専用のハードウェアが適宜用いられてもよい。
The
These functional blocks are implemented, for example, by the CPU executing the program according to the present technology, and the information processing method according to the present embodiment is executed. In order to implement each functional block, dedicated hardware such as an IC (integrated circuit) may be used as appropriate.
データ入力部11は、3次元空間データ(シーン記述情報、及び3次元オブジェクトデータ)を読み出し、レンダリング部14に出力する。
なお、3次元空間データは、例えば、サーバ装置4内の記憶部68(図18参照)に格納されている。あるいは、サーバ装置4と通信可能に接続されたコンテンツサーバ等により、3次元空間データが管理されてもよい。この場合、データ入力部11は、コンテンツサーバにアクセスすることで、3次元空間データを取得する。
The
Note that the three-dimensional space data is stored, for example, in the storage unit 68 (see FIG. 18) within the
通信部16は、他のデバイスとの間で、ネットワーク通信や近距離無線通信等を実行するためのモジュールである。例えばWiFi等の無線LANモジュールや、Bluetooth(登録商標)等の通信モジュールが設けられる。
本実施形態では、通信部16により、ネットワーク9を介したクライアント装置3との通信が実現される。
The
In this embodiment, communication with the
Head Motion情報記録部12は、通信部16を介してクライアント装置3から受信した視野情報(Head Motion情報)を記憶部68(図18参照)に記録する。例えば、視野情報(Head Motion情報)を記録するためのバッファ等が構成されてもよい。
所定のフレームレートで送信される「現在時刻のHead Motion情報」が、記憶部68に蓄積されて保持される。
The head motion
The “head motion information at the current time” transmitted at a predetermined frame rate is accumulated and held in the
予測部13は、全天周の顕著性マップ(全天周顕著性マップ)に基づいて、未来の視野情報を予測視野情報として生成する。本実施形態では、ユーザ5の未来のHead Motion情報が予測され、予測Head Motion情報として生成される。
予測Head Motion情報は、未来のPosition情報(X、Y、Z)と、未来のOrientation情報(yaw、pitch、roll)とを含む。すなわち本実施形態では、全天周顕著性マップに基づいて、頭の位置、及び頭の回転角度が予測される。
The
The predicted Head Motion information includes future Position information (X, Y, Z) and future Orientation information (yaw, pitch, roll). That is, in this embodiment, the position of the head and the rotation angle of the head are predicted based on the omnidirectional saliency map.
レンダリング部14は、図3に例示するレンダリング処理を実行する。すなわち、ユーザ5の視野に関する視野情報に基づいて、3次元空間データに対してレンダリング処理を実行することにより、ユーザ5の視野7に応じたレンダリング映像8を生成する。
本実施形態では、レンダリング部14は、予測部13により生成された予測視野情報(予測Head Motion情報)に基づいて、レンダリング映像8を構成するフレーム画像が生成される。以下、予測Head Motion情報に基づいて生成されるフレーム画像を、予測フレーム画像20と記載する。
レンダリング部14は、例えば、仮想空間Sを再現する再現部、レンダラ、レンダリングパラメータを設定するパラメータ設定部等により構成される。レンダリングパラメータとしては、領域ごとの解像度を示す解像度マップ等が挙げられる。
その他、レンダリング部14として、任意の構成が採用されてよい。
The
In this embodiment, the
The
In addition, any configuration may be adopted as the
エンコード部15は、レンダリング映像8(予測フレーム画像20)に対してエンコード処理(圧縮符号化)を実行し、配信データを生成する。配信データは、通信部16を介して、クライアント装置3に送信される。
例えば、エンコード処理は、QPマップ(量子化パラメータ)に基づき、レンダリング映像8(予測フレーム画像20)の各領域に対してリアルタイムに実行される。
より具体的には、本実施形態においては、エンコード部15は、予測フレーム画像20内で量子化精度(QP:Quantization Parameter)を領域ごとに切り替えることにより、予測フレーム画像20内の着目点や重要領域の圧縮による画質劣化を抑えることができる。
このようにすることで、ユーザ5にとって重要な領域については十分な映像の品質を維持しつつ、配信データや処理の負荷を増加させることを抑えることができる。なお、ここでQP値とは、非可逆圧縮効率の際の量子化の刻みを示す値であり、QP値が高いと符号化量が小さくなって、圧縮効率が高くなり、圧縮による画質劣化が進み、一方、QP値が低いと符号化量が大きくなり、圧縮効率が低くなり、圧縮による画質劣化を抑えることができる。
その他、任意の圧縮符号化技術が用いられてよい。
エンコード部15は、例えば、エンコーダ、エンコードパラメータを設定するパラメータ設定部等により構成される。エンコードパラメータとしては、上記したQPマップ等が挙げられる。
例えば、レンダリング部14のパラメータ設定部により設定された解像度マップに基づいて、QPマップが生成される。その他、エンコード部15として、任意の構成が採用されてよい。
The
For example, the encoding process is executed in real time for each area of the rendered video 8 (predicted frame image 20) based on the QP map (quantization parameter).
More specifically, in the present embodiment, the
By doing so, it is possible to suppress an increase in distribution data and processing load while maintaining sufficient video quality for areas important to the
In addition, any compression encoding technique may be used.
The
For example, a QP map is generated based on the resolution map set by the parameter setting section of the
顕著性マップ生成部17は、全天周顕著性マップを生成する。
顕著性マップ生成部17により、ユーザ5が視聴するレンダリング映像(2次元映像データ)8の顕著性を表す視野分の顕著性マップのみならず、ユーザ5の視野7に含まれない視野外領域における顕著性マップも生成される。
視野分の顕著性マップは、人間の視覚的注意の仕組みから、レンダリング映像8の各ピクセルがどれだけ注視を集めやすいかを推定し、定量的に表した情報となる。
視野外領域における顕著性マップは、ユーザ5の視野外領域を2D画像にて表現した場合の各ピクセルの顕著性が算出されたマップとして生成することが可能である。
全天周顕著性マップの生成については、後に詳しく説明する。なお顕著性マップは、サリエンシマップ(Saliency Map)とも呼ばれる。また全天周は、全天球ともいえる。
The
The saliency
The saliency map for the field of view is information that is quantitatively expressed by estimating how easily each pixel of the rendered
The saliency map in the out-of-field region can be generated as a map in which the saliency of each pixel is calculated when the out-of-field region of the
The generation of the omnidirectional saliency map will be described in detail later. A saliency map is also called a saliency map. In addition, the full sky can also be said to be a full celestial sphere.
顕著性マップ記録部18は、顕著性マップ生成部17により生成された全天周顕著性マップを、記憶部68(図18参照)に記録する。例えば、全天周顕著性マップを記録するためのバッファ等が構成されてもよい。
The saliency
認識位置推定部19は、仮想空間Sのユーザ5の視野7に含まれない視野外領域における、ユーザ5が認識している認識対象オブジェクトのユーザ5が認識している認識位置を推定する。
認識対象オブジェクトは、ユーザ5が視聴している6DoFコンテンツ内のオブジェクトのうち、ユーザ5が認識しているだろうと想定されるオブジェクトのことである。
例えば、現在時刻までにユーザ5が視聴したことのあるオブジェクトは、認識対象オブジェクトとして設定される。すなわち、現在時刻までにレンダリング対象となったことがあるオブジェクトは、認識対象オブジェクトとして設定される。
その他、現在時刻までに視聴はされていないが、オブジェクトが発する音をユーザが認識したオブジェクトを、認識対象オブジェクトとして設定してもよい。例えば、オブジェクトが発する音の音量が所定の基準値(閾値)よりも大きい場合には、当該音を発したオブジェクトはユーザ5に認識されたとして、認識対象オブジェクトとして設定されてもよい。この場合、音の種類や内容等が、認識対象オブジェクトとして設定されるか否かの条件として用いられてもよい。
The recognition
A recognition target object is an object that is assumed to be recognized by the
For example, an object that the
In addition, an object that has not been viewed by the current time but whose sound is recognized by the user may be set as a recognition target object. For example, when the volume of a sound emitted by an object is greater than a predetermined reference value (threshold), the object that emitted the sound may be regarded as being recognized by the
認識位置は、図3に示す仮想空間S上のXYZ座標値(ワールド座標)により規定される。ユーザ5が脳内で、認識対象オブジェクトが今ここにいると認識しているであろう位置が、認識位置として推定される。
従って、認識位置は、必ずしも6DoFコンテンツ内で認識対象オブジェクトが実際に存在する位置と一致するとは限らない。
認識位置は、ユーザ5が把握している把握位置ともいえる。
The recognition position is defined by XYZ coordinate values (world coordinates) on the virtual space S shown in FIG. The position where the
Therefore, the recognition position does not necessarily match the position where the recognition target object actually exists in the 6DoF content.
The recognized position can also be said to be a grasped position grasped by the
図5は、認識対象オブジェクト及び認識位置を説明するための模式図である。
図5では、説明を分かりやすくするために、横方向に長い画像にて、仮想空間Sの全天周分の画像SPが表現されている。実際には、全天周画像SPは、正距円筒画像として保存等される場合が多い。
また、以下の説明では、予測されるユーザの視野7を、単にユーザの視野7として説明を行う。また予測フレーム画像20を、フレーム画像20として説明を行う。
FIG. 5 is a schematic diagram for explaining a recognition target object and recognition positions.
In FIG. 5, in order to make the explanation easier to understand, the image SP for the whole sky of the virtual space S is represented by a horizontally elongated image. In practice, the omnidirectional image SP is often stored as an equirectangular image.
Also, in the following description, the user's field of
図5に示すシーンでは、仮想空間S内に、3人の人物P1~P3と、点滅している照明装置Lの各オブジェクトが配置される。その他、木、草、道路、及び建物の各オブジェクトも配置される。
図5Aに示すタイミングにおいて、まずユーザ5の視野7が、右側の人物P1の方に向けられるとする。従って、人物P1を含むフレーム画像20がレンダリングされる。この時点で、人物P1が認識対象オブジェクトとして設定される。そして、人物P1が配置されている仮想空間S上の位置(ワールド座標)が、認識位置として推定される。
このように、認識対象オブジェクトがレンダリングされている2次元映像データ内の認識対象オブジェクトの位置に基づいて、認識位置を推定することが可能である。
In the scene shown in FIG. 5, in a virtual space S, three persons P1 to P3 and each object of a blinking lighting device L are arranged. In addition, tree, grass, road, and building objects are also arranged.
At the timing shown in FIG. 5A, it is assumed that the field of
In this way, it is possible to estimate the recognition position based on the position of the recognition target object in the two-dimensional image data in which the recognition target object is rendered.
図5Aに示すタイミングでは、左側の人物P2及びP3、及び右側の点滅している照明装置Lのオブジェクトは、ユーザ5の視野7に含まれない視野外領域21に配置される。従って、人物P2及びP3、及び照明装置Lはレンダリングされない。この結果、人物P2及びP3、及び照明装置Lは、仮想空間S内に配置はされているが、ユーザ5には認識されていないと判定され、認識対象オブジェクトとしては設定されない。
At the timing shown in FIG. 5A, the persons P2 and P3 on the left side and the object of the blinking illumination device L on the right side are arranged in the outside-of-
図5Bに示すタイミングにおいて、ユーザ5の視野7が左側に向けられたとする。人物P2及びP3がユーザ5の視野7に含まれレンダリングされる。これにより、人物P2及びP3が、認識対象オブジェクトとして設定される。そして、人物P2及びP3が配置されている仮想空間S上の位置(ワールド座標)が、認識位置として推定される。
人物P1は、ユーザ5の視野7から外れて視野外領域21に位置することになるが、過去にレンダリングされたことがあるオブジェクトであるので、認識対象オブジェクトとしての設定は維持される。
照明装置Lはレンダリングされないので、認識対象オブジェクトとしては設定されない。
Assume that the field of
The person P1 is out of the field of
Since lighting device L is not rendered, it is not set as a recognition target object.
図5Cに示すタイミングにおいて、視野外領域21において、人物P1が照明装置Lの方へ移動したとする。この場合、仮想空間S上では、人物P1の位置が移動する。
ここでユーザ5は、人物P1の視野外領域21での移動を認識していないとする。この場合、ユーザ5の脳内では人物P1の認識位置は、実際の人物P1の位置とは一致しない。
認識位置推定部19では、図5Cに示すような認識対象オブジェクトの視野外領域21での移動等に対して、ユーザ5の脳内での認識位置を高精度に推定することが可能である。
Assume that the person P1 moves toward the illumination device L in the outside-of-
Here, it is assumed that the
The recognition
本実施形態において、レンダリング部14は、本技術に係るレンダリング部の一実施形態として機能する。
認識位置推定部19は、本技術に係る推定部の一実施形態として機能する。
顕著性マップ生成部17は、本技術に係る生成部の一実施形態として機能する。
予測部13は、本技術に係る予測部の一実施形態として機能する。
In this embodiment, the
The recognition
The
The
クライアント装置3は、通信部23と、デコード部24と、レンダリング部25とを有する。
これらの機能ブロックは、例えばCPUが本技術に係るプログラムを実行することで実現され、本実施形態に係る情報処理方法が実行される。なお各機能ブロックを実現するために、IC(集積回路)等の専用のハードウェアが適宜用いられてもよい。
The
These functional blocks are implemented, for example, by the CPU executing the program according to the present technology, and the information processing method according to the present embodiment is executed. In order to implement each functional block, dedicated hardware such as an IC (integrated circuit) may be used as appropriate.
通信部23は、他のデバイスとの間で、ネットワーク通信や近距離無線通信等を実行するためのモジュールである。例えばWiFi等の無線LANモジュールや、Bluetooth(登録商標)等の通信モジュールが設けられる。
デコード部24は、配信データに対してデコード処理を実行する。これにより、エンコードされたレンダリング映像8(予測フレーム画像20)がデコードされる。
レンダリング部25は、デコードされたレンダリング映像8(予測フレーム画像20)がHMD2により表示可能なように、レンダリング処理を実行する。
The
The
The
[Head Motion情報の予測精度]
例えば、「現在時刻のHead Motion情報」を受信したサーバ装置4により、応答遅延(T_m2p時間)分未来の予測Head Motion情報が生成される。そして、予測Head Motion情報に基づいて予測フレーム画像20が生成され、HMD2によりユーザ5に対して表示される。
非常に高い精度で予測Head Motion情報を生成できれば、「現在時刻」から応答遅延(T_m2p時間)分未来のユーザ5の視野7に応じたレンダリング映像8を表示することが可能となり、応答遅延の問題は十分に抑制可能である。
[Prediction Accuracy of Head Motion Information]
For example, the
If the predicted Head Motion information can be generated with very high accuracy, it will be possible to display the
本発明者は、予測Head Motion情報の精度を向上させるために、Head Motion予測について考察を重ねた。
まず、Head Motion予測の予測誤差は、頭の動き信号(センサリング結果)の周波数の増加に伴って増大するという傾向が見受けられる。
人間の体の特性上、回転方向への動きは素早い動きの変化(高周波となる動き)が可能だが、前後、上下、左右といった位置移動においては、急な変化を有する高周波な動きはしにくい傾向にある。
そのため、これら2種類の動きのうち、位置移動への動き(X、Y、Z)に対する予測誤差は低く、視聴上の影響は非常に少ない。一方で、回転方向への動き(yaw、pitch、roll)に対する予測誤差が大きくなる傾向にあり、視聴に影響をきたしやすい。すなわち、回転方向の動き(yaw、pitch、roll)に対する予測精度の向上が非常に重要となる。
In order to improve the accuracy of the predicted Head Motion information, the inventor has studied Head Motion prediction.
First, the prediction error of Head Motion prediction tends to increase as the frequency of the head motion signal (sensoring result) increases.
Due to the characteristics of the human body, movements in the rotational direction are capable of rapid changes (movements with high frequency), but in positional movements such as forward/backward, up/down, and left/right, there is a tendency that high-frequency movements with abrupt changes are difficult. It is in.
Therefore, of these two types of motion, the prediction error for motion (X, Y, Z) toward positional movement is low, and the impact on viewing is very small. On the other hand, there is a tendency for the prediction error for motion in the rotational direction (yaw, pitch, roll) to increase, which tends to affect viewing. In other words, it is very important to improve the prediction accuracy for motions in the rotational direction (yaw, pitch, roll).
本発明者は、Head Motion予測、特に回転方向の動き(yaw、pitch、roll)に対する予測精度を向上させるために、全天周顕著性マップに着目した。
高い精度で全天周顕著性マップを生成し、Head Motion予測に用いることで、非常に高い精度で回転方向の動き(yaw、pitch、roll)に対する予測精度を実行することが可能となる。
The present inventor focused on the omnidirectional saliency map in order to improve the accuracy of head motion prediction, especially for motion in the rotational direction (yaw, pitch, roll).
By generating an omnidirectional saliency map with high accuracy and using it for head motion prediction, it is possible to perform prediction accuracy for motion in the rotational direction (yaw, pitch, roll) with extremely high accuracy.
[2次元映像データ(レンダリング映像)の生成動作]
サーバ装置4による全天周顕著性マップを用いたレンダリング映像の生成の動作例を説明する。
図6は、レンダリング映像の生成の一例を示すフローチャートである。
図7は、図6に示すフローチャートを説明するための図であり、Head Motion情報の取得、予測Head Motion情報の生成、予測フレーム画像20の生成、全天周顕著性マップの生成のタイミングを示す模式図である。
本実施形態では、説明をわかりやすくするために、所定のフレームレートで、クライアント装置3から視野情報が取得され、同じフレームレートにて、予測Head Motion情報、予測フレーム画像20、及び全天周顕著性マップの各々が生成されるものとする。もちろんこのような処理に限定される訳ではない。
図7に示す数字が付された枠は、各処理のフレームを示している。図7では、処理が開始された1フレーム目から25フレームまでが模式的に図示されている。
また各フレームにおいて、四角の図形が図示されているフレームは、左側に記載されているデータが取得/生成されたことを表現している。また、四角の図形の中の数字は、どのフレームに対応するデータであるかを示す数字である。
[Generation operation of two-dimensional video data (rendering video)]
An operation example of generating a rendered image using the omnidirectional saliency map by the
FIG. 6 is a flow chart showing an example of rendering video generation.
FIG. 7 is a diagram for explaining the flowchart shown in FIG. 6, and shows the timing of acquisition of Head Motion information, generation of predicted Head Motion information, generation of predicted
In this embodiment, in order to make the explanation easier to understand, the field of view information is acquired from the
A numbered frame shown in FIG. 7 indicates a frame of each process. FIG. 7 schematically shows the 1st frame to the 25th frame where the processing is started.
In each frame, a frame with a square graphic represents that the data described on the left side has been acquired/generated. Also, the numbers in the square figures indicate which frame the data corresponds to.
まず、「現在時刻」からどれぐらい未来の予測Head Motion情報を生成するかが設定される。
本実施形態では、通信部16により、クライアント装置3とのネットワーク遅延が測定され、ターゲットの予測時間が特定される(ステップ101)。すなわち、応答遅延(T_m2p時間)が測定され、T_m2p時間分が予測時間として特定される。
本実施形態では、「現在時刻」に対応するフレームよりも、所定のフレーム数未来のフレームにおけるHead Motion情報が予測され、予測Head Motion情報として生成される。
所定のフレーム数は、予測時間であるT_m2p時間分に相当するフレーム数が設定される。
例えば、本実施形態では、5フレーム先のHead Motion情報が予測されることとする。例えば10フレーム目において「現在時刻のHead Motion情報」が取得された場合には、5フレーム先となる15フレーム目のHead Motion情報が予測され、予測Head Motion情報として生成される。もちろん、具体的なフレーム数は限定されず任意に設定されてよい。
First, how much future predicted Head Motion information is to be generated from the "current time" is set.
In this embodiment, the
In this embodiment, head motion information in a frame a predetermined number of frames later than the frame corresponding to the "current time" is predicted and generated as predicted head motion information.
As the predetermined number of frames, the number of frames corresponding to T_m2p time, which is the prediction time, is set.
For example, in this embodiment, it is assumed that Head Motion information five frames ahead is predicted. For example, when the "head motion information at the current time" is acquired in the tenth frame, the head motion information of the fifteenth frame, which is five frames ahead, is predicted and generated as predicted head motion information. Of course, the specific number of frames is not limited and may be set arbitrarily.
通信部16により、クライアント装置3から、Head Motion情報が取得される(ステップ102)。図7に示すように1フレーム目から所定のフレームレートでHead Motion情報が取得される。各フレームで取得されるHead Motion情報は、そのフレームに対応するデータとしてそのまま用いられる。
The
予測部13により、Head Motion情報が、Head Motion情報の予測に必要な分溜まったか否か判定される(ステップ103)。
本実施形態では、Head Motion情報の予測に、10フレーム分のHead Motion情報が必要であるとする。もちろん具体的なフレーム数は限定されず任意に設定されてよい。
例えば、1フレームから9フレームまでは、Head Motion情報の予測に必要な分のHead Motion情報が溜まっていないので、ステップ103のNoとなりステップ102に戻る。従って、10フレーム目までは、レンダリング映像8(予測フレーム画像20)の生成は実行されない。
10フレーム目のHead Motion情報が取得されると、Head Motion情報の予測に必要な分のHead Motion情報が溜まったと判定され、ステップ103のYesとなりステップ104に進む。
The
In this embodiment, it is assumed that 10 frames of Head Motion information are required to predict Head Motion information. Of course, the specific number of frames is not limited and may be set arbitrarily.
For example, from the first frame to the ninth frame, the amount of head motion information necessary for predicting the head motion information is not accumulated, so the result in step 103 is No and the process returns to step 102 . Therefore, generation of rendering image 8 (prediction frame image 20) is not executed until the tenth frame.
When the head motion information of the 10th frame is obtained, it is determined that the amount of head motion information required for prediction of the head motion information has accumulated, and the result of step 103 is Yes, and the process proceeds to step 104 .
ステップ104では、予測部13により、ステップ102にて取得された「現在時刻のHead Motion情報」に対応する全天周顕著性マップは生成済みか否か判定される。
本実施形態では、現在時刻までの視野情報(Head Motion情報)の履歴情報と、現在時刻に対応する全天周顕著性マップとを入力として、予測視野情報(予測Head Motion情報)が生成される。
現在時刻に対応する全天周顕著性マップは、過去に生成された全天周顕著性マップとなる。具体的には、過去に予測された予測視野情報(予測Head Motion情報)に基づいて生成された予測フレーム画像20の顕著性を表す視野分の顕著性マップと、過去に予測された予測視野情報(予測Head Motion情報)に基づくユーザ5の視野7(予測された視野)に含まれない視野外領域における顕著性マップを含む全天周顕著性マップである。
At step 104, the
In this embodiment, the historical information of the visual field information (head motion information) up to the current time and the omnidirectional saliency map corresponding to the current time are input, and the predicted visual field information (predicted head motion information) is generated. .
The omnidirectional saliency map corresponding to the current time is the omnidirectional saliency map generated in the past. Specifically, the saliency map for the visual field representing the saliency of the predicted
「現在時刻のHead Motion情報」に対応する全天周顕著性マップは、図7に示す例において、「現在時刻のHead Motion情報」が取得されるフレームに対応する全天周顕著性マップを意味する。
すなわち、Head Motion情報を示す四角の図形の中の数字と、全天周顕著性マップを示す四角の図形の中の数字とが、互いに等しい者同士が、互いに対応する「現在時刻のHead Motion情報」と全天周顕著性マップとのペアとなる。
The omnidirectional saliency map corresponding to the "head motion information at the current time" means the omnidirectional saliency map corresponding to the frame from which the "head motion information at the current time" is acquired in the example shown in FIG. do.
That is, if the numbers in the squares representing the Head Motion information and the numbers in the squares representing the omnidirectional saliency map are equal to each other, the corresponding "current time Head Motion information ” and the omnidirectional saliency map.
例えば、10フレーム目のHead Motion情報が取得された場合、現在時刻に対応するフレームは、10フレーム目となる。ステップ104では、10フレームに対応する全天周顕著性マップ(中に10の数字が記載された四角の図形により表される全天周顕著性マップ)が生成されているか否かが判定される。
図7に示すように、10フレーム目までは、まだ予測Head Motion情報が生成されておらず、予測フレーム画像20も生成されていない。従って、全天周顕著性マップも生成されていないので、ステップ104はNoとなり、ステップ105に進む。
For example, when the Head Motion information of the 10th frame is acquired, the frame corresponding to the current time is the 10th frame. In step 104, it is determined whether or not an omnidirectional saliency map corresponding to 10 frames (a omnidirectional saliency map represented by a square figure with the
As shown in FIG. 7, up to the 10th frame, the predicted Head Motion information has not yet been generated, and the predicted
ステップ105では、予測部13により、現在時刻までの視野情報(Head Motion情報)の履歴情報に基づいて、予測視野情報(予測Head Motion情報)が生成される。
このように、現在時刻に対応するフレームの全天周顕著性マップが生成されていない場合は、現在時刻までのHead Motion情報の履歴情報のみに基づいて、予測Head Motion情報が生成されてもよい。
本実施形態では、フレーム10では、フレーム1からフレーム10までのHead Motion情報の履歴情報に基づいて、5フレーム先の未来の予測Head Motion情報が生成される。従って図7に示すように、10フレーム目では、5フレーム未来の15フレームに対応する予測Head Motion情報が生成される(中に15の数字が記載された四角の図形により表される予測Head Motion情報)。
現在時刻までのHead Motion情報の履歴情報に基づいて予測Head Motion情報を生成するための具体的なアルゴリズムは限定されず、任意のアルゴリズムが用いられてよい。例えば、任意の機械学習アルゴリズムが用いられてもよい。
In step 105, the
In this way, if the omnidirectional saliency map of the frame corresponding to the current time has not been generated, the predicted Head Motion information may be generated based only on the history information of the Head Motion information up to the current time. .
In this embodiment, at
A specific algorithm for generating predicted Head Motion information based on history information of Head Motion information up to the current time is not limited, and any algorithm may be used. For example, any machine learning algorithm may be used.
レンダリング部14により予測Head Motion情報に基づいて、図3に例示するレンダリング処理が実行され、レンダリング映像8(予測フレーム画像20)が生成される(ステップ106)。本実施形態では、5フレーム先の未来の予測Head Motion情報に基づいて、15フレームに対応する予測フレーム画像20が生成される。
The
認識位置推定部19により、視野外領域における認識対象オブジェクトの認識位置が推定される(ステップ107)。本実施形態では、予測視野情報(予測Head Motion情報)に基づくユーザ5の視野7(予測された視野)に含まれない視野外領域において、ユーザ5が認識している認識対象オブジェクトの、ユーザ5が認識している認識位置が推定される。
The recognition
顕著性マップ生成部17により、予測フレーム画像20、及び推定された認識位置に基づいて、15フレームに対応する全天周顕著性マップが生成される(ステップ108)。
生成された全天周顕著性マップは、顕著性マップ記録部18によりに記録されて保持される。図7に例示するように、10フレーム目では、15フレームに対応する全天周顕著性マップが記録される。
The
The generated omnidirectional saliency map is recorded and held by the saliency
このように本実施形態では、図7に示すように、「現在時刻」に対応するフレームにおいて、5フレーム先のフレーム画像が予測フレーム画像20として生成される。また「現在時刻」に対応するフレームにおいて、5フレーム先の全天周顕著性マップが生成される。
本開示では、「現在時刻」に生成されたフレーム画像、すなわち「現在時刻」に対応するフレームで生成されたフレーム画像を、「現在時刻のフレーム画像」とする。従って本実施形態では、「現在時刻」に対応するフレームで生成された未来の予測フレーム画像20が、「現在時刻のフレーム画像」に相当する。
一方で、「現在時刻に対応するフレーム画像(予測フレーム画像)」は、5フレーム分過去に生成されたフレーム画像(予測フレーム画像)が相当する。
Thus, in this embodiment, as shown in FIG. 7, a frame image five frames ahead is generated as the predicted
In the present disclosure, a frame image generated at the "current time", that is, a frame image generated in a frame corresponding to the "current time" is referred to as a "frame image at the current time". Therefore, in this embodiment, the future predicted
On the other hand, the “frame image (predicted frame image) corresponding to the current time” corresponds to a frame image (predicted frame image) generated five frames in the past.
エンコード部15により、予測フレーム画像20がエンコードされる。また通信部16により、エンコードされた予測フレーム画像20が、クライアント装置3に送信される(ステップ109)。
10フレーム目に生成された予測フレーム画像20は、6DoF映像コンテンツの1フレーム目として、クライアント装置3を介してHMD2に送信され、ユーザ5に対して表示される。これにより、応答遅延の影響が十分に抑えられた仮想映像の配信が開始される。
レンダリング部14により、全てのフレーム画像に対する処理が完了したか否かが判定される(ステップ110)。ここでは、図7に例示するように、フレーム25まで処理が実行されるとする。
従って、ステップ110はNoとなり、ステップ102に戻る。
The
The predicted
The
Therefore, step 110 becomes No and the process returns to step 102 .
図7に示すフレーム11からフレーム14までは、ステップ104はNoとなり、ステップ105からステップ106に進む処理フローが実行される。
フレーム15になると、取得された「現在時刻のHead Motion情報」に対応する全天周顕著性マップとして、過去のフレーム10で生成されたフレーム15に対応する全天周顕著性マップが存在する。従って、ステップ104はYesとなり、ステップ111に進む。
From
At
ステップ111では、現在時刻までの視野情報(Head Motion情報)の履歴情報と、現在時刻に対応する全天周顕著性マップとを入力として、未来のHead Motion情報が予測され、予測Head Motion情報として生成される。
Head Motion情報の履歴情報と、全天周顕著性マップとを入力として予測Head Motion情報を生成するための具体的なアルゴリズムは限定されず、任意のアルゴリズムが用いられてよい。例えば、任意の機械学習アルゴリズムが用いられてもよい。
以後、フレーム25まで、ステップ104はYesとなり、全天周顕著性マップが用いられて、高精度の予測Head Motion情報が生成される。
全てのフレーム画像に対する処理が完了した場合、ステップ109はYesとなり、映像生成と配信処理とが終了する。
In step 111, the history information of the visual field information (Head Motion information) up to the current time and the omnidirectional saliency map corresponding to the current time are input, and future Head Motion information is predicted as predicted Head Motion information. generated.
A specific algorithm for generating predicted Head Motion information by inputting historical information of Head Motion information and an omnidirectional saliency map is not limited, and any algorithm may be used. For example, any machine learning algorithm may be used.
From then on, until
If processing for all frame images is completed, step 109 becomes Yes, and video generation and distribution processing are completed.
[全天周顕著性マップの生成に関する考察]
本発明者は、全天周顕著性マップの生成について考察を重ねた。
人間の視覚的注意には、物体を認識する前の、視覚刺激による外発的な注意(ボトムアップ注意)と、物体認識後の、物体に対する興味や関心による内発的な注意(トップダウン注意)とがある。顕著性というキーワードは、ボトムアップ注意にも、トップダウン注意においても用いられる。
[Discussion on generation of omnidirectional saliency map]
The inventor of the present invention has repeatedly considered the generation of the omnidirectional saliency map.
Human visual attention consists of extrinsic attention due to visual stimuli before recognizing an object (bottom-up attention) and intrinsic attention due to curiosity and curiosity about an object after recognizing an object (top-down attention). ). The keyword salience is used in both bottom-up and top-down attention.
ボトムアップ注意に基づく顕著性マップの生成例としては、人間が物体を認識する前の、視覚刺激による外発的な注意(ボトムアップ注意)を誘引する輝度、色、方向、運動方向、奥行きなどの各特徴量を入力映像(2D画像)から抽出する。各特徴量を示す値が周囲と大きく異なる領域に高い顕著度を割り当てるように、各特徴マップを計算し、それらを統合することで、最終的な顕著性マップを生成する。 Examples of generating saliency maps based on bottom-up attention include brightness, color, direction, direction of movement, depth, etc. that induce extrinsic attention (bottom-up attention) by visual stimuli before humans recognize objects. are extracted from the input video (2D image). A final saliency map is generated by calculating each feature map so as to assign a high saliency to an area in which the value indicating each feature value is significantly different from the surroundings, and integrating them.
図8は、本システムにより実行可能なボトムアップ注意に基づく顕著性マップの生成例を示す模式図である。
図8に示す例では、予測フレーム画像20が入力フレームとして入力される。
予測フレーム画像20に対して、特徴量抽出処理が実行され、ボトムアップ注意を誘引する輝度、色、方向の各特徴量が抽出される。なお、特徴量抽出のために、前フレームの予測フレーム画像20等が用いられてもよい。
輝度、色、方向の各特徴量に対して、特徴量が輝度に変換された特徴画像が生成され、特徴画像のガウシアンピラミッドが生成される。
また、レンダリング部14を構成するレンダラから、レンダリング処理に関するパラメータ(レンダリング情報)として、デプスマップ及び動きベクトルマップ画像が取得される。デプスマップは、レンダリング対象となるオブジェクトまでの距離情報(奥行情報)を含むデータである。動きベクトルマップ画像は、レンダリング対象となるオブジェクトの動き情報を含むデータである。
デプスマップ画像が奥行きの特徴画像として用いられガウシアンピラミッドが生成される。また動きベクトルマップ画像が運動方向の特徴画像として用い、ガウシアンピラミッドが生成される。
各特徴量のガウシアンピラミッドに対して、Center-surround差分処理が実行される。これにより、輝度、色、方向、運動方向、奥行きの各特徴量において、特徴マップが生成される。これら各特徴量の特徴マップを統合することで、ボトムアップ注意に基づく顕著性マップ22が生成される。
特徴量抽出処理、ガウシアンピラミッドの生成処理、Center-surround差分処理、各特徴量の特徴マップの統合処理の具体的なアルゴリズムは限定されない。例えば各処理は、周知の技術を用いて実現することが可能である。
FIG. 8 is a schematic diagram illustrating an example of bottom-up attention-based saliency map generation that can be performed by the system.
In the example shown in FIG. 8, a predicted
A feature amount extraction process is performed on the predicted
A feature image is generated by converting the feature amount into luminance for each feature amount of luminance, color, and direction, and a Gaussian pyramid of the feature image is generated.
Also, a depth map and a motion vector map image are acquired as parameters (rendering information) related to rendering processing from the renderer that configures the
A depth map image is used as a depth feature image to generate a Gaussian pyramid. Also, the motion vector map image is used as a motion direction feature image to generate a Gaussian pyramid.
Center-surround difference processing is performed on the Gaussian pyramid of each feature. As a result, a feature map is generated for each feature amount of brightness, color, direction, motion direction, and depth. A
Specific algorithms for feature quantity extraction processing, Gaussian pyramid generation processing, center-surround difference processing, and feature map integration processing for each feature quantity are not limited. For example, each process can be implemented using a well-known technique.
レンダラから取得されるデプスマップ画像は、予測フレーム画像20に対して2D画像解析等を実行することで推定したデプス値ではなく、レンダリング工程で得られた正確な値である。そこで、このデプスマップ画像をレンダラから直接受け取り、「奥行き」の特徴情報として、顕著性マップ22の生成に使用することで、高精度でより的確な顕著性マップ22の生成が可能となる。
レンダラから取得される動きベクトルマップ画像は、予測フレーム画像20に対して2D画像解析等を実行することで推定した値ではなく、レンダリング工程で得られた正確な値である。そこで、このデプスマップ画像をレンダラから直接受け取り、「運動方向」の特徴情報として、顕著性マップ22の生成に使用することで、高精度でより的確な顕著性マップの生成が可能となる。
なお、「輝度」や「色」等の他の特徴量等もレンダリング工程で算出しレンダリング情報として用いることも可能である。
ボトムアップ注意に基づく顕著性マップを生成するためのアルゴリズムは限定されず、他の任意のアルゴリズムが用いられてよい。例えば、任意の機械学習アルゴリズムが用いられてもよい。
例えば、予測フレーム画像20に対して2D画像解析等を実行することで「奥行き」や「運動方向」の特徴情報が取得され、それらが用いられてもよい。
The depth map image obtained from the renderer is not the depth values estimated by performing 2D image analysis or the like on the predicted
The motion vector map image obtained from the renderer is not the values estimated by performing 2D image analysis or the like on the predicted
It should be noted that other feature quantities such as "brightness" and "color" can also be calculated in the rendering process and used as rendering information.
The algorithm for generating a bottom-up attention-based saliency map is not limited and any other algorithm may be used. For example, any machine learning algorithm may be used.
For example, by performing 2D image analysis or the like on the predicted
トップダウン注意は、物体認識後にその意味に基づいた注意として向けられるものであるため、顕著性は物体に与えられる。
例えば、人間の顔といった、一般的に人が興味を引きやすい物体を画像から検出して顕著性を付与する。その他、オブジェクトの種類(アイドル、野球選手、車両等)、6DoFコンテンツにおけるオブジェクトの重要度、ユーザにとってのオブジェクトに対する嗜好度(興味や好みの程度等)等に基づいて、オブジェクトの表示領域に対して顕著性が付与される。
トップダウン注意に基づく顕著性マップを生成するためのアルゴリズムは限定されず、任意のアルゴリズムが用いられてよい。例えば、任意の機械学習アルゴリズムが用いられてもよい。
Saliency is given to objects because top-down attention is directed after object recognition and as attention based on its meaning.
For example, an object such as a human face that is generally likely to attract people's interest is detected from an image and saliency is added. In addition, based on the type of object (idol, baseball player, vehicle, etc.), the importance of the object in 6DoF content, the user's preference for the object (degree of interest or preference, etc.), etc. Salience is given.
The algorithm for generating a top-down attention-based saliency map is not limited and any algorithm may be used. For example, any machine learning algorithm may be used.
また、ボトムアップ注意に基づく顕著性、及びトップダウン注意に基づく顕著性を含む顕著性マップを、まとめて生成することも可能である。例えば、実際に人間の視線データをキャプチャし、それを元に教師データを作成、学習させることで、ボトムアップ注意からトップダウン注意までを含めた顕著性マップを生成可能な機械学習モデルを構築することも可能である。 It is also possible to collectively generate a saliency map including saliency based on bottom-up attention and salience based on top-down attention. For example, by actually capturing human gaze data, creating training data based on it, and making it learn, we build a machine learning model that can generate a saliency map that includes bottom-up attention to top-down attention. is also possible.
[比較例として挙げる全天周顕著性マップの生成方法]
ここで、比較例として挙げる全天周顕著性マップの生成方法について説明する。
仮想空間Sの全体に対してビューポートを一定間隔ごとに変化させながら、ビューポートごとに2D画像をレンダリングする(以下、このレンダリングされた2Dを、ビューポート画像と記載する)。そして、各ビューポート画像に対して、上記したようなボトムアップ注意に基づく顕著性マップやトップダウン注意に基づく顕著性マップを生成し、これらを統合する。
この比較例の全天周顕著性マップは、ユーザ5に対して、全てのビューポート画像の顕著性を表す情報となる。すなわち、ユーザ5にとって、仮想領域S内の全ての領域が視野内になった場合の顕著性を表す情報となる。
[Method of generating an all-dome saliency map as a comparative example]
Here, a method of generating an omnidirectional saliency map will be described as a comparative example.
A 2D image is rendered for each viewport while changing the viewport for the entire virtual space S at regular intervals (hereinafter, this rendered 2D image is referred to as a viewport image). Then, for each viewport image, a saliency map based on bottom-up attention and a saliency map based on top-down attention as described above are generated and integrated.
The omnidirectional saliency map of this comparative example provides the
従って、この比較例の全天周顕著性マップを使用した場合、以下のような問題が発生してしまう可能性が高い。
図9は、比較例の全天周顕著性マップ30の問題を説明するための模式図である。図9では、人物P1~P3により発生されるトップダウン注意に基づく顕著性と、照明装置Lにより発生されるボトムアップ注意に基づく顕著性とが、白色の領域として模式的に図示されている。
Therefore, if the omnidirectional saliency map of this comparative example is used, there is a high possibility that the following problems will occur.
FIG. 9 is a schematic diagram for explaining the problem of the
(1)ボトムアップ注意に起因する顕著性は、ユーザ5の視野外では目に入らないため、視覚刺激はなく実質ゼロに等しい。比較例の全天周顕著性マップ30では、仮想空間S内の全ての領域が視野内になった場合を前提として作成されている。従って比較例の全天周顕著性マップ30をそのまま視野情報の予測に使用すると、視野外にありユーザ5には認識できない顕著性が、視野情報の予測に悪影響を及ぼす。
例えば、図5Aに示すタイミングでは、右側の点滅している照明装置Lはユーザ5に認識されていない。比較例の全天周顕著性マップ30では、図9Aに示すように、点滅している照明装置Lのピクセル領域に対してボトムアップ注意に基づく顕著性が付与されてしまう。この結果、ユーザ5の脳内にはない顕著性が発生してしまい、視野情報の予測に悪影響を及ぼす。
(1) The salience due to bottom-up attention is practically equal to zero with no visual stimulus because it is invisible outside the field of view of the
For example, at the timing shown in FIG. 5A, the
(2)トップダウン注意に起因する顕著性においても、ユーザ5の視野外にあり、まだビューポートで捉えていない(視認していない)オブジェクトに対する顕著性は、その存在すら気づけていないため、実質ゼロに等しい。比較例の全天周顕著性マップ30を使用すると、視野外にありユーザ5には認識できない顕著性が、視野情報の予測に悪影響を及ぼす。
例えば図5Aに示すタイミングでは、左側の人物P2及びP3は、ユーザ5に認識されていない。比較例の全天周顕著性マップ30では、図9Aに示すように、人物P2及びP3に対してトップダウン注意に基づく顕著性が付与されてしまう。この結果、ユーザ5の脳内にはない顕著性が発生してしまい、視野情報の予測に悪影響を及ぼす。
(2) Even in the saliency caused by top-down attention, the saliency of an object that is outside the field of view of the
For example, at the timing shown in FIG. 5A, the persons P2 and P3 on the left side are not recognized by the
(3)またトップダウン注意に起因する顕著性において、過去に視認しているオブジェクトが視野外領域21で移動している場合もあり得る。この場合、ユーザ5は、そのオブジェクトの移動は気づけない。従って、ユーザにとっては、最後にそのオブジェクトを視聴したときに把握した状況に応じた位置に、そのオブジェクトはいるだろうと認識するはずである。
例えば、オブジェクトは静止していた場合には、最後に見た位置にそのオブジェクトはいるだろうと認識すると考えられる。また最後に見たときにオブジェクトが移動中であった場合には、最後に見た位置から移動方向に沿ってある程度進んだ位置にそのオブジェクトはいるだろうと認識すると考えられる。
比較例の全天周顕著性マップ30では、移動中のオブジェクトや移動後のオブジェクトも視野内になった場合を前提としているので、移動中のオブジェクトや移動後のオブジェクトにトップダウン注意に基づく顕著性が付与される。
例えば、最後に見たときにオブジェクトが静止している場合、すなわちその後オブジェクトが移動したことを認識していない場合には、脳内の認識位置(把握位置)と全く異なる位置に顕著性が発生する。
最後に見たときにオブジェクトが移動中であった場合には、脳内でこのあたりにいるだろうという認識位置(把握位置)と、オブジェクトの実際の位置が一致する場合は問題ない。一方で、ユーザが予想している位置と、実際のオブジェクトの位置とが一致する可能性は必ずしも高くないと考えられる。従って、脳内の認識位置(把握位置)と異なる位置に顕著性が発生してしまう可能性が高い。
例えば図5Cに示すタイミングでは、ユーザ5は、人物P1の移動を認識していない。比較例の全天周顕著性マップ30では、図9Bに示すように、照明装置L1の近くで人物P1に対してトップダウン注意に基づく顕著性が付与されてしまう。この結果、ユーザ5の脳内にはない顕著性が発生してしまい、視野情報の予測に悪影響を及ぼす。
このように、比較例の全天周顕著性マップ30では、ビューポート外(視野外)に対する顕著性というものが考慮されていない。そのため、現在のビューポートから、次にどこにビューポートを向けるかのHead Orientation予測に、比較例の全天周顕著性マップ30をそのまま使用すると、予測精度が逆に低下する、もしくは役に立たないなど、予測精度の向上という目的が果たせない。
高い予測精度を実現するためには、実際にユーザ5が視野内・外に対して抱く注意状況を的確に反映できるかどうかが重要となる。
(3) In addition, in terms of salience due to top-down attention, the object visually recognized in the past may be moving in the outside-of-field-of-
For example, if an object were stationary, it would perceive that the object would be where it was last seen. Also, if the object was moving when it was last seen, it is thought that the object would be at a position some distance along the moving direction from the last seen position.
In the
For example, if the object is stationary when last seen, i.e. if the object has not moved since then, salience occurs at a position completely different from the perceived position in the brain (grasp position). do.
If the object was moving when the object was last seen, there is no problem if the perceived position (grasped position) where the object is supposed to be around here in the brain matches the actual position of the object. On the other hand, the possibility that the position expected by the user and the actual position of the object match is not necessarily high. Therefore, there is a high possibility that salience will occur at a position different from the recognition position (grasping position) in the brain.
For example, at the timing shown in FIG. 5C, the
Thus, the
In order to achieve high prediction accuracy, it is important to accurately reflect the actual attention of the
[認識対象オブジェクトの認識位置の推定]
本実施形態では、認識位置推定部19により、認識対象オブジェクトの設定、及び認識対象オブジェクトの認識位置の推定が実行される。これらの処理は、フレームごとに実行される。
以下、認識対象オブジェクトの認識位置の推定の実施例をいくつか説明する。
(実施例1)
レンダリング部14によりレンダリングの対象となったオブジェクトが認識対象オブジェクトとして設定される。
例えば、図5Aに示すタイミングでは、人物P1が認識対象オブジェクトとして設定される。図5Bに示すタイミングでは、人物P1及びP2が認識対象オブジェクトとして設定される。
[Estimation of Recognition Position of Recognition Target Object]
In this embodiment, the recognition
Several examples of estimating the recognition position of the recognition target object will be described below.
(Example 1)
An object to be rendered by the
For example, at the timing shown in FIG. 5A, the person P1 is set as the recognition target object. At the timing shown in FIG. 5B, persons P1 and P2 are set as recognition target objects.
各フレームにおいて、「現在時刻のフレーム画像」(現在時刻に生成される未来の予測フレーム画像20)が生成されるたびに、設定された各認識対象オブジェクトの認識位置が推定される。
「現在時刻のフレーム画像」に含まれる認識対象オブジェクトについては、フレーム画像内の認識対象オブジェクトの位置に対応する仮想空間S内の位置に基づいて、認識位置が推定される。
例えば、図5Aに示すタイミングでは、フレーム画像(予測フレーム画像)20内に人物P1が含まれるので、フレーム画像20内の人物P1の位置に対応する仮想空間S内の位置に基づいて、人物P1の認識位置が推定される。
In each frame, the recognition position of each set recognition target object is estimated each time a "frame image at the current time" (future predicted
For the recognition target object included in the "frame image at the current time", the recognition position is estimated based on the position in the virtual space S corresponding to the position of the recognition target object in the frame image.
For example, at the timing shown in FIG. 5A, the person P1 is included in the frame image (predicted frame image) 20, so based on the position in the virtual space S corresponding to the position of the person P1 in the
フレーム画像20内の人物P1の位置に対応する仮想空間S内の位置は、フレーム画像20をレンダリングする際に、仮想空間S内に配置されている人物P1の位置となる。当該人物P1の位置を、ユーザ5が認識している認識位置として推定する。
もし人物P1が移動中である状態がレンダリングされていた場合、すなわちユーザ5が人物P1が移動していることを認識した場合には、フレーム画像20内の人物P1の位置に対応する仮想空間S内の位置、すなわち仮想空間S内に配置されている人物P1の位置から、移動方向に沿ってシフトした位置が、ユーザ5が認識している認識位置として推定されてもよい。シフト量は、ユーザ5が移動先を予測するだろうと考えられる量が適宜設定されればよい。
ここでは、フレーム画像20内の人物P1の位置に対応する仮想空間S内の位置がそのまま認識位置として推定されるものとする。
The position in the virtual space S corresponding to the position of the person P1 in the
If a state in which the person P1 is moving is rendered, that is, if the
Here, it is assumed that the position in the virtual space S corresponding to the position of the person P1 in the
例えば、図5Bに示すタイミングでは、フレーム画像20内の人物P2及びP3の位置に対応する仮想空間S内の位置が、人物P2及びP3に対して、ユーザ5が認識している認識位置として推定される。
For example, at the timing shown in FIG. 5B, the positions in the virtual space S corresponding to the positions of the persons P2 and P3 in the
「現在時刻のフレーム画像」に含まれない認識対象オブジェクトについては、当該認識対象オブジェクトが含まれる過去の直近のフレーム画像20内の認識対象オブジェクトの位置に対応する仮想空間S内の位置に基づいて、認識位置が推定される。本実施形態では、直近のフレーム画像20内の認識対象オブジェクトの位置に対応する仮想空間S内の位置が、そのまま認識位置として推定される。
なお、過去の直近のフレーム画像は、最後にレンダリングされたフレーム画像ともいえる。
For a recognition target object not included in the "frame image at the current time", based on the position in the virtual space S corresponding to the position of the recognition target object in the most
Note that the most recent frame image in the past can also be said to be the last rendered frame image.
例えば、図5Bに示すタイミングでは、フレーム画像20に人物P1が含まれていない。フレーム画像20に含まれない人物P1については、図5Aに示すタイミングにおけるフレーム画像20の人物P1の位置に対応する仮想空間S内の位置がそのまま認識位置として推定される。
図5Cに示すタイミングでは、視野外領域21にて、人物P1が照明装置Lの方へ移動している。本実施形態では、直近のフレーム画像20、すなわち図5Aに示すタイミングでのフレーム画像20の人物P1の位置に対応する仮想空間S内の位置が認識位置として維持される。
これにより、ユーザ5の脳内にはない顕著性が発生してしまうことを抑制することが可能となり、高い精度で視野情報を予測することが可能となる。
For example, at the timing shown in FIG. 5B, the
At the timing shown in FIG. 5C, the person P1 is moving toward the illumination device L in the out-of-
This makes it possible to suppress the occurrence of salience that is not in the brain of the
例えば、認識対象オブジェクトがレンダリングされるたびに、レンダリングされたフレーム画像20内の認識対象オブジェクトの位置に対応する仮想空間S内の位置を、認識位置として更新して記憶する。これにより、現在時刻のフレーム画像20に含まれない認識対象オブジェクトについては、直近のフレーム画像20内の認識対象オブジェクトの位置に対応する仮想空間S内の位置が認識位置として保持される。このようにフレームごとに認識位置の更新が実行されてもよい。
For example, each time the recognition target object is rendered, the position in the virtual space S corresponding to the position of the recognition target object in the rendered
(実施例2)
ユーザ5は、オブジェクトを視界から外しても、足音や声といったそのオブジェクトから発せられる音を聞きとり、そこからオブジェクトの位置を把握することがある。本実施例2は、そのような場合を想定して考案されている
図10は、本実施例にてシーン記述情報として用いられるシーン記述ファイルで記述される情報の一例を示す模式図である。
本実施例では、6DoFコンテンツを生成する際に、シーン記述ファイルで記述されている各オブジェクト情報に、オブジェクトから発せられる足音や声などのオーディオデータが紐づけて生成される。
レンダラはこの情報を元に、各オブジェクト位置から、紐づけられたオーディオデータが鳴るようにレンダリングするものとする。
(Example 2)
Even if the object is out of sight, the
In this embodiment, when generating 6DoF content, each object information described in the scene description file is associated with audio data such as footsteps and voice emitted from the object.
Based on this information, the renderer renders the associated audio data from each object position.
図10に示す例では、オブジェクト情報として、以下の情報が格納される。
Name…オブジェクトの名前
Position…オブジェクトの位置
Url…3次元オブジェクトデータのアドレス
Audio…オブジェクトから発せられる音のオーディオデータの名前
また図10に示す例では、オブジェクト情報に紐づけられるオーディオデータ情報として、以下の情報が格納される。
Name…オーディオデータの名前
Url…オーディオデータのアドレス
In the example shown in FIG. 10, the following information is stored as object information.
Name...Name of object Position...Position of object Url...Address of 3D object data Audio...Name of audio data of sound emitted from object In the example shown in FIG. information is stored.
Name: Name of audio data Url: Address of audio data
図10に示す例では、かくれんぼのシーンにおいて、「隠れる人1」「隠れる人2」の映像オブジェクト情報に、「声や足音1」「声や足音2」のオーディオデータ情報が紐づけられている。「声や足音1」「声や足音2」のオーディオデータは、例えば鬼の「もういいかい?」という呼びかけに対する「まあだだよ」や「もういいよ」といった返答や、鬼から逃げ回る足音等が挙げられる。
In the example shown in FIG. 10, in a hide-and-seek scene, audio data information of "voice and
認識位置推定部19は、レンダラから、各オブジェクトに対して紐づけられたオーディオデータの有無情報、及び現在の音量情報等を受け取る。そして、ユーザ5が聞きとることが可能であり認識できると判断するための基準とする音量レベルである基準値(閾値)を超えているかどうかによって、ユーザ5が現在、オブジェクトから発せられる音を聞いて認識しているかどうかを判断する。なお基準の音量レベルは、任意に設定されてよい。
紐づけられたオーディオデータがあり、かつ基準とする音量レベルを超えていたとする。この場合、そのオブジェクトの仮想空間S内における現在の位置、すなわち音の仮想空間S内における発生位置が、ユーザ5が認識している認識位置として推定される。
すなわち、本実施例では、「現在時刻のフレーム画像」に含まれない認識対象オブジェクトについて、認識対象オブジェクトが発する音をユーザ5が認識したと判定した場合に、音の仮想空間S内における発生位置が、認識位置として推定される。
The recognition
Assume that there is linked audio data and that the sound volume level exceeds the standard. In this case, the current position of the object within the virtual space S, that is, the position where the sound is generated within the virtual space S is estimated as the recognition position recognized by the
That is, in the present embodiment, when it is determined that the
例えば、図10に示すシーン記述ファイルに基づいて構成されるシーンでは、かくれんぼをしている人たちの声に基づいて、隠れる人たちの認識位置が推定される。例えば、フレーム画像に含まれない「隠れる人1」から「まあだだよ」という声が発せられたとする。その声の音量が基準値を超えている場合には、ユーザ5によりその声が聞こえたと判断され、「隠れる人1」の仮想空間S内における現在の位置が認識位置として推定される。
これにより、ユーザ5の脳内にはない顕著性が発生してしまうことを抑制することが可能となり、高い精度で視野情報を予測することが可能となる。
なお、認識対象オブジェクトから発せられる音が途切れ、聞こえなくなった場合は、最後に聞いた位置、すなわち過去の直近に聞いた位置が、認識位置として維持される。
For example, in a scene constructed based on the scene description file shown in FIG. 10, the recognized positions of people hiding are estimated based on the voices of people playing hide-and-seek. For example, it is assumed that "
This makes it possible to suppress the occurrence of saliency that is not in the brain of the
Note that when the sound emitted from the recognition target object is interrupted and cannot be heard, the last heard position, that is, the most recently heard position in the past, is maintained as the recognition position.
(実施例3)
ユーザ5は現在視聴しているシーンと同様のシーンを過去に視聴したことがある場合、その時の記憶から連想してオブジェクトの位置を把握することがある。本実施例3は、そのような場合を想定して考案されており、現在と同様シーンにおける過去の視聴情報を元に、ユーザ5の脳内の認識位置が推定される。
図11及び図12は、本実施例にてシーン記述情報として用いられるシーン記述ファイルで記述される情報の一例を示す模式図である。
本実施例では、6DoFコンテンツを生成する際に、シーン記述ファイルで記述されている各オブジェクト情報に、各オブジェクトの現在のシーンにおける役割情報と、その役割時の定位置情報(ワールド座標)が格納される。
すなわち、シーン記述ファイルに、認識対象オブジェクトの役割を表す役割情報と、役割に関する定位置(ワールド座標)が格納される。
(Example 3)
If the
11 and 12 are schematic diagrams showing an example of information described in a scene description file used as scene description information in this embodiment.
In this embodiment, when generating 6DoF content, the role information of each object in the current scene and the fixed position information (world coordinates) at the time of the role are stored in each object information described in the scene description file. be done.
That is, the scene description file stores role information representing the role of the object to be recognized and the fixed position (world coordinates) related to the role.
図11及び図12に示す例では、オブジェクト情報として、以下の情報が格納される。
Name…オブジェクトの名前
Position…オブジェクトの位置
Url…3次元オブジェクトデータのアドレス
Role…役割情報
FixedPos…役割に関する定位置情報
In the examples shown in FIGS. 11 and 12, the following information is stored as object information.
Name...Name of object Position...Position of object Url...Address of 3D object data Role...Role information FixedPos...Fixed position information about role
図11及び図12に示す例では、野球のシーンにおいて、「A田A夫」選手、及び「B川B助」選手の攻撃時と、守備時とにおける役割情報と定位置情報とが格納されている。図11は攻撃時おけるシーン記述ファイルであり、図12は守備時におけるシーン記述ファイルである。
攻守が交代するたびに、攻撃時のシーン記述ファイルと、守備時のシーン記述ファイルが、互いに更新される。また攻撃時や守備時において、オブジェクトの役割が変わる場合等には、攻撃時及び守備時の各シーン記述ファイルが更新される。
例えば、攻守交替に応じて図11から図12へシーン記述ファイルが更新される場合には、「A田A夫」選手は、「次打者」の役割から「一塁手」の役割に変わる。「B川B助」選手は、「打者」の役割から「投手」の役割に変わる。
なお、「打者」「次打者」「投手」「一塁手」のFixedPosは、以下の位置に関するワールド座標での位置であるとする。
「打者」…バッターボックス
「次打者」…ネクストバッター
「投手」…ピッチャーマウンド
「一塁手」…一塁の位置
これらFixedPosは、その役割における一般的な位置を示し、実際のオブジェクトの位置を示すPositionとは異なる。
認識位置推定部19は、これらの情報をもとに、ユーザ5が現在と同様のシーンを過去にみたことがあるかどうかの判断を行い、認識位置を推定する。
In the example shown in FIGS. 11 and 12, in a baseball scene, role information and fixed position information are stored for the offensive and defensive players "A Tadashi Ao" and "B Kawa Bsuke". ing. FIG. 11 is a scene description file for attack, and FIG. 12 is a scene description file for defense.
Each time the offense and defense take turns, the attack scene description file and the defense scene description file are updated with each other. Also, when the role of the object changes during attack or defense, each scene description file for attack and defense is updated.
For example, when the scene description file is updated from FIG. 11 to FIG. 12 according to the change of offense and defense, the role of "Ata Ao" changes from the role of "next batter" to the role of "first baseman". "B-gawa Bsuke" changes from the role of "batter" to the role of "pitcher".
The FixedPos of "batter", "next batter", "pitcher", and "first baseman" are assumed to be positions in the world coordinates for the following positions.
"Batter"...Batter's Box "Next Batter"...Next Batter "Pitcher"...Pitcher's Mound "First Baseman"...Position on First Base These FixedPos indicate the general position in the role, and Position and Position indicate the actual object position. is different.
Based on these pieces of information, the recognition
図13及び14は、本実施例3における、認識対象オブジェクトの認識位置の推定について説明するための模式図である。
図13及び14では、仮想空間Sとして野球のスタジアムが構成され、「A田A夫」選手32、及び「B川B助」選手33も、仮想空間S内に配置される。
図中の目の視線の先が、ユーザ5の視野(予測された視野)7に対応し、その視野7の領域のフレーム画像(予測フレーム画像)20が生成される。
13 and 14 are schematic diagrams for explaining the estimation of the recognition position of the recognition target object in the third embodiment.
In FIGS. 13 and 14, a baseball stadium is constructed as the virtual space S, and the
The line of sight of the eye in the drawing corresponds to the field of view (predicted field of view) 7 of the
図13Aにて、まずユーザ5は、「A田A夫」選手32が一塁手をしているシーンを視聴している。つまり、ユーザ5はこの「A田A夫」選手32が守備のシーンでは、一塁にいるということを把握したことになる。もちろん、「A田A夫」選手32は、認識対象オブジェクトとして設定される。
その後、攻守交替により、「A田A夫」選手32が「次打者」となり、ネクストバッターサークルに移動する。図13Bに示すように、ユーザ5は、ネクストバッターサークルに移動する「A田A夫」選手32を目で追って視聴する。
その後、図14Aに示すように、ユーザ5は、「打者」となった「B川B助」選手33の方へ視野7を向け、バッティングを観戦する。この際に、認識対象オブジェクトである「A田A夫」選手32は、視野外領域に存在することになり、フレーム画像20には含まれなくなる。
その後、攻守が交代し、「A田A夫」選手32は「一塁手」として一塁の位置に移動する。一方で、図14Bに示すように、ユーザ5は、観客席に視野7を向けて、応援席での観客の様子を視聴している。「A田A夫」選手32は、ユーザ5の視野外領域において一塁に移動し、ユーザ5はその移動を視聴していない。
ユーザ5は、攻守交替により、「A田A夫」選手32が現在守備に回ったことは把握できる。そして、過去の図13Aにおける視聴の経験により、「A田A夫」選手32が守備の時には、一塁の位置にいることを知っている。従って、ユーザ5の脳内では「A田A夫」選手32は、図13Aにおける視聴と同様に一塁の位置にいるであろうと連想し、脳内位置を更新するということが想定可能である。
認識位置推定部19は、この脳内の更新に合わせて、「A田A夫」選手32の認識位置を、「一塁手」の役割に関連する定位置である「一塁の位置」に推定する。すなわち、図13Aにおける視聴にて現在と同様に「A田A夫」選手32の役割が「一塁手」であるシーンを視聴していること(「A田A夫」選手32をフレーム画像20内にレンダリングしたこと)、及び図14Aにおける視聴から図14Dにおける視聴へのシーンアップデートにより、「A田A夫」選手32の役割が再び「一塁手」になったことに基づいて、「A田A夫」選手32のユーザ5の脳内の認識位置を「一塁の位置」に推定する。
このように本実施例3では、認識対象オブジェクトの過去の視聴時(レンダリング時)のシーンでの役割情報が保持され、現在その認識対象オブジェクトが視野外にある場合、シーンアップデートでそのオブジェクトの役割が更新され、かつその役割の時の視聴経験がある場合、その役割の定位置に認識位置を推定する。
In FIG. 13A, first,
After that, due to the change of offense and defense, the
After that, as shown in FIG. 14A, the
After that, the offense and defense are changed, and the
The
In accordance with this update in the brain, the recognition
As described above, in the third embodiment, the role information of the recognition target object in the scene at the time of viewing (during rendering) in the past is held. is updated and there is a viewing experience during the role, then the recognition position is estimated at the home position of the role.
図14Bにおける視聴において、「A田A夫」選手32は、「現在時刻のフレーム画像」に含まれない所定の役割情報(「一塁手」)が設定された認識対象オブジェクトに相当する。
そして、現在時刻までに、同じ役割情報(「一塁手」)が設定された「A田A夫」選手32がレンダリングされたことがある場合に、役割に関連する定位置(「一塁の位置」)が認識位置として推定される。
これにより、ユーザの脳内にはない顕著性が発生してしまうことを抑制することが可能となり、高い精度で視野情報を予測することが可能となる。
In the viewing in FIG. 14B, the
Then, if the
As a result, it is possible to suppress the occurrence of saliency that is not in the user's brain, and it is possible to predict visual field information with high accuracy.
なお、「A田A夫」選手32の役割が「一塁手」であるシーンを視聴しているのが、過去の他の野球の試合での視聴でもよい。すなわち、現在観戦している試合のみならず、過去に観戦した他の試合で、「A田A夫」選手32の役割が「一塁手」であるシーンが視聴された場合でも、「一塁の位置」が認識位置として推定されてもよい。
すなわち、現在時刻までに、同じ役割情報が設定された認識対象オブジェクトがレンダリングさえされていれば、役割に関連する定位置を認識位置として推定することが可能である。
It should be noted that viewing the scene in which the role of the player ``A Field A''
That is, as long as the recognition target object with the same role information set is rendered by the current time, it is possible to estimate the fixed position related to the role as the recognition position.
過去に、「A田A夫」選手32が定位置である「一塁の位置」にいる状態がレンダリングされた場合に、「一塁の位置」が認識位置として推定可能であってもよい。
すなわち、現在時刻までに同じ役割情報(「一塁手」)が設定された認識対象オブジェクト(「A田A夫」選手32)が役割に関連する定位置(「一塁の位置」)にいる状態がレンダリングされたことがある場合に、役割に関連する定位置(「一塁の位置」)が認識位置として推定されてもよい。
これにより、守備時には「A田A夫」選手32は「一塁の位置」にいるということがユーザにとって確実に把握されている場合に、認識位置の推定が可能となる。一方で、役割情報が設定された認識対象オブジェクトは、ほとんどの場合「定位置」にいることが多いので、「定位置」にいる状態がレンダリングされる可能性が高い。
In the past, when a state in which the player "A Tao A" 32 was at the fixed position "first base position" was rendered, the "first base position" may be estimated as the recognized position.
That is, until the current time, the recognition target object ("A man A" player 32) to whom the same role information ("first baseman") is set is in a fixed position ("first base position") related to the role. A home position associated with the role ("first base position") may be inferred as the perceived position if it has been rendered.
As a result, the recognition position can be estimated when the user surely grasps that the player "A Tao A" 32 is at the "first base position" during defense. On the other hand, most of the recognition target objects for which role information is set are in the "fixed position", so there is a high possibility that the state of being in the "fixed position" will be rendered.
(実施例1)~(実施例3)の処理を統合して、認識対象オブジェクトの認識位置の推定を実行することも可能である。例えば(実施例1)(実施例2)(実施例3)の順番で優先順位をつけて実行する。
まず一番優先度が高い情報は目からの視覚情報によるものとし、(実施例1)を実行する。すなわち、ユーザ5が認識対象オブジェクトを目で認識したと思われる位置を、認識位置として推定する。
ユーザ5が認識対象オブジェクトを視認している場合は、その目で確認した位置がその認識対象オブジェクトの認識位置となる。認識位置推定部19は、ユーザ5が認識対象オブジェクトを視認しているかどうかの判断を、認識対象オブジェクトをフレーム画像(予測フレーム画像)20内にレンダリングしたかどうかで行い、そのレンダリングした時の認識対象オンブジェクトの仮想空間S上の位置を認識位置として推定する。
この場合は、認識位置の推定に他の情報は不要であるため、(実施例2)で使用する音情報や、(実施例3)で使用する役割情報及び定位置情報の取得は行われない。認識対象オブジェクトが視野7から外れた(すなわちレンダリングされなくなった)場合は、(実施例2)で使用する音情報や、(実施例3)で使用する役割情報及び定位置情報が取得される。これらの情報がない場合は、最後に視聴した位置(最後にレンダリングした時の位置)が認識位置として維持される。
It is also possible to integrate the processes of (Example 1) to (Example 3) to estimate the recognition position of the recognition target object. For example, (Example 1), (Example 2), and (Example 3) are prioritized and executed in this order.
First, the information with the highest priority is assumed to be visual information from the eyes, and (Embodiment 1) is executed. That is, the position where the
When the
In this case, since no other information is necessary for estimating the recognition position, the sound information used in (Example 2) and the role information and fixed position information used in (Example 3) are not acquired. . When the object to be recognized is out of the field of view 7 (that is, is no longer rendered), the sound information used in (Example 2) and the role information and fixed position information used in (Example 3) are acquired. In the absence of this information, the last viewed position (last rendered position) is maintained as the perceived position.
次に優先度が高い情報は、その認識対象オブジェクトから発せられる音情報によるものとし、(実施例2)を実行する。すなわち、認識対象オブジェクトに紐づくオーディオデータの有無と、そのオーディオデータの現在の発生状況情報(発生位置や音量情報等)に基づいて、認識位置が推定される。
認識対象オブジェクトが視野から外れ視覚情報がない場合に、オブジェクトを音で認識したと思われる位置が、認識位置として推定される。
The information with the next highest priority is assumed to be sound information emitted from the object to be recognized, and (Embodiment 2) is executed. That is, the recognition position is estimated based on the presence/absence of audio data linked to the recognition target object and the current generation status information (occurrence position, volume information, etc.) of the audio data.
When the object to be recognized is out of the field of view and there is no visual information, the position where the object is supposed to be recognized by sound is estimated as the recognition position.
次に優先度が高い情報として、役割情報及び定位置情報が取得され、(実施例3)が実行される。すなわち、現在と同様のシーンにおけるユーザ5の過去の視聴経験の有無情報と、そのシーンにおける認識対象オブジェクトの定位置情報に基づいて、認識位置が推定される。
視覚情報及び音情報がともに取得されない場合に、現在と同様のシーンの過去の視聴経験から、位置を連想したと思われる位置が、認識位置として推定される。
視覚情報、音情報、役割情報及び定位置情報のいずれの情報もない場合は、ユーザ5はそのオブジェクトの存在に気づいていないため、そのオブジェクトへの注意はゼロとなる(認識対象オブジェクトの設定はなく、認識位置もなし)。
Role information and fixed position information are acquired as information with the next highest priority, and (Example 3) is executed. That is, the recognition position is estimated based on the past viewing experience information of the
When neither visual information nor sound information is acquired, a position that seems to be associated with the position from the past viewing experience of the same scene as the present is estimated as the recognized position.
If there is no visual information, sound information, role information, or positional information, the
図15は、認識対象オブジェクトの認識位置の推定例を示すフローチャートである。図15に示す処理は、(実施例1)~(実施例3)の処理を統合した処理例ともいえる。
シーン内の全ての認識対象オブジェクトに対するレンダリング情報及びシーン情報が取得される(ステップ201)。
レンダリング情報は、認識対象オブジェクトのレンダリングに関する任意の情報を含む。ここでは、レンダリング情報として、現在時刻までの認識対象オブジェクトのレンダリングの履歴情報やフレーム画像20内の認識対象オブジェクトの位置情報等が含まれる。
シーン情報は、認識対象オブジェクトに関するシーン記述情報を含む。例えば、現在時刻までのシーン記述情報の履歴情報等が含まれる。
なおステップ301では、「現在時刻のフレーム画像」に初めてレンダリングされるオブジェクトも認識対象オブジェクトとして設定され、レンダリング情報及びフレーム情報が取得される。
FIG. 15 is a flowchart showing an example of estimating the recognition position of the recognition target object. The process shown in FIG. 15 can also be said to be a process example in which the processes of (Example 1) to (Example 3) are integrated.
Rendering information and scene information for all objects to be recognized in the scene are obtained (step 201).
Rendering information includes any information regarding the rendering of the object to be recognized. Here, the rendering information includes history information of rendering of the recognition target object up to the current time, position information of the recognition target object in the
The scene information includes scene description information about the object to be recognized. For example, it includes history information of scene description information up to the current time.
Note that in step 301, an object that is rendered for the first time in the "frame image at the current time" is also set as a recognition target object, and rendering information and frame information are acquired.
未処理の認識対象オブジェクトがあるか否か判定される(ステップ202)。
未処理の認識対象オブジェクトがある場合(ステップ202のYes)、未処理の認識対象オブジェクトが1つ選択され、ステップ203以下の処理が実行される。
It is determined whether or not there is an unprocessed object to be recognized (step 202).
If there is an unprocessed object to be recognized (Yes in step 202), one unprocessed object to be recognized is selected, and the processing from step 203 onwards is executed.
選択された認識対象オブジェクトは「現在時刻のフレーム画像」内に含まれるか否か(すなわちレンダリングされているか否か)が判定される(ステップ203)。認識対象オブジェクトが「現在時刻のフレーム画像」に含まれる場合(ステップ203のYes)、その認識対象オブジェクトの現在の役割情報が、役割リストに追加される(ステップ204)。
役割リストは、現在時刻までに役割情報が設定された認識対象オブジェクトを視聴したことがある(すなわちレンダリング済みである)場合に、その役割情報が入力されるリストである。認識対象オブジェクトに役割情報が設定されていない場合は、役割リストへの追加は実行されない。役割リストは、役割視聴済リストともいえる。
認識位置が現在の認識対象オブジェクトの位置に推定される(ステップ205)。ここでは、現在の認識対象オブジェクトの位置は、「現在時刻のフレーム画像」の認識対象オブジェクトの位置に対応する仮想空間S内の位置に相当する。「現在時刻のフレーム画像」に初めてレンダリングされるオブジェクトは、このステップ205にて、最初の認識位置が推定される。
現在時刻までに認識位置が推定されている認識対象オブジェクトは、認識位置が更新される。もちろん、過去に推定された認識位置と同じ結果となる場合もあり得る。
この認識対象オブジェクトの認識位置の推定は完了し、ステップ202に戻る。
It is determined whether or not the selected object to be recognized is included in the "frame image at the current time" (that is, whether or not it has been rendered) (step 203). If the recognition target object is included in the "frame image at the current time" (Yes in step 203), the current role information of the recognition target object is added to the role list (step 204).
The role list is a list to which the role information is input when the recognition target object for which the role information is set has been viewed (that is, rendered) by the current time. If no role information is set for the object to be recognized, addition to the role list is not executed. The role list can also be said to be a role watched list.
A recognition position is estimated to the position of the current object to be recognized (step 205). Here, the current position of the object to be recognized corresponds to the position in the virtual space S corresponding to the position of the object to be recognized in the "frame image at the current time". For an object that is rendered for the first time in the "frame image at the current time", the initial recognition position is estimated in step 205 .
The recognition positions of the recognition target objects whose recognition positions have been estimated by the current time are updated. Of course, there may be cases where the result is the same as the recognition position estimated in the past.
The estimation of the recognition position of this recognition target object is completed, and the process returns to step 202 .
認識対象オブジェクトが「現在時刻のフレーム画像」内に含まれない場合(ステップ203のNo)、その認識対象オブジェクトにオーディオデータが紐づいていて、かつ現在のレンダリング時の音量は基準値を超えているか否かが判定される(ステップ206)。
ステップ206が肯定の場合(ステップ206のYes)、その認識対象オブジェクトの現在の役割(役割情報)が、役割リストに追加される(ステップ204)。
このように本実施形態では、現在時刻までに、同じ役割情報が設定された認識対象オブジェクトが発する音をユーザ5が認識したと判定した場合でも、同じ役割情報が設定された認識対象オブジェクトがレンダリングされた場合と同様に、役割リストへ役割の追加が実行される。
認識位置が現在の認識対象オブジェクトの位置に推定される(ステップ205)。ここでは、現在の認識対象オブジェクトの位置は、認識対象オブジェクトから発せられる音の仮想空間S内における発生位置に相当する。現在時刻までに推定位置が推定されている認識対象オブジェクトは、認識位置が更新される。
この認識対象オブジェクトの認識位置の推定は完了し、ステップ202に戻る。
If the object to be recognized is not included in the "frame image at the current time" (No in step 203), audio data is associated with the object to be recognized and the sound volume at the time of current rendering exceeds the reference value. It is determined whether there is (step 206).
If step 206 is affirmative (Yes in step 206), the current role (role information) of the recognized object is added to the role list (step 204).
As described above, in the present embodiment, even if it is determined that the
A recognition position is estimated to the position of the current object to be recognized (step 205). Here, the current position of the recognition target object corresponds to the position in the virtual space S where the sound emitted from the recognition target object is generated. The recognition positions of the recognition target objects whose estimated positions have been estimated by the current time are updated.
The estimation of the recognition position of this recognition target object is completed, and the process returns to step 202 .
ステップ206が否定の場合(ステップ206のNo)、認識対象オブジェクトの現在の役割は、最後に認識位置を更新した時から変わったか否か判定される(ステップ207)。
現在の役割が、最後に認識位置を更新したときから変わっていない場合(ステップ207のNo)、認識位置は更新されない(すなわち認識位置は変更なし)。そして、ステップ202に戻る。
If step 206 is negative (No in step 206), it is determined whether the current role of the object to be recognized has changed since the last time the recognition position was updated (step 207).
If the current role has not changed since the last time the recognized position was updated (No in step 207), the recognized position is not updated (ie, the recognized position has not changed). Then, return to step 202 .
現在の役割が、最後に認識位置を更新したときから変わっている場合(ステップ207のYes)、認識対象オブジェクトの現在の役割のシーンを過去にユーザ5が視聴しているか否かが判定される(ステップ208)。
ステップ208の判定は、役割リストに、認識対象オブジェクトの現在の役割情報が入力されているかを参照することで実行される。役割リストに認識対象オブジェクトの現在の役割情報が入力されている場合、ステップ208は肯定となる。役割リストに認識対象オブジェクトの現在の役割情報が入力されていない場合、ステップ208は否定となる。
If the current role has changed since the last time the recognition position was updated (Yes in step 207), it is determined whether or not the
The determination of step 208 is performed by referring to whether the current role information of the object to be recognized is entered in the role list. If the role list is populated with the current role information of the object to be recognized, step 208 is affirmative. If the role list is not populated with current role information for the object to be recognized, step 208 is negative.
認識対象オブジェクトの現在の役割のシーンを過去にユーザ5が視聴していない場合(ステップ208のNo)、認識位置は更新されない(すなわち認識位置は変更なし)。そして、ステップ202に戻る。
認識対象オブジェクトの現在の役割のシーンを過去にユーザ5が視聴している場合(ステップ208のYes)、認識位置が現在の認識対象オブジェクトの位置に推定される(ステップ209)。
ここでは、現在の認識対象オブジェクトの位置は、役割に関連する定位置に相当する。現在時刻までに過去のフレームにて、推定位置が推定されている認識対象オブジェクトは、認識位置が更新される。
この認識対象オブジェクトの認識位置の推定は完了し、ステップ202に戻る。
If the
If the
Here, the position of the current object to be recognized corresponds to the home position associated with the role. The recognition positions of the recognition target objects whose estimated positions have been estimated in past frames by the current time are updated.
The estimation of the recognition position of this recognition target object is completed, and the process returns to step 202 .
未処理の認識対象オブジェクトがない場合(ステップ202のNo)、全ての認識対象オブジェクトの認識位置の推定処理は終了する(ステップ210)。
図15に示すように、視覚情報、現在の音情報、過去の視聴情報を用いることで、高い精度で、認識対象オブジェクトの認識位置を推定することが可能となる。
If there is no unprocessed recognition target object (No in step 202), the process of estimating the recognition positions of all recognition target objects ends (step 210).
As shown in FIG. 15, by using visual information, current sound information, and past viewing information, it is possible to estimate the recognition position of the recognition target object with high accuracy.
なお、図15に示す推定例では、「現在時刻のフレーム画像」に含まれない所定の役割情報が設定された認識対象オブジェクトについて、現在時刻までに、同じ役割情報が設定された認識対象オブジェクトが発する音をユーザ5が認識したと判定した場合に、役割に関連する定位置が認識位置として推定された。
これに代えて、現在時刻までに同じ役割情報が設定された認識対象オブジェクトが役割に関連する定位置にいる状態で発した音をユーザ5が認識したと判定した場合に、役割に関連する定位置が認識位置として推定されてもよい。
In the estimation example shown in FIG. 15, for recognition target objects set with predetermined role information not included in the "frame image at the current time", there are no recognition target objects set with the same role information by the current time. When it was determined that the
Alternatively, if it is determined that the
[全天周顕著性マップの生成]
顕著性マップ生成部17による全天周顕著性マップの生成について説明する。
図16は、全天周顕著性マップの生成例を示すフローチャートである。
まずステップ301では、「現在時刻のフレーム画像」に基づいて、視野分の顕著性マップが生成される。本実施形態では、視野分の顕著性マップとして、ボトムアップ注意に基づく顕著性、及びトップダウン注意に基づく顕著性の両方を含む顕著性マップが生成される。
例えば、ボトムアップ注意に基づく顕著性及びトップダウン注意に基づく顕著性の各々が別に検出され、これらを足し合わせることで、最終的なビューポート画像に対応した視野分の顕著性マップが生成される。
また同じステップ301にて、空の全天周顕著性マップ(本実施形態では、全ピクセルが値ゼロとなる正距円筒画像)が用意され、その中のビューポートに対応する箇所に、視野分の顕著性マップが貼り付けられる。
これにより、視野外領域において、ボトムアップ注意に基づく顕著性を発生することがないように全天周顕著性マップを生成することが可能となる。すなわち視野外領域においてボトムアップ注意に基づく顕著性がゼロとなる全天周顕著性マップを生成することが可能となる。この結果、不要な顕著性を発生させないようにすることが可能となり、上記した課題ポイント(1)を解決することが可能となる。
なお、視野外領域において、ボトムアップ注意に基づく顕著性の発生を回避する方法として、他の任意の方法が用いられてよい。例えば、一度全天周分の顕著性マップ(ボトムアップ注意に基づく顕著性及びトップダウン注意に基づく顕著性の両方を含む)を生成した後に、視野外領域の部分をマスクするやり方が採用されてもよい。
一方で、本実施形態のように、空の全天周顕著性マップの視野領域に視野分の顕著性マップを貼り付ける方法によれば、処理負荷を軽減することが可能であり、処理時間の短縮も図ることが可能となる。
[Generation of omnidirectional saliency map]
Generation of the omnidirectional saliency map by the saliency
FIG. 16 is a flowchart illustrating an example of generating an omnidirectional saliency map.
First, in step 301, a saliency map for the visual field is generated based on the "frame image at the current time". In this embodiment, a saliency map including both saliency based on bottom-up attention and saliency based on top-down attention is generated as a saliency map for the field of view.
For example, saliency based on bottom-up attention and saliency based on top-down attention are each detected separately and added together to generate a saliency map for the field of view corresponding to the final viewport image. .
Also, in the same step 301, a sky omnidirectional saliency map (in this embodiment, an equirectangular image in which all pixels have a value of zero) is prepared, and a field segment saliency map is pasted.
This makes it possible to generate an omnidirectional saliency map so as not to generate saliency based on bottom-up attention in the out-of-field area. That is, it is possible to generate an omnidirectional saliency map in which the saliency based on bottom-up attention is zero in the out-of-field area. As a result, it is possible to prevent unnecessary saliency from occurring, and it is possible to solve the problem point (1) described above.
Any other method may be used as a method for avoiding occurrence of salience based on bottom-up attention in the out-of-field area. For example, once a saliency map for the whole sky (including both bottom-up attention-based saliency and top-down attention-based saliency) is generated, a method of masking the area outside the field of view is adopted. good too.
On the other hand, according to the method of pasting the saliency map for the field of view in the field of view area of the omnidirectional saliency map of the sky, as in the present embodiment, it is possible to reduce the processing load and shorten the processing time. It is also possible to shorten the length.
認識位置推定部19により推定された視野外領域の全ての認識対象オブジェクトの認識位置が取得される(ステップ302)。
未処理の視野外領域における認識対象オブジェクト(以下、視野外オブジェクトと記載する)があるか否か判定される(ステップ303)。
未処理の視野外オブジェクトがある場合(ステップ303のYes)、未処理の視野外オブジェクトが1つ選択され、ステップ304の処理が実行される。
The recognition positions of all the recognition target objects in the out-of-field region estimated by the recognition
It is determined whether or not there is an object to be recognized (hereinafter referred to as an out-of-field object) in an unprocessed out-of-field area (step 303).
If there is an unprocessed out-of-view object (Yes in step 303), one unprocessed out-of-view object is selected, and the process of step 304 is executed.
ステップ304では、視野外オブジェクトの仮想空間S上の認識位置に基づいて、視野外オブジェクトの全天周顕著性マップ内の位置(2Dマップ上の位置)が算出される。算出された位置に、視野外オブジェクトにより発生されるトップダウンに基づく顕著性が配置される。
視野外オブジェクトは、過去にレンダリングされたことがあるオブジェクトである。従って、視野外オブジェクトは、過去にステップ301にて、トップダウン注意に基づく顕著性が検出されている。例えば、オブジェクトの形状に沿った各ピクセルの顕著性の値が検出される。
本実施形態では、ステップ301で検出された認識対象オブジェクトに対するトップダウン注意に基づく顕著性が保持される。そして、ステップ304にて、保持されているトップダウン注意に基づく顕著性(形状と値)が再利用され、全天周顕著性マップ上に配置される。
この視野外オブジェクトのトップダウン注意に基づく顕著性の、認識位置に基づく配置は完了し、ステップ303に戻る。
In step 304, the position of the out-of-field object in the omnidirectional saliency map (position on the 2D map) is calculated based on the recognized position in the virtual space S of the out-of-field object. Top-down saliency generated by out-of-view objects is placed at the calculated positions.
Out-of-view objects are objects that have been rendered in the past. Therefore, out-of-view objects have previously been saliency detected in step 301 based on top-down attention. For example, the saliency value of each pixel along the shape of the object is detected.
In this embodiment, top-down attention-based salience for the recognized objects detected in step 301 is preserved. Then, at step 304, the retained top-down attention-based saliency (shape and value) is reused and placed on the omnidirectional saliency map.
This top-down attention-based saliency-based placement of out-of-view objects is complete and the process returns to step 303 .
なお、ステップ304にて、一度全天周全体の顕著性マップ(トップダウン注意)を生成した後に、視野外領域の顕著性の発生位置を、推定された認識位置に合わせて調整する方法が採用されてもよい。
一方で、本実施形態のように、ステップ101で検出されたトップダウン注意に基づく顕著性を再利用することで、レンダリング処理がビューポートのみで済み、処理負荷の低減を図ることが可能となる。また処理時間の短縮も図れる。
In step 304, a method of generating a saliency map (top-down caution) for the entire omnidirectional area once and then adjusting the saliency occurrence position in the out-of-field region in accordance with the estimated recognition position is adopted. may be
On the other hand, by reusing the saliency based on the top-down attention detected in step 101 as in the present embodiment, the rendering process can be done only in the viewport, and the processing load can be reduced. . Also, the processing time can be shortened.
未処理の視野外オブジェクトがない場合(ステップ302のNo)、視野外オブジェクトのトップダウン注意に基づく顕著性を、認識位置に基づいて発生させるようにした全天周顕著性マップの生成処理は終了する。 If there is no unprocessed out-of-view object (No in step 302), the generation process of the omnidirectional saliency map in which top-down attention-based saliency of the out-of-view object is generated based on the recognition position ends. do.
ユーザ5が脳内で認識している認識位置にて、トップダウン注意に基づく顕著性を発生させる。すなわち、視野外領域おける認識対象オブジェクトの認識位置に基づいて、視野外領域におけるトップダウン注意に基づく顕著性を表す顕著性マップを生成する。
これにより、脳内の認識位置とは異なる位置からの不要な顕著性の発生を防止することが可能となり、上記の課題ポイント(2)及び(3)を解決することが可能となる。
Top-down attention-based saliency is generated at the recognition position that the
This makes it possible to prevent unnecessary salience from being generated from a position different from the recognition position in the brain, and to solve the above problems (2) and (3).
図17は、本実施形態により生成される全天周顕著性マップの一例を示す模式的な図である。図17Aは、図5Aに示すタイミングにおいて生成される全天周顕著性マップ35の一例である。図17Bは、図5Cに示すタイミングにおいて生成される全天周顕著性マップ35の一例である。
図17Aに示すように、図5Aに示すタイミングにおいて生成される全天周顕著性マップ35では、ユーザ5が認識している人物P1のみのトップダウン注意に基づく顕著性が発生している。ユーザ5に認識されていない照明装置Lのボトムアップ注意に基づく顕著性は発生しない。またユーザ5に認識されていない人物P1及びP2のトップダウン注意に基づく顕著性も発生しない。
また、図17Bに示すように、人物P1の移動を認識していないユーザ5に対して、移動前の人物P1の位置に、人物P1のトップダウン注意に基づく顕著性が発生している。またユーザ5に認識されていない照明装置Lのボトムアップ注意に基づく顕著性は発生しない。
このように、本実施形態により生成される全天周顕著性マップ35では、ユーザ5の脳内にない顕著性が発生することが回避されており、高精度の全天周顕著性マップとなっている。
FIG. 17 is a schematic diagram showing an example of the omnidirectional saliency map generated by this embodiment. FIG. 17A is an example of the
As shown in FIG. 17A, in the
In addition, as shown in FIG. 17B, for the
As described above, the
以上、本実施形態に係るサーバサイドレンダリングシステム1では、視野外領域21における認識対象オブジェクトの認識位置が推定される。推定された認識位置に基づいて、視野外領域21における顕著性マップを含む、全天周顕著性マップ35が生成される。
これにより、その時々の視聴状況に応じた、ユーザ5の視野外に対する注意を全天周顕著性マップ35に反映することが可能となる。この結果、高精度の全天周顕著性マップ35を生成することが可能となる。
高精度で的確な全天周顕著性マップ35が生成されるので、非常に高い精度で予測Head Motion情報(特にOrientation情報)を生成することが可能となり、応答遅延(T_m2p時間)の問題を十分に抑制することが可能となる。すなわち、全天周顕著性マップ35を用いて高品質な仮想映像の配信を実現することが可能となる。
なお、本実施形態にて生成される高精度の全天周顕著性マップ35を、他の用途に用いることも可能である。
As described above, in the server-
This makes it possible to reflect the attention of the
Since a highly accurate and accurate
The highly accurate
<その他の実施形態>
本技術は、以上説明した実施形態に限定されず、他の種々の実施形態を実現することができる。
<Other embodiments>
The present technology is not limited to the embodiments described above, and various other embodiments can be implemented.
上記では、仮想画像として、6DoF映像が配信される場合を例に挙げた。これに限定されず、3DoF映像や2D映像等が配信される場合にも、本技術は適用可能である。また仮想画像として、VR映像ではなく、AR映像等が配信されてもよい。
また、3D映像を視聴するためのステレオ映像(例えば右目画像及び左目画像等)についても、本技術は適用可能である。
本技術は、視野外領域が発生し得る任意の仮想空間を表示するコンテンツに対して適用可能である。また視野外領域の顕著性マップとして、仮想空間全体の領域の顕著性マップに限定されず、視野外領域となる仮想空間の一部の領域の顕著性マップが生成されてもよい。
In the above, the case where 6DoF video is distributed as the virtual image is taken as an example. The present technology is not limited to this, and can be applied when 3DoF video, 2D video, or the like is distributed. Also, as the virtual image, instead of the VR video, an AR video or the like may be distributed.
In addition, the present technology can also be applied to stereo images (for example, right-eye images and left-eye images) for viewing 3D images.
The present technology is applicable to content displaying any virtual space in which an out-of-view area may occur. Further, the saliency map of the out-of-view area is not limited to the saliency map of the entire area of the virtual space, and a saliency map of a partial area of the virtual space that is the out-of-view area may be generated.
図18は、サーバ装置4及びクライアント装置3を実現可能なコンピュータ(情報処理装置)60のハードウェア構成例を示すブロック図である。
コンピュータ60は、CPU61、ROM(Read Only Memory)62、RAM63、入出力インタフェース65、及びこれらを互いに接続するバス64を備える。入出力インタフェース65には、表示部66、入力部67、記憶部68、通信部69、及びドライブ部70等が接続される。
表示部66は、例えば液晶、EL等を用いた表示デバイスである。入力部67は、例えばキーボード、ポインティングデバイス、タッチパネル、その他の操作装置である。入力部67がタッチパネルを含む場合、そのタッチパネルは表示部66と一体となり得る。
記憶部68は、不揮発性の記憶デバイスであり、例えばHDD、フラッシュメモリ、その他の固体メモリである。ドライブ部70は、例えば光学記録媒体、磁気記録テープ等、リムーバブルの記録媒体71を駆動することが可能なデバイスである。
通信部69は、LAN、WAN等に接続可能な、他のデバイスと通信するためのモデム、ルータ、その他の通信機器である。通信部69は、有線及び無線のどちらを利用して通信するものであってもよい。通信部69は、コンピュータ60とは別体で使用される場合が多い。
上記のようなハードウェア構成を有するコンピュータ60による情報処理は、記憶部68またはROM62等に記憶されたソフトウェアと、コンピュータ60のハードウェア資源との協働により実現される。具体的には、ROM62等に記憶された、ソフトウェアを構成するプログラムをRAM63にロードして実行することにより、本技術に係る情報処理方法が実現される。
プログラムは、例えば記録媒体61を介してコンピュータ60にインストールされる。あるいは、グローバルネットワーク等を介してプログラムがコンピュータ60にインストールされてもよい。その他、コンピュータ読み取り可能な非一過性の任意の記憶媒体が用いられてよい。
FIG. 18 is a block diagram showing a hardware configuration example of a computer (information processing device) 60 that can implement the
The
The
The
The
Information processing by the
The program is installed in the
ネットワーク等を介して通信可能に接続された複数のコンピュータが協働することで、本技術に係る情報処理方法及びプログラムが実行され、本技術に係る情報処理装置が構築されてもよい。
すなわち本技術に係る情報処理方法、及びプログラムは、単体のコンピュータにより構成されたコンピュータシステムのみならず、複数のコンピュータが連動して動作するコンピュータシステムにおいても実行可能である。
なお本開示において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、すべての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、及び、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれもシステムである。
コンピュータシステムによる本技術に係る情報処理方法、及びプログラムの実行は、例えば視野情報の取得、レンダリング処理の実行、認識対象オブジェクトの設定、認識位置の推定、全天周顕著性マップの生成等が、単体のコンピュータにより実行される場合、及び各処理が異なるコンピュータにより実行される場合の両方を含む。また所定のコンピュータによる各処理の実行は、当該処理の一部または全部を他のコンピュータに実行させその結果を取得することを含む。
すなわち本技術に係る情報処理方法及びプログラムは、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成にも適用することが可能である。
An information processing method and a program according to the present technology may be executed by a plurality of computers communicably connected via a network or the like to construct an information processing apparatus according to the present technology.
That is, the information processing method and program according to the present technology can be executed not only in a computer system configured by a single computer, but also in a computer system in which a plurality of computers work together.
In the present disclosure, a system means a set of multiple components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a single device housing a plurality of modules within a single housing, are both systems.
The information processing method according to the present technology and the execution of the program by the computer system include, for example, acquisition of visual field information, execution of rendering processing, setting of recognition target objects, estimation of recognition positions, generation of omnidirectional saliency maps, etc. It includes both the case where it is executed by a single computer and the case where each process is executed by different computers. Execution of each process by a predetermined computer includes causing another computer to execute part or all of the process and obtaining the result.
That is, the information processing method and program according to the present technology can also be applied to a configuration of cloud computing in which a plurality of devices share and jointly process one function via a network.
各図面を参照して説明したサーバサイドレンダリングシステム、HMD、サーバ装置、クライアント装置等の各構成、各処理フロー等はあくまで一実施形態であり、本技術の趣旨を逸脱しない範囲で、任意に変形可能である。すなわち本技術を実施するための他の任意の構成やアルゴリズム等が採用されてよい。 Each configuration of the server-side rendering system, HMD, server device, client device, etc., and each processing flow, etc., which are described with reference to each drawing, are merely one embodiment, and can be arbitrarily modified within the scope of the present technology. It is possible. That is, any other configuration, algorithm, or the like for implementing the present technology may be employed.
本開示において、説明の理解を容易とするために、「略」「ほぼ」「おおよそ」等の文言が適宜使用されている。一方で、これら「略」「ほぼ」「おおよそ」等の文言を使用する場合と使用しない場合とで、明確な差異が規定されるわけではない。
すなわち、本開示において、「中心」「中央」「均一」「等しい」「同じ」「直交」「平行」「対称」「延在」「軸方向」「円柱形状」「円筒形状」「リング形状」「円環形状」等の、形状、サイズ、位置関係、状態等を規定する概念は、「実質的に中心」「実質的に中央」「実質的に均一」「実質的に等しい」「実質的に同じ」「実質的に直交」「実質的に平行」「実質的に対称」「実質的に延在」「実質的に軸方向」「実質的に円柱形状」「実質的に円筒形状」「実質的にリング形状」「実質的に円環形状」等を含む概念とする。
例えば「完全に中心」「完全に中央」「完全に均一」「完全に等しい」「完全に同じ」「完全に直交」「完全に平行」「完全に対称」「完全に延在」「完全に軸方向」「完全に円柱形状」「完全に円筒形状」「完全にリング形状」「完全に円環形状」等を基準とした所定の範囲(例えば±10%の範囲)に含まれる状態も含まれる。
従って、「略」「ほぼ」「おおよそ」等の文言が付加されていない場合でも、いわゆる「略」「ほぼ」「おおよそ」等を付加して表現され得る概念が含まれ得る。反対に、「略」「ほぼ」「おおよそ」等を付加して表現された状態について、完全な状態が必ず排除されるというわけではない。
In the present disclosure, terms such as “substantially”, “approximately”, and “approximately” are appropriately used to facilitate understanding of the description. On the other hand, there is no clear difference between the use and non-use of words such as "substantially", "approximately", and "approximately".
That is, in the present disclosure, “central,” “central,” “uniform,” “equal,” “identical,” “perpendicular,” “parallel,” “symmetric,” “extended,” “axial,” “cylindrical,” “cylindrical,” and “ring-shaped.” Concepts that define shape, size, positional relationship, state, etc. such as "annular shape" are "substantially centered", "substantially centered", "substantially uniform", "substantially equal", "substantially "substantially orthogonal""substantiallyparallel""substantiallysymmetrical""substantiallyextended""substantiallyaxial""substantiallycylindrical""substantiallycylindrical" The concept includes "substantially ring-shaped", "substantially torus-shaped", and the like.
For example, "perfectly centered", "perfectly centered", "perfectly uniform", "perfectly equal", "perfectly identical", "perfectly orthogonal", "perfectly parallel", "perfectly symmetrical", "perfectly extended", "perfectly Axial,""perfectlycylindrical,""perfectlycylindrical,""perfectlyring," and "perfectly annular", etc. be
Therefore, even when words such as "approximately", "approximately", and "approximately" are not added, concepts that can be expressed by adding so-called "approximately", "approximately", "approximately", etc. can be included. Conversely, states expressed by adding "nearly", "nearly", "approximately", etc. do not necessarily exclude complete states.
本開示において、「Aより大きい」「Aより小さい」といった「より」を使った表現は、Aと同等である場合を含む概念と、Aと同等である場合を含まない概念の両方を包括的に含む表現である。例えば「Aより大きい」は、Aと同等は含まない場合に限定されず、「A以上」も含む。また「Aより小さい」は、「A未満」に限定されず、「A以下」も含む。
本技術を実施する際には、上記で説明した効果が発揮されるように、「Aより大きい」及び「Aより小さい」に含まれる概念から、具体的な設定等を適宜採用すればよい。
In the present disclosure, expressions using "more than" such as "greater than A" and "less than A" encompass both the concept including the case of being equivalent to A and the concept not including the case of being equivalent to A. is an expression contained in For example, "greater than A" is not limited to not including equal to A, but also includes "greater than or equal to A." Also, "less than A" is not limited to "less than A", but also includes "less than A".
When implementing the present technology, specific settings and the like may be appropriately adopted from concepts included in “greater than A” and “less than A” so as to exhibit the effects described above.
以上説明した本技術に係る特徴部分のうち、少なくとも2つの特徴部分を組み合わせることも可能である。すなわち各実施形態で説明した種々の特徴部分は、各実施形態の区別なく、任意に組み合わされてもよい。また上記で記載した種々の効果は、あくまで例示であって限定されるものではなく、また他の効果が発揮されてもよい。 It is also possible to combine at least two characteristic portions among the characteristic portions according to the present technology described above. That is, various characteristic portions described in each embodiment may be combined arbitrarily without distinguishing between each embodiment. Moreover, the various effects described above are only examples and are not limited, and other effects may be exhibited.
なお、本技術は以下のような構成も採ることができる。
(1)
ユーザの視野に関する視野情報に基づいて、仮想空間を構成する3次元空間データに対してレンダリング処理を実行することにより、前記ユーザの視野に応じた2次元映像データを生成するレンダリング部と、
前記仮想空間の前記ユーザの視野に含まれない視野外領域における、前記ユーザが認識している認識対象オブジェクトの前記ユーザが認識している認識位置を推定する推定部と、
推定された前記視野外領域における前記認識対象オブジェクトの前記認識位置に基づいて、前記視野外領域における顕著性を表す顕著性マップを生成する生成部と
を具備する情報処理装置。
(2)(1)に記載の情報処理装置であって、
前記推定部は、現在時刻までにレンダリング対象となったことがあるオブジェクトを、前記認識対象オブジェクトとして設定する
情報処理装置。
(3)(1)又は(2)に記載の情報処理装置であって、
前記2次元映像データは、時系列に連続する複数のフレーム画像により構成され、
前記推定部は、現在時刻のフレーム画像に含まれない前記認識対象オブジェクトについて、前記認識対象オブジェクトが含まれる過去の直近のフレーム画像内の前記認識対象オブジェクトの位置に対応する前記仮想空間内の位置に基づいて、前記認識位置を推定する
情報処理装置。
(4)(3)に記載の情報処理装置であって、
前記推定部は、前記直近のフレーム画像内の前記認識対象オブジェクトの位置に対応する前記仮想空間内の位置を、前記認識位置として推定する
情報処理装置。
(5)(3)又は(4)に記載の情報処理装置であって、
前記推定部は、前記直近のフレーム画像内の前記認識対象オブジェクトの位置に対応する前記仮想空間内の位置から前記認識対象オブジェクトの移動方向に沿ってシフトした位置を、前記認識位置として推定する
情報処理装置。
(6)(3)から(5)のうちいずれか1つに記載の情報処理装置であって、
前記推定部は、現在時刻のフレーム画像に含まれない前記認識対象オブジェクトについて、前記認識対象オブジェクトが発する音を前記ユーザが認識したと判定した場合に、前記音の前記仮想空間内における発生位置を、前記認識位置として推定する
情報処理装置。
(7)(3)から(6)のうちいずれか1つに記載の情報処理装置であって、
前記3次元空間データは、前記仮想空間の構成を定義する3次元空間記述データと、前記仮想空間における3次元オブジェクトを定義する3次元オブジェクトデータとを含み、
前記3次元空間記述データは、前記認識対象オブジェクトの役割を表す役割情報、及び前記役割に関連する定位置を表す定位置情報を含み、
前記推定部は、現在時刻のフレーム画像に含まれない所定の役割情報が設定された前記認識対象オブジェクトについて、現在時刻までに、同じ役割情報が設定された前記認識対象オブジェクトがレンダリングされたことがある場合に、前記役割に関連する前記定位置を前記認識位置として推定する
情報処理装置。
(8)(7)に記載の情報処理装置であって、
前記推定部は、現在時刻までに同じ役割情報が設定された前記認識対象オブジェクトが前記役割に関連する前記定位置にいる状態がレンダリングされたことがある場合に、前記役割に関連する前記定位置を前記認識位置として推定する
情報処理装置。
(9)(3)から(8)のうちいずれか1つに記載の情報処理装置であって、
前記3次元空間データは、前記仮想空間の構成を定義する3次元空間記述データと、前記仮想空間における3次元オブジェクトを定義する3次元オブジェクトデータとを含み、
前記3次元空間記述データは、前記認識対象オブジェクトの役割を表す役割情報、及び前記役割に関連する定位置を表す定位置情報を含み、
前記推定部は、現在時刻のフレーム画像に含まれない所定の役割情報が設定された前記認識対象オブジェクトについて、現在時刻までに、同じ役割情報が設定された前記認識対象オブジェクトが発する音を前記ユーザが認識したと判定した場合に、前記役割に関連する前記定位置を前記認識位置として推定する
情報処理装置。
(10)(9)に記載の情報処理装置であって、
前記推定部は、現在時刻までに同じ役割情報が設定された前記認識対象オブジェクトが前記役割に関連する前記定位置にいる状態で発した音を前記ユーザが認識したと判定した場合に、前記役割に関連する前記定位置を前記認識位置として推定する
情報処理装置。
(11)(1)から(10)のうちいずれか1つに記載の情報処理装置であって、
前記推定部は、前記認識対象オブジェクトがレンダリングされている前記2次元映像データ内の前記認識対象オブジェクトの位置に基づいて、前記認識位置を推定する
情報処理装置。
(12)(1)から(11)のうちいずれか1つに記載の情報処理装置であって、
前記生成部は、前記視野外領域におけるボトムアップ注意に基づく顕著性がゼロとなる前記顕著性マップを生成する
情報処理装置。
(13)(1)から(12)のうちいずれか1つに記載の情報処理装置であって、
前記生成部は、前記視野外領域における前記認識対象オブジェクトの前記認識位置に基づいて、前記視野外領域におけるトップダウン注意に基づく顕著性を表す前記顕著性マップを生成する
情報処理装置。
(14)(1)から(13)のうちいずれか1つに記載の情報処理装置であって、
前記生成部は、前記視野外領域における前記顕著性マップと、前記2次元映像データの顕著性を表す顕著性マップとを生成する
情報処理装置。
(15)(1)から(14)のうちいずれか1つに記載の情報処理装置であって、さらに、
前記顕著性マップに基づいて、未来の前記視野情報を予測視野情報として生成する予測部を具備し、
前記レンダリング部は、前記予測視野情報に基づいて、前記2次元映像データを生成する
情報処理装置。
(16)(15)に記載の情報処理装置であって、
前記視野情報は、視点の位置、視線方向、視線の回転角度、前記ユーザの頭の位置、又は前記ユーザの頭の回転角度の少なくとも1つを含む
情報処理装置。
(17)(16)に記載の情報処理装置であって、
前記視野情報は、前記ユーザの頭の回転角度を含み、
前記予測部は、前記顕著性マップに基づいて、未来の前記ユーザの頭の回転角度を予測する
情報処理装置。
(18)(15)から(17)のうちいずれか1つに記載の情報処理装置であって、
前記2次元映像データは、時系列に連続する複数のフレーム画像により構成され、
前記レンダリング部は、前記予測視野情報に基づいてフレーム画像を生成し、予測フレーム画像として出力する
情報処理装置。
(19)
ユーザの視野に関する視野情報に基づいて、仮想空間を構成する3次元空間データに対してレンダリング処理を実行することにより、前記ユーザの視野に応じた2次元映像データを生成し、
前記仮想空間の前記ユーザの視野に含まれない視野外領域における、前記ユーザが認識している認識対象オブジェクトの前記ユーザが認識している認識位置を推定し、
推定された前記視野外領域における前記認識対象オブジェクトの前記認識位置に基づいて、前記視野外領域における顕著性を表す顕著性マップを生成する
ことをコンピュータシステムが実行する情報処理方法。
Note that the present technology can also adopt the following configuration.
(1)
a rendering unit that generates two-dimensional video data corresponding to the user's field of view by executing rendering processing on three-dimensional space data that constitutes a virtual space based on field-of-view information related to the user's field of view;
an estimation unit for estimating a recognition position recognized by the user of a recognition target object recognized by the user in an area outside the user's field of view in the virtual space;
and a generation unit that generates a saliency map representing saliency in the out-of-field region based on the estimated recognition position of the recognition target object in the out-of-field region.
(2) The information processing device according to (1),
The information processing apparatus, wherein the estimation unit sets an object that has been rendered as a target for rendering up to a current time as the recognition target object.
(3) The information processing device according to (1) or (2),
The two-dimensional video data is composed of a plurality of frame images that are continuous in time series,
For the recognition target object not included in the frame image at the current time, the estimation unit determines a position in the virtual space corresponding to the position of the recognition target object in the most recent frame image in which the recognition target object is included. An information processing device that estimates the recognition position based on.
(4) The information processing device according to (3),
The information processing device, wherein the estimation unit estimates a position in the virtual space corresponding to the position of the recognition target object in the most recent frame image as the recognition position.
(5) The information processing device according to (3) or (4),
The estimation unit estimates, as the recognition position, a position shifted along the moving direction of the recognition target object from a position in the virtual space corresponding to the position of the recognition target object in the most recent frame image. processing equipment.
(6) The information processing device according to any one of (3) to (5),
For the recognition target object that is not included in the frame image at the current time, the estimation unit estimates a position in the virtual space where the sound is generated when determining that the user has recognized a sound emitted by the recognition target object. , is estimated as the recognition position. Information processing device.
(7) The information processing device according to any one of (3) to (6),
The three-dimensional space data includes three-dimensional space description data defining the configuration of the virtual space and three-dimensional object data defining a three-dimensional object in the virtual space,
the three-dimensional space description data includes role information representing a role of the object to be recognized and positional information representing a fixed position associated with the role;
The estimating unit confirms that, for the recognition target object set with predetermined role information that is not included in the frame image at the current time, the recognition target object set with the same role information was rendered by the current time. In some cases, the information processing device estimates the home position associated with the role as the recognition position.
(8) The information processing device according to (7),
The estimating unit determines, if the recognition target object for which the same role information is set has been rendered at the fixed position related to the role by the current time, is estimated as the recognition position.
(9) The information processing device according to any one of (3) to (8),
The three-dimensional space data includes three-dimensional space description data defining the configuration of the virtual space and three-dimensional object data defining a three-dimensional object in the virtual space,
the three-dimensional space description data includes role information representing a role of the object to be recognized and positional information representing a fixed position associated with the role;
For the recognition target object set with predetermined role information that is not included in the frame image at the current time, the estimation unit detects the sound emitted by the recognition target object set with the same role information by the current time. an information processing apparatus that estimates the fixed position related to the role as the recognized position when it is determined that the position has been recognized.
(10) The information processing device according to (9),
If the estimation unit determines that the user has recognized a sound emitted while the recognition target object, for which the same role information is set, is in the fixed position related to the role by the current time, information processing apparatus that estimates the fixed position related to the position as the recognition position.
(11) The information processing device according to any one of (1) to (10),
The information processing apparatus, wherein the estimation unit estimates the recognition position based on the position of the recognition target object in the two-dimensional video data in which the recognition target object is rendered.
(12) The information processing device according to any one of (1) to (11),
The information processing apparatus, wherein the generation unit generates the saliency map in which saliency based on bottom-up attention in the out-of-field region is zero.
(13) The information processing device according to any one of (1) to (12),
The information processing apparatus, wherein the generation unit generates the saliency map representing saliency based on top-down attention in the out-of-field region based on the recognition position of the recognition target object in the out-of-field region.
(14) The information processing device according to any one of (1) to (13),
The information processing apparatus, wherein the generation unit generates the saliency map in the out-of-field region and a saliency map representing saliency of the two-dimensional video data.
(15) The information processing device according to any one of (1) to (14), further comprising:
A prediction unit that generates the future visual field information as predicted visual field information based on the saliency map,
The information processing apparatus, wherein the rendering unit generates the two-dimensional video data based on the predicted field-of-view information.
(16) The information processing device according to (15),
The information processing apparatus, wherein the visual field information includes at least one of a viewpoint position, a line-of-sight direction, a line-of-sight rotation angle, a position of the user's head, or a rotation angle of the user's head.
(17) The information processing device according to (16),
The field of view information includes a rotation angle of the user's head,
The prediction unit predicts a future head rotation angle of the user based on the saliency map. Information processing apparatus.
(18) The information processing device according to any one of (15) to (17),
The two-dimensional video data is composed of a plurality of frame images that are continuous in time series,
The information processing apparatus, wherein the rendering unit generates a frame image based on the predicted field-of-view information and outputs it as a predicted frame image.
(19)
generating two-dimensional video data corresponding to the user's field of view by performing rendering processing on three-dimensional space data constituting a virtual space based on field-of-view information related to the user's field of view;
estimating a recognition position recognized by the user of a recognition target object recognized by the user in an area outside the user's field of view in the virtual space;
An information processing method in which a computer system generates a saliency map representing saliency in the out-of-field region based on the estimated recognition position of the recognition target object in the out-of-field region.
S…仮想空間
1…サーバサイドレンダリングシステム
2…HMD
3…クライアント装置
4…サーバ装置
5…ユーザ
7…ユーザの視野
8…レンダリング映像
13…予測部
14…レンダリング部
17…顕著性マップ生成部
18…顕著性マップ記録部
19…認識位置推定部
20…予測フレーム画像(フレーム画像)
35…全天周顕著性マップ
60…コンピュータ
S...
3...
35... All-
Claims (19)
前記仮想空間の前記ユーザの視野に含まれない視野外領域における、前記ユーザが認識している認識対象オブジェクトの前記ユーザが認識している認識位置を推定する推定部と、
推定された前記視野外領域における前記認識対象オブジェクトの前記認識位置に基づいて、前記視野外領域における顕著性を表す顕著性マップを生成する生成部と
を具備する情報処理装置。 a rendering unit that generates two-dimensional video data according to the user's field of view by executing rendering processing on three-dimensional space data that constitutes a virtual space based on field-of-view information related to the user's field of view;
an estimating unit for estimating a recognition position recognized by the user of a recognition target object recognized by the user in an area outside the user's field of view in the virtual space;
and a generating unit that generates a saliency map representing saliency in the out-of-field region based on the estimated recognition position of the recognition target object in the out-of-field region.
前記推定部は、現在時刻までにレンダリング対象となったことがあるオブジェクトを、前記認識対象オブジェクトとして設定する
情報処理装置。 The information processing device according to claim 1,
The information processing apparatus, wherein the estimation unit sets an object that has been rendered as a target for rendering up to a current time as the recognition target object.
前記2次元映像データは、時系列に連続する複数のフレーム画像により構成され、
前記推定部は、現在時刻のフレーム画像に含まれない前記認識対象オブジェクトについて、前記認識対象オブジェクトが含まれる過去の直近のフレーム画像内の前記認識対象オブジェクトの位置に対応する前記仮想空間内の位置に基づいて、前記認識位置を推定する
情報処理装置。 The information processing device according to claim 1,
The two-dimensional video data is composed of a plurality of frame images that are continuous in time series,
For the recognition target object not included in the frame image at the current time, the estimation unit determines a position in the virtual space corresponding to the position of the recognition target object in the most recent frame image in which the recognition target object is included. An information processing device that estimates the recognition position based on.
前記推定部は、前記直近のフレーム画像内の前記認識対象オブジェクトの位置に対応する前記仮想空間内の位置を、前記認識位置として推定する
情報処理装置。 The information processing device according to claim 3,
The information processing device, wherein the estimation unit estimates a position in the virtual space corresponding to the position of the recognition target object in the most recent frame image as the recognition position.
前記推定部は、前記直近のフレーム画像内の前記認識対象オブジェクトの位置に対応する前記仮想空間内の位置から前記認識対象オブジェクトの移動方向に沿ってシフトした位置を、前記認識位置として推定する
情報処理装置。 The information processing device according to claim 3,
The estimation unit estimates, as the recognition position, a position shifted along the moving direction of the recognition target object from a position in the virtual space corresponding to the position of the recognition target object in the most recent frame image. processing equipment.
前記推定部は、現在時刻のフレーム画像に含まれない前記認識対象オブジェクトについて、前記認識対象オブジェクトが発する音を前記ユーザが認識したと判定した場合に、前記音の前記仮想空間内における発生位置を、前記認識位置として推定する
情報処理装置。 The information processing device according to claim 3,
For the recognition target object that is not included in the frame image at the current time, the estimation unit estimates a position in the virtual space where the sound is generated when determining that the user has recognized a sound emitted by the recognition target object. , is estimated as the recognition position. Information processing device.
前記3次元空間データは、前記仮想空間の構成を定義する3次元空間記述データと、前記仮想空間における3次元オブジェクトを定義する3次元オブジェクトデータとを含み、
前記3次元空間記述データは、前記認識対象オブジェクトの役割を表す役割情報、及び前記役割に関連する定位置を表す定位置情報を含み、
前記推定部は、現在時刻のフレーム画像に含まれない所定の役割情報が設定された前記認識対象オブジェクトについて、現在時刻までに、同じ役割情報が設定された前記認識対象オブジェクトがレンダリングされたことがある場合に、前記役割に関連する前記定位置を前記認識位置として推定する
情報処理装置。 The information processing device according to claim 3,
The three-dimensional space data includes three-dimensional space description data defining the configuration of the virtual space and three-dimensional object data defining a three-dimensional object in the virtual space,
the three-dimensional space description data includes role information representing a role of the object to be recognized and positional information representing a fixed position associated with the role;
The estimating unit confirms that, for the recognition target object set with predetermined role information that is not included in the frame image at the current time, the recognition target object set with the same role information was rendered by the current time. In some cases, the information processing device estimates the home position associated with the role as the recognition position.
前記推定部は、現在時刻までに同じ役割情報が設定された前記認識対象オブジェクトが前記役割に関連する前記定位置にいる状態がレンダリングされたことがある場合に、前記役割に関連する前記定位置を前記認識位置として推定する
情報処理装置。 The information processing device according to claim 7,
The estimating unit determines, if the recognition target object for which the same role information is set has been rendered at the fixed position related to the role by the current time, is estimated as the recognition position.
前記3次元空間データは、前記仮想空間の構成を定義する3次元空間記述データと、前記仮想空間における3次元オブジェクトを定義する3次元オブジェクトデータとを含み、
前記3次元空間記述データは、前記認識対象オブジェクトの役割を表す役割情報、及び前記役割に関連する定位置を表す定位置情報を含み、
前記推定部は、現在時刻のフレーム画像に含まれない所定の役割情報が設定された前記認識対象オブジェクトについて、現在時刻までに、同じ役割情報が設定された前記認識対象オブジェクトが発する音を前記ユーザが認識したと判定した場合に、前記役割に関連する前記定位置を前記認識位置として推定する
情報処理装置。 The information processing device according to claim 3,
The three-dimensional space data includes three-dimensional space description data defining the configuration of the virtual space and three-dimensional object data defining a three-dimensional object in the virtual space,
the three-dimensional space description data includes role information representing a role of the object to be recognized and positional information representing a fixed position associated with the role;
For the recognition target object set with predetermined role information that is not included in the frame image at the current time, the estimation unit detects the sound emitted by the recognition target object set with the same role information by the current time. an information processing apparatus that estimates the fixed position related to the role as the recognized position when it is determined that the position has been recognized.
前記推定部は、現在時刻までに同じ役割情報が設定された前記認識対象オブジェクトが前記役割に関連する前記定位置にいる状態で発した音を前記ユーザが認識したと判定した場合に、前記役割に関連する前記定位置を前記認識位置として推定する
情報処理装置。 The information processing device according to claim 9,
If the estimation unit determines that the user has recognized a sound emitted while the recognition target object, for which the same role information is set, is in the fixed position related to the role by the current time, information processing apparatus that estimates the fixed position related to the position as the recognition position.
前記推定部は、前記認識対象オブジェクトがレンダリングされている前記2次元映像データ内の前記認識対象オブジェクトの位置に基づいて、前記認識位置を推定する
情報処理装置。 The information processing device according to claim 1,
The information processing apparatus, wherein the estimation unit estimates the recognition position based on the position of the recognition target object in the two-dimensional video data in which the recognition target object is rendered.
前記生成部は、前記視野外領域におけるボトムアップ注意に基づく顕著性がゼロとなる前記顕著性マップを生成する
情報処理装置。 The information processing device according to claim 1,
The information processing apparatus, wherein the generation unit generates the saliency map in which saliency based on bottom-up attention in the out-of-field region is zero.
前記生成部は、前記視野外領域における前記認識対象オブジェクトの前記認識位置に基づいて、前記視野外領域におけるトップダウン注意に基づく顕著性を表す前記顕著性マップを生成する
情報処理装置。 The information processing device according to claim 1,
The information processing apparatus, wherein the generation unit generates the saliency map representing saliency based on top-down attention in the out-of-field area based on the recognition position of the recognition target object in the out-of-field area.
前記生成部は、前記視野外領域における前記顕著性マップと、前記2次元映像データの顕著性を表す顕著性マップとを生成する
情報処理装置。 The information processing device according to claim 1,
The information processing apparatus, wherein the generation unit generates the saliency map in the out-of-field region and a saliency map representing saliency of the two-dimensional video data.
前記顕著性マップに基づいて、未来の前記視野情報を予測視野情報として生成する予測部を具備し、
前記レンダリング部は、前記予測視野情報に基づいて、前記2次元映像データを生成する
情報処理装置。 The information processing apparatus according to claim 1, further comprising:
A prediction unit that generates the future visual field information as predicted visual field information based on the saliency map,
The information processing apparatus, wherein the rendering unit generates the two-dimensional video data based on the predicted field-of-view information.
前記視野情報は、視点の位置、視線方向、視線の回転角度、前記ユーザの頭の位置、又は前記ユーザの頭の回転角度の少なくとも1つを含む
情報処理装置。 The information processing device according to claim 15,
The information processing apparatus, wherein the visual field information includes at least one of a viewpoint position, a line-of-sight direction, a line-of-sight rotation angle, a position of the user's head, or a rotation angle of the user's head.
前記視野情報は、前記ユーザの頭の回転角度を含み、
前記予測部は、前記顕著性マップに基づいて、未来の前記ユーザの頭の回転角度を予測する
情報処理装置。 The information processing device according to claim 16,
The field of view information includes a rotation angle of the user's head,
The information processing apparatus, wherein the prediction unit predicts a future head rotation angle of the user based on the saliency map.
前記2次元映像データは、時系列に連続する複数のフレーム画像により構成され、
前記レンダリング部は、前記予測視野情報に基づいてフレーム画像を生成し、予測フレーム画像として出力する
情報処理装置。 The information processing device according to claim 15,
The two-dimensional video data is composed of a plurality of frame images that are continuous in time series,
The information processing apparatus, wherein the rendering unit generates a frame image based on the predicted field-of-view information and outputs it as a predicted frame image.
前記仮想空間の前記ユーザの視野に含まれない視野外領域における、前記ユーザが認識している認識対象オブジェクトの前記ユーザが認識している認識位置を推定し、
推定された前記視野外領域における前記認識対象オブジェクトの前記認識位置に基づいて、前記視野外領域における顕著性を表す顕著性マップを生成する
ことをコンピュータシステムが実行する情報処理方法。 generating two-dimensional image data corresponding to the user's field of view by performing rendering processing on three-dimensional space data constituting a virtual space based on field-of-view information related to the user's field of view;
estimating a recognition position recognized by the user of a recognition target object recognized by the user in an area outside the user's field of view in the virtual space;
An information processing method in which a computer system generates a saliency map representing saliency in the out-of-field region based on the estimated recognition position of the recognition target object in the out-of-field region.
Priority Applications (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2023523964A JP7740333B2 (en) | 2021-05-27 | 2022-01-17 | Information processing device and information processing method |
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2021088878 | 2021-05-27 | ||
| JP2021-088878 | 2021-05-27 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| WO2022249536A1 true WO2022249536A1 (en) | 2022-12-01 |
Family
ID=84229762
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| PCT/JP2022/001270 Ceased WO2022249536A1 (en) | 2021-05-27 | 2022-01-17 | Information processing device and information processing method |
Country Status (2)
| Country | Link |
|---|---|
| JP (1) | JP7740333B2 (en) |
| WO (1) | WO2022249536A1 (en) |
Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20180189928A1 (en) * | 2016-12-29 | 2018-07-05 | Nokia Technologies Oy | Method and apparatus for determining and varying the panning speed of an image based on saliency |
-
2022
- 2022-01-17 JP JP2023523964A patent/JP7740333B2/en active Active
- 2022-01-17 WO PCT/JP2022/001270 patent/WO2022249536A1/en not_active Ceased
Patent Citations (1)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US20180189928A1 (en) * | 2016-12-29 | 2018-07-05 | Nokia Technologies Oy | Method and apparatus for determining and varying the panning speed of an image based on saliency |
Non-Patent Citations (1)
| Title |
|---|
| NGUYEN ANH ANGUYEN139@STUDENT.GSU.EDU; YAN ZHISHENG ZYAN@GSU.EDU; NAHRSTEDT KLARA KLARA@ILLINOIS.EDU: "Your Attention is Unique Detecting 360-Degree Video Saliency in Head-Mounted Display for Head Movement Prediction", MULTIMEDIA, ACM, 2 PENN PLAZA, SUITE 701NEW YORKNY10121-0701USA, 15 October 2018 (2018-10-15) - 26 October 2018 (2018-10-26), 2 Penn Plaza, Suite 701New YorkNY10121-0701USA , pages 1190 - 1198, XP058544248, ISBN: 978-1-4503-5665-7, DOI: 10.1145/3240508.3240669 * |
Also Published As
| Publication number | Publication date |
|---|---|
| JPWO2022249536A1 (en) | 2022-12-01 |
| JP7740333B2 (en) | 2025-09-17 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| JP7531568B2 (en) | Eye tracking with prediction and latest updates to the GPU for fast foveated rendering in HMD environments | |
| JP7002684B2 (en) | Systems and methods for augmented reality and virtual reality | |
| US11189057B2 (en) | Provision of virtual reality content | |
| KR101964223B1 (en) | System and method for augmented and virtual reality | |
| US10482662B2 (en) | Systems and methods for mixed reality transitions | |
| JP6321150B2 (en) | 3D gameplay sharing | |
| CN109999491B (en) | Method and computer-readable storage medium for rendering images on a head-mounted display | |
| JP6462059B1 (en) | Information processing method, information processing program, information processing system, and information processing apparatus | |
| JP2020503906A (en) | Wireless head-mounted display using different rendering and sound localization | |
| KR20140014160A (en) | Immersive display experience | |
| CN109314800B (en) | Method and system for directing user attention to location-based game play companion application | |
| US20240185511A1 (en) | Information processing apparatus and information processing method | |
| JP2020523672A (en) | Rendering intermediary content | |
| WO2022230253A1 (en) | Information processing device and information processing method | |
| US11430178B2 (en) | Three-dimensional video processing | |
| CN118338237A (en) | Method and apparatus for providing audio content in immersive reality | |
| JP2022051978A (en) | Image processing device, image processing method, and program | |
| US20210354035A1 (en) | Interaction in a multi-user environment | |
| WO2022259632A1 (en) | Information processing device and information processing method | |
| JP6999538B2 (en) | Information processing methods, information processing programs, information processing systems, and information processing equipment | |
| JP7740333B2 (en) | Information processing device and information processing method | |
| EP3623908A1 (en) | A system for controlling audio-capable connected devices in mixed reality environments | |
| WO2024009653A1 (en) | Information processing device, information processing method, and information processing system | |
| WO2023248678A1 (en) | Information processing device, information processing method, and information processing system | |
| US20240078767A1 (en) | Information processing apparatus and information processing method |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| 121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22810822 Country of ref document: EP Kind code of ref document: A1 |
|
| WWE | Wipo information: entry into national phase |
Ref document number: 2023523964 Country of ref document: JP |
|
| NENP | Non-entry into the national phase |
Ref country code: DE |
|
| 122 | Ep: pct application non-entry in european phase |
Ref document number: 22810822 Country of ref document: EP Kind code of ref document: A1 |