WO2021172040A1 - Information processing device and method - Google Patents

Information processing device and method Download PDF

Info

Publication number
WO2021172040A1
WO2021172040A1 PCT/JP2021/005168 JP2021005168W WO2021172040A1 WO 2021172040 A1 WO2021172040 A1 WO 2021172040A1 JP 2021005168 W JP2021005168 W JP 2021005168W WO 2021172040 A1 WO2021172040 A1 WO 2021172040A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
haptics
unit
dimensional image
information processing
Prior art date
Application number
PCT/JP2021/005168
Other languages
French (fr)
Japanese (ja)
Inventor
塚越 郁夫
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2021172040A1 publication Critical patent/WO2021172040A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/102Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or selection affected or controlled by the adaptive coding
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/134Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the element, parameter or criterion affecting or controlling the adaptive coding
    • H04N19/167Position within a video image, e.g. region of interest [ROI]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/10Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding
    • H04N19/169Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding
    • H04N19/186Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using adaptive coding characterised by the coding unit, i.e. the structural portion or semantic portion of the video signal being the object or the subject of the adaptive coding the unit being a colour or a chrominance component
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/46Embedding additional information in the video signal during the compression process
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/85Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using pre-processing or post-processing specially adapted for video compression

Definitions

  • the present disclosure relates to an information processing device and a method, and more particularly to an information processing device and a method capable of suppressing an increase in a load of haptics data transmission.
  • Non-Patent Document 1 a system for remote control by transmitting force sense data, tactile sense data, etc. has been considered (see, for example, Non-Patent Document 1 and Non-Patent Document 2).
  • This disclosure is made in view of such a situation, and makes it possible to suppress an increase in the load of haptics data transmission.
  • the information processing device of one aspect of the present technology includes a pixel mapping unit that maps haptics data detected at an observation point of an interface haptics device to pixels of a two-dimensional image, and the haptics by the pixel mapping unit. It is an information processing apparatus including a coding unit that encodes the two-dimensional image to which data is mapped and generates coded data.
  • the information processing method of one aspect of the present technology maps the haptics data detected at the observation point of the haptics device serving as an interface to the pixels of the two-dimensional image, and the two-dimensional image to which the haptics data is mapped. Is an information processing method that encodes the data and generates encoded data.
  • the information processing device of the other aspect of the present technology decodes the encoded data and generates a two-dimensional image to which the haptics data detected at the observation point of the haptics device serving as an interface is mapped, and the decoding unit described above. It is an information processing device including an extraction unit that extracts the haptics data from the two-dimensional image generated by the decoding unit.
  • the information processing method of another aspect of the present technology decodes the encoded data and generates a two-dimensional image to which the haptics data detected at the observation point of the haptics device serving as an interface is mapped. This is an information processing method for extracting the haptics data from a two-dimensional image.
  • the haptics data detected at the observation point of the haptics device serving as an interface is mapped to the pixels of the two-dimensional image, and the haptics data is mapped2.
  • the 2D image is encoded and the encoded data is generated.
  • the coded data is decoded to generate a two-dimensional image to which the haptics data detected at the observation point of the interface haptics device is mapped.
  • the haptics data is extracted from the generated two-dimensional image.
  • FIG. 30 which shows an example of the syntax of SEI. It is a figure which shows the example of the semantics of SEI. It is the figure following FIG. 32 which shows the example of the semantics of SEI. It is a figure which shows the example of MPD. It is the figure following FIG. 34 which shows the example of MPD. It is a figure which shows the example of MPD. It is a figure which shows the example of MPD. It is a figure which shows the example of the semantics of MPD. It is a figure which shows the example of the media box. It is a block diagram which shows the main configuration example of a computer.
  • the action on the local side that leads the control is reproduced on the remote side, and by operating the remote device, the progress and results are fed back to the local side at any time, and the local activity is continued by the feedback.
  • the incorporation of humans into the feedback system frees them from spatiotemporal constraints and leads to the realization of Human Augmentation, which enables the amplification of human abilities rather than simply the sense of presence.
  • the haptics system 10 of FIG. 1 is installed at a remote location from each other and has a haptics device 11 and a haptics device 15 including sensors, actuators, and the like.
  • One of them transmits the haptics data (force sense data, tactile data, etc.) detected by the sensor, and the other receives the haptics data and drives the actuator based on the haptics data.
  • the haptics data force sense data, tactile data, etc.
  • the communication device 12 can also feed back the haptics data from the haptics device 11 to the haptics device 11.
  • the communication device 14 can also feed back the haptics data from the haptics device 15 to the haptics device 15.
  • the haptics device may be, for example, a bent skeletal arm-shaped device or a glove-shaped device that can be worn in the hand.
  • a bent skeletal arm-shaped device or a glove-shaped device that can be worn in the hand.
  • the degree of freedom in the configuration of the force sensor has been changed from the primary (1DoF (Degree of Freedom)) to the tertiary (3DoF), and the joint points have been increased. Haptics devices have been considered.
  • a human hand has five fingers, and it is considered that the degree of freedom of movement is 20 or more.
  • the degree of freedom of movement is 20 or more.
  • 15 joints 15 channels.
  • the bit rate for one channel of haptics data is about 100 kbps, it will be 1.5 Mbps for 15 channels.
  • the haptics data is mapped to the pixels of the two-dimensional image, the two-dimensional image to which the haptics data is mapped is encoded to generate the encoded data, and the encoded data is transmitted.
  • the haptics data can be encoded and transmitted by the same image coding without depending on the number of contacts of the haptics data, so that the complexity of the processing can be suppressed. can. Further, since image coding can be applied, not only high coding efficiency can be realized more easily, but also an increase in the amount of data due to an increase in the number of contacts of haptics data can be suppressed. ..
  • FIG. 2 is a diagram illustrating an outline of a transmission device which is an embodiment of an information processing device to which the present technology is applied.
  • the transmission device 100 shown in FIG. 2 is a device that transmits haptics data such as force sense data and tactile data to another device such as a remote location.
  • FIG. 2 shows the main things such as the processing unit and the data flow, and not all of them are shown in FIG. That is, in the transmission device 100, there may be a processing unit that is not shown as a block in FIG. 2, or there may be a processing or data flow that is not shown as an arrow or the like in FIG.
  • the transmission device 100 includes an ROI (Region Of Interest) setting unit 101, a motion pixel editing unit 102, a media information synthesis unit 103, an encoding unit 104, and a container processing unit 105.
  • ROI Region Of Interest
  • the transmission device 100 includes an ROI (Region Of Interest) setting unit 101, a motion pixel editing unit 102, a media information synthesis unit 103, an encoding unit 104, and a container processing unit 105.
  • ROI Region Of Interest
  • Image data is input to this transmission device 100.
  • the ROI setting unit 101 sets a region of interest (ROI) in this image data.
  • the ROI setting unit 101 supplies the ROI setting information indicating the ROI to the motion pixel editing unit 102.
  • the motion pixel editing unit 102 performs processing related to the generation of the motion focus map.
  • the motion-focused map is map information (image information) indicating the position where the motion has occurred and the position to be focused on.
  • the motion pixel editing unit 102 acquires image data input to the transmission device 100, and identifies the motion occurrence position based on the image data. Further, the motion pixel editing unit 102 acquires the ROI setting information supplied from the ROI setting unit 101, and specifies a position to be focused on based on the ROI setting information.
  • the motion pixel editing unit 102 generates a motion focus map from those processing results and supplies it to the media information synthesis unit 103.
  • the media information synthesis unit 103 performs processing related to the generation of a composite image of the motion attention map and the image mapped with the haptics data. For example, the media information synthesis unit 103 acquires a motion attention map supplied from the motion pixel editing unit 102.
  • This motion focus map is a two-dimensional image showing the position where the motion has occurred and the position to be focused on in pixel positions.
  • the media information synthesis unit 103 acquires force sense data and tactile data detected by the haptics device and the like and supplied to the transmission device 100 as haptics data.
  • the force sense data is information indicating the magnitude and direction of the applied force. This force sense data is detected by, for example, a force sense sensor or the like.
  • the tactile data is information on the tactile sensation such as vibration and temperature. This tactile data is detected by a sensor that detects tactile parameters such as a vibration sensor and a temperature sensor.
  • the media information synthesis unit 103 maps such haptics data to a two-dimensional image, synthesizes the two-dimensional image to which the haptics data is mapped and the motion attention map, and also referred to as a composite image (also referred to as a haptics composite image). ) Is generated.
  • the media information synthesis unit 103 supplies the haptic composite image to the coding unit 104.
  • the coding unit 104 performs processing related to image coding. For example, the coding unit 104 acquires a haptic composite image supplied from the media information synthesis unit 103. In addition, the coding unit 104 encodes the haptic composite image by a predetermined image coding method to generate coded data.
  • This image coding method is arbitrary, and may be a still image coding method such as JPEG (Joint Photographic Experts Group), for example, MPEG (Moving Picture Experts Group), AVC (Advanced Video Coding). ), HEVC (High Efficiency Video Coding), etc. may be used as a video coding method.
  • the coding unit 104 supplies the generated coded data (also referred to as a haptic composite video coded stream) to the container processing unit 105.
  • the container processing unit 105 performs processing related to containerization. For example, the container processing unit 105 acquires the coded data (haptics composite video coded stream) supplied from the coded unit 104. The container processing unit 105 stores the coded data in a container (file) based on a predetermined file format. This file format is arbitrary. For example, ISOBMFF (ISOBaseMediaFileFormat) may be used. Further, the container processing unit 105 may store the control information related to the haptics data in the media box of the ISOBMFF format file. The container processing unit 105 transmits the containerized coded data to the destination.
  • ISOBMFF ISOBaseMediaFileFormat
  • Each of these processing units (ROI setting unit 101 to container processing unit 105) of the transmission device 100 has an arbitrary configuration.
  • each processing unit may be configured by a logic circuit that realizes the above-mentioned processing.
  • each processing unit has, for example, a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), and the like, and the above-mentioned processing is realized by executing a program using them. You may do so.
  • each processing unit may have both configurations, and a part of the above-mentioned processing may be realized by a logic circuit, and the other may be realized by executing a program.
  • the configurations of the respective processing units may be independent of each other. For example, some processing units realize a part of the above-mentioned processing by a logic circuit, and some other processing units execute the program.
  • the above-mentioned processing may be realized by the other processing unit by both the logic circuit and the execution of the program.
  • This image data is an image captured by a haptics device or the like in a three-dimensional space represented by a coordinate system such as a three-axis Cartesian coordinate system as shown in FIG.
  • This imaging is performed using, for example, a plurality of cameras (imaging devices) as shown in FIG.
  • the glove-shaped haptics device 112A worn by the user 112 is imaged by the three cameras of the camera 111-1, the camera 111-2, and the camera 111-3.
  • the cameras 111 when it is not necessary to distinguish between the cameras 111-1 and the cameras 111-3, they are referred to as the cameras 111.
  • Camera parameters such as Sensor position, 3D_slope, and capture_normal_vector are set in each camera 111.
  • the Sensor position is a parameter that expresses the lens position of the camera 111 in relative position or absolute position coordinates from a certain reference point.
  • 3D_slope is a parameter that represents the inclination of the lens of the camera 111 as an angle of deviation from the reference coordinate system, as shown in FIG. 3, for example.
  • the capture_normal_vector is a parameter indicating the direction in which the lens of the camera 111 faces (the direction perpendicular to the lens surface).
  • the haptics device 112A is provided with a force sensor, a tactile sensor, and the like, and can detect the movement of the joint of the hand of the user 112 who wears it, detect the force applied to the joint, the fingertip, and the like, and the fingertip and the palm. It is a device that detects vibration, temperature, etc. By imaging the haptics device 112A with three or more cameras 111, the position and movement of the haptics device 112A in the three-dimensional space can be specified.
  • the ROI setting unit 101 sets the ROI 113 in the three-dimensional space based on the image data and these camera parameters.
  • the ROI 113 is set to include the haptics device 112A.
  • the ROI setting unit 101 identifies a region corresponding to such ROI 113 in each image, and supplies ROI setting information indicating the region to the motion pixel editing unit 102.
  • the area corresponding to ROI 113 in each image is calibrated between the images and completely corresponds to ROI 113 in the three-dimensional space.
  • the lens position (Sensor position) of the camera 111 is specified by using, for example, GPS (Global Positioning System) information.
  • GPS Global Positioning System
  • the GPS information includes information that defines two-dimensional coordinates (latitude, longitude), altitude (elevation), time (time), and the like as spatial coordinates.
  • the orientation of the lens (capture_normal_vector) is detected by, for example, a 3-axis surrounding sensor or the like.
  • the tilt of the lens is detected by using an acceleration sensor or the like, for example, as shown in FIG.
  • the accelerometer matches the direction in which gravity acts
  • the accelerometer detects an acceleration of 9.8 m / sec2.
  • the acceleration sensor is arranged in the direction perpendicular to the direction in which gravity acts, the influence of gravity disappears and the output of the acceleration sensor becomes zero.
  • the acceleration a of the inclination of an arbitrary angle ⁇ is obtained as the output of the acceleration sensor, the inclination angle ⁇ can be derived by the following equation (1).
  • FIG. 7 is a block diagram showing a main configuration example of the motion pixel editing unit 102. It should be noted that FIG. 7 shows the main things such as the processing unit and the data flow, and not all of them are shown in FIG. 7. That is, in the motion pixel editing unit 102, there may be a processing unit that is not shown as a block in FIG. 7, or there may be a processing or data flow that is not shown as an arrow or the like in FIG. 7.
  • the motion pixel editing unit 102 has a motion image generation unit 131 and a pixel editing unit 132.
  • the motion image generation unit 131 performs processing related to detection of motion pixels in the captured image. For example, the motion image generation unit 131 acquires image data (also referred to as an image sensor output image) of an captured image captured by a camera 111 or the like. The motion image generation unit 131 derives a difference (also referred to as an inter-frame difference image) between temporally continuous images of the image sensor output. By this process, pixels (also referred to as motion pixels) that move between frames are detected. The pixel value of this inter-frame difference image is not a difference value of the pixel value between frames, but a pixel whose pixel value changes between frames is expressed by 1 bit.
  • the inter-frame difference image is map information (also referred to as a motion pixel map) indicating the positions of motion pixels.
  • the motion image generation unit 131 supplies the motion pixel map generated in this way to the pixel editing unit 132.
  • the pixel editing unit 132 performs processing related to the generation of the motion focus map. For example, the pixel editing unit 132 acquires a motion pixel map supplied from the motion image generation unit 131. Further, the pixel editing unit 132 acquires the ROI setting information supplied from the ROI setting unit 101. The pixel editing unit 132 uses this information to generate a motion focus map.
  • the motion focus map is map information composed of 2-bit pixel values obtained by adding a 1-bit focus marker to the motion pixel map.
  • the attention marker is a marker indicating a position to be focused on. For example, it is map information (image) in which the pixel value of the pixel to be noted is "1" and the pixel value of the other pixels is "0". That is, the motion focus map is map information indicating pixels that move between frames (movement positions) and pixels that should be focused (positions that should be focused).
  • the pixel editing unit 132 generates a motion focus map by setting such a focus marker (also referred to as a focus map) and synthesizing it with the motion pixel map. Whether or not the pixel should be of interest is set according to a predetermined condition set in advance. For example, the pixels corresponding to the ROI set by the ROI setting information may be set as the pixels to be noted. Further, the pixels corresponding to the positions where the sensors and actuators are present, the pixels corresponding to the positions where feedback is requested from the transmission destination of the haptics data, the pixels corresponding to the edge portion and the fingertip of the haptics device 112A, and the like are of interest. It may be set as a power pixel.
  • the motion-focused map may be map information composed of 1-bit pixel values.
  • the pixel value of the pixel to be focused on may be set to "1" and the other pixels may be set to "0" while there is movement between frames. That is, in this case, the logical product of the pixel values of the motion pixel map and the focus marker is taken as the pixel value of the motion focus map.
  • the logical sum of the pixel values of the motion pixel map and the focus marker may be used as the pixel value of the motion focus map.
  • the pixel editing unit 132 supplies the motion attention map generated as described above to the media information synthesis unit 103.
  • the motion image generation unit 131 and the pixel editing unit 132 perform the above-mentioned processing on each image input to the transmission device. That is, when imaging is performed by a plurality of cameras 111 as in the example of FIG. 4, a motion focus map is generated for each captured image obtained by each camera 111.
  • FIG. 8 is a block diagram showing a main configuration example of the media information synthesis unit 103. Note that FIG. 8 shows the main things such as the processing unit and the data flow, and not all of them are shown in FIG. That is, in the media information synthesis unit 103, there may be a processing unit that is not shown as a block in FIG. 8, or there may be a processing or data flow that is not shown as an arrow or the like in FIG.
  • the media information synthesis unit 103 has a pixel mapping unit 141 and a composite image generation unit 142.
  • the pixel mapping unit 141 performs processing related to mapping haptics data to a two-dimensional image. For example, the pixel mapping unit 141 acquires force sense data and tactile data detected in the haptics device. Further, the pixel mapping unit 141 acquires a motion attention map supplied from the media information synthesis unit 103. The pixel mapping unit 141 maps the acquired force sense data and tactile data to a two-dimensional image by using the acquired motion attention map. The pixel mapping unit 141 supplies the two-dimensional image to which the haptics data is mapped in this way to the composite image generation unit 142.
  • the composite image generation unit 142 performs processing related to generation of a haptic composite image. For example, the composite image generation unit 142 acquires a two-dimensional image to which haptics data is mapped, which is supplied from the pixel mapping unit 141. Further, the composite image generation unit 142 acquires the motion attention map supplied from the media information synthesis unit 103. The composite image generation unit 142 synthesizes these acquired images (map information) to generate a haptic composite image. The composite image generation unit 142 supplies the generated haptic composite image to the coding unit 104.
  • ⁇ Haptic composite image> That is, as shown in A of FIG. 9, the media information synthesis unit 103 synthesizes the motion attention map 151 and the two-dimensional image 152 to which the haptics data such as force sense data and tactile data are mapped, and shows the figure. Generates a haptic composite image 153 as shown in B of 9. That is, in this haptic composite image 153, information indicating the position of movement, information indicating the position to be focused on, information indicating the detected force, vibration, temperature, etc., and the position where the information is detected are displayed. Contains information to indicate. The position where the haptics data is detected is indicated by the position of the pixel to which the haptics data is mapped.
  • the pixel mapping unit 141 generates a two-dimensional image 152 to which the haptics data is mapped. For example, as shown in FIG. 10A, it is assumed that the haptics data 154-1 to the haptics data 154-4 are detected by the sensor included in the haptics device 112A. In the following, when it is not necessary to distinguish the haptics data 154-1 to the haptics data 154-4 from each other, they are referred to as haptics data 154.
  • the pixel mapping unit 141 maps these haptics data 154 to a two-dimensional image as shown in B of FIG. That is, the pixel mapping unit 141 applies haptics to the pixels (pixels in which the portion where the sensor exists) corresponding to the portion where the sensor that detects the haptics data 154 is included in the captured image obtained by the camera 111. Data 154 is mapped. Therefore, in the two-dimensional image 152 to which the haptics data is mapped, the pixel position to which the haptics data 154 is mapped indicates the detection position of the haptics data 154.
  • the pixel mapping unit 141 uses the motion focus map instead of the captured image to perform this mapping.
  • the motion focus map is generated for each captured image and corresponds to the angle of view of the captured image. Therefore, the pixel mapping unit 141 can perform mapping in the same manner as when the captured image is used (similar mapping results can be obtained).
  • one haptics data may be mapped to one pixel, or may be mapped to a plurality of pixels.
  • a plurality of pixels may be grouped together to form a subblock 155, and one haptics data may be mapped to the subblock 155. That is, in this case, one haptics data is mapped to a plurality of pixels (Y0 to Y3) in the subblock 155.
  • the haptics data may be arranged in each of the Y component, Pr component, and Pb component of the two-dimensional image.
  • force sensation data can have multiple components.
  • force sensation data can have multiple components.
  • a three-axis force sensor that detects the applied force in three directions, there is one that generates force data consisting of three components of Fz, Mx, and My.
  • such force sensory data composed of a plurality of components may be divided for each component and arranged in the Y component, Pr component, and Pb component of the two-dimensional image.
  • Fz is arranged in the Y component
  • Mx is arranged in the Pr component
  • My is arranged in the Pb component.
  • the Y component, Pb component, and Pr component are each composed of 10 bits
  • Fz, Mx, and My are each composed of 8 bits.
  • Fz, Mx, and My are set in the lower 8 bits of each component, respectively.
  • the pixel value of the motion focus map (that is, information indicating whether or not there is motion and whether or not attention should be paid) is set in the upper two bits of each component.
  • a 1-bit motion focus map is assigned to the MSbit 1 bit of each component.
  • the bit length (bit depth) of each component of the force sensor data may be different from that of other components.
  • the bit length of Fz may be 16 bits
  • the bit lengths of Mx and My may be 4 bits. Since Mx and My indicate the direction in which the force is applied, two bits each can represent 16 directions as shown in B of FIG. If Mx and My are each composed of 4 bits as shown in A of FIG. 12, more accurate orientation specification can be realized. That is, by adopting the bit length configuration as shown in FIG. 12A, it is possible to suppress an increase in the amount of data while maintaining sufficient accuracy.
  • the sampling ratio of each component of the haptics composite image (that is, the sampling ratio of YPbPr of the two-dimensional image that maps the haptics data) is arbitrary. For example, as in the example of FIG. 11, it may be 4: 4: 4, it may be 4: 2: 0, it may be 4: 2: 2, or it may be other than that.
  • Fz is arranged in 4 pixels (Y0 to Y3) of Y component
  • Mx is arranged in 1 pixel (Pb0) of Pb component
  • My is arranged in 1 pixel (Pr0) of Pr component. You may do so.
  • Fz is divided into four (divided by four bits) in the bit depth direction, and is arranged in four pixels of the Y component.
  • the bit lengths of Mx and My are set to 8 bits, and as shown in FIG. 14, the subblock corresponding to the detection position of the haptic data.
  • Fz is arranged in 4 pixels (Y0 to Y3) of Y component
  • Mx is arranged in 2 pixels of Pb component (Pb0, Pb2)
  • My is arranged in 1 pixel of Pr component (Pr0, Pr2).
  • Fz is divided into four (divided by four bits) in the bit depth direction, and is arranged in four pixels of the Y component.
  • Mx is divided into two (divided by 4 bits) in the bit depth direction and arranged in two pixels of the Pb component.
  • My is divided into two (divided by 4 bits) in the bit depth direction and arranged in two Pr component pixels.
  • bit assignments may be defined so as not to affect the value of the container target when setting the quantization step size at the time of video coding. For example, when the encoder quantization step size is 16, the lower 4 bits (blank parts in FIGS. 13 and 14) of each element to be containerized are set to 0, and the lower 5 bits are the LSB (Least Significant Bit) of the force sense data. Bit assignment may be performed so as to be.
  • the vibration data may be divided in the bit depth direction, and each divided data may be arranged in the Y component, the Pb component, and the Pr component.
  • the bit length of the vibration data Amp is 24 bits, which are divided into 8 bits and arranged in the Y component, the Pb component, and the Pr component, respectively.
  • the vibration data is divided into 6 as shown in FIG. 16, and the Y component is 4 pixels, the Pb component is 1 pixel, and the Pr component is 1 pixel. It may be arranged in.
  • the 24-bit vibration data Amp is divided into 4 bits each. Further, the value of the lower bits (for example, the lower 4 bits) of each element may be set to 0 to suppress the influence of the quantization of the encoder. When a certain rounding is performed on the amplitude value, more efficient container arrangement is possible.
  • the sampling rate of vibration data may be higher than the frame rate due to the characteristics of the information. For example, if the vibration sampling frequency is 1 kHz and each sampled data is mapped to different frames, the frame rate of the haptic composite image must be a high frame rate of 1 kHz or higher, which increases processing costs and transmission costs. There is a risk.
  • the video frame frequency of a typical UHDTV is 60 Hz, which is lower than the vibration sampling frequency described above.
  • vibration data also has the characteristic that its positional resolution is low. That is, the values tend to match or resemble in a wide range of areas as compared with the separation data and the like. Therefore, the vibration data is less likely to cause a problem even if it is assigned to a wide area of the two-dimensional image as compared with the force sense data or the like.
  • the vibration data may be arranged in a block, and each sampling data may be arranged in each sub-block within the block.
  • 16 vibration sampling data that are continuous in time series can be arranged at a plurality of container pixel positions with respect to a certain vibration point. can. Therefore, for example, if the frame frequency of the haptic composite image is 60 Hz, the sampling frequency of the vibration data can be increased to 960 Hz. In other words, in this case, it is possible to map vibration data having a sampling frequency of 960 Hz or less.
  • vibration data with a sampling rate higher than the frame rate can also be arranged.
  • the number of subblocks in the block is arbitrary.
  • the area where the vibration data is arranged is arbitrary and is not limited to the block.
  • vibration data may be arranged for a plurality of blocks.
  • ⁇ Temperature data> In the case of temperature data representing a temperature state, which is another example of tactile data, the method of arranging the vibration data is the same. However, the temperature data tends to change at a slower rate than the vibration data. That is, the sampling rate may be lower than that of the vibration data, and therefore, more accurate information mapping is possible.
  • the control information related to the haptics data may also be transmitted.
  • This control information is optional. For example, as shown in FIG. 18, information indicating the number and direction of views, flag information regarding a haptics composite image, information regarding mapped haptics data, and the like may be included, or information other than these. May be included.
  • the control information can be referred to on the receiving side, and haptics data can be handled more easily.
  • step S102 the motion image generation unit 131 of the motion pixel editing unit 102 calculates the inter-frame difference and generates a motion pixel map.
  • step S103 the pixel editing unit 132 of the motion pixel editing unit 102 edits the pixels, adds the focus data to the motion pixel map, and generates the motion focus map.
  • step S104 the pixel mapping unit 141 of the media information synthesis unit 103 maps force sense data and tactile data to a two-dimensional image (pixel space).
  • step S105 the composite image generation unit 142 of the media information synthesis unit 103 synthesizes the two-dimensional image to which the haptics data is mapped and the motion focus map to generate a haptics composite image.
  • step S106 the coding unit 104 encodes the haptics composite image and converts the haptics composite image into coded data (haptics composite video coded stream).
  • step S107 the container processing unit 105 performs container processing and stores the coded data (haptics synthetic video coded stream) in a file having a predetermined file format.
  • step S108 the container processing unit 105 transmits the file to a transmission destination (for example, a receiving device). When the process of step S108 is completed, the transmission process is completed.
  • haptics data can be mapped to a two-dimensional image and transmitted, and an increase in the load of haptics data transmission can be suppressed.
  • the Q_step value may be determined in relation to the accuracy of the pixel container value. That is, the N bits may be raised to use the space of the Y / Pb / Pr components.
  • FIG. 20 is a diagram illustrating an outline of a receiving device which is an embodiment of an information processing device to which the present technology is applied.
  • the receiving device 200 shown in FIG. 20 is a device that receives haptics data such as haptic data and tactile data transmitted from another device at a remote location.
  • the receiving device 200 corresponds to the transmitting device 100, and can receive and process a file transmitted from the transmitting device 100 to acquire haptics data.
  • FIG. 20 shows the main things such as the processing unit and the data flow, and not all of them are shown in FIG. 20. That is, in the receiving device 200, there may be a processing unit that is not shown as a block in FIG. 20, or there may be a processing or data flow that is not shown as an arrow or the like in FIG.
  • the receiving device 200 has a container processing unit 201, a decoding unit 202, a media information analysis unit 203, and a haptics presentation unit 204.
  • the container processing unit 201 receives a file in which the haptics composite video coded stream, which is the coded data of the haptics composite image, is stored.
  • the container processing unit 201 analyzes the file, extracts a haptics composite video coded stream, and supplies the haptics synthesis video coded stream to the decoding unit 202.
  • the decoding unit 202 acquires the haptics composite video coded stream supplied from the container processing unit 201, decodes it, and generates a haptics composite image. This decoding method is arbitrary as long as it corresponds to the coding method by the coding unit 104.
  • the decoding unit 202 supplies the data of the haptic composite image to the media information analysis unit 203.
  • the media information analysis unit 203 analyzes the haptics composite image and extracts haptics data such as force sense data and tactile data.
  • the media information analysis unit 203 supplies the extracted haptics data to the haptics presentation unit 204.
  • the haptics presentation unit 204 acquires the haptics data supplied from the media information analysis unit 203.
  • the haptics presentation unit 204 presents the haptics data on the media and outputs the haptics data to another device (for example, a haptics device having an actuator).
  • each processing unit may be configured by a logic circuit that realizes the above-mentioned processing.
  • each processing unit may have, for example, a CPU, ROM, RAM, etc., and execute a program using them to realize the above-mentioned processing.
  • each processing unit may have both configurations, and a part of the above-mentioned processing may be realized by a logic circuit, and the other may be realized by executing a program.
  • the configurations of the respective processing units may be independent of each other. For example, some processing units realize a part of the above-mentioned processing by a logic circuit, and some other processing units execute the program.
  • the above-mentioned processing may be realized by the other processing unit by both the logic circuit and the execution of the program.
  • FIG. 21 is a block diagram showing a main configuration example of the media information analysis unit 203.
  • the media information analysis unit 203 includes a position information extraction unit 221, a physical space remapping unit 222, and a force / tactile information extraction unit 223.
  • the position information extraction unit 221 acquires a haptics composite image supplied from the decoding unit 202.
  • the position information extraction unit 221 analyzes the haptics composite image and extracts position information indicating the position to which the haptics data such as force sense data and tactile data are mapped.
  • the position information extraction unit 221 extracts the position information with reference to the motion attention map included in the haptics composite image.
  • the position information extraction unit 221 can extract the position information of the haptics data of the moving portion and the haptics data of the portion of interest.
  • the position information extraction unit 221 supplies the position information to the physical space remapping unit 222. Further, the position information extraction unit 221 supplies the haptic composite image and the position information to the force / tactile information extraction unit 223.
  • the physical space remapping unit 222 remaps the position information supplied from the position information extraction unit 221 to the three-dimensional space (3D physical space) and generates the 3D physical space position information. That is, the position of the haptics data in the 3D physical space is set.
  • the physical space remapping unit 222 was obtained from the sensor position, 3D_slope, etc. of the camera parameters so that the zn axis of each camera is parallel to the 3D reference coordinate axis Z and aligned in the vertical direction with respect to the ROI region. Correct the pixel position in the renderer coordinate system. Also, the camera parameter capture_normal_vector, which indicates the lens orientation of each view, is corrected so that it intersects at the correct angle.
  • the remapped coordinates are remapped to the physical space by multiplying the scaling ratio S corresponding to position_mapping_ratio, and output to the renderer.
  • any method of coordinate transformation such as affine transformation or homography transformation is performed on each two-dimensional image.
  • the physical space remapping unit 222 supplies the 3D physical space position information to the haptics presentation unit 204.
  • the force / tactile information extraction unit 223 extracts haptics data such as force / tactile data and tactile data from the haptics composite image supplied from the position information extraction unit 221 based on the position information supplied from the position information extraction unit 221. do. That is, the force / tactile information extraction unit 223 extracts haptics data from the position indicated by the position information in the haptics composite image. The force / tactile information extraction unit 223 supplies the extracted haptics data to the haptics presentation unit 204.
  • the haptics presentation unit 204 can arrange and present the extracted haptics data at a position in the 3D physical space indicated by the 3D physical space position information. That is, since the relationship between the transmitted haptics data can be correctly expressed, each transmitted haptics data can be correctly used in the subsequent device.
  • the receiving device 200 can correctly acquire the haptics data mapped to the two-dimensional image and transmitted. In other words, the receiving device 200 can realize such a transmission method. Therefore, the receiving device 200 can suppress an increase in the load of haptics data transmission.
  • the container processing unit 201 of the receiving device 200 receives the file transmitted from the transmitting device 100 or the like in step S201.
  • the container processing unit 201 analyzes the file (container) and extracts the haptics composite video coded stream.
  • step S203 the decoding unit 202 decodes the haptics composite video coded stream and generates a haptics composite image.
  • step S204 the position information extraction unit 221 of the media information analysis unit 203 detects the ROI region. Further, in step S205, the position information extraction unit 221 extracts the position information.
  • step S206 the force / tactile information extraction unit 223 extracts haptics data such as force / tactile data from the haptics composite image.
  • step S207 the force / tactile information extraction unit 223 outputs the extracted haptics data to the outside of the receiving device 200 (for example, another device).
  • step S208 the physical space remapping unit 222 maps the position information (that is, haptics data) to the 3D physical space.
  • step S209 the haptics presentation unit 204 arranges the extracted haptics data at a location indicated by the 3D physical space position information and presents the media.
  • step S209 When the process of step S209 is completed, the reception process is completed.
  • the receiving device 200 can suppress an increase in the load of haptics data transmission.
  • the number of dimensions captured by the image sensor (that is, the number of cameras that generate captured images) is arbitrary.
  • a subject may be imaged using nine cameras.
  • the subject may be imaged using three cameras.
  • the view may be a captured image of a virtual viewpoint generated from an actual captured image without a physical camera.
  • haptics data described above may be bidirectional, as shown in FIG. 24, for example.
  • the haptics data detected by the user of the local operator operating the haptics device having the sensor is imaged as described above and transmitted (forward) to the remote device as a haptics composite image (encoded data). ) May be done.
  • the remote device which is a haptics device having an actuator, reproduces the movement of the haptics device on the local operator side by using the transmitted haptics data.
  • the remote device grasps the object by reproducing this movement, the force sense data, tactile data, etc. (haptics data) at that time are detected by the remote device (sensor) and transmitted (feedback) to the local operator side. ..
  • the haptics data may be imaged as described above and transmitted as (encoded data) of the haptics composite image.
  • the haptics device on the local operator side uses the transmitted haptics data to reproduce the force and tactile sensation detected on the remote device.
  • the user who is a local operator can experience the force and tactile sensation detected in the remote device through the haptics device.
  • haptics data to be fed back in this way By selecting the haptics data to be fed back in this way from a plurality of haptics data to be forward-transmitted by using the marker of interest, it is possible to suppress the feedback transmission of unnecessary haptics data. , It is possible to suppress an increase in the load of haptics data transmission.
  • FIG. 25 is a diagram illustrating an outline of a remote control system which is an embodiment of a communication system (information processing system) to which the present technology is applied.
  • the remote control system 300 shown in FIG. 25 has a local system 301 and a remote system 302 that are remote from each other.
  • the local system 301 and the remote system 302 each have a haptics device, communicate with each other via the network 310, and realize remote control of the haptics device by exchanging haptics data. For example, the operation input to one haptics device can be reproduced in the other haptics device.
  • the system on the main side of communication is referred to as the local system 301
  • the system on the other side of the communication is referred to as the remote system 302.
  • the local system 301 and the remote system 302 basically play the same role as each other. It is a system that can be carried. Therefore, unless otherwise specified, the description of the local system 301 described below can also be applied to the remote system 302.
  • the configurations of the local system 301 and the remote system 302 are arbitrary.
  • the configuration of the local system 301 and the configuration of the remote system 302 may be different from each other or may be the same as each other. Further, in FIG. 25, one local system 301 and one remote system 302 are shown, but the remote control system 300 can have an arbitrary number of local systems 301 and remote systems 302, respectively.
  • the remote control system 300 can have an MPD server 303.
  • the MPD server 303 performs processing related to registration and provision of MPD (Media Presentation Description) of DASH (Dynamic Adaptive Streaming over HTTP) to the local system 301 and the remote system 302.
  • the local system 301 and the remote system 302 can use this MPD to select and acquire necessary information.
  • the configuration of the MPD server 303 is also arbitrary, and the number thereof is also arbitrary.
  • this MPD server 303 can be omitted.
  • the local system 301 or the remote system 302 may supply the MPD to the communication partner.
  • the local system 301 and the remote system 302 may exchange haptics data without using MPD.
  • the network 310 is composed of, for example, a local area network, a network by a dedicated line, a WAN (Wide Area Network), the Internet, cellular communication, satellite communication, or any other wired communication network, wireless communication network, or both. Further, the network 310 may be composed of a plurality of communication networks.
  • FIG. 26 is a block diagram showing a main configuration example of the local system 301. Note that FIG. 26 shows the main things such as the processing unit and the data flow, and not all of them are shown in FIG. 26. That is, in each device included in the local system 301, there is a processing unit that is not shown as a block in FIG. 26, or there is a processing or data flow that is not shown as an arrow or the like in FIG. 26. May be good.
  • the local system 301 has a haptics device 321 and a communication device 322, a digital interface 323, and a digital interface 324.
  • the haptics device 321 is a device that can serve as an interface for a user or a remote device, and generates haptics data or drives it based on the haptics data. Further, for example, the haptics device 321 can supply haptics data and the like to the communication device 322 via the digital interface 323. Further, the haptics device 321 can acquire haptics data and the like supplied from the communication device 322 via the digital interface 324.
  • the communication device 322 can communicate with another device via the network 310 (FIG. 25).
  • the communication device 322 can, for example, exchange haptics data and exchange MPDs by the communication. Further, the communication device 322 can acquire haptics data and the like supplied from the haptics device 321 via the digital interface 323, for example. Further, the communication device 322 can supply haptics data and the like to the haptics device 321 via the digital interface 324.
  • the digital interface 323 and the digital interface 324 are interfaces for digital devices of arbitrary standards such as USB (Universal Serial Bus) (registered trademark) and HDMI (High-Definition Multimedia Interface) (registered trademark).
  • the haptics device 321 includes an image sensor 331, an ROI setting unit 332, a motion pixel editing unit 333, a media information synthesis unit 334, a media information analysis unit 341, a renderer 342, an actuator 343, and a haptics interface (I / F) 344.
  • the ROI setting unit 332 is the same processing unit as the ROI setting unit 101 (FIG. 2), and can perform the same processing.
  • the motion pixel editing unit 333 is the same processing unit as the motion pixel editing unit 102 (FIG. 2), and can perform the same processing.
  • the media information synthesis unit 334 is the same processing unit as the media information synthesis unit 103 (FIG. 2), and can perform the same processing.
  • the media information analysis unit 341 is the same processing unit as the media information analysis unit 203 (FIG. 20), and can perform the same processing.
  • the renderer 342 is a processing unit similar to the haptics presentation unit 204 (FIG. 20), and can perform the same processing.
  • the communication device 322 includes a composer 351, an encoding unit 352, a container processing unit 353, an MPD generation unit 354, an imaging unit 355, a video coding unit 356, a container processing unit 361, a decoding unit 362, an MPD control unit 363, and a video decoding unit. It has a conversion unit 364 and a display unit 365.
  • the coding unit 352 is the same processing unit as the coding unit 104 (FIG. 2), and can perform the same processing.
  • the container processing unit 353 is the same processing unit as the container processing unit 105 (FIG. 2), and can perform the same processing.
  • the container processing unit 361 is the same processing unit as the container processing unit 201 (FIG. 20), and performs the same processing.
  • the decoding unit 362 is the same processing unit as the decoding unit 202 (FIG. 20), and performs the same processing.
  • the remote system 302 can also have the same configuration as the local system 301.
  • the local system 301 and the remote system 302 can perform bidirectional transmission (forward, feedback) of the haptic composite image as described with reference to FIG. 24, for example.
  • the ROI setting unit 332 transfers the observation point (for example, a joint or the like) of the haptics interface 344 from the captured image. Derivation of spatial coordinates (coordinates of 3D coordinate system) and set ROI.
  • the image sensor 331 may have a plurality of cameras, and a plurality of captured images (plurality of views) obtained by the plurality of cameras are used in the ROI setting unit 332 and the motion pixel editing unit 333. Can be supplied. Further, the image sensor 331 is arbitrary, for example, a magnetic sensor that detects position or movement, an ultrasonic sensor, a GPS (Global Positioning System) sensor, a gyro sensor that detects a motion state such as angular velocity, an acceleration sensor that detects acceleration, or the like. It may have a sensor of.
  • the motion pixel editing unit 333 generates a motion focus map using the supplied captured image and ROI setting information and the like.
  • the media information synthesis unit 334 maps the haptics data detected by the sensor of the haptics interface 344 to a two-dimensional image using the motion attention map, and generates a haptics composite image.
  • the media information synthesis unit 334 supplies the generated haptics composite image to the communication device 322 via the digital interface 323.
  • the composer 351 of the communication device 322 acquires the haptic composite image and supplies it to the coding unit 352.
  • the coding unit 352 encodes the haptics composite image supplied from the composer 351 and generates coded data (haptics composite video coded stream). At that time, the coding unit 352 may encode the haptics composite image as a picture of a moving image, and may further add control information regarding the haptics data to each picture. It is supplied to the container processing unit 353.
  • the container processing unit 353 stores the coded data in a file for transmission. For example, the container processing unit 353 may generate an ISOBMFF format file for storing the coded data. Further, the container processing unit 353 may store the control information related to the haptics data in the media box of the file. The container processing unit 353 forwards it to the remote system 302.
  • the container processing unit 361 of the communication device 322 of the remote system 302 receives the file, analyzes it, and extracts the coded data (haptics synthetic video coded stream).
  • the decoding unit 362 decodes the coded data (haptics composite video coded stream) and generates (restores) the haptics composite image.
  • the decoding unit 362 supplies the haptics composite image to the haptics device 321 via the digital interface 324.
  • the media information analysis unit 341 of the haptics device 321 acquires the haptics composite image and extracts the haptics data.
  • the renderer 342 renders using the haptics data and generates control information for the actuator 343.
  • the actuator 343 drives the haptics interface 344 in response to the control information.
  • the haptics interface 344 functions as an interface for force sense data, tactile sense data, and the like for an operator who is a user, a remote device, and the like. That is, the haptics interface 344 of the remote system 302 is controlled by the actuator 343, and the movement (force sense or tactile sense) of the haptics interface 344 on the local system 301 side represented by the haptics data forward-transmitted as described above. Etc.) is reproduced.
  • the ROI setting unit 332 uses the captured image to obtain the spatial coordinates (for example, joints, etc.) of the observation point (for example, joints) of the haptics interface 344.
  • the coordinates of the 3D coordinate system) are derived and the ROI is set.
  • the motion pixel editing unit 333 generates a motion focus map using the captured image and ROI setting information and the like.
  • the media information synthesis unit 334 generates a haptics composite image using the motion attention map, and supplies the haptics composite image to the communication device 322 via the digital interface 323.
  • the composer 351 of the communication device 322 acquires the haptic composite image.
  • the coding unit 352 encodes the haptic composite image and generates coded data (haptics composite video coded stream).
  • the container processing unit 353 stores the encoded data in a file for transmission and transmits it to the local system 301 (feedback).
  • the container processing unit 361 of the communication device 322 of the local system 301 receives the file, analyzes it, and extracts the coded data (haptics synthetic video coded stream).
  • the decoding unit 362 decodes the coded data (haptics composite video coded stream) and generates (restores) the haptics composite image.
  • the decoding unit 362 supplies the haptics composite image to the haptics device 321 via the digital interface 324.
  • the media information analysis unit 341 of the haptics device 321 acquires the haptics composite image and extracts the haptics data.
  • the renderer 342 renders using the haptics data and generates control information for the actuator 343.
  • the actuator 343 drives the haptics interface 344 in response to the control information.
  • the haptics interface 344 functions as an interface for force sense data, tactile sense data, and the like for an operator who is a user, a remote device, and the like. That is, the haptics interface 344 of the remote system 302 is controlled by the actuator 343, and the information (force) detected in the haptics interface 344 on the remote system 302 side represented by the haptics data fed back and transmitted as described above. Reproduce the sense (reaction), touch, etc.).
  • the local system 301 and the remote system 302 can realize bidirectional transmission of haptics data.
  • the local system 301 and the remote system 302 can generate and transmit an MPD which is control information for controlling the reproduction of the haptics data, or receive the MPD to control the reproduction of the haptics data. ..
  • the MPD generation unit 354 acquires a haptics composite image from the composer 351 and generates an MPD including control information regarding the haptics data included in the haptics composite image.
  • the coding unit 352 encodes the MPD.
  • the container processing unit 353 stores the coded data of the MPD in a transmission file, and transmits it to, for example, the MPD server 403.
  • the container processing unit 353 may transmit the transmission file in which the coded data of the MPD is stored to the remote system 302.
  • the decoding unit 362 decodes the coded data to generate the MPD.
  • the MPD control unit 363 can control the container processing unit 361 using the MPD and acquire desired haptics data.
  • the local system 301 and the remote system 302 can also exchange data that is not haptics data.
  • the imaging unit 355 captures a subject and generates captured image data
  • the video coding unit 356 encodes the captured image data
  • the container processing unit 353 stores the encoded data in a transmission file for a remote system. It can be sent to 302.
  • the container processing unit 361 receives the transmission file, extracts the encoded data of the captured image data, the video decoding unit 364 decodes it to generate the captured image data, and the display unit 365 generates the captured image data.
  • the captured image corresponding to the data can be displayed on a monitor or the like.
  • this technology can be applied to bidirectional transmission as well, and an increase in the load of haptics data transmission can be suppressed.
  • MPDs can be generated, supplied, and acquired. Therefore, for example, control information related to haptics data can be exchanged using this MPD. Therefore, this control information can be acquired before the haptics composite image (encoded data) is exchanged.
  • FIG. 27 is a block diagram showing a main configuration example of the MPD server 303.
  • the CPU 401, ROM 402, and RAM 403 are connected to each other via the bus 404.
  • the input / output interface 410 is also connected to the bus 404.
  • An input unit 411, an output unit 412, a storage unit 413, a communication unit 414, and a drive 415 are connected to the input / output interface 410.
  • the input unit 411 may include any input device such as a keyboard, a mouse, a microphone, a touch panel, an image sensor, a motion sensor, and various other sensors. Further, the input unit 411 may include an input terminal.
  • the output unit 412 may include any output device, such as a display, a projector, a speaker, and the like. Further, the output unit 412 may include an output terminal.
  • the storage unit 413 includes, for example, an arbitrary storage medium such as a hard disk, a RAM disk, or a non-volatile memory, and a storage control unit that writes or reads information from the storage medium.
  • the communication unit 414 includes, for example, a network interface.
  • the drive 415 drives an arbitrary removable recording medium 421 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, and writes or reads information from the removable recording medium 421.
  • the CPU 401 loads the program stored in the storage unit 413 into the RAM 403 via the input / output interface 410 and the bus 404 and executes the program, which will be described later. Realize various functions indicated by the function blocks to be performed.
  • the RAM 403 also appropriately stores data and the like necessary for the CPU 401 to execute various processes of the program.
  • the program executed by the computer can be recorded and applied to the removable recording medium 421 as a package medium or the like, for example.
  • the program can be installed in the storage unit 413 via the input / output interface 410 by mounting the removable recording medium 421 in the drive 415.
  • This program can also be provided via a wired or wireless transmission medium such as a local area network, a leased line network, or WAN, Internet, satellite communication, etc. In that case, the program can be received by the communication unit 414 and installed in the storage unit 413.
  • a wired or wireless transmission medium such as a local area network, a leased line network, or WAN, Internet, satellite communication, etc.
  • the program can be received by the communication unit 414 and installed in the storage unit 413.
  • this program can be installed in advance in ROM 402 or storage unit 413.
  • the haptic composite image sent and received in the remote control system 300 is stored in, for example, an ISOBMFF (ISO Base Media File Format) format container (transmission file).
  • ISOBMFF ISO Base Media File Format
  • the container has an IS (Initialization Segment) and an MS (Media Segment).
  • the track identification information (trackID), time stamp (Timestamp), etc. are stored in the MS.
  • MPD is associated with this MS.
  • SEI Supplemental Enhancement Information
  • the SEI (Haptics_data_embeddding_information SEI) for this haptics data is used, for example, when the haptics composite image is encoded as a picture of a moving image by the coding unit 104 or the like, for example, a frame of the haptics composite image is used for the encoded data. Contains control information about the haptics data that is added each time and mapped to that frame.
  • ⁇ SEI> 29, 30, and 31 show an example of the SEI (Haptics_data_embedding_information SEI) syntax for the haptics data.
  • FIGS. 32 and 33 show examples of the semantics.
  • control information related to haptics data can also be described in the MPD as described above.
  • control based on MPD is to access the MPD server 303, acquire and analyze the MPD file, consider the possible bandwidth on the receiving network, and select the bit rate so that the bit rate is appropriate. It can be carried out. Further, depending on the device configuration on the receiving side, it is also possible to control the selection of the composite image to be distributed so as to be within the reproducible range.
  • a new schema may be defined using the Supplementary descriptor.
  • the media information synthesis unit 334 may control to realize the request.
  • a description example of MPD is shown in FIGS. 34 and 35. In the case of this example, it is possible to select whether the total amount of the coded bit rate is 4 Mbps or 2 Mbps.
  • the target rate can be achieved by switching the parameters of sensor views and motion map according to this selection.
  • FIG. 36 shows an example of an MPD including control information regarding the haptics data transmitted from the local system 301 to the remote system 302.
  • FIG. 37 shows an example of an MPD including control information regarding haptics data transmitted from the remote system 302 to the local system 301.
  • An example of the semantics of MPD elements is shown in FIG.
  • the control information related to the haptics data can also be stored in the ISOBMFF media box (for example, hpmb in FIG. 28).
  • the parameters shown in FIG. 39 can be stored in hpmb (hptc_mediabox).
  • hpmb hptc_mediabox
  • Addendum> ⁇ Computer> The series of processes described above can be executed by hardware or software.
  • the programs constituting the software are installed on the computer.
  • the computer includes a computer embedded in dedicated hardware, a general-purpose personal computer capable of executing various functions by installing various programs, and the like.
  • FIG. 40 is a block diagram showing a configuration example of computer hardware that executes the above-mentioned series of processes programmatically.
  • the CPU Central Processing Unit
  • ROM ReadOnly Memory
  • RAM RandomAccessMemory
  • the input / output interface 910 is also connected to the bus 904.
  • An input unit 911, an output unit 912, a storage unit 913, a communication unit 914, and a drive 915 are connected to the input / output interface 910.
  • the input unit 911 includes, for example, a keyboard, a mouse, a microphone, a touch panel, an input terminal, and the like.
  • the output unit 912 includes, for example, a display, a speaker, an output terminal, and the like.
  • the storage unit 913 includes, for example, a hard disk, a RAM disk, a non-volatile memory, or the like.
  • the communication unit 914 includes, for example, a network interface.
  • the drive 915 drives a removable recording medium 921 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
  • the CPU 901 loads the program stored in the storage unit 913 into the RAM 903 via the input / output interface 910 and the bus 904 and executes the above-described series. Is processed.
  • the RAM 903 also appropriately stores data and the like necessary for the CPU 901 to execute various processes.
  • the program executed by the computer can be recorded and applied to, for example, a removable recording medium 921 as a package medium or the like.
  • the program can be installed in the storage unit 913 via the input / output interface 910 by mounting the removable recording medium 921 in the drive 915.
  • This program can also be provided via a wired or wireless transmission medium such as a local area network, a leased line network, or WAN, Internet, satellite communication, etc. In that case, the program can be received by the communication unit 914 and installed in the storage unit 913.
  • a wired or wireless transmission medium such as a local area network, a leased line network, or WAN, Internet, satellite communication, etc.
  • the program can be received by the communication unit 914 and installed in the storage unit 913.
  • this program can be installed in advance in ROM 902 or storage unit 913.
  • this technology is a transmitter or receiver (for example, for satellite broadcasting, cable broadcasting such as cable TV, Internet, local area network, distribution on a dedicated line network or WAN, and distribution to terminals by cellular communication.
  • Various devices for example, hard disk recorders and cameras) that record images on media such as television receivers and mobile phones, or on media such as optical disks, magnetic disks, and flash memories, and reproduce images from these storage media. Can be applied to various electronic devices.
  • a processor as a system LSI (Large Scale Integration) or the like (for example, a video processor), a module using a plurality of processors (for example, a video module), a unit using a plurality of modules (for example, a video unit)
  • a processor as a system LSI (Large Scale Integration) or the like
  • a module using a plurality of processors for example, a video module
  • a unit using a plurality of modules for example, a video unit
  • it can be implemented as a configuration of a part of the device, such as a set (for example, a video set) in which other functions are added to the unit.
  • this technology can be applied to a network system composed of a plurality of devices.
  • the present technology may be implemented as cloud computing that is shared and jointly processed by a plurality of devices via a network.
  • this technology is implemented in a cloud service that provides services related to images (moving images) to arbitrary terminals such as computers, AV (AudioVisual) devices, portable information processing terminals, and IoT (Internet of Things) devices. You may try to do it.
  • the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a device in which a plurality of modules are housed in one housing are both systems. ..
  • the above-mentioned series of processes can be executed by hardware or software.
  • the programs constituting the software are installed on the computer.
  • the computer includes a computer embedded in dedicated hardware, a general-purpose personal computer capable of executing various functions by installing various programs, and the like.
  • the configuration described as one device (or processing unit) may be divided and configured as a plurality of devices (or processing units).
  • the configurations described above as a plurality of devices (or processing units) may be collectively configured as one device (or processing unit).
  • a configuration other than the above may be added to the configuration of each device (or each processing unit).
  • a part of the configuration of one device (or processing unit) may be included in the configuration of another device (or other processing unit). ..
  • the above-mentioned program may be executed in any device.
  • the device may have necessary functions (functional blocks, etc.) so that necessary information can be obtained.
  • each step of one flowchart may be executed by one device, or may be shared and executed by a plurality of devices.
  • the plurality of processes may be executed by one device, or may be shared and executed by a plurality of devices.
  • a plurality of processes included in one step can be executed as processes of a plurality of steps.
  • the processes described as a plurality of steps can be collectively executed as one step.
  • the processing of the steps for writing the program may be executed in chronological order in the order described in the present specification, and the calls may be made in parallel or in parallel. It may be executed individually at the required timing such as when it is broken. That is, as long as there is no contradiction, the processing of each step may be executed in an order different from the above-mentioned order. Further, the processing of the step for writing this program may be executed in parallel with the processing of another program, or may be executed in combination with the processing of another program.
  • a plurality of technologies related to this technology can be independently implemented independently as long as there is no contradiction.
  • any plurality of the present technologies can be used in combination.
  • some or all of the techniques described in any of the embodiments may be combined with some or all of the techniques described in other embodiments. It is also possible to carry out a part or all of any of the above-mentioned techniques in combination with other techniques not described above.
  • the present technology can also have the following configurations.
  • a pixel mapping unit that maps haptics data detected at the observation point of the haptics device that serves as an interface to pixels in a two-dimensional image
  • An information processing device including a coding unit that encodes the two-dimensional image to which the haptics data is mapped by the pixel mapping unit and generates encoded data.
  • the pixel mapping unit maps the haptics data to pixels corresponding to detection positions of the haptics data in the two-dimensional image.
  • the pixel mapping unit arranges the haptics data in each of the Y component, Pr component, and Pb component of the two-dimensional image.
  • the haptics data includes force sense data including information on force sense.
  • the information processing apparatus according to (3), wherein the pixel mapping unit divides the force sense data into components and arranges them in the Y component, the Pr component, and the Pb component of the two-dimensional image.
  • the haptics data includes tactile data including information on tactile sensation.
  • the pixel mapping unit is described in any one of (1) to (5), wherein one haptics data is divided in the bit depth direction and arranged in each pixel of a subblock composed of a plurality of pixels.
  • the information processing apparatus (7) The information processing apparatus according to (6), wherein the pixel mapping unit arranges the haptics data sampled a plurality of times in a plurality of the sub-blocks included in one block for each sampled data.
  • a composite image generation unit that generates a composite image in which the two-dimensional image to which the haptics data is mapped by the pixel mapping unit and an image indicating the position of movement are combined.
  • the information processing apparatus according to any one of (1) to (7), wherein the coding unit encodes the composite image and generates the coded data.
  • the image showing the position of the movement further indicates the position of interest.
  • the coding unit is The two-dimensional image to which the haptics data is mapped is encoded as a picture of a moving image. Further, the information processing apparatus according to any one of (1) to (9), wherein control information related to the haptics data is added to each of the pictures. (11) The information processing apparatus according to any one of (1) to (10), further comprising an MPD generation unit that generates an MPD including control information related to the haptics data. (12) Further provided with a file generation unit for generating an ISOBMFF format file for storing the coded data. The information processing device according to any one of (1) to (11), wherein the file generation unit stores control information related to the haptics data in a media box of the file.
  • the haptics data detected at the observation point of the haptics device as the interface is mapped to the pixels of the two-dimensional image.
  • An information processing method that encodes the two-dimensional image to which the haptics data is mapped and generates encoded data.
  • a decoding unit that decodes the coded data and generates a two-dimensional image to which the haptics data detected at the observation point of the interface haptics device is mapped.
  • An information processing device including an extraction unit that extracts the haptics data from the two-dimensional image generated by the decoding unit.
  • the coded data is decoded to generate a two-dimensional image to which the haptics data detected at the observation point of the haptics device as the interface is mapped.
  • 100 transmitter 101 ROI setting unit, 102 motion pixel editing unit, 103 media information synthesis unit, 104 coding unit, 105 container processing unit, 131 motion image generation unit, 132 pixel editing unit, 141 pixel mapping unit, 142 composite image Generation unit, 200 receiving device, 201 container processing unit, 202 decoding unit, 203 media information analysis unit, 204 haptics presentation unit, 221 position information extraction unit, 222 physical space remapping unit, 223 force / tactile information extraction unit, 300 Remote operation system, 301 local system, 302 remote system, 303 MPD server, 321 haptics device, 322 communication device, 331 image sensor, 332 ROI setting unit, 333 movement pixel editing unit, 334 media information synthesis unit, 341 media information analysis Department, 342 renderer, 343 actuator, 344 haptics I / F, 351 composer, 352 encoding unit, 353 container processing unit, 354 MPD generation unit, 361 container processing unit, 362 decoding unit, 363 MPD control unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

The present disclosure relates to an information processing device and method which make it possible to suppress an increase in the load of haptics data transmission. Haptics data detected at an observation point of a haptics device serving as an interface is mapped to pixels of a two-dimensional image, and the two-dimensional image obtained by the mapping of the haptics data is encoded to generate encoded data. Further, the encoded data is decoded, the two-dimensional image obtained by mapping the haptics data detected at the observation point of the haptics device serving as an interface is generated, and the haptics data is extracted from the generated two-dimensional image. The present disclosure may be applicable, for example, to information processing systems, information processing devices, communication devices, encoding devices, decoding devices, electronic apparatus, information processing methods, or programs and the like.

Description

情報処理装置および方法Information processing equipment and methods
 本開示は、情報処理装置および方法に関し、特に、ハプティクスデータ伝送の負荷の増大を抑制することができるようにした情報処理装置および方法に関する。 The present disclosure relates to an information processing device and a method, and more particularly to an information processing device and a method capable of suppressing an increase in a load of haptics data transmission.
 従来、力覚データや触覚データ等を伝送することにより、遠隔操作を行うシステムが考えられた(例えば非特許文献1および非特許文献2参照)。 Conventionally, a system for remote control by transmitting force sense data, tactile sense data, etc. has been considered (see, for example, Non-Patent Document 1 and Non-Patent Document 2).
 このようなシステムにおいて、互いに離れた場所同士で、位置情報、力情報、触感情報などのハプティクスデータを共有する方法として、例えば、力覚・触感のセンサからのデータを各々の接続関係を示すデータとともに伝送する方法が考えられた。 In such a system, as a method of sharing haptics data such as position information, force information, and tactile information between places separated from each other, for example, data from force sense / tactile sensor is shown to show the connection relationship between them. A method of transmitting with data was considered.
 しかしながら、このような伝送方法の場合、伝送のための処理が複雑になったり、伝送されるデータ量が増大したりする等、伝送の負荷が増大するおそれがあった。 However, in the case of such a transmission method, there is a risk that the transmission load may increase, such as complicated processing for transmission and an increase in the amount of data to be transmitted.
 本開示は、このような状況に鑑みてなされたものであり、ハプティクスデータ伝送の負荷の増大を抑制することができるようにするものである。 This disclosure is made in view of such a situation, and makes it possible to suppress an increase in the load of haptics data transmission.
 本技術の一側面の情報処理装置は、インタフェースとなるハプティクスデバイスの観測点において検出されたハプティクスデータを、2次元画像の画素にマッピングする画素マッピング部と、前記画素マッピング部により前記ハプティクスデータがマッピングされた前記2次元画像を符号化し、符号化データを生成する符号化部とを備える情報処理装置である。 The information processing device of one aspect of the present technology includes a pixel mapping unit that maps haptics data detected at an observation point of an interface haptics device to pixels of a two-dimensional image, and the haptics by the pixel mapping unit. It is an information processing apparatus including a coding unit that encodes the two-dimensional image to which data is mapped and generates coded data.
 本技術の一側面の情報処理方法は、インタフェースとなるハプティクスデバイスの観測点において検出されたハプティクスデータを、2次元画像の画素にマッピングし、前記ハプティクスデータがマッピングされた前記2次元画像を符号化し、符号化データを生成する情報処理方法である。 The information processing method of one aspect of the present technology maps the haptics data detected at the observation point of the haptics device serving as an interface to the pixels of the two-dimensional image, and the two-dimensional image to which the haptics data is mapped. Is an information processing method that encodes the data and generates encoded data.
 本技術の他の側面の情報処理装置は、符号化データを復号し、インタフェースとなるハプティクスデバイスの観測点において検出されたハプティクスデータがマッピングされた2次元画像を生成する復号部と、前記復号部により生成された前記2次元画像から、前記ハプティクスデータを抽出する抽出部とを備える情報処理装置である。 The information processing device of the other aspect of the present technology decodes the encoded data and generates a two-dimensional image to which the haptics data detected at the observation point of the haptics device serving as an interface is mapped, and the decoding unit described above. It is an information processing device including an extraction unit that extracts the haptics data from the two-dimensional image generated by the decoding unit.
 本技術の他の側面の情報処理方法は、符号化データを復号し、インタフェースとなるハプティクスデバイスの観測点において検出されたハプティクスデータがマッピングされた2次元画像を生成し、生成された前記2次元画像から、前記ハプティクスデータを抽出する情報処理方法である。 The information processing method of another aspect of the present technology decodes the encoded data and generates a two-dimensional image to which the haptics data detected at the observation point of the haptics device serving as an interface is mapped. This is an information processing method for extracting the haptics data from a two-dimensional image.
 本技術の一側面の情報処理装置および方法においては、インタフェースとなるハプティクスデバイスの観測点において検出されたハプティクスデータが、2次元画像の画素にマッピングされ、そのハプティクスデータがマッピングされた2次元画像が符号化され、符号化データが生成される。 In the information processing device and method of one aspect of the present technology, the haptics data detected at the observation point of the haptics device serving as an interface is mapped to the pixels of the two-dimensional image, and the haptics data is mapped2. The 2D image is encoded and the encoded data is generated.
 本技術の他の側面の情報処理装置および方法においては、符号化データが復号され、インタフェースとなるハプティクスデバイスの観測点において検出されたハプティクスデータがマッピングされた2次元画像が生成され、その生成された2次元画像から、そのハプティクスデータが抽出される。 In the information processing apparatus and method of another aspect of the present technology, the coded data is decoded to generate a two-dimensional image to which the haptics data detected at the observation point of the interface haptics device is mapped. The haptics data is extracted from the generated two-dimensional image.
ハプティクスシステムの概要を説明する図である。It is a figure explaining the outline of a haptics system. 送信装置の主な構成例を示すブロック図である。It is a block diagram which shows the main configuration example of a transmission device. 座標軸の例を示す図である。It is a figure which shows the example of a coordinate axis. 3次元空間のキャプチャの様子の例を示す図である。It is a figure which shows the example of the state of the capture of a three-dimensional space. GPS情報の例を示す図である。It is a figure which shows the example of GPS information. 傾斜角の導出例を説明する図である。It is a figure explaining the derivation example of the inclination angle. 動き画素編集部の主な構成例を示すブロック図である。It is a block diagram which shows the main block diagram of the movement pixel editing part. メディア情報合成部の主な構成例を示すブロック図である。It is a block diagram which shows the main block diagram of the media information synthesis part. 合成画像生成の様子の例を説明する図である。It is a figure explaining the example of the state of the composite image generation. 画素マッピングの様子の例を説明する図である。It is a figure explaining the example of the state of pixel mapping. 力覚データの画素コンテナの例を示す図である。It is a figure which shows the example of the pixel container of the force sense data. 力覚データの構成例を示す図である。It is a figure which shows the structural example of the force sense data. 力覚データの画素コンテナの例を示す図である。It is a figure which shows the example of the pixel container of the force sense data. 力覚データの画素コンテナの例を示す図である。It is a figure which shows the example of the pixel container of the force sense data. 振動データの画素コンテナの例を示す図である。It is a figure which shows the example of the pixel container of vibration data. 振動データの画素コンテナの例を示す図である。It is a figure which shows the example of the pixel container of vibration data. 振動データの画素コンテナの例を示す図である。It is a figure which shows the example of the pixel container of vibration data. シグナリングの例を示す図である。It is a figure which shows the example of signaling. 送信処理の流れの例を説明するフローチャートである。It is a flowchart explaining an example of the flow of a transmission process. 受信装置の主な構成例を示すブロック図である。It is a block diagram which shows the main configuration example of a receiving device. メディア情報解析部の主な構成例を示すブロック図である。It is a block diagram which shows the main block diagram of the media information analysis part. 受信処理の流れの例を説明するフローチャートである。It is a flowchart explaining an example of the flow of a reception process. キャプチャの次元数の例を示す図である。It is a figure which shows the example of the dimension number of a capture. 双方向伝送の例を示す図である。It is a figure which shows the example of bidirectional transmission. 遠隔操作システムの例を説明する図である。It is a figure explaining an example of a remote control system. ローカルシステムの主な構成例を示すブロック図である。It is a block diagram which shows the main configuration example of a local system. MPDサーバの主な構成例を示すブロック図である。It is a block diagram which shows the main configuration example of an MPD server. MPDとビットストリームの関係の例を説明する図である。It is a figure explaining an example of the relationship between MPD and a bit stream. SEIのシンタックスの例を示す図である。It is a figure which shows the example of the syntax of SEI. SEIのシンタックスの例を示す、図29に続く図である。It is the figure following FIG. 29 which shows the example of the syntax of SEI. SEIのシンタックスの例を示す、図30に続く図である。It is a figure following FIG. 30 which shows an example of the syntax of SEI. SEIのセマンティクスの例を示す図である。It is a figure which shows the example of the semantics of SEI. SEIのセマンティクスの例を示す、図32に続く図である。It is the figure following FIG. 32 which shows the example of the semantics of SEI. MPDの例を示す図である。It is a figure which shows the example of MPD. MPDの例を示す、図34に続く図である。It is the figure following FIG. 34 which shows the example of MPD. MPDの例を示す図である。It is a figure which shows the example of MPD. MPDの例を示す図である。It is a figure which shows the example of MPD. MPDのセマンティクスの例を示す図である。It is a figure which shows the example of the semantics of MPD. メディアボックスの例を示す図である。It is a figure which shows the example of the media box. コンピュータの主な構成例を示すブロック図である。It is a block diagram which shows the main configuration example of a computer.
 以下、本開示を実施するための形態(以下実施の形態とする)について説明する。なお、説明は以下の順序で行う。
 1.ハプティクス伝送
 2.第1の実施の形態(送信装置)
 3.第2の実施の形態(受信装置)
 4.第3の実施の形態(遠隔操作システム)
 5.付記
Hereinafter, embodiments for carrying out the present disclosure (hereinafter referred to as embodiments) will be described. The explanation will be given in the following order.
1. 1. Haptic transmission 2. First Embodiment (transmitter)
3. 3. Second Embodiment (Receiver)
4. Third Embodiment (remote control system)
5. Addendum
 <1.ハプティクス伝送>
  <ハプティクスシステム>
 テレイグジスタンス社会、これの意図するところは、空間的に離れた場所に自分の意のままになるデバイスを配置し、それを、ネットワークを介してコントロールすることで瞬時空間移動の効果を実現するもので、コントロールを主導するローカル側のアクションをリモート側で再現させ、それによってリモートデバイスが動作することで随時途中経過や結果がローカル側にフィードバックされ、そのフィードバックによってローカルの活動が継続するというように、人間がフィードバック系の内部に組み入れられることで時空間的な制約から解放され、単に臨場感というよりも人間の能力の増幅を可能とするHuman Augmentationの実現につながると考えられている。
<1. Haptic transmission>
<Haptics system>
Telexistence society, the intention of this is to place a device at your disposal in a spatially distant place and control it via a network to realize the effect of instantaneous spatial movement. The action on the local side that leads the control is reproduced on the remote side, and by operating the remote device, the progress and results are fed back to the local side at any time, and the local activity is continued by the feedback. In addition, it is thought that the incorporation of humans into the feedback system frees them from spatiotemporal constraints and leads to the realization of Human Augmentation, which enables the amplification of human abilities rather than simply the sense of presence.
 例えば、図1のハプティクスシステム10は、互いに遠隔地に設置され、センサやアクチュエータ等よりなるハプティクスデバイス11およびハプティクスデバイス15を有する。それらの一方が、センサにより検出されたハプティクスデータ(力覚データや触覚データ等)を送信し、他方がそのハプティクスデータを受信し、それに基づいてアクチュエータを駆動させる。このようなハプティクスデータの授受により、一方のハプティクスデバイスの操作を他方のハプティクスデバイスにおいて再現することができる。つまり、遠隔操作が実現される。このようなハプティクスデータの授受は、通信デバイス12と通信デバイス14がネットワーク13を介して通信を行うことにより実現される。 For example, the haptics system 10 of FIG. 1 is installed at a remote location from each other and has a haptics device 11 and a haptics device 15 including sensors, actuators, and the like. One of them transmits the haptics data (force sense data, tactile data, etc.) detected by the sensor, and the other receives the haptics data and drives the actuator based on the haptics data. By exchanging such haptics data, the operation of one haptics device can be reproduced in the other haptics device. That is, remote control is realized. Such exchange of haptics data is realized by the communication device 12 and the communication device 14 communicating with each other via the network 13.
 なお、通信デバイス12は、ハプティクスデバイス11からのハプティクスデータをハプティクスデバイス11にフィードバックさせることもできる。同様に、通信デバイス14は、ハプティクスデバイス15からのハプティクスデータをハプティクスデバイス15にフィードバックさせることもできる。 The communication device 12 can also feed back the haptics data from the haptics device 11 to the haptics device 11. Similarly, the communication device 14 can also feed back the haptics data from the haptics device 15 to the haptics device 15.
 ハプティクスデバイスは、例えば、折れ曲がった骨格アーム状の形状のデバイスであったり、手にはめるグローブ状のデバイスであったりする。オペレータがHaptic Displayとしての骨格アーム、あるいはグローブをローカル側で動かすと、各々の関節における位置情報と運動状態が変動する。 The haptics device may be, for example, a bent skeletal arm-shaped device or a glove-shaped device that can be worn in the hand. When the operator moves the skeletal arm as a Haptic Display or the glove locally, the position information and movement state at each joint fluctuate.
 ハプティクスデバイスとしては、従来から、力覚センサの構成の自由度を1次(1DoF(Degree of Freedom))から3次(3DoF)にしたり、関節点を増大させたりする等、より高次のハプティクスデバイスは考えられてきた。 As a haptics device, the degree of freedom in the configuration of the force sensor has been changed from the primary (1DoF (Degree of Freedom)) to the tertiary (3DoF), and the joint points have been increased. Haptics devices have been considered.
 このようなハプティクスデータの伝送では、ローカルの複数の力覚センサ(kinesthetic sensor)出力が相互にどういう関係で連動して変化するかを正確に記述しリモートの受け側デバイスに伝える必要がある。そこで、例えば、力覚・触感のセンサからのデータを各々の接続関係を示すデータとともに伝送する方法が考えられた。しかしながら、このような伝送方法の場合、伝送のための処理が複雑になったり、伝送されるデータ量が増大したりする等、伝送の負荷が増大するおそれがあった。仮に、個々の箇所のデータ伝送をより効率的に行うとしても、再現させる対象の規模が大きくなるにつれ、伝送するデータ帯域が増大するおそれがあった。 In the transmission of such haptics data, it is necessary to accurately describe how the outputs of multiple local kinesthetic sensors change in conjunction with each other and convey them to the remote receiving device. Therefore, for example, a method of transmitting data from a force sense / tactile sensor together with data showing each connection relationship has been considered. However, in the case of such a transmission method, there is a possibility that the transmission load may increase, such as complicated processing for transmission and an increase in the amount of data to be transmitted. Even if the data transmission at each location is performed more efficiently, there is a risk that the data band to be transmitted will increase as the scale of the object to be reproduced increases.
 例えば、人の手の場合、5本の指を有し、動きの自由度は20自由度以上あるとも考えられる。このような手の関節の動きを忠実に遠隔地へ伝送する場合、例えば、15関節分相当(15チャンネル分)のデータを伝送する必要がある。例えば、ハプティクスデータ1チャンネル分のビットレートが約100kbpsであるとしても、15チャンネル分では1.5Mbpsとなってしまう。より多くの部位を含むヒトの動き、例えばアバターのようなものを遠隔動作させる場合、さらに多くの接点(関節数に相当)のデータを伝送することが必要となり、そのビットレートはさらに増大するおそれがあった。 For example, a human hand has five fingers, and it is considered that the degree of freedom of movement is 20 or more. When such movements of the hand joints are faithfully transmitted to a remote location, for example, it is necessary to transmit data equivalent to 15 joints (15 channels). For example, even if the bit rate for one channel of haptics data is about 100 kbps, it will be 1.5 Mbps for 15 channels. When moving a human with more parts, such as an avatar, remotely, it is necessary to transmit data of more contacts (corresponding to the number of joints), and the bit rate may increase further. was there.
 また、関節数が増大すれば、その分、各ハプティクスデータの接続関係が複雑になり、伝送のための処理がより複雑になるおそれがあった。 In addition, if the number of joints increases, the connection relationship of each haptics data becomes complicated, and the processing for transmission may become more complicated.
 このように、従来の方法では、ハプティクスデータ伝送の負荷が増大するおそれがあった。 In this way, with the conventional method, there is a risk that the load of haptics data transmission will increase.
  <ハプティクスデータの画像化>
 そこで、ハプティクスデータを、2次元画像の画素にマッピングし、そのハプティクスデータがマッピングされた2次元画像を符号化して符号化データを生成し、その符号化データを伝送するようにする。
<Imaging of haptics data>
Therefore, the haptics data is mapped to the pixels of the two-dimensional image, the two-dimensional image to which the haptics data is mapped is encoded to generate the encoded data, and the encoded data is transmitted.
 このようにすることにより、ハプティクスデータの間接点の数に依存せずに、同様の画像符号化によりハプティクスデータを符号化し、伝送することができるので、処理の複雑化を抑制することができる。また、画像符号化を適用することができるので、より容易に高い符号化効率を実現することができるだけでなく、ハプティクスデータの間接点の数の増大によるデータ量の増大を抑制することができる。 By doing so, the haptics data can be encoded and transmitted by the same image coding without depending on the number of contacts of the haptics data, so that the complexity of the processing can be suppressed. can. Further, since image coding can be applied, not only high coding efficiency can be realized more easily, but also an increase in the amount of data due to an increase in the number of contacts of haptics data can be suppressed. ..
 <2.第1の実施の形態>
  <送信装置>
 図2は、本技術を適用した情報処理装置の一実施の形態である送信装置の概要を説明する図である。図2に示される送信装置100は、力覚データや触感データ等のハプティクスデータを遠隔地等の他のデバイスに送信する装置である。なお、図2においては、処理部やデータの流れ等の主なものを示しており、図2に示されるものが全てとは限らない。つまり、この送信装置100において、図2においてブロックとして示されていない処理部が存在したり、図2において矢印等として示されていない処理やデータの流れが存在したりしてもよい。
<2. First Embodiment>
<Transmission device>
FIG. 2 is a diagram illustrating an outline of a transmission device which is an embodiment of an information processing device to which the present technology is applied. The transmission device 100 shown in FIG. 2 is a device that transmits haptics data such as force sense data and tactile data to another device such as a remote location. It should be noted that FIG. 2 shows the main things such as the processing unit and the data flow, and not all of them are shown in FIG. That is, in the transmission device 100, there may be a processing unit that is not shown as a block in FIG. 2, or there may be a processing or data flow that is not shown as an arrow or the like in FIG.
 図2に示されるように、送信装置100は、ROI(Region Of Interest)設定部101、動き画素編集部102、メディア情報合成部103、符号化部104、およびコンテナ処理部105を有する。 As shown in FIG. 2, the transmission device 100 includes an ROI (Region Of Interest) setting unit 101, a motion pixel editing unit 102, a media information synthesis unit 103, an encoding unit 104, and a container processing unit 105.
 この送信装置100には、画像データが入力される。ROI設定部101は、この画像データにおける注目領域(ROI)を設定する。ROI設定部101は、そのROIを示すROI設定情報を動き画素編集部102に供給する。 Image data is input to this transmission device 100. The ROI setting unit 101 sets a region of interest (ROI) in this image data. The ROI setting unit 101 supplies the ROI setting information indicating the ROI to the motion pixel editing unit 102.
 動き画素編集部102は、動き着目マップの生成に関する処理を行う。動き着目マップは、動きが発生した位置と、着目すべき位置とを示すマップ情報(画像情報)である。例えば、動き画素編集部102は、送信装置100に入力される画像データを取得し、その画像データに基づいて、動きの発生位置を特定する。また、動き画素編集部102は、ROI設定部101から供給されるROI設定情報を取得し、そのROI設定情報に基づいて着目すべき位置を特定する。動き画素編集部102は、それらの処理結果から動き着目マップを生成し、メディア情報合成部103に供給する。 The motion pixel editing unit 102 performs processing related to the generation of the motion focus map. The motion-focused map is map information (image information) indicating the position where the motion has occurred and the position to be focused on. For example, the motion pixel editing unit 102 acquires image data input to the transmission device 100, and identifies the motion occurrence position based on the image data. Further, the motion pixel editing unit 102 acquires the ROI setting information supplied from the ROI setting unit 101, and specifies a position to be focused on based on the ROI setting information. The motion pixel editing unit 102 generates a motion focus map from those processing results and supplies it to the media information synthesis unit 103.
 メディア情報合成部103は、その動き着目マップとハプティクスデータをマッピングした画像との合成画像の生成に関する処理を行う。例えば、メディア情報合成部103は、動き画素編集部102から供給される動き着目マップを取得する。この動き着目マップは、動きが発生した位置と着目すべき位置とを画素位置で示す2次元画像である。 The media information synthesis unit 103 performs processing related to the generation of a composite image of the motion attention map and the image mapped with the haptics data. For example, the media information synthesis unit 103 acquires a motion attention map supplied from the motion pixel editing unit 102. This motion focus map is a two-dimensional image showing the position where the motion has occurred and the position to be focused on in pixel positions.
 また、メディア情報合成部103は、ハプティクスデバイス等において検出され、送信装置100に供給される力覚データや触感データを、ハプティクスデータとして取得する。力覚データは、加えられた力の大きさや向きを示す情報である。この力覚データは、例えば、力覚センサ等により検出される。触感データは、例えば振動や温度等の触感に関する情報である。この触感データは、例えば振動センサや温度センサ等の触感に関するパラメータを検出するセンサにより検出される。 Further, the media information synthesis unit 103 acquires force sense data and tactile data detected by the haptics device and the like and supplied to the transmission device 100 as haptics data. The force sense data is information indicating the magnitude and direction of the applied force. This force sense data is detected by, for example, a force sense sensor or the like. The tactile data is information on the tactile sensation such as vibration and temperature. This tactile data is detected by a sensor that detects tactile parameters such as a vibration sensor and a temperature sensor.
 さらに、メディア情報合成部103は、このようなハプティクスデータを2次元画像にマッピングし、そのハプティクスデータをマッピングした2次元画像と動き着目マップとを合成し、合成画像(ハプティクス合成画像とも称する)を生成する。メディア情報合成部103は、そのハプティクス合成画像を符号化部104に供給する。 Further, the media information synthesis unit 103 maps such haptics data to a two-dimensional image, synthesizes the two-dimensional image to which the haptics data is mapped and the motion attention map, and also referred to as a composite image (also referred to as a haptics composite image). ) Is generated. The media information synthesis unit 103 supplies the haptic composite image to the coding unit 104.
 符号化部104は、画像符号化に関する処理を行う。例えば、符号化部104は、メディア情報合成部103から供給されるハプティクス合成画像を取得する。また、符号化部104は、そのハプティクス合成画像を、所定の画像符号化方式により符号化し、符号化データを生成する。この画像符号化方式は、任意であり、例えばJPEG(Joint Photographic Experts Group)等のような静止画像の符号化方式であってもよいし、例えばMPEG(Moving Picture Experts Group)、AVC(Advanced Video Coding)、HEVC(High Efficiency Video Coding)等のような動画像の符号化方式であってもよい。符号化部104は、生成した符号化データ(ハプティクス合成ビデオ符号化ストリームとも称する)をコンテナ処理部105に供給する。 The coding unit 104 performs processing related to image coding. For example, the coding unit 104 acquires a haptic composite image supplied from the media information synthesis unit 103. In addition, the coding unit 104 encodes the haptic composite image by a predetermined image coding method to generate coded data. This image coding method is arbitrary, and may be a still image coding method such as JPEG (Joint Photographic Experts Group), for example, MPEG (Moving Picture Experts Group), AVC (Advanced Video Coding). ), HEVC (High Efficiency Video Coding), etc. may be used as a video coding method. The coding unit 104 supplies the generated coded data (also referred to as a haptic composite video coded stream) to the container processing unit 105.
 コンテナ処理部105は、コンテナ化に関する処理を行う。例えば、コンテナ処理部105は、符号化部104から供給される符号化データ(ハプティクス合成ビデオ符号化ストリーム)を取得する。コンテナ処理部105は、その符号化データを所定のファイルフォーマットに基づくコンテナ(ファイル)に格納する。このファイルフォーマットは任意である。例えば、ISOBMFF(ISO Base Media File Format)等であってもよい。また、コンテナ処理部105は、そのISOBMFF形式のファイルのメディアボックス(mediabox)に、ハプティクスデータに関する制御情報を格納してもよい。コンテナ処理部105は、コンテナ化した符号化データを送信先に送信する。 The container processing unit 105 performs processing related to containerization. For example, the container processing unit 105 acquires the coded data (haptics composite video coded stream) supplied from the coded unit 104. The container processing unit 105 stores the coded data in a container (file) based on a predetermined file format. This file format is arbitrary. For example, ISOBMFF (ISOBaseMediaFileFormat) may be used. Further, the container processing unit 105 may store the control information related to the haptics data in the media box of the ISOBMFF format file. The container processing unit 105 transmits the containerized coded data to the destination.
 なお、送信装置100のこれらの処理部(ROI設定部101乃至コンテナ処理部105)は、それぞれ、任意の構成を有する。例えば、各処理部が、上述の処理を実現する論理回路により構成されるようにしてもよい。また、各処理部が、例えばCPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等を有し、それらを用いてプログラムを実行することにより、上述の処理を実現するようにしてもよい。もちろん、各処理部が、その両方の構成を有し、上述の処理の一部を論理回路により実現し、他を、プログラムを実行することにより実現するようにしてもよい。各処理部の構成は互いに独立していてもよく、例えば、一部の処理部が上述の処理の一部を論理回路により実現し、他の一部の処理部がプログラムを実行することにより上述の処理を実現し、さらに他の処理部が論理回路とプログラムの実行の両方により上述の処理を実現するようにしてもよい。 Each of these processing units (ROI setting unit 101 to container processing unit 105) of the transmission device 100 has an arbitrary configuration. For example, each processing unit may be configured by a logic circuit that realizes the above-mentioned processing. Further, each processing unit has, for example, a CPU (Central Processing Unit), a ROM (Read Only Memory), a RAM (Random Access Memory), and the like, and the above-mentioned processing is realized by executing a program using them. You may do so. Of course, each processing unit may have both configurations, and a part of the above-mentioned processing may be realized by a logic circuit, and the other may be realized by executing a program. The configurations of the respective processing units may be independent of each other. For example, some processing units realize a part of the above-mentioned processing by a logic circuit, and some other processing units execute the program. The above-mentioned processing may be realized by the other processing unit by both the logic circuit and the execution of the program.
  <画像データとROI設定>
 次に送信装置100に入力される画像データについて説明する。この画像データは、例えば図3に示されるような3軸直交座標系等の座標系で示される3次元空間においてハプティクスデバイス等が撮像された撮像画像である。
<Image data and ROI settings>
Next, the image data input to the transmission device 100 will be described. This image data is an image captured by a haptics device or the like in a three-dimensional space represented by a coordinate system such as a three-axis Cartesian coordinate system as shown in FIG.
 この撮像は、例えば、図4に示されるような複数のカメラ(撮像装置)を用いて行われる。図4の例の場合、カメラ111-1、カメラ111-2、およびカメラ111-3の3台のカメラにより、ユーザ112が装着した手袋型のハプティクスデバイス112Aを撮像している。なお、以下において、カメラ111-1乃至カメラ111-3を互いに区別して説明する必要がない場合、カメラ111と称する。 This imaging is performed using, for example, a plurality of cameras (imaging devices) as shown in FIG. In the case of the example of FIG. 4, the glove-shaped haptics device 112A worn by the user 112 is imaged by the three cameras of the camera 111-1, the camera 111-2, and the camera 111-3. In the following, when it is not necessary to distinguish between the cameras 111-1 and the cameras 111-3, they are referred to as the cameras 111.
 各カメラ111には、Sensor position, 3D_slope, capture_normal_vector等のカメラパラメータが設定されている。Sensor positionは、カメラ111のレンズ位置をある基準点からの相対位置または絶対位置座標で表すパラメータである。3D_slopeは、例えば図3のように、カメラ111のレンズの傾きを基準座標系からのズレの角度で表すパラメータである。capture_normal_vectorは、カメラ111のレンズが向く方向(レンズ面と鉛直な方向)を示すパラメータである。 Camera parameters such as Sensor position, 3D_slope, and capture_normal_vector are set in each camera 111. The Sensor position is a parameter that expresses the lens position of the camera 111 in relative position or absolute position coordinates from a certain reference point. 3D_slope is a parameter that represents the inclination of the lens of the camera 111 as an angle of deviation from the reference coordinate system, as shown in FIG. 3, for example. The capture_normal_vector is a parameter indicating the direction in which the lens of the camera 111 faces (the direction perpendicular to the lens surface).
 ハプティクスデバイス112Aは、力覚センサや触感センサ等が設けられており、装着したユーザ112の手の関節の動きを検出したり、その関節や指先等に加わる力を検出したり、指先や手の平等の振動や温度等を検出するデバイスである。3台以上のカメラ111によりハプティクスデバイス112Aを撮像することにより、ハプティクスデバイス112Aの3次元空間における位置や動きを特定することができる。 The haptics device 112A is provided with a force sensor, a tactile sensor, and the like, and can detect the movement of the joint of the hand of the user 112 who wears it, detect the force applied to the joint, the fingertip, and the like, and the fingertip and the palm. It is a device that detects vibration, temperature, etc. By imaging the haptics device 112A with three or more cameras 111, the position and movement of the haptics device 112A in the three-dimensional space can be specified.
 ROI設定部101は、画像データとこれらのカメラパラメータに基づいて、3次元空間におけるROI113を設定する。図4の例の場合、ハプティクスデバイス112Aを含むようにROI113が設定されている。ROI設定部101は、各画像において、このようなROI113に対応する領域を特定し、その領域を示すROI設定情報を動き画素編集部102に供給する。なお、各画像におけるROI113に対応する領域は、画像間でキャリブレーションされており、3次元空間上のROI113に完全に対応するものとする。 The ROI setting unit 101 sets the ROI 113 in the three-dimensional space based on the image data and these camera parameters. In the case of the example of FIG. 4, the ROI 113 is set to include the haptics device 112A. The ROI setting unit 101 identifies a region corresponding to such ROI 113 in each image, and supplies ROI setting information indicating the region to the motion pixel editing unit 102. The area corresponding to ROI 113 in each image is calibrated between the images and completely corresponds to ROI 113 in the three-dimensional space.
 なお、カメラ111のレンズ位置(Sensor position)は、例えば、GPS(Global Positioning System)情報を利用して特定される。GPS情報は、例えば図5に示されるように、空間座標として、2次元座標(latitude, longitude)、標高(elevation)、時刻(time)等を定義する情報を含む。また、レンズの向き(capture_normal_vector)は、例えば3軸包囲センサ等により検出される。 The lens position (Sensor position) of the camera 111 is specified by using, for example, GPS (Global Positioning System) information. As shown in FIG. 5, for example, the GPS information includes information that defines two-dimensional coordinates (latitude, longitude), altitude (elevation), time (time), and the like as spatial coordinates. Further, the orientation of the lens (capture_normal_vector) is detected by, for example, a 3-axis surrounding sensor or the like.
 さらに、レンズの傾きは、例えば図6に示されるように、加速度センサ等を用いて検出される。例えば、加速度センサが重力の働く方向と一致すると加速度センサには加速度9.8m/sec2が検出される。これに対して、加速度センサが重力の働く方向と直角の方向に配置されると、重力の影響は無くなり、加速度センサの出力は0になる。任意の角度θの傾きの加速度aが加速度センサの出力として求まると、以下の式(1)により傾斜角θを導出することができる。 Further, the tilt of the lens is detected by using an acceleration sensor or the like, for example, as shown in FIG. For example, when the accelerometer matches the direction in which gravity acts, the accelerometer detects an acceleration of 9.8 m / sec2. On the other hand, when the acceleration sensor is arranged in the direction perpendicular to the direction in which gravity acts, the influence of gravity disappears and the output of the acceleration sensor becomes zero. When the acceleration a of the inclination of an arbitrary angle θ is obtained as the output of the acceleration sensor, the inclination angle θ can be derived by the following equation (1).
Figure JPOXMLDOC01-appb-I000001
Figure JPOXMLDOC01-appb-I000001
  <動き画素編集部>
 図7は、動き画素編集部102の主な構成例を示すブロック図である。なお、図7においては、処理部やデータの流れ等の主なものを示しており、図7に示されるものが全てとは限らない。つまり、この動き画素編集部102において、図7においてブロックとして示されていない処理部が存在したり、図7において矢印等として示されていない処理やデータの流れが存在したりしてもよい。
<Movement pixel editorial department>
FIG. 7 is a block diagram showing a main configuration example of the motion pixel editing unit 102. It should be noted that FIG. 7 shows the main things such as the processing unit and the data flow, and not all of them are shown in FIG. 7. That is, in the motion pixel editing unit 102, there may be a processing unit that is not shown as a block in FIG. 7, or there may be a processing or data flow that is not shown as an arrow or the like in FIG. 7.
 図7に示されるように、動き画素編集部102は、動き画像生成部131および画素編集部132を有する。 As shown in FIG. 7, the motion pixel editing unit 102 has a motion image generation unit 131 and a pixel editing unit 132.
 動き画像生成部131は、撮像画像における動き画素の検出に関する処理を行う。例えば、動き画像生成部131は、カメラ111等により撮像された撮像画像の画像データ(イメージセンサ出力画像とも称する)を取得する。動き画像生成部131は、このイメージセンサ出力の時間的に連続する画像同士で差分(フレーム間差分画像とも称する)を導出する。この処理によりフレーム間で動きのある画素(動き画素とも称する)が検出される。なお、このフレーム間差分画像の画素値は、フレーム間の画素値の差分値ではなく、フレーム間で画素値が変化する画素を1ビットで表現する。例えば、フレーム間で画素値が変化する画素の画素値が「1」とされ、画素値が変化しない画素の画素値が「0」とされる。つまり、このフレーム間差分画像は、動き画素の位置を示すマップ情報(動き画素マップとも称する)である。動き画像生成部131は、このように生成した動き画素マップを画素編集部132に供給する。 The motion image generation unit 131 performs processing related to detection of motion pixels in the captured image. For example, the motion image generation unit 131 acquires image data (also referred to as an image sensor output image) of an captured image captured by a camera 111 or the like. The motion image generation unit 131 derives a difference (also referred to as an inter-frame difference image) between temporally continuous images of the image sensor output. By this process, pixels (also referred to as motion pixels) that move between frames are detected. The pixel value of this inter-frame difference image is not a difference value of the pixel value between frames, but a pixel whose pixel value changes between frames is expressed by 1 bit. For example, the pixel value of a pixel whose pixel value changes between frames is set to "1", and the pixel value of a pixel whose pixel value does not change is set to "0". That is, the inter-frame difference image is map information (also referred to as a motion pixel map) indicating the positions of motion pixels. The motion image generation unit 131 supplies the motion pixel map generated in this way to the pixel editing unit 132.
 画素編集部132は、動き着目マップの生成に関する処理を行う。例えば、画素編集部132は、動き画像生成部131から供給される動き画素マップを取得する。また、画素編集部132は、ROI設定部101から供給されるROI設定情報を取得する。画素編集部132は、これらの情報を用いて動き着目マップを生成する。 The pixel editing unit 132 performs processing related to the generation of the motion focus map. For example, the pixel editing unit 132 acquires a motion pixel map supplied from the motion image generation unit 131. Further, the pixel editing unit 132 acquires the ROI setting information supplied from the ROI setting unit 101. The pixel editing unit 132 uses this information to generate a motion focus map.
 動き着目マップは、動き画素マップに1ビットの着目マーカを付加した2ビットの画素値により構成されるマップ情報である。着目マーカは、着目すべき位置を示すマーカである。例えば、着目すべき画素の画素値が「1」とされ、それ以外の画素の画素値が「0」とされるマップ情報(画像)である。つまり、動き着目マップは、フレーム間で動きのある画素(動きの位置)と、着目すべき画素(着目すべき位置)とを示すマップ情報である。 The motion focus map is map information composed of 2-bit pixel values obtained by adding a 1-bit focus marker to the motion pixel map. The attention marker is a marker indicating a position to be focused on. For example, it is map information (image) in which the pixel value of the pixel to be noted is "1" and the pixel value of the other pixels is "0". That is, the motion focus map is map information indicating pixels that move between frames (movement positions) and pixels that should be focused (positions that should be focused).
 画素編集部132は、このような着目マーカ(着目マップとも称する)を設定し、それを動き画素マップに合成することにより、動き着目マップを生成する。着目すべき画素であるか否かは、予め設定された所定の条件に従って設定される。例えば、ROI設定情報により設定されるROI内に対応する画素が着目すべき画素として設定されてもよい。また、センサやアクチュエータが存在する位置に対応する画素、ハプティクスデータの送信先からフィードバックを要求する位置に対応する画素、ハプティクスデバイス112Aのエッジ部や指先等に対応する画素等が、着目すべき画素として設定されてもよい。 The pixel editing unit 132 generates a motion focus map by setting such a focus marker (also referred to as a focus map) and synthesizing it with the motion pixel map. Whether or not the pixel should be of interest is set according to a predetermined condition set in advance. For example, the pixels corresponding to the ROI set by the ROI setting information may be set as the pixels to be noted. Further, the pixels corresponding to the positions where the sensors and actuators are present, the pixels corresponding to the positions where feedback is requested from the transmission destination of the haptics data, the pixels corresponding to the edge portion and the fingertip of the haptics device 112A, and the like are of interest. It may be set as a power pixel.
 なお、動き着目マップを1ビットの画素値により構成されるマップ情報としてもよい。例えば、動き着目マップにおいて、フレーム間で動きがあり、かつ、着目すべき画素の画素値が「1」とされ、その他の画素が「0」とされるようにしてもよい。つまり、この場合、動き画素マップと着目マーカのそれぞれの画素値の論理積が、動き着目マップの画素値とされる。もちろん、動き画素マップと着目マーカのそれぞれの画素値の論理和を、動き着目マップの画素値としてもよい。 Note that the motion-focused map may be map information composed of 1-bit pixel values. For example, in the motion focus map, the pixel value of the pixel to be focused on may be set to "1" and the other pixels may be set to "0" while there is movement between frames. That is, in this case, the logical product of the pixel values of the motion pixel map and the focus marker is taken as the pixel value of the motion focus map. Of course, the logical sum of the pixel values of the motion pixel map and the focus marker may be used as the pixel value of the motion focus map.
 画素編集部132は、以上のように生成した動き着目マップをメディア情報合成部103に供給する。 The pixel editing unit 132 supplies the motion attention map generated as described above to the media information synthesis unit 103.
 なお、動き画像生成部131および画素編集部132は、送信装置に入力される各画像に対して上述の処理を行う。つまり、図4の例のように、複数のカメラ111により撮像が行われる場合、各カメラ111により得られた撮像画像毎に、動き着目マップが生成される。 The motion image generation unit 131 and the pixel editing unit 132 perform the above-mentioned processing on each image input to the transmission device. That is, when imaging is performed by a plurality of cameras 111 as in the example of FIG. 4, a motion focus map is generated for each captured image obtained by each camera 111.
  <メディア情報合成部>
 図8は、メディア情報合成部103の主な構成例を示すブロック図である。なお、図8においては、処理部やデータの流れ等の主なものを示しており、図8に示されるものが全てとは限らない。つまり、このメディア情報合成部103において、図8においてブロックとして示されていない処理部が存在したり、図8において矢印等として示されていない処理やデータの流れが存在したりしてもよい。
<Media Information Synthesis Department>
FIG. 8 is a block diagram showing a main configuration example of the media information synthesis unit 103. Note that FIG. 8 shows the main things such as the processing unit and the data flow, and not all of them are shown in FIG. That is, in the media information synthesis unit 103, there may be a processing unit that is not shown as a block in FIG. 8, or there may be a processing or data flow that is not shown as an arrow or the like in FIG.
 図8に示されるように、メディア情報合成部103は、画素マッピング部141および合成画像生成部142を有する。 As shown in FIG. 8, the media information synthesis unit 103 has a pixel mapping unit 141 and a composite image generation unit 142.
 画素マッピング部141は、ハプティクスデータの2次元画像へのマッピングに関する処理を行う。例えば、画素マッピング部141は、ハプティクスデバイスにおいて検出された力覚データや触感データを取得する。また、画素マッピング部141は、メディア情報合成部103から供給される動き着目マップを取得する。画素マッピング部141は、取得した動き着目マップを用いて、取得した力覚データや触感データの2次元画像へのマッピングを行う。画素マッピング部141は、このようにハプティクスデータをマッピングした2次元画像を合成画像生成部142に供給する。 The pixel mapping unit 141 performs processing related to mapping haptics data to a two-dimensional image. For example, the pixel mapping unit 141 acquires force sense data and tactile data detected in the haptics device. Further, the pixel mapping unit 141 acquires a motion attention map supplied from the media information synthesis unit 103. The pixel mapping unit 141 maps the acquired force sense data and tactile data to a two-dimensional image by using the acquired motion attention map. The pixel mapping unit 141 supplies the two-dimensional image to which the haptics data is mapped in this way to the composite image generation unit 142.
 合成画像生成部142は、ハプティクス合成画像の生成に関する処理を行う。例えば、合成画像生成部142は、画素マッピング部141から供給される、ハプティクスデータがマッピングされた2次元画像を取得する。また、合成画像生成部142は、メディア情報合成部103から供給される動き着目マップを取得する。合成画像生成部142は、取得したこれらの画像(マップ情報)を合成し、ハプティクス合成画像を生成する。合成画像生成部142は、生成したハプティクス合成画像を符号化部104に供給する。 The composite image generation unit 142 performs processing related to generation of a haptic composite image. For example, the composite image generation unit 142 acquires a two-dimensional image to which haptics data is mapped, which is supplied from the pixel mapping unit 141. Further, the composite image generation unit 142 acquires the motion attention map supplied from the media information synthesis unit 103. The composite image generation unit 142 synthesizes these acquired images (map information) to generate a haptic composite image. The composite image generation unit 142 supplies the generated haptic composite image to the coding unit 104.
  <ハプティクス合成画像>
 つまり、メディア情報合成部103は、図9のAに示されるように、動き着目マップ151と、力覚データや触感データ等のハプティクスデータがマッピングされた2次元画像152とを合成し、図9のBに示されるようなハプティクス合成画像153を生成する。つまり、このハプティクス合成画像153には、動きの位置を示す情報と、着目すべき位置を示す情報と、検出された力、振動、温度等を示す情報と、それらの情報が検出された位置を示す情報とが含まれる。ハプティクスデータが検出された位置は、ハプティクスデータがマッピングされた画素の位置により示される。
<Haptic composite image>
That is, as shown in A of FIG. 9, the media information synthesis unit 103 synthesizes the motion attention map 151 and the two-dimensional image 152 to which the haptics data such as force sense data and tactile data are mapped, and shows the figure. Generates a haptic composite image 153 as shown in B of 9. That is, in this haptic composite image 153, information indicating the position of movement, information indicating the position to be focused on, information indicating the detected force, vibration, temperature, etc., and the position where the information is detected are displayed. Contains information to indicate. The position where the haptics data is detected is indicated by the position of the pixel to which the haptics data is mapped.
  <画素マッピング>
 画素マッピング部141は、このハプティクスデータがマッピングされた2次元画像152を生成する。例えば、図10のAに示されるように、ハプティクスデバイス112Aが有するセンサにより、ハプティクスデータ154-1乃至ハプティクスデータ154-4が検出されるとする。なお、以下において、ハプティクスデータ154-1乃至ハプティクスデータ154-4を互いに区別して説明する必要がない場合、ハプティクスデータ154と称する。
<Pixel mapping>
The pixel mapping unit 141 generates a two-dimensional image 152 to which the haptics data is mapped. For example, as shown in FIG. 10A, it is assumed that the haptics data 154-1 to the haptics data 154-4 are detected by the sensor included in the haptics device 112A. In the following, when it is not necessary to distinguish the haptics data 154-1 to the haptics data 154-4 from each other, they are referred to as haptics data 154.
 画素マッピング部141は、図10のBに示されるように、これらのハプティクスデータ154を、2次元画像にマッピングする。つまり、画素マッピング部141は、カメラ111により得られた撮像画像に含まれる、ハプティクスデータ154を検出したセンサが存在する部分に対応する画素(センサが存在する部分が映る画素)に、ハプティクスデータ154がマッピングされる。したがって、ハプティクスデータがマッピングされた2次元画像152においては、ハプティクスデータ154がマッピングされた画素位置が、そのハプティクスデータ154の検出位置を示す。 The pixel mapping unit 141 maps these haptics data 154 to a two-dimensional image as shown in B of FIG. That is, the pixel mapping unit 141 applies haptics to the pixels (pixels in which the portion where the sensor exists) corresponding to the portion where the sensor that detects the haptics data 154 is included in the captured image obtained by the camera 111. Data 154 is mapped. Therefore, in the two-dimensional image 152 to which the haptics data is mapped, the pixel position to which the haptics data 154 is mapped indicates the detection position of the haptics data 154.
 ただし、画素マッピング部141は、その撮像画像の代わりに、動き着目マップを利用してこのマッピングを行う。動き着目マップは、撮像画像毎に生成され、撮像画像の画角に対応する。したがって、画素マッピング部141は、撮像画像を用いる場合と同様にマッピングを行うことができる(同様のマッピング結果が得られる)。 However, the pixel mapping unit 141 uses the motion focus map instead of the captured image to perform this mapping. The motion focus map is generated for each captured image and corresponds to the angle of view of the captured image. Therefore, the pixel mapping unit 141 can perform mapping in the same manner as when the captured image is used (similar mapping results can be obtained).
 なお、1つのハプティクスデータを1画素にマッピングしてもよいし、複数の画素にマッピングしてもよい。例えば、図10のCに示されるように、複数の画素をまとめてサブブロック155を形成し、そのサブブロック155に1つのハプティクスデータをマッピングしてもよい。つまり、この場合、1つのハプティクスデータが、サブブロック155内の複数画素(Y0乃至Y3)にマッピングされる。 Note that one haptics data may be mapped to one pixel, or may be mapped to a plurality of pixels. For example, as shown in C of FIG. 10, a plurality of pixels may be grouped together to form a subblock 155, and one haptics data may be mapped to the subblock 155. That is, in this case, one haptics data is mapped to a plurality of pixels (Y0 to Y3) in the subblock 155.
 また、ハプティクスデータを、2次元画像の、Y成分、Pr成分、およびPb成分のそれぞれに配置してもよい。 Further, the haptics data may be arranged in each of the Y component, Pr component, and Pb component of the two-dimensional image.
  <力覚データ>
 力覚データの場合について説明する。例えば、力覚データは、複数の成分を有することがあり得る。例えば、加えられた3方向の力を検出する3軸力覚センサとして、Fz、Mx、Myの3成分からなる力覚データを生成するものもある。
<Force sense data>
The case of force sense data will be described. For example, force sensation data can have multiple components. For example, as a three-axis force sensor that detects the applied force in three directions, there is one that generates force data consisting of three components of Fz, Mx, and My.
 例えば図11に示されるように、このような複数成分からなる力覚データを、その成分毎に分けて、2次元画像の、Y成分、Pr成分、およびPb成分に配置してもよい。図11の例の場合、Y成分にFzが配置され、Pr成分にMxが配置され、Pb成分にMyが配置されている。Y成分、Pb成分、Pr成分は、それぞれ10ビットで構成されており、Fz、Mx、Myは、それぞれ8ビットで構成されている。Fz、Mx、Myは、それぞれ、各成分の下位8ビットにセットされている。ハプティクス合成画像においては、各成分の上位2ビットには、動き着目マップの画素値(つまり、動きがあったか否か、着目すべきか否かを示す情報)がセットされる。図11では1ビットの動き着目マップを各成分のMSbit1ビットに割り当てている。このように配置することにより、力覚データの各成分を容易に識別することができる。また、画像の1成分(例えばY成分)に、力覚データの全成分を配置する場合に比べて、ハプティクス合成画像の画素値のビット深度の増大を抑制することができる。 For example, as shown in FIG. 11, such force sensory data composed of a plurality of components may be divided for each component and arranged in the Y component, Pr component, and Pb component of the two-dimensional image. In the case of the example of FIG. 11, Fz is arranged in the Y component, Mx is arranged in the Pr component, and My is arranged in the Pb component. The Y component, Pb component, and Pr component are each composed of 10 bits, and Fz, Mx, and My are each composed of 8 bits. Fz, Mx, and My are set in the lower 8 bits of each component, respectively. In the haptic composite image, the pixel value of the motion focus map (that is, information indicating whether or not there is motion and whether or not attention should be paid) is set in the upper two bits of each component. In FIG. 11, a 1-bit motion focus map is assigned to the MSbit 1 bit of each component. By arranging in this way, each component of the force sense data can be easily identified. In addition, it is possible to suppress an increase in the bit depth of the pixel value of the haptic composite image as compared with the case where all the components of the force sensory data are arranged in one component (for example, the Y component) of the image.
 なお、力覚データの各成分のビット長(ビット深度)は、他の成分と異なっていてもよい。例えば、図12のAに示されるように、Fzのビット長を16ビットとし、MxおよびMyのビット長を4ビットとしてもよい。MxおよびMyは、力が加えられた方向を示すので、それぞれ2ビットあれば、図12のBに示されるように、16方向を表現し得る。図12のAのようにMxおよびMyがそれぞれ4ビットで構成されれば、さらに高精度な方位指定を実現することができる。つまり、図12のAのようなビット長の構成とすることにより、十分な精度を維持しつつ、データ量の増大を抑制することができる。 The bit length (bit depth) of each component of the force sensor data may be different from that of other components. For example, as shown in A of FIG. 12, the bit length of Fz may be 16 bits, and the bit lengths of Mx and My may be 4 bits. Since Mx and My indicate the direction in which the force is applied, two bits each can represent 16 directions as shown in B of FIG. If Mx and My are each composed of 4 bits as shown in A of FIG. 12, more accurate orientation specification can be realized. That is, by adopting the bit length configuration as shown in FIG. 12A, it is possible to suppress an increase in the amount of data while maintaining sufficient accuracy.
 なお、ハプティクス合成画像の各成分のサンプリング比(つまり、ハプティクスデータをマッピングする2次元画像のYPbPrのサンプリング比)は任意である。例えば、図11の例のように、4:4:4でもよいし、4:2:0でもよいし、4:2:2でもよいし、それ以外でもよい。 The sampling ratio of each component of the haptics composite image (that is, the sampling ratio of YPbPr of the two-dimensional image that maps the haptics data) is arbitrary. For example, as in the example of FIG. 11, it may be 4: 4: 4, it may be 4: 2: 0, it may be 4: 2: 2, or it may be other than that.
 例えば、力覚データが図12のAのような構成であり、画像エンコードが4:2:0に対応したプロファイルで構成される場合、図13に示されるように、力覚データの検出位置に対応するサブブロック155(図10のC)の、Y成分4画素(Y0乃至Y3)にFzを、Pb成分1画素(Pb0)にMxを、Pr成分1画素(Pr0)にMyをそれぞれ配置するようにしてもよい。なお、Fzは、そのビット深度方向に4分割(4ビットずつ分割)されて、Y成分4画素に配置される。 For example, when the force sense data is configured as shown in A in FIG. 12 and the image encoding is composed of a profile corresponding to 4: 2: 0, as shown in FIG. 13, the force sense data is detected at the detection position. In the corresponding subblock 155 (C in FIG. 10), Fz is arranged in 4 pixels (Y0 to Y3) of Y component, Mx is arranged in 1 pixel (Pb0) of Pb component, and My is arranged in 1 pixel (Pr0) of Pr component. You may do so. Fz is divided into four (divided by four bits) in the bit depth direction, and is arranged in four pixels of the Y component.
 また、画像エンコードが4:2:2に対応したプロファイルで構成される場合、MxおよびMyのビット長を8ビットとし、図14に示されるように、力覚データの検出位置に対応するサブブロック155(図10のC)の、Y成分4画素(Y0乃至Y3)にFz、Pb成分2画素(Pb0, Pb2)にMx、Pr成分1画素(Pr0, Pr2)にMyをそれぞれ配置するようにしてもよい。なお、Fzは、そのビット深度方向に4分割(4ビットずつ分割)されて、Y成分4画素に配置される。同様に、Mxは、そのビット深度方向に2分割(4ビットずつ分割)されて、Pb成分2画素に配置される。同様に、Myは、そのビット深度方向に2分割(4ビットずつ分割)されて、Pr成分2画素に配置される。 When the image encoding is composed of a profile corresponding to 4: 2: 2, the bit lengths of Mx and My are set to 8 bits, and as shown in FIG. 14, the subblock corresponding to the detection position of the haptic data. In 155 (C in FIG. 10), Fz is arranged in 4 pixels (Y0 to Y3) of Y component, Mx is arranged in 2 pixels of Pb component (Pb0, Pb2), and My is arranged in 1 pixel of Pr component (Pr0, Pr2). You may. Fz is divided into four (divided by four bits) in the bit depth direction, and is arranged in four pixels of the Y component. Similarly, Mx is divided into two (divided by 4 bits) in the bit depth direction and arranged in two pixels of the Pb component. Similarly, My is divided into two (divided by 4 bits) in the bit depth direction and arranged in two Pr component pixels.
 なお、図13および図14に示されるように、ビデオ符号化の際の量子化ステップサイズの設定の際にコンテナ対象の値に影響を及ぼさないように、ビットアサインを定義してもよい。例えば、エンコーダ量子化ステップサイズが16である場合、コンテナする各要素の下位4ビット(図13および図14の空白部分)は0とし、下位5ビット目が力覚データのLSB(Least Significant Bit)となるようにビットアサインを行ってもよい。 As shown in FIGS. 13 and 14, bit assignments may be defined so as not to affect the value of the container target when setting the quantization step size at the time of video coding. For example, when the encoder quantization step size is 16, the lower 4 bits (blank parts in FIGS. 13 and 14) of each element to be containerized are set to 0, and the lower 5 bits are the LSB (Least Significant Bit) of the force sense data. Bit assignment may be performed so as to be.
  <振動データ>
 次に、触感データの場合について説明する。触感データの一例として振動状態を表す振動データについて説明する。
<Vibration data>
Next, the case of tactile data will be described. As an example of tactile data, vibration data representing a vibration state will be described.
 振動データの場合、振幅のダイナミックレンジが広い場合はビット長が大きくなり、コンテナするY/Pb/Pr成分を複数用いて配置することも必要となる。そこで、例えば、図15に示されるように、振動データをビット深度方向に分割し、各分割データをY成分、Pb成分、Pr成分に配置するようにしてもよい。図15の例の場合、振動データAmpのビット長が24ビットであり、8ビットずつ分割され、それぞれがY成分、Pb成分、Pr成分に配置されている。 In the case of vibration data, if the dynamic range of amplitude is wide, the bit length becomes large, and it is also necessary to arrange using multiple Y / Pb / Pr components to be containerized. Therefore, for example, as shown in FIG. 15, the vibration data may be divided in the bit depth direction, and each divided data may be arranged in the Y component, the Pb component, and the Pr component. In the case of the example of FIG. 15, the bit length of the vibration data Amp is 24 bits, which are divided into 8 bits and arranged in the Y component, the Pb component, and the Pr component, respectively.
 なお、画像エンコードが4:2:0に対応したプロファイルで行われる場合、図16に示されるように、振動データを6つに分割し、Y成分4画素、Pb成分1画素、Pr成分1画素に配置するようにしてもよい。図16の例の場合、24ビットの振動データAmpが4ビットずつ分割されている。また、各要素の下位ビット(例えば下位4ビット)の値は0とし、エンコーダの量子化の影響を抑制するようにしてもよい。なお、振幅値に対して一定の丸めを行う場合は、より効率的なコンテナ配置が可能である。 When the image encoding is performed with a profile corresponding to 4: 2: 0, the vibration data is divided into 6 as shown in FIG. 16, and the Y component is 4 pixels, the Pb component is 1 pixel, and the Pr component is 1 pixel. It may be arranged in. In the case of the example of FIG. 16, the 24-bit vibration data Amp is divided into 4 bits each. Further, the value of the lower bits (for example, the lower 4 bits) of each element may be set to 0 to suppress the influence of the quantization of the encoder. When a certain rounding is performed on the amplitude value, more efficient container arrangement is possible.
 また、振動データは、その情報の特性から、サンプリングレートがフレームレートよりも高い可能性がある。例えば、振動のサンプリング周波数が1kHzとし、各サンプリングデータを互いに異なるフレームにマッピングするには、ハプティクス合成画像のフレームレートを1kHz以上のハイフレームレートにする必要があり、処理コストや伝送コストが増大するおそれがある。一般的なUHDTVの映像フレーム周波数は60Hzであり、上述の振動のサンプリング周波数に比べて低い。 In addition, the sampling rate of vibration data may be higher than the frame rate due to the characteristics of the information. For example, if the vibration sampling frequency is 1 kHz and each sampled data is mapped to different frames, the frame rate of the haptic composite image must be a high frame rate of 1 kHz or higher, which increases processing costs and transmission costs. There is a risk. The video frame frequency of a typical UHDTV is 60 Hz, which is lower than the vibration sampling frequency described above.
 また、振動データは、その位置的分解能が低いという特性もある。つまり、離隔データ等と比較すると広範囲の領域で値が一致または類似する傾向がある。そのため、振動データは、力覚データ等と比較して、2次元画像の広範囲の領域に割り当てても問題が生じにくい。 In addition, vibration data also has the characteristic that its positional resolution is low. That is, the values tend to match or resemble in a wide range of areas as compared with the separation data and the like. Therefore, the vibration data is less likely to cause a problem even if it is assigned to a wide area of the two-dimensional image as compared with the force sense data or the like.
 そこで、1フレームの画像に複数のサンプリングデータをマッピングすることができるようにしてもよい。例えば、図17に示されるように、振動データをブロックに配置するようにし、各サンプリングデータを、そのブロック内の各サブブロックに配置するようにしてもよい。例えば、図17の場合、ブロック内に16個のサブブロックが形成されているので、ある振動点に関して、時系列的に連続する16個の振動サンプリングデータを複数のコンテナ画素位置に配置することができる。したがって、例えば、ハプティクス合成画像のフレーム周波数を60Hzとすると、振動データのサンプリング周波数を960Hzまで上げることができる。換言するに、この場合、サンプリング周波数960Hz以下の振動データをマッピング可能である。このようにフレームレート以上のサンプリングレートの振動データも配置することができる。もちろん、ブロック内のサブブロックの数は任意である。また、振動データを配置する領域は任意であり、ブロックに限定されない。例えば、複数のブロックに対して振動データを配置するようにしてもよい。 Therefore, it may be possible to map a plurality of sampling data to an image of one frame. For example, as shown in FIG. 17, the vibration data may be arranged in a block, and each sampling data may be arranged in each sub-block within the block. For example, in the case of FIG. 17, since 16 sub-blocks are formed in the block, 16 vibration sampling data that are continuous in time series can be arranged at a plurality of container pixel positions with respect to a certain vibration point. can. Therefore, for example, if the frame frequency of the haptic composite image is 60 Hz, the sampling frequency of the vibration data can be increased to 960 Hz. In other words, in this case, it is possible to map vibration data having a sampling frequency of 960 Hz or less. In this way, vibration data with a sampling rate higher than the frame rate can also be arranged. Of course, the number of subblocks in the block is arbitrary. Further, the area where the vibration data is arranged is arbitrary and is not limited to the block. For example, vibration data may be arranged for a plurality of blocks.
  <温度データ>
 触感データの他の例である、温度状態を表す温度データの場合も、振動テータの配置方法と同様である。ただし、温度データの方が振動データよりも変化の速度が遅い傾向がある。つまり、サンプリングレートは、振動データに比べて低くてよく、そのため、より高精度な情報のマッピングも可能である。
<Temperature data>
In the case of temperature data representing a temperature state, which is another example of tactile data, the method of arranging the vibration data is the same. However, the temperature data tends to change at a slower rate than the vibration data. That is, the sampling rate may be lower than that of the vibration data, and therefore, more accurate information mapping is possible.
  <シグナリング>
 以上のようにハプティクスデータを2次元画像にマッピングして伝送する場合、そのハプティクスデータに関する制御情報も伝送するようにしてもよい。この制御情報は任意である。例えば、図18に示されるように、ビューの数や方向を示す情報や、ハプティクス合成画像に関するフラグ情報や、マッピングされたハプティクスデータに関する情報等が含まれていてもよいし、これら以外の情報が含まれていてもよい。このような制御情報を伝送することにより、受信側においてその制御情報を参照することができ、ハプティクスデータの取り扱いをより容易に行うことができるようになる。
<Signaling>
When the haptics data is mapped to a two-dimensional image and transmitted as described above, the control information related to the haptics data may also be transmitted. This control information is optional. For example, as shown in FIG. 18, information indicating the number and direction of views, flag information regarding a haptics composite image, information regarding mapped haptics data, and the like may be included, or information other than these. May be included. By transmitting such control information, the control information can be referred to on the receiving side, and haptics data can be handled more easily.
  <送信処理の流れ>
 送信装置100により行われる送信処理の流れの例を、図19のフローチャートを参照して説明する。送信処理が開始されると、送信装置100のROI設定部101は、ステップS101において、受信側で再生される領域をROI設定する。
<Flow of transmission processing>
An example of the flow of the transmission process performed by the transmission device 100 will be described with reference to the flowchart of FIG. When the transmission process is started, the ROI setting unit 101 of the transmission device 100 sets the ROI of the area to be reproduced on the receiving side in step S101.
 ステップS102において、動き画素編集部102の動き画像生成部131は、フレーム間差分を算出し、動き画素マップを生成する。 In step S102, the motion image generation unit 131 of the motion pixel editing unit 102 calculates the inter-frame difference and generates a motion pixel map.
 ステップS103において、動き画素編集部102の画素編集部132は、画素編集を行い、その動き画素マップに着目データを付加し、動き着目マップを生成する。 In step S103, the pixel editing unit 132 of the motion pixel editing unit 102 edits the pixels, adds the focus data to the motion pixel map, and generates the motion focus map.
 ステップS104において、メディア情報合成部103の画素マッピング部141は、力覚データや触感データを2次元画像(画素空間)へマッピングする。 In step S104, the pixel mapping unit 141 of the media information synthesis unit 103 maps force sense data and tactile data to a two-dimensional image (pixel space).
 ステップS105において、メディア情報合成部103の合成画像生成部142は、そのハプティクスデータがマッピングされた2次元画像と、動き着目マップとを合成し、ハプティクス合成画像を生成する。 In step S105, the composite image generation unit 142 of the media information synthesis unit 103 synthesizes the two-dimensional image to which the haptics data is mapped and the motion focus map to generate a haptics composite image.
 ステップS106において、符号化部104は、そのハプティクス合成画像を符号化し、符号化データ(ハプティクス合成ビデオ符号化ストリーム)する。ステップS107において、コンテナ処理部105は、コンテナ処理し、その符号化データ(ハプティクス合成ビデオ符号化ストリーム)を所定のファイルフォーマットのファイルに格納する。ステップS108において、コンテナ処理部105は、そのファイルを送信先(例えば受信装置)へ送信する。ステップS108の処理が終了すると送信処理が終了する。 In step S106, the coding unit 104 encodes the haptics composite image and converts the haptics composite image into coded data (haptics composite video coded stream). In step S107, the container processing unit 105 performs container processing and stores the coded data (haptics synthetic video coded stream) in a file having a predetermined file format. In step S108, the container processing unit 105 transmits the file to a transmission destination (for example, a receiving device). When the process of step S108 is completed, the transmission process is completed.
 以上のように、各処理を実行することにより、ハプティクスデータを2次元画像にマッピングして伝送することができ、ハプティクスデータ伝送の負荷の増大を抑制することができる。 As described above, by executing each process, haptics data can be mapped to a two-dimensional image and transmitted, and an increase in the load of haptics data transmission can be suppressed.
  <エンコーダの制約>
 画素コンテナするハプティクスデータの符号化による値の変化を回避するため、エンコーダの運用制約としては以下のものを適用してもよい。
<Encoder restrictions>
In order to avoid a change in the value due to encoding of the haptics data to be pixel-contained, the following may be applied as operational restrictions of the encoder.
 例えば、量子化において、Q_step値を画素コンテナする値の精度との関係で決めるようにしてもよい。つまり、Nビットのかさ上げを行い、Y/Pb/Prの成分の空間を利用するようにしてもよい。 For example, in quantization, the Q_step value may be determined in relation to the accuracy of the pixel container value. That is, the N bits may be raised to use the space of the Y / Pb / Pr components.
 また、周波数変換において、DCT(Discrete Cosine Transform)やDST(Discrete Sine Transform)等の周波数ドメインへの変換による誤差を防ぐため、これらの変換をスキップするモードを適用するようにしてもよい。 Further, in frequency conversion, in order to prevent errors due to conversion to a frequency domain such as DCT (Discrete Cosine Transform) or DST (Discrete Sine Transform), a mode for skipping these conversions may be applied.
 <3.第2の実施の形態>
  <受信装置>
 図20は、本技術を適用した情報処理装置の一実施の形態である受信装置の概要を説明する図である。図20に示される受信装置200は、遠隔地の他のデバイスから送信された力覚データや触感データ等のハプティクスデータを受信する装置である。受信装置200は、送信装置100に対応し、送信装置100より送信されたファイルを受信し、処理し、ハプティクスデータを取得することができる。
<3. Second Embodiment>
<Receiver>
FIG. 20 is a diagram illustrating an outline of a receiving device which is an embodiment of an information processing device to which the present technology is applied. The receiving device 200 shown in FIG. 20 is a device that receives haptics data such as haptic data and tactile data transmitted from another device at a remote location. The receiving device 200 corresponds to the transmitting device 100, and can receive and process a file transmitted from the transmitting device 100 to acquire haptics data.
 なお、図20においては、処理部やデータの流れ等の主なものを示しており、図20に示されるものが全てとは限らない。つまり、この受信装置200において、図20においてブロックとして示されていない処理部が存在したり、図20において矢印等として示されていない処理やデータの流れが存在したりしてもよい。 Note that FIG. 20 shows the main things such as the processing unit and the data flow, and not all of them are shown in FIG. 20. That is, in the receiving device 200, there may be a processing unit that is not shown as a block in FIG. 20, or there may be a processing or data flow that is not shown as an arrow or the like in FIG.
 図20に示されるように、受信装置200は、コンテナ処理部201、復号化部202、メディア情報解析部203、およびハプティクス提示部204を有する。 As shown in FIG. 20, the receiving device 200 has a container processing unit 201, a decoding unit 202, a media information analysis unit 203, and a haptics presentation unit 204.
 コンテナ処理部201は、ハプティクス合成画像の符号化データであるハプティクス合成ビデオ符号化ストリームが格納されたファイルを受信する。コンテナ処理部201は、そのファイルを解析してハプティクス合成ビデオ符号化ストリームを抽出し、復号化部202に供給する。 The container processing unit 201 receives a file in which the haptics composite video coded stream, which is the coded data of the haptics composite image, is stored. The container processing unit 201 analyzes the file, extracts a haptics composite video coded stream, and supplies the haptics synthesis video coded stream to the decoding unit 202.
 復号化部202は、コンテナ処理部201から供給されたハプティクス合成ビデオ符号化ストリームを取得し、復号化し、ハプティクス合成画像を生成する。この復号化の方式は、符号化部104による符号化の方式に対応するものであれば任意である。復号化部202は、そのハプティクス合成画像のデータをメディア情報解析部203に供給する。 The decoding unit 202 acquires the haptics composite video coded stream supplied from the container processing unit 201, decodes it, and generates a haptics composite image. This decoding method is arbitrary as long as it corresponds to the coding method by the coding unit 104. The decoding unit 202 supplies the data of the haptic composite image to the media information analysis unit 203.
 メディア情報解析部203は、そのハプティクス合成画像を解析し、力覚データや触感データ等のハプティクスデータを抽出する。メディア情報解析部203は、抽出したそれらのハプティクスデータをハプティクス提示部204に供給する。 The media information analysis unit 203 analyzes the haptics composite image and extracts haptics data such as force sense data and tactile data. The media information analysis unit 203 supplies the extracted haptics data to the haptics presentation unit 204.
 ハプティクス提示部204は、メディア情報解析部203から供給されるハプティクスデータを取得する。ハプティクス提示部204は、そのハプティクスデータをメディア提示したり、他のデバイス(例えばアクチュエータを有するハプティクスデバイス等)に出力したりする。 The haptics presentation unit 204 acquires the haptics data supplied from the media information analysis unit 203. The haptics presentation unit 204 presents the haptics data on the media and outputs the haptics data to another device (for example, a haptics device having an actuator).
 なお、受信装置200のこれらの処理部(コンテナ処理部201乃至ハプティクス提示部204)は、それぞれ、任意の構成を有する。例えば、各処理部が、上述の処理を実現する論理回路により構成されるようにしてもよい。また、各処理部が、例えばCPU、ROM、RAM等を有し、それらを用いてプログラムを実行することにより、上述の処理を実現するようにしてもよい。もちろん、各処理部が、その両方の構成を有し、上述の処理の一部を論理回路により実現し、他を、プログラムを実行することにより実現するようにしてもよい。各処理部の構成は互いに独立していてもよく、例えば、一部の処理部が上述の処理の一部を論理回路により実現し、他の一部の処理部がプログラムを実行することにより上述の処理を実現し、さらに他の処理部が論理回路とプログラムの実行の両方により上述の処理を実現するようにしてもよい。 Each of these processing units (container processing unit 201 to haptics presentation unit 204) of the receiving device 200 has an arbitrary configuration. For example, each processing unit may be configured by a logic circuit that realizes the above-mentioned processing. Further, each processing unit may have, for example, a CPU, ROM, RAM, etc., and execute a program using them to realize the above-mentioned processing. Of course, each processing unit may have both configurations, and a part of the above-mentioned processing may be realized by a logic circuit, and the other may be realized by executing a program. The configurations of the respective processing units may be independent of each other. For example, some processing units realize a part of the above-mentioned processing by a logic circuit, and some other processing units execute the program. The above-mentioned processing may be realized by the other processing unit by both the logic circuit and the execution of the program.
  <メディア情報解析部>
 図21は、メディア情報解析部203の主な構成例を示すブロック図である。図21に示されるように、メディア情報解析部203は、位置情報抽出部221、物理空間リマッピング部222、および力覚触感情報抽出部223を有する。
<Media Information Analysis Department>
FIG. 21 is a block diagram showing a main configuration example of the media information analysis unit 203. As shown in FIG. 21, the media information analysis unit 203 includes a position information extraction unit 221, a physical space remapping unit 222, and a force / tactile information extraction unit 223.
 位置情報抽出部221は、復号化部202から供給されるハプティクス合成画像を取得する。位置情報抽出部221は、そのハプティクス合成画像を解析し、力覚データや触感データ等のハプティクスデータがマッピングされた位置を示す位置情報を抽出する。その際、位置情報抽出部221は、ハプティクス合成画像に含まれる動き着目マップも参考にして位置情報を抽出する。例えば、位置情報抽出部221は、動きのある部分のハプティクスデータの位置情報を抽出したり、着目する部分のハプティクスデータを抽出したりすることができる。 The position information extraction unit 221 acquires a haptics composite image supplied from the decoding unit 202. The position information extraction unit 221 analyzes the haptics composite image and extracts position information indicating the position to which the haptics data such as force sense data and tactile data are mapped. At that time, the position information extraction unit 221 extracts the position information with reference to the motion attention map included in the haptics composite image. For example, the position information extraction unit 221 can extract the position information of the haptics data of the moving portion and the haptics data of the portion of interest.
 位置情報抽出部221は、その位置情報を物理空間リマッピング部222に供給する。また、位置情報抽出部221は、ハプティクス合成画像および位置情報を力覚触感情報抽出部223に供給する。 The position information extraction unit 221 supplies the position information to the physical space remapping unit 222. Further, the position information extraction unit 221 supplies the haptic composite image and the position information to the force / tactile information extraction unit 223.
 物理空間リマッピング部222は、位置情報抽出部221から供給される位置情報を3次元空間(3D物理空間)にリマッピングし、3D物理空間位置情報を生成する。つまり、ハプティクスデータの3D物理空間における位置を設定する。例えば、物理空間リマッピング部222は、カメラパラメータのSensor positionや3D_slope等から、ROI領域に対して、各カメラのzn軸が3D基準座標軸Zに並行となり、鉛直方向にアラインするよう、得られた画素位置をレンダラ座標系に修正配置する。また、各viewのレンズ向きを示すカメラパラメータであるcapture_normal_vectorが正しいアングルで交差するように補正する。Viewが3つの場合は、それらが3D空間で互いに直交するようレンダラ座標系の該当位置に貼り付ける。リマッピングされた座標は、position_mapping_ratioに相当するスケーリング比Sを乗ずることで物理空間へのリマッピングを行い、レンダラへ出力される。なお、座標変換は、例えばアフィン変換やホモグラフィ変換等の、任意の方式の座標変換を各2次元画像について行う。物理空間リマッピング部222は、その3D物理空間位置情報をハプティクス提示部204に供給する。 The physical space remapping unit 222 remaps the position information supplied from the position information extraction unit 221 to the three-dimensional space (3D physical space) and generates the 3D physical space position information. That is, the position of the haptics data in the 3D physical space is set. For example, the physical space remapping unit 222 was obtained from the sensor position, 3D_slope, etc. of the camera parameters so that the zn axis of each camera is parallel to the 3D reference coordinate axis Z and aligned in the vertical direction with respect to the ROI region. Correct the pixel position in the renderer coordinate system. Also, the camera parameter capture_normal_vector, which indicates the lens orientation of each view, is corrected so that it intersects at the correct angle. If there are three views, paste them at the appropriate positions in the renderer coordinate system so that they are orthogonal to each other in 3D space. The remapped coordinates are remapped to the physical space by multiplying the scaling ratio S corresponding to position_mapping_ratio, and output to the renderer. In the coordinate transformation, any method of coordinate transformation such as affine transformation or homography transformation is performed on each two-dimensional image. The physical space remapping unit 222 supplies the 3D physical space position information to the haptics presentation unit 204.
 力覚触感情報抽出部223は、位置情報抽出部221から供給される位置情報に基づいて、位置情報抽出部221から供給されるハプティクス合成画像から力覚データや触感データ等のハプティクスデータを抽出する。つまり、力覚触感情報抽出部223は、ハプティクス合成画像の、位置情報に示される位置からハプティクスデータを抽出する。力覚触感情報抽出部223は、その抽出したハプティクスデータをハプティクス提示部204に供給する。 The force / tactile information extraction unit 223 extracts haptics data such as force / tactile data and tactile data from the haptics composite image supplied from the position information extraction unit 221 based on the position information supplied from the position information extraction unit 221. do. That is, the force / tactile information extraction unit 223 extracts haptics data from the position indicated by the position information in the haptics composite image. The force / tactile information extraction unit 223 supplies the extracted haptics data to the haptics presentation unit 204.
 このようにすることにより、ハプティクス提示部204は、抽出されたハプティクスデータを、3D物理空間位置情報により示される3D物理空間における位置に配置して提示することができる。つまり、伝送された各ハプティクスデータ同士の関係性を正しく表現することができるので、後段のデバイスにおいて、伝送された各ハプティクスデータを正しく利用することができる。 By doing so, the haptics presentation unit 204 can arrange and present the extracted haptics data at a position in the 3D physical space indicated by the 3D physical space position information. That is, since the relationship between the transmitted haptics data can be correctly expressed, each transmitted haptics data can be correctly used in the subsequent device.
 つまり、受信装置200は、2次元画像にマッピングされて伝送されたハプティクスデータを正しく取得することができる。換言するに、受信装置200は、そのような伝送方法を実現することができる。したがって、受信装置200は、ハプティクスデータ伝送の負荷の増大を抑制することができる。 That is, the receiving device 200 can correctly acquire the haptics data mapped to the two-dimensional image and transmitted. In other words, the receiving device 200 can realize such a transmission method. Therefore, the receiving device 200 can suppress an increase in the load of haptics data transmission.
  <受信処理の流れ>
 この受信装置200により実行される受信処理の流れの例を、図22のフローチャートを参照して説明する。
<Flow of reception processing>
An example of the flow of the reception process executed by the reception device 200 will be described with reference to the flowchart of FIG.
 受信処理が開始されると、受信装置200のコンテナ処理部201は、ステップS201において、送信装置100等から送信されたファイルを受信する。ステップS202において、コンテナ処理部201は、ファイル(コンテナ)を解析し、ハプティクス合成ビデオ符号化ストリームを抽出する。 When the reception process is started, the container processing unit 201 of the receiving device 200 receives the file transmitted from the transmitting device 100 or the like in step S201. In step S202, the container processing unit 201 analyzes the file (container) and extracts the haptics composite video coded stream.
 ステップS203において、復号化部202は、そのハプティクス合成ビデオ符号化ストリームを復号化し、ハプティクス合成画像を生成する。ステップS204において、メディア情報解析部203の位置情報抽出部221は、ROI領域を検出する。また、ステップS205において、その位置情報抽出部221は、位置情報を抽出する。 In step S203, the decoding unit 202 decodes the haptics composite video coded stream and generates a haptics composite image. In step S204, the position information extraction unit 221 of the media information analysis unit 203 detects the ROI region. Further, in step S205, the position information extraction unit 221 extracts the position information.
 ステップS206において、力覚触感情報抽出部223は、ハプティクス合成画像から力覚データや触感データ等のハプティクスデータを抽出する。ステップS207において、力覚触感情報抽出部223は、その抽出したハプティクスデータを受信装置200の外部(例えば、他のデバイス)に出力する。 In step S206, the force / tactile information extraction unit 223 extracts haptics data such as force / tactile data from the haptics composite image. In step S207, the force / tactile information extraction unit 223 outputs the extracted haptics data to the outside of the receiving device 200 (for example, another device).
 ステップS208において、物理空間リマッピング部222は、3D物理空間に位置情報(つまりハプティクスデータ)をマッピングする。 In step S208, the physical space remapping unit 222 maps the position information (that is, haptics data) to the 3D physical space.
 ステップS209において、ハプティクス提示部204は、抽出されたハプティクスデータを、3D物理空間位置情報により示される場所に配置してメディア提示する。 In step S209, the haptics presentation unit 204 arranges the extracted haptics data at a location indicated by the 3D physical space position information and presents the media.
 ステップS209の処理が終了すると受信処理が終了する。 When the process of step S209 is completed, the reception process is completed.
 以上のように各処理を実行することにより、受信装置200は、ハプティクスデータ伝送の負荷の増大を抑制することができる。 By executing each process as described above, the receiving device 200 can suppress an increase in the load of haptics data transmission.
  <イメージセンサの次元数>
 なお、イメージセンサによるキャプチャの次元数(つまり撮像画像を生成するカメラの数)は、任意である。例えば、図23のAに示されるように、9台のカメラを用いて被写体を撮像するようにしてもよい。また、図23のBに示されるように、3台のカメラを用いて被写体を撮像するようにしてもよい。また、ビューは、物理的なカメラが存在せず、実在の撮像画像から生成される仮想的な視点の撮像画像であってもよい。
<Number of dimensions of image sensor>
The number of dimensions captured by the image sensor (that is, the number of cameras that generate captured images) is arbitrary. For example, as shown in A of FIG. 23, a subject may be imaged using nine cameras. Further, as shown in B of FIG. 23, the subject may be imaged using three cameras. Further, the view may be a captured image of a virtual viewpoint generated from an actual captured image without a physical camera.
 <4.第3の実施の形態>
  <双方向伝送>
 なお、以上に説明したハプティクスデータの伝送は、例えば図24に示されるように、双方向であってもよい。例えば、ローカルオペレータのユーザがセンサを有するハプティクスデバイスを操作することにより検出されたハプティクスデータが、上述のように画像化され、ハプティクス合成画像(の符号化データ)としてリモートデバイスに伝送(forward)されるようにしてもよい。
<4. Third Embodiment>
<Bidirectional transmission>
The transmission of the haptics data described above may be bidirectional, as shown in FIG. 24, for example. For example, the haptics data detected by the user of the local operator operating the haptics device having the sensor is imaged as described above and transmitted (forward) to the remote device as a haptics composite image (encoded data). ) May be done.
 この場合、アクチュエータを有するハプティクスデバイスであるリモートデバイスが、その伝送されたハプティクスデータを用いて、ローカルオペレータ側のハプティクスデバイスの動きを再現する。この動きの再現によりリモートデバイスがオブジェクトを把持すると、その際の力覚データや触感データ等(ハプティクスデータ)が、リモートデバイス(のセンサ)より検出され、ローカルオペレータ側に伝送(feedback)される。このfeedback場合も、forwardの場合と同様に、ハプティクスデータは、上述のように画像化され、ハプティクス合成画像(の符号化データ)として伝送されるようにしてもよい。 In this case, the remote device, which is a haptics device having an actuator, reproduces the movement of the haptics device on the local operator side by using the transmitted haptics data. When the remote device grasps the object by reproducing this movement, the force sense data, tactile data, etc. (haptics data) at that time are detected by the remote device (sensor) and transmitted (feedback) to the local operator side. .. In the case of this feedback as well, as in the case of forward, the haptics data may be imaged as described above and transmitted as (encoded data) of the haptics composite image.
 ローカルオペレータ側のハプティクスデバイスは、その伝送されたハプティクスデータを用いて、リモートデバイスにおいて検出された力や触感を再現する。これにより、ローカルオペレータであるユーザは、そのハプティクスデバイスを介して、リモートデバイスにおいて検出された力や触感を体感することができる。 The haptics device on the local operator side uses the transmitted haptics data to reproduce the force and tactile sensation detected on the remote device. As a result, the user who is a local operator can experience the force and tactile sensation detected in the remote device through the haptics device.
 なお、フォワード伝送される複数のハプティクスデータの内から、このようにフィードバックされるハプティクスデータを、着目マーカを用いて選択することにより、不要なハプティクスデータのフィードバック伝送を抑制することができ、ハプティクスデータ伝送の負荷の増大を抑制することができる。 By selecting the haptics data to be fed back in this way from a plurality of haptics data to be forward-transmitted by using the marker of interest, it is possible to suppress the feedback transmission of unnecessary haptics data. , It is possible to suppress an increase in the load of haptics data transmission.
  <遠隔操作システム>
 図25は、本技術を適用した通信システム(情報処理システム)の一実施の形態である遠隔操作システムの概要を説明する図である。図25に示される遠隔操作システム300は、互いに遠隔地のローカルシステム301およびリモートシステム302を有する。ローカルシステム301およびリモートシステム302は、それぞれハプティクスデバイスを有しており、ネットワーク310を介して互いに通信を行い、ハプティクスデータを授受することによりハプティクスデバイス遠隔操作を実現する。例えば、一方のハプティクスデバイスに入力された操作を、他方のハプティクスデバイスにおいて再現することができる。
<Remote control system>
FIG. 25 is a diagram illustrating an outline of a remote control system which is an embodiment of a communication system (information processing system) to which the present technology is applied. The remote control system 300 shown in FIG. 25 has a local system 301 and a remote system 302 that are remote from each other. The local system 301 and the remote system 302 each have a haptics device, communicate with each other via the network 310, and realize remote control of the haptics device by exchanging haptics data. For example, the operation input to one haptics device can be reproduced in the other haptics device.
 ここでは、説明において、通信の主体側のシステムをローカルシステム301と称し、その通信相手側のシステムをリモートシステム302と称するが、ローカルシステム301とリモートシステム302は、基本的に互いに同様の役割を担うことができるシステムである。したがって、特に言及しない限り、以下に記載のローカルシステム301についての説明は、リモートシステム302にも適用することができる。 Here, in the description, the system on the main side of communication is referred to as the local system 301, and the system on the other side of the communication is referred to as the remote system 302. However, the local system 301 and the remote system 302 basically play the same role as each other. It is a system that can be carried. Therefore, unless otherwise specified, the description of the local system 301 described below can also be applied to the remote system 302.
 なお、ローカルシステム301およびリモートシステム302の構成はそれぞれ任意である。ローカルシステム301の構成とリモートシステム302の構成は、互いに異なっていてもよいし、互いに同一であってもよい。また、図25においては、ローカルシステム301およびリモートシステム302が1台ずつ示されているが、遠隔操作システム300は、それぞれ任意の数のローカルシステム301およびリモートシステム302を有することができる。 The configurations of the local system 301 and the remote system 302 are arbitrary. The configuration of the local system 301 and the configuration of the remote system 302 may be different from each other or may be the same as each other. Further, in FIG. 25, one local system 301 and one remote system 302 are shown, but the remote control system 300 can have an arbitrary number of local systems 301 and remote systems 302, respectively.
 また、遠隔操作システム300は、MPDサーバ303を有することができる。MPDサーバ303は、ローカルシステム301やリモートシステム302に対してDASH(Dynamic Adaptive Streaming over HTTP)のMPD(Media Presentation Description)の登録や提供に関する処理を行う。ローカルシステム301やリモートシステム302は、このMPDを用いて必要な情報を選択し、取得することができる。もちろん、このMPDサーバ303の構成も任意であり、その数も任意である。 Further, the remote control system 300 can have an MPD server 303. The MPD server 303 performs processing related to registration and provision of MPD (Media Presentation Description) of DASH (Dynamic Adaptive Streaming over HTTP) to the local system 301 and the remote system 302. The local system 301 and the remote system 302 can use this MPD to select and acquire necessary information. Of course, the configuration of the MPD server 303 is also arbitrary, and the number thereof is also arbitrary.
 なお、このMPDサーバ303は、省略することもできる。例えば、ローカルシステム301やリモートシステム302がMPDを通信相手に対して供給するようにしてもよい。また、例えば、ローカルシステム301およびリモートシステム302がMPDを用いずにハプティクスデータを授受するようにしてもよい。 Note that this MPD server 303 can be omitted. For example, the local system 301 or the remote system 302 may supply the MPD to the communication partner. Further, for example, the local system 301 and the remote system 302 may exchange haptics data without using MPD.
 なお、ネットワーク310は、例えばローカルエリアネットワーク、専用線によるネットワークあるいはWAN(Wide Area Network)、インターネット、セルラー通信、衛星通信等、任意の有線通信網若しくは無線通信網、またはその両方により構成される。また、ネットワーク310が複数の通信網により構成されてもよい。 The network 310 is composed of, for example, a local area network, a network by a dedicated line, a WAN (Wide Area Network), the Internet, cellular communication, satellite communication, or any other wired communication network, wireless communication network, or both. Further, the network 310 may be composed of a plurality of communication networks.
  <ローカルシステム>
 図26は、ローカルシステム301の主な構成例を示すブロック図である。なお、図26においては、処理部やデータの流れ等の主なものを示しており、図26に示されるものが全てとは限らない。つまり、このローカルシステム301に含まれる各装置において、図26においてブロックとして示されていない処理部が存在したり、図26において矢印等として示されていない処理やデータの流れが存在したりしてもよい。
<Local system>
FIG. 26 is a block diagram showing a main configuration example of the local system 301. Note that FIG. 26 shows the main things such as the processing unit and the data flow, and not all of them are shown in FIG. 26. That is, in each device included in the local system 301, there is a processing unit that is not shown as a block in FIG. 26, or there is a processing or data flow that is not shown as an arrow or the like in FIG. 26. May be good.
 図26に示されるように、ローカルシステム301は、ハプティクスデバイス321、通信デバイス322、デジタルインタフェース323、およびデジタルインタフェース324を有する。 As shown in FIG. 26, the local system 301 has a haptics device 321 and a communication device 322, a digital interface 323, and a digital interface 324.
 ハプティクスデバイス321は、ユーザやリモートデバイスのインタフェースとなり得るデバイスであり、ハプティクスデータを生成したり、ハプティクスデータに基づいて駆動したりする。また、例えば、ハプティクスデバイス321は、デジタルインタフェース323を介して通信デバイス322にハプティクスデータ等を供給することができる。さらに、ハプティクスデバイス321は、デジタルインタフェース324を介して通信デバイス322から供給されるハプティクスデータ等を取得することができる。 The haptics device 321 is a device that can serve as an interface for a user or a remote device, and generates haptics data or drives it based on the haptics data. Further, for example, the haptics device 321 can supply haptics data and the like to the communication device 322 via the digital interface 323. Further, the haptics device 321 can acquire haptics data and the like supplied from the communication device 322 via the digital interface 324.
 通信デバイス322は、ネットワーク310(図25)を介して他の装置と通信を行うことができる。通信デバイス322は、その通信により、例えば、ハプティクスデータの授受を行ったり、MPDの授受を行ったりすることができる。また、通信デバイス322は、例えば、デジタルインタフェース323を介してハプティクスデバイス321から供給されるハプティクスデータ等を取得することができる。さらに、通信デバイス322は、デジタルインタフェース324を介してハプティクスデバイス321にハプティクスデータ等を供給することができる。デジタルインタフェース323およびデジタルインタフェース324は、例えば、USB(Universal Serial Bus)(登録商標)やHDMI(High-Definition Multimedia Interface)(登録商標)等、任意の規格のデジタル機器用インタフェースである。 The communication device 322 can communicate with another device via the network 310 (FIG. 25). The communication device 322 can, for example, exchange haptics data and exchange MPDs by the communication. Further, the communication device 322 can acquire haptics data and the like supplied from the haptics device 321 via the digital interface 323, for example. Further, the communication device 322 can supply haptics data and the like to the haptics device 321 via the digital interface 324. The digital interface 323 and the digital interface 324 are interfaces for digital devices of arbitrary standards such as USB (Universal Serial Bus) (registered trademark) and HDMI (High-Definition Multimedia Interface) (registered trademark).
 ハプティクスデバイス321は、イメージセンサ331、ROI設定部332、動き画素編集部333、メディア情報合成部334、メディア情報解析部341、レンダラ342、アクチュエータ343、およびハプティクスインタフェース(I/F)344を有する。 The haptics device 321 includes an image sensor 331, an ROI setting unit 332, a motion pixel editing unit 333, a media information synthesis unit 334, a media information analysis unit 341, a renderer 342, an actuator 343, and a haptics interface (I / F) 344. Have.
 ROI設定部332は、ROI設定部101(図2)と同様の処理部であり、同様の処理を行うことができる。動き画素編集部333は、動き画素編集部102(図2)と同様の処理部であり、同様の処理を行うことができる。メディア情報合成部334は、メディア情報合成部103(図2)と同様の処理部であり、同様の処理を行うことができる。 The ROI setting unit 332 is the same processing unit as the ROI setting unit 101 (FIG. 2), and can perform the same processing. The motion pixel editing unit 333 is the same processing unit as the motion pixel editing unit 102 (FIG. 2), and can perform the same processing. The media information synthesis unit 334 is the same processing unit as the media information synthesis unit 103 (FIG. 2), and can perform the same processing.
 またメディア情報解析部341は、メディア情報解析部203(図20)と同様の処理部であり、同様の処理を行うことができる。レンダラ342は、ハプティクス提示部204(図20)と同様の処理部であり、同様の処理を行うことができる。 Further, the media information analysis unit 341 is the same processing unit as the media information analysis unit 203 (FIG. 20), and can perform the same processing. The renderer 342 is a processing unit similar to the haptics presentation unit 204 (FIG. 20), and can perform the same processing.
 通信デバイス322は、コンポーザ351、符号化部352、コンテナ処理部353、MPD生成部354、撮像部355、ビデオ符号化部356、コンテナ処理部361、復号化部362、MPD制御部363、ビデオ復号化部364、および表示部365を有する。 The communication device 322 includes a composer 351, an encoding unit 352, a container processing unit 353, an MPD generation unit 354, an imaging unit 355, a video coding unit 356, a container processing unit 361, a decoding unit 362, an MPD control unit 363, and a video decoding unit. It has a conversion unit 364 and a display unit 365.
 符号化部352は、符号化部104(図2)と同様の処理部であり、同様の処理を行うことができる。コンテナ処理部353は、コンテナ処理部105(図2)と同様の処理部であり、同様の処理を行うことができる。 The coding unit 352 is the same processing unit as the coding unit 104 (FIG. 2), and can perform the same processing. The container processing unit 353 is the same processing unit as the container processing unit 105 (FIG. 2), and can perform the same processing.
 またコンテナ処理部361は、コンテナ処理部201(図20)と同様の処理部であり、同様の処理を行う。復号化部362は、復号化部202(図20)と同様の処理部であり、同様の処理を行う。 Further, the container processing unit 361 is the same processing unit as the container processing unit 201 (FIG. 20), and performs the same processing. The decoding unit 362 is the same processing unit as the decoding unit 202 (FIG. 20), and performs the same processing.
 リモートシステム302も、ローカルシステム301と同様の構成を有することができる。 The remote system 302 can also have the same configuration as the local system 301.
 ローカルシステム301およびリモートシステム302は、例えば、図24を参照して説明したようなハプティクス合成画像の双方向伝送(forward, feedback)を行うことができる。 The local system 301 and the remote system 302 can perform bidirectional transmission (forward, feedback) of the haptic composite image as described with reference to FIG. 24, for example.
 例えば、イメージセンサ331がハプティクスインタフェース344を撮像し、その撮像画像データをROI設定部332に供給すると、ROI設定部332は、その撮像画像からハプティクスインタフェース344の観測点(例えば関節等)の空間座標(3次元座標系の座標)を導出し、ROIを設定する。 For example, when the image sensor 331 images the haptics interface 344 and supplies the captured image data to the ROI setting unit 332, the ROI setting unit 332 transfers the observation point (for example, a joint or the like) of the haptics interface 344 from the captured image. Derivation of spatial coordinates (coordinates of 3D coordinate system) and set ROI.
 なお、イメージセンサ331は、複数のカメラを有していてもよく、その複数のカメラが撮像して得られた複数の撮像画像(複数のビュー)をROI設定部332や動き画素編集部333に供給し得る。またイメージセンサ331が、例えば、位置や動きの検出を行う磁気センサ、超音波センサ、GPS(Global Positioning System)センサ、角速度などの運動状態を検知するジャイロセンサ、加速度を検知する加速度センサ等、任意のセンサを有していてもよい。 The image sensor 331 may have a plurality of cameras, and a plurality of captured images (plurality of views) obtained by the plurality of cameras are used in the ROI setting unit 332 and the motion pixel editing unit 333. Can be supplied. Further, the image sensor 331 is arbitrary, for example, a magnetic sensor that detects position or movement, an ultrasonic sensor, a GPS (Global Positioning System) sensor, a gyro sensor that detects a motion state such as angular velocity, an acceleration sensor that detects acceleration, or the like. It may have a sensor of.
 動き画素編集部333は、供給された撮像画像とROI設定情報等を用いて、動き着目マップを生成する。メディア情報合成部334は、その動き着目マップを用いて、ハプティクスインタフェース344のセンサにより検出されたハプティクスデータを2次元画像にマッピングし、ハプティクス合成画像を生成する。メディア情報合成部334は、生成したハプティクス合成画像を、デジタルインタフェース323を介して通信デバイス322に供給する。 The motion pixel editing unit 333 generates a motion focus map using the supplied captured image and ROI setting information and the like. The media information synthesis unit 334 maps the haptics data detected by the sensor of the haptics interface 344 to a two-dimensional image using the motion attention map, and generates a haptics composite image. The media information synthesis unit 334 supplies the generated haptics composite image to the communication device 322 via the digital interface 323.
 通信デバイス322のコンポーザ351は、そのハプティクス合成画像を取得し、符号化部352に供給する。符号化部352は、コンポーザ351から供給されるハプティクス合成画像を符号化し、符号化データ(ハプティクス合成ビデオ符号化ストリーム)を生成する。その際、符号化部352は、ハプティクス合成画像を動画像のピクチャとして符号化し、さらに、ハプティクスデータに関する制御情報を、そのピクチャ毎に付加してもよい。コンテナ処理部353に供給する。コンテナ処理部353は、その符号化データを送信用のファイルに格納する。例えば、コンテナ処理部353は、その符号化データを格納するISOBMFF形式のファイルを生成してもよい。また、コンテナ処理部353は、そのファイルのメディアボックス(mediabox)に、ハプティクスデータに関する制御情報を格納してもよい。コンテナ処理部353は、それをリモートシステム302宛てに送信する(forward)。 The composer 351 of the communication device 322 acquires the haptic composite image and supplies it to the coding unit 352. The coding unit 352 encodes the haptics composite image supplied from the composer 351 and generates coded data (haptics composite video coded stream). At that time, the coding unit 352 may encode the haptics composite image as a picture of a moving image, and may further add control information regarding the haptics data to each picture. It is supplied to the container processing unit 353. The container processing unit 353 stores the coded data in a file for transmission. For example, the container processing unit 353 may generate an ISOBMFF format file for storing the coded data. Further, the container processing unit 353 may store the control information related to the haptics data in the media box of the file. The container processing unit 353 forwards it to the remote system 302.
 リモートシステム302の通信デバイス322のコンテナ処理部361は、そのファイルを受信して解析し、符号化データ(ハプティクス合成ビデオ符号化ストリーム)を抽出する。復号化部362は、その符号化データ(ハプティクス合成ビデオ符号化ストリーム)を復号し、ハプティクス合成画像を生成(復元)する。復号化部362は、そのハプティクス合成画像を、デジタルインタフェース324を介してハプティクスデバイス321に供給する。 The container processing unit 361 of the communication device 322 of the remote system 302 receives the file, analyzes it, and extracts the coded data (haptics synthetic video coded stream). The decoding unit 362 decodes the coded data (haptics composite video coded stream) and generates (restores) the haptics composite image. The decoding unit 362 supplies the haptics composite image to the haptics device 321 via the digital interface 324.
 ハプティクスデバイス321のメディア情報解析部341は、そのハプティクス合成画像を取得し、ハプティクスデータを抽出する。レンダラ342は、そのハプティクスデータを用いてレンダリングを行い、アクチュエータ343に対する制御情報を生成する。 The media information analysis unit 341 of the haptics device 321 acquires the haptics composite image and extracts the haptics data. The renderer 342 renders using the haptics data and generates control information for the actuator 343.
 アクチュエータ343は、その制御情報に対応してハプティクスインタフェース344を駆動させる。ハプティクスインタフェース344は、ユーザであるオペレータやリモートデバイス等に対する力覚データや触覚データ等のインタフェースとして機能する。つまり、リモートシステム302のハプティクスインタフェース344は、アクチュエータ343に制御されて、上述のようにフォワード伝送されたハプティクスデータにより表現されるローカルシステム301側のハプティクスインタフェース344の動き(力覚や触覚等)を再現する。 The actuator 343 drives the haptics interface 344 in response to the control information. The haptics interface 344 functions as an interface for force sense data, tactile sense data, and the like for an operator who is a user, a remote device, and the like. That is, the haptics interface 344 of the remote system 302 is controlled by the actuator 343, and the movement (force sense or tactile sense) of the haptics interface 344 on the local system 301 side represented by the haptics data forward-transmitted as described above. Etc.) is reproduced.
 リモートシステム302のイメージセンサ331がハプティクスインタフェース344を撮像し、その撮像画像データを生成すると、ROI設定部332は、その撮像画像からハプティクスインタフェース344の観測点(例えば関節等)の空間座標(3次元座標系の座標)を導出し、ROIを設定する。動き画素編集部333は、その撮像画像とROI設定情報等を用いて動き着目マップを生成する。メディア情報合成部334は、その動き着目マップを用いてハプティクス合成画像を生成し、デジタルインタフェース323を介して通信デバイス322に供給する。 When the image sensor 331 of the remote system 302 images the haptics interface 344 and generates the captured image data, the ROI setting unit 332 uses the captured image to obtain the spatial coordinates (for example, joints, etc.) of the observation point (for example, joints) of the haptics interface 344. The coordinates of the 3D coordinate system) are derived and the ROI is set. The motion pixel editing unit 333 generates a motion focus map using the captured image and ROI setting information and the like. The media information synthesis unit 334 generates a haptics composite image using the motion attention map, and supplies the haptics composite image to the communication device 322 via the digital interface 323.
 通信デバイス322のコンポーザ351は、そのハプティクス合成画像を取得する。符号化部352は、そのハプティクス合成画像を符号化し、符号化データ(ハプティクス合成ビデオ符号化ストリーム)を生成する。コンテナ処理部353は、その符号化データを送信用のファイルに格納し、それをローカルシステム301宛てに送信する(feedback)。 The composer 351 of the communication device 322 acquires the haptic composite image. The coding unit 352 encodes the haptic composite image and generates coded data (haptics composite video coded stream). The container processing unit 353 stores the encoded data in a file for transmission and transmits it to the local system 301 (feedback).
 ローカルシステム301の通信デバイス322のコンテナ処理部361は、そのファイルを受信して解析し、符号化データ(ハプティクス合成ビデオ符号化ストリーム)を抽出する。復号化部362は、その符号化データ(ハプティクス合成ビデオ符号化ストリーム)を復号し、ハプティクス合成画像を生成(復元)する。復号化部362は、そのハプティクス合成画像を、デジタルインタフェース324を介してハプティクスデバイス321に供給する。 The container processing unit 361 of the communication device 322 of the local system 301 receives the file, analyzes it, and extracts the coded data (haptics synthetic video coded stream). The decoding unit 362 decodes the coded data (haptics composite video coded stream) and generates (restores) the haptics composite image. The decoding unit 362 supplies the haptics composite image to the haptics device 321 via the digital interface 324.
 ハプティクスデバイス321のメディア情報解析部341は、そのハプティクス合成画像を取得し、ハプティクスデータを抽出する。レンダラ342は、そのハプティクスデータを用いてレンダリングを行い、アクチュエータ343に対する制御情報を生成する。 The media information analysis unit 341 of the haptics device 321 acquires the haptics composite image and extracts the haptics data. The renderer 342 renders using the haptics data and generates control information for the actuator 343.
 アクチュエータ343は、その制御情報に対応してハプティクスインタフェース344を駆動させる。ハプティクスインタフェース344は、ユーザであるオペレータやリモートデバイス等に対する力覚データや触覚データ等のインタフェースとして機能する。つまり、リモートシステム302のハプティクスインタフェース344は、アクチュエータ343に制御されて、上述のようにフィードバック伝送されたハプティクスデータにより表現されるリモートシステム302側のハプティクスインタフェース344において検出される情報(力覚(反作用)や触覚等)を再現する。 The actuator 343 drives the haptics interface 344 in response to the control information. The haptics interface 344 functions as an interface for force sense data, tactile sense data, and the like for an operator who is a user, a remote device, and the like. That is, the haptics interface 344 of the remote system 302 is controlled by the actuator 343, and the information (force) detected in the haptics interface 344 on the remote system 302 side represented by the haptics data fed back and transmitted as described above. Reproduce the sense (reaction), touch, etc.).
 以上のように、ローカルシステム301およびリモートシステム302は、ハプティクスデータの双方向伝送を実現することができる。 As described above, the local system 301 and the remote system 302 can realize bidirectional transmission of haptics data.
 なお、ローカルシステム301およびリモートシステム302は、ハプティクスデータの再生を制御する制御情報であるMPDを生成して送信したり、MPDを受信してハプティクスデータの再生を制御したりすることができる。 The local system 301 and the remote system 302 can generate and transmit an MPD which is control information for controlling the reproduction of the haptics data, or receive the MPD to control the reproduction of the haptics data. ..
 例えば、MPD生成部354は、コンポーザ351からハプティクス合成画像を取得し、そのハプティクス合成画像に含まれるハプティクスデータに関する制御情報を含むMPDを生成する。符号化部352は、そのMPDを符号化する。コンテナ処理部353は、そのMPDの符号化データを送信用ファイルに格納し、それを例えばMPDサーバ403宛てに送信する。なお、コンテナ処理部353が、そのMPDの符号化データを格納した送信用ファイルを、リモートシステム302宛てに送信するようにしてもよい。 For example, the MPD generation unit 354 acquires a haptics composite image from the composer 351 and generates an MPD including control information regarding the haptics data included in the haptics composite image. The coding unit 352 encodes the MPD. The container processing unit 353 stores the coded data of the MPD in a transmission file, and transmits it to, for example, the MPD server 403. The container processing unit 353 may transmit the transmission file in which the coded data of the MPD is stored to the remote system 302.
 例えば、コンテナ処理部361は、MPDサーバ303から所望のハプティクスデータに対応するMPDの符号化データを取得すると、復号化部362は、その符号化データを復号化してMPDを生成する。MPD制御部363は、そのMPDを用いてコンテナ処理部361を制御し、所望のハプティクスデータを取得されることができる。 For example, when the container processing unit 361 acquires the coded data of the MPD corresponding to the desired haptics data from the MPD server 303, the decoding unit 362 decodes the coded data to generate the MPD. The MPD control unit 363 can control the container processing unit 361 using the MPD and acquire desired haptics data.
 また、ローカルシステム301およびリモートシステム302は、ハプティクスデータでないデータを授受することもできる。例えば、撮像部355が被写体を撮像して撮像画像データを生成し、ビデオ符号化部356がその撮像画像データを符号化し、コンテナ処理部353その符号化データを送信用ファイルに格納し、リモートシステム302宛てに送信することができる。 Further, the local system 301 and the remote system 302 can also exchange data that is not haptics data. For example, the imaging unit 355 captures a subject and generates captured image data, the video coding unit 356 encodes the captured image data, and the container processing unit 353 stores the encoded data in a transmission file for a remote system. It can be sent to 302.
 また、コンテナ処理部361が、その送信用ファイルを受信し、撮像画像データの符号化データを抽出し、ビデオ復号化部364が復号化して撮像画像データを生成し、表示部365がその撮像画像データに対応する撮像画像をモニタ等に表示することができる。 Further, the container processing unit 361 receives the transmission file, extracts the encoded data of the captured image data, the video decoding unit 364 decodes it to generate the captured image data, and the display unit 365 generates the captured image data. The captured image corresponding to the data can be displayed on a monitor or the like.
 以上のように、双方向伝送においても本技術を適用することができ、ハプティクスデータ伝送の負荷の増大を抑制することができる。 As described above, this technology can be applied to bidirectional transmission as well, and an increase in the load of haptics data transmission can be suppressed.
 また、以上のように、MPDを生成して供給したり、取得したりすることができるので、例えば、このMPDを用いてハプティクスデータに関する制御情報を授受することができる。したがって、ハプティクス合成画像(の符号化データ)を授受する前に、この制御情報を取得することができる。 Further, as described above, MPDs can be generated, supplied, and acquired. Therefore, for example, control information related to haptics data can be exchanged using this MPD. Therefore, this control information can be acquired before the haptics composite image (encoded data) is exchanged.
  <MPDサーバ>
 図27は、MPDサーバ303の主な構成例を示すブロック図である。図27に示されるMPDサーバ303において、CPU401、ROM402、RAM403は、バス404を介して相互に接続されている。
<MPD server>
FIG. 27 is a block diagram showing a main configuration example of the MPD server 303. In the MPD server 303 shown in FIG. 27, the CPU 401, ROM 402, and RAM 403 are connected to each other via the bus 404.
 バス404にはまた、入出力インタフェース410も接続されている。入出力インタフェース410には、入力部411、出力部412、記憶部413、通信部414、およびドライブ415が接続されている。 The input / output interface 410 is also connected to the bus 404. An input unit 411, an output unit 412, a storage unit 413, a communication unit 414, and a drive 415 are connected to the input / output interface 410.
 入力部411は、例えば、キーボード、マウス、マイクロホン、タッチパネル、イメージセンサ、モーションセンサ、その他各種センサ等、任意の入力デバイスを含み得る。また、入力部411が入力端子を含むようにしてもよい。出力部412は、例えば、ディスプレイ、プロジェクタ、スピーカ等、任意の出力デバイスを含み得る。また、出力部412が出力端子を含むようにしてもよい。 The input unit 411 may include any input device such as a keyboard, a mouse, a microphone, a touch panel, an image sensor, a motion sensor, and various other sensors. Further, the input unit 411 may include an input terminal. The output unit 412 may include any output device, such as a display, a projector, a speaker, and the like. Further, the output unit 412 may include an output terminal.
 記憶部413は、例えば、ハードディスク、RAMディスク、不揮発性のメモリ等、任意の記憶媒体と、その記憶媒体に対する情報の書き込みや読み出しを行う記憶制御部を備える。通信部414は、例えば、ネットワークインタフェースよりなる。ドライブ415は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等、任意のリムーバブル記録媒体421を駆動し、そのリムーバブル記録媒体421に対する情報の書き込みや読み出しを行う。 The storage unit 413 includes, for example, an arbitrary storage medium such as a hard disk, a RAM disk, or a non-volatile memory, and a storage control unit that writes or reads information from the storage medium. The communication unit 414 includes, for example, a network interface. The drive 415 drives an arbitrary removable recording medium 421 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory, and writes or reads information from the removable recording medium 421.
 以上のように構成されるMPDサーバ303では、CPU401が、例えば、記憶部413に記憶されているプログラムを、入出力インタフェース410およびバス404を介して、RAM403にロードして実行することにより、後述する機能ブロックで示される各種機能を実現する。RAM403にはまた、CPU401がプログラムの各種の処理を実行する上において必要なデータなども適宜記憶される。 In the MPD server 303 configured as described above, the CPU 401 loads the program stored in the storage unit 413 into the RAM 403 via the input / output interface 410 and the bus 404 and executes the program, which will be described later. Realize various functions indicated by the function blocks to be performed. The RAM 403 also appropriately stores data and the like necessary for the CPU 401 to execute various processes of the program.
 コンピュータが実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体421に記録して適用することができる。その場合、プログラムは、リムーバブル記録媒体421をドライブ415に装着することにより、入出力インタフェース410を介して、記憶部413にインストールすることができる。 The program executed by the computer can be recorded and applied to the removable recording medium 421 as a package medium or the like, for example. In that case, the program can be installed in the storage unit 413 via the input / output interface 410 by mounting the removable recording medium 421 in the drive 415.
 また、このプログラムは、ローカルエリアネットワーク、専用線によるネットワークあるいはWAN、インターネット、衛星通信等といった、有線または無線の伝送媒体を介して提供することもできる。その場合、プログラムは、通信部414で受信し、記憶部413にインストールすることができる。 This program can also be provided via a wired or wireless transmission medium such as a local area network, a leased line network, or WAN, Internet, satellite communication, etc. In that case, the program can be received by the communication unit 414 and installed in the storage unit 413.
 その他、このプログラムは、ROM402や記憶部413に、あらかじめインストールしておくこともできる。 In addition, this program can be installed in advance in ROM 402 or storage unit 413.
  <コンテナ構成例>
 以上の遠隔操作システム300において授受されるハプティクス合成画像は、例えば、ISOBMFF(ISO Base Media File Format)形式のコンテナ(送信用ファイル)に格納される。このISOBMFFの場合、図28に示されるように、コンテナは、IS(Initialization Segment)とMS(Media Segment)とを有する。MSには、トラックの識別情報(trackID)やタイムスタンプ(Timestamp)等が格納される。また、MPDは、このMSに紐づけられる。さらに、このMSにはハプティクスデータ用のSEI(Supplemental Enhancement Information)が格納され得る。
<Container configuration example>
The haptic composite image sent and received in the remote control system 300 is stored in, for example, an ISOBMFF (ISO Base Media File Format) format container (transmission file). In the case of this ISO BMFF, as shown in FIG. 28, the container has an IS (Initialization Segment) and an MS (Media Segment). The track identification information (trackID), time stamp (Timestamp), etc. are stored in the MS. In addition, MPD is associated with this MS. Furthermore, SEI (Supplemental Enhancement Information) for haptics data can be stored in this MS.
 このハプティクスデータ用のSEI(Haptics_data_embeddding_information SEI)は、符号化部104等によりハプティクス合成画像が動画像のピクチャとして符号化される際に、例えば、その符号化データに対して、ハプティクス合成画像のフレーム毎に付加され、そのフレームにマッピングされたハプティクスデータに関する制御情報を含む。 The SEI (Haptics_data_embeddding_information SEI) for this haptics data is used, for example, when the haptics composite image is encoded as a picture of a moving image by the coding unit 104 or the like, for example, a frame of the haptics composite image is used for the encoded data. Contains control information about the haptics data that is added each time and mapped to that frame.
  <SEI>
 図29、図30、図31にそのハプティクスデータ用のSEI(Haptics_data_embedding_information SEI)のシンタックスの例を示す。また、図32および図33にそのセマンティクスの例を示す。受信側においてこのSEIを参照することにより、例えば図29に示されるようにROIの範囲を示す情報(ROI_start_horizontal, ROI_start_vertical, ROI_end_horizontal, ROI_end_vertical)等を得ることができる。
<SEI>
29, 30, and 31 show an example of the SEI (Haptics_data_embedding_information SEI) syntax for the haptics data. In addition, FIGS. 32 and 33 show examples of the semantics. By referring to this SEI on the receiving side, for example, as shown in FIG. 29, information indicating the range of ROI (ROI_start_horizontal, ROI_start_vertical, ROI_end_horizontal, ROI_end_vertical) and the like can be obtained.
  <MPD>
 また、ハプティクスデータに関する制御情報は、上述したようにMPDに記述することもできる。
<MPD>
In addition, control information related to haptics data can also be described in the MPD as described above.
 例えば、MPDサーバ303にアクセスし、MPDファイルを取得し解析、受信側ネットワークでの可能な帯域を考慮し、適切なビットレートとなるようにビットレートの選択を行う、といった制御をMPDに基づいて行うことができる。また、受信側のデバイス構成により、再生可能な範囲内となるように、配信される合成画像を選択する制御を行う、といったことも可能である。 For example, control based on MPD is to access the MPD server 303, acquire and analyze the MPD file, consider the possible bandwidth on the receiving network, and select the bit rate so that the bit rate is appropriate. It can be carried out. Further, depending on the device configuration on the receiving side, it is also possible to control the selection of the composite image to be distributed so as to be within the reproducible range.
 例えば、MPDにおいて、Supplementary descriptorを用いて新規スキーマ定義をしてもよい。サーバ経由で送信側がビットレートのリクエストを受けると、それを実現するようメディア情報合成部334で制御を行うようにしてもよい。MPDの記述例を図34および図35に示す。この例の場合、符号化ビットレートの総量を4Mbpsとするか2Mbpsとするかの選択を行うことができる。この選択に応じてsensorviewsとmotionmapのパラメータを切り替えることによりターゲットレートを実現することができる。 For example, in MPD, a new schema may be defined using the Supplementary descriptor. When the transmitting side receives a bit rate request via the server, the media information synthesis unit 334 may control to realize the request. A description example of MPD is shown in FIGS. 34 and 35. In the case of this example, it is possible to select whether the total amount of the coded bit rate is 4 Mbps or 2 Mbps. The target rate can be achieved by switching the parameters of sensor views and motion map according to this selection.
 また、上述した双方向のハプティクスデータ伝送において、ローカルシステム301からリモートシステム302へ伝送されるハプティクスデータに関する制御情報を含むMPDの例を図36に示す。また、リモートシステム302からローカルシステム301へ伝送されるハプティクスデータに関する制御情報を含むMPDの例を図37に示す。また、MPD要素のセマンティクスの例を図38に示す。 Further, in the bidirectional haptics data transmission described above, FIG. 36 shows an example of an MPD including control information regarding the haptics data transmitted from the local system 301 to the remote system 302. Further, FIG. 37 shows an example of an MPD including control information regarding haptics data transmitted from the remote system 302 to the local system 301. An example of the semantics of MPD elements is shown in FIG.
  <メディアセグメント>
 なお、ハプティクスデータに関する制御情報は、ISOBMFFのメディアボックス(例えば図28のhpmb)に格納することもできる。例えば、図39に示されるようなパラメータをhpmb(hptc_mediabox)に格納することができる。もちろん、これら以外のパラメータをhpmbに格納するようにしてもよい。
<Media segment>
The control information related to the haptics data can also be stored in the ISOBMFF media box (for example, hpmb in FIG. 28). For example, the parameters shown in FIG. 39 can be stored in hpmb (hptc_mediabox). Of course, parameters other than these may be stored in hpmb.
 <5.付記>
  <コンピュータ>
 上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここでコンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ等が含まれる。
<5. Addendum>
<Computer>
The series of processes described above can be executed by hardware or software. When a series of processes are executed by software, the programs constituting the software are installed on the computer. Here, the computer includes a computer embedded in dedicated hardware, a general-purpose personal computer capable of executing various functions by installing various programs, and the like.
 図40は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。 FIG. 40 is a block diagram showing a configuration example of computer hardware that executes the above-mentioned series of processes programmatically.
 図40に示されるコンピュータ900において、CPU(Central Processing Unit)901、ROM(Read Only Memory)902、RAM(Random Access Memory)903は、バス904を介して相互に接続されている。 In the computer 900 shown in FIG. 40, the CPU (Central Processing Unit) 901, the ROM (ReadOnly Memory) 902, and the RAM (RandomAccessMemory) 903 are connected to each other via the bus 904.
 バス904にはまた、入出力インタフェース910も接続されている。入出力インタフェース910には、入力部911、出力部912、記憶部913、通信部914、およびドライブ915が接続されている。 The input / output interface 910 is also connected to the bus 904. An input unit 911, an output unit 912, a storage unit 913, a communication unit 914, and a drive 915 are connected to the input / output interface 910.
 入力部911は、例えば、キーボード、マウス、マイクロホン、タッチパネル、入力端子などよりなる。出力部912は、例えば、ディスプレイ、スピーカ、出力端子などよりなる。記憶部913は、例えば、ハードディスク、RAMディスク、不揮発性のメモリなどよりなる。通信部914は、例えば、ネットワークインタフェースよりなる。ドライブ915は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブル記録媒体921を駆動する。 The input unit 911 includes, for example, a keyboard, a mouse, a microphone, a touch panel, an input terminal, and the like. The output unit 912 includes, for example, a display, a speaker, an output terminal, and the like. The storage unit 913 includes, for example, a hard disk, a RAM disk, a non-volatile memory, or the like. The communication unit 914 includes, for example, a network interface. The drive 915 drives a removable recording medium 921 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory.
 以上のように構成されるコンピュータでは、CPU901が、例えば、記憶部913に記憶されているプログラムを、入出力インタフェース910およびバス904を介して、RAM903にロードして実行することにより、上述した一連の処理が行われる。RAM903にはまた、CPU901が各種の処理を実行する上において必要なデータなども適宜記憶される。 In the computer configured as described above, the CPU 901 loads the program stored in the storage unit 913 into the RAM 903 via the input / output interface 910 and the bus 904 and executes the above-described series. Is processed. The RAM 903 also appropriately stores data and the like necessary for the CPU 901 to execute various processes.
 コンピュータが実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体921に記録して適用することができる。その場合、プログラムは、リムーバブル記録媒体921をドライブ915に装着することにより、入出力インタフェース910を介して、記憶部913にインストールすることができる。 The program executed by the computer can be recorded and applied to, for example, a removable recording medium 921 as a package medium or the like. In that case, the program can be installed in the storage unit 913 via the input / output interface 910 by mounting the removable recording medium 921 in the drive 915.
 また、このプログラムは、ローカルエリアネットワーク、専用線によるネットワークあるいはWAN、インターネット、衛星通信等といった、有線または無線の伝送媒体を介して提供することもできる。その場合、プログラムは、通信部914で受信し、記憶部913にインストールすることができる。 This program can also be provided via a wired or wireless transmission medium such as a local area network, a leased line network, or WAN, Internet, satellite communication, etc. In that case, the program can be received by the communication unit 914 and installed in the storage unit 913.
 その他、このプログラムは、ROM902や記憶部913に、あらかじめインストールしておくこともできる。 In addition, this program can be installed in advance in ROM 902 or storage unit 913.
  <本技術の適用対象>
 以上においては、本技術の適用例として、送信装置100、受信装置200、遠隔操作システム300の各装置等について説明したが、本技術は、任意の構成に適用することができる。
<Applicable target of this technology>
In the above, as an application example of the present technology, each device of the transmitting device 100, the receiving device 200, the remote control system 300, and the like has been described, but the present technology can be applied to any configuration.
 例えば、本技術は、衛星放送、ケーブルTVなどの有線放送、インターネット、ローカルエリアネットワーク、専用線によるネットワークあるいはWAN上での配信、およびセルラー通信による端末への配信などにおける送信機や受信機(例えばテレビジョン受像機や携帯電話機)、または、光ディスク、磁気ディスクおよびフラッシュメモリなどの媒体に画像を記録したり、これら記憶媒体から画像を再生したりする装置(例えばハードディスクレコーダやカメラ)などの、様々な電子機器に適用され得る。 For example, this technology is a transmitter or receiver (for example, for satellite broadcasting, cable broadcasting such as cable TV, Internet, local area network, distribution on a dedicated line network or WAN, and distribution to terminals by cellular communication. Various devices (for example, hard disk recorders and cameras) that record images on media such as television receivers and mobile phones, or on media such as optical disks, magnetic disks, and flash memories, and reproduce images from these storage media. Can be applied to various electronic devices.
 また、例えば、本技術は、システムLSI(Large Scale Integration)等としてのプロセッサ(例えばビデオプロセッサ)、複数のプロセッサ等を用いるモジュール(例えばビデオモジュール)、複数のモジュール等を用いるユニット(例えばビデオユニット)、または、ユニットにさらにその他の機能を付加したセット(例えばビデオセット)等、装置の一部の構成として実施することもできる。 Further, for example, in the present technology, a processor as a system LSI (Large Scale Integration) or the like (for example, a video processor), a module using a plurality of processors (for example, a video module), a unit using a plurality of modules (for example, a video unit) Alternatively, it can be implemented as a configuration of a part of the device, such as a set (for example, a video set) in which other functions are added to the unit.
 また、例えば、本技術は、複数の装置により構成されるネットワークシステムにも適用することもできる。例えば、本技術を、ネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングとして実施するようにしてもよい。例えば、コンピュータ、AV(Audio Visual)機器、携帯型情報処理端末、IoT(Internet of Things)デバイス等の任意の端末に対して、画像(動画像)に関するサービスを提供するクラウドサービスにおいて本技術を実施するようにしてもよい。 Also, for example, this technology can be applied to a network system composed of a plurality of devices. For example, the present technology may be implemented as cloud computing that is shared and jointly processed by a plurality of devices via a network. For example, this technology is implemented in a cloud service that provides services related to images (moving images) to arbitrary terminals such as computers, AV (AudioVisual) devices, portable information processing terminals, and IoT (Internet of Things) devices. You may try to do it.
 なお、本明細書において、システムとは、複数の構成要素(装置、モジュール(部品)等)の集合を意味し、全ての構成要素が同一筐体中にあるか否かは問わない。したがって、別個の筐体に収納され、ネットワークを介して接続されている複数の装置、および、1つの筐体の中に複数のモジュールが収納されている1つの装置は、いずれも、システムである。 In the present specification, the system means a set of a plurality of components (devices, modules (parts), etc.), and it does not matter whether all the components are in the same housing. Therefore, a plurality of devices housed in separate housings and connected via a network, and a device in which a plurality of modules are housed in one housing are both systems. ..
 上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここでコンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ等が含まれる。 The above-mentioned series of processes can be executed by hardware or software. When a series of processes are executed by software, the programs constituting the software are installed on the computer. Here, the computer includes a computer embedded in dedicated hardware, a general-purpose personal computer capable of executing various functions by installing various programs, and the like.
  <その他>
 本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
<Others>
The embodiment of the present technology is not limited to the above-described embodiment, and various changes can be made without departing from the gist of the present technology.
 例えば、1つの装置(または処理部)として説明した構成を分割し、複数の装置(または処理部)として構成するようにしてもよい。逆に、以上において複数の装置(または処理部)として説明した構成をまとめて1つの装置(または処理部)として構成されるようにしてもよい。また、各装置(または各処理部)の構成に上述した以外の構成を付加するようにしてももちろんよい。さらに、システム全体としての構成や動作が実質的に同じであれば、ある装置(または処理部)の構成の一部を他の装置(または他の処理部)の構成に含めるようにしてもよい。 For example, the configuration described as one device (or processing unit) may be divided and configured as a plurality of devices (or processing units). On the contrary, the configurations described above as a plurality of devices (or processing units) may be collectively configured as one device (or processing unit). Further, of course, a configuration other than the above may be added to the configuration of each device (or each processing unit). Further, if the configuration and operation of the entire system are substantially the same, a part of the configuration of one device (or processing unit) may be included in the configuration of another device (or other processing unit). ..
 また、例えば、上述したプログラムは、任意の装置において実行されるようにしてもよい。その場合、その装置が、必要な機能(機能ブロック等)を有し、必要な情報を得ることができるようにすればよい。 Further, for example, the above-mentioned program may be executed in any device. In that case, the device may have necessary functions (functional blocks, etc.) so that necessary information can be obtained.
 また、例えば、1つのフローチャートの各ステップを、1つの装置が実行するようにしてもよいし、複数の装置が分担して実行するようにしてもよい。さらに、1つのステップに複数の処理が含まれる場合、その複数の処理を、1つの装置が実行するようにしてもよいし、複数の装置が分担して実行するようにしてもよい。換言するに、1つのステップに含まれる複数の処理を、複数のステップの処理として実行することもできる。逆に、複数のステップとして説明した処理を1つのステップとしてまとめて実行することもできる。 Further, for example, each step of one flowchart may be executed by one device, or may be shared and executed by a plurality of devices. Further, when a plurality of processes are included in one step, the plurality of processes may be executed by one device, or may be shared and executed by a plurality of devices. In other words, a plurality of processes included in one step can be executed as processes of a plurality of steps. On the contrary, the processes described as a plurality of steps can be collectively executed as one step.
 また、例えば、コンピュータが実行するプログラムは、プログラムを記述するステップの処理が、本明細書で説明する順序に沿って時系列に実行されるようにしても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで個別に実行されるようにしても良い。つまり、矛盾が生じない限り、各ステップの処理が上述した順序と異なる順序で実行されるようにしてもよい。さらに、このプログラムを記述するステップの処理が、他のプログラムの処理と並列に実行されるようにしても良いし、他のプログラムの処理と組み合わせて実行されるようにしても良い。 Further, for example, in a program executed by a computer, the processing of the steps for writing the program may be executed in chronological order in the order described in the present specification, and the calls may be made in parallel or in parallel. It may be executed individually at the required timing such as when it is broken. That is, as long as there is no contradiction, the processing of each step may be executed in an order different from the above-mentioned order. Further, the processing of the step for writing this program may be executed in parallel with the processing of another program, or may be executed in combination with the processing of another program.
 また、例えば、本技術に関する複数の技術は、矛盾が生じない限り、それぞれ独立に単体で実施することができる。もちろん、任意の複数の本技術を併用して実施することもできる。例えば、いずれかの実施の形態において説明した本技術の一部または全部を、他の実施の形態において説明した本技術の一部または全部と組み合わせて実施することもできる。また、上述した任意の本技術の一部または全部を、上述していない他の技術と併用して実施することもできる。 Further, for example, a plurality of technologies related to this technology can be independently implemented independently as long as there is no contradiction. Of course, any plurality of the present technologies can be used in combination. For example, some or all of the techniques described in any of the embodiments may be combined with some or all of the techniques described in other embodiments. It is also possible to carry out a part or all of any of the above-mentioned techniques in combination with other techniques not described above.
 なお、本技術は以下のような構成も取ることができる。
 (1) インタフェースとなるハプティクスデバイスの観測点において検出されたハプティクスデータを、2次元画像の画素にマッピングする画素マッピング部と、
 前記画素マッピング部により前記ハプティクスデータがマッピングされた前記2次元画像を符号化し、符号化データを生成する符号化部と
 を備える情報処理装置。
 (2) 前記画素マッピング部は、前記ハプティクスデータを、前記2次元画像の、前記ハプティクスデータの検出位置に対応する画素にマッピングする
 (1)に記載の情報処理装置。
 (3) 前記画素マッピング部は、前記ハプティクスデータを、前記2次元画像の、Y成分、Pr成分、およびPb成分のそれぞれに配置する
 (1)または(2)に記載の情報処理装置。
 (4) 前記ハプティクスデータは、力覚に関する情報を含む力覚データを含み、
 前記画素マッピング部は、前記力覚データを成分毎に分割して、前記2次元画像の、前記Y成分、前記Pr成分、および前記Pb成分に配置する
 (3)に記載の情報処理装置。
 (5) 前記ハプティクスデータは、触感に関する情報を含む触感データを含み、
 前記画素マッピング部は、前記触感データをビット深度方向に分割して、前記2次元画像の、前記Y成分、前記Pr成分、および前記Pb成分に配置する
 (3)または(4)に記載の情報処理装置。
 (6) 前記画素マッピング部は、1つの前記ハプティクスデータをビット深度方向に分割して、複数の画素からなるサブブロックの各画素に配置する
 (1)乃至(5)のいずれかに記載の情報処理装置。
 (7) 前記画素マッピング部は、複数回サンプリングされた前記ハプティクスデータを、サンプリングデータ毎に、1つのブロックに含まれる複数の前記サブブロックに配置する
 (6)に記載の情報処理装置。
 (8) 前記画素マッピング部により前記ハプティクスデータがマッピングされた前記2次元画像と、動きの位置を示す画像とを合成した合成画像を生成する合成画像生成部をさらに備え、
 前記符号化部は、前記合成画像を符号化し、前記符号化データを生成する
 (1)乃至(7)のいずれかに記載の情報処理装置。
 (9) 前記動きの位置を示す画像は、さらに、着目する位置を示す
 (8)に記載の情報処理装置。
 (10) 前記符号化部は、
  前記ハプティクスデータがマッピングされた前記2次元画像を動画像のピクチャとして符号化し、
  さらに、前記ハプティクスデータに関する制御情報を、前記ピクチャ毎に付加する
 (1)乃至(9)のいずれかに記載の情報処理装置。
 (11) 前記ハプティクスデータに関する制御情報を含むMPDを生成するMPD生成部をさらに備える
 (1)乃至(10)のいずれかに記載の情報処理装置。
 (12) 前記符号化データを格納するISOBMFF形式のファイルを生成するファイル生成部をさらに備え、
 前記ファイル生成部は、前記ファイルのメディアボックス(mediabox)に、前記ハプティクスデータに関する制御情報を格納する
 (1)乃至(11)のいずれかに記載の情報処理装置。
 (13) インタフェースとなるハプティクスデバイスの観測点において検出されたハプティクスデータを、2次元画像の画素にマッピングし、
 前記ハプティクスデータがマッピングされた前記2次元画像を符号化し、符号化データを生成する
 情報処理方法。
 (14) 符号化データを復号し、インタフェースとなるハプティクスデバイスの観測点において検出されたハプティクスデータがマッピングされた2次元画像を生成する復号部と、
 前記復号部により生成された前記2次元画像から、前記ハプティクスデータを抽出する抽出部と
 を備える情報処理装置。
 (15) 符号化データを復号し、インタフェースとなるハプティクスデバイスの観測点において検出されたハプティクスデータがマッピングされた2次元画像を生成し、
 生成された前記2次元画像から、前記ハプティクスデータを抽出する
 情報処理方法。
The present technology can also have the following configurations.
(1) A pixel mapping unit that maps haptics data detected at the observation point of the haptics device that serves as an interface to pixels in a two-dimensional image, and
An information processing device including a coding unit that encodes the two-dimensional image to which the haptics data is mapped by the pixel mapping unit and generates encoded data.
(2) The information processing apparatus according to (1), wherein the pixel mapping unit maps the haptics data to pixels corresponding to detection positions of the haptics data in the two-dimensional image.
(3) The information processing apparatus according to (1) or (2), wherein the pixel mapping unit arranges the haptics data in each of the Y component, Pr component, and Pb component of the two-dimensional image.
(4) The haptics data includes force sense data including information on force sense.
The information processing apparatus according to (3), wherein the pixel mapping unit divides the force sense data into components and arranges them in the Y component, the Pr component, and the Pb component of the two-dimensional image.
(5) The haptics data includes tactile data including information on tactile sensation.
The information according to (3) or (4), wherein the pixel mapping unit divides the tactile data in the bit depth direction and arranges the tactile data in the Y component, the Pr component, and the Pb component of the two-dimensional image. Processing equipment.
(6) The pixel mapping unit is described in any one of (1) to (5), wherein one haptics data is divided in the bit depth direction and arranged in each pixel of a subblock composed of a plurality of pixels. Information processing device.
(7) The information processing apparatus according to (6), wherein the pixel mapping unit arranges the haptics data sampled a plurality of times in a plurality of the sub-blocks included in one block for each sampled data.
(8) Further provided is a composite image generation unit that generates a composite image in which the two-dimensional image to which the haptics data is mapped by the pixel mapping unit and an image indicating the position of movement are combined.
The information processing apparatus according to any one of (1) to (7), wherein the coding unit encodes the composite image and generates the coded data.
(9) The information processing apparatus according to (8), wherein the image showing the position of the movement further indicates the position of interest.
(10) The coding unit is
The two-dimensional image to which the haptics data is mapped is encoded as a picture of a moving image.
Further, the information processing apparatus according to any one of (1) to (9), wherein control information related to the haptics data is added to each of the pictures.
(11) The information processing apparatus according to any one of (1) to (10), further comprising an MPD generation unit that generates an MPD including control information related to the haptics data.
(12) Further provided with a file generation unit for generating an ISOBMFF format file for storing the coded data.
The information processing device according to any one of (1) to (11), wherein the file generation unit stores control information related to the haptics data in a media box of the file.
(13) The haptics data detected at the observation point of the haptics device as the interface is mapped to the pixels of the two-dimensional image.
An information processing method that encodes the two-dimensional image to which the haptics data is mapped and generates encoded data.
(14) A decoding unit that decodes the coded data and generates a two-dimensional image to which the haptics data detected at the observation point of the interface haptics device is mapped.
An information processing device including an extraction unit that extracts the haptics data from the two-dimensional image generated by the decoding unit.
(15) The coded data is decoded to generate a two-dimensional image to which the haptics data detected at the observation point of the haptics device as the interface is mapped.
An information processing method for extracting the haptics data from the generated two-dimensional image.
 100 送信装置, 101 ROI設定部, 102 動き画素編集部, 103 メディア情報合成部, 104 符号化部, 105 コンテナ処理部, 131 動き画像生成部, 132 画素編集部, 141 画素マッピング部, 142 合成画像生成部, 200 受信装置, 201 コンテナ処理部, 202 復号化部, 203 メディア情報解析部, 204 ハプティクス提示部, 221 位置情報抽出部, 222 物理空間リマッピング部, 223 力覚触感情報抽出部, 300 遠隔操作システム, 301 ローカルシステム, 302 リモートシステム, 303 MPDサーバ, 321 ハプティクスデバイス, 322 通信デバイス, 331 イメージセンサ, 332 ROI設定部, 333 動き画素編集部, 334 メディア情報合成部, 341 メディア情報解析部, 342 レンダラ, 343 アクチュエータ, 344 ハプティクスI/F, 351 コンポーザ, 352 符号化部, 353 コンテナ処理部, 354 MPD生成部, 361 コンテナ処理部, 362 復号化部, 363 MPD制御部 100 transmitter, 101 ROI setting unit, 102 motion pixel editing unit, 103 media information synthesis unit, 104 coding unit, 105 container processing unit, 131 motion image generation unit, 132 pixel editing unit, 141 pixel mapping unit, 142 composite image Generation unit, 200 receiving device, 201 container processing unit, 202 decoding unit, 203 media information analysis unit, 204 haptics presentation unit, 221 position information extraction unit, 222 physical space remapping unit, 223 force / tactile information extraction unit, 300 Remote operation system, 301 local system, 302 remote system, 303 MPD server, 321 haptics device, 322 communication device, 331 image sensor, 332 ROI setting unit, 333 movement pixel editing unit, 334 media information synthesis unit, 341 media information analysis Department, 342 renderer, 343 actuator, 344 haptics I / F, 351 composer, 352 encoding unit, 353 container processing unit, 354 MPD generation unit, 361 container processing unit, 362 decoding unit, 363 MPD control unit

Claims (15)

  1.  インタフェースとなるハプティクスデバイスの観測点において検出されたハプティクスデータを、2次元画像の画素にマッピングする画素マッピング部と、
     前記画素マッピング部により前記ハプティクスデータがマッピングされた前記2次元画像を符号化し、符号化データを生成する符号化部と
     を備える情報処理装置。
    A pixel mapping unit that maps haptics data detected at the observation point of the haptics device that serves as an interface to pixels in a two-dimensional image, and a pixel mapping unit.
    An information processing device including a coding unit that encodes the two-dimensional image to which the haptics data is mapped by the pixel mapping unit and generates encoded data.
  2.  前記画素マッピング部は、前記ハプティクスデータを、前記2次元画像の、前記ハプティクスデータの検出位置に対応する画素にマッピングする
     請求項1に記載の情報処理装置。
    The information processing device according to claim 1, wherein the pixel mapping unit maps the haptics data to pixels corresponding to detection positions of the haptics data in the two-dimensional image.
  3.  前記画素マッピング部は、前記ハプティクスデータを、前記2次元画像の、Y成分、Pr成分、およびPb成分のそれぞれに配置する
     請求項1に記載の情報処理装置。
    The information processing apparatus according to claim 1, wherein the pixel mapping unit arranges the haptics data in each of the Y component, Pr component, and Pb component of the two-dimensional image.
  4.  前記ハプティクスデータは、力覚に関する情報を含む力覚データを含み、
     前記画素マッピング部は、前記力覚データを成分毎に分割して、前記2次元画像の、前記Y成分、前記Pr成分、および前記Pb成分に配置する
     請求項3に記載の情報処理装置。
    The haptics data includes force sensation data including information about force sensation.
    The information processing apparatus according to claim 3, wherein the pixel mapping unit divides the force sensory data into components and arranges the force sense data in the Y component, the Pr component, and the Pb component of the two-dimensional image.
  5.  前記ハプティクスデータは、触感に関する情報を含む触感データを含み、
     前記画素マッピング部は、前記触感データをビット深度方向に分割して、前記2次元画像の、前記Y成分、前記Pr成分、および前記Pb成分に配置する
     請求項3に記載の情報処理装置。
    The haptics data includes tactile data that includes information about tactile sensation.
    The information processing apparatus according to claim 3, wherein the pixel mapping unit divides the tactile data in the bit depth direction and arranges the tactile data in the Y component, the Pr component, and the Pb component of the two-dimensional image.
  6.  前記画素マッピング部は、1つの前記ハプティクスデータをビット深度方向に分割して、複数の画素からなるサブブロックの各画素に配置する
     請求項1に記載の情報処理装置。
    The information processing device according to claim 1, wherein the pixel mapping unit divides one haptics data in the bit depth direction and arranges the haptics data in each pixel of a subblock composed of a plurality of pixels.
  7.  前記画素マッピング部は、複数回サンプリングされた前記ハプティクスデータを、サンプリングデータ毎に、1つのブロックに含まれる複数の前記サブブロックに配置する
     請求項6に記載の情報処理装置。
    The information processing apparatus according to claim 6, wherein the pixel mapping unit arranges the haptics data sampled a plurality of times in a plurality of the sub-blocks included in one block for each sampled data.
  8.  前記画素マッピング部により前記ハプティクスデータがマッピングされた前記2次元画像と、動きの位置を示す画像とを合成した合成画像を生成する合成画像生成部をさらに備え、
     前記符号化部は、前記合成画像を符号化し、前記符号化データを生成する
     請求項1に記載の情報処理装置。
    A composite image generation unit for generating a composite image obtained by synthesizing the two-dimensional image to which the haptics data is mapped by the pixel mapping unit and an image indicating the position of movement is further provided.
    The information processing apparatus according to claim 1, wherein the coding unit encodes the composite image and generates the coded data.
  9.  前記動きの位置を示す画像は、さらに、着目する位置を示す
     請求項8に記載の情報処理装置。
    The information processing device according to claim 8, wherein the image showing the position of the movement further indicates the position of interest.
  10.  前記符号化部は、
      前記ハプティクスデータがマッピングされた前記2次元画像を動画像のピクチャとして符号化し、
      さらに、前記ハプティクスデータに関する制御情報を、前記ピクチャ毎に付加する
     請求項1に記載の情報処理装置。
    The coding unit is
    The two-dimensional image to which the haptics data is mapped is encoded as a picture of a moving image.
    The information processing device according to claim 1, wherein control information related to the haptics data is added to each picture.
  11.  前記ハプティクスデータに関する制御情報を含むMPDを生成するMPD生成部をさらに備える
     請求項1に記載の情報処理装置。
    The information processing apparatus according to claim 1, further comprising an MPD generation unit that generates an MPD including control information related to the haptics data.
  12.  前記符号化データを格納するISOBMFF形式のファイルを生成するファイル生成部をさらに備え、
     前記ファイル生成部は、前記ファイルのメディアボックス(mediabox)に、前記ハプティクスデータに関する制御情報を格納する
     請求項1に記載の情報処理装置。
    It also has a file generator that generates an ISO BMFF format file that stores the coded data.
    The information processing device according to claim 1, wherein the file generation unit stores control information related to the haptics data in a media box of the file.
  13.  インタフェースとなるハプティクスデバイスの観測点において検出されたハプティクスデータを、2次元画像の画素にマッピングし、
     前記ハプティクスデータがマッピングされた前記2次元画像を符号化し、符号化データを生成する
     情報処理方法。
    The haptics data detected at the observation point of the haptics device that serves as the interface is mapped to the pixels of the two-dimensional image.
    An information processing method that encodes the two-dimensional image to which the haptics data is mapped and generates encoded data.
  14.  符号化データを復号し、インタフェースとなるハプティクスデバイスの観測点において検出されたハプティクスデータがマッピングされた2次元画像を生成する復号部と、
     前記復号部により生成された前記2次元画像から、前記ハプティクスデータを抽出する抽出部と
     を備える情報処理装置。
    A decoding unit that decodes the coded data and generates a two-dimensional image to which the haptics data detected at the observation point of the interface haptics device is mapped.
    An information processing device including an extraction unit that extracts the haptics data from the two-dimensional image generated by the decoding unit.
  15.  符号化データを復号し、インタフェースとなるハプティクスデバイスの観測点において検出されたハプティクスデータがマッピングされた2次元画像を生成し、
     生成された前記2次元画像から、前記ハプティクスデータを抽出する
     情報処理方法。
    The coded data is decoded to generate a two-dimensional image to which the haptics data detected at the observation point of the interface haptics device is mapped.
    An information processing method for extracting the haptics data from the generated two-dimensional image.
PCT/JP2021/005168 2020-02-28 2021-02-12 Information processing device and method WO2021172040A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020034200 2020-02-28
JP2020-034200 2020-02-28

Publications (1)

Publication Number Publication Date
WO2021172040A1 true WO2021172040A1 (en) 2021-09-02

Family

ID=77491495

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/005168 WO2021172040A1 (en) 2020-02-28 2021-02-12 Information processing device and method

Country Status (1)

Country Link
WO (1) WO2021172040A1 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016225977A (en) * 2015-05-26 2016-12-28 トムソン ライセンシングThomson Licensing Method and device for encoding/decoding packet comprising data representing haptic effect
JP2017005709A (en) * 2015-06-12 2017-01-05 イマージョン コーポレーションImmersion Corporation Broadcast haptics architectures
JP2018526722A (en) * 2015-06-29 2018-09-13 トムソン ライセンシングThomson Licensing Method and scheme for perceptually driven coding of haptic effects
JP2018527655A (en) * 2015-07-13 2018-09-20 トムソン ライセンシングThomson Licensing Method and apparatus for providing haptic feedback and interactivity based on user haptic space (HapSpace)

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016225977A (en) * 2015-05-26 2016-12-28 トムソン ライセンシングThomson Licensing Method and device for encoding/decoding packet comprising data representing haptic effect
JP2017005709A (en) * 2015-06-12 2017-01-05 イマージョン コーポレーションImmersion Corporation Broadcast haptics architectures
JP2018526722A (en) * 2015-06-29 2018-09-13 トムソン ライセンシングThomson Licensing Method and scheme for perceptually driven coding of haptic effects
JP2018527655A (en) * 2015-07-13 2018-09-20 トムソン ライセンシングThomson Licensing Method and apparatus for providing haptic feedback and interactivity based on user haptic space (HapSpace)

Similar Documents

Publication Publication Date Title
US11700352B2 (en) Rectilinear viewport extraction from a region of a wide field of view using messaging in video transmission
US11792378B2 (en) Suggested viewport indication for panoramic video
KR102545195B1 (en) Method and apparatus for delivering and playbacking content in virtual reality system
US11699211B2 (en) Spherical rotation for encoding wide view video
JP7217226B2 (en) Methods, devices and streams for encoding motion-compensated images in global rotation
CN111164969A (en) Method and apparatus for transmitting or receiving 6DOF video using stitching and re-projection related metadata
EP3782368A1 (en) Processing video patches for three-dimensional content
WO2019131577A1 (en) Information processing device, information processing method, and program
JP7177034B2 (en) Method, apparatus and stream for formatting immersive video for legacy and immersive rendering devices
WO2021172040A1 (en) Information processing device and method
WO2021132574A1 (en) Transmission device and receiving device
KR20190050817A (en) Information processing device and method of controlling same, and computer program
WO2021124902A1 (en) Information processing device and method
KR20200076529A (en) Indexing of tiles for region of interest in virtual reality video streaming

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21761772

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21761772

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP