WO2022220049A1 - システム、情報処理方法および情報処理プログラム - Google Patents

システム、情報処理方法および情報処理プログラム Download PDF

Info

Publication number
WO2022220049A1
WO2022220049A1 PCT/JP2022/013836 JP2022013836W WO2022220049A1 WO 2022220049 A1 WO2022220049 A1 WO 2022220049A1 JP 2022013836 W JP2022013836 W JP 2022013836W WO 2022220049 A1 WO2022220049 A1 WO 2022220049A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
image
user
coordinate
coordinate information
Prior art date
Application number
PCT/JP2022/013836
Other languages
English (en)
French (fr)
Inventor
直之 宮田
英樹 柳澤
麻美子 石田
Original Assignee
株式会社ソニー・インタラクティブエンタテインメント
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社ソニー・インタラクティブエンタテインメント filed Critical 株式会社ソニー・インタラクティブエンタテインメント
Priority to US18/554,028 priority Critical patent/US20240127629A1/en
Publication of WO2022220049A1 publication Critical patent/WO2022220049A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/211Input arrangements for video game devices characterised by their sensors, purposes or types using inertial sensors, e.g. accelerometers or gyroscopes
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/20Input arrangements for video game devices
    • A63F13/21Input arrangements for video game devices characterised by their sensors, purposes or types
    • A63F13/213Input arrangements for video game devices characterised by their sensors, purposes or types comprising photodetecting means, e.g. cameras, photodiodes or infrared cells
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/40Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment
    • A63F13/42Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle
    • A63F13/428Processing input control signals of video game devices, e.g. signals generated by the player or derived from the environment by mapping the input signals into game commands, e.g. mapping the displacement of a stylus on a touch screen to the steering angle of a virtual vehicle involving motion or position input signals, e.g. signals representing the rotation of an input controller or a player's arm motions sensed by accelerometers or gyroscopes
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/50Controlling the output signals based on the game progress
    • A63F13/53Controlling the output signals based on the game progress involving additional visual information provided to the game scene, e.g. by overlay to simulate a head-up display [HUD] or displaying a laser sight in a shooting game
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis

Definitions

  • the present invention relates to a system, an information processing method, and an information processing program.
  • An event-driven vision sensor in which pixels that detect changes in the intensity of incident light generate signals asynchronously with time.
  • An event-driven vision sensor is advantageous in that it can operate at low power and at high speed compared to a frame-type vision sensor that scans all pixels at predetermined intervals, specifically image sensors such as CCD and CMOS. is. Techniques related to such an event-driven vision sensor are described in Patent Document 1 and Patent Document 2, for example.
  • the present invention calculates coordinate information about the user based on the image signal generated by the image sensor, and performs coordinate transformation on the coordinate information based on the orientation information of the image sensor. Then, by generating a display image showing the user's state based on the coordinate information after coordinate conversion, it is possible to generate a display image that more accurately corresponds to the user's state while suppressing latency.
  • An object is to provide a processing method and an information processing program.
  • a first image sensor generates a first image signal by synchronously scanning all pixels at a predetermined timing
  • a a second image sensor including an event-driven vision sensor for asynchronously generating a second image signal; an inertial sensor for obtaining attitude information of the first image sensor and the second image sensor; a first arithmetic processing unit for recognizing a user by means of a second image signal and calculating coordinate information about the user based on at least the second image signal; and a second arithmetic processing unit for performing coordinate conversion processing on the coordinate information based on the posture information.
  • an image generation device that generates a display image showing a user's state based on the coordinate information after coordinate conversion processing.
  • an information processing method for generating a display image to be displayed on a display device wherein the first image is generated by a first image sensor that synchronously scans all pixels at a predetermined timing. and a second image signal generated by a second image sensor including an event-driven vision sensor that asynchronously generates a second image signal upon detecting a change in intensity of light incident on each pixel.
  • the first image signal is generated by a first image sensor that synchronously scans all pixels at a predetermined timing, and the intensity change of incident light for each pixel is detected.
  • a second image signal generated by a second image sensor including an event-driven vision sensor that asynchronously generates the second image signal; and recognizing a user based at least on the second image signal.
  • An information processing program is provided that causes a computer to realize a function of generating a display image showing the state of the user based on subsequent coordinate information.
  • coordinate information about the user is calculated based on the image signal generated by the image sensor, and coordinate conversion is performed on the coordinate information based on the posture information of the image sensor. Then, by generating a display image showing the user's state based on the coordinate information after coordinate conversion, it is possible to generate a display image that more accurately reflects the user's state while suppressing latency.
  • FIG. 1 is a schematic diagram showing the entire system according to one embodiment of the present invention
  • FIG. 1 is a block diagram showing a schematic configuration of a system according to one embodiment of the present invention
  • FIG. It is a block diagram showing a schematic configuration of a calculation unit in the system according to one embodiment of the present invention.
  • FIG. 4 is a diagram illustrating orientation information of a camera unit according to an embodiment of the present invention
  • FIG. 11 is another diagram illustrating orientation information of the camera unit according to the embodiment of the present invention
  • FIG. 4B is another diagram illustrating the orientation of the camera unit according to the embodiment of the present invention
  • FIG. 4 is a diagram illustrating position information of a camera unit in one embodiment of the present invention
  • FIG. 5 is another diagram illustrating position information of a camera unit in one embodiment of the present invention
  • 1 is a flowchart illustrating an example of a processing method according to an embodiment of the invention
  • 4 is another flow chart illustrating an example of a processing method according to an embodiment of the present invention
  • FIG. 4 is a block diagram showing a schematic configuration of a system according to another embodiment of the invention
  • FIG. 1 is a schematic diagram showing the entire system 1 according to this embodiment.
  • a system 1 according to the present embodiment is a game system including a camera unit 10 which is a sensor device, an information processing device 20, a controller 30, and a display device 40, as shown in FIG.
  • the information processing device 20 is connected to each of the camera unit 10, the controller 30, and the display device 40 via a wired or wireless network.
  • the information processing device 20 progresses the game in accordance with information transmitted from the camera unit 10 and the controller 30, and the display device 40 displays a screen during execution of the information processing device 20, such as a game screen.
  • the camera unit 10 calculates coordinate information regarding the user who is a game player, and transmits the information to the information processing device 20 .
  • the coordinate information about the user means coordinate information about the posture of the user, coordinate information about the shape of the user's arm, coordinate information about the shape of the user's fingers, or an external device such as the controller 30 worn or held by the user. at least one coordinate information about the attitude of the
  • the camera unit 10 functions as an operating device for accepting user operations, like the controller 30, by calculating and outputting coordinate information regarding the user.
  • the camera unit 10 is arranged at a position where the user can be accommodated in the object field, for example, at a distance of about 1 meter from the user, and the elevation angle can be changed manually or electrically.
  • the camera unit 10 is arranged near the display device 40 . Details of the arrangement of the camera unit 10 will be described later.
  • FIG. 2 is a block diagram showing a schematic configuration of a system according to one embodiment of the invention.
  • the camera unit 10 includes an RGB camera 11, an EDS (Event Driven Sensor) 12, an IMU (Inertial Measurement Unit) 13, a position information acquisition unit 14, a calculation unit 15 functioning as a first processing unit, an information and an output unit 16 .
  • the RGB camera 11 includes an image sensor 111 as a first image sensor and a processing circuit 112 connected to the image sensor 111 .
  • the image sensor 111 generates RGB image signals 113, which are first image signals, by synchronously scanning all pixels (all pixels) at predetermined intervals or at predetermined timings according to user operations.
  • Processing circuitry 112 converts, for example, RGB image signals 113 into a format suitable for storage and transmission.
  • the processing circuit 112 also gives the RGB image signal 113 a time stamp.
  • EDS 12 includes sensor 121 , which is a second image sensor forming a sensor array, and processing circuitry 122 connected to sensor 121 .
  • the sensor 121 includes a light-receiving element, and generates an event signal 123, which is a second image signal, when a change in intensity of light incident on each pixel, more specifically, a change in brightness exceeding a predetermined value is detected. It is an event-driven vision sensor that
  • the event signal 123 output through the processing circuitry 122 includes the identity of the sensor 121 (eg, pixel location), the polarity of the luminance change (rising or falling), and a time stamp.
  • the EDS 12 can generate the event signal 123 at a significantly higher frequency than the RGB image signal 113 (frame rate of the RGB camera 11).
  • the EDS 12 can generate the event signal 123 at a significantly higher frequency than the RGB image signal 113 (frame rate of the RGB camera 11).
  • a signal from which an image can be constructed is called an image signal. Therefore, the RGB image signal 113 and the event signal 123 are examples of image signals.
  • the time stamps given to the RGB image signal 113 and the event signal 123 are synchronized.
  • the time stamps applied to the RGB image signal 113 and the event signal 123 can be synchronized, for example, by providing the RGB camera 11 with time information that is used to generate the time stamps in the EDS 12 .
  • time information for generating time stamps is independent for each of the RGB camera 11 and the EDS 12
  • time stamps are generated based on the time when a specific event (for example, a subject change over the entire image) occurred.
  • the time stamps given to the RGB image signal 113 and the event signal 123 can be synchronized after the fact.
  • the sensor 121 of the EDS 12 is associated with one or more pixels of the RGB image signal 113 by the calibration procedure of the RGB camera 11 and the EDS 12 performed in advance, and the event signal 123 is the RGB image. It is generated in response to light intensity variations in one or more pixels of signal 113 . More specifically, for example, a common calibration pattern is captured by the RGB camera 11 and the EDS 12, and corresponding parameters between the camera and the sensor are determined from the internal parameters and external parameters of the RGB camera 11 and the EDS 12, respectively. The calculation allows the sensor 121 to be associated with one or more pixels of the RGB image signal 113 .
  • the IMU 13 is an inertial sensor that detects the orientation of the camera unit 10 itself, more specifically, the image sensor 111 and the sensor 121 .
  • the IMU 13 acquires three-dimensional posture information of the image sensor 111 and the sensor 121 at predetermined intervals or at predetermined timing. This posture information indicates the elevation angle of the camera unit 10 described above.
  • the IMU 13 outputs the acquired posture information to the information output unit 16 .
  • the location information acquisition unit 14 acquires location information from GPS satellites, for example, and outputs it to the information output unit 16 . Note that the location information acquisition unit 14 may acquire location information and the like from radio base stations instead of or in addition to GPS satellites.
  • the calculator 15 calculates coordinate information about the user based on the event signal 123 generated by the EDS 12 and the RGB image signal 113 generated by the RGB camera 11 .
  • FIG. 3 is a block diagram showing a schematic configuration of the calculator 15. As shown in FIG.
  • the calculator 15 includes a coordinate calculator 151 and a trained model 152 .
  • the coordinate calculation unit 151 of the calculation unit 15 detects an object existing in a continuous pixel region in which the event signal 123 indicates that an event of the same polarity has occurred, and calculates the corresponding part of the RGB image signal 113.
  • the user is recognized by performing subject recognition based on this.
  • the coordinate calculator 151 identifies each user.
  • the coordinate calculation unit 151 calculates coordinate information indicating the positions of the joints of the user from the RGB image signal 113 based on the learned model 152 for each recognized user.
  • the trained model 152 can be constructed in advance by executing supervised learning using, for example, an image of a person having multiple joints as input data and coordinate information indicating the positions of the multiple joints of the person as correct data. can. It should be noted that a detailed description of a specific method of machine learning is omitted because various known techniques can be used.
  • the calculation unit 15 is provided with a relationship learning unit, and each time the RGB image signal 113 is input, the relationship between the image based on the input RGB image signal 113 and the coordinate information indicating the position of the joint is learned. A configuration in which the learned model 152 is updated may be used.
  • the coordinate calculation unit 151 recognizes the controller 30 held by each recognized user. For example, the coordinate calculation unit 151 performs subject recognition on a portion of the RGB image signal 113 corresponding to the vicinity of the user's hand, based on the coordinate information indicating the positions of the joints of the user calculated by the coordinate calculation unit 151 . By doing so, the controller 30 is recognized. Further, when the user does not hold the controller 30, the coordinate calculation unit 151 calculates information indicating that "the user does not hold the controller 30" instead of the coordinate information. Then, the coordinate calculation unit 151 estimates the recognized orientation of the controller 30 .
  • the coordinate calculation unit 151 estimates the shape of the controller 30 based on the result of subject recognition described above in the RGB image signal 113, and estimates the posture of the controller 30 based on the estimated shape. If the controller 30 has an inertial sensor or the like for detecting the orientation of the controller 30 itself, the orientation of the controller 30 may be estimated by taking into account the output of the sensor. As described above, when a plurality of users are included in the object scene, the coordinate calculation unit 151 estimates the orientation of the controller 30 held by each user. Note that the coordinate calculation unit 151 may estimate the orientation of the controller 30 using a machine learning method using the learned model described above.
  • the information output unit 16 outputs the coordinate information about the user calculated by the calculation unit 15, the posture information acquired by the IMU 13, and the position information acquired by the position information acquisition unit 14 to the information processing device 20.
  • the camera unit 10 alone completes the process from generating the RGB image signal 113 and the event signal 123 to calculating the coordinate information about the user. 123, the calculated coordinate information and orientation information can be output. Note that the camera unit 10 preferably has an independent power source.
  • FIG. 4A is a side view of the positional relationship between the user U, the camera unit 10, and the display device 40
  • FIG. 4B is a top view of the positional relationship between the user U, the camera unit 10, and the display device 40.
  • FIG. It is a diagram. 4A and 4B, the user U is facing the display device 40, and the camera unit 10 is arranged facing the user U on the user U side of the display device 40, as shown in FIGS. 4A and 4B.
  • the user U In a state where In the reference installation state, the user U, the imaging direction (arrow C) of the camera unit 10, and the display direction (arrow D) of the display device 40 are substantially parallel.
  • a reference installation state is realized, for example, by displaying a tutorial or the like on the display device 40 by the information processing device 20 and prompting the user U to arrange the camera unit 10 correctly.
  • the orientation information acquired by the IMU 13 and the position information generated by the position information acquisition unit 14 when the reference installation state is realized are the orientation information and the position information of the reference installation state.
  • the orientation information and position information of the reference installation state are output by the information output unit 16 and used for information processing in the information processing device 20 .
  • the calculator 15 may be difficult for the calculator 15 to calculate the coordinate information in the reference installation state.
  • FIG. 4A consider an example of a game in which the user U assumes a bow and arrow pose, holds the central portion of the controller 30 with his left hand, and operates a virtual bow V1 and arrow V2 by moving his right hand. .
  • both hands of the controller 30 and the user U may overlap when viewed from the camera unit 10 . Therefore, it is very difficult to separate both hands of the controller 30 and the user U in the generated RGB image signal 113 and the event signal 123 and calculate the coordinate information.
  • FIG. 4A consider an example of a game in which the user U assumes a bow and arrow pose, holds the central portion of the controller 30 with his left hand, and operates a virtual bow V1 and arrow V2 by moving his right hand. .
  • both hands of the controller 30 and the user U may overlap when viewed from the camera unit 10 . Therefore, it is very difficult to separate both hands of the controller 30 and the user U in the generated RGB image
  • FIG. 5 is a side view of the positional relationship among the user U, the camera unit 10, and the display device 40, and shows an example in which the elevation angle is changed by an angle a1 without changing the position of the camera unit 10.
  • the angle a1 can be obtained from posture information acquired by the IMU 13 .
  • FIGS. 6A and 6B are top views of the positional relationship among the user U, the camera unit 10, and the display device 40.
  • FIG. FIG. 6A shows an example in which the position of the camera unit is changed by a distance d1 in the horizontal direction when the user U sees the display device 40 without changing the elevation angle of the camera unit 10.
  • the distance d1 can be obtained from the positional information acquired by the positional information acquisition unit 14 .
  • the angle a2 which is the rotation angle about the user U, can be obtained from the posture information acquired by the IMU 13.
  • the position of the camera unit is changed by a distance d2 in the horizontal direction when the user U sees the display device 40, and furthermore, in the front-rear direction, the position of the camera unit is changed.
  • An example in which the position is changed by a distance d2 is shown.
  • the distances d2 and d3 can be obtained from the position information acquired by the position information acquisition unit 14.
  • FIG. Also, the angle a3, which is the rotation angle about the user U, can be obtained from the posture information acquired by the IMU 13 .
  • the optimum installation state of the camera unit 10 with respect to the user U and the display device 40 differs depending on the purpose. For example, depending on the content of the game to be played, the scene, etc., the user's whole body, upper body, hands, etc., to be grasped differ, and the positions that can be grasped also differ. Therefore, as with the reference installation state described above, for the optimal installation state, for example, the information processing device 20 may display a tutorial or the like on the display device 40 to prompt the user U to correctly position the camera unit 10. . At this time, by performing test photography with the camera unit 10 and evaluating the generated RGB image signal 113 and event signal 123, it is possible to determine whether or not the optimal installation state is correctly realized.
  • the information processing device 20 is implemented by a computer having a communication interface, a processor, and a memory, for example, and includes a communication section 21 and a control section 22 functioning as a second arithmetic processing device and an image generation device.
  • the control unit 22 includes an estimation unit 221, a conversion processing unit 222, a control value calculation unit 223, an image generation unit 224, which are realized by the processor operating according to a program stored in a memory or received via a communication interface. , and the functions of the warning unit 225 . The function of each unit will be further described below.
  • the communication section 21 receives each information output from the information output section 16 of the camera unit 10 . Further, the communication unit 21 can communicate with the controller 30 and outputs a display image to be displayed on the display device 40 .
  • the estimation unit 221 of the control unit 22 estimates the relative positional relationship between the display device 40 and the camera unit 10 based on the posture information and position information acquired via the communication unit 21 . As described above, the positional relationship among the user U, the camera unit 10, and the display device 40 can be obtained from the posture information obtained by the IMU 13 and the positional information obtained by the positional information obtaining section 14.
  • the transformation processing unit 222 Based on the positional relationship estimated by the estimation unit 221, the transformation processing unit 222 performs coordinate transformation processing on the coordinate information regarding the user. More specifically, the transformation processing unit 222 performs coordinate transformation processing for transforming the coordinate information about the user acquired via the communication unit 21 into the above-described coordinate system in the reference installation state. This conversion process can be realized by a known coordinate conversion process. Coordinate conversion processing converts coordinate information calculated based on the RGB image signal 113 and the event signal 123 generated when the camera unit 10 is displaced from the reference installation state into coordinate information generated in the reference installation state. be able to.
  • the control value calculation unit 223 calculates a control value for feedback control to an external device including the controller 30 and the display device 40 based on at least one of coordinate information acquired via the communication unit 21 and information received from the controller 30. calculate. As described above, the camera unit 10 and controller 30 function as an operation device for accepting user operations. Therefore, the control value calculation unit 223 calculates a control value for feedback control to an external device including the controller 30 and the display device 40 according to a user operation performed via at least one of the camera unit 10 and the controller 30. do. The calculated control value is output to the controller 30 via the communication section 21 .
  • the image generation unit 224 generates a display image indicating the state of the user based on the coordinate information after the coordinate conversion processing by the conversion processing unit 222. More specifically, the image generator 224 generates a display image to be displayed on the display device 40 according to the control value calculated by the control value calculator 223 . The generated display image is output to the display device 40 via the communication section 21 .
  • the display image includes a so-called First Person View image that reproduces the user's point of view, a so-called Third Person View image that looks at the user from the outside, and the like.
  • the type of display image to be used is determined according to the content of the game to be played and the purpose such as the scene. Details of calculation of the control value and generation of the display image will be described in connection with the description of the configurations of the controller 30 and the display device 40, which will be described later.
  • the warning unit 225 performs a warning operation when the change in posture information or position information exceeds a predetermined threshold.
  • the warning operation may be, for example, displaying a warning message on the display device 40, outputting a warning message by voice, or the like.
  • a change in orientation information or position information exceeding a predetermined threshold means that the installation state of the camera unit 10 is not suitable for the calculation of coordinate information, or that the installation state of the camera unit 10 has changed and the calculation of coordinate information has failed.
  • the installation state of the camera unit 10 is suitable for calculating coordinate information, or even if the installation state of the camera unit 10 has changed, the above-mentioned This is the case where it is not necessary to change the installation state of the camera unit 10 because it is within a range in which the change can be complemented by the processing performed by each unit.
  • the threshold may be changed according to the purpose. For example, the threshold may be changed based on the content of the game to be played, the allowable range according to the scene, or the like.
  • the controller 30 includes a communication section 31, an operation section 32, a force sense presentation section 33, a vibration section 34, and an audio output section 35, as shown in FIG.
  • a user can perform various operations related to the game by operating the controller 30 .
  • the communication unit 31 receives the control values output from the communication unit 21 of the information processing device 20 and outputs the control values to the force sense presentation unit 33 , the vibration unit 34 , and the audio output unit 35 .
  • the communication unit 31 also outputs information regarding user operations received by the operation unit 32 to the information processing device 20 .
  • the operation unit 32 includes a plurality of operators such as buttons and pads, and accepts user's operation input to the operators.
  • the haptic presentation unit 33 is provided in at least a part of the operation elements of the operation unit 32 , and presents the user with a force that resists or interlocks with the user's operation according to the control value supplied from the information processing device 20 .
  • the force sense presentation unit 33 can be configured by a motor, an actuator, or the like including a rotating rotor.
  • a well-known device can be used as the haptic device that constitutes the haptic device 33, and detailed description thereof will be omitted here.
  • the vibrating section 34 generates vibration according to a control value supplied from the information processing device 20, and can be configured by a motor, for example.
  • the vibrating unit 34 can notify the user that the user operation has been correctly performed and has been recognized by the information processing device 20 by generating vibration when the user operation is performed.
  • the audio output unit 35 outputs audio according to the control value supplied from the information processing device 20, and can be configured by, for example, a speaker.
  • the audio output unit 35 can notify the user that the user operation has been correctly performed and has been recognized by the information processing apparatus 20 by outputting audio when the user operation is performed.
  • At least one of the vibration by the vibration unit 34 and the sound output by the sound output unit 35 is performed in conjunction with the presentation of the force sense by the force sense presentation unit 33 described above, thereby providing various feedback controls to the user. It is possible to improve
  • the control value calculation unit 223 of the information processing device 20 calculates the control value of the feedback control to the controller 30 as described above. And a control value for feedback control to the audio output unit 35 is calculated. At this time, the control value calculation unit 223 calculates a control value for feedback control to the controller 30 based on the coordinate information acquired via the communication unit 21 before conversion processing is performed by the conversion processing unit 222 .
  • the coordinate information acquired via the communication unit 21 is coordinate information in an optimal installation state in which each element of the body of the controller 30 and the user U does not overlap. Therefore, by calculating a control value based on such coordinate information, it is possible to calculate a control value that can accurately grasp and reflect the state of the user. Note that coordinate information after coordinate conversion processing by the conversion processing unit 222 may be used as an auxiliary when the control value calculation unit 223 calculates the control value.
  • the control value calculation unit 223 calculates a control value indicating what kind of force sense is to be presented as feedback control according to the user's operation.
  • the control value calculation unit 223 calculates a control value indicating whether to present what kind of vibration is to be generated as feedback control according to the user's operation.
  • the control value calculation unit 223 calculates a control value indicating what kind of audio is to be output as feedback control according to the user's operation. The calculation of the control value by the control value calculator 223 can be performed according to a predetermined formula, table, or the like.
  • the controller 30 may be configured by a pair of controllers that can be held with both hands, may be configured by a controller that allows character input such as a keyboard, or may be configured by an application such as a smartphone.
  • the controller 30 may be provided with a voice input unit and a voice recognition technology may be applied.
  • the controller 30 may include a voice input unit such as a microphone and a voice recognition unit, and may supply commands uttered by the user and information indicating user calls to the information processing apparatus 20 via the communication unit 31. good.
  • the display device 40 includes a receiver 41 and a display 42, as shown in FIG.
  • the receiving unit 41 receives information indicating the display image generated by the image generating unit 224 of the information processing device 20 via the communication unit 21 .
  • the display unit 42 has a monitor such as an LCD (Liquid Crystal Display) or an organic EL, and can present the information to the user by displaying a display image based on the information received by the reception unit 41 .
  • the display device 40 described above may be configured by the dedicated display device shown in FIG. 1, or may be configured by a display device such as an HMD mounted on the user's head.
  • the display unit of the HMD includes a display element such as LCD (Liquid Crystal Display) or organic EL, and an optical device such as a lens. It may be a transmissive display element.
  • wearable devices such as AR (Augmented Reality) glasses and MR (Mixed Reality) glasses may be used as the HMD.
  • the display device 40 described above may be configured by a display device of a computer, or may be configured by a display device of a terminal device such as a smart phone.
  • a touch panel for detecting contact may be provided on the surface of the display unit 42 .
  • the control value calculator 223 of the information processing device 20 calculates the control value for feedback control to the display image displayed on the display device 40 as described above. At this time, the control value calculation unit 223 calculates a control value for feedback control to the display image based on the coordinate information after conversion processing by the conversion processing unit 222 .
  • the coordinate information after conversion processing is the coordinate information converted into the coordinate system in the reference installation state. Therefore, by calculating the control value based on such coordinate information, regardless of the installation state of the camera unit 10, it is possible to calculate the control value for feedback control for generating a display image from a fixed viewpoint. can.
  • coordinate information acquired via the communication unit 21 before conversion processing is performed by the conversion processing unit 222 may be used as an auxiliary when calculating the control value by the control value calculation unit 223 .
  • both the control value based on the coordinate information acquired via the communication unit 21 before the conversion processing is performed by the conversion processing unit 222 and the control value based on the coordinate information after the conversion processing may be calculated.
  • the control value calculation unit 223 calculates a control value indicating how the display image is changed as feedback control according to the user's operation.
  • the calculation of the control value by the control value calculator 223 can be performed according to a predetermined formula, table, or the like.
  • the image generator 224 of the information processing device 20 generates a display image to be displayed on the display device 40 according to the control value calculated by the control value calculator 223, as described above. More specifically, the image generator 224 generates a new display image to be displayed on the display device 40 according to the control value for changing the display image.
  • the control value for feedback to the display image is calculated based on the coordinate information converted into the coordinate system in the reference installation state. Therefore, even if the installation state of the camera unit 10 changes due to vibration or external force, the change can be compensated for and the display image can be continuously generated from a fixed viewpoint. With such a configuration, it is possible to suppress the occurrence of shaking and sudden changes in the display image, and stabilize the content of drawing on the display device 40 .
  • control value calculation unit 223 calculates both the control value based on the coordinate information acquired via the communication unit 21 and the control value based on the coordinate information after conversion processing, detailed drawing is required. By using control values based on the coordinate information acquired via the communication unit 21, it is also possible to realize more delicate drawing for the part.
  • FIG. 7 is a flow chart showing an example of processing of the camera unit 10 according to one embodiment of the present invention.
  • the image sensor 111 of the RGB camera 11 generates the RGB image signal 113 (step S101) and the sensor 121 of the EDS 12 generates the event signal 123 (step S102).
  • the calculation unit 15 calculates coordinate information regarding the user (step S103), and the information output unit 16 outputs coordinate information, posture information, and position information (step S104).
  • the camera unit 10 repeats the processing from step S103 to step S104 (the processing from step S101 to step S102 is also repeated, but the cycle may not necessarily be the same as the processing from step S103 onward), thereby obtaining various information indicating the user's state. can be supplied to the information processing device 20 .
  • FIG. 8 is a flow chart showing an example of processing of the information processing device 20 according to one embodiment of the present invention.
  • the communication section 21 acquires various information supplied from the camera unit 10 (step S201).
  • the warning unit 208 compares the amount of change in posture information with a predetermined threshold (step S202), and if the amount of change is equal to or greater than the predetermined threshold (NO in step S202), performs a warning operation (step S203), The user is prompted to change the setting state of the camera unit 10 .
  • the process proceeds to step S204.
  • the amount of change in position information may be compared with a predetermined threshold. By performing such a determination, it becomes possible to monitor the setting state of the camera unit 10 more strictly and perform a warning operation at an appropriate timing.
  • the estimation unit 221 of the control unit 22 determines the relative relationship between the camera unit 10 and the display device 40.
  • the positional relationship is estimated (step S204), and the conversion processing unit 222 performs coordinate conversion processing on the coordinate information (step S205).
  • the control value calculation unit 223 calculates a control value for feedback control (step S206), the image generation unit 224 generates a display image based on the control value (step S207), and the display image is generated via the communication unit 21. is output (step S208).
  • the camera unit 10 calculates coordinate information about the user based on the RGB image signal 113 and the event signal 123 respectively generated by the image sensor 111 and the sensor 121, and calculates the image. It is output to the information processing device 20 together with the posture information of the sensors 111 and 121 . Then, the information processing device 20 performs coordinate conversion processing on the coordinate information based on the posture information, and generates a display image indicating the state of the user based on the processed coordinate information. Therefore, regardless of changes in the installation state of the camera unit 10, it is possible to generate a display image that more accurately corresponds to the state of the user while suppressing latency. Also, the degree of freedom of the installation position of the camera unit 10 can be improved.
  • the camera unit 10 performs from the generation of the RGB image signal 113 and the event signal 123 to the calculation of the coordinate information about the user, and does not output the RGB image signal 113 and the event signal 123, and the coordinate information, the image sensor 111 and the sensor By outputting H.121 attitude information, the problem of communication load and communication delay can be reduced. Furthermore, since it is not necessary to output the RGB image signal 113 and the event signal 123, it is also useful in terms of privacy protection. In addition, since the camera unit 10 according to one embodiment of the present invention can accept user operations by calculating coordinate information about the user, it is possible to maintain the cursor position like a conventional pointing device type operating device. It does not cause user physical fatigue. In addition, the camera unit 10 does not require the user to wear a marker or an attachment to be recognized, unlike a conventional posture detection type operating device.
  • the camera unit 10 includes both the EDS 12 and the RGB camera 11, recognizes the user based on the event signal 123 with a relatively small time lag, and recognizes the RGB image with a relatively large amount of information. Coordinate information about the recognized user is calculated from the signal 113 . Therefore, it is possible to realize suitable processing that takes advantage of the respective characteristics of the RGB image signal 113 and the event signal 123 .
  • the position information acquisition unit 14 of the camera unit 10 acquires the position information of the image sensor 111 and the sensor 121, and each unit of the control unit 22 of the information processing device 20 acquires the position information and the orientation information. Based on this, the relative positional relationship between the display device 40 and the camera unit 10 is estimated, and coordinate conversion processing is performed based on the estimated positional relationship. Therefore, the installation state of the camera unit 10 can be grasped and reflected in the generation of the display image.
  • the coordinate information calculated by the calculation unit 15 of the camera unit 10 includes coordinate information regarding the user's posture, coordinate information regarding the shape of the user's arm, coordinate information regarding the shape of the user's fingers, Or at least one of coordinate information regarding the posture of the external device worn or held by the user. Therefore, it is possible to grasp characteristic user states and accurately grasp the intention and content of user operations.
  • the calculator 15 of the camera unit 10 is constructed by learning the relationship between the image of a person having multiple joints and the coordinate information indicating the positions of the multiple joints. Based on the learned model, coordinate information of at least one joint of the person included in the first image (RGB image) based on the RGB image signal 113 is calculated. Therefore, it is possible to accurately and quickly calculate the coordinate information regarding the user.
  • the warning unit 225 of the information processing device 20 performs a warning operation when the amount of change in posture information acquired by the IMU 13 of the camera unit 10 exceeds a predetermined threshold. Therefore, it is necessary to change the installation state of the camera unit 10, such as when the installation state of the camera unit 10 is not suitable for calculating the coordinate information, or when the installation state of the camera unit 10 has changed and it is difficult to calculate the coordinate information. If there is, the user can be prompted to change the setting state of the camera unit 10 .
  • FIG. 9 is a block diagram showing a schematic configuration of a system according to another embodiment of the invention.
  • 9 is a block diagram showing the configuration of a system 2 having a server 50 and a terminal device 60 instead of the information processing device 20 of FIG.
  • Constituent elements having functional configurations are given the same reference numerals.
  • the server 50 is a server (for example, a cloud server) communicably connected to the camera unit 10 and the terminal device 60 via the Internet communication network or wirelessly.
  • the server 50 has the same configuration as the information processing apparatus 20 described with reference to FIG. 2, and performs various processes based on the information output by the camera unit 10.
  • the terminal device 60 also includes a communication unit 61 , and the communication unit 61 receives information output from the server 50 .
  • the communication unit 61 can communicate with the controller 30 and outputs an image to be displayed on the display device 40, like the communication unit 21 of the information processing apparatus 20 described with reference to FIG.
  • the camera unit 10 performs from the generation of the RGB image signal 113 and the event signal 123 to the calculation of the coordinate information, and outputs the coordinate information and the orientation information of the camera unit 10 to the server 50.
  • a server such as a cloud server.
  • the camera unit 10 described in each of the above examples includes both the IMU 13 and the position information acquisition unit 14, it may be configured to include only one of them.
  • the estimation section 221 may estimate the relative positional relationship between the display device 40 and the camera unit 10 based on either the orientation information or the position information.
  • the conversion processing unit 222 may perform coordinate conversion processing of the coordinate information based on either the orientation information or the position information.
  • a configuration may be adopted in which part of the processing performed by the information processing device 20 in each of the above examples is performed by the camera unit 10 .
  • the functions of the estimation section 221 in the information processing device 20 may be provided in the camera unit 10 , or the functions of the estimation section 221 and the conversion processing section 222 in the information processing device 20 may be provided in the camera unit 10 .
  • the camera unit 10 outputs coordinate information after coordinate conversion processing.
  • the number of RGB cameras 11 and EDS 12 may be the same or may be different. Also, the number of RGB cameras 11 and EDS 12 may be one or more.
  • the range of the object field for generating the RGB image signals 113 it is possible to expand the range of the object field for generating the RGB image signals 113, or to estimate the state of a person in three dimensions from the plurality of RGB image signals 113. can.
  • the range of the object field for generating the event signal 123 is expanded, and the three-dimensional movement amount of the person is calculated based on the plurality of event signals 123. be able to.
  • the camera unit 10 described in each of the above examples may be implemented within a single device, or may be implemented distributed among a plurality of devices.
  • at least a portion of each sensor may be provided independently, and another configuration may be implemented as the camera unit 10 main body.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Social Psychology (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Psychiatry (AREA)
  • Optics & Photonics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Input (AREA)
  • Image Analysis (AREA)

Abstract

所定のタイミングで全画素を同期的にスキャンすることによって第1画像信号を生成する第1画像センサと、画素ごとに入射する光の強度変化を検出したときに非同期的に第2画像信号を生成するイベント駆動型のビジョンセンサを含む第2画像センサと、第1画像センサ及び第2画像センサの姿勢情報を取得する慣性センサと、少なくとも第2画像信号に基づいてユーザーを認識し、少なくとも第2画像信号に基づいて、ユーザーに関する座標情報を算出する第1の演算処理装置と、姿勢情報に基づいて、座標情報に対する座標変換処理を行う第2の演算処理装置と、座標変換処理後の座標情報に基づいて、ユーザーの状態を示す表示画像を生成する画像生成装置と、を備えるシステムが提供される。

Description

システム、情報処理方法および情報処理プログラム
 本発明は、システム、情報処理方法および情報処理プログラムに関する。
 入射する光の強度変化を検出したピクセルが時間非同期的に信号を生成する、イベント駆動型のビジョンセンサが知られている。イベント駆動型のビジョンセンサは、所定の周期ごとに全ピクセルをスキャンするフレーム型ビジョンセンサ、具体的にはCCDやCMOSなどのイメージセンサに比べて、低電力で高速に動作可能である点で有利である。このようなイベント駆動型のビジョンセンサに関する技術は、例えば特許文献1および特許文献2に記載されている。
特表2014-535098号公報 特開2018-85725号公報
 しかしながら、イベント駆動型のビジョンセンサについては、上記のような利点は知られているものの、他の装置と組み合わせた利用方法については、まだ十分に提案されているとは言いがたい。
 そこで、本発明は、画像センサにより生成した画像信号に基づいてユーザーに関する座標情報を算出し、画像センサの姿勢情報に基づいて、座標情報に対する座標変換を行う。そして、座標変換後の座標情報に基づいて、ユーザーの状態を示す表示画像を生成することにより、レイテンシを抑えつつ、より正確なユーザーの状態に応じた表示画像を生成することができるシステム、情報処理方法および情報処理プログラムを提供することを目的とする。
 本発明のある観点によれば、所定のタイミングで全画素を同期的にスキャンすることによって第1画像信号を生成する第1画像センサと、画素ごとに入射する光の強度変化を検出したときに非同期的に第2画像信号を生成するイベント駆動型のビジョンセンサを含む第2画像センサと、第1画像センサ及び第2画像センサの姿勢情報を取得する慣性センサと、少なくとも第2画像信号に基づいてユーザーを認識し、少なくとも第2画像信号に基づいて、ユーザーに関する座標情報を算出する第1の演算処理装置と、姿勢情報に基づいて、座標情報に対する座標変換処理を行う第2の演算処理装置と、座標変換処理後の座標情報に基づいて、ユーザーの状態を示す表示画像を生成する画像生成装置と、を備えるシステムが提供される。
 本発明の別の観点によれば、表示装置に表示する表示画像を生成する情報処理方法であって、所定のタイミングで全画素を同期的にスキャンする第1画像センサにより生成された第1画像信号と、画素ごとに入射する光の強度変化を検出したときに非同期的に第2画像信号を生成するイベント駆動型のビジョンセンサを含む第2画像センサにより生成された第2画像信号とを取得する取得ステップと、少なくとも第2画像信号に基づいてユーザーを認識し、少なくとも第2画像信号に基づいて、ユーザーに関する座標情報を算出する算出ステップと、第1画像センサ及び第2画像センサの姿勢情報に基づいて、座標情報に対する座標変換処理を行う変換処理ステップと、座標変換処理後の座標情報に基づいて、ユーザーの状態を示す表示画像を生成する画像生成ステップとを含む情報処理方法が提供される。
 本発明のさらに別の観点によれば、所定のタイミングで全画素を同期的にスキャンする第1画像センサにより生成された第1画像信号と、画素ごとに入射する光の強度変化を検出したときに非同期的に第2画像信号を生成するイベント駆動型のビジョンセンサを含む第2画像センサにより生成された第2画像信号とを取得する機能と、少なくとも第2画像信号に基づいてユーザーを認識し、少なくとも第2画像信号に基づいて、ユーザーに関する座標情報を算出する機能と、第1画像センサ及び第2画像センサの姿勢情報に基づいて、座標情報に対する座標変換処理を行う機能と、座標変換処理後の座標情報に基づいて、ユーザーの状態を示す表示画像を生成する機能とをコンピュータに実現させる情報処理プログラムが提供される。
 上記の構成によれば、画像センサにより生成した画像信号に基づいてユーザーに関する座標情報を算出し、画像センサの姿勢情報に基づいて、座標情報に対する座標変換を行う。そして、座標変換後の座標情報に基づいて、ユーザーの状態を示す表示画像を生成することにより、レイテンシを抑えつつ、より正確なユーザーの状態に応じた表示画像を生成することができる。
本発明の一実施形態に係るシステムの全体を示す模式図である。 本発明の一実施形態に係るシステムの概略的な構成を示すブロック図である。 本発明の一実施形態に係るシステムにおける算出部の概略的な構成を示すブロック図である。 本発明の一実施形態におけるカメラユニットの姿勢情報について説明する図である。 本発明の一実施形態におけるカメラユニットの姿勢情報について説明する別の図である。 本発明の一実施形態におけるカメラユニットの姿勢について説明する別の図である。 本発明の一実施形態におけるカメラユニットの位置情報について説明する図である。 本発明の一実施形態におけるカメラユニットの位置情報について説明する別の図である。 本発明の一実施形態に係る処理方法の例を示すフローチャートである。 本発明の一実施形態に係る処理方法の例を示す別のフローチャートである。 本発明の別の実施形態に係るシステムの概略的な構成を示すブロック図である。
 以下、添付図面を参照しながら、本発明のいくつかの実施形態について詳細に説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 図1は、本実施形態に係るシステム1の全体を示す模式図である。
 本実施形態に係るシステム1は、図1に示すように、センサ装置であるカメラユニット10と、情報処理装置20と、コントローラ30と、表示装置40とを含むゲームシステムである。情報処理装置20は、カメラユニット10、コントローラ30、および表示装置40のぞれぞれと有線または無線のネットワークにより接続される。
 システム1では、カメラユニット10およびコントローラ30から送信される情報に応じて情報処理装置20がゲームを進行し、表示装置40が、情報処理装置20の実行時画面、例えばゲーム画面を表示する。
 本実施形態において、カメラユニット10は、ゲームのプレイヤーであるユーザーに関する座標情報を算出して、情報処理装置20に送信する。ここで、ユーザーに関する座標情報とは、ユーザーの姿勢に関する座標情報、ユーザーの腕の形状に関する座標情報、ユーザーの手指の形状に関する座標情報、またはユーザーが装着または保持しているコントローラ30などの外部装置の姿勢に関する座標情報の少なくとも1つを含む。
 カメラユニット10は、ユーザーに関する座標情報を算出して出力することにより、コントローラ30と同様にユーザー操作を受け付けるための操作装置として機能する。このようなカメラユニット10は、ユーザーに関する座標情報を算出するために、被写界にユーザーが収まる位置、例えばユーザーから1メートル程度の距離に配置され、手動または電動で仰角を変更可能である。図1の例では、カメラユニット10は、表示装置40の近傍に配置される。カメラユニット10の配置の詳細は後述する。
 以下、システム1の各構成について説明する。
 図2は、本発明の一実施形態に係るシステムの概略的な構成を示すブロック図である。
 カメラユニット10は、RGBカメラ11と、EDS(Event Driven Sensor)12と、IMU(Inertial Measurement Unit)13と、位置情報取得部14と、第1の演算処理装置として機能する算出部15と、情報出力部16とを含む。
 RGBカメラ11は、第1画像センサであるイメージセンサ111と、イメージセンサ111に接続される処理回路112とを含む。イメージセンサ111は、例えば所定の周期で、またはユーザー操作に応じた所定のタイミングで全ピクセル(全画素)を同期的にスキャンすることによって第1画像信号であるRGB画像信号113を生成する。処理回路112は、例えばRGB画像信号113を保存および伝送に適した形式に変換する。また、処理回路112は、RGB画像信号113にタイムスタンプを与える。
 EDS12は、センサアレイを構成する第2画像センサであるセンサ121と、センサ121に接続される処理回路122とを含む。センサ121は、受光素子を含み、画素ごとに入射する光の強度変化、より具体的には予め定めた所定の値を超える輝度変化を検出したときに第2画像信号であるイベント信号123を生成するイベント駆動型のビジョンセンサである。処理回路122を経て出力されるイベント信号123は、センサ121の識別情報(例えばピクセルの位置)と、輝度変化の極性(上昇または低下)と、タイムスタンプとを含む。また、輝度変化を検出した際に、EDS12は、RGB画像信号113の生成頻度(RGBカメラ11のフレームレート)より大幅に高い頻度でイベント信号123を生成することができる。また、EDS12は、RGB画像信号113の生成頻度(RGBカメラ11のフレームレート)より大幅に高い頻度でイベント信号123を生成することができる。
 なお、本明細書では、当該信号に基づいて画像を構築可能な信号を画像信号という。したがって、RGB画像信号113およびイベント信号123は、画像信号の一例を示す。
 本実施形態において、RGB画像信号113およびイベント信号123に与えられるタイムスタンプは同期している。具体的には、例えば、EDS12でタイムスタンプを生成するために用いられる時刻情報をRGBカメラ11に提供することによって、RGB画像信号113およびイベント信号123に与えられるタイムスタンプを同期させることができる。あるいは、タイムスタンプを生成するための時刻情報がRGBカメラ11とEDS12とでそれぞれ独立している場合、特定のイベント(例えば、画像全体にわたる被写体の変化)が発生した時刻を基準にしてタイムスタンプのオフセット量を算出することによって、事後的にRGB画像信号113およびイベント信号123に与えられるタイムスタンプを同期させることができる。
 また、本実施形態では、事前に実行されるRGBカメラ11とEDS12とのキャリブレーション手順によって、EDS12のセンサ121がRGB画像信号113の1または複数のピクセルに対応付けられ、イベント信号123はRGB画像信号113の1または複数のピクセルにおける光の強度変化に応じて生成される。より具体的には、例えば、RGBカメラ11とEDS12とで共通の校正パターンを撮像し、RGBカメラ11およびEDS12のぞれぞれの内部パラメータおよび外部パラメータからカメラとセンサとの間の対応パラメータを算出することによって、RGB画像信号113の1または複数のピクセルにセンサ121を対応付けることができる。
 IMU13は、カメラユニット10自体、より具体的には、イメージセンサ111およびセンサ121の姿勢を検出する慣性センサである。IMU13は、所定の周期で、または、所定のタイミングでイメージセンサ111およびセンサ121の三次元の姿勢情報を取得する。この姿勢情報は、上述したカメラユニット10の仰角を示す。IMU13は、取得した姿勢情報を、情報出力部16に出力する。
 位置情報取得部14は、例えば、GPS衛星から位置情報を取得し、情報出力部16に出力する。なお、位置情報取得部14は、GPS衛星に代えて、または、加えて、無線基地局からの位置情報等を取得してもよい。
 算出部15は、EDS12において生成されたイベント信号123と、RGBカメラ11において生成されたRGB画像信号113とに基づいて、ユーザーに関する座標情報を算出する。図3は、算出部15の概略的な構成を示すブロック図である。算出部15は、座標算出部151、および学習済みモデル152を含む。
 算出部15の座標算出部151は、例えば、イベント信号123において同じ極性のイベントが発生していることが示される連続した画素領域に存在するオブジェクトを検出し、RGB画像信号113の対応する部分に基づいて被写体認識を行うことによりユーザーを認識する。カメラユニット10の被写界に複数のユーザーが含まれる場合、座標算出部151は、それぞれのユーザーを識別する。
 そして、座標算出部151は、認識したユーザーごとに、学習済みモデル152に基づいて、RGB画像信号113からユーザーが有する複数の関節の位置を示す座標情報を算出する。学習済みモデル152は、例えば、複数の関節を有する人物の画像を入力データとし、人物の複数の関節の位置を示す座標情報を正解データとした教師あり学習を実行することによって予め構築することができる。なお、機械学習の具体的な手法については、公知の各種の技術を利用可能であるため詳細な説明は省略する。また、算出部15に関係性学習部を備え、RGB画像信号113が入力される度に、入力されたRGB画像信号113に基づく画像と関節の位置を示す座標情報との関係性を学習して学習済みモデル152を更新する構成としてもよい。
 さらに、座標算出部151は、認識したユーザーごとに、当該ユーザーが保持するコントローラ30を認識する。座標算出部151は、例えば、座標算出部151により算出したユーザーが有する複数の関節の位置を示す座標情報に基づき、RGB画像信号113のうち、ユーザーの手の近傍に対応する部分について被写体認識を行うことによりコントローラ30を認識する。また、ユーザーがコントローラ30を保持していない場合、座標算出部151は、座標情報の代わりに、「ユーザーがコントローラ30を保持していない」ことを示す情報を算出する。そして、座標算出部151は、認識したコントローラ30の姿勢を推定する。座標算出部151は、例えば、RGB画像信号113のうち、上述した被写体認識の結果に基づいてコントローラ30の形状を推定し、推定した形状に基づいてコントローラ30の姿勢を推定する。なお、コントローラ30がコントローラ30自体の姿勢を検出する慣性センサ等を有する場合、そのセンサの出力を加味してコントローラ30の姿勢の推定を行ってもよい。上述したように被写界に複数のユーザーが含まれる場合、座標算出部151は、それぞれのユーザーが保持するコントローラ30について姿勢を推定する。なお、座標算出部151は、上述した学習済みモデルを用いた機械学習の手法を利用してコントローラ30の姿勢を推定してもよい。
 情報出力部16は、算出部15により算出したユーザーに関する座標情報と、IMU13により取得した姿勢情報と、位置情報取得部14により取得した位置情報とを情報処理装置20に出力する。
 ここまで説明したように、カメラユニット10は、RGB画像信号113およびイベント信号123の生成からユーザーに関する座標情報の算出までを単体で完結し、情報処理装置20に対してRGB画像信号113およびイベント信号123は出力せずに、算出した座標情報および姿勢情報を出力することができる。なお、カメラユニット10は、独立した電源を有することが好ましい。
 ここで、カメラユニット10の配置について説明する。上述したように、カメラユニット10は、被写界にユーザーが収まる位置に配置される。図4Aおよび図4Bは、カメラユニット10の基準設置状態を示す。図4Aは、ユーザーU、カメラユニット10、および表示装置40の位置関係を側方から見た図であり、図4Bは、ユーザーU、カメラユニット10、および表示装置40の位置関係を上方から見た図である。
 基準設置状態とは、図4Aおよび図4Bに示すように、ユーザーUが表示装置40に正対した状態で、カメラユニット10は、表示装置40のユーザーU側に、ユーザーUに正対して配置される状態である。基準設置状態において、ユーザーU、カメラユニット10の撮像方向(矢印C)、表示装置40の表示方向(矢印D)は略平行である。
 なお、このような基準設置状態は、例えば、情報処理装置20によって表示装置40にチュートリアルなどを表示し、ユーザーUにカメラユニット10の正しい配置を促すことにより実現する。この時、カメラユニット10によりテスト撮影を行い、生成されたRGB画像信号113およびイベント信号123を評価することにより、基準設置状態が正しく実現されているかを判断することができる。また、基準設置状態が実現された際に、IMU13により取得した姿勢情報、および、位置情報取得部14により生成された位置情報は、基準設置状態の姿勢情報および位置情報である。基準設置状態の姿勢情報および位置情報は、情報出力部16により出力され、情報処理装置20における情報処理に用いられる。
 ところで、ユーザーUの状態によっては、基準設置状態では算出部15による座標情報の算出が困難な場合がある。例えば、図4Aに示すように、ユーザーUが弓矢を構えるポーズをとり、コントローラ30の中央部分を左手で把持し、右手を動かすことにより仮想の弓V1および矢V2を操作するゲームの例を考える。このような場合は、カメラユニット10から見るとコントローラ30およびユーザーUの両手が重なってしまうおそれがある。そのため、生成されたRGB画像信号113およびイベント信号123においてコントローラ30およびユーザーUの両手を分離して座標情報を算出することは非常に困難である。
 このような場合には、図5に示すように、コントローラ30およびユーザーUの体の各要素が重ならないようにカメラユニット10の設置状態を変更することにより、生成されたRGB画像信号113およびイベント信号123においてコントローラ30およびユーザーUの両手を分離して座標情報を算出することができる。図5は、ユーザーU、カメラユニット10、および表示装置40の位置関係を側方から見た図であり、カメラユニット10の位置は変更せずに、仰角を角度a1だけ変更した例を示す。角度a1は、IMU13により取得される姿勢情報から求めることができる。
 さらに、図6Aおよび図6Bに示すように、カメラユニットの設置状態を変更してもよい。図6Aおよび図6Bは、ユーザーU、カメラユニット10、および表示装置40の位置関係を上方から見た図である。
 図6Aは、カメラユニット10の仰角は変更せずに、ユーザーUから表示装置40を見た際の水平方向において、カメラユニットの位置を距離d1だけ変更した例を示す。距離d1は、位置情報取得部14により取得された位置情報から求めることができる。また、ユーザーUを中心とした回転角度である角度a2は、IMU13により取得される姿勢情報から求めることができる。
 図6Bは、カメラユニット10の仰角は変更せずに、ユーザーUから表示装置40を見た際の水平方向において、カメラユニットの位置を距離d2だけ変更し、さらに、前後方向において、カメラユニットの位置を距離d2だけ変更した例を示す。距離d2およびd3は、位置情報取得部14により取得された位置情報から求めることができる。また、ユーザーUを中心とした回転角度である角度a3は、IMU13により取得される姿勢情報から求めることができる。
 なお、ユーザーUおよび表示装置40に対するカメラユニット10の最適な設置状態は、目的に応じて異なる。例えば、プレイ対象のゲームの内容や、シーン等に応じて、ユーザーの体全体、上半身、手元等、把握する対象が異なるとともに、把握可能な位置も異なる。したがって、上述した基準設置状態と同様に、最適な設置状態についても、例えば、情報処理装置20によって表示装置40にチュートリアルなどを表示することにより、ユーザーUにカメラユニット10の正しい配置を促すとよい。この時、カメラユニット10によりテスト撮影を行い、生成されたRGB画像信号113およびイベント信号123を評価することにより、最適な設置状態が正しく実現されているかを判断することができる。
 再び図2を参照して、情報処理装置20は、例えば通信インターフェース、プロセッサ、およびメモリを有するコンピュータによって実装され、第2の演算処理装置および画像生成装置として機能する通信部21および制御部22を含む。制御部22は、プロセッサがメモリに格納された、または通信インターフェースを介して受信されたプログラムに従って動作することによって実現される推定部221、変換処理部222、制御値算出部223、画像生成部224、および警告部225の各機能を含む。以下、各部の機能についてさらに説明する。
 通信部21は、カメラユニット10の情報出力部16から出力された各情報を受信する。また、通信部21は、コントローラ30と相互に通信可能であるとともに、表示装置40に表示させる表示画像を出力する。
 制御部22の推定部221は、通信部21を介して取得した姿勢情報および位置情報に基づいて、表示装置40とカメラユニット10との相対的な位置関係を推定する。上述したように、ユーザーU、カメラユニット10、および表示装置40の位置関係は、IMU13により取得される姿勢情報、および位置情報取得部14により取得された位置情報から求めることができる。
 変換処理部222は、推定部221により推定した位置関係に基づいて、ユーザーに関する座標情報に対する座標変換処理を行う。より具体的には、変換処理部222は、通信部21を介して取得したユーザーに関する座標情報を、上述した基準設置状態における座標系に変換する座標変換処理を行う。この変換処理は公知の座標変換処理により実現できる。座標変換処理により、カメラユニット10が基準設置状態からずれた状態で生成されたRGB画像信号113およびイベント信号123に基づいて算出された座標情報を、基準設置状態において生成される座標情報に変換することができる。
 制御値算出部223は、通信部21を介して取得した座標情報とコントローラ30から受信した情報との少なくとも一方に基づいて、コントローラ30および表示装置40を含む外部装置へのフィードバック制御の制御値を算出する。上述したように、カメラユニット10およびコントローラ30は、ユーザー操作を受け付けるための操作装置として機能する。そこで、制御値算出部223は、カメラユニット10とコントローラ30との少なくとも一方を介して行われたユーザー操作に応じて、コントローラ30および表示装置40を含む外部装置へのフィードバック制御の制御値を算出する。算出された制御値は、通信部21を介してコントローラ30に出力される。
 画像生成部224は、変換処理部222による座標変換処理後の座標情報に基づいて、ユーザーの状態を示す表示画像を生成する。より具体的には、画像生成部224は、制御値算出部223により算出した制御値に応じて、表示装置40に表示する表示画像を生成する。生成された表示画像は、通信部21を介して表示装置40に出力される。なお、表示画像には、ユーザーの視点を再現したいわゆるFirst Person View画像、ユーザーを外部からみたいわゆるThird Person View画像などが含まれる。どのような表示画像を用いるかは、プレイ対象のゲームの内容や、シーン等目的に応じて定められる。また、制御値の算出、および表示画像の生成の詳細については、後述するコントローラ30および表示装置40の構成の説明と関連して説明を行う。
 警告部225は、姿勢情報または位置情報の変化が所定の閾値を超えた場合に、警告動作を行う。警告動作とは、例えば、表示装置40による警告メッセージの表示、および音声による警告メッセージの出力等が考えられる。
 姿勢情報または位置情報の変化が所定の閾値を超えた場合とは、カメラユニット10の設置状態が座標情報の算出にふさわしくない、あるいはカメラユニット10の設置状態が変化してしまい、座標情報の算出が困難である等、カメラユニット10の設置状態を変更する必要がある場合である。一方、変化量が所定の閾値未満である場合とは、カメラユニット10の設置状態が座標情報の算出に適した状態である、あるいは、カメラユニット10の設置状態が変化していたとしても、上述した各部による処理によって、その変化を補完可能な範囲であるため、カメラユニット10の設置状態を変更する必要がない場合である。なお、閾値は目的に応じて変更してもよい。例えば、プレイ対象のゲームの内容や、シーン等に応じた許容範囲に基づき、閾値を変更してもよい。
 コントローラ30は、図2に示すように、通信部31、操作部32、力覚提示部33、振動部34、および音声出力部35を含む。ユーザーはコントローラ30を操作することによりゲームに関する各種操作を行うことができる。
 通信部31は、情報処理装置20の通信部21から出力された制御値を受信して、力覚提示部33、振動部34、および音声出力部35の各部に出力する。また、通信部31は、操作部32により受け付けたユーザー操作に関する情報を、情報処理装置20に出力する。
 操作部32は、ボタンおよびパッドなどの複数の操作子を備え、操作子に対するユーザーの操作入力を受け付ける。
 力覚提示部33は、操作部32の少なくとも一部の操作子に設けられ、情報処理装置20から供給される制御値にしたがい、ユーザー操作に抗する、あるいは連動する力をユーザーに提示する。具体的に、力覚提示部33は、回転するロータを含むモータやアクチュエータ等で構成できる。力覚提示部33を構成する力覚提示装置については広く知られたものを採用できるので、ここでの詳しい説明を省略する。
 振動部34は、情報処理装置20から供給される制御値にしたがい、振動を発生するものであり、例えばモータにより構成できる。振動部34は、ユーザー操作が行われた場合に振動を発生することにより、ユーザー操作が正しく行われ、情報処理装置20に認識されたことをユーザーに通知することが可能である。
 音声出力部35は、情報処理装置20から供給される制御値にしたがい、音声を出力するものであり、例えばスピーカにより構成できる。音声出力部35は、ユーザー操作が行われた場合に音声を出力することにより、ユーザー操作が正しく行われ、情報処理装置20に認識されたことをユーザーに通知することが可能である。
 なお、上述した力覚提示部33による力覚の提示と連動して、振動部34による振動と、音声出力部35による音声出力との少なくとも一方が行われることにより、ユーザーへのフィードバック制御の多様性を高めることが可能である。
 情報処理装置20の制御値算出部223は、上述したように、コントローラ30へのフィードバック制御の制御値を算出するが、より具体的には、コントローラ30の力覚提示部33、振動部34、および音声出力部35へのフィードバック制御の制御値を算出する。このとき、制御値算出部223は、変換処理部222により変換処理を行う前の、通信部21を介して取得した座標情報に基づいて、コントローラ30へのフィードバック制御の制御値を算出する。通信部21を介して取得した座標情報は、コントローラ30およびユーザーUの体の各要素が重ならない最適な設置状態での座標情報である。そのため、このような座標情報に基づいて制御値を算出することにより、ユーザーの状態を正確に把握して反映することが可能な制御値を算出することができる。なお、制御値算出部223による制御値の算出の際に、変換処理部222による座標変換処理後の座標情報を補助的に利用してもよい。
 力覚提示部33に関して、制御値算出部223は、ユーザー操作に応じたフィードバック制御としてどのような力覚を提示させるかを示す制御値を算出する。振動部34に関して、制御値算出部223は、ユーザー操作に応じたフィードバック制御としてどのような振動を発生させるかを提示するかを示す制御値を算出する。音声出力部35に関して、制御値算出部223は、ユーザー操作に応じたフィードバック制御としてどのような音声を出力させるかを示す制御値を算出する。制御値算出部223による制御値の算出は、予め定められた計算式やテーブル等にしたがって行うことができる。
 なお、ここまで説明したコントローラ30には公知の様々な構成を適用することが可能である。例えば、両手のそれぞれに把持可能な一対のコントローラにより構成されてもよいし、キーボートのような文字入力が可能なコントローラにより構成されてもよいし、スマートフォンなどのアプリケーションにより構成されてもよい。
 また、コントローラ30に、音声入力部を備え、音声認識技術を適用してもよい。例えば、コントローラ30にマイクなどの音声入力部と音声認識部とを備え、ユーザーが発声するコマンドや、ユーザーの呼びかけなどを示す情報を、通信部31を介して情報処理装置20に供給してもよい。
 表示装置40は、図2に示すように、受信部41、および表示部42を含む。
 受信部41は、情報処理装置20の画像生成部224が生成した表示画像を示す情報を、通信部21を介して受信する。
 表示部42は、例えばLCD(Liquid Crystal Display)や有機ELなどのモニタを備え、受信部41により受信した情報に基づき、表示画像を表示することにより、ユーザーに提示することが可能である。
 なお、上述した表示装置40には公知の様々な構成を適用することが可能である。例えば、図1に示した専用の表示装置により構成されてもよいし、ユーザーの頭部に装着されるHMDなどの表示装置により構成されてもよい。例えば、HMDの表示部は、例えばLCD(Liquid Crystal Display)、有機ELなどの表示素子と、レンズなどの光学装置とを備え、表示素子は、透過型の表示素子であってもよいし、非透過型の表示素子であってもよい。さらに、AR(Augmented Reality)グラス、MR(Mixed Reality)グラスなどの装着型デバイスをHMDとして使用してもよい。また、上述した表示装置40は、コンピュータの表示装置により構成されてもよいし、スマートフォンなどの端末装置の表示装置により構成されてもよい。また、表示部42の表面に接触を検知するタッチパネルを備えてもよい。
 情報処理装置20の制御値算出部223は、上述したように、表示装置40に表示する表示画像へのフィードバック制御の制御値を算出する。このとき、制御値算出部223は、変換処理部222による変換処理後の座標情報に基づいて、表示画像へのフィードバック制御の制御値を算出する。変換処理後の座標情報は、基準設置状態における座標系に変換された座標情報である。そのため、このような座標情報に基づいて制御値を算出することにより、カメラユニット10の設置状態にかかわらず、一定の視点からの表示画像を生成するためのフィードバック制御の制御値を算出することができる。
 なお、制御値算出部223による制御値の算出の際に、変換処理部222により変換処理を行う前の、通信部21を介して取得した座標情報を補助的に利用してもよい。また、変換処理部222により変換処理を行う前の、通信部21を介して取得した座標情報に基づく制御値と、変換処理後の座標情報に基づく制御値との両方を算出してもよい。
 制御値算出部223は、ユーザー操作に応じたフィードバック制御として表示画像をどのように変化させるかを示す制御値を算出する。制御値算出部223による制御値の算出は、予め定められた計算式やテーブル等にしたがって行うことができる。
 情報処理装置20の画像生成部224は、上述したように、制御値算出部223により算出した制御値に応じて表示装置40に表示する表示画像を生成する。より具体的には、画像生成部224は、表示画像を変化させるための制御値にしたがって、新たに表示装置40に表示する表示画像を生成する。上述したように、表示画像へのフィードバックの制御値は、基準設置状態における座標系に変換された座標情報に基づいて算出される。そのため、振動や外部からの力によってカメラユニット10の設置状態が変化したとしても、その変化を補完し、一定の視点からの表示画像を生成し続けることができる。このような構成により、表示画像における揺れの発生や突発的な変化等を抑え、表示装置40における描画の内容を安定させることができる。
 なお、制御値算出部223が、通信部21を介して取得した座標情報に基づく制御値と、変換処理後の座標情報に基づく制御値との両方を算出する場合に、詳細な描画が必要な部分については通信部21を介して取得した座標情報に基づく制御値を用いることにより、より繊細な描画を実現することも可能である。
 図7は、本発明の一実施形態に係るカメラユニット10の処理の例を示すフローチャートである。図示された例では、RGBカメラ11のイメージセンサ111がRGB画像信号113を生成する(ステップS101)とともに、EDS12のセンサ121がイベント信号123を生成する(ステップS102)。
 そして、算出部15がユーザーに関する座標情報を算出し(ステップS103)、情報出力部16が座標情報、姿勢情報、および位置情報を出力する(ステップS104)。
 カメラユニット10はステップS103からステップS104の処理を繰り返す(ステップS101からS102の処理も繰り返されるが、必ずしもステップS103以降の処理と同じ周期でなくてもよい)ことにより、ユーザーの状態を示す各種情報を情報処理装置20に供給することが可能である。
 図8は、本発明の一実施形態に係る情報処理装置20の処理の例を示すフローチャートである。図示された例では、通信部21がカメラユニット10から供給された各種情報を取得する(ステップS201)。
 そして、警告部208が姿勢情報の変化量と所定の閾値とを比較し(ステップS202)、変化量が所定の閾値以上である場合(ステップS202NO)には、警告動作を行い(ステップS203)、ユーザーにカメラユニット10の設定状態の変更を促す。
 一方、変化量が所定の閾値未満である場合(ステップS202YES)には、ステップS204に進む。
 なお、ステップS202の判定処理においては、姿勢情報の変化量に代えて、または加えて、位置情報の変化量と所定の閾値とを比較してもよい。このような判定を行うことにより、カメラユニット10の設定状態をより厳密に監視し、適切なタイミングで警告動作を行うことが可能となる。
 変化量が所定の閾値未満である、あるいは、警告動作を経て変化量が所定の閾値未満となった場合には、制御部22の推定部221がカメラユニット10と表示装置40との相対的な位置関係を推定し(ステップS204)、変換処理部222が座標情報に対する座標変換処理を行う(ステップS205)。
 次に、制御値算出部223がフィードバック制御の制御値を算出し(ステップS206)、画像生成部224が制御値に基づいて表示画像を生成し(ステップS207)、通信部21を介して表示画像を出力する(ステップS208)。
 以上で説明したような本発明の一実施形態では、カメラユニット10は、イメージセンサ111およびセンサ121によりそれぞれ生成したRGB画像信号113およびイベント信号123に基づいて、ユーザーに関する座標情報を算出し、イメージセンサ111およびセンサ121の姿勢情報とともに情報処理装置20に出力する。そして、情報処理装置20は、姿勢情報に基づいて、座標情報に対する座標変換処理を行い、処理後の座標情報に基づいて、ユーザーの状態を示す表示画像を生成する。
 したがって、カメラユニット10の設置状態の変化にかかわらず、レイテンシを抑えつつ、より正確なユーザーの状態に応じた表示画像を生成することができる。また、カメラユニット10の設置位置の自由度を向上させることができる。
 また、RGB画像信号113およびイベント信号123の生成からユーザーに関する座標情報の算出までをカメラユニット10で行い、RGB画像信号113およびイベント信号123は出力せずに、座標情報と、イメージセンサ111およびセンサ121の姿勢情報とを出力することにより、通信負荷や通信遅延の問題を低減することができる。さらに、RGB画像信号113およびイベント信号123を出力する必要がないため、プライバシー保護の点でも有用である。
 また、本発明の一実施形態のカメラユニット10は、ユーザーに関する座標情報を算出することによりユーザー操作を受け付けることができるため、従来のポインティングデバイス方式の操作装置のようにカーソル位置を維持するためにユーザーの肉体疲労を引き起こすこともない。また、カメラユニット10は、従来の姿勢検出方式の操作装置のように認識対象となるマーカーやアタッチメントをユーザーに装着させる必要もない。
 また、本発明の一実施形態では、カメラユニット10がEDS12およびRGBカメラ11の両方を備え、タイムラグが相対的に小さいイベント信号123に基づいてユーザーを認識し、情報量が相対的に多いRGB画像信号113から認識したユーザーに関する座標情報を算出する。そのため、RGB画像信号113およびイベント信号123のそれぞれの特性を活かした好適な処理を実現することができる。
 また、本発明の一実施形態では、カメラユニット10の位置情報取得部14がイメージセンサ111およびセンサ121の位置情報を取得し、情報処理装置20の制御部22の各部が位置情報および姿勢情報に基づいて、表示装置40とカメラユニット10との相対的な位置関係を推定し、推定した位置関係に基づいて座標変換処理を行う。したがって、カメラユニット10の設置状態を把握し、表示画像の生成に反映することができる。
 また、本発明の一実施形態では、カメラユニット10の算出部15により算出される座標情報は、ユーザーの姿勢に関する座標情報、ユーザーの腕の形状に関する座標情報、ユーザーの手指の形状に関する座標情報、またはユーザーが装着または保持している外部装置の姿勢に関する座標情報の少なくとも1つを含む。したがって、特徴的なユーザーの状態を把握し、ユーザー操作の意図や内容を的確に把握することができる。
 また、本発明の一実施形態では、カメラユニット10の算出部15は、複数の関節を有する人物の画像と、複数の関節の位置を示す座標情報との関係性を学習することによって構築された学習済みモデルに基づいて、RGB画像信号113に基づく第1画像(RGB画像)に含まれる人物の少なくとも1つの関節の座標情報を算出する。したがって、ユーザーに関する座標情報を的確かつ高速に算出することができる。
 また、本発明の一実施形態では、カメラユニット10のIMU13により取得された姿勢情報の変化量が所定の閾値を超えた場合に、情報処理装置20の警告部225が警告動作を行う。したがって、カメラユニット10の設置状態が座標情報の算出にふさわしくない、あるいはカメラユニット10の設置状態が変化してしまい、座標情報の算出が困難である等、カメラユニット10の設置状態を変更する必要がある場合に、ユーザーにカメラユニット10の設定状態の変更を促すことができる。
 図9は、本発明の別の実施形態に係るシステムの概略的な構成を示すブロック図である。なお、図9は、図2の情報処理装置20に代えて、サーバ50および端末装置60を備えたシステム2の構成を示すブロック図であり、図9においては、図2と実質的に同一の機能構成を有する構成要素については、同一の符号を付する。
 図9の例においては、サーバ50は、カメラユニット10および端末装置60とインターネット通信網や、無線によって通信可能に接続されたサーバ(例えば、クラウドサーバ)である。サーバ50は、図2で説明した情報処理装置20と同様の構成を有し、カメラユニット10により出力された情報に基づく各種処理を行う。また、端末装置60は、通信部61を備え、通信部61は、サーバ50から出力された情報を受信する。また、通信部61は、図2で説明した情報処理装置20の通信部21と同様に、コントローラ30と相互に通信可能であるとともに、表示装置40に表示させる画像を出力する。
 このような構成により、RGB画像信号113およびイベント信号123の生成から座標情報の算出までをカメラユニット10で行い、サーバ50には座標情報とカメラユニット10の姿勢情報等とを出力することにより、クラウドサーバなどのサーバを用いたゲームシステムにおいても同様の効果を得ることができる。
 なお、上記の各例で説明されたカメラユニット10は、IMU13および位置情報取得部14の両方を備える例を示したが、一方のみを備える構成としてもよい。この場合、推定部221は、姿勢情報および位置情報の何れかに基づいて表示装置40とカメラユニット10との相対的な位置関係を推定すればよい。また、変換処理部222は、姿勢情報および位置情報の何れかに基づいて座標情報の座標変換処理を行えば良い。
 また、上記の各例において情報処理装置20で行った処理の一部をカメラユニット10で行う構成としてもよい。例えば、情報処理装置20における推定部221の機能をカメラユニット10内に備えてもよいし、情報処理装置20における推定部221および変換処理部222の機能をカメラユニット10内に備えてもよい。この場合、カメラユニット10は、座標変換処理後の座標情報を出力する。
 また、上記の各例において、RGBカメラ11およびEDS12の数は同数であってもよいし、異なる数であってもよい。また、RGBカメラ11およびEDS12の数は、それぞれ1つであってもよいし、複数であってもよい。例えば、複数のRGBカメラ11を備える場合には、RGB画像信号113を生成する被写界のレンジを拡大したり、複数のRGB画像信号113から人物の状態を三次元で推定したりすることができる。また、例えば、複数のEDS12を備える場合には、イベント信号123を生成する被写界のレンジを拡大したり、複数のイベント信号123に基づいて、人物の三次元の移動量を算出したりすることができる。
 また、上記の各例で説明されたカメラユニット10は、単一の装置内で実装されてもよいし、複数の装置に分散して実装されてもよい。例えば、各センサの少なくとも一部を独立に備え、その他の構成をカメラユニット10本体として実装してもよい。
 以上、添付図面を参照しながら本発明のいくつかの実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
 1・2…システム、10…カメラユニット、11…RGBカメラ、12…EDS、13…IMU、14…位置情報取得部、15…算出部、16…情報出力部、20…情報処理装置、21・31・61…通信部、22…制御部、32…操作部、33…力覚提示部、34…振動部、35…音声出力部、40…表示装置、42…表示部、50…サーバ、60…端末装置、111…イメージセンサ、112・122…処理回路、113…RGB画像信号、121…センサ、123…イベント信号、221…推定部、222…変換処理部、223…制御値算出部、224…画像生成部、225…警告部。

Claims (8)

  1.  所定のタイミングで全画素を同期的にスキャンすることによって第1画像信号を生成する第1画像センサと、
     画素ごとに入射する光の強度変化を検出したときに非同期的に第2画像信号を生成するイベント駆動型のビジョンセンサを含む第2画像センサと、
     前記第1画像センサ及び前記第2画像センサの姿勢情報を取得する慣性センサと、
     少なくとも前記第2画像信号に基づいてユーザーを認識し、少なくとも前記第2画像信号に基づいて、前記ユーザーに関する座標情報を算出する第1の演算処理装置と、
     前記姿勢情報に基づいて、前記座標情報に対する座標変換処理を行う第2の演算処理装置と、
     前記座標変換処理後の前記座標情報に基づいて、前記ユーザーの状態を示す表示画像を生成する画像生成装置と、を備えるシステム。
  2.  前記第1画像センサおよび前記第2画像センサの位置情報を取得する位置情報取得部と、
     前記位置情報と前記姿勢情報とに基づいて、前記表示画像を表示する表示装置と前記第1画像センサおよび前記第2画像センサとの相対的な位置関係を推定する推定部とをさらに備え、
     前記第2の演算処理装置は、前記位置関係に基づいて前記座標変換処理を行う、請求項1に記載のシステム。
  3.  前記座標情報は、前記ユーザーの姿勢に関する座標情報、前記ユーザーの腕の形状に関する座標情報、前記ユーザーの手指の形状に関する座標情報、または前記ユーザーが装着または保持している外部装置の姿勢に関する座標情報の少なくとも1つを含む、請求項1または請求項2に記載のシステム。
  4.  前記第1の演算処理装置は、複数の関節を有する人物の画像と、前記複数の関節の位置を示す座標情報との関係性を学習することによって構築された学習済みモデルに基づいて、前記ユーザーの少なくとも1つの関節の座標情報を算出する、請求項1から請求項3のいずれか1項に記載のシステム。
  5.  前記姿勢情報の変化が所定の閾値を超えた場合に、警告動作を行う警告部をさらに備える、請求項1から請求項4のいずれか1項に記載のシステム。
  6.  前記第1画像センサと、前記第2画像センサと、前記慣性センサと、前記第1の演算処理装置と含むセンサ装置と、
     前記第2の演算処理装置と、前記画像生成装置とを含む情報処理装置と、を含むシステムであって、
     前記センサ装置は、前記姿勢情報と、前記座標情報とを前記情報処理装置に出力する、請求項1から請求項5のいずれか1項に記載のシステム。
  7.  表示装置に表示する表示画像を生成する情報処理方法であって、
     所定のタイミングで全画素を同期的にスキャンする第1画像センサにより生成された第1画像信号と、画素ごとに入射する光の強度変化を検出したときに非同期的に第2画像信号を生成するイベント駆動型のビジョンセンサを含む第2画像センサにより生成された前記第2画像信号とを取得する取得ステップと、
     少なくとも前記第2画像信号に基づいてユーザーを認識し、少なくとも前記第2画像信号に基づいて、前記ユーザーに関する座標情報を算出する算出ステップと、
     前記第1画像センサ及び前記第2画像センサの姿勢情報に基づいて、前記座標情報に対する座標変換処理を行う変換処理ステップと、
     前記座標変換処理後の前記座標情報に基づいて、前記ユーザーの状態を示す前記表示画像を生成する画像生成ステップと
     を含む情報処理方法。
  8.  所定のタイミングで全画素を同期的にスキャンする第1画像センサにより生成された第1画像信号と、画素ごとに入射する光の強度変化を検出したときに非同期的に第2画像信号を生成するイベント駆動型のビジョンセンサを含む第2画像センサにより生成された前記第2画像信号とを取得する機能と、
     少なくとも前記第2画像信号に基づいてユーザーを認識し、少なくとも前記第2画像信号に基づいて、前記ユーザーに関する座標情報を算出する機能と、
     前記第1画像センサ及び前記第2画像センサの姿勢情報に基づいて、前記座標情報に対する座標変換処理を行う機能と、
     前記座標変換処理後の前記座標情報に基づいて、前記ユーザーの状態を示す表示画像を生成する機能と
     をコンピュータに実現させる情報処理プログラム。
PCT/JP2022/013836 2021-04-13 2022-03-24 システム、情報処理方法および情報処理プログラム WO2022220049A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/554,028 US20240127629A1 (en) 2021-04-13 2022-03-24 System, information processing method, and information processing program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021067661A JP7434207B2 (ja) 2021-04-13 2021-04-13 システム、情報処理方法および情報処理プログラム
JP2021-067661 2021-04-13

Publications (1)

Publication Number Publication Date
WO2022220049A1 true WO2022220049A1 (ja) 2022-10-20

Family

ID=83640590

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/013836 WO2022220049A1 (ja) 2021-04-13 2022-03-24 システム、情報処理方法および情報処理プログラム

Country Status (3)

Country Link
US (1) US20240127629A1 (ja)
JP (1) JP7434207B2 (ja)
WO (1) WO2022220049A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010045658A (ja) * 2008-08-14 2010-02-25 Sony Corp 情報処理装置、情報処理方法および情報処理プログラム
JP2017191576A (ja) * 2016-04-15 2017-10-19 キヤノン株式会社 情報処理装置、情報処理装置の制御方法およびプログラム
JP2020086836A (ja) * 2018-11-22 2020-06-04 株式会社デンソーアイティーラボラトリ 情報処理装置、情報処理方法およびプログラム
JP2020181123A (ja) * 2019-04-26 2020-11-05 塁 佐藤 カラオケ演出システム
JP2021048456A (ja) * 2019-09-17 2021-03-25 株式会社東芝 画像処理装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010045658A (ja) * 2008-08-14 2010-02-25 Sony Corp 情報処理装置、情報処理方法および情報処理プログラム
JP2017191576A (ja) * 2016-04-15 2017-10-19 キヤノン株式会社 情報処理装置、情報処理装置の制御方法およびプログラム
JP2020086836A (ja) * 2018-11-22 2020-06-04 株式会社デンソーアイティーラボラトリ 情報処理装置、情報処理方法およびプログラム
JP2020181123A (ja) * 2019-04-26 2020-11-05 塁 佐藤 カラオケ演出システム
JP2021048456A (ja) * 2019-09-17 2021-03-25 株式会社東芝 画像処理装置

Also Published As

Publication number Publication date
US20240127629A1 (en) 2024-04-18
JP2022162703A (ja) 2022-10-25
JP7434207B2 (ja) 2024-02-20

Similar Documents

Publication Publication Date Title
JP6465672B2 (ja) 情報処理装置および情報処理方法
CN109685915B (zh) 一种图像处理方法、装置及移动终端
US11360545B2 (en) Information processing device, information processing method, and program
WO2019155840A1 (ja) 情報処理装置、情報処理方法、およびプログラム
KR20190067523A (ko) 글래스 타입 단말기 및 그것의 동작방법
KR20220125362A (ko) 각도 감지 검출기들을 포함하는 머리-착용 디스플레이 시스템들에 대한 위치 추적 시스템
JP6494305B2 (ja) 情報処理装置、表示装置、および情報処理方法
CN111630852A (zh) 信息处理设备、信息处理方法和程序
JP7300436B2 (ja) 情報処理装置、システム、情報処理方法および情報処理プログラム
WO2022220049A1 (ja) システム、情報処理方法および情報処理プログラム
US20210400234A1 (en) Information processing apparatus, information processing method, and program
JP2020154569A (ja) 表示装置、表示制御方法、及び表示システム
CN113050278B (zh) 显示系统、显示方法以及记录介质
WO2018123022A1 (ja) コンピュータプログラム、表示装置、頭部装着型表示装置、マーカ
WO2022220048A1 (ja) システム、情報処理方法および情報処理プログラム
JP7394046B2 (ja) システム、撮像装置、情報処理装置、情報処理方法および情報処理プログラム
US11954269B2 (en) Information processing apparatus, information processing method, and program for generating location data
JP2021022075A (ja) 映像表示制御装置、方法およびプログラム
US10741028B2 (en) Output control device, output controlling method and program
WO2017098999A1 (ja) 情報処理装置、情報処理システム、情報処理装置の制御方法、及び、コンピュータープログラム
US20230076335A1 (en) Remote control system, and remote operation apparatus, video image processing apparatus, and computer-readable medium
WO2021130986A1 (ja) 映像表示装置及び映像表示方法
JP2018085595A (ja) 頭部装着型表示装置、及び、頭部装着型表示装置の制御方法
KR20160027813A (ko) 글래스형 단말기
CN111432155A (zh) 视频通话方法、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22787974

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 18554028

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 22787974

Country of ref document: EP

Kind code of ref document: A1